CN107492382A - 基于神经网络的声纹信息提取方法及装置 - Google Patents

基于神经网络的声纹信息提取方法及装置 Download PDF

Info

Publication number
CN107492382A
CN107492382A CN201610421908.9A CN201610421908A CN107492382A CN 107492382 A CN107492382 A CN 107492382A CN 201610421908 A CN201610421908 A CN 201610421908A CN 107492382 A CN107492382 A CN 107492382A
Authority
CN
China
Prior art keywords
neutral net
voiceprint
vector
sound
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610421908.9A
Other languages
English (en)
Other versions
CN107492382B (zh
Inventor
薛少飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610421908.9A priority Critical patent/CN107492382B/zh
Priority to EP17813898.8A priority patent/EP3469582B1/en
Priority to JP2018559969A priority patent/JP6993353B2/ja
Priority to PCT/US2017/037145 priority patent/WO2017218465A1/en
Priority to US15/621,162 priority patent/US10176811B2/en
Publication of CN107492382A publication Critical patent/CN107492382A/zh
Application granted granted Critical
Publication of CN107492382B publication Critical patent/CN107492382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明揭示了一种基于神经网络的声纹信息提取方法及装置,其中,所述方法包括:对输入的语音片段提取语音声学特征;将所述语音声学特征输入基于神经网络训练的声纹模型中,并提取所述声纹模型中神经网络的瓶颈特征;将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量,作为与所述输入的语音片段对应的声纹信息。本发明的基于神经网络的声纹信息提取方法及装置,通过基于神经网络训练的声纹模型对语音片段提取声纹信息,提取过程较为简单,且能够更好的处理短时语音片段。

Description

基于神经网络的声纹信息提取方法及装置
技术领域
本发明涉及计算机领域,尤其是涉及一种基于神经网络的声纹信息提取方法及装置。
背景技术
声纹信息通常指能够表征说话人的信息,是一种通过语音波形反映说话人生理和行为特征的语音信息。声纹信息可被广泛应用于说话人识别、说话人确认、语音识别的说话人自适应等任务。快速有效的声纹信息提取对于提升上述任务的性能具有重要意义。
i‐vector是说话人识别的主流技术。在i‐vector中,每一个说话人拥有一个能够在不同说话人间被区分开的矢量。
通常地,i‐vector需要分别建模说话人空间和信道空间,并代入变化因子进行计算,才可对输入的语音提取表征声纹信息的矢量,其训练和声纹信息提取过程比较复杂。
发明内容
本发明的目的在于提供一种基于神经网络的声纹信息提取方法及装置,通过所述方法及装置,可简化声纹信息的提取过程。
为实现上述发明目的之一,本发明一实施方式提供了一种神经网络的声纹信息提取方法,所述方法包括:
对输入的语音片段提取语音声学特征;
将所述语音声学特征输入基于神经网络训练的声纹模型中,并提取所述声纹模型中神经网络的瓶颈特征;
将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量,作为与所述输入的语音片段对应的声纹信息。
作为本发明一实施方式的进一步改进,“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括:
将所述神经网络的瓶颈特征的各帧矢量加权处理,计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。
作为本发明一实施方式的进一步改进,“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括:
将所述神经网络的瓶颈特征的各帧矢量进行i‐vector建模,通过i‐vector模型计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。
作为本发明一实施方式的进一步改进,所述方法包括训练神经网络,其包括:
将训练语音片段提取到的语音声学特征作为神经网络的输入数据;
将训练语音片段对应的分类标签作为神经网络的输出数据;
通过神经网络分类所述输入数据,及比较分类结果与所述输出数据的对应关系训练出声纹模型。
作为本发明一实施方式的进一步改进,所述神经网络从底层向上层依次包括:输入层、双向循环神经网络层、全连接层,以及输出层。
作为本发明一实施方式的进一步改进,所述神经网络从底层向上层依次包括:输入层、双向循环神经网络层、卷积神经网络层、全连接层,以及输出层。
作为本发明一实施方式的进一步改进,所述神经网络的瓶颈特征为语音声学特征在声纹模型中全连接层的输出。
为实现上述发明目的之一,本发明一实施方式提供了一种神经网络的声纹信息提取模块,所述模块包括:
语音声学特征提取模块,用于对输入的语音片段提取语音声学特征;
处理模块,用于将所述语音声学特征输入基于神经网络训练的声纹模型中,并提取所述声纹模型中神经网络的瓶颈特征;
声纹信息计算模块,用于将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量,作为与所述输入的语音片段对应的声纹信息。
作为本发明一实施方式的进一步改进,所述声纹信息计算模块用于:
将所述神经网络的瓶颈特征的各帧矢量加权处理,计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。
作为本发明一实施方式的进一步改进,所述声纹信息计算模块用于:
将所述神经网络的瓶颈特征的各帧矢量进行i‐vector建模,通过i‐vector模型计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。
作为本发明一实施方式的进一步改进,所述装置还包括神经网络训练模块,用于:
将训练语音片段提取到的语音声学特征作为神经网络的输入数据;
将训练语音片段对应的分类标签作为神经网络的输出数据;
通过神经网络分类所述输入数据,及比较分类结果与所述输出数据的对应关系训练出声纹模型。
作为本发明一实施方式的进一步改进,所述神经网络从底层向上层依次包括:输入层、双向循环神经网络层、全连接层,以及输出层。
作为本发明一实施方式的进一步改进,所述神经网络从底层向上层依次包括:输入层、双向循环神经网络层、卷积神经网络层、全连接层,以及输出层。
作为本发明一实施方式的进一步改进,所述神经网络的瓶颈特征为语音声学特征在声纹模型中全连接层的输出。
相对于现有技术,本发明的基于神经网络的声纹信息提取方法及装置,通过基于神经网络训练的声纹模型对语音片段提取声纹信息,提取过程较为简单,且能够更好的处理短时语音片段。
附图说明
图1是本发明一实施方式中声纹模型的结构示意图。
图2是本发明一实施方式中基于神经网络的声纹信息提取方法的流程图。
图3是本发明一实施方式中基于神经网络的声纹信息提取装置的模块图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹都有差异。
声纹信息是通过滤波器、模型等方法提取出的能够表征说话人的信息,并具有较高区分性的声纹表示。它可被用于声纹识别系统,即说话人识别和确认,前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要识别技术,而银行交易时则需要确认技术。
声纹信息还可以被用于语音识别的说话人自适应系统,说话人自适应通过将说话人相关的语音特征变换为说话人无关的语音特征或将说话人无关的声纹模型变换为说话人相关的声纹模型来使待测目标说话人的语音特征与其声纹模型更加匹配,从而得到更好的识别效果。而实现这些变换的一种重要方法就是提取说话人语音的声纹信息。
本发明通过基于神经网络训练的声纹模型提取语音的声纹信息,大大简化了提取过程和建模过程,并且提取出的声纹信息质量较高。
如图1所示,本发明的用于提取声纹信息的声纹模型是基于神经网络训练的。在本发明一实施方式中,该神经网络从底层向上层依次包括:输入层、双向循环神经网络层、全连接层,以及输出层,即是进入该神经网络的数据依次经过输入层、双向循环神经网络层、全连接层后,到达输出层。其中,所述全连接层包括了至少一层全连接网络。
本实施方式的神经网络采用了双向循环神经网络层(双向RNN),即包括了正向传播层和反向传播层的BLSTM网络,如此,可在完整的时间序列里,由前后时间帧共同分析当前时间帧的语音声学特征,使所述声纹模型提取神经网络的瓶颈特征更加精确。
在本发明另一实施方式中,所述神经网络从底层向上层依次包括:输入层、双向循环神经网络层、卷积神经网络层、全连接层,以及输出层,即是进入该神经网络的数据依次经过输入层、双向循环神经网络层、卷积神经网络层、全连接层后,到达输出层。
本实施方式在上述实施方式的基础上,还增加了卷积神经网络层(CNN),如此,可将多个帧的语音声学特征合并为较少的帧数,降低了帧率,以在后续提取出更优的神经网络的瓶颈特征。
上述神经网络架构中各层所涉及的网络结构和特性,如双向循环神经网络、卷积神经网络、全连接网络等,均是本领域技术人员可通过现有技术熟练掌握,在此不再赘述。以下主要以如何在上述神经网络基础上,提取声纹信息为主进行说明。
进一步地,在进行声纹信息提取前,需先对上述神经网络进行训练。在本实施方式中,通过GPU加速训练所述神经网络为声纹模型,其方法包括:
将训练语音片段提取到的语音声学特征作为神经网络的输入数据;
将训练语音片段对应的分类标签作为神经网络的输出数据;
通过神经网络分类所述输入数据,及比较分类结果与所述输出数据的对应关系训练出声纹模型。
在本实施方式中,采用说话人作为分类标签,即一个说话人对应至少一训练语音片段。该训练神经网络的方式为:将大量的训练语音片段输入所述神经网络,并由神经网络进行分类,若神经网络将某一训练语音片段分类至对应的说话人,则将本次分类标记为1(即分类结果与输出数据对应);若神经网络将某一训练语音片段分类至不对应的说话人,则将本次分类标记为0(即分类结果与输出数据不对应),如此将所有训练语音片段分类后,结合分类标记将所述输入数据再次代入所述神经网络进行分析训练,直至所述神经网络能够准确的进行分类,或其分类准确率超过预设阈值时,作为所述声纹模型。
如图2所示,在本实施方式中,所述基于神经网络的声纹信息提取方法,所述方法包括:
S1、对输入的语音片段提取语音声学特征;
S2、将所述语音声学特征输入基于神经网络训练的声纹模型中,并提取所述声纹模型中神经网络的瓶颈特征;
S3、将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量,作为与所述输入的语音片段对应的声纹信息。
其中,所谓的语音片段指的是一段连续的语音,例如一个句子、一段话等。所述语音声学特征可为所述语音片段的梅尔频率倒谱系数(MFCC),或感知线性预测系数(PLP),或滤波器组特征(Filter Bank Feature)等。当然,所述语音声学特征也可为所述语音片段的原始语音数据。
在将提取到的与所述语音片段对应的语音声学特征输入至声纹模型后,声纹模型即可根据之前训练所定义的规则处理所述语音声学特征,例如,将所述语音声学特征依次经过输入层、双向循环神经网络层、卷积神经网络层、全连接层进行分析。
在本实施方式中,对需要提取声纹信息的语音片段,所取的特征为所述神经网络的瓶颈特征,也就是所述声纹模型中全连接层的输出,如此,可获取到表征声纹信息的一组矢量,该组矢量为对应声纹信息的多个帧组成,同时,通过神经网络的瓶颈特征来取声纹信息,也能够更好的适应短时语音片段(比如3s)的声纹信息提取。其中,关于神经网络的瓶颈特征的定义和提取方式,本领域普通技术人员可通过现有技术熟练掌握,在此不再赘述。
进一步地,在本发明一实施方式中,“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括:
将所述神经网络的瓶颈特征的各帧矢量加权处理,计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。在本实施方式中,可对所述神经网络的瓶颈特征的各帧加权后取平均值(例如,将所述神经网络的瓶颈特征的每一帧取相同的权重或预定的不同权重,加权后取平均值),以计算所述单帧声纹表达矢量;也可对所述神经网络的瓶颈特征的各帧矢量进行窗函数加权,以计算所述单帧声纹表达矢量。
进一步地,在本发明另一实施方式中,“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括:
将所述神经网络的瓶颈特征的各帧矢量进行i‐vector建模,通过i‐vector模型计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。在本实施方式中,可通过现有的i‐vector对神经网络的瓶颈特征的各帧矢量进行建模,以通过i‐vector模型计算出i‐vector的声纹表示,作为单帧声纹表达矢量。本实施方式虽声纹提取的过程相较上述实施方式复杂,但因神经网络的瓶颈特征的特性,本实施方式提取的短时语音片段和噪音环境下语音片段的声纹信息相较传统的i‐vector提取的声纹信息性能更优。
如图3所示,在本发明的基于神经网络的声纹信息提取装置一实施方式中,同样适用图1所示的神经网络结构。所述装置包括神经网络训练模块100,所述神经网络训练模块100在进行声纹信息提取前,可对上述神经网络进行训练(为了快速训练所述神经网络,本实施方式采用GPU加速),其用于:
将训练语音片段提取到的语音声学特征(可通过下述的语音声学特征提取模块200提取)作为神经网络的输入数据;
将训练语音片段对应的分类标签作为神经网络的输出数据;
通过神经网络分类所述输入数据,及比较分类结果与所述输出数据的对应关系训练出声纹模型。
在本实施方式中,采用说话人作为分类标签,即一个说话人对应至少一训练语音片段。该训练神经网络的方式为:将大量的训练语音片段输入所述神经网络,并由神经网络进行分类,若神经网络将某一训练语音片段分类至对应的说话人,则将本次分类标记为1(即分类结果与输出数据对应);若神经网络将某一训练语音片段分类至不对应的说话人,则将本次分类标记为0(即分类结果与输出数据不对应),如此将所有训练语音片段分类后,结合分类标记将所述输入数据再次代入所述神经网络进行分析训练,直至所述神经网络能够准确的进行分类,或其分类准确率超过预设阈值时,作为所述声纹模型。
在本实施方式中,所述基于神经网络的声纹信息提取装置,还包括:
语音声学特征提取模块200,用于对输入的语音片段提取语音声学特征;
处理模块300,用于将所述语音声学特征输入基于神经网络训练的声纹模型中,并提取所述声纹模型中神经网络的瓶颈特征;
声纹信息计算模块400,用于将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量,作为与所述输入的语音片段对应的声纹信息。
其中,所谓的语音片段指的是一段连续的语音,例如一个句子、一段话等。所述语音声学特征可为所述语音片段的梅尔频率倒谱系数(MFCC),或感知线性预测系数(PLP),或滤波器组特征(Filter Bank Feature)等。当然,所述语音声学特征也可为所述语音片段的原始语音数据。
在将提取到的与所述语音片段对应的语音声学特征输入至声纹模型后,声纹模型即可根据之前训练所定义的规则处理所述语音声学特征,例如,将所述语音声学特征依次经过输入层、双向循环神经网络层、卷积神经网络层、全连接层进行分析。
在本实施方式中,对需要提取声纹信息的语音片段,所取的特征为所述神经网络的瓶颈特征,也就是所述声纹模型中全连接层的输出,如此,可获取到表征声纹信息的一组矢量,该组矢量为对应声纹信息的多个帧组成,同时,通过神经网络的瓶颈特征来取声纹信息,也能够更好的适应短时语音片段(比如3s)的声纹信息提取。其中,关于神经网络的瓶颈特征的定义和提取方式,本领域普通技术人员可通过现有技术熟练掌握,在此不再赘述。
进一步地,在本发明一实施方式中,所述声纹信息计算模块400用于:
将所述神经网络的瓶颈特征的各帧矢量加权处理,计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。在本实施方式中,可对所述神经网络的瓶颈特征的各帧加权后取平均值(例如,将所述神经网络的瓶颈特征的每一帧取相同的权重或预定的不同权重,加权后取平均值),以计算所述单帧声纹表达矢量;也可对所述神经网络的瓶颈特征的各帧矢量进行窗函数加权,以计算所述单帧声纹表达矢量。
进一步地,在本发明另一实施方式中,所述声纹信息计算模块400用于:
将所述神经网络的瓶颈特征的各帧矢量进行i‐vector建模,通过i‐vector模型计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。在本实施方式中,可通过现有的i‐vector对神经网络的瓶颈特征的各帧矢量进行建模,以通过i‐vector模型计算出i‐vector的声纹表示,作为单帧声纹表达矢量。本实施方式虽声纹提取的过程相较上述实施方式复杂,但因神经网络的瓶颈特征的特性,本实施方式提取的短时语音片段和噪音环境下语音片段的声纹信息相较传统的i‐vector提取的声纹信息性能更优。
综上所述,本发明的基于神经网络的声纹信息提取方法及装置,通过基于神经网络训练的声纹模型对语音片段提取声纹信息,其训练声纹模型和提取声纹信息的过程较为简单,并且,由于神经网络的特性,该声纹模型能够更好的处理短时语音片段和噪音环境下的语音片段,使提取的声纹信息性能更优。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,装置和模块的具体工作过程,可以参考前述方法实施方式中的对应过程,在此不再赘述。
在本发明所提供的几个实施方式中,应该理解到,所揭露的装置,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所展示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块展示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能模块可以集成在一个决策模块中,也可以是各个模块单独物理存在,也可以2个或2个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施方式所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read‐Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims (14)

1.一种基于神经网络的声纹信息提取方法,其特征在于,所述方法包括:
对输入的语音片段提取语音声学特征;
将所述语音声学特征输入基于神经网络训练的声纹模型中,并提取所述声纹模型中神经网络的瓶颈特征;
将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量,作为与所述输入的语音片段对应的声纹信息。
2.根据权利要求1所述的基于神经网络的声纹信息提取方法,其特征在于,“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括:
将所述神经网络的瓶颈特征的各帧矢量加权处理,计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。
3.根据权利要求1所述的基于神经网络的声纹信息提取方法,其特征在于,“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括:
将所述神经网络的瓶颈特征的各帧矢量进行i‐vector建模,通过i‐vector模型计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。
4.根据权利要求1所述的基于神经网络的声纹信息提取方法,其特征在于,所述方法包括训练神经网络,其包括:
将训练语音片段提取到的语音声学特征作为神经网络的输入数据;
将训练语音片段对应的分类标签作为神经网络的输出数据;
通过神经网络分类所述输入数据,及比较分类结果与所述输出数据的对应关系训练出声纹模型。
5.根据权利要求4所述的基于神经网络的声纹信息提取方法,其特征在于,所述神经网络从底层向上层依次包括:
输入层、双向循环神经网络层、全连接层,以及输出层。
6.根据权利要求4所述的基于神经网络的声纹信息提取方法,其特征在于,所述神经网络从底层向上层依次包括:
输入层、双向循环神经网络层、卷积神经网络层、全连接层,以及输出层。
7.根据权利要求5或6所述的基于神经网络的声纹信息提取方法,其特征在于,所述神经网络的瓶颈特征为语音声学特征在声纹模型中全连接层的输出。
8.一种基于神经网络的声纹信息提取装置,其特征在于,所述装置包括:
语音声学特征提取模块,用于对输入的语音片段提取语音声学特征;
处理模块,用于将所述语音声学特征输入基于神经网络训练的声纹模型中,并提取所述声纹模型中神经网络的瓶颈特征;
声纹信息计算模块,用于将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量,作为与所述输入的语音片段对应的声纹信息。
9.根据权利要求8所述的基于神经网络的声纹信息提取装置,其特征在于,所述声纹信息计算模块用于:
将所述神经网络的瓶颈特征的各帧矢量加权处理,计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。
10.根据权利要求8所述的基于神经网络的声纹信息提取装置,其特征在于,所述声纹信息计算模块用于:
将所述神经网络的瓶颈特征的各帧矢量进行i‐vector建模,通过i‐vector模型计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。
11.根据权利要求8所述的基于神经网络的声纹信息提取装置,其特征在于,所述装置还包括神经网络训练模块,用于:
将训练语音片段提取到的语音声学特征作为神经网络的输入数据;
将训练语音片段对应的分类标签作为神经网络的输出数据;
通过神经网络分类所述输入数据,及比较分类结果与所述输出数据的对应关系训练出声纹模型。
12.根据权利要求11所述的基于神经网络的声纹信息提取装置,其特征在于,所述神经网络从底层向上层依次包括:
输入层、双向循环神经网络层、全连接层,以及输出层。
13.根据权利要求11所述的基于神经网络的声纹信息提取装置,其特征在于,所述神经网络从底层向上层依次包括:
输入层、双向循环神经网络层、卷积神经网络层、全连接层,以及输出层。
14.根据权利要求12或13所述的基于神经网络的声纹信息提取装置,其特征在于,所述神经网络的瓶颈特征为语音声学特征在声纹模型中全连接层的输出。
CN201610421908.9A 2016-06-13 2016-06-13 基于神经网络的声纹信息提取方法及装置 Active CN107492382B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201610421908.9A CN107492382B (zh) 2016-06-13 2016-06-13 基于神经网络的声纹信息提取方法及装置
EP17813898.8A EP3469582B1 (en) 2016-06-13 2017-06-13 Neural network-based voiceprint information extraction method and apparatus
JP2018559969A JP6993353B2 (ja) 2016-06-13 2017-06-13 ニューラルネットワークベースの声紋情報抽出方法及び装置
PCT/US2017/037145 WO2017218465A1 (en) 2016-06-13 2017-06-13 Neural network-based voiceprint information extraction method and apparatus
US15/621,162 US10176811B2 (en) 2016-06-13 2017-06-13 Neural network-based voiceprint information extraction method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610421908.9A CN107492382B (zh) 2016-06-13 2016-06-13 基于神经网络的声纹信息提取方法及装置

Publications (2)

Publication Number Publication Date
CN107492382A true CN107492382A (zh) 2017-12-19
CN107492382B CN107492382B (zh) 2020-12-18

Family

ID=60574115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610421908.9A Active CN107492382B (zh) 2016-06-13 2016-06-13 基于神经网络的声纹信息提取方法及装置

Country Status (5)

Country Link
US (1) US10176811B2 (zh)
EP (1) EP3469582B1 (zh)
JP (1) JP6993353B2 (zh)
CN (1) CN107492382B (zh)
WO (1) WO2017218465A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257592A (zh) * 2018-01-11 2018-07-06 广州势必可赢网络科技有限公司 一种基于长短期记忆模型的人声分割方法及系统
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108447490A (zh) * 2018-02-12 2018-08-24 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108461085A (zh) * 2018-03-13 2018-08-28 南京邮电大学 一种短时语音条件下的说话人识别方法
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN108694951A (zh) * 2018-05-22 2018-10-23 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN108831487A (zh) * 2018-06-28 2018-11-16 深圳大学 声纹识别方法、电子装置及计算机可读存储介质
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
CN110033757A (zh) * 2019-04-04 2019-07-19 行知技术有限公司 一种人声识别算法
CN110634470A (zh) * 2018-06-06 2019-12-31 北京深鉴智能科技有限公司 智能语音处理方法和装置
CN110782904A (zh) * 2019-11-07 2020-02-11 四川长虹电器股份有限公司 智能语音设备的用户账号切换方法
CN111524525A (zh) * 2020-04-28 2020-08-11 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN112420069A (zh) * 2020-11-18 2021-02-26 北京云从科技有限公司 一种语音处理方法、装置、机器可读介质及设备
CN113223536A (zh) * 2020-01-19 2021-08-06 Tcl集团股份有限公司 声纹识别方法、装置及终端设备
WO2022179360A1 (zh) * 2021-02-24 2022-09-01 嘉楠明芯(北京)科技有限公司 一种声纹识别方法、装置及计算机可读存储介质
CN116798400A (zh) * 2022-03-11 2023-09-22 保时捷(上海)数字科技有限公司 基于计算机程序实现的语音合成方法和系统

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847292B (zh) * 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质
KR102413282B1 (ko) * 2017-08-14 2022-06-27 삼성전자주식회사 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
US11842741B2 (en) * 2018-03-15 2023-12-12 Nec Corporation Signal processing system, signal processing device, signal processing method, and recording medium
CN108806696B (zh) * 2018-05-08 2020-06-05 平安科技(深圳)有限公司 建立声纹模型的方法、装置、计算机设备和存储介质
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN109065069B (zh) * 2018-10-10 2020-09-04 广州市百果园信息技术有限公司 一种音频检测方法、装置、设备及存储介质
CN109545226B (zh) * 2019-01-04 2022-11-22 平安科技(深圳)有限公司 一种语音识别方法、设备及计算机可读存储介质
US10861443B2 (en) 2019-03-28 2020-12-08 Eta Compute, Inc. Continuous speech recognition using dual neural networks
US11854562B2 (en) 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
CN111951809B (zh) * 2019-05-14 2024-06-21 深圳市金桐科技有限公司 多人声纹辨别方法及系统
CN110379412B (zh) * 2019-09-05 2022-06-17 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质
CN111145736B (zh) * 2019-12-09 2022-10-04 华为技术有限公司 语音识别方法及相关设备
CN111326161B (zh) * 2020-02-26 2023-06-30 北京声智科技有限公司 一种声纹确定方法及装置
CN111489756B (zh) * 2020-03-31 2024-03-01 中国工商银行股份有限公司 一种声纹识别方法及装置
CN111341322A (zh) * 2020-04-15 2020-06-26 厦门快商通科技股份有限公司 一种声纹模型训练方法和装置以及设备
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111599351A (zh) * 2020-04-30 2020-08-28 厦门快商通科技股份有限公司 一种语音识别方法和装置以及设备
CN113948089B (zh) * 2020-06-30 2024-06-14 北京猎户星空科技有限公司 声纹模型训练和声纹识别方法、装置、设备及介质
CN114333767A (zh) * 2020-09-29 2022-04-12 华为技术有限公司 发声者语音抽取方法、装置、存储介质及电子设备
CN112637428A (zh) * 2020-12-29 2021-04-09 平安科技(深圳)有限公司 无效通话判断方法、装置、计算机设备及存储介质
CN113160850A (zh) * 2021-04-27 2021-07-23 广州国音智能科技有限公司 一种基于重参数化的解耦方式的音频特征提取方法及装置
CN113299295B (zh) * 2021-05-11 2022-12-30 支付宝(杭州)信息技术有限公司 声纹编码网络的训练方法及装置
CN116415166A (zh) * 2021-12-28 2023-07-11 深圳大学 多键盘混合按键声音的识别方法、装置、设备及存储介质
CN115083422B (zh) * 2022-07-21 2022-11-15 中国科学院自动化研究所 语音溯源取证方法及装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5133012A (en) * 1988-12-02 1992-07-21 Kabushiki Kaisha Toshiba Speech recognition system utilizing both a long-term strategic and a short-term strategic scoring operation in a transition network thereof
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
US20150127336A1 (en) * 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
US20150317990A1 (en) * 2014-05-02 2015-11-05 International Business Machines Corporation Deep scattering spectrum in acoustic modeling for speech recognition

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9230550B2 (en) 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US9502038B2 (en) 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US9858919B2 (en) 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9324320B1 (en) * 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing
US9721559B2 (en) * 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
US10013973B2 (en) * 2016-01-18 2018-07-03 Kabushiki Kaisha Toshiba Speaker-adaptive speech recognition
US10235994B2 (en) * 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5133012A (en) * 1988-12-02 1992-07-21 Kabushiki Kaisha Toshiba Speech recognition system utilizing both a long-term strategic and a short-term strategic scoring operation in a transition network thereof
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
US20150127336A1 (en) * 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks
US20150317990A1 (en) * 2014-05-02 2015-11-05 International Business Machines Corporation Deep scattering spectrum in acoustic modeling for speech recognition
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
C. KONG等: "Speaker adaptive bottleneck features extraction for LVCSR based on discriminative learning of speaker codes", 《THE 9TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING》 *
CARDINAL, PATRICK等: "Speaker Adaptation Using the I-Vector Technique for Bottleneck Features", 《16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5》 *
FRED RICHARDSON等: "A Unified Deep Neutral Network for Speaker and Language Recognition", 《ARXIV》 *
田垚等: "基于深度神经网络和Bottleneck 特征的说话人识别系统", 《清华大学学报(自然科学版)》 *
胡青等: "基于卷积神经网络分类的说话人识别算法", 《信息网络安全》 *
薛少飞: "DNN_HMM语音识别声学模型的说话人自适应", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108257592A (zh) * 2018-01-11 2018-07-06 广州势必可赢网络科技有限公司 一种基于长短期记忆模型的人声分割方法及系统
CN108447490A (zh) * 2018-02-12 2018-08-24 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108461085A (zh) * 2018-03-13 2018-08-28 南京邮电大学 一种短时语音条件下的说话人识别方法
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN108694951B (zh) * 2018-05-22 2020-05-22 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN108694951A (zh) * 2018-05-22 2018-10-23 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN110634470A (zh) * 2018-06-06 2019-12-31 北京深鉴智能科技有限公司 智能语音处理方法和装置
CN108831487A (zh) * 2018-06-28 2018-11-16 深圳大学 声纹识别方法、电子装置及计算机可读存储介质
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
CN110033757A (zh) * 2019-04-04 2019-07-19 行知技术有限公司 一种人声识别算法
CN110782904A (zh) * 2019-11-07 2020-02-11 四川长虹电器股份有限公司 智能语音设备的用户账号切换方法
CN113223536A (zh) * 2020-01-19 2021-08-06 Tcl集团股份有限公司 声纹识别方法、装置及终端设备
CN113223536B (zh) * 2020-01-19 2024-04-19 Tcl科技集团股份有限公司 声纹识别方法、装置及终端设备
CN111524525A (zh) * 2020-04-28 2020-08-11 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN112420069A (zh) * 2020-11-18 2021-02-26 北京云从科技有限公司 一种语音处理方法、装置、机器可读介质及设备
WO2022179360A1 (zh) * 2021-02-24 2022-09-01 嘉楠明芯(北京)科技有限公司 一种声纹识别方法、装置及计算机可读存储介质
CN116798400A (zh) * 2022-03-11 2023-09-22 保时捷(上海)数字科技有限公司 基于计算机程序实现的语音合成方法和系统

Also Published As

Publication number Publication date
EP3469582A1 (en) 2019-04-17
WO2017218465A1 (en) 2017-12-21
US10176811B2 (en) 2019-01-08
CN107492382B (zh) 2020-12-18
EP3469582A4 (en) 2019-11-06
EP3469582B1 (en) 2022-04-06
US20170358306A1 (en) 2017-12-14
JP6993353B2 (ja) 2022-01-13
JP2019522810A (ja) 2019-08-15

Similar Documents

Publication Publication Date Title
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN103928023B (zh) 一种语音评分方法及系统
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
CN109637545B (zh) 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
Demircan et al. Feature extraction from speech data for emotion recognition
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN104240706B (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN102800316A (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN104765996B (zh) 声纹密码认证方法及系统
CN110415701A (zh) 唇语的识别方法及其装置
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
Levitan et al. Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection.
CN109300339A (zh) 一种英语口语的练习方法及系统
Zhang et al. Multimodal Deception Detection Using Automatically Extracted Acoustic, Visual, and Lexical Features.
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN110853669B (zh) 音频识别方法、装置及设备
CN102436815B (zh) 一种应用于英语口语网络机考系统的语音识别装置
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
Chauhan et al. Emotion recognition using LP residual

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1248396

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211115

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang tmall Technology Co., Ltd

Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, British Cayman Islands

Patentee before: Alibaba Group Holdings Limited

TR01 Transfer of patent right