CN110648669B - 多频分路声纹识别方法、装置、系统及计算机可读存储介质 - Google Patents
多频分路声纹识别方法、装置、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110648669B CN110648669B CN201910945619.2A CN201910945619A CN110648669B CN 110648669 B CN110648669 B CN 110648669B CN 201910945619 A CN201910945619 A CN 201910945619A CN 110648669 B CN110648669 B CN 110648669B
- Authority
- CN
- China
- Prior art keywords
- frequency
- voiceprint recognition
- spectrogram
- recognition method
- shunt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000013135 deep learning Methods 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 102100033620 Calponin-1 Human genes 0.000 description 3
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 102100033591 Calponin-2 Human genes 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- -1 CNN0 Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
多频分路声纹识别方法、装置、系统及计算机可读存储介质,方法包括:获得语音音频,抽取出频谱图;根据频率高、低对频谱图作若干段分割,并分别进入若干对应的卷积神经网络;将卷积神经网络输出的若干结果的特征映射拼接在一起。本发明通过对同一频谱图进行分割、继而多路进行深度学习的处理,能够让神经网络学习到适合不同音频的特征,从而提升语音任务的性能。
Description
技术领域
本发明涉及计算机语音处理、识别技术领域,具体地说是一种多频分路声纹识别方法、装置、系统及计算机可读存储介质。
背景技术
声纹识别,是根据人声的特质来自动识别说话人身份,声纹识别技术属于生物识别验证技术,即通过语音来对说话人的身份进行验证,具有较好的便捷性、稳定性、可测量性等特点,其在诸多公共领域有着广泛的应用。
机器学习属于人工智能的分支之一,机器学习让计算机学会学习,能够模拟人类的学习行为、建立学习能力,从而实现识别和判断。机器学习使用算法来解析海量数据,从中找出规律,并完成学习;用学习出来的思维模型对真实事件做出决策和预测。
现有技术中,在声纹识别(即确定一段音频是哪个人说的)通常是对截取的音频抽成一个F×D维的频谱图,然后送入卷积神经网络CNN中获得声纹特征,而这个CNN网络可以是任意的;比如:512维的向量。然后基于此向量做说话人分类,直接音频波形信号中使用短时傅里叶变化 (short-time Fourier transform,STFT)抽取出语音的频谱图,继而基于该频谱图使用CNN网络结构,则可以实现语音识别、声纹识别、语言分类等等语音任务。
然而,一张频谱图是有时间上的平移不变性,但没有频率维度上的平移不变性。在使用CNN网络结构做语音任务时,由于CNN网络假设了两个方向上的平移不变性,它假设了CNN学到的核(kernel)是对所有频率上是通用的,这有一定的不合理性,会影响语音任务的性能。
发明内容
本发明为解决现有的问题,旨在提供一种多频分路声纹识别方法、装置、系统及计算机可读存储介质。
为了达到上述目的,本发明采用的技术方案包括步骤:
S1,获得语音音频,抽取出频谱图;
S2,根据频率高、低对频谱图作若干段分割,并分别进入若干对应的卷积神经网络;
S3,将卷积神经网络输出的若干结果的特征映射拼接在一起。
进一步地,S1中,将语音音频抽成一个F×D维的频谱图。
进一步地,S2中,频谱图根据频率高、低分割为两段。
进一步地,所述分割以4K频率为分割点。
进一步地,S3中,按照频率维度将得到的若干结果的特征映射拼接在一起。
进一步地,还包括S4,拼接后的结果再进入后端的卷积神经网络进行识别与分类,得到声纹特征。
进一步地,还包括S5,对拼接后的特征映射作说话人分类。
一种声纹识别装置,其特征在于:
包括音频处理模块,用于抓取语音音频,抽取出音频的频谱图;
分路模块,根据频率高、低对频谱图作若干段分割;
深度学习机,利用卷积神经网络对各 频率维度的声纹特征以及对拼接后的特征映射作深度学习;
分类模块,对结果作分类。
一种声纹识别系统,包括处理器、以及用于存储处理器的可执行指令的存储器,所述处理器运行时执行上述任一所述的声纹识别方法。
一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令被处理执行时,实现上述的声纹识别方法。
和现有技术相比,本发明通过对同一频谱图进行分割、继而多路进行深度学习的处理,能够让神经网络学习到适合不同音频的特征,从而提升语音任务的性能。
附图说明
图1为本发明一个实施例的流程示意图。
具体实施方式
现结合附图对本发明作进一步地说明。本实施例依据一种声纹识别装置,包括音频处理模块,用于抓取语音音频,抽取出音频的频谱图;分路模块,可以根据频率高、低对频谱图作若干段分割;深度学习机,利用卷积神经网络对个频率维度的声纹特征以及对拼接后的特征映射作深度学习;分类模块,对结果作分类。
基于上述声纹识别设备,提出本发明的声纹识别方法的实施例。参见图1,图1展示的是本发明的一个流程示意图。在人说话的音频中,每一个频率维度都是有其独特性。而尤其在4K频率为界,特点区别较为明显。具体表现为,高4K频率是一种特点,高4K有明显的无规律噪音现象(辅音);而低4K频率是另一种特点,低4K有明显的谐波现象(元音)。由于低频部分或者高频部分的频谱图内部有一定的相似性,每一个部分内部的核(kernel)大致是可以共享的,进而卷积神经网络(CNN)的权重可以共享。
因此,本实施例操作如下:
首选,获得3秒的语音音频,然后抽成一个F×D维的频谱图。可以通过麦克风获取用户所发出的语音音频,麦克风将获取的声音发送至声纹识别装置的音频处理模块;也可以通过其他智能终端(手机、平板等)获取语音音频,智能终端将获取的验证语音发送至音频处理模块;其他现有手段不予赘述。
其次,根据频率高、低对频谱图作两段分割,其中分为高4K频率图和低4K频率图,并分别进入两个对应的卷积神经网络CNN0和CNN1,即高低频各自过一个CNN网络,得到两个特征(feature map)。网络训练使用的是现有的SGD+Momentum方法。CNN0和CNN1可以是同样类型的网络,也可以是不同的。
再次,将卷积神经网络输出的若干结果的特征映射按照频率维度拼接在一起。拼接后的结果再进入后端共同的卷积神经网络CNN2进行识别与分类,得到声纹特征。
现有技术都会得到声纹特征,而本实施例中则没有差别——差别仅在得到的声纹特征用于声纹比对时的算法性能不同。本实施例通过增加高、低频图双通路的网络结构,让CNN网络学习到适合高频4K图或者低频4K图的特征,破除了原有的模型瓶颈,从而提升语音任务的性能。
其中,CNN2和CNN0,CNN1是不同结构的卷积神经网络;因为两者的输入大小不一样。
最后,对拼接后的特征映射作说话人分类(逻辑回归模型softmax),即训练数据中若有N个说话人,做N分类,每个说话人一类;该操作为常规的现有技术。
本实施例中的高低频各自过一个CNN网络,到后期再将特征映射拼接在一起,再过共同的CNN网络,通过增加高低频双通路的网络结构,让CNN网络学习到适合高频4K或者低频4K的特征,从而提升语音任务的性能。
基于相同的技术构思,本实施例还提供一种电子设备,包括至少一个处理器,以及至少一个用于存储处理器的可执行指令的存储器,本申请实施例中不限定处理器与存储器之间的具体连接介质,两者之间通过总线连接;而总线可以分为地址总线、数据总线、控制总线等。
处理器是电子设备的控制中心,
可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,可以实现或者执行本申请实施例,即可以利用各种接口和线路连接电子设备的各个部分,通过运行或执行存储在存储器内的指令以及调用存储在存储器内的数据,从而执行上述任一所述的方法。
本实施例还提供了一种计算机可读介质,其存储有可由电子设备执行的计算机程序,当程序在终端设备上运行时,所述计算机程序指令被处理执行时,实现上述任一所述的方法。
计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上面结合附图及实施例描述了本发明的实施方式,实施例给出的结构并不构成对本发明的限制,本领域内熟练的技术人员可依据需要做出调整,在所附权利要求的范围内做出各种变形或修改均在保护范围内。
Claims (8)
1.一种多频分路声纹识别方法,其特征在于包括:
S1,获得语音音频,抽取出频谱图;
S2,根据频率高、低对频谱图作若干段分割,并分别进入若干对应的卷积神经网络;
S3,将卷积神经网络输出的若干结果的特征映射拼接在一起;
S4,拼接后的结果再进入后端的卷积神经网络进行识别与分类,得到声纹特征;
S5,对拼接后的特征映射,作说话人分类。
2.根据权利要求1所述的多频分路声纹识别方法,其特征在于:S1中,将语音音频抽成一个F×D维的频谱图。
3.根据权利要求1所述的多频分路声纹识别方法,其特征在于:S2中,频谱图根据频率高、低分割为两段。
4.根据权利要求3所述的多频分路声纹识别方法,其特征在于:所述分割以4K频率为分割点。
5.根据权利要求1、2、3或4所述的多频分路声纹识别方法,其特征在于:S3中,按照频率维度将得到的若干结果的特征映射拼接在一起。
6.一种声纹识别装置,其特征在于:
包括音频处理模块,用于抓取语音音频,抽取出音频的频谱图;
分路模块,根据频率高、低对频谱图作若干段分割;
深度学习机,利用卷积神经网络对各 频率维度的声纹特征以及对拼接后的特征映射作深度学习;
分类模块,对结果作分类。
7.一种声纹识别系统,其特征在于:包括处理器、以及用于存储处理器的可执行指令的存储器,所述处理器运行时执行权利要求1-5中任一所述的声纹识别方法。
8.一种计算机可读介质,其上存储有计算机程序指令,其特征在于:所述计算机程序指令被处理执行时,实现权利要求1-5中任一所述的声纹识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910945619.2A CN110648669B (zh) | 2019-09-30 | 2019-09-30 | 多频分路声纹识别方法、装置、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910945619.2A CN110648669B (zh) | 2019-09-30 | 2019-09-30 | 多频分路声纹识别方法、装置、系统及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110648669A CN110648669A (zh) | 2020-01-03 |
CN110648669B true CN110648669B (zh) | 2022-06-07 |
Family
ID=68993501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910945619.2A Active CN110648669B (zh) | 2019-09-30 | 2019-09-30 | 多频分路声纹识别方法、装置、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110648669B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489756B (zh) * | 2020-03-31 | 2024-03-01 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN111951791B (zh) * | 2020-08-26 | 2024-05-17 | 上海依图网络科技有限公司 | 声纹识别模型训练方法、识别方法、电子设备及存储介质 |
CN113035203A (zh) * | 2021-03-26 | 2021-06-25 | 合肥美菱物联科技有限公司 | 一种动态变换语音应答风格的控制方法 |
CN114927125A (zh) * | 2022-04-21 | 2022-08-19 | 中国科学院深圳理工大学(筹) | 音频分类方法、装置、终端设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7089178B2 (en) * | 2002-04-30 | 2006-08-08 | Qualcomm Inc. | Multistream network feature processing for a distributed speech recognition system |
CN106128465A (zh) * | 2016-06-23 | 2016-11-16 | 成都启英泰伦科技有限公司 | 一种声纹识别系统及方法 |
CN108010514B (zh) * | 2017-11-20 | 2021-09-10 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108694951B (zh) * | 2018-05-22 | 2020-05-22 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN110277100A (zh) * | 2019-06-19 | 2019-09-24 | 南京邮电大学 | 基于Alexnet改进的声纹识别方法、存储介质和终端 |
-
2019
- 2019-09-30 CN CN201910945619.2A patent/CN110648669B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110648669A (zh) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110648669B (zh) | 多频分路声纹识别方法、装置、系统及计算机可读存储介质 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US11862176B2 (en) | Reverberation compensation for far-field speaker recognition | |
CN110136749A (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
CN109559735B (zh) | 一种基于神经网络的语音识别方法、终端设备及介质 | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN111862951B (zh) | 语音端点检测方法及装置、存储介质、电子设备 | |
CN112949708A (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
CN113205803B (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
CN104575509A (zh) | 语音增强处理方法及装置 | |
CN111968670B (zh) | 音频识别方法及装置 | |
CN111081223A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN115565548A (zh) | 异常声音检测方法、装置、存储介质及电子设备 | |
Liu et al. | Golden gemini is all you need: Finding the sweet spots for speaker verification | |
CN110544472B (zh) | 提升使用cnn网络结构的语音任务的性能的方法 | |
CN117672230A (zh) | 声纹特征提取的方法和装置 | |
CN112735381B (zh) | 一种模型更新方法及装置 | |
CN114420136A (zh) | 一种声纹识别模型训练的方法、装置以及存储介质 | |
CN111833897B (zh) | 一种用于交互式教育的语音增强方法 | |
CN111933180B (zh) | 音频拼接检测方法、系统、移动终端及存储介质 | |
CN114566156A (zh) | 一种关键词的语音识别方法及装置 | |
CN114218428A (zh) | 音频数据聚类方法、装置、设备及存储介质 | |
CN113327587A (zh) | 特定场景下语音识别的方法、装置、电子设备和存储介质 | |
CN112489678A (zh) | 一种基于信道特征的场景识别方法及装置 | |
CN113421552A (zh) | 音频识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |