CN109686377A - 音频识别方法及装置、计算机可读存储介质 - Google Patents
音频识别方法及装置、计算机可读存储介质 Download PDFInfo
- Publication number
- CN109686377A CN109686377A CN201811579098.5A CN201811579098A CN109686377A CN 109686377 A CN109686377 A CN 109686377A CN 201811579098 A CN201811579098 A CN 201811579098A CN 109686377 A CN109686377 A CN 109686377A
- Authority
- CN
- China
- Prior art keywords
- vector
- vocal print
- audio file
- similarity
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 182
- 230000001755 vocal effect Effects 0.000 claims abstract description 105
- 238000013139 quantization Methods 0.000 claims abstract description 51
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 210000001072 colon Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- QIVUCLWGARAQIO-OLIXTKCUSA-N (3s)-n-[(3s,5s,6r)-6-methyl-2-oxo-1-(2,2,2-trifluoroethyl)-5-(2,3,6-trifluorophenyl)piperidin-3-yl]-2-oxospiro[1h-pyrrolo[2,3-b]pyridine-3,6'-5,7-dihydrocyclopenta[b]pyridine]-3'-carboxamide Chemical compound C1([C@H]2[C@H](N(C(=O)[C@@H](NC(=O)C=3C=C4C[C@]5(CC4=NC=3)C3=CC=CN=C3NC5=O)C2)CC(F)(F)F)C)=C(F)C=CC(F)=C1F QIVUCLWGARAQIO-OLIXTKCUSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- XULSCZPZVQIMFM-IPZQJPLYSA-N odevixibat Chemical compound C12=CC(SC)=C(OCC(=O)N[C@@H](C(=O)N[C@@H](CC)C(O)=O)C=3C=CC(O)=CC=3)C=C2S(=O)(=O)NC(CCCC)(CCCC)CN1C1=CC=CC=C1 XULSCZPZVQIMFM-IPZQJPLYSA-N 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000000515 tooth Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种音频识别方法及装置、计算机可读存储介质,该方法包括:获取声纹矢量化模型;获取同一目标说话人的多个不同第一音频文件;利用声纹矢量化模型对每一个第一音频文件进行矢量化;采用至少一种方式确定多个不同第一音频文件的声纹向量的中心向量,以及利用每一种中心向量分别确定一相似度接受范围;利用声纹矢量化模型得到待识别音频文件的声纹向量,以及计算待识别音频文件的声纹向量与每一种中心向量的相似度;对于每一种中心向量,判断待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,以及根据判断的结果确定待识别音频文件是否属于目标说话人。本发明可以实现利用声纹对说话人进行有效识别。
Description
技术领域
本发明涉及音频识别技术领域,特别是一种音频识别方法及装置、计算机可读存储介质。
背景技术
人类语言的产生是人体语言中枢与发音器官之间的一个复杂的生理物理过程,由于不同人在讲话时使用的发声器官(包括舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面存在差异,所以任何两个人的声纹都有差异,因此,通过声纹识别可以对说话人进行识别,在目前的语音处理中,“声纹识别”是一项重要的研究内容,如何利用声纹对说话人进行有效识别是目前亟待解决的问题。
发明内容
有鉴于此,本发明的目的之一在于提供一种音频识别方法及装置、计算机可读存储介质,可以实现利用声纹对说话人进行有效识别。
为达到上述目的,本发明的技术方案提供了一种音频识别方法,包括:
步骤S1:获取声纹矢量化模型;
步骤S2:获取同一目标说话人的多个不同第一音频文件;
步骤S3:利用所述声纹矢量化模型对每一个所述第一音频文件进行矢量化,得到每一个所述第一音频文件的声纹向量;
步骤S4:采用至少一种方式确定所述多个不同第一音频文件的声纹向量的中心向量,从而得到至少一种中心向量,以及利用每一种中心向量分别确定一相似度接受范围[A,B],其中,对于每一种中心向量,A为所述多个不同第一音频文件与其相似度中的最小相似度,B为所述多个不同第一音频文件与其相似度中的最大相似度;
步骤S5:利用所述声纹矢量化模型得到待识别音频文件的声纹向量,以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度;
步骤S6:对于所述每一种中心向量,判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人。
进一步地,步骤S1包括:
采用不同说话人的音频文件对SincNet神经网络进行训练,得到所述声纹矢量化模型。
进一步地,步骤S2包括:
步骤S21:获取多个不同第二音频文件,其中,每一个所述第二音频文件均包含所述目标说话人的声音信息,且不同第二音频文件包含的所述声音信息不同;
步骤S22:对于每一个所述第二音频文件,分别按照至少一种信噪比进行噪音添加处理,从而得到所述多个不同第一音频文件。
进一步地,所述至少一种方式包括以下的至少一种:算术平均法、几何平均法、中位数统计法、K-means聚类法。
进一步地,在步骤S4中,采用多种方式确定所述中心向量,从而得到多种中心向量。
进一步地,所述步骤S5包括:
步骤S51:对所述待识别音频文件进行音频切分处理,得到多个分割音频文件;
步骤S52:利用所述声纹矢量化模型对每一个所述分割音频文件进行矢量化,得到每一个所述分割音频文件的声纹向量;
步骤S53:分别计算每一个所述分割音频文件的声纹向量与所述每一种中心向量的相似度。
进一步地,所述步骤S6包括:
步骤S61:初始化i=0,j=0;
步骤S62:对于每一种中心向量,判断每一个所述分割音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,若是,则i=i+1,若否,则j=j+1;
步骤S63:若i的值不小于j,则确定所述待识别音频文件属于所述目标说话人,否则确定所述待识别音频文件不属于所述目标说话人。
为实现上述目的,本发明的技术方案还提供了一种音频识别装置,包括:
第一获取模块,用于获取声纹矢量化模型;
第二获取模块,用于获取同一目标说话人的多个不同第一音频文件;
第一处理模块,用于利用所述声纹矢量化模型对每一个所述第一音频文件进行矢量化,得到每一个所述第一音频文件的声纹向量;
第二处理模块,用于采用至少一种方式确定所述多个不同第一音频文件的声纹向量的中心向量,从而得到至少一种中心向量,以及利用每一种中心向量分别确定一相似度接受范围[A,B],其中,对于每一种中心向量,A为所述多个不同第一音频文件与其相似度中的最小相似度,B为所述多个不同第一音频文件与其相似度中的最大相似度;
第三处理模块,用于利用所述声纹矢量化模型得到待识别音频文件的声纹向量,以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度;
判断模块,用于对于所述每一种中心向量,判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人。
为实现上述目的,本发明的技术方案还提供了一种音频识别装置,包括处理器以及与所述处理器耦合的存储器,其中,所述处理器用于执行存储器中的指令,实现上述音频识别方法。
为实现上述目的,本发明的技术方案还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述音频识别方法的步骤。
本发明提供的音频识别方法,通过采用至少一种方式对目标说话人的多个不同音频文件进行处理,得到至少一种中心向量,并利用每一种中心向量分别确定一相似度接受范围,再利用得到的至少一种中心向量及由其确定的相似度接受范围判断待识别音频文件是否属于目标说话人,不但可以实现判断待识别音频文件是否属于目标说话人,还可以提高判断的准确度,从而可以实现利用声纹对说话人进行有效识别。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例提供的一种音频识别方法的流程图;
图2是本发明实施例提供的一种音频识别装置的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
参见图1,图1是本发明实施例提供的一种音频识别方法的流程图,该方法包括:
步骤S1:获取声纹矢量化模型;
该声纹矢量化模型用于对音频文件进行矢量化,得到音频文件的声纹向量;
步骤S2:获取同一目标说话人的多个不同第一音频文件;
其中,每一个第一音频文件可以是仅包含目标说话人的声音信息的音频文件,也可以是除包含目标说话人的声音信息外还包含一定噪音的音频文件;
需要说明的是,在本发明实施例中,音频文件之间的不同可以是所包含的声音信息(如声音内容、音频时长等)的不同,也可以是信噪比的不同,也可以是所包含的声音信息以及信噪比均不同;
步骤S3:利用所述声纹矢量化模型对每一个所述第一音频文件进行矢量化,得到每一个所述第一音频文件的声纹向量;
步骤S4:采用至少一种方式确定所述多个不同第一音频文件的声纹向量的中心向量,从而得到至少一种中心向量,以及利用每一种中心向量分别确定一相似度接受范围[A,B],其中,对于每一种中心向量,A为所述多个不同第一音频文件与其相似度中的最小相似度,B为所述多个不同第一音频文件与其相似度中的最大相似度;
例如,在本发明实施例中,向量之间的相似度可以是余弦COS相似度;
步骤S5:利用所述声纹矢量化模型得到待识别音频文件的声纹向量,以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度;
步骤S6:对于所述每一种中心向量,判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人。
本发明实施例提供的音频识别方法,通过采用至少一种方式对目标说话人的多个不同音频文件进行处理,得到至少一种中心向量,并利用每一种中心向量分别确定一相似度接受范围,再利用得到的至少一种中心向量及由其确定的相似度接受范围判断待识别音频文件是否属于目标说话人,不但可以实现判断待识别音频文件是否属于目标说话人,还可以提高判断的准确度,从而可以实现利用声纹对说话人进行有效识别。
例如,本发明实施例提供的音频识别方法可以具体包括:
步骤A:获取声纹矢量化模型;
例如,在本发明实施例中,可以采用不同说话人的不同音频文件对SincNet神经网络进行训练,得到声纹矢量化模型,即该声纹矢量化模型可以采用SincNet结构(即SincNet神经网络),其包括特征提取模块以及特征表达模块,特征表达模块包括若干个卷积层(CONV)和若干个全连接层(FC)(包含一般的池化层、激活层、drop-out层等),特征提取模块包括多个带通滤波器;
SincNet的核心思想是使用多个带通滤波器过滤出有用的信息(即特征信息),带通滤波器作为网络的一部分与特征表达过程一起参与训练,其参数由训练得到,在本实施例中,通过SincNet结构的声纹矢量化模型从音频文件(wav文件)中提取特征信息,并进行特征表达,从而将wav数据转化成向量形式,即实现声纹矢量化;
具体地,可以采用有监督学习的方式训练SincNet神经网络,即为每一个训练音频文件标注标签,标签信息包括文件名称以及音频文件所属的说话人的ID,格式如下:
{[example1.wav:1],[example2.wav:1],[example3.wav:1],[example4.wav:2],[example5.wav:2],…….};
每一个中括号为一个音频文件的标签,冒号前的部分表示音频文件的名称,冒号后的部分表示音频文件所属的说话人的ID(即该段音频文件是哪一个说话人所说的话),通过上述格式标注数据后,采用监督学习的方式训练SincNet神经网络,训练完成后得到声纹矢量化模型,对其输入一个音频文件后,得到的输出作为该音频的声纹向量;
在通过上述方法得到声纹矢量化模型后可以将其存储至存储器中,在需要使用时,可以直接从存储器中读取;
步骤B:获取同一目标说话人的多个不同第一音频文件,例如,该步骤可以具体包括:
步骤S21:获取多个不同第二音频文件,其中,每一个所述第二音频文件均包含所述目标说话人的声音信息,且不同第二音频文件包含的所述声音信息不同;
例如,每一个第二音频文件可以是仅包含目标说话人的声音信息的音频文件,不同第二音频文件包含的声音信息不同;
步骤S22:对于每一个所述第二音频文件,分别按照至少一种信噪比进行噪音添加处理,从而得到所述多个不同第一音频文件;
例如,对于每一个第二音频文件,可以随机加入多种场景下的背景音等其他噪音,且对于加入的噪音的大小可以使用信噪比作为标准进行衡量,例如,对于每一个第二音频文件,可以分别加入不同量的噪音,从而分别生成0db、10db、15db三种信噪比不同的第一音频文件;
通过上述步骤S22中在音频文件中添加噪音,可以使得本实施例中的音频识别方法在处理在嘈杂背景环境下获取的音频文件时更具有鲁棒性。
步骤C:利用步骤A中获取的声纹矢量化模型对每一个第一音频文件进行矢量化,得到每一个第一音频文件的声纹向量;
即利用声纹矢量化模型将目标说话人的声音进行向量表达,即进行注册,例如,该目标说话人的ID为i(即第i个说话人),若其存在n个第一音频文件,则可以相应的得到n个声纹向量,可记为:
{Vi1,Vi2,Vi3,...,Vin};
步骤D:采用多种方式分别确定上述多个不同第一音频文件的声纹向量的中心向量(也即平均向量),从而得到多种中心向量,以及利用每一种中心向量分别确定一相似度接受范围[A,B],其中,对于每一种中心向量,A为所述多个不同第一音频文件与其相似度中的最小相似度,B为所述多个不同第一音频文件与其相似度中的最大相似度;
例如,上述多种方式可以包括算术平均法、几何平均法、中位数统计法、K-means聚类法中的至少两种,其中:
算术平均法:是将上述多个声纹向量在每一个维度上对位相加后求平均值;
几何平均法:是对上述多个声纹向量求取几何中心,将多个声纹向量的几何中心(几何平均数)作为中心向量;
中位数统计法:采用统计学方法对上述多个声纹向量求取中位数向量,作为中心向量;
K-means聚类法:采用K-means算法对上述多个声纹向量进行聚类,将聚类中心作为中心向量;
例如,在一实施例中,分别采用算术平均法、几何平均法、中位数统计法三种方式对目标说话人的n个声纹向量计算中心向量,从而得到算术平均法中心向量、几何平均法中心向量以及中位数统计法中心向量三种中心向量;
之后,对于每一种中心向量,计算{Vi1,Vi2,Vi3,...,Vin}中的每一个声纹向量与该中心向量的余弦COS相似度,并记录得到的最小余弦COS相似度bound_min、最大余弦COS相似度bound_max,进而确定该目标说话人的一相似度接受范围[A,B],A=bound_min,B=bound_max;
例如,在一实施例中,在分别采用算术平均法、几何平均法、中位数统计法三种方式得到三种中心向量后,进而可以得到该目标说话人的三个相似度接受范围;
步骤E:利用所述声纹矢量化模型得到待识别音频文件的声纹向量,以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度;
优选地,在一实施例中,可以对待识别音频文件进行预处理,将其分割若干个分割音频文件,从而可以进一步地提高识别的准确度,该步骤可以具体包括:
步骤S51:对所述待识别音频文件进行音频切分处理,得到多个分割音频文件(即分帧音频);
例如,可以对待识别音频文件按照不同的步长进行切分操作,得到多个分割音频文件,每一个分割音频文件的音频时长可以为200ms或者300ms等;
步骤S52:利用所述声纹矢量化模型对每一个所述分割音频文件进行矢量化,得到每一个所述分割音频文件的声纹向量;
步骤S53:分别计算每一个所述分割音频文件的声纹向量与所述每一种中心向量的余弦COS相似度;
步骤F:对于每一种中心向量,判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,对得到的多个判断结果中,采用投票方式确定该待识别音频文件是否属于该目标说话人;
例如,若步骤S51中分割得到K个分割音频文件,步骤D中确定L个中心向量,则该步骤中可以得到K*L个相似度,将每一相似度与对应的相似度接受范围进行比较,判断是否位于其范围内,从而得到K*L个判断结果;
例如,在得到算术平均法中心向量、几何平均法中心向量以及中位数统计法中心向量三种中心向量后,通过对待识别音频文件进行音频切分处理后得到5个分割音频文件,分别记作分帧音频1、分帧音频2、分帧音频3、分帧音频4、分帧音频5,具体处理过程如下:首先计算该5个分割音频文件的声纹向量与算术平均法中心向量的余弦COS相似度,并判断是否位于由该算术平均法中心向量确定的相似度接受范围内,从而得到5个判断结果,之后再计算该5个分割音频文件的声纹向量与几何平均法中心向量的余弦COS相似度,并判断是否位于由该几何平均法中心向量确定的相似度接受范围内,再得到5个判断结果,最后计算该5个分割音频文件的声纹向量与中位数统计法中心向量的余弦COS相似度,并判断是否位于由该中位数统计法中心向量确定的相似度接受范围内,又得到5个判断结果,通过上述方式共得到5*3=15个判断结果,然后依据少数服从多数原则进行投票,判断该待识别音频文件是否属于该目标说话人;
具体地,该步骤F可以具体包括:
步骤S61:初始化i=0,j=0;
步骤S62:对于每一种中心向量,判断每一个所述分割音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,若是,则i=i+1(j的值不变),若否,则j=j+1(i的值不变);
步骤S63:通过步骤S62对所有中心向量遍历完毕后(此时i与j之和应为判断结果的个数),比较i与j的大小,若i的值不小于j,则确定所述待识别音频文件属于所述目标说话人,否则确定所述待识别音频文件不属于所述目标说话人。
本发明实施例提供的音频识别方法,通过多种方式对目标说话人的音频文件进行处理,得到多种中心向量,并将待识别音频文件进行切分后分别进行判断,得到多个判断结果,采用投票方式确定该待识别音频文件是否属于该目标说话人,可以进一步地提高说话人识别的准确度。
此外,参见图2,图2是本发明实施例提供的一种音频识别装置的示意图,该音频识别装置包括:
第一获取模块1,用于获取声纹矢量化模型;
第二获取模块2,用于获取同一目标说话人的多个不同第一音频文件;
第一处理模块3,用于利用所述声纹矢量化模型对每一个所述第一音频文件进行矢量化,得到每一个所述第一音频文件的声纹向量;
第二处理模块4,用于采用至少一种方式确定所述多个不同第一音频文件的声纹向量的中心向量,从而得到至少一种中心向量,以及利用每一种中心向量分别确定一相似度接受范围[A,B],其中,对于每一种中心向量,A为所述多个不同第一音频文件与其相似度中的最小相似度,B为所述多个不同第一音频文件与其相似度中的最大相似度;
第三处理模块5,用于利用所述声纹矢量化模型得到待识别音频文件的声纹向量,以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度;
判断模块6,用于对于所述每一种中心向量,判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人。
在一实施例中,声纹矢量化模型可以采用以下方式得到:
采用不同说话人的音频文件对SincNet神经网络进行训练,得到所述声纹矢量化模型。
在一实施例中,所述第二获取模块包括:
第一获取单元,用于获取多个不同第二音频文件,其中,每一个所述第二音频文件均包含所述目标说话人的声音信息,且不同第二音频文件包含的所述声音信息不同;
噪音添加单元,用于对于每一个所述第二音频文件,分别按照至少一种信噪比进行噪音添加处理,从而得到所述多个不同第一音频文件。
在一实施例中,所述至少一种方式包括以下的至少一种:算术平均法、几何平均法、中位数统计法、K-means聚类法。
在一实施例中,所述第二处理模块被配置为采用多种方式确定所述中心向量,从而得到多种中心向量。
在一实施例中,所述第三处理模块包括:
切分单元,用于对所述待识别音频文件进行音频切分处理,得到多个分割音频文件;
矢量化单元,用于利用所述声纹矢量化模型对每一个所述分割音频文件进行矢量化,得到每一个所述分割音频文件的声纹向量;
相似度计算单元,用于分别计算每一个所述分割音频文件的声纹向量与所述每一种中心向量的相似度。
在一实施例中,所述判断模块包括:
初始化单元,用于初始化i=0,j=0;
处理单元,用于对于每一种中心向量,判断每一个所述分割音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,若是,则i=i+1,若否,则j=j+1;
结果确定单元,用于若i的值不小于j,则确定所述待识别音频文件属于所述目标说话人,否则确定所述待识别音频文件不属于所述目标说话人。
此外,本发明实施例还提供了一种音频识别装置,包括处理器以及与所述处理器耦合的存储器,其中,所述处理器用于执行存储器中的指令,实现上述音频识别方法。
此外,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述音频识别方法的步骤。
本领域的技术人员容易理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。
Claims (10)
1.一种音频识别方法,其特征在于,包括:
步骤S1:获取声纹矢量化模型;
步骤S2:获取同一目标说话人的多个不同第一音频文件;
步骤S3:利用所述声纹矢量化模型对每一个所述第一音频文件进行矢量化,得到每一个所述第一音频文件的声纹向量;
步骤S4:采用至少一种方式确定所述多个不同第一音频文件的声纹向量的中心向量,从而得到至少一种中心向量,以及利用每一种中心向量分别确定一相似度接受范围[A,B],其中,对于每一种中心向量,A为所述多个不同第一音频文件与其相似度中的最小相似度,B为所述多个不同第一音频文件与其相似度中的最大相似度;
步骤S5:利用所述声纹矢量化模型得到待识别音频文件的声纹向量,以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度;
步骤S6:对于所述每一种中心向量,判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人。
2.根据权利要求1所述的方法,其特征在于,步骤S1包括:
采用不同说话人的音频文件对SincNet神经网络进行训练,得到所述声纹矢量化模型。
3.根据权利要求1所述的方法,其特征在于,步骤S2包括:
步骤S21:获取多个不同第二音频文件,其中,每一个所述第二音频文件均包含所述目标说话人的声音信息,且不同第二音频文件包含的所述声音信息不同;
步骤S22:对于每一个所述第二音频文件,分别按照至少一种信噪比进行噪音添加处理,从而得到所述多个不同第一音频文件。
4.根据权利要求1所述的方法,其特征在于,所述至少一种方式包括以下的至少一种:算术平均法、几何平均法、中位数统计法、K-means聚类法。
5.根据权利要求1所述的方法,其特征在于,在步骤S4中,采用多种方式确定所述中心向量,从而得到多种中心向量。
6.根据权利要求1-5任一所述的方法,其特征在于,所述步骤S5包括:
步骤S51:对所述待识别音频文件进行音频切分处理,得到多个分割音频文件;
步骤S52:利用所述声纹矢量化模型对每一个所述分割音频文件进行矢量化,得到每一个所述分割音频文件的声纹向量;
步骤S53:分别计算每一个所述分割音频文件的声纹向量与所述每一种中心向量的相似度。
7.根据权利要求6所述的方法,其特征在于,所述步骤S6包括:
步骤S61:初始化i=0,j=0;
步骤S62:对于每一种中心向量,判断每一个所述分割音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,若是,则i=i+1,若否,则j=j+1;
步骤S63:若i的值不小于j,则确定所述待识别音频文件属于所述目标说话人,否则确定所述待识别音频文件不属于所述目标说话人。
8.一种音频识别装置,其特征在于,包括:
第一获取模块,用于获取声纹矢量化模型;
第二获取模块,用于获取同一目标说话人的多个不同第一音频文件;
第一处理模块,用于利用所述声纹矢量化模型对每一个所述第一音频文件进行矢量化,得到每一个所述第一音频文件的声纹向量;
第二处理模块,用于采用至少一种方式确定所述多个不同第一音频文件的声纹向量的中心向量,从而得到至少一种中心向量,以及利用每一种中心向量分别确定一相似度接受范围[A,B],其中,对于每一种中心向量,A为所述多个不同第一音频文件与其相似度中的最小相似度,B为所述多个不同第一音频文件与其相似度中的最大相似度;
第三处理模块,用于利用所述声纹矢量化模型得到待识别音频文件的声纹向量,以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度;
判断模块,用于对于所述每一种中心向量,判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人。
9.一种音频识别装置,其特征在于,包括处理器以及与所述处理器耦合的存储器,其中,所述处理器用于执行存储器中的指令,实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811579098.5A CN109686377B (zh) | 2018-12-24 | 2018-12-24 | 音频识别方法及装置、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811579098.5A CN109686377B (zh) | 2018-12-24 | 2018-12-24 | 音频识别方法及装置、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109686377A true CN109686377A (zh) | 2019-04-26 |
CN109686377B CN109686377B (zh) | 2019-11-05 |
Family
ID=66188817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811579098.5A Active CN109686377B (zh) | 2018-12-24 | 2018-12-24 | 音频识别方法及装置、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109686377B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
CN110728972A (zh) * | 2019-10-15 | 2020-01-24 | 广州酷狗计算机科技有限公司 | 音色相似度的确定方法、装置及计算机存储介质 |
CN110853654A (zh) * | 2019-11-17 | 2020-02-28 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN111933147A (zh) * | 2020-06-22 | 2020-11-13 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
CN111933153A (zh) * | 2020-07-07 | 2020-11-13 | 北京捷通华声科技股份有限公司 | 一种语音分割点的确定方法和装置 |
CN113066506A (zh) * | 2021-03-12 | 2021-07-02 | 北京百度网讯科技有限公司 | 音频数据分离方法、装置、电子设备以及存储介质 |
CN115019804A (zh) * | 2022-08-03 | 2022-09-06 | 北京惠朗时代科技有限公司 | 一种多员工密集签到的多重校验式声纹识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540170A (zh) * | 2008-03-19 | 2009-09-23 | 中国科学院半导体研究所 | 一种基于仿生模式识别的声纹识别方法 |
CN106228045A (zh) * | 2016-07-06 | 2016-12-14 | 吴本刚 | 一种身份识别系统 |
US20170294191A1 (en) * | 2016-04-07 | 2017-10-12 | Fujitsu Limited | Method for speaker recognition and apparatus for speaker recognition |
CN108648760A (zh) * | 2018-04-17 | 2018-10-12 | 四川长虹电器股份有限公司 | 实时声纹辨识系统与方法 |
CN108877809A (zh) * | 2018-06-29 | 2018-11-23 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
-
2018
- 2018-12-24 CN CN201811579098.5A patent/CN109686377B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540170A (zh) * | 2008-03-19 | 2009-09-23 | 中国科学院半导体研究所 | 一种基于仿生模式识别的声纹识别方法 |
US20170294191A1 (en) * | 2016-04-07 | 2017-10-12 | Fujitsu Limited | Method for speaker recognition and apparatus for speaker recognition |
CN106228045A (zh) * | 2016-07-06 | 2016-12-14 | 吴本刚 | 一种身份识别系统 |
CN108648760A (zh) * | 2018-04-17 | 2018-10-12 | 四川长虹电器股份有限公司 | 实时声纹辨识系统与方法 |
CN108877809A (zh) * | 2018-06-29 | 2018-11-23 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
CN110728972A (zh) * | 2019-10-15 | 2020-01-24 | 广州酷狗计算机科技有限公司 | 音色相似度的确定方法、装置及计算机存储介质 |
CN110728972B (zh) * | 2019-10-15 | 2022-02-11 | 广州酷狗计算机科技有限公司 | 音色相似度的确定方法、装置及计算机存储介质 |
CN110853654A (zh) * | 2019-11-17 | 2020-02-28 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN110853654B (zh) * | 2019-11-17 | 2021-12-21 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN111933147A (zh) * | 2020-06-22 | 2020-11-13 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
CN111933147B (zh) * | 2020-06-22 | 2023-02-14 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
CN111933153A (zh) * | 2020-07-07 | 2020-11-13 | 北京捷通华声科技股份有限公司 | 一种语音分割点的确定方法和装置 |
CN111933153B (zh) * | 2020-07-07 | 2024-03-08 | 北京捷通华声科技股份有限公司 | 一种语音分割点的确定方法和装置 |
CN113066506A (zh) * | 2021-03-12 | 2021-07-02 | 北京百度网讯科技有限公司 | 音频数据分离方法、装置、电子设备以及存储介质 |
CN115019804A (zh) * | 2022-08-03 | 2022-09-06 | 北京惠朗时代科技有限公司 | 一种多员工密集签到的多重校验式声纹识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109686377B (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109686377B (zh) | 音频识别方法及装置、计算机可读存储介质 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
Lalitha et al. | Enhanced speech emotion detection using deep neural networks | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
CN108091326B (zh) | 一种基于线性回归的声纹识别方法及系统 | |
US20210304774A1 (en) | Voice profile updating | |
US11205428B1 (en) | Deleting user data using keys | |
Fook et al. | Comparison of speech parameterization techniques for the classification of speech disfluencies | |
CN108648769A (zh) | 语音活性检测方法、装置及设备 | |
CN104795064A (zh) | 低信噪比声场景下声音事件的识别方法 | |
Sefara | The effects of normalisation methods on speech emotion recognition | |
Paseddula et al. | Dnn based acoustic scene classification using score fusion of mfcc and inverse mfcc | |
CN108520752A (zh) | 一种声纹识别方法和装置 | |
Mannepalli et al. | FDBN: Design and development of Fractional Deep Belief Networks for speaker emotion recognition | |
US11200884B1 (en) | Voice profile updating | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
Deb et al. | Detection of common cold from speech signals using deep neural network | |
Huang et al. | Novel sub-band spectral centroid weighted wavelet packet features with importance-weighted support vector machines for robust speech emotion recognition | |
Bhangale et al. | Speech emotion recognition using the novel PEmoNet (Parallel Emotion Network) | |
CN116687410B (zh) | 一种慢性病患者的述情障碍评估方法和系统 | |
Huynh et al. | Semi-supervised tree support vector machine for online cough recognition | |
Shekofteh et al. | MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space | |
CN111862991A (zh) | 一种婴儿哭声的识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd. Address before: 519031 room 417, building 20, creative Valley, Hengqin New District, Zhuhai City, Guangdong Province Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd. |