CN111429921B - 声纹识别方法、系统、移动终端及存储介质 - Google Patents
声纹识别方法、系统、移动终端及存储介质 Download PDFInfo
- Publication number
- CN111429921B CN111429921B CN202010137038.9A CN202010137038A CN111429921B CN 111429921 B CN111429921 B CN 111429921B CN 202010137038 A CN202010137038 A CN 202010137038A CN 111429921 B CN111429921 B CN 111429921B
- Authority
- CN
- China
- Prior art keywords
- feature
- voiceprint recognition
- voice
- inputting
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000007704 transition Effects 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 claims abstract description 34
- 238000006243 chemical reaction Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 6
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 240000005373 Panax quinquefolius Species 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 101100285402 Danio rerio eng1a gene Proteins 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种声纹识别方法、系统、移动终端及存储介质,该方法包括:获取训练语料和训练语料对应的语音文本,对语音文本进行格式转换,得到样本拼音串;对训练语料进行语音端点检测,根据端点检测结果对样本拼音串中的音素对进行静音标记;获取每个音素对的过渡音征,获取训练语料中的谐波特征和包络特征;将谐波特征、包络特征和过渡音征特征进行特征组合,得到特征向量,将特征向量输入深度神经网络进行模型训练,得到声纹识别模型;获取待识别语音输入声纹识别模型进行声纹识别,得到声纹识别结果。本发明能基于过渡音征特征、谐波特征和包络特征对待识别语音的连续音特征、音质和肺活量进行检测,降低了背景环境噪声对声纹识别的影响。
Description
技术领域
本发明属于声纹识别技术领域,尤其涉及一种声纹识别方法、系统、移动终端及存储介质。
背景技术
每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。
现有声纹识别方案是提前采集至少一个用户的语音数据,并对语音数据进行特征值提取,将提取到的特征值输入声纹模型得到N维声纹向量。后面在做确认或者识别的时候,先获取任意一个用户的语音数据,然后对语音数据提取特征值,将特征值输入声纹模型,得到N维声纹向量,再与声纹库里原有的声纹向量做相似度匹配,每匹配一个用户会得到一个分值,分值最高并且大于阈值的声纹为待测语音所对应的用户。但现有技术中,待测语音的背景环境噪声对声纹识别的准确率影响较大,进而导致现有的声纹识别准确率低下。
发明内容
本发明实施例的目的在于提供一种声纹识别方法、系统、移动终端及存储介质,旨在解决现有的声纹识别方法识别准确率低的问题。
本发明实施例是这样实现的,一种声纹识别方法,所述方法包括:
获取训练语料和所述训练语料对应的语音文本,并对所述语音文本进行格式转换,得到样本拼音串;
对所述训练语料进行语音端点检测,得到端点检测结果,并根据所述端点检测结果对所述样本拼音串中的音素对进行静音标记;
获取每个所述音素对的过渡音征,得到过渡音征特征,并获取所述训练语料中的谐波特征和包络特征;
将所述谐波特征、所述包络特征和所述过渡音征特征进行特征组合,得到特征向量,并将所述特征向量输入深度神经网络进行模型训练,得到声纹识别模型;
获取待识别语音,并将所述待识别语音输入所述声纹识别模型进行声纹识别,以得到声纹识别结果。
更进一步的,所述对所述语音文本进行格式转换的步骤包括:
将所述语音文本中的文字转换为拼音,得到文字拼音串;
对所述文字拼音串中的辅音音素和元音音素进行分隔,以得到所述样本拼音串。
更进一步的,所述根据所述端点检测结果对所述样本拼音串中的音素对进行静音标记的步骤包括:
对所述样本拼音串中相邻的音素进行组合,得到所述音素对;
分别获取每个所述音素对末端音素在所述端点检测结果中对应的静音时长标记,并根据所述静音时长标记对对应所述音素对进行标注。
更进一步的,所述将所述谐波特征、所述包络特征和所述过渡音征特征进行特征组合的步骤之前,所述方法还包括:
对所述过渡音征特征进行类别标记,并记录类别标记结果;
将所述谐波特征与对应元音音素进行关联,并对所述谐波特征、所述包络特征和所述过渡音征特征进行均值归一化处理。
更进一步的,所述将所述特征向量输入深度神经网络进行模型训练的步骤包括:
将所述特征向量输入所述深度神经网络,并在所述深度神经网络中输入特征波动范围;
根据所述特征向量和所述特征波动范围在所述声纹识别模型中生成分类域,所述分类域与对应所述音素对相对应。
更进一步的,所述在所述深度神经网络中输入特征波动范围的步骤包括:
获取本地预存储的特征波动状态和所述特征波动状态对应的预设波动范围,所述特征波动状态包括感冒状态、开心状态、愤怒状态、羞愧状态和伤心状态中的一种或多种的组合;
将所述特征波动状态和对应所述预设波动范围输入所述深度神经网络。
更进一步的,所述将所述待识别语音输入所述声纹识别模型进行声纹识别的步骤之后,所述方法还包括:
获取所述声纹识别结果中存储的识别结果值,并对所述识别结果值进行欧氏距离打分,得到打分值;
对所打分值进行排序,并根据排序结果将所述打分值对应的用户信息进行显示。
本发明实施例的另一目的在于提供一种声纹识别系统,所述系统包括:
文本格式转换模块,用于获取训练语料和所述训练语料对应的语音文本,并对所述语音文本进行格式转换,得到样本拼音串;
静音标记模块,用于对所述训练语料进行语音端点检测,得到端点检测结果,并根据所述端点检测结果对所述样本拼音串中的音素对进行静音标记;
特征获取模块,用于获取每个所述音素对的过渡音征,得到过渡音征特征,并获取所述训练语料中的谐波特征和包络特征;
模型训练模块,用于将所述谐波特征、所述包络特征和所述过渡音征特征进行特征组合,得到特征向量,并将所述特征向量输入深度神经网络进行模型训练,得到声纹识别模型;
声纹识别模块,用于获取待识别语音,并将所述待识别语音输入所述声纹识别模型进行声纹识别,以得到声纹识别结果。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的声纹识别方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的声纹识别方法的步骤。
本发明实施例,通过对过渡音征特征、谐波特征和包络特征进行获取的设计,以使得到的声纹识别模型能基于该待识别语音对对应的待验证者发音时的连续音特征、音质和肺活量进行检测,以基于检测结果进行声纹识别,进而提高了声纹识别的适用性和稳定性,降低了背景环境噪声对声纹识别的影响。
附图说明
图1是本发明第一实施例提供的声纹识别方法的流程图;
图2是本发明第二实施例提供的声纹识别方法的流程图;
图3是本发明第三实施例提供的声纹识别系统的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
实施例一
请参阅图1,是本发明第一实施例提供的声纹识别方法的流程图,包括步骤:
步骤S10,获取训练语料和所述训练语料对应的语音文本,并对所述语音文本进行格式转换,得到样本拼音串;
其中,该训练语料基于对样本对象人员的语音采集,并通过对该训练语料进行语音识别,以对应得到文本格式的语音文本,该语音文本中至少存储有一个文本文字;
优选的,该步骤中,通过依序对该语音文本中的文本文字进行拼音转换,以得到该样本拼音串,即通过将所有文本文字转换为拼音格式,例如针对语音文本“声纹”,则转换后得到的样本拼音串为“sheng wen”;
步骤S20,对所述训练语料进行语音端点检测,得到端点检测结果,并根据所述端点检测结果对所述样本拼音串中的音素对进行静音标记;
其中,语音端点检测(Voice Activity Detection,VAD)又称语音活动检测和语音边界检测,该语音端点检测的目的是从该训练语料的声音信号流里识别各个语言节点的静音期,进而有效的保障了后续针对音素对静音标记的准确性;
具体的,该步骤中以音素对为单位进行静音标记,以使对该样本拼音串中所有的音素对进行静音长度的标记,当该静音标记越大时,则判定对应的音素对后续的静音时间较长;
步骤S30,获取每个所述音素对的过渡音征,得到过渡音征特征,并获取所述训练语料中的谐波特征和包络特征;
其中,由于不同人所讲的语音中的相邻音素间的过渡方式分为不同的类型。音节内辅音-元音之间、音节间元音-辅音之间的过渡方式分为清晰过渡(或停顿过渡)和模糊过渡(或缓冲过渡)两种类型,音节内元音-辅音之间的过渡方式分为间断过渡和连续过渡两种类型,音节内元音-元音之间的过渡方式分为平滑过渡、间断过渡、交错过渡和异变过渡四种类型,音节间元音-元音之间的过渡方式则分为间断过渡和平滑过渡两种类型,而同一人的发音,不论相邻音素间的过渡方式属于上述哪种类型,都表现出较强的自身同一性,因此,音素间过渡方式可以作为声纹识别的特征;
具体的,该步骤中,通过对该训练语料进行傅里叶变换,得到语谱图,并基于该语谱图以获取该谐波特征,优选的,通过获取该训练语料中语音信号的极点(该极点的语音幅值大于相邻语音节点的幅值),通过依序将相邻极点进行连接,以得到包络曲线,并基该包络曲线以获取该包络特征,该包络特征用于表征样本对象人员肺活量的变化,并以此作为声纹识别的特征;
此外,本实施例中,还可基于该包络曲线再次进行包络操作,以得到二次包络曲线,该二次包络曲线的频率特征与该一次包络曲线的频率特征相同,但二次包络曲线能反映语音信号的整体变化趋势,因此,将二次包络曲线中的所有语音点设置为该训练语料的包络特征;
步骤S40,将所述谐波特征、所述包络特征和所述过渡音征特征进行特征组合,得到特征向量,并将所述特征向量输入深度神经网络进行模型训练,得到声纹识别模型;
其中,通过对该谐波特征、所述包络特征和所述过渡音征特征依序进行向量计算,并基于向量计算结果进行向量之间的组合,以得到该特征向量,该深度神经网络中的参数可以根据需求进行设置;
步骤S50,获取待识别语音,并将所述待识别语音输入所述声纹识别模型进行声纹识别,以得到声纹识别结果;
其中,通过获取待识别语音,并借助语音识别和vad,将待识别语音转换为音素对,并将对应音素对的谐波、包络和过渡音征的组合特征输入声纹识别模型进行声纹识别,该声纹识别模型将获取到的特征带入分类域,以得到该声纹识别结果,该声纹识别结果中存储有多个识别结果值;
本实施例,通过对过渡音征特征、谐波特征和包络特征进行获取的设计,以使得到的声纹识别模型能基于该待识别语音对对应的待验证者发音时的连续音特征、音质和肺活量进行检测,以基于检测结果进行声纹识别,进而提高了声纹识别的适用性和稳定性,降低了背景环境噪声对声纹识别的影响。
实施例二
请参阅图2,是本发明第二实施例提供的声纹识别方法的流程图,包括步骤:
步骤S11,获取训练语料和所述训练语料对应的语音文本,并将所述语音文本中的文字转换为拼音,得到文字拼音串;
例如,当该语音文本为“声纹识别”时,则对应得到的文字拼音串为“sheng wenshi bie”;
步骤S21,对所述文字拼音串中的辅音音素和元音音素进行分隔,以得到所述样本拼音串;
其中,该文字拼音串“sheng wen shi bie”中包括辅音音素sh、w、b,元音音素eng、en、i、ie,因此,对各个音素之间进行分隔,以得到样本拼音串“sh eng w en sh i b ie”;
步骤S31,对所述训练语料进行语音端点检测,得到端点检测结果,并对所述样本拼音串中相邻的音素进行组合,得到所述音素对;
其中,语音端点检测(Voice Activity Detection,VAD)又称语音活动检测和语音边界检测,该语音端点检测的目的是从该训练语料的声音信号流里识别各个语言节点的静音期,进而有效的保障了后续针对音素对静音标记的准确性;
具体的,该步骤中得到的音素对包括:sh_eng、eng_w、w_en、sh_i、i_b和b_ie;
步骤S41,分别获取每个所述音素对末端音素在所述端点检测结果中对应的静音时长标记,并根据所述静音时长标记对对应所述音素对进行标注;
其中,该步骤中以音素对为单位进行静音标记,以使对该样本拼音串中所有的音素对进行静音长度的标记,当该静音标记越大时,则判定对应的音素对后续的静音时间较长;
具体的,该步骤中,可以采用文字、数字或编码的方式对该音素对进行标注,优选的,该步骤中采用数字的方式进行标注,因此,标注后的音素对为:sh_eng_1、eng_w_1、w_en_2、sh_i_1、i_b_1和b_ie_2,数字1表示静音时间较短,数字2表示静音时间较长;
此外,需要说明的是,当音素对对应的静音时间较长时,则判定该处过渡音征不明显,则不考虑音素组合情况;
步骤S51,获取每个所述音素对的过渡音征,得到过渡音征特征,并获取所述训练语料中的谐波特征和包络特征;
其中,通过对该训练语料进行傅里叶变换,得到语谱图,并基于该语谱图以获取该谐波特征,优选的,通过获取该训练语料中语音信号的极点(该极点的语音幅值大于相邻语音节点的幅值),通过依序将相邻极点进行连接,以得到包络曲线,并基该包络曲线以获取该包络特征,该包络特征用于表征样本对象人员肺活量的变化,并以此作为声纹识别的特征;
步骤S61,对所述过渡音征特征进行类别标记,并记录类别标记结果;
其中,由于需要对不同过渡音征特征进行分类,因此,该步骤中通过采用类别标记的方式以进行区分分类,进而有效的提高了后续声纹识别模型中识别的准确性;
步骤S71,将所述谐波特征与对应元音音素进行关联,并对所述谐波特征、所述包络特征和所述过渡音征特征进行均值归一化处理;
其中,通过对所述谐波特征、所述包络特征和所述过渡音征特征进行均值归一化处理的设计,以达到特征缩放的效果,减小了样本数据的波动,使得梯度下降能够更快速;
步骤S81,将所述谐波特征、所述包络特征和所述过渡音征特征进行特征组合,得到特征向量,并将所述特征向量输入深度神经网络进行模型训练,得到声纹识别模型;
其中,通过对该谐波特征、所述包络特征和所述过渡音征特征依序进行向量计算,并基于向量计算结果进行向量之间的组合,以得到该特征向量,该深度神经网络中的参数可以根据需求进行设置;
优选的,该步骤中,所述将所述特征向量输入深度神经网络进行模型训练的步骤包括:
将所述特征向量输入所述深度神经网络,并在所述深度神经网络中输入特征波动范围;
根据所述特征向量和所述特征波动范围在所述声纹识别模型中生成分类域,所述分类域与对应所述音素对相对应;
其中,通过在所述深度神经网络中输入特征波动范围的设计,以防止由于用户处于不同情感状态所导致的声纹识别误差,进而保障了训练后声纹识别模型的准确性;
更进一步,该步骤中,所述在所述深度神经网络中输入特征波动范围的步骤包括:
获取本地预存储的特征波动状态和所述特征波动状态对应的预设波动范围,所述特征波动状态包括感冒状态、开心状态、愤怒状态、羞愧状态和伤心状态中的一种或多种的组合;
将所述特征波动状态和对应所述预设波动范围输入所述深度神经网络。
步骤S91,获取待识别语音,并将所述待识别语音输入所述声纹识别模型进行声纹识别,以得到声纹识别结果;
其中,通过获取待识别语音,并借助语音识别和vad,将待识别语音转换为音素对,并将对应音素对的谐波、包络和过渡音征的组合特征输入声纹识别模型进行声纹识别,该声纹识别模型将获取到的特征带入分类域,以得到该声纹识别结果,该声纹识别结果中存储有多个识别结果值;
步骤S101,获取所述声纹识别结果中存储的识别结果值,并对所述识别结果值进行欧氏距离打分,得到打分值;
步骤S111,对所打分值进行排序,并根据排序结果将所述打分值对应的用户信息进行显示;
本实施例中,通过对过渡音征特征、谐波特征和包络特征进行获取的设计,以使得到的声纹识别模型能基于该待识别语音对对应的待验证者发音时的连续音特征、音质和肺活量进行检测,以基于检测结果进行声纹识别,进而提高了声纹识别的适用性和稳定性,降低了背景环境噪声对声纹识别的影响。
实施例三
请参阅图3,是本发明第三实施例提供的声纹识别系统100的结构示意图,包括:文本格式转换模块10、静音标记模块11、特征获取模块12、模型训练模块13和声纹识别模块14,其中:
文本格式转换模块10,用于获取训练语料和所述训练语料对应的语音文本,并对所述语音文本进行格式转换,得到样本拼音串,其中,该训练语料基于对样本对象人员的语音采集,并通过对该训练语料进行语音识别,以对应得到文本格式的语音文本,该语音文本中至少存储有一个文本文字。
优选的,所述文本格式转换模块10还用于:将所述语音文本中的文字转换为拼音,得到文字拼音串;对所述文字拼音串中的辅音音素和元音音素进行分隔,以得到所述样本拼音串。
静音标记模块11,用于对所述训练语料进行语音端点检测,得到端点检测结果,并根据所述端点检测结果对所述样本拼音串中的音素对进行静音标记,其中,该语音端点检测的目的是从该训练语料的声音信号流里识别各个语言节点的静音期,进而有效的保障了后续针对音素对静音标记的准确性。
优选的,所述静音标记模块11还用于:对所述样本拼音串中相邻的音素进行组合,得到所述音素对;分别获取每个所述音素对末端音素在所述端点检测结果中对应的静音时长标记,并根据所述静音时长标记对对应所述音素对进行标注。
特征获取模块12,用于获取每个所述音素对的过渡音征,得到过渡音征特征,并获取所述训练语料中的谐波特征和包络特征。
其中,所述特征获取模块12还用于:对所述过渡音征特征进行类别标记,并记录类别标记结果;将所述谐波特征与对应元音音素进行关联,并对所述谐波特征、所述包络特征和所述过渡音征特征进行均值归一化处理。
模型训练模块13,用于将所述谐波特征、所述包络特征和所述过渡音征特征进行特征组合,得到特征向量,并将所述特征向量输入深度神经网络进行模型训练,得到声纹识别模型,其中,通过对该谐波特征、所述包络特征和所述过渡音征特征依序进行向量计算,并基于向量计算结果进行向量之间的组合,以得到该特征向量,该深度神经网络中的参数可以根据需求进行设置。
进一步的,所述模型训练模块13还用于:将所述特征向量输入所述深度神经网络,并在所述深度神经网络中输入特征波动范围;根据所述特征向量和所述特征波动范围在所述声纹识别模型中生成分类域,所述分类域与对应所述音素对相对应。
优选的,所述模型训练模块13还用于:获取本地预存储的特征波动状态和所述特征波动状态对应的预设波动范围,所述特征波动状态包括感冒状态、开心状态、愤怒状态、羞愧状态和伤心状态中的一种或多种的组合;将所述特征波动状态和对应所述预设波动范围输入所述深度神经网络。
声纹识别模块14,用于获取待识别语音,并将所述待识别语音输入所述声纹识别模型进行声纹识别,以得到声纹识别结果。
其中,所述声纹识别模块14还用于:获取所述声纹识别结果中存储的识别结果值,并对所述识别结果值进行欧氏距离打分,得到打分值;对所打分值进行排序,并根据排序结果将所述打分值对应的用户信息进行显示。
本实施例,通过对过渡音征特征、谐波特征和包络特征进行获取的设计,以使得到的声纹识别模型能基于该待识别语音对对应的待验证者发音时的连续音特征、音质和肺活量进行检测,以基于检测结果进行声纹识别,进而提高了声纹识别的适用性和稳定性,降低了背景环境噪声对声纹识别的影响。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的声纹识别方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取训练语料和所述训练语料对应的语音文本,并对所述语音文本进行格式转换,得到样本拼音串;
对所述训练语料进行语音端点检测,得到端点检测结果,并根据所述端点检测结果对所述样本拼音串中的音素对进行静音标记;
获取每个所述音素对的过渡音征,得到过渡音征特征,并获取所述训练语料中的谐波特征和包络特征;
将所述谐波特征、所述包络特征和所述过渡音征特征进行特征组合,得到特征向量,并将所述特征向量输入深度神经网络进行模型训练,得到声纹识别模型;
获取待识别语音,并将所述待识别语音输入所述声纹识别模型进行声纹识别,以得到声纹识别结果。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的声纹识别系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的声纹识别方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标声纹识别系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标声纹识别系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种声纹识别方法,其特征在于,所述方法包括:
获取训练语料和所述训练语料对应的语音文本,并对所述语音文本进行格式转换,得到样本拼音串;
对所述训练语料进行语音端点检测,得到端点检测结果,并根据所述端点检测结果对所述样本拼音串中的音素对进行静音标记;
获取每个所述音素对的过渡音征,得到过渡音征特征,并获取所述训练语料中的谐波特征和包络特征;
将所述谐波特征、所述包络特征和所述过渡音征特征进行特征组合,得到特征向量,并将所述特征向量输入深度神经网络进行模型训练,得到声纹识别模型;
获取待识别语音,并将所述待识别语音输入所述声纹识别模型进行声纹识别,以得到声纹识别结果;
所述根据所述端点检测结果对所述样本拼音串中的音素对进行静音标记的步骤包括:
对所述样本拼音串中相邻的音素进行组合,得到所述音素对;
分别获取每个所述音素对末端音素在所述端点检测结果中对应的静音时长标记,并根据所述静音时长标记对对应所述音素对进行标注;
所述将所述特征向量输入深度神经网络进行模型训练的步骤包括:
将所述特征向量输入所述深度神经网络,并在所述深度神经网络中输入特征波动范围;
根据所述特征向量和所述特征波动范围在所述声纹识别模型中生成分类域,所述分类域与对应所述音素对相对应;
所述在所述深度神经网络中输入特征波动范围的步骤包括:
获取本地预存储的特征波动状态和所述特征波动状态对应的预设波动范围;
将所述特征波动状态和对应所述预设波动范围输入所述深度神经网络。
2.如权利要求1所述的声纹识别方法,其特征在于,所述对所述语音文本进行格式转换的步骤包括:
将所述语音文本中的文字转换为拼音,得到文字拼音串;
对所述文字拼音串中的辅音音素和元音音素进行分隔,以得到所述样本拼音串。
3.如权利要求1所述的声纹识别方法,其特征在于,所述将所述谐波特征、所述包络特征和所述过渡音征特征进行特征组合的步骤之前,所述方法还包括:
对所述过渡音征特征进行类别标记,并记录类别标记结果;
将所述谐波特征与对应元音音素进行关联,并对所述谐波特征、所述包络特征和所述过渡音征特征进行均值归一化处理。
4.如权利要求1所述的声纹识别方法,其特征在于,所述特征波动状态包括感冒状态、开心状态、愤怒状态、羞愧状态和伤心状态中的一种或多种的组合。
5.如权利要求1所述的声纹识别方法,其特征在于,所述将所述待识别语音输入所述声纹识别模型进行声纹识别的步骤之后,所述方法还包括:
获取所述声纹识别结果中存储的识别结果值,并对所述识别结果值进行欧氏距离打分,得到打分值;
对所打分值进行排序,并根据排序结果将所述打分值对应的用户信息进行显示。
6.一种声纹识别系统,其特征在于,所述系统包括:
文本格式转换模块,用于获取训练语料和所述训练语料对应的语音文本,并对所述语音文本进行格式转换,得到样本拼音串;
静音标记模块,用于对所述训练语料进行语音端点检测,得到端点检测结果,并根据所述端点检测结果对所述样本拼音串中的音素对进行静音标记;
特征获取模块,用于获取每个所述音素对的过渡音征,得到过渡音征特征,并获取所述训练语料中的谐波特征和包络特征;
模型训练模块,用于将所述谐波特征、所述包络特征和所述过渡音征特征进行特征组合,得到特征向量,并将所述特征向量输入深度神经网络进行模型训练,得到声纹识别模型;
声纹识别模块,用于获取待识别语音,并将所述待识别语音输入所述声纹识别模型进行声纹识别,以得到声纹识别结果;
所述静音标记模块还用于:对所述样本拼音串中相邻的音素进行组合,得到所述音素对;分别获取每个所述音素对末端音素在所述端点检测结果中对应的静音时长标记,并根据所述静音时长标记对对应所述音素对进行标注;
所述模型训练模块还用于:将所述特征向量输入所述深度神经网络,并在所述深度神经网络中输入特征波动范围;根据所述特征向量和所述特征波动范围在所述声纹识别模型中生成分类域,所述分类域与对应所述音素对相对应;
所述模型训练模块还用于:获取本地预存储的特征波动状态和所述特征波动状态对应的预设波动范围;将所述特征波动状态和对应所述预设波动范围输入所述深度神经网络。
7.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至5任一项所述的声纹识别方法。
8.一种存储介质,其特征在于,其存储有权利要求7所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至5任一项所述的声纹识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010137038.9A CN111429921B (zh) | 2020-03-02 | 2020-03-02 | 声纹识别方法、系统、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010137038.9A CN111429921B (zh) | 2020-03-02 | 2020-03-02 | 声纹识别方法、系统、移动终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429921A CN111429921A (zh) | 2020-07-17 |
CN111429921B true CN111429921B (zh) | 2023-01-03 |
Family
ID=71547426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010137038.9A Active CN111429921B (zh) | 2020-03-02 | 2020-03-02 | 声纹识别方法、系统、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429921B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921017A (zh) * | 2021-12-14 | 2022-01-11 | 深圳市声扬科技有限公司 | 语音同一性的检验方法、装置、电子设备及存储介质 |
CN114299997A (zh) * | 2021-12-15 | 2022-04-08 | 北京声智科技有限公司 | 音频数据处理方法、装置、电子设备、存储介质及产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122507A (zh) * | 2010-01-08 | 2011-07-13 | 龚澍 | 一种运用人工神经网络进行前端处理的语音检错方法 |
CN105679312A (zh) * | 2016-03-04 | 2016-06-15 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
CN108648759A (zh) * | 2018-05-14 | 2018-10-12 | 华南理工大学 | 一种文本无关的声纹识别方法 |
CN109524014A (zh) * | 2018-11-29 | 2019-03-26 | 辽宁工业大学 | 一种基于深度卷积神经网络的声纹识别分析方法 |
CN110660399A (zh) * | 2019-11-11 | 2020-01-07 | 广州国音智能科技有限公司 | 声纹识别的训练方法、装置、终端及计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
KR102017244B1 (ko) * | 2017-02-27 | 2019-10-21 | 한국전자통신연구원 | 자연어 인식 성능 개선 방법 및 장치 |
-
2020
- 2020-03-02 CN CN202010137038.9A patent/CN111429921B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122507A (zh) * | 2010-01-08 | 2011-07-13 | 龚澍 | 一种运用人工神经网络进行前端处理的语音检错方法 |
CN105679312A (zh) * | 2016-03-04 | 2016-06-15 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
CN108648759A (zh) * | 2018-05-14 | 2018-10-12 | 华南理工大学 | 一种文本无关的声纹识别方法 |
CN109524014A (zh) * | 2018-11-29 | 2019-03-26 | 辽宁工业大学 | 一种基于深度卷积神经网络的声纹识别分析方法 |
CN110660399A (zh) * | 2019-11-11 | 2020-01-07 | 广州国音智能科技有限公司 | 声纹识别的训练方法、装置、终端及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111429921A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huttenlocher et al. | A model of lexical access from partial phonetic information | |
Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
Li et al. | Combining five acoustic level modeling methods for automatic speaker age and gender recognition. | |
CN112927679A (zh) | 一种语音识别中添加标点符号的方法及语音识别装置 | |
Saleem et al. | Forensic speaker recognition: A new method based on extracting accent and language information from short utterances | |
CN113744722B (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
CN111429921B (zh) | 声纹识别方法、系统、移动终端及存储介质 | |
Hanani et al. | Spoken Arabic dialect recognition using X-vectors | |
CN115240655A (zh) | 一种基于深度学习的中文语音识别系统及方法 | |
US20110224985A1 (en) | Model adaptation device, method thereof, and program thereof | |
CN111933116B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
Alotaibi et al. | A canonicalization of distinctive phonetic features to improve arabic speech recognition | |
CN111798841B (zh) | 声学模型训练方法、系统、移动终端及存储介质 | |
US6963832B2 (en) | Meaning token dictionary for automatic speech recognition | |
JP3444108B2 (ja) | 音声認識装置 | |
Biadsy et al. | Discriminative phonotactics for dialect recognition using context-dependent phone classifiers | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
Saputri et al. | Identifying Indonesian local languages on spontaneous speech data | |
Shah et al. | Speaker recognition for pashto speakers based on isolated digits recognition using accent and dialect approach | |
Ishihara et al. | Automatic transformation of environmental sounds into sound-imitation words based on Japanese syllable structure. | |
Srinivasan et al. | SSNCSE_NLP@ LT-EDI-ACL2022: Speech Recognition for Vulnerable Individuals in Tamil using pre-trained XLSR models | |
Pranjol et al. | Bengali speech recognition: An overview | |
Vielhauer et al. | Fusion strategies for speech and handwriting modalities in HCI | |
JP2813209B2 (ja) | 大語彙音声認識装置 | |
Swarna | Bangla broadcast speech recognition using support vector machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |