CN107680601A - 一种基于语谱图和音素检索的身份同一性检验方法及装置 - Google Patents
一种基于语谱图和音素检索的身份同一性检验方法及装置 Download PDFInfo
- Publication number
- CN107680601A CN107680601A CN201710971618.6A CN201710971618A CN107680601A CN 107680601 A CN107680601 A CN 107680601A CN 201710971618 A CN201710971618 A CN 201710971618A CN 107680601 A CN107680601 A CN 107680601A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- vowel
- sound spectrograph
- identified
- audio file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007689 inspection Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000001228 spectrum Methods 0.000 claims description 9
- 108010001267 Protein Subunits Proteins 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 abstract description 16
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于语谱图和音素检索的身份同一性检验方法及装置,其中方法包括:获取样本音频文件对应的语谱图;获取所述样本音频文件的语音特征参数;构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素;将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过。本发明解决了实际声纹鉴定中搜索和查找音素的技术问题,并将音素可视化显示,提高办案人员的认定效率。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种基于语谱图和音素检索的身份同一性检验方法及装置。
背景技术
成年以后,人的声音可保持长期相对稳定不变。实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终相同。基于声纹的这两个特征,侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹,通过声纹鉴定技术进行检验对比,迅速认定罪犯,为侦查破案提供可靠的证据。
现有的声纹身份同一性检验方法主要是通过在录音音频对应显示语谱图中,人工逐个查找相似的元音,逐一比对声纹特征的方法。此方法最大的缺点是查找相似的元音需要花费大量的时间和精力,还需要人工标注相同音节进行统计。在实际的声纹鉴定中,由于对声纹特征的对比要求高,会对不同元音及组合进行反复的比较,传统的人工查找和搜索会导致大量人力成本的浪费,且单一的音素检索功能无法对声纹鉴定办案审理提供有效的鉴定结果。本发明解决了实际声纹鉴定中搜索和查找音素的技术问题,并将音素可视化显示,提高办案人员的认定效率。
发明内容
本发明提供了一种基于语谱图和音素检索的身份同一性检验方法及装置,解决了实际声纹鉴定中搜索和查找音素的技术问题,并将音素可视化显示,提高办案人员的认定效率。
本发明提供了一种基于语谱图和音素检索的身份同一性检验方法,包括:
获取样本音频文件对应的语谱图;
获取所述样本音频文件的语音特征参数;
构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素;
将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过。
作为优选,所述获取样本音频文件对应的语谱图具体包括:
获取样本音频文件的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
根据所述语谱参数构建对应的语谱图。
作为优选,所述获取所述样本音频文件的语音特征参数具体包括:
获取所述样本音频文件的梅尔频率倒谱系数。
作为优选,所述构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素具体包括:
将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型;
将所述梅尔频率倒谱系数输入至所述音素识别模型中进行音素检索,根据概率分布,得到符合的音素。
作为优选,所述将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过具体包括:
将所述符合的音素标识在所述语谱图上,获取具有相同标识的元音或元音组合;
分析所述具有相同标识的元音或元音组合的共振峰特性;
判断第一组所述具有相同标识的元音或元音组合的语音特征是否匹配,
若是,则确定匹配的元音或元音组合的种类,并执行下一步,
若否,则判断下一组所述具有相同标识的元音或元音组合的语音特征是否匹配;
判断所述匹配的元音或元音组合的种类数量是否达到预置要求数量,
若是,则判断所述样本音频文件对应的待识别身份验证通过。
本发明提供了一种基于语谱图和音素检索的身份同一性检验装置,包括:
第一获取单元,用于获取样本音频文件对应的语谱图;
第二获取单元,用于获取所述样本音频文件的语音特征参数;
音素检索单元,用于构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素;
身份验证单元,用于将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过。
作为优选,所述第一获取单元具体包括:
参数获取子单元,用于获取样本音频文件的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
语谱图构建子单元,用于根据所述语谱参数构建对应的语谱图。
作为优选,所述第二获取单元具体包括:
语音特征参数获取子单元,用于获取所述样本音频文件的梅尔频率倒谱系数。
作为优选,所述音素检索单元具体包括:
音素识别模型构建子单元,用于将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型;
音素检索子单元,用于将所述梅尔频率倒谱系数输入至所述音素识别模型中进行音素检索,根据概率分布,得到符合的音素。
作为优选,所述身份验证单元具体包括:
标识子单元,用于将所述符合的音素标识在所述语谱图上,获取具有相同标识的元音或元音组合;
分析子单元,用于分析所述具有相同标识的元音或元音组合的共振峰特性;
第一判断子单元,用于判断第一组所述具有相同标识的元音或元音组合的语音特征是否匹配,
若是,则确定匹配的元音或元音组合的种类,并执行下一步,
若否,则判断下一组所述具有相同标识的元音或元音组合的语音特征是否匹配;
第二判断子单元,用于判断所述匹配的元音或元音组合的种类数量是否达到预置要求数量,
若是,则判断所述样本音频文件对应的待识别身份验证通过。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供了一种基于语谱图和音素检索的身份同一性检验方法,包括:获取样本音频文件对应的语谱图;获取所述样本音频文件的语音特征参数;构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素;将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过。
本发明中,通过构建音素识别模型,检索出样本音频文件中符合要求的音素,且将符合要求的音素与样本音频文件对应的语谱图进行比对,鉴定样本音频文件对应的待识别者身份,相对于人工比较更加的准确,且通过音素识别模型检索出多个符合要求的音素,更加提高了比较的准确度,解决了实际声纹鉴定中搜索和查找音素的技术问题,并将音素可视化显示,提高办案人员的认定效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于语谱图和音素检索的身份同一性检验方法的一个实施例的流程示意图;
图2为本发明提供的一种基于语谱图和音素检索的身份同一性检验方法的另一个实施例的流程示意图;
图3为本发明提供的一种基于语谱图和音素检索的身份同一性检验装置的一个实施例的结构示意图;
图4为本发明提供的一种基于语谱图和音素检索的身份同一性检验装置的另一个实施例的结构示意图。
具体实施方式
本发明实施例提供了一种基于语谱图和音素检索的身份同一性检验方法及装置,解决了实际声纹鉴定中搜索和查找音素的技术问题,并将音素可视化显示,提高办案人员的认定效率。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种基于语谱图和音素检索的身份同一性检验方法的一个实施例,包括:
101、获取样本音频文件对应的语谱图;
需要说明的是,通过任意录音终端采集样本音频,并形成样本音频文件,获取样本音频文件对应的语谱图。
102、获取样本音频文件的语音特征参数;
需要说明的是,提取样本音频文件的语音特征参数。
103、构建音素识别模型,将语音特征参数输入至音素识别模型中进行音素检索,得到符合的音素;
需要说明的是,构建音素识别模型,将语音特征参数输入至音素识别模型中进行音素检索,得到符合的音素。
104、将符合的音素标识在语谱图上,获取具有相同标识的元音或元音组合,对具有相同标识的元音或元音组合进行同一性检验,判断样本音频文件对应的待识别者身份验证是否通过。
需要说明的是,将得到的符合的音素标识在语谱图上,对二者进行同一性检验,判断样本音频文件对应的待识别者身份验证是否通过。
本发明实施例中,通过构建音素识别模型,检索出样本音频文件中符合要求的音素,且将符合要求的音素与样本音频文件对应的语谱图进行比对,鉴定样本音频文件对应的待识别者身份,相对于人工比较更加的准确,且通过音素识别模型检索出多个符合要求的音素,更加提高了比较的准确度,解决了实际声纹鉴定中搜索和查找音素的技术问题,并将音素可视化显示,提高办案人员的认定效率。
以上是本发明提供的一种基于语谱图和音素检索的身份同一性检验方法的一个实施例进行说明,以下将说明本发明提供的一种基于语谱图和音素检索的身份同一性检验方法的另一个实施例进行说明。
请参阅图2,本发明实施例提供了一种基于语谱图和音素检索的身份同一性检验方法的另一个实施例,包括:
2011、获取样本音频文件的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
需要说明的是,通过任意录音终端采集样本音频,并形成样本音频文件,获取样本音频文件的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型。
2012、根据语谱参数构建对应的语谱图。
需要说明的是,通过得到的五个语谱参数,构建对应的语谱图。
202、获取样本音频文件的梅尔频率倒谱系数。
需要说明的是,获取样本音频文件的梅尔频率倒谱系数;
梅尔频率倒谱系数(MFCC,Mel-Frequency Cepstral Coefficients)是一种在主动语音和谈话人识别中广泛使用的特征。
2031、将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型;
需要说明的是,将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型,其中,预置的声学模型为已识别身份者的语音模型,预置的音素语音模型根据待识别者的语言类型预置相同的音素语言模型。
2032、将梅尔频率倒谱系数输入至音素识别模型中进行音素检索,根据概率分布,得到符合的音素。
需要说明的是,将梅尔频率倒谱系数输入至音素识别模型中进行音素检索,根据概率分布,得到符合的音素。
2041、将符合的音素标识在语谱图上,获取具有相同标识的元音或元音组合;
需要说明的是,将符合的音素标识在所述语谱图上,获取具有相同标识的元音或元音组合。
2042、分析具有相同标识的元音或元音组合的共振峰特性;
需要说明的是,分析具有相同标识的元音或元音组合的共振峰特性;
在语音声学中,人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区(Formant Regions)。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形),我们就能改变声音的共振峰。我们之所以能够区分不同的人声、元音,主要也是依靠它们的共振峰分布的位置。
2043、判断第一组具有相同标识的元音或元音组合的语音特征是否匹配,
若是,则确定匹配的元音或元音组合的种类,并执行下一步,
若否,则判断下一组具有相同标识的元音或元音组合的语音特征是否匹配;
需要说明的是,对第一组具有相同标识的元音或元音组合的语音特征进行判断,若语音特征匹配,则确定匹配的元音或元音组合的种类,并执行步骤2044,若语音特征不匹配,则对下一组具有相同标识的元音或元音组合的语音特征是否匹配进行判断。
2044、判断匹配的元音或元音组合的种类数量是否达到预置要求数量,
若是,则判断样本音频文件对应的待识别身份验证通过。
需要说明的是,统计匹配的元音或元音组合的种类,得到匹配的元音或元音组合的种类数量,将匹配的元音或元音组合的种类数量与预置要求数量进行对比判断,若匹配的元音或元音组合的种类数量达到预置要求数量,则判断样本音频文件对应的待识别身份验证通过,若匹配的元音或元音组合的种类数量未达到预置要求数量,则判断样本音频文件对应的待识别身份验证不通过。
以上是对本发明提供的一种基于语谱图和音素检索的身份同一性检验方法的另一个实施例进行说明,以下将对本发明提供的一种基于语谱图和音素检索的身份同一性检验装置的一个实施例进行说明。
请参阅图3,本发明提供了一种基于语谱图和音素检索的身份同一性检验装置的一个实施例,包括:
第一获取单元301,用于获取样本音频文件对应的语谱图;
第二获取单元302,用于获取所述样本音频文件的语音特征参数;
音素检索单元303,用于构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素;
身份验证单元304,用于将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过。
以上是对本发明提供的一种基于语谱图和音素检索的身份同一性检验装置的一个实施例进行说明,以下将对本发明提供的一种基于语谱图和音素检索的身份同一性检验装置的另一个实施例进行说明。
请参阅图4,本发明提供了一种基于语谱图和音素检索的身份同一性检验装置的另一个实施例,包括:
第一获取单元401,用于获取样本音频文件对应的语谱图;
第一获取单元401具体包括:
参数获取子单元4011,用于获取样本音频文件的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
语谱图构建子单元4012,用于根据所述语谱参数构建对应的语谱图。
第二获取单元402,用于获取所述样本音频文件的语音特征参数;
第二获取单元402具体包括:
语音特征参数获取子单元4021,用于获取所述样本音频文件的梅尔频率倒谱系数。
音素检索单元403,用于构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素;
音素检索单元403具体包括:
音素识别模型构建子单元4031,用于将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型;
音素检索子单元4032,用于将所述梅尔频率倒谱系数输入至所述音素识别模型中进行音素检索,根据概率分布,得到符合的音素。
身份验证单元404,用于将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过。
身份验证单元404具体包括:
标识子单元4041,用于将所述符合的音素标识在所述语谱图上,获取具有相同标识的元音或元音组合;
分析子单元4042,用于分析所述具有相同标识的元音或元音组合的共振峰特性;
第一判断子单元4043,用于判断第一组所述具有相同标识的元音或元音组合的语音特征是否匹配,
若是,则确定匹配的元音或元音组合的种类,并执行下一步,
若否,则判断下一组所述具有相同标识的元音或元音组合的语音特征是否匹配;
第二判断子单元4044,用于判断所述匹配的元音或元音组合的种类数量是否达到预置要求数量,
若是,则判断所述样本音频文件对应的待识别身份验证通过。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于语谱图和音素检索的身份同一性检验方法,其特征在于,包括:
获取样本音频文件对应的语谱图;
获取所述样本音频文件的语音特征参数;
构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素;
将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过。
2.根据权利要求1所述的基于语谱图和音素检索的身份同一性检验方法,其特征在于,所述获取样本音频文件对应的语谱图具体包括:
获取样本音频文件的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
根据所述语谱参数构建对应的语谱图。
3.根据权利要求2所述的基于语谱图和音素检索的身份同一性检验方法,其特征在于,所述获取所述样本音频文件的语音特征参数具体包括:
获取所述样本音频文件的梅尔频率倒谱系数。
4.根据权利要求3所述的基于语谱图和音素检索的身份同一性检验方法,其特征在于,所述构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素具体包括:
将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型;
将所述梅尔频率倒谱系数输入至所述音素识别模型中进行音素检索,根据概率分布,得到符合的音素。
5.根据权利要求4所述的基于语谱图和音素检索的身份同一性检验方法,其特征在于,所述将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过具体包括:
将所述符合的音素标识在所述语谱图上,获取具有相同标识的元音或元音组合;
分析所述具有相同标识的元音或元音组合的共振峰特性;
判断第一组所述具有相同标识的元音或元音组合的语音特征是否匹配,
若是,则确定匹配的元音或元音组合的种类,并执行下一步,
若否,则判断下一组所述具有相同标识的元音或元音组合的语音特征是否匹配;
判断所述匹配的元音或元音组合的种类数量是否达到预置要求数量,
若是,则判断所述样本音频文件对应的待识别身份验证通过。
6.一种基于语谱图和音素检索的身份同一性检验装置,其特征在于,包括:
第一获取单元,用于获取样本音频文件对应的语谱图;
第二获取单元,用于获取所述样本音频文件的语音特征参数;
音素检索单元,用于构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素;
身份验证单元,用于将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过。
7.根据权利要求6所述的基于语谱图和音素检索的身份同一性检验装置,其特征在于,所述第一获取单元具体包括:
参数获取子单元,用于获取样本音频文件的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
语谱图构建子单元,用于根据所述语谱参数构建对应的语谱图。
8.根据权利要求7所述的基于语谱图和音素检索的身份同一性检验装置,其特征在于,所述第二获取单元具体包括:
语音特征参数获取子单元,用于获取所述样本音频文件的梅尔频率倒谱系数。
9.根据权利要求8所述的基于语谱图和音素检索的身份同一性检验装置,其特征在于,所述音素检索单元具体包括:
音素识别模型构建子单元,用于将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型;
音素检索子单元,用于将所述梅尔频率倒谱系数输入至所述音素识别模型中进行音素检索,根据概率分布,得到符合的音素。
10.根据权利要求9所述的基于语谱图和音素检索的身份同一性检验装置,其特征在于,所述身份验证单元具体包括:
标识子单元,用于将所述符合的音素标识在所述语谱图上,获取具有相同标识的元音或元音组合;
分析子单元,用于分析所述具有相同标识的元音或元音组合的共振峰特性;
第一判断子单元,用于判断第一组所述具有相同标识的元音或元音组合的语音特征是否匹配,
若是,则确定匹配的元音或元音组合的种类,并执行下一步,
若否,则判断下一组所述具有相同标识的元音或元音组合的语音特征是否匹配;
第二判断子单元,用于判断所述匹配的元音或元音组合的种类数量是否达到预置要求数量,
若是,则判断所述样本音频文件对应的待识别身份验证通过。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710971618.6A CN107680601B (zh) | 2017-10-18 | 2017-10-18 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
PCT/CN2018/075774 WO2019075965A1 (zh) | 2017-10-18 | 2018-02-08 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710971618.6A CN107680601B (zh) | 2017-10-18 | 2017-10-18 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107680601A true CN107680601A (zh) | 2018-02-09 |
CN107680601B CN107680601B (zh) | 2019-02-01 |
Family
ID=61141447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710971618.6A Active CN107680601B (zh) | 2017-10-18 | 2017-10-18 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107680601B (zh) |
WO (1) | WO2019075965A1 (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108766417A (zh) * | 2018-05-29 | 2018-11-06 | 广州国音科技有限公司 | 一种基于音素自动检索的身份同一性检验方法及装置 |
CN109065023A (zh) * | 2018-08-23 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
CN109087651A (zh) * | 2018-09-05 | 2018-12-25 | 广州势必可赢网络科技有限公司 | 一种基于视频与语谱图的声纹鉴定方法、系统及设备 |
CN109378004A (zh) * | 2018-12-17 | 2019-02-22 | 广州势必可赢网络科技有限公司 | 一种音素比对的方法、装置、设备及计算机可读存储介质 |
CN109448733A (zh) * | 2019-01-07 | 2019-03-08 | 广州势必可赢网络科技有限公司 | 一种语谱图生成方法、系统及相关装置 |
CN109817223A (zh) * | 2019-01-29 | 2019-05-28 | 广州势必可赢网络科技有限公司 | 基于音频指纹的音素标记方法及装置 |
CN109979466A (zh) * | 2019-03-21 | 2019-07-05 | 广州国音智能科技有限公司 | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 |
CN110164454A (zh) * | 2019-05-24 | 2019-08-23 | 广州国音智能科技有限公司 | 一种基于共振峰偏差的音频同一性判别方法及装置 |
CN110570842A (zh) * | 2019-10-25 | 2019-12-13 | 南京云白信息科技有限公司 | 基于音素近似度和发音标准度的语音识别方法及系统 |
CN111640453A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语谱图匹配方法、装置、设备及计算机可读存储介质 |
CN112133289A (zh) * | 2020-11-24 | 2020-12-25 | 北京远鉴信息技术有限公司 | 声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质 |
CN112259086A (zh) * | 2020-10-15 | 2021-01-22 | 杭州电子科技大学 | 一种基于语谱图合成的语音转换方法 |
CN112382300A (zh) * | 2020-12-14 | 2021-02-19 | 北京远鉴信息技术有限公司 | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 |
WO2021128003A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种声纹同一性鉴定方法和相关装置 |
WO2021127976A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种可供比对音素选取方法和装置 |
CN113921017A (zh) * | 2021-12-14 | 2022-01-11 | 深圳市声扬科技有限公司 | 语音同一性的检验方法、装置、电子设备及存储介质 |
CN114255764A (zh) * | 2022-02-28 | 2022-03-29 | 深圳市声扬科技有限公司 | 音频信息处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050033573A1 (en) * | 2001-08-09 | 2005-02-10 | Sang-Jin Hong | Voice registration method and system, and voice recognition method and system based on voice registration method and system |
CN103714826A (zh) * | 2013-12-18 | 2014-04-09 | 安徽讯飞智元信息科技有限公司 | 面向声纹鉴定的共振峰自动匹配方法 |
CN106710589A (zh) * | 2016-12-28 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
CN106920545A (zh) * | 2017-03-21 | 2017-07-04 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法和装置 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8890869B2 (en) * | 2008-08-12 | 2014-11-18 | Adobe Systems Incorporated | Colorization of audio segments |
CN101656069A (zh) * | 2009-09-17 | 2010-02-24 | 陈拙夫 | 一种中文语音信息通讯系统及其通讯方法 |
US9406305B2 (en) * | 2012-12-21 | 2016-08-02 | Digimarc Corpororation | Messaging by writing an image into a spectrogram |
US20150269945A1 (en) * | 2014-03-24 | 2015-09-24 | Thomas Jason Taylor | Voice-key electronic commerce |
CN106023986B (zh) * | 2016-05-05 | 2019-08-30 | 河南理工大学 | 一种基于声效模式检测的语音识别方法 |
-
2017
- 2017-10-18 CN CN201710971618.6A patent/CN107680601B/zh active Active
-
2018
- 2018-02-08 WO PCT/CN2018/075774 patent/WO2019075965A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050033573A1 (en) * | 2001-08-09 | 2005-02-10 | Sang-Jin Hong | Voice registration method and system, and voice recognition method and system based on voice registration method and system |
CN103714826A (zh) * | 2013-12-18 | 2014-04-09 | 安徽讯飞智元信息科技有限公司 | 面向声纹鉴定的共振峰自动匹配方法 |
CN106710589A (zh) * | 2016-12-28 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
CN106920545A (zh) * | 2017-03-21 | 2017-07-04 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法和装置 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108766417A (zh) * | 2018-05-29 | 2018-11-06 | 广州国音科技有限公司 | 一种基于音素自动检索的身份同一性检验方法及装置 |
CN108766417B (zh) * | 2018-05-29 | 2019-05-17 | 广州国音科技有限公司 | 一种基于音素自动检索的身份同一性检验方法及装置 |
CN109065023A (zh) * | 2018-08-23 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
CN109087651A (zh) * | 2018-09-05 | 2018-12-25 | 广州势必可赢网络科技有限公司 | 一种基于视频与语谱图的声纹鉴定方法、系统及设备 |
CN109378004A (zh) * | 2018-12-17 | 2019-02-22 | 广州势必可赢网络科技有限公司 | 一种音素比对的方法、装置、设备及计算机可读存储介质 |
CN109448733A (zh) * | 2019-01-07 | 2019-03-08 | 广州势必可赢网络科技有限公司 | 一种语谱图生成方法、系统及相关装置 |
CN109817223A (zh) * | 2019-01-29 | 2019-05-28 | 广州势必可赢网络科技有限公司 | 基于音频指纹的音素标记方法及装置 |
CN109979466A (zh) * | 2019-03-21 | 2019-07-05 | 广州国音智能科技有限公司 | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 |
CN110164454A (zh) * | 2019-05-24 | 2019-08-23 | 广州国音智能科技有限公司 | 一种基于共振峰偏差的音频同一性判别方法及装置 |
CN110164454B (zh) * | 2019-05-24 | 2021-08-24 | 广州国音智能科技有限公司 | 一种基于共振峰偏差的音频同一性判别方法及装置 |
CN110570842A (zh) * | 2019-10-25 | 2019-12-13 | 南京云白信息科技有限公司 | 基于音素近似度和发音标准度的语音识别方法及系统 |
WO2021128003A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种声纹同一性鉴定方法和相关装置 |
WO2021127976A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种可供比对音素选取方法和装置 |
CN111640453A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语谱图匹配方法、装置、设备及计算机可读存储介质 |
CN112259086A (zh) * | 2020-10-15 | 2021-01-22 | 杭州电子科技大学 | 一种基于语谱图合成的语音转换方法 |
CN112133289B (zh) * | 2020-11-24 | 2021-02-26 | 北京远鉴信息技术有限公司 | 声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质 |
CN112133289A (zh) * | 2020-11-24 | 2020-12-25 | 北京远鉴信息技术有限公司 | 声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质 |
CN112382300A (zh) * | 2020-12-14 | 2021-02-19 | 北京远鉴信息技术有限公司 | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 |
CN113921017A (zh) * | 2021-12-14 | 2022-01-11 | 深圳市声扬科技有限公司 | 语音同一性的检验方法、装置、电子设备及存储介质 |
CN114255764A (zh) * | 2022-02-28 | 2022-03-29 | 深圳市声扬科技有限公司 | 音频信息处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107680601B (zh) | 2019-02-01 |
WO2019075965A1 (zh) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680601B (zh) | 一种基于语谱图和音素检索的身份同一性检验方法及装置 | |
Muthusamy et al. | Reviewing automatic language identification | |
CN103714826B (zh) | 面向声纹鉴定的共振峰自动匹配方法 | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
WO2021047319A1 (zh) | 基于语音的个人信用评估方法、装置、终端及存储介质 | |
CN105933323B (zh) | 声纹注册、认证方法及装置 | |
CN104464724A (zh) | 一种针对刻意伪装语音的说话人识别方法 | |
CN110517663A (zh) | 一种语种识别方法及识别系统 | |
WO2008033095A1 (en) | Apparatus and method for speech utterance verification | |
CN108877769B (zh) | 识别方言种类的方法和装置 | |
CN106782603A (zh) | 智能语音评测方法及系统 | |
Hughes et al. | Mapping across feature spaces in forensic voice comparison: the contribution of auditory-based voice quality to (semi-) automatic system testing | |
CN106782517A (zh) | 一种语音音频关键词过滤方法及装置 | |
CN109300339A (zh) | 一种英语口语的练习方法及系统 | |
Charisma et al. | Speaker recognition using mel-frequency cepstrum coefficients and sum square error | |
Campbell | Speaker recognition | |
Dave et al. | Speech recognition: A review | |
Kanabur et al. | An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition | |
Sethu et al. | Empirical mode decomposition based weighted frequency feature for speech-based emotion classification | |
Babu et al. | Forensic speaker recognition system using machine learning | |
CN108665901A (zh) | 一种音素/音节提取方法及装置 | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
Abdo et al. | Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal | |
Rao et al. | Glottal excitation feature based gender identification system using ergodic HMM | |
Warule et al. | Hilbert-Huang Transform-Based Time-Frequency Analysis of Speech Signals for the Identification of Common Cold |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190813 Address after: 510000 Room 2009, Second Floor, Third Society Building, 3110 Huangpu East Road, Huangpu District, Guangzhou City, Guangdong Province Patentee after: Guangzhou National Acoustic Intelligent Technology Co., Ltd. Address before: 518000 Room 4A of Software Park, Yuehai Street Science Park, Nanshan District, Shenzhen City, Guangdong Province Patentee before: Shenzhen sure win Technology Co., Ltd. |
|
TR01 | Transfer of patent right |