CN108766417B - 一种基于音素自动检索的身份同一性检验方法及装置 - Google Patents
一种基于音素自动检索的身份同一性检验方法及装置 Download PDFInfo
- Publication number
- CN108766417B CN108766417B CN201810534137.3A CN201810534137A CN108766417B CN 108766417 B CN108766417 B CN 108766417B CN 201810534137 A CN201810534137 A CN 201810534137A CN 108766417 B CN108766417 B CN 108766417B
- Authority
- CN
- China
- Prior art keywords
- voice
- phoneme
- preset
- sound spectrograph
- verified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000007689 inspection Methods 0.000 title claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims description 2
- 239000000463 material Substances 0.000 abstract description 7
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语音识别技术领域,本发明公开了一种基于音素自动检索的身份同一性检验方法及装置,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于音素自动检索的身份同一性检验方法及装置。
背景技术
在声纹鉴定办案审理中,经常需要通过对未知说话人或不确定说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对,做出两者是否同一的结论,即同一性检验。未知说话人或不确定说话人通常是涉案人,在侦查初期身份不明或者身份尚不能确定,已知说话人指的就是被怀疑者或者被指认者。
现有的身份同一性检验方法中,由于对声纹特征的对比要求高,因此会对同一个音素进行反复比较,因此会花费大量的人力成本。同时,单一的音素检索并不能直接用于声纹鉴定办案审理中,因为对案件的声纹鉴定必须有很专业和确切的比对证据。因此,现有的身份同一性检验方法存在效率低,耗费人力物力的技术问题。
发明内容
本发明提供了一种基于音素自动检索的身份同一性检验方法及装置,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
本发明提供了一种基于音素自动检索的身份同一性检验方法,包括:
对接收到的待验证语音进行处理得到待验证语音的语谱图;
提取数据库中预置样本语音的语谱图;
获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则返回重新获取人工标注的待验证语音的语谱图中的标注音素。
可选地,所述对接收到的待验证语音进行处理得到待验证语音的语谱图具体包括:
获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
根据语谱参数构建对应的语谱图。
可选地,获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量具体包括:
获取人工标注的待验证语音的语谱图中的标注音素;
按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量。
可选地,所述接收待验证语音,对待验证语音进行处理得到待验证语音的语谱图之前还包括:
将与已识别者关联的预置样本语音保存至数据库中。
本发明提供了一种基于音素自动检索的身份同一性检验装置,包括:
处理单元,用于对接收到的待验证语音进行处理得到待验证语音的语谱图;
提取单元,用于提取数据库中预置样本语音的语谱图;
检索单元,用于获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
第一判断单元,用于判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
第二判断单元,用于判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则跳转至检索单元重新获取人工标注的待验证语音的语谱图中的标注音素。
可选地,所述处理单元具体包括:
参数获取子单元,用于获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
语谱图构建子单元,用于根据语谱参数构建对应的语谱图。
可选地,检索单元具体包括:
获取子单元,用于获取人工标注的待验证语音的语谱图中的标注音素;
分帧子单元,用于按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
转换子单元,用于将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
第一提取子单元,用于提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
第二提取子单元,用于提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
加权匹配值计算子单元,用于分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
调整子单元,用于利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
最终匹配值计算子单元,用于计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
检索音素确定子单元,用于对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量。
可选地,还包括:
预存单元,用于将与已识别者关联的预置样本语音保存至数据库中。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供了一种基于音素自动检索的身份同一性检验方法,包括:对接收到的待验证语音进行处理得到待验证语音的语谱图;提取数据库中预置样本语音的语谱图;获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则返回重新获取人工标注的待验证语音的语谱图中的标注音素。
本发明通过在预置样本语音的语谱图中对人工标注的待验证语音的语谱图中的标注音素进行自动检索,检索到预置样本语音的语谱图中的与标注音素匹配值最高的前N个检索音素,再对标准音素和检索音素的发音是否一致进行判断,同时,还需要满足相同音素数累计值不低于预置要求值的条件,才能确定待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明提供的一种基于音素自动检索的身份同一性检验方法的一个实施例的流程示意图;
图2为本发明提供的一种基于音素自动检索的身份同一性检验方法的另一个实施例的流程示意图;
图3为本发明提供的一种基于音素自动检索的身份同一性检验装置的一个实施例的结构示意图;
图4为本发明提供的一种基于音素自动检索的身份同一性检验装置的另一个实施例的结构示意图。
具体实施方式
本发明实施例提供了一种基于音素自动检索的身份同一性检验方法及装置,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明提供了一种基于音素自动检索的身份同一性检验方法的一个实施例,包括:
101、对接收到的待验证语音进行处理得到待验证语音的语谱图;
102、提取数据库中预置样本语音的语谱图;
103、获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
104、判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
105、判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则返回重新获取人工标注的待验证语音的语谱图中的标注音素。
本发明实施例通过在预置样本语音的语谱图中对人工标注的待验证语音的语谱图中的标注音素进行自动检索,检索到预置样本语音的语谱图中的与标注音素匹配值最高的前N个检索音素,再对标准音素和检索音素的发音是否一致进行判断,同时,还需要满足相同音素数累计值不低于预置要求值的条件,才能确定待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
以上是对本发明提供的一种基于音素自动检索的身份同一性检验方法的一个实施例的流程进行的说明,以下将对本发明提供的一种基于音素自动检索的身份同一性检验方法的另一个实施例的流程进行说明。
请参阅图2,本发明提供了一种基于音素自动检索的身份同一性检验方法的另一个实施例,包括:
201、将与已识别者关联的预置样本语音保存至数据库中;
202、获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
203、根据语谱参数构建对应的语谱图;
204、提取数据库中预置样本语音的语谱图;
205、获取人工标注的待验证语音的语谱图中的标注音素;
206、按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
207、将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
208、提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
209、提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
210、分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
211、利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
212、计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
213、对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量;
214、判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
215、判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则返回重新获取人工标注的待验证语音的语谱图中的标注音素。
本发明实施例通过在预置样本语音的语谱图中对人工标注的待验证语音的语谱图中的标注音素进行自动检索,检索到预置样本语音的语谱图中的与标注音素匹配值最高的前N个检索音素,再对标准音素和检索音素的发音是否一致进行判断,同时,还需要满足相同音素数累计值不低于预置要求值的条件,才能确定待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
以上是对本发明提供的一种基于音素自动检索的身份同一性检验方法的另一个实施例的流程进行的说明,以下将对本发明提供的一种基于音素自动检索的身份同一性检验装置的一个实施例的结构进行说明。
请参阅图3,本发明提供了一种基于音素自动检索的身份同一性检验装置的一个实施例,包括:
处理单元301,用于对接收到的待验证语音进行处理得到待验证语音的语谱图;
提取单元302,用于提取数据库中预置样本语音的语谱图;
检索单元303,用于获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
第一判断单元304,用于判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
第二判断单元305,用于判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则跳转至检索单元303重新获取人工标注的待验证语音的语谱图中的标注音素。
以上是对本发明提供的一种基于音素自动检索的身份同一性检验装置的一个实施例的结构进行的说明,以下将对本发明提供的一种基于音素自动检索的身份同一性检验装置的另一个实施例的结构进行说明。
请参阅图4,本发明提供了一种基于音素自动检索的身份同一性检验装置的另一个实施例,包括:
预存单元401,用于将与已识别者关联的预置样本语音保存至数据库中;
处理单元402,用于对接收到的待验证语音进行处理得到待验证语音的语谱图;
处理单元402具体包括:
参数获取子单元4021,用于获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
语谱图构建子单元4022,用于根据语谱参数构建对应的语谱图;
提取单元403,用于提取数据库中预置样本语音的语谱图;
检索单元404,用于获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
检索单元404具体包括:
获取子单元4041,用于获取人工标注的待验证语音的语谱图中的标注音素;
分帧子单元4042,用于按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
转换子单元4043,用于将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
第一提取子单元4044,用于提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
第二提取子单元4045,用于提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
加权匹配值计算子单元4046,用于分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
调整子单元4047,用于利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
最终匹配值计算子单元4048,用于计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
检索音素确定子单元4049,用于对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量;
第一判断单元405,用于判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
第二判断单元406,用于判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则跳转至检索单元404重新获取人工标注的待验证语音的语谱图中的标注音素。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种基于音素自动检索的身份同一性检验方法,其特征在于,包括:
对接收到的待验证语音进行处理得到待验证语音的语谱图;
提取数据库中预置样本语音的语谱图;
获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则返回重新获取人工标注的待验证语音的语谱图中的标注音素;
获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量具体包括:
获取人工标注的待验证语音的语谱图中的标注音素;
按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量。
2.根据权利要求1所述的基于音素自动检索的身份同一性检验方法,其特征在于,所述对接收到的待验证语音进行处理得到待验证语音的语谱图具体包括:
获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
根据语谱参数构建对应的语谱图。
3.根据权利要求1所述的基于音素自动检索的身份同一性检验方法,其特征在于,所述接收待验证语音,对待验证语音进行处理得到待验证语音的语谱图之前还包括:
将与已识别者关联的预置样本语音保存至数据库中。
4.一种基于音素自动检索的身份同一性检验装置,其特征在于,包括:
处理单元,用于对接收到的待验证语音进行处理得到待验证语音的语谱图;
提取单元,用于提取数据库中预置样本语音的语谱图;
检索单元,用于获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
第一判断单元,用于判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
第二判断单元,用于判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则跳转至检索单元重新获取人工标注的待验证语音的语谱图中的标注音素;
检索单元具体包括:
获取子单元,用于获取人工标注的待验证语音的语谱图中的标注音素;
分帧子单元,用于按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
转换子单元,用于将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
第一提取子单元,用于提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
第二提取子单元,用于提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
加权匹配值计算子单元,用于分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
调整子单元,用于利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
最终匹配值计算子单元,用于计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
检索音素确定子单元,用于对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量。
5.根据权利要求4所述的基于音素自动检索的身份同一性检验装置,其特征在于,所述处理单元具体包括:
参数获取子单元,用于获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
语谱图构建子单元,用于根据语谱参数构建对应的语谱图。
6.根据权利要求4所述的基于音素自动检索的身份同一性检验装置,其特征在于,还包括:
预存单元,用于将与已识别者关联的预置样本语音保存至数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810534137.3A CN108766417B (zh) | 2018-05-29 | 2018-05-29 | 一种基于音素自动检索的身份同一性检验方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810534137.3A CN108766417B (zh) | 2018-05-29 | 2018-05-29 | 一种基于音素自动检索的身份同一性检验方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108766417A CN108766417A (zh) | 2018-11-06 |
CN108766417B true CN108766417B (zh) | 2019-05-17 |
Family
ID=64003589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810534137.3A Active CN108766417B (zh) | 2018-05-29 | 2018-05-29 | 一种基于音素自动检索的身份同一性检验方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108766417B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109378004B (zh) * | 2018-12-17 | 2022-05-27 | 广州势必可赢网络科技有限公司 | 一种音素比对的方法、装置、设备及计算机可读存储介质 |
CN109817223A (zh) * | 2019-01-29 | 2019-05-28 | 广州势必可赢网络科技有限公司 | 基于音频指纹的音素标记方法及装置 |
CN109979466B (zh) * | 2019-03-21 | 2021-09-17 | 广州国音智能科技有限公司 | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 |
CN111640453B (zh) * | 2020-05-13 | 2023-06-16 | 广州国音智能科技有限公司 | 语谱图匹配方法、装置、设备及计算机可读存储介质 |
CN112133289B (zh) * | 2020-11-24 | 2021-02-26 | 北京远鉴信息技术有限公司 | 声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质 |
TWI765463B (zh) * | 2020-12-11 | 2022-05-21 | 中華電信股份有限公司 | 用於客服之核證系統、方法及電腦可讀媒介 |
CN113921017A (zh) * | 2021-12-14 | 2022-01-11 | 深圳市声扬科技有限公司 | 语音同一性的检验方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714826A (zh) * | 2013-12-18 | 2014-04-09 | 安徽讯飞智元信息科技有限公司 | 面向声纹鉴定的共振峰自动匹配方法 |
CN104272382A (zh) * | 2012-03-06 | 2015-01-07 | 新加坡科技研究局 | 基于模板的个性化歌唱合成的方法和系统 |
CN107680601A (zh) * | 2017-10-18 | 2018-02-09 | 深圳势必可赢科技有限公司 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
CN108039177A (zh) * | 2017-12-20 | 2018-05-15 | 广州势必可赢网络科技有限公司 | 一种网络实名购票的用户身份验证方法及装置 |
CN108074575A (zh) * | 2017-12-14 | 2018-05-25 | 广州势必可赢网络科技有限公司 | 一种基于循环神经网络的身份验证方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101041035B1 (ko) * | 2009-02-27 | 2011-06-14 | 고려대학교 산학협력단 | 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치 |
CN102122507A (zh) * | 2010-01-08 | 2011-07-13 | 龚澍 | 一种运用人工神经网络进行前端处理的语音检错方法 |
CN105513598B (zh) * | 2016-01-14 | 2019-04-23 | 宁波大学 | 一种基于频域信息量分布的回放语音检测方法 |
US10403268B2 (en) * | 2016-09-08 | 2019-09-03 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
-
2018
- 2018-05-29 CN CN201810534137.3A patent/CN108766417B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104272382A (zh) * | 2012-03-06 | 2015-01-07 | 新加坡科技研究局 | 基于模板的个性化歌唱合成的方法和系统 |
CN103714826A (zh) * | 2013-12-18 | 2014-04-09 | 安徽讯飞智元信息科技有限公司 | 面向声纹鉴定的共振峰自动匹配方法 |
CN107680601A (zh) * | 2017-10-18 | 2018-02-09 | 深圳势必可赢科技有限公司 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
CN108074575A (zh) * | 2017-12-14 | 2018-05-25 | 广州势必可赢网络科技有限公司 | 一种基于循环神经网络的身份验证方法及装置 |
CN108039177A (zh) * | 2017-12-20 | 2018-05-15 | 广州势必可赢网络科技有限公司 | 一种网络实名购票的用户身份验证方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108766417A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108766417B (zh) | 一种基于音素自动检索的身份同一性检验方法及装置 | |
CN108305641B (zh) | 情感信息的确定方法和装置 | |
Gupta et al. | An analysis on LPC, RASTA and MFCC techniques in Automatic Speech recognition system | |
CN105489221B (zh) | 一种语音识别方法及装置 | |
CN106297826A (zh) | 语音情感辨识系统及方法 | |
CN107945786A (zh) | 语音合成方法和装置 | |
US20160240215A1 (en) | System and Method for Text-to-Speech Performance Evaluation | |
WO2017218465A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN109256135A (zh) | 一种端到端说话人确认方法、装置及存储介质 | |
EP2017832A1 (en) | Voice quality conversion system | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN108735222B (zh) | 一种基于声纹识别的声纹鉴定方法及系统 | |
CN108922521A (zh) | 一种语音关键词检索方法、装置、设备及存储介质 | |
CN113450830B (zh) | 具有多重注意机制的卷积循环神经网络的语音情感识别方法 | |
CN107437417A (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
Ghule et al. | Feature extraction techniques for speech recognition: A review | |
CN107104994A (zh) | 语音识别方法、电子装置及语音识别系统 | |
CN109979466A (zh) | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 | |
CN110600014A (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
Scheffer et al. | Content matching for short duration speaker recognition. | |
CN110019741A (zh) | 问答系统答案匹配方法、装置、设备及可读存储介质 | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
CN113409774A (zh) | 语音识别方法、装置及电子设备 | |
Abdurrahman et al. | Spoken language identification using i-vectors, x-vectors, PLDA and logistic regression | |
CN109961775A (zh) | 基于hmm模型的方言识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190812 Address after: 510000 Room 2009, Second Floor, Third Society Building, 3110 Huangpu East Road, Huangpu District, Guangzhou City, Guangdong Province Patentee after: Guangzhou National Acoustic Intelligent Technology Co., Ltd. Address before: 510000 X1301-A4423 (Cluster Registration) (JM) No. 106 Fengze East Road, Nansha District, Guangzhou, Guangdong Province Patentee before: Guangzhou National Sound Technology Co., Ltd. |
|
TR01 | Transfer of patent right |