CN108766417A - 一种基于音素自动检索的身份同一性检验方法及装置 - Google Patents

一种基于音素自动检索的身份同一性检验方法及装置 Download PDF

Info

Publication number
CN108766417A
CN108766417A CN201810534137.3A CN201810534137A CN108766417A CN 108766417 A CN108766417 A CN 108766417A CN 201810534137 A CN201810534137 A CN 201810534137A CN 108766417 A CN108766417 A CN 108766417A
Authority
CN
China
Prior art keywords
voice
phoneme
preset
sound spectrograph
verified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810534137.3A
Other languages
English (en)
Other versions
CN108766417B (zh
Inventor
张锦华
潘雷明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou National Acoustic Intelligent Technology Co., Ltd.
Original Assignee
Guangzhou National Sound Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou National Sound Technology Co Ltd filed Critical Guangzhou National Sound Technology Co Ltd
Priority to CN201810534137.3A priority Critical patent/CN108766417B/zh
Publication of CN108766417A publication Critical patent/CN108766417A/zh
Application granted granted Critical
Publication of CN108766417B publication Critical patent/CN108766417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及语音识别技术领域,本发明公开了一种基于音素自动检索的身份同一性检验方法及装置,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。

Description

一种基于音素自动检索的身份同一性检验方法及装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于音素自动检索的身份同一性检验方法及装置。
背景技术
在声纹鉴定办案审理中,经常需要通过对未知说话人或不确定说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对,做出两者是否同一的结论,即同一性检验。未知说话人或不确定说话人通常是涉案人,在侦查初期身份不明或者身份尚不能确定,已知说话人指的就是被怀疑者或者被指认者。
现有的身份同一性检验方法中,由于对声纹特征的对比要求高,因此会对同一个音素进行反复比较,因此会花费大量的人力成本。同时,单一的音素检索并不能直接用于声纹鉴定办案审理中,因为对案件的声纹鉴定必须有很专业和确切的比对证据。因此,现有的身份同一性检验方法存在效率低,耗费人力物力的技术问题。
发明内容
本发明提供了一种基于音素自动检索的身份同一性检验方法及装置,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
本发明提供了一种基于音素自动检索的身份同一性检验方法,包括:
对接收到的待验证语音进行处理得到待验证语音的语谱图;
提取数据库中预置样本语音的语谱图;
获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则返回重新获取人工标注的待验证语音的语谱图中的标注音素。
可选地,所述对接收到的待验证语音进行处理得到待验证语音的语谱图具体包括:
获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
根据语谱参数构建对应的语谱图。
可选地,获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量具体包括:
获取人工标注的待验证语音的语谱图中的标注音素;
按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量。
可选地,所述接收待验证语音,对待验证语音进行处理得到待验证语音的语谱图之前还包括:
将与已识别者关联的预置样本语音保存至数据库中。
本发明提供了一种基于音素自动检索的身份同一性检验装置,包括:
处理单元,用于对接收到的待验证语音进行处理得到待验证语音的语谱图;
提取单元,用于提取数据库中预置样本语音的语谱图;
检索单元,用于获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
第一判断单元,用于判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
第二判断单元,用于判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则跳转至检索单元重新获取人工标注的待验证语音的语谱图中的标注音素。
可选地,所述处理单元具体包括:
参数获取子单元,用于获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
语谱图构建子单元,用于根据语谱参数构建对应的语谱图。
可选地,检索单元具体包括:
获取子单元,用于获取人工标注的待验证语音的语谱图中的标注音素;
分帧子单元,用于按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
转换子单元,用于将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
第一提取子单元,用于提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
第二提取子单元,用于提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
加权匹配值计算子单元,用于分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
调整子单元,用于利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
最终匹配值计算子单元,用于计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
检索音素确定子单元,用于对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量。
可选地,还包括:
预存单元,用于将与已识别者关联的预置样本语音保存至数据库中。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供了一种基于音素自动检索的身份同一性检验方法,包括:对接收到的待验证语音进行处理得到待验证语音的语谱图;提取数据库中预置样本语音的语谱图;获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则返回重新获取人工标注的待验证语音的语谱图中的标注音素。
本发明通过在预置样本语音的语谱图中对人工标注的待验证语音的语谱图中的标注音素进行自动检索,检索到预置样本语音的语谱图中的与标注音素匹配值最高的前N个检索音素,再对标准音素和检索音素的发音是否一致进行判断,同时,还需要满足相同音素数累计值不低于预置要求值的条件,才能确定待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明提供的一种基于音素自动检索的身份同一性检验方法的一个实施例的流程示意图;
图2为本发明提供的一种基于音素自动检索的身份同一性检验方法的另一个实施例的流程示意图;
图3为本发明提供的一种基于音素自动检索的身份同一性检验装置的一个实施例的结构示意图;
图4为本发明提供的一种基于音素自动检索的身份同一性检验装置的另一个实施例的结构示意图。
具体实施方式
本发明实施例提供了一种基于音素自动检索的身份同一性检验方法及装置,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明提供了一种基于音素自动检索的身份同一性检验方法的一个实施例,包括:
101、对接收到的待验证语音进行处理得到待验证语音的语谱图;
102、提取数据库中预置样本语音的语谱图;
103、获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
104、判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
105、判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则返回重新获取人工标注的待验证语音的语谱图中的标注音素。
本发明实施例通过在预置样本语音的语谱图中对人工标注的待验证语音的语谱图中的标注音素进行自动检索,检索到预置样本语音的语谱图中的与标注音素匹配值最高的前N个检索音素,再对标准音素和检索音素的发音是否一致进行判断,同时,还需要满足相同音素数累计值不低于预置要求值的条件,才能确定待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
以上是对本发明提供的一种基于音素自动检索的身份同一性检验方法的一个实施例的流程进行的说明,以下将对本发明提供的一种基于音素自动检索的身份同一性检验方法的另一个实施例的流程进行说明。
请参阅图2,本发明提供了一种基于音素自动检索的身份同一性检验方法的另一个实施例,包括:
201、将与已识别者关联的预置样本语音保存至数据库中;
202、获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
203、根据语谱参数构建对应的语谱图;
204、提取数据库中预置样本语音的语谱图;
205、获取人工标注的待验证语音的语谱图中的标注音素;
206、按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
207、将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
208、提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
209、提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
210、分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
211、利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
212、计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
213、对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量;
214、判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
215、判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则返回重新获取人工标注的待验证语音的语谱图中的标注音素。
本发明实施例通过在预置样本语音的语谱图中对人工标注的待验证语音的语谱图中的标注音素进行自动检索,检索到预置样本语音的语谱图中的与标注音素匹配值最高的前N个检索音素,再对标准音素和检索音素的发音是否一致进行判断,同时,还需要满足相同音素数累计值不低于预置要求值的条件,才能确定待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,解决了现有的身份同一性检验方法存在的效率低,耗费人力物力的技术问题。
以上是对本发明提供的一种基于音素自动检索的身份同一性检验方法的另一个实施例的流程进行的说明,以下将对本发明提供的一种基于音素自动检索的身份同一性检验装置的一个实施例的结构进行说明。
请参阅图3,本发明提供了一种基于音素自动检索的身份同一性检验装置的一个实施例,包括:
处理单元301,用于对接收到的待验证语音进行处理得到待验证语音的语谱图;
提取单元302,用于提取数据库中预置样本语音的语谱图;
检索单元303,用于获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
第一判断单元304,用于判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
第二判断单元305,用于判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则跳转至检索单元303重新获取人工标注的待验证语音的语谱图中的标注音素。
以上是对本发明提供的一种基于音素自动检索的身份同一性检验装置的一个实施例的结构进行的说明,以下将对本发明提供的一种基于音素自动检索的身份同一性检验装置的另一个实施例的结构进行说明。
请参阅图4,本发明提供了一种基于音素自动检索的身份同一性检验装置的另一个实施例,包括:
预存单元401,用于将与已识别者关联的预置样本语音保存至数据库中;
处理单元402,用于对接收到的待验证语音进行处理得到待验证语音的语谱图;
处理单元402具体包括:
参数获取子单元4021,用于获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
语谱图构建子单元4022,用于根据语谱参数构建对应的语谱图;
提取单元403,用于提取数据库中预置样本语音的语谱图;
检索单元404,用于获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
检索单元404具体包括:
获取子单元4041,用于获取人工标注的待验证语音的语谱图中的标注音素;
分帧子单元4042,用于按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
转换子单元4043,用于将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
第一提取子单元4044,用于提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
第二提取子单元4045,用于提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
加权匹配值计算子单元4046,用于分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
调整子单元4047,用于利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
最终匹配值计算子单元4048,用于计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
检索音素确定子单元4049,用于对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量;
第一判断单元405,用于判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
第二判断单元406,用于判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则跳转至检索单元404重新获取人工标注的待验证语音的语谱图中的标注音素。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于音素自动检索的身份同一性检验方法,其特征在于,包括:
对接收到的待验证语音进行处理得到待验证语音的语谱图;
提取数据库中预置样本语音的语谱图;
获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则返回重新获取人工标注的待验证语音的语谱图中的标注音素。
2.根据权利要求1所述的基于音素自动检索的身份同一性检验方法,其特征在于,所述对接收到的待验证语音进行处理得到待验证语音的语谱图具体包括:
获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
根据语谱参数构建对应的语谱图。
3.根据权利要求1所述的基于音素自动检索的身份同一性检验方法,其特征在于,获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量具体包括:
获取人工标注的待验证语音的语谱图中的标注音素;
按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量。
4.根据权利要求1所述的基于音素自动检索的身份同一性检验方法,其特征在于,所述接收待验证语音,对待验证语音进行处理得到待验证语音的语谱图之前还包括:
将与已识别者关联的预置样本语音保存至数据库中。
5.一种基于音素自动检索的身份同一性检验装置,其特征在于,包括:
处理单元,用于对接收到的待验证语音进行处理得到待验证语音的语谱图;
提取单元,用于提取数据库中预置样本语音的语谱图;
检索单元,用于获取人工标注的待验证语音的语谱图中的标注音素,在预置样本语音的语谱图中对标注音素进行检索,得到在预置样本语音的语谱图中与标注音素的匹配值最高的前N个检索音素,其中N为预置数量;
第一判断单元,用于判断前N个检索音素中是否存在一个检索音素的发音与标注音素的发音一致,若是,则相同音素数累计值加一,若否,则相同音素数累计值不变;
第二判断单元,用于判断相同音素数累计值是否不低于预置要求值,若是,则确认待验证语音对应的待识别者与预置样本语音对应的已识别者的身份一致,若否,则跳转至检索单元重新获取人工标注的待验证语音的语谱图中的标注音素。
6.根据权利要求5所述的基于音素自动检索的身份同一性检验装置,其特征在于,所述处理单元具体包括:
参数获取子单元,用于获取待验证语音的语谱参数,包括:带宽、动态范围、衰减系数、高频提升系数和加窗类型;
语谱图构建子单元,用于根据语谱参数构建对应的语谱图。
7.根据权利要求5所述的基于音素自动检索的身份同一性检验装置,其特征在于,检索单元具体包括:
获取子单元,用于获取人工标注的待验证语音的语谱图中的标注音素;
分帧子单元,用于按照预置偏移值和预置帧长,将预置样本语音的波形图进行分帧处理;
转换子单元,用于将分帧后的预置样本语音的波形图的帧数据由时域数据转换为频域数据,得到分帧后的预置样本语音的语谱图;
第一提取子单元,用于提取每帧预置样本语音的语谱图中的第一频谱脉络和第一高频细节;
第二提取子单元,用于提取待验证语音的语谱图中标注音素的第二频谱脉络和第二高频细节;
加权匹配值计算子单元,用于分别对第一频谱脉络和第二频谱脉络,第一高频细节和第二高频细节进行匹配值计算后,加权得到每帧预置样本语音的语谱图与待验证语音的语谱图中标注音素的加权匹配值;
调整子单元,用于利用动态规划算法对预置样本语音的语谱图中连续的预置帧数的帧序列的加权匹配值进行调整;
最终匹配值计算子单元,用于计算预置帧数的帧序列的加权匹配值的均值和标准差,并根据标准差将预置帧数的帧序列的加权匹配值的均值与差异系数进行相乘,得到预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值;
检索音素确定子单元,用于对预置帧数的帧序列与预置样本语音的语谱图中与标注音素的最终匹配值进行递减排序,确定最终匹配值最高的N个预置帧数的帧序列构成检索音素,其中N为预置数量。
8.根据权利要求5所述的基于音素自动检索的身份同一性检验装置,其特征在于,还包括:
预存单元,用于将与已识别者关联的预置样本语音保存至数据库中。
CN201810534137.3A 2018-05-29 2018-05-29 一种基于音素自动检索的身份同一性检验方法及装置 Active CN108766417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810534137.3A CN108766417B (zh) 2018-05-29 2018-05-29 一种基于音素自动检索的身份同一性检验方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810534137.3A CN108766417B (zh) 2018-05-29 2018-05-29 一种基于音素自动检索的身份同一性检验方法及装置

Publications (2)

Publication Number Publication Date
CN108766417A true CN108766417A (zh) 2018-11-06
CN108766417B CN108766417B (zh) 2019-05-17

Family

ID=64003589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810534137.3A Active CN108766417B (zh) 2018-05-29 2018-05-29 一种基于音素自动检索的身份同一性检验方法及装置

Country Status (1)

Country Link
CN (1) CN108766417B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109378004A (zh) * 2018-12-17 2019-02-22 广州势必可赢网络科技有限公司 一种音素比对的方法、装置、设备及计算机可读存储介质
CN109817223A (zh) * 2019-01-29 2019-05-28 广州势必可赢网络科技有限公司 基于音频指纹的音素标记方法及装置
CN109979466A (zh) * 2019-03-21 2019-07-05 广州国音智能科技有限公司 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质
CN111640453A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 语谱图匹配方法、装置、设备及计算机可读存储介质
CN112133289A (zh) * 2020-11-24 2020-12-25 北京远鉴信息技术有限公司 声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质
CN113921017A (zh) * 2021-12-14 2022-01-11 深圳市声扬科技有限公司 语音同一性的检验方法、装置、电子设备及存储介质
TWI765463B (zh) * 2020-12-11 2022-05-21 中華電信股份有限公司 用於客服之核證系統、方法及電腦可讀媒介

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100098007A (ko) * 2009-02-27 2010-09-06 고려대학교 산학협력단 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치
CN102122507A (zh) * 2010-01-08 2011-07-13 龚澍 一种运用人工神经网络进行前端处理的语音检错方法
CN103714826A (zh) * 2013-12-18 2014-04-09 安徽讯飞智元信息科技有限公司 面向声纹鉴定的共振峰自动匹配方法
CN104272382A (zh) * 2012-03-06 2015-01-07 新加坡科技研究局 基于模板的个性化歌唱合成的方法和系统
CN105513598A (zh) * 2016-01-14 2016-04-20 宁波大学 一种基于频域信息量分布的回放语音检测方法
CN107680601A (zh) * 2017-10-18 2018-02-09 深圳势必可赢科技有限公司 一种基于语谱图和音素检索的身份同一性检验方法及装置
US20180068653A1 (en) * 2016-09-08 2018-03-08 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
CN108039177A (zh) * 2017-12-20 2018-05-15 广州势必可赢网络科技有限公司 一种网络实名购票的用户身份验证方法及装置
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100098007A (ko) * 2009-02-27 2010-09-06 고려대학교 산학협력단 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치
CN102122507A (zh) * 2010-01-08 2011-07-13 龚澍 一种运用人工神经网络进行前端处理的语音检错方法
CN104272382A (zh) * 2012-03-06 2015-01-07 新加坡科技研究局 基于模板的个性化歌唱合成的方法和系统
CN103714826A (zh) * 2013-12-18 2014-04-09 安徽讯飞智元信息科技有限公司 面向声纹鉴定的共振峰自动匹配方法
CN105513598A (zh) * 2016-01-14 2016-04-20 宁波大学 一种基于频域信息量分布的回放语音检测方法
US20180068653A1 (en) * 2016-09-08 2018-03-08 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
CN107680601A (zh) * 2017-10-18 2018-02-09 深圳势必可赢科技有限公司 一种基于语谱图和音素检索的身份同一性检验方法及装置
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
CN108039177A (zh) * 2017-12-20 2018-05-15 广州势必可赢网络科技有限公司 一种网络实名购票的用户身份验证方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109378004A (zh) * 2018-12-17 2019-02-22 广州势必可赢网络科技有限公司 一种音素比对的方法、装置、设备及计算机可读存储介质
CN109817223A (zh) * 2019-01-29 2019-05-28 广州势必可赢网络科技有限公司 基于音频指纹的音素标记方法及装置
CN109979466A (zh) * 2019-03-21 2019-07-05 广州国音智能科技有限公司 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质
CN109979466B (zh) * 2019-03-21 2021-09-17 广州国音智能科技有限公司 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质
CN111640453A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 语谱图匹配方法、装置、设备及计算机可读存储介质
CN112133289A (zh) * 2020-11-24 2020-12-25 北京远鉴信息技术有限公司 声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质
CN112133289B (zh) * 2020-11-24 2021-02-26 北京远鉴信息技术有限公司 声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质
TWI765463B (zh) * 2020-12-11 2022-05-21 中華電信股份有限公司 用於客服之核證系統、方法及電腦可讀媒介
CN113921017A (zh) * 2021-12-14 2022-01-11 深圳市声扬科技有限公司 语音同一性的检验方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108766417B (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN108766417B (zh) 一种基于音素自动检索的身份同一性检验方法及装置
Gupta et al. An analysis on LPC, RASTA and MFCC techniques in Automatic Speech recognition system
CN107610707B (zh) 一种声纹识别方法及装置
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN105593936B (zh) 用于文本转语音性能评价的系统和方法
CN106297826A (zh) 语音情感辨识系统及方法
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
Justin et al. Speaker de-identification using diphone recognition and speech synthesis
CN110544469B (zh) 语音识别模型的训练方法及装置、存储介质、电子装置
JPH03137699A (ja) 音声認識装置
Sethu et al. Speaker normalisation for speech-based emotion detection
Yu et al. Adversarial network bottleneck features for noise robust speaker verification
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN108735222B (zh) 一种基于声纹识别的声纹鉴定方法及系统
Novotný et al. Analysis of Speaker Recognition Systems in Realistic Scenarios of the SITW 2016 Challenge.
CN109979466A (zh) 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质
Subhashree et al. Speech Emotion Recognition: Performance Analysis based on fused algorithms and GMM modelling
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Abdurrahman et al. Spoken language identification using i-vectors, x-vectors, PLDA and logistic regression
WO2021127976A1 (zh) 一种可供比对音素选取方法和装置
Kua et al. The UNSW submission to INTERSPEECH 2014 compare cognitive load challenge
Ranjan Speaker Recognition and Performance Comparison based on Machine Learning
Abushariah et al. Voice based automatic person identification system using vector quantization
CN114694688A (zh) 语音分析器和相关方法
CN109378004B (zh) 一种音素比对的方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190812

Address after: 510000 Room 2009, Second Floor, Third Society Building, 3110 Huangpu East Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou National Acoustic Intelligent Technology Co., Ltd.

Address before: 510000 X1301-A4423 (Cluster Registration) (JM) No. 106 Fengze East Road, Nansha District, Guangzhou, Guangdong Province

Patentee before: Guangzhou National Sound Technology Co., Ltd.