CN103714826A - 面向声纹鉴定的共振峰自动匹配方法 - Google Patents

面向声纹鉴定的共振峰自动匹配方法 Download PDF

Info

Publication number
CN103714826A
CN103714826A CN201310700673.3A CN201310700673A CN103714826A CN 103714826 A CN103714826 A CN 103714826A CN 201310700673 A CN201310700673 A CN 201310700673A CN 103714826 A CN103714826 A CN 103714826A
Authority
CN
China
Prior art keywords
sample
phoneme
resonance peak
deviation
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310700673.3A
Other languages
English (en)
Other versions
CN103714826B (zh
Inventor
柳林
李敬阳
陈涛
胡国平
邱志超
冯祥
张友国
胡少云
汤蕾蕾
汤东梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI IFLYTEK INTELLIGENT SYSTEM Co Ltd
Original Assignee
ANHUI IFLYTEK INTELLIGENT SYSTEM Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI IFLYTEK INTELLIGENT SYSTEM Co Ltd filed Critical ANHUI IFLYTEK INTELLIGENT SYSTEM Co Ltd
Priority to CN201310700673.3A priority Critical patent/CN103714826B/zh
Publication of CN103714826A publication Critical patent/CN103714826A/zh
Application granted granted Critical
Publication of CN103714826B publication Critical patent/CN103714826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种面向声纹鉴定的共振峰自动匹配方法,该方法使用基于连续语音识别的音素切分(Forced Alignment,FA)技术自动标注出声纹鉴定中检材和样本中的音素边界位置;对检材与样本的相同元音音素片段,利用基频、共振峰和功率谱密度参数自动判断当前音素是否为有效可分析音素;采用利用DTW(Dynamic Time Warping,动态时间归整)算法自动给出相应共振峰时频面积的偏差比例,作为最终人工声纹鉴定的分析依据。本发明自动标注音素边界、并判断音素发音是否有效,可大幅度提高处理效率;同时,对有效音素对的自动共振峰偏差比对算法,可提高共振峰比对的精度。

Description

面向声纹鉴定的共振峰自动匹配方法
技术领域
本发明涉及声纹鉴定的技术领域,具体涉及一种面向声纹鉴定的共振峰自动匹配方法。
背景技术
声纹鉴定技术(参见文献[1]Beigi,Homayoon.Voice:Technologies and Algorithms forBiometrics Applications[M].http://ieee-elearning.org/course.2010)是在司法鉴定中的一种应用声纹识别技术(参见文献[2]X.D.Huang,A.Acero and H.Hon,Spoken Language Processing,Prentice Hall,2000以及参见文献[3]L.Rabiner and B.H.Juang,Fundamentals of speechrecognition,Prentice Hall PTR,1993),是指鉴定人运用科学技术或者专门知识将样本语音与检材语音进行比对,得出样本说话人与建材说话人是否同一的鉴定结论。目前,声纹鉴定技术已经广泛应用于司法鉴定领域,许多国家都己把声纹鉴定作为辨认犯罪嫌疑人的重要手段,为侦查工作提供新的线索和证据。
声纹鉴定的基本方法主要有基于视听检验的人工鉴定方法和基于统计模式识别的计算机自动鉴定方法(参见文献[4]L.Liu,J.He,and G.Palm,"A comparison of human and machinein speaker recognition,"in Proc.of the European Conference on Speech Communication andTechnology(EUROSPEECH),1999.以及参见文献[5]A.Schmidt-Nielsen and T.H.Crystal,"Speaker verification human listeners:experiments comparing human and machine performanceusing the NIST1998speaker evaluation data,"Digital Signal Processing,vol.10,pp.249-266,2000.)两种,美国国家标准技术美国国家标准与技术研究院(National Institute of StandardsandTechnology,NIST)在2010年说话人识别比赛中增加了人工辅助声纹识别(Human AssistedSpeaker Recognition,HASR)评测(参见文献[6]http://www.itl.nist.gov/iad/mig/tests/sre/2010/index.html),旨在评估人工和机器结合的方式提高自动声纹识别技术的水平,同时降低人工声纹鉴定中人工工作量。两种方法各有特点与优势,下面分别进行介绍。
1、基于视听检验的人工鉴定方法
其基本方法是通过专业鉴定人员对检材与样本语音进行审听、韵律辨识、言语习惯等分析,观察分析检材与样本中相同或相近的音节、词语在语谱图(参见文献[2]X.D.Huang,A.Acero and H.Hon,Spoken Language Processing,Prentice Hall,2000)上的声学特征,做出肯定或否定的定性结论。此方法的优点在于:
1)通过专家知识可以发现说话人细微的发音韵律习惯、方言等信息;
2)通过可视化分析,可以人工调整语音信号,进行降噪、滤波等,受噪声影响较少;
3)专家分析对检材的语音质量要求较低。
此方法的缺点在于:
1)对鉴定人员的专业要求较高,鉴定人员需要具备信号分析、语言学和语音学等多学科相关知识,具备专业鉴定知识的人员很少;
2)可视化分析过程中,需要鉴定人员反复测听检材和样本语音,首先确定需要比对的音节,再标注出相同音素的起止时间,准确挑选并标注一个音素对的位置需要几分钟到几十分钟,人工参与度很高;
3)由于人的声道发声具有缓变特性,且单个音素的发音收到前后音素的影响,共振峰的走势也会发声较大变化,人工比对选取的检材和样本可能处于同的发声阶段,影响判断的准确性。
2、基于统计模式识别的自动鉴定方法
其基本方法是对样本语音信号进行特征参数提取,并建立特征参数对应的统计模型,鉴定时从检材语音中提取特征参数并计算在样本统计模型上的概率似然度(参见文献[7]W.M.Campbell,J.P.Campbell,D.A.Reynolds,D.A.Jones,and T.R.Leek,High-level speakerverification with support vector machines,ICASSP2004,Vol I,pp73~76以及文献[8]Dehak N.,Kenny P.,Dehak R.,Dumouchel P and Ouellet P.Front-End Factor Analysis for SpeakerVerification IEEE Transactions on Audio,Speech and Language Processing,19(4),pp.788-798,May2011),通过似然度的大小作出相似程度的判断。此方法的优势体现在:
1)人工参与量较少,只需人工切分出纯净的单个说话人样本语音文件,即可使用声纹识别系统注册说话人模型;
2)适用于海量数据中自动筛选出包含目标说话人的语音;
3)不受语种影响,需要了解具体待处理语音的音素体系。
此方法的缺点在于:
1)声纹识别系统受信道、噪声等音素影响较大,当样本和检材的信道差异较大时,系统给出的相似度得分会有较大变化;
2)声纹识别系统只能给出相似度得分,需要通过设置阈值给出是或否的确定性判别结果,在实际鉴定任务中阈值设置比较困难;
3)为了设置较为可靠的阈值,需要与检材语音的信道、噪声、内容相近的多句样本说话人语音,实际中满足要求的多句样本语音很难获得,使得声纹识别系统给出的似然度得分较难作为同一性认定的评估参考。
发明内容
本发明要解决的技术问题为:本发明提出一种自动的音素切分、有效性检测和共振峰比对的声纹鉴定方法。
本发明采用的技术方案为:一种面向声纹鉴定的共振峰自动匹配方法,其特征在于采用连续语音识别、声纹稳定段判断和动态规划技术自动实现音素边界切分和共振峰参数比对,大幅度提高声纹鉴定工作的自动化程度,该方法主要由训练环节和测试环节构成,所需要实施的步骤如下:
步骤(1)、将检材和样本带比较片段标注:
101)、海量语音训练得到音素切分需要的声学模型;
102)、从检材和样本语音文件中选取待比较的语音片段;
步骤(2)、检材和样本语音文件音素边界切分:
201)、从检材和样本语音文件的特定片段提取语音识别所需声学特征;
202)、利用FA技术和声学模型对声学特征进行语音识别得到每个音素的起止时间边界;
步骤(3)、从检材和样本语音文件中提取声纹鉴定所需声学特征参数:
301)、提取基频参数;
301)、提取共振峰参数;
301)、提取功率谱密度参数;
步骤(4)、对比检材和样本相同音的素段是否有效:
401)、对比检材和样本相同音素段的基频偏差;
402)、分别评估检材和样本相同音素的共振个数满足鉴定要求;
403)、通过功率谱密度评估语音信号的频谱范围,辅助判断共振峰提取是否可靠;
步骤(5)、共振峰偏差比例估计:
501)、计算检材与样本音素对中每个共振峰的平均偏差;
502)、计算检材与样本音素对中每个共振峰的偏差比例;
503)、给出当前音素的同一性判定参考结果。
本发明的原理在于:
1)使用基于标注文件和语音识别的音素切分(Forced Alignment,FA)(参见文献[9]SteveYoung.The HTK Book Ver3.4.1[M].http://svr-www.eng.cam.ac.uk,2009,pp182,192)自动标注出检材和样本中的音素边界位置;
2)在限定边界的音素片段中,通过基频、共振峰和功率谱分析自动判断当前音素是否为有效可分析音素;
3)基于有效可分析的检材和样本因素对,利用DTW(Dynamic Time Warping,动态时间归整)算法(参见文献[10]Sakoe H.and Chiba S.,Dynamic programming algorithmoptimization for spoken word recognition[C],IEEE Transactions on Acoustics,Speech and SignalProcessing,26(1)pp.43-49,1978,ISSN:0096-3518)自动给出相应共振峰的偏差比例,作为最终人工声纹鉴定的分析数据。
本发明与现有技术相比的优势在于:
对比传统的基于视听检验的人工鉴定方法完全依靠人工挑选比较共振峰参数,本发明自动标注音素边界、并判断音素发音是否有效,可大幅度提高处理效率;同时,对有效音素对的自动共振峰偏差比对算法,可提高共振峰比对的精度,避免由于人工选取了不同发声阶段的共振峰参数导致分析偏差。
另外对比已有类似专利,本发明的创新性体现在:“数字声纹鉴定系统及确认和辨认方法”(专利号:2007101781412),此专利思想是使用多个语音采集器的基于统计的自动声纹识别系统,提供声纹确认和声纹辨认两种功能,并针对两种方法提供相应的数据库存储、排序等功能。与本发明的核心差别在于,此专利是针对基于统计模式识别的声纹识别技术在刑事鉴定领域的具体应用方法设计;而本发明是一套针对基于视听检验的声纹鉴定系统,具有自动音素提取、音素发音有效性判断能力,同时本发明中将DTW应用于共振峰对比解决共振峰走势变化对一致性分析的影响。
附图说明
图1为面向人工声纹鉴定的共振峰自动匹配方法总体框图。
图2为DTW帧跳转五条路径。
具体实施方式
下面结合附图以及具体实施例进一步说明本发明。
本发明的原理框图如图1所示,主要由训练环节和测试环节构成,所需要实施的步骤如下:
1)将检材和样本带比较片段标注
101)海量语音训练得到音素切分需要的声学模型;
102)从检材和样本语音文件中选取待比较的语音片段;
2)检材和样本语音文件音素边界切分
201)从检材和样本语音文件的特定片段提取语音识别所需声学特征;
202)利用FA技术和声学模型对声学特征进行语音识别得到每个音素的起止时间边界;
3)从检材和样本语音文件中提取声纹鉴定所需声学特征参数
301)提取基频参数;
301)提取共振峰参数;
301)提取功率谱密度参数;
4)对比检材和样本相同音的素段是否有效
401)对比检材和样本相同音素段的基频偏差;
402)分别评估检材和样本相同音素的共振个数满足鉴定要求;
403)通过功率谱密度评估语音信号的频谱范围,辅助判断共振峰提取是否可靠;
5)共振峰偏差比例估计
501)计算检材与样本音素对中每个共振峰的平均偏差;
502)计算检材与样本音素对中每个共振峰的偏差比例;
503)给出当前音素的同一性判定参考结果。
各步骤的具体实施方案如下:
步骤101:海量语音训练得到音素切分需要的声学模型,海量语音由日常电话信道或PC信道采集的真实交谈数据构成,语音数据量越大、与实际应用中语音的信道等条件越接近会更好的提升音素切分的准确度,采用经典GMM-HMM框架或最新的DNN框架语音识别技术路线均可训练得到音素切分所需要声学模型。
步骤102:人工检听检材和样本语音文件,从中选取待比较的一一对应的若干语音片段,标注出语音片段的文本内容和起止时间点。
步骤201:从检材和样本语音文件中提取音素标注所需的MFCC、PLP或Filter-Bank等特征参数。
步骤202:将步骤101训练得到的声学模型、步骤102标注的文本和时间信息、步骤201提取的特征参数作为输入,首先采用自动切分FA技术进行音素边界的初步判定,再采用普通话水平测试电子化系统中的二次切分识别方式提高切分边界的准确性,对由初步判定的语音数据进行声学模型的自适应训练,第二遍切分识别在自适应后高复杂度精确模型基础上进行(参见文献[11]魏思,刘庆升,胡郁,王仁华,“普通话水平测试电子化系统”,中文信息学报[J],2006,pp89-96.以及参见文献[12]魏思,刘庆升,胡郁,王仁华,“带方言口音普通话自动水平测试”,第八届全国人机语音通讯学术会议[C],2005,pp22-25.),本方法采用基于DNN的声学识别模型相对传统GMM-HMM技术路线,音素边界切分准确率可获得从94.2%到98.4%的提升。
步骤301:采用自相关法(ACF)和平均幅度差(AMDF)相融合的方法(参见文献[13]A.de Cheveigne,YIN,a fundamental frequency estimator for speech and music,J.Acoust.Soc.Am.,2001以及参见文献[14]L.Hui,B.-q.Dai,and L.Wei,A pitch detection algorithm based onAMDF and ACF,in Proc.ICASSP2006pp.377-380.)提取检材和样本语音的基频参数,由于基频参数在不同信道和复杂噪声环境下具有较好的鲁棒性,可作为发音是否稳定的判断参数。
步骤302:对检材和样本语音相同音素片段进行分帧处理,提取每帧语音的共振峰参数,首先采用格型法(参见文献[15]Markhoul,J.(1973).“Spectral analysis of speech by linearprediction.”IEEE Trans.on Acoustics,Speech and Signal Processing21(3):140-149.)提取的线性预测系数(LPC),再通过多项式求根法将LPC参数转为线谱频率(LSF)参数,进而将LSF参数转换到语音信号频率上得到共振峰位置和带宽,通过将共振峰频率与标准的元音共振峰范围对比滤除数值分析产生的虚假共振峰值。
步骤303:采用基于离散傅里叶变换(DFT)的方法提取语音功率谱密度。
步骤401:对比检材和样本相同音素段的基频均值偏差,当均值偏差比例大于阈值时,认为当前音素对不是稳定的音素对,默认阈值为15%(可以根据实际经验调整);当均值偏比例小于阈值时,认为当前音素为声纹鉴定的备选音素片段。
步骤402:分别评估检材和样本相同音素的共振个数满足鉴定要求,如果检材或样本语音的共振峰个数少于三个,认为当前音素对不具备比对条件。
步骤403:分别计算检材和样本音素在特定频率(对不同元音的设定频率不同,参见文献林焘,王理嘉,《语音学教程》,北京大学出版社,1992,pp55)以上的功率谱密度与全频带功率谱密度的比值,当比值小于设定阈值时,认为当前检材或样本音素的高频信号丢失,不具备提取3个以上共振峰条件,不可用于声纹鉴定,默认阈值为10%(可以根据实际经验调整)。
步骤501:在经过401、402、403步骤判断为可做鉴定的检材和样本音素对,利用DTW算法计算检材与样本音素对中每个共振峰频率位置的平均偏差D(i,j)--表示样本音素第i帧与检材音素第j帧的共振峰累计偏差,公式如下:
D ( i , j ) = | t ( i ) - r ( j ) | + min D ( i , j - 1 ) , D ( i - 1 , j - 1 ) , D ( i - 1 , j - 2 ) , D ( i - 1 , j ) , D ( i - 2 , j - 1 )
共振峰平均偏差定义为:
D ‾ ( i , j ) = D ( i , j ) N
其中N为样本语音的音素长度。
实际中说话人正常发音的语音速度不会有2倍以上的差异,设置DTW可以跳转的路径为图2中的五条路径。
步骤502:在步骤501计算得到每个共振峰频率位置偏差的基础上计算每个共振峰的面积偏差。首先,定义样本共振峰的时频域面积:
S k = Σ i = 0 N F k ( i ) × frame _ Len , k = 1,2,3,4
式(1)中k表示第k个共振峰,Fk(i)为第i帧语音第k个共振峰的频率,frame_Len为一帧语音的长度,Sk表示样本语音第k个共振峰的面积。
定义检材和样本的共振峰偏差面积:
Δ S k = D k ‾ * N * frame _ len , k = 1,2,3,4
式中
Figure BDA0000441003980000073
表示步骤501中检材和样本之间共振峰的平均距离,N为样本语音的总帧数。最后,可以计算出检材相对于样本语音的共振峰偏差比例:
Rk=ΔSk/Sk    k=1,2,3,4
步骤503:根据步骤501和步骤502中计算得出的共振峰频率位置平均偏和共振峰面积偏差比例,给出当前音素的同一性判定参考结果。下表给出了研究人员在600名不同说话人朗读相同文本的数据集合上共振峰面积偏差比例的统计情况。
表共振峰偏差比例统计
Figure BDA0000441003980000074
本发明未详细公开的部分属于本领域的公知技术。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种面向声纹鉴定的共振峰自动匹配方法,其特征在于采用连续语音识别、声纹稳定段判断和动态规划技术自动实现音素边界切分和共振峰参数比对,大幅度提高声纹鉴定工作的自动化程度,该方法主要由参数提取环节和一致性比对环节构成,所需要实施的步骤如下:
步骤(1)、将检材和样本待比较片段标注:
101)海量语音训练得到音素切分需要的声学模型;
102)从检材和样本语音文件中选取待比较的语音片段;
步骤(2)、检材和样本语音文件音素边界切分:
201)从检材和样本语音文件的特定片段提取语音识别所需声学特征;
202)利用FA技术和声学模型对声学特征进行语音识别得到每个音素的起止时间边界;
步骤(3)、从检材和样本语音文件中提取声纹鉴定所需声学特征参数:
301)提取基频参数;
301)提取共振峰参数;
301)提取功率谱密度参数;
步骤(4)、对比检材和样本相同音的素段是否有效:
401)对比检材和样本相同音素段的基频偏差;
402)分别评估检材和样本相同音素的共振个数满足鉴定要求;
403)通过功率谱密度评估语音信号的频谱范围,辅助判断共振峰提取是否可靠;
步骤(5)、共振峰偏差比例估计:
501)计算检材与样本音素对中每个共振峰的平均偏差;
502)计算检材与样本音素对中每个共振峰的偏差比例;
503)给出当前音素的同一性判定参考结果。
CN201310700673.3A 2013-12-18 2013-12-18 面向声纹鉴定的共振峰自动匹配方法 Active CN103714826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310700673.3A CN103714826B (zh) 2013-12-18 2013-12-18 面向声纹鉴定的共振峰自动匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310700673.3A CN103714826B (zh) 2013-12-18 2013-12-18 面向声纹鉴定的共振峰自动匹配方法

Publications (2)

Publication Number Publication Date
CN103714826A true CN103714826A (zh) 2014-04-09
CN103714826B CN103714826B (zh) 2016-08-17

Family

ID=50407731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310700673.3A Active CN103714826B (zh) 2013-12-18 2013-12-18 面向声纹鉴定的共振峰自动匹配方法

Country Status (1)

Country Link
CN (1) CN103714826B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104795077A (zh) * 2015-03-17 2015-07-22 北京航空航天大学 一种检验语音标注质量的一致性检测方法
CN106971743A (zh) * 2016-01-14 2017-07-21 广州酷狗计算机科技有限公司 用户演唱数据处理方法和装置
CN107680601A (zh) * 2017-10-18 2018-02-09 深圳势必可赢科技有限公司 一种基于语谱图和音素检索的身份同一性检验方法及装置
CN108766417A (zh) * 2018-05-29 2018-11-06 广州国音科技有限公司 一种基于音素自动检索的身份同一性检验方法及装置
CN109087651A (zh) * 2018-09-05 2018-12-25 广州势必可赢网络科技有限公司 一种基于视频与语谱图的声纹鉴定方法、系统及设备
CN109378004A (zh) * 2018-12-17 2019-02-22 广州势必可赢网络科技有限公司 一种音素比对的方法、装置、设备及计算机可读存储介质
CN110164454A (zh) * 2019-05-24 2019-08-23 广州国音智能科技有限公司 一种基于共振峰偏差的音频同一性判别方法及装置
CN111108552A (zh) * 2019-12-24 2020-05-05 广州国音智能科技有限公司 一种声纹同一性鉴定方法和相关装置
CN111133508A (zh) * 2019-12-24 2020-05-08 广州国音智能科技有限公司 一种可供比对音素选取方法和装置
CN111627421A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN112687277A (zh) * 2021-03-15 2021-04-20 北京远鉴信息技术有限公司 语音共振峰的确定方法、装置、电子设备及可读存储介质
WO2021127998A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种声纹鉴定方法和相关装置
CN114255764A (zh) * 2022-02-28 2022-03-29 深圳市声扬科技有限公司 音频信息处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146563A (ja) * 1995-11-17 1997-06-06 Yamaha Corp 個人情報利用システム
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102509547A (zh) * 2011-12-29 2012-06-20 辽宁工业大学 基于矢量量化的声纹识别方法及系统
CN103139395A (zh) * 2013-03-20 2013-06-05 上海鼎为软件技术有限公司 移动终端及其控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146563A (ja) * 1995-11-17 1997-06-06 Yamaha Corp 個人情報利用システム
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102509547A (zh) * 2011-12-29 2012-06-20 辽宁工业大学 基于矢量量化的声纹识别方法及系统
CN103139395A (zh) * 2013-03-20 2013-06-05 上海鼎为软件技术有限公司 移动终端及其控制方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104795077B (zh) * 2015-03-17 2018-02-02 北京航空航天大学 一种检验语音标注质量的一致性检测方法
CN104795077A (zh) * 2015-03-17 2015-07-22 北京航空航天大学 一种检验语音标注质量的一致性检测方法
CN106971743A (zh) * 2016-01-14 2017-07-21 广州酷狗计算机科技有限公司 用户演唱数据处理方法和装置
CN106971743B (zh) * 2016-01-14 2020-07-24 广州酷狗计算机科技有限公司 用户演唱数据处理方法和装置
CN107680601A (zh) * 2017-10-18 2018-02-09 深圳势必可赢科技有限公司 一种基于语谱图和音素检索的身份同一性检验方法及装置
CN108766417A (zh) * 2018-05-29 2018-11-06 广州国音科技有限公司 一种基于音素自动检索的身份同一性检验方法及装置
CN108766417B (zh) * 2018-05-29 2019-05-17 广州国音科技有限公司 一种基于音素自动检索的身份同一性检验方法及装置
CN109087651A (zh) * 2018-09-05 2018-12-25 广州势必可赢网络科技有限公司 一种基于视频与语谱图的声纹鉴定方法、系统及设备
CN109378004A (zh) * 2018-12-17 2019-02-22 广州势必可赢网络科技有限公司 一种音素比对的方法、装置、设备及计算机可读存储介质
CN109378004B (zh) * 2018-12-17 2022-05-27 广州势必可赢网络科技有限公司 一种音素比对的方法、装置、设备及计算机可读存储介质
CN110164454B (zh) * 2019-05-24 2021-08-24 广州国音智能科技有限公司 一种基于共振峰偏差的音频同一性判别方法及装置
CN110164454A (zh) * 2019-05-24 2019-08-23 广州国音智能科技有限公司 一种基于共振峰偏差的音频同一性判别方法及装置
CN111133508A (zh) * 2019-12-24 2020-05-08 广州国音智能科技有限公司 一种可供比对音素选取方法和装置
WO2021127976A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种可供比对音素选取方法和装置
WO2021127998A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种声纹鉴定方法和相关装置
WO2021128003A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种声纹同一性鉴定方法和相关装置
CN111108552A (zh) * 2019-12-24 2020-05-05 广州国音智能科技有限公司 一种声纹同一性鉴定方法和相关装置
CN111627421A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN111627421B (zh) * 2020-05-13 2023-08-11 广州国音智能科技有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN112687277A (zh) * 2021-03-15 2021-04-20 北京远鉴信息技术有限公司 语音共振峰的确定方法、装置、电子设备及可读存储介质
CN112687277B (zh) * 2021-03-15 2021-06-18 北京远鉴信息技术有限公司 语音共振峰的确定方法、装置、电子设备及可读存储介质
CN114255764A (zh) * 2022-02-28 2022-03-29 深圳市声扬科技有限公司 音频信息处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103714826B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103714826B (zh) 面向声纹鉴定的共振峰自动匹配方法
WO2019075965A1 (zh) 一种基于语谱图和音素检索的身份同一性检验方法及装置
CN102543073B (zh) 一种沪语语音识别信息处理方法
US20070185715A1 (en) Method and apparatus for generating a frequency warping function and for frequency warping
Mouaz et al. Speech recognition of moroccan dialect using hidden Markov models
CN106875943A (zh) 一种用于大数据分析的语音识别系统
US20120078625A1 (en) Waveform analysis of speech
Zhang et al. Using computer speech recognition technology to evaluate spoken English.
Alam et al. Low-variance multitaper mel-frequency cepstral coefficient features for speech and speaker recognition systems
Sethu et al. Empirical mode decomposition based weighted frequency feature for speech-based emotion classification
Palia et al. Performance evaluation of speaker recognition system
Chougala et al. Novel text independent speaker recognition using LPC based formants
Nandi et al. Significance of cv transition and steady vowel regions for language identification
Wang A machine learning assessment system for spoken english based on linear predictive coding
Limkar et al. Speaker recognition using VQ and DTW
CN111210845B (zh) 一种基于改进自相关特征的病理语音检测装置
Alluri et al. Analysis of source and system features for speaker recognition in emotional conditions
Sailor et al. Fusion of magnitude and phase-based features for objective evaluation of TTS voice
Barczewska et al. Detection of disfluencies in speech signal
Fuchs et al. ASR for electro-laryngeal speech
Singh et al. A comparative study on feature extraction techniques for language identification
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Chaudhari et al. Effect of varying MFCC filters for speaker recognition
Maurya et al. Speaker recognition for noisy speech in telephonic channel
Sigona et al. Forensic Automatic Speaker Recognition with dialectal speakers: a pilot study on the Taranto and Brindisi varieties

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: High tech Zone Hefei city Anhui province 230088 Wangjiang Road No. 666 building 8-10 Xunfei

Applicant after: Xun Feizhi metamessage Science and Technology Ltd.

Address before: High tech Zone Hefei city Anhui province 230088 Wangjiang Road No. 666 building 8-10 Xunfei

Applicant before: ANHUI IFLYTEK INTELLIGENT SYSTEM CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Lin

Inventor after: Tang Leilei

Inventor after: Tang Dongmei

Inventor after: Li Jingyang

Inventor after: Hong Huabin

Inventor after: Chen Tao

Inventor after: Hu Guoping

Inventor after: Qiu Zhichao

Inventor after: Feng Xiang

Inventor after: Zhang Youguo

Inventor after: Hu Shaoyun

Inventor before: Liu Lin

Inventor before: Tang Dongmei

Inventor before: Li Jingyang

Inventor before: Chen Tao

Inventor before: Hu Guoping

Inventor before: Qiu Zhichao

Inventor before: Feng Xiang

Inventor before: Zhang Youguo

Inventor before: Hu Shaoyun

Inventor before: Tang Leilei