CN101923855A - 文本无关的声纹识别系统 - Google Patents

文本无关的声纹识别系统 Download PDF

Info

Publication number
CN101923855A
CN101923855A CN2009100532017A CN200910053201A CN101923855A CN 101923855 A CN101923855 A CN 101923855A CN 2009100532017 A CN2009100532017 A CN 2009100532017A CN 200910053201 A CN200910053201 A CN 200910053201A CN 101923855 A CN101923855 A CN 101923855A
Authority
CN
China
Prior art keywords
speaker
voice
acoustic model
guest
phonetic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009100532017A
Other languages
English (en)
Inventor
王一强
冯瑞
金城
薛向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN2009100532017A priority Critical patent/CN101923855A/zh
Publication of CN101923855A publication Critical patent/CN101923855A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明属语音信号处理领域,涉及一种文本无关的声纹识别方法和系统,首先使用语音采集设备采集用户客人语音信号作为系统的输入,并为该客人的声音特征建立一种较精确的声学模型,模型将被存储在语音特征库中;当待识别人进行声纹识别时,系统将使用采集到的语音信号作为输入,在语音特征库中进行声学模型的匹配计算,最终将与之最为匹配的模型编号返回,以此来确定说话人的具体身份。其文本无关和语言无关性,具有良好的易用性和推广价值;且识别效率高,结果准确。

Description

文本无关的声纹识别系统
技术领域
本发明属于语音信号处理领域,使用文本无关的说话人识别技术,在身份识别与验证领域具有广阔的应用前景。
背景技术
伴随着信息技术和网络技术的迅猛发展,人们对身份识别技术的需求越来越多,对其安全可靠性的要求也越来越严格。基于传统密码认证的身份识别技术在实际信息网络应用中已经暴露出许多不足之处,而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应用中展现出极大的优越性。其中,声纹识别技术被认为是一种新的更有效的身份识别技术之一。
声纹是指说话人语音频谱的信息图。由于每个人的发音器官不同,所发出来的声音及其音调各不相同,因此,声纹作为基本特征来实现人的身份识别具有实际的不可替代性和稳定性。声纹识别可以分为文本有关的说话人识别和文本无关的说话人识别两种:前者要求用户根据规定的内容发音,并根据发音的内容建立模型进行匹配,虽然这样可以使得匹配效果较好,但需要用户完全配合,灵活性和容错性欠佳;后者由于不限定用户的发音,所以要建立精确模型的难度较高,识别效果可能不如前者,但相比前者具有更好的适应性和实用性。
发明内容
基于对上述现有技术的分析,本发明的目的在于提出一个准确、高效的说话人识别方法,利用语音信号处理技术,采用语音特征提取算法,为说话人建立较精确的模型,从而构建一个文本无关的说话人声纹识别系统。
本发明的技术方案是:一种文本无关的声纹识别方法,对待识别人进行身份鉴别,其具体步骤如下:
步骤1:采集所述待识别人的语音作为输入信号;
步骤2:对所述输入信号进行预处理和特征值提取;
步骤3:使用特征信息流建立所述待识别人的声学模型;
步骤4:将所述声学模型与语音特征库中的全部声学模型进行匹配计算;
步骤5:将计算所得最为匹配的模型编号返回,以此来确定所述待识别人的具体身份;
其中步骤4中所述语音特征库中的声学模型是采用预先收录的用户客人的语音信号建立的声学模型,其建模步骤为:
步骤41:对所述客人进行语音模型训练,采集所述客人的连续语音作为输入信号;
步骤42:为所述客人的连续语音信号进行预处理并提出其特征值;
步骤43:对所述客人的语音特征建立一个较精确的声学模型;
步骤44:将所述客人的声学模型存储在语音特征库中。
所述语音特征包括分帧、预加重、加窗、快速傅里叶变换FFT、美尔能量和美尔频率倒谱系数MFCC;每个经过建模训练的用户客人都在语音特征库中关联一个相应的语音特征声学模型,并以文件的形式被存储在语音特征库中。
在进行训练建模或声纹识别的过程中,对客人或待识别人两种说话人所说的语言种类和语言内容没有限制和要求,即所述说话人可以使用任何种类的语言,并且内容不做限定。说话人在训练建模或声纹识别的过程中,语言的长短、音量的高低与声纹识别的准确度呈正比关系。
一种依据上述声纹识别方法建立的文本无关的声纹识别系统,包括语音采集设备、声纹识别计算机、人机交互界面及其运行软件;所述语音采集设备采集说话人的语音信号,传送至所述声纹识别计算机进行训练建模或识别匹配,并将建立的声学模型存储在硬盘的语音特征库中,将识别匹配的结果送往人机交互界面以确定说话人身份。
本发明文本无关的声纹识别方法和系统的优点是:(1)文本无关和语言无关性。识别结果不依赖说话人所讲的语言种类和具体内容,只依赖于个体的发音特性,具有良好的易用性和推广价值。(2)识别效率高,结果准确。通常情况下,系统仅需要若干秒的语音信号作为输入,这意味着被识别者仅需要说几个词或者简短的一句话即可,并且系统的识别速度很快,基本上可以在语音结束的同时给出识别结果,其识别精度可以达到相当高的水平,在某次测试实验中(测试人数20),准确率达到了100%。
附图说明
图1是本发明文本无关的声纹识别方法及系统的人机交互界面;
图2是本发明文本无关的声纹识别方法及系统的流程图。
具体实施方式
本发明文本无关的声纹识别方法的具体实现方法和原理是:
首先针对用户集进行说话人模型训练,具体程序为:(1)由外围音频采集设备对用户的说话人语音信号进行采集;(2)对连续语音信号进行预处理并提出其特征值;(3)使用特征信息流建立该用户说话人的声学模型;(4)将该声学模型存储在语音特征库中。
然后针对当前待识别用户进行模型匹配和识别,具体程序为:(1)利用外围音频采集设备采集说话人的语音信号;(2)进行预处理和特征值提取;(3)使用特征信息流建立当前说话人的模型;(4)对比语音特征库的声学模型来判断当前说话人的身份。
下面结合附图对本发明文本无关的声纹识别方法及系统详细说明。
1、文本无关的声纹识别系统描述
本发明所实现的文本无关的说话人识别系统使用Java编程语言编写,具有可视化的人机交互界面(如附图1所示),其基本功能包括:
1)向语音库中添加新的说话人
用户可以通过两种方法向语音库中添加新的说话人模型:1、直接通过麦克风采集说话人的语音进行训练;2、通过录制了说话人语音的wav格式文件进行训练。
2)删除语音库中已存在的说话人
用户可以删除指定说话人在语音库中的模型。如果该模型被删除,则识别结果中将不会再显示出系统判定为此说话人的概率值。
3)识别当前说话人的身份
当用户选择说话人身份识别时,系统将针对语音库中所有的说话人对象给出一个可信度列表,该列表反应了各个对象被判定为当前说话人的概率大小,并按降序排列。
4)确认当前说话人的声明身份
当用户选择说话人身份确认时,首先需要提供一个声明身份(可以在界面中的列表中选择),系统将判断当前说话人的身份是否和声明身份一致,并以“接受身份”或“拒绝身份”的方式给出结果。
附图2所示的是本发明所实现的文本无关的说话人识别系统流程图。系统将语音信号通过若干处理过程,转换为特征模型,再通过特征模型的匹配,得到最终的识别结果。具体的处理流程将可以分为三个大的步骤:
1)语音信号采集
语音信号采集将声音的模拟信号转变为数字信号,通常使用麦克风作为采集设备。本发明中使用的采样参数如下:采样频率16000Hz,采样精度16bit,信号通道为单声道。
2)前期处理和特征提取
前期处理的目的是将连续的语音信号转化为分段的、可处理的语音帧;特征提取的过程是将大量语音帧转化为可以反映出语音段性质的特征向量。这两个过程都涉及到一系列子步骤,譬如分帧,加窗,预加重,FFT变换,MFCC特征提取等,子步骤的意义和方法将在下文加以详述。
3)模型训练或匹配
模型训练的目的是使用大量语音的特征向量来构建出说话人的发声特性,尽量使这个特性能够与其他人的区分开;模型匹配的目的就是将当前说话人的发声特性模型与已有的模型进行对照,从而找到与之最为匹配(或称相似)的模型,从而判断说话人的身份。
2、前期处理和特征提取的原理
前期处理和特征提取可以细分为以下6个步骤,其中所用到的原理如下:
1)分帧
分帧的目的是将连续语音信号划分为段,以便于计算和处理的单元。由于一般人的发声在20~30ms内是稳定的,即在20~30ms的时间内,声音的变化不大且比较有规律,故设定帧的长度为20ms左右。同时,帧和帧之间需保证一定的重叠(即帧移),以减小由于强行划分导致信息损失的可能。本发明中使用的帧长为32ms,帧移为10ms。
2)预加重
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,大约在800Hz以上的高频部分按6dB/倍频程跌落,若不做预处理,则在计算语音信号的频谱信息时,频率越高的部分相应的比例就会比有效值低很多。因此,需要引入预加重过程,通过提升高频部分的信号幅度,使信号的频谱变得相对平坦,保持在低频到高频的整个频带中,各个频带的信噪比一致,以便进行有效的频谱分析或声道参数分析。其公式如下(其中参数a=0.97):
S2(n)=S(n)-aS(n-1)
3)加窗
信号在时域上的变化通常很难看出信号的特性,所以通常将它转换成频域上的能量分布以便观察其特征。通常在转换时会假设一个帧内的信号是代表一个周期性信号,但这个周期性不存在,则会产生分析上的误差。所以在实际中,需要进行加窗操作来加强帧左端和右端的连续性,以此尽量降低分析误差。本发明中使用了Hamming窗,其公式如下(其中参数a=0.46):
w(n,a)=(1-a)-a cos(2πn/(N-1)),0≤n≤N-1
4)快速傅里叶变换
快速傅里叶变换(即FFT)将语音信号有时域变换到频域,其公式如下:
X k = Σ 0 N - 1 s n e - 2 πik ( n / N ) , 0 ≤ k ≤ N - 1
5)计算美尔能量
美尔能量(Mel-Filter-Energy)是常用的语音信号的特征,具体求法是将能量频谱乘以一组20~40个三角带通滤波器,求得每一个滤波器输出的对数能量。
6)计算MFCC特征值
美尔频率倒谱系数(即MFCC)是用于说话人个性特征和说话人识别的最有效的特征之一,将美尔能量经过离散余弦变换即可得到MFCC特征值,其公式如下:
c m = Σ 1 N E k cos [ m · ( k - 0.5 ) · π / N ] , m=1,2,...L
3、模型训练和匹配的原理
在得到MFCC的特征值以后,就可以利用它为说话人建立适当的模型。本发明使用高斯混合模型(Gaussian Mixture Model,GMM)来表示说话人的语音特性,它是一种无监督的基于参数估计的概率分布模型,目前已广泛应用于模式识别和数据分析等领域。使用GMM对说话人的语音特征建模的主要理论基础有两个:
1)说话人的声学特征参数在特征空间中的分布可以认为是由他发出的不同的音(或者由相似音组成的类)的特征矢量聚合而成。即说话人的声学特征分布可以划分为多个类或者部分,每个类或部分对应着说话人发出的某类未知音素,并且这些不同的类或者部分对于区别说话人身份有着重要的意义。
2)根据概率统计学的理论,任何一个随机分布都可以用若干个高斯分布的加权组合线性表示。所以理论上来说,GMM可以用于描述各种形式的语音特征分布。
作为概率统计模型,GMM通过高斯概率密度函数的线性加权组合刻画语音特征参数的统计分布。不同说话人的语音特征的统计分布也是有所不同的。因此通过比较不同说话人的GMM模型,就可以用于区分不同的说话人。
假设
Figure B2009100532017D0000072
是一个D维的特征向量,相应的GMM是由若干个高斯模型进行加权线性组合而成的,其关键参数如下:
M:模型中包含的单个高斯概率分布的个数
ωi:每个高斯密度函数的权值
Figure B2009100532017D0000081
第i个高斯密度函数的均值(D维)和协方差矩阵(D×D)。
在大多数情况下,协方差矩阵可以使用一个对角阵来代替(即方差矩阵),对角线上每个元素为向量相应维度上的方差。此举大大降低计算复杂度,使GMM可以满足某些实时处理的需求,实验表明,使用方差矩阵在识别效果上并不比协方差矩阵差。
这样,一个高斯混合模型可以记做:
对于特征向量
Figure B2009100532017D0000083
来说,它与此模型匹配的概率输出为:
p ( x ρ | λ ) = Σ i = 1 M ω i b i ( x ρ )
其中:
b i ( x ρ ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - ( x ρ - μ ρ i ) T Σ i - 1 ( x ρ - μ ρ i ) 2 }
3.1模型的训练算法:
若要使用GMM进行文本无关的说话人识别,首先需要为不同的识别对象训练各自的语音模型,训练的算法步骤如下:
1)算法输入:
一组特征值矢量的输入序列
Figure B2009100532017D0000086
其中
Figure B2009100532017D0000087
为D维向量
2)算法目标:
对于这组输入序列来说,使它成为模型λ的观测矢量的后验概率为:
p ( O | λ ) = { Π t = 1 T p ( x ρ t | λ ) } 2 / T
GMM训练目标就是为模型λ寻找一组合适的参数,使得这个后验概率最大化。通常实际计算时可以将上式写为对数形式,即:
log ( p ( O | λ ) ) = 1 T Σ t = 1 T log ( p ( x ρ t | λ ) )
3)算法训练步骤:
GMM的训练方法使用EM(期望最大化)算法,具体步骤如下:
步骤1:GMM初始化:首先设定高斯混合模型的阶数M,设置每个高斯分布的加权值ωi均为1/M,方差矩阵为单位阵,均值
Figure B2009100532017D0000092
其中
Figure B2009100532017D0000093
为训练样本的均值向量,
Figure B2009100532017D0000094
为一个很小的随机向量。
步骤2:迭代更新参数:EM算法使用迭代的方法对模型参数进行更新,具体如下:
步骤2.1:对于O中的一个特征向量
Figure B2009100532017D0000095
(k=1,2,…,T)计算其在第i个高斯分布上的后验概率:
Figure B2009100532017D0000096
i=1,2,Λ,M
步骤2.2:计算属于第i个高斯分布的特征向量的个数:
Figure B2009100532017D0000097
i=1,2,Λ,M
步骤2.3:计算第i个高斯分布的权值:
ω i = n i T , i=1,2,Λ,M
步骤2.4:计算第i个高斯分布的均值:
Figure B2009100532017D0000099
i=1,2,Λ,M
步骤2.5:计算第i个高斯分布的方差:
Figure B2009100532017D00000910
i=1,2,Λ,M
迭代过程要一直持续到模型参数的变化很小为止,一般来说,5-10次迭代应该可以到达这样的状态。
4)算法输出
对应于特定输入样本的GMM模型
Figure B2009100532017D0000101
3.2模型的匹配算法
假设已有训练好的GMM模型共N类,分别为λ1,λ2,Λ,λN,进行说话人识别的过程如下:
1)输入:经过特征提取等预处理过程的特征向量序列Ω=(y1,y2,Λ,yp),共P个。
2)步骤:
分别计算该特征向量序列对于某类GMM模型λi(i=1,…,N)的后验概率的对数值:
log ( p ( Ω | λ i ) ) = 1 p Σ t = 1 p log ( p ( x ρ t | λ t ) ) i = 1 , Λ , N
使得该对数值最大的那个类标号I即为对应的说话者标号,即有:
I=arg1≤i≤Nmax(p(Ω|λi))
如果这个最大的概率任然小于某个阈值的话,则可以认为当前说话人并不在已训练过的说话人集合当中,而这个阈值的选择需要根据应用场景进行选择,它对GMM的识错率和拒识率都有影响。
3)输出:所属模型的类标号,或者是未训练类标号。

Claims (5)

1.一种文本无关的声纹识别方法,对待识别人进行身份鉴别,其特征在于,包括如下步骤:
步骤1:采集所述待识别人的语音作为输入信号;
步骤2:对所述输入信号进行预处理和特征值提取;
步骤3:使用特征信息流建立所述待识别人的声学模型;
步骤4:将所述声学模型与语音特征库中的全部声学模型进行匹配计算;
步骤5:将计算所得最为匹配的模型编号返回,以此来确定所述待识别人的具体身份;
其中步骤4中所述语音特征库中的声学模型是采用预先收录的用户客人的语音信号建立的声学模型,其建模步骤为:
步骤41:对所述客人进行语音模型训练,采集所述客人的连续语音作为输入信号;
步骤42:为所述客人的连续语音信号进行预处理并提出其特征值;
步骤43:对所述客人的语音特征建立一个较精确的声学模型;
步骤44:将所述客人的声学模型存储在语音特征库中。
2.根据权利要求1所述的文本无关的声纹识别方法,其特征在于:所述语音特征包括分帧、预加重、加窗、快速傅里叶变换FFT、美尔能量和美尔频率倒谱系数MFCC;每个经过建模训练的用户客人都在语音特征库中关联一个相应的语音特征声学模型,并以文件的形式被存储在语音特征库中。
3.根据权利要求1或2所述的文本无关的声纹识别方法,其特征在于:在进行训练建模或声纹识别的过程中,对客人或待识别人两种说话人所说的语言种类和语言内容没有限制和要求,即所述说话人可以使用任何种类的语言,并且内容不做限定。
4.根据权利要求3所述的文本无关的声纹识别方法,其特征在于:所述说话人在训练建模或声纹识别的过程中,语言的长短、音量的高低与声纹识别的准确度呈正比关系。
5.一种依据权利要求1至4所述声纹识别方法建立的文本无关的声纹识别系统,其特征在于:它包括语音采集设备、声纹识别计算机、人机交互界面及其运行软件;所述语音采集设备采集说话人的语音信号,传送至所述声纹识别计算机进行训练建模或识别匹配,并将建立的声学模型存储在硬盘的语音特征库中,将识别匹配的结果送往人机交互界面以确定说话人身份。
CN2009100532017A 2009-06-17 2009-06-17 文本无关的声纹识别系统 Pending CN101923855A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100532017A CN101923855A (zh) 2009-06-17 2009-06-17 文本无关的声纹识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100532017A CN101923855A (zh) 2009-06-17 2009-06-17 文本无关的声纹识别系统

Publications (1)

Publication Number Publication Date
CN101923855A true CN101923855A (zh) 2010-12-22

Family

ID=43338741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100532017A Pending CN101923855A (zh) 2009-06-17 2009-06-17 文本无关的声纹识别系统

Country Status (1)

Country Link
CN (1) CN101923855A (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436806A (zh) * 2011-09-29 2012-05-02 复旦大学 一种基于相似度的音频拷贝检测的方法
CN102496365A (zh) * 2011-11-30 2012-06-13 上海博泰悦臻电子设备制造有限公司 用户验证方法和装置
CN102546940A (zh) * 2011-12-28 2012-07-04 华为终端有限公司 一种基于语音的提示方法及终端设备
CN102592596A (zh) * 2011-01-12 2012-07-18 鸿富锦精密工业(深圳)有限公司 语音文字转换装置及方法
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN102831890A (zh) * 2011-06-15 2012-12-19 镇江佳得信息技术有限公司 一种对文本无关的声纹进行识别的方法
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法
CN104217715A (zh) * 2013-08-12 2014-12-17 北京诺亚星云科技有限责任公司 一种实时语音样本检测方法及系统
CN105597197A (zh) * 2016-01-26 2016-05-25 宁波睿诺电子科技有限公司 注射笔的附加电子监测记录装置
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法
CN106373562A (zh) * 2016-08-31 2017-02-01 黄钰 一种基于自然语言处理的机器人语音识别方法
CN106448676A (zh) * 2016-10-26 2017-02-22 安徽省云逸智能科技有限公司 一种基于自然语言处理的机器人语音识别系统
CN106448654A (zh) * 2016-09-30 2017-02-22 安徽省云逸智能科技有限公司 一种机器人语音识别系统及其工作方法
CN106448656A (zh) * 2016-10-26 2017-02-22 安徽省云逸智能科技有限公司 一种基于自然语言处理的机器人语音识别方法
CN106531152A (zh) * 2016-10-26 2017-03-22 安徽省云逸智能科技有限公司 一种基于htk的连续语音识别系统
CN107221331A (zh) * 2017-06-05 2017-09-29 深圳市讯联智付网络有限公司 一种基于声纹的身份识别方法和设备
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质
CN107393540A (zh) * 2017-07-20 2017-11-24 任文 一种语音输入消除噪音的方法
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107731233A (zh) * 2017-11-03 2018-02-23 王华锋 一种基于rnn的声纹识别方法
CN107910008A (zh) * 2017-11-13 2018-04-13 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
CN107993071A (zh) * 2017-11-21 2018-05-04 平安科技(深圳)有限公司 电子装置、基于声纹的身份验证方法及存储介质
WO2018149077A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质和后台服务器
CN108831484A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的且与语言种类无关的声纹识别方法及装置
CN109273011A (zh) * 2018-09-04 2019-01-25 国家电网公司华东分部 一种可自动更新模型的操作人员身份识别系统及方法
CN109509465A (zh) * 2017-09-15 2019-03-22 阿里巴巴集团控股有限公司 语音信号的处理方法、组件、设备及介质
CN109830240A (zh) * 2019-03-25 2019-05-31 出门问问信息科技有限公司 基于语音操作指令识别用户特定身份的方法、装置及系统
CN109920406A (zh) * 2019-03-28 2019-06-21 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
CN110838294A (zh) * 2019-11-11 2020-02-25 效生软件科技(上海)有限公司 一种语音验证方法、装置、计算机设备及存储介质
CN111785284A (zh) * 2020-08-19 2020-10-16 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN112786058A (zh) * 2021-03-08 2021-05-11 北京百度网讯科技有限公司 声纹模型训练方法、装置、设备以及存储介质
CN113628624A (zh) * 2021-10-12 2021-11-09 深圳市沃易科技有限公司 基于语音识别实现信息分类识别的楼宇智控呼叫方法
CN116072141A (zh) * 2023-04-06 2023-05-05 深圳市阿尔泰车载娱乐系统有限公司 具有语音识别功能的车载通信系统及方法

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592596A (zh) * 2011-01-12 2012-07-18 鸿富锦精密工业(深圳)有限公司 语音文字转换装置及方法
CN102831890A (zh) * 2011-06-15 2012-12-19 镇江佳得信息技术有限公司 一种对文本无关的声纹进行识别的方法
CN102436806A (zh) * 2011-09-29 2012-05-02 复旦大学 一种基于相似度的音频拷贝检测的方法
CN102496365A (zh) * 2011-11-30 2012-06-13 上海博泰悦臻电子设备制造有限公司 用户验证方法和装置
CN102546940A (zh) * 2011-12-28 2012-07-04 华为终端有限公司 一种基于语音的提示方法及终端设备
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN102779508B (zh) * 2012-03-31 2016-11-09 科大讯飞股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法
CN104217715B (zh) * 2013-08-12 2017-06-16 北京诺亚星云科技有限责任公司 一种实时语音样本检测方法及系统
CN104217715A (zh) * 2013-08-12 2014-12-17 北京诺亚星云科技有限责任公司 一种实时语音样本检测方法及系统
CN105597197A (zh) * 2016-01-26 2016-05-25 宁波睿诺电子科技有限公司 注射笔的附加电子监测记录装置
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法
CN106373562A (zh) * 2016-08-31 2017-02-01 黄钰 一种基于自然语言处理的机器人语音识别方法
CN106448654A (zh) * 2016-09-30 2017-02-22 安徽省云逸智能科技有限公司 一种机器人语音识别系统及其工作方法
CN106448676A (zh) * 2016-10-26 2017-02-22 安徽省云逸智能科技有限公司 一种基于自然语言处理的机器人语音识别系统
CN106448656A (zh) * 2016-10-26 2017-02-22 安徽省云逸智能科技有限公司 一种基于自然语言处理的机器人语音识别方法
CN106531152A (zh) * 2016-10-26 2017-03-22 安徽省云逸智能科技有限公司 一种基于htk的连续语音识别系统
US10629209B2 (en) 2017-02-16 2020-04-21 Ping An Technology (Shenzhen) Co., Ltd. Voiceprint recognition method, device, storage medium and background server
WO2018149077A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质和后台服务器
CN107221331A (zh) * 2017-06-05 2017-09-29 深圳市讯联智付网络有限公司 一种基于声纹的身份识别方法和设备
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
US10593333B2 (en) 2017-06-28 2020-03-17 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for processing voice message, terminal and storage medium
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质
CN107393540A (zh) * 2017-07-20 2017-11-24 任文 一种语音输入消除噪音的方法
CN109509465A (zh) * 2017-09-15 2019-03-22 阿里巴巴集团控股有限公司 语音信号的处理方法、组件、设备及介质
CN109509465B (zh) * 2017-09-15 2023-07-25 阿里巴巴集团控股有限公司 语音信号的处理方法、组件、设备及介质
CN107731233A (zh) * 2017-11-03 2018-02-23 王华锋 一种基于rnn的声纹识别方法
CN107910008A (zh) * 2017-11-13 2018-04-13 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
CN107910008B (zh) * 2017-11-13 2021-06-11 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
CN107993071A (zh) * 2017-11-21 2018-05-04 平安科技(深圳)有限公司 电子装置、基于声纹的身份验证方法及存储介质
CN108831484A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的且与语言种类无关的声纹识别方法及装置
CN109273011A (zh) * 2018-09-04 2019-01-25 国家电网公司华东分部 一种可自动更新模型的操作人员身份识别系统及方法
CN109830240A (zh) * 2019-03-25 2019-05-31 出门问问信息科技有限公司 基于语音操作指令识别用户特定身份的方法、装置及系统
CN109920406A (zh) * 2019-03-28 2019-06-21 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
CN109920406B (zh) * 2019-03-28 2021-12-03 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
CN110838294A (zh) * 2019-11-11 2020-02-25 效生软件科技(上海)有限公司 一种语音验证方法、装置、计算机设备及存储介质
CN110838294B (zh) * 2019-11-11 2022-03-04 效生软件科技(上海)有限公司 一种语音验证方法、装置、计算机设备及存储介质
CN111785284A (zh) * 2020-08-19 2020-10-16 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN111785284B (zh) * 2020-08-19 2024-04-30 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN112786058A (zh) * 2021-03-08 2021-05-11 北京百度网讯科技有限公司 声纹模型训练方法、装置、设备以及存储介质
CN112786058B (zh) * 2021-03-08 2024-03-29 北京百度网讯科技有限公司 声纹模型训练方法、装置、设备以及存储介质
CN113628624A (zh) * 2021-10-12 2021-11-09 深圳市沃易科技有限公司 基于语音识别实现信息分类识别的楼宇智控呼叫方法
CN116072141A (zh) * 2023-04-06 2023-05-05 深圳市阿尔泰车载娱乐系统有限公司 具有语音识别功能的车载通信系统及方法

Similar Documents

Publication Publication Date Title
CN101923855A (zh) 文本无关的声纹识别系统
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN107610707B (zh) 一种声纹识别方法及装置
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
Tiwari MFCC and its applications in speaker recognition
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN104900235B (zh) 基于基音周期混合特征参数的声纹识别方法
EP2410514B1 (en) Speaker authentication
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
Leu et al. An MFCC-based speaker identification system
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN1808567A (zh) 验证真人在场状态的声纹认证设备和其认证方法
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
Tolba A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
Kamruzzaman et al. Speaker identification using mfcc-domain support vector machine
CN102496366B (zh) 一种与文本无关的说话人识别方法
CN100570712C (zh) 基于锚模型空间投影序数比较的快速说话人确认方法
Rudresh et al. Performance analysis of speech digit recognition using cepstrum and vector quantization
CN109273012B (zh) 一种基于说话人识别和数字语音识别的身份认证方法
Tsai et al. Self-defined text-dependent wake-up-words speaker recognition system
Pati et al. Speaker information from subband energies of linear prediction residual
Goh et al. Robust computer voice recognition using improved MFCC algorithm
Nasr et al. Text-independent speaker recognition using deep neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20101222