CN1142274A - 说话者辨认和确认系统 - Google Patents
说话者辨认和确认系统 Download PDFInfo
- Publication number
- CN1142274A CN1142274A CN95191853.2A CN95191853A CN1142274A CN 1142274 A CN1142274 A CN 1142274A CN 95191853 A CN95191853 A CN 95191853A CN 1142274 A CN1142274 A CN 1142274A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- speech
- component
- sigma
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Abstract
本发明涉及语音识别方法及其系统,它将自适应分量权重施加到每幅语音帧以使非声道分量衰减而对语音分量进行归一化。采用线性预测全极点模型来构成包含移动平均分量的新的传递函数。从新的传递函数确定归一化谱。归一化谱改善了语音分量的特性,由此改善了信道上的语音识别。
Description
发明领域
本发明涉及说话者识别系统或者类似的装置,它将自适应权重加入每幅语音帧内的分量中以使语音谱归一化,从而减少了信道效应(channel effect)的影响。
背景技术
说话者辨认系统的目标是从发出的声音中辨认出语音是谁。而说话者确认系统的目标是从发出的声音中确认说话者声称的身份。说话者辨认和确认系统可以在一般的说话者识别类型中进行定义。
已知的典型电话交换系统在同一对始点和终点之间经常可以建立不同的信道路径。由于信道效应,每条信道上的语音谱可以具有不同的形状。此外,噪声环境下同一说话者产生的语音谱与安静环境下产生的语音谱相比,也可以具有不同的形状。由于非声道分量使语音谱发生了变化,所以对不同信道内或者噪声环境下的语音识别比较困难。
常规的方法是使语音谱归一化来校正谱的形状。美国专利No.5,001,761描述了一种对受到噪声影响的某一频率附近的语音进行归一化的装置。语音谱按照预先确定的频率分段。对分割的每段谱确定一条线性逼近线段并在预先确定的频率处将逼近线段连接起来以使谱归一化。该装置的缺点是只对受噪声影响的预先确定频率的语音帧进行归一化而没有采取归一化措施来减少整段频率范围内的非声道(non-vocal tract)的影响。
美国专利No.4,926,488描述了一种考虑为伴随语音信号的噪声以增强口语输入的方法对语音归一化。该方法生成语音的特征矢量。特征矢量由包含多个参数的算符函数归一化。对于归一化的矢量确定最接近的原型矢量并改变算符函数以将归一化矢量移动至最接近的原型。改变后的算符矢量叠加到转换为归一化矢量的下一特征矢量上。该方法的不足之处是没有考虑多个频率上的非声道效应。
一般的语音建模方式是模仿人类声道部分。利用可以变换为语音段谱包络内峰位(频率)和峰形(带宽)的参数,线性预测编码(LPC)已被用来描述较短的语音段。Cepstral系数代表信号功率谱对数的傅利叶逆变换。它可以从频率谱或者线性预测LP系数中导出。Cepstral系数可以用作说话者识别的主要特征。一般地,12个Cepstral系数形成一幅语音帧。
已经发现,在语音合成和识别中可以使用较少的Cepstral系数。美国专利No.5,165,008描述了一种使用5个Cepstral系数构成每一个说话者独立的数据段的语音合成方法。为了确定系数的权重因子,利用线性预测分析来确立5个一组的Cepstral系数。系数权重因子使声道资源空间内的每个矢量元素的非平方预测误差最小。在每幅语音帧上采用同一系数权重因子而不考虑非声道效应。
因此有必要提供一种语音识别系统,其中对语音谱进行归一化以在每幅语音帧上提供语音分量的自适应权重,从而在减少非声道效应的同时,改善信号的声道特征。
发明内容提要
本发明的方法基于这样一个事实,即语音分量谱形随时间的变化与非声道分量谱形随时间的变化是不同的。已经发现,非声道分量(例如信道和噪声分量)谱的带宽与语音分量的带宽比较起来要宽得多。通过使宽带分量衰减而增强与语音有关的窄带分量,改善了语音的提取。改善后的语音提取可以用于高性能说话者识别装置之类的产品中。
本方法涉及模拟语音信号的分析,它通过将模拟的语音信号转换为数字形式来产生数字语音的连续帧。利用线性预测分析来分别分析数字语音帧,从而提取出语音谱和称之为预测系数的一组语音参数。预测系数包含表征语音帧的分量的全极点(pole)滤波器的若干极点。谱分量可以进行归一化以根据其相关的带宽增强突出分量的贡献。自适应分量权重用于谱分量上以增强与语音相关的分量并使与非话音效应相关的分量衰减。Cepstral系数根据归一化谱确定从而提供语音信号的增强特征。基于增强特征,在说话者识别系统中对分类作了改进。
比较好的是,本发明的说话者识别系统可以用于确认在用于信用卡交易、电话付费卡交易和计算机网络访问的电话系统中的通话人身份。此外,说话者识别系统可以用于声控门锁、汽车声控引擎和声控计算机系统中。借助以下附图可以进一步理解本发明。
附图的简要说明
图1为系统训练期间本发明系统的流程图;
图2为评价期间本发明系统的流程图;
图3为用于特征提取和特征增强时本发明方法的流程图;
图4为未进行自适应分量权重滤波的已有技术语音谱的曲线图;
图5为带自适应分量权重滤波的图4所示语音谱的曲线图;
图6A为未进行自适应分量权重滤波的语音谱;
图6B为进行了自适应分量权重滤波的语音谱;
图7为进行和未进行自适应分量权重滤波的语音谱的比较;
图8为传递函数(1-0.9z-1)的移动平均(FIR)滤波器的响应。
实施发明的详细描述
在描述期间,各图中相似的部分用相同的标号表示。
图1表示系统训练期间语音识别系统10的流程图。语音训练输入信号被加载到模数转换器11上以提供连续的数字语音帧。特征提取模块12接收数字语音帧。特征提取模块12获取了数字语音帧的特性参数。对于说话者识别来说,特征提取模块12提取的特征对语音是唯一的,从而能够进行合适的说话者识别。
特征增强模块14对特征提取模块12中提取的特征起着增强的作用。特征增强模块14还将提取的特征数减少到说话者识别所需的数量。在块16中对增强特征进行了分类。比较好的是,可以借助普通的矢量量化技术进行分类,为每个说话者生成通用码本。也可以利用多层感知模型、神经网络模型、径向基函数网络模型和隐马尔柯夫模型进行分类。应当注意到的是,可以结合本发明的原理采用本领域内其它的分类方法进行分类。
在图2中,说话者识别系统用于说话者辨认或确认。语音评价输入信号在模数转换器11中进行数字化并加载到特征提取模块12中。语音输入信号的增强特征在模板匹配模块18处接收。模板匹配模块18确定出与通用码本或者典型分类系统中最接近的匹配,从而确定语音的身份或者确认语音是否为通用码本中相应的人。图3表示实现特征提取块12和特征增强块14的较佳实施例的流程图。语音帧s(k)可以用调制模型(MM)来表示。调制模型(MM)包括表示调幅(AM)和调频(FM)分量及其数量N的参数。语音帧可以用下式表示: 其中Ai(k)为第i个分量的幅度调制,φI(k)是第i个分量的瞬时相位,而η(k)是建模误差。
幅度调制分量Ai(k)和瞬时相位分量φ(k)一般是窄带信号。可以利用线性预测分析来确定基音周期内的调制函数以获得:
Ai(k)=|Gi|e-BiK (102)
和
φ(k)=ωiK+θi (104)其中,Gi是分量增益,Bi是带宽,ωi是中心频率而θi是相对延迟。
语音信号s(k)加载到块110上以获取线性预测编码(LPC)系数。利用以下的方程可以定义用于语音信号的LP多项式A(z): 其中ai是线性预测系数而P是系数的阶数。
在线性预测编码分析中,声道的传递函数可以利用时变的全极点滤波器(timevaring all polefilter)建模,第P阶LP分析由下式给出: A(z)的根在块112中用LP多项式A(z)的根的因式分解确定: 其中zi是多项式A(z)的根而P为LP多项式的阶数。LP多项式的根通常为位于复数z平面上离原点径向距离近似为1的复根。
在块114中确定一个新的变换函数H(z)以使对应非声道效应的宽带分量衰减而增强对应语音的窄带分量。
可以用部分分式展开式表示:(平行于方程108) 其中残差ri代表分量(1-ziz-1)对函数
的贡献。残差ri表示分量i的相对增益和相位,可定义为合成谱的谱倾角(spectral tilt)。
已经发现,带宽较宽的谱分量对应于非声道分量并具有较大的残差值。
残差ri的归一化使谱中每个分量i的贡献与带宽呈比例关系。通过将ri设定为参数(例如单位量)完成残差的归一化。例如,如果ri设定为单位量,则i分量的贡献近似等于: 等价于方程式: 由方程式114可以看到,每个分量i的贡献反比于它的带宽Bi并且如果分量i具有较大的带宽,则方程式114的数值较小。ri的归一化可以定义为根据带宽加于每幅语音帧的谱分量的自适应分量权重(ACW)。
基于以上发现,在ACW基础上的使非声道分量衰减而使语音分量增强的新的传递函数表示如下:
方程式115表明,
不是一个全极点传递函数。
包含使信号语音分量贡献归一化的第P-1阶移动平均分量(MA)。
在现有技术中,如M.R.Schroeder在“cepstrals与预测器系数之间的直接(非递归)关系”(Proc.IEEE 29:297-301,1981.4)一文中所描述的那样,cepstral系数被用作谱信息。cepstral系数可以用相对cepstral指数归一化的极点幂之和的下列关系式来定义: 其中cn是cepstral系数。
cepstral系数cn可以借助方程式(106)定义的LP多项式A(z)的根来表示: 已知预测系数ai为实数。方程式106定义的LP多项式A(z)的根为实数或者为共轭复数对。LP多项式A(z)的每个根与中心频率ω和带宽Bi存在如下关系: 中心频率ωi和带宽Bi可以表示为: 其中Im(zi)是虚根而Re(zi)是实根并且
Bi=-ln|zi| (122)将方程式118代入方程式117得到语音信号s(k)的cepstral系数,它们可以表示如下: 其中第n个ceptral系数cn为MM参数的非线性变换。Quefrency指数n对应于方程式100中相对延迟φi设定为零而相对增益Gi设定为单位量时的时间变量k。
在块116中可以从新的传递函数H(z)确定出谱信道和倾角滤波器N(z)。N(z)为表示语音谱信道和谱倾角的LP多项式,可以定义如下: 其中b表示线性预测系数而P为多项式的阶数。对信号的语音分量进行归一化的FIR滤波器可以定义如下:
通过归一化cepstrum,
可以用下式表示具有自适应分量权重(ACW)的谱:
对于每幅语音帧,在块118中计算归一化的cepstrum
。归一化的cepstrum使非声道分量衰减而使普通cepstral谱的语音分量增强。从块118确定的归一化cepstral谱可以用于分类块16或者模板匹配块18。
图4表示了对于在由传递函数H(z)得到的信道上的用已有技术对说话者的语音谱所进行的分解。标号为1-4的分量表示声道的共振。共振峰位于标号为ωrω4的中心频率处。每个共振的带宽分别为B1-B4。标号为5和6的分量表示非声道效应。图4表示代表非声道效应的带宽B5、B6远大于语音分量的带宽B1-B4。
图5表示图4所示语音谱在施行自适应分量权重传递函数
后的分解。在图5中,分量1-4的峰值得到了增强而分量5和6的峰值发生了衰减。
图6A表示已有技术中包含声道和非声道分量的语音信号谱。图6B表示经过自适应分量权重滤波器作用后的语音信号谱。图6B将峰位1-4归一化为近似30db左右的值,从而增强了信号的语音分量。
图7表示用于图6B中语音谱的由N(z)定义的移动平均滤波器的响应。
完成的是与文本独立的说话者分辨认实例。采用了代表38个同一方言(新英格兰口音)语音的DARPA TIMIT数据库的子集。每个语音完成10个发音,每个发音的平均持续时间为3秒。在块16中采用5个发音来训练系统10并在块18中用5个发音来进行评估。从传递函数H(z)得到的第一组cepstral特征与从自适应分量权重传递函数
得到的第二组cepstral特征进行了比较。
用包含信道效应的语音信号进行训练和测试,采用传递函数(1-0.9z-1)来模拟信道。由H(z)得到第一组cepstral特征的识别率为50.1%。而由
得到的第二组cepstral特征的识别率为74.7%。利用自适应分量权重确定的cepstral特征,识别率提高了24.6%。
本发明的优点在于通过改善语音信号的特征,提高了信道上的说话者识别率。语音信号的非声道分量衰减下来而声道分量得到了增强。本发明比较好的是用于电话系统或者噪声环境下的说话者识别。
虽然借助实施例对本发明作了阐述,但是这些描述并非是限制性的。对于本领域内的技术人员来说,可以在不偏离本发明的精神和范围的前提下对本发明作出各种改动。
Claims (19)
1.一种说话者识别的方法,其特征在于包含以下步骤:
将话音解析为第一谱信息;
将权重施加到根据所述第一谱信息得到的预先确定的分量上以产生归一化的第二谱;以及
通过计算所述第二谱与事先由多人语音生成的多个语音模式的相似程度来识别所述第二谱。
2.如权利要求1所述的方法,其特征在于,所述话音的解析是通过将所述话音分割为多幅帧来进行的,每帧具有预先确定的时间间隔并通过线性预测分析获得每个所述话音的LPC系数。
3.如权利要求2所述的方法,其特征在于,在第一预先确定的分量上施加第一权重而在第二预先确定的分量上施加第二权重。
4.如权利要求3所述的方法,其特征在于,所述第一权重使所述第一分量增加而所述第二权重使所述第二分量衰减。
5.如权利要求4所述的方法,其特征在于,对于每个所述帧都确定所述第一和第二权重。
6.如权利要求5所述的方法,其特征在于所述第二分量具有较宽的带宽。
7.如权利要求6所述的方法,其特征在于所述第一和第二权重的确定步骤如下:
确定所述LPC系数的根,每个所述的根包括一个残差分量;以及
对每个所述的根的所述残差分量进行归一化。
8.如权利要求7所述的方法,其特征在于所述第二谱由下来变换定义: 其中P是解析的阶数,而zi是代表所述话音的带宽和频率的复数根。
9.如权利要求8所述的方法,其特征在于进一步包含以下步骤:对于所述第二语音谱确定归一化的cepstrum。
10.如权利要求9所述的方法,其特征在于所述cepstrum由下式定义: 其中P是系数的数量,而zi是所述第二谱的复数根。
11.如权利要求10所述的方法,其特征在于进一步包含以下步骤:
在系数装置中将所述第二谱存储为所述多个语音模式。
12.如权利要求11所述的方法,其特征在于进一步包含以下步骤:
通过将所述第二谱与分类装置中所述的存储第二谱进行匹配来确定所述第二谱与所述语音模式的相似程度。
13.一种说话者识别系统,其特征在于包含:
将语音信号转换为多个数字语音帧的装置;
将所述数字语音转换为一系列第一谱参数的语音参数提取装置;
将自适应权重施加到所述第一谱参数上以生成归一化的第二谱的语音参数增强装置;以及
确定所述第二谱与由说话人预先生成的多个语音样本的相似程度的评价装置。
14.如权利要求13所述的系统,其特征在于所述多个语音样本由所述第二谱生成。
15.如权利要求14所述的系统,其特征在于所述第一谱通过一个全极点LPC滤波器对所述语音信号进行滤波后生成。
16.如权利要求15所述的系统,其特征在于所述语音信号包括声道和非声道分量,其中所述语音参数增强装置包括使所述非声道分量衰减而增强所述声道分量的移动平均滤波装置。
17.如权利要求16所述的系统,其特征在于所述系统进一步包含:
对所述多个语音样本量化的矢量量化装置;以及
在码本中存储所述量化样本的装置。
18.如权利要求17所述的系统,其特征在于所述评价装置包含模板匹配装置,它通过将所述第二谱与所述码本中的所述样本匹配来确定所述第二谱与所述多个语音样本的相似程度。
19.如权利要求18所述的系统,其特征在于所述第二谱是如下定义的归一化cepstrum
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/203,988 US5522012A (en) | 1994-02-28 | 1994-02-28 | Speaker identification and verification system |
US08/203,988 | 1994-02-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1142274A true CN1142274A (zh) | 1997-02-05 |
Family
ID=22756137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN95191853.2A Pending CN1142274A (zh) | 1994-02-28 | 1995-02-28 | 说话者辨认和确认系统 |
Country Status (9)
Country | Link |
---|---|
US (1) | US5522012A (zh) |
EP (1) | EP0748500B1 (zh) |
JP (1) | JPH10500781A (zh) |
CN (1) | CN1142274A (zh) |
AT (1) | ATE323933T1 (zh) |
AU (1) | AU683370B2 (zh) |
CA (1) | CA2184256A1 (zh) |
DE (1) | DE69534942T2 (zh) |
WO (1) | WO1995023408A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101303854B (zh) * | 2007-05-10 | 2011-11-16 | 摩托罗拉移动公司 | 用于提供识别的语音输出的方法 |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5666466A (en) * | 1994-12-27 | 1997-09-09 | Rutgers, The State University Of New Jersey | Method and apparatus for speaker recognition using selected spectral information |
JPH08211897A (ja) * | 1995-02-07 | 1996-08-20 | Toyota Motor Corp | 音声認識装置 |
US5839103A (en) * | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
JP3397568B2 (ja) * | 1996-03-25 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
FR2748343B1 (fr) * | 1996-05-03 | 1998-07-24 | Univ Paris Curie | Procede de reconnaissance vocale d'un locuteur mettant en oeuvre un modele predictif, notamment pour des applications de controle d'acces |
US6078664A (en) * | 1996-12-20 | 2000-06-20 | Moskowitz; Scott A. | Z-transform implementation of digital watermarks |
US6038528A (en) * | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
SE515447C2 (sv) * | 1996-07-25 | 2001-08-06 | Telia Ab | Metod och anordning för talverifiering |
US5946654A (en) * | 1997-02-21 | 1999-08-31 | Dragon Systems, Inc. | Speaker identification using unsupervised speech models |
SE511418C2 (sv) * | 1997-03-13 | 1999-09-27 | Telia Ab | Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper. |
US5995924A (en) * | 1997-05-05 | 1999-11-30 | U.S. West, Inc. | Computer-based method and apparatus for classifying statement types based on intonation analysis |
US6182037B1 (en) * | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US5940791A (en) * | 1997-05-09 | 1999-08-17 | Washington University | Method and apparatus for speech analysis and synthesis using lattice ladder notch filters |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6192353B1 (en) | 1998-02-09 | 2001-02-20 | Motorola, Inc. | Multiresolutional classifier with training system and method |
US6243695B1 (en) * | 1998-03-18 | 2001-06-05 | Motorola, Inc. | Access control system and method therefor |
US6317710B1 (en) * | 1998-08-13 | 2001-11-13 | At&T Corp. | Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data |
US6400310B1 (en) * | 1998-10-22 | 2002-06-04 | Washington University | Method and apparatus for a tunable high-resolution spectral estimator |
US6684186B2 (en) * | 1999-01-26 | 2004-01-27 | International Business Machines Corporation | Speaker recognition using a hierarchical speaker model tree |
KR20010102549A (ko) * | 1999-03-11 | 2001-11-15 | 내쉬 로저 윌리엄 | 화자 인식 방법 및 장치 |
US20030115047A1 (en) * | 1999-06-04 | 2003-06-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and system for voice recognition in mobile communication systems |
US6401063B1 (en) * | 1999-11-09 | 2002-06-04 | Nortel Networks Limited | Method and apparatus for use in speaker verification |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
KR100366057B1 (ko) * | 2000-06-26 | 2002-12-27 | 한국과학기술원 | 인간 청각 모델을 이용한 효율적인 음성인식 장치 |
US6754373B1 (en) * | 2000-07-14 | 2004-06-22 | International Business Machines Corporation | System and method for microphone activation using visual speech cues |
US20040190688A1 (en) * | 2003-03-31 | 2004-09-30 | Timmins Timothy A. | Communications methods and systems using voiceprints |
JP2002306492A (ja) * | 2001-04-16 | 2002-10-22 | Electronic Navigation Research Institute | カオス論的ヒューマンファクタ評価装置 |
EP1395803B1 (en) * | 2001-05-10 | 2006-08-02 | Koninklijke Philips Electronics N.V. | Background learning of speaker voices |
AU2001270365A1 (en) * | 2001-06-11 | 2002-12-23 | Ivl Technologies Ltd. | Pitch candidate selection method for multi-channel pitch detectors |
US6898568B2 (en) * | 2001-07-13 | 2005-05-24 | Innomedia Pte Ltd | Speaker verification utilizing compressed audio formants |
US20030149881A1 (en) * | 2002-01-31 | 2003-08-07 | Digital Security Inc. | Apparatus and method for securing information transmitted on computer networks |
KR100488121B1 (ko) * | 2002-03-18 | 2005-05-06 | 정희석 | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 |
JP3927559B2 (ja) * | 2004-06-01 | 2007-06-13 | 東芝テック株式会社 | 話者認識装置、プログラム及び話者認識方法 |
CN1811911B (zh) * | 2005-01-28 | 2010-06-23 | 北京捷通华声语音技术有限公司 | 自适应的语音变换处理方法 |
US7788101B2 (en) * | 2005-10-31 | 2010-08-31 | Hitachi, Ltd. | Adaptation method for inter-person biometrics variability |
US7603275B2 (en) * | 2005-10-31 | 2009-10-13 | Hitachi, Ltd. | System, method and computer program product for verifying an identity using voiced to unvoiced classifiers |
CN101051464A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 说话人认证的注册和验证方法及装置 |
DE102007011831A1 (de) * | 2007-03-12 | 2008-09-18 | Voice.Trust Ag | Digitales Verfahren und Anordnung zur Authentifizierung einer Person |
US8849432B2 (en) * | 2007-05-31 | 2014-09-30 | Adobe Systems Incorporated | Acoustic pattern identification using spectral characteristics to synchronize audio and/or video |
CN101339765B (zh) * | 2007-07-04 | 2011-04-13 | 黎自奋 | 一种国语单音辨认方法 |
CN101281746A (zh) * | 2008-03-17 | 2008-10-08 | 黎自奋 | 一个百分之百辨认率的国语单音与句子辨认方法 |
DE102009051508B4 (de) * | 2009-10-30 | 2020-12-03 | Continental Automotive Gmbh | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung |
EP3373176B1 (en) * | 2014-01-17 | 2020-01-01 | Cirrus Logic International Semiconductor Limited | Tamper-resistant element for use in speaker recognition |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
GB2552723A (en) | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
CN109952609B (zh) * | 2016-11-07 | 2023-08-15 | 雅马哈株式会社 | 声音合成方法 |
WO2018163279A1 (ja) * | 2017-03-07 | 2018-09-13 | 日本電気株式会社 | 音声処理装置、音声処理方法、および音声処理プログラム |
GB201801875D0 (en) * | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Audio processing |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4058676A (en) * | 1975-07-07 | 1977-11-15 | International Communication Sciences | Speech analysis and synthesis system |
JPS58129682A (ja) * | 1982-01-29 | 1983-08-02 | Toshiba Corp | 個人照合装置 |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
IT1160148B (it) * | 1983-12-19 | 1987-03-04 | Cselt Centro Studi Lab Telecom | Dispositivo per la verifica del parlatore |
CA1229681A (en) * | 1984-03-06 | 1987-11-24 | Kazunori Ozawa | Method and apparatus for speech-band signal coding |
US5146539A (en) * | 1984-11-30 | 1992-09-08 | Texas Instruments Incorporated | Method for utilizing formant frequencies in speech recognition |
US4773093A (en) * | 1984-12-31 | 1988-09-20 | Itt Defense Communications | Text-independent speaker recognition system and method based on acoustic segment matching |
US4922539A (en) * | 1985-06-10 | 1990-05-01 | Texas Instruments Incorporated | Method of encoding speech signals involving the extraction of speech formant candidates in real time |
JPH0760318B2 (ja) * | 1986-09-29 | 1995-06-28 | 株式会社東芝 | 連続音声認識方式 |
US4837830A (en) * | 1987-01-16 | 1989-06-06 | Itt Defense Communications, A Division Of Itt Corporation | Multiple parameter speaker recognition system and methods |
US4926488A (en) * | 1987-07-09 | 1990-05-15 | International Business Machines Corporation | Normalization of speech by adaptive labelling |
US5001761A (en) * | 1988-02-09 | 1991-03-19 | Nec Corporation | Device for normalizing a speech spectrum |
CA1328509C (en) * | 1988-03-28 | 1994-04-12 | Tetsu Taguchi | Linear predictive speech analysis-synthesis apparatus |
CN1013525B (zh) * | 1988-11-16 | 1991-08-14 | 中国科学院声学研究所 | 认人与不认人实时语音识别的方法和装置 |
US5293448A (en) * | 1989-10-02 | 1994-03-08 | Nippon Telegraph And Telephone Corporation | Speech analysis-synthesis method and apparatus therefor |
US5007094A (en) * | 1989-04-07 | 1991-04-09 | Gte Products Corporation | Multipulse excited pole-zero filtering approach for noise reduction |
JPH02309820A (ja) * | 1989-05-25 | 1990-12-25 | Sony Corp | デイジタル信号処理装置 |
US4975956A (en) * | 1989-07-26 | 1990-12-04 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5167004A (en) * | 1991-02-28 | 1992-11-24 | Texas Instruments Incorporated | Temporal decorrelation method for robust speaker verification |
US5165008A (en) * | 1991-09-18 | 1992-11-17 | U S West Advanced Technologies, Inc. | Speech synthesis using perceptual linear prediction parameters |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
-
1994
- 1994-02-28 US US08/203,988 patent/US5522012A/en not_active Expired - Lifetime
-
1995
- 1995-02-28 CN CN95191853.2A patent/CN1142274A/zh active Pending
- 1995-02-28 AU AU21164/95A patent/AU683370B2/en not_active Ceased
- 1995-02-28 DE DE69534942T patent/DE69534942T2/de not_active Expired - Lifetime
- 1995-02-28 EP EP95913980A patent/EP0748500B1/en not_active Expired - Lifetime
- 1995-02-28 JP JP7522534A patent/JPH10500781A/ja not_active Ceased
- 1995-02-28 CA CA002184256A patent/CA2184256A1/en not_active Abandoned
- 1995-02-28 WO PCT/US1995/002801 patent/WO1995023408A1/en active IP Right Grant
- 1995-02-28 AT AT95913980T patent/ATE323933T1/de not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101303854B (zh) * | 2007-05-10 | 2011-11-16 | 摩托罗拉移动公司 | 用于提供识别的语音输出的方法 |
Also Published As
Publication number | Publication date |
---|---|
DE69534942T2 (de) | 2006-12-07 |
DE69534942D1 (de) | 2006-05-24 |
EP0748500A1 (en) | 1996-12-18 |
US5522012A (en) | 1996-05-28 |
WO1995023408A1 (en) | 1995-08-31 |
EP0748500B1 (en) | 2006-04-19 |
JPH10500781A (ja) | 1998-01-20 |
MX9603686A (es) | 1997-12-31 |
CA2184256A1 (en) | 1995-08-31 |
EP0748500A4 (en) | 1998-09-23 |
AU683370B2 (en) | 1997-11-06 |
ATE323933T1 (de) | 2006-05-15 |
AU2116495A (en) | 1995-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1142274A (zh) | 说话者辨认和确认系统 | |
US6278970B1 (en) | Speech transformation using log energy and orthogonal matrix | |
Tiwari | MFCC and its applications in speaker recognition | |
US6400310B1 (en) | Method and apparatus for a tunable high-resolution spectral estimator | |
DE69831076T2 (de) | Verfahren und vorrichtung zur sprachanalyse und -synthese mittels allpass-sieb-kettenfiltern | |
US20070208566A1 (en) | Voice Signal Conversation Method And System | |
US6208958B1 (en) | Pitch determination apparatus and method using spectro-temporal autocorrelation | |
Siegel | A procedure for using pattern classification techniques to obtain a voiced/unvoiced classifier | |
JP3687181B2 (ja) | 有声音/無声音判定方法及び装置、並びに音声符号化方法 | |
US20030187635A1 (en) | Method for modeling speech harmonic magnitudes | |
US5696878A (en) | Speaker normalization using constrained spectra shifts in auditory filter domain | |
McAulay | Maximum likelihood spectral estimation and its application to narrow-band speech coding | |
Biem et al. | A discriminative filter bank model for speech recognition. | |
Maged et al. | Improving speaker identification system using discrete wavelet transform and AWGN | |
Prakash et al. | Fourier-Bessel based Cepstral Coefficient Features for Text-Independent Speaker Identification. | |
JP2704216B2 (ja) | 発音評価法 | |
Bora et al. | Speaker identification for biometric access control using hybrid features | |
RU2047912C1 (ru) | Способ распознавания изолированных слов речи с адаптацией к диктору | |
JPH07210197A (ja) | 話者識別方法 | |
CN115620731A (zh) | 一种语音特征提取与检测方法 | |
Sunny et al. | A comparative study of parametric coding and wavelet coding based feature extraction techniques in recognizing spoken words | |
Chadha et al. | A full band adaptive harmonic model based speaker identity transformation using radial basis function | |
Mashao | Experiments on a parametric nonlinear spectral warping for an HMM-based speech recognizer | |
Suba et al. | Analysing the performance of speaker identification task using different short term and long term features | |
Chang et al. | Quality enhancement of sinusoidal transform vocoders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
C20 | Patent right or utility model deemed to be abandoned or is abandoned |