CN1042790A - 认人与不认人实时语音识别的方法和装置 - Google Patents

认人与不认人实时语音识别的方法和装置 Download PDF

Info

Publication number
CN1042790A
CN1042790A CN88107791A CN88107791A CN1042790A CN 1042790 A CN1042790 A CN 1042790A CN 88107791 A CN88107791 A CN 88107791A CN 88107791 A CN88107791 A CN 88107791A CN 1042790 A CN1042790 A CN 1042790A
Authority
CN
China
Prior art keywords
parameter vector
speech
characteristic parameter
reference sample
speech characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN88107791A
Other languages
English (en)
Other versions
CN1013525B (zh
Inventor
俞铁城
毕宁
荣美玲
张恩耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN88107791A priority Critical patent/CN1013525B/zh
Priority to US07/433,098 priority patent/US5056150A/en
Priority to MYPI89001589A priority patent/MY104270A/en
Priority to GB8925873A priority patent/GB2225142A/en
Publication of CN1042790A publication Critical patent/CN1042790A/zh
Publication of CN1013525B publication Critical patent/CN1013525B/zh
Expired legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

一种认人与不认人实时语音识别的方法和装置,属于语音识别领域。其基本方法是:提取语音信号的频谱变化量为参数,并将其在时域上作平滑和非线性规正,得到时域上等长的语音特征参数矢量;对每一桢语音特征参数矢量做二值化处理或做幅值规正;语音特征参数矢量经优化生成按时间顺序排列的子码书序列作为语音参考样本。以这种方法设计的语音识别装置,不仅可用于认人识别,也可用于不认人识别。

Description

本发明属于语音识别领域,涉及一种用于快速和准确地识别各种语音的方法和装置。现有的语音识别系统绝大部分是用高速运算器件(如TMS320系列)来开发并实现的,这主要是由于这些系统采用了线性预测(LPC)参数及动态规划(DP)等运算量极大的方案,使得只有借助高速运算器件才能实现实时处理。另一类系统采用滤波器组各通道的能量作为参数桢序列,如北方电信有限公司的专利“语音识别”(专利申请号:CN86100298A)和清华大学的专利“一种语音特征的提取和识别方法”(专利申请号:CN85100083A),它虽然避免了提取谱参数的大量运算,但在待测音与基准样型音的匹配识别方法上,或用动态时间卷曲(DTW)、或用所谓特征分块识别方案,前者所需运算量依旧很大,后者将语音在时序上的信息量模糊过甚,实际上类似于不适用于语音识别的长时谱参数。抗噪音能力的强弱是检验一个语音识别系统性能的重要标准,由于LPC和倒谱等参数对频谱的变化很敏感,故以上述参数为基础的识别系统在背景噪音较高时误识别次数明显增多。现有的识别系统一般均要求使用者发音规范、平稳,自由度较小,这造成语音识别系统使用不便,增加了使用者的心理负担。究其原因,主要是设计者采用了线性时域压缩、以时长判定字数或不完善的DP方案。作为参考样本的语音码本所占用的体积,决定了系统可能的字表大小、也在一定程度上影响着系统的实时性能。如北京祥云电脑公司的一套语音识别系统,一个语音码本占用4K字内存,字表大小仅限于50左右。
本发明的目的是提供一种识别精度高、实时性能强、可扩字表大、抗噪音能力强、发音自由度大和可多人共用一套参考样本,即不认人识别的语音识别方法和装置。
图1为用于识别语音的装置和方法:
(Ⅰ)原始语音参数提取:
原始语音参数提取利用将语音信号转化为一系列原始语谱参数桢的装置。原始语音参数桢序列可根据需要选用以下形式的参数:带通滤波器组各通道的能量输出、频谱斜率或变化量参数、Bark刻度或Mel刻度的倒谱参数、以及LPC参数等。采样周期以10~20毫秒为宜。本发明采用的是带通滤波器各通道的能量输出和频谱变化量参数,其中频谱变化量参数指的是带通滤波器组相信通道能量的差值。
(Ⅱ)语音始、终点判定
依据原始语音参数提取(Ⅰ)所提供的一系列参数桢来判定语音始、终点的装置。由全通或接近全通的C网络通道的能量超过某个阈值,如20分贝,并持续了一定的时间,如200毫秒,则判定一个音开始;由该通道的能量连续低于某个阈值,如25分贝,并达到一定的时间,如250毫秒,则判定一个音结束。如当原始语音参数桢序列的采样周期为10毫秒、量化精度为8比特,可将判定语音始、终点的时间阈值分别定为20桢和25桢,将能量阈值分别定为30和37。上述的时间和能量阈值均可根据使用该设备时的背景噪音情况而重新设定,背景噪音大时可提高阈值。
(Ⅲ)语音特征参数提取
语音特征参数提取是从原始语音参数提取(Ⅰ)和语音始、终点判定(Ⅱ)所提供的原始语音参数桢序列中,运用进一步优化了的声刺激量非线性时域规正方法,提取用于建立语音参考样本和匹配识别的语音特征参数矢量的装置。利用声刺激量参数对原始语音参数桢序列进行非线性时域规正的目的,是充分强调过渡音段的重要性、压缩掉元音的稳态部分,以获得在时域上等长的语音特征参数矢量序列。这样可以减少必须存贮的信息量并避免繁复的DP运算以大大提高识别速度。方法如下:若在Ti时刻的原始语音参数桢为B(Ti)={Ai,l…Ai,j,…Ai,L},Ai,j表示L维语音参数矢量的一个分量,则将其在时域上做30毫秒光滑得到B′(Ti)={Pi,l,…Pi,j,…Pi,L},Pij表示光滑后的L维语音参数矢量的分量,其中Pij= 1/4 A(i-l),j+ 1/2 Ai,j+ 1/4 A(i+l),j。定义在Ti时刻的声刺激量为:
δ i = Σ j = 1 L |P i , j - P (i - 1) , j
= 1 4 Σ j = 1 L |A (i + 1) , j + A i , j - A (i - 1 ) , j -A (i - 2 ) , j |。
当采样精度为8比特时,若上式中|Pi,j-P(i-l),j|≤2,则令其为零。若一段语音的采样桢数为N,则该段语音的总声刺激量便是
△ = Σ i = 1 N δ i
若要选出M个参数桢矢量来标征这段语音,即将该段语音规正为M桢长,则可定义平均声刺激量( △)为:
△=Δ/(M+1)。
以 △作为选谱阈值,确定M个语音特征参数桢矢量的方法如下:
(1)声刺激量累加器(W)置零:W=0;
(2)顺序取下一个声刺激量δi,加进声刺激量累加器W=W+δi;
(3)如果W≥ △,则选中此第i桢,转往(5);
(4)否则,不选此第i桢,转往(2);
(5)将选中的第i桢矢量赋以选中桢序号m,声刺激量累加器减少 △:W=W- △;
(6)检查是否已选中M桢矢量,即m≥M;若是,则结束;否则,转往(3)。
语音特征参数桢矢量的个数M一般选为20左右,可根据字表内容的音节数目做适当调整,约为音节数的4~6倍。
(Ⅳ)语音特征参数幅值的量化规正
对语音特征参数(Ⅲ)所提供的语音特征参数矢量进行幅值量化规正的装置。为了进一步压缩必须存贮的信息量,也为了克服说话声音大小和距话筒远近所造成的输入信号能量的差别,我们对特征参数矢量的幅值进行量化规正。量化精度可根据需要选为1-8比特。1比特量化法如下:
对于经非线性时域规正的语音特征参数桢C(i)={Pi,l,Pi,2,…Pi,L},可求得它的平均值 Pi = 1/(L)
Figure 881077917_IMG7
Pi(j)值对该参数桢的各分量进行1比特量化:
以频谱变化量为参数时,根据下式进行1比特量化:
Figure 881077917_IMG4
当量化精度选为8比特时,对每桢谱进行幅值规正,即
P ′ i , j = P i j max {P i , j ·2551≤j≤ L
利用规正后的特征参数去识别,减少了由于话音电平的大小不同所造成的误识别次数。
(Ⅴ)语音参考样本的优化
经过以上步骤,已生成了用于认人识别的等长的语音特征参数矢量序列。进行不认人语音识别时,还需对上述特征参数矢量再优化,以建立不依赖于特定使用人的语音参考样本。具体方法和步骤如下:
(1)由多个发音人念字表多遍,对于每一次发音均用上述(Ⅰ)~(Ⅳ)步骤进行时域和能域规正。字表中的每个项目均被分桢处理,即字表中同一个项目的多次发音,按在语音特征参数桢序列上的顺序,被分别生成一个子码书序列。由此序列所构成的码书,是严格按照时间顺序排列的。
(2)每个子码书由小到大地生成,每次增大1。由N个码字构成的码书BN生成N+1个码字的码书BN+1的方法是:由BN中具有多于2个成员的码字中选出平均距离最大的那个码字,作微扰产生两个初始中心,其余不变。对N+1个初始中心进行聚类循环得到BN+1
(3)对于偶然发生的空白子空间,我们将其消去,采用(2)中的办法补生成一个码字。
另外,在码书生成过程中,可考虑将男女声或不同语系的语音样本分别各自生成一个子码书序列,识别时再将其合并使用。试验测试证明此方法优于将所有语音一起生成一个子码书序列,提高了识别准确率。
这些步骤也可用于优化认人识别系统的语音参考样本。
(Ⅵ)待测音与参考样本之差距的计量
用于将一个未知语音特征参数矢量序列与参考样本相比较,并确定哪个参考样本与之最相匹配的装置。
在认人语音识别系统中,当字表大小为N,每个语音特征参数桢序列的桢数为M,每个参数桢的分量数为L时,可用下式表示语音参考样本:
j=1,2,…L,
R(k)={r′i,j (k)},i=1,2,…M,
k=1,2,…N。
用X表示待识别语音样本:
j=1,2,…L,
X={x′i,j} i=1,2,…M。
当参数精度为1比特时,用Hamming距离计量待识别语音和参考样本之间的差距:
d(k)= Σ i = 1 M Σ i = 1 L (x′i,j
Figure 881077917_IMG5
r′i,j (k)),k=1,2,…N。
其中“ ”为异或运算。该种运算较之乘法或加法运算节省很多运算时间。当用2~8比特量化参数矢量时,用city-block距离或欧氏距离计量差距,即:
d (k ) = Σ i = 1 M Σ j = 1 L |x ′ i , j - r ′ i , j (k ) |, k = 1,2,…N;
或 d (k ) = Σ i = 1 M Σ j = 1 L (x ′ i, j - r ′ i , j (k ) ) 2 , k = 1,2,…N 。
用最小距离原则判定识别结果,即将待测语音判为第n项,如果d(n)≤d(k),k=1,2,…N。
在不认人语音识别系统中,每个参考样本都是由一个码书所表示,该码书之严格按时间顺序排列的每个子码书均包含V个码字。将待测语音特征参数矢量与参考样本的子码书序列比较时,选择与待测音参数矢量最相似的码字为准,来累计待测音与参考样本的相似度。其余与认人识别过程相同。
(Ⅶ)待测语音音节数的判定
用于判定未知语音音节数目的装置。判定未知语音的音节数主要依据声刺激量的变化情况,设 δ 1 i = Σ j = 1 L (P i , j - P (i - 1) , j ) ,当δ1 i连续8桢以上为负值,或 Σ i = L 1 L 1 δ : i 连续8组以上为负值,则判定一个音节结束。以上参数可根据采样率和呼音的速度作相应的调整。
(Ⅷ)识别结果判决
利用(Ⅵ)和(Ⅶ)所提供的结果,再加上离散度阈值的限定,用于判定最终识别结果的装置。如果待测语音与字表中的第n1项最相匹配,与第n2项次最相匹配,即有差距参数
d ( n 1 ) ≤ d ( n 1 ) ≤ d ( k ) , k = 1,2 , · · · N ,
K≠n1,n2
则定义离散度为
d ( n 1 ) - d ( n 1 ) d ( n 1 )
,其阈值一般定为0.1。如果离散度小于该阈值,则拒绝识别。如果大于或等于该阈值,则看第n1项的字数是否与字数判定装置所给出的结果基本相符。若是,则输出识别结果;若否,则考虑第n2项;如此推移,直至得到识别结果。
一种用于将语音信号转化为一系列原始语谱参数桢的装置-语音信号预处理器。其工作原理如图2所示的方框图。
语音信号通过传声器变成电信号,电信号经高低频提升、放大、带通滤波、RMS检波和16路模拟开关,至A/D变换器(参见图2)。至此,完成了原始语音数字能谱的采集过程。
(1)传声器:完成声-电变换工作。
(2)高低频提升:对语音信号中的高频成份加权,以克服辅音信息较弱的现象,有助于加强本装置对辅音的敏感程度,为了改善识别系统对女声的识别率,除高频提升外,在低频端也作了提升,图4是它的频率特性曲线。
(3)放大器:根据所用A/D变换器的最大容许输入动态范围和所用传声器的灵敏度来选定恰当的放大量。充分利用A/D变换器的输入动态范围,有利于后端的语音数字信号处理,
(4)滤波器:共17路。其中16路是窄带通滤波器,1路是宽带通滤波器。窄带通滤波器的中心频率在200~6300Hz之间按1/3倍频程划分,用于提取语谱信号;宽带通滤波器的带宽是窄带通滤波器的总和,用于音量显示。
(5)RMS检波器:完成对模拟信号的如下运算:
RMS = 1 T ∫ 0 T [ f ( t ) ] 2 dt
从而得到语音信号在各通道的能量值。
(6)A/D变换器:将模拟信号变为数字信号。
(7)接口:完成语音信号预处理器与后端数字信号处理部分的连接,并完成后端对A/D采样控制的传递工作。
(8)音量显示:由比较电路和7列电平显示器组成,供用户监视和控制自己的发音音量。可根据音量显示随时调正放大器的放大倍数。
本发明所构成的认人和不认人语音识别方法和设备所具备的优点在于:
对于认人语音识别系统具有:
(1)实时处理能力强:将原来需要大量的乘法和加法运算的过程,改为仅需异或运算的过程。使得既使不用高速数字处理器件也能实现2000字表大小的实时处理。
(2)识别率高,一般字表(200条口令)时,正确识别率达99%。
(3)占用存贮量小:识别执行运算匹配部分仅2KB,每条语音样本30字节。
(4)抗噪音能力强:在噪声较大的环境下也能正常工作。
(5)发音自由度大:对发音的速度和音量无十分严格的要求,允许一定程度上的非线性发音。
对于不认人语音识别系统具有:
(1)实时性能强:字表大小为200时能够实时处理。
(2)识别率高:用包括“0-9”十字数字的31条口令测试时,参与训练者的正确识别率为99%,未参与训练者的正确识别率为95%。
其它特点与认人语音识别系统相同。
本发明可应用于军事口令指挥,工业语音自动控制、声控文献检索以及汉字语音输入等领域。它适用于任何自然语言的声控装置。
图1是认人与不认人语音识别方框图。
图2是提取原始语音参数装置的方框图。它包含了十六个通道带通滤波器和检波器,以及相应的放大器,跟随器、缓冲器、高低频提升、A/D转换器及其接口。还包括了用于检测音量的宽带滤波器、衰减器、检波器、缓冲器和音量显示。
图3是语音信号预处理器的局部电路图。它由集成块A1,A2,电阻R1至R8以及电容C1至C3所组成的高低频提升电路。
图4是高低频提升电路的频率特性曲线。

Claims (7)

1、一种认人与不认人的语音识别方法,其特征在于:
a.将语音信号转化为一系列原始语谱参数桢;
b.判定语音的始、终点;
c.运用进一步优化了的声刺激量非线性时域规正来提取用于建立语音参数样本和匹配识别的语音特征参数矢量,以获得在时域上等长的语音特征参数矢量序列;
d.对语音特征参数矢量进行幅值量化规正;
e.对特征参数矢量再优化;
f.比较待测语音特征参数矢量序列与参考样本,从而确定哪一个参考样本与之最相匹配;
g.根据声刺激量的变化,判定语音音节数目;
h.判定识别结果。
2、按照权利要求1所说的方法,其特征在于所说的语谱参数是包括有频谱斜率或变化量参数。
3、按照权利要求1所说的方法,其特征在于所说的语音特征参数矢量,在进行非线性时域规正时,需要将其在时域上做30毫秒的光滑处理,其中
δ i = 1 4 Σ j = 1 L |A (i + 1) j + A i j - A (i - 1) j - A ( i - 2 ) j | 。
4、按照权利要求1所说的方法,其特征在于所说的对特征参数矢量优化所产生的码书序列是严格按照时间顺序排列的。
5、按照权利要求1所说的方法,其特征在于所说的对特征参数矢量优化,是包括了在码书生成过程中,采用将男女声或不同语系的语音样本分别各自生成一个子码书序列,识别时再将其合并使用。
6、按照权利要求1所说的方法,其特征在于所说的待测语音特征参数矢量序列与参考样本的最相匹配是指在参考样本子码书中选择与待测音最相似的码字为准来累计待测音与参考样本的相似度。
7、一种适用于权利要求1所述方法的装置,其特征在于采用了由集成块A1,A2,电阻R1至R8以及电容C1至C3所组成的高低频提升电路。
CN88107791A 1988-11-16 1988-11-16 认人与不认人实时语音识别的方法和装置 Expired CN1013525B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN88107791A CN1013525B (zh) 1988-11-16 1988-11-16 认人与不认人实时语音识别的方法和装置
US07/433,098 US5056150A (en) 1988-11-16 1989-11-08 Method and apparatus for real time speech recognition with and without speaker dependency
MYPI89001589A MY104270A (en) 1988-11-16 1989-11-15 Method and apparatus for real time speech recognition with and without speaker dependency
GB8925873A GB2225142A (en) 1988-11-16 1989-11-15 Real time speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN88107791A CN1013525B (zh) 1988-11-16 1988-11-16 认人与不认人实时语音识别的方法和装置

Publications (2)

Publication Number Publication Date
CN1042790A true CN1042790A (zh) 1990-06-06
CN1013525B CN1013525B (zh) 1991-08-14

Family

ID=4834785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN88107791A Expired CN1013525B (zh) 1988-11-16 1988-11-16 认人与不认人实时语音识别的方法和装置

Country Status (4)

Country Link
US (1) US5056150A (zh)
CN (1) CN1013525B (zh)
GB (1) GB2225142A (zh)
MY (1) MY104270A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165880B2 (en) 2005-06-15 2012-04-24 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
CN104965724A (zh) * 2014-12-16 2015-10-07 深圳市腾讯计算机系统有限公司 一种切换工作状态的方法和装置
CN105070291A (zh) * 2015-07-21 2015-11-18 国网天津市电力公司 基于动态时间规整技术的声控门系统
WO2018014537A1 (zh) * 2016-07-22 2018-01-25 百度在线网络技术(北京)有限公司 语音识别方法和装置

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0474496B1 (en) * 1990-09-07 1998-03-04 Kabushiki Kaisha Toshiba Speech recognition apparatus
US5271089A (en) * 1990-11-02 1993-12-14 Nec Corporation Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung
US5428708A (en) * 1991-06-21 1995-06-27 Ivl Technologies Ltd. Musical entertainment system
WO1993013518A1 (en) * 1991-12-31 1993-07-08 Digital Sound Corporation Voice controlled messaging system and processing method
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
US6046395A (en) * 1995-01-18 2000-04-04 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US5567901A (en) * 1995-01-18 1996-10-22 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
ES2143953B1 (es) * 1998-05-26 2000-12-01 Univ Malaga Circuito integrado analizador de secuencias silabicas.
US6278972B1 (en) * 1999-01-04 2001-08-21 Qualcomm Incorporated System and method for segmentation and recognition of speech signals
US6721719B1 (en) * 1999-07-26 2004-04-13 International Business Machines Corporation System and method for classification using time sequences
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
JP2001117579A (ja) * 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
US6836758B2 (en) * 2001-01-09 2004-12-28 Qualcomm Incorporated System and method for hybrid voice recognition
US20050234712A1 (en) * 2001-05-28 2005-10-20 Yongqiang Dong Providing shorter uniform frame lengths in dynamic time warping for voice conversion
US20030220788A1 (en) * 2001-12-17 2003-11-27 Xl8 Systems, Inc. System and method for speech recognition and transcription
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US7610196B2 (en) * 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8306821B2 (en) * 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
KR100717393B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
CN102483916B (zh) * 2009-08-28 2014-08-06 国际商业机器公司 声音特征量提取装置和声音特征量提取方法
US8326625B2 (en) * 2009-11-10 2012-12-04 Research In Motion Limited System and method for low overhead time domain voice authentication
US8321209B2 (en) 2009-11-10 2012-11-27 Research In Motion Limited System and method for low overhead frequency domain voice authentication
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
CH645501GA3 (zh) * 1981-07-24 1984-10-15
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
JPH067343B2 (ja) * 1987-02-23 1994-01-26 株式会社東芝 パタ−ン識別装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165880B2 (en) 2005-06-15 2012-04-24 Qnx Software Systems Limited Speech end-pointer
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8457961B2 (en) 2005-06-15 2013-06-04 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8554564B2 (en) 2005-06-15 2013-10-08 Qnx Software Systems Limited Speech end-pointer
CN104965724A (zh) * 2014-12-16 2015-10-07 深圳市腾讯计算机系统有限公司 一种切换工作状态的方法和装置
CN105070291A (zh) * 2015-07-21 2015-11-18 国网天津市电力公司 基于动态时间规整技术的声控门系统
WO2018014537A1 (zh) * 2016-07-22 2018-01-25 百度在线网络技术(北京)有限公司 语音识别方法和装置

Also Published As

Publication number Publication date
MY104270A (en) 1994-02-28
CN1013525B (zh) 1991-08-14
US5056150A (en) 1991-10-08
GB8925873D0 (en) 1990-01-04
GB2225142A (en) 1990-05-23

Similar Documents

Publication Publication Date Title
CN1042790A (zh) 认人与不认人实时语音识别的方法和装置
CN1188831C (zh) 具有多个话音识别引擎的话音识别系统和方法
CN1225736A (zh) 语音活动检测器
CN1123862C (zh) 基于语音识别专用芯片的特定人语音识别、语音回放方法
CN1141696C (zh) 基于语音识别专用芯片的非特定人语音识别、语音提示方法
CN1151218A (zh) 用于语音识别的神经网络的训练方法
WO2016119604A1 (zh) 一种语音信息搜索方法、装置及服务器
CN1160450A (zh) 从连续语音中识别讲话声音的系统及其应用方法
CN1300049A (zh) 汉语普通话话音识别的方法和设备
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN1150852A (zh) 采用神经网络的语音识别系统和方法
CN1588535A (zh) 嵌入式语音识别系统的自动语音识别处理方法
CN112035700B (zh) 一种基于cnn的语音深度哈希学习方法及系统
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
CN1009320B (zh) 语音识别
CN1280784C (zh) 基于多峰提取的语音编码刺激方法
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
CN113129926A (zh) 语音情绪识别模型训练方法、语音情绪识别方法及装置
CN1455389A (zh) 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
Meyer et al. Complementarity of MFCC, PLP and Gabor features in the presence of speech-intrinsic variabilities
CN111199747A (zh) 人工智能通信系统及通信方法
CN116110373B (zh) 智能会议系统的语音数据采集方法及相关装置
CN111048072A (zh) 一种应用于电力企业的声纹识别方法
Li et al. Model Compression for DNN-based Speaker Verification Using Weight Quantization
CN116978384B (zh) 一种公安一体化大数据管理系统

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C13 Decision
GR02 Examined patent application
C14 Grant of patent or utility model
GR01 Patent grant
C15 Extension of patent right duration from 15 to 20 years for appl. with date before 31.12.1992 and still valid on 11.12.2001 (patent law change 1993)
OR01 Other related matters
C17 Cessation of patent right
CX01 Expiry of patent term