CN1315809A - 用于移动通信的拼写语音识别装置和方法 - Google Patents
用于移动通信的拼写语音识别装置和方法 Download PDFInfo
- Publication number
- CN1315809A CN1315809A CN00109843A CN00109843A CN1315809A CN 1315809 A CN1315809 A CN 1315809A CN 00109843 A CN00109843 A CN 00109843A CN 00109843 A CN00109843 A CN 00109843A CN 1315809 A CN1315809 A CN 1315809A
- Authority
- CN
- China
- Prior art keywords
- letter
- sound
- parameters
- pronunciation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000010295 mobile communication Methods 0.000 title description 4
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 244000144992 flock Species 0.000 claims 4
- 238000009434 installation Methods 0.000 claims 4
- 230000000052 comparative effect Effects 0.000 claims 3
- 230000000903 blocking effect Effects 0.000 claims 2
- 238000012790 confirmation Methods 0.000 abstract 1
- 230000008878 coupling Effects 0.000 description 11
- 238000010168 coupling process Methods 0.000 description 11
- 238000005859 coupling reaction Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephone Function (AREA)
Abstract
一种准确的语音识别系统,包括一个麦克风、用于产生语音输入信号的参数表示的前端信号处理器、一个发音数据库、一个用于比较输入信号的参数表示与字母发音的参数表示并产生输入语音与发音数据库中的字母之间的一系列关联的字母相似性比较器、一个词汇数据库,一个用于比较聚合在一起的大量字母与词汇数据库中的字并产生它们之间的一系列的关联的字比较器,和一个用于显示认可的选择的字母和字的显示器。
Description
本发明一般涉及语音识别系统,尤其涉及用于移动通信设备的语音识别系统。
传统上已经通过人工操作的键盘实现了从人类向机器的信息传送,其预先假设了具有至少与人类的两只手的手指所能舒适自如地跨过的宽度一样大的尺寸的机器。随着需求信息输入的但比传统的个人计算机更小的电子设备的发展,信息输入开始采用其它形式,如笔指示(pen pointing)、触摸板(touchpads)和声音命令。能够被笔指示和触摸板传送的信息受到设备(如个人数字助理(PDAs)和移动电话)的显示性能的限制。因此重点研究用于电子设备的语音识别系统。对于机器而言,机器语音识别方法是基于信号的观察到的声学特征和声学特征与话音之间的已知的关系而试图来解码语音信号波形的。这种声学一语音方法是几乎50年来的研究主题,但是还没有在实践上取得大的成功(参考:Fundamentals of SpeehRecognition(语音识别基础),L.Rabiner&B.Hjuang,Prentice-Hall)。存在的大量问题是,例如,在语音识别技术中公知甚至在语音波形图中“通常难以区分微弱的清音(象“f”或“th”)与默声,或者微弱的浊音(象“v”或“m”)与清音或者甚至是默声”,并且依据非常邻近的语音单元的同一性,所谓的声音的共同清晰度(同前所述)有大量的声音的变体存在。在解码后,试图通过应用代表可能与口头输入匹配的一系列组的音素的所谓的音素网格来确定声学一语音方法中的字。网格中的音素的垂直位置是声学与语音单元的匹配品质的量度(“词典的访问”)。但是“对于语音识别的声学一语音方法的真正问题是对于词典的访问阶段难以得到可靠的音素网格”(同前所述);即,由于任何语音中固有的大量的变体几乎不可能准确地标示出发音。
在模式识别方法中,给出的语音模式的版本的知识库被集中起来(“训练”),并且通过输入语音模式与知识库中的语音模式相比来确定最佳的匹配而实现识别。该模式有4个步骤:(1)应用频谱分析的特征抽取,(2)模式训练以产生对于发音类别的参考模式,(3)模式分类来通过测量两个充分限定的频谱矢量之间的频谱“差距”并校准时间以补偿说出两种模式(动态时间偏差DTW)的速率不同来比较未知的测试模式与类别参考模式,及(4)确定逻辑从而使用相似性得分来选择最佳的匹配。尤其对于步骤(2)和(3)模式识别需要大量的计算,并且用于大量声音类别的模式识别通常是禁止的。
因此,由于语音的固有的难以预测的变化(包括同音字、字相似性、口音、音级、重音节、语音模式、背底噪音等),依靠人类话音的信息输入的系统要求相当可观的信号处理能力和查找表数据库,以达到最低限度的准确度。主计算机和高级工作站开始接近声音识别的可接受的水平,但是即便带有在当前的个人计算机(PC)中可利用的存储器和计算能力,对于这些机器而言语音识别目前被相当地限制于给出的特定语音命令组。对于带有比PC小得多的存储器和处理能力的设备,如PDA、移动电话、玩具、娱乐设备,自然语音的准确识别目前为止是不可能的。例如,一般的声音起动蜂窝电话通过读出一个名字然后输入相关的号码而允许预先设计程序。当用户随后读出这个名字时,蜂窝电话中的微处理器将试图匹配读出的名字的声音模式和存储的号码。如已经使用当今的声音起动的蜂窝电话的人所知道的那样,有时匹配不准确(由于不一致的发音、背底噪音和缺少处理能力而引发的固有的限制),并且可能仅存储大约25个号码。在PDA设备中,对于设备制造者而言,需要进行广泛的再次设计以实现更限定的声音识别(例如,当前的PDA不能响应于声音输入来搜索数据库)。
对于声音输入拼写单词,存在易混淆地设置的问题:{A,J,K},{B,C,D,E,G,P,T,V,Z},{Q,U},{I,Y}和{F,S,X}。通常仅基于发音的微小的关键部分而把这些区分出来。由于传统的识别依赖于在整个发音期间的简单积累的失真得分(二进制的“是”或“否”),它没有把重点放在导致差的识别准确度的关键部分。显然,应有一种对该关键部分进行加权的方法,但是这种方法没有得到高的识别准确度并且还承担有大量的计算负担。
总之,准确快速的声音识别必须的存储器和计算还要求增加的耗电量和复杂的操作系统;所有这些都会增加成本。从而,当前的声音识别技术由于其重量、耗电量要求、复杂性和成本而对于移动通信设备并不是切实可行的。
因此需要一种准确的语音识别系统,其能够快速处理更大量的字变化并可在多种不同设备中操作,而没有计算能力和存储器要求,也不需要高的耗电量、复杂的操作系统、高的成本和传统系统的重量,从而声音信息传送对于移动电话、PDA、电子玩具、娱乐产品和任何其它的要求通信的设备所用的人对人和人对机器的通信都是切实可行的。本发明向低处理能力的并带有有限的存储器存储能力的电子设备提供准确的语音识别。准确度主要是通过应用独立的字母数字字符发音来传送字来实现的,从而克服了词典访问的问题。由于独立的字母数字发音产生在时间区上变化非常小的语音波形并且被一个中顿分开(口述的独立字符或字母之间的一般的中顿),本发明解决了区分微弱的清音声音和与共同清晰度相关的同一性的问题。本发明包括一个麦克风、用于产生语音输入信号的参数表示的前端信号处理器、一个发音数据库、一个用于比较输入信号的参数表示与字母发音的参数表示并产生输入语音与发音数据库中的字母之间的一系列关联的字母相似性比较器、一个词汇数据库,一个用于比较聚合在一起的大量字母与词汇数据库中的字并产生它们之间的一系列的关联的字比较器,和一个用于显示认可的选择的字母和字的显示器。
图1是用于根据本发明生成个人化的数据库的系统框图;
图2是根据本发明的语音识别系统的框图;
图3是根据本发明的LPC前端处理器的框图;
图4是根据本发明的字母语音识别系统的框图;
图5是根据本发明的由麦克风产生的字母波形示例;
图6是根据本发明的用于计算总的失真倒频谱的动态时间偏差初始化流程过程;
图7是根据本发明的用于计算总的失真倒频谱的动态时间偏差迭代过程流程;
图8是根据本发明的用于计算总的失真倒频谱的相关值的动态时间偏差流程;
图9是具有把本发明的一个实施例内置其中的蜂窝电话的系统结构框图;
图10图示与已有技术系统ART和Sensory相比的本发明的一个实施例的字识别性能结果。
图1是本发明的个人化的数据库100的框图。麦克风101接收音频声音串(例如,字母表的字母或各个汉字字符)并把声音串转换为电子波形信号。前端信号处理器102处理波形来产生适合于识别和比较的波形的参数表示。在优选的实施例中,声音串被线性预测编码(LPC)处理,产生对于各个字母的参数表示(把冗余信息从波形数据中抽取出来以更清晰地描述各个音频信号的所谓的“特征抽取”)。结果,对于英文字母表中的字母是26×26矩阵,其中列中容纳各个字符和字母的参数表示,行容纳输入的语音字符或字母。在本发明中,矩阵是由存储在发音数据库103中各个用户对字母的发音构成的“校准模板”。由于声音输入由校准模板来校准,在字比较中可避免一般的语音识别不准确(附有一个样本校准表来作为参考)。
图2是本发明的优选实施例的框图。麦克风101接收被传送到前端信号处理器102以形成参数化的声音串波形组的一系列的输入的发音,接着将应用字母比较器201使声音串波形组与发音数据库103相比来选择对各个发音(例如字母)的最佳匹配。作为一个示例,假设名字“Michael”没有被正确地发音而成为“n-y-d-h-a-b-l”(由于可混淆的字母发音而引起的一些错误)。在一个实施例中,字母比较器201接受声音串并通过相对于发音数据库103中的所有字母测试示例中的6个字母来确定声音串发音与发音数据库103中的校准模板之间的“差距”。在另一个实施例中,类似发音的字母(或一些声音)基于相似性来分组,从而比较更有效。字相似性比较器202比较校准的字母系列与预先记录的词汇数据库203中的所有项。在该示例中,即使字的字母没能被正确地识别出,由于这里仅有有限数目的敏感(sensical)字,如“Michael”,准确的字匹配的机会被相当程度地提高。在本发明的优选实施例中,词汇数据库203是来自本发明的受让人VerbalTek,Inc.的可利用的字典数据库。本发明的另一个实施例有利地利用从摩拖罗拉(Motorola)进入词汇数据库201的字典数据库。本发明还有一个实施例利用用户的地址簿项。本发明期望由用户对词汇数据库203所要求的任何项所构成的字典。例如,用于希望的专用领域(金融、商业、服务业、工艺、学院或诸如法律、医药、会计等的所有专业)的专用字可被有利地引入词汇数据库203。而且,熟悉本领域的人员可理解本发明期望能有利地用于诸如中文的单音节字。通过把在词汇数据库203中预先记录的波形与输入的波形相比,可产生一系列的音素组,这些音素可能与口语输入相匹配,并且产生音素网格。通过基于各个输入的组合体与词汇数据库203中的字之间的接近性对各个输入的波形指定“得分”来构造网格。“接近性”指数是基于输入波形与存储的词汇波形之间的计算的失真的,从而产生“失真得分”。由于得分是基于字母或字符与个人化的发音数据库之间的相对准确度的(与传统的语音识别声学-语音方法相比)匹配的,音素网格产生95%或更高的字匹配准确度。然后在显示器204上显示字的最佳匹配。
在本发明的优选实施例中,把语音波形(其示例在图5中表示)转换为参数表示的前端信号处理器利用线性预测编码(LPC)。LPC尤其适合于本发明,因为(1)LPC对于语音频谱包络线的浊音区比对清音区更有效,并且本发明有利地利用了强调字母的有区别的发音并具有自然的中顿的拼写发音(从而清音区是较为不重要的),和(2)LPC提供计算起来有效的表示,其考虑了声道特性(从而允许个人化的发音用小的处理和存储量来实现)。本发明中LPC的特殊功用在例如LPC自相关方法中图示出来,其中假设语音分段在给出的间隔之外全部是0(等于用有限的长度的窗口乘以语音信号)。在LPC传送函数中,H(z)=S(z)/GU(z),其中源的增益G从语音信号估测出来,并且定标的源被用作对数字滤波器H(z)的输入,该滤波器被正被产生的语音的声道参数特性控制。
图3是根据本发明的优选实施例的LPC前端处理器102的框图。优选是固定的低级数字系统(通常是一级FIR滤波器)的预加重器301在频谱上把信号s(n)展平,并且由下面来描述:
P(z)=1-az-1 (等式1)
这里0.9≤a≤1.0。在本发明的另一实施例中,预加重器301是具有下面的传送函数的一级自适应系统:
P(z)=1-anz-1 (等式2)
这里an根据预定的自适应标准随时间(n)而改变,例如an=rn(1)/rn(0),其中rn(i)是自相关序列的第i个采样。帧分块器302用被M个采样分隔开的相邻的帧来对N个采样的帧中的语音信号帧分块。在本发明的此实施例中,当语音的采样速率是8kHz时N=M=160,相当于它们之间没有分开的20毫秒的帧。每帧有一个特征,从而对于一个第二种发音(50帧长),12个参数代表帧数据,并且产生50×12矩阵(模板特征组)。开窗器303对每一独立的帧开一个窗口以在各帧的开始和末尾处最小化信号的不连续。在本发明的优选的实施例中,其中M=N,矩形窗口被用于避免在窗口边界处数据的丢失。自相关器304执行下面给出的自相关:
这里m=0,1,…,p,并且p是LPC分析的级。本发明的优选实施例使用p=10但是在本发明的其它实施例中可有利地使用从8到16的p值,并且提高准确度的其它的值也在本发明的期望的范围内。零自相关是给出的帧的帧能量。倒频系数产生器305应用已有技术中已知的Durbin方法把各帧转换为倒频系数(对数幅度频谱的反傅立叶变换,参考下面)。锥形的倒频开窗器306加权倒频系数以最小化噪音的效果。选择锥形的开窗器306来降低低级倒频系数对整个频谱倾斜的敏感度以及高级倒频系数对噪音的敏感度(或其它不希望的易变性)。时间差分器307优选使用近似地正交多项式拟合(在本实施例中,对有限长度的窗口的导数的最小平方估测)产生倒频系数的一次导数,从而产生处理的信号S’(n)。在另一实施例中,可通过时间差分器307应用在已有技术中已知的近似方法来产生二次导数,以提供进一步的语音信号信息,从而改善语音信号的频谱性能的表示。还有一个实施例跳过时间差分器来产生信号S”(n)。应理解使用LPC和上述技术的前端信号处理器102的上述描述是为了揭示最佳实施例,前端信号处理的其它的技术和方法可被有利地使用在本发明中。若发音串是拼出的字母或字串,用于匹配发音串的比较技术和方法基本上是类似的,所以下面描述了一种用在比较器201和202的优选实施例中的技术。
在本发明的优选实施例中,参数表示是倒频系数,输入的语音与预先记录的数据库中的发音通过比较倒频差距进行对比。输入的字母或字符(或用于比较器202的在字组合中的字母或字符)产生若干根据相似性分等级的候选字母(字)匹配。在把预先记录的波形与输入的波形比较时,产生可能与口头输入相匹配的一系列的音素组,其在矩阵中排序时产生音素的网格。该网格通过基于各个输入的组合与词汇数据库中的字的接近性来对各个输入的波形指定“得分”值而排序。“接近性”指数是基于输入波形与存储的词汇波形之间的倒频差距的,从而产生“失真得分”。由于得分是基于字母(而非整个字)的相对准确(与传统的语音识别声学-语音方法相比)匹配的,音素网格产生95%或更准确的字匹配。
图4表示输入到字母校准器401的波形参数表示,其中与发音数据库103相联系,产生校准矩阵(后附示例)。失真校准器402在下面描述的优选实施例中的倒频差距的基础上计算输入的语音与发音数据库103中的所有项之间的失真。然后得分计算器403基于预定的标准(如倒频差距)分配得分并且选择器404选择候选字母(字)。在对数幅度与频率刻度关系上的两个语音频谱之间的不同是:
V(ω)=logS(ω)-logS’(ω) (等式4)
在优选实施例中,为表示两个语音特征矢量的不相似性,优选的实施例使用幅度的对数(对于频率)的平均绝对值,即利用该组平均值,使用频谱失真(或差距)的对数的均方根(rms)测量:
其中当p=1时,是频谱失真的对数的平均绝对值,当p=2时,是频谱失真对数的rms值。在优选实施例中,差距或失真测量以信号的复数倒频谱表示,其被定义为信号频谱的对数的傅立叶变换。对于相对于ω=0对称的并且对于采样的数据序列是周期性的能谱,logS(ω)的傅立叶级数表示为:
这里cn=c-n是倒频系数。
其中cn和cn’分别是S(ω)和 S’(ω)的倒频系数。通过有限的加和,例如在优选的实施例中是10-30项的加和,本发明利用截取的倒频差距。这有效地(意思是相对小的计算负担)估算了频谱差距的对数的rms值。由于语音信号的可感觉到的响度大约是对数形式,对数频谱差距的选择很适合于鉴别主体的声音的不同。而且,低的倒频系数的易变性主要是由于语音和传送失真的反复无常的变化引起的,从而倒频谱(倒频差距组)被有利地选择来用于失真测量。相同发音的不同的声学再现通常是以不同时间速率说出的,从而说出速率变化和持续时间变化不应促进语言的不相似性得分。动态时间偏差(DTV)408执行频谱的动态行为分析以更准确的确定输入的发音与匹配的数据库值之间的不相似性。DTW408通过经把两个要进行比较的模式的声学特征作栅格映射找到“最佳”路径而对说出速率波动进行时间校准和规范化。在优选实施例中,DTW408通过动态设计最小化不相似性而找到最佳路径。两个时间偏差函数φx,φy分别把语音模式的两个时间波动指数ix,iy与公共时间轴k关联起来,从而
ix=φx(k) k=1,2,…T
iy=φy(k) k=1,2,…T (等式9)
基于偏差函数对将全球模式不相似性定义为经整个发音的累加的失真:
这里d(φx(k),φy(k))是对于xφx(k)yφy(k)定义的短时频谱失真,m(k)是非负的加权函数,Mφ是规范化因子,T是正常时序表上两种语音模式的“正常”持续时间。路径φ=(φx,φy)被选择来用同一性测量整个路径的不相似性。在本发明的优选的实施例中,不相似性d(X,Y)被定义为在整个路径上的dφ(X,Y)的最小值,即:
在X和Y是同一字的发音时上述定义是准确的,因为沿校准路径最小化累加的失真意味着不相似性是基于最好的可能的校准来补偿说出速率不同而被测量的。已有技术中公知动态设计可通过找到最佳路径来解决如在紧靠上面描述的时序确定问题,意思是这样使从一个点向另一个点移动的“成本”最低。在本发明的一个实施例中,由于包括在移动中的步骤数目被“if-then”语句确定,时序确定是非同步的。该确定利用了递归关系,该递归关系允许最佳路径搜索被递增地实施并被下面所述的本发明的优选实施例中的算法所执行。用于确定最佳路径中的下一个点和目的地点的确定规则(“策略”)完全限定了寻求被最小化的成本。引起成本ζ(j,i)的从开始点1向中间点j移动的最佳策略由下式给出:
因此得到从点i到点j的最佳顺序的移动和相关的最小成本,
在另一实施例中,顺序确定是同步的(对于固定移动数目M确定过程的规律性),相关的最小成本φm(i,l)为
其是用在本发明的一个实施例中的递归关系。
在两个实施例中,方法有步骤(1)初始化,(2)递归,(3)结束和(4)后跟踪,并且分别如下:
初始化:φ1(i,n)=ζ(i,n)
ζ1(n)=i,n=1,2,…N递归:
n=1,2,…N,m=1,2,…M-2结束:
路径后跟踪:最佳路径=(i,i1,i2,…,1M-1,j),
这里im=ζm+1(im+1) m=M-1,M-2,…,1
iM=j,
上述算法计算起来有效,从而适合于本发明期望的手持装置。
图6,7和8构成用于计算要被比较的模板之间的总的失真的DTW408的优选实施例的流程图。“差距”d(i,j)(上面等式11)是模板X的第i个特征与模板Y的第j个特征之间的失真。图6描述初始化过程601,其中前面的差距在602处是d(0,0)。指数j在603处被增加并且现在前面的差距是在j处的差距pre dist[j],其等于prev dist[j-1]+d(0,j)。在605,如果j小于模板Y中的特征数目(j<numY),那么在606处j被增加并被反馈给604,用于prev dist[j]的新的计算。如果j不大于numY,那么初始化完成,对于总的差距的迭代步骤611如图7所示开始进行。在612,i被设置为1并且当前的差距(curr dist[0])被计算为prev dist[0]+d(i,0)。在614,j被设置为1并且导致相关差距d1,d2或d3的可能的路径被计算为:
curr dist[j-1]+d(i,j)=d1
prev dist[j]+d(i,j)=d2
prev dist[j-1]+d(i,j)=d3
相关的差距的相关值然后在图8的621和622被测试。如果d3不大于d1且不大于d2,那么d3是最小值并且curr dist[j]在623处是d3。在对第j个特征测试为小于Y模板中的特征数目后,在617处j被增加并被反馈给可能路径的差距计算,再发生最小化处理。如果d2大于d1并且d3大于d1,那么d1是最小值并且被设置为currdist[j]。然后相对于Y模板中的特征数目再次在626处测试j,在617处j被增加并被反馈来用于递归。如果d3大于d2并且d1大于d2,那么d2是最小值并且被设置为curr dist[j],并重复同样的处理使j被增加并被反馈。以这种方式,找到最小差距。如果在626处j大于或等于模板Y中的特征数目,那么测试i来看它是否等于模板X中的特征数目减1。如果i不等于模板X中的特征数目减1,在618先前的差距被设置为用于j指数(直到numY-1)的当前差距,在616处i被增加并被反馈给613,用于把当前差距设置为先前差距加新的第i个差距,对每个i重复这种处理直到次数j等于模板X中的特征数目减1。如果i等于模板X中的特征数目减1,总的失真在628计算为:
从而完成找到总的失真的算法。
为实现最佳的准确定,限制时间偏差函数。已有技术中公知甚至小的语音端点错误将导致语音检测准确度上的明显变差。在被控制的环境中清晰发出的语音中,可达到高的检测准确度,但是对于一般的应用(如在蜂窝电话中),说话者声音的反复无常的变化(包括唇部翕动、呼吸、清嗓子等等)和背底噪音使得难以产生准确的端点检测。如果发音有完好限定的端点(标记模式的开始和结束的帧),相似性比较将更准确。应用于输入发音的拼写中的本发明作为字母的通常更准确的发音(与字相比)和在拼写字时字母之间的通常的中顿而实现了准确度。从而暂时的变化一般被限定于端点区。从而对于时间偏差函数的限制把开始和结束点处的值设置为第一个和最后一个时间函数指数ix=1和iy=T。这些端点限制通过等式(11)根据项Tx和Ty结合到本发明中:
这里X和Y分别结束于Tx和Ty。本发明的优选实施例提供一种最适合于本发明的拼写输入发音识别系统的动态时间偏差方式。DTW408利用等式15来沿连接(1,1)和(ix,iy)的路径产生最小的部分积累的失真:
这里φx(T’)=ix,φy(T’)=iy,用限制条件动态设计递归变成:
这里ζ是点(ix’,iy’)与(ix,iy)之间的加权的积累的失真(局部差距),
Ls是根据φx到φy的从(ix’,iy’)与(ix,iy)的路径中的移动数目。递增的失真ζ仅沿由各种限制条件限定的路径被评估,从而最小化过程可有效地在限制条件内解决。但是,不相似的直接推断的特性也可有利地包括在该方法中。例如,在本发明中,把一帧切分成多个分段来区分易混淆的字母发音,如字母“a”和“f”。可以理解许多不同的限制条件和限制条件的组合在本发明的范围内。在不同字母的发音中,例如,用于最准确的比较的时间校准不是定义清晰的语言概念,从而在本发明中应用直觉的限制条件。
在操作中,用户可使用与说话者无关的输入设定模式,从而使用用于语音识别的预先分组的字母数据库。在本发明的一个实施例中,菜单选择允许用户选择男声和女生声音识别以及语言选择。发音数据库103包括用于男声或女生声音或不同语言的预先记录的模板。如果用户把他/她自己的声音记录在他/她选择的语音中,这将被记录在发音数据库103中,从而男/女/语言模板是不必要的。
为生成(“训练”)个人化的数据库100,用户通过向系统以在各个声音之间带有0.2秒的间隔的自然的声音口述从"a"到"z"以及从“0”到“9”的记录字母和数值声音,从而产生“声音串”。在本发明的一个实施例中,如果字母继续向前进,上述的端点检测方案将检测不能区分的发音,用户经显示器被指令来停止复述并且从开始重复口述。应用对各个字母产生波形的前端信号处理器102来转换声音串的各个字母(如图5所示)。然后波形被分段、分配存储器中的地址,接着被存储在存储器中,从而各个发音被映射到发音数据库104(把这一处理称为“贴标签”)。与字母发音比较器201联系的发音数据库103对于英文字母表中的字母形成26×26矩阵,其中列装有对发音数据库104中的各个字母的存储的波形,行装有用于识别分析的输入的语音字母(附加有样本矩阵)。字母发音比较器201比较输入的发音与列(发音数据库103)中的所有字母以找到最好的匹配。例如,输入的字“seat”由用户拼写为“s-e-a-t”。前端信号处理器102执行特征抽取,例如其对每一秒的语音可产生50列的倒频系数(或矢量)。字母发音比较器201利用动态时间偏差(DTW)比较各个字母的倒频差距与发音数据库103中的从a到z的项。如果输入的语音持续2秒(100帧)并且语音文件的各个部分是25帧,字母发音比较器201比较倒频矢量的25列与发音数据库103中的字母表的26个字母。假设发音数据库103中的各个字母是25帧长,DTW比较是25×25。由于发音的难以预测的变化、背底噪音和其他因素,字母可被识别为“x-e-k-d”(这些字母的每一个的发音类似于需要的字母,因此被错误地“识别”)。在本发明的优选实施例中,在与数据库中的字母作比较之前,相似的发音的字母被分组在一起,从而搜索更有效。例如,在本发明的优选实施例中的分组重点放在音节的元音声音上并且被找到来明显降低相似性计算,从而对手持装置产生理想化的分组。分组的另一个示例把“a”、“j”和“k”分为同一组,“x”、“s”和“f”分为另一组,“b”、“c”、“d”、“e”和“g”分为又一组。作为失真得分技术的图示,在“s-e-a-t”示例中,第一字母“s”初始被识别为“x”,从而这里有一个基于倒频差距被指定的非零失真得分(例如2.0);下一个字母“e”被正确地识别,从而得分为0;下一个字母“a”被识别为“k”,其被指定得分1.5;最后一个字母“t”被被识别为“d”,其被指定得分1.0。对于这个字的总的失真得分是4.5。然后失真得分组合起来与词汇数据库203中的字相比。但是选择的候选字母组合起来更清晰(并且“xekd”不作为一个字存在)。字相似性比较器202应用该系列字母“x-e-k-d”计算失真得分以基于字母之间的差距用字如下所示产生失真得分:输入字 候选字 字母得分 失真得分 相似性%xekd seat S1+S2+S3+S4=S 1200 89%
feat Ti+T2+T3+T4=T 2380 75%
heat U1+U2+U3+U4=U 4530 68%
beat Vi+V2+V3+V4=V 8820 42%
字相似性比较器202利用动态时间偏差(DTW)对各次比较的失真得分进行排序以确定最低的失真得分。在本例中DTW计算仅要求4×4矩阵(反映字的长度),从而实现高的计算效率。与词汇数据库203中的字的最接近的匹配(或最大相似性)是“seat”。显示器204显示由用户确认的选择的字(或各个字母)。可有利地使用任何字母数字显示装置,例如液晶显示器(LCD)。对于在移动电话或PDA中的应用,那么字母的组合构成字,然后字可与电话号码匹配或与用于传送的其他传送指数匹配。
尽管描述的许多示例是基于英语字母表的,应理解它们只是例示,本发明的范围还包括其它语言,唯一的限制是这种语言是基于可区分的发音的。实际上,由于任何语言的语音识别因其基本上依赖于词汇数据库的内容而可通过本发明实现,本发明的一个实施例提供多种语言性能,该发明可对于任何语言来改变。与说出的声音和词汇数据库的相似性比较可通过上述的本发明完成,经用户口述的声音来构造发音数据库104而实现了准确度。
由于它的小的形成因素,本发明的一个实施例允许它集中到用户的电子设备的现有的操作系统中(例如用于PDA的微软WindowCE和用于蜂窝电话的ARM7TDMI),从而不需要大范围的再设计和再改编。本发明的语音识别系统的一个实施例还可以被装载到诸如蜂窝电话或PDA的装置的闪存中,从而允许把本发明与现有电子设备进行的简单快速低廉组合,避免主机装置的DSP的再设计和再改编。而且语音识别程序可被终端用户经耦合于闪存的数据端口装载到存储器中。这也可通过从因特网下载完成。图9表示带有内置其中的本发明的实施例的蜂窝电话的系统结构。闪存901被耦合于还耦合于DSP处理器903的微处理器902,其联系闪存901和微处理器902执行上述语音识别。只读存储器(ROM)装置904和随机访问存储器(RAM)装置905通过提供对于发音数据库104和词汇数据库203的存储器存储而服务于DSP处理器903。经麦克风907的语音输入被编码器/解码器(CODEC)906编码。在DSP处理器903进行语音识别后,语音信号被CODEC906解码并被传送到扬声器908用于音频确认。另一种情况是,扬声器908可以是可视的显示器。本发明的应用协议接口(API)的一个实施例应用ARM77TDMI作为基础遵守下面的说明:
存储器应用要求10KB的编码容量,4KB的缓冲存储器容量,存储量(每一模板)是0.5KB。计算的要求是1.9MIPS的语音特征抽取和每模板0.5MPIS的语音识别。
在通常应用中,本发明允许声音识别在1-2秒中实现,从而提供与用户的平滑接口。准确度测试结果一致地为95%水平。本发明的一个实施例的名字(字)识别性能结果在图10中表示,其中本发明的错误率(VerbalLab)与已有技术系统ART和Sensory进行对比。测试使用24个名字,其中8个(Mickey Mouse,Minnie Mouse,MinnieDriver,Bill Dates,Bill Clinton,Julius Smith,Juliaroberts,Bruce Willis)被确认为是含糊的,并且有8个说话者(3女和5男)。对于此次测试中的所有的说话者,本发明有明显的低的错误率,错误率的所有结果小于测试的其它系统的一半。
尤其这里应注意本发明对于输入汉语和韩国语的单音节字符为基础的字母(或字)是理想的。例如,对于“行动电话”一词,被作为字符串“xing-dong-dian-hua”直译出来。各个字是单音节的并且具有它自己的意思(或几个意思),但是组合起来包含“行动电话”这个唯一的术语。本发明提供各个单音节字母的高准确度的识别(部分由于直接推断校准),其在组合一起形成一个字词时由于有限数目的可检测的选择而产生更准确的识别。
尽管上面是特定实施例的完全的描述,可使用各种变形、可替换的结构和等同替代体。例如,本发明适合于被分开为发音的任何口语语言、把字母表的字母组合起来发音的字母语言(象英语和俄语)以及发音与字符相关的符号语言(如汉语、韩国语和日语)。而且,为了增强识别准确度,DTW方案中的限制可从若干可能性中选择以有利地产生准确的语音识别。因此,上面的描述和图示不应被看作对本发明的范围的限制,而发明范围在后附的权利要求中限定。附录A B C D E F G H I J K L M N O P Q R S T U VW X Y ZA 0 9989 13019 11428 8895 18763 10215 18361 22718 11748 1106322566 14527 13869 21416 9262 14840 31413 15891 10174 15981 1183821111 21554 23550 10946B 9989 0 13270 10153 9511 19871 13736 20123 22667 12427 1285319767 15357 16200 12735 11409 17000 30505 17877 11777 17847 1039915808 215B0 19871 12366C 13019 13270 0 11493 11457 19226 12552 20542 19746 13224 1113523983 16825 16682 19142 12161 14770 29723 18555 14042 17303 1288918044 24203 21694 11076D 11428 10153 11493 0 8829 21324 11642 21313 20117 13399 1454319112 19365 15726 14710 9664 18588 27151 21854 11635 17984 1042214252 26220 18799 11315E 8895 9511 11457 8829 0 23568 9754 20318 24268 12386 14020
23575 13377 16143 16439 8265 15256 31619 21381 10184 14469 8516
20017 24954 23971 11226F 18763 19871 19226 21324 23568 0 25484 12970 21261 22721 19561
20825 19579 15912 25723 23465 19766 31292 12087 25699 22991 24199
21989 16128 23880 17611G 10215 13736 12552 11642 9754 25484 0 24801 18656 13910 14100
26390 16608 19166 25544 8752 15675 37461 22516 9018 16138 12067
22944 27523 26494 12649H 18361 20123 20542 21313 20318 12970 24801 0 24867 20710 1906619689 17917 15001 25511 22475 19999 31218 10797 23588 21866 2211524336 13595 29392 17914I 22718 22667 19746 20117 24268 21261 18656 24867 0 17390 1517225467 25582 21704 28957 19985 23783 29084 24449 20934 28013 2396418305 26803 19595 20793J 11748 12427 13224 13399 12386 22721 13910 20710 17390 0 962622844 17265 14187 20881 12661 14695 32611 19808 12372 16157 1184116402 22515 19253 11149K 11063 12853 11135 14543 14020 19561 14100 19066 15172 9626 021758 16619 15087 24899 12425 13564 34418 16324 12821 17299 1448218262 19533 20054 11495L 22566 19767 23983 19112 23575 20825 26390 19689 25467 22844 21758 0 20440 17995 13336 25424 16380 15023 20272 26809 18035 2333918788 20851 19688 21650M 14527 15357 16825 19365 13377 19579 16608 17917 25582 17265 1661920440 0 16412 24146 13546 12979 26197 18657 16758 14215 1877421361 18225 27283 16111N 13869 16200 16682 15726 16143 15912 19166 15001 21704 14187 1508717995 16412 0 16728 17571 16651 25749 16594 18009 18347 1202714177 20119 20366 126200 21416 12735 19142 14710 16439 25723 25544 25511 28957 20881 2489913336 24146 16728 0 24224 18970 19667 28264 27208 16733 1670017824 26457 21226 18996p 9262 11409 12161 9664 8265 23465 8752 22475 19985 12661 12425
25424 13546 17571 24224 0 14472 36266 20136 8305 15567 12228
20179 23436 24095 10794Q 14840 17000 14770 18588 15256 19766 15675 19999 23783 14695 1356416380 12979 16651 18970 14472 0 26415 18795 16154 10805 1723620629 22092 22241 14427R 31413 30505 29723 27151 31619 31292 37461 31218 29084 32611 3441815023 26197 25749 19667 36266 26415 0 29073 39499 25294 2922618600 27235 19418 29062S 15891 17877 18555 21854 21381 12087 22516 10797 24449 19808 1632420272 18657 16594 28264 20136 18795 29073 0 22252 21506 2283123923 13067 27078 18229T 10174 11777 14042 11635 10184 25699 9018 23588 20934 12372 1282126809 16758 18009 27208 8305 16154 39499 22252 0 16518 1217621276 24791 25579 11219U 15981 17847 17303 17984 14469 22991 16138 21866 28013 16157 1729918035 14215 18347 16733 15567 10805 25294 21506 16518 0 1637022358 22824 24965 15707V 11838 10399 12889 10422 8516 24199 12067 22115 23964 11841 1448223339 18774 12027 16700 12228 17236 29226 22831 12176 16370 017059 26296 20619 9577W 21111 15808 18044 14252 20017 21989 22944 24336 18305 16402 1826218788 21361 14177 17824 20179 20629 18600 23923 21276 22358 170590 25153 18229 15533X 21554 21580 24203 26220 24954 16128 27523 13595 26803 22515 1953320851 18225 20119 26457 23436 22092 27235 13067 24791 22824 2629625153 0 29024 22371Y 23550 19871 21694 18799 23971 23880 26494 29392 19595 19253 2005419688 27283 20366 21226 24095 22241 19418 27078 25579 24965 2061918229 29024 0 19412Z 10946 12366 11076 11315 11226 17611 12649 17914 20793 11149 1149521650 16111 12620 18996 10794 14427 29062 18229 11219 15707 957715533 22371 19412 0
Claims (32)
1.一种语音识别系统,包括:
用于接收声波并把声波转换成电信号的麦克风装置;
耦合于所述麦克风装置的用于处理电信号来产生电信号的参考表示的前端信号处理装置;
用于存储字母发音的大量参数表示的发音数据库存储装置;
耦合于所述前端信号处理装置及所述发音数据库存储装置的用于比较电信号的参数表示与字母发音的所述大量参数表示的并响应于预定的准则产生电信号的参数表示与字母发音的所述大量参数表示之间的第一序列关联的字母相似性比较器装置;
用于存储字发音的大量参数表示的词汇数据库存储装置;
耦合于所述字母相似性比较器及所述词汇数据库存储装置的用于比较聚集一起的大量的字母发音的参数表示与字发音的所述大量参数表示的并响应于预定的准则产生所述聚集在一起的字母发音的大量参数表示中的至少一个与字发音的所述大量参数表示中的至少一个之间的第二序列关联的字相似性比较器装置;及
耦合于所述字相似性比较器装置的用于显示所述第一和第二序列的关联的显示装置。
2.根据权利要求1的语音识别系统,其特征在于所述前端信号处理装置包括:
用于把所述麦克风装置产生的电信号在频谱上展平的预加重器装置;
耦合于所述预加重器装置的用于把电信号分成带有由M个采样分开的相邻的帧的N个采样的帧的帧分块装置;
耦合于所述帧分块装置的用于对各个帧开窗口的开窗装置,
耦合于所述开窗装置的用于使帧自相关的自相关装置;
耦合于所述自相关装置的用于把各帧转换成倒频系数的倒频系数产生装置;及
耦合于所述倒频系数产生装置的用于加权倒频系数的锥形开窗装置,从而产生声音波的参数表示。
3.根据权利要求2的语音识别系统,其特征在于所述前端信号处理装置还包括耦合于所述锥形开窗装置的用于产生倒频系数的一次导数的时间差分装置。
4.根据权利要求2的语音识别系统,其特征在于所述前端信号处理装置还包括耦合于所述锥形开窗装置的用于产生倒频系数的二次导数的时间差分装置。
5.根据权利要求1的语音识别系统,其特征在于所述字母相似性比较器装置包括:
耦合于所述发音数据库存储装置的用存储在所述发音数据库存储装置中的字母发音的所述大量参数表示对电信号的参数表示进行校准的字母校准装置;
用于在电信号的参数表示和存储在所述发音数据库存储装置中的字母发音的所述大量参数表示上执行动态时间偏差的动态时间偏差器装置;
耦合于所述字母校准装置和所述动态时间偏差器装置的用于计算电信号的参数表示与存储在所述发音数据库存储装置中的字母发音的所述大量参数表示之间的失真的失真计算装置;
耦合于所述失真计算装置的用于响应于预定的准则对所述失真指定一个得分的得分装置;及
耦合于所述得分装置的用于选择存储在所述发音数据库存储装置中的字母发音的所述大量参数表示中的具有最低的失真的至少一个的选择装置。
6.根据权利要求5的语音识别系统,其特征在于所述动态时间偏差器装置包括用于确定电信号的参数表示与存储在所述发音数据库存储装置中的字母发音的所述大量参数表示之间的最小倒频差距的最小化装置。
7.根据权利要求1的语音识别系统,其特征在于存储在所述发音数据库存储装置中的字母发音的所述大量参数表示包括汉语的各个字符的发音并且存储在所述词汇数据库存储装置中的字发音的所述大量参数表示包括汉语的聚集一起的字串的发音。
8.根据权利要求1的语音识别系统,其特征在于存储在所述发音数据库存储装置中的字母发音的所述大量参数表示包括韩国语的各个字符的发音并且存储在所述词汇数据库存储装置中的字发音的所述大量参数表示包括韩国语的聚集一起的字串的发音。
9.根据权利要求1的语音识别系统,其特征在于存储在所述发音数据库存储装置中的字母发音的所述大量参数表示包括日语的各个字符的发音并且存储在所述词汇数据库存储装置中的字发音的所述大量参数表示包括日语的聚集一起的字串的发音。
10.根据权利要求1的语音识别系统,其特征在于存储在所述发音数据库存储装置中的字母发音的所述大量参数表示包括法语的各个字符的发音并且存储在所述词汇数据库存储装置中的字发音的所述大量参数表示包括法语的聚集一起的字串的发音。
11.一种字母相似性比较器,包括:
用于接收电信号参数表示的装置;
用于存储大量的字母发音参数表示的发音数据库存储装置;
耦合于所述接收装置和所述发音数据库存储装置的用存储在所述发音数据库存储装置中的所述大量的字母发音参数表示对电信号参数表示进行校准的字母校准装置;
用于在电信号参数表示和存储在所述发音数据库存储装置中的所述大量的字母发音参数表示上执行动态时间偏差的动态时间偏差器装置;
耦合于所述字母校准装置和所述动态时间偏差器装置的用于计算电信号参数表示与存储在所述发音数据库存储装置中的所述大量的字母发音参数表示之间的失真的失真计算装置;
耦合于所述失真计算装置的用于响应于预定的准则对所述失真指定一个得分的得分装置;及
耦合于所述得分装置的用于选择所述大量的字母发音参数表示中的具有最低的失真的至少一个的选择装置。
12.一种电通信装置,包括:
用于接收声信号并从那里产生电信号的麦克风;
耦合于所述麦克风的用于编码和解码电信号的编码解码器;
耦合于所述编码解码器的用于处理电信号从而产生电信号的参数表示的信号处理器;
耦合于所述信号处理器的用于存储数据并使其中的第一扇区存储大量字母发音参数表示且使其中的第二扇区存储大量字发音参数表示的数据库存储单元;
耦合于所述信号处理器及所述数据库存储单元的用于比较电信号的参数表示与所述数据库存储单元的所述第一扇区中的所述大量字母发音参数表示的第一比较器;
耦合于所述第一比较器的用于响应于预定的准则选择至少一个所述的大量字母发音参数表示的第一选择器;
耦合于所述信号处理器及所述数据库存储单元的用于比较聚集在一起的字母发音参数表示与在所述数据库存储单元的所述第二扇区中的所述大量字发音参数表示的第二比较器;
耦合于所述第二比较器的用于响应于预定的准则选择至少一个所述的大量字发音参数表示的第二选择器;及
耦合于所述第一和第二选择器的用于显示所述大量选择的字母发音参数表示的至少一个的及用于显示所述大量字发音参数表示的至少一个的显示器。
13.根据权利要求12的电通信装置,其特征在于存储在所述数据库存储单元的所述第一扇区中的所述大量字母发音参数表示响应于参数表示的相似性被分组。
14.根据权利要求12的电通信装置,其特征在于所述第一比较器响应于所述数据库存储单元的所述第一扇区中的所述大量字母发音参数表示校准电信号的参数表示。
15.根据权利要求12的电通信装置,其特征在于所述数字信号处理器计算倒频系数以产生电信号的参数表示、大量字母发音参数表示和所述大量字发音参数表示。
16.根据权利要求12的电通信装置,其特征在于所述第一比较器利用动态时间偏差来产生电信号的参数表示与所述大量字母发音参数表示之间的比较。
17.根据权利要求16的电通信装置,其特征在于所述第一比较器利用倒频差距来比较电信号的参数表示与所述大量字母发音参数表示之间的比较。
18.根据权利要求12的电通信装置,其特征在于所述第二比较器利用动态时间偏差来产生所述聚集在一起的大量字母发音参数表示与所述大量字发音参数表示之间的比较。
19.根据权利要求16的电通信装置,其特征在于所述第二比较器利用字母发音序列来比较所述聚集在一起的大量字母发音的参数表示与存储在所述数据库存储单元中的所述大量字发音参数表示。
20.根据权利要求18的电通信装置,其特征在于所述第二比较器利用倒频差距来比较所述聚集在一起的大量字母发音的参数表示与存储在所述数据库存储单元中的所述大量字发音参数表示之间。
21.一种识别语音发音信号的方法,包括步骤:
(a)参数化大量字母发音;
(b)存储所述大量参数化的字母发音;
(c)参数化大量字发音;
(d)存储所述大量参数化的字发音;
(e)接收声波;
(f)把声波转换成电信号;
(g)参数化电信号;
(h)比较所述参数化电信号与所述存储的大量参数化字母发音;
(i)响应于预定的参数相似性准则选择至少一个所述的存储的大量参数化字母发音;
(j)显示所述选择的至少一个所述的存储的大量参数化字母发音;
(k)把所述选择的至少一个所述的存储的大量参数化字母发音聚集来形成参数化的字;
(l)比较所述参数化的字与所述存储的大量参数化字发音;
(m)响应于预定的参数相似性准则选择至少一个所述的存储的大量参数化字发音;及
(n)显示所述选择的至少一个所述的存储的大量参数化字发音。
22.根据权利要求21的方法,其特征在于步骤(b)还包括响应于预定的参数化的字母发音相似性准则把所述大量参数化字母发音分组。
23.根据权利要求21的方法,其特征在于步骤(h)还包括响应于预定的准则方法用所述大量参数化的字母发音校准所述大量参数化的电信号的步骤。
24.根据权利要求21的方法,其特征在于步骤(a)包括利用倒频系数来参数化所述大量参数化字母发音。
25.根据权利要求21的方法,其特征在于步骤(c)包括利用倒频系数来参数化所述大量参数化字发音。
26.根据权利要求21的方法,其特征在于步骤(g)包括利用倒频系数来参数化电信号。
27.根据权利要求21的方法,其特征在于步骤(h)包括利用倒频差距来比较参数化的电信号与所述大量参数化字母发音。
28.根据权利要求21的方法,其特征在于步骤(I)包括利用倒频差距来比较参数化的字与所述大量参数化字发音。
29.根据权利要求21的方法,其特征在于步骤(I)包括利用字母发音序列来比较参数化的字与所述大量参数化字发音。
30.根据权利要求21的方法,还包括在步骤(a)之前说出大量字母发音的步骤。
31.根据权利要求30的方法,还包括在所述说出大量字母发音的步骤后,区分说话者是男还是女的步骤。
32.根据权利要求30的方法,还包括在所述说出大量字母发音的步骤后,区分说话的字母是否基本上清晰的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/538657 | 2000-03-30 | ||
US09/538,657 US6304844B1 (en) | 2000-03-30 | 2000-03-30 | Spelling speech recognition apparatus and method for communications |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1315809A true CN1315809A (zh) | 2001-10-03 |
Family
ID=24147856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN00109843A Pending CN1315809A (zh) | 2000-03-30 | 2000-07-07 | 用于移动通信的拼写语音识别装置和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6304844B1 (zh) |
EP (1) | EP1139332A3 (zh) |
JP (1) | JP2002108387A (zh) |
KR (1) | KR20010096490A (zh) |
CN (1) | CN1315809A (zh) |
TW (1) | TW504663B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1301028C (zh) * | 2003-07-07 | 2007-02-14 | 三星电子株式会社 | 用于通过语音识别输入字符的移动通信终端及方法 |
CN101314081B (zh) * | 2008-07-11 | 2010-06-30 | 华为终端有限公司 | 一种演讲背景匹配方法和装置 |
CN1748245B (zh) * | 2003-02-13 | 2011-03-09 | 西门子公司 | 三级单个单词识别 |
CN101460995B (zh) * | 2006-02-07 | 2012-07-04 | 日本电气株式会社 | 监测设备、评估数据选择设备、代理评估设备、代理评估系统 |
CN101547261B (zh) * | 2008-03-27 | 2013-06-05 | 富士通株式会社 | 关联赋予装置、关联赋予方法 |
CN105096945A (zh) * | 2015-08-31 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种终端的语音识别方法和装置 |
Families Citing this family (188)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7406084B2 (en) * | 1997-09-19 | 2008-07-29 | Nokia Siemens Networks Gmbh & Co. Kg | Flexible software architecture for a call processing system |
US7319957B2 (en) * | 2004-02-11 | 2008-01-15 | Tegic Communications, Inc. | Handwriting and voice input with automatic correction |
US7712053B2 (en) | 1998-12-04 | 2010-05-04 | Tegic Communications, Inc. | Explicit character filtering of ambiguous text entry |
US7881936B2 (en) | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US8938688B2 (en) | 1998-12-04 | 2015-01-20 | Nuance Communications, Inc. | Contextual prediction of user words and user actions |
US7720682B2 (en) | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
US7679534B2 (en) | 1998-12-04 | 2010-03-16 | Tegic Communications, Inc. | Contextual prediction of user words and user actions |
US6789060B1 (en) * | 1999-11-01 | 2004-09-07 | Gene J. Wolfe | Network based speech transcription that maintains dynamic templates |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8086697B2 (en) | 2005-06-28 | 2011-12-27 | Claria Innovations, Llc | Techniques for displaying impressions in documents delivered over a computer network |
US7475404B2 (en) | 2000-05-18 | 2009-01-06 | Maquis Techtrix Llc | System and method for implementing click-through for browser executed software including ad proxy and proxy cookie caching |
US6701162B1 (en) * | 2000-08-31 | 2004-03-02 | Motorola, Inc. | Portable electronic telecommunication device having capabilities for the hearing-impaired |
US7219058B1 (en) * | 2000-10-13 | 2007-05-15 | At&T Corp. | System and method for processing speech recognition results |
US20020082834A1 (en) * | 2000-11-16 | 2002-06-27 | Eaves George Paul | Simplified and robust speech recognizer |
US7209880B1 (en) | 2001-03-20 | 2007-04-24 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
IL142421A0 (en) * | 2001-04-03 | 2002-03-10 | Linguistic Agents Ltd | Linguistic agent system |
US7526431B2 (en) | 2001-09-05 | 2009-04-28 | Voice Signal Technologies, Inc. | Speech recognition using ambiguous or phone key spelling and/or filtering |
US7505911B2 (en) | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
US7809574B2 (en) | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US7467089B2 (en) | 2001-09-05 | 2008-12-16 | Roth Daniel L | Combined speech and handwriting recognition |
US7444286B2 (en) | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US6968507B2 (en) * | 2001-11-27 | 2005-11-22 | Claria Corporation | Method and apparatus for defeating a mechanism that blocks windows |
TW541517B (en) * | 2001-12-25 | 2003-07-11 | Univ Nat Cheng Kung | Speech recognition system |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
US7050973B2 (en) * | 2002-04-22 | 2006-05-23 | Intel Corporation | Speaker recognition using dynamic time warp template spotting |
US7143037B1 (en) | 2002-06-12 | 2006-11-28 | Cisco Technology, Inc. | Spelling words using an arbitrary phonetic alphabet |
US8583440B2 (en) | 2002-06-20 | 2013-11-12 | Tegic Communications, Inc. | Apparatus and method for providing visual indication of character ambiguity during text entry |
EP1396840A1 (de) * | 2002-08-12 | 2004-03-10 | Siemens Aktiengesellschaft | Verfahren zur Spracherkennung von buchstabierten Worten |
KR100462472B1 (ko) * | 2002-09-11 | 2004-12-17 | 학교법인 포항공과대학교 | 동적 타임 워핑 디바이스와 이를 이용한 음성 인식 장치 |
US7603341B2 (en) | 2002-11-05 | 2009-10-13 | Claria Corporation | Updating the content of a presentation vehicle in a computer network |
US7509257B2 (en) * | 2002-12-24 | 2009-03-24 | Marvell International Ltd. | Method and apparatus for adapting reference templates |
GB2401714A (en) * | 2003-05-16 | 2004-11-17 | Glencroft Ltd | Selecting audio information |
US20040243415A1 (en) * | 2003-06-02 | 2004-12-02 | International Business Machines Corporation | Architecture for a speech input method editor for handheld portable devices |
US7725319B2 (en) * | 2003-07-07 | 2010-05-25 | Dialogic Corporation | Phoneme lattice construction and its application to speech recognition and keyword spotting |
GB2404040A (en) * | 2003-07-16 | 2005-01-19 | Canon Kk | Lattice matching |
US8170912B2 (en) | 2003-11-25 | 2012-05-01 | Carhamm Ltd., Llc | Database structure and front end |
US8095364B2 (en) | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US7155388B2 (en) * | 2004-06-30 | 2006-12-26 | Motorola, Inc. | Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization |
US7139701B2 (en) * | 2004-06-30 | 2006-11-21 | Motorola, Inc. | Method for detecting and attenuating inhalation noise in a communication system |
US7254535B2 (en) * | 2004-06-30 | 2007-08-07 | Motorola, Inc. | Method and apparatus for equalizing a speech signal generated within a pressurized air delivery system |
US8078602B2 (en) | 2004-12-17 | 2011-12-13 | Claria Innovations, Llc | Search engine for a computer network |
US8255413B2 (en) | 2004-08-19 | 2012-08-28 | Carhamm Ltd., Llc | Method and apparatus for responding to request for information-personalization |
US7792808B2 (en) * | 2004-09-07 | 2010-09-07 | Stuart Robert O | More efficient search algorithm (MESA) using virtual search parameters |
US8108386B2 (en) * | 2004-09-07 | 2012-01-31 | Stuart Robert O | More efficient search algorithm (MESA) using alpha omega search strategy |
US20060112091A1 (en) * | 2004-11-24 | 2006-05-25 | Harbinger Associates, Llc | Method and system for obtaining collection of variants of search query subjects |
US7693863B2 (en) | 2004-12-20 | 2010-04-06 | Claria Corporation | Method and device for publishing cross-network user behavioral data |
TWI244638B (en) * | 2005-01-28 | 2005-12-01 | Delta Electronics Inc | Method and apparatus for constructing Chinese new words by the input voice |
US8645941B2 (en) | 2005-03-07 | 2014-02-04 | Carhamm Ltd., Llc | Method for attributing and allocating revenue related to embedded software |
US8073866B2 (en) | 2005-03-17 | 2011-12-06 | Claria Innovations, Llc | Method for providing content to an internet user based on the user's demonstrated content preferences |
US8050924B2 (en) * | 2005-04-08 | 2011-11-01 | Sony Online Entertainment Llc | System for generating and selecting names |
US7962842B2 (en) * | 2005-05-30 | 2011-06-14 | International Business Machines Corporation | Method and systems for accessing data by spelling discrimination letters of link names |
US8170875B2 (en) * | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US20070016420A1 (en) * | 2005-07-07 | 2007-01-18 | International Business Machines Corporation | Dictionary lookup for mobile devices using spelling recognition |
US7546233B2 (en) * | 2005-08-24 | 2009-06-09 | Yu-Chih Cheng | Succession Chinese character input method |
US20070055522A1 (en) * | 2005-08-26 | 2007-03-08 | Sbc Knowledge Ventures, L.P. | Self-learning multi-source speech data reconstruction |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070094021A1 (en) * | 2005-10-25 | 2007-04-26 | Bossemeyer Robert W Jr | Spelling sequence of letters on letter-by-letter basis for speaker verification |
US7941316B2 (en) * | 2005-10-28 | 2011-05-10 | Microsoft Corporation | Combined speech and alternate input modality to a mobile device |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8255216B2 (en) * | 2006-10-30 | 2012-08-28 | Nuance Communications, Inc. | Speech recognition of character sequences |
US8756063B2 (en) * | 2006-11-20 | 2014-06-17 | Samuel A. McDonald | Handheld voice activated spelling device |
US9830912B2 (en) | 2006-11-30 | 2017-11-28 | Ashwin P Rao | Speak and touch auto correction interface |
US8620952B2 (en) | 2007-01-03 | 2013-12-31 | Carhamm Ltd., Llc | System for database reporting |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8160866B2 (en) * | 2008-04-18 | 2012-04-17 | Tze Fen Li | Speech recognition method for both english and chinese |
TWI352970B (en) * | 2008-04-30 | 2011-11-21 | Delta Electronics Inc | Voice input system and voice input method |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8645131B2 (en) * | 2008-10-17 | 2014-02-04 | Ashwin P. Rao | Detecting segments of speech from an audio stream |
US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
US20100138221A1 (en) * | 2008-12-02 | 2010-06-03 | Boys Donald R | Dedicated hardware/software voice-to-text system |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
EP2755202B1 (en) * | 2011-09-09 | 2016-07-13 | Asahi Kasei Kabushiki Kaisha | Voice recognition device |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
KR102245098B1 (ko) | 2014-05-23 | 2021-04-28 | 삼성전자주식회사 | 휴대 단말 및 그 제어 방법 |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9536521B2 (en) * | 2014-06-30 | 2017-01-03 | Xerox Corporation | Voice recognition |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
JP6696803B2 (ja) * | 2016-03-15 | 2020-05-20 | 本田技研工業株式会社 | 音声処理装置および音声処理方法 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10607601B2 (en) | 2017-05-11 | 2020-03-31 | International Business Machines Corporation | Speech recognition by selecting and refining hot words |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
JP7219148B2 (ja) * | 2018-04-25 | 2023-02-07 | 住友化学株式会社 | 検査システム及び検査システムの駆動方法 |
US10832675B2 (en) * | 2018-08-24 | 2020-11-10 | Denso International America, Inc. | Speech recognition system with interactive spelling function |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5208897A (en) * | 1990-08-21 | 1993-05-04 | Emerson & Stern Associates, Inc. | Method and apparatus for speech recognition based on subsyllable spellings |
US5621857A (en) * | 1991-12-20 | 1997-04-15 | Oregon Graduate Institute Of Science And Technology | Method and system for identifying and recognizing speech |
US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
US5799065A (en) * | 1996-05-06 | 1998-08-25 | Matsushita Electric Industrial Co., Ltd. | Call routing device employing continuous speech |
US5995928A (en) * | 1996-10-02 | 1999-11-30 | Speechworks International, Inc. | Method and apparatus for continuous spelling speech recognition with early identification |
US6108627A (en) * | 1997-10-31 | 2000-08-22 | Nortel Networks Corporation | Automatic transcription tool |
US5987410A (en) * | 1997-11-10 | 1999-11-16 | U.S. Philips Corporation | Method and device for recognizing speech in a spelling mode including word qualifiers |
US6684185B1 (en) * | 1998-09-04 | 2004-01-27 | Matsushita Electric Industrial Co., Ltd. | Small footprint language and vocabulary independent word recognizer using registration by word spelling |
-
2000
- 2000-03-30 US US09/538,657 patent/US6304844B1/en not_active Expired - Fee Related
- 2000-07-07 CN CN00109843A patent/CN1315809A/zh active Pending
- 2000-10-12 KR KR1020000060110A patent/KR20010096490A/ko not_active Application Discontinuation
- 2000-11-06 EP EP20000309816 patent/EP1139332A3/en not_active Withdrawn
-
2001
- 2001-01-23 JP JP2001053125A patent/JP2002108387A/ja active Pending
- 2001-03-22 TW TW90106813A patent/TW504663B/zh active
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1748245B (zh) * | 2003-02-13 | 2011-03-09 | 西门子公司 | 三级单个单词识别 |
CN1301028C (zh) * | 2003-07-07 | 2007-02-14 | 三星电子株式会社 | 用于通过语音识别输入字符的移动通信终端及方法 |
CN101460995B (zh) * | 2006-02-07 | 2012-07-04 | 日本电气株式会社 | 监测设备、评估数据选择设备、代理评估设备、代理评估系统 |
CN101547261B (zh) * | 2008-03-27 | 2013-06-05 | 富士通株式会社 | 关联赋予装置、关联赋予方法 |
CN101314081B (zh) * | 2008-07-11 | 2010-06-30 | 华为终端有限公司 | 一种演讲背景匹配方法和装置 |
CN105096945A (zh) * | 2015-08-31 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种终端的语音识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1139332A9 (en) | 2002-03-20 |
TW504663B (en) | 2002-10-01 |
EP1139332A3 (en) | 2001-12-05 |
US6304844B1 (en) | 2001-10-16 |
KR20010096490A (ko) | 2001-11-07 |
JP2002108387A (ja) | 2002-04-10 |
EP1139332A2 (en) | 2001-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1315809A (zh) | 用于移动通信的拼写语音识别装置和方法 | |
US20230139140A1 (en) | User recognition for speech processing systems | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JP5208352B2 (ja) | 声調言語用分節声調モデリング | |
US20200082805A1 (en) | System and method for speech synthesis | |
WO2020123227A1 (en) | Speech processing system | |
CN105206257B (zh) | 一种声音转换方法及装置 | |
CN106935239A (zh) | 一种发音词典的构建方法及装置 | |
EP1668628A1 (en) | Method for synthesizing speech | |
CN1760972A (zh) | 使用合成输入测试和调整语音识别系统 | |
CN101661675A (zh) | 一种错误自感知的声调发音学习方法和系统 | |
US11715472B2 (en) | Speech-processing system | |
CN113327574B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
US20070129946A1 (en) | High quality speech reconstruction for a dialog method and system | |
CN115176309A (zh) | 语音处理系统 | |
WO2023154427A1 (en) | Voice adaptation using synthetic speech processing | |
WO2004012183A2 (en) | Concatenative text-to-speech conversion | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
CN1315721A (zh) | 客户服务器语音信息传送系统与方法 | |
Chu et al. | A concatenative Mandarin TTS system without prosody model and prosody modification. | |
Thennattil et al. | Phonetic engine for continuous speech in Malayalam | |
JP2002268680A (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
Wallich | Putting speech recognizers to work: While advances in signal processing and algorithms would extend their usefulness, limited models are already meeting many inspection and inventory applications | |
Gao et al. | TANGERINE: A large vocabulary Mandarin dictation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |