CN1265352C - 一种在声音信道上进行语音识别的方法和装置 - Google Patents
一种在声音信道上进行语音识别的方法和装置 Download PDFInfo
- Publication number
- CN1265352C CN1265352C CNB028128508A CN02812850A CN1265352C CN 1265352 C CN1265352 C CN 1265352C CN B028128508 A CNB028128508 A CN B028128508A CN 02812850 A CN02812850 A CN 02812850A CN 1265352 C CN1265352 C CN 1265352C
- Authority
- CN
- China
- Prior art keywords
- bit stream
- feature
- phonetic feature
- voice
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000006835 compression Effects 0.000 claims description 18
- 238000007906 compression Methods 0.000 claims description 18
- 230000005540 biological transmission Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 10
- 239000003638 chemical reducing agent Substances 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 15
- 239000013598 vector Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000011664 signaling Effects 0.000 description 7
- 239000005441 aurora Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000010267 cellular communication Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 102000001690 Factor VIII Human genes 0.000 description 1
- 108010054218 Factor VIII Proteins 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002386 leaching Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 235000015096 spirit Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Transceivers (AREA)
- Mobile Radio Communication Systems (AREA)
- Machine Translation (AREA)
- Communication Control (AREA)
Abstract
本发明描述了一种在声音信道上进行语音识别的方法和装置。
Description
背景技术
语音识别技术对访问自动系统正变得越来越普及。例如,语音识别可用来远程操纵自动声音应答系统、访问允许声音的因特网门户、控制家庭自动化系统等等。但是,许多声音信道可能并未设计成可以适应语音识别技术中的改进。对于无线通信技术尤其是这样。所以,有在声音信道上改进语音识别的需要,例如在移动或蜂窝式通信系统中所发现的。
附图说明
在本发明的权利要求部分中具体地指出和清楚地要求了被认为是本发明实施例的主题。但是,关于构成和操作方法两者的本发明的实施例,与其目标、特征和优点一同,当与附图一起阅读时,可以通过参考下面详细的描述被最好地理解,其中:
图1是适于实现本发明的一个实施例的系统;
图2是根据本发明一个实施例的源节点的方框图;
图3是根据本发明一个实施例的语音识别编码器的方框图;
图4是根据本发明一个实施例的目的地节点的方框图;
图5是根据本发明一个实施例的语音识别解码器的方框图;
图6是由根据本发明一个实施例的语音识别系统执行的编程逻辑的第一方框流程图;
图7是由根据本发明一个实施例的语音识别系统执行的编程逻辑的第二方框流程图;
图8是根据本发明一个实施例的取代(subrogation)覆盖的例子。
具体实施方式
本发明的实施例可指通过声音编码/解码器(“声码器(vocoder)”)取代而完成的分布式语音识别。声码器取代可指用更低带宽替代来替换传统的声音压缩方案,此替代是被设计来提高语音识别性能的。这里使用的术语“替换”可指将一组信息的全部或一部分替换为另一组信息。本发明的一个实施例描述了建立协议的一种方法,用于当适于提供语音识别信息时切换到较低带宽方案,例如响应于来自自动系统的提示的声音命令。更具体而言,本发明的一个实施例编码来自一个端点的语音特征,并将该语音特征覆盖到代表所编码语音的声码器比特流上。随后另一个端点可接收并解码该语音特征以用于语音识别模块或设备。
本发明的一个实施例可包括一种方法和装置,用于在一个声音信道上进行语音识别,例如是移动或蜂窝式通信系统的一部分的声音信道。本发明的一个实施例可包括语音识别编码器和语音识别解码器。语音识别编码器可将代表语音的信息比特替换为代表语音特征的信息比特。该语音特征可在网络的声音信道上传输,例如无线网络。语音识别解码器可接收该语音特征并进行语音识别。编码和解码语音特征以替换语音的过程在这里可称为“取代”。
本发明的实施例可有几个优点。例如,移动或蜂窝式通信系统利用射频(RF)来在设备之间传输信息。RF可分成一个或多个声音信道。但是,这些声音信道在可传输的信息量方面是有限的,所述信息量通常按照带宽(BW)来衡量。为了最好地利用现有的移动通信声音信道的BW,许多移动系统采用压缩技术来减少需要用来代表语音的比特数。本发明的一个实施例可通过将代表语音的比特替换为代表所述语音的语音特征的比特而来进一步减少此数量。此外,语音特征可在替换过程之前压缩,从而进一步减少用来代表语音特征的比特数。本发明的此实施例可使用带附加硬件和/或软件的传统无线技术来实现,所述附加硬件和/或软件用来实现这里描述的功能。
在此详细描述中,给出了大量的具体细节以提供对本发明实施例的充分理解。但是,本领域的技术人员将理解没有这些具体细节也可以实现本发明。在其它情况下,没有详细地描述公知的方法、过程、元件和电路,以免不必要地模糊本发明的实施例。能够理解,这里公开的具体的结构上和功能上的细节可以是代表性的而不一定限定本发明的范围。
本发明的实施例可以包括功能,其可以实现为由处理器执行的软件、硬件电路或结构或者二者的结合。所述处理器可以是通用或专用处理器,例如来自由Intel公司、摩托罗拉股份公司、太阳微系统股份公司和其它公司制造的处理器系列的处理器。所述软件可以包括为本发明的实施例实现某种功能的编程逻辑、指令或数据。软件可以存储于机器可存取的介质或计算机可读介质,例如只读存储器(ROM)、随机存取存储器(RAM)、磁盘(例如软盘和硬盘)、光盘(例如CD-ROM)或任何其它数据存储介质。在本发明的一个实施例中,介质可以以压缩和/或加密的格式存储编程指令以及在由处理器执行之前可能必须由安装器编译或安装的指令。或者,本发明的实施例可以实现为具体的硬件元件,其包含用于执行所述功能的硬连线逻辑,或者由被编程的通用计算机元件和定制硬件元件的任何组合来实现。
值得注意的是,任何在说明书中提到的“一个实施例”或“实施例”是指所描述的与实施例有关的具体的特征、结构或特性被包括在本发明的至少一个实施例中。说明书中不同位置中出现的短语“在一个实施例中”不一定都是指相同的实施例。
现在详细参照附图,其中自始至终类似的部分由相同的标号标明,图1图示了适于实现本发明的一个实施例的系统。图1是语音识别系统100的方框图。语音识别系统100可包括通过网络104连接的源节点102和目的地节点106。在本发明的一个实施例中,源节点102可包括例如移动台(MS),例如移动电话或蜂窝式电话。在本发明的一个实施例中,目的地节点106可包括例如移动基站(BS)或移动电话交换局(MTSO)。在本发明的一个实施例中,网络104包括无线网络,其使用RF频谱来作为通信介质以在源节点102和目的地节点106之间传输信息。
值得注意的是,所描述的关于BS、MS、MTSO或网络的任何取代功能可以在系统100的其它地方实现而仍然落在本发明的范围之内。例如,对MS的取代能力的检测可由BS、MS、MTSO或网络中的其它地方启动而仍然落在本发明的范围之内。
目的地节点106可包括应用服务器,所述应用服务器配置有硬件和/或软件,以作为能够接受语音识别输出的自动系统(未示出)而进行操作。语音识别输出可包括,例如声转文(speech to text)输出。这里使用的术语“自动系统”可指一个以受限的人类干预来操作的系统。自动系统的一个例子可包括,例如IVR(交互式语音应答)系统、因特网声音门户、家庭自动化系统和自动目录辅助应用,尽管本发明的实施例并不局限于此。
图2是根据本发明一个实施例的源节点的方框图。图2图示了可代表例如源节点102的源节点200。在本发明的一个实施例中,源节点200可包括麦克风202、转换器204、声码器206、语音识别编码器208和收发器210。
在本发明的一个实施例中,麦克风202可从例如讲话人接收模拟语音信号。麦克风202可将模拟语音信号发送到转换器204。
在本发明的一个实施例中,转换器204可以是例如模数(A/D)转换器。转换器204可将模拟语音信号转换成以比特流或比特序列表示的数字语音信号。每一比特可代表例如一(1)或零(0)。转换器204可将比特流发送到声码器206和语音识别编码器208。
声码器206可实施任何传统的声音压缩算法以减少数字语音信号。例如,在本发明的一个实施例中,声码器206可实施符合1996年3月批准的题为“Dual Rate Speech Coder For Multimedia Communications Transmittingat 5.3and 6.3k/bps”的国际电信联盟推荐(ITU Recommendation)G.723.1(“G.723规范”)的声音压缩方案。在另一个例子中,声码器206可实施符合与全球移动通信系统(GSM)相关的任何标准的声音压缩方案。
在本发明的一个实施例中,声码器206可实施产生比这里描述的取代过程更高BW的声音压缩算法。声码器206还可将包括数字语音信号的比特流组织成离散的帧。一个帧可代表具有固定或可变长度的一个逻辑组的比特。声码器206可将这些帧发送到语音识别编码器208。
语音识别编码器208改进语音识别并降低声音信道的BW要求,所述声音信道可以是网络104的一部分。语音识别编码器208可从数字语音信号中提取语音特征并压缩该语音特征以形成比特帧。压缩语音特征的帧可随后覆盖从声码器206接收的压缩语音帧,并传递到收发器210以在网络104上传输。可参考图3更详细地讨论语音识别编码器208。
收发器210可包括用于MS、BS或MTSO的发送器、接收器和逻辑区。发送器可将低电平音频信号转换成RF载波频率中的成比例平移。接收器可将低电平RF信号放大并解调为它们原始的音频形式。控制区可通过插入或提取合适的系统控制消息来协调此操作。收发器210可连接到天线组件(未示出)。
图3是根据本发明一个实施例的语音识别编码器的方框图。图3图示了一种语音识别编码器300,其可实施为例如源节点102的一部分。语音识别编码器300可包括例如,特征编码器302、空特征生成器(emptyfeature factory)308、发声端指针(utterance endpointer)310、特征覆盖器312和能力监视器314。
特征编码器302还可包括特征提取器304和特征压缩器306。特征提取器304可从输入语音信号中提取语音特征,所述输入语音信号例如是来自转换器204的数字语音信号。语音特征可包括例如特征向量。在本发明的一个实施例中,特征提取器304可按照以下标准来提取语音特征,即2000年4月批准的题为“Speech Processing,Transmission and Qualityaspects(STQ);Distributed speech recognition;Front-end feature extractionalgorithm;Compression algorithms”的欧洲电信标准协会标准(ETSIStandard)ES 201108v.1.1.2(“Aurora规范”)。
在本发明的另一个实施例中,输入语音信号可代表由麦克风202所收到并传递到语音识别编码器300的模拟语音信号。任何用于提取语音特征的传统算法都可由特征提取器304来实现并落在本发明的范围之内。特征压缩器306可使用任何传统的压缩算法来将语音特征压缩成减少的比特数。已压缩语音特征可被传递到特征覆盖器312。
空特征生成器308可提供由特征覆盖器312在转换器的沉默周期期间使用的固定低比特率向量。这些向量可以是预定的并且不象在特征编码器302中那样从转换器中提取。在特征覆盖器312中使用特征编码器302或空特征生成器308可由发声端指针310中的发声端点确定来控制。
发声端指针310可实施任何传统的声音活动检测方案,以确定语音发声的起点和终点并识别沉默周期。特征覆盖器312可使用此信息来控制用语音特征或沉默周期覆盖在声码器比特流上。发声端指针310可监控语音并可向特征覆盖器312表明有效的语音。如果能力监视器314表明此模式是合适的则可随后覆盖特征。当讲话人停止说话时,发声端指针310可表明没有语音活动并可使用来自空特征生成器308的“空特征”。这对诸如保持与BS 106同步是所期望的。
特征覆盖器312可将已压缩的语音特征组织成比特帧,其帧的大小与诸如声码器206所使用帧的大小相匹配。如果需要的话,此功能还可实施为特征编码器302的一部分。特征覆盖器312可将代表由声码器206编码的语音的比特帧替换为代表由特征编码器302编码的语音特征的比特帧。特征覆盖器312还可用各种信令模式来改写声码器比特,所述信令模式被用来控制取代过程,例如表明取代能力、取代起点和终点以及其它协议类型信息。
能力监视器314可检测目的地节点是否能够接受取代比特流。能力监视器314可监视要求语音识别信息的请求。语音识别信息可包括例如对声音命令的提示和取代标识。这里所指的术语“声音命令提示”可包括从诸如IVR系统的自动系统来的任何对所说出的信息的请求。取代标识可以是例如嵌入在声码器比特流中的预定义比特模式。在本发明的一个实施例中,比特模式可以是听不到的或者几乎听不到的,以免用户分心。一旦检测到,能力监视器314则可通知语音识别编码器开始传输的取代方案。如果目的地节点不能接受取代比特流,则可绕过语音识别编码器而恢复正常的声码器操作。这可由在特定的时间间隔内收到声音命令提示而未收到取代标识来表明。由于无线声音信道的“有损”性质,可以使用权重匹配算法来检测有或者没有声音命令提示和/或取代标识。
图4是根据本发明一个实施例的目的地节点的方框图。图4图示了可代表例如目的地节点106的目的地节点400。目的地节点400可包括,例如收发器402、声码器404和语音识别解码器406。收发器402和声码器404分别类似于收发器210和声码器206。语音识别解码器406的输出可用于任何语音识别应用,例如自动系统的声转文应用。
图5是根据本发明一个实施例的语音识别解码器的方框图。图5图示了语音识别解码器500。语音识别解码器500可包括起始监视器502、能力广播器504、特征解码器506、特征提取器512和语音识别模块514。
特征解码器506还可包括特征重构器508和特征解压缩器510。特征重构器508可去掉取代信令字段,并将一个或多个帧中从源节点接收的语音特征分段连结成完整的语音特征包。重构的包可被发送到特征解压缩器510。
特征解压缩器510可从被压缩的语音特征包重组语音特征。特征解压缩器510还可应用由语音识别编码器提供的任何纠错。语音特征可被传递到语音识别模块514。
语音识别模块514可将语音特征解码成文本。语音识别模块514可代表自包含(self-contained)语音识别引擎的一个子集,因为它不输入数字语音信号并且不应用特征提取。相反,它接收从源节点发送来的预先提取的特征作为输入。所述文本可用于任何自动系统或传统的声转文应用。
特征提取器512可类似于语音识别编码器302的特征提取器304。在目的地节点不具有取代能力的情况下,特征提取器512可从由声码器404解码的语音中提取语音特征。在此情况下,起始监视器502可发送一个信号到语音识别模块514,以使用特征提取器512的输出来进行语音识别,而不是使用特征解码器506的输出。
可进一步参考图6到8和所附的例子来描述系统100到500的操作。虽然这里给出的图6到8可包括具体的处理逻辑,但可以理解处理逻辑仅仅提供了如何实施这里所描述的一般功能的例子。此外,给定处理逻辑中的每个操作并不必要以给出的顺序来进行,除非表明必须如此。
图6是由根据本发明一个实施例的语音识别系统执行的编程逻辑的第一方框流程图。图6图示了进行语音识别的编程逻辑600。在框602处可以接收代表语音的一组信号。在框604处,可在声音信道上接收要求语音识别信息的请求。在框606处可从所述信号创建一组语音特征。在框608处可在声音信道上传输所述语音特征。
在本发明的一个实施例中,所述请求可包括接收对声音命令的提示。所述请求还可包括接收取代标识,例如预定义的位模式。在本发明的另一个实施例中,所述请求可仅仅包括一个取代标识。
在本发明的一个实施例中,可通过从语音信号中提取语音特征来创建一组语音特征。这些语音特征可随后被压缩,并可将任何纠错应用到被压缩的语音特征上。
在本发明的一个实施例中,语音特征可通过创建代表语音的第一位流而在声音信道上传输。可从例如特征编码器接收代表语音特征的第二位流。第一位流可由第二位流替换,并在声音信道上发送。
在本发明的一个实施例中,可通过接收代表语音的模拟音频波形来创建第一位流。模拟音频波形可转换成数字音频信号。可使用声音编码算法来压缩数字音频信号。
在本发明的一个实施例中,可通过为第一位流来确定起点和终点来用第二位流替换第一位流。还可为第二位流确定起点和终点。可用第二位流来替换第一位流并使用这些起点和终点来同步该替换。
在本发明的一个实施例中,可通过创建从第一位流的起点开始的位帧而使用这些起点和终点来用第二位流替换第一位流。可从第二位流的起点开始覆盖位帧。可在声音信道上发送所述帧。可重复此过程直到到达第二位流的终点。
在本发明的一个实施例中,可通过将起始标识插在第二位流的起点之前,并将结束标识插在第二位流的终点之后,而在声音信道上发送第二位流。第二位流可和起始、结束标识一起被发送。
图7是由根据本发明一个实施例的语音识别系统执行的编程逻辑的第二方框流程图。图7图示了进行语音识别的编程逻辑700。在框702处,可在声音信道上发送要求语音识别信息的请求。在框704处可在声音信道上接收语音特征。在框706处可使用所述语音特征来识别语音。
在本发明的一个实施例中,可在声音信道上以对声音命令的提示和/或取代标识的形式来发送对语音识别的请求。取代标识可以是预定义的位模式。
在本发明的一个实施例中,可通过确定位流的起点和终点而在声音信道上接收语音特征。语音特征可从起点开始重构。可解压缩重构的语音特征而形成原始的语音特征。解压缩的语音特征可被发送到语音识别设备。可继续此过程直到到达终点。
在本发明的一个实施例中,可通过从位流中提取纠错信息来进行纠错。可使用纠错信息来确定语音特征是否包括错误。
图8是根据本发明一个实施例的取代覆盖的例子。图8中描述的取代覆盖过程可使用因特网协议(IP)电话的例子,该例子使用G.723规范和Aurora规范中所描述的技术,尽管本发明的实施例并不局限于此。一旦初始能力协议已经确认可以开始取代,就将较高BW包的位模式用较低BW包来替换。特征覆盖器和特征重构器一起操作来进行位替换。在此例子中,一个Aurora特征帧描述340毫秒(msec)的语音,而一个G.723帧则描述30毫秒的语音。构成特征帧的144位部分可放置在连续的G.723帧中。根据Aurora规范,特征同步和特征头部信息在实际的特征位之前。这些操作对取代过程可以是透明的。可使用附加位来保持两个端点之间的取代信令同步,所述两个端点例如是源节点和目的地节点。取代同步位可表明整个特征帧中哪部分是在G.723帧中发送的,并包括起始和停止特征何时出现。在本发明的另一个实施例中,这可使用例如帧位的直方图来完成。
更具体而言,图8图示了第一组帧802、第二组帧806、第三组帧808和取代同步块804。在此例子中,帧组802包括八个帧802a到802h。在本发明的一个实施例中,根据G.723规范来生成这些帧。所有8个帧具有由共1392比特代表的240毫秒(msec)的语音,并且每个帧具有由174比特代表的30毫秒(msec)的语音。
帧组806也可包含8个帧806a-806h。在本发明的一个实施例中,根据Aurora规范来产生这些帧。帧组806也被分成30毫秒的帧,每个帧由144位代表。但是,语音特征信息的单个30毫秒帧可代表相当于240毫秒的语音,由此用因子8来表示BW约简(reduction)。取决于本发明具体实施例所使用的语音特征提取技术,语音特征信息可包括,例如特征同步信息、特征头部信息和特征包。特征包可包括,例如代表语音特征的位包。
如图8所示,取代覆盖过程可包括取一个语音特征信息帧,加入诸如取代同步块804的同步头部,以及将此信息覆盖在来自帧组802的语音帧上。例如,帧组806的帧806a可与取代同步块804结合,并放在帧组802的帧802a上。类似地,帧组806的帧806b可与取代同步块804结合,并放在帧组802的帧802b上。可继续此覆盖过程直到目的地节点处的语音识别解码器已经接收到所有的特征包。
可通过例子来更好地理解系统100到500的操作以及图6到8。假定源节点102是诸如蜂窝电话的MS。假定目的地节点106是连接到应用服务器上的BS,所述应用服务器具有进行自动目录辅助的软件应用。源节点102和目的地节点106在无线网络104上通信,无线网络104包括用RF频谱定义的声音信道。用户启动与应用服务器的连接。服务器向用户提供一些关于如何使用服务的介绍性信息。此信息使用正常的声音压缩方案来发送,这些方案例如GSM或G.723。
服务器随后给出声音提示,要一个启动目录辅助搜索的名字。在目的地节点106,能力广播器504可将包括听不到或几乎听不到模式的取代标识注入正常的声码器位流,以表示此端点能够接受取代位流。该模式可以是任何预定义的模式并是所使用的具体声码器的功能。在此例子中,可将G.723的增益位设成最低的设置,并可使用生理上不能接收的向量序列来作为信令模式。此模式可跨越几个帧。在另一个例子中,还可采用心理听觉掩码(psycho-acoustical masking)来作为模式。取决于具体的声码器和模式方案,可能需要禁止能力广播器504以使收听者能听到来自自动系统的应答。如果是这样,可以配置能力广播器504,用于允许和禁止诸如起始监视器502的取代起始监视器。
在源节点102处,能力监视器314可监视来自目的地节点106的取代标识。一旦检测到,能力监视器314就可通知语音识别编码器300开始取代方案,以传输用户响应于自动系统的声音提示而说出的人或企业的名字。如果能力监视器314未能检测到取代标识,那么可使用正常的声音压缩方案来将所说出的名字发送到自动系统。
在目的地节点106处,起始监视器502监视取代位流的开始。起始监视器502可通过在所收到的位流中接收取代模式的起始而检测取代位流的开始。在此例子中,如果所述模式不为收听者转换成音频信号,则所述模式并非必须是听不到的。在切换到语音识别解码过程期间,声码器可能输出一个在约200毫秒的量级上的短的失真信号。在本发明的另一个实施例中,这可以通过增加系统等待时间来避免。在此例子中,起始监视器502检测取代模式的开始,并向语音识别模块514发送一个信号,以使用特征解码器506的输出作为语音识别过程的输入。起始监视器502可以这样来切换此路径,以使输入的取代帧内容对于帧重构过程是位对齐的。
再参考源节点102,特征编码器302接收代表所说出的声音命令的输入语音信号,在此情况下声音命令可以是一个名字。特征编码器302根据Aurora规范开始语音特征提取过程。在此例子中,特征提取器304为特征提取使用16千赫、16位采样大小。特征提取器304将所提取的语音特征或特征向量发送到特征压缩器306。特征压缩器306将特征向量压缩成较低BW的位流,并可视情况而应用纠错。此被压缩的位流可传递到特征覆盖器312。
特征覆盖器312接收被压缩的位流并开始取代覆盖过程。特征覆盖器312接收代表来自声码器206的语音的位流,并用信令模式和特征向量重写声码器位。一旦能力监视器314检测到取代标识,则特征覆盖器312可在声码器包中传输固定开始的特征模式。接着的可以是从特征向量提取的顺序位,所述顺序位和声码器的合适帧的大小对齐。这可按照参考图8所描述的过程来完成。
在目的地节点106,特征重构器508可开始去掉取代信令字段,并将从源节点接收的特征分段连结回完整的特征包。重构的特征包可随后发送到特征解压缩器510。特征解压缩器510可重组特征向量,并应用由特征压缩器306提供的任何纠错。特征向量可随后被传递到语音识别模块514。
语音识别模块514可接收特征向量并将其转换成文本,或在此情况下就是需要其号码的人的名字。语音识别模块514可包括例如某种意义上的自包含语音识别引擎,即它不进行特征提取,相反它接收之前提取的特征向量作为语音识别过程的输入。语音识别模块514可将所请求的名字的文本发送到自动目录辅助软件,以开始查号过程。
在一些情况下,目的地节点106可从一个不能发送取代位流的源节点接收声音命令。在此情况下,起始监视器502可将语音识别模块514的输入切换成特征提取器512的输出。特征提取器512类似于特征提取器304,尽管在一些情况下可能需要配置特征提取器512以使用由所使用的特定声码器提供的比特率和采样大小。
在另一个例子中,在呼叫设置或建立期间可能出现由远程端点对取代能力的检测。这可减少或避免在逐个发声的基础上或每个语音信息请求的基础上进行检查过程的需要。在此例子中,一旦检测到取代能力,则来自一个用户在MS上的所有通信都可使用取代而在一个声音信道上发送。但是,来自自动系统或BS的通信可根据传统的声音压缩技术而在该声音信道上发送。
如这里所描述的,已经举例说明了本发明的实施例的某些特征,本领域技术人员现在可以想到许多修改、替代、改变和等同物。因而,应该理解所附权利要求是为了覆盖所有落在本发明实施例的真实精神中的修改和改变。
Claims (26)
1.一种进行语音识别的方法,包括:
接收代表语音的一组信号;
在声音信道上接收对语音识别信息的请求,其中接收所述请求包括接收取代标识;
从所述信号创建一组语音特征;以及
在所述声音信道上传输所述语音特征。
2.如权利要求1所述的方法,其中所述接收所述请求包括:
接收对声音命令的提示。
3.如权利要求1所述的方法,其中所述取代标识是预定义的比特模式。
4.如权利要求1所述的方法,其中所述创建包括:
从所述信号提取所述语音特征;以及
压缩所述语音特征。
5.如权利要求4所述的方法,还包括将纠错应用到所述被压缩的语音特征。
6.如权利要求4所述的方法,还包括确定所述信号中的沉默周期。
7.如权利要求1所述的方法,其中所述传输包括:
创建代表所述语音的第一比特流;
接收代表所述语音特征的第二比特流;
将所述第一比特流用所述第二比特流替换;以及
在所述声音信道上发送所述第二比特流。
8.如权利要求7所述的方法,其中所述创建包括:
接收代表所述语音的模拟音频波形;
将所述模拟音频波形转换成数字音频信号;以及
使用声音编码算法来压缩所述数字音频信号。
9.如权利要求7所述的方法,其中所述替换包括:
确定所述第一比特流的起点和终点;
确定所述第二比特流的起点和终点;以及
使用所述起点和所述终点来将所述第一比特流用所述第二比特流替换。
10.如权利要求9所述的方法,其中所述使用所述起点和所述终点来将所述第一比特流用所述第二比特流替换,包括:
(a)从所述第一比特流的所述起点开始创建比特帧;
(b)用所述第二比特流的所述起点来覆盖所述比特帧;
(c)在所述声音信道上发送所述比特帧;以及
(d)继续(a)到(c),直到到达所述第二比特流的所述终点。
11.如权利要求9所述的方法,其中所述发送包括:
将起始标识插在所述第二比特流的所述起点之前,并将结束标识插在所述第二比特流的所述终点之后;以及
将所述起始和结束标识与所述第二比特流一起发送。
12.一种进行语音识别的方法,包括:
在声音信道上发送对语音识别信息的请求,其中所述发送包括发送取代标识;
在所述声音信道上接收所述语音特征;以及
使用所述语音特征识别语音。
13.如权利要求12所述的方法,其中所述发送包括:
发送对声音命令的提示。
14.如权利要求12所述的方法,其中所述取代标识是预定义的比特模式。
15.如权利要求12所述的方法,其中所述接收包括:
(a)确定比特流的起点和终点;
(b)从所述起点重构所述语音特征;
(c)解压缩所述语音特征;
(d)将所述被解压缩的语音特征发送到语音识别设备;以及
(e)进行(a)到(d),直到到达所述终点。
16.如权利要求15所述的方法,还包括:
从所述比特流中提取纠错信息;以及
使用所述纠错信息来确定所述语音特征是否包括错误。
17.一种进行语音识别的系统,包括:
源节点,发送语音特征;
目的地节点,接收语音特征并进行语音识别,其中进行所述语音识别包括发送取代标识;和
网络,通过在声音信道上覆盖所述语音特征来在所述源节点和所述目的地节点之间传输所述语音特征。
18.如权利要求17所述的系统,其中所述源节点包括:
收发器,与所述目的地节点传输信息;
能力监视器,监视来自所述收发器的对语音识别信息的请求;
声码器,创建代表语音的第一比特流;
特征编码器,创建代表所述语音的语音特征的第二比特流;和
特征覆盖器,用所述第二比特流覆盖所述第一比特流,并将所述第二比特流发送到所述收发器以传输到所述目的地节点。
19.如权利要求17所述的系统,其中所述特征编码器包括:
特征提取器,从所述语音提取所述语音特征;和
特征压缩器,将所述语音特征压缩成所述第二比特流。
20.如权利要求17所述的系统,其中所述目的地节点包括:
收发器,与所述源节点传输信息;
能力广播器,将语音识别请求传输到所述源节点;
起始监视器,监视具有来自所述收发器的语音特征的比特流;
特征解码器,从所述比特流解码所述语音特征;和
语音识别模块,将所述语音特征转换为文本。
21.如权利要求20所述的系统,其中所述特征解码器包括:
特征重构器,从所述比特流重构语音特征;和
特征解压缩器,解压缩所述重构的语音特征。
22.如权利要求17所述的系统,其中所述网络是无线网络。
23.一种语音识别编码器,包括:
能力监视器,监视对语音识别信息的请求,其中所述语音识别信息包括取代标识;
声码器,创建代表语音的第一比特流;
特征编码器,创建代表所述语音的语音特征的第二比特流;和
特征覆盖器,用所述第二比特流覆盖所述第一比特流。
24.如权利要求23所述的语音识别编码器,其中所述特征编码器包括:
特征提取器,从所述语音提取所述语音特征;和
特征压缩器,将所述语音特征压缩成所述第二比特流。
25.一种语音识别解码器,包括:
能力广播器,传输语音识别请求,其中所述能力广播器传输取代标识;
起始监视器,监视具有语音特征的比特流;
特征解码器,从所述比特流解码所述语音特征;和
语音识别模块,将所述语音特征转换为文本。
26.如权利要求25所述的语音识别解码器,其中所述特征解码器包括:
特征重构器,从所述比特流重构语音特征;和
特征解压缩器,解压缩所述重构的语音特征。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/000,228 | 2001-11-30 | ||
US10/000,228 US7139704B2 (en) | 2001-11-30 | 2001-11-30 | Method and apparatus to perform speech recognition over a voice channel |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1628339A CN1628339A (zh) | 2005-06-15 |
CN1265352C true CN1265352C (zh) | 2006-07-19 |
Family
ID=21690506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB028128508A Expired - Fee Related CN1265352C (zh) | 2001-11-30 | 2002-11-20 | 一种在声音信道上进行语音识别的方法和装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7139704B2 (zh) |
EP (1) | EP1435086B1 (zh) |
CN (1) | CN1265352C (zh) |
AT (1) | ATE422087T1 (zh) |
AU (1) | AU2002364899A1 (zh) |
DE (1) | DE60231049D1 (zh) |
TW (1) | TWI282547B (zh) |
WO (1) | WO2003046885A2 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6889191B2 (en) * | 2001-12-03 | 2005-05-03 | Scientific-Atlanta, Inc. | Systems and methods for TV navigation with compressed voice-activated commands |
US7292689B2 (en) * | 2002-03-15 | 2007-11-06 | Intellisist, Inc. | System and method for providing a message-based communications infrastructure for automated call center operation |
FR2881867A1 (fr) * | 2005-02-04 | 2006-08-11 | France Telecom | Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole |
US8615409B1 (en) | 2005-04-15 | 2013-12-24 | Recovery Data-Connect, L.L.C. | System and method for identification, perfection, collection, and valuation of third-party claims including subrogation claims |
MY157901A (en) * | 2005-06-30 | 2016-08-15 | Lg Electronics Inc | Apparatus for encoding and decoding audio signal and method thereof |
US8483381B2 (en) | 2006-10-27 | 2013-07-09 | At&T Intellectual Property I, L.P. | Methods and apparatus to provide contact management with directory assistance |
CN101436404A (zh) * | 2007-11-16 | 2009-05-20 | 鹏智科技(深圳)有限公司 | 可会话的类生物装置及其会话方法 |
CN106792048B (zh) * | 2016-12-20 | 2020-08-14 | Tcl科技集团股份有限公司 | 一种识别智能电视用户语音命令的方法和装置 |
US10785681B1 (en) * | 2019-05-31 | 2020-09-22 | Huawei Technologies Co., Ltd. | Methods and apparatuses for feature-driven machine-to-machine communications |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5483579A (en) * | 1993-02-25 | 1996-01-09 | Digital Acoustics, Inc. | Voice recognition dialing system |
GB2280820A (en) * | 1993-07-29 | 1995-02-08 | Ibm | Distributed system for call processing |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
US5586171A (en) * | 1994-07-07 | 1996-12-17 | Bell Atlantic Network Services, Inc. | Selection of a voice recognition data base responsive to video data |
US5758322A (en) * | 1994-12-09 | 1998-05-26 | International Voice Register, Inc. | Method and apparatus for conducting point-of-sale transactions using voice recognition |
US5822727A (en) * | 1995-03-30 | 1998-10-13 | At&T Corp | Method for automatic speech recognition in telephony |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
GB9602701D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Image manipulation |
US5884262A (en) * | 1996-03-28 | 1999-03-16 | Bell Atlantic Network Services, Inc. | Computer network audio access and conversion system |
US5995928A (en) * | 1996-10-02 | 1999-11-30 | Speechworks International, Inc. | Method and apparatus for continuous spelling speech recognition with early identification |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6292781B1 (en) * | 1999-05-28 | 2001-09-18 | Motorola | Method and apparatus for facilitating distributed speech processing in a communication system |
US6178404B1 (en) * | 1999-07-23 | 2001-01-23 | Intervoice Limited Partnership | System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases |
-
2001
- 2001-11-30 US US10/000,228 patent/US7139704B2/en not_active Expired - Fee Related
-
2002
- 2002-11-08 TW TW091132906A patent/TWI282547B/zh not_active IP Right Cessation
- 2002-11-20 AT AT02801202T patent/ATE422087T1/de not_active IP Right Cessation
- 2002-11-20 EP EP02801202A patent/EP1435086B1/en not_active Expired - Lifetime
- 2002-11-20 DE DE60231049T patent/DE60231049D1/de not_active Expired - Lifetime
- 2002-11-20 CN CNB028128508A patent/CN1265352C/zh not_active Expired - Fee Related
- 2002-11-20 WO PCT/US2002/037470 patent/WO2003046885A2/en not_active Application Discontinuation
- 2002-11-20 AU AU2002364899A patent/AU2002364899A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2003046885A3 (en) | 2004-05-06 |
EP1435086B1 (en) | 2009-01-28 |
DE60231049D1 (de) | 2009-03-19 |
CN1628339A (zh) | 2005-06-15 |
WO2003046885A2 (en) | 2003-06-05 |
ATE422087T1 (de) | 2009-02-15 |
TW200301459A (en) | 2003-07-01 |
AU2002364899A8 (en) | 2003-06-10 |
TWI282547B (en) | 2007-06-11 |
EP1435086A2 (en) | 2004-07-07 |
AU2002364899A1 (en) | 2003-06-10 |
US20030105635A1 (en) | 2003-06-05 |
US7139704B2 (en) | 2006-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5666357A (en) | DTMF tone passer in a voice communication system | |
FI114073B (fi) | Menetelmä ja laitteisto aikaherkän viestin tuottamiseksi säädettävää viivekanavaa pitkin | |
CN1123253C (zh) | 数字无线电系统、数字信号处理器和该处理器的操作方法 | |
CN1109459C (zh) | 预防语音串联编码的代码转换器 | |
US6985965B2 (en) | Static information knowledge used with binary compression methods | |
US7346496B2 (en) | Method and apparatus to perform speech recognition over a data channel | |
US20030195006A1 (en) | Smart vocoder | |
US20020049860A1 (en) | Tone detection elimination | |
US20040220803A1 (en) | Method and apparatus for transferring data over a voice channel | |
EP1711024A1 (en) | Apparatus and method for switching a voice codec of a mobile terminal | |
JP3675480B2 (ja) | 移動通信システムにおいてスピーチ送信する方法及び装置 | |
JP2001320780A (ja) | 無線ネットワークにおいて用いる移動局および無線ネットワークにおいて移動局と基地局との間で信号を送信する際に用いる方法 | |
CN100479517C (zh) | 在发送音视频文件中叠加语音的方法 | |
CN1265352C (zh) | 一种在声音信道上进行语音识别的方法和装置 | |
US6324515B1 (en) | Method and apparatus for asymmetric communication of compressed speech | |
CN101322375B (zh) | 音频数据包格式及其解码方法、校正移动通信终端编解码器安装错误的方法以及执行该方法的移动通信终端 | |
CN100563334C (zh) | 在无线终端的视频电话模式中发送图像数据的方法 | |
US6813601B1 (en) | Highly compressed voice and data transmission system and method for mobile communications | |
CN1149777C (zh) | 发送编码的电信信号的方法、系统及其设备 | |
JP4077037B2 (ja) | セルラーのビットストリームと有線波形の間でマッピングするための方法および装置 | |
KR20010071980A (ko) | 디지털 유용 데이터를 송신하는 방법 | |
JPH1065655A (ja) | マルチメディア通信方法及びシステム | |
JP4188190B2 (ja) | 情報マルチプレクサ、音声処理デバイス、情報デマルチプレクサ、受信処理デバイス、電話端末、ノード、電話システム、情報多重化方法、情報分離方法、情報多重化プログラム、情報分離プログラム、および該プログラムを記録した記録媒体 | |
JP2002084518A (ja) | オブジェクト選択式情報通信方法及びその装置 | |
JPH09160598A (ja) | 通信端末装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060719 Termination date: 20151120 |
|
CF01 | Termination of patent right due to non-payment of annual fee |