CN1628339A - 一种在声音信道上进行语音识别的方法和装置 - Google Patents

一种在声音信道上进行语音识别的方法和装置 Download PDF

Info

Publication number
CN1628339A
CN1628339A CNA028128508A CN02812850A CN1628339A CN 1628339 A CN1628339 A CN 1628339A CN A028128508 A CNA028128508 A CN A028128508A CN 02812850 A CN02812850 A CN 02812850A CN 1628339 A CN1628339 A CN 1628339A
Authority
CN
China
Prior art keywords
bit stream
phonetic feature
feature
voice
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028128508A
Other languages
English (en)
Other versions
CN1265352C (zh
Inventor
戴维·格劳曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN1628339A publication Critical patent/CN1628339A/zh
Application granted granted Critical
Publication of CN1265352C publication Critical patent/CN1265352C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Transceivers (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Machine Translation (AREA)
  • Communication Control (AREA)

Abstract

本发明描述了一种在声音信道上进行语音识别的方法和装置。其中接收一组语音信号,并且接收在声音信道上的对语音识别信息的请求。从所述信号创建一组语音特征,然后在所述声音信道上传输所述语音特征。

Description

一种在声音信道上进行语音识别的方法和装置
背景技术
语音识别技术对访问自动系统正变得越来越普及。例如,语音识别可用来远程操纵自动声音应答系统、访问允许声音的因特网门户、控制家庭自动化系统等等。但是,许多声音信道可能并未设计成可以适应语音识别技术中的改进。对于无线通信技术尤其是这样。所以,有在声音信道上改进语音识别的需要,例如在移动或蜂窝式通信系统中所发现的。
附图说明
在本发明的权利要求部分中具体地指出和清楚地要求了被认为是本发明实施例的主题。但是,关于构成和操作方法两者的本发明的实施例,与其目标、特征和优点一同,当与附图一起阅读时,可以通过参考下面详细的描述被最好地理解,其中:
图1是适于实现本发明的一个实施例的系统;
图2是根据本发明一个实施例的源节点的方框图;
图3是根据本发明一个实施例的语音识别编码器的方框图;
图4是根据本发明一个实施例的目的地节点的方框图;
图5是根据本发明一个实施例的语音识别解码器的方框图;
图6是由根据本发明一个实施例的语音识别系统执行的编程逻辑的第一方框流程图;
图7是由根据本发明一个实施例的语音识别系统执行的编程逻辑的第二方框流程图;
图8是根据本发明一个实施例的取代(subrogation)覆盖的例子。
具体实施方式
本发明的实施例可指通过声音编码/解码器(“声码器(vocoder)”)取代而完成的分布式语音识别。声码器取代可指用更低带宽替代来替换传统的声音压缩方案,此替代是被设计来提高语音识别性能的。这里使用的术语“替换”可指将一组信息的全部或一部分替换为另一组信息。本发明的一个实施例描述了建立协议的一种方法,用于当适于提供语音识别信息时切换到较低带宽方案,例如响应于来自自动系统的提示的声音命令。更具体而言,本发明的一个实施例编码来自一个端点的语音特征,并将该语音特征覆盖到代表所编码语音的声码器比特流上。随后另一个端点可接收并解码该语音特征以用于语音识别模块或设备。
本发明的一个实施例可包括一种方法和装置,用于在一个声音信道上进行语音识别,例如是移动或蜂窝式通信系统的一部分的声音信道。本发明的一个实施例可包括语音识别编码器和语音识别解码器。语音识别编码器可将代表语音的信息比特替换为代表语音特征的信息比特。该语音特征可在网络的声音信道上传输,例如无线网络。语音识别解码器可接收该语音特征并进行语音识别。编码和解码语音特征以替换语音的过程在这里可称为“取代”。
本发明的实施例可有几个优点。例如,移动或蜂窝式通信系统利用射频(RF)来在设备之间传输信息。RF可分成一个或多个声音信道。但是,这些声音信道在可传输的信息量方面是有限的,所述信息量通常按照带宽(BW)来衡量。为了最好地利用现有的移动通信声音信道的BW,许多移动系统采用压缩技术来减少需要用来代表语音的比特数。本发明的一个实施例可通过将代表语音的比特替换为代表所述语音的语音特征的比特而来进一步减少此数量。此外,语音特征可在替换过程之前压缩,从而进一步减少用来代表语音特征的比特数。本发明的此实施例可使用带附加硬件和/或软件的传统无线技术来实现,所述附加硬件和/或软件用来实现这里描述的功能。
在此详细描述中,给出了大量的具体细节以提供对本发明实施例的充分理解。但是,本领域的技术人员将理解没有这些具体细节也可以实现本发明。在其它情况下,没有详细地描述公知的方法、过程、元件和电路,以免不必要地模糊本发明的实施例。能够理解,这里公开的具体的结构上和功能上的细节可以是代表性的而不一定限定本发明的范围。
本发明的实施例可以包括功能,其可以实现为由处理器执行的软件、硬件电路或结构或者二者的结合。所述处理器可以是通用或专用处理器,例如来自由Intel公司、摩托罗拉股份公司、太阳微系统股份公司和其它公司制造的处理器系列的处理器。所述软件可以包括为本发明的实施例实现某种功能的编程逻辑、指令或数据。软件可以存储于机器可存取的介质或计算机可读介质,例如只读存储器(ROM)、随机存取存储器(RAM)、磁盘(例如软盘和硬盘)、光盘(例如CD-ROM)或任何其它数据存储介质。在本发明的一个实施例中,介质可以以压缩和/或加密的格式存储编程指令以及在由处理器执行之前可能必须由安装器编译或安装的指令。或者,本发明的实施例可以实现为具体的硬件元件,其包含用于执行所述功能的硬连线逻辑,或者由被编程的通用计算机元件和定制硬件元件的任何组合来实现。
值得注意的是,任何在说明书中提到的“一个实施例”或“实施例”是指所描述的与实施例有关的具体的特征、结构或特性被包括在本发明的至少一个实施例中。说明书中不同位置中出现的短语“在一个实施例中”不一定都是指相同的实施例。
现在详细参照附图,其中自始至终类似的部分由相同的标号标明,图1图示了适于实现本发明的一个实施例的系统。图1是语音识别系统100的方框图。语音识别系统100可包括通过网络104连接的源节点102和目的地节点106。在本发明的一个实施例中,源节点102可包括例如移动台(MS),例如移动电话或蜂窝式电话。在本发明的一个实施例中,目的地节点106可包括例如移动基站(BS)或移动电话交换局(MTSO)。在本发明的一个实施例中,网络104包括无线网络,其使用RF频谱来作为通信介质以在源节点102和目的地节点106之间传输信息。
值得注意的是,所描述的关于BS、MS、MTSO或网络的任何取代功能可以在系统100的其它地方实现而仍然落在本发明的范围之内。例如,对MS的取代能力的检测可由BS、MS、MTSO或网络中的其它地方启动而仍然落在本发明的范围之内。
目的地节点106可包括应用服务器,所述应用服务器配置有硬件和/或软件,以作为能够接受语音识别输出的自动系统(未示出)而进行操作。语音识别输出可包括,例如声转文(speech to text)输出。这里使用的术语“自动系统”可指一个以受限的人类干预来操作的系统。自动系统的一个例子可包括,例如IVR(交互式语音应答)系统、因特网声音门户、家庭自动化系统和自动目录辅助应用,尽管本发明的实施例并不局限于此。
图2是根据本发明一个实施例的源节点的方框图。图2图示了可代表例如源节点102的源节点200。在本发明的一个实施例中,源节点200可包括麦克风202、转换器204、声码器206、语音识别编码器208和收发器210。
在本发明的一个实施例中,麦克风202可从例如讲话人接收模拟语音信号。麦克风202可将模拟语音信号发送到转换器204。
在本发明的一个实施例中,转换器204可以是例如模数(A/D)转换器。转换器204可将模拟语音信号转换成以比特流或比特序列表示的数字语音信号。每一比特可代表例如一(1)或零(0)。转换器204可将比特流发送到声码器206和语音识别编码器208。
声码器206可实施任何传统的声音压缩算法以减少数字语音信号。例如,在本发明的一个实施例中,声码器206可实施符合1996年3月批准的题为“Dual Rate Speech Coder For Multimedia Communications Transmittingat 5.3 and 6.3k/bps”的国际电信联盟推荐(ITU Recommendation)G.723.1(“G.723规范”)的声音压缩方案。在另一个例子中,声码器206可实施符合与全球移动通信系统(GSM)相关的任何标准的声音压缩方案。
在本发明的一个实施例中,声码器206可实施产生比这里描述的取代过程更高BW的声音压缩算法。声码器206还可将包括数字语音信号的比特流组织成离散的帧。一个帧可代表具有固定或可变长度的一个逻辑组的比特。声码器206可将这些帧发送到语音识别编码器208。
语音识别编码器208改进语音识别并降低声音信道的BW要求,所述声音信道可以是网络104的一部分。语音识别编码器208可从数字语音信号中提取语音特征并压缩该语音特征以形成比特帧。压缩语音特征的帧可随后覆盖从声码器206接收的压缩语音帧,并传递到收发器210以在网络104上传输。可参考图3更详细地讨论语音识别编码器208。
收发器210可包括用于MS、BS或MTSO的发送器、接收器和逻辑区。发送器可将低电平音频信号转换成RF载波频率中的成比例平移。接收器可将低电平RF信号放大并解调为它们原始的音频形式。控制区可通过插入或提取合适的系统控制消息来协调此操作。收发器210可连接到天线组件(未示出)。
图3是根据本发明一个实施例的语音识别编码器的方框图。图3图示了一种语音识别编码器300,其可实施为例如源节点102的一部分。语音识别编码器300可包括例如,特征编码器302、空特征生成器(emptyfeature factory)308、发声端指针(utterance endpointer)310、特征覆盖器312和能力监视器314。
特征编码器302还可包括特征提取器304和特征压缩器306。特征提取器304可从输入语音信号中提取语音特征,所述输入语音信号例如是来自转换器204的数字语音信号。语音特征可包括例如特征向量。在本发明的一个实施例中,特征提取器304可按照以下标准来提取语音特征,即2000年4月批准的题为“Speech Processing,Transmission and Qualityaspects(STQ);Distributed speech recognition;Front-end feature extractionalgorithm;Compression algorithms”的欧洲电信标准协会标准(ETSIStandard)ES 201 108 v.1.1.2(“Aurora规范”)。
在本发明的另一个实施例中,输入语音信号可代表由麦克风202所收到并传递到语音识别编码器300的模拟语音信号。任何用于提取语音特征的传统算法都可由特征提取器304来实现并落在本发明的范围之内。特征压缩器306可使用任何传统的压缩算法来将语音特征压缩成减少的比特数。已压缩语音特征可被传递到特征覆盖器312。
空特征生成器308可提供由特征覆盖器312在转换器的沉默周期期间使用的固定低比特率向量。这些向量可以是预定的并且不象在特征编码器302中那样从转换器中提取。在特征覆盖器312中使用特征编码器302或空特征生成器308可由发声端指针310中的发声端点确定来控制。
发声端指针310可实施任何传统的声音活动检测方案,以确定语音发声的起点和终点并识别沉默周期。特征覆盖器312可使用此信息来控制用语音特征或沉默周期覆盖在声码器比特流上。发声端指针310可监控语音并可向特征覆盖器312表明有效的语音。如果能力监视器314表明此模式是合适的则可随后覆盖特征。当讲话人停止说话时,发声端指针310可表明没有语音活动并可使用来自空特征生成器308的“空特征”。这对诸如保持与BS 106同步是所期望的。
特征覆盖器312可将已压缩的语音特征组织成比特帧,其帧的大小与诸如声码器206所使用帧的大小相匹配。如果需要的话,此功能还可实施为特征编码器302的一部分。特征覆盖器312可将代表由声码器206编码的语音的比特帧替换为代表由特征编码器302编码的语音特征的比特帧。特征覆盖器312还可用各种信令模式来改写声码器比特,所述信令模式被用来控制取代过程,例如表明取代能力、取代起点和终点以及其它协议类型信息。
能力监视器314可检测目的地节点是否能够接受取代比特流。能力监视器314可监视要求语音识别信息的请求。语音识别信息可包括例如对声音命令的提示和取代标识。这里所指的术语“声音命令提示”可包括从诸如IVR系统的自动系统来的任何对所说出的信息的请求。取代标识可以是例如嵌入在声码器比特流中的预定义比特模式。在本发明的一个实施例中,比特模式可以是听不到的或者几乎听不到的,以免用户分心。一旦检测到,能力监视器314则可通知语音识别编码器开始传输的取代方案。如果目的地节点不能接受取代比特流,则可绕过语音识别编码器而恢复正常的声码器操作。这可由在特定的时间间隔内收到声音命令提示而未收到取代标识来表明。由于无线声音信道的“有损”性质,可以使用权重匹配算法来检测有或者没有声音命令提示和/或取代标识。
图4是根据本发明一个实施例的目的地节点的方框图。图4图示了可代表例如目的地节点106的目的地节点400。目的地节点400可包括,例如收发器402、声码器404和语音识别解码器406。收发器402和声码器404分别类似于收发器210和声码器206。语音识别解码器406的输出可用于任何语音识别应用,例如自动系统的声转文应用。
图5是根据本发明一个实施例的语音识别解码器的方框图。图5图示了语音识别解码器500。语音识别解码器500可包括起始监视器502、能力广播器504、特征解码器506、特征提取器512和语音识别模块514。
特征解码器506还可包括特征重构器508和特征解压缩器510。特征重构器508可去掉取代信令字段,并将一个或多个帧中从源节点接收的语音特征分段连结成完整的语音特征包。重构的包可被发送到特征解压缩器510。
特征解压缩器510可从被压缩的语音特征包重组语音特征。特征解压缩器510还可应用由语音识别编码器提供的任何纠错。语音特征可被传递到语音识别模块514。
语音识别模块514可将语音特征解码成文本。语音识别模块514可代表自包含(self-contained)语音识别引擎的一个子集,因为它不输入数字语音信号并且不应用特征提取。相反,它接收从源节点发送来的预先提取的特征作为输入。所述文本可用于任何自动系统或传统的声转文应用。
特征提取器512可类似于语音识别编码器302的特征提取器304。在目的地节点不具有取代能力的情况下,特征提取器512可从由声码器404解码的语音中提取语音特征。在此情况下,起始监视器502可发送一个信号到语音识别模块514,以使用特征提取器512的输出来进行语音识别,而不是使用特征解码器506的输出。
可进一步参考图6到8和所附的例子来描述系统100到500的操作。虽然这里给出的图6到8可包括具体的处理逻辑,但可以理解处理逻辑仅仅提供了如何实施这里所描述的一般功能的例子。此外,给定处理逻辑中的每个操作并不必要以给出的顺序来进行,除非表明必须如此。
图6是由根据本发明一个实施例的语音识别系统执行的编程逻辑的第一方框流程图。图6图示了进行语音识别的编程逻辑600。在框602处可以接收代表语音的一组信号。在框604处,可在声音信道上接收要求语音识别信息的请求。在框606处可从所述信号创建一组语音特征。在框608处可在声音信道上传输所述语音特征。
在本发明的一个实施例中,所述请求可包括接收对声音命令的提示。所述请求还可包括接收取代标识,例如预定义的位模式。在本发明的另一个实施例中,所述请求可仅仅包括一个取代标识。
在本发明的一个实施例中,可通过从语音信号中提取语音特征来创建一组语音特征。这些语音特征可随后被压缩,并可将任何纠错应用到被压缩的语音特征上。
在本发明的一个实施例中,语音特征可通过创建代表语音的第一位流而在声音信道上传输。可从例如特征编码器接收代表语音特征的第二位流。第一位流可由第二位流替换,并在声音信道上发送。
在本发明的一个实施例中,可通过接收代表语音的模拟音频波形来创建第一位流。模拟音频波形可转换成数字音频信号。可使用声音编码算法来压缩数字音频信号。
在本发明的一个实施例中,可通过为第一位流来确定起点和终点来用第二位流替换第一位流。还可为第二位流确定起点和终点。可用第二位流来替换第一位流并使用这些起点和终点来同步该替换。
在本发明的一个实施例中,可通过创建从第一位流的起点开始的位帧而使用这些起点和终点来用第二位流替换第一位流。可从第二位流的起点开始覆盖位帧。可在声音信道上发送所述帧。可重复此过程直到到达第二位流的终点。
在本发明的一个实施例中,可通过将起始标识插在第二位流的起点之前,并将结束标识插在第二位流的终点之后,而在声音信道上发送第二位流。第二位流可和起始、结束标识一起被发送。
图7是由根据本发明一个实施例的语音识别系统执行的编程逻辑的第二方框流程图。图7图示了进行语音识别的编程逻辑700。在框702处,可在声音信道上发送要求语音识别信息的请求。在框704处可在声音信道上接收语音特征。在框706处可使用所述语音特征来识别语音。
在本发明的一个实施例中,可在声音信道上以对声音命令的提示和/或取代标识的形式来发送对语音识别的请求。取代标识可以是预定义的位模式。
在本发明的一个实施例中,可通过确定位流的起点和终点而在声音信道上接收语音特征。语音特征可从起点开始重构。可解压缩重构的语音特征而形成原始的语音特征。解压缩的语音特征可被发送到语音识别设备。可继续此过程直到到达终点。
在本发明的一个实施例中,可通过从位流中提取纠错信息来进行纠错。可使用纠错信息来确定语音特征是否包括错误。
图8是根据本发明一个实施例的取代覆盖的例子。图8中描述的取代覆盖过程可使用因特网协议(IP)电话的例子,该例子使用G.723规范和Aurora规范中所描述的技术,尽管本发明的实施例并不局限于此。一旦初始能力协议已经确认可以开始取代,就将较高BW包的位模式用较低BW包来替换。特征覆盖器和特征重构器一起操作来进行位替换。在此例子中,一个Aurora特征帧描述340毫秒(msec)的语音,而一个G.723帧则描述30毫秒的语音。构成特征帧的144位部分可放置在连续的G.723帧中。根据Aurora规范,特征同步和特征头部信息在实际的特征位之前。这些操作对取代过程可以是透明的。可使用附加位来保持两个端点之间的取代信令同步,所述两个端点例如是源节点和目的地节点。取代同步位可表明整个特征帧中哪部分是在G.723帧中发送的,并包括起始和停止特征何时出现。在本发明的另一个实施例中,这可使用例如帧位的直方图来完成。
更具体而言,图8图示了第一组帧802、第二组帧806、第三组帧808和取代同步块804。在此例子中,帧组802包括八个帧802a到802h。在本发明的一个实施例中,根据G.723规范来生成这些帧。所有8个帧具有由共1392比特代表的240毫秒(msec)的语音,并且每个帧具有由174比特代表的30毫秒(msec)的语音。
帧组806也可包含8个帧806a-806h。在本发明的一个实施例中,根据Aurora规范来产生这些帧。帧组806也被分成30毫秒的帧,每个帧由144位代表。但是,语音特征信息的单个30毫秒帧可代表相当于240毫秒的语音,由此用因子8来表示BW约简(reduction)。取决于本发明具体实施例所使用的语音特征提取技术,语音特征信息可包括,例如特征同步信息、特征头部信息和特征包。特征包可包括,例如代表语音特征的位包。
如图8所示,取代覆盖过程可包括取一个语音特征信息帧,加入诸如取代同步块804的同步头部,以及将此信息覆盖在来自帧组802的语音帧上。例如,帧组806的帧806a可与取代同步块804结合,并放在帧组802的帧802a上。类似地,帧组806的帧806b可与取代同步块804结合,并放在帧组802的帧802b上。可继续此覆盖过程直到目的地节点处的语音识别解码器已经接收到所有的特征包。
可通过例子来更好地理解系统100到500的操作以及图6到8。假定源节点102是诸如蜂窝电话的MS。假定目的地节点106是连接到应用服务器上的BS,所述应用服务器具有进行自动目录辅助的软件应用。源节点102和目的地节点106在无线网络104上通信,无线网络104包括用RF频谱定义的声音信道。用户启动与应用服务器的连接。服务器向用户提供一些关于如何使用服务的介绍性信息。此信息使用正常的声音压缩方案来发送,这些方案例如GSM或G.723。
服务器随后给出声音提示,要一个启动目录辅助搜索的名字。在目的地节点106,能力广播器504可将包括听不到或几乎听不到模式的取代标识注入正常的声码器位流,以表示此端点能够接受取代位流。该模式可以是任何预定义的模式并是所使用的具体声码器的功能。在此例子中,可将G.723的增益位设成最低的设置,并可使用生理上不能接收的向量序列来作为信令模式。此模式可跨越几个帧。在另一个例子中,还可采用心理听觉掩码(psycho-acoustical masking)来作为模式。取决于具体的声码器和模式方案,可能需要禁止能力广播器504以使收听者能听到来自自动系统的应答。如果是这样,可以配置能力广播器504,用于允许和禁止诸如起始监视器502的取代起始监视器。
在源节点102处,能力监视器314可监视来自目的地节点106的取代标识。一旦检测到,能力监视器314就可通知语音识别编码器300开始取代方案,以传输用户响应于自动系统的声音提示而说出的人或企业的名字。如果能力监视器314未能检测到取代标识,那么可使用正常的声音压缩方案来将所说出的名字发送到自动系统。
在目的地节点106处,起始监视器502监视取代位流的开始。起始监视器502可通过在所收到的位流中接收取代模式的起始而检测取代位流的开始。在此例子中,如果所述模式不为收听者转换成音频信号,则所述模式并非必须是听不到的。在切换到语音识别解码过程期间,声码器可能输出一个在约200毫秒的量级上的短的失真信号。在本发明的另一个实施例中,这可以通过增加系统等待时间来避免。在此例子中,起始监视器502检测取代模式的开始,并向语音识别模块514发送一个信号,以使用特征解码器506的输出作为语音识别过程的输入。起始监视器502可以这样来切换此路径,以使输入的取代帧内容对于帧重构过程是位对齐的。
再参考源节点102,特征编码器302接收代表所说出的声音命令的输入语音信号,在此情况下声音命令可以是一个名字。特征编码器302根据Aurora规范开始语音特征提取过程。在此例子中,特征提取器304为特征提取使用16千赫、16位采样大小。特征提取器304将所提取的语音特征或特征向量发送到特征压缩器306。特征压缩器306将特征向量压缩成较低BW的位流,并可视情况而应用纠错。此被压缩的位流可传递到特征覆盖器312。
特征覆盖器312接收被压缩的位流并开始取代覆盖过程。特征覆盖器312接收代表来自声码器206的语音的位流,并用信令模式和特征向量重写声码器位。一旦能力监视器314检测到取代标识,则特征覆盖器312可在声码器包中传输固定开始的特征模式。接着的可以是从特征向量提取的顺序位,所述顺序位和声码器的合适帧的大小对齐。这可按照参考图8所描述的过程来完成。
在目的地节点106,特征重构器508可开始去掉取代信令字段,并将从源节点接收的特征分段连结回完整的特征包。重构的特征包可随后发送到特征解压缩器510。特征解压缩器510可重组特征向量,并应用由特征压缩器306提供的任何纠错。特征向量可随后被传递到语音识别模块514。
语音识别模块514可接收特征向量并将其转换成文本,或在此情况下就是需要其号码的人的名字。语音识别模块514可包括例如某种意义上的自包含语音识别引擎,即它不进行特征提取,相反它接收之前提取的特征向量作为语音识别过程的输入。语音识别模块514可将所请求的名字的文本发送到自动目录辅助软件,以开始查号过程。
在一些情况下,目的地节点106可从一个不能发送取代位流的源节点接收声音命令。在此情况下,起始监视器502可将语音识别模块514的输入切换成特征提取器512的输出。特征提取器512类似于特征提取器304,尽管在一些情况下可能需要配置特征提取器512以使用由所使用的特定声码器提供的比特率和采样大小。
在另一个例子中,在呼叫设置或建立期间可能出现由远程端点对取代能力的检测。这可减少或避免在逐个发声的基础上或每个语音信息请求的基础上进行检查过程的需要。在此例子中,一旦检测到取代能力,则来自一个用户在MS上的所有通信都可使用取代而在一个声音信道上发送。但是,来自自动系统或BS的通信可根据传统的声音压缩技术而在该声音信道上发送。
如这里所描述的,已经举例说明了本发明的实施例的某些特征,本领域技术人员现在可以想到许多修改、替代、改变和等同物。因而,应该理解所附权利要求是为了覆盖所有落在本发明实施例的真实精神中的修改和改变。

Claims (38)

1.一种进行语音识别的方法,包括:
接收代表语音的一组信号;
在声音信道上接收对语音识别信息的请求;
从所述信号创建一组语音特征;以及
在所述声音信道上传输所述语音特征。
2.如权利要求1所述的方法,其中所述接收所述请求包括:
接收对声音命令的提示;以及
接收取代标识。
3.如权利要求2所述的方法,其中所述取代标识是预定义的比特模式。
4.如权利要求1所述的方法,其中所述创建包括:
从所述信号提取所述语音特征;以及
压缩所述语音特征。
5.如权利要求4所述的方法,还包括将纠错应用到所述被压缩的语音特征。
6.如权利要求4所述的方法,还包括确定所述信号中的沉默周期。
7.如权利要求1所述的方法,其中所述传输包括:
创建代表所述语音的第一比特流;
接收代表所述语音特征的第二比特流;
将所述第一比特流用所述第二比特流替换;以及
在所述声音信道上发送所述第二比特流。
8.如权利要求7所述的方法,其中所述创建包括:
接收代表所述语音的模拟音频波形;
将所述模拟音频波形转换成数字音频信号;以及
使用声音编码算法来压缩所述数字音频信号。
9.如权利要求7所述的方法,其中所述替换包括:
确定所述第一比特流的起点和终点;
确定所述第二比特流的起点和终点;以及
使用所述起点和所述终点来将所述第一比特流用所述第二比特流替换。
10.如权利要求9所述的方法,其中所述使用所述起点和所述终点来将所述第一比特流用所述第二比特流替换,包括:
(a)从所述第一比特流的所述起点开始创建比特帧;
(b)用所述第二比特流的所述起点来覆盖所述比特帧;
(c)在所述声音信道上发送所述比特帧;以及
(d)继续(a)到(c),直到到达所述第二比特流的所述终点。
11.如权利要求9所述的方法,其中所述发送包括:
将起始标识插在所述第二比特流的所述起点之前,并将结束标识插在所述第二比特流的所述终点之后;以及
将所述起始和结束标识与所述第二比特流一起发送。
12.一种进行语音识别的方法,包括:
在声音信道上发送对语音识别信息的请求;
在所述声音信道上接收所述语音特征;以及
使用所述语音特征识别语音。
13.如权利要求12所述的方法,其中所述发送包括:
发送对声音命令的提示;以及
发送取代标识。
14.如权利要求13所述的方法,其中所述取代标识是预定义的比特模式。
15.如权利要求12所述的方法,其中所述接收包括:
(a)确定比特流的起点和终点;
(b)从所述起点重构所述语音特征;
(c)解压缩所述语音特征;
(d)将所述被解压缩的语音特征发送到语音识别设备;以及
(e)进行(a)到(d),直到到达所述终点。
16.如权利要求15所述的方法,还包括:
从所述比特流中提取纠错信息;以及
使用所述纠错信息来确定所述语音特征是否包括错误。
17.一种进行语音识别的系统,包括:
源节点,发送语音特征;
目的地节点,接收语音特征并进行语音识别;和
网络,通过在声音信道上覆盖所述语音特征来在所述源节点和所述目的地节点之间传输所述语音特征。
18.如权利要求17所述的系统,其中所述源节点包括:
收发器,与所述目的地节点传输信息;
能力监视器,监视来自所述收发器的对语音识别信息的请求;
声码器,创建代表语音的第一比特流;
特征编码器,创建代表所述语音的语音特征的第二比特流;和
特征覆盖器,用所述第二比特流覆盖所述第一比特流,并将所述第二比特流发送到所述收发器以传输到所述目的地节点。
19.如权利要求17所述的系统,其中所述特征编码器包括:
特征提取器,从所述语音提取所述语音特征;和
特征压缩器,将所述语音特征压缩成所述第二比特流。
20.如权利要求17所述的系统,其中所述目的地节点包括:
收发器,与所述源节点传输信息;
能力广播器,将语音识别请求传输到所述源节点;
起始监视器,监视具有来自所述收发器的语音特征的比特流;
特征解码器,从所述比特流解码所述语音特征;和
语音识别模块,将所述语音特征转换为文本。
21.如权利要求20所述的系统,其中所述特征解码器包括:
特征重构器,从所述比特流重构语音特征;和
特征解压缩器,解压缩所述重构的语音特征。
22.如权利要求17所述的系统,其中所述网络是无线网络。
23.一种语音识别编码器,包括:
能力监视器,监视对语音识别信息的请求;
声码器,创建代表语音的第一比特流;
特征编码器,创建代表所述语音的语音特征的第二比特流;和
特征覆盖器,用所述第二比特流覆盖所述第一比特流。
24.如权利要求23所述的语音识别编码器,其中所述特征编码器包括:
特征提取器,从所述语音提取所述语音特征;和
特征压缩器,将所述语音特征压缩成所述第二比特流。
25.一种语音识别解码器,包括:
能力广播器,传输语音识别请求;
起始监视器,监视具有语音特征的比特流;
特征解码器,从所述比特流解码所述语音特征;和
语音识别模块,将所述语音特征转换为文本。
26.如权利要求25所述的语音识别解码器,其中所述特征解码器包括:
特征重构器,从所述比特流重构语音特征;和
特征解压缩器,解压缩所述重构的语音特征。
27.一种制品,包括:
存储介质;
所述存储介质包括所存储的指令,当所述所存储的指令由处理器执行时,通过以下动作引起进行语音识别:接收代表语音的一组信号;在声音信道上接收对语音识别信息的请求;从所述信号创建一组语音特征;以及在所述声音信道上传输所述语音特征。
28.如权利要求27所述的制品,其中当所述所存储的指令由处理器执行时,还通过以下动作引起接收所述请求:接收对声音命令的提示;以及接收取代标识。
29.如权利要求27所述的制品,其中当所述所存储的指令由处理器执行时,还通过以下动作引起所述创建:从所述信号提取所述语音特征;以及压缩所述语音特征。
30.如权利要求27所述的制品,其中当所述所存储的指令由处理器执行时,还通过以下动作引起所述传输:创建代表所述语音的第一比特流;接收代表所述语音特征的第二比特流;将所述第一比特流用所述第二比特流替换;以及在所述声音信道上发送所述第二比特流。
31.如权利要求30所述的制品,其中当所述所存储的指令由处理器执行时,还通过以下动作引起所述创建:接收代表所述语音的模拟音频波形;将所述模拟音频波形转换成数字音频信号;以及使用声音编码算法来压缩所述数字音频信号。
32.如权利要求30所述的制品,其中当所述所存储的指令由处理器执行时,还通过以下动作引起所述替换:确定所述第一比特流的起点和终点;确定所述第二比特流的起点和终点;以及使用所述起点和所述终点来将所述第一比特流用所述第二比特流替换。
33.如权利要求32所述的制品,其中当所述所存储的指令由处理器执行时,还通过以下动作引起所述使用所述起点和所述终点来将所述第一比特流用所述第二比特流替换:(a)从所述第一比特流的所述起点开始创建比特帧;(b)由所述第二比特流的所述起点来覆盖所述比特帧;(c)在所述声音信道上发送所述比特帧;以及(d)继续(a)到(c)直到到达所述第二比特流的所述终点。
34.如权利要求32所述的制品,其中当所述所存储的指令由处理器执行时,还通过以下动作引起所述发送:将起始标识插在所述第二比特流的所述起点之前,并将结束标识插在所述第二比特流的所述终点之后;以及将所述起始和结束标识与所述第二比特流一起发送。
35.一种制品,包括:
存储介质;
所述存储介质包括所存储的指令,当所述所存储的指令由处理器执行时,通过以下动作引起进行语音识别:在声音信道上发送对语音识别信息的请求;在所述声音信道上接收所述语音特征;以及使用所述语音特征识别语音。
36.如权利要求35所述的制品,其中当所述所存储的指令由处理器执行时,还通过以下动作引起所述发送:发送对声音命令的提示;以及发送取代标识。
37.如权利要求35所述的制品,其中当所述所存储的指令由处理器执行时,还通过以下动作引起所述接收:(a)确定比特流的起点和终点;(b)从所述起点重构所述语音特征;(c)解压缩所述语音特征;(d)将所述被解压缩的语音特征发送到语音识别设备;以及(e)进行(a)到(d)直到到达所述终点。
38.如权利要求37所述的制品,其中当所述所存储的指令由处理器执行时,还引起以下动作:从所述比特流中提取纠错信息;以及使用所述纠错信息来确定所述语音特征是否包括错误。
CNB028128508A 2001-11-30 2002-11-20 一种在声音信道上进行语音识别的方法和装置 Expired - Fee Related CN1265352C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/000,228 2001-11-30
US10/000,228 US7139704B2 (en) 2001-11-30 2001-11-30 Method and apparatus to perform speech recognition over a voice channel

Publications (2)

Publication Number Publication Date
CN1628339A true CN1628339A (zh) 2005-06-15
CN1265352C CN1265352C (zh) 2006-07-19

Family

ID=21690506

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028128508A Expired - Fee Related CN1265352C (zh) 2001-11-30 2002-11-20 一种在声音信道上进行语音识别的方法和装置

Country Status (8)

Country Link
US (1) US7139704B2 (zh)
EP (1) EP1435086B1 (zh)
CN (1) CN1265352C (zh)
AT (1) ATE422087T1 (zh)
AU (1) AU2002364899A1 (zh)
DE (1) DE60231049D1 (zh)
TW (1) TWI282547B (zh)
WO (1) WO2003046885A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106792048A (zh) * 2016-12-20 2017-05-31 Tcl集团股份有限公司 一种识别智能电视用户语音命令的方法和装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US7292689B2 (en) * 2002-03-15 2007-11-06 Intellisist, Inc. System and method for providing a message-based communications infrastructure for automated call center operation
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
US8615409B1 (en) 2005-04-15 2013-12-24 Recovery Data-Connect, L.L.C. System and method for identification, perfection, collection, and valuation of third-party claims including subrogation claims
TWI376107B (en) * 2005-06-30 2012-11-01 Lg Electronics Inc Apparatus for encoding and decoding audio signal and method thereof
US8483381B2 (en) 2006-10-27 2013-07-09 At&T Intellectual Property I, L.P. Methods and apparatus to provide contact management with directory assistance
CN101436404A (zh) * 2007-11-16 2009-05-20 鹏智科技(深圳)有限公司 可会话的类生物装置及其会话方法
US10785681B1 (en) * 2019-05-31 2020-09-22 Huawei Technologies Co., Ltd. Methods and apparatuses for feature-driven machine-to-machine communications

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5483579A (en) * 1993-02-25 1996-01-09 Digital Acoustics, Inc. Voice recognition dialing system
GB2280820A (en) * 1993-07-29 1995-02-08 Ibm Distributed system for call processing
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US5822727A (en) * 1995-03-30 1998-10-13 At&T Corp Method for automatic speech recognition in telephony
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
GB9602701D0 (en) * 1996-02-09 1996-04-10 Canon Kk Image manipulation
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6292781B1 (en) 1999-05-28 2001-09-18 Motorola Method and apparatus for facilitating distributed speech processing in a communication system
US6178404B1 (en) * 1999-07-23 2001-01-23 Intervoice Limited Partnership System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106792048A (zh) * 2016-12-20 2017-05-31 Tcl集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
CN106792048B (zh) * 2016-12-20 2020-08-14 Tcl科技集团股份有限公司 一种识别智能电视用户语音命令的方法和装置

Also Published As

Publication number Publication date
WO2003046885A3 (en) 2004-05-06
TWI282547B (en) 2007-06-11
AU2002364899A1 (en) 2003-06-10
CN1265352C (zh) 2006-07-19
EP1435086A2 (en) 2004-07-07
WO2003046885A2 (en) 2003-06-05
AU2002364899A8 (en) 2003-06-10
US20030105635A1 (en) 2003-06-05
DE60231049D1 (de) 2009-03-19
EP1435086B1 (en) 2009-01-28
TW200301459A (en) 2003-07-01
US7139704B2 (en) 2006-11-21
ATE422087T1 (de) 2009-02-15

Similar Documents

Publication Publication Date Title
US5666357A (en) DTMF tone passer in a voice communication system
FI114073B (fi) Menetelmä ja laitteisto aikaherkän viestin tuottamiseksi säädettävää viivekanavaa pitkin
CN1123253C (zh) 数字无线电系统、数字信号处理器和该处理器的操作方法
US6985965B2 (en) Static information knowledge used with binary compression methods
US20030195006A1 (en) Smart vocoder
US20070174046A1 (en) Method and apparatus to perform speech recognition over a data channel
US20020049860A1 (en) Tone detection elimination
CN101299632A (zh) 通过音频通信系统的数据传输的同步及段类型检测方法
EP1711024A1 (en) Apparatus and method for switching a voice codec of a mobile terminal
JP3675480B2 (ja) 移動通信システムにおいてスピーチ送信する方法及び装置
US6963587B2 (en) Communication system and method utilizing request-reply communication patterns for data compression
CN1265352C (zh) 一种在声音信道上进行语音识别的方法和装置
CA2428788C (en) Static information knowledge used with binary compression methods
US6324515B1 (en) Method and apparatus for asymmetric communication of compressed speech
KR100706968B1 (ko) 오디오 데이터 패킷 생성 장치 및 이의 복조 방법
CN100563334C (zh) 在无线终端的视频电话模式中发送图像数据的方法
US6813601B1 (en) Highly compressed voice and data transmission system and method for mobile communications
CN1149777C (zh) 发送编码的电信信号的方法、系统及其设备
WO2002041498A2 (en) Communication system and method utilizing request-reply communication patterns for data compression
JP4077037B2 (ja) セルラーのビットストリームと有線波形の間でマッピングするための方法および装置
JPH1065655A (ja) マルチメディア通信方法及びシステム
KR20010071980A (ko) 디지털 유용 데이터를 송신하는 방법
JP4188190B2 (ja) 情報マルチプレクサ、音声処理デバイス、情報デマルチプレクサ、受信処理デバイス、電話端末、ノード、電話システム、情報多重化方法、情報分離方法、情報多重化プログラム、情報分離プログラム、および該プログラムを記録した記録媒体
JPH06311233A (ja) ボイスメールシステム
JP2002084518A (ja) オブジェクト選択式情報通信方法及びその装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060719

Termination date: 20151120

CF01 Termination of patent right due to non-payment of annual fee