CN100426377C

CN100426377C - 一种实现语音识别功能的方法

Info

Publication number: CN100426377C
Application number: CNB2005101142763A
Authority: CN
Inventors: 陈诚
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2005-10-21
Filing date: 2005-10-21
Publication date: 2008-10-15
Anticipated expiration: 2025-10-21
Also published as: BRPI0617624A2; WO2007045188A1; EP1950738A1; BRPI0617624B1; US8417521B2; US20080228483A1; DE602006014857D1; ATE470928T1; EP1950738B1; EP1950738A4; CN1953054A

Abstract

一种实现语音识别功能的方法，其中，媒体资源控制设备通过H.248协议，控制媒体资源处理设备实现对用户输入语音的识别。该方法包括以下步骤：媒体资源控制设备在H.248消息中携带扩展包参数，指示媒体资源处理设备执行与该参数相应的语音识别处理；媒体资源处理设备根据上述消息中的参数调用语音识别器执行语音识别处理；以及，媒体资源处理设备在完成语音识别后将识别结果上报媒体资源控制设备。该方法可以实现用户输入的普通语音的识别，用户可以通过语音直接和系统交互，不需要其它辅助输入设备，从而简化了用户的输入方式。

Description

一种实现语音识别功能的方法

技术领域

本发明涉及一种实现语音识别功能的方法，特别是涉及一种H.248协议作为控制协议来实现语音识别功能的方法。

背景技术

语音识别功能指把用户输入的语音，按规定的语法识别，转换成文本。如在某个交互应用中，系统先向用户播放提示音：“你需要水，可乐，还是果汁？”。用户可以通过语音回答，用户发音只能是包括“水，可乐，果汁，不需要”这几个关键词的语音，系统可以对用户的语音识别，然后向用户提供选择的商品。

在固定或者移动网络应用中，要求用户输入时，一般有以下两种方法：

一种方法是用户输入DTMF(Dual Tone Multi-Frequency，双音多频)音。如在上述的交互应用中，当用户输入1时，表示选择“水”；输入2时，表示选择“可乐”；输入3时，表示选择“果汁”，输入其它键，表示“不需要”。这种方法在H.248协议中已有完善的定义。

另一种方法是用户直接输入语音，系统可以将用户输入的语音传输给另一通话方，或者进行录音，或者进行语音识别处理。

通过语音识别处理可以完成和DTMF输入类似的功能，系统可以根据用户的语音来确定用户的选择。使用语音识别的优点是，用户可以通过语音直接和系统交互，不需要其它辅助输入设备，如用按键输入DTMF，从而简化了用户的输入方式。随着语音识别技术的完善，其将成为主流的输入方式。

H.248协议中通过包定义了丰富的媒体资源控制方法，例如：

1.H.248.9协议：高级媒体服务器包(Advanced Media Server Package)定义的方法有：

(1)播放语音片段：可以按URI(Uniform Resource Identifier，统一资源标识)指示语音片断的位置，可以指示播放语音片断的重复次数、每次播放之间的间隔时间、音量、速度等参数；

(2)放音收号：播放提示音和DTMF(Dual Tone Multi-Frequency，双音多频)收号交互进行；

(3)录音：可返回录音文件的标识或者存放位置。

2.H.248.7协议定义使用放音标识播放录音的方法；

3.H.248.16协议定义了复杂的收号操作方法。

但是，在H.248协议中并未定义上述用户直接输入语音的方法，而媒体资源应用环境需要使用语音识别功能，就此，本发明提供一种通过H.248协议实现语音识别功能的方法。

发明内容

本发明的目的是提供一种实现语音识别功能的方法。

本发明的实现语音识别功能的方法，其中，媒体资源控制设备通过H.248协议，控制媒体资源处理设备实现对用户输入语音的识别。该方法包括以下步骤：步骤一，媒体资源处理设备接收媒体资源控制设备发送的H.248消息，所述消息中携带扩展包参数，所述参数用于指示媒体资源处理设备执行与该参数相应的语音识别处理；

步骤二，媒体资源处理设备根据上述消息中的参数调用语音识别器执行语音识别处理；以及

步骤三，媒体资源处理设备在完成语音识别后将识别结果上报媒体资源控制设备。

其中，上述语音至少包括普通语音，该参数中携带有普通语音的识别语法参数。

当上述识别语法参数为普通语音的识别语法时，媒体资源处理设备根据该语法调用语音识别器执行语音识别。其中，上述识别语法可以为一特定字符串，嵌入在H.248消息中，媒体资源处理设备接收到此参数后，直接提取字符串，调用语音识别器进行语音识别。

当语音识别语法预先存储在媒体资源处理设备或者外部服务器上时，该识别语法参数为识别语法文件的标识和存储位置信息，媒体资源处理设备根据存储位置信息从本地或者外部服务器中读取语法文件后将其放入缓存，然后语音识别器依据读取的语法文件进行语音识别。

其中，上述的识别语法参数进一步包括进行语音识别时使用的参数，该参数包括指示是否仅识别普通语音的参数，媒体资源处理设备根据该参数调用语音识别器执行语音识别。

进一步，上述进行语音识别时使用的参数还包括指示识别时长的参数，媒体资源处理设备根据该参数确定识别时间的长短。

进一步，上述进行语音识别时使用的参数还包括指示等待时长的参数，媒体资源处理设备根据该参数确定等待用户输入时间的长短。

进一步，上述进行语音识别时使用的参数还包括指示识别语种的参数，媒体资源处理设备根据该参数确定进行普通语音识别时采用的语言种类。

进一步，上述进行语音识别时使用的参数还包括指示识别精度的参数，媒体资源处理设备根据该参数确定进行普通语音识别时所要求的识别精度。

进一步，所述进行语音识别时使用的参数还包括指示识别灵敏度的参数，媒体资源处理设备根据该参数确定进行普通语音识别时所要求的识别灵敏度。

进一步，上述进行语音识别时使用的参数还包括指示录音存放位置的参数，媒体资源处理设备根据该参数从指定位置读取用户输入的录音。

在上述方法中，在步骤二中媒体资源处理设备调用语音识别器进行语音识别过程中，进一步包括：

步骤21，媒体资源控制设备指示媒体资源处理设备检测语音识别过程中发生的异常事件。

其中，异常事件包括：等待用户输入超时、识别超时、用户输入和语法不匹配、语法文件不存在、语法文件读取错误、不能识别、识别错误、媒体资源处理设备的软硬件错误。

并且，在步骤21之后且在步骤三之前进一步包括：

步骤22，媒体资源处理设备根据上述指示对语音识别过程进行检测，并将检测结果反馈给媒体资源控制设备。

进一步，进行语音识别时使用的参数还包括指示语音识别异常时返回错误码的参数，媒体资源处理设备在检测到语音识别过程中发生的异常事件时，根据该参数将相应的错误码反馈给媒体资源控制设备。

与现有技术相比，本发明的方法可以在H.248协议上实现用户输入的普通语音的识别，这样，用户可以通过语音直接和系统交互，不需要其它辅助输入设备，从而简化了用户的输入方式。

附图说明

图1为WCDMA IMS网络中，处理媒体资源业务的网络架构。

图2为在固定软交换网络中，处理媒体资源业务的网络架构。

图3为本发明实现语音识别功能的方法的流程图。

具体实施方式

图1为WCDMA IMS网络中，处理媒体资源业务的网络架构。其中，应用服务器1用于处理各种业务，例如对用户放音、收号、会议、录音等。业务呼叫会话控制设备2用于处理路由，将应用服务器发出的消息正确地转发给媒体资源控制设备3，或者将媒体资源控制设备3发出的消息正确地路由到应用服务器1。媒体资源控制设备3用于控制媒体资源，其根据应用服务器1的要求，选择相应的媒体资源处理设备4并控制媒体资源的处理。媒体资源处理设备4用于媒体资源的处理，在媒体资源控制设备3的控制下，完成应用服务器1下发的媒体资源操作处理。

其中，应用服务器1、业务呼叫会话控制设备2、以及媒体资源控制设备3之间采用的接口使用SIP协议和XML协议，或者是SIP协议和类似XML的协议(例如VXML)。媒体资源控制设备3和媒体资源处理设备4之间采用的接口为Mp接口，使用H.248协议。媒体资源处理设备4的对外接口为Mb接口，一般采用RTP协议承载用户媒体流。

图2为在固定软交换网络中，处理媒体资源业务的网络架构。其中，媒体资源服务器(Media Resource Server，MRS)相当于WCDMA IMS网络中的媒体资源控制设备3和媒体资源处理设备4的功能，应用服务器相当于WCDMA IMS网络中的应用服务器1和业务呼叫会话控制设备2的功能，以及软交换设备和应用服务器1功能大致相同。

本发明所提供通过H.248协议实现语音识别功能的方法可以应用于图1所示的WCDMA IMS网络、以及图2所示的固定软交换网络中的媒体资源处理。同样也可以应用于其它网络，如CDMA网络和固定IMS网络，其媒体资源应用场景的架构和业务流程和上述WCDMA IMS的基本相同，以及WCDMA、CDMA电路软交换网络，其媒体资源应用架构和业务流程和固定软交换网络基本相同。也就是，本发明可以应用于所有通过H.248协议控制媒体资源设备实现语音识别功能的情况。

以下将以应用于WCDMA IMS为例，同时参考附图说明本发明所提供的通过H.248协议实现语音识别功能的方法。

通常，语音识别包括普通语音的识别和DTMF音的识别，两者一般是可以同时发生的，对DTMF音的识别和普通语音的识别分别使用的是不同的技术，所需要的控制过程和参数也有很大差别。由于在H.248协议中已经定义了对于DTMF音的检测，因此，本发明重点在于对普通语音的识别，以及对普通语音和DTMF音的同时识别。

这里，由于本发明只涉及图1所示媒体资源控制设备3和媒体资源处理设备4之间的处理过程，而其他过程同现有WCDMA IMS网络中的处理过程相同，因此，为了简化而只对媒体资源控制设备3和媒体资源处理设备4之间的处理过程进行描述。

如图3所示，为媒体资源控制设备3和媒体资源处理设备4进行媒体资源的控制和处理的流程图。

步骤1，媒体资源控制设备3向媒体资源处理设备4发出进行语音识别的指示。

具体地，媒体资源控制设备3通过定义H.248协议扩展包，在H.248消息中携带扩展包参数，从而指示媒体资源处理设备执行语音识别。H.248协议包定义如下：

包名称(Package Name)：自动语音识别包(ASR package)

包标识(PackageID) asrp(0x？？)

说明(Description) 略，参见以上方案说明

版本(Version)： 1

扩展(Extends)：无

1.属性(Properties)

无

2.事件(Events)

请参阅后述对事件的定义部分。

3、信号(Signals)

请参阅后述对信号的定义部分。

4.统计(Statistics)

无

5.处理(Procedure)

对应后述的整个方案的过程。

这里的语音识别包括普通语音的识别和DTMF音的识别。DTMF的识别语法在H.248协议中已有定义。普通语音识别需携带识别语法，有两种方法可以携带识别语法参数：

(1)在H.248消息的参数中携带识别语法：

识别语法是一个特定格式的字符串，如：

#JSGF v1.0；

Gramar drink；

Public<returncommands>＝水|可乐|果汁|不需要

该字符串的格式不被处理H.248协议的功能实体识别，只是作为一个串嵌入在H.248消息中。媒体资源处理设备4接收到此参数后，可以直接提取字符串并将提取的字符串交给语音识别器处理，其中，该语音识别器可以设置于媒体资源处理设备4中，也可以独立设置。

(2)在H.248消息参数中携带语音识别语法文件的标识和存储位置信息

语音识别语法可以预先存储在媒体资源处理设备4或者其它外部服务器上，H.248消息中携带该语法文件的标识和存储位置信息。

文件的标识可以是符合文件命名规范的任意字符串；

文件的存储位置信息有三种形式：

A.本地可直接存取的文件，如drink.gra

B.通过file://方式存取的文件，如file://huawei/drink.gra

C.通过http://方式存取的文件，如http://huawei/drink.gra

媒体资源处理设备4接收到此参数后，根据文件的存放位置，先从远端服务器或者本地存储中读取语法文件，放入缓存，然后再调用语音识别器处理。

除了需要在上述的H.248消息中携带识别语法或其相关信息之外，还需要携带执行语音识别的参数，这些执行语音识别的参数用于指示媒体资源处理设备4执行相应的语音识别功能。这些可携带的参数包括：

(1)是否同时识别DTMF音和普通语音

在某些应用中，只要求用户输入普通语音。若此参数设置为是，则无论用户输入语音或者DTMF音，媒体资源处理设备4都将进行普通语音和DTMF音的识别。

(2)识别时长

该参数用于指示识别时间的长短，也就是，用户开始输入时，若在规定时长内语音的识别没有完成，则超时返回。

(3)用户没有输入时等待时长

该参数用于指示识别的等待时间的长短，也就是，在开始执行识别时，定长时间内用户没有输入，则超时返回。

(4)识别的语言种类

该参数用于指示媒体资源处理设备进行普通语音识别时所采用的语言的种类，遵从例如RFC3066协议的定义。

(5)识别的精度要求

该参数表示识别的精度要求，可以用0到100之间的一个值表示。精度要求越高，耗费的处理能力越多，识别时间也越长。

(6)灵敏度要求

该参数用于表示语音识别所需要的灵敏度，可以采用0到100之间的一个值表示。灵敏度越高，受背景噪音的影响越大，灵敏度越低，受背景噪音的影响越小。

(7)录音存放位置

在进行语音识别时，可以对用户的输入进行录音，并存放在指定的位置。该参数表示用户的录音所存放的位置。

(8)是否预读取语法文件

当识别语法是文件的方式存储时，此参数若设置为是，则在收到请求时，媒体资源处理设备4就从外部的服务器读取语法文件，并缓存在本地，否则识别时再读取。

(9)语法文件缓存时长

该参数表示媒体资源处理设备4对从服务器读取的语法文件进行缓存所采用的时间长短，如果超时，则视为缓存无效。

上述步骤1中所提到的H.248协议包采用如下定义：

一.信号(Signal)：包括自动语音识别语法文件(ASR Grammar File)信号或者自动语音识别语法串(ASR Grammar String)信号，分别对应于上述两种携带识别语法参数的方法。

(1)自动语音识别语法文件(ASR Grammar File)，用于指示执行语音识别功能。

信号名(Signal Name)：自动语音识别语法文件

信号标识(SignalID)： asrgf(0x？？)

说明(Description)：执行ASR功能

信号类型(SignalType)： br

时长(Duration)：不可用(No Applicable)

附加参数(Additional Parameter)包括：

I.

参数名(Parameter Name)：语法文件(Garmmar File)

参数标识(Parameter ID)： gf(0x？？)

说明： ASR识别语法文件名和存储位置

类型(Type)：字符串(String)

是否可选(Optional)：否

可能取值(Possible Value)：合法的文件标识和存储格式

默认值(Default)：无

II.

参数名：识别DTMF(Recognize DTMF)

参数标识： rd(0x？？)

说明：是否同时识别DTMF

类型： enum

是否可选：是

可能取值：是，否

默认值(Default)：是

III.

参数名：等待识别时间(Wait Recognize Time)

参数标识： wrt(0x？？？)

说明：等待识别的时长

类型：整数

是否可选：是

可能取值：大于0秒

默认值：无

IV.

参数名：等待输入时间(Wait Input Time)

参数标识： wit(0x？？)

说明：等待用户输入的时长

类型：整数

是否可选：是

可能取值：大于0秒

默认值：无

V.

参数名：语言类型(Language Type)

参数标识： lt(0x？？)

说明：识别语言种类

类型：字符串

是否可选：是

可能取值：遵从RFC3066协议

默认值：无

VI.

参数名：识别精确度(Recognize Accuracy)

参数标识： ra(0x？？)

说明：识别的精确度要求

类型：整数

是否可选：是

可能取值： 0～100

默认值：无

VII.

参数名：识别灵敏度(Recognize Sensitivity)

参数标识： ra(0x？？)

说明：识别的灵敏度要求

类型：整数

是否可选：是

可能取值： 0～100

默认值：无

VIII.

参数名：录音文件(Record File)

参数标识： rf(0x？？)

说明：识别语音的录音存放位置

类型：字符串

是否可选：是

可能取值：合法的URI串或者本地文件名

默认值：无

IX.

参数名：预读取语法(Prefetch Grammar)

参数标识： pg(0x？？)

说明：是否预读取语法文件

类型： enum

是否可选：是

可能取值：是，否

默认值：无

X.

参数名：缓存时间(Cache Time)

参数标识： ct(0x？？)

说明：语法文件缓存时长

类型：整数

是否可选：是

可能取值：大于0秒

默认值：无

(2)自动语音识别语法串(ASR Grammar String)，用于指示执行语音识别功能

信号名：自动语音识别语法串

信号标识： ags(0x？？)

说明：按语法串执行ASR功能

信号类型： br

时长：不可用

附加参数包括：

I.

参数名：语法串(Garmmar String)

参数标识： gf(0x？？)

说明： ASR识别语法

类型：字符串

是否可选：否

可能取值：合法的识别语法

默认值：无

II.其它参数和“自动语音识别语法文件”信号的II、III、IV、V、VI、VII、VIII相同。

步骤2，媒体资源处理设备4在收到来自媒体资源控制设备3的语音识别指示时，进行消息确认，并将确认结果反馈给媒体资源控制设备3。进一步，媒体资源处理设备4根据该消息中的上述参数执行相应的处理，例如，是否同时识别DTMF和普通语音、识别时长、用户没有输入时等待时长、录音存放位置、是否预读取语法文件、语法文件缓存时长等，并调用语音识别器对用户输入的语音进行识别，例如包括识别的语言种类、精度、灵敏度等。

步骤3，媒体资源控制设备3指示媒体资源处理设备4检测语音识别过程中发生的事件。

步骤4，媒体资源处理设备4进行消息确认，并将确认结果反馈给媒体资源控制设备3。进一步，媒体资源处理设备4对语音识别过程中发生的事件(Event)进行检测。可能的事件包括：

a.异常情况返回语音识别功能执行的错误码

媒体资源处理设备4在执行语音识别过程中，若产生异常，要向媒体资源控制设备返回具体的错误码。错误码的具体值由标准组织统一分配，内容包括：

(1)用户没有输入语音的时间超过预定时间；

(2)语音识别时间超过预定时间；

(3)用户输入语音和识别语法不匹配；

(4)语法文件不存在；

(5)语法文件读取错误；

(6)语音识别的语法错误；

(7)不能识别或者识别错误；

(8)媒体资源处理设备4的硬件错误；

(9)媒体资源处理设备4的软件错误；

(10)其它错误。

b.检测到用户开始输入语音的事件

用户开始输入语音时，媒体资源处理设备4可以把检测到的用户输入的语音类型上报给媒体资源控制设备3，输入类型包括：DTMF音，以及普通语音。

在步骤4中，H.248协议包定义的事件具体表示如下：

事件：

(1)自动语音识别失败(ASR Failure)

事件名(Event Name)：自动语音识别失败

事件标识(EventID)： asrfail(0x？？)

说明：语音识别执行失败，返回错误码

事件说明参数(EventDescriptor Parameters)：无

检测到的事件参数(ObservedEventDescriptor Parameters)：

I.

参数名(Parameter Name)：返回错误码(Return Failure

Code)

ParameterID(参数标识)： rfc(0x？？)

说明：错误码参数

参数类型：整数

是否可选：否

可能值：以上方案定义的错误码

默认值：无

(2)自动语音识别完成(ASR Success)

事件名(Event Name)：自动语音识别完成

事件标识(EventID)： asrsucc(0x？？)

说明：语音识别执行成功，返回识别结果

事件说明参数(EventDescriptor Parameters)：无

检测到的事件参数：

I.

参数名(Parameter Name)：自动语音识别结果(ASR Result)

ParameterID(参数标识)： ar(0x？？)

说明：识别结果

参数类型：字符串

是否可选：否

可能值： DTMF串或者语音文本串

默认值：无

II.

参数名(Parameter Name)：结果可信度(Result Reliability)

ParameterID(参数标识)： rr(0x？？)

说明：识别结果可信度

参数类型：整数

是否可选：是

可能值： 0～100

默认值： 100

(3)检测到用户输入开始识别(ASR Begin)

事件名(Event Name)：自动语音识别开始(ASR Begin)

事件标识(EventID)： asrbeg(0x？？)

说明：语音识别执行成功，返回识别结果

事件说明参数(EventDescriptor Parameters)：无

检测到的事件参数：

I.

参数名(Parameter Name)：输入类型(Input Type)

ParameterID(参数标识)： it(0x？？)

说明：用户的输入类型：DTMF、普通语音

参数类型：字符串

是否可选：否

可能值： DTMF，普通语音

默认值：无

步骤5，当媒体资源处理设备4按媒体资源控制设备3指示时所携带的参数完成语音识别后，将在语音识别过程中检测到的事件上报给控制设备。同时，将语音识别器返回的识别结果的可信度上报媒体资源控制设备3。

识别结果是一个字符串，可能是DTMF串的识别结果，也能是普通语音的识别的结果。处理H.248协议的功能实体对此串不能识别，返回给媒体资源控制设备3处理。

步骤6，媒体资源控制设备3对媒体资源处理设备4上报的识别结果做出确认。

通过以上方案，可以在固定或者移动网络的媒体资源应用中，给用户提供语音识别相关的业务应用。例如，通过采用语音输入代替按键输入，用户通过语音就可以完成呼叫、查询等基本功能。

本发明实现语音识别的方法并不限于上述的方案，也可以采用其他的方案，例如，媒体资源控制设备3可以将上述步骤1和步骤3中的指示同时发给媒体资源处理设备4，此时，媒体资源处理设备4可以反馈一个确认消息以及相应的处理结果给媒体资源控制设备3。

Claims

1. 一种实现语音识别功能的方法，其特征在于，媒体资源控制设备通过H.248协议，控制媒体资源处理设备实现对用户输入语音的识别，该方法包括以下步骤：

步骤一，媒体资源处理设备接收媒体资源控制设备发送的H.248消息，所述消息中携带扩展包参数，所述参数用于指示媒体资源处理设备执行与该参数相应的语音识别处理；

2. 如权利要求1所述的方法，其特征在于，上述语音至少包括普通语音，该参数中携带有普通语音的识别语法参数。

3. 如权利要求2所述的方法，其特征在于，当该识别语法参数为普通语音的识别语法时，媒体资源处理设备根据该语法调用语音识别器执行语音识别。

4. 如权利要求3所述的方法，其特征在于，该识别语法为一特定字符串，嵌入在H.248消息中，媒体资源处理设备接收到此参数后，直接提取字符串，调用语音识别器进行语音识别。

5. 如权利要求3所述的方法，其特征在于，当语音识别语法预先存储在媒体资源处理设备或者外部服务器上时，该识别语法参数为识别语法文件的标识和存储位置信息，媒体资源处理设备根据存储位置信息从本地或者外部服务器中读取语法文件后将其放入缓存，然后语音识别器依据读取的语法文件进行语音识别。

6. 如权利要求2所述的方法，其特征在于，所述的识别语法参数进一步包括进行语音识别时使用的参数，该参数包括指示是否仅识别普通语音的参数，媒体资源处理设备根据该参数调用语音识别器执行语音识别。

7. 如权利要求6所述的方法，其特征在于，所述进行语音识别时使用的参数进一步包括以下参数中的至少一个参数：指示识别时长的参数、指示等待时长的参数、指示识别语种的参数、指示识别精度的参数、指示识别灵敏度的参数、指示录音存放位置的参数，媒体资源处理设备根据所述消息中的参数调用语音识别器执行相应的语音识别处理。

8. 如权利要求1至7任何一项所述的方法，其特征在于，在步骤二中媒体资源处理设备调用语音识别器进行语音识别过程中，进一步包括：

9. 如权利要求8所述的方法，其特征在于，所述异常事件包括：等待用户输入超时、识别超时、用户输入和语法不匹配、语法文件不存在、语法文件读取错误、不能识别、识别错误、媒体资源处理设备的软硬件错误。

10. 如权利要求9所述的方法，其特征在于，在步骤21之后且在步骤三之前进一步包括：

11. 如权利要求10所述的方法，其特征在于，所述进行语音识别时使用的参数进一步包括指示语音识别异常时返回错误码的参数，媒体资源处理设备在检测到语音识别过程中发生的异常事件时，根据该参数将相应的错误码反馈给媒体资源控制设备。