CN105206272A

CN105206272A - 语音传输控制方法及系统

Info

Publication number: CN105206272A
Application number: CN201510560893.XA
Authority: CN
Inventors: 李波; 陈迪; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2015-09-06
Filing date: 2015-09-06
Publication date: 2015-12-30

Abstract

一种语音传输控制方法及系统。所述方法包括：语音应答装置接收语音指令；声控服务器获得与所述语音指令对应的文本数据；将所述语音指令对应的文本数据转换为对应的拼音数据；将所述语音指令对应的拼音数据与预先获得的拼音字库中的拼音数据进行模糊化匹配，识别所述语音指令；根据识别结果生成相应的控制信息并发送至所述语音应答装置；所述语音应答装置在所述控制信息的控制下执行相应的操作。应用所述方法可以有效提高声控服务器对语音指令识别的准确度，从而所述声控服务器可以根据识别结果更加准确地控制语音应答装置，提高用户体验。

Description

语音传输控制方法及系统

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音传输控制方法及系统。

背景技术

目前，企业应用系统可以包括企业通信平台及UC系统等。通过企业通信平台及UC系统等系统可以为员工提供便利。例如，企业员工之间可以通过企业通信平台向对方拨打电话，通过UC系统召集多媒体会议等。

在使用企业通信平台或UC系统时，员工需要先查找通讯录来获知目标电话号码，再通过手动按键的方式将所获知的目标电话号码输入至企业通信平台或UC系统来进行相应的通信。

为了使得企业应用系统更加便于使用，目前对企业应用系统进行了改进，使得所述企业应用系统可以基于员工的语音指令执行相应的操作。但是改进后的企业应用系统对语音指令进行识别的准确度较低，导致用户体验较差。

发明内容

本发明要解决的问题是如何提高通信系统语音识别的准确度。

为解决上述问题，本发明实施例提供了一种语音传输控制方法，所述方法包括：

语音应答装置接收语音指令；

声控服务器获得与所述语音指令对应的文本数据；

将所述语音指令对应的文本数据转换为对应的拼音数据；

将所述语音指令对应的拼音数据与预先获得的拼音字库中的拼音数据进行模糊化匹配，识别所述语音指令；

根据识别结果生成相应的控制信息并发送至所述语音应答装置；

所述语音应答装置在所述控制信息的控制下执行相应的操作。

可选地，所述预先获得的拼音字库是通过对预先获得的字库进行拼音转化获得的。

可选地，所述将所述语音指令对应的拼音数据与预先获得的拼音字库进行模糊化匹配，识别所述语音指令，包括：

将所述语音指令对应的拼音数据进行分词处理；

将分词后的拼音数据与所述拼音字库中的拼音数据进行模糊化匹配；

将与所述分词后的拼音数据匹配的拼音字库中的拼音数据对应在所述字库中的文字，作为所述语音指令的语义。

可选地，所述预先获得的拼音字库是在将所述语音指令对应的文本数据转换为对应的拼音数据后获得的，或者在语音应答装置接收语音指令之前获得的。

可选地，所述方法还包括：语音转换装置将所述语音应答装置接收到的语音指令转换为对应的文本数据，并发送至所述声控服务器。

可选地，所述方法还包括：

语音转换装置将所述语音应答装置接收到的语音指令转换为对应的文本数据；

所述语音应答装置将所述语音指令对应的文本数据发送至所述声控服务器。

可选地，在所述语音应答装置接收语音指令之前，所述方法还包括：

所述语音应答装置接收来自用户的触发操作；

根据所述触发操作向所述声控服务器发送操作请求；

所述声控服务器根据所述操作请求向所述语音应答装置发送对应的控制信息；

所述语音应答装置接收语音指令，包括：所述语音应答装置根据所述声控服务器生成的与所述操作请求对应的控制信息接收所述语音指令。

本发明实施例还提供了一种语音传输控制系统，所述系统包括：

语音应答装置，适于接收语音指令，以及在声控服务器发送的控制信息的控制下执行相应的操作；

声控服务器，适于获得与所述语音指令对应的文本数据；将所述语音指令对应的文本数据转换为对应的拼音数据；将所述语音指令对应的拼音数据与预先获得的拼音字库中的拼音数据进行模糊化匹配，识别所述语音指令；以及根据识别结果生成相应的控制信息并发送至所述语音应答装置。

可选地，所述声控服务器包括：

第一获得单元，适于获得与所述语音指令对应的文本数据；

第二获得单元，适于预先获得拼音字库；

转换单元，适于将所述语音指令对应的文本数据转换为对应的拼音数据；

识别单元，适于将所述语音指令对应的拼音数据与预先获得的拼音字库中的拼音数据进行模糊化匹配，识别所述语音指令；

生成单元，适于根据识别结果生成相应的控制信息；

发送单元，适于将所述控制信息发送至所述语音应答装置。

可选地，所述第二获得单元预先获得的拼音字库是通过对预先获得的字库进行拼音转化获得的。

可选地，所述识别单元包括：

分词子单元，适于将所述指令对应的拼音数据进行分词处理；

匹配子单元，适于将分词后的拼音数据与所述拼音字库中的拼音数据进行模糊化匹配；

识别子单元，适于将与所述分词后的拼音数据匹配的拼音字库中的拼音数据对应在所述字库中的文字，作为所述语音指令的语义。

可选地，所述第二获得单元预先获得的拼音字库，是在将所述语音指令对应的文本数据转换为对应的拼音数据后获得的，或者在语音应答装置接收语音指令之前获得的。

可选地，所述系统还包括：语音转换装置，适于将所述语音应答装置接收到的语音指令转换为对应的文本数据，并发送至所述声控服务器。

可选地，所述系统还包括：语音转换装置，适于将所述语音应答装置接收到的语音指令转换为对应的文本数据；

所述语音应答装置还适于将所述语音指令对应的文本数据发送至所述声控服务器。

可选地，所述语音应答装置位于第三方服务系统，所述声控服务器集成于人工智能机器人。

可选地，所述语音应答装置还适于接收来自用户的触发操作；根据所述触发操作向所述声控服务器发送操作请求；以及根据所述声控服务器生成的与所述操作请求对应的控制信息接收所述语音指令。

所述声控服务器还适于根据所述操作请求向所述语音应答装置发送对应的控制信息。

与现有技术相比，本发明的技术方案至少具有以下优点：

通过采用语音应答装置接收语音指令，进而由声控服务器将所述语音指令对应的拼音数据与预先获得的拼音字库中的拼音数据进行模糊化匹配，而非将所述语音指令对应的拼音数据与预先获得字库中的汉字进行模糊化匹配，因此可以有效提高声控服务器对语音指令识别的准确度，从而所述声控服务器可以根据识别结果更加准确地控制语音应答装置，提高用户体验。

附图说明

图1是本发明实施例中一种语音传输控制系统的结构示意图；

图2是本发明实施例中一种语音传输控制方法的流程图；

图3是本发明实施例中一种语音应答装置的结构示意图；

图4是本发明实施例中一种声控服务器的结构示意图；

图5是本发明实施例中一种识别单元的结构示意图。

具体实施方式

目前的企业应用系统虽然可以基于员工的语音指令实现多方通话及呼叫转移等功能，但所述企业应用系统在对员工语音指令进行识别时，通常先将所述语音指令对应的拼音数据进行模糊化处理，再将模糊化处理后的拼音数据与预先获得的字库中的汉字进行模糊化匹配，导致所述企业应用系统对员工语音指令识别的准确度较低，用户体验较差。

针对上述问题，本发明的实施例提供了一种语音传输控制方法，所述方法通过采用语音应答装置接收语音指令，进而由声控服务器将所述语音指令对应的拼音数据与预先获得的拼音字库中的拼音数据进行模糊化匹配，以识别所述语音指令。相对于将所述语音指令对应的拼音数据与预先获得的字库中的汉字进行模糊化匹配的识别方法，可以有效提高对所述语音指令识别的准确度，因此所述声控服务器可以根据识别结果更加准确地控制语音应答装置，提高用户体验。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例作详细的说明。

如图1所示，本发明实施例提供了一种语音传输控制系统10，所述语音传输控制系统10可以包括：语音应答装置11以及声控服务器12。所述语音应答装置11以及声控服务器12通过网络数据传输通道13进行数据传输。

其中，所述语音应答装置11适于接收语音指令，并将所述语音指令通过网络数据传输通道13发送至声控服务器12。所述声控服务器12适于识别所述语音指令，并基于识别结果生成相应的控制信息，以及经所述网络数据传输通道13将所述VXML控制信息发送至所述语音应答装置11。所述语音应答装置11还适于根据接收到的控制信息执行相应的操作。所述语音指令可以是用户第一次输入的语音指令，也可以是与用户在后续使用过程中输入的任何一次语音指令。

在具体实施中，所述语音应答装置11可以为单独的终端设备，比如所述语音应答装置11可以为手持终端设备、平板型设备、网络PC、小型计算机、大型计算机等；也可以位于第三方服务系统，例如，所述语音应答装置11可以为互动式语音应答系统(InteractiveVoiceResponse，IVR)。具体无论所述语音应答装置11的形式如何，只要所述语音应答装置11可以接收语音指令，并将所述语音指令通过网络数据传输通道13传输至声控服务器12，以及根据所述声控服务器12生成的控制信息执行相应的应答操作即可。

在具体实施中，所述声控服务器12可以是一台独立的专用服务器，也可以同时提供其他服务，比如可以在其他服务器上开辟一块专用的存储区和内存区，以提供语音控制服务，还可以将所述声控服务器12集成于人工智能机器人。当然，不论是采用哪种方式的声控服务器12，都可以与语音应答装置11通过网络数据传输通道13相连。

在具体实施中，所述网络数据传输通道13可以为有线网络数据传输通道，也可以采用无线网络数据传输通道。其中，所述无线网络可以包括WiFi、蓝牙、红外等多种无线连接方式。具体无论所述语音应答装置11与所述声控服务器12之间的连接方式如何，均不构成对本发明的限制，且均在本发明的保护范围之内。

在具体实施中，所述语音传输控制系统10还可以包括语音转换装置14。所述语音转换装置14适于将所述语音应答装置11接收到的语音指令转换为对应的文本数据。在所述语音转换装置14将所述语音指令转换为对应的文本数据后，既可以由所述语音应答装置11经网络数据传输通道13将所述语音指令对应的文本数据传输至声控服务器12，也可以由语音转换装置14直接将所述语音指令对应的文本数据发送至所述声控服务器12，具体可以根据声控服务器12与语音应答装置11之间的通信协议进行设定。本发明的实施例中，以所述语音应答装置11将所述语音指令对应的文本数据传输至声控服务器12为例进行说明。

例如，当所述声控服务器12与语音应答装置11之间采用可扩展标记语言(VoiceeXtensibleMarkupLanguage，VXML)规范进行数据通信时，所述语音指令对应的文本数据可以由所述语音应答装置11发送至所述声控服务器12。当所述声控服务器12与语音应答装置11之间采用媒体资源控制协议(MediaResourceControlProtocol，MRCP)进行数据通信时，所述语音指令对应的文本数据可以由所述语音转换装置14发送至所述声控服务器12。

需要说明的是，所述语音转换装置可以为单独的终端设备，比如所述语音应答装置11可以为手持终端设备、平板型设备、网络PC、小型计算机、大型计算机等；也可以位于第三方服务系统，例如，所述语音应答装置11可以为互动式语音应答系统(AutomaticSpeechRecognition，ASR)。

为了使本领域技术人员更好地理解和实现本发明，以下对语音传输控制系统对应的方法进行详细描述。

如图2所述，本发明实施例提供了一种语音传输控制方法。下面结合图1对所述方法进行详细接介绍。

具体地，所述方法可以包括如下步骤：

步骤21，语音应答装置11接收语音指令。

在具体实施中，所述语音应答装置11可以通过多种方式接收所述语音指令。例如，可以通过人机交互界面接收所述语音指令，也可以通过远程操控的方式接收所述语音指令。

在具体实施中，所述语音应答装置11还适于接收来自用户的触发操作；根据所述触发操作向所述声控服务器12发送操作请求。相应地，所述声控服务器12还适于根据所述操作请求向所述语音应答装置11发送对应的控制信息。所述语音应答装置11可以根据所述声控服务器12生成的与所述操作请求对应的控制信息接收所述语音指令

步骤22，声控服务器12获得与所述语音指令对应的文本数据。

当语音转换装置14与声控服务器12直接相连时，所述声控服务器12可以从所述语音转换装置14获得与所述语音指令对应的文本数据。当所述语音转换装置14通过语音应答装置11与声控服务器12连接时，所述声控服务器12可以从语音应答装置11获得与所述语音指令对应的文本数据。

步骤23，将所述语音指令对应的文本数据转换为对应的拼音数据。

在具体实施中，所述语音指令对应的文本数据可能非所述语音指令真实的语义，而每串拼音数据可能对应多串文本数据，因此，可以先将所述语音指令对应的文本数据转换为对应的拼音数据，以此扩大所述语音指令的匹配范围，便于准确地识别所述语音指令。

步骤24，将所述语音指令对应的拼音数据与预先获得的拼音字库中的拼音数据进行模糊化匹配，识别所述语音指令。

在具体实施中，所述预先获得的拼音字库可以是现有的拼音字库，也可以是对预先获得的字库进行拼音转换获得的。具体获得方式不作限定。其中，所述字库可以是企业通讯录，其内记录有企业员工的姓名、部门、职位以及联系方式等多种信息。在进行拼音转化时，可以仅对所述字库中的汉字部分进行拼音转换，也可以对所述字库中的所有文字均进行拼音转换。

在具体实施中，所述预先获得的拼音字库可以在执行步骤23后获得的，也可以是在执行本发明实施中的语音传输控制方法之前获得的。也就是说，所述预先获得的拼音字库可以是在将所述语音指令对应的文本数据转换为对应的拼音数据后获得的，也可以是在语音应答装置11接收语音指令之前获得的。

需要说明的是，若所述预先获得的拼音字库是在执行步骤23后获得的，则对每一语音指令进行识别的过程中，均需要在步骤23后执行获得所述拼音字库的步骤。若所述预先获得的拼音字库是在执行本发明实施中的语音传输控制方法之前获得的，则在针对同一字库的语音指令进行识别的过程中，仅需执行一次获得所述拼音字库的步骤即可。

在具体实施中，为了准确地识别所述语音指令，可以先将所述语音指令对应的拼音数据进行分词处理，再将分词后的拼音数据与所述拼音字库中的拼音数据进行模糊化匹配，获得与所述分词后的拼音数据匹配的拼音字库中的拼音数据对应在所述字库中的文字。将与所述分词后的拼音数据匹配的文字按照对应的顺序标识进行组合，将组合后的文本数据作为所述语音指令的语义。

其中，在将所述语音指令对应的拼音数据进行分词处理时，可以在分词后获得的新词中设置不同的顺序标识，以便于在获得与所述分词后的拼音数据匹配的文字，可以快速地将与所述分词后的拼音数据匹配的文字进行组合。例如，可以按照分词后获得的新词在所述语音指令对应的拼音数据中的排列顺序，设置不同的权重系数，即以权重系数作为分词后获得的新词的顺序标识。

在将分词后的拼音数据与所述拼音字库中的拼音数据进行模糊化匹配时，可以设定多种匹配规则，便于准确地匹配出与所述分词后的拼音数据对应的文字。例如，所述匹配规则可以包括：音调模糊化，平舌、卷舌模糊化，前鼻音、后鼻音模糊化，L/N、F/L模糊化，z/zh、s/sh模糊化等规则。还可以针对不同的应用场景，增加模糊化规则。例如，可以针对不同地区的方言设定模糊化匹配规则等。

步骤25，根据识别结果生成相应的控制信息并发送至所述语音应答装置11。

在具体实施中，所述控制信息的形式不作限定，具体可以根据所述语音应答装置11与声控服务器12之间的数据传输协议进行设置，例如，当所述语音应答装置11与声控服务器12之间采用MRCP协议作为数据传输协议时，所述控制信息可以为MRCP控制信息。当所述语音应答装置11与声控服务器12之间采用VXML规范作为数据传输协议时，所述控制信息可以为VXML控制信息。

在具体实施中，所述控制信息中可以包括控制语音应答装置11执行相应操作的控制指令，以及所述语音应答装置11执行所述操作时所需数据的存储地址等信息。其中，所述控制指令以及所需数据的存储地址等信息的形式可以根据所述语音应答装置11与声控服务器12之间的数据传输协议进行设置。

步骤26，所述语音应答装置11在所述控制信息的控制下执行相应的操作。

在具体实施中，所述语音应答装置11接收到声控服务器12发送的控制信息后，可以根据所述控制信息中携带的所需数据的存储地址等信息获取执行相应操作所需的数据，并根据所述控制信息中携带的控制指令执行相应的操作。

例如，所述控制信息中携带的控制指令可以为控制所述语音应答装置11执行实时电话会议的指令，所述所需数据可以为参加所述实时电话会议的员工的电话号码。所述语音应答装置11可以获取所述参加所述实时电话会议的员工的电话号码，并根据所述实时电话会议的指令拨打所述电话号码。

为了使得本领域技术人员更加清楚地实施所述语音传输控制系统10，下面对所述语音传输系统10进行详细介绍：

在本发明的一实施例中，如图3所示，所述语音应答装置11可以包括：接收单元31以及操作单元32。其中，所述接收单元31适于接收所述语音指令。所述操作单元32适于在声控服务器12发送的控制信息的控制下执行相应的操作。

在本发明的一实施例中，如图4所示，所述声控服务器12可以包括：第一获得单元41，第二获得单元42，转换单元43，识别单元44，生成单元45以及发送单元46。

其中，所述第一获得单元41适于获得与所述语音指令对应的文本数据。所述第二获得单元42适于预先获得拼音字库。所述转换单元43适于将所述语音指令对应的文本数据转换为对应的拼音数据。所述识别单元44适于将所述语音指令对应的拼音数据与预先获得的拼音字库中的拼音数据进行模糊化匹配，识别所述语音指令。所述生成单元45适于根据识别结果生成相应的控制信息。所述发送单元46适于将所述控制信息发送至所述语音应答装置。

下面结合图3及图4，对所述语音传输控制系统进行详细介绍：

在具体实施中，所述接收单元31可以通过多种方式接收所述语音指令。例如，所述接收单元31可以通过人机交互界面接收所述语音指令，也可以通过远程操控的方式接收所述语音指令。

在具体实施中，所述第二获得单元42预先获得的拼音字库是通过对预先获得的字库进行拼音转化获得的。其中，所述第二获得单元42可以在将所述语音指令对应的文本数据转换为对应的拼音数据后获得所述拼音字库，也可以在语音应答装置11接收语音指令之前获得所述拼音字库。

在具体实施中，如图5所示，所述识别单元44可以包括分词子单元51，匹配子单元52以及识别子单元53。其中，所述分词子单元51适于将所述指令对应的拼音数据进行分词处理。所述匹配子单元52适于将分词后的拼音数据与所述拼音字库中的拼音数据进行模糊化匹配。所述识别子单元53适于将与所述分词后的拼音数据匹配的拼音字库中的拼音数据对应在所述字库中的文字，作为所述语音指令的语义。

在具体实施中，所述语音应答装置11还适于接收来自用户的触发操作；根据所述触发操作向所述声控服务器12发送操作请求；以及根据所述声控服务器12生成的与所述操作请求对应的控制信息接收所述语音指令。相应地，所述声控服务器12还适于根据所述操作请求向所述语音应答装置11发送对应的控制信息。

由上述内容可以看出，本发明实施例中的语音传输控制系统，通过采用语音应答装置接收语音指令，再由声控服务器将所述语音指令对应的拼音数据与预先获得的拼音字库中的拼音数据进行模糊化匹配，因此可以有效提高声控服务器对语音指令识别的准确度，从而所述声控服务器可以根据识别结果更加准确地控制语音应答装置，提高用户体验。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音传输控制方法，其特征在于，包括：

语音应答装置接收语音指令；

声控服务器获得与所述语音指令对应的文本数据；

将所述语音指令对应的文本数据转换为对应的拼音数据；

2.如权利要求1所述的语音传输控制方法，其特征在于，所述预先获得的拼音字库是通过对预先获得的字库进行拼音转化获得的。

3.如权利要求2所述的语音传输控制方法，其特征在于，所述将所述语音指令对应的拼音数据与预先获得的拼音字库进行模糊化匹配，识别所述语音指令，包括：

将所述语音指令对应的拼音数据进行分词处理；

4.如权利要求2所述的语音传输控制方法，其特征在于，所述预先获得的拼音字库是在将所述语音指令对应的文本数据转换为对应的拼音数据后获得的，或者在语音应答装置接收语音指令之前获得的。

5.如权利要求1所述的语音传输控制方法，其特征在于，还包括：语音转换装置将所述语音应答装置接收到的语音指令转换为对应的文本数据，并发送至所述声控服务器。

6.如权利要求1所述的语音传输控制方法，其特征在于，还包括：

7.如权利要求1所述的语音传输控制方法，其特征在于，在所述语音应答装置接收语音指令之前，所述方法还包括：

所述语音应答装置接收来自用户的触发操作；

根据所述触发操作向所述声控服务器发送操作请求；

8.一种语音传输控制系统，其特征在于，包括：

9.如权利要求8所述的语音传输控制系统，其特征在于，所述声控服务器包括：

第一获得单元，适于获得与所述语音指令对应的文本数据；

第二获得单元，适于预先获得拼音字库；

生成单元，适于根据识别结果生成相应的控制信息；

发送单元，适于将所述控制信息发送至所述语音应答装置。

10.如权利要求9所述的语音传输控制系统，其特征在于，所述第二获得单元预先获得的拼音字库是通过对预先获得的字库进行拼音转化获得的。

11.如权利要求10所述的语音传输控制系统，其特征在于，所述识别单元包括：

12.如权利要求10所述的语音传输控制系统，其特征在于，所述第二获得单元预先获得的拼音字库，是在将所述语音指令对应的文本数据转换为对应的拼音数据后获得的，或者在语音应答装置接收语音指令之前获得的。

13.如权利要求8所述的语音传输控制系统，其特征在于，还包括：语音转换装置，适于将所述语音应答装置接收到的语音指令转换为对应的文本数据，并发送至所述声控服务器。

14.如权利要求8所述的语音传输控制系统，其特征在于，还包括：语音转换装置，适于将所述语音应答装置接收到的语音指令转换为对应的文本数据；

15.如权利要求8所述的语音传输控制系统，其特征在于，所述语音应答装置位于第三方服务系统，所述声控服务器集成于人工智能机器人。

16.如权利要求8所述的语音传输控制系统，其特征在于，

所述语音应答装置还适于接收来自用户的触发操作；根据所述触发操作向所述声控服务器发送操作请求；以及根据所述声控服务器生成的与所述操作请求对应的控制信息接收所述语音指令。