CN106228975A

CN106228975A - 一种移动终端的语音识别系统及方法

Info

Publication number: CN106228975A
Application number: CN201610809985.1A
Authority: CN
Inventors: 黄石磊; 刘轶; 王昕�; 程刚; 王序; 杨乐辉
Original assignee: Peking University Shenzhen Graduate School; Konka Group Co Ltd
Current assignee: Peking University Shenzhen Graduate School; Konka Group Co Ltd
Priority date: 2016-09-08
Filing date: 2016-09-08
Publication date: 2016-12-14

Abstract

本发明公开一种移动终端的语音识别系统及方法，其移动终端的语音识别系统包括移动终端和服务器端。其中，移动终端包括：语音采集模块、移动终端通信模块、用户行为采集模块、移动终端语音识别模块、结果比较模块和结果输出模块；服务器端包括：服务器端通信模块、服务器端语音识别模块、后处理模块和语言模型生成模块。所述移动终端通过移动终端语音识别模块对用户的语音进行识别，同时所述服务器端通过服务器端语音识别模块对用户的语音进行识别，所述结果比较模块接收移动终端和服务器端的识别结果并进行比较，将最终语音识别结果发送到结果输出模块，结果输出模块根据最终语音识别结果执行相应操作，为用户智能控制移动终端带来了方便。

Description

一种移动终端的语音识别系统及方法

技术领域

本发明涉及涉及语音识别技术领域，尤其涉及的是一种移动终端的语音识别系统及方法。

背景技术

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别（speech recognition）是将语音转化为文字并进行相应操作的技术，在各种智能设备上利用语音识别技术进行人机交互，并进行各项操作成为重要的功能。

现有技术中语音识别的基本方式有两种，一是嵌入式语音识别（embedded speechrecognition），这种方式一般是移动终端本身来进行识别，嵌入式语音识别在智能终端上直接进行语音识别，不需要网络，主要的运算放在客户端进行，因此具有很快的响应时间，在目前嵌入式系统，尤其是一些使用电源而非电池的智能设备（例如智能电视机），可以实现较强的运算能力，处理一些语音识别任务，但是复杂的任务较难完成。

二是基于云端(cloud-based speech recognition)的语音识别，一般是移动终端接收到用户语音后，发送到后台服务器端来进行识别，云端语音识别通过网络将语音发送到强大的后台服务器，服务器进行处理完之后返回结果，通过把智能设备上的语音或者语音声学特征传输到服务器，并利用云端服务器的强大运算能力，可以实现比较复杂的识别任务，缺点是网络和处理延迟较大，也就是反馈语音识别结果的时间比较久。

如果要同时利用基于嵌入式的语音识别和云端的语音识别，需要较为复杂的协调方式，目前还没有好的解决方案。

因此，针对上述缺陷，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种移动终端的语音识别系统及方法，旨在通过将移动终端中嵌入式语音识别和云端服务器识别结合起来，可以获得更加可靠的识别结果，而且能够提高语音识别准确率和效率，为用户智能控制移动终端带来了方便。

本发明解决技术问题所采用的技术方案如下：

一种移动终端的语音识别系统，包括移动终端和服务器端，所述移动终端通过通信/网络协议与服务器端连接；

所述移动终端包括：

语音采集模块，用于采集用户的语音数据；

移动终端通信模块，用于在移动终端内部或者和服务端传输数据；

用户行为采集模块，用于在语音识别后采集用户的操作信息；

移动终端语音识别模块，用于识别用户的语音数据并输出识别结果，所述移动终端语音识别模块包括语言模型和声学模型；

结果比较模块，用于比较移动终端和服务器端的语音识别结果后输出最终结果；

结果输出模块，用于接收语音结果并执行相应操作；

所述服务器端包括：

服务器端通信模块，用于在服务器端内部或者和移动终端传输数据；

服务器端语音识别模块，用于识别用户的语音数据并输出识别结果，所述服务器端语音识别模块包括语言模型和声学模型；

后处理模块，用于根据服务器端语音识别模块的识别结果和用户行为获取置信度值大的识别结果；

语言模型生成模块，用于根据后处理模块输出的置信度值大的识别结果的数据来生成更新的语言模型，所述更新的语言模型用于更新移动终端语音识别模块中的语言模型;

所述移动终端通过移动终端语音识别模块对用户的语音进行识别，同时所述服务器端通过服务器端语音识别模块对用户的语音进行识别，所述结果比较模块接收移动终端和服务器端的识别结果并进行比较，将最终语音识别结果发送到结果输出模块，结果输出模块根据最终语音识别结果执行相应操作。

一种移动终端的语音识别系统的语音识别方法，其中，包括以下步骤：

步骤A，当语音采集模块采集用户的语音后，将所述语音传输到移动终端语音识别模块，同时将所述语音通过移动终端通信模块和服务器端通信模块传输到服务器端语音识别模块；

步骤B，移动终端语音识别模块根据接收到的语音通过语言模型和声学模型分析后输出识别结果到结果比较模块，服务器端语音识别模块根据接收到的语音输出识别结果到结果比较模块；

步骤C，结果比较模块将移动终端语音识别模块和服务器端语音识别模块发送来的结果进行比较，选取置信度值大的结果输出到结果输出模块，结果输出模块根据所述结果执行相应的操作。

所述移动终端的语音识别系统的语音识别方法，其中，所述移动终端通信模块包括4个通信模块，所述服务器端通信模块包括4个通信模块，每个通信模块传输或者接收一种数据。

所述移动终端的语音识别系统的语音识别方法，其中，所述步骤B还包括;

B 1，服务器端语音识别模块根据接收到的语音输出识别结果到结果比较模块的同时，将所述识别结果输出到后处理模块进行分析。

所述移动终端的语音识别系统的语音识别方法，其中，所述识别结果组成包括：字符串、置信度以及时间刻度；所述字符串为用户的语音指令；所述置信度为语音识别的准确度，置信度取值为0-1，取值越大则准确度越高；所述时间刻度为语音识别过程的时间。

所述移动终端的语音识别系统的语音识别方法，其中，所述步骤C具体包括：

C1，服务器端语音识别模块得出的语音识别结果迟于移动终端语音识别模块得出的语音识别结果，在结果比较模块只接收到移动终端语音识别模块得出的语音识别结果时，如果移动终端语音识别模块的识别结果的置信度超过第一预设置信度，则选取所述移动终端语音识别模块的识别结果输出到结果输出模块；结果输出模块根据所述结果执行相应的操作；

C2，当服务器端语音识别模块得出的语音识别结果的置信度大于移动终端语音识别模块得出的语音识别结果的置信度，且服务器端语音识别模块的识别结果的置信度大于第二预设置信度，则选取所述服务器端语音识别模块的识别结果输出到结果输出模块；结果输出模块根据所述结果执行相应的操作；

C3，当移动终端语音识别模块得出的语音识别结果的置信度大于服务器端语音识别模块得出的语音识别结果的置信度，且移动终端语音识别模块的识别结果的置信度大于第二预设置信度，则选取所述移动终端语音识别模块的识别结果输出到结果输出模块；结果输出模块根据所述结果执行相应的操作；

C4，如果服务器端语音识别模块和移动终端语音识别模块得出的语音识别结果的置信度都小于第二预设置信度，则判定两者的识别结果都不可靠，提示用户重新输入语音。

所述移动终端的语音识别系统的语音识别方法，其中，所述步骤C之后还包括：

步骤D，当结果输出模块根据所述结果执行相应的操作后，如果所述操作未达到用户的目的，用户行为采集模块检测用户通过移动终端直接输入得信息，则记录所述信息的结果，所述信息包括：移动终端的显示名称、时间刻度以及停留时间长度。

所述移动终端的语音识别系统的语音识别方法，其中，所述步骤D还包括：

D1，后处理模块接收服务器端语音识别模块的识别结果和用户行为采集模块记录的结果，当服务器端语音识别模块的识别结果的置信度超过第三预设置信度，并且结果输出模块最终输出的是服务器端语音识别模块的识别结果以及根据所述结果执行了相应的操作，用户在结果输出模块执行所述操作后预设时间以内未进行操作，则后处理模块将所述服务器端语音识别模块的识别结果进行保留；

D2，当后处理模块选择了用户行为和输出结果一致的结果后，将所述结果进行分解，分解的结果包括关键成分和非关键成分，所述关键成分为移动终端系统控制命令中存在的词条，所述非关键成分为移动终端系统控制命令中不存在的词条。

所述移动终端的语音识别系统的语音识别方法，其中，所述语言模型生成模块包括关键成分模型和非关键成分模型；所述关键成分模型由关键成分组成，所述非关键成分模型由非关键成分组成，所述语言模型生成模块根据最终输出的识别结果进行语言模型训练，所述关键成分模型和非关键成分模型进行训练后合为更新的语言模型，将所述更新的语言模型发送到移动终端用于更新移动终端语音识别模块中的语言模型。

本发明公开一种移动终端的语音识别系统及方法，所述方法包括：当语音采集模块采集用户的语音后，将所述语音传输到移动终端语音识别模块，同时将所述语音通过移动终端通信模块和服务器端通信模块传输到服务器端语音识别模块；移动终端语音识别模块根据接收到的语音通过语言模型和声学模型分析后输出识别结果到结果比较模块，服务器端语音识别模块根据接收到的语音输出识别结果到结果比较模块；结果比较模块将移动终端语音识别模块和服务器端语音识别模块发送来的结果进行比较，选取置信度值大的结果输出到结果输出模块，结果输出模块根据所述结果执行相应的操作。本发明通过将移动终端中嵌入式语音识别和云端服务器识别结合起来，可以获得更加可靠的识别结果，而且能够提高语音识别准确率和效率，为用户智能控制移动终端带来了方便。

附图说明

图1是本发明移动终端的语音识别系统的结构框图。

图2是本发明移动终端的语音识别系统的语音识别方法的较佳实施例的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1是本发明移动终端的语音识别系统的结构框图。

如图1所示，本发明提供一种移动终端的语音识别系统，包括移动终端10和服务器端20，所述移动终10端通过通信/网络协议与服务器端20连接，所述通信/网络协议优选为TCP/IP协议；

所述移动终端10包括：

语音采集模块101，用于采集用户的语音数据；

移动终端通信模块，用于在移动终端10内部或者和服务器端20传输数据，所述移动终端通信模块包括4个通信模块，分别为第一通信模块11、第二通信模块12、第三通信模块13以及第四通信模块14，每个通信模块传输或者接收一种数据；

用户行为采集模块105，用于在语音识别后采集用户的操作信息；

移动终端语音识别模块102，用于识别用户的语音数据并输出识别结果，所述移动终端语音识别模块包括语言模型1和声学模型2；所述语言模型1是基于词的统计语言模型，所述声学模型2是半音节模型；

结果比较模块103，用于比较移动终端10和服务器端20的语音识别结果后输出最终结果；

结果输出模块104，用于接收语音结果并执行相应操作；

所述服务器端20包括：

服务器端通信模块，用于在服务器端内部或者和移动终端传输数据，所述服务器端通信模块包括4个通信模块，分别为第一通信模块21、第二通信模块22、第三通信模块23以及第四通信模块24，每个通信模块传输或者接收一种数据；

服务器端语音识别模块201，用于识别用户的语音数据并输出识别结果，所述服务器端语音识别模块201包括语言模型和声学模型（图示未示出）；所述服务器端语音识别模块201的语言模型是基于词的统计语言模型，所述服务器端语音识别模块201的声学模型是基于声韵母的三音子模型。

后处理模块202，用于根据服务器端语音识别模块201的识别结果和用户行为获取置信度值大的识别结果；

语言模型生成模块203，用于根据后处理模块202输出的置信度值大的识别结果的数据来生成更新的语言模型，所述更新的语言模型用于更新移动终端语音识别模块102中的语言模型2;

所述移动终端10通过移动终端语音识别模块102对用户的语音进行识别，同时所述服务器端20通过服务器端语音识别模块201对用户的语音进行识别，所述结果比较模块103接收移动终端10和服务器端20的识别结果并进行比较，将最终语音识别结果发送到结果输出模块104，结果输出模块104根据最终语音识别结果执行相应操作。

所述TCP/IP协议，为Transmission Control Protocol/Internet Protocol的简写，中译名为传输控制协议/因特网互联协议，又名网络通讯协议，是Internet最基本的协议、Internet国际互联网络的基础，由网络层的IP协议和传输层的TCP协议组成。TCP/IP 定义了电子设备如何连入因特网，以及数据如何在它们之间传输的标准。协议采用了4层的层级结构，每一层都呼叫它的下一层所提供的协议来完成自己的需求。通俗而言：TCP负责发现传输的问题，一有问题就发出信号，要求重新传输，直到所有数据安全正确地传输到目的地。而IP是给因特网的每一台联网设备规定一个地址。本发明移动终端10和服务器端20也可以通过其他通信或者网络协议进行连接，不限于TCP/IP协议。

请参阅图2，图2是本发明移动终端的语音识别系统的语音识别方法的较佳实施例的流程图。

如图2所示，本发明实施例提供的一种移动终端的语音识别系统的语音识别方法，包括以下步骤：

步骤S100，当语音采集模块采集用户的语音后，将所述语音传输到移动终端语音识别模块，同时将所述语音通过移动终端通信模块和服务器端通信模块传输到服务器端语音识别模块。

本发明中，移动终端10的系统首先通过语音采集模块101采集用户的语音，语音首先传输到移动终端语音识别模块102，同时所述语音通过移动终端第一通信模块11和服务器端第一通信模块21传输到服务器端语音识别模块201，移动终端语音识别模块102根据初始的语言模型1和声学模型2进行识别，识别后输出识别结果到结果比较模块103，移动终端语音识别模块102根据传输来的语音输出识别结果，这个识别结果一方面通过服务器端第四通信模块24和移动终端第四通信模块14传输到结果比较模块103，另一方面输出给后处理模块202.

步骤S200，移动终端语音识别模块根据接收到的语音通过语言模型和声学模型分析后输出识别结果到结果比较模块，服务器端语音识别模块根据接收到的语音输出识别结果到结果比较模块。

本发明中，所述步骤S200还包括：服务器端语音识别模块201根据接收到的语音输出识别结果到结果比较模块103的同时，将所述识别结果输出到后处理模块202进行分析，便于将服务器端语音识别模块201发送来的识别结果和用户行为采集模块105通过移动终端第二通信模块12和服务器端第二通信模块22发送来的实际操作结果进行分析处理选取更为可靠的识别结果输出到语言模型生成模块203。

所述识别结果组成包括：字符串、置信度以及时间刻度；所述字符串为用户的语音指令，比如移动终端10为智能电视机的时候，所述字符串可以为“中央一套、中央二套、北京卫视等”；所述置信度为语音识别的准确度，置信度取值为0-1，取值越大则准确度越高；所述时间刻度为语音识别过程的时间。

步骤S300，结果比较模块将移动终端语音识别模块和服务器端语音识别模块发送来的结果进行比较，选取置信度值大的结果输出到结果输出模块，结果输出模块根据所述结果执行相应的操作。

本发明中，结果比较模块103在接收到移动终端语音识别模块102和服务器端语音识别模块201发送来的语音识别结果后，将两者的结果的置信度的值进行比较，所述置信度的得出由现有算法得到，比较完成后，选取置信度值大的结果输出到结果输出模块104，结果输出模块104根据所述结果执行相应的操作。本实施例中移动终端10为智能电视机的时候，结果输出模块104可以根据用户的语音完成换台、点播网络视频节目、调节音量大小、关机等操作，当然移动终端也可以为手机、平板电脑、机顶盒等其它移动智能设备。

所述步骤S300具体包括：

服务器端语音识别模块201得出的语音识别结果迟于移动终端语音识别模块102得出的语音识别结果，在结果比较模块103只接收到移动终端语音识别模块102得出的语音识别结果时，也就是说服务器端语音识别模块201得出的语音识别结果还没有传输到结果比较模块103，如果移动终端语音识别模块102的识别结果的置信度超过第一预设置信度，所述第一预设置信度优选为0.9，则选取所述移动终端语音识别模块102的识别结果输出到结果输出模块104；结果输出模块104根据所述结果执行相应的操作。

在结果比较模块103先接收到移动终端语音识别模块102得出的语音识别结果并判断移动终端语音识别模块102的识别结果的置信度没有超过0.9时，那么则等到结果比较模块103接收到移动终端语音识别模块102得出的语音识别结果和服务器端语音识别模块201得出的语音识别结果之后，对比两者识别结果的置信度，当服务器端语音识别模块201得出的语音识别结果的置信度大于移动终端语音识别模块102得出的语音识别结果的置信度，且服务器端语音识别模块201的识别结果的置信度大于第二预设置信度，所述第二预设置信度优选为0.6，则选取所述服务器端语音识别模块201的识别结果输出到结果输出模块104；结果输出模块104根据所述结果执行相应的操作。

当移动终端语音识别模块102得出的语音识别结果的置信度大于服务器端语音识别模块201得出的语音识别结果的置信度，且移动终端语音识别模块102的识别结果的置信度大于0.6，则选取所述移动终端语音识别模块102的识别结果输出到结果输出模块104；结果输出模104块根据所述结果执行相应的操作。

如果服务器端语音识别模块201和移动终端语音识别模块102得出的语音识别结果的置信度都小于0.6，则判定两者的识别结果都不可靠，提示用户重新输入语音。

以上置信度的具体值的设置可以依据移动终端10和服务器端20具体设备的功能进行设置，即为可以调节的可调参数。

所述步骤300之后还包括：当结果输出模块104根据所述结果执行相应的操作后，如果所述操作未达到用户的目的，即移动终端10最终做出的动作并不是用户想要的，假设移动终端10是智能电视机，用户通过语音输入想要将电视节目换到“中央一套”电视台，最后结果输出模块104做出的动作是将电视节目换到了“中央二套”，那么这样的操作是不满足用户的要求的。那么这时候用户可能会直接使用遥控器将电视节目换到“中央一套”，此时用户行为采集模块105检测用户通过移动终端10直接输入得信息，则记录所述信息的结果，即用户通过遥控器对智能电视机的实际操作，所述信息包括：移动终端的显示名称、时间刻度以及停留时间长度。

另外，后处理模块202接收服务器端语音识别模块201的识别结果和用户行为采集模块105记录的结果，当服务器端语音识别模块201的识别结果的置信度超过第三预设置信度，所述第三预设置信度优选为0.8，并且结果输出模块104最终输出的是服务器端语音识别模块201的识别结果以及根据所述结果执行了相应的操作，用户在结果输出模块104执行所述操作后预设时间以内未进行操作，所述预设时间优选为15秒，即用户认可了这个最终结果，满足了用户的要求，则后处理模块202将所述服务器端语音识别模块201的识别结果进行保留；

当后处理模块202选择了用户行为和输出结果一致的结果后，即选择了服务器端语音识别模块201的识别结果，将所述结果进行分解，分解的结果包括关键成分和非关键成分，所述分解的结果作为语言模型生成模块的输入，所述关键成分为移动终端10系统控制命令中存在的词条，例如智能电视机中存在的电视台节目，如“中央一套、中央二套等”，所述非关键成分为移动终端10系统控制命令中不存在的词条，即用户表达语音时的附加成分，如“我要看中央一套”里面的“我要看”。

所述语言模型生成模块203包括关键成分模型和非关键成分模型，所述关键成分模型由关键成分组成，所述非关键成分模型由非关键成分组成，所述语言模型生成模块203根据最终输出的识别结果进行语言模型训练，所述关键成分模型和非关键成分模型进行训练后合为更新的语言模型，将所述更新的语言模型发送到移动终端10用于更新移动终端语音识别模块102中的语言模型1。移动终端语音识别模块102中的语言模型1语言模型1的不断更新，有助于移动终端语音识别模块102对用户的语音进行刚加准确的识别，从而提高语音识别的准确率。

首先，通过移动终端的嵌入式的移动终端语音识别模块和服务器端的服务器端语音识别模块，各自实现各自的优势，大部分识别任务将由嵌入式识别器获得，用户体验系统反应很快，节约时间。

其次，通过服务器端的服务器端语音识别模块和用户的操作行为分析，获得更加准确的语言模型，这个语言模型可以使得移动终端的嵌入式的移动终端语音识别模块具有更高的识别率，以及更高的覆盖率，即可以处理大部分的语音输入情况，如果移动终端识别器无法处理的情况，通过服务器端识别器进行处理。二者结合，为用户的语音识别带来了极大的方便。

综上所述，本发明公开一种移动终端的语音识别系统及方法，所述方法包括：当语音采集模块采集用户的语音后，将所述语音传输到移动终端语音识别模块，同时将所述语音通过移动终端通信模块和服务器端通信模块传输到服务器端语音识别模块；移动终端语音识别模块根据接收到的语音通过语言模型和声学模型分析后输出识别结果到结果比较模块，服务器端语音识别模块根据接收到的语音输出识别结果到结果比较模块；结果比较模块将移动终端语音识别模块和服务器端语音识别模块发送来的结果进行比较，选取置信度值大的结果输出到结果输出模块，结果输出模块根据所述结果执行相应的操作。本发明通过将移动终端中嵌入式语音识别和云端服务器识别结合起来，可以获得更加可靠的识别结果，而且能够提高语音识别准确率和效率，为用户智能控制移动终端带来了方便。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种移动终端的语音识别系统，其特征在于，包括移动终端和服务器端，所述移动终端通过通信/网络协议与服务器端连接；

所述移动终端包括：

语音采集模块，用于采集用户的语音数据；

移动终端通信模块，用于在移动终端内部或者和服务器端传输数据；

结果输出模块，用于接收语音结果并执行相应操作；

所述服务器端包括：

2.一种如权利要求1所述移动终端的语音识别系统的语音识别方法，其特征在于，包括以下步骤：

3.根据权利要求2所述移动终端的语音识别系统的语音识别方法，其特征在于，所述移动终端通信模块包括4个通信模块，所述服务器端通信模块包括4个通信模块，每个通信模块传输或者接收一种数据。

4.根据权利要求2所述移动终端的语音识别系统的语音识别方法，其特征在于，所述步骤B还包括;

5.根据权利要求2所述移动终端的语音识别系统的语音识别方法，其特征在于，所述识别结果组成包括：字符串、置信度以及时间刻度；

所述字符串为用户的语音指令；

所述置信度为语音识别的准确度，置信度取值为0-1，取值越大则准确度越高；

所述时间刻度为语音识别过程的时间。

6.根据权利要求2或5所述移动终端的语音识别系统的语音识别方法，其特征在于，所述步骤C具体包括：

7.根据权利要求2所述移动终端的语音识别系统的语音识别方法，其特征在于，所述步骤C之后还包括：

8.根据权利要求2所述移动终端的语音识别系统的语音识别方法，其特征在于，所述步骤D还包括：

9.根据权利要求2所述移动终端的语音识别系统的语音识别方法，其特征在于，所述语言模型生成模块包括关键成分模型和非关键成分模型。

10.根据权利要求2所述移动终端的语音识别系统的语音识别方法，其特征在于，所述关键成分模型由关键成分组成，所述非关键成分模型由非关键成分组成，所述语言模型生成模块根据最终输出的识别结果进行语言模型训练，所述关键成分模型和非关键成分模型进行训练后合为更新的语言模型，将所述更新的语言模型发送到移动终端用于更新移动终端语音识别模块中的语言模型。