CN103956169B

CN103956169B - 一种语音输入方法、装置和系统

Info

Publication number: CN103956169B
Application number: CN201410156242.XA
Authority: CN
Inventors: 陈伟; 梁伟文; 邵俊尧
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2014-04-17
Filing date: 2014-04-17
Publication date: 2017-07-21
Anticipated expiration: 2034-04-17
Also published as: CN103956169A

Abstract

本发明实施例提供了一种语音输入方法、装置和系统，所述的方法包括：当接收到客户端发送的语音数据时，判断所述语音数据输入时的输入环境类型；识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本；将所述一个或多个候选识别文本发送至所述客户端；其中，所述一个或多个候选识别文本用于在所述客户端显示。本发明实施例中不同的输入环境类型具有不同的语言特性，基于不同的输入环境类型选择不同的语言模型进行识别，提高了语言模型的性能，同时也提高了语音数据的识别准确度，更加符合用户的意图，提高了用户体验。

Description

一种语音输入方法、装置和系统

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音输入法方法、一种语音输入装置和一种语音输入系统。

背景技术

目前，移动互联网的快速发展带动了诸如智能手机、平板电脑的智能移动设备广泛普及。但是受限于屏幕尺寸以及触屏按键，在移动设备特别是智能手机上打字非常困难，此时作为人机交互最方便自然的方式，语音输入法正逐渐被广大用户所接受。

移动互联网极大改变了网民访问互联网的方式，移动应用APP（Application，第三方应用程序）的出现进一步促使用户使用移动互联网的方式偏向垂直化，用户在移动设备上的使用方式也愈加直接、明确，例如用户希望看视频，会直接点击视频类的APP，在搜索框中输入想看的视频，直接点击观看。

目前的语音识别方法后台均使用通用的识别系统，比如，用户在视频类的APP中输入xiaoshuo，期望搜索晓说（高晓松的脱口秀），但是通用的识别系统则显示首选结果为小说。

一方面，该识别系统识别准确度低，容易偏离了用户的意图，用户体验差；另一方面，用户需要通过手动寻找自己所需的字词，甚至要重新输入，操作繁琐，浪费设备资源。

发明内容

本发明实施例所要解决的技术问题是提供一种语音输入法方法，用以解决语音识别准确率低的问题。

相应的，本发明实施例还提供了一种语音输入法装置和一种语音输入系统，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种语音输入方法，包括：

当接收到客户端发送的语音数据时，判断所述语音数据输入时的输入环境类型；

识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本；

将所述一个或多个候选识别文本发送至所述客户端；

其中，所述一个或多个候选识别文本用于在所述客户端显示。

优选地，所述判断所述语音数据输入时的输入环境类型的步骤包括：

获取所述语音数据输入时的原始输入环境信息；

在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型。

优选地，所述原始输入环境信息包括但不限于如下的至少一个：

第三方应用程序的标识，访问的网站名称，访问的网站网址，输入场景，通讯对象。

优选地，所述预置的输入环境分类列表记录有特定输入环境类型和通用输入环境类型，以及，所述特定输入环境类型对应的特定输入环境信息；

所述在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型的步骤包括：

采用获取的原始输入环境信息与预置输入环境分类列表中的所述特定输入环境信息进行匹配；

当匹配成功时，判定所述原始输入环境信息的输入环境类型为所述特定输入环境类型；

当匹配失败时，判定所述原始输入环境信息的输入环境类型为所述通用输入环境类型。

优选地，所述在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型的步骤还包括：

判断在归属所述通用输入环境类型的原始输入环境信息中，输入的第一文本信息是否大于预设数量阈值；

若是，则分别采用所述特定输入环境类型的特定输入环境信息中输入的文本信息集合，计算所述第一文本信息归属于所述特定输入环境类型的第一归属概率；

分别采用所述第一归属概率计算所述原始输入环境信息归属于所述特定输入环境类型的第一置信度；

当所述第一置信度的最高值大于或等于预设的第一置信度阈值时，判定所述原始输入环境信息归属于所述最高值所属第一置信度的特定输入环境类型。

优选地，通过以下公式计算所述第一置信度：

Conf(i)=CP(i)/sum(CP(i))

其中，Conf(i)为所述第一置信度，CP(i)为所述第一归属概率，sum()为求和函数，i为正整数且i小于或等于所述特定输入环境类型的数量。

优选地，所述识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本的步骤包括：

提取所述语音数据中的多帧语音信号的声学特征；

分别采用所述声学特征识别所述多帧语音信息对应的多个语音候选词；

分别计算所述多个语音候选词的应用概率；

获得所述输入环境类型对应的语言特征信息；

采用所述输入环境类型对应的语言特征信息计算所述多个语音候选词之间的连接概率；

将所述多个语音候选词组合为所述语音数据对应的多个候选识别文本；

分别采用所述应用概率和所述连接概率计算对应的候选识别文本的识别评分，获得识别评分最高的一个或多个候选识别文本。

优选地，所述语言特征信息包括输入环境分词及对应的同现率，所述获得获得所述输入环境类型对应的语言特征信息的步骤包括：

确定当次所述输入环境类型中的第二文本信息；

采用当前输入环境类型中的第二文本信息，计算预置的训练文本信息归属当前输入环境类型的第二归属概率；

分别采用所述第二归属概率计算所述训练文本信息归属于当前输入环境类型的第二置信度；

当所述第二置信度大于或等于预设的第二置信度阈值时，将所述训练文本文本划分进当前输入环境类型；

当所述训练划分完毕时，对所述输入环境类型中的文本信息进行分词处理，获得输入环境分词；

统计所述输入环境分词在所述输入环境类别中的词频数；

采用所述词频数计算所述输入环境分词的同现率。

优选地，当次所述输入环境类型中的第二文本信息包括：

所述输入环境类型中的原始文本信息；

和/或，

所述输入环境类型中增长量大于预设增量阈值时的的文本信息。

优选地，所述同现率包括第一词频数与第二词频数的比值；

其中，所述第一词频数包括当前输入环境分词出现在目标输入环境分词之后的词频数；所述目标输入环境分词包括出现在当前输入环境分词之前的一个或多个输入环境分词；

所述第二词频数包括所述目标输入环境分词总的词频数。

优选地，通过以下公式计算所述第二置信度：

Conf(j)=CP(j)/sum(CP(j))

其中，Conf(j)为所述第二置信度，CP(j)为所述第二归属概率，sum()为求和函数，j为正整数且j小于或等于所述输入环境类型的数量。

优选地，通过以下公式计算所述应用概率：

其中，为所述声学特征，为所述语音候选词。

优选地，通过以下公式计算所述连接概率：

其中，为所述语音候选词。

优选地，通过以下公式计算所述识别评分：

其中，为所述应用概率，为所述连接概率，λ为预置的权重，WP为词插入惩罚参数。

本发明实施例还公开了一种语音输入装置，包括：

判断单元，用于在接收到客户端发送的语音数据时，判断所述语音数据输入时的输入环境类型；

识别单元，用于识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本；

第一发送单元，用于将所述一个或多个候选识别文本发送至所述客户端；其中，所述一个或多个候选识别文本用于在所述客户端显示。

优选地，所述判断单元包括：

获取模块，用于获取所述语音数据输入时的原始输入环境信息；

查找模块，用于在预置的输入环境分类列表中查找所述原始输入环境信息对应的输入环境类型。

所述查找模块包括：

匹配子模块，用于采用获取的原始输入环境信息与预置输入环境分类列表中的所述特定输入环境信息进行匹配；当匹配成功时，调用第一判定子模块，当匹配失败时，调用第二判定子模块；

第一判定子模块，用于判定所述原始输入环境信息的输入环境类型为所述特定输入环境类型；

第二判定子模块，用于判定所述原始输入环境信息的输入环境类型为所述通用输入环境类型。

优选地，所述查找模块还包括：

阈值判断子模块，用于判断在归属所述通用输入环境类型的原始输入环境信息中，输入的第一文本信息是否大于预设数量阈值；若是，则调用第一归属概率计算子模块；

第一归属概率计算子模块，用于分别采用所述特定输入环境类型的特定输入环境信息中输入的文本信息集合，计算所述原始输入环境信息归属于所述特定输入环境类型的第一归属概率；

第一置信度计算子模块，用于分别采用所述第一归属概率计算所述原始输入环境信息归属于所述特定输入环境类型的第一置信度；

第一归属判定子模块，用于在所述第一置信度的最高值大于或等于预设的第一置信度阈值时，判定所述原始输入环境信息归属于所述最高值所属第一置信度的特定输入环境类型。

优选地，所述识别单元包括：

声学特征提取模块，用于提取所述语音数据中的多帧语音信号的声学特征；

语音候选词识别模块，用于分别采用所述声学特征识别所述多帧语音信息对应的多个语音候选词；

应用概率计算模块，用于分别计算所述多个语音候选词的应用概率；

语言特征信息获得模块，用于获得所述输入环境类型对应的语言特征信息；

连接概率计算模块，用于采用所述输入环境类型对应的语言特征信息计算所述多个语音候选词之间的连接概率；

候选识别文本组合模块，用于将所述多个语音候选词组合为所述语音数据对应的多个候选识别文本；

识别评分计算模块，用于分别采用所述应用概率和所述连接概率计算对应的候选识别文本的识别评分，获得识别评分最高的一个或多个候选识别文本。

优选地，所述语言特征信息获得模块包括：

第二文本信息确定子模块，用于确定当次所述输入环境类型中的第二文本信息；

第二归属概率计算子模块，用于采用当前输入环境类型中的第二文本信息，计算预置的训练文本信息归属当前输入环境类型的第二归属概率；

第二置信度计算子模块，用于分别采用所述第二归属概率计算所述训练文本信息归属于当前输入环境类型的第二置信度；

输入环境类型划分子模块，用于在所述第二置信度大于或等于预设的第二置信度阈值时，将所述训练文本划分进当前输入环境类型；

分词子模块，用于在所述输入环境类型中的第二文本信息划分完毕时，对所述输入环境类型中的文本信息进行分词处理，获得输入环境分词；

统计子模块，用于统计所述输入环境分词在所述输入环境类别中的词频数；

同现率计算子模块，用于采用所述词频数计算所述输入环境分词的同现率。

优选地，当次所述输入环境类型中的第二文本信息包括：

所述输入环境类型中的原始文本信息；

和/或，

优选地，所述同现率包括第一词频数与第二词频数的比值；

所述第二词频数包括所述目标输入环境分词总的词频数。

本发明实施例还公开了一种语音输入系统，所述语音输入系统包括服务器和客户端；其中，

所述服务器包括：

第一接收单元，用于接收客户端发送的语音数据；

第一发送单元，用于将所述一个或多个候选识别文本发送至所述客户端；

所述客户端包括：

采集单元，用于采集语音数据；

第二发送单元，用于将所述语音数据发送至服务器；

第二接收单元，用于接收服务器发送的所述一个或多个候选识别文本；

显示单元，用于显示所述一个或多个候选识别文本。

与背景技术相比，本发明实施例包括以下优点：

本发明实施例在接收到语音数据时，判断语音数据输入时的输入环境类型，并采用该输入环境类型匹配的语言模型进行语音数据的识别，将识别出的一个或多个候选识别文本返回客户端进行显示，一方面，不同的输入环境类型具有不同的语言特性，基于不同的输入环境类型选择不同的语言模型进行识别，提高了语言模型的性能，同时也提高了语音数据的识别准确度，更加符合用户的意图，提高了用户体验；另一方面，语言数据的识别准确度的提高，可以减少用户通过手动寻找自己所需的字词的操作几率，也减少了重新输入的几率，也同时减少了客户端和服务器响应重新输入的操作，提高了操作简便性，减少了客户端与服务器资源占用，提高了客户端与服务器的运行效率。

本发明实施例基于用户输入语音数据时的原始输入环境信息自动判别该语音数据归属的输入环境类型，避免用户手动操作，进一步提高了操作的简便性。

本发明实施例基于统计模型从大量未标注输入环境类型的文本中采集特定输入环境类型的文本信息，解决了语言模型文本信息较少，容易出现数据稀疏的问题，提高了语言模型的性能，一进步提高了语音数据的识别准确度。

附图说明

图1是本发明的一种语音输入方法实施例的步骤流程图；

图2是本发明的一种语音数据识别的示例图；

图3是本发明的一种解码器的选择示例图；

图4是本发明的一种候选识别文本的显示示例图；

图5是本发明的一种语音输入装置实施例的结构框图；

图6是本发明的一种语音输入系统实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种语音输入方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，当接收到客户端发送的语音数据时，判断所述语音数据输入时的输入环境类型；

应用本发明实施例，如图2所示，通过分别部署客户端和服务器，可以在客户端通过麦克风、语音传感器等声音采集设备采集来自用户的语音数据（对应于图2所示的“语音采集”）。

在采集到语音数据之后，客户端可以将该语音数据发送至服务器。具体地，可以通过WIFI（Wireless Fidelity，短程无线传输技术）、蓝牙、无线网络通讯（例如通用分组无线服务技术GPRS、第三代移动通信技术3G、第四代移动通信技术4G等等）等无线网络与服务器建立无线连接，也可以通过网线、USB（Universal Serial Bus，通用串行总线）等有线网络与服务器建立有线连接，等等，本发明实施例对此不加以限制。

服务器接收客户端发送的语音数据后，可以对用户在输入语音数据时的输入环境类型进行判断（对应于图2所示的“输入环境类型判别”）。

在本发明的一种优选实施例中，步骤101可以包括如下子步骤：

子步骤S11，获取所述语音数据输入时的原始输入环境信息；

在具体实现中，原始输入环境信息可以包括但不限于如下的至少一个：

其中，第三方应用程序的标识可以为用户输入语言数据的第三方应用程序中的标识，例如名称、ID、应用类型等等；访问的网站名称、访问的网站网址可以分别为用户输入语音数据的网站的名称、网址；输入场景可以为进行语音数据输入时的场景，例如短信输入框等等；通讯对象可以为语音数据发送的对象，例如用户加入的电影爱好群组、足球爱好群组等等。

子步骤S12，在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型。

应用本发明实施例，可以预先采集不同的输入环境信息，然后进行分类，再制作输入环境分类列表。而在输入环境分类列表中，可以记载输入环境类型及其对应的输入环境信息。

需要说明的是，输入环境类型与输入环境信息可以存在一一对应关系，也可以存在存在一对多关系，本发明实施例对此不加以限制。

作为本发明实施例的一个优选示例，所述预置的输入环境分类列表可以记录有特定输入环境类型和通用输入环境类型，以及，所述特定输入环境类型对应的特定输入环境信息；

则在此示例中，子步骤S12进一步可以包括如下子步骤：

子步骤S121，采用获取的原始输入环境信息与预置输入环境分类列表中的所述特定输入环境信息进行匹配；当匹配成功时，执行子步骤S122，当匹配识别时，执行子步骤S123；

子步骤S122，判定所述原始输入环境信息的输入环境类型为所述特定输入环境类型；

子步骤S123，判定所述原始输入环境信息的输入环境类型为所述通用输入环境类型。

例如，输入环境分类列表的一个示例如下：

输入环境信息	输入环境类型
		comic.XXX.com、APP1、XX动漫网	动漫
sports.XXX.com、APP2、XX体育网	体育
			通用输入环境类型

其中，动漫、体育可以为特定输入环境类型，分别对应特定输入环境信息“comic.XXX.com、APP1、XX动漫网”和“sports.XXX.com、APP2、XX体育网”，而comic.XXX.com和sports.XXX.com可以为访问的网站网址，APP1和APP2可以为第三方应用程序的标识，XX动漫网和XX体育网可以为访问的网站名称。

需要说明的是，本发明实施例可以根据实际需要，划分特定输入环境类型的等级，例如，对于体育领域，除了可以划分体育整个的输入环境类型外，也可以划分篮球、足球等下一级的输入环境类型，还可以划分NBA（National Basketball Association，国家篮球协会）、CBA（Chinese Basketball Association，中国篮球协会）、西甲（西班牙足球甲级联赛）、中超（中国足球超级联赛）等更下一级的输入环境类型，本发明实施例对此不加以限制。

而特定输入环境类型的等级划分精度越高，其所收集的语言数据的读音重叠的概率也就越低，反之精确就越高，则本发明实施例中语音数据识别精度也会随着越高。

通过将原始输入环境信息遍历输入环境分类列表进行匹配，当匹配成功时，可以判定输入环境类型为匹配成功的特定输入环境信息对应的特定输入环境类型，例如，用户在网址为sports.XXX.com的网站中输入语音数据，则可以选取网址sports.XXX.com为原始输入环境信息，在上述示例中的输入环境分类列表中进行匹配，与体育分类中的特定输入环境信息sports.XXX.com匹配成功，则可以判定原始输入环境信息sports.XXX.com的输入环境类型为体育。

当匹配识别时，可以判定输入环境类型为通用输入环境类型。则此通用输入环境类型，可以为当前未能明确输入环境类型的原始输入环境信息的分类。例如，用户在网址为video.XXX.com的网站中输入语音数据，则可以选取网址video.XXX.com为原始输入环境信息，在上述示例中的输入环境分类列表中进行匹配，但是与所有的特定输入环境信息都无法匹配，则可以判定原始输入环境信息video.XXX.com的输入环境类型为通用输入环境类型。

在本发明的一种优选实施例中，子步骤S12进一步还可以包括如下子步骤：

子步骤S124，判断在归属所述通用输入环境类型的原始输入环境信息中，输入的第一文本信息是否大于预设数量阈值；若是，则执行子步骤S125；

子步骤S125，分别采用所述特定输入环境类型的特定输入环境信息中输入的文本信息集合，计算所述第一文本信息归属于所述特定输入环境类型的第一归属概率；

子步骤S126，分别采用所述第一归属概率计算所述原始输入环境信息归属于所述特定输入环境类型的第一置信度；

子步骤S127，当所述第一置信度的最高值大于或等于预设的第一置信度阈值时，判定所述原始输入环境信息归属于所述最高值所属第一置信度的特定输入环境类型。

在本发明实施例中，设定特定输入环境类型的数量为N，假设第三方应用程序Y在输入环境分类列表中无法找到，被判定为通用输入环境类型，用户在第三方应用程序Y中已输入的第一文本信息的集合为K，当K中第一文本信息的数量大于预设的数量阈值TM时，可以启动如下分类流程：

（1）、首先使用各个特定输入环境类型下输入的文本信息集合C(i)(i=1…N，N为正整数)训练各个特定输入环境类型的类别模型M(i)(i=1…N)，然后基于该类别模型M(i)计算某集合K中某第一文本信息T在该特定输入环境类型的概率P(T|M(i))，概率P(T|M(i))越高，T属于该特定输入环境类型的可能性越高；其中，输入的文本信息可以包括在该特定输入环境类型下，用户使用拼音、笔画等输入法或者语音输入法输入的文本信息，而类别模型可以包括朴素贝叶斯模型、N-Gram（大词汇连续语音识别中常用的一种语言模型）模型等等；

（2）、分别计算文本集合K中全部的第一文本信息归属于类别模型M(i)(i=1…N)的归属概率CP(i)，基于CP(i)计算K在各个类别模型上的置信度；

具体地，可以通过以下公式以下公式计算所述第一置信度：

Conf(i)=CP(i)/sum(CP(i))

（3）、若第一置信度最高的特定输入环境类型m的置信度Conf(m)大于或等于预设的第一置信度阈值Thresh，则将第三方应用程序Y添加至输入环境分类列表中，对应输入环境分类为m，若小于则可以转至人工整理。

步骤102，识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本；

语音识别技术，也可以称为自动语音识别（Automatic Speech Recognition，ASR），其任务是把用户所发出的语音中词汇内容转换为计算机可读入的文本。语音识别技术是一种综合性的技术，它涉及到多个学科领域，如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等等。

应用本发明实施例，可以在服务器部署的语音识别系统，其可以在声学模型（Acoustic Model，AM）与语言模型（Language Model，LM）的指导下针对接收到的语音数据识别得到一个或多个候选识别文本及其识别评分（对应于图2所示的“环境语音识别”）。

声学模型（Acoustic Model，AM）是自动语音识别系统的模型中最底层的部分，同时也是自动语音识别系统中最关键的组成单元，声学模型建模的好坏会直接从根本上影响语音识别系统的识别效果和鲁棒性。声学模型实验概率统计的模型对带有声学信息的语音基本单元建立模型，描述其统计特性。通过对声学模型的建模，可以较有效地衡量语音的特征矢量序列和每一个发音模板之间的相似度，可以有助于判断该段语音的声学信息，即语音的内容。语者的语音内容都是由一些基本的语音单元组成，这些基本的语音单元可以是句子、词组、词、音节（syllable）、子音节（Sub-syllable）或者音素等。

由于语音信号的时变性、噪声和其它一些不稳定因素，单纯靠声学模型无法达到较高的语音识别的准确率。在人类语言中，每一句话的单词直接有密切的联系，这些单词层面的信息可以减少声学模型上的搜索范围，有效地提高识别的准确性，要完成这项任务，语言模型是必不可少的，它提供了语言中词之间的上下文信息以及语义信息。语言模型（Language Model，LM)具体可以包括N-Gram模型、马尔可夫N元模型（Markov N-gram）、指数模型（Exponential Models）、决策树模型（Decision Tree Models）等等。而N-Gram模型是最常被使用的统计语言模型，特别是二元语言模型（bigram）、三元语言模型（trigram）。

在本发明的一种优选实施例中，步骤102可以包括如下子步骤：

子步骤S21，提取所述语音数据中的多帧语音信号的声学特征；

语音数据的声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使能更好地划分声学特征。

由于语音信号的时变特性，特征提取可以在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。

声学特征具体可以包括线性预测系数LPC、倒谱系数CEP、梅尔频率倒谱系数MFCC和感知线性预测PLP等等。

子步骤S22，分别采用所述声学特征识别所述多帧语音信息对应的多个语音候选词；

应用本发明实施例，可以预先分析出不同语音数据的声学特征，制作语音模板，并存放在语音参数库中。待识别的语音数据经过与训练时相同的分析，得到声学特征。将它与库中的语音模板一一比较，并采用判决的方法找出最接近声学特征的语音模板，得出识别结果，即该语音模板对应的语音候选词。

子步骤S23，分别计算所述多个语音候选词的应用概率；

在本发明实施例的一种优选示例中，通过以下公式计算所述应用概率：

其中，为所述声学特征，为所述语音候选词。

假设为对应的隐马尔可夫模型（Hidden Markov Model，HMM）序列，为对应的HMM状态序列，则

其中，通过发音词典转化为而则是进行了维特比近似；每帧的状态输出概率使用高斯混合模型（Gaussian Mixture Model,GMM）进行描述：

其中，N为高斯个数，为状态x_t第i个高斯分量，c_i为对应的高斯分量权重。

子步骤S24，获得所述输入环境类型对应的语言特征信息；

语言特征信息，可以为在每个输入环境类型中反应该输入环境类型特征的语音信息。

各个输入环境类型的语言模型训练的文本信息采用用户在该输入环境类型下的输入文本，但是在实际使用时仍存在文本信息不均衡的情况，如聊天类别文本信息较大，但是购物类别的文本信息可能相对较少，容易出现数据稀疏的问题，影响到语言模型的性能。因此，本发明实施例为了更快获取较多的标注文本信息，考虑到未标注输入环境类型的文本信息一般较易获取，因此提出了一种从海量未标注输入环境类型的文本信息中挑选各输入环境类型文本的方法。

则在本发明实施例的一种优选示例中，所述语言特征信息可以包括输入环境分词及对应的同现率，子步骤S24进一步可以包括如下子步骤：

子步骤S241，确定当次所述输入环境类型中的第二文本信息；

在具体实现中，当次所述输入环境类型中的第二文本信息可以包括：

所述输入环境类型中的原始文本信息；

和/或，

所述输入环境类型中增长量大于预设增量阈值时的文本信息。

在子步骤S244中，需要对未标注输入环境类型的文本信息划分输入环境类型，因此，原始文本信息可以为未进行换分时该输入环境类型中初始的的文本信息，在未标注输入环境类型的文本信息划分输入环境类型后，输入环境类型中的文本信息可以有着不同的增长，可以预先设定增量阈值，对文本信息增长量大于预设增量阈值的输入环境类型进行监测。

子步骤S242，采用当前输入环境类型中的第二文本信息，计算预置的训练文本信息归属当前输入环境类型的第二归属概率；

在具体实现中，训练文本可以为任意途径获取的文本信息，假设当前海量的训练文本信息的集合为C，包含文本信息的条数为N，C中第n条文本信息为T(n)，(n<=N)，则可以使用各个输入环境类型下输入的文本信息集合C(i)(i=1…N，N为正整数)训练各个输入环境类型的类别模型M(i)(i=1…N)，然后基于该类别模型M(i)计算某集合K中某训练文本信息T在该特定输入环境类型的概率P(T|M(i))，概率P(T|M(i))越高，T属于该特定输入环境类型的可能性越高；其中，输入的文本信息可以包括在该特定输入环境类型下，用户使用拼音、笔画等输入法或者语音输入法输入的文本信息，而类别模型可以包括朴素贝叶斯模型、N-Gram（大词汇连续语音识别中常用的一种语言模型）模型等等。

子步骤S243，分别采用所述第二归属概率计算所述训练文本信息归属于当前输入环境类型的第二置信度；

在具体实现中，可以分别计算文本集合K中全部的第二文本信息归属于类别模型M(i)(i=1…N)的归属概率CP(i)，基于CP(i)计算K在各个类别模型上的置信度；

具体地，可以通过以下公式计算所述第二置信度：

Conf(j)=CP(j)/sum(CP(j))

子步骤S244，当所述第二置信度大于或等于预设的第二置信度阈值时，将所述训练文本划分进当前输入环境类型；

若第二置信度最高的输入环境类型m的第二置信度Conf(m)大于预设的第二置信度阈值Cthresh，则可以将文本信息T(n)加入输入环境类型m中。

需要说明的是，当输入环境类型m的文本信息的集合C(m)中的文本信息个数，较上次训练类别模型时的文本信息个数相对增长超过预设增量阈值inc%时，则需要重新训练输入环境类型m对应的类别模型M(m)。

子步骤S245，当所述训练划分完毕时，对所述输入环境类型中的文本信息进行分词处理，获得输入环境分词；

子步骤S246，统计所述输入环境分词在所述输入环境类别中的词频数；

子步骤S247，采用所述词频数计算所述输入环境分词的同现率。

在本发明实施例的一种优选示例中，当训练文本划分完毕时，则可以基于各个输入环境类型下的文本信息集合C(i)(i=1…N)训练N-Gram模型。则在此示例中，同现率可以为两个或两个以上输入环境分词同时出现的概率。具体地，所述同现率可以包括第一词频数与第二词频数的比值；

所述第二词频数包括所述目标输入环境分词总的词频数。

N-Gram模型基于马尔科夫假设，即一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。对于一个句子T，可以假设T是由词序列W₁，W₂，W₃，…，W_n组成，那么这个句子T由W₁，W₂，W₃，…，W_n连接组成的连接概率为P(T)=P(W₁W₂W₃…W_n)=P(W₁)P(W₂|W₁)P(W₃|W₁W₂)…P(W_n|W₁W₂…W_n-1)。

如果一个词的出现仅依赖于它前面出现的一个词，则称之为bigram。即P(T)=P(W₁W₂W₃…W_n)=P(W₁)P(W_2|W₁)P(W₃|W₁W₂)…P(W_n|W₁W₂…W_n-1)≈P(W₁)P(W₂|W₁)P(W₃|W₂)…P(W_n|W_n-1)。

如果一个词的出现仅依赖于它前面出现的两个词，则称之为trigram。在N-Gram模型的实际应用中以bigram和trigram为主，而高于四元的N-Gram模型应用较少，因为训练四元的N-Gram模型需要更庞大的语料，而且数据稀疏严重，时间复杂度高，精度却提高的不多。

以下以文本信息“I want to eat Chinese food lunch”为例进行说明：

对某个输入环境类型中的第二文本信息“I want eat Chinese food lunch”进行分词，得到输入环境分词“I”、“want”、“to”、“eat”、“Chinese”、“food”、“lunch”，该输入环境分词及其词频数表1和表2所示。

表1输入环境分词的总词频数统计表

输入环境分词	总词频数
		I	3437
want	1215
		to	3256
eat	938
		Chinese	213
food	1506
		lunch	459

表2当前输入环境分词出现在目标输入环境分词前的词频数统计表

	I	want	to	eat	Chinese	food	lunch
								I	8	1087	0	13	0	0	0
want	3	0	786	0	6	8	6
								to	3	0	10	860	3	0	12
eat	0	0	2	0	19	2	52
								Chinese	2	0	0	0	0	120	1
food	19	0	17	0	0	0	0
								lunch	4	0	0	0	0	1	0

例如，第二行第三列中的1087表示在该输入环境类型的第二文本信息中目标输入环境分词“I”出现在当前输入环境分词“want”前面的词频数为1087。

子步骤S25，采用所述输入环境类型对应的语言特征信息计算所述多个语音候选词之间的连接概率；

在具体实现中，连接概率可以为语音候选词连接在一起组成词组的概率，可以采用发音词典进行语音候选词的识别。发音词典是存放所有单词发音的词典，它的作用是用来连接声学模型和语言模型的。例如，一个句子可以分成若干个单词相连接，每个单词通过查询发音词典得到该单词发音的音素序列。相邻单词的转移概率可以通过语言模型获得，音素的概率模型可以通过声学模型获得，从而生成了这句话的一个概率模型。

则在发明实施例中，可以通过以下公式计算所述连接概率：

其中，为所述语音候选词。

以上述第二文本信息“I want to eat Chinese food lunch”为例，其连接概率为：

P(I want to eat Chinese food)

=0.25*（1087/3437）*（786/1215）*（860/3256）*（19/938）*（120/213）

=0.000154171

子步骤S26，将所述多个语音候选词组合为所述语音数据对应的多个候选识别文本；

每个语音信号所对应有一个或多个语言候选词，因此，候选识别文本的组合为一个或多个。

子步骤S27，分别采用所述应用概率和所述连接概率计算对应的候选识别文本的识别评分，获得识别评分最高的一个或多个候选识别文本。

本发明实施例中，在服务器的声学模型以及通用语言模型的指导下，可以计算后验概率条件(Maximum A Posteriori，MAP)作为候选识别文本的识别评分。

具体地，可以通过以下公式计算所述识别评分：

其中，为所述应用概率，为所述连接概率，λ为预置的权重，WP为词插入惩罚参数（代表插入惩罚，尽量降低插入错误）。

进一步地，

应用本发明实施例，可以将识别评分最高的前M（M为正整数）个候选识别文本及其识别评分反馈至客户端（对应于图2所示的“识别结果返回”）。

需要说明的是，本发明实施例中可以包括特定输入环境类型和通用输入环境类型，而不同的特定输入环境类型，具有不同的文本信息，可以训练出不同的语言模型，如图3所示，在判定输入环境类型为特定输入环境类型中时，可以将语音数据发送至由其文本信息训练的语言模型（即特定解码器）中识别候选识别文本，在判定输入环境类型为通用输入环境类型中时，可以将语音数据发送至由大量未标注输入环境类型的文本信息（可以包括但不限制于通用输入环境类型中的文本信息）训练的语言模型（即通用解码器，通用语言模型可以为使用全部类别的文本信息组合后训练完成的模型）中识别候选识别文本。

例如，用户输入读音为“xiaoshuo”的语音数据，如果在搜索引擎中则希望首选识别结果为小说，而如果在视频类的应用程序中搜索则希望首选识别结果为晓说(高晓松的脱口秀)，使用不同输入环境类型的语言模型则可以优先上屏与该输入环境类型更相关的候选识别文本。

步骤103，将所述一个或多个候选识别文本发送至所述客户端；其中，所述一个或多个候选识别文本用于在所述客户端显示。

在具体实现中，客户端在接收服务器发送的所述一个或多个候选识别文本，并可以采用任意形式显示所述一个或多个候选识别文本（对应于图2所示的“结果上屏”），本发明实施例无需加以限制。

例如，如图4所示，语音数据在经过部署在服务器的语音识别系统进行识别后获得一个或多个候选识别文本，在客户端中识别评分越高的候选识别文本可以越优先显示，如候选识别文本1的识别评分s1比候选识别文本2的识别评分s2高，候选识别文本2的识别评分s2候选识别文本3的识别评分s3高。

本发明实施例在接收到语音数据时，判断语音数据输入时的输入环境类型，并采用该输入环境类型匹配的语言模型进行语音数据的识别，将识别出的一个或多个候选识别文本返回客户端中进行显示，一方面，不同的输入环境类型具有不同的语言特性，基于不同的输入环境类型选择不同的语言模型进行识别，提高了语言模型的性能，同时也提高了语音数据的识别准确度，更加符合用户的意图，提高了用户体验；另一方面，语言数据的识别准确度的提高，可以减少用户通过手动寻找自己所需的字词的操作几率，也减少了重新输入的几率，也同时减少了客户端和服务器响应重新输入的操作，提高了操作简便性，减少了客户端与服务器资源占用，提高了客户端与服务器的运行效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明一种语音输入装置实施例的结构框图，具体可以包括如下单元：

判断单元501，用于在接收到客户端发送的语音数据时，判断所述语音数据输入时的输入环境类型；

识别单元502，用于识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本；

第一发送单元503，用于将所述一个或多个候选识别文本发送至所述客户端；其中，所述一个或多个候选识别文本用于在所述客户端显示。

在本发明的一种优选实施例中，所述判断单元501可以包括如下模块：

查找模块，用于在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型。

在本发明的一种优选实施例中，所述原始输入环境信息可以包括但不限于如下的至少一个：

在本发明的一种优选实施例中，所述预置的输入环境分类列表记录有特定输入环境类型和通用输入环境类型，以及，所述特定输入环境类型对应的特定输入环境信息；

所述查找模块可以包括如下子模块：

在本发明的一种优选实施例中，所述查找模块还可以包括如下子模块：

在本发明的一种优选实施例中，可以通过以下公式计算所述第一置信度：

Conf(i)=CP(i)/sum(CP(i))

在本发明的一种优选实施例中，所述识别单元502可以包括如下模块：

在本发明的一种优选实施例中，所述语言特征信息获得模块可以包括如下子模块：

在本发明的一种优选实施例中，当次所述输入环境类型中的第二文本信息可以包括：

所述输入环境类型中的原始文本信息；

和/或，

在本发明的一种优选实施例中，所述同现率可以包括第一词频数与第二词频数的比值；

所述第二词频数包括所述目标输入环境分词总的词频数。

在本发明的一种优选实施例中，可以通过以下公式计算所述第二置信度：

Conf(j)=CP(j)/sum(CP(j))

在本发明的一种优选实施例中，可以通过以下公式计算所述应用概率：

其中，为所述声学特征，为所述语音候选词。

在本发明的一种优选实施例中，可以通过以下公式计算所述连接概率：

其中，为所述语音候选词。

在本发明的一种优选实施例中，可以通过以下公式计算所述识别评分：

参照图6，示出了本发明一种语音输入系统实施例的结构框图，所述语音输入系统可以包括服务器610和客户端620；其中，

所述服务器610可以包括如下单元：

第一接收单元611，用于接收客户端发送的语音数据；

判断单元612，用于在接收到客户端发送的语音数据时，判断所述语音数据输入时的输入环境类型；

识别单元613，用于识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本；

第一发送单元614，用于将所述一个或多个候选识别文本发送至所述客户端；

所述客户端620可以包括如下单元：

采集单元621，用于采集语音数据；

第二发送单元622，用于将所述语音数据发送至服务器；

第二接收单元623，用于接收服务器发送的所述一个或多个候选识别文本；

显示单元624，用于显示所述一个或多个候选识别文本。

在本发明的一种优选实施例中，所述判断单元612可以包括如下模块：

所述查找模块可以包括如下子模块：

Conf(i)=CP(i)/sum(CP(i))

在本发明的一种优选实施例中，所述识别单元613可以包括如下模块：

所述输入环境类型中的原始文本信息；

和/或，

所述第二词频数包括所述目标输入环境分词总的词频数。

Conf(j)=CP(j)/sum(CP(j))

其中，为所述声学特征，为所述语音候选词。

其中，为所述语音候选词。

对于装置、系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音输入方法、一种语音输入装置和一种语音输入系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音输入方法，其特征在于，包括：

将所述一个或多个候选识别文本发送至所述客户端；

其中，所述一个或多个候选识别文本用于在所述客户端显示；

所述识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本的步骤包括：

提取所述语音数据中的多帧语音信号的声学特征；

分别计算所述多个语音候选词的应用概率；

获得所述输入环境类型对应的语言特征信息；

2.根据权利要求1所述的方法，其特征在于，所述判断所述语音数据输入时的输入环境类型的步骤包括：

获取所述语音数据输入时的原始输入环境信息；

3.根据权利要求2所述的方法，其特征在于，所述原始输入环境信息包括但不限于如下的至少一个：

4.根据权利要求2所述的方法，其特征在于，所述预置的输入环境分类列表记录有特定输入环境类型和通用输入环境类型，以及，所述特定输入环境类型对应的特定输入环境信息；

5.根据权利要求4所述的方法，其特征在于，所述在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型的步骤还包括：

6.根据权利要求5所述的方法，其特征在于，通过以下公式计算所述第一置信度：

Conf(i)＝CP(i)/sum(CP(i))

7.根据权利要求1所述的方法，其特征在于，所述语言特征信息包括输入环境分词及对应的同现率，所述获得获得所述输入环境类型对应的语言特征信息的步骤包括：

确定当次所述输入环境类型中的第二文本信息；

统计所述输入环境分词在所述输入环境类别中的词频数；

采用所述词频数计算所述输入环境分词的同现率。

8.根据权利要求7所述的方法，其特征在于，当次所述输入环境类型中的第二文本信息包括：

所述输入环境类型中的原始文本信息；

和/或，

9.根据权利要求7所述的方法，其特征在于，所述同现率包括第一词频数与第二词频数的比值；

所述第二词频数包括所述目标输入环境分词总的词频数。

10.根据权利要求7所述的方法，其特征在于，通过以下公式计算所述第二置信度：

Conf(j)＝CP(j)/sum(CP(j))

11.根据权利要求1或7所述的方法，其特征在于，通过以下公式计算所述应用概率：

其中，为所述声学特征，为所述语音候选词。

12.根据权利要求1或7所述的方法，其特征在于，通过以下公式计算所述连接概率：

其中，为所述语音候选词。

13.根据权利要求1或7所述的方法，其特征在于，通过以下公式计算所述识别评分：

14.一种语音输入装置，其特征在于，包括：

第一发送单元，用于将所述一个或多个候选识别文本发送至所述客户端；其中，所述一个或多个候选识别文本用于在所述客户端显示；

所述识别单元包括：

15.根据权利要求14所述的装置，其特征在于，所述判断单元包括：

16.根据权利要求15所述的装置，其特征在于，所述原始输入环境信息包括但不限于如下的至少一个：

17.根据权利要求15所述的装置，其特征在于，所述预置的输入环境分类列表记录有特定输入环境类型和通用输入环境类型，以及，所述特定输入环境类型对应的特定输入环境信息；

所述查找模块包括：

18.根据权利要求17所述的装置，其特征在于，所述查找模块还包括：

19.根据权利要求18所述的装置，其特征在于，所述语言特征信息获得模块包括：

20.根据权利要求19所述的装置，其特征在于，当次所述输入环境类型中的第二文本信息包括：

所述输入环境类型中的原始文本信息；

和/或，

21.根据权利要求19所述的装置，其特征在于，所述同现率包括第一词频数与第二词频数的比值；

所述第二词频数包括所述目标输入环境分词总的词频数。

22.一种语音输入系统，其特征在于，所述语音输入系统包括服务器和客户端；其中，

所述服务器包括：

第一接收单元，用于接收客户端发送的语音数据；

其中，所述识别单元包括：

识别评分计算模块，用于分别采用所述应用概率和所述连接概率计算对应的候选识别文本的识别评分，获得识别评分最高的一个或多个候选识别文本；

所述客户端包括：

采集单元，用于采集语音数据；

第二发送单元，用于将所述语音数据发送至服务器；

显示单元，用于显示所述一个或多个候选识别文本。