CN105096935A

CN105096935A - 一种语音输入方法、装置和系统

Info

Publication number: CN105096935A
Application number: CN201410188847.7A
Authority: CN
Inventors: 李志宁
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-05-06
Filing date: 2014-05-06
Publication date: 2015-11-25
Anticipated expiration: 2034-05-06
Also published as: US20150325240A1; CN105096935B; WO2015171646A1; TW201543467A

Abstract

本申请实施例提供了一种语音输入方法、装置和系统，所述语音输入方法包括：接收客户端发送的特征信息；所述特征信息包括语音信号和用户特征图像信号；识别出与所述用户特征图像信号匹配的第一候选识别数据；识别出与所述语音信号匹配的第二候选识别数据；至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据；以及将所述目标识别数据发送至所述客户端。本申请实施例通过图片处理技术结合语音识别技术，降低了用户在输入语音信号时说话声小、环境嘈杂等情况的干扰，提高了语音识别的准确率。

Description

一种语音输入方法、装置和系统

技术领域

本申请涉及语音识别的技术领域，特别是涉及一种语音输入方法、一种语音输入装置和一种语音输入系统。

背景技术

随着社会的不断发展和多媒体通信以及声音转换技术的深入发展，声音控制技术(即声控技术)已经得到广泛的关注。声控技术经过长期快速发展，已经投入到实际应用中，例如，用声音打开门窗、窗帘、电视机、电灯等。

在实现声控技术时，语音识别是其中一个重要环节。而目前的声控技术一般是基于用户的一系列声音识别技术，包括：接收音频信号；根据有效语音命令特征对所述音频信号进行分解和过滤，得到语音样本；对所述语音样本进行语义识别，确定对应的语音命令。

目前的声控技术需要清晰明了地获取用户的音频信号，才能进一步识别，因此在识别声音的时候容易出现错误，特别是在用户说话声音小、环境嘈杂等情况下，目前的声控技术不能完全准确的获取用户的音频信号，进而不能准确进行识别。

因此，目前需要本领域技术人员迫切解决的一个技术问题就是：如何提出一种语音输入机制，以提高语音识别的准确率。

发明内容

本申请实施例所要解决的技术问题是提供一种语音输入方法，用以提高语音识别的准确率。

相应的，本申请实施例还提供了一种语音输入装置和一种语音输入系统，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种语音输入方法，包括：

接收客户端发送的特征信息；所述特征信息包括语音信号和用户特征图像信号；

识别出与所述用户特征图像信号匹配的第一候选识别数据；

识别出与所述语音信号匹配的第二候选识别数据；

至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据；以及

将所述目标识别数据发送至所述客户端。

优选地，所述用户特征图像信号包括在输入所述语音信号时记录的一帧或多帧嘴型特征图信号。

优选地，所述第一候选识别数据对应有一帧或多帧嘴型参考图信号，所述识别出与所述用户特征图像信号匹配的第一候选识别数据的步骤包括：

计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度；以及

提取与最高值的嘴型相似度对应的第一候选识别数据，作为与所述用户特征图像信号匹配的第一候选识别数据。

优选地，每一帧嘴型参考图信号对应有一组嘴型参考向量，所述计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度的步骤包括：

从每一帧嘴型特征图信号中提取一组嘴型特征信息；

对每一组嘴型特征信息建立一组嘴型特征向量；

分别计算所述嘴型特征向量与对应的所述嘴型参考向量之间的向量相似度；以及

计算所述向量相似度之和，获得嘴型相似度。

优选地，每一组嘴型特征向量中包括如下至少一种向量：

特征嘴型大小向量、特征嘴型比例向量、特征牙齿能见向量、特征牙齿比例向量、特征舌头能见向量、特征舌头比例向量；

其中，所述特征嘴型大小为标识所述嘴型特征图信号中嘴型区域面积大小的向量；

所述特征嘴型比例向量为标识所述嘴型特征图信号中嘴型区域面积，与预置的标准嘴型区域面积之间的比例的向量；

所述特征牙齿能见向量为标识所述嘴型特征图信号中是否识别出牙齿区域的向量；

所述特征牙齿比例向量为标识所述嘴型特征图信号中牙齿区域与嘴型区域之间的比例的向量；

所述特征舌头能见向量为标识所述嘴型特征图信号中是否识别出舌头区域的向量；

所述特征舌头比例向量为标识所述嘴型特征图信号中舌头区域与嘴型区域之间的比例的向量。

优选地，每一组嘴型参考向量中包括如下至少一种向量：

参考嘴型大小向量、参考嘴型比例向量、参考牙齿能见向量、参考牙齿比例向量、参考舌头能见向量、参考舌头比例向量；

其中，所述参考嘴型大小为标识所述嘴型参考图信号中嘴型区域面积大小的向量；

所述参考牙齿能见向量为标识所述嘴型参考图信号中是否识别出牙齿区域的向量；

所述参考嘴型比例向量为标识所述嘴型参考图信号中嘴型区域面积，与预置的标准嘴型区域面积之间的比例的向量；

所述参考牙齿比例向量为标识所述嘴型参考图信号中牙齿区域与嘴型区域之间的比例的向量；

所述参考舌头能见向量为标识所述嘴型参考图信号中是否识别出舌头区域的向量；

所述参考舌头比例向量为标识所述嘴型参考图信号中舌头区域与嘴型区域之间的比例的向量。

优选地，所述分别计算所述嘴型特征向量与对应的嘴型参考向量之间的向量相似度的步骤包括：

分别将所述特征嘴型大小向量与所述特征嘴型比例向量的比值设置为标准嘴型大小向量；以及

至少根据所述标准嘴型大小向量、所述特征牙齿能见向量、所述特征牙齿比例向量、所述特征舌头能见向量、所述特征舌头比例向量，与所述参考嘴型大小向量、所述参考牙齿能见向量、所述参考牙齿比例向量、所述参考舌头能见向量、所述参考舌头比例向量中的一种或者多种，计算特征向量相似度。

优选地，所述识别出与所述语音信号匹配的第二候选识别数据的步骤包括：

从所述语音信号提取语音特征；

计算所述语音特征与预置的发音模板之间的发音相似度；

当所述发音相似度大于预设的相似度阈值时，提取所述发音相似度所属的发音模板对应的语音候选数据；

计算所述语音候选数据的出现概率；

当所述出现概率大于预设的第一概率阈值时，计算所述语音候选数据之间的连接概率；以及

当所述连接概率大于预设的第二概率阈值时，提取所述语音候选数据组成第二候选识别数据。

优选地，所述至少根据所述第一候选识别数据和第二候选识别数据确定目标识别数据的步骤包括：

对所述第一候选识别数据和所述第二候选识别数据进行交集处理，获得目标识别数据。

本申请实施例还公开了一种语音输入方法，包括：

采集特征信息；所述特征信息包括语音信号和用户特征图像信号；

识别出与所述用户特征图像信号匹配的第一候选识别数据；

识别出与所述语音信号匹配的第二候选识别数据；以及

至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据。

优选地，还包括：

执行所述目标识别数据对应的操作。

提取最高值的嘴型相似度对应的第一候选识别数据，作为与所述用户特征图像信号匹配的第一候选识别数据。

从每一帧嘴型特征图信号中提取一组嘴型特征信息；

对每一组嘴型特征信息建立一组嘴型特征向量；

计算所述向量相似度之和，获得嘴型相似度。

优选地，每一组嘴型特征向量中包括如下至少一种向量：

优选地，每一组嘴型参考向量中包括如下至少一种向量：

从所述语音信号提取语音特征；

计算所述语音特征与预置的发音模板之间的发音相似度；

计算所述语音候选数据的出现概率；

本申请实施例还公开了一种语音输入装置，包括：

接收模块，用于接收客户端发送的特征信息；所述特征信息包括语音信号和用户特征图像信号；

第一识别模块，用于识别出与所述用户特征图像信号匹配的第一候选识别数据；

第二识别模块，用于识别出与所述语音信号匹配的第二候选识别数据；

确定模块，用于至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据；

发送模块，用于将所述目标识别数据发送至所述客户端。

优选地，所述第一识别模块包括：

嘴型相似度计算子模块，用于计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度；

第一提取模块，用于提取与最高值的嘴型相似度对应的第一候选识别数据，作为与所述用户特征图像信号匹配的第一候选识别数据。

优选地，每一帧嘴型参考图信号对应有一组嘴型参考向量，所述第一嘴型相似度计算子模块包括：

特征提取子模块，用于对从每一帧嘴型特征图信号中提取一组嘴型特征信息；

向量建立子模块，用于对每一组嘴型特征信息建立一组嘴型特征向量；

第一计算子模块，用于分别计算所述嘴型特征向量与对应的所述嘴型参考向量之间的向量相似度；

第二计算子模块，用于计算所述向量相似度之和，获得嘴型相似度。

优选地，每一组嘴型特征向量中包括如下至少一种向量：

所述特征舌头比例向量为标识所述嘴型特征图信号中舌头区域与嘴型区域之间的比例的向量；

优选地，每一组嘴型参考向量中包括如下至少一种向量：

优选地，所述第一计算子模块包括：

设置子模块，用于分别将所述特征嘴型大小向量与所述特征嘴型比例向量的比值设置为标准嘴型大小向量；

向量计算子模块，用于至少根据所述标准嘴型大小向量、所述特征牙齿能见向量、所述特征牙齿比例向量、所述特征舌头能见向量、所述特征舌头比例向量，与所述参考嘴型大小向量、所述参考牙齿能见向量、所述参考牙齿比例向量、所述参考舌头能见向量、所述参考舌头比例向量中的一种或者多种，计算特征向量相似度。

优选地，所述第二识别模块包括：

第一提取子模块，用于从所述语音信号提取语音特征；

第三计算子模块，用于计算所述语音特征与预置的发音模板之间的发音相似度；

第二提取子模块，用于在所述发音相似度大于预设的相似度阈值时，提取所述发音相似度所属的发音模板对应的语音候选数据；

第四计算子模块，用于计算所述语音候选数据的出现概率；

第五计算子模块，用于在所述出现概率大于预设的第一概率阈值时，计算所述语音候选数据之间的连接概率；

第三提取子模块，用于在所述连接概率大于预设的第二概率阈值时，提取所述语音候选数据组成第二候选识别数据。

优选地，所述确定模块包括：

交集处理子模块，用于对所述第一候选识别数据和所述第二候选识别数据进行交集处理，获得目标识别数据。

本申请实施例还公开了一种语音输入装置，包括：

特征信息采集模块，用于采集特征信息；所述特征信息包括语音信号和用户特征图像信号；

确定模块，用于至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据。

优选地，还包括：

执行模块，用于执行所述目标识别数据对应的操作。

优选地，所述第一识别模块包括：

优选地，每一组嘴型特征向量中包括如下至少一种向量：

优选地，每一组嘴型参考向量中包括如下至少一种向量：

优选地，所述第一计算子模块包括：

优选地，所述第二识别模块包括：

第一提取子模块，用于从所述语音信号提取语音特征；

第四计算子模块，用于计算所述语音候选数据的出现概率；

优选地，所述确定模块包括：

本申请实施例还公开了一种语音输入系统，所述系统包括服务器和客户端；

其中，所述服务器包括：

第一接收模块，用于接收客户端发送的特征信息；所述特征信息包括语音信号和用户特征图像信号；

第一发送模块，用于将所述目标识别数据发送至所述客户端。

所述客户端包括：

第二发送模块，用于将所述特征信息发送至所述服务器；

第二接收模块，用于接收所述服务器发送的目标识别数据。

优选地，所述客户端还包括：

执行模块，用于执行所述目标识别数据对应的操作。

优选地，所述第一识别模块包括：

优选地，每一组嘴型特征向量中包括如下至少一种向量：

优选地，每一组嘴型参考向量中包括如下至少一种向量：

优选地，所述第一计算子模块包括：

优选地，所述第二识别模块包括：

第一提取子模块，用于从所述语音信号提取语音特征；

第四计算子模块，用于计算所述语音候选数据的出现概率；

优选地，所述确定模块包括：

与背景技术相比，本申请实施例包括以下优点：

本申请实施例识别出与客户端发送的用户特征图像信号匹配的第一候选识别数据，识别出与客户端发送的语音信号匹配的第二候选识别数据，进而确定目标识别数据，再发送至客户端，通过图片处理技术结合语音识别技术，降低了用户在输入语音信号时说话声小、环境嘈杂等情况的干扰，提高了语音识别的准确率。

本申请实施例利用读音不同而嘴型不同的特点，通过识别用户嘴型变化，避免用户进行其他额外的操作，保证了用户操作的简便性，同时，进一步提高了语音识别准确率。

本申请实施例在提高了语音识别准确率的基础之上，减少错误目标识别数据的识别，执行目标识别数据对应的操作时，则可以减少错误的操作，提高了声控命令执行的准确率，一方面，可以减少用户重新输入特征信息等的操作步骤，提高了用户操作的简便性，提升用户体验，另一方面，可以减少客户端对用户发出的特征信息的操作响应，减少客户端系统资源的消耗。

附图说明

图1是本申请的一种语音输入方法实施例的步骤流程图；

图2是本申请的另一种语音输入方法实施例的步骤流程图；

图3是本申请的一种语音输入装置实施例的结构框图；

图4是本申请的另一种语音输入装置实施例的结构框图；以及

图5是本申请的一种语音输入系统实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种语音输入方法实施例的步骤流程图，所述语音输入方法100具体可以包括如下步骤：

步骤101，接收客户端发送的特征信息；

应用本申请实施例，在用户对客户端输入声控操作指令等情形下，可以在客户端采集特征信息，然后将采集到的特征信息发送至服务器或者云端。

在具体实现中，所述特征信息可以包括语音信号和用户特征图像信号，该语音信号可以为记录用户输入的语音的信号，具体可以通过麦克风等音频设备进行采集，该用户特征图像信号可以为记录用户肢体特征的图像，具体可以通过摄像头等摄像设备进行采集。

需要说明的是，语音信号和用户特征图像信号也可以是数据的形式，例如，语音信号可以为麦克风等音频设备采集的模拟信号数字化后的数据，本申请实施例对此不加以限制。

在本申请实施例的一种优选示例中，所述用户特征图像信号可以包括在输入所述语音信号时记录的一帧或多帧嘴型特征图信号。

例如，在用户在移动设备(客户端的其中一种形式)输入语音时，可以启动摄像头等摄像设备，并在移动设备的屏幕中描绘出聚焦的方框，类似移动设备拍照时，能够自动聚焦到人脸上的聚焦方框，接着，使用该方框对准用户的嘴，用于实时捕获用户嘴型的变化，最终捕获到一帧或多帧用户从输入语音信号开始到结束的嘴型特征图信号。

在实际应用中，可以根据实际情况设置用户特征图像信号的数量，优选地可以为8帧，一方面可以保证计算的方便性，另一方面是保证存储的可控性。由于计算机世界是二进制的，所以2的幂次方更容易做数据计算和匹配，因此8帧图片可以保证计算方便性；如果图片多了，占用比较多的存储资源，如果图片少了，又不能很好地识别嘴型特征图信号匹配的候选识别数据，而8帧图片占用较少的存储资源，而且较好地识别嘴型特征图信号匹配的候选识别数据。

步骤102，识别出与所述用户特征图像信号匹配的第一候选识别数据；

在生活中，人们常使用肢体语言(又称身体语言)进行交流，即，使用身体运动或动作来代替或辅助声音、口头言语或其他交流方式进行交流。例如，唇语、手语、除手语外的手势(比如摇手指一般代表不赞成、拒绝等意思)。

因此，本申请实施例中，可以从用户特征图像信号中读取用户所表达的意思。

为使本领域技术人员更好地理解本申请实施例，在本说明书中，将嘴型特征图信号作为用户特征图像信号的一种示例进行说明。

以汉语作为文本信息的一个示例，汉语拼音通常有两种拼读方法，拼读法(前音轻短后音重)和直呼法(先做声母的嘴形再做韵母的音)。而每个声母和韵母都有特定的发音，使得用户在发出声母和韵母的读音时嘴型都不同，例如发出声母“b”的读音时，双唇闭合，挡住气流，然后双唇突然打开，让气流爆发出来，声带颤动，进而使得发出汉语的读音时嘴型都会有不同的特点。

则应用本申请实施例，可以预先建立嘴型数据库，该嘴型数据库可以存储一个或多个第一候选识别数据，该第一候选识别数据可以为文本信息，也可以为操作指令等等，本申请实施例对此不加以限制。

所述第一候选识别数据可以对应有一帧或多帧嘴型参考图信号，即需要针对各个第一候选识别数据建立一帧或多帧(例如8帧)从开始输入该第一候选识别数据开始到结束的嘴型参考图信号。

其中，每一帧嘴型参考图信号可以对应有一组嘴型参考向量，该嘴型参考向量可以为记录输入该第一候选识别数据时嘴型的特征的向量。

在本申请实施例的一种优选示例中，每一组嘴型参考向量中可以包括如下至少一种向量：

例如，第一候选识别数据为“开”时，对应有8帧嘴型参考图信号，分别建立X1-X8共8组嘴型参考向量，具体的嘴型参考向量可以如下：

X1＝(0，1，0，0，0，0)

X2＝(2，1，1，0.5，1，0.2)

X3＝(5，1，2，0.2，1，0.4)

X4＝(6，1，1，0.1，1，0.5)

X5＝(8，1，1，0.08，1，0.6)

X6＝(10，1，1，0.05，1，0.7)

X7＝(15，1，1，0.02，1，0.8)

X8＝(0，1，0，0，0，0)

其中，以X2为例，第一个向量“2”为参考嘴型大小向量，表示嘴型大小为2个单位面积，第二个向量“1”为参考嘴型比例向量，表示嘴型大小为标准嘴型的1倍(即大小相等)，第三个向量“1”为参考牙齿能见向量，表示能看到牙齿(另外，可以以“0”表示不能看到牙齿)，第四个向量“0.5”为参考牙齿比例向量，表示能见到的牙齿大小为嘴型大小的0.5倍，第五个向量“1”为参考舌头能见向量，表示能看到舌头(另外，可以以“0”表示不能看到舌头)，第六个向量“0.2”为参考舌头比例，表示能见到的舌头大小为嘴型大小的0.5倍。

当然，上述嘴型参考向量只是作为示例，在实施本申请实施例时，可以根据实际情况设置其他嘴型参考向量。另外，除了上述嘴型参考向量外，本领域技术人员还可以根据实际需要采用其它嘴型参考向量，本申请实施例对此也不加以限制。

在本申请的一种优选实施例中，步骤102可以包括如下子步骤：

子步骤S11，计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度；

在本申请实施例中，嘴型相似度可以为嘴型特征图信号记录的嘴型和嘴型参考图信号中记录的嘴型之间的相似度。

在本申请的一种优选实施例中，子步骤S11进一步可以包括如下子步骤：

子步骤S111，从每一帧嘴型特征图信号中提取一组嘴型特征信息；

提取嘴型特征信息主要由三部分组成：嘴型特征信息的获取、嘴型特征信息的处理和分析、输出或显示。

嘴型特征信息的获取实际上是将嘴型特征信息的可视化图像和内在特征转换成能被计算机处理的一系列数据，主要依赖于图像处理方法，包括图像增强、数据编码和传输、平滑、边缘锐化、分割、特征抽取、图像识别与理解等内容。经过这些处理后，输出图像的质量得到相当程度的改善，既改善了图像的视觉效果，又便于计算机对图像进行分析、处理和识别。

然后利用颜色、形状等信息来识别环境目标。以机器人对颜色的识别为例：当获得嘴型特征图信号以后，将嘴型特征图信号中的像素根据颜色分成两部分：感兴趣的像素(嘴型特征信息的颜色)和不感兴趣的像素(背景颜色)。然后，对这些感兴趣的像素进行RGB(红色、绿色、蓝色)颜色分量的匹配。进一步，为了减少环境光强度的影响，可以把RGB颜色空间转化到HIS(色调、亮度、饱和度)颜色空间。

在本申请实施例的一种优选示例中，嘴型特征信息可以包括嘴、牙齿和舌头中的至少一种。

则在此示例中，在获取到嘴型特征图信号后，对其进行颜色分析，根据预置的嘴的颜色匹配到嘴，并且根据预置的牙齿的颜色匹配到牙齿，根据预置的舌头的颜色匹配到舌头。

子步骤S112，对每一组嘴型特征信息建立一组嘴型特征向量；

该嘴型特征向量可以为记录输入语音信号时嘴型的特征的向量。

在本申请实施例的一种优选示例中，每一组嘴型特征向量中可以包括如下至少一种向量：

在具体实现中，在匹配到嘴、牙齿和舌头等嘴型特征信息后，可以直接建立特征嘴型大小向量、特征牙齿能见向量、特征舌头能见向量，然后将嘴与标准嘴型对比，建立特征嘴型比例向量，将牙齿与嘴对比，建立特征牙齿比例向量，将舌头与嘴对比，建立特征舌头比例向量。

例如，用户在输入语音信号时，采集8帧嘴型特征图信号记录用户嘴型的实时变化，并根据建立嘴型参考向量的规则，对每一帧嘴型特征图信号建立一组嘴型特征向量，建立Y1’-Y8’共8组嘴型特征向量，嘴型特征向量的具体示例可以如下：

Y1’＝(0，2，0，0，0，0)

Y2’＝(4，2，1，0.5，1，0.2)

Y3’＝(10，2，2，0.2，1，0.4)

Y4’＝(12，2，1，0.1，1，0.5)

Y5’＝(16，2，1，0.08，1，0.6)

Y6’＝(20，2，1，0.04，1，0.7)

Y7’＝(30，2，1，0.02，1，0.8)

Y8’＝(0，2，0，0，0，0)

其中，以Y2’为例，第一个向量“4”为特征嘴型大小向量，表示嘴型大小为4个单位面积，第二个向量“2”为特征嘴型比例向量，表示嘴型大小为标准嘴型的2倍，第三个向量“1”为特征牙齿能见向量，表示能看到牙齿(另外，可以以“0”表示不能看到牙齿)，第四个向量“0.5”为特征牙齿比例向量，表示能见到的牙齿大小为嘴型大小的0.5倍，第五个向量“1”为特征舌头能见向量，表示能看到舌头(另外，可以以“0”表示不能看到舌头)，第六个向量“0.2”为特征舌头比例，表示能见到的舌头大小为嘴型大小的0.5倍。

当然，上述嘴型特征向量只是作为示例，在实施本申请实施例时，可以根据实际情况设置其他嘴型特征向量。另外，除了上述嘴型特征向量外，本领域技术人员还可以根据实际需要采用其它嘴型特征向量，本申请实施例对此也不加以限制。

子步骤S113，分别计算所述嘴型特征向量与对应的所述嘴型参考向量之间的向量相似度；

在本申请实施例中，需要将嘴型特征向量与嘴型参考向量进行对应的向量相似度计算，例如上述示例中Y1’与X1计算向量相似度，Y2’与X2计算向量相似度等等。

在本申请的一种优选实施例中，子步骤S113进一步可以包括如下子步骤：

子步骤S1131，分别将所述特征嘴型大小向量与所述特征嘴型比例向量的比值设置为标准嘴型大小向量；

由于在采集用户特征图像信号时采集的距离不尽相同，并且，每个用户的嘴型大小也不尽相同，因此，需要对特征嘴型大小向量划分统一的标准。

例如，对上述Y1’-Y8’共8组嘴型特征向量换算成Y1-Y8共8组嘴型特征向量。

Y1＝(0，1，0，0，0，0)

Y2＝(2，1，1，0.5，1，0.2)

Y3＝(5，1，2，0.2，1，0.4)

Y4＝(6，1，1，0.1，1，0.5)

Y5＝(8，1，1，0.08，1，0.6)

Y6＝(10，1，1，0.04，1，0.7)

Y7＝(15，1，1，0.02，1，0.8)

Y8＝(0，1，0，0，0，0)

其中，每组向量中的第一个向量为标准嘴型大小向量，第二个向量，即特征嘴型比例向量转换“1”，表示嘴型大小与标准嘴型的大小相等。

此时，需要Y1与X1计算向量相似度，Y2与X2计算向量相似度等等。

子步骤S1132，至少根据所述标准嘴型大小向量、所述特征牙齿能见向量、所述特征牙齿比例向量、所述特征舌头能见向量、所述特征舌头比例向量，与所述参考嘴型大小向量、所述参考牙齿能见向量、所述参考牙齿比例向量、所述参考舌头能见向量、所述参考舌头比例向量中的一个或者多种，计算特征向量相似度。

在具体实现中，可以根据正则表达式进行匹配。

子步骤S114，计算所述向量相似度之和，获得嘴型相似度。

当遍历完嘴型特征向量与对应的嘴型参考向量后，得出每组之间向量相似度，最后把所有的向量相似度相加，获得嘴型相似度，得出嘴型特征图信号像与嘴型参考图信号像的相似程度，标识用户发出该语音信号的嘴型与发出该第一候选识别数据的嘴型相似程度。

子步骤S12，提取与最高值的嘴型相似度对应的第一候选识别数据，作为与所述用户特征图像信号匹配的第一候选识别数据。

在本申请实施例中，将最高值的嘴型相似度对应的第一候选识别数据，作为与用户发出的语音信号的第一候选识别数据。

当然，上述用户特征图像信号只是作为示例，在实施本申请实施例时，可以根据实际情况设置其他用户特征图像信号，例如一帧或多帧记录用户手势的手势特征图等等，本申请实施例对此不加以限制。

在应用本申请实施例时，可以根据用户肢体特点建立对应的肢体数据库，记录候选识别数据与肢体参考向量(例如手势参考向量)的对应关系，对于其他的用户特征图像信号(例如手势特征图信号)则可以建立对应的肢体特征向量(例如手势特征向量)，再计算肢体特征向量(例如手势特征向量)与肢体参考向量(例如手势参考向量)的相似度，获得与该用户特征图像信号(例如手势特征图信号)匹配的候选识别数据，本申请实施例在此不一一详述。

另外，除了上述特征信息外，本领域技术人员还可以根据实际需要采用其它特征信息，本申请实施例对此也不加以限制。

步骤103，识别出与所述语音信号匹配的第二候选识别数据；

本申请实施例中，可以采用语音识别技术识别出于语音信号匹配的第二候选识别数据，该第二候选识别数据可以为文本信息，也可以为操作指令等等，本申请实施例对此不加以限制。

语音识别技术，也可以称为自动语音识别(AutomaticSpeechRecognition，ASR)，其任务是把人所发出的语音中的词汇内容转换为计算机可读入的文本。

目前，主流的大词汇量语音识别中通常采用基于统计模型的识别技术，典型的基于统计模型的语音识别通常有如下几个基本部分组成：

1、语音信号处理及语音特征提取。从输入的语音信号中提取语音特征，用于声学模型的建模以及解码过程。但在提取特征之前也需要负责对语音信号进行降噪等处理，以提高系统的鲁棒性。

2、统计声学模型。通常的语音识别系统大都使用隐马尔科夫模型对词，音节、音素等基本的声学单元进行建模，生成声学模型。

3、语言模型。语言模型对系统所需识别的语言在单词层面上进行建模。语言模型包括正则语言，上下文无关文法的各种语言模型。目前大多数语音识别普遍采用统计语言模型，其中大都是基于统计的N元语法(N-gram)模型及其变体。

4、发音词典。发音词典包含所能处理的单词的集合，并标明了其发音。通过发音词典得到声学模型的建模单元和语言模型建模单元间的映射关系，从而把声学模型和语言模型连接起来，组成一个搜索的状态空间用于解码器进行解码工作。

5、解码器。解码器是语音识别的核心之一，负责读取输入的语音信号的语音特征序列，在由声学模型、语言模型及发音词典生成的状态空间中，解码出以最大概率输出该语音信号的词串。

在本申请的一种优选实施例中，步骤103可以包括如下子步骤：

子步骤S21，从所述语音信号提取语音特征；

子步骤S22，计算所述语音特征与预置的发音模板之间的发音相似度；

子步骤S23，当所述发音相似度大于预设的相似度阈值时，提取所述发音相似度所属的发音模板对应的语音候选数据；

声学模型(acousticmodel)是语音识别中最底层的部分，同时也是语音识别中最关键的组成单元，声学模型建模的好坏会直接从根本上影响语音识别的识别效果和鲁棒性。

声学模型实验概率统计的模型对带有声学信息的语音基本单元建立模型，描述其统计特性。通过对声学模型的建模，可以较有效地衡量语音的特征矢量序列和每一个发音模板之间的相似度，可以有助于判断该段语音的声学信息，即语音的内容。语者的语音内容都是由一些基本的语音单元组成，这些基本的语音单元可以是句子、词组、词、音节(syllable)、子音节(Sub-syllable)或者音素等。可见可选择建模的语音单元有不少，通常应该根据具体的应用场景来选择建模的语音单元。

在小词汇量的语音识别中通常选用单词作为一个语音单元来建立声学模型。

在大词汇量连续语音识别(large-vocabularycontinuousspeechrecognition，LVCSR)中，通常会选择音素作为建模单元，而选择音素的建模通常有两种不同的方式，分别是对音素建立上下文无关模型(ContextIndependent)以及上下文相关模型(ContextDependent)。

子步骤S24，计算所述语音候选数据的出现概率；

由于语音信号的时变性、噪声和其它一些不稳定因素，单纯靠声学模型无法达到较高的语音识别的准确率。在人类语言中，每一句话的单词直接有密切的联系，这些单词层面的信息可以减少声学模型上的搜索范围，有效地提高识别的准确性，要完成这项任务语言模型是必不可少的，它提供了语言中词之间的上下文信息以及语义信息。

随着统计语言处理方法的发展，统计语言模型成为语音识别中语言处理的主流技术，其中统计语言模型有很多种，如N-Gram语言模型、马尔可夫N元模型(MarkovN-gram)、指数模型(ExponentialModels)、决策树模型(DecisionTreeModels)等。而N元语言模型是最常被使用的统计语言模型，特别是二元语言模型(bigram)、三元语言模型(trigram)。

以三元语言模型为例，设w_i是文本中的任意一个词，如果已知它在该文本中的前两个词w_i-2w_i-1，便可以用条件概率P(w_i|w_i-2w_i-1)来预测w_i出现的概率。这就是N元语言模型的概念。用变量W代表文本中一个任意的词序列，即W＝w₁w₂...w_n，则统计语言模型就是用来计算W在该语言模型下中出现的概率P(W)。

子步骤S25，当所述出现概率大于预设的第一概率阈值时，计算所述语音候选数据之间的连接概率；

在具体实现中，发音词典存放所有单词的发音，用来连接声学模型和语言模型的。例如，一个句子可以分成若干个单词相连接，每个单词通过查询发音词典得到该单词发音的音素序列。相邻单词的转移概率可以通过语言模型获得，音素的概率模型可以通过声学模型获得，从而生成了这句话的一个概率模型，即连接概率。

子步骤S26，当所述连接概率大于预设的第二概率阈值时，提取所述语音候选数据组成第二候选识别数据。

由于用户说话声音比较小或者外界环境嘈杂等原因，所识别出的第二候选识别数据可以为一个或多个。

步骤104，至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据；

在具体实现中，目标识别数据可以为文本信息，也可以为操作指令等等，本申请实施例对此不加以限制。

在本申请的一种优选实施例中，步骤104可以包括如下子步骤：

子步骤S31，对所述第一候选识别数据和所述第二候选识别数据进行交集处理，获得目标识别数据。

在本申请实施例中，可以以第一候选识别数据和第二候选识别数据相交的部分，作为目标识别数据。

例如，用户输入语音信号“开”，在步骤102中，将采集到的用户的嘴型特征图信号建立嘴型特征向量Y1’-Y8’，然后转化为标准的嘴型特征向量Y1-Y8，与嘴型数据库中的嘴型参考向量进行匹配，其中，嘴型特征向量Y1-Y8与嘴型参考向量X1-X8的相似度最高，则匹配的结果是X1-X8对应的“开”，而在步骤103中，由于用户说话声音比较小或者外界环境嘈杂等原因，声学模型和语言模型匹配的结果是“开”、“哈”、“卡”，最后，根据步骤102和步骤103匹配的结果，进行再次匹配，获取“开”和“开”、“哈”、“卡”的交集，获得目标识别数据“开”。

当然，上述特征信息只是作为示例，在实施本申请实施例时，可以根据实际情况设置其他特征信息，例如，手势信息、按键操作信息等等，本申请实施例对此不加以限制。

需要说明的是，应用本申请实施例，可以在增加其他特征信息的基础之上，增加识别的流程，即识别与其他特征信息匹配的其他候选识别数据，在采用第一候选识别数据、第二候识别选数据和其他候选识别数据确定目标识别数据。

例如，用户设置移动设备锁屏时的解锁密码为语音“解锁”和手势信息“W”，在移动设备解锁时，用户输入的语音信号被识别出为“解锁”、“解说”，用户的嘴型被识别出为“解锁”，用户输入的手势信息被识别出为“W”，因此目标识别数据为语音“解锁”和手势信息“W”，因此，移动设备锁屏解锁成功。

步骤105，将所述目标识别数据发送至客户端。

应用本申请实施例，客户端在接收到目标识别数据之后，可以执行所述目标识别数据对应的操作。

该操作可以为显示该目标识别数据。例如，用户在短信编辑过程中、在聊天中输入语音信号，即可以在短信中、在即时通讯工具的聊天窗口中，显示该目标识别数据。

该操作可以为执行该目标识别数据。例如，用户在移动设备中输入语音信号“打开音乐播放器”，在识别出该目标识别数据为“打开音乐播放器”时，移动设备可以执行“打开音乐播放器”的操作，打开音乐播放器。

当然，上述操作只是作为示例，在实施本申请实施例时，可以根据实际情况设置其他操作。另外，除了上述操作外，本领域技术人员还可以根据实际需要采用其它操作，本申请实施例对此也不加以限制。

参照图2，示出了本申请的另一种语音输入方法实施例的步骤流程图，所述语音输入方法200具体可以包括如下步骤：

步骤201，采集特征信息；所述特征信息包括语音信号和用户特征图像信号；

在本申请的一种优选实施例中，所述用户特征图像信号可以包括在输入所述语音信号时记录的一帧或多帧嘴型特征图信号。

步骤202，识别出与所述用户特征图像信号匹配的第一候选识别数据；

在本申请的一种优选实施例中，所述第一候选识别数据可以对应有一帧或多帧嘴型参考图信号，则在本实施例中，步骤202可以包括如下子步骤：

子步骤S41，计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度；

在本申请的一种优选实施例中，每一帧嘴型参考图信号可以对应有一组嘴型参考向量，

在本申请实施例中，子步骤S41进一步可以包括如下子步骤：

子步骤S411，从每一帧嘴型特征图信号中提取一组嘴型特征信息；

子步骤S412，对每一组嘴型特征信息建立一组嘴型特征向量；

子步骤S413，分别计算所述嘴型特征向量与对应的所述嘴型参考向量之间的向量相似度；

在本申请实施例的一种优选示例中，子步骤S413进一步可以包括如下子步骤：

子步骤S4131，分别将所述特征嘴型大小向量与所述特征嘴型比例向量的比值设置为标准嘴型大小向量；

子步骤S4132，至少根据所述标准嘴型大小向量、所述特征牙齿能见向量、所述特征牙齿比例向量、所述特征舌头能见向量、所述特征舌头比例向量，与所述参考嘴型大小向量、所述参考牙齿能见向量、所述参考牙齿比例向量、所述参考舌头能见向量、所述参考舌头比例向量中的一种或者多种，计算特征向量相似度。

子步骤S414，计算所述向量相似度之和，获得嘴型相似度。

子步骤S42，提取与最高值的嘴型相似度对应的第一候选识别数据，作为与所述用户特征图像信号匹配的第一候选识别数据。

步骤203，识别出与所述语音信号匹配的第二候选识别数据；

在本申请的一种优选实施例中，步骤203可以包括如下子步骤：

子步骤S51，从所述语音信号提取语音特征；

子步骤S52，计算所述语音特征与预置的发音模板之间的发音相似度；

子步骤S53，当所述发音相似度大于预设的相似度阈值时，提取所述发音相似度所属的发音模板对应的语音候选数据；

子步骤S54，计算所述语音候选数据的出现概率；

子步骤S55，当所述出现概率大于预设的第一概率阈值时，计算所述语音候选数据之间的连接概率；

子步骤S56，当所述连接概率大于预设的第二概率阈值时，提取所述语音候选数据组成第二候选识别数据。

步骤204，至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据。

在本申请的一种优选实施例中，步骤204可以包括如下子步骤：

子步骤S61，对所述第一候选识别数据和所述第二候选识别数据进行交集处理，获得目标识别数据。

在本申请的一种优选实施例中，还可以包括如下步骤：

步骤205，执行所述目标识别数据对应的操作。

在本申请实施例中，由于与前一个方法实施例的应用基本相似，所以描述的比较简单，相关之处参见前一个方法实施例的部分说明即可，本申请实施例在此不加以详述。

以下通过几种应用场景的示例对本申请实施例作进一步说明：

应用场景一：应用于个人计算机中；

在计算机中安装麦克风和摄像头，用于采集用户发出的语音信号和输入该语音信号嘴型特征图信号像，该摄像设备可以连接至计算机中，计算机的用户可以定期(例如每个月)或不定期(其他用户借用计算机)等情况下更新开机命令。

假设当前开机命令为语音“芝麻开门”和手势“V”，当用户输入的语音信号被识别为“芝麻开门”，用户的嘴型变化被识别为“芝麻开门”，用户的手势变化被识别位手势“V”时，与当前开机命令匹配，则可以开启计算机。

本示例在保证安全性的前提下，提高了语音识别的准确率，使得减少了更换和输入开机命令的成本，提高了用户操作的简便性。

应用场景二：应用于智能家居中；

在移动设备中安装话筒和摄像头，用于采集用户发出的语音信号和输入该语音信号嘴型特征图信号像。

夏天，用户在回家的路上想移动设备输入语音信号，当用户输入的语音信号被识别为“开空调26度”，用户的嘴型变化被识别为“开空调26度”时，移动设备匹配到“制冷26℃”的指令，则向用户家中的空调发送“制冷26℃”的指令，当用户回到家时，家里已经是比较舒适的温度了。

本示例在提高了语音识别的准确性，为智能家居声控提供了可能，提高了用户操作的简便性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图3，示出了本申请一种语音输入装置实施例的结构框图，所述语音输入装置300具体可以包括如下模块：

接收模块301，用于接收客户端发送的特征信息；所述特征信息包括语音信号和用户特征图像信号；

第一识别模块302，用于识别出与所述用户特征图像信号匹配的第一候选识别数据；

第二识别模块303，用于识别出与所述语音信号匹配的第二候选识别数据；

确定模块304，用于至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据；

发送模块305，用于将所述目标识别数据发送至所述客户端。

在本申请的一种优选实施例中，所述第一识别模块302可以包括如下子模块：

在本申请的一种优选实施例中，每一帧嘴型参考图信号可以对应有一组嘴型参考向量，所述第一嘴型相似度计算子模块可以包括如下子模块：

在本申请实施例的一种优选示例中，所述第一计算子模块可以包括如下子模块：

在本申请的一种优选实施例中，所述第二识别模块303可以包括如下子模块：

第一提取子模块，用于从所述语音信号提取语音特征；

第四计算子模块，用于计算所述语音候选数据的出现概率；

在本申请的一种优选实施例中，所述确定模块304可以包括如下子模块：

参照图4，示出了本申请另一种语音输入装置实施例的结构框图，所述语音输入装置400具体可以包括如下模块：

特征信息采集模块401，用于采集特征信息；所述特征信息包括语音信号和用户特征图像信号；

第一识别模块402，用于识别出与所述用户特征图像信号匹配的第一候选识别数据；

第二识别模块403，用于识别出与所述语音信号匹配的第二候选识别数据；

确定模块404，用于至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据。

在本申请的一种优选实施例中，还可以包括如下模块：

执行模块，用于执行所述目标识别数据对应的操作。

在本申请的一种优选实施例中，所述第一识别模块402可以包括如下子模块：

在本申请的一种优选实施例中，所述第二识别模块403可以包括如下子模块：

第一提取子模块，用于从所述语音信号提取语音特征；

第四计算子模块，用于计算所述语音候选数据的出现概率；

在本申请的一种优选实施例中，所述确定模块404可以包括如下子模块：

参照图5，示出了本申请一种语音输入系统实施例的结构框图，所述语音输入系统500可以包括服务器510和客户端520；

其中，所述服务器510可以包括如下模块：

第一接收模块511，用于接收客户端发送的特征信息；所述特征信息包括语音信号和用户特征图像信号；

第一识别模块512，用于识别出与所述用户特征图像信号匹配的第一候选识别数据；

第二识别模块513，用于识别出与所述语音信号匹配的第二候选识别数据；

确定模块514，用于至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据；

第一发送模块515，用于将所述目标识别数据发送至所述客户端。

所述客户端520可以包括如下模块：

特征信息采集模块521，用于采集特征信息；所述特征信息包括语音信号和用户特征图像信号；

第二发送模块522，用于将所述特征信息发送至所述服务器；

第二接收模块523，用于接收所述服务器发送的目标识别数据。

在本申请的一种优选实施例中，所述客户端520还可以包括如下模块：

执行模块，用于执行所述目标识别数据对应的操作。

在本申请的一种优选实施例中，所述第一识别模块512可以包括如下子模块：

在本申请的一种优选实施例中，所述第二识别模块513可以包括如下子模块：

第一提取子模块，用于从所述语音信号提取语音特征；

第四计算子模块，用于计算所述语音候选数据的出现概率；

在本申请的一种优选实施例中，所述确定模块514可以包括如下子模块：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读操作指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序操作指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序操作指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的操作指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序操作指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的操作指令产生包括操作指令装置的制造品，该操作指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序操作指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的操作指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音输入方法、一种语音输入装置和一种语音输入系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音输入方法，其特征在于，包括：

识别出与所述用户特征图像信号匹配的第一候选识别数据；

识别出与所述语音信号匹配的第二候选识别数据；

将所述目标识别数据发送至所述客户端。

2.根据权利要求1所述的方法，其特征在于，所述用户特征图像信号包括在输入所述语音信号时记录的一帧或多帧嘴型特征图信号。

3.根据权利要求2所述的方法，其特征在于，所述第一候选识别数据对应有一帧或多帧嘴型参考图信号，所述识别出与所述用户特征图像信号匹配的第一候选识别数据的步骤包括：

4.根据权利要求3所述的方法，其特征在于，每一帧嘴型参考图信号对应有一组嘴型参考向量，所述计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度的步骤包括：

从每一帧嘴型特征图信号中提取一组嘴型特征信息；

对每一组嘴型特征信息建立一组嘴型特征向量；

计算所述向量相似度之和，获得嘴型相似度。

5.根据权利要求4所述的方法，其特征在于，每一组嘴型特征向量中包括如下至少一种向量：

6.根据权利要求5所述的方法，其特征在于，每一组嘴型参考向量中包括如下至少一种向量：

7.根据权利要求6所述的方法，其特征在于，所述分别计算所述嘴型特征向量与对应的嘴型参考向量之间的向量相似度的步骤包括：

8.根据权利要求1或2或3或4或5或6或7所述的方法，其特征在于，所述识别出与所述语音信号匹配的第二候选识别数据的步骤包括：

从所述语音信号提取语音特征；

计算所述语音特征与预置的发音模板之间的发音相似度；

计算所述语音候选数据的出现概率；

9.根据权利要求1或2或3或4或5或6或7所述的方法，其特征在于，所述至少根据所述第一候选识别数据和第二候选识别数据确定目标识别数据的步骤包括：

10.一种语音输入方法，其特征在于，包括：

识别出与所述用户特征图像信号匹配的第一候选识别数据；

识别出与所述语音信号匹配的第二候选识别数据；以及

11.根据权利要求10所述的方法，其特征在于，还包括：

执行所述目标识别数据对应的操作。

12.根据权利要求10或11所述的方法，其特征在于，所述用户特征图像信号包括在输入所述语音信号时记录的一帧或多帧嘴型特征图信号。

13.根据权利要求12所述的方法，其特征在于，所述第一候选识别数据对应有一帧或多帧嘴型参考图信号，所述识别出与所述用户特征图像信号匹配的第一候选识别数据的步骤包括：

14.根据权利要求13所述的方法，其特征在于，每一帧嘴型参考图信号对应有一组嘴型参考向量，所述计算所述一帧或多帧嘴型特征图信号和所述一帧或多帧嘴型参考图信号之间的嘴型相似度的步骤包括：

从每一帧嘴型特征图信号中提取一组嘴型特征信息；

对每一组嘴型特征信息建立一组嘴型特征向量；

计算所述向量相似度之和，获得嘴型相似度。

15.一种语音输入装置，其特征在于，包括：

发送模块，用于将所述目标识别数据发送至所述客户端。

16.根据权利要求15所述的装置，其特征在于，所述用户特征图像信号包括在输入所述语音信号时记录的一帧或多帧嘴型特征图信号。

17.根据权利要求16所述的装置，其特征在于，所述第一识别模块包括：

18.根据权利要求17所述的装置，其特征在于，每一帧嘴型参考图信号对应有一组嘴型参考向量，所述第一嘴型相似度计算子模块包括：

19.根据权利要求18所述的装置，其特征在于，每一组嘴型特征向量中包括如下至少一种向量：

20.根据权利要求19所述的装置，其特征在于，每一组嘴型参考向量中包括如下至少一种向量：

21.根据权利要求20所述的装置，其特征在于，所述第一计算子模块包括：

22.根据权利要求15或16或17或18或19或20或21所述的装置，其特征在于，所述第二识别模块包括：

第一提取子模块，用于从所述语音信号提取语音特征；

第四计算子模块，用于计算所述语音候选数据的出现概率；

23.根据权利要求15或16或17或18或19或20或21所述的装置，其特征在于，所述确定模块包括：

24.一种语音输入装置，其特征在于，包括：

25.根据权利要求24所述的装置，其特征在于，还包括：

执行模块，用于执行所述目标识别数据对应的操作。

26.根据权利要求24或25所述的装置，其特征在于，所述用户特征图像信号包括在输入所述语音信号时记录的一帧或多帧嘴型特征图信号。

27.根据权利要求26所述的装置，其特征在于，所述第一识别模块包括：

28.根据权利要求27所述的装置，其特征在于，每一帧嘴型参考图信号对应有一组嘴型参考向量，所述第一嘴型相似度计算子模块包括：

29.一种语音输入系统，其特征在于，所述系统包括服务器和客户端；

其中，所述服务器包括：

所述客户端包括：

第二发送模块，用于将所述特征信息发送至所述服务器；

第二接收模块，用于接收所述服务器发送的目标识别数据。

30.根据权利要求29所述的系统，其特征在于，所述客户端还包括：

执行模块，用于执行所述目标识别数据对应的操作。