CN111883130A

CN111883130A - 一种融合式语音识别方法、装置、系统、设备和存储介质

Info

Publication number: CN111883130A
Application number: CN202010767361.4A
Authority: CN
Inventors: 陈晓松; 李旭滨
Original assignee: Shanghai Maosheng Intelligent Technology Co ltd
Current assignee: Shanghai Maosheng Intelligent Technology Co ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-03

Abstract

本申请涉及一种融合式语音识别方法、装置、系统、设备及存储介质，该方法包括通过获取第一语音数据流；获取图像数据，在图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，生成第一降噪增强指令；根据第一降噪增强指令，对第一语音数据流进行处理以获得第二语音数据流；识别第二语音数据流，以生成语音识别结果，解决了在躁杂环境下语音识别效果差的问题，实现了降噪效果好、识别精度高的技术效果。

Description

一种融合式语音识别方法、装置、系统、设备和存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及一种融合式语音识别方法、装置、系统、设备和存储介质。

背景技术

在语音识别过程中，为了降低外界噪声对识别干扰的常用方法是使用麦克风阵列对音频数据进行降噪处理，即将麦克风阵列获取的多路音频数据输入到降噪算法中进行回声消除、去混响、波束形成等处理，从而得到干净的单路音频，然后再送入语音识别引擎进行识别。

然而，麦克风阵列及其降噪算法对外界噪声，尤其是非稳态噪声非常敏感。在信噪比低于5dB时，其性能会迅速下降。对于地铁站站厅来说，当处于人流高峰以及列车过往时，环境信噪比会下降至0dB以下，导致单一维度的语音降噪算法难以满足语音识别要求。

目前针对相关技术中在躁杂环境下语音识别效果差的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种融合式语音识别方法、装置、系统、设备和存储介质，以至少解决相关技术中在躁杂环境下语音识别效果差的问题。

第一方面，本申请实施例提供了一种融合式语音识别方法，应用于躁杂场景，包括：

获取第一语音数据流；

获取图像数据，在所述图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，生成第一降噪增强指令；

根据所述第一降噪增强指令，对所述第一语音数据流进行处理以获得第二语音数据流；

识别所述第二语音数据流，以生成语音识别结果。

在其中的一些实施例中，在所述图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，所述方法还包括：

生成数据流开启指令；

根据所述数据流开启指令，传输所述第二语音数据流。

在其中的一些实施例中，识别第二语音数据流，以生成语音识别结果包括：

在所述图像数据不包括用户的所述唇动图像数据的情况下，在所述第二语音数据流插入终止标识符；

对所述终止标识符之前的所述第二语音数据流进行识别，以生成语音识别结果。

在其中的一些实施例中，在获取图像之后，所述方法还包括：

在所述图像数据不包括用户的人脸图像数据的情况下，生成销毁指令；

根据所述销毁指令，销毁所述第一语音数据流。

在所述图像数据包括用户的人脸图像数据的情况下，判断所述用户的停留时间；

在所述停留时间达到预设时间阈值的情况下，生成第二降噪增强指令；

根据所述第二降噪增强指令，对所述第一语音数据流进行处理以获得第三语音数据流；

在所述图像数据包括用户的唇动图像数据的情况下，生成第一降噪增强指令；

根据所述第一降噪增强指令，对所述第三语音数据流进行处理以获得第二语音数据流。

在其中的一些实施例中，在生成语音识别结果之后，所述方法还包括：

获取与所述语音识别结果相对应的反馈信息；

生成与所述反馈信息相对应的答复信息。

在其中的一些实施例中，所述答复信息包括文字答复信息、语音答复信息。

第二方面，本申请实施例提供了一种融合式语音识别装置，包括：

语音获取单元，用于获取第一语音数据流；

图像获取单元，用于获取图像数据；

图像识别单元，用于识别所述图像数据，以判断所述图像数据是否包括用户的人脸图像数据、用户的唇动图像数据；

指令单元，用于在所述图像数据包括所述人脸图像数据、所述唇动图像数据的情况下，生成第一降噪增强指令、数据流开启指令；

降噪单元，用于根据所述第一降噪增强指令对所述第一语音数据流进行处理以获得第二语音数据流；

数据流控制单元，用于根据所述数据流开启指令对所述第二语音数据流进行传输；

语音识别单元，用于对所述第二语音数据流进行识别以生成语音识别结果。

在其中的一些实施例中，还包括：

标识符单元，用于在所述图像数据不包括所述唇动图像数据的情况下，在所述第二语音数据流中插入终止标识符；

所述语音识别单元用于对所述终止标识符之前的的所述第二语音数据流进行识别以生成所述语音识别结果。

在其中的一些实施例中，所述指令单元还用于在所述图像数据不包括所述人脸图像数据的情况下，生成销毁指令；

还包括：

销毁单元，用于根据所述销毁指令，对所述第一语音数据流进行销毁。

在其中的一些实施例中，还包括：

时间判断单元，用于在所述图像数据包括所述人脸图像数据的情况下，判断所述用户的停留时间是否达到预设时间阈值；

所述指令单元还用于在所述停留时间达到所述预设时间阈值的情况下，生成第二降噪增强指令，以及在所述图像数据包括所述唇动图像数据的情况下，生成第一降噪增强指令；

所述降噪单元用于根据所述第二降噪增强指令对所述第一语音数据流进行处理以获得第三语音数据流，以及根据所述第一降噪增强指令对所述第三语音数据流进行处理以获得第二语音数据流。

在其中的一些实施例中，还包括：

答复单元，用于获取与所述语音识别结果相对应的反馈信息以及根据所述反馈信息生成与所述反馈信息相对应的答复信息。

在其中的一些实施例中，所述答复单元为文字答复单元，所述答复信息为文字答复信息；和/或

所述答复单元为语音答复单元，所述答复信息为语音答复信息。

第三方面，本申请实施例提供了一种融合式语音识别系统，包括：

如第二方面所述的融合式语音识别装置；

服务器，用于获取所述融合式语音识别装置传输的所述语音识别结果，并将与所述语音识别结果相对应的反馈信息传输至所述融合式语音识别装置；

所述融合式语音识别装置根据所述反馈信息与所述用户进行交互。

第四方面，本申请实施例提供了一种计算机设备，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行第一方面所述所述的融合式语音识别方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的融合式语音识别方法。

相比于相关技术，本申请实施例提供的一种融合式语音识别方法、装置、系统、设备及存储介质，通过获取第一语音数据流；获取图像数据，在图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，生成第一降噪增强指令；根据第一降噪增强指令，对第一语音数据流进行处理以获得第二语音数据流；识别第二语音数据流，以生成语音识别结果，解决了在躁杂环境下语音识别效果差的问题，实现了降噪效果好、识别精度高的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的融合式语音识别系统的结构框图；

图2是根据本申请实施例的融合式语音识别方法的流程图(一)；

图3是根据本申请实施例的融合式语音识别方法的流程图(二)；

图4是根据本申请实施例的融合式语音识别方法的流程图(三)；

图5是根据本申请实施例的融合式语音识别方法的流程图(四)；

图6是根据本申请实施例的融合式语音识别方法的流程图(五)；

图7是根据本申请实施例的融合式语音识别方法的流程图(六)；

图8是根据本申请实施例的融合式语音识别装置的结构框图(一)；

图9是根据本申请实施例的融合式语音识别装置的结构框图(二)；

图10是根据本申请实施例的融合式语音识别装置的结构框图(三)；

图11是根据本申请实施例的融合式语音识别装置的结构框图(四)；

图12是根据本申请实施例的融合式语音识别装置的结构框图(五)；

图13是根据本申请实施例的融合式语音识别方法的具体工作流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

图1是根据本申请实施例的融合式语音识别系统的结构框图(一)。如图1所示，融合式语音识别系统100包括融合式语音识别装置110和服务器120，其中，融合式语音识别装置110和服务器120通信连接。

融合式语音识别装置110用于获取语音数据流、图像数据，并根据图像数据判断是否需要开启降噪增强模式或动态调整降噪算法，从而在超低信噪比环境中完成对语音数据流进行语音识别的功能。

服务器120用于接收融合式语音识别装置110传输的语音识别结果，并将与语音识别结果相对应的反馈信息传输至融合式语音识别装置110。

在一些实施例中，融合式语音识别装置110可以是智能终端，如具有语音交互的显示大屏、智能音箱、电脑、机器人等。

在一些实施例中，服务器120可以是本地服务器，可以是云服务器。当服务器120为本地服务器时，其可以与融合式语音识别装置110为分体式设计，也可以是集成式设计。

通信连接通过网络130进行连接，可以是有线网络连接，也可以是无线网络连接。在其中的一些实施例中，网络130可以可以包括公共网络(例如，因特网)、专用网络(例如，局域网(LAN)、广域网(WAN)等)、无线网络(例如，802.11网络、Wi-Fi网络等)、蜂窝网络(例如，4G网络、5G网络等)、帧中继网络、虚拟专用网络(VPN)、卫星网络、路由器、集线器、交换机、服务器等或者其任意组合。仅作为示例，网络130可包括电缆网络、有线网络、光纤网络、电信网络、内联网、无线局域网(WLAN)、城域网(MAN)、公共电话交换网(PSTN)等或者其任意组合。在一些实施例中，网络130可包括一个或多个网络接入点。例如，网络130可包括有线和/或无线网络接入点，诸如基站和/或因特网交换点，融合式语音识别系统100的各个装置可通过这些接入点连接到网络以交换信息和/或数据。

图2是根据本申请实施例的融合式语音识别方法的流程图(一)。如图2所示，融合式语音识别方法包括：

步骤S202，获取第一语音数据流；

步骤S204，获取图像数据，在图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，生成第一降噪增强指令；

步骤S206，根据第一降噪增强指令，对第一语音数据流进行处理以获得第二语音数据流；

步骤S208，识别第二语音数据流，以生成语音识别结果。

通过上述步骤，在躁杂环境下，如信噪比低于5dB甚至0dB，在融合式语音识别装置获取第一语音数据流的同时或获取第一语音数据流之后，获取图像数据，以判断当前是否有用户(使用者)站立在融合式语音识别装置的正前方；在有用户站立在融合式语音识别装置的前方且识别用户有唇动时，融合式语音识别装置对当前的降噪算法进行动态调整，从而实现降噪增强，以使第一语音数据流转变成第二语音数据流，即第二语音数据流的清晰度比第一语音数据流的清晰度强，从而解决了相关技术中语音识别装置无法对降噪算法进行动态调整所导致的语音数据流清晰度差、识别效果差的问题，实现了根据用户进行动态调整降噪算法以进行精准识别的技术效果，达到了提高降噪后的语音数据流清晰度的目的。

在上述步骤S204中，图像数据可以是多帧静态图像数据，也可以是多帧静态图像数据融合后的动态图像数据。利用预先训练好的人脸识别模型对图像数据进行识别，判断图像数据是否包括人脸图像数据，以及在有人脸图像数据的情况下判断是否有唇动图像数据。

在一些实施例中，人脸图像数据可以是脸部的正面图像数据、脸部的侧面图像数据，这是因为用户在使用过程中，脸部不是一直正对融合式语音识别装置，会存在用户进行转头、低头、抬头等情况，在这些情况下，用户也有可能在一直说话，因此，需要将脸部的侧面图像数据进行识别。

在一些实施例中，第一降噪增强指令是用于对融合式语音识别装置的降噪算法进行动态调整，从而过滤环境音，提高信噪比，使得第二语音数据流的清晰度高于第一语音数据流的清晰度，避免失真问题出现。

图3是根据本申请实施例的融合式语音识别方法的流程图(二)。如图3所示，在图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，方法还包括：

步骤S302，生成数据流开启指令；

步骤S304，根据数据流开启指令，传输第二语音数据流。

通过上述步骤，只有在图像数据包括人脸图像数据以及唇动图像数据的情况下，将第二语音数据流进行传输，从而在需要识别的情况下对第二语音数据流进行识别，解决了相关技术中因误获取语音数据流导致的进行语音识别的问题，即语音识别错误触发的问题，实现了精准识别语音数据流的技术效果，达到了减少语音识别误触发的概率、降低融合式语音识别装置的工作功耗的目的。

在上述步骤中，通过数据流开启指令，实现了特定语音数据流的传输，即在只有第一语音数据流的情况下，不对第一语音数据流进行传输；而只有在第二语音数据流存在的情况下，才会对第二语音数据流进行传输。这是由于在躁杂环境下，第一语音数据流(如环境音、广播音、地铁车辆运行声音)会一直存在，但是这些第一语音数据流为无效的数据流(即属性为null)，如果将第一语音数据流进行传输，则会增加融合式语音识别装置的工作负担。因此，通过数据流开启指令，可以大幅度降低融合式语音识别装置的工作负担，避免出现语音识别误触发的问题。

图4是根据本申请实施例的融合式语音识别方法的流程图(三)。如图4所示，识别第二语音数据流，以生成语音识别结果包括：

步骤S402，在图像数据不包括用户的唇动图像数据的情况下，在第二语音数据流插入终止标识符；

步骤S404，对终止标识符之前的第二语音数据流进行识别，以生成语音识别结果。

通过上述步骤，利用图像数据中的唇动图像数据辅助判断用户说话是否结束，从而是否对第二语音属数据流进行处理、分段，从而及时生成语音识别结果，解决了相关技术中无法判断用户何时结束说话而导致的语音识别延后性的问题，实现了实时判断用户是否结束说话、并及时对第二语音数据流进行识别以生成语音识别结果的技术效果，达到了减少用户结束说话与生成语音识别结果之间的时间间隔、降低延后性的目的。

在一些实施例中，还会在第二语音数据流插入开始标识符，对开始标识符与终止标识符之间的第二语音数据流进行精准识别，减少需要进行语音识别的第二数据流的长度，从而减少识别时间、提高识别效率。

在一些实施例中，首先获取的图像数据包括人脸图像数据、唇动图像数据，在一段时间后获取的图像数据就仅包括人脸图像数据，即获取的图像数据如下：第一个图像数据(人脸图像数据、唇动图像数据)、第二个图像数据(人脸图像数据、唇动图像数据)、……第N-1个图像数据(人脸图像数据)、第N个图像数据(人脸图像数据)。通过上述图像数据就可以判定用户何时结束说话、以及用户说话的时间，从而减少语音识别的延迟性，在用户结束说话的时刻或几秒内即可进行语音识别，快速生成语音识别结果。

图5是根据本申请实施例的融合式语音识别方法的流程图(四)。如图5所示，在获取图像之后，方法还包括：

步骤S502，在图像数据不包括用户的人脸图像数据的情况下，生成销毁指令；

步骤S504，根据销毁指令，销毁第一语音数据流。

通过上述步骤，在不包括人脸图像数据的情况下，销毁获取的第一语音数据流，解决了相关技术中对获取的所有语音数据流进行存储导致的存储空间容量不够的问题，实现了融合式语音识别装置的存储空间最大效用使用的技术效果，达到了提高存储空间利用效率的目的。

在一些实施例中，销毁指令可以是删除指令(即对已经存储的第一语音数据流进行删除)、可以是抛弃指令(即对未存储的第一语音数据流不进行存储)。

图6是根据本申请实施例的融合式语音识别方法的流程图(五)。如图6所示，在获取图像之后，方法还包括：

步骤S602，在图像数据包括用户的人脸图像数据的情况下，判断用户的停留时间；

步骤S604，在停留时间达到预设时间阈值的情况下，生成第二降噪增强指令；

步骤S606，根据第二降噪增强指令，对第一语音数据流进行处理以获得第三语音数据流；

步骤S608，在图像数据包括用户的唇动图像数据的情况下，生成第一降噪增强指令；

步骤S610，根据第一降噪增强指令，对第三语音数据流进行处理以获得第二语音数据流。

通过上述步骤，可以对获取的第一语音数据流进行分阶段处理，即在有用户站立在融合式语音识别装置的前方时(即图像数据包括人脸图像数据但不包括唇动图像数据)，对降噪算法进行第一次动态调整；在判断用户说话的情况下(即图像数据包括人脸图像数据和唇动图像数据)，对降噪算法进行第二次动态调整，实现了提高降噪精度的同时降低工作功耗的技术效果。

在上述步骤S604～步骤S606中，利用第二降噪增强指令，可以对第一语音数据流进行初步处理，减少环境噪音，提高信噪比，从而在用户说话之前的第三语音数据流为清晰度较高的数据流。

在上述步骤S608～步骤S610中，利用第一降噪增强指令，对第三语音数据流进行二次处理，进一步地减少环境噪音，提高信噪比，获取清晰度更高的用户说话的第二语音数据流。

在一些实施例中，第一语音数据流的清晰度小于第三语音数据流的清晰度，第三语音数据流的清晰度小于第二语音数据流的清晰度。

在一些实施例中，第一语音数据流的时间长度大于第三语音数据流的时间长度，第三语音数据流的时间长度大于第二语音数据流的时间长度。

图7是根据本申请实施例的融合式语音识别方法的流程图(六)。如图7所示，在生成语音识别结果之后，方法还包括：

步骤S702，获取与语音识别结果相对应的反馈信息；

步骤S704，生成与反馈信息相对应的答复信息。

通过上述步骤，在生成语音识别结果后，融合式语音识别装置会对语音识别结果进行判断，获取语音识别结果的含义，并根据该含义进行检索，获取相对应的反馈信息，并将反馈信息转换成用户可以识别的答复信息，解决了相关技术中无法对语音识别结果进行准确答复的问题，实现了精准识别语义、提高答复准确率的技术效果。

在其中的一些实施例中，答复信息包括文字答复信息、语音答复信息。即融合式语音识别装置可以将反馈信息转换成文字答复信息并通过显示单元(如显示屏)进行显示，以供用户获取；或者将反馈信息转换成语音答复信息并通过播放单元(如麦克风)进行播放，以供用户进行交互。

图8是根据本申请实施例的融合式语音识别装置的结构框图(一)。如图8所示，融合式语音识别装置110包括语音获取单元801、图像获取单元802、图像识别单元803、指令单元804、降噪单元805、数据流控制单元806和语音识别单元807。

语音获取单元801，用于获取第一语音数据流；

图像获取单元802，用于获取图像数据；

图像识别单元803，与图像获取单元802通信连接，用于接收图像获取单元802传输的图像数据，并对图像数据进行识别，以判断图像数据是否包括用户的人脸图像数据、用户的唇动图像数据；

指令单元804，与图像识别单元803通信连接，用于接收图像识别单元803传输的图像识别结果(图像判断结果)，用于在图像数据包括人脸图像数据、唇动图像数据的情况下，生成第一降噪增强指令、数据流开启指令；

降噪单元805，分别与语音获取单元801、指令单元804通信连接，用于接收语音获取单元801传输的第一语音数据流以及指令单元804传输的第一降噪增强指令，并根据第一降噪增强指令对第一语音数据流进行处理以获得第二语音数据流；

数据流控制单元806，分别与指令单元804、降噪单元805通信连接，用于接收指令单元804传输的数据流开启指令，使降噪单元805传输的第二语音数据流通过数据流控制单元806传输；

语音识别单元807，与数据流控制单元806通信连接，用于接收通过数据流控制单元806传输的第二语音数据流，并对第二语音数据流进行识别以生成语音识别结果。

通过图像获取单元、图像识别单元、指令单元、降噪单元和数据流控制单元的相互协作，不仅提高语音识别的准确性，还减少融合式语音识别装置的工作负荷，实现了动态调整降噪算法、精准传输待识别的第二语音数据流的技术效果。

图9是根据本申请实施例的融合式语音识别装置的结构框图(二)。如图9所示，融合式语音识别装置110还包括标识符单元808。

标识符单元808，分别与图像识别单元803、语音识别单元807通信连接，用于接收图像识别单元803传输的图像识别结果(图像判断结果)，用于在图像数据不包括唇动图像数据的情况下，在第二语音数据流中插入终止标识符。

语音识别单元807对终止标识符之前的第二语音数据流进行识别以生成语音识别结果。

通过标识符单元可以对第二语音数据流进行快速定位、断句，辅助判断用户何时结束说话，减少了语音识别的延后性，提高语音识别效率。

图10是根据本申请实施例的融合式语音识别装置的结构框图(三)。如图10所示，融合式语音识别装置110还包括销毁单元809。

销毁单元809，分别与语音获取单元801、指令单元804通信连接。

指令单元804用于在图像数据不包括人脸图像数据的情况下，生成销毁指令，销毁单元809接收指令单元804传输的销毁指令，对语音获取单元801获取的第一语音流数据进行销毁。

通过销毁单元对第一语音数据流进行销毁(已存储的进行删除或未存储的不进行存储)，提高了融合式语音识别装置的存储单元(图中未示出)的存储效率。

图11是根据本申请实施例的融合式语音识别装置的结构框图(四)。如图11所示，融合式语音识别装置110还包括时间判断单元810。

时间判断单元810，分别与图像识别单元803、指令单元804通信连接，用于接收图像识别单元803传输的图像识别结果(图像判断结果)，在图像数据包括人脸图像数据的情况下判断用户的停留时间是否达到预设时间阈值。

指令单元804接收时间判断单元810传输的时间识别结果(时间判断结果)，在停留时间达到预设时间阈值的情况下，指令单元804生成第二降噪增强指令；降噪单元805接收指令单元804传输的第二降噪增强指令，并根据第二降噪增强指令对第一语音数据流进行处理以获得第三语音数据流；指令单元804接收图像识别单元803传输的图像识别结果(图像判断结果)，在图像数据包括人脸图像数据、唇动图像数据的情况下，指令单元804生成第一降噪增强指令；降噪单元805接收指令单元804传输的第一降噪增强指令，并根据第一降噪增强指令对第三语音数据流进行处理以获得第二语音数据流。

通过时间判断单元对用户在说话之前的停留时间进行判断，从而可以使降噪单元对第一语音数据流进行二次降噪处理，从而在用户说话之前获取清晰度较高的第三语音数据流以及获取清晰度更高的第二语音数据流，避免第二语音数据流的起始位置出现失真问题。

图12是根据本申请实施例的融合式语音识别装置的结构框图(五)。如图12所示，融合式语音识别装置110还包括答复单元811。

答复单元811，与语音识别单元807通信连接，用于获取语音识别单元807传输的语音识别结果，以及与语音识别结果相对应的反馈信息(由内部的存储单元或外部的服务器提供)，并基于反馈信息生成答复信息并将答复信息输出。

在一些实施例中，答复信息包括文字答复信息(以显示的方式输出)、语音答复信息(以播放的方式输出)。

图13是根据本申请实施例的融合式语音识别方法的具体工作流程图。如图13所示，对于融合式语音识别方法及使用该方法的装置，其具体的工作步骤如下：图像输入；对输入的图像进行唇动识别；在识别结果包括唇动的情况下，对输入的语音进行语音降噪，并开启数据流开关；降噪后的语音数据流经数据流开关被传输至语音识别；并在识别结果不包括唇动的情况下，结束语音识别。

在本发明中，通过引入唇动识别，可以准确地判断用户是否在说话，从而屏蔽大量的外界干扰，减少语音误识别中的插入错误；利用唇动识别结果可以有效地界定“用户说话”与“外界干扰”的边界，从而增强语音降噪的效果；利用唇动结束事件辅助识别断句；解决了地铁站厅等场景超低信噪比环境下的语音识别问题。

另外，本申请实施例的融合式语音识别方法可以由计算机设备来实现。计算机设备的组件可以包括但不限于处理器以及存储有计算机程序指令的存储器。

在一些实施例中，处理器可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

在一些实施例中，存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性(Non-Volatile)存储器。在特定实施例中，存储器包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory，简称为EPROM)、电可擦除PROM(Electrically ErasableProgrammable Read-Only Memory，简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-AccessMemory，简称为SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandomAccess Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器所执行的可能的计算机程序指令。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种融合式语音识别方法。

在其中一些实施例中，计算机设备还可包括通信接口和总线。其中，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SerialAdvancedTechnologyAttachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandardsAssociation Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以执行本申请实施例中的融合式语音识别方法。

另外，结合上述实施例中的融合式语音识别方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种融合式语音识别方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种融合式语音识别方法，应用于躁杂场景，其特征在于，包括：

获取第一语音数据流；

识别所述第二语音数据流，以生成语音识别结果。

2.根据权利要求1所述的融合式语音识别方法，其特征在于，在所述图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，所述方法还包括：

生成数据流开启指令；

根据所述数据流开启指令，传输所述第二语音数据流。

3.根据权利要求1所述的融合式语音识别方法，其特征在于，识别第二语音数据流，以生成语音识别结果包括：

4.根据权利要求1所述的融合式语音识别方法，其特征在于，在获取图像之后，所述方法还包括：

根据所述销毁指令，销毁所述第一语音数据流。

5.根据权利要求1所述的融合式语音识别方法，其特征在于，在获取图像之后，所述方法还包括：

6.一种融合式语音识别装置，其特征在于，包括：

语音获取单元，用于获取第一语音数据流；

图像获取单元，用于获取图像数据；

7.根据权利要求6所述的融合式语音识别装置，其特征在于，还包括：

8.一种融合式语音识别系统，其特征在于，包括：

如权利要求6～7任一项所述的融合式语音识别装置；

9.一种计算机设备，其特征在于，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1～5中任一项所述的融合式语音识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1～5中任一项所述的融合式语音识别方法。