CN110570862A

CN110570862A - 一种语音识别方法及智能语音引擎装置

Info

Publication number: CN110570862A
Application number: CN201910952049.XA
Authority: CN
Inventors: 许可喜; 洪艳婷; 陈华胜
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2019-12-13

Abstract

本申请公开了一种语音识别方法，包括：获取用户的语音指令，得到对应的语音文件，并获取所述用户发出所述语音指令时的唇部的连续动作的视频；对所述语音文件进行解析，得到对应的语音识别结果；对所述视频进行解析，得到对应的唇语识别结果；根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析，得到各个音素单元的识别结果，将所有所述音素单元的识别结果串联，得到最终的自动语音识别的结果。本申请还公开了一种对应的智能语音引擎装置。应用本申请公开的技术方案，能够提高智能设备对自然语言理解的准确率。

Description

一种语音识别方法及智能语音引擎装置

技术领域

本申请涉及智能引擎技术领域，特别涉及一种语音识别方法及智能语音引擎装置。

背景技术

目前的智能设备(包括智能电视/智能音箱/智能冰箱等)都具有语音助手功能。智能引擎(也可称为“智能语音引擎”)通过把用户指令转化成文本，再进一步对文本进行语义解析，进而解析出用户的意图。其中：

将语音文件转化成文本是自动语音识别(ASR：Automatic speechrecognization)；

从文本解析出用户意图是自然语言理解(NLU：Natural LanguageUnderstanding)。

上述两个过程都有一定的差错率。ASR过程出错的原因是：脉冲编码调制(PCM：Pulse Code Modulation)文件质量问题，比如：音效不够清晰，有杂音，用户方言没有辨识出来等；NLU出错的原因是：语句、语法比较复杂，有多种解析句子的方法，从而对应有多种解析句子的结果，导致自然语言理解的准确率不高。

如前所述，智能设备上的智能引擎用于将用户的语音输入转化成用户意图。常见的语音智能引擎有Alexa,google assistant,iFlyTek等。有的智能设备上驻扎了多个智能语音引擎，并且配置有引擎选择模块。用户的语音指令由底层驱动转换成语音PCM文件，然后传送到多智能引擎选择模块，多智能引擎选择模块根据用户喜好、当前语音特征等选择其中一个智能语音引擎。被选中的智能语音引擎按照如前所述的方法，首先从PCM文件识别出文本文件，再进一步进行语义分析解析出用户意愿。

针对PCM文件有噪声的问题，目前有背景去噪声技术，但是成本高，应用率不高。因而，现有智能引擎系统由于PCM文件质量的原因，或者由于语句语法比较复杂的原因，导致自然语言理解的准确率不高。

发明内容

本申请提供了一种语音识别方法及智能语音引擎装置，以提高智能设备对自然语言理解的准确率。

本申请公开了一种语音识别方法，包括：

获取用户的语音指令，得到对应的语音文件，并获取所述用户发出所述语音指令时的唇部的连续动作的视频；

对所述语音文件进行解析，得到对应的语音识别结果；

对所述视频进行解析，得到对应的唇语识别结果；

根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析，得到各个音素单元的识别结果，将所有所述音素单元的识别结果串联，得到最终的自动语音识别的结果。

较佳的，对所述视频进行解析，得到对应的唇语识别结果具体包括：

将所述用户唇部的连续动作的视频分解为单个图像，对单个图像逐个进行处理，获取对应的唇部图像序列；

对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；其中，所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；

对所述音素单元识别结果进行解码处理，获得唇语识别结果。

较佳的，所述语音文件为：脉冲编码调制PCM文件；

对所述语音文件进行解析，得到对应的语音识别结果具体包括：

对所述PCM文件进行分段，并对每一个分段进行逐段解析得到对应的PCM语音序列；

对所述PCM语音序列进行识别处理，获得与所述PCM语音序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；

对所述音素单元识别结果进行解码处理，获得语音识别结果。

较佳的，所述根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析具体包括：

如果两者类似或者相等，则直接得到本音素单元的识别结果；

如果两者有差别，则基于优化选择的原则进行分析和筛选，得到最有可能正确的各个音素单元的识别结果。

较佳的，通过智能设备的摄像头或用户发出所述语音指令所在房间的摄像头拍摄所述用户发出所述语音指令时唇部的连续动作的视频。

本申请还公开了一种智能语音引擎装置，包括：语音捕捉模块、唇语解析模块、智能语音解析模块和智能选择优化模块，其中：

所述语音捕捉模块用于抓取用户的语音指令，形成语音文件，发送给所述智能语音解析模块；

所述唇语解析模块用于接收所述用户发出所述语音指令时的唇部的连续动作的视频，对所述视频进行解析，得到对应的唇语识别结果，并发送给所述智能选择优化模块；

所述智能语音解析模块用于对所述语音捕捉模块发送的所述语音文件进行解析，得到对应的语音识别结果，并发送给所述智能选择优化模块；

所述智能选择优化模块用于根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析，得到各个音素单元的识别结果，将所有所述音素单元的识别结果串联，得到最终的自动语音识别的结果。

较佳的，所述唇语解析模块具体用于：

对所述音素单元识别结果进行解码处理，获得唇语识别结果；

将所述唇语识别结果发送给所述智能选择优化模块。

较佳的，所述语音文件为：PCM文件；

所述智能语音解析模块具体用于：

对所述音素单元识别结果进行解码处理，获得语音识别结果；

将所述语音识别结果发送给所述智能选择优化模块。

较佳的，所述智能选择优化模块具体用于：

对所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析；

如果两者有差别，则基于优化选择的原则进行分析和筛选，得到最有可能正确的各个音素单元的识别结果；

将所有音素单元的识别结果串连，得到最终的自动语音识别的结果。

较佳的，所述装置中进一步包括图像捕捉模块；

所述图像捕捉模块用于通过摄像头摄制所述用户发出所述语音指令时唇部的连续动作的视频，并发送给所述唇语解析模块。

由上述技术方案可见，本申请相对于传统的语音识别方法和智能语音引擎装置，拓宽了智能语音引擎的输入项，通过引入用户发出语音指令时的唇语连续图像作为输入，并对用户的唇语进行解析，然后根据唇语解析结果和语音解析结果的对比分析得到最后的语音识别结果。由于集合了语音解析和唇语解析的优势，可以大大提高自动语音识别的成功率和准确率。此外，在用户发出语音指令环境有噪声的情况下，采用本发明技术方案能够尽量减少噪声，杂音等对语音识别的不良影响，进而提高智能设备对自然语言理解的准确率。

附图说明

图1为本发明语音识别方法的示意图；

图2为本发明智能语音引擎的模块图；

图3为本发明实施例中识别用户输入的语音信息的流程示意图；

图4为本发明实施例中自动语音识别的过程示意图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本申请作进一步详细说明。

本发明的主要思想在于：捕获用户嘴唇的连续动作，并让智能引擎在ASR解析阶段参考用户嘴唇的连续动作，也就是增加唇语解析的纠错过程，从而增加语音识别成功的概率，提高智能设备对自然语言理解的准确率。

基于上述主要思想，本发明提供了一种语音识别方法，该方法的流程示意图如图1所述，包括以下步骤：

对所述语音文件进行解析，得到对应的语音识别结果；

对所述视频进行解析，得到对应的唇语识别结果；

其中，对所述视频进行解析，得到对应的唇语识别结果具体包括：

其中，所述语音文件为：PCM文件；对所述语音文件进行解析，得到对应的语音识别结果具体包括：

其中，所述根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析具体包括：

其中，可以通过智能设备的摄像头或用户发出所述语音指令所在房间的摄像头拍摄所述用户发出所述语音指令时唇部的连续动作的视频。

当用户在智能设备旁边发布语音指令时，如果该智能设备自带摄像头，则该智能设备捕捉该用户嘴唇的连续动作的视频；如果该智能设备不自带摄像头，则用户所在房间的摄像头捕捉该用户嘴唇的连续动作的视频。摄制到的用户嘴唇的连续动作连同用户的语音PCM文件由智能语音引擎进行进一步处理。智能语音引擎根据用户嘴唇的连续动作进行唇语解析，最后对唇语解析的结果和语音PCM文件的解析结果进行对比分析和优化，得到最终的文本结果，从而更加精准地解析用户的语音文本，达到更高的语音识别率。

对应于上述方法，本发明还提供了一种考虑唇语识别的提高语音识别率的智能语音引擎装置，其模块图如图2所示，该智能语音引擎装置可包括五个模块：

A.语音捕捉模块；

B.图像捕捉模块；

C.唇语解析模块；

D.智能语音解析模块；

E.智能选择优化模块。

可选择的，如果智能语音引擎没有包含图像捕捉模块，则可以借助房间的其它摄像头进行摄像，然后所述其它摄像头将摄制的用户唇部的连续动作的视频发送给智能语音引擎。

各模块具体阐述如下：

1)语音捕捉模块

该模块是传统智能语音引擎一直带有的模块。该模块从设备底层抓取用户的语音信息，形成语音文件(例如：PCM文件)，然后传送给智能语音解析模块。

2)图像捕捉模块

该模块是本发明新增的模块，该模块通过摄像头摄制用户发出语音指令时唇部的连续动作的视频，并发送给唇语解析模块。

3)唇语解析模块

唇语解析模块用于对所述图像捕捉模块发送的唇部的连续动作的视频进行解析，得到对应的唇语识别结果，并发送给智能选择优化模块。具体而言：所述唇语解析模块用于将输入的唇部的连续动作的视频分解为单个图像，对单个图像逐个进行处理，获取对应的唇部图像序列；对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；对所述音素单元识别结果进行解码处理，获得唇语识别结果；将所述唇语识别结果发送给所述智能选择优化模块。

4)智能语音解析模块

智能语音解析模块用于对所述语音捕捉模块发送的PCM语音文件进行解析，得到对应的语音识别结果，并发送给智能选择优化模块。具体而言：智能语音解析模块用于对输入的PCM语音文件进行分段，并对每一个分段进行逐段解析得到对应的PCM语音序列，然后对所述PCM语音序列进行识别处理，获得与所述PCM语音序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；对所述音素单元识别结果进行解码处理，获得语音识别结果；将所述语音识别结果发送给所述智能选择优化模块。

5)智能选择优化模块

智能选择优化模块根据实时输入的唇语识别结果和语音识别结果进行基于音素单元的对比分析。如果两者类似或者相等，则直接得到本音素单元的识别结果；如果两者有差别，则基于优化选择的原则进行分析和筛选，得到最有可能正确的各个音素单元的识别结果。将所有音素单元的识别结果串连，得到最终的自动语音识别的结果。

下面结合附图通过一个较佳实施例对本申请上述技术方案进行进一步详细说明。

本实施例以用户对智能电视点歌为例进行说明。如图3所示，根据本发明技术方案，如果该智能电视自带摄像头，则该智能电视将会捕捉到用户的面部嘴唇的动作；如果该智能电视不自带摄像头，则用户所在房间的摄像头开始捕捉用户的面部嘴唇的动作。摄制到的用户的面部嘴唇动作连同用户的语音PCM文件将发送到智能语音引擎系统进行进一步识别和处理。

如图4所示，本实施例中，智能电视的智能引擎检测到用户语音输入，同时智能电视自带的摄像头设备或者房间的摄像头设备捕捉到用户面部唇部的连续动作并发送给智能电视。智能电视接收到用户的语音指令和唇部动作信息后，触发唇语解析模块、智能语音解析模块、以及智能选择优化模块同时开启工作。其中：

智能语音解析模块进行自动语音识别，从输入的语音PCM文件解析出连续的音素元素，发送给智能选择优化模块；

与此同时，唇语解析模块进行唇语识别，从唇部连续动作图像解析出连续的音素元素，发送给智能选择优化模块；

智能选择优化模块接收到智能语音引擎模块发送的语音解析的音素结果和唇语解析模块发送的唇语解析的音素结果，对两者进行对比分析。如果两者一致，则直接得到此音素单元对应的文本结果；如果两者不一致，则根据某优化选择的原则进行对比分析和选择，选择合适的音素单元对应的文本结果。最后将多个连续的音素单元对应的文本结果进行合并得到最终的自动语音识别的文本结果，并进行下一步的自然语言理解的流程。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

对所述语音文件进行解析，得到对应的语音识别结果；

对所述视频进行解析，得到对应的唇语识别结果；

2.根据权利要求1所述的方法，其特征在于，对所述视频进行解析，得到对应的唇语识别结果具体包括：

3.根据权利要求1所述的方法，其特征在于：

所述语音文件为：脉冲编码调制PCM文件；

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析具体包括：

5.根据权利要求1至3任一项所述的方法，其特征在于：

通过智能设备的摄像头或用户发出所述语音指令所在房间的摄像头拍摄所述用户发出所述语音指令时唇部的连续动作的视频。

6.一种智能语音引擎装置，其特征在于，包括：语音捕捉模块、唇语解析模块、智能语音解析模块和智能选择优化模块，其中：

7.根据权利要求6所述的装置，其特征在于，所述唇语解析模块具体用于：

将所述唇语识别结果发送给所述智能选择优化模块。

8.根据权利要求6所述的装置，其特征在于：

所述语音文件为：PCM文件；

所述智能语音解析模块具体用于：

将所述语音识别结果发送给所述智能选择优化模块。

9.根据权利要求7或8所述的装置，其特征在于，所述智能选择优化模块具体用于：

10.根据权利要求6至8任一项所述的装置，其特征在于，所述装置中进一步包括图像捕捉模块；