CN109410957B

CN109410957B - 基于计算机视觉辅助的正面人机交互语音识别方法及系统

Info

Publication number: CN109410957B
Application number: CN201811448360.2A
Authority: CN
Inventors: 邱霖恺; 刘维; 王贤俊; 高刚强; 郑文侃; 宋煌钟
Original assignee: Fujian Start Computer Equipment Co ltd
Current assignee: Fujian Start Computer Equipment Co ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2023-05-23
Anticipated expiration: 2038-11-30
Also published as: CN109410957A

Abstract

本发明涉及基于计算机视觉辅助的正面人机交互语音识别方法及系统，通过在传统语音识别流程中加入视频信号输入，与语音信号一同识别；在人脸识别和人脸唇部运动识别中进行语音辅助，判断是否所要识别的目标正在说话；同时，通过人脸识别和辅助定位，判断说话人方位，并利用相应方位，对指定方向声源信号进行增强处理。本发明可以有效增强在特定环境下，例如自助零售终端、银行自助终端、保险自助终端等需要客户正面面对设备的人机交互使用场景，对客户语音命令和语音输入信息识别的准确率。

Description

基于计算机视觉辅助的正面人机交互语音识别方法及系统

技术领域

本发明涉及语音识别领域，特别是一种基于计算机视觉辅助的正面人机交互语音识别方法及系统。

背景技术

目前的语音识别技术，都是完全基于输入音频进行直接识别，在整个音频识别过程中采用的主要方法，是通过对输入音频进行分析，得出音频中的语音文本内容。

因此传统语音识别技术在说话人处于一些正面人机交互的嘈杂环境下，同一声源位置不同人交替说话或附近有其他人在交谈的情况下，无法有效识别目标语音指令发起人所说的语音命令。同时，由于之前的语音识别算法对语音断句不准确，有可能出现话还没说完就识别了前半句话导致执行了错误命令的情况。

发明内容

有鉴于此，本发明的目的是提出基于计算机视觉辅助的正面人机交互语音识别方法及系统。

本发明采用以下方案实现：一种基于计算机视觉辅助的正面人机交互语音识别方法，采用视频信号与语音信号一同进行语音识别；采用人脸识别与人脸唇部运动识别进行语音辅助识别，判断所要识别的目标是否正在说话或已经终止说话。

进一步地，还包括通过人脸识别进行辅助定位，判断说话人的方位，并根据相应方位，对指定方向声源信号进行增强处理。

较佳的，本发明具体包括以下步骤：

步骤S1：同时获取同一时间录制的视频片段和音频片段；

步骤S2：对视频片段进行人脸识别，得到当前画面中说话人的状态、说话人的身份、说话人的位置、以及当前说话人嘴唇在画面中的位置；并对当前说者的嘴唇状态进行判断；

步骤S3：根据说话人的位置进行音频的方位判断；

步骤S4：对步骤S1中的音频片段和步骤S3得到的说话人的音频方位进行音频的预处理；

步骤S5：结合步骤S4中预处理后的音频和步骤S2中嘴唇状态判断视频区域内是否有人在说话；若有人在说话，则进入步骤S6，否则进行步骤S12；

步骤S6：识别当前说话人；

步骤S7：结合步骤S4预处理后的音频以及步骤S2的嘴唇状态判断当前说话人是否已经终止说话；若还没有终止说话，则进入步骤S8，若已经终止说话，则进入步骤S9；

步骤S8：累加当前对应说话人的视频和音频片段，并返回步骤S1获取新的数据；

步骤S9：对对应的已经终止说话的说话人之前累加的视频片段和音频片段进行语音识别，并进入步骤S10；

步骤S10：输出语音识别的结果；

步骤S11：重置刚才识别过的音频片段与视频片段，即清空缓存数据；如果需要继续识别语音，则返回步骤S1；

步骤S12：判断是否上一时刻的对应说话人有累加的音频片段和视频片段，若有，则执行步骤S9，否则返回步骤S11。

进一步地，步骤S9具体包括以下步骤：

步骤S91：获取输入的音频片段，进入步骤S92；获取输入的当前视频片段，进入步骤S93；

步骤S92：采用语音识别算法对输入的音频片段进行语音识别，得到初步语音识别结果，并进入步骤S95；

步骤S93：依次进行人脸识别和嘴唇状态识别，从视频片段中获取一段连续的嘴唇状态，并进入步骤S94；

步骤S94：利用得到的一段连续的嘴唇状态，进行唇语识别，得到唇语识别结果，并进入步骤S95；

步骤S95：采用唇语识别结果纠正初步语音识别结果，得到最终的语音识别结果；

步骤S96：输出最终的语音识别结果。

进一步地，步骤S95中进一步为：采用深度学习模型对初步语音识别结果与唇语识别结果进行自动校正。

进一步地，步骤S4中的预处理包括：根据说话人的音频方位，对指定方向声源信号进行增强处理。

本发明还提供了一种基于上文所述的基于计算机视觉辅助的正面人机交互语音识别方法的系统，包括视频采集单元、音频采集单元、存储器、以及处理器；所述视频采集单元用以采集视频信号，所述音频采集单元用以采集音频信号，所述存储器用以存储所述视频采集单元、音频采集单元采集的数据，同时存储有上文任一项所述的方法指令，所述处理器在运行时执行存储器中存储的方法指令。

本发明通过在传统语音识别流程中加入视频信号输入，与语音信号一同识别；在人脸识别和人脸唇部运动识别中进行语音辅助，判断所要识别的目标是否正在说话；同时，通过人脸识别和辅助定位，判断说话人方位，并根据相应方位，对指定方向声源信号进行增强处理。通过这个技术，可以有效增强在特定环境下，例如自助零售终端、银行自助终端、保险自助终端等需要用户正面面对设备的人机交互使用场景，对客户语音命令和语音输入信息识别的准确率。

与现有技术相比，本发明有以下有益效果：采用本发明的方法与系统能够有效提高客户正对自助设备等正面人机交互场景下语音识别的准确率，判断说话完毕的准确率，同时利用唇语识别纠正语音识别的结果，提高语音识别的准确率。

附图说明

图1为本发明实施例的方法流程示意图。

图2为本发明实施例的步骤S9流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例提供了一种基于计算机视觉辅助的正面人机交互语音识别方法，采用视频信号与语音信号一同进行语音识别；采用人脸识别与人脸唇部运动识别进行语音辅助识别，判断所要识别的目标是否正在说话或已经终止说话。

在本实施例中，还包括通过人脸识别进行辅助定位，判断说话人的方位，并根据相应方位，对指定方向声源信号进行增强处理。

较佳的，如图1所示，本实施例具体包括以下步骤：

步骤S1：同时获取同一时间录制的视频片段和音频片段；

步骤S2：对视频片段进行人脸识别，得到当前画面中说话人的状态、说话人的身份、说话人的位置、以及当前说话人嘴唇在画面中的位置；并对当前说者的嘴唇状态进行判断；其中，说话人的身份可以通过视频片段的人脸识别与连接授权的身份信息库进行比对来得到。

步骤S3：根据说话人的位置进行音频的方位判断；

步骤S6：识别当前说话人；

步骤S10：输出语音识别的结果；

如图2所示，在本实施例中，步骤S9具体包括以下步骤：

步骤S96：输出最终的语音识别结果。

在本实施例中，步骤S95中进一步为：采用深度学习模型对初步语音识别结果与唇语识别结果进行自动校正。

在本实施例中，步骤S4中的预处理包括：根据说话人的音频方位，对指定方向声源信号进行增强处理。

本实施例还提供了一种基于上文所述的基于计算机视觉辅助的正面人机交互语音识别方法的系统，包括视频采集单元、音频采集单元、存储器、以及处理器；所述视频采集单元用以采集视频信号，所述音频采集单元用以采集音频信号，所述存储器用以存储所述视频采集单元、音频采集单元采集的数据，同时存储有以上实施例中任一项所述的方法指令，所述处理器在运行时执行存储器中存储的方法指令。

特别的，所述音频采集单元所采用的音频输入设备包括但不仅限于麦克风、麦克风阵列、话筒、远程音频输入接口等；所述视频采集单元所采用的视频输入设备包括但不仅限于有线/无线的摄像头、热感摄像头、红外摄像头以及结构光摄像头等。

特别的，本实施例还提供以下功能模块。

一、音频处理模块；音频处理模块包括语音预处理模块和语音识别模块。

1、语音预处理模块根据音频输入设备的差异包括但不仅限于声源定位、声源增强、回声消除、噪音抑制等，能提高辨别环境声音和语音声音的准确率。

2、语音识别模块根据具体的产品方案部署情况，包括但不仅限于云端语音识别系统、端侧语音识别设备或者语音识别算法等。

二、图像处理模块；图像处理模块包括人脸识别模块、嘴唇状态识别模块以及唇语识别模块。

1、人脸识别模块包括但不仅限于云端人脸识别系统、端侧人脸识别模块和人脸识别算法。主要实现了人脸定位，人脸特征提取和比对以及人脸特征点和眼睛、鼻子、嘴巴的位置和轮廓标定。

2、嘴唇状态识别模块包括但不仅限于云端嘴唇状态识别系统、端侧嘴唇状态识别模块和嘴唇状态识别算法，其中算法可以采用常见的HAAR+Cascade、HOG+SVM 或者VGG、AlexNet、Inception、ResNet等分类器模型实现的状态识别算法。主要实现了依赖人脸识别模块给出的信息，判断指定当前人脸的嘴唇状态的功能。

3、唇语识别模块包括但不仅限于唇语识别系统、唇语识别模块和唇语识别算法，其中基于唇语识别的算法，主要采用了RNN+LSTM等基于时间序列识别的深度学习模型算法。实现了根据输入的连续视频中嘴唇状态，给出对应的唇语和说话人所要说的语言内容文本的功能。

三、语音合成模块；语音合成模块主要包括说话终止判断模块和语音识别纠正模块。

1、说话终止判断模块包括但不仅限于说话终止判断系统、说话终止判断模块和说话终止判断算法，其算法采用VGG、AlexNet、Inception、ResNet等常见的基于深度学习的模型的分类识别算法，在传统输入层图像的基础上增加音频片段序列的输入。通过当前视频识别唇语状态结果和音频最新的一段片段进行判断。

2、语音识别纠正模块包括但不仅限于语音识别纠正系统、语音识别纠正模块和语音识别纠正算法，其算法采用RNN+LSTM等基于时间序列识别的深度学习模型算法，模型输入特征为语音识别结果的文本序列和对应的唇语识别序列以及唇语状态，输出端为纠正后的语音文本。通过输入的唇语识别结果和语音识别结果进行比对，进行对应的语音识别纠正，其中主要采用深度学习的方法实现。

本实施例通过在传统语音识别流程中加入视频信号输入，与语音信号一同识别；在人脸识别和人脸唇部运动识别中进行语音辅助，判断是否所要识别的目标正在说话；同时，通过人脸识别和辅助定位，判断说话人方位，并利用相应方位，对指定方向声源信号进行增强处理。通过这个技术，可以有效增强在特殊环境下，例如自助零售终端、银行自助终端、保险自助终端等需要用户正面面对设备的人机交互使用场景，对客户语音命令和语音输入信息识别的准确率。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于计算机视觉辅助的正面人机交互语音识别方法，其特征在于：采用视频信号与语音信号一同进行语音识别；采用人脸识别与人脸唇部运动识别进行语音辅助识别，判断所要识别的目标是否正在说话或已经终止说话；

还包括通过人脸识别进行辅助定位，判断说话人的方位，并根据相应方位，对指定方向声源信号进行增强处理；

具体包括以下步骤：

步骤S1：同时获取同一时间录制的视频片段和音频片段；

步骤S3：根据说话人的位置进行音频的方位判断；

步骤S6：识别当前说话人；

步骤S10：输出语音识别的结果；

步骤S12：判断是否上一时刻的对应说话人有累加的音频片段和视频片段，若有，则执行步骤S9，否则返回步骤S11；

步骤S9具体包括以下步骤：

步骤S96：输出最终的语音识别结果；

所述步骤95具体为：语音识别纠正模块包括但不仅限于语音识别纠正系统、语音识别纠正组件和语音识别纠正算法，其算法采用基于时间序列识别的深度学习模型算法，模型输入特征为语音识别结果的文本序列和对应的唇语识别序列以及唇语状态，输出端为纠正后的语音文本。

2.根据权利要求1所述的基于计算机视觉辅助的正面人机交互语音识别方法，其特征在于：步骤S4中的预处理包括：根据说话人的音频方位，对指定方向声源信号进行增强处理。

3.一种基于权利要求1-2任一项所述的基于计算机视觉辅助的正面人机交互语音识别方法的系统，其特征在于：包括视频采集单元、音频采集单元、存储器、以及处理器；所述视频采集单元用以采集视频信号，所述音频采集单元用以采集音频信号，所述存储器用以存储所述视频采集单元、音频采集单元采集的数据，同时存储有权利要求1-2任一项所述的方法，所述处理器在运行时执行存储器中存储的方法指令。