CN113177531A

CN113177531A - 一种基于视频分析的说话识别方法、系统、设备及介质

Info

Publication number: CN113177531A
Application number: CN202110587534.9A
Authority: CN
Inventors: 黄欢; 尹士朝
Original assignee: Grg Intelligent Technology Solution Co ltd; GRG Banking Equipment Co Ltd
Current assignee: Grg Intelligent Technology Solution Co ltd; GRG Banking Equipment Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-07-27
Anticipated expiration: 2041-05-27
Also published as: CN113177531B

Abstract

本发明提供一种基于视频分析的说话识别方法，包括对目标视频数据中每一视频帧进行裁剪处理以及灰度化处理，得到每一视频帧对应的输入图像；对所有输入图像进行人脸检测处理，得到人脸检测框；对所有输入图像对应的人脸检测框进行筛选，将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为这一帧的最终人脸检测框；根据最终人脸检测框中嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果，将含有若干特征结果输入至预设说话识别模型中进行识别，得到与待识别人物对应的说话识别结果。本发明的一种基于视频分析的说话识别方法，使得到的说话识别结果更加精准，而且可以适应待识别人物说话时的不同形态。

Description

一种基于视频分析的说话识别方法、系统、设备及介质

技术领域

本发明涉及智能交互领域，尤其涉及一种基于视频分析的说话识别方法、系统、设备及介质。

背景技术

在智能交互领域，在启动智能交互系统时，需要先判断待识别人物是否说话，当待识别人物处于说话状态时，智能交互系统启动拾音功能并执行后续的语音交互功能。目前智能交互领域对于待识别人物是否处于说话状态的判断为基于唇部特征点结合简单的阈值分析来判断是否说话或通过音频分析再结合唇部特征分析来判断是否说话。上述的说话识别过程前者阈值分析无法做到模型的鲁棒性，不适用于复杂多变的场景；后者则需要借助音频信息进一步辅助判断，显得不够智能化。因此传统的智能交互系统中对于视频中人物的说话识别存在一定局限性而且不够智能化。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于视频分析的说话识别方法，其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。

本发明的目的之二在于提供一种基于视频分析的说话识别系统，其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。

本发明的目的之三在于提供一种电子设备，其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。

本发明的目的之四在于提供一种计算机可读存储介质，其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。

本发明的目的之一采用以下技术方案实现：

一种基于视频分析的说话识别方法，所述方法应用于智能交互系统中，包括以下步骤：

读取视频数据，读取智能交互系统中摄像头采集到的目标视频数据；

图像预处理，对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理，得到每一视频帧对应的输入图像；

人脸检测，对每一视频帧对应的输入图像进行人脸检测处理，得到与每一输入图像对应的人脸检测框；

人脸筛选，对每一视频帧对应的输入图像对应的人脸检测框进行筛选，将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框；

关键点提取，对每一最终人脸检测框进行关键点提取处理，提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合；

生成特征列表，根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果，并将所有特征结果存储至预先设置的特征列表中；

说话识别，将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别，得到与待识别人物对应的说话识别结果。

进一步地，所述特征结果包括嘴唇开合横纵比和嘴唇张开程度，所述嘴唇轮廓包括若干嘴唇轮廓点。

进一步地，所述根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果具体为：将脸部关键点集合中位于脸部两侧最高位置处的脸部关键点之间的距离作为第一距离，将两侧嘴角上部的嘴唇轮廓作为上嘴唇轮廓，将两侧嘴角下部的嘴唇轮廓作为下嘴唇轮廓，将上嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为上嘴唇轮廓外圈中心点，将下嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为下嘴唇轮廓外圈中心点，将上嘴唇轮廓外圈中心点与下嘴唇轮廓外圈中心点的距离作为第三距离，将上嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点与对应的下嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点之间的距离作为第四距离和第五距离，根据预设函数、第一距离、第二距离、第三距离、第四距离以及第五距离计算出嘴唇开合横纵比和嘴唇张开程度。

进一步地，所述说话识别具体为：将不同特征结果中嘴唇开合横纵比和嘴唇张开程度输入至预设说话识别模型中进行识别，所述预设说话模型根据嘴唇开合横纵比和嘴唇张开程度判断待识别人物的说话状态，得到与待识别人物对应的说话识别结果，所述预设说话识别模型为经过预先采集的样本数据进行训练的模型，所述样本数据包括预设嘴唇开合横纵比、预设嘴唇张开程度以及对应的说话状态。

进一步地，每一特征列表中包括六帧最终人脸检测框对应的特征结果。

进一步地，所述图像预处理具体为：对所述目标视频数据中每一视频帧进行尺寸裁剪，并将经过尺寸裁剪的视频帧进行灰度处理，转换为灰度图，将灰度图作为输入图像。

进一步地，所述人脸筛选具体为：计算每个输入图像对应的人脸检测框的面积，得到人脸检测框面积值，判断人脸检测框面积值是否满足预设人脸筛选规则，若满足，将对应的人脸检测框作为最终人脸检测框。

本发明的目的之二采用以下技术方案实现：

一种基于视频分析的说话识别系统，包括：

视频流读入模块，所述视频流读入模块用于读取智能交互系统中摄像头采集到的目标视频数据；

图像预处理模块，所述图像预处理模块用于对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理，得到每一视频帧对应的输入图像；

人脸检测模块，所述人脸检测模块用于对每一视频帧对应的输入图像进行人脸检测处理，得到与每一输入图像对应的人脸检测框；

人脸筛选模块，所述人脸筛选模块用于对每一视频帧对应的输入图像对应的人脸检测框进行筛选，将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框；

关键点提取模块，所述关键点提取模块用于对每一最终人脸检测框进行关键点提取处理，提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合；

嘴唇特征计算模块，所述嘴唇特征计算模块用于根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果，并将所有特征结果存储至预先设置的特征列表中；

说话识别模块，所述说话识别模块用于将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别，得到与待识别人物对应的说话识别结果。

本发明的目的之三采用以下技术方案实现：

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行本申请中所述的一种基于视频分析的说话识别方法。

本发明的目的之四采用以下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行本申请中所述的一种基于视频分析的说话识别方法。

相比现有技术，本发明的有益效果在于：本申请中的一种基于视频分析的说话识别方法，通过读取智能交互系统中摄像头采集到的目标视频数据；对目标视频数据中每一视频帧进行裁剪处理以及灰度化处理，得到每一视频帧对应的输入图像；对每一视频帧对应的输入图像进行人脸检测处理，得到与每一输入图像对应的人脸检测框；对每一视频帧对应的输入图像对应的人脸检测框进行筛选，将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框；对每一最终人脸检测框进行关键点提取处理，提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合；根据嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果，并将所有特征结果存储至预先设置的特征列表中；将含有若干特征结果的特征列表输入至预设说话识别模型中进行识别，得到与目标视频数据中的人物对应的说话识别结果，整个过程根据特征向量以及预设说话识别模型进行说话识别，无需结合音频信息，整个过程还结合了脸部关键点信息，使得到的说话识别结果更加精准，而且可以适应待识别人物说话时的不同形态。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的一种基于视频分析的说话识别方法的流程示意图；

图2为本发明的一种基于视频分析的说话识别方法中嘴唇轮廓和脸部关键点集合的示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

如图1所示，本实施例中的一种基于视频分析的说话识别方法，包括以下步骤：

读取视频数据，读取智能交互系统中摄像头采集到的目标视频数据。

图像预处理，对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理，得到每一视频帧对应的输入图像。具体为：对所述目标视频数据中每一视频帧进行尺寸裁剪，并将经过尺寸裁剪的视频帧进行灰度处理，转换为灰度图，将灰度图作为输入图像。

人脸检测，对所有输入图像进行人脸检测处理，得到与每一输入图像对应的人脸检测框。

人脸筛选，对所有输入图像对应的人脸检测框进行筛选，将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框。具体为：计算每个输入图像对应的人脸检测框的面积，得到人脸检测框面积值，判断人脸检测框面积值是否满足预设人脸筛选规则，若满足，将对应的人脸检测框作为最终人脸检测框。在本实施例中，将人脸检测框面积值最大的人脸检测框作为最终人脸检测框。

关键点提取，对每一最终人脸检测框进行关键点提取处理，提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合。

生成特征列表，根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果，并将所有特征结果存储至预先设置的特征列表中。在本实施例中，所述特征结果包括嘴唇开合横纵比和嘴唇张开程度，所述嘴唇轮廓包括若干嘴唇轮廓点。在本实施例中，可以根据具体场景要求进行设计需要识别的人工特征，并不限于必须根据嘴唇轮廓和脸部关键点来计算，而是经过不断实验和对比，最终选取了实际效果较好的上述两种特征结果作为特征计算方法中的特征参量。上述的步骤具体为：将脸部关键点集合中位于脸部两侧最高位置处的脸部关键点之间的距离作为第一距离，将嘴唇轮廓中两侧嘴角处对应的嘴唇轮廓点之间的距离作为第二距离，将两侧嘴角上部的嘴唇轮廓作为上嘴唇轮廓，将两侧嘴角下部的嘴唇轮廓作为下嘴唇轮廓，将上嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为上嘴唇轮廓外圈中心点，将下嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为下嘴唇轮廓外圈中心点，将上嘴唇轮廓外圈中心点与下嘴唇轮廓外圈中心点的距离作为第三距离，将上嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点与对应的下嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点之间的距离作为第四距离和第五距离，根据预设函数、第一距离、第二距离、第三距离、第四距离以及第五距离计算出嘴唇开合横纵比和嘴唇张开程度。如图2所示，为嘴唇轮廓和含有若干脸部关键点的示意图，将图中所有点均按照预设序号进行编号，序号为1-20对应的点为嘴唇轮廓点，共同组成嘴唇轮廓，则序号为21-37对应的点为脸部关键点，上述第一距离为序号为21和37两点对应的距离，第二距离为序号1和序号7对应两点的距离，第三距离为序号为4和10对应两点的距离，第四距离为序号为3和11对应两点的距离，第五距离为序号为5和9两点对应的距离；预设函数如以下公式(1)、公式(2)以及公式(3)所示：

在上述公式(1)、公式(2)以及公式(3)中，face_width和

表示第一距离，rate为嘴唇开合横纵比，

为第四距离，

为第五距离，mouth_height为嘴唇张开程度，

为第三距离。

说话识别，将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别，得到与待识别人物对应的说话识别结果。具体为：所述说话识别具体为：将不同特征结果中嘴唇开合横纵比和嘴唇张开程度输入至预设说话识别模型中进行识别，所述预设说话模型根据嘴唇开合横纵比和嘴唇张开程度判断待识别人物的说话状态，得到与待识别人物对应的说话识别结果，所述预设说话识别模型为经过预先采集的样本数据进行训练的模型，所述样本数据包括预设嘴唇开合横纵比、预设嘴唇张开程度以及对应的说话状态，在样本数据中每一组预设嘴唇开合横纵比、预设嘴唇张开程度对应唯一的说话状态，说话状态为正在说话或未说话。样本数据中的预设嘴唇开合横纵比、预设嘴唇张开程度也是通过本申请中上述读取视频数据、图像预处理、人脸检测、关键点提取，最后根据样本数据中每一视频帧中的嘴唇轮廓和脸部关键点计算得到，样本数据为知道正确的说话状态的历史数据。在本实施例中，将含有若干帧特征结果的特征列表输入至预设说话识别模型中进行识别，上述特征结果的数量可以依据使用者个人设定，但是经过大量实验结果证明，当特征列表中含有前后6帧特征结果时，最后得到的说话状态更加精准，因此，本实施例中优选将含有前后6帧特征结果的特征列表输入至预设说话识别模型中进行识别。

本实施例中的预设说话识别模型为采用了一种基于大量正负数据样本进行有监督学习的机器学习算法记性训练，上述正负数据样本为大量说话特征和不说话特征，并针对本场景下需要判别目标行人是否在说话的情况，以及考虑到人脸角度不同、说话习惯不同的问题，采用了前后帧的关联性分析，并专门设计了嘴唇开合横纵比和嘴唇张开程度作为特征向量，提高模型的准确性。

本发明还提供一种基于视频分析的说话识别系统，包括：

本发明还提供一种电子设备，包括：处理器；

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行本申请中所述的一种基于视频分析的说话识别方法。

本申请中的一种基于视频分析的说话识别方法，通过读取智能交互系统中摄像头采集到的目标视频数据；对目标视频数据中每一视频帧进行裁剪处理以及灰度化处理，得到每一视频帧对应的输入图像；对每一视频帧对应的输入图像进行人脸检测处理，得到与每一输入图像对应的人脸检测框；对每一视频帧对应的输入图像对应的人脸检测框进行筛选，将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框；对每一最终人脸检测框进行关键点提取处理，提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合；根据嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果，并将所有特征结果存储至预先设置的特征列表中；将含有若干特征结果的特征列表输入至预设说话识别模型中进行识别，得到与目标视频数据中的人物对应的说话识别结果，整个过程根据特征向量以及预设说话识别模型进行说话识别，无需结合音频信息，整个过程还结合了脸部关键点信息，使得到的说话识别结果更加精准，而且可以适应待识别人物说话时的不同形态。

以上，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.一种基于视频分析的说话识别方法，所述方法应用于智能交互系统中，其特征在于：包括以下步骤：

2.如权利要求1所述的一种基于视频分析的说话识别方法，其特征在于：所述特征结果包括嘴唇开合横纵比和嘴唇张开程度，所述嘴唇轮廓包括若干嘴唇轮廓点。

3.如权利要求2所述的一种基于视频分析的说话识别方法，其特征在于：所述根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果具体为：将脸部关键点集合中位于脸部两侧最高位置处的脸部关键点之间的距离作为第一距离，将嘴唇轮廓中两侧嘴角处对应的嘴唇轮廓点之间的距离作为第二距离，将两侧嘴角上部的嘴唇轮廓作为上嘴唇轮廓，将两侧嘴角下部的嘴唇轮廓作为下嘴唇轮廓，将上嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为上嘴唇轮廓外圈中心点，将下嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为下嘴唇轮廓外圈中心点，将上嘴唇轮廓外圈中心点与下嘴唇轮廓外圈中心点的距离作为第三距离，将上嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点与对应的下嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点之间的距离作为第四距离和第五距离，根据预设函数、第一距离、第二距离、第三距离、第四距离以及第五距离计算出嘴唇开合横纵比和嘴唇张开程度。

4.如权利要求1所述的一种基于视频分析的说话识别方法，其特征在于：所述说话识别具体为：将不同特征结果中嘴唇开合横纵比和嘴唇张开程度输入至预设说话识别模型中进行识别，所述预设说话模型根据嘴唇开合横纵比和嘴唇张开程度判断待识别人物的说话状态，得到与待识别人物对应的说话识别结果，所述预设说话识别模型为经过预先采集的样本数据进行训练的模型，所述样本数据包括预设嘴唇开合横纵比、预设嘴唇张开程度以及对应的说话状态。

5.如权利要求1所述的一种基于视频分析的说话识别方法，其特征在于：每一特征列表中包括六帧最终人脸检测框对应的特征结果。

6.如权利要求1所述的一种基于视频分析的说话识别方法，其特征在于：所述图像预处理具体为：对所述目标视频数据中每一视频帧进行尺寸裁剪，并将经过尺寸裁剪的视频帧进行灰度处理，转换为灰度图，将灰度图作为输入图像。

7.如权利要求1所述的一种基于视频分析的说话识别方法，其特征在于：所述人脸筛选具体为：计算每个输入图像对应的人脸检测框的面积，得到人脸检测框面积值，判断人脸检测框面积值是否满足预设人脸筛选规则，若满足，将对应的人脸检测框作为最终人脸检测框。

8.一种基于视频分析的说话识别系统，其特征在于：包括：

9.一种电子设备，其特征在于包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-7中任意一项所述的一种基于视频分析的说话识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行权利要求1-7中任意一项所述的一种基于视频分析的说话识别方法。