CN110309799B

CN110309799B - 基于摄像头的说话判断方法

Info

Publication number: CN110309799B
Application number: CN201910604180.7A
Authority: CN
Inventors: 高岚; 陈明荣; 邹军
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2022-02-08
Anticipated expiration: 2039-07-05
Also published as: CN110309799A

Abstract

本发明涉及互联网多媒体技术领域，公开了一种基于摄像头的说话判断方法，用以提高说话判断的精确度。本发明先通过摄像头连续获取用户图像，调用预先训练完毕的人脸关键点检测模型对图像进行检测识别，实时得到各个用户图像的用户人脸的关键点坐标集；再基于关键点坐标集得到数秒内嘴部上下坐标欧式距离的一组离散数据以及嘴部的左右宽度；再将上述得到的离散数据映射到频域进行分析计算，计算出离散数据落在不同数值区间的概率值；最后通过分析各个数值区间的概率值，得出人是否在说话。本发明适用于电视语音交互。

Description

基于摄像头的说话判断方法

技术领域

本发明涉及图像处理技术领域，特别涉及基于摄像头的说话判断方法。

背景技术

随着近几年国家大力发展AI技术，AI基本上渗透了各行各业，电视领域也不例外。相比传统的电视技术，AI为电视领域技术的发展提供了突破口，使得电视可以和用户之间进行智能交互，让电视能够更懂用户。

智能交互包含语音、图像甚至是体感的交互，目前电视上使用最多的交互还是语音交互，由于目前电视本身存在的硬件计算能力限制，不可能电视随时都要对用户语音进行处理，所以目前的技术都需要每次语音交互前都用上唤醒词。如果加上图像技术，电视‘观察’用户是否在说话，就可以避免用户使用唤醒词，电视也更加智能。

而判断用户是否在说话，目前的技术仍然仅在判断用户是否张嘴这种简单的判断上，忽视了用户可能在大笑、打哈欠甚至是吃东西。这种简单的判断会增加电视的误判，影响用户的AI体验。

发明内容

本发明要解决的技术问题是：提供一种基于摄像头的说话判断方法，用以提高说话判断的精确度。

为解决上述问题，本发明采用的技术方案是：基于摄像头的说话判断方法，包括以下步骤：

通过摄像头连续获取用户图像，调用预先训练完毕的人脸关键点检测模型对图像进行检测识别，实时得到各个用户图像的用户人脸的关键点坐标集；

从关键点坐标集中取出上嘴唇和下嘴唇的关键点坐标，并计算两个坐标的欧式距离，将距离数据存入缓存中，从而得到数秒内嘴部上下坐标欧式距离的一组离散数据；

基于关键点坐标集中的左右关键点坐标计算嘴部的左右宽度；

将上述得到的离散数据映射到频域进行分析计算，包括：首先，以用户嘴部宽度设定一个判定张嘴阈值，获取这组离散数据中用户可能正在说话的某段数据，这段数据以从前往后和从后往前两种序列方向选取离散数据组中第一个超出张嘴阈值的数值作为开始和结束；然后基于张嘴阈值构建多个数值区间，计算这段离散数据落在不同数值区间的概率值；

通过分析各个数值区间的概率值，得出人是否在说话。

具体的，所述预先训练完毕的人脸关键点检测模型为卷积神经网络，基础网络可采用基于tensorflow的mobilenet神经网络，该神经网络的训练过程如下：

A、针对神经网络输入特点，收集预设数量的人脸图像样本；

B、对每一张人脸图像样本，提取出人脸关键点信息以及图像样本本身的图像大小和图像格式等信息；

C、针对上述两步获取的图像样本及其样本信息，将其生成tensorflow支持的tfrecord格式的训练文件和验证文件，训练文件和验证文件的图像不同，但其存储的图像格式和图像信息格式相同；

D、利用训练文件对模型进行训练，以生成预先确定的人脸关键点检测模型，并利用验证文件对生成的人脸关键点检测模型进行验证；

E、若模型loss下降到预设阈值，或者训练步数达到一定的步数，则训练完成；

F、若模型loss未下降到预设阈值，则增加有人脸图像样本，或者调试模型参数，重复执行上述步骤A、B、C、D、E，直到训练完成。

进一步的，本发明可以以用户嘴部宽度的0.1倍作为判定张嘴阈值，记张嘴阈值L，基于张嘴阈值构建的数值区间可依次包括(0，0.5L]、(0.5L，L]、(L，2L]、(2L，3L]、(3L，4L]、(4L，最大张嘴值]六个区间。

进一步的，所述通过分析各个数值区间的概率值，得出人是否在说话具体包括：

若离散数据在第1个数值区间的概率在0.5以上，则判定为吃东西；若离散数据在第5、6个数值区间其中一个概率在50％以上，则判定为开口笑或打哈欠；若前两种情况都没发生，则判为说话。

本发明的有益效果是：本发明在充分研究人的各种张嘴行为的规律上，通过分析时间序列上，嘴巴张合的频率和张合的大小来判断人是否在说话，能更加准确的识别用户是否在语音交互，减少电视对用户非语音交互时的误判，使电视更加的智能，进一步提升了用户体验。且利用电视端侧能力进行开发，在实现准确性、实时性的同时更保护了用户的隐私。

附图说明

图1为一种基于电视摄像头的说话判断方法的计算流程图。

具体实施方式

为了解决在目前的图像技术中，对说话的判断往往仅判断人的嘴巴是否张合，张开即说话，忽视了人张嘴有可能是笑，吃东西，甚至是打哈欠。本发明公开的一种基于摄像头的说话判断方法是一种在充分研究人的各种张嘴行为的规律上，通过分析时间序列上，嘴巴张合的频率和张合的大小来判断人是否在说话，可用于电视判断用户是否在进行语音交互。本发明以电视说话判断为例，图1为该方法的流程图，本发明方法具体包括以下步骤：

系统通过电视机上的摄像头获取用户人像画面，将用户画面送入到处理程序中进行分析。

调用预先训练完毕的人脸关键点检测模型对用户画面进行检测识别，实时得到用户人脸的关键点坐标集。本发明中，预先训练完毕的人脸关键点检测模型可为卷积神经网络，基础网络采用基于tensorflow的mobilenet神经网络。该神经网络的训练过程如下：

A、针对神经网络输入特点，收集预设数量的人脸图像样本；

得到嘴部关键点后，计算上嘴唇和下嘴唇坐标的欧式距离，将距离数据存入缓存中。经过连续多帧的图像处理计算，便得到与时间序列有关的嘴部上下坐标欧式距离的一组离散数据。

将上述得到的离散数据，处理成连续数据，分析该连续数据中用户说话与未说话时的状态，便可以看出在一段时间内，说话的时候数据中会有多个峰值，而用户在大笑和打哈欠的时候，数据中的峰值只有一两个，吃东西的时候峰值基本会是说话时候峰值的两倍以上。

在这里，考虑了用户观看电视的远近，当用户距离电视较近时，嘴部上下坐标的欧式距离相比用户距离电视较远时得到的欧式距离要大一些。为了消除用户距离远近对判断的影响，采用每一帧用户自己的嘴部左右宽度做为嘴部上下坐标的欧式距离的相对基准。

根据以上的特征，将上述得到的离散数据映射到频域进行分析计算：首先，可以以用户嘴部宽度距离的0.1倍作为判定张嘴阈值L，获取这组离散数据中用户可能正在说话的某段数据，这段数据以从前往后和从后往前两种序列方向选取离散数据组中第一个超出阈值的数值作为开始和结束；然后以(0，0.5L]、(0.5L，L]、(L，2L]、(2L，3L]、(3L，4L]、(4L，最大张嘴值]六个值作为数值区间；计算这段离散数据落在不同数值区间的概率值。

分析上述6个数值区间的概率值：若离散数据在第1个数值区间的概率在某个阈值以上，则判定为吃东西；若离散数据在第5、6个数值区间其中一个概率在某个阈值以上，则判定为开口笑或打哈欠；若前两种情况都没发生，则判为说话。

下面通过实施例对本发明做进一步说明。

参考图1，图1为一种基于电视摄像头的说话判断方法的计算流程图。

实施例基于电视摄像头的说话判断方法包括以下步骤：

1、系统持续通过电视机上的摄像头获取720P(1280*720)的用户图像，调用预先训练完毕的人脸关键点检测模型对图像进行检测识别，实时得到用户人脸的106个关键点坐标。

实施例中，预先训练完毕的人脸关键点检测模型为卷积神经网络，基础网络采用基于tensorflow的mobilenet神经网络。该神经网络的训练过程如下：

A、针对神经网络输入特点，收集整理约10w张人脸图像样本，统一设置成224*224*3的图像大小；

B、对每一张人脸图像样本，通过软件和人工处理提取出人脸106个关键点信息；

C、针对上述两步获取的图像样本及其样本信息，将其生成tensorflow支持的tfrecord格式的训练文件和验证文件，训练文件和验证文件的图像不同，但其存储的图像格式和图像信息格式相同。

E、若模型loss下降到0.1，或者训练步数达到一定的步数(2万步)，则训练完成；

F、若模型loss未下降到0.1，则增加有人脸图像样本，或者调试模型参数，重复执行上述步骤A、B、C、D、E，直到训练完成

2、106个关键点中第97、104分别为上、下嘴唇关键点坐标，从106个关键点中，取上嘴唇第97和下嘴唇第104两个嘴部关键点坐标，计算两个坐标的欧式距离，将距离数据存入缓存中。经过连续多帧的图像处理计算，便可得到数秒内嘴部上下坐标欧式距离的一组离散数据。

3、106个关键点中第86、91分别为嘴部两端的关键点坐标，选取的嘴部左右宽度，即嘴部的第86和第91两个关键点坐标的欧式距离，做为嘴部上下坐标的欧式距离的相对基准。

4、将上述得到的离散数据映射到频域进行分析计算：首先，以用户嘴部宽度距离的0.1倍作为判定张嘴阈值L，获取这组离散数据中用户可能正在说话的某段数据，这段数据以从前往后和从后往前两种序列方向选取离散数据组中第一个超出阈值的数值作为开始和结束；然后以(0，0.5L]、(0.5L，L]、(L，2L]、(2L，3L]、(3L，4L]、(4L，最大张嘴值]六个值作为数值区间；计算这段离散数据落在不同数值区间的概率值。

5、分析6个数值区间的概率值：若离散数据在第1个数值区间的概率在0.5以上，则判定为吃东西；若离散数据在第5、6个数值区间其中一个概率在50％以上，则判定为开口笑或打哈欠；若前两种情况都没发生，则判为说话。

Claims

1.基于摄像头的说话判断方法，其特征在于，包括如下步骤：

通过分析各个数值区间的概率值，得出人是否在说话。

2.如权利要求1所述基于摄像头的说话判断方法，其特征在于，所述预先训练完毕的人脸关键点检测模型为卷积神经网络，基础网络采用基于tensorflow的mobilenet神经网络，该神经网络的训练过程如下：

A、针对神经网络输入特点，收集预设数量的人脸图像样本；

B、对每一张人脸图像样本，提取出人脸关键点信息以及图像样本本身的图像大小和图像格式信息；

C、针对上述两步获取的图像样本及其样本信息，将其生成tensorflow支持的tfrecord格式的训练文件和验证文件；

3.如权利要求1所述基于摄像头的说话判断方法，其特征在于，以用户嘴部宽度的0.1倍作为判定张嘴阈值，记张嘴阈值L，基于张嘴阈值构建的数值区间依次包括(0，0.5L]、(0.5L，L]、(L，2L]、(2L，3L]、(3L，4L]、(4L，最大张嘴值]六个区间。

4.如权利要求3所述基于摄像头的说话判断方法，其特征在于，所述通过分析各个数值区间的概率值，得出人是否在说话具体包括：