CN111666820A

CN111666820A - 一种讲话状态识别方法、装置、存储介质及终端

Info

Publication number: CN111666820A
Application number: CN202010392740.XA
Authority: CN
Inventors: 王宁; 苗鱼; 骆新; 赵玺
Original assignee: Shineon Technology Co ltd
Current assignee: Shineon Technology Co ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-15
Anticipated expiration: 2040-05-11
Also published as: CN111666820B

Abstract

本发明公开了一种讲话状态识别方法、装置、存储介质及终端，所述方法包括：获取目标人体在连续时刻的多个视频图像帧；将所述连续时刻的多个视频图像帧输入初始化后的人脸检测器中生成多个人脸图像；提取所述多个人脸图像中的嘴巴区域数据；将所述嘴巴区域数据输入预先创建的嘴巴状态判别函数模型中，生成嘴巴区域的变化特征值；基于所述变化特征值识别讲话状态。因此，采用本申请实施例，能够通过分析视频文件自动判断视频中的目标人物是否在讲话，从而解决了在大量教学视频资源中自动提取关键点信息数据这一大难题，提高了数据处理的自动化程度和效率。

Description

一种讲话状态识别方法、装置、存储介质及终端

技术领域

本发明涉及图像识别技术领域，特别涉及一种讲话状态识别方法、装置、存储介质及终端。

背景技术

随着教育信息化2.0时代的到来，在课堂上利用人工智能、大数据分析等新兴技术将会驱动教学效率，进而提升教学质量。例如很多教育录播厂商都提出了基于AI分析的贯穿于教、学、研的综合教学评价系统，通过实现深度的数据挖掘与模型构建并经过多维度数据关联后，将课程背后真正反映教学意义的数据信息呈现出来，帮助学校构建数据驱动教学的生态圈。

目前厂商提供的综合教学评价系统在上课期间会录制大量的关于老师、学生、PPT以及板书等视频文件，为了更加高效的建立多维度数据关联，需要提取一些关键点信息，比如客户更关注在教师讲课期间学生的专注度、活跃度，参与度等学生行为信息，或者通过分析老师讲话的频率来分析教师的讲课类型如：讲授型、互动型等。目前在提取关键点信息时人们通过采集、存储对应的音频信号，然后手动提取教师讲话的时间点。由于这种关键点信息提取方式需要大量人力、物力和财力，那如何自动高效提取教师上课期间讲话的关键点成为一个值得关注的重要话题。

发明内容

本申请实施例提供了一种讲话状态识别方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种讲话状态识别方法，所述方法包括：

获取目标人体在连续时刻的多个视频图像帧；

将所述连续时刻的多个视频图像帧输入初始化后的人脸检测器中生成多个人脸图像；

提取所述多个人脸图像中的嘴巴区域数据；

将所述嘴巴区域数据输入预先创建的嘴巴状态判别函数模型中，生成嘴巴区域的变化特征值；

基于所述变化特征值识别讲话状态。

可选的，所述获取连续时刻的多个视频图像帧之前，还包括：

接收人脸检测器初始化指令，初始化人脸检测器。

可选的，所述接收人脸检测器初始化指令，初始化人脸检测器之前，还包括：

采集连续时刻的多个人脸图像中的嘴巴区域；

获取所述嘴巴区域的嘴唇位置坐标点；

基于所述嘴唇位置坐标点计算嘴唇内外区域面积以及其变化规律；

根据所述嘴唇内外区域面积以及其变化规律创建嘴巴状态判别函数模型。

可选的，所述基于所述变化特征值识别讲话状态，包括：

当所述变化特征值在预设区间阈值内时，确定为讲话状态。

可选的，所述根据所述嘴唇内外区域面积以及其变化规律创建嘴巴状态判别函数模型，包括：

采用支持向量机对所述嘴唇内外区域面积以及其变化规律训练，生成训练后的数据参数；

采用训练后的数据参数创建嘴巴状态判别函数模型。

第二方面，本申请实施例提供了一种讲话状态识别装置，所述装置包括：

图像帧获取模块，用于获取目标人体在连续时刻的多个视频图像帧；

人脸图像生成模块，用于将所述连续时刻的多个视频图像帧输入初始化后的人脸检测器中生成多个人脸图像；

嘴巴区域数据提取模块，用于提取所述多个人脸图像中的嘴巴区域数据；

变化特征值生成模块，用于将所述嘴巴区域数据输入预先创建的嘴巴状态判别函数模型中，生成嘴巴区域的变化特征值；

讲话状态识别模块，用于基于所述变化特征值识别讲话状态。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，用户终端首先获取目标人体在连续时刻的多个视频图像帧，再将所述连续时刻的多个视频图像帧输入初始化后的人脸检测器中生成多个人脸图像，然后提取所述多个人脸图像中的嘴巴区域数据，再将所述嘴巴区域数据输入预先创建的嘴巴状态判别函数模型中，生成嘴巴区域的变化特征值，最后基于所述变化特征值识别讲话状态。由于本申请通过利用嘴巴状态判别函数模型生成目标人体嘴巴的变化特征值，根据变化特征值描述嘴巴区域的嘴唇变化特征，从而解决了在大量教学视频资源中自动提取关键点信息数据这一大难题，提高了数据处理的自动化程度和效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种讲话状态识别方法的流程示意图；

图2是本申请实施例提供的一种讲话识别系统示例图；

图3是本申请实施例提供的一种讲话识别详细流程图；

图4是本申请实施例提供的另一种讲话状态识别方法的流程示意图；

图5是本申请实施例提供的一种讲话状态识别装置的装置示意图；

图6是本申请实施例提供的一种终端的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

到目前为止，对于讲话状态识别，目前厂商提供的综合教学评价系统在上课期间会录制大量的关于老师、学生、PPT以及板书等视频文件，为了更加高效的建立多维度数据关联，需要提取一些关键点信息，比如客户更关注在教师讲课期间学生的专注度、活跃度，参与度等学生行为信息，或者通过分析老师讲话的频率来分析教师的讲课类型如：讲授型、互动型等。目前在提取关键点信息时人们通过采集、存储对应的音频信号，然后手动提取教师讲话的时间点。由于这种关键点信息提取方式需要大量人力、物力和财力，那如何自动高效提取教师上课期间讲话的关键点成为一个值得关注的重要话题。为此，本申请提供了一种讲话状态识别方法、装置、存储介质及终端，以解决上述相关技术问题中存在的问题。本申请提供的技术方案中，由于本申请通过利用嘴巴状态判别函数模型生成目标人体嘴巴的变化特征值，根据变化特征值描述嘴巴区域的嘴唇变化特征，从而解决了在大量教学视频资源中自动提取关键点信息数据这一大难题，提高了数据处理的自动化程度和效率，下面采用示例性的实施例进行详细说明。

下面将结合附图1-附图4，对本申请实施例提供的讲话状态识别方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的讲话状态识别装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。其中，本申请实施例中的讲话状态识别装置可以为用户终端，包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、5G网络或未来演进网络中的终端设备等。

请参见图1，为本申请实施例提供了一种讲话状态识别方法的流程示意图。如图1所示，本申请实施例的所述方法可以包括以下步骤：

S101，获取目标人体在连续时刻的多个视频图像帧；

其中，目标人体指某一个人体对象，连续时刻是指时间自变量在其定义的范围内，除若干不连续点以外均是连续的，且信号幅值在自变量的连续值上都有定义的信号。图像帧是组成视频的最小单位，采用摄像头录取的视频由若干帧图像帧组成。

在一种可行的实现方式中，当对目标人体进行讲话状态识别时之前，需要建立识别处理流程并初始化人脸检测器，在建立识别流程时，首先采集连续时刻的多个人脸图像中的嘴巴区域，再获取嘴巴区域的嘴唇位置坐标点，然后基于嘴唇位置坐标点计算嘴唇内外区域面积以及其变化规律，最后根据嘴唇内外区域面积以及其变化规律创建嘴巴状态判别函数模型。当嘴巴状态判别函数模型创建结束后，用户终端通过摄像头针对目标人体采集连续时刻的多个图像帧。

进一步地，在嘴巴状态判别函数模型创建时，在检测到人脸的基础上采集人脸上关键特征点(即五官的关键点位置)，根据嘴唇上的关键特征点位置信息，分析每帧嘴唇嘴形的变化，统计分析一定时间内嘴形变化规律，并通过不同景别、不同年龄、不同性别的视频图像进行测试，调试优化分析函数，最后得出一个嘴巴状态判别函数模型的判别方法。

S102，将所述连续时刻的多个视频图像帧输入初始化后的人脸检测器中生成多个人脸图像；

其中，人脸检测器是能够检测出图像中人脸区域以及五官位置点的算法模型。人脸图像是人脸的面部图像。此时检测到的面部图像可以包括多种面部信息，例如人眼区域、鼻子区域、嘴巴区域等。嘴巴区域又包括内嘴唇区域和外嘴唇区域。

在一种可行的实现方式中，当获取到针对某一人体在连续时刻的多个图像帧时，将某一人体在连续时刻的多个图像帧通过有线或者无线的方式发送至初始化后的人脸检测器，当初始化后的人脸检测器接收到某一人体在连续时刻的多个图像帧时，通过预先设定的算法检测程序模块对某一人体在连续时刻的多个图像帧进行识别，识别结束后生成连续时刻上不同时刻对应的人脸图像和人脸图像中五官的关键点位置，并对五官的关键点位置进行标注。

S103，提取所述多个人脸图像中的嘴巴区域数据；

其中，嘴巴区域数据至少包括嘴巴区域内外嘴唇的区域面积。

在一种可行的实现方式中，当利用初始化后的人脸检测器识别结束后生成连续时刻上不同时刻对应的人脸图像和人脸图像中五官的关键点位置，并对五官的关键点位置进行标注完成后根据标注的特征点进行嘴唇区域的提取，提取到连续时刻上不同时刻对应的嘴巴区域内外嘴唇的区域面积。

S104，将所述嘴巴区域数据输入预先创建的嘴巴状态判别函数模型中，生成嘴巴区域的变化特征值；

其中，嘴巴状态判别函数模型是根据内外嘴唇的区域面积及其变化特征计算生成嘴唇状态特征值的函数模型，，变化特征值是连续时刻的多个嘴巴区域经过嘴巴状态判别函数模型处理后生成的多个特征值。

在本申请实施例中，当提取到连续时刻上不同时刻对应的嘴巴区域内外嘴唇的区域面积后，将连续时刻的多个嘴巴区域对应的内外嘴唇区域面积依次输入预先创建的嘴巴状态判别函数模型中进行处理，处理结束后生成连续时刻的多个嘴巴区域对应的特征值，即生成连续时刻的变化特征值。

例如图2所示，图2是本申请实施例提供的的讲话识别系统示例图，该讲话识别系统包括预处理模块、人脸检测模块、嘴唇检测模块以及嘴唇变化分析模块，其中嘴唇变化分析模块包括嘴唇区域数据采集和嘴唇形状变化分析。在预处理模块中，需要完成人脸检测分类器的初始化和视频图像的简单处理工作。在人脸检测模块中，通过捕获视频帧，在目标图像上进行人脸检测，获取人脸区域和五官的关键点位置。在嘴唇检测模块中，通过在人脸检测的基础上，根据标注的特征点进行嘴唇区域的提取。嘴形变化分析判断模块，根据提取到的嘴唇区域变化特征，判断视频中人物目标是否在讲话。

S105，基于所述变化特征值识别讲话状态。

在本申请实施例中，当嘴巴区域在连续时刻的变化特征值生成后，当所述变化特征值在预设区间阈值内时，确定为讲话状态。其中预设区域阈值大于等于第一预设阈值且小于等于第二预设阈值，第二预设阈值大于第一预设阈值。例如表1所示。需要说明的是，阈值可根据实际情况具体设定，此处不做限定。

例如图3所示，在开始识别讲话状态时，首先获取针对目标人体在连续时刻的视频图像帧，然后进行预处理(即完成人脸检测分类器的初始化和视频图像的简单处理工作)，再获取一帧图像输入初始化的人脸检测分类器中进行人脸检测，当检测到人脸图像时，提取人脸图像中的嘴唇区域，将嘴唇区域输入预先创建的嘴巴判断函数中，处理后生成嘴唇区域对应的特征值，当特征值不再区间阈值时，获取下一帧图像重新检测人脸图像，提取嘴唇区域以及输入嘴巴判断函数中生成特征值，当多帧图像中的嘴唇区域构成的变化特征值在预设区间阈值后，确定目标人体正在讲话，最后判断是否是最后一帧图像，当是最后一帧图像时，结束讲话状态识别。

请参见图4，为本申请实施例提供的一种讲话状态识别方法的流程示意图。本实施例以讲话状态识别方法应用于用户终端中来举例说明。该讲话状态识别方法可以包括以下步骤：

S201，采集连续时刻的多个人脸图像中的嘴巴区域；

S202，获取所述嘴巴区域的嘴唇位置坐标点；

S203，基于所述嘴唇位置坐标点计算嘴唇内外区域面积以及其变化规律；

S204，根据所述嘴唇内外区域面积以及其变化规律创建嘴巴状态判别函数模型；

S205，接收人脸检测器初始化指令，初始化人脸检测器；

S206，获取目标人体在连续时刻的多个视频图像帧；

S207，将所述连续时刻的多个视频图像帧输入初始化后的人脸检测器中生成多个人脸图像；

S208，提取所述多个人脸图像中的嘴巴区域数据；

S209，将所述嘴巴区域数据输入预先创建的嘴巴状态判别函数模型中，生成嘴巴区域的变化特征值；

S210，当所述变化特征值在预设区间阈值内时，确定为讲话状态。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图5，其示出了本发明一个示例性实施例提供的讲话状态识别装置的结构示意图。该讲话状态识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括图像帧获取模块10、人脸图像生成模块20、嘴巴区域数据提取模块30、变化特征值生成模块40和讲话状态识别模块50。

图像帧获取模块10，用于获取目标人体在连续时刻的多个视频图像帧；

人脸图像生成模块20，用于将所述连续时刻的多个视频图像帧输入初始化后的人脸检测器中生成多个人脸图像；

嘴巴区域数据提取模块30，用于提取所述多个人脸图像中的嘴巴区域数据；

变化特征值生成模块40，用于将所述嘴巴区域数据输入预先创建的嘴巴状态判别函数模型中，生成嘴巴区域数据的变化特征值；

讲话状态识别模块50，用于基于所述变化特征值识别讲话状态。

需要说明的是，上述实施例提供的讲话状态识别装置在执行讲话状态识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的讲话状态识别装置与讲话状态识别方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的讲话状态识别方法。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例所述的讲话状态识别方法。

请参见图6，为本申请实施例提供了一种终端的结构示意图。如图6所示，所述终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及讲话状态识别应用程序。

在图6所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的讲话状态识别应用程序，并具体执行以下操作：

获取目标人体在连续时刻的多个视频图像帧；

提取所述多个人脸图像中的嘴巴区域数据；

基于所述变化特征值识别讲话状态。

在一个实施例中，所述处理器1001在执行所述获取连续时刻的多个视频图像帧之前时，还执行以下操作：

接收人脸检测器初始化指令，初始化人脸检测器。

在一个实施例中，所述处理器1001在执行所述接收人脸检测器初始化指令，初始化人脸检测器之前时，还执行以下操作：

采集连续时刻的多个人脸图像中的嘴巴区域；

获取所述嘴巴区域的嘴唇位置坐标点；

在一个实施例中，所述处理器1001在执行所述基于所述变化特征值识别讲话状态时，具体执行以下操作：

当所述变化特征值在预设区间阈值内时，确定为讲话状态。

在一个实施例中，所述处理器1001在执行所述根据所述嘴唇内外区域面积以及其变化规律创建嘴巴状态判别函数模型时，具体执行以下操作：

采用训练后的数据参数创建嘴巴状态判别函数模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种讲话状态识别方法，其特征在于，所述方法包括：

获取目标人体在连续时刻的多个视频图像帧；

提取所述多个人脸图像中的嘴巴区域数据；

基于所述变化特征值识别讲话状态。

2.根据权利要求1所述的方法，其特征在于，所述获取连续时刻的多个视频图像帧之前，还包括：

接收人脸检测器初始化指令，初始化人脸检测器。

3.根据权利要求1或2所述的方法，其特征在于，所述接收人脸检测器初始化指令，初始化人脸检测器之前，还包括：

采集连续时刻的多个人脸图像中的嘴巴区域；

获取所述嘴巴区域的嘴唇位置坐标点；

4.根据权利要求1所述的方法，其特征在于，所述基于所述变化特征值识别讲话状态，包括：

当所述变化特征值在预设区间阈值内时，确定为讲话状态。

5.根据权利要求3所述的方法，其特征在于，所述根据所述嘴唇内外区域面积以及其变化规律创建嘴巴状态判别函数模型，包括：

采用训练后的数据参数创建嘴巴状态判别函数模型。

6.一种讲话状态识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

检测器初始化模块，用于接收人脸检测器初始化指令，初始化人脸检测器。

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

嘴巴区域采集模块，用于采集连续时刻的多个人脸图像中的嘴巴区域；

坐标点获取模块，用于获取所述嘴巴区域的嘴唇位置坐标点；

区域面积和变化规律计算模块，用于基于所述嘴唇位置坐标点计算嘴唇内外区域面积以及其变化规律；

嘴巴状态判别函数模型创建模块，用于根据所述嘴唇内外区域面积以及其变化规律创建嘴巴状态判别函数模型。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～5任意一项的方法步骤。

10.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～5任意一项的方法步骤。