CN113177531A - 一种基于视频分析的说话识别方法、系统、设备及介质 - Google Patents

一种基于视频分析的说话识别方法、系统、设备及介质 Download PDF

Info

Publication number
CN113177531A
CN113177531A CN202110587534.9A CN202110587534A CN113177531A CN 113177531 A CN113177531 A CN 113177531A CN 202110587534 A CN202110587534 A CN 202110587534A CN 113177531 A CN113177531 A CN 113177531A
Authority
CN
China
Prior art keywords
face detection
lip
video
speech recognition
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110587534.9A
Other languages
English (en)
Other versions
CN113177531B (zh
Inventor
黄欢
尹士朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grg Intelligent Technology Solution Co ltd
GRG Banking Equipment Co Ltd
Original Assignee
Grg Intelligent Technology Solution Co ltd
GRG Banking Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grg Intelligent Technology Solution Co ltd, GRG Banking Equipment Co Ltd filed Critical Grg Intelligent Technology Solution Co ltd
Priority to CN202110587534.9A priority Critical patent/CN113177531B/zh
Publication of CN113177531A publication Critical patent/CN113177531A/zh
Application granted granted Critical
Publication of CN113177531B publication Critical patent/CN113177531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于视频分析的说话识别方法,包括对目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像;对所有输入图像进行人脸检测处理,得到人脸检测框;对所有输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为这一帧的最终人脸检测框;根据最终人脸检测框中嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,将含有若干特征结果输入至预设说话识别模型中进行识别,得到与待识别人物对应的说话识别结果。本发明的一种基于视频分析的说话识别方法,使得到的说话识别结果更加精准,而且可以适应待识别人物说话时的不同形态。

Description

一种基于视频分析的说话识别方法、系统、设备及介质
技术领域
本发明涉及智能交互领域,尤其涉及一种基于视频分析的说话识别方法、系统、设备及介质。
背景技术
在智能交互领域,在启动智能交互系统时,需要先判断待识别人物是否说话,当待识别人物处于说话状态时,智能交互系统启动拾音功能并执行后续的语音交互功能。目前智能交互领域对于待识别人物是否处于说话状态的判断为基于唇部特征点结合简单的阈值分析来判断是否说话或通过音频分析再结合唇部特征分析来判断是否说话。上述的说话识别过程前者阈值分析无法做到模型的鲁棒性,不适用于复杂多变的场景;后者则需要借助音频信息进一步辅助判断,显得不够智能化。因此传统的智能交互系统中对于视频中人物的说话识别存在一定局限性而且不够智能化。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于视频分析的说话识别方法,其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。
本发明的目的之二在于提供一种基于视频分析的说话识别系统,其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。
本发明的目的之三在于提供一种电子设备,其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。
本发明的目的之四在于提供一种计算机可读存储介质,其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。
本发明的目的之一采用以下技术方案实现:
一种基于视频分析的说话识别方法,所述方法应用于智能交互系统中,包括以下步骤:
读取视频数据,读取智能交互系统中摄像头采集到的目标视频数据;
图像预处理,对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像;
人脸检测,对每一视频帧对应的输入图像进行人脸检测处理,得到与每一输入图像对应的人脸检测框;
人脸筛选,对每一视频帧对应的输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框;
关键点提取,对每一最终人脸检测框进行关键点提取处理,提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合;
生成特征列表,根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,并将所有特征结果存储至预先设置的特征列表中;
说话识别,将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别,得到与待识别人物对应的说话识别结果。
进一步地,所述特征结果包括嘴唇开合横纵比和嘴唇张开程度,所述嘴唇轮廓包括若干嘴唇轮廓点。
进一步地,所述根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果具体为:将脸部关键点集合中位于脸部两侧最高位置处的脸部关键点之间的距离作为第一距离,将两侧嘴角上部的嘴唇轮廓作为上嘴唇轮廓,将两侧嘴角下部的嘴唇轮廓作为下嘴唇轮廓,将上嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为上嘴唇轮廓外圈中心点,将下嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为下嘴唇轮廓外圈中心点,将上嘴唇轮廓外圈中心点与下嘴唇轮廓外圈中心点的距离作为第三距离,将上嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点与对应的下嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点之间的距离作为第四距离和第五距离,根据预设函数、第一距离、第二距离、第三距离、第四距离以及第五距离计算出嘴唇开合横纵比和嘴唇张开程度。
进一步地,所述说话识别具体为:将不同特征结果中嘴唇开合横纵比和嘴唇张开程度输入至预设说话识别模型中进行识别,所述预设说话模型根据嘴唇开合横纵比和嘴唇张开程度判断待识别人物的说话状态,得到与待识别人物对应的说话识别结果,所述预设说话识别模型为经过预先采集的样本数据进行训练的模型,所述样本数据包括预设嘴唇开合横纵比、预设嘴唇张开程度以及对应的说话状态。
进一步地,每一特征列表中包括六帧最终人脸检测框对应的特征结果。
进一步地,所述图像预处理具体为:对所述目标视频数据中每一视频帧进行尺寸裁剪,并将经过尺寸裁剪的视频帧进行灰度处理,转换为灰度图,将灰度图作为输入图像。
进一步地,所述人脸筛选具体为:计算每个输入图像对应的人脸检测框的面积,得到人脸检测框面积值,判断人脸检测框面积值是否满足预设人脸筛选规则,若满足,将对应的人脸检测框作为最终人脸检测框。
本发明的目的之二采用以下技术方案实现:
一种基于视频分析的说话识别系统,包括:
视频流读入模块,所述视频流读入模块用于读取智能交互系统中摄像头采集到的目标视频数据;
图像预处理模块,所述图像预处理模块用于对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像;
人脸检测模块,所述人脸检测模块用于对每一视频帧对应的输入图像进行人脸检测处理,得到与每一输入图像对应的人脸检测框;
人脸筛选模块,所述人脸筛选模块用于对每一视频帧对应的输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框;
关键点提取模块,所述关键点提取模块用于对每一最终人脸检测框进行关键点提取处理,提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合;
嘴唇特征计算模块,所述嘴唇特征计算模块用于根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,并将所有特征结果存储至预先设置的特征列表中;
说话识别模块,所述说话识别模块用于将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别,得到与待识别人物对应的说话识别结果。
本发明的目的之三采用以下技术方案实现:
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本申请中所述的一种基于视频分析的说话识别方法。
本发明的目的之四采用以下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本申请中所述的一种基于视频分析的说话识别方法。
相比现有技术,本发明的有益效果在于:本申请中的一种基于视频分析的说话识别方法,通过读取智能交互系统中摄像头采集到的目标视频数据;对目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像;对每一视频帧对应的输入图像进行人脸检测处理,得到与每一输入图像对应的人脸检测框;对每一视频帧对应的输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框;对每一最终人脸检测框进行关键点提取处理,提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合;根据嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,并将所有特征结果存储至预先设置的特征列表中;将含有若干特征结果的特征列表输入至预设说话识别模型中进行识别,得到与目标视频数据中的人物对应的说话识别结果,整个过程根据特征向量以及预设说话识别模型进行说话识别,无需结合音频信息,整个过程还结合了脸部关键点信息,使得到的说话识别结果更加精准,而且可以适应待识别人物说话时的不同形态。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种基于视频分析的说话识别方法的流程示意图;
图2为本发明的一种基于视频分析的说话识别方法中嘴唇轮廓和脸部关键点集合的示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
如图1所示,本实施例中的一种基于视频分析的说话识别方法,包括以下步骤:
读取视频数据,读取智能交互系统中摄像头采集到的目标视频数据。
图像预处理,对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像。具体为:对所述目标视频数据中每一视频帧进行尺寸裁剪,并将经过尺寸裁剪的视频帧进行灰度处理,转换为灰度图,将灰度图作为输入图像。
人脸检测,对所有输入图像进行人脸检测处理,得到与每一输入图像对应的人脸检测框。
人脸筛选,对所有输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框。具体为:计算每个输入图像对应的人脸检测框的面积,得到人脸检测框面积值,判断人脸检测框面积值是否满足预设人脸筛选规则,若满足,将对应的人脸检测框作为最终人脸检测框。在本实施例中,将人脸检测框面积值最大的人脸检测框作为最终人脸检测框。
关键点提取,对每一最终人脸检测框进行关键点提取处理,提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合。
生成特征列表,根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,并将所有特征结果存储至预先设置的特征列表中。在本实施例中,所述特征结果包括嘴唇开合横纵比和嘴唇张开程度,所述嘴唇轮廓包括若干嘴唇轮廓点。在本实施例中,可以根据具体场景要求进行设计需要识别的人工特征,并不限于必须根据嘴唇轮廓和脸部关键点来计算,而是经过不断实验和对比,最终选取了实际效果较好的上述两种特征结果作为特征计算方法中的特征参量。上述的步骤具体为:将脸部关键点集合中位于脸部两侧最高位置处的脸部关键点之间的距离作为第一距离,将嘴唇轮廓中两侧嘴角处对应的嘴唇轮廓点之间的距离作为第二距离,将两侧嘴角上部的嘴唇轮廓作为上嘴唇轮廓,将两侧嘴角下部的嘴唇轮廓作为下嘴唇轮廓,将上嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为上嘴唇轮廓外圈中心点,将下嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为下嘴唇轮廓外圈中心点,将上嘴唇轮廓外圈中心点与下嘴唇轮廓外圈中心点的距离作为第三距离,将上嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点与对应的下嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点之间的距离作为第四距离和第五距离,根据预设函数、第一距离、第二距离、第三距离、第四距离以及第五距离计算出嘴唇开合横纵比和嘴唇张开程度。如图2所示,为嘴唇轮廓和含有若干脸部关键点的示意图,将图中所有点均按照预设序号进行编号,序号为1-20对应的点为嘴唇轮廓点,共同组成嘴唇轮廓,则序号为21-37对应的点为脸部关键点,上述第一距离为序号为21和37两点对应的距离,第二距离为序号1和序号7对应两点的距离,第三距离为序号为4和10对应两点的距离,第四距离为序号为3和11对应两点的距离,第五距离为序号为5和9两点对应的距离;预设函数如以下公式(1)、公式(2)以及公式(3)所示:
Figure BDA0003088230540000081
Figure BDA0003088230540000082
Figure BDA0003088230540000083
在上述公式(1)、公式(2)以及公式(3)中,face_width和
Figure BDA0003088230540000084
表示第一距离,rate为嘴唇开合横纵比,
Figure BDA0003088230540000085
为第四距离,
Figure BDA0003088230540000086
为第五距离,mouth_height为嘴唇张开程度,
Figure BDA0003088230540000087
为第三距离。
说话识别,将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别,得到与待识别人物对应的说话识别结果。具体为:所述说话识别具体为:将不同特征结果中嘴唇开合横纵比和嘴唇张开程度输入至预设说话识别模型中进行识别,所述预设说话模型根据嘴唇开合横纵比和嘴唇张开程度判断待识别人物的说话状态,得到与待识别人物对应的说话识别结果,所述预设说话识别模型为经过预先采集的样本数据进行训练的模型,所述样本数据包括预设嘴唇开合横纵比、预设嘴唇张开程度以及对应的说话状态,在样本数据中每一组预设嘴唇开合横纵比、预设嘴唇张开程度对应唯一的说话状态,说话状态为正在说话或未说话。样本数据中的预设嘴唇开合横纵比、预设嘴唇张开程度也是通过本申请中上述读取视频数据、图像预处理、人脸检测、关键点提取,最后根据样本数据中每一视频帧中的嘴唇轮廓和脸部关键点计算得到,样本数据为知道正确的说话状态的历史数据。在本实施例中,将含有若干帧特征结果的特征列表输入至预设说话识别模型中进行识别,上述特征结果的数量可以依据使用者个人设定,但是经过大量实验结果证明,当特征列表中含有前后6帧特征结果时,最后得到的说话状态更加精准,因此,本实施例中优选将含有前后6帧特征结果的特征列表输入至预设说话识别模型中进行识别。
本实施例中的预设说话识别模型为采用了一种基于大量正负数据样本进行有监督学习的机器学习算法记性训练,上述正负数据样本为大量说话特征和不说话特征,并针对本场景下需要判别目标行人是否在说话的情况,以及考虑到人脸角度不同、说话习惯不同的问题,采用了前后帧的关联性分析,并专门设计了嘴唇开合横纵比和嘴唇张开程度作为特征向量,提高模型的准确性。
本发明还提供一种基于视频分析的说话识别系统,包括:
视频流读入模块,所述视频流读入模块用于读取智能交互系统中摄像头采集到的目标视频数据;
图像预处理模块,所述图像预处理模块用于对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像;
人脸检测模块,所述人脸检测模块用于对每一视频帧对应的输入图像进行人脸检测处理,得到与每一输入图像对应的人脸检测框;
人脸筛选模块,所述人脸筛选模块用于对每一视频帧对应的输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框;
关键点提取模块,所述关键点提取模块用于对每一最终人脸检测框进行关键点提取处理,提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合;
嘴唇特征计算模块,所述嘴唇特征计算模块用于根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,并将所有特征结果存储至预先设置的特征列表中;
说话识别模块,所述说话识别模块用于将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别,得到与待识别人物对应的说话识别结果。
本发明还提供一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本申请中所述的一种基于视频分析的说话识别方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本申请中所述的一种基于视频分析的说话识别方法。
本申请中的一种基于视频分析的说话识别方法,通过读取智能交互系统中摄像头采集到的目标视频数据;对目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像;对每一视频帧对应的输入图像进行人脸检测处理,得到与每一输入图像对应的人脸检测框;对每一视频帧对应的输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框;对每一最终人脸检测框进行关键点提取处理,提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合;根据嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,并将所有特征结果存储至预先设置的特征列表中;将含有若干特征结果的特征列表输入至预设说话识别模型中进行识别,得到与目标视频数据中的人物对应的说话识别结果,整个过程根据特征向量以及预设说话识别模型进行说话识别,无需结合音频信息,整个过程还结合了脸部关键点信息,使得到的说话识别结果更加精准,而且可以适应待识别人物说话时的不同形态。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。

Claims (10)

1.一种基于视频分析的说话识别方法,所述方法应用于智能交互系统中,其特征在于:包括以下步骤:
读取视频数据,读取智能交互系统中摄像头采集到的目标视频数据;
图像预处理,对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像;
人脸检测,对每一视频帧对应的输入图像进行人脸检测处理,得到与每一输入图像对应的人脸检测框;
人脸筛选,对每一视频帧对应的输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框;
关键点提取,对每一最终人脸检测框进行关键点提取处理,提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合;
生成特征列表,根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,并将所有特征结果存储至预先设置的特征列表中;
说话识别,将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别,得到与待识别人物对应的说话识别结果。
2.如权利要求1所述的一种基于视频分析的说话识别方法,其特征在于:所述特征结果包括嘴唇开合横纵比和嘴唇张开程度,所述嘴唇轮廓包括若干嘴唇轮廓点。
3.如权利要求2所述的一种基于视频分析的说话识别方法,其特征在于:所述根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果具体为:将脸部关键点集合中位于脸部两侧最高位置处的脸部关键点之间的距离作为第一距离,将嘴唇轮廓中两侧嘴角处对应的嘴唇轮廓点之间的距离作为第二距离,将两侧嘴角上部的嘴唇轮廓作为上嘴唇轮廓,将两侧嘴角下部的嘴唇轮廓作为下嘴唇轮廓,将上嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为上嘴唇轮廓外圈中心点,将下嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为下嘴唇轮廓外圈中心点,将上嘴唇轮廓外圈中心点与下嘴唇轮廓外圈中心点的距离作为第三距离,将上嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点与对应的下嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点之间的距离作为第四距离和第五距离,根据预设函数、第一距离、第二距离、第三距离、第四距离以及第五距离计算出嘴唇开合横纵比和嘴唇张开程度。
4.如权利要求1所述的一种基于视频分析的说话识别方法,其特征在于:所述说话识别具体为:将不同特征结果中嘴唇开合横纵比和嘴唇张开程度输入至预设说话识别模型中进行识别,所述预设说话模型根据嘴唇开合横纵比和嘴唇张开程度判断待识别人物的说话状态,得到与待识别人物对应的说话识别结果,所述预设说话识别模型为经过预先采集的样本数据进行训练的模型,所述样本数据包括预设嘴唇开合横纵比、预设嘴唇张开程度以及对应的说话状态。
5.如权利要求1所述的一种基于视频分析的说话识别方法,其特征在于:每一特征列表中包括六帧最终人脸检测框对应的特征结果。
6.如权利要求1所述的一种基于视频分析的说话识别方法,其特征在于:所述图像预处理具体为:对所述目标视频数据中每一视频帧进行尺寸裁剪,并将经过尺寸裁剪的视频帧进行灰度处理,转换为灰度图,将灰度图作为输入图像。
7.如权利要求1所述的一种基于视频分析的说话识别方法,其特征在于:所述人脸筛选具体为:计算每个输入图像对应的人脸检测框的面积,得到人脸检测框面积值,判断人脸检测框面积值是否满足预设人脸筛选规则,若满足,将对应的人脸检测框作为最终人脸检测框。
8.一种基于视频分析的说话识别系统,其特征在于:包括:
视频流读入模块,所述视频流读入模块用于读取智能交互系统中摄像头采集到的目标视频数据;
图像预处理模块,所述图像预处理模块用于对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像;
人脸检测模块,所述人脸检测模块用于对每一视频帧对应的输入图像进行人脸检测处理,得到与每一输入图像对应的人脸检测框;
人脸筛选模块,所述人脸筛选模块用于对每一视频帧对应的输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框;
关键点提取模块,所述关键点提取模块用于对每一最终人脸检测框进行关键点提取处理,提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合;
嘴唇特征计算模块,所述嘴唇特征计算模块用于根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,并将所有特征结果存储至预先设置的特征列表中;
说话识别模块,所述说话识别模块用于将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别,得到与待识别人物对应的说话识别结果。
9.一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-7中任意一项所述的一种基于视频分析的说话识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行权利要求1-7中任意一项所述的一种基于视频分析的说话识别方法。
CN202110587534.9A 2021-05-27 2021-05-27 一种基于视频分析的说话识别方法、系统、设备及介质 Active CN113177531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110587534.9A CN113177531B (zh) 2021-05-27 2021-05-27 一种基于视频分析的说话识别方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110587534.9A CN113177531B (zh) 2021-05-27 2021-05-27 一种基于视频分析的说话识别方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN113177531A true CN113177531A (zh) 2021-07-27
CN113177531B CN113177531B (zh) 2023-07-07

Family

ID=76927535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110587534.9A Active CN113177531B (zh) 2021-05-27 2021-05-27 一种基于视频分析的说话识别方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN113177531B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245032A (zh) * 2021-12-21 2022-03-25 睿魔智能科技(深圳)有限公司 视频取景的自动切换方法及系统、视频播放器及存储介质
CN114257757A (zh) * 2021-12-21 2022-03-29 睿魔智能科技(深圳)有限公司 视频的自动裁剪切换方法及系统、视频播放器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625704A (en) * 1994-11-10 1997-04-29 Ricoh Corporation Speaker recognition using spatiotemporal cues
CN109284729A (zh) * 2018-10-08 2019-01-29 北京影谱科技股份有限公司 基于视频获取人脸识别模型训练数据的方法、装置和介质
US10304458B1 (en) * 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
CN111666820A (zh) * 2020-05-11 2020-09-15 北京中广上洋科技股份有限公司 一种讲话状态识别方法、装置、存储介质及终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625704A (en) * 1994-11-10 1997-04-29 Ricoh Corporation Speaker recognition using spatiotemporal cues
US10304458B1 (en) * 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
CN109284729A (zh) * 2018-10-08 2019-01-29 北京影谱科技股份有限公司 基于视频获取人脸识别模型训练数据的方法、装置和介质
CN111666820A (zh) * 2020-05-11 2020-09-15 北京中广上洋科技股份有限公司 一种讲话状态识别方法、装置、存储介质及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245032A (zh) * 2021-12-21 2022-03-25 睿魔智能科技(深圳)有限公司 视频取景的自动切换方法及系统、视频播放器及存储介质
CN114257757A (zh) * 2021-12-21 2022-03-29 睿魔智能科技(深圳)有限公司 视频的自动裁剪切换方法及系统、视频播放器及存储介质
CN114257757B (zh) * 2021-12-21 2023-07-28 睿魔智能科技(深圳)有限公司 视频的自动裁剪切换方法及系统、视频播放器及存储介质

Also Published As

Publication number Publication date
CN113177531B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN111401257B (zh) 一种基于余弦损失在非约束条件下的人脸识别方法
US20210012127A1 (en) Action recognition method and apparatus, driving action analysis method and apparatus, and storage medium
CN111563417B (zh) 一种基于金字塔结构卷积神经网络的人脸表情识别方法
CN111931701B (zh) 基于人工智能的姿态识别方法、装置、终端和存储介质
CN108256421A (zh) 一种动态手势序列实时识别方法、系统及装置
CN109460704B (zh) 一种基于深度学习的疲劳检测方法、系统和计算机设备
CN113793336B (zh) 一种检测血细胞的方法、装置、设备及可读存储介质
CN113177531A (zh) 一种基于视频分析的说话识别方法、系统、设备及介质
CN111126280B (zh) 基于融合手势识别的失语症患者辅助康复训练系统及方法
Thongtawee et al. A novel feature extraction for American sign language recognition using webcam
CN111341350A (zh) 人机交互控制方法、系统、智能机器人及存储介质
WO2024001539A1 (zh) 说话状态识别方法及模型训练方法、装置、车辆、介质、计算机程序及计算机程序产品
CN114639150A (zh) 情绪识别方法、装置、计算机设备和存储介质
CN111241922B (zh) 一种机器人及其控制方法、计算机可读存储介质
Kumar et al. Selfie continuous sign language recognition using neural network
CN111797705A (zh) 一种基于人物关系建模的动作识别方法
Jalilian et al. Persian sign language recognition using radial distance and Fourier transform
CN111950480A (zh) 一种基于人工智能的英语发音自检方法和自检系统
Jindal et al. Sign Language Detection using Convolutional Neural Network (CNN)
CN111553217A (zh) 一种驾驶员打电话监测方法与系统
CN116386118A (zh) 一种基于人像识别的粤剧匹配化妆系统及其方法
CN113449694B (zh) 基于Android的证件照合规性检测方法及系统
CN111898473B (zh) 一种基于深度学习的司机状态实时监测方法
CN114466179A (zh) 语音与图像同步性的衡量方法及装置
CN114466178A (zh) 语音与图像同步性的衡量方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant