CN110580336B - 唇语的分词方法、装置、存储介质和电子设备 - Google Patents

唇语的分词方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN110580336B
CN110580336B CN201810586014.4A CN201810586014A CN110580336B CN 110580336 B CN110580336 B CN 110580336B CN 201810586014 A CN201810586014 A CN 201810586014A CN 110580336 B CN110580336 B CN 110580336B
Authority
CN
China
Prior art keywords
video frame
lip
frame image
standard deviation
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810586014.4A
Other languages
English (en)
Other versions
CN110580336A (zh
Inventor
刘纯平
季怡
林欣
邢腾飞
邬晓钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing D Ear Technologies Co ltd
Original Assignee
Beijing D Ear Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing D Ear Technologies Co ltd filed Critical Beijing D Ear Technologies Co ltd
Priority to CN201810586014.4A priority Critical patent/CN110580336B/zh
Publication of CN110580336A publication Critical patent/CN110580336A/zh
Application granted granted Critical
Publication of CN110580336B publication Critical patent/CN110580336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

本发明实施例提供一种唇语的分词方法、装置、存储介质和电子设备,涉及人工智能领域。其中,所述方法包括:从说话者说话的视频帧序列中,获取视频帧序列中至少一个视频帧图像的唇部特征点;基于至少一个视频帧图像的唇部特征点,确定至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;确定至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差;基于至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定说话者的唇语的分词结果。通过本发明实施例,基于视频帧图像的唇部动作特征数据的正向标准差和逆向标准差,确定说话者的唇语的分词结果,能够提高说话者的唇语分词的准确度。

Description

唇语的分词方法、装置、存储介质和电子设备
技术领域
本发明实施例涉及人工智能领域,尤其涉及一种唇语的分词方法、装置、存储介质和电子设备。
背景技术
随着人工智能技术的发展,语音交互成为一种应用广泛的技术。然而,由于语音交互易受环境影响,容易出现噪声干扰,导致语音识别结果不准确。为了改善语音识别不准确的问题,出现了唇语识别技术。唇语识别技术是一种对面部图像进行识别,以获取对应的语言识别结果的技术。在唇语识别技术中,需要将每一个单词或者音素的发音时间段切分出来,从而分别识别出每一个单词或音素。由此可见,唇语分词是唇语识别技术中面临的首要问题,准确地对唇读过程进行分词是保证唇语识别的准确率的基础。
然而,在现有技术中,由于唇语分词方法的设计缺陷,致使唇语分词的准确率普遍不高。此外,现有的几种具有代表性的唇语分词方法,基本上都是手工设计特征并分析特征曲线,在数据集比较理想的情况下,如语速较慢、单词或音素之间的停顿比较明显时,各个方法的唇语分词的准确率不高,并且还没有一种唇语分词方法适用于普通说话者的语速,并很好地处理连读。
发明内容
本发明实施例的目的在于,提供一种唇语分词的技术方案。
根据本发明实施例的第一方面,提供了一种唇语的分词方法。所述方法包括:从说话者说话的视频帧序列中,获取所述视频帧序列中至少一个视频帧图像的唇部特征点;基于所述至少一个视频帧图像的唇部特征点,确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,所述正向标准差是基于所述视频帧图像和所述视频帧图像的在前视频帧图像的唇部动作特征数据确定得到的,所述逆向标准差是基于所述视频帧图像和所述视频帧图像的在后视频帧图像的唇部动作特征数据确定得到的;基于所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果,所述分词结果包括指示所述说话者的唇语单词的唇动起始点对应的视频帧图像的信息,和/或指示所述说话者的唇语单词的唇动结束点对应的视频帧图像的信息。
可选地,所述基于所述至少一个视频帧图像的唇部特征点,确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据,包括:基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的唇部特征角度和/或内唇面积。
可选地,所述基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的唇部特征角度和/或内唇面积,包括:基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积。
可选地,所述确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,包括:确定所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和逆向标准差。
可选地,所述确定所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和逆向标准差,包括:确定所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差。
可选地,所述确定所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,包括:基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的逆向标准差;基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的逆向标准差;基于所述视频帧图像和所述视频帧图像的在前视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的逆向标准差。
可选地,所述基于所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果,包括:基于所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果。
可选地,所述基于所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果,包括:基于所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果。
可选地,所述基于所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果,包括:基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述视频帧图像的正向标准差和;基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述视频帧图像的逆向标准差和;基于所述视频帧图像的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
可选地,所述确定所述视频帧图像的正向标准差和之前,所述方法包括:对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差;对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差;所述基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述视频帧图像的正向标准差和,包括:基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差,确定所述视频帧图像的正向标准差和。
可选地,所述确定所述视频帧图像的逆向标准差和之前,所述方法包括:对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差;对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差;所述基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述视频帧图像的逆向标准差和,包括:基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差,确定所述视频帧图像的逆向标准差和。
可选地,所述确定所述视频帧图像的正向标准差和之后,所述方法包括:对所述视频帧图像的正向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的正向标准差和;对所述视频帧图像的平滑滤波后的正向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的正向标准差和。
可选地,所述确定所述视频帧图像的逆向标准差和之后,所述方法还包括:对所述视频帧图像的逆向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的逆向标准差和;对所述视频帧图像的平滑滤波后的逆向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的逆向标准差和。
可选地,所述基于所述视频帧图像的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果,包括:基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
可选地,所述基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果,包括:基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动起始点对应的视频帧图像;基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动结束点对应的视频帧图像。
可选地,所述基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果,包括:基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的唇语单词的唇动总起始点对应的第一视频帧图像;基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的唇语单词的唇动总结束点对应的第二视频帧图像;对所述第一视频帧图像与所述第二视频帧图像之间的第三视频帧图像进行均分处理,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像;对所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像进行修正,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第五视频帧图像。
可选地,所述对所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像进行修正,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第五视频帧图像,包括:基于所述第四视频帧图像的内唇面积以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积,确定所述第四视频帧图像的内唇面积变化率以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积变化率;确定所述内唇面积变化率的最大值对应的视频帧图像为所述第五视频帧图像。
可选地,所述从说话者说话的视频帧序列中,获取所述视频帧序列中至少一个视频帧图像的唇部特征点,包括:对所述视频帧序列中至少一个视频帧图像进行特征提取处理,获得所述至少一个视频帧图像的唇部特征点。
可选地,所述唇部动作特征数据包括以下中的至少一者:左唇角点、右唇角点和上唇谷点构成的第一唇部特征角度,左唇角点、下唇低点和上唇谷点构成的第二唇部特征角度,内唇面积。
根据本发明实施例的第二方面,提供了一种唇语的分词装置。所述装置包括:获取模块,用于从说话者说话的视频帧序列中,获取所述视频帧序列中至少一个视频帧图像的唇部特征点;第一确定模块,用于基于所述至少一个视频帧图像的唇部特征点,确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;第二确定模块,用于确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,所述正向标准差是基于所述视频帧图像和所述视频帧图像的在前视频帧图像的唇部动作特征数据确定得到的,所述逆向标准差是基于所述视频帧图像和所述视频帧图像的在后视频帧图像的唇部动作特征数据确定得到的;第三确定模块,用于基于所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果,所述分词结果包括指示所述说话者的唇语单词的唇动起始点对应的视频帧图像的信息,和/或指示所述说话者的唇语单词的唇动结束点对应的视频帧图像的信息。
可选地,所述第一确定模块,包括:第一确定子模块,用于基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的唇部特征角度和/或内唇面积。
可选地,所述第一确定子模块,具体用于:基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积。
可选地,所述第二确定模块,包括:第二确定子模块,用于确定所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和逆向标准差。
可选地,所述第二确定子模块,具体用于:确定所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差。
可选地,所述第二确定子模块,具体用于:基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的逆向标准差;基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的逆向标准差;基于所述视频帧图像和所述视频帧图像的在前视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的逆向标准差。
可选地,所述第三确定模块,包括:第三确定子模块,用于基于所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果。
可选地,所述第三确定子模块,具体用于:基于所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果。
可选地,所述第三确定子模块,包括:第一确定单元,用于基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述视频帧图像的正向标准差和;第二确定单元,用于基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述视频帧图像的逆向标准差和;第三确定单元,用于基于所述视频帧图像的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
可选地,所述第一确定单元之前,所述第三确定子模块还包括:第一处理单元,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差;第二处理单元,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差;所述第一确定单元,具体用于:基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差,确定所述视频帧图像的正向标准差和。
可选地,所述第二确定单元之前,所述第三确定子模块还包括:第三处理单元,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差;第四处理单元,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差;所述第二确定单元,具体用于:基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差,确定所述视频帧图像的逆向标准差和。
可选地,所述第一确定单元之后,所述第三确定子模块还包括:第五处理单元,用于对所述视频帧图像的正向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的正向标准差和;第六处理单元,用于对所述视频帧图像的平滑滤波后的正向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的正向标准差和。
可选地,所述第二确定单元之后,所述第三确定子模块还包括:第七处理单元,用于对所述视频帧图像的逆向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的逆向标准差和;第八处理单元,用于对所述视频帧图像的平滑滤波后的逆向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的逆向标准差和。
可选地,所述第三确定单元,具体用于:基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
可选地,所述第三确定单元,具体用于:基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动起始点对应的视频帧图像;基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动结束点对应的视频帧图像。
可选地,所述第三确定单元,包括:第一确定子单元,用于基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的唇语单词的唇动总起始点对应的第一视频帧图像;第二确定子单元,用于基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的唇语单词的唇动总结束点对应的第二视频帧图像;第一处理子单元,用于对所述第一视频帧图像与所述第二视频帧图像之间的第三视频帧图像进行均分处理,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像;修正子单元,用于对所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像进行修正,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第五视频帧图像。
可选地,所述修正子单元,具体用于:基于所述第四视频帧图像的内唇面积以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积,确定所述第四视频帧图像的内唇面积变化率以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积变化率;确定所述内唇面积变化率的最大值对应的视频帧图像为所述第五视频帧图像。
可选地,所述获取模块,具体用于:对所述视频帧序列中至少一个视频帧图像进行特征提取处理,获得所述至少一个视频帧图像的唇部特征点。
可选地,所述唇部动作特征数据包括以下中的至少一者:左唇角点、右唇角点和上唇谷点构成的第一唇部特征角度,左唇角点、下唇低点和上唇谷点构成的第二唇部特征角度,内唇面积。
根据本发明实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,其中,所述程序指令被处理器执行时实现本发明实施例的第一方面所述的唇语的分词方法的步骤。
根据本发明实施例的第四方面,提供了一种电子设备,包括:处理器和存储器,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如本发明实施例的第一方面所述的唇语的分词方法。
根据本发明实施例提供的技术方案,从说话者说话的视频帧序列中,获取视频帧序列中至少一个视频帧图像的唇部特征点;基于至少一个视频帧图像的唇部特征点,确定至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;确定至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差;基于至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定说话者的唇语的分词结果,与其他方式相比,确定视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,并基于视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定说话者的唇语的分词结果,能够提高说话者的唇语分词的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是根据本发明一些实施例的一种唇语的分词方法的流程图;
图2是实施图1的方法实施例的特征角度的示意图;
图3是实施图1的方法实施例的特征角度的示意图;
图4是实施图1的方法实施例的内唇面积的示意图;
图5是根据本发明一些实施例的一种唇语的分词方法的流程图;
图6是实施图5的方法实施例时利用正向标准差和的示意图;
图7是实施图5的方法实施例时利用逆向标准差和的示意图;
图8是实施图5的方法实施例时对唇语单词进行均匀切分的示意图;
图9是实施图5的方法实施例时对唇语单词进行切分修正的示意图;
图10是根据本发明一些实施例的一种唇语的分词装置的结构框图;
图11是根据本发明一些实施例的一种唇语的分词装置的结构框图;
图12是根据本发明一些实施例的一种唇语的分词装置的结构框图;
图13是根据本发明一些实施例的一种电子设备的结构框图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
以下对本发明实施例中提及的唇语分词进行解释说明。
本发明实施例涉及的唇语分词是通过对说话者说话过程中的唇部运动的视频帧序列进行处理,提取唇部的动作特征,并对唇部的动作特征进行处理,以获取说话者的每个唇语单词的开始帧位置和结束帧位置。唇语分词的目的是获取说话内容每个唇语单词的起始位置和结束位置。除了少数基于整个句子的唇读系统,如LipNet,在大部分唇读系统中,需要将每一个唇语单词的发音时间段切分出来,从而分别识别出每一个唇语单词,准确地对唇读过程进行分词是保证整个唇读系统准确率的基础。
图1是根据本发明一些实施例的一种唇语的分词方法的流程图。
在步骤S101中,从说话者说话的视频帧序列中,获取所述视频帧序列中至少一个视频帧图像的唇部特征点。
在本公开实施例中,所述说话者说话的视频帧序列可通过图像采集装置采集得到,例如,摄像头。可以理解的是,本公开实施例不限于此,任何获得说话者说话的视频帧序列的实施方式均可适用于此,此外,还可以通过其他方式获得说话者说话的视频帧序列,例如从其他设备处接收说话者说话的视频帧序列。在一个具体的例子中,服务器可以从终端设备接收该视频帧序列,等等,本公开实施例对此不作任何限制。
在一些可选实施例中,在获取所述视频帧序列中至少一个视频帧图像的唇部特征点时,对所述视频帧序列中至少一个视频帧图像进行特征提取处理,获得所述至少一个视频帧图像的唇部特征点。具体地,可利用卷积神经网络对所述视频帧序列中至少一个视频帧图像进行特征提取处理,获得所述至少一个视频帧图像的唇部特征点。可以理解的是,本公开实施例不限于此,任何获取所述视频帧序列中至少一个视频帧图像的唇部特征点的实施方式均可适用于此,此外,还可以通过其他方式获取所述视频帧序列中至少一个视频帧图像的唇部特征点,例如利用OpenCV将说话者说话的视频帧序列导入,并解析成视频帧图像,再利用Dlib库对每个视频帧图像进行人脸识别,获得人脸特征点,再根据人脸特征点获得每个视频帧图像的唇部特征点。例如,获得68个人脸特征点,对获得的68个人脸特征点分别进行编号,其中的48号至67号总共20个脸部特征点为唇部特征点,等等,本公开实施例对此不作任何限制。另外,在本公开实施例中,所述视频帧图像的唇部特征点可包括左唇角点、右唇角点、上唇谷点、下唇低点以及唇部边缘轮廓上的点,等等,本公开实施例对此不作任何限制。所述至少一个视频帧图像可为所述视频帧序列中的所有视频帧图像,还可为所述视频帧序列中的部分视频帧图像,本公开实施例对此不作任何限制。
在步骤S102中,基于所述至少一个视频帧图像的唇部特征点,确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据。
在一些可选实施例中,在确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据时,基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的唇部特征角度和/或内唇面积。例如,基于所述至少一个视频帧图像的唇部特征点的坐标数据,确定所述至少一个视频帧图像中每个视频帧图像的唇部特征角度和/或内唇面积。其中,唇部特征点的坐标数据包括唇部特征点的二维坐标数据或三维坐标数据。可以理解的是,本公开实施例对此不作任何限制,任何确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据的实施方式均可适用于此。
在本公开实施例中,所述唇部动作特征数据包括以下中的至少一者:左唇角点、右唇角点和上唇谷点构成的第一唇部特征角度,左唇角点、下唇低点和上唇谷点构成的第二唇部特征角度,内唇面积。在一些可选实施例中,所述唇部动作特征数据包括以下中的至少一者:左唇角点、右唇角点和下唇低点构成的第一唇部特征角度,右唇角点、下唇低点和上唇谷点构成的第二唇部特征角度,内唇面积。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
图2是实施图1的方法实施例的特征角度的示意图。如图2所示,p1表示由左唇角点、右唇角点和上唇谷点构成的第一唇部特征角度,也即是编号分别为48、54及51的特征点构成的第一唇部特征角度。该第一唇部特征角度可用来描述说话者说话时嘴唇的开合程度。其中,编号为48号至59号总共12个脸部特征点为外唇边缘轮廓上的特征点。
图3是实施图1的方法实施例的特征角度的示意图。如图3所示,p2表示由左唇角点、下唇低点和上唇谷点构成的第二唇部特征角度,也即是编号分别为48、57及51的特征点构成的第二唇部特征角度。该第二唇部特征角度可用来描述说话者说话时嘴唇的开合程度。
图4是实施图1的方法实施例的内唇面积的示意图。如图4所示,由编号分别为60号至67号的特征点围成的多边形的面积为内唇面积。该内唇面积可用来描述说话者说话时嘴唇的开合程度。其中,编号为60号至67号总共8个脸部特征点为内唇边缘轮廓上的特征点。
在步骤S103中,确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差。
其中,所述正向标准差是基于所述视频帧图像和所述视频帧图像的在前视频帧图像的唇部动作特征数据确定得到的,所述逆向标准差是基于所述视频帧图像和所述视频帧图像的在后视频帧图像的唇部动作特征数据确定得到的。
在一些可选实施例中,在确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差时,确定所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和/或逆向标准差。例如,确定所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和逆向标准差。可以理解的是,本公开实施例对此不作任何限制,任何确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差的实施方式均可适用于此。
在步骤S104中,基于所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果。
其中,所述分词结果包括指示所述说话者的唇语单词的唇动起始点对应的视频帧图像的信息,和/或指示所述说话者的唇语单词的唇动结束点对应的视频帧图像的信息。在本公开实施例中,所述唇语单词可为说话者在表达英语单词时形成的单词,还可为说话者在表达阿拉伯数字时形成的单词,还可为说话者在表达中文汉字时形成的单词,等等。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在确定所述说话者的唇语的分词结果时,基于所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果。例如,基于所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果。可以理解的是,本公开实施例对此不作任何限制,任何确定所述说话者的唇语的分词结果的实施方式均可适用于此。
根据本发明实施例提供的唇语的分词方法,从说话者说话的视频帧序列中,获取视频帧序列中至少一个视频帧图像的唇部特征点;基于至少一个视频帧图像的唇部特征点,确定至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;确定至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差;基于至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定说话者的唇语的分词结果,与其他方式相比,确定视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,并基于视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定说话者的唇语的分词结果,能够提高说话者的唇语分词的准确度。
本实施例的唇语的分词方法可以由任意适当的具有图像或数据处理能力的终端设备或服务器执行,其中,该终端设备包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等,本发明实施例对此不做限定。
图5是根据本发明一些实施例的一种唇语的分词方法的流程图。
在步骤S201中,从说话者说话的视频帧序列中,获取所述视频帧序列中至少一个视频帧图像的唇部特征点。
由于该步骤S201的实施方式与上述步骤S101的实施方式类似,在此不再赘述。
在步骤S202中,基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的唇部特征角度和/或内唇面积。
在一些可选实施例中,在确定所述至少一个视频帧图像中每个视频帧图像的唇部特征角度和/或内唇面积时,基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积。籍此,可利用第一唇部特征角度、第二唇部特征角度和内唇面积这三种唇部动作特征数据用于说话者的唇语的分词,从而能够提高说话者的唇语分词的准确度。可以理解的是,本公开实施例对此不作任何限制,任何确定视频帧图像的唇部特征角度和/或内唇面积的实施方式均可适用于此。
在一个具体的例子中,基于所述至少一个视频帧图像的唇部特征点的坐标数据,确定所述至少一个视频帧图像中每个视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积。如图3所示,首先可根据唇部特征点48、51和54的坐标数据,计算得到连接唇部特征点48与51的线段的长度、连接唇部特征点51与54的线段的长度和连接唇部特征点48与54的线段的长度,然后再利用三角形的余弦定理,根据这三条线段的长度,计算得到唇部特征点48、54和51构成的第一唇部特征角度的大小。如图4所示,同理可计算得到唇部特征点48、57和51构成的第二唇部特征角度的大小。如图5所示,首先将唇部特征点60至67围成的多边形的面积(内唇面积)进行分割,获得6个三角形的面积,然后再根据唇部特征点60至67的坐标数据,计算得到6个三角形的边长,最后利用三角形的面积计算公式,根据6个三角形的边长,计算得到这6个三角形的面积,并对这6个三角形的面积求和,获得由唇部特征点60至67围成的内唇面积。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在确定所述至少一个视频帧图像中每个视频帧图像的唇部特征角度和/或内唇面积时,基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的第一唇部特征角度和第二唇部特征角度。其中,此处确定视频帧图像的第一唇部特征角度和第二唇部特征角度的实施方式与上文确定视频帧图像的第一唇部特征角度和第二唇部特征角度的实施方式类似,在此不再赘述。籍此,可利用第一唇部特征角度和第二唇部特征角度这二种唇部动作特征数据用于说话者的唇语的分词,从而能够提高说话者的唇语分词的准确度。可以理解的是,本公开实施例对此不作任何限制,任何确定视频帧图像的唇部特征角度和/或内唇面积的实施方式均可适用于此。
在步骤S203中,确定所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和/或逆向标准差。
在一些可选实施例中,在确定所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和/或逆向标准差时,确定所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差。可以理解的是,本公开实施例对此不作任何限制,任何确定视频帧图像的唇部特征角度和/或内唇面积的正向标准差和/或逆向标准差的实施方式均可适用于此。
在一些可选实施例中,在确定所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差时,基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的逆向标准差;基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的逆向标准差;基于所述视频帧图像和所述视频帧图像的在前视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的逆向标准差。可以理解的是,本公开实施例对此不作任何限制,任何确定视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差的实施方式均可适用于此。
在一个具体的例子中,在确定所述视频帧图像的第一唇部特征角度的正向标准差时,可通过以下公式一计算得到所述视频帧图像的第一唇部特征角度的正向标准差:
Figure BDA0001689492920000161
其中,F1_p1(i)表示所述视频帧序列中第i个视频帧图像的第一唇部特征角度的正向标准差,k表示包括第i个视频帧图像和第i个视频帧图像的在前视频帧图像的个数,p1(j)表示第i个视频帧图像的在前视频帧图像j的第一唇部特征角度,
Figure BDA0001689492920000162
表示所述至少一个视频帧图像的第一唇部特征角度的平均值。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,在确定所述视频帧图像的第一唇部特征角度的逆向标准差时,可通过以下公式二计算得到所述视频帧图像的第一唇部特征角度的逆向标准差:
Figure BDA0001689492920000163
其中,F2_p1(i)表示所述视频帧序列中第i个视频帧图像的第一唇部特征角度的逆向标准差,k表示包括第i个视频帧图像和第i个视频帧图像的在后视频帧图像的个数,p1(j)表示第i个视频帧图像的在后视频帧图像j的第一唇部特征角度,
Figure BDA0001689492920000164
表示所述至少一个视频帧图像的第一唇部特征角度的平均值。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,由于确定所述视频帧图像的第二唇部特征角度的正向标准差的实施方式与上文确定所述视频帧图像的第一唇部特征角度的正向标准差的实施方式类似,在此不再赘述。由于确定所述视频帧图像的第二唇部特征角度的逆向标准差的实施方式与上文确定所述视频帧图像的第一唇部特征角度的逆向标准差的实施方式类似,在此不再赘述。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,在确定所述视频帧图像的内唇面积的正向标准差时,可通过以下公式三计算得到所述视频帧图像的内唇面积的正向标准差:
Figure BDA0001689492920000171
其中,F1_Area(i)表示所述视频帧序列中第i个视频帧图像的内唇面积的正向标准差,k表示包括第i个视频帧图像和第i个视频帧图像的在前视频帧图像的个数,Area(j)表示第i个视频帧图像的在前视频帧图像j的内唇面积,
Figure BDA0001689492920000172
表示所述至少一个视频帧图像的内唇面积的平均值。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,在确定所述视频帧图像的内唇面积的逆向标准差时,可通过以下公式四计算得到所述视频帧图像的内唇面积的逆向标准差:
Figure BDA0001689492920000173
其中,F2_Area(i)表示所述视频帧序列中第i个视频帧图像的内唇面积的逆向标准差,k表示包括第i个视频帧图像和第i个视频帧图像的在后视频帧图像的个数,Area(j)表示第i个视频帧图像的在后视频帧图像j的内唇面积,
Figure BDA0001689492920000174
表示所述至少一个视频帧图像的内唇面积的平均值。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,可选取所述至少一个视频帧图像中的部分视频帧图像进行第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差的计算,以保证当前视频帧图像和当前视频帧图像的在前视频帧图像的个数为第一固定个数,并且保证当前视频帧图像和当前视频帧图像的在后视频帧图像的个数为第二固定个数。所述第一固定个数与所述第二固定个数可相等,例如,均为k个。所述第一固定个数与所述第二固定个数也可不相等。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在确定所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和/或逆向标准差时,确定所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差。其中,此处确定视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差的实施方式与上文确定视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差的实施方式类似,在此不再赘述。可以理解的是,本公开实施例对此不作任何限制,任何确定视频帧图像的唇部特征角度和/或内唇面积的正向标准差和/或逆向标准差的实施方式均可适用于此。
在一些可选实施例中,在确定所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和/或逆向标准差时,确定所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差。其中,此处确定视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差的实施方式与上文确定视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差的实施方式类似,在此不再赘述。可以理解的是,本公开实施例对此不作任何限制,任何确定视频帧图像的唇部特征角度和/或内唇面积的正向标准差和/或逆向标准差的实施方式均可适用于此。
在步骤S204中,基于所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果。
在一些可选实施例中,在确定所述说话者的唇语的分词结果时,基于所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果。可以理解的是,本公开实施例对此不作任何限制,任何确定所述说话者的唇语的分词结果的实施方式均可适用于此。
在一些可选实施例中,在基于所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果时,基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述视频帧图像的正向标准差和;基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述视频帧图像的逆向标准差和;基于所述视频帧图像的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。可以理解的是,本公开实施例对此不作任何限制,任何基于所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果的实施方式均可适用于此。
在一些可选实施例中,在确定所述视频帧图像的正向标准差和之前,对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差;对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差。籍此,能够消除说话者本身或者唇部特征点提取造成的唇部微动的影响。可以理解的是,本发明实施例不限于此,任何对视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差进行预处理的实施方式均可适用于此。
在一个具体的例子中,在对所述视频帧图像的内唇面积的正向标准差进行归一化处理时,首先确定所有视频帧图像的内唇面积的正向标准差中的最大值,然后根据内唇面积的正向标准差的最大值,对视频帧图像的内唇面积的正向标准差进行归一化处理。具体地,可通过以下公式五对视频帧图像的内唇面积的正向标准差进行归一化处理:
Figure BDA0001689492920000191
其中,F1_Area表示视频帧图像的内唇面积的正向标准差,max(F1_Area)表示所有视频帧图像的内唇面积的正向标准差中的最大值,F3_Area表示视频帧图像的内唇面积的归一化后的正向标准差。由公式五可知,内唇面积的归一化后的正向标准差处于[0,100]范围内,也就是说,将视频帧图像的内唇面积的正向标准差归一化到[0,100]范围内。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,由于对所述视频帧图像的第一唇部特征角度的正向标准差进行归一化处理的实施方式与上文对所述视频帧图像的内唇面积的正向标准差进行归一化处理的实施方式类似,在此不再赘述。由于对所述视频帧图像的第二唇部特征角度的正向标准差进行归一化处理的实施方式与上文对所述视频帧图像的内唇面积的正向标准差进行归一化处理的实施方式类似,在此不再赘述。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,在对所述视频帧图像的内唇面积的归一化后的正向标准差进行消噪滤波处理时,首先确定所有视频帧图像的内唇面积的归一化后的正向标准差的平均值,然后基于内唇面积的归一化后的正向标准差的平均值,对视频帧图像的内唇面积的归一化后的正向标准差进行消噪滤波处理。具体地,计算得到所有视频帧图像的内唇面积的归一化后的正向标准差的平均值,再基于内唇面积的归一化后的正向标准差的平均值,计算得到用于消噪滤波处理的正向标准差阈值,将内唇面积的归一化后的正向标准差小于所述正向标准差阈值的视频帧图像的内唇面积的归一化后的正向标准差确定为零,再将内唇面积的归一化后的正向标准差大于或等于所述正向标准差阈值的视频帧图像的内唇面积的归一化后的正向标准差保持不变,从而实现视频帧图像的内唇面积的归一化后的正向标准差的消噪滤波处理。其中,在计算用于消噪滤波处理的正向标准差阈值时,可将内唇面积的归一化后的正向标准差的平均值与第一预设比例系数相乘,获得所述正向标准差阈值。例如,所述第一预设比例系数可为0.5。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,由于对所述视频帧图像的第一唇部特征角度的归一化后的正向标准差进行消噪滤波处理的实施方式与上文对所述视频帧图像的内唇面积的归一化后的正向标准差进行消噪滤波处理的实施方式类似,在此不再赘述。由于对所述视频帧图像的第二唇部特征角度的归一化后的正向标准差进行消噪滤波处理的实施方式与上文对所述视频帧图像的内唇面积的归一化后的正向标准差进行消噪滤波处理的实施方式类似,在此不再赘述。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在确定所述视频帧图像的正向标准差和时,基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差,确定所述视频帧图像的正向标准差和。具体地,可通过以下公式六计算得到所述视频帧图像的正向标准差和:
F4(i)=∑[F4_p1(i)+F4_p2(i)+F4_Area(i)] 公式六
其中,F4(i)表示所述视频帧序列中第i个视频帧图像的正向标准差和,F4_p1(i)表示所述视频帧序列中第i个视频帧图像的第一唇部特征角度的消噪滤波后的正向标准差,F4_p2(i)表示所述视频帧序列中第i个视频帧图像的第二唇部特征角度的消噪滤波后的正向标准差,F4_Area(i)表示所述视频帧序列中第i个视频帧图像的内唇面积的消噪滤波后的正向标准差。籍此,能够消除说话者本身或者唇部特征点提取造成的唇部微动的影响。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在确定所述视频帧图像的逆向标准差和之前,对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差;对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差。籍此,能够消除说话者本身或者唇部特征点提取造成的唇部微动的影响。可以理解的是,本发明实施例不限于此,任何对视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差进行预处理的实施方式均可适用于此。
在一个具体的例子中,由于对所述视频帧图像的内唇面积的逆向标准差进行归一化处理的实施方式与上文对所述视频帧图像的内唇面积的正向标准差进行归一化处理的实施方式类似,在此不再赘述。由于对所述视频帧图像的第一唇部特征角度的逆向标准差进行归一化处理的实施方式与上文对所述视频帧图像的内唇面积的正向标准差进行归一化处理的实施方式类似,在此不再赘述。由于对所述视频帧图像的第二唇部特征角度的逆向标准差进行归一化处理的实施方式与上文对所述视频帧图像的内唇面积的正向标准差进行归一化处理的实施方式类似,在此不再赘述。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,由于对所述视频帧图像的内唇面积的归一化后的逆向标准差进行消噪滤波处理的实施方式与上文对所述视频帧图像的内唇面积的归一化后的正向标准差进行消噪滤波处理的实施方式类似,在此不再赘述。由于对所述视频帧图像的第一唇部特征角度的归一化后的逆向标准差进行消噪滤波处理的实施方式与上文对所述视频帧图像的内唇面积的归一化后的正向标准差进行消噪滤波处理的实施方式类似,在此不再赘述。由于对所述视频帧图像的第二唇部特征角度的归一化后的逆向标准差进行消噪滤波处理的实施方式与上文对所述视频帧图像的内唇面积的归一化后的正向标准差进行消噪滤波处理的实施方式类似,在此不再赘述。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在确定所述视频帧图像的逆向标准差和时,基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差,确定所述视频帧图像的逆向标准差和。具体地,可通过以下公式七计算得到所述视频帧图像的逆向标准差和:
F5(i)=∑[F5_p1(i)+F5_p2(i)+F5_Area(i)] 公式七
其中,F5(i)表示所述视频帧序列中第i个视频帧图像的逆向标准差和,F5_p1(i)表示所述视频帧序列中第i个视频帧图像的第一唇部特征角度的消噪滤波后的逆向标准差,F5_p2(i)表示所述视频帧序列中第i个视频帧图像的第二唇部特征角度的消噪滤波后的逆向标准差,F5_Area(i)表示所述视频帧序列中第i个视频帧图像的内唇面积的消噪滤波后的逆向标准差。籍此,能够消除说话者本身或者唇部特征点提取造成的唇部微动的影响。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在确定所述视频帧图像的正向标准差和之后,对所述视频帧图像的正向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的正向标准差和;对所述视频帧图像的平滑滤波后的正向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的正向标准差和。籍此,能够进一步消除说话者本身或者唇部特征点提取造成的唇部微动的影响。可以理解的是,本发明实施例不限于此,任何对视频帧图像的正向标准差和进行预处理的实施方式均可适用于此。
在一个具体的例子中,在对所述视频帧图像的正向标准差和进行平滑滤波处理时,可通过以下公式八对视频帧图像的正向标准差和进行平滑滤波处理:
Figure BDA0001689492920000221
其中,F4(j)表示所述视频帧序列中第j个视频帧图像的正向标准差和,F6(i)表示所述视频帧序列中第i个视频帧图像的平滑滤波后的正向标准差和。由公式八可知,对所述视频帧图像的正向标准差和进行线性平滑滤波处理,并且平滑窗口的大小为5。在具体的实施方式中,当视频帧图像为首个视频帧图像时,可基于首个视频帧图像和首个视频帧图像的在后视频帧图像,对首个视频帧图像的正向标准差和进行平滑滤波处理;当视频帧图像为最后一个视频帧图像时,可基于最后一个视频帧图像和最后一个视频帧图像的在前视频帧图像,对最后一个视频帧图像的正向标准差和进行平滑滤波处理。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,在对所述视频帧图像的平滑滤波后的正向标准差和进行消噪滤波处理时,首先确定所有视频帧图像的平滑滤波后的正向标准差和的平均值,然后基于视频帧图像的平滑滤波后的正向标准差和的平均值,对视频帧图像的平滑滤波后的正向标准差和进行消噪滤波处理。具体地,计算得到所有视频帧图像的平滑滤波后的正向标准差和的平均值,再基于视频帧图像的平滑滤波后的正向标准差和的平均值,计算得到用于消噪滤波处理的正向标准差和阈值,将平滑滤波后的正向标准差和小于所述正向标准差和阈值的视频帧图像的平滑滤波后的正向标准差和确定为零,再将平滑滤波后的正向标准差和大于或等于所述正向标准差和阈值的视频帧图像的平滑滤波后的正向标准差和保持不变,从而实现视频帧图像的平滑滤波后的正向标准差和的消噪滤波处理。其中,在计算用于消噪滤波处理的正向标准差和阈值时,可将视频帧图像的平滑滤波后的正向标准差和的平均值与第二预设比例系数相乘,获得所述正向标准差和阈值。例如,所述第二预设比例系数可为0.5。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在确定所述视频帧图像的逆向标准差和之后,对所述视频帧图像的逆向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的逆向标准差和;对所述视频帧图像的平滑滤波后的逆向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的逆向标准差和。籍此,能够进一步消除说话者本身或者唇部特征点提取造成的唇部微动的影响。可以理解的是,本发明实施例不限于此,任何对视频帧图像的逆向标准差和进行预处理的实施方式均可适用于此。
在一个具体的例子中,由于对所述视频帧图像的逆向标准差和进行平滑滤波处理的实施方式与上文对所述视频帧图像的正向标准差和进行平滑滤波处理的实施方式类似,在此不再赘述。由于对所述视频帧图像的平滑滤波后的逆向标准差和进行消噪滤波处理的实施方式与上文对所述视频帧图像的平滑滤波后的正向标准差和进行消噪滤波处理的实施方式类似,在此不再赘述。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在确定所述说话者的唇语的分词结果时,基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。籍此,能够进一步消除说话者本身或者唇部特征点提取造成的唇部微动的影响。可以理解的是,本发明实施例不限于此,任何确定说话者的唇语的分词结果的实施方式均适用于此。
在一些可选实施例中,在基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果时,基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动起始点对应的视频帧图像;基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动结束点对应的视频帧图像。其中,所述第一预设阈值是基于所有视频帧图像的消噪滤波后的正向标准差和的平均值确定得到的,所述第二预设阈值是基于所有视频帧图像的消噪滤波后的逆向标准差和的平均值确定得到的。籍此,在说话者语速较慢(或理想)的情况下,能够提高说话者的唇语分词的准确度。可以理解的是,本发明实施例不限于此,任何确定说话者的唇语的分词结果的实施方式均适用于此。
在一个具体的例子中,在确定所述第一预设阈值时,可将视频帧图像的消噪滤波后的正向标准差和的平均值与第三预设比例系数相乘,获得所述第一预设阈值。在确定所述第二预设阈值时,可将视频帧图像的消噪滤波后的逆向标准差和的平均值与第四预设比例系数相乘,获得所述第二预设阈值。其中,所述第三预设比例系数与所述第四预设比例系数相等,例如,可均为0.7,所述第三预设比例系数与所述第四预设比例系数还可以不相等。在确定得到所述第一预设阈值之后,判断所述视频帧图像的消噪滤波后的正向标准差和是否大于所述第一预设阈值,如果大于,则确定该视频帧图像为活跃的视频帧图像,如果小于或等于,则确定该视频帧图像为非活跃的视频帧图像。在完成每个视频帧图像的活跃状态的判断之后,获得所有视频帧图像的活跃状态区间,并将每个活跃状态区间的起始点所对应的视频帧图像确定为所述说话者的每个唇语单词的唇动起始点对应的视频帧图像。其中,所述活跃状态区间指的是多个在时间上连续的活跃的视频帧图像构成的区间,例如,在使用数字1和数字0分别表征活跃的视频帧图像和非活跃的视频帧图像,并且时间上连续的10个视频帧图像的活跃状态为[0 1 1 1 1 10000]时,则活跃状态区间为[11111],并且第一个数字1所对应的视频帧图像确定为所述说话者的唇语单词的唇动起始点对应的视频帧图像。此外,所述活跃状态区间的时间先后顺序与所述说话者表达的唇语单词的时间先后顺序对应。类似地,在确定得到所述第二预设阈值之后,判断所述视频帧图像的消噪滤波后的逆向标准差和是否大于所述第二预设阈值,如果大于,则确定该视频帧图像为活跃的视频帧图像,如果小于或等于,则确定该视频帧图像为非活跃的视频帧图像。在完成每个视频帧图像的活跃状态的判断之后,获得所有视频帧图像的活跃状态区间,并将每个活跃状态区间的结束点所对应的视频帧图像确定为所述说话者的每个唇语单词的唇动结束点对应的视频帧图像。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果时,基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的唇语单词的唇动总起始点对应的第一视频帧图像;基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的唇语单词的唇动总结束点对应的第二视频帧图像;对所述第一视频帧图像与所述第二视频帧图像之间的第三视频帧图像进行均分处理,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像;对所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像进行修正,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第五视频帧图像。其中,所述第一预设阈值与上文的第一预设阈值相同,所述第二预设阈值与上文的第二预设阈值相同,在此不再赘述。籍此,在说话者语速较快(或说话者的普通语速)的情况下,能够提高说话者的唇语分词的准确度。可以理解的是,本发明实施例不限于此,任何确定说话者的唇语的分词结果的实施方式均适用于此。
在一些可选实施例中,在确定所述说话者的唇语单词的唇动总起始点对应的第一视频帧图像时,获取所有视频帧图像中第一个消噪滤波后的正向标准差和大于第一预设阈值的视频帧图像,并将该视频帧图像确定为所述说话者的唇语单词的唇动总起始点对应的第一视频帧图像。在确定所述说话者的唇语单词的唇动总结束点对应的第二视频帧图像时,获取所有视频帧图像中最后一个消噪滤波后的逆向标准差和大于第二预设阈值的视频帧图像,并将该视频帧图像确定为所述说话者的唇语单词的唇动总结束点对应的第二视频帧图像。在对所述第一视频帧图像与所述第二视频帧图像之间的第三视频帧图像进行均分处理时,基于说话者表达的唇语单词的个数,对所述第一视频帧图像与所述第二视频帧图像之间的第三视频帧图像进行均分处理。其中,说话者表达的唇语单词的个数是先验知识,也就是说,在进行唇语分词之前,已经确定出说话者表达的唇语单词的个数。例如,当说话者表达阿拉伯数字1到8时,说话者表达的唇语单词的个数为8。在确定说话者的唇语单词的唇动总起始点和唇动总结束点分别对应的视频帧图像之后,可对唇动总起始点与唇动总结束点之间的视频帧图像进行八均分,获得说话者的每个阿拉伯数字的唇动起始点和唇动结束点分别对应的视频帧图像。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在对所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像进行修正时,基于所述第四视频帧图像的内唇面积以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积,确定所述第四视频帧图像的内唇面积变化率以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积变化率;确定所述内唇面积变化率的最大值对应的视频帧图像为所述第五视频帧图像。籍此,在说话者语速较快(或说话者的普通语速)的情况下,能够进一步地提高说话者的唇语分词的准确度。可以理解的是,本发明实施例不限于此,任何对所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像进行修正的实施方式均适用于此。
在一个具体的例子中,在确定所述第四视频帧图像的内唇面积变化率以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积变化率时,可通过以下公式九计算得到所述第四视频帧图像的内唇面积变化率以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积变化率:
ΔArea(i)=|Area(i+1)-Area(i)| 公式九
其中,ΔArea(i)表示所述视频帧序列中第i个视频帧图像的内唇面积变化率,Area(i)表示所述视频帧序列中第i个视频帧图像的内唇面积,Area(i+1)表示所述视频帧序列中第i+1个视频帧图像的内唇面积。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一个具体的例子中,在确定所述内唇面积变化率的最大值对应的视频帧图像为所述第五视频帧图像时,针对每个所述第四视频帧图像,在其附近3个视频帧图像(包括第四视频帧图像)中寻找内唇面积变化率的最大值,并将内唇面积变化率的最大值对应的视频帧图像确定为第五视频帧图像。具体地,如果某个第四视频帧图像为所述视频帧序列中的第i个视频帧图像,在其附近3个视频帧图像中查找内唇面积变化率的最大值,即:max(ΔArea(j)),j∈[i-2,i+2],其中,ΔArea(j)表示所述视频帧序列中第j个视频帧图像的内唇面积变化率。可以理解的是,以上描述仅为示例性地,本公开实施例对此不做任何限定。
在一些可选实施例中,在确定所述说话者的唇语的分词结果时,基于所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述说话者的唇语的分词结果。由于此处基于视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述说话者的唇语的分词结果的实施方式与上文基于视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述说话者的唇语的分词结果的实施方式类似,在此不再赘述。籍此,能够准确地确定说话者的唇语单词的唇动起始点所对应的视频帧图像。可以理解的是,本公开实施例对此不作任何限制,任何确定所述说话者的唇语的分词结果的实施方式均可适用于此。
在一些可选实施例中,在确定所述说话者的唇语的分词结果时,基于所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述说话者的唇语的分词结果。由于此处基于视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述说话者的唇语的分词结果的实施方式与上文基于视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述说话者的唇语的分词结果的实施方式类似,在此不再赘述。籍此,能够准确地确定说话者的唇语单词的唇动结束点所对应的视频帧图像。可以理解的是,本公开实施例对此不作任何限制,任何确定所述说话者的唇语的分词结果的实施方式均可适用于此。
在完成本申请的唇语分词方法之后,本申请的发明人以说话者表达八个阿拉伯数字的视频帧序列作为研究对象,对本申请的的唇语分词方法的技术效果进行论证实验。具体地,本申请的论证实验使用了两种数据集。一种是理想数据集,即在理想情况下录制的语速较慢,且停顿明显的数字发音过程的视频集。由1名男生录制,视频总数为25,帧率为30帧每秒,平均语速为0.83秒每个数字。每一个数字有独立的起始切分点与结束切分点,因此8个数字,总共有16个切分点。另一种是实际数据集,即基于实际说话环境,语速较快且带有连读的数字发音过程的视频集。参与录制的志愿者共34人,其中20名男生,14名女生。录制的视频总数为359个,帧率为25帧每秒或30帧每秒,平均语速约为0.25秒每个数字。由于语速较快,数字之间的切分并不明显,因此前一个数字的结束点即为后一个数字的开始点,8个数字总共有9个切分点。其中,实验硬件环境包括Window 10、Core i7处理器、主频为3.4G、内存为8G。代码运行环境包括visual studio 2010或Matlab 2013b。
针对理想数据集中的个例说明,以理想数据集中的“6-5-0-3-8-2-9-8”视频为例,确定每个数字的唇动起始点对应的视频帧图像和唇动结束点对应的视频帧图像。图6是实施图5的方法实施例时利用正向标准差和的示意图。如图6所示,纵轴上的横线表示第一预设阈值所在的纵轴横线,横轴上的竖线表示切分出的数字唇动起始点。具体地,图6是利用视频帧图像的正向标准差和,确定数字唇动起始点的结果示意图。图7是实施图5的方法实施例时利用逆向标准差和的示意图。如图7所示,纵轴上的横线表示第二预设阈值所在的纵轴横线,横轴上的竖线表示切分出的数字唇动结束点。具体地,图7是利用视频帧图像的逆向标准差和,确定数字唇动结束点的结果示意图。为了更加充分地论证本申请的唇语分词方法的技术效果,在表1中给出了以“6-5-0-3-8-2-9-8”为例的视频中的每个数字起始点时间的算法分词(本申请的唇语分词方法)和标准分词(现有的唇语分词方法)的对比,在表2中给出了以“6-5-0-3-8-2-9-8”为例的视频中的每个数字结束点时间的算法分词(本申请的唇语分词方法)和标准分词(现有的唇语分词方法)的对比。
表1数字起始点时间的对比
Figure BDA0001689492920000281
表2数字结束点时间的对比
Figure BDA0001689492920000291
由表1和表2可看出,本申请的唇语分词方法与现有的唇语分词方法相比,通过确定视频帧图像的正向标准差和和逆向标准差和,能够使得数字起始点和数字结束点的切分更加准确。
针对实际数据集中的个例说明,以实际数据集中比较有代表性的视频“4-2-8-5-8-3-2-6”的发音过程为例,确定每个数字的唇动起始点对应的视频帧图像和唇动结束点对应的视频帧图像。图8是实施图5的方法实施例时对唇语单词进行均匀切分的示意图。如图8所示,纵轴上的横线表示第一预设阈值所在的纵轴横线,横轴上的第一条竖线为数字切分的总起始点,横轴上的最后一条竖线为数字切分的总结束点,第一条竖线和最后一条竖线之间的七条竖线表示数字的均分起始点或均分结束点,横轴上的小圆圈表示利用现有的唇语分词方法获得的数字切分点,黑色的实曲线表示视频帧图像的正向标准差和的曲线,黑色的虚曲线表示视频帧图像的内唇面积变化率的曲线。图9是实施图5的方法实施例时对唇语单词进行切分修正的示意图。图9与图8类似,不同的是,第一条竖线和最后一条竖线之间的七条竖线表示经过内唇面积变化率修正的数字起始点或结束点。从图8和图9可以看出,在实际数据集中,在语速较快,且数字连读明显时,标准差和并不能很好地起到分割数字唇动过程的作用,只能作为判断数字的总起始点和总结束点的标准。而在数字均匀切分的基础上,内唇面积变化率弥补了语速变化带来的误差。
在论证实验的过程中,本申请的发明人使用了三种唇语分词方法,并对三种唇语分词方法分别获得的唇语分词结果进行了比较。具体地,如表3所示,展现了理想数据集中各个唇语分词结果的准确率。如表4所示,展现了实际数据集中各个唇语分词结果的准确率。
表3理想数据集中各个唇语分词结果的准确率
Figure BDA0001689492920000292
Figure BDA0001689492920000301
表4实际数据集中各个唇语分词结果的准确率
Figure BDA0001689492920000302
由表3和表4中可以看出,本申请的唇语分词方法,克服了基于特征角度的标准差的方法和基于外唇面积变化率的方法一些缺陷,在理想数据集和实际数据集上都达到了更好的分词结果。在理想数据集上,本申请的唇语分词方法的准确率较高,并且不需要提供先验知识,例如,数字的发音个数,而在实际数据集上利用先验知识后也达到了可观的准确率。
本申请实施例单纯从视觉角度出发划分出说话者说每一个唇语单词的开始时间和结束时间,在许多领域具有广泛的应用价值,例如,进一步地进行唇语识别,帮助语音识别以增强对说话内容的理解,帮助听力障碍人士以及进行说话人的活体验证,等等。
根据本发明实施例提供的唇语的分词方法,从说话者说话的视频帧序列中,获取视频帧序列中至少一个视频帧图像的唇部特征点;基于至少一个视频帧图像的唇部特征点,确定至少一个视频帧图像中每个视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积;确定至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差;基于至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,确定说话者的唇语的分词结果,与其他方式相比,确定视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,并基于视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,确定说话者的唇语的分词结果,能够进一步提高说话者的唇语分词的准确度。
本实施例的唇语的分词方法可以由任意适当的具有图像或数据处理能力的终端设备或服务器执行,其中,该终端设备包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等,本发明实施例对此不做限定。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
基于相同的技术构思,图10是根据本发明一些实施例的一种唇语的分词装置的结构框图。可用以执行以上实施例所述的唇语的分词方法的流程。
参照图10,该唇语的分词装置包括获取模块301、第一确定模块302、第二确定模块303和第三确定模块304。
获取模块301,用于从说话者说话的视频帧序列中,获取所述视频帧序列中至少一个视频帧图像的唇部特征点;
第一确定模块302,用于基于所述至少一个视频帧图像的唇部特征点,确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;
第二确定模块303,用于确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,所述正向标准差是基于所述视频帧图像和所述视频帧图像的在前视频帧图像的唇部动作特征数据确定得到的,所述逆向标准差是基于所述视频帧图像和所述视频帧图像的在后视频帧图像的唇部动作特征数据确定得到的;
第三确定模块304,用于基于所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果,所述分词结果包括指示所述说话者的唇语单词的唇动起始点对应的视频帧图像的信息,和/或指示所述说话者的唇语单词的唇动结束点对应的视频帧图像的信息。
通过本实施例提供的唇语的分词装置,从说话者说话的视频帧序列中,获取视频帧序列中至少一个视频帧图像的唇部特征点;基于至少一个视频帧图像的唇部特征点,确定至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;确定至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差;基于至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定说话者的唇语的分词结果,与其他方式相比,确定视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,并基于视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定说话者的唇语的分词结果,能够提高说话者的唇语分词的准确度。
可选地,所述第一确定模块302,包括:第一确定子模块3021,用于基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的唇部特征角度和/或内唇面积。
可选地,所述第一确定子模块3021,具体用于:基于所述至少一个视频帧图像的唇部特征点的位置数据,确定所述至少一个视频帧图像中每个视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积。
可选地,所述第二确定模块303,包括:第二确定子模块3031,用于确定所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和逆向标准差。
可选地,所述第二确定子模块3031,具体用于:确定所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差。
可选地,所述第二确定子模块3031,具体用于:基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的逆向标准差;基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的逆向标准差;基于所述视频帧图像和所述视频帧图像的在前视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的正向标准差;基于所述视频帧图像和所述视频帧图像的在后视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的逆向标准差。
可选地,所述第三确定模块304,包括:第三确定子模块3041,用于基于所述至少一个视频帧图像中视频帧图像的唇部特征角度和/或内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果。
可选地,所述第三确定子模块3041,具体用于:基于所述至少一个视频帧图像中视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果。
可选地,所述获取模块301,具体用于:对所述视频帧序列中至少一个视频帧图像进行特征提取处理,获得所述至少一个视频帧图像的唇部特征点。
可选地,所述唇部动作特征数据包括以下中的至少一者:左唇角点、右唇角点和上唇谷点构成的第一唇部特征角度,左唇角点、下唇低点和上唇谷点构成的第二唇部特征角度,内唇面积。
需要说明的是,对于本发明实施例提供的唇语的分词装置还涉及的具体细节已在本发明实施例提供的唇语的分词方法中作了详细的说明,在此不在赘述。
基于相同的技术构思,图11是根据本发明一些实施例的一种唇语的分词装置的结构框图。可用以执行以上实施例所述的唇语的分词方法的流程。
参照图11,该唇语的分词装置包括获取模块401、第一确定模块402、第二确定模块403和第三确定模块404。其中,获取模块401,用于从说话者说话的视频帧序列中,获取所述视频帧序列中至少一个视频帧图像的唇部特征点;第一确定模块402,用于基于所述至少一个视频帧图像的唇部特征点,确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;第二确定模块403,用于确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,所述正向标准差是基于所述视频帧图像和所述视频帧图像的在前视频帧图像的唇部动作特征数据确定得到的,所述逆向标准差是基于所述视频帧图像和所述视频帧图像的在后视频帧图像的唇部动作特征数据确定得到的;第三确定模块404,用于基于所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果,所述分词结果包括指示所述说话者的唇语单词的唇动起始点对应的视频帧图像的信息,和/或指示所述说话者的唇语单词的唇动结束点对应的视频帧图像的信息。
可选地,所述第三确定子模块4041,包括:第一确定单元4044,用于基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述视频帧图像的正向标准差和;第二确定单元4049,用于基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述视频帧图像的逆向标准差和;第三确定单元40412,用于基于所述视频帧图像的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
可选地,所述第一确定单元4044之前,所述第三确定子模块4041还包括:第一处理单元4042,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差;第二处理单元4043,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差;所述第一确定单元4044,具体用于:基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差,确定所述视频帧图像的正向标准差和。
可选地,所述第二确定单元4049之前,所述第三确定子模块4041还包括:第三处理单元4047,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差;第四处理单元4048,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差;所述第二确定单元4049,具体用于:基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差,确定所述视频帧图像的逆向标准差和。
可选地,所述第一确定单元4044之后,所述第三确定子模块4041还包括:第五处理单元4045,用于对所述视频帧图像的正向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的正向标准差和;第六处理单元4046,用于对所述视频帧图像的平滑滤波后的正向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的正向标准差和。
可选地,所述第二确定单元4049之后,所述第三确定子模块4041还包括:第七处理单元40410,用于对所述视频帧图像的逆向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的逆向标准差和;第八处理单元40411,用于对所述视频帧图像的平滑滤波后的逆向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的逆向标准差和。
可选地,所述第三确定单元40412,具体用于:基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
可选地,所述第三确定单元40412,具体用于:基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动起始点对应的视频帧图像;基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动结束点对应的视频帧图像。
需要说明的是,对于本发明实施例提供的唇语的分词装置还涉及的具体细节已在本发明实施例提供的唇语的分词方法中作了详细的说明,在此不在赘述。
基于相同的技术构思,图12是根据本发明一些实施例的一种唇语的分词装置的结构框图。可用以执行以上实施例所述的唇语的分词方法的流程。
参照图12,该唇语的分词装置包括获取模块501、第一确定模块502、第二确定模块503和第三确定模块504。其中,获取模块501,用于从说话者说话的视频帧序列中,获取所述视频帧序列中至少一个视频帧图像的唇部特征点;第一确定模块502,用于基于所述至少一个视频帧图像的唇部特征点,确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;第二确定模块503,用于确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,所述正向标准差是基于所述视频帧图像和所述视频帧图像的在前视频帧图像的唇部动作特征数据确定得到的,所述逆向标准差是基于所述视频帧图像和所述视频帧图像的在后视频帧图像的唇部动作特征数据确定得到的;第三确定模块504,用于基于所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果,所述分词结果包括指示所述说话者的唇语单词的唇动起始点对应的视频帧图像的信息,和/或指示所述说话者的唇语单词的唇动结束点对应的视频帧图像的信息。
可选地,所述第三确定子模块5041,包括:第一确定单元5042,用于基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述视频帧图像的正向标准差和;第二确定单元5043,用于基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述视频帧图像的逆向标准差和;第三确定单元5044,用于基于所述视频帧图像的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
可选地,所述第三确定单元5044,包括:第一确定子单元5045,用于基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的唇语单词的唇动总起始点对应的第一视频帧图像;第二确定子单元5046,用于基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的唇语单词的唇动总结束点对应的第二视频帧图像;第一处理子单元5047,用于对所述第一视频帧图像与所述第二视频帧图像之间的第三视频帧图像进行均分处理,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像;修正子单元5048,用于对所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像进行修正,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第五视频帧图像。
可选地,所述修正子单元5048,具体用于:基于所述第四视频帧图像的内唇面积以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积,确定所述第四视频帧图像的内唇面积变化率以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积变化率;确定所述内唇面积变化率的最大值对应的视频帧图像为所述第五视频帧图像。
需要说明的是,对于本发明实施例提供的唇语的分词装置还涉及的具体细节已在本发明实施例提供的唇语的分词方法中作了详细的说明,在此不在赘述。
本发明实施例还提供了一种电子设备,包括:处理器和存储器,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如本发明实施例第一方面所述的唇语的分词方法。例如,电子设备可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图13,其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备600的结构示意图。如图13所示,电子设备600包括一个或多个处理器、通信元件等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)601,和/或一个或多个图像处理器(GPU)613等,处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。本实施例中,只读存储器602和随机访问存储器603统称为存储器。通信元件包括通信组件612和/或通信接口609。其中,通信组件612可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口609包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口609经由诸如因特网的网络执行通信处理。
处理器可与只读存储器602和/或随机访问存储器603中通信以执行可执行指令,通过通信总线604与通信组件612相连、并经通信组件612与其他目标设备通信,从而完成本发明实施例提供的任一项唇语的分词方法对应的操作,例如,从说话者说话的视频帧序列中,获取所述视频帧序列中至少一个视频帧图像的唇部特征点;基于所述至少一个视频帧图像的唇部特征点,确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,所述正向标准差是基于所述视频帧图像和所述视频帧图像的在前视频帧图像的唇部动作特征数据确定得到的,所述逆向标准差是基于所述视频帧图像和所述视频帧图像的在后视频帧图像的唇部动作特征数据确定得到的;基于所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果,所述分词结果包括指示所述说话者的唇语单词的唇动起始点对应的视频帧图像的信息,和/或指示所述说话者的唇语单词的唇动结束点对应的视频帧图像的信息。
此外,在RAM 603中,还可存储有装置操作所需的各种程序和数据。CPU601或GPU613、ROM602以及RAM603通过通信总线604彼此相连。在有RAM603的情况下,ROM602为可选模块。RAM603存储可执行指令,或在运行时向ROM602中写入可执行指令,可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口605也连接至通信总线604。通信组件612可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口609。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
需要说明的,如图13所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图13的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,从说话者说话的视频帧序列中,获取所述视频帧序列中至少一个视频帧图像的唇部特征点;基于所述至少一个视频帧图像的唇部特征点,确定所述至少一个视频帧图像中每个视频帧图像的唇部动作特征数据;确定所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,所述正向标准差是基于所述视频帧图像和所述视频帧图像的在前视频帧图像的唇部动作特征数据确定得到的,所述逆向标准差是基于所述视频帧图像和所述视频帧图像的在后视频帧图像的唇部动作特征数据确定得到的;基于所述至少一个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和/或逆向标准差,确定所述说话者的唇语的分词结果,所述分词结果包括指示所述说话者的唇语单词的唇动起始点对应的视频帧图像的信息,和/或指示所述说话者的唇语单词的唇动结束点对应的视频帧图像的信息。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器执行时,执行本发明实施例的方法中限定的上述功能。
需要指出,根据实施的需要,可将本申请中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本发明实施例的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。
本发明实施例的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式,很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (32)

1.一种唇语的分词方法,其特征在于,所述方法包括:
从说话者说话的视频帧序列中,获取所述视频帧序列中多个视频帧图像的唇部特征点;
基于所述多个视频帧图像的唇部特征点,确定所述多个视频帧图像中每个视频帧图像的唇部动作特征数据,所述唇部动作特征数据包括:左唇角点、右唇角点和上唇谷点构成的第一唇部特征角度,左唇角点、下唇低点和上唇谷点构成的第二唇部特征角度,以及内唇面积;
确定所述多个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和逆向标准差,所述正向标准差是基于所述视频帧图像和所述视频帧图像的在前视频帧图像的唇部动作特征数据确定得到的,所述逆向标准差是基于所述视频帧图像和所述视频帧图像的在后视频帧图像的唇部动作特征数据确定得到的;
基于所述多个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果,所述分词结果包括指示所述说话者的唇语单词的唇动起始点对应的视频帧图像的信息,和指示所述说话者的唇语单词的唇动结束点对应的视频帧图像的信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个视频帧图像的唇部特征点,确定所述多个视频帧图像中每个视频帧图像的唇部动作特征数据,包括:
基于所述多个视频帧图像的唇部特征点的位置数据,确定所述多个视频帧图像中每个视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积。
3.根据权利要求1所述的方法,其特征在于,所述确定所述多个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和逆向标准差,包括:
确定所述多个视频帧图像中视频帧图像的第一唇部特征角度的正向标准差和逆向标准差、第二唇部特征角度的正向标准差和逆向标准差、以及内唇面积的正向标准差和逆向标准差。
4.根据权利要求3所述的方法,其特征在于,所述确定所述多个视频帧图像中视频帧图像的第一唇部特征角度的正向标准差和逆向标准差、第二唇部特征角度的正向标准差和逆向标准差、以及内唇面积的正向标准差和逆向标准差,包括:
基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的正向标准差;
基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的逆向标准差;
基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的正向标准差;
基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的逆向标准差;
基于所述视频帧图像和所述视频帧图像的在前视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的正向标准差;
基于所述视频帧图像和所述视频帧图像的在后视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的逆向标准差。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果,包括:
基于所述多个视频帧图像中视频帧图像的第一唇部特征角度的正向标准差和逆向标准差、第二唇部特征角度的正向标准差和逆向标准差、以及内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述多个视频帧图像中视频帧图像的第一唇部特征角度的正向标准差和逆向标准差、第二唇部特征角度的正向标准差和逆向标准差、以及内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果,包括:
基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述视频帧图像的正向标准差和;
基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述视频帧图像的逆向标准差和;
基于所述视频帧图像的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
7.根据权利要求6所述的方法,其特征在于,所述确定所述视频帧图像的正向标准差和之前,所述方法包括:
对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差;
对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差;
所述基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述视频帧图像的正向标准差和,包括:
基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差,确定所述视频帧图像的正向标准差和。
8.根据权利要求6所述的方法,其特征在于,所述确定所述视频帧图像的逆向标准差和之前,所述方法包括:
对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差;
对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差;
所述基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述视频帧图像的逆向标准差和,包括:
基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差,确定所述视频帧图像的逆向标准差和。
9.根据权利要求6所述的方法,其特征在于,所述确定所述视频帧图像的正向标准差和之后,所述方法包括:
对所述视频帧图像的正向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的正向标准差和;
对所述视频帧图像的平滑滤波后的正向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的正向标准差和。
10.根据权利要求9所述的方法,其特征在于,所述确定所述视频帧图像的逆向标准差和之后,所述方法还包括:
对所述视频帧图像的逆向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的逆向标准差和;
对所述视频帧图像的平滑滤波后的逆向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的逆向标准差和。
11.根据权利要求10所述的方法,其特征在于,所述基于所述视频帧图像的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果,包括:
基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
12.根据权利要求11所述的方法,其特征在于,所述基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果,包括:
基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动起始点对应的视频帧图像;
基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动结束点对应的视频帧图像。
13.根据权利要求11所述的方法,其特征在于,所述基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果,包括:
基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的唇语单词的唇动总起始点对应的第一视频帧图像;
基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的唇语单词的唇动总结束点对应的第二视频帧图像;
对所述第一视频帧图像与所述第二视频帧图像之间的第三视频帧图像进行均分处理,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像;
对所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像进行修正,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第五视频帧图像。
14.根据权利要求13所述的方法,其特征在于,所述对所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像进行修正,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第五视频帧图像,包括:
基于所述第四视频帧图像的内唇面积以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积,确定所述第四视频帧图像的内唇面积变化率以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积变化率;
确定所述内唇面积变化率的最大值对应的视频帧图像为所述第五视频帧图像。
15.根据权利要求1~14中任意一项权利要求所述的方法,其特征在于,所述从说话者说话的视频帧序列中,获取所述视频帧序列中多个视频帧图像的唇部特征点,包括:
对所述视频帧序列中多个视频帧图像进行特征提取处理,获得所述多个视频帧图像的唇部特征点。
16.一种唇语的分词装置,其特征在于,所述装置包括:
获取模块,用于从说话者说话的视频帧序列中,获取所述视频帧序列中多个视频帧图像的唇部特征点;
第一确定模块,用于基于所述多个视频帧图像的唇部特征点,确定所述多个视频帧图像中每个视频帧图像的唇部动作特征数据,所述唇部动作特征数据包括:左唇角点、右唇角点和上唇谷点构成的第一唇部特征角度,左唇角点、下唇低点和上唇谷点构成的第二唇部特征角度,以及内唇面积;
第二确定模块,用于确定所述多个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和逆向标准差,所述正向标准差是基于所述视频帧图像和所述视频帧图像的在前视频帧图像的唇部动作特征数据确定得到的,所述逆向标准差是基于所述视频帧图像和所述视频帧图像的在后视频帧图像的唇部动作特征数据确定得到的;
第三确定模块,用于基于所述多个视频帧图像中视频帧图像的唇部动作特征数据的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果,所述分词结果包括指示所述说话者的唇语单词的唇动起始点对应的视频帧图像的信息,和指示所述说话者的唇语单词的唇动结束点对应的视频帧图像的信息。
17.根据权利要求16所述的装置,其特征在于,所述第一确定模块,包括:
第一确定子模块,用于基于所述多个视频帧图像的唇部特征点的位置数据,确定所述多个视频帧图像中每个视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积。
18.根据权利要求16所述的装置,其特征在于,所述第二确定模块,包括:
第二确定子模块,用于确定所述多个视频帧图像中视频帧图像的第一唇部特征角度的正向标准差和逆向标准差、第二唇部特征角度的正向标准差和逆向标准差、以及内唇面积的正向标准差和逆向标准差。
19.根据权利要求18所述的装置,其特征在于,所述第二确定子模块,具体用于:
基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的正向标准差;
基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第一唇部特征角度,确定所述视频帧图像的第一唇部特征角度的逆向标准差;
基于所述视频帧图像和所述视频帧图像的在前视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的正向标准差;
基于所述视频帧图像和所述视频帧图像的在后视频帧图像的第二唇部特征角度,确定所述视频帧图像的第二唇部特征角度的逆向标准差;
基于所述视频帧图像和所述视频帧图像的在前视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的正向标准差;
基于所述视频帧图像和所述视频帧图像的在后视频帧图像的内唇面积,确定所述视频帧图像的内唇面积的逆向标准差。
20.根据权利要求16所述的装置,其特征在于,所述第三确定模块,包括:
第三确定子模块,用于基于所述多个视频帧图像中视频帧图像的第一唇部特征角度正向标准差和逆向标准差、第二唇部特征角度的正向标准差和逆向标准差、以及内唇面积的正向标准差和逆向标准差,确定所述说话者的唇语的分词结果。
21.根据权利要求20所述的装置,其特征在于,所述第三确定子模块,包括:
第一确定单元,用于基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差,确定所述视频帧图像的正向标准差和;
第二确定单元,用于基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差,确定所述视频帧图像的逆向标准差和;
第三确定单元,用于基于所述视频帧图像的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
22.根据权利要求21所述的装置,其特征在于,所述第一确定单元之前,所述第三确定子模块还包括:
第一处理单元,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的正向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差;
第二处理单元,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的正向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差;
所述第一确定单元,具体用于:
基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的正向标准差,确定所述视频帧图像的正向标准差和。
23.根据权利要求21所述的装置,其特征在于,所述第二确定单元之前,所述第三确定子模块还包括:
第三处理单元,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的逆向标准差进行归一化处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差;
第四处理单元,用于对所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的归一化后的逆向标准差进行消噪滤波处理,获得所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差;
所述第二确定单元,具体用于:
基于所述视频帧图像的第一唇部特征角度、第二唇部特征角度和内唇面积的消噪滤波后的逆向标准差,确定所述视频帧图像的逆向标准差和。
24.根据权利要求21所述的装置,其特征在于,所述第一确定单元之后,所述第三确定子模块还包括:
第五处理单元,用于对所述视频帧图像的正向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的正向标准差和;
第六处理单元,用于对所述视频帧图像的平滑滤波后的正向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的正向标准差和。
25.根据权利要求24所述的装置,其特征在于,所述第二确定单元之后,所述第三确定子模块还包括:
第七处理单元,用于对所述视频帧图像的逆向标准差和进行平滑滤波处理,获得所述视频帧图像的平滑滤波后的逆向标准差和;
第八处理单元,用于对所述视频帧图像的平滑滤波后的逆向标准差和进行消噪滤波处理,获得所述视频帧图像的消噪滤波后的逆向标准差和。
26.根据权利要求25所述的装置,其特征在于,所述第三确定单元,具体用于:
基于所述视频帧图像的消噪滤波后的正向标准差和以及逆向标准差和,确定所述说话者的唇语的分词结果。
27.根据权利要求26所述的装置,其特征在于,所述第三确定单元,具体用于:
基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动起始点对应的视频帧图像;
基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的每个唇语单词的唇动结束点对应的视频帧图像。
28.根据权利要求26所述的装置,其特征在于,所述第三确定单元,包括:
第一确定子单元,用于基于所述视频帧图像的消噪滤波后的正向标准差和与第一预设阈值的比较结果,确定所述说话者的唇语单词的唇动总起始点对应的第一视频帧图像;
第二确定子单元,用于基于所述视频帧图像的消噪滤波后的逆向标准差和与第二预设阈值的比较结果,确定所述说话者的唇语单词的唇动总结束点对应的第二视频帧图像;
第一处理子单元,用于对所述第一视频帧图像与所述第二视频帧图像之间的第三视频帧图像进行均分处理,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像;
修正子单元,用于对所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第四视频帧图像进行修正,获得所述说话者的每个唇语单词的唇动起始点和唇动结束点分别对应的第五视频帧图像。
29.根据权利要求28所述的装置,其特征在于,所述修正子单元,具体用于:
基于所述第四视频帧图像的内唇面积以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积,确定所述第四视频帧图像的内唇面积变化率以及所述第四视频帧图像的在前视频帧图像和在后视频帧图像的内唇面积变化率;
确定所述内唇面积变化率的最大值对应的视频帧图像为所述第五视频帧图像。
30.根据权利要求16~29中任意一项权利要求所述的装置,其特征在于,所述获取模块,具体用于:
对所述视频帧序列中多个视频帧图像进行特征提取处理,获得所述多个视频帧图像的唇部特征点。
31.一种计算机可读存储介质,其上存储有计算机程序指令,其中,所述程序指令被处理器执行时实现权利要求1~15中任意一项权利要求所述的唇语的分词方法的步骤。
32.一种电子设备,包括:处理器和存储器,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1~15中任意一项权利要求所述的唇语的分词方法。
CN201810586014.4A 2018-06-08 2018-06-08 唇语的分词方法、装置、存储介质和电子设备 Active CN110580336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810586014.4A CN110580336B (zh) 2018-06-08 2018-06-08 唇语的分词方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810586014.4A CN110580336B (zh) 2018-06-08 2018-06-08 唇语的分词方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN110580336A CN110580336A (zh) 2019-12-17
CN110580336B true CN110580336B (zh) 2022-03-01

Family

ID=68808929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810586014.4A Active CN110580336B (zh) 2018-06-08 2018-06-08 唇语的分词方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110580336B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951730A (zh) * 2014-03-26 2015-09-30 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN105825167A (zh) * 2016-01-29 2016-08-03 维沃移动通信有限公司 一种提高唇语识别率的方法和移动终端

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101752B (zh) * 2007-07-19 2010-12-01 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN102004549B (zh) * 2010-11-22 2012-05-09 北京理工大学 一种适用于中文的自动唇语识别系统
CN103077368A (zh) * 2011-10-25 2013-05-01 上海银晨智能识别科技有限公司 人脸图像的嘴部定位方法与装置、嘴形识别方法及系统
CN102609969B (zh) * 2012-02-17 2013-08-07 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN107784215B (zh) * 2017-10-13 2018-10-26 上海交通大学 基于智能终端的声音装置进行唇读的用户认证方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951730A (zh) * 2014-03-26 2015-09-30 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN105825167A (zh) * 2016-01-29 2016-08-03 维沃移动通信有限公司 一种提高唇语识别率的方法和移动终端

Also Published As

Publication number Publication date
CN110580336A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
US11227147B2 (en) Face image processing methods and apparatuses, and electronic devices
CN108229322B (zh) 基于视频的人脸识别方法、装置、电子设备及存储介质
US11321593B2 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
WO2020228522A1 (zh) 目标跟踪方法、装置、存储介质及电子设备
US11244144B2 (en) Age recognition method, computer storage medium and electronic device
EP3746935A1 (en) Object detection based on neural network
CN108229301B (zh) 眼睑线检测方法、装置和电子设备
CN112308866B (zh) 图像处理方法、装置、电子设备及存储介质
KR102211763B1 (ko) 글자 검출 장치, 방법 및 시스템
CN108734078B (zh) 图像处理方法、装置、电子设备、存储介质及程序
CN113313083B (zh) 文本检测方法及装置
CN111081266B (zh) 一种训练生成对抗网络、语音增强方法及系统
US10977511B2 (en) Optical character recognition of series of images
CN110619334B (zh) 基于深度学习的人像分割方法、架构及相关装置
WO2017070923A1 (zh) 一种人脸识别方法和装置
Jachimski et al. A comparative study of English viseme recognition methods and algorithms
Bear et al. Resolution limits on visual speech recognition
Atila et al. Turkish lip-reading using Bi-LSTM and deep learning models
CN114445904A (zh) 基于全卷积神经网络的虹膜分割方法和装置、介质和设备
CN115132201A (zh) 唇语识别方法、计算机设备及存储介质
CN113706669B (zh) 动画合成方法、装置、电子设备及存储介质
CN114445825A (zh) 文字检测方法、装置、电子设备和存储介质
CN114332458A (zh) 图像处理方法、装置、电子设备及存储介质
CN111815748B (zh) 一种动画处理方法、装置、存储介质及电子设备
CN112329663B (zh) 一种基于人脸图像序列的微表情时刻检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant