CN113656644A - 手势语识别方法、装置、电子设备及存储介质 - Google Patents

手势语识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113656644A
CN113656644A CN202110846291.6A CN202110846291A CN113656644A CN 113656644 A CN113656644 A CN 113656644A CN 202110846291 A CN202110846291 A CN 202110846291A CN 113656644 A CN113656644 A CN 113656644A
Authority
CN
China
Prior art keywords
gesture
language
model
student
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110846291.6A
Other languages
English (en)
Other versions
CN113656644B (zh
Inventor
张恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110846291.6A priority Critical patent/CN113656644B/zh
Publication of CN113656644A publication Critical patent/CN113656644A/zh
Application granted granted Critical
Publication of CN113656644B publication Critical patent/CN113656644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种手势语识别方法、装置、电子设备及存储介质,该方法包括:对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面;通过手势检测模型分别对多个视频帧画面进行手势检测,得到多个视频帧画面的多个手势标签;通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息;输出所述手势语文本信息。本公开可以提高手势语的识别效率,实现了端到端的实时识别。

Description

手势语识别方法、装置、电子设备及存储介质
技术领域
本公开涉及图像识别技术,尤其涉及一种手势语识别方法、装置、电子设备及存储介质。
背景技术
随着网络的飞速发展,当前短视频平台的规模日益变大,越来越多的用户倾向于拍视频分享自己的日常生活。但是有一些特殊的群体使用短视频平台分享生活会存在一些困难,他们就是聋哑人群体。在我国有数以千万计的聋哑人群体,这是一个庞大的规模。因此如果有方法能自动化将聋哑人的手势语翻译成正常文字或者是声音供和其他用户交流,那将成为聋哑人群体的福音。
相关技术中,可以使用人工翻译、基于硬件设备(可穿戴设备等)或基于软件方法(比如基于图片特征值计算,复杂效率低的深度算法,库匹配的算法)来进行手势语的识别。其中,人工翻译主要基于人工进行实时翻译;基于硬件设备的方法需要手势语的使用人员穿戴可以识别手势语的可穿戴设备(例如可穿戴手套等);软件方法需要设计手势对应的数据库、一些针对手势姿势设计的一些算子,或者是一些基于深度学习的一些分类模型来进行识别。
人工翻译成本较高而且翻译效率低,基于硬件设备的方法硬件设备比较昂贵,这两种方式均难以普及。基于软件的方法在使用基于深度学习的分类模型进行识别时,只能针对一张图像识别出对应的手势语类别,无法对视频流进行识别,不能得到视频流中手势语的整体语句,做不到端到端的实时识别。
发明内容
本公开提供一种手势语识别方法、装置、电子设备及存储介质,以至少解决相关技术中无法进行端到端的实时识别的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种手势语识别方法,包括:
对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面;
通过手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签;
通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息;
输出所述手势语文本信息。
可选的,所述输出所述手势语文本信息,包括:
以文本形式展示所述手势语文本信息;或者
将所述手势语文本信息转换为语音信息,并播放所述语音信息。
可选的,所述对待识别视频进行抽帧处理,包括:
从待识别视频中每隔预设间隔抽取一帧视频帧画面;或者
确定所述待识别视频中相邻两帧视频帧画面的变化值,并根据所述变化值抽取视频帧画面。
可选的,所述手势检测模型为学生手势检测模型;
在所述通过手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签之前,还包括:
获取手势训练数据集,所述手势训练数据集中每个手势数据样本包括样本图像、手势部位标注和手势标签标注;
根据所述手势训练数据集,对教师手势检测模型进行训练,得到训练完成的教师手势检测模型;
根据所述手势训练数据集和所述教师手势检测模型,对学生手势检测模型进行蒸馏训练,得到蒸馏训练后的学生手势检测模型,所述学生手势检测模型的层数小于所述教师手势检测模型的层数。
可选的,所述根据所述手势训练数据集和所述教师手势检测模型,对学生手势检测模型进行蒸馏训练,得到蒸馏训练后的学生手势检测模型,包括:
通过学生手势检测模型对所述手势数据样本中的样本图像进行手势检测,获取所述学生检测模型输出的第一检测结果和中间层的第一输出向量;
通过训练完成的教师手势检测模型对所述手势数据样本中的样本图像进行手势检测,获取所述教师手势检测模型输出的第二检测结果和与所述第一输出向量相同维度的中间层的第二输出向量;
根据所述手势数据样本中的手势部位标注、手势标签标注、第一检测结果、第一输出向量、第二检测结果和第二输出向量,对所述学生手势检测模型的网络参数进行调整,得到蒸馏训练后的学生手势检测模型。
可选的,所述根据所述手势数据样本中的手势部位标注、手势标签标注、第一检测结果、第一输出向量、第二检测结果和第二输出向量,对所述学生手势检测模型的网络参数进行调整,包括:
根据所述第一检测结果、第一输出向量、第二检测结果和第二输出向量,确定所述学生手势检测模型相对于所述教师手势检测模型的蒸馏损失值;
根据所述手势数据样本中的手势部位标注、手势标签标注和第一检测结果,确定所述学生手势检测模型的目标损失值;
根据所述蒸馏损失值和所述目标损失值,对所述学生手势检测模型的网络参数进行调整。
可选的,所述获取手势训练数据集,包括:
获取带有手势语的多个视频数据,并对所述多个视频数据分别进行抽帧处理,得到带有手势语的多个样本图像;
获取对所述多个样本图像中的部分样本图像的人工标注数据,得到初始的手势训练数据集,所述人工标注数据包括手势部位标注和手势标签标注;
根据所述初始的手势训练数据集,通过半监督方式对未标注的样本图像进行标注,并将标注后的样本图像加入所述手势训练数据集。
可选的,所述根据所述初始的手势训练数据集,通过半监督方式对未标注的样本图像进行标注,并将标注后的样本图像加入所述手势训练数据集,包括:
根据已经标注的样本图像对检测模型进行训练,得到初始的教师模型;
通过所述初始的教师模型确定未标注的样本图像的手势部位标注和手势标签标注,得到机器标注数据;
对所述机器标注数据中的样本图像加入噪声数据,并将所述机器标注数据和加入噪声数据后的机器标注数据加入所述手势训练数据集;
通过扩充后的手势训练数据集对检测模型进行重新训练,得到学生模型;
将所述学生模型作为新的教师模型,并执行上述通过教师模型进行机器标注和重新训练的操作,直至手势训练数据集中的手势数据样本达到预设数据量。
可选的,在所述根据所述初始的手势训练数据集,通过半监督方式对未标注的样本图像进行标注之前,还包括:
对所述多个样本图像分别进行数据增强处理,并根据所述部分样本图像的人工标注数据,确定增强处理后的样本图像的标注数据,并将增强处理后的样本图像及标注数据加入所述初始的手势训练数据集。
可选的,所述数据增强处理包括:旋转处理、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动、颜色变换和遮挡处理中的至少一种。
可选的,所述根据所述手势训练数据集,对教师手势检测模型进行训练,得到训练完成的教师手势检测模型,包括:
通过教师手势检测模型中的骨干网络提取所述手势训练数据集中样本图像的图像特征,通过所述教师手势检测模型中的分类预测网络确定所述样本图像中的手势标签,并通过所述教师手势检测模型中的手势框预测网络确定所述样本图像中的手势部位;
根据所述手势标签、手势部位、手势部位标注和手势标签标注调整所述教师手势检测模型的网络参数,得到训练完成的教师手势检测模型。
可选的,所述语言模型为学生语言模型;
在所述通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息之前,还包括:
获取语言训练数据集,所述语言训练数据集中每个语言数据样本包括至少一个手势标签和文本信息标注;
根据所述语言训练数据集,对教师语言模型进行训练,得到训练完成的教师语言模型;
根据所述语言训练数据集和所述教师语言模型,对学生语言模型进行蒸馏训练,得到蒸馏训练后的学生语言模型,所述学生语言模型的层数小于所述教师语言模型的层数。
可选的,所述根据所述语言训练数据集和所述教师语言模型,对学生语言模型进行蒸馏训练,得到蒸馏训练后的学生语言模型,包括:
通过学生语言模型对所述语言数据样本进行处理,获取所述学生语言模型输出的第一识别结果和中间层的第一输出向量;
通过训练完成的教师语言模型对所述语言数据样本进行处理,获取所述教师语言模型输出的第二识别结果和与所述第一输出向量相同维度的中间层的第二输出向量;
根据所述语言数据样本中的文本信息标注、第一识别结果、第一输出向量、第二识别结果和第二输出向量,对所述学生语言模型的网络参数进行调整,得到蒸馏训练后的学生语言模型。
可选的,所述根据所述语言数据样本中的文本信息标注、第一识别结果、第一输出向量、第二识别结果和第二输出向量,对所述学生语言模型的网络参数进行调整,包括:
根据所述第一识别结果、第一输出向量、第二识别结果和第二输出向量,确定所述学生语言模型相对于所述教师语言模型的蒸馏损失值;
根据所述语言数据样本中的文本信息标注和所述第一识别结果,确定所述学生语言模型的目标损失值;
根据所述蒸馏损失值和所述目标损失值,对所述学生语言模型的网络参数进行调整。
可选的,根据所述语言训练数据集,对教师语言模型进行训练,得到训练完成的教师语言模型,包括:
根据所述语言训练数据集,对预训练的教师语言模型进行微调训练,得到训练完成的教师语言模型。
根据本公开实施例的第二方面,提供一种手势语识别装置,包括:
抽帧模块,被配置为执行对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面;
手势检测模块,被配置为执行通过手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签;
手势语识别模块,被配置为执行通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息;
输出模块,被配置为执行输出所述手势语文本信息。
可选的,所述输出模块具体被配置为执行:
以文本形式展示展示所述手势语文本信息;或者
将所述手势语文本信息转换为语音信息,并播放所述语音信息。
可选的,所述抽帧模块具体被配置为执行:
从待识别视频中每隔预设间隔抽取一帧视频帧画面;或者
确定所述待识别视频中相邻两帧视频帧画面的变化值,并根据所述变化值抽取视频帧画面。
可选的,所述手势检测模型为学生手势检测模型;
所述装置还包括:
手势数据集获取模块,被配置为执行获取手势训练数据集,所述手势训练数据集中每个数据样本包括样本图像、手势部位标注和手势标签标注;
教师检测模型训练模块,被配置为执行根据所述手势训练数据集,对教师手势检测模型进行训练,得到训练完成的教师手势检测模型;
学生检测模型训练模块,被配置为执行根据所述手势训练数据集和所述教师手势检测模型,对学生手势检测模型进行蒸馏训练,得到蒸馏训练后的学生手势检测模型,所述学生手势检测模型的层数小于所述教师手势检测模型的层数。
可选的,所述学生检测模型训练模块包括:
学生模型结果获取单元,被配置为执行通过学生手势检测模型对所述手势数据样本中的样本图像进行手势检测,获取所述学生检测模型输出的第一检测结果和中间层的第一输出向量;
教师模型结果获取单元,被配置为执行通过训练完成的教师手势检测模型对所述手势数据样本中的样本图像进行手势检测,获取所述教师手势检测模型输出的第二检测结果和与所述第一输出向量相同维度的中间层的第二输出向量;
检测模型蒸馏训练单元,被配置为执行根据所述手势数据样本中的手势部位标注、手势标签标注、第一检测结果、第一输出向量、第二检测结果和第二输出向量,对所述学生手势检测模型的网络参数进行调整,得到蒸馏训练后的学生手势检测模型。
可选的,所述检测模型蒸馏训练单元包括:
检测蒸馏损失确定子单元,被配置为执行根据所述第一检测结果、第一输出向量、第二检测结果和第二输出向量,确定所述学生手势检测模型相对于所述教师手势检测模型的蒸馏损失值;
检测目标损失确定子单元,被配置为执行根据所述手势数据样本中的手势部位标注、手势标签标注和第一检测结果,确定所述学生手势检测模型的目标损失值;
检测参数调整子单元,被配置为执行根据所述蒸馏损失值和所述目标损失值,对所述学生手势检测模型的网络参数进行调整。
可选的,所述手势数据集获取模块包括:
数据获取单元,被配置为执行获取带有手势语的多个视频数据,并对所述多个视频数据分别进行抽帧处理,得到带有手势语的多个样本图像;
人工标注数据获取单元,被配置为执行获取对所述多个样本图像中的部分样本图像的人工标注数据,得到初始的手势训练数据集,所述人工标注数据包括手势部位标注和手势标签标注;
半监督数据扩充单元,被配置为执行根据所述初始的手势训练数据集,通过半监督方式对未标注的样本图像进行标注,并将标注后的样本图像加入所述手势训练数据集。
可选的,所述半监督数据扩充单元具体被配置为执行:
根据已经标注的样本图像对检测模型进行训练,得到初始的教师模型;
通过所述初始的教师模型确定未标注的样本图像的手势部位标注和手势标签标注,得到机器标注数据;
对所述机器标注数据中的样本图像加入噪声数据,并将所述机器标注数据和加入噪声数据后的机器标注数据加入所述手势训练数据集;
通过扩充后的手势训练数据集对检测模型进行重新训练,得到学生模型;
将所述学生模型作为新的教师模型,并执行上述通过教师模型进行机器标注和重新训练的操作,直至手势训练数据集中的手势数据样本达到预设数据量。
可选的,所述手势数据集获取模块还包括:
数据增强单元,被配置为执行对所述多个样本图像分别进行数据增强处理,并根据所述部分样本图像的人工标注数据,确定增强处理后的样本图像的标注数据,并将增强处理后的样本图像及标注数据加入所述初始的手势训练数据集。
可选的,所述数据增强处理包括:旋转处理、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动、颜色变换和遮挡处理中的至少一种。
可选的,所述教师检测模型训练模块包括:
手势检测单元,被配置为执行通过教师手势检测模型中的骨干网络提取所述手势训练数据集中样本图像的图像特征,通过所述教师手势检测模型中的分类预测网络确定所述样本图像中的手势标签,并通过所述教师手势检测模型中的手势框预测网络确定所述样本图像中的手势部位;
网络参数调整单元,被配置为执行根据所述手势标签、手势部位、手势部位标注和手势标签标注调整所述教师手势检测模型的网络参数,得到训练完成的教师手势检测模型。
可选的,所述语言模型为学生语言模型;
所述装置还包括:
语言数据集获取模块,被配置为执行获取语言训练数据集,所述语言训练数据集中每个语言数据样本包括至少一个手势标签和文本信息标注;
教师语言模型训练模块,被配置为执行根据所述语言训练数据集,对教师语言模型进行训练,得到训练完成的教师语言模型;
学生语言模型训练模块,被配置为执行根据所述语言训练数据集和所述教师语言模型,对学生语言模型进行蒸馏训练,得到蒸馏训练后的学生语言模型,所述学生语言模型的层数小于所述教师语言模型的层数。
可选的,所述学生语言模型训练模块包括:
学生语言模型结果获取单元,被配置为执行通过学生语言模型对所述语言数据样本进行处理,获取所述学生语言模型输出的第一识别结果和中间层的第一输出向量;
教师语言模型结果获取单元,被配置为执行通过训练完成的教师语言模型对所述语言数据样本进行处理,获取所述教师语言模型输出的第二识别结果和与所述第一输出向量相同维度的中间层的第二输出向量;
语言模型蒸馏训练单元,被配置为执行根据所述语言数据样本中的文本信息标注、第一识别结果、第一输出向量、第二识别结果和第二输出向量,对所述学生语言模型的网络参数进行调整,得到蒸馏训练后的学生语言模型。
可选的,所述语言模型蒸馏训练单元包括:
语言蒸馏损失确定子单元,被配置为执行根据所述第一识别结果、第一输出向量、第二识别结果和第二输出向量,确定所述学生语言模型相对于所述教师语言模型的蒸馏损失值;
语言目标损失确定子单元,被配置执行根据所述语言数据样本中的文本信息标注和所述第一识别结果,确定所述学生语言模型的目标损失值;
语言网络参数调整子单元,被配置为执行根据所述蒸馏损失值和所述目标损失值,对所述学生语言模型的网络参数进行调整。
可选的,所述教师语言模型训练模块具体被配置执行:
根据所述语言训练数据集,对预训练的教师语言模型进行微调训练,得到训练完成的教师语言模型。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的手势语识别方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的手势语识别方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如第一方面所述的手势语识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开实施例通过对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面,通过手势检测模型分别对多个视频帧画面进行手势检测,得到多个视频帧画面的多个手势标签,通过语言模型对多个手势标签进行手势语识别,得到手势语文本信息,输出手势语文本信息,由于通过手势检测模型和语言模型配合来对视频进行手势语识别,实现了端到端的实时识别,可以提高手势语的识别效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种手势语识别方法的流程图。
图2是本公开实施例中的手势语识别方法的示意图;
图3是根据一示例性实施例示出的一种手势语识别方法的流程图;
图4是本公开实施例中的手势检测模型的蒸馏框架的结构图;
图5是根据一示例性实施例示出的一种手势语识别方法的流程图;
图6a和图6b是本公开实施例中的手势部位标注的示例图;
图7是本公开实施例中的使用半监督方式扩充数据的示意图;
图8是根据一示例性实施例示出的一种手势语识别方法的流程图;
图9是本公开实施例中的语言模型的蒸馏框架的结构图;
图10是根据一示例性实施例示出的一种手势语识别装置的框图;
图11是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种手势语识别方法的流程图,如图1所示,该方法用于手机、平板电脑、服务器等电子设备中,包括以下步骤。
在步骤S11中,对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面。
对包括手势动作的待识别视频进行抽帧处理,例如可以每隔0.1秒抽取一帧视频帧画面,从而得到多个视频帧画面。可以在每抽取到一个视频帧画面时,就将该视频帧画面输入后续的学生手势检测模型进行处理。
在一种可选的实施方式中,所述对待识别视频进行抽帧处理,包括:
从待识别视频中每隔预设间隔抽取一帧视频帧画面;或者
确定所述待识别视频中相邻两帧视频帧画面的变化值,并根据所述变化值抽取视频帧画面。
在进行抽帧处理时,可以从待识别视频中每隔预设间隔抽取一帧视频帧画面,例如每隔0.1秒抽取一帧视频帧画面;还可以根据相邻两帧视频帧画面的变化情况来抽取视频帧画面,这时首先从待识别视频中抽取第一帧视频帧画面,接下来确定待识别视频中相邻两帧视频帧画面的变化值,如果变化值满足一定条件,则抽取相邻两帧视频帧画面的后一帧视频帧画面,首先确定第一帧和第二帧视频帧画面的变化值,如果变化值不满足所述一定条件,则继续比较第二帧和第三帧视频帧画面以及后续相邻两帧视频帧画面的变化值,在变化值满足一定条件时抽取。其中,变化值可以使用颜色值的变化值,或者使用相似度来表示,在变化值为颜色值的变化值时,相邻两帧视频帧画面的颜色值的变化值大于一定颜色变化阈值时抽取一帧视频帧画面;在变化值为相似度时,相邻两帧视频帧画面的相似度小于一定相似度阈值时抽取一帧视频帧画面。
通过每隔预设间隔抽取一帧视频帧画面,可以较为快速的进行视频帧画面的抽取。通过相邻两帧视频帧画面的变化值来抽取视频帧画面,可以实时捕捉到变换的视频帧画面,相对于每隔预设间隔进行抽取,可以抽取到较为合适的视频帧画面,从而通过后续的识别可以识别到准确的手势语文本信息。
在步骤S12中,通过手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签。
其中,所述手势检测模型可以是一个轻量化模型,预测效率高。
将抽取到的多个视频帧画面分别输入手势检测模型,通过手势检测模型中的骨干网络提取视频帧画面的图像特征,通过手势检测模型中的分类预测网络确定视频帧画面中的手势标签和置信度,并通过手势检测模型中的手势框预测网络确定视频帧画面中的手势部位,并基于置信度确定每个视频帧画面的手势标签,多个视频帧画面分别进行这样的手势检测,得到每个视频帧画面的手势标签,从而多个视频帧画面得到多个手势标签。
在步骤S13中,通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息。
其中,所述学生语言模型可以是是一个轻量化模型,预测效率高。教师语言模型是一个较大的模型,模型较重,预测效率低。学生语言模型的层数远远小于教师语言模型的层数,学生语言模型是在训练完成的教师语言模型上进行蒸馏训练得到的,学生语言模型的输出结果逼近教师语言模型的输出结果。学生语言模型和教师语言模型均为编码器-解码器结构,从而通过一个输入序列可以实时得到一个对应的输出序列,可以实现端到端的实时处理。
将手势检测模型得到的多个手势标签输入语言模型,通过语言模型中的编码器对多个手势标签进行编码,得到编码向量,并通过语言模型中的解码器对编码向量进行解码,从而将多个手势标签翻译为较为通顺的手势语文本信息。其中,手势语表示手势动作所表示的语言,可以包括手语或手势舞等。
在步骤S14中,输出所述手势语文本信息。
将手势语文本信息进行输出,可以直接输出文本信息或者将手势语文本信息转换为语音信息进行播放。
在一种可选的实施方式中,所述输出所述手势语文本信息,包括:
以文本形式展示所述手势语文本信息;或者
将所述手势语文本信息转换为语音信息,并播放所述语音信息。
将上述翻译得到的手势语文本信息最终以文本的形式展示给用户,或者是调用语音接口,将手势语文本信息转化为语音信息,并播放出来,最终达到交流的目的。
图2是本公开实施例中的手势语识别方法的示意图,如图2所示,将抽取到的多个视频帧画面输入手势检测模型,通过手势检测模型分别对多个视频帧画面进行手势检测,得到多个手势标签;将手势检测模型得到的多个手势标签输入语言模型,通过语言模型对多个手势标签进行手势语识别,得到手势语文本信息,例如对图2所示的视频帧画面识别得到的手势语文本信息为“你好,今天天气真棒”;可以对识别得到的手势语文本信息进行输出,以进行显示或者语音播放。
本示例性实施例提供的手势语识别方法,通过对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面,通过手势检测模型分别对多个视频帧画面进行手势检测,得到多个视频帧画面的多个手势标签,通过语言模型对多个手势标签进行手势语识别,得到手势语文本信息,输出手势语文本信息,由于通过手势检测模型和语言模型配合来对视频进行手势语识别,实现了端到端的实时识别,可以提高手势语的识别效率。
图3是根据一示例性实施例示出的一种手势语识别方法的流程图,在上述示例性实施例的基础上,所述手势检测模型为学生手势检测模型,如图3所示,该方法用于服务器、计算机等电子设备中,包括以下步骤。
在步骤S31中,获取手势训练数据集,所述手势训练数据集中每个手势数据样本包括样本图像、手势部位标注和手势标签标注。
其中,所述手势部位标注是手势部位在样本图像中的边框标注。手势训练数据集中的手势数据样本部分是通过人工标注的,部分是基于人工标注的数据样本进行数据增强处理得到,还有基于人工标注的数据样本和数据增强处理得到的数据样本通过半监督方式对未标注的样本图像进行标注得到。手势标签是指手势动作所代表的手势含义。
在步骤S32中,根据所述手势训练数据集,对教师手势检测模型进行训练,得到训练完成的教师手势检测模型。
其中,所述教师手势检测模型包括骨干网络、分类预测网络和手势框预测网络。
将手势训练数据集中的数据样本分批输入教师手势检测模型,以对教师手势检测模型进行训练,在训练过程中,可以采用一系列训练技巧(soft label、soft nms、防止过拟合等)不断迭代训练模型,达到较好的手势识别效果,得到训练完成的教师手势检测模型。教师手势检测模型的输出结果包括手势标签、手势标签对应的置信度和手势部位对应的手势框。
在一个示例性实施例中,所述根据所述手势训练数据集,对教师手势检测模型进行训练,得到训练完成的教师手势检测模型,包括:通过教师手势检测模型中的骨干网络提取所述手势训练数据集中样本图像的图像特征,通过所述教师手势检测模型中的分类预测网络确定所述样本图像中的手势标签,并通过所述教师手势检测模型中的手势框预测网络确定所述样本图像中的手势部位;根据所述手势标签、手势部位、手势部位标注和手势标签标注调整所述教师手势检测模型的网络参数,得到训练完成的教师手势检测模型。
其中,教师手势检测模型中的骨干(Backbone)网络可以选取效果较好、模型较重的EfficientDet系列或Yolo系列的网络等,可以达到较好的手势识别效果。骨干网络还可以采用SOTA的特征抽取模型。
在对教师手势检测模型进行训练时,将手势训练数据集中的样本图像分批输入教师手势检测模型,首先通过教师检测模型中的骨干网络提取样本图像的图像特征;之后通过教师手势检测模型中的分类预测网络基于所述图像特征确定样本图像中的手势标签,并通过教师手势检测模型中的手势框预测网络基于所述图像特征确定样本图像中的手势部位,即得到手势部位在样本图像中的位置;基于一个手势数据样本通过手势检测模型输出的手势标签和手势部位,以及该手势数据样本中的手势部位标注和手势标签标注,对教师手势检测模型的网络参数进行调整,调整网络参数后,迭代执行通过下一批次的数据样本对教师手势检测模型的训练过程,直至教师手势检测模型收敛,得到训练完成的教师手势检测模型,训练过程中可以使用软标签(Soft label)、软非极大值抑制(Soft NMS)、防止过拟合等训练技巧进行迭代训练。教师手势检测模型包括骨干网络、分类预测网络和手势框预测网络,训练完成后通过这样的网络结构进行手势的检测,可以较为准确地确定手势部位和手势标签,提高手势识别的准确性。
在步骤S33中,根据所述手势训练数据集和所述教师手势检测模型,对学生手势检测模型进行蒸馏训练,得到蒸馏训练后的学生手势检测模型,所述学生手势检测模型的层数小于所述教师手势检测模型的层数。
教师手势检测模型是一个较大的模型,模型较重,预测效率低。学生手势检测模型的层数远远小于教师手势检测模型的层数,学生手势检测模型是在训练完成的教师手势检测模型上进行蒸馏训练得到的,学生手势检测模型的输出结果逼近教师手势检测模型的输出结果,学生手势检测模型可以部署于手机等电子设备中,以实现端到端的手势语识别。
在一个示例性实施例中,所述根据所述手势训练数据集和所述教师手势检测模型,对学生手势检测模型进行蒸馏训练,得到蒸馏训练后的学生手势检测模型,包括:通过学生手势检测模型对所述手势数据样本中的样本图像进行手势检测,获取所述学生手势检测模型输出的第一检测结果和中间层的第一输出向量;通过训练完成的教师手势检测模型对所述手势数据样本中的样本图像进行手势检测,获取所述教师手势检测模型输出的第二检测结果和与所述第一输出向量相同维度的中间层的第二输出向量;根据所述手势数据样本中的手势部位标注、手势标签标注、第一检测结果、第一输出向量、第二检测结果和第二输出向量,对所述学生手势检测模型的网络参数进行调整,得到蒸馏训练后的学生手势检测模型。
其中,教师手势检测模型的中间层中存在与学生手势检测模型的中间层相同维度的中间层,从而可以将教师手势检测模型学习到的知识迁移到学生手势检测模型中。
教师手势检测模型训练完成后,由于教师手势检测模型是一个规模较大的模型,检测效率较低,为了提高检测效率,可以使用教师手势检测模型对学生手势检测模型进行蒸馏训练,以将教师手势检测模型学习到的知识迁移到规模较小的学生手势检测模型中。
在对学生手势检测模型进行蒸馏训练时,将手势训练数据集中的数据样本分批输入学生手势检测模型,通过学生手势检测模型对样本图像进行手势检测,并获取学生手势检测模型输出的第一检测结果和学生手势检测模型的中间层的第一输出向量。
在将数据样本中的样本图像输入学生手势检测模型的同时,将该样本图像输入训练完成的教师手势检测模型,通过教师手势检测模型对该样本图像进行手势检测,得到第二检测结果,并获取教师手势检测模型的中间层中与第一输出向量相同维度的中间层的第二输出向量。
在对学生手势检测模型进行蒸馏训练的过程中,使得学生手势检测模型的中间层的第一输出向量和第一检测结果分别拟合教师检测模型中对应中间层的第二输出向量和第二检测结果,同时还需要学生手势检测模型输出的第一检测结果中的手势部位和手势标签拟合手势数据样本中的手势部位标注和手势标签标注,从而根据手势部位标注、手势标签标注、第一检测结果、第一输出向量、第二检测结果和第二输出向量,对所述学生手势检测模型的网络参数进行调整,得到蒸馏训练后的学生手势检测模型。通过蒸馏训练的方式将教师手势检测模型学习到的知识迁移到学生手势检测模型中,可以在保证手势检测准确性的基础上提高手势检测的效率,进而提升手势语的识别效率。
在一个示例性实施例中,所述根据所述手势数据样本中的手势部位标注、手势标签标注、第一检测结果、第一输出向量、第二检测结果和第二输出向量,对所述学生手势检测模型的网络参数进行调整,包括:根据所述第一检测结果、第一输出向量、第二检测结果和第二输出向量,确定所述学生手势检测模型相对于所述教师手势检测模型的蒸馏损失值;根据所述手势数据样本中的手势部位标注、手势标签标注和第一检测结果,确定所述学生手势检测模型的目标损失值;根据所述蒸馏损失值和所述目标损失值,对所述学生手势检测模型的网络参数进行调整。
图4是本公开实施例中的手势检测模型的蒸馏框架的结构图,如图4所示,一个手势数据样本中的样本图像在输入学生手势检测模型的同时输入训练完成的教师手势检测模型,获取学生手势检测模型输出的第一检测结果以及中间层输出的第一输出向量,并获取教师手势检测模型输出的第二检测结果以及与第一输出向量相同维度的中间层的第二输出向量;分别将第一检测结果拟合第二检测结果,将第一输出向量拟合对应的第二输出向量,并将拟合的差距作为蒸馏损失(Imitation Loss)值;同时,根据手势数据样本中的手势部位标注、手势标签标注和第一检测结果中的手势部位和手势标签,确定学生手势检测模型的目标损失值;结合蒸馏损失值和目标损失值,确定学生手势检测模型的网络参数的调整值,并对学生手势检测模型的网络参数进行调整。
通过根据蒸馏损失值来指导学生手势检测模型的训练,使得学生手势检测模型的输出结果逼近教师手势检测模型的效果,从而将教师手势检测模型学习到的知识迁移到学生手势检测模型中,提高学生手势检测模型的检测准确性。
在步骤S34中,对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面。
在步骤S35中,通过学生手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签。
在步骤S36中,通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息。
在步骤S37中,输出所述手势语文本信息。
本示例性实施例提供的手势语识别方法,通过先基于手势训练数据集对比较大的教师手势检测模型进行训练,之后基于训练完成的教师手势检测模型对轻量型的学生手势检测模型进行蒸馏训练,使得学生手势检测模型输出的第一检测结果中间层的第一输出向量分别拟合教师手势检测模型的第二检测结果和中间层的第二输出向量,学生手势检测模型训练完成后的检测结果可以逼近教师手势检测模型的效果,从而在进行手势语识别时可以直接使用学生手势检测模型进行手势检测,相对于教师手势检测模型学生手势检测模型可以大大提高检测速度,提高检测效率。
图5是根据一示例性实施例示出的一种手势语识别方法的流程图,如图5所示,该方法用于服务器、计算机等电子设备中,包括以下步骤。
在步骤S51中,获取带有手势语的多个视频数据,并对所述多个视频数据分别进行抽帧处理,得到带有手势语的多个样本图像。
可以爬取部分电视节目等带手语翻译的多个视频数据,对爬取到的多个视频数据分别进行抽帧处理,得到带有手势语的多个样本图像。
在步骤S52中,获取对所述多个样本图像中的部分样本图像的人工标注数据,得到初始的手势训练数据集,所述人工标注数据包括手势部位标注和手势标签标注。
对获取到的多个样本图像中的一部分可以人工标注手势部位以及手势标签(即手势代表的含义),得到手势部位标注和手势标签标注,还可以结合一个或多个样本图像标注翻译出来的明文(即文本信息),得到文本信息标注。文本信息标注和多个样本图像的手势标签标注可以用于作为后续的语言模型的训练数据。
还可以获取专业手语人员构造的手语关键手势以及翻译成明文的数据,得到样本图像中的手势部位标注和手势标签标注,以及一个或多个样本图像中手势翻译出来的明文,如图6a和图6b所示,图6a所示的手势标签为排队、排成一列等,图6b所示的手势标签为等待、等候、稍等等,由这两个样本图像中的手势翻译得到的文本信息标注为“请排队等候”。即样本图像中的数据标注包括手势部位标注、手势标签标注和文本信息标注。
通过上述的人工标注方式得到部分的手势语标注数据,即得到初始的训练数据集,剩余未标注的样本图像可供半监督方式扩充数据。
在步骤S53中,根据所述初始的手势训练数据集,通过半监督方式对未标注的样本图像进行标注,并将标注后的样本图像加入所述手势训练数据集。
初始的手势训练数据集中的手势数据样本均进行了数据标注,这些只是部分数据,未能达到训练手势检测模型的数据规模,如果完全靠人工进行数据标注,效率较低而且人工成本较高,为了解决这个问题,可以采用半监督方式对未标注的样本图像进行标注。通过半监督方式对未标注的样本图像进行标注时,可以首先基于初始的手势训练数据集训练一个检测模型,将训练完成的检测模型作为教师模型,通过教师模型对未标注的样本图像进行标注,并将标注后的样本图像加入训练数据集。
在一个示例性实施例中,所述根据所述初始的手势训练数据集,通过半监督方式对未标注的样本图像进行标注,并将标注后的样本图像加入所述手势训练数据集,包括:根据已经标注的样本图像对检测模型进行训练,得到初始的教师模型;通过所述初始的教师模型确定未标注的样本图像的手势部位标注和手势标签标注,得到机器标注数据;对所述机器标注数据中的样本图像加入噪声数据,并将所述机器标注数据和加入噪声数据后的机器标注数据加入所述训练数据集;通过扩充后的手势训练数据集对检测模型进行重新训练,得到学生模型;将所述学生模型作为新的教师模型,并执行上述通过教师模型进行机器标注和重新训练的操作,直至手势训练数据集中的数据样本达到预设数据量。
图7是本公开实施例中的使用半监督方式扩充数据的示意图,如图7所示,使用半监督方式扩充数据,包括:
步骤1,用标注数据训练一个或多个教师模型。
使用初始的手势训练数据集中的一部分数据样本对一个或多个检测模型进行训练,一个检测模型训练完成后可以识别一个或多个手势标签,训练完成的检测模型作为初始的教师模型。此处的检测模型训练完成后只是用于标注数据,和上述的教师手势检测模型和学生手势检测模型无关。
步骤2,通过教师模型对未标注数据打上标签。
综合一个或多个教师模型通过半监督的方式对未标注的样本图像进行手势标签标注和手势部位标注,得到机器标注数据;对机器标注数据中的样本图像加入噪声数据,得到更多的机器标注数据,进一步提升标注数据的规模,将初始的机器标注数据和加入噪声数据后的机器标注数据加入训练数据集。
步骤3,混合训练数据集上训练学生模型。
然后通过扩充后的标注数据重新训练检测模型,训练完成的检测模型作为学生模型。通过初始的手势训练数据集中的标注数据对学生模型进行微调。
步骤4,将学生模型作为新的教师模型,迭代执行步骤2-步骤4,直至手势训练数据集中的数据样本达到预设数据量。
通过上述积累得到的大量已标注数据作为最终的手势训练数据集,手势训练数据集中的数据样本包括样本图像,以及在样本图像上的手势部位标注和对应的手势标签标注;数据样本还包括与一个或多个手势标签对应的文本信息标注(即通顺的明文),得到这两种类型的数据样本,分别作为后续手势检测模型和语言模型的训练数据集。
通过上述的半监督方式标注扩充训练数据,降低了人工工作量,提升了标注数据的规模,可以进一步提升对手势检测的效果以及手势语识别的效果。
在一个示例性实施例中,在所述根据所述初始的手势训练数据集,通过半监督方式对未标注的样本图像进行标注之前,还包括:对所述多个样本图像分别进行数据增强处理,并根据所述部分样本图像的人工标注数据,确定增强处理后的样本图像的标注数据,并将增强处理后的样本图像及标注数据加入所述初始的手势训练数据集。
其中,所述数据增强处理包括:旋转处理、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动、颜色变换和遮挡处理中的至少一种。
在得到人工标注数据后,对人工标注数据中的样本图像进行数据增强处理,同时对未标注的样本图像也进行数据增强处理,即对样本图像进行旋转处理、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动、颜色变换和遮挡处理等处理,对于人工标注数据在增强处理的同时手势部位的检测框也同步变化,而且手势标签和原样本图像相同,从而一张样本图像可以得到多张增强后的样本图像,这样将得到大量增强后的样本图像,可以提升手势检测模型的鲁棒性。
在步骤S54中,根据所述手势训练数据集,对教师手势检测模型进行训练,得到训练完成的教师手势检测模型。
在步骤S55中,根据所述手势训练数据集和所述教师手势检测模型,对学生手势检测模型进行蒸馏训练,得到蒸馏训练后的学生手势检测模型,所述学生手势检测模型的层数小于所述教师手势检测模型的层数。
在步骤S56中,对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面。
在步骤S57中,通过手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签。
在步骤S58中,通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息。
在步骤S59中,输出所述手势语文本信息。
本示例性实施例提供的手势语识别方法,通过在人工标注部分样本数据后,使用半监督的方式来对未标注的样本图像进行标注,扩充了训练数据,降低了人工工作量,提升了标注数据的规模。
图8是根据一示例性实施例示出的一种手势语识别方法的流程图,本示例性实施例在上述示例性实施例的基础上,所述语言模型为学生语言模型。如图8所示,该方法用于服务器、计算机等电子设备中,包括以下步骤。
在步骤S81中,获取语言训练数据集,所述语言训练数据集中每个语言数据样本包括至少一个手势标签和文本信息标注。
本示例性实施例中,语言训练数据集中的每个语言数据样本包括至少一个手势标签和文本信息标注。其中,手势标签是一个手势所表示的含义,也即手势语代表的基本单词,文本信息标注是至少一个手势标签对应的通顺的明文。
语言训练数据集中的数据样本可以通过人工标注获得,还可以通过上述示例性实施例中的半监督方式获得,还可以通过网络资源爬取获得。
在步骤S82中,根据所述语言训练数据集,对教师语言模型进行训练,得到训练完成的教师语言模型。
教师语言模型是一个翻译器(Transformer),包括编码器和解码器。
将训练数据集中的数据样本分批输入教师语言模型,基于教师语言模型的输出结果和数据样本中的文本信息标注,对教师语言模型的网络参数进行调整,迭代执行对教师语言模型的训练过程,直至教师语言模型收敛,得到训练完成的教师语言模型。
在一个示例性实施例中,根据所述语言训练数据集,对教师语言模型进行训练,得到训练完成的教师语言模型,包括:根据所述语言训练数据集,对预训练的教师语言模型进行微调训练,得到训练完成的教师语言模型。
其中,预训练的教师语言模型是采用大规模语料预训练的语言模型。
这里采用迁移学习的策略,采用大规模语料预训练的语言模型,在手势语数据即所述语言训练数据集上进行微调训练,这样做的好处是使用较少的训练数据就能得到好的教师语言模型。通过语言训练数据不断迭代训练教师语言模型,达到期望的效果。教师语言模型中的编码器(encoder)和解码器(decoder)可以采用较多的层数,这样可以达到较好的翻译效果。可以将得到的较大的教师语言模型进行后续的蒸馏工作,得到轻量级的学生语言模型,加快预测速度。
在步骤S83中,根据所述语言训练数据集和所述教师语言模型,对学生语言模型进行蒸馏训练,得到蒸馏训练后的学生语言模型,所述学生语言模型的层数小于所述教师语言模型的层数。
其中,所述教师语言模型的结构为编码器-解码器结构,所述学生语言模型的结构为编码器-解码器结构。学生语言模型和教师语言模型均为编码器-解码器结构,学生语言模型中的编码器和解码器的层数均小于教师语言模型中的编码器和解码器的层数。
因为翻译效果较好的语言模型耗时较高,为了实现耗时较小的小模型,可以用知识蒸馏的方法将翻译效果较好的教师语言模型的效果移植到耗时较小的小模型中,即移植到学生语言模型中,即基于教师语言模型对学生语言模型进行蒸馏训练,得到蒸馏训练后的学生语言模型。
在一个示例性实施例中,所述根据所述语言训练数据集和所述教师语言模型,对学生语言模型进行蒸馏训练,得到蒸馏训练后的学生语言模型,包括:通过学生语言模型对所述语言数据样本进行处理,获取所述学生语言模型输出的第一识别结果和中间层的第一输出向量;通过训练完成的教师语言模型对所述语言数据样本进行处理,获取所述教师语言模型输出的第二识别结果和与所述第一输出向量相同维度的中间层的第二输出向量;根据所述语言数据样本中的文本信息标注、第一识别结果、第一输出向量、第二识别结果和第二输出向量,对所述学生语言模型的网络参数进行调整,得到蒸馏训练后的学生语言模型。
其中,教师语言模型的中间层中存在与学生语言模型的中间层相同维度的中间层,从而可以将教师语言模型学习到的知识迁移到学生语言模型中。
在对学生语言模型进行蒸馏训练时,将语言训练数据集中的数据样本分批对学生语言模型进行训练,获取学生语言模型输出的第一识别结果和中间层的第一输出向量,后续使得学生语言模型的第一识别结果和第一输出向量分别拟合教师语言模型的输出结果和中间层的输出向量。
在将数据样本输入学生语言模型的同时,将数据样本输入训练完成的教师语言模型,获取教师语言模型输出的第二识别结果和与第一输出向量相同维度的中间层的第二输出向量。
在对学生语言模型进行蒸馏训练的过程中,使得学生语言模型的中间层的第一输出向量和第一识别结果分别拟合教师语言模型中对应中间层的第二输出向量和第二识别结果,同时还需要学生语言模型输出的第一识别结果拟合语言数据样本中的文本信息标注,从而根据文本信息标注、第一识别结果、第一输出向量、第二识别结果和第二输出向量,对所述学生手势检测模型的网络参数进行调整,得到蒸馏训练后的学生语言模型。通过蒸馏训练的方式将教师语言模型学习到的知识迁移到学生语言模型中,可以在保证手势语识别准确性的基础上提高手势语识别的效率。
在一个示例性实施例中,所述根据所述语言数据样本中的文本信息标注、第一识别结果、第一输出向量、第二识别结果和第二输出向量,对所述学生语言模型的网络参数进行调整,包括:根据所述第一识别结果、第一输出向量、第二识别结果和第二输出向量,确定所述学生语言模型相对于所述教师语言模型的蒸馏损失值;根据所述语言数据样本中的文本信息标注和所述第一识别结果,确定所述学生语言模型的目标损失值;根据所述蒸馏损失值和所述目标损失值,对所述学生语言模型的网络参数进行调整。
图9是本公开实施例中的语言模型的蒸馏框架的结构图,如图9所示,教师语言模型的层数N远大于学生语言模型的层数M,一个语言数据样本同时输入待训练的学生语言模型和训练完成的教师语言模型,通过两个语言模型分别进行处理;获取学生语言模型输出的第一识别结果和中间层的第一输出向量,并获取教师语言模型输出的第二识别结果和中间层的第二输出向量;分别将第一识别结果拟合第二识别结果,将第一输出向量拟合对应的第二输出向量,并将拟合的差距作为蒸馏损失(Imitation Loss)值;同时,根据语言数据样本中的文本信息标注和第一识别结果,确定学生语言模型的目标损失值;结合蒸馏损失值和目标损失值,确定学生语言模型的网络参数的调整值,并对学生语言模型的网络参数进行调整。
通过根据蒸馏损失值来指导学生语言模型的训练,使得学生语言模型的输出结果逼近教师语言模型的效果,从而将教师语言模型学习到的知识迁移到学生语言模型中,提高学生语言模型的识别准确性。
在步骤S84中,对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面。
在步骤S85中,通过手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签。
在步骤S86中,通过学生语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息。
在步骤S87中,输出所述手势语文本信息。
本示例性实施例提供的手势语识别方法,通过先基于语言训练数据集对比较大的教师语言模型进行训练,之后基于训练完成的教师语言模型对轻量型的学生语言模型进行蒸馏训练,使得学生语言模型输出的第一识别结果和中间层的第一输出向量分别拟合教师语言模型的第二识别结果和中间层的第二输出向量,学生语言模型训练完成后的检测结果可以逼近教师语言模型的效果,而且相对于教师语言模型可以大大提高翻译速度,提高手势语的识别效率。
图10是根据一示例性实施例示出的一种手势语识别装置的框图,该装置可以配置于手机、平板电脑、服务器等电子设备中。参照图10,该装置包括抽帧模块101、手势检测模块102、手势语识别模块103和输出模块104。
抽帧模块101,被配置为执行对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面;
手势检测模块102,被配置为执行通过手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签;
手势语识别模块103,被配置为执行通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息;
输出模块104,被配置为执行输出所述手势语文本信息。
可选的,所述输出模块具体被配置为执行:
以文本形式展示展示所述手势语文本信息;或者
将所述手势语文本信息转换为语音信息,并播放所述语音信息。
可选的,所述抽帧模块具体被配置为执行:
从待识别视频中每隔预设间隔抽取一帧视频帧画面;或者
确定所述待识别视频中相邻两帧视频帧画面的变化值,并根据所述变化值抽取视频帧画面。
可选的,所述手势检测模型为学生手势检测模型;
所述装置还包括:
手势数据集获取模块,被配置为执行获取手势训练数据集,所述手势训练数据集中每个数据样本包括样本图像、手势部位标注和手势标签标注;
教师检测模型训练模块,被配置为执行根据所述手势训练数据集,对教师手势检测模型进行训练,得到训练完成的教师手势检测模型;
学生检测模型训练模块,被配置为执行根据所述手势训练数据集和所述教师手势检测模型,对学生手势检测模型进行蒸馏训练,得到蒸馏训练后的学生手势检测模型,所述学生手势检测模型的层数小于所述教师手势检测模型的层数。
可选的,所述学生检测模型训练模块包括:
学生模型结果获取单元,被配置为执行通过学生手势检测模型对所述手势数据样本中的样本图像进行手势检测,获取所述学生检测模型输出的第一检测结果和中间层的第一输出向量;
教师模型结果获取单元,被配置为执行通过训练完成的教师手势检测模型对所述手势数据样本中的样本图像进行手势检测,获取所述教师手势检测模型输出的第二检测结果和与所述第一输出向量相同维度的中间层的第二输出向量;
检测模型蒸馏训练单元,被配置为执行根据所述手势数据样本中的手势部位标注、手势标签标注、第一检测结果、第一输出向量、第二检测结果和第二输出向量,对所述学生手势检测模型的网络参数进行调整,得到蒸馏训练后的学生手势检测模型。
可选的,所述检测模型蒸馏训练单元包括:
检测蒸馏损失确定子单元,被配置为执行根据所述第一检测结果、第一输出向量、第二检测结果和第二输出向量,确定所述学生手势检测模型相对于所述教师手势检测模型的蒸馏损失值;
检测目标损失确定子单元,被配置为执行根据所述手势数据样本中的手势部位标注、手势标签标注和第一检测结果,确定所述学生手势检测模型的目标损失值;
检测参数调整子单元,被配置为执行根据所述蒸馏损失值和所述目标损失值,对所述学生手势检测模型的网络参数进行调整。
可选的,所述手势数据集获取模块包括:
数据获取单元,被配置为执行获取带有手势语的多个视频数据,并对所述多个视频数据分别进行抽帧处理,得到带有手势语的多个样本图像;
人工标注数据获取单元,被配置为执行获取对所述多个样本图像中的部分样本图像的人工标注数据,得到初始的手势训练数据集,所述人工标注数据包括手势部位标注和手势标签标注;
半监督数据扩充单元,被配置为执行根据所述初始的手势训练数据集,通过半监督方式对未标注的样本图像进行标注,并将标注后的样本图像加入所述手势训练数据集。
可选的,所述半监督数据扩充单元具体被配置为执行:
根据已经标注的样本图像对检测模型进行训练,得到初始的教师模型;
通过所述初始的教师模型确定未标注的样本图像的手势部位标注和手势标签标注,得到机器标注数据;
对所述机器标注数据中的样本图像加入噪声数据,并将所述机器标注数据和加入噪声数据后的机器标注数据加入所述手势训练数据集;
通过扩充后的手势训练数据集对检测模型进行重新训练,得到学生模型;
将所述学生模型作为新的教师模型,并执行上述通过教师模型进行机器标注和重新训练的操作,直至手势训练数据集中的手势数据样本达到预设数据量。
可选的,所述手势数据集获取模块还包括:
数据增强单元,被配置为执行对所述多个样本图像分别进行数据增强处理,并根据所述部分样本图像的人工标注数据,确定增强处理后的样本图像的标注数据,并将增强处理后的样本图像及标注数据加入所述初始的手势训练数据集。
可选的,所述数据增强处理包括:旋转处理、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动、颜色变换和遮挡处理中的至少一种。
可选的,所述教师检测模型训练模块包括:
手势检测单元,被配置为执行通过教师手势检测模型中的骨干网络提取所述手势训练数据集中样本图像的图像特征,通过所述教师手势检测模型中的分类预测网络确定所述样本图像中的手势标签,并通过所述教师手势检测模型中的手势框预测网络确定所述样本图像中的手势部位;
网络参数调整单元,被配置为执行根据所述手势标签、手势部位、手势部位标注和手势标签标注调整所述教师手势检测模型的网络参数,得到训练完成的教师手势检测模型。
可选的,所述语言模型为学生语言模型;
所述装置还包括:
语言数据集获取模块,被配置为执行获取语言训练数据集,所述语言训练数据集中每个语言数据样本包括至少一个手势标签和文本信息标注;
教师语言模型训练模块,被配置为执行根据所述语言训练数据集,对教师语言模型进行训练,得到训练完成的教师语言模型;
学生语言模型训练模块,被配置为执行根据所述语言训练数据集和所述教师语言模型,对学生语言模型进行蒸馏训练,得到蒸馏训练后的学生语言模型,所述学生语言模型的层数小于所述教师语言模型的层数。
可选的,所述学生语言模型训练模块包括:
学生语言模型结果获取单元,被配置为执行通过学生语言模型对所述语言数据样本进行处理,获取所述学生语言模型输出的第一识别结果和中间层的第一输出向量;
教师语言模型结果获取单元,被配置为执行通过训练完成的教师语言模型对所述语言数据样本进行处理,获取所述教师语言模型输出的第二识别结果和与所述第一输出向量相同维度的中间层的第二输出向量;
语言模型蒸馏训练单元,被配置为执行根据所述语言数据样本中的文本信息标注、第一识别结果、第一输出向量、第二识别结果和第二输出向量,对所述学生语言模型的网络参数进行调整,得到蒸馏训练后的学生语言模型。
可选的,所述语言模型蒸馏训练单元包括:
语言蒸馏损失确定子单元,被配置为执行根据所述第一识别结果、第一输出向量、第二识别结果和第二输出向量,确定所述学生语言模型相对于所述教师语言模型的蒸馏损失值;
语言目标损失确定子单元,被配置执行根据所述语言数据样本中的文本信息标注和所述第一识别结果,确定所述学生语言模型的目标损失值;
语言网络参数调整子单元,被配置为执行根据所述蒸馏损失值和所述目标损失值,对所述学生语言模型的网络参数进行调整。
可选的,所述教师语言模型训练模块具体被配置执行:
根据所述语言训练数据集,对预训练的教师语言模型进行微调训练,得到训练完成的教师语言模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图11是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备1100可以被提供为一服务器、手机、平板电脑等。参照图11,电子设备1100包括处理组件1122,其进一步包括一个或多个处理器,以及由存储器1132所代表的存储器资源,用于存储可由处理组件1122的执行的指令,例如应用程序。存储器1132中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1122被配置为执行指令,以执行上述手势语识别方法。
电子设备1100还可以包括一个电源组件1126被配置为执行电子设备1100的电源管理,一个有线或无线网络接口1150被配置为将电子设备1100连接到网络,和一个输入输出(I/O)接口1158。电子设备1100可以操作基于存储在存储器1132的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器1132,上述指令可由电子设备1100的处理组件1122执行以完成上述手势语识别方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现上述手势语识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种手势语识别方法,其特征在于,包括:
对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面;
通过手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签;
通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息;
输出所述手势语文本信息。
2.根据权利要求1所述的方法,其特征在于,所述输出所述手势语文本信息,包括:
以文本形式展示所述手势语文本信息;或者
将所述手势语文本信息转换为语音信息,并播放所述语音信息。
3.根据权利要求1所述的方法,其特征在于,所述对待识别视频进行抽帧处理,包括:
从待识别视频中每隔预设间隔抽取一帧视频帧画面;或者
确定所述待识别视频中相邻两帧视频帧画面的变化值,并根据所述变化值抽取视频帧画面。
4.根据权利要求1所述的方法,其特征在于,所述手势检测模型为学生手势检测模型;
在所述通过手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签之前,还包括:
获取手势训练数据集,所述手势训练数据集中每个手势数据样本包括样本图像、手势部位标注和手势标签标注;
根据所述手势训练数据集,对教师手势检测模型进行训练,得到训练完成的教师手势检测模型;
根据所述手势训练数据集和所述教师手势检测模型,对学生手势检测模型进行蒸馏训练,得到蒸馏训练后的学生手势检测模型,所述学生手势检测模型的层数小于所述教师手势检测模型的层数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述手势训练数据集和所述教师手势检测模型,对学生手势检测模型进行蒸馏训练,得到蒸馏训练后的学生手势检测模型,包括:
通过学生手势检测模型对所述手势数据样本中的样本图像进行手势检测,获取所述学生手势检测模型输出的第一检测结果和中间层的第一输出向量;
通过训练完成的教师手势检测模型对所述手势数据样本中的样本图像进行手势检测,获取所述教师手势检测模型输出的第二检测结果和与所述第一输出向量相同维度的中间层的第二输出向量;
根据所述手势数据样本中的手势部位标注、手势标签标注、第一检测结果、第一输出向量、第二检测结果和第二输出向量,对所述学生手势检测模型的网络参数进行调整,得到蒸馏训练后的学生手势检测模型。
6.根据权利要求1所述的方法,其特征在于,所述语言模型为学生语言模型;
在所述通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息之前,还包括:
获取语言训练数据集,所述语言训练数据集中每个语言数据样本包括至少一个手势标签和文本信息标注;
根据所述语言训练数据集,对教师语言模型进行训练,得到训练完成的教师语言模型;
根据所述语言训练数据集和所述教师语言模型,对学生语言模型进行蒸馏训练,得到蒸馏训练后的学生语言模型,所述学生语言模型的层数小于所述教师语言模型的层数。
7.一种手势语识别装置,其特征在于,包括:
抽帧模块,被配置为执行对待识别视频进行抽帧处理,得到抽取到的多个视频帧画面;
手势检测模块,被配置为执行通过手势检测模型分别对所述多个视频帧画面进行手势检测,得到所述多个视频帧画面的多个手势标签;
手势语识别模块,被配置为执行通过语言模型对所述多个手势标签进行手势语识别,得到手势语文本信息;
输出模块,被配置为执行输出所述手势语文本信息。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的手势语识别方法。
9.一种计算机可读存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至6中任一项所述的手势语识别方法。
10.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现如权利要求1至6中任一项所述的手势语识别方法。
CN202110846291.6A 2021-07-26 2021-07-26 手势语识别方法、装置、电子设备及存储介质 Active CN113656644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110846291.6A CN113656644B (zh) 2021-07-26 2021-07-26 手势语识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110846291.6A CN113656644B (zh) 2021-07-26 2021-07-26 手势语识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113656644A true CN113656644A (zh) 2021-11-16
CN113656644B CN113656644B (zh) 2024-03-15

Family

ID=78478729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110846291.6A Active CN113656644B (zh) 2021-07-26 2021-07-26 手势语识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113656644B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322760A (zh) * 2019-07-08 2019-10-11 北京达佳互联信息技术有限公司 语音数据生成方法、装置、终端及存储介质
CN110998716A (zh) * 2017-08-11 2020-04-10 微软技术许可有限责任公司 经由教师-学生学习在话音识别中进行的域自适应
CN111027403A (zh) * 2019-11-15 2020-04-17 深圳市瑞立视多媒体科技有限公司 手势估计方法、装置、设备及计算机可读存储介质
CN112699758A (zh) * 2020-12-23 2021-04-23 平安银行股份有限公司 基于动态手势识别的手语翻译方法、装置、计算机设备及存储介质
US20210124881A1 (en) * 2019-10-24 2021-04-29 Beijing Xiaomi Intelligent Technology Co., Ltd. Neural network model compresesion method, corpus translation method and device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110998716A (zh) * 2017-08-11 2020-04-10 微软技术许可有限责任公司 经由教师-学生学习在话音识别中进行的域自适应
CN110322760A (zh) * 2019-07-08 2019-10-11 北京达佳互联信息技术有限公司 语音数据生成方法、装置、终端及存储介质
US20210124881A1 (en) * 2019-10-24 2021-04-29 Beijing Xiaomi Intelligent Technology Co., Ltd. Neural network model compresesion method, corpus translation method and device
CN111027403A (zh) * 2019-11-15 2020-04-17 深圳市瑞立视多媒体科技有限公司 手势估计方法、装置、设备及计算机可读存储介质
CN112699758A (zh) * 2020-12-23 2021-04-23 平安银行股份有限公司 基于动态手势识别的手语翻译方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113656644B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN107239801B (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN111563383A (zh) 一种基于BERT与SemiCRF的中文命名实体识别方法
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN110580500A (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
CN111738251A (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN110428820A (zh) 一种中英文混合语音识别方法及装置
CN112070114B (zh) 基于高斯约束注意力机制网络的场景文字识别方法及系统
CN111709242A (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111259197B (zh) 一种基于预编码语义特征的视频描述生成方法
CN111046148A (zh) 智能交互系统及智能客服机器人
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN114302157B (zh) 属性标签识别、代播事件检测方法及其装置、设备、介质
CN115954001A (zh) 语音识别方法和模型训练方法
CN113989577B (zh) 图像分类方法及装置
CN115618022A (zh) 一种基于数据合成和两阶段自训练的低资源关系抽取方法
Tymoshenko et al. Real-Time Ukrainian Text Recognition and Voicing.
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN113656644B (zh) 手势语识别方法、装置、电子设备及存储介质
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN115599953A (zh) 视频文本检索模型的训练方法、检索方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant