CN117351575A - 基于文生图数据增强模型的非言语行为识别方法和装置 - Google Patents
基于文生图数据增强模型的非言语行为识别方法和装置 Download PDFInfo
- Publication number
- CN117351575A CN117351575A CN202311650373.9A CN202311650373A CN117351575A CN 117351575 A CN117351575 A CN 117351575A CN 202311650373 A CN202311650373 A CN 202311650373A CN 117351575 A CN117351575 A CN 117351575A
- Authority
- CN
- China
- Prior art keywords
- graph
- text
- model
- nonverbal
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000006399 behavior Effects 0.000 claims abstract description 203
- 238000009792 diffusion process Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000001755 vocal effect Effects 0.000 claims description 11
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000002787 reinforcement Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 18
- 230000006854 communication Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 241001310793 Podium Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Social Psychology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于文生图数据增强模型的非言语行为识别方法和装置,涉及人工智能教育应用技术领域,所述方法包括:获取待识别的原始图像,将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图;其中,所述文生图数据增强模型包括稳定扩散子模型和控制网络子模型;将所述待识别的原始图像和所述待识别的全课堂教学场景图作为原始数据集,将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为;其中,所述非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。通过本发明提供的方法,保证非言语行为识别准确率高。
Description
技术领域
本发明涉及人工智能教育应用技术领域,尤其涉及一种基于文生图数据增强模型的非言语行为识别方法和装置。
背景技术
教师课堂行为,包括言语与非言语教学行为,是评价教师教学能力的重要标准,而教师非言语教学行为是师生交流过程中的重要组成部分,是评价教师课堂表现的重要依据。
现有技术中,教师非言语教学行为分析流程大多为:1)利用目标检测模型对教师目标进行识别;2)利用人体关键点检测模型识别教师关键点;3)利用深度学习或机器学习方法建立教师关键点与教师教学行为之间的关系模型,从而预测教师非言语教学行为。这一流程中,使用目标检测模型对教师非言语教学行为进行分析,分析视角过于狭窄,会忽视教室场景下其他有关教师行为的重要信息,如师生交互、教学体距语等,导致教师非言语教学行为识别准确率低、性能差。
因此,如何提高教师非言语教学行为的识别准确率,是目前需要解决的技术问题。
发明内容
本发明提供一种基于文生图数据增强模型的非言语行为识别方法和装置,用以解决现有技术中存在的缺陷。
本发明提供一种基于文生图数据增强模型的非言语行为识别方法,包括:
获取待识别的原始图像,将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图;
其中,所述文生图数据增强模型包括稳定扩散子模型和控制网络子模型;
将所述待识别的原始图像和所述待识别的全课堂教学场景图作为原始数据集,将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为;
其中,所述非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。
根据本发明提供的一种基于文生图数据增强模型的非言语行为识别方法,所述预先训练的非言语行为识别模型包括四个并行的卷积层,作为非言语行为四个维度上的预测头,每个维度的预测头分别输出对应类型的非言语行为;
所述将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为,包括:
将所述原始数据集分别输入至所述四个并行的卷积层,分别输出识别到的四种类型的非言语行为;其中,所述四个并行的卷积层共用一个特征提取干道。
根据本发明提供的一种基于文生图数据增强模型的非言语行为识别方法,所述将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图,包括:
根据所述待识别的原始图像获取文本描述、参考图像以及控制条件;
将所述文本描述和所述参考图像转换为潜在向量;
将所述潜在向量输入至所述稳定扩散子模型,输出初始全课堂教学场景图;
将所述潜在向量和所述初始全课堂教学场景图输入至所述控制网络子模型,输出所述待识别的全课堂教学场景图;
其中,所述稳定扩散子模型用于基于所述潜在向量生成所述初始全课堂教学场景图;所述控制网络子模型用于基于所述控制条件和所述潜在向量对所述初始全课堂教学场景图进行调整,以生成所述待识别的全课堂教学场景图。
根据本发明提供的一种基于文生图数据增强模型的非言语行为识别方法,所述将所述文本描述和所述参考图像转换为潜在向量,包括:
通过文本编码器和图像编码器分别将所述文本描述和所述参考图像转换为潜在向量;其中,所述文本编码器用于将所述文本描述转换为潜在向量,所述图像编码器用于将所述参考图像转换为潜在向量。
根据本发明提供的一种基于文生图数据增强模型的非言语行为识别方法,所述控制条件包括人物姿态图、人物深度图以及无教师场景分割图;
所述基于所述控制条件和所述潜在向量对所述初始全课堂教学场景图进行调整,以生成所述待识别的全课堂教学场景图,包括:
基于所述人物姿态图、所述人物深度图、所述无教师场景分割图以及所述潜在向量对所述初始全课堂教学场景图进行调整,以生成所述待识别的全课堂教学场景图;
其中,所述人物姿态图用于控制调整所述初始全课堂教学场景图中人物的肢体动作,所述人物深度图用于补充所述人物姿态图的缺失信息,所述无教师场景分割图用于控制生成所述待识别的全课堂教学场景图中的预设要素。
根据本发明提供的一种基于文生图数据增强模型的非言语行为识别方法,所述获取待识别的原始图像,包括:
获取初始场景照片;
对所述初始场景照片执行框架提取处理,得到待识别的原始图像。
本发明还提供一种基于文生图数据增强模型的非言语行为识别装置,包括:
文生图模块,用于获取待识别的原始图像,将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图;
其中,所述文生图数据增强模型包括稳定扩散子模型和控制网络子模型;
识别模块,用于将所述待识别的原始图像和所述待识别的全课堂教学场景图作为原始数据集,将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为;
其中,所述非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。
根据本发明提供的一种基于文生图数据增强模型的非言语行为识别装置,所述预先训练的非言语行为识别模型包括四个并行的卷积层,作为非言语行为四个维度上的预测头,每个维度的预测头分别输出对应类型的非言语行为;
所述识别模块,具体用于:
将所述原始数据集分别输入至所述四个并行的卷积层,分别输出识别到的四种类型的非言语行为;其中,所述四个并行的卷积层共用一个特征提取干道。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于文生图数据增强模型的非言语行为识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于文生图数据增强模型的非言语行为识别方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于文生图数据增强模型的非言语行为识别方法。
本发明提供的基于文生图数据增强模型的非言语行为识别方法和装置,通过获取待识别的原始图像,将待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图,其中,文生图数据增强模型包括稳定扩散子模型和控制网络子模型;将待识别的原始图像和待识别的全课堂教学场景图作为原始数据集,将原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为,其中,非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。由此可知,本申请通过预先训练的文生图数据增强模型得到待识别的全课堂教学场景图,结合原始图像一起作为非言语行为识别模型的输入,可以更加充分地利用教学环境信息,有效解决教师非言语行为样本分布不均的问题,通过非言语行为识别模型对全场景中的教师非言语行为进行识别,识别准确率高、性能好。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于文生图数据增强模型的非言语行为识别方法的流程示意图之一;
图2是本发明提供的基于文生图数据增强模型的非言语行为识别方法的原理框图;
图3是本发明提供的四种类型的教师非言语行为的示意图;
图4是本发明提供的非言语行为识别模型的结构示意图;
图5是本发明提供的非言语行为识别模型的瓶颈层细节图;
图6是本发明提供的非言语行为识别模型的下采样层细节图;
图7是本发明提供的非言语行为识别模型的基本单元示意图;
图8是本发明提供的基于文生图数据增强模型的非言语行为识别方法的流程示意图之二;
图9是本发明提供的基于文生图数据增强模型的非言语行为识别方法的流程示意图之三;
图10是本发明提供的基于文生图数据增强模型的非言语行为识别装置的结构示意图;
图11是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,教师课堂行为,包括言语与非言语教学行为,是评价教师教学能力的重要标准,而教师非言语行为是师生交流过程中的重要组成部分,是评价教师课堂表现的重要依据。
现有的教师非言语教学行为分析流程大多为:1、利用目标检测模型对教师目标进行识别。2、利用人体关键点检测模型识别教师关键点。3、利用深度学习或机器学习方法建立教师关键点与教师教学行为之间的关系模型,从而预测教师非言语教学行为。该流程有如下几个缺点:1、分析流程复杂,涉及多个模型的组合使用,进而也导致了标注任务极其繁琐。2、模型预测结果之间紧耦合,后一模型的预测结果极大程度上会受到前一模型预测性能的影响,进而导致了预测误差在模型的传递之间不断被放大,最终造成教师非言语行为识别准确率低、性能差。3、使用目标检测模型对教师非言语行为进行分析,这一分析视角过于狭窄,会忽视教室场景下其他有关教师行为的重要信息,如师生交互、教学体距语等。基于此,本发明提供一种基于文生图数据增强模型的非言语行为识别方法和装置,用以解决上述问题中的至少一种。
下面结合图1-图11描述本发明的基于文生图数据增强模型的非言语行为识别方法和装置。
图1是本实施例提供的基于文生图数据增强模型的非言语行为识别方法的流程示意图之一,如图1所示,本实施例提供的基于文生图数据增强模型的非言语行为识别方法,包括:
步骤100、获取待识别的原始图像,将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图;
其中,所述文生图数据增强模型包括稳定扩散子模型和控制网络子模型。
现有技术中,针对目标检测框对教师非言语行为进行识别,无法充分利用教学环境信息,导致教师非言语行为样本分布不均。
需要说明的是,图像数据集的增强方法可以分为两大类,一是通过对数据进行一些列变换操作得到新的数据以达到补充样本的目的,二是通过欠采样或过采样使样本分布与真实分布相似。但是,图像在通过某些变换后可能会丢失一部分信息,例如旋转或裁切可能导致图像中重要的部分被删除;并且,不恰当地使用图像变换方法容易使模型过拟合,从而失去泛化能力。同样的,使用欠采样或过采样来进行数据增强也会产生相似的不利后果。
具体地,本实施例使用文生图数据增强模型来补充样本,以解决上述问题。文生图数据增强模型不依赖于额外的真实数据即可生成丰富多样的样本,并且无需额外的标注,根据需要生成特定数量、样式(如角度、色调、背景等)的样本。使用文生图数据增强模型生成课堂场景图,可以很好地解决教师非言语行为样本分布不均的问题。
图2是本实施例提供的基于文生图数据增强模型的非言语行为识别方法的原理框图,如图2所示,文生图数据增强模型(Text-to-Image Module)包括稳定扩散StableDiffusion子模型和控制网络ControlNet子模型。基于文生图数据增强模型,可以生成全课堂教学场景图,作为非言语行为识别模型的输入,可以更加充分地利用教学环境信息,解决教师非言语行为样本分布不均的问题。
步骤200、将所述待识别的原始图像和所述待识别的全课堂教学场景图作为原始数据集,将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为;
其中,所述非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。
需要说明的是,稳定扩散子模型负责生成图像,而控制网络子模型则负责监督和调整图像生成过程,以提高图像生成质量和多样性。
具体地,继续参见图2,原始图像Raw Images经过文生图数据增强模型之后,输出待识别的全课堂教学场景图Aug Images,将原始图像Raw Images以及全课堂教学场景图Aug Images作为原始数据集Dataset,输入至预先训练的非言语行为识别模型ResNeXtBackbone,经过特征提取,输出识别到的对应类型的非言语行为。
需要说明的是,本实施例提供的教师的非言语行为识别模型以ResNeXt101为基础,将分类预测头扩展为4个,并分别作为教师非言语行为四个维度上的预测头。4个预测头共用一个特征提取干道,每个预测头输出对应类型的非言语行为,基于此,可充分利用模型所提取的特征信息,并简化了识别流程,实现端到端的行为识别。
以上是对本发明提供的基于文生图数据增强模型的非言语行为识别方法的步骤说明。从上述步骤的描述可以看出,根据本发明提供的基于文生图数据增强模型的非言语行为识别方法,通过获取待识别的原始图像,将待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图,其中,文生图数据增强模型包括稳定扩散子模型和控制网络子模型;将待识别的原始图像和待识别的全课堂教学场景图作为原始数据集,将原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为,其中,非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。由此可知,本申请通过预先训练的文生图数据增强模型得到待识别的全课堂教学场景图,结合原始图像一起作为非言语行为识别模型的输入,可以更加充分地利用教学环境信息,有效解决教师非言语行为样本分布不均的问题,通过非言语行为识别模型对全场景中的教师非言语行为进行识别,识别准确率高、性能好。
基于上述实施例,在本实施例中,所述预先训练的非言语行为识别模型包括四个并行的卷积层,作为非言语行为四个维度上的预测头,每个维度的预测头分别输出对应类型的非言语行为;
步骤200中将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为,包括:
将所述原始数据集分别输入至所述四个并行的卷积层,分别输出识别到的四种类型的非言语行为;其中,所述四个并行的卷积层共用一个特征提取干道。
需要说明的是,可预先对教师非言语行为进行分类,图3是本实施例提供的四种类型的教师非言语行为的示意图,如图3所示,第一类非言语行为可包括一些常见行为,例如指黑板/屏幕、书写/触摸屏幕、常见手势动作、指学生以及叉腰等;第二类非言语行为可包括教师自身的一些常见行为,例如摸头、搓手等;第三类非言语行为可包括教学演示等;第四类非言语行为可包括巡逻引导等。
具体地,图4是本实施例提供的非言语行为识别模型的结构示意图,如图4所示,为整个非言语行为识别模型的结构,以ResNeXt101为基础,将分类预测头扩展为4个,并分别作为教师非言语行为四个维度上的预测头。4个预测头共用一个特征提取干道,每个预测头输出对应类型的非言语行为。
具体地,继续参见图4,原始数据集依次通过Conv层、BatchNorm层、ReLU层、MaxPool层以及四个特征提取干道进行特征提取,之后分别输入至四个并行的分类头,每个分类头输出对应类型的非言语行为。
具体地,Layer1中需依次通过1个bottleneck瓶颈层、1个Downsample下采样层以及2个bottleneck瓶颈层;Layer2中需依次通过1个bottleneck瓶颈层、1个Downsample下采样层以及3个bottleneck瓶颈层;Layer3中需依次通过1个bottleneck瓶颈层、1个Downsample下采样层以及22个bottleneck瓶颈层;Layer4中需依次通过1个bottleneck瓶颈层、1个Downsample下采样层以及2个bottleneck瓶颈层。图5是本实施例提供的非言语行为识别模型的瓶颈层细节图,bottleneck瓶颈层的具体细节可参见图5;图6是本实施例提供的非言语行为识别模型的下采样层细节图,Downsample下采样层的具体细节可参见图6;图7是本实施例提供的非言语行为识别模型的基本单元示意图,即bottleneck瓶颈层中Conv卷积层的具体细节可参见图7。
需要说明的是,ResNeXt101使用了更细粒度的瓶颈残差块(bottleneck residualblock),其中每个残差块都包含一个瓶颈层(bottleneck layer),该层将输入特征图转换为更小的维度,然后将其放大并输出到下一个层。这种瓶颈结构可以有效地减少模型的参数数量和计算复杂度,同时提高模型的表达能力。
具体地,例如针对Layer3,可识别到第三类非言语行为,例如可输出识别到师生交互、教学演示等非言语行为。
表1示出了基于文生图数据增强模型的非言语行为识别方法进行识别的结果,Precision表示本实施例提供的方法的识别准确率,Recall表示本实施例提供的方法的识别召回率,F1-score表示对于本实施例提供的方法的识别精度的评分。具体地,这其中“叉腰”以及“指学生”两类的训练集与测试集中均包含有基于文生图数据增强模型得到的全课堂教学场景图为样本,从表1的结果可以看出,包含数据增强的样本类在F1-score评价指标上表现优秀。
表1
具体地,例如,将非言语行为识别模型Layer 3中的最后一个bottleneck输出的特征层可视化得到热力图,并将之还原到场景图中。可以得到的效果是,该模型可以有效地聚焦于识别任务,包括教师肢体行为、师生互动行为等,可验证使用全课堂教学场景图对教师非言语行为识别的可行性与有效性。
本实施例提供的基于文生图数据增强模型的非言语行为识别方法,通过将卷积层扩展为4个,并分别作为教师非言语行为四个维度上的预测头。4个预测头共用一个特征提取干道,每个预测头输出对应类型的非言语行为,基于此,可充分利用模型所提取的特征信息,并简化了识别流程,实现端到端的行为识别。
基于上述实施例,在本实施例中,图8是本实施例提供的基于文生图数据增强模型的非言语行为识别方法的流程示意图之二,如图8所示,步骤100中将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图,包括:
步骤810、根据所述待识别的原始图像获取文本描述、参考图像以及控制条件。
步骤820、将所述文本描述和所述参考图像转换为潜在向量。
步骤830、将所述潜在向量输入至所述稳定扩散子模型,输出初始全课堂教学场景图。
步骤840、将所述潜在向量和所述初始全课堂教学场景图输入至所述控制网络子模型,输出所述待识别的全课堂教学场景图;
其中,所述稳定扩散子模型用于基于所述潜在向量生成所述初始全课堂教学场景图;所述控制网络子模型用于基于所述控制条件和所述潜在向量对所述初始全课堂教学场景图进行调整,以生成所述待识别的全课堂教学场景图。
具体地,继续参见图2,文生图数据增强模型(Text-to-Image Module)包括稳定扩散Stable Diffusion子模型和控制网络ControlNet子模型。基于文生图数据增强模型,可以生成全课堂教学场景图,作为非言语行为识别模型的输入,可以更加充分地利用教学环境信息,解决教师非言语行为样本分布不均的问题。
具体地,对于稳定扩散Stable Diffusion子模型,从原始图像Raw Images中获取文本描述description以及参考图像reference image,通过文本编码器Text Encoder将文本描述description编码为潜在向量,通过图像编码器Image Encoder将参考图像reference image编码为潜在向量,将经过两个编码器编码得到的Prompt Embedding与Negative Embedding输入稳定扩散Stable Diffusion子模型,输出初始全课堂教学场景图。由于教室是一个十分复杂的场景,包含教师与学生两大主体,讲台、黑板以及其他教学工具等,因此单独使用Stable Diffusion子模型生成初始全课堂场景图的效果并不理想。
进一步地,本实施例基于控制网络ControlNet子模型控制图像的生成过程,从而得到教室的复杂场景图。
需要说明的是,ControlNet是一种神经网络结构,通过添加额外的条件来控制稳定扩散Stable Diffusion子模型,它可以在生成图像的过程中引入控制因素,如纹理、要素、人体姿态等。并且可以根据需要自行的组合这些控制因素,从而达到条件生成目的。
具体地,本实施例中,控制条件包括人物姿态图pose、人物深度图depth以及无教师场景分割图segmentation。其中,人物姿态图用于控制调整初始全课堂教学场景图中人物的肢体动作;人物深度图用于补充人物姿态图的缺失信息,例如人物的立体感,进而使生成的人物图像更加精细;无教师场景分割图用于控制生成待识别的全课堂教学场景图中的预设要素,预设要素例如可以为讲台下的学生、黑板、讲台等与教师非言语行为五官的要素,与教师进行动作交互的学生则不属于预设要素的范畴。
具体地,控制网络ControlNet子模型基于人物姿态图、人物深度图、无教师场景分割图以及潜在向量对初始全课堂教学场景图进行调整,可得到一张教室要素全面、教师肢体动作可自定义的全课堂教学场景图。
本实施例提供的基于文生图数据增强模型的非言语行为识别方法,通过稳定扩散Stable Diffusion子模型和控制网络ControlNet子模型结合,生成兼具全要素、自定义、拟现实三种性质的全课堂教学场景图,作为非言语行为识别模型的输入,可以更加充分地利用教学环境信息,解决教师非言语行为样本分布不均的问题。
基于上述实施例,在本实施例中,图9是本实施例提供的基于文生图数据增强模型的非言语行为识别方法的流程示意图之三,如图9所示,步骤100中获取待识别的原始图像,包括:
步骤910、获取初始场景照片。
步骤920、对所述初始场景照片执行框架提取处理,得到待识别的原始图像。
具体地,继续参见图2,针对初始场景照片进行Extract frame框架提取,得到待识别的原始图像Raw Images。
本实施例提供的基于文生图数据增强模型的非言语行为识别方法,通过预先训练的文生图数据增强模型得到待识别的全课堂教学场景图,结合原始图像一起作为非言语行为识别模型的输入,可以更加充分地利用教学环境信息,有效解决教师非言语行为样本分布不均的问题,通过非言语行为识别模型对全场景中的教师非言语行为进行识别,识别准确率高、性能好。
下面对本发明提供的基于文生图数据增强模型的非言语行为识别装置进行描述,下文描述的基于文生图数据增强模型的非言语行为识别装置与上文描述的基于文生图数据增强模型的非言语行为识别方法可相互对应参照。
图10是本实施例提供的基于文生图数据增强模型的非言语行为识别装置的结构示意图,如图10所示,本实施例提供的基于文生图数据增强模型的非言语行为识别装置,包括:
文生图模块1001,用于获取待识别的原始图像,将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图;
其中,所述文生图数据增强模型包括稳定扩散子模型和控制网络子模型;
识别模块1002,用于将所述待识别的原始图像和所述待识别的全课堂教学场景图作为原始数据集,将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为;
其中,所述非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。
本实施例提供的基于文生图数据增强模型的非言语行为识别装置,通过获取待识别的原始图像,将待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图,其中,文生图数据增强模型包括稳定扩散子模型和控制网络子模型;将待识别的原始图像和待识别的全课堂教学场景图作为原始数据集,将原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为,其中,非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。由此可知,本申请通过预先训练的文生图数据增强模型得到待识别的全课堂教学场景图,结合原始图像一起作为非言语行为识别模型的输入,可以更加充分地利用教学环境信息,有效解决教师非言语行为样本分布不均的问题,通过非言语行为识别模型对全场景中的教师非言语行为进行识别,识别准确率高、性能好。
基于上述实施例,在本实施例中,所述预先训练的非言语行为识别模型包括四个并行的卷积层,作为非言语行为四个维度上的预测头,每个维度的预测头分别输出对应类型的非言语行为;
所述识别模块1002,具体用于:
将所述原始数据集分别输入至所述四个并行的卷积层,分别输出识别到的四种类型的非言语行为;其中,所述四个并行的卷积层共用一个特征提取干道。
基于上述实施例,在本实施例中,所述文生图模块1001,具体用于:
根据所述待识别的原始图像获取文本描述、参考图像以及控制条件;
将所述文本描述和所述参考图像转换为潜在向量;
将所述潜在向量输入至所述稳定扩散子模型,输出初始全课堂教学场景图;
将所述潜在向量和所述初始全课堂教学场景图输入至所述控制网络子模型,输出所述待识别的全课堂教学场景图;
其中,所述稳定扩散子模型用于基于所述潜在向量生成所述初始全课堂教学场景图;所述控制网络子模型用于基于所述控制条件和所述潜在向量对所述初始全课堂教学场景图进行调整,以生成所述待识别的全课堂教学场景图。
基于上述实施例,在本实施例中,所述文生图模块1001,具体用于:
通过文本编码器和图像编码器分别将所述文本描述和所述参考图像转换为潜在向量;其中,所述文本编码器用于将所述文本描述转换为潜在向量,所述图像编码器用于将所述参考图像转换为潜在向量。
基于上述实施例,在本实施例中,所述控制条件包括人物姿态图、人物深度图以及无教师场景分割图;
所述文生图模块1001,具体用于:
基于所述人物姿态图、所述人物深度图、所述无教师场景分割图以及所述潜在向量对所述初始全课堂教学场景图进行调整,以生成所述待识别的全课堂教学场景图;
其中,所述人物姿态图用于控制调整所述初始全课堂教学场景图中人物的肢体动作,所述人物深度图用于补充所述人物姿态图的缺失信息,所述无教师场景分割图用于控制生成所述待识别的全课堂教学场景图中的预设要素。
基于上述实施例,在本实施例中,所述装置还包括获取模块,具体用于:
获取初始场景照片;
对所述初始场景照片执行框架提取处理,得到待识别的原始图像。
图11示例了一种电子设备的实体结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令,以执行基于文生图数据增强模型的非言语行为识别方法,该方法包括:
获取待识别的原始图像,将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图;
其中,所述文生图数据增强模型包括稳定扩散子模型和控制网络子模型;
将所述待识别的原始图像和所述待识别的全课堂教学场景图作为原始数据集,将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为;
其中,所述非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。
此外,上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于文生图数据增强模型的非言语行为识别方法,该方法包括:
获取待识别的原始图像,将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图;
其中,所述文生图数据增强模型包括稳定扩散子模型和控制网络子模型;
将所述待识别的原始图像和所述待识别的全课堂教学场景图作为原始数据集,将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为;
其中,所述非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于文生图数据增强模型的非言语行为识别方法,该方法包括:
获取待识别的原始图像,将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图;
其中,所述文生图数据增强模型包括稳定扩散子模型和控制网络子模型;
将所述待识别的原始图像和所述待识别的全课堂教学场景图作为原始数据集,将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为;
其中,所述非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于文生图数据增强模型的非言语行为识别方法,其特征在于,包括:
获取待识别的原始图像,将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图;
其中,所述文生图数据增强模型包括稳定扩散子模型和控制网络子模型;
将所述待识别的原始图像和所述待识别的全课堂教学场景图作为原始数据集,将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为;
其中,所述非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。
2.根据权利要求1所述的基于文生图数据增强模型的非言语行为识别方法,其特征在于,所述预先训练的非言语行为识别模型包括四个并行的卷积层,作为非言语行为四个维度上的预测头,每个维度的预测头分别输出对应类型的非言语行为;
所述将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为,包括:
将所述原始数据集分别输入至所述四个并行的卷积层,分别输出识别到的四种类型的非言语行为;其中,所述四个并行的卷积层共用一个特征提取干道。
3.根据权利要求1所述的基于文生图数据增强模型的非言语行为识别方法,其特征在于,所述将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图,包括:
根据所述待识别的原始图像获取文本描述、参考图像以及控制条件;
将所述文本描述和所述参考图像转换为潜在向量;
将所述潜在向量输入至所述稳定扩散子模型,输出初始全课堂教学场景图;
将所述潜在向量和所述初始全课堂教学场景图输入至所述控制网络子模型,输出所述待识别的全课堂教学场景图;
其中,所述稳定扩散子模型用于基于所述潜在向量生成所述初始全课堂教学场景图;所述控制网络子模型用于基于所述控制条件和所述潜在向量对所述初始全课堂教学场景图进行调整,以生成所述待识别的全课堂教学场景图。
4.根据权利要求3所述的基于文生图数据增强模型的非言语行为识别方法,其特征在于,所述将所述文本描述和所述参考图像转换为潜在向量,包括:
通过文本编码器和图像编码器分别将所述文本描述和所述参考图像转换为潜在向量;其中,所述文本编码器用于将所述文本描述转换为潜在向量,所述图像编码器用于将所述参考图像转换为潜在向量。
5.根据权利要求3所述的基于文生图数据增强模型的非言语行为识别方法,其特征在于,所述控制条件包括人物姿态图、人物深度图以及无教师场景分割图;
所述基于所述控制条件和所述潜在向量对所述初始全课堂教学场景图进行调整,以生成所述待识别的全课堂教学场景图,包括:
基于所述人物姿态图、所述人物深度图、所述无教师场景分割图以及所述潜在向量对所述初始全课堂教学场景图进行调整,以生成所述待识别的全课堂教学场景图;
其中,所述人物姿态图用于控制调整所述初始全课堂教学场景图中人物的肢体动作,所述人物深度图用于补充所述人物姿态图的缺失信息,所述无教师场景分割图用于控制生成所述待识别的全课堂教学场景图中的预设要素。
6.根据权利要求1所述的基于文生图数据增强模型的非言语行为识别方法,其特征在于,所述获取待识别的原始图像,包括:
获取初始场景照片;
对所述初始场景照片执行框架提取处理,得到待识别的原始图像。
7.一种基于文生图数据增强模型的非言语行为识别装置,其特征在于,包括:
文生图模块,用于获取待识别的原始图像,将所述待识别的原始图像输入至预先训练的文生图数据增强模型,输出待识别的全课堂教学场景图;
其中,所述文生图数据增强模型包括稳定扩散子模型和控制网络子模型;
识别模块,用于将所述待识别的原始图像和所述待识别的全课堂教学场景图作为原始数据集,将所述原始数据集输入至预先训练的非言语行为识别模型,输出识别到的非言语行为;
其中,所述非言语行为识别模型是基于历史原始图像以及历史全课堂教学场景图对卷积神经网络进行训练得到的。
8.根据权利要求7所述的基于文生图数据增强模型的非言语行为识别装置,其特征在于,所述预先训练的非言语行为识别模型包括四个并行的卷积层,作为非言语行为四个维度上的预测头,每个维度的预测头分别输出对应类型的非言语行为;
所述识别模块,具体用于:
将所述原始数据集分别输入至所述四个并行的卷积层,分别输出识别到的四种类型的非言语行为;其中,所述四个并行的卷积层共用一个特征提取干道。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于文生图数据增强模型的非言语行为识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于文生图数据增强模型的非言语行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311650373.9A CN117351575B (zh) | 2023-12-05 | 2023-12-05 | 基于文生图数据增强模型的非言语行为识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311650373.9A CN117351575B (zh) | 2023-12-05 | 2023-12-05 | 基于文生图数据增强模型的非言语行为识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117351575A true CN117351575A (zh) | 2024-01-05 |
CN117351575B CN117351575B (zh) | 2024-02-27 |
Family
ID=89367047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311650373.9A Active CN117351575B (zh) | 2023-12-05 | 2023-12-05 | 基于文生图数据增强模型的非言语行为识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351575B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808146A (zh) * | 2017-11-17 | 2018-03-16 | 北京师范大学 | 一种多模态情感识别分类方法 |
CN114639033A (zh) * | 2021-12-06 | 2022-06-17 | 南京谦萃智能科技服务有限公司 | 一种人员识别方法、装置、设备和计算机可读存储介质 |
CN114898460A (zh) * | 2022-04-22 | 2022-08-12 | 华中师范大学 | 一种基于图卷积神经网络的教师非言语行为检测方法 |
CN115984956A (zh) * | 2022-12-16 | 2023-04-18 | 北京师范大学 | 一种人机协同学生课堂投入度多模态可视分析系统 |
US20230290118A1 (en) * | 2022-03-14 | 2023-09-14 | Central China Normal University | Automatic classification method and system of teaching videos based on different presentation forms |
-
2023
- 2023-12-05 CN CN202311650373.9A patent/CN117351575B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808146A (zh) * | 2017-11-17 | 2018-03-16 | 北京师范大学 | 一种多模态情感识别分类方法 |
CN114639033A (zh) * | 2021-12-06 | 2022-06-17 | 南京谦萃智能科技服务有限公司 | 一种人员识别方法、装置、设备和计算机可读存储介质 |
US20230290118A1 (en) * | 2022-03-14 | 2023-09-14 | Central China Normal University | Automatic classification method and system of teaching videos based on different presentation forms |
CN114898460A (zh) * | 2022-04-22 | 2022-08-12 | 华中师范大学 | 一种基于图卷积神经网络的教师非言语行为检测方法 |
CN115984956A (zh) * | 2022-12-16 | 2023-04-18 | 北京师范大学 | 一种人机协同学生课堂投入度多模态可视分析系统 |
Non-Patent Citations (2)
Title |
---|
HE JUN ET AL: ""Visual Scene Induced Three-stream Network for Efficient Action Recognition"", 《2022 IEEE 10TH INTERNATIONAL CONFERENCE ON INFORMATION, COMMUNICATION AND NETWORKS》, 12 January 2023 (2023-01-12), pages 550 - 554 * |
LVMIN ZHANG ET AL: ""Adding Conditional Control to Text-to-Image Diffusion Models"", 《ARXIV:2302.05543V3》, 26 November 2023 (2023-11-26), pages 1 - 12 * |
Also Published As
Publication number | Publication date |
---|---|
CN117351575B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457994B (zh) | 人脸图像生成方法及装置、存储介质、计算机设备 | |
Modi et al. | Facial emotion recognition using convolution neural network | |
EP3885965A1 (en) | Image recognition method based on micro facial expressions, apparatus and related device | |
JP2023545642A (ja) | 目標対象の動作駆動方法、装置、機器及びコンピュータプログラム | |
CN109711356B (zh) | 一种表情识别方法和系统 | |
CN112149651B (zh) | 一种基于深度学习的人脸表情识别方法、装置及设备 | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
CN113870395A (zh) | 动画视频生成方法、装置、设备及存储介质 | |
CN117251057A (zh) | 一种基于aigc构建ai数智人的方法及系统 | |
CN116452706A (zh) | 演示文稿的图像生成方法及装置 | |
CN115830165A (zh) | 基于对抗生成网络的国画绘制过程生成方法、装置和设备 | |
CN115424013A (zh) | 模型的训练方法、图像处理方法和设备、介质 | |
CN113033721A (zh) | 题目批改方法及计算机存储介质 | |
CN117496099A (zh) | 三维图像编辑方法、系统、电子设备及存储介质 | |
CN117351575B (zh) | 基于文生图数据增强模型的非言语行为识别方法和装置 | |
CN114358579A (zh) | 评阅方法、评阅装置、电子设备以及计算机可读存储介质 | |
Mishra et al. | Environment descriptor for the visually impaired | |
CN113052156A (zh) | 光学字符识别方法、装置、电子设备和存储介质 | |
Alqahtani et al. | Improving the Virtual Educational Platforms for the Deaf and Dumb under the Covid-19 Pandemic Circumstances | |
Gamage et al. | Sinhala Sign Language Translation through Immersive 3D Avatars and Adaptive Learning | |
CN111898456B (zh) | 基于多层次注意力机制的文本修改图片网络模型训练方法 | |
CN116704588B (zh) | 面部图像的替换方法、装置、设备及存储介质 | |
CN114399593B (zh) | 基于深度学习的人脸眼镜移除和三维模型生成方法 | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 | |
US20240169701A1 (en) | Affordance-based reposing of an object in a scene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |