CN117636219A

CN117636219A - 一种家庭同胞互动过程中的协作状态分析方法及其系统

Info

Publication number: CN117636219A
Application number: CN202311646320.XA
Authority: CN
Inventors: 孙凌云; 劳天宇; 刘宣慧; 郗宇凡; 尤伟涛; 陈培
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-03-01

Abstract

本发明公开了一种家庭同胞互动过程中的协作状态分析方法，本发明通过基于关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息将视频片段的每个帧的关键点特征进行降维结合得到关键点特征在视频片段内的位置变化，位置变化的速度和加速度信息，从而能够实时识别两个孩子的互动协作状态。基于识别的两个孩子的互动协作状态通过训练好的XGBoost分类模型得到多维度视频片段类别编码序列，然后通过大语言模型得到家庭同胞互动过程中的协作状态分析报告。本发明还公开了一种家庭同胞互动过程中的协作状态分析系统。

Description

一种家庭同胞互动过程中的协作状态分析方法及其系统

技术领域

本发明属于计算机科学的人机互动多模态智能领域，具体涉及一种家庭同胞互动过程中的协作状态分析方法及其系统。

背景技术

同胞关系是儿童发展的一个重要背景，同胞互动的特点是交互性，如在游戏或学习活动中。随着两个孩子家庭数量的增多，在这种背景下，两个孩子家庭中的同胞协作行为变得尤为重要。

在两个孩子多孩家庭中，家庭同胞间拥有大量的一起互动的时间，尤其在孩童阶段，兄弟姐妹之间的协作行为对于家庭和谐、个人成长和社会发展具有重要意义。协作过程中的互动行为和双方的专注可以帮助兄弟姐妹建立良好的沟通和解决问题的能力，培养团队精神和责任感，提高家庭成员之间的互助和支持。然而，由于年龄、性格、兴趣等方面的差异，两个孩子家庭中的兄弟姐妹协作过程中可能会出现矛盾和冲突，影响家庭关系和个人成长。因此，家长有必要观察两个孩子同胞在日常生活中的协作行为模式是否正常合理。

然而，现有的家庭教育或儿童行为检测技术以单人作为分析单元，主要关注单个儿童的行为，而忽略了家庭环境中多个同胞之间的协作行为。因此，有必要开发一种能够有效监测和分析家庭环境中同胞之间的协作行为的系统及方法。

专利文献CN113434719A公开了一种面向学前教育的互动学习系统。其通过数据收集单元收集学习对象的互动信息，然后经过数据挑选单元进行初步筛选，得到潜在学习对象组。调取单元将潜在学习对象组传输到处理器，再通过显示单元进行显示。管理单元可录入预设参数。还设置了行为监控单元、特征分析单元等单元，可以监控儿童的互动反应，分析不同学习对象的互动特征，确定儿童的偏好目标。该系统考虑了针对学前儿童的互动学习需求，设计了可以智能检测儿童学习偏好的系统。

但上述专利局限在针对单个儿童的个体化学习推荐上，而未考虑不同儿童之间的互动关系，也未设计协同互动的监控机制。

发明内容

本发明提供了一种家庭同胞互动过程中的协作状态分析方法，该方法能够实时、准确、高效的识别两个孩子的互动信息，并且能够基于获得的两个孩子的互动信息得到较为准确的协作状态分析结果。

本发明提供了一种家庭同胞互动过程中的协作状态分析方法，包括：

获得家庭同胞互动视频，将家庭同胞互动视频分成多个视频片段，获得每个视频片段的每个帧的关键点特征，将在视频片段内的不同帧的同一关键点特征进行结合得到视频片段的所述关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息，将关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息进行拼接得到所述关键点特征的总体特征，基于视频片段内的多个关键点特征的总体特征构建视频片段的总体特征；

基于标注标签的每个同胞互动视频片段的总体特征构建训练集，通过训练集采用交叉损失函数训练XGBoost分类模型得到同胞协作状态分类模型，依次将每个视频片段的总体特征输入同胞协作状态分类模型得到多维度视频片段类别编码序列；

基于多维度视频片段类别编码序列构建提示词，将提示词输入大语言模型得到家庭同胞互动过程中的协作状态分析结果。

进一步的，基于openface框架和openpose框架提取每个视频片段的关键点特征，所述关键点特征包括单人特征和双人特征，其中：

所述单人特征包括头部位置坐标、头部朝向角度、二维注视角度、面部动作单元强度、躯干关键点二维坐标、肩距和质心；

所述双人特征包括两人对视的角度、整体的同步率、两人质心的距离和两人的重叠率。

进一步的，所述整体的同步率为两人在每一帧中的同一关键特征的差值的绝对值的集合；

所述两人的重叠率为两人的躯干中非肢体的关键点的边界框的重叠率。

进一步的，将在视频片段内的不同帧的同一关键点特征进行结合得到视频片段的所述关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息，包括：

将在视频片段内的不同帧的同一关键点特征进行均值和方差得到所述关键点特征的位置变化信息；

将在视频片段内的不同帧的同一关键点特征进行一阶导均值和一阶导方差得到所述关键点特征的位置变化速度信息；

将在视频片段内的不同帧的同一关键点特征进行二阶导均值和二阶导方差得到所述关键点特征的位置变化加速度信息。

进一步的，基于openface框架和openpose框架提取每个视频片段的关键点特征过程中，如果仅在一帧中检测到一个人的特征则过滤掉该特征；如果在一帧中检测到多个人的特征，则保留置信度最大的两个人的特征来提取关键点特征。

进一步的，基于标注标签的每个同胞互动视频片段的总体特征构建训练集，包括：

收集真实两个孩子家庭的两个孩子互动视频片段，并进行多维度标签标注，同时获得各个两个孩子互动视频片段的总体特征，将各个两个孩子互动视频片段的总体特征作为训练集；

多维度标签包括任务专注维度、即使回应情况维度和交互氛围维度，其中：

所述任务专注维度包括主导、支持、旁观、独立尝试和分心标签；

所述即使回应情况维度包括有回应和无回应标签；

所述交互氛围维度包括积极、中性和消极标签。

进一步的，依次将每个视频片段的总体特征输入同胞协作状态分类模型得到多维度视频片段类别编码序列，包括：

将每个视频片段的总体特征输入同胞协作状态分类模型得到每个视频片段的多维度的分类结果；

基于每个维度按照视频片段的顺序将每个视频片段的每个维度的分类结果进行排序得到每个维度的分类结果序列；

基于设定的各维度的各类别结果的编码将每个维度的分类结果序列进行编码得到多维度视频片段类别编码序列。

进一步的，基于多维度视频片段类别编码序列构建提示词，所述提示词的信息包括视频片段数量，每个维度的类别和对应的编码，各个维度的视频片段类别编码序列，每个维度名称和具体问题。

本发明具体实施例还提供了一种家庭同胞互动过程中的协作状态分析系统，包括：

特征提取单元，用于获得家庭同胞互动视频，将家庭同胞互动视频分成多个视频片段，获得每个视频片段的每个帧的关键点特征，将在一个视频片段内的不同帧的关键点特征进行结合得到视频片段的关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息，将关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息进行拼接得到视频片段的总体特征；

数据处理单元，用于将基于标注标签的每个同胞互动视频片段的总体特征构建训练集，通过训练集采用交叉损失函数训练XGBoost分类模型得到同胞协作状态分类模型，依次将每个视频片段的总体特征输入同胞协作状态分类模型得到多维度视频片段类别编码序列；

输出单元，用于基于多维度视频片段类别编码序列构建提示词，将提示词输入大语言模型得到家庭同胞互动过程中的协作状态分析报告。

与现有技术相比，本发明的有益效果为：

本发明通过基于关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息将视频片段内的每个帧的关键点特征进行降维结合得到关键点特征在视频片段内的位置变化，位置变化的速度和加速度信息，从而能够实时识别两个孩子的互动协作状态。

本发明将视频片段的总体特征输入训练好的XGBoost分类模型中能够快速、准确的获得所需维度的类别结果，将各个维度的类别结果进行序列排布得到多维度视频片段类别编码序列，基于多维度视频片段类别编码序列构建的提示词能够使得大语言模型能够得出较为准确的、易于理解的、可读性更强的家庭同胞互动过程中的协作状态分析结果。

附图说明

图1为本发明具体实施例提供的一种家庭同胞互动过程中的协作状态分析方法的流程框图；

图2为本发明具体实施例提供的一种家庭同胞互动过程中的协作状态分析方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

为了达到能够实时、准确的识别两个孩子的互动信息，并基于两个孩子的互动信息给出互动状态评估，本发明具体实施例提供了一种家庭同胞互动过程中的协作状态分析方法，如图1和图2所示，包括：

S1、获得关键点特征：获得包含同胞之间协作的家庭同胞互动视频，该，将家庭同胞互动视频进行自动定长分段，每5s一段分成多个视频片段，采用多人面部、身体关键点估计算法和表情估计算法得到每个视频片段的每个帧的关键点特征，通过抓取合适的关键点特征为准确的获得两个孩子互动信息打下基础。

在一实施例中，本实施例的终端是带摄像头的用户家用电脑，从而使设备门槛更低。该设计能够让更多家庭轻松地使用本实施例提供的监督系统，而无需购买额外的硬件设备。此外，通过使用家用电脑作为终端，可以方便地将监测数据与其他家庭成员共享，提高家庭成员之间的沟通和协作。

在一实施例中，本实施例获取的关键点特征是基于开源的Openface和Openpose框架提取的。Openface框架可以检测面部landmark并估计头部姿态，而Openpose框架可以检测身体关键点和手势动作，结合两者可以获取面部表情、头部转向、手势等关键点特征。

具体的，基于openface框架和openpose框架提取每个视频片段的关键点特征，所述关键点特征包括单人特征和双人特征，其中：

本实施例提供的单人特征包括头部位置坐标、头部朝向角度、二维注视角度、面部动作单元强度、躯干关键点二维坐标、肩距和质心。

在一实施例中，来自Openface的头部位置坐标的三维坐标(pose_Tx,pose_Ty,pose_Tz)，共3个；来自Openface的头部三个朝向角度(pose_Rx,pose_Ry,pose_Rz)，共3个；来自Openface的二维注视角度(gaze_angle_x,gaze_angle_y)，共2个；来自Openface的9个面部动作单元(AU)强度：具体为4、5、6、7、9、15、20、23、26(AU04_r,AU05_r,AU06_r,AU07_r,AU09_r,AU15_r,AU20_r,AU23_r,AU26_r)，共9个；来自Openpose的躯干的25个关键点二维坐标({x_i，y_i)}i＝0，…，24)，共50个；肩距：左肩关键点和右肩关键点之间的距离，共1个。肩距可以反映人与摄像机的接近程度。假设某个人的左肩坐标为(x_l，y_l)，右肩坐标为(x_r，y_r)，则肩距d_lf为：

本实施例提供的质心为选取Openface提供的躯干中非肢体的7个关键点(0、1、2、5、8、9、12号点)计算的质心二维坐标，共2个。假设第i关键点特征的坐标为(x_i，y_i)，则质心(C_x，C_y)为：

本实施例提供的双人特征包括两人对视的角度、整体的同步率、两人质心的距离和两人的重叠率。

本实施例提供的两人对视的角度反映两人彼此的响应情况，假设两人的注视角度分别为(x₀，y₀)和(x₁，y₁)，由于两人对视的角度能够反应出两个孩子的互动亲密程度，因此本发明将两人对视的角度视作为关键点特征，本实施例提供的对视角度θ为：

本实施例提供的整体同步率是针对所有的openface头部和注视特征和openpose关键点特征，计算两个小孩之间的差值的绝对值，共58个，整体的同步率描述两人之间行为的协调性和一致性，其中，第j帧的第i个特征的两人同步率为：

其中，为小孩a的第j帧的第i个特征，/>为小孩b的第j帧的第i个特征。

本实施例提供的两人质心的距离描述两个之间的距离d_C为：

其中，ΔC_x为两人质心x坐标之间的距离，ΔC_y为两人质心y坐标之间的距离。

本实施例提供的两人的重叠率为根据Openface提供的躯干中非肢体的7个关键点(0、1、2、5、8、9、12号点)计算的边界框(Bounding Box)的重叠率。两人重叠率一定程度反映两人的协同工作情况。假设a、b小孩的Bounding Box分别为A和B，则两人的重叠率IoU为：

其中，|A∩B|为Bounding Box A和B的交集区域的面积，|A∪B|为Bounding Box A和B的并集区域的面积。

在一具体实施例中，基于openface框架和openpose框架提取每个视频片段的关键点特征过程中，如果仅在一帧中检测到一个人的特征则过滤掉该特征；如果在一帧中检测到多个人的特征，则保留置信度最大的两个人的特征来提取关键点特征。

S2、将关键点特征进行结合构建视频片段的总体特征：将在一个视频片段内的不同帧的同一个关键点特征分别进行均值和方差、一阶导数的均值和方差、二阶导数的均值和方差的计算，从而使得不同帧的同一个关键点特征降维得到视频片段的该关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息，将该关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息进行拼接得到该关键点特征的总体特征，视频片段的所有关键点特征的总体特征的集合构建视频片段的总体特征，通过关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息得到两个孩子的关键点特征的位置变化，位置变化的快慢和位置变化的瞬时加速度，为后续的分类模型的判断提供较为完善的数据，能够增加分类结果的准确性。

本发明实施例提供的关键点特征的位置变化信息通过对关键点特征分别进行均值和方差得到，对在视频片段内的不同帧的第i个关键点特征进行均值mean(P_i)为：

P_i＝(p_i,0,p_i,1，…,p_i,T)

其中，μ为均值符号，n为视频段内的帧的数量，t为帧的索引，T为帧数，p_i，t为第t个帧的第i个关键点特征。

本发明实施例提供的对在视频片段内的不同帧的第i个关键点特征进行方差var(P_i)为：

本发明实施例提供的对在视频片段内的不同帧的第i个关键点特征进行一阶导均值和一阶导方差为：

一阶导数的均值：

一阶导数的方差：

二阶导数的均值：

二阶导数的方差：

具体的，对于每一个视频片段，对每帧中上述的每个特征都分别计算其均值、方差、一阶导数的均值、一阶导数的方差、二阶导数的均值及二阶导数的方差，并把全部的结果拼接(总共786个)，作为后续分类的依据，即分类器的输入。

S3、构建同胞协作状态分类模型，将视频片段的总体特征输入同胞协作状态分类模型得到多维度视频片段类别编码序列：

S31、将标注有多维度标签的多个同胞互动视频片段作为训练集，通过训练集采用交叉损失函数训练XGBoost分类模型得到同胞协作状态分类模型。

本实施首先收集多个同胞家庭的两个孩子互动视频片段，然后对每个两个孩子互动视频片段进行人工标签标注，基于每个两个孩子互动视频片段的总体特征来构建训练集，基于所需要的维度将标签分成多个维度标签，然后采用交叉损失函数训练XGBoost分类模型得到同胞协作状态分类模型。由于XGBoost分类模型对高维稀疏特征具有很好的适应性和解释性，因此适合协作行为的识别与判断，因此本实施例使用使用XGBoost等基于梯度提升的监督算法对提取的特征进行分类。

在一具体实施例中，本实施例使用的数据集是通过真实两个孩子家庭志愿者录制的两个孩子互动视频数据加以人工标注而成。数据集由24对兄弟姐妹的数据组成，共计48个孩子。这些数据是在他们在共同执行某项任务中的互动过程中收集的、包括超过751分钟的视频资料。数据集中的每个视频片段都从上述的三个维度进行了细致的标注：任务专注、即时回应情况和交互氛围。

在一具体实施例中，将标注标签的多个同胞互动视频片段的总体特征作为训练集，包括：收集真实两个孩子家庭的两个孩子互动视频片段数据，并进行多维度标签标注，所述多维度标签包括任务专注维度、即使回应情况维度和交互氛围维度，其中；所述任务专注维度包括主导、支持、旁观、独立尝试和分心标签；所述即使回应情况维度包括有回应和无回应标签；所述交互氛围维度包括积极、中性和消极标签。

在一具体实施例中，本实施例提供的XGBoost通过使用集成的决策树和梯度提升来进行预测。在模型预训练过程中，将交叉熵误差作为损失函数，将L2正则化作为正则化项，然后最小化包含上述两项的目标函数，目标函数为：

其中，为决策树的集合，/>为损失函数(衡量实际值y_n和预测值/>之间的差异)，n为训练样本的索引，Ω(f_k)为正则化项(防止过拟合)，k为决策树索引，f_k表示第k颗树，N为样本数量，K为决策树总数。XGBoost使用Softmax函数将输出值转换为概率值，λ和γ为控制模型复杂度的惩罚程度的超参数，M为决策树的叶子节点数量，β_m为第m个叶子节点的权重系数，正则化有助于防止模型过拟合，提供模型的泛化能力。

S32、依次将每个视频片段的总体特征输入同胞协作状态分类模型得到多维度视频片段类别编码序列，具体步骤为：

将每个视频片段的总体特征输入同胞协作状态分类模型得到每个视频片段的多维度的分类结果；将每个维度的视频片段分类结果按照视频片段的顺序进行排序得到每个维度的分类结果序列；基于设定的各维度的各类别的编码将每个维度的分类结果序列进行编码得到每个维度的视频片段类别编码序列，将多维度的视频片段类别编码序列进行可视化得到可视化图片。

在一具体实施例中，将各个维度的分类结果进行编码，用具体编码来代替分类结果，其中，任务专注包括5个分类：0代表主导的、1代表支持的、2代表旁观、3代表独立尝试、4代表分心；即时回应情况包括2个分类：0代表有回应、1代表无回应；交互氛围包括3个分类：1代表积极、2代表中性、3代表消极。

S4、基于多维度视频片段类别编码序列构建提示词，将提示词输入大语言模型得到家庭同胞互动过程中的协作状态分析结果，并基于可视化图片与家庭同胞互动过程中的协作状态分析结果形成可视化分析报告。

在一具体实施例中，本实施例提供的提示词的信息包括视频片段数量，每个维度的类别和对应的编码，各个维度的视频片段类别编码序列，每个维度名称和具体问题。

在一具体实施例中，本实施例提供一个具体案例，具体步骤为：

步骤S101:选择需要进行协作状态分析的视频数据源，进行分段。具体包括：即选择包含同胞之间协作的视频数据，对整段的视频数据进行自动定长分段,每5s为一段。

步骤S102:采用多人面部、身体关键点估计算法及表情估计算法得到每一段视频关键点特征信息。具体包括:通过Openface和Openpose框架提取的关键点特征信息。Openface框架可以检测面部关键点坐标并估计头部旋转、目光凝视的角度、面部动作单元(AU)等；而Openpose框架可以检测身体关键点和手势动作,结合两者可以获取视频中每一帧的面部表情、头部转向、手势等关键点坐标信息。

步骤S103:根据步骤S102所述的Openface和Openpose框架内特征计算预定义公式的关键点特征信息。具体包括:基于openface框架和openpose框架提取每个视频片段的关键点特征过程中，如果仅在一帧中检测到一个人的特征则过滤掉该特征；如果在一帧中检测到多个人的特征，则保留置信度最大(保留置信度为0.5)的两个人的特征来提取关键点特征。；进行特征选取和特征融合，提取预定义的总体特征，并使用时间的导数将多个帧的特征融合成视频分段的总体特征。

步骤S104:根据步骤S103所述的总体特征使用XGBoost分类模型进行协作状态预测，所述协作状态包括:任务专注、即时回应情况和交互氛围。

步骤S105:根据步骤S104所述的预测的协作状态数据生成可视化图表。

步骤S106:根据步骤S104所述的预测的协作状态数据使用GPT生成文字总结、评价及对家长的建议。

本发明具体实施例提供的家庭同胞互动过程中的协作状态分析方法能够监测和分析家庭环境中同胞之间的协作行为，提供有关同胞协作能力的重要信息。

本发明具体实施例提供的家庭同胞互动过程中的协作状态分析方法能够通过结合计算机视觉和机器学习技术，实现了对儿童同胞间复杂协作行为的自动化识别和分析。减轻对各种传感器、场景的依赖。

本发明具体实施例提供的家庭同胞互动过程中的协作状态分析方法能够应用可视化以及自然语言生成技术，以直观易读的形式输出分析结果，方便家长理解和指导。

本发明具体实施例还提供了一种家庭同胞互动过程中的协作状态分析系统，包括特征提取单元、数据处理单元和输出单元。

本发明具体实施例提供的特征提取单元用于获得家庭同胞互动视频，将家庭同胞互动视频分成多个视频片段，获得每个视频片段的每个帧的关键点特征，将在一个视频片段内的不同帧的关键点特征进行结合得到视频片段的关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息，将关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息进行拼接得到视频片段的总体特征。

本发明具体实施例提供的数据处理单元用于基于标注标签的每个同胞互动视频片段的总体特征构建训练集，通过训练集采用交叉损失函数训练XGBoost分类模型得到同胞协作状态分类模型，依次将每个视频片段的总体特征输入同胞协作状态分类模型得到多维度视频片段类别编码序列。

本发明具体实施例提供的输出单元用于基于多维度视频片段类别编码序列构建提示词，将提示词输入大语言模型得到家庭同胞互动过程中的协作状态分析结果。

本发明具体实施例提供的一种家庭同胞互动过程中的协作状态分析系统模块化设计灵活，可根据实际需求选择性使用和扩展。

在一具体实施例中，本实施例基于上述提供的一种家庭同胞互动过程中的协作状态分析系统提供一个具体案例为：

本实施例提供的一种家庭同胞互动过程中的协作状态分析系统包括以下单元：

本实施例提供的特征提取单元包括视频录制模块、计算机视觉模块和协作行为特征模块，该视频录制模块用于使用带摄像头的终端设备采集同胞互动视频，并将视频分成7个片段，其中除去最后一个片段外，每个片段时长为5秒，最后一个片段时长为2秒；该计算机视觉模块用于基于Openface和Openpose框架提取视频帧图像的关键点特征；该协作行为特征模块用于将过滤每一帧的无用或者低置信度(阈值为0.5)信息；如果该帧数据中，仅检测到一个人的关键点数据，则丢弃这组数据，如果该帧数据中，检测到多于两个人的关键点数据，则选取置信度最大的两个人的关键点数据；然后以片段为单位，进行线性插值来处理缺失值；最后按照上述预先定义的公式计算整个片段的总体特征，具体的：首先计算各个片段中关键点特征，即上述的P；然后对片段中所有的帧特征P计算均值、方差、一阶导数的均值、一阶导数的方差、二阶导数的均值及二阶导数的方差，从而获得整个片段的特征信息，对关键点特征进行融合提取总体特征。

本实施例提供的数据处理单元用于预训练的XGBoost模型用于依次对7个片段的总体特征进行三个维度的分类(即任务专注、即时回应情况和交互氛围)；然后对结果进行序列化，首先用具体编码来代替分类结果，例如任务专注包括5个分类：0代表主导的、1代表支持的、2代表旁观、3代表独立尝试、4代表分心；即时回应情况包括2个分类：0代表有回应、1代表无回应；交互氛围包括3个分类：1代表积极、2代表中性、3代表消极。由此就获得以下的序列：任务专注：0010234；即时回应情况：0000111；交互氛围：1111233；因为有7个片段，因此序列长度为7。

本发明具体实施例提供的输出单元用于基于多维度视频片段类别编码序列构建提示词，将提示词输入大语言模型，即ChatGPT模型得到家庭同胞互动过程中的协作状态分析报告。该提示词为：

假设以下3个序列代表两个小朋友在一次协作行为中每隔5秒的任务专注、即时回应及交互氛围情况。任务专注分为5类：0-主导、1-支持、2-旁观、3-独立尝试、4-分心；即时回应分为2类：0-有回应、1-无回应；交互氛围分为3类：1-积极、2-中性、3-消极。请分析这两个小朋友的合作模式，并给出改善合作效率和情感交流的建议；

具体序列："""任务专注：0010234；即时回应情况：0000111；交互氛围：1111233；"""。

本实施例提供的大语言模型ChatGPT得到分析结果为：

1、任务专注:

0：主导的-出现2次；

1：支持的-出现1次；

2：旁观-出现1次；

3：独立尝试-出现1次；

4：分心-出现2次；

分析：在整个合作过程中，两个小朋友在初始阶段是有一方主导的模式，随后转向了支持、旁观、独立尝试，但最后都开始分心。

2、即时回应情况:

0：有回应-出现4次；

1：无回应-出现3次；

分析：合作开始时，小朋友们都积极地互相回应，但随着时间的推移，交流和回应开始减少。

3、交互氛围:

1：积极-出现4次；

2：中性-出现2次；

3：消极-出现2次；

分析：开始时，交互氛围是积极的，但随后转为中性，最后进入消极状态。

合作模式的评价:这两个小朋友开始时合作得很好，有一个明确的角色分工，交互频繁且氛围积极。但随着时间的推移，他们开始分心，相互的回应减少，氛围也逐渐转为消极。这可能意味着他们遇到了困难或者有分歧，但没有有效地解决。

本实施例提供的大语言模型ChatGPT提供的建议:

1.明确任务与目标：小朋友们应当确保他们有一个明确的共同目标，并且明确每个人的任务。

2.鼓励沟通：遇到问题或分歧时，要鼓励他们积极地沟通，寻求解决方案。

3.休息与调整：当发现自己或对方开始分心时，可以适当休息或进行简单的活动以调整心态。

4.培养团队合作意识：可以通过一些团队协作的游戏或活动来培养他们的团队合作意识和沟通技巧。

5.引导正向情绪：当交互氛围转为消极时，家长或老师可以适时地介入，引导他们回归到正向的情绪和态度。

总之，这两个小朋友在合作初期展现出了良好的协同效应，但在合作过程中需要更多的指导和引导，以维持良好的合作态度和效率。本实施例通过大语言模型ChatGPT得到分析报告，其中数据结果会以环形图、雷达图等可视化方式直观呈现，同时伴随文字的分析建议，后续仍提供对话功能帮用户助进一步了解具体情况。

与现有技术相比，本系统能够实现对家庭环境中儿童同胞间复杂互动行为的智能监测与分析评估。采用模块化设计和开源算法实现了关键技术点,软硬件要求较低,便于推广。可生成直观报告,为家长提供重要的教育指导参考。

以上实施例对本发明的技术方案进行了进一步详细说明,可以实现对家庭环境中同胞间的互动专注行为进行智能监测和评价分析。在具体实现时,还可以针对不同应用场景进行模块调整或参数优化,这些均属于本发明的保护范围。本领域技术人员可以在不脱离本发明设计思想的情况下,对以上内容做进一步扩展和改进。但这些依据本发明设计的变化和改进都应属于本发明权利要求的保护范围。

Claims

1.一种家庭同胞互动过程中的协作状态分析方法，其特征在于，包括：

2.根据权利要求1所述的家庭同胞互动过程中的协作状态分析方法，其特征在于，基于openface框架和openpose框架提取每个视频片段的关键点特征，所述关键点特征包括单人特征和双人特征，其中：

3.根据权利要求2所述的家庭同胞互动过程中的协作状态分析方法，其特征在于，所述整体的同步率为两人在每一帧中的同一关键特征的差值的绝对值的集合；

4.根据权利要求1所述的家庭同胞互动过程中的协作状态分析方法，其特征在于，将在视频片段内的不同帧的同一关键点特征进行结合得到视频片段的所述关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息，包括：

5.根据权利要求1所述的家庭同胞互动过程中的协作状态分析方法，其特征在于，基于openface框架和openpose框架提取每个视频片段的关键点特征过程中，如果仅在一帧中检测到一个人的特征则过滤掉该特征；如果在一帧中检测到多个人的特征，则保留置信度最大的两个人的特征来提取关键点特征。

6.根据权利要求1所述的家庭同胞互动过程中的协作状态分析方法，其特征在于，基于标注标签的每个同胞互动视频片段的总体特征构建训练集，包括：

所述即使回应情况维度包括有回应和无回应标签；

所述交互氛围维度包括积极、中性和消极标签。

7.根据权利要求1所述的家庭同胞互动过程中的协作状态分析方法，其特征在于，依次将每个视频片段的总体特征输入同胞协作状态分类模型得到多维度视频片段类别编码序列，包括：

8.根据权利要求1所述的家庭同胞互动过程中的协作状态分析方法，其特征在于，基于多维度视频片段类别编码序列构建提示词，所述提示词的信息包括视频片段数量，每个维度的分类结果和对应的编码，各个维度的视频片段类别编码序列，每个维度名称和具体问题。

9.一种家庭同胞互动过程中的协作状态分析系统，其特征在于，包括：

特征提取单元，用于获得家庭同胞互动视频，将家庭同胞互动视频分成多个视频片段，获得每个视频片段的每个帧的关键点特征，将在视频片段内的不同帧的同一关键点特征进行结合得到视频片段的所述关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息，将关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息进行拼接得到所述关键点特征的总体特征，基于视频片段内的多个关键点特征的总体特征构建视频片段的总体特征；

输出单元，用于基于多维度视频片段类别编码序列构建提示词，将提示词输入大语言模型得到家庭同胞互动过程中的协作状态分析结果。