CN118034503A - 一种人机实时交互方法及系统 - Google Patents
一种人机实时交互方法及系统 Download PDFInfo
- Publication number
- CN118034503A CN118034503A CN202410430520.XA CN202410430520A CN118034503A CN 118034503 A CN118034503 A CN 118034503A CN 202410430520 A CN202410430520 A CN 202410430520A CN 118034503 A CN118034503 A CN 118034503A
- Authority
- CN
- China
- Prior art keywords
- interaction
- feature vector
- user
- data
- man
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 444
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 223
- 238000012545 processing Methods 0.000 claims abstract description 45
- 230000002452 interceptive effect Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 31
- 238000007499 fusion processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 description 11
- 238000013480 data collection Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种人机实时交互方法及系统。涉及人机交互技术领域,其方法包括:实时采集用户的交互数据;提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量;基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型中,确定人机交互指令;根据人机交互指令,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果;既解决了环境因素对用户手势识别的影响,又实现了人机实时交互以及提高了用户交互体验。
Description
技术领域
本发明涉及人机交互技术领域,尤其涉及一种人机实时交互方法及系统。
背景技术
人机交互是指通过对用户与机器之间的沟通,使得机器明确用户交互意图并执行相应反馈的技术,应用于多个领域中,具有广阔的发展前景;现有人机交互技术常采用对用户手势进行识别,进而判断用户意图,实现人机交互,但现有技术中手势识别常受到环境因素的影响,导致手势识别准确度低下;此外,单帧手势数据包含信息量少,影响用户交互意图的判断正确率,多帧手势数据包含信息量多,导致对用户交互意图的处理时间长,影响用户体验。
因此,本发明提供一种人机实时交互方法及系统。
发明内容
本发明提供一种人机实时交互方法及系统,用以通过实时采集用户的交互数据;提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量;基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型中,确定人机交互指令;根据人机交互指令,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果,解决了现有技术中手势识别常受到环境因素的影响,导致手势识别准确度低下以及单帧手势数据包含信息量少,影响用户交互意图的判断正确率,多帧手势数据包含信息量多,但导致对用户交互意图的处理时间长,影响用户体验的缺陷。
一方面,本发明提供一种人机实时交互方法,包括:
步骤1:实时采集用户的交互数据,其中,所述交互数据包括:用户手势数据以及场景数据;
步骤2:提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量;
步骤3:基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型中,确定人机交互指令;
步骤4:根据人机交互指令,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果。
根据本发明提供的一种人机实时交互方法,实时采集用户的交互数据,包括:
根据预部署深度传感器,确定人机实时交互的数据采集区域;
当监测到用户进入数据采集区域时,实时监测用户行为;
当基于实时监测结果判定出用户存在交互意图时,实时采集用户的交互数据。
根据本发明提供的一种人机实时交互方法,提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量,包括:
对用户的交互数据进行数据预处理,并对用户手势数据进行区域确定,来将用户手势数据以及场景数据进行分割处理,获取用户手势图像以及交互场景图像;
对用户手势图像以及交互场景图像进行不同尺度的高斯模糊,并隔点采样,获取得到基于用户手势图像的手势图像集以及基于交互场景图像的场景图像集;
对所述手势图像集以及场景图像集中每张图像的各像素点以及对应相邻像素点进行分析,提取每张图像的特征点;
对每张图像的特征点进行拟合分析,确定对应图像中各特征点与对应实际特征点的偏移值,将偏移值大于预设偏移值以及特征点偏移超出图像集边界的对应特征点进行剔除;
获取每张图像剔除后的剩余每个特征点的相邻像素点的梯度以及方向,确定基于所述用户手势数据的第一特征向量以及基于所述场景数据的第二特征向量。
根据本发明提供的一种人机实时交互方法,对用户的交互数据进行数据预处理,包括:
获取用户交互数据对应的原始图像,并确定所述原始图像中各像素点的RGB分量的平均值来转化为灰度图像;
根据预设图像滤波方法,对所述灰度图像进行降噪处理,并将灰度图像分割为多个灰度子图像;
对各灰度子图像进行直方图均衡化处理,获取灰度子图像的各像素点的梯度直方图,进行归一化处理,确定灰度图像中的边缘以及轮廓,实现用户手势图像以及交互场景图像的获取。
根据本发明提供的一种人机实时交互方法,基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,包括:
根据特征向量映射表,获取第二特征向量所对应的第一特征向量集,确定第一特征向量基于第二特征向量的所属概率,当第一特征向量的所属概率不大于预设所属概率时,判定第一特征向量与第二特征向量不存在交互关系,对第一特征向量进行剔除处理,并标记第一特征向量所对应的用户为当前进行人机交互的无关用户;
当判定所述第一特征向量与第二特征向量存在交互关系时,且监测到数据采集区域存在一个用户时,则将所述用户标记为当前进行人机交互的用户主体;
当判定所述第一特征向量与第二特征向量存在交互关系时,且监测到数据采集区域存在多个用户时,获取各用户对应的第一特征向量的监测时刻,并将所述监测时刻最早的对应用户作为当前进行人机交互的用户主体。
根据本发明提供的一种人机实时交互方法,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型之前,包括:
当确定当前进行人机交互的用户主体时,获取所述用户主体前n1帧的交互数据;
若所述用户主体的当前交互数据与前n1帧的交互数据不一致,则对当前交互数据以及前n1帧交互数据进行融合处理,获取得到融合处理后的第一特征向量以及第二特征向量;
根据历史人机交互数据,构建初始人机交互模型,对所述历史人机交互数据进行归一化处理,获取得到历史交互图像,输入初始人机交互模型中,确定初始人机交互模型的结构,并对各交互层的参数数据进行初始化处理;
获取各历史交互图像的输出值以及对应期望值,确定所述初始人机交互模型对用户交互意图的识别误差;
获取所述初始人机交互模型各交互层参数基于所述识别误差的梯度,根据预设梯度更新策略,从历史交互图像中随机选取一组历史交互图像,对各交互层参数进行迭代更新;
实时监测迭代更新过程中不同迭代更新次数下的识别误差的梯度,当存在最新梯度超出预设梯度范围时,执行预设梯度调节策略;
当监测到最新识别误差收敛至预设识别误差时,判定所述初始人机交互模型的一次训练完成,并记录当前迭代更新后的各交互层参数数据;
对融合处理后的第一特征向量以及第二特征向量进行数据扩展,构建融合特征向量集,输入一次训练完成后的人机交互模型中,其中,数据扩展包括,数据旋转、数据缩放、数据尺度变换、噪声扰动以及空洞扰动;
获取一次训练完成后的人机交互模型对当前用户主体交互意图的输出值,并与当前用户主体交互意图的实际值进行比较,确定所述人机交互模型的识别准确度,当所述人机交互模型的识别准确度不低于预设识别准确度时,判定人机交互模型训练完成;
根据融合处理后的第一特征向量以及第二特征向量,获取前n1帧中各帧与当前帧的相同特征向量以及独特特征向量,当监测到前n1帧中的一帧仅存在相同特征向量时,判定对应帧的交互数据对训练完成后的人机交互模型的识别准确度不存在影响关系,将对应帧进行剔除;
获取当前帧输入训练完成后的人机交互模型中的识别率,若当前帧的识别率低于预设识别率时,判定当前帧无法完成对当前用户主体交互意图的准确判断并进行剔除;
此时,随机选取剔除后的剩余帧中的若干帧,与当前帧一同输入训练完成后的人机交互模型中,获取随机选取帧与当前帧输入训练完成后的人机交互模型中的识别率,并结合所述随机选取帧以及当前帧的计算量,从所有随机选取帧中确定当前帧完成对当前用户主体交互意图准确判断的最终帧;
其中,P为一帧交互数据的预设识别率;x1i1为当前识别帧中第i1个特征向量所对应的输出值;x2i1为当前识别帧中第i1个特征向量所对应的实际值;L表示输出值与实际值的最大误差阈值;G(x,y)表示当x大于y时,输出1;否则,输出0;y1j1表示当前帧与随机选取帧中的第j1个特征向量所对应的输出值;y2j1表示当前帧与随机选取帧中第j1个特征向量所对应的实际值;s1i1表示当前帧中第i1个特征向量的计算量;s2j1表示当前帧与随机选取帧中第j1个特征向量的计算量;a1、a2分别表示随机选取帧的识别率以及计算量对当前帧的影响权重;m1为当前帧的特征向量数量;m2为当前帧与随机选取帧的特征向量数量;
扩充所述最终帧的帧样本,对训练完成后的人机交互模型持续优化,得到预设人机交互模型。
根据本发明提供的一种人机实时交互方法,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果,包括:
根据人机交互指令,确定目标控制指令,其中,目标控制指令包括:执行目标主体、反馈交互词、反馈交互值以及反馈控制变量;
根据所述目标控制指令,控制执行人机交互指令的目标主体,向用户主体实时反馈交互结果;
当监测到用户主体在预设交互时间段内未产生新的交互数据时,判定所述用户主体结束交互过程,将此次交互过程的数据进行数据存储。
另一方面,本发明还提供一种人机实时交互系统,包括:
交互采集模块,用于实时采集用户的交互数据,其中,所述交互数据包括:用户手势数据以及场景数据;
交互处理模块,用于提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量;
交互确定模块,用于基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型中,确定人机交互指令;
交互反馈模块,用于根据人机交互指令,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现根据上述任一种所述人机实时交互方法。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现根据上述任一种所述人机实时交互方法。
另一方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据上述任一种所述人机实时交互方法。
本发明提供的一种人机实时交互方法及系统,通过实时采集用户的交互数据;提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量;基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型中,确定人机交互指令;根据人机交互指令,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果;解决了环境因素对用户手势识别的影响以及解决了用户体验不佳的问题,取得了实现了人机实时交互以及提高了用户交互体验的有益效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的人机实时交互方法的流程示意图;
图2为本发明实施例提供的人机实时交互系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图2描述本发明。
图1是本发明实施例提供的人机实时交互方法的流程示意图。
如图1所示,本发明实施例提供一种人机实时交互方法,方法主要包括以下步骤:
步骤1:实时采集用户的交互数据,其中,所述交互数据包括:用户手势数据以及场景数据;
步骤2:提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量;
步骤3:基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型中,确定人机交互指令;
步骤4:根据人机交互指令,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果。
该实施例中,用户的交互数据是指用户意图的外在体现,用于机器理解用户意图,比如,用户的手势数据以及场景数据。
该实施例中,场景数据影响机器理解用户意图。
该实施例中,用户手势数据的第一特征向量是指用于表示用户手势数据的特征向量;场景数据的第二特征向量是指用于表示场景数据的特征向量,用户机器识别用户手势以及交互场景。
该实施例中,基于第二特征向量对第一特征向量进行二次处理是指将无关第一特征向量进行剔除处理,用于确定进行人机交互的用户主体,比如,当前存在用户a1、用户a2,实时采集的交互数据包括用户a1以及用户a2的交互数据,其中,根据环境因素判定用户a2不存在交互意图,则将用户a2对应的第一特征向量进行二次处理,同时,确定用户a1存在交互意图,将用户a1标记为进行人机交互的用户主体。
该实施例中,人机交互模型是指机器用于识别用户意图的模型。
该实施例中,人机交互指令是指机器对用户意图识别完成后的用于机器理解用户意图的指令,比如,用户交互数据b1,对应人机交互指令c1。
该实施例中,执行人机交互指令的目标主体是指机器向用户进行反馈操作的部件。
上述技术方案的有益效果是:实时采集用户的交互数据;提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量;基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型中,确定人机交互指令;根据人机交互指令,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果;既解决了环境因素对用户手势识别的影响,又实现了人机实时交互以及提高了用户交互体验。
本发明实施例提供一种人机实时交互方法,实时采集用户的交互数据,包括:
根据预部署深度传感器,确定人机实时交互的数据采集区域;
当监测到用户进入数据采集区域时,实时监测用户行为;
当基于实时监测结果判定出用户存在交互意图时,实时采集用户的交互数据。
该实施例中,预部署深度传感器是指用于测量物体距离,实现物体三维重构的设备。
该实施例中,预部署深度传感器的数据根据用户交互数据的采集精度所决定。
该实施例中,数据采集区域是指机器用于获取用户交互意图的区域,比如,数据采集区域a1,机器采集数据采集区域a1内的用户意图,不采集数据采集区域a1外的用户意图,避免机器误触发。
该实施例中,数据采集区域可存在多个用户,用户可存在交互意图,也可不存在交互意图。
该实施例中,数据采集区域存在多个用户的交互意图时,则分别采集多个用户的交互意图,并进行独立存储。
上述技术方案的有益效果是:通过确定人机实时交互的数据采集区域,有利于获取用户交互数据;当判定出用户存在交互意图时,实时采集用户的交互数据,提高了机器资源利用效率。
本发明实施例提供一种人机实时交互方法,提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量,包括:
对用户的交互数据进行数据预处理,并对用户手势数据进行区域确定,来将用户手势数据以及场景数据进行分割处理,获取用户手势图像以及交互场景图像;
对用户手势图像以及交互场景图像进行不同尺度的高斯模糊,并隔点采样,获取得到基于用户手势图像的手势图像集以及基于交互场景图像的场景图像集;
对所述手势图像集以及场景图像集中每张图像的各像素点以及对应相邻像素点进行分析,提取每张图像的特征点;
对每张图像的特征点进行拟合分析,确定对应图像中各特征点与对应实际特征点的偏移值,将偏移值大于预设偏移值以及特征点偏移超出图像集边界的对应特征点进行剔除;
获取每张图像剔除后的剩余每个特征点的相邻像素点的梯度以及方向,确定基于所述用户手势数据的第一特征向量以及基于所述场景数据的第二特征向量。
该实施例中,对用户手势数据进行区域确定是指确定用户手势数据的边缘像素以及轮廓,便于后续将用户手势数据与背景数据分离,提高数据处理效率以及数据处理质量。
该实施例中,对用户手势图像以及交互场景图像进行不同尺度的高斯模糊,尺度越小,则对应图像的细节特征越多,尺度越大,则对应图像的轮廓特征越明显,高斯模糊有效确保隔点采样得到的图像集尺度具有连续性。
该实施例中,对用户手势图像以及交互场景图像分别进行规范化处理,比如,将用户手势图像进行尺寸规范化处理以及像素值规范化处理。
该实施例中,图像集中各图像根据采样大小从小至大进行排序,并且将原图像置于底端。
该实施例中,采样数量根据图像规范化处理后的大小所确定,比如,用户手势图像大小a1,则对应隔点采样次数b1。
该实施例中,提取每张图像的特征点,比如,像素点c1的像素值d1,其相邻像素点的像素值d2,则判定像素点c1为特征点。
该实施例中,对每张图像的特征点进行拟合分析,消除偏移误差带来的不稳定性。
该实施例中,第一特征向量以及第二特征向量包括位置信息,尺度信息以及方向信息。
上述技术方案的有益效果是:通过提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量,有利于机器识别用户意图,为后续人机交互处理奠定数据基础,有利于提高用户体验。
本发明实施例提供一种人机实时交互方法,对用户的交互数据进行数据预处理,包括:
获取用户交互数据对应的原始图像,并确定所述原始图像中各像素点的RGB分量的平均值来转化为灰度图像;
根据预设图像滤波方法,对所述灰度图像进行降噪处理,并将灰度图像分割为多个灰度子图像;
对各灰度子图像进行直方图均衡化处理,获取灰度子图像的各像素点的梯度直方图,进行归一化处理,确定灰度图像中的边缘以及轮廓,实现用户手势图像以及交互场景图像的获取。
该实施例中,RGB分量,即每个像素点由红、蓝、绿三个分量所组成,各分量取值范围均为0~255。
该实施例中,将原始图像转化为灰度图像,降低图像复杂度,利于提取特征向量。
该实施例中,对图像进行归一化处理,消除不同图像之间由于灰度转化以及降噪处理等影响所产生的误差,同时,有效避免像素值过大或者过小导致像素值计算误差。
该实施例中,根据像素点的梯度大小以及梯度方向确定灰度图像中的边缘以及轮廓。
上述技术方案的有益效果是:通过对用户的交互数据进行数据预处理,便于将交互数据中的手势数据以及场景数据分别进行处理,提高了数据处理效率以及交互意图识别效率。
本发明实施例提供一种人机实时交互方法,基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,包括:
根据特征向量映射表,获取第二特征向量所对应的第一特征向量集,确定第一特征向量基于第二特征向量的所属概率,当第一特征向量的所属概率不大于预设所属概率时,判定第一特征向量与第二特征向量不存在交互关系,对第一特征向量进行剔除处理,并标记第一特征向量所对应的用户为当前进行人机交互的无关用户;
当判定所述第一特征向量与第二特征向量存在交互关系时,且监测到数据采集区域存在一个用户时,则将所述用户标记为当前进行人机交互的用户主体;
当判定所述第一特征向量与第二特征向量存在交互关系时,且监测到数据采集区域存在多个用户时,获取各用户对应的第一特征向量的监测时刻,并将所述监测时刻最早的对应用户作为当前进行人机交互的用户主体。
该实施例中,特征向量映射表,比如,第二特征向量b1对应的第一特征向量集为第一特征向量a1、a2以及a4,第二特征向量可以对应多个第一特征向量,第一特征向量也可以对应多个第二特征向量,即一个交互场景中可以存在多个用户交互意图,一个交互意图可以发生在多个交互场景中。
该实施例中,当第一特征向量的所属概率不大于预设所属概率时,比如,判定第一特征向量a1基于第二特征向量b1的所属概率为0.5,预设所属概率0.6,则判定第一特征向量a1与第二特征向量b1不存在交互关系。
该实施例中,且监测到数据采集区域存在多个用户时,比如,数据采集区域存在用户c1、c2以及c3,其中,判定用户c1不存在交互意图,用户c2以及用户c3存在交互意图,用户c2的监测时刻先于用户c3,则判定用户c2为当前进行人机交互的用户主体。执行相关人机交互行为。
上述技术方案的有益效果是:通过基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,便于后续进行人机实时交互,有效的解决了环境因素中其它用户的干扰,提高了用户主体的交互体验。
本发明实施例提供一种人机实时交互方法,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型之前,包括:
当确定当前进行人机交互的用户主体时,获取所述用户主体前n1帧的交互数据;
若所述用户主体的当前交互数据与前n1帧的交互数据不一致,则对当前交互数据以及前n1帧交互数据进行融合处理,获取得到融合处理后的第一特征向量以及第二特征向量;
根据历史人机交互数据,构建初始人机交互模型,对所述历史人机交互数据进行归一化处理,获取得到历史交互图像,输入初始人机交互模型中,确定初始人机交互模型的结构,并对各交互层的参数数据进行初始化处理;
获取各历史交互图像的输出值以及对应期望值,确定所述初始人机交互模型对用户交互意图的识别误差;
获取所述初始人机交互模型各交互层参数基于所述识别误差的梯度,根据预设梯度更新策略,从历史交互图像中随机选取一组历史交互图像,对各交互层参数进行迭代更新;
实时监测迭代更新过程中不同迭代更新次数下的识别误差的梯度,当存在最新梯度超出预设梯度范围时,执行预设梯度调节策略;
当监测到最新识别误差收敛至预设识别误差时,判定所述初始人机交互模型的一次训练完成,并记录当前迭代更新后的各交互层参数数据;
对融合处理后的第一特征向量以及第二特征向量进行数据扩展,构建融合特征向量集,输入一次训练完成后的人机交互模型中,其中,数据扩展包括,数据旋转、数据缩放、数据尺度变换、噪声扰动以及空洞扰动;
获取一次训练完成后的人机交互模型对当前用户主体交互意图的输出值,并与当前用户主体交互意图的实际值进行比较,确定所述人机交互模型的识别准确度,当所述人机交互模型的识别准确度不低于预设识别准确度时,判定人机交互模型训练完成;
根据融合处理后的第一特征向量以及第二特征向量,获取前n1帧中各帧与当前帧的相同特征向量以及独特特征向量,当监测到前n1帧中的一帧仅存在相同特征向量时,判定对应帧的交互数据对训练完成后的人机交互模型的识别准确度不存在影响关系,将对应帧进行剔除;
获取当前帧输入训练完成后的人机交互模型中的识别率,若当前帧的识别率低于预设识别率时,判定当前帧无法完成对当前用户主体交互意图的准确判断并进行剔除;
此时,随机选取剔除后的剩余帧中的若干帧,与当前帧一同输入训练完成后的人机交互模型中,获取随机选取帧与当前帧输入训练完成后的人机交互模型中的识别率,并结合所述随机选取帧以及当前帧的计算量,从所有随机选取帧中确定当前帧完成对当前用户主体交互意图准确判断的最终帧;
其中,P为一帧交互数据的预设识别率;x1i1为当前识别帧中第i1个特征向量所对应的输出值;x2i1为当前识别帧中第i1个特征向量所对应的实际值;L表示输出值与实际值的最大误差阈值;G(x,y)表示当x大于y时,输出1;否则,输出0;y1j1表示当前帧与随机选取帧中的第j1个特征向量所对应的输出值;y2j1表示当前帧与随机选取帧中第j1个特征向量所对应的实际值;s1i1表示当前帧中第i1个特征向量的计算量;s2j1表示当前帧与随机选取帧中第j1个特征向量的计算量;a1、a2分别表示随机选取帧的识别率以及计算量对当前帧的影响权重;m1为当前帧的特征向量数量;m2为当前帧与随机选取帧的特征向量数量;
扩充所述最终帧的帧样本,对训练完成后的人机交互模型持续优化,得到预设人机交互模型。
该实施例中,获取所述用户主体前n1帧的交互数据,比如,获取用户主体前10帧的交互数据,所选帧数量越多,则对应交互数据越完整,交互意图识别准确率越高,相应识别效率越低。
该实施例中,由于用户运动存在连续性,因此各帧的交互数据存在部分数据丢失的现象,需进行帧数据融合处理,比如,当前帧交互数据a1、a3,前n1帧交互数据a1、a2,则进行融合处理,获取得到融合后的交互数据a1、a2以及a3。
该实施例中,确定人机交互模型的结构,比如,确认人机交互模型的层数以及各层的权重参数、权重数量以及权重计算方式。
该实施例中,获取各历史交互图像的输出值以及对应期望值,输出值以及对应期望值为三维坐标值,根据三维坐标值的距离计算确定当前人机交互模型对用户交互意图的识别误差,比如,输出值b1,对应期望值c1,确定当前人机交互模型对用户交互意图的识别误差为d1。
该实施例中,预设梯度更新策略是指从历史交互图像中随机选取一组历史交互图像,对各交互层参数进行迭代更新,迭代更新效率高,且迭代更新过程稳定。
该实施例中,对融合处理后的第一特征向量以及第二特征向量进行数据扩展,有利于提高人机交互模型的处理性能。
该实施例中,人机交互模型的识别准确度是指人机交互模型对用户交互意图的识别,比如,用户交互意图三种,人机交互模型对各类用户交互意图的识别准确度分别为0.9、0.95、0.85,预设识别准确度0.8,则判定人机交互模型训练完成。
该实施例中,相同特征向量以及独特特征向量,比如,当前帧的特征向量为特征向量a1、a2、b1以及b2,前n1帧中一帧的特征向量为特征向量a1、a3以及b1,则相同特征向量为a1、b1,独特特征向量为a2、a3、b2。
该实施例中,当前帧输入人机交互模型中的识别率是指根据当前帧识别用户交互意图的概率,比如,根据当前帧A1识别3种用户交互意图的识别率分别为0.3、0.4以及0.5,预设识别率0.6,则判定当前帧无法完成对当前用户主体交互意图的准确判断。
该实施例中,一帧交互数据最多对应一种用户交互意图,比如,根据当前帧A2识别3种交互意图的识别率分别为0.9、0.6、0.8,则判定当前帧对应的用户意图为识别率0.9所对应的交互意图。
该实施例中,帧的计算量根据帧包含的特征向量数量以及所述帧与当前帧的间隔时刻所确定。
该实施例中,从所有随机选取帧中确定当前帧完成对当前用户主体交互意图准确判断的最终帧,比如,当前帧A1与随机选取帧A3输入人机交互模型中,对应识别率高于预设识别率,则判定当前帧A1与随机选取帧A3即可完成对用户意图的准确识别,优化识别效率,随机所选帧A3即为最终帧。
该实施例中,最终帧的数量不唯一,根据随机选取帧与当前帧的识别率以及预设识别率所确定。
该实施例中,扩充所述最终帧的帧样本,对训练完成后的人机交互模型持续优化,得到预设人机交互模型,比如,训练完成后的人机交互交互模型识别n1帧的交互数据以完成对用户意图的识别,优化得到的预设人机交互模型识别A1帧以及A3帧的交互数据即可完成对用户意图的识别。
上述技术方案的有益效果是:通过构建并训练人机交互模型,确保了对不同场景下的用户交互意图的准确识别;通过对多帧交互数据的处理,既确保了用户交互意图的准确识别,又提高了用户交互意图的识别效率。
本发明实施例提供一种人机实时交互方法,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果,包括:
根据人机交互指令,确定目标控制指令,其中,目标控制指令包括:执行目标主体、反馈交互词、反馈交互值以及反馈控制变量;
根据所述目标控制指令,控制执行人机交互指令的目标主体,向用户主体实时反馈交互结果;
当监测到用户主体在预设交互时间段内未产生新的交互数据时,判定所述用户主体结束交互过程,将此次交互过程的数据进行数据存储。
该实施例中,预设目标控制指令的反馈交互词、反馈交互值以及反馈控制变量,若人机交互指令中不存在明确意图,则根据预设值进行上述反馈,比如,用户交互意图为调高声音,对应目标控制指令明确执行目标主体为反馈音响,反馈交互值根据预设值每次调高1。
该实施例中,当监测到用户主体在预设交互时间段内未产生新的交互数据时,比如,t1时间段内用户主体未产生新的交互数据,判定用户主体结束交互过程。
该实施例中,各用户的交互数据独立存储。
该实施例中,当判定当前用户主体结束交互过程后,若数据采集区域存在其它用户,则对其它用户进行用户主体判定;否则,机器结束交互。
上述技术方案的有益效果是:通过确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果,实现了人机实时交互;判定用户主体是否结束交互过程,提高资源利用率;存储用户交互数据,便于后续进行数据分析以及交互优化。
图2是本发明实施例提供的人机实时交互系统的结构示意图。
如图2所示,本发明实施例提供一种人机实时交互系统,包括:
交互采集模块,用于实时采集用户的交互数据,其中,所述交互数据包括:用户手势数据以及场景数据;
交互处理模块,用于提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量;
交互确定模块,用于基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型中,确定人机交互指令;
交互反馈模块,用于根据人机交互指令,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果。
上述技术方案的有益效果是:解决了环境因素对用户手势识别的影响以及解决了用户体验不佳的问题,取得了实现了人机实时交互以及提高了用户交互体验的有益效果。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的人机实时交互方法。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的人机实时交互方法。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种人机实时交互方法,其特征在于,包括:
步骤1:实时采集用户的交互数据,其中,所述交互数据包括:用户手势数据以及场景数据;
步骤2:提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量;
步骤3:基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型中,确定人机交互指令;
步骤4:根据人机交互指令,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果。
2.根据权利要求1所述的一种人机实时交互方法,其特征在于,实时采集用户的交互数据,包括:
根据预部署深度传感器,确定人机实时交互的数据采集区域;
当监测到用户进入数据采集区域时,实时监测用户行为;
当基于实时监测结果判定出用户存在交互意图时,实时采集用户的交互数据。
3.根据权利要求1所述的一种人机实时交互方法,其特征在于,提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量,包括:
对用户的交互数据进行数据预处理,并对用户手势数据进行区域确定,来将用户手势数据以及场景数据进行分割处理,获取用户手势图像以及交互场景图像;
对用户手势图像以及交互场景图像进行不同尺度的高斯模糊,并隔点采样,获取得到基于用户手势图像的手势图像集以及基于交互场景图像的场景图像集;
对所述手势图像集以及场景图像集中每张图像的各像素点以及对应相邻像素点进行分析,提取每张图像的特征点;
对每张图像的特征点进行拟合分析,确定对应图像中各特征点与对应实际特征点的偏移值,将偏移值大于预设偏移值以及特征点偏移超出图像集边界的对应特征点进行剔除;
获取每张图像剔除后的剩余每个特征点的相邻像素点的梯度以及方向,确定基于所述用户手势数据的第一特征向量以及基于所述场景数据的第二特征向量。
4.根据权利要求3所述的一种人机实时交互方法,其特征在于,对用户的交互数据进行数据预处理,包括:
获取用户交互数据对应的原始图像,并确定所述原始图像中各像素点的RGB分量的平均值来转化为灰度图像;
根据预设图像滤波方法,对所述灰度图像进行降噪处理,并将灰度图像分割为多个灰度子图像;
对各灰度子图像进行直方图均衡化处理,获取灰度子图像的各像素点的梯度直方图,进行归一化处理,确定灰度图像中的边缘以及轮廓,实现用户手势图像以及交互场景图像的获取。
5.根据权利要求1所述的一种人机实时交互方法,其特征在于,基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,包括:
根据特征向量映射表,获取第二特征向量所对应的第一特征向量集,确定第一特征向量基于第二特征向量的所属概率,当第一特征向量的所属概率不大于预设所属概率时,判定第一特征向量与第二特征向量不存在交互关系,对第一特征向量进行剔除处理,并标记第一特征向量所对应的用户为当前进行人机交互的无关用户;
当判定所述第一特征向量与第二特征向量存在交互关系时,且监测到数据采集区域存在一个用户时,则将所述用户标记为当前进行人机交互的用户主体;
当判定所述第一特征向量与第二特征向量存在交互关系时,且监测到数据采集区域存在多个用户时,获取各用户对应的第一特征向量的监测时刻,并将所述监测时刻最早的对应用户作为当前进行人机交互的用户主体。
6.根据权利要求1所述的一种人机实时交互方法,其特征在于,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型之前,包括:
当确定当前进行人机交互的用户主体时,获取所述用户主体前n1帧的交互数据;
若所述用户主体的当前交互数据与前n1帧的交互数据不一致,则对当前交互数据以及前n1帧交互数据进行融合处理,获取得到融合处理后的第一特征向量以及第二特征向量;
根据历史人机交互数据,构建初始人机交互模型,对所述历史人机交互数据进行归一化处理,获取得到历史交互图像,输入初始人机交互模型中,确定初始人机交互模型的结构,并对各交互层的参数数据进行初始化处理;
获取各历史交互图像的输出值以及对应期望值,确定所述初始人机交互模型对用户交互意图的识别误差;
获取所述初始人机交互模型各交互层参数基于所述识别误差的梯度,根据预设梯度更新策略,从历史交互图像中随机选取一组历史交互图像,对各交互层参数进行迭代更新;
实时监测迭代更新过程中不同迭代更新次数下的识别误差的梯度,当存在最新梯度超出预设梯度范围时,执行预设梯度调节策略;
当监测到最新识别误差收敛至预设识别误差时,判定所述初始人机交互模型的一次训练完成,并记录当前迭代更新后的各交互层参数数据;
对融合处理后的第一特征向量以及第二特征向量进行数据扩展,构建融合特征向量集,输入一次训练完成后的人机交互模型中,其中,数据扩展包括,数据旋转、数据缩放、数据尺度变换、噪声扰动以及空洞扰动;
获取一次训练完成后的人机交互模型对当前用户主体交互意图的输出值,并与当前用户主体交互意图的实际值进行比较,确定所述人机交互模型的识别准确度,当所述人机交互模型的识别准确度不低于预设识别准确度时,判定人机交互模型训练完成;
根据融合处理后的第一特征向量以及第二特征向量,获取前n1帧中各帧与当前帧的相同特征向量以及独特特征向量,当监测到前n1帧中的一帧仅存在相同特征向量时,判定对应帧的交互数据对训练完成后的人机交互模型的识别准确度不存在影响关系,将对应帧进行剔除;
获取当前帧输入训练完成后的人机交互模型中的识别率,若当前帧的识别率低于预设识别率时,判定当前帧无法完成对当前用户主体交互意图的准确判断并进行剔除;
此时,随机选取剔除后的剩余帧中的若干帧,与当前帧一同输入训练完成后的人机交互模型中,获取随机选取帧与当前帧输入训练完成后的人机交互模型中的识别率,并结合所述随机选取帧以及当前帧的计算量,从所有随机选取帧中确定当前帧完成对当前用户主体交互意图准确判断的最终帧;
;
其中,P为一帧交互数据的预设识别率;x1i1为当前识别帧中第i1个特征向量所对应的输出值;x2i1为当前识别帧中第i1个特征向量所对应的实际值;L表示输出值与实际值的最大误差阈值;G(x,y)表示当x大于y时,输出1;否则,输出0;y1j1表示当前帧与随机选取帧中的第j1个特征向量所对应的输出值;y2j1表示当前帧与随机选取帧中第j1个特征向量所对应的实际值;s1i1表示当前帧中第i1个特征向量的计算量;s2j1表示当前帧与随机选取帧中第j1个特征向量的计算量;a1、a2分别表示随机选取帧的识别率以及计算量对当前帧的影响权重;m1为当前帧的特征向量数量;m2为当前帧与随机选取帧的特征向量数量;
扩充所述最终帧的帧样本,对训练完成后的人机交互模型持续优化,得到预设人机交互模型。
7.根据权利要求1所述的一种人机实时交互方法,其特征在于,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果,包括:
根据人机交互指令,确定目标控制指令,其中,目标控制指令包括:执行目标主体、反馈交互词、反馈交互值以及反馈控制变量;
根据所述目标控制指令,控制执行人机交互指令的目标主体,向用户主体实时反馈交互结果;
当监测到用户主体在预设交互时间段内未产生新的交互数据时,判定所述用户主体结束交互过程,将此次交互过程的数据进行数据存储。
8.一种人机实时交互系统,其特征在于,包括:
交互采集模块,用于实时采集用户的交互数据,其中,所述交互数据包括:用户手势数据以及场景数据;
交互处理模块,用于提取所述用户手势数据的第一特征向量以及提取所述场景数据的第二特征向量;
交互确定模块,用于基于第二特征向量对第一特征向量进行二次处理,确定当前进行人机交互的用户主体,将所述用户主体对应的第一特征向量以及第二特征向量输入预设人机交互模型中,确定人机交互指令;
交互反馈模块,用于根据人机交互指令,确定执行人机交互指令的目标主体,并向用户主体实时反馈交互结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1至7任一项所述人机实时交互方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1至7任一项所述人机实时交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410430520.XA CN118034503A (zh) | 2024-04-11 | 2024-04-11 | 一种人机实时交互方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410430520.XA CN118034503A (zh) | 2024-04-11 | 2024-04-11 | 一种人机实时交互方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118034503A true CN118034503A (zh) | 2024-05-14 |
Family
ID=90987877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410430520.XA Pending CN118034503A (zh) | 2024-04-11 | 2024-04-11 | 一种人机实时交互方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118034503A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150153833A1 (en) * | 2012-07-13 | 2015-06-04 | Softkinetic Software | Method and system for human-to-computer gesture based simultaneous interactions using singular points of interest on a hand |
CN109062401A (zh) * | 2018-07-11 | 2018-12-21 | 北京理工大学 | 一种基于肌电信号的实时手势识别系统 |
CN111831101A (zh) * | 2019-04-22 | 2020-10-27 | 四川大学 | 一种基于Leap Motion的多特征动态手势识别方法 |
-
2024
- 2024-04-11 CN CN202410430520.XA patent/CN118034503A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150153833A1 (en) * | 2012-07-13 | 2015-06-04 | Softkinetic Software | Method and system for human-to-computer gesture based simultaneous interactions using singular points of interest on a hand |
CN109062401A (zh) * | 2018-07-11 | 2018-12-21 | 北京理工大学 | 一种基于肌电信号的实时手势识别系统 |
CN111831101A (zh) * | 2019-04-22 | 2020-10-27 | 四川大学 | 一种基于Leap Motion的多特征动态手势识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091101B (zh) | 基于一步法的高精度行人检测方法、系统、装置 | |
CN111914665B (zh) | 一种人脸遮挡检测方法、装置、设备及存储介质 | |
CN109919145B (zh) | 一种基于3d点云深度学习的矿卡检测方法及系统 | |
CN104778481A (zh) | 一种大规模人脸模式分析样本库的构建方法和装置 | |
CN112950477A (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
CN113723157B (zh) | 一种农作物病害识别方法、装置、电子设备及存储介质 | |
CN113487610A (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN110796250A (zh) | 应用于卷积神经网络的卷积处理方法、系统及相关组件 | |
CN111382638B (zh) | 一种图像检测方法、装置、设备和存储介质 | |
CN111723762A (zh) | 人脸属性识别方法、装置、电子设备及存储介质 | |
CN114882307A (zh) | 分类模型训练和图像特征提取方法及装置 | |
CN117253071B (zh) | 基于多级伪标签增强的半监督目标检测方法及系统 | |
CN117746077A (zh) | 一种芯片缺陷的检测方法、装置、设备和存储介质 | |
CN112734747B (zh) | 一种目标检测方法、装置、电子设备和存储介质 | |
CN113673465A (zh) | 图像检测方法、装置、设备及可读存储介质 | |
CN110765898B (zh) | 一种图像中物体及其关键点的确定方法和装置 | |
CN117351371A (zh) | 一种基于深度学习的遥感图像目标检测方法 | |
CN118034503A (zh) | 一种人机实时交互方法及系统 | |
CN117132802A (zh) | 一种田间小麦病虫害识别方法、装置及存储介质 | |
CN114708307B (zh) | 基于相关滤波器的目标跟踪方法、系统、存储介质及设备 | |
CN115457296A (zh) | 一种面向非平稳纹理结构属性的结构提取方法 | |
CN111967579A (zh) | 使用卷积神经网络对图像进行卷积计算的方法和装置 | |
CN113435320B (zh) | 自适应配置多模型的人体姿态估计方法 | |
CN111353353A (zh) | 跨姿态的人脸识别方法及装置 | |
Zheng et al. | Research on Target Detection Algorithm of Bank Card Number Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |