CN116311507A - 基于双端视频流的运动交互方法、装置及存储介质 - Google Patents
基于双端视频流的运动交互方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116311507A CN116311507A CN202310164909.XA CN202310164909A CN116311507A CN 116311507 A CN116311507 A CN 116311507A CN 202310164909 A CN202310164909 A CN 202310164909A CN 116311507 A CN116311507 A CN 116311507A
- Authority
- CN
- China
- Prior art keywords
- picture
- action
- picture set
- frame
- motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 175
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000003993 interaction Effects 0.000 title claims abstract description 49
- 230000009471 action Effects 0.000 claims abstract description 207
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 21
- 230000008439 repair process Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 11
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 15
- 210000000707 wrist Anatomy 0.000 description 14
- 210000003423 ankle Anatomy 0.000 description 12
- 210000003127 knee Anatomy 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000003321 amplification Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及视频检测技术领域,揭露一种基于双端视频流的运动交互方法,包括:基于移动终端的第一摄像装置捕捉用户动作画面,以及基于移动终端的第二摄像装置捕捉动作参考视频;获取第一帧动作画面集以及第二帧动作画面集;对第一帧动作画面集及第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集;对目标失真画面集进行画面修复处理,获取对应的修复画面,并基于修复画面更新第一帧动作画面集及第二帧动作画面集;对更新后的第一帧动作画面集及第二帧动作画面集进行动作轨迹对比,并将动作轨迹对比结果作为交互结果反馈用户。利用本发明能够提高对用户运动轨迹检测的灵活性及便捷性,帮助用户完成训练及学习的交互。
Description
技术领域
本发明涉及视频检测技术领域,尤其涉及一种基于双端视频流的运动交互的方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,线上运动的热度逐年升高,除了传统的预制视频课程外,各个厂家还推出了线上直播课程以及相应的AIOT设备,例如健身镜,以及基于人工智能的全息健身设备等,基于这些设备能够在录播课程和直播课程的基础上,通过相关设备增加对用户动作的基础判断和点评,从而帮助用户完成运动的训练、学习及复习等。
但是,现有业内运动产品仍存在的明显的缺点和不足,例如,设备限制,用户必须使用固定厂商的设备才可进行相关运动课程学习,如健身镜等,设备的适用范围受限;此外,场景限制,用户必须依靠安装设备下的固定场景才可进行后续操作,导致灵活性差,对设备的依赖度比较高,不适用于居家场景;以及平台限制,用户仅可使用当前厂商下的平台,无法兼顾功能及其他平台功能及课程,上述缺陷均会使得用户的运动体验效果较差。
发明内容
本发明提供一种基于双端视频流的运动交互方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高基于双端视频流的运动交互的灵活性及便捷性。
为实现上述目的,本发明提供的一种基于双端视频流的运动交互方法,包括:
基于移动终端的第一摄像装置捕捉用户动作画面,以及基于所述移动终端的第二摄像装置捕捉动作参考视频;所述第一摄像装置和所述第二摄像装置分别采集所述移动终端的前后对称两侧的画面;
按照预设采样频率,获取所述用户动作画面的第一帧动作画面集以及所述动作参考视频的第二帧动作画面集;
基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集;
对所述目标失真画面集进行画面修复处理,获取对应的修复画面,并基于所述修复画面更新所述所述第一帧动作画面集及所述第二帧动作画面集;
对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,并将所述动作轨迹对比结果作为交互结果反馈用户。
此外,可选的技术方案是,所述基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集,包括:
判断所述第一帧动作画面集中的画面的尺寸、分辨率、像素、色调、色板是否满足预设要求;以及,
判断所述第二帧动作画面集中的画面的尺寸、分辨率、像素、色调、色板是否满足所述预设要求;
当画面的尺寸、分辨率、像素、色调、色板中的至少一种不满足所述预设要求时,则确定所述画面为失真画面,基于所有的失真画面,确定所述目标失真画面集。
此外,可选的技术方案是,所述对所述目标失真画面集进行画面修复处理,获取对应的修复画面,包括:
基于预设的图像修复模型对所述目标失真画面中的画面进行修复;所述图像修复模型的预设过程包括:
获取样本数据,并基于样本数据获取对应的模糊数据;
基于所述模糊数据、与所述模糊数据对应的清晰数据以及所述样本数据形成训练数据;
基于所述训练数据训练构建的生成式对抗网络模型,直至所述生成式对抗网络模型收敛按在预设范围内,形成所述图像修复模型。
此外,可选的技术方案是,获取所述目标失真画面中的各画面的失真类别;所述失真类别包括画面尺寸、分辨率、像素、色调、色板中的至少一条不符合所述预设要求;
基于所述失真类别对所述各画面进行对应的修复;所述修复包括对所述画面进行无损放大、拉伸、清晰度增强、色彩增强和对比度增强。
此外,可选的技术方案是,所述对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,包括:
获取更新后的所述第一帧动作画面集的在预设频率下的第一动作序列,以及更新后的所述第二帧动作画面集在所述预设频率下的第二动作序列;
获取所述第一动作序列的在预设时间段内的第一人体姿态关键点坐标,以及所述第二动作序列的在所述预设时间内的第二人体姿态关键点坐标;
获取所述第一人体姿态关键点坐标在预设关键点之间的第一角度信息,以及所述第二人体姿态关键点坐标在预设关键点之间的第二角度信息;
基于所述第一角度信息和所述第二角度信息的相似度,确定所述动作轨迹对比结果。
此外,可选的技术方案是,所述第一人体姿态关键点坐标为预设时间段内的所述第一动作序列中所有相同位置处的人体姿态关键点坐标值的平均值;所述第二人体姿态关键点坐标为所述预设时间段内的所述第二动作序列中所有相同位置处的人体姿态关键点坐标值的平均值。
此外,可选的技术方案是,所述相似度的获取公式为:
其中,S表示所述相似度,W表示每个角度对应的权重阈值,W=[w1,w2,…,wn],M表示第二角度信息,M=[m1,m2,…,mn],T表示第一角度信息,T=[t1,t2,…,tn],n表示人体姿态关键点之间的角度个数。
为了解决上述问题,本发明还提供一种基于双端视频流的运动交互装置,所述装置包括:
画面捕捉单元,用于基于移动终端的第一摄像装置捕捉用户动作画面,以及基于所述移动终端的第二摄像装置捕捉动作参考视频;所述第一摄像装置和所述第二摄像装置分别采集所述移动终端的前后对称两侧的画面;
帧动作获取单元,用于按照预设采样频率,获取所述用户动作画面的第一帧动作画面集以及所述动作参考视频的第二帧动作画面集;
失真确定单元,用于基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集;
失真修复单元,用于对所述目标失真画面集进行画面修复处理,获取对应的修复画面,并基于所述修复画面更新所述所述第一帧动作画面集及所述第二帧动作画面集;
结果反馈单元,用于对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,并将所述动作轨迹对比结果作为交互结果反馈用户。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的基于双端视频流的运动交互方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于双端视频流的运动交互方法。
本发明实施例通过移动终端的第一摄像装置和第二摄像装置分别捕捉用户动作画面信息以及动作参考视频,然后基于预设规则对用户的第一帧动作画面集及动作参考视频的第二帧动作画面集分别进行画面筛选,以对其中的目标失真画面进行画面修复处理,然后针对修复后的第一帧动作画面集及第二帧动作画面集进行动作轨迹对比,并反馈用户与动作参考视频之间的交互结果,可以辅助用户进行运动训练及指导。
附图说明
图1为本发明一实施例提供的基于双端视频流的运动交互方法的流程示意图;
图2为本发明一实施例提供的人体姿态关键点分布示意图;
图3为本发明一实施例提供的帧图片的角度示意图;
图4为本发明一实施例提供的基于双端视频流的运动交互装置的模块示意图;
图5为本发明一实施例提供的实现基于双端视频流的运动交互方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
为解决现有技术中存在的用户在运动健身场景中,无法及时了解或者客观的获知自身运动的动作标准程度,以及需要依赖专业的设备,例如健身镜、基于人工智能的全息健身设备等,导致适用场景受限,用户的运动体验效果较差等问题,本申请提供一种基于人工智能的双端视频流的运动交互方法,能够基于手机、平板等电子设备,实现对用户的运动视频的智能化分析,并可提供量性的分析结果,提高用户的运动体验效果。
本发明提供一种基于双端视频流的运动交互方法。参照图1所示,为本发明一实施例提供的基于双端视频流的运动交互方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于双端视频流的运动交互方法包括:
S100:基于移动终端的第一摄像装置捕捉用户动作画面(或用户动作视频),以及基于所述移动终端的第二摄像装置捕捉动作参考视频;所述第一摄像装置和所述第二摄像装置分别采集所述移动终端的前后对称两侧的画面。
具体地,上述移动终端可以是用户的手机、平板等具有前置和后置摄像功能的电子设备,且第一摄像装置和第二摄像装置能够分别采集移动终端的前后对称两侧的画面,用户在自主选择动作参考视频内容之后,可通过移动终端的第二摄像装置拍摄动作参考视频中老师的动作姿态,同时通过移动终端的第一摄像装置获取用户跟随老师工作展现的用户动作画面信息,即用户的动作姿态,然后以第二摄像装置拍摄的信息为标准,可以对用户的运动标准程度进行评判,以便提出优化建议,辅助用户及时了解自身运动情况,完成运动交互,从而进行标准有效的运动训练。
S200:按照预设采样频率,获取所述用户动作画面的第一帧动作画面集以及动作参考视频的第二帧动作画面集。
具体地,可根据预设的采样频率,获取与用户动作画面对应的一组帧动作,形成第一帧动作画面集,同理,获取与动作参考视频对应的第二真动作画面集;其中,当教学视频内的人体或者用户暂时未出现在对应的视频中,或者出现动作静止时,例如去喝水或者接听电话等,即当未检测到视频中有人体存在的情况下,可删除相应的视频段,仅保留具有人体运动轨迹的内容,以减少视频数据的处理量。
S300:基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集。
其中,基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集,包括:
判断第一帧动作画面集中的画面的尺寸、分辨率、像素、色调、色板是否满足预设要求;以及,
判断第二帧动作画面集中的画面的尺寸、分辨率、像素、色调、色板是否满足所述预设要求;
当画面的尺寸、分辨率、像素、色调、色板中的至少一种不满足所述预设要求时,则确定所述画面为失真画面,基于所有的失真画面,确定所述目标失真画面集。
具体地,上述预设规则主要是对画面的上述参数进行判断,当各参数中的任何一个不符合对应的涉及要求时,则表示当前画面为失真画面,进而将其归纳至目标失真画面集中,以便后续对各失真画面进行修复,以提高运动交互的准确性。
作为具体示例,若当前判断的画面的尺寸小于预设尺寸大小,则对当前画面的修复可以是将画面无损放大至预设尺寸,或者对其进行拉伸恢复等,若当前判断的画面的分辨率低于预设阈值,则可对当前画面进行清晰度增强处理,以使修复的画面分辨率符合对应的预设要求。
可知,上述预设规则并不限于尺寸、分辨率、像素、色调、色板等,还可以根据具体的使用场景或者需求进行灵活的设置。
S400:对目标失真画面集进行画面修复处理,获取对应的修复画面,并基于修复画面更新所述所述第一帧动作画面集及所述第二帧动作画面集。
其中,对目标失真画面集进行画面修复处理,获取对应的修复画面,可以基于预设的图像修复模型对目标失真画面中的画面进行修复。
具体地,上述图像修复模型的预设过程包括:
S410:获取样本数据,并基于样本数据获取对应的模糊数据;
S420:基于所述模糊数据、与所述模糊数据对应的清晰数据以及所述样本数据形成训练数据;
S430:基于所述训练数据训练构建的生成式对抗网络模型,直至所述生成式对抗网络模型收敛按在预设范围内,形成图像修复模型。
其中,在图像修模模型的训练过程中,可通过样本数据对图片的尺寸、清晰度等参数特征进行标注,以便更好的提高模型的学习及修复能力。可知,图像修复模型对所述目标失真画面中的画面进行修复,可以包括:对所述画面进行无损放大、拉伸、清晰度增强、色彩增强和对比度增强。
具体地,在目标失真画面集时,判断其分辨率、像素、色调、色板是否满足预设要求,还为了确保后续能够精确的确定各画面的人体姿态关键点信息,方便对两组动作序列的对比。
此外,需要说明的是,在对目标失真画面集中的画面进行修复时,也可采用相应的图像处理软件来完成,例如图像处理器等,但是对移动终端的要求较高,在处理过程中操作会比较繁琐,但是采用上述图形修复模型,能够简化处理过程,且可一次性对图像的多种参数进行同时修复,提高移动终端使用的便携性。
S500:对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,并将所述动作轨迹对比结果作为交互结果反馈用户。
其中,对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,包括:
S510:获取更新后的第一帧动作画面集的在预设频率下的第一动作序列,以及更新后的第二帧动作画面集在预设频率下的第二动作序列;
S520:获取第一动作序列的在预设时间段内的第一人体姿态关键点坐标,以及第二动作序列的在预设时间内的第二人体姿态关键点坐标;
S530:获取第一人体姿态关键点坐标在预设关键点之间的第一角度信息,以及第二人体姿态关键点坐标在预设关键点之间的第二角度信息;
S540:基于第一角度信息和第二角度信息的相似度,确定所述动作轨迹对比结果,并反馈至用户。
其中,第一人体姿态关键点坐标可设置为预设时间段内的第一动作序列中所有相同位置处的人体姿态关键点坐标值的平均值;第二人体姿态关键点坐标可设置为预设时间段内的第二动作序列中所有相同位置处的人体姿态关键点坐标值的平均值,所述第一关键点信息包括所述第一人体姿态关键点在预设位置之间的坐标角度信息(第一角度),所述第二关键点信息包括所述第二人体姿态关键点在所述预设位置之间的坐标角度信息(第二角度)。
作为具体示例,预设时间段可以设置为1s,假设用户动作画面和动作参考视频在1s内具备24帧的帧动作画面,运动时间为1h,则第一帧动作画面集包括用户在1h内的所有帧动作画面,然后确定第一帧动作画面集的目标失真画面集,并通过图像修模模型对目标失真画面集进行修复,通过修复后的画面更新第一帧动作画面集,然后获取更新后的第一帧动作画面集在1s内的所有的第一画面的第一人体姿态关键点组,并对这些人体姿态关键点组进行平均处理,获取第一关键点信息;同理,获取第二关键点信息,然后对连续多个1s内的第一关键点信息和第二关键点信息进行对比,获取所述用户运动轨迹与所述运动教学轨迹之间的重合度。
需要说明的是,在上述确定关键点信息的过程中,可对1s内的所有的人体姿态关键点组内的所有对应位置的坐标进行求平均处理,确定一组完整的人体姿态关键点信息,也可先确定1s内中一个修复完成的动作画面,基于该动作画面确定人体姿态关键点信息。
其中,为克服两个视频之间存在时间差的情况,可将预设时间设置稍大一些,例如,2s或者3s。
换言之,连续多个1s内的第一关键点信息形成第一动作序列的关键点序列,第二关键点信息形成第二动作序列的关键点序列,在对比过程中,可通过对应序列的关键点之间的角度信息完成比对工作,如果差距较小则表明二者之间的重合度标较高,也可通过具体的数值对差距进行打分,便于用户更加直观的了解自己的运动情况。
作为具体示例,对第一角度信息和第二角度信息进行相似度计算,获取所述用户运动轨迹与所述运动教学轨迹之间的重合度,可进一步包括:
在所述第一画面和所述第二画面上设置位置对应的预设区域;
获取所述预设区域内所述第一动作序列与所述第二动作序列中相同位置处的第一角度信息和第二角度信息之间的相似度;
基于所述相似度确定所述重合度。
可知,本申请并不对获取运动序列的方式进行具体限制,能够最终获得该信息,以使用户运动轨迹与运动教学轨迹进行阐述比对皆可,作为示例,预设时间的范围可设置为1s-3s等,然后整个运动如果为40min,则运动序列为每隔1s-3s获取的一组运动序列。
此外,人体姿态关键点可以包括:鼻子,左眼,右眼,左耳,右耳,左肩,右肩,左手肘,右手肘,左手腕,右手腕,左胯关节,右胯关节,左膝盖,右膝盖,左脚踝,右脚踝等多种关键点,具体可根据运动的动作幅度或者锻炼部位进行灵活设置。
进而,上述中的角度可包括左手腕、左手肘及左肩之间连线的角度,左胯关节、左膝盖及左脚踝之间连线的角度,左耳、左眼及鼻子之间连线的角度,右手腕、右手肘及右肩之间连线的角度,右胯关节、右膝盖及右脚踝之间连线的角度,右耳、右眼及鼻子之间连线的角度等等。
具体地,图2示出了根据本发明实施例的人体姿态关键点分布图,图3示出了两个角度示例。
如图2和图3共同所示,在该实施例中,0-鼻子,1-左眼,2-右眼,3-左耳,4-右耳,5-左肩,6-右肩,7-左手肘,8-右手肘,9-左手腕,10-右手腕,11-左胯关节,12-右胯关节,13-左膝盖,14-右膝盖,15-左脚踝,16-右脚踝。
以左手腕、左手肘及左肩之间连线(9-7-5)的角度为例,给定9,7,5在对应帧图片中的像素位置,首先计算7至9的单位向量然后计算7值5的单位向量/>c和s表示向量参数,然后计算向量u逆时针到向量v的夹角θ,具体的计算方式如下:
其中,假设向量u和x轴正方向之间的夹角为α,向量v和x轴正方向之间的夹角为β,则有c1=cosα,s1=sinα,c2=cosβ,s2=sinβ,θ=β-α±(2kπ);继续推导可得出:
cosθ=cos(β-α)
=cosβcosα+sinβsinα
=c1c2+s1s2
以及,
sinθ=sin(β-α)
=sinβcosα-cosβsinα
=c1s2-c2s1
其中,坐标轴以7为原点,y轴为平行于帧图片高的方向,假设向量u平行于y轴,则针对图3中的示例1,假设cosα=0,sinα=1,则α=90°,则β=315°,所以θ=β-α=225°。对于示例2,α=90°,则β=45°,则θ=β-α=-45°<0°,所以θ=360°-45°=315°。
进而,相似度的获取公式为:
其中,S表示所述相似度,W表示每个角度对应的权重阈值,W=[w1,w2,…,wn],M表示第二角度信息,M=[m1,m2,…,mn],T表示第一角度信息,T=[t1,t2,…,tn],n表示人体姿态关键点之间的角度个数。
上述相似度的取值范围为[-1,1],基于所述相似度确定所述重合度包括:当所述相似度小于0时,所述重合度为0;当所述相似度大于0时,所述重合度为100*S,上述S为整体相似度。
在本发明的另一具体实施方式中,除了考虑整体相似度的情况外,还可针对性的仅考虑帧动作画面的局部相似度,通过设定区间,当阈值不在设定区间内时,则可确定对应的点进行输出提醒,此时可以不输出得分,仅对设定区间内的第一角度信息和第二角度信息进行相似度计算并输出。
需要说明的是,在本发明的基于双端视频流的运动交互方法中,假设当前选中第n秒的第一动作序列,从序列中按顺序寻找与动作参考视频中同动作序列的标准动作帧图。如果第一张帧动作画面(1/24)模糊或者与教学视频中国的标准动作帧图差距较大,或者人体姿态关键点检测点位无法全部检测到,则自动顺位进行第二张帧动作画面(2/24)的对比,循环至最终确定与标准动作帧图最接近的帧动作画面。如果最终依旧无法识别,则可启用局部相似度的方式来克服图像失真的问题。
在运动交互结果确定后,产品功能可显示评判分数、错误动作截图、回放视频等功能来帮助用户了解运动过程中的细节,从而加强用户对动作的记忆点和熟练度。
根据上述本发明的基于双端视频流的运动交互方法,能够对用户运动视频和动作参考视频进行完整或者局部的帧图片对比,进而获取用户运动轨迹与运动教学轨迹之间的重合度,最终根据重合度确定用户运动轨迹的动作标准程度,也可设定标准程度的阈值,当标准程度不符合对应的阈值时,可给予用户颜色或者声音的提醒,能够有效的兼顾个平台功能及课程,通过视频双采的方式,保证标准动作和用户动作实时同步,并实时数字化评价,对用户动作进行判断、打分、评价并提出优化建议。
如图4所示,是本发明基于双端视频流的运动交互装置的功能模块的示意图。
本发明所述基于双端视频流的运动交互装置100可以安装于电子设备中。根据实现的功能,所述基于双端视频流的运动交互装置可以包括画面捕捉单元101、帧动作获取单元102、失真确定单元103、失真修复单元104、结果反馈单元105。本发所述单元也可以称之为模块,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
画面捕捉单元101,用于基于移动终端的第一摄像装置捕捉用户动作画面信息,以及基于所述移动终端的第二摄像装置捕捉动作参考视频;第一摄像装置和所述第二摄像装置分别采集所述移动终端的前后对称两侧的画面。
帧动作获取单元102,用于按照预设采样频率,获取所述用户动作画面的第一帧动作画面集以及所述动作参考视频的第二帧动作画面集;
失真确定单元103,用于基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集;
失真修复单元104,用于对所述目标失真画面集进行画面修复处理,获取对应的修复画面,并基于所述修复画面更新所述所述第一帧动作画面集及所述第二帧动作画面集;
结果反馈单元105,用于对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,并反馈用户与动作参考视频之间的交互结果。
具体地,上述移动终端可以是用户的手机、平板等具有前置和后置摄像功能的电子设备,且第一摄像装置和第二摄像装置能够分别采集移动终端的前后对称两侧的画面,用户在自主选择动作参考视频内容之后,可通过移动终端的第二摄像装置拍摄动作参考视频中老师的动作姿态,同时通过移动终端的第一摄像装置获取用户跟随老师工作展现的用户动作画面信息,即用户的动作姿态,然后以第二摄像装置拍摄的信息为标准,可以对用户的运动标准程度进行评判,以便提出优化建议,辅助用户及时了解自身运动情况,完成运动交互,从而进行标准有效的运动训练。
其中,帧动作获取单元102中,可根据预设的采样频率,获取与用户动作画面对应的一组帧动作,形成第一帧动作画面集,同理,获取与动作参考视频对应的第二真动作画面集;其中,当教学视频内的人体或者用户暂时未出现在对应的视频中,或者出现动作静止时,例如去喝水或者接听电话等,即当未检测到视频中有人体存在的情况下,可删除相应的视频段,仅保留具有人体运动轨迹的内容,以减少视频数据的处理量。
失真确定单元103中,基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集,包括:
判断第一帧动作画面集中的画面的尺寸、分辨率、像素、色调、色板是否满足预设要求;以及,
判断第二帧动作画面集中的画面的尺寸、分辨率、像素、色调、色板是否满足所述预设要求;
当画面的尺寸、分辨率、像素、色调、色板中的至少一种不满足所述预设要求时,则确定所述画面为失真画面,基于所有的失真画面,确定所述目标失真画面集。
具体地,上述预设规则主要是对画面的上述参数进行判断,当各参数中的任何一个不符合对应的涉及要求时,则表示当前画面为失真画面,进而将其归纳至目标失真画面集中,以便后续对各失真画面进行修复,以提高运动交互的准确性。
作为具体示例,若当前判断的画面的尺寸小于预设尺寸大小,则对当前画面的修复可以是将画面无损放大至预设尺寸,或者对其进行拉伸恢复等,若当前判断的画面的分辨率低于预设阈值,则可对当前画面进行清晰度增强处理,以使修复的画面分辨率符合对应的预设要求。
可知,上述预设规则并不限于尺寸、分辨率、像素、色调、色板等,还可以根据具体的使用场景或者需求进行灵活的设置。
失真修复单元104中,对目标失真画面集进行画面修复处理,获取对应的修复画面,可以基于预设的图像修复模型对目标失真画面中的画面进行修复。具体地,上述图像修复模型的预设过程包括:
1、获取样本数据,并基于样本数据获取对应的模糊数据;
2、基于所述模糊数据、与所述模糊数据对应的清晰数据以及所述样本数据形成训练数据;
3、基于所述训练数据训练构建的生成式对抗网络模型,直至所述生成式对抗网络模型收敛按在预设范围内,形成图像修复模型。
其中,在图像修模模型的训练过程中,可通过样本数据对图片的尺寸、清晰度等参数特征进行标注,以便更好的提高模型的学习及修复能力。可知,图像修复模型对所述目标失真画面中的画面进行修复,可以包括:对所述画面进行无损放大、拉伸、清晰度增强、色彩增强和对比度增强。
此外,需要说明的是,在对目标失真画面集中的画面进行修复时,也可采用相应的图像处理软件来完成,例如图像处理器等,但是采用上述图形修复模型,能够简化处理过程,且可一次性对图像的多种参数进行同时修复,提高移动终端使用的便携性。
结果反馈单元105,用于对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,并将所述动作轨迹对比结果作为交互结果反馈用户。
其中,对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,包括:
1、获取更新后的第一帧动作画面集的在预设频率下的第一动作序列,以及更新后的第二帧动作画面集在预设频率下的第二动作序列;
2、获取第一动作序列的在预设时间段内的第一人体姿态关键点坐标,以及第二动作序列的在预设时间内的第二人体姿态关键点坐标;
3、获取第一人体姿态关键点坐标在预设关键点之间的第一角度信息,以及第二人体姿态关键点坐标在预设关键点之间的第二角度信息;
4、基于第一角度信息和第二角度信息的相似度,确定所述动作轨迹对比结果,并反馈至用户。
具体地,第一动作序列的获取过程,可以包括:
获取所述更新后的第一帧动作画面集中,在预设时间段内的各第一画面的第一人体姿态关键点组;
对所述第一人体姿态关键点组进行平均处理,获取第一关键点信息;
所述第二动作序列的获取过程,可以包括:
获取所述更新后的第二帧动作画面集中,在所述预设时间段内的第各二画面的第二人体姿态关键点组;
对所述第二人体姿态关键点组进行平均处理,获取第二关键点信息;
其中,第一人体姿态关键点坐标可设置为预设时间段内的第一动作序列中所有相同位置处的人体姿态关键点坐标值的平均值;第二人体姿态关键点坐标可设置为预设时间段内的第二动作序列中所有相同位置处的人体姿态关键点坐标值的平均值,所述第一关键点信息包括所述第一人体姿态关键点在预设位置之间的坐标角度信息(第一角度),所述第二关键点信息包括所述第二人体姿态关键点在所述预设位置之间的坐标角度信息(第二角度)。
作为具体示例,预设时间段可以设置为1s,假设用户动作画面和动作参考视频在1s内具备24帧的帧动作画面,运动时间为1h,则第一帧动作画面集包括用户在1h内的所有帧动作画面,然后确定第一帧动作画面集的目标失真画面集,并通过图像修模模型对目标失真画面集进行修复,通过修复后的画面更新第一帧动作画面集,然后获取更新后的第一帧动作画面集在1s内的所有的第一画面的第一人体姿态关键点组,并对这些人体姿态关键点组进行平均处理,获取第一关键点信息;同理,获取第二关键点信息,然后对连续多个1s内的第一关键点信息和第二关键点信息进行对比,获取所述用户运动轨迹与所述运动教学轨迹之间的重合度。
需要说明的是,在上述确定关键点信息的过程中,可对1s内的所有的人体姿态关键点组内的所有对应位置的坐标进行求平均处理,确定一组完整的人体姿态关键点信息,也可先确定1s内中一个修复完成的动作画面,基于该动作画面确定人体姿态关键点信息。
其中,为克服两个视频之间存在时间差的情况,可将预设时间设置稍大一些,例如,2s或者3s。
换言之,连续多个1s内的第一关键点信息形成第一动作序列的关键点序列,第二关键点信息形成第二动作序列的关键点序列,在对比过程中,可通过对应序列的关键点之间的角度信息完成比对工作,如果差距较小则表明二者之间的重合度标较高,也可通过具体的数值对差距进行打分,便于用户更加直观的了解自己的运动情况。
作为具体示例,对第一角度信息和第二角度信息进行相似度计算,获取所述用户运动轨迹与所述运动教学轨迹之间的重合度,可进一步包括:
在所述第一画面和所述第二画面上设置位置对应的预设区域;
获取所述预设区域内所述第一动作序列与所述第二动作序列中相同位置处的第一角度信息和第二角度信息之间的相似度;
基于所述相似度确定所述重合度。
可知,本申请并不对获取运动序列的方式进行具体限制,能够最终获得该信息,以使用户运动轨迹与运动教学轨迹进行阐述比对皆可,作为示例,预设时间的范围可设置为1s-3s等,然后整个运动如果为40min,则运动序列为每隔1s-3s获取的一组运动序列。
此外,人体姿态关键点可以包括:鼻子,左眼,右眼,左耳,右耳,左肩,右肩,左手肘,右手肘,左手腕,右手腕,左胯关节,右胯关节,左膝盖,右膝盖,左脚踝,右脚踝等多种关键点,具体可根据运动的动作幅度或者锻炼部位进行灵活设置。
进而,上述中的角度可包括左手腕、左手肘及左肩之间连线的角度,左胯关节、左膝盖及左脚踝之间连线的角度,左耳、左眼及鼻子之间连线的角度,右手腕、右手肘及右肩之间连线的角度,右胯关节、右膝盖及右脚踝之间连线的角度,右耳、右眼及鼻子之间连线的角度等等。
具体地,图2示出了根据本发明实施例的人体姿态关键点分布图,图3示出了两个角度示例。
如图2和图3共同所示,在该实施例中,0-鼻子,1-左眼,2-右眼,3-左耳,4-右耳,5-左肩,6-右肩,7-左手肘,8-右手肘,9-左手腕,10-右手腕,11-左胯关节,12-右胯关节,13-左膝盖,14-右膝盖,15-左脚踝,16-右脚踝。
以左手腕、左手肘及左肩之间连线(9-7-5)的角度为例,给定9,7,5在对应帧图片中的像素位置,首先计算7至9的单位向量然后计算7值5的单位向量/>c和s表示向量参数,然后计算向量u逆时针到向量v的夹角θ,具体的计算方式如下:
其中,假设向量u和x轴正方向之间的夹角为α,向量v和x轴正方向之间的夹角为β,则有c1=cosα,s1=sinα,c2=cosβ,s2=sinβ,θ=β-α±(2kπ);继续推导可得出:
cosθ=cos(β-α)
=cosβcosα+sinβsinα
=c1c2+s1s2
以及,
sinθ=sin(β-α)
=sinβcosα-cosβsinα
=c1s2-c2s1
其中,坐标轴以7为原点,y轴为平行于帧图片高的方向,假设向量u平行于y轴,则针对图3中的示例1,假设cosα=0,sinα=1,则α=90°,/>则β=315°,所以θ=β-α=225°。对于示例2,α=90°,则β=45°,则θ=β-α=-45°<0°,所以θ=360°-45°=315°
进而,相似度的获取公式为:
其中,S表示所述相似度,W表示每个角度对应的权重阈值,W=[w1,w2,…,wn],M表示第二角度信息,M=[m1,m2,…,mn],T表示第一角度信息,T=[t1,t2,…,tn],n表示人体姿态关键点之间的角度个数。
上述相似度的取值范围为[-1,1],基于所述相似度确定所述重合度包括:当所述相似度小于0时,所述重合度为0;当所述相似度大于0时,所述重合度为100*S,上述S为整体相似度。
在本发明的另一具体实施方式中,除了考虑整体相似度的情况外,还可针对性的仅考虑帧动作画面的局部相似度,通过设定区间,当阈值不在设定区间内时,则可确定对应的点进行输出提醒,此时可以不输出得分,仅对设定区间内的第一角度信息和第二角度信息进行相似度计算并输出。
根据上述本发明的基于双端视频流的运动交互方法,能够对用户运动视频和动作参考视频进行完整或者局部的帧图片对比,并对存在失真的画面进行修复,进而提高用户运动轨迹与运动教学轨迹之间的运动互动的准确度,最终根据重合度确定用户运动轨迹的动作标准程度,也可设定标准程度的阈值,当标准程度不符合对应的阈值时,可给予用户颜色或者声音的提醒,能够有效的兼顾个平台功能及课程,通过视频双采的方式,保证标准动作和用户动作实时同步,并实时数字化评价,对用户动作进行判断、打分、评价并提出优化建议。
如图5所示,是本发明实现基于双端视频流的运动交互方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于双端视频流的运动交互程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于双端视频流的运动交互程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于双端视频流的运动交互程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现存储器11以及至少一个处理器10等之间的连接通信。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于双端视频流的运动交互程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
基于移动终端的第一摄像装置捕捉用户动作画面,以及基于所述移动终端的第二摄像装置捕捉动作参考视频;所述第一摄像装置和所述第二摄像装置分别采集所述移动终端的前后对称两侧的画面;
按照预设采样频率,获取所述用户动作画面的第一帧动作画面集以及所述动作参考视频的第二帧动作画面集;
基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集;
对所述目标失真画面集进行画面修复处理,获取对应的修复画面,并基于所述修复画面更新所述所述第一帧动作画面集及所述第二帧动作画面集;
对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,并将所述动作轨迹对比结果作为交互结果反馈用户。
此外,可选的技术方案是,所述基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集,包括:
判断所述第一帧动作画面集中的画面的尺寸、分辨率、像素、色调、色板是否满足预设要求;以及,
判断所述第二帧动作画面集中的画面的尺寸、分辨率、像素、色调、色板是否满足所述预设要求;
当画面的尺寸、分辨率、像素、色调、色板中的至少一种不满足所述预设要求时,则确定所述画面为失真画面,基于所有的失真画面,确定所述目标失真画面集。
此外,可选的技术方案是,所述对所述目标失真画面集进行画面修复处理,获取对应的修复画面,包括:
基于预设的图像修复模型对所述目标失真画面中的画面进行修复;所述图像修复模型的预设过程包括:
获取样本数据,并基于样本数据获取对应的模糊数据;
基于所述模糊数据、与所述模糊数据对应的清晰数据以及所述样本数据形成训练数据;
基于所述训练数据训练构建的生成式对抗网络模型,直至所述生成式对抗网络模型收敛按在预设范围内,形成所述图像修复模型。
此外,可选的技术方案是,
获取所述目标失真画面中的各画面的失真类别;所述失真类别包括画面尺寸、分辨率、像素、色调、色板中的至少一条不符合所述预设要求;
基于所述失真类别对所述各画面进行对应的修复;所述修复包括对所述画面进行无损放大、拉伸、清晰度增强、色彩增强和对比度增强。
此外,可选的技术方案是,预设时间的范围为1s-3s。
此外,可选的技术方案是,获取更新后的所述第一帧动作画面集的在预设频率下的第一动作序列,以及更新后的所述第二帧动作画面集在所述预设频率下的第二动作序列;
获取所述第一动作序列的在预设时间段内的第一人体姿态关键点坐标,以及所述第二动作序列的在所述预设时间内的第二人体姿态关键点坐标;
获取所述第一人体姿态关键点坐标在预设关键点之间的第一角度信息,以及所述第二人体姿态关键点坐标在预设关键点之间的第二角度信息;
基于所述第一角度信息和所述第二角度信息的相似度,确定所述动作轨迹对比结果。
此外,可选的技术方案是,所述第一人体姿态关键点坐标为所述预设时间段内的所述第一动作序列中所有相同位置处的人体姿态关键点坐标值的平均值;所述第二人体姿态关键点坐标为所述预设时间段内的所述第二动作序列中所有相同位置处的人体姿态关键点坐标值的平均值。
所述相似度的获取公式为:
其中,S表示所述相似度,W表示每个角度对应的权重阈值,W=[w1,w2,…,wn],M表示第二角度信息,M=[m1,m2,…,mn],T表示第一角度信息,T=[t1,t2,…,tn],n表示人体姿态关键点之间的角度个数。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于双端视频流的运动交互方法,其特征在于,包括:
基于移动终端的第一摄像装置捕捉用户动作画面,以及基于所述移动终端的第二摄像装置捕捉动作参照视频;所述第一摄像装置和所述第二摄像装置分别采集所述移动终端的前后对称两侧的画面;
按照预设采样频率,获取所述用户动作画面的第一帧动作画面集以及所述动作参照视频的第二帧动作画面集;
基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集;
对所述目标失真画面集进行画面修复处理,获取对应的修复画面,并基于所述修复画面更新所述所述第一帧动作画面集及所述第二帧动作画面集;
对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,并将所述动作轨迹对比结果作为交互结果反馈用户。
2.如权利要求1所述的基于双端视频流的运动交互方法,其特征在于,所述基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集,包括:
判断所述第一帧动作画面集中的画面的尺寸、分辨率、像素、色调、色板是否满足预设要求;以及,
判断所述第二帧动作画面集中的画面的尺寸、分辨率、像素、色调、色板是否满足所述预设要求;
当画面的尺寸、分辨率、像素、色调、色板中的至少一种不满足所述预设要求时,则确定所述画面为失真画面,基于所有的失真画面,确定所述目标失真画面集。
3.如权利要求1所述的基于双端视频流的运动交互方法,其特征在于,所述对所述目标失真画面集进行画面修复处理,获取对应的修复画面,包括:
基于预设的图像修复模型对所述目标失真画面中的画面进行修复;其中,所述图像修复模型的预设过程包括:
获取样本数据,并基于样本数据获取对应的模糊数据;
基于所述模糊数据、与所述模糊数据对应的清晰数据以及所述样本数据形成训练数据;
基于所述训练数据训练构建的生成式对抗网络模型,直至所述生成式对抗网络模型收敛按在预设范围内,形成所述图像修复模型。
4.如权利要求2所述的基于双端视频流的运动交互方法,其特征在于,
所述图像修复模型对所述目标失真画面中的画面进行修复,包括:
获取所述目标失真画面中的各画面的失真类别;所述失真类别包括画面尺寸、分辨率、像素、色调、色板中的至少一条不符合所述预设要求;
基于所述失真类别对所述各画面进行对应的修复;所述修复包括对所述画面进行无损放大、拉伸、清晰度增强、色彩增强和对比度增强。
5.如权利要求1所述的基于双端视频流的运动交互方法,其特征在于,
所述对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,包括:
获取更新后的所述第一帧动作画面集在预设频率下的第一动作序列,以及更新后的所述第二帧动作画面集在所述预设频率下的第二动作序列;
获取所述第一动作序列的在预设时间段内的第一人体姿态关键点坐标,以及所述第二动作序列的在所述预设时间内的第二人体姿态关键点坐标;
获取所述第一人体姿态关键点坐标在预设关键点之间的第一角度信息,以及所述第二人体姿态关键点坐标在预设关键点之间的第二角度信息;
基于所述第一角度信息和所述第二角度信息的相似度,确定所述动作轨迹对比结果。
6.如权利要求5所述的基于双端视频流的运动交互方法,其特征在于,
所述第一人体姿态关键点坐标为所述预设时间段内的所述第一动作序列中所有相同位置处的人体姿态关键点坐标值的平均值;
所述第二人体姿态关键点坐标为所述预设时间段内的所述第二动作序列中所有相同位置处的人体姿态关键点坐标值的平均值。
8.一种基于双端视频流的运动交互装置,其特征在于,包括:
画面捕捉单元,用于基于移动终端的第一摄像装置捕捉用户动作画面,以及基于所述移动终端的第二摄像装置捕捉动作参考视频;所述第一摄像装置和所述第二摄像装置分别采集所述移动终端的前后对称两侧的画面;
帧动作获取单元,用于按照预设采样频率,获取所述用户动作画面的第一帧动作画面集以及所述动作参考视频的第二帧动作画面集;
失真确定单元,用于基于预设规则对所述第一帧动作画面集及所述第二帧动作画面集分别进行画面筛选,确定对应的目标失真画面集;
失真修复单元,用于对所述目标失真画面集进行画面修复处理,获取对应的修复画面,并基于所述修复画面更新所述所述第一帧动作画面集及所述第二帧动作画面集;
结果反馈单元,用于对更新后的所述第一帧动作画面集及所述第二帧动作画面集进行动作轨迹对比,并将所述动作轨迹对比结果作为交互结果反馈用户。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于双端视频流的运动交互方法中的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于双端视频流的运动交互方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310164909.XA CN116311507A (zh) | 2023-02-16 | 2023-02-16 | 基于双端视频流的运动交互方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310164909.XA CN116311507A (zh) | 2023-02-16 | 2023-02-16 | 基于双端视频流的运动交互方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116311507A true CN116311507A (zh) | 2023-06-23 |
Family
ID=86819800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310164909.XA Pending CN116311507A (zh) | 2023-02-16 | 2023-02-16 | 基于双端视频流的运动交互方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311507A (zh) |
-
2023
- 2023-02-16 CN CN202310164909.XA patent/CN116311507A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103310186B (zh) | 校正图像中用户的注视方向的方法和便携式终端 | |
CN107648833B (zh) | 一种基于机器视觉的非接触式人机对弈控制方法及系统 | |
CN109308174B (zh) | 跨屏幕图像拼接控制方法 | |
CN109241917A (zh) | 一种基于计算机视觉的课堂行为检测系统 | |
CN109542219B (zh) | 一种应用于智能教室的手势交互系统及方法 | |
WO2022174594A1 (zh) | 基于多相机的裸手追踪显示方法、装置及系统 | |
CN104700405B (zh) | 一种前景检测方法和系统 | |
CN107133611A (zh) | 一种课堂学生点头率识别与统计方法及装置 | |
CN111709365A (zh) | 一种基于卷积神经网络的人体运动姿态自动检测方法 | |
CN115994926A (zh) | 基于双端视频流的运动轨迹检测方法、装置及存储介质 | |
CN106652605A (zh) | 一种远程情感教学方法 | |
CN104539890A (zh) | 一种目标跟踪方法及系统 | |
CN112348942A (zh) | 一种健身交互方法和系统 | |
CN113570916A (zh) | 一种多媒体远程教学辅助方法、设备及其系统 | |
CN116311507A (zh) | 基于双端视频流的运动交互方法、装置及存储介质 | |
US20230166157A1 (en) | Electronic apparatus and control method therefor | |
CN112200230A (zh) | 一种训练板的识别方法、装置及机器人 | |
CN113051973A (zh) | 用于姿势矫正的方法及装置、电子设备 | |
CN116704603A (zh) | 一种基于肢体关键点分析的动作评估纠正方法及系统 | |
CN115761901A (zh) | 一种骑马姿势检测评估方法 | |
CN112668487B (zh) | 一种基于身体重合度与人体相似性相融合的老师跟踪方法 | |
CN116434253A (zh) | 图像处理方法、装置、设备、存储介质及产品 | |
CN107957824A (zh) | 一种智能投影的交互方法、装置和系统 | |
CN109060831A (zh) | 一种基于底板拟合的自动脏污检测方法 | |
WO2022075800A1 (en) | Method and electronic device for generating ar content based on intent and interaction of multiple-objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |