CN116501176B - 基于人工智能的用户动作识别方法及系统 - Google Patents
基于人工智能的用户动作识别方法及系统 Download PDFInfo
- Publication number
- CN116501176B CN116501176B CN202310765370.3A CN202310765370A CN116501176B CN 116501176 B CN116501176 B CN 116501176B CN 202310765370 A CN202310765370 A CN 202310765370A CN 116501176 B CN116501176 B CN 116501176B
- Authority
- CN
- China
- Prior art keywords
- action
- motion
- data
- feature extraction
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 384
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 254
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000033001 locomotion Effects 0.000 claims description 563
- 239000013598 vector Substances 0.000 claims description 277
- 238000012549 training Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 30
- 239000012634 fragment Substances 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 126
- 230000006870 function Effects 0.000 description 46
- 230000011218 segmentation Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Biodiversity & Conservation Biology (AREA)
- Psychiatry (AREA)
- Medical Informatics (AREA)
- Social Psychology (AREA)
- Biophysics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于人工智能的用户动作识别方法及系统,包括:首先从预设业务模型库中选取与当前业务场景匹配的预置的动作特征提取网络以及动作指令数据库;然后利用预置的动作特征提取网络对目标视频数据进行处理,得到目标视频数据对应的动作分类标签;最终将动作分类标签在动作指令数据库中进行遍历匹配,若匹配成功,则执行与动作分类标签对应的目标动作指令;若匹配失败,则生成重复动作提醒至对应界面,如此设计,能够提高设备针对不同业务场景用户动作的识别处理效率。
Description
技术领域
本发明涉及人工智能领域,具体而言,涉及基于人工智能的用户动作识别方法及系统。
背景技术
随着虚拟现实技术的快速发展,该项技术应该广泛用于游戏、娱乐、商业等业务场景。而在虚拟现实技术中,针对用户动作的识别一直是本领域技术人员需要关注的重点。
发明内容
本发明的目的在于提供一种基于人工智能的用户动作识别方法及系统。
第一方面,本发明实施例提供一种基于人工智能的用户动作识别方法,包括:
获取当前业务场景,从预设业务模型库中选取与当前业务场景匹配的预置的动作特征提取网络以及动作指令数据库,动作指令数据库包括多个动作指令;
获取目标视频数据,并利用预置的动作特征提取网络对目标视频数据进行处理,得到目标视频数据对应的动作分类标签;
将动作分类标签在动作指令数据库中进行遍历匹配,若匹配成功,则执行与动作分类标签对应的目标动作指令;若匹配失败,则生成重复动作提醒至对应界面。
在一种可能的实施方式中,利用预置的动作特征提取网络对目标视频数据进行处理,得到目标视频数据对应的动作分类标签,包括:
对目标视频数据进行分段处理,得到多个视频片段数据;
调用预置的动作特征提取网络,对每一视频片段数据进行动作特征抽取操作,得到动作片段特征向量;其中,动作特征提取网络包括基础动作特征提取网络和深度动作特征提取网络;基础动作特征提取网络用于对视频片段数据进行基础动作特征抽取操作;深度动作特征提取网络用于根据基础动作特征抽取操作时得到的基础动作特征向量,对视频片段数据进行深度动作特征抽取操作,深度动作特征抽取操作的动作特征可信值大于基础动作特征抽取操作的动作特征可信值;
获取参考动作数据池中的每一参考动作数据的动作特征向量;
根据动作片段特征向量和每一参考动作数据的动作特征向量,对每一视频片段数据进行动作分类操作,得到动作片段分类标签;
根据多个视频片段数据的动作片段分类标签,确定目标视频数据对应的动作分类标签。
在一种可能的实施方式中,调用预置的动作特征提取网络,对每一视频片段数据进行动作特征抽取操作,得到动作片段特征向量,包括:
将每一视频片段数据输入至基础动作特征提取网络中,调用基础动作特征提取网络,对视频片段数据进行基础动作特征提取,得到对应于第一动作特征可信值的动作特征向量;
将对应于第一动作特征可信值的动作特征向量,输入至深度动作特征提取网络中,调用深度动作特征提取网络,对视频片段数据进行深度动作特征提取,得到对应于第二动作特征可信值的动作特征向量;第一动作特征可信值小于第二动作特征可信值。
在一种可能的实施方式中,根据动作片段特征向量和每一参考动作数据的动作特征向量,对每一视频片段数据进行动作分类操作,得到动作片段分类标签,包括:
确定动作片段特征向量与每一参考动作数据的动作特征向量之间的向量距离;
当动作片段特征向量与任一参考动作数据的动作特征向量之间的向量距离不超过向量距离阈值时,确定视频片段数据的动作片段分类标签为目标动作分类标签;
目标动作分类标签用于指示视频片段数据对应的视频内容中含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据。
在一种可能的实施方式中,根据多个视频片段数据的动作片段分类标签,确定目标视频数据对应的动作分类标签,包括:
当任一视频片段数据的动作片段分类标签为目标动作分类标签时,确定目标视频数据对应的动作分类标签为目标动作分类标签。
在一种可能的实施方式中,参考动作数据池中包括每一参考动作数据的参考视频数据;获取参考动作数据池中的每一参考动作数据的动作特征向量,包括:
调用预置的动作特征提取网络,对每一参考动作数据的参考视频数据进行动作特征抽取操作,得到每一参考动作数据的动作特征向量。
在一种可能的实施方式中,基础动作特征提取网络包括Autoencoder架构和Transformer架构;深度动作特征提取网络包括LSTM架构和Attention架构;动作特征提取网络调用以下方式执行训练流程:
将原始样本动作数据集中的初始样本动作数据输入至基础动作特征提取网络中;
调用Autoencoder架构对初始样本动作数据进行初始滤波操作,得到低纬动作向量;
调用Transformer架构对低纬动作向量进行进阶滤波操作,得到对应于目标尺寸的动作特征向量;
将对应于目标尺寸的动作特征向量输入至目标代价函数系统中,调用目标代价函数系统中的目标代价函数,确定对应于目标尺寸的动作特征向量对应的第一代价函数计算值;
根据第一代价函数计算值对Autoencoder架构和Transformer架构中的超参量进行更新,得到训练完成的基础动作特征提取网络;
将样本独立动作数据集中的进阶样本动作数据输入至训练完成的基础动作特征提取网络中,调用训练完成的基础动作特征提取网络对进阶样本动作数据进行基础动作特征提取,得到对应于第三动作特征可信值的样本动作特征向量;
将对应于第三动作特征可信值的样本动作特征向量,输入至深度动作特征提取网络中;
调用LSTM架构,提取样本动作特征向量在不同卷积核下的对应特征信息;
调用Attention架构对不同卷积核下的对应特征信息,在预置时间维度上执行迭代训练操作,得到对应于第四动作特征可信值的样本动作特征向量;第三动作特征可信值小于第四动作特征可信值;
调用预置特征分类架构根据对应于第四动作特征可信值的样本动作特征向量,对进阶样本动作数据进行动作分类操作,得到样本分类标签;
将样本分类标签与进阶样本动作数据的类别标识输入至代价函数模型中,调用代价函数模型输出代价函数计算值;
根据代价函数计算值对深度动作特征提取网络中的参量进行更新,得到训练完成的动作特征提取网络;
深度动作特征提取网络还包括LOSS架构,LOSS架构包括深层代价函数;方法还包括:
将对应于第四动作特征可信值的样本动作特征向量和进阶样本动作数据的特征标识,输入至LOSS架构;
调用LOSS架构的深层代价函数,确定对应于第四动作特征可信值的样本动作特征向量对应的第二代价函数计算值;
根据第二代价函数计算值对LSTM架构和Attention架构中的超参量进行更新,得到训练完成的深度动作特征提取网络。
在一种可能的实施方式中,对目标视频数据进行分段处理,得到多个视频片段数据,包括:
采用对应于预置时长的截取区间,对目标视频数据进行截取分段操作,得到多个视频片段数据,多个视频片段数据对应于一致的时长。
在一种可能的实施方式中,方法还包括:
获取预置截断函数;
采用预置截断函数对每一视频片段数据进行优化处理,对应得到多个优化处理后的视频片段数据;
对每一视频片段数据进行动作特征抽取操作,得到动作片段特征向量,包括:
对每一优化处理后的视频片段数据进行动作特征抽取操作,得到动作片段特征向量。
第二方面,本发明实施提供一种服务器系统,包括服务器,服务器用于执行第一方面提供的方法。
相比现有技术,本发明提供的有益效果包括:采用本发明公开的一种基于人工智能的用户动作识别方法及系统,通过从预设业务模型库中选取与当前业务场景匹配的预置的动作特征提取网络以及动作指令数据库;然后利用预置的动作特征提取网络对目标视频数据进行处理,得到目标视频数据对应的动作分类标签;最终将动作分类标签在动作指令数据库中进行遍历匹配,若匹配成功,则执行与动作分类标签对应的目标动作指令;若匹配失败,则生成重复动作提醒至对应界面,如此设计,能够提高设备针对不同业务场景用户动作的识别处理效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的基于人工智能的用户动作识别方法步骤流程示意图;
图2为本发明实施例提供的计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
为了解决前述背景技术中的技术问题,图1为本公开实施例提供的基于人工智能的用户动作识别方法的流程示意图,下面对该基于人工智能的用户动作识别方法进行详细介绍。
步骤S201,获取当前业务场景,从预设业务模型库中选取与当前业务场景匹配的预置的动作特征提取网络以及动作指令数据库。
动作指令数据库包括多个动作指令。
步骤S202,获取目标视频数据,并利用预置的动作特征提取网络对目标视频数据进行处理,得到目标视频数据对应的动作分类标签;
步骤S203,将动作分类标签在动作指令数据库中进行遍历匹配,若匹配成功,则执行与动作分类标签对应的目标动作指令;若匹配失败,则生成重复动作提醒至对应界面。
在本发明实施例中,针对虚拟现场场景的用户动作识别,可以先确定当前业务场景,当前业务场景可以是指具体的游戏、软件场景,也可以是指不同类型的业务场景,在此不做限制。确定当前应用场景后,可以调用预设业务模型库中选取与当前业务场景匹配的预置的动作特征提取网络以及动作指令数据库,以便后续能够进行快速准确地动作识别流程。可以通过配置的视频采集设备对用户进行实时视频数据采集,以获取目标视频数据,并利用预置的动作特征提取网络对目标视频数据进行处理,得到目标视频数据对应的动作分类标签。应当理解的是,在已经区分了业务场景的基础上,相同的动作在不同的业务场景可能表征不同的动作指令,因此可以将动作分类标签在动作指令数据库中进行遍历匹配,若匹配成功,则执行与动作分类标签对应的目标动作指令;若匹配失败,则生成重复动作提醒至对应界面,重复动作提醒可以为“请再次做出相应动作”至用户交互的界面。如此设置,能够提高在不同业务场景下针对用户动作的识别效率。
为了能够更加清楚的描述本发明实施例提供的方案,前述步骤S202可以通过以下详细的步骤执行实施。
步骤S301,对目标视频数据进行分段处理,得到多个视频片段数据。
在本发明实施例中,目标视频数据可以是虚拟现实场景下,针对用户在现实侧作出的具体动作,由摄像设备进行采集,以得到目标视频数据。本发明实施例的方法可以应用于以下虚拟现实的指令触发场景,即基于用户在现实侧作出的动作,触发在虚拟环境中对应指令的执行。
分段处理是指调用对应于预置时长的截取区间遍历目标视频数据,每次截取到与截取区间对应于一致步长的一段视频片段数据。
在一种实现方式中,可以在每次截取到一段视频片段数据之后,采用本发明实施例的后续步骤对该视频片段数据进行动作分类操作,得到动作片段分类标签。之后,再调用分段处理得到另一段视频片段数据,并继续对该段视频片段数据进行动作分类操作,如此循环往复,完成对目标视频数据中的每一段视频片段数据的动作分类操作过程。
在另一种实现方式中,可以对目标视频数据执行多次分段处理过程,对应得到多个视频片段数据,并按照视频片段数据在目标视频数据中的先后顺序,为每一视频片段数据添加识别标识。该识别标识用于区分视频片段数据与其他视频片段数据,且该识别标识还能够识别出视频片段数据与其他视频片段数据在目标视频数据中的相对先后位置。在得到多个视频片段数据之后,根据每一视频片段数据的识别标识,按照视频片段数据在目标视频数据中的相对先后位置,依次对每一视频片段数据进行动作分类操作,对应得到多个动作片段分类标签。
这里需要说明的是,在进行分段处理视频片段数据时,相邻两次截取过程中得到的两个视频片段数据在目标视频数据中是相邻的两段信号,也就是说,在进行分段处理视频片段数据时,是从目标视频数据的信号开始位置依次进行截取,且截取的过程中不会丢失目标视频数据的任意一段信号。
步骤S302,调用预置的动作特征提取网络,对每一视频片段数据进行动作特征抽取操作,得到动作片段特征向量。
在本发明实施例中,动作特征提取网络包括基础动作特征提取网络和深度动作特征提取网络;基础动作特征提取网络用于对视频片段数据进行基础动作特征抽取操作;深度动作特征提取网络用于根据基础动作特征抽取操作时得到的基础动作特征向量,对视频片段数据进行深度动作特征抽取操作,深度动作特征抽取操作的动作特征可信值大于基础动作特征抽取操作的动作特征可信值。
本发明实施例中,可以将每一视频片段数据输入至动作特征提取网络中,调用动作特征提取网络中的基础动作特征提取网络和深度动作特征提取网络依次对视频片段数据进行基础动作特征抽取操作和深度动作特征抽取操作,也就是说,依次对视频片段数据进行粗精度的动作特征抽取操作和细精度的动作特征抽取操作,得到动作片段特征向量。
这里需要说明的是,基础动作特征提取网络是一种无监督预训练模型,基础动作特征提取网络会预先根据大规模的无标注动作图片进行自监督预训练,得到训练完成的基础动作特征提取网络。深度动作特征提取网络是根据训练完成的基础动作特征提取网络进行特征提取后,再进行模型训练后得到的。在实现的过程中,可以调用训练完成的基础动作特征提取网络,对样本独立动作数据集中的单一动作指令图像进行上述粗精度的动作特征抽取操作,得到单一动作指令图像的动作特征向量,然后将单一动作指令图像的动作特征向量作为深度动作特征提取网络的输入特征,输入至深度动作特征提取网络中,调用深度动作特征提取网络对单一动作指令图像进行洗净度的动作特征抽取操作。关于基础动作特征提取网络、深度动作特征提取网络以及动作特征提取网络的训练过程,将在下文中进行详细说明。
本发明实施例中,在对视频片段数据进行动作特征抽取操作时,由于可以直接将视频片段数据输入至动作特征提取网络中进行特征提取,所提取到的是视频片段数据的动作特征向量,而无需提取视频片段数据的梅尔特征。如此,能够极大的降低模型的计算量,且提取的动作特征向量能够更加准确的表达视频片段数据中的用户动作信息,因此,能够对视频片段数据进行准确的动作特征抽取操作。
本发明实施例中,可以将多个视频片段数据中的每一视频片段数据依次输入至预置的动作特征提取网络中,调用预置的动作特征提取网络对每一视频片段数据进行动作特征抽取操作,得到多个动作片段特征向量。
需要说明的是,动作特征可信值用于反映动作特征抽取操作过程中,所提取的动作特征向量所能够反映相应的视频片段数据的准确度。对于粗精度的动作特征抽取操作过程,所提取到的动作特征向量能够反映相应的视频片段数据较少的信息,从而使得所提取的动作特征向量能够反映相应的视频片段数据的信息的准确度低于准确度阈值;对于细精度的动作特征抽取操作过程,所提取到的动作特征向量能够反映相应的视频片段数据较多的信息,从而使得所提取的动作特征向量能够反映相应的视频片段数据的信息的准确度高于准确度阈值。
步骤S303,获取参考动作数据池中的每一参考动作数据的动作特征向量。
在本发明实施例中,参考动作数据池中包括多个参考动作数据,参考动作数据池中的参考动作数据对应于特定的特点信息,即参考动作数据池中的参考动作数据是属于特定类型的动作数据。举例来说,当需要对目标视频数据进行虚拟人物攻击指令识别时,参考动作数据池中的参考动作数据为预先采集和存储的虚拟人物攻击指令,即参考动作数据池可以是虚拟人物攻击指令池;当需要对目标视频数据进行虚拟人物移动指令识别时,参考动作数据池中的参考动作数据为预设采集和存储的虚拟人物移动指令,即参考动作数据池可以是虚拟人物移动指令池;当需要对目标视频数据进行其他游戏指令识别时,参考动作数据池中的参考动作数据可以是预先采集和存储的其他游戏指令相关的内容,即参考动作数据池可以是其他游戏指令池。
在一些实施例中,在参考动作数据池中,可以存储有每一参考动作数据的参考动作数据或者参考视频数据,可以对参考动作数据进行识别,得到参考动作数据对应的参考视频数据,进而可以对参考视频数据进行动作特征抽取操作,得到参考动作数据的动作特征向量。
在实现的过程中,可以采用上述预置的动作特征提取网络对参考动作数据池中的每一参考动作数据的参考视频数据进行动作特征抽取操作,得到每一参考动作数据的动作特征向量,也即每一参考视频数据的动作特征向量。
步骤S304,根据动作片段特征向量和每一参考动作数据的动作特征向量,对每一视频片段数据进行动作分类操作,得到动作片段分类标签。
在本发明实施例中,可以将动作片段特征向量与参考动作数据的动作特征向量进行比较,从而得到动作片段分类标签。在进行比较时,可以计算动作片段特征向量与参考动作数据的动作特征向量之间的余弦向量距离,根据余弦向量距离确定动作片段分类标签。
本发明实施例中,可以计算每一视频片段数据的动作片段特征向量与每一参考动作数据的动作特征向量之间的余弦向量距离。
本发明实施例中,在根据动作片段特征向量和每一参考动作数据的动作特征向量,对每一视频片段数据进行动作分类操作,得到动作片段分类标签时,包括但不限于以下几种实现方式:
在一种实现方式中,对于每一视频片段数据来说,在得到该视频片段数据的动作片段特征向量与每一参考动作数据的动作特征向量之间的余弦向量距离之后,还可以根据余弦向量距离对参考动作数据进行排序,形成参考动作数据序列;然后,提取参考动作数据序列中的前N个参考动作数据,N为大于1的整数;最后,比较该视频片段数据的动作片段特征向量,与这前N个参考动作数据的动作特征向量之间的余弦向量距离,如果这N个余弦向量距离均大于向量距离阈值,则表明该视频片段数据对应的视频内容中含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据。本发明实施例中,一方面,由于在根据余弦向量距离形式参考动作数据序列之后,是筛选出前N个参考动作数据,N远小于参考动作数据池中全部参考动作数据的总数量,因此,在与向量距离阈值进行比较时,只需要比较N个余弦向量距离是否大于向量距离阈值,能够提高动作分类操作的效率。另一方面,由于N大于1,因此是在存在多个参考动作数据的余弦向量距离均大于向量距离阈值的情况下,认定视频片段数据含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据,如此,根据多个参考动作数据的余弦向量距离的结果进行识别和验证,能够保证动作分类操作的准确率,避免在计算与个别参考动作数据的余弦向量距离存在误差的情况下,对本发明实施例动作分类标签准确性的影响。
在另一种实现方式中,对于每一视频片段数据来说,在得到该视频片段数据的动作片段特征向量与每一参考动作数据的动作特征向量之间的余弦向量距离之后,可以获取预设的向量距离阈值;然后,筛选出余弦向量距离不超过向量距离阈值的全部参考动作数据,并获取这全部参考动作数据的数量,当全部参考动作数据的数量大于数量阈值时,则表明该视频片段数据对应的视频内容中含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据。本发明实施例中,调用向量距离阈值和数量阈值这两重判断,能够在保证余弦向量距离高的情况下,判断出对应于较多相似参考动作数据的情况,也就是说,在参考动作数据池中,存在大量与视频片段数据的动作片段特征向量之间对应于较高余弦向量距离的参考动作数据。如此,根据这两个阈值的双重判断,能够对视频片段数据对应的视频内容中是否含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据进行准确的判断,进而提高动作分类操作的准确率。
在再一种实现方式中,对于每一视频片段数据来说,可以依次计算该视频片段数据的动作片段特征向量与每一参考动作数据的动作特征向量之间的余弦向量距离,且在每计算出一个余弦向量距离之后,即对该余弦向量距离进行判断,判断余弦向量距离是否大于向量距离阈值;只要判断出该视频片段数据的动作片段特征向量与任一参考动作数据的动作特征向量之间的余弦向量距离,大于向量距离阈值时,停止计算该视频片段数据的动作片段特征向量与剩余参考动作数据的动作特征向量之间的余弦向量距离,并且,确定出该视频片段数据对应的视频内容中含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据。本发明实施例中,可以预先定义只要存在至少一个参考动作数据的动作特征向量与动作片段特征向量之间的余弦向量距离不超过向量距离阈值,即认为视频片段数据对应的视频内容中含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据,也就是说,只要检测到一个参考动作数据的动作特征向量与动作片段特征向量之间的余弦向量距离不超过向量距离阈值,就可以认为视频片段数据对应的视频内容中含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据。本发明实施例在实现的过程中,调用边计算余弦向量距离边进行判断,一旦确定出存在一个计算出的余弦向量距离不超过向量距离阈值,即停止继续对其他参考动作数据的余弦向量距离进行计算,如此,能够极大的提高检测的效率,进而提高动作分类操作的效率。
在又一种实现方式中,对于每一视频片段数据来说,首先初始化计数器为0;然后,依次计算该视频片段数据的动作片段特征向量与每一参考动作数据的动作特征向量之间的余弦向量距离,且在每计算出一个余弦向量距离之后,即对该余弦向量距离进行判断,判断余弦向量距离是否大于向量距离阈值;只要判断出该视频片段数据的动作片段特征向量与任一参考动作数据的动作特征向量之间的余弦向量距离,大于向量距离阈值时,对计数器进行加一。如此循环往复直至计数器的计数值大于等于数值阈值时,停止计算该视频片段数据的动作片段特征向量与剩余参考动作数据的动作特征向量之间的余弦向量距离,并且,确定出该视频片段数据对应的视频内容中含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据。在本发明实施例中,数值阈值为大于1的整数。本发明实施例中,调用使用计数器对判断结果进行计数,即每计算出一个余弦向量距离并对该余弦向量距离与向量距离阈值进行判断之后,根据判断结果对计数器进行计数更新(即满足余弦向量距离不超过向量距离阈值这一条件时,计数器加一;不满足余弦向量距离不超过向量距离阈值这一条件时,计数器数值不变),如此,至少对应于以下有益效果:一方面,实现了调用向量距离阈值和数值阈值的两重判断,能够在保证余弦向量距离高的情况下,判断出对应于较多相似参考动作数据的情况,从而能够在参考动作数据池中,对存在大量与视频片段数据的动作片段特征向量之间对应于较高余弦向量距离的参考动作数据的情况进行准确的识别;另一方面,由于每计算一个余弦向量距离进行一次判断和计数器计数,一旦计数器的计数值大于等于数值阈值时,停止计算余弦向量距离,也就是说,无需计算出动作片段特征向量与参考动作数据池中的每一参考动作数据的动作特征向量之间的余弦向量距离,从而能够极大的降低计算余弦向量距离的数据计算量,提高动作分类操作的效率。
步骤S305,根据多个视频片段数据的动作片段分类标签,确定目标视频数据对应的动作分类标签。
在本发明实施例中,在得到每一视频片段数据的动作片段分类标签之后,对多个视频片段数据的动作片段分类标签进行结果综合处理,得到目标视频数据对应的动作分类标签。
在进行结果综合处理时,可以是当动作片段特征向量与任一参考动作数据的动作特征向量之间的余弦向量距离不超过向量距离阈值时,确定视频片段数据的动作片段分类标签为目标动作分类标签,即确定出该视频片段数据对应的视频内容中含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据。或者,可以是当动作片段特征向量与预设数量的参考动作数据的动作特征向量之间的余弦向量距离不超过向量距离阈值时,确定视频片段数据的动作片段分类标签为目标动作分类标签,即确定出该视频片段数据对应的视频内容中含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据。
本发明实施例提供的动作分类操作方法,调用预置的动作特征提取网络,对分段处理后得到的每一视频片段数据进行动作特征抽取操作,得到动作片段特征向量;并根据动作片段特征向量和参考动作数据池中的每一参考动作数据的动作特征向量,对每一视频片段数据进行动作分类操作,得到动作片段分类标签;从而根据多个视频片段数据的动作片段分类标签,确定目标视频数据对应的动作分类标签。如此,调用对应于基础动作特征提取网络和深度动作特征提取网络构成的动作特征提取网络对每一视频片段数据进行动作特征抽取操作,从而能够准确的提取到视频片段数据的动作片段特征向量,进而根据动作片段特征向量能够对目标视频数据进行准确的识别。
本发明实施例提供动作分类操作方法的另一个实施方式,包括:
步骤S401,虚拟现实设备进行对应游戏的运行,可以由配套的图像采集设备实施监控用户在现实侧的动作,并可以实时记录用户在对应虚拟环境中的动作。
步骤S402,虚拟现实设备对虚拟环境和现实侧的用户动作数据进行叠加,形成游戏样本动作数据。
在本发明实施例中,对虚拟环境和现实侧的用户动作数据进行叠加可以是在时间维度上,将虚拟环境和现实侧的用户动作数据融合成在预置时间维度上的一段融合后的游戏样本动作数据。
步骤S403,虚拟现实设备将游戏样本动作数据对应的视频内容作为目标视频数据封装至动作分类操作请求中。
步骤S404,虚拟现实设备将动作分类操作请求发送给虚拟云空间。
步骤S405,虚拟云空间解析动作分类操作请求,得到目标视频数据。
步骤S406,虚拟云空间采用对应于预置时长的截取区间,对目标视频数据进行截取分段操作,得到多个视频片段数据,其中,多个视频片段数据对应于一致的时长。
在本发明实施例中,可以采用对应于预置时长的截取区间遍历目标视频数据,每次截取到与截取区间对应于一致步长的一段视频片段数据。也就是说,将原始的目标视频数据分成大小固定的多段视频片段数据,每一段视频片段数据都可以被称为一帧,时长一般取10ms到30ms。全部视频片段数据连接后构成原始的目标视频数据。
在一些实施例中,在对目标视频数据执行多次分段处理的过程中,对应得到了多个视频片段数据,还可以按照视频片段数据在目标视频数据中的先后顺序,为每一视频片段数据添加识别标识。该识别标识用于区分视频片段数据与其他视频片段数据,且该识别标识还能够识别出视频片段数据与其他视频片段数据在目标视频数据中的相对先后位置。
在一些实施例中,在对目标视频数据进行截取分段操作之后,还可以获取预置截断函数;并采用预置截断函数对每一视频片段数据进行优化处理,对应得到多个优化处理后的视频片段数据。在本发明实施例中,优化处理也可以指加窗处理,加窗处理在对目标视频数据分段后,为了使不同段视频之间平滑过渡,保持相邻帧之间的连续性,也就是消除各个帧两端可能会造成的信号不连续性,调用预置截断函数来减小谱泄露,预置截断函数可以减少截断带来的影响。
本发明实施例中,预置截断函数可以为窗函数。
需要说明的是,在后续对每一视频片段数据进行动作特征抽取操作时,可以是对每一优化处理后的视频片段数据进行动作特征抽取操作。也就是说,是根据优化处理后的视频片段数据进行后续的动作分类操作步骤。
步骤S407,服务器将每一视频片段数据输入至基础动作特征提取网络中,调用基础动作特征提取网络,对视频片段数据进行基础动作特征提取,得到对应于第一动作特征可信值的动作特征向量。
步骤S408,服务器将对应于第一动作特征可信值的动作特征向量,输入至深度动作特征提取网络中,调用深度动作特征提取网络,对视频片段数据进行深度动作特征提取,得到对应于第二动作特征可信值的动作特征向量;第一动作特征可信值小于第二动作特征可信值。
在本发明实施例中,动作特征提取网络包括基础动作特征提取网络和深度动作特征提取网络;基础动作特征提取网络用于对视频片段数据进行基础动作特征抽取操作;深度动作特征提取网络用于根据基础动作特征抽取操作时得到的基础动作特征向量,对视频片段数据进行深度动作特征抽取操作,深度动作特征抽取操作的动作特征可信值大于基础动作特征抽取操作的动作特征可信值。动作特征可信值用于反映动作特征抽取操作过程中,所提取的动作特征向量所能够反映相应的视频片段数据的准确度。
基础动作特征提取网络是一种无监督预训练模型,基础动作特征提取网络会预先根据大规模的无标注自监督预训练,得到训练完成的基础动作特征提取网络。深度动作特征提取网络是根据训练完成的基础动作特征提取网络进行特征提取后,再进行模型训练后得到的。
步骤S409,服务器获取参考动作数据池中的每一参考动作数据的动作特征向量。
在一些实施例中,参考动作数据池中包括多个参考动作数据,参考动作数据池中的参考动作数据对应于特定的特点信息,即参考动作数据池中的参考动作数据是属于特定类型的动作数据。参考动作数据池中包括每一参考动作数据的参考视频数据。可以调用预置的动作特征提取网络,对每一参考动作数据的参考视频数据进行动作特征抽取操作,得到每一参考动作数据的动作特征向量。
步骤S410,服务器根据动作片段特征向量和每一参考动作数据的动作特征向量,对每一视频片段数据进行动作分类操作,得到动作片段分类标签。
在一些实施例中,对每一视频片段数据进行动作分类操作,可以调用以下方式实现:
首先,确定动作片段特征向量与每一参考动作数据的动作特征向量之间的向量距离(例如可以是余弦向量距离);然后,当动作片段特征向量与任一参考动作数据的动作特征向量之间的向量距离不超过向量距离阈值时,确定视频片段数据的动作片段分类标签为目标动作分类标签;在本发明实施例中,目标动作分类标签用于指示视频片段数据对应的视频内容中含有与参考动作数据池中的参考动作数据对应于一致特点的对比动作数据。
举例来说,当参考动作数据池中的参考动作数据为预先采集和存储的虚拟人物攻击指令时,如果视频片段数据的动作片段分类标签为目标动作分类标签,则表明视频片段数据对应的视频内容中含有虚拟人物攻击指令;当参考动作数据池中的参考动作数据为预设采集和存储的虚拟人物移动指令时,如果视频片段数据的动作片段分类标签为目标动作分类标签,则表明视频片段数据对应的视频内容中含有虚拟人物移动指令;当参考动作数据池中的参考动作数据可以是预先采集和存储的游戏指令相关的动作数据时,如果视频片段数据的动作片段分类标签为目标动作分类标签,则表明视频片段数据对应的视频内容中含有游戏指令。
步骤S411,服务器根据多个视频片段数据的动作片段分类标签,确定目标视频数据对应的动作分类标签。
本发明实施例中,当任一视频片段数据的动作片段分类标签为目标动作分类标签时,确定目标视频数据对应的动作分类标签为目标动作分类标签。或者,当对应于预设数量的视频片段数据的动作片段分类标签为目标动作分类标签时,确定目标视频数据对应的动作分类标签为目标动作分类标签,预设数量为大于1的整数。
步骤S412,服务器将动作分类标签发送给终端。
步骤S413,终端根据动作分类标签生成动作指令,并执行该动作指令。
下面对动作特征提取网络及动作特征提取网络的训练方法进行说明。
本发明实施例中,动作特征提取网络包括基础动作特征提取网络和深度动作特征提取网络;基础动作特征提取网络用于对视频片段数据进行基础动作特征抽取操作;深度动作特征提取网络用于根据基础动作特征抽取操作时得到的基础动作特征向量,对视频片段数据进行深度动作特征抽取操作,深度动作特征抽取操作的动作特征可信值大于基础动作特征抽取操作的动作特征可信值。
本发明实施例可以包括以下步骤流程:步骤S501,将原始样本动作数据集中的初始样本动作数据输入至基础动作特征提取网络中,调用预设无监督算法对基础动作特征提取网络执行训练流程,得到训练完成的基础动作特征提取网络。
在本发明实施例中,原始样本动作数据集中包括多个未进行标注的无标签样本动作数据。由于基础动作特征提取网络可以采用无监督学习方式执行训练流程,因此可以采用原始样本动作数据集中的初始样本动作数据,对基础动作特征提取网络执行训练流程。
在本发明实施例中,对比学习是一种自监督学习方法,对比学习用于在没有标签的情况下,调用让基础动作特征提取网络学习哪些数据点相似或不同,进而来学习原始样本动作数据集的一般特征。
步骤S502,将样本独立动作数据集中的进阶样本动作数据输入至训练完成的基础动作特征提取网络中,调用训练完成的基础动作特征提取网络对进阶样本动作数据进行基础动作特征提取,得到对应于第三动作特征可信值的样本动作特征向量。
在本发明实施例中,第三动作特征可信值是训练完成的基础动作特征提取网络对应的动作特征可信值,即,第三动作特征可信值是训练完成的基础动作特征提取网络在对进阶样本动作数据进行嵌入特征提取时,所提取的样本动作特征向量的动作特征可信值。本发明实施例中,第三动作特征可信值对应于上述第一动作特征可信值,也就是说,如果采用训练完成的基础动作特征提取网络对上述视频片段数据进行基础动作特征提取时,则可以得到第一动作特征可信值的动作特征向量;如果采用训练完成的基础动作特征提取网络对进阶样本动作数据进行基础动作特征提取,则可以得到第三动作特征可信值的动作特征向量(即对应于第三动作特征可信值的样本动作特征向量)。
样本独立动作数据集中包括多个单一动作指令图像(即进阶样本动作数据),每一单一动作指令图像是由单一的动作构成。
本发明实施例中,可以将样本独立动作数据集中的每一单一动作指令图像输入至训练完成的基础动作特征提取网络中,调用训练完成的基础动作特征提取网络对每一单一动作指令图像进行基础动作特征提取,得到多个样本动作特征向量,调用多个样本动作特征向量对深度动作特征提取网络执行训练流程。即将多个样本动作特征向量作为深度动作特征提取网络的训练样本进行模型训练。
步骤S503,将对应于第三动作特征可信值的样本动作特征向量输入至深度动作特征提取网络中,调用深度动作特征提取网络对进阶样本动作数据进行深度动作特征提取,得到对应于第四动作特征可信值的样本动作特征向量;第三动作特征可信值小于第四动作特征可信值。
在本发明实施例中,第四动作特征可信值是深度动作特征提取网络对应的动作特征可信值,即,第四动作特征可信值是深度动作特征提取网络对进阶样本动作数据进行深度动作特征提取时,所提取的样本动作特征向量的动作特征可信值。本发明实施例中,第四动作特征可信值对应于上述第二动作特征可信值,也就是说,如果采用深度动作特征提取网络对上述视频片段数据进行深度动作特征提取,则可以得到第二动作特征可信值的动作特征向量;如果采用深度动作特征提取网络对进阶样本动作数据进行深度动作特征提取,则可以得到第四动作特征可信值的动作特征向量(即对应于第四动作特征可信值的样本动作特征向量)。
本发明实施例中,由于深度动作特征抽取操作的动作特征可信值大于基础动作特征抽取操作的动作特征可信值,因此,第三动作特征可信值小于第四动作特征可信值。
步骤S504,调用预置特征分类架构根据对应于第四动作特征可信值的样本动作特征向量,对进阶样本动作数据进行动作分类操作,得到样本分类标签。
在本发明实施例中,深度动作特征提取网络对每一个样本动作特征向量进行深度动作特征提取,得到对应于第四动作特征可信值的样本动作特征向量。之后,再根据预置特征分类架构根据提取到的对应于第四动作特征可信值的样本动作特征向量,对进阶样本动作数据进行动作分类操作,即对进阶样本动作数据进行动作分类处理,得到样本分类标签。
这里以对进阶样本动作数据是否包含虚拟人物攻击指令为例进行说明。调用预置特征分类架构根据对应于第四动作特征可信值的样本动作特征向量,对进阶样本动作数据进行动作分类操作时,可以是根据预设虚拟人物攻击指令池对进阶样本动作数据进行分类和识别,根据提取到的对应于第四动作特征可信值的样本动作特征向量,确定进阶样本动作数据中是否存在虚拟人物攻击指令,从而得到是否存在虚拟人物攻击指令的样本分类标签。
步骤S505,将样本分类标签与进阶样本动作数据的类别标识输入至代价函数模型中,调用代价函数模型输出代价函数计算值。
在本发明实施例中,在切分得到多个单一动作指令图像(即进阶样本动作数据)之后,还可以为每一进阶样本动作数据添加类别标识,该类别标识用于标识该单一动作指令图像中是否存在虚拟人物攻击指令。
本发明实施例中,调用基础动作特征提取网络和深度动作特征提取网络,提取到进阶样本动作数据的对应于第四动作特征可信值的样本动作特征向量,并根据该对应于第四动作特征可信值的样本动作特征向量对进阶样本动作数据是否包含虚拟人物攻击指令进行识别,得到样本分类标签之后,可以将样本分类标签与进阶样本动作数据的类别标识输入至代价函数模型中,调用代价函数模型输出代价函数计算值。
在本发明实施例中,可以调用代价函数模型计算样本分类标签与类别标识之间的标签向量距离。
当标签向量距离不超过标签向量距离阈值时,表明深度动作特征提取网络能够准确的提取到进阶样本动作数据的样本动作特征向量,且,预置特征分类架构能够根据样本动作特征向量,对进阶样本动作数据进行准确的动作分类操作。则此时可以停止对动作特征提取网络的训练,且将此时得到的动作特征提取网络确定为训练好的动作特征提取网络。
当标签向量距离超过或等于标签向量距离阈值时,表明深度动作特征提取网络不能准确的提取到进阶样本动作数据的样本动作特征向量,或者,表明预置特征分类架构不能根据样本动作特征向量,对进阶样本动作数据进行准确的动作分类操作。则此时可以继续对动作特征提取网络执行训练流程,直至标签向量距离不超过标签向量距离阈值时停止训练。
步骤S506,根据代价函数计算值对深度动作特征提取网络中的参量进行更新,得到训练完成的动作特征提取网络。
在本发明实施例中,当标签向量距离超过或等于标签向量距离阈值时,则可以根据更新参数对深度动作特征提取网络中的参量进行更新;当标签向量距离不超过标签向量距离阈值,停止对动作特征提取网络的训练过程。在对参量进行更新时,可以预先设置参量的更新区间,其中,深度动作特征提取网络中的参量包括多个模型子参数,每一模型子参数均对应一更新区域。
参量的更新区间是指该参量在本轮训练过程中能够选择进行更改的更新参数的取值区间。在实现的过程中,可以设置更新向量距离阈值。本发明实施例中,在选择出更新参数之后,可以根据该更新参数对相应的参量进行调整。例如,当更新参数为正数时,可以调大参量;当更新参数为负数时,可以调小参量。
本发明实施例提供的动作特征提取网络的训练方法,调用原始样本动作数据集中的初始样本动作数据,对基础动作特征提取网络进行无监督训练;调用训练完成的基础动作特征提取网络提取样本独立动作数据集中的进阶样本动作数据的嵌入标签特征,得到对应于第三动作特征可信值的样本动作特征向量,从而将这些对应于第三动作特征可信值的样本动作特征向量作为深度动作特征提取网络的样本数据,对深度动作特征提取网络执行训练流程,在训练深度动作特征提取网络的过程中,进行有监督的学习,结合进阶样本动作数据的类别标识对深度动作特征提取网络中的参量进行学习,能够实现读深度动作特征提取网络进行准确的学习和训练,得到能够准确提取中的参量进行更新的动作特征提取网络。
下面分别对基础动作特征提取网络和深度动作特征提取网络的训练过程进行说明。
基础动作特征提取网络包括Autoencoder(自编码)架构和Transformer(编码)架构,本发明实施例包括:
步骤S601,将原始样本动作数据集中的初始样本动作数据输入至基础动作特征提取网络中。
步骤S602,调用Autoencoder架构对初始样本动作数据进行初始滤波操作,得到低纬动作向量。
在本发明实施例中,Autoencoder架构包括多层卷积处理层,调用多层卷积处理层对初始样本动作数据进行多次卷积处理,从而实现对初始样本动作数据的编码,得到低纬动作向量。
步骤S603,调用Transformer架构对低纬动作向量进行进阶滤波操作,得到对应于目标尺寸的动作特征向量。
在本发明实施例中,Transformer架构包括多层卷积处理层,调用多层卷积处理层对Autoencoder架构输出的低纬动作向量进行多次卷积处理,从而实现将低纬动作向量转换为对应于目标尺寸的动作特征向量。
步骤S604,将对应于目标尺寸的动作特征向量输入至目标代价函数系统中,调用目标代价函数系统中的目标代价函数,确定对应于目标尺寸的动作特征向量对应的第一代价函数计算值。
在本发明实施例中,模型训练时的损失函数可以选取对比损失函数。调用对比损失函数,在训练时将正样本间的距离拉近,负样本间的距离拉远。
步骤S605,根据第一代价函数计算值对Autoencoder架构和Transformer架构中的超参量进行更新,得到训练完成的基础动作特征提取网络。
本发明实施例提供的基础动作特征提取网络的训练方法,调用Autoencoder架构实现对将初始样本动作数据的编码处理,得到低纬动作向量;调用Transformer架构将低纬动作向量转换为对应于目标尺寸的动作特征向量。进而调用对比损失函数进行对比损失计算,以实现将正样本间的距离拉近,负样本间的距离拉远。如此,调用自监督的学习过程,能够对基础动作特征提取网络进行快速和准确的训练。
深度动作特征提取网络包括:LSTM(长短期记忆网络)架构、Attention(注意力网络)架构和LOSS架构,其中,LOSS架构包括深层代价函数。在本发明实施例中,深度动作特征提取网络的训练方法也可以由以下方式实现:
步骤S701,将对应于第三动作特征可信值的样本动作特征向量,输入至深度动作特征提取网络中。
步骤S702,调用LSTM架构,提取样本动作特征向量在不同卷积核下的对应特征信息。
在本发明实施例中,深度动作特征提取网络可以实现为ecapa-tdnn模型。
步骤S703,调用Attention架构对不同卷积核下的对应特征信息,在预置时间维度上执行迭代训练操作,得到对应于第四动作特征可信值的样本动作特征向量。
步骤S704,将对应于第四动作特征可信值的样本动作特征向量和进阶样本动作数据的特征标识,输入至LOSS架构。
步骤S705,调用LOSS架构的深层代价函数,确定对应于第四动作特征可信值的样本动作特征向量对应的第二代价函数计算值。
在本发明实施例中,可以根据特征标识,获取与该特征标识对应的特征向量,并计算样本动作特征向量和特征向量之间的向量距离,从而得到第二代价函数计算值。
在一些实施例中,深层代价函数可以是Aam-softmax损失函数。
步骤S706,根据第二代价函数计算值对LSTM架构和Attention架构中的超参量进行更新,得到训练完成的深度动作特征提取网络。
本发明实施例提供的深度动作特征提取网络的训练方法,调用LSTM架构,提取样本动作特征向量在不同卷积核下的对应特征信息;调用Attention架构对不同卷积核下的对应特征信息,在预置时间维度上执行迭代训练操作,得到对应于第四动作特征可信值的样本动作特征向量。进而调用深层代价函数进行损失计算,以实现在训练时减小同类的角度,同时增大不同类的角度。如此,调用有监督的学习过程,能够对深度动作特征提取网络进行快速和准确的训练。
需要说明的是,上述针对动作特征提取网络(包含有预置特征分类架构)、动作特征提取网络中的基础动作特征提取网络、深度动作特征提取网络的训练过程,可以在先训练好基础动作特征提取网络之后并行进行,也可以依次进行。也就是说,可以先训练基础动作特征提取网络,之后,再并行进行深度动作特征提取网络和整个动作特征提取网络的训练。或者,也可以先训练基础动作特征提取网络,之后再依次训练深度动作特征提取网络和整个动作特征提取网络。
本发明实施例提供一种计算机设备100,计算机设备100包括处理器及存储有计算机指令的非易失性存储器,计算机指令被处理器执行时,计算机设备100执行前述的基于人工智能的用户动作识别方法。如图2所示,图2为本发明实施例提供的计算机设备100的结构框图。计算机设备100包括存储器111、处理器112及通信单元113。为实现数据的传输或交互,存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如,可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。
出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用,从而使本领域技术人员最佳地利用本公开,并利用具有不同修改的各种实施例以适于预期的特定应用。出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用,从而使本领域技术人员最佳地利用本公开,并利用具有不同修改的各种实施例以适于预期的特定应用。
Claims (9)
1.基于人工智能的用户动作识别方法,其特征在于,包括:
获取当前业务场景,从预设业务模型库中选取与所述当前业务场景匹配的预置的动作特征提取网络以及动作指令数据库,所述动作指令数据库包括多个动作指令;
获取目标视频数据,并利用所述预置的动作特征提取网络对所述目标视频数据进行处理,得到目标视频数据对应的动作分类标签;
将所述动作分类标签在所述动作指令数据库中进行遍历匹配,若匹配成功,则执行与所述动作分类标签对应的目标动作指令;若匹配失败,则生成重复动作提醒至对应界面;
所述利用所述预置的动作特征提取网络对所述目标视频数据进行处理,得到目标视频数据对应的动作分类标签,包括:
对所述目标视频数据进行分段处理,得到多个视频片段数据;
调用所述预置的动作特征提取网络,对每一视频片段数据进行动作特征抽取操作,得到动作片段特征向量;其中,所述动作特征提取网络包括基础动作特征提取网络和深度动作特征提取网络;所述基础动作特征提取网络用于对所述视频片段数据进行基础动作特征抽取操作;所述深度动作特征提取网络用于根据所述基础动作特征抽取操作时得到的基础动作特征向量,对所述视频片段数据进行深度动作特征抽取操作,所述深度动作特征抽取操作的动作特征可信值大于所述基础动作特征抽取操作的动作特征可信值;
获取参考动作数据池中的每一参考动作数据的动作特征向量;
根据所述动作片段特征向量和所述每一参考动作数据的动作特征向量,对每一所述视频片段数据进行动作分类操作,得到动作片段分类标签;
根据所述多个视频片段数据的动作片段分类标签,确定所述目标视频数据对应的动作分类标签。
2.根据权利要求1所述的方法,其特征在于,所述调用所述预置的动作特征提取网络,对每一视频片段数据进行动作特征抽取操作,得到动作片段特征向量,包括:
将每一所述视频片段数据输入至所述基础动作特征提取网络中,调用所述基础动作特征提取网络,对所述视频片段数据进行基础动作特征提取,得到对应于第一动作特征可信值的动作特征向量;
将所述对应于第一动作特征可信值的动作特征向量,输入至所述深度动作特征提取网络中,调用所述深度动作特征提取网络,对所述视频片段数据进行深度动作特征提取,得到对应于第二动作特征可信值的动作特征向量;所述第一动作特征可信值小于所述第二动作特征可信值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述动作片段特征向量和所述每一参考动作数据的动作特征向量,对每一所述视频片段数据进行动作分类操作,得到动作片段分类标签,包括:
确定所述动作片段特征向量与所述每一参考动作数据的动作特征向量之间的向量距离;
当所述动作片段特征向量与任一参考动作数据的动作特征向量之间的向量距离不超过向量距离阈值时,确定所述视频片段数据的动作片段分类标签为目标动作分类标签;
所述目标动作分类标签用于指示所述视频片段数据对应的视频内容中含有与所述参考动作数据池中的参考动作数据对应于一致特点的对比动作数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个视频片段数据的动作片段分类标签,确定所述目标视频数据对应的动作分类标签,包括:
当任一视频片段数据的动作片段分类标签为所述目标动作分类标签时,确定所述目标视频数据对应的动作分类标签为所述目标动作分类标签。
5.根据权利要求1所述的方法,其特征在于,所述参考动作数据池中包括每一所述参考动作数据的参考视频数据;所述获取参考动作数据池中的每一参考动作数据的动作特征向量,包括:
调用所述预置的动作特征提取网络,对每一所述参考动作数据的参考视频数据进行动作特征抽取操作,得到每一所述参考动作数据的动作特征向量。
6.根据权利要求1所述的方法,其特征在于,所述基础动作特征提取网络包括Autoencoder架构和Transformer架构;所述深度动作特征提取网络包括LSTM架构和Attention架构;所述动作特征提取网络调用以下方式执行训练流程:
将原始样本动作数据集中的初始样本动作数据输入至所述基础动作特征提取网络中;
调用所述Autoencoder架构对所述初始样本动作数据进行初始滤波操作,得到低纬动作向量;
调用所述Transformer架构对所述低纬动作向量进行进阶滤波操作,得到对应于目标尺寸的动作特征向量;
将所述对应于目标尺寸的动作特征向量输入至目标代价函数系统中,调用所述目标代价函数系统中的目标代价函数,确定所述对应于目标尺寸的动作特征向量对应的第一代价函数计算值;
根据所述第一代价函数计算值对所述Autoencoder架构和所述Transformer架构中的超参量进行更新,得到训练完成的基础动作特征提取网络;
将样本独立动作数据集中的进阶样本动作数据输入至所述训练完成的基础动作特征提取网络中,调用所述训练完成的基础动作特征提取网络对所述进阶样本动作数据进行基础动作特征提取,得到对应于第三动作特征可信值的样本动作特征向量;
将所述对应于第三动作特征可信值的样本动作特征向量,输入至所述深度动作特征提取网络中;
调用所述LSTM架构,提取所述样本动作特征向量在不同卷积核下的对应特征信息;
调用所述Attention架构对所述不同卷积核下的对应特征信息,在预置时间维度上执行迭代训练操作,得到所述对应于第四动作特征可信值的样本动作特征向量;所述第三动作特征可信值小于所述第四动作特征可信值;
调用预置特征分类架构根据所述对应于第四动作特征可信值的样本动作特征向量,对所述进阶样本动作数据进行动作分类操作,得到样本分类标签;
将所述样本分类标签与所述进阶样本动作数据的类别标识输入至代价函数模型中,调用所述代价函数模型输出代价函数计算值;
根据所述代价函数计算值对所述深度动作特征提取网络中的参量进行更新,得到训练完成的动作特征提取网络;
所述深度动作特征提取网络还包括LOSS架构,所述LOSS架构包括深层代价函数;所述方法还包括:
将所述对应于第四动作特征可信值的样本动作特征向量和所述进阶样本动作数据的特征标识,输入至所述LOSS架构;
调用所述LOSS架构的深层代价函数,确定所述对应于第四动作特征可信值的样本动作特征向量对应的第二代价函数计算值;
根据所述第二代价函数计算值对所述LSTM架构和所述Attention架构中的超参量进行更新,得到训练完成的深度动作特征提取网络。
7.根据权利要求1所述的方法,其特征在于,所述对所述目标视频数据进行分段处理,得到多个视频片段数据,包括:
采用对应于预置时长的截取区间,对所述目标视频数据进行截取分段操作,得到多个视频片段数据,所述多个视频片段数据对应于一致的时长。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取预置截断函数;
采用所述预置截断函数对每一所述视频片段数据进行优化处理,对应得到多个优化处理后的视频片段数据;
所述对每一视频片段数据进行动作特征抽取操作,得到动作片段特征向量,包括:
对每一优化处理后的视频片段数据进行动作特征抽取操作,得到所述动作片段特征向量。
9.一种服务器系统,其特征在于,包括服务器,所述服务器用于执行权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310765370.3A CN116501176B (zh) | 2023-06-27 | 2023-06-27 | 基于人工智能的用户动作识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310765370.3A CN116501176B (zh) | 2023-06-27 | 2023-06-27 | 基于人工智能的用户动作识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116501176A CN116501176A (zh) | 2023-07-28 |
CN116501176B true CN116501176B (zh) | 2023-09-12 |
Family
ID=87327025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310765370.3A Active CN116501176B (zh) | 2023-06-27 | 2023-06-27 | 基于人工智能的用户动作识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501176B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102368297A (zh) * | 2011-09-14 | 2012-03-07 | 北京英福生科技有限公司 | 一种用于识别被检测对象动作的设备、系统及方法 |
CN107944431A (zh) * | 2017-12-19 | 2018-04-20 | 陈明光 | 一种基于运动变化的智能识别方法 |
CN115410115A (zh) * | 2022-08-04 | 2022-11-29 | 武汉启创赋能智能科技有限公司 | 一种基于多特征融合的动作识别方法及系统 |
CN115578790A (zh) * | 2022-10-12 | 2023-01-06 | 阿里巴巴(中国)有限公司 | 动作识别的方法、动作识别模型的优化部署方法 |
-
2023
- 2023-06-27 CN CN202310765370.3A patent/CN116501176B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102368297A (zh) * | 2011-09-14 | 2012-03-07 | 北京英福生科技有限公司 | 一种用于识别被检测对象动作的设备、系统及方法 |
WO2013037171A1 (zh) * | 2011-09-14 | 2013-03-21 | 北京英福生科技有限公司 | 一种用于识别被检测对象动作的设备、系统及方法 |
CN107944431A (zh) * | 2017-12-19 | 2018-04-20 | 陈明光 | 一种基于运动变化的智能识别方法 |
CN115410115A (zh) * | 2022-08-04 | 2022-11-29 | 武汉启创赋能智能科技有限公司 | 一种基于多特征融合的动作识别方法及系统 |
CN115578790A (zh) * | 2022-10-12 | 2023-01-06 | 阿里巴巴(中国)有限公司 | 动作识别的方法、动作识别模型的优化部署方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116501176A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110610510B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN110853033B (zh) | 基于帧间相似度的视频检测方法和装置 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN112380981B (zh) | 人脸关键点的检测方法、装置、存储介质及电子设备 | |
CN110765860A (zh) | 摔倒判定方法、装置、计算机设备及存储介质 | |
CN109194677A (zh) | 一种sql注入攻击检测方法、装置及设备 | |
CN112381104A (zh) | 一种图像识别方法、装置、计算机设备及存储介质 | |
CN114723646A (zh) | 带标注的图像数据生成方法、装置、存储介质及电子设备 | |
CN111985281A (zh) | 图像生成模型的生成方法、装置及图像生成方法、装置 | |
CN112766218A (zh) | 基于非对称联合教学网络的跨域行人重识别方法和装置 | |
WO2024183465A1 (zh) | 一种模型确定方法和相关装置 | |
WO2024183465A9 (zh) | 一种模型确定方法和相关装置 | |
CN114638304A (zh) | 图像识别模型的训练方法、图像识别方法及装置 | |
CN116958267B (zh) | 位姿处理方法、装置、电子设备及存储介质 | |
CN116630367B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN116824609B (zh) | 文档版式检测方法、装置和电子设备 | |
CN116501176B (zh) | 基于人工智能的用户动作识别方法及系统 | |
CN110956097A (zh) | 遮挡人体提取方法及模块、场景转换方法及装置 | |
CN114842476A (zh) | 水印检测方法及装置、模型训练方法及装置 | |
CN114510592B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN114550300A (zh) | 视频数据分析方法、装置、电子设备及计算机存储介质 | |
CN115393755A (zh) | 视觉目标跟踪方法、装置、设备以及存储介质 | |
CN111553408B (zh) | 视频识别软件自动测试的方法 | |
CN112989869B (zh) | 人脸质量检测模型的优化方法、装置、设备及存储介质 | |
CN115004245A (zh) | 目标检测方法、装置、电子设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Building 60, 1st Floor, No.7 Jiuxianqiao North Road, Chaoyang District, Beijing 021 Patentee after: Shiyou (Beijing) Technology Co.,Ltd. Country or region after: China Address before: 4017, 4th Floor, Building 2, No.17 Ritan North Road, Chaoyang District, Beijing Patentee before: 4U (BEIJING) TECHNOLOGY CO.,LTD. Country or region before: China |
|
CP03 | Change of name, title or address |