CN110991350A - 一种智能化行为建模方法 - Google Patents
一种智能化行为建模方法 Download PDFInfo
- Publication number
- CN110991350A CN110991350A CN201911236111.1A CN201911236111A CN110991350A CN 110991350 A CN110991350 A CN 110991350A CN 201911236111 A CN201911236111 A CN 201911236111A CN 110991350 A CN110991350 A CN 110991350A
- Authority
- CN
- China
- Prior art keywords
- behavior
- layer
- neural network
- data
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 230000003287 optical effect Effects 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000005286 illumination Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 27
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种智能化行为建模方法,包括以下步骤:S1:从视频序列中获取光流向量,使用该光流向量,获取关于多个视频帧的一个特征向量的概率分布,使用该特征向量的概率分布,进行状态建模以及基于状态变换,联合构建起来训练数据;S2:对获取的数据进行操作处理,以模拟不同场景;S3:构建卷积神经网络,将经过处理后的数据进行训练;S4:将训练完成后的卷积神经网络的网络结构和权值保存,完成状态特征提取,导入训练数据,完成整体行为建模表达。本发明提高了建立行为模型的泛化能力,适用场景更广。
Description
技术领域
本发明属于行为建模技术领域,具体涉及一种智能化行为建模方法。
背景技术
包括坐、走、起立或转圈的人类行为能够使用摄像机捕获并存储为数字视频。在获取该数字视频之后,可以分析该数字视频的内容。例如,使用基于训练数据的随机模型能够刻画数字视频的行为的时间和空间特征。这些模型能够用于匹配提供的用于模式识别的视频序列和数据库视频。在模式分析之后,即能够使用这些模式从语义上索引视频。同样,在该处理中,能够获得视频内容的语义归纳。
现有方法中,基于概率模型的逆向强化学习主要从现有的示范数据出发,把示范数据作为已有数据,进而寻求对应当前数据的分布情况,基于此才能求取对应状态下的动作选取。但已知数据的分布并不能表示全部数据的分布,正确获取分布,需要获取全部状态对应动作的情况。
发明内容
本发明的目的是提供一种智能化行为建模方法,提高了建立行为模型的泛化能力,适用场景更广。
本发明提供了如下的技术方案:
一种智能化行为建模方法,包括以下步骤:
S1:从视频序列中获取光流向量,使用该光流向量,获取关于多个视频帧的一个特征向量的概率分布,使用该特征向量的概率分布,进行状态建模以及基于状态变换,联合构建起来训练数据;
S2:对获取的数据进行操作处理,以模拟不同场景;
S3:构建卷积神经网络,将经过处理后的数据进行训练;
S4:将训练完成后的卷积神经网络的网络结构和权值保存,完成状态特征提取,导入训练数据,完成整体行为建模表达。
优选的,获取流光向量的对象识别通过运动估计获取视频帧的特征向量,使用获取的特征向量确定每一帧所属的状态,确定的状态的变换矩阵,确定使行为模型和从给定的行为模型字典中提供的视频帧之间的概率最大的行为模型,作为所识别的行为。
优选的,在行为过程中,利用摄像机对行为视频进行采样,获得N组不同行为环境情况的图片;同时对应行为操作数据,即该环境下的操作角度情况,联合构建起来训练数据,对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景。
优选的,构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;新的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层;输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。
本发明的有益效果是:本方法可以有效地识别视频序列中比如人类活动的复杂对象行为;根据该对象行为识别方法,能够有效地识别比如人类行为的复杂行为,本发明可以对于新的状态场景进行适用,来获得其对应动作,提高了建立行为模型的泛化能力,适用场景更广。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明构建流程示意图。
具体实施方式
如图1所示,一种智能化行为建模方法,包括以下步骤:
S1:从视频序列中获取光流向量,使用该光流向量,获取关于多个视频帧的一个特征向量的概率分布,使用该特征向量的概率分布,进行状态建模以及基于状态变换,联合构建起来训练数据;
S2:对获取的数据进行操作处理,以模拟不同场景;
S3:构建卷积神经网络,将经过处理后的数据进行训练;
S4:将训练完成后的卷积神经网络的网络结构和权值保存,完成状态特征提取,导入训练数据,完成整体行为建模表达。
进一步的,获取流光向量的对象识别通过运动估计获取视频帧的特征向量,使用获取的特征向量确定每一帧所属的状态,确定的状态的变换矩阵,确定使行为模型和从给定的行为模型字典中提供的视频帧之间的概率最大的行为模型,作为所识别的行为。
进一步的,在行为过程中,利用摄像机对行为视频进行采样,获得N组不同行为环境情况的图片;同时对应行为操作数据,即该环境下的操作角度情况,联合构建起来训练数据,对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景。
进一步的,构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;新的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层;输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。
如图1所示,在马尔科夫决策过程中,一种策略需要连接状态到其对应的动作。但对于一个有着大范围的状态空间的时候,对于未遍历的区域,很难描述出来一个确定的策略表示,传统方法之中也忽略了对这部分的描述,仅仅是基于示范轨迹,来说明整个轨迹分布的概率模型,对于新的状态并没有给出具体的策略表示,即对于新状态采取确定动作的可能性并未给出具体的方法。本发明中借助神经网络对于策略进行描述,神经网络因其能够在任何精确度上近似表示任意函数的特性,同时有着优秀的泛化能力。借助状态特征的表示,一方面可以表示出那些不包含在示范轨迹中的状态,另外,借助将对应的状态特征输入神经网络。可以求取对应的动作值,从而依策略求取应得的动作,因而,传统方法无法泛化行为示范数据到未遍历各个场景状态问题得以解决。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种智能化行为建模方法,其特征在于,包括以下步骤:
S1:从视频序列中获取光流向量,使用该光流向量,获取关于多个视频帧的一个特征向量的概率分布,使用该特征向量的概率分布,进行状态建模以及基于状态变换,联合构建起来训练数据;
S2:对获取的数据进行操作处理,以模拟不同场景;
S3:构建卷积神经网络,将经过处理后的数据进行训练;
S4:将训练完成后的卷积神经网络的网络结构和权值保存,完成状态特征提取,导入训练数据,完成整体行为建模表达。
2.根据权利要求1所述的一种智能化行为建模方法,其特征在于,获取流光向量的对象识别通过运动估计获取视频帧的特征向量,使用获取的特征向量确定每一帧所属的状态,确定的状态的变换矩阵,确定使行为模型和从给定的行为模型字典中提供的视频帧之间的概率最大的行为模型,作为所识别的行为。
3.根据权利要求1所述的一种智能化行为建模方法,其特征在于,在行为过程中,利用摄像机对行为视频进行采样,获得N组不同行为环境情况的图片;同时对应行为操作数据,即该环境下的操作角度情况,联合构建起来训练数据,对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景。
4.根据权利要求1所述的一种智能化行为建模方法,其特征在于,构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;新的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层;输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911236111.1A CN110991350A (zh) | 2019-12-05 | 2019-12-05 | 一种智能化行为建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911236111.1A CN110991350A (zh) | 2019-12-05 | 2019-12-05 | 一种智能化行为建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110991350A true CN110991350A (zh) | 2020-04-10 |
Family
ID=70090447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911236111.1A Pending CN110991350A (zh) | 2019-12-05 | 2019-12-05 | 一种智能化行为建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991350A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170140260A1 (en) * | 2015-11-17 | 2017-05-18 | RCRDCLUB Corporation | Content filtering with convolutional neural networks |
CN108920805A (zh) * | 2018-06-25 | 2018-11-30 | 大连大学 | 具有状态特征提取功能的驾驶员行为建模系统 |
-
2019
- 2019-12-05 CN CN201911236111.1A patent/CN110991350A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170140260A1 (en) * | 2015-11-17 | 2017-05-18 | RCRDCLUB Corporation | Content filtering with convolutional neural networks |
CN108920805A (zh) * | 2018-06-25 | 2018-11-30 | 大连大学 | 具有状态特征提取功能的驾驶员行为建模系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609460B (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
Ma et al. | TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition | |
CN109919317B (zh) | 一种机器学习模型训练方法和装置 | |
CN111476168A (zh) | 一种基于三阶段的跨域行人重识别方法和系统 | |
CN107862376A (zh) | 一种基于双流神经网络的人体图像动作识别方法 | |
CN110598598A (zh) | 基于有限样本集的双流卷积神经网络人体行为识别方法 | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN110334589A (zh) | 一种基于空洞卷积的高时序3d神经网络的动作识别方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111259795A (zh) | 基于多流深度学习的人体行为识别方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN112668492B (zh) | 一种自监督学习与骨骼信息的行为识别方法 | |
CN109508686B (zh) | 一种基于层次化特征子空间学习的人体行为识别方法 | |
CN116402671B (zh) | 用于自动打码系统的样品打码图像处理方法 | |
CN112651360B (zh) | 一种小样本下骨架动作识别方法 | |
CN114548256A (zh) | 一种基于对比学习的小样本珍稀鸟类识别方法 | |
CN113343941A (zh) | 一种基于互信息相似度的零样本动作识别方法及系统 | |
CN112215423A (zh) | 一种基于趋势引导与稀疏交互的行人轨迹预测方法及系统 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN115761905A (zh) | 一种基于骨骼关节点的潜水员动作识别方法 | |
CN111242176A (zh) | 计算机视觉任务的处理方法、装置及电子系统 | |
Hidayah et al. | Disease Detection of Solanaceous Crops Using Deep Learning for Robot Vision | |
CN111160170B (zh) | 一种自学习的人体行为识别与异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |
|
RJ01 | Rejection of invention patent application after publication |