CN113642499B - 基于计算机视觉的人体行为识别方法 - Google Patents
基于计算机视觉的人体行为识别方法 Download PDFInfo
- Publication number
- CN113642499B CN113642499B CN202110966483.0A CN202110966483A CN113642499B CN 113642499 B CN113642499 B CN 113642499B CN 202110966483 A CN202110966483 A CN 202110966483A CN 113642499 B CN113642499 B CN 113642499B
- Authority
- CN
- China
- Prior art keywords
- matrix
- public
- behavior
- feature
- implicit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 105
- 238000013507 mapping Methods 0.000 claims abstract description 26
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 10
- 238000000691 measurement method Methods 0.000 claims description 8
- 238000013508 migration Methods 0.000 claims description 5
- 230000005012 migration Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,具体公开了一种基于计算机视觉的人体行为识别方法,提取源域中行为视频的底层特征所构成的矩阵,得到第一特征矩阵;提取目标域中行为视频的底层特征所构成的矩阵,得到第二特征矩阵;利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解,共享两个领域的隐含特征矩阵;将隐含特征矩阵构成的空间定义为源域和目标域的公共隐含语义空间;待算法学习到原始视频数据到公共隐含语义空间的线性映射矩阵和线性分类器,在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示,再采用线性分类器对语义表示向量进行分类,以此提升计算机人体行为识别的准确率。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于计算机视觉的人体行为识别方法。
背景技术
人体行为识别属于计算机视觉中的高层次任务,在智能监控、人机交互、基于内容的视频检索等领域有着巨大的应用前景,是当前计算机视觉领域的研究热点之一。
但是现有的人体行为识别方法的行为识别准确率偏低。
发明内容
本发明的目的在于提供一种基于计算机视觉的人体行为识别方法,旨在解决现有技术中的人体行为识别方法的行为识别准确率偏低的技术问题。
为实现上述目的,本发明采用的一种基于计算机视觉的人体行为识别方法,包括如下步骤:
提取源域中行为视频的底层特征所构成的矩阵,得到第一特征矩阵;
提取目标域中行为视频的底层特征所构成的矩阵,得到第二特征矩阵;
利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解,共享两个领域的隐含特征矩阵;
将隐含特征矩阵构成的空间定义为源域和目标域的公共隐含语义空间,再以公共隐含语义空间为载体实现知识迁移;
待算法学习到原始视频数据到公共隐含语义空间的线性映射矩阵和线性分类器,在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示,再采用线性分类器对语义表示向量进行分类。
其中,联合矩阵分解表示矩阵转化为多个矩阵的乘积。
其中,在利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解的步骤中引入信息矩阵。
其中,对于训练集以外的数据,算法通过线性映射的方式将目标域待分类行为视频直接映射到公共隐含语义空间,得到对应的隐含语义表示。
其中,在引入信息矩阵的步骤中:
首先需要定义源域和目标域样本间的相关性,给出相关性度量方法;
然后定义同一领域内样本两两之间的局部相似性度量方法;
在将源域和目标域的数据映射到公共隐含语义空间时,通过定义对应目标函数来保留不同领域间的标签一致性信息和相同领域内的局部几何结构信息。
本发明的一种基于计算机视觉的人体行为识别方法,通过提取源域中行为视频的底层特征所构成的矩阵,得到第一特征矩阵;提取目标域中行为视频的底层特征所构成的矩阵,得到第二特征矩阵;利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解,共享两个领域的隐含特征矩阵;将隐含特征矩阵构成的空间定义为源域和目标域的公共隐含语义空间,再以公共隐含语义空间为载体实现知识迁移;待算法学习到原始视频数据到公共隐含语义空间的线性映射矩阵和线性分类器,在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示,再采用线性分类器对语义表示向量进行分类。以此提升计算机人体行为识别的准确率。
具体实施方式
本发明提供了一种基于计算机视觉的人体行为识别方法,包括如下步骤:
提取源域中行为视频的底层特征所构成的矩阵,得到第一特征矩阵;
提取目标域中行为视频的底层特征所构成的矩阵,得到第二特征矩阵;
利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解,共享两个领域的隐含特征矩阵;
将隐含特征矩阵构成的空间定义为源域和目标域的公共隐含语义空间,再以公共隐含语义空间为载体实现知识迁移;
待算法学习到原始视频数据到公共隐含语义空间的线性映射矩阵和线性分类器,在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示,再采用线性分类器对语义表示向量进行分类。
联合矩阵分解表示矩阵转化为多个矩阵的乘积。
在利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解的步骤中引入信息矩阵。
对于训练集以外的数据,算法通过线性映射的方式将目标域待分类行为视频直接映射到公共隐含语义空间,得到对应的隐含语义表示。
在引入信息矩阵的步骤中:
首先需要定义源域和目标域样本间的相关性,给出相关性度量方法;
然后定义同一领域内样本两两之间的局部相似性度量方法;
在将源域和目标域的数据映射到公共隐含语义空间时,通过定义对应目标函数来保留不同领域间的标签一致性信息和相同领域内的局部几何结构信息。
联合矩阵分解技术的数学表达式为:Xs=f1(UsZ)和Xt=f2(UtZ),式中f(·)为映射函数,Xs表示第一特征阵列,Xt表示第二特征矩阵,Z是决定行为视频类别的共同因素,Us和Ut分别是源域和目标域特有的区别因素。
将上式简化,取Xs=UsZ和Xt=UtZ,损失函数取二范数形式,则得到二者的损失之和为:
式中,为源域的矩阵分解误差,/>为目标域的矩阵分解误差,第三项是控制过拟合正则项,λ为正则化参数。
在本实施方式中,设定Xs表示源域中行为视频的底层特征所构成的矩阵,其中每个行为视频的特征表示长度为d1,即Xt表示目标域中行为视频的底层特征所构成的矩阵,其中每个行为视频的特征表示长度为d2,即Xs和Xt来源于两个不同但相关的域,具有不同的特征分布,但领域之间通常存在某种公共知识结构,行为类别一般由这种共性特征决定。例如,监控摄像机所记录的跑步行为与训练数据集(如UCF101数据集)中的跑步行为,二者虽然存在视角、背景和执行主体等的不同,但均存在抬腿、摆臂等基本动作。因此对于这两个行为视频域可以假设存在三个因素(即三个矩阵):/>和Z∈Rk×N,其中Z是决定行为视频类别的共同因素,Us和Ut分别是源域和目标域特有的区别因素。
为利用源域标注样本来帮助提高目标域行为视频分类,采用联合矩阵分解技术将特征矩阵Xs和Xt同时进行分解,共享两个领域的隐含特征矩阵Z,将隐含特征矩阵Z构成的空间定义为源域和目标域的公共隐含语义空间,再以这个空间为载体实现知识迁移。同时,为保留不同领域间的样本数据的标签一致性信息和每个领域内的局部几何结构信息,在联合矩阵分解过程中引入一个信息矩阵。算法最后学习到原始视频数据到公共隐含语义空间的线性映射矩阵(Linear Projection Matrix)和线性分类器(Linear Classifier),在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示,再采用线性分类器对语义表示向量进行分类。
联合矩阵分解技术的数学表达式为:Xs=f1(UsZ)和Xt=f2(UtZ) (1)
式中f(·)为映射函数。如果将上式进一步简化,取Xs=UsZ和Xt=UtZ,损失函数取二范数形式,则可以得到二者的损失之和为:
式中,为源域的矩阵分解误差,/>为目标域的矩阵分解误差,第三项是控制过拟合正则项,λ为正则化参数。矩阵分解(MatrixFactorization,MF)是把矩阵转化为多个矩阵的乘积,上式中将Xs转化为Us和Z的乘积、将Xt转化为Ut和Z的乘积。对Xs和Xt的转化结果存在公共的Z∈Rk×N,故式(2)是基于联合矩阵分解建立的目标函数。通过上述矩阵分解步骤,对源域和目标域两个领域的数据建立一个公共隐含语义空间,k为公共隐含语义表示的向量长度。Z中第i个列向量zi是源域中第i个行为视频/>和目标域中对应的行为视频/>共同的隐含语义表示。
对于训练集以外的数据,算法通过线性映射的方式将目标域待分类行为视频直接映射到公共隐含语义空间,得到对应的隐含语义表示。对于源域的待分类行为视频
同理,对于目标域的待分类行为视频
式中,和/>分别是源域和目标域的线性映射矩阵。在建立了源域和目标域视频样本的公共隐含语义空间后,由式(3)和式(4)可得线性映射的目标函数为:
信息矩阵中,信息反映了领域间的相关性和领域内的相似性,在将源域和目标域的数据利用联合矩阵分解技术映射到公共隐含语义空间的过程中,保留这些信息可以使该语义空间中的语义表示更具判别力,从而进一步提高行为识别系统的分类能力。
为充分利用训练样本的标签(Label)信息,首先定义源域和目标域样本间的相关性,给出相关性度量方法
式中表示源域/>的标签,/>表示目标域/>的标签。
然后,定义同一领域内样本两两之间的局部相似性度量方法
式中NK(·)表示利用K-NN算法获取的K个最近邻样本集合。
在将源域和目标域的数据映射到公共隐含语义空间时,通过定义如下目标函数来保留不同领域间的标签一致性信息和相同领域内的局部几何结构信息
式中,第一项根据领域间的相关性,确保相同类别标签的行为视频在公共隐含语义空间中的语义表示类似;第二项、第三项根据领域内的相似性,确保行为视频在公共隐含语义空间中仍能保持原领域的局部几何结构,亦即行为视频在原领域和公共隐含语义空间中保持相同的近邻关系。
式(9)中的目标函数可以化简为:
式中,为W∈RN×N的元素。D∈RN×N是一个对角矩阵(DiagonalMatrix),主对角线上的元素值dii是参数矩阵W对应的每列元素值的和/>主对角线之外的元素均为0。其中矩阵L(L=D-W)即为本章的信息矩阵,可以保留相同领域内的局部几何结构信息和不同领域间的标签一致性信息。
在获得源域和目标域的行为视频样本的隐含语义表示后,需要进一步采用分类器来对这些表示向量进行分类。为了问题的简化,本章选择一个线性分类器来实现特征向量的分类,目标函数(损失函数)为
式中,T∈Rm×k为线性分类器的系数矩阵,H=[h1,h2,…,hN]∈Rm×N为训练样本的行为类别标签,m为行为类别总数,H的每一个列向量hi=[0,0,…,1…,0,0]T∈Rm为行为类别的独热编码(One-Hot Label Vector),即只有行为类别对应位置的元素为1,其余位置元素均为0。
基于联合矩阵分解的跨域行为识别算法的目标函数包含四部分:联合矩阵分解项Lmf、线性映射项Llp、领域间标签信息和领域内局部几何结构信息保持项Lsc、线性分类项Llc,因此综合式(2)、式(5)、式(10)和式(11),可得算法的全局目标函数为:
式中,最后一项为正则化项,分析式(12)可知,全局目标函数中存在六个参数:Us、Ut、Pt、Ps、T和Z,直接在训练样本集上学习这些参数矩阵明显是个非常困难的非凸优化问题,因此需要将其转化为易于求解的凸优化问题。在每次训练时如果只考虑其中一个参数而固定其余参数,对于这个参数来说全局目标函数就是个凸函数,此时可用凸优化方法对这个参数进行更新。采用这种不断迭代至最优解的方式可以从训练样本集中学习到全局目标函数的六个参数。
综上,本章基于联合矩阵分解的跨域行为识别算法具体为:
另外在人体行为识别方法中,还包括基于限制密集轨迹与改进VLAD的行为识别、基于有序光流图和双流卷积网络的行为识别、基于几何特征和时序注意递归网络的行为识别,但是本发明采用的基于联合矩阵分解的跨域行为识别方法其精确率相对于基于限制密集轨迹与改进VLAD的行为识别、基于有序光流图和双流卷积网络的行为识别、基于几何特征和时序注意递归网络的行为识别的准确率来说更高。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (3)
1.一种基于计算机视觉的人体行为识别方法,其特征在于,包括如下步骤:
提取源域中行为视频的底层特征所构成的矩阵,得到第一特征矩阵;
提取目标域中行为视频的底层特征所构成的矩阵,得到第二特征矩阵;
利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解,共享两个领域的隐含特征矩阵;
将隐含特征矩阵构成的空间定义为源域和目标域的公共隐含语义空间,再以公共隐含语义空间为载体实现知识迁移;
待算法学习到原始视频数据到公共隐含语义空间的线性映射矩阵和线性分类器,在识别行为视频时利用线性映射矩阵直接映射到公共隐含语义空间得到隐含语义表示,再采用线性分类器对语义表示向量进行分类;
联合矩阵分解表示矩阵转化为多个矩阵的乘积;在利用联合矩阵分解技术将第一特征矩阵和第二特征矩阵同时进行分解的步骤中引入信息矩阵。
2.如权利要求1所述的基于计算机视觉的人体行为识别方法,其特征在于,
对于训练集以外的数据,算法通过线性映射的方式将目标域待分类行为视频直接映射到公共隐含语义空间,得到对应的隐含语义表示。
3.如权利要求2所述的基于计算机视觉的人体行为识别方法,其特征在于,在引入信息矩阵的步骤中:
首先需要定义源域和目标域样本间的相关性,给出相关性度量方法;
然后定义同一领域内样本两两之间的局部相似性度量方法;
在将源域和目标域的数据映射到公共隐含语义空间时,通过定义对应目标函数来保留不同领域间的标签一致性信息和相同领域内的局部几何结构信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110966483.0A CN113642499B (zh) | 2021-08-23 | 2021-08-23 | 基于计算机视觉的人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110966483.0A CN113642499B (zh) | 2021-08-23 | 2021-08-23 | 基于计算机视觉的人体行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642499A CN113642499A (zh) | 2021-11-12 |
CN113642499B true CN113642499B (zh) | 2024-05-24 |
Family
ID=78423428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110966483.0A Active CN113642499B (zh) | 2021-08-23 | 2021-08-23 | 基于计算机视觉的人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642499B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116645732B (zh) * | 2023-07-19 | 2023-10-10 | 厦门工学院 | 一种基于计算机视觉的场地危险活动预警方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649748A (zh) * | 2016-12-26 | 2017-05-10 | 深圳先进技术研究院 | 信息推荐方法及装置 |
CN107203745A (zh) * | 2017-05-11 | 2017-09-26 | 天津大学 | 一种基于跨域学习的跨视角动作识别方法 |
JP2020101948A (ja) * | 2018-12-20 | 2020-07-02 | 株式会社日立製作所 | 行動認識システム及び行動認識方法 |
CN111626245A (zh) * | 2020-06-01 | 2020-09-04 | 安徽大学 | 一种基于视频关键帧的人体行为识别方法 |
WO2020186914A1 (zh) * | 2019-03-20 | 2020-09-24 | 北京沃东天骏信息技术有限公司 | 行人再识别方法、装置及存储介质 |
CN113128667A (zh) * | 2021-04-02 | 2021-07-16 | 中国科学院计算技术研究所 | 一种跨域自适应的图卷积平衡迁移学习方法与系统 |
CN113239801A (zh) * | 2021-05-13 | 2021-08-10 | 北京阿叟阿巴科技有限公司 | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 |
-
2021
- 2021-08-23 CN CN202110966483.0A patent/CN113642499B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649748A (zh) * | 2016-12-26 | 2017-05-10 | 深圳先进技术研究院 | 信息推荐方法及装置 |
CN107203745A (zh) * | 2017-05-11 | 2017-09-26 | 天津大学 | 一种基于跨域学习的跨视角动作识别方法 |
JP2020101948A (ja) * | 2018-12-20 | 2020-07-02 | 株式会社日立製作所 | 行動認識システム及び行動認識方法 |
WO2020186914A1 (zh) * | 2019-03-20 | 2020-09-24 | 北京沃东天骏信息技术有限公司 | 行人再识别方法、装置及存储介质 |
CN111626245A (zh) * | 2020-06-01 | 2020-09-04 | 安徽大学 | 一种基于视频关键帧的人体行为识别方法 |
CN113128667A (zh) * | 2021-04-02 | 2021-07-16 | 中国科学院计算技术研究所 | 一种跨域自适应的图卷积平衡迁移学习方法与系统 |
CN113239801A (zh) * | 2021-05-13 | 2021-08-10 | 北京阿叟阿巴科技有限公司 | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113642499A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang | A survey of unsupervised domain adaptation for visual recognition | |
Gao et al. | Multi‐dimensional data modelling of video image action recognition and motion capture in deep learning framework | |
CN110781262B (zh) | 基于视觉slam的语义地图的构建方法 | |
Bai et al. | Sequence searching with CNN features for robust and fast visual place recognition | |
Zahra et al. | Person re-identification: A retrospective on domain specific open challenges and future trends | |
CN107545276B (zh) | 联合低秩表示和稀疏回归的多视角学习方法 | |
KR20190138238A (ko) | 딥 블라인드 전의 학습 | |
Li et al. | Unsupervised person re-identification with multi-label learning guided self-paced clustering | |
Zhang et al. | Mining spatial-temporal similarity for visual tracking | |
CN113628244B (zh) | 基于无标注视频训练的目标跟踪方法、系统、终端及介质 | |
CN115731441A (zh) | 基于数据跨模态迁移学习的目标检测和姿态估计方法 | |
Ainam et al. | Unsupervised domain adaptation for person re-identification with iterative soft clustering | |
Liu et al. | Complementary attention-driven contrastive learning with hard-sample exploring for unsupervised domain adaptive person re-id | |
Xu et al. | Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning | |
CN113642499B (zh) | 基于计算机视觉的人体行为识别方法 | |
Zhang et al. | Capturing the grouping and compactness of high-level semantic feature for saliency detection | |
Xiang et al. | Deep multimodal representation learning for generalizable person re-identification | |
Wang et al. | Task-dependent and query-dependent subspace learning for cross-modal retrieval | |
Li et al. | Egocentric action recognition by automatic relation modeling | |
Zhang et al. | Person re-identification with pose variation aware data augmentation | |
Devika et al. | Visual domain adaptation through locality information | |
CN112052722A (zh) | 行人身份再识别方法及存储介质 | |
Ling et al. | Iae-clustergan: A new inverse autoencoder for generative adversarial attention clustering network | |
Jiang et al. | Multiformer-based hybrid learning with outlier re-assignment for unsupervised person re-identification | |
CN113963021A (zh) | 一种基于时空特征和位置变化的单目标跟踪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |