CN111652133A - 行为识别装置及方法 - Google Patents
行为识别装置及方法 Download PDFInfo
- Publication number
- CN111652133A CN111652133A CN202010493350.1A CN202010493350A CN111652133A CN 111652133 A CN111652133 A CN 111652133A CN 202010493350 A CN202010493350 A CN 202010493350A CN 111652133 A CN111652133 A CN 111652133A
- Authority
- CN
- China
- Prior art keywords
- group
- information
- action
- behavior recognition
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种行为识别装置及方法,该装置包括特征提取模块、信息分解模块和行为识别模块,特征提取模块用于从第一视频中提取目标对象的时间序列对应的第一组身体特征信;信息分解模块用于将第一组身体特征信息进行姿态分解得到第一组姿态信息,将第一组姿态信息进行时间动态聚类得到第一组动作信息,基于第一组身体特征信息计算目标对象的第一组速度信息,将第一组速度信息与第一组动作信息进行聚类,得到第一组动作序列信息;行为识别模块基于第一组动作序列信息对第一视频进行行为识别,输出目标对象的行为识别结果,能够实现无监督的动物行为分解,减少了数据的冗余性,并实现了有监督的行为识别。
Description
技术领域
本申请涉及计算机科学技术领域,尤其涉及一种行为识别装置及方法。
背景技术
动物行为学研究是神经科学、认知心理学、药理学等领域里最基本的研究手段之一。通过观察动物的行为反应,从而能够验证神经环路操控、认知心理干预以及药物作用等产生的效果。动物行为研究的历史悠久,刚开始研究者通过人工观察的方式研究动物的行为,而摄像机的出现则为动物行为分析提供了极大的便利,采用视频记录可以最大程度地记录动物的活动,方便后期的回看与分析。为了能够更好的量化视频中动物的行为,利用数字图像处理等技术,提取动物在视频中的轮廓,进一步通过质心化等方式获取动物在行为中的轨迹,从而评估动物的活动量、特定位置停留的时间。但是这种通过追踪轨迹的方式很大程度上忽略了动物通过四肢以及器官表现出来的丰富动作,极大地限制了对行为的评估。
目前,随着机器学习技术的发展,机器学习已广泛应用于图像识别、视频内容识别等应用领域。在动物行为研究领域,也已经开始利用机器学习算法对动物行为进行识别。然而现有动物行为识别方法通常没有考虑动物行为的时间尺度。
申请内容
本申请实施例提供了一种行为识别装置及方法,能够实现无监督的动物行为分解,减少了数据的冗余性,并实现了有监督的行为识别。
第一方面,本申请实施例提供一种行为识别装置,应用于动物行为识别,所述装置包括:特征提取模块、信息分解模块和行为识别模块,其中,
所述特征提取模块,用于从第一视频中提取目标对象的时间序列对应的第一组身体特征信息;
所述信息分解模块,用于将所述第一组身体特征信息进行姿态分解得到第一组姿态信息,将所述第一组姿态信息进行时间动态聚类得到第一组动作信息,基于所述第一组身体特征信息计算所述目标对象的第一组速度信息,将所述第一组速度信息与所述第一组动作信息进行聚类,得到第一组动作序列信息;
所述行为识别模块,用于基于所述第一组动作序列信息对所述第一视频进行行为识别,输出所述目标对象的行为识别结果。
可选的,所述装置还包括动作识别模块;
所述动作识别模块,用于基于所述第一组姿态信息对所述第一视频进行动作识别,输出所述目标对象的动作识别结果。
可选的,所述信息分解模块还具体用于:
采用无监督聚类算法对所述第一组身体特征信息进行聚类,得到包括K个姿态结果的所述第一组姿态信息;若所述第一组姿态信息中包括属于同一类的连续相邻的M个姿态结果,则保留所述M个姿态结果中的其中一个姿态结果,所述M为大于或等于2的正整数,所述K为大于或等于M的正整数。
可选的,所述信息分解模块还具体用于:
根据第一时间范围,将所述第一组姿态信息聚类成包括H个动作结果的所述第一组动作信息,若所述第一组动作信息中有L个动作结果相似,则保留所述L个动作结果中的其中一个动作结果,所述L为大于或等于2的正整数,所述H为大于或等于L的正整数。
可选的,所述行为识别模块还用于:
使用第一训练集训练待训练行为识别模型,得到行为识别模型,所述第一训练集包括第一标记的第二组动作序列信息,所述第二组动作序列信息是基于第二视频得到的;
所述行为识别模块具体用于:
将所述第一组动作序列信息输入所述行为识别模型,输出所述第一视频中所述目标对象的行为识别结果。
可选的,所述动作识别模块还用于:
使用第二训练集训练待训练动作识别模型,得到动作识别模型,所述第二训练集包括第二标记的第二组序列信息,所述第二组动作序列信息是基于第二视频得到的;
所述动作识别模块具体用于:
将所述第一组姿态信息输入所述动作识别模型,输出所述第一视频中所述目标对象的动作识别结果。
第二方面,本申请实施例提供一种行为识别方法,应用于动物行为识别,所述方法包括:
从第一视频中提取目标对象的时间序列对应的第一组身体特征信息;
将所述第一组身体特征信息进行姿态分解得到第一组姿态信息,将所述第一组姿态信息进行时间动态聚类得到第一组动作信息,基于所述第一组身体特征信息计算所述目标对象的第一组速度信息,将所述第一组速度信息和所述第一组动作信息进行聚类,得到第一组动作序列信息;
基于所述第一组动作序列信息对所述第一视频进行行为识别,输出所述目标对象的行为识别结果。
可选的,所述方法还包括:
基于所述第一组姿态信息对所述第一视频进行动作识别,输出所述目标对象的动作识别结果。
第三方面,本申请实施例提供一种计算机设备,该计算机设备包括处理器、存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器处理,所述程序包括用于执行如第二方面任意一项所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括存储用于数据交换的计算机程序,所述计算机程序被处理器执行时实现如本申请实施例第二方面所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第二方面所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例中所描述的行为识别装置及方法,包括特征提取模块、信息分解模块和行为识别模块,所述特征提取模块用于从第一视频中提取目标对象的时间序列对应的第一组身体特征信息,所述信息分解模块用于将所述第一组身体特征信息进行姿态分解得到第一组姿态信息,将所述第一组姿态信息进行时间动态聚类得到第一组动作信息,基于所述第一组身体特征信息计算所述目标对象的第一组速度信息,将所述第一组速度信息与所述第一组动作信息进行聚类,得到第一组动作序列信息,所述行为识别模块基于所述第一组动作序列信息对所述第一视频进行行为识别,输出所述目标对象的行为识别结果。本申请中,信息分解模块可以将动物的行为分解成不同的时间尺度,即姿态层、动作层和行为层,无需人工标记,可以实现无监督的动物行为分解,并且信息分解模块可以将复杂的原始身体特征数据进行简化,把动物的动作进行分割和聚类,减少了数据的冗余性,提高计算性能;而行为识别模块对分解后的动作序列信息进行自动化识别,实现了有监督的行为识别。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种计算机设备的结构示意图
图2是本申请实施例提供的一种行为识别装置的结构示意图;
图3A是本申请实施例提供的一种提取身体特征点的流程示意图;
图3B是本申请实施例提供的一种身体特征点标记的示意图;
图4是本申请实施例提供的另一种行为识别装置的结构示意图;
图5本申请实施例提供的一种行为识别方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面通过具体实施例,对本申请进行详细说明。
请参阅图1,图1是本申请实施例提供的一种计算机设备的结构示意图,如图1所示,该计算机设备可以包括处理器,存储器以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器处理。其中,该计算机设备还可以包括通信总线、输入设备和输出设备,处理器、存储器、输入设备和输出设备之间可以通过总线相互连接。
其中,上述处理器,用于执行所述存储器上所存放的程序时,实现以下步骤:
从第一视频中提取目标对象的时间序列对应的第一组身体特征信息;
将所述第一组身体特征信息进行姿态分解得到第一组姿态信息,将所述第一组姿态信息进行时间动态聚类得到第一组动作信息,基于所述第一组身体特征信息计算所述目标对象的第一组速度信息,将所述第一组速度信息和所述第一组动作信息进行聚类,得到第一组动作序列信息;
基于所述第一组动作序列信息对所述第一视频进行行为识别,输出所述目标对象的行为识别结果。
进一步地,上述处理器可以是中央处理器(Central Processing Unit,CPU)、智能处理器(Intelligence Processing Unit,NPU)、图形处理器(Graphics Processing Unit,GPU)或图像处理器(Image Processing Unit),本申请对此不做限定。根据该处理器,本申请实施例提出的行为识别方法可以用于老鼠、猴子、兔子等动物的行为分析。
请参阅图2,图2是本申请实施例提供的一种行为识别装置200的结构示意图,该行为识别装置200包括:特征提取模块210、信息分解模块220和行为识别模块230,其中,
所述特征提取模块210,用于从第一视频中提取目标对象的时间序列对应第一组身体特征信息;
所述信息分解模块220,用于将所述第一组身体特征信息进行姿态分解得到第一组姿态信息,将所述第一组姿态信息进行时间动态聚类得到第一组动作信息,基于所述第一组身体特征信息计算所述目标对象的第一组速度信息,将所述第一组速度信息与所述第一组动作信息进行聚类,得到第一组动作序列信息;
所述行为识别模块230,用于基于所述第一组动作序列信息对所述第一视频进行行为识别,输出所述目标对象的行为识别结果。
其中,特征提起模块210的作用是从输入的原始视频,即第一视频中提取表征动物运动的第一组身体特征信息。视频中动物的运动通常通过像素值来表示,但是直接利用像素值作为动物运动的表征数据会存在数据冗余,像素值也容易受到噪声影响。因此,在本申请实施例中,通过特征提取模块210从视频的每一帧图像中识别动物的四肢、头部、鼻子、尾巴等身体部位,从而获取这些身体部位随着时间变化产生的轨迹。进一步地,特征提取模块210还可以包括预处理操作,例如,异常点滤除、缺失值估计等。
具体地,特征提取模块210从第一视频中提取出每一帧图像中目标对象对应的身体原始特征点,再将该身体原始特征点进行对齐、矫正等预处理操作,得到第一组身体特征信息。在一些示例中,可以采用身体特征提取模型提取第一视频中的身体原始特征点,如图3A所示。首先从用于训练的动物行为视频中随机抽取300帧以上的图像,人工对每一帧图像中动物的身体特征点进行标记,例如,如图3B所示,标记出小白鼠的身体部位,即人工定义出动物身体的关键点,然后使用该标记过身体特征点的图像训练待训练身体特征提取模型,得到身体特征提取模型。特征提取模块210使用该身体特征提取模型对第一视频中每一帧图像包含的身体部位进行识别,得到每一帧图像的身体原始特征点,即第一组身体特征信息。在一些示例中,所述身体特征提取模型可以采用用于动物特征提取的工具包DeepLabCut,使用标记的图像对DeepLabCut进行训练,将训练完成后的DeepLabCut对第一视频中每一帧图像中目标对象的身体部位进行识别,得到每一帧图像的身体原始特征点。
进一步地,对齐处理是用于调整每一帧图像中目标对象的身体朝向,即通过对齐处理后的图像中目标对象的身体都朝向同一方向,例如,无论图像中的目标对象在任意时刻的身体处于何种朝向,都统一采取旋转的方式将图像中目标对象的头部朝向西方向,从而消除因头部朝向对于身体姿态的影响。矫正处理是用于矫正每一帧图像中的异常点。矫正处理可以采用中值滤波的方式对图像中的异常点进行矫正。
特征提取模块210可以分别通过与所述信息分解模块220相连的两个分支,向所述信息分解模块220发送所述第一组身体特征信息。信息分解模块220可以将所述第一组身体特征信息作为获取所述第一组姿态信息的输入;信息分解模块220也可以将所述第一身体特征信息作为计算所述目标对象的第一组速度信息的输入。
可选的,所述信息分解模块220具体用于:采用无监督聚类算法对将所述第一组身体特征信息进行聚类,得到包括K个姿态结果的所述第一组姿态信息;若所述第一组姿态信息中包括属于同一类的连续相邻的M个姿态结果,则保留所述M个姿态结果中的其中一个姿态结果,所述M为大于或等于2的正整数,所述K为大于或等于M的正整数。
可选的,所述信息分解模块还具体用于:根据第一时间范围,将所述第一组姿态信息聚类成包括H个动作结果的所述第一组动作信息,若所述第一组动作信息中有L个动作结果相似,则保留所述L个动作结果中的其中一个动作结果,所述L为大于或等于2的正整数,所述H为大于或等于L的正整数。
其中,动物的行为就如同人类的语言一样,是由不同层次的模块元素组成的。例如,语言一般主要由字、词语、句子组成,对应到动物的行为,应该由姿态、动作和行为组成。姿态是指任意时刻动物通过器官和四肢表现出来的形态,则姿态结果为一帧图像中动物器官和四肢表现出来的形态的特征,第一组姿态信息为一帧图像中的姿态结果;动作是指若干个连续姿态组成的运动单元(例如,行走,嗅探),动作结果为在特定时间段内第一组姿态信息的集合,第一组动作信息为第一视频内的所有动作结果,行为则是指若干动作组成的具备一定生理意义的行为(例如捕食行为)。用户涉及到不同的科学问题时,通常关注的行为尺度也不一样,而现有的多数方法都混淆了行为的时间尺度,存在把动作当成行为,或者动作和行为在一个层面上进行统计对比。因此,在本申请实施例中,信息分解模块220的作用是根据动物行为的特性将所述目标对象的动作进行层次化分解,自底向上可以将动物的行为分成三个层次,即姿态层、动作层和行为层。
对于姿态层,信息分解模块220将从特征提出模块210提取出的第一组身体特征信息进行无监督的聚类,从而划分为有限个姿态。由于相邻姿态具有很大的相似性临近相邻的姿态可能属于同一类,因此可以将连续相邻且属于同一类的多个姿态用一个姿态来表示,即相邻的多帧图像用其中一帧图像来表示。本申请实施例通过从时间上降低维度,可以有效地降低行为识别的时间复杂性。
本申请通过身体特征点来表征动物的运动,第一组身体特征信息可以用X∈Rd×n的矩阵表示,对应n个d维向量。其中,d表示所述目标对象采用的身体特征点的数量,n表示所述第一视频中包括的总帧数。信息分解模块220可以通过聚类算法将n个d维向量降维为m个d维向量。具体地,信息分解模块220将包含n个d维向量的第一组身体特征信息进行无监督聚类,将表示动物姿态的第一组身体特征信息聚类成K个姿态结果,若所述第一组姿态信息中包括属于同一类的连续相邻的M个姿态结果,即在该时间段内所述目标对象的姿态相同或相似,则用M个姿态结果中的其中一个姿态结果代表该时间段内的姿态结果,舍弃M个姿态结果中的其他姿态结果,例如,假设第一时间范围为0.1s-0.3,第一组姿态信息中包括姿态结果1、姿态结果2、姿态结果3和姿态结果4,若姿态结果1、姿态结果2、姿态结果3属于同一类的姿态,将姿态结果2作为在该时间段内的姿态结果,删除姿态结果1和姿态结果3,则第一组姿态信息中包括姿态结果2和姿态结果4。其中,可以选择M个姿态结果中的中间一个姿态结果代表该时间段内的姿态结果,也可以选择M个姿态结果中的最后一个姿态结果,本申请实施例也不局限于其他选择方法。
在一些示例中,所述无监督聚类算法可以采用K-均值(K-means)算法。在本申请实施例中,通过姿态分解处理可以减少数据的冗余性,提高计算性能,并且可以简化目标对象的行为,将理论上无穷多的姿态结果转换成有限个姿态结果。将第一组身体特征信息进行姿态分解后得到第一组姿态信息可以用Xd∈Rd×m表示,用于指示时间降维后的m个d维的姿态向量,m小于n。
其中,对于动作层,本申请实施例采用聚类算法,将第一组姿态信息中相似的动作进行聚类,进一步分解出所述第一组动作信息。具体地,信息分解模块220将时间降维后的第一组姿态信息Xd作为输入,在时间维度上,定义第一时间范围作为采样点,使用动态时间对齐聚类算法将第一组姿态信息中的动作进行聚类,从而将第一组姿态信息聚类成包括H个动作结果的所述第一组动作信息。计算H个动作结果之间的相似性,若所述第一组动作信息中有L个动作结果相似,即存在多个动作结果表征的动作是相同或相似,则保留所述L个动作结果中的其中一个动作结果,舍弃L个动作结果中的其他动作结果。
进一步地,信息分解模块220基于所述第一组身体特征信息计算所述目标对象的第一组速度信息,将所述第一组速度信息作为一个新的维度,与所述第一组动作信息重新进行聚类,得到第一组动作序列信息,即第一视频进行行为分解后的动作片段。在一些示例中,该聚类算法可以采用层次聚类算法。
在本申请实施例中,信息分解模块220可以将动物的行为分解成不同的时间尺度,即姿态层、动作层和行为层,以便于研究人员获取所需的时间尺度来对动物的行为进行量化和统计,并且信息分解模块220可以将复杂的身体特征进行时间维度,减少了数据的冗余性,提高识别性能。
信息分解模块220输出的第一组动作序列信息可以作为行为识别模块230的输入。行为识别模块230可以对所述第一组动作序列信息进行行为识别,得到第一视频中所述目标对象的行为识别结果,行为识别结果可以是由若干动作组成的具备一定生理意义的行为(例如,捕食行为、打斗行为等)。
可选的,所述行为识别模块230还用于:使用第一训练集训练待训练行为识别模型,得到行为识别模型,所述第一训练集包括第一标记的第二组动作序列信息,所述第二组动作序列信息是基于所述第二视频标记得到的;
所述行为识别模块230具体用于:将所述第一组动作序列信息输入所述行为识别模型,输出所述第一视频中所述目标对象的行为识别结果。
其中,动物的行为是由多个连续动作序列信息构成的行为,本申请实施例中的行为识别模块可以采用机器学习算法中的语义分割模型,在使用该模型之前,需要使用第一训练集对语义分割模型进行训练,第一训练集需要人工标记感兴趣的行为部分。第一训练集标记的方式为:将第二视频输入特征提取模块210,输出第二组身体特征信息,将第二组身体特征信息输入信息分解模块220,输出第二组动作序列信息。然后以分解出的第二组动作序列信息作为标记对象,对应第二视频,若第二视频中出现感兴趣的行为,则将该行为对应的动作结果全部标记为该行为。在具体的实施例中,需要半个小时以上的标记的第二组动作序列信息作为第一训练集。第一训练集产生后就可以训练语义分割模型,语义分割模型训练好后可以利用有监督的方法对第一视频进行行为识别。将第一视频通过特征提取模块210和信息分解模块220得到的第一组动作序列信息输入到训练后的语义分割模型中,输出第一视频中目标对象进行的行为。
在本申请实施例中,行为识别模块230以信息分解模块220中分解出的动作序列信息作为输入,用户只需标记自己感兴趣的行为数据作为训练集用于训练动作识别模型,从而可以利用有监督的方法对自动化的从视频中识别出动物的行为。
可选的,所述装置还包括动作识别模块240;
所述动作识别模块240,用于基于所述第一组姿态信息对所述第一视频进行动作识别,输出所述目标对象的动作识别结果。
其中,信息分解模块220输出的第一组动作序列信息可以作为动作识别模块240的输入。如图4所示,动作识别模块240可以对所述第一组动作序列信息进行动作识别,得到第一视频中所述目标对象的动作识别结果,动作识别结果可以是若干个连续姿态结果组成的运动单元(例如,行走,嗅探等)。
可选的,所述动作识别模块240还用于:使用第二训练集训练待训练动作识别模型,得到动作识别模型,所述第二训练集包括第二标记的第二组序列信息,所述第二组动作序列信息是基于第二视频得到的;
所述动作识别模块240具体用于:将所述第一组姿态信息输入所述动作识别模型,输出所述第一视频中所述目标对象的动作识别结果。
其中,上述动作识别模型可以采用机器学习算法中自然语言处理用到的Seq2Seq模型。在使用该Seq2Seq模型之前,需要使用第二训练集对Seq2Seq模型进行训练,第二训练集需要人工标记。第二训练集标记的方式为:将第二视频输入特征提取模块210,输出第二组身体特征信息,将第二组身体特征信息输入信息分解模块220,输出第二组动作序列信息,然后对分解出的第二组动作序列信息进行人工观察,鉴别出第二组动作序列信息中进行的动作并标记,以给每一类的动作赋予实际的动作含义。在具体的实施例中,需要2个小时以上的标记的第二组动作序列信息作为第二训练集。第二训练集产生后就可以训练Seq2Seq模型。Seq2Seq模型训练好后可以利用有监督的方法对第一视频进行动作识别,将第一视频通过特征提取模块210和信息分解模块220得到的第一组姿态信息输入到训练后的Seq2Seq模型中,输出第一视频中目标对象进行的动作。
在本申请实施例中,动作识别模块240可以将分解出的动作序列信息中的每一类动作进行标记注释生成第二训练集来训练动作识别网络模型,从而加快了对动物动作的标记,并且利用有监督的识别方法对目标对象的动作进行识别,提高了动作识别的准确性。
可以看出,本申请实施例中所描述的行为识别装置100,包括特征提取模块、信息分解模块和行为识别模块,所述特征提取模块用于从第一视频中提取目标对象的时间序列对应的第一组身体特征信息,所述信息分解模块用于将所述第一组身体特征信息进行姿态分解得到第一组姿态信息,将所述第一组姿态信息进行时间动态聚类得到第一组动作信息,基于所述第一组身体特征信息计算所述目标对象的第一组速度信息,将所述第一组速度信息与所述第一组动作信息进行聚类,得到第一组动作序列信息,所述行为识别模块基于所述第一组动作序列信息对所述第一视频进行行为识别,输出所述目标对象的行为识别结果。本申请中,信息分解模块可以将动物的行为分解成不同的时间尺度,即姿态层、动作层和行为层,无需人工标记,可以实现无监督的动物行为分解,并且信息分解模块可以将复杂的原始身体特征数据进行简化,把动物的动作进行分割和聚类,减少了数据的冗余性,提高计算性能;而行为识别模块对分解后的动作序列信息进行自动化识别,实现了有监督的行为识别。
请参阅图5,图5是本申请实施例提供的一种行为识别方法的流程示意图,应用于动物行为识别,如图5所示,该方法包括如下步骤:
S510、从第一视频中提取目标对象的时间序列对应的第一组身体特征信息。
S520、将所述第一组身体特征信息进行姿态分解得到第一组姿态信息,将所述第一组姿态信息进行时间动态聚类得到第一组动作信息,基于所述第一组身体特征信息计算所述目标对象的第一组速度信息,将所述第一组速度信息和所述第一组动作信息进行聚类,得到第一组动作序列信息。
S530、基于所述第一组动作序列信息对所述第一视频进行行为识别,输出所述目标对象的行为识别结果。
可选的,所述方法还包括:
基于所述第一组姿态信息对所述第一视频进行动作识别,输出所述目标对象的动作识别结果。
可选的,所述将所述第一组身体特征信息进行姿态分解得到第一组姿态信息,包括:
采用无监督聚类算法对所述第一组身体特征信息进行聚类,得到包括K个姿态结果的所述第一组姿态信息;若所述第一组姿态信息中包括属于同一类的连续相邻的M个姿态结果,则保留所述M个姿态结果中的其中一个姿态结果,所述M为大于或等于2的正整数,所述K为大于或等于M的正整数。
可选的,所述将所述第一组姿态信息进行时间动态聚类得到第一组动作信息,包括:
根据第一时间范围,将所述第一组姿态信息聚类成包括H个动作结果的所述第一组动作信息,若所述第一组动作信息中有L个动作结果相似,则保留所述L个动作结果中的其中一个动作结果,所述L为大于或等于2的正整数,所述H为大于或等于L的正整数。
可选的,所述方法还包括:使用第一训练集训练待训练行为识别模型,得到行为识别模型,所述第一训练集包括第一标记的第二组动作序列信息,所述第二组动作序列信息是基于第二视频得到的;
所述基于所述第一组动作序列信息对所述第一视频进行行为识别,输出所述目标对象的行为识别结果,包括:将所述第一组动作序列信息输入所述行为识别模型,输出所述第一视频中所述目标对象的行为识别结果。
可选的,所述方法还包括:使用第二训练集训练待训练动作识别模型,得到动作识别模型,所述第二训练集包括第二标记的第二组序列信息,所述第二组动作序列信息是基于第二视频得到的;
所述基于所述第一组姿态信息对所述第一视频进行动作识别,输出所述目标对象的动作识别结果,包括:
将所述第一组姿态信息输入所述动作识别模型,输出所述第一视频中所述目标对象的动作识别结果。
可以理解的是,本申请实施例的处理方法的具体实现方式可根据上述处理装置实施例中的具体实现,其具体实现过程可以参照上述装置实施例的相关描述,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、终端设备或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种行为识别装置,其特征在于,应用于动物行为识别,所述装置包括:特征提取模块、信息分解模块和行为识别模块,其中,
所述特征提取模块,用于从第一视频中提取目标对象的时间序列对应的第一组身体特征信息;
所述信息分解模块,用于将所述第一组身体特征信息进行姿态分解得到第一组姿态信息,将所述第一组姿态信息进行时间动态聚类得到第一组动作信息,基于所述第一组身体特征信息计算所述目标对象的第一组速度信息,将所述第一组速度信息与所述第一组动作信息进行聚类,得到第一组动作序列信息;
所述行为识别模块,用于基于所述第一组动作序列信息对所述第一视频进行行为识别,输出所述目标对象的行为识别结果。
2.根据权利要求1所述的装置,其特征在于,所述装置还包括动作识别模块;
所述动作识别模块,用于基于所述第一组姿态信息对所述第一视频进行动作识别,输出所述目标对象的动作识别结果。
3.根据权利要求1所述的装置,其特征在于,所述信息分解模块还具体用于:
采用无监督聚类算法对所述第一组身体特征信息进行聚类,得到包括K个姿态结果的所述第一组姿态信息;若所述第一组姿态信息中包括属于同一类的连续相邻的M个姿态结果,则保留所述M个姿态结果中的其中一个姿态结果,所述M为大于或等于2的正整数,所述K为大于或等于M的正整数。
4.根据权利要求3所述的装置,其特征在于,所述信息分解模块还具体用于:
根据第一时间范围,将所述第一组姿态信息聚类成包括H个动作结果的所述第一组动作信息,若所述第一组动作信息中有L个动作结果相似,则保留所述L个动作结果中的其中一个动作结果,所述L为大于或等于2的正整数,所述H为大于或等于L的正整数。
5.根据权利要求1-4任一项所述的装置,其特征在于,所述行为识别模块还用于:
使用第一训练集训练待训练行为识别模型,得到行为识别模型,所述第一训练集包括第一标记的第二组动作序列信息,所述第二组动作序列信息是基于第二视频得到的;
所述行为识别模块具体用于:
将所述第一组动作序列信息输入所述行为识别模型,输出所述第一视频中所述目标对象的行为识别结果。
6.根据权利要求2所述的装置,其特征在于,所述动作识别模块还用于:
使用第二训练集训练待训练动作识别模型,得到动作识别模型,所述第二训练集包括第二标记的第二组序列信息,所述第二组动作序列信息是基于第二视频得到的;
所述动作识别模块具体用于:
将所述第一组姿态信息输入所述动作识别模型,输出所述第一视频中所述目标对象的动作识别结果。
7.一种行为识别方法,其特征在于,应用于动物行为识别,所述方法包括:
从第一视频中提取目标对象的时间序列对应的第一组身体特征信息;
将所述第一组身体特征信息进行姿态分解得到第一组姿态信息,将所述第一组姿态信息进行时间动态聚类得到第一组动作信息,基于所述第一组身体特征信息计算所述目标对象的第一组速度信息,将所述第一组速度信息和所述第一组动作信息进行聚类,得到第一组动作序列信息;
基于所述第一组动作序列信息对所述第一视频进行行为识别,输出所述目标对象的行为识别结果。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
基于所述第一组姿态信息对所述第一视频进行动作识别,输出所述目标对象的动作识别结果。
9.一种计算机设备,其特征在于,包括处理器、存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器处理,所述程序包括用于执行权利要求7或8方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储用于数据交换的计算机程序,所述计算机程序被处理器执行时实现如权利要求7或8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010493350.1A CN111652133B (zh) | 2020-06-02 | 2020-06-02 | 行为识别装置及方法、计算机设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010493350.1A CN111652133B (zh) | 2020-06-02 | 2020-06-02 | 行为识别装置及方法、计算机设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652133A true CN111652133A (zh) | 2020-09-11 |
CN111652133B CN111652133B (zh) | 2022-07-12 |
Family
ID=72347124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010493350.1A Active CN111652133B (zh) | 2020-06-02 | 2020-06-02 | 行为识别装置及方法、计算机设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652133B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115967A (zh) * | 2022-05-13 | 2022-09-27 | 清华大学 | 模式生物的视频动作分析方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0816986A2 (en) * | 1996-07-03 | 1998-01-07 | Hitachi, Ltd. | Method, apparatus and system for recognizing motions |
CN101526996A (zh) * | 2009-02-23 | 2009-09-09 | 华旭 | 一种小鼠自发行为运动监测与体态图象识别的方法 |
CN104616316A (zh) * | 2014-05-23 | 2015-05-13 | 苏州大学 | 基于阈值矩阵和特征融合视觉单词的人物行为识别方法 |
US20160110383A1 (en) * | 2011-07-11 | 2016-04-21 | Snoutscan Llc | System and method for animal identification |
CN110472532A (zh) * | 2019-07-30 | 2019-11-19 | 中国科学院深圳先进技术研究院 | 一种视频对象行为识别方法和装置 |
-
2020
- 2020-06-02 CN CN202010493350.1A patent/CN111652133B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0816986A2 (en) * | 1996-07-03 | 1998-01-07 | Hitachi, Ltd. | Method, apparatus and system for recognizing motions |
CN101526996A (zh) * | 2009-02-23 | 2009-09-09 | 华旭 | 一种小鼠自发行为运动监测与体态图象识别的方法 |
US20160110383A1 (en) * | 2011-07-11 | 2016-04-21 | Snoutscan Llc | System and method for animal identification |
CN104616316A (zh) * | 2014-05-23 | 2015-05-13 | 苏州大学 | 基于阈值矩阵和特征融合视觉单词的人物行为识别方法 |
CN110472532A (zh) * | 2019-07-30 | 2019-11-19 | 中国科学院深圳先进技术研究院 | 一种视频对象行为识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
钱蓉,詹凯,王重龙: "《基于机器视觉技术的动物行为自动识别和分类》", 《中国家禽》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115967A (zh) * | 2022-05-13 | 2022-09-27 | 清华大学 | 模式生物的视频动作分析方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111652133B (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Facial expression analysis under partial occlusion: A survey | |
WO2021243561A1 (zh) | 行为识别装置及方法 | |
Escalera et al. | Challenges in multi-modal gesture recognition | |
US11443557B2 (en) | Monitoring and analyzing body language with machine learning, using artificial intelligence systems for improving interaction between humans, and humans and robots | |
Chen et al. | Recognizing expressions from face and body gesture by temporal normalized motion and appearance features | |
Li et al. | Data-free prior model for facial action unit recognition | |
Pei et al. | A Micro-expression Recognition Algorithm for Students in Classroom Learning Based on Convolutional Neural Network. | |
CN110705390A (zh) | 基于lstm的形体姿态识别方法、装置及存储介质 | |
Xu et al. | A hierarchical spatio-temporal model for human activity recognition | |
Tang et al. | View-independent facial action unit detection | |
Hachaj et al. | Application of assistive computer vision methods to Oyama karate techniques recognition | |
Shan et al. | Recognizing facial expressions automatically from video | |
CN111539290A (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN111652133B (zh) | 行为识别装置及方法、计算机设备和可读存储介质 | |
Pan et al. | Spatial–temporal attention network for depression recognition from facial videos | |
Chen et al. | A region group adaptive attention model for subtle expression recognition | |
Huang et al. | Identifying user-specific facial affects from spontaneous expressions with minimal annotation | |
Jiang et al. | A survey on artificial intelligence in posture recognition | |
Yang et al. | Facial expression recognition with contrastive learning and uncertainty-guided relabeling | |
Yuan et al. | A systematic survey on human behavior recognition methods | |
Zhu et al. | Multiple human identification and cosegmentation: A human-oriented CRF approach with poselets | |
Usman et al. | Skeleton-based motion prediction: A survey | |
Mohamed | A novice guide towards human motion analysis and understanding | |
Zhang et al. | Automatic construction and extraction of sports moment feature variables using artificial intelligence | |
Shahid | A survey on facial expression recognition: modality, methodologies, challenges and emerging topics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230105 Address after: Floor 17, Building 4, Weiguang Life Science Park, Zhenmei Community, Xinhu Street, Guangming District, Shenzhen, Guangdong 518106 Patentee after: Shenzhen Yiwan Life Technology Co.,Ltd. Address before: 1068 No. 518055 Guangdong city of Shenzhen province Nanshan District Shenzhen University city academy Avenue Patentee before: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY CHINESE ACADEMY OF SCIENCES |
|
TR01 | Transfer of patent right |