CN113792751A - 一种跨域行为识别方法、装置、设备及可读存储介质 - Google Patents

一种跨域行为识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113792751A
CN113792751A CN202110860109.2A CN202110860109A CN113792751A CN 113792751 A CN113792751 A CN 113792751A CN 202110860109 A CN202110860109 A CN 202110860109A CN 113792751 A CN113792751 A CN 113792751A
Authority
CN
China
Prior art keywords
fusion
domain
training
training set
behavior recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110860109.2A
Other languages
English (en)
Inventor
张兆翔
宋纯锋
吴晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110860109.2A priority Critical patent/CN113792751A/zh
Publication of CN113792751A publication Critical patent/CN113792751A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Abstract

本发明提供一种跨域行为识别方法、装置、设备及可读存储介质,涉及视觉识别技术领域,该方法包括以下步骤;将待预测数据输入至行为识别模型中,得到行为识别模型输出的视频动作识别结果;其中,行为识别模型通过对融合训练集和源域训练集训练得到,融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与源域训练集进行融合得到,目标域融合数据为根据预测结果和预测结果对应的置信度得分从目标域训练集选取得到,预测结果和置信度得分由将目标域训练集输入至预训练行为识别模型中得到,预训练行为识别模型通过对源域训练集进行训练得到,本发明能兼容域之间的差异,具有通用性并且兼顾了精确度的要求。

Description

一种跨域行为识别方法、装置、设备及可读存储介质
技术领域
本发明涉及视觉识别技术领域,尤其涉及一种跨域行为识别方法、装置、设备及可读存储介质。
背景技术
深度学习方法在行为识别领域取得了很好的结果,但这种结果建立在以下两个前提的基础之上:首先,模型在进行训练时要有足够的训练集;另外,测试集与训练集应遵循相同的分布。但是在实际应用中这两个条件往往难以满足:首先,数据的采集、标注会耗费大量的人力、物力成本;其次,在实际应用中,不同的场景采集到的数据不尽相同,诸如光照、视角、视野等差距较大,这就导致训练集与测试集本存在较大的分布差异。
事实上,当某一表现良好的动作识别模型应用于不同分布的数据集时,由于域偏移,模型的性能会显著下降,这极大地限制了当前动作识别模型的应用。因此,能够让动作识别模型在新的场景下仍然具有较好的表现,即跨域行为识别成为一个目前业界亟待解决的问题。
发明内容
本发明提供一种跨域行为识别方法、装置、设备及可读存储介质,用以解决现有技术中解决跨域行为识别时,由于源域与目标域数据分布不同而引起的跨域识别性能降低的缺陷,实现兼容域之间的差异,具有通用性并且兼顾了精确度的要求。
本发明提供一种跨域行为识别方法,包括以下步骤:
将待预测数据输入至行为识别模型中,得到所述行为识别模型输出的视频动作识别结果;
其中,所述行为识别模型通过对融合训练集和源域训练集训练得到,所述融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与所述源域训练集进行融合得到,所述目标域融合数据为根据预测结果和所述预测结果对应的置信度得分从目标域训练集选取得到,所述预测结果和所述置信度得分由将所述目标域训练集输入至预训练行为识别模型中得到,所述预训练行为识别模型通过对所述源域训练集进行训练得到。
根据本发明提供的跨域行为识别方法,所述将待预测数据输入至行为识别模型中,得到所述行为识别模型输出的视频动作识别结果之前,该方法还包括以下步骤:
将目标域训练集输入至预训练行为识别模型中,得到所述预训练行为识别模型输出的预测结果和所述预测结果对应的置信度得分;其中,所述预训练行为识别模型通过对源域训练集进行训练得到;
根据所述预测结果和所述置信度得分,从所述目标域训练集中选取目标域融合数据;
根据同类预测结果融合和比例渐进融合原则,将所述目标域融合数据与所述源域训练集进行融合,得到融合训练集;其中,所述比例渐进融合原则中每种同类所述预测结果均具有多个融合比例,所述融合比例为所述源域训练集在所述融合训练集中的占比,不同所述融合比例中所述源域训练集的占比不同,且,每种同类所述预测结果中所有的所述融合比例中所述源域训练集的占比逐渐提高。
根据本发明提供的跨域行为识别方法,所述预训练行为识别模型通过以下步骤得到:
从所述源域训练集得到源域帧序列,对所述源域帧序列进行采样,得到源域采样帧序列;
根据所述源域采样帧序列得到对应的源域识别结果;
将所述源域采样帧序列作为训练用的输入数据,将所述源域采样帧序列对应的所述源域识别结果作为标签,采用深度学习方式进行训练,得到用于生成所述目标域训练集的所述预测结果的所述预训练行为识别模型。
根据本发明提供的跨域行为识别方法,所述将目标域训练集输入至预训练行为识别模型中,得到所述预训练行为识别模型输出的预测结果和所述预测结果对应的置信度得分,具体包括以下步骤:
从所述目标域训练集得到目标域帧序列,对所述目标域帧序列进行采样,得到目标域采样帧序列;
调整所述目标域采样帧序列至预设输入要求;
根据调整后的所述目标域采样帧序列输入至所述预训练行为识别模型中,得到所述预训练行为识别模型输出的预测结果和所述预测结果对应的置信度得分。
根据本发明提供的跨域行为识别方法,所述根据所述预测结果和所述置信度得分,从所述目标域训练集中选取目标域融合数据,具体包括以下步骤:
从每类所述预测结果对应的所述目标域训练集中选取对应的置信度得分最高的第一数量的数据作为该类预测结果的待融合数据;
获取所有所述预测结果对应的所述待融合数据,得到所述目标域融合数据。
根据本发明提供的跨域行为识别方法,所述根据同类所述预测结果融合和比例渐进融合原则,将所述目标域融合数据与所述源域训练集进行融合,得到融合训练集,具体包括以下步骤:
对同类所述预测结果下的所述目标域融合数据与所述源域训练集进行预处理,分别得到目标域待融合帧序列和源域待融合帧序列;
将所述目标域待融合帧序列依次与同类所述预测结果下的所述源域待融合帧序列按照该类预测结果其中一种所述融合比例进行融合,得到该类预测结果下的该融合比例的融合数据;
获取所有所述预测结果下的所有所述融合比例的所述融合数据,得到所述融合训练集。
根据本发明提供的跨域行为识别方法,所述行为识别模型的训练过程基于动态渐进采样。
本发明还提供一种跨域行为识别装置,包括:
跨域识别模块,用于将待预测数据输入至行为识别模型中,得到所述行为识别模型输出的视频动作识别结果;
其中,所述行为识别模型通过对融合训练集和源域训练集训练得到,所述融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与所述源域训练集进行融合得到,所述目标域融合数据为根据预测结果和所述预测结果对应的置信度得分从目标域训练集选取得到,所述预测结果和所述置信度得分由将所述目标域训练集输入至预训练行为识别模型中得到,所述预训练行为识别模型通过对所述源域训练集进行训练得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述跨域行为识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述跨域行为识别方法的步骤。
本发明提供的跨域行为识别方法、装置、设备及可读存储介质,通过对目标域训练集进行处理,利用经过对源域训练集预训练得到的预训练行为识别模型对未标记的目标域训练集进行视频分类,得到其预测结果即伪标签,以及伪标签对应的置信度得分;然后,根据同类预测结果融合和比例渐进融合原则来融合源域训练集和目标域训练集合,提供了一种视频数据融合机制,该机制操作简单,可用于任意两个视频数据的融合,在计算机视觉领域,可通过该机制得到的融合数据扩充训练数据,降低数据采集的成本;将融合得到的融合数据集与源域训练集一起作为行为识别模型的训练数据,最后,将算法封装,用以实际测试,还提供了一种动态渐进训练策略,使行为识别模型能够更好地学习输入数据的分布规律,该策略在现有数据集上已被证实可提升模型预测精度,以此来进行跨域识别。本发明的跨域行为识别方法能兼容域之间的差异,具有通用性并且兼顾了精确度的要求,得到的行为识别模型可应用到任意的跨域行为识别任务中。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的跨域行为识别方法的流程示意图一;
图2是本发明提供的跨域行为识别方法的流程示意图二;
图3是本发明提供的跨域行为识别方法的逻辑示意图;
图4是本发明提供的跨域行为识别方法中预训练行为识别模型训练过程的流程示意图;
图5是本发明提供的跨域行为识别方法中步骤S100具体的流程示意图;
图6是本发明提供的跨域行为识别方法中步骤S200具体的流程示意图;
图7是本发明提供的跨域行为识别方法中步骤S300具体的流程示意图;
图8是本发明提供的跨域行为识别方法中进行数据融合时的示意图;
图9是本发明提供的跨域行为识别装置的结构示意图一;
图10是本发明提供的跨域行为识别装置的结构示意图二;
图11是本发明提供的跨域行为识别装置中预训练行为识别模型训练过程的结构示意图;
图12是本发明提供的跨域行为识别装置中预训练模块具体的结构示意图;
图13是本发明提供的跨域行为识别装置中选取模块具体的结构示意图;
图14是本发明提供的跨域行为识别装置中融合数据生成模块具体的结构示意图;
图15是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的跨域行为识别方法,该方法包括以下步骤:
S400、将待预测数据输入至行为识别模型中,得到行为识别模型输出的视频动作识别结果。
其中,行为识别模型通过对融合训练集和源域训练集训练得到,融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与源域训练集进行融合得到,目标域融合数据为根据预测结果和预测结果对应的置信度得分从目标域训练集选取得到,预测结果和置信度得分由将目标域训练集输入至预训练行为识别模型中得到,预训练行为识别模型通过对源域训练集进行训练得到。
本发明的跨域行为识别方法,通过对目标域训练集进行处理,利用经过对源域训练集预训练得到的预训练行为识别模型对未标记的目标域训练集进行视频分类,得到其预测结果即伪标签,以及伪标签对应的置信度得分;然后,根据同类预测结果融合和比例渐进融合原则来融合源域训练集和目标域训练集合,提供了一种视频数据融合机制,该机制操作简单,可用于任意两个视频数据的融合,在计算机视觉领域,可通过该机制得到的融合数据扩充训练数据,降低数据采集的成本;将融合得到的融合数据集与源域训练集一起作为步骤S400中行为识别模型的训练数据,最后,将算法封装,用以实际测试,在步骤S400中还提供了一种动态渐进训练策略,使行为识别模型能够更好地学习输入数据的分布规律,该策略在现有数据集上已被证实可提升模型预测精度,以此来进行跨域识别。本发明的跨域行为识别方法能兼容域之间的差异,具有通用性并且兼顾了精确度的要求,得到的行为识别模型可应用到任意的跨域行为识别任务中。
下面结合图2和图3描述本发明的跨域行为识别方法,该方法还包括以下步骤:
S100、将目标域训练集输入至预训练行为识别模型中,得到预训练行为识别模型输出的预测结果(即伪标签,记为
Figure BDA0003185512460000071
)和预测结果对应的置信度得分;其中,预训练行为识别模型通过对源域训练集进行训练得到。
假定源域训练集为
Figure BDA0003185512460000072
yi∈{0,1,2,……,11},源域训练集为数据集A共包含Ns个视频,目标域训练集为
Figure BDA0003185512460000073
目标域训练集为数据集B共Nt个视频,数据集A和B共包含个12类动作,具体的,数据集A共840个训练视频,因此源域训练集为
Figure BDA0003185512460000081
数据集B共1438个训练视频,因此目标域训练集为
Figure BDA0003185512460000082
S200、根据预测结果和置信度得分,从目标域训练集中选取目标域融合数据。
经过步骤S100的处理后,目标域训练集即为
Figure BDA0003185512460000083
S300、根据同类预测结果融合和比例渐进融合原则,将目标域融合数据与源域训练集进行融合,得到融合训练集;其中,比例渐进融合原则中每种同类预测结果均具有多个融合比例,融合比例即为源域训练集在融合训练集中的占比,不同融合比例中源域训练集的占比不同,且,每种同类预测结果中所有的融合比例中源域训练集的占比逐渐提高,对应的目标域融合数据的占比逐渐降低。
S400、将待预测数据输入至行为识别模型中,得到行为识别模型输出的视频动作识别结果,步骤S400中会将步骤S300中的融合训练集和源域训练集共同作为行为识别模型的训练数据,对行为识别模型进行训练。
由于在步骤S300中会遵循同类预测结果融合和比例渐进融合原则,在本实施例中,步骤S400中采用动态渐进采样(Dynamic Sampling Progressive,DSP)训练策略,且按照的是融合比例由大到小,将对应的融合训练集输入至行为识别模型进行动态的训练。
可以理解的是,在得到行为预测模型后,可以通过对目标域测试集进行跨域预测,具体的预测步骤同步骤S100,得到目标域测试集对应的预测结果,根据目标域测试集对应的预测结果,以此来验证该行为预测模型的跨域预测精度。
下面结合图4描述本发明的跨域行为识别方法,预训练行为识别模型通过以下步骤得到:
A110、对源域数据集
Figure BDA0003185512460000091
进行预处理,从源域训练集得到源域帧序列,对源域帧序列进行采样,得到源域采样帧序列。以训练时间转移模块(Temporal ShiftModule,TSM)模型为例,TSM模型利用稀疏时间采样策略对输入的帧序列(源域帧序列)进行采样,对于TSM模型而言,采样帧序列作为其输入,softmax函数作为最后的预测分类(视频分类)输出。
A120、根据源域采样帧序列得到对应的源域识别结果。
A130、将源域采样帧序列作为训练用的输入数据,将源域采样帧序列对应的源域识别结果作为标签,采用深度学习方式进行训练,得到用于生成目标域训练集的预测结果的预训练行为识别模型。
在预训练行为识别模型的训练过程中,以训练TSM模型为例,会优化TSM模型的交叉熵损失函数,具体的,请参阅公式(1),公式(1)为:
Figure BDA0003185512460000092
其中,Lsoftmax表示误差,y表示当前源域采样帧序列对应的标签,Zi表示TSM模型提取到的属于第i类的特征值,C表示总共的分类个数,通过交叉熵损失函数可以测量真实分类结果与预测分类结果之间的误差大小,然后基于该误差对TSM模型的权值进行优化和修正,在本实施例中,还会采用反向传播算法和随机梯度下降法来减小误差LSoftmax以训练TSM模型,经过多次迭代训练得到模型TSMs
下面结合图5和图8描述本发明的跨域行为识别方法,步骤S100具体包括以下步骤:
S110、从目标域训练集得到目标域帧序列,对目标域帧序列进行采样,得到目标域采样帧序列,步骤S110同步骤A110,在此不做过多阐述。
S120、调整目标域采样帧序列至预设输入要求。优选的,预设输入要求为帧大小224*224,更具体的,可以先将目标域采样帧序列调整至帧大小为256*256,再对初步调整后的帧序列进行中心裁剪,最终得到帧大小为224*224的帧序列,再输入至步骤A130得到的模型TSMs中。
S130、根据调整后的目标域采样帧序列输入至预训练行为识别模型中,得到预训练行为识别模型输出的预测结果和预测结果对应的置信度得分。至此,目标域训练数据集为
Figure BDA0003185512460000101
Figure BDA0003185512460000102
下面结合图6和图8描述本发明的跨域行为识别方法,步骤S200具体包括以下步骤:
S210、从每类预测结果(伪标签)对应的目标域训练集中选取对应的置信度得分最高的第一数量的数据作为该类预测结果的待融合数据。在本实施例中,优选的,第一数量为10个,以预测结果(伪标签)为l为例,记为
Figure BDA0003185512460000103
N表示预测结果(伪标签)为l的目标域训练数据为N个。例如,依据步骤S100得到的置信度得分,在每类预测结果(伪标签)下选取得分最高的10个数据作为目标域的待融合数据,以预测结果(伪标签)为0为例,记为
Figure BDA0003185512460000104
S220、获取所有预测结果(伪标签)对应的待融合数据,得到目标域融合数据。
下面结合图7和图8描述本发明的跨域行为识别方法,步骤S300具体包括以下步骤:
S310、对同类预测结果(伪标签)下的目标域融合数据与源域训练集进行预处理,分别得到目标域待融合帧序列和源域待融合帧序列。
在步骤S310中,会选取源域训练集在各类标签下的全部训练数据作为源域训练集的待融合数据,以标签l为为例,记为
Figure BDA0003185512460000105
其中Nl表示标签为l的源域训练数据为Nl个,之后会将
Figure BDA0003185512460000111
Figure BDA0003185512460000112
进行预处理,分别得到目标域待融合帧序列和源域待融合帧序列,以预测结果(伪标签)为l为例,目标域待融合帧序列记为
Figure BDA0003185512460000113
源域待融合帧序列记为
Figure BDA0003185512460000114
例如,以预测结果(伪标签)为0为例,预测结果(伪标签)为0的源域训练数据共70个,记为
Figure BDA0003185512460000115
预处理后的目标域待融合帧序列为
Figure BDA0003185512460000116
源域待融合帧序列为
Figure BDA0003185512460000117
S320、将目标域待融合帧序列依次与同类预测结果(伪标签)下的源域待融合帧序列按照该类预测结果其中一种融合比例进行融合,得到该类预测结果下的该融合比例的融合数据。
以融合预测结果(伪标签)为l的数据为例,将源域待融合帧序列依次与不同融合比例的目标域待融合帧序列按照以下公式(2)进行融合,公式(2)为:
Figure BDA0003185512460000118
其中,
Figure BDA0003185512460000119
λ表示融合比例,即源域训练集在融合训练集中的占比,融合后的数据该融合比例λ的融合数据记为
Figure BDA00031855124600001110
S330、获取所有预测结果(伪标签)下的所有融合比例的融合数据,得到融合训练集。
在本实施例中,可以选取0至1之间的任意不同数作为公式(2)中的融合比例,进而得到比例渐进的融合数据,例如依次选取0.1、0.5、0.9作为融合比例系数,可得到源域训练数据占比递增、目标域训练数据占比递减的融合数据,分别记为mix0.1、mix0.5、mix0.9,上述的mix0.1、mix0.5、mix0.9相结合即为融合训练集。
在本实施例中,采用DSP训练策略,共训练模型200个epoch,即0-50epoch模型训练数据为源域训练数据
Figure BDA0003185512460000121
50-100epoch训练数据加入融合数据mix0.9,100-150epoch训练数据加入融合数据mix0.5,150-200epoch训练数据加入融合数据mix0.1,即按照融合比例由大到小,将融合数据依次输入到行为识别模型中进行训练,训练细节同步骤S100。
在采用目标域测试集进行跨域预测后,跨域预测精度为98.6%,同时经过论证该行为识别模型在数据集UCF101-HMDB51full上跨域预测精度达到最高。
下面对本发明提供的跨域行为识别装置进行描述,下文描述的跨域行为识别装置与上文描述的跨域行为识别方法可相互对应参照。
下面结合图9描述本发明的跨域行为识别装置,该装置包括:
跨域识别模块400,用于将待预测数据输入至行为识别模型中,得到行为识别模型输出的视频动作识别结果。
其中,行为识别模型通过对融合训练集和源域训练集训练得到,融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与源域训练集进行融合得到,目标域融合数据为根据预测结果和预测结果对应的置信度得分从目标域训练集选取得到,预测结果和置信度得分由将目标域训练集输入至预训练行为识别模型中得到,预训练行为识别模型通过对源域训练集进行训练得到。
本发明的跨域行为识别装置,通过对目标域训练集进行处理,利用经过对源域训练集预训练得到的预训练行为识别模型对未标记的目标域训练集进行视频分类,得到其预测结果即伪标签,以及伪标签对应的置信度得分;然后,根据同类预测结果融合和比例渐进融合原则来融合源域训练集和目标域训练集合,提供了一种视频数据融合机制,该机制操作简单,可用于任意两个视频数据的融合,在计算机视觉领域,可通过该机制得到的融合数据扩充训练数据,降低数据采集的成本;将融合得到的融合数据集与源域训练集一起作为跨域识别模块400中行为识别模型的训练数据,最后,将算法封装,用以实际测试,在跨域识别模块400中还提供了一种动态渐进训练策略,使行为识别模型能够更好地学习输入数据的分布规律,该策略在现有数据集上已被证实可提升模型预测精度,以此来进行跨域识别。本发明的跨域行为识别装置能兼容域之间的差异,具有通用性并且兼顾了精确度的要求,得到的行为识别模型可应用到任意的跨域行为识别任务中。
下面结合图10描述本发明的跨域行为识别装置,该装置还包括:
预训练模块100,用于将目标域训练集输入至预训练行为识别模型中,得到预训练行为识别模型输出的预测结果(即伪标签,记为
Figure BDA0003185512460000131
)和预测结果对应的置信度得分;其中,预训练行为识别模型通过对源域训练集进行训练得到。
假定源域训练集为
Figure BDA0003185512460000132
yi∈{0,1,2,......,11},源域训练集为数据集A共包含Ns个视频,目标域训练集为
Figure BDA0003185512460000133
目标域训练集为数据集B共Nt个视频,数据集A和B共包含个12类动作,具体的,数据集A共840个训练视频,因此源域训练集为
Figure BDA0003185512460000134
数据集B共1438个训练视频,因此目标域训练集为
Figure BDA0003185512460000135
选取模块200,用于根据预测结果和置信度得分,从目标域训练集中选取目标域融合数据。
经过预训练模块100的处理后,目标域训练集即为
Figure BDA0003185512460000136
融合数据生成模块300,用于根据同类预测结果融合和比例渐进融合原则,将目标域融合数据与源域训练集进行融合,得到融合训练集;其中,比例渐进融合原则中每种同类预测结果均具有多个融合比例,融合比例即为源域训练集在融合训练集中的占比,不同融合比例中源域训练集的占比不同,且,每种同类预测结果中所有的融合比例中源域训练集的占比逐渐提高,对应的目标域融合数据的占比逐渐降低。
跨域识别模块400,用于将待预测数据输入至行为识别模型中,得到行为识别模型输出的视频动作识别结果,跨域识别模块400中会将融合数据生成模块300中的融合训练集和源域训练集共同作为行为识别模型的训练数据,对行为识别模型进行训练。
由于在融合数据生成模块300中会遵循同类预测结果融合和比例渐进融合原则,在本实施例中,跨域识别模块400中采用DSP训练策略,且按照的是融合比例由大到小,将对应的融合训练集输入至行为识别模型进行动态的训练。
可以理解的是,在得到行为预测模型后,可以通过对目标域测试集进行跨域预测,具体的预测方式同预训练模块100,得到目标域测试集对应的预测结果,根据目标域测试集对应的预测结果,以此来验证该行为预测模型的跨域预测精度。
下面结合图11描述本发明的跨域行为识别装置,预训练行为识别模型通过以下模块得到:
第一获取单元510,用于对源域数据集
Figure BDA0003185512460000141
进行预处理,从源域训练集得到源域帧序列,对源域帧序列进行采样,得到源域采样帧序列。以训练TSM模型为例,TSM模型利用稀疏时间采样策略对输入的帧序列(源域帧序列)进行采样,对于TSM模型而言,采样帧序列作为其输入,softmax函数作为最后的预测分类(视频分类)输出。
第二获取单元520,用于根据源域采样帧序列得到对应的源域识别结果。
预训练单元530,用于将源域采样帧序列作为训练用的输入数据,将源域采样帧序列对应的源域识别结果作为标签,采用深度学习方式进行训练,得到用于生成目标域训练集的预测结果的预训练行为识别模型。
在预训练行为识别模型的训练过程中,以训练TSM模型为例,会优化TSM模型的交叉熵损失函数。
下面结合图12描述本发明的跨域行为识别装置,预训练模块100具体包括以下:
第三获取单元110,用于从目标域训练集得到目标域帧序列,对目标域帧序列进行采样,得到目标域采样帧序列,第三获取单元110同第二获取单元510,在此不做过多阐述。
调整单元120,用于调整目标域采样帧序列至预设输入要求。优选的,预设输入要求为帧大小224*224,更具体的,可以先将目标域采样帧序列调整至帧大小为256*256,再对初步调整后的帧序列进行中心裁剪,最终得到帧大小为224*224的帧序列。
数据准备单元130,用于根据调整后的目标域采样帧序列输入至预训练行为识别模型中,得到预训练行为识别模型输出的预测结果和预测结果对应的置信度得分。至此,目标域训练数据集为
Figure BDA0003185512460000151
Figure BDA0003185512460000152
下面结合图13描述本发明的跨域行为识别装置,选取模块200具体包括以下:
第一选取单元210,用于从每类预测结果(伪标签)对应的目标域训练集中选取对应的置信度得分最高的第一数量的数据作为该类预测结果的待融合数据。在本实施例中,优选的,第一数量为10个,以预测结果(伪标签)为l为例,记为
Figure BDA0003185512460000153
N表示预测结果(伪标签)为l的目标域训练数据为N个。例如,依据步骤S100得到的置信度得分,在每类预测结果(伪标签)下选取得分最高的10个数据作为目标域的待融合数据,以预测结果(伪标签)为0为例,记为
Figure BDA0003185512460000154
第二选取单元220,用于获取所有预测结果(伪标签)对应的待融合数据,得到目标域融合数据。
下面结合图14描述本发明的跨域行为识别装置,融合数据生成模块300具体包括:
数据处理单元310,用于对同类预测结果(伪标签)下的目标域融合数据与源域训练集进行预处理,分别得到目标域待融合帧序列和源域待融合帧序列。
在数据处理单元310中,会选取源域训练集在各类标签下的全部训练数据作为源域训练集的待融合数据,以标签l为为例,记为
Figure BDA0003185512460000161
其中Nl表示标签为l的源域训练数据为Nl个,之后会将
Figure BDA0003185512460000162
Figure BDA0003185512460000163
进行预处理,分别得到目标域待融合帧序列和源域待融合帧序列,以预测结果(伪标签)为l为例,目标域待融合帧序列记为
Figure BDA0003185512460000164
源域待融合帧序列记为
Figure BDA0003185512460000165
例如,以预测结果(伪标签)为0为例,预测结果(伪标签)为0的源域训练数据共70个,记为
Figure BDA0003185512460000166
预处理后的目标域待融合帧序列为
Figure BDA0003185512460000167
源域待融合帧序列为
Figure BDA0003185512460000168
融合单元320,用于将目标域待融合帧序列依次与同类预测结果(伪标签)下的源域待融合帧序列按照该类预测结果其中一种融合比例进行融合,得到该类预测结果下的该融合比例的融合数据。
汇集单元330,用于获取所有预测结果(伪标签)下的所有融合比例的融合数据,得到融合训练集。
在本实施例中,可以选取0至1之间的任意不同数融合比例,进而得到比例渐进的融合数据,例如依次选取0.1、0.5、0.9作为融合比例系数,可得到源域训练数据占比递增、目标域训练数据占比递减的融合数据,分别记为mix0.1、mix0.5、mix0.9,上述的mix0.1、mix0.5、mix0.9相结合即为融合训练集。
在本实施例中,采用DSP训练策略,共训练模型200个epoch,即0-50epoch模型训练数据为源域训练数据
Figure BDA0003185512460000171
50-100epoch训练数据加入融合数据mix0.9,100-150epoch训练数据加入融合数据mix0.5,150-200epoch训练数据加入融合数据mix0.1,即按照融合比例由大到小,将融合数据依次输入到行为识别模型中进行训练,训练细节同步骤S100。
在采用目标域测试集进行跨域预测后,跨域预测精度为98.6%,同时经过论证该行为识别模型在数据集UCF101-HMDB51full上跨域预测精度达到最高。
图15示例了一种电子设备的实体结构示意图,如图15所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行跨域行为识别方法,该方法包括以下步骤:
S400、将待预测数据输入至行为识别模型中,得到所述行为识别模型输出的视频动作识别结果;
其中,所述行为识别模型通过对融合训练集和源域训练集训练得到,所述融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与所述源域训练集进行融合得到,所述目标域融合数据为根据预测结果和所述预测结果对应的置信度得分从目标域训练集选取得到,所述预测结果和所述置信度得分由将所述目标域训练集输入至预训练行为识别模型中得到,所述预训练行为识别模型通过对所述源域训练集进行训练得到。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的跨域行为识别方法,该方法包括以下步骤:
S400、将待预测数据输入至行为识别模型中,得到所述行为识别模型输出的视频动作识别结果;
其中,所述行为识别模型通过对融合训练集和源域训练集训练得到,所述融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与所述源域训练集进行融合得到,所述目标域融合数据为根据预测结果和所述预测结果对应的置信度得分从目标域训练集选取得到,所述预测结果和所述置信度得分由将所述目标域训练集输入至预训练行为识别模型中得到,所述预训练行为识别模型通过对所述源域训练集进行训练得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的跨域行为识别方法,该方法包括以下步骤:
S400、将待预测数据输入至行为识别模型中,得到所述行为识别模型输出的视频动作识别结果;
其中,所述行为识别模型通过对融合训练集和源域训练集训练得到,所述融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与所述源域训练集进行融合得到,所述目标域融合数据为根据预测结果和所述预测结果对应的置信度得分从目标域训练集选取得到,所述预测结果和所述置信度得分由将所述目标域训练集输入至预训练行为识别模型中得到,所述预训练行为识别模型通过对所述源域训练集进行训练得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种跨域行为识别方法,其特征在于,包括以下步骤:
将待预测数据输入至行为识别模型中,得到所述行为识别模型输出的视频动作识别结果;
其中,所述行为识别模型通过对融合训练集和源域训练集训练得到,所述融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与所述源域训练集进行融合得到,所述目标域融合数据为根据预测结果和所述预测结果对应的置信度得分从目标域训练集选取得到,所述预测结果和所述置信度得分由将所述目标域训练集输入至预训练行为识别模型中得到,所述预训练行为识别模型通过对所述源域训练集进行训练得到。
2.根据权利要求1所述的跨域行为识别方法,其特征在于,所述将待预测数据输入至行为识别模型中,得到所述行为识别模型输出的视频动作识别结果之前,该方法还包括以下步骤:
将目标域训练集输入至预训练行为识别模型中,得到所述预训练行为识别模型输出的预测结果和所述预测结果对应的置信度得分;其中,所述预训练行为识别模型通过对源域训练集进行训练得到;
根据所述预测结果和所述置信度得分,从所述目标域训练集中选取目标域融合数据;
根据同类预测结果融合和比例渐进融合原则,将所述目标域融合数据与所述源域训练集进行融合,得到融合训练集;其中,所述比例渐进融合原则中每种同类所述预测结果均具有多个融合比例,所述融合比例为所述源域训练集在所述融合训练集中的占比,不同所述融合比例中所述源域训练集的占比不同,且,每种同类所述预测结果中所有的所述融合比例中所述源域训练集的占比逐渐提高。
3.根据权利要求2所述的跨域行为识别方法,其特征在于,所述预训练行为识别模型通过以下步骤得到:
从所述源域训练集得到源域帧序列,对所述源域帧序列进行采样,得到源域采样帧序列;
根据所述源域采样帧序列得到对应的源域识别结果;
将所述源域采样帧序列作为训练用的输入数据,将所述源域采样帧序列对应的所述源域识别结果作为标签,采用深度学习方式进行训练,得到用于生成所述目标域训练集的所述预测结果的所述预训练行为识别模型。
4.根据权利要求2所述的跨域行为识别方法,其特征在于,所述将目标域训练集输入至预训练行为识别模型中,得到所述预训练行为识别模型输出的预测结果和所述预测结果对应的置信度得分,具体包括以下步骤:
从所述目标域训练集得到目标域帧序列,对所述目标域帧序列进行采样,得到目标域采样帧序列;
调整所述目标域采样帧序列至预设输入要求;
根据调整后的所述目标域采样帧序列输入至所述预训练行为识别模型中,得到所述预训练行为识别模型输出的预测结果和所述预测结果对应的置信度得分。
5.根据权利要求2所述的跨域行为识别方法,其特征在于,所述根据所述预测结果和所述置信度得分,从所述目标域训练集中选取目标域融合数据,具体包括以下步骤:
从每类所述预测结果对应的所述目标域训练集中选取对应的置信度得分最高的第一数量的数据作为该类预测结果的待融合数据;
获取所有所述预测结果对应的所述待融合数据,得到所述目标域融合数据。
6.根据权利要求2所述的跨域行为识别方法,其特征在于,所述根据同类所述预测结果融合和比例渐进融合原则,将所述目标域融合数据与所述源域训练集进行融合,得到融合训练集,具体包括以下步骤:
对同类所述预测结果下的所述目标域融合数据与所述源域训练集进行预处理,分别得到目标域待融合帧序列和源域待融合帧序列;
将所述目标域待融合帧序列依次与同类所述预测结果下的所述源域待融合帧序列按照该类预测结果其中一种所述融合比例进行融合,得到该类预测结果下的该融合比例的融合数据;
获取所有所述预测结果下的所有所述融合比例的所述融合数据,得到所述融合训练集。
7.根据权利要求1所述的跨域行为识别方法,其特征在于,所述行为识别模型的训练过程基于动态渐进采样。
8.一种跨域行为识别装置,其特征在于,包括:
跨域识别模块(400),用于将待预测数据输入至行为识别模型中,得到所述行为识别模型输出的视频动作识别结果;
其中,所述行为识别模型通过对融合训练集和源域训练集训练得到,所述融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与所述源域训练集进行融合得到,所述目标域融合数据为根据预测结果和所述预测结果对应的置信度得分从目标域训练集选取得到,所述预测结果和所述置信度得分由将所述目标域训练集输入至预训练行为识别模型中得到,所述预训练行为识别模型通过对所述源域训练集进行训练得到。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述跨域行为识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述跨域行为识别方法的步骤。
CN202110860109.2A 2021-07-28 2021-07-28 一种跨域行为识别方法、装置、设备及可读存储介质 Pending CN113792751A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110860109.2A CN113792751A (zh) 2021-07-28 2021-07-28 一种跨域行为识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110860109.2A CN113792751A (zh) 2021-07-28 2021-07-28 一种跨域行为识别方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113792751A true CN113792751A (zh) 2021-12-14

Family

ID=78877045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110860109.2A Pending CN113792751A (zh) 2021-07-28 2021-07-28 一种跨域行为识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113792751A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283307A (zh) * 2021-12-24 2022-04-05 中国科学技术大学 一种基于重采样策略的网络训练方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
CN109858505A (zh) * 2017-11-30 2019-06-07 厦门大学 分类识别方法、装置及设备
US20200025877A1 (en) * 2018-07-18 2020-01-23 Qualcomm Incorporated Object verification using radar images
CN111199550A (zh) * 2020-04-09 2020-05-26 腾讯科技(深圳)有限公司 图像分割网络的训练方法、分割方法、装置和存储介质
CN111797814A (zh) * 2020-07-21 2020-10-20 天津理工大学 基于通道融合和分类器对抗的无监督跨域动作识别方法
CN112001274A (zh) * 2020-08-06 2020-11-27 腾讯科技(深圳)有限公司 人群密度确定方法、装置、存储介质和处理器
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
CN109858505A (zh) * 2017-11-30 2019-06-07 厦门大学 分类识别方法、装置及设备
US20200025877A1 (en) * 2018-07-18 2020-01-23 Qualcomm Incorporated Object verification using radar images
CN111199550A (zh) * 2020-04-09 2020-05-26 腾讯科技(深圳)有限公司 图像分割网络的训练方法、分割方法、装置和存储介质
CN111797814A (zh) * 2020-07-21 2020-10-20 天津理工大学 基于通道融合和分类器对抗的无监督跨域动作识别方法
CN112001274A (zh) * 2020-08-06 2020-11-27 腾讯科技(深圳)有限公司 人群密度确定方法、装置、存储介质和处理器
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩晗;徐智;: "基于域自适应与多子空间的人脸识别研究", 桂林电子科技大学学报, no. 03 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283307A (zh) * 2021-12-24 2022-04-05 中国科学技术大学 一种基于重采样策略的网络训练方法
CN114283307B (zh) * 2021-12-24 2023-10-27 中国科学技术大学 一种基于重采样策略的网络训练方法

Similar Documents

Publication Publication Date Title
CN108229336B (zh) 视频识别及训练方法和装置、电子设备、程序和介质
CN108229478B (zh) 图像语义分割及训练方法和装置、电子设备、存储介质和程序
CN107861938B (zh) 一种poi文案生成方法及装置,电子设备
CN108235116B (zh) 特征传播方法和装置、电子设备和介质
CN111476871B (zh) 用于生成视频的方法和装置
CN109740018B (zh) 用于生成视频标签模型的方法和装置
CN110853035B (zh) 工业视觉检测中基于深度学习的样本生成方法
CN113033537A (zh) 用于训练模型的方法、装置、设备、介质和程序产品
CN109919209A (zh) 一种领域自适应深度学习方法及可读存储介质
CN114511041B (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN111414842B (zh) 一种视频对比方法、装置、计算机设备和存储介质
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
Jia et al. Effective meta-attention dehazing networks for vision-based outdoor industrial systems
CN112669215A (zh) 一种训练文本图像生成模型、文本图像生成的方法和装置
CN113792751A (zh) 一种跨域行为识别方法、装置、设备及可读存储介质
CN113034393A (zh) 照片修复方法、装置、设备以及存储介质
CN112348809A (zh) 基于多任务深度学习的无参考屏幕内容图像质量评价方法
CN115578614B (zh) 图像处理模型的训练方法、图像处理方法和装置
CN111275123A (zh) 一种大批量对抗样本生成方法及系统
CN111126493A (zh) 深度学习模型的训练方法、装置、电子设备及存储介质
CN113312445B (zh) 数据处理方法、模型构建方法、分类方法及计算设备
CN115272819A (zh) 一种基于改进Faster-RCNN的小目标检测方法
JP7024687B2 (ja) データ分析システム、学習装置、方法、及びプログラム
CN113139463A (zh) 用于训练模型的方法、装置、设备、介质和程序产品
CN113537398A (zh) 颜值评估模型训练方法及组件,颜值评估方法及组件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination