CN108229285B

CN108229285B - 物体分类方法、物体分类器的训练方法、装置和电子设备

Info

Publication number: CN108229285B
Application number: CN201710393229.XA
Authority: CN
Inventors: 汤晓鸥; 陈恺; 宋航; 吕健勤; 林达华
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2021-04-23
Anticipated expiration: 2037-05-27
Also published as: CN108229285A

Abstract

本发明实施例提供一种物体分类方法、物体分类器的训练方法、装置和电子设备。一种物体分类器的训练方法，包括：从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列；从样本视频帧序列对应的字幕文本中获取关键词信息；使用所述第一物体框序列以及所述关键词信息训练用于识别物体对象的物体分类器。在物体分类器的训练中，无需特别对大量的训练样本进行标注，由此提供了一种弱监督的机器学习方法来训练物体分类器，并且获得具有预测准确性的物体分类器。

Description

物体分类方法、物体分类器的训练方法、装置和电子设备

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种物体分类方法、物体分类器的训练方法、装置和电子设备。

背景技术

对视频进行物体检测是计算机视觉领域的重要问题以及智能视频分析的基础技术。物体检测可广泛应用在在诸如智能监控、自动视频标注以及高级检索等很多重要的应用中。

对视频进行物体检测的技术建立在对图片进行物体检测的基础之上，但是，针对视频的物体检测建模更为复杂。现有的视频物体检测方法具有以下不足和局限性：训练好的物体检测模型只能用于特定物体种类的检测。

发明内容

本发明实施例的目的在于，提供一种用于视频帧序列的物体分类技术以及物体分类器的训练技术。

根据本发明实施例的第一方面，提供一种物体分类器的训练方法，包括：从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列；从样本视频帧序列对应的字幕文本中获取关键词信息；使用所述第一物体框序列以及所述关键词信息训练用于识别物体对象的物体分类器。

可选地，所述第一物体框序列包括物体对象的物体候选框数据和运动轨迹数据。

可选地，所述使用所述第一物体框序列以及所述关键词信息训练用于识别物体对象的物体分类器，包括：使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器；和/或，使用所述第一物体框序列以及所述关键词信息迭代训练用于识别物体对象的物体分类器。

可选地，所述关键词信息包括关键词以及所述关键词对应的时间轴信息；所述使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器，包括：设置所述物体分类器的分类标签，其中，所述物体分类器的分类标签，根据不同类别的物体对象的运动轨迹数据与所述时间轴信息的匹配程度在所述关键词中选择得到，所述不同类别的物体对象根据所述物体候选框数据对不同的物体对象进行聚类得到。

可选地，所述从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列，包括：通过用于提取物体候选框的第一神经网络，在所述样本视频帧序列的各个视频帧中获取初始的物体候选框数据；对所述初始的物体候选框数据进行跟踪，得到初始的运动轨迹数据；通过用于轨迹提取的第二神经网络，确定所述初始的运动轨迹数据的预测准确数据；根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述目标的运动轨迹数据及其对应的物体候选框数据作为所述第一物体框序列。

可选地，所述从样本视频帧序列对应的字幕文本中获取关键词信息，包括：通过关键词筛选算法在所述字幕文本中提取表示物体类别的词作为关键词，以所述关键词及其对应的时间轴信息所述关键词信息。

可选地，使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器，包括：通过用于特征提取的第三神经网络，对所述第一物体框序列的物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类，根据所述聚类结果确定不同类别的物体对象；使用所述关键词对应的所述时间轴信息，与所述不同类别的物体对象对应的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述物体分类器的分类标签。

可选地，使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器，包括：通过用于特征提取的第三神经网络，对所述物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类；根据所述聚类结果，从多个所述第一物体框序列当中，选取一个或多个类别的物体对象的第二物体框序列；使用所述关键词对应的所述时间轴信息，分别与所述第二物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第二物体框序列各自的分类标注数据；通过所述第二物体框序列以及各自的分类标注数据，训练所述物体分类器。

可选地，所述使用所述第一物体框序列以及所述关键词信息迭代训练用于识别物体对象的物体分类器包括：在每次迭代训练处理中，执行以下操作：通过所述物体分类器，分别获取尚未被选取的多个第一物体框序列各自的物体分类检测数据，所述物体分类检测数据包括检测到的分类标签以及预测准确数据；从当前尚未被选取的多个第一物体框序列当中选取获取到的预测准确数据超过预定的预测准确阈值的第三物体框序列；将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器。

可选地，在将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器之前，还包括：将获取到的所述第三物体框序列的物体分类检测数据中的分类标签作为第三物体框序列的分类标注数据，或者，使用所述关键词对应的所述时间轴信息，分别与所述第三物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第三物体框序列各自的分类标注数据。

根据本发明实施例的第二方面，提供一种用于视频帧序列的物体分类方法，包括：从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列；通过前述任一用于识别物体对象的物体分类器分别获取与待检物体框序列对应的物体分类的预测数据。

可选地，所述待检物体框序列包括物体对象的各个物体候选框数据和运动轨迹数据。

可选地，所述从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列包括：通过用于提取物体候选框的第一神经网络，在所述待检视频帧序列的各个视频帧中获取初始的物体候选框数据；对所述初始的物体候选框数据进行跟踪，得到初始的运动轨迹数据；通过用于轨迹提取的第二神经网络，确定所述初始的运动轨迹数据的预测准确数据；根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述目标的运动轨迹数据及其对应的物体候选框数据作为所述待检物体框序列。

可选地，所述方法还包括：根据所述物体分类的预测数据获取相应的物体类别关键词。

根据本发明实施例的第三方面，提供一种物体分类器的训练装置，包括：样本框序列获取模块，用于从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列；关键词信息提取模块，用于从样本视频帧序列对应的字幕文本中获取关键词信息；分类器训练模块，用于使用所述样本框序列获取模块获取的第一物体框序列以及所述关键词信息提取模块获取的关键词信息训练用于识别物体对象的物体分类器。

可选地，所述分类器训练模块包括：分类器设置单元，用于使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器；和/或，分类器迭代训练单元，用于使用所述第一物体框序列以及所述关键词信息迭代训练用于识别物体对象的物体分类器。

可选地，所述关键词信息包括关键词以及所述关键词对应的时间轴信息；所述分类器设置单元，用于设置所述物体分类器的分类标签，其中，所述物体分类器的分类标签，根据不同类别的物体对象的运动轨迹数据与所述时间轴信息的匹配程度在所述关键词中选择得到，所述不同类别的物体对象根据所述物体候选框数据对不同的物体对象进行聚类得到。

可选地，所述样本框序列获取模块包括：样本框提取单元，用于通过用于提取物体候选框的第一神经网络，在所述样本视频帧序列的各个视频帧中获取初始的物体候选框数据；样本框轨迹跟踪单元，用于对所述初始的物体候选框数据进行跟踪，得到初始的运动轨迹数据；样本框轨迹提取单元，用于通过用于轨迹提取的第二神经网络，确定所述初始的运动轨迹数据的预测准确数据；样本框轨迹筛选单元，用于根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述目标的运动轨迹数据及其对应的物体候选框数据作为所述第一物体框序列。

可选地，所述关键词信息提取模块用于通过关键词筛选算法在所述字幕文本中提取表示物体类别的词作为关键词，以所述关键词及其对应的时间轴信息所述关键词信息。

可选地，所述分类器设置单元包括：第一样本对象聚类子单元，用于通过用于特征提取的第三神经网络，对所述第一物体框序列的物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类，根据所述聚类结果确定不同类别的物体对象；样本标签设置子单元，用于使用所述关键词对应的所述时间轴信息，与所述不同类别的物体对象对应的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述物体分类器的分类标签。

可选地，所述分类器设置单元包括：第二样本对象聚类子单元，用于通过用于特征提取的第三神经网络，对所述物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类；样本框序列筛选子单元，用于根据所述聚类结果，从多个所述第一物体框序列当中，选取一个或多个类别的物体对象的第二物体框序列；样本标签选取子单元，用于使用所述关键词对应的所述时间轴信息，分别与所述第二物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第二物体框序列各自的分类标注数据；第一分类器训练子单元，用于通过所述第二物体框序列以及各自的分类标注数据，训练所述物体分类器。

可选地，所述分类器迭代训练单元包括：分类检测子单元，用于通过所述物体分类器，分别获取尚未被选取的多个第一物体框序列各自的物体分类检测数据，所述物体分类检测数据包括检测到的分类标签以及预测准确数据；样本框序列再筛选子单元，用于从当前尚未被选取的多个第一物体框序列当中选取获取到的预测准确数据超过预定的预测准确阈值的第三物体框序列；第二分类器训练子单元，用于将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器。

可选地，在第二分类器训练子单元将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器之前，所述分类器迭代训练单元还包括：样本标签选取子单元，用于将获取到的所述第三物体框序列的物体分类检测数据中的分类标签作为第三物体框序列的分类标注数据，或者，使用所述关键词对应的所述时间轴信息，分别与所述第三物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第三物体框序列各自的分类标注数据。

根据本发明实施例的第四方面，提供一种用于视频帧序列的物体分类装置，包括：待检物体框序列获取模块，用于从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列；物体分类预测模块，用于通过前述任一用于识别物体对象的物体分类器分别获取与待检物体框序列对应的物体分类的预测数据。

可选地，所述待检物体框序列获取模块包括：待检框提取单元，用于通过用于提取物体候选框的第一神经网络，在所述待检视频帧序列的各个视频帧中获取初始的物体候选框数据；待检框轨迹跟踪单元，用于对所述初始的物体候选框数据进行跟踪，得到初始的运动轨迹数据；待检框轨迹提取单元，用于通过用于轨迹提取的第二神经网络，确定所述初始的运动轨迹数据的预测准确数据；待检框轨迹筛选单元，用于根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述目标的运动轨迹数据及其对应的物体候选框数据作为所述待检物体框序列。

可选地，所述装置还包括：物体关键词获取模块，用于根据所述物体分类的预测数据获取相应的物体类别关键词。

根据本发明实施例的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现前述任一物体分类器的训练方法的步骤。

根据本发明实施例的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现前述任一用于视频帧序列的物体分类方法的步骤。

根据本发明实施例的第七方面，提供一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行前述任一物体分类器的训练方法对应的操作。

根据本发明实施例的第八方面，提供一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行前述任一用于视频帧序列的物体分类方法对应的操作。

根据本发明实施例的物体分类器的训练方案，从样本视频帧序列提取含有物体对象的多个物体框序列，从样本视频帧序列对应的字幕文本提取与物体类别相关的关键词信息；再使用物体对象的物体框序列和对应的关键词信息来训练物体分类器，其中，充分利用从已有的字幕文本提取的关键词信息对应的物体分类的训练进行监督。在物体分类器的训练中，无需特别对大量的训练样本进行标注，由此提供了一种弱监督的机器学习方法来训练物体分类器，并且获得具有预测准确性的物体分类器。

根据本发明实施例的从视频序列识别物体对象的方案，可通过使用前述训练得到的物体分类器，从待检视频帧序列提取的待检物体框序列较为准确地检测出物体对象的物体类别。

附图说明

图1示出配有解说/字幕的视频纪录片的示例；

图2是示出根据本发明实施例一的物体分类器的训练方法的流程图；

图3是示出根据本发明实施例二的步骤S210的一种示例性处理的流程图；

图4是示出根据本发明实施例三的物体分类器的训练方法的流程图；

图5是示出根据本发明实施例四的物体分类器的训练方法的流程图；

图6示出根据本发明实施例的物体分类器的训练方法的处理的示例；

图7是示出根据本发明实施例五的从视频序列识别物体对象的方法的流程图；

图8是示出根据本发明实施例六的从视频序列识别物体对象的方法的流程图；

图9是示出根据本发明实施例七的物体分类器的训练装置的逻辑框图；

图10是示出根据本发明实施例八的样本框序列获取模块910的逻辑框图；

图11是示出根据本发明实施例九的物体分类器的训练装置的逻辑框图；

图12示出分类器设置单元931的示例性逻辑框图；

图13示出分类器设置单元931的另一示例性逻辑框图；

图14示出分类器迭代训练单元933的示例性逻辑框图；

图15是示出根据本发明实施例十的从视频序列识别物体对象的装置的逻辑框图；

图16是示出根据本发明实施例十一的从视频序列识别物体对象的装置的逻辑框图；

图17是示出根据本发明实施例十三的第一电子设备的结构示意图；

图18是示出根据本发明实施例十四的第二电子设备的结构示意图。

具体实施方式

下面结合附图详细描述本发明实施例的示例性实施例。

在本申请中，“多个”指两个或两个以上，“至少一个”指一个、两个或两个以上。对于本申请中提及的任一部件、数据或结构，在没有明确限定一个的情况下，可理解为一个或多个。

实施例一

图1示出配有解说/字幕的视频纪录片的示例。

具体地，图1示出野生动物纪录片的示例片段的视频帧序列。其中，对视频内容还配有内容丰富的音频解说或文本字幕，音频解说的内容通过通用的语音分析技术也可被转换为解说文本，该解说文本也可被显示为字幕文本。可以看出，这些视频的字幕文本含有相当数量的动物类别关键词，如“大象”、“蜘蛛”、“老虎”、“熊”、“考拉”、“骆驼”等。观看者可通过视频展现内容和相关的音频解说或文本字幕学习到之前并不知道的动物。

根据本发明的总体发明构思，提出一种通过视频内容以及为其配备的字幕文本或由音频解说转换成的解说文本来训练物体对象的分类器的技术。

图2是示出根据本发明实施例一的物体分类器的训练方法的流程图。

参照图2，在步骤S210，从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列。

通过适用的图像处理/分析方法从各个视频帧检测得到含有物体对象的物体候选框数据，再通过物体跟踪方法将含有同一物体对象的物体候选框数据按照时序进行排列从而得到与各个视频帧对应的含有物体对象的多个第一物体框序列。

也就是说，本申请中提及的“物体框序列”均包括物体对象的一系列物体候选框数据，其中，物体候选框数据指相应的视频帧中含有物体对象的区域图像的数据或者从相应的视频帧剪切出的含有物体对象的区域图像在时序上形成的序列。

在步骤S220，从样本视频帧序列对应的字幕文本中获取关键词信息。

具体地，可对字幕文本或解说文本进行语义分析，来提取与物体类别相关的关键词的信息。这些关键词在时序上与各个所述视频帧对应。

在步骤S230，使用所述第一物体框序列以及所述关键词信息训练用于识别物体对象的物体分类器。

由于样本视频帧序列中出现的物体对象在为视频配备的字幕文本中通常都会有提及，并且字幕文本与样本视频帧序列在时序上对应，因此，可通过从样本视频帧序列提取的第一物体框序列以及在时序上与其对应的关键词信息来训练物体分类器，以关键词信息对应的物体分类信息对物体分类器的训练进行监督，从而训练得到较为准确的物体分类器。

根据本发明实施例一的物体分类器的训练方法，从样本视频帧序列提取含有物体对象的多个物体框序列，从样本视频帧序列对应的字幕文本提取与物体类别相关的关键词信息；再使用物体对象的物体框序列和对应的关键词信息来训练物体分类器，其中，充分利用从已有的字幕文本提取的关键词信息对应的物体分类的训练进行监督。在物体分类器的训练中，无需特别对大量的训练样本进行标注，由此提供了一种弱监督的机器学习方法来训练物体分类器，并且获得具有预测准确性的物体分类器。

实施例二

图3是示出根据本发明实施例二的步骤S210的一种示例性处理的流程图。

根据本发明实施例二，为了执行物体检测并且进行目标物体的跟踪，使用预先训练的用于提取物体候选框的第一神经网络以及用于轨迹提取的第二神经网络。可通过任何适用的机器学习方法来训练前述两个神经网络，并且该两个神经网络的训练不是本发明的核心内容，因此在此不予详细描述。

参照图3，在步骤S310，通过用于提取物体候选框的第一神经网络，在所述样本视频帧序列的各个视频帧中获取初始的物体候选框数据。

具体地，通过第一神经网络对样本视频帧序列的各个视频帧进行检测，从各个视频帧初始的可能包含有物体对象的物体候选框数据。根据视频画面拍摄的场景，从单个视频帧中可能检测到包含有物体对象的一个或多个物体候选框数据。这里的物体候选框数据包括物体候选框的区域图像数据和物体候选框的预测准确数据(如置信度)。

在步骤S320，对所述初始的物体候选框数据进行跟踪，得到初始的运动轨迹数据。

具体地，通过适用的物体跟踪方法跟踪各个物体候选框数据在各个视频帧中的位置，将含有同一物体对象的物体候选框数据的位置数据按照时序进行排列，获得这些物体候选框数据初始的运动轨迹数据。这些初始的运动轨迹数据是根据物体候选框在视频帧中的位置获取到的数据，而由于拍摄位置、角度的变化以及物体对象之间的近距离等因素，获取到的这些数据存在噪声数据，因此仅将这些数据作为初始的运动轨迹数据，用以进行进一步的运动轨迹检测。

在步骤S330，通过用于轨迹提取的第二神经网络，确定所述初始的运动轨迹数据的预测准确数据。

具体地，可通过预先训练的第二神经网络，根据前述初始的运动轨迹数据获取运动轨迹数据的预测准确数据，从而对这些初始的运动轨迹数据进行评估，获取其预测准确数据，例如预测概率、置信度等。

在步骤S340，根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述准确度较高的运动轨迹数据及其对应的物体候选框数据作为所述第一物体框序列。

也就是说，第一物体框序列包括物体对象的物体候选框数据和运动轨迹数据。

也就是说，将预测准确度较高的前述初始的运动轨迹数据选取为目标的运动轨迹数据，相应地，将准确度较高的运动轨迹数据及其对应的物体候选框数据作为所述第一物体框序列。

需要指出，通过前述处理仅示出一种示例性的获取第一物体框序列的方式，可以理解，步骤S210的处理不限于前述示例性处理，还可以通过其他图像处理/视频帧处理技术执行步骤S210的处理。

根据本发明实施例二，通过预先训练的用于提取物体候选框的第一神经网络以及用于轨迹提取的第二神经网络，能够准确地从样本视频帧序列提取包括物体候选框数据和运动轨迹数据的第一物体框序列。

实施例三

图4是示出根据本发明实施例三的物体分类器的训练方法的流程图。

参照图4，在步骤S410，从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列，所述第一物体框序列包括物体对象的物体候选框数据和运动轨迹数据。步骤S410的处理与前述步骤S210的处理类似，在此不予赘述。

在步骤S420，通过关键词筛选算法在所述字幕文本中提取表示物体类别的准确度较高的词作为关键词，以所述关键词及其对应的时间轴信息作为所述关键词信息。

可选地，可用的关键词筛选算法包括至少一种一下方法：①指代词本义识别，即识别出字幕文本中的代词指代的词语，并且将代词替换为其实际指代的词语；②词性标注，即标注字幕文本中每个词的词性；③词形还原，即，将不同时态和形式的词还原为原始形态的词；④关键词筛选，基于在字幕文本中的词频和单词常见度筛选字幕文本中重要的词。

例如，通过上下文语义分析，将字幕文本中的代词(如“它”)替换为其实际指代的关键词(如“袋鼠”)。再例如，将不同形态的复数(“geese”)单词替换为单数的关键词(“goose”)。再例如，根据各个词在字幕中出现的频率以及各个词的常见度，从多个词语中筛选出重要的关键词。

在步骤S430，通过用于特征提取的第三神经网络，对所述第一物体框序列的物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类，根据所述聚类结果确定不同类别的物体对象。

同一类别的物体具有类似的外观特征，因而在图像中也具有相似的图像特征。因此，在步骤S430，通过对经过特征提取的第一物体框序列的物体候选框数据进行聚类，将相同或相似类别的物体对象的物体候选框数据聚类到一起，从而将各个类别的物体对象的物体候选框数据分别聚类到一起。由此，可根据聚类的结果确定各个不同类别的物体对象。

在步骤S440，使用所述关键词对应的所述时间轴信息，与所述不同类别的物体对象对应的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述物体分类器的分类标签。

由于字幕文本与视频帧序列之间具有时序上的对应关系，因此，在提取关键词信息时还可将关键词与其出现的时间对齐，获取相应的时间抽信息。相应地，关键词信息可包括关键词以及关键词对应的时间轴信息。

需要指出，通过关键词对应的时间轴信息与物体对象的运动轨迹数据进行匹配来选择与第一物体框序列对应的关键词只是一种可行的实施方式，而不限于此一种方式。可通过例如关键词出现的频率或者结合关键词出现的频率和其他信息来选择第一物体框序列对应的关键词，进而将选择的关键词作为物体分类器的分类标签。

这里，分类标签可以是选择的关键词，也可以是为选择的关键词设置的标识，如关键词编号等。

在步骤S450，设置所述物体分类器的分类标签。

如前所述，根据不同类别的物体对象的运动轨迹数据与所述时间轴信息的匹配程度在所述关键词中选择得到物体分类器的分类标签，所述不同类别的物体对象根据所述物体候选框数据对不同的物体对象进行聚类得到。

在该步骤，将在步骤S440选择的关键词设置为从样本视频帧序列获取的第一物体框序列对应的分类标签。可例如通过机器学习方法，使用第一物体框序列以及其对应的分类标签来训练该物体分类器。

根据本发明实施例三的物体分类器的训练方法，通过对从样本视频帧序列提取的含有物体对象的多个物体框序列进行特征提取，再对特征提取后的物体框序列进行聚类，根据所述聚类结果确定不同类别的物体对象，再使用从样本视频帧序列对应的字幕文本提取的关键词的时间轴信息与物体对象的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述物体分类器的分类标签，来设置物体分类器。在此过程中，通过聚类方法将物体框序列自动地进行物体对象的分类，并且通过关键词的时间轴信息与物体框序列的运动轨迹数据进行匹配来选取物体对象的关键词及对应的分类标签。在物体分类器的训练中，无需特别对大量的训练样本进行标注，而是自动地选取训练样本并进行标注，由此提供了一种弱监督的机器学习方法来训练物体分类器，并且获得具有预测准确性的物体分类器。

实施例四

图5是示出根据本发明实施例四的物体分类器的训练方法的流程图。

参照图5，在步骤S510，从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列，所述第一物体框序列包括物体对象的物体候选框数据和运动轨迹数据。

在步骤S520，从样本视频帧序列对应的字幕文本中获取关键词信息。

步骤S510和S520的处理分别与前述步骤S210和S220的处理类似，在此不予赘述。

在步骤S530，使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器。

具体地，步骤S530包括步骤S531、S533、S535和S537。

在步骤S531，通过用于特征提取的第三神经网络，对所述物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类。

在步骤S533，根据所述聚类结果，从多个所述第一物体框序列当中，选取一个或多个类别的物体对象的第二物体框序列。

步骤S531和S533与前述步骤S430的处理类似，在步骤S533，进一步从多个第一物体框序列当中选取一个或多个类别的物体对象的第二物体框序列，例如，含有第一物体框序列的个数较多的一个或多个第二物体框序列，这些第二物体框序列可对应一个类别的物体对象，也可以对应两个或更多的物体对象。

在步骤S535，使用所述关键词对应的所述时间轴信息，分别与所述第二物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第二物体框序列各自的分类标注数据。

步骤S535的处理与前述步骤S440的处理类似，在步骤S535，将匹配程度较高对应的关键词选择为第二物体框序列各自的分类标注数据，以进行步骤S537的处理。

在步骤S537，通过所述第二物体框序列以及各自的分类标注数据，训练所述物体分类器。

也就是说，使用第二物体框序列作为训练样本来训练物体分类器，其中，使用第二物体框序列各自的分类标注数据对物体分类器的训练进行监督。由此，初步训练获得物体分类器。

在步骤S540，使用所述第一物体框序列以及所述关键词信息迭代训练物体分类器，以从第一物体框序列选取更多的训练样本，并且通过更多的训练样本来进一步训练物体分类器。

具体地，在每次迭代训练处理中，执行以下步骤S541、S543和S545。

在步骤S541，通过所述物体分类器，分别获取尚未被选取的多个第一物体框序列各自的物体分类检测数据，所述物体分类检测数据包括检测到的分类标签以及预测准确数据。

也就是说，通过物体分类器对尚未被选取的部分或全部第一物体框序列进行物体分类检测，获取各个第一物体框序列各自的物体分类检测数据。

由于在前述步骤S533，已从第一物体框序列当中选取一个或多个第二物体框序列，因此，在首次迭代处理中，对除去第二物体框序列的第一物体框序列进行步骤S541的物体分类检测。

在步骤S543，从当前尚未被选取的多个第一物体框序列当中选取获取到的预测准确数据超过预定的预测准确阈值的第三物体框序列。

由于在获取到的物体分类检测数据中包括检测到的分类标签的预测准确数据，该预测准确数据表示该物体分类检测的准确度，因此，可根据获取到的预测准确数据来选取预测准确度较高的一个或多个第三物体框序列作为部分训练样本。

在步骤S545，将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器。

也就是说，使用先前已选取的部分或全部物体框序列和当前选取的第三物体框序列作为训练样本集来训练物体分类器。

这里，可将获取到的所述第三物体框序列的物体分类检测数据中的分类标签作为第三物体框序列各自的分类标注数据，或者，如前所述，使用所述关键词对应的所述时间轴信息，分别与所述第三物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第三物体框序列各自的分类标注数据。

通过迭代地执行步骤S541～S545的处理，通过使用已训练的物体分类器对尚未选取的第一物体框序列进行物体分类检测，根据检测结果选取更多的(第三)物体框序列来扩充训练样本集，从而使用更大的训练样本集对物体分类器迭代地进行训练，其中，无需对作为训练样本的第三物体框序列和第二物体框序列进行标注。

图6示出根据本发明实施例的物体分类器的训练方法的处理的示例。如图6所示，通过步骤S310～S340，从样本视频帧序列提取出多个第一物体框序列T1，并且通过步骤S220或S420的处理，从样本视频帧序列的字幕文本提取多个物体关键词K1(如大象、熊等)；此后，通过步骤S531、S533和S535的处理，选取多个第二物体框序列T和对应的物体关键词K2并设置物体关键词K2的分类标注数据C1，并且通过步骤S537，通过所述第二物体框序列T2以及各自的分类标注数据C1，训练物体分类器。此后，在步骤S541，通过物体分类器对尚未被选中的多个第一物体框序列T1-T2进行物体分类检测，根据检测结果从多个第一物体框序列T1-T2选取一个或多个第三物体框序列T3(步骤S543)，为各个第三物体框序列T3选取物体关键词并且设置物体关键词的分类标注数据，再通过步骤S545，将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器。

根据本发明实施例四的物体分类器的训练方法，在前述实施例的基础上，针对从样本视频帧序列提取的含有物体对象的多个第一物体框序列，通过对第一物体框序列进行聚类，根据所述聚类结果来选取一个或多个第二物体框序列作为训练样本来训练物体分类器，以从样本视频帧序列的字幕文本提取的关键词对应的分类标签进行训练监督。此后，使用初步训练得到的物体分类器对第一物体框序列当中尚未被选取的第一物体框分别进行物体分类检测，并且根据检测结果选取预测准确度较高的第三物体框序列，并且将当前选取的第三物体框序列和之前已选取的物体框序列(第二物体框序列和之前选取的第三物体框序列)作为训练样本来迭代地训练物体分类器，从而通过自动地扩充训练样本集来迭代地训练物体分类器。在物体分类器的迭代训练中，无需特别对大量的训练样本进行标注，而是自动地选取训练样本并进行标注，由此提供了一种弱监督的机器学习方法来训练物体分类器，并且获得具有预测准确性的物体分类器。

实施例五

图7是示出根据本发明实施例五的从视频序列识别物体对象的方法的流程图。

参照图7，在步骤S710，从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列。

具体地，可通过与前述步骤S210中提取第一物体框序列类似的处理从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列。

在步骤S720，通过如前任一方法训练得到的用于识别物体对象的物体分类器分别获取与待检物体框序列对应的物体分类的预测数据。

根据本发明实施例五的从视频序列识别物体对象的方法，可通过使用前述训练得到的物体分类器，从待检视频帧序列提取的待检物体框序列较为准确地检测出物体对象的物体类别。

实施例六

图8是示出根据本发明实施例六的从视频序列识别物体对象的方法的流程图。

参照图8，在步骤S810，从待检视频帧序列的各个视频帧检测含有物体对象的物体候选框数据，并且跟踪各个物体对象的运动轨迹，获取各个所述物体对象各自的待检物体框序列。所述待检物体框序列包括物体对象的各个物体候选框数据和运动轨迹数据

可通过与前述步骤S210或步骤S310～S340类似的处理获取各个所述物体对象各自的待检物体框序列。

在步骤S820，通过如前任一方法训练得到的用于识别物体对象的物体分类器分别获取与待检物体框序列对应的物体分类的预测数据。

在步骤S830，根据所述物体分类的预测数据获取相应的物体类别关键词，从而可为使用者提供具有语义的物体分类信息。

根据本发明实施例六的从视频序列识别物体对象的方法，可通过使用前述训练得到的物体分类器，从待检视频帧序列提取的待检物体框序列较为准确地检测出物体对象的物体类别，并且获得具有语义的物体分类信息。

实施例七

图9是示出根据本发明实施例七的物体分类器的训练装置的逻辑框图。

参照图9，实施例七的物体分类器的训练装置包括：

样本框序列获取模块910，用于从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列；

关键词信息提取模块920，用于从样本视频帧序列对应的字幕文本中获取关键词信息；

分类器训练模块930，用于使用样本框序列获取模块910获取的第一物体框序列以及关键词信息提取模块920获取的关键词信息训练用于识别物体对象的物体分类器。

本实施例的物体分类器的训练装置用于实现前述方法实施例中相应的物体分类器的训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例八

图10是示出根据本发明实施例八的样本框序列获取模块910的逻辑框图。

根据本发明实施例八，前述第一物体框序列包括物体对象的物体候选框数据和运动轨迹数据。

参照图10，根据本发明实施例八，样本框序列获取模块910包括：

样本框提取单元911，用于通过用于提取物体候选框的第一神经网络，在所述样本视频帧序列的各个视频帧中获取初始的物体候选框数据；

样本框轨迹跟踪单元913，用于对所述初始的物体候选框数据进行跟踪，得到初始的运动轨迹数据；

样本框轨迹提取单元915，用于通过用于轨迹提取的第二神经网络，确定所述初始的运动轨迹数据的预测准确数据；

样本框轨迹筛选单元917，用于根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述目标的运动轨迹数据及其对应的物体候选框数据作为所述第一物体框序列。

实施例九

图11是示出根据本发明实施例九的物体分类器的训练装置的逻辑框图。

参照图11，分类器训练模块930包括分类器设置单元931和/或分类器迭代训练单元933。

其中，分类器设置单元931用于使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器。

其中，分类器迭代训练单元933用于使用所述第一物体框序列以及所述关键词信息迭代训练用于识别物体对象的物体分类器。

可选地，关键词信息提取模块920用于通过关键词筛选算法在所述字幕文本中提取表示物体类别的词作为关键词，以所述关键词及其对应的时间轴信息所述关键词信息。

可选地，所述关键词信息包括关键词以及所述关键词对应的时间轴信息。相应地，分类器设置单元931用于设置所述物体分类器的分类标签，其中，所述物体分类器的分类标签，根据不同类别的物体对象的运动轨迹数据与所述时间轴信息的匹配程度在所述关键词中选择得到，所述不同类别的物体对象根据所述物体候选框数据对不同的物体对象进行聚类得到。

图12示出分类器设置单元931的示例性逻辑框图。

参照图12，分类器设置单元931包括：

第一样本对象聚类子单元9311，用于通过用于特征提取的第三神经网络，对所述第一物体框序列的物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类，根据所述聚类结果确定不同类别的物体对象；

样本标签设置子单元9313，用于使用所述关键词对应的所述时间轴信息，与所述不同类别的物体对象对应的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述物体分类器的分类标签。

图13示出分类器设置单元931的另一示例性逻辑框图。

参照图13，分类器设置单元931包括：

第二样本对象聚类子单元9315，用于通过用于特征提取的第三神经网络，对所述物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类；

样本框序列筛选子单元9316，用于根据所述聚类结果，从多个所述第一物体框序列当中，选取一个或多个类别的物体对象的第二物体框序列；

样本标签选取子单元9317，用于使用所述关键词对应的所述时间轴信息，分别与所述第二物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第二物体框序列各自的分类标注数据；

第一分类器训练子单元9318，用于通过所述第二物体框序列以及各自的分类标注数据，训练所述物体分类器。

图14示出分类器迭代训练单元933的示例性逻辑框图。

参照图14，分类器迭代训练单元933包括：

分类检测子单元9331，用于通过所述物体分类器，分别获取尚未被选取的多个第一物体框序列各自的物体分类检测数据，所述物体分类检测数据包括检测到的分类标签以及预测准确数据，

样本框序列再筛选子单元9333，用于从当前尚未被选取的多个第一物体框序列当中选取获取到的预测准确数据超过预定的预测准确阈值的第三物体框序列，

第二分类器训练子单元9335，用于将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器。

此外，可选地，在第二分类器训练子单元将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器之前，分类器迭代训练单元933还包括：

样本标签选取子单元9334，用于将获取到的所述第三物体框序列的物体分类检测数据中的分类标签作为第三物体框序列的分类标注数据，或者使用所述关键词对应的所述时间轴信息，分别与所述第三物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第三物体框序列各自的分类标注数据。

实施例十

图15是示出根据本发明实施例十的从视频序列识别物体对象的装置的逻辑框图。

参照图15，一种用于视频帧序列的物体分类装置，包括：

待检物体框序列获取模块1510，用于从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列；

物体分类预测模块1520，用于通过如权利要求1～10中任一项所述的用于识别物体对象的物体分类器分别获取与待检物体框序列对应的物体分类的预测数据。

本实施例的从视频序列识别物体对象的装置用于实现前述方法实施例中相应的从视频序列识别物体对象的方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例十一

图16是示出根据本发明实施例十一的从视频序列识别物体对象的装置的逻辑框图。

根据本发明实施例十一，所述待检物体框序列包括物体对象的各个物体候选框数据和运动轨迹数据。

参照图16，待检物体框序列获取模块1510包括：

待检框提取单元1511，用于通过用于提取物体候选框的第一神经网络，在所述待检视频帧序列的各个视频帧中获取初始的物体候选框数据；

待检框轨迹跟踪单元1513，用于对所述初始的物体候选框数据进行跟踪，得到初始的运动轨迹数据；

待检框轨迹提取单元1515，用于通过用于轨迹提取的第二神经网络，确定所述初始的运动轨迹数据的预测准确数据；

待检框轨迹筛选单元1517，用于根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述目标的运动轨迹数据及其对应的物体候选框数据作为所述待检物体框序列。

可选地，所述装置还包括：物体关键词获取模块1530，用于根据所述物体分类的预测数据获取相应的物体类别关键词。

实施例十二

根据本发明实施例十二提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现前述任一物体分类器的训练方法的步骤。

根据本发明实施例十二还提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现前述任一用于视频帧序列的物体分类方法的步骤。

实施例十三

图17是示出根据本发明实施例十三的第一电子设备的结构示意图。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图17，其示出了适于用来实现本发明实施例的终端设备或服务器的第一电子设备1700的结构示意图。

如图17所示，第一电子设备1700包括一个或多个第一处理器、第一通信元件等，所述一个或多个第一处理器例如：一个或多个第一中央处理单元(CPU)1701，和/或一个或多个第一图像处理器(GPU)1713等，第一处理器可以根据存储在第一只读存储器(ROM)1702中的可执行指令或者从第一存储部分1708加载到第一随机访问存储器(RAM)1703中的可执行指令而执行各种适当的动作和处理。第一通信元件包括第一通信组件1712和第一通信接口1709。其中，第一通信组件1712可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，第一通信接口1709包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，第一通信接口1709经由诸如因特网的网络执行通信处理。

第一处理器可与第一只读存储器1702和/或第一随机访问存储器1730中通信以执行可执行指令，通过第一总线1704与第一通信组件1712相连、并经第一通信组件1712与其他目标设备通信，从而完成本发明实施例提供的任一项方法对应的操作，例如，从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列；从样本视频帧序列对应的字幕文本中获取关键词信息；使用所述第一物体框序列以及所述关键词信息训练用于识别物体对象的物体分类器。

此外，在第一RAM 1703中，还可存储有装置操作所需的各种程序和数据。第一CPU1701、第一ROM1702以及第一RAM1703通过第一总线1704彼此相连。在有第一RAM1703的情况下，第一ROM1702为可选模块。第一RAM1703存储可执行指令，或在运行时向第一ROM1702中写入可执行指令，可执行指令使第一处理器1701执行上述通信方法对应的操作。第一输入/输出(I/O)接口1705也连接至第一总线1704。第一通信组件1712可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至第一I/O接口1705：包括键盘、鼠标等的第一输入部分1706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第一输出部分1707；包括硬盘等的第一存储部分1708；以及包括诸如LAN卡、调制解调器等的网络接口卡的第一通信接口1709。第一驱动器1710也根据需要连接至第一I/O接口1705。第一可拆卸介质1711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在第一驱动器1710上，以便于从其上读出的计算机程序根据需要被安装入第一存储部分1708。

需要说明的是，如图17所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图17的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，第一通信组件1712可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，用于从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列的可执行代码；用于从样本视频帧序列对应的字幕文本中获取关键词信息的可执行代码的可执行代码；用于使用所述第一物体框序列以及所述关键词信息训练用于识别物体对象的物体分类器的可执行代码。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从第一可拆卸介质1711被安装。在该计算机程序被第一中央处理单元(CPU)1701执行时，执行本发明实施例的方法中限定的上述功能。

本发明实施例十一提供的电子设备，从样本视频帧序列提取含有物体对象的多个物体框序列，从样本视频帧序列对应的字幕文本提取与物体类别相关的关键词信息；再使用物体对象的物体框序列和对应的关键词信息来训练物体分类器，其中，充分利用从已有的字幕文本提取的关键词信息对应的物体分类的训练进行监督。在物体分类器的训练中，无需特别对大量的训练样本进行标注，由此提供了一种弱监督的机器学习方法来训练物体分类器，并且获得具有预测准确性的物体分类器。

实施例十四

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图18，其示出了适于用来实现本发明实施例的终端设备或服务器的第二电子设备1800的结构示意图。

如图18所示，第二电子设备1800包括一个或多个第二处理器、第二通信元件等，所述一个或多个第二处理器例如：一个或多个第二中央处理单元(CPU)1801，和/或一个或多个第二图像处理器(GPU)1813等，第二处理器可以根据存储在第二只读存储器(ROM)1802中的可执行指令或者从第二存储部分1808加载到第二随机访问存储器(RAM)1803中的可执行指令而执行各种适当的动作和处理。第二通信元件包括第二通信组件1812和第二通信接口1809。其中，第二通信组件1812可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，第二通信接口1809包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，第二通信接口1809经由诸如因特网的网络执行通信处理。

第二处理器可与第二只读存储器1802和/或第二随机访问存储器1830中通信以执行可执行指令，通过第二总线1804与第二通信组件1812相连、并经第二通信组件1812与其他目标设备通信，从而完成本发明实施例提供的任一项方法对应的操作，例如，从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列；通过用于识别物体对象的物体分类器分别获取与待检物体框序列对应的物体分类的预测数据。

此外，在第二RAM 1803中，还可存储有装置操作所需的各种程序和数据。第二CPU1801、第二ROM1802以及第二RAM1803通过第二总线1804彼此相连。在有第二RAM1803的情况下，第二ROM1802为可选模块。第二RAM1803存储可执行指令，或在运行时向第二ROM1802中写入可执行指令，可执行指令使第二处理器1801执行上述通信方法对应的操作。第二输入/输出(I/O)接口1805也连接至第二总线1804。第二通信组件1812可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至第二I/O接口1805：包括键盘、鼠标等的第二输入部分1806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第二输出部分1807；包括硬盘等的第二存储部分1808；以及包括诸如LAN卡、调制解调器等的网络接口卡的第二通信接口1809。第二驱动器1810也根据需要连接至第二I/O接口1805。第二可拆卸介质1811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在第二驱动器1810上，以便于从其上读出的计算机程序根据需要被安装入第二存储部分1808。

需要说明的是，如图18所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图18的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，第二通信组件1812可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，用于从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列的可执行代码；用于通过用于识别物体对象的物体分类器分别获取与待检物体框序列对应的物体分类的预测数据的可执行代码。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从第二可拆卸介质1811被安装。在该计算机程序被第二中央处理单元(CPU)1801执行时，执行本发明实施例的方法中限定的上述功能。

本发明实施例十四提供的电子设备，可通过使用前述训练得到的物体分类器，从待检视频帧序列提取的待检物体框序列较为准确地检测出物体对象的物体类别。

需要指出，根据实施的需要，可将本申请中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种物体分类器的训练方法，包括：

从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列；

从样本视频帧序列对应的字幕文本中获取关键词信息；

使用所述第一物体框序列以及所述关键词信息训练用于识别物体对象的物体分类器，

其中，所述从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列，包括：

通过用于提取物体候选框的第一神经网络，在所述样本视频帧序列的各个视频帧中获取初始的物体候选框数据；

对所述初始的物体候选框数据进行跟踪，得到初始的运动轨迹数据；

通过用于轨迹提取的第二神经网络，确定所述初始的运动轨迹数据的预测准确数据；

根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述目标的运动轨迹数据及其对应的物体候选框数据作为所述第一物体框序列。

2.根据权利要求1所述的方法，其中，所述第一物体框序列包括物体对象的物体候选框数据和运动轨迹数据。

3.根据权利要求2所述的方法，其中，所述使用所述第一物体框序列以及所述关键词信息训练用于识别物体对象的物体分类器，包括：

使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器；

和/或，

使用所述第一物体框序列以及所述关键词信息迭代训练用于识别物体对象的物体分类器。

4.根据权利要求3所述的方法，其中，所述关键词信息包括关键词以及所述关键词对应的时间轴信息；

所述使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器，包括：

设置所述物体分类器的分类标签，其中，所述物体分类器的分类标签，根据不同类别的物体对象的运动轨迹数据与所述时间轴信息的匹配程度在所述关键词中选择得到，所述不同类别的物体对象根据所述物体候选框数据对不同的物体对象进行聚类得到。

5.根据权利要求1～4中任一项所述的方法，其中，所述从样本视频帧序列对应的字幕文本中获取关键词信息，包括：

通过关键词筛选算法在所述字幕文本中提取表示物体类别的词作为关键词，以所述关键词及其对应的时间轴信息所述关键词信息。

6.根据权利要求3～4中任一项所述的方法，其中，使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器，包括：

通过用于特征提取的第三神经网络，对所述第一物体框序列的物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类，根据所述聚类结果确定不同类别的物体对象；

使用所述关键词对应的所述时间轴信息，与所述不同类别的物体对象对应的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述物体分类器的分类标签。

7.根据权利要求3～4中任一项所述的方法，其中，使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器，包括：

通过用于特征提取的第三神经网络，对所述物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类；

根据所述聚类结果，从多个所述第一物体框序列当中，选取一个或多个类别的物体对象的第二物体框序列；

使用所述关键词对应的所述时间轴信息，分别与所述第二物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第二物体框序列各自的分类标注数据；

通过所述第二物体框序列以及各自的分类标注数据，训练所述物体分类器。

8.根据权利要求7所述的方法，其中，所述使用所述第一物体框序列以及所述关键词信息迭代训练用于识别物体对象的物体分类器包括：

在每次迭代训练处理中，执行以下操作：

通过所述物体分类器，分别获取尚未被选取的多个第一物体框序列各自的物体分类检测数据，所述物体分类检测数据包括检测到的分类标签以及预测准确数据，

从当前尚未被选取的多个第一物体框序列当中选取获取到的预测准确数据超过预定的预测准确阈值的第三物体框序列，

将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器。

9.根据权利要求8所述的方法，其中，在将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器之前，还包括：

将获取到的所述第三物体框序列的物体分类检测数据中的分类标签作为第三物体框序列的分类标注数据，或者，

使用所述关键词对应的所述时间轴信息，分别与所述第三物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第三物体框序列各自的分类标注数据。

10.一种用于视频帧序列的物体分类方法，包括：

从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列；

通过如权利要求1～9中任一项所述的用于识别物体对象的物体分类器分别获取与待检物体框序列对应的物体分类的预测数据，

其中，所述从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列包括：

通过用于提取物体候选框的第一神经网络，在所述待检视频帧序列的各个视频帧中获取初始的物体候选框数据；

根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述目标的运动轨迹数据及其对应的物体候选框数据作为所述待检物体框序列。

11.根据权利要求10所述的方法，其中，所述待检物体框序列包括物体对象的各个物体候选框数据和运动轨迹数据。

12.根据权利要求10～11中任一项所述的方法，其中，所述方法还包括：

根据所述物体分类的预测数据获取相应的物体类别关键词。

13.一种物体分类器的训练装置，包括：

样本框序列获取模块，用于从样本视频帧序列中的各个视频帧获取含有物体对象的多个第一物体框序列；

关键词信息提取模块，用于从样本视频帧序列对应的字幕文本中获取关键词信息；

分类器训练模块，用于使用所述样本框序列获取模块获取的第一物体框序列以及所述关键词信息提取模块获取的关键词信息训练用于识别物体对象的物体分类器，

其中，所述样本框序列获取模块包括：

样本框提取单元，用于通过用于提取物体候选框的第一神经网络，在所述样本视频帧序列的各个视频帧中获取初始的物体候选框数据；

样本框轨迹跟踪单元，用于对所述初始的物体候选框数据进行跟踪，得到初始的运动轨迹数据；

样本框轨迹提取单元，用于通过用于轨迹提取的第二神经网络，确定所述初始的运动轨迹数据的预测准确数据；

样本框轨迹筛选单元，用于根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述目标的运动轨迹数据及其对应的物体候选框数据作为所述第一物体框序列。

14.根据权利要求13所述的装置，其中，所述第一物体框序列包括物体对象的物体候选框数据和运动轨迹数据。

15.根据权利要求14所述的装置，其中，所述分类器训练模块包括：

分类器设置单元，用于使用所述第一物体框序列以及所述关键词信息设置用于识别物体对象的物体分类器；

和/或，

分类器迭代训练单元，用于使用所述第一物体框序列以及所述关键词信息迭代训练用于识别物体对象的物体分类器。

16.根据权利要求15所述的装置，其中，所述关键词信息包括关键词以及所述关键词对应的时间轴信息；

所述分类器设置单元，用于设置所述物体分类器的分类标签，其中，所述物体分类器的分类标签，根据不同类别的物体对象的运动轨迹数据与所述时间轴信息的匹配程度在所述关键词中选择得到，所述不同类别的物体对象根据所述物体候选框数据对不同的物体对象进行聚类得到。

17.根据权利要求13～16中任一项所述的装置，其中，所述关键词信息提取模块用于通过关键词筛选算法在所述字幕文本中提取表示物体类别的词作为关键词，以所述关键词及其对应的时间轴信息所述关键词信息。

18.根据权利要求15～16中任一项所述的装置，其中，所述分类器设置单元包括：

第一样本对象聚类子单元，用于通过用于特征提取的第三神经网络，对所述第一物体框序列的物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类，根据所述聚类结果确定不同类别的物体对象；

样本标签设置子单元，用于使用所述关键词对应的所述时间轴信息，与所述不同类别的物体对象对应的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述物体分类器的分类标签。

19.根据权利要求15～16中任一项所述的装置，其中，所述分类器设置单元包括：

第二样本对象聚类子单元，用于通过用于特征提取的第三神经网络，对所述物体候选框数据进行特征提取，并对特征提取后的物体候选框数据对不同的物体对象进行聚类；

样本框序列筛选子单元，用于根据所述聚类结果，从多个所述第一物体框序列当中，选取一个或多个类别的物体对象的第二物体框序列；

样本标签选取子单元，用于使用所述关键词对应的所述时间轴信息，分别与所述第二物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第二物体框序列各自的分类标注数据；

第一分类器训练子单元，用于通过所述第二物体框序列以及各自的分类标注数据，训练所述物体分类器。

20.根据权利要求19所述的装置，其中，所述分类器迭代训练单元包括：分类检测子单元，用于通过所述物体分类器，分别获取尚未被选取的多个第一物体框序列各自的物体分类检测数据，所述物体分类检测数据包括检测到的分类标签以及预测准确数据，

样本框序列再筛选子单元，用于从当前尚未被选取的多个第一物体框序列当中选取获取到的预测准确数据超过预定的预测准确阈值的第三物体框序列，

第二分类器训练子单元，用于将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器。

21.根据权利要求20所述的装置，其中，在第二分类器训练子单元将已选取的第二物体框序列和第三物体框序列作为训练样本，训练所述物体分类器之前，所述分类器迭代训练单元还包括：

样本标签选取子单元，用于将获取到的所述第三物体框序列的物体分类检测数据中的分类标签作为第三物体框序列的分类标注数据，或者，使用所述关键词对应的所述时间轴信息，分别与所述第三物体框序列的运动轨迹数据进行匹配，根据匹配程度选择关键词作为所述第三物体框序列各自的分类标注数据。

22.一种用于视频帧序列的物体分类装置，包括：

待检物体框序列获取模块，用于从待检视频帧序列的各个视频帧获取含有物体对象的至少一个待检物体框序列；

物体分类预测模块，用于通过如权利要求1～9中任一项所述的用于识别物体对象的物体分类器分别获取与待检物体框序列对应的物体分类的预测数据，

其中，所述待检物体框序列获取模块包括：

待检框提取单元，用于通过用于提取物体候选框的第一神经网络，在所述待检视频帧序列的各个视频帧中获取初始的物体候选框数据；

待检框轨迹跟踪单元，用于对所述初始的物体候选框数据进行跟踪，得到初始的运动轨迹数据；

待检框轨迹提取单元，用于通过用于轨迹提取的第二神经网络，确定所述初始的运动轨迹数据的预测准确数据；

待检框轨迹筛选单元，用于根据所述预测准确数据在所述初始的运动轨迹数据中筛选目标的运动轨迹数据，以所述目标的运动轨迹数据及其对应的物体候选框数据作为所述待检物体框序列。

23.根据权利要求22所述的装置，其中，所述待检物体框序列包括物体对象的各个物体候选框数据和运动轨迹数据。

24.根据权利要求22～23中任一项所述的装置，其中，所述装置还包括：

物体关键词获取模块，用于根据所述物体分类的预测数据获取相应的物体类别关键词。

25.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1～9中任一项所述物体分类器的训练方法的步骤。

26.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求10～12中任一项所述用于视频帧序列的物体分类方法的步骤。

27.一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1～9中任一项所述物体分类器的训练方法对应的操作。

28.一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求10～12中任一项所述用于视频帧序列的物体分类方法对应的操作。