CN103714094B

CN103714094B - 识别视频中的对象的设备和方法

Info

Publication number: CN103714094B
Application number: CN201210380709.XA
Authority: CN
Inventors: 范伟; 何源; 孙俊; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-10-09
Filing date: 2012-10-09
Publication date: 2017-07-11
Anticipated expiration: 2032-10-09
Also published as: CN103714094A

Abstract

本发明公开了一种识别视频中的对象的设备和方法。所述设备包括：对象特征提取装置，被配置为从视频中提取候选对象，并提取候选对象的特征；文本信息处理装置，被配置为提取视频中包含的文本信息，并且利用关键字数据库对所述文本信息进行过滤以得到与所述候选对象相关的过滤文本；在线图像搜索装置，被配置为在线搜索与过滤文本对应的图像，并提取图像的特征；匹配器，被配置为匹配候选对象的特征和图像的特征，并基于匹配结果确定候选对象或者过滤文本，或者同时确定二者。

Description

识别视频中的对象的设备和方法

技术领域

本发明涉及模式识别和图像检索领域，更具体地，涉及一种用于识别视频中的对象的设备和方法。

背景技术

识别视频中的对象比如人脸等进而进行角色检索可以为观众提供长篇影视作品中的快速角色定位、关键场景定位和故事摘要等功能。随着互联网时代视频媒体的繁荣，观众对角色检索的需求日益增长，他们希望在观看一部完整的影视剧前浏览该剧的一些简短片段，再做进一步选择。

能够实现上述功能的一种重要的视频检索技术是角色表的自动检索，其中，角色表专指影视剧比如故事片、电视剧、戏剧等中主要角色的列表。角色表的自动检索技术的传统方法是进行模式识别和图像检索。其中，人脸是最常见的检测对象，对检测到的人脸做进一步分析，可以得到主要角色的列表。

由于检测对象比如人脸的视觉信息容易受到光照、姿态、表情等变化的影响，因此仅仅依靠视觉信息很难达到理想的角色检索精度。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于背景技术部分所述的需求，本发明关注于利用视频中包含的文本注释信息来提高对象识别和检索的精度。

根据本发明的一个方面，提供了一种识别视频中的对象的设备，包括：对象特征提取装置，被配置为从所述视频中提取候选对象，并提取所述候选对象的特征；文本信息处理装置，被配置为提取所述视频中包含的文本信息，并且利用关键字数据库对所述文本信息进行过滤以得到与所述候选对象相关的过滤文本；在线图像搜索装置，被配置为在线搜索与所述过滤文本对应的图像，并提取所述图像的特征；匹配器，被配置为匹配所述候选对象的特征和所述图像的特征，并基于匹配结果确定候选对象或者过滤文本，或者同时确定二者。

根据本发明的另一个方面，提供了一种识别视频中的对象的方法，包括：从所述视频中提取候选对象，并提取所述候选对象的特征；提取所述视频中包含的文本信息，并且利用关键字数据库对所述文本信息进行过滤以得到与所述候选对象相关的过滤文本；在线搜索与所述过滤文本对应的图像，并提取所述图像的特征；匹配所述候选对象的特征和所述图像的特征，并基于匹配结果确定候选对象或者过滤文本，或者同时确定二者。

依据本发明的其它方面，还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。

根据本发明的设备和方法利用视频中包含的文本信息获取视频中要识别的对象的类别标签，与传统的基于视觉信息聚类的识别方法相比结果更可靠。另外，基于提取的文本信息进行在线搜索，可以利用图像搜索引擎获得与文本信息对应的大量的图片，从而能够训练更加准确的分类器，提升识别精度和检索性能。

通过以下结合附图对本发明的优选实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

为了进一步阐述本发明的以上和其它优点和特征，下面结合附图对本发明的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解，这些附图仅描述本发明的典型示例，而不应看作是对本发明的范围的限定。在附图中：

图1是示出了根据本发明的一个实施例的识别视频中的对象的设备的结构的示意图；

图2是示出了视频中的文本信息的位置的示例的图；

图3是示出了根据本发明的另一个实施例的识别视频中的对象的设备的结构的示意图；

图4是示出了根据本发明的一个实施例的识别视频中的对象的方法的流程图；

图5是示出了根据本发明的另一个实施例的识别视频中的对象的方法的流程图；以及

图6是其中可以实现根据本发明的实施例的方法和/或设备的通用个人计算机的示例性结构的框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

下文中的描述按如下顺序进行：

1．识别视频中的对象的设备

2．识别视频中的对象的方法

3．用以实施本申请的设备和方法的计算设备

[1．识别视频中的对象的设备]

第一实施例

首先参照图1描述根据本发明的一个实施例的识别视频中的对象的设备100。如图所示，识别视频中的对象的设备100包括对象特征提取装置101、文本信息处理装置102、在线图像搜索装置103和匹配器104。

具体地，对象特征提取装置101被配置为从所述视频中提取候选对象，并提取所述候选对象的特征；文本信息处理装置102被配置为提取所述视频中包含的文本信息，并且利用关键字数据库对所述文本信息进行过滤以得到与所述候选对象相关的过滤文本；在线图像搜索装置103被配置为在线搜索与所述过滤文本对应的图像，并提取所述图像的特征；匹配器104被配置为匹配所述候选对象的特征和所述图像的特征，并基于匹配结果确定候选对象或者过滤文本，或者同时确定二者。

其中，视频可以包括电视剧、电影、戏剧等各类作品。候选对象例如可以是要识别的人脸、物品、场景等。

对象特征提取装置101例如从视频的一帧中提取出要识别的对象，并将该对象的特征提取出来作为特征集合。本领域的技术人员可以理解，该提取过程和所采用的特征可以根据要识别的对象的不同而变化，本发明可以应用各种特征提取方法和各种特征。

然后，文本信息处理装置102获取视频中的文本信息，例如片头、片尾的演员表以及画面下方的字幕信息等，如图2所示。具体地，在这些文本信息以图片格式存在时，文本信息处理装置102可以使用光学字符识别技术（OCR）来获取文本信息。另一方面，文本信息处理装置102也可以直接读取以文本形式存在的信息。

然后，文本信息处理装置102利用关键字数据库对文本信息进行过滤以得到过滤文本。其中，关键字数据库是一个预先定义的辅助数据库，它根据视频中常常出现的提示与要识别的对象有关的文本的关键词来设置。因此，所得到的过滤文本与候选对象相关，例如，可以指示候选对象的名称或属性。

在一个优选实施例中，还存在另一个预先定义的辅助数据库，即对象描述数据库。对象描述数据库是包括离线收集的与候选对象有关的文本的数据库，例如，可以是包括离线收集的候选对象的名称或属性的数据库。

优选地，文本信息处理装置102被配置为利用该对象描述数据库对过滤文本进行进一步的过滤，以滤除与对象描述数据库中的项目不符的文本。优选地，文本信息处理装置102还被配置为利用对象描述数据库对过滤文本进行校正。

这是因为，由于OCR技术的局限性或者各种其他原因比如文本信息本身的错误，过滤文本可能存在错误而不适合用于在线搜索或者降低在线搜索的效率。相应地，文本信息处理装置102可以获得正确度高的过滤文本，从而有利于提高在线搜索的效率。

接下来，在线图像搜索装置103可以将得到的过滤文本作为类别标签进行在线搜索。可以采用各种在线图像搜索引擎来获取与过滤文本对应的图像。与直接采用图像形式的候选对象进行在线搜索相比，采用文本搜索可以获得大量匹配的图片，从而获得较大的训练样本集合，提升匹配器104的准确度。此外，采用文本搜索的在线图像搜索装置103也可以获得较高的效率。在获得与过滤文本对应的图像之后，在线图像搜索装置103提取这些图像的特征。

匹配器104对候选对象的特征和所提取的图像的特征进行匹配，以确定候选对象与过滤文本的哪一部分对应。通过该过程，可以对候选对象进行命名，同时确定过滤文本所对应的对象的一个或更多个特征、即特征的集合，从而建立了二者之间的对应关系。

在一个优选实施例中，匹配器104为基于图像的特征对候选对象的特征进行分类的分类器。该分类器通过使用在线搜索获得的大量图片的特征进行训练得到，在输入候选对象的特征时，该分类器可以基于训练的结果对候选特征进行分类，即根据特征的分类确定与候选对象对应的类别标签，同时也可以确定所对应的过滤文本。

另外，匹配器104还可以为判别器，特别地，在输入候选对象为图片格式时，该判别器用于将输入候选对象的特征与所提取的图像的特征进行匹配，以根据其匹配程度判断该输入候选对象所对应的过滤文本。

换言之，在使用上述设备100对视频进行识别之后，视频的每一帧中的对象都与一段过滤文本相对应且可以用其表示，每一段过滤文本也与视频中的相应的对象的特征集合相对应，从而实现了对视频中的对象的识别。

在本发明中，由于采用了基于过滤文本的在线搜索，因此可以准确获得与过滤文本对应的大量图片，可以训练更加准确的分类器，从而提高识别的准确度。

为了更清楚地说明该本发明的实施例，以下结合使用设备100对电视剧中的人脸进行识别的具体示例进行描述。但是，本领域的技术人员能够理解，设备100所能识别的对象并不限于人脸，所应用的场合也不限于电视剧，而是可以应用于任何类型的视频和对象。

具体地，例如，使用设备100来识别电视剧的画面中出现的角色、即人脸并对其进行命名。

首先，对象特征提取装置101从电视剧的画面中提取出现的角色，并且提取各个角色的特征，将所提取的各个角色的特征传递给匹配器104。

另外，文本信息处理装置102从电视剧中提取文本信息，这些文本信息包括但不限于位于电视剧的开始或结束处的演员表。演员表中包含与电视剧的角色有关的文本注释信息，从而可以用于获取角色的类别标签。

在一个优选实施例中，关键字数据库包括指明各种演员类型的关键字。这些关键字例如包括领衔主演、主演、联合主演、特别主演、联袂演出、友情演出、客串演出和演员表等。基于此，文本信息处理装置102利用该关键字数据库对所提取的文本信息进行过滤以得到与演员姓名相关的过滤文本。

优选地，文本信息处理装置102被配置为提取所述文本信息中与关键字数据库中的关键字相邻的词作为过滤文本。例如，提取与关键字“领衔主演”相邻的词作为过滤文本。

如上所述，文本信息处理装置102在从演员表中提取文本信息时可以利用OCR技术来进行，也可以直接读取以文本形式存在的信息。

此外，优选地，文本信息处理装置102还可以利用特定的对象描述数据库对过滤文本进行进一步的过滤。其中，对象描述数据库可以为包括离线收集的演员姓名的演员姓名数据库。它可以广泛覆盖当前所有知名演员的姓名（包括艺名）。

这是因为，在对角色进行识别的情况下，过滤文本例如演员的姓名可能包含错误。通过进一步的过滤，可以滤除与已收集的演员姓名不符的文本。可替选地，文本信息处理装置102还可以利用该对象描述数据库对过滤文本进行校正，以校正识别出的演员姓名中的个别错误。

文本信息处理装置102将提取的关于演员姓名的文本信息传递给在线图像搜索装置103。在线图像搜索装置103以接收到的文本信息作为查询关键字在线搜索与演员姓名对应的图片，这些图片包括该演员的脸部图片。如上所述，可以采用各种在线图像搜索引擎来获取与过滤文本对应的图像。然后，在线图像搜索装置103提取图片中人脸的特征，并将其传递给匹配器104。

匹配器104将从在线图像搜索装置103接收到的人脸的特征与从对象特征提取装置101接收到的各个角色的特征进行匹配，并且基于匹配的结果确定角色或演员姓名，或确定二者的对应关系。换言之，匹配器104识别各个角色并对其进行命名。其中，匹配器104为基于从在线图像搜索装置103接收到的人脸的特征对从对象特征提取装置101接收到的角色的特征进行分类的分类器。

因此，在使用上述设备100对一部电视剧中的人脸进行识别之后，电视剧的每个场景中的角色都与一个演员姓名相对应，每一个演员姓名也与场景中的相应的角色的特征集合相对应。

在该实施例中，由于采用了演员姓名进行在线搜索，可以避免使用演员的脸部图片进行在线搜索时的局限性，能够准确获取该演员的各种图片，使得分类器的训练更加准确，进而提高识别的准确性。

虽然以上描述采用了对人脸的识别作为示例，但是本发明不限于此。例如，设备100可以提取视频中包含的字幕信息，并且识别的候选对象是与该字幕信息有关的人物、物品或场景。以上针对识别人脸所作的描述同样适用，在此不再赘述。

第二实施例

接下来，将参照图3描述根据本发明的另一个实施例的识别视频中的对象的设备200。如图3所示，识别视频中的对象的设备200包括对象特征提取装置101、文本信息处理装置102、在线图像搜索装置103、匹配器104和检索装置201。其中，已参照图1详细说明了对象特征提取装置101、文本信息处理装置102、在线图像搜索装置103和匹配器104，因此将省略其描述。

检索装置201被配置为从所述视频中提取与所述匹配器104确定的候选对象或者与过滤文本相关的视频片段。

如上所述，匹配器104确定了候选对象或过滤文本或同时确定了二者，即匹配器104确定了候选对象与过滤文本之间的对应关系，实现了对视频中的候选对象的命名。并且，与每个候选对象对应的过滤文本还对应于该候选对象的特征的集合。

因此，包括检索装置201的设备200可以用于对视频进行检索，以输出视频中包括期望对象的场景片段列表。

具体地，当基于与期望对象对应的过滤文本进行检索时，可以进行文本的匹配以找到包括该期望对象的视频片段。可替选地，当基于图片形式的期望对象进行检索时，可以通过特征的分类找到与其对应的过滤文本，进而进行文本的匹配以找到包括该期望对象的视频片段。

当然，由于匹配器104已经对视频的各个帧中的候选对象进行了命名，因此，各个帧中的各个候选对象对应于特定的特征集合。从而，可以使用该特征集合与要检索的期望对象的特征进行匹配、即直接进行图像匹配来找到包括期望对象的视频片段。

仍以人脸作为示例，匹配器104已经对电视剧中的角色进行了命名，因此，各个场景中的角色都与某个演员姓名相对应，而每个演员姓名也对应于该演员的脸部特征。

当在电视剧中基于某个演员姓名例如领衔主演姓名进行检索时，可以将该演员的姓名与每个场景中的角色对应的姓名进行匹配，以确定该场景中是否包括该演员。可替选地，当基于某个演员例如领衔主演的脸部图片进行检索时，可以通过对该演员的脸部图片的特征进行分类来确定其姓名，然后通过姓名的匹配找到包括该演员的场景片段。

当然，如前所述，由于匹配器104已经对电视剧中的各个角色进行了命名，因此，各个场景中的各个角色对应于特定的特征集合。从而，可以使用该特征集合与要检索的演员的脸部特征进行匹配、即直接进行图像匹配来找到包括该演员的场景片段。

综上所述，采用设备200，可以对视频进行检索，获得感兴趣的视频片段。由于设备200利用了视频中包含的文本信息，因此可以实现准确的检索。

虽然以上描述采用了对人脸的识别和检索作为示例，但是本发明不限于此。例如，设备200可以提取视频中包含的字幕信息，并且识别和检索的候选对象是与该字幕信息有关的人物、物品或场景。以上针对识别人脸所作的描述同样适用，在此不再赘述。

[2．识别视频中的对象的方法]

以上结合附图描述了根据本发明的识别视频中的对象的设备的实施方式，在此过程中事实上也描述了一种识别视频中的对象的方法。下面对所述方法结合附图4予以简要描述，其中的细节可参见前文对识别视频中的对象的设备的描述。

如图4所示，根据本发明的一个实施例的识别视频中的对象的方法包括：从所述视频中提取候选对象，并提取所述候选对象的特征（S11）；提取所述视频中包含的文本信息，并且利用关键字数据库对所述文本信息进行过滤以得到与所述候选对象相关的过滤文本（S12）；在线搜索与所述过滤文本对应的图像，并提取所述图像的特征（S13）；匹配所述候选对象的特征和所述图像的特征，并基于匹配结果确定候选对象或者过滤文本，或者同时确定二者（S14）。

优选地，识别视频中的对象的方法还包括如下步骤：从所述视频中提取与所述匹配器确定的候选对象或者与所述过滤文本相关的视频片段（S15），如图5所示。

其中，提取视频中包含的文本信息的步骤包括利用光学字符识别技术识别所述视频中包含的文本信息。或者，所述视频中包含的信息以文本形式存在。

在一个优选实施例中，对所述文本信息进行过滤的步骤还包括利用对象描述数据库对所述过滤文本进行进一步的过滤，以滤除与对象描述数据库中的项目不符的文本。优选地，对所述文本信息进行过滤的步骤还包括利用所述对象描述数据库对所述过滤文本进行校正。其中，对象描述数据库为包括离线收集的演员姓名的演员姓名数据库。

在一个优选实施例中，候选对象是人脸。视频中包含的文本信息为位于视频的开始或结束处的演员表。其中，关键字数据库包括指明各种演员类型的关键字。这些关键字例如包括领衔主演、主演、联合主演、特别主演、联袂演出、友情演出、客串演出和演员表等。步骤S12包括提取与文本信息中与关键字数据库中的关键字相邻的词作为过滤文本。

本领域的技术人员容易理解，本发明的识别视频中的对象的方法还可以用于识别人脸以外的其他对象，所使用的文本信息也可以是视频中包含的其他文本信息。在一个实施例中，视频中包含的文本信息是字幕信息。优选地，候选对象是与字幕信息有关的人物、物品或场景。

此外，优选地，匹配所述候选对象的特征和所述图像的特征的步骤S14包括利用分类器基于所述对象的特征对所述候选对象的特征进行分类。

根据本发明的方法由于采用了基于过滤文本的在线搜索，因此可以准确获得与过滤文本对应的大量图片，可以训练更加准确的分类器，从而提高识别和检索的准确度。

[3．用以实施本申请的设备和方法的计算设备]

上述设备中各个组成模块、装置可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机（例如图6所示的通用计算机1100）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图6中，中央处理单元（CPU）1101根据只读存储器（ROM）1102中存储的程序或从存储部分1108加载到随机存取存储器（RAM）1103的程序执行各种处理。在RAM1103中，也根据需要存储当CPU1101执行各种处理等等时所需的数据。CPU1101、ROM1102和RAM1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。

下述部件连接到输入/输出接口1105：输入部分1106（包括键盘、鼠标等等）、输出部分1107（包括显示器，比如阴极射线管（CRT）、液晶显示器（LCD）等，和扬声器等）、存储部分1108（包括硬盘等）、通信部分1109（包括网络接口卡比如LAN卡、调制解调器等）。通信部分1109经由网络比如因特网执行通信处理。根据需要，驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1110上，使得从中读出的计算机程序根据需要被安装到存储部分1108中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘（包含软盘（注册商标））、光盘（包含光盘只读存储器（CD-ROM）和数字通用盘（DVD））、磁光盘（包含迷你盘（MD）（注册商标））和半导体存储器。或者，存储介质可以是ROM1102、存储部分1108中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

通过上述的描述，本发明的实施例提供了以下的技术方案。

附记1．一种识别视频中的对象的设备，包括：

对象特征提取装置，被配置为从所述视频中提取候选对象，并提取所述候选对象的特征；

文本信息处理装置，被配置为提取所述视频中包含的文本信息，并且利用关键字数据库对所述文本信息进行过滤以得到与所述候选对象相关的过滤文本；

在线图像搜索装置，被配置为在线搜索与所述过滤文本对应的图像，并提取所述图像的特征；

匹配器，被配置为匹配所述候选对象的特征和所述图像的特征，并基于匹配结果确定候选对象或者过滤文本，或者同时确定二者。

附记2．根据附记1所述的设备，还包括：

检索装置，被配置为从所述视频中提取与所述匹配器确定的候选对象或者与所述过滤文本相关的视频片段。

附记3．根据附记1或2所述的设备，其中，所述文本信息处理装置被配置为利用光学字符识别技术识别所述视频中包含的文本信息。

附记4．根据附记3所述的设备，其中，所述文本信息处理装置还被配置为利用对象描述数据库对所述过滤文本进行进一步的过滤，以滤除与对象描述数据库中的项目不符的文本。

附记5．根据附记4所述的设备，其中，所述文本信息处理装置还被配置为利用所述对象描述数据库对所述过滤文本进行校正。

附记6．根据附记1或2所述的设备，其中，所述候选对象是人脸。

附记7．根据附记6所述的设备，其中，所述视频中包含的文本信息为位于所述视频的开始或结束处的演员表。

附记8．根据附记7所述的设备，其中，所述关键字数据库包括指明各种演员类型的关键字。

附记9．根据附记8所述的设备，其中，所述文本信息处理装置被配置为提取所述文本信息中与所述关键字数据库中的关键字相邻的词作为所述过滤文本。

附记10．根据附记5所述的设备，其中，所述对象描述数据库为包括离线收集的演员姓名的演员姓名数据库。

附记11．根据附记1或2所述的设备，其中，所述视频中包含的文本信息为字幕信息。

附记12．根据附记11所述的设备，其中，所述候选对象是与所述字幕信息有关的人物、物品或场景。

附记13．根据附记1或2所述的设备，其中，所述视频中包含的信息以文本形式存在。

附记14．根据附记1或2所述的设备，其中，所述匹配器为基于所述图像的特征对所述候选对象的特征进行分类的分类器。

附记15．一种识别视频中的对象的方法，包括：

从所述视频中提取候选对象，并提取所述候选对象的特征；

提取所述视频中包含的文本信息，并且利用关键字数据库对所述文本信息进行过滤以得到与所述候选对象相关的过滤文本；

在线搜索与所述过滤文本对应的图像，并提取所述图像的特征；

匹配所述候选对象的特征和所述图像的特征，并基于匹配结果确定候选对象或者过滤文本，或者同时确定二者。

附记16．根据附记15所述的方法，还包括：

从所述视频中提取与所述匹配器确定的候选对象或者与所述过滤文本相关的视频片段。

附记17．根据附记15或16所述的方法，其中，提取所述视频中包含的文本信息的步骤包括利用光学字符识别技术识别所述视频中包含的文本信息。

附记18．根据附记17所述的方法，其中，对所述文本信息进行过滤的步骤还包括利用对象描述数据库对所述过滤文本进行进一步的过滤，以滤除与对象描述数据库中的项目不符的文本。

附记19．根据附记18所述的方法，其中，对所述文本信息进行过滤的步骤还包括利用所述对象描述数据库对所述过滤文本进行校正。

附记20．根据附记15所述的方法，其中，所述关键字数据库包括指明各种演员类型的关键字。

Claims

1.一种识别视频中的对象的设备，包括：

对象特征提取装置，被配置为从所述视频中提取候选对象，并提取所述候选对象的特征，其中，所述候选对象为人脸；

文本信息处理装置，被配置为提取所述视频中包含的文本信息，并且利用包括指明各种演员类型的关键字的关键字数据库对所述文本信息进行过滤以得到与所述候选对象相关的过滤文本，其中，所述文本信息为位于所述视频的开始或结束处的演员表；

在线图像搜索装置，被配置为在线搜索与所述过滤文本对应的图像，并提取所述图像的特征；以及

匹配器，被配置为匹配所述候选对象的特征和所述图像的特征，并基于匹配结果确定候选对象或者过滤文本，或者同时确定二者；

其中，所述文本信息处理装置被配置为提取所述文本信息中与所述关键字数据库中的关键字相邻的词作为所述过滤文本。

2.根据权利要求1所述的设备，还包括：

3.根据权利要求1或2所述的设备，其中，所述文本信息处理装置被配置为利用光学字符识别技术识别所述视频中包含的文本信息。

4.根据权利要求3所述的设备，其中，所述文本信息处理装置还被配置为利用对象描述数据库对所述过滤文本进行进一步的过滤，以滤除与对象描述数据库中的项目不符的文本。

5.根据权利要求4所述的设备，其中，所述文本信息处理装置还被配置为利用所述对象描述数据库对所述过滤文本进行校正。

6.一种识别视频中的对象的方法，包括：

从所述视频中提取候选对象，并提取所述候选对象的特征，其中，所述候选对象为人脸；

提取所述视频中包含的文本信息，并且利用包括指明各种演员类型的关键字的关键字数据库对所述文本信息进行过滤以得到与所述候选对象相关的过滤文本，其中，所述文本信息为位于所述视频的开始或结束处的演员表；

在线搜索与所述过滤文本对应的图像，并提取所述图像的特征；以及

匹配所述候选对象的特征和所述图像的特征，并基于匹配结果确定候选对象或者过滤文本，或者同时确定二者；

其中，利用关键字数据库对所述文本信息进行过滤以得到与所述候选对象相关的过滤文本包括提取所述文本信息中与所述关键字数据库中的关键字相邻的词作为所述过滤文本。