CN102193946A

CN102193946A - 为媒体文件添加标签方法和使用该方法的系统

Info

Publication number: CN102193946A
Application number: CN2010101270160A
Authority: CN
Inventors: 刘媛; 李滔; 徐盈辉; 陈义; 张磊
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2010-03-18
Filing date: 2010-03-18
Publication date: 2011-09-21
Also published as: US8737771B2; US20110229017A1; JP2011198364A

Abstract

本发明提供了一种为媒体文件添加标签的方法，包括：基于已有的含有标签的媒体文件的训练样本构建标签的检测模型，基于所述训练样本中标签的出现频率提取标签之间的共存系数；输入媒体文件，并从所输入的媒体文件中提取视觉特征；获取所输入的媒体文件的初始标签；基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签；基于所输入的媒体文件的视觉特征以及共存系数，使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合。

Description

为媒体文件添加标签方法和使用该方法的系统

技术领域

本发明涉及标签添加方法和使用该方法的系统，并且更具体地，涉及一种为内容文件添加标签的方法和系统。

背景技术

随着数字技术的普及，现在已经产生了大量的媒体文件，例如音频文件、视频文件、图片、文本以及其组合文件。大量音视频文件的出现为人们生动地记录和保存各种信息带来了便利。但是，随着这种媒体文件的大量产生，用户如何迅速地从这些大量的媒体文件中找到自己所需的文件成为一个问题。为了解决这个问题，人们提出为媒体文件添加能够描述其内容的文字标签，从而方便人们通过文字标签来查找各种媒体文件，这种为媒体文件添加文字标签的方法称之为“媒体文件标签法”，就是一种为图片、音乐片段以及视频片段添加关键字或关键词(也称之为标签)的一种行为。这些标签可以用于随后的各种媒体文件相关的应用中，例如用于多媒体管理、多媒体搜索、版权保护以及对象识别等等。

传统的媒体标签法采用人力对媒体文件添加标签，显然非常地费时费力，面对现今日益增长的媒体文件，单靠人力不可能对每个媒体文件添加标签。为此，美国专利申请US2008/0229192的发明人就提出了一种通过人机交互为图像添加标签的方法。该专利申请从墨迹注释出发，基于墨迹注释的结果执行墨迹识别处理，识别结果用于形成与图像文件相关联的一个或多个标签。然而，在实践中，大多数文件并不包含墨迹注释，尤其是视频文件和音频文件。因此，对于没有墨迹注释的文件，该专利申请所披露的技术方案是不能生成任何标签的。

美国专利20090289942提出一种图像自动标注技术，该方法首先建立一个标签词典，基于标签词典收集大量训练样本，对标签词典中存在的标签建立图模型(Graph Model)，通过图的逐步迭代构建标签模型，该模型可自动完成对每个媒体文件添加标签。该专利的技术方案最大的缺陷在于只能处理有限的标签词典，对于新输入的图像，如果新输入的图像含有的标签在标签词典中不存在，则没有标签输出，导致失败；其次，该方法必须全自动完成，在标注过程中用户无法将先验知识传递给系统，造成先验知识的浪费。

发明内容

有鉴于上述问题，本发明提出了一种为媒体文件添加标签的方法和系统，其能够以全自动方式或者用户少量干预的半自动方式，为输入的媒体文件选择合适的文字标签来描述其内容，为后续的媒体文件检索、管理等实际应用提供有力的支持。

根据本发明的一个方面，提供了一种为媒体文件添加标签的方法，包括：基于已有的含有标签的媒体文件的训练样本构建标签的检测模型，基于所述训练样本中标签的出现频率提取标签之间的共存系数；输入媒体文件，并从所输入的媒体文件中提取视觉特征；获取所输入的媒体文件的初始标签；以及基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签；以及基于所述输入媒体文件的视觉特征以及共存系数，使用标签检测模型从候选标签中选择能够描述输入媒体文件的标签集合。

根据本发明的为媒体文件添加标签的方法，所述基于已有的含有标签的媒体文件的训练样本构建标签的检测模型的步骤包括：基于所述训练样本形成标签词典，并收集所述标签词典中一个具体标签所属的训练样本；提取所收集的训练样本的视觉特征；基于所收集的训练样本以及所述训练样本的视觉特征，构建所述具体标签的检测模型，其中所构建的检测模型给出所述具体标签在一个媒体文件中的存在概率。

根据本发明的为媒体文件添加标签的方法，所述基于所述训练样本中标签的出现频率提取标签之间的共存系数的步骤包括：针对所有训练样本，统计两个标签存在于同一媒体文件中的数量，确定标签两两之间的共存频率；针对所有训练样本，统计其中存在所述两个标签两者和两者之一的媒体文件的数量或者统计其中存在所述两个标签之中的一个标签的媒体文件的数量；基于上述统计的媒体文件的数量，获得所述两个标签的共存系数。

根据本发明的为媒体文件添加标签的方法，其中所述获取所输入的媒体文件的初始标签的步骤可以通过一下方式之一来实现：用户主动提供初始标签、自动提取所输入的媒体文件自身携带的标签、自动提取所输入的媒体文件自身携带的其他信息，并转化成标签形式、利用所输入的媒体文件携带的其他信息，从第三方自动获取初始标签。

根据本发明的为媒体文件添加标签的方法，其中所述视觉特征包括但不限于：媒体文件的颜色、纹理、边缘方向等低层特征以及媒体文件的创建环境、创建时间等高层特征。

根据本发明的为媒体文件添加标签的方法，其中所述使用标签检测模型从候选标签中选择能够描述输入媒体文件的标签集合的步骤包括：基于所构建的标签检测模型，获得每个候选标签针对所输入的媒体文件的存在置信度；基于所述标签之间的共存系数，获取候选标签的共存系数矩阵，其中矩阵的维度等于候选标签的数量；基于所述候选标签的存在置信度和候选标签的共存系数矩阵，计算每个标签的针对所输入的媒体文件的存在得分，其中标签存在得分越大，该标签越能描述所述输入媒体文件的内容；基于所述每个标签的存在得分，对所述候选标签的存在得分进行排序；以及基于所述排序结果，选择适于描述所述输入媒体文件的一个或多个标签。

根据本发明的为媒体文件添加标签的方法，其中所述基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的步骤包括当所述初始标签为多个时，对应于所述多个初始标签中的每一个获取一个候选标签列表；以及所述使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的步骤包括：使用所构建的标签检测模型，获得每个候选标签列表中的每个候选标签针对所输入的媒体文件的存在置信度；基于每个候选标签列表中的所述标签之间的共存系数，获取相应候选标签列表中的标签的共存系数矩阵，其中矩阵的维度等于相应候选标签列表中的标签的数量；基于相应候选标签列表中的每个标签的存在置信度和所述标签的共存系数矩阵，计算相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分，通过累计相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分，获得相应候选标签列表的组合存在得分；其中候选标签列表的组合存在得分越大，该候选标签列表越能描述所述输入媒体文件的内容；基于所述候选标签列表的组合存在得分，对所述候选标签列表的组合存在得分进行排序；以及基于所述排序结果，选择描述所述输入媒体文件的候选标签列表。

根据本发明的另一个方面，提供了一种为媒体文件添加标签的系统，包括：用于基于已有的含有标签的媒体文件的训练样本构建标签的检测模型的模块；用于基于所述训练样本中标签的出现频率提取标签之间的共存系数的模块；用于输入媒体文件，并从所输入的媒体文件中提取视觉特征的模块；用于获取所输入的媒体文件的初始标签的模块；用于基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的模块；用于基于所述输入媒体文件的视觉特征以及共存系数，使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块。

根据本发明的为媒体文件添加标签的系统，其中所述用于使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块包括：用于使用所构建的标签检测模型，获得每个候选标签针对所输入的媒体文件的存在置信度的模块；用于基于所述标签之间的共存系数，获取候选标签的共存系数矩阵的模块，矩阵的维度等于候选标签的数量；用于基于所述候选标签的存在置信度和候选标签的共存系数矩阵，计算每个标签的针对所输入的媒体文件的存在得分的模块，其中，标签存在得分越大，该标签越能描述所述输入媒体文件的内容；用于基于所述每个标签的存在得分，对所述候选标签的存在得分进行排序的模块；以及用于基于所述排序结果，选择描述所述输入媒体文件的一个或多个标签的模块。

根据本发明的为媒体文件添加标签的系统，其中所述用于基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的模块在所述初始标签为多个时，对应于所述多个初始标签中的每一个获取一个候选标签列表；以及所述用于与使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块包括：用于使用所构建的标签检测模型，获得每个候选标签列表中的每个候选标签针对所输入的媒体文件的存在置信度的模块；用于基于每个候选标签列表中的所述标签之间的共存系数，获取相应候选标签列表中的标签的共存系数矩阵的模块，矩阵的维度等于相应候选标签列表中的标签的数量；用于基于相应候选标签列表中的每个标签的存在置信度和所述标签的共存系数矩阵，计算相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分，通过累计相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分，获得相应候选标签列表的组合存在得分的模块；其中候选标签列表的组合存在得分越大，该候选标签列表越能描述所述输入媒体文件的内容；用于基于所述候选标签列表的组合存在得分，对所述候选标签列表的组合存在得分进行排序的模块；以及用于基于所述排序结果，选择描述所述输入媒体文件的候选标签列表的模块。

根据本发明所提供的文件标签方法和系统，其中媒体文件可以是图片、音频或视频文件以及任何其他媒体实体。

根据本发明的系统在媒体文件输入时会提示用户提供一个或多个标签。如果用户做出响应(即输入一个或多个标签)，系统就会更有效率地基于该初始标签进行处理，如果用户没有做出响应，系统就会以一种自动生成初始标签的方式进行处理。由于本发明的技术方案可以通过用户获得初始标签，因此能够充分利用用户的先验知识。

如果用户为一个输入的媒体文件提供一个或多个初始标签或者系统自动生成了一个或多个初始标签，系统就会基于预先计算的标签共存系数针对所述一个或多个初始标签获得若干个候选标签。然后基于所输入的媒体文件的视觉特征，候选标签随后被作为标签输入，计算每个标签的针对所输入的媒体文件的存在得分，并依据得分获得候选标签的排序列表。

如果用户为一个输入的媒体文件提供多个初始标签或者系统自动生成了多个初始标签，系统就会针对所述多个初始标签的每一个执行前一段所描述的步骤，获得包含若干个候选标签的候选标签列表。但是在此处，每个候选列表都被用于计算组合存在得分，最后，获得最高组合存在得分的候选标签列表将是最后的标签列表。

根据上面的描述，显然，本发明所披露的技术方案使得系统为媒体文件添加标签变得非常方便，并且最后用于描述媒体文件的标签集合更准确。

附图说明

图1是了一个具有标签列表的示例性图像；

图2是为媒体文件添加标签的示例性配置框图；

图3是根据本发明实施例200的更详细的示例性配置框图；

图4是示例性示出根据本发明例200的为媒体文件添加标签的流程图。

具体实施方式

在下文中，将参考附图详细描述本发明的实施例。

图1所示是一个具有排序标签列表的示例性图像100，其包括图像102以及排序标签列表104。在该图中显示，一个媒体文件(一张图片)对应一个标签列表，这可形成了一个本发明所述的训练样本。同样，一个标签可对应多个媒体文件，也就是说一个标签可以对应一个媒体文件列表，这种对应关系也构成了一个标签的训练样本。多个训练样本构成了本发明所述的一种训练样本集合。通常，我们通过人工标注的方式构建训练样本，也可收集一个或多个网站中包含标签的媒体文件作为训练样本。这些媒体文件可以表现为本发明所述的多种视觉特征，包括但不限于基于局部二进制模式(Localbinary pattern，LBP)的纹理描述特征、颜色空间中基于块的颜色矩(block-wisecolor moment in lab color space)特征、边缘方向直方图特征、傅立叶描述子特征等，从而形成样本集合的视觉特征空间。所述视觉特征的计算方法为本领域技术人员所知，在此不再详述。

图2表示媒体文件标签添加系统的示例性总体框图，总体采用200表示。如图所示，该文件标签添加系统200包括用于输入媒体文件的模块202、用于输入至少一个初始标签的模块204、媒体文件标签器206、以及用于生成包含一个或多个标签210的排序标签列表的模块208。具体而言，有K个标签210(1)、210(2)...210(K)，其中K为正整数。与如上参照图1所述的标签列表104由图像102获得的配置相似，在此不再详述。

图3表示根据本发明的一个实施例的为媒体文件添加标签的系统300的框图，该媒体文件标签添加系统300具有用于执行标签排序/选择函数的模块314的媒体文件标签器306。如图所示，除了文件标签器306之外，媒体文件添加标签的系统300还包括：用于输入媒体文件的模块302、初始标签生成模块304、标签共存系数提取器305、候选标签生成模块307、以及用于生成最后标签集合的模块308。文件标签器306包括用于执行排序/选择函数的模块314、构建标签检测模型的模块316以及视觉特征提取器318。其中执行排序/选择函数的模块314在执行排序/选择函数时会使用媒体文件特征310和标签特性312。

构建标签检测模型的模块316基于已有的含有标签的媒体文件的训练样本构建标签的检测模型，训练样本通常通过人工标注的方式构建，也可收集一个或多个网站中包含标签的媒体文件作为训练样本。具体而言，基于所述训练样本形成标签词典，并收集所述标签词典中每一个标签所属的训练样本。随后，视觉特征提取器318提取所述训练样本的视觉特征，并将所提取的训练样本的视觉特征传送给构建标签检测模型的模块316。其中，基于所提取的训练样本的视觉特征，作为一个实例，可以使用支持向量机(SVM)构建所述标签的检测模型，其中所构建的检测模型给出所述标签在一个媒体文件中的存在概率。所述支持向量机(SVM)构建标签检测模型的方法为本领域技术人员所知，在此不再详述。

同时，标签共存系数提取器305基于所述训练样本中标签的出现频率提取标签之间的共存系数，即标签特性312。标签共存系数提取器305获得共存系数的过程具体为，针对所有训练样本，统计任意两个标签存在于同一媒体文件中的数量，确定标签两两之间的共存频率。然后，针对所有训练样本，统计其中存在所述两个标签两者和两者之一的媒体文件的数量或者其中存在所述两个标签两者之一的媒体文件的数量。最后，基于上述统计的媒体文件的数量，获得所述两个标签的共存系数。如何获得该共存系数，可以参考后面所提及的公式(1)-(4)。

视觉特征提取器318除了在构建标签检测模型的模块316构建标签检测模型时为对训练样本提取视觉特征之外，还可以在媒体文件输入后从所输入的媒体文件中提取视觉特征，获得媒体文件特征310。

初始标签生成模块304获取所输入的媒体文件的初始标签。初始标签307的获得有多种方式，例如可以由用户主动提供初始标签，在有些输入的媒体文件自身协携带标签的情况下自动提取所述自身携带的标签，也可以自动提取所输入的媒体文件自身携带的其他信息(例如，文件的文件名，形成时间，媒体文件画面中出现的文字信息等)，并将这些信息转化成标签形式，或者利用所输入的媒体文件携带的其他信息(例如，网页链接，视觉特征等)，从第三方自动获取初始标签。但是这些初始标签往往过于粗略，不能准确地描述所输入的媒体文件。

因此，为了形成针对所输入的媒体文件的更为精确的标签，需要基于初始标签来对媒体文件进行精确标注。为进行精确标注，候选标签生成307基于初始标签生成模块304获取所输入的媒体文件的初始标签和同时标签共存系数提取器305提取的标签之间的共存系数获取针对所输入的媒体文件的候选标签。具体而言，就是将训练样本集中的所有标签中与初始标签存在共存关系的标签都设置为候选标签。对于存在多个初始标签的情况，候选标签生成307可以分别针对每个初始标签，生成对应的候选标签列表，即一个初始标签对应一个候选标签列表。

但是候选标签往往比较多，如果直接使用这些候选标签来描述所输入的媒体文件，将使得后续基于标签的媒体文件的查询依然不够精确，因此需要对这些候选标签进行更为精确的筛选。

为此，就需要对这些候选标签进行一定程度的排序，以便从候选标签中选择更适于描述所输入的媒体文件的标签集合。

为此，给出了基于所述输入媒体文件的视觉特征以及共存系数，使用标签检测模型从候选标签中选择能够描述输入媒体文件的标签集合的两种方式，当然，除了下面所提到的两种选择方式之外，还有其他方式，在此不逐一赘述。

一种情况是，执行标签排序/选择的模块314对一个或多个初始标签的所有候选标签进行统一排序。首先，执行标签排序/选择的模块314基于构建标签检测模型的模块316所构建的标签检测模型，获得每个候选标签针对所输入的媒体文件的存在置信度。基于所述标签之间的共存系数，获取候选标签的共存系数矩阵，其中矩阵的维度等于候选标签的数量。基于所述候选标签的存在置信度和候选标签的共存系数矩阵，计算每个标签的针对所输入的媒体文件的存在得分，其中标签存在得分越大，该标签越能描述所述输入媒体文件的内容。如何计算存在得分将在后面进行具体描述。基于所述每个标签的存在得分，对所述候选标签的存在得分进行排序。最后，基于所述排序结果，选择描述所述输入媒体文件的一个或多个标签。

另一种情况是，在存在多个初始标签的情况下，执行标签排序/选择的模块314可以采用对每个初始标签所对应的候选标签集合进行排序的方式来选择最后的标签集合。对于这种方式，使用所构建的标签检测模型，获得每个初始标签所对应的每个候选标签列表中的每个候选标签针对所输入的媒体文件的存在置信度。然后基于每个候选标签列表中的所述标签之间的共存系数，获取相应候选标签列表中的标签的共存系数矩阵，矩阵的维度等于相应候选标签列表中的标签的数量。接着，基于相应候选标签列表中的每个标签的存在置信度和所述标签的共存系数矩阵，计算相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分，通过累计相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分，获得相应候选标签列表的组合存在得分，其中候选标签列表的组合存在得分越大，该候选标签列表越能描述所述输入媒体文件的内容。随后，基于所述候选标签列表的组合存在得分，对所述候选标签列表的组合存在得分进行排序。最后基于所述排序结果，选择描述所述输入媒体文件的候选标签列表。

最后，媒体文件标签器306将排序选择的最后标签输出为媒体文件的最后标签集合308。

图4是示意性示出根据本发明例200的为媒体文件添加标签的流程图。流程图400包括步骤402-414。

在流程图400中，在步骤402构建一组标签检测模型，以及在步骤404处构建标签生成器。标签检测模型的一种实施方式如下。首先对每个标签收集标签训练集合，并提取所述训练样本的视觉特征，接着使用支持向量机(SVM)构建标签检测模型，并基于所述训练样本中标签的出现频率提取标签之间的共存系数。

在步骤406处，媒体文件被输入。在步骤404处，用户可以输入初始标签。如果用户不愿或没有输入初始标签，则在步骤404处可以使用其他标签自动生成方式生成初始标签，例如1)自动提取媒体文件自身携带的标签；2)自动提取所输入的媒体文件自身携带的其他信息，并转化成标签形式；3)利用所输入的媒体文件携带的其他信息，从第三方自动获取初始标签，其中从第三方自动获取初始标签可以使在有标签的网站上搜索相似媒体文件，并提取其标签信息。

在步骤408中，提取所输入的媒体文件的视觉特征，并且在步骤410中，基于来自步骤404处的初始标签获取候选标签。基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签。其中共存系数可由所述训练样本中标签两两之间共存的次数，并通过归一化得到。作为非限制性实施例，可基于如下一些共存系数计算方式：

o (t_{i}, t_{j}) = \frac{| t_{i} \cap t_{j} |}{| t_{i} \cup t_{j} |} - - - (1)

其中，t_i和t_j表示任意两个标签，|·|表示一个集合的大小，∩和∪分别指两个集合的交集和并集。

作为一个示例，共存系数还可以计算为：

o (t_{i}, t_{j}) = \frac{| t_{i} \cap t_{j} |}{| t_{i} | + | t_{j} |} - - - (2)

作为一个示例，考虑不对称性测量，共存系数还可以计算为：

o (t_{i}, t_{j}) = \frac{| t_{i} \cap t_{j} |}{| t_{i} |} - - - (3)

或者

o (t_{i}, t_{j}) = \frac{| t_{i} \cap t_{j} |}{| t_{j} |} - - - (4)

在步骤412中，提出标签或标签列表的排序/选择函数用来获取最终的排序标签列表414。例如，执行排序/选择的模块314可以响应于媒体文件特征310以及标签特性312用来评估以获得标签的排序。举例来说，可以采用一种标签图表来找到最终的标签列表。考虑一种关联图(V，E)，其中，顶点集V对应于N个标签，而边缘集E是通过标签间共存系数来进行加权。采用s＝[s₀，s₁，...，s_N-1]^T来表示标签存在得分向量，其中每个元素s_i表示标签t_i对于给定媒体文件的存在得分，而d＝[d₀，d₁，...，d_N-1]^T表示标签置信度向量，其中每个元素d_i表示从标签检测模块中获得的标签t_i对于给定媒体文件的置信度，如果标签t_i相对应的检测模型不存在，则设d_i＝0.5。此外，ρ是一个协调参数，并且W_N×N{ω_ij}表示共存系数矩阵，其元素ω_ij表示两个标签t_i和t_j(i≠j)的共存系数并且ω_ii＝0。则正则化框架可以用如下公式表示为下述能量函数的最小化：

C (s) = \frac{1}{2} (Σ_{i, j = 0}^{N - 1} ω_{ij} {(\frac{s_{i}}{\sqrt{u_{ii}}} - \frac{s_{j}}{\sqrt{u_{jj}}})}^{2} + ρ Σ_{i = 0}^{N - 1} {(s_{i} - d_{i})}^{2}) - - - (5)

其中，U_N×N{u_ii}是对角线矩阵，其中第i行第i列元素u_ii表示共存系数矩阵W_N×N第i行的元素之和。

那么存在得分的预测函数为：

s^*＝argmin_sC(s) (6)

将C(s)对s求微分，可以获得

\frac{&PartialD; C}{&PartialD; s} |_{s = s^{*}} = s^{*} - {Vs}^{*} + ρ (s^{*} - d) = 0 - - - (7)

其中，

V = U^{- \frac{1}{2}} {WU}^{- \frac{1}{2}} .

上述公式可以变形为：

s^{*} - \frac{1}{1 + ρ} {Vs}^{*} - \frac{ρ}{1 + ρ} d = 0 - - - (8)

设

以及

可以得到(I-αV)s^*＝βd，考虑到(I-αV)是可逆的，因此可以得到

s^*＝β(I-αV)^-1d (9)

为了获得最后的标签集合，可以通过s^*中元素进行排序，并且将最高评分的前几位元素对应的标签确定为给定媒体文件的标签。

对于存在多个初始标签的情况，可以对每个初始标签对应的候选标签列表中的标签的s^*进行累积获得组合评分，然后对每个候选标签列表的组合评分进行排序，并将最高组合评分的标签列表确定为给定媒体文件的标签列表。

尽管上面按照模块的顺序进行了各个模块之间的操作，但是上面所叙述的顺序并不能作为对本发明方法的步骤的顺序的限制，而是可以根据需要进行调整的。尤其是有些步骤之间没有具体先后分别，例如步骤输入媒体文件，并从所输入的媒体文件中提取视觉特征与步骤基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签之间没有先后之别，有些步骤可以同时进行。具体来说，基于已有的含有标签的媒体文件的训练样本构建标签的检测模型，基于所述训练样本中标签的出现频率提取标签之间的共存系数；输入媒体文件，并从所输入的媒体文件中提取视觉特征；以及获取所输入的媒体文件的初始标签，这三个步骤之间没有先后关系，可以同时进行也可以先后进行，这并不影响本发明的效果。

上面已经参考附图描述了根据本发明实施例的代表性图像寻找系统和代表性图像寻找方法。应当注意的是，上述实施例仅是示例性的，而并非限制性的。本领域技术人员完全可以对本发明实施例进行各种修改和替换，而不背离本发明的范围。

Claims

1.一种为媒体文件添加标签的方法，包括：

基于已有的含有标签的媒体文件的训练样本构建标签的检测模型，基于所述训练样本中标签的出现频率提取标签之间的共存系数；

输入媒体文件，并从所输入的媒体文件中提取视觉特征；

获取所输入的媒体文件的初始标签；

基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签；

基于所输入的媒体文件的视觉特征以及共存系数，使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合。

2.根据权利要求1所述的为媒体文件添加标签的方法，其中，所述基于已有的含有标签的媒体文件的训练样本构建标签的检测模型的步骤包括：

基于所述训练样本形成标签词典，并分别收集所述标签词典中的每一个具体标签所属的训练样本；提取所收集的训练样本的视觉特征；

基于所收集的训练样本以及所述训练样本的视觉特征，构建所述具体标签的检测模型，其中所构建的检测模型给出所述具体标签在一个媒体文件中的存在概率。

3.根据权利要求1所述的为媒体文件添加标签的方法，其中，所述基于所述训练样本中标签的出现频率提取标签之间的共存系数的步骤包括：

针对所有训练样本，统计两个标签存在于同一媒体文件中的数量，确定标签两两之间的共存频率；

针对所有训练样本，统计其中存在所述两个标签两者和两者之一的媒体文件的数量或者统计其中存在所述两个标签之中的一个标签的媒体文件的数量；

基于上述统计的媒体文件的数量，获得所述两个标签的共存系数。

4.根据权利要求1所述的为媒体文件添加标签的方法，其中所述获取所输入的媒体文件的初始标签的步骤可以通过以下方式之一来实现：

用户主动提供初始标签；

自动提取所输入的媒体文件自身携带的标签；

自动提取所输入的媒体文件自身携带的其他信息，并转化成标签形式；

利用所输入的媒体文件携带的其他信息，从第三方自动获取初始标签。

5.根据权利要求1所述的为媒体文件添加标签的方法，其中所述视觉特征包括但不限于：

媒体文件的颜色、纹理、边缘方向等低层特征；

媒体文件的创建环境、创建时间等高层特征。

6.根据权利要求1所述的为媒体文件添加标签的方法，其中所述使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的步骤包括：

基于所构建的标签检测模型，获得每个候选标签针对所输入的媒体文件的存在置信度；

基于所述标签之间的共存系数，获取候选标签的共存系数矩阵，其中矩阵的维度等于候选标签的数量；

基于所述候选标签的存在置信度和候选标签的共存系数矩阵，计算每个标签的针对所输入的媒体文件的存在得分，其中标签存在得分越大，该标签越能描述所述输入媒体文件的内容；

基于所述每个标签的存在得分，对所述候选标签的存在得分进行排序；以及

基于所述排序结果，选择适于描述所述输入媒体文件的一个或多个标签。

7.根据权利要求1所述的为媒体文件添加标签的方法，其中所述基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的步骤包括当所述初始标签为多个时，对应于所述多个初始标签中的每一个获取一个候选标签列表；以及

所述使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的步骤包括：

使用所构建的标签检测模型，获得每个候选标签列表中的每个候选标签针对所输入的媒体文件的存在置信度；

基于每个候选标签列表中的所述标签之间的共存系数，获取相应候选标签列表中的标签的共存系数矩阵，其中矩阵的维度等于相应候选标签列表中的标签的数量；

基于相应候选标签列表中的每个标签的存在置信度和所述标签的共存系数矩阵，计算相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分，通过累计相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分，获得相应候选标签列表的组合存在得分；其中候选标签列表的组合存在得分越大，该候选标签列表越能描述所述输入媒体文件的内容；

基于所述候选标签列表的组合存在得分，对所述候选标签列表的组合存在得分进行排序；以及

基于所述排序结果，选择描述所述输入媒体文件的候选标签列表。

8.一种为媒体文件添加标签的系统，包括：

用于基于已有的含有标签的媒体文件的训练样本构建标签的检测模型的模块；

用于基于所述训练样本中标签的出现频率提取标签之间的共存系数的模块；

用于输入媒体文件，并从所输入的媒体文件中提取视觉特征的模块；

用于获取所输入的媒体文件的初始标签的模块；

用于基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的模块；

用于基于所述输入媒体文件的视觉特征以及共存系数，使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块。

9.根据权利要求8所述的为媒体文件添加标签的系统，其中所述用于使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块包括：

用于使用所构建的标签检测模型，获得每个候选标签针对所输入的媒体文件的存在置信度的模块；

用于基于所述标签之间的共存系数，获取候选标签的共存系数矩阵的模块，矩阵的维度等于候选标签的数量；

用于基于所述候选标签的存在置信度和候选标签的共存系数矩阵，计算每个标签的针对所输入的媒体文件的存在得分的模块，其中，标签存在得分越大，该标签越能描述所述输入媒体文件的内容；

用于基于所述每个标签的存在得分，对所述候选标签的存在得分进行排序的模块；以及

用于基于所述排序结果，选择描述所述输入媒体文件的一个或多个标签的模块。

10.根据权利要求8所述的为媒体文件添加标签的系统，其中所述用于基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的模块在所述初始标签为多个时，对应于所述多个初始标签中的每一个获取一个候选标签列表；以及

所述用于与使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块包括：

用于使用所构建的标签检测模型，获得每个候选标签列表中的每个候选标签针对所输入的媒体文件的存在置信度的模块；

用于基于每个候选标签列表中的所述标签之间的共存系数，获取相应候选标签列表中的标签的共存系数矩阵的模块，矩阵的维度等于相应候选标签列表中的标签的数量；

用于基于相应候选标签列表中的每个标签的存在置信度和所述标签的共存系数矩阵，计算相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分，通过累计相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分，获得相应候选标签列表的组合存在得分的模块；其中候选标签列表的组合存在得分越大，该候选标签列表越能描述所述输入媒体文件的内容；

用于基于所述候选标签列表的组合存在得分，对所述候选标签列表的组合存在得分进行排序的模块；以及

用于基于所述排序结果，选择描述所述输入媒体文件的候选标签列表的模块。