CN102193946A - 为媒体文件添加标签方法和使用该方法的系统 - Google Patents

为媒体文件添加标签方法和使用该方法的系统 Download PDF

Info

Publication number
CN102193946A
CN102193946A CN2010101270160A CN201010127016A CN102193946A CN 102193946 A CN102193946 A CN 102193946A CN 2010101270160 A CN2010101270160 A CN 2010101270160A CN 201010127016 A CN201010127016 A CN 201010127016A CN 102193946 A CN102193946 A CN 102193946A
Authority
CN
China
Prior art keywords
label
labels
candidate
media file
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010101270160A
Other languages
English (en)
Inventor
刘媛
李滔
徐盈辉
陈义
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN2010101270160A priority Critical patent/CN102193946A/zh
Priority to US13/005,062 priority patent/US8737771B2/en
Priority to JP2011056643A priority patent/JP2011198364A/ja
Publication of CN102193946A publication Critical patent/CN102193946A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Abstract

本发明提供了一种为媒体文件添加标签的方法,包括:基于已有的含有标签的媒体文件的训练样本构建标签的检测模型,基于所述训练样本中标签的出现频率提取标签之间的共存系数;输入媒体文件,并从所输入的媒体文件中提取视觉特征;获取所输入的媒体文件的初始标签;基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签;基于所输入的媒体文件的视觉特征以及共存系数,使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合。

Description

为媒体文件添加标签方法和使用该方法的系统
技术领域
本发明涉及标签添加方法和使用该方法的系统,并且更具体地,涉及一种为内容文件添加标签的方法和系统。
背景技术
随着数字技术的普及,现在已经产生了大量的媒体文件,例如音频文件、视频文件、图片、文本以及其组合文件。大量音视频文件的出现为人们生动地记录和保存各种信息带来了便利。但是,随着这种媒体文件的大量产生,用户如何迅速地从这些大量的媒体文件中找到自己所需的文件成为一个问题。为了解决这个问题,人们提出为媒体文件添加能够描述其内容的文字标签,从而方便人们通过文字标签来查找各种媒体文件,这种为媒体文件添加文字标签的方法称之为“媒体文件标签法”,就是一种为图片、音乐片段以及视频片段添加关键字或关键词(也称之为标签)的一种行为。这些标签可以用于随后的各种媒体文件相关的应用中,例如用于多媒体管理、多媒体搜索、版权保护以及对象识别等等。
传统的媒体标签法采用人力对媒体文件添加标签,显然非常地费时费力,面对现今日益增长的媒体文件,单靠人力不可能对每个媒体文件添加标签。为此,美国专利申请US2008/0229192的发明人就提出了一种通过人机交互为图像添加标签的方法。该专利申请从墨迹注释出发,基于墨迹注释的结果执行墨迹识别处理,识别结果用于形成与图像文件相关联的一个或多个标签。然而,在实践中,大多数文件并不包含墨迹注释,尤其是视频文件和音频文件。因此,对于没有墨迹注释的文件,该专利申请所披露的技术方案是不能生成任何标签的。
美国专利20090289942提出一种图像自动标注技术,该方法首先建立一个标签词典,基于标签词典收集大量训练样本,对标签词典中存在的标签建立图模型(Graph Model),通过图的逐步迭代构建标签模型,该模型可自动完成对每个媒体文件添加标签。该专利的技术方案最大的缺陷在于只能处理有限的标签词典,对于新输入的图像,如果新输入的图像含有的标签在标签词典中不存在,则没有标签输出,导致失败;其次,该方法必须全自动完成,在标注过程中用户无法将先验知识传递给系统,造成先验知识的浪费。
发明内容
有鉴于上述问题,本发明提出了一种为媒体文件添加标签的方法和系统,其能够以全自动方式或者用户少量干预的半自动方式,为输入的媒体文件选择合适的文字标签来描述其内容,为后续的媒体文件检索、管理等实际应用提供有力的支持。
根据本发明的一个方面,提供了一种为媒体文件添加标签的方法,包括:基于已有的含有标签的媒体文件的训练样本构建标签的检测模型,基于所述训练样本中标签的出现频率提取标签之间的共存系数;输入媒体文件,并从所输入的媒体文件中提取视觉特征;获取所输入的媒体文件的初始标签;以及基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签;以及基于所述输入媒体文件的视觉特征以及共存系数,使用标签检测模型从候选标签中选择能够描述输入媒体文件的标签集合。
根据本发明的为媒体文件添加标签的方法,所述基于已有的含有标签的媒体文件的训练样本构建标签的检测模型的步骤包括:基于所述训练样本形成标签词典,并收集所述标签词典中一个具体标签所属的训练样本;提取所收集的训练样本的视觉特征;基于所收集的训练样本以及所述训练样本的视觉特征,构建所述具体标签的检测模型,其中所构建的检测模型给出所述具体标签在一个媒体文件中的存在概率。
根据本发明的为媒体文件添加标签的方法,所述基于所述训练样本中标签的出现频率提取标签之间的共存系数的步骤包括:针对所有训练样本,统计两个标签存在于同一媒体文件中的数量,确定标签两两之间的共存频率;针对所有训练样本,统计其中存在所述两个标签两者和两者之一的媒体文件的数量或者统计其中存在所述两个标签之中的一个标签的媒体文件的数量;基于上述统计的媒体文件的数量,获得所述两个标签的共存系数。
根据本发明的为媒体文件添加标签的方法,其中所述获取所输入的媒体文件的初始标签的步骤可以通过一下方式之一来实现:用户主动提供初始标签、自动提取所输入的媒体文件自身携带的标签、自动提取所输入的媒体文件自身携带的其他信息,并转化成标签形式、利用所输入的媒体文件携带的其他信息,从第三方自动获取初始标签。
根据本发明的为媒体文件添加标签的方法,其中所述视觉特征包括但不限于:媒体文件的颜色、纹理、边缘方向等低层特征以及媒体文件的创建环境、创建时间等高层特征。
根据本发明的为媒体文件添加标签的方法,其中所述使用标签检测模型从候选标签中选择能够描述输入媒体文件的标签集合的步骤包括:基于所构建的标签检测模型,获得每个候选标签针对所输入的媒体文件的存在置信度;基于所述标签之间的共存系数,获取候选标签的共存系数矩阵,其中矩阵的维度等于候选标签的数量;基于所述候选标签的存在置信度和候选标签的共存系数矩阵,计算每个标签的针对所输入的媒体文件的存在得分,其中标签存在得分越大,该标签越能描述所述输入媒体文件的内容;基于所述每个标签的存在得分,对所述候选标签的存在得分进行排序;以及基于所述排序结果,选择适于描述所述输入媒体文件的一个或多个标签。
根据本发明的为媒体文件添加标签的方法,其中所述基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的步骤包括当所述初始标签为多个时,对应于所述多个初始标签中的每一个获取一个候选标签列表;以及所述使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的步骤包括:使用所构建的标签检测模型,获得每个候选标签列表中的每个候选标签针对所输入的媒体文件的存在置信度;基于每个候选标签列表中的所述标签之间的共存系数,获取相应候选标签列表中的标签的共存系数矩阵,其中矩阵的维度等于相应候选标签列表中的标签的数量;基于相应候选标签列表中的每个标签的存在置信度和所述标签的共存系数矩阵,计算相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分,通过累计相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分,获得相应候选标签列表的组合存在得分;其中候选标签列表的组合存在得分越大,该候选标签列表越能描述所述输入媒体文件的内容;基于所述候选标签列表的组合存在得分,对所述候选标签列表的组合存在得分进行排序;以及基于所述排序结果,选择描述所述输入媒体文件的候选标签列表。
根据本发明的另一个方面,提供了一种为媒体文件添加标签的系统,包括:用于基于已有的含有标签的媒体文件的训练样本构建标签的检测模型的模块;用于基于所述训练样本中标签的出现频率提取标签之间的共存系数的模块;用于输入媒体文件,并从所输入的媒体文件中提取视觉特征的模块;用于获取所输入的媒体文件的初始标签的模块;用于基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的模块;用于基于所述输入媒体文件的视觉特征以及共存系数,使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块。
根据本发明的为媒体文件添加标签的系统,其中所述用于使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块包括:用于使用所构建的标签检测模型,获得每个候选标签针对所输入的媒体文件的存在置信度的模块;用于基于所述标签之间的共存系数,获取候选标签的共存系数矩阵的模块,矩阵的维度等于候选标签的数量;用于基于所述候选标签的存在置信度和候选标签的共存系数矩阵,计算每个标签的针对所输入的媒体文件的存在得分的模块,其中,标签存在得分越大,该标签越能描述所述输入媒体文件的内容;用于基于所述每个标签的存在得分,对所述候选标签的存在得分进行排序的模块;以及用于基于所述排序结果,选择描述所述输入媒体文件的一个或多个标签的模块。
根据本发明的为媒体文件添加标签的系统,其中所述用于基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的模块在所述初始标签为多个时,对应于所述多个初始标签中的每一个获取一个候选标签列表;以及所述用于与使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块包括:用于使用所构建的标签检测模型,获得每个候选标签列表中的每个候选标签针对所输入的媒体文件的存在置信度的模块;用于基于每个候选标签列表中的所述标签之间的共存系数,获取相应候选标签列表中的标签的共存系数矩阵的模块,矩阵的维度等于相应候选标签列表中的标签的数量;用于基于相应候选标签列表中的每个标签的存在置信度和所述标签的共存系数矩阵,计算相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分,通过累计相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分,获得相应候选标签列表的组合存在得分的模块;其中候选标签列表的组合存在得分越大,该候选标签列表越能描述所述输入媒体文件的内容;用于基于所述候选标签列表的组合存在得分,对所述候选标签列表的组合存在得分进行排序的模块;以及用于基于所述排序结果,选择描述所述输入媒体文件的候选标签列表的模块。
根据本发明所提供的文件标签方法和系统,其中媒体文件可以是图片、音频或视频文件以及任何其他媒体实体。
根据本发明的系统在媒体文件输入时会提示用户提供一个或多个标签。如果用户做出响应(即输入一个或多个标签),系统就会更有效率地基于该初始标签进行处理,如果用户没有做出响应,系统就会以一种自动生成初始标签的方式进行处理。由于本发明的技术方案可以通过用户获得初始标签,因此能够充分利用用户的先验知识。
如果用户为一个输入的媒体文件提供一个或多个初始标签或者系统自动生成了一个或多个初始标签,系统就会基于预先计算的标签共存系数针对所述一个或多个初始标签获得若干个候选标签。然后基于所输入的媒体文件的视觉特征,候选标签随后被作为标签输入,计算每个标签的针对所输入的媒体文件的存在得分,并依据得分获得候选标签的排序列表。
如果用户为一个输入的媒体文件提供多个初始标签或者系统自动生成了多个初始标签,系统就会针对所述多个初始标签的每一个执行前一段所描述的步骤,获得包含若干个候选标签的候选标签列表。但是在此处,每个候选列表都被用于计算组合存在得分,最后,获得最高组合存在得分的候选标签列表将是最后的标签列表。
根据上面的描述,显然,本发明所披露的技术方案使得系统为媒体文件添加标签变得非常方便,并且最后用于描述媒体文件的标签集合更准确。
附图说明
图1是了一个具有标签列表的示例性图像;
图2是为媒体文件添加标签的示例性配置框图;
图3是根据本发明实施例200的更详细的示例性配置框图;
图4是示例性示出根据本发明例200的为媒体文件添加标签的流程图。
具体实施方式
在下文中,将参考附图详细描述本发明的实施例。
图1所示是一个具有排序标签列表的示例性图像100,其包括图像102以及排序标签列表104。在该图中显示,一个媒体文件(一张图片)对应一个标签列表,这可形成了一个本发明所述的训练样本。同样,一个标签可对应多个媒体文件,也就是说一个标签可以对应一个媒体文件列表,这种对应关系也构成了一个标签的训练样本。多个训练样本构成了本发明所述的一种训练样本集合。通常,我们通过人工标注的方式构建训练样本,也可收集一个或多个网站中包含标签的媒体文件作为训练样本。这些媒体文件可以表现为本发明所述的多种视觉特征,包括但不限于基于局部二进制模式(Localbinary pattern,LBP)的纹理描述特征、颜色空间中基于块的颜色矩(block-wisecolor moment in lab color space)特征、边缘方向直方图特征、傅立叶描述子特征等,从而形成样本集合的视觉特征空间。所述视觉特征的计算方法为本领域技术人员所知,在此不再详述。
图2表示媒体文件标签添加系统的示例性总体框图,总体采用200表示。如图所示,该文件标签添加系统200包括用于输入媒体文件的模块202、用于输入至少一个初始标签的模块204、媒体文件标签器206、以及用于生成包含一个或多个标签210的排序标签列表的模块208。具体而言,有K个标签210(1)、210(2)...210(K),其中K为正整数。与如上参照图1所述的标签列表104由图像102获得的配置相似,在此不再详述。
图3表示根据本发明的一个实施例的为媒体文件添加标签的系统300的框图,该媒体文件标签添加系统300具有用于执行标签排序/选择函数的模块314的媒体文件标签器306。如图所示,除了文件标签器306之外,媒体文件添加标签的系统300还包括:用于输入媒体文件的模块302、初始标签生成模块304、标签共存系数提取器305、候选标签生成模块307、以及用于生成最后标签集合的模块308。文件标签器306包括用于执行排序/选择函数的模块314、构建标签检测模型的模块316以及视觉特征提取器318。其中执行排序/选择函数的模块314在执行排序/选择函数时会使用媒体文件特征310和标签特性312。
构建标签检测模型的模块316基于已有的含有标签的媒体文件的训练样本构建标签的检测模型,训练样本通常通过人工标注的方式构建,也可收集一个或多个网站中包含标签的媒体文件作为训练样本。具体而言,基于所述训练样本形成标签词典,并收集所述标签词典中每一个标签所属的训练样本。随后,视觉特征提取器318提取所述训练样本的视觉特征,并将所提取的训练样本的视觉特征传送给构建标签检测模型的模块316。其中,基于所提取的训练样本的视觉特征,作为一个实例,可以使用支持向量机(SVM)构建所述标签的检测模型,其中所构建的检测模型给出所述标签在一个媒体文件中的存在概率。所述支持向量机(SVM)构建标签检测模型的方法为本领域技术人员所知,在此不再详述。
同时,标签共存系数提取器305基于所述训练样本中标签的出现频率提取标签之间的共存系数,即标签特性312。标签共存系数提取器305获得共存系数的过程具体为,针对所有训练样本,统计任意两个标签存在于同一媒体文件中的数量,确定标签两两之间的共存频率。然后,针对所有训练样本,统计其中存在所述两个标签两者和两者之一的媒体文件的数量或者其中存在所述两个标签两者之一的媒体文件的数量。最后,基于上述统计的媒体文件的数量,获得所述两个标签的共存系数。如何获得该共存系数,可以参考后面所提及的公式(1)-(4)。
视觉特征提取器318除了在构建标签检测模型的模块316构建标签检测模型时为对训练样本提取视觉特征之外,还可以在媒体文件输入后从所输入的媒体文件中提取视觉特征,获得媒体文件特征310。
初始标签生成模块304获取所输入的媒体文件的初始标签。初始标签307的获得有多种方式,例如可以由用户主动提供初始标签,在有些输入的媒体文件自身协携带标签的情况下自动提取所述自身携带的标签,也可以自动提取所输入的媒体文件自身携带的其他信息(例如,文件的文件名,形成时间,媒体文件画面中出现的文字信息等),并将这些信息转化成标签形式,或者利用所输入的媒体文件携带的其他信息(例如,网页链接,视觉特征等),从第三方自动获取初始标签。但是这些初始标签往往过于粗略,不能准确地描述所输入的媒体文件。
因此,为了形成针对所输入的媒体文件的更为精确的标签,需要基于初始标签来对媒体文件进行精确标注。为进行精确标注,候选标签生成307基于初始标签生成模块304获取所输入的媒体文件的初始标签和同时标签共存系数提取器305提取的标签之间的共存系数获取针对所输入的媒体文件的候选标签。具体而言,就是将训练样本集中的所有标签中与初始标签存在共存关系的标签都设置为候选标签。对于存在多个初始标签的情况,候选标签生成307可以分别针对每个初始标签,生成对应的候选标签列表,即一个初始标签对应一个候选标签列表。
但是候选标签往往比较多,如果直接使用这些候选标签来描述所输入的媒体文件,将使得后续基于标签的媒体文件的查询依然不够精确,因此需要对这些候选标签进行更为精确的筛选。
为此,就需要对这些候选标签进行一定程度的排序,以便从候选标签中选择更适于描述所输入的媒体文件的标签集合。
为此,给出了基于所述输入媒体文件的视觉特征以及共存系数,使用标签检测模型从候选标签中选择能够描述输入媒体文件的标签集合的两种方式,当然,除了下面所提到的两种选择方式之外,还有其他方式,在此不逐一赘述。
一种情况是,执行标签排序/选择的模块314对一个或多个初始标签的所有候选标签进行统一排序。首先,执行标签排序/选择的模块314基于构建标签检测模型的模块316所构建的标签检测模型,获得每个候选标签针对所输入的媒体文件的存在置信度。基于所述标签之间的共存系数,获取候选标签的共存系数矩阵,其中矩阵的维度等于候选标签的数量。基于所述候选标签的存在置信度和候选标签的共存系数矩阵,计算每个标签的针对所输入的媒体文件的存在得分,其中标签存在得分越大,该标签越能描述所述输入媒体文件的内容。如何计算存在得分将在后面进行具体描述。基于所述每个标签的存在得分,对所述候选标签的存在得分进行排序。最后,基于所述排序结果,选择描述所述输入媒体文件的一个或多个标签。
另一种情况是,在存在多个初始标签的情况下,执行标签排序/选择的模块314可以采用对每个初始标签所对应的候选标签集合进行排序的方式来选择最后的标签集合。对于这种方式,使用所构建的标签检测模型,获得每个初始标签所对应的每个候选标签列表中的每个候选标签针对所输入的媒体文件的存在置信度。然后基于每个候选标签列表中的所述标签之间的共存系数,获取相应候选标签列表中的标签的共存系数矩阵,矩阵的维度等于相应候选标签列表中的标签的数量。接着,基于相应候选标签列表中的每个标签的存在置信度和所述标签的共存系数矩阵,计算相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分,通过累计相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分,获得相应候选标签列表的组合存在得分,其中候选标签列表的组合存在得分越大,该候选标签列表越能描述所述输入媒体文件的内容。随后,基于所述候选标签列表的组合存在得分,对所述候选标签列表的组合存在得分进行排序。最后基于所述排序结果,选择描述所述输入媒体文件的候选标签列表。
最后,媒体文件标签器306将排序选择的最后标签输出为媒体文件的最后标签集合308。
图4是示意性示出根据本发明例200的为媒体文件添加标签的流程图。流程图400包括步骤402-414。
在流程图400中,在步骤402构建一组标签检测模型,以及在步骤404处构建标签生成器。标签检测模型的一种实施方式如下。首先对每个标签收集标签训练集合,并提取所述训练样本的视觉特征,接着使用支持向量机(SVM)构建标签检测模型,并基于所述训练样本中标签的出现频率提取标签之间的共存系数。
在步骤406处,媒体文件被输入。在步骤404处,用户可以输入初始标签。如果用户不愿或没有输入初始标签,则在步骤404处可以使用其他标签自动生成方式生成初始标签,例如1)自动提取媒体文件自身携带的标签;2)自动提取所输入的媒体文件自身携带的其他信息,并转化成标签形式;3)利用所输入的媒体文件携带的其他信息,从第三方自动获取初始标签,其中从第三方自动获取初始标签可以使在有标签的网站上搜索相似媒体文件,并提取其标签信息。
在步骤408中,提取所输入的媒体文件的视觉特征,并且在步骤410中,基于来自步骤404处的初始标签获取候选标签。基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签。其中共存系数可由所述训练样本中标签两两之间共存的次数,并通过归一化得到。作为非限制性实施例,可基于如下一些共存系数计算方式:
o ( t i , t j ) = | t i ∩ t j | | t i ∪ t j | - - - ( 1 )
其中,ti和tj表示任意两个标签,|·|表示一个集合的大小,∩和∪分别指两个集合的交集和并集。
作为一个示例,共存系数还可以计算为:
o ( t i , t j ) = | t i ∩ t j | | t i | + | t j | - - - ( 2 )
作为一个示例,考虑不对称性测量,共存系数还可以计算为:
o ( t i , t j ) = | t i ∩ t j | | t i | - - - ( 3 )
或者
o ( t i , t j ) = | t i ∩ t j | | t j | - - - ( 4 )
在步骤412中,提出标签或标签列表的排序/选择函数用来获取最终的排序标签列表414。例如,执行排序/选择的模块314可以响应于媒体文件特征310以及标签特性312用来评估以获得标签的排序。举例来说,可以采用一种标签图表来找到最终的标签列表。考虑一种关联图(V,E),其中,顶点集V对应于N个标签,而边缘集E是通过标签间共存系数来进行加权。采用s=[s0,s1,...,sN-1]T来表示标签存在得分向量,其中每个元素si表示标签ti对于给定媒体文件的存在得分,而d=[d0,d1,...,dN-1]T表示标签置信度向量,其中每个元素di表示从标签检测模块中获得的标签ti对于给定媒体文件的置信度,如果标签ti相对应的检测模型不存在,则设di=0.5。此外,ρ是一个协调参数,并且WN×Nij}表示共存系数矩阵,其元素ωij表示两个标签ti和tj(i≠j)的共存系数并且ωii=0。则正则化框架可以用如下公式表示为下述能量函数的最小化:
C ( s ) = 1 2 ( Σ i , j = 0 N - 1 ω ij ( s i u ii - s j u jj ) 2 + ρ Σ i = 0 N - 1 ( s i - d i ) 2 ) - - - ( 5 )
其中,UN×N{uii}是对角线矩阵,其中第i行第i列元素uii表示共存系数矩阵WN×N第i行的元素之和。
那么存在得分的预测函数为:
s*=argminsC(s)       (6)
将C(s)对s求微分,可以获得
∂ C ∂ s | s = s * = s * - Vs * + ρ ( s * - d ) = 0 - - - ( 7 )
其中, V = U - 1 2 WU - 1 2 .
上述公式可以变形为:
s * - 1 1 + ρ Vs * - ρ 1 + ρ d = 0 - - - ( 8 )
Figure GSA00000037111500111
以及
Figure GSA00000037111500112
可以得到(I-αV)s*=βd,考虑到(I-αV)是可逆的,因此可以得到
s*=β(I-αV)-1d    (9)
为了获得最后的标签集合,可以通过s*中元素进行排序,并且将最高评分的前几位元素对应的标签确定为给定媒体文件的标签。
对于存在多个初始标签的情况,可以对每个初始标签对应的候选标签列表中的标签的s*进行累积获得组合评分,然后对每个候选标签列表的组合评分进行排序,并将最高组合评分的标签列表确定为给定媒体文件的标签列表。
尽管上面按照模块的顺序进行了各个模块之间的操作,但是上面所叙述的顺序并不能作为对本发明方法的步骤的顺序的限制,而是可以根据需要进行调整的。尤其是有些步骤之间没有具体先后分别,例如步骤输入媒体文件,并从所输入的媒体文件中提取视觉特征与步骤基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签之间没有先后之别,有些步骤可以同时进行。具体来说,基于已有的含有标签的媒体文件的训练样本构建标签的检测模型,基于所述训练样本中标签的出现频率提取标签之间的共存系数;输入媒体文件,并从所输入的媒体文件中提取视觉特征;以及获取所输入的媒体文件的初始标签,这三个步骤之间没有先后关系,可以同时进行也可以先后进行,这并不影响本发明的效果。
上面已经参考附图描述了根据本发明实施例的代表性图像寻找系统和代表性图像寻找方法。应当注意的是,上述实施例仅是示例性的,而并非限制性的。本领域技术人员完全可以对本发明实施例进行各种修改和替换,而不背离本发明的范围。

Claims (10)

1.一种为媒体文件添加标签的方法,包括:
基于已有的含有标签的媒体文件的训练样本构建标签的检测模型,基于所述训练样本中标签的出现频率提取标签之间的共存系数;
输入媒体文件,并从所输入的媒体文件中提取视觉特征;
获取所输入的媒体文件的初始标签;
基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签;
基于所输入的媒体文件的视觉特征以及共存系数,使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合。
2.根据权利要求1所述的为媒体文件添加标签的方法,其中,所述基于已有的含有标签的媒体文件的训练样本构建标签的检测模型的步骤包括:
基于所述训练样本形成标签词典,并分别收集所述标签词典中的每一个具体标签所属的训练样本;提取所收集的训练样本的视觉特征;
基于所收集的训练样本以及所述训练样本的视觉特征,构建所述具体标签的检测模型,其中所构建的检测模型给出所述具体标签在一个媒体文件中的存在概率。
3.根据权利要求1所述的为媒体文件添加标签的方法,其中,所述基于所述训练样本中标签的出现频率提取标签之间的共存系数的步骤包括:
针对所有训练样本,统计两个标签存在于同一媒体文件中的数量,确定标签两两之间的共存频率;
针对所有训练样本,统计其中存在所述两个标签两者和两者之一的媒体文件的数量或者统计其中存在所述两个标签之中的一个标签的媒体文件的数量;
基于上述统计的媒体文件的数量,获得所述两个标签的共存系数。
4.根据权利要求1所述的为媒体文件添加标签的方法,其中所述获取所输入的媒体文件的初始标签的步骤可以通过以下方式之一来实现:
用户主动提供初始标签;
自动提取所输入的媒体文件自身携带的标签;
自动提取所输入的媒体文件自身携带的其他信息,并转化成标签形式;
利用所输入的媒体文件携带的其他信息,从第三方自动获取初始标签。
5.根据权利要求1所述的为媒体文件添加标签的方法,其中所述视觉特征包括但不限于:
媒体文件的颜色、纹理、边缘方向等低层特征;
媒体文件的创建环境、创建时间等高层特征。
6.根据权利要求1所述的为媒体文件添加标签的方法,其中所述使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的步骤包括:
基于所构建的标签检测模型,获得每个候选标签针对所输入的媒体文件的存在置信度;
基于所述标签之间的共存系数,获取候选标签的共存系数矩阵,其中矩阵的维度等于候选标签的数量;
基于所述候选标签的存在置信度和候选标签的共存系数矩阵,计算每个标签的针对所输入的媒体文件的存在得分,其中标签存在得分越大,该标签越能描述所述输入媒体文件的内容;
基于所述每个标签的存在得分,对所述候选标签的存在得分进行排序;以及
基于所述排序结果,选择适于描述所述输入媒体文件的一个或多个标签。
7.根据权利要求1所述的为媒体文件添加标签的方法,其中所述基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的步骤包括当所述初始标签为多个时,对应于所述多个初始标签中的每一个获取一个候选标签列表;以及
所述使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的步骤包括:
使用所构建的标签检测模型,获得每个候选标签列表中的每个候选标签针对所输入的媒体文件的存在置信度;
基于每个候选标签列表中的所述标签之间的共存系数,获取相应候选标签列表中的标签的共存系数矩阵,其中矩阵的维度等于相应候选标签列表中的标签的数量;
基于相应候选标签列表中的每个标签的存在置信度和所述标签的共存系数矩阵,计算相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分,通过累计相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分,获得相应候选标签列表的组合存在得分;其中候选标签列表的组合存在得分越大,该候选标签列表越能描述所述输入媒体文件的内容;
基于所述候选标签列表的组合存在得分,对所述候选标签列表的组合存在得分进行排序;以及
基于所述排序结果,选择描述所述输入媒体文件的候选标签列表。
8.一种为媒体文件添加标签的系统,包括:
用于基于已有的含有标签的媒体文件的训练样本构建标签的检测模型的模块;
用于基于所述训练样本中标签的出现频率提取标签之间的共存系数的模块;
用于输入媒体文件,并从所输入的媒体文件中提取视觉特征的模块;
用于获取所输入的媒体文件的初始标签的模块;
用于基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的模块;
用于基于所述输入媒体文件的视觉特征以及共存系数,使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块。
9.根据权利要求8所述的为媒体文件添加标签的系统,其中所述用于使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块包括:
用于使用所构建的标签检测模型,获得每个候选标签针对所输入的媒体文件的存在置信度的模块;
用于基于所述标签之间的共存系数,获取候选标签的共存系数矩阵的模块,矩阵的维度等于候选标签的数量;
用于基于所述候选标签的存在置信度和候选标签的共存系数矩阵,计算每个标签的针对所输入的媒体文件的存在得分的模块,其中,标签存在得分越大,该标签越能描述所述输入媒体文件的内容;
用于基于所述每个标签的存在得分,对所述候选标签的存在得分进行排序的模块;以及
用于基于所述排序结果,选择描述所述输入媒体文件的一个或多个标签的模块。
10.根据权利要求8所述的为媒体文件添加标签的系统,其中所述用于基于所述初始标签和所述训练样本中的标签之间的共存系数获取候选标签的模块在所述初始标签为多个时,对应于所述多个初始标签中的每一个获取一个候选标签列表;以及
所述用于与使用标签检测模型从所述候选标签中选择能够描述输入媒体文件的标签集合的模块包括:
用于使用所构建的标签检测模型,获得每个候选标签列表中的每个候选标签针对所输入的媒体文件的存在置信度的模块;
用于基于每个候选标签列表中的所述标签之间的共存系数,获取相应候选标签列表中的标签的共存系数矩阵的模块,矩阵的维度等于相应候选标签列表中的标签的数量;
用于基于相应候选标签列表中的每个标签的存在置信度和所述标签的共存系数矩阵,计算相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分,通过累计相应候选标签列表中的每个标签的针对所输入的媒体文件的存在得分,获得相应候选标签列表的组合存在得分的模块;其中候选标签列表的组合存在得分越大,该候选标签列表越能描述所述输入媒体文件的内容;
用于基于所述候选标签列表的组合存在得分,对所述候选标签列表的组合存在得分进行排序的模块;以及
用于基于所述排序结果,选择描述所述输入媒体文件的候选标签列表的模块。
CN2010101270160A 2010-03-18 2010-03-18 为媒体文件添加标签方法和使用该方法的系统 Pending CN102193946A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2010101270160A CN102193946A (zh) 2010-03-18 2010-03-18 为媒体文件添加标签方法和使用该方法的系统
US13/005,062 US8737771B2 (en) 2010-03-18 2011-01-12 Annotation addition method, annotation addition system using the same, and machine-readable medium
JP2011056643A JP2011198364A (ja) 2010-03-18 2011-03-15 媒体文書へのラベル添加方法及び該方法を用いるシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101270160A CN102193946A (zh) 2010-03-18 2010-03-18 为媒体文件添加标签方法和使用该方法的系统

Publications (1)

Publication Number Publication Date
CN102193946A true CN102193946A (zh) 2011-09-21

Family

ID=44602025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101270160A Pending CN102193946A (zh) 2010-03-18 2010-03-18 为媒体文件添加标签方法和使用该方法的系统

Country Status (3)

Country Link
US (1) US8737771B2 (zh)
JP (1) JP2011198364A (zh)
CN (1) CN102193946A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547921A (zh) * 2016-12-07 2017-03-29 东软集团股份有限公司 标签生成方法及装置
CN107045447A (zh) * 2016-02-05 2017-08-15 阿里巴巴集团控股有限公司 一种数据对象的标签显示方法和装置
CN107430610A (zh) * 2015-02-13 2017-12-01 澳大利亚国家Ict有限公司 从分布式数据学习
CN107851124A (zh) * 2015-07-27 2018-03-27 高通股份有限公司 自组织网络中的媒体标记传播
CN108416382A (zh) * 2018-03-01 2018-08-17 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN109345515A (zh) * 2018-09-17 2019-02-15 代黎明 样本标签置信度计算方法、装置、设备及模型训练方法
CN109740016A (zh) * 2019-01-03 2019-05-10 百度在线网络技术(北京)有限公司 音乐查询的方法、装置、服务器和计算机可读存储介质
TWI717740B (zh) * 2019-05-22 2021-02-01 天思數位科技股份有限公司 結合擴增實境的圖徵動態重渲染系統及其方法
CN112988699A (zh) * 2019-12-02 2021-06-18 杭州海康威视数字技术股份有限公司 模型训练方法、数据标签的生成方法及装置
CN113132752A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 视频处理方法及装置
CN113297382A (zh) * 2021-06-21 2021-08-24 西南大学 仪器设备功能标签化处理方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
US20160335493A1 (en) * 2015-05-15 2016-11-17 Jichuan Zheng Method, apparatus, and non-transitory computer-readable storage medium for matching text to images
WO2020176064A1 (en) * 2018-12-31 2020-09-03 Didi Research America, Llc Method and system of annotation densification for semantic segmentation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587478A (zh) * 2008-05-20 2009-11-25 株式会社理光 图像训练、自动标注、检索方法及装置
US20090297050A1 (en) * 2008-05-30 2009-12-03 Microsoft Corporation Statistical Approach to Large-scale Image Annotation
US20090304272A1 (en) * 2008-06-06 2009-12-10 Google Inc. Annotating images
US20100010982A1 (en) * 2008-07-09 2010-01-14 Broder Andrei Z Web content characterization based on semantic folksonomies associated with user generated content

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398467B1 (en) 2000-06-13 2008-07-08 International Business Machines Corporation Method and apparatus for providing spelling analysis
EP1840764A1 (en) * 2006-03-30 2007-10-03 Sony France S.A. Hybrid audio-visual categorization system and method
US8347206B2 (en) 2007-03-15 2013-01-01 Microsoft Corporation Interactive image tagging
JP4976912B2 (ja) * 2007-04-27 2012-07-18 日本電信電話株式会社 ラベル付与方法、ラベル付与装置、ラベル付与プログラムおよびその記憶媒体
JP2009277016A (ja) * 2008-05-14 2009-11-26 Fujifilm Corp コンテンツ処理方法及び装置、並びにコンテンツ処理プログラム
US8385971B2 (en) * 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US20110047163A1 (en) * 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587478A (zh) * 2008-05-20 2009-11-25 株式会社理光 图像训练、自动标注、检索方法及装置
US20090297050A1 (en) * 2008-05-30 2009-12-03 Microsoft Corporation Statistical Approach to Large-scale Image Annotation
US20090304272A1 (en) * 2008-06-06 2009-12-10 Google Inc. Annotating images
US20100010982A1 (en) * 2008-07-09 2010-01-14 Broder Andrei Z Web content characterization based on semantic folksonomies associated with user generated content

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BORKUR SIGURBJORNSSON ET AL.: "Flickr Tag Recommendation based on Collective Knowledge", 《WWW 2008》, 25 April 2008 (2008-04-25), pages 327 - 334 *
LEI WU ET AL.: "Learning to Tag", 《WWW 2009》, 24 April 2009 (2009-04-24), pages 361 - 369 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430610B (zh) * 2015-02-13 2021-08-03 澳大利亚国家Ict有限公司 从分布式数据学习
CN107430610A (zh) * 2015-02-13 2017-12-01 澳大利亚国家Ict有限公司 从分布式数据学习
CN107851124A (zh) * 2015-07-27 2018-03-27 高通股份有限公司 自组织网络中的媒体标记传播
CN107045447A (zh) * 2016-02-05 2017-08-15 阿里巴巴集团控股有限公司 一种数据对象的标签显示方法和装置
CN106547921B (zh) * 2016-12-07 2019-11-15 东软集团股份有限公司 标签生成方法及装置
CN106547921A (zh) * 2016-12-07 2017-03-29 东软集团股份有限公司 标签生成方法及装置
CN108416382A (zh) * 2018-03-01 2018-08-17 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN108416382B (zh) * 2018-03-01 2022-04-19 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN109345515A (zh) * 2018-09-17 2019-02-15 代黎明 样本标签置信度计算方法、装置、设备及模型训练方法
CN109740016A (zh) * 2019-01-03 2019-05-10 百度在线网络技术(北京)有限公司 音乐查询的方法、装置、服务器和计算机可读存储介质
TWI717740B (zh) * 2019-05-22 2021-02-01 天思數位科技股份有限公司 結合擴增實境的圖徵動態重渲染系統及其方法
CN112988699A (zh) * 2019-12-02 2021-06-18 杭州海康威视数字技术股份有限公司 模型训练方法、数据标签的生成方法及装置
CN112988699B (zh) * 2019-12-02 2022-04-26 杭州海康威视数字技术股份有限公司 模型训练方法、数据标签的生成方法及装置
CN113132752A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 视频处理方法及装置
CN113132752B (zh) * 2019-12-30 2023-02-24 阿里巴巴集团控股有限公司 视频处理方法及装置
CN113297382A (zh) * 2021-06-21 2021-08-24 西南大学 仪器设备功能标签化处理方法
CN113297382B (zh) * 2021-06-21 2023-04-25 西南大学 仪器设备功能标签化处理方法

Also Published As

Publication number Publication date
US8737771B2 (en) 2014-05-27
US20110229017A1 (en) 2011-09-22
JP2011198364A (ja) 2011-10-06

Similar Documents

Publication Publication Date Title
CN102193946A (zh) 为媒体文件添加标签方法和使用该方法的系统
US7801358B2 (en) Methods and systems for analyzing data in media material having layout
US8189963B2 (en) Matching advertisements to visual media objects
CN102779140B (zh) 一种关键词获取方法及装置
US8355997B2 (en) Method and system for developing a classification tool
CN103577478B (zh) 网页推送方法及系统
US8732014B2 (en) Automatic classification of display ads using ad images and landing pages
CN105095187A (zh) 一种搜索意图识别方法及装置
CN104881458B (zh) 一种网页主题的标注方法和装置
CN105426514A (zh) 个性化的移动应用app推荐方法
CN104298749A (zh) 一种图像视觉和文本语义融合商品检索方法
EP2564372A2 (en) Enriching online videos by content detection, searching, and information aggregation
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
CN103886067A (zh) 使用标签隐含主题进行图书推荐的方法
US8804139B1 (en) Method and system for repurposing a presentation document to save paper and ink
CN102436483A (zh) 一种基于显式共享子空间的视频广告检测方法
CN102103641A (zh) 在用户浏览网络图像中添加图标广告的方法
CN105825396B (zh) 一种基于共现的广告标签聚类的方法及系统
CN101751439A (zh) 基于层次聚类的图像检索方法
CN103440262A (zh) 基于相关反馈和Bag-of-Features的图像检索系统及方法
Wong et al. Learning to extract and summarize hot item features from multiple auction web sites
CN115687643A (zh) 一种训练多模态信息抽取模型的方法及信息抽取方法
CN102831161A (zh) 用于图像检索的基于流形正则化的半监督排序学习方法
KR20080060547A (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110921