CN102428467A - 用于分类的基于相似度的特征集补充 - Google Patents

用于分类的基于相似度的特征集补充 Download PDF

Info

Publication number
CN102428467A
CN102428467A CN2010800220637A CN201080022063A CN102428467A CN 102428467 A CN102428467 A CN 102428467A CN 2010800220637 A CN2010800220637 A CN 2010800220637A CN 201080022063 A CN201080022063 A CN 201080022063A CN 102428467 A CN102428467 A CN 102428467A
Authority
CN
China
Prior art keywords
collection
media content
items
feature set
key words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800220637A
Other languages
English (en)
Inventor
何宇
D·P·斯托塔米瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN102428467A publication Critical patent/CN102428467A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

部分地基于与第一项相关联的第一特征集来标识与第一项相关联的邻近项集,其中邻近项集的每个邻近项与特征集相关联。响应于对第一特征集和与邻近项集相关联的特征集进行组合,基于所述标识的邻近项集针对第一项生成补充特征集。基于补充特征集来生成与第一项相关联的分类分数集,分类分数集的每个分类分数表明第一项属于项分类的可能性。

Description

用于分类的基于相似度的特征集补充
技术领域
本发明大体上地涉及对与稀疏或者未知数据相关联的项进行分类。特别是,本发明的实施例涉及使用与有关媒体内容项相关联的特征数据集来对与稀疏或者未知特征数据集相关联的媒体内容项进行分类。
背景技术
媒体托管服务允许用户上传可以与其他人共享的媒体内容以用于公众查看。用户提供的媒体内容例如可以包括文本内容(例如博客)、视频内容、音频内容和图像内容。媒体托管服务可以托管数以百万计的媒体内容项。通常,上传内容的用户提供用于通过将媒体内容与一个或者多个类别相关联来描述媒体内容的标记或者标签。其他用户可以通过提供用于对描述媒体内容的信息(诸如媒体内容的标题、摘要以及标记和标签)进行搜索的关键词来浏览或者搜索媒体内容。然而,用户提供的用于描述媒体内容的信息通常是稀疏的、不一致的和/或不准确的。特别是,用户提供的标记经常不一致,因为它们由不同用户提供,并且取决于用户关于媒体内容与什么有关的观点。例如,一个用户可能提供表明讨论上升的汽油成本的新闻视频涉及“环境”的标记,而另一用户可能提供表明同样的新闻视频涉及“政治”的标记。
使用统计分类技术提供一种将表明分类的标记的分配标准化的方法。在统计分类技术中,通过计算生成统计模型或者“分类器”。分类器在确定项是否属于项分类时指定特征集及其关联相关度。这一分类器应用于与项相关联的特征数据,以确定项是否具有与项分类的对应性。虽然统计分类提供一种向项分配分类标记的高效和标准化方法,但是这一技术在项与大量准确特征数据相关联时的实例中最有效。如上文描述的那样,用户提供的媒体内容通常与稀疏或者不一致的特征数据相关联。因而,现有统计分类方法未提供一种用于基于内容标记和描述性信息对内容进行分类的有效手段。
发明内容
本发明的实施例支持生成用于标记媒体内容项的分类标记集。
根据本发明的方法的一个实施例包括一种用于生成用于标记项的分类标记集的计算机实施的方法。部分地基于与第一项相关联的第一特征集来标识与第一项相关联的邻近项集,其中邻近项集的每个邻近项与特征集相关联。响应于对第一特征集和与标识的邻近项集相关联的特征集进行组合,基于所述标识的邻近项集针对第一项生成补充特征集。基于补充特征集来生成与第一项相关联的分类分数集,分类分数集的每个分类分数表明第一项属于项分类的可能性。
在本发明内容和下文具体实施方式中描述的特征和优点并非囊括性的。许多附加特征和优点按照附图、说明书及其权利要求书将为本领域普通技术人员所清楚。
附图说明
图1是根据一个实施例的系统环境的高级框图。
图2是图示了根据一个实施例的用于浏览与类别相关联的媒体内容的界面的屏幕截图。
图3是图示了根据一个实施例的用于媒体托管服务器的具体视图的高级框图。
图4是图示了根据一个实施例的由媒体托管服务器执行以用于生成相似度图形的步骤的流程图。
图5是图示了根据一个实施例的由媒体托管服务器执行以生成用于媒体内容项的分类标记集的步骤的流程图。
图6是图示了根据一个实施例的由媒体托管服务器执行以用于优化与媒体内容相关联的分类标记集的步骤的流程图。
附图仅出于说明的目的而描绘本发明的优选实施例。本领域技术人员根据以下讨论将容易认识到可以运用在此举例说明的结构和方法的备选实施例,而不脱离在此描述的本发明的原理。
具体实施方式
图1图示了系统环境100,该系统环境100包括通过网络114连接的媒体托管服务104、多个内容提供商102和多个内容查看方106。在图1中仅示出了三个内容查看方106以便简化和阐明描述。系统环境100的实施例可以具有连接到网络114的数以千计或者数以百万计的内容查看方106和/或内容提供商102。媒体托管服务104通过网络114与内容查看方106通信。媒体托管服务104从内容提供商102接收上传的媒体内容,并且允许内容查看方106查看查看该内容。可以从个人计算机经由因特网、从电话或者PDA通过蜂窝网络或者通过用于通过网络114传送数据的其它手段向媒体托管服务104上传媒体内容。可以采用类似方式从媒体托管服务104下载媒体内容;在一个实施例中,提供媒体内容作为向内容查看方106下载的文件;在备选实施例中,将媒体内容用流发送到内容查看方。媒体托管服务104接收媒体内容的手段不必与将其递送到内容查看方106的手段相匹配。例如,内容提供商102可以经由个人计算机上的浏览器上传视频,而内容查看方106可以将该视频视为向PDA发送的流。还要注意,媒体托管服务104本身可以用作内容提供商102。
内容提供商102还可以向媒体托管服务104提供媒体内容。媒体内容的示例包括音频、视频、图像和文本内容;还可以提供可供消费的其它形式的内容。媒体内容可能已经由内容提供商102创建、但不是必须已经被创建。
内容查看方106经由用户接口查看媒体托管服务104提供的媒体内容。通常,内容查看方106运行诸如Microsoft Internet Explorer或者Mozilla Firefox之类的web浏览器。媒体托管服务104包括诸如Microsoft Internet Information Services之类的web服务器。内容查看方106使用浏览器来浏览并搜索媒体托管服务104提供的内容,并且查看包括视频内容的感兴趣的内容。在某些实施例中,内容查看方106使用其它类型的软件应用来查看、浏览和搜索来自媒体托管服务104的媒体内容。如下文进一步描述的那样,内容查看方106还向媒体托管服务104提供查看度量标准。
媒体托管服务104还工作用于为媒体内容项生成分类标记。针对给定的媒体内容项(“目标项”),媒体托管服务104基于与目标项和与目标类似的其它媒体内容项(这里称为“邻近媒体内容项”)相关联的特征数据来标识邻近媒体内容项。与媒体内容项相关联的特征数据可以包括:用户提供的与媒体内容项相关联的数据、与媒体内容项相关联的查看信息以及根据媒体内容项生成的内容数据。媒体托管服务104通过将与目标媒体内容项相关联的特征数据和与邻近媒体内容项相关联的特征数据进行组合,来为目标项生成补充特征集。媒体托管服务104基于补充特征集对目标媒体内容项进行分类,以生成用于目标媒体内容项的分类标记集。媒体托管服务104还基于与邻近媒体内容项相关联的分类标记来优化目标媒体内容项的分类标记集。通过标识邻近媒体内容项,并且据此生成补充特征集,媒体托管服务104利用媒体内容项中的现有相似度,以使用与邻近媒体内容项相关联的特征数据来补充稀疏的、不一致的和/或不确定的特征数据集。这改进了对原本不具有用于分类的足够大特征集的媒体内容项的分类。
媒体托管服务104还利用来自多个独立源的特征数据来标识邻近媒体内容项,并且对媒体内容项进行分类。通过合成来自不同源的数据,媒体托管服务104使用来自独立数据源的特征数据来补偿与一个特征数据源相关联的稀疏性和/或不确定性。例如,可以基于查看信息(诸如查看统计(例如相同用户请求媒体内容项的次数))来补偿与用户提供的数据相关联的稀疏性(例如在用户提供的数据中缺乏主题、标题或者标签),以标识在两个媒体内容项之间的相似度。类似地,可以使用针对视频生成的内容数据(例如从脸部识别中生成的表明在从独立源提供的两个视频中示出相同个人的数据)来补偿基于查看统计的在两个媒体内容项之间的相似度中的不确定性(即,相同查看方观看的视频具有相同主题或者类别的不确定性)。
组合与目标媒体内容项和邻近媒体内容项相关联的特征数据以生成补充数据集提供分类时的预处理步骤。该步骤的添加允许通过操纵可以组合特征数据的不同方式来“微调”分类器准确度。媒体托管服务104的管理员可以通过基于特征类型、分类器的准确度、特征数据集中的稀疏程度、特征数据集中的不准确程度和其它因素选择用于组合特征数据的不同算法和加权技术来优化分类器准确度。
图2图示了根据一个实施例的用于浏览媒体托管服务器104提供的媒体内容项的图形用户界面200的屏幕截图。在所示实施例中,媒体内容为视频内容。在其它实施例中,媒体托管服务104可以提供用于浏览包括歌曲、图像和文本内容的其它媒体内容类型的图形用户界面。
图形用户界面200包括用于显示视频的显示窗口215和用于显示描述视频的信息的信息窗口240。信息窗口240显示对视频的关联类别或者分类集进行描述的分类标记集244。通过使用分类标记集,用户可以浏览属于相同类别或者分类的其它视频。例如,用户可以选择分类标记‘debate’以取回与标记‘debate’相关联的视频集。
图形用户界面200还包括组合与视频有关的视频集的有关视频窗口230。在所示实施例中,有关视频部分地基于与有关视频相关联的分类标记。有关视频与关联分类标记235一起显示,这些分类标记和与所显示的视频相关联的分类标记集244重叠。
图3是图示了根据一个实施例的媒体托管服务104的具体视图的高级框图。如图3中所示,媒体托管服务104包括若干模块和服务器。本领域技术人员将认识到其它实施例可以具有与这里描述的模块和/或服务器不同的模块和/或服务器,并且功能可以按照不同方式分布于模块和/或服务器之间。此外,归于媒体托管服务104的功能可以由多个服务器执行。
在备选实施例中,媒体上传服务器306、媒体内容数据库330和/或特征集数据库350可以在一个或者多个单独服务器处由不同实体托管,而媒体托管服务104充当第三方服务器以用于针对媒体上传服务器306接收的、并且存储于媒体内容数据库330中的媒体生成分类标记。
媒体上传服务器306接收内容提供商102上传的媒体内容。媒体上传服务器306在媒体内容数据库330中存储上传的媒体内容。媒体上传服务器306还接收通过向内容查看方106提供媒体内容而导出的信息,诸如与媒体内容相关联的评分和关于媒体内容的上传评论。
媒体内容数据库330将接收的媒体内容与用于该媒体内容的唯一标识符关联地存储。媒体内容数据库330还存储用户提供的描述媒体内容的信息,诸如媒体内容的作者、媒体托管服务器104接收媒体内容的日期、媒体内容的主题、与媒体内容相关联的标签或者标记,以及媒体内容的作者提供的评论。媒体内容数据库330还存储通过向内容查看方106提供媒体内容而导出的查看信息,诸如用户提供的媒体内容的评分、用户提供的评论和用户查看媒体内容的频率。媒体内容数据库330还存储特定于媒体内容项的查看信息,诸如通常被与媒体内容项关联地查看的媒体内容项集。
媒体内容服务器310向用户提供信息和媒体内容。媒体内容服务器310从媒体内容数据库330获取媒体内容。媒体内容310向内容查看方106提供所获取的媒体内容。媒体内容服务器310还工作用于响应于从内容查看方106接收的搜索查询来获取并提供信息和媒体内容。搜索查询可以包括搜索项、分类标记等标准。媒体内容服务器310还部分地基于与所选媒体内容项相关联的分类标记来获取有关媒体内容项并且向内容查看方106提供有关媒体内容项。媒体内容服务器310还监视与媒体内容相关联的查看统计和其它查看信息(诸如查看媒体内容的频率),并且向媒体内容数据库330存储查看信息。
内容特征引擎312基于媒体内容来生成内容特征。内容特征是可以用来表征媒体内容的、根据媒体内容生成的元数据。内容特征引擎312生成特定于媒体内容的媒体类型的内容特征。对于静止图像内容,内容特征可以包括:像素强度、光度、通过形状检测算法导出的数据和通过静止图像导出的其它数据。对于音频内容,内容特征可以包括:音调、语调、mel频率倒谱(MFC)系数和通过音频内容导出的其它数据。对于视频内容,内容特征可以包括通过镜头检测算法、脸部检测算法、边缘检测算法导出的数据,以及通过视频内容导出的其它数据,诸如颜色、光度、纹理和其它特征。内容特征引擎312在特征集数据库350中存储生成的内容特征。
文本特征引擎308基于用户提供的描述媒体内容的信息来生成文本特征。文本特征引擎308生成如下文本特征,这些文本特征包括一个或者多个令牌(token)和与令牌相关联的数值,诸如频率值。在一个实施例中,文本特征引擎308通过令牌化用户提供的信息并且确定其中包含的令牌的频率来生成文本特征。根据该实施例,文本特征引擎308也可以在枚举令牌的频率之前词干化(stem)令牌或者使用词典来标识同义令牌。在某些实施例中,文本特征引擎308生成包括短语(诸如名词短语或者动词短语)的文本特征。针对令牌的频率信息可以是原始频率信息或者被正规化,诸如TF-IDF或者类似的频率测量。
在多数实施例中,文本特征引擎308基于描述媒体内容的信息(诸如与媒体内容相关联的标题和摘要)来生成文本特征。在其它实施例中,文本特征引擎308通过与媒体内容相关联的评论(例如,由查看媒体内容项的用户提供)和/或由描述媒体内容的信息引用的其它文本数据来源(例如,在与媒体内容相关联的摘要中引用的web页面)来生成文本特征。文本特征引擎308还使用诸如应用于媒体内容项的音轨的语音识别和应用于媒体内容项中包含的图像的光学字符识别(OCR)之类的技术通过视频或者图像内容来生成文本特征。
特征集数据库350与用于媒体内容项的唯一标识符关联地存储用于媒体内容项的特征集。特征集包括文本特征引擎308生成的文本特征和内容特征引擎312生成的内容特征。特征集还包括存储于媒体内容数据库330中的查看统计和其它查看信息,诸如用户查看媒体内容项的频率和对与媒体内容项关联地查看其它媒体项的次数进行指定的频率集(在此称为“共同观看度量标准”)。这些频率可以按照系统管理员所确定的、是未经处理的或者被标准化过的。
相似度图形模块309基于特征集来标识媒体内容项的邻近媒体内容项。相似度图形模块309首先生成对在两个媒体内容项之间的相似度测量进行指定的距离度量标准集。基于距离度量标准,相似度图形模块309标识邻近媒体内容项。
相似度图形模块309基于与媒体内容项关联地存储于特征集数据库350中的特征集来生成距离度量标准集。对于特征集数据库350中的与相应第一和第二内容项相关联的每对特征集,相似度图形模块309生成表明用于项的该对特征集对之间相似度的距离度量标准。在一个实施例中,距离度量标准可以是基于两个特征集中的对应特征而生成的欧几里得距离度量标准。在其它实施例中,距离度量标准可以是在对应特征之间的相关系数。相似度图形模块309可以基于特征集中的所有特征、或者特征集中的特征的子部分,来生成距离度量标准。在一个实施例中,相似度图形模块309可以基于特征集中的具体特征类型来生成距离度量标准。例如,相似度图形模块309可以仅基于查看信息(诸如共同观看度量标准)来生成距离度量标准。相似度图形模块309在媒体内容数据库330中与特征集和媒体内容项关联地存储距离度量标准。
在一些实施例中,相似度图形模块309在生成距离度量标准集之前例如通过从特征集数据库350移除项,或者标记特征集数据库350中的媒体内容项,来过滤特征集数据库350中的媒体内容项。在这些实施例中,相似度图形模块309根据表明媒体内容项待过滤的指定特征集来过滤媒体内容项。在多数实施例中,指定特征集是表明媒体内容项为非所需内容项的特征。在这些实施例中,表明媒体内容项为非所需内容项的特征由媒体托管服务器104的管理员指定,并且可以包括如下特征,这些特征表明媒体内容项包括垃圾内容、成人内容或者仇恨言论。
相似度图形模块309基于与媒体内容项相关联的距离度量标准来标识邻近媒体内容项。对于每个目标项,相似度图形模块309基于具有与目标项的某一相似度测量的距离度量标准来选择邻近项集。用于选择邻近媒体内容项集的适合方法可以包括聚集距离度量标准。
在一个实施例中,相似度图形模块309通过基于距离度量标准生成内容项的相似度图形来选择邻近媒体内容项集。相似度图形模块309生成包含节点集的相似度图形,每个节点代表特征集数据库350中的媒体内容项。相似度图形模块370选择代表媒体内容项的节点作为目标节点。相似度图形模块370尝试分配图形中的某一数目N条边,用于将目标节点连接到代表标识的媒体内容项的N个(例如,3<=N<=10)节点,这些媒体内容项具有如下距离度量标准,这些距离度量标准至少表明与目标节点代表的媒体内容项的最小相似度。例如,在一个具体实施例中,相似度图形模块309基于体内容项的相应距离测量,将每个目标节点连接到五(5)个最相似的媒体内容项。相似度图形模块通过选择每个节点作为目标节点,并且分配在目标节点与节点集之间的边来重复这一过程。
如果相似度图形模块无法标识具有表明与目标节点代表的媒体内容项的最小相似度的距离度量标准的N个媒体内容项,,则相似度图形模块309将目标节点连接到最大数目的具有如下距离度量标准的媒体项,这些距离度量标准至少表明与目标节点代表的媒体内容项的最小相似度。如果相似度图形模块无法发现具有表明与目标节点代表的媒体内容项的最少相似程度的距离度量标准的任何媒体内容项,,则相似度图形模块309将代表媒体内容项的目标节点连接到具有如下距离度量标准的媒体项,该距离度量标准表明与目标节点相关联的所有距离度量标准的最大相似度。
在某些实施例中,相似度图形模块309在构造相似度图形之后使用一个或者多个修剪标准来修剪相似度图形。在这些实施例中,相似度图形模块309可以基于如下查看统计来移除媒体内容项,该查看统计表明内容查看方106未活跃地查看图形中的哪些媒体内容项。在这些实施例中,表明内容查看方106未活跃地查看媒体内容项的查看统计由媒体托管服务104的管理员指定并且可以包括比如与媒体内容项相关联的查看、评分或者评论这样的统计;这些统计可以包括未处理的或者标准化的计数(例如,媒体内容项的查看次数)、评分(例如,所发布评论的每周评分)、趋势(例如,查看次数的平均每周百分比改变)、速率(在上一个小时内的独特查看方数目)或者分布(例如,给出每个评分值水平的用户数目或者百分比)等。此外,可以基于项的共同观看度量标准来修剪项。对于给定的目标项,可以修剪具有最低显著性(例如值最小)共同观看度量标准的邻近内容项。上述修剪标准应用于针对每个目标节点的邻近内容项,直至已经根据标准检查了节点。可以按照系统管理员所期望的任何顺序应用这些修剪标准。
相似度图形模块309基于相似度图形来标识每个媒体内容项的邻近媒体内容项集。在多数实施例中,相似度图形模块309标识包括指定数目为M的媒体内容项(例如,3<=M<=10个媒体内容项)的邻近媒体内容项集。在多数实例中,媒体内容项的数目M等于将每个目标节点连接到媒体内容项的边数目N。如果目标节点连接到M个或者更多节点,则相似度图形模块309选择具有表明与目标媒体项的最高相似度的距离度量标准的媒体内容项,作为邻近媒体项集。
相似度图形模块370遍历相似度图形以标识邻近媒体内容项。相似度图形模块370通过选择代表如下邻近媒体内容项的邻近节点来遍历相似度图形,该邻近媒体内容项具有如下距离度量标准,该距离度量标准表明与目标媒体内容项的最高相似度。相似度图形模块370继而选择具有如下距离度量标准的连接到邻近节点的节点作为邻近媒体内容项,该距离度量标准表明与邻近节点的最高相似度。相似度图形模块370继续这一过程直至邻近媒体内容项的总数等于邻近媒体内容项的指定数目
概括而言,前述标识邻近内容项、生成相似度图形和修剪相似度图形的过程提供内容项的鲁棒集,这些内容项基于它们的内在特征以及查看项的用户的外在行为而实质上彼此相关的可能性很高。使用修剪标准来修剪相似度图形利用来自用户团体的关于哪些内容项充分令人感兴趣并且彼此充分相关的行为信息。
数据聚集模块314基于与媒体内容项相关联的邻近媒体内容项集来生成用于每个媒体内容项的补充特征集。数据聚集模块314组合特征集,以生成补充特征集。数据聚集模块314基于所有邻近项(或者所选子集)中的所有(或者部分)数据来生成补充特征集。在一个实施例中,仅基于与媒体内容项相关联的文本特征来生成补充特征集。
数据聚集模块314组合与目标媒体内容项和邻近媒体内容项相关联的特征集,以生成补充特征集。在一个实施例中,数据聚集模块314通过简单地合并特征集来组合特征集,以生成包含所有邻近项的所有特征的组合、无序和非加权特征集。备选地,数据聚集模块314通过添加、平均或者以别的方式以数学方式组合与出现于两个数据集中的特征相关联的值来合并特征,从而使得针对每类特征,存在对于该特征而言适合的单个值(或者值集合)。例如,针对颜色特征,数据聚集模块314可以通过邻近内容项的颜色直方图(由此通过针对颜色仓的频率计数集合)来产生平均颜色直方图,而对于评分特征,数据聚集模块314可以通过邻近内容项来生成单个平均评分。在其它实施例中,数据聚集模块314通过基于邻近媒体内容项的相似度值对与邻近媒体内容项相关联的特征集进行加权来组合特征集。
在某些实施例中,数据聚集模块314使用合意方法来标识与邻近媒体内容项相关联的特征集中的特征,以添加到与目标媒体内容项相关联的补充特征集。在这些实施例中,数据聚集模块314标识如下特征,这些特征在与邻近媒体内容项相关联的特征集中的多数或者某一百分比的特征集中具有值范围。例如,数据聚集模块314可以标识特征‘平均体积’在与邻近媒体内容项相关联的特征集中的多于80%的特征集中具有窄的值范围(例如,每个值在1-10的标度内为9或者10)。数据聚集模块214可以确定向补充特征集添加特征“平均体积”的平均值(即10之中的9.5)。
分类引擎312基于与媒体内容项相关联的补充特征集对每个媒体内容项进行分类。分类引擎312将一个或者多个分类器322应用于补充特征集,以生成分类分数集,这些分类分数表明媒体内容项属于媒体内容项分类或者类别的可能性。分类引擎312基于如下分类分数超过限定的阈值向媒体内容项分配一个或者多个分类标记的集合,该分类分数表明媒体内容项属于媒体内容项分类或者类别的可能性。例如,可以响应于媒体内容项属于分类“足球”的分类分数大于90%,向媒体内容项分配标记“足球”。分类引擎312在分类媒体全集380中与媒体内容项关联地存储分类标记集。
根据实施例,分类器322可以由分类引擎312生成或者从另一来源接收。在一个实施例中,分类器322是对根据分级式分类系统来分类的内容项全集训练的单个多类分类器。在一个具体实施例中,对根据开放式目录项(ODP)使用的等级式分类系统来分类的内容项全集训练单个多类分类器。在这一实施例中,对媒体内容项训练集进行人工分类,从而使得每个训练媒体内容项具有来自OPD的一个或者多个标记。继而,针对训练媒体内容项的特征和查看统计来处理媒体内容项训练集,并且使用媒体内容项训练集和对应的验证集来构造和验证分类器322。在备选实施例中,分类器322可以是二元分类器,并且分类可以无分级。在某些实施例中,使用分类媒体全集380来重新训练分类器322。
在一个实施例中,在分类器322对内容项的初始分类之后,分类标记引擎315提供第二分类阶段。更具体地,分类标记引擎315基于目标媒体内容项的邻近媒体内容项的分类标记来优化与目标媒体内容项相关联的分类标记集。分类标记引擎315获得分类媒体全集380中的与目标媒体内容项相关联的分类标记集。针对与媒体内容项相关联的每个分类标记,分类标记引擎315确定如下分类合意值,该分类合意值指定也与分类媒体全集380中的分类标记相关联的邻近媒体内容项的数目或者百分比。如果分类合意值低于阈值,则分类标记引擎315从分类媒体全集380中的与目标媒体内容项相关联的标记集移除分类标记。
例如,针对与目标媒体内容项相关联的分类标记“足球”,分类标记引擎315可以标识分类标记“足球”与分类媒体全集380中的目标媒体内容项的6个邻近媒体内容项之中的5个邻近媒体内容项相关联。分类标记引擎315继而可以确定与标记相关联的例如83%的分类合意值大于阈值33%,并且与目标媒体内容项关联地保留分类标记“足球”。反之,如果分类标记引擎315标识6个邻近媒体项之中的0个邻近媒体项与分类标记“宗教”相关联,则分类标记引擎15可以确定对应分类合意值0%小于阈值33%,并且从与目标媒体内容项相关联的分类标记集移除分类标记“宗教”。
根据实施例,阈值合意值可以例如由媒体托管服务104的管理员指定,或者由分类标记引擎315确定。分类标记引擎315可以基于多个因素来确定阈值。在某些实施例中,阈值依赖于与分级式分类方案限定的分类标记相关联的特性水平。例如,用于指定“足球”的标记的阈值可以是比用于指定“体育”的标记的阈值更小的值。在某些实施例中,阈值依赖于标记在全集中出现的相对频率。例如,基于其中标记“足球”的频率比标记“草坪保龄球”的频率大5倍的全集,用于指定“足球”的标记的阈值和用于指定“草坪保龄球”的标记的阈值可以与它们在用于“足球”的阈值比用于“草坪保龄球”的阈值大5倍的全集中的频率成比例。
图4是图示了根据本发明一个实施例的由媒体托管服务104执行的用于标识用于媒体内容项的邻近媒体内容项集的步骤的流程图。其它实施例按照不同顺序执行所示步骤和/或执行不同的或者附加步骤。另外,某些步骤可以由除了媒体托管服务104之外的引擎或者模块执行。
媒体托管服务104标识(404)与媒体项集相关联的一组特征集。媒体托管服务104过滤(406)与媒体项集相关联的该组特征集。媒体托管服务104生成(408)距离度量标准集,每个距离度量标准指定与媒体项对相关联的特征集的相似度。媒体托管服务104基于距离度量标准集来生成(410)相似度图形。媒体托管服务104修剪(412)相似度图形以移除媒体内容项。媒体托管服务104针对相似度图形中的每个媒体内容项标识(414)邻近媒体内容项集。
图5是图示了根据本发明一个实施例的由媒体托管服务104执行的用于对媒体内容项进行分类的步骤的流程图。其它实施例按照不同顺序执行所示步骤和/或执行不同的或者附加步骤。另外,某些步骤可以由除了媒体托管服务104之外的引擎或者模块执行。
媒体托管服务104标识(512)目标媒体内容项的邻近媒体内容项集。媒体托管服务104基于与邻近媒体内容项集相关联的特征数据集来生成(514)目标媒体内容项的补充特征集。媒体托管服务104生成(516)与目标媒体内容项相关联的分类标记集。
图6是图示了根据本发明一个实施例的由媒体托管服务104执行的用于优化与目标节点322相关联的分类标记集的步骤的流程图。其它实施例按照不同顺序执行所示步骤和/或执行不同的或者附加步骤。另外,某些步骤可以由除了媒体托管服务104之外的引擎或者模块执行。
媒体托管服务104标识(610)与目标节点相关联的分类标记集。媒体托管服务104基于与目标节点的邻近媒体项相关联的分类标记来确定(612)用于每个分类标记的合意值。媒体托管服务104从与目标节点相关联的分类标记集移除(614)合意值低于阈值的分类标记。
已经参照有限数目的实施例具体描述本发明。本领域技术人员将理解还可以在其它实施例中实现本发明。首先,具体的部件命名、术语大写、属性、数据结构或者任何其它编程或者结构方面并非必需或者重要,并且实施本发明或者其特征的机制可以具有不同名称、格式或者协议。另外,可以经由如所描述的硬件与软件的组合或者完全用硬件元件实施系统。在此描述的各种系统部件之间的特定功能划分也仅为举例而非必需;单个系统部件执行的功能可以代之以由多个部件执行,而多个部件执行的功能可以代之以由单个部件执行。例如,可以在多个或者一个模块中提供媒体托管服务的特定功能。
上文描述的某些部分在对信息的操作的算法和符号表示方面呈现本发明的特征。这些算法描述和表示是本领域技术人员用来向本领域其他技术人员最有效地传达他们工作的实质的手段。这些操作尽管在功能或者逻辑上加以描述、但是要理解为由计算机程序实施。另外也已经证实将这些操作布置称为模块或者代码设备有时是便利的而不失一般性。
然而,应当记住,所有这些和类似术语将与适当物理量相关联并且,仅为应用于这些量的便利标记。除非如根据本讨论而清楚的那样另有具体声明,应理解到贯穿描述,利用诸如“处理”或者“计算”或者“确定”或者“显示”等术语的讨论是指如下计算机系统或者类似电子计算设备的动作和处理,该计算机系统或者电子计算设备操控和变换在计算机系统存储器或者寄存器或者其它此类信息存储、传输或者显示设备内表示为物理(电子)量的数据。
本发明的某些方面包括在此以算法的形式描述的过程步骤和指令。所有此类过程步骤、指令或者算法由如下计算设备执行,这些计算设备包括某种形式的处理单元(例如微处理器、微控制器、专用逻辑电路等)以及存储器(RAM、ROM等)和如适合于接收或者提供数据的输入/输出设备。
本发明还涉及一种用于执行这里的操作的装置。这一装置可以被具体构造以用于所需用途,或者它可以包括如下通用计算机,该计算机由存储于计算机中的计算机程序有选择地激活或者重新配置,在该情况下通用计算机在结构和功能上等效于专用于执行在此描述的功能和操作的具体计算机。将计算机可执行数据(例如,程序代码和数据)具体化的计算机程序存储于有形计算机可读存储介质(诸如但不限于任何类型的盘(包括软盘、光盘、CD-ROM、光磁盘)、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁或者光学卡、专用集成电路(ASIC)或者任何类型的适于持久存储电子编码指令的介质)中。还应当注意,此类计算机程序(它们固有地作为通过物理介质的变更(比如介质的物理结构和/或性质(例如电、光学、机械、磁、化学性质)的变更或者变化)来存储于这样的介质中的数据而存在)本身并非抽象思想或者概念而代之以是如下物理过程产生的物理人造物质,这些物理过程将物理介质从一个状态向另一状态变换(例如电荷的改变或者磁性的改变)以便在介质中持久存储计算机程序。另外,在本说明书中提及的计算机可以包括单个处理器,或者可以是为了提高计算能力而运用多个处理器设计的架构
最后,应当注意已经主要出于可读性和指导的目的来选择说明书中所用的语言,并且可以并非选择这些言语来界定或者限制发明主题内容。因而,本发明的公开内容旨在于举例说明而不是限制本发明的范围。

Claims (12)

1.一种生成用于标记项的分类标记集的计算机实施的方法,所述方法包括:
部分地基于与第一项相关联的第一特征集来标识与所述第一项相关联的邻近项集,其中所述邻近项集的每个邻近项与特征集相关联;
响应于对所述第一特征集和与所述邻近项集相关联的所述特征集进行组合,基于所述标识的邻近项集来生成所述第一项的补充特征集;以及
基于所述补充特征集来生成与所述第一项相关联的分类分数集,所述分类分数集的每个分类分数表明所述第一项属于项分类的可能性。
2.根据权利要求1所述的方法,其中所述第一项为媒体内容项,并且所述邻近项为媒体内容项。
3.根据权利要求2所述的方法,其中所述第一特征集和与所述邻近项相关联的所述特征集包括通过向查看方提供所述媒体内容项来导出的查看统计。
4.根据权利要求2所述的方法,其中所述第一特征集和与所述邻近项相关联的所述特征集包括对媒体托管系统的用户指定的所述媒体内容项进行描述的信息。
5.根据权利要求2所述的方法,其中所述第一特征集和与所述邻近项相关联的所述特征集包括根据所述媒体内容项生成的信息。
6.根据权利要求1所述的方法,其中标识与第一项相关联的所述邻近项集包括:
基于所述第一特征集和与所述邻近项相关联的所述特征集来确定距离度量标准集;并且
部分地基于所述距离度量标准集来标识所述邻近项集。
7.根据权利要求6所述的方法,其中基于所述第一特征集和与所述邻近项集相关联的所述特征集来确定距离度量标准集包括:
标识与特征集相关联的项集;
基于与所述项集相关联的所述特征集来标识所述项集的至少第一非所需项,其中与所述至少第一非所需项相关联的所述特征集包括管理员指定的用于表明所述项为非所需项的特征;
响应于从所述项集中移除所述至少第一非所需项来生成经过滤项集;以及
基于所述经过滤项集来确定距离度量标准集。
8.根据权利要求6所述的方法,其中部分地基于所述距离度量标准集来标识所述邻近项集包括:
基于所述距离度量标准集来生成相似度图形,其中所述相似度图形包括代表所述项的节点;以及
基于所述相似度图形来标识所述邻近项集。
9.根据权利要求8所述的方法,其中所述项为媒体内容项,所述邻近项为媒体内容项,并且部分地基于所述相似度图形来标识所述邻近项集包括:
在所述相似度图形中标识代表与特征集相关联的媒体项的至少第一节点,所述特征集表明所述媒体内容项与低于阈值的一个或者多个查看统计相关联;
响应于移除所述至少第一节点来生成经修剪相似度图形;并且
基于所述经修剪相似度图形来标识所述邻近项集。
10.根据权利要求1所述的方法,其中对所述第一特征集和与所述邻近项相关联的所述特征集进行组合包括:
聚集所述第一特征集和与所述邻近项相关联的所述特征集。
11.根据权利要求1所述的方法,还包括:
响应于所述分类分数集的一个或者多个分类分数超过阈值,生成与所述第一媒体内容项相关联的第一分类标记集。
12.根据权利要求11所述的方法,还包括:
标识与所述邻近项集相关联的一个或者多个分类标记集,其中每个邻近项与分类标记集相关联;
基于与所述第一项相关联的第一分类标记集和与所述邻近项集相关联的所述一个或者多个分类标记集,生成多个分类合意分数,其中每个分类合意分数表明在与所述第一项相关联的分类标记与所述邻近项之间的对应性;
响应于基于与至少一个分类标记相关联的分类合意分数,从与所述第一项相关联的所述分类标记集移除所述至少一个分类标记,以生成与所述第一项相关联的优化分类标记集;并且
存储所述优化分类标记集。
CN2010800220637A 2009-04-08 2010-03-17 用于分类的基于相似度的特征集补充 Pending CN102428467A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16782509P 2009-04-08 2009-04-08
US61/167,825 2009-04-08
PCT/US2010/027709 WO2010117581A1 (en) 2009-04-08 2010-03-17 Similarity-based feature set supplementation for classification

Publications (1)

Publication Number Publication Date
CN102428467A true CN102428467A (zh) 2012-04-25

Family

ID=42936489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800220637A Pending CN102428467A (zh) 2009-04-08 2010-03-17 用于分类的基于相似度的特征集补充

Country Status (4)

Country Link
EP (1) EP2417544A4 (zh)
CN (1) CN102428467A (zh)
CA (1) CA2757771A1 (zh)
WO (1) WO2010117581A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239351A (zh) * 2013-06-20 2014-12-24 阿里巴巴集团控股有限公司 一种用户行为的机器学习模型的训练方法及装置
CN104281641A (zh) * 2013-07-12 2015-01-14 汤姆逊许可公司 丰富多媒体内容的方法和对应设备
CN105608352A (zh) * 2015-12-31 2016-05-25 联想(北京)有限公司 一种信息处理方法和服务器
CN107038193A (zh) * 2016-11-17 2017-08-11 阿里巴巴集团控股有限公司 一种文本信息的处理方法和装置
CN107430633A (zh) * 2015-11-03 2017-12-01 慧与发展有限责任合伙企业 与数据存储系统相关联的经相关优化的代表性内容
CN110163662A (zh) * 2019-04-26 2019-08-23 阿里巴巴集团控股有限公司 一种业务模型训练方法、装置及设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9659014B1 (en) * 2013-05-01 2017-05-23 Google Inc. Audio and video matching using a hybrid of fingerprinting and content based classification
US9589024B2 (en) 2013-09-27 2017-03-07 Intel Corporation Mechanism for facilitating dynamic and proactive data management for computing devices
CN104933191A (zh) * 2015-07-09 2015-09-23 广东欧珀移动通信有限公司 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
US11775565B2 (en) 2020-10-14 2023-10-03 Coupang Corp. Systems and methods for database reconciliation
US11869055B2 (en) 2021-01-28 2024-01-09 Maplebear Inc. Identifying items offered by an online concierge system for a received query based on a graph identifying relationships between items and attributes of the items
CN114896963B (zh) * 2022-07-08 2022-11-04 北京百炼智能科技有限公司 数据处理方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1249479A (zh) * 1998-09-29 2000-04-05 英业达股份有限公司 自动查询系统及方法
CN1326158A (zh) * 2000-05-31 2001-12-12 三星电子株式会社 适用于多媒体内容的数据库构造方法
CN1495646A (zh) * 2002-09-19 2004-05-12 信息存储和检索
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US20070196013A1 (en) * 2006-02-21 2007-08-23 Microsoft Corporation Automatic classification of photographs and graphics
CN101110083A (zh) * 2006-07-19 2008-01-23 株式会社理光 文档检索装置、文档检索方法、文档检索程序及记录介质
US20080114564A1 (en) * 2004-11-25 2008-05-15 Masayoshi Ihara Information Classifying Device, Information Classifying Method, Information Classifying Program, Information Classifying System
CN101196905A (zh) * 2007-12-05 2008-06-11 覃征 一种智能图形检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036932B2 (en) * 2004-11-19 2011-10-11 Repucom America, Llc Method and system for valuing advertising content
US7519567B2 (en) * 2005-10-31 2009-04-14 Hewlett-Packard Development Company, L.P. Enhanced classification of marginal instances

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1249479A (zh) * 1998-09-29 2000-04-05 英业达股份有限公司 自动查询系统及方法
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
CN1326158A (zh) * 2000-05-31 2001-12-12 三星电子株式会社 适用于多媒体内容的数据库构造方法
CN1495646A (zh) * 2002-09-19 2004-05-12 信息存储和检索
US20080114564A1 (en) * 2004-11-25 2008-05-15 Masayoshi Ihara Information Classifying Device, Information Classifying Method, Information Classifying Program, Information Classifying System
US20070196013A1 (en) * 2006-02-21 2007-08-23 Microsoft Corporation Automatic classification of photographs and graphics
CN101110083A (zh) * 2006-07-19 2008-01-23 株式会社理光 文档检索装置、文档检索方法、文档检索程序及记录介质
CN101196905A (zh) * 2007-12-05 2008-06-11 覃征 一种智能图形检索方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239351A (zh) * 2013-06-20 2014-12-24 阿里巴巴集团控股有限公司 一种用户行为的机器学习模型的训练方法及装置
CN104239351B (zh) * 2013-06-20 2017-12-19 阿里巴巴集团控股有限公司 一种用户行为的机器学习模型的训练方法及装置
CN104281641A (zh) * 2013-07-12 2015-01-14 汤姆逊许可公司 丰富多媒体内容的方法和对应设备
CN107430633A (zh) * 2015-11-03 2017-12-01 慧与发展有限责任合伙企业 与数据存储系统相关联的经相关优化的代表性内容
CN105608352A (zh) * 2015-12-31 2016-05-25 联想(北京)有限公司 一种信息处理方法和服务器
CN105608352B (zh) * 2015-12-31 2019-06-25 联想(北京)有限公司 一种信息处理方法和服务器
CN107038193A (zh) * 2016-11-17 2017-08-11 阿里巴巴集团控股有限公司 一种文本信息的处理方法和装置
CN107038193B (zh) * 2016-11-17 2020-11-27 创新先进技术有限公司 一种文本信息的处理方法和装置
CN110163662A (zh) * 2019-04-26 2019-08-23 阿里巴巴集团控股有限公司 一种业务模型训练方法、装置及设备
CN110163662B (zh) * 2019-04-26 2024-04-05 创新先进技术有限公司 一种业务模型训练方法、装置及设备

Also Published As

Publication number Publication date
EP2417544A1 (en) 2012-02-15
CA2757771A1 (en) 2010-10-14
WO2010117581A1 (en) 2010-10-14
EP2417544A4 (en) 2013-10-02

Similar Documents

Publication Publication Date Title
CN102428467A (zh) 用于分类的基于相似度的特征集补充
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
US9317613B2 (en) Large scale entity-specific resource classification
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
Firan et al. Bringing order to your photos: event-driven classification of flickr images based on social knowledge
US8630972B2 (en) Providing context for web articles
US6965900B2 (en) Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
CN112148889A (zh) 一种推荐列表的生成方法及设备
CN105095187A (zh) 一种搜索意图识别方法及装置
WO2017070656A1 (en) Video content retrieval system
CN111368038B (zh) 一种关键词的提取方法、装置、计算机设备和存储介质
CN104885081A (zh) 搜索系统和相应方法
CN103744981A (zh) 一种基于网站内容用于网站自动分类分析的系统
CN103116588A (zh) 一种个性化推荐方法及系统
Theisen et al. Automatic discovery of political meme genres with diverse appearances
CN103838756A (zh) 一种确定推送信息的方法及装置
Liu et al. Heterogeneous features and model selection for event-based media classification
US9569525B2 (en) Techniques for entity-level technology recommendation
Merhav et al. Extracting information networks from the blogosphere
Lipczak et al. The impact of resource title on tags in collaborative tagging systems
CN103838798A (zh) 页面分类系统及页面分类方法
CN108446333B (zh) 一种大数据文本挖掘处理系统及其方法
Liu et al. Event analysis in social multimedia: a survey
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
JP2008310626A (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120425