CN100485665C - 概念模型空间中的内容表示和检索的方法和设备 - Google Patents

概念模型空间中的内容表示和检索的方法和设备 Download PDF

Info

Publication number
CN100485665C
CN100485665C CNB2003801096586A CN200380109658A CN100485665C CN 100485665 C CN100485665 C CN 100485665C CN B2003801096586 A CNB2003801096586 A CN B2003801096586A CN 200380109658 A CN200380109658 A CN 200380109658A CN 100485665 C CN100485665 C CN 100485665C
Authority
CN
China
Prior art keywords
multimedia document
accordance
model vector
model
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2003801096586A
Other languages
English (en)
Other versions
CN1748213A (zh
Inventor
约翰·史密斯
米林德·纳法德
阿波斯塔尔·纳特塞夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1748213A publication Critical patent/CN1748213A/zh
Application granted granted Critical
Publication of CN100485665C publication Critical patent/CN100485665C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种从多媒体文档(104)抽取模型向量表示的方法和设备。模型向量提供多媒体文档属于一组类别,或者一组词义概念与该文档相关的置信度的多维表示。模型向量可与多媒体文档相联系,从而提供其内容或分类的索引,并且可被用于比较,搜索,分类或群集多媒体文档。模型向量可被用于信息发现,使多媒体内容个人化,以及查询多媒体信息储存库(103)。

Description

概念模型空间中的内容表示和检索的方法和设备
技术领域
本发明涉及使用模型向量来索引多媒体文档,更具体地说,涉及产生模型向量表示,使模型向量与多媒体文档相联系从而提供索引,并使用模型向量搜索、分类和群集多媒体文档的方法和设备。本发明还涉及把模型向量用于信息发现,使多媒体内容个人化,和查询多媒体信息储存库。
背景技术
随着视频、图像、文本和其它多媒体文档形式的数字信息的数量不断增长,越来越需要索引、搜索、分类和组织所述信息的更有效方法。内容分析、特征抽取和分类方面的最新进展正在提高有效地搜索和过滤多媒体文档的能力。但是,在能够从多媒体内容中自动抽取的低级特征描述,例如颜色、纹理、形状、动作等,和对多媒体系统的用户有用的语义描述,例如对象、事件、场景和人物之间仍然存在显著的差距。
多媒体索引的问题可由需要手工、半自动或者全自动处理的许多方法解决。一种方法使用允许人们手工把标记、类别或描述赋予多媒体文档的注释或编目工具。例如,M.Naphade,C.-Y.Lin,J.R.Smith,B.Tseng和S.Basu在论文“Learning to Annotate Video Databases”,IS&T/SPIESymposium on Electronic Imaging:Science and Technology-Storage&Retrieval for Image and Video Databases X,San Jose,CA,Jan.2002中描述一种允许把标记分配给视频镜头的视频注释工具。他们还公开一种基于主动学习分配标记的半自动方法。全自动方法也是可能的。例如,M.Naphade,S.Basu和J.R.Smith在“A Statistical Modeling Approach toContent-based Video Retrieval”,IEEE International Conference onAcoustics,Speech and Signal Processing(ICASSP-2002),May,2002中公开根据低级可视特征的统计建模,自动向视频内容分配标记的方法。自动标记技术可用于允许根据自动分配的标记搜索视频,但是,索引局限于匹配少量词汇的值,从而如果用户输入和标记项之一不相符的搜索项,那么搜索不会找到任何目标多媒体文档。
在自动化系统正在提高向多媒体文档赋予标记、类别和描述的能力的条件下,需要促进这些描述,以提供更有意义的利用所述描述索引、搜索、分类和群集这些文档的方式。此外,系统应考虑到自动化系统的不确定性或可靠性,以及赋予多媒体文档的任意标记、类别或描述的关联性,以便提供有效的索引。
发明内容
本发明的一个目的是提供一种利用捕捉任何自动标记的结果及其对应的得分,例如置信度、可靠性和关联性的模型向量表示法,索引多媒体文档的方法和设备。
本发明的另一目的是在信息发现,多媒体内容个人化和多媒体信息储存库的查询的应用中使用模型向量表示法。
为实现本发明的上述及其它目的,根据本发明的一个方面,提供一种产生用于表示多媒体文档的至少一个模型向量的方法,包括下述步骤:应用多个概念检测器对多媒体文档进行分类;相对于每个概念检测器,对所述多媒体文档评分;和把通过对所述多媒体文档评分所得的得分映射到多维空间中,从而产生至少一个模型向量表示。
根据本发明的另一方面,提供一种利用模型向量索引多媒体文档的方法,包括下述步骤:基于来自多个概念检测器的输入产生每个多媒体文档的一个或多个模型向量,每个概念检测器对应于来自固定的一组词典、类别、对象、特征、事件、场景以及人物的至少一个概念;使所述模型向量与对应的多媒体文档相联系;和根据所述相关模型向量的值,建立用于访问所述多媒体文档的索引。
所述模型向量表示法把多媒体文档的分类或标记结果以及任何对应的不确定性,可靠性或关联性得分封装到多维向量中,所述多维向量可被用于多媒体文档的搜索、分类和群集。模型向量表示法涉及词汇实体到多维向量空间中的各维的映射,多维向量空间允许文档在多维空间中被表现和索引。
模型向量表示法的优点在于它在整个词典内广泛地捕捉标记。它还提供捕捉标记或分类结果的不确定性的紧凑表现。模型向量表示法还具有索引方面的优点,因为其实值多维的特性便于度量空间中的有效索引,允许模型向量表示法的距离或相似性的直接计算。这为有效方法使用模型向量进行多媒体文档的相似性搜索,基于关联性反馈的搜索,分类,群集,过滤等创造了条件。
附图说明
下面将参考附图,更详细地说明本发明,其中:
图1表示其中查询处理器把模型向量索引用于搜索的多媒体信息检索系统;
图2表示在给定词典和一组受过训练的检测器的情况下,多媒体文档的模型向量的产生;
图3表示产生多媒体文档的模型向量的检测、评分和映射过程;
图4表示根据检测器评分而产生的模型向量的例子;
图5表示利用模型向量索引多媒体文档的过程;
图6表示使用模型向量的查询过程;
图7表示使用模型向量的多媒体文档的修改。
具体实施方式
图1描述了具有本发明的特征的多媒体信息检索系统的一个例子。如图所示,用户通过用户界面100在步骤105中向多媒体信息检索系统发出查询。查询由查询处理器101处理。查询处理器在步骤106中搜索保存的一组索引值104,找出与用户查询的匹配物。就呈模型向量形式的索引值来说,索引值对应于与每个被索引多媒体文档的语义维相关的多维向量。匹配物在步骤107中被传送给检索引擎,在步骤108中,从多媒体储存库103取回匹配的多媒体文档。根据模型向量与储存库的特定多媒体文档的联系110,确定对应的多媒体文档。多媒体文档随后在步骤109中被返回给用户,并显示在用户界面100上。模型向量表示法提供一种表现可被用于找出用户查询的匹配物的一组保存的索引值104的方式。
模型向量表示法封装对多媒体文档应用一系列的检测器或分类器的结果。例如,考虑通过检测在多媒体文档中是否描述了这些概念,从下述词典(lexicon):{“car”,“boat”,“train”}分配词汇实体的一组分类器。检测问题可被看作通过赋予反映每个概念存在的确定性的得分,检测每个概念的存在与否的一组二进制分类器。例如,系统可对“car”给出0.75的得分,它可被理解为赋予“car”标记的置信度为75%的含义。另一方面,对于“train”,系统可给出0.25的得分,它可被理解为赋予“train”标记的置信度为25%的含义。总的说来,系统产生这些多个检测器的得分,模型向量把这些得分记录在单一表示中,所述单一表示随后可被用作多媒体文档的索引。
图2描述了产生多媒体文档或查询的模型向量的过程。首先利用多个检测器201处理多媒体文档200,并关于成为每个检测器的基础的概念对多媒体文档200评分。检测器本身可对应于固定词典204或者固定的一组类别、对象、事件、场景或人物。例如,分类辞典图形材料词库(TGM)提供一组用于对照片和其它类型的图形文档分类的类别。检测器可被建立和使用,使得每个检测器对应于TGM类别之一。词典204的概念也可是类属的,特定的或者抽象的。例如,概念可对应于类属实体,例如“显示桥梁的场景”。另一方面,概念可对应于特定实体,例如“显示金门大桥的场景”。最后,概念可对应于抽象实体,例如“现代文明”。检测器201中对应于受过训练的模型或者其它类型的统计分类器。就训练205来说,被标记的多媒体文档的例子可在学习过程中被用于定义检测器201模型和它们的参数。检测器201的输出随后在映射过程202中被变换,从而产生模型向量203。模型向量提供关于词典204的概念的多媒体文档200的一种累积评分。此外,模型向量203允许通过考虑其相对于词典的评分,推理(reason)多媒体文档200。
图3描述了产生多媒体文档的模型向量的一种实现,其中利用一组检测器对多媒体文档进行分析和评分。通过应用N个检测器301-303对每个多媒体文档300分类。检测器可采取多种形式,包括支持向量机,高斯混合模型,隐马可夫模型,神经网络,Bayes(贝叶斯)网络,线性判别分析等。每个检测器可代表特定的语义概念。例如,考虑词典:{“car”,“boat”,“train”},检测器可如下表示概念:检测器1=“car”,检测器2=“boat”,和检测器3=“train”。即,检测器1确定“car”概念是否与多媒体文档相关,其它检测器类似地工作。检测器可能先前已被训练,从而通过使用根据供给的地面实况标记例子,学习或建立模型的技术,检测它们相应的概念。
检测器301-303可使用与多媒体文档300相关的各种信息来进行各个检测。例如,检测器301-303可使用构成多媒体文档300的一种或多种形态的信息(视觉、音频、语音、文本)。检测器301-303还可使用从来自多媒体文档300的不同形态的信息中抽取的特征,例如颜色、纹理、形状、运动、声音频率、空间或时间布局的基于内容的描述符。例证的描述符包括颜色直方图,边缘直方图,运动向量,形状边界描述符等。检测器301-303还可使用与多媒体文档300相关的元数据。例如,可以使用诸如标题、作者、创建日期、类型之类的信息。另外,可以使用其它语境(contextual)信息,例如多媒体文档300与其它文档的关系。检测器301-303还可使用知识库或语义网,知识库或语义网允许基于与词典或多媒体信息储存库相关的信息和知识的组织的推断和推论。
对于每个检测器,关于每个多媒体文档产生得分305。得分提供和检测器相对于多媒体文档300对其相应概念建模相关的信息。得分可反映许多内容,例如检测器依据其检测文档中的概念的置信度或不确定性(统称为“置信度”),概念与文档的关联性,或者检测器在检测概念方面的可靠性。例如,考虑如上所述的检测器1,得分可指示该检测器能够检测多媒体文档中“car”的描述的置信度。置信度和与决策边界或阈值的接近度相关。例如,如果对于检测“car”来说,多媒体文档远离决策边界,那么可以断定高的置信度。但是,如果多媒体文档接近决策边界,那么可断定低的置信度。关联性得分可指示概念与多媒体文档多么相关。例如,如果“car”只被局部描述或者并不构成多媒体文档的重要部分,那么可确定低的关联性得分。另一方面,可靠性得分可指示对检测其相应概念来说,检测器有多可靠。例如,如果只利用“cars”的少数几个例子训练了检测器1,那么可确定低的可靠性得分。但是,如果利用许多例子训练了检测器1,那么可确定高的可靠性得分。得分本身可能只反映这些属性之一,例如产生一个一维值。但是,通过提供关于多个属性的信息,得分也可以是多维的。
一旦关于每个检测器产生了得分,那么这些得分被映射304,从而产生模型向量306。在一些情况下,为每个多媒体文档300产生单个模型向量306,例如当每个检测器301-303使用多个形态(例如图像、视频、音频、文本、语音)来进行它们的分类时。另一方面,对于每个多媒体文档,可以产生多个模型向量306,例如当每个检测器只使用一种形态时。这种情况下,对于每个多媒体文档可产生多个模型向量,以反映多个得分,例如一个与音频形态相关,另一个与图像形态相关,等等。
产生一个或多个模型向量的映射304提供产生自检测器的得分的组合或累积。在一些情况下,映射提供级联N个得分,从而产生一个N维向量的简单操作。例如,考虑上面的三元素词典:{“car”,“boat”,“train”},其中每个检测器产生一个一维置信度得分(即,分类器1产生得分C1,分类器2产生得分C2,分类器3产生得分C3),随后级联操作产生三维模型向量M=[C1,C2,C3]。另一方面,映射304可产生置信度得分的线性加权或变换。
置信度得分可由检测器的可靠性或分类结果的关联性加权。分别考虑三个检测器中的每一个的可靠性得分R1、R2、R3。借助加权,通过把可靠性得分Ri乘以置信度得分Ci,映射304可产生三维模型向量M=[R1*C1,R2*C2,R3*C3]。另一方面,分别考虑三个检测器中的每一个的关联性得分L1、L2、L3,从而,通过把关联性得分Li乘以置信度得分Ci,映射304可产生三维模型向量M=[L1*C1,L2*C2,L3*C3]。其它映射304可提供线性变换和/或维数减缩,例如在主成分分析,奇异值分解,小波变换,离散余弦变换等的情况下。另一方面,映射304可提供非线性信息,例如在支持向量机,神经网络等的情况下。映射304还可涉及对离散空间或二进制取值空间的量化。例如,通过在映射阶段304对来自检测器的置信度得分305设置阈值,可产生指示每个概念是否存在于多媒体文档300中的二进制模型向量。
总的说来,映射304可产生从各个概念或者检测器301-303到模型向量306的各维的各种特定映射。在一些情况下,例如就级联得分305的映射304来说,产生概念到模型向量维的一对一映射。但是,在其它情况下,可取的是产生多对一映射,以便相对于原始概念空间,缩减模型向量306的维数。在其它情况下,映射304可以是一对多或多对多,以允许模型向量306中一定程度的冗余。
图4表示根据检测器评分,产生的模型向量的例子。在已知关于固定词典={“Cityscape”,“Face”,“Indoors”,“Landscape”,“Monologue”,“Outdoors”,“People”,“Text_Overlay”}的经评分的一组检测器结果400的条件下,通过把每个检测器得分400映射到多维模型向量401的独特维上,产生模型向量401。本例中,“Cityscape”的得分(它为0.35)被映射到模型向量的第一维。“Face”的得分(它为0.87)被映射到第二维,诸如此类。为了简化对应于不同多媒体文档的模型向量之间的匹配,可使用检测器得分到模型向量维的一致映射。类似地,更大词典的例证检测器得分402可被映射到模型向量维403。这种情况下,“Animal”的得分被映射到模型向量的第一维。“Beach”的得分被映射到第二维,诸如此类。
图5表示了利用模型向量索引多媒体文档的过程。首先,在模型向量产生过程501中分析一批K个多媒体文档500,从而产生一组M个模型向量502。模型向量产生过程501可在所有多媒体文档500内使用固定词典505和对应的一组检测器,以便允许产生模型向量502方面的一致性。此外,出于相同原因,模型向量产生过程501还可在所有多媒体文档500内把固定的一组参数用于评分305和映射304。一旦产生了模型向量502,就可使它们与它们的对应多媒体文档500相联系。例如,可利用数据库关键字值表示所述联系,所述数据库关键字值陈述每个模型向量502和每个多媒体文档500之间的主关键字-外部关键字关系。另一方面,可通过使给出其对应的多媒体文档500的地址的媒体定位符与每个模型向量502相关联,表示所述联系。另一方面,可使用唯一地识别每个多媒体文档500的标识符来允许表现每个模型向量502的联系。还可通过在每个多媒体文档500的报头或者元数据字段中表示模型向量的值,或者通过借助用水印作标记或者一些其它持久联系方法,持久地使模型向量502的值与每个多媒体文档500相联系,直接把模型向量502和每个多媒体文档500联系起来。
一旦产生了模型向量502,并且表示了它们与多媒体文档500的联系,就建立允许根据模型向量502的值对多媒体文档500的访问504的索引。索引可允许基于接近度的访问,以便允许相似性搜索法或者最近邻居搜索法。这些情况下,通过提供查询模型向量完成访问,并且根据索引找到相似模型向量或者固定大小的一组最近目标模型向量。索引还可支持基于范围的访问,这种情况下,提供查询模型向量,根据索引找到在离查询模型向量固定距离内的所有目标模型向量。
图6表示了利用模型向量的查询过程。使模型向量的值与用户的查询相匹配,以便检索多媒体文档。用户600向多媒体文档搜索系统609发出查询601。查询可以采取用户提供的例证模型向量的形式。可选的是,例如通过提供允许用户识别与查询相关的语义概念,并对用于构成模型向量表示的得分赋值,搜索界面可允许用户创建查询模型向量。另一方面,可选的是,搜索界面可向用户显示多媒体文档,并允许用户选择对于所述查询来说,哪些多媒体文档是相关的。系统随后会把预先计算的相关模型向量用于所述查询,或者会在查询时产生模型向量。另一方面,查询可采取用户提供的多媒体文档的例子的形式,这种情况下,通过使用模型向量产生过程来创建查询模型向量,可分析和处理查询多媒体文档。
一旦查询模型向量可用,就在步骤602中把它们与保存的模型向量值606进行匹配。匹配过程可涉及使用索引结构来识别目标模型向量匹配物。匹配可涉及如上所述的相似性搜索,最近邻居搜索,或者范围查询。匹配过程602产生匹配物列表603,它识别和查询模型向量相符的保存的模型向量606。随后可选地在步骤604中对匹配物列表603评分。可根据利用模型向量值的度量空间计算确定匹配评分。例如,考虑单个查询模型向量,匹配评分可以在利用距离函数,例如欧几里德距离或曼哈顿距离的多维模型向量空间中测量的接近度为基础。另一方面,匹配过程可以只使用一些模型向量维数。例如,考虑400-401中的模型向量,如果用户只关心“human-related”概念,那么这种情况下,可有选择地使用第二维(“face”)和第七维(“people”)。在提供多个查询模型向量的情况下,通过组合自单个模型向量的距离的得分,可获得匹配评分。其它选择是可能的,例如计算查询模型向量的质心,并使用质心模型向量作为查询。
可选的是随后在步骤605中,对评分的匹配物列表排序,以便把最佳匹配物移动到列表的顶部。可选的是随后在步骤606中截短排序列表,例如在列表上保持10个最佳匹配物(match)。结果607随后被提供给用户。可选的是,搜索系统可从多媒体储存库610中取回与结果列表607中的模型向量相关的那些多媒体文档,并向用户显示这些文档。
一旦结果被显示给用户,用户就可改进搜索,例如通过使用关联性反馈技术从结果列表607中识别正面例子和负面例子。搜索系统609可使用该信息和查询处理一起来根据模型向量得分检索匹配物。
虽然模型向量可被用于多媒体文档的检索,不过它们还可被用于对多媒体文档进行群集和分类。例如,可在多维度量空间中分析模型向量,以便利用各种技术,例如聚集群集法识别群集。还可利用各种有指导的学习方法,例如基于判别建模或生成建模的那些有指导学习方法,对模型向量分类。例证的分类器包括支持向量机和高斯混合模型。诸如主动学习和推动(boosting)之类的其它技术也可被应用于模型向量值以便分类。
模型向量还可被用于多媒体储存库的信息发现和挖掘。例如,可检查一批模型向量的维数的相关性,以揭示当概念出现在多媒体文档中时概念的同现信息。
图7表示了使用模型向量对多媒体文档的修改。模型向量可被用于过滤、总结或使来自多媒体储存库的多媒体文档或信息个人化。用户700向多媒体信息系统发出请求708。所述请求在步骤701中处理。请求可包含特定的用户查询,例如601中的查询,其中用户供给例证的模型向量或者多媒体文档,或者识别语义概念。另一方面,请求可以采取注册(login)的形式,其中已保存了用户简表以及用户偏爱信息。这种情况下,用户偏爱信息可选择地在步骤702中被检查。偏爱信息也可以例证的模型向量,多媒体文档或者识别的语义概念的形式被保存。用户查询和用户偏爱信息随后可被累积和处理,从而产生查询模型向量,查询模型向量随后被用于匹配模型向量703和检索保存的模型向量704,保存的模型向量再被用作在步骤706中从多媒体储存库705中有选择地取回(retrieve)多媒体文档的索引。这提供基于模型向量值的多媒体文档的过滤。
可选的是,可结合查询模型向量使用与多媒体文档相关的模型向量,以便在步骤707中修改(adapt)多媒体文档的内容。所述修改可根据关于特定查询的用户偏爱使多媒体内容个性化。例如,用户偏爱可指示“sports”概念重要。这种情况下,取回的多媒体文档,例如“news”视频可被处理,以便只抽取“sports”片段。另一方面,所述修改可总结内容,例如通过压缩“non-sports”片段,并从“sports”片段抽取精彩场面。
参考优选实施例说明了本发明。显然在不脱离附加权利要求中限定的本发明的精神和范围的情况下,本领域的技术人员可做出多种修改。

Claims (29)

1、一种产生用于表示多媒体文档的至少一个模型向量的方法,包括下述步骤:
应用多个概念检测器对多媒体文档进行分类;
相对于每个概念检测器,对所述多媒体文档评分;和
把通过对所述多媒体文档评分所得的得分映射到多维空间中,从而产生至少一个模型向量表示。
2、按照权利要求1所述的方法,其中所述多个概念检测器对应于类别、对象、事件、场景和人物的固定词典。
3、按照权利要求1所述的方法,其中所述多媒体文档包含音频、视觉、文本和语音中的一种或多种形态,其中所述概念检测器使用构成所述多媒体文档的单个或多个形态进行检测。
4、按照权利要求1所述的方法,其中所述概念检测器使用从所述多媒体文档抽取的文档特征的基于内容的描述符进行检测。
5、按照权利要求1所述的方法,其中所述概念检测器使用与所述多媒体文档相关的元数据进行检测。
6、按照权利要求1所述的方法,其中所述概念检测器使用与所述多媒体文档相关的语境信息进行检测。
7、按照权利要求1所述的方法,其中所述概念检测器使用知识库进行检测。
8、按照权利要求1所述的方法,其中所述概念检测器对应于受过训练的模型统计分类器。
9、按照权利要求1所述的方法,其中所述评分基于下述至少之一:检测多媒体文档中的概念的置信度,概念与多媒体文档的关联性,以及就该概念来说该概念检测器的可靠性。
10、按照权利要求1所述的方法,其中所述映射对应于下述至少之一:级联所述得分,进行线性变换,进行非线性变换,进行量化,和通过设置阈值的维数缩减。
11、按照权利要求10所述的方法,其中所述映射可以是一对一,一对多,多对一或者多对多。
12、按照权利要求1所述的方法,其中对于多媒体文档的索引来说,所述多个概念检测器是固定的。
13、按照权利要求1所述的方法,其中对于多媒体文档的索引来说,所述评分和映射方法是固定的。
14、一种利用模型向量索引多媒体文档的方法,包括下述步骤:
基于来自多个概念检测器的输入产生每个多媒体文档的一个或多个模型向量;
使所述模型向量与对应的多媒体文档相联系;和
根据所述相关模型向量的值,建立用于访问所述多媒体文档的索引。
15、按照权利要求14所述的方法,其中所述产生每个多媒体文档的一个或多个模型向量的步骤包括下述步骤:
应用多个概念检测器对多媒体文档进行分类;
相对于每个概念检测器对所述多媒体文档评分;和
把通过对所述多媒体文档评分所得的得分映射到多维空间中,从而产生至少一个模型向量表示。
16、按照权利要求15所述的方法,其中对于多媒体文档的所述索引来说,所述多个概念检测器是固定的。
17、按照权利要求15所述的方法,其中对于多媒体文档的所述索引来说,所述评分和映射方法是固定的。
18、按照权利要求14所述的方法,其中所述多媒体文档包含音频、视觉、文本和语音中的一种或多种形态,其中所述概念检测器使用构成所述多媒体文档的单个或多个形态进行检测。
19、按照权利要求18所述的方法,其中根据存在于所述多媒体文档中多个形态,从所述多媒体文档抽取的文档特征的基于内容的描述符,与所述多媒体文档相关的元数据或者与所述多媒体文档相关的语境信息中的每一个,产生关于每个多媒体文档的多个模型向量。
20、按照权利要求14所述的方法,其中所述联系以数据库关键字值,媒体定位符或者唯一地识别所述每个多媒体文档的标识符为基础。
21、按照权利要求14所述的方法,其中所述索引允许基于所述模型向量值的相似性搜索,最近邻居访问,或者范围搜索。
22、一种在关于多媒体文档的应用中使用模型向量的方法,包括下述步骤:
利用下述步骤产生用于表示每个多媒体文档的至少一个模型向量:
应用多个概念检测器对多媒体文档进行分类;
相对于每个概念检测器对所述多媒体文档评分;和
把通过对所述多媒体文档评分所得的得分映射到多维空间中,从而产生至少一个模型向量表示;和
根据所述至少一个模型向量表示的值,对所述多媒体文档进行检索操作。
23、按照权利要求22所述的方法,其中所述检索操作包含使用所述模型向量从多媒体信息储存库搜索和取回所述多媒体文档。
24、按照权利要求22所述的方法,其中所述检索操作包括下述至少之一:过滤多媒体信息,总结多媒体信息和使多媒体信息个人化。
25、按照权利要求22所述的方法,其中所述检索操作包括数据挖掘。
26、按照权利要求22所述的方法,其中所述检索操作包括群集所述多媒体文档。
27、按照权利要求22所述的方法,其中所述检索操作包括对所述多媒体文档分类。
28、一种在关于多媒体文档的应用中使用模型向量的系统,包括:
基于来自多个概念检测器的输入产生用于表示每个多媒体文档的至少一个模型向量的至少一个模型向量产生组件;和
根据所述至少一个向量表示的值,对所述多媒体文档执行至少一种操作的至少一个文档处理组件。
29、按照权利要求28所述的系统,其中所述至少一个模型向量产生组件包括:
应用多个概念检测器对多媒体文档进行分类的至少一个概念检测器应用组件;
相对于每个概念检测器,对所述多媒体文档评分的评分组件;和
把通过对所述多媒体文档评分所得的得分映射到多维空间,从而产生至少一个模型向量表示的映射组件;
根据所述至少一个模型向量表示的值,对所述多媒体文档执行检索操作。
CNB2003801096586A 2002-12-13 2003-12-12 概念模型空间中的内容表示和检索的方法和设备 Expired - Fee Related CN100485665C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/319,295 US7124149B2 (en) 2002-12-13 2002-12-13 Method and apparatus for content representation and retrieval in concept model space
US10/319,295 2002-12-13

Publications (2)

Publication Number Publication Date
CN1748213A CN1748213A (zh) 2006-03-15
CN100485665C true CN100485665C (zh) 2009-05-06

Family

ID=32506622

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003801096586A Expired - Fee Related CN100485665C (zh) 2002-12-13 2003-12-12 概念模型空间中的内容表示和检索的方法和设备

Country Status (7)

Country Link
US (1) US7124149B2 (zh)
EP (1) EP1579351A4 (zh)
JP (1) JP2006510114A (zh)
CN (1) CN100485665C (zh)
AU (1) AU2003300881A1 (zh)
TW (1) TWI297842B (zh)
WO (1) WO2004055639A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12086145B2 (en) 2021-07-13 2024-09-10 International Business Machines Corporation Mapping machine learning models to answer queries

Families Citing this family (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043474B2 (en) * 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
US7133811B2 (en) * 2002-10-15 2006-11-07 Microsoft Corporation Staged mixture modeling
GB0303018D0 (en) * 2003-02-10 2003-03-12 British Telecomm Information retreival
US7941009B2 (en) * 2003-04-08 2011-05-10 The Penn State Research Foundation Real-time computerized annotation of pictures
US7394947B2 (en) * 2003-04-08 2008-07-01 The Penn State Research Foundation System and method for automatic linguistic indexing of images by a statistical modeling approach
US7639868B1 (en) * 2003-06-16 2009-12-29 Drexel University Automated learning of model classifications
US20060282462A1 (en) * 2003-08-13 2006-12-14 Koninklijke Philips Electronics N.V. Context-of-use-independent content systems
US8301584B2 (en) * 2003-12-16 2012-10-30 International Business Machines Corporation System and method for adaptive pruning
TWI254221B (en) * 2004-05-06 2006-05-01 Lite On It Corp Method and apparatus for indexing multimedia data
US20080195601A1 (en) * 2005-04-14 2008-08-14 The Regents Of The University Of California Method For Information Retrieval
US7630977B2 (en) 2005-06-29 2009-12-08 Xerox Corporation Categorization including dependencies between different category systems
US9489431B2 (en) 2005-10-26 2016-11-08 Cortica, Ltd. System and method for distributed search-by-content
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US9466068B2 (en) 2005-10-26 2016-10-11 Cortica, Ltd. System and method for determining a pupillary response to a multimedia data element
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US10372746B2 (en) 2005-10-26 2019-08-06 Cortica, Ltd. System and method for searching applications using multimedia content elements
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US10380164B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for using on-image gestures and multimedia content elements as search queries
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US8818916B2 (en) * 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US9639532B2 (en) 2005-10-26 2017-05-02 Cortica, Ltd. Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US10607355B2 (en) 2005-10-26 2020-03-31 Cortica, Ltd. Method and system for determining the dimensions of an object shown in a multimedia content item
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US9191626B2 (en) 2005-10-26 2015-11-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US9953032B2 (en) 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US10387914B2 (en) 2005-10-26 2019-08-20 Cortica, Ltd. Method for identification of multimedia content elements and adding advertising content respective thereof
US10776585B2 (en) 2005-10-26 2020-09-15 Cortica, Ltd. System and method for recognizing characters in multimedia content
US9558449B2 (en) 2005-10-26 2017-01-31 Cortica, Ltd. System and method for identifying a target area in a multimedia content element
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US9256668B2 (en) 2005-10-26 2016-02-09 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US8266185B2 (en) * 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US9396435B2 (en) 2005-10-26 2016-07-19 Cortica, Ltd. System and method for identification of deviations from periodic behavior patterns in multimedia content
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US9384196B2 (en) 2005-10-26 2016-07-05 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US7734554B2 (en) * 2005-10-27 2010-06-08 Hewlett-Packard Development Company, L.P. Deploying a document classification system
US20070150802A1 (en) * 2005-12-12 2007-06-28 Canon Information Systems Research Australia Pty. Ltd. Document annotation and interface
US7779004B1 (en) 2006-02-22 2010-08-17 Qurio Holdings, Inc. Methods, systems, and products for characterizing target systems
US8005841B1 (en) * 2006-04-28 2011-08-23 Qurio Holdings, Inc. Methods, systems, and products for classifying content segments
US9330170B2 (en) * 2006-05-16 2016-05-03 Sony Corporation Relating objects in different mediums
US20070271286A1 (en) * 2006-05-16 2007-11-22 Khemdut Purang Dimensionality reduction for content category data
US7961189B2 (en) * 2006-05-16 2011-06-14 Sony Corporation Displaying artists related to an artist of interest
US7750909B2 (en) * 2006-05-16 2010-07-06 Sony Corporation Ordering artists by overall degree of influence
US7840568B2 (en) * 2006-05-16 2010-11-23 Sony Corporation Sorting media objects by similarity
US7774288B2 (en) * 2006-05-16 2010-08-10 Sony Corporation Clustering and classification of multimedia data
US8615573B1 (en) 2006-06-30 2013-12-24 Quiro Holdings, Inc. System and method for networked PVR storage and content capture
US8745684B1 (en) 2006-08-08 2014-06-03 CastTV Inc. Facilitating video search
US7519619B2 (en) * 2006-08-21 2009-04-14 Microsoft Corporation Facilitating document classification using branch associations
BRPI0605994B1 (pt) * 2006-09-29 2019-08-06 Universidade Estadual De Campinas - Unicamp Processo de randomização progressiva para análise e raciocínio em multimídia
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
US20080162561A1 (en) * 2007-01-03 2008-07-03 International Business Machines Corporation Method and apparatus for semantic super-resolution of audio-visual data
US7707162B2 (en) * 2007-01-08 2010-04-27 International Business Machines Corporation Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
US7840903B1 (en) 2007-02-26 2010-11-23 Qurio Holdings, Inc. Group content representations
US7996762B2 (en) * 2007-09-21 2011-08-09 Microsoft Corporation Correlative multi-label image annotation
EP2053523A1 (en) * 2007-10-16 2009-04-29 Sony France S.A. Method and apparatus for updating of prototypes
US8086549B2 (en) * 2007-11-09 2011-12-27 Microsoft Corporation Multi-label active learning
US7958068B2 (en) * 2007-12-12 2011-06-07 International Business Machines Corporation Method and apparatus for model-shared subspace boosting for multi-label classification
WO2009083833A1 (en) * 2007-12-28 2009-07-09 Koninklijke Philips Electronics N.V. Retrieval of similar patient cases based on disease probability vectors
US8775416B2 (en) * 2008-01-09 2014-07-08 Yahoo!Inc. Adapting a context-independent relevance function for identifying relevant search results
US8745056B1 (en) 2008-03-31 2014-06-03 Google Inc. Spam detection for user-generated multimedia items based on concept clustering
US8752184B1 (en) 2008-01-17 2014-06-10 Google Inc. Spam detection for user-generated multimedia items based on keyword stuffing
US8255386B1 (en) * 2008-01-30 2012-08-28 Google Inc. Selection of documents to place in search index
US8229865B2 (en) * 2008-02-04 2012-07-24 International Business Machines Corporation Method and apparatus for hybrid tagging and browsing annotation for multimedia content
US8171020B1 (en) 2008-03-31 2012-05-01 Google Inc. Spam detection for user-generated multimedia items based on appearance in popular queries
US8849832B2 (en) * 2008-04-02 2014-09-30 Honeywell International Inc. Method and system for building a support vector machine binary tree for fast object search
US7958130B2 (en) * 2008-05-26 2011-06-07 Microsoft Corporation Similarity-based content sampling and relevance feedback
US8666918B2 (en) * 2008-08-06 2014-03-04 Technische Universitat Berlin Video-genre classification
US8463051B2 (en) * 2008-10-16 2013-06-11 Xerox Corporation Modeling images as mixtures of image models
US8249343B2 (en) 2008-10-15 2012-08-21 Xerox Corporation Representing documents with runlength histograms
US8700072B2 (en) 2008-12-23 2014-04-15 At&T Mobility Ii Llc Scalable message fidelity
US8078617B1 (en) * 2009-01-20 2011-12-13 Google Inc. Model based ad targeting
US8386511B2 (en) * 2009-02-27 2013-02-26 Red Hat, Inc. Measuring contextual similarity
US8396850B2 (en) * 2009-02-27 2013-03-12 Red Hat, Inc. Discriminating search results by phrase analysis
US8527500B2 (en) * 2009-02-27 2013-09-03 Red Hat, Inc. Preprocessing text to enhance statistical features
US10891659B2 (en) * 2009-05-29 2021-01-12 Red Hat, Inc. Placing resources in displayed web pages via context modeling
JP5284990B2 (ja) 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
JP5631125B2 (ja) * 2010-09-01 2014-11-26 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
US8489604B1 (en) 2010-10-26 2013-07-16 Google Inc. Automated resource selection process evaluation
US8688706B2 (en) 2010-12-01 2014-04-01 Google Inc. Topic based user profiles
US20120197630A1 (en) * 2011-01-28 2012-08-02 Lyons Kenton M Methods and systems to summarize a source text as a function of contextual information
US11410072B2 (en) * 2011-10-21 2022-08-09 Educational Testing Service Computer-implemented systems and methods for detection of sentiment in writing
US9424334B2 (en) * 2011-12-12 2016-08-23 Tcb Encore, Llc Keyword based identity of multi-media content for message
US10313279B2 (en) 2011-12-12 2019-06-04 Rcs Ip, Llc Live video-chat function within text messaging environment
US9110989B2 (en) 2012-12-04 2015-08-18 At&T Intellectual Property I, L.P. Methods, systems, and products for recalling and retrieving documentary evidence
US9251433B2 (en) 2012-12-10 2016-02-02 International Business Machines Corporation Techniques for spatial semantic attribute matching for location identification
US9165217B2 (en) 2013-01-18 2015-10-20 International Business Machines Corporation Techniques for ground-level photo geolocation using digital elevation
US10387729B2 (en) 2013-07-09 2019-08-20 Outward, Inc. Tagging virtualized content
US9275306B2 (en) * 2013-11-13 2016-03-01 Canon Kabushiki Kaisha Devices, systems, and methods for learning a discriminant image representation
US9875301B2 (en) 2014-04-30 2018-01-23 Microsoft Technology Licensing, Llc Learning multimedia semantics from large-scale unstructured data
US9183507B1 (en) * 2014-11-17 2015-11-10 Microsoft Technology Licensing, Llc Context based inference of save location
FR3030846B1 (fr) * 2014-12-23 2017-12-29 Commissariat Energie Atomique Representation semantique du contenu d'une image
US9438412B2 (en) * 2014-12-23 2016-09-06 Palo Alto Research Center Incorporated Computer-implemented system and method for multi-party data function computing using discriminative dimensionality-reducing mappings
US9785866B2 (en) 2015-01-22 2017-10-10 Microsoft Technology Licensing, Llc Optimizing multi-class multimedia data classification using negative data
US10013637B2 (en) 2015-01-22 2018-07-03 Microsoft Technology Licensing, Llc Optimizing multi-class image classification using patch features
CN105991398A (zh) 2015-02-04 2016-10-05 阿里巴巴集团控股有限公司 一种即时通信im聊天记录的保存方法及装置
US9880999B2 (en) * 2015-07-03 2018-01-30 The University Of North Carolina At Charlotte Natural language relatedness tool using mined semantic analysis
CA2992519C (en) * 2015-07-16 2024-04-02 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
CN105005559A (zh) * 2015-08-18 2015-10-28 东南大学 一种基于主题特征的文档分类方法
EP3369252B1 (en) * 2015-10-30 2021-03-03 Hewlett-Packard Development Company, L.P. Video content summarization and class selection
US10282677B2 (en) * 2015-11-05 2019-05-07 International Business Machines Corporation Individual and user group attributes discovery and comparison from social media visual content
US10685070B2 (en) * 2016-06-30 2020-06-16 Facebook, Inc. Dynamic creative optimization for effectively delivering content
US10572908B2 (en) 2017-01-03 2020-02-25 Facebook, Inc. Preview of content items for dynamic creative optimization
US10922713B2 (en) 2017-01-03 2021-02-16 Facebook, Inc. Dynamic creative optimization rule engine for effective content delivery
US20190243910A1 (en) * 2018-02-05 2019-08-08 Microsoft Technology Licensing, Llc Visual Search as a Service
US11769425B2 (en) * 2018-11-02 2023-09-26 International Business Machines Corporation Enhancing video language learning by providing catered context sensitive expressions
US11436853B1 (en) * 2019-03-25 2022-09-06 Idemia Identity & Security USA LLC Document authentication
US11783005B2 (en) 2019-04-26 2023-10-10 Bank Of America Corporation Classifying and mapping sentences using machine learning
US11429896B1 (en) 2019-04-26 2022-08-30 Bank Of America Corporation Mapping documents using machine learning
US11302361B2 (en) 2019-12-23 2022-04-12 Samsung Electronics Co., Ltd. Apparatus for video searching using multi-modal criteria and method thereof
CN114328989A (zh) * 2021-12-09 2022-04-12 北京达佳互联信息技术有限公司 媒体信息处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794178A (en) * 1993-09-20 1998-08-11 Hnc Software, Inc. Visualization of information using graphical representations of context vector based relationships and attributes
US6084595A (en) * 1998-02-24 2000-07-04 Virage, Inc. Indexing method for image search engine
US6405166B1 (en) * 1998-08-13 2002-06-11 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
JP4194680B2 (ja) * 1998-01-30 2008-12-10 康 清木 データ処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
US6922699B2 (en) * 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6598054B2 (en) * 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US6819797B1 (en) * 1999-01-29 2004-11-16 International Business Machines Corporation Method and apparatus for classifying and querying temporal and spatial information in video
KR100350788B1 (ko) * 1999-10-19 2002-08-28 엘지전자 주식회사 가중치 표현 데이타 구조를 포함하는 멀티미디어 내용 묘사정보와 이를 이용한 멀티미디어 디스플레이 방법
WO2001031502A1 (fr) * 1999-10-27 2001-05-03 Fujitsu Limited Dispositif et procede de classement et de rangement d'informations multimedia
KR100767489B1 (ko) * 2000-03-18 2007-10-16 주식회사 팬택앤큐리텔 벡터 기술자 표현장치 및 이를 이용한 멀티미디어 데이터 검색장치
US7146349B2 (en) * 2000-11-06 2006-12-05 International Business Machines Corporation Network for describing multimedia information
US7444660B2 (en) * 2000-11-16 2008-10-28 Meevee, Inc. System and method for generating metadata for video programming events
US6556710B2 (en) * 2000-12-15 2003-04-29 America Online, Inc. Image searching techniques
US6915009B2 (en) * 2001-09-07 2005-07-05 Fuji Xerox Co., Ltd. Systems and methods for the automatic segmentation and clustering of ordered information
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
US7024033B2 (en) * 2001-12-08 2006-04-04 Microsoft Corp. Method for boosting the performance of machine-learning classifiers
US7050607B2 (en) * 2001-12-08 2006-05-23 Microsoft Corp. System and method for multi-view face detection
US7298931B2 (en) * 2002-10-14 2007-11-20 Samsung Electronics Co., Ltd. Image retrieval method and apparatus using iterative matching

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794178A (en) * 1993-09-20 1998-08-11 Hnc Software, Inc. Visualization of information using graphical representations of context vector based relationships and attributes
US6084595A (en) * 1998-02-24 2000-07-04 Virage, Inc. Indexing method for image search engine
US6405166B1 (en) * 1998-08-13 2002-06-11 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12086145B2 (en) 2021-07-13 2024-09-10 International Business Machines Corporation Mapping machine learning models to answer queries

Also Published As

Publication number Publication date
CN1748213A (zh) 2006-03-15
JP2006510114A (ja) 2006-03-23
AU2003300881A8 (en) 2004-07-09
US7124149B2 (en) 2006-10-17
WO2004055639A3 (en) 2004-11-04
TWI297842B (en) 2008-06-11
AU2003300881A1 (en) 2004-07-09
EP1579351A4 (en) 2008-07-02
EP1579351A2 (en) 2005-09-28
TW200426622A (en) 2004-12-01
WO2004055639A2 (en) 2004-07-01
US20040117367A1 (en) 2004-06-17

Similar Documents

Publication Publication Date Title
CN100485665C (zh) 概念模型空间中的内容表示和检索的方法和设备
US10614366B1 (en) System and method for multimedia ranking and multi-modal image retrieval using probabilistic semantic models and expectation-maximization (EM) learning
Tsai Bag‐of‐words representation in image annotation: a review
US8949198B2 (en) Systems and methods for building a universal multimedia learner
Bouguila A model-based approach for discrete data clustering and feature weighting using MAP and stochastic complexity
Elhoseiny et al. Zero-shot event detection by multimodal distributional semantic embedding of videos
Gao et al. Automatic image annotation through multi-topic text categorization
JP2011128773A (ja) 画像検索装置、画像検索方法及びプログラム
Hussein et al. Unified embedding and metric learning for zero-exemplar event detection
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
Min et al. Near-duplicate video clip detection using model-free semantic concept detection and adaptive semantic distance measurement
Le Saux et al. Image recognition for digital libraries
Theodosiou et al. Image retrieval using keywords: The machine learning perspective
Ayache et al. Using topic concepts for semantic video shots classification
Lu et al. Automatic image annotation based-on model space
Wang et al. Exploring statistical correlations for image retrieval
Zhang et al. Cascade category-aware visual search
Training-Less Wael Alkhatib (), Saba Sabrin, Svenja Neitzel, and Christoph Rensing Communication Multimedia Lab, TU Darmstadt, Rundeturmstr. 10, 64283 Darmstadt, Germany {wael. alkhatib, svenja. neitzel, christoph. rensing}@ kom. tu-darmstadt. de, saba. sabrin@ stud. tu-darmstadt. de
CN117786137A (zh) 一种多媒体数据查询方法、装置、设备及可读存储介质
Goldmann et al. Towards person google: Multimodal person search and retrieval
Smith et al. Statistical Techniques for Video Analysis and Searching
Grosky et al. Narrowing the semantic gap in image retrieval: A multimodal approach
Park et al. Content based web image retrieval system using both mpeg-7 visual descriptors and textual information
Spyrou et al. Concept-Based Multimedia Processing Using Semantic and Contextual Knowledge
Ismail et al. Empirical comparison of automatic image annotation systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090506

Termination date: 20100112