CN100336061C - 多媒体对象检索设备和方法 - Google Patents

多媒体对象检索设备和方法 Download PDF

Info

Publication number
CN100336061C
CN100336061C CNB2004100705530A CN200410070553A CN100336061C CN 100336061 C CN100336061 C CN 100336061C CN B2004100705530 A CNB2004100705530 A CN B2004100705530A CN 200410070553 A CN200410070553 A CN 200410070553A CN 100336061 C CN100336061 C CN 100336061C
Authority
CN
China
Prior art keywords
piece
multimedia object
note
main
multimedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100705530A
Other languages
English (en)
Other versions
CN1581172A (zh
Inventor
刘金松
于浩
西野文人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CNB2004100705530A priority Critical patent/CN100336061C/zh
Publication of CN1581172A publication Critical patent/CN1581172A/zh
Application granted granted Critical
Publication of CN100336061C publication Critical patent/CN100336061C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种多媒体对象检索设备和方法,用于在同时包含多媒体对象和相关注释文本的结构化文档中检索多媒体对象。本发明的设备和方法对输入的结构化文档进行分析,并将其表示为诸如DOM树那样的某种分析结果;识别所输入的分析结果中的主块,并输出主块标示结构化文档模型;提取多媒体对象和所述注释的配对,并输出诸如XML格式对象索引那样的结构化对象索引;以及在结构化对象索引中进行搜索,并获得目标对象列表。本发明的设备和方法可适用于各种结构化文档,可以更高精度地提取对象注释,可提取内容对象的公共注释,并可标识对象与文档标题间的关系。

Description

多媒体对象检索设备和方法
技术领域
本发明涉及多媒体对象检索。具体而言,涉及对结构化文档,例如网页、XML文件、报纸等中的多媒体对象,如图像、动画、视频、音频、表等的注释进行检索的设备和方法。
背景技术
互联网技术的发展使得在互联网上发布诸如图像、音乐和电影那样的商业对象变得容易和有利可图。但是另一方面,这也为非法复制和再发布多媒体对象提供了便利。现在,这种非法复制在互联网上几乎随处可见。这大大降低了合法商业活动的利润。因此,非常需要开发出一种互联网警察系统,以查出这些非法对象。图像检索系统是一种典型的对象检索系统。
自20世纪70年代以来,图像检索一直是一个非常活跃的研究领域。一个方向主要是基于文本,参见Anna Bjarnestam在1999年2月25-26日于英国Newcastle upon Tyne举行的“The Challenge of Image RetrievalConference”会议上发表的论文“Text-Based Hierarchical ImageClassification and Retrieval of Stock Photography”。另一个依靠视觉特征,例如数据的颜色、纹理和形状,称为基于内容的图像检索。参见Eakins,J P和Graham,M E在1999年1月的“Report to JISCTechnology Application Programme”中发表的“Content-Based ImageRetrieval”。
除了费力耗时以外,这两种方法的不足是未利用网页格式的优点。并且,对进行图像检索的用户的调查表明,他们对图像识别和由图像表示的动作的感兴趣程度比对大多数基于内容的检索系统所提供的颜色、形状和其它视觉特征的感兴趣程度要大得多。参见C.Jorgensen于1998年在“Information Processing and Management”第34卷,第2/3期,第161-174页中发表的“Attributes of Images in Describing Tasks”。
对随机网络照片的另一项调查表明,93%具有一个以上的标题。仅7%没有可视标题。参见Neil C.Rowe于1999年在“the MARIE Project”中发表的“Precise and Efficient Retrieval of Captioned Images”。
因此,最近学者们对基于网络的图像检索越来越感兴趣。他们使用与图形特征相结合的元数据、HTML标题、图像URL、别名、锚定文本等元素,在互联网中检索图像。参见Rong Zhao和William I.Grosky在“IEEETransactions on Multimedia”2002年第4(2)期第189-200页中发表的“Narrowing the Semantic Gap-Improved Text-Based Web DocumentRetrieval Using Visual Features”。
已经取得了良好的效果,并已建立了商业化的图像检索系统,例如Google。
图1是传统的对象检索系统的结构框图。输入的是结构化文档101,例如网页。首先,该系统使用简单的分析单元102对输入的结构化文档101进行分析,然后注释提取单元104简单地通过对多媒体对象和文本之间的距离进行计算,从分析单元102输出的分析结果103中提取出各多媒体对象的注释,并作为结果输出多媒体对象索引105。最后,多媒体对象检索单元106把多媒体对象索引105与用户输入的检索要求107进行比较,返回目标对象列表108。
由此可见,传统的对象检索系统仍存在一些不足之处。
首先,传统上,通过计算对象和文本之间的距离来提取对象的注释。如果该距离小于一个临界值,则把文本设定为相关对象的注释,否则设定为不是。这种算法太简单,以致丢失了许多有用的信息,从而使对象检索系统的性能低下。网页通常会包含主文本块或重复对象块(以下称其为主块),如果能在提取多媒体对象的注释之前识别出页面的主块,则能大大提高对象检索的效率。
第二,HTML标题显然与其中的对象具有某种联系。但是它仅与页面内的某些对象而不是所有对象相关。由于传统的多媒体对象检索系统不对网页的结构进行详细分析,因而无法区分相关对象与非相关对象,要么把标题设定为各个对象的注释,要么设定为都不是。这显然是不恰当的。如果能够识别出主块,则可以只把标题设定为主块内的对象的注释,从而可以提高系统性能。
第三,在包含一个以上内容对象的页面中,除了各个单独对象的注释之外,通常还有对所有对象的公共内容进行说明的公共注释。而传统系统无法对此进行处理。如果可以识别出主文本块和重复对象块,则可以把注释分为单独注释和公共注释,并分别提取,从而可以大大提高系统的性能。
发明内容
本发明的目的是解决现有的多媒体对象检索中存在的问题,并提供一种新的用于对结构化文档,例如网页、XML文件、报纸等中的多媒体对象,如图像、动画、视频、音频、表等的注释进行分析的设备和方法。
根据本发明的一个方面,提供了一种多媒体对象检索设备,用于从同时包含多媒体对象和相关注释文本的结构化文档中检索多媒体对象,该多媒体对象检索设备包括:分析单元,其对输入的结构化文档进行分析,并将其表示为预定形式的分析结果;主块识别单元,其分析所输入的分析结果中的主块,并输出主块标示结构化文档模型;对象注释提取单元,其从主块标示结构化文档模型中提取多媒体对象和相应注释的配对,分析多媒体对象的注释,提取对多媒体对象内容进行实际注释的关键词,删除无效注释,并输出预定形式的结构化对象索引;以及多媒体对象检索单元,其在结构化对象索引中进行搜索,并获得目标对象列表。
优选地,本发明的多媒体对象检索设备还具有公共注释提取单元,其根据公共注释提取规则,提取各主块内各个多媒体对象的公共注释。
根据本发明的另一个方面,提供了一种多媒体对象检索方法,用于在同时包含多媒体对象和相关注释文本的结构化文档中检索多媒体对象,该方法包括以下步骤:对输入的结构化文档进行分析,并将其表示为某种分析结果;识别所输入的分析结果中的主块,并输出主块标示结构化文档模型;提取多媒体对象和相应注释的配对,并输出结构化对象索引;以及在结构化对象索引中进行搜索,并获得目标对象列表。
优选地,本发明的多媒体对象检索方法还包括公共注释提取步骤,其中,根据公共注释提取规则,提取各主块内各个多媒体对象的公共注释。
优选地,本发明中的主块是主文本块或者重复对象块。
本发明的设备和方法几乎可以适用于所有类型的结构化文档。通过识别主文本块和重复对象块来获得注释,不仅能够以更高的精度提取对象注释,而且还能识别一组对象的公共注释,并能识别多媒体对象和结构化文档的标题之间的关系。采用本发明的设备和方法可以大大提高多媒体对象检索的性能。
附图说明
下面将结合附图对本发明的多媒体对象检索设备和方法进行详细说明。图中相同的标号表示相同的部件或步骤。其中:
图1是传统的对象检索系统的结构框图;
图2是本发明的对象检索系统的原理框图;
图3是主块识别单元的结构框图;
图4是主文本块识别单元的结构框图;
图5是重复对象块识别单元的结构框图;
图6是对象注释提取单元的结构框图;
图7是对象检索单元的结构框图;
图8是包含四种图像对象(多媒体对象的一个示例)的输入网页的一个示例;
图9是HTML DOM树(分析结果的一个示例)的一个示例;
图10是包含主文本块的网页的一个示例;
图11是包含重复图像块(重复对象块的一个示例)的网页的一个示例;
图12是重复图像块(重复对象块的一个示例)的HTML标记流(结构化文档标记流的一个示例)的一个示例;
图13是从网页(结构化文档的一个示例)中提取的输出XML格式对象索引(结构化对象索引的一个示例)的一个示例。
具体实施方式
图2是本发明的对象检索设备的原理框图。该设备的输入是结构化文档201,例如网页。首先,分析单元202把输入的结构化文档转换为某种分析结果203,例如DOM(文档对象模型,Document Object Model)树。然后,主块识别单元204从分析结果203中识别出结构化文档201的主块,并输出主块标示分析结果205。接着,多媒体对象注释提取单元206提取多媒体对象和相应注释的配对,并输出结构化对象索引207,例如XML格式对象索引。最后,对象分析单元208将输入要求209与结构化对象索引207进行比较,判断候选对象是否是目标对象,并以目标对象列表210的形式返回检索结果。
由于所输入的HTML源代码这样的结构化文档201直接处理起来比较麻烦,所以开发了HTML分析器这样的分析单元202,用于将结构化文档201表示为某种分析结果203,例如HTML DOM树,以便于随后处理。图9显示了HTML DOM树(分析结果203的一个示例)的一个示例。
图3示出了输入的结构化文档201的主块识别的关键步骤。主块识别单元204可以包括主文本块识别单元302和重复对象块识别单元303。首先,分别使用主文本块识别单元302和重复对象块识别单元303给输入分析结果203添加标注。主文本块识别单元302的输出是主文本块标示分析结果304。重复对象块识别单元303的输出是重复对象块标示分析结果305。接着,标示结果组合单元306把这两个结果组合成主块标示分析结果205,其中,主文本块和重复对象块都被添加了标注。
图4示出了主文本块识别的关键步骤。输入的是由分析单元202输出的分析结果203。首先,使用文本长度统计单元402计算分析结果203中各节点的文本长度。接着,使用中心文本节点查找单元403来查找中心文本节点。然后,使用主文本块计算单元404来识别主文本块。在识别了主文本块之后,利用主文本块内对象标注单元405对主文本块中的多媒体对象进行标注。从而获得了主文本块标示分析结果304。
在文本长度统计单元402中,计算分析结果203中各节点的文本长度。节点的文本长度是指该节点是文本节点时其内容的长度(版权声明这样的无效文本节点除外,此时长度认为是零)。首先去除文本节点内容中的标点。如果节点具有多个子节点,则该节点的文本长度是其子节点的总文本长度。
中心文本节点查找单元403是用于查找分析结果的节点的中心文本节点的设备。使用以下规则来判断一个节点是否有中心文本节点:首先,如果该节点的文本长度小于一个预定的值LEAST_MAIN_BLOCK_LENGTH(例如,50),或者它根本就没有子节点,则它不会有中心文本节点。接着,遍历所有的子节点,如果子节点是表,并且其文本长度大于该节点的文本长度的一个预定比率MAX_CENTER_NODE_RATE(例如,90%),或者其文本长度大于一个预定的值MAIN_BLOCK_LENGTH(例如,200),并且子节点的文本长度与该节点的比值大于一个预定的值LEAST_CENTER_NODE_RATE(例如,60%),则该节点具有中心文本节点,并且相应的子节点是这个节点的中心文本节点。
主文本块是网页之类的结构化文档201中对输入结构化文档201的主要内容进行说明的文本段。主文本块通常与结构化文档201的标题相关。通常在这些段中设置有许多多媒体对象,以帮助更清楚地表达思想或使读者感兴趣。这些对象也与结构化文档201的标题相关。图10是网页(一种结构化文档201)中的主文本块的一个示例。
以下对主文本块计算单元404进行说明。首先,文本长度:我们主要根据文本长度来识别主文本块。如果文本太短(文本长度小于一个预定的值LEAST_MAIN_TEXT_BLOCK_LENGTH)或者它是链接文本块,则它不会是主文本块。链接文本块是一种HTML DOM树(分析结果的一个示例)节点,其中,链接文本长度大于一个预定的值LEAST_LINK_BLOCK_LENGTH(例如,30),文本长度小于一个预定的值MAIN_BLOCK_LENGTH(例如,200),并且链接长度与总文本长度的比值大于一个预定的比率LINK_BLOCK_RATE(例如,80%)。如果文本长度大于一个预定的值MAIN_TEXT_BLOCK_LENGTH(例如,200)或者与根节点的文本长度的比值大于一个预定的比值MAIN_TEXT_BLOCK_RATE,则可以把它识别为主文本块。第二,关键词:它把足够长并且包含结构化文档201的标题(例如HTML标题)的文本段标记为主文本块。HTML<body>:如果在子节点中没有识别出主文本块,则把文本长度大于MAIN_TEXT_BLOCK_LENGTH的<body>设定为主文本块。方向:如果从上到下使用这些规则,则顶部的标记应非常容易地满足这些规则。但是这没有意义,因此我们按照从下到上的方向使用这些规则。当有两个以上的子节点被识别为主文本块时,这个节点也是主文本块。如果一个节点具有中心文本节点,则该节点是否是主文本块就相当于该节点的中心文本节点是否是主文本块。
图5示出了重复对象块识别的关键步骤。输入的是某种分析结果203,例如HTML DOM树。首先,使用对象过滤单元,例如图5中所示的无效多媒体对象标注单元502对无效对象加以标注。然后,对象数统计单元503计算分析结果203中各节点的对象数。接着,使用中心对象节点查找单元504检索分析结果203中的各节点(例如HTML DOM树节点)的中心对象节点。之后,使用重复对象块识别单元505来识别重复对象块。最后,重复对象模式内对象标注单元506对重复对象块中的各对象进行标注。因此获得了重复对象块标示分析结果305。
在无效多媒体对象标注单元502中,自动地对修饰图像之类的无效对象进行标注。可以把网页中的对象分为四类,即:内容对象,修饰对象,菜单对象和广告对象。图8是所有这四种对象的一个示例。内容对象:这些对象具有注释或者位于主文本块或重复对象块内。修饰对象:这些对象与网页的内容无关,它们存在的目的仅仅是使页面更美观并使用户更感兴趣。许多修饰对象循环地出现。菜单对象:许多网页具有由对象列表构成的图像菜单(菜单对象的一个示例)。这些对象具有指向其它结构化文档201(例如网页、子目录结构化文档201以及网站的子目录网页)的链接。这些对象通常位于所输入的结构化文档201的最左边或顶部。广告对象:经常会有这样的对象,其内容与当前网页的主要思想无关,而是指向其它的商业网站,这些对象被称为广告对象。在所有这四种对象中,只有内容对象才是对象搜索引擎想要提供给用户的对象。因此,其它三种对象被归类为无效对象。在提取注释字段和识别主块之前,无法清楚地确定内容对象和无效对象。开始,只能通过一些特征,例如对象大小和循环属性等,找出一些修饰对象。在该无效对象标注单元502中,可以根据以下规则来识别无效对象。修饰对象:如果对象极长,即高度/宽度小于一个预定的值RATE_OBJECT_TOO_LONG(例如,1/4),或者细长,即高度/宽度大于一个预定的值RATE_OBJECT_TOO_SLIM(例如,4),或尺寸太小,即高度*宽度小于一个预定的值SIZE_TOO_SMALL(例如,900),或循环出现,即出现一次以上,则该对象是修饰对象。其它对象暂时设定为候选对象。如果对象大小未知,并且宽度和高度未知,则该对象也被设定为候选对象。
对象数统计单元503用于计算分析结果203中的各节点(例如HTMLDOM树节点)的对象数。如果一个节点是对象节点并且该对象是候选对象,则对象数是1,否则为0。如果一个节点具有子节点,则对象数是子节点对象数的总数。
中心对象节点查找单元504用于查找当前节点的中心对象节点。根据以下规则来识别中心对象节点:如果一个节点没有对象,则它没有中心对象节点;如果一个子节点的对象数大于该节点的MAX_CENTER_NODE_RATE(例如,90%),则它是该节点的中心对象节点。
重复对象模式计算单元505使用以下规则来识别重复对象模式。对象数:如果一个节点中的对象数小于2,则它不会是重复对象块。结构化文档的标记:以HTML文件为例,如果节点不是<body>或<table>或<tr>,则它不会是重复对象块。子节点的HTML标记流:此处DOM树节点的标记流是指采用深度优先法搜索到的HTML标记列表。图12是一个示例。该<table>节点的HTML标记流是“<table>,<tr>,<td>,<img>,<td>,<img>,<td>,<img>,<tr>,<td>,<txt>,<td>,<txt>,<td>,<txt>,<tr>,<td>,<img>,<td>,<img>,<td>,<img>,<tr>,<td>,<txt>,<td>,<txt>,<td>,<txt>”。<img>表示DOM树的图像节点(对象节点的一个示例)。<txt>表示DOM树的文本节点。在此,我们认为标记<img>与标记<txt>相同。如果有两个以上子节点的标记流相同,则可以认为该节点是重复对象块。如果该节点是<table>节点,则重复模式应在<Tr>子节点中,并应包含一个以上的对象或文本。而如果该节点是tr节点,则重复模式应在td中。前面的<table>节点是重复对象块,因为它是<table>节点并包含两行六个对象。该节点的子节点具有相同的标记流。方向:与主文本块识别的方向不同,从上到下识别重复对象块。
图6示出了对象注释提取的关键步骤。输入的是主块标示分析结果307,例如HTML DOM树。单个对象注释提取单元602提取各候选对象的注释。然后,公共注释提取单元603提取候选对象的公共注释。对象索引构建单元604生成结构化对象索引207,例如所有内容对象的XML格式索引605。
单个对象注释提取单元602根据以下规则来提取候选对象的9种注释,包括结构化文档的绝对地址,例如网页的URL;结构化文档的标题,例如网页的标题;对象的文件名;别名;单独注释;公共注释;周边文本(surrounding);对象是否位于主文本块的标示;对象是否位于重复对象块的标示;文件名和别名:文件名和别名是对象的自然注释,它们是对象的两种属性,由分析单元确定;单个HTML标记:如果对象和文本位于单个结构化文档标记内(例如单个HTML标记内),例如<A>,<td>,<center>,则该文本被认为是对象注释;一行中的对象和文本:如果对象和文本位于一行中,例如在<tr>内单独的<td>中,则该文本被认为是相应对象的注释;重复对象块中的对象和文本:如果对象和文本位于重复对象块中,则根据重复模式来提取对象注释。以图12为例,节点<table>是重复对象块。重复模式是“<tr><td><img><td><img><td><img>”(注意:我们认为<txt>与<img>相同)。因此,第2行中的text11、text12、text13分别是图像对象11、图像对象12、图像对象13的注释。并且第4行中的text21、text22、text23分别是图像对象21、图像对象22、图像对象23的注释。所有作为注释提取出来的文本都被标记为已使用,并在以下处理中将不再被提取。如果使用前面的所有方法都不能找到对象注释,则可以按照距离来提取注释。按照结构化文档的标记类型,例如HTML标记的类型来计算距离。不同的标记具有不同的距离值。这是一种常用的对象注释检索方法。如果在单个HTML标记或一行中具有一个以上的候选对象和文本,则也可按照距离来提取注释。按照距离提取的注释被标记为周边文本。
可选地,单个对象注释提取单元602中可以具有关键词提取单元,其使用预定的实际注释关键词分析规则,分析多媒体对象的注释,提取对多媒体对象内容进行实际注释的关键词,并删除无效的注释。
公共注释提取单元603提取候选对象的公共注释。公共注释是另一种对象注释,它对一组对象而不是单个对象的内容进行说明。例如,图11中黑色椭圆内的文本就是公共注释的一个示例。它对该网页中所有七个对象的内容进行说明。根据以下规则来提取公共注释。首先,遍历分析结果,例如主文本块的HTML DOM树。如果主文本块包含候选对象,则提取还未使用的并标记为对象注释的文本,当一个节点的标记流是重复对象模式时,该节点中的所有文本都不予考虑。把该文本设定为该主文本块中所有候选对象的公共注释。第二,遍历重复对象块的HTML DOM树。如果重复对象块被发现有文本,则提取所有未使用的文本和重复模式以外的文本作为公共注释。把该文本设定为该重复对象块的重复模式中的候选对象的公共注释。如果在重复对象块中没有文本,则把重复对象块前面的文本看作是公共注释,除非前一节点是另一重复对象块或重复对象模式或多节点或候选对象。多节点是包含候选对象和文本两者的HTMLDOM树节点。
在这个步骤中,已经提取了候选对象的所有注释。现在,对象索引构建单元604生成结构化对象索引207,例如输入结构化文档201中的所有多媒体对象的XML格式索引。图13显示了XML格式对象索引(结构化对象索引207的一个示例)。所有对象的注释被记录在标记<WebPage>和</WebPage>之间。在<Head>中记录整个页面的信息,包括网页的URL、页面的本地路径,页面中的HTML标题和内容对象总数。在<body>中,有记录各个对象的信息的对象标记列表。对象信息包括:对象的文件名、对象的绝对URL地址、对象大小、别名、单独注释、公共注释、周边文本及对象是否处于主块中的标示。当对象在主文本块中时,对应项目<IsInMainTextBlock>被设定为真,当对象在重复对象块中时,对应项目<IsInRepeatingObjectBlock>被设定为真。
图7示出了使用对象索引来检索目标对象的关键步骤。输入的是结构化对象索引207,例如XML格式对象索引,以及检索要求209,例如关键词。要求转换单元703把输入的检索要求转换为另一格式。例如,在字典中搜索与输入的关键词相关联的字。目标对象识别单元704计算一个对象是否是目标对象。把结果记录在目标对象列表705中并返回给用户。
以上利用优选实施例对本发明进行了说明。但应该理解,本发明的范围不限于上述的优选实施例。本发明的设备和方法可以应用于任何结构化文档,包括,但不限于网页、XML文件等等,本发明的设备和方法可以用于检索各种多媒体对象,包括,但不限于图像、动画、音频、视频、表等等。同时,本发明不限于以上记载的细节,在所附权利要求限定的范围内,本发明可以有各种变化和改进。

Claims (14)

1.一种多媒体对象检索设备,用于从同时包含多媒体对象和相关注释文本的结构化文档中检索多媒体对象,该多媒体对象检索设备包括:
分析单元,其对输入的结构化文档进行分析,并将其表示为适合于机器处理的分析结果;
主块识别单元,其分析所输入的分析结果中的主块,对主块中的多媒体对象进行标示,并输出标示后的预定形式的结构化文档模型;
对象注释提取单元,其对于主块识别单元输出的结构化文档模型,提取其中的多媒体对象的注释,输出预定形式的结构化对象索引;以及
多媒体对象检索单元,其在对象注释提取单元输出的结构化对象索引中进行搜索,从而获得目标对象列表。
2.如权利要求1所述的多媒体对象检索设备,其中,所述的主块识别单元包括主文本块识别单元,其从分析单元输出的分析结果中去除冗余信息,识别出该分析结果中的主文本块,对主文本块中的多媒体对象进行标示,并向对象注释提取单元输出主文本块标示结构化文档模型。
3.如权利要求1或2所述的多媒体对象检索设备,其中,所述的主块识别单元包括重复对象块识别单元,其根据预定的重复对象模式识别规则,在分析单元输出的分析结果中查找重复对象块,对重复对象块中的多媒体对象进行标示,并输出重复对象标示结构化文档模型。
4.如权利要求1所述的多媒体对象检索设备,还具有公共注释提取单元,其根据预定的公共注释提取规则,提取各主块内各个多媒体对象的公共注释。
5.如权利要求1所述的多媒体对象检索设备,其中,所述对象注释提取单元从主块识别单元输出的结构化文档模型中提取多媒体对象和相应注释的配对。
6.如权利要求1所述的多媒体对象检索设备,还具有对象过滤单元,其通过预定的注释字段中的预定关键词,去除无效的对象,从而由对象注释提取单元提取其它的对象。
7.如权利要求1所述的多媒体对象检索设备,其中,所述的对象注释提取单元中包含关键词提取单元,其使用预定的实际注释关键词分析规则,分析多媒体对象的注释,提取对多媒体对象内容进行实际注释的关键词,并删除无效的注释。
8.一种多媒体对象检索方法,用于在同时包含多媒体对象和相关注释文本的结构化文档中检索多媒体对象,该方法包括以下步骤:
步骤1,对输入的结构化文档进行分析,并将其表示为适合于机器处理的分析结果;
步骤2,识别所输入的分析结果中的主块,对主块中的多媒体对象进行标示,并输出标示后的预定形式的结构化文档模型;
步骤3,对于所述的结构化文档模型,提取其中的多媒体对象的注释,输出预定形式的结构化对象索引;以及
步骤4,在结构化对象索引中进行搜索,并获得目标对象列表。
9.如权利要求8所述的多媒体对象检索方法,其中,所述的主块包括主文本块,所述的步骤2从所述分析结果中去除冗余信息,识别出步骤1的分析结果中的主文本块,对主文本块中的多媒体对象进行标示,并输出主文本块标示结构化文档模型。
10.如权利要求8或9所述的多媒体对象检索设备,其中,所述的主块包括重复对象块,所述的步骤2根据预定的重复对象模式识别规则,在步骤1的分析结果中查找重复对象块,对重复对象块中的多媒体对象进行标示,并输出重复对象标示结构化文档模型。
11.如权利要求8所述的多媒体对象检索方法,其中,所述的步骤3还包括公共注释提取步骤,根据预定的公共注释提取规则,提取各主块内各个多媒体对象的公共注释。
12.如权利要求8所述的多媒体对象检索方法,其中,所述的步骤2还包括对象过滤步骤,通过预定的注释字段中的预定关键词,去除无效的对象。
13.如权利要求8所述的多媒体对象检索方法,其中,所述的步骤3从所述结构化文档模型中提取多媒体对象和相应注释的配对。
14.如权利要求8所述的多媒体对象检索方法,其中,在所述的步骤3中,使用预定的实际注释关键词分析规则,分析多媒体对象的注释,提取对多媒体对象内容进行实际注释的关键词,并删除无效的注释。
CNB2004100705530A 2003-08-08 2004-08-06 多媒体对象检索设备和方法 Expired - Fee Related CN100336061C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100705530A CN100336061C (zh) 2003-08-08 2004-08-06 多媒体对象检索设备和方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN03153179 2003-08-08
CN03153179.2 2003-08-08
CNB2004100705530A CN100336061C (zh) 2003-08-08 2004-08-06 多媒体对象检索设备和方法

Publications (2)

Publication Number Publication Date
CN1581172A CN1581172A (zh) 2005-02-16
CN100336061C true CN100336061C (zh) 2007-09-05

Family

ID=34593093

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100705530A Expired - Fee Related CN100336061C (zh) 2003-08-08 2004-08-06 多媒体对象检索设备和方法

Country Status (1)

Country Link
CN (1) CN100336061C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1967580B (zh) * 2006-04-04 2010-10-27 华为技术有限公司 电子帐单的实现方法
CN100573520C (zh) 2006-08-29 2009-12-23 国际商业机器公司 为检索对多个文档进行预处理的方法和装置
CN100422999C (zh) * 2006-09-14 2008-10-01 浙江大学 基于内容相关性的跨媒体检索方法
CN102122280B (zh) * 2009-12-17 2013-06-05 北大方正集团有限公司 一种智能提取内容对象的方法及系统
CN102236714A (zh) * 2011-07-05 2011-11-09 广东星海数字家庭产业技术研究院有限公司 一种基于xml的交互应用多媒体信息检索方法
JP2013246522A (ja) * 2012-05-23 2013-12-09 Hitachi Ltd 構造化文書検索装置及びプログラム
US9104730B2 (en) * 2012-06-11 2015-08-11 International Business Machines Corporation Indexing and retrieval of structured documents
JP6646395B2 (ja) * 2015-09-28 2020-02-14 キヤノン株式会社 情報処理装置及びその方法、情報処理システム、コンピュータプログラム
CN110019661A (zh) * 2017-09-12 2019-07-16 珠海金山办公软件有限公司 基于办公文档的文本搜索方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0936531A2 (en) * 1998-02-12 1999-08-18 Hitachi, Ltd. Information search method and system therefor
CN1364267A (zh) * 1999-02-01 2002-08-14 纽约市哥伦比亚大学托管会 多媒体档案描述方案
US6493744B1 (en) * 1999-08-16 2002-12-10 International Business Machines Corporation Automatic rating and filtering of data files for objectionable content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0936531A2 (en) * 1998-02-12 1999-08-18 Hitachi, Ltd. Information search method and system therefor
CN1364267A (zh) * 1999-02-01 2002-08-14 纽约市哥伦比亚大学托管会 多媒体档案描述方案
US6493744B1 (en) * 1999-08-16 2002-12-10 International Business Machines Corporation Automatic rating and filtering of data files for objectionable content

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
互联网WWW图像搜索引擎的研究与设计 王学松、周明全、耿国华,小型微型计算机系统,第24卷第7期 2003 *
典型的图像搜索引擎特征和评价 汪社教,情报科学,第21卷第4期 2003 *
基于内容的图像搜索引擎技术 王永强、夏定元,桂林电子工业学院学报,第23卷第1期 2003 *

Also Published As

Publication number Publication date
CN1581172A (zh) 2005-02-16

Similar Documents

Publication Publication Date Title
Gatterbauer et al. Towards domain-independent information extraction from web tables
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
US7788262B1 (en) Method and system for creating context based summary
US20050050086A1 (en) Apparatus and method for multimedia object retrieval
Peters et al. Content extraction using diverse feature sets
JP2006004417A (ja) 情報ファイルの特定のタイプを認識する方法及び装置
TWI695277B (zh) 自動化網站資料蒐集方法
WO2009129425A2 (en) Forum web page clustering based on repetitive regions
CN101620608A (zh) 信息采集方法及系统
Al-Zaidy et al. Automatic summary generation for scientific data charts
Zhao et al. Mining templates from search result records of search engines
CN100336061C (zh) 多媒体对象检索设备和方法
Bloechle et al. XCDF: a canonical and structured document format
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
CN114238735B (zh) 一种互联网数据智能采集方法
Oyri News Item Extraction for Text Mining inWeb Newspapers
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Adefowoke Ojokoh et al. Automated document metadata extraction
Zeng et al. Layout-tree-based approach for identifying visually similar blocks in a web page
Harit et al. Ontology guided access to document images
Marx et al. Digital weight watching: reconstruction of scanned documents
Meng A sentence-based image search engine
Moscato et al. Mowis: A system for building multimedia ontologies from web information sources
Guo Research on logical structure annotation in English streaming document based on deep learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070905

Termination date: 20120806