CN103150307B

CN103150307B - 从网络中查找与主题词相关的名称的方法和设备

Info

Publication number: CN103150307B
Application number: CN201110401703.1A
Authority: CN
Inventors: 谢宣松; 姜珊珊; 孙军; 郑继川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2011-12-06
Filing date: 2011-12-06
Publication date: 2016-02-10
Anticipated expiration: 2031-12-06
Also published as: CN103150307A

Abstract

提供一种从网络中查找与主题词相关的名称的方法，包括：在网络中查找与主题词相关的网页，对网页进行过滤和解析；根据单网页的DOM树中的图像节点，提取图像名称并与周边文本匹配后构成候选名称第一集合；将网页的DOM树转换成代码序列，在其中确定重复子序列，在网页的候选名称第一集合中，提取与重复子序列相对应的候选名称，构成候选名称第二集合；根据预定规则及预定模板来对候选名称第二集合进行过滤，确定网页的候选名称；针对来自多个网页的候选名称，根据候选名称之间或其与主题词的关系进行过滤，得到与主题词相关的名称；计算各个名称的分值，根据分值对各个名称进行排序。还相应地提供一种从网络中查找与主题词相关的名称的设备。

Description

从网络中查找与主题词相关的名称的方法和设备

技术领域

本发明涉及一种从网络中查找与主题词相关的名称的方法和从网络中查找与主题词相关的名称的设备。

背景技术

随着计算机及网络技术的发展，对从网络资源中查找有用信息的需求也越来越大。产品的评论、排序以及描述类的页面在因特网上大量存在。在很多情况下(产品调查、市场分析以及策略制定)，希望为某种特定主题找到精确的相关产品名称，如自动在线找到一个分类的所有结果。这样的名称在网上大规模存在且动态变化。从人的角度出发，从网页中识别并分类这些名称不是一个大的问题，但是非常费时间。此外，搜索名称的用户通常希望了解产品排序信息，如哪种产品最为流行。

如果产品名称能够自动被找到并排序，对用户来说是非常有用的。另一方面，这些名称对后续处理也非常有用，所述后续处理例如包括特征抽取以及整合等。然而问题在于：网页是一种半结构化的数据，包括了许多无关信息，以致于非常难以被机器读懂及分析。

在与根据主题词搜索名称相关的技术领域，已经取得一定进展。

专利文件1(PatentUS7065483B2，Computermethodandapparatusforextractingdatafromwebpages，Zoominfo.)公开了从网页中抽取数据的计算方法和装置。该专利文件1提供了一种从网页中抽取数据的方法，该方法包括：i)使用自然语言处理方法从给定网页找到可能的正式名称；ii)使用模式匹配来搜索给定网页中没有被步骤i所发现的正式名称；iii)合并及精练上述名称集，以从给定网页中产生人名和组织名。专利文件1使用语法词法分析更适用于语法结构比较好的纯文本，而不合适网页中的产品名称等短词结构；同时，使用模式匹配的方法也将面临网页语言结构的问题。

专利文件2(PatentUS2007/0078850A1，Commercialwebdataextractionsystem，Microsoft.)公开了一种商业网络数据抽取系统。该系统基于实体抽取器来自动抽取产品信息元素。一些相关的信息元素能够被特定的分类中的公用名称标识，如某些知名的商标名。另一些信息元素可以通过训练实体抽取器来标识。首先，一个训练文档集会被人为查阅，并识别不同各类的产品数据。这些训练文档被用来优化实体抽取器的参数，以使之正确抽取不同的信息元素，如商标、价格、图像以及投票等。专利文件2使用特定分类中的通用关键词，如名商标等，对未登录产品不能够很好的支持，同时，对不同的产品数据类型进行标注需要耗费大量的时间。

非专利文件1(在网络数据抽取中的同步记录识别及属性标注(JunZhu，ZaiqingNie，Ji-RongWen，SimultaneousRecordDetectionandAttributeLabellinginWebDataExtraction，Proceedingsofthe12thACMSIGKDD，494-503，2006.))提出名称为多层条件随机域的模型，其能够通过学习重要性来有效的集成所有有用的信息，并且可以结合层次的互相作用，来进行网络数据抽取。该论文描述的是一种机器学习的方法，上述特征被用来训练以人为标注，和其它的特征起一样的作用，并需要手动识别。

非专利文件2(WebSeer：一种基于因特网的图像搜索系统(CharlesF.，MichaelJ.S.，andVassilisA.，WebSeer：AnImageSearchEnginefortheWorldWideWeb，TechnicalReport96-14intheUniv.ofChicago，August1，1996.))描述了如何从网络中找到图像，在文本和HTML源码中有相关的线索。了解网页的结构有助于获取有价值的有关于图像的信息。存在于多个地方的图像相关信息有可能在该文档内：图像文本名，标题，alt文本，HTML标题以及超链接。该非专利文件2的目的在于，描述一种如何构建基于文本的图像搜索系统，并使用相关特征来找到图像。

发明内容

鉴于现有技术中存在的上述问题而做出本发明。本发明总体上涉及与信息处理和信息抽取相关技术，提供一种从网络中查找与主题词相关的名称的方法和从网络中查找与主题词相关的名称的设备。

本发明的目的是提供一种对针对特定主题，从网页中找到并排序名称的方法和设备。通常，名称由几个字组成，用来标识一个对象，如产品名“RicohCX3”；而主题词通常可以对应一个对象分类，例如“数码相机”或“digitalcamera”。因此，本发明实施例的目的可以说是：针对特定分类，找到相关名称。

针对异构的网页，本发明实施例能够达成以下目标：

针对特定主题找到包括产品名的网页；

从这些找到的网页中抽取名称；

针对给定的主题来对名称进行排序。

根据本发明实施例的一个方面，提出了一种从网络中查找与主题词相关的名称的方法，包括：网页查找步骤，在网络中查找与主题词相关的网页，并对网页进行过滤和解析；候选名称第一提取步骤，根据单个网页的DOM树中的图像节点，提取其中的图像名称并与周边文本匹配后构成候选名称第一集合；候选名称第二提取步骤，将该网页的DOM树转换成代码序列，在代码序列中确定重复子序列，在该网页的候选名称第一集合中，提取与重复子序列相对应的候选名称，构成候选名称第二集合；单页候选名称确定步骤，根据预定规则及预定模板来对候选名称第二集合进行过滤，确定该网页的候选名称；多页候选名称过滤步骤，针对来自多个网页的候选名称，根据候选名称之间或候选名称与主题词的关系进行过滤，得到与该主题词相关的名称；名称排序步骤，计算各个名称的分值，根据分值对各个名称进行排序。

根据本发明实施例的另一个方面，提出了一种从网络中查找与主题词相关的名称的设备，包括：网页查找装置，在网络中查找与主题词相关的网页，并对网页进行过滤和解析；候选名称第一提取装置，根据单个网页的DOM树中的图像节点，提取其中的图像名称并与周边文本匹配后构成候选名称第一集合；候选名称第二提取装置，将该网页的DOM树转换成代码序列，在代码序列中确定重复子序列，在该网页的候选名称第一集合中，提取与重复子序列相对应的候选名称，构成候选名称第二集合；单页候选名称确定装置，根据预定规则及预定模板来对候选名称第二集合进行过滤，确定该网页的候选名称；多页候选名称过滤装置，针对来自多个网页的候选名称，根据候选名称之间或候选名称与主题词的关系进行过滤，得到与该主题词相关的名称；名称排序装置，计算各个名称的分值，根据分值对各个名称进行排序。

通过实施本发明实施例，能够找到从网上为特定主题查找与特定主题相关的名称并进行排序，可以作为构建对象库的准备工作。由于往往精度比召回率更重要，因此本发明实施例侧重于找到合适的名称，而不是所有的名称。而且，本发明实施例的技术手段是全自动的而且不需要用户具有相关技术领域的知识。

通过阅读结合附图考虑的以下本发明的优选实施例的详细描述，将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。

附图说明

图1示出了实施本发明实施例以从网络中查找与主题词相关的名称并排序输出的示例应用。

图2示意性地示出实施本发明实施例以从网络中查找与主题词相关的名称并排序输出的应用。

图3示意性地示出按照本发明实施例的从网络中查找与主题词相关的名称的方法的总体流程图。

图4示意性地示出按照本发明实施例的网页查找步骤S100的流程图。

图5示意性地示出按照本发明实施例的候选名称第一提取步骤S200的流程图。

图6包括图6A至图6C，示出图像节点的一个例子，其中，图6A示出图像节点的网页部分，包括可见的可视化的布局；图6B示出该部分网页的HTML代码；图6C示意地示出一种结构化的图像节点。

图7包括图7A至图7C，分别示出了网页的图像节点的属性值包含图像名称的示例，其中，图7A中所示的矩形框示出从“alt”属性值中提取初步的图像名称；图7B中所示的矩形框示出从“src”属性值中提取初步的图像名称；图7C中所示的矩形框示出从“href”属性值中提取初步的图像名称。

图8示意性地示出图像节点与附近节点的关系。

图9包括图9A至图9C，示意性地示出图像名称查找步骤S230及图像名称验证步骤S240实施过程，其中，图9A中的矩形框示出在网页的HTML源代码中从图像节点的特定属性值中得到初步的图像名称；图9B表示把以图像节点为中心、一定窗口范围内的节点相关的树状的源代码转换成的序列；图9C示出在图像节点中找到的图像名称及在周边节点的文本中找到的匹配的文本。

图10包括图10A至图10C，分别示出对比信息的网页展示实例。

图11示意性地示出对节点编码的一种方式。

图12包括图12A至图12C，示出了对节点编码的一个示例，其中，图12A示出某个网页的HTML源代码；图12B中示出按标签分类得到的各个节点的类型数字及各个节点相应的深度代码；图12C中示出各个节点相对应的类型数字和深度代码及所得的网页的DOM树的代码序列。

图13包括图13A和图13B，示出了在代码序列中查找重复子序列的一个示例，其中，图13A示出了某个网页的DOM树的代码序列；图13B示出从该代码序列中提取出的重复子序列。

图14示意性地表示了按照本发明实施例的单页候选名称确定步骤S400的流程图。

图15包括图15A和图15B，示出通过候选名称之间相似度去除候选名称的示例，其中，图15A示出多个候选名称的示例列表；图15B示出经过相似度过滤而保留的候选名称。

图16示出通过主题过滤去除候选名称的示例。

图17示意性地示出按照本发明实施例的从网络中查找与主题词相关的名称的设备的总体框图。

图18是示出按照本发明实施例的从网络中查找与主题词相关的名称的系统的总体框图。

具体实施方式

下面结合附图描述本发明实施例。

图1示出了实施本发明实施例以从网络中查找与主题词相关的名称并排序输出的示例应用。如图1所示，如果在矩形框Q1所示的区域输入要查询的主题词“digitalcamera”，则通过实施本发明实施例，能够查找到相关的产品名称，在排序后，在诸如矩形框Q2所示的区域输出。

图2示意性地示出实施本发明实施例以从网络中查找与主题词相关的名称并排序输出的应用。输入为主题，也就是分类名，本发明实施例实施查找相关名称的处理，从例如因特网获取网页，并找到相关名称，输出排序后的名称1至名称n。

图3示意性地示出按照本发明实施例的从网络中查找与主题词相关的名称的方法的总体流程图。如图3所示，从网络中查找与主题词相关的名称的方法可以包括：网页查找步骤S100，可以在网络中查找与主题词相关的网页，并对网页进行过滤和解析；候选名称第一提取步骤S200，根据单个网页的DOM树中的图像节点，提取其中的图像名称并与周边文本匹配后构成候选名称第一集合；候选名称第二提取步骤S300，将该网页的DOM树转换成代码序列，在代码序列中确定重复子序列，在该网页的候选名称第一集合中，提取与重复子序列相对应的候选名称，构成候选名称第二集合；单页候选名称确定步骤S400，根据预定规则及预定模板来对候选名称第二集合进行过滤，确定该网页的候选名称；多页候选名称过滤步骤S500，针对来自多个网页的候选名称，根据候选名称之间或候选名称与主题词的关系进行过滤，得到与该主题词相关的名称；名称排序步骤S600，计算各个名称的分值，根据分值对各个名称进行排序。

图4示意性地示出按照本发明实施例的网页查找步骤S100的流程图。如图4所示，网页查找步骤S100可以包括：主题词扩展步骤S110，可以根据预定义的模式将主题词扩展得到多个查询词；网页搜索步骤S120，可以利用所述多个查询词在网络中查找网页；网页过滤步骤S130，可以根据网页的URL地址、标题、网页描述和主题词来过滤网页；解析步骤S140，可以将通过所述网页过滤步骤的过滤的网页解析为DOM树；节点过滤步骤S150，可以根据预定的去除规则及保留规则对节点进行过滤。

在网页查找步骤S100，获取特定主题的网页并为后续步骤生成输入树。在后续处理中，可以将分类作为主题的一种实现方式。

在主题词扩展步骤S110，可以把输入的分类通过以下两种方式扩展。

主题词扩展方式1：针对给定的一个主题，推荐相关的概念的子概念，表达所给主题的不同方面。如，给定一个主题词“相机”，则可以推荐“数码相机”、“单反机”、“白平衡”、“图像处理”等。这些推荐值可以来自经验模板、字典、维基百科、以及已有搜索引擎等等。

主题词扩展方式2：针对给定的一个主题，以某些特定的模板来扩展。如，给定一个主题词“相机”，则推荐“最好的相机”、“相机比较”、“相机排序”、“相机评论”等。这些模板可以事先给定。

经过对输入主题的扩展后，在网页搜索步骤S120，可以通过两种方式找到相关的网页，或者说网页的URL(统一资源定位符，Uniform/UniversalResourceLocator)。

方式1：通过已有的搜索引擎得到相关URL，如BingAPI，GoogleAPI等；以方式1操作，除URL外，还能得到标题、简短描述等。

方式2：列出一些种子网站，然后通过爬虫(crawler)来找到相关网页，然后对网页进行索引，并与输入主题来匹配以找到相关URL。

在得到与主题词相关的URL之后，在网页过滤步骤S130，对这些URL来进行过滤的规则例如：根据网页的URL地址、标题、网页描述和主题词，如果主题词经扩展后的所有查询字在该网页的URL地址、标题、网页描述中都没有出现，则排除之，未被排除的可以作为候选URL。

当候选URL都获取后，在解析步骤S140，网页的内容即被下载并由一些工具解析成DOM树。在此可以采用的工具包括：org.apache.commons.httpclient；org.cyberneko.html.parsers.DOMParser等等。

在此，介绍“节点”概念。节点是一棵DOM树中的一个结构单元，由一些成员构成。基本上，原始的节点内容来自于HTMLDOM树，有些内容可能会被删除，有时则可能被一些计算过的结果所补充。名称可以是DOM树中的某些文本节点。在节点过滤步骤S150，从复杂的HTML中获取简化的树，其中保留了必要的结果。对候选网页的HTML的DOM树的节点进行过滤的规则例如可以定义如下。

过滤DOM树的节点的实例可以由以下规则构成。

1.去除规则：

标签集中的特定节点，如SCRIPT，#comment等，这个集合可以来自根据经验指定的配置文件；

没有值的文本节点；

有值的文本节点，但是值的长度过长；

与时间相关的节点。

满足去除规则的节点将被过滤掉。

经过上述规则过滤后，剩余节点的以下内容子项将被保留，其它的子项则去除：

2.保留项：

节点名称(标签名)；

每个节点的“id”属性，如果有的话；

文本节点的值；

图像节点，包括它的值和图像url；

链接节点的完整链接地址。

符合上述保留项的节点将被保留。

经过此节点过滤步骤S150后，每个网页变成了相应的一棵DOM树，并可以视为后续步骤的输入。

图5示意性地示出按照本发明实施例的候选名称第一提取步骤S200的流程图。如图5所示，候选名称第一提取步骤S200可以包括：图像节点查找步骤S210，可以根据节点的标签名称来在该单个网页的DOM树中查找到图像节点；图像节点过滤步骤S220，可以在所述图像节点中，根据预定规则过滤掉不可能包含与主题词相关的名称的图像节点；图像名称查找步骤S230，可以针对通过所述图像节点过滤步骤的过滤的图像节点，在图像节点的属性值中查找图像名称；图像名称验证步骤S240，可以在该图像节点的附近节点中，查找与该图像名称匹配的文本，过滤掉与附近节点的文本匹配程度低的图像名称，通过过滤的图像名称构成候选名称第一集合。

通常，相对于文本，在网页上的图像展示了更丰富和相对重要的信息。并且，图像更擅长表示有物理形状的对象或具体事件。如果目标是找到例如产品对象的名称，根据经验，在网络上这类目标更容易且更广泛的通过图像描述。因此，可以将图像节点作为名称发现的重要线索。

“图像线索”对名称发现来说，意味着一种暗示或者入口。如前文描述，一个网页可以有非常多的节点，如果将所有节点一视同仁来处理，对名称发现来说，会非常困难且费时。而且，目的是找到合适正确的名称而并非所有名称。一些图像展示了物理对象而且以文本的方式描述了它的名称。如果将这些图像及其相关的信息作为名称发现的入口，则对后续处理将会非常有效。

网页上的图像节点的结构包括：可视图像、节点名称以及它的相关属性。图6包括图6A至图6C，示出图像节点的一个例子。

图6A示出图像节点的网页部分，其中包括可见的可视化的布局。图6B示出该部分网页的HTML代码。图6C示意性地示出一种结构化的图像节点，其中的“图像名称”是图像线索，在图6C所示的结构中，“IMG”节点”和相关的“属性”可以通过HTML语法标签得到。

首先，在图像节点查找步骤S210，所有的图像节点可以通过“IMG”标签名称找到。例如，在图6B所示的该节点的HTML代码中，包括包含“IMG”字符串的标签，因此，可以根据节点的标签名称来在该单个网页的DOM树中查找到图像节点。

在图像节点查找步骤S210查找到的图像节点包括很多噪声节点，因此，在图像节点过滤步骤S220，可以用包括以下3种方式的手段来过滤掉这些不可能与主题词有关的图像节点。

方式1：通过页面布局视觉信息。如果某图像节点位于页面的顶、底、靠左、靠右，则可以过滤掉。

方式2：通过序列化节点的位置。在DOM树中的所有节点可以转换成有顺序的节点，如果该图像节点在此序列中的位置太靠前或靠后(超过根据经验设置的阈值)，则可以过滤掉。

方式3：通过特殊的节点集合。如果某图像节点在DOM树中所属的祖先节点属于某个预先定义集合中的节点标签，则可以过滤掉。这个预定标签集合可以通过经验预先设定，上述节点标签例如可以包括：“ads”，“bar”，“nav”，“header”，“footer”，“copyright”等等。

通过图像节点过滤步骤S220的过滤，在图像名称查找步骤S230，在通过过滤的图像节点中发现图像名称。图7包括图7A至图7C，分别示出了网页的图像节点的属性值包含图像名称的示例。

基本上，可以从图像节点的特定属性值中得到初步的图像名称，这些特定属性值例如可以是：“alt”、“title”、“src”及“href”。

如果发现这些属性值存在，将通过以下规则逐一验证图像名称是否存在其中，并初步获得图像名称。

可以采用的规则例如是：

按照“alt”、“title”、“src”、“href”的顺序，依次在属性值中查找，如果在在先的属性值中找到，则退出查找而不在其后的属性值中查找；

如果属性是href，则得到用“\”分隔的最后一段文本；

使用根据经验的一个长度区域来过滤，过长或过短的将被过滤掉；

去除一些特殊符号，如“_”，“-”，“::”等等；

如果该属性值没有任何字母或文字，或全部为数字或符号，则过滤掉；

采用预先定义的常用词字典(即，仅针对大众的普通语言，而不包括专有名词)来进行检验，如果所有字或词都能从这个常用字典找到，则意味着没有未知或专有名称，不符合名称的特点，可以过滤掉。

图7A中所示的矩形框示出从“alt”属性值中提取初步的图像名称；图7B中所示的矩形框示出从“src”属性值中提取初步的图像名称；图7C中所示的矩形框示出从“href”属性值中提取初步的图像名称。

在图像名称验证步骤S240，将所提取的初步的图像名称与周边文本匹配，所谓周边文本即该图像节点的附近节点中的文本，图像节点的所谓“周边”指的是该图像节点的附近节点。

在图像名称查找步骤S230查找到多个合适的图像名称，这些图像名称中也可能存在某些噪声词，因此在图像名称验证步骤S240用这些图像名称进行与周围文本元素的匹配，来进一步验证图像名称。

图8示意性地示出图像节点与附近节点的关系。

如图8所示，包含待处理的图像名称的图像节点视为中心节点，如图8中的节点i，以此为中心一定范围的窗口内的节点会被选中，如图8所示，窗口包含从第(i-n)节点到第(i+n)节点。然后，将该图像名称与这些窗口内节点的文本进行匹配，以得到最相似的文本。如果能够找到最相似的文本，则该图像节点保留而构成候选名称第一集合；否则，如果没找到，则去除掉该图像名称。

图像节点的图像名称与周边节点的文本的相似度可以通过以下公式(1)计算

sim(e_img，e_txt)＝|{w_k|w_k∈w_i&w_k∈w_t}|/(log(|e_img|)+log(|e_txt|))(1)

其中，变量e_img代表图像节点的图像名称，变量e_txt代表周边节点的文本，sim(e_img，e_txt)是图像名称与文本的相似程度，作为相似度的分值；|{w_k|w_k∈w_i&w_k∈w_t}表示既属于图像名称w_i又属于周边节点文本w_t的词w_k的个数，w_i表示图像名称的字符集合，w_t表示周边节点文本的字符集合，log(|e_img|)图像名称长度，log(|e_txt|)表示文本长度，其和表示图像名称和文本的总长度。所求出的相似度的分值如果大于某个预设值，则表示该图像名称可以保留，否则则去除掉。

图9包括图9A至图9C，示意性地示出图像名称查找步骤S230及图像名称验证步骤S240实施过程。图9A中的矩形框示出，通过图像名称查找步骤S230，在网页的HTML源代码中，从图像节点的特定属性值中得到初步的图像名称。图9B表示，在图像名称验证步骤S240中，把以图像节点为中心、一定窗口范围内的节点相关的树状的源代码转换成的序列。图9C中所示的矩形框Q3指示图像名称查找步骤S230在图像节点中找到的图像名称，矩形框Q4指示图像名称验证步骤S240在周边节点的文本中找到的匹配的文本。此图像名称可以通过过滤而保留构成候选名称第一集合。

通常，含有对比信息的名称相对孤立存在的名称而言，更为权威一些。图10包括图10A至图10C，分别示出对比信息的网页展示实例。在候选名称第二提取步骤S300，以对比信息的特点来在该网页的候选名称第一集合中进行进一步的筛选，以找到对比信息为目的，提取出候选名称第二集合。

在候选名称第二提取步骤S300中，可以根据该单个网页的DOM树中节点的标签种类、及该节点相对于根节点的深度，来对节点编码，该DOM树中节点的代码构成该DOM树的代码序列。

图11示意性地示出对节点编码的一种方式。

如图11所示，在网页的HTML的DOM树中，各个节点根据其HTML标签名称而被赋予一个类型数字，如标签“TABLE”的节点赋值为0，标签“TR”的节点赋值为1，标签“TD”的节点赋值为2等等。另外，每个节点有一个相应的到根节点的深度。以先序遍历的方式，依次记录树中各个节点的类型数字和深度，则可以构成一个序列。

图12包括图12A至图12C，示出了对节点编码的一个示例。图12A示出某个网页的HTML源代码。在图12B中，矩形框A表示按TAG(标签)分类得到的各个节点的类型数字，矩形框B表示各个节点相应的深度代码。在图12C中，矩形框C中的两列分别表示来自矩形框A和矩形框B的各个节点相对应的类型数字和深度代码，矩形框D表示将两列合并成单一序列后的代码序列，即所得的网页的DOM树的代码序列。

在候选名称第二提取步骤S300中，然后，可以利用后缀数组算法，根据子序列相似度来在DOM树的代码序列中查找重复子序列。在DOM树转换得到的代码序列中，可以发现含有对比名称的区块有一些格式上的规律，即，这些对比名称存在于重复子序列中。使用后缀数组算法可以查找重复子序列，最常用的构建后缀数组的方法是使用高效率的比较排序算法，基于该比较排序算法，如果网页中存在对比信息，则在DOM树的序列中可以得到多个重复的子序列，并且还可以同时得到其重复长度和频率。图13包括图13A和图13B，示出了在代码序列中查找重复子序列的一个示例。图13A示出了某个网页的DOM树的代码序列；图13B的矩形框E和矩形框F示出了从该代码序列中提取出的重复子序列。

在候选名称第二提取步骤S300中，还可以根据各个重复子序列的长度和频率确定其分值，确定分值最大的重复子序列，判断该网页的候选名称第一集合中的候选名称是否与该最大的重复子序列相关，相关的候选名称构成候选名称第二集合。

对于每个重复子序列，可以设定一个经验权重(如0.4和0.6)来例如通过以下公式(2)计算该重复子序列的分值：

V＝ω_LLength+ω_FFreq(2)

其中，V为重复子序列的分值，Length是重复子序列的长度，ω_L是重复子序列长度的权重，Freq是其出现的频率，即该重复子序列出现的次数，ω_F是重复子序列频率的权重，且ω_L+ω_F＝1.0。

从所有发现的重复子序列中，利用上述处理可以发现分值排在首位的最大重复子序列。如果之前操作得到的候选名称第一集合中的候选名称出现在分值最高的该最大重复子序列中，则被保留而构成候选名称第二集合。

经过候选名称第一提取步骤S200和候选名称第二提取步骤S300之后，候选名称在文字上仍然可能包含名称之外的一些噪声，因此，在随后的单页候选名称确定步骤S400，根据预定规则及预定模板来对候选名称第二集合进行过滤，确定该单个网页的正式的候选名称。

图14示意性地表示了按照本发明实施例的单页候选名称确定步骤S400的流程图。如图14所示，单页候选名称确定步骤S400可以包括：名称去除步骤S410，可以去除属于预定集合的候选名称；模板过滤步骤S420，可以把通过名称去除步骤的候选名称代入预定模板，去除与任何预定模板不相匹配的候选名称；长度过滤步骤S430，可以针对通过模板过滤的候选名称，去除其长度在预定阈值以外的部分，经过长度过滤的候选名称作为该网页的候选名称。

作为准备，找到作为“候选名称”而输入的字符串(输入区块)中实质内容(确实可能是“名称”的内容)的起始位置。具体地，首先明确为字母或汉字的第一个字符。例如，如果待处理的候选名称为“1)：RicohCX3…”，则该起始位置确定为3(从0开始计数)，字符为“R”。

在名称去除步骤S410，可以根据作为预定集合的经验集合或字典去除一些符号或字词，如，“(”，“in”，“of”等。

然后，通过名称去除步骤S410的过滤的候选名称进入模板过滤步骤S420，对这些候选名称使用一些预定的规则模板，保留符合至少一个预定模板的候选名称，过滤掉不与任何一个预定模板相匹配的候选名称。所述预定模板例如包括但不限于以下正则表达式：

(″([0-9]+[A-z]+)+[0-9]*″)；

(″([A-z]+[0-9]+)+[A-z]*″)；

(″([0-9]+[-]{0，1}[A-z]+[-]{0，1})+[0-9]*″)；

(″([A-z]+[-]{0，1}[0-9]+[-]{0，1})+[A-z]*″)。

然后，通过模板过滤步骤S420的过滤的候选名称进入长度过滤步骤S430。在长度过滤步骤S430，利用根据经验设定的阈值去除过长的字词部分。例如，候选名称长度为10(由10个单字组成)，而阈值例如为4，则长度从5到10的在预定阈值以外的单字部分将被过滤掉。经过长度过滤步骤S430的候选名称作为该网页的候选名称。

经过单页候选名称确定步骤S400，单个网页的与主题词有关的候选名称被提取出。网络中的多个网页分别经过以上的处理，则从多个网页分别得到单个网页的与主题词有关的候选名称，一起代入随后的多页候选名称过滤步骤S500。

对一个主题来说，可能有很多名称会被找到，但实际上部分名称仍然不属于输入的主题，因此可以根据从多个网页分别得到搜索结果，进一步将不适合的名称去除，也可以说多页候选名称过滤步骤S500对单页候选名称确定步骤S400的结果进行进一步的“精炼”。

在多页候选名称过滤步骤S500，可以针对来自多个网页的候选名称，计算各个候选名称与其它候选名称的相似度，去除与其它候选名称的相似度低于预定阈值的候选名称，以未被去除的候选名称作为查询词搜索主题词，去除搜索不到主题词的候选名称，其余候选名称作为与该主题词相关的名称。

可以通过以下方式进行上述候选名称的“精炼”：

1.通过相似度过滤；

2.通过主题过滤。

图15包括图15A和图15B，示出通过候选名称之间相似度去除候选名称的示例。图15A示出多个候选名称的示例列表，计算每个名称与其它名称的相似程度，如果某个候选名称中的部分或全部组成字词不能从其它候选名称中找到(相似度为0)，或者在其它候选名称中找到其组成字词的数目低于某个根据经验设定的预定阈值，则可以认为相似度过低，以致要过滤掉该候选名称。图15B示出经过相似度过滤而保留的候选名称，可见，图15A中序号为[1]、[2]、[7]、[8]的候选名称因为与其它候选名称相似度过低而被去除。

可以对通过相似度过滤的候选名称进一步进行主题过滤。

图16示出通过主题过滤去除候选名称的示例。在主题过滤过程中，将候选名称作为主题词，通过搜索引擎来进行搜索，如果在结果的标题和描述中找不到与真正主题词相关的任何信息(如字词)，则被去除。例如，如图16所示，以图15B所列序号为[4]的候选名称“bestHDTV”作为“主题词”进行反向搜索，在图16中所示的搜索结果中未能查找到实际的主题词，例如“digitalcamera”，则该候选名称“bestHDTV”未能通过主题过滤，而被去除。而通过主题过滤的候选名称则作为与该主题词相关的名称。

至此，已经获得了与该主题词相关的名称，最后，在名称排序步骤S600，根据各个名称的查询权重、网页权重、页内位置权重、内容权重、频率权重中的一个或多个来确定该名称的分值，根据该分值对各个名称进行排序并输出。

针对每个名称的排序分值计算至少可以基于以下因子。

查询权重：根据经验对扩展得到的每个查询词设定一个权重，且此权重可以视为名称排序的因子之一，更高的权重意味着更重要的查询扩展模式。

网页权重：在通过搜索引擎查询的过程中，所有网页有一个排序位置，这个位置也可以作为一个权重因子。

页内位置权重：对页面内的对比名称而言，其位置作为一个权重，越靠前，越重要，权重越高。

内容权重：在名称查找过程的置信度因子，例如，一个网页内的对比名称的权重要大于只有一次或个别零星重复的名称。

频率权重：对来自所有网页的名称计算其频率，并作为权重之一。

上述所有的因子会被合并，进行加权计算，例如通过以下公式(3)得到某个名称的最终分值。

W＝k_qω_q+k_pω_p+k_oω_o+k_cω_c+k_fω_f(3)

其中，W为该名称的用于排序的分值；k_q表示查询系数，ω_q表示查询权重；k_p表示网页系数，ω_p表示网页权重；k_o表示页内位置系数，ω_o表示页内位置权重；k_c表示内容系数，ω_c表示内容权重；k_f表示频率系数，和ω_f表示频率权重。

各个系数保持k_q+k_p+k_o+k_c+k_f＝1.0的关系，各个系数可以根据不同的任务和领域依经验而定。而关于各个权重，其中ω_q及ω_c由经验值设定，而其它3个权重可以由以下公式(4)确定。

ω_p＝ω_o＝ω_f＝log(size/(i+1)+e-1)(4)

其中，e为自然常数，size表示总和，分别地，在网页权重ω_p的情况下size表示查询所得过滤后能够利用的总共网页页数，i表示获取该名称所在网页在此网页查询结果中的排序位置；在页内位置权重ω_o的情况下size表示在单网页内对比对象中的参与对比的对象数目，i表示该名称在对比对象中的排序位置；在频率权重ω_f的情况下size表示所有名称的总出现次数，i表示该名称出现的总次数。

经过上述计算后，每个名称都有一个分值，根据这些分值按照由大到小的顺序进行排序，即可得到一个主题的相关名称的排序结果，此后可以以任意现有技术手段输出。

本发明还可以实施为一种从网络中查找与主题词相关的名称的设备，可以用来执行前述的本发明实施例的从网络中查找与主题词相关的名称的方法。

图17示意性地示出按照本发明实施例的从网络中查找与主题词相关的名称的设备的总体框图。如图17所示，一种从网络中查找与主题词相关的名称的设备可以包括：网页查找装置100，可以用来执行前述网页查找步骤S100，用以在网络中查找与主题词相关的网页，并对网页进行过滤和解析；候选名称第一提取装置200，可以用来执行前述候选名称第一提取步骤S200，用以根据单个网页的DOM树中的图像节点，提取其中的图像名称并与周边文本匹配后构成候选名称第一集合；候选名称第二提取装置300，可以用来执行前述候选名称第二提取步骤S300，用以将该网页的DOM树转换成代码序列，在代码序列中确定重复子序列，在该网页的候选名称第一集合中，提取与重复子序列相对应的候选名称，构成候选名称第二集合；单页候选名称确定装置400，可以用来执行前述单页候选名称确定步骤S400，用以根据预定规则及预定模板来对候选名称第二集合进行过滤，确定该网页的候选名称；多页候选名称过滤装置500，可以用来执行前述多页候选名称过滤步骤S500，用以针对来自多个网页的候选名称，根据候选名称之间或候选名称与主题词的关系进行过滤，得到与该主题词相关的名称；名称排序装置600，可以用来执行前述名称排序步骤S600，用以计算各个名称的分值，根据分值对各个名称进行排序。

所述网页查找装置100可以包括：主题词扩展装置，可以用来执行前述主题词扩展步骤S110，用以根据预定义的模式将主题词扩展得到多个查询词；网页搜索装置，可以用来执行前述网页搜索步骤S120，用以利用所述多个查询词在网络中查找网页；网页过滤装置，可以用来执行前述网页过滤步骤S130，用以根据网页的URL地址、标题、网页描述和主题词来过滤网页；解析装置，可以用来执行前述解析步骤S140，用以将通过所述网页过滤装置的过滤的网页解析为DOM树；节点过滤装置，可以用来执行前述节点过滤步骤S150，用以根据预定的去除规则及保留规则对节点进行过滤。

所述候选名称第一提取装置200可以包括：图像节点查找装置，可以用来执行前述图像节点查找步骤S210，用以根据节点的标签名称来在该单个网页的DOM树中查找到图像节点；图像节点过滤装置，可以用来执行前述图像节点过滤步骤S220，用以在所述图像节点中，根据预定规则过滤掉不可能包含与主题词相关的名称的图像节点；图像名称查找装置，可以用来执行前述图像名称查找步骤S230，用以针对通过所述图像节点过滤装置的过滤的图像节点，在图像节点的属性值中查找图像名称；图像名称验证装置，可以用来执行前述图像名称验证步骤S240，用以在该图像节点的附近节点中，查找与该图像名称匹配的文本，过滤掉与附近节点的文本匹配程度低的图像名称，通过过滤的图像名称构成候选名称第一集合。

所述候选名称第二提取装置300可以根据该单个网页的DOM树中节点的标签种类、及该节点相对于根节点的深度，来对节点编码，该DOM树中节点的代码构成该DOM树的代码序列。

所述候选名称第二提取装置300可以利用后缀数组算法，根据子序列相似度来在DOM树的代码序列中查找重复子序列。

所述候选名称第二提取装置300可以根据各个重复子序列的长度和频率确定其分值，确定分值最大的重复子序列，判断该网页的候选名称第一集合中的候选名称是否与该最大的重复子序列相关，相关的候选名称构成候选名称第二集合。

所述单页候选名称确定装置400可以包括：名称去除装置，可以用来执行前述名称去除步骤S410，用以去除属于预定集合的候选名称；模板过滤装置，可以用来执行前述模板过滤步骤S420，用以把通过预定名称去除装置的候选名称代入预定模板，去除与任何预定模板不相匹配的候选名称；长度过滤装置，可以用来执行前述长度过滤步骤S430，用以针对通过模板过滤的候选名称，去除其长度在预定阈值以外的部分，经过长度过滤的候选名称作为该网页的候选名称。

所述多页候选名称过滤装置500可以针对来自多个网页的候选名称，计算各个候选名称与其它候选名称的相似度，去除与其它候选名称的相似度低于预定阈值的候选名称，以未被去除的候选名称作为查询词搜索主题词，去除搜索不到主题词的候选名称，其余候选名称作为与该主题词相关的名称。

所述名称排序装置600可以根据各个名称的查询权重、网页权重、页内位置权重、内容权重、频率权重中的一个或多个来确定该名称的分值，根据该分值对各个名称进行排序并输出。

本发明还可以通过一种从网络中查找与主题词相关的名称的系统来实施。图18是示出按照本发明实施例的从网络中查找与主题词相关的名称的系统1000的总体框图。如图18所示，从网络中查找与主题词相关的名称的系统1000可以包括：输入设备1100，用于从外部输入将要处理的关键字，例如可以包括键盘、鼠标器、以及通信网络及其所连接的远程输入设备等等；处理设备1200，用于实施上述的按照本发明实施例的从网络中查找与主题词相关的名称的方法，或者实施为上述的按照本发明实施例的从网络中查找与主题词相关的名称的设备，例如可以包括计算机的中央处理器或其它的具有处理能力的芯片等等，可以连接到诸如因特网的网络(未示出)，根据处理过程的需要而从网络获取数据等等；输出设备1300，用于向外部输出实施上述从网络中查找与主题词相关的名称的过程所得的结果，例如可以包括显示器、打印机、以及通信网络及其所连接的远程输出设备等等；以及存储设备1400，用于以易失或非易失的方式存储上述从网络中查找与主题词相关的名称的过程所涉及的图像、所得的结果、命令、中间数据等等，例如可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

按照本发明实施例的从网络中查找与主题词相关的名称的方法、从网络中查找与主题词相关的名称的设备及从网络中查找与主题词相关的名称的系统，提供了一种从网页中发现特定主题的有序对象名称的全自动处理技术，能够实现高效率并且能够得到可接受的精度。所获得的名称可以应用于对象抽取，也可以应用于对象库的构建。本发明的实施例易于实现、快速高效且与领域无关，例如，可以用于电子产品，汽车，人物等不同的对象领域。

在说明书中说明的一系列操作能够通过硬件、软件、或者硬件与软件的组合来执行。当由软件执行该一系列操作时，可以把其中的计算机程序安装到内置于专用硬件的计算机中的存储器中，使得计算机执行该计算机程序。或者，可以把计算机程序安装到能够执行各种类型的处理的通用计算机中，使得计算机执行该计算机程序。

例如，可以把计算机程序预先存储到作为记录介质的硬盘或者ROM(只读存储器)中。或者，可以临时或者永久地存储(记录)计算机程序到可移动记录介质中，诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可以把这样的可移动记录介质作为封装软件提供。

本发明已经参考具体实施例进行了详细说明。然而，很明显，在不背离本发明的精神的情况下，本领域技术人员能够对实施例执行更改和替换。换句话说，本发明用说明的形式公开，而不是被限制地解释。要判断本发明的要旨，应该考虑所附的权利要求。

Claims

1.一种从网络中查找与主题词相关的名称的方法，包括：

网页查找步骤，在网络中查找与主题词相关的网页，并对网页进行过滤和解析；

候选名称第一提取步骤，根据单个网页的DOM树中的图像节点，提取其中的图像名称并与周边文本匹配后构成候选名称第一集合；

候选名称第二提取步骤，将该网页的DOM树转换成代码序列，在代码序列中确定重复子序列，在该网页的候选名称第一集合中，提取与重复子序列相对应的候选名称，构成候选名称第二集合；

单页候选名称确定步骤，根据预定规则及预定模板来对候选名称第二集合进行过滤，确定该网页的候选名称；

多页候选名称过滤步骤，针对来自多个网页的候选名称，根据候选名称之间或候选名称与主题词的关系进行过滤，得到与该主题词相关的名称；

名称排序步骤，计算各个名称的分值，根据分值对各个名称进行排序。

2.按照权利要求1所述的方法，其中，所述网页查找步骤包括：

主题词扩展步骤，根据预定义的模式将主题词扩展得到多个查询词；

网页搜索步骤，利用所述多个查询词在网络中查找网页；

网页过滤步骤，根据网页的URL地址、标题、网页描述和主题词来过滤网页；

解析步骤，将通过所述网页过滤步骤的过滤的网页解析为DOM树；

节点过滤步骤，根据预定的去除规则及保留规则对节点进行过滤。

3.按照权利要求1所述的方法，其中，所述候选名称第一提取步骤包括：

图像节点查找步骤，根据节点的标签名称来在该单个网页的DOM树中查找到图像节点；

图像节点过滤步骤，在所述图像节点中，根据预定规则过滤掉不可能包含与主题词相关的名称的图像节点；

图像名称查找步骤，针对通过所述图像节点过滤步骤的过滤的图像节点，在图像节点的属性值中查找图像名称；

图像名称验证步骤，在该图像节点的附近节点中，查找与该图像名称匹配的文本，过滤掉与附近节点的文本匹配程度低的图像名称，通过过滤的图像名称构成候选名称第一集合。

4.按照权利要求1所述的方法，其中，在所述候选名称第二提取步骤中，根据该单个网页的DOM树中节点的标签种类、及该节点相对于根节点的深度，来对节点编码，该DOM树中节点的代码构成该DOM树的代码序列。

5.按照权利要求1所述的方法，其中，在所述候选名称第二提取步骤中，利用后缀数组算法，根据子序列相似度来在DOM树的代码序列中查找重复子序列。

6.按照权利要求1所述的方法，其中，在所述候选名称第二提取步骤中，

根据各个重复子序列的长度和频率确定其分值，确定分值最大的重复子序列，判断该网页的候选名称第一集合中的候选名称是否与该最大的重复子序列相关，相关的候选名称构成候选名称第二集合。

7.按照权利要求1所述的方法，其中，所述单页候选名称确定步骤包括：

名称去除步骤，去除属于预定集合的候选名称；

模板过滤步骤，把通过名称去除步骤的候选名称代入预定模板，去除与任何预定模板不相匹配的候选名称；

长度过滤步骤，针对通过模板过滤的候选名称，去除其长度在预定阈值以外的部分，经过长度过滤的候选名称作为该网页的候选名称。

8.按照权利要求1所述的方法，其中，在所述多页候选名称过滤步骤中，

针对来自多个网页的候选名称，计算各个候选名称与其它候选名称的相似度，去除与其它候选名称的相似度低于预定阈值的候选名称，以未被去除的候选名称作为查询词搜索主题词，去除搜索不到主题词的候选名称，其余候选名称作为与该主题词相关的名称。

9.按照权利要求1所述的方法，其中，在所述名称排序步骤中，

根据各个名称的查询权重、网页权重、页内位置权重、内容权重、频率权重中的一个或多个来确定该名称的分值，根据该分值对各个名称进行排序并输出。

10.一种从网络中查找与主题词相关的名称的设备，包括：

网页查找装置，在网络中查找与主题词相关的网页，并对网页进行过滤和解析；

候选名称第一提取装置，根据单个网页的DOM树中的图像节点，提取其中的图像名称并与周边文本匹配后构成候选名称第一集合；

候选名称第二提取装置，将该网页的DOM树转换成代码序列，在代码序列中确定重复子序列，在该网页的候选名称第一集合中，提取与重复子序列相对应的候选名称，构成候选名称第二集合；

单页候选名称确定装置，根据预定规则及预定模板来对候选名称第二集合进行过滤，确定该网页的候选名称；

多页候选名称过滤装置，针对来自多个网页的候选名称，根据候选名称之间或候选名称与主题词的关系进行过滤，得到与该主题词相关的名称；

名称排序装置，计算各个名称的分值，根据分值对各个名称进行排序。