CN101782924A - 信息处理方法、信息处理设备和程序 - Google Patents
信息处理方法、信息处理设备和程序 Download PDFInfo
- Publication number
- CN101782924A CN101782924A CN201010002598A CN201010002598A CN101782924A CN 101782924 A CN101782924 A CN 101782924A CN 201010002598 A CN201010002598 A CN 201010002598A CN 201010002598 A CN201010002598 A CN 201010002598A CN 101782924 A CN101782924 A CN 101782924A
- Authority
- CN
- China
- Prior art keywords
- node
- label
- format file
- definition
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/88—Mark-up to mark-up conversion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种信息处理方法、信息处理设备和程序。该信息处理方法包括以下步骤:获取利用标记语言描述的第一格式文档;并且基于定义文档结构中标记语言的至少两种类型的标签的等级关系的定义数据,从第一格式文档生成第二格式文档,第二格式文档表示其节点至少与标签或者和标签有关的文本相对应的树结构。
Description
技术领域
本发明涉及信息处理方法、信息处理设备和程序。
背景技术
随着因特网的普及,经由因特网而公开的网页已经包括了多种多样的数字信息。这样的数字信息既包括从用户的观点来看有用的信息也包括无用的信息。因此,已经努力开发用于自动从网页提取所希望的信息的技术。
例如,在Nicholas Kushmerick的“Wrapper induction:efficiency andexpressiveness”(Artificial Intelligence,vol.118,pp15-68(2000))”中提出了称为LR Wrapper的技术,该技术基于超文本标记语言(HyperTextMarkup Language,HTML)文档中包括的标签的位置关系来提取所希望的信息。根据LR Wrapper,预先存储标签之间的位置关系的模版,并且针对模版来对每个网页进行匹配以提取所希望的信息。然而,由于LR Wrapper对整个网页执行匹配,所以LR Wrapper具有以下缺点:当页面包含有关不同区域的信息时,可能提取出不想要的信息。另一方面,日本专利申请早期公开No.2007-279964和No.2004-70405提出了一种用于将网页分割成多个块并且针对关键词来对各个块进行匹配的技术。
发明内容
然而,数字信息在结构上不一定是以一般在描述网页时使用的标记语言来描述的。例如,因为在HTML中允许对标签进行无结构使用(例如,允许省略结束标签),所以语义上具有等级关系的项目常常在文档结构中被简单地并列描述。因此,在试图从HTML文档提取描述所希望的信息的块时,HTML标签不能使适当范围的块。此外,虽然作为可扩展标记语言(eXtensible Markup Language,XML)的子集的可扩展超文本标记语言(eXtensible HyperText Markup Language,XHTML)可用于在结构上描述网页,但是今后仍使用HTML的可能性很大,并且难以用XML或XHTML文档来替代许多现有的HTML文档。
鉴于前面的说明,希望提供一种使得能够解释以HTML文档为代表的利用标记语言描述的文档结构,并且能够从其中适当地提取块的新的、经过改进的信息处理方法、信息处理设备和程序。
根据本发明的一个实施例,提供了一种信息处理方法,该方法包括如下步骤:获取利用标记语言描述的第一格式文档;并且基于定义文档结构中标记语言的至少两种类型的标签的等级关系的定义数据,从第一格式文档生成第二格式文档,第二格式文档表示其节点至少与所述标签或和所述标签有关的文本相对应的树结构。
定义数据可以定义文档结构中第一格式文档中所使用的标签中的至少和标题有关的标签的等级关系。
节点可以包括与以所述标签标记的标题相对应的节点。
该信息处理方法还包括从由第二格式文档表示的树结构识别满足指定提取条件的节点的集合的步骤。
该信息处理方法还可以包括从第一格式文档提取与所识别出的节点的集合相对应的块。
提取条件可以是能够提取包括对应于标记与指定提取关键字匹配的标题的标签的节点以及该节点下的节点的节点集合的条件。
提取条件可以是能够提取包括对应于标记与指定提取关键字匹配的标题的标签的节点的父节点以及该父节点下的节点的节点集合的条件。
标记语言可以是超文本标记语言(HTML),并且定义数据可以是定义文档结构中HTML的至少“h”标签的等级关系的数据。
根据本发明的另一实施例,提供了一种信息处理设备,包括:文档获取单元,所述文档获取单元获取利用标记语言描述的第一格式文档;以及文档分析单元,所述文档分析单元基于定义文档结构中标记语言的至少两种类型的标签的等级关系的定义数据,从第一格式文档生成第二格式文档,第二格式文档表示其节点至少与所述标签或与所述标签有关的文本相对应的树结构。
根据本发明的另一实施例,提供了一种程序,该程序使得计算机控制信息处理设备用作:文档获取单元,所述文档获取单元获取利用标记语言描述的第一格式文档;以及文档分析单元,所述文档分析单元基于定义文档结构中标记语言的至少两种类型的标签的等级关系的定义数据,从第一格式文档生成第二格式文档,第二格式文档表示其节点至少与所述标签或与所述标签有关的文本相对应的树结构。
如上所述,根据本发明实施例的信息处理方法、信息处理设备和程序,可以解释利用标记语言描述的文档的结构,并且可以从其中适当地提取块。
附图说明
图1是通过浏览器显示的第一格式文档的示例性内容的说明性示图;
图2是以文本格式表示的图1中所示的文档的内容的说明性示图;
图3是图1中所示的文档的标签的树结构嵌套关系(nestedrelationship)的说明性示图;
图4是示出根据本发明实施例的信息处理设备的概要图的示意图;
图5是根据实施例的信息处理设备的硬件配置的框图;
图6是根据实施例的信息处理设备的逻辑配置的框图;
图7是使用了“h”标签的示例性第一格式文档的说明性示图;
图8是示出图7中所示的文档中包括的标签的树结构嵌套关系的说明性示图;
图9是通过浏览器显示的图7中所示的文档的内容的说明性示图;
图10是定义标签的等级关系的示例性定义数据的说明性示图;
图11是根据实施例的示例性文档分析处理的流程图;
图12是从文档分析单元输出的示例性第二格式文档的说明性示图;
图13是根据实施例的示例性块提取处理的流程图;
图14是示出由图13中所示的块提取处理识别出的示例性节点集合的说明性示图;
图15是示出由图13中所示的块提取处理所提取的块的示例的说明性示图;以及
图16是根据实施例的另一示例性块提取处理的流程图。
具体实施方式
下面,将参考附图详细描述本发明的优选实施例。注意,在本说明书和附图中,具有基本相同功能和结构的结构元件被以相同的标号表示,并且省略了对这些结构元件的重复说明。
下面将以如下的顺序描述本发明的优选实施例。
1.根据实施例操控的文档的示例
2.根据实施例的信息处理设备的说明
2-1.信息处理设备的概述
2-2.示例性硬件配置
2-3.示例性功能配置
3.小结
<1.根据实施例操控的文档的示例>
图1是显示HTML文档的示例性Web浏览器窗口的说明性示图,HTML文档是根据本发明的实施例所操控的文档的一个示例。图1示出具有以“企业信息”为标题的标题栏的网页12。
网页12包括以大号字符描述的两个大标题“历史”和“产品信息”。在标题“历史”下,指示出字符串“#text1”。在标题“产品信息”下,指示出以中号字符描述的两个中标题“TV”和“PC”。在标题“TV”下,指示出字符串“#text2”以及与产品的尺寸对应的两个项目的列表(“52英寸”和“48英寸”)。在标题“PC”下,指示出字符串“#text3”。
查看网页12的访问者可以理解,例如,在网页12中介绍的公司提供“TV”和“PC”作为他们的产品,并且在窗口部分22a中描述产品信息。访问者还可以理解,在窗口部分22b中描述与“TV”有关的产品信息。
相对地,图2是以文本格式而非通过浏览器表示的、图1中所示的HTML文档的内容的说明性示图。
图2示出以HTML标签来标记的HTML文档32。HTML文档32的内容以利用开始标签和结束标签的嵌套结构来描述。作为HTML文档32的一部分的块26a对应于图1中所示的窗口部分22a。块26b对应于图1中所示的窗口部分22b。
图3是被可视化为节点与HTML标签和以HTML标签标记的文本相对应的树结构的、图2中所示的HTML文档32的嵌套结构的说明性示图。
参考图3,HTML文档32具有21个节点,n1到n21。节点n2(“head”标签)和节点n5(“body”标签)位于节点n1(“html”标签)下;节点n3(“title”标签)位于节点n2下;并且节点n4(文本“企业信息”)位于节点n3下。8个节点n6、n8、n9、n11、n13、n14、n19和n21并列位于节点n5下。在此8个节点中的各个节点下存在其它更低层级的节点。在这些节点中,节点n9到n21对应于图2中所示的块26a,并且节点n11到n18对应于图2中所示的块26b。
在试图自动从HTML文档32获取公司的产品信息时,例如可以利用关键词“产品信息”执行匹配,从而导致与节点n10的关键词匹配,如图3所示。然而,如前面所述,因为对应于产品信息的节点n9到n21仅仅是并列设置的节点n6到n21的一部分,所以难以从通过匹配而识别出的节点n10适当地确定与产品信息对应的节点。另外,这同样适用于试图自动获取诸如与产品“TV”或产品“PC”有关的任何其它信息的场合。
因此,根据本发明的一个实施例,如在下面的段落以及之后更详细描述的,利用标记语言(以HTML为代表)描述的文档格式被转换成更适合于信息提取的树结构,从而可以更容易地提取适当的块。
<2.根据实施例的信息处理设备的说明>
[2-1.信息处理设备的概述]
图4是示出根据本发明的一个实施例的信息处理设备100的概要图的示意图。
参考图4,信息处理设备100接收利用给定类型的标记语言描述的第一格式文档10的输入。文档10利用的标记语言例如可以是标准通用标记语言(SGML)、作为SGML的子集的XML、HTML或TeX。在文档10中,文本的结构(例如,段落划分,或者列表)和布局是利用标记文本的标签或命令指定的。
之后,信息处理设备100对文档10进行处理,以输出第二格式文档20。第二格式文档20以树结构表示文档10的内容,其中,该树结构的节点至少与在文档10中所使用的标记语言的标签或者与标签相关联的文本对应。文档20实质上可以是能够表示树结构的给定数据的集合。换句话说,文档20例如可以是XML格式的数据文件,或者是存储在数据库中的一组数据。后面将详细描述信息处理设备100执行的用于将文档10转换成文档20的处理。
信息处理设备100例如可以是诸如个人计算机(PC)之类的通用计算机或者是如图4中所示的工作台。信息处理设备100例如还可以是诸如移动信息终端或移动电话之类的终端设备,或者诸如电视接收机之类的家用电器。此外,信息处理设备100例如还可以是通过网络向终端设备提供服务的服务器。
[2-2.示例性硬件配置]
图5是示出信息处理设备100的示例性硬件配置的框图。在图5中,中央处理单元(CPU)52控制信息处理设备100的全部操作。只读存储器(ROM)54在其中存储描述处理序列的一部分或者全部的计算机程序或者数据。随机存取存储器(RAM)56临时在其中存储CPU 52用来执行处理的程序和数据。
CPU 52、ROM 54和RAM 56经由总线60彼此连接。输入/输出接口62也连接到总线60。输入/输出接口62是用于将CPU 52、ROM 54和RAM 56连接到输入装置70、输出装置72、存储装置74、通信装置76和驱动器80的接口。
输入装置70接收来自用户的指令,或者经由诸如鼠标、键盘、触控板、按钮或开关之类的输入装置的信息输入。输出装置72经由诸如阴极射线管(CRT)显示器、液晶显示器或者有机发光二极管(OLED)显示器之类的显示装置或者诸如扬声器之类的音频输出装置向用户输出信息。
存储装置74例如是在其中存储程序或者数据的硬盘驱动器或闪存。通信装置76通过诸如局域网(LAN)或因特网之类的网络执行通信处理。驱动器80根据需要被设置在通用计算机中,并且例如可移除介质82被安装到其上。
[2-3.示例性功能配置]
图6是信息处理设备100中包括的逻辑功能的示例性布置的框图。参考图6,信息处理设备100包括文档获取单元110、文档分析单元120、存储单元130和块提取单元140。
[2-3-1.获取和分析文档]
文档获取单元110获取利用标记语言描述的第一格式文档。第一格式文档例如可以由用户利用图5中所示的输入装置70创建,并可以被输入文档获取单元110。或者,文档获取单元110可以从图5中所示的存储装置74、或者可移除介质82、或者经由通信装置76连接的其它装置获取第一格式文档。
如前面所提到的,第一格式文档是以诸如SGML、XML、HTML或TeX之类的给定类型的标记语言描述的文档。当接收到第一格式文档时,文档获取单元110生成例如以树状格式表示标签(以下包括命令)的嵌套关系的树结构。如果第一格式文档是HTML文档,则这样的处理可以由已知的HTML剖析器执行。下文中,由文档获取单元110生成的与标签的嵌套关系对应的树结构将被称为第一树结构。根据本实施例,在文档获取单元110从第一格式文档生成第一树结构之后,文档分析单元120(稍后描述)从第一树结构生成第二树结构。或者,根据另一实施例,例如可以省略由文档获取单元110执行的第一树结构的生成。
文档分析单元120基于定义数据从第一格式文档生成第二格式文档,以使得能够容易提取适当的块,其中所述定义数据定义文档结构中标记语言的至少两种类型的标签的等级关系。第二格式文档对应于参考图4描述的文档20,并且能够表示第二树结构,第二树结构的节点至少与标签以及和标签有关的文本相对应。
文档分析单元120所使用的定义数据例如可以是定义文档结构中第一格式文档中所使用的标签中的至少与标题相关联的标签的等级关系的数据。与标题相关联的标签例如可以是HTML中的“h”标签。
图7到图9是用于说明与文档结构中的“h”标签有关的等级关系的说明性示图。
首先,图7示出了利用标签“h1”、“h2”和“h3”描述的第一格式文档10的示例。在图7中,文档10的“body”部分包括一个以“h1”标签标记的大标题、大标题下的文本、两个以“h2”标签标记的中标题以及两个以“h3”标签标记的小标题。
图8示出通过利用HTML剖析器对图7中所示的文档10进行剖析而得到的与“body”标签下的部分对应的第一树结构的一部分。在图8中,在“body”标签下的层级并列排列有与三种类型的“h”标签(“h1”、“h2”和“h3”)对应的标签节点以及与“文本”对应的节点。在每个“h”标签的节点下,排列有与以各个“h”标签标记的标题对应的字符串的节点。
图9通过Web浏览器示出图7中所示的文档10的示例性表示。参考图9,可以理解,“大标题”包括在其范围内的“文本”以及所有其它标题。按照类似的方式,还可以理解,“中标题1”包括其范围内的“小标题1”,并且“中标题2”包括其范围内的“小标题2”。换句话说,即使当在HTML中定义的“h”标签如在图8中所示的第一树结构中那样被并列使用时,至少也可以在视觉上表示出文档结构中的标记文本的包含/被包含关系,即其等级关系。根据本实施例,定义数据被提供用于针对“h”标签定义文档结构中的等级关系,如图10中的示例所示。
参考图10,定义数据40将“h”标签的等级关系定义为“body”>“h1”>“h2”>“h3”>“h4”>“h5”>“h6”。定义数据40中包括的不等式符号(“>”)指示左边的标签比右边的标签处于更高的层级。在定义数据40中,从“h1”到“h6”的“h”标签的等级关系以其编号顺序定义,并且“body”标签被定义处在比所有这些“h”标签更高的层级。这样的定义数据被预先存储在例如图6中所示的存储单元130中。文档分析单元120利用定义数据40从第一格式文档生成第二格式文档。
定义数据不限于定义文档结构中的“body”标签和“h”标签的等级关系的数据。例如,由定义数据定义等级关系的标签可以包括指定HTML中的文本的字体大小的“字体”标签。此外,由定义数据定义等级关系的标签还可以包括诸如那些用于指定利用属性的样式表(style sheet)中所指定的某个类别的标签的任何其它标签。
图11是由文档分析单元120执行的示例性文档分析处理的流程图。
参考图11,文档分析单元120生成与“body”标签对应的“body”节点,并使“body”节点作为第二树结构的开始节点。然后,文档分析单元120将处理的焦点设定在“body”节点上,即,将“body”节点建立作为聚焦节点P。
文档分析单元120然后判断在第一树结构中是否存在任何其它还未被处理的其余节点(S104)。如果存在任何未被处理的节点,则处理进行到S106。如果不存在未被处理的节点,则处理结束。
在S106,文档分析单元120将第一树结构中还未被处理的其余节点中的最先节点(foremost node)建立作为要被比较的节点X(S106)。在此的最先节点可以是与第一格式文档中描述的第一标签或第一文本对应的节点。或者,最先节点可以是在第一树结构中执行的例如深度优先搜索中首先参考的节点。例如,在图8所示的第一树结构中,当直到“body”节点的处理完成时,“h1”节点将是所有其它未被处理的节点中的最先节点。当直到“h1”节点的处理完成时,“大标题”节点将是所有其它未被处理的节点中的最先节点。
然后,文档分析单元120判断要被比较的节点X是否是与其在文档结构中的等级关系在定义数据中被定义的标签相对应的标签节点(S108)。例如,如果定义了图10中所示的定义数据40并且要被比较的节点X与“body”标签或者“h1”到“h6”中的任意一个“h”标签相对应,则处理进行到S112。相对地,如果要被比较的节点X是上述节点以外的节点(例如,与以标签标记的标题串或者文本对应的节点),则处理进行到S110。
在S110,在S106中建立的要被比较的节点X被添加作为聚焦节点P的子节点(S110)。例如,如果聚焦节点P是在图8中所示的第一树结构中的“h1”节点,并且要被比较的节点X是“Text”节点,则在第二树结构中,“Text”节点被添加在“h1”节点下。如果聚焦节点P是在图8中所示的第一树结构中的“h2”节点,并且要被比较的节点X是“中标题1”节点,则在第二树结构中,“中标题1”节点被添加在“h2”节点下。随后,系统控制返回S104,并且再次判断是否仍然存在任何其它未被处理的节点。
相对地,如果要被比较的节点X是与其在文档结构中的等级关系被定义的标签相对应的标签节点,则其等级关系被与聚焦节点P的等级关系进行比较(S112)。例如,如果定义了图10中所示的定义数据40,聚焦节点P是“body”节点,并且要被比较的节点X是与“h”标签对应的标签节点,则判定要被比较的节点X<聚焦节点P。如果聚焦节点P是“h1”节点,并且要被比较的节点也是“h1”节点,则要被比较的节点X=聚焦节点P被建立。如果聚焦节点P是“h2”节点,并且要被比较的节点X是“h1”节点,则判定要被比较的节点X>聚焦节点P。在此上下文环境下,如果要被比较的节点X>聚焦节点P,则处理进行到S114。如果要被比较的节点X=聚焦节点P,则处理进行到S116。如果要被比较的节点X<聚焦节点P,则处理进行到S118。
如果要被比较的节点X>聚焦节点P,则在S114中聚焦节点P的父节点被建立作为新的聚焦节点P(S114)。例如,如果聚焦节点P是图8中所示的第一树结构中的第一“h3”节点,并且要被比较的节点X是第二“h2”节点,则聚焦节点P被重新设置为作为第一“h3”节点的父节点的第一“h2”节点。然后,处理控制返回到S112,并且再次将其等级关系与要被比较的节点X的等级关系进行比较。
如果要被比较的节点X=聚焦节点P,则在S116中要被比较的节点X被添加作为第二树结构中的聚焦节点P的父节点的子节点(即,兄弟节点)。例如,如果聚焦节点P是图8中所示的第一树结构中的第一“h2”节点,并且要被比较的节点X是第二“h2”节点,则第二“h2”节点被添加作为第一“h2”节点的父节点的“h1”节点的子节点。所添加的第二“h2”节点然后被建立作为新的聚焦节点P。系统控制返回到S104,并且再次判断是否仍然存在任何其它未被处理的节点。
如果要被比较的节点X<聚焦节点P,则在S118要被比较的节点X被添加作为第二树结构中的聚焦节点P的子节点。例如,如果聚焦节点P是图8中所示的第一树结构中的第一“h2”节点,并且要被比较的节点X是第一“h3”节点,则“h3”节点被添加作为第一“h2”节点的子节点。所添加的“h3”节点然后被建立作为新的聚焦节点P。随后,系统控制返回到S104,并且再次判断是否仍然存在任何其它未被处理的节点。
作为由文档分析单元120执行的文档分析处理的结果,从第一树结构生成了第二格式文档,第一树结构的一个示例在图8中被示出,第二格式文档表示图12中所示的第二树结构。
参考图12,“h1”节点位于“body”节点下的一个层级,并且“大标题”节点、“文本”节点、第一“h2”节点和第二“h2”节点位于“h1”节点下的一个层级。此外,“中标题1”节点和“中标题2”节点以及每个“h3”节点分别排列在“h2”节点下的一个层级。此外,“小标题1”节点和“小标题2”节点分别排列在“h3”节点下。第二树结构与图9中视觉上表示的文档10的文档结构的包含/被包含关系相对应。文档分析单元120将与此第二树结构对应的第二格式文档输出给存储单元130,作为XML格式的数据文件或者要被存储在数据库中的数据的集合。
另外,根据本实施例,文档分析单元120将要被用在由块提取单元140(稍后描述)执行的块提取处理中的标题串的列表输出给存储单元130。例如,图12中有五个标题串:“大标题”、“中标题1”、“小标题1”、“中标题2”和“小标题2”。在从文档分析单元120输出的标题串的列表中,针对每个标题串相应地维护指向与标题串对应的节点的指针。
存储单元130例如包括存储装置74(前面参考图5描述),并且在其中存储分别从文档分析单元120输出的第二格式文档、标题串的列表。
[2-3-2.提取块]
块提取单元140例如识别由第二格式文档表示的第二树结构中的满足由用户指定的提取条件的节点的集合。块提取单元140然后从第一格式文档提取与所识别出的节点的集合对应的块。
(示例性提取条件1)
提取条件例如可以是能够提取包括对应于标记与所指定的提取关键字(用于提取的关键词)匹配的标题的标签的标签节点以及该节点下的节点的集合的条件。这样的提取条件在下文中被称为示例性提取条件1。
图13是由块提取单元140利用示例性提取条件1执行的示例性块提取处理的流程图。
参考图13,首先,块提取单元140将由用户输入的关键字与存储单元130中所存储的标题串的列表进行匹配(S202)。在匹配中,可以使用任何匹配标准,例如完全匹配、部分匹配或者模糊搜索。
作为匹配的结果,块提取单元140判断是否有与提取关键字匹配的任何标题(S204)。如果没有与提取关键字匹配的标题,则处理结束。如果有与提取关键字匹配的任何标题,则处理进行到S206。
在S206,标记与提取关键字匹配的标题的标签节点被建立作为聚焦节点(focused node)P(S206)。更具体地,块提取单元140从标题串的列表中获取指向对应于与提取关键字匹配的标题的节点的指针。作为由所获得的指针所指的标题节点的父节点的标签节点被建立作为聚焦节点P。例如,如果提取关键字与图12中所示的“中标题1”中的字符串匹配时,作为“中标题1”节点的父节点的第一“h2”节点被建立作为聚焦节点P。
聚焦节点P然后被添加到维护节点的集合的变量N(S208)。块提取单元140还判断聚焦节点P是否具有属于其下的任何节点(S210)。如果聚焦节点P具有属于其下的节点,则处理进行到S212。如果聚焦节点P不具有属于其下的任何节点,则系统控制跳过S212,并且进行到S214。
在S212,属于聚焦节点P下的层级的每个节点(聚焦节点P的子节点和孙节点(如果有的话))被添加到节点集合N(S212)。例如,如果图12中的第一“h2”节点是聚焦节点P,则“中标题1”节点、第一“h3”节点和“小标题1”节点中的每个节点被添加到节点集合N。此时在节点集合N中维护的这些节点将是被块提取单元140识别作为满足指定提取条件的那些节点。
块提取单元140然后从相关联的具有第一格式的文档10提取与所识别的节点集合N相对应的块(S214)。随后,块提取处理结束。
示例性提取条件1例如可以设有附加条件来限制要被提取的节点的类型(例如,特定类型的标签节点)或者节点的数量。例如,为了将节点的类型限制为与标签“h1”和“h2”对应的标签节点,仅仅以“h1”节点或“h2”节点作为其父节点的标题可以被呈现用于图13中所示的流程图中S202处的匹配。或者,在S212处,仅仅属于聚焦节点P下的层级的节点中的“h1”和“h2”节点可以被添加到节点集合N。在此情形中,除了用于提取关键字的字符串以外,用户还将输入指定节点类型的指定符(例如“h1或h2”)。
图14和图15是用于说明通过示例性提取条件1提取的块的示例的说明性示图。
图14再次示出之前参考图12描述的由第二格式文档表示的示例性第二树结构。在这样的第二树结构中,在此假定由用户输入的提取关键字K1与标题串“大标题”匹配。在此情形中,块提取单元140识别包括作为“大标题”节点的父节点的“h1”节点以及属于其以下层级的节点的节点集合N1。块提取单元140然后从第一格式文档提取与所识别出的节点集合N1对应的块B1,如图15所示。
另外,在此假定由用户输入的提取关键字K2与第二树结构中的标题串“中标题2”匹配,并且用户输入附加条件“h1或h2”以限制节点类型。在此情形中,块提取单元140识别包括作为“中标题2”的父母节点的第二“h2”节点以及属于其以下的一个层级的“中标题2”节点的节点集合N2。块提取单元140然后从第一格式文档提取与所识别出的节点集合N2对应的块B2,如图15所示。
作为示例性提取条件1的示例性应用,为了自动从网页收集公司的产品信息,用户可以指定提取关键字“产品信息”来提取适当地包括“产品信息”的标题下的内容的块。例如,图2中所示的块26a是这样的块的一个示例。不用说,通过利用根据本发明实施例的信息处理设备100提取的块不限于与公司的产品信息对应的块。
(示例性提取条件2)
提取条件例如可以是能够提取包括对应于标记与所指定的提取关键字匹配的标题的标签的标签节点的父节点以及该父节点以下的节点的节点集合的条件(下文中称为示例性提取条件2)。
图16是由块提取单元140利用示例性提取条件2执行的块提取处理的另一示例的流程图。
参考图16,首先,块提取单元140将由用户输入的关键字与存储单元130中所存储的标题串的列表进行匹配(S302)。在匹配中,与用于示例性提取条件1的方式一样,可以使用任何匹配标准,例如完全匹配、部分匹配或者模糊搜索。
作为匹配的结果,块提取单元140判断是否有与提取关键字匹配的任何标题(S304)。如果没有与提取关键字匹配的标题,则处理结束。如果有与提取关键字匹配的任何标题,则处理进行到S306。
在S306,标记与提取关键字匹配的标题的标签节点的父节点被建立作为聚焦节点P(S306)。更具体地,块提取单元140从标题串的列表中获取指向对应于与提取关键字匹配的标题的节点的指针。作为由所获取的指针所指的标题节点的父节点的标签节点的父节点被建立作为聚焦节点P。例如,如果提取关键字与图12中所示的“中标题1”中的字符串匹配,则作为“中标题1”节点的父节点的第一“h2”节点的父节点“h1”被建立作为聚焦节点P。
聚焦节点P然后被添加到维护节点的集合的变量N(S308)。此外,属于聚焦节点P下的层级的每个节点也被添加到节点集合N(S310)。此时,在节点集合N中维护的这些节点将是被块提取单元140识别作为满足指定提取条件的那些节点。
块提取单元140然后从相关联的具有第一格式的文档10提取与所识别出的节点集合N相对应的块(S312)。随后,块提取处理结束。示例性提取条件2也可以设有附加条件来例如限制要提取的节点的类型或节点的数量。
作为示例性提取条件2的示例性应用,为了自动从网页收集公司的产品信息,用户可以指定与产品类型或特定产品名称对应的提取关键字来从网页提取以与产品信息类似的标题所描述的块。例如,通过利用提取关键字“TV”,可从图2中所示的HTML文档32提取描述产品信息的块26a。
在此描述的示例性块提取处理对提取关键字与标题串进行匹配;然而,提取关键字也可以与标题串以外的字符串(例如文本)进行匹配。
<3.小结>
上面参考图4到图16描述了根据本发明实施例的信息处理设备100。根据本实施例,基于预定的定义数据从利用标记语言描述的第一格式文档生成表示具有与标签和与标签有关的文本对应的节点的树结构的第二格式文档。这样的定义数据定义了文档结构中标记语言的至少两种标签的等级关系。按照此方式,具有树结构、反映文档结构中的等级关系并且视觉上可理解的数据可以用于使得能够容易地从网页提取适当的块,例如,从而使得可以收集所希望的信息。换句话说,例如在图2所示的HTML文档32中,用户可以指定提取关键字“产品信息”来提取块26a,并且将LRWrapper应用到块26a来自动创建在该块中包括的数据的数据库。
本领域技术人员应当理解,依赖于设计需求和其它因素可以出现各种修改、组合、子组合和变更,只要它们在所附权利要求或其等同物的范围内即可。
例如,参考图11、图13和图16描述的一系列处理可以不按照流程图中所描述的顺序来执行。各个处理步骤可以包括并行地执行或者单独或独立地执行的处理。
本申请包含与2009年1月19日向日本专利局提交的日本优先专利申请JP 2009-008554所公开的主题有关的主题,该申请的全部内容通过引用而被结合于此。
Claims (10)
1.一种信息处理方法,包括以下步骤:
获取利用标记语言描述的第一格式文档;并且
基于定义文档结构中所述标记语言的至少两种标签的等级关系的定义数据,从所述第一格式文档生成第二格式文档,所述第二格式文档表示其节点至少与所述标签或者和所述标签有关的文本相对应的树结构。
2.根据权利要求1所述的信息处理方法,其中,所述定义数据定义文档结构中所述第一格式文档中所使用的标签中的至少和标题有关的标签的等级关系。
3.根据权利要求2所述的信息处理方法,其中,所述节点包括与以所述标签标记的标题相对应的节点。
4.根据权利要求3所述的信息处理方法,还包括以下步骤:从由所述第二格式文档表示的树结构中识别满足指定提取条件的节点的集合。
5.根据权利要求4所述的信息处理方法,还包括以下步骤:从所述第一格式文档提取与所识别出的节点的集合相对应的块。
6.根据权利要求4所述的信息处理方法,其中,所述提取条件是能够提取包括对应于标记与指定提取关键字匹配的标题的标签的节点以及该节点下的节点的节点集合的条件。
7.根据权利要求4所述的信息处理方法,其中,所述提取条件是能够提取包括对应于标记与指定提取关键字匹配的标题的标签的节点的父节点以及该父节点下的节点的节点集合的条件。
8.根据权利要求2所述的信息处理方法,其中,
所述标记语言是超文本标记语言HTML,并且
所述定义数据是定义文档结构中所述HTML的至少“h”标签的等级关系的数据。
9.一种信息处理设备,包括:
文档获取单元,所述文档获取单元获取利用标记语言描述的第一格式文档;以及
文档分析单元,所述文档分析单元基于定义文档结构中所述标记语言的至少两种类型的标签的等级关系的定义数据,从所述第一格式文档生成第二格式文档,所述第二格式文档表示其节点至少与所述标签或与所述标签有关的文本相对应的树结构。
10.一种程序,该程序使得计算机控制信息处理设备用作:
文档获取单元,所述文档获取单元获取利用标记语言描述的第一格式文档;以及
文档分析单元,所述文档分析单元基于定义文档结构中所述标记语言的至少两种类型的标签的等级关系的定义数据,从所述第一格式文档生成第二格式文档,所述第二格式文档表示其节点至少与所述标签或与所述标签有关的文本相对应的树结构。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009-008554 | 2009-01-19 | ||
JP2009008554A JP2010165272A (ja) | 2009-01-19 | 2009-01-19 | 情報処理方法、情報処理装置、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101782924A true CN101782924A (zh) | 2010-07-21 |
Family
ID=42337932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010002598A Pending CN101782924A (zh) | 2009-01-19 | 2010-01-19 | 信息处理方法、信息处理设备和程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8584007B2 (zh) |
JP (1) | JP2010165272A (zh) |
CN (1) | CN101782924A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779117A (zh) * | 2011-05-10 | 2012-11-14 | 北京大学 | 一种电子文档处理方法和装置 |
CN104268269A (zh) * | 2014-10-13 | 2015-01-07 | 宁波公众信息产业有限公司 | 一种数据库操作方法 |
CN113765872A (zh) * | 2020-10-14 | 2021-12-07 | 天翼智慧家庭科技有限公司 | 一种自适应数据格式转换适配的方法和系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737782B (zh) * | 2018-07-03 | 2023-05-09 | 阿里巴巴集团控股有限公司 | 用于生成文本导图的方法以及装置 |
WO2022124573A1 (ko) * | 2020-12-07 | 2022-06-16 | 주식회사 앰진시큐러스 | 메뉴 구조 및 스크립트 내 키워드 기반 웹 사이트의 유사도 평가 방법 |
CN117829116A (zh) * | 2023-12-27 | 2024-04-05 | 青矩技术股份有限公司 | 文档调整方法、装置、设备及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1063649A (ja) * | 1996-08-15 | 1998-03-06 | Niigata Nippon Denki Software Kk | タグ付加文書作成方法および装置 |
US7334216B2 (en) * | 2000-04-04 | 2008-02-19 | Sosy, Inc. | Method and apparatus for automatic generation of information system user interfaces |
JP2002189740A (ja) * | 2000-12-19 | 2002-07-05 | Appresso:Kk | データ変換システム |
US7512932B2 (en) * | 2002-03-22 | 2009-03-31 | Sun Microsystems, Inc. | Language and object model for describing MIDlets |
EP1686499B1 (en) * | 2002-06-28 | 2010-06-30 | Nippon Telegraph and Telephone Corporation | Selection and extraction of information from structured documents |
JP2004070405A (ja) | 2002-08-01 | 2004-03-04 | Mitsubishi Electric Corp | Webページの風評情報抽出装置 |
JP2005043990A (ja) * | 2003-07-23 | 2005-02-17 | Toshiba Corp | 文書処理装置および文書処理方法 |
WO2007065207A1 (en) * | 2005-12-06 | 2007-06-14 | National Ict Australia Limited | A succinct index structure for xml |
JP2007249653A (ja) * | 2006-03-16 | 2007-09-27 | Fujitsu Ltd | マークアップ言語情報の処理装置、情報処理方法、およびプログラム |
US7627571B2 (en) * | 2006-03-31 | 2009-12-01 | Microsoft Corporation | Extraction of anchor explanatory text by mining repeated patterns |
JP2007279964A (ja) | 2006-04-05 | 2007-10-25 | Recruit Co Ltd | 情報検索装置 |
US8005832B2 (en) * | 2006-08-29 | 2011-08-23 | Switchbook, Inc. | Search document generation and use to provide recommendations |
US7747657B2 (en) * | 2007-06-08 | 2010-06-29 | International Business Machines Corporation | Mapping hierarchical data from a query result into a tabular format with jagged rows |
US20090063530A1 (en) * | 2007-09-04 | 2009-03-05 | Lg Telecom Ltd. | System and method for mobile web service |
US20090157630A1 (en) * | 2007-10-26 | 2009-06-18 | Max Yuan | Method of extracting data and recommending and generating visual displays |
US20100318343A1 (en) * | 2007-10-31 | 2010-12-16 | Honeywell International Inc. | Smart data access layer for supervisory information system |
-
2009
- 2009-01-19 JP JP2009008554A patent/JP2010165272A/ja active Pending
-
2010
- 2010-01-15 US US12/688,100 patent/US8584007B2/en not_active Expired - Fee Related
- 2010-01-19 CN CN201010002598A patent/CN101782924A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779117A (zh) * | 2011-05-10 | 2012-11-14 | 北京大学 | 一种电子文档处理方法和装置 |
CN104268269A (zh) * | 2014-10-13 | 2015-01-07 | 宁波公众信息产业有限公司 | 一种数据库操作方法 |
CN113765872A (zh) * | 2020-10-14 | 2021-12-07 | 天翼智慧家庭科技有限公司 | 一种自适应数据格式转换适配的方法和系统 |
CN113765872B (zh) * | 2020-10-14 | 2023-10-24 | 天翼数字生活科技有限公司 | 一种自适应数据格式转换适配的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2010165272A (ja) | 2010-07-29 |
US20100185936A1 (en) | 2010-07-22 |
US8584007B2 (en) | 2013-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7464078B2 (en) | Method for automatically extracting by-line information | |
CN102054024B (zh) | 信息处理设备、信息提取方法、程序和信息处理系统 | |
Han et al. | Wrapping web data into XML | |
US20070078889A1 (en) | Method and system for automated knowledge extraction and organization | |
US20090125529A1 (en) | Extracting information based on document structure and characteristics of attributes | |
US20090019015A1 (en) | Mathematical expression structured language object search system and search method | |
JP2007122513A (ja) | コンテンツ検索方法、及び、コンテンツ検索サーバ | |
CN102298588A (zh) | 从非结构化文档中抽取对象的方法和装置 | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN101782924A (zh) | 信息处理方法、信息处理设备和程序 | |
CN102662969A (zh) | 一种基于网页结构语义的互联网信息对象定位方法 | |
Vel | Pre-processing techniques of text mining using computational linguistics and python libraries | |
CN109657114B (zh) | 一种抽取网页半结构化数据的方法 | |
KR102107474B1 (ko) | 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN112925879A (zh) | 信息处理装置、存储介质及信息处理方法 | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 | |
KR20070103125A (ko) | 온라인 상에서 제공되는 뉴스 기사에 가중치를 부여하는방법 및 상기 방법을 수행하는 시스템 | |
CN114064913A (zh) | 一种基于知识图谱的文档检索方法及系统 | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
Griazev et al. | Web mining taxonomy | |
KR20020061443A (ko) | 컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시방법과 그 시스템 | |
Lam et al. | Web information extraction | |
JP2002312379A (ja) | 情報抽出方法および情報抽出装置 | |
JP4119413B2 (ja) | 知識情報収集システム、知識検索システム及び知識情報収集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20100721 |