CN103377225A

CN103377225A - 知识库系统的构建方法和设备

Info

Publication number: CN103377225A
Application number: CN 201210123884
Authority: CN
Inventors: 蒋喻新; 刘建柱
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2012-04-25
Filing date: 2012-04-25
Publication date: 2013-10-30

Abstract

本发明实施例公开了一种知识库系统的构建方法和设备，涉及互联网技术领域，能够提高信息抽取的准确性和鲁棒性。本发明实施例的知识库系统的构建方法，包括：获取待处理的网页；建立所述网页的DOM树；根据用户配置的抽取模板信息，抽取所述网页相对应的DOM树的各节点中的页面信息；在根据抽取的页面信息，判断所述网页为目标页面后，将所述DOM树的各节点中的所述页面信息记入知识库系统中。

Description

知识库系统的构建方法和设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种知识库系统的构建方法和设备。

背景技术

知识库系统是对知识进行立体式描述，建立本体及本体之间的关系的系统。用户通过知识库系统，可方便、迅速的查找到需要的一类数据信息。知识库系统中存储有大量高质量知识。高质量知识是指实体的实体名称及其属性，此部分知识是用户集体行为编辑形成的，具有高准确率。例如，一部电影的电影名称、导演、编剧、类型等的描述，以及观看者的打分评价信息。高质量知识体现的是用户集体共性特征，具有相当高的可信度。

现有技术中高质量知识获取方式多是基于正则表达式对页面内容进行抽取，获取目标页面中的相关内容，然后通过其它技术对知识系统进行构建。由于现有技术中书写抽取算法较为复杂，容易出错，因此抽取的数据中经常会参杂一些噪音在其中，如果目标页面中稍微有些格式的改动，都会很容易导致数据抓取失败。此外，现有技术方案的迁移成本高，对于不同的渠道获取的知识，需要修改不同的抽取算法。

发明内容

本发明的实施例所要解决的技术问题在于提供一种知识库系统的构建方法和设备，能够提高信息抽取的准确性和鲁棒性。

为解决上述技术问题，本发明的实施例采用如下技术方案：

一种知识库系统的构建方法，包括：

获取待处理的网页；

建立所述网页的DOM树；

根据用户配置的抽取模板信息，抽取所述网页相对应的DOM树的各节点中的页面信息；

在根据抽取的页面信息，判断所述网页为目标页面后，将所述DOM树的各节点中的所述页面信息记入知识库系统中。

所述用户配置的抽取模板信息包括：预设的到达所述目标页面的路径信息。

在抽取所述网页相对应的DOM树的各节点中的页面信息之后，将所述DOM树的各节点中的所述页面信息记入知识库系统中之前，还包括：

过滤抽取的所述页面信息。

所述的知识库系统的构建方法，还包括：

在根据抽取的页面信息，判断所述网页不是目标页面后，将所述网页的URL存入列表中，并根据预设的到达所述目标页面的路径信息，继续获取网页。

在根据抽取的页面信息，判断所述网页为目标页面后，还包括：

获取与所述页面信息相关联的其他实体。

一种知识库系统的构建设备，包括：

网页获取模块，用于获取待处理的网页；

DOM树建立模块，用于建立所述网页的DOM树；

抽取模块，用于根据用户配置的抽取模板信息，抽取所述网页相对应的DOM树的各节点中的页面信息；

信息录入模块，用于在根据抽取的页面信息，判断所述网页为目标页面后，将所述DOM树的各节点中的所述页面信息记入知识库系统中。

所述的知识库系统的构建设备，还包括：

过滤模块，用于过滤抽取的所述页面信息。

所述的知识库系统的构建设备，还包括：

URL存储模块，用于在根据抽取的页面信息，判断所述网页不是目标页面后，将所述网页的URL存入列表中，

所述网页获取模块，还用于在判断所述网页不是目标页面后，将所述网页的URL存入列表中，并根据预设的到达所述目标页面的路径信息，继续获取网页。

所述网页获取模块，还用于：

获取与所述页面信息相关联的其他实体。

本实施例的知识库系统的构建方法和设备，采用根据用户配置的抽取模板信息抽取页面信息的方法，通过用户配置抽取模板，方便了程序加载和使用该抽取模板，由于本实施例的抽取模式均为基于DOM树的抽取模式，因此能够更准确地表述目标实体信息在网页中的位置，进而提高了信息抽取的准确性和鲁棒性。此外，由于抽取模板与程序算法完全剥离，程序对使用者透明，用户只需利用开源工具形成不同的抽取模式的规则即可，因此提高了知识库系统的易用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中知识库系统的构建方法的流程示意图之一；

图2为本发明实施例中知识库系统的构建方法的流程示意图之二；

图3为本发明实施例中知识库系统的构建设备的示意图之一；

图4为本发明实施例中知识库系统的构建设备的示意图之二。

具体实施方式

本发明实施例提供一种知识库系统的构建方法和设备，能够提高信息抽取的准确性和鲁棒性。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透切理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本实施例提供一种知识库系统的构建方法，如图1所示，该方法包括：

步骤101、获取待处理的网页。

获取待处理的网页可以是应事件触发实时地、或定期地从第三方设备中获取待处理的网页，第三方设备可以是互联网中的服务器等设备。

具体地，本实施例可以根据第三方设备提供的应用编程接口(API)，应事件触发实时地、或定期地向该第三方设备发送接收待处理的网页的请求消息，并接收该第三方设备响应于该请求消息返回的一个或多个待处理的网页；或第三方设备主动推送待处理的网页，网页获取模块接收该待处理的网页。

本领域技术人员应能理解上述获取待处理的网页的方式仅为举例，其他现有的或今后可能出现的获取待处理的网页的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

步骤102、建立所述网页的DOM(Document Object Model，文档对象模型)树。

在获取到待处理的网页后，具体的，可以利用文档分析技术对文本格式的该网页的源代码进行扫描，建立该网页对应的DOM树。

下面以HTML文档为例详细介绍DOM树的建立过程。HTML文档中包含有若干个标签，根据HTML文档的嵌套顺序，通过一个栈(HTML Element Stack m_open Elements)来保存当前打开的节点标签。假设一段HTML的数据如下：

div节点有两个子节点，p和br，而p节点又有一个子节点a，具体处理过程简单描述如下：

假设当前栈为空；

首先处理<div>，遇到<div>时，调用processStartTag()，m_openElements中首先压入div；

继续处理，遇到<p>标签，调用processStartTag()，此时栈顶的div就是p节点的父节点，建立好p和div的连接，在加入节点p；

继续处理，遇到<a>标签，调用processStartTag()，此时栈定节点是p，当前节点是a，那么a的父节点是p，建立好父子关系，并将a压入栈；

继续处理，遇到</a>标签，调用processEndTag()，弹出栈定元素a；

继续处理，遇到</p>标签，调用processEndTag()，弹出p

继续处理，遇到<br>标签，调用processStartTag()，此时栈顶的div就是br节点的父节点，建立好br和div的连接，在加入节点br；

继续处理，遇到</br>标签，调用processEndTag()，弹出br；

继续处理，遇到</div>标签，调用processEndTag()，弹出div，至此，DOM树建立完毕。

进一步的，为了能够通过建立的DOM树快速准确的查找到目标实体以及与目标实体相关的URL，可先将网页按照一定的规则划分为若干个网页块，每个网页块都有自身的标题和URL(Uniform ResourceLocator，统一资源定位符)，每个网页块内包括多个链接，且这些链接都为该网页中自带的内容。文档分析技术将网页块作为DOM树中的节点，将网页块的标题和URL作为其自身对应的节点的子节点。

举例来说，目标实体的名称为电影《窃听风云2》，因此，可以将搜索范围限定在标题包含“电影”二字的网页块上。

可见，采用基于DOM树的抽取模式，能够更准确地表述目标实体信息在网页中的位置。

步骤103、根据用户配置的抽取模板信息，抽取所述网页相对应的DOM树的各节点中的页面信息。

为了使迁移成本降到最低，本实施例中，采用根据用户配置的抽取模板信息抽取页面信息的方法，其中，迁移成本是指用户在不同渠道获取同类知识信息时，所需要做的工作。具体的，用户配置的抽取模板信息包括：预设的到达所述目标页面的路径信息。本实施例将用户配置的各个抽取模板生成不同的配置文件，配置文件中记录有抽取模板信息，方便了程序加载和使用该抽取模板。

预设到达所述目标页面的路径信息，即由用户指定从入口位置如何走到目标页面位置，也就是给程序指定了一条浏览页面的路径信息，有效地减少了程序访问无关URL的量，降低了对服务器的压力，也避免了URL的调度问题。

可选的，用户配置的抽取模板信息还包括：对所述目标页面中的信息的抽取模式。目标页面中的信息的抽取模式，即用户选择抽取目标页面中的信息的抽取方法。本实施例采用的抽取模式为基于DOM树的抽取模式，能够更准确地表述目标实体信息在网页中的位置，只要网页布局没有出现很大的改变，抽取模板对应的配置文件失效的可能性就不会太大，进而提高了信息抽取的准确性和鲁棒性。

此外，信息的抽取模式可以直接由现有的工具自动生成，极大方便了用户配置抽取模板。抽取信息的规则与程序算法完全剥离，程序对使用者透明，用户不必关心程序的实现方式，只需利用开源工具形成不同的抽取模式的规则即可，大大提高了易用性。

示例性的，在标题为“电影”网页块中查找到目标实体的名称《窃听风云2》，抽取该网页块中“窃听风云2”相对应的DOM树的各节点中的页面信息。

步骤104、在根据抽取的页面信息，判断所述网页为目标页面后，将所述DOM树的各节点中的所述页面信息记入知识库系统中。

示例性的，在抽取到目标实体“窃听风云2”相对应的DOM树的各节点中的页面信息后，还要根据抽取的页面信息，判断所述网页为目标页面，即判断抽取到的页面信息是否为用户需要的目标实体信息，例如，“窃听风云2”相对应的DOM树的各节点中的页面信息是一些与电影《窃听风云2》毫无关系的内容，则该网页不是目标页面；若“窃听风云2”相对应的DOM树的各节点中的页面信息是电影《窃听风云2》的信息，如电影的主演、片长、类型、导演、上映时间、用户评分等，将相应节点中的所述页面信息记入知识库系统中。

进一步的，如图2所示，为保证抽取的信息的质量，在将所述DOM树的各节点中的所述页面信息记入知识库系统中之前，本实施例的方法还包括：

步骤105、过滤抽取的所述页面信息。

由于并不是所有的抽取的页面信息都要记入知识库系统中，例如，电影的编剧、配音演员等信息是不需要记入知识库系统中的，因此，需要过滤到该项内容，以保证知识库系统内容的统一性。

再以某型号的手机为例，该手机的上市时间、机身内存、主屏尺寸、电池容量、触摸屏类型、CPU频率、网络模式、屏幕分辨率等信息需要记入知识库系统中，而键盘类型、输入法等信息是不需要记入知识库系统中的，因此可以将该项内容过滤掉。

进一步的，在根据抽取的页面信息，判断所述网页不是目标页面后，将所述网页的URL存入列表中，并根据预设的到达所述目标页面的路径信息，继续获取网页。

若判断所述网页不是目标页面，则说明该网页的URL是查找目标页面的路径的一个上游路径，因此，将所述网页的URL存入列表中，以使目标页面的路径链完整，然后根据预设的到达所述目标页面的路径信息，即到达目标页面的方法，继续获取网页。

以“窃听风云2”为例，假如网页中出现了文字“窃听风云2”，且“窃听风云2”为一链接，到达目标页面的方法设置为：继续打开目标关键字所链接的网页，那么，当判断该网页不是目标页面后，打开文字“窃听风云2”所链接的网页继续查找。

进一步的，在根据抽取的页面信息，判断所述网页为目标页面后，本实施例的方法还包括：

步骤106、获取与所述页面信息相关联的其他实体。

在获取到页面信息后，基于网站本身的用户集体认知，知识库系统还能够自动获取该目标实体的其他关联实体，例如，通过抽取的页面信息得知，与“窃听风云2”相关联的实体为“窃听风云”等。通过上述方法，用户通过知识库系统能够与目标实体相关联的实体，方便用户查找信息，降低了迁移成本。

本实施例的知识库系统的构建方法，采用根据用户配置的抽取模板信息抽取页面信息的方法，通过用户配置抽取模板，方便了程序加载和使用该抽取模板，由于本实施例的抽取模式均为基于DOM树的抽取模式，因此能够更准确地表述目标实体信息在网页中的位置，进而提高了信息抽取的准确性和鲁棒性。此外，由于抽取模板与程序算法完全剥离，程序对使用者透明，用户只需利用开源工具形成不同的抽取模式的规则即可，因此提高了知识库系统的易用性。

与上述方法实施例相对应的，本实施例还提供一种知识库系统的构建设备，如图3所示，包括：

网页获取模块1，用于获取待处理的网页；

DOM树建立模块2，用于建立所述网页的DOM树；

抽取模块3，用于根据用户配置的抽取模板信息，抽取所述网页相对应的DOM树的各节点中的页面信息；

信息录入模块4，用于在根据抽取的页面信息，判断所述网页为目标页面后，将所述DOM树的各节点中的所述页面信息记入知识库系统中。

进一步的，如图4所示，所述的知识库系统的构建设备，还包括：

过滤模块5，用于过滤抽取的所述页面信息。

所述的知识库系统的构建设备，还包括：

URL存储模块6，用于在根据抽取的页面信息，判断所述网页不是目标页面后，将所述网页的URL存入列表中，

所述网页获取模块1，还用于在判断所述网页不是目标页面后，将所述网页的URL存入列表中，并根据预设的到达所述目标页面的路径信息，继续获取网页。

进一步的，所述网页获取模块1，还用于：

获取与所述页面信息相关联的其他实体。

本实施例的知识库系统的构建设备的各模块的工作原理和工作过程同上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种知识库系统的构建方法，其特征在于，包括：

获取待处理的网页；

建立所述网页的DOM树；

2.根据权利要求1所述的知识库系统的构建方法，其特征在于，所述用户配置的抽取模板信息包括：预设的到达所述目标页面的路径信息。

3.根据权利要求1所述的知识库系统的构建方法，其特征在于，在抽取所述网页相对应的DOM树的各节点中的页面信息之后，将所述DOM树的各节点中的所述页面信息记入知识库系统中之前，还包括：

过滤抽取的所述页面信息。

4.根据权利要求2所述的知识库系统的构建方法，其特征在于，还包括：

5.根据权利要求1所述的知识库系统的构建方法，其特征在于，在根据抽取的页面信息，判断所述网页为目标页面后，还包括：

获取与所述页面信息相关联的其他实体。

6.一种知识库系统的构建设备，其特征在于，包括：

网页获取模块，用于获取待处理的网页；

DOM树建立模块，用于建立所述网页的DOM树；

7.根据权利要求6所述的知识库系统的构建设备，其特征在于，所述用户配置的抽取模板信息包括：预设的到达所述目标页面的路径信息。

8.根据权利要求6所述的知识库系统的构建设备，其特征在于，还包括：

过滤模块，用于过滤抽取的所述页面信息。

9.根据权利要求7所述的知识库系统的构建设备，其特征在于，还包括：

10.根据权利要求6所述的知识库系统的构建设备，其特征在于，所述网页获取模块，还用于：

获取与所述页面信息相关联的其他实体。