CN110309364A

CN110309364A - 一种信息抽取方法及装置

Info

Publication number: CN110309364A
Application number: CN201810176124.3A
Authority: CN
Inventors: 王策; 张锋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2019-10-08
Anticipated expiration: 2038-03-02
Also published as: CN110309364B

Abstract

本申请实施例公开了一种信息抽取方法及装置，用于提升了配置效率。所述方法包括：获取目标页面的页面信息；根据所述页面信息建立文档模型，并根据配置文件确定所述目标页面对应的目标路径信息，所述配置文件用于抽取目标文档信息，所述配置文件中包括至少一个页面对应的路径信息；若所述目标路径信息包含目标字符，则确定所述文档模型中至少一个节点的节点路径信息，并确定所述节点路径信息中与所述目标路径信息匹配的目标节点路径信息；通过所述目标节点路径信息抽取第一文档信息，所述第一文档信息为所述目标文档信息。

Description

一种信息抽取方法及装置

技术领域

本申请涉及计算机应用领域，尤其涉及一种信息抽取方法及装置。

背景技术

信息抽取(Information Extract)指的是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本(可以是网页数据或者单独的文字内容)，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。

对于结构化页面信息的抽取，配置人员可以针对每个类别的页面，为该类页面的一些属性对应的值配置可扩展标记语言路径路径语言(Extensible Markup Languagepath language，xpath)，则服务器获取到某个页面的页面信息后，就可以通过配置人员预先配置的xpath从该页面信息中抽取对应的属性值，获得需要的信息。

对于同一个页面，其属性值的对应的xpath有固定的格式，但是部分属性有多个值，并且这些属性在不同页面中对应的属性值的数量不相同，例如马云的百科页面，标签内容包括：行业人物，经济人物，人物以及互联网人物，如图1所示，该页面中标签对应的xpath如下表1所示；刘德华的百科页面，标签内容包括：音乐人物，演员，歌手，娱乐人物，制作人和人物，如图2所示，该页面中标签对应的xpath如下表2所示。

属性名称	属性值	xpath
			标签	行业人物	//*[@id＝"open-tag-item"]/span[1]
标签	经济人物	//*[@id＝"open-tag-item"]/span[2]
			标签	人物	//*[@id＝"open-tag-item"]/span[3]
标签	互联网人物	//*[@id＝"open-tag-item"]/span[4]

表1

属性名称	属性值	xpath
			标签	音乐人物	//*[@id＝"open-tag-item"]/span[1]
标签	演员	//*[@id＝"open-tag-item"]/span[2]
			标签	歌手	//*[@id＝"open-tag-item"]/span[3]
标签	娱乐人物	//*[@id＝"open-tag-item"]/span[4]
			标签	制作人	//*[@id＝"open-tag-item"]/span[5]
标签	人物	//*[@id＝"open-tag-item"]/span[6]

表2

可见，如果想要抽取这些属性在不同页面所对应的值，需要针对每个值配置一个xpath，通过枚举的方法配置大量的xpath，这会大大降低配置效率。

发明内容

本申请实施例提供了一种信息抽取方法及装置，用于提升配置效率。

有鉴于此，本申请第一方面提供了一种信息抽取方法，该方法包括：

获取目标页面的页面信息；

根据所述页面信息建立文档模型，并根据配置文件确定所述目标页面对应的目标路径信息，所述配置文件用于抽取目标文档信息，所述配置文件中包括至少一个页面对应的路径信息；

若所述目标路径信息包含目标字符，则确定所述文档模型中至少一个节点的节点路径信息，并确定所述节点路径信息中与所述目标路径信息匹配的目标节点路径信息；

通过所述目标节点路径信息抽取第一文档信息，所述第一文档信息为所述目标文档信息。

有鉴于此，本申请第二方面提供了一种信息抽取装置，该装置包括：

获取模块，用于获取目标页面的页面信息；

建立模块，用于根据所述页面信息建立文档模型；

第一确定模块，用于根据配置文件确定所述目标页面对应的目标路径信息，所述配置文件用于抽取目标文档信息，所述配置文件中包括至少一个页面对应的路径信息；

第二确定模块，用于当所述目标路径信息包含目标字符时，确定所述文档模型中至少一个节点的节点路径信息；

第三确定模块，用于确定所述节点路径信息中与所述目标路径信息匹配的目标节点路径信息；

抽取模块，用于通过所述目标节点路径信息抽取第一文档信息，所述第一文档信息为所述目标文档信息。

可选地，在第二方面的一种可能的实现方式中，第二确定模块具体用于确定所述目标路径信息对应的表达式，根据所述表达式以及所述节点在所述文档模型中的位置，生成所述节点路径信息。

本申请第三方面提供了一种信息抽取装置，该装置包括：处理器及存储器；

所述存储器用于存储程序；

所述处理器用于执行所述程序，具体包括如下步骤：

获取目标页面的页面信息；

可选地，在第三方面的一种可能的实现方式中，处理器具体还执行如下步骤：确定所述目标路径信息对应的表达式，根据所述表达式以及所述节点在所述文档模型中的位置，生成所述节点路径信息。

本申请第四方面提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

信息抽取装置获取到某个页面的页面信息后，可以根据该页面信息建立文档模型，并根据配置文件确定该页面对应的目标路径信息，若目标路径信息包含目标字符，则信息抽取装置可以确定文档模型中至少一个节点的节点路径信息，并确定节点路径信息中与目标路径信息匹配的目标节点路径信息，则通过该目标节点路径信息即可抽取需要的文件。其中，上述配置文件指的是抽取目标文档信息所需要的文件，该文件包括配置人员针对不同页面配置的路径信息。本实施例中，对于包含目标字符的目标路径信息，可以通过与该目标路径信息匹配的目标节点路径信息抽取需要的文档信息，则基于该方案，配置人员在针对页面配置路径信息时，对于同一个属性对应的不同值，可以统一配置一个包含目标字符的xpath，而不需要通过枚举的方法配置大量的xpath，提升了配置效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1为本申请实施例中一个属性对应多个属性值的一个示意图；

图2为本申请实施例中一个属性对应多个属性值的另一示意图；

图3为本申请实施例中信息抽取系统的一个示意图；

图4为本申请实施例中信息抽取方法的一个实施例流程图；

图5为本申请实施例中信息抽取方法的另一实施例流程图；

图6为本申请实施例中信息抽取装置的一个实施例示意图；

图7为本申请实施例中信息抽取装置的另一实施例示意图；

图8为本申请实施例中信息抽取装置的另一实施例示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解，下面对本申请实施所涉及的一些术语进行介绍：

可扩展标记语言路径路径语言(Extensible Markup Language path language，xpath)：一种用来确定标准通用标记语言的子集(Extensible Markup Language，XML)文档中某部分位置的语言。xpath基于XML的树状结构，有不同类型的节点，包括元素节点(Element Node)、属性节点(Atttribute Node)和文本节点(Text Node)，提供在数据结构树中找寻节点的能力。

文档结构化模型(Document Object Model，DOM)树(Tree)：指通dom将超文本标记语言(HyperText Markup Language，HTML)页面进行解析，并生成的HTML tree树状结构和对应访问方法。

遍历：指沿着某条搜索路线，依次对树中每个节点均做一次且仅做一次访问。

为了便于理解，下面对本申请中信息抽取方法及装置所适用的场景进行介绍：

如图3所示，配置人员针对每个页面，为该类页面的一些属性对应的值配置xpath，对于同一个属性对应的不同值，统一配置一个包含目标字符的xpath，即使各个值对应的相同的xpath。配置人员将配置好的xpath加载到目标服务器中。目标服务器从其他网页服务器中某个页面的页面信息，并根据本申请中的信息抽取方法确定抽取该页面中的目标文档信息。

通过本申请中的信息抽取方法，服务器可以大量的网页中抽取需要的目标文档信息，然后可以根据这些目标文档建立知识库，以供用户使用。

应理解，除了上述场景本申请中的信息抽取方法还可以应用于其他场景，具体本申请不做限定。

基于上述场景，下面对本申请中的信息抽取方法进行介绍，请参阅图4，本申请中信息抽取方法的一个实施例包括：

401、信息抽取装置获取目标页面的页面信息；

信息抽取装置加载完用于抽取目标文档信息的配置文件后，获取目标页面的页面信息，其中，目标页面可以是HTML网页，或XHTML网页，或其他页面，具体本申请不作限定。

其中，信息抽取装置加载的配置文件包括至少一个页面对应的路径信息，具体地，配置文件中可以用统一资源定位符(Uniform Resource Locator，URL)标识每个页面，即配置文件包括至少一个页面的URL，以及与URL对应的路径信息。

应理解，配置文件中的路径信息可以是xpath信息或其他信息，具体本实施例不作限定。

还应理解，本实施例中，配置文件也可以包括其他信息，具体此处也不作限定。

402、信息抽取装置根据页面信息建立文档模型，并根据配置文件确定目标页面对应的目标路径信息；

信息抽取装置获取页面信息后，根据页面信息建立该目标页面对应的文档模型，并确定该目标页面的对应的目标路径信息。

具体地，信息抽取装置可以通过如下方式确定目标路径信息：信息抽取装置解析目标页面的页面信息得到目标页面的URL，根据配置文件中的对应关系先确定目标页面的URL对应的URL识别码，再确定与该URL识别码对应的属性标识以及各个属性标识对应的路径信息。

应理解，信息抽取装置还可以通过其他方式确定目标路径信息，具体本申请不作限定。

具体地，本实施例中的文档模型具体可以是树状结构的文档模型。

作为一种可选的方式，信息抽取装置可以通过如下方式建立文档模型：信息抽取装置通过文档结构化模型解析该目标页面的页面信息得到HTML文档，并根据这些HTML文档生成树状结构的文档模型，即DOM Tree。

应理解，信息抽取装置还可以通过其他方式建立文档模型，具体本申请不作限定。

403、信息抽取装置判断目标路径信息是否包含目标字符，若包含，则执行步骤404；

信息抽取装置确定目标路径信息后，针对每个目标路径信息判断该路径信息是否包含目标字符，若包含，则说明这个目标路径信息所对应的属性具有多个属性值，信息抽取装置通过下述404至405所描述的流程来抽取目标文档信息；若不包含，则信息抽取装置可以确定文档模型中与该目标路径信息对应的节点，抽取该节点对应的内容，即通过该目标路径信息抽取目标文档信息，信息抽取装置还可以执行其他流程，具有本申请不作限定。

404、信息抽取装置确定文档模型中至少一个节点的节点路径信息，并确定节点路径信息中与目标路径信息匹配的目标节点路径信息；

对于任意一个目标路径信息，若该路径信息包含目标字符，则信息抽取装置可以从文档模型中确定至少一个节点的节点路径信息，并将确定的节点路径信息与目标路径信息进行匹配，若匹配成功，则确定该节点路径信息为目标节点路径信息，信息抽取装置执行步骤405。

405、信息抽取装置通过目标节点路径信息抽取第一文档信息；

信息抽取装置确定目标节点路径信息后，通过该目标节点路径信息抽取文档信息(第一文档信息)，抽取的文档信息即为该目标路径信息所要抽取的目标文档信息。

本实施例中，对于包含目标字符的目标路径信息，可以通过与该目标路径信息匹配的目标节点路径信息抽取需要的文档信息，则基于该方案，配置人员在针对页面配置路径信息时，对于同一个属性对应的不同值，可以统一配置一个包含目标字符的xpath，而不需要通过枚举的方法配置大量的xpath，提升了配置效率。

基于上述图4对应的实施例可知，信息抽取装置可以通过多种方式确定与目标路径信息匹配的目标节点路径信息，下面以其中一种为例对本申请中的信息抽取方法进行详细介绍，请参阅图5，本申请中信息抽取方法的另一实施例包括：

501、信息抽取装置获取目标页面的页面信息；

作为一种可选的方式，配置文件用于抽取的目标文档信息可以是页面中某个属性对应的属性值。

则配置文件可以包括至少一个页面对应的统一资源定位符(Uniform ResourceLocator，URL)，URL识别号，属性名称，路径信息以及这些信息之间的对应关系，其中，每个URL对应一个URL识别码，每个URL识别码对应一个或多个属性标识，每个属性标识对应一个路径信息。应理解，路径信息用于抽取与其对应的属性标识所标识的属性的值，对于对应多个值的属性，其对应的路径信息也只有一个(即每个值对应的路径信息相同)。

应理解，上述属性标识可以是属性名称或其他标识，具体此处不作限定，上述路径信息可以是xpath信息或其他信息，具体此处不作限定。

下面举例进行说明，信息抽取装置预先加载的配置文件包括第一文件(pattern.conf)和第二文件(xpath.conf)，其中，第一文件包含URL通过正则表达式编译后的内容(pattern)，以及该URL对应识别码(pattern_id)，具体如下表3所示：

pattern_id	内容
		0	^https://baike\.baidu\.com/item/.+/\d+$
1	^https://baike\.baidu\.com/subview/\d+/\d+\.htm$

表3

第二文件包含URL识别码，属性名称和xpath(路径信息)，其中对应多个值的属性，仅配置一个包含“％d”(目标字符)的xpath，具体如下表4所示：

pattern_id	属性名称	xpath
			0	名称	/html/body/div[4]/div[2]/div/div[2]/dl[1]/dd/h1
0	简介	/html/body/div[4]/div[2]/div/div[2]/div[4]
			1	名称	/html/body/div[4]/div[2]/div/div[2]/dl[1]/dd/h1
1	标签	/html/body/div[4]/div[2]/div/div[％d]/div[4]

表4

应理解，本申请中，配置文件也可以包括其他信息，具体不作限定。

502、信息抽取装置根据页面信息建立文档模型，并根据配置文件确定目标页面对应的目标路径信息；

具体地，信息抽取装置可以通过如下方式确定目标路径信息：信息抽取装置解析目标页面的页面信息得到目标页面的URL，根据配置文件中的对应关系先确定目标页面的URL对应的URL识别码，再确定与该URL识别码对应的属性标识以及各个属性标识对应的路径信息，确定的属性表示对应的路径信息即目标路径信息。

作为一种可选的方式，信息抽取装置可以通过如下方式建立文档模型：信息抽取装置解析通过文档结构化模型该目标页面的页面信息得到HTML文档，并根据这些HTML文档生成树状结构的文档模型，即DOM Tree。

503、信息抽取装置判断目标路径信息是否包含目标字符，若包含，则执行步骤504，若不包含，则执行步骤509；

信息抽取装置确定目标路径信息后，针对每个目标路径信息判断该路径信息是否包含目标字符，若包含，则说明这个目标路径信息所对应的属性具有多个属性值，信息抽取装置通过下述504至505所描述的流程来抽取目标文档信息；若不包含，则执行步骤509。

504、信息抽取装置确定文档模型中至少一个节点的节点路径信息；

当信息抽取装置确定目标路径信息包含目标字符时，信息抽取装置可以确定文档模型中至少一个节点的节点路径信息，并执行步骤505。

应理解，对于一个节点在文档模型中的位置，信息抽取装置可以通过不同的方式进行描述，这些描述的方式即路径信息对应的表达式，以xpath为例，xpath的路径表达式如下表5所示：

表5

一般来说目标路径信息会采用“/”和“//”这两种表达式。

作为一种可选的方式，信息抽取装置可以通过如下方式确定节点路径信息：确定目标路径信息对应的表达式，根据该表达式以及节点在文档模型中的位置，生成该节点的节点路径信息，即生成的节点路径信息与目标路径信息的表达式相同。

具体地，信息抽取装置可以从根节点遍历DOM Tree，记录遍历的标签(tag)路径，将遍历的tag路径与遍历的节点tag组合得到该节点的节点路径信息，并且该节点路径信息采用的表达式与目标路径信息采用的表达式相同。

505、信息抽取装置确定第一节点路径信息对应的第一字符串序列，并确定目标路径信息对应的第二字符串序列；

信息抽取装置确定第一节点路径信息后，确定该第一节点路径信息对应的第一字符串序列，并确定目标路径信息对应的第二字符串序列，其中，第一节点路径信息为上述步骤504确定的节点路径信息中的任意一个节点路径信息。

作为一种可选的方式，信息抽取装置可以每生成一个节点的节点路径信息，就确定该节点路径信息对应的第二字符串序列，并执行如下步骤506，信息抽取装置也可以在生成每个节点对应的节点路径信息后，再针对每个节点路径信息，确定该节点路径信息对应的第一字符串序列，并执行如下步骤506，信息抽取装置还可以在生成每个节点对应的节点路径信息的过程中，针对生成的节点路径信息，确定该节点路径信息对应的第一字符串序列，并执行如下步骤506，具体本申请不作限定。

具体地，信息抽取装置可以通过如下方式确定第一字符串序列以及第二字符串序列：信息抽取装置按照路径信息中的某些特殊字符，对节点路径信息以及目标路径信息进行切分得到第一字符串序列和第二字符串序列，以表达式为“/”的xpath为例，信息抽取装置可以按照符号“/”对节点路径信息节点路径信息进行切分得到第一字符串序列和第二字符串序列，比如节点路径信息为“/html/body/div[4]/”，则按照“/”切分后得到的第一字符串序列为：html，body，div[4]。

506、信息抽取装置将第一字符串序列与第二字符串序列中位置对应的若干对字符串进行匹配，若均匹配，则执行步骤507，若有一个对字符串不匹配，则执行步骤509；

信息抽取装置确定第一字符串序列以及第二字符串序列后，将第一字符串序列与第二字符串序列中位置对应的若干对字符串进行匹配。

作为一种可选的方式，信息抽取装置将这两个序列中位置相同的字符串分别进行匹配，若均匹配，则执行步骤507，若有一个位置的字符串不匹配，则执行步骤509。

具体地，信息抽取装置判断第一字符串序列中的第i个字符串与第二字符串序列的第i个字符串是否相同，若相同，则确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串匹配；若不相同，则判断第二字符串序列的第i个字符串是否包含目标字符；若不包含，则确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串不匹配；若包含，则判断第一字符串序列的第i个字符串中除了与目标字符对应的第一字符以外的其他字符，与第二字符串序列的第i个字符串中除了目标字符以外的其他字符是否相同；若不相同，则确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串不匹配；若是，则确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串匹配。

其中，与目标字符对应的第一字符可以通过特殊符号确定，比如符号第一字符串序列的第i个字符串中方括号“[]”里面的内容，与第二字符串序列的第i个字符串中方括号“[]”里面的内容对应。

下面以采用“/”表达式的path为例进行说明，页面对应的目标路径信息为“/html/body/div[4]/div[2]/div/div[％d]/dl[1]/dd/h1”，命名为cur_xpath，第一节点路径信息为“/html/body/div[4]/div[2]/div/div[2]/dl[1]/dd/h1”，命名为input_xpath，将cur_xpath按照“/”进行切分，切分后的数组(第一字符串序列)为：html，body，div[4]，div[2]，div，div[2]，dl[1]，dd，h1；将input_xpath按照“/”进行切分，切分后的数组(第二字符串序列)为：html，body，div[4]，div[2]，div，div[％d]，dl[1]，dd，h1。

遍历两个数组，获取cur_vec的当前值，命名为cs；获取in put_vec的当前值，命名为is。如果cs等于is，则表明当前标签匹配，例如cur_vec的当前值为html，对应地，in put_vec的当前值为html，cs＝is，当前标签匹配，则获取下一个值进行匹配；如果cs和is不相等，比如cur_vec的当前值为div[2]，in put_vec的当前值为div[％d]，且is包含目标字符％d，将cs和is中[]的内容都替换为0，即将div[2]替换为div[0]，将div[％d]替换为div[0]，替换后cs＝is则当前标签匹配，继续匹配下一个。

作为一种可选的方式，信息抽取装置早执行步骤508，将第一字符串序列中的字符串与第二字符串序列中的字符串进行匹配之前，信息抽取装置可以先判断第一字符串序列的长度与第二字符串序列的长度是否相等，若不相等，则信息抽取装置可以确定第一节点路径信息与目标路径信息不匹配，执行步骤509；若相等，则信息抽取装置执行本步骤508。

例如上述示例中，将cur_xpath和input_xpath按照“/”进行切分成后，如果cur_xpath和input_xpath的数组长度不相同，则说明input_xpath与cur_xpath不匹配，如果cur_xpath和input_xpath的数组长度相同，则开始遍历数组进行匹配。

507、信息抽取装置确定第一节点路径信息为与目标路径信息匹配的目标节点路径信息；

当第一字符串序列与第二字符串序列中位置对应的若干对字符串均匹配时，信息抽取装确定该第一节点路径信息与目标路径信息匹配，即该第一节点路径信息为目标节点路径信息。

508、信息抽取装置通过目标节点路径信息抽取第一文档信息；

信息抽取装置确定与目标路径信息匹配的目标节点路径信息后，通过该目标节点路径信息抽取第一文档信息，这个第一文档信息就是目标路径信息所要抽取的目标文档信息，即服务器需要的文档信息。

具体地，通过目标节点路径信息抽取第一文档信息，即确定该目标节点路径信息所指向的节点，抽取该节点对应的内容。

需要说明的是，本申请中，信息抽取装置抽取第一文档信息后，可以输出该第一文档信息，具体地，该第一文档信息即为目标路径信息对应的属性值，该属性值与目标属性对应，则信息抽取装置可以输出该属性的属性名称，以及该属性值。

例如上述目标节点路径信息与上述表4所述配置文件中的xpath“/html/body/div[4]/div[2]/div/div[％d]/div[4]”匹配，则通过目标节点路径信息抽取的文档信息为“人物”，则输出结果为<标签，人物>，该输出结果与目标页面对应。

509、信息抽取装置执行其他流程。

当信息抽取装置确定目标路径信息不包含目标字符时，信息抽取装置执行其他流程，具体地，信息抽取装置可以确定文档模型中与该目标路径信息对应的节点，抽取该节点对应的内容，即通过该目标路径信息抽取目标文档信息。

当信息抽取装置确定第一字符串序列与第二字符串序列中有一对字符串不匹配时，信息抽取装置执行其他流程，具体地，信息抽取装置可以该第一节点路径信息与目标路径信息不匹配。

本实施例中，对于包含目标字符的目标路径信息，可以通过与该目标路径信息匹配的目标节点路径信息抽取需要的文档信息，则基于该方案，运维人员在针对页面配置路径信息时，对于同一个属性对应的不同值，可以统一配置一个包含目标字符的xpath，而不需要通过枚举的方法配置大量的xpath，提升了配置效率。

其次，本实施例提供了多种确定目标节点路径信息的具体方式，提高了方案的灵活性。

上面介绍了本申请中的信息抽取方法，下面对本申请中的信息抽取装置进行介绍，请参阅图6，本申请中信息抽取装置的一个实施例包括：

获取模块601，用于获取目标页面的页面信息；

建立模块602，用于根据页面信息建立文档模型；

第一确定模块603，用于根据配置文件确定目标页面对应的目标路径信息，配置文件用于抽取需要的目标文档信息，配置文件中包括至少一个页面对应的路径信息；

第二确定模块604，用于当目标路径信息包含目标字符时，确定文档模型中至少一个节点的节点路径信息；

第三确定模块605，用于确定节点路径信息中与目标路径信息匹配的目标节点路径信息；

抽取模块606，用于通过目标节点路径信息抽取第一文档信息，第一文档信息为目标文档信息。

应理解，上述图6对应的信息抽取装置中各模块所执行的流程可以参见前述图4对应的方法实施例流程，具体此处不赘述。

本实施例中，对于包含目标字符的目标路径信息，抽取模块606可以通过与该目标路径信息匹配的目标节点路径信息抽取需要的文档信息，则基于该方案，运维人员在针对页面配置路径信息时，对于同一个属性对应的不同值，可以统一配置一个包含目标字符的xpath，而不需要通过枚举的方法配置大量的xpath，提升了配置效率。

为了便于理解本申请中的信息抽取装置，请参阅图7，本申请实施例中信息抽取装置的一个实施例包括：

获取模块701，用于获取目标页面的页面信息；

建立模块702，用于根据页面信息建立文档模型；

第一确定模块703，用于根据配置文件确定目标页面对应的目标路径信息，配置文件用于抽取需要的目标文档信息，配置文件中包括至少一个页面对应的路径信息；

第二确定模块704，用于当目标路径信息包含目标字符时，确定文档模型中至少一个节点的节点路径信息；

第三确定模块705，用于确定节点路径信息中与目标路径信息匹配的目标节点路径信息；

抽取模块706，用于通过目标节点路径信息抽取第一文档信息，第一文档信息为目标文档信息；

其中，第三确定模块705包括：

第一确定单元7051，用于确定第一节点路径信息对应的第一字符串序列；

第二确定单元7052，用于确定目标路径信息对应的第二字符串序列，第一节点路径信息为至少一个节点的路径信息中任意一个节点的节点路径信息；

匹配单元7053，用于将第一字符串序列与第二字符串序列中位置对应的若干对字符串进行匹配；

第三确定单元7054，用于当若干对字符串均匹配时，确定第一节点的节点路径信息为与目标路径信息匹配的目标节点路径信息；

可选地，信息抽取装置还可以包括：

判断模块707，用于判断第一字符串序列的序列长度与第二字符串序列的序列长度是否相等；

第四确定模块708，用于当判断模块确定相等时，确定第一节点路径信息与目标路径信息不匹配；

则匹配单元7053，具体用于当判断模块707确定不相等时，将第一字符串序列与第二字符串序列中位置对应的若干对字符串进行匹配。

可选地，匹配单元7053可以包括：

第一判断子单元70531，用于判断第一字符串序列的第i个字符串与第二字符串序列的第i个字符串是否相同；

第一确定子单元70532，用于当第一判断子单元70531确定相同时，确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串匹配；

第二判断子单元70533，用于当第一判断子单元70531确定不相同时，判断第二字符串序列的第i个字符串是否包含目标字符；

第二确定子单元70534，用于当第二判断子单元70533确定不包含目标字符时，确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串不匹配；

第三判断子单元70535，用于当第二判断子单元70533确定包含目标字符时，判断第一字符串序列的第i个字符串中除了与目标字符对应的第一字符以外的其他字符，与第二字符串序列的第i个字符串中除了目标字符以外的其他字符是否相同；

第三确定子单元70536，用于当第三判断子单元70535确定不相同时，确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串不匹配；

第四确定子单元70537，用于当第三判断子单元70535确定相同时，确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串匹配。

应理解，上述图7对应的信息抽取装置中各模块所执行的流程可以参见前述图5对应的方法实施例流程，具体此处不赘述。

本实施例中，对于包含目标字符的目标路径信息，抽取模块706可以通过与该目标路径信息匹配的目标节点路径信息抽取需要的文档信息，则基于该方案，运维人员在针对页面配置路径信息时，对于同一个属性对应的不同值，可以统一配置一个包含目标字符的xpath，而不需要通过枚举的方法配置大量的xpath，提升了配置效率。

其次，本申请提供了一种确定目标节点路径信息的方式，提高了方案的可实现性。

上面从功能模块的角度介绍了本申请中的信息抽取装置，下面从实体硬件的角度介绍本申请中的信息抽取装置，图8是本发明实施例信息抽取装置80的结构示意图。信息抽取装置80可包括输入设备810、输出设备820、处理器830和存储器840。本发明实施例中的输出设备可以是显示设备。

存储器840可以包括只读存储器和随机存取存储器，并向处理器830提供指令和数据。存储器840的一部分还可以包括非易失性随机存取存储器(英文全称：Non-VolatileRandom Access Memory，英文缩写：NVRAM)。

存储器840存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集:

操作指令：包括各种操作指令，用于实现各种操作。

操作系统：包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

本发明实施例中处理器830用于执行如下步骤：

获取目标页面的页面信息，根据页面信息建立文档模型，并根据配置文件确定目标页面对应的目标路径信息，该配置文件用于抽取需要的目标文档信息，该配置文件中包括至少一个页面对应的路径信息；如果目标路径信息包含目标字符，则确定文档模型中至少一个节点的节点路径信息，并确定节点路径信息中与目标路径信息匹配的目标节点路径信息，通过目标节点路径信息抽取第一文档信息，第一文档信息为目标文档信息。其中，

可选地，处理器830具体用于：确定第一节点路径信息对应的第一字符串序列，并确定目标路径信息对应的第二字符串序列，第一节点路径信息为至少一个节点的路径信息中任意一个节点的节点路径信息；将第一字符串序列与第二字符串序列中位置对应的若干对字符串进行匹配；若这若干对字符串均匹配，则确定第一节点的节点路径信息为与目标路径信息匹配的目标节点路径信息。

可选地，处理器830还用于执行如下流程：判断第一字符串序列的序列长度与第二字符串序列的序列长度是否相等；若否，则确定第一节点路径信息与目标路径信息不匹配；若是，则执行将第一字符串序列与第二字符串序列中位置对应的若干对字符串进行匹配的步骤。

可选地，处理器830具体用于：判断第一字符串序列的第i个字符串与第二字符串序列的第i个字符串是否相同；若相同，则确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串匹配；若不相同，则判断第二字符串序列的第i个字符串是否包含目标字符；若不包含，则确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串不匹配；若包含，则判断第一字符串序列的第i个字符串中除了与目标字符对应的第一字符以外的其他字符，与第二字符串序列的第i个字符串中除了目标字符以外的其他字符是否相同；若否，则确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串不匹配；若是，则确定第一字符串序列的第i个字符串与第二字符串序列的第i个字符串匹配。

可选地，处理器830具体用于：确定目标路径信息对应的表达式；根据表达式以及节点在文档模型中的位置，生成节点路径信息。

处理器830控制信息抽取装置80的操作，处理器830还可以称为中央处理单元(英文全称：Central Processing Unit，英文缩写：CPU)。存储器840可以包括只读存储器和随机存取存储器，并向处理器830提供指令和数据。存储器840的一部分还可以包括NVRAM。具体的应用中，信息抽取装置80的各个组件通过总线系统850耦合在一起，其中总线系统850除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统850。

上述本发明实施例揭示的方法可以应用于处理器830中，或者由处理器830实现。处理器830可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器830中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器830可以是通用处理器、数字信号处理器(英文全称：Digital Signal Processing，英文缩写：DSP)、专用集成电路(英文全称：Application Specific Integrated Circuit，英文缩写：ASIC)、现成可编程门阵列(英文全称：Field－Programmable Gate Array，英文缩写：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器840，处理器830读取存储器840中的信息，结合其硬件完成上述方法的步骤。

图8的相关描述可以参阅图4和图5方法部分的相关描述和效果进行理解，本处不做过多赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种信息抽取方法，其特征在于，包括：

获取目标页面的页面信息；

2.根据权利要求1所述的方法，其特征在于，所述确定所述节点路径信息中与所述目标路径信息匹配的目标节点路径信息包括：

确定第一节点路径信息对应的第一字符串序列，并确定目标路径信息对应的第二字符串序列，所述第一节点路径信息为所述至少一个节点的路径信息中任意一个节点的节点路径信息；

将所述第一字符串序列与所述第二字符串序列中位置对应的若干对字符串分别进行匹配；

若均匹配，则确定所述第一节点的节点路径信息为与所述目标路径信息匹配的目标节点路径信息。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一字符串序列与所述第二字符串序列中位置对应的若干对字符串分别进行匹配之前包括：

判断所述第一字符串序列的序列长度与所述第二字符串序列的序列长度是否相等；

若否，则确定所述第一节点路径信息与所述目标路径信息不匹配；

若是，则执行所述将所述第一字符串序列与所述第二字符串序列中位置对应的若干对字符串分别进行匹配的步骤。

4.根据权利要求2或3所述的方法，其特征在于，所述将所述第一字符串序列与所述第二字符串序列中位置对应的若干对字符串分别进行匹配包括：

判断所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串是否相同；

若相同，则确定所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串匹配。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

若不相同，则判断所述第二字符串序列的第i个字符串是否包含所述目标字符；

若不包含，则确定所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串不匹配；

若包含，则判断所述第一字符串序列的第i个字符串中除了与所述目标字符对应的第一字符以外的其他字符，与所述第二字符串序列的第i个字符串中除了所述目标字符以外的其他字符是否相同；

若否，则确定所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串不匹配；

若是，则确定所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串匹配。

6.根据权利要求1至3中任一项方法，其特征在于，所述确定所述文档模型中至少一个节点的节点路径信息包括：

确定所述目标路径信息对应的表达式；

根据所述表达式以及所述节点在所述文档模型中的位置，生成所述节点路径信息。

7.一种信息抽取装置，其特征在于，包括：

获取模块，用于获取目标页面的页面信息；

建立模块，用于根据所述页面信息建立文档模型；

8.根据权利要求7所述的装置，其特征在于，所述第三确定模块包括：

第一确定单元，用于确定第一节点路径信息对应的第一字符串序列；

第二确定单元，用于确定目标路径信息对应的第二字符串序列，所述第一节点路径信息为所述至少一个节点的路径信息中任意一个节点的节点路径信息；

匹配单元，用于将所述第一字符串序列与所述第二字符串序列中位置对应的若干对字符串分别进行匹配进行匹配；

第三确定单元，用于当所述若干对字符串均匹配时，确定所述第一节点的节点路径信息为与所述目标路径信息匹配的目标节点路径信息。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

判断模块，用于判断所述第一字符串序列的序列长度与所述第二字符串序列的序列长度是否相等；

第四确定模块，用于当所述判断模块确定相等时，确定所述第一节点路径信息与所述目标路径信息不匹配；

所述匹配单元，具体用于当所述判断模块确定不相等时，将所述第一字符串序列与所述第二字符串序列中位置对应的若干对字符串分别进行匹配。

10.根据权利要求8或9所述的装置，其特征在于，所述匹配单元包括：

第一判断子单元，用于判断所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串是否相同；

第一确定子单元，用于当所述第一判断子单元确定相同时，确定所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串匹配；

第二判断子单元，用于当所述第一判断子单元确定不相同时，判断所述第二字符串序列的第i个字符串是否包含所述目标字符；

第二确定子单元，用于当所述第二判断子单元确定不包含所述目标字符时，确定所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串不匹配；

第三判断子单元，用于当所述第二判断子单元确定包含所述目标字符时，判断所述第一字符串序列的第i个字符串中除了与所述目标字符对应的第一字符以外的其他字符，与所述第二字符串序列的第i个字符串中除了所述目标字符以外的其他字符是否相同；

第三确定子单元，用于当所述第三判断子单元确定不相同时，确定所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串不匹配；

第四确定子单元，用于当所述第三判断子单元确定相同时，确定所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串匹配。

11.一种信息抽取装置，其特征在于，包括：处理器及存储器；

所述存储器用于存储程序；

所述处理器用于执行所述程序，具体包括如下步骤：

获取目标页面的页面信息；

12.根据权利要求11所述的装置，其特征在于，所述处理器具体执行如下步骤：

将所述第一字符串序列与所述第二字符串序列中位置对应的若干对字符串分别进行匹配匹配；

13.根据权利要求12所述的装置，其特征在于，所述处理器还执行如下步骤：

14.根据权利要求12或13所述的装置，其特征在于，所述处理器具体执行如下步骤：

若相同，则确定所述第一字符串序列的第i个字符串与所述第二字符串序列的第i个字符串匹配；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-6任意一项所述的方法。