CN108228676B

CN108228676B - 信息抽取方法和系统

Info

Publication number: CN108228676B
Application number: CN201611200449.8A
Authority: CN
Inventors: 李阳; 张锋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2021-08-13
Anticipated expiration: 2036-12-22
Also published as: US20190243842A1; WO2018113532A1; CN108228676A; US11093520B2

Abstract

本发明涉及一种信息抽取方法，包括：获取待抽取文本；定义表达文本信息的节点的节点格式；根据所述节点格式对所述待抽取文本进行解析生成表达所述待抽取文本的文本信息的节点，通过所述节点组成队列；获取通过子节点生成父节点的节点合成规则；根据所述节点合成规则对所述队列中的所述节点进行合成生成父节点，根据所述父节点形成抽取信息。进一步提供一种信息抽取系统。通过定义表达文本信息的节点的节点格式与定义通过子节点生成父节点的节点合成规则，从而可通过将待抽取文本解析成以预定的节点格式表达文本信息的节点，并根据节点合成规则对节点进行运算以进行信息抽取，整个抽取实现逻辑易于理解，便于实时扩展，实现成本低。

Description

信息抽取方法和系统

技术领域

本发明涉及信息抽取领域，特别是涉及一种可适用于不同文本的信息抽取方法和系统。

背景技术

随着互联网技术的快速发展，Web已经发展成为一个巨大的、分布和共享的信息资源，但是目前Web数据大部分通过HTML形式出现，缺乏对数据本身的描述，不含清晰的语义信息，这使得应用程序无法直接解析并利用Web上的海量信息，为了增加Web数据的可用性，出现了Web信息抽取技术。目前常用信息抽取方式包括：

1、从半结构化的数据中挖掘形成结构化信息，如在垂直网站或者百科页面中，信息往往以规定结构展示，比如infobox和表格，因此只需简单配置一些基于dom树的抽取规则，即可抽取出精确的结构化信息，如从百科玄武门之变的页面中，可以抽取出“玄武门之变”事件的多元组信息（时间：626-7-2，地点：长安城，参与人：李世民、尉迟恭、李建成、李元吉，事件性质：政变夺权）；

2、通过制定正则表达式从文本中抽取信息，比如制定正则表达式“(\w+)(和|与| 同

)

(\w+)(在

(\d{4})年

)

(结婚|举办婚礼

)”从文本“刘某某和朱某某于 2008年6月23日结婚”中抽取多元组信息（人物：刘某某、朱某某，结婚时间：2008-6-23）；

3、通过标注语料训练信息抽取模型，如HMM,CRF和DNN等学习模型，通过抽取模型从文本中抽取信息。

然而，以上信息抽取方式仍存在以下技术问题：

1、从半结构化的数据中挖掘形成结构化信息,仅适用于半结构化数据的信息抽取，而网络上结构化数据不全，大部分信息蕴含在无结构文档中，适用范围有限；

2、通过制定正则表达式从文本中抽取信息，制定正则表达式无法覆盖复杂的语法结构，难以引入语法级别或者句法级别的信息，难以扩展、难以理解、难以维护；

3、通过标注语料训练信息抽取模型，标注大批量的训练语料需要耗费大量人工，费时费力。

相关技术中，对于上述问题，尚无有效解决方案。

发明内容

基于此，有必要提供一种通用性强、易于理解和扩展、成本低的信息抽取方法和系统。

一种信息抽取方法，包括：

获取待抽取文本；

定义表达文本信息的节点的节点格式；

根据所述节点格式对所述待抽取文本进行解析生成表达所述待抽取文本的文本信息的节点，通过所述节点组成队列；

获取通过子节点生成父节点的节点合成规则；

根据所述节点合成规则对所述队列中的所述节点进行合成生成父节点，根据所述父节点形成抽取信息。

一种信息抽取系统，包括：

获取模块，用于获取待抽取文本；

节点模块，用于定义表达文本信息的节点的节点格式；

解析模块，用于根据所述节点格式对所述待抽取文本进行解析生成表达所述待抽取文本的文本信息的节点，通过所述节点组成队列；

规则模块，用于获取通过子节点生成父节点的节点合成规则；

抽取模块，用于根据所述节点合成规则对所述队列中的所述节点进行合成生成父节点，根据所述父节点形成抽取信息。

上述信息抽取方法和系统，通过定义表达文本信息的节点的节点格式与定义通过子节点生成父节点的节点合成规则，从而可通过将待抽取文本解析成以预定的节点格式表达文本信息的节点，节点合成规则可以进行自定义，通过节点合成规则表达多个子节点与父节点之间的对应关系，从而根据节点合成规则可以将多个子节点表达的文本信息进行合成而得到包含总结性文本信息的父节点，通过父节点与子节点之间的对应关系逐步实现信息抽取的传递而获取最终的抽取信息，通过该信息抽取方法进行信息抽取不受限于待抽取文本中数据的结构，且节点合成规则可支持自定义及根据需求进行补充，整个抽取实现逻辑易于理解，便于实时扩展，也无需通过大量标注预料训练抽取模型，实现成本较低。

附图说明

图1为一实施例中信息抽取方法的系统架构图；

图2为一实施例中服务器的内部结构示意图；

图3为一实施例中信息抽取方法的流程图；

图4为第二实施例中信息抽取方法的流程图；

图5为第三实施例中信息抽取方法的流程图；

图6为第四实施例中信息抽取方法的流程图；

图7为第五实施例中信息抽取方法的流程图；

图8为第六实施例中信息抽取方法的流程图；

图9为第七实施例中信息抽取方法的流程图；

图10为第八实施例中信息抽取方法的流程图；

图11为第九实施例中信息抽取方法的流程图；

图12为第十实施例中信息抽取方法的流程图；

图13为第十一实施例中信息抽取方法的流程图；

图14为信息抽取方法中根据节点合成规则由子节点合成父节点，根据子节点与父节点对应关系形成信息树的示意图；

图15为另一实施例中信息抽取系统的结构示意图；

图16为第二实施例中信息抽取系统的结构示意图；

图17为第三实施例中信息抽取系统的结构示意图；

图18为第四实施例中信息抽取系统的结构示意图；

图19为第五实施例中信息抽取系统的结构示意图；

图20为第六实施例中信息抽取系统的结构示意图；

图21为第七实施例中信息抽取系统的结构示意图；

图22为第八实施例中信息抽取系统的结构示意图；

图23为第九实施例中信息抽取系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明实施例提供的信息抽取方法可应用于图1所示的系统中，如图1所示，终端100通过网络与服务器200进行通信，终端100用于接收用户输入的文本，并通过网络发送给服务器200。服务器200对文本进行抽取，形成抽取信息，以便于通过信息抽取获得抽取信息实现文档的规范化自动化管理，或者便于将文本及抽取信息的结果发送终端100进行显示。终端100可以为智能手机、平板电脑、个人数字助理（PDA）及个人计算机。服务器200可以为独立的物理服务器或者物理服务器集群。

图1中的服务器200的内部结构如图2所示，该服务器200包括通过系统总线链接的处理器、存储介质、内存和网络接口。其中，该服务器200的存储介质存储有操作系统、数据库和一种信息抽取系统。数据库用于存储数据如用于信息抽取的节点格式、节点合成规则等。该服务器200的处理器用于提供计算和控制能力，支撑整个接入服务器200的运行。该服务器200的内存为存储介质中的信息抽取系统的运行提供环境。该服务器200的网络接口用于与外部的终端100通过网络连接通信，比如接收终端100发送的待抽取文本等。

如图3所示，为本申请一实施例提供的一种信息抽取方法，该方法可应用于图2所示的服务器中，具体包括如下步骤。

步骤101，获取待抽取文本。

其中待抽取文本可以为由文字组成的任意文本数据，可以为半结构化web数据或者无结构的文本数据。其中，获取待抽取文本包括获取指定应用程序中显示的文本数据，如指定网站发布的文本数据、指定信息发布平台发布的文本数据等。

步骤103，定义表达文本信息的节点的节点格式。

定义节点作为表达文本信息的基本单元。其中每一节点具有统一的节点格式，通过以相同的节点格式将文本信息进行分组，每一相同节点格式的节点内附带有文本信息，并对节点内所包含的文本信息进行统一规则的标识，可便于对文本信息设置运算规则进行处理，以实现对文本信息的抽取。

步骤105，根据节点格式对待抽取文本进行解析生成表达待抽取文本的文本信息的节点，通过节点组成队列。

将待抽取文本解析成附带有文本信息的预设格式的节点进行表达。通常将待抽取文本以句子为单位进行解析，将每个句子解析成通过多个节点表达文本信息的形式，并对应组成一个队列。

步骤107，获取通过子节点生成父节点的节点合成规则。

节点合成规则是指通过运算规则对节点进行处理，根据运算规则将多个节点所表达的文本信息进行合成形成新节点，该多个节点分别为子节点，所形成的新节点对应为父节点，父节点包含该多个节点所包含文本信息的总结性文本信息。每一节点合成规则包含一组父节点与子节点之间的对应关系。获取节点合成规则具体可通过提供抽取器接口实现，通过抽取器接口供用户自定义节点合成规则，如针对不同待抽取文本需扩展节点合成规则，只需定义一个类实现该抽取器接口即可。优选的，通过该抽取器接口还可以获取待抽取文本作为参数，根据节点合成规则生成所需抽取结果。

步骤109，根据节点合成规则对队列中的节点进行合成生成父节点，根据父节点形成抽取信息。

将队列中的节点与节点合成规则依次进行匹配，根据匹配的结果将对应的节点按照节点合成规则进行合成生成父节点。每一父节点包含根据至少一条节点合成规则将子节点所包含的文本信息进行合成得到的总结性文本信息，根据一条节点合成规则所生成的父节点可以作为另一节点合成规则中的子节点，从而可通过定义不同的节点合成规则，通过父节点与子节点之间的对应关系逐步实现信息抽取的传递，如此可实现对待抽取文本的抽取获得相应抽取信息。根据附带文本信息的节点之间的传递关系可形成包含待抽取文本的文本信息及抽取结果的信息树，其中最终的抽取信息存储在信息树顶端的父节点中，该信息树顶端的父节点为根节点。

以上实施例所提供信息抽取方法，通过定义表达文本信息的节点的节点格式与定义通过子节点生成父节点的节点合成规则，从而可通过将待抽取文本解析成以预定的节点格式表达文本信息的节点，节点合成规则可以根据预抽取信息结果进行自定义，通过节点合成规则表达多个子节点与父节点之间的对应关系，从而根据节点合成规则可以将子节点表达的文本信息进行合成而得到包含总结性文本信息的父节点，通过父节点与子节点之间的对应关系逐步实现信息抽取的传递而获取最终的抽取信息，通过该信息抽取方法进行信息抽取不受限于待抽取文本中数据的结构，且节点合成规则可支持自定义及根据个别特殊复杂文本的需求进行补充，整个抽取实现逻辑易于理解，便于实时扩展，也无需通过大量标注预料训练抽取模型，实现成本较低。

请参阅图4，为本申请第二实施例所提供的信息抽取方法，步骤103，定义表达文本信息的节点的节点格式包括：

步骤1031，设置自定义节点，自定义节点的节点格式为每一自定义节点以第一标识符号进行标识，每一自定义节点的节点内容包括节点名和通过文本信息属性与文本信息属性值的对应关系表达的文本信息，文本信息属性与对应的文本信息属性值之间的对应关系通过第二标识符号进行标识，每一文本信息属性值通过第三标识符号进行标识。

每一自定义节点以第一标识符号进行标识，从而通过该第一标识符号可以区分分隔不同自定义节点。每一自定义节点所附带文本信息通过文本信息属性与文本信息属性值的对应关系进行表达。其中，文本信息属性与对应的文本信息属性值之间的对应关系通过第二标识符号进行标识，从而通过该第二标识符号可以分隔节点内容内所包含的不同文本信息。每一文本信息属性值通过第三标识符号进行标识，从而通过第三标识符号可以区分文本信息属性与文本信息属性值。其中，每一自定义节点的节点内容可包含由多个文本信息属性与文本信息属性值的对应关系表达的文本信息，不同文本信息属性与文本信息属性值的对应关系之间通常以预设符号分隔，优选的，该预设符号为空格，同时节点名优选为不包含空格的任意字符串。

在一具体实施例中，第一标识符号为尖括号（<>），即每个自定义节点用尖括号括起，第二标识符号为等号（=），即每一文本信息属性与对应的文本信息属性值之间通过等号连接，第三标识符号为双引号（“”），即每一文本信息属性值通过双引号括起，则节点名为A的节点表达形式为：<A attr1=”value1”>, A为节点名，attr1为文本信息属性，value1为文本信息属性值。优选的，每一文本信息属性与文本信息属性值的对应关系中，当只包含属性名而未写文本信息属性值的，则文本信息属性值默认为真“true”。如，节点名为event的节点表达形式为：<event root>，event为节点名，root为文本信息属性，文本信息属性值为“true”。

通过设置节点的节点格式，其中节点格式中节点内容包括节点名和通过文本信息属性与文本信息属性值的对应关系表达的文本信息，该文本信息的表达格式接近一般思维理解方式，易于理解，方便通过设置的节点格式将文本信息解析成节点进行表达，文本信息属性与文本信息属性值表达文本信息方式引入词性信息，可便于后续借助词性信息对文本信息设置抽取的规则。

请参阅图5，为本申请第三实施例所提供的信息抽取方法，步骤1031，设置自定义节点的步骤包括：

步骤1032，设置表达时间、地址、人物相关的文本信息的节点为内置节点；

步骤1033，设置表达事件类型相关的文本信息的节点为消息节点。

自定义节点包括内置节点与消息节点。其中内置节点通常包括信息抽取结果中包含的常用文本信息，具体为时间、地址、人物三类实体，从而分别设置表达时间、地址、人物相关的文本信息的节点为内置节点。具体的，设置附带时间相关文本信息的节点为时间内置节点，如<time>，其中time 为时间内置节点的节点名，附带地址文本信息的节点为地址内置节点，如<location>，其中location为该地址内置节点的节点名，附带人物文本信息的节点为人物内置节点，如<people>，其中people为人物内置节点的节点名。由于时间、地址、人物通常是信息抽取的结果中必要显示的信息，通过设置表达时间、地址、人物相关的文本信息的节点为内置节点，可以自动识别待抽取文本中包含时间、地址、人物相关的文本信息并对应解析生成时间内置节点、地址内置节点及人物内置节点。

消息节点通常包括事件类型相关的文本信息。通过设置消息节点，可以自动识别待抽取文本中包含的事件类型相关的文本信息并对应解析生成消息节点。消息节点的节点名为消息，如<word>，其中word为消息节点的节点名，消息节点为待抽取文本的初始解析节点，表达解析事件类型的描述相关的文本信息生成的节点。通过节点形成消息树表达待抽取文本的信息抽取过程，消息树由子节点与父节点之间的映射关系组成，其中一部分节点同时为树中不同层级中的子节点和父节点，位于消息树顶端的父节点不作为任意节点的子节点，为根节点，位于消息树底端的子节点不作为任意节点的父节点，为叶子节点。消息节点即为叶子节点。

通过设置自定义节点的类型包括包括内置节点与消息节点，可实现将待抽取文本所包含文本信息解析生成通过由节点表达文本信息的节点队列，从而可通过对节点进行预设语法规则的运算对其所附带文本信息进行抽取。

优选的，请参阅图6，为本申请第四实施例所提供的信息抽取方法，步骤103，定义表达文本信息的节点的节点格式包括：

步骤1034，设置文本信息属性与文本信息属性值的类型，文本信息属性包括原始字符串、规整后字符串及词性标记，原始字符串对应的文本信息属性值为原始文本，规整后字符串对应的文本信息属性值为将原始文本以预设格式转换后的文本，词性标记对应的文本信息属性值为用于分别标识不同原始文本词性的预设字符。

将附带不同文本信息的节点的文本信息属性进行预定义，设置文本信息属性与文本信息属性值的类型，文本信息属性主要包括原始字符串、规整后字符串及词性标记。其中原始字符串表示对应的文本信息属性值为待抽取文本中的原始文本，如<people original=“刘某某”>，其中用original表示文本信息属性为原始字符串，其对应的文本信息属性值为待抽取文本中的原始文本“刘某某”。规整后字符串表示对应的文本信息属性值为待抽取文本中的原始文本以预设格式转换后的文本，如<time text=“2003-06-23”>，其中用text表示文本信息属性为规整后字符串，其对应的文本信息属性值为待抽取文本中的原始文本“2008年6月23日”转换后的文本“2003-06-23”。词性标记为待抽取文本中的不同原始文本的词性，其对应的文本信息属性值为区分不同词性的预设字符，如<word pos="cc">，其中用pos表示文本信息属性为词性标记，其对应的文本信息属性值为预设字符cc，用于表示该节点所附带文本信息的词性为cc。其中预设字符的设置主要是便于记忆和区别词性，其具体的字符位数及设置规则可以任意设置。通过设置文本信息属性包括原始字符串、规整后字符串及词性标记，可以将待抽取文本解析生成节点的过程中，根据各节点所附带的文本信息的对应属性进行标识，以用于在节点合成规则中通过统一的文本信息属性定义节点合成的运算条件。

优选的，请参阅图7，为本申请第五实施例所提供的信息抽取方法，步骤103，定义表达文本信息的节点的节点格式包括：

步骤1035，设置文本信息属性，文本信息属性包括可空属性。可空属性对应的文本信息属性值通常为真“true”,且可空属性对应的文本信息属性值通常不写由默认的方式表达，通过文本信息属性为可空属性表达对应的节点可以为空，即为可空节点。在一具体的实施例中，可空属性用orEmpty表示，如<and orEmpty>，其中节点名为and的节点为可空节点。通过可空节点的设置，可用于在节点合成规则中通过可空节点表达对应节点内所附带的文本信息可以省略。

优选的，请参阅图8，为本申请第六实施例所提供的信息抽取方法，步骤103，定义表达文本信息的节点的节点格式包括：

步骤1036，设置文本信息属性与文本信息属性值的类型，文本信息属性包括过滤属性，过滤属性对应的文本信息属性值为过滤条件。过滤属性对应的文本信息属性值为具体过滤条件包含的内容，通过过滤属性与其对应的文本信息属性值表达的过滤关系包括相等或不相等，文本信息属性为过滤属性的节点为过滤节点。在一具体的实施例中，过滤属性的属性名用$pos表示，关系相等用（=）表示，关系不相等用（!=），如、<C $pos!=”adj”>,其中节点名为B、节点名为C的节点均为过滤节点，表示节点的词性标记的文本信息属性值必须为nr，节点<C>的词性标记的文本信息属性值不能为adj。通过过滤节点的设置，可用于在节点合成规则中通过过滤节点表达对应节点内所附带的文本信息的必须相同或者不相同，以实现不同条件匹配。

可以理解的，一个节点可以定义多个过滤属性，多个过滤条件之间的关系可以为“且”或者“或”的关系。

优选的，步骤103，定义表达文本信息的节点的节点格式包括：

设置文本信息属性，文本信息属性包括根节点属性。根节点属性对应的文本信息属性值通常为真“true”,且根节点属性对应的文本信息属性值通常不写而由默认的方式表达，通过文本信息属性为根节点属性表达对应的节点为根节点。在一具体的实施例中，根节点属性用root表示，如<marry root>，其中节点名为marry的节点为根节点。通过根节点的设置，用于在节点合成规则中通过根节点表达对应节点内所附带的文本信息为最终的抽取信息。

设置文本信息属性，文本信息属性包括优先级属性。优先级属性对应的文本信息属性值通常为数值。通过优先级属性及其对应的文本信息属性值表达对应节点所在节点合成规则的优先级顺序。在一具体的实施例中，优先权属性用level表示，如<level=“1”>，通常，优先级可从1到10依次降低，当通过节点合成规则将多个子节点生成父节点的过程中，如果同时命中多条节点合成规则，则优先执行优先级别更高的节点合成规则。

优选的，步骤1031，设置自定义节点的步骤包括：

设置表达待抽取文本开始的节点为开始节点；

设置表达待抽取文本结尾的节点为结束节点。

通常将待抽取文本以句子为单位进行解析，将每个句子解析成通过多个节点表达文本信息的形式，并对应组成一个队列。其中，开始节点对应位于一个句子所形成的节点队列的头部，结束节点则对应位于一个句子所形成的节点队列的尾部。当待抽取文本包含多个句子或段落时，可将待抽取文本按照句子或者段落为单元进行解析生成节点队列，可通过开始节点和结束节点划分段落。

优选的，请参阅图9，为本申请第七实施例所提供的信息抽取方法，步骤103，定义表达文本信息的节点的节点格式的步骤包括：

步骤1039，设置文本节点，文本节点的节点格式为直接显示原始文本表达文本信息。

其中文本节点是指将原始文本直接显示在待抽取文本解析生成的节点列表中。文本节点与自定义节点不同，不需要设置标识符号进行区分，如待抽取文本中包含“的”，以直接通过文本节点“的”显示在该待抽取文本解析生成的节点队列中，其中，根据前述消息节点及文本信息属性中原始字符串的定义，文本节点也可等价于文本信息属性值为原始文本的消息节点，在一具体的实施例中，文本节点“的”等价于消息节点<word text=“的”>。文本节点的含义为文本自身，不附带其它文本信息属性。文本节点的设置，可简化待抽取文本解析形成节点队列时部分节点的表达形成，使得解析后通过节点表达文本信息时更加易于理解。

优选的，请参阅图10，为本申请第八实施例所提供的信息抽取方法，节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息，步骤107，获取通过子节点生成父节点的节点合成规则的步骤包括：

步骤1071，获取复制指定子节点的文本信息属性值作为父节点的文本信息属性值的复制合成规则。

其中，每一节点合成规则中包含的父节点与子节点之间通过预设的第四标识符号进行标识。每一节点合成规则中，父节点位于第四标识符号的左边，子节点位于第四标识符号的右边，通过第四标识符号将节点合成规则分割成左右两个部分。在一具体的实施例中，第四标识符号为（:=）,如<A> := <C> <D>，表示三个子节点 <C> <D>合成父节点<A>的节点合成规则。

复制合成规则是指复制指定子节点的文本信息属性值作为父节点的文本信息属性值，以完成对子节点所附带文本信息的抽取形成父节点。其中，复制合成规则中的父节点的文本信息属性值以预设的第五标识符号进行表示，在一具体的实施例中，第五标识符号为$+数字，其中数字则表示复制与该数字对应的子节点的文本信息属性值，如<A attr1=”$1”> := <C> <D>，表示通过复制合成规则通过子节点 <C> <D>合成父节点<A>，第五标识符号$1表示把右边的节点中的第一个子节点，即节点的文本信息属性值作为节点<A>的文本信息属性为attr1的文本信息属性值。

优选的，请参阅图11，为本申请第九实施例所提供的信息抽取方法，节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息，步骤107，获取通过子节点生成父节点的节点合成规则的步骤包括：

步骤1072，获取选取多个子节点的文本信息属性值合并生成父节点的文本信息属性值的合并合成规则。

合并合成规则是指合并指定多个子节点的文本信息属性值作为父节点的文本信息属性值，以完成对子节点所附带文本信息的抽取形成父节点。其中，合并合成规则中的父节点的文本信息属性值以预设的第六标识符号进行表示，在一具体的实施例中，第六标识符号为$join+索引列表，其中索引列表中包含通过预设标识符号进行分隔多个数字，数字表示合并与该多个数字对应的子节点的文本信息属性值。如<A attr1=”$join 1,3 ”> := <and> <C>，表示通过合并合成规则通过子节点 <and> <C>合成父节点<A>，第六标识符号$join 1,3表示把第一个子节点与第三个子节点，即子节点、<C>的文本信息属性值合并作为节点<A>的文本信息属性为attr1的文本信息属性值。当索引列表中未包含数字，即未指明待合并的子节点时，则默认为所有子节点；其中也可用指定的标识符号表示待合并的子节点为所有子节点，在一具体的实施例中该指定的标识符号为下划线（_）；其中，该索引列表中用于分隔多个数字的预设标识符号同时也表示对应合并的子节点的文本信息属性值合成父节点的文本信息属性值时的分隔符号；其中，该索引列表页可用指定的标识符号表示待合并子节点的文本信息属性值合成父节点的文本信息属性值时不包含分隔符，在一具体的实施例中，该指定的标识符号为\empty。

优选的，请参阅图12，为本申请第十实施例所提供的信息抽取方法，节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息，步骤107，获取通过子节点生成父节点的节点合成规则的步骤包括：

步骤1073，获取选取所有子节点的指定文本信息属性的文本信息属性值生成父节点的文本信息属性值的收集合成规则。

其中，所有子节点包括该节点合成规则中所生成父节点的子节点以及子节点的子节点。收集合成规则是指收集所有子节点的指定文本信息属性的文本信息属性值作为父节点的文本信息属性值，以完成对子节点所附带文本信息的抽取形成父节点。收集合成规则中的父节点的文本信息属性以预设的第七标识符号进行表示，该文本信息属性的文本信息属性值为子节点的文本信息属性。通过收集合成原则完成对子节点所附带文本信息的抽取形成的父节点的收集结果为一个映射表，其中映射表包含所有子节点的收集的文本信息属性及对应的文本信息属性值的映射关系。在一具体的实施例中，第七标识符号为collect。如

:= <C role=”participator” text=”jack”> <and> <D role=”participator” text=”lucy”>

其中父节点为由子节点<C>和子节点<D>生成，节点<A>表示通过收集合成原则通过所有子节点的文本信息属性为role对应的文本信息属性值生成父节点<A>。父节点<A>的收集结果为：

role.participator = [jack,lucy]

role.time = [1984-11-25]

上述实施例中节点合成规则所包含的复制合成规则、合并合成规则以及收集合成规则，分别通过父节点的属性值的定义实现节点合成规则的定义。定义通过子节点生成父节点的节点合成规则，父节点会根据子节点的信息生成自己新的信息，其中父节点可作为其它节点合成规则中的子节点，从而可实现由子节点所附带文本信息的向上传递，最终把结果汇总到最顶端的父节点中。如此可将待抽取文本的句子分别解析成附带信息的信息树，位于最顶端的父节点为根节点，最终的抽取信息则形成在根节点中。

优选的，请参阅图13，为本申请第十一实施例所提供的信息抽取方法，步骤109，根据节点合成规则对队列中的节点进行合成生成父节点，根据父节点形成抽取信息的步骤包括：

步骤1091，判断队列是否为空；

步骤1093，当队列不为空时，将队列头部的节点存储至数据库中形成待抽取节点；

步骤1095，将数据库中的待抽取节点与节点合成规则进行匹配，当待抽取节点与节点合成规则匹配时，将待抽取节点按照节点合成规则进行合成生成父节点，并返回判断队列是否为空的步骤；

步骤1097，当队列为空时，根据数据库中的父节点形成抽取信息。

通过将待抽取文本解析生成的节点队列中的节点依序加入数据库中，以数据库中包含的节点作为节点合成规则匹配的对象，可实现信息抽取的逐步向上传递原则。

优选的，该数据库为栈，步骤1091，判断队列是否为空之前，还包括：

步骤1090，初始化栈。

以数据库为栈为例，对信息抽取的逐步向上传递原则的具体实施例描述如下，初始化后栈为stack=[]，节点队列为queue=[word1,word2,...]；检查节点队列queue是否为空，当不为空时，弹出节点队列queue的头部元素，压入栈stack中，按照节点合成规则的优先级，依次判断栈中的元素是否符合对应的节点合成规则。具体判断方法为，将栈头项与节点合成规则的最后一项进行匹配，判断节点名与过滤条件是否同时匹配，若匹配，或者当前节点为可空节点，则继续对栈的前一项进行匹配，如节点合成规则的右边节点全部匹配，则匹配成功，根据该节点合成规则把栈中的对应项合成新节点，从栈中删除对应项，并把新节点压入栈中，新节点名由节点合成规则的左边节点定义，同时根据该节点合成规则定义的信息传递规则生成新节点的文本信息属性值；当节点队列queue为空，则抽取栈中根节点所包含的文本信息属性及文本信息属性值形成抽取结果，其中该根节点即为信息树种最顶端的父节点。可以理解的，针对待抽取文本包含文本信息相对较少时，可能存在通过一条节点合成规则实现待抽取文本的信息抽取，则根据该一条节点合成规则所生成父节点所附带文本信息形成抽取信息。

以待抽取文本为“刘某某和朱某某于2008年6月23日结婚”为例，通过以上实施例提供的信息抽取方法形成抽取信息的过程具体如下所述。

通过定义表达文本信息的节点格式如以上实施例所述，对该待抽取文本进行解析生成节点队列为：<begin> <people pos="nr" text="刘某某" orginal="刘某某"> <wordpos="cc" text="和" orginal="和"> <people pos="nr" text="朱某某" orginal="朱某某"> <word pos="p" text="于" orginal="于"> <time pos="time" text="2008-6-23"orginal="2008年6月23日"> <word pos="vi" text="结婚" orginal="结婚"> <end>

根据该待抽取文本定义节点合成规则包括：

<marry root collect="role"> := <people role="couple"> <and> <peoplerole="couple"> <atTime orEmpty role="marryTime"> 结婚

<and> := 和

<and> := 与

<at> := 在

<at> := 于

请参阅图14，对该待抽取文本形成抽取信息，根据节点合成规则对队列中的节点进行合成生成父节点，根据父节点形成抽取信息的过程可通过树结构表示，树中相邻两层子节点与父节点之间的对应关系分别与对应的节点合成规则匹配，具体匹配过程如下表格所示（其中，队列queue中节点省略文本信息属性表示，栈stack中节点省略子节点表示）。

以上实施例所提供的信息抽取方法，其中节点合成规则的定义是建立在文本信息传递的原则上，通过节点合成规则对节点进行信息抽取脉络清晰，通过定义节点格式及节点合成规则的语法格式接近一般思维理解方式，因此编写自定义规则更加容易，易于理解；其中信息抽取实现过程中，节点合成规则的扩展只需增加新的规则即可，无需修改之前的规则，各节点合成规则之间的耦合低，同时支持抽取器接口获取自定义节点合成规则，从而易于扩展；各节点合成规则之间可以通过标记相互引用，无需重复编写，可把通用性较强的节点合成规则抽取到所需文件中，易于管理，支持重用；该节点合成规则中节点所附带文本信息通过文本信息属性与文本信息属性值的对应关系进行表达，可使用词性信息，并支持自定义文本信息属性和基于文本信息属性进行节点运算的节点合成规则，节点合成规则支持递归定义，增加了所述信息抽取方法的泛化能力；实现信息抽取无需大批量的训练语料，成本较低。

请参阅图15，在另一个实施例中，提供了一种信息抽取系统，包括获取模块11、节点模块13、解析模块15、规则模块17及抽取模块19，其中，获取模块11用于获取待抽取文本。节点模块13用于定义表达文本信息的节点的节点格式。解析模块15用于根据节点格式对待抽取文本进行解析生成表达待抽取文本的文本信息的节点，通过节点组成队列。规则模块17用于获取通过子节点生成父节点的节点合成规则。抽取模块19用于根据节点合成规则对队列中的节点进行合成生成父节点，根据父节点形成抽取信息。

优选的，请参阅图16，为第二实施例所提供的信息抽取系统，所述节点模块13包括自定义节点单元131。自定义节点单元131用于设置自定义节点，自定义节点的节点格式为每一自定义节点以第一标识符号进行标识，每一自定义节点的节点内容包括节点名和通过文本信息属性与文本信息属性值的对应关系表达的文本信息，文本信息属性与对应的文本信息属性值之间的对应关系通过第二标识符号进行标识，每一文本信息属性值通过第三标识符号进行标识。

优选的，请参阅图17，为第三实施例所提供的信息抽取系统，自定义节点单元131包括内置节点单元132及消息节点单元133。内置节点单元132用于设置表达时间、地址、人物相关的文本信息的节点为内置节点。消息节点单元133用于设置表达事件类型相关的文本信息的节点为消息节点。

优选的，请参阅图18，为第四实施例所提供的信息抽取系统，节点模块13包括属性单元134。属性单元134用于设置文本信息属性与文本信息属性值的类型，文本信息属性包括原始字符串、规整后字符串及词性标记，原始字符串对应的文本信息属性值为原始文本，规整后字符串对应的文本信息属性值为将原始文本以预设格式转换后的文本，词性标记对应的文本信息属性值为用于分别标识不同原始文本词性的预设字符。

优选的，节点模块13包括属性单元134。属性单元134用于设置文本信息属性，文本信息属性包括可空属性。

优选的，节点模块13包括属性单元134。属性单元用于设置文本信息属性与文本信息属性值的类型，文本信息属性包括过滤属性，过滤属性对应的文本信息属性值为过滤条件。

优选的，请参阅图19，为第五实施例所提供的信息抽取系统，节点模块13包括文本节点单元135。文本节点单元135用于设置文本节点，文本节点的节点格式为直接显示原始文本表达文本信息。

优选的，请参阅图20，为第六实施例所提供的信息抽取系统，规则模块17包括复制合成规则单元171。节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息。复制合成规则单元用于获取复制指定子节点的文本信息属性值作为父节点的文本信息属性值的复制合成规则。

优选的，请参阅图21，为第七实施例所提供的信息抽取系统，规则模块17包括合并合成规则单元172。节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息。合并合成规则单元用于获取选取多个子节点的文本信息属性值合并生成父节点的文本信息属性值的合并合成规则。

优选的，请参阅图22，为第八实施例所提供的信息抽取系统，规则模块17包括收集合成规则单元173。节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息。收集合成规则单元用于获取选取所有子节点的指定文本信息属性的文本信息属性值生成父节点的文本信息属性值的收集合成规则。

优选的，请参阅图23，为第九实施例所提供的信息抽取系统，抽取模块19包括判断单元191、存储单元193、匹配单元195及抽取单元197。判断单元191用于判断队列是否为空。存储单元193用于当队列不为空时，将队列头部的节点存储至数据库中形成待抽取节点。匹配单元195用于将数据库中的待抽取节点与节点合成规则进行匹配，当待抽取节点与节点合成规则匹配时，将待抽取节点按照节点合成规则进行合成生成父节点，并返回判断队列是否为空的步骤。抽取单元197用于当队列为空时，根据数据库中的父节点形成抽取信息。

以上实施例所提供的信息抽取系统，其中节点合成规则的定义是建立在文本信息传递的原则上，节点合成规则定义脉络清晰，易于理解；其中信息抽取实现过程中，节点合成规则的扩展只需增加新的规则即可，无需修改之前的规则，各节点合成规则之间低耦合，同时支持抽取器接口获取自定义节点合成规则，从而易于扩展；各节点合成规则之间可以通过标记相互引用，无需重复编写，可把通用性较强的节点合成规则抽取到所需文件中，易于管理，支持重用；该节点合成规则中节点所附带文本信息通过文本信息属性与文本信息属性值的对应关系进行表达，可使用词性信息，并支持自定义文本信息属性和基于文本信息属性的节点合成规则，节点合成规则支持递归定义，增加了信息抽取方法的泛化能力；实现信息抽取无需大批量的训练语料，成本较低。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所述实施例仅库达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种信息抽取方法，其特征在于，所述方法包括：

获取待抽取文本；

设置自定义节点，所述自定义节点的节点格式为每一自定义节点以第一标识符号进行标识，每一自定义节点的节点内容包括节点名和通过文本信息属性与文本信息属性值的对应关系表达的文本信息，所述文本信息属性与对应的文本信息属性值之间的对应关系通过第二标识符号进行标识，每一文本信息属性值通过第三标识符号进行标识；

获取通过子节点生成父节点的节点合成规则；所述节点合成规则包括将多个节点所表达的文本信息进行合成形成新节点，以形成子节点和父节点对应关系的运算规则；

2.如权利要求1所述的信息抽取方法，其特征在于：所述方法还包括：

设置表达时间、地址、人物相关的文本信息的节点为内置节点；

设置表达事件类型相关的文本信息的节点为消息节点。

3.如权利要求1所述的信息抽取方法，其特征在于：所述方法还包括：

设置文本信息属性与文本信息属性值的类型，所述文本信息属性包括原始字符串、规整后字符串及词性标记，所述原始字符串对应的文本信息属性值为原始文本，所述规整后字符串对应的文本信息属性值为将原始文本以预设格式转换后的文本，所述词性标记对应的文本信息属性值为用于分别标识不同原始文本词性的预设字符。

4.如权利要求1所述的信息抽取方法，其特征在于：所述方法还包括：

设置文本信息属性，所述文本信息属性包括可空属性。

5.如权利要求1所述的信息抽取方法，其特征在于：所述方法还包括：

设置文本信息属性与文本信息属性值的类型，所述文本信息属性包括过滤属性，过滤属性对应的文本信息属性值为过滤条件。

6.如权利要求1所述的信息抽取方法，其特征在于：所述方法还包括：

设置文本节点，所述文本节点的节点格式为直接显示原始文本表达文本信息。

7.如权利要求1所述的信息抽取方法，其特征在于：所述节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息，所述获取通过子节点生成父节点的节点合成规则的步骤包括：

获取复制指定子节点的文本信息属性值作为父节点的文本信息属性值的复制合成规则。

8.如权利要求1所述的信息抽取方法，其特征在于：所述节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息，所述获取通过子节点生成父节点的节点合成规则的步骤包括：

获取选取多个子节点的文本信息属性值合并生成父节点的文本信息属性值的合并合成规则。

9.如权利要求1所述的信息抽取方法，其特征在于：所述节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息，所述获取通过子节点生成父节点的节点合成规则的步骤包括：

获取选取所有子节点的指定文本信息属性的文本信息属性值生成父节点的文本信息属性值的收集合成规则。

10.如权利要求1所述的信息抽取方法，其特征在于：所述根据所述节点合成规则对所述队列中的所述节点进行合成生成父节点，根据所述父节点形成抽取信息的步骤包括：

判断所述队列是否为空；

当所述队列不为空时，将所述队列头部的节点存储至数据库中形成待抽取节点；

将所述数据库中的待抽取节点与所述节点合成规则进行匹配，当所述待抽取节点与所述节点合成规则匹配时，将所述待抽取节点按照所述节点合成规则进行合成生成父节点，并返回所述判断所述队列是否为空的步骤；

当所述队列为空时，根据所述数据库中的所述父节点形成抽取信息。

11.一种信息抽取系统，其特征在于，所述系统包括：

获取模块，用于获取待抽取文本；

节点模块，所述节点模块包括自定义节点单元，用于设置自定义节点，自定义节点的节点格式为每一自定义节点以第一标识符号进行标识，每一自定义节点的节点内容包括节点名和通过文本信息属性与文本信息属性值的对应关系表达的文本信息，所述文本信息属性与对应的文本信息属性值之间的对应关系通过第二标识符号进行标识，每一文本信息属性值通过第三标识符号进行标识；

规则模块，用于获取通过子节点生成父节点的节点合成规则；所述节点合成规则包括将多个节点所表达的文本信息进行合成形成新节点，以形成子节点和父节点对应关系的运算规则；

12.如权利要求11所述的信息抽取系统，其特征在于：所述自定义节点单元包括：

内置节点单元，用于设置表达时间、地址、人物相关的文本信息的节点为内置节点；

消息节点单元，用于设置表达事件类型相关的文本信息的节点为消息节点。

13.如权利要求11所述的信息抽取系统，其特征在于：所述节点模块包括：

属性单元，用于设置文本信息属性与文本信息属性值的类型，所述文本信息属性包括原始字符串、规整后字符串及词性标记，所述原始字符串对应的文本信息属性值为原始文本，所述规整后字符串对应的文本信息属性值为将原始文本以预设格式转换后的文本，所述词性标记对应的文本信息属性值为用于分别标识不同原始文本词性的预设字符。

14.如权利要求11所述的信息抽取系统，其特征在于：所述节点模块包括：

属性单元，用于设置文本信息属性，所述文本信息属性包括可空属性。

15.如权利要求11所述的信息抽取系统，其特征在于：所述节点模块包括：

属性单元，用于设置文本信息属性与文本信息属性值的类型，所述文本信息属性包括过滤属性，过滤属性对应的文本信息属性值为过滤条件。

16.如权利要求11所述的信息抽取系统，其特征在于：所述节点模块包括：文本节点单元，用于设置文本节点，所述文本节点的节点格式为直接显示原始文本表达文本信息。

17.如权利要求11所述的信息抽取系统，其特征在于：所述节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息，所述规则模块包括：

复制合成规则单元，用于获取复制指定子节点的文本信息属性值作为父节点的文本信息属性值的复制合成规则。

18.如权利要求11所述的信息抽取系统，其特征在于：所述节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息，所述规则模块包括：

合并合成规则单元，用于获取选取多个子节点的文本信息属性值合并生成父节点的文本信息属性值的合并合成规则。

19.如权利要求11所述的信息抽取系统，其特征在于：所述节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息，所述规则模块包括：

收集合成规则单元，用于获取选取所有子节点的指定文本信息属性的文本信息属性值生成父节点的文本信息属性值的收集合成规则。

20.如权利要求11所述的信息抽取系统，其特征在于：所述抽取模块包括：

判断单元，用于判断所述队列是否为空；

存储单元，用于当所述队列不为空时，将所述队列头部的节点存储至数据库中形成待抽取节点；

匹配单元，用于将所述数据库中的待抽取节点与所述节点合成规则进行匹配，当所述待抽取节点与所述节点合成规则匹配时，将所述待抽取节点按照所述节点合成规则进行合成生成父节点，并返回所述判断所述队列是否为空的步骤；

抽取单元，用于当所述队列为空时，根据所述数据库中的所述父节点形成抽取信息。

21.一种服务器，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。