CN112395860A

CN112395860A - 一种大规模并行政策数据知识抽取方法及系统

Info

Publication number: CN112395860A
Application number: CN202011354524.2A
Authority: CN
Inventors: 李钊; 卢凤; 陈通; 王瑞霜; 胡传会; 魏静
Original assignee: Shandong Ecloud Information Technology Co ltd; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Ecloud Information Technology Co ltd; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-23

Abstract

本发明提供了一种大规模并行政策数据知识抽取方法及系统，本发明通过对政策数据进行正文内容解析，获得政策正文数据列表，分别进行政策发文机构、发布日期知识抽取、政策申报截止日期知识抽取以及政策事件知识抽取，从而实现政策数据的知识抽取。本发明实现依存句法分析模型预加载，达到模型加载一次，多次使用的效果，提高知识抽取的效率，无需使用人工对知识进行抽取，节省人力成本，提高效率，适用于信息量巨大的网络信息获取。

Description

一种大规模并行政策数据知识抽取方法及系统

技术领域

本发明涉及知识抽取领域，特别是一种大规模并行政策数据知识抽取方法及系统。

背景技术

随着互联网技术的迅速发展，网络上信息资源的不断增加，人们对信息获取的准确度也有着更高的要求。在信息量巨大的网络中，检索到符合用户预期的结果信息是亟待解决的问题，为了让用户更精准更快速的获取到自己想要的政策信息，这就需要构建政策知识图谱，基于政策知识图谱建立自动问答系统。而构建政策知识图谱，需要先有知识，而现有技术中缺少快速准确的知识获取方法。

发明内容

本发明的目的是提供一种大规模并行政策数据知识抽取方法及系统，旨在解决现有技术中缺少从网络中快速获取政策知识信息的问题，实现提高知识抽取的效率及准确度。

为达到上述技术目的，本发明提供了一种大规模并行政策数据知识抽取方法，所述方法包括以下操作：

采集政策信息数据，对政策信息数据进行正文内容解析，生成政策正文数据列表；

对政策正文数据列表进行倒序遍历，根据当前列表元素与下一列表元素的内容，判断是否为发布日期，进行发布日期知识抽取；

对发布日期后的列表元素，根据列表元素是否含有发文机构关键词作为结尾，进行发文机构知识抽取；

根据截止日期规则对政策正文数据列表进行截止日期知识抽取；

对政策标题通过依存句法分析模型进行分析，根据得到的依存句法分析结果进行政策事件知识抽取。

优选地，所述当前列表元素为日期且下一列表元素含有发文机构关键词作为结尾，则当前列表元素为发布日期。

优选地，所述根据得到的依存句法分析结果进行政策事件知识抽取具体为：

根据得到的依存句法分析结果，获取标题中的谓词及其索引，判断谓词索引的位置，如果谓词索引位置大于等于句子长度的1/4，则对标题句子进行处理，否则不处理；对获取的标题句子进行分析，获取谓词、主语、谓词修饰语以及宾语，并根据分析结果抽取事件：

如果宾语的长度大于4，则事件为宾语；否则如果谓词修饰语与宾语拼接后的长度大于4，则事件为谓词修饰语与宾语拼接后的结果；否则如果主语的长度大于4，则事件为主语；如果均不符合，则将事件赋值为标题句子。

优选地，所述依存句法分析模型为预加载。

本发明还提供了一种大规模并行政策数据知识抽取系统，所述系统包括：

政策信息采集模块，用于采集政策信息数据，对政策信息数据进行正文内容解析，生成政策正文数据列表；

发布日期抽取模块，用于对政策正文数据列表进行倒序遍历，根据当前列表元素与下一列表元素的内容，判断是否为发布日期，进行发布日期知识抽取；

发文机构抽取模块，用于对发布日期后的列表元素，根据列表元素是否含有发文机构关键词作为结尾，进行发文机构知识抽取；

截止日期抽取模块，用于根据截止日期规则对政策正文数据列表进行截止日期知识抽取；

政策事件抽取模块，用于对政策标题通过依存句法分析模型进行分析，根据得到的依存句法分析结果进行政策事件知识抽取。

优选地，所述截止日期规则为含有表示截止日期关键词的日期正则表达式。

优选地，所述依存句法分析模型为预加载。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

与现有技术相比，本发明通过对政策数据进行正文内容解析，获得政策正文数据列表，分别进行政策发文机构、发布日期知识抽取、政策申报截止日期知识抽取以及政策事件知识抽取，从而实现政策数据的知识抽取。本发明实现依存句法分析模型预加载，达到模型加载一次，多次使用的效果，提高知识抽取的效率，无需使用人工对知识进行抽取，节省人力成本，提高效率，适用于信息量巨大的网络信息获取。

附图说明

图1为本发明实施例中所提供的一种大规模并行政策数据知识抽取方法流程图；

图2为本发明实施例中所提供的一种大规模并行政策数据知识抽取系统框图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种大规模并行政策数据知识抽取方法及系统进行详细说明。

如图1所示，本发明公开了一种大规模并行政策数据知识抽取方法，所述方法包括以下操作：

对政策标题通过依存句法分析模型进行分析，根据得到的依存句法分析结果，进行政策事件知识抽取。

为了建立基于政策知识图谱的自动问答系统，让用户快速准确的获取自己想要的政策信息，需要对政策数据进行知识的抽取。

采集政策信息数据，并对采集到的政策信息数据进行正文内容解析，获取有段落结构的政策正文数据列表。

对政策正文数据列表进行政策发文机构、发布日期知识抽取。

抽取发文机构所在行数据信息、发布日期信息。由政策信息数据的内容特点可知，发文机构、发布日期通常在内容页的底端且发文机构在发布日期的上方，因此对正文列表进行倒序，遍历正文列表数据，如果列表元素为日期，或者列表中含有一个日期项且该元素的下一个元素符合发文机构的规则，则该日期为发布日期。遍历发布日期之后的4个元素，如果元素符合发文机构的规则，则认为该元素为发文机构。判断发文机构的规则如下：以厅、局、处、委员会、办公室、办、公司、中心、部、政府、电视台、工会、委、银行、支行、院、小组、司、科、协会、科协、联合会关键词结尾且全部为中文和空格。由于获取到的发文机构信息可能是多个发文机构，如“山西省教育厅山西省财政厅”，因此需要对整行发文机构进行拆分，得到每一个单独的发文机构。

根据政策正文数据列表对政策申报截止日期进行知识抽取。

将政策正文数据列表拼接成字符串，根据截止日期规则对正文中的截止日期进行抽取，截止日期规则如：于\s*？(\d{4}\s*？年\s*？\d{1,2}\s*？月\s*？\d{1,2}\s*？日)\s*？.{0,9}之前等。

根据政策标题对政策事件进行抽取。

对政策标题进行依存句法分析，得出标题句子的依存句法结构。为了提高知识抽取的效率，对依存句法分析模型进行预加载，避免每次调用该模型都加载一次，实现模型的一次加载，多次使用。根据得到的依存句法分析结果，获取标题中的谓词及其索引，判断谓词索引的位置，如果谓词索引位置大于等于句子长度的1/4，则对标题句子进行处理，否则不对句子处理。根据标题句子的依存句法分析结果对标题句子进行分析，获取谓词、主语、谓词修饰语以及宾语，并根据分析结果抽取事件：如果宾语的长度大于4，则事件为宾语；否则如果谓词修饰语与宾语拼接后的长度大于4，则事件为谓词修饰语与宾语拼接后的结果；否则如果主语的长度大于4，则事件为主语。如果以上均不符合，则将事件赋值为标题句子。

本发明实施例通过对政策数据进行正文内容解析，获得政策正文数据列表，分别进行政策发文机构、发布日期知识抽取、政策申报截止日期知识抽取以及政策事件知识抽取，从而实现政策数据的知识抽取。本发明实现依存句法分析模型预加载，达到模型加载一次，多次使用的效果，提高知识抽取的效率，无需使用人工对知识进行抽取，节省人力成本，提高效率，适用于信息量巨大的网络信息获取。

如图2所示，本发明实施例还公开了一种大规模并行政策数据知识抽取系统，所述系统包括：

根据政策正文数据列表对政策申报截止日期进行知识抽取。

根据政策标题对政策事件进行抽取。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大规模并行政策数据知识抽取方法，其特征在于，所述方法包括以下操作：

2.根据权利要求1所述的一种大规模并行政策数据知识抽取方法，其特征在于，所述当前列表元素为日期且下一列表元素含有发文机构关键词作为结尾，则当前列表元素为发布日期。

3.根据权利要求1所述的一种大规模并行政策数据知识抽取方法，其特征在于，所述根据得到的依存句法分析结果进行政策事件知识抽取具体为：

4.根据权利要求1所述的一种大规模并行政策数据知识抽取方法，其特征在于，所述依存句法分析模型为预加载。

5.一种大规模并行政策数据知识抽取系统，其特征在于，所述系统包括：

6.根据权利要求5所述的一种大规模并行政策数据知识抽取系统，其特征在于，所述当前列表元素为日期且下一列表元素含有发文机构关键词作为结尾，则当前列表元素为发布日期。

7.根据权利要求5所述的一种大规模并行政策数据知识抽取系统，其特征在于，所述截止日期规则为含有表示截止日期关键词的日期正则表达式。

8.根据权利要求5所述的一种大规模并行政策数据知识抽取系统，其特征在于，所述依存句法分析模型为预加载。