CN112580331A

CN112580331A - 政策文本的知识图谱构建方法及系统

Info

Publication number: CN112580331A
Application number: CN202011469945.XA
Authority: CN
Inventors: 孙璐; 李向前; 刘巍; 曹扬; 王鹏; 王晖; 巢文涵; 郝雅琦; 张金言
Original assignee: Global Tone Communication Technology Co ltd; China Industrial Control Systems Cyber Emergency Response Team; CETC Big Data Research Institute Co Ltd
Current assignee: Global Tone Communication Technology Co ltd; China Industrial Control Systems Cyber Emergency Response Team; CETC Big Data Research Institute Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-30

Abstract

本发明实施例提供一种政策文本的知识图谱构建方法及系统。方法包括：获取待构建知识图谱的政策文本；基于模式匹配技术对政策文本进行处理，得到政策文本的框架信息；基于深度学习技术对政策文本进行处理，得到政策文本的属性信息；基于句法分析技术对政策文本中的每一单句进行处理，得到每一单句的实体关系信息；基于政策文本的框架信息、政策文本的属性信息以及政策文本中每一单句的实体关系信息，构建政策文本的知识图谱。本发明实施例提供的方法及系统，通过基于模式匹配的政策文本框架提取、基于神经网络的政策文本属性信息提取和基于句法分析的政策文本实体关系抽取，能够完成对政策文本的解析，从而构建得到政策文本对应的知识图谱。

Description

政策文本的知识图谱构建方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种政策文本的知识图谱构建方法及系统。

背景技术

知识图谱的概念诞生于2012年。为了使知识和信息系统化，使用户可以通过任意一个关键词获得完整的相关知识体系，提高搜索质量，Google提出了知识图谱的概念并构建了最初的知识图谱。由于知识图谱能够准确地反映真实世界的事实，并能够良好地表达概念、层次等抽象知识，近年来，知识图谱已被应用于多个领域，并围绕其开展了大量的研究。

知识图谱研究领域的愿景是构建一个结构化的知识库，服务于人工智能领域的方方面面。知识图谱将能够作为人工智能生态的基础设施，提升数据获取效率，降低知识应用门槛，提高知识工作效能。知识图谱将能够作为大数据时代的知识引擎，及时从最新信息源中获取结构化知识。知识图谱将能够作为人工智能时代的机器智脑，让机器理解人类社会的背景知识。

知识图谱中涉及两项重要的技术，分别是命名实体识别技术和关系抽取技术。现实中知识图谱已经被应用到很多场景中，如人名、地名识别等，但是在政策领域没有搭建完整的框架，现有的政策知识图谱是从宏观上政策之间关系的构建，但是缺乏细粒度的信息解析。

传统的知识图谱中，包含明确的实体和关系，通过对文本内容进行分析，提取其中的实体和关系。但是对于政策文本来说，政策文本很难界定文本中明确的实体、属性和关系，政策文本主要是由动宾结构构成，并且整体上，存在论述框架，需要针对政策特定领域来制定知识图谱构建方案。

发明内容

针对现有技术存在的问题，本发明实施例提供一种政策文本的知识图谱构建方法及系统。

第一方面，本发明实施例提供一种政策文本的知识图谱构建方法，包括：

获取待构建知识图谱的政策文本；

基于模式匹配技术对所述政策文本进行处理，得到所述政策文本的框架信息；

基于深度学习技术对所述政策文本进行处理，得到所述政策文本的属性信息；

基于句法分析技术对所述政策文本中的每一单句进行处理，得到每一单句的实体关系信息；

基于所述政策文本的框架信息、所述政策文本的属性信息以及所述政策文本中每一单句的实体关系信息，构建所述政策文本的知识图谱。

进一步地，所述政策文本包括目录，基于模式匹配技术对所述政策文本进行处理，得到所述政策文本的框架信息，包括：

构建若干正则表达式；

将每一所述正则表达式与所述政策文本的目录进行匹配，若匹配到，则获取匹配结果，将获取到的所有所述匹配结果作为所述政策文本的框架信息。

进一步地，所述政策文本的框架信息包括所述政策文本的目录中的若干标题，若干所述标题包括指导思想、发展原则、发展目标、重点任务、重大工程和保障措施中的任意一种或多种的组合。

进一步地，所述政策文本包括前言，基于深度学习技术对所述政策文本进行处理，得到所述政策文本的属性信息，包括：

将所述政策文本的前言输入至训练后的神经网络模型，获取所述神经网络模型的输出结果，将所述输出结果作为所述政策文本的属性信息。

进一步地，所述神经网络模型为TENER模型。

进一步地，所述政策文本的属性信息包括所述政策文本的前言中的发布地点、发布机构和发布时间中的任意一种或多种的组合。

进一步地，基于句法分析技术对所述政策文本中的每一单句进行处理，得到每一单句的实体关系信息，包括：

获取所述政策文本中的若干单句；

对于每一单句，基于句法树分析方法对所述单句进行解析，以提取所述单句中的动词和对应的名词，并将所述动词作为关系，将所述名词作为实体。

第二方面，本发明实施例提供一种政策文本的知识图谱构建系统，包括：

政策文本获取模块，用于获取待构建知识图谱的政策文本；

框架信息获取模块，用于基于模式匹配技术对所述政策文本进行处理，得到所述政策文本的框架信息；

属性信息获取模块，用于基于深度学习技术对所述政策文本进行处理，得到所述政策文本的属性信息；

实体关系信息获取模块，用于基于句法分析技术对所述政策文本中的每一单句进行处理，得到每一单句的实体关系信息；

知识图谱构建模块，用于基于所述政策文本的框架信息、所述政策文本的属性信息以及所述政策文本中每一单句的实体关系信息，构建所述政策文本的知识图谱。

第三方面，本发明实施例提供一种电子设备，包括存储器和处理器；其中，所述存储器中存储有计算机程序；所述处理器，用于执行所述计算机程序以实现如上所述的政策文本的知识图谱构建方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的政策文本的知识图谱构建方法。

本发明实施例提供的政策文本的知识图谱构建方法及系统，通过基于模式匹配的政策文本框架提取、基于神经网络的政策文本属性信息提取和基于句法分析的政策文本实体关系抽取，能够完成对政策文本的解析，从而构建得到政策文本对应的知识图谱。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的政策文本的知识图谱构建方法流程图；

图2为本发明实施例提供的单句句法解析示意图；

图3为本发明实施例提供的政策文本的知识图谱的结构示意图；

图4为本发明实施例提供的政策文本的知识图谱构建系统的结构示意图；

图5为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的政策文本的知识图谱构建方法流程图，如图1所示，该构建方法包括：

步骤101，获取待构建知识图谱的政策文本。

具体地，随着互联网、人工智能和大数据等计算机应用在各行各业中的快速发展，大量关于互联网、人工智能和大数据等计算机领域的政策层出不穷，以规范和促进互联网、人工智能和大数据等计算机领域的发展。本发明实施例中的待构建知识图谱的政策文本即是指互联网、人工智能和大数据等计算机领域的政策文本。

步骤102，基于模式匹配技术对所述政策文本进行处理，得到所述政策文本的框架信息。

具体地，模式匹配是数据结构中字符串的一种基本运算，即给定一个子串，要求在某个字符串中找出与该子串相同的所有子串，这就是模式匹配。对该政策文本进行模式匹配，能够得到该政策文本的框架信息。需要说明的是，框架信息具体指政策文本的各章节的标题。

步骤103，基于深度学习技术对所述政策文本进行处理，得到所述政策文本的属性信息。

具体地，深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。通过深度学习技术构建神经网络模型并使用训练集训练该神经网络模型，将该政策文本输入至训练后的神经网络模型，可以得到该政策文本的属性信息。需要说明的是，属性信息具体指政策文本的发布时间、发布机构和发布时间等。

步骤104，基于句法分析技术对所述政策文本中的每一单句进行处理，得到每一单句的实体关系信息。

具体地，句法分析就是指对句子中的词语语法功能进行分析。通过句法分析对政策文本中的每一单句进行处理，能够得到每一单句的实体关系信息。需要说明的是，实体指的是单句中的动词，关系指的是单句中动词对应的名词。

步骤105，基于所述政策文本的框架信息、所述政策文本的属性信息以及所述政策文本中每一单句的实体关系信息，构建所述政策文本的知识图谱。

本发明实施例提供的政策文本的知识图谱构建方法，通过基于模式匹配的政策文本框架提取、基于神经网络的政策文本属性信息提取和基于句法分析的政策文本实体关系抽取，能够完成对政策文本的解析，从而构建得到政策文本对应的知识图谱。

在一些实施例中，所述政策文本包括目录，基于模式匹配技术对所述政策文本进行处理，得到所述政策文本的框架信息，包括：

构建若干正则表达式。

具体地，正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符以及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

具体地，通过翻阅大量的政策文本可知，政策文本由各个章节构成，每个章节能够表达政策文本不同的内容，每个章节的内容由标题进行概括，且标题均集中记录在政策文本的目录中。因此，设定与标题匹配的若干正则表达式，并将每一正则表达式与政策文本中的目录进行匹配，以从政策文本的目录中匹配出标题，并将匹配出的所有标题作为政策文本的框架信息。

在一些实施例中，所述政策文本的框架信息包括所述政策文本的目录中的若干标题，若干所述标题包括指导思想、发展原则、发展目标、重点任务、重大工程和保障措施中的任意一种或多种的组合。

在一些实施例中，所述政策文本包括前言，基于深度学习技术对所述政策文本进行处理，得到所述政策文本的属性信息，包括：

具体地，本发明实施例中的神经网络模型优选为TENER模型，TENER模型是在Transformer模型的基础上为命名实体识别(Named Entity Recognition，NER)任务改进的，其既可以应用在word-level，也可以应用在character-level。TENER模型通过使用位置感知的编码方式和被削减的attention，在NER中达到了在其他任务中同样好的效果。由于TENER模型的结构在现有技术中已有说明，因此此处不再赘述。

在一些实施例中，所述政策文本的属性信息包括所述政策文本的前言中的发布地点、发布机构和发布时间中的任意一种或多种的组合。

在一些实施例中，基于句法分析技术对所述政策文本中的每一单句进行处理，得到每一单句的实体关系信息，包括：

获取所述政策文本中的若干单句。

具体地，通过翻阅大量的政策文本可知，政策文本中的大多单句都是由动词与名词相结合的结构，这些动词和名词是正常文本中的重要部分。因此，本发明实施例提出了基于句法分析的实体识别与关系抽取算法，以对政策文本进行细粒度解析。

针对政策文本的每一单句，采用句法树分析的方法对单句结构进行分析，以识别单句中的动宾关系，提取单句中的动词和对应的名词并分别作为关系和实体，并将动词和名词之间的成分作为修饰实体的属性。请参阅图2，政策文本中的单句“建立公共数据资源开放共享清单”中的“建立”是关系。

作为一个优选的实施例，通过本发明实施例提供的政策文本的知识图谱构建方法对政策文本“**省信息基础建设规划指导意见”构建得到的知识图谱如图3所示。需要说明的是，由于篇幅问题，图3仅示意了知识图谱的部分内容。

图4为本发明实施例提供的政策文本的知识图谱构建系统的结构示意图，如图4所示，该系统包括：

政策文本获取模块401，用于获取待构建知识图谱的政策文本；框架信息获取模块402，用于基于模式匹配技术对所述政策文本进行处理，得到所述政策文本的框架信息；属性信息获取模块403，用于基于深度学习技术对所述政策文本进行处理，得到所述政策文本的属性信息；实体关系信息获取模块404，用于基于句法分析技术对所述政策文本中的每一单句进行处理，得到每一单句的实体关系信息；知识图谱构建模块405，用于基于所述政策文本的框架信息、所述政策文本的属性信息以及所述政策文本中每一单句的实体关系信息，构建所述政策文本的知识图谱。

具体地，本发明实施例提供的系统具体用于执行上述政策文本的知识图谱构建方法实施例，本发明实施例对此不再进行赘述。本发明实施例提供的系统，通过基于模式匹配的政策文本框架提取、基于神经网络的政策文本属性信息提取和基于句法分析的政策文本实体关系抽取，能够完成对政策文本的解析，从而构建得到政策文本对应的知识图谱。

图5为本发明实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储在存储器503上并可在处理器501上运行的计算机程序，以执行上述各实施例提供的方法，例如包括：获取待构建知识图谱的政策文本；基于模式匹配技术对所述政策文本进行处理，得到所述政策文本的框架信息；基于深度学习技术对所述政策文本进行处理，得到所述政策文本的属性信息；基于句法分析技术对所述政策文本中的每一单句进行处理，得到每一单句的实体关系信息；基于所述政策文本的框架信息、所述政策文本的属性信息以及所述政策文本中每一单句的实体关系信息，构建所述政策文本的知识图谱。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：获取待构建知识图谱的政策文本；基于模式匹配技术对所述政策文本进行处理，得到所述政策文本的框架信息；基于深度学习技术对所述政策文本进行处理，得到所述政策文本的属性信息；基于句法分析技术对所述政策文本中的每一单句进行处理，得到每一单句的实体关系信息；基于所述政策文本的框架信息、所述政策文本的属性信息以及所述政策文本中每一单句的实体关系信息，构建所述政策文本的知识图谱。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种政策文本的知识图谱构建方法，其特征在于，包括：

获取待构建知识图谱的政策文本；

2.根据权利要求1所述的政策文本的知识图谱构建方法，其特征在于，所述政策文本包括目录，基于模式匹配技术对所述政策文本进行处理，得到所述政策文本的框架信息，包括：

构建若干正则表达式；

3.根据权利要求2所述的政策文本的知识图谱构建方法，其特征在于，所述政策文本的框架信息包括所述政策文本的目录中的若干标题，若干所述标题包括指导思想、发展原则、发展目标、重点任务、重大工程和保障措施中的任意一种或多种的组合。

4.根据权利要求1所述的政策文本的知识图谱构建方法，其特征在于，所述政策文本包括前言，基于深度学习技术对所述政策文本进行处理，得到所述政策文本的属性信息，包括：

5.根据权利要求4所述的政策文本的知识图谱构建方法，其特征在于，所述神经网络模型为TENER模型。

6.根据权利要求4所述的政策文本的知识图谱构建方法，其特征在于，所述政策文本的属性信息包括所述政策文本的前言中的发布地点、发布机构和发布时间中的任意一种或多种的组合。

7.根据权利要求1所述的政策文本的知识图谱构建方法，其特征在于，基于句法分析技术对所述政策文本中的每一单句进行处理，得到每一单句的实体关系信息，包括：

获取所述政策文本中的若干单句；

8.一种政策文本的知识图谱构建系统，其特征在于，包括：

政策文本获取模块，用于获取待构建知识图谱的政策文本；

9.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器中存储有计算机程序；所述处理器，用于执行所述计算机程序以实现如权利要求1-7中任意一项所述的政策文本的知识图谱构建方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的政策文本的知识图谱构建方法。