CN113806551A

CN113806551A - 一种基于多文本结构数据的领域知识抽取方法

Info

Publication number: CN113806551A
Application number: CN202110817847.9A
Authority: CN
Inventors: 孟洁; 李妍; 何金; 张倩宜; 孙轶凡; 王梓蒴; 董雅茹; 刘赫; 孟兆娜; 包磊
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-12-17

Abstract

本发明涉及一种基于多文本结构数据的领域知识抽取方法，包括以下步骤：步骤1、结构化数据知识获取：将存储在关系数据库中的数据映射转换为标准的RDF三元组文件；步骤2、半结构化数据知识获取：将公开的领域百科中的半结构的数据，组织成标准的知识三元组形式知识；步骤3、非结构化数据知识获取。本发明针对结构化数据、半结构化数据和非结构化数据指定不同的知识抽取策略，从而能够为构建更加全面，数据来源更加丰富的知识图谱提供技术支持。

Description

一种基于多文本结构数据的领域知识抽取方法

技术领域

本发明属于信息抽取技术领域，涉及领域知识抽取方法，尤其是一种基于多文本结构数据的领域知识抽取方法。

背景技术

随着信息时代的快速发展，越来越多的行业都与信息技术紧密的结合起来。将行业所产生的数据利用信息技术进行有效的组织并开发相关应用不仅可以提高从业人员对行业整体的了解，也可以将数据中的价值有效体现出来。

自2012年谷歌提出了“知识图谱”的概念，人们开始将目光放在了语义网络上，语义网络是表示概念之间语义关系的网络，知识图谱是描述了真实世界的客观存在的实体、概念及它们之间的关联关系的语义网络。领域知识图谱的知识来源更多，文本结构更加复杂，因此构建领域知识图谱需要结合多种文本结构的数据从而提取其中的知识，进一步存储组织成领域知识图谱。其中对非结构化数据类型的知识抽取方法也需要更加有效，便捷的方法。

现有的知识抽取方法多专注于某一种数据的抽取，缺少多种数据类型知识抽取的广度。其中最复杂困难的任务关注于非结构化文本的知识抽取多注重在通用领域数据中进行抽取，难以做到有效提取某个垂直领域的知识，传统的神经网络方法如卷积神经网络，循环神经网络难以有效建模文本中的长程依赖，知识抽取效率低下。

鉴于此，本发明针对领域中存在的多文本结构的数据提出了一种领域知识的抽取方法。

经检索，未发现与本发明或发明相同或相似的现有技术。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于多文本结构数据的领域知识抽取方法，针对结构化数据、半结构化数据和非结构化数据指定不同的知识抽取策略，从而能够为构建更加全面，数据来源更加丰富的知识图谱提供技术支持。

本发明解决其现实问题是采取以下技术方案实现的：

一种基于多文本结构数据的领域知识抽取方法，包括以下步骤：

步骤1、结构化数据知识获取：将存储在关系数据库中的数据映射转换为标准的RDF三元组文件；

步骤2、半结构化数据知识获取：将公开的领域百科中的半结构的数据，组织成标准的知识三元组形式知识；

步骤3、非结构化数据知识获取；

而且，所述步骤1的具体方法为：使用R2RML的语义映射，将关系数据库中的数据映射转换为主语、谓语和宾语的三元组形式知识。

而且，所述步骤2的具体方法为：首先对网络公开免费获取的百科网站使用“爬虫”获取相应数据，通过使用正则化等方式对网页数据进行预处理，得到较为干净的文本信息，通过程序利用网页中对数据有结构性的组织，直接将其表达为标准的知识三元组形式知识。

而且，所述步骤3的具体步骤包括：

(1)首先通过网络“爬虫”获取领域高度相关的文本数据，采用人工标注的方式对领域文本进行序列标注，以此作为数据集；

(2)将数据集进行适当的预处理，使用按句号划分等方法将文本划分成一个个单独的句子；

(3)随后将预处理过后的数据集划分为训练集和预测集，用训练集训练合理的序列标注器，用测试集对序列标注器的性能进行检测；

(4)对于符合标准的序列标注器，使用该标注器对收集到的非结构化数据进行序列标注，完成实体识别，关系抽取和属性提取任务，实现对非结构化数据的知识抽取。

而且，所述步骤3的第(3)步的具体步骤包括：

①向量化表示：设一条领域文本s由n个字符构成，每个字都用k维向量表示，每一条文本都可以表示为一个n*k的矩阵，其中向量值由BERT的预训练模型而得，若字没有出现在训练语料中，则采用随机初始化方式对该字对应的向量进行赋值；同时引入领域词汇信息，将利用大规模分词语料进行训练的词汇组合信息作为额外特征对应加入每个句子中，若本句话中可能出现的词汇有m个，每个词汇信息都可以表示为k维向量，则每一条文本表示为(n+m)*k的矩阵；

②利用Transformer提取抽象特征：其中输入层为某条领域文本经过步骤①得到的矩阵，得到句子的编码信息输出；为每个字和词汇信息做位置编码；将位置信息的编码引入Transformer的自注意力层，最终Transformer网络输出得到每个字符的编码信息；

③利用条件随机场模型进行序列标注：经过Transformer网络后得到相应的编码信息输出，将编码信息通过条件随机场模型进行解码输出对应的标签，捕捉序列前后的转移概率和发射概率，进而得到训练合理的序列标注器；

而且，所述步骤3第(3)步的第②步中，将位置信息的编码引入 Transformer的自注意力层，最终Transformer网络输出得到每个字符的编码信息的具体计算公式为：

公式(1)(2)中，pos是位置，i是表示位置信息的第i维度，d是整体的维度，这表明每个位置都用一系列三角函数对其编码；

将位置信息和字词的词向量信息相加送入网络结构中，Transformer采用多头注意力机制来刻画输入之间的关系：

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)*W^o\*MERGEFORMAT (3)

公式(3)中W^o是可以学习的参数，Concat(head₁,…,head_n)意为每一个 head_i的拼接；head_i的表达式为：

式(4)中

是可学习的值，Q,K,V可都取字词的向量表示；d_k表示Q和K经过特征映射后向量的维度。

本发明的优点和有益效果：

1、本发明的一种基于多文本结构数据的领域知识抽取方法，包括结构化数据、半结构化数据和非结构化数据知识抽取。通过使用R2RML语义映射，数据处理，使用BERT预训练模型和Transformer结构融合词汇信息完成对不同结构的数据的领域知识抽取，在广度和深度上均对现有方法进行了扩展与创新。

2、在广度上，本发明所针对知识抽取的文本结构是多类型的，包括结构化数据、半结构化数据和非结构化数据，针对不同的数据结构提出了有效的知识抽取方法，其中结构化数据采用R2RML语义映射，半结构化数据采用信息匹配和信息标记，非结构化数据采用神经网络模型进行知识抽取。

3、在深度上，本发明针对非结构化数据的知识抽取提出了一种高效的知识抽取模型结构，融合非结构化数据中出现的词汇信息，使得模型寻找实体更加高效，利用自注意力机制的Transformer神经网络可以更好的捕捉文本之间的特征关系，使用条件随机场输出更符合标签分布的序列标签，使用训练好的模型可以充当有效的序列标注器，从而实现对非结构化文本的知识抽取。

附图说明

图1为本发明的整体的知识获取示意图；

图2为本发明的获得句子含有语义和分词信息的词嵌入向量图；

图3为本发明的训练序列标注器所采取的网络结构图。

具体实施方式

以下结合附图对本发明实施例作进一步详述：

一种基于多文本结构数据的领域知识抽取方法，如图1所示，包括以下步骤：

所述步骤1的具体方法为：使用R2RML的语义映射，将关系数据库中的数据映射转换为主语、谓语和宾语的三元组形式知识。

在本实施例中，步骤1提取结构化数据中的知识，使用的手段是利用 D2RQ工具，将每一个数据表中的类所具有的属性按照映射文件语法进行书写，将数据库文件按照映射文件所描述的那样生成RDF文件。

所述步骤2的具体方法为：首先对网络公开免费获取的百科网站使用“爬虫”获取相应数据，通过使用正则化等方式对网页数据进行预处理，得到较为干净的文本信息，通过程序利用网页中对数据有结构性的组织，直接将其表达为标准的知识三元组形式知识。

如图1所示，通过正则化等方式对文本预处理，使用内容匹配和信息标记解析半结构化数据中的知识，从而完成实体识别，关系抽取和属性提取任务。

在本实施例中，步骤2提取半结构化数据的知识，首先通过“爬虫”的手段采集领域百科文本数据集，由于网页内容大多由HTML格式文本来书写，所以需要将其中的有效数据提取出来。针对这样的格式文本使用的工具为 python的re和bs4第三方库，对内容进行匹配和信息标记形式进行解析这两种方法的融合的信息提取策略。

步骤3、非结构化数据知识获取；

所述步骤3的具体步骤包括：

(4)对于符合标准的序列标注器，使用该标注器对收集到的非结构化数据进行序列标注，完成图1中所涉及到的实体识别，关系抽取和属性提取任务，实现对非结构化数据的知识抽取。

所述步骤3的第(3)步的具体步骤包括：

如图2所示：“电力系统的主体结构含有电源”，这样一条文本通过使用BERT预训练模型映射可看作是13*k的词向量矩阵，而该句子中所存在的“电力系统”，“电源”可看作是潜在词汇信息，经过使用Word2vec方式映射为2*k的词向量矩阵，进行拼接后得到整体的15*k的词嵌入向量。

如图3所示，将位置信息的编码引入Transformer的自注意力层，使用 QKV的方式再通过softmax函数完成自注意力机制的映射，使用向量拼接实现多头自注意力机制的结合。再通过正则化方法防止神经网络的退化，使用全连接神经网络实现字符之间的交互，最终Transformer网络输出得到每个字符的编码信息；

所述步骤3第(3)步的第②步中，将位置信息的编码引入Transformer 的自注意力层，最终Transformer网络输出得到每个字符的编码信息的具体计算公式为：

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)*W^o\*MERGEFORMAT (3)

式(4)中

本发明通过多头自注意机制从而捕捉句子中每个字符或者词汇与其他字符和词汇的相关关系，拥有比卷积神经网络和循环神经网络更好的特征捕捉能力。

如图3所示，每一个文本数据X_i都有一个标签Y_i与其对应，通过条件随机场模型可以得到更准确的实体关系的序列标注。

需要强调的是，本发明所述实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于多文本结构数据的领域知识抽取方法，其特征在于：包括以下步骤：

步骤3、非结构化数据知识获取。

2.根据权利要求1所述的一种基于多文本结构数据的领域知识抽取方法，其特征在于：所述步骤1的具体方法为：使用R2RML的语义映射，将关系数据库中的数据映射转换为主语、谓语和宾语的三元组形式知识。

3.根据权利要求1所述的一种基于多文本结构数据的领域知识抽取方法，其特征在于：所述步骤2的具体方法为：首先对网络公开免费获取的百科网站使用“爬虫”获取相应数据，通过使用正则化等方式对网页数据进行预处理，得到较为干净的文本信息，通过程序利用网页中对数据有结构性的组织，直接将其表达为标准的知识三元组形式知识。

4.根据权利要求1所述的一种基于多文本结构数据的领域知识抽取方法，其特征在于：所述步骤3的具体步骤包括：

5.根据权利要求4所述的一种基于多文本结构数据的领域知识抽取方法，其特征在于：所述步骤3的第(3)步的具体步骤包括：

③利用条件随机场模型进行序列标注：经过Transformer网络后得到相应的编码信息输出，将编码信息通过条件随机场模型进行解码输出对应的标签，捕捉序列前后的转移概率和发射概率，进而得到训练合理的序列标注器。

6.根据权利要求5所述的一种基于多文本结构数据的领域知识抽取方法，其特征在于：所述步骤3第(3)步的第②步中，将位置信息的编码引入Transformer的自注意力层，最终Transformer网络输出得到每个字符的编码信息的具体计算公式为：

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)*W^o\*MERGEFORMAT(3)

公式(3)中W^o是可以学习的参数，Concat(head₁,…,head_n)意为每一个head_i的拼接；head_i的表达式为：

式(4)中