CN112685513A

CN112685513A - 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法

Info

Publication number: CN112685513A
Application number: CN202110017771.1A
Authority: CN
Inventors: 刘英莉; 李武亮; 么长慧; 沈韬
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-04-20

Abstract

本发明公开一种基于文本挖掘的Al‑Si合金材料实体关系抽取方法，属于计算机应用技术领域。本发明所述方法为收集材料文献并按句子进行切分，形成句子语料集；根据制定的合金关系抽取语料库构建标准进行实体以及实体关系标注，将标注后的语料集随机分为训练语料集和测试语料集；将训练语料集中的样本数据输入至ELMo模型获得词嵌入，得到的词嵌入作为端到端的联合模型的输入，进行模型训练。本发明所述方法解决了从材料文献中抽取实体及实体关系的问题，可以将材料文献中实体和实体间的关系提取出来，与传统方法相比提高了准确率；同时构造了合金关系抽取语料库，解决了材料实体关系语料库的构建问题。

Description

一种基于文本挖掘的Al-Si合金材料实体关系抽取方法

技术领域

本发明涉及一种基于文本挖掘的Al-Si合金材料实体关系抽取方法，属于计算机应用技术领域。

背景技术

材料科学研究中机器可解释的数据主要来源于结构化属性数据库，然而绝大多数的科学知识都是以文本形式发表的，结构化属性数据库中仅包含研究文献中的一小部分知识。材料科学文献是材料科学大数据的一类重要来源，其中包含大量有价值的信息；但是这些信息多以非结构化文本的形式存在，加之文献数目以千万计，因此需要信息的高效获取以及利用有效的计算机技术。

目前关系抽取已广泛应用于特定领域，在生物医学文本挖掘等领域取得了显著成效。随着“材料基因组计划”的提出，现有的材料数据由于共享性较差，不足以支撑材料研发的应用。由于材料科学实体间存在着错综复杂的关系，其中蕴含了大量有价值的信息。因此，材料科学实体关系抽取是信息抽取工作的核心。材料科学实体关系抽取是对于文献中用户关注的实体，如成分、结构、性能以及实验参数等，判定他们在文本范围内的语义上是否存在关系，以及存在何种关系。

然而，已有相关研究表明，不同领域的文本在文本结构及语言表述上存在较大的差异。材料科学文本挖掘不能直接照搬通用NLP的方法和工具，需要进行专门的研究。针对材料科学文献的文本语料在句子级关系抽取上存在的一些问题：一是与通用领域相比，材料科学领域的文章中的句子即长且结构复杂，关系抽取性能有待提高；二是在材料科学领域目前并没有公开的信息抽取评测数据集，由于材料的多样性及复杂性，语料库的构造是需要解决一个主要问题。

发明内容

针对上述背景技术中存在的问题，本发明提供了一种基于文本挖掘的Al-Si合金材料实体关系抽取方法，本方法使用的是深度学习模型，能够在Al-Si合金材料文献中自动抽取实体及实体之间的关系。

为实现上述目的，本发明提供了以下方案：

一种基于文本挖掘的Al-Si合金材料实体关系抽取方法，具体包括如下步骤：

步骤S1，构造语料集，按8:1的比例将语料随机分为训练语料集和测试语料集。

步骤S2，通过资料收集，人工整理出材料实体对间的多种关系，采用端到端的联合模型，对材料实体识别与关系抽取任务进行联合建模；将训练语料输入至联合模型进行训练和测试，生成关系抽取模型。

步骤S3，使用关系抽取模型预测测试语料文本中的实体之间的关系。

进一步的，本发明步骤S1中所述构造语料集还包括：收集整理Al-Si合金的材料科学文献，将材料科学文献按句子进行切分，形成句子语料集。

根据制定的Al-Si合金关系抽取语料库构建标准，利用数据标注平台Brat对语料库数据进行标注，产生.ann和.conll两个文件。

使用BIO标注方法；其中“B”代表某种实体的开始位置，“I”代表某种实体的内部，“O”不代表任何实体类型；将.ann和.conll两个文件的标注内容通过预处理将其转换包括[token_id，token，BIO，relation，head]这五列的输入格式。

本发明所述材料实体对是指材料的科学术语。

优选的，本发明所述的材料实体包括以下11种实体类型：含量、元素、合金、实验、实验结果、测试名、测试值、测试图、相、参数名、参数值；所述多种关系包括以下13种关系：含量-元素、元素-合金、合金-实验、实验-实验结果、实验-参数名、实验结果-参数名、参数名-参数值、合金-测试名、测试名-参数名、测试名-测试值、测试名-测试图、测试名-相、相-测试值。

在步骤S2中生成关系抽取模型还包括：

S21对训练语料进行预处理，将预处理后的数据输入至ELMo模型得到每个词的词向量；

S22采用将实体识别与关系抽取进行联合的端到端建模任务，将关系抽取视为多头选择问题，为每一个实体识别潜在的多种关系来解决实体关系重叠问题；通过基于深度神经网络的BiLSTM模型、CRF模型以及sigmoid函数同时进行材料科学文献中的实体识别和关系抽取；

S23将训练语料输入至联合模型进行训练和测试，生成关系抽取模型，在训练过程中单独留出样本集，将其用于调整模型的超参数并对模型进行初步评估。

进一步的，本发明将训练语料输入至联合模型进行训练和测试，生成关系抽取模型，训练和测试包括以下几个部分：

(1)双向长短期记忆神经网络层(Bi LSTM Layer)，LSTM是一种特殊的RNN；针对材料文献中句子长且结构复杂的情况，多层的LSTM能够很好的捕捉较长的依赖关系；采用双向长短期记忆神经网络对文献句子中所有的词向量进行双向编码得到双向的信息，包括前向向量

和反向向量

步长为i的输出：

(2)CRF Layer(条件随机场层)：用于完成NER(命名实体识别)任务，本发明将命名实体识别问题作为一个序列标注问题；为了利用标签之间的依赖关系，在NER中使用一个线性链的CRF，计算每个令牌最可能的实体标签，本发明为每个实体标签计算每个令牌W_i的分数：

s^(e)(h_i)＝V^(e)f(U^(e)h_i+b^(e)) (2)

其中上标(e)表示NER任务，f(·)是逐元素激活函数relu.V^(e)∈R^p×l,U^(e)∈R^l×2d,b^(e)∈R^l,d为LSTM的隐藏大小，p为NER标签(例如B-Alloy)的数量，l为图层宽度

假设词向量为W，则得分向量序列为s₁ ^(e),…,s_n ^(e),标签预测向量为y₁ ^(e),…,y_n ^(e),线性链得分定义为：

其中

是令牌Wi的预测标签的分数；T是一个正方形转换矩阵，其中每个条目代表从一个标签到另一个标签的转换分数；T∈R^(p+2)×(p+2),y₀₁ ^(e)和y_n ^(e)是分别代表句子开头和结尾的两个辅助标签；然后，将给定标签序列在输入句子w的所有可能标签序列上的概率定义为：

(3)Lable Embedding(标签嵌入)用于学习实体识别标签的嵌入，获得令牌w_i的标签嵌入g_i；下一层的输入为隐藏LSTM状态h_i和令牌w_i的标签嵌入g_i的拼接：

z_i＝[h_i；g_i],i＝0,…,n

(4)Sigmoid Layer：使用sigmoid损失来获得多个关系；每一个单词(token)可以与其他的单词(token)有多种关系，本发明预测的元组

中，

是头向量，

是每个令牌w_i对应的关系的向量；给定一个令牌序列W和一组关系标签R作为输入，本发明的目标是识别每个令牌w_i，i＝0,…,n最有可能的头向量

和最可能对应的关系标签

给定标签r_k，本发明计算令牌w_i和w_j之间的分数：

s^(r)(z_j,z_i,r_k)＝V^(r)f(U^(r)z_j+W^(r)z_i+b^(r)) (5)

上角标r表示关系抽取任务，f()是激活函数，V^(r)∈R^l，U^(r)∈R^l×(2d+b)，W^(r)∈R^l ^×(2d+b),b^(r)∈R^l，其中d是LSTM隐藏层的大小，l是LSTM层的宽度。

Pr(head＝w_j,label＝r_k|w_i)＝σ(s^(r)(z_j,z_i,r_k) (6)

上面公式为令牌w_j为令牌w_i的头的概率，其关系标签为r_k。

在步骤S3中使用关系抽取模型预测测试语料文本中的实体之间的关系包括：

(1)将分割后所得到的句子输入到关系抽取模型，提取出实体关系对；

(2)对提取出的实体关系对进行人工排查，剔除错误的实体关系对。

本发明的有益效果：

本发明的上述技术方案，通过基于深度神经网络的BiLSTM(双向长短期记忆神经网络)模型、CRF模型以及sigmoid函数同时进行材料科学文献中的实体识别和关系抽取，在一定程度上提高了材料数据挖掘效率。另一方面本发明提出了材料实体对间的多种关系，均为材料科学研究所需的基本内容，为材料数据文本挖掘建立基础。

附图说明

图1是本发明方法流程示意图；

图2是本发明Al-Si合金实体关系结构图；

图3是本发明方法模型的结构示意图。

具体实施方式

下面通过实施例对本发明进一步详细说明，但本发明保护范围不局限于所述内容。

材料科学实体关系抽取是对于文献中用户关注的实体，如成分、结构、性能以及实验参数等，判定他们在文本范围内的语义上是否存在关系，以及存在何种关系；如图1、图2和图3所示。

本实施例提供一种基于文本挖掘的Al-Si合金材料实体关系抽取方法，具体包括以下步骤。

(1)收集整理Al-Si合金的材料科学文献，将材料科学文献按句子进行切分，形成句子语料集；根据制定的Al-Si合金关系抽取语料库构建标准，在数据标注平台Brat上对语料库数据进行标注，产生.ann和.conll两个文件；使用BIO标注方法，其中“B”代表某种实体的开始位置，“I”代表某种实体的内部，“O”不代表任何实体类型；将.ann和.conll两个文件的标注内容通过预处理将其转换包括[token_id，token，BIO，relation，head]这五列的输入格式；按8:1的比例将标注好的语料随机分为训练语料集和测试语料集；

(2)根据制定的Al-Si合金关系抽取语料库构建标准，根据标注主干线将文献划分元素、合金、实验、测试以及参数五个部分，如图2所示；最终构建了11种实体类型如表1所示，13种关系类型如表2所示。

表1

表2

(3)将训练语料输入至联合模型，进行训练和测试，生成关系抽取模型；模型包括Embedding Layer，BiLSTM Layer，CRF layer，Label Embeddings，Sigmoid Layer，HeadsRelations，模型结构如图3所示。

在模型Embedding Layer获取一句话的单词向量表示，通过ELMo预训练模型将每一个单词映射成一个单词词向量，模型的输入为一句话的单词向量表示。

采用将实体识别与关系抽取进行联合的端到端建模任务，联合模型进行实体识别和关系抽取的主要模型结构包括以下几个部分：

BiLSTM Layer(双向长短期记忆神经网络层)，LSTM是一种特殊的RNN；针对材料文献中句子长且结构复杂的情况，多层的LSTM能够很好的捕捉较长的依赖关系；采用双向的LSTM(BiLSTM)通过双向编码得到双向的信息，包括前向向量

和反向向量

步长为i的输出：

CRF Layer(条件随机场层)用于完成NER(命名实体识别)任务，将命名实体识别问题作为一个序列标注问题；为了利用标签之间的依赖关系，在NER中使用一个线性链的CRF，计算每个令牌最可能的实体标签，本发明为每个实体标签计算每个令牌W_i的分数:

s^(e)(h_i)＝V^(e)f(U^(e)h_i+b^(e)) (2)

其中

是令牌Wi的预测标签的分数；T是一个正方形转换矩阵，其中每个条目代表从一个标签到另一个标签的转换分数；T∈R^(p+2)×(p+2)，y₀₁ ^(e)和y_n ^(e)是分别代表句子开头和结尾的两个辅助标签；然后，将给定标签序列在输入句子w的所有可能标签序列上的概率定义为：

Lable Embedding(标签嵌入)用于学习实体识别标签的嵌入，获得令牌w_i的标签嵌入g_i；下一层的输入为隐藏LSTM状态h_i和令牌w_i的标签嵌入g_i的拼接:

z_i＝[h_i；gi],i＝0,…,n

Sigmoid Layer使用sigmoid损失来获得多个关系。每一个单词(token)可以与其他的单词(token)有多种关系，本发明预测的元组

中，

是头向量，

是每个令牌w_i对应的关系的向量。给定一个令牌序列W和一组关系标签R作为输入，本发明的目标是识别每个令牌w_i，i＝0,…,n最有可能的头向量

和最可能对应的关系标签

给定标签r_k，本发明计算令牌w_i和w_j之间的分数：

s^(r)(z_j,z_i,r_k)＝V^(r)f(U^(r)z_j+W^(r)z_i+b^(r)) (5)

Pr(head＝w_j,label＝r_k|w_i)＝σ(s^(r)(z_j,z_i,r_k) (6)

上面公式为令牌w_j为令牌w_i的头的概率，其关系标签为r_k。

训练完成后将测试样本集输入模型中，将其用于调整模型的超参数并对模型进行初步评估；将待抽取的测试语料数据输入到调整后的关系抽取模型，提取出待抽取文本的实体关系对；对提取出的实体关系对进行人工排查，剔除错误的实体关系对。

如上所述为本发明从材料文献中抽取实体及其实体关系的实施方式介绍，本发明通过收集的训练样本数据，训练联合模型，之后通过该模型预测材料文献中的实体及其关系，并提取出来；提取的实体以及实体关系，参见图2。

以上所述，仅为本发明专利较好的实施例，对本发明而言仅仅是说明性，而非限制性，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于文本挖掘的Al-Si合金材料实体关系抽取方法，具体包括如下步骤：

步骤S1，构造语料集，收集整理Al-Si合金的材料科学文献，将材料科学文献按句子进行切分，形成句子语料集；根据制定的Al-Si合金关系抽取语料库构建标准，利用数据标注平台对句子语料集中的语料数据进行标注，形成标注数据；按8:1的比例将标注后的句子语料集随机分为训练语料集和测试语料集；

步骤S2，通过资料收集，人工整理出材料实体间的多种关系，采用端到端的联合模型，对材料实体识别与关系抽取任务进行联合建模，将训练语料输入至联合模型进行训练和测试，生成关系抽取模型；

2.根据权利要求1所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法，其特征在于：对步骤S2中所述的材料实体包括以下11种实体类型：含量、元素、合金、实验、实验结果、测试名、测试值、测试图、相、参数名、参数值；所述多种关系包括以下13种关系：含量-元素、元素-合金、合金-实验、实验-实验结果、实验-参数名、实验结果-参数名、参数名-参数值、合金-测试名、测试名-参数名、测试名-测试值、测试名-测试图、测试名-相、相-测试值。

3.根据权利要求1所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法，其特征在于：步骤S2中关系抽取模型包括：

4.根据权利要求3所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法，其特征在于，将训练语料输入至联合模型进行训练和测试，生成关系抽取模型，训练和测试包括以下几个部分：

(1)双向长短期记忆神经网络层：采用双向长短期记忆神经网络对文献句子中所有的词向量进行双向编码得到双向的信息，包括前向向量