CN113495929A

CN113495929A - 一种基于自注意力的三元组抽取方法

Info

Publication number: CN113495929A
Application number: CN202110539577.XA
Authority: CN
Inventors: 李永强; 周宇; 冯远静; 陆超伦; 陈成; 姚辉; 赵永智; 李文伟
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-10-12
Anticipated expiration: 2041-05-18
Also published as: CN113495929B

Abstract

一种基于自注意力的三元组抽取方法，包括以下步骤：1)根据登记在数据库中案件的简要描述，预先设定好案件需要抽取的实体类型和描述案件的三元组的模板；2)在案件的简要描述中，通过标注工具根据设定好的模板标注出描述中的三元组；3)利用Transformer模型作为核心来构建管道式的抽取系统；4)利用模型自身的自注意力结构来对实体冗余情况下的三元组进行建模；5)使用共享位置信息的方式和带有偏差的自注意力对三元组预测进行加速；6)对预测结果进行评价和排序。本发明以管道式关系抽取算法对数据中的非结构化数据进行提取，从而获得结构化的三元组数据，对数据的后续分析提供有力的帮助。

Description

一种基于自注意力的三元组抽取方法

技术领域

本发明涉及信息抽取、大数据、深度学习，提供了一种基于自注意力的三元组抽取方法。

背景技术

随着互联网的不断发展，信息的增长进入到了一个爆炸性的时代，每天都会有成千上万的结构化和非结构化的文字数据在不断地生成和更新。但是，庞大的数据量仅只是一个数字，现实则是大量的数据基本处于一种冻结状态，在存储到数据库中之后就再也得不到二次开发的机会。

近几年云计算和人工智能兴起，通过云计算提供的强大的计算能力和人工智能领域发明的大量算法，使得这类数据可以被再一次利用起来，重新发掘其中的价值。

在2016年10月13日的云栖大会上，杭州市公布了一项计划，既在杭州这座城市安装一个人工智能中枢——杭州城市数据大脑，目标是依托云计算和人工智能，让数据帮助城市来做思考和决策。主要的实现手段则是通过整合，分析和计算政务、公共、企业和互联网方面的数据，再配合信息化的策略来让杭州城市大脑拥有对城市各方各面的管理能力。在交通领域，城市大脑已经取得了一定的效果，初步实验数据显示，配合智能调节的红绿灯，道路的通行能力有着5％左右的提升。近几年，自然语言处理领域又出现了知识图谱这种大型的综合性技术工程，可以让城市大脑在警务方面的处理能力得到质的提升，帮助警方从历史的案件中总结规律，提高破案的效率，而三元组抽取作为构建知识图谱的基础，自然具有重要的研究意义。

历史案件的简要描述中存在着大量的人地关系，人人关系，人物关系，但是通过人工标注这三种关系费时费力，而且需要富有经验的专业人士才能标注出有价值的三元组数据。不过，深度学习方法可以预先学习这类文本的特征，然后再自动化地预测大量后续输入文本。然而，受限制于当前深度学习的算力瓶颈，仅有少量的算法技术成功落地，且应用的场景需求十分简单。一旦面对复杂的情境，如多关系三元组抽取，长文本关系抽取，实体重叠关系抽取，现有的管道式三元组抽取算法就无法准确地实现预期的抽取目标，大大降低知识图谱的数据质量。

在这种情况下，通过引入自注意力机制和位置共享技术，可以极大地改善目前管道式抽取模型存在地问题，并且加速三元组抽取地速度，极大地提升了信息抽取这个任务地效率。

发明内容

为了解决复杂场景下地的三元组数据抽取的问题，本发明提出了一种基于自注意力的数据三元组抽取方法，在已有的案件描述中，抽取中对案件推理有帮助的人人关系，人物关系和人地关系，为构建高质量的知识图谱，加速案件推理起到一定的作用。

为了解决上述技术问题，本发明提供如下的技术方案：

一种基于自注意力的三元组抽取方法，所述方法包括以下步骤：

1)获取已登记在数据库中案件的描述文本，预先设定好需要标注的实体和三元组的schema，所述实体包括人名、地名、时间、罪名和作案方式，所述三元组包括犯案时间、犯案地点、犯案方式，犯案罪名和犯案人同被害人的社会关系；

2)根据上述的标注schema，在web端的标注平台上人工标注出描述文本中的三元组关系，并生成确定格式的标注文本作为训练数据和验证数据；

3)将描述文本和标注文本一一对应后，再根据标注的结果分别生成两个子文件；

4)三元组抽取方法的训练使用的是管道式的策略，先利用Transformer网络模型作为编码器，指针网络作为解码器，来对BIEO标注的文本作实体抽取的训练；同时，再用另一个transformer网络模型作为编码器，全连接网络作为解码器对标注出实体的文本进行关系分类的训练；

5)训练完成后，将实体模型和关系模型分别保存；

6)预测的方法是将一段文本先输入实体模型中，预测出其中所有潜在的实体，并将其两两配对，以marker的形式标注在文本后。将marker标注后的文本再输入至关系模型，得到每个实体对的关系。

7)整理两个模型的输出，得到最终的三元组抽取结果。

进一步，所述步骤3)的过程为：子文件之一是以BIEO标注法标注出所有实体的命名实体识别标注文本；另一个子文件是通过marker标记法在实体span 级别上标注出实体关系的关系分类标注文本。

再进一步，所述步骤4)的过程为：

4.1)给定token化的文本X＝[x₁,x₂……x_n]，其中x_t为在文本t位置的token，将X输入Transformer模型后，得到文本的隐藏表示H＝[h₁,h₂……h_n]，其过程表示为：

H＝Transformer(X) (1)

4.2)根据BIEO的标注文本，可以构造出实体识别的gold标签G＝ [g₁,g₂……g_n]，再将4.1)当中得到的隐藏表示H输入至指针网络中，得到文本在每个token上的标注分类概率P＝[p₁,p₂……p_n]，然后使用交叉熵损失函数对实体识别任务进行训练：

其中N为token的数量，i为句子中token的位置，L为标注类别的数量，c为标注的类别；

4.3)关系分类的模型需要构造额外的文本向量，给定token化的文本 X＝[x₁,x₂……x_n]，其中x_t为在文本t位置的token，并在文本X之后加入实体的marker标记，记为M＝[m_s1,m_e1,m_s2,m_e2……m_sk-1,m_ek-1,m_sk,m_ek]，每对 marker与实体的起始位置和结束位置共享位置编码，用于标注含有关系的实体对，此外，利用Transformer自带的自注意力层，提取出每个实体对中头实体和尾实体起始位置marker的注意力矩阵A_s和A_o，并作以下的计算来得到每个实体对用于分类的关系特征向量C_i：

A＝A_s·A_o (3)

C＝H^Ta (6)

其中，h为多头注意力头数，H为经过transformer得到的隐藏表述；

4.4)再通过交叉熵损失函数，将本地标注的关系同预测出的关系计算损失：

其中，N为关系的数量，i为一个批量数据中句子的位置，R为关系类别的总数量，c为关系的类别。

本发明的有益效果为：1、以指针网络作为实体抽取解码器，优化了实体抽取的准确性；2、利用了自注意力层的机制构造了关系特征向量，提高了管道式三元组抽取的稳定性和可靠性，为构建高质量的知识图谱提供了保证。3、解决了以往管道式三元组抽取中一句话仅能预测一类关系的局限性，加速了关系预测的速度。

附图说明

图1是基于自注意力的三元组抽取方法的逻辑流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于自注意力的三元组抽取方法，所述方法包括以下步骤：

1)获取已登记在数据库中案件的描述文本，预先设定好需要标注的实体和三元组的schema，所述实体包括人名、地名、时间、罪名和作案方式，所述三元组包括犯案时间、犯案地点、犯案方式，犯案罪名和犯案人同被害人的社会关系，其具体形式可以表述为(头实体：人名，关系：犯案时间，尾实体：时间)、(头实体：人名，关系：犯案地点，尾实体：地点)、(头实体：人名，关系：犯案方式，尾实体：作案方式)、(头实体：人名，关系：犯案罪名，尾实体：罪名)、(头实体：人名，关系：社会关系，尾实体：人名)；

3)将描述文本和标注文本一一对应后，再根据标注的结果分别生成两个子文件：一个是仅通过BIEO标注的命名实体标注文本，另一个是通过marker标记法在span级别上标注出实体的关系分类标注文本；

4)三元组抽取方法的训练使用的是管道式的策略，先利用Transformer网络模型作为编码器，指针网络作为解码器，来对BIEO标注的文本作实体抽取的训练；同时，再用另一个transformer网络模型作为编码器，全连接网络作为解码器对标注出实体的文本进行关系分类的训练，过程如下：

4.1)给定token化的文本X＝[x₁,x₂……x_n]，其中x_t为在文本t位置的token，将X输入Transformer模型后，得到文本的隐藏表示H＝[h₁,h₂……h_n],其过程可以表示为：

H＝Transformer(X) (1)

4.2)根据BIEO的标注文本，构造出实体识别的gold标签G＝[g₁,g₂……g_n]，再将4.1)当中得到的隐藏表示H输入至指针网络中，得到文本在每个token上的标注分类概率P＝[p₁,p₂……p_n]。然后使用交叉熵损失函数对实体识别任务进行训练：

4.3)关系分类的模型需要构造额外的文本向量，给定token化的文本 X＝[x₁,x₂……x_n]，其中x_t为在文本t位置的token，并在文本X之后加入实体的marker标记，记为M＝[m_s1,m_e1,m_s2,m_e2……m_sk-1,m_ek-1,m_sk,m_ek]，每对 marker与实体的起始位置和结束位置共享位置编码，用于标注含有关系的实体对；此外，利用Transformer自带的自注意力层，我们提取出每个实体对中头实体和尾实体起始位置marker的注意力矩阵A_s和A_o，并作以下的计算来得到每个实体对用于分类的关系特征向量C_i：

A＝A_s·A_o (3)

C＝H^Ta (6)

其中，N为关系的数量，i为一个批量数据中句子的位置，R为关系类别的总数量，c为关系的类别；

5)训练完成后，将实体模型和关系模型分别保存；

7)整理两个模型的输出，得到最终的三元组抽取结果。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于自注意力的三元组抽取方法，其特征在于，所述方法包括以下步骤：

4)三元组抽取方法的训练使用的是管道式的策略，先利用Transformer网络模型作为编码器，指针网络作为解码器，来对BIEO标注的文本作实体抽取的训练；同时，用另一个transformer网络模型作为编码器，全连接网络作为解码器对标注出实体的文本进行关系分类的训练；

5)训练完成后，将实体模型和关系模型分别保存；

6)预测时将一段文本先输入实体模型中，预测出其中所有潜在的实体，并将其两两配对，以marker的形式标注在文本后。将marker标注后的文本再输入至关系模型，得到每个实体对的关系。

7)整理两个模型的输出，得到最终的三元组抽取结果。

2.根据权利要求1所述的基于自注意力的三元组抽取方法，其特征在于，所述步骤3)的过程为：子文件之一是以BIEO标注法标注出所有实体的命名实体识别标注文本；另一个子文件是通过marker标记法在实体span级别上标注出实体关系的关系分类标注文本。

3.根据权利要求1或2所述的基于自注意力的三元组抽取方法，其特征在于，所述步骤4)的过程为：

4.1)给定token化的文本X＝[x₁，x₂......x_n]，其中x_t为在文本t位置的token，将X输入Transformer模型后，得到文本的隐藏表示H＝[h₁，h₂......h_n]，其过程表示为：

H＝Transformer(X) (1)

4.2)根据BIEO的标注文本，可以构造出实体识别的gold标签G＝[g₁，g₂......g_n]，再将4.1)当中得到的隐藏表示H输入至指针网络中，得到文本在每个token上的标注分类概率P＝[p₁，p₂......p_n]，然后使用交叉熵损失函数对实体识别任务进行训练：

4.3)关系分类的模型需要构造额外的文本向量，给定token化的文本X＝[x₁，x₂......x_n]，其中x_t为在文本t位置的token，并在文本X之后加入实体的marker标记，记为M＝[m_s1，m_e1，m_s2，m_e2......m_sk-1，m_ek-1，m_sk，m_ek]，每对marker与实体的起始位置和结束位置共享位置编码，用于标注含有关系的实体对，此外，利用Transformer自带的自注意力层，我们提取出每个实体对中头实体和尾实体起始位置marker的注意力矩阵A_s和A_o，并作以下的计算来得到每个实体对用于分类的关系特征向量C_i：

A＝A_s·A_o (3)

C＝H^Ta (6)