CN113743121B

CN113743121B - 长文本实体关系抽取方法、装置、计算机设备及存储介质

Info

Publication number: CN113743121B
Application number: CN202111049927.0A
Authority: CN
Inventors: 马旭强; 王燕蒙; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-11-21
Anticipated expiration: 2041-09-08
Also published as: CN113743121A

Abstract

本发明涉及人工智能技术，公开了一种长文本实体关系抽取方法、装置、计算机设备及存储介质，该方法通过根据预设固定文本窗对各文本段落进行窗口划分，得到至少一个待识别窗口；通过文本识别模型确定与各待识别窗口对应的文本识别向量以及文本实体对；一个待识别窗口对应一个文本识别向量以及至少一个文本实体对；根据各文本识别向量确定与各文本实体对所对应注意力权重集合；一个注意力权重集合中包含同一个文本实体对针对所有待识别窗口一一对应的注意力权重；选取与各文本实体对所对应的注意力窗口，并根据注意力窗口确定文本实体对的实体关系结果。本发明提高了实体关系抽取的效率，且提高了文本实体对的关系抽取的准确率。

Description

长文本实体关系抽取方法、装置、计算机设备及存储介质

技术领域

本发明涉及分类模型技术领域，尤其涉及一种长文本实体关系抽取方法、装置、计算机设备及存储介质。

背景技术

随着科学技术的发展，人工智能技术也逐渐在各个不同的领域中进行使用，例如广告领域、机器人领域、医疗领域等。人工智能技术中的文本识别技术应用非常广泛，例如文本识别、实体关系抽取等。

现有技术中，针对于长文本(如多轮对话文本)进行实体关系抽取常常采用神经网络模型的方法，但是由于长文本的文本内容过多，而神经网络模型可以处理的文本长度不足以处理整个长文本，进而可能导致长文本中的文本信息丢失，从而导致实体关系抽取的准确率较低。

发明内容

本发明实施例提供一种长文本实体关系抽取方法、装置、计算机设备及存储介质，以解决实体关系抽取的准确率较低的问题。

一种长文本实体关系抽取方法，包括：

接收包含待抽取文本的实体关系抽取指令；所述待抽取文本包含至少一个文本段落；

获取预设固定文本窗，并根据所述预设固定文本窗对各所述文本段落进行窗口划分，得到至少一个待识别窗口；

通过文本识别模型确定与各所述待识别窗口对应的文本识别向量以及文本实体对；一个所述待识别窗口对应一个文本识别向量以及至少一个文本实体对；

根据各所述文本识别向量确定与各所述文本实体对所对应注意力权重集合；一个所述注意力权重集合中包含同一个所述文本实体对针对所有所述待识别窗口一一对应的注意力权重；

选取最大的所述注意力权重对应的待识别窗口并记录为注意力窗口，根据所述注意力窗口中的所有文本段落，确定所述文本实体对的实体关系结果。

一种长文本实体关系抽取装置，包括：

抽取指令接收模块，用于接收包含待抽取文本的实体关系抽取指令；所述待抽取文本包含至少一个文本段落；

窗口划分模块，用于获取预设固定文本窗，并根据所述预设固定文本窗对各所述文本段落进行窗口划分，得到至少一个待识别窗口；

文本识别模块，用于通过文本识别模型确定与各所述待识别窗口对应的文本识别向量以及文本实体对；一个所述待识别窗口对应一个文本识别向量以及至少一个文本实体对；

注意力权重确定模块，用于根据各所述文本识别向量确定与各所述文本实体对所对应注意力权重集合；一个所述注意力权重集合中包含同一个所述文本实体对针对所有所述待识别窗口一一对应的注意力权重；

实体关系确定模块，用于选取最大的所述注意力权重对应的待识别窗口并记录为注意力窗口，根据所述注意力窗口中的所有文本段落，确定所述文本实体对的实体关系结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述长文本实体关系抽取方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述长文本实体关系抽取方法。

上述长文本实体关系抽取方法、装置、计算机设备及存储介质，该方法通过获取预设固定文本窗，并根据所述预设固定文本窗对各所述文本段落进行窗口划分，得到至少一个待识别窗口；通过文本识别模型确定与各所述待识别窗口对应的文本识别向量以及文本实体对；一个所述待识别窗口对应一个文本识别向量以及至少一个文本实体对；根据各所述文本识别向量确定与各所述文本实体对所对应注意力权重集合；一个所述注意力权重集合中包含同一个所述文本实体对针对所有所述待识别窗口一一对应的注意力权重；选取与各所述文本实体对所对应的注意力窗口，并根据所述注意力窗口确定所述文本实体对的实体关系结果；所述注意力窗口是指与所述文本实体对所对应的注意力权重集合中最大的注意力权重对应的待识别窗口。

本发明通过预设固定文本窗进行滑动窗口划分的方式，减少了单独对待抽取文本进行文本识别等的处理时间，提高了实体关系抽取的效率，并且预设固定文本窗还可以保留待抽取文本的文本段落之间的上下文信息，进而提高了实体关系抽取的准确率。进一步地，本实施例中还通过文本识别向量确定文本实体对针对所有待识别窗口的注意力权重的方式，可以有效提取出与文本实体对最相关的文本段落信息，进而提高了文本实体对的关系抽取的准确率以及效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中长文本实体关系抽取方法的一应用环境示意图；

图2是本发明一实施例中长文本实体关系抽取方法的一流程图；

图3是本发明一实施例中长文本实体关系抽取方法中步骤S20的一流程图；

图4是本发明一实施例中长文本实体关系抽取装置的一原理框图；

图5是本发明一实施例中长文本实体关系抽取装置中窗口划分模块的一原理框图；

图6是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的长文本实体关系抽取方法，该长文本实体关系抽取方法可应用如图1所示的应用环境中。具体地，该长文本实体关系抽取方法应用在长文本实体关系抽取系统中，该长文本实体关系抽取系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决实体关系抽取的准确率较低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一实施例中，如图2所示，提供一种长文本实体关系抽取方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：接收包含待抽取文本的实体关系抽取指令；所述待抽取文本包含至少一个文本段落。

可以理解地，实体关系抽取指令可以由用户通过移动终端等设备发送，也可以由用户上传待抽取文本之后自动生成。其中，待抽取文本可以为多轮对话文本，例如从语音系统中提取多轮对话语音并对多轮对话语音进行文本识别后的文本。文本段落表征待抽取文本中的段落划分，假设待抽取文本为多轮对话文本时，该文本段落即为每一个用户的一次对话文本(如一句话)。

S20：获取预设固定文本窗，并根据所述预设固定文本窗对各所述文本段落进行窗口划分，得到至少一个待识别窗口。

可以理解地，预设固定文本窗是指固定大小的划分窗口，该预设固定文本窗用于对文本段落进行划分；该预设固定文本窗的固定大小可以根据需求进行设定，示例性地，预设固定文本窗的固定大小可以设定为4个文本段落，也即后续窗口划分得到均为包含4个文本段落的待识别窗口。

具体地，在接收包含待抽取文本的实体关系抽取指令之后，获取预设固定文本窗，以通过预设固定文本窗在待抽取文本上进行窗口滑动，进而实现对各文本段落的窗口划分，得到至少一个与预设固定文本窗的固定大小相同的待识别窗口。

S30：通过文本识别模型确定与各所述待识别窗口对应的文本识别向量以及文本实体对；一个所述待识别窗口对应一个文本识别向量以及至少一个文本实体对。

可选地，本实施例中的文本识别模型可以选取为Bert-base文本模型，该文本识别模型用于将各待识别窗口中的文本段落转换为文本识别向量，且识别出各待识别窗口中的文本段落的文本实体。其中，文本识别向量即为与待识别窗口中的文本段落相对应的向量表征，该文本识别向量包含了待识别窗口中的文本段落之间的上下文信息；文本实体对即为待识别窗口中的文本段落中的两个文本实体，可以理解地，针对不同的文本段落可能识别出各种不同的实体(例如用户名称实体、地点名称实体等)，进而根据同一待识别窗口中的文本段落识别得到的文本实体两两组合，即可得到文本实体对，因此针对一个待识别窗口识别得到的文本实体对可能包含一个或多个。

S40：根据各所述文本识别向量确定与各所述文本实体对所对应注意力权重集合；一个所述注意力权重集合中包含同一个所述文本实体对针对所有所述待识别窗口一一对应的注意力权重。

可以理解地，注意力权重表征了待识别窗口中的文本段落与文本实体对之间的相关程度，也即注意力权重越大表征待识别窗口中的文本段落与文本实体对之间的相关性越大，反之注意力权重越小表征待识别窗口中的文本段落与文本实体对之间的相关性越小，进而可以通过注意力权重最大的待识别窗口中的文本段落作为辅助特征，提取文本实体对的实体关系。

进一步地，本实施例中的一个文本实体对均存在一个对应的注意力权重集合，该注意力权重集合中包含与同一个文本实体对针对所有待识别窗口一一对应的注意力权重；也即一个文本实体对针对于一个待识别窗口均存在一个对应的注意力权重。示例性地，假设存在13个待识别窗口，进而一个文本实体对所对应的注意力权重集合中，包含了该文本实体对针对于13个待识别窗口一一对应的注意力权重。

S50：选取与各所述文本实体对所对应的注意力窗口，并根据所述注意力窗口确定所述文本实体对的实体关系结果；所述注意力窗口是指与所述文本实体对所对应的注意力权重集合中最大的注意力权重对应的待识别窗口。

具体地，在根据各所述文本识别向量确定与各所述文本实体对所对应注意力权重集合之后，将与文本实体对所对应的注意力权重集合中最大的注意力权重对应的待识别窗口记录为注意力窗口，并根据该注意力窗口中的所有文本段落作为辅助特征，与该文本实体对输入至辅助分类器中，确定与该文本实体对所对应的实体关系结果。

在本实施例中，通过预设固定文本窗进行滑动窗口划分的方式，减少了单独对待抽取文本进行文本识别等的处理时间，提高了实体关系抽取的效率，并且预设固定文本窗还可以保留待抽取文本的文本段落之间的上下文信息，进而提高了实体关系抽取的准确率。进一步地，本实施例中还通过文本识别向量确定文本实体对针对所有待识别窗口的注意力权重的方式，可以有效提取出与文本实体对最相关的文本段落信息，进而提高文本实体对的关系抽取的准确率以及效率。

在一实施例中，如图3所示，步骤S20中，也即所述根据所述预设固定文本窗对各所述文本段落进行窗口划分，得到至少一个待识别窗口，包括：

S201：将所述待抽取文本中的所有文本段落按照段落顺序展示在预设文本轴上。

可以理解地，待抽取文本中的文本段落存在段落顺序(也即文本段落时间先后发生的上下文顺序)，进而可以将待抽取文本中的所有文本段落按照段落顺序展示在预设文本轴上。进一步地，在预设文本轴上的文本段落仅为一个节点，而不是文本段落的文本内容，示例性地，假设待抽取文本中包含9个文本段落，则在预设文本轴上展示的为按照段落顺序排序的9个节点。

S202：将所述预设固定文本窗与所述预设文本轴的起点对齐之后，将具有与所述预设固定文本窗的预设段落数相同数量的文本段落记录为第一段落窗口。

具体地，在将待抽取文本中的所有文本段落按照段落顺序展示在预设文本轴上之后，将预设固定文本窗与预设文本轴的起点对齐，进而将具有与预设固定文本窗的预设段落数相同数量的文本段落记录为第一段落窗口。示例性地，假设待抽取文本中包含9个文本段落，预设固定文本窗的预设段落数为4个文本段落(也即一个预设固定文本窗可以容纳四个文本段落)，因此将预设固定文本窗与预设文本轴的起点对齐之后，将预设文本轴中前四个文本段落统一记录为第一段落窗口。

S203：将所述预设固定文本窗在所述预设文本轴上，向远离所述预设文本轴的起点的方向滑动预设段落距离。

可选地，预设段落距离可以根据具体需求进行设定，该预设段落距离表征的是预设固定文本窗需要滑动的文本段落数量，例如预设段落距离为1时，该预设固定文本窗需要向远离预设文本轴的起点的方向滑动一个文本段落；假设预设段落距离为2时，该预设固定文本窗需要向远离预设文本轴的起点的方向滑动两个文本段落。

S204：将位于所述第一段落窗口中最后一个文本段落之后的预设段落距离的文本段落加入至所述第一段落窗口，并删除所述第一段落窗口中排序在前的预设段落距离的文本段落，得到第二段落窗口。

具体地，在将所述预设固定文本窗在所述预设文本轴上，向远离所述预设文本轴的起点的方向滑动预设段落距离之后，将位于第一段落窗口中最后一个文本段落之后的预设段落距离的文本段落加入至第一段落窗口，并删除第一段落窗口中排序在前的预设段落距离的文本段落，得到第二段落窗口，如此即可保证第一段落窗口、第二段落窗口中的文本段落的数量，与预设固定文本窗中的文本段落的数量(也即预设段落数)相同，且第一段落窗口中的文本段落，与第二段落窗口中的文本段落存在不同。

示例性地，假设待抽取文本中包含9个文本段落，预设固定文本窗的预设段落数为4个文本段落，预设段落距离为2个文本段落，因此将预设固定文本窗与预设文本轴的起点对齐之后，将预设文本轴中前四个文本段落统一记录为第一段落窗口之后，将预设固定文本窗向后移动两个文本段落，此时将移动后的预设固定文本窗与第三个文本段落对齐，将第四个文本段落后的两个文本段落加入至第一段落窗口，且删除排序在前的两个文本段落，得到第二段落窗口，也即第二段落窗口中包含的是排序第三至排序第六的文本段落。

S205：检测所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离。

具体地，在将位于所述第一段落窗口中最后一个文本段落之后的预设段落距离的文本段落加入至所述第一段落窗口，并删除所述第一段落窗口中排序在前的预设段落距离的文本段落，得到第二段落窗口，检测第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于预设段落距离；若第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量大于或等于预设段落距离，表征预设固定文本窗还可以在预设文本轴上继续滑动，进而生成第三段落窗口；若第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量小于预设段落距离，则表征预设固定文本窗不可以在预设文本轴上继续滑动，也即无法生成第三段落窗口。

S206：若所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量小于所述预设段落距离，则将所述第一段落窗口以及所述第一段落窗口记录为所述待识别窗口。

具体地，在检测所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离之后，若第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量小于所述预设段落距离，表征预设固定文本窗不再向远离预设文本轴起点的方向滑动，也即无法生成第三段落窗口，进而将所述第一段落窗口以及所述第一段落窗口记录为所述待识别窗口。

示例性地，假设待抽取文本中包含9个文本段落，预设固定文本窗的预设段落数为4个文本段落，预设段落距离为4个文本段落，则第一段落窗口中的文本段落即为第一个文本段落至第四个文本段落，第二段落窗口即为第五个文本段落至第八个文本段落，在第八个文本段落之后仅剩第九个文本段落，因此无法生成第三段落窗口，进而直接将第一段落窗口和第二段落窗口记录为待识别窗口。

在一实施例中，步骤S205之后，也即所述检测所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离之后，还包括：

若所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量大于或等于所述预设段落距离，则将位于所述第二段落窗口中最后一个文本段落之后的预设段落距离的文本段落加入至所述第二段落窗口，并删除所述第二段落窗口中排序在前的预设段落距离的文本段落，得到第三段落窗口。

具体地，在检测所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离之后，若第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量大于或等于所述预设段落距离，则表征预设固定文本窗可以在预设文本轴上滑动以生成第三滑动窗口，进而将位于第二段落窗口中最后一个文本段落之后的预设段落距离的文本段落加入至所述第二段落窗口，并删除所述第二段落窗口中排序在前的预设段落距离的文本段落，得到第三段落窗口。

示例性地，假设待抽取文本中包含9个文本段落，预设固定文本窗的预设段落数为4个文本段落，预设段落距离为2个文本段落，则第一段落窗口中包括第一个文本段落至第四个文本段落，第二段落窗口中包括第三文本段落至第六个文本段落，进而在第六个文本段落之后还包括三个文本段落，大于预设段落距离的两个文本段落，因此可以将第六文本段落后的两个文本段落(也即第七段落、第八段落)加入至第二段落窗口，并删除第二段落窗口中排序在前的预设段落距离的文本段落(也即第三文本段落，第四文本段落)之后，得到第三段落窗口。

检测所述第三段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离。

具体地，在将位于所述第二段落窗口中最后一个文本段落之后的预设段落距离的文本段落加入至所述第二段落窗口，并删除所述第二段落窗口中排序在前的预设段落距离的文本段落，得到第三段落窗口之后，检测所述第三段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离；若第三段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量大于或等于预设段落距离，表征预设固定文本窗还可以在预设文本轴上继续滑动，进而生成第四段落窗口；若第三段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量小于预设段落距离，则表征预设固定文本窗不可以在预设文本轴上继续滑动，也即无法生成第四段落窗口。

若所述第三段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量小于所述预设段落距离，则将所述第一段落窗口、所述第一段落窗口以及第三段落窗口记录为所述待识别窗口。

具体地，在检测所述第三段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离之后，若所述第三段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量小于所述预设段落距离，则表征预设固定文本窗无法在预设文本轴上继续滑动预设段落距离，也即无法生成第四段落窗口，进而直接将第一段落窗口、所述第一段落窗口以及第三段落窗口记录为所述待识别窗口。

进一步地，若所述第三段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量大于或等于所述预设段落距离，则可以生成第四段落窗口。可以理解地，后续步骤中还可能生成第五段落窗口，第六段落窗口等，实现方式与上述步骤相同，在此不再赘述。

在一实施例中，所述文本实体对中包含第一文本实体以及第二文本实体；步骤S40中，也即所述根据各所述文本识别向量确定与各所述文本实体对所对应注意力权重集合，包括：

将所述文本识别向量以及所述第一文本实体输入至预设线性转换器中，以确定与所述第一文本实体对应的第一文本权重。

可以理解地，一个文本实体对中包含两个文本实体，也即第一文本实体以及第二文本实体。预设线性转换器用于将文本实体对中的文本实体线性转换为实体矩阵，以及将文本识别向量转换为对应的矩阵。其中，该预设线性转换器包括属性矩阵转换模块、实体矩阵转换模块以及结果矩阵转换模块，属性矩阵转换模块用于将文本识别向量转换为属性矩阵；实体矩阵转换模块用于将文本实体对中的文本实体转换为实体矩阵；结果矩阵转换模块用于将文本识别向量转换为结果矩阵。

在一实施例中，所述将所述文本识别向量以及所述第一文本实体输入至预设线性转换器中，以确定与所述第一文本实体对应的第一文本权重，包括：

通过所述属性矩阵转换模块对所述文本识别向量进行线性转换，得到属性矩阵；通过所述实体矩阵转换模块对所述第一文本实体进行线性转换，得到实体矩阵；通过所述结果矩阵转换模块对所述文本识别向量进行线性转换，得到结果矩阵。

可以理解地，属性矩阵转换模块具有一个属性空间变换矩阵，实体矩阵转换模块具有一个实体空间变换矩阵，结果矩阵转换模块具有一个结果空间变换矩阵，进而可以通过上述矩阵对文本识别向量或者第一文本实体进行线性转换。

具体地，可以通过下述表达式确定：

Q＝XW^q

V＝XW^v

K₁＝e₁W^k

其中，Q为属性矩阵；X为文本识别向量；W^q为属性空间变换矩阵；V为结果矩阵；W^v为结果空间变换矩阵(该结果空间矩阵的范围为W^v∈R^h×d_v该结果空间矩阵的范围，其中，h为步骤S30中文本识别模型的隐藏层维度，d_v取值为64)；K₁为第一文本实体对应的实体矩阵；e₁为第一文本实体；W^k为实体空间变换矩阵(该实体空间变换矩阵的范围为W^k∈R^h×d_k，d_k取值为64)

根据所述属性矩阵、实体矩阵以及所述结果矩阵，通过注意力计算函数确定与所述第一文本实体对应的第一文本权重。

可以理解地，针对于一个待识别窗口，其对应一个属性矩阵以及一个结果矩阵，进而该第一文本权重即为第一文本实体针对该待识别窗口对应的文本权重，该第一文本权重表征第一文本实体与该待识别窗口中的文本段落之间的相关性程度。

进一步地，可以通过下述注意力计算函数确定第一文本权重：

其中，SSA(X，e₁)即为第一文本权重；X为文本识别向量；e₁为第一文本实体；softmax()为文本权重确定函数；Q为属性矩阵；K₁ ^T为实体矩阵的转置矩阵；V为结果矩阵；d_k为实体矩阵的矩阵参数。

将所述文本识别向量以及所述第二文本实体输入至预设线性转换器中，以确定与所述第二文本实体对应的第二文本权重。

可以理解地，针对于一个待识别窗口，其对应一个属性矩阵以及一个结果矩阵，进而该第二文本权重即为第二文本实体针对该待识别窗口对应的文本权重，该第二文本权重表征第二文本实体与该待识别窗口中的文本段落之间的相关性程度。

具体地，与第一文本实体的处理方式相同，也即通过所述属性矩阵转换模块对所述文本识别向量进行线性转换，得到属性矩阵；通过所述实体矩阵转换模块对所述第二文本实体进行线性转换，得到与第二文本实体对应的实体矩阵；通过所述结果矩阵转换模块对所述文本识别向量进行线性转换，得到结果矩阵；根据所述属性矩阵、所述结果矩阵以及与第二文本实体对应的实体矩阵，通过注意力计算函数确定与所述第二文本实体对应的第二文本权重。

也即，第二文本实体对应的实体矩阵如下：

K₂＝e₂W^k

其中，K₂为第二文本实体对应的实体矩阵；e₂为第二文本实体。

注意力计算函数确定第二文本权重如下：

其中，SSA(X，e₂)即为第二文本权重；X为文本识别向量；e₂为第二文本实体；softmax()为文本权重确定函数；Q为属性矩阵；K₂ ^T为第二文本实体对应的实体矩阵的转置矩阵；V为结果矩阵；d_k为第二文本实体对应的实体矩阵的矩阵参数。

对所述第一文本权重以及所述第二文本权重取均值，得到所述文本实体对针对与所述文本识别向量对应的待识别窗口的注意力权重。

具体地，针对同一待识别窗口得到的第一文本权重以及第二文本权重取均值，也即第一文本权重以及第二文本权重之和的一半，即为文本实体对针对与文本识别向量对应的待识别窗口的注意力权重。

根据同一所述文本实体对针对所有待识别窗口一一对应的所述注意力权重构建所述注意力权重集合。

具体地，在对所述第一文本权重以及所述第二文本权重取均值，得到所述文本实体对针对与所述文本识别向量对应的待识别窗口的注意力权重之后，根据同一文本实体对针对所有待识别窗口一一对应的所述注意力权重构建所述注意力权重集合。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种长文本实体关系抽取装置，该长文本实体关系抽取装置与上述实施例中长文本实体关系抽取方法一一对应。如图4所示，该长文本实体关系抽取装置包括抽取指令接收模块10、窗口划分模块20、文本识别模块30、注意力权重确定模块40和实体关系确定模块50。各功能模块详细说明如下：

抽取指令接收模块10，用于接收包含待抽取文本的实体关系抽取指令；所述待抽取文本包含至少一个文本段落；

窗口划分模块20，用于获取预设固定文本窗，并根据所述预设固定文本窗对各所述文本段落进行窗口划分，得到至少一个待识别窗口；

文本识别模块30，用于通过文本识别模型确定与各所述待识别窗口对应的文本识别向量以及文本实体对；一个所述待识别窗口对应一个文本识别向量以及至少一个文本实体对；

注意力权重确定模块40，用于根据各所述文本识别向量确定与各所述文本实体对所对应注意力权重集合；一个所述注意力权重集合中包含同一个所述文本实体对针对所有所述待识别窗口一一对应的注意力权重；

实体关系确定模块50，用于选取最大的所述注意力权重对应的待识别窗口并记录为注意力窗口，根据所述注意力窗口中的所有文本段落，确定所述文本实体对的实体关系结果。

在一实施例中，如图5所示，窗口划分模块20包括：

文本段落展示单元201，用于将所述待抽取文本中的所有文本段落按照段落顺序展示在预设文本轴上；

第一段落窗口记录单元202，用于将所述预设固定文本窗与所述预设文本轴的起点对齐之后，将具有与所述预设固定文本窗的预设段落数相同数量的文本段落记录为第一段落窗口；

窗口滑动单元203，用于将所述预设固定文本窗在所述预设文本轴上，向远离所述预设文本轴的起点的方向滑动预设段落距离；

第二段落窗口记录单元204，用于将位于所述第一段落窗口中最后一个文本段落之后的预设段落距离的文本段落加入至所述第一段落窗口，并删除所述第一段落窗口中排序在前的预设段落距离的文本段落，得到第二段落窗口；

段落数量检测单元205，用于检测所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离；

待识别窗口确定单元206，用于若所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量小于所述预设段落距离，则将所述第一段落窗口以及所述第一段落窗口记录为所述待识别窗口。

关于长文本实体关系抽取装置的具体限定可以参见上文中对于长文本实体关系抽取方法的限定，在此不再赘述。上述长文本实体关系抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中长文本实体关系抽取方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种长文本实体关系抽取方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的长文本实体关系抽取方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的长文本实体关系抽取方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种长文本实体关系抽取方法，其特征在于，包括：

选取与各所述文本实体对所对应的注意力窗口，并根据所述注意力窗口确定所述文本实体对的实体关系结果；所述注意力窗口是指与所述文本实体对所对应的注意力权重集合中最大的注意力权重对应的待识别窗口；

所述根据所述预设固定文本窗对各所述文本段落进行窗口划分，得到至少一个待识别窗口，包括：

将所述待抽取文本中的所有文本段落按照段落顺序展示在预设文本轴上；

将所述预设固定文本窗与所述预设文本轴的起点对齐之后，将具有与所述预设固定文本窗的预设段落数相同数量的文本段落记录为第一段落窗口；

将所述预设固定文本窗在所述预设文本轴上，向远离所述预设文本轴的起点的方向滑动预设段落距离；

将位于所述第一段落窗口中最后一个文本段落之后的预设段落距离的文本段落加入至所述第一段落窗口，并删除所述第一段落窗口中排序在前的预设段落距离的文本段落，得到第二段落窗口；

检测所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离；

若所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量小于所述预设段落距离，则将所述第一段落窗口以及所述第一段落窗口记录为所述待识别窗口；

所述文本实体对中包含第一文本实体以及第二文本实体；所述根据各所述文本识别向量确定与各所述文本实体对所对应注意力权重集合，包括：

将所述文本识别向量以及所述第一文本实体输入至预设线性转换器中，以确定与所述第一文本实体对应的第一文本权重；

将所述文本识别向量以及所述第二文本实体输入至预设线性转换器中，以确定与所述第二文本实体对应的第二文本权重；

对所述第一文本权重以及所述第二文本权重取均值，得到所述文本实体对针对与所述文本识别向量对应的待识别窗口的注意力权重；

2.如权利要求1所述的长文本实体关系抽取方法，其特征在于，所述检测所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离之后，还包括：

若所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量大于或等于所述预设段落距离，则将位于所述第二段落窗口中最后一个文本段落之后的预设段落距离的文本段落加入至所述第二段落窗口，并删除所述第二段落窗口中排序在前的预设段落距离的文本段落，得到第三段落窗口；

检测所述第三段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离；

3.如权利要求1所述的长文本实体关系抽取方法，其特征在于，所述预设线性转换器包括属性矩阵转换模块、实体矩阵转换模块以及结果矩阵转换模块；

所述将所述文本识别向量以及所述第一文本实体输入至预设线性转换器中，以确定与所述第一文本实体对应的第一文本权重，包括：

通过所述属性矩阵转换模块对所述文本识别向量进行线性转换，得到属性矩阵；通过所述实体矩阵转换模块对所述第一文本实体进行线性转换，得到实体矩阵；通过所述结果矩阵转换模块对所述文本识别向量进行线性转换，得到结果矩阵；

4.如权利要求3所述的长文本实体关系抽取方法，其特征在于，所述注意力计算函数为：

其中，SSA(X，e₁)即为第一文本权重；X为文本识别向量；e₁为第一文本实体；soft max()为文本权重确定函数；Q为属性矩阵；K₁ ^T为实体矩阵的转置矩阵；V为结果矩阵；d_k为实体矩阵的矩阵参数。

5.一种长文本实体关系抽取装置，其特征在于，包括：

实体关系确定模块，用于选取最大的所述注意力权重对应的待识别窗口并记录为注意力窗口，根据所述注意力窗口中的所有文本段落，确定所述文本实体对的实体关系结果；

所述窗口划分模块包括：

文本段落展示单元，用于将所述待抽取文本中的所有文本段落按照段落顺序展示在预设文本轴上；

第一段落窗口记录单元，用于将所述预设固定文本窗与所述预设文本轴的起点对齐之后，将具有与所述预设固定文本窗的预设段落数相同数量的文本段落记录为第一段落窗口；

窗口滑动单元，用于将所述预设固定文本窗在所述预设文本轴上，向远离所述预设文本轴的起点的方向滑动预设段落距离；

第二段落窗口记录单元，用于将位于所述第一段落窗口中最后一个文本段落之后的预设段落距离的文本段落加入至所述第一段落窗口，并删除所述第一段落窗口中排序在前的预设段落距离的文本段落，得到第二段落窗口；

段落数量检测单元，用于检测所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量是否大于或等于所述预设段落距离；

待识别窗口确定单元，用于若所述第二段落窗口中的最后一个文本段落之后的预设段落距离后的文本段落的数量小于所述预设段落距离，则将所述第一段落窗口以及所述第一段落窗口记录为所述待识别窗口；

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述长文本实体关系抽取方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述长文本实体关系抽取方法。