CN116702787A

CN116702787A - 一种长文本实体识别方法、装置、计算机设备及介质

Info

Publication number: CN116702787A
Application number: CN202310981548.8A
Authority: CN
Inventors: 张森; 黄学涛; 陈阳; 谭卓; 许云侠; 唐平; 盛润; 唐明建; 畅敏; 温小波
Original assignee: Tunnel Tang Technology Co ltd
Current assignee: Tunnel Tang Technology Co ltd
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-09-05

Abstract

本发明涉及数据处理技术领域，尤其涉及一种长文本实体识别方法、装置、计算机设备及介质，方法包括：获取N个长文本数据作为训练样本，每个长文本数据的实体内容均有标注实体类型；将每个长文本数据截取为M个文段；将每个长文本数据的M个文段输入改进的Roberta模型中进行训练，得到识别模型，改进的Roberta模型包括编码层、加性注意力层以及分类层，编码层用于对每个文段进行编码，得到每个文段的编码信息，加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息；获取待识别文本，并基于该识别模型，得到待识别文本的实体内容及实体类别；提高了长文本实体识别的准确性。

Description

一种长文本实体识别方法、装置、计算机设备及介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种长文本实体识别方法、装置、计算机设备及介质。

背景技术

对于长文本实体识别时，常规的方法是采用暴力截断或者利用标点符号进行截断以达到语言模型对输入文本长度的限制，这种截取方法无法避免在实体名称与实体内容之间间隔较长的情况，比如，对于标书类型的长文本来说，在该长文本中提及了中标单位和相关的参与投标的单位，在1000个字之后，才提及某某单位的项目经理是谁，但是，采用上述的截断方式，无法将中标单位项目经理和具体的某某项目单位项目经理的人名之间建立关系，因此，采用上述的识别方法，无法对长文本的实体内容有效识别。

因此，如何提高长文本实体识别的准确性是目前亟待解决的技术问题。

发明内容

鉴于上述问题，本发明提供了一种克服上述问题或者至少部分地解决上述问题的长文本实体识别方法、装置、计算机设备及介质。

第一方面，本发明提供了一种长文本实体识别方法，包括：

获取N个长文本数据作为训练样本，其中，所述N个长文本数据中每个长文本数据的实体内容均有标注实体类型；

将每个长文本数据截取为M个文段；

将每个长文本数据的M个文段输入改进的Roberta模型中进行训练，得到识别模型，所述改进的Roberta模型包括编码层、加性注意力层以及分类层，其中，所述编码层用于对每个文段进行编码，得到每个文段的编码信息，所述加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息，所述分类层用于基于每个文段的编码矩阵，得到分类结果；

获取待识别文本；

基于所述待识别文本和所述识别模型，得到所述待识别文本的实体内容及实体类别。

优选地，所述将每个长文本数据截取为M个文段，包括：

采用滑动窗口方式将每个长文本数据截取为M个文段，其中，相邻文段之间有交叉内容。

优选地，所述改进的Roberta模型还包括对抗训练层，用于对训练样本增加对抗样本。

优选地，所述加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，每个文段的编码矩阵包含当前文段的编码和之前文段的编码，包括：

所述加性注意力层用于基于第一文段的第一编码信息，初始化一个全零矩阵，并将所述第一编码信息更新至所述全零矩阵中，得到第一文段的第一编码矩阵；

所述加性注意力层用于基于第二文段的第二编码信息、第一编码矩阵，以及第二编码信息与第一编码矩阵之间的相似度，得到第二文段的第二编码矩阵；

所述加性注意力层用于基于第i文段的第i编码信息、第i-1文段的第i-1编码矩阵，以及第i编码信息与第i-1编码矩阵之间的相似度，得到第i文段的第i编码矩阵，直至得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息。

优选地，所述加性注意力层用于基于第i文段的第i编码信息、第i-1文段的第i-1编码矩阵，以及第i编码信息与第i-1编码矩阵之间的相似度，得到第i文段的第i编码矩阵，包括：

所述加性注意力层用于基于第i编码信息和第i-1编码矩阵，确定第i编码信息与第i-1编码矩阵之间的相似度，具体按照如下公式得到：

，其中，/>为相似度，/>为非线性激活函数，/>、/>、/>均为模型可学习参数，/>为第i编码信息，/>为第i-1编码矩阵；

基于第i编码信息、第i-1编码矩阵以及第i编码信息与第i-1编码矩阵之间的相似度，得到第i文段的第i编码矩阵，具体按照如下公式得到：

，其中，/>为第i文段的第i编码矩阵。

优选地，所述改进的Roberta模型还包括：解码层，用于对所述分类层输出的分类结果进行解码。

优选地，所述实体内容包括：人名、地点、机构名称、时间日期和专有名词。

第二方面，本发明还提供了一种长文本实体识别装置，包括：

第一获取模块，用于获取N个长文本数据作为训练样本，其中，所述N个长文本数据中每个长文本数据的实体内容均有标注实体类型；

截取模块，用于将每个长文本数据截取为M个文段；

训练模块，用于将每个长文本数据的M个文段输入改进的Roberta模型中进行训练，得到识别模型，所述改进的Roberta模型包括编码层、加性注意力层以及分类层，其中，所述编码层用于对每个文段进行编码，得到每个文段的编码信息，所述加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码和之前文段的编码，所述分类层用于对每个文段的实体内容进行分类，得到分类结果；

第二获取模块，用于获取待识别文本；

得到模块，用于基于所述待识别文本和所述识别模型，得到所述待识别文本的实体内容及实体类别。

第三方面，本发明还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面中所述的方法步骤。

第四方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序,该程序被处理器执行时实现第一方面中所述的方法步骤。

本发明实施例中的一个或多个技术方案，至少具有如下技术效果或优点：

本发明提供了一种长文本实体识别方法，包括：获取N个长文本数据作为训练样本，其中，N个长文本数据中每个长文本数据的实体内容均有标注实体类型；将每个长文本数据截取为M个文段；将每个长文本数据的M个文段输入改进的Roberta模型中进行训练，得到识别模型，该改进的Roberta模型包括编码层、加性注意力层以及分类层，其中，编码层用于对每个文段进行编码，得到每个文段的编码信息，加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息，该分类层用于对每个文段的实体内容进行分类，得到分类结果；获取待识别文本；基于待识别文本和该识别模型，得到待识别文本的实体内容及实体类别；进而避免由于实体名称与实体内容间隔较长内容，无法清楚识别的问题，通过对每个长本数据的每个文段编码，并将每一文段与之前文段建立关联，以便于后期的分类识别，进而提高了长文本实体识别的准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考图形表示相同的部件。在附图中：

图1示出了本发明实施例中长文本实体识别方法的步骤流程示意图；

图2示出了本发明实施例中长文本实体识别装置的结构示意图；

图3示出了本发明实施例中实现长文本实体识别方法的计算机设备的示意图；

图中标号：201-第一获取模块，202-截取模块，203-训练模块，204-第二获取模块，205-得到模块；

300-总线，301-接收器，302-处理器，303-发送器，304-存储器，306-总线接口。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例1

本发明的实施例提供了一种长文本实体识别方法，如图1所示，包括：

S101，获取N个长文本数据作为训练样本，其中，N个长文本数据中每个长文本数据的实体内容均有标注实体类型；

S102，将每个长文本数据截取为M个文段；

S103，将每个长文本数据的M个文段输入改进的Roberta模型中进行训练，得到识别模型，该改进的Roberta模型包括编码层、加性注意力层以及分类层，其中，编码层用于对每个文段进行编码，得到每个文段的编码信息，该加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息，该分类层用于对每个文段的实体内容进行分类，得到分类结果；

S104，获取待识别文本；

S105，基于待识别文本和识别模型，得到待识别文本的实体内容及实体类别。

为了能够快速识别到一个长文本中的实体内容，可以采用语言模型进行识别，比如，BERT、Longformer等自然语言处理预训练模型，但是，这些语言模型都在文本截断上进行暴力截断，从而导致最终识别不够准确。

在本发明的实施方式中，主要采用注意力机制将截取的文段之间建立关联，进而提高最终识别的准确性。

首先，S101，获取N个长文本数据作为训练样本，其中，N个长文本数据中每个长文本数据的实体内容均有标注实体类型。

具体地，对获取的N个长文本数据的每个长文本数据中对实体内容标注实体类型。具体地，实体内容包括：人名、地点、机构名称、时间日期和专有名词。

若以标书类型的长文本为例，这里的实体可以是：中标金额、招标金额、中标单位、招标单位、项目经理、代理单位等等实体内容。

对实体内容标注实体类型可以按照如下方式进行标注：

用B表示一个实体的开始，I表示实体的非开始部分（可以是中间部分也可以是结尾部分），O表示非实体，进一步地，实体的类型有多种，为了区分实体的类型，一般会在B或者I后面接上实体类型，比如，B-中标单位，由此表明这是中标单位实体的开始。

在获取到包含标注实体类型的N个长文本数据之后，执行S102，将每个长文本数据截取为M个文段。

其中，本申请采用的截取方式为滑动窗口方式，具体地，采用滑动窗口方式将每个长文本数据截取为M个文段，其中，相邻文段之间有交叉内容。

这里的滑动窗口的设置不宜过大或过小，过小会导致截断后的每个文段重合度过大，导致截断后的文段数量过多；而过大会导致部分实体的前后文信息过少，在识别实体时容易出现偏差。

在中标单位以及具体的某某单位的项目经理是谁之间的间隔文字数量较小时，采用滑动窗口截取文段的方式，可以很容易将中标单位以及某某单位的项目经理是谁截取在一个文段中。

当然，在一个长文本数据中，不仅存在中标单位与某某单位的项目经理是谁间隔文字数量不多的情况，也存在中标单位与某某单位的项目经理是谁间隔文字数量较多的情况。为了避免由于实体名称与实体内容间隔较长内容，无法通过滑动窗口的方式将其截取在一个文段中的问题，可以采用注意力机制对长文本数据进行处理。

具体地，执行S103，将每个长文本数据的M个文段输入改进的Roberta模型中进行训练，得到识别模型，该改进的Roberta模型包括编码层、加性注意力层以及分类层，其中，编码层用于对每个文段进行编码，得到每个文段的编码信息，加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，使得每个文段编码矩阵包含当前文段的编码信息和之前文段的编码信息，该分类层用于对每个文段的实体内容进行分类，得到分类结果。

首先，在执行S103之前，该改进的Roberta模型还包括：对抗训练层，具体用于对训练样本增加对抗样本。对抗训练来源于图像处理领域，在对训练好的图像分类模型中，若只提供正常图像训练得到的图像分类模型，该图像分类模型只能能识别正常图像的类别，对于提供具有扰动的图像时，则无法进行有效识别，因此，对抗训练层就是在训练过程中加入对抗样本或者扰动，让该模型去学会抵抗扰动和攻击，从而让模型具有更强的鲁棒性。

接下来，每个文段进入编码层，对每个文段进行编码，得到每个文段的编码信息。该编码信息与文段的内容相关。

接下来，进入加性注意力层，具体用于基于每个文段的编码信息，得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息以及之前文段的编码信息。具体地：

该加性注意力层用于基于第一文段的第一编码信息，初始化一个全零矩阵，并将第一编码信息更新至该全零矩阵中，得到第一文段的第一编码矩阵。加性注意力层用于基于第二文段的第二编码信息，第一编码矩阵，以及第二编码信息与第一编码矩阵之间的相似度，得到第二文段的第二编码矩阵；加性注意力层用于基于第i文段的第i编码信息，第i-1文段的第i-1编码矩阵，以及第i编码信息与第i-1编码矩阵之间的相似度，得到第i文段的第i编码矩阵，直至得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息。下面以任意当前文段为例，描述如何得到当前文段的编码矩阵。

具体地，加性注意力层用于基于第i文段的第i编码信息和第i-1文段的第i-1编码矩阵，确定第i编码信息与第i-1编码矩阵之间的相似度，具体按照如下公式得到：

，其中，a为相似度，/>为非线性激活函数，/>、/>、/>均为模型可学习参数，/>为第i编码信息，/>为第i-1编码矩阵；

，其中，V为第i文段的第i编码矩阵。

由此，按照上述的方法得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息。

通过将每个文段与之前文段建立关联，即通过在编码矩阵中记录之前文段的编码信息，可以避免由于实体内容间隔较远，无法建立关系的情况。

接下来，进入分类层，该分类层用于基于每个文段的编码矩阵，得到分类结果。也就是可以从每个文段中识别得到实体内容的标注信息。那么，分类层的分类结果为标注信息。

接下来，进入解码层，该改进的Roberta模型还包括解码层，用于对分类层输出的分类结果进行解码。

具体地，该解码层根据该标注信息，确定实体内容即实体类型。比如，根据B-中标单位和I-中标单位，可以得到中标单元的整体名称。

通过不断对该改进的Roberta模型进行训练，使用Macro-F1为标准，对实体类型的F1值的算数平均值计算，对训练结果进行评判。由此得到识别模型。该识别模型具有从长文本中识别到实体内容即实体类别的功能。

接下来，是模型的应用，执行S104，获取待识别文本；S105，基于待识别文本和识别模型，得到待识别文本的实体内容即实体类别。

具体地，将待识别文本采用滑动窗口方式截取为M个文段，使得相邻文段之间有交叉内容。接着，将M个文段输入该识别模型，从而得到待识别文本的实体内容及实体类别。

实施例2

基于相同的发明构思，本发明实施例还提供了一种长文本实体识别装置，如图2所示，包括：

第一获取模块201，用于获取N个长文本数据作为训练样本，其中，所述N个长文本数据中每个长文本数据的实体内容均有标注实体类型；

截取模块202，用于将每个长文本数据截取为M个文段；

训练模块203，用于将每个长文本数据的M个文段输入改进的Roberta模型中进行训练，得到识别模型，所述改进的Roberta模型包括编码层、加性注意力层以及分类层，其中，所述编码层用于对每个文段进行编码，得到每个文段的编码信息，所述加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码和之前文段的编码，所述分类层用于对每个文段的实体内容进行分类，得到分类结果；

第二获取模块204，用于获取待识别文本；

得到模块205，用于基于所述待识别文本和所述识别模型，得到所述待识别文本的实体内容及实体类别。

在一种可选的实施方式中，截取模块202，用于：

在一种可选的实施方式中，所述改进的Roberta模型还包括对抗训练层，用于对训练样本增加对抗样本。

在一种可选的实施方式中，训练模块203，包括：所述加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，每个文段的编码矩阵包含当前文段的编码和之前文段的编码，包括：

在一种可选的实施方式中，训练模块203，包括：

其中，为相似度，/>为非线性激活函数，/>、/>、/>均为模型可学习参数，/>为第i编码信息，/>为第i-1编码矩阵；

其中，为第i文段的第i编码矩阵。

在一种可选的实施方式中，所述改进的Roberta模型还包括：解码层，用于对所述分类层输出的分类结果进行解码。

在一种可选的实施方式中，所述实体内容包括：人名、地点、机构名称、时间日期和专有名词。

实施例3

基于相同的发明构思，本发明实施例提供了一种计算机设备，如图3所示，包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序，所述处理器302执行所述程序时实现上述长文本实体识别方法的步骤。

其中，在图3中，总线架构（用总线300来代表），总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

实施例4

基于相同的发明构思，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述长文本实体识别方法的步骤。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个实施例中所明确记载的特征更多的特征。更确切地说，如每个实施例所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在具体实施方式中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的光斑中心对准调整装置、计算机设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种长文本实体识别方法，其特征在于，包括：

将每个长文本数据截取为M个文段；

获取待识别文本；

2.如权利要求1所述的方法，其特征在于，所述将每个长文本数据截取为M个文段，包括：

3.如权利要求1所述的方法，其特征在于，所述改进的Roberta模型还包括对抗训练层，用于对训练样本增加对抗样本。

4.如权利要求1所述的方法，其特征在于，所述加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，每个文段的编码矩阵包含当前文段的编码和之前文段的编码，包括：

5.如权利要求1所述的方法，其特征在于，所述加性注意力层用于基于第i文段的第i编码信息、第i-1文段的第i-1编码矩阵，以及第i编码信息与第i-1编码矩阵之间的相似度，得到第i文段的第i编码矩阵，包括：

，其中，/>为相似度，/>为非线性激活函数，、/>、/>均为模型可学习参数，/>为第i编码信息，/>为第i-1编码矩阵；

，其中，/>为第i编码矩阵。

6.如权利要求1所述的方法，其特征在于，所述改进的Roberta模型还包括：解码层，用于对所述分类层输出的分类结果进行解码。

7.如权利要求1所述的方法，其特征在于，所述实体内容包括：人名、地点、机构名称、时间日期和专有名词。

8.一种长文本实体识别装置，其特征在于，包括：

截取模块，用于将每个长文本数据截取为M个文段；

第二获取模块，用于获取待识别文本；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~7中任一权利要求所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1~7中任一权利要求所述的方法步骤。