CN113723051B

CN113723051B - 一种文本标注方法、装置、电子设备及存储介质

Info

Publication number: CN113723051B
Application number: CN202110986482.2A
Authority: CN
Inventors: 李钊; 赵凯; 邓晓雨; 刘岩; 宋慧驹
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-09-15
Anticipated expiration: 2041-08-26
Also published as: CN113723051A

Abstract

本申请提供了一种文本标注方法、装置、电子设备及存储介质，涉及数据处理领域。获取待标注文本，并接收用户针对待标注文本输入的关键词，根据待标注文本生成文本数据特征，并根据关键词生成关键词特征，通过至少一个交叉注意力模块和至少一个融合注意力模块对文本数据特征和关键词特征进行处理，得到针对待标注文本的文本标注结果，文本标注结果用于指示关键词在待标注文本中的位置。将关键词特征和文本数据特征经过交叉注意力模块和融合注意力模块的处理，可以使得关键词特征和文本数据特征的匹配准确度高，从而使得文本标注的效果好，得到的文本标注结果一致性高。

Description

一种文本标注方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，更具体地说，涉及一种文本标注方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的不断进步和发展，网络中的内容来源不断增加，使得网络中的内容庞杂众多，可能会包含违规广告等各种不同的违规内容，这类内容需要将违规文字标注出来并且禁止发布。所以，在大数据时代，对各种类型的标注均存在大量的需求。

然而，现有的标注方式多以人工标注为主，对于数量级很大的待标注文本和待标注数据，人工标注无疑需要非常大的人力成本，且标注一致性较差。

发明内容

为了解决上述现有技术中的问题，本申请实施例提供了一种文本标注方法，可以使得关键词特征和文本数据特征的匹配准确度高，从而使得文本标注的效果好，得到的文本标注结果一致性高。

第一方面，本申请实施例提供了一种文本标注方法，所述方法包括：

获取待标注文本，并接收用户针对所述待标注文本输入的关键词；

根据所述待标注文本生成文本数据特征，并根据所述关键词生成关键词特征；

通过至少一个交叉注意力模块和至少一个融合注意力模块对所述文本数据特征和所述关键词特征进行处理，得到针对所述待标注文本的文本标注结果；其中，所述交叉注意力模块用于根据所述文本数据特征和所述关键词特征生成交叉文本数据特征和交叉关键词特征，所述融合注意力模块用于根据所述交叉文本数据特征和所述交叉关键词特征生成所述文本标注结果；所述文本标注结果用于指示所述关键词在所述待标注文本中的位置。

在一种可能的实现方式中，所述通过至少一个交叉注意力模块和至少一个融合注意力模块对所述文本数据特征和所述关键词特征进行处理，得到针对所述待标注文本的文本标注结果，包括：

通过特征融合模型对所述文本数据特征和所述关键词特征进行处理，得到针对所述待标注文本的文本标注结果；所述特征融合模型包括相同数量的交叉注意力模块和融合注意力模块，所述交叉注意力模块和所述融合注意力模块交替排列。

在一种可能的实现方式中，所述特征融合模型的训练过程包括：

根据训练数据集中的训练样本，生成用于训练特征融合模型的样本特征；

根据所述训练数据集生成待训练关键词集合，并根据所述待训练关键词集合生成用于训练特征融合模型的样本关键词特征；

基于所述样本特征以及所述样本关键词特征，对待训练的特征融合模型进行迭代训练，得到已训练的特征融合模型。

在一种可能的实现方式中，所述根据训练数据集中的训练样本，生成用于训练特征融合模型的样本特征，包括：

根据所述训练样本中的每个字符对应的字符标识，得到所述训练样本的标识样本特征；

将所述标识样本特征中的各个字符标识分别与对应的位置编码相加，得到所述样本特征。

在一种可能的实现方式中，所述根据所述待训练关键词集合生成用于训练特征融合模型的样本关键词特征，包括：

将包含在所述待训练关键词集合中，且未包含在所述训练样本中的待训练关键词，使用预设字符进行替换，得到所述训练样本对应的样本关键词表；

根据所述样本关键词表中的每个字符对应的字符标识，得到标识样本关键词特征；

将所述标识样本关键词特征中的各个字符标识分别与对应的位置编码相加，得到样本关键词特征。

在一种可能的实现方式中，所述基于所述样本特征以及所述样本关键词特征训练待训练的特征融合模型，得到已训练的特征融合模型，包括：

将所述样本特征以及所述样本关键词特征输入特征融合单元，得到融合特征向量；所述特征融合模型包括至少一个特征融合单元，所述特征融合单元包括交叉注意力模块和融合注意力模块；

将所述融合特征向量输入预测单元，得到预测概率；

根据所述预测概率确定损失值，并根据所述损失值调整特征融合模型的参数，直至所述损失值满足阈值为止，得到所述已训练的特征融合模型。

在一种可能的实现方式中，所述将所述样本特征以及所述样本关键词特征输入特征融合单元，得到融合特征向量，包括：

将所述样本特征以及所述样本关键词特征输入交叉注意力模块中，得到交叉关键词特征向量和交叉样本特征向量；

将所述交叉关键词特征向量和所述交叉样本特征向量输入融合注意力模块，得到融合关键词特征向量和融合样本特征向量，以作为下一个特征融合单元的输入；所述特征融合模型输出的融合特征向量为最后一层的特征融合单元得到的融合样本特征向量中设定维度对应的特征向量。

第二方面，本申请实施例提供了一种文本标注装置，所述装置包括：

获取模块，用于获取待标注文本，并接收用户针对所述待标注文本输入的关键词；

生成模块，用于根据所述待标注文本生成文本数据特征，并根据所述关键词生成关键词特征；

标注模块，用于通过至少一个交叉注意力模块和至少一个融合注意力模块对所述文本数据特征和所述关键词特征进行处理，得到针对所述待标注文本的文本标注结果；其中，所述交叉注意力模块用于根据所述文本数据特征和所述关键词特征生成交叉文本数据特征和交叉关键词特征，所述融合注意力模块用于根据所述交叉文本数据特征和所述交叉关键词特征生成所述文本标注结果；所述文本标注结果用于指示所述关键词在所述待标注文本中的位置。

在一种可能的实现方式中，所述标注模块，还用于：

在一种可能的实现方式中，所述文本标注装置还包括：

训练模块，用于根据训练数据集中的训练样本，生成用于训练特征融合模型的样本特征；

在一种可能的实现方式中，所述训练模块，还用于：

将所述融合特征向量输入预测单元，得到预测概率；

在一种可能的实现方式中，训练模块，还用于：

将样本特征以及样本关键词特征输入交叉注意力模块中，得到交叉关键词特征向量和交叉样本特征向量；

将交叉关键词特征向量和交叉样本特征向量输入融合注意力模块，得到融合关键词特征向量和融合样本特征向量，以作为下一个特征融合单元的输入；特征融合模型输出的融合特征向量为最后一层的特征融合单元得到的融合样本特征向量中设定维度对应的特征向量。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，可以实现第一方面中任一项文本标注方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面中任一项文本标注方法的步骤。

本申请实施例提供的文本标注方法中，在标注文本时，先获取待标注文本，并接收用户针对待标注文本输入的关键词；根据待标注文本生成文本数据特征，并根据关键词生成关键词特征，通过至少一个交叉注意力模块和至少一个融合注意力模块对文本数据特征和关键词特征进行处理，得到针对待标注文本的文本标注结果；其中，交叉注意力模块用于根据文本数据特征和关键词特征生成交叉文本数据特征和交叉关键词特征，融合注意力模块用于根据交叉文本数据特征和交叉关键词特征生成文本标注结果；文本标注结果用于指示关键词在待标注文本中的位置。将关键词特征和文本数据特征经过交叉注意力模块和融合注意力模块的处理，可以使得关键词特征和文本数据特征的匹配准确度高，从而使得文本标注的效果好，得到的文本标注结果一致性高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本标注方法的流程示意图；

图2为本申请实施例提供的一种特征融合模型的结构示意图；

图3为本申请实施例提供的一种训练特征融合模型的流程示意图；

图4为本申请实施例提供的另一种特征融合模型的结构示意图；

图5为本申请实施例提供的一种交叉注意力模块的结构示意图；

图6为本申请实施例提供的一种融合注意力模块的结构示意图；

图7为本申请实施例提供的一种文本标注装置的结构示意图；

图8为本申请实施例提供的另一种文本标注装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

需要说明的是，本申请的文件中涉及的术语“包括”和“具有”以及它们的变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

为了得到标注结果一致性好的标注结果文本，在标注文本时，先获取待标注文本，并接收用户针对待标注文本输入的关键词；根据待标注文本生成文本数据特征，并根据关键词生成关键词特征，通过至少一个交叉注意力模块和至少一个融合注意力模块对文本数据特征和关键词特征进行处理，得到针对待标注文本的文本标注结果；其中，交叉注意力模块用于根据文本数据特征和关键词特征生成交叉文本数据特征和交叉关键词特征，融合注意力模块用于根据交叉文本数据特征和交叉关键词特征生成文本标注结果；文本标注结果用于指示关键词在待标注文本中的位置。将关键词特征和文本数据特征经过交叉注意力模块和融合注意力模块的处理，可以使得关键词特征和文本数据特征的匹配准确度高，从而使得文本标注的效果好，得到的文本标注结果一致性高。

图1示出了本申请实施例提供的一种文本标注方法的流程示意图，应用于电子设备。该电子设备可以是计算机、服务器或其他具备数据处理能力的设备。如图1所示，该文本标注方法可以包括如下步骤：

步骤S101：获取待标注文本，并接收用户针对所述待标注文本输入的关键词。

步骤S102：根据待标注文本生成文本数据特征，并根据关键词生成关键词特征。

计算机获取待标注文本，用户针对待标注文本中的内容输入想要标注出的关键词，根据待标注文本生成文本数据特征，在根据关键词生成关键词特征。根据文本数据特征和关键词特征可以生成待标注文本的文本标注结果。

步骤S103：通过至少一个交叉注意力模块和至少一个融合注意力模块对文本数据特征和关键词特征进行处理，得到针对待标注文本的文本标注结果。

其中，交叉注意力模块用于根据文本数据特征和关键词特征生成交叉文本数据特征和交叉关键词特征，融合注意力模块用于根据交叉文本数据特征和交叉关键词特征生成文本标注结果；文本标注结果用于指示关键词在待标注文本中的位置。

将文本数据特征和关键词特征输入至少一个交叉注意力模块和至少一个融合注意力模块中，交叉注意力模块根据文本数据特征和关键词特征生成交叉文本数据特征和交叉关键词特征，再将交叉文本数据特征和交叉关键词特征输入到融合注意力模块中，融合注意力模块根据交叉文本数据特征和交叉关键词特征生成文本标注结果，文本标注结果用于指示关键词在待标注文本中的位置。

在一种可能的实施方式中，可以通过特征融合模型对文本数据特征和关键词特征进行处理，特征融合模型可以包括相同数量的交叉注意力模块和融合注意力模块，交叉注意力模块和融合注意力模块交替排列。将步骤S102得到的文本数据特征和关键词特征输入特征融合模型，可以得到针对待标注文本的文本标注结果。

示例性地，本申请实施例所使用的特征融合模型可以如图2所示，其中，特征融合模型中包括相同数量的交叉注意力模块和融合注意力模块，且包括至少一个交叉注意力模块和至少一个融合注意力模块，交叉注意力模块和融合注意力模块交替排列，交叉注意力模块和融合注意力模块是以串联的方式连接。将文本数据特征和关键词特征输入到已训练的特征融合模型中，利用已训练的特征融合模型对文本数据特征和关键词特征进行处理，得到针对待标注文本的文本标注结果。

本申请实施例所使用的特征融合模型可以如图4所示，特征融合模型可以包括串行连接的多个特征融合单元，每个特征融合单元包括交叉注意力模块和融合注意力模块，将文本数据特征和关键词特征输入特征融合单元中，交叉注意力模块接收文本数据特征和关键词特征，生成交叉文本数据特征和交叉文本关键词特征，将交叉文本数据特征和交叉文本关键词特征输入到此特征融合单元中的融合注意力模块中，生成融合文本数据特征和融合文本关键词特征，以做为下一个特征融合单元中交叉注意力模块的输入，最后一个特征融合单元中的融合注意力模块输出针对待标注文本的文本标注结果。

进一步地，用已训练的特征融合模型对待标注文本进行标注得到文本标注结果时，还可以同时选择人工对待标注文本进行标注，也可以得到人工文本标注结果，将文本标注结果与人工文本标注结果进行对比，可以人为的检测出已训练的特征融合模型的标注能力。

对于步骤S103中利用交叉注意力模块和融合注意力模块处理文本数据特征和关键词特征，其中，可以利用已训练的特征融合模型对文本数据特征和关键词特征进行处理，并生成标注文本的文本标注结果。所以需要对待训练的特征融合模型进行训练以得到已训练的特征融合模型。

图3示出了本申请实施例提供的一种训练特征融合模型的流程示意图，如图3所示，特征融合模型的训练过程包括如下步骤：

步骤S301：根据训练数据集中的训练样本，生成用于训练特征融合模型的样本特征。

具体地，可以从训练数据集随机抽取训练样本，根据训练样本中的每个字符对应的字符标识，得到训练样本的标识样本特征，将标识样本特征中的各个字符标识分别与对应的位置编码相加，得到样本特征。

在一种可能的实施例中，训练特征融合模型的过程中，先获取训练数据集，从训练数据集中抽取一部分训练样本，将训练样本按照字符进行切分，实质上是在字符中插入第一特定字符，得到训练样本切分后的训练样本字符集合。在训练样本字符集合的头部位置插入第二特定字符，在训练样本字符集合的尾部位置插入第三特定字符，得到最终版本的训练样本字符集合，将最终版本的训练样本字符集合命名为{S0}。

根据集合{S0}中每个字符对应的字符标识，将集合{S0}中的每个字符替换成对应的标识，得到训练样本的标识样本特征。其中，第一特定字符、第二特定字符、第三特定字符以及标点符号均有对应的字符标识，所有字符与字符标识的对应映射关系均包含在一个词典中，此词典记为样本字符标识词典D_S。

将标识样本特征中每个字符标识依次与对应的位置编码相加，得到加入位置编码后的样本特征。

步骤S302：根据训练数据集生成待训练关键词集合，并根据待训练关键词集合生成用于训练特征融合模型的样本关键词特征。

具体地，将包含在待训练关键词集合中，且未包含在训练样本中的待训练关键词，使用预设字符进行替换，得到训练样本对应的样本关键词表，根据样本关键词表中的每个字符对应的字符标识，得到标识样本关键词特征，将标识样本关键词特征中的各个字符标识分别与对应的位置编码相加，得到样本关键词特征。

在一种可能的实施例中，先获取训练数据集，根据训练数据集生成待训练关键词集合，待训练关键词集合可以使用词频统计模型对训练数据集进行高频词汇检索，检索到高频词汇之后，将获得的高频词汇进行汇总、去重，就得到了待训练关键词集合，此集合是训练数据集对应的关键词集合。

进一步地，用户获取到训练数据集之后，一般情况下，都可以得知想要标注的关键词是哪些，可以根据用户自定义关键词的方式得到待训练关键词集合。

待训练关键词集合是针对训练数据集的关键词集合，在对训练数据集进行抽取部分训练样本之后，需要在待训练关键词集合中检索到与抽取的部分训练样本对应的样本关键词表，将包含在待训练关键词集合中，且未包含在训练样本中的待训练关键词，使用预设字符进行替换。其中，可以根据待训练关键词集合构建关键词索引表，依次将训练样本输入到关键词索引表中进行检索，就可以在待训练关键词集合中得到和训练样对应的样本关键词，将待训练关键词集合中未被训练样本命中的待训练关键词利用第一特定字符进行替换，得到样本关键词表，将样本关键词表记为f。

在样本关键词表f中包括关键词和第一特定字符，两个第一特定字符之间可能包括多个关键词，将多个关键词转换成为字符串的形式，可以得到一个关键词字符串和一个第一特定字符的交叉排列方式，就得到中间样本关键词集合，在中间样本关键词集合的头部位置插入第二特定字符，在中间样本关键词集合的尾部位置插入第三特定字符，得到最终版本的样本关键词集合，将最终版本的样本关键词字符集合命名为{F0}。

将样本关键词字符集合{F0}中的字符替换为字符对应的标识，得到样本关键词表的标识样本关键词特征。包含样本关键词字符集合{F0}中的字符与标识对应映射关系的词典记为关键词字符标识词典D_F。关键词字符标识词典中包括的是关键词整体字符对应的标识，如“重大疾病”为一个关键词，其对应的字符标识为一个整体。

将标识样本关键词特征中每个字符标识依次与对应的位置编码相加，得到加入位置编码后的样本关键词特征。

步骤S303：基于样本特征以及样本关键词特征，对待训练的特征融合模型进行迭代训练，得到已训练的特征融合模型。

具体地，将样本特征以及样本关键词特征输入特征融合单元，得到特征融合向量，将融合特征向量输入预测单元，得到预测概率，根据预测概率和对特征融合模型训练时使用的交叉熵损失计算特征融合模型的损失值，并根据损失值调整特征融合模型的参数，直至损失值满足阈值为止，得到已训练的特征融合模型，将训练好的特征融合模型输出备用。

其中，特征融合模型可以包括一个或多个特征融合单元，特征融合单元中包括交叉注意力模块和融合注意力模块。

进一步地，预测单元中包括的是全连接层和Softmax(Normalized exponentialfunction，归一化指数函数)层，输入为融合特征向量，输出对特征融合模型的预测概率。

可以根据预测概率和对特征融合模型训练使用交叉熵损失，再结合人工对训练数据集中的训练样本的文本标注结果计算特征融合模型损失函数。

本申请中使用已训练的特征融合模型对待标注文本进行标注，本申请中的已训练的特征融合模型可以更准确的对样本特征和样本关键词特征进行融合，得到的标注结果更加准确。而且，对于现有的人工标注而言，利用模型标注，得到的文本标注结果的一致性更好，在标注前、标注中以及标注后，均可以对数据统一进行调整，也不会存在人工标注的泄露风险，若用于医疗问答等标注时，能够保证数据的安全性。

进一步地，在进行训练时，可以根据预设的标注规则，按照比例加入一定量的干扰数据集，将干扰数据集和待标注数据集合并，得到综合数据集，运用综合数据集对特征融合模型进行训练，并调整每一次的模型参数，可以得到标注效果更好的已训练的特征融合模型。

在训练特征融合模型的过程中，得到损失值满足预设范围的结果后，还可以人为的进行质检，检验特征融合模型对综合数据集的标注质量，若质量不高，则继续调整特征融合模型的参数，直至在损失值满足预设范围的基础上，人为质检的标注质量也满足在输出已训练的特征融合模型。

进一步地，在使用已训练好的特征融合模型的过程中，为了避免特征融合模型的冷启动，可以使用最后一次损失值满足预设范围的待训练数据集中的训练样本，让特征融合模型对训练样本进行一次标注，在进行使用，标注效果更好。

进一步地，使用已训练好的特征融合模型的过程中，得到文本标注结果后，可以人工再进行质检，评估整体的标注质量。

在一种可能的实施例中，图4示出了另一种特征融合模型的结构示意图，其中，特征融合模型至少包括一个特征融合单元，特征融合单元包括交叉注意力模块和融合注意力模块。

特征融合模型的一次迭代训练过程为，将样本特征以及样本关键词特征输入到待训练的特征融合模型中的特征融合单元中，将最后一个特征融合单元输出的融合特征向量输入到预测单元，得到预测概率，根据预测概率确定特征融合模型此次训练的损失值，若损失值未能满足阈值，则根据损失值调整特征融合模型的参数，对待训练的特征融合模型的第二次训练。

每进行一次训练之后根据损失值调整特征融合模型的参数，再一次对待训练的特征融合模型进行迭代训练，直至损失值满足阈值为止，得到已训练的特征融合模型。

将样本特征以及样本关键词特征输入交叉注意力模块中，得到交叉关键词特征向量和交叉样本特征向量，将交叉关键词特征向量和交叉样本特征向量输入融合注意力模块，得到融合关键词特征向量和融合样本特征向量，以作为下一个特征融合单元的输入，特征融合模型输出的融合特征向量为最后一层的特征融合单元得到的融合样本特征向量中设定维度对应的特征向量。

在一种可能的实施例中，特征融合单元包括交叉注意力模块和融合注意力模块，交叉注意力模块和融合注意力模块均是“双流”架构。交叉注意力模块接收样本特征和样本关键词特征，输出交叉文本数据特征和交叉关键词特征，融合注意力模块接收交叉文本数据特征和交叉关键词特征，输出融合关键词特征向量和融合样本特征向量。融合注意力模块输出的融合关键词特征向量和融合样本特征向量作为下一个融合特征单元中的交叉注意力模块的输入。最后一层特征融合单元中融合注意力模块输出的融合特征向量中设定维度对应的特征向量作为特征融合模型输出的融合特征向量。

在一种可能的实施例中，图5示出了一种交叉注意力模块的结构示意图，交叉注意力模块包括两个交叉注意力层，分别为关键词交叉注意力层和样本交叉注意力层；两个自注意力层，分别为关键词自注意力层和样本自注意力层；两个前向传播层，分别为关键词前向传播层和样本前向传播层。

样本交叉注意力层、样本自注意力层和样本前向传播层按照顺序以串联的方式连接，为“交叉样本流”，接收样本特征，输出交叉样本特征向量。

关键词交叉注意力层、关键词自注意力层和关键词前向传播层按照顺序以串联的方式连接，为“交叉关键词流”，接收样本关键词特征，输出交叉关键词特征向量。

“交叉样本流”和“交叉关键词流”共同组成交叉注意力模块的“双流”结构，其中，关键词交叉注意力层和样本交叉注意力层并联连接。

进一步地，每次交叉注意力层，自注意力层和前向传播层对特征向量进行处理后，均可以进行归一化运算，在进行后续处理。

示例性地，样本交叉注意力层接收到样本特征、关键词交叉注意力层接收样本关键词特征，将关键词样本特征的注意力矩阵Q_f、K_f、V_f和样本特征注意力特征矩阵Q_s、K_s、V_s进行交叉注意力运算，由于关键词交叉注意力层和样本交叉注意力层并联连接，所以实质上就是将矩阵中的K_f、V_f、Q_s作为样本交叉注意力层的输入，将矩阵中的Q_f、K_s、V_s作为关键词交叉注意力层的输入。得到交叉关键词第一中间特征向量和交叉样本第一中间特征向量。

计算的公式如下：

F_{交叉关键词第一中间特征向量}＝Norm(CrossAtt(F_{样本关键词特征}，S_样本特征))

S_{交叉样本第一中间特征向量}＝Norm(CrossAtt(F_{样本关键词特征}，S_样本特征))

其中，Norm(〃)代表归一化运算，CrossAtt(〃)代表多头交叉注意力运算。

样本自注意力层接收交叉样本第一中间特征向量，关键词自注意力层交叉关键词第一中间特征向量，得到交叉关键词第二中间特征向量以及交叉样本第二中间特征向量。计算的公式如下：

F_{交叉关键词第二中间特征向量}＝Norm(SelfAtt(F_{交叉关键词第一中间特征向量}))

S_{交叉样本第二中间特征向量}＝Norm(SelfAtt(S_{交叉样本第一中间特征向量}))

其中，SelfAtt(〃)代表多头自注意力运算。

样本前向传播层接收交叉样本第二中间特征向量，关键词前向传播层接收交叉关键词第二中间特征向量，得到交叉样本特征向量和交叉关键词特征向量。计算的公式如下：

F_{交叉关键词特征向量}＝Norm(FC(F_{交叉关键词第二中间特征向量}))

S_{交叉样本特征向量}＝Norm(FC(S_{交叉样本第二中间特征向量}))

其中，FC(〃)代表全连接运算。

由于全连接运算可以实现前向传播的作用，所以这里的前向传播层实际运用的是全连接运算。

在一种可能的实施例中，图6示出了一种融合注意力模块的结构示意图，融合注意力模块中“融合关键词流”的处理为融合关键词自注意力层接收交叉关键词特征向量，输出融合关键词中间特征向量，融合关键词全连接层接收融合关键词中间特征向量，输出融合关键词特征向量。

融合注意力模块中“融合样本流”的处理为：融合注意力模块还包括特征融合层，特征融合层接收交叉关键词特征向量，对交叉关键词特征向量进行处理，将交叉关键词特征向量和交叉样本特征向量进行特征融合，得到融合中间特征向量。融合样本自注意力层接收融合中间特征向量，输出融合样本中间特征向量。融合样本全连接层接收融合样本中间特征向量，输出融合样本特征向量。

进一步地，每次对特征向量进行处理后，均可以进行归一化运算，在进行后续处理。

示例性地，融合特征模块中的“融合关键词流”的处理过程为：融合关键词自注意力层接收交叉关键词特征向量，得到融合关键词中间特征向量。计算的公式如下：

F_{融合关键词中间特征向量}＝Norm(SelfAtt(F_{交叉关键词特征向量}))

融合关键词全连接层接收融合关键词中间特征向量，输出融合关键词特征向量。计算的公式如下：

F_{融合关键词特征向量}＝Norm(FC(F_{融合关键词中间特征向量}))

融合特征模块中的“融合样本流”的处理过程为：特征融合层接收交叉关键词特征向量，进行向量矩阵化操作，在对矩阵化的向量进行多层感知运算。这里，多层感知运算实际使用的是全连接运算。

由于一个关键词字符可能对应多个样本字符，因此，一个维度的交叉关键词特征向量可能对应交叉样本特征向量中的多个维度，在进行交叉关键词特征向量和交叉样本特征向量的融合时，需要利用向量矩阵化操作将二者的维度进行匹配。例如，关键词“重大疾病”在交叉关键词特征向量中以1*特征向量的维度形式进行表示，其对应的是“重”、“大”、“疾”、“病”四个字符的交叉样本特征向量，以3*特征向量的维度形式表示。所以，需要通过向量矩阵化操作将交叉关键词特征向量也转化为3*特征向量的维度，才能进行后续计算。

多层感知运算主要包含若干隐藏层，在训练过程中，通过定义的损失函数计算模型的损失，在通过损失的反向传播对隐藏层的参数进行更新，最终达到将交叉关键词特征向量融合进交叉样本特征向量的效果，融合后得到融合中间特征向量。其中，隐藏的参数包括权重W和偏置b。计算的公式如下：

S_{融合中间特征向量}＝S_{交叉样本特征向量}+FC(Vec2Matrix(F_{交叉关键词特征向量}))

其中，Vec2Matrix是向量矩阵化操作。

融合样本自注意力层接收融合中间特征向量，输出融合样本中间特征向量。计算的公式如下：

S_{融合样本中间特征向量}＝Norm(SelfAtt(S_{融合中间特征向量}))

融合样本全连接层接收融合样本中间特征向量，输出融合样本特征向量。计算的公式如下：

S_{融合样本特征向量}＝Norm(FC(S_{融合样本中间特征向量}))

进一步地，特征融合层接收交叉关键词特征向量，将交叉关键词特征向量融合进叉样本特征向量可以使用另一种方式，利用序列门运算的方式，由一系列首尾相连的门运算单元G_i组成；每个门运算单元由输入们、遗忘门、重置们、更新门、输出门中的若干种，通过串联或并联的方式组成，实现门运算。具体而言，先将交叉关键词特征向量进行向量矩阵化操作，转化为m*dim维的矩阵，再拆解成序列(1*dim)的向量形式依次输入G₁～G_m单元，上一单元G_l-1的输出特征gl-1也同时作为隐含特征直接输入下一单元G_l，并在与F_l-1的第l个特征进行门运算GC后，得到G_l单元的输出特征g_l。经过序列门运算层的计算后，得到新的m*dim维的门运算关键词特征向量。计算的公式如下：

S_{融合中间特征向量}＝S_{交叉样本特征向量}+GC(Vec2Matrix(F_{交叉关键词特征向量}))

与上述方法实施例基于同一发明构思，本申请实施例还提供一种文本标注装置。图7示出了本申请实施例提供的一种文本标注装置的结构示意图。该文本标注装置，应用于电子设备，如图7所示，该文本标注装置包括：

获取模块701，用于获取待标注文本，并接收用户针对待标注文本输入的关键词；

生成模块702，用于根据待标注文本生成文本数据特征，并根据关键词生成关键词特征；

标注模块703，用于通过至少一个交叉注意力模块和至少一个融合注意力模块对文本数据特征和关键词特征进行处理，得到针对待标注文本的文本标注结果；其中，交叉注意力模块用于根据文本数据特征和关键词特征生成交叉文本数据特征和交叉关键词特征，融合注意力模块用于根据交叉文本数据特征和交叉关键词特征生成文本标注结果；文本标注结果用于指示关键词在待标注文本中的位置。

在一种可能的实现方式中，标注模块703，还用于：

通过特征融合模型对文本数据特征和关键词特征进行处理，得到针对待标注文本的文本标注结果；特征融合模型包括相同数量的交叉注意力模块和融合注意力模块，交叉注意力模块和融合注意力模块交替排列。

在一种可能的实现方式中，图8示出了本申请实施例提供的另一种文本标注装置，该文本标注装置还包括：

训练模块801，用于根据训练数据集中的训练样本，生成用于训练特征融合模型的样本特征；

根据训练数据集生成待训练关键词集合，并根据待训练关键词集合生成用于训练特征融合模型的样本关键词特征；

基于样本特征以及样本关键词特征，对待训练的特征融合模型进行迭代训练，得到已训练的特征融合模型。

在一种可能的实现方式中，训练模块801，还用于：

根据训练样本中的每个字符对应的字符标识，得到训练样本的标识样本特征；

将标识样本特征中的各个字符标识分别与对应的位置编码相加，得到样本特征。

在一种可能的实现方式中，训练模块801，还用于：

将包含在待训练关键词集合中，且未包含在训练样本中的待训练关键词，使用预设字符进行替换，得到训练样本对应的样本关键词表；

根据样本关键词表中的每个字符对应的字符标识，得到标识样本关键词特征；

将标识样本关键词特征中的各个字符标识分别与对应的位置编码相加，得到样本关键词特征。

在一种可能的实现方式中，训练模块801，还用于：

将样本特征以及样本关键词特征输入特征融合单元，得到融合特征向量；特征融合模型包括至少一个特征融合单元，特征融合单元包括交叉注意力模块和融合注意力模块；

将融合特征向量输入预测单元，得到预测概率；

根据预测概率确定损失值，并根据损失值调整特征融合模型的参数，直至损失值满足阈值为止，得到已训练的特征融合模型。

在一种可能的实现方式中，训练模块801，还用于：

基于同一发明构思，本申请实施例中还提供了一种电子设备。图9示出了一种电子设备的结构示意图，电子设备的结构可以如图9所示，包括存储器901、一个或多个处理器902、通讯模块903以及总线904。

存储器901，用于存储处理器902执行的计算机程序。存储器901可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行训练特征融合模型所需要的各种算法。

存储器901可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器901也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器901是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器901可以是上述存储器的组合。

处理器902，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等。处理器902，用于调用存储器901中存储的计算机程序时实现上述文本标注方法。

通讯模块903用于与其他终端设备或后台服务器进行通信，并提供接口服务，可以用于接收训练数据集。

本申请实施例中不限定上述存储器901、处理器902和通讯模块903之间的具体连接介质。本公开实施例在图9中以存储器901和处理器902之间通过总线904连接，总线904在图9中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线904可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器901中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的文本标注方法。处理器902用于执行上述的文本标注方法。

本申请实施例还提供了一种计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请任一实施例的文本标注方法。

在一些可能的实施方式中，本申请提供的文本标注方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文本标注方法的步骤，例如，计算机设备可以执行如图1所示的步骤S101～S103的文本标注方法的流程。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种文本标注方法，其特征在于，包括：

通过特征融合模型对所述文本数据特征和所述关键词特征进行处理，得到针对所述待标注文本的文本标注结果；所述特征融合模型包括相同数量的交叉注意力模块和融合注意力模块，所述交叉注意力模块和所述融合注意力模块交替排列；其中，所述交叉注意力模块用于根据所述文本数据特征和所述关键词特征生成交叉文本数据特征和交叉关键词特征，所述融合注意力模块用于根据所述交叉文本数据特征和所述交叉关键词特征生成所述文本标注结果；所述文本标注结果用于指示所述关键词在所述待标注文本中的位置；

所述特征融合模型是基于训练数据集中的训练样本的样本特征和样本关键词特征训练得到的；

所述样本关键词特征是通过如下方式生成的：

将包含在待训练关键词集合中，且未包含在所述训练样本中的待训练关键词，使用预设字符进行替换，得到所述训练样本对应的样本关键词表；所述待训练关键词集合是根据所述训练数据集生成的；

2.根据权利要求1所述的方法，其特征在于，所述特征融合模型的训练过程包括：

3.根据权利要求2所述的方法，其特征在于，所述根据训练数据集中的训练样本，生成用于训练特征融合模型的样本特征，包括：

4.根据权利要求2所述的方法，其特征在于，基于所述样本特征以及所述样本关键词特征训练待训练的特征融合模型，得到已训练的特征融合模型，包括：

将所述融合特征向量输入预测单元，得到预测概率；

5.根据权利要求4所述的方法，其特征在于，所述将所述样本特征以及所述样本关键词特征输入特征融合单元，得到融合特征向量，包括：

6.一种文本标注装置，其特征在于，所述装置包括：

标注模块，用于通过特征融合模型对所述文本数据特征和所述关键词特征进行处理，得到针对所述待标注文本的文本标注结果；所述特征融合模型包括相同数量的交叉注意力模块和融合注意力模块，所述交叉注意力模块和所述融合注意力模块交替排列；其中，所述交叉注意力模块用于根据所述文本数据特征和所述关键词特征生成交叉文本数据特征和交叉关键词特征，所述融合注意力模块用于根据所述交叉文本数据特征和所述交叉关键词特征生成所述文本标注结果；所述文本标注结果用于指示所述关键词在所述待标注文本中的位置；所述特征融合模型是基于训练数据集中的训练样本的样本特征和样本关键词特征训练得到的；所述样本关键词特征是通过如下方式生成的：将包含在待训练关键词集合中，且未包含在所述训练样本中的待训练关键词，使用预设字符进行替换，得到所述训练样本对应的样本关键词表；所述待训练关键词集合是根据所述训练数据集生成的；根据所述样本关键词表中的每个字符对应的字符标识，得到标识样本关键词特征；将所述标识样本关键词特征中的各个字符标识分别与对应的位置编码相加，得到样本关键词特征。

7.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1～5中任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～5中任一项所述的方法。