CN113449516A

CN113449516A - 首字母缩写词的消歧方法、系统、电子设备及存储介质

Info

Publication number: CN113449516A
Application number: CN202110633408.2A
Authority: CN
Inventors: 陈海波; 罗志鹏; 潘春光
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-09-28

Abstract

本申请提供了首字母缩写词的消歧方法、系统、电子设备及存储介质。所述消歧方法包括：识别文档的句子中的目标首字母缩写词；将所识别到的所述目标首字母缩写词与预先创建的数据集相匹配，所述数据集中记载有预定数量的首字母缩写词及其对应的英文词组的全称，从而通过所述匹配，获取所识别到的目标首字母缩写词所对应的英文词组的全称；以及在获取到的全称为1个的情况下，输出所述全称；并且在获取到的全称大于1个的情况下，经由预先训练好的二分类模型输出与所述句子的句意相适应的1个全称，从而即使在1个首字母缩写词对应多种全称的情况下，也能够结合该首字母缩写词所在的句子的句意来输出正确的全称，提升用户的体验。

Description

首字母缩写词的消歧方法、系统、电子设备及存储介质

技术领域

本申请涉及计算机数据处理技术领域，尤其涉及首字母缩写词的消歧方法、系统、电子设备及存储介质。

背景技术

首字母缩写在许多英文文献和文档中，特别是在科学和医疗领域十分常见。通过使用首字母缩写词，人们可以避免重复使用较长的短语。例如，“CNN”的全称可以是“Convolutional Neural Network”，不过某些情况下它也可以是“Condensed NearestNeighbor”的缩写。此时，用户可能对于该首字母缩写词的全称究竟是哪一个是比较困惑的，需要自己花费时间进行判断。

了解首字母缩写及其全称之间的对应关系在自然语言处理的许多任务中至关重要，如文本分类、问答系统等。尽管使用首字母缩写词能够便利人们的书写交流，但是一个缩写词往往对应有多个全称，在一些情况下，如科学或医疗领域中，一些专业名词的缩写可能会使得对该领域不熟悉的人在理解文意时产生一些歧义。

因此，如何利用计算机技术协助人们理解不同语境下缩写词的正确含义是值得探讨的问题。本发明为了解决该问题而提出了首字母缩写词消歧即消除歧义的任务，该任务是当给定一个首字母缩写词以及该词对应的几个可能的全称时，根据上下文的文意，确定在当前语境中最合适的全称。

发明内容

本申请的目的在于提供一种首字母缩写词的消歧方法、系统、电子设备及存储介质，其能够利用计算机进行数据处理，使得即使在1个首字母缩写词包含多种全称的情况下，也能够结合该首字母缩写词所在的句子的句意来输出正确的全称，提升用户的体验。

本申请的目的采用以下技术方案实现：

第一方面，本申请提供了一种首字母缩写词的消歧方法，所述首字母缩写词由构成英文词组的多个英文单词中的各英文单词的首字母构成，所述消歧方法包括：

识别文档的句子中的目标首字母缩写词；

将所识别到的所述目标首字母缩写词与预先创建的数据集相匹配，所述数据集中记载有预定数量的首字母缩写词及其对应的英文词组的全称，从而通过所述匹配，获取所识别到的目标首字母缩写词所对应的英文词组的全称；以及

在获取到的全称为1个的情况下，输出所述全称；并且在获取到的全称大于1个的情况下，经由预先训练好的二分类模型输出与所述句子的句意相适应的1个全称。

根据上述的首字母缩写词的消歧方法，即使首字母缩写词的全称大于1个，也能够根据文档中的句子的句意自动判断并且输出正确的全称，从而使得用户能够清楚地了解该首字母缩写词对应的全称，而不需要费时地进行查询工作，从而提升了用户体验性，而且用户也不会因为由于领域不熟悉而错误将该首字母缩写词认为是其它全称，从而能够更加准确地了解句子意思。另外，还可以提供全称词典，即，将与首字母缩写词对应的全部全称向用户显示。

优选地，在第一方面的首字母缩写词的消歧方法，其中，

预先创建所述数据集的方法包括：

经由现有的数据库采集预定数量的英文论文、期刊或报告，

对于采集到的所述英文论文、期刊或报告中出现的首字母缩写词，统计并整理其全称，并且存储在所述数据集中。

根据上述首字母缩写词的消歧方法，由于数据集的创建是经由预定数量的英文论文、期刊或报告而进行的，其采集的数据量是充分的并且对于首字母缩写词的全称的判定准确率高。

优选地，在上述首字母缩写词的消歧方法中，还包括：

经由采集到的所述预定数量的英文论文、期刊或报告来构建标注样本，使得每一个标注样本包含1个带有首字母缩写词的句子，以及该首字母缩写词在句子中的正确全称，并且将该标注样本存储在训练集中，所述二分类模型是利用所述训练集训练得到的。

根据上述首字母缩写词的消歧方法，由于还经由预定数量的英文论文、期刊或报告构建标注样本，因此，除了能够获取到首字母缩写词对应的全称之外，还能够获取该全称所在的句子的句意，建立首字母缩写词的全称与所在的句子之间的关联性。

优选地，在上述首字母缩写词的消歧方法中，利用如下步骤经由预先训练好的二分类模型进行所述输出：

给定包含目标首字母缩写词的句子，将该句子结合该目标首字母缩写词的不同的全称作为候选输入所述二分类模型中，使用所述二分类模型对每一个候选进行预测，获得表示对应的全称是该首字母缩写词在当前句子中的正确全称的可能性的预测值，并且将预测值最高的全称输出，以作为上述目标首字母缩写词在当前句子中的全称。

根据上述首字母缩写词的消歧方法，能够计算出每一个候选的预测值，并且基于预测值来输出对应的首字母缩写词的全称，其能够以简单的方法获取正确率高的输出。

优选地，在上述首字母缩写词的消歧方法中，所述使用所述二分类模型对每一个候选进行预测之前，所述方法还包括：使用句段嵌入处理多个输入语句，将目标首字母缩写词对应的候选全称作为第一个输入句段，将给定的句子作为第二个输入句段，用第一特殊符标记第一个输入句段的开头，用第二特殊符标记两个输入句段的间隔。

根据上述首字母缩写词的消歧方法，能够可靠地进行单文本分类任务：对于文本分类任务，二分类模型诸如BERT模型通过在文本前插入第一特殊字符例如一个[CLS]符号，并将该符号对应的输出向量作为整篇文本的语义表示，用于文本分类，从而与文本中已有的其它字/词相比，这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息。同时，能够用第二特殊符例如[SEP]标志清楚地分开两个输入句子。

优选地，在上述首字母缩写词的消歧方法中，所述使用所述二分类模型对每一个候选进行预测之前，所述方法还包括：添加两个特殊标记<start>和<end>来标记所述首字母缩写词在句子中的开始和结束位置。

根据上述首字母缩写词的消歧方法，使得首字母缩写词能在模型训练中进一步获取足够的关注。

优选地，在上述首字母缩写词的消歧方法中，所述使用所述二分类模型对每一个候选进行预测，包括，

将由所述句段嵌入处理所处理好的数据输入所述二分类模型来获取每个token对应的嵌入表示；

计算首字母缩写词开始和结束位置的嵌入表示平均值，并将该平均值与句子开头的第一特殊符的位置进行向量拼接；以及

将拼接得到的向量通过第一dropout层、第一前向传播层后，通过激活函数ReLU，之后再通过第二dropout层、第二前向传播层，最后通过激活函数Sigmoid得到一个在(0,1)区间的所述预测值。

根据上述首字母缩写词的消歧方法，能够简单地经由基于BERT的二分类器来可靠地创建具体的二分类模型结构。

优选地，在上述首字母缩写词的消歧方法中，预先训练所述二分类模型的方法包括：

选取基础预训练模型；

在给定的训练集上，利用任务自适应预训练方式对所述基础预训练模型进行训练，得到预训练模型，在所述预训练模型上利用动态负采样技术和对抗训练的方式进行训练，得到阶段二分类模型，以及

利用所述阶段二分类模型对无标注数据集进行伪标签判断，得到新的可以加入训练的数据，更新训练集，并且在新的训练集上重复训练过程得到最终的所述二分类模型。

根据上述首字母缩写词的消歧方法，能够融合了多种训练策略来提升模型效果。具体，由于数据集的语料均为科学领域的论文，语料的一致性高，提升了模型性能；通过动态选择固定数目的负样本，保证了分类中负样本在训练中的作用，有效提高了负样本的贡献率，同时也有效提升了模型性能；任务自适应训练的继续训练可以有效地提升模型性能；通过对抗训练引入噪声，可以对参数进行正则化，从而提升模型的鲁棒性和泛化能力；通过伪标签学习也的简单自训练，进一步提升了模型性能。

优选地，在上述首字母缩写词的消歧方法中，选取SCIBERT作为所述基础预训练模型；

在给定的训练集上，利用掩码语言模型的方式对所述基础预训练模型进行训练，得到所述预训练模型；

对所述预训练模型进行训练，得到所述阶段二分类模型，其中，对于每一批次输入所述预训练模型的数据进行动态负采样，动态选择预定数目的负样本，并采用快速梯度方法，在嵌入层加入扰动；使用所述阶段二分类模型在无标注数据集上进行预测，获取无标签数据的伪标签，并将获取到的预测值大于0.95的伪标签数据与之前的训练集混合得到新的训练集，在新的训练集上重复训练过程得到最终的所述二分类模型。

根据上述首字母缩写词的消歧方法，进一步提升了模型性能。

本发明第二方面提供了一种首字母缩写词的消歧系统，所述首字母缩写词由构成英文词组的多个英文单词中的各英文单词的首字母构成，所述消歧系统包括：

识别模块，用于识别文档中的目标首字母缩写词；

匹配模块，用于将所识别到的所述目标首字母缩写词与预先创建的数据集相匹配，所述数据集中记载有预定数量的首字母缩写词及其对应的英文词的全称，从而通过所述匹配，获取所识别到的目标首字母缩写词所对应的英文词组的全称；以及

输出模块，用于在获取到的全称为1个的情况下，输出所述全称；并且在获取到的全称大于1个的情况下，经由预先训练好的二分类模型输出与所述文档中的句子的句意相适应的1个全称。

在第二方面所述的首字母缩写词的消歧系统中，优选地，还包括数据集创建模块，用于预先创建所述数据集，该数据集创建模块预先创建数据集的方法包括：经由现有的数据库采集预定数量的英文论文、期刊或报告，对于采集到的所述英文论文、期刊或报告中出现的首字母缩写词，统计并整理其全称，并且存储在所述数据集中。

在第二方面所述的首字母缩写词的消歧系统中，优选地，还包括标注样本构件模块，用于经由采集到的所述预定数量的英文论文、期刊或报告来构建标注样本，使得每一个标注样本包含1个带有首字母缩写词的句子，以及该首字母缩写词在句子中的正确全称，并且将该标注样本存储在训练集中，所述二分类模型是利用所述训练集训练得到的。

在第二方面所述的首字母缩写词的消歧系统中，优选地，还包括训练模块，用于训练二分类模型，并且所述输出模块利用如下步骤经由所述训练模块所预先训练好的二分类模型进行所述输出：给定包含目标首字母缩写词的句子，将该句子结合该目标首字母缩写词的不同的全称作为候选输入所述二分类模型中，使用所述二分类模型对每一个候选进行预测，获得表示对应的全称是该首字母缩写词在当前句子中的正确全称的可能性的预测值，并且将预测值最高的全称输出，以作为上述目标首字母缩写词在当前句子中的全称。

在第二方面所述的首字母缩写词的消歧系统中，优选地，还包括句段处理模块，用于在所述输出模块使用训练模块所训练好的所述二分类模型对每一个候选进行预测之前，使用句段嵌入处理多个输入语句，将目标首字母缩写词对应的候选全称作为第一个输入句段，将给定的句子作为第二个输入句段，用第一特殊符标记第一个输入句段的开头，用第二特殊符标记两个输入句段的间隔。

在第二方面所述的首字母缩写词的消歧系统中，优选地，还包括预测模块，该预测模块使用所述二分类模型对每一个候选进行预测，包括：将由所述句段嵌入处理所处理好的数据输入所述二分类模型来获取每个token对应的嵌入表示；计算首字母缩写词开始和结束位置的嵌入表示平均值，并将该平均值与句子开头的第一特殊符的位置进行向量拼接；以及将拼接得到的向量通过第一dropout层、第一前向传播层后，通过激活函数ReLU，之后再通过第二dropout层、第二前向传播层，最后通过激活函数Sigmoid得到一个在(0,1)区间的所述预测值。

在第二方面所述的首字母缩写词的消歧系统中，优选地，还包括特殊符添加模块，用于在所述预测模块使用所述二分类模型对每一个候选进行预测之前，添加两个特殊标记<start>和<end>来标记所述首字母缩写词在句子中的开始和结束位置。

在第二方面所述的首字母缩写词的消歧系统中，优选地，预先训练所述二分类模型的所述训练模块，包括：选取单元，用于选取基础预训练模型；预训练模型获取单元，用于在给定的训练集上，利用任务自适应预训练方式对所述基础预训练模型进行训练，得到预训练模型，阶段二分类模型获取单元，用于在所述预训练模型上利用动态负采样技术和对抗训练的方式进行训练，得到阶段二分类模型，以及二分类模型获取单元，用于利用所述阶段二分类模型对无标注数据集进行伪标签判断，得到新的可以加入训练的数据，更新训练集，并且在新的训练集上重复训练过程得到最终的所述二分类模型。

在第二方面所述的首字母缩写词的消歧系统中，优选地，所述选取单元选取SCIBERT作为所述基础预训练模型；所述预训练模型获取单元用于在给定的训练集上，利用掩码语言模型的方式对所述基础预训练模型进行训练，得到所述预训练模型；所述阶段二分类模型获取单元对所述预训练模型进行训练，得到所述阶段二分类模型，其中，对于每一批次输入所述预训练模型的数据进行动态负采样，动态选择预定数目的负样本，并采用快速梯度方法，在嵌入层加入扰动；所述二分类模型获取单元使用所述阶段二分类模型在无标注数据集上进行预测，获取无标签数据的伪标签，并将获取到的预测值大于0.95的伪标签数据与之前的训练集混合得到新的训练集，在新的训练集上重复训练过程得到最终的所述二分类模型。

根据本发明第二方面提供的一种首字母缩写词的消歧系统，其能够实现与第一方面的首字母缩写词的消歧方法同样的技术效果。

第三方面，本申请提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项方法的步骤。

附图说明

下面结合附图和实施例对本申请进一步说明。

图1是本申请实施例提供的一种首字母缩写词的消歧方法的流程示意图；

图2是本申请实施例提供的首字母缩写词的消歧方法的流程示意图的一例；

图3是本申请实施例提供的首字母缩写词的消歧方法的流程示意图的一例；

图4是本申请实施例提供的消歧方法中构建的数据集中一个句子中包含的首字母缩写词个数；

图5是本申请实施例提供的消歧方法中构建的数据集中一个句子中包含的首字母缩写词对应的全称个数；

图6是图1中的步骤S103的具体示意图的一例；

图7是图1中的步骤S103的具体示意图的一例；

图8是图1中的步骤S103的具体示意图的一例；

图9是获取预测值的步骤的流程示意图；

图10是二分类模型训练过程的流程示意图；

图11是本申请实施例提供的消歧方法中采用的BERT模型的输入输出示例；

图12是本申请实施例提供的消歧方法中的基于BERT的二分类模型的结构示意图；

图13是本申请实施例提供的消歧方法中的基于BERT的二分类模型的训练流程的示意图；

图14是本申请实施例提供的一种首字母缩写词的消歧系统的示意性结构框图；

图15是本申请实施例提供的一种电子设备的结构示意图；

图16是本申请实施例提供的一种用于实现首字母缩写词的消歧方法的程序产品的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

图1是本申请实施例提供的一种首字母缩写词的消歧方法的流程示意图。如图1所示，本实施例的首字母缩写词的消歧方法包括步骤S101至步骤S103。在步骤S101中，识别文档的句子中的目标首字母缩写词；在步骤S102，将所识别到的所述目标首字母缩写词与预先创建的数据集相匹配，所述数据集中记载有预定数量的首字母缩写词及其对应的英文词组的全称，从而通过所述匹配，获取所识别到的目标首字母缩写词所对应的英文词组的全称；以及在步骤S103，在获取到的全称为1个的情况下，输出所述全称；并且在获取到的全称大于1个的情况下，经由预先训练好的二分类模型输出与所述句子的句意相适应的1个全称。

根据上述的消歧方法，即使首字母缩写词的全称大于1个，也能够根据文档中的句子的句意自动判断并且输出正确的全称，从而使得用户能够清楚地了解该首字母缩写词对应的全称，而不需要费时地进行查询工作，从而提升了用户体验性，而且用户也不会因为由于领域不熟悉而错误将该首字母缩写词认为是其它全称，从而能够更加准确地了解句子意思。

根据本实施例的首字母缩写词的消歧方法，例如，假定给定了一个有语境的句子，句子中包含了一个首字母缩写词“SVM”，当识别到该首字母缩写词时，可以提供该首字母缩写词的全称词典，即该首字母缩写词对应的几种全称，分别为“Support Vector Machine”和“State Vector Machine”；最后，根据句意，此处输出的SVM全称为“Support VectorMachine”，即可以如下表示。

下面，将参考图2-图13，更加展开地详细描述根据本发明实施例的首字母缩写词的消歧方法。

首先，将描述与数据集相关的数据分析。预先创建所述数据集的方法例如包括如图2所示的步骤S1001：经由现有的数据库采集预定数量的英文论文、期刊或报告，对于采集到的所述英文论文、期刊或报告中出现的首字母缩写词，统计并整理其全称，并且存储在所述数据集中；并且还可以包括例如图3所示的步骤S1002：经由采集到的所述预定数量的英文论文、期刊或报告来构建标注样本，使得每一个标注样本包含1个带有首字母缩写词的句子，以及该首字母缩写词在句子中的正确全称，并且将该标注样本存储在训练集中，所述二分类模型是利用所述训练集训练得到的。

更具体地，针对首字母缩写词消歧任务，在本实施例中，例如选用的数据集为SciAD。其中，SciAD是给定数据集的名称，来源是一篇论文，AD是首字母缩写词歧义消除的缩写。这个数据集的标注语料例如为6786篇arXiv网站上的英文论文，共包含2031592个句子，句子平均长度为30个词。该数据集的构建过程分为两个部分。第一部分是首字母缩写词对应的全称词典的构建，对于每一个在数据集中出现的首字母缩写词，统计并整理其全称，最终全称词典包含732个首字母缩写词，其中每个首字母缩写词平均包含3个全称。第二部分是标注样本的构建，每一个标注样本包含一个带有首字母缩写词的句子，以及该词在句子中的正确全称。标注样本共62441条。其中提到的arXiv网站是www.arXiv.org，是一个收集物理学、数学、计算机科学与生物学论文预印本的网站，并且这仅仅是一个例子，数据集的标注预料也可以是其他的网站、数据库等等。

图4展示了每一个句子中包含首字母缩写词个数的分布，分析图4可得每一个句子中可以包含多个首字母缩写词，大多数句子包含1个或者2个缩写词。图3展示了每个缩写词对应的全称个数，由图5可得，每个首字母缩写词对应包含2个或3个全称。

接下来，将描述本发明实施例的首字母缩写词的消歧方法所采用的模型以及模型的训练。通过训练好的模型，如图1中所示，能够输出首字母缩写词的正确的全称。

如图6所示，对于图1中的步骤S103，其可以执行为包括步骤S1031和S1032。在获取到的全称为1个的情况下，在步骤S1031中，输出所述全称。在获取到的全称大于1个的情况下，进行步骤S1032，即，给定包含目标首字母缩写词的句子，将该句子结合该目标首字母缩写词的不同的全称作为候选输入所述二分类模型中，使用所述二分类模型对每一个候选进行预测，获得表示对应的全称是该首字母缩写词在当前句子中的正确全称的可能性的预测值，并且将预测值最高的全称输出，以作为上述目标首字母缩写词在当前句子中的全称。

另外，对于图6中的步骤S1032，可以如图7所示包含步骤S1032-1和S1032-2。即，在步骤S1032-2所进行的使用所述二分类模型对每一个候选进行预测之前，还包括步骤S1032-1：使用句段嵌入处理多个输入语句，将目标首字母缩写词对应的候选全称作为第一个输入句段，将给定的句子作为第二个输入句段，用第一特殊符标记第一个输入句段的开头，用第二特殊符标记两个输入句段的间隔。此外，还可以如图8所示，在步骤S1032-2所进行的使用所述二分类模型对每一个候选进行预测之前，还包括步骤S1032-1’：添加两个特殊标记<start>和<end>来标记所述首字母缩写词在句子中的开始和结束位置。

图9示出了使用所述二分类模型对每一个候选进行预测的步骤的示例，例如包括步骤S201-S203。在步骤S201中，将由所述句段嵌入处理所处理好的数据输入所述二分类模型来获取每个token对应的嵌入表示；在步骤S202中，计算首字母缩写词开始和结束位置的嵌入表示平均值，并将该平均值与句子开头的第一特殊符的位置进行向量拼接；以及在步骤S203中，将拼接得到的向量通过第一dropout层、第一前向传播层后，通过激活函数ReLU，之后再通过第二drop out层、第二前向传播层，最后通过激活函数Sigmoid得到一个在(0,1)区间的所述预测值。

图10示出了预先训练所述二分类模型的方法示例，例如包括步骤S301-S303。在步骤S301中，选取基础预训练模型；在步骤S302中，在给定的训练集上，利用任务自适应预训练方式对所述基础预训练模型进行训练，得到预训练模型，在所述预训练模型上利用动态负采样技术和对抗训练的方式进行训练，得到阶段二分类模型，以及在步骤S303中，利用所述阶段二分类模型对无标注数据集进行伪标签判断，得到新的可以加入训练的数据，更新训练集，并且在新的训练集上重复训练过程得到最终的所述二分类模型。

以下，更进一步详细地说明在以BERT模型为基础时，如何利用上述各步骤进行首字母的消歧。

<模型介绍>

[模型概述]

本工作在利用预训练模型BERT((Bidirectional Encoder Representationsfrom Transformers)、语言模型、预训练模型)的基础上，融合了多种训练策略，提出一种基于二分类思想的模型来解决首字母缩写词消歧问题。模型输入输出示例如图11所示：给定包含首字母缩写词“MSE”的句子，将该句子结合“MSE”不同的首字母缩写的全称作为候选输入BERT中，如图所述，该首字母缩写词“MSE”包含3中全称，即，“mean squared error”、“model selection eqn”和“minimum square error”。BERT为对三个候选中的每一个候选进行预测，预测值最高的即为当前句子中首字母缩写对应的全称，并且将其输出，作为该首字母缩写词的正确全称。在该例子中，如图所示，候选全称“mean squared error”的预测值为0.95，候选全称“model selection eqn”的预测值为0.37并且候选全称“minimum squareerror”的预测值为0.56。因此，将预测为最大的候选全称“mean squared error”作为正确全称进行输出。

[模型输入设定]

BERT可以使用句段嵌入处理多个输入语句，本工作将首字母缩写对应的候选全称作为第一个输入句段，将给定的句子作为第二个输入句段，第一个句段的开头用特殊符[CLS]标记，两个句段的间隔用特殊符[SEP]标记。此外，另添加了两个特殊标记<start>和<end>来标记首字母缩写在句子中的开始和结束位置，从而使得首字母缩写能在模型训练中获取足够的关注。

[模型结构]

本工作模型为一个基于BERT的二分类器，具体模型结构如图12所示。

首先，根据前面提到的[模型概述]中介绍的输入设定，将处理好的数据输入BERT来获取每个token对应的嵌入表示。其次，计算首字母缩写词开始和结束位置的嵌入表示平均值，并将此平均值与句子开头的[CLS]位置向量拼接。之后，将拼接得到的向量输入通过一个dropout层，一个前向传播层后，通过激活函数ReLU后再输入一个dropout层，一个前向传播层，最后通过激活函数Sigmoid得到一个在(0,1)区间的预测值。该预测值表示对应的全称是该首字母缩写词在当前句子中的正确全称的可能性。

[训练策略]

在上述二分类模型的基础上，本工作融合了多种训练策略来提升最终的模型效果。根据本实施例的训练策略，将从“预训练模型的选取”、“动态负采样”、“任务自适应预训练”、“对抗训练”、“伪标签”这几方面来进行描述。

预训练模型的选取

基于BERT的后续相关预训练模型层出不穷，它们利用了不同的训练方式或不同的训练语料。针对本任务，由于数据集SciAD的语料均为科学领域的论文，而语料的一致性对于模型性能至关重要，所以本工作在做了相应的实验验证后选取了在114万篇科技论文语料上训练的SCIBERT作为基础预训练模型。另外，能够理解的是，这里面提到的114万篇仅仅是实例而已，完全不是限制性的，也可以是任意其他数量。当然，为了保证采样的样本数量，百万篇以上的数量是优选的。

动态负采样

在训练过程中，为了确保模型能够在更平衡的样本上进行训练，本工作在训练过程中，对于每一批次(batch)输入模型的数据进行动态负采样，通过动态选择固定数目的负样本，保证了分类中负样本在训练中的作用，有效提高了负样本的贡献率，同时也有效提升了模型性能。

任务自适应预训练

任务自适应训练是指在第一阶段通用预训练模型的基础上，利用任务相关文本继续训练，该训练方式可以有效地提升模型性能。针对特定任务的数据集通常是通用预训练数据的子集，因此本工作在给定的SciAD数据集上利用掩码语言模型(Mask LanguageModel)的方式进行继续训练以此得到新的预训练模型。

对抗训练

对抗训练是一种引入噪声的训练方式，可以对参数进行正则化，从而提升模型的鲁棒性和泛化能力。本工作采用FGM(Fast Gradient Method，快速梯度方法)，通过在嵌入层加入扰动，从而获得更稳定的单词表示形式和更通用的模型，以此提升模型效果。

伪标签

伪标签学习也可以称为简单自训练(Simple Self-training)，即用有标签的数据训练一个分类器，然后利用此分类器对无标签数据进行分类。本工作使用在[模型结构]部分中中训练好的模型在无标注数据集上进行预测，获取了无标签数据的伪标签，并将获取到的预测值大于0.95的伪标签数据与之前的训练集混合作为新的训练集来训练新的模型，以此提升模型效果。

以上，已经详细描述了本申请实施例的模型的训练策略，下面将详细描述根据该训练策略进行的训练流程。

[训练流程]

本工作提出基于BERT的二分类模型融合了多种训练策略来提升模型效果，具体训练流程如下图13所示。首先，选用SCIBERT作为基础预训练模型，然后利用任务自适应预训练方式得到新的预训练模型，在此模型上利用动态负采样技术和对抗训练的方式按照前面记载的[模型结构]部分中的方式训练得到二分类模型，利用该分类模型对未标注的数据集进行伪标签判断得到新的可以加入训练的数据，产生新的训练集，在新的训练集上重复上述训练过程得到最终的二分类模型。

将该训练好的最终的上述二分类模型存储在存储器中，从而，利用该训练好的二分类模型，即使在首字母缩写词包含多种全称时，也能够基于该首字母缩写词所在的句子的句意将正确的全称输出。

如图14所示，本发明实施例还提供了一种首字母缩写词的消歧系统100，所述首字母缩写词由构成英文词组的多个英文单词中的各英文单词的首字母构成，所述消歧系统包括：识别模块101，用于识别文档的句子中的目标首字母缩写词；匹配模块102，用于将所识别到的所述目标首字母缩写词与预先创建的数据集相匹配，所述数据集中记载有预定数量的首字母缩写词及其对应的英文词组的全称，从而通过所述匹配，获取所识别到的目标首字母缩写词所对应的英文词组的全称；以及输出模块103，用于在获取到的全称为1个的情况下，输出所述全称；并且在获取到的全称大于1个的情况下，经由预先训练好的二分类模型输出与所述句子的句意相适应的1个全称。

消歧系统100例如还可以包括数据集创建模块，用于预先创建所述数据集，该数据集创建模块预先创建数据集的方法包括：经由现有的数据库采集预定数量的英文论文、期刊或报告，对于采集到的所述英文论文、期刊或报告中出现的首字母缩写词，统计并整理其全称，并且存储在所述数据集中。

消歧系统100例如还可以包括标注样本构件模块，用于经由采集到的所述预定数量的英文论文、期刊或报告来构建标注样本，使得每一个标注样本包含1个带有首字母缩写词的句子，以及该首字母缩写词在句子中的正确全称，并且将该标注样本存储在训练集中，所述二分类模型是利用所述训练集训练得到的。

消歧系统100例如还可以包括训练模块，用于训练二分类模型，并且所述输出模块利用如下步骤经由所述训练模块所预先训练好的二分类模型进行所述输出：给定包含目标首字母缩写词的句子，将该句子结合该目标首字母缩写词的不同的全称作为候选输入所述二分类模型中，使用所述二分类模型对每一个候选进行预测，获得表示对应的全称是该首字母缩写词在当前句子中的正确全称的可能性的预测值，并且将预测值最高的全称输出，以作为上述目标首字母缩写词在当前句子中的全称。

消歧系统100例如还可以包括句段处理模块，用于在所述输出模块使用训练模块所训练好的所述二分类模型对每一个候选进行预测之前，使用句段嵌入处理多个输入语句，将目标首字母缩写词对应的候选全称作为第一个输入句段，将给定的句子作为第二个输入句段，用第一特殊符标记第一个输入句段的开头，用第二特殊符标记两个输入句段的间隔。

消歧系统100例如还可以包括预测模块，该预测模块使用所述二分类模型对每一个候选进行预测，包括：将由所述句段嵌入处理所处理好的数据输入所述二分类模型来获取每个token对应的嵌入表示；计算首字母缩写词开始和结束位置的嵌入表示平均值，并将该平均值与句子开头的第一特殊符的位置进行向量拼接；以及将拼接得到的向量通过第一dropout层、第一前向传播层后，通过激活函数ReLU，之后再通过第二dropout层、第二前向传播层，最后通过激活函数Sigmoid得到一个在(0,1)区间的所述预测值。

消歧系统100例如还可以包括特殊符添加模块，用于在所述预测模块使用所述二分类模型对每一个候选进行预测之前，添加两个特殊标记<start>和<end>来标记所述首字母缩写词在句子中的开始和结束位置。

消歧系统100的预先训练所述二分类模型的所述训练模块可以包括：选取单元，用于选取基础预训练模型；预训练模型获取单元，用于在给定的训练集上，利用任务自适应预训练方式对所述基础预训练模型进行训练，得到预训练模型，阶段二分类模型获取单元，用于在所述预训练模型上利用动态负采样技术和对抗训练的方式进行训练，得到阶段二分类模型，以及二分类模型获取单元，用于利用所述阶段二分类模型对无标注数据集进行伪标签判断，得到新的可以加入训练的数据，更新训练集，并且在新的训练集上重复训练过程得到最终的所述二分类模型。

在消歧系统100，所述预训练模型获取单元用于在给定的训练集上，利用掩码语言模型的方式对所述基础预训练模型进行训练，得到所述预训练模型；所述阶段二分类模型获取单元对所述预训练模型进行训练，得到所述阶段二分类模型，其中，对于每一批次输入所述预训练模型的数据进行动态负采样，动态选择预定数目的负样本，并采用快速梯度方法，在嵌入层加入扰动；所述二分类模型获取单元使用所述阶段二分类模型在无标注数据集上进行预测，获取无标签数据的伪标签，并将获取到的预测值大于0.95的伪标签数据与之前的训练集混合得到新的训练集，在新的训练集上重复训练过程得到最终的所述二分类模型。

此外，如在本发明实施例的首字母缩写词的消歧方法中所提到的，对于用户输出的可以不仅仅是与该首字母缩写词对应的正确的全称，还可以显示该首字母缩写词的全称词典，即该首字母缩写词对应的几种全称。从而，用户能够清楚地获知该首字母缩写词一共有几种全称，以及在当前句子中的正确全称。

根据本发明实施例的首字母缩写词的消歧系统，即使首字母缩写词的全称大于1个，也能够根据文档中的句子的句意自动判断并且输出正确的全称，从而使得用户能够清楚地了解该首字母缩写词对应的全称，而不需要费时地进行查询工作，从而提升了用户体验性，而且用户也不会因为由于领域不熟悉而错误将该首字母缩写词认为是其它全称，从而能够更加准确地了解句子意思。

参见图15，本申请实施例还提供了一种电子设备200，电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中首字母缩写词的消歧方法的步骤，其具体实现方式与上述首字母缩写词的消歧方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有至少一个程序模块215的实用工具214，这样的程序模块215包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序被执行时实现本申请实施例中首字母缩写词的消歧方法的步骤，其具体实现方式与上述首字母缩写词的消歧方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

图16示出了本实施例提供的用于实现上述首字母缩写词的消歧方法的程序产品300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品300不限于此，在本申请中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，已符合专利法所强调的功能增进及使用要件，本申请以上的说明书及说明书附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种首字母缩写词的消歧方法，所述首字母缩写词由构成英文词组的多个英文单词中的各英文单词的首字母构成，其特征在于，所述消歧方法包括：

识别文档的句子中的目标首字母缩写词；

2.根据权利要求1所述的首字母缩写词的消歧方法，其特征在于，预先创建所述数据集的方法包括：

经由现有的数据库采集预定数量的英文论文、期刊或报告，

3.根据权利要求2所述的首字母缩写词的消歧方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的首字母缩写词的消歧方法，其特征在于，利用如下步骤经由预先训练好的二分类模型进行所述输出：

5.根据权利要求4所述的首字母缩写词的消歧方法，其特征在于，所述使用所述二分类模型对每一个候选进行预测之前，所述方法还包括：

使用句段嵌入处理多个输入语句，将目标首字母缩写词对应的候选全称作为第一个输入句段，将给定的句子作为第二个输入句段，用第一特殊符标记第一个输入句段的开头，用第二特殊符标记两个输入句段的间隔。

6.根据权利要求5所述的首字母缩写词的消歧方法，其特征在于，所述使用所述二分类模型对每一个候选进行预测，包括：

7.根据权利要求5所述的首字母缩写词的消歧方法，其特征在于，所述使用所述二分类模型对每一个候选进行预测之前，所述方法还包括：

添加两个特殊标记<start>和<end>来标记所述首字母缩写词在句子中的开始和结束位置。

8.根据权利要求1-7的任意一项所述的首字母缩写词的消歧方法，其特征在于，预先训练所述二分类模型的方法包括：

选取基础预训练模型；

9.根据权利要求8所述的首字母缩写词的消歧方法，其特征在于，

选取SCIBERT作为所述基础预训练模型；

对所述预训练模型进行训练，得到所述阶段二分类模型，其中，对于每一批次输入所述预训练模型的数据进行动态负采样，动态选择预定数目的负样本，并采用快速梯度方法，在嵌入层加入扰动；

使用所述阶段二分类模型在无标注数据集上进行预测，获取无标签数据的伪标签，并将获取到的预测值大于0.95的伪标签数据与之前的训练集混合得到新的训练集，在新的训练集上重复训练过程得到最终的所述二分类模型。

10.一种首字母缩写词的消歧系统，所述首字母缩写词由构成英文词组的多个英文单词中的各英文单词的首字母构成，其特征在于，所述消歧系统包括：

识别模块，用于识别文档的句子中的目标首字母缩写词；

匹配模块，用于将所识别到的所述目标首字母缩写词与预先创建的数据集相匹配，所述数据集中记载有预定数量的首字母缩写词及其对应的英文词组的全称，从而通过所述匹配，获取所识别到的目标首字母缩写词所对应的英文词组的全称；以及

输出模块，用于在获取到的全称为1个的情况下，输出所述全称；并且在获取到的全称大于1个的情况下，经由预先训练好的二分类模型输出与所述句子的句意相适应的1个全称。

11.一种电子设备，其特征在于，所述电子设备存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-9任一项所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一项所述方法的步骤。