CN114328902A

CN114328902A - 文本标注模型构建方法和装置

Info

Publication number: CN114328902A
Application number: CN202011075457.0A
Authority: CN
Inventors: 丁博生; 刘林林; 邴立东; 阮海天; 沙菲克·乔蒂; 司罗; 苗春燕
Original assignee: Alibaba Group Holding Ltd; Nanyang Technological University
Current assignee: Alibaba Group Holding Ltd; Nanyang Technological University
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2022-04-12

Abstract

本申请公开了文本标注模型构建方法和装置。其中，所述方法包括：获取第一文本及其标注数据间的第一对应关系集；将第一文本及其标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其标注数据间的第二对应关系集；根据第一对应关系集和第二对应关系集，学习得到文本标注模型。采用这种处理方式，使得将文本和标注数据转换为语言模型的输入数据，通过语言模型学习训练数据中词的分布，通过训练后的语言模型，生成符合文本标注领域语言特点、且标注更为准确的新训练数据，实现基于语言模型的文本标注模型训练数据增强；因此，可以提升增强训练数据的准确率，从而提升模型准确度，特别是在低资源的情况下效果显著。

Description

文本标注模型构建方法和装置

技术领域

本申请涉及自然语言处理技术领域，具体涉及文本标注模型构建方法和装置。

背景技术

序列标注任务是中文自然语言处理(NLP)领域在句子层面中的主要任务，在给定的文本序列上预测序列中需要作出标注的标签。常见任务有命名实体识别(NER)、Chunk提取、端到端基于方面/目标的情感分析、以及词性标注(POS)等。

序列标注任务可通过预先训练好的标注模型完成。以商品评价情感分析为例，首先从由商品评价文本和情感类别标注数据构成的训练数据集中，学习得到商品评价情感分类模型，然后通过该模型为待处理的商品评价预测情感极性。然而，在特定领域(如商品品类、语言)中，会面临缺乏大量标注好的训练数据的问题。如果始终依赖人工进行标注，成本会很昂贵，且费时费力。因此，通过数据增强技术产生更多训练数据，可以很好地解决低语料领域训练数据不足的问题，提升序列标注任务的准确率，从而提升电商用户的用户体验。相比于计算机视觉及语音识别技术，数据增强技术当前在自然语言处理的序列标注任务上目前并没有很多有效的应用，已有的数据增强方法主要包括同义词替换，随机插入，随机删除，随机替换等。

然而，在实现本发明过程中，发明人发现上述应用在序列标注任务上的数据增强方案至少存在如下问题：1)这些简单的数据增强方法要么需要人工标注，要么会因为随机的关系无法控制数据增强的效果，如在命名实体识别中，地名、品牌，如果通过随机插入或者随机删除，很可能就产生错误的标注数据，这些无法识别的错误数据会对最终训练得到的文本标注模型造成干扰；2)这些简单的数据增强方法无法利用新的知识库，有很大的局限性。综上所述，如何通过数据增强方式扩充文本标注模型的训练数据，以提升扩充训练数据的准确率，弥补特定领域中训练数据的不足，从而提升文本标注模型的鲁棒性，进而提升用户体验，成为本领域技术人员迫切需要解决的问题。

发明内容

本申请提供文本标注模型构建方法，以解决现有技术存在的由增强训练数据准确率较低导致的模型准确度低的问题。本申请另外提供文本标注数据生成方法和装置，文本标注模型构建装置，以及电子设备。

本申请提供一种文本标注模型构建方法，包括：

获取第一文本及其标注数据间的第一对应关系集；

将第一文本及其标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其标注数据间的第二对应关系集；

根据第一对应关系集和第二对应关系集，学习得到文本标注模型。

可选的，还包括：

获取第三文本集；以及，根据第一文本的标注数据，构建标注词典；

根据标注字典，确定第三文本的标注数据；

将第一文本及其标注数据作为语言模型的输入数据，并将第三文本及其标注数据作为语言模型的输入数据，通过语言模型，生成所述第二对应关系集。

可选的，所述将第一文本及其标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其标注数据间的第二对应关系集，包括：

将第一对应关系转换为包括第一文本及其标注数据的第四文本；

根据多个第四文本形成的语料库，训练语言模型；

通过训练后的语言模型，生成包括第二文本及其标注数据的第五文本集；

将第五文本转换为第二对应关系。

可选的，所述通过训练后的语言模型，生成包括第二文本及其标注数据的第五文本集，包括：

确定小于或者等于预设文本长度的文本长度；

通过训练后的语言模型，生成具有所述文本长度的所述第五文本。

可选的，所述文本标注模型包括：命名实体识别模型；

所述第五文本包括：所述第一文本未包括的命名实体，所述第一文本未包括的命名实体应用语境。

本申请还提供一种文本标注数据生成方法，包括：

获取第一文本及其标注数据间的第一对应关系集；

将第一文本及其标注数据作为语言模型的输入数据，通过语言模型根据第一对应关系集，生成第二文本及其标注数据间的第二对应关系集。

本申请还提供一种语言模型构建方法，包括：

获取第一文本及其标注数据间的第一对应关系集；

将第一对应关系转换为包括第一文本及其标注数据的第二文本；

根据多个第二文本形成的语料库，训练语言模型，所述语言模型用于生成包括第三文本及其标注数据的第四文本集；根据第四文本集，确定第三文本及其标注数据间的第二对应关系集。

本申请还提供一种命名实体识别模型构建方法，包括：

获取第一文本及其命名实体标注数据间的第一对应关系集；

将第一文本及其命名实体标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其命名实体标注数据间的第二对应关系集；

根据第一对应关系集和第二对应关系集，学习得到命名实体识别模型。

本申请还提供一种商品评价情感分类模型构建方法，包括：

获取第一商品评价及其情感类别标注数据间的第一对应关系集；

将第一商品评价及其情感类别标注数据作为语言模型的输入数据，通过语言模型，生成第二商品评价及其情感类别标注数据间的第二对应关系集；

根据第一对应关系集和第二对应关系集，学习得到所述分类模型。

本申请还提供一种词性标注模型构建方法，包括：

获取第一文本及其词性标注数据间的第一对应关系集；

将第一文本及其词性标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其词性标注数据间的第二对应关系集；

根据第一对应关系集和第二对应关系集，学习得到词性标注模型。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的文本标注模型构建方法，通过获取第一文本及其标注数据间的第一对应关系集；将第一文本及其标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其标注数据间的第二对应关系集；根据第一对应关系集和第二对应关系集，学习得到文本标注模型；这种处理方式，使得在训练数据有限的情况下，对于原有的文本标注数据集，通过线性化的方式将文本和标注数据转换为语言模型的输入数据，通过语言模型学习训练数据中词的分布，这样就可以通过训练后的语言模型，生成符合文本标注领域语言特点、且标注更为准确的新训练数据，由此实现基于语言模型的文本标注模型训练数据增强，弥补低资源领域中训练数据的不足；因此，可以有效提升增强训练数据的准确率，从而提升模型准确度，特别是在低资源的情况下效果显著。同时，这种处理方式还使得生成新的命名实体，以及使得新命名实体出现在不同的上下文语境中，这样就可以一定程度上地控制增强训练数据的多样性，为训练得到高鲁棒性的文本标注模型提供数据基础，提升模型的泛化能力，学到更多有用的信息，避免模型过拟合。

本申请实施例提供的文本标注数据生成方法，通过获取第一文本及其标注数据间的第一对应关系集；将第一文本及其标注数据作为语言模型的输入数据，通过语言模型根据第一对应关系集，生成第二文本及其标注数据间的第二对应关系集；这种处理方式，使得在训练数据有限的情况下，把原有的文本标注数据集，通过线性化的方式将文本和标注数据转换为语言模型的输入数据，通过语言模型学习训练数据中词的分布，这样就可以通过训练后的语言模型，生成符合文本标注领域语言特点、且标注更为准确的新训练数据，由此实现基于语言模型的文本标注模型训练数据增强，弥补低资源领域中训练数据的不足；因此，可以有效提升增强训练数据的准确率，特别是在低资源的情况下效果显著。同时，这种处理方式还使得生成新的命名实体，以及使得新命名实体出现在不同的上下文语境中，这样就可以一定程度上地控制增强训练数据的多样性，为训练得到高鲁棒性的文本标注模型提供数据基础。

本申请实施例提供的语言模型构建方法，通过获取第一文本及其标注数据间的第一对应关系集；将第一对应关系转换为包括第一文本及其标注数据的第二文本；根据多个第二文本形成的语料库，训练语言模型，所述语言模型用于生成包括第三文本及其标注数据的第四文本集；根据第四文本集，确定第三文本及其标注数据间的第二对应关系集；这种处理方式，使得在训练数据有限的情况下，把原有的文本标注数据集，通过线性化的方式将文本和标注数据转换为语言模型的输入数据，通过语言模型学习训练数据中词的分布，这样就可以通过训练后的语言模型，生成符合文本标注领域语言特点、且标注更为准确的新训练数据，由此实现基于语言模型的文本标注模型训练数据增强，弥补低资源领域中训练数据的不足，特别是在低资源的情况下效果显著。同时，这种处理方式还使得语言模型可生成新的命名实体，以及使得新命名实体出现在不同的上下文语境中，这样就可以一定程度上地控制增强训练数据的多样性，为训练得到高鲁棒性的文本标注模型提供数据基础。

附图说明

图1本申请提供的一种文本标注模型构建方法的实施例的流程示意图；

图2本申请提供的一种文本标注模型构建方法的实施例的训练数据线性化示意图；

图3本申请提供的一种文本标注模型构建方法的实施例的模型示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了文本标注数据生成方法和装置，文本标注模型构建方法和装置，商品对象处理系统，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的文本标注模型构建方法的实施例的流程示意图。所述方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任何设备。在本实施例中，所述方法可包括如下步骤：

步骤S101：获取第一文本及其标注数据间的第一对应关系集。

所述第一对应关系集，又可称为第一训练数据集。所述第一文本及其标注数据间的第一对应关系构成一条训练数据(训练样本)，该训练数据可以是通过人工标注方式标注的训练数据。第一训练数据集包括的训练数据有限，仅根据第一训练数据集训练得到的文本标注模型的准确度较低。

在获取第一训练数据集后，就可以进入下一步骤对训练数据进行扩充，生成第二训练数据集，第一训练数据集与第二训练数据集合并为增强的训练数据集。

步骤S103：将第一文本及其标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其标注数据间的第二对应关系集。

本步骤可通过线性化方式对各个第一训练数据中的文本和标注数据进行处理，将转换得到的文本和标注数据的线性化文本作为语言模型的输入数据，通过语言模型学习第一训练数据集中词的分布，这样就可以通过训练后的语言模型，生成符合文本标注领域语言特点、且标注更为准确的新的训练数据集，即第二对应关系集。

在一个示例中，语言模型的输入数据仅包括根据第一训练数据集转换得到的文本，即只用已标注好的文本序列数据训练语言模型，这是一种监督学习的方式。在这种情况下，步骤S103可包括如下子步骤：

步骤S1031：将第一对应关系转换为包括第一文本及其标注数据的第四文本。

如图2所示，在一个示例中，文本标注模型为命名实体识别模型，第一文本可以为“Jose Valentin has a restaurant business in London”，标注数据为“Jose的命名实体类型为B-PER”、“Valentin的命名实体类型为E-PER”、“London的命名实体类型为S-LOC”。

在本实施例中，步骤S1031可采用如下方式实现：将标注数据(命名实体类型NER)作为一个词插入在第一文本中与标注数据对应的词后。如图3所示，对上例命名实体识别模型中第一对应关系进行线性化处理后，转换得到的第四文本为“Jose B-PER Valentin E-PER has a restaurant business in London S-LOC”，由此可见，原始的第一训练数据中的命名实体标注数据成为第四文本(句子)中的一部分。

步骤S1033：根据多个第四文本形成的语料库，训练语言模型。

每个第一训练数据可转换得到对应的第四文本，根据第一训练数据集转换得到的第四文本数量为第一训练数据的数量。根据多个第四文本形成的语料库，训练语言模型，该语言模型可学习到第一训练数据中词的分布。

语言模型(Language Model)的作用是为一个长度为m的文本确定一个概率分布P，表示这段文本存在的可能性。简单来说，就是一串词序列的概率分布。语言模型在自然语言处理任务中有广泛应用，如语音识别，机器翻译，词性标注，句法分析和信息检索。

在本申请实施例提供的所述方法中，语言模型通过学习训练数据中的词的分布，从而有根据当前文本预测下一个词的概率的能力。例如，当命名实体识别的训练数据中，有“I havea flight to S-LOC China”和“I have a flight to S-LOC Singapore”等句子，其中S-LOC为命名实体识别的一种标签，代表一个词汇构成的地名。那么，语言模型可以学到“I have a flight to”的下一个词汇很大概率为“S-LOC”，而“I have a flight to S-LOC”的下一个词汇很大概率为一地名，如China,France，Singapore等等。

如图3所示，具体实施时，可先对第四文本进行词嵌入处理，将第四文本中的词转换为词向量x₁x₂x₃…x_k-1x_kx_k+1…x_N，作为语言模型的输入数据。由于词向量的生成方式属于较为成熟的现有技术，如word2vec、BERT等算法，因此此处不再赘述。

具体实施时，可采用常用的语言模型结构，如基于循环神经网络RNN的语言模型。由于语言模型及其训练方式属于较为成熟的现有技术，因此此处不再赘述。

步骤S1035：通过训练后的语言模型，生成包括第二文本及其标注数据的第五文本集。

对语言模型进行训练后，就可以利用该语言模型生成新的训练数据集，即包括第二文本及其标注数据的第五文本集，第五文本为线性化的新训练数据。

以命名实体识别模型为例，即第五文本中各个词的后面可以插入该词的命名实体类型。如图3所示，通过语言模型生成的线性化的新训练数据为“Jose B-PER Martio E-PERis working for London B-ORG Stock I-ORG Exchange E-ORG”。

通过对比上例中的第四文本，第五文本可发生两类变化。其中一个变化是出现第一文本中未包括的命名实体，如通过将Valentin替换为Martio，并自动将其标注为E-PER，使得人名实体发生了变化，出现了新人名“Jose Martio”，这样可避免第五文本中频繁出现第一训练数据集中人名。另一个变化是出现第一文本未包括的命名实体应用语境，如用新生成的人名搭配不同的地名。例如，在命名实体识别任务中，第一训练数据中人名SandrineTestud和地名France会同时出现很多次，通过本实施例提供的方法，可以生成新的人名，如Sandrine Nixon，Sandrine Neuumann等，同时搭配不同的地名，如Egypt,Australia等。再如，原语境为“…has a restaurant business in…”，新语境为“…is working for…”。

由此可见，本实施例采用的处理方式还使得生成新的命名实体，以及使得统一命名实体出现在不同的上下文语境中，这样就可以一定程度上地控制增强训练数据的文本多样性，为训练得到高鲁棒性的文本标注模型提供数据基础，提升模型的泛化能力，学到更多有用的信息，避免模型过拟合。

在一个示例中，步骤S1035可采用如下子步骤实现：

步骤S10351：确定小于或者等于预设文本长度的文本长度。

所述预设文本长度，可根据应用需求确定，如设置为16，可使得生成的第五文本包括16个词。

具体实施时，在生成一个第五文本时，可确定一个小于或者等于预设文本长度的随机数，作为将要生成的第五文本的文本长度，如随机数10、13等。

步骤S10353：通过训练后的语言模型，生成具有所述文本长度的所述第五文本。

在确定将要生成的第五文本的文本长度后，就可以通过训练后的语言模型，生成具有该文本长度的第五文本。

在本实施例中，语言模型训练完成之后，可以以句首(start of sentence)的符号(如在命名实体识别中即为<BOS>)作为语言模型的输入数据，然后让语言模型根据前面的词来生成后面的词，每一步生成一个词。由于语言模型的训练数据是序列标注线性化之后的句子(即第四文本)，在生成第五文本时，也会生成带有序列标注的句子，如“Jose B-PERMartio E-PER is working for London B-ORG Stock I-ORG Exchange E-ORG”。同时，在生成第五文本的过程，又可以通过dropout的作用，让文本生成产生多样性。例如，生成句子可以是“I have a flight to S-LOC China”，也可以是“I have a flight to S-LOCFrance”，也可以是“I have a flight to S-LOC Singapore”。

步骤S1037：将第五文本转换为第二对应关系。

语言模型输出的第五文本为线性化的带有标注数据的文本，需要对生成的第五文本进行去线性化处理，将其还原成序列标注任务的训练数据格式。

如图3所示，将第五文本“Jose B-PER Martio E-PER is working for London B-ORG Stock I-ORG Exchange E-ORG”去线性化后形成的第二对应关系包括：第二文本“JoseMartio is working for London Stock Exchange E-ORG”，第二文本的标注数据“Jose的命名实体类型为B-PER”、“Martio的命名实体类型为E-PER”、“London的命名实体类型为B-ORG”、“Stock的命名实体类型为I-ORG”、“Exchange的命名实体类型为E-ORG”。

在另一个示例中，语言模型的输入数据不仅包括根据第一训练数据集转换得到的文本，还包括通过标注词典匹配方式基于大量未标注文本(第三文本)得到的另一部分文本标注数据(第三文本及其标注数据)，这是一种半监督学习的方式。在这种情况下，步骤S103可包括如下子步骤：

步骤S1031’：获取第三文本集；以及，根据第一文本的标注数据，构建标注词典。

在半监督学习中，所述第三文本集可包括大量无标注数据的文本，并可基于少量标注好的第一训练数据集构建标注词典。标注词典可包括各种标签，如命名实体词典包括各种命名实体及其实体类型，词性词典包括各种词及其词性。表1示出了命名实体识别任务中的标注词典，表2示出了词性标注任务中的标注词典。

实体名	实体类型
		London	地名S-LOC
China	地名S-LOC
		…
ACM	机构ORG
		…
Jane	人名B-PER
		…
Mario	姓氏E-PER
		…
Apple	品牌
		…

表1、命名实体识别任务中的标注词典

表2、词性标注任务中的标注词典

步骤S1033’：根据标注字典，确定第三文本的标注数据。

在构建词典后，当未标注的第三文本中出现词典包括的实体时，可以根据词典对该实体进行自动标注，得到第三文本的标注数据，该数据可以是线性化的数据。例如，标注词典存在词条ACM为“机构ORG”实体，第三文本中出现“ACM”，则在第三文本的“ACM”后插入“ORG”这个词。

步骤S1037’：将第一文本及其标注数据作为语言模型的输入数据，并将第三文本及其标注数据作为语言模型的输入数据，通过语言模型，生成所述第二对应关系集。

在对所有第三文本进行标注字典的匹配处理后，将第一训练数据集和自动匹配数据得到的第三文本的标注数据合并，作为语言模型的输入数据。采用这种通过半监督学习方式进行数据增强，可基于少量文本标注数据集构建标注词典，根据标注词典自动匹配大量无标注数据，这样可有效利用未标注数据中的新知识，对数据使用方式更精细；因此，相较于用第一训练数据集直接训练语言模型而言，可以进一步提升语言模型的准确度，从而提升文本标注模型的准确度。此外，这种处理方式还可以提升数据增强的灵活性和通用性。

具体实施时，在通过语言模型生成第五文本后，还可通过预设规则对第五文本进行筛选。所述预设规则，可以是不能违反语法规则，某些词不能在一个句子中同时出现，等等。采用这种处理方式，可以有效提升增强数据的质量。

步骤S105：根据第一对应关系集和第二对应关系集，学习得到文本标注模型。

本步骤第一对应关系集和第二对应关系集合并称新的训练数据合集，根据第一对应关系与第二对应关系的合集，对文本标注模型进行训练，实现基于增强训练数据的模型训练。

如图3所示，本实施例对增强后的训练数据(包括第一对应关系集和第二对应关系集)进行词嵌入处理，将训练数据中的文本转换为词向量E₁E₂E₃…E_k-1E_kE_k+1…E_N，作为文本标注模型(如命名实体识别模型)的输入数据，将训练数据中的标注数据作为文本标注模型的输入数据，对模型参数进行训练。在本实施例中，文本标注模型包括两个子网络，一个为双向长短期记忆网络BiLSTM，用于抽取文本特征数据，另一个为条件随机场CRF，用于根据文本特征数据确定标注数据。由于文本标注模型属于较为成熟的现有技术，因此此处不再赘述。

在本实施例中，从第一对应关系与第二对应关系的合集中学习得到文本标注模型后，通过该模型对测试数据集进行标注，用F1分数(F1 Score)的方法检验模型标注的准确率，发现准确率得到较大的提升。

在一个示例中，首先将线性化的序列标注数据集(第四文本集)作为语言模型的输入数据，生成更多文本数据(如10万个样本左右)，即第二对应关系集。接下来，可将这些生成的新训练数据进行筛选，将不符合命名实体识别的数据去掉，同时以1-gram去衡量生成文本的多样性。在本实施例中，每生成1000个新的句子(第五文本)，可将其与已生成的句子(第五文本)进行1-gram相似度进行比较，当两者相似度达到99％，即停止生成。接下来，可将生成的第五文本集中线性化后的词语和命名实体识别的标签，还原成第一对应关系集中词语与命名实体识别的标签一一对应的形式，分别加入训练数据集，达到数据增强的目的，从而可以得到新的合成数据集。最后，可将该组新的合成数据集，作为命名实体识别模型的输入数据，对命名实体识别模型进行训练，最后可在第一对应关系集的测试数据集上进行准确率的测试，以检验准确率的提升。

在本实施例中，分别对命名实体识别模型、情感分类模型和词性标注模型上进行了实验，通过实验数据表明，由于情感分类模型中第一对应关系集单个句子的标注数据相对稀疏，因此分类结果相对不稳定。例如，用户对某餐馆评价为“Good food but dreadfulservice at that restaurant”，该句子只有food和service两个词汇有情感极性的标注，非常稀疏。

从上述实施例可见，本申请实施例提供的文本标注模型构建方法，通过获取第一文本及其标注数据间的第一对应关系集；将第一文本及其标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其标注数据间的第二对应关系集；根据第一对应关系集和第二对应关系集，学习得到文本标注模型；这种处理方式，使得在训练数据有限的情况下，把原有的文本标注数据集，通过线性化的方式将文本和标注数据转换为语言模型的输入数据，通过语言模型学习训练数据中词的分布，这样就可以通过训练后的语言模型，生成符合文本标注领域语言特点、且标注更为准确的新训练数据，由此实现基于语言模型的文本标注模型训练数据增强，弥补低资源领域中训练数据的不足；因此，可以有效提升增强训练数据的准确率，从而提升模型准确度，特别是在低资源的情况下效果显著。同时，这种处理方式还使得生成新的命名实体，以及使得新命名实体出现在不同的上下文语境中，这样就可以一定程度上地控制增强训练数据的多样性，为训练得到高鲁棒性的文本标注模型提供数据基础，提升模型的泛化能力，学到更多有用的信息，避免模型过拟合。

还需要说明的是，该方法所训练出的数据可以应用在很多低资源的情况下，例如小语种的翻译，方言的识别等等。

第二实施例

在上述的实施例中，提供了一种文本标注模型构建方法，与之相对应的，本申请还提供一种文本标注模型构建装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种文本标注模型构建装置包括：

第一标注数据获取单元，用于获取第一文本及其标注数据间的第一对应关系集；

第二标注数据生成单元，用于将第一文本及其标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其标注数据间的第二对应关系集；

标注模型训练单元，用于根据第一对应关系集和第二对应关系集，学习得到文本标注模型。

可选的，所述装置还包括：

未标注数据获取单元，用于获取第三文本集；

标注词典构建单元，用于根据第一文本的标注数据，构建标注词典；

第三标注数据生成单元，用于根据标注字典，确定第三文本的标注数据；

第二标注数据生成单元，具体用于将第一文本及其标注数据作为语言模型的输入数据，并将第三文本及其标注数据作为语言模型的输入数据，通过语言模型，生成所述第二对应关系集。

可选的，所述第二标注数据生成单元包括：

线性化子单元，用于将第一对应关系转换为包括第一文本及其标注数据的第四文本；

语言模型训练子单元，用于根据多个第四文本形成的语料库，训练语言模型；

标注数据生成子单元，用于通过训练后的语言模型，生成包括第二文本及其标注数据的第五文本集；

去线性化子单元，用于将第五文本转换为第二对应关系。

可选的，所述标注数据生成子单元包括：

文本长度确定子单元，用于确定小于或者等于预设文本长度的文本长度；

数据生成子单元，用于通过训练后的语言模型，生成具有所述文本长度的所述第五文本。

可选的，所述文本标注模型包括：命名实体识别模型；

第三实施例

本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现文本标注模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：获取第一文本及其标注数据间的第一对应关系集；将第一文本及其标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其标注数据间的第二对应关系集；根据第一对应关系集和第二对应关系集，学习得到文本标注模型。

第四实施例

在上述的实施例中，提供了一种文本标注模型构建方法，与之相对应的，本申请还提供一种文本标注数据生成方法。所述方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任何设备。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法可包括如下步骤：

步骤1：获取第一文本及其标注数据间的第一对应关系集；

步骤2：将第一文本及其标注数据作为语言模型的输入数据，通过语言模型根据第一对应关系集，生成第二文本及其标注数据间的第二对应关系集。

在一个示例中，所述方法还可包括如下步骤：1)获取第三文本集；以及，根据第一文本的标注数据，构建标注词典；2)根据标注字典，确定第三文本的标注数据；相应的，步骤2可采用如下方式实现：将第一文本及其标注数据作为语言模型的输入数据，并将第三文本及其标注数据作为语言模型的输入数据，通过语言模型，生成所述第二对应关系集。

在一个示例中，步骤2可包括如下子步骤：2.1)将第一对应关系转换为包括第一文本及其标注数据的第四文本；2.2)根据多个第四文本形成的语料库，训练语言模型；2.3)通过训练后的语言模型，生成包括第二文本及其标注数据的第五文本集；2.4)将第五文本转换为第二对应关系。

在一个示例中，步骤2.3可包括如下子步骤：2.3.1)确定小于或者等于预设文本长度的文本长度；2.3.2)通过训练后的语言模型，生成具有所述文本长度的所述第五文本。

从上述实施例可见，本申请实施例提供的文本标注数据生成方法，通过获取第一文本及其标注数据间的第一对应关系集；将第一文本及其标注数据作为语言模型的输入数据，通过语言模型根据第一对应关系集，生成第二文本及其标注数据间的第二对应关系集；这种处理方式，使得在训练数据有限的情况下，把原有的文本标注数据集，通过线性化的方式将文本和标注数据转换为语言模型的输入数据，通过语言模型学习训练数据中词的分布，这样就可以通过训练后的语言模型，生成符合文本标注领域语言特点、且标注更为准确的新训练数据，由此实现基于语言模型的文本标注模型训练数据增强，弥补低资源领域中训练数据的不足；因此，可以有效提升增强训练数据的准确率，特别是在低资源的情况下效果显著。同时，这种处理方式还使得生成新的命名实体，以及使得新命名实体出现在不同的上下文语境中，这样就可以一定程度上地控制增强训练数据的多样性，为训练得到高鲁棒性的文本标注模型提供数据基础。

第五实施例

在上述的实施例中，提供了一种文本标注数据生成方法，与之相对应的，本申请还提供一种文本标注数据生成装置。该装置是与上述方法的实施例相对应。本实施例与第四实施例内容相同的部分不再赘述，请参见实施例四中的相应部分。

本申请提供的一种文本标注数据生成装置包括：

第二标注数据生成单元，用于将第一文本及其标注数据作为语言模型的输入数据，通过语言模型根据第一对应关系集，生成第二文本及其标注数据间的第二对应关系集。

第六实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现文本标注数据生成方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：获取第一文本及其标注数据间的第一对应关系集；将第一文本及其标注数据作为语言模型的输入数据，通过语言模型根据第一对应关系集，生成第二文本及其标注数据间的第二对应关系集。

第七实施例

在上述的实施例中，提供了一种文本标注模型构建方法，与之相对应的，本申请还提供一种语言模型构建方法。所述方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任何设备。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述语言模型构建方法可包括如下步骤：

步骤1：获取第一文本及其标注数据间的第一对应关系集；

步骤2：将第一对应关系转换为包括第一文本及其标注数据的第二文本；

步骤3：根据多个第二文本形成的语料库，训练语言模型，所述语言模型用于生成包括第三文本及其标注数据的第四文本集；根据第四文本集，确定第三文本及其标注数据间的第二对应关系集。

从上述实施例可见，本申请实施例提供的语言模型构建方法，通过获取第一文本及其标注数据间的第一对应关系集；将第一对应关系转换为包括第一文本及其标注数据的第二文本；根据多个第二文本形成的语料库，训练语言模型，所述语言模型用于生成包括第三文本及其标注数据的第四文本集；根据第四文本集，确定第三文本及其标注数据间的第二对应关系集；这种处理方式，使得在训练数据有限的情况下，把原有的文本标注数据集，通过线性化的方式将文本和标注数据转换为语言模型的输入数据，通过语言模型学习训练数据中词的分布，这样就可以通过训练后的语言模型，生成符合文本标注领域语言特点、且标注更为准确的新训练数据，由此实现基于语言模型的文本标注模型训练数据增强，弥补低资源领域中训练数据的不足，特别是在低资源的情况下效果显著。同时，这种处理方式还使得语言模型可生成新的命名实体，以及使得新命名实体出现在不同的上下文语境中，这样就可以一定程度上地控制增强训练数据的多样性，为训练得到高鲁棒性的文本标注模型提供数据基础。

第八实施例

在上述的实施例中，提供了一种语言模型构建方法，与之相对应的，本申请还提供一种语言模型构建装置。该装置是与上述方法的实施例相对应。本实施例与第七实施例内容相同的部分不再赘述，请参见实施例七中的相应部分。

本申请提供的一种语言模型构建装置包括：

标注数据获取单元，用于获取第一文本及其标注数据间的第一对应关系集；

线性化单元，用于将第一对应关系转换为包括第一文本及其标注数据的第二文本；

模型训练单元，用于根据多个第二文本形成的语料库，训练语言模型，所述语言模型用于生成包括第三文本及其标注数据的第四文本集；根据第四文本集，确定第三文本及其标注数据间的第二对应关系集。

第九实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语言模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：获取第一文本及其标注数据间的第一对应关系集；将第一对应关系转换为包括第一文本及其标注数据的第二文本；根据多个第二文本形成的语料库，训练语言模型，所述语言模型用于生成包括第三文本及其标注数据的第四文本集；根据第四文本集，确定第三文本及其标注数据间的第二对应关系集。

第十实施例

在上述的实施例中，提供了一种文本标注模型构建方法，与之相对应的，本申请还提供一种命名实体识别模型构建方法。所述方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任何设备。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述命名实体识别模型构建方法可包括如下步骤：

步骤1：获取第一文本及其命名实体标注数据间的第一对应关系集。

步骤2：将第一文本及其命名实体标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其命名实体标注数据间的第二对应关系集。

步骤3：根据第一对应关系集和第二对应关系集，学习得到命名实体识别模型。

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

例如，在以下句子：“ACM宣布，深度学习的三位创造者Yoshua Bengio，YannLeCun，以及Geoffrey Hinton获得了2019年的图灵奖“。NER的任务就是从这句话中提取出“机构名：ACM”、“人名：Yoshua Bengio，Yann LeCun，Geoffrey Hinton”、“时间：2019年”、“专有名词：图灵奖”。

例如，在电商的场景中，不同用户在通过客户端在电商平台上进行商品搜索时，服务端通过命名实体识别模型对用户指定的搜索词进行命名实体识别，以能够准确识别出类似于地域、品牌、商品名等有特定意义的实体，可有效提升用户体验。

再例如，服务端也可以通过命名实体识别模型对商品库中的商品描述进行品牌名、材质、消费人群、地域、商品类别等实体识别，以便向用户推荐其感兴趣的商品。

从上述实施例可见，本申请实施例提供的命名实体识别模型构建方法，可构建出准确度更高的命名实体识别模型，准确的命名实体识别能够提升商品搜索准确率和商品推荐成功率，从而创造更好的用户体验。

第十一实施例

在上述的实施例中，提供了一种文本标注模型构建方法，与之相对应的，本申请还提供一种商品评价情感分类模型构建方法。所述方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任何设备。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述商品评价情感分类模型构建方法可包括如下步骤：

步骤1：获取第一商品评价及其情感类别标注数据间的第一对应关系集；

步骤2：将第一商品评价及其情感类别标注数据作为语言模型的输入数据，通过语言模型，生成第二商品评价及其情感类别标注数据间的第二对应关系集；

步骤3：根据第一对应关系集和第二对应关系集，学习得到所述分类模型。

在电商的场景中，用户对其购买的商品进行评论时，服务端可以运用端到端的基于目标的情感分析技术，通过商品评价情感分类模型，判断用户对商品的评价是正面还是负面。端到端基于方面/目标的情感分析(End-to-End Aspect/Target-Based SentimentAnalysis)，需要正确判断句子中不同方面的情感极性，这不仅依赖于文本的上下文信息，同时也要考虑不同方面的情感信息。例如,句子“Good food but dreadful service atthat restaurant“，在同一个句子中对于方面“food”是积极情感，而对于“service”是消极情感。所以，在同一个句子中针对不同的方面分析其情感极性可以更加有效地了解用户对不同方法的情感表达。该任务在电商里面对于用户评价分析有广泛应用。

在一个示例中，第一商品评价属于低标注资源的语种，如越南语的商品评价标注数据较少，为了构建适用于越南语的商品评价情感分类模型，可通过所述方法对已有的少量商品评价标注数据进行数据增强，获得较为丰富的越南语训练数据，构建适用于越南语的商品评价情感分类模型，从而提升对越南语的商品评价进行情感判定的准确度。

在另一个示例中，第一商品评价属于低标注资源的商品品类，如汽车配件品类的商品评价标注数据较少，为了构建适用于汽车配件品类的商品评价情感分类模型，可通过所述方法对已有的少量商品评价标注数据进行数据增强，获得较为丰富的汽车配件品类的训练数据，构建适用于汽车配件品类的商品评价情感分类模型，从而提升对汽车配件品类的商品评价进行情感判定的准确度。

在又一个示例中，第一商品评价属于低标注资源的某语种及商品品类，如越南语汽车配件品类的商品评价标注数据较少，为了构建适用于汽车配件品类的越南语商品评价情感分类模型，可通过所述方法对已有的少量商品评价标注数据进行数据增强，获得较为丰富的汽车配件品类的越南语训练数据，构建适用于汽车配件品类的越南语商品评价情感分类模型，从而提升对汽车配件品类的越南语商品评价进行情感判定的准确度。

从上述实施例可见，本申请实施例提供的商品评价情感分类模型构建方法，可构建出准确度更高的商品评价情感分类模型，准确的情感分析能够提升商品推荐成功率，从而创造更好的用户体验。

第十二实施例

在上述的实施例中，提供了一种文本标注模型构建方法，与之相对应的，本申请还提供一种词性标注模型构建方法。所述方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任何设备。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述词性标注模型构建方法可包括如下步骤：

步骤1：获取第一文本及其词性标注数据间的第一对应关系集；

步骤2：将第一文本及其词性标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其词性标注数据间的第二对应关系集；

步骤3：根据第一对应关系集和第二对应关系集，学习得到词性标注模型。

词性标注，又称为词性分析(POS tagging)、词类标注，是将对句子中的词语进行分类标注的过程。词性标注是依据字词在句法结构或语言形态上承担的成分，通过词性分类赋予每个词的词性标记的过程，也就是要确定句子中每个词是名词、动词、形容词或其他词性的过程。词性标注是自然语言处理中的一项基础任务，在语音识别、信息检索及自然语言处理的许多领域都有应用，无论是电商搜索、智能客服、查询推荐、商品标题改写还是任务型对话等任务，词性分析都会是预处理的重要步骤。

例如，当用户搜索：“真丝韩都衣舍连衣裙“，其词性分析结果如下：“真丝”：NN(其他名词)“韩都衣舍”：NR(专有名词)“连衣裙“：NN(其他名词)。再例如，某小语种的词性标注数据较少，则可通过所述方法构建该语种的词性标注模型。

从上述实施例可见，本申请实施例提供的词性标注模型构建方法，可构建出准确度更高的词性标注模型，准确的词性标注能够提升商品推荐成功率，从而创造更好的用户体验。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种文本标注模型构建方法，其特征在于，包括：

获取第一文本及其标注数据间的第一对应关系集；

2.根据权利要求1所述的方法，其特征在于，还包括：

根据标注字典，确定第三文本的标注数据；

3.根据权利要求1所述的方法，其特征在于，

所述将第一文本及其标注数据作为语言模型的输入数据，通过语言模型，生成第二文本及其标注数据间的第二对应关系集，包括：

根据多个第四文本形成的语料库，训练语言模型；

将第五文本转换为第二对应关系。

4.根据权利要求3所述的方法，其特征在于，所述通过训练后的语言模型，生成包括第二文本及其标注数据的第五文本集，包括：

确定小于或者等于预设文本长度的文本长度；

5.根据权利要求1所述的方法，其特征在于，

所述文本标注模型包括：命名实体识别模型；

6.一种文本标注模型构建装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

未标注数据获取单元，用于获取第三文本集；

8.根据权利要求6所述的装置，其特征在于，

去线性化子单元，用于将第五文本转换为第二对应关系。

9.根据权利要求8所述的装置，其特征在于，所述标注数据生成子单元包括：

10.根据权利要求6所述的装置，其特征在于，

所述文本标注模型包括：命名实体识别模型；