CN117493514B

CN117493514B - 文本标注方法、装置、电子设备和存储介质

Info

Publication number: CN117493514B
Application number: CN202311489339.8A
Authority: CN
Inventors: 谢方敏; 周峰; 郭陟; 林昱榕
Original assignee: Guangzhou Fangzhou Information Technology Co ltd
Current assignee: Guangzhou Fangzhou Information Technology Co ltd
Priority date: 2023-11-09
Filing date: 2023-11-09
Publication date: 2024-05-14
Anticipated expiration: 2043-11-09
Also published as: CN117493514A

Abstract

本发明公开了一种文本标注方法、装置、电子设备和存储介质，包括：获取每个意图类别的已标注文本集，已标注文本集包括标注了意图类别的第一文本，从待标注文本集提取第二文本输入预训练的文本对生成模型中得到文本对，文本对包括第一文本和第二文本，在接收到文本对的意图类别相同确认操作时，将文本对中第一文本的意图类别标注为第二文本的意图类别，判断是否满足停止标注条件，若否，从已标注文本集和待标注文本集中构建正样本和负样本重训练所述文本对生成模型，并继续对待标注文本集进行标注，无需人工标注文本的意图类别，提高了文本标注的效率，并且通过重训练模型提高文本标注的准确度，所标注的文本可以提高对话机器人的性能。

Description

文本标注方法、装置、电子设备和存储介质

技术领域

本发明涉及对话机器人训练技术领域，尤其涉及一种文本标注方法、装置、电子设备和存储介质。

背景技术

随着医药平台访问量不断增大，为了方便用户能够在医药平台对商品或服务进行准确定位，通常在医药平台中嵌入对话机器人，以通过对话机器人识别用户的意图后回复用户，以指引用户选择商品或服务器。

对话机器人实现用户意图识别进行对话，需要通过大量文本进行训练，比如，需要对大量文本标注意图类别，在医药平台下，用户的意图类别多达几百种，比如咨询药品名称的、咨询平台登录出现问题解决方案的、咨询病症的、咨询药品效果的、咨询药品价格等等。现有技术中，主要是获取到训练文本后，通过人工对训练文本标注意图类别，一方面，需要大量人力和时间，成本高，效率低，另一方面，意图类别标注的准确性依赖于标注人员的经验和知识水平，难以保证训练文本标注的准确度。

发明内容

本发明提供了一种文本标注方法、装置、电子设备和存储介质，以解决现有技术中人工标注训练文本需要花费大量人力和时间，导致成本高，效率和准确度低的问题。

第一方面，本发明提供了一种文本标注方法，用于对训练对话机器人所用的文本标注意图类别，包括：

获取每个意图类别的已标注文本集，所述已标注文本集包括标注了意图类别的第一文本；

从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对，所述文本对包括第一文本和第二文本；

在接收到针对所述文本对的意图类别相同确认操作时，将所述文本对中所述第一文本的意图类别标注为所述第二文本的意图类别；

将所述待标注文本集中标注意图类别后的第二文本移除，并将标注意图类别后的第二文本添加到所标注的意图类别对应的已标注文本集中；

判断是否满足停止标注条件；

若否，从所述已标注文本集和所述待标注文本集中构建正样本和负样本；

采用所述正样本和所述负样本重训练所述文本对生成模型，并返回从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对。

第二方面，本发明提供了一种文本标注装置，用于对训练对话机器人所用的文本标注意图类别，包括：

已标注文本集获取模块，用于获取每个意图类别的已标注文本集，所述已标注文本集包括标注了意图类别的第一文本；

文本对生成模块，用于从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对，所述文本对包括第一文本和第二文本；

意图类别标注模块，用于在接收到针对所述文本对的意图类别相同确认操作时，将所述文本对中所述第一文本的意图类别标注为所述第二文本的意图类别；

文本集更新模块，用于将所述待标注文本集中标注意图类别后的第二文本移除，并将标注意图类别后的第二文本添加到所标注的意图类别对应的已标注文本集中；

条件判断模块，用于判断是否满足停止标注条件，若否，执行样本构建模块；

样本构建模块，用于从所述已标注文本集和所述待标注文本集中构建正样本和负样本；

重训练模块，用于采用所述正样本和所述负样本重训练所述文本对生成模型，并返回文本对生成模块。

第三方面，本发明提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明第一方面所述的文本标注方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明第一方面所述的文本标注方法。

本发明实施例可以先获取每个意图类别少量已标注的第一文本作为示例文本添加到已标注文本集中，然后将从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对，该文本对包括第一文本和第二文本，在接收到针对文本对的意图类别相同确认操作时，将文本对中第一文本的意图类别标注为第二文本的意图类别，将待标注文本集中标注意图类别后的第二文本移除，并将标注意图类别后的第二文本添加对应的已标注文本集中，在未满足停止标注条件时，从已标注文本集和待标注文本集中构建正样本和负样本，采用正样本和负样本重训练文本对生成模型继续进行文本标注。一方面，通过文本对生成模型生成包含待标注文本集中第二文本的文本对，在人工对文本对确认后，将文本对中作为示例的第一文本的意图类别标注为第二文本的意图类别，无需人工一一对待标注文本标注意图类别，提高了文本标注的效率，节省文本标注的时间和人力成本，另一方面，通过人工确认标注后的已标注文本集构建正负样本重训练文本对生成模型，可以提高文本对生成模型的准确度，从而提高所标注的文本的意图类别的准确度。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种文本标注方法的流程图；

图2是本发明实施例二提供的一种文本标注方法的流程图；

图3是本发明实施例三提供的一种文本标注装置的结构示意图；

图4是本发明实施例四提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种文本标注方法的流程图，本实施例可适用于对训练对话机器人时所用的文本标注意图类别的情况，该方法可以由文本标注装置来执行，该文本标注装置可以采用硬件和/或软件的形式实现，并配置于电子设备中。如图1所示，该文本标注方法包括：

S101、获取每个意图类别的已标注文本集，已标注文本集包括标注了意图类别的第一文本。

本实施例所标注的文本用于训练对话机器人，该对话机器人可以是应用于在线商城平台中的机器人，比如嵌入药品销售APP中的对话机器人，该对话机器人用于识别用户的对话意图并根据对话意图匹配对话回复用户，因此，本实施例对文本标注是指标注文本所属的意图类别。

在一个实施例中，意图类别可以是咨询登录问题，比如咨询登录问题的文本可以是“我为什么登录不良”、“无法输入图像验证码，不能登录”，意图类别还可以是疾病症状和描述，比如“右臂出现肌肉疼痛”、“视力下降”、“眼睛痒，是不是角膜炎”等，意图类别还可以是咨询药品功能主治，比如“这个减肥的吗”、“是降压药吗”等等，本领域技术人员可以根据对话机器人的应用场景设置相应的意图类别。

本实施例在设置多个意图类别后，可以获取并输入每个意图类别的已标注文本集，每个意图类别的已标注文本集中可以包括预设数量的第一文本作为示例文本，并且每个第一文本均已标注意图类别。

S102、从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对，文本对包括第一文本和第二文本。

待标注文本集可以是未标注意图类别的文本的集合，文本对生成模型可以是预先训练的生成文本对的各种模型，在一个示例中，文本对生成模型可以是Sentence-BERT模型，当然还可以是其他经训练后具有生成意图类别相同或相似的文本对的能力的模型，具体到本实施例中，文本对生成模型可以生成包括第二文本和已标注文本集中的第一文本的文本对。

本实施例可以预先对待标注文本集中的第二文本进行分批，得到多个批次的第二文本，每个批次至少包括一个第二文本，将第二文本输入文本对生成模型中，通过文本对生成模型可以从已标注文本集的多个第一文本中为第二文本匹配意图类别最为相似的第一文本，并采用该第一文本与输入的第二文本构成文本对。

S103、在接收到针对文本对的意图类别相同确认操作时，将文本对中第一文本的意图类别标注为第二文本的意图类别。

在通过文本对生成模型生成多个文本对后，可以将多个文本对发送到人工审核终端，以在人工审核终端确定文本对中的第二文本与第一文本的意图类别是否相同或者接近，若是，审核人员在人工审核终端上确认，在接收到该确认操作时，确定待标注的第二文本的意图类别与已标注的第一文本的意图类别相同，可以将文本对中第一文本的意图类别标注为第二文本的意图类别。

S104、将待标注文本集中标注意图类别后的第二文本移除，并将标注意图类别后的第二文本添加到所标注的意图类别对应的已标注文本集中。

当待标注文本集中的第二文本标注意图类别后，可以将该已标注意图类别的第二文本从待标注文本集移除，并添加到所标注的意图类别对应的已标注文本集中，添加到已标注文本集中的第二文本变为第一文本，即从待标注文本转变为已标注文本，使得待标注文本集中的待标注的第二文本的数量逐渐减少，各个意图类别的已标注文本集中的第一文本逐渐增加。

若未接收到人工审核终端对文本对的确认操作，则确定文本对中第一文本与第二文本的意图类别不相同或差异过大，则将第二文本仍然设置在待标注文本集中等待标注。

S105、判断是否满足停止标注条件。

在一个实施例中，停止标注条件可以是各个意图类别的已标注文本集中的第一文本的数量均大于预设数量阈值，即各个意图类别的第一文本标注得足够多用于训练，在另一个示例中，停止标注条件还可以是待标注文本集中剩余的第二文本的数量小于预设值，当满足停止标注条件时，停止对待标注文本集中的文本进行标注，当未满足停止标注条件时，执行S106。

S106、从已标注文本集和待标注文本集中构建正样本和负样本。

在一个实施例中，可以从一个意图类别的已标注文本集中随机抽取两个第一文本构成正样本。

在另一个实施例中，可以从待标注文本集中确定出已输入文本对生成模型一次或多次的第二文本，并采用该第二文本生成文本对构成负样本，比如，采用该第二文本输入文本对生成模型时所得到的文本对作为负样本。

在又一个实施例中，可以从两个意图类别的已标注文本集中分别随机抽取一个第一文本生成负样本，又或者是从两个相似的意图类别的已标注文本集中随机抽取一个第一文本生成负样本。

当然，本领域技术人员还可以通过其他方式生成正样本和负样本，本实施例对生成正样本和负样本的方式不作限制。

S107、采用正样本和负样本重训练文本对生成模型。

具体的，可以从正样本和负样本中随机提取文本对输入到文本对生成模型中，以通过文本对生成模型输出文本对中两个文本的意图类别相似的概率，通过该概率计算损失率，通过损失率调整模型参数后继续训练文本对生成模型，直到满足停止训练条件后，返回S102继续对待标注文本集中的第二文本进行标注，以提高文本标注的准确度。

本发明实施例可以先获取每个意图类别少量已标注的第一文本作为示例文本添加到已标注文本集中，然后将从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对，该文本对包括第一文本和第二文本，在接收到针对文本对的意图类别相同确认操作时，将文本对中第一文本的意图类别标注为第二文本的意图类别，将待标注文本集中标注意图类别后的第二文本移除，并将标注意图类别后的第二文本添加到已标注文本集中，判断是否满足停止标注条件，若否，从已标注文本集和待标注文本集中构建正样本和负样本，采用正样本和负样本重训练文本对生成模型，并返回从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对。一方面，通过文本对生成模型生成包含待标注文本集中第二文本的文本对，在人工对文本对确认后，将文本对中作为示例的第一文本的意图类别标注为第二文本的意图类别，无需人工一一对待标注文本标注意图类别，提高了文本标注的效率，节省文本标注的时间和人力成本，另一方面，通过人工确认标注后的已标注文本集构建正负样本重训练文本对生成模型，可以提高文本对生成模型的准确度，从而提高所标注的文本的意图类别的准确度。

实施例二

图2为本发明实施例二提供的一种文本标注方法的流程图，本发明实施例在上述实施例一的基础上进行优化，如图2所示，该文本标注方法包括：

S201、获取每个意图类别的已标注文本集，已标注文本集包括标注了意图类别的第一文本。

本实施例在设置多个意图类别后，可以人工获取并输入每个意图类别的已标注文本集，每个意图类别的已标注文本集中可以包括少量第一文本作为示例文本，并且每个第一文本均已标注意图类别。

S202、将已标注文本集中的第一文本输入预训练的文本对生成模型中，得到每个第一文本的第一向量，并将第一向量存储在向量库中。

本实施例的文本对生成模型可以在输入两个文本后，生成两个文本的向量，并将所生成的向量存储在向量库中，以及计算两个向量的相似度，在向量的相似度大于阈值时，确定两个向量对应的两个文本的意图类别相同。

在获取到已标注文本集后，可以将已标注文本集中作为示例文本的第一文本输入文本对生成模型中，得到多个第一文本的第一向量，将第一文本的第一向量存储在向量库中。

S203、从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中。

本实施例可以预先对待标注文本集中的第二文本进行分批，得到多个批次的第二文本，每个批次至少包括一个第二文本，将第二文本输入文本对生成模型中，其中，每个批次的第二文本的数量可以根据待标注文本集中的文本总数确定，也可以根据文本对生成模型的处理性能确定，本实施例对一个批次中第二文本的数量不作限定。

S204、在文本对生成模型对所输入的每个第二文本进行编码，得到第二文本的第二向量。

在第二文本输入文本对生成模型后，可以对所输入的每个第二文本进行编码，得到第二文本的第二向量，在一个实施例中，文本对生成模型可以设置有编码器，比如可以是各种编码网络，比如可以是one-hot、word2vec等。

S205、在文本对生成模型中计算第二向量与预置的向量库中的第一向量的相似度。

本实施例的文本对生成模型的向量库中存储有已标注的第一文本的第一向量，可以计算所输入的第二文本的第二向量与向量库中每个第一文本的第一向量的相似度，该相似度可以是余弦相似度、曼哈顿相似度、切比雪夫距离等，本实施例对相似度的计算方式不作限制。

S206、采用相似度最大的第一向量和第二向量对应的第一文本和第二文本构建文本对。

在计算第二向量与多个第一向量的相似度后，确定出最大相似度，采用该最大相似度最大的第一文本与所输入的第二文本构建文本对，当输入一个批次的第二文本有多个时，可以得到包含第二文本的多个文本对，并将该多个文本对发送到人工审核终端，以在人工审核终端对文本对进行确认。

在另一个实施例中，文本对生成模型除了生成文本对，还输出文本对中的第一文本和第二文本的意图类别相同的概率，可以将概率小于阈值的文本对发送到人工审核终端进行人工确认，在概率大于或等于阈值时，直接将文本对中第一文本的意图类别标注为第二文本的意图类别，从而可以将意图类别相同概率高的文本对直接进行标注，无需人工审核确认，减少人工审核确认的文本对的数量，降低审核人员的工作压力，提高文本标注效率。

S207、在接收到针对文本对的意图类别相同确认操作时，将文本对中第一文本的意图类别标注为第二文本的意图类别。

S208、将待标注文本集中标注意图类别后的第二文本移除，并将标注意图类别后的第二文本添加到所标注的意图类别对应的已标注文本集中。

当待标注文本集中的第二文本标注意图类别后，可以将该已标注意图类别的第二文本从待标注文本集移除，并添加到所标注的意图类别对应的已标注文本集中，使得待标注文本集中的待标注的第二文本的数量逐渐减少，各个意图类别的已标注文本集中的第一文本逐渐增加。

若未接收到人工审核终端对文本对的确认操作，则确定文本对中第一文本与第二文本的意图类别不相同或差异过大，则将第二文本仍然设置在待标注文本集中。

S209、判断是否满足停止标注条件。

在一个实施例中，可以统计每个意图类别的已标注文本集中第一文本的文本数量，并判断多个文本数量是否均大于预置的数量阈值，若是，执行S210，若否，执行S211。

S210、确定满足停止标注条件，结束对待标注文本集中的第二文本进行标注。

当每个意图类别的已标注文本数量足够多时，可以停止对待标注文本集中的第二文本进行标注，得到标注好的各个意图类别的已标注文本集，通过各个意图类别的已标注文本集可以训练对话机器人。

S211、从已标注文本集和待标注文本集中构建正样本和负样本。

本实施例中，正样本和负样本可以是文本对，正样本可以是意图类别相同的两个文本构建的文本对，负样本为意图类别不相同的两个文本构成的文本对。

在一个实施例中，可以从任意两个已标注文本集中分别随机抽取一个文本，得到多个第一类负样本，示例性的，意图类别A的已标注文本集为A＝(A1、A2、Ai、……、An)，意图类别B的已标注文本集为B＝(B1、B2、Bj、……、Bn)，可以构成第一类负样本(Ai，Bj，L1)，其中，Ai为意图类别A的已标注文本集A中任意一个文本，Bi为意图类别B的已标注文本集B中任意一个文本，L1为文本Ai与文本Bi的意图类别相同的概率。

在另一个实施例中，从待标注文本集中确定出多个标注错误n次和m次的第二文本，并采用标注错误n次的第二文本生成第二类负样本，以及采用标注错误m次的第二文本生成第三类负样本，第二类负样本和第三类负样本为意图类别不相同的两个文本的文本对，具体地，通过S206生成文本对发送到人工审核后，如果人工审核确定文本对中的第二文本与第一文本的意图类别不相同，则将该第二文本标记标注错误1次，以此类推，得到待标注文本集合中每个第二文本标注错误的次数，采用标注错误1次的第二文本生成第二类负样本，比如，采用错误1次的第二文本输入文本对生成模型时所输出的、并人工确认标注错误时的文本对作为第二类负样本，以及采用标注错误3次的第二文本生成第三类负样本，比如，采用错误3次的第二文本输入文本对生成模型时所输出的、并人工确认标注错误时的文本对作为第三类负样本。

在又一个实施例中，确定意图类别相似的任意两个已标注文本集，并从意图类别相似的任意两个已标注文本集中分别随机抽取一个文本，得到多个第四类负样本，示例性的，意图类别C和意图类别D的意图类别相近，意图类别C的已标注文本集为C＝(C1、C2、Ci、……、Cn)，意图类别D的已标注文本集为D＝(D1、D2、Dj、……、Dn)，可以构成第四类负样本(Ci，Dj，L4)，其中，Ci为意图类别C的已标注文本集C中任意一个文本，Di为意图类别D的已标注文本集D中任意一个文本，L4为文本Ci与文本Di的意图类别相同的概率。

在又一个实施例中，可以从每个已标注文本集中随机提取两个文本得到多个正样本。

本实施例从每个已标注文本集中随机提取两个文本得到多个正样本，以及从任意两个意图类别的已标注文本集中构建第一类负样本，采用标注错误n次的第二文本构建第二类负样本，采用标注错误m次的第二文本构建第三类负样本，采用两个意图类别相似的已标注文本集构建第四类负样本，形成了识别难度从低到高的第一类负样本、第二类负样本、第三类负样本、第四类负样本，形成了难易程度不同的多级负样本，丰富了样本类型，通过所构建的样本能够充分训练文本对生成模型，提高文本对生成模型识别意图类别的准确度。

S212、采用正样本和负样本重训练文本对生成模型。

在一个实施例中，可以随机提取一个批次的正样本和负样本输入文本对生成模型中，得到每个样本中两个样本的意图类别相同的概率，根据概率计算损失率，判断损失率是否小于阈值的损失率阈值，若是，确定文本对生成模型完成重训练，返回S102将已标注文本集中的第一文本输入重训练后的文本对生成模型中，得到每个第一文本的第一向量，并将第一向量存储在向量库中，以更新向量库中所存储的已标注文本的向量，若否，根据损失率调整模型参数，并返回随机提取一个批次的正样本和负样本输入文本对生成模型中。

在一个实施例中，在计算损失率时，可以将每个样本中两个样本的意图类别相同的概率和样本的标签值输入预设的损失函数中，得到每个样本的损失率，并确定样本的权重w0、w1、w2、w3、w4，其中，w1＜w2＜w3＜w4，w0为正样本的权重，w1、w2、w3、w4分别为第一类负样本、第二类负样本、第三类负样本、第四类负样本的权重，通过每个样本的损失率、权重以及一批次样本的数量计算加权平均值，得到总损失率。其中，损失函数可以是二分类交叉熵损失函数、均方差损失函数等，本实施例对损失函数不作限制。

本实施例中，第一类负样本、第二类负样本、第三类负样本、第四类负样本的意图类别的识别难度从低到高，第一类负样本、第二类负样本、第三类负样本、第四类负样本的权重从小到大，即样本的意图类别越难识别，权重越高，其损失率在总损失率所占的权重越高，通过总损失率约束文本对生成模型训练后，使得文本对生成模型能够识别难度高的文本对的意图类别是否相同，从而可以为难以确定意图类别的文本准确生成文本对，提高文本标注意图类别的准确度，进一步的，重训练后的文本对生成模型生成重要样本的文本对的准确度更高，可以提高重要样本(难以识别意图类别的样本)在总样本中的比例，避免某个意图类别难以识别，导致该意图类别的标注文本过少，造成样本稀疏降低所训练的对话机器人的准确度的问题，提高了对话机器人的性能。

本实施例可以先获取每个意图类别少量已标注的第一文本作为示例文本添加到已标注文本集中，将已标注文本集中的第一文本输入预训练的文本对生成模型中，得到每个第一文本的第一向量，并将第一向量存储在向量库中，从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中，在文本对生成模型对所输入的每个第二文本进行编码，得到第二文本的第二向量，在文本对生成模型中计算第二向量与预置的向量库中的第一向量的相似度，采用相似度最大的第一向量和第二向量对应的第一文本和第二文本构建文本对，在接收到针对文本对的意图类别相同确认操作时，将文本对中第一文本的意图类别标注为第二文本的意图类别，将待标注文本集中标注意图类别后的第二文本移除，并将标注意图类别后的第二文本添加到所标注的意图类别对应的已标注文本集中，在未满足停止标注条件时构建正样本和负样本重训练文本对生成模型，一方面，通过文本对生成模型生成包含待标注文本集中第二文本的文本对，在人工对文本对确认后，将文本对中作为示例的第一文本的意图类别标注为第二文本的意图类别，无需人工一一对待标注文本标注意图类别，提高了文本标注的效率，节省文本标注的时间和人力成本，另一方面，通过人工确认标注后的已标注文本集构建正负样本重训练文本对生成模型，可以提高文本对生成模型的准确度，从而提高所标注的文本的意图类别的准确度。

实施例三

图3为本发明实施例三提供的一种文本标注装置的结构示意图。如图3所示，该文本标注装置用于对训练对话机器人所用的文本标注意图类别，包括：

已标注文本集获取模块301，用于获取每个意图类别的已标注文本集，所述已标注文本集包括标注了意图类别的第一文本；

文本对生成模块302，用于从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对，所述文本对包括第一文本和第二文本；

意图类别标注模块303，用于在接收到针对所述文本对的意图类别相同确认操作时，将所述文本对中所述第一文本的意图类别标注为所述第二文本的意图类别；

文本集更新模块304，用于将所述待标注文本集中标注意图类别后的第二文本移除，并将标注意图类别后的第二文本添加到所标注的意图类别对应的已标注文本集中；

条件判断模块305，用于判断是否满足停止标注条件，若否，执行样本构建模块；

样本构建模块306，用于从所述已标注文本集和所述待标注文本集中构建正样本和负样本；

重训练模块307，用于采用所述正样本和所述负样本重训练所述文本对生成模型，并返回文本对生成模块。

可选的，还包括：

向量存储模块，用于将所述已标注文本集中的第一文本输入预训练的文本对生成模型中，得到每个第一文本的第一向量，并将所述第一向量存储在向量库中。

可选的，文本对生成模块302包括：

文本输入单元，用于从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中；

向量生成单元，用于在所述文本对生成模型对所输入的每个第二文本进行编码，得到所述第二文本的第二向量；

相似度计算单元，用于在文本对生成模型中计算所述第二向量与预置的向量库中的第一向量的相似度；

文本对生成单元，用于采用相似度最大的第一向量和第二向量对应的第一文本和第二文本构建文本对。

可选的，条件判断模块305包括：

文本数量统计单元，用于统计每个意图类别的已标注文本集中第一文本的文本数量；

文本数量判断单元，用于判断多个文本数量是否均大于预置的数量阈值，若是，执行停止标注单元，若否，确定未满足停止标注条件，执行样本构建模块306；

停止标注单元，用于确定满足停止标注条件，结束对待标注文本集中的第二文本进行标注。

可选的，样本构建模块306包括：

第一样本构建单元，用于从任意两个已标注文本集中分别随机抽取一个文本，得到多个第一类负样本；

第二样本构建单元，用于从所述待标注文本集中确定出多个标注错误n次和m次的第二文本，并采用标注错误n次的第二文本生成第二类负样本，以及采用标注错误m次的第二文本生成第三类负样本，所述第二类负样本和所述第三类负样本为意图类别不相同的两个文本的文本对，其中，m大于n；

第三样本构建单元，用于确定意图类别相似的任意两个已标注文本集，并从意图类别相似的任意两个已标注文本集中分别随机抽取一个文本，得到多个第四类负样本；

第四样本构建单元，用于从每个已标注文本集中随机提取两个文本得到多个正样本。

可选的，重训练模块307包括：

概率预测单元，用于随机提取一个批次的正样本和负样本输入所述文本对生成模型中，得到每个样本中两个样本的意图类别相同的概率；

损失率计算单元，用于根据所述概率计算损失率；

损失率判断单元，用于判断所述损失率是否小于阈值的损失率阈值，若是，执行训练完成确定单元，若否，执行参数调整单元；

训练完成确定单元，用于确定所述文本对生成模型完成重训练，并执行向量存储模块；

参数调整单元，根据所述损失率调整模型参数，并返回概率预测单元。

可选的，损失率计算单元包括：

样本损失率计算子单元，用于将每个样本中两个样本的意图类别相同的概率和样本的标签值输入预设的损失函数中，得到每个样本的损失率；

样本权重确定子单元，用于确定样本的权重w0、w1、w2、w3、w4，其中，w1＜w2＜w3＜w4，w0为正样本的权重，w1、w2、w3、w4分别为第一类负样本、第二类负样本、第三类负样本、第四类负样本的权重；

总损失率计算子单元，用于通过每个样本的损失率、权重以及一批次样本的数量计算加权平均值，得到损失率。

本发明实施例所提供的文本标注装置可执行本发明任意实施例所提供的文本标注方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备40包括至少一个处理器41，以及与至少一个处理器41通信连接的存储器，如只读存储器(ROM)42、随机访问存储器(RAM)43等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序，来执行各种适当的动作和处理。在RAM 43中，还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM 42以及RAM 43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。

电子设备40中的多个部件连接至I/O接口45，包括：输入单元46，例如键盘、鼠标等；输出单元47，例如各种类型的显示器、扬声器等；存储单元48，例如磁盘、光盘等；以及通信单元49，例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理，例如文本标注方法。

在一些实施例中，文本标注方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元48。在一些实施例中，计算机程序的部分或者全部可以经由ROM 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM 43并由处理器41执行时，可以执行上文描述的文本标注方法的一个或多个步骤。备选地，在其他实施例中，处理器41可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本标注方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种文本标注方法，其特征在于，用于对训练对话机器人所用的文本标注意图类别，包括：

判断是否满足停止标注条件；

若否，从所述已标注文本集和所述待标注文本集中构建正样本和负样本，正样本为意图类别相同的两个文本构建的文本对，负样本为意图类别不相同的两个文本构成的文本对；

采用所述正样本和所述负样本重训练所述文本对生成模型，并返回从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对；

从所述已标注文本集和所述待标注文本集中构建正样本和负样本，包括：

从任意两个已标注文本集中分别随机抽取一个文本，得到多个第一类负样本；

从所述待标注文本集中确定出多个标注错误n次和m次的第二文本，并采用标注错误n次的第二文本生成第二类负样本，以及采用标注错误m次的第二文本生成第三类负样本，所述第二类负样本和所述第三类负样本为意图类别不相同的两个文本的文本对，其中，m大于n；

确定意图类别相似的任意两个已标注文本集，并从意图类别相似的任意两个已标注文本集中分别随机抽取一个文本，得到多个第四类负样本；

从每个已标注文本集中随机提取两个文本得到多个正样本；

采用所述正样本和所述负样本重训练所述文本对生成模型，包括：

随机提取一个批次的正样本和负样本输入所述文本对生成模型中，得到每个样本中两个样本的意图类别相同的概率；

根据所述概率计算损失率；

判断所述损失率是否小于阈值的损失率阈值；

若是，确定所述文本对生成模型完成重训练，将所述已标注文本集中的第一文本输入重训练后的文本对生成模型中，得到每个第一文本的第一向量，并将所述第一向量存储在向量库中；

若否，根据所述损失率调整模型参数，并返回随机提取一个批次的正样本和负样本输入所述文本对生成模型中；

根据所述概率计算损失率，包括：

将每个样本中两个样本的意图类别相同的概率和样本的标签值输入预设的损失函数中，得到每个样本的损失率；

确定样本的权重w0、w1、w2、w3、w4，其中，w1＜w2＜w3＜w4，w0为正样本的权重，w1、w2、w3、w4分别为第一类负样本、第二类负样本、第三类负样本、第四类负样本的权重；

通过每个样本的损失率、权重以及一批次样本的数量计算加权平均值，得到损失率。

2.根据权利要求1所述的方法，其特征在于，在从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对之前，还包括：

将所述已标注文本集中的第一文本输入预训练的文本对生成模型中，得到每个第一文本的第一向量，并将所述第一向量存储在向量库中。

3.根据权利要求1所述的方法，其特征在于，从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对，包括：

从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中；

在所述文本对生成模型对所输入的每个第二文本进行编码，得到所述第二文本的第二向量；

在文本对生成模型中计算所述第二向量与预置的向量库中的第一向量的相似度；

采用相似度最大的第一向量和第二向量对应的第一文本和第二文本构建文本对。

4.根据权利要求1所述的方法，其特征在于，判断是否满足停止标注条件，包括：

统计每个意图类别的已标注文本集中第一文本的文本数量；

判断多个文本数量是否均大于预置的数量阈值；

若是，确定满足停止标注条件，结束对待标注文本集中的第二文本进行标注；

若否，确定未满足停止标注条件，执行从所述已标注文本集和所述待标注文本集中构建正样本和负样本。

5.一种文本标注装置，其特征在于，用于对训练对话机器人所用的文本标注意图类别，包括：

样本构建模块，用于从所述已标注文本集和所述待标注文本集中构建正样本和负样本，正样本为意图类别相同的两个文本构建的文本对，负样本为意图类别不相同的两个文本构成的文本对；

重训练模块，用于采用所述正样本和所述负样本重训练所述文本对生成模型，并返回文本对生成模块；

样本构建模块包括：

第四样本构建单元，用于从每个已标注文本集中随机提取两个文本得到多个正样本；

重训练模块包括：

损失率计算单元，用于根据所述概率计算损失率；

参数调整单元，根据所述损失率调整模型参数，并返回概率预测单元；

损失率计算单元包括：

6.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的文本标注方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-4中任一项所述的文本标注方法。