CN112560463B

CN112560463B - 文本多标注方法、装置、设备及存储介质

Info

Publication number: CN112560463B
Application number: CN202011473154.4A
Authority: CN
Inventors: 任小芹
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2023-08-04
Anticipated expiration: 2040-12-15
Also published as: CN112560463A

Abstract

本申请适用于人工智能技术领域，提供了一种文本标注方法、装置、设备及存储介质，其中，一种文本标注方法，通过利用预先训练完成的文本多标注模型对文本数据进行标注，由于预先训练完成的文本多标注模型的训练样本集为经过多次递进式过滤源文本数据得到的质量较高的训练样本集，而基于该训练样本集训练文本多标注模型，可以有效避免文本多标注模型训练过程中的数据不均衡和过拟合现象，进而提高文本多标注模型的标注准确性。

Description

文本多标注方法、装置、设备及存储介质

技术领域

本申请涉及区块链/人工智能技术领域，尤其涉及一种文本标注方法、装置、设备及存储介质。

背景技术

如今，存在大量的文本多标注应用场景，例如问答意图识别场景以及情绪识别场景中的文本多标注任务等。在相关技术中，通常是利用标注模型进行文本多标注，而标注模型的训练过程需要大量的训练样本数据。但是在某些特定领域，由于数据来源有限且文本多标注大都倾向于语义级别的标注，导致上述标注模型在训练过程中经常会出现数据不均衡以及过拟合的现象，使得用于文本多标注的标注模型存在标注不准确的问题。

由此可见，现有的文本标注过程中存在标注不准确的问题。

发明内容

有鉴于此，本申请实施例提供了一种文本标注方法、装置、设备及存储介质，以解决现有技术中文本标注过程中存在标注不准确的问题。

本申请实施例的第一方面提供了一种文本标注方法，包括：

获取待标注的文本数据；

将所述文本数据输入预先训练完成的文本多标注模型进行文本标注，输出目标类别文本；

所述预先训练完成的文本多标注模型为基于文本多标注模型的训练样本集训练得到的模型，所述文本多标注模型的训练样本集包括第一正样本集、第二正样本集和第三正样本集；所述第二正样本集由对所述第一正样本集进行过滤得到，所述第三正样本集由对所述第二正样本集进行过滤得到。

在一可选的实现方式中，在将所述文本数据输入预先训练完成的文本多标注模型进行文本标注，输出目标类别文本之前，包括：

获取所述训练样本集，基于所述训练样本集对预先建立的文本多标注模型进行训练，得到训练完成的所述文本多标注模型。

在一可选的实现方式中，获取所述训练样本集，包括：

获取源文本数据，对所述源文本数据进行数据清洗，得到源样本数据；

利用预设的主动学习算法对所述源样本数据进行动态采样，得到第一正样本集和第一负样本集；

利用预设的聚类算法对所述第一负样本集进行聚类分析，得到第二正样本集和第二负样本集；

对所述第二负样本集进行类别标注，得到第三正样本集。

在一可选的实现方式中，所述利用预设的主动学习算法对所述源样本数据进行动态采样，得到第一正样本集和第一负样本集，包括：

基于预设的多个文本标注器对所述源样本数据分别进行标注，得到各个所述文本标注器分别对应的标注结果；

分别将各个所述文本标注器对应的标注结果进行比较，若各个所述文本标注器对目标文本的标注结果一致，则确定所述目标文本为第一正样本；所述目标文本为所述源样本数据中具有固定语义的任意词语，所有所述第一正样本构成所述第一正样本集；

若有所述文本标注器对所述目标文本的标注结果与其它文本标注器对所述目标文本的标注结果不一致，则确定所述目标文本为第一负样本，所有所述第一负样本构成所述第一负样本集。

在一可选的实现方式中，所述利用预设的聚类算法对所述第一负样本集进行聚类分析，得到第二正样本集和第二负样本集，包括：

以所述第一负样本集中的文本语义表示目标类别数据，所述目标类别数据为预设的聚类算法对应的类别数据；

计算各个所述目标类别数据与预设聚类中心之间的距离；

根据各个目标类别数据与预设聚类中心之间的距离确定所述第二正样本集和所述第二负样本集。

在一可选的实现方式中，所述根据各个目标类别数据与预设类别数据之间的距离确定所述第二正样本集和所述第二负样本集，包括：

若有任意所述目标类别数据与预设聚类中心之间的距离小于预设距离阈值，则确定该目标类别数据为第二正样本；

若有任意所述目标类别数据与预设聚类中心之间的距离大于或等于预设距离阈值，则确定该目标类别数据为第二负样本；

所有所述第二正样本构成所述第二正样本集，所有所述第二负样本构成所述第二负样本集。

在一可选的实现方式中，对所述第二负样本集进行类别标注，得到第三正样本集，包括：

对所述第二负样本集中的各个样本数据进行预处理以及特征选择；

将选择得到的特征对应的中心词组成向量，载入卷积神经网络；

初始化所述卷积神经网络的卷积核参数，训练所述卷积神经网络进行文本标注，输出所述第三正样本集。

本申请实施例第二方面提供了一种文本标注装置，包括：

获取模块，用于获取待标注的文本数据；

标注模块，用于将所述文本数据输入预先训练完成的文本多标注模型进行文本标注，输出目标类别文本；

在一可选的实现方式中，还包括：

训练模块，用于获取所述训练样本集，基于所述训练样本集对预先建立的文本多标注模型进行训练，得到训练完成的所述文本多标注模型。

在一可选的实现方式中，所述获取所述训练样本集，包括：

对所述第二负样本集进行类别标注，得到第三正样本集。

计算各个所述目标类别数据与预设聚类中心之间的距离；

本申请实施例的第三方面提供了一种文本标注设备，包括存储器、处理器以及存储在所述存储器中并可在文本标注设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的文本标注方法的各步骤。

本申请实施例的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的文本标注方法的各步骤。

实施本申请实施例提供的一种文本标注方法、装置、设备及存储介质具有以下有益效果：通过多次递进式过滤源文本数据，得到质量较高的训练样本集，基于得到的训练样本集训练文本多标注模型，可以有效避免文本多标注模型训练过程中的数据不均衡和过拟合现象，进而提高文本多标注模型的标注准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的文本标注方法的实现流程图；

图2示出了本申请另一实施例提供的文本标注方法的实现流程图；

图3示出了本申请实施例提供的获取训练样本集的实现流程图；

图4示出了本申请实施例提供的一种文本标注装置的结构框图；

图5示出了本申请实施例提供的一种文本标注设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例所涉及的文本标注方法，可以由文本标注设备执行。

本申请实施例涉及的文本标注方法，应用于基于人工智能的问答意图识别或情绪识别场景中，从而推动意图或情绪识别等方面的发展。

请参阅图1，图1示出了本申请一实施例提供的文本标注方法的实现流程图。该实施例提供的文本标注方法可以由文本标注设备执行，所述文本标注设备可以是各种应用场景下具有识别功能的设备，例如服务器、终端、可穿戴智能设备或机器人等。详述如下：

S101，获取待标注的文本数据。

在本申请的实施例中，所述待标注的文本数据可以是在特定的应用领域(也称为垂直领域)由用户选择的待标注数据，也可以是开源数据库中的数据。示例性地，所述待标注的文本数据为终端从网络数据库中获取的特定领域的用户日志。

其中，所述特定的应用领域指的是数据来源有限且数据来源成本较高的领域。例如，金融领域以及保险领域等。

S102，将所述文本数据输入预先训练完成的文本多标注模型进行文本标注，输出目标类别文本。

其中，所述预先训练完成的文本多标注模型为基于文本多标注模型的训练样本集训练得到的模型，所述文本多标注模型的训练样本集包括第一正样本集、第二正样本集和第三正样本集；所述第二正样本集由对所述第一正样本集进行过滤得到，所述第三正样本集由对所述第二正样本集进行过滤得到。

通过上述实施例可知，本申请第一方面提供的文本标注方法，通过利用预先训练完成的文本多标注模型对文本数据进行标注，由于预先训练完成的文本多标注模型的训练样本集为经过多次递进式过滤源文本数据得到的质量较高的训练样本集，而基于该训练样本集训练文本多标注模型，可以有效避免文本多标注模型训练过程中的数据不均衡和过拟合现象，进而提高文本多标注模型的标注准确性。

请参阅图2，图2示出了本申请另一实施例提供的文本标注方法的实现流程图。相对于图1对应的实施例，本实施例提供的文本标注方法在步骤S102之前还包括步骤S201，其中，步骤S101与步骤S201的执行不分先后。详述如下：

S101，获取待标注的文本数据。

S201，获取训练样本集，基于所述训练样本集对预先建立的文本多标注模型进行训练，得到训练完成的所述文本多标注模型。

其中，所述训练样本集为经过多次递进式过滤源文本数据得到的质量较高的训练样本集。示例性地，在本申请的实施例中，所述多次递进式过滤源文本数据采用的是优先进行简单的过滤任务，然后逐渐增加过滤任务的技术难度。

示例性地，请参阅图3，图3示出了本申请实施例提供的获取训练样本集的实现流程图。所述获取训练样本集的实现流程包括S301至S304，详述如下：

S301，获取源文本数据，对所述源文本数据进行数据清洗，得到源样本数据。

其中，对所述源文本数据进行数据清洗的过程可以为现有的各种数据清洗方法中的任意一种。例如，常见的分箱数据清洗法、聚类数据清洗法或者回归数据清洗法中的任意一种。

S302，利用预设的主动学习算法对所述源样本数据进行动态采样，得到第一正样本集和第一负样本集。

示例性地，所述文本标注器可以是预先根据所述源数据训练得到的标注器，包括但不限于fasttext标注模型、esim匹配模型等。

其中，利用预设的主动学习算法对所述源样本数据进行动态采样，得到第一正样本集和第一负样本集，可以包括：基于预设的多个文本标注器对所述源样本数据分别进行标注，得到各个所述文本标注器分别对应的标注结果；分别将各个所述文本标注器对应的标注结果进行比较，若各个所述文本标注器对目标文本的标注结果一致，则确定所述目标文本为第一正样本；所述目标文本为所述源样本数据中具有固定语义的任意词语，所有所述第一正样本构成所述第一正样本集；若有所述文本标注器对所述目标文本的标注结果与其它文本标注器对所述目标文本的标注结果不一致，则确定所述目标文本为第一负样本，所有所述第一负样本构成所述第一负样本集。

在本申请的实施例中，将源文本数据清洗完成后，得到需要标注的源样本数据之后，进行第一次数据过滤。其中，第一次数据过滤采用主动学习的机制。由于主动学习的机制是基于现有训练数据训练多个文本标注器，而这些文本标注器均是应用在线上的模型，可以直接使用也可以根据需要标准的源样本数据进行训练之后使用，将所述主动学习机制作为第一层过滤器，过滤之后得到第一正样本集和第一负样本集。

示例性地，通过该第一层过滤器的多个标注器的预测结果确定第一负样本集和第一正样本集。具体地，当多个标注器的标注结果一致时，认为预测结果是可信赖的，因此直接放入训练数据库中的第一正样本集中；当多个标注器预测结果不同或者预测的分数较低时，则认为预测类别不可信，则放入训练数据库中的第一负样本集中，进入第二层过滤器。

S303，利用预设的聚类算法对所述第一负样本集进行聚类分析，得到第二正样本集和第二负样本集。

在本申请的实施例中，所述利用预设的聚类算法对所述第一负样本集进行聚类分析，得到第二正样本集和第二负样本集，包括：以所述第一负样本集中的文本语义表示目标类别数据，所述目标类别数据为预设的聚类算法对应的类别数据；计算各个所述目标类别数据与预设聚类中心之间的距离；根据各个目标类别数据与预设聚类中心之间的距离确定所述第二正样本集和所述第二负样本集。

示例性地，所述根据各个目标类别数据与预设类别数据之间的距离确定所述第二正样本集和所述第二负样本集，包括：若有任意所述目标类别数据与预设聚类中心之间的距离小于预设距离阈值，则确定该目标类别数据为第二正样本；若有任意所述目标类别数据与预设聚类中心之间的距离大于或等于预设距离阈值，则确定该目标类别数据为第二负样本；所有所述第二正样本构成所述第二正样本集，所有所述第二负样本构成所述第二负样本集。

在本申请的实施例中，所述预设的聚类算法为常见的聚类方法，例如包括但不限于DBSCAN聚类方法，consin距离聚类方法等。

S304，对所述第二负样本集进行类别标注，得到第三正样本集。

所述根据各个目标类别数据与预设类别数据之间的距离确定所述第二正样本集和所述第二负样本集，包括：若有任意所述目标类别数据与预设聚类中心之间的距离小于预设距离阈值，则确定该目标类别数据为第二正样本；若有任意所述目标类别数据与预设聚类中心之间的距离大于或等于预设距离阈值，则确定该目标类别数据为第二负样本；所有所述第二正样本构成所述第二正样本集，所有所述第二负样本构成所述第二负样本集。

在本申请的实施例中，对所述第二负样本集中的数据进行类别标注的过程包括：对所述第二负样本集中数据进行预处理以及特征选择；将选择得到的特征对应的中心词组成向量，载入卷积神经网络层，初始化卷积核参数，训练文本标注模型，最后得到所述第三正样本集。其中，对所述第二负样本集中的数据进行预处理的过程包括：对所述第二负样本集中数据进行文本分词、文本去噪；然后进行文本的一元、二元、三元标注，分别得到不同元的文本。进一步地，对所述预处理之后的不同元的文件进行特征选择的过程可以包括：计算各个不同元中每个词语在本元中所占的比重r，对r降序排序，接着对按照特定的挑选规则选择出来的各个词语进行词向量的表达；最后对按照特定的挑选规则选择出来的n-gram(已被词向量表达过的文本)进行聚类，得到每一类n-gram的中心词向量，所述中心词向量中的各个词语为选择的特征。

可以看出，本实施例提供的一种文本标注方法，通过利用预先训练完成的文本多标注模型对文本数据进行标注，由于预先训练完成的文本多标注模型的训练样本集为经过多次递进式过滤源文本数据得到的质量较高的训练样本集，而基于该训练样本集训练文本多标注模型，可以有效避免文本多标注模型训练过程中的数据不均衡和过拟合现象，进而提高文本多标注模型的标注准确性。

请参阅图4，图4示出了本申请实施例提供的一种文本标注装置的结构框图。本实施例中该移动终端包括的各单元用于执行图1或图2对应的实施例中的各步骤。具体请参阅图1或图2所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图4，文本标注装置40包括：获取模块41和标注模块42，其中：

获取模块41，用于获取待标注的文本数据；

标注模块42，用于将所述文本数据输入预先训练完成的文本多标注模型进行文本标注，输出目标类别文本；

在一可选的实现方式中，还包括：

在一可选的实现方式中，所述获取所述训练样本集，包括：

对所述第二负样本集进行类别标注，得到第三正样本集。

计算各个所述目标类别数据与预设聚类中心之间的距离；

应当理解的是，图4示出的文本标注装置的结构框图中，各模块用于执行图1或图2对应的实施例中的各步骤，而对于图1或图2对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1或图2以及图1或图2所对应的实施例中的相关描述，此处不再赘述。

图5示出了本申请实施例提供的一种文本标注设备的结构框图。如图5所示，该实施例的文本标注设备50包括：处理器51、存储器52以及存储在所述存储器52中并可在所述处理器51上运行的计算机程序53，例如文本标注方法的程序。处理器51执行所述计算机程序53时实现上述各个文本标注方法各实施例中的步骤，例如图1所示的S101至S102。或者，所述处理器51执行所述计算机程序53时实现上述图4对应的实施例中各单元的功能，例如，图4所示的模块41至42，具体请参阅图4对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序53可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器52中，并由所述处理器51执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序53在所述文本标注设备50中的执行过程。例如，所述计算机程序53可以被分割成获取模块和标注模块，各模块具体功能如上图4所述。

所述文本标注设备50可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图5仅仅是文本标注设备50的示例，并不构成对文本标注设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器52可以是所述文本标注设备50的内部存储单元，例如文本标注设备50的硬盘或内存。所述存储器52也可以是所述文本标注设备50的外部存储设备，例如所述文本标注设备50上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器52还可以既包括所述文本标注设备50的内部存储单元也包括外部存储设备。所述存储器52用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本标注方法，其特征在于，包括：

获取训练样本集，基于所述训练样本集对预先建立的文本多标注模型进行训练，得到训练完成的所述文本多标注模型；

获取待标注的文本数据；

将所述文本数据输入预先训练完成的所述文本多标注模型进行文本标注，输出目标类别文本；

所述预先训练完成的文本多标注模型为基于文本多标注模型的训练样本集训练得到的模型，所述文本多标注模型的训练样本集包括第一正样本集、第二正样本集和第三正样本集；所述第二正样本集由对所述第一正样本集进行过滤得到，所述第三正样本集由对所述第二正样本集进行过滤得到；

所述获取所述训练样本集，包括：

对所述第二负样本集进行类别标注，得到第三正样本集；

所述利用预设的主动学习算法对所述源样本数据进行动态采样，得到第一正样本集和第一负样本集，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用预设的聚类算法对所述第一负样本集进行聚类分析，得到第二正样本集和第二负样本集，包括：

计算各个所述目标类别数据与预设聚类中心之间的距离；

3.根据权利要求2所述的方法，其特征在于，所述根据各个目标类别数据与预设类别数据之间的距离确定所述第二正样本集和所述第二负样本集，包括：

4.根据权利要求1所述的方法，其特征在于，对所述第二负样本集进行类别标注，得到第三正样本集，包括：

5.一种文本标注装置，其特征在于，用于实现如权利要求1-4任一项所述的文本标注方法，所述文本标注装置包括：

获取模块，用于获取待标注的文本数据；

6.一种文本标注设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。