CN114661900A

CN114661900A - 一种文本标注推荐方法、装置、设备及存储介质

Info

Publication number: CN114661900A
Application number: CN202210179810.2A
Authority: CN
Inventors: 杜丙新; 汪向征
Original assignee: Anyang Normal University
Current assignee: Anyang Normal University
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-06-24

Abstract

本发明适用计算机技术领域，提供了一种文本标注推荐方法、装置、设备及存储介质，所述方法包括：获取待标注文本，对待标注文本进行预处理，以得到词语集合，基于词语集合通过预训练模型获取表示待标注文本的词语特征集，根据词语特征集，获取表示待标注文本每个句子的句子特征，利用预设的聚类算法对句子特征进行聚类，以生成各个类别对应的伪标签，对各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合，根据每个句子的实际类别标签和对应的主题词集合生成待标注文本的标注建议，从而提高文本标注的准确性。

Description

一种文本标注推荐方法、装置、设备及存储介质

技术领域

本发明属于计算机技术领域，尤其涉及一种文本标注推荐方法、装置、设备及存储介质。

背景技术

Internet已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道，随着Internet的大规模普及和企业信息化程度的提高，各种数据资源爆炸式地增长。为了能在海量的数据文件中挖掘出有用的数据，则必须先对这些数据文本进行分析，而数据分析通常以机器学习或深度学习模型为基础，首先需要对搜集的文本数据进行主题标注，然后利用标注数据训练机器学习模型或深度学习模型，再将训练后的模型应用到未标注数据的分类和预测中。

文本标注通常借助标注工具以人工的方式进行，此外，还有基于众包策略的开源标注工具和商用标注平台，如DeepDive、LabelBox标注工具以及亚马逊Mechanical Turk、CrowdFlower、百度众测、阿里众包等。众包方式可以标注数量巨大的文本，但是其局限性在于其标注员来源广泛，标注质量参差不齐。在专业性较强的领域，由于主题标注需要专业知识的介入，尤其是需要领域专家对文本进行深入分析。因此，传统的众包策略并不适合专业性较强的数据标注。采用众包策略时，如果能为标注员提供智能化标注建议，辅助标注员学习相关领域关键词和领域特性，将有助于提升标注的准确性和标注效率。

发明内容

本发明的目的在于提供一种文本标注推荐方法、装置、设备及储介质，旨在解决现有文本标注方法准确率不高的问题。

一方面，本发明提供了一种文本标注推荐方法，所述方法包括：

获取待标注文本，对所述待标注文本进行预处理，以得到词语集合；

基于所述词语集合，通过预训练模型获取表示所述待标注文本的词语特征集，根据所述词语特征集，获取表示所述待标注文本每个句子的句子特征；

利用预设的聚类算法对所述句子特征进行聚类，以生成各个类别对应的伪标签；

对所述各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合；

根据每个句子的实际类别标签和对应的主题词集合生成所述待标注文本的标注建议。

优选地，对所述各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合的步骤之后，根据每个句子的实际类别标签和对应的主题词集合生成所述待标注文本的标注建议的步骤之前，包括：

接收领域专家对所述实际类别标签的修改和/或合并请求，基于所述修改和/或合并请求，对相应类别的实际类别标签进行修改、和/或对相应类别的实际类别标签以及对应的主题词集合进行合并，以得到更新的实际类别标签和对应的主题词集合。

优选地，对相应类别的实际类别标签进行修改、和/或对相应类别的实际类别标签以及对应的主题词集合进行合并的步骤之后，还包括：

将所述更新的实际类别标签和对应的主题词集合输入到所述预训练模型，以使所述预训练模型根据所述更新的实际类别标签和对应的主题词集合进行训练，以更新所述预训练模型。

优选地，对所述各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合的步骤之后，根据每个句子的实际类别标签和对应的主题词集合生成所述待标注文本的标注建议的步骤之前，还包括：

将为每个类别确定的实际类别标签和对应的主题词集合存储到预先设置的类别-主题词数据库中。

优选地，根据每个句子的类别标签和对应的主题词集合生成所述待标注文本的标注建议的步骤之后，包括：

根据标注员输入的标注结果对所述类别-主题词数据库中相应类别标签和主题词集合进行更新；

将所述类别-主题词数据库中更新的类别标签和主题词集合输入到所述预训练模型，以使所述预训练模型根据所述更新的类别标签和主题词集合进行训练，以更新所述预训练模型。

另一方面，本发明提供了一种文本标注推荐装置，所述装置包括：

预处理单元，用于获取待标注文本，对所述待标注文本进行预处理，以得到词语集合；

特征转换单元，用于基于所述词语集合，通过预训练模型获取表示所述待标注文本的词语特征集，根据所述词语特征集，获取表示所述待标注文本每个句子的句子特征；

聚类单元，用于利用预设的聚类算法对所述句子特征进行聚类，以生成各个类别对应的伪标签；

主题词挖掘单元，用于对所述各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合；以及

标注建议生成单元，用于根据每个句子的实际类别标签和对应的主题词集合生成所述待标注文本的标注建议。

优选地，所述文本标注推荐装置，还包括：

优化单元，用于接收领域专家对所述实际类别标签的修改和/或合并请求，基于所述修改和/或合并请求，对相应类别的实际类别标签进行修改、和/或对相应类别的实际类别标签以及对应的主题词集合进行合并，以得到更新的实际类别标签和对应的主题词集合。

另一方面，本发明还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述系统的功能。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述系统的功能。

本发明在获取待标注文本后，对待标注文本进行预处理，以得到词语集合，基于词语集合，通过预训练模型获取表示待标注文本的词语特征集，根据词语特征集，获取表示待标注文本每个句子的句子特征，利用预设的聚类算法对句子特征进行聚类，以生成各个类别对应的伪标签，对各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合，根据每个句子的实际类别标签和对应的主题词集合生成待标注文本的标注建议，从而提高文本标注的准确性。

附图说明

图1是本发明实施例一提供的文本标注推荐方法的实现流程图；

图2是本发明实施例二提供的文本标注推荐方法的实现流程图；

图3是本发明实施例三提供的文本标注推荐方法的实现流程图；

图4是本发明实施例四提供的文本标注推荐装置的结构示意图；以及

图5是本发明实施例五提供的计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的文本标注推荐方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，获取待标注文本，对待标注文本进行预处理，以得到词语集合；

本发明实施例适用于计算机设备，例如，用于标注待标注文本的计算机、终端等，以对待标注文本进行标注推荐，待标注文本可以为网络评论、新闻以及各类网站素材等。在本发明实施例中，获取待标注文本，对待标注文本进行预处理，以得到词语集合，其中，待标注文本指没有进行标注的特定领域的数据集。在对待标注文本进行预处理时，作为示例地，可为待标注文本中每个句子编号、进行句子拆分、以及利用分词工具对拆分后的句子进行分词并进行停用词过滤，最终得到词语集合。具体地，对待标注文本进行预处理可以包括以下步骤：对待标注文本中的内容进行正则化、符号化、词干化、词形还原、词语分块、词性标注、命名实体识别、共指解析、搭配提取和关系提取。

在步骤S102中，基于词语集合，通过预训练模型获取表示待标注文本的词语特征集，根据词语特征集，获取表示待标注文本每个句子的句子特征；

在本发明实施例中，利用大规模语料库采取无监督学习方式训练得到预训练模型，从而使预训练模型的学习效果更好。通过步骤S101得到词语集合后，将词语集合输入到预训练模型，通过预训练模型获取表示待标注文本的词语特征集，根据词语特征集，获取表示待标注文本每个句子的句子特征。具体地，词语特征集可以为词语特征向量集，在得到词语特征集后，将词语特征向量集进行加权求和，获取表示待标注文本每个句子的句子特征，即句子特征表示，在将词语特征向量集进行加权求和时，权值设置为词语的TF-IDF(TermFrequency-Inverse Document Frequency)值。例如，其中一句话的特征表示可以为一个高维(一般为300维)特征向量，如[0.2，0.12,0.3,0.5,…]。

在步骤S103中，利用预设的聚类算法对句子特征进行聚类，以生成各个类别对应的伪标签；

在本发明实施例中，利用聚类算法对待标注文本的每个句子特征进行聚类，得到对应的类别标签和主题词，聚类的类别数可以利用经验值获取，也可以设置一个相对较大的值，后续可(由领域专家)进行类别合并，得到符合领域特性的类别。此时，类别标签没有确定具体类别的名字，只是确定句子特征属于第几类或类别标志，在这里称为伪标签，例如，类别1，类别2，类别3……或A类，B类，C类等。

在步骤S104中，对各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合；

在本发明实施例中，对各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合。具体地，可利用预设的隐狄利克雷模型(Latent DirichletAllocation，简写为LDA)对主题词进行确定，其中，一个类别中可以有多个主题词，主题词的确定是根据每个类别中构成句子的各个词语在该类别中出现的频率高低而确定，将出现频率较高的词语作为主题词，每个类别的主题词构成主题词集合，不同的文本对应的主题词集合数目也不同。当每个类别的主题词集合确定好以后，从主题词集合中选择一个词语作为该类别的实际类别标签代替伪标签。作为示例地，假设某一类别挖掘出的高概率主题词有教师、教学、授课、教学设计、教育等，若教师这个词的频率高于该类别中的其他主题词的频率，则这个类别可以以教师作为该类别的实际类别标签。

在步骤S105中，根据每个句子的实际类别标签和对应的主题词集合生成待标注文本的标注建议。

在本发明实施例中，根据每个句子的实际类别标签和对应的主题词集合生成待标注文本的标注建议。其中，标注内容为通过步骤S104所确定的主题词集合与实际类别标签，标注方式则可以根据不同的文本类型确定，例如画框标注、描点标注、涂色标注和划线标注等。优选地，在待标注文本中的某一位置处，例如，文本右上方，通过图形用户界面显示待标注文本最匹配的标注建议。

本发明实施例在获取待标注文本后，对待标注文本进行预处理，以得到词语集合，基于词语集合，通过预训练模型获取表示待标注文本的词语特征集，根据词语特征集，获取表示待标注文本每个句子的句子特征，利用预设的聚类算法对句子特征进行聚类，以生成各个类别对应的伪标签，对各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合，根据每个句子的实际类别标签和对应的主题词集合生成准确、可靠的标注建议，进而提高文本标注的准确性。

实施例二：

图2是本发明实施例二提供的文本标注推荐方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S201中，接收领域专家对实际类别标签的修改和/或合并请求，基于该请求，对相应类别的实际类别标签进行修改和/或对相应类别的实际类别标签以及对应的主题词集合进行合并，以得到更新的实际类别标签和对应的主题词集合。

在本发明实施例中，在对各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合之后，根据每个句子的实际类别标签和对应的主题词集合生成待标注文本的标注建议之前，接收领域专家对实际类别标签的修改和/或合并请求，基于该请求，对相应类别的实际类别标签进行修改和/或对相应类别的实际类别标签以及对应的主题词集合进行合并，以得到更新的实际类别标签和对应的主题词集合。其中，领域专家为熟悉某领域的专业人才，拥有全面的专业知识或熟练的技能，能够较为准确地对待标注文本的内容进行分析与理解，从而为文本确定出较准确的主题词。因此，引入领域专家既可以为标注系统引入专业知识作为辅助，还可以检查出该领域文本的类别标签是否恰当。

在步骤S202中，将更新的实际类别标签和对应的主题词集合输入到预训练模型，使预训练模型根据更新的实际类别标签和对应的主题词集合进行训练，从而更新预训练模型。

在本发明实施例中，通过将步骤S201获取的修改和/或合并后的实际类别标签和对应的主题词集合反馈到预训练模型中，使预训练模型根据更新的实际类别标签和对应的主题词集合进行训练，经过多次训练更新以及标注数据的增多使得通用领域的预训练模型逐渐适应特定专业领域的文本特性，进一步提高了标注建议推荐的精确性。

实施例三：

图3是本发明实施例三提供的文本标注推荐方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S301中，将每个类别确定的实际类别标签和对应的主题词集合存储到预先设置的类别-主题词数据库中；

在本发明实施例中，类别-主题词数据库用于存储和管理各个类别确定的实际类别标签和对应的主题词集合。在对各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合之后，根据每个句子的实际类别标签和对应的主题词集合生成所述待标注文本的标注建议之前，将每个类别确定的实际类别标签和对应的主题词集合存储到预先设置的类别-主题词数据库中，以实现多个文本对应的多个实际类别标签和主题词的高效管理。

在步骤S302中，根据标注员输入的标注结果对类别-主题词数据库中相应类别标签和主题词集合进行更新，将更新的类别标签和主题词集合输入到预训练模型，使预训练模型根据更新的类别标签和主题词集合进行训练，以更新预训练模型。

在本发明实施例中，根据每个句子的类别标签和对应的主题词集合生成待标注文本的标注建议之后，根据标注员输入的标注结果对类别-主题词数据库中相应类别标签和主题词集合进行更新，将更新的类别标签和主题词集合输入到预训练模型，使预训练模型根据更新的类别标签和主题词集合进行训练，以更新预训练模型。具体地，将经过更新的实际类别标签和对应的主题词集合反馈到预训练模型中，基于更新后的实际类别标签和对应的主题词集合对相应词语特征的权值进行调整，基于调整后的权值对相应的特征表示做出修改。通过对词语特征的权值进行微调，能及时的对文本特征表示做出更新，更新后的文本特征将经过聚类算法处理，得出更优的聚类结果。

在本发明实施例中，将每个类别确定的实际类别标签和对应的主题词集合存储到预先设置的类别-主题词数据库中，根据标注员输入的标注结果对类别-主题词数据库中相应的类别标签和主题词集合进行更新，将更新的类别标签和主题词集合输入到预训练模型，使预训练模型根据更新的类别标签和主题词集合进行训练，经过多次的模型更新和训练，使得语义特征表示从开放领域逐渐收敛至特定领域文本集，从而使标注建议更准确、可靠。

实施例四：

图4示出了本发明实施例四提供的文本标注推荐装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

预处理单元41，用于获取待标注文本，对待标注文本进行预处理，以得到词语集合；

特征转换单元42，用于基于词语集合，通过预训练模型获取表示待标注文本的词语特征集，根据词语特征集，获取表示待标注文本每个句子的句子特征；

聚类单元43，用于利用预设的聚类算法对句子特征进行聚类，以生成各个类别对应的伪标签；

主题词挖掘单元44，用于对各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合；以及

标注建议生成单元45，用于根据每个句子的实际类别标签和对应的主题词集合生成待标注文本的标注建议。

优选地，在一实施例中，文本标注推荐装置还可以包括优化单元，用于接收领域专家对实际类别标签的修改和/或合并请求，基于修改和/或合并请求，对相应类别的实际类别标签进行修改、和/或对相应类别的实际类别标签以及对应的主题词集合进行合并，以得到更新的实际类别标签和对应的主题词集合。

在本发明实施例中，文本标注推荐装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元具体的实施方式可参考前述方法实施例的描述，在此不再赘述。

实施例五：

图5示出了本发明实施例五提供的计算设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

本发明实施例的计算设备5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述各个方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，处理器50执行计算机程序52时实现上述装置实施例中各单元的功能，例如图4所示单元41至45的功能。

本发明实施例的计算设备可以为用于文本标注的个人计算机、移动设备等。该计算设备5中处理器50执行计算机程序52时实现上述方法时实现的步骤可参考前述方法实施例的描述，在此不再赘述。

实施例六：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤，例如，图1所示的步骤S101至S105。或者，该计算机程序被处理器执行时实现上述装置实施例中各单元的功能，例如图4所示单元41至45的功能。

本发明实施例在获取待标注文本后，首先对待标注文本进行预处理，以得到词语集合，基于词语集合，通过预训练模型获取表示待标注文本的词语特征集，根据词语特征集，获取表示待标注文本每个句子的句子特征，利用预设的聚类算法对句子特征进行聚类，以生成各个类别对应的伪标签，对各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合，根据每个句子的实际类别标签和对应的主题词集合生成待标注文本的标注建议，从而生成准确、可靠的标注建议以供标注员参考，提高标注员对文本标注的准确性。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本标注推荐方法，其特征在于，所述方法包括：

2.如权利要求1所述的文本标注推荐方法，其特征在于，对所述各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合的步骤之后，根据每个句子的实际类别标签和对应的主题词集合生成所述待标注文本的标注建议的步骤之前，包括：

3.如权利要求2所述的文本标注推荐方法，其特征在于，对相应类别的实际类别标签进行修改、和/或对相应类别的实际类别标签以及对应的主题词集合进行合并的步骤之后，还包括：

4.如权利要求1所述的文本标注推荐方法，其特征在于，对所述各个类别进行主题词挖掘，为每个类别确定实际类别标签和对应的主题词集合的步骤之后，根据每个句子的实际类别标签和对应的主题词集合生成所述待标注文本的标注建议的步骤之前，还包括：

5.如权利要求4所述的文本标注推荐方法，其特征在于，根据每个句子的类别标签和对应的主题词集合生成所述待标注文本的标注建议的步骤之后，包括：

6.如权利要求1所述的文本标注推荐方法，其特征在于，所述预训练模型采取无监督学习方式训练得到。

7.一种文本标注推荐装置，其特征在于，所述装置包括：

8.如权利要求7所述的文本标注推荐装置，其特征在于，还包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述文本标注推荐方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本标注推荐方法的步骤。