CN113297351A - 文本数据标注方法及装置、电子设备及存储介质 - Google Patents

文本数据标注方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113297351A
CN113297351A CN202110568419.7A CN202110568419A CN113297351A CN 113297351 A CN113297351 A CN 113297351A CN 202110568419 A CN202110568419 A CN 202110568419A CN 113297351 A CN113297351 A CN 113297351A
Authority
CN
China
Prior art keywords
data
text
labeling
sampling
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110568419.7A
Other languages
English (en)
Inventor
张振
张寒杉
许冬冬
蒋宏飞
宋旸
田晓飞
李洪艳
赵慧娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zuoyebang Education Technology Beijing Co Ltd
Original Assignee
Zuoyebang Education Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zuoyebang Education Technology Beijing Co Ltd filed Critical Zuoyebang Education Technology Beijing Co Ltd
Priority to CN202110568419.7A priority Critical patent/CN113297351A/zh
Publication of CN113297351A publication Critical patent/CN113297351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文本数据标注方法及装置、电子设备及存储介质。所述文本数据标注方法包括:将待标注的文本作为当前数据集;判断是否存在已标注数据,如果存在则进行扩标;采用多样性抽样和相似度抽样策略对当前数据集抽取数据并标注;计算标注文本的覆盖率,如果未达到目标覆盖率,则重复上述扩标和标注操作。本发明基于主动学习等人工智能技术,挑选最具有代表性与信息量的数据交给人工标注,在标注过程中兼顾历史标签的数据扩充与新标签的发现,取消了对标签集与种子数据的限制条件,提高人工标注的效率。

Description

文本数据标注方法及装置、电子设备及存储介质
技术领域
本发明属于机器学习技术领域,具体涉及一种文本数据标注方法及装置、电子设备及存储介质。
背景技术
随着网络和人工智能的发展,数据标注业务的需求量越来越大。数据标注也从最开始的纯粹人工标注,到通过部分人工标注、部分主动学习的机器标注。目前市场上已有的智能数据标注平台,一般都有一定的使用条件,如标签集已知、每个标签有一定量的种子数据。然而这种限制条件在许多情况下是不成立的,例如对于一份全新的数据,用户在标注完成前,可能无法得知标签集与种子数据,也就一定程度上限制了标注平台的使用场景。
发明内容
有鉴于此,本发明的主要目的在于提出一种文本数据标注方法及装置、电子设备及存储介质,以期至少部分地解决上述技术问题中的至少之一。
为了实现上述目的,作为本发明的第一方面,提供了一种文本数据标注方法,包括如下步骤:
将待标注的文本作为当前数据集;
判断当前数据集中是否存在已标注数据,如果存在,则对已标注数据进行扩标;
采用多样性抽样和相似度抽样策略对当前数据集抽取数据并标注;
计算当前数据集中标注文本的覆盖率并将其与目标覆盖率比较,如果未达到目标覆盖率,则重复上述扩标和标注操作。
作为本发明的第二方面,还提供了一种文本数据标注装置,包括如下步骤:
预处理模块,用于将待标注的文本作为当前数据集,对其进行预处理;
扩标模块,用于判断当前数据集中是否存在已标注数据,如果存在则对已标注数据进行高置信度扩标;
抽样标注模块,用于对当前数据集根据预设维度进行处理,并根据处理结果,采用多样性抽样和相似度抽样策略从当前数据集中抽取数据并标注;
目标覆盖率检测模块,用于检测当前数据集的目标覆盖率,如果没有达到,则调用扩标模块和抽样标注模块对剩余未标注数据进行扩标和标注。
作为本发明的第三方面,还提供了一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机可执行程序被所述处理器执行时,所述处理器执行如上所述的文本数据标注方法。
作为本发明的第四方面,还提供了一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现如上所述的文本数据标注方法。
基于上述技术方案可知,本发明的文本数据标注方法及装置相对于现有技术至少具有如下有益效果之一:
本发明基于文本聚类、自学习、主动学习等人工智能技术,挑选最具有代表性与信息量的数据交给人工标注,在标注过程中兼顾历史标签的数据扩充与新标签的发现,取消了对标签集与种子数据的限制条件,提高人工标注的效率,并有效降低了使用门槛;
本发明的方法可以执行没有种子数据、标签未知的数据标注场景,扩展了常规机器标注的适用领域。
附图说明
图1是本发明的文本数据标注方法的方框流程图;
图2是本发明的文本数据标注装置的框架示意图;
图3是本发明的电子设备的结构示意图;
图4是本发明的存储介质的示意图;
图5是本发明实施例1的文本数据标注方法的方框流程图。
具体实施方式
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
本说明书中一些技术术语含义如下:
聚类,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。传统的聚类分析计算方法主要有:划分方法(partitioning methods,如K-MEANS算法)、层次方法(hierarchical methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)和基于模型的方法(model-based methods),当然聚类方法还有传递闭包法、布尔矩阵法、直接聚类法、相关性分析聚类、基于统计的聚类方法等。
概率分层抽样,概率抽样分成简单随机抽样、等距抽样、分层抽样、整群抽样四种,而概率分层抽样即概率抽样中的分层抽样法。
文本相似度,顾名思义,即两篇文本之间的相似程度。例如在问答系统中,系统会准备一些经典问题和对应的答案,当用户的问题和经典问题很相似时,系统直接返回准备好的答案;在对语料进行预处理时,需要基于文本的相似度,把重复的文本给挑出来并删掉……。总之,文本相似度是一种非常有用的工具。度量文本相似度包括如下三种方法:一是基于关键词匹配的传统方法,如N-gram相似度;二是将文本映射到向量空间,再利用余弦相似度等方法;三是深度学习的方法,如基于用户点击数据的深度学习语义匹配模型DSSM,基于卷积神经网络的ConvNet,以及目前state-of-art的Siamese LSTM等方法。
种子数据,在主动学习的机器标注方法中,种子数据就是指预先已经标注,且可以作为种子进行模仿和扩标的数据。
文档频率,也称文档频次(Document Frequency,DF),指的是在整个数据集中有多少个文本包含这个单词。文档频次通过在训练文档数量中计算线性近似复杂度来衡量文档集,计算复杂度较低,能够适用于任何语料,因此是特征降维的常用方法。
对于主动学习的自动标注方法,目前已经有不少研究,但都需要借助一定的种子数据,或者只能依赖一些特定场景,本发明提出了一种文本智能标注方法,可以基于文本聚类、自学习、主动学习等人工智能技术,挑选最具有代表性与信息量的数据交给人工标注,在标注过程中兼顾历史标签的数据扩充与新标签的发现,取消了对标签集与种子数据的限制条件,提高了人工标注的效率,并有效降低了使用门槛。
如图1所示,本发明的基于自训练和主动学习的文本数据标注方法,包括如下步骤:
将待标注的文本作为当前数据集;
判断当前数据集中是否存在已标注数据,如果存在,则对已标注数据进行扩标;
采用多样性抽样和相似度抽样策略对当前数据集抽取数据并标注;
计算当前数据集中标注文本的覆盖率并将其与目标覆盖率比较,如果未达到目标覆盖率,则重复上述扩标和标注操作。
其中,待标注的文本可以是各种文本数据,例如售后应答系统中的问题和答案文本、新闻或自媒体文章中的文本、个性画像涉及的个人博客和微博中的文本,……等等。待标注的文本中可以包含一定量的预标注数据,也可以是完全未标注的、不含任何种子的数据。
其中,所述方法还包括对当前数据集进行预处理的步骤,例如包括:对文本数据进行初筛,剔除无效文本。这个预处理的目的是减少无效文本对聚类以及标注作业的干扰,提高标注准确率。
其中,在采用多样性抽样和相似度抽样策略抽取数据并标注的步骤之前,还包括对当前数据集根据预设维度进行处理的步骤,例如包括:
对预处理后的文本进行分词、去停用词,统计获得有效词表;
对预处理后的文本进行聚类,统计获得文本间相似度及每个簇的代表性文本。
这两个步骤也是需要根据输入的文本数据本身的状态来选择执行,如果是原始的聊天记录或微博微信文本,则需要通过这个预设维度处理进行文本精加工,得到只保留聚类的有效词的最终数据集。分词、去停用词的步骤的目的都是减少无效词语的干扰,提高标注的准确度。而聚类的目的则是将相同或相近的词归类,减少标注的重复劳动。
其中,聚类步骤例如通过如下步骤实现:
使用在特定领域语料中预训练得到的句向量模型计算每条文本的句向量(e1,e2,…,ek);
基于文本的句向量余弦距离
Figure BDA0003080985120000051
进行层次聚类,保存聚类结果中每个样本所属的簇中心(C1,C2,…,Ck);其中,xi表示第i条文本,dist(xi,xj)表示xi、xj之间的距离;
其中,簇的划分需要满足两个簇的平均余弦距离大于第一阈值(例如大于0.15),两个簇的平均距离定义如下,|Ci|表示簇中心Ci所属的簇的大小:
Figure BDA0003080985120000061
其中,在特定领域语料中预训练得到的句向量模型,可以是FastText、BERT模型等,特定领域的语料包括服务沟通对话、网络教育、中学知识、大学知识领域的语料等。
其中,统计获得有效词表的步骤例如如下实现:
对文本数据进行分词、去除停用词,记录分词结果wordsi
统计词及二元组出现的文档频率DF;
记录DF>2的词和二元组,作为有效词集合Vocab。
其中,对已标注数据进行扩标的步骤例如包括:
训练模型并对剩余未标注地数据进行预测;
采用概率分层抽样抽取数据进行人工校验;
根据人工校验结果,进行高置信度扩标,将扩标后的数据加入到已标注集合;
其中,这里所用的模型例如为TextCNN、LSTM或BERT文本分类模型。
其中,考虑到人工标注与机器扩标数据在准确率上的差异,训练过程中,需要对机器扩标的数据进行降权(降低权重),具体数值可以根据多次试验的经验值来确定。
其中,对剩余数据进行预测的步骤中,记录每条数据的预测结果标签yi及分数scorei
其中,所述概率分层抽样是指:
对于每个标签,将预测为所述标签的未标注数据依据模型对所述未标注数据进行预测时得到的预测分数scorei进行分层,并从每层中随机抽取n_sample条加入待标注集合;
其中,所述高置信度扩标是指:
每一轮标注结束后,针对概率分层抽样的数据,根据人工标注结果,统计预测准确率满足第三阈值(例如0.8)的层;
将被预测为所述标签且预测分数位于所述层的未标注数据打上所述标签,作为机器扩标数据加入到已标注集合。
其中,所述多样性抽样是指:
多样性抽样基于聚类簇和有效词两个维度,统计当前已标注数据所覆盖的簇中心Ccovered以及有效词集合Vocabcovered
Figure BDA0003080985120000071
Figure BDA0003080985120000072
其中,xi为第i条文本,word为该文本所包含的词;
将聚类簇按照簇的大小逆序排列,基于以下两条规则抽取待标注数据,并将满足条件的一定量数据加入待标注集合:
所述数据所属的聚类簇中,标注覆盖率小于0.5;
所述数据包含不属于Vocabcovered的有效词;
其中,所述相似度抽样是指:
考虑到新标签出现时的样本数量极少,通过概率分层抽样的方式无法有效的扩充数据,因此对于已标注量少于预设条数的标签,挑选位于同一聚类簇、或者余弦相似度大于第二阈值(例如大于0.7)的未标注数据,加入到待标注集合。
其中,如果方法结尾处,计算的标注文本的覆盖率达到了目标覆盖率,则所述方法还包括:根据聚类簇和/或有效词信息从剩余的少量未标注数据中挑选代表性文本进行标注的步骤(尾部代表性样本抽样)。
其中,从剩余的未标注数据中挑选代表性样本进行标注的步骤遵循如下两个规则:
所述数据包含未被覆盖的有效词;
所述数据的句向量与已标注数据的最大余弦相似度低于第四阈值(例如低于0.5)。
其中,所述判断是否存在已标注数据的步骤和采用多样性抽样和相似度抽样策略抽取数据并标注的步骤例如可以通过并行算法同时执行,从而两个步骤没有先后顺序,由此,需要再执行一个数据汇总步骤,以便将两个步骤的处理结果汇总,之后再执行计算当前数据集中标注文本的覆盖率的步骤。
其中,对上述步骤的结果进行汇总的步骤之后还可以执行一个策略后处理的步骤。其中,汇总的目的是保证数据的正确性,将若干次标注的数据全部累计到最终覆盖率指标上。而所述策略后处理则主要是指对于部分抽样策略,在抽取数据之后还可以进行一些数据的计算和处理,例如少数类抽样策略,需要进行召回率估计,还有一些其它相关参数的计算,这个召回率估计已经包含在少数类抽样策略步骤中,而其它计算和处理步骤因为不是必需的,只是在特定情形下需要,因此可以放在策略后处理里面。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
实施例1
如图5所示,本实施例的基于自训练和主动学习的文本智能标注方法,包括如下步骤:
步骤1、对需要标注的文本进行初筛,剔除无效文本;
步骤2、对步骤1所得的文本进行分词、去停用词,统计获得有效词表;
步骤3、对步骤1所得的文本进行聚类,统计获得文本间相似度及每个簇的代表性文本;
步骤4、并行执行如下两个步骤:
若存在已标注数据,则执行子步骤4.1-4.3;
子步骤4.1、训练模型并对剩余数据进行预测;
子步骤4.2、采用概率分层抽样抽取数据进行人工校验;
子步骤4.3、根据人工校验结果,进行高置信度扩标,将扩标后的数据加入到已标注集合;
采用多样性抽样和相似度抽样两种策略抽取数据并人工标注;
步骤6、汇总步骤4两个并行分支产生的标签和标注结果;
步骤7、通过重复步骤4、步骤6,对剩余未标注文本进行持续的标注,直至达到目标覆盖率,转至步骤8;
步骤8、根据聚类簇、有效词等信息从剩余的少量未标注数据中挑选代表性文本进行标注。
将上述方法代码上传到平台,并进行实际标注使用,数据来源于voc问卷调查,数据量:245051条,初始标签未知。
标注共进行4轮,每轮完成后,标签数量分别为34、69、89、92(即每轮标注新出现34、35、20、3个标签)。
每轮的人工标注条数分别为400、1459、2450、2484,最终人标+机标共覆盖数据229816条。
实施例2
本实施例的基于自训练和主动学习的文本智能标注方法,包括如下步骤:
步骤1、对需要标注的文本进行初筛,剔除无效文本;
步骤2、对步骤1所得的文本进行分词、去停用词,统计获得有效词表;
步骤3、对步骤1所得的文本进行聚类,统计获得文本间相似度及每个簇的代表性文本;
步骤4、若存在已标注数据,则执行子步骤4.1-4.3;
子步骤4.1、训练模型并对剩余数据进行预测;
子步骤4.2、采用概率分层抽样抽取数据进行人工校验;
子步骤4.3、根据人工校验结果,进行高置信度扩标,将扩标后的数据加入到已标注集合;
步骤5、采用多样性抽样和相似度抽样两种策略抽取数据并人工标注;
步骤6、汇总步骤4、步骤5产生的标签和标注结果;
步骤7、通过重复步骤4、步骤5、步骤6,对剩余未标注文本进行持续的标注,直至达到目标覆盖率,转至步骤8;
步骤8、根据聚类簇、有效词等信息从剩余的少量未标注数据中挑选代表性文本进行标注。
由此可见,实施例2与实施例1,区别仅在于扩标步骤和标注步骤(步骤4、5)一个是并行算法同时执行,一个是分先后执行,两种方案均能实现本发明目的。此外,本发明的方法可很好地执行没有种子数据、标签未知的数据标注场景,扩展了常规机器标注的适用领域。
本发明还公开了一种基于自训练和主动学习的文本数据标注系统,包括:
预处理模块,用于将待标注的文本作为当前数据集,根据需要对其进行预处理;
扩标模块,用于判断当前数据集中是否存在已标注数据,如果存在则对已标注数据进行扩标;
抽样标注模块,采用多样性抽样和相似度抽样策略从当前数据集中抽取数据并标注;
目标覆盖率检测模块,用于检测当前数据集的目标覆盖率,如果没有达到,则调用扩标模块和抽样标注模块对剩余未标注数据进行扩标和标注。
其中,待标注的文本包含一定量的预标注数据,或者是完全未标注的、不含种子的数据。
其中,预处理模块对当前数据集进行预处理的操作例如包括:对文本数据进行初筛,剔除无效文本;
其中,抽样标注模块在采用多样性抽样和相似度抽样策略抽取数据并标注的步骤之前,还包括对当前数据集根据预设维度进行处理的操作,例如包括:
对预处理后的文本进行分词、去停用词,统计获得有效词表;
对预处理后的文本进行聚类,统计获得文本间相似度及每个簇的代表性文本。
其中,聚类步骤例如通过如下步骤实现:
使用在特定领域语料中预训练得到的句向量模型计算每条文本的句向量(e1,e2,…,ek);
基于文本的句向量余弦距离
Figure BDA0003080985120000101
进行层次聚类,保存聚类结果中每个样本所属的簇中心(C1,C2,…,Ck);其中,xi表示第i条文本,dist(xi,xj)表示xi、xj之间的距离;
其中,簇的划分需要满足两个簇的平均余弦距离大于第一阈值(例如大于0.15),两个簇的平均距离定义如下,|Ci|表示簇中心Ci所属的簇的大小:
Figure BDA0003080985120000111
其中,在特定领域语料中预训练得到的句向量模型,可以是FastText、BERT模型等,特定领域的语料包括服务沟通对话、网络教育、中学知识、大学知识领域的语料等。
其中,统计获得有效词表的步骤例如如下实现:
对文本数据进行分词、去除停用词,记录分词结果wordsi
统计词及二元组出现的文档频率DF;
记录DF>2的词和二元组,作为有效词集合Vocab。
其中,对已标注数据进行扩标的步骤例如包括:
训练模型并对剩余未标注地数据进行预测;
采用概率分层抽样抽取数据进行人工校验;
根据人工校验结果,进行高置信度扩标,将扩标后的数据加入到已标注集合;
其中,这里训练的模型例如为TextCNN、LSTM或BERT文本分类模型。
其中,考虑到人工标注与机器扩标数据在准确率上的差异,训练过程中,需要对机器扩标的数据进行降权(降低权重)。
其中,对剩余数据进行预测的步骤中,记录每条数据的预测结果标签yi及分数scorei
其中,所述概率分层抽样是指:
对于每个标签,将预测为所述标签的未标注数据依据模型对所述未标注数据进行预测时得到的预测分数scorei进行分层,并从每层中随机抽取n_sample条加入待标注集合;
其中,所述高置信度扩标是指:
每一轮标注结束后,针对概率分层抽样的数据,根据人工标注结果,统计预测准确率满足第三阈值(例如0.8)的层;
将被预测为所述标签且预测分数位于所述层的未标注数据打上所述标签,作为机器扩标数据加入到已标注集合。
其中,所述多样性抽样是指:
多样性抽样基于聚类簇和有效词两个维度,统计当前已标注数据所覆盖的簇中心Ccovered以及有效词集合Vocabcovered
Figure BDA0003080985120000121
Figure BDA0003080985120000122
其中,xi为第i条文本,word为该文本所包含的词;
将聚类簇按照簇的大小逆序排列,基于以下两条规则抽取待标注数据,并将满足条件的一定量数据加入待标注集合:
所述数据所属的聚类簇中,标注覆盖率小于0.5;
所述数据包含不属于Vocabcovered的有效词;
其中,所述相似度抽样是指:
考虑到新标签出现时的样本数量极少,通过概率分层抽样的方式无法有效的扩充数据,因此对于已标注量少于预设条数的标签,挑选位于同一聚类簇、或者余弦相似度大于第二阈值(例如大于0.7)的未标注数据,加入到待标注集合。
其中,目标覆盖率检测模块调用扩标模块和抽样标注模块进行扩标和标注时,例如可以先调用扩标模块进行扩标,再调用抽样标注模块进行标注操作;也可以通过并行算法同时调用两个模块执行操作。
其中,如果目标覆盖率检测模块计算的标注文本的覆盖率已经达到了目标覆盖率,则抽样标注模块还根据聚类簇和/或有效词信息从剩余的少量未标注数据中挑选代表性文本进行标注(尾部代表性样本抽样)。
其中,从剩余的未标注数据中挑选代表性样本进行标注遵循如下两个规则:
所述数据包含未被覆盖的有效词;
所述数据的句向量与已标注数据的最大余弦相似度低于第四阈值(例如低于0.5)。
本发明还公开了一种电子设备,其包括处理器和存储器,所述存储器用于存储计算机可执行程序,其中当所述计算机可执行程序被所述处理器执行时,所述处理器执行如上所述的文本数据标注方法。
图3是本发明的电子设备的结构示意图,如图3所示,电子设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体,也可以是多个实体设备的总和。
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得电子设备能够执行本发明的方法,或者方法中的至少部分步骤。
所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。
可选的,该实施例中,电子设备还包括有I/O接口,其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
应当理解,图3显示的电子设备仅仅是本发明的一个示例,本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如,有些电子设备中还包括有显示屏等显示单元,有些电子设备还包括人机交互元件,例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的电子设备。
本发明还公开了一种存储介质,其上存储有计算机可执行程序,其中所述计算机可执行程序被执行时,实现如上所述的文本数据标注方法。图4是本发明的存储介质的示意图。如图4所示,存储介质中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明如上所述的文本数据标注方法。所述存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Python、Java、C++等,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等,本发明也可以由包含上述系统或部件的至少一部分的其它电子设备,如通信电子设备、娱乐电子设备、学习电子设备等来实现。本发明也可以由执行本发明的方法的计算机软件来实现,例如由客户端的微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现,例如计算机程序执行的某些方法步骤可以在机车端执行,另一部分可以在移动终端或智能头盔等中执行。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得电子设备执行根据本发明的方法。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本数据标注方法,其特征在于,包括如下步骤:
将待标注的文本作为当前数据集;
判断当前数据集中是否存在已标注数据,如果存在,则对已标注数据进行扩标;
采用多样性抽样和相似度抽样策略对当前数据集抽取数据并标注;
计算当前数据集中标注文本的覆盖率并将其与目标覆盖率比较,如果未达到目标覆盖率,则重复上述扩标和标注操作。
2.根据权利要求1所述的方法,其特征在于,
所述待标注的文本包含一定量的预标注数据,或者是完全未标注的、不含种子的数据;
可选地,所述方法还包括对当前数据集进行预处理的步骤,包括:对文本数据进行初筛,剔除无效文本;
可选地,所述采用多样性抽样和相似度抽样策略抽取数据并标注的步骤之前,还包括对当前数据集根据预设维度进行处理的步骤,包括:
对预处理后的文本进行分词、去停用词,统计获得有效词表;
对预处理后的文本进行聚类,统计获得文本间相似度及每个簇的代表性文本。
3.根据权利要求2所述的方法,其特征在于,所述聚类通过如下步骤实现:
使用在特定领域语料中预训练得到的句向量模型计算每条文本的句向量(e1,e2,…,ek);
基于文本的句向量余弦距离
Figure FDA0003080985110000011
进行层次聚类,保存聚类结果中每个样本所属的簇中心(C1,C2,…,Ck);其中,xi表示第i条文本,dist(xi,xj)表示xi、xj之间的距离;
其中,簇的划分需要满足两个簇的平均距离大于第一阈值,两个簇的平均距离定义如下,|Ci|表示簇中心Ci所属的簇的大小:
Figure FDA0003080985110000021
作为优选,所述在特定领域语料中预训练得到的句向量模型为FastText模型或BERT模型;
作为优选,所述特定领域的语料包括服务沟通对话、网络教育、中学知识和/或大学知识领域的语料。
4.根据权利要求1-3中任一项所述的方法,其特征在于,
所述统计获得有效词表的步骤如下实现:
对文本数据进行分词、去除停用词,记录分词结果wordsi
统计词及二元组出现的文档频率DF;
记录DF>2的词和二元组,作为有效词集合Vocab。
5.根据权利要求1所述的方法,其特征在于,
所述对已标注数据进行扩标的步骤包括:
训练模型并对剩余未标注的数据进行预测;
采用概率分层抽样抽取数据进行人工校验;
根据人工校验结果,进行高置信度扩标,将扩标后的数据加入到已标注集合;
作为优选,所述模型为TextCNN、LSTM或BERT文本分类模型;
作为优选,训练过程中,需要对机器扩标的数据进行降权;
作为优选,对剩余数据进行预测的步骤中,记录每条数据的预测结果标签yi及分数scorei
作为优选,所述概率分层抽样是指:
对于每个标签,将预测为所述标签的未标注数据依据模型对所述未标注数据进行预测时得到的预测分数scorei进行分层,并从每层中随机抽取n_sample条加入待标注集合;
作为优选,所述高置信度扩标是指:
每一轮标注结束后,针对概率分层抽样的数据,根据人工标注结果,统计预测准确率满足第三阈值的层;
将被预测为所述标签且预测分数位于所述层的未标注数据打上所述标签,作为机器扩标数据加入到已标注集合。
6.根据权利要求1所述的方法,其特征在于,
所述多样性抽样是指:
多样性抽样基于聚类簇和有效词两个维度,统计当前已标注数据所覆盖的簇中心Ccovered以及有效词集合Vocabcovered
Figure FDA0003080985110000031
Figure FDA0003080985110000032
其中,xi为第i条文本,word为该文本所包含的词;
将聚类簇按照簇的大小逆序排列,基于以下两条规则抽取待标注数据,并将满足条件的一定量数据加入待标注集合:
所述数据所属的聚类簇中,标注覆盖率小于0.5;
所述数据包含不属于Vocabcovered的有效词;
所述相似度抽样是指:
对于已标注量少于预设条数的标签,挑选位于同一聚类簇、或者余弦相似度大于第二阈值的未标注数据,加入到待标注集合。
7.根据权利要求1所述的方法,其特征在于,
如果计算的标注文本的覆盖率达到了目标覆盖率,则所述方法还包括:根据聚类簇和/或有效词信息从剩余的少量未标注数据中挑选代表性文本进行标注;
作为优选,所述从剩余的未标注数据中挑选代表性样本进行标注的步骤遵循如下两个规则:
所述数据包含未被覆盖的有效词;
所述数据的句向量与已标注数据的最大余弦相似度低于第四阈值;
作为优选,所述判断是否存在已标注数据的步骤和采用多样性抽样和相似度抽样策略抽取数据并标注的步骤通过并行算法同时执行,且执行完之后还执行一个数据汇总步骤,之后再执行计算当前数据集中标注文本的覆盖率的步骤。
8.一种文本数据标注装置,其特征在于,包括:
预处理模块,用于将待标注的文本作为当前数据集,对其进行预处理;
扩标模块,用于判断当前数据集中是否存在已标注数据,如果存在则对已标注数据进行高置信度扩标;
抽样标注模块,用于对当前数据集根据预设维度进行处理,并根据处理结果,采用多样性抽样和相似度抽样策略从当前数据集中抽取数据并标注;
目标覆盖率检测模块,用于检测当前数据集的目标覆盖率,如果没有达到,则调用扩标模块和抽样标注模块对剩余未标注数据进行扩标和标注。
9.一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于:
当所述计算机可执行程序被所述处理器执行时,所述处理器执行如权利要求1-7中任一项所述的文本数据标注方法。
10.一种计算机可读介质,存储有计算机可执行程序,其特征在于,所述计算机可执行程序被执行时,实现如权利要求1-7中任一项所述的文本数据标注方法。
CN202110568419.7A 2021-05-24 2021-05-24 文本数据标注方法及装置、电子设备及存储介质 Pending CN113297351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110568419.7A CN113297351A (zh) 2021-05-24 2021-05-24 文本数据标注方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110568419.7A CN113297351A (zh) 2021-05-24 2021-05-24 文本数据标注方法及装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113297351A true CN113297351A (zh) 2021-08-24

Family

ID=77324479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110568419.7A Pending CN113297351A (zh) 2021-05-24 2021-05-24 文本数据标注方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113297351A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064897A (zh) * 2021-11-22 2022-02-18 重庆邮电大学 一种情感文本数据标注方法、装置、系统及电子设备
CN114417882A (zh) * 2022-01-04 2022-04-29 马上消费金融股份有限公司 一种数据标注方法、装置、电子设备及可读存储介质
CN114519406A (zh) * 2022-04-21 2022-05-20 天津卓朗科技发展有限公司 工业数据的分类方法及其模型训练方法、装置
CN117150305A (zh) * 2023-11-01 2023-12-01 杭州光云科技股份有限公司 融合检索和填空的文本数据增强方法、装置及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064897A (zh) * 2021-11-22 2022-02-18 重庆邮电大学 一种情感文本数据标注方法、装置、系统及电子设备
CN114417882A (zh) * 2022-01-04 2022-04-29 马上消费金融股份有限公司 一种数据标注方法、装置、电子设备及可读存储介质
CN114519406A (zh) * 2022-04-21 2022-05-20 天津卓朗科技发展有限公司 工业数据的分类方法及其模型训练方法、装置
CN117150305A (zh) * 2023-11-01 2023-12-01 杭州光云科技股份有限公司 融合检索和填空的文本数据增强方法、装置及电子设备
CN117150305B (zh) * 2023-11-01 2024-02-27 杭州光云科技股份有限公司 融合检索和填空的文本数据增强方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN111222305B (zh) 一种信息结构化方法和装置
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN113297351A (zh) 文本数据标注方法及装置、电子设备及存储介质
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN110377916B (zh) 词预测方法、装置、计算机设备及存储介质
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
CN110032639B (zh) 将语义文本数据与标签匹配的方法、装置及存储介质
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
US11461613B2 (en) Method and apparatus for multi-document question answering
CN113806582B (zh) 图像检索方法、装置、电子设备和存储介质
CN112148831B (zh) 图文混合检索方法、装置、存储介质、计算机设备
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113342932B (zh) 目标词向量的确定方法、装置、存储介质和电子装置
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination