CN114970490A - 一种文本标注数据的质检方法、装置、电子设备以及存储介质 - Google Patents

一种文本标注数据的质检方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN114970490A
CN114970490A CN202210658214.2A CN202210658214A CN114970490A CN 114970490 A CN114970490 A CN 114970490A CN 202210658214 A CN202210658214 A CN 202210658214A CN 114970490 A CN114970490 A CN 114970490A
Authority
CN
China
Prior art keywords
data
original
piece
label
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210658214.2A
Other languages
English (en)
Inventor
刘彦
杜新凯
吕超
蔡岩松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202210658214.2A priority Critical patent/CN114970490A/zh
Publication of CN114970490A publication Critical patent/CN114970490A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本标注数据的质检方法、装置、电子设备以及存储介质,所述方法通过获取待质检数据集,针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,确定该类原始标签对应的标杆数据;针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及标签相似度;根据所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标;根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据。这样,可以提升文本标注质检的效率和准确率,节省了大量的人力。

Description

一种文本标注数据的质检方法、装置、电子设备以及存储介质
技术领域
本公开涉及数据质检技术领域,具体而言,涉及一种文本标注数据的质检方法、装置、电子设备以及存储介质。
背景技术
随着人工智能技术的发展,针对各种场景,均可利用标注数据训练算法模型,人工智能算法是数据驱动型算法,标注数据是人工智能算法模型得以有效运行的重要基础和关键资源。标注数据包括了需要机器进行识别和分辨的数据及相应的标签,计算机通过不断地学习这些数据的特征,及特征与标签之间的关系,最终实现计算机的自主识别和判断。
其中,数据标注的过程是通过人工打标签的方式,生成标注数据,为计算机提供可以学习的样本。数据标注过程不可避免地存在标注错误的情况,错误标注的数据会直接影响算法模型的准确率,因此,对标注数据进行质检是必不可少的环节。通过标注和质检,各环节、各角色进行分工及合作,可高效地产生高质量的标注数据,然而,现有的质检方法大多数为人工进行质检,当标注数据的数量过大时,质检效率低下,且人力成本高,亟需改进。
发明内容
本公开实施例至少提供一种文本标注数据的质检方法、装置、电子设备以及存储介质,可以提升文本标注数据质检的效率和准确率,节省了大量的人力。
本公开实施例提供了一种文本标注数据的质检方法,所述方法包括:
获取待质检数据集;其中,所述待质检数据集包括多条原始数据,其中,每一条原始数据包括一条原始文本数据,以及每条原始文本数据对应的原始标签;
针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据;其中,每一条所述标杆数据包括一条标杆文本数据,以及对应的标杆标签;
针对每一条标杆数据,人工检查其标签准确性,确保标杆数据的标签准确;
针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度;
针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标;
根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据;
抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验。
一种可选的实施方式中,所述针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据,包括:
针对选取的该类原始标签对应的预设比例的每一条原始数据,对该条原始数据对应的原始标签进行正确性检验,得到检验结果;
若所述检验结果为错误,则对该条原始数据的原始标签进行修正;
若所述检验结果为正确,则将检验结果为正确的原始数据作为该类原始标签对应的标杆数据。
一种可选的实施方式中,针对待质检数据集中的每一条原始数据,根据以下步骤计算该条原始数据与每一条标杆数据之间的文本相似度:
针对每一条原始数据的原始文本数据进行向量化处理,得到该条原始文本数据对应的词向量序列;
基于待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据的词向量序列与每一条标杆数据的标杆文本数据的词向量序列之间的向量相似度,并将所述向量相似度确定为该条原始数据与所对应标杆数据之间的文本相似度。
一种可选的实施方式中,在所述针对每一条原始数据的原始文本数据进行分词和向量化处理,得到该条原始文本数据对应的词向量序列之前,所述方法还包括:
针对每一条原始文本数据进行去除无效字符的预处理,得到预处理后的原始文本数据;
根据以下步骤计算该条原始文本数据与每一条标杆文本数据之间的文本相似度,包括:
针对每一类原始标签对应的去除无效字符后的每一条原始文本数据,计算该条原始文本数据与每一条标杆文本数据之间的文本相似度。
一种可选的实施方式中,根据以下公式计算出每一条原始数据的偏差度指标:
Figure BDA0003689280590000031
其中,Mij为第i条原始数据相对第j条标杆数据的偏差度指标,
Figure BDA0003689280590000032
为第i条原始数据与第j条标杆数据的文本相似度,
Figure BDA0003689280590000033
为第i条原始数据与第j条标杆数据的标签相似度。
一种可选的实施方式中,所述根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据,包括:
将各条原始数据对应的偏差度指标按照从大到小的顺序进行排序,将排序序号在预设序号之前的原始数据,均确定为原始标签标注可疑的原始数据。
一种可选的实施方式中,所述根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据,包括:
判断每一条原始数据对应的偏差度指标是否大于预设指标阈值;
将偏差度指标大于预设指标阈值的原始数据,确定为标签标注可疑的原始数据。
本公开实施例还提供一种文本标注数据的质检装置,所述装置包括:
获取模块,用于获取待质检数据集;其中,所述待质检数据集包括多条原始数据,其中,每一条原始数据包括一条原始文本数据,以及每条原始文本数据对应的原始标签;
选取模块,用于针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据;其中,每一条所述标杆数据包括一条标杆文本数据,以及对应的标杆标签;
第一计算模块,用于针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度;
第二计算模块,用于针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标;
确定模块,用于根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据;
提供模块,用于抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验。
一种可选的实施方式中,所述选取模块,具体用于:
针对选取的该类原始标签对应的预设比例的每一条原始数据,对该条原始数据对应的原始标签进行正确性检验,得到检验结果;
若所述检验结果为错误,则对该条原始数据的原始标签进行修正;
若所述检验结果为正确,则将检验结果为正确的原始数据作为该类原始标签对应的标杆数据。
一种可选的实施方式中,所述第一计算模块针对待质检数据集中的每一条原始数据,根据以下步骤计算该条原始数据与每一条标杆数据之间的文本相似度:
针对每一条原始数据的原始文本数据进行向量化处理,得到该条原始文本数据对应的词向量序列;
基于待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据的词向量序列与每一条标杆数据的标杆文本数据的词向量序列之间的向量相似度,并将所述向量相似度确定为该条原始数据与所对应标杆数据之间的文本相似度。
一种可选的实施方式中,所述第一计算模块在用于所述针对每一条原始数据的原始文本数据进行分词和向量化处理,得到该条原始文本数据对应的词向量序列之前,还用于:
针对每一条原始文本数据进行去除无效字符的预处理,得到预处理后的原始文本数据;
根据以下步骤计算该条原始文本数据与每一条标杆文本数据之间的文本相似度,包括:
针对每一类原始标签对应的去除无效字符后的每一条原始文本数据,计算该条原始文本数据与每一条标杆文本数据之间的文本相似度。
一种可选的实施方式中,所述第二计算模块根据以下公式计算出每一条原始数据的偏差度指标:
Figure BDA0003689280590000061
其中,Mij为第i条原始数据相对第j条标杆数据的偏差度指标,
Figure BDA0003689280590000062
为第i条原始数据与第j条标杆数据的文本相似度,
Figure BDA0003689280590000063
为第i条原始数据与第j条标杆数据的标签相似度。
一种可选的实施方式中,所述确定模块,具体用于:
将各条原始数据对应的偏差度指标按照从大到小的顺序进行排序,将排序序号在预设序号之前的原始数据,均确定为原始标签标注可疑的原始数据。
一种可选的实施方式中,所述确定模块,具体用于:
判断每一条原始数据对应的偏差度指标是否大于预设指标阈值;
将偏差度指标大于预设指标阈值的原始数据,确定为标签标注可疑的原始数据。
本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述实施方式中的步骤。
本公开实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述实施方式中的步骤。
本公开实施例提供的一种文本标注数据的质检方法、装置、电子设备以及存储介质,该方法包括:获取待质检数据集;其中,所述待质检数据集包括多条原始数据,其中,每一条原始数据包括一条原始文本数据,以及每条原始文本数据对应的原始标签;针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据;其中,每一条所述标杆数据包括一条标杆文本数据,以及对应的标杆标签;针对每一条标杆数据,人工检查其标签准确性,确保标杆数据的标签准确;针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度;针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标;根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据;抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验可疑。这样,可以提升文本标注质检的效率和准确率,节省了大量的人力。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种文本标注数据的质检方法的流程图;
图2示出了本公开实施例所提供的另一种文本标注数据的质检方法的流程图;
图3示出了本公开实施例所提供的文本标注数据的质检装置的示意图;
图4示出了本公开实施例所提供的一种电子设备的示意图。
图示说明:
300-文本标注数据的质检装置、310-获取模块、320-选取模块、330-第一计算模块、340-第二计算模块、350-确定模块、360-提供模块、400-电子设备、410-处理器、420-存储器、421-内存、422-外部存储器、430-总线。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
数据标注的过程是通过人工打标签的方式,生成标注数据,为计算机提供可以学习的样本。数据标注过程不可避免地存在标注错误的情况,错误标注的数据会直接影响算法模型的准确率,因此,对标注数据进行质检是必不可少的环节。通过标注和质检,各环节、各角色进行分工及合作,可高效地产生高质量的标注数据,然而,现有的质检方法大多数为人工进行质检,当标注数据的数量过大时,质检效率低下,且人力成本高,亟需改进。
基于上述研究,本公开提供了一种文本标注数据的质检方法、装置、电子设备以及存储介质,其中,该方法包括:获取待质检数据集;其中,所述待质检数据集包括多条原始数据,其中,每一条原始数据包括一条原始文本数据,以及每条原始文本数据对应的原始标签;针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据;其中,每一条所述标杆数据包括一条标杆文本数据,以及对应的标杆标签;针对每一条标杆数据,人工检查其标签准确性,确保标杆数据的标签准确;针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度;针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标;根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据;抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验可疑。这样,可以提升文本标注质检的效率和准确率,节省了大量的人力。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种文本标注数据的质检方法进行详细介绍,本公开实施例所提供的文本标注数据的质检方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端手持设备等。在一些可能的实现方式中,该文本标注数据的质检方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的文本标注数据的质检方法的流程图,所述方法包括步骤S101~S105,其中:
S101:获取待质检数据集。
这里,获取待质检数据集,可以是通过标注人员对原始文本数据打标签获得,也可以是通过从网络下载获得的。所述待质检数据集可以是获取的数据的全集,也可以是获取的数据的抽样集。
由于待质检数据集中的原始文本数据和对应的原始标签在作为训练算法模型的训练集时,可能存在原始标签和原始文本数据不对应的情况,需要对获取的待质检数据集中的原始文本数据,进行质检操作。
其中,所述待质检数据集包括多条原始数据,其中,每一条原始数据包括一条原始文本数据,以及每条原始文本数据对应的原始标签。
示例性的,待质检数据集可以通过以下形式表示:
Figure BDA0003689280590000101
示例性的,原始文本数据对应的原始标签可以为:anger(愤怒)、disgust(厌恶)、fear(恐惧)、happiness(高兴)、like(喜好)、sadness(悲伤)、surprise(惊讶)。
S102:针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据。
其中,每一条所述标杆数据包括一条标杆文本数据,以及对应的标杆标签;针对每一条标杆数据,人工检查其标签准确性,确保标杆数据的标签准确。
这里,预设比例可以根据实际需要进行设置,在此不做具体的限定。
示例性的,在上述待质检数据集中,原始标签为“happiness(高兴)”的原始文本数据一共有3560条,抽取1%(即36条)的原始文本数据作为该类别数据的标杆文本数据。
S103:针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度。
进一步的,一种可选的实施方式中,针对待质检数据集中的每一条原始数据,根据以下步骤计算该条原始数据与每一条标杆数据之间的文本相似度:
针对每一条原始数据的原始文本数据进行向量化处理,得到该条原始文本数据对应的词向量序列;
基于待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据的词向量序列与每一条标杆数据的标杆文本数据的词向量序列之间的向量相似度,并将所述向量相似度确定为该条原始数据与所对应标杆数据之间的文本相似度。
这里,针对每一类原始标签对应的每一条原始文本数据进行分词处理,得到该条原始文本数据对应的多个分词,例如“心中一顿纠结”进行分词处理后,可以得到“心中”、“一顿”、“纠结”三个分词;根据每一条原始文本数据对应的多个分词,进行向量化处理,得到每一条原始文本数据的词向量序列时,可以使用Tensorflow的BERT模型计算分词后的文本嵌入(即原始文本数据的词向量序列);其中,原始文本数据中的中文可使用模型BERT_chinese_L-12_H-768_A-12;原始文本数据中的英文可使用multi_cased_L-12_H-768_A-12。
其中,基于每一类原始标签对应的每一条原始文本数据,计算该条原始文本数据的词向量序列与该类原始标签对应的标杆文本数据的词向量序列之间的向量相似度时,可以使用余弦相似度(Cosine Similarity)或欧式距离(Euclidean Distance)计算。
示例性的,余弦相似度的计算方式为:
Figure BDA0003689280590000121
其中,cosθ为余弦即该条原始文本数据的词向量序列与该类原始标签对应的标杆文本数据的词向量序列之间的向量相似度;A为该条原始文本数据的词向量序列;B为与该类原始标签对应的标杆文本数据的词向量序列。
示例性的,欧式距离的计算方式为:
Figure BDA0003689280590000122
其中,d(a,b)为欧式距离该条原始文本数据的词向量序列与该类原始标签对应的标杆文本数据的词向量序列之间的向量相似度;b为该条原始文本数据的词向量序列;a为与该类原始标签对应的标杆文本数据的词向量序列。
S104:针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标。
进一步的,一种可选的实施方式中,根据以下公式计算出每一条原始数据的偏差度指标:
Figure BDA0003689280590000123
其中,Mij为第i条原始数据相对第j条标杆数据的偏差度指标,
Figure BDA0003689280590000124
为第i条原始数据与第j条标杆数据的文本相似度,
Figure BDA0003689280590000125
为第i条原始数据与第j条标杆数据的标签相似度。
示例性的,当Simtext该条原始数据对应的所述文本相似度,Simlabel该条原始数据对应的所标签相似度均为1时,即该条原始数据的原始文本数据与标杆文本数据完全相同,则M的值为0。
S105:根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据。
这里,针对每一条原始数据,计算出各条原始数据的偏差度指标,即针对每条标杆数据对应有一组原始数据的偏差度指标。
进一步的,一种可选的实施方式中,所述根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始文本数据,包括:
将各条原始数据对应的偏差度指标按照从大到小的顺序进行排序,将排序序号在预设序号之前的原始数据,均确定为原始标签标注可疑的原始数据。
这里,将每一条标杆数据对应的各条原始数据对应的偏差度指标按照从大到小的顺序进行排序,提前设置预设序号,例如预设序号5,选取预设序号5前的序号对应的原始数据,作为原始标签标注可疑的原始数据。
其中,预设序号可以根据实际需要进行设置,在此不做具体限定。
再进一步的,一种可选的实施方式中,所述根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据,包括:
判断每一条原始数据对应的偏差度指标是否大于预设指标阈值;
将偏差度指标大于预设指标阈值的原始数据,确定为标签标注可疑的原始数据。
这里,将每一条标杆数据对应的各条原始数据对应的偏差度指标与预设指标阈值进行比较,提前设置预设指标阈值,例如预设指标阈值0.6,选取偏差度指标大于预设指标阈值0.6的原始数据,作为原始标签标注可疑的原始数据。
其中,预设指标阈值可以根据实际需要进行设置,在此不做具体限定。
S106:抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验。
本实施例公开的文本标注数据的质检方法,通过获取待质检数据集;其中,所述待质检数据集包括多条原始数据,其中,每一条原始数据包括一条原始文本数据,以及每条原始文本数据对应的原始标签;针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据;其中,每一条所述标杆数据包括一条标杆文本数据,以及对应的标杆标签;针对每一条标杆数据,人工检查其标签准确性,确保标杆数据的标签准确;针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度;针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标;根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据;抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验。这样,可以提升文本标注质检的效率和准确率,节省了大量的人力。
参见图2所示,为本公开实施例提供的另一种文本标注数据的质检方法的流程图,所述方法包括步骤S201~S207,其中:
S201:获取待质检数据集。
S202:针对选取的该类原始标签对应的预设比例的每一条原始数据,对该条原始数据对应的原始标签进行正确性检验,得到检验结果。
这里,由于需要从原始数据中选取出预设比例的原始数据作为标杆数据,所述标杆数据作为标准数据,需要保证标杆数据中的每一条数据均为正确的,则对选取出的原始数据进行正确性检测,即被选取的原始数据和该原始数据对应的原始标签是否正确。
S203:若所述检验结果为错误,则对该条原始数据的原始标签进行修正。
这里,将检测结果为错误的原始数据对应的原始标签进行修正之后,未修正之前的该类原始标签对应的原始数据少了一条,则需要根据该类原始标签对应的被修改的原始数据的条数,重新从待质检数据集中选取该类原始标签对应的错误原始数据条数的原始数据,加入到标杆数据中,并重新进行正确性检测,直至标杆数据中的所有数据均为正确。
示例性的,将以下标杆数据:
happiness 你今天的文字感动了我!
修正为:
like 你今天的文字感动了我!
进而,标杆数据中happiness(高兴)标签对应的数据有36条,进行正确性检测,并修正后,标杆数据中happiness(高兴)标签对应的数据少了一条,变成了35条,这是重新从待质检数据集中选取一条happiness(高兴)标签对应的原始数据加入到标杆数据,并对该条原始数据进行正确性检测,直至标杆数据中happiness(高兴)标签对应的数据均为正确。
S204:若所述检验结果为正确,则将检验结果为正确的原始数据作为该类原始标签对应的标杆数据。
S205:针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度。
S206:针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标。
S207:根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据。
S208:抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验。
其中,步骤S201、步骤S205至步骤S208的描述,可以参照步骤S101、步骤S103至步骤S106的描述,并且可以达到相同的技术效果和解决相同的技术问题,在此不做赘述。
接下来,结合具体实施方式进一步对本实施例进行说明。
一种可选的实施方式中,在所述针对每一条原始数据的原始文本数据进行分词和向量化处理,得到该条原始文本数据对应的词向量序列之前,所述方法还包括:
针对每一条原始文本数据进行去除无效字符的预处理,得到预处理后的原始文本数据;
根据以下步骤计算该条原始文本数据与每一条标杆文本数据之间的文本相似度,包括:
针对每一类原始标签对应的去除无效字符后的每一条原始文本数据,计算该条原始文本数据与每一条标杆文本数据之间的文本相似度。
这里,针对每一类原始标签对应的每一条原始数据进行无效字符预处理,可以提高原始数据的文本相似度和标签相似度的准确性。
本实施例公开的文本标注数据的质检方法,通过针对选取的该类原始标签对应的预设比例的每一条原始数据,对该条原始数据对应的原始标签进行正确性检测,得到检测结果;若所述检测结果为错误,则将检测结果为错误的原始数据对应的原始标签进行修正;若所述检测结果为正确,则将检测结果为正确的原始数据作为该类原始标签对应的标杆数据。这样,可以保证标杆数据的准确率,进而提高对待质检数据集中的原始数据质检的准确性。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与文本标注数据的质检方法对应的文本标注数据的质检装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述文本标注数据的质检方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图3,图3为本公开实施例提供的一种文本标注数据的质检装置300的示意图。如图3中所示,本公开实施例提供的文本标注数据的质检装置300,包括:
获取模块310,用于获取待质检数据集;其中,所述待质检数据集包括多条原始数据,其中,每一条原始数据包括一条原始文本数据,以及每条原始文本数据对应的原始标签;
选取模块320,用于针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据;其中,每一条所述标杆数据包括一条标杆文本数据,以及对应的标杆标签;
第一计算模块330,用于针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度;
第二计算模块340,用于针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标;
确定模块350,用于根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据;
提供模块360,用于抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验。
一种可选的实施方式中,所述选取模块320,具体用于:
针对选取的该类原始标签对应的预设比例的每一条原始数据,对该条原始数据对应的原始标签进行正确性检验,得到检验结果;
若所述检验结果为错误,则对该条原始数据的原始标签进行修正;
若所述检验结果为正确,则将检验结果为正确的原始数据作为该类原始标签对应的标杆数据。
一种可选的实施方式中,所述第一计算模块330针对待质检数据集中的每一条原始数据,根据以下步骤计算该条原始数据与每一条标杆数据之间的文本相似度:
针对每一条原始数据的原始文本数据进行向量化处理,得到该条原始文本数据对应的词向量序列;
基于待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据的词向量序列与每一条标杆数据的标杆文本数据的词向量序列之间的向量相似度,并将所述向量相似度确定为该条原始数据与所对应标杆数据之间的文本相似度。
一种可选的实施方式中,所述第一计算模块330在用于所述针对每一条原始数据的原始文本数据进行分词和向量化处理,得到该条原始文本数据对应的词向量序列之前,还用于:
针对每一条原始文本数据进行去除无效字符的预处理,得到预处理后的原始文本数据;
根据以下步骤计算该条原始文本数据与每一条标杆文本数据之间的文本相似度,包括:
针对每一类原始标签对应的去除无效字符后的每一条原始文本数据,计算该条原始文本数据与每一条标杆文本数据之间的文本相似度。
一种可选的实施方式中,所述第二计算模块340根据以下公式计算出每一条原始数据的偏差度指标:
Figure BDA0003689280590000191
其中,Mij为第i条原始数据相对第j条标杆数据的偏差度指标,
Figure BDA0003689280590000192
为第i条原始数据与第j条标杆数据的文本相似度,
Figure BDA0003689280590000193
为第i条原始数据与第j条标杆数据的标签相似度。
一种可选的实施方式中,所述确定模块350,具体用于:
将各条原始数据对应的偏差度指标按照从大到小的顺序进行排序,将排序序号在预设序号之前的原始数据,均确定为原始标签标注可疑的原始数据。
一种可选的实施方式中,所述确定模块350,具体用于:
判断每一条原始数据对应的偏差度指标是否大于预设指标阈值;
将偏差度指标大于预设指标阈值的原始数据,确定为标签标注可疑的原始数据。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例公开的文本标注数据的质检装置,通过获取模块,用于获取待质检数据集;其中,所述待质检数据集包括多条原始数据,其中,每一条原始数据包括一条原始文本数据,以及每条原始文本数据对应的原始标签;选取模块,用于针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据;其中,每一条所述标杆数据包括一条标杆文本数据,以及对应的标杆标签;针对每一条标杆数据,人工检查其标签准确性,确保标杆数据的标签准确;第一计算模块,用于针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度;第二计算模块,用于针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标;确定模块,用于根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据;提供模块,用于抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验。这样,可以提升文本标注质检的效率和准确率,节省了大量的人力。
基于同一技术构思,本公开实施例还提供了一种电子设备400,如图4所示,为本公开实施例提供的电子设备400结构示意图,电子设备400包括:
处理器410、存储器420、和总线430;存储器420用于存储执行指令,包括内存421和外部存储器422;这里的内存421也称内存储器,用于暂时存放处理器410中的运算数据,以及与硬盘等外部存储器422交换的数据,处理器410通过内存421与外部存储器422进行数据交换,当所述电子设备400运行时,所述处理器410与存储器420之间通过总线430通信,使得所述处理器410可以执行上述方法实施例中所示的文本标注数据的质检方法的步骤。
本公开实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文本标注数据的质检方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的文本标注数据的质检方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备、存储介质和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的设备、存储介质、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种文本标注数据的质检方法,其特征在于,所述方法包括:
获取待质检数据集;其中,所述待质检数据集包括多条原始数据,其中,每一条原始数据包括一条原始文本数据,以及每条原始文本数据对应的原始标签;
针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据;其中,每一条所述标杆数据包括一条标杆文本数据,以及对应的标杆标签;针对每一条标杆数据,人工检查其标签准确性,确保标杆数据的标签准确;
针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度;
针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标;
根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据;
抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验。
2.根据权利要求1所述的方法,其特征在于,所述针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据,包括:
针对选取的该类原始标签对应的预设比例的每一条原始数据,对该条原始数据对应的原始标签进行正确性检验,得到检验结果;
若所述检验结果为错误,则对该条原始数据的原始标签进行修正;
若所述检验结果为正确,则将检验结果为正确的原始数据作为该类原始标签对应的标杆数据。
3.根据权利要求1所述的方法,其特征在于,针对待质检数据集中的每一条原始数据,根据以下步骤计算该条原始数据与每一条标杆数据之间的文本相似度:
针对每一条原始数据的原始文本数据进行向量化处理,得到该条原始文本数据对应的词向量序列;
基于待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据的词向量序列与每一条标杆数据的标杆文本数据的词向量序列之间的向量相似度,并将所述向量相似度确定为该条原始数据与所对应标杆数据之间的文本相似度。
4.根据权利要求3所述的方法,其特征在于,在所述针对每一条原始数据的原始文本数据进行分词和向量化处理,得到该条原始文本数据对应的词向量序列之前,所述方法还包括:
针对每一条原始文本数据进行去除无效字符的预处理,得到预处理后的原始文本数据;
根据以下步骤计算该条原始文本数据与每一条标杆文本数据之间的文本相似度,包括:
针对每一类原始标签对应的去除无效字符后的每一条原始文本数据,计算该条原始文本数据与每一条标杆文本数据之间的文本相似度。
5.根据权利要求1所述的方法,其特征在于,根据以下公式计算出每一条原始数据的偏差度指标:
Figure FDA0003689280580000021
其中,Mij为第i条原始数据相对第j条标杆数据的偏差度指标,
Figure FDA0003689280580000022
为第i条原始数据与第j条标杆数据的文本相似度,
Figure FDA0003689280580000023
为第i条原始数据与第j条标杆数据的标签相似度。
6.根据权利要求1所述的方法,其特征在于,所述根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据,包括:
将各条原始数据对应的偏差度指标按照从大到小的顺序进行排序,将排序序号在预设序号之前的原始数据,均确定为原始标签标注可疑的原始数据。
7.根据权利要求1所述的方法,其特征在于,所述根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据,包括:
判断每一条原始数据对应的偏差度指标是否大于预设指标阈值;
将偏差度指标大于预设指标阈值的原始数据,确定为标签标注可疑的原始数据。
8.一种文本标注数据的质检装置,其特征在于,所述装置包括:
获取模块,用于获取待质检数据集;其中,所述待质检数据集包括多条原始数据,其中,每一条原始数据包括一条原始文本数据,以及每条原始文本数据对应的原始标签;
选取模块,用于针对每一类原始标签,基于从所述待质检数据集中选取的该类原始标签对应的预设比例的原始数据,作为该类原始标签对应的标杆数据;其中,每一条所述标杆数据包括一条标杆文本数据,以及对应的标杆标签;
第一计算模块,用于针对待质检数据集中的每一条原始数据,计算该条原始数据的原始文本数据与每一条标杆文本数据之间的文本相似度,以及计算该原始标签与该标杆数据对应的标杆标签之间的标签相似度;
第二计算模块,用于针对每一条原始数据,根据该条原始数据对应的所述文本相似度和所述标签相似度,计算出该条原始数据的偏差度指标;
确定模块,用于根据各条原始数据对应的偏差度指标,从所述待质检数据集中确定原始标签标注可疑的原始数据;
提供模块,用于抽取原始标签标注可疑的原始数据,并提供给质检人员进行重点检查和校验。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7中任一项所述的文本标注数据的质检方法的步骤。
10.一种计算机存储介质,其特征在于,该计算机存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7中任一项所述的文本标注数据的质检方法的步骤。
CN202210658214.2A 2022-06-10 2022-06-10 一种文本标注数据的质检方法、装置、电子设备以及存储介质 Pending CN114970490A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210658214.2A CN114970490A (zh) 2022-06-10 2022-06-10 一种文本标注数据的质检方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210658214.2A CN114970490A (zh) 2022-06-10 2022-06-10 一种文本标注数据的质检方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN114970490A true CN114970490A (zh) 2022-08-30

Family

ID=82960905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210658214.2A Pending CN114970490A (zh) 2022-06-10 2022-06-10 一种文本标注数据的质检方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114970490A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561289A (zh) * 2023-04-13 2023-08-08 大庆晟安意祥科技有限公司 一种数字工厂的实时监控方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561289A (zh) * 2023-04-13 2023-08-08 大庆晟安意祥科技有限公司 一种数字工厂的实时监控方法及系统
CN116561289B (zh) * 2023-04-13 2024-01-19 西安天智数字信息科技有限公司 一种数字工厂的实时监控方法及系统

Similar Documents

Publication Publication Date Title
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN112016304A (zh) 文本纠错方法、装置、电子设备及存储介质
CN112560453B (zh) 语音信息校验方法、装置、电子设备及介质
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN111460250A (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN107491536B (zh) 一种试题校验方法、试题校验装置及电子设备
CN109766891A (zh) 获取设备设施信息的方法及计算机可读存储介质
CN114970490A (zh) 一种文本标注数据的质检方法、装置、电子设备以及存储介质
CN112560855B (zh) 图像信息提取方法、装置、电子设备及存储介质
CN113344125A (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN111723182B (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN111290953B (zh) 分析测试日志的方法与装置
CN110750637B (zh) 文本摘要提取方法、装置、计算机设备及存储介质
CN111062448B (zh) 设备类型的识别模型训练方法、设备类型识别方法和装置
CN111754352A (zh) 一种观点语句正确性的判断方法、装置、设备和存储介质
CN112989043A (zh) 指代消解方法、装置、电子设备及可读存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN111178037A (zh) 重复缺陷报告识别方法、装置及电子设备
CN114706886A (zh) 一种评测方法和装置、计算机设备、存储介质
CN115373982A (zh) 基于人工智能的测试报告分析方法、装置、设备及介质
CN115203364A (zh) 软件故障反馈处理方法、装置、设备及可读存储介质
CN114780688A (zh) 基于规则匹配的文本质检方法、装置、设备及存储介质
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN113515588A (zh) 表单数据检测方法、计算机装置及存储介质
CN114185881B (zh) 异常数据自动修复方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination