CN113239205B - 数据标注方法、装置、电子设备及计算机可读存储介质 - Google Patents
数据标注方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113239205B CN113239205B CN202110647704.8A CN202110647704A CN113239205B CN 113239205 B CN113239205 B CN 113239205B CN 202110647704 A CN202110647704 A CN 202110647704A CN 113239205 B CN113239205 B CN 113239205B
- Authority
- CN
- China
- Prior art keywords
- data
- text data
- labeling result
- labeling
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供了一种数据标注方法、装置、电子设备及计算机可读存储介质,该方法包括:获取包含有至少一个文本数据及文本数据对应的第一标注结果的第一数据集;当第一标注结果的准确率大于第一阈值时,对第一数据集中的文本数据进行数据扩充得到第二数据集;针对第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,确定第二标注结果;当第二标注结果的准确率大于第二阈值时,将每个文本数据对应的第一标注结果和第二标注结果的树状关系确定为该文本数据的目标标注结果。本申请通过对文本数据标注第一标注结果和第二标注结果,并根据第一标注结果与第二标注结之间的树状关系,提高文本数据的区分度。
Description
技术领域
本申请涉及计算机技术领域,尤其是涉及一种数据标注方法、装置、电子设备及计算机可读存储介质。
背景技术
近年来,随着人工智能(AI,Artificial Intelligence)等技术的应用和逐步落地,对于数据的需求量呈爆发式增长,相应的数据标注需求也日渐增多。数据标注指的是对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待标注数据增加标签,生成满足机器学习训练要求的机器可读数据编码。
现有技术中在进行数据标注时,通常使用人工标注法直接对采集到的原始数据进行数据标注,由于标注人员的标注水平不同,所以使用人工标注法对数据进行标注时,数据标注的质量无法得到有效保证。并且现有技术中由于直接对原始数据进行数据标注,这样使得标注后的数据区分度不高,特征不明显。因此,现有技术中急需一种能够提高数据标注质量,以及提高数据区分度的方法。
发明内容
有鉴于此,本申请的目的在于提供一种数据标注方法、装置、电子设备及计算机可读存储介质,以提高数据的区分度以及数据标注质量。
第一方面,本申请实施例提供了一种数据标注方法,包括:
获取第一数据集;其中,所述第一数据集中包括至少一个文本数据,所述文本数据是使用预设标签进行标注后的数据;每个所述文本数据对应的所述预设标签作为该文本数据的第一标注结果;
判断所述第一标注结果的准确率是否大于第一阈值;
当所述第一标注结果的准确率大于第一阈值时,基于所述第一数据集中每个文本数据对应的所述第一标注结果,对所述第一数据集中的文本数据进行数据扩充,得到第二数据集;其中在所述第二数据集中,针对每个所述第一标注结果,该第一标注结果对应的文本数据的数量与其他所述第一标注结果对应的文本数据的数量之间的差值小于预设差值;
针对所述第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将所述目标词语确定为该文本数据的第二标注结果;
判断所述第二标注结果的准确率是否大于第二阈值;
当所述第二标注结果的准确率大于第二阈值时,针对所述第二数据集中的每个文本数据,将该文本数据对应的所述第一标注结果和所述第二标注结果的树状关系确定为该文本数据的目标标注结果。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述获取第一数据集之前,还包括:
获取至少一个待标注文本数据;
对所述待标注文本数据进行预处理;其中,所述预处理包括数据清洗、数据去重、数据标准化和缺失值补充中的至少一种。
结合第一方面或第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述获取第一数据集之前,还包括:
将获取到的待标注文本数据发送到数据标注平台中,对每个所述待标注文本数据进行第一数据标注;其中在所述数据标注平台中,针对每个所述待标注文本数据,基于该待标注文本数据的语义,当预设标签集合中存在与该待标注文本数据的语义相同的所述预设标签时,从所述预设标签集合中匹配出与该待标注文本数据的语义相同的所述预设标签,将该预设标签作为该待标注文本数据的预设标签;当所述预设标签集合中不存在与该待标注文本数据的语义相同的所述预设标签时,则将该待标注文本数据删除。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述判断所述第一标注结果的准确率是否大于第一阈值,包括:
将所述第一数据集中的文本数据输入到数据标注模型中,对每个所述文本数据进行第二数据标注;其中在所述数据标注模型中,针对所述第一数据集中的每个文本数据,基于该文本数据的语义,从预设标签集合中匹配出与该文本数据的语义相同的所述预设标签,将该预设标签作为该文本数据的第三标注结果;
针对所述第一数据集中的每个文本数据,基于该文本数据对应的所述第一标注结果和所述第三标注结果,从所述第一数据集中筛选出所述第一标注结果和所述第三标注结果不同的所述文本数据,作为第三数据集;
针对所述第三数据集中的每个文本数据,基于该文本数据对应的所述第一标注结果和所述第三标注结果,确定所述第三数据集中的文本数据的所述第一标注结果的准确率;
当所述第一标注结果的准确率不大于第一阈值时,再次执行获取第一数据集。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,
所述当所述第一标注结果的准确率大于第一阈值时,基于所述第一数据集中每个文本数据对应的所述第一标注结果,对所述第一数据集中的文本数据进行数据扩充,得到第二数据集,包括:
基于所述第一数据集中每个文本数据对应的所述第一标注结果,计算每个所述第一标注结果对应的所述文本数据的数量;
针对每个所述第一标注结果,计算该第一标注结果对应的所述文本数据的数量与除该第一标注结果之外的其他所述第一标注结果对应的所述文本数据的数量之间的差值;
判断所述差值是否小于预设差值;
当所述差值不小于预设差值时,基于所述差值,对所述第一数据集中的文本数据进行数据扩充,直至所述差值小于所述预设差值时结束数据扩充,并将数据扩充后的第一数据集确定为所述第二数据集;
当所述差值小于预设差值时,将所述第一数据集确定为所述第二数据集。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述针对所述第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将所述目标词语确定为该文本数据的第二标注结果,包括:
针对所述第二数据集中的每个文本数据,判断该文本数据中是否存在与所述预设的维护词表中的关键词相同的目标词语;
针对所述第二数据集中的每个文本数据,当该文本数据中存在与所述预设的维护词表中的关键词相同的目标词语时,则从该文本数据中提取出与所述预设的维护词表中的关键词相同的目标词语,并将所述目标词语确定为该文本数据的第二标注结果;
针对所述第二数据集中的每个文本数据,当该文本数据中不存在与所述预设的维护词表中的关键词相同的目标词语时,则将该文本数据从所述第二数据集中删除。
结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述当所述第二标注结果的准确率大于第二阈值时,针对所述第二数据集中的每个所述文本数据,将该文本数据对应的所述第一标注结果和所述第二标注结果的树状关系确定为该文本数据的目标标注结果之后,还包括:
将第四数据集按照预设比例划分为训练集、测试集和验证集,确定为待训练模型的训练样本;其中,所述第四数据集中包括所述第二数据集中的文本数据以及所述文本数据的目标标注结果;
使用所述训练样本对所述待训练模型进行训练。
第二方面,本申请实施例还提供一种数据标注装置,包括:
第一获取模块,用于获取第一数据集;其中,所述第一数据集中包括至少一个文本数据,所述文本数据是使用预设标签进行标注后的数据;每个所述文本数据对应的所述预设标签作为该文本数据的第一标注结果;
第一判断模块,用于判断所述第一标注结果的准确率是否大于第一阈值;
数据扩充模块,用于当所述第一标注结果的准确率大于第一阈值时,基于所述第一数据集中每个文本数据对应的所述第一标注结果,对所述第一数据集中的文本数据进行数据扩充,得到第二数据集;其中在所述第二数据集中,针对每个所述第一标注结果,该第一标注结果对应的文本数据的数量与其他所述第一标注结果对应的文本数据的数量之间的差值小于预设差值;
提取模块,用于针对所述第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将所述目标词语确定为该文本数据的第二标注结果;
第二判断模块,用于判断所述第二标注结果的准确率是否大于第二阈值;
确定模块,用于当所述第二标注结果的准确率大于第二阈值时,针对所述第二数据集中的每个文本数据,将该文本数据对应的所述第一标注结果和所述第二标注结果的树状关系确定为该文本数据的目标标注结果。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述获取第一数据集之前,还包括:
第二获取模块,用于获取至少一个待标注文本数据;
处理模块,用于对所述待标注文本数据进行预处理;其中,所述预处理包括数据清洗、数据去重、数据标准化和缺失值补充中的至少一种。
结合第二方面或第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述获取第一数据集之前,还包括:
发送模块,用于将获取到的待标注文本数据发送到数据标注平台中,对每个所述待标注文本数据进行第一数据标注;其中在所述数据标注平台中,针对每个所述待标注文本数据,基于该待标注文本数据的语义,当预设标签集合中存在与该待标注文本数据的语义相同的所述预设标签时,从所述预设标签集合中匹配出与该待标注文本数据的语义相同的所述预设标签,将该预设标签作为该待标注文本数据的预设标签;当所述预设标签集合中不存在与该待标注文本数据的语义相同的所述预设标签时,则将该待标注文本数据删除。
结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述第一判断模块在用于判断所述第一标注结果的准确率是否大于第一阈值时,具体用于:
将所述第一数据集中的文本数据输入到数据标注模型中,对每个所述文本数据进行第二数据标注;其中在所述数据标注模型中,针对所述第一数据集中的每个文本数据,基于该文本数据的语义,从预设标签集合中匹配出与该文本数据的语义相同的所述预设标签,将该预设标签作为该文本数据的第三标注结果;
针对所述第一数据集中的每个文本数据,基于该文本数据对应的所述第一标注结果和所述第三标注结果,从所述第一数据集中筛选出所述第一标注结果和所述第三标注结果不同的所述文本数据,作为第三数据集;
针对所述第三数据集中的每个文本数据,基于该文本数据对应的所述第一标注结果和所述第三标注结果,确定所述第三数据集中的文本数据的所述第一标注结果的准确率;
当所述第一标注结果的准确率不大于第一阈值时,再次执行获取第一数据集。
结合第二方面,本申请实施例提供了第二方面的第四种可能的实施方式,其中,所述数据扩充模块在用于当所述第一标注结果的准确率大于第一阈值时,基于所述第一数据集中每个文本数据对应的所述第一标注结果,对所述第一数据集中的文本数据进行数据扩充,得到第二数据集时,具体用于:
基于所述第一数据集中每个文本数据对应的所述第一标注结果,计算每个所述第一标注结果对应的所述文本数据的数量;
针对每个所述第一标注结果,计算该第一标注结果对应的所述文本数据的数量与除该第一标注结果之外的其他所述第一标注结果对应的所述文本数据的数量之间的差值;
判断所述差值是否小于预设差值;
当所述差值不小于预设差值时,基于所述差值,对所述第一数据集中的文本数据进行数据扩充,直至所述差值小于所述预设差值时结束数据扩充,并将数据扩充后的第一数据集确定为所述第二数据集;
当所述差值小于预设差值时,将所述第一数据集确定为所述第二数据集。
结合第二方面,本申请实施例提供了第二方面的第五种可能的实施方式,其中,所述提取模块在用于针对所述第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将所述目标词语确定为该文本数据的第二标注结果时,具体用于:
针对所述第二数据集中的每个文本数据,判断该文本数据中是否存在与所述预设的维护词表中的关键词相同的目标词语;
针对所述第二数据集中的每个文本数据,当该文本数据中存在与所述预设的维护词表中的关键词相同的目标词语时,则从该文本数据中提取出与所述预设的维护词表中的关键词相同的目标词语,并将所述目标词语确定为该文本数据的第二标注结果;
针对所述第二数据集中的每个文本数据,当该文本数据中不存在与所述预设的维护词表中的关键词相同的目标词语时,则将该文本数据从所述第二数据集中删除。
结合第二方面,本申请实施例提供了第二方面的第六种可能的实施方式,其中,所述当所述第二标注结果的准确率大于第二阈值时,针对所述第二数据集中的每个所述文本数据,将该文本数据对应的所述第一标注结果和所述第二标注结果的树状关系确定为该文本数据的目标标注结果之后,还包括:
划分模块,用于将第四数据集按照预设比例划分为训练集、测试集和验证集,确定为待训练模型的训练样本;其中,所述第四数据集中包括所述第二数据集中的文本数据以及所述文本数据的目标标注结果;
训练模块,用于使用所述训练样本对所述待训练模型进行训练。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。
在本申请的实施例中,通过设定第一阈值的方式约束文本数据的第一标注结果,以及通过设定第二阈值的方式约束文本数据的第二标注结果,提高了数据标注的准确率和质量。本申请中通过使用数据扩充的方式,减小第一数据集中每个第一标注结果对应的文本数据的数量之间的差值,使得第一数据集中文本数据的分布更均匀,进而提高文本数据的可用性,实现在使用该文本数据对模型进行训练时,可以提高模型的准确率的效果。并且本申请中通过对文本数据标注第一标注结果和第二标注结果,以及根据第一标注结果与第二标注结之间的树状关系,提高了文本数据的区分度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据标注方法的流程图;
图2示出了本申请实施例所提供的第一标注结果和第二标注结果的树状关系图;
图3示出了本申请实施例所提供的一种数据标注装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
近年来,随着人工智能(AI,Artificial Intelligence)等技术的应用和逐步落地,对于数据的需求量呈爆发式增长,相应的数据标注需求也日渐增多。算法、算力和数据是人工智能项目的三大决定因素,而数据在人工智能项目中有着举足轻重的地位,正如业界流传的,“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”数据标注指的是对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待标注数据增加标签,生成满足机器学习训练要求的机器可读数据编码。
当前在进行数据标注时,通常使用人工标注法直接对采集到的原始数据进行数据标注,由于标注人员的标注水平不同,所以使用人工标注法对数据进行标注时,数据标注的质量无法得到有效保证。并且由于直接对原始数据进行数据标注,这样使得标注后的数据区分度不高,特征不明显。
考虑到上述问题,基于此,本申请实施例提供了一种数据标注方法、装置、电子设备和计算机可读存储介质,以提高数据的区分度以及数据标注质量,下面通过实施例进行描述。
实施例一:
为便于对本实施例进行理解,首先对本申请实施例所公开的一种数据标注方法进行详细介绍。图1示出了本申请实施例所提供的一种数据标注方法的流程图,如图1所示,该方法包括以下步骤:
S101:获取第一数据集;其中,第一数据集中包括至少一个文本数据,文本数据是使用预设标签进行标注后的数据;每个文本数据对应的预设标签作为该文本数据的第一标注结果。
在本申请的实施例中,第一数据集中包括至少一个文本数据,其中文本数据可以是词语、句子、段落等文本构成的。文本数据可以是任意一种语言的文本,例如中文文本、英文文本等。具体地,第一数据集中包括的文本数据为同一种语言类型的文本数据。
预设标签是预先设置的标签,预设标签的种类个数可以是一个也可以是多个,其中预设标签的设置(包含预设标签的种类个数)可以根据待训练模型决定,即可以根据待训练模型所需要的训练样本决定。具体地,使用预设标签对文本数据进行数据标注时,每个文本数据对应一个预设标签,一个预设标签可以对应一个文本数据也可以对应多个文本数据。例如预设标签共有3个,分别为标签A、标签B、标签C时,并且第一数据集中包括50个文本数据时,每个文本数据对应标签A、标签B和标签C三个预设标签中的一个,在具体的实施例中,标签A可以对应第一数据集中的1个文本数据,标签B可以对应第一数据集中的20个文本数据,标签C可以对应第一数据集中的29个文本数据。
将每个文本数据对应的预设标签作为该文本数据的第一标注结果,也就是说第一标注结果的种类可以是一个也可以是多个,每个文本数据对应一个第一标注结果,一个标注结果可以对应一个文本数据也可以对应多个文本数据。在本申请中,第一标注结果指的是用于表示文本数据的语义或意图的标签,具体地,第一标注结果可以不是文本数据中出现的词语。例如文本数据为“我的车被撞了,我要叫保险公司来”,该文本数据的第一标注结果为“报案”,也就是说该文本数据的意图是需要“报案”。
在本申请中,通过使用预设标签(第一标注结果)对文本数据进行标注,从而对文本数据进行分类,确定每个文本数据分别属于预设标签中的哪一个标签,具体地,具有相同的预设标签(第一标注结果)的文本数据为同一类文本数据,具有不同的预设标签(第一标注结果)的文本数据不是同一类的文本数据。
S102:判断第一标注结果的准确率是否大于第一阈值。
根据获取到的第一数据集中的文本数据及文本数据对应的第一标注结果,计算第一数据集中文本数据对应的第一标注结果的准确率,其中第一标注结果的准确率表示使用第一标注结果对第一数据集中的文本数据进行标注的正确程度,并判断第一标注结果的准确率是否大于第一阈值。可选的,第一阈值的取值可以是0.92-0.95中的任意一个数值。
第一标注结果的准确率大于第一阈值时,表示第一数据集中的文本数据标注的预设标签(第一标注结果)准确率较高;第一标注结果的准确率不大于第一阈值时,表示第一数据集中的文本数据标注的预设标签(第一标注结果)准确率较低。在本申请中通过设定第一阈值的方式约束文本数据的第一标注结果,进而提高数据标注的准确率和质量。
S103:当第一标注结果的准确率大于第一阈值时,基于第一数据集中每个文本数据对应的第一标注结果,对第一数据集中的文本数据进行数据扩充,得到第二数据集;其中在第二数据集中,针对每个第一标注结果,该第一标注结果对应的文本数据的数量与其他第一标注结果对应的文本数据的数量之间的差值小于预设差值。
在本申请的实施例中,当第一标注结果的准确率大于第一阈值时,即在满足使用预设标签(第一标注结果)对文本数据进行标注时标注的准确率和质量较高的条件下,基于第一数据集中每个文本数据对应的第一标注结果,对第一数据集中的文本数据进行数据扩充,得到第二数据集。具体地,当第一标注结果为多个,且每个第一标注结果对应的文本数据的数量之间的差值较大,即第一数据集中的文本数据分布不够均匀时,需要对第一数据集中的文本数据分布较小的第一标注结果进行数据扩充,增加该第一标注结果对应的文本数据的数量,使得每个第一标注结果对应的文本数据的数量之间的差距较小。可选的,第二数据集中每个第一标注结果对应的文本数据的数量相同。
在本申请中,如果文本数据的分布不够均匀,即每个第一标注结果对应的文本数据的数量差值较大时,例如第一标注结果A1对应的文本数据的数量为10个,而第一标注结果A2对应的文本数据的数量为99个时,使用第一标注结果A1和第一标注结果A2对应的文本数据对待训练模型进行训练时,得到的模型的预测结果准确率较低。因此本申请中通过使用数据扩充的方式,使得第一数据集中每个第一标注结果对应的文本数据的数量之间的差值较小,进而实现在使用该文本数据对待训练模型进行训练时,可以提高模型的准确率的效果。
在本申请的实施例中,预设差值的取值可以根据第一数据集中包含的文本数据的数量决定,若第一数据集中包含的文本数据的数量较大,则预设差值可以设置为较大的数值;若第一数据集中包含的文本数据的数量较小,则预设差值可以设置为较小的数值。
在本申请的实施例中,当第一数据集中每个第一标注结果对应的文本数据的数量之间的差值小于预设差值时,将第一数据集中的文本数据以及通过数据扩充的方式产生的文本数据作为第二数据集中的文本数据,其中第二数据集中包含第一数据集中的文本数据以及通过数据扩充的方式产生的文本数据之外,还包含每个文本数据对应的第一标注结果。
在本申请的实施例中,在对文本数据进行数据扩充时,具体可以使用造数据、近义词替换、随机词替换、核心词替换以及回译法(中译英、英译中)中任意一种或多种的方式实现。
S104:针对第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将目标词语确定为该文本数据的第二标注结果。
在本申请的实施例中,预设的维护词表是预先设置的且包含有多个关键词的集合,针对第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将该目标词语确定为该文本数据的第二标注结果。在本申请中,目标词语指的是既在文本数据中出现又属于预设的维护词表中包含的关键词的词语。其中,根据文本数据中包含的词语,一个文本数据可以提取出一个目标词语,也可以提取出多个目标词语。也就是说,根据文本数据中包含的词语,一个文本数据可以对应一个第二标注结果,也可以对应多个第二标注结果。在本申请中,第二标注结果指的是文本数据中包含的关键词,是文本数据中出现的词语。例如文本数据为“我的车被撞了,我要叫保险公司来”,该文本数据的第二标注数据可以为“撞”、“保险”。
S105:判断第二标注结果的准确率是否大于第二阈值。
根据第二数据集中的文本数据以及每个文本数据对应的第二标注结果,计算第二数据集中文本数据对应的第二标注结果的准确率,其中第二标注结果的准确率表示使用第二标注结果对第二数据集中的文本数据进行标注的正确程度,并判断第二标注结果的准确率是否大于第二阈值。可选的,第二阈值的取值可以是0.95-0.99中的任意一个数值。
第二标注结果的准确率大于第二阈值时,表示第二数据集中的文本数据标注的第二标注结果(目标词语/关键词)准确率较高;第二标注结果的准确率不大于第二阈值时,表示第二数据集中的文本数据标注的第二标注结果(目标词语/关键词)准确率较低。在本申请中通过设定第二阈值的方式约束文本数据的第二标注结果,进而提高数据标注的准确率和质量。
具体地,在本申请的实施例中,第二阈值大于第一阈值。本申请中,通过设置第二阈值大于第一阈值,进一步提高数据标注结果的准确率。
S106:当第二标注结果的准确率大于第二阈值时,针对第二数据集中的每个文本数据,将该文本数据对应的第一标注结果和第二标注结果的树状关系确定为该文本数据的目标标注结果。
图2示出了本申请实施例所提供的第一标注结果和第二标注结果的树状关系图,如图2所示,在本申请的实施例中,第二数据集中的每个文本数据,均分别对应一个第一标注结果以及至少一个第二标注结果。本申请中该文本数据的第一标注结果表示该文本数据的语义或意图,该文本数据的第二标注结果表示从该文本数据中提取出的关键词(目标词语)。也就是说针对每个文本数据,第一标注结果与第二标注结果之间的树状关系为一个第一标注结果对应至少一个第二标注结果。在本申请中,当第二标注结果的准确率大于第二阈值时,针对第二数据集中的每个文本数据,将该文本数据对应的第一标注结果和第二标注结果,以及第一标注结果和第二标注结果之间的树状关系确定为该文本数据的目标标注结果。
具体地,将该文本数据对应的第二标注结果(文本数据中的目标词语即关键词)作为该文本数据对应的第一标注结果(文本数据的意图)的触发关键词。在一个具体的实施例中,例如在进行人机对话中,当用户的车被撞了,并且该用户与机器人进行通信时,在现有技术中,机器人需要接收到用户输入的“报案”,才能启动报案流程;而在本申请中,当机器人接收到用户输入的“我的车被撞了,我要叫保险公司来”的文本数据时,机器人可以自动识别出该文本数据中的第二标注结果“撞”和“保险”,机器人通过第二标注结果“撞”、“保险”与第一标注结果“报案”之间的树状关系,可以确定该用户的意图是需要报案,接下来机器人可以自动启动报案流程。在该实施例中,机器人通过提取出文本数据中的至少一个第二标注结果,即可确定该用户的意图,不需要用户必须说出“报案”,即可启动报案流程。
在本申请的实施例中,通过对文本数据标注第一标注结果和第二标注结果,并且根据第一标注结果与第二标注结之间的树状关系,提高了数据的区分度。
在一种可能的实施方式中,在执行步骤S101获取第一数据集之前,具体还可以按照以下步骤执行:
S1011:获取至少一个待标注文本数据。
在本申请的实施例中,第一数据集中的文本数据是使用第一标注结果进行标注完成的文本数据,因此本申请中在获取第一数据集之前,先使用第一标注结果(即预设标签)对待标注文本数据进行标注,进而得到第一数据集中的文本数据。
本申请中在使用第一标注结果(即预设标签)对待标注文本数据进行标注之前,需要先对待标注文本数据进行预处理。其中待标注文本数据指的是未经过任何处理或简化的原始数据。
S1012:对待标注文本数据进行预处理;其中,预处理包括数据清洗、数据去重、数据标准化和缺失值补充中的至少一种。
在本申请的实施例中,在对待标注文本数据进行预处理时,具体可以包括数据清洗、数据去重、数据标准化和缺失值补充中的至少一种。
其中,数据清洗指的是文本数据的格式内容清洗,如文本数据标点全角、半角格式的不一致,以及文本数据的简繁转换等。数据去重指的是两条以上一模一样的文本数据仅保留一条,或者删除一条文本数据中的重复文本,例如“我的车坏了,申请报案报案”,“报案”两个字重复了两遍,删除其中一个“报案”文本,仅保留一个“报案”文本。
数据标准化指的是一系列相关的任务,能够将所有文本数据放在同一水平区域上,即处于平等的地位。其中文本数据的数据标准化分为纯文字型文本数据和纯数值型文本数据,对于纯文字型文本数据,在进行数据标准化处理时,具体可以是删除标点、删除数字或者将数字转换成相应的文字以及删除停用词表里的停用词等。对于纯数值型文本数据在进行数据标准化处理时,具体可以是对同一个指标的所有对象的文本数据,使用min-max标准化(离差标准化)对纯数值型文本数据的线性变换,使结果值映射到[0-1]之间。转换函数是:
其中,max为该指标中纯数值型文本数据的最大值,min为该指标中纯数值型文本数据的最小值,x为该指标中原始的每个纯数值型文本数据,x*为该指标中每个纯数值型文本数据对应的数据标准化处理后的纯数值型文本数据。
对于纯数值型文本数据在进行数据标准化处理时,具体还可以是对同一个指标的所有对象的文本数据,使用Z-score标准化(零-均值标准化)对纯数值型文本数据进行数据标准化处理,经过数据标准化处理的纯数值型文本数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
其中,μ为该指标中纯数值型文本数据的均值,σ为该指标中纯数值型文本数据的标准差,x为该指标中原始的每个纯数值型文本数据,x*为该指标中每个纯数值型文本数据对应的数据标准化处理后的纯数值型文本数据。
缺失值补充指的是文本数据中某一字段是空的时,若该文本数据占比较小,则可以直接删除这条文本数据;也可以进行人工填补,即可以使用以业务知识或经验推测填充缺失值,缺点是面对数据集体量大、缺失值很多时可能行不通;还可以进行自动填补,具体地可以以同一指标的计算结果,例如均值、中位数、众数等填充缺失值;或者以不同指标的计算结果填充缺失值,例如缺少客户年龄字段时,可以根据客户身份证号字段推断出年龄这一字段。
具体地,本申请中在对待标注文本数据进行预处理时,可以选择调用各个预处理模块(即包括数据清洗模块、数据去重模块、数据标准化模块和缺失值补充模块)对待标注文本数据分别进行处理。
本申请中,先对待标注数据(即原始数据)进行预处理,再对预处理后的待标注数据进行第一数据标注(即使用第一标注结果对预处理后的待标注数据进行数据标注),避免了直接对原始数据进行数据标注时出现的问题(例如对重复文本数据进行重复标注等),提高了数据标注质量及效率。
在一种可能的实施方式中,在执行步骤S1011获取至少一个待标注文本数据之前,具体还可以按照以下步骤执行:获取至少一个待标注数据,其中,待标注数据的类型可以为图像数据和音频数据中的至少一种。当待标注数据为图像数据时,采用训练好的模型进行自动转写,将图像数据转换为待标注文本数据。当待标注数据为音频数据时,采用ASR(人工智能之语音识别)引擎进行自动转写,将音频数据转换为待标注文本数据。
在一种可能的实施方式中,在执行步骤S101获取第一数据集之前,具体还可以按照以下步骤执行:
S1010:将获取到的待标注文本数据发送到数据标注平台中,对每个待标注文本数据进行第一数据标注;其中在数据标注平台中,针对每个待标注文本数据,基于该待标注文本数据的语义,当预设标签集合中存在与该待标注文本数据的语义相同的预设标签时,从预设标签集合中匹配出与该待标注文本数据的语义相同的预设标签,将该预设标签作为该待标注文本数据的预设标签;当预设标签集合中不存在与该待标注文本数据的语义相同的预设标签时,则将该待标注文本数据删除。
在本申请的实施例中,第一数据集中的文本数据是使用第一标注结果进行标注完成的文本数据,因此本申请中在获取第一数据集之前,需要先使用第一标注结果(即预设标签)对待标注文本数据进行标注,进而得到第一数据集中的文本数据。
其中在一种可能的情况下,先执行步骤S1011-S1012获取至少一个待标注文本数据;对待标注文本数据进行预处理。然后执行步骤S1010将预处理后的待标注文本数据发送到数据标注平台中,对每个待标注文本数据进行第一数据标注。再执行步骤S101获取第一数据集。
在另一种可能的情况下,先执行步骤S1010将获取到的待标注文本数据发送到数据标注平台中,对每个待标注文本数据进行第一数据标注。再执行步骤S101获取第一数据集。
本申请中,使用第一标注结果(即预设标签)对待标注文本数据进行标注时,具体可以将获取到的待标注文本数据发送到数据标注平台中,在数据标注平台中对每个待标注文本数据进行第一数据标注。其中,在数据标注平台中标注人员对接收到的待标注文本数据进行第一数据标注,具体地,针对每个待标注文本数据,基于该待标注文本数据的语义或意图,判断预设标签集合中是否存在与该待标注文本数据的语义或意图相匹配的预设标签,当预设标签集合中存在与该待标注文本数据的语义或意图相同的预设标签时,从预设标签集合中匹配出与该待标注文本数据的语义或意图相同的预设标签,将该预设标签作为该待标注文本数据的预设标签;当预设标签集合中不存在与该待标注文本数据的语义或意图相同的预设标签时,则将该待标注文本数据删除。其中预设标签集合中包括有预设标签。
本申请中,当预设标签集合中不存在与该待标注文本数据的语义或意图相同的预设标签时,相当于该待标注文本数据不属于任何一个第一标注结果(预设标签)时,将该待标注文本数据删除,实现了通过对待标注文本数据进行第一数据标注,进而对第一数据标注后的文本数据进行分类,即将具有同一个第一标注结果(预设标签)的文本数据归为同一类,具有不同第一标注结果(预设标签)的文本数据归为不同类。
在一种可能的实施方式中,在执行步骤S102判断第一标注结果的准确率是否大于第一阈值时,具体可以按照以下步骤执行:
S1021:将第一数据集中的文本数据输入到数据标注模型中,对每个文本数据进行第二数据标注;其中在数据标注模型中,针对第一数据集中的每个文本数据,基于该文本数据的语义,从预设标签集合中匹配出与该文本数据的语义相同的预设标签,将该预设标签作为该文本数据的第三标注结果。
在本申请的实施例中,为了保证第一标注结果的准确率,提高数据标注质量,需要对第一标准结果进行验证。本申请中,在对第一标准结果进行验证时,具体可以将第一数据集中的文本数据输入到数据标注模型中,使用数据标注模型对每个文本数据进行第二数据标注;其中在数据标注模型中,针对第一数据集中的每个文本数据,基于该文本数据的语义或意图,从预设标签集合中匹配出与该文本数据的语义或意图相同的预设标签,将该预设标签作为该文本数据的第三标注结果。
S1022:针对第一数据集中的每个文本数据,基于该文本数据对应的第一标注结果和第三标注结果,从第一数据集中筛选出第一标注结果和第三标注结果不同的文本数据,作为第三数据集。
本申请中通过采用不同的标注方法(即采用数据标注平台进行第一数据标注、采用数据标注模型进行第二数据标注)对第一数据集中的文本数据分别进行第一数据标注和第二数据标注。针对第一数据集中的每个文本数据,若该文本数据对应的第一标注结果和第三标注结果相同,则表示该文本数据的第一标注结果是正确的,无需对该文本数据的第一标注结果进行检验;若该文本数据对应的第一标注结果和第三标注结果不同,则表示该文本数据的第一标注结果可能是错误的,需要对该文本数据的第一标注结果进行检验。在本申请的实施例中,从第一数据集中筛选出第一标注结果和第三标注结果不同的文本数据,作为第三数据集,即第三数据集中的文本数据对应的第一标注结果有可能是错误的。
S1023:针对第三数据集中的每个文本数据,基于该文本数据对应的第一标注结果和第三标注结果,确定第三数据集中的文本数据的第一标注结果的准确率。
在本申请的实施例中,针对第三数据集中的每个文本数据,采用放回抽样的方式进行检验,判断该文本数据对应的第一标注结果是否正确,进而确定第三数据集中的文本数据的第一标注结果的准确率。
在一个具体的实施例中,在第一轮检验时,从第三数据集中随机抽取m1个文本数据,其中该轮检验中有n1个文本数据的第一标注结果是正确的,则该轮检验中第一标注结果的准确率Z1,其中Z1的计算方法是:
分别进行k轮检验,得到Z1…ZK,其中ZK表示第k轮检验中第一标注结果的准确率,可选的k的取值范围可以大于等于1。此时第三数据集中的文本数据的第一标注结果的准确率Z的计算方法是:
S1024:当第一标注结果的准确率不大于第一阈值时,再次执行获取第一数据集。
在本申请的实施例中,当第一标注结果的准确率不大于第一阈值时,则表示第一标注结果的准确率较低,因此为了保证数据标注的质量,需要重新执行步骤S101即获取第一数据集,其中重新获取的第一数据集中的文本数据及其对应的第一标注结果与之前获取的第一数据集中包含的文本数据及其对应的第一标注结果不同。或者重新执行步骤S1010重新对第一数据集中的文本数据进行第一数据标注。
在一种可能的实施方式中,在执行步骤S103当第一标注结果的准确率大于第一阈值时,基于第一数据集中每个文本数据对应的第一标注结果,对第一数据集中的文本数据进行数据扩充,得到第二数据集时,具体可以按照以下步骤执行:
S1031:基于第一数据集中每个文本数据对应的第一标注结果,计算每个第一标注结果对应的文本数据的数量。
在本申请的实施例中,每个文本数据对应一个第一标注结果,一个第一标注结果对应多个文本数据,根据第一数据集中每个文本数据对应的第一标注结果,统计出每个第一标注结果对应的文本数据的数量。
S1032:针对每个第一标注结果,计算该第一标注结果对应的文本数据的数量与除该第一标注结果之外的其他第一标注结果对应的文本数据的数量之间的差值。
在本申请的实施例中,由于每个第一标注结果对应的文本数据的数量可能相同也可能不同,因此针对每个第一标注结果,根据确定出的每个第一标注结果对应的文本数据的数量,计算出该第一标注结果对应的文本数据的数量与除该第一标注结果之外的其他第一标注结果对应的文本数据的数量之间的差值。即每两个第一标注结果之间确定出一个差值。
在一个具体的实施例中,第一标注结果A1对应的文本数据的数量为10个,第一标注结果A2对应的文本数据的数量为99个,第一标注结果A3对应的文本数据的数量为75个时,则第一标注结果A1与第一标注结果A2之间的差值C1为89,第一标注结果A1与第一标注结果A3之间的差值C2为65,第一标注结果A2与第一标注结果A3之间的差值C3为24。
S1033:判断差值是否小于预设差值。
在本申请的实施例中,针对每个差值,判断该差值是否小于预设差值。
S1034:当差值不小于预设差值时,基于差值,对第一数据集中的文本数据进行数据扩充,直至差值小于预设差值时结束数据扩充,并将数据扩充后的第一数据集确定为第二数据集。
在本申请的实施例中,针对每个差值,当该差值不小于预设差值时,则表示该差值对应的两个第一标注结果所对应的文本数据的数量差距较大,需要对第一数据集中的文本数据进行数据扩充,直至差值小于预设差值时结束数据扩充。
具体地,基于步骤S1032中的实施例,当预设差值设置为30时,则此时可以确定出第一标注结果A1与第一标注结果A2之间的差值C1不小于预设差值,并且第一标注结果A1与第一标注结果A3之间的差值C2也不小于预设差值。在该实施例中,对第一标注结果A1对应的文本数据进行数据扩充,直至差值C1和C2均小于预设差值时结束数据扩充,具体地,将第一标注结果A1对应的文本数据进行数据扩充后,使得第一标注结果A1对应的文本数据的数量为69时,此时第一标注结果A1与第一标注结果A2之间的差值C1为30,第一标注结果A1与第一标注结果A3之间的差值C2为6,即此时差值C1和C2均小于预设差值,此时结束数据扩充,并将数据扩充后的第一数据集确定为第二数据集。具体地,进行数据扩充之前第一数据集中的文本数据的数量为184(即10+99+75=184),进行数据扩充后得到的第二数据集中的文本数据的数量为243(即69+99+75=243)。
S1035:当差值小于预设差值时,将第一数据集确定为第二数据集。
在本申请的实施例中,当所有差值均小于预设差值时,不需要进行数据扩充,直接将第一数据集确定为第二数据集。
在一种可能的实施方式中,在执行步骤S104针对第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将目标词语确定为该文本数据的第二标注结果时,具体可以按照以下步骤执行:
S1041:针对第二数据集中的每个文本数据,判断该文本数据中是否存在与预设的维护词表中的关键词相同的目标词语。
在本申请的实施例中,预设的维护词表中包括有多个关键词,针对第二数据集中的每个文本数据,判断该文本数据中是否存在与预设的维护词表中的关键词相同的目标词语。
S1042:针对第二数据集中的每个文本数据,当该文本数据中存在与预设的维护词表中的关键词相同的目标词语时,则从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,并将目标词语确定为该文本数据的第二标注结果。
在本申请的实施例中,针对第二数据集中的每个文本数据,当该文本数据中存在与预设的维护词表中的关键词相同的目标词语时,则从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,并将该目标词语确定为该文本数据的第二标注结果。具体地针对第二数据集中的每个文本数据,提取出的目标词语可能有一个也可能有多个,无论目标词语是一个还是多个,均将提取出的目标词语确定为该文本数据的第二标注结果,即针对每个文本数据,第二标注结果可能有一个也可能有多个。
S1043:针对第二数据集中的每个文本数据,当该文本数据中不存在与预设的维护词表中的关键词相同的目标词语时,则将该文本数据从第二数据集中删除。
在一种可能的实施方式中,在执行步骤S105判断第二标注结果的准确率是否大于第二阈值时,具体可以按照以下步骤执行:
在本申请的实施例中,针对第二数据集中的每个文本数据,采用放回抽样的方式进行检验,判断该文本数据对应的第二标注结果是否正确,进而确定第二数据集中的文本数据的第二标注结果的准确率。根据确定出的第二标注结果的准确率,判断第二标注结果的准确率是否大于第二阈值。
在本申请的实施例中,当第二标注结果的准确率不大于第二阈值时,重新执行步骤S104针对第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将目标词语确定为该文本数据的第二标注结果。
在一种可能的实施方式中,在执行步骤S106当第二标注结果的准确率大于第二阈值时,针对第二数据集中的每个文本数据,将该文本数据对应的第一标注结果和第二标注结果的树状关系确定为该文本数据的目标标注结果之后,具体还可以按照以下步骤执行:
S1061:将第四数据集按照预设比例划分为训练集、测试集和验证集,确定为待训练模型的训练样本;其中,第四数据集中包括第二数据集中的文本数据以及文本数据的目标标注结果。
在本申请的实施例中,将第二数据集中的文本数据以及文本数据的目标标注结果确定为第四数据集,对第四数据集按照预设比例进行随机划分,得到训练集、测试集和验证集,并将得到的训练集、测试集和验证集确定为待训练模型的训练样本。
S1062:使用训练样本对待训练模型进行训练。
在本申请的实施例中,使用确定出的待训练模型的训练样本,对待训练模型进行训练。
实施例二:
基于相同的技术构思,本申请实施例还提供一种数据标注装置,图3示出了本申请实施例所提供的一种数据标注装置的结构示意图,如图3所示,该装置包括:
第一获取模块301,用于获取第一数据集;其中,第一数据集中包括至少一个文本数据,文本数据是使用预设标签进行标注后的数据;每个文本数据对应的预设标签作为该文本数据的第一标注结果;
第一判断模块302,用于判断第一标注结果的准确率是否大于第一阈值;
数据扩充模块303,用于当第一标注结果的准确率大于第一阈值时,基于第一数据集中每个文本数据对应的第一标注结果,对第一数据集中的文本数据进行数据扩充,得到第二数据集;其中在第二数据集中,针对每个第一标注结果,该第一标注结果对应的文本数据的数量与其他第一标注结果对应的文本数据的数量之间的差值小于预设差值;
提取模块304,用于针对第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将目标词语确定为该文本数据的第二标注结果;
第二判断模块305,用于判断第二标注结果的准确率是否大于第二阈值;
确定模块306,用于当第二标注结果的准确率大于第二阈值时,针对第二数据集中的每个文本数据,将该文本数据对应的第一标注结果和第二标注结果的树状关系确定为该文本数据的目标标注结果。
可选的,在前述第一获取模块301用于获取第一数据集之前,还包括:
第二获取模块,用于获取至少一个待标注文本数据;
处理模块,用于对待标注文本数据进行预处理;其中,预处理包括数据清洗、数据去重、数据标准化和缺失值补充中的至少一种。
可选的,在前述第一获取模块301用于获取第一数据集之前,还包括:
发送模块,用于将获取到的待标注文本数据发送到数据标注平台中,对每个待标注文本数据进行第一数据标注;其中在数据标注平台中,针对每个待标注文本数据,基于该待标注文本数据的语义,当预设标签集合中存在与该待标注文本数据的语义相同的预设标签时,从预设标签集合中匹配出与该待标注文本数据的语义相同的预设标签,将该预设标签作为该待标注文本数据的预设标签;当预设标签集合中不存在与该待标注文本数据的语义相同的预设标签时,则将该待标注文本数据删除。
可选的,前述第一判断模块302在用于判断第一标注结果的准确率是否大于第一阈值时,具体用于:
将第一数据集中的文本数据输入到数据标注模型中,对每个文本数据进行第二数据标注;其中在数据标注模型中,针对第一数据集中的每个文本数据,基于该文本数据的语义,从预设标签集合中匹配出与该文本数据的语义相同的预设标签,将该预设标签作为该文本数据的第三标注结果;
针对第一数据集中的每个文本数据,基于该文本数据对应的第一标注结果和第三标注结果,从第一数据集中筛选出第一标注结果和第三标注结果不同的文本数据,作为第三数据集;
针对第三数据集中的每个文本数据,基于该文本数据对应的第一标注结果和第三标注结果,确定第三数据集中的文本数据的第一标注结果的准确率;
当第一标注结果的准确率不大于第一阈值时,再次执行获取第一数据集。
可选的,前述数据扩充模块303在用于当第一标注结果的准确率大于第一阈值时,基于第一数据集中每个文本数据对应的第一标注结果,对第一数据集中的文本数据进行数据扩充,得到第二数据集时,具体用于:
基于第一数据集中每个文本数据对应的第一标注结果,计算每个第一标注结果对应的文本数据的数量;
针对每个第一标注结果,计算该第一标注结果对应的文本数据的数量与除该第一标注结果之外的其他第一标注结果对应的文本数据的数量之间的差值;
判断差值是否小于预设差值;
当差值不小于预设差值时,基于差值,对第一数据集中的文本数据进行数据扩充,直至差值小于预设差值时结束数据扩充,并将数据扩充后的第一数据集确定为第二数据集;
当差值小于预设差值时,将第一数据集确定为第二数据集。
可选的,前述提取模块304在用于针对第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将目标词语确定为该文本数据的第二标注结果时,具体用于:
针对第二数据集中的每个文本数据,判断该文本数据中是否存在与预设的维护词表中的关键词相同的目标词语;
针对第二数据集中的每个文本数据,当该文本数据中存在与预设的维护词表中的关键词相同的目标词语时,则从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,并将目标词语确定为该文本数据的第二标注结果;
针对第二数据集中的每个文本数据,当该文本数据中不存在与预设的维护词表中的关键词相同的目标词语时,则将该文本数据从第二数据集中删除。
可选的,在前述确定模块306用于当第二标注结果的准确率大于第二阈值时,针对第二数据集中的每个文本数据,将该文本数据对应的第一标注结果和第二标注结果的树状关系确定为该文本数据的目标标注结果之后,还包括:
划分模块,用于将第四数据集按照预设比例划分为训练集、测试集和验证集,确定为待训练模型的训练样本;其中,第四数据集中包括第二数据集中的文本数据以及文本数据的目标标注结果;
训练模块,用于使用训练样本对待训练模型进行训练。
实施例三:
基于相同的技术构思,本申请实施例还提供一种电子设备,图4示出了本申请实施例所提供的一种电子设备的结构示意图,如图4所示,该电子设备400包括:处理器401、存储器402和总线403,存储器存储有处理器可执行的机器可读指令,当电子设备运行时,处理器401与存储器402之间通过总线403通信,处理器401执行机器可读指令,以执行实施例以中所述的方法步骤。
实施例四:
本申请实施例四还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例一中所述的方法步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种数据标注方法,其特征在于,包括:
获取第一数据集;其中,所述第一数据集中包括至少一个文本数据,所述文本数据是使用预设标签进行标注后的数据;每个所述文本数据对应的所述预设标签作为该文本数据的第一标注结果;所述第一标注结果用于表示文本数据的语义或意图的标签;
判断所述第一标注结果的准确率是否大于第一阈值;
当所述第一标注结果的准确率大于第一阈值时,基于所述第一数据集中每个文本数据对应的所述第一标注结果,对所述第一数据集中的文本数据进行数据扩充,得到第二数据集;其中在所述第二数据集中,针对每个所述第一标注结果,该第一标注结果对应的文本数据的数量与其他所述第一标注结果对应的文本数据的数量之间的差值小于预设差值;
针对所述第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将所述目标词语确定为该文本数据的第二标注结果;
判断所述第二标注结果的准确率是否大于第二阈值;
当所述第二标注结果的准确率大于第二阈值时,针对所述第二数据集中的每个文本数据,将该文本数据对应的所述第一标注结果和所述第二标注结果的树状关系确定为该文本数据的目标标注结果。
2.根据权利要求1所述的数据标注方法,其特征在于,所述获取第一数据集之前,还包括:
获取至少一个待标注文本数据;
对所述待标注文本数据进行预处理;其中,所述预处理包括数据清洗、数据去重、数据标准化和缺失值补充中的至少一种。
3.根据权利要求1或2所述的数据标注方法,其特征在于,所述获取第一数据集之前,还包括:
将获取到的待标注文本数据发送到数据标注平台中,对每个所述待标注文本数据进行第一数据标注;其中在所述数据标注平台中,针对每个所述待标注文本数据,基于该待标注文本数据的语义,当预设标签集合中存在与该待标注文本数据的语义相同的所述预设标签时,从所述预设标签集合中匹配出与该待标注文本数据的语义相同的所述预设标签,将该预设标签作为该待标注文本数据的预设标签;当所述预设标签集合中不存在与该待标注文本数据的语义相同的所述预设标签时,则将该待标注文本数据删除。
4.根据权利要求1所述的数据标注方法,其特征在于,所述判断所述第一标注结果的准确率是否大于第一阈值,包括:
将所述第一数据集中的文本数据输入到数据标注模型中,对每个所述文本数据进行第二数据标注;其中在所述数据标注模型中,针对所述第一数据集中的每个文本数据,基于该文本数据的语义,从预设标签集合中匹配出与该文本数据的语义相同的所述预设标签,将该预设标签作为该文本数据的第三标注结果;
针对所述第一数据集中的每个文本数据,基于该文本数据对应的所述第一标注结果和所述第三标注结果,从所述第一数据集中筛选出所述第一标注结果和所述第三标注结果不同的所述文本数据,作为第三数据集;
针对所述第三数据集中的每个文本数据,基于该文本数据对应的所述第一标注结果和所述第三标注结果,确定所述第三数据集中的文本数据的所述第一标注结果的准确率;
当所述第一标注结果的准确率不大于第一阈值时,再次执行获取第一数据集。
5.根据权利要求1所述的数据标注方法,其特征在于,所述当所述第一标注结果的准确率大于第一阈值时,基于所述第一数据集中每个文本数据对应的所述第一标注结果,对所述第一数据集中的文本数据进行数据扩充,得到第二数据集,包括:
基于所述第一数据集中每个文本数据对应的所述第一标注结果,计算每个所述第一标注结果对应的所述文本数据的数量;
针对每个所述第一标注结果,计算该第一标注结果对应的所述文本数据的数量与除该第一标注结果之外的其他所述第一标注结果对应的所述文本数据的数量之间的差值;
判断所述差值是否小于预设差值;
当所述差值不小于预设差值时,基于所述差值,对所述第一数据集中的文本数据进行数据扩充,直至所述差值小于所述预设差值时结束数据扩充,并将数据扩充后的第一数据集确定为所述第二数据集;
当所述差值小于预设差值时,将所述第一数据集确定为所述第二数据集。
6.根据权利要求1所述的数据标注方法,其特征在于,所述针对所述第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将所述目标词语确定为该文本数据的第二标注结果,包括:
针对所述第二数据集中的每个文本数据,判断该文本数据中是否存在与所述预设的维护词表中的关键词相同的目标词语;
针对所述第二数据集中的每个文本数据,当该文本数据中存在与所述预设的维护词表中的关键词相同的目标词语时,则从该文本数据中提取出与所述预设的维护词表中的关键词相同的目标词语,并将所述目标词语确定为该文本数据的第二标注结果;
针对所述第二数据集中的每个文本数据,当该文本数据中不存在与所述预设的维护词表中的关键词相同的目标词语时,则将该文本数据从所述第二数据集中删除。
7.根据权利要求1所述的数据标注方法,其特征在于,所述当所述第二标注结果的准确率大于第二阈值时,针对所述第二数据集中的每个所述文本数据,将该文本数据对应的所述第一标注结果和所述第二标注结果的树状关系确定为该文本数据的目标标注结果之后,还包括:
将第四数据集按照预设比例划分为训练集、测试集和验证集,确定为待训练模型的训练样本;其中,所述第四数据集中包括所述第二数据集中的文本数据以及所述文本数据的目标标注结果;
使用所述训练样本对所述待训练模型进行训练。
8.一种数据标注装置,其特征在于,包括:
第一获取模块,用于获取第一数据集;其中,所述第一数据集中包括至少一个文本数据,所述文本数据是使用预设标签进行标注后的数据;每个所述文本数据对应的所述预设标签作为该文本数据的第一标注结果;所述第一标注结果用于表示文本数据的语义或意图的标签;
第一判断模块,用于判断所述第一标注结果的准确率是否大于第一阈值;
数据扩充模块,用于当所述第一标注结果的准确率大于第一阈值时,基于所述第一数据集中每个文本数据对应的所述第一标注结果,对所述第一数据集中的文本数据进行数据扩充,得到第二数据集;其中在所述第二数据集中,针对每个所述第一标注结果,该第一标注结果对应的文本数据的数量与其他所述第一标注结果对应的文本数据的数量之间的差值小于预设差值;
提取模块,用于针对所述第二数据集中的每个文本数据,从该文本数据中提取出与预设的维护词表中的关键词相同的目标词语,将所述目标词语确定为该文本数据的第二标注结果;
第二判断模块,用于判断所述第二标注结果的准确率是否大于第二阈值;
确定模块,用于当所述第二标注结果的准确率大于第二阈值时,针对所述第二数据集中的每个文本数据,将该文本数据对应的所述第一标注结果和所述第二标注结果的树状关系确定为该文本数据的目标标注结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的数据标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的数据标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647704.8A CN113239205B (zh) | 2021-06-10 | 2021-06-10 | 数据标注方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647704.8A CN113239205B (zh) | 2021-06-10 | 2021-06-10 | 数据标注方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239205A CN113239205A (zh) | 2021-08-10 |
CN113239205B true CN113239205B (zh) | 2023-09-01 |
Family
ID=77139515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110647704.8A Active CN113239205B (zh) | 2021-06-10 | 2021-06-10 | 数据标注方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239205B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN108960409A (zh) * | 2018-06-13 | 2018-12-07 | 南昌黑鲨科技有限公司 | 标注数据生成方法、设备及计算机可读存储介质 |
CN109902271A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 基于迁移学习的文本数据标注方法、装置、终端及介质 |
CN110705225A (zh) * | 2019-08-15 | 2020-01-17 | 平安信托有限责任公司 | 一种合同标注方法及装置 |
CN110909164A (zh) * | 2019-11-22 | 2020-03-24 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
CN110910175A (zh) * | 2019-11-26 | 2020-03-24 | 上海景域文化传播股份有限公司 | 一种旅游门票产品画像生成方法 |
EP3683734A1 (en) * | 2019-01-17 | 2020-07-22 | Fujitsu Limited | Learning method, learning program, and learning apparatus |
CN111506732A (zh) * | 2020-04-20 | 2020-08-07 | 北京中科凡语科技有限公司 | 一种文本多层次标签分类方法 |
CN111539443A (zh) * | 2020-01-22 | 2020-08-14 | 北京小米松果电子有限公司 | 一种图像识别模型训练方法及装置、存储介质 |
CN112200772A (zh) * | 2020-09-15 | 2021-01-08 | 深圳数联天下智能科技有限公司 | 痘痘检测设备 |
CN112651238A (zh) * | 2020-12-28 | 2021-04-13 | 深圳壹账通智能科技有限公司 | 训练语料扩充方法及装置、意图识别模型训练方法及装置 |
CN112784905A (zh) * | 2021-01-26 | 2021-05-11 | 北京嘀嘀无限科技发展有限公司 | 数据样本扩充的方法、装置和电子设备 |
CN112784911A (zh) * | 2021-01-29 | 2021-05-11 | 北京百度网讯科技有限公司 | 训练样本的生成方法、装置、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200342172A1 (en) * | 2019-04-26 | 2020-10-29 | Wangsu Science & Technology Co., Ltd. | Method and apparatus for tagging text based on adversarial learning |
-
2021
- 2021-06-10 CN CN202110647704.8A patent/CN113239205B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN108960409A (zh) * | 2018-06-13 | 2018-12-07 | 南昌黑鲨科技有限公司 | 标注数据生成方法、设备及计算机可读存储介质 |
EP3683734A1 (en) * | 2019-01-17 | 2020-07-22 | Fujitsu Limited | Learning method, learning program, and learning apparatus |
CN109902271A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 基于迁移学习的文本数据标注方法、装置、终端及介质 |
CN110705225A (zh) * | 2019-08-15 | 2020-01-17 | 平安信托有限责任公司 | 一种合同标注方法及装置 |
CN110909164A (zh) * | 2019-11-22 | 2020-03-24 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
CN110910175A (zh) * | 2019-11-26 | 2020-03-24 | 上海景域文化传播股份有限公司 | 一种旅游门票产品画像生成方法 |
CN111539443A (zh) * | 2020-01-22 | 2020-08-14 | 北京小米松果电子有限公司 | 一种图像识别模型训练方法及装置、存储介质 |
CN111506732A (zh) * | 2020-04-20 | 2020-08-07 | 北京中科凡语科技有限公司 | 一种文本多层次标签分类方法 |
CN112200772A (zh) * | 2020-09-15 | 2021-01-08 | 深圳数联天下智能科技有限公司 | 痘痘检测设备 |
CN112651238A (zh) * | 2020-12-28 | 2021-04-13 | 深圳壹账通智能科技有限公司 | 训练语料扩充方法及装置、意图识别模型训练方法及装置 |
CN112784905A (zh) * | 2021-01-26 | 2021-05-11 | 北京嘀嘀无限科技发展有限公司 | 数据样本扩充的方法、装置和电子设备 |
CN112784911A (zh) * | 2021-01-29 | 2021-05-11 | 北京百度网讯科技有限公司 | 训练样本的生成方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113239205A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256074B (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
CN110597964B (zh) | 一种双录质检语义分析方法、装置及双录质检系统 | |
CN111651996B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN110704633A (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
US20160379091A1 (en) | Training a classifier algorithm used for automatically generating tags to be applied to images | |
CN104503998B (zh) | 针对用户查询句的类型识别方法及装置 | |
CN113449099B (zh) | 文本分类方法和文本分类设备 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN111831920A (zh) | 用户需求分析方法、装置、计算机设备及存储介质 | |
CN112951233A (zh) | 语音问答方法、装置、电子设备及可读存储介质 | |
CN107704869B (zh) | 一种语料数据抽样方法及模型训练方法 | |
CN114969387A (zh) | 文献作者信息消歧方法、装置及电子设备 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN111783424B (zh) | 一种文本分句方法和装置 | |
CN113239205B (zh) | 数据标注方法、装置、电子设备及计算机可读存储介质 | |
CN113705164A (zh) | 一种文本处理方法、装置、计算机设备以及可读存储介质 | |
CN110852082B (zh) | 同义词的确定方法及装置 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN114996360B (zh) | 数据分析方法、系统、可读存储介质及计算机设备 | |
CN114283429A (zh) | 素材工单数据处理方法、装置、设备及存储介质 | |
CN112101019A (zh) | 一种基于词性标注和组块分析的需求模板符合性检查优化方法 | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 | |
CN111652229B (zh) | 一种信息输入方法、装置、电子设备及存储介质 | |
CN112487211B (zh) | 一种轨道交通知识库构建方法及系统 | |
CN117707922A (zh) | 测试用例的生成方法、装置、终端设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |