CN111859854A - 一种数据标注方法、装置、设备及计算机可读存储介质 - Google Patents

一种数据标注方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111859854A
CN111859854A CN202010532091.9A CN202010532091A CN111859854A CN 111859854 A CN111859854 A CN 111859854A CN 202010532091 A CN202010532091 A CN 202010532091A CN 111859854 A CN111859854 A CN 111859854A
Authority
CN
China
Prior art keywords
labeling
machine learning
data
text
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010532091.9A
Other languages
English (en)
Inventor
兰星
陈伟
谢佳雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202010532091.9A priority Critical patent/CN111859854A/zh
Publication of CN111859854A publication Critical patent/CN111859854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据标注方法、装置、设备及计算机可读存储介质。本公开通过一个或多个机器学习模型对待标注的文本数据进行数据标注,得到该文本数据对应的第一标注结果后,将该文本数据对应的第一标注结果展示输出到标注界面上,以便标注员对该第一标注结果进行补充、修改等处理从而得到更完整、更准确的第二标注结果,由于标注员不需要手动标注出文本数据中每个标签对应的文本序列,而是在机器学习模型对该文本数据进行预标注后输出的第一标注结果的基础上进行数据标注,从而节省了标注员的工作量,提高了数据标注的效率。

Description

一种数据标注方法、装置、设备及计算机可读存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据标注方法、装置、设备及计算机可读存储介质。
背景技术
现有技术中的数据标注过程大部分是由标注员人工来完成的。例如,在对文本数据进行数据标注的过程中,标注员需要阅读待标注的文本数据,并根据预先确定的一个或多个需标注的标签,在该文本数据中确定出与每个标签对应的文本序列。
由此可见,通过标注员人工对文本数据进行数据标注,导致数据标注的效率较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种数据标注方法、装置、设备及计算机可读存储介质,以节省标注员的工作量,提高数据标注的效率。
第一方面,本公开实施例提供一种数据标注方法,包括:
获取待标注的文本数据;
通过一个或多个机器学习模型对所述文本数据进行数据标注,得到所述文本数据对应的第一标注结果,所述第一标注结果包括一个或多个需标注的标签中部分标签或全部标签对应的第一文本序列;
在标注界面上展示输出所述文本数据对应的第一标注结果,以供用户在标注界面上对所述第一标注结果进行处理;
响应于用户对所述第一标注结果的处理操作,确定所述文本数据对应的第二标注结果,所述第二标注结果包括所述一个或多个需标注的标签中每个标签对应的第二文本序列。
第二方面,本公开实施例提供一种数据标注装置,包括:
机器预标注模块,用于获取待标注的文本数据;通过一个或多个机器学习模型对所述文本数据进行数据标注,得到所述文本数据对应的第一标注结果,所述第一标注结果包括一个或多个需标注的标签中部分标签或全部标签对应的第一文本序列;
数据标注模块,用于在标注界面上展示输出所述文本数据对应的第一标注结果,以供用户在标注界面上对所述第一标注结果进行处理;响应于用户对所述第一标注结果的处理操作,确定所述文本数据对应的第二标注结果,所述第二标注结果包括所述一个或多个需标注的标签中每个标签对应的第二文本序列。
第三方面,本公开实施例提供一种数据标注设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
本公开实施例提供的数据标注方法、装置、设备及计算机可读存储介质,通过一个或多个机器学习模型对待标注的文本数据进行数据标注,得到该文本数据对应的第一标注结果后,将该文本数据对应的第一标注结果展示输出到标注界面上,以便标注员对该第一标注结果进行补充、修改等处理从而得到更完整、更准确的第二标注结果,由于标注员不需要手动标注出文本数据中每个标签对应的文本序列,而是在机器学习模型对该文本数据进行预标注后输出的第一标注结果的基础上进行数据标注,从而节省了标注员的工作量,提高了数据标注的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的数据标注方法流程图;
图2为本公开实施例提供的一种文本标注系统的示意图;
图3为本公开实施例提供的另一种文本标注系统的示意图;
图4为本公开实施例提供的一种应用场景的示意图;
图5为本公开实施例提供的一种应用场景的示意图;
图6为本公开实施例提供的另一种应用场景的示意图;
图7为本公开实施例提供的另一种应用场景的示意图;
图8为本公开另一实施例提供的数据标注方法流程图;
图9为本公开实施例提供的另一种应用场景的示意图;
图10为本公开另一实施例提供的数据标注方法流程图;
图11为本公开实施例提供的另一种应用场景的示意图;
图12为本公开实施例提供的另一种应用场景的示意图;
图13为本公开另一实施例提供的数据标注方法流程图;
图14为本公开又一实施例提供的数据标注方法流程图;
图15为本公开实施例提供的标注界面的示意图;
图16为本公开另一实施例提供的标注界面的示意图;
图17为本公开又一实施例提供的数据标注方法流程图;
图18为本公开实施例提供的数据标注设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
通常情况下,数据标注过程大部分是由标注员人工来完成的。例如,在对文本数据进行数据标注的过程中,标注员需要阅读待标注的文本数据,并根据预先确定的一个或多个需标注的标签,在该文本数据中确定出与每个标签对应的字符序列。由此可见,通过标注员人工对文本数据进行数据标注,导致数据标注的效率较低。针对该问题,本公开实施例提供了一种数据标注方法,所谓的数据标注是指:根据具体的任务需要,在原始数据中找到并标注正确信息的过程,其中的原始数据可以是文本数据、图像数据、视频数据、音频数据等,本实施例以文本数据为例进行示意性说明。该数据标注方法具体可能会涉及到自然语言处理、机器学习建模、知识预测、预测结果融合等。
具体的,自然语言处理(Natural Language Processing,NLP)具体可以是用机器来理解并处理人类语言范畴中的各类问题,其中,人类使用的语言可以统称为自然语言。
机器学习建模具体可以是:采用算法解释分析数据,训练机器学习模拟人类的思考过程,并将训练成果抽象为可复用的数学模型。
知识预测具体可以是:利用训练得到的模型,以原始文本为输入,预测得到各类所需标签类型下的文本序列(知识)。
预测结果融合具体可以是:同一篇文本输入不同的模型后可以得到若干份不同的预测结果,通过特定的评分算法,为用户展示计算得到的最正确的结果。
下面结合具体的实施例对该数据标注方法进行介绍。图1为本公开实施例提供的数据标注方法流程图。该方法具体步骤如下:
S101、获取待标注的文本数据。
本公开实施例所述的数据标注方法可以由文本标注系统来执行,该文本标注系统可以包括多个模块,如图2所示,该文本标注系统包括:机器预标注模块、预标注融合模块、数据标注模块、专用模型训练模块、模型选择模块。可以理解的是,该文本标注系统包括的多个模块是一种逻辑功能上的划分,本公开实施例并不限定该文本标注系统的内部结构。另外,该文本标注系统不限于包括机器预标注模块、预标注融合模块、数据标注模块、专用模型训练模块、模型选择模块,例如,还可以包括如图3所示的行为检测模块、智能错误修正模块。
如图2所示,机器预标注模块可以获取待标注的文本数据,并将待标注的文本数据输入给一个或多个机器学习模型。具体的,该待标注的文本数据具体可以是一个或多个文本语料,其中,一个文本语料可以看作是一篇文章,本公开实施例并不限定一篇文章包括的段落个数和字符数。
S102、通过一个或多个机器学习模型对所述文本数据进行数据标注,得到所述文本数据对应的第一标注结果,所述第一标注结果包括一个或多个需标注的标签中部分标签或全部标签对应的第一文本序列。
当待标注的文本数据输入到一个或多个机器学习模型时,该一个或多个机器学习模型可以对该待标注的文本数据进行数据标注。在本公开实施例中,为了将机器学习模型执行的数据标注与标注员执行的数据标注区分开,可以将机器学习模型执行的数据标注记为预标注。
其中,每个机器学习模型对该待标注的文本数据进行预标注后可输出第一标注结果,也就是说,第一标注结果是机器学习模型预标注的结果,该第一标注结果并不是正式的数据标注结果或最终的数据标注结果。但是,该第一标注结果可以辅助标注员即用户进行数据标注。标注员对该第一标注结果进行确认、修改、删除、补充标记等处理后得到的第二标注结果可作为正式的数据标注结果或最终的数据标注结果。
具体的,该第一标注结果包括一个或多个需标注的标签,以及每个标签对应的第一文本序列。其中,该一个或多个需标注的标签可以是预先设定的。例如,该文本标注系统接收到的标注任务中包括一个或多个需标注的标签,该一个或多个需标注的标签也可称为待标注的标签。此处以多个标签为例。例如,该多个标签具体包括“成立时间”、“从事领域”、“公司地址”、“公司法人”、“公司名称”、“业务类型”、“注册金额”。也就是说,该标注任务可使得该文本标注系统在该文本数据中标注出分别属于“成立时间”、“从事领域”、“公司地址”、“公司法人”、“公司名称”、“业务类型”、“注册金额”的文本序列。其中,一个标签可以作为一个类别。可以理解的是,此处的几个标签只是示意性说明,可以不限于这几个标签。
如图4所示为某一个机器学习模型对某一篇文章进行预标注后的预测结果,该预测结果记为第一标注结果。该机器学习模型可以支持该多个标签,例如,“成立时间”、“从事领域”、“公司地址”、“公司法人”、“公司名称”、“业务类型”、“注册金额”中的部分标签或全部标签。此处,以该机器学习模型支持部分标签为例进行示意性说明。例如,该机器学习模型可以支持“公司地址”、“公司法人”、“公司名称”这3个标签,也就是说,该机器学习模型可以识别出该篇文章中分别属于“公司地址”、“公司法人”、“公司名称”的文本序列。例如,框451、框452、框453、框454、框455中的文本序列是“公司名称”这个标签对应的文本序列,即框451、框452、框453、框454、框455中的文本序列对应的类别名称为“公司名称”。框431和框432中的文本序列是“公司地址”这个标签对应的文本序列。框441中的文本序列是“公司法人”这个标签对应的文本序列。其中,框451、框452、框453、框454、框455、框431、框432和框441中的文本序列可以分别记为第一文本序列。在本公开实施例中,并不限定标签与文本序列之间对应关系的表现形式。在一种可能的表现形式中,“公司名称”的颜色、以及框451、框452、框453、框454、框455中的文本序列的颜色保持一致。“公司法人”的颜色和框441中的文本序列的颜色保持一致。“公司地址”的颜色、以及框431和框432中的文本序列的颜色保持一致。另外,不同的标签可以对应不同的颜色,从而可以将不同标签对应的文本序列区分开来。
如图4所示,该机器学习模型对该篇文章进行预标注后得到的第一标注结果包括该机器学习模型支持的标签对应的第一文本序列,该机器学习模型支持的标签可以是标注任务中包括一个或多个需标注的标签中的部分标签或全部标签。具体的,在一些实施例中,该第一标注结果可以包括该机器学习模型支持的标签、以及该机器学习模型支持的标签对应的第一文本序列。在另外一些实施例中,该第一标注结果可以包括该标注任务中包括一个或多个需标注的标签(例如,标签41-标签47)、以及该机器学习模型支持的标签对应的第一文本序列。
可以理解的是,该篇文章输入给一个机器学习模型,则该机器学习模型输出的第一标注结果如图4所示。如果该篇文章输入给多个机器学习模型,由于不同机器学习模型所支持的标签个数和/或标签名称可能是不同,从而导致每个机器学习模型输出的预测结果可能是不同的,在这种情况下,可以将每个机器学习模型输出的预测结果进行融合处理,该融合处理具体可以是由如图2或图 3所示的预标注融合模块来执行,从而得到该篇文章对应的第一标注结果。如果上述所述的待标注的文本数据包括多篇文章,则每篇文章可对应有一个第一标注结果,确定每篇文章对应的第一标注结果的过程和原理类似,此处不再赘述。
S103、在标注界面上展示输出所述文本数据对应的第一标注结果,以供用户在标注界面上对所述第一标注结果进行处理。
例如,当该机器学习模型对该篇文章进行预标注,得到第一标注结果后,数据标注模块可以将该篇文章对应的第一标注结果展示输出到标注界面上,该标注界面例如可以是标注员的标注界面。从而使得标注员即用户可以在该标注界面上对该篇文章对应的第一标注结果进行处理。本公开实施例并不限定该篇文章对应的第一标注结果的展示方式。可以理解的是,标注界面的展示形式包括但不限于文本展示、列表展示、图展示等。另外,标注员在该标注界面上的操作方式包括但不限于点击操作,滑动操作,拖拽操作等。
在一种可能的实现方式中,数据标注模块可以将如图4所示的该篇文章、待标注的多个标签(例如,标签41-标签47)、该机器学习模型支持的标签对应的第一文本序列展示在标注界面中。
在另一种可能的实现方式中,如图5所示,数据标注模块可以将该机器学习模型支持的标签、以及该机器学习模型支持的标签对应的第一文本序列展示在标注界面中。
可以理解的是,如图4或图5所示的展示方式只是示意性说明,并不做具体限定。
S104、响应于用户对所述第一标注结果的处理操作,确定所述文本数据对应的第二标注结果,所述第二标注结果包括所述一个或多个需标注的标签中每个标签对应的第二文本序列。
具体的,标注员可以在该标注界面上对该篇文章对应的第一标注结果进行处理。也就是说,机器学习模型输出的第一标注结果,可以是标注员进行数据标注的对象。
本公开实施例并不限定标注员对该第一标注结果的处理操作,下面介绍几种可能的处理操作。
例如,标注任务中包括多个标签,当该第一标注结果只包括该多个标签中部分标签对应的文本序列时,标注员可以将剩余标签对应的文本序列标注出来,即标注员可以对机器学习模型未标记出的标签进行补充标记。和/或,如果该第一标注结果包括的某一标签对应的文本序列并不属于该标签时,标注员可以删除该文本序列,或者标注员可以重新确定该文本序列所属的标签,并建立该文本序列和重新确定的标签之间的对应关系。和/或,如果该第一标注结果包括的某一标签对应的文本序列是正确的,该标注员可以对该文本序列进行确认操作。和/或,如果该第一标注结果包括的某一标签对应的文本序列是部分正确的,该标注员可以在原有基础上对该文本序列进行修改操作。也就是说,标注员对某一篇文章的第一标注结果进行处理操作,是为了确定出该篇文章的第二标注结果,该第二标注结果包括需要标注的一个或多个需标注的标签中每个标签对应的第二文本序列,即第二标注结果是经过标注员对第一标注结果进行确认、修改、删除、补充标记等处理后的结果,该第二标注结果可作为正式的数据标注结果或最终的数据标记结果,第二标注结果可以比第一标注结果更完整、更准确。如果机器学习模型的标注精度接近于标注员的标注精度时,该第二标注结果和该第一标注结果可以是相同的。
本公开实施例通过一个或多个机器学习模型对待标注的文本数据进行数据标注,得到该文本数据对应的第一标注结果后,将该文本数据对应的第一标注结果展示输出到标注界面上,以便标注员对该第一标注结果进行补充、修改等处理从而得到更完整、更准确的第二标注结果,由于标注员不需要手动标注出文本数据中每个标签对应的文本序列,而是在机器学习模型对该文本数据进行预标注后输出的第一标注结果的基础上进行数据标注,从而节省了标注员的工作量,提高了数据标注的效率。
在上述实施例的基础上,所述用户对所述第一标注结果的处理操作包括如下至少一种:对所述第一标注结果中的部分已标注项进行确认标注的操作;对所述第一标注结果中的部分已标注项进行删除标注的操作;对所述第一标注结果中的部分已标注项进行修改标注的操作;对所述第一标注结果中的部分未标注标签但已选中示意的项进行添加标注的操作;对所述文件数据中的未包含到第一标注结果中的需要标注的项进行标注处理。
例如,如果标注员确定该第一标注结果中的部分已标注项是正确的,则进行确认标注的操作。本实施例并不限定具体的确认标注的操作。一种可能的实现方式是,如图6所示,如果该标注员确定“A信息技术有限公司”属于“公司名称”,则该标注员可以在该标注界面中选中“A信息技术有限公司”,并点击鼠标右键,在点击鼠标右键后出现的选项中选择“确认”选项。另一种可能的实现方式是,如图5所示,该标注员在“A信息技术有限公司”和“公司名称”的对应关系后点击“对勾”。也就是说,标注员只需对机器学习模型的第一标注结果判断对错即可,标注员无需反复在文本数据中对文本序列进行标注,进一步提高了数据标注的效率。
如果标注员确定该第一标注结果中的部分已标注项是错误的,则进行删除标注的操作。本实施例并不限定具体的删除标注的操作。一种可能的实现方式是,例如,该标注员确定“A”不属于“公司名称”,则该标注员可以采用类似于如图6所示的方式选择“取消”选项,从而删除已标注的“A”。另一种可能的实现方式是,如图5所示,该标注员在“A”和“公司名称”的对应关系后点击“错号”。也就是说,标注员只需对机器学习模型的第一标注结果判断对错即可,标注员无需反复在文本数据中对文本序列进行标注,进一步提高了数据标注的效率。
另外,该标注员还可以对第一标注结果中的部分已标注项进行修改标注的操作。例如图5或图6所示,第一标注结果中的部分已标注项包括“美XX网站”和“公司名称”之间的对应关系。如果该标注员确定该对应关系不正确,可以对该对应关系进行修改,具体的修改操作此处并不具体限定。例如,在图5 中,该标注员可以将“美XX网站”对应的标签修改为“从事领域”。或者,在图 6中,该标注员可以先选中“从事领域”这个标签,再滑动鼠标选中“美XX网站”,从而增加“美XX网站”和“从事领域”之间的对应关系。可见,通过标注员的修改操作,可以提高数据标注的准确性。
在一些应用场景中,可能会存在多个机器学习模型对同一篇文章进行预标注,此时,不同机器学习模型针对同一标签确定出的文本序列可能有所不同。例如,以图7所示的该篇文章为例,机器学习模型A识别出的标签“公司名称”对应的文本序列包括“B公司”、“C公司”、“D公司”、“E公司”、“G公司”、“H 公司”,机器学习模型B识别出的标签“公司名称”对应的文本序列包括“B公司”、“C公司”、“G公司”、“H公司”。将机器学习模型A识别出的“公司名称”对应的文本序列和机器学习模型B识别出的“公司名称”对应的文本序列进行融合处理后,如果“D公司”和“E公司”未被确认为属于“公司名称”,则“D公司”和“E公司”也可以呈现在标注界面中,例如,“D公司”和“E公司”可以以虚线框的形式显示在该标注界面中,此处并不对“D公司”和“E公司”的显示形式进行限定,虚线框只是一种区别性的显示形式。而被确认属于“公司名称”的“B 公司”、“C公司”、“G公司”、“H公司”和标签“公司名称”以相同的展示形式,例如相同的灰度显示在该标注界面中。若该标注员确定“D公司”和“E公司”属于“公司名称”,则该标注员可以先点击“公司名称”这个标签,再点击“D公司”和“E公司”对应的虚线框区域,从而增加“D公司”和“公司名称”的对应关系、以及增加“E公司”和“公司名称”的对应关系。进一步,“D公司”和“E公司”的虚线框可以变成与“公司名称”相同的灰度进行展示。因此,通过将机器学习模型识别出的且没有被标注出来的文本序列区别性的显示在标注界面中,可使得标注员无需重新查找每个标签可能存在的未被标注出的文本序列,提高了标注员的标注效率。另外,标注员无需对该未被标注出来的文本序列进行从头到尾的滑动鼠标勾选,只要点击该文本序列所属的标签、以及该文本序列区别性显示的区域即可增加一条标注结果,从而提高了标注员对文本序列进行标注的便捷性。
在另一些应用场景中,机器学习模型标注出的某一标签对应的文本序列可能不够完整,例如,图7所示的该篇文章中,文本序列“H公司”之后的“E公司”、“I公司”、“B公司”也属于“公司名称”,但是,机器学习模型并没有将“E公司”、“I公司”、“B公司”预标注出来。在这种情况下,标注员可以先点击“公司名称”这个标签,再在该篇文章中“E公司”、“I公司”、“B公司”所在的位置上滑动鼠标、依次勾选“E公司”、“I公司”、“B公司”这几个文本序列,从而标注出“E 公司”、“I公司”、“B公司”,以增加“公司名称”对应的文本序列。从而使得每个标签对应的文本序列更加完整,提高了第二标注结果的准确性和完整性。
在上述实施例的基础上,所述方法还包括:响应于所述用户对所述标签对应的快捷方式的操作,对所述标签进行选中处理。
具体的,每个标签可对应有一个快捷方式,本实施例并不限定具体的快捷方式,例如,可以是快捷键。当标注员在选择标签时,标注员只需对该标签对应的快捷键进行操作,即可选中该标签。例如图6所示,当标注员按下键盘中的“1”时,“成立时间”标签被选中。当标注员按下键盘中的“2”时,“从事领域”标签被选中,依次类推。可以理解的是,本实施例中的标签对应的快捷键并不限于键盘中“1”-“9”的快捷键,还可以根据标注员自己的喜好,自定义设置每个标签的快捷键。
本实施例通过响应于所述用户对所述标签对应的快捷方式的操作,对所述标签进行选中处理,可提高用户对标签的选中效率。
在本公开实施例中,如图2或图3所示的机器预标注模块可以调用一个机器学习模型,也可以调用多个机器学习模型。例如,结合图2所示的文本标注系统,该数据标注方法可包括如下几个步骤:
步骤1、标注员在待标注的文本数据上开始一个标注任务,在标注工作开始之前,可以选择接入该文本标注系统的预置的机器学习模型,该预置的机器学习模型可以是预置的通用模型。
步骤2、机器预标注模块调用该预置的机器学习模型,并通过该预置的机器学习模型对该待标注的文本数据进行预标注,得到预标注结果,例如,第一标注结果。进一步,机器预标注模块将该第一标注结果发送给数据标注模块。
步骤3、数据标注模块将该第一标注结果展示在该数据标注模块的前端页面即标注界面,辅助标注员在该标注界面上进行标注数据,即对第一标注结果进行处理操作,得到文本数据对应的第二标注结果。具体的处理操作如上实施例所述,此处不再赘述。
步骤4、当第二标注结果的个数大于或等于预设个数时,该数据标注模块可以将大于或等于预设个数的第二标注结果发送给专用模型训练模块,该专用模型训练模块可将大于或等于预设个数的第二标注结果作为训练样本,并采用多种机器学习算法在该训练样本的基础上训练出一个或多个机器学习模型。具体的,由专用模型训练模块训练出的机器学习模型可记为专用模型。随着第二标注结果个数的不断增加,该专用模型训练模块可不断接收到新的样本,并对该一个或多个机器学习模型进行迭代训练,持续优化得到性能更好的模型。具体的,一种机器学习算法可训练出不止一个机器学习模型,在每次迭代优化的过程中,可以选取每种机器学习算法下性能表现最好的那个机器学习模型作为该专用模型训练模块最终训练出的一个或多个机器学习模型中的一个。
步骤5、模型选择模块可以从该多个机器学习模型中选择出可以供机器预标注模块调用的机器学习模型。具体的,模型选择模块可以计算专用模型训练模块训练出的多个机器学习模型中每个机器学习模型的性能指标,并将性能指标达标的机器学习模型作为机器预标注模块可以调用的机器学习模型。
步骤6、机器预标注模块调用多个机器学习模型,该多个机器学习模型可以是专用模型训练模块训练出的模型,也可以是通用预置模型。机器预标注模块可以将待标注的文本数据分别输入给多个机器学习模型,多个机器学习模型分别对该待标注的文本数据进行预标注后,预标注融合模块可以将多个机器学习模型分别输出的预测结果进行融合处理,并将融合处理后的标注结果输入到数据标注模块。
步骤7、标注员在数据标注模块的前端页面即标注界面中可以看到最新的预标注结果即融合处理后的标注结果。此时,标注员可以参照步骤3中的处理操作对该标注结果进行处理。随着标注工作的继续进行,可以循环迭代步骤3- 步骤7,直到专用模型训练模块训练出的模型的性能收敛,或者标注员完成了标注任务。
可以理解的是,在每次循环迭代的过程中,该待标注的文本数据可以是固定的,例如,该待标注的文本数据包括100篇文章,每次迭代后的模型都会在这100篇文章上进行预标注得到第一标注结果。
在一种可能的实现方式中,所述通过一个或多个机器学习模型对所述文本数据进行数据标注,得到所述文本数据对应的第一标注结果,包括如图8所示的如下几个步骤:
S801、通过预置的机器学习模型对所述文本数据进行数据标注,得到所述文本数据中与预设标签对应的第三文本序列,所述预设标签为所述预置的机器学习模型所支持的标签。
例如,在标注工作开始之前,机器预标注模块可调用预置的机器学习模型。该预置的机器学习模型可以是预置的通用模型。由于该通用模型所支持的标签和当前标注任务中包括的多个标签可能不一致,因此,可以先建立该通用模型所支持的标签和当前标注任务中包括的多个标签之间的对应关系。例如,该通用模型所支持的标签包括:“人”、“公司”、“地址”。当前标注任务中包括的多个标签包括“成立时间”、“从事领域”、“公司地址”、“公司法人”、“公司名称”、“业务类型”、“注册金额”。在本实施例中,可以将该通用模型所支持的标签记为预设标签。该预设标签与该标注任务中的多个标签的对应关系如下表1所示:
表1
该标注任务中的标签 预设标签
公司名称 公司
公司法人
公司地址 地址
可以理解的是,通用模型支持的标签不限于“人”、“公司”、“地址”、“时间”、“金额”等。
例如,通用模型对如图9所示的文本数据进行标注,即标注出该文本数据中“公司”对应的文本序列、“人”对应的文本序列、“地址”对应的文本序列。例如,框451、框452、框453、框454、框455中的文本序列是“公司”对应的文本序列,框431和框432中的文本序列是“地址”对应的文本序列,框441中的文本序列是“人”对应的文本序列。也就是说,框451、框452、框453、框454、框455、框431、框432和框441中的文本序列可以与预设标签对应的第三文本序列。
S802、根据所述预设标签与所述一个或多个需标注的标签之间的对应关系、以及所述第三文本序列,确定所述文本数据对应的第一标注结果。
进一步,根据表1所示的对应关系,可确定出框451、框452、框453、框 454、框455中的文本序列是“公司名称”这个标签对应的文本序列。框431和框432中的文本序列是“公司地址”这个标签对应的文本序列。框441中的文本序列是“公司法人”这个标签对应的文本序列,从而得到如图4或图5所示的第一标注结果。此时的第一标注结果包括标注任务中部分标签对应的文本序列,也就是说,该通用模型可以对该标注任务中部分标签对应的文本序列进行预标注。随着标注任务的不断进行,专用模型训练模块可训练出多个专用模型。每个性能达标的专用模型都可以通过机器预标注模块加载待标注的文本数据,并对该文本数据进行预标注。
本实施例通过预置的机器学习模型对文本数据进行数据标注,使得标注员不需要手动标注出文本数据中每个标签对应的文本序列,而是在机器学习模型对该文本数据进行预标注后输出的第一标注结果的基础上进行数据标注,从而节省了标注员的工作量,提高了数据标注的效率。
在另一种可能的实现方式中,所述通过一个或多个机器学习模型对所述文本数据进行数据标注,得到所述文本数据对应的第一标注结果,包括如图10 所示的如下几个步骤:
S1001、通过多个机器学习模型分别对所述文本数据进行数据标注,得到每个机器学习模型输出的第四标注结果,其中,每个机器学习模型输出的第四标注结果包括所述机器学习模型支持的标签对应的第四文本序列。
例如,机器预标注模块将一篇文章输入给多个专用模型,每个专用模型对该篇文章进行预标注后输出标注结果。此处,可以将专用模型输出的标注结果记为第四标注结果。每个专用模型输出的第四标注结果可包括该专用模型支持的标签对应的第四文本序列。在本实施例中,每个专用模型支持的标签包括“成立时间”、“从事领域”、“公司地址”、“公司法人”、“公司名称”、“业务类型”、“注册金额”中的至少一个。可选的,每个专用模型均支持“成立时间”、“从事领域”、“公司地址”、“公司法人”、“公司名称”、“业务类型”、“注册金额”。
下面以两个专用模型为例进行示意性说明。如图11所示为专用模型A输出的第四标注结果,如图12所示为专用模型B输出的第四标注结果。如图11 所示,在图4的基础上,框411、框412中的文本序列是“成立时间”对应的文本序列;框421、框422中的文本序列是“从事领域”对应的文本序列;框461- 框466中的文本序列是“业务类型”对应的文本序列;框471、框472中的文本序列是“注册金额”对应的文本序列。可以理解的是,在标注界面中,框可以不显示,此处只是为了说明框中的文本序列和标签之间的对应关系,即为了说明哪些文本序列是属于哪个标签。图12和图11的不同之处在于,对于“成立时间”这个标签而言,专用模型B多标出了一个文本序列例如框413中的文本序列。同理,在本实施例中,同一个标签对应的文本序列和该标签可以以相同的颜色在标注界面中呈现,不同的标签以不同的颜色进行呈现,从而使得标注员可以很直观的能够确定出哪些文本序列是属于哪个标签。
S1002、对每个机器学习模型输出的第四标注结果进行融合处理,得到所述文本数据对应的第一标注结果。
例如,对专用模型A输出的第四标注结果和专用模型B输出的第四标注结果进行融合处理,得到该篇文章对应的第一标注结果。具体的,可以将专用模型A输出的“成立时间”对应的第四文本序列和专用模型B输出的“成立时间”对应的第四文本序列进行融合处理,将专用模型A输出的“从事领域”对应的第四文本序列和专用模型B输出的“从事领域”对应的第四文本序列进行融合处理,依次类推,直到将专用模型A输出的“注册金额”对应的第四文本序列和专用模型B输出的“注册金额”对应的第四文本序列进行融合处理。
可选的,所述对每个机器学习模型输出的第四标注结果进行融合处理,包括如图13所示的如下几个步骤:
S1301、根据每个机器学习模型输出的第四标注结果,确定每个标签对应的一个或多个第四文本序列。
例如,根据图11和图12可知,框411、框412、框413中的文本序列是“成立时间”对应的文本序列,其中,框411、框412中的文本序列是专用模型A 和专用模型B都输出的文本序列,框413中的文本序列是专用模型B输出的文本序列。也就是说,对于同一个标签,可以将专用模型A输出的该标签对应的文本序列和专用模型B输出的该标签对应的文本序列构成的集合作为该标签对应的的第四文本序列。
S1302、针对每个标签,计算所述标签对应的每个第四文本序列的评分值,所述评分值与每个机器学习模型分别在所述标签下表现的性能指标、以及所述第四文本序列分别被每个机器学习模型在所述文本数据中标出的次数相关。
例如,针对同一标签,计算该标签对应的每个第四文本序列的评分值。例如,可以将该标签对应的任意一个第四文本序列记为“seq”,scoreseq表示“seq”的评分值,该scoreseq可以表示为如下公式(1)
Figure RE-GDA0002678087210000131
其中,m表示“seq”所属的标签的标识,n表示机器预标注模块调用的专用模型的个数,
Figure RE-GDA0002678087210000132
表示第k个专用模型在m所标识的标签下表现的性能指标,该性能指标具体可以是F1值。cntseq表示“seq”被当前的专用模型在该篇文章中标出的次数。
S1303、针对每个标签,将所述标签对应的评分值大于或等于第一阈值的第四文本序列作为所述标签对应的第一文本序列。
针对同一标签而言,该标签对应的每个第四文本序列的评分值可能是不同的,例如,“2012年12月18日”和“2011年”这两个文本序列是“成立时间”对应的文本序列,但是,“2012年12月18日”分别被专用模型A和专用模型 B标出的次数相同,“2011年”分别被专用模型A和专用模型B标出的次数不同。因此,“2012年12月18日”和“2011年”各自的评分值可能是不同的。
在本公开实施例中,可以将同一标签对应的多个第四文本序列中评分值大于或等于第一阈值的第四文本序列作为该标签对应的第一文本序列。该第一文本序列具体为融合处理后的该标签对应的文本序列。同理,可以得到其他标签对应的第一文本序列。例如,如果“2012年12月18日”的评分值大于或等于第一阈值,则将“2012年12月18日”作为“成立时间”的第一文本序列。
可以理解的是,本实施例是以一篇文章为例,介绍了相应的融合处理的过程,当待标注的文本数据包括多篇文章时,每篇文章经过多个专用模型预标注后,每篇文章对应的预标注结果的融合处理过程与此类似,此处不再赘述。
另外,预标注融合模块的融合粒度包括但不限于按标签分别融合、标签分组后按组融合和直接按整个数据集融合。此外,预测结果融合的算法包括但不限于上述实施例中描述的算法,还可以采用其他已有或自定义的各类评分算法、排名算法、筛选算法等。
可选的,所述第一阈值与所述一个或多个机器学习模型中的每个机器学习模型分别在所述标签下表现的性能指标相关。
例如,以如上所述的“seq”为例,在判断“seq”是否可以作为融合处理可以保留的文本序列时,需要将scoreseq与第一阈值进行比较,在本实施例中,该第一阈值可以表示为:
Figure RE-GDA0002678087210000141
其中,
Figure RE-GDA0002678087210000142
表示多个专用模型分别在m所标识的标签下表现的性能指标的总和。具体的,如果如下公式(2)成立,则“seq”可作为融合处理后可保留的文本序列。如果如下公式(3)成立,则“seq”不能作为融合处理后可保留的文本序列,但是“seq”也可以区别性的显示在标注界面上,例如上述所述的虚线框。
Figure RE-GDA0002678087210000143
Figure RE-GDA0002678087210000144
可选的,所述机器学习模型在所述标签下表现的性能指标与所述机器学习模型对所述标签进行标注的准确率和召回率相关。
以如上所述的
Figure RE-GDA0002678087210000145
为例,
Figure RE-GDA0002678087210000146
表示第k个专用模型在m所标识的标签下表现的性能指标,该
Figure RE-GDA0002678087210000147
可以表示为如下公式(4):
Figure RE-GDA0002678087210000148
其中,Precision表示第k个专用模型对m所标识的标签进行标注的准确率,Precision可以表示为如下公式(5)。Recall表示第k个专用模型对m所标识的标签进行标注的召回率,Recall可以表示为如下公式(6)。
Figure RE-GDA0002678087210000149
Figure RE-GDA0002678087210000151
本实施例通过多个机器学习模型分别对所述文本数据进行数据标注,并对多个机器学习模型分别输出的预标注结果进行融合处理,从而得到该文本数据对应的第一标注结果,提高了该第一标注结果的准确性和全面性。另外,标注员不需要手动标注出文本数据中每个标签对应的文本序列,而是在机器学习模型对该文本数据进行预标注后输出的第一标注结果的基础上进行数据标注,从而节省了标注员的工作量,提高了数据标注的效率
在上述实施例的基础上,所述响应于用户对所述第一标注结果的处理操作,确定所述文本数据对应的第二标注结果之后,所述方法还包括如图14所示的如下几个步骤:
S1401、根据所述文本数据对应的第二标注结果,对所述一个或多个机器学习模型进行模型训练。
如图2或图3所示,当第二标注结果的个数大于或等于预设个数时,该数据标注模块可以将大于或等于预设个数的第二标注结果发送给专用模型训练模块,该专用模型训练模块可将大于或等于预设个数的第二标注结果作为训练样本,建模得到多个机器学习模型。
可以理解的是,专用模型训练模块在进行模型训练时采用的机器学习算法并不限于一层或多层的卷积神经网络(Convolutional Nerual Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long-Short Term Memory,LSTM)、BERT(Bidirectional Encoder Representations from Transformers)及其衍生的各类NLP领域的算法,此外还可以包括门循环单元 (Gated Recurrent Unit,GRU)、双向长短期记忆网络(Bi-LSTM)、双向门循环单元(Bi-GRU)、XLNet等。
下面结合一个具体的例子,对专用模型训练模块训练专用模型的过程进行介绍。
例如,待标注的文本数据为“XXXXX汽车工业有限公司于2015年9月 10日在襄阳市工商行政管理局登记成立”。标注员在机器学习模型对该文本数据进行预标注的结果上进行标注,标注员输出的标注结果包括:标签“日期”、文本序列“2015年9月10日”、“2015年9月10日”在该文本数据中的索引。其中,该索引包括“2015年9月10日”在该文本数据中的起始位置索引和结束位置索引。例如,“2015年9月10日”在该文本数据中的起始位置索引可以是15,例如,“2”是第15个字符。“2015年9月10日”在该文本数据中的结束位置索引可以是24,例如,“日”是第24个字符。
该标注员输出的标注结果可作为专用模型训练模块的输入样本。当该标注员输出的标注结果到达一定数量时,专用模型训练模块可基于多种建模算法,以及根据该一定数量的标注结果开始训练专用模型。训练出的专用模型又可用于对待标注的文本数据的预标注过程,标注员又可以对专用模型输出的预标注结果进行数据标注,进一步得到用于训练专用模型的训练样本。在不断迭代训练的过程中,专用模型会不断的得到优化,从而得到最优化的专用模型。
专用模型训练模块建模的过程,具体可以是教机器学会如何在待标注的文本数据中找出标签对应的文本序列的起始位置和结束位置的过程。例如,对于训练好的专用模型而言,输入的待标注的文本数据可以是如下表2所示的第一行内容,第二行用于表示标签对应的文本序列,第三行表示标签对应的文本序列的起始位置、中间位置和结束位置,其中,B表示起始位置,M表示中间位置,E表示结束位置,O表示无需标注的位置。
表2
Figure RE-GDA0002678087210000161
S1402、针对所述一个或多个机器学习模型中的每个机器学习模型,根据所述机器学习模型分别在每个标签下表现的性能指标,确定所述机器学习模型的性能指标。
模型选择模块可以从该多个机器学习模型中选择出可以供机器预标注模块调用的机器学习模型。具体的,模型选择模块可以计算专用模型训练模块训练出的多个机器学习模型中每个机器学习模型的性能指标,并将性能指标达标的机器学习模型作为机器预标注模块可以调用的机器学习模型。具体的,由专用模型训练模块训练出的机器学习模型可记为专用模型。例如,F1k m表示第k个专用模型在m所标识的标签下表现的性能指标,由于同一个专用模型在不同的标签下表现的性能指标可能不同,因此,将第k个专用模型在标注任务中多个标签下分别表现的性能指标进行相加得到的和值作为第k个专用模型的性能指标,也就是说,该第k个专用模型的性能指标是全局F1值。从而可以得到专用模型训练模块训练出的多个专用模型中每个专用模型的性能指标。
可以理解的是,模型选择模块在选择模型时,模型的参照指标可以不限于准确率、召回率、F1指标等,还可以是Fn指标、P@N及其他自定义的评价指标。
S1403、若所述机器学习模型的性能指标大于或等于第二阈值,则确定所述机器学习模型可用于对所述文本数据进行数据标注。
例如,模型选择模块可以将专用模型训练模块训练出的多个专用模型中性能指标大于或等于第二阈值的专用模型作为机器预标注模块可以调用的机器学习模型,机器预标注模块可以调用的机器学习模型也就是可以参与预标注的机器学习模型。可选的,本实施例并不限定第二阈值的具体取值,例如,第二阈值为0.8。
可选的,性能指标大于或等于0.8的专用模型可以自动上线,在标注界面中还可以显示性能指标大于或等于0.8的专用模型。另外,本实施例还支持标注员手动修改专用模型的上线状态或下线状态。
可选的,所述方法还包括:响应于所述用户对所述机器学习模型的上线状态或下线状态的控制操作,控制所述机器学习模型上线或下线。
如图15所示,“投融资实体”、“招投标”、“医药”、“投融资”可以是专用模型的名称,“OFFLINE”、“ONLINE”可以是专用模型当前的状态,用户可以对“上线”、“下线”进行控制操作,从而控制专用模型上线或下线。
在本实施例中,由于标注员相比于机器学习模型的标注速度较低,因此,标注员每输出一个第二标注结果时,该数据标注模块即可将该第二标注结果发送给专用模型训练模块。但是,在另外一些实施例中,标注员每输出一个第二标注结果时,该数据标注模块可以先将该第二标注结果存储下来,当第二标注结果的个数大于或等于预设个数时,该数据标注模块可以将大于或等于预设个数的第二标注结果发送给专用模型训练模块。相当于专用模型训练模块中增加了多条第二标注结果,此时可以快速激发专用模型训练模块进行模型训练,进而辅助标注员后续标注。如图16所示,在标注界面上,标注员可以点击“上传标注”,从而使得该数据标注模块将多个第二标注结果发送给专用模型训练模块,进一步,可使得专用模型训练模块中已标注的结果数量(例如,2892 和2352)和比例(例如,10%)发生变化,从而更快触发模型训练过程。
本实施例通过标注员输出的第二标注结果对机器学习模型进行模型训练,并且根据机器学习模型分别在每个标签下表现的性能指标,确定所述机器学习模型的性能指标,并将性能指标大于或等于第二阈值的机器学习模型作为对所述文本数据进行预标注的模型,在不断迭代训练的过程中,机器学习模型会不断的得到优化,从而得到最优化的机器学习模型,提高了机器学习模型预标注结果的准确性。此外,响应于所述用户对所述机器学习模型的上线状态或下线状态的控制操作,控制所述机器学习模型上线或下线,可进一步提高机器学习模型的上线状态或下线状态的灵活性。
可选的,所述响应于用户对所述第一标注结果的处理操作,确定所述文本数据对应的第二标注结果,包括如图17所示的如下几个步骤:
S1701、检测所述用户对所述第一标注结果的处理操作是否为异常操作。
如图3所示,该文本标注系统还可以包括:行为检测模块和智能错误修正模块。其中,标注员在标注界面进行数据标注的过程中,行为检测模块可持续记录标注员在该标注界面中的操作,并检测该标注员在该标注界面中的操作是否为异常操作。如果行为检测模块监测到该标注员在该标注界面中的操作属于异常操作,则该行为检测模块可触发智能错误修正模块的辅助修正机制。
S1702、若所述用户对所述第一标注结果的处理操作是异常操作,则生成异常提示信息。
可选的,所述异常操作包括如下至少一种:异常截断预设文本序列、异常标注预设文本序列之外的内容、异常标注预设符号。
在一种场景中,智能错误修正模块记录了常见错误的修正方案,该智能错误修正模块可与中文分词工具连接,或者该智能错误修正模块内包括该中文分词工具。如果标注员在标注过程中可能会异常截断预设文本序列,例如,异常切断了该中文分词工具中已有的分词,则智能错误修正模块可弹出警告框,提示标注员检测当前标注文本中是否存在错误截断。
例如,待标注的文本数据为:XXXXX汽车工业有限公司于2015年9月 20日在襄阳市工商行政管理局登记成立。
标注员标注的内容为:“XXXXX汽车工业有限公”。
智能错误修正模块弹出的问题警告可以是:分词时的词语“公司”被截断。
进一步的,智能错误修正模块还可以提示修正内容:“XXXXX汽车工业有限公司”。
在另一种场景中,对于每个标签中已经标出的文本序列,该文本标注系统可以将每个标签和该标签对应的文本序列存储到一个专用字典中。如果标注员在标注过程中可能会异常标注预设文本序列之外的内容,该智能错误修正模块可弹出警告框,提示标注员是否需要将此序列标出。
例如,标注员标注的内容为:气候特征贵南县属高原大陆性气候,冬长夏短。
标注员标注的内容为:“贵南县属”。
智能错误修正模块弹出的问题警告可以是:专用字典中已经存在“贵南县”。
进一步的,智能错误修正模块还可以提示修正内容:“贵南县”。
在又一种可能的场景中,标注员在标注过程中可能会异常标注预设符号。例如,标注员在滑动鼠标时勾选了多余的空格、换行或标点时,智能错误修正模块可自动去掉标注出的文本序列两侧的空白符合和不成对的非文字字符。例如,标注员的标注内容、智能错误修正模块弹出的问题警告、以及智能错误修正模块给出的修正结果如下表3所示:
表3
Figure RE-GDA0002678087210000191
可以理解的是,智能错误修正模块可以修正的常见错误类型包括但不限于“文本序列前后存在空白符”、“文本序列前后存在标点符号”、“标签对应关系错误”、“文本序列错误截断”等。
S1703、响应于所述用户对所述异常提示信息的处理操作,确定所述文本数据对应的第二标注结果。
可选的,所述异常提示信息包括修正后的标注结果;所述响应于所述用户对所述异常提示信息的处理操作,确定所述文本数据对应的第二标注结果,包括:响应于所述用户对所述修正后的标注结果的确认操作,确定所述文本数据对应的第二标注结果为所述修正后的标注结果。
例如,当智能错误修正模块确定标注员标注的内容存在错误时,该智能错误修正模块可以自动修正并弹框提醒标注员。标注员可以对该智能错误修正模块修正后的标注结果进行确认操作,即表示接受该智能错误修正模块的修正,此时,该智能错误修正模块修正后的标注结果为最终的标注结果即第二标注结果。如果标注员不接受该智能错误修正模块的修正,可以点击弹框中的“拒绝修正”按钮,从而维持该标注员原有的标注结果。此时,该标注员原有的标注结果为最终的标注结果即第二标注结果。
本实施例通过检测所述用户对所述第一标注结果的处理操作是否为异常操作,当用户对所述第一标注结果的处理操作为异常操作时,生成异常提示信息,以便提示用户进行检查或修改标注结果。另外,该异常提示信息还可以包括修正后的标注结果,也就是说,当文本标注系统确定用户的操作为异常操作时,该系统可以自动对用户的标注结果进行修正,并将修正后的标注结果展示给用户,不仅提高了标注的准确性,还提高了用户的标注效率。
图2或图3为本公开实施例提供的数据标注装置的结构示意图。该数据标注装置具体可以是如上所述的文本标注系统。本公开实施例提供的数据标注装置可以执行数据标注方法实施例提供的处理流程,如图2或图3所示,数据标注装置包括:
机器预标注模块,用于获取待标注的文本数据;通过一个或多个机器学习模型对所述文本数据进行数据标注,得到所述文本数据对应的第一标注结果,所述第一标注结果包括一个或多个需标注的标签中部分标签或全部标签对应的第一文本序列;
数据标注模块,用于在标注界面上展示输出所述文本数据对应的第一标注结果,以供用户在标注界面上对所述第一标注结果进行处理;响应于用户对所述第一标注结果的处理操作,确定所述文本数据对应的第二标注结果,所述第二标注结果包括所述一个或多个需标注的标签中每个标签对应的第二文本序列。
可选的,所述机器预标注模块具体用于:
通过预置的机器学习模型对所述文本数据进行数据标注,得到所述文本数据中与预设标签对应的第三文本序列,所述预设标签为所述预置的机器学习模型所支持的标签;
根据所述预设标签与所述一个或多个需标注的标签之间的对应关系、以及所述第三文本序列,确定所述文本数据对应的第一标注结果。
可选的,所述机器预标注模块具体用于:
通过多个机器学习模型分别对所述文本数据进行数据标注,得到每个机器学习模型输出的第四标注结果,其中,每个机器学习模型输出的第四标注结果包括所述机器学习模型支持的标签对应的第四文本序列;
所述数据标注装置还包括:预标注融合模块;
所述预标注融合模块用于对每个机器学习模型输出的第四标注结果进行融合处理,得到所述文本数据对应的第一标注结果。
可选的,所述预标注融合模块具体用于:
根据每个机器学习模型输出的第四标注结果,确定每个标签对应的一个或多个第四文本序列;
针对每个标签,计算所述标签对应的每个第四文本序列的评分值,所述评分值与每个机器学习模型分别在所述标签下表现的性能指标、以及所述第四文本序列分别被每个机器学习模型在所述文本数据中标出的次数相关;
针对每个标签,将所述标签对应的评分值大于或等于第一阈值的第四文本序列作为所述标签对应的第一文本序列。
可选的,所述第一阈值与所述一个或多个机器学习模型中的每个机器学习模型分别在所述标签下表现的性能指标相关。
可选的,所述机器学习模型在所述标签下表现的性能指标与所述机器学习模型对所述标签进行标注的准确率和召回率相关。
可选的,所述数据标注装置还包括:专用模型训练模块和模型选择模块;
所述专用模型训练模块用于根据所述文本数据对应的第二标注结果,对所述一个或多个机器学习模型进行模型训练;
所述模型选择模块用于针对所述一个或多个机器学习模型中的每个机器学习模型,根据所述机器学习模型分别在每个标签下表现的性能指标,确定所述机器学习模型的性能指标;若所述机器学习模型的性能指标大于或等于第二阈值,则确定所述机器学习模型可用于对所述文本数据进行数据标注。
可选的,所述用户对所述第一标注结果的处理操作包括如下至少一种:
对所述第一标注结果中的部分已标注项进行确认标注的操作;
对所述第一标注结果中的部分已标注项进行删除标注的操作;
对所述第一标注结果中的部分已标注项进行修改标注的操作;
对所述第一标注结果中的部分未标注标签但已选中示意的项进行添加标注的操作;
对所述文件数据中的未包含到第一标注结果中的需要标注的项进行标注处理。
可选的,所述数据标注装置还包括:行为检测模块、智能错误修正模块;
所述行为检测模块用于检测所述用户对所述第一标注结果的处理操作是否为异常操作;
所述智能错误修正模块用于:当所述用户对所述第一标注结果的处理操作是异常操作时,生成异常提示信息;响应于所述用户对所述异常提示信息的处理操作,确定所述文本数据对应的第二标注结果。
可选的,所述异常操作包括如下至少一种:
异常截断预设文本序列、异常标注预设文本序列之外的内容、异常标注预设符号。
可选的,所述异常提示信息包括修正后的标注结果;
所述智能错误修正模块具体用于:响应于所述用户对所述修正后的标注结果的确认操作,确定所述文本数据对应的第二标注结果为所述修正后的标注结果。
可选的,所述数据标注模块还用于:
响应于所述用户对所述标签对应的快捷方式的操作,对所述标签进行选中处理。
可选的,所述模型选择模块还用于:响应于所述用户对所述机器学习模型的上线状态或下线状态的控制操作,控制所述机器学习模型上线或下线。
图2或图3所示实施例的数据标注装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图18为本公开实施例提供的数据标注设备的结构示意图。该数据标注设备具体可以是如上所述的文本标注系统。本公开实施例提供的数据标注设备可以执行数据标注方法实施例提供的处理流程,如图18所示,数据标注设备180 包括:存储器181、处理器182、计算机程序和通讯接口183;其中,计算机程序存储在存储器181中,并被配置为由处理器182执行如上所述的数据标注方法。
另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的数据标注方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据标注方法,其特征在于,所述方法包括:
获取待标注的文本数据;
通过一个或多个机器学习模型对所述文本数据进行数据标注,得到所述文本数据对应的第一标注结果,所述第一标注结果包括一个或多个需标注的标签中部分标签或全部标签对应的第一文本序列;
在标注界面上展示输出所述文本数据对应的第一标注结果,以供用户在标注界面上对所述第一标注结果进行处理;
响应于用户对所述第一标注结果的处理操作,确定所述文本数据对应的第二标注结果,所述第二标注结果包括所述一个或多个需标注的标签中每个标签对应的第二文本序列。
2.根据权利要求1所述的方法,其特征在于,所述通过一个或多个机器学习模型对所述文本数据进行数据标注,得到所述文本数据对应的第一标注结果,包括:
通过预置的机器学习模型对所述文本数据进行数据标注,得到所述文本数据中与预设标签对应的第三文本序列,所述预设标签为所述预置的机器学习模型所支持的标签;
根据所述预设标签与所述一个或多个需标注的标签之间的对应关系、以及所述第三文本序列,确定所述文本数据对应的第一标注结果。
3.根据权利要求1所述的方法,其特征在于,所述通过一个或多个机器学习模型对所述文本数据进行数据标注,得到所述文本数据对应的第一标注结果,包括:
通过多个机器学习模型分别对所述文本数据进行数据标注,得到每个机器学习模型输出的第四标注结果,其中,每个机器学习模型输出的第四标注结果包括所述机器学习模型支持的标签对应的第四文本序列;
对每个机器学习模型输出的第四标注结果进行融合处理,得到所述文本数据对应的第一标注结果。
4.根据权利要求3所述的方法,其特征在于,所述对每个机器学习模型输出的第四标注结果进行融合处理,包括:
根据每个机器学习模型输出的第四标注结果,确定每个标签对应的一个或多个第四文本序列;
针对每个标签,计算所述标签对应的每个第四文本序列的评分值,所述评分值与每个机器学习模型分别在所述标签下表现的性能指标、以及所述第四文本序列分别被每个机器学习模型在所述文本数据中标出的次数相关;
针对每个标签,将所述标签对应的评分值大于或等于第一阈值的第四文本序列作为所述标签对应的第一文本序列。
5.根据权利要求4所述的方法,其特征在于,所述第一阈值与所述一个或多个机器学习模型中的每个机器学习模型分别在所述标签下表现的性能指标相关。
6.根据权利要求4或5所述的方法,其特征在于,所述机器学习模型在所述标签下表现的性能指标与所述机器学习模型对所述标签进行标注的准确率和召回率相关。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述响应于用户对所述第一标注结果的处理操作,确定所述文本数据对应的第二标注结果之后,所述方法还包括:
根据所述文本数据对应的第二标注结果,对所述一个或多个机器学习模型进行模型训练;
针对所述一个或多个机器学习模型中的每个机器学习模型,根据所述机器学习模型分别在每个标签下表现的性能指标,确定所述机器学习模型的性能指标;
若所述机器学习模型的性能指标大于或等于第二阈值,则确定所述机器学习模型可用于对所述文本数据进行数据标注。
8.一种数据标注装置,其特征在于,包括:
机器预标注模块,用于获取待标注的文本数据;通过一个或多个机器学习模型对所述文本数据进行数据标注,得到所述文本数据对应的第一标注结果,所述第一标注结果包括一个或多个需标注的标签中部分标签或全部标签对应的第一文本序列;
数据标注模块,用于在标注界面上展示输出所述文本数据对应的第一标注结果,以供用户在标注界面上对所述第一标注结果进行处理;响应于用户对所述第一标注结果的处理操作,确定所述文本数据对应的第二标注结果,所述第二标注结果包括所述一个或多个需标注的标签中每个标签对应的第二文本序列。
9.一种数据标注设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
CN202010532091.9A 2020-06-11 2020-06-11 一种数据标注方法、装置、设备及计算机可读存储介质 Pending CN111859854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010532091.9A CN111859854A (zh) 2020-06-11 2020-06-11 一种数据标注方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010532091.9A CN111859854A (zh) 2020-06-11 2020-06-11 一种数据标注方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111859854A true CN111859854A (zh) 2020-10-30

Family

ID=72986086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010532091.9A Pending CN111859854A (zh) 2020-06-11 2020-06-11 一种数据标注方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111859854A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408290A (zh) * 2021-06-29 2021-09-17 山东亿云信息技术有限公司 一种针对中文文本的智能标注方法及系统
CN113627568A (zh) * 2021-08-27 2021-11-09 广州文远知行科技有限公司 一种补标方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034823A1 (en) * 2017-07-27 2019-01-31 Getgo, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN110188331A (zh) * 2019-06-03 2019-08-30 腾讯科技(深圳)有限公司 模型训练方法、对话系统评价方法、装置、设备及存储介质
CN110287481A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 命名实体语料标注训练系统
CN110298033A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 关键词语料标注训练提取工具

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034823A1 (en) * 2017-07-27 2019-01-31 Getgo, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN110287481A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 命名实体语料标注训练系统
CN110298033A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 关键词语料标注训练提取工具
CN110188331A (zh) * 2019-06-03 2019-08-30 腾讯科技(深圳)有限公司 模型训练方法、对话系统评价方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘卫国: "Python程序设计教程", vol. 2, 31 January 2020, 北京邮电大学出版社, pages: 248 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408290A (zh) * 2021-06-29 2021-09-17 山东亿云信息技术有限公司 一种针对中文文本的智能标注方法及系统
CN113627568A (zh) * 2021-08-27 2021-11-09 广州文远知行科技有限公司 一种补标方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
US8667004B2 (en) Providing suggestions during formation of a search query
CN114341787B (zh) 具有同时强化和消除歧义的全面原位结构化文档注释
US9501455B2 (en) Systems and methods for processing data
WO2006075667A1 (ja) 情報処理装置ならびにファイルデータマージ方法およびファイル名称付与方法およびファイルデータ出力方法
GB2570751A (en) Predicting style breaches within textual content
US20140289617A1 (en) Tool support for content review
CN111859854A (zh) 一种数据标注方法、装置、设备及计算机可读存储介质
US11768995B2 (en) Offline interactive natural language processing results
US20140075299A1 (en) Systems and methods for generating extraction models
US11392757B2 (en) Management of annotation jobs
CN111767334A (zh) 信息抽取方法、装置、电子设备及存储介质
CN111191429A (zh) 数据表格自动填充的系统和方法
CN116796726A (zh) 简历解析方法、装置、终端设备及介质
CN111078988B (zh) 一种电力服务信息热点检索方法、装置和电子设备
CN104268244A (zh) 处理表单的方法及装置
JP6495511B1 (ja) 電子メール作成装置、方法及びプログラム
CN111859855A (zh) 一种标注任务处理方法、装置、设备及存储介质
CN110516252B (zh) 数据标注方法、装置、计算机设备和存储介质
CN110532391B (zh) 一种文本词性标注的方法及装置
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
CN112527982A (zh) 一种设备管理系统、方法、设备及存储介质
CN117010349B (zh) 基于神经网络模型的表单填充方法、系统及存储介质
US11861512B1 (en) Determining content to present for human review
US10984168B1 (en) System and method for generating a multi-modal abstract
CN116775813B (zh) 业务搜索方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination