CN111079376A - 数据标注方法、装置、介质以及电子设备 - Google Patents

数据标注方法、装置、介质以及电子设备 Download PDF

Info

Publication number
CN111079376A
CN111079376A CN201911110917.6A CN201911110917A CN111079376A CN 111079376 A CN111079376 A CN 111079376A CN 201911110917 A CN201911110917 A CN 201911110917A CN 111079376 A CN111079376 A CN 111079376A
Authority
CN
China
Prior art keywords
labeling
text
label
action
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911110917.6A
Other languages
English (en)
Other versions
CN111079376B (zh
Inventor
朱成浩
翟喜梅
田育珍
徐宁
李鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fangjianghu Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Priority to CN201911110917.6A priority Critical patent/CN111079376B/zh
Publication of CN111079376A publication Critical patent/CN111079376A/zh
Application granted granted Critical
Publication of CN111079376B publication Critical patent/CN111079376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种数据标注方法、装置、介质以及电子设备。其中的数据标注方法包括:获取当前标注工程的待标注文本;根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息;根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息;根据所述待标注文本和所述标签信息,生成至少一条标注数据。本公开提供的技术方案有利于提高标注效率和标注准确性,并且有利于降低标注成本。

Description

数据标注方法、装置、介质以及电子设备
技术领域
本公开涉及数据标注技术,尤其是一种数据标注方法、数据标注装置、存储介质以及电子设备。
背景技术
随着AI(Artificial Intelligence,人工智能)技术的发展,房产领域、医疗领域以及智能驾驶等越来越多的领域使用了AI技术。
在AI技术应用在不同的领域时,往往需要利用相应领域的标注数据对相应的神经网络模型进行训练。
如何便捷的获得相应领域的标注数据,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种数据标注方法、数据标注装置、存储介质以及电子设备。
根据本公开实施例的一方面,提供一种数据标注方法,该方法包括:获取当前标注工程的待标注文本;根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息;根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息;根据所述待标注文本和所述标签信息,生成至少一条标注数据。
在本公开一实施方式中,所述当前标注工程所包含的所有标注动作包括:基于文本分类任务的标注动作;和/或,基于文本序列任务的标注动作;其中,所述基于文本分类任务的标注动作包括:基于单一分类维度的文本分类任务的一个标注动作、或者基于多分类维度的文本分类任务的多个标注动作。
在本公开又一实施方式中,所述根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息,包括:对于当前标注工程所包含的任一标注动作,根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,并为所述待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息。
在本公开再一实施方式中,所述根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,包括:将所述待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对所述待标注文本进行标签预测处理;根据该标注动作对应的标签预测模型输出的标签预测结果,获得该标注动作对应的缺省标签信息。
在本公开再一实施方式中,所述标签预测模型包括:分类预测模型,或者,文本序列模型;所述将所述待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对所述待标注文本进行标签预测处理,包括:对于基于文本分类任务的标注动作,将所述待标注文本提供给该标注动作对应的各分类预测模型,经由各分类预测模型对所述待标注文本进行分类预测处理;和/或,对于基于文本序列任务的标注动作,将所述待标注文本提供给文本序列模型,经由所述文本序列模型对所述待标注文本进行划词位置预测处理。
在本公开再一实施方式中,所述为所述待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息,包括:对于基于文本分类任务的标注动作,显示所述待标注文本、以及至少一个信息块,并将每一个信息块中的与缺省标签信息对应的标签描述信息设置为被选择状态;其中,一个信息块包括:一个标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息;对于基于文本序列的标注动作,显示所述待标注文本、以及与该标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息,并根据所述缺省标签信息在所述待标注文本的相应位置处划词。
在本公开再一实施方式中,所述信息块中的所有标签描述信息的排列顺序包括:基于哈夫曼树的排列顺序。
在本公开再一实施方式中,所述根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息,包括:在所述标注操作取消与所述缺省标签信息对应的标签描述信息的被选择状态的情况下,根据所述标注操作设置的被选择状态的标签描述信息,确定所述待标注文本的标签信息;在所述标注操作维持与所述缺省标签信息对应的标签描述信息的被选择状态的情况下,将所述缺省标签信息作为所述待标注文本的标签信息;在所述标注操作改变所述划词的情况下,根据改变后的划词,确定所述待标注文本的标签信息;在所述标注操作维持所述划词的情况下,将所述缺省标签信息作为所述待标注文本的标签信息。
在本公开再一实施方式中,所述方法还包括:训练所述标签预测模型的步骤;所述训练所述标签预测模型的步骤包括:从预定数据集中获取多条文本;将所述获取到的多条文本分别提供给待训练动作预测模型,以经由所述待训练动作预测模型对所述各条文本进标注行动作预测处理,获得预测出的标注动作;将所述多条文本分别提供给所述预测出的标注动作各自对应的待训练标签预测模型,以经由所述待训练标签预测模型对相应文本进行标签预测处理;根据所述标签预测结果与相应文本的标签信息的差异,调整所述待训练标签预测模型的模型参数。
在本公开再一实施方式中,所述从预定数据集中获取多条文本,包括:将所述预定数据集中的各条文本分别提供给待训练动作预测模型,以经由所述待训练动作预测模型对所述各条文本进标注行动作预测处理,获得预测出的标注动作;将所述各条文本分别提供给所述预测出的标注动作各自对应的待训练标签预测模型,以经由所述待训练标签预测模型对相应文本进行标签预测处理;根据所述待训练标签预测模型的隐层的输出,对所述各条文本进行筛选,获得所述多条文本。
在本公开再一实施方式中,所述训练所述标签预测模型的步骤还包括:利用所述待训练动作预测模型的隐层针对输入文本的输出,对所述待训练标签预测模型的模型参数进行初始化。
在本公开再一实施方式中,所述训练所述标签预测模型的步骤还包括:根据所述待训练标签预测模型的当前模型参数及其权值、以及所述待训练动作预测模型的隐层针对所述多条文本的输出,对所述待训练标签预测模型的模型参数进行调整。
根据本公开实施例的另一个方面,提供了一种数据标注装置,包括:获取文本模块,用于获取当前标注工程的待标注文本;提供信息模块,用于根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息;确定标签模块,用于根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息;生成标注模块,用于根据所述待标注文本和所述标签信息,生成至少一条标注数据。
在本公开一实施方式中,所述当前标注工程所包含的所有标注动作,包括:基于文本分类任务的标注动作;和/或,基于文本序列任务的标注动作;其中,所述基于文本分类任务的标注动作包括:基于单一分类维度的文本分类任务的一个标注动作、或者基于多分类维度的文本分类任务的多个标注动作。
在本公开又一实施方式中,所述提供信息模块具体用于:对于当前标注工程所包含的任一标注动作,根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,并为所述待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息。
在本公开再一实施方式中,所述确定标签模块包括:第一子模块,用于将所述待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对所述待标注文本进行标签预测处理;第二子模块,用于根据该标注动作对应的标签预测模型输出的标签预测结果,获得该标注动作对应的缺省标签信息。
在本公开再一实施方式中,所述标签预测模型包括:分类预测模型,或者,文本序列模型;所述第一子模块包括:第一单元,用于对于基于文本分类任务的标注动作,将所述待标注文本提供给该标注动作对应的各分类预测模型,经由各分类预测模型对所述待标注文本进行分类预测处理;和/或,第二单元,用于对于基于文本序列任务的标注动作,将所述待标注文本提供给文本序列模型,经由所述文本序列模型对所述待标注文本进行划词位置预测处理。
在本公开再一实施方式中,所述提供信息模块包括:第三子模块,用于对于基于文本分类任务的标注动作,显示所述待标注文本、以及至少一个信息块,并将每一个信息块中的与缺省标签信息对应的标签描述信息设置为被选择状态;其中,一个信息块包括:一个标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息;第四子模块,用于对于基于文本序列的标注动作,显示所述待标注文本、以及与该标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息,并根据所述缺省标签信息在所述待标注文本的相应位置处划词。
在本公开再一实施方式中,所述信息块中的所有标签描述信息的排列顺序包括:基于哈夫曼树的排列顺序。
在本公开再一实施方式中,所述确定标签模块包括:第五子模块,用于在所述标注操作取消与所述缺省标签信息对应的标签描述信息的被选择状态的情况下,根据所述标注操作设置的被选择状态的标签描述信息,确定所述待标注文本的标签信息;第六子模块,用于在所述标注操作维持与所述缺省标签信息对应的标签描述信息的被选择状态的情况下,将所述缺省标签信息作为所述待标注文本的标签信息;第七子模块,用于在所述标注操作改变所述划词的情况下,根据改变后的划词,确定所述待标注文本的标签信息;第八子模块,用于在所述标注操作维持所述划词的情况下,将所述缺省标签信息作为所述待标注文本的标签信息。
在本公开再一实施方式中,所述装置还包括:训练模块;所述训练模块包括:获取子模块,用于从预定数据集中获取多条文本;第一提供子模块,用于将所述获取到的多条文本分别提供给待训练动作预测模型,以经由所述待训练动作预测模型对所述各条文本进标注行动作预测处理,获得预测出的标注动作;第二提供子模块,用于将所述多条文本分别提供给所述预测出的标注动作各自对应的待训练标签预测模型,以经由所述待训练标签预测模型对相应文本进行标签预测处理;参数调整子模块,用于根据所述标签预测结果与相应文本的标签信息的差异,调整所述待训练标签预测模型的模型参数。
在本公开再一实施方式中,所述获取子模块包括:第三单元,用于将所述预定数据集中的各条文本分别提供给待训练动作预测模型,以经由所述待训练动作预测模型对所述各条文本进标注行动作预测处理,获得预测出的标注动作;第四单元,用于将所述各条文本分别提供给所述预测出的标注动作各自对应的待训练标签预测模型,以经由所述待训练标签预测模型对相应文本进行标签预测处理;第五单元,用于根据所述待训练标签预测模型的隐层的输出,对所述各条文本进行筛选,获得所述多条文本。
在本公开再一实施方式中,所述训练模块还包括:初始化子模块,用于利用所述待训练动作预测模型的隐层针对输入文本的输出,对所述待训练标签预测模型的模型参数进行初始化。
在本公开再一实施方式中,所述训练模块还包括:微调子模块,用于根据所述待训练标签预测模型的当前模型参数及其权值、以及所述待训练动作预测模型的隐层针对所述多条文本的输出,对所述待训练标签预测模型的模型参数进行调整。
根据本公开实施例的再一方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述数据标注方法。
根据本公开实施例的又一方面,提供一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述数据标注方法。
基于本公开上述实施例提供的一种数据标注方法和装置,通过设置标注工程、标注动作以及标签描述信息,且标注工程包括至少一标注动作,一个标注动作对应至少一标签描述信息,不仅可以使数据标注所涉及到的内容层次分明,而且还可以使标注工程通过多个标注动作以及相应的标签描述信息,覆盖多种类型的标注任务。通过为待标注文本提供当前标注工程所包含的所有标注动作各自对应的动作描述信息以及当前标注工程所包含的所有标注动作各自对应的标签描述信息,有利于清晰且有层次的显现出待标注文本所涉及到的标注动作和标签描述信息,从而在确定待标注文本的标签信息时,不但有利于避免误操作,而且有利于缩短确定待标注文本的标签信息所需的时间。另外,本公开可以使针对一个待标注文本的所有标注任务通过多个标注动作以及相应的标签描述信息完全覆盖,从而有利于避免反复将一个待标注文本提供给标注平台,以实现不同类型的标注任务的现象。由此可知,本公开提供的技术方案有利于提高标注效率以及标注准确性,并有利于降低标注成本。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的适用场景的一个实施例的示意图;
图2为本公开的数据标注方法一个实施例的流程图;
图3为本公开的标注动作和标签描述信息的层次关系一个实施例的示意图;
图4为本公开的根据干预文本和纠正文本确定待标注语音的标注文本的一个实施例的流程图;
图5为本公开的霍夫曼树一个实施例的流程图;
图6为本公开的训练标签预测模型一个实施例的流程图;
图7为本公开的对预定数据集中的文本进行筛选的一个实施例的流程图;
图8为本公开的数据标注装置一个实施例的结构示意图;
图9为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,特定领域所使用的词语通常具有独特性。如果利用其他领域的训练数据集(如已公开的通用领域的训练数据集等)中的标注数据对神经网络模型进行训练,则神经网络模型并不能很好的适用于该特定领域。因此,在使神经网络模型应用于特定领域(如房产领域)时,通常需要使用该特定领域的训练数据即对神经网络模型进行训练。
目前,通常采用人工标注方式对文本进行标注,形成训练数据集中的标注数据。例如,将待标注文本提供给人工标注平台,所有标注人员分别从人工标注平台处获取待标注文本,标注人员根据平台当前提供的标签描述信息,执行标注操作,以便于为该待标注文本设置标签信息。为了实现多种类型的标注任务,平台通常会为每一个待标注文本均提供其支持的所有类型的标注任务所涉及到的标签描述信息。由于标签描述信息的数量通常较庞大(如上百级别),因此,较容易产生漏标或者错标等误标注操作,标注准确性有待提高。即便是平台为每一个待标注文本仅提供部分类型的标注任务所涉及到的标签描述信息,仍然会存在标签描述信息的数量较多的情况。另外,由于现有的数据标注过程依赖人工操作的程度较高,因此,标注效率通常较低,标注成本通常较高。
示例性概述
本公开提供的数据标注技术的应用场景的一个例子,如图1所示。
图1中,本公开可以根据标注需求创建一标注工程,并根据标注需求设定该标注工程所包含的所述标注动作,假定该标注工程包括m(m为大于0的整数)个标注动作。每一个标注动作对应一个已成功训练完成的标签预测模型,如图1中的标签预测模型1、……以及标签预测模型m。每一个标注动作均对应一个动作描述信息,且每一个标注动作均对应至少一个标签描述信息。动作描述信息用于描述标注动作。标签描述信息用于描述标注动作对应的标签。
在为该标注工程设置待标注文本集合之后,本公开可以从该待标注文本集合中获得特定领域(如房产领域)的多条待标注文本。获取到的多条待标注文本如图1中的待标注文本1、待标注文本2、……以及待标注文本n(n为大于2的整数)所示。本公开需要对获取到的多条待标注文本分别进行文本标注。
本公开可以将待标注文本1、待标注文本2、……以及待标注文本n分别提供给标签预测模型1、……以及标签预测模型m,从而获得待标注文本1、待标注文本2、……以及待标注文本n各自对应的缺省标签信息,如图1中,待标注文本1对应的缺省标签信息11、……以及缺省标签信息1m,待标注文件2对应的缺省标签信息21、……以及缺省标签信息2m,……,待标注文本n对应的缺省标签信息n1、……以及缺省标签信息nm。
本公开可以将待标注文本1及其对应的动作描述信息和标签描述信息和缺省标签信息、待标注文本2及其对应的动作描述信息和标签描述信息和缺省标签信息、以及待标注文本n及其对应的动作描述信息和标签描述信息,分别提供给标注平台,并根据从标注平台获得的各标注操作结果,分别获得待标注文本1、待标注文本2、……以及待标注文本n各自对应的标签信息,从而本公开可以根据待标注文本1及其对应的标签信息获得的至少一条标注数据,根据待标注文本2及其对应的标签信息获得至少一条标注数据,……,根据待标注文本n及其对应的标签信息获得至少一条标注数据。
示例性方法
图2为本公开的数据标注方法一个实施例的流程示意图。如图2所示,该实施例的方法包括步骤:S200、S201以及S202。下面对各步骤分别进行说明。
S200、获取当前标注工程的待标注文本。
本公开中的当前标注工程是指当前需要进行数据标注的标注工程。当前标注工程通常是预先创建的标注工程。每一个创建的标注工程通常均具有标注工程的名称、标注工程所包含的标注动作以及每一个标注动作各自对应的标签描述信息。标注工程的名称用于标识一个标注工程。一个标注工程可以包含属于同一类别的至少一个标注动作,也可以包含属于不同种类别的多个标注动作。
本公开中的待标注文本通常是指需要设置标签信息的文本。例如,待标注文本可以为一句话、一段文字或者一篇文章等。待标注文本的长度通常需要符合预先设置的长度条件。在本公开获取到的所有待标注文本基本上属于同一个领域(如房产领域)的情况下,本公开可以实现为该领域形成训练数据集合。
本公开在创建一个标注工程时,可以为该标注工程设置数据集,该数据集中通常包括多条待标注文本,从而本公开可以从当前标注工程对应的数据集中获取待标注文本。
S201、根据当前标注工程所包含的所有标注动作,为待标注文本提供所有标注动作各自对应的动作描述信息以及所有标注动作各自对应的标签描述信息。
本公开中的动作描述信息可以是指用于描述动作的信息。动作描述信息可以认为是动作的名称或者动作的标识等。本公开中的标签描述信息可以是指用于描述标签信息的信息。一个标注动作通常具有一个动作描述信息,且一个标注动作通常对应至少一个标签描述信息。不同标注动作所对应的标签描述信息的数量可以不相同。一个标注工程所包含的各标注动作各自对应的动作描述信息以及各标注动作各自对应的标签描述信息,通常是在创建标注工程的过程中设置的。
本公开获取到的每一个待标注文本,都需要使用当前标注工程所包含的所有标注动作对其进行标注处理,每一个标注动作对应的标注处理过程均与该标注动作对应的标签描述信息相关。可以认为,标签描述信息为标注动作对应的标注处理提供参考,且一个标注动作及其对应的所有标签描述信息决定了待标注文本的标注处理结果。本公开可以将待标注文本、当前标注工程所包含的所有标注动作各自对应的动作描述信息以及所有标注动作各自对应的标签描述信息,均显示在相应页面中。
S202、根据针对所有标注动作各自的动作描述信息以及标签描述信息的标注操作,确定待标注文本的标签信息。
本公开中的标注操作可以是指基于标注平台(如众标平台)的标注操作,即标注平台处的标注操作。具体的,本公开在显示了待标注文本、当前标注工程所包含的所有标注动作各自对应的动作描述信息以及所有标注动作各自对应的标签描述信息之后,标注人员可以根据动作描述信息以及标签描述信息进行相应的操作(如选择操作或者划词操作等),从而本公开可以根据该标注人员的操作确定出该待标注文本的标签信息。
S203、根据待标注文本和标签信息,生成至少一条标注数据。
本公开可以为当前标注工程所包含的每一个标注动作,分别生成一条标注数据。在当前标注工程包含多个标注动作的情况下,待标注文本和一个标注动作对应的标签信息形成一条标注数据,从而形成多条标注数据。
本公开可以为当前标注工程所包含的所有标注动作,生成一条标注数据。即无论当前标注工程包含一个标注动作,还是多个标注动作,待标注文本和所有标签信息一起形成一条标注数据。
本公开通过设置标注工程、标注动作以及标签描述信息,且标注工程包括至少一标注动作,一个标注动作对应至少一标签描述信息,不仅可以使数据标注所涉及到的内容层次分明,而且还可以使标注工程通过多个标注动作以及相应的标签描述信息,覆盖多种类型的标注任务。通过为待标注文本提供当前标注工程所包含的所有标注动作各自对应的动作描述信息以及当前标注工程所包含的所有标注动作各自对应的标签描述信息,有利于清晰且有层次的显现出待标注文本所涉及到的标注动作和标签描述信息,例如,如图3所示,九个不同的标签描述信息(即标签描述信息1、标签描述信息2、标签描述信息3、标签描述信息4、标签描述信息5、标签描述信息6、标签描述信息7、标签描述信息8和标签描述信息9)分别对应三个不同的标注动作,从而使待标注文本和标签描述信息之间通过标注动作,呈现出层次化;进而在为待标注文本设置标签信息时,不但有利于避免标注误操作,而且有利于减少确定待标注文本的标签信息的时间。另外,本公开可以使针对一个待标注文本的所有标注任务通过多个标注动作以及相应的标签描述信息完全覆盖,从而有利于避免反复将一个待标注文本提供给标注平台,以实现不同类型的标注任务的现象。由此可知,本公开提供的技术方案有利于提高标注效率和准确性,并且有利于降低标注成本。
在一个可选示例中,本公开中的当前标注工程所包含的所有标注动作可以包括:基于文本分类任务的标注动作以及基于文本序列任务的标注动作中的至少一个。
可选的,本公开中的文本分类任务可以是指基于给定的多个分类项确定文本所属的分类项的分类任务。本公开中的文本分类任务可以根据实际的文本分类需求来设置,本公开对此不作限定。例如,本公开中的文本分类任务可以是基于句式的分类项(如疑问句或者肯定句等)对文本进行句式分类的任务;再例如,本公开中的文本分类任务可以是基于楼层的分类项(如高层、中层或者低层等)的分类任务;再例如,本公开中的文本分类任务可以是基于临街的分类项(如临街或者不临街)的分类任务。
可选的,本公开中的文本序列任务可以是指基于人名或者地名或者公司名称或者句子成分(如主语、谓语以及宾语等)等给定信息,确定文本中的给定信息的出现位置的任务。文本序列任务也可以称为划词任务。基于文本序列的标注动作可以称为划词动作。
可选的,本公开中的基于文本分类任务的标注动作可以包括:基于单一分类维度的文本分类任务的一个标注动作、或者基于多分类维度的文本分类任务的多个标注动作。其中的单一分类维度可以是指一种分类方式。其中的多分类维度可以是指多种分类方式。可以认为:基于多分类维度的文本分类任务是由多个基于单一分类维度的文本分类任务组合在一起形成的。基于单一分类维度的文本分类任务通常仅对应一个标注动作,该标注动作可以称为分类动作;而基于多分类维度的文本分类任务通常对应多个标注动作,多个标注动作均可以称为分类动作。
可选的,在标注动作为分类动作的情况下,该标注动作所对应的标签描述信息的数量通常与该标注动作对应的可选择的分类项的数量相同。例如,假定标注动作为楼层分类动作,假定该楼层分类动作对应的可选择的分类项包括三个,即低层、中层和高层,则该楼层分类动作所对应的标签描述信息为三个,且可以分别为对低层的描述信息(如低层)、对中层的描述信息(如中层)以及对高层的描述信息(如高层)。
可选的,在标注动作为划词动作的情况下,该标注动作所对应的标签描述信息的数量通常与给定信息的数量相同。例如,假定该划词动作的给定信息包括三个,即人名、地名和公司名称,则该划词动作对应的标签描述信息为三个,且可以分别为人名描述信息、地名描述信息以及公司名称描述信息。
由于本公开中的当前标注工程所包含的所有标注动作不仅可以包括基于文本分类任务的标注动作,还可以包括基于文本序列任务的标注动作,因此,本公开的数据标注技术可以针对待标注文本一次性完成多种类型的标注任务,有利于避免将待标注文本反复呈现给标注平台,以便于对该待标注文本执行多次标注处理,而导致的标注效率低的现象,从而有利于提高标注效率。
在一个可选示例中,本公开中的S201可以具体为:对于当前标注工程所包含的任一标注动作,根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,并为待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息。
可选的,本公开中的缺省标签信息可以是指预先预测出的待标注文本的标签信息。也就是说,缺省标签信息有可能确实是待标注文本的标签信息,也有可能不是待标注文本的标签信息。
可选的,本公开为待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息的一个例子如图4所示。
图4中,假定待标注文本为“想找采光较好,楼层偏低,适合老人居住,紧邻某某附中,不想临街的房子”,假定当前标注工程包括基于多分类维度的文本分类任务的多个标注动作,多个标注动作分别为:基于楼层分类的标注动作、基于是否存在老人分类的标注动作、基于学区房分类的标注动作以及基于临街分类的标注动作,这四个标注动作的动作描述信息分别为图4中的“楼层分类”、“判断存在老人分类”、“判断是否学区房”以及“判断是否临街”。基于楼层分类的标注动作对应三个标签描述信息,即图4中的“高层”、“中层”和“低层”。基于是否存在老人分类的标注动作对应五个标签描述信息,即图4中的“极可能有老人”、“可能有老人”、“没检测到”、“介意老人,不喜欢老人”以及“很大可能没有老人”。基于学区房分类的标注动作对应两个标签描述信息,即图4中的“学区房”和“非学区房”。基于临街分类的标注动作对应两个标签描述信息,即图4中的“临街”和“非临街”。
假定本公开针对四个标注动作为待标注文本确定出的四个缺省标签信息分别对应:“低层”、“极可能有老人”、“学区房”以及“非学区房”,这四个标签描述信息,则本公开在为待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息时,可以将“低层”、“极可能有老人”、“学区房”以及“非学区房”,这四个标签描述信息设置为被选择状态。
本公开通过确定标注动作对应的缺省标签信息,并为待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息,有利于简化后续的标注操作,降低标注操作的工作量,从而有利于降低数据标注对人工操作的依赖程度,进而有利于提高标注效率和标注准确性,有利于降低标注成本。
在一个可选示例中,本公开可以利用标签预测模型来确定标注动作对应的缺省标签信息。具体的,本公开为每一个标注动作均设置了一个标签预测模型,且不同标注动作通常对应不同的标签预测模型;对于当前标注工程中的任一标注动作而言,本公开可以先将待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对待标注文本进行标签预测处理;之后,本公开可以根据该标注动作对应的标签预测模型输出的标签预测结果,获得该标注动作对应的缺省标签信息。本公开提供给标签预测模型的待标注文本通常表示为多个词向量的形式,一个词向量可以表示一个字(例如,一个汉字或者一个外文单词等)或者一个词(例如,一个词组等)。标签预测模型可以是在本次数据标注之前已经成功训练完成的模型。当然,本公开也可以在本次数据标注过程中,对各标注动作各自对应的标签预测模型进行训练,且随着被标注的待标注文本的数量的增加,标签预测模型预测的准确度通常会逐步提高,直到标签预测模型成功训练完成。本公开中的标签预测模型可以采用编码器和解码器的结构。本公开不限制标签预测模型的具体结构。需要特别说明的是,在训练标签预测模型的过程中,可以利用动作预测模型来帮助标签预测模型的训练,以降低标签预测模型的训练周期,从而提高标签预测模型的训练效率。训练标签预测模型的过程可以参见下述针对图6和图7的描述,在此不再详细说明。
本公开通过利用标签预测模型来确定标注动作对应的缺省标签信息,有利于提高数据标注的智能化程度。由于成功训练后的标签预测模型,其预测的准确性通常较高,因此,缺省标签信息被作为标签信息的可能性很大,从而有利于在较大程度上简化后续的标注操作,在较大程度上降低标注操作的工作量。
在一个可选示例中,对于基于文本分类任务的标注动作而言,标注动作对应的标签预测模型为分类预测模型,即标签预测模型为用于分类预测的模型。一个例子,在基于文本分类任务的标注动作为基于单一分类维度的文本分类任务的单一标注动作的情况下,本公开可以将待标注文本提供给该单一标注动作对应的分类预测模型,以经由该分类预测模型对待标注文本进行分类预测处理,从而获得一个分类预测结果,本公开可以根据该分类预测结果获得一个缺省标签信息。再一个例子,在基于文本分类任务的标注动作为基于多分类维度的文本分类任务的多个标注动作的情况下,本公开可以将待标注文本分别提供给多个标注动作各自对应的分类预测模型,经由各分类预测模型分别对待标注文本进行分类预测处理,从而获得多个分类预测结果,本公开可以根据每一个分类预测结果分别获得一个缺省标签信息,从而获得多个缺省标签信息。
在一个可选示例中,对于基于文本序列任务的标注动作而言,标注动作对应的标签预测模型为文本序列模型,即用于预测划词位置的模型。本公开可以将待标注文本提供给文本序列模型,经由文本序列模型对待标注文本进行划词位置预测处理,从而获得划词位置预测结果,本公开可以根据划词位置预测结果,获得一个缺省标签信息,如人名、地名、公司名称或者句子成分等给定信息在待标注文本中的出现位置。
需要特别说明的是,本公开可以对基于文本序列任务的标注动作进行类别划分,一种类别的标注动作对应一个文本序列模型,不同类别的标注动作对应不同的文本序列模型。对标注动作的类别划分也可以认为是对标注动作对应的给定信息的类别的划分。下面举三个例子进行说明:
第一个例子,在一个标注动作对应基于人名、地名以及公司名称这种类别的给定信息的划词,而另一个标注动作对应基于句子成分这种类别的给定信息的划词的情况下,本公开可以设置两个文本序列模型,其中一个文本序列模型用于预测人名、地面以及公司名称在待标注文本中的出现位置,其中另一个文本序列模型用于预测句子成分在待标注文本中的出现位置。
第二个例子,在一个标注动作对应基于人名的划词,另一个标注动作对应基于地名的划词,再一个标注动作对应基于公司名称的划词的情况下,本公开可以设置三个文本序列模型,第一个文本序列模型用于预测人名在待标注文本中的出现位置,第二个文本序列模型用于预测地面在待标注文本中的出现位置,第三个文本序列用于预测公司名称在待标注文本中的出现位置。
第三个例子,一个标注动作对应基于人名、地名、公司名称以及句子成分的划词的情况下,本公开可以设置一个文本序列模型,该文本序列模型用于预测人名、地名、公司名称以及句子成分在待标注文本中的出现位置。
本公开不限制标注动作对应的给定信息的具体表现形式,也不限制文本序列模型的数量。本公开通过利用分类预测模型或者文本序列模型来确定相应的标注动作对应的缺省标签信息,可以有针对性的实现缺省标签信息的预测,从而有利于提高缺省标签信息的预测准确性。
在一个可选示例中,对于基于文本分类任务的标注动作而言,本公开可以以信息块的形式显示标注动作的动作描述信息、标注动作对应的所有标签描述信息以及标注动作对应的缺省标签信息。也就是说,本公开可以显示待标注文本以及至少一个信息块,并将每一个信息块中的与缺省标签信息对应的标签描述信息设置为被选择状态。其中的任一个信息块均可以包括:一个标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息。例如,楼层分类(即动作描述信息)、高层(即标签描述信息)、中层(即标签描述信息)和低层(即标签描述信息)可以被作为一个信息块显示,如果缺省标签信息为低层,该信息块中的低层可以处于被选择状态。
可选的,一个信息块中的所有标签描述信息可以按照预先设定的顺序排列并显示,例如,一个信息块中的所有标签描述信息可以基于哈夫曼树的排列顺序排列并显示。一个信息块中的所有标签描述信息的排列顺序可以反映出其被作为标签信息的次数的顺序。被作为标签信息的次数最多的标签描述信息可以排列在最前面,而被作为标签信息的次数最少的标签描述信息可以排列在最后面。一个例子如图5所示。
假定一个信息块包括六个标签描述信息,即极可能有老人A、可能有老人B、没检测到C、介意老人D、不喜欢老人E和很大可能没有老人F,假定极可能有老人A和可能有老人B被作为标签信息的次数均为1,没检测到C被作为标签信息的次数为2,介意老人D被作为标签信息的次数为5、不喜欢老人E被作为标签信息的次数为7,很大可能没有老人F被作为标签信息的次数为13。在上述情况下,本公开针对上述ABCDEF建立的哈夫曼树如图5所示。根据图5所示的哈夫曼树,信息块中的六个标签描述信息的排列顺序可以为:很大可能没有老人F、不喜欢老人E、介意老人D、没检测到C、可能有老人B以及极可能有老人A。图5中的各节点中的数字为建立哈夫曼树过程中计算获得的数值。图5中的节点间连线上的数字为相应的标签描述信息被作为标签信息的次数。本公开中的哈夫曼树通常会被实时更新,以保证标签描述信息的排列顺序的准确性。
本公开通过以一个信息块的形式,显示一个标注动作对应动作描述信息以及该标注动作对应的所有标签描述信息,并将信息块中的缺省标签信息对应的标签描述信息设置为被选择状态,有利于后续的标注操作的执行;通过将一个信息块中的所有标签描述信息排列为哈夫曼树的形式,进一步有利于后续的标注操作的执行;进而本公开有利于提高标注效率。
在一个可选示例中,对于基于文本序列的标注动作而言,本公开可以显示待标注文本、与该标注动作对应的动作描述信息及该标注动作对应的所有标签描述信息,并根据缺省标签信息在待标注文本的相应位置处划词。例如,缺省标签信息表示开始位置为待标注文本中的第三个字,结束位置为待标注文本中的第五个字的情况下,可以为待标注文本中的第三个字至第五个字设置红色的下划线。
本公开通过根据缺省标签信息在待标注文本的相应位置处划词,有利于后续的标注操作的执行,有利于降低数据标注过程对人工操作的依赖程度,从而有利于提高标注效率以及标注准确性,并有利于降低标注成本。
在一个可选示例中,本公开中的标注操作可以为基于标注平台(如众标平台等)的标注操作。
一个例子,本公开在标注平台中显示待标注文本和至少一个信息块,而且每一个信息块中的与缺省标签信息对应的标签描述信息设置为被选择状态,标注人员可以根据当前显示的内容执行相应的标注操作。例如,标注人员可以取消缺省标签信息对应的标签描述信息的被选择状态,使其处于未被选择状态,而将其他标签描述信息设置为被选择状态,即标注操作对被设置为选择状态的标签描述信息进行了更改。本公开在接收到来自标注平台的标注操作的操作结果信息后,可以将更改后的标签描述信息作为待标注文本的标签信息。再例如,标注人员可以不改变缺省标签信息对应的标签描述信息的被选择状态,即标注人员可以维持与缺省标签信息对应的标签描述信息的被选择状态。本公开在接收到来自标注平台的标注操作的操作结果信息后,可将缺省标签信息作为待标注文本的标签信息。
另一个例子,本公开在标注平台显示待标注文本、与标注动作对应的动作描述信息以及标注动作对应的所有标签描述信息,并根据缺省标签信息在待标注文本的相应位置处设置下划线,即在待标注文本上划词。标注人员可以根据当前显示的内容执行相应的标注操作。例如,标注人员可以通过标注操作改变划词的位置,本公开在接收到来自标注平台的标注操作的操作结果信息后,可以根据更新后的划词位置确定待标注文本的标签信息。再例如,标注人员可以通过标注操作不改变划词的位置,即标注人员通过标注操作维持当前划词的位置,本公开在接收到来自标注平台的标注操作的操作结果信息后,可以将缺省标签信息作为待标注文本的标签信息。
由上述描述可知,在缺省标签信息比较准确的情况下,本公开可以在较大程度上降低数据标注过程中的人工操作的工作量,从而有利于在较大程度上提高数据标注的智能程度,并提高标注效率。
在一个可选示例中,本公开训练标签预测模型的一个例子如图6所示。
图6中,S600、从预定数据集中获取多条文本。
可选的,预定数据集中的文本可以为带有标签信息的文本。预定数据集中的文本也可以不带有标签信息,此时,本公开可以在利用上述数据标注方法对待标注文本进行标注的过程中,实现对标签预测模型的训练。也就是说,本公开从预定数据集中获取到的文本可以为上述方法实施例中的待标注文本,在利用上述数据标注方法对待标注文本进行标注的过程中,会形成待标注文本的标签信息,从而本公开S603中所使用的文本的标签信息可以采用待标注文本的标签信息。本公开中的预定数据集可以为待标注文本形成的数据集,也可以为由待标注文本及其标签信息形成的标注数据最终生成的训练数据集合。
可选的,本公开从预定数据集中获取到的多条文本可以是:在对预定数据集中的文本进行筛选后,所获得的文本。在一个例子中,本公开可以利用动作预测模型和标签预测模型实现对预定数据集中的文本的筛选。
本公开对预定数据集中的文本进行筛选处理的目的在于:获得训练质量较好的文本。本公开中的训练质量较好的文本可以是指:对于模型结构和模型参数完全相同的第一标签预测模型和第二标签预测模型而言,在利用一定数量的该种类型的文本对第一标签预测模型进行训练后,获得第一标签预测模型,在利用同样数量的其他文本对第二标签预测模型进行训练后,获得第二标签预测模型,第一标签预测模型的预测准确性通常优于第二标签预测模型的预测准确性。
对预定数据集中的文本进行筛选的一个例子如下述针对图7的描述。
S601、将获取到的多条文本分别提供给待训练动作预测模型,以经由待训练动作预测模型对各条文本进标注行动作预测处理,获得预测出的标注动作。
可选的,本公开中的动作预测模型可以是指用于预测输入的文本所对应的标注动作的模型。本公开中的动作预测模型可以包括:至少一个解码器,例如,动作预测模型可以包括:位置信息编码层、多个解码器(如6个解码器)以及激活层(如线性激活层)等。多个解码器可以堆叠串接,例如,第一个解码器的输出与第二个解码器的输入连接、第二个解码器的输出与第三个解码器的输入连接、……最后一个解码器的输出与激活层(如线性激活层)的输入连接。对于S600中获取到的任一文本而言,该文本的各词向量在被位置信息编码层进行位置编码处理后,被作为动作预测模型中的第一个解码器的输入。本公开可以在训练标签预测模型的过程中,实现对动作预测模型的训练。
S602、将多条文本分别提供给预测出的标注动作各自对应的待训练标签预测模型,以经由待训练标签预测模型对相应文本进行标签预测处理。
可选的,在训练标签预测模型的过程中,可以先对标签预测模型进行初始化处理,即对标签预测模型的模型参数进行初始化。本公开可以利用提供给标签预测模型的第一条文本,实现对标签预测模型的模型参数的初始化。具体的,本公开可以将从预定数据集中获取到的第一条文本提供给动作预测模型,并获取动作预测模型中的隐层针对该第一条文本的输出,该隐层的输出可以为用于数据分发评估的归一化概率,例如,本公开可以获取动作预测模型中的最后一个解码器输出的用于数据分发评估的归一化概率。本公开可以利用动作预测模型中的隐层针对第一条文本的输出,对动作预测模型本次针对第一条文本所预测出的标注动作对应的各待训练标签预测模型的模型参数进行初始化。如果在本次初始化过程结束后存在没有被初始化的标签预测模型(如标签预测模型对应的标注动作不在动作预测模型预测出的标注动作范围内),则可以利用后续从预定数据集中获取到的文本,对相应的标签预测模型进行初始化处理,且该文本应该是第一次被提供给该相应的标签预测模型的文本)。
本公开通过利用动作预测模型中的隐层针对相应文本的输出,对待训练标签预测模型的模型参数进行初始化,有利于提高标签预测模型的训练效率。
可选的,在对待训练标签预测模型的模型参数进行初始化后,本公开可以将从预定数据集中获取到的文本提供给标签预测模型,经由标签预测模型基于其当前模型参数对输入的文本进行标签预测处理。除了第一次被提供给该标签预测模型的文本之外的其他文本,假定动作预测模型针对该其他文本预测出的动作对应一标签预测模型,对于该标签预测模型而言,本公开可以先根据动作预测模型的隐层针对该其他文本的输出及其权值、以及该标签预测模型的当前模型参数及其权值,对该标签预测模型的模型参数进行调整(相比于基于差异的调整而言,该调整可以称为微调),然后,再将该其他文本提供给该标签预测模型进行标签预测处理。
本公开通过利用动作预测模型的隐层的输出,对标签预测模型的模型参数进行微调,有利于提高标签预测模型的训练效率。
S603、根据标签预测结果与相应文本的标签信息的差异,调整待训练标签预测模型的模型参数。
可选的,本公开可以采用基于交叉熵的损失函数,对标签预测结果和相应文本的标签信息进行差异计算,本公开可以根据计算结果,通过反向传播来调整标签预测模型的模型参数。与此同时,本公开还可以利用动作预测模型预测出的动作与文本的动作标签信息的差异,调整动作预测模型的模型参数,从而有利于提高动作预测模型的动作预测处理的准确性。另外,随着动作预测模型的动作预测处理的准确性的提高,其隐层的输出结果的准确性也会随之提高,而隐层的输出结果的准确性的提高,有助于提高标签预测模型的训练效率。
本公开通过训练标签预测模型,可以利用训练好的标签预测模型进行标签预测处理,从而可以为待标注文本提供缺省标签信息,以简化数据标注过程,从而有利于在较大程度上提高数据标注的智能程度,并提高标注效率。
本公开的对预定数据集中的文本进行筛选,以从预定数据集中获得多条文本的一个实施例如图7所示。图7所示的流程包括步骤:S700、S701以及S702。
S700、将预定数据集中的多条文本分别提供给待训练动作预测模型,以经由待训练动作预测模型对多条文本分别进行标注动作预测处理,本公开可以根据动作预测模型的输出获得预测出的各条文本各自对应的标注动作。
可选的,本公开可以将预定数据集中的所有未标注标签信息的文本(即所有需要进行筛选的文本),分别提供给嗲训练动作预测模型。本公开中的动作预测模型可以是指用于预测输入的文本所对应的标注动作的模型。本公开中的动作预测模型可以包括至少一个解码器,例如,动作预测模型可以包括:位置信息编码层、多个解码器(如6个解码器)以及激活层(如线性激活层)等。多个解码器可以堆叠串接,例如,第一个解码器的输出与第二个解码器的输入连接、第二个解码器的输出与第三个解码器的输入连接、……最后一个解码器的输出与激活层(如线性激活层)的输入连接。对于任一需要进行筛选的文本而言,该文本的各词向量在被位置编码处理后,被作为动作预测模型中的第一个解码器的输入。另外,本公开中的动作预测模型可以与标签预测模型一起训练。对动作预测模型的训练过程,可以参见上述图6中的相关描述。
S701、将多条条文本分别提供给预测出的标注动作各自对应的待训练标签预测模型,以经由待训练标签预测模型对相应文本进行标签预测处理。
可选的,本公开中的待训练标签预测模型均会针对其输入的文本进行标签预测处理。在标签预测处理的过程中,待训练标签预测模型中的每一层均会根据其输入产生相应的输出。
S702、根据待训练标签预测模型的隐层的输出,对各条文本进行筛选,获得多条文本。本公开中的隐层的输出可以为用于数据分发评估的归一化概率。
可选的,本公开中的标签预测模型可以包括多个解码器,本公开可以利用待训练标签预测模型中的最后一个解码器的输出(如用于数据分发评估的归一化概率),确定各条文本的评分,并根据各条文本的评分确定从多条文本中筛选出的文本。也就是说,将多条文本中的评分满足预定评分要求的文本作为筛选出的文本。例如,将评分高于预定分数的文本作为筛选出的文本。再例如,将前N个评分的文本作为筛选出的文本。
本公开通过利用动作预测模型和标签预测模型对预定数据集中的文本进行筛选,有利于获得有可能成为高质量的训练数据的文本,从而在利用较少数量的文本对标签预测模型进行训练的情况下,有利于获得较高质量的训练效果。也就是说,本公开在获得用于训练标签预测模型的文本时,采用了主动学习的筛选策略,有利于提高标签预测模型的训练效率。
示例性装置
图8为本公开的数据标注装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。如图8所示,该实施例的装置主要包括:获取文本模块800、提供信息模块801、确定标签模块802及生成标注模块803。可选的,该装置还可以包括:训练模块804。
获取文本模块800用于获取当前标注工程的待标注文本。
提供信息模块801用于根据当前标注工程所包含的所有标注动作,为待标注文本提供所有标注动作各自对应的动作描述信息以及所有标注动作各自对应的标签描述信息。
可选的,本公开中的当前标注工程所包含的所有标注动作可以包括:基于文本分类任务的标注动作、以及基于文本序列任务的标注动作中的至少一个。其中的基于文本分类任务的标注动作包括:基于单一分类维度的文本分类任务的一个标注动作、或者基于多分类维度的文本分类任务的多个标注动作。
可选的,提供信息模块801可以具体用于对于当前标注工程所包含的任一标注动作,根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,并为待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息。
可选的,提供信息模块801可以包括:第三子模块8011和第四子模块8012。其中的第三子模块8011可以用于对于基于文本分类任务的标注动作,显示待标注文本、以及至少一个信息块,并将每一个信息块中的与缺省标签信息对应的标签描述信息设置为被选择状态。其中的一个信息块包括:一个标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息。其中的第四子模块8012可以用于对于基于文本序列的标注动作,显示待标注文本、以及与该标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息,并根据缺省标签信息在待标注文本的相应位置处划词。
可选的,本公开的信息块中的所有标签描述信息的排列顺序可以包括:基于哈夫曼树的排列顺序。
确定标签模块802用于根据针对所有标注动作各自的动作描述信息以及标签描述信息的标注操作,确定待标注文本的标签信息。
可选的,确定标签模块802可以包括:第一子模块8021以及第二子模块8022。其中的第一子模块8021可以用于将待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对所述待标注文本进行标签预测处理。其中的第二子模块8022可以用于根据该标注动作对应的标签预测模型输出的标签预测结果,获得该标注动作对应的缺省标签信息。
可选的,在本公开中的标签预测模型包括分类预测模型的情况下,本公开中的第一子模块8021可以包括第一单元80211,该第一单元80211可以用于对于基于文本分类任务的标注动作,将待标注文本提供给该标注动作对应的各分类预测模型,经由各分类预测模型对所述待标注文本进行分类预测处理。
可选的,本公开中的标签预测模型包括文本序列模型的情况下,本公开中的第一子模块8021可以包括第二单元80212,该第二单元80212可以用于对于基于文本序列任务的标注动作,将待标注文本提供给文本序列模型,经由文本序列模型对待标注文本进行划词位置预测处理。
可选的,本公开中的确定标签模块802还可以包括:第五子模块8023、第六子模块8024、第七子模块8025以及第八子模块8026。其中的第五子模块8023用于在标注操作取消与缺省标签信息对应的标签描述信息的被选择状态的情况下,根据标注操作设置的被选择状态的标签描述信息,确定待标注文本的标签信息。其中的第六子模块8024用于在标注操作维持与所述缺省标签信息对应的标签描述信息的被选择状态的情况下,将缺省标签信息作为所述待标注文本的标签信息。其中的第七子模块8025用于在标注操作改变当前划词的情况下,根据改变后的划词,确定待标注文本的标签信息。其中的第八子模块8026用于在标注操作维持当前划词的情况下,将缺省标签信息作为所述待标注文本的标签信息。
生成标注模块803用于根据待标注文本和标签信息,生成至少一条标注数据。
本公开的训练模块804包括:获取子模块8041、第一提供子模块8042、第二提供子模块8043、参数调整子模块8044、初始化子模块8045以及微调子模块8046。
获取子模块8041用于从预定数据集中获取多条文本。
第一提供子模块8042用于将获取到的多条文本分别提供给待训练动作预测模型,以经由待训练动作预测模型对各条文本进标注行动作预测处理,获得预测出的标注动作。
第二提供子模块8043用于将多条文本分别提供给所述预测出的标注动作各自对应的待训练标签预测模型,以经由待训练标签预测模型对相应文本进行标签预测处理。
参数调整子模块8044用于根据标签预测结果与相应文本的标签信息的差异,调整待训练标签预测模型的模型参数。
可选的,本公开中的获取子模块8041可以包括:第三单元80411、第四单元80412以及第五单元80413。其中的第三单元80411用于将预定数据集中的各条文本分别提供给待训练动作预测模型,以经由待训练动作预测模型对各条文本进标注行动作预测处理,获得预测出的标注动作。其中的第四单元80412用于将各条文本分别提供给预测出的标注动作各自对应的待训练标签预测模型,以经由待训练标签预测模型对相应文本进行标签预测处理。其中的第五单元80413用于根据待训练标签预测模型的隐层的输出,对各条文本进行筛选,获得至少一条文本。
初始化子模块8045可以用于利用待训练动作预测模型的隐层针对输入文本的输出,对待训练标签预测模型的模型参数进行初始化。
微调子模块8046可以用于根据待训练标签预测模型的当前模型参数及其权值、以及待训练动作预测模型的隐层针对所述多条文本的输出,对待训练标签预测模型的模型参数进行调整。
本公开的装置所包含的各模块、各子模块以及各单元具体执行的操作,可以参见上述方法实施例中的相关描述,在此不再详细说明。
示例性电子设备
下面参考图9来描述根据本公开实施例的电子设备。图9示出了根据本公开实施例的电子设备的框图。如图9所示,电子设备91包括一个或多个处理器911和存储器912。处理器911可以是中央处理单元(CPU)或者具有数据标注能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备91中的其他组件以执行期望的功能。
存储器912可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器911可以运行所述程序指令,以实现上文所述的本公开的各个实施例的数据标注方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备91还可以包括:输入装置913以及输出装置914等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备913还可以包括例如键盘、鼠标等等。该输出装置914可以向外部输出各种信息。该输出设备914可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。为了简化,图9中仅示出了该电子设备91中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备91还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据标注方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据标注方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种数据标注方法,包括:
获取当前标注工程的待标注文本;
根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息;
根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息;
根据所述待标注文本和所述标签信息,生成至少一条标注数据。
2.根据权利要求1所述的方法,其中,所述当前标注工程所包含的所有标注动作,包括:
基于文本分类任务的标注动作;和/或
基于文本序列任务的标注动作;
其中,所述基于文本分类任务的标注动作包括:基于单一分类维度的文本分类任务的一个标注动作、或者基于多分类维度的文本分类任务的多个标注动作。
3.根据权利要求2所述的方法,其中,所述根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息,包括:
对于当前标注工程所包含的任一标注动作,根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,并为所述待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息。
4.根据权利要求3所述的方法,其中,所述根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,包括:
将所述待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对所述待标注文本进行标签预测处理;
根据该标注动作对应的标签预测模型输出的标签预测结果,获得该标注动作对应的缺省标签信息。
5.根据权利要求4所述的方法,其中,所述标签预测模型包括:分类预测模型,或者,文本序列模型;所述将所述待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对所述待标注文本进行标签预测处理,包括:
对于基于文本分类任务的标注动作,将所述待标注文本提供给该标注动作对应的各分类预测模型,经由各分类预测模型对所述待标注文本进行分类预测处理;和/或
对于基于文本序列任务的标注动作,将所述待标注文本提供给文本序列模型,经由所述文本序列模型对所述待标注文本进行划词位置预测处理。
6.根据权利要求5所述的方法,其中,所述为所述待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息,包括:
对于基于文本分类任务的标注动作,显示所述待标注文本、以及至少一个信息块,并将每一个信息块中的与缺省标签信息对应的标签描述信息设置为被选择状态;其中,一个信息块包括:一个标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息;
对于基于文本序列的标注动作,显示所述待标注文本、以及与该标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息,并根据所述缺省标签信息在所述待标注文本的相应位置处划词。
7.根据权利要求6所述的方法,其中,所述信息块中的所有标签描述信息的排列顺序包括:基于哈夫曼树的排列顺序。
8.一种数据标注装置,其中,所述装置包括:
获取文本模块,用于获取当前标注工程的待标注文本;
提供信息模块,用于根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息;
确定标签模块,用于根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息;
生成标注模块,用于根据所述待标注文本和所述标签信息,生成至少一条标注数据。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7中任一项所述的方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7中任一项所述的方法。
CN201911110917.6A 2019-11-14 2019-11-14 数据标注方法、装置、介质以及电子设备 Active CN111079376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911110917.6A CN111079376B (zh) 2019-11-14 2019-11-14 数据标注方法、装置、介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911110917.6A CN111079376B (zh) 2019-11-14 2019-11-14 数据标注方法、装置、介质以及电子设备

Publications (2)

Publication Number Publication Date
CN111079376A true CN111079376A (zh) 2020-04-28
CN111079376B CN111079376B (zh) 2021-04-16

Family

ID=70310896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911110917.6A Active CN111079376B (zh) 2019-11-14 2019-11-14 数据标注方法、装置、介质以及电子设备

Country Status (1)

Country Link
CN (1) CN111079376B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269881A (zh) * 2020-11-05 2021-01-26 北京小米松果电子有限公司 多标签文本分类方法、装置及存储介质
CN113344083A (zh) * 2021-06-16 2021-09-03 安徽容知日新科技股份有限公司 一种数据标注方法、装置及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN107729378A (zh) * 2017-07-13 2018-02-23 华中科技大学 一种数据标注方法
CN108537240A (zh) * 2017-03-01 2018-09-14 华东师范大学 基于领域本体的商品图像语义标注方法
CN109299281A (zh) * 2018-07-06 2019-02-01 浙江学海教育科技有限公司 知识点标签的标注方法
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法
CN109934141A (zh) * 2019-03-01 2019-06-25 北京百度网讯科技有限公司 用于标注数据的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537240A (zh) * 2017-03-01 2018-09-14 华东师范大学 基于领域本体的商品图像语义标注方法
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN107729378A (zh) * 2017-07-13 2018-02-23 华中科技大学 一种数据标注方法
CN109299281A (zh) * 2018-07-06 2019-02-01 浙江学海教育科技有限公司 知识点标签的标注方法
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法
CN109934141A (zh) * 2019-03-01 2019-06-25 北京百度网讯科技有限公司 用于标注数据的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269881A (zh) * 2020-11-05 2021-01-26 北京小米松果电子有限公司 多标签文本分类方法、装置及存储介质
CN113344083A (zh) * 2021-06-16 2021-09-03 安徽容知日新科技股份有限公司 一种数据标注方法、装置及计算设备

Also Published As

Publication number Publication date
CN111079376B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
US11599714B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN107273438B (zh) 一种推荐方法、装置、设备及存储介质
US9535902B1 (en) Systems and methods for entity resolution using attributes from structured and unstructured data
CN109408622B (zh) 语句处理方法及其装置、设备和存储介质
CN108959482B (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
US8868609B2 (en) Tagging method and apparatus based on structured data set
CN110489751A (zh) 文本相似度计算方法及装置、存储介质、电子设备
CA3078938A1 (en) Methods, systems, and computer program product for implementing software applications with dynamic conditions and dynamic actions
AU2016256764A1 (en) Semantic natural language vector space for image captioning
US8572087B1 (en) Content identification
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
US11520982B2 (en) Generating corpus for training and validating machine learning model for natural language processing
CN110705304B (zh) 一种属性词提取方法
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN111930915A (zh) 会话信息处理方法、装置、计算机可读存储介质及设备
CN117390497B (zh) 基于大语言模型的类目预测方法、装置和设备
US11645095B2 (en) Generating and utilizing a digital knowledge graph to provide contextual recommendations in digital content editing applications
CN111079376B (zh) 数据标注方法、装置、介质以及电子设备
CN109117471B (zh) 一种词语相关度的计算方法及终端
CN112711942A (zh) 房源标题生成模型的训练方法、生成方法、装置以及设备
US11163761B2 (en) Vector embedding models for relational tables with null or equivalent values
CN115248846B (zh) 文本识别方法、设备、介质
JP2007241881A (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN114492445A (zh) 对象匹配方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201020

Address after: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing

Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd.

Address before: 300 457 days Unit 5, Room 1, 112, Room 1, Office Building C, Nangang Industrial Zone, Binhai New Area Economic and Technological Development Zone, Tianjin

Applicant before: BEIKE TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210317

Address after: 101300 room 24, 62 Farm Road, Erjie village, Yangzhen Town, Shunyi District, Beijing

Applicant after: Beijing fangjianghu Technology Co.,Ltd.

Address before: 100085 Floor 101 102-1, No. 35 Building, No. 2 Hospital, Xierqi West Road, Haidian District, Beijing

Applicant before: Seashell Housing (Beijing) Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant