CN109062950A - 一种文本标注的方法及装置 - Google Patents

一种文本标注的方法及装置 Download PDF

Info

Publication number
CN109062950A
CN109062950A CN201810650870.1A CN201810650870A CN109062950A CN 109062950 A CN109062950 A CN 109062950A CN 201810650870 A CN201810650870 A CN 201810650870A CN 109062950 A CN109062950 A CN 109062950A
Authority
CN
China
Prior art keywords
text
marked
verified
mark
annotation results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810650870.1A
Other languages
English (en)
Other versions
CN109062950B (zh
Inventor
都金涛
张家利
祁鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810650870.1A priority Critical patent/CN109062950B/zh
Publication of CN109062950A publication Critical patent/CN109062950A/zh
Application granted granted Critical
Publication of CN109062950B publication Critical patent/CN109062950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文本标注的方法及装置,应用于信息处理技术领域,用以解决文本标注过程中需要大量人工操作,导致效率较低的问题。本发明实施例的方案包括:接收并存储标注需求方发送的文本集合,然后接收标注员输入的检索条件,根据检索条件从文本集合中选取待标注文本,待标注文本包括第一预设比例的未标注文本和第二预设比例的已标注文本,然后接收标注员对待标注文本的标注结果,进而对待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。

Description

一种文本标注的方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种文本标注的方法及装置。
背景技术
随着用户使用视频网站的频率越来越高,使用时长也越来长,用户在视频网站上生成的用户原创内容(User Generated Content,UGC)文本内容量也以爆炸式的速度增长。例如,视频网站中出现的弹幕、评论、直播聊天室等都是以文字为主体的产品,用户使用视频网站中的这些功能的过程中,可以产生海量的文本。在这些文本中,往往还存在大量的垃圾文本,例如广告、辱骂文字、负面舆论信息、色情内容等。
为了优化网络环境,可通过机器学习模型识别垃圾文本,以对垃圾文本进行过滤等操作,为了提高机器学习模型识别垃圾文本的效率和准确率,需要提供大量的文本标注数据,进而通过人工标注数据对机器学习模型进行训练。
目前,得到文本标注数据的流程一般为,人工导入需要标注的文本,并对这些文本进行标注,标注完成后导出标注结果,然后人工从标注结果中抽查数据,对标注结果进行校验,在此过程中需要大量的人工操作,效率较低。
发明内容
本发明实施例的目的在于提供一种文本标注的方法及装置,解决文本标注过程中需要大量人工操作,导致效率较低的问题。具体技术方案如下:
第一方面,本发明的实施例提供一种文本标注的方法,该方法包括:
接收标注需求方发送的文本集合;
接收标注员输入的检索条件;
根据所述检索条件从所述文本集合中选取待标注文本,所述待标注文本包括第一预设比例的未标注文本和第二预设比例的已标注文本,所述第一预设比例+所述第二预设比例=1;
接收标注员对所述待标注文本的标注结果;
对所述待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。
在一种可能的实现方式中,所述根据所述检索条件从所述文本集合中选取待标注文本,包括:
通过检索引擎对所述文本集合中的文本进行检索,查找满足所述检索条件的文本身份标识ID;
从满足所述检索条件的文本ID中选取第一预设比例的未标注文本的ID,通过所述检索引擎查找第二预设比例的已标注文本的ID,所述已标注文本被标注的次数大于第二阈值且小于第三阈值;
从数据库中查找所述第一预设比例的未标注文本的ID对应的未标注文本,和所述第二预设比例的已标注文本的ID对应的已标注文本;
将所述第一预设比例的未标注文本和所述第二预设比例的已标注文本确定为所述待标注文本。
在一种可能的实现方式中,对所述待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验,包括:
通过检索引擎获取所述待标注文本中被标注的次数大于第一阈值的文本ID,作为待校验文本ID;
从数据库中查找所述待校验文本ID对应的待校验文本信息;
根据所述待校验文本信息判断所述标注员对各个所述待校验文本的标注结果是否正确;
根据判断结果确定所述标注员的标注正确率,所述标注正确率为所述待校验文本中标注正确的文本数量与所述待校验文本总数量的比值。
在一种可能的实现方式中,所述根据所述待校验文本信息判断所述标注员对各个所述待校验文本的标注结果是否正确,包括:
判断所述待校验文本是否已被审核员标注;
若确定所述待校验文本已被所述审核员标注,且所述标注员对所述待校验文本的标注结果与所述审核员对所述待校验文本的标注结果一致,则确定所述待校验文本的标注结果正确;
若确定所述待校验文本未被所述审核员标注,且所述标注员对所述待校验文本的标注结果与所述待校验文本的标注结果集中出现次数最多的标注结果一致,则确定所述标注员对所述待校验文本的标注结果正确,其中,所述待校验文本的标注结果集中包括各标注员对所述待校验文本的标注结果。
在一种可能的实现方式中,所述检索条件包括文本产生时间、业务线标签、文本内容、光学字符识别OCR内容、机审结果、文本是否被标注中的任意一项或多项;其中,机审结果为文本识别系统对文本的分类结果。
在一种可能的实现方式中,所述方法还包括:
接收标注员输入的修改指令,所述修改指令包括原业务线标签和目标业务线标签;
根据所述修改指令将数据库中存储的所述原业务线标签修改为所述目标业务线标签。
第二方面,本发明的实施例提供一种文本标注的装置,该方法包括:
接收模块,用于接收标注需求方发送的文本集合;接收标注员输入的检索条件;
选取模块,用于根据所述接收模块接收到的检索条件从所述接收模块接收到的文本集合中选取待标注文本,所述待标注文本包括第一预设比例的未标注文本和第二预设比例的已标注文本,所述第一预设比例+所述第二预设比例=1;
所述接收模块,还用于接收标注员对所述待标注文本的标注结果;
校验模块,用于对所述待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。
在一种可能的实现方式中,所述选取模块,具体用于通过检索引擎对所述文本集合中的文本进行检索,查找满足所述检索条件的文本身份标识ID;从满足所述检索条件的文本ID中选取第一预设比例的未标注文本的ID,通过所述检索引擎查找第二预设比例的已标注文本的ID,所述已标注文本被标注的次数大于第二阈值且小于第三阈值;从数据库中查找所述第一预设比例的未标注文本的ID对应的未标注文本,和所述第二预设比例的已标注文本的ID对应的已标注文本;将所述第一预设比例的未标注文本和所述第二预设比例的已标注文本确定为所述待标注文本。
在一种可能的实现方式中,所述校验模块,具体用于通过检索引擎获取所述待标注文本中被标注的次数大于第一阈值的文本ID,作为待校验文本ID;从数据库中查找所述待校验文本ID对应的待校验文本信息;根据所述待校验文本信息判断所述标注员对各个所述待校验文本的标注结果是否正确;根据判断结果确定所述标注员的标注正确率,所述标注正确率为所述待校验文本中标注正确的文本数量与所述待校验文本总数量的比值。
在一种可能的实现方式中,所述校验模块,还用于判断所述待校验文本是否已被审核员标注;若确定所述待校验文本已被所述审核员标注,且所述标注员对所述待校验文本的标注结果与所述审核员对所述待校验文本的标注结果一致,则确定所述待校验文本的标注结果正确;若确定所述待校验文本未被所述审核员标注,且所述标注员对所述待校验文本的标注结果与所述待校验文本的标注结果集中出现次数最多的标注结果一致,则确定所述标注员对所述待校验文本的标注结果正确,其中,所述待校验文本的标注结果集中包括各标注员对所述待校验文本的标注结果。
在一种可能的实现方式中,所述检索条件包括文本产生时间、业务线标签、文本内容、光学字符识别OCR内容、机审结果、文本是否被标注中的任意一项或多项;其中,机审结果为文本识别系统对文本的分类结果。
在一种可能的实现方式中,所述装置还包括:修改模块;
所述接收模块,还用于接收标注员输入的修改指令,所述修改指令包括原业务线标签和目标业务线标签;
所述修改模块,用于根据所述接收模块接收到的所述修改指令将数据库中存储的所述原业务线标签修改为所述目标业务线标签。
第三方面,本发明实施例提供一种电子设备,该方法包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。
第四方面,本发明实施还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
采用本发明实施例提供的文本标注的方法,文本标注系统可以接收到标注需求方发送的文本集合,无需人工导入需要被标注的文本,在标注员标注过程中,可通过检索条件检索到待标注文本,通过检索的方式获取待标注文本,相比于人工在大量的文本中查找并获取待标注文本更加方便,且可以更加快速地获取到待标注文本,且在标注员对待标注文本进行标注后,无需人工对标注结果进行校验,文本标注系统可选取一部分文本的标注结果进行校验。可见,在获取文本标注数据的过程中,无需人工导入数据,且无需人工对标注结果进行校验,减少了人工操作,且自动化操作相比于人工操作效率更高。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种文本标注系统的结构示意图;
图2为本发明实施例提供的一种检索功能界面的示例性示意图;
图3为本发明实施例提供的一种申诉处理功能界面的示例性示意图;
图4为本发明实施例提供的一种标注人员日报的示例性示意图;
图5为本发明实施例提供的一种标注类别日报的示例性示意图;
图6为本发明实施例提供的一种文本标注的方法的流程图;
图7为本发明实施例提供的一种文本导入架构的结构示意图;
图8为本发明实施例提供的另一种文本标注的方法的流程图;
图9为本发明实施例提供的一种文本标注的装置的结构示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了减少获取文本标注数据的过程中的人工操作,本发明实施例可通过文本标注系统接收标注需求方发送的文本集合,然后接收标注员输入的检索条件,根据检索条件从文本集合中选取待标注文本,然后接收标注员对待标注文本的标注结果,进而对待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。可见,通过本发明实施例提供的方案,文本标注系统可以接收到标注需求方发送的需要被标注的文本集合,无需人工导入需要被标注的文本集合,且在标注员对待标注文本进行标注后,无需人工对标注结果进行校验,文本标注系统可选取一部分文本的标注结果进行校验,在获取文本标注数据的过程中,无需人工导入数据,且无需人工对标注结果进行校验,减少了人工操作,且自动化操作相比于人工操作效率更高。
本发明实施例提供的文本标注的方法可以应用于如图1所示的文本标注系统中,该系统包括功能层、逻辑层和存储层,以下分别对功能层、逻辑层和存储层进行解释说明。
1、功能层包括检索功能、申诉管理功能和标注统计功能。
(1)、检索功能包括时间检索、用户检索、文本内容检索、光学字符识别(OpticalCharacter Recognition,OCR)内容检索、业务线检索和机审检索。图1中示例性地示出了以上列举的检索功能,当然本申请实施例的检索功能不限于此,可根据实际需求进行配置。例如,检索功能还可以包括对已标注文本和未标注文本的检索。
如图2所示,图2为检索功能界面的一种示例性示意图,结合图2对各检索功能进行说明。
其中,时间检索,用于对文本的产生时间进行检索,例如,文本标注系统可接收标注员在图2所示的显示界面输入的开始时间和结束时间,进而检索到在开始时间至结束时间这段时间内产生的文本。
用户检索,用于检索指定用户输入的文本,例如,文本标注系统可接收标注员在图2中用户ID对应的输入框内输入的待检索的用户ID,进而检索该用户ID对应的用户输入的文本。
文本内容检索,用于检索携带指定关键词的文本,即文本标注系统可接收标注员在图2中文本内容对应的输入框中输入的关键词,进而检索携带该关键词的文本,例如,若标注员输入的文本内容为“面膜”,则可检索携带“面膜”这一关键词的文本。可选地,本发明实施例中涉及到的文本均可以为UGC文本。
OCR内容检索,用于检索携带指定关键词的OCR文本,OCR文本为通过OCR识别到的图片评论或者图片消息中的文本。
业务线检索,用于检索不同业务线产生的文本,例如泡泡消息、弹幕消息、直播消息以及评论消息等。
机审检索,用于检索文本识别系统识别出的指定类型的文本,例如可以检索文本识别系统识别出的广告文本、无语义文本或者非垃圾文本等。
需要说明的是,每种检索功能对应一种检索条件,标注员输入的检索条件可以为上述全部或部分检索功能对应的检索条件的组合,也可以只输入一种检索功能对应的检索条件。
示例性地,图2中标注员输入的检索条件为:业务线名称为泡泡消息,开始日期为2018年4月20日,结束日期为2018年4月20日,文本内容为“面膜”,机审结果为“全部”,是否标注为“未标注”,文本标注系统可检索同时满足这些检索条件的文本。
可以理解的是,标注员可选择图2中的“未标注”,以对检索到的未标注的文本进行标注。可选地,标注员还可以选择“已标注”以查看其它标注员对文本的标注结果,或者查看自己之前对文本的标注结果。
(2)、申诉管理功能包括发起申诉功能和申诉处理功能。
发起申诉功能,用于若标注员对文本的标注结果与其他标注人员对同一文本的标注结果不一致,标注员可发起申诉,由标注管理员确定正确的标注结果。
申诉处理功能,用于在文本标注系统接收到标注员发起的申诉后,可对申诉进行处理,确定正确的标注结果。示例性地,申诉处理功能的显示界面如图3所示,图3中的标注员“nameA”为发起申诉的标注员,该标注员对文本的标注结果为“无语义”,但是系统判定结果为“广告”,审核员可参考系统判定结果和文本内容进行申诉处理。其中,系统判定结果为各标注员对该文本的标注结果组成的集合中,出现次数最多的标注结果。
若确定标注员的标注结果正确,则可点击“同意”,将发起申诉的标注员的标注结果确定为正确的标注结果;若确定标注员的标注结果不正确,则可点击“驳回”,仍以系统判定结果为准;若确定标注员的标注结果和系统判定结果均正确,则可点击“两者皆可”。
(3)、标注统计功能用于对标注人员标注的文本数量以及标注人员标注出的不同类别的文本数量进行统计。
可选的,标注统计功能可以生成标注人员日报和标注类别日报。
其中,标注人员日报用于表示每个标注人员每天标注文本的总数量,如图4所示,图4为标注人员日报的示例性示意图,图4中示出了3个标注人员每天标注文本的总数量。
标注类别日报用于统计标注人员标记的各类文本的数量。如图5所示,图5为标注类别日报的示例性示意图,以图5中的2018-3-29的标注类别日报为例,在2018年3月29日,标注人员标注出的广告文本有328个、灌水文本有22个、辱骂文本有93个、色情文本有49个,其他文本有8个。
2、逻辑层包括标注机制、自动校验机制、标注申诉机制和标签配置机制。
标注机制用于支持标注员对待标注文本的检索和标注,可以实现上述功能层的检索功能。
自动校验机制用于对标注员的标注结果进行自动校验。
标注申诉机制用于实现上述功能层中的标注申诉功能,即当标注员对文本的系统判定结果存在异议时,可提出申诉,进而由审核员对系统判定结果和发起申诉的管理员的标注结果进行审核,并将审核结果反馈给该标注员。需要说明的是,审核员确定的标注结果可以作为文本的最终标注结果。
标签配置机制用于根据标注员输入的标签修改指令修改业务线的标签,也可称为业务线的名称。
3、存储层包括文本检索引擎、文本存储系统和管理数据存储系统。
文本检索引擎可以基于倒排序检索引擎(ElasticSearch)实现,可以对上述功能层中涉及的各功能对应的检索条件进行索引,例如可以对业务线ID、用户ID、文本ID、OCR内容等信息进行索引。
文本存储系统用于存储标注需求方发送的文本以及各标注员对文本的标注结果,可选地文本存储系统可以通过文档数据库(MongoDB)来实现。
管理数据存储系统用于存储标注员的权限,文本类别,标注人员基本信息等。
可以理解的是,在实现检索功能时,可先通过文本检索引擎检索到满足检索条件的文本ID,然后从文本存储系统中查找满足检索条件的文本ID对应的文本。
结合图1所示的系统,本发明实施例提供了一种文本标注的方法,该方法可由文本标注系统执行,如图6所示,该方法包括:
S601、接收并存储标注需求方发送的文本集合。
其中,文本集合为需要被标注的文本组成的集合,标注需求方可将通过消息队列(Message Queue,MQ)将文本集合发送给文本标注系统,如图7所示,图7为本发明实施例提供的文本导入架构的示意图,标注需求方将文本集合发送给消息队列,然后消息队列可将文本集合传输至数据格式解析器,然后数据格式解析器将文本集合中的各文本进行数据格式化后以json格式写入图1中的文本标注系统的存储层,进而标注员可通过文本标注系统对文本集合中的文本进行标注。
S602、接收标注员输入的检索条件。
在本发明实施例中,标注员可通过输入检索条件来检索自身需要标注的待标注文本,这种情况下,用户一般会在检索条件中选择未标注文本。当然,标注员也可通过输入检索条件来查看自己感兴趣的文本的标注结果。
其中,检索条件包括文本产生时间、业务线标签、文本内容、OCR内容、机审结果、文本是否被标注中的任意一项或多项;其中,机审结果为文本识别系统对文本的分类结果。关于检索条件的描述具体可参考图2,以及上文中对图2的相关描述。
S603、根据检索条件从文本集合中选取待标注文本。
需要说明的是,文本集合中包括的标注需求方发送的需要被标注的文本组成的集合,文本集合中的文本可以被多个标注员标注,从文本集合中选取的待标注文本为需要被其中一个标注员标注的文本。
其中,待标注文本包括第一预设比例的未标注文本和第二预设比例的已标注文本,第一预设比例+第二预设比例=1。第一预设比例和第二预设比例可以按需调整,例如第一预设比例可以为80%,第二预设比例可以为20%。
选取待标注文本的方法为:首先通过检索引擎对文本集合中的文本进行检索,查找满足检索条件的文本ID,然后从满足检索条件的文本ID中选取第一预设比例的未标注文本的ID,通过检索引擎查找第二预设比例的已标注文本的ID,然后从数据库中查找第一预设比例的未标注文本的ID对应的未标注文本,和第二预设比例的已标注文本的ID对应的已标注文本,将第一预设比例的未标注文本和第二预设比例的已标注文本确定为待标注文本。
其中,已标注文本被标注的次数大于第二阈值且小于第三阈值。
需要说明的是,之所以将第二预设比例的已标注文本也确定为待标注文本,是为了在当前的标注员对这一部分已标注文本进行标注之后,可以对这些已标注文本进行校验,以确定该标注员的标注准确率。
示例性地,第二阈值可以为1,第三阈值可以为3,第三阈值可以为2。可以理解的,若第二阈值为1,第三阈值为3,则说明选取的已标注文本的被标注次数为2。
S604、接收标注员对待标注文本的标注结果。
文本标注系统接收到标注员对待标注文本的标注结果之后,可以在检索引擎中存储的待标注文本的相关信息中添加标注员ID,并将该标注员对待标注文本的标注结果存储在数据库中存储的待标注文本的相关信息中,使标注员ID与待标注文本的标注结果相关联。通过这种存储方式,在检索过程中可以快速通过搜索引擎获取到与该标注员相关的文本ID。
可以理解的,若第二阈值为1,第三阈值为3,标注员此次对待标注文本中的那部分已标注文本进行标注后,那部分已标注文本的被标注次数将更新为3。
S605、对待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。
其中,若第二阈值为1,第三阈值为3,则第二阈值可以为2,即对被标注次数大于2的文本的标注结果进行校验,可以理解的是,在上一步骤中,接收到标注员对待标注文本的标注结果之后,待标注文本中的已标注文本的被标注次数已被更新为3,即大于第一阈值,所以文本标注系统可以从这一部分文本中选取部分或全部进行校验。
首先可通过检索引擎(例如图1中的文本检索引擎)获取待标注文本中被标注的次数大于第一阈值的文本ID,作为待校验文本ID,然后从数据库中(例如图1中的文本存储系统)查找待校验文本ID对应的待校验文本信息,然后根据待校验文本信息判断标注员对各个待校验文本的标注结果是否正确,最后根据判断结果确定标注员的标注正确率,标注正确率为待校验文本中标注正确的文本数量与待校验文本总数量的比值。
需要说明的是,在上述步骤中涉及到的标注员均指同一个标注员,待校验文本信息包括该标注员对待校验文本的标注结果以及其他标注员对待校验文本的标注结果,可选的,若待校验文本在申诉流程中被审核员标注过或者审核过,则待校验文本信息还包括审核员对待校验文本的标注结果。
采用本发明实施例提供的文本标注的方法,文本标注系统可以接收到标注需求方发送的文本集合,无需人工导入需要被标注的文本,在标注员标注过程中,可通过检索条件检索到待标注文本,通过检索的方式获取待标注文本,相比于人工在大量的文本中查找并获取待标注文本更加方便,且可以更加快速地获取到待标注文本,且在标注员对待标注文本进行标注后,无需人工对标注结果进行校验,文本标注系统可选取一部分文本的标注结果进行校验。可见,在获取文本标注数据的过程中,无需人工导入数据,且无需人工对标注结果进行校验,减少了人工操作,且自动化操作相比于人工操作效率更高。
在图6实施例描述的流程中,可以对标注员的标注结果进行校验,最终计算出标注员的质量分,通过质量分来衡量标注人员的标注质量,基于此,以下结合具体的例子对上述S605、对待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验的方法进行详细说明,在该实施例中,以第一阈值为2,标注员为标注员A为例说明,如图8所示,该方法包括:
S801、通过文本检索引擎检索被标注员A标注过,且被标注次数大于2的待校验文本ID。
需要说明的是,被标注次数是指待校验文本被多少个标注员标注过,若被标注次数为3,则说明待校验文本被3个标注员标注过。
S802、从文本存储系统中查找待校验文本ID对应的待校验文本信息。
需要说明的是,文本标注系统可以通过遍历的方式从文本标注系统中逐个查找每个待校验文本ID对应的待校验文本信息,每查找到一个待校验文本信息则判断标注员A对该待校验文本的标注结果是否正确,得到判断结果之后再取查找下一个待校验文本ID对应的待校验文本信息。
S803、判断是否遍历完成。
可以理解的是,若遍历完成则说明已经完成了对选取的所有待校验文本的校验。
若遍历已完成,则执行S804,若遍历未完成,则执行S805,继续对下一个待校验文本进行校验。
S804、计算标注员A的质量分。
其中,质量分为待校验文本中被标注员A标注正确的文本数量占待校验文本总数量的比值。
S805、判断当前遍历到的待校验文本是否已被审核员标注。
其中,若待校验文本已被审核员标注,说明之前有标注员对该校验文本发起过申诉,且审核员已经对申诉进行处理,确定了正确的标注结果,待校验文本的标注结果以审核员确定的标注结果为准。
若待校验文本已被审核员标注,则执行S806;若待校验文本未被审核员标注,则执行S807。
S806、判断标注员A对待校验文本的标注结果与审核员的标注结果是否一致。
可以理解的是,若标注员A对待校验文本的标注结果与审核员的标注结果不一致,则认为标注员A对该待校验文本的标注结果错误,返回S803,继续对下一个待校验文本进行校验。
反之,若标注员A对待校验文本的标注结果与审核员的标注结果一致,则认为标注员A对该待校验文本的标注结果正确,继续执行S808。
S807、判断标注员A对待校验文本的标注结果与待校验文本的标注结果集中出现次数最多的标注结果是否一致。
其中,标注结果集中包括各标注员对该待校验文本的标注结果。
示例性地,若3个标注员对该待校验文本进行了标注,且标注员A与标注员B对该待校验文本的标注结果为广告,标注员C对该待校验文本的标注结果为正常文本,则可依据少数服从多数原则,确定待校验文本的正确标注结果为广告,即标注员A和标注员B的标注结果正确。
而若标注员B和标注员C的对该待校验文本的标注结果相同,标注员A对该待校验文本的标注结果与标注员B和C的标注结果均不同,则可确定标注员A的标注结果错误。
通过上述分析,若判断结果为是,说明标注员A的标注结果正确,则执行S808,若判断结果为否,说明标注员A的标注结果错误,则返回S803,继续对下一个待校验文本进行校验。
S808、将待校验文本中的正确文本数量加1。
在S808之后,可返回S803,继续对下一个待校验文本进行校验。
采用本发明实施例提供的文本标注的方法,文本标注系统可以通过检索引擎获取待校验文本,然后根据待校验文本的标注结果集或者审核员对待校验文本的标注结果来确定标注员是否标注正确,进而根据正确率来确定该标注员的质量分,在校验过程中没有人工参与,实现了自动化校验,可以提高校验的效率和准确率。
在本发明另一实施例中,本发明实施例提供的文本标注系统提供了可供标注员修改业务线标签的界面,文本标注系统在接收到标注员输入的修改指令后,可根据修改指令将数据库中存储的原业务线标签修改为目标业务线标签。
其中,修改指令中包括原业务线标签和目标业务线标签,例如,原业务线标签为“弹幕吐槽”,目标业务线标签为“弹幕评论”,则文本标注系统可将数据库中存储的业务线标签“弹幕吐槽”修改为“弹幕评论”。
对应于上述方法实施例,本发明实施例还提供一种文本标注的装置,如图9所示,该装置包括:接收模块901、选取模块902、校验模块903。
接收模块901,用于接收标注需求方发送的文本集合;接收标注员输入的检索条件;
选取模块902,用于根据接收模块901接收到的检索条件从接收模块901接收到的文本集合中选取待标注文本,待标注文本包括第一预设比例的未标注文本和第二预设比例的已标注文本,第一预设比例+第二预设比例=1;
接收模块901,还用于接收标注员对待标注文本的标注结果;
校验模块903,用于对待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。
其中,检索条件包括文本产生时间、业务线标签、文本内容、光学字符识别OCR内容、机审结果、文本是否被标注中的任意一项或多项;其中,机审结果为文本识别系统对文本的分类结果。
在本发明实施例的一种可能的实现方式中,选取模块902,具体用于通过检索引擎对文本集合中的文本进行检索,查找满足检索条件的文本身份标识ID;从满足检索条件的文本ID中选取第一预设比例的未标注文本的ID,通过检索引擎查找第二预设比例的已标注文本的ID,已标注文本被标注的次数大于第二阈值且小于第三阈值;从数据库中查找第一预设比例的未标注文本的ID对应的未标注文本,和第二预设比例的已标注文本的ID对应的已标注文本;将第一预设比例的未标注文本和第二预设比例的已标注文本确定为待标注文本。
在本发明实施例的一种可能的实现方式中,校验模块903,具体用于通过检索引擎获取待标注文本中被标注的次数大于第一阈值的文本ID,作为待校验文本ID;从数据库中查找待校验文本ID对应的待校验文本信息;根据待校验文本信息判断标注员对各个待校验文本的标注结果是否正确;根据判断结果确定标注员的标注正确率,标注正确率为待校验文本中标注正确的文本数量与待校验文本总数量的比值。
在本发明实施例的一种可能的实现方式中,校验模块903,还用于判断待校验文本是否已被审核员标注;若确定待校验文本已被审核员标注,且标注员对待校验文本的标注结果与审核员对待校验文本的标注结果一致,则确定待校验文本的标注结果正确;若确定待校验文本未被审核员标注,且标注员对待校验文本的标注结果与待校验文本的标注结果集中出现次数最多的标注结果一致,则确定标注员对待校验文本的标注结果正确,其中,待校验文本的标注结果集中包括各标注员对待校验文本的标注结果。
可选地,在本发明实施例的一种可能的实现方式中,该装置还包括:修改模块903。
接收模块901,还用于接收标注员输入的修改指令,修改指令包括原业务线标签和目标业务线标签;
修改模块903,用于根据接收模块901接收到的修改指令将数据库中存储的原业务线标签修改为目标业务线标签。
本发明实施例还提供了一种电子设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现上述方法实施例中描述的方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一文本标注的方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一文本标注的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (13)

1.一种文本标注的方法,其特征在于,包括:
接收标注需求方发送的文本集合;
接收标注员输入的检索条件;
根据所述检索条件从所述文本集合中选取待标注文本,所述待标注文本包括第一预设比例的未标注文本和第二预设比例的已标注文本,所述第一预设比例+所述第二预设比例=1;
接收标注员对所述待标注文本的标注结果;
对所述待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。
2.根据权利要求1所述的方法,其特征在于,所述根据所述检索条件从所述文本集合中选取待标注文本,包括:
通过检索引擎对所述文本集合中的文本进行检索,查找满足所述检索条件的文本身份标识ID;
从满足所述检索条件的文本ID中选取第一预设比例的未标注文本的ID,通过所述检索引擎查找第二预设比例的已标注文本的ID,所述已标注文本被标注的次数大于第二阈值且小于第三阈值;
从数据库中查找所述第一预设比例的未标注文本的ID对应的未标注文本,和所述第二预设比例的已标注文本的ID对应的已标注文本;
将所述第一预设比例的未标注文本和所述第二预设比例的已标注文本确定为所述待标注文本。
3.根据权利要求2所述的方法,其特征在于,所述对所述待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验,包括:
通过检索引擎获取所述待标注文本中被标注的次数大于第一阈值的文本ID,作为待校验文本ID;
从数据库中查找所述待校验文本ID对应的待校验文本信息;
根据所述待校验文本信息判断所述标注员对各个所述待校验文本的标注结果是否正确;
根据判断结果确定所述标注员的标注正确率,所述标注正确率为所述待校验文本中标注正确的文本数量与所述待校验文本总数量的比值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述待校验文本信息判断所述标注员对各个所述待校验文本的标注结果是否正确,包括:
判断所述待校验文本是否已被审核员标注;
若确定所述待校验文本已被所述审核员标注,且所述标注员对所述待校验文本的标注结果与所述审核员对所述待校验文本的标注结果一致,则确定所述待校验文本的标注结果正确;
若确定所述待校验文本未被所述审核员标注,且所述标注员对所述待校验文本的标注结果与所述待校验文本的标注结果集中出现次数最多的标注结果一致,则确定所述标注员对所述待校验文本的标注结果正确,其中,所述待校验文本的标注结果集中包括各标注员对所述待校验文本的标注结果。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述检索条件包括文本产生时间、业务线标签、文本内容、光学字符识别OCR内容、机审结果、文本是否被标注中的任意一项或多项;其中,机审结果为文本识别系统对文本的分类结果。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
接收标注员输入的修改指令,所述修改指令包括原业务线标签和目标业务线标签;
根据所述修改指令将数据库中存储的所述原业务线标签修改为所述目标业务线标签。
7.一种文本标注的装置,其特征在于,包括:
接收模块,用于接收标注需求方发送的文本集合;接收标注员输入的检索条件;
选取模块,用于根据所述接收模块接收到的检索条件从所述接收模块接收到的文本集合中选取待标注文本,所述待标注文本包括第一预设比例的未标注文本和第二预设比例的已标注文本,所述第一预设比例+所述第二预设比例=1;
所述接收模块,还用于接收标注员对所述待标注文本的标注结果;
校验模块,用于对所述待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。
8.根据权利要求7所述的装置,其特征在于,
所述选取模块,具体用于通过检索引擎对所述文本集合中的文本进行检索,查找满足所述检索条件的文本身份标识ID;从满足所述检索条件的文本ID中选取第一预设比例的未标注文本的ID,通过所述检索引擎查找第二预设比例的已标注文本的ID,所述已标注文本被标注的次数大于第二阈值且小于第三阈值;从数据库中查找所述第一预设比例的未标注文本的ID对应的未标注文本,和所述第二预设比例的已标注文本的ID对应的已标注文本;将所述第一预设比例的未标注文本和所述第二预设比例的已标注文本确定为所述待标注文本。
9.根据权利要求8所述的装置,其特征在于,
所述校验模块,具体用于通过检索引擎获取所述待标注文本中被标注的次数大于第一阈值的文本ID,作为待校验文本ID;从数据库中查找所述待校验文本ID对应的待校验文本信息;根据所述待校验文本信息判断所述标注员对各个所述待校验文本的标注结果是否正确;根据判断结果确定所述标注员的标注正确率,所述标注正确率为所述待校验文本中标注正确的文本数量与所述待校验文本总数量的比值。
10.根据权利要求9所述的装置,其特征在于,
所述校验模块,还用于判断所述待校验文本是否已被审核员标注;若确定所述待校验文本已被所述审核员标注,且所述标注员对所述待校验文本的标注结果与所述审核员对所述待校验文本的标注结果一致,则确定所述待校验文本的标注结果正确;若确定所述待校验文本未被所述审核员标注,且所述标注员对所述待校验文本的标注结果与所述待校验文本的标注结果集中出现次数最多的标注结果一致,则确定所述标注员对所述待校验文本的标注结果正确,其中,所述待校验文本的标注结果集中包括各标注员对所述待校验文本的标注结果。
11.根据权利要求7至9任一项所述的装置,其特征在于,所述检索条件包括文本产生时间、业务线标签、文本内容、光学字符识别OCR内容、机审结果、文本是否被标注中的任意一项或多项;其中,机审结果为文本识别系统对文本的分类结果。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:修改模块;
所述接收模块,还用于接收标注员输入的修改指令,所述修改指令包括原业务线标签和目标业务线标签;
所述修改模块,用于根据所述接收模块接收到的所述修改指令将数据库中存储的所述原业务线标签修改为所述目标业务线标签。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
CN201810650870.1A 2018-06-22 2018-06-22 一种文本标注的方法及装置 Active CN109062950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810650870.1A CN109062950B (zh) 2018-06-22 2018-06-22 一种文本标注的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810650870.1A CN109062950B (zh) 2018-06-22 2018-06-22 一种文本标注的方法及装置

Publications (2)

Publication Number Publication Date
CN109062950A true CN109062950A (zh) 2018-12-21
CN109062950B CN109062950B (zh) 2021-11-05

Family

ID=64820824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810650870.1A Active CN109062950B (zh) 2018-06-22 2018-06-22 一种文本标注的方法及装置

Country Status (1)

Country Link
CN (1) CN109062950B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备
CN110222709A (zh) * 2019-04-29 2019-09-10 上海暖哇科技有限公司 一种多标签智能打标方法及系统
CN110264996A (zh) * 2019-04-17 2019-09-20 北京爱数智慧科技有限公司 语音标注质量确定方法、装置、设备及计算机可读介质
CN110674638A (zh) * 2019-09-23 2020-01-10 百度在线网络技术(北京)有限公司 语料标注系统及电子设备
CN110674633A (zh) * 2019-09-18 2020-01-10 平安科技(深圳)有限公司 文书评审的校对方法及装置、存储介质、电子设备
CN111080092A (zh) * 2019-11-29 2020-04-28 北京云聚智慧科技有限公司 数据标注管理方法及装置、电子设备和可读存储介质
CN111263195A (zh) * 2020-01-08 2020-06-09 上海米哈游天命科技有限公司 弹幕处理方法、装置、服务器设备及存储介质
CN113298112A (zh) * 2021-04-01 2021-08-24 安徽继远软件有限公司 一种一体化数据智能标注方法及系统
CN113361265A (zh) * 2021-07-08 2021-09-07 北京乐学帮网络技术有限公司 数据质量检验方法、装置、电子设备及存储介质
CN115248831A (zh) * 2021-04-28 2022-10-28 马上消费金融股份有限公司 一种标注方法、装置、系统、设备及可读存储介质
US11921767B1 (en) * 2018-09-14 2024-03-05 Palantir Technologies Inc. Efficient access marking approach for efficient retrieval of document access data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN106095754A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种医学术语词库词性标注方法
CN106407407A (zh) * 2016-09-22 2017-02-15 江苏通付盾科技有限公司 一种文件标注系统及方法
WO2018024243A1 (zh) * 2016-08-05 2018-02-08 腾讯科技(深圳)有限公司 字符识别中识别结果的校验方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN106095754A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种医学术语词库词性标注方法
WO2018024243A1 (zh) * 2016-08-05 2018-02-08 腾讯科技(深圳)有限公司 字符识别中识别结果的校验方法和装置
CN106407407A (zh) * 2016-09-22 2017-02-15 江苏通付盾科技有限公司 一种文件标注系统及方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11921767B1 (en) * 2018-09-14 2024-03-05 Palantir Technologies Inc. Efficient access marking approach for efficient retrieval of document access data
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备
CN110264996A (zh) * 2019-04-17 2019-09-20 北京爱数智慧科技有限公司 语音标注质量确定方法、装置、设备及计算机可读介质
CN110264996B (zh) * 2019-04-17 2021-12-17 北京爱数智慧科技有限公司 语音标注质量确定方法、装置、设备及计算机可读介质
CN110222709A (zh) * 2019-04-29 2019-09-10 上海暖哇科技有限公司 一种多标签智能打标方法及系统
CN110222709B (zh) * 2019-04-29 2022-01-25 上海暖哇科技有限公司 一种多标签智能打标方法及系统
CN110674633A (zh) * 2019-09-18 2020-01-10 平安科技(深圳)有限公司 文书评审的校对方法及装置、存储介质、电子设备
CN110674638A (zh) * 2019-09-23 2020-01-10 百度在线网络技术(北京)有限公司 语料标注系统及电子设备
CN110674638B (zh) * 2019-09-23 2023-12-01 百度在线网络技术(北京)有限公司 语料标注系统及电子设备
CN111080092A (zh) * 2019-11-29 2020-04-28 北京云聚智慧科技有限公司 数据标注管理方法及装置、电子设备和可读存储介质
CN111080092B (zh) * 2019-11-29 2023-04-18 北京云聚智慧科技有限公司 数据标注管理方法及装置、电子设备和可读存储介质
CN111263195A (zh) * 2020-01-08 2020-06-09 上海米哈游天命科技有限公司 弹幕处理方法、装置、服务器设备及存储介质
CN111263195B (zh) * 2020-01-08 2022-04-15 上海米哈游天命科技有限公司 弹幕处理方法、装置、服务器设备及存储介质
CN113298112A (zh) * 2021-04-01 2021-08-24 安徽继远软件有限公司 一种一体化数据智能标注方法及系统
CN115248831A (zh) * 2021-04-28 2022-10-28 马上消费金融股份有限公司 一种标注方法、装置、系统、设备及可读存储介质
CN115248831B (zh) * 2021-04-28 2024-03-15 马上消费金融股份有限公司 一种标注方法、装置、系统、设备及可读存储介质
CN113361265A (zh) * 2021-07-08 2021-09-07 北京乐学帮网络技术有限公司 数据质量检验方法、装置、电子设备及存储介质
CN113361265B (zh) * 2021-07-08 2024-05-28 北京乐学帮网络技术有限公司 数据质量检验方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109062950B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN109062950A (zh) 一种文本标注的方法及装置
US9477750B2 (en) System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
US10387565B2 (en) Systems and methods for advanced grammar checking
CN108874777B (zh) 一种文本反垃圾的方法及装置
US9460458B1 (en) Methods and system of associating reviewable attributes with items
US20150286627A1 (en) Contextual sentiment text analysis
US9275038B2 (en) Method and apparatus for identifying customer service and duplicate questions in an online consultation system
US20130297553A1 (en) Method and apparatus for predicting question answerability in an online consultation system
CN111090776A (zh) 一种视频审核的方法、装置、审核服务器和存储介质
WO2017036047A1 (zh) 信息提取方法和信息提取装置
US10296552B1 (en) System and method for automated identification of internet advertising and creating rules for blocking of internet advertising
US10459602B2 (en) Method and system for electronic collaboration
US9501580B2 (en) Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website
Mezouar et al. Are tweets useful in the bug fixing process? an empirical study on firefox and chrome
US20210126882A1 (en) Method and System for Electronic Collaboration
US20170011480A1 (en) Data analysis system, data analysis method, and data analysis program
CN112363903A (zh) 故障报告生成方法、装置、电子设备和计算机可读介质
US11176209B2 (en) Dynamically augmenting query to search for content not previously known to the user
WO2013009956A1 (en) Distributed online collaboration platform incorporating unstructured and structured data
JP2018132882A (ja) 設計支援システムおよびプログラム
TWI709905B (zh) 資料分析方法及資料分析系統
TWM617933U (zh) 新聞及公眾意見分析系統
US10992631B1 (en) Social quality review
US11068376B2 (en) Analytics engine selection management
US20180314673A1 (en) System and Method for Capturing and Processing Image and Text Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant