CN110750523A - 数据标注方法、系统、计算机设备和存储介质 - Google Patents

数据标注方法、系统、计算机设备和存储介质 Download PDF

Info

Publication number
CN110750523A
CN110750523A CN201910862671.1A CN201910862671A CN110750523A CN 110750523 A CN110750523 A CN 110750523A CN 201910862671 A CN201910862671 A CN 201910862671A CN 110750523 A CN110750523 A CN 110750523A
Authority
CN
China
Prior art keywords
data
annotation
labeling
random field
conditional random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910862671.1A
Other languages
English (en)
Inventor
王丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN201910862671.1A priority Critical patent/CN110750523A/zh
Publication of CN110750523A publication Critical patent/CN110750523A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据标注方法、系统、计算机设备和存储介质。所述方法包括:获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。采用本方法能够提高数据标注的准确性和效率。

Description

数据标注方法、系统、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据标注方法、系统、计算机设备和存储介质。
背景技术
如今人工智能技术已经广泛应用在智能控制、机器人学、自动化技术、语言和图像理解、娱乐、医学等领域,代替人工从事部分繁琐的事务。人工智能算法需要学习海量的标注数据,才能够进行自主识别和做出决策,这就需要对原始数据进行数据标注。数据标注是指对文本、图片、语音等原始数据进行描述或者标记的过程,数据标注的质量很大程度上会影响人工智能的智能化水平。
现有的数据标注过程中,需要手动将待标注数据任务拆分成多个子任务并分发给多个标注者,各个标注者分别对自己负责的子任务进行标注,所有子任务的标注工作完成后,将各标注者标注后的数据汇总保存。标注工作繁琐枯燥,数据标注的效率差,而且工作标注数据的质量受标注人员的主观因素影响较大,标注数据的准确度低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据标注准确度的数据标注方法、系统、计算机设备和存储介质。
一种数据标注方法,所述方法包括:
获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;
对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;
采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;
根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。
在其中一个实施例中,所述方法还包括:
根据所述正确标注数据,构建正确标注数据集;
采用所述正确标注数据集对所述当前条件随机场模型进行训练,得到第一条件随机场模型;
将所述第一条件随机场模型设为所述当前条件随机场模型。
在其中一个实施例中,所述采用所述正确标注数据集对所述当前条件随机场模型进行训练,得到第一条件随机场模型,包括:
对所述正确标注数据集进行预处理,得到输入序列和输出序列;
根据所述当前条件随机场模型、所述输入序列和所述输出序列,得到所述第一条件随机场模型。
在其中一个实施例中,所述对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据,包括:
对所述第一标注数据中的变量分布进行假设,得到第一分布参数或第一分布模型;
采用所述第一标注数据对所述第一分布参数或所述第一分布模型进行拟合或训练,得到第二分布参数或第二分布模型;
根据所述第一标注数据与所述第二分布参数或所述第二分布模型,得到第二标注数据。
在其中一个实施例中,所述方法还包括:
对所述第一标注数据进行存储,得到离线标注数据集;
采用所述离线标注数据集对所述当前条件随机场模型进行训练,得到第二条件随机场模型;
将所述第二条件随机场模型设为所述当前条件随机场模型。
在其中一个实施例中,所述获取第一标注数据,包括:
构建交互场景,所述交互场景用于展示待标注数据及标注方式;
优选地,所述交互场景为游戏交互场景;
获取用户根据所述标注方式对所述待标注数据进行数据标注后得到的第一标注数据。
在其中一个实施例中,所述方法还包括:
当所述第一标注数据与所述预测标注数据一致时,向所述用户发送反馈数据。
一种数据标注系统,所述系统包括:
获取模块,用于获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;
预处理模块,用于对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;
预测模块,用于采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;
校验模块,用于根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;
对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;
采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;
根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;
对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;
采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;
根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。
上述数据标注方法、系统、计算机设备和存储介质,通过获取多用户重复标注方式得到的第一标注数据,降低了单一用户对标注数据质量的影响程度;然后对第一标注数据进行聚类去噪,再结合条件随机场模型进行预测,根据得到的预测标注数据对第一标注数据进行校验,得到正确标注数据,并判断出用户的提交结果是否正确。本技术方案降低了标注者主观因素对标注数据的影响,并利用条件随机场模型对用户提交的标注数据进行校验,数据校验效率高,有效地提高了数据标注的准确度和效率。
附图说明
图1为一个实施例中数据标注方法的应用环境图;
图2为一个实施例中数据标注方法的流程示意图;
图3为一个实施例中条件随机场模型训练步骤的流程示意图;
图4为另一个实施例中数据标注方法的流程示意图;
图5为一个实施例中数据标注系统的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据标注方法,可以应用于如图1所示的应用环境中。其中,多个终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据标注方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,服务器获取第一标注数据;
其中,该第一标注数据包括多个用户对同一待标注数据的多个标注数据,即多用户对一个待标注数据进行了重复标注。
具体地,同一个待标注数据可以在多个不同终端上显示,不同用户分别在各自的终端上对该待标注数据进行标注,完成标注后,再分别向服务器提交标注结果,各用户的标注行为既可以是同时发生的,也可以是在不同时间发生的,也就是说,服务器可以在不同时间获取到各用户反馈的标注数据,存储在数据库中供后续计算处理。
步骤204,对获取到的第一标注数据进行聚类去噪,得到第二标注数据。
其中,该第一标注数据包括同一待标注数据对应的多个标注数据,可能会具有一定的噪音数据,需要进行聚类去噪处理;该第二标注数据为第一标注数据去噪后的数据。
具体地,服务器根据该第一标注数据建立聚类模型,得到数据质量更高的第二标注数据,可以包括:对第一标注数据中的变量分布进行假设,得到第一分布参数或第一分布模型;再采用第一标注数据对第一分布参数或第一分布模型进行拟合或训练,得到第二分布参数或第二分布模型;最后,根据第一标注数据与第二分布参数或第二分布模型,得到第二标注数据。具体实施时,建立聚类模型的方法可以为最大似然估计法、近似法、马尔科夫链方法或者马尔可夫聚类算法。
步骤206,采用当前条件随机场模型对该第二标注数据进行预测,得到预测标注数据。
其中,该当前条件随机场模型可以为服务器中存储的预设条件随机场模型,该预设条件随机场模型可以通过手动设置更新;或者,该当前条件随机场模型还可以为服务器不断自动更新的条件随机场模型。
具体地,服务器将第二标注数据输入该当前条件随机场模型,在当前条件随机场模型中进行预测,该当前条件随机场模型输出预测标注数据。该预测标注数据为当前条件随机场模型对第二标注数据的预测结果,在标注数据量很大的情况下,该预测标注数据极为接近甚至可能等同于正确的标注结果。
步骤208,根据该预测标注数据对第一标注数据进行校验,得到正确标注数据。
其中,正确标注数据为与预测标注数据一致的第一标注数据。
具体地,将第一标注数据与步骤206中得到的预测标注数据进行对比分析,判断该第一标注数据是否与该预测标注数据一致,当两者一致时,判定该第一标注数据为正确标注数据,即用户提交的标注结果正确,当两者不一致时,则判定该第一标注数据是错误的,即用户提交的标注结果错误。
上述数据标注方法中,通过获取多用户重复标注方式得到的第一标注数据,降低了单一用户对标注数据质量的影响程度,也就是说,不会出现一个待标注数据只有一个用户进行标注,一旦该用户标注失误,得到的标注数据就完全错误的情况,提高了数据标注准确率;然后通过对第一标注数据进行聚类去噪,得到数据质量更高的第二标注数据,再通过条件随机场模型对所述第二标注数据进行预测,根据得到的预测标注数据对第一标注数据进行校验,得到正确标注数据,并判断出用户的提交结果是否正确。本技术方案采集多用户重复标注的数据,降低了标注者主观因素对标注数据的影响,并利用条件随机场模型对用户提交的标注数据进行校验,数据校验效率高,从而有效地提高了数据标注的准确度和效率。
在一个实施例中,如图3所示,该方法还包括条件随机场模型训练步骤,包括以下步骤:
步骤302,根据正确标注数据,构建正确标注数据集;
其中,该正确标注数据集为正确标注数据的集合,其包含的正确标注数据量可以不断累积增加。
具体地,服务器将计算得到的各正确标注数据存储在同一个数据库中,该数据库可以不断更新。
步骤304,采用正确标注数据集对当前条件随机场模型进行训练,得到第一条件随机场模型。
其中,该第一条件随机场模型为当前条件随机场模型采用正确标注数据集训练后得到的新条件随机场模型。
具体地,步骤304包括以下步骤:
对正确标注数据集进行预处理,包括:结合用户在终端提交的字段以及原始的纯文本格式的数据进行数据整合,得到词组序列;将该词组序列与预先设置的关键词模板进行匹配,得到标准化数据,该标准化数据包括输入序列x和输出序列y。
例如,用户对“适用于苹果华为三星手机的小米蓝牙耳机”进行了数据提交,品牌为小米,关键物品词为耳机。可以把(NAN,NAN,NAN,NAN,NAN,NAN,品牌,NAN,物品词)作为标记序列,记为Y,把(适用于,苹果,华为,三星,手机,的,小米,蓝牙,耳机)作为观测序列,记为输入序列X。
定义一个特征函数集合,用这个特征函数集合来为一个标记序列打分,并据此选出最靠谱的标注序列,也就是说,每一个特征函数都可以用来为一个标注序列评分,把集合中所有特征函数对同一个标注序列的评分综合起来,就是这个标注序列最终的评分值。
在条件概率模型P(Y|X)中,Y是输出变量,X是输入变量。模型学习时,利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型P^(Y|X),即根据当前条件随机场P(Y|X),输入序列x和输出序列y,计算条件概率P(Yi-1=yi-1,Yi=yi|x),P(Yi=yi|x)以及相应的数学期望的问题。
步骤306,将第一条件随机场模型设为当前条件随机场模型。
其中,该当前条件随机场模型用于对第二标注数据进行预测,输出预测标注数据。
本实施例提供的一种数据标注方法中,服务器通过正确标注数据集对当前条件随机场模型进行训练,得到该第一条件随机场模型,再将该第一条件随机场模型设置为当前条件随机场模型,实现对当前条件随机场模型的不断更新,从而进一步优化标注数据质量。
在一个实施例中,如图4所示,该数据标注方法包括以下步骤:
步骤402,服务器获取第一标注数据,该第一标注数据包括多个用户对同一待标注数据的多个标注数据。
步骤404,对获取到的第一标注数据进行聚类去噪,得到第二标注数据。
步骤406,采用当前条件随机场模型对该第二标注数据进行预测,得到预测标注数据。
步骤408,根据该预测标注数据对第一标注数据进行校验,得到正确标注数据,构建正确标注数据集,正确标注数据为与预测标注数据一致的第一标注数据。
步骤410,采用正确标注数据集对当前条件随机场模型进行训练,得到第一条件随机场模型。
步骤412,将第一条件随机场模型设为当前条件随机场模型。
本实施例提供的一种数据标注方法中,获取多用户重复标注的数据,结合当前条件随机场模型对标注数据进行校验,数据校验效率高,而且该当前条件随机场模型可以通过训练不断更新优化,从而进一步提高了数据标注的准确度和效率。
在一个实施例中,获取第一标注数据,包括:
构建交互场景,交互场景用于展示待标注数据及标注方式。
其中,服务器构建交互系统,并将交互系统中的交互场景发送到各终端进行显示,用户在终端通过交互场景进入上述交互系统,通过互动的方式进行数据标注;该交互场景可以为游戏交互场景,游戏中可以包含丰富的元素,能够增强标注工作的趣味性。
获取用户根据标注方式对待标注数据进行数据标注后得到的第一标注数据,即获取用户反馈的标注数据结果。
具体地,服务器可以通过线上互动的方式进行数据采集,也就是说用户可以在任意地点的终端访问交互场景,进行数据标注,从而能够获得更多的标注用户,用户维度会更广,而用户性别、年纪、工作、收入、地域、情感、目标、行为等的维度扩张使数据标注的维度更广,打造出一个开放的数据标注平台,同时还增加了用户互动性。
当第一标注数据与预测标注数据一致时,向用户发送反馈数据。
其中,第一标注数据与预测标注数据一致时,服务器判定用户提交的标注数据是正确的,给与用户正向反馈;反馈数据可以为积分奖励或代金券等。
本实施例中,服务器构建的交互场景可以为游戏交互场景,该交互场景的其中一个场景可以是网页小游戏场景,例如城市探索类游戏,游戏中城市有大量商铺,用户进入城市地图,商铺中有一定量的文本量和图片,文本量主要以商品数据为主,在城市店铺中,用户可以根据图片或文本来整理杂乱的店铺,提交标注数据,或者在浏览图片的同时,查找隐藏的错误数据,找到错误数据进行提交。进一步具体地,用户进入品牌识别场景,会看到如下文字“适用于苹果华为三星手机的小米蓝牙耳机”,同时配有图片,图片中有苹果华为三星小米的品牌标识以及耳机手机的物品图片。交互系统随机设定勾选品牌以及物品,用户判断交互系统是否勾选正确,或者交互系统未进行勾选设置,用户进行勾选提交。
如果用户提交的标注数据被服务器校验正确,会有相应的奖励,奖励可以是相应的积分值或代金券,该奖励在不同行业可以有不同体现。
本实施例提供的数据标注方法,通过将待标注数据以小游戏的形式呈现给更多用户,能够增强标注工作的趣味性,并淡化标注的意识性。
在一个实施例中,该方法还包括:
对第一标注数据进行存储,得到离线标注数据集;
其中,服务器获取各用户在各终端提交的第一标注数据并存储。
采用离线标注数据集对当前条件随机场模型进行训练,得到第二条件随机场模型;将第二条件随机场模型设为当前条件随机场模型。
具体实施时,第一标注数据为用户提交的反馈数据,服务器存储该第一标注数据。当处理对实时动态要求高的任务时,例如,需要判别用户提交的标注结果是否正确并给予反馈时,由于要求反馈的时效和准确度较高,服务器需要对第一标注数据进行在线处理,从而达到增强与用户互动的效果。然而,当处理时间要求不严格的任务时,服务器就可以采用离线处理方式,例如,训练当前条件随机场模型,该离线标注数据集中存储的离线数据主要用于条件随机场模型的训练。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种数据标注系统,包括:获取模块502、预处理模块504、预测模块506和校验模块508,其中:
获取模块502,用于获取第一标注数据,第一标注数据包括多个用户对同一待标注数据的多个标注数据;
预处理模块504,用于对获取到的第一标注数据进行聚类去噪,得到第二标注数据;
预测模块506,用于采用当前条件随机场模型对第二标注数据进行预测,得到预测标注数据;
校验模块508,用于根据预测标注数据对第一标注数据进行校验,得到正确标注数据,正确标注数据为与预测标注数据一致的第一标注数据。
在一个实施例中,该数据标注系统还包括:
数据集模块,用于根据正确标注数据,构建正确标注数据集;
第一模型训练模块,用于采用正确标注数据集对当前条件随机场模型进行训练,得到第一条件随机场模型;
第一执行模块,用于将第一条件随机场模型设为当前条件随机场模型。
在一个实施例中,该第一模型训练模块还用于对正确标注数据集进行预处理,得到输入序列和输出序列;根据当前条件随机场模型、输入序列和输出序列,得到第一条件随机场模型。
在一个实施例中,预处理模块504还用于对第一标注数据中的变量分布进行假设,得到第一分布参数或第一分布模型;采用第一标注数据对第一分布参数或第一分布模型进行拟合或训练,得到第二分布参数或第二分布模型;根据第一标注数据与第二分布参数或第二分布模型,得到第二标注数据。
在另一个实施例中,该数据标注系统可以还包括:
离线数据模块,用于对第一标注数据进行存储,得到离线标注数据集;
第一模型训练模块,用于采用离线标注数据集对当前条件随机场模型进行训练,得到第二条件随机场模型;
第二执行模块,用于将第二条件随机场模型设为当前条件随机场模型。
在一个实施例中,获取模块502还用于构建交互场景,交互场景用于展示待标注数据及标注方式,获取用户根据标注方式对待标注数据进行数据标注后得到的第一标注数据。
在一个实施例中,该数据标注系统还包括:
反馈模块,用于当第一标注数据与预测标注数据一致时,向用户发送反馈数据。
关于数据标注系统的具体限定可以参见上文中对于数据标注方法的限定,在此不再赘述。上述数据标注系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储离线标注数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据标注方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取第一标注数据,第一标注数据包括多个用户对同一待标注数据的多个标注数据;对获取到的第一标注数据进行聚类去噪,得到第二标注数据;采用当前条件随机场模型对第二标注数据进行预测,得到预测标注数据;根据预测标注数据对第一标注数据进行校验,得到正确标注数据,正确标注数据为与预测标注数据一致的第一标注数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据正确标注数据,构建正确标注数据集;采用正确标注数据集对当前条件随机场模型进行训练,得到第一条件随机场模型;将第一条件随机场模型设为当前条件随机场模型。
在一个实施例中,采用正确标注数据集对当前条件随机场模型进行训练,得到第一条件随机场模型,实现以下步骤:对正确标注数据集进行预处理,得到输入序列和输出序列;根据当前条件随机场模型、输入序列和输出序列,得到第一条件随机场模型。
在一个实施例中,对获取到的第一标注数据进行聚类去噪,得到第二标注数据,包括以下步骤:对第一标注数据中的变量分布进行假设,得到第一分布参数或第一分布模型;采用第一标注数据对第一分布参数或第一分布模型进行拟合或训练,得到第二分布参数或第二分布模型;根据第一标注数据与第二分布参数或第二分布模型,得到第二标注数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对第一标注数据进行存储,得到离线标注数据集;采用离线标注数据集对当前条件随机场模型进行训练,得到第二条件随机场模型;将第二条件随机场模型设为当前条件随机场模型。
在一个实施例中,获取第一标注数据,实现以下步骤:构建交互场景,交互场景用于展示待标注数据及标注方式;优选地,交互场景为游戏交互场景;获取用户根据标注方式对待标注数据进行数据标注后得到的第一标注数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当第一标注数据与预测标注数据一致时,向用户发送反馈数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取第一标注数据,第一标注数据包括多个用户对同一待标注数据的多个标注数据;对获取到的第一标注数据进行聚类去噪,得到第二标注数据;采用当前条件随机场模型对第二标注数据进行预测,得到预测标注数据;根据预测标注数据对第一标注数据进行校验,得到正确标注数据,正确标注数据为与预测标注数据一致的第一标注数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据正确标注数据,构建正确标注数据集;采用正确标注数据集对当前条件随机场模型进行训练,得到第一条件随机场模型;将第一条件随机场模型设为当前条件随机场模型。
在一个实施例中,采用正确标注数据集对当前条件随机场模型进行训练,得到第一条件随机场模型,实现以下步骤:对正确标注数据集进行预处理,得到输入序列和输出序列;根据当前条件随机场模型、输入序列和输出序列,得到第一条件随机场模型。
在一个实施例中,对获取到的第一标注数据进行聚类去噪,得到第二标注数据,包括以下步骤:对第一标注数据中的变量分布进行假设,得到第一分布参数或第一分布模型;采用第一标注数据对第一分布参数或第一分布模型进行拟合或训练,得到第二分布参数或第二分布模型;根据第一标注数据与第二分布参数或第二分布模型,得到第二标注数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对第一标注数据进行存储,得到离线标注数据集;采用离线标注数据集对当前条件随机场模型进行训练,得到第二条件随机场模型;将第二条件随机场模型设为当前条件随机场模型。
在一个实施例中,获取第一标注数据,实现以下步骤:构建交互场景,交互场景用于展示待标注数据及标注方式;优选地,交互场景为游戏交互场景;获取用户根据标注方式对待标注数据进行数据标注后得到的第一标注数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当第一标注数据与预测标注数据一致时,向用户发送反馈数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据标注方法,其特征在于,所述方法包括:
获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;
对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;
采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;
根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述正确标注数据,构建正确标注数据集;
采用所述正确标注数据集对所述当前条件随机场模型进行训练,得到第一条件随机场模型;
将所述第一条件随机场模型设为所述当前条件随机场模型。
3.根据权利要求2所述的方法,其特征在于,所述采用所述正确标注数据集对所述当前条件随机场模型进行训练,得到第一条件随机场模型,包括:
对所述正确标注数据集进行预处理,得到输入序列和输出序列;
根据所述当前条件随机场模型、所述输入序列和所述输出序列,得到所述第一条件随机场模型。
4.根据权利要求1所述的方法,其特征在于,所述对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据,包括:
对所述第一标注数据中的变量分布进行假设,得到第一分布参数或第一分布模型;
采用所述第一标注数据对所述第一分布参数或所述第一分布模型进行拟合或训练,得到第二分布参数或第二分布模型;
根据所述第一标注数据与所述第二分布参数或所述第二分布模型,得到第二标注数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述第一标注数据进行存储,得到离线标注数据集;
采用所述离线标注数据集对所述当前条件随机场模型进行训练,得到第二条件随机场模型;
将所述第二条件随机场模型设为所述当前条件随机场模型。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述获取第一标注数据,包括:
构建交互场景,所述交互场景用于展示待标注数据及标注方式;
优选地,所述交互场景为游戏交互场景;
获取用户根据所述标注方式对所述待标注数据进行数据标注后得到的第一标注数据。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当所述第一标注数据与所述预测标注数据一致时,向所述用户发送反馈数据。
8.一种数据标注系统,其特征在于,所述系统包括:
获取模块,用于获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;
预处理模块,用于对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;
预测模块,用于采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;
校验模块,用于根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910862671.1A 2019-09-12 2019-09-12 数据标注方法、系统、计算机设备和存储介质 Pending CN110750523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910862671.1A CN110750523A (zh) 2019-09-12 2019-09-12 数据标注方法、系统、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910862671.1A CN110750523A (zh) 2019-09-12 2019-09-12 数据标注方法、系统、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110750523A true CN110750523A (zh) 2020-02-04

Family

ID=69276454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910862671.1A Pending CN110750523A (zh) 2019-09-12 2019-09-12 数据标注方法、系统、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110750523A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341305A (zh) * 2020-03-05 2020-06-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
CN111666137A (zh) * 2020-04-26 2020-09-15 广州文远知行科技有限公司 数据标注方法、装置、计算机设备和存储介质
CN111881106A (zh) * 2020-07-30 2020-11-03 北京智能工场科技有限公司 基于ai检验的数据标注和处理方法
CN112560938A (zh) * 2020-12-11 2021-03-26 上海哔哩哔哩科技有限公司 模型训练方法、装置及计算机设备
CN112654999A (zh) * 2020-07-21 2021-04-13 华为技术有限公司 标注信息的确定方法及装置
CN112906349A (zh) * 2021-03-30 2021-06-04 苏州大学 一种数据标注的方法、系统、设备及可读存储介质
WO2022052199A1 (zh) * 2020-09-11 2022-03-17 南方科技大学 数据标注方法、网络设备、终端、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN105930432A (zh) * 2016-04-19 2016-09-07 北京百度网讯科技有限公司 序列标注工具的训练方法和装置
US20160321358A1 (en) * 2015-04-30 2016-11-03 Oracle International Corporation Character-based attribute value extraction system
CN108228564A (zh) * 2018-01-04 2018-06-29 苏州大学 在众包数据上进行对抗学习的命名实体识别方法
CN109284361A (zh) * 2018-09-29 2019-01-29 深圳追科技有限公司 一种基于深度学习的实体抽取方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
US20160321358A1 (en) * 2015-04-30 2016-11-03 Oracle International Corporation Character-based attribute value extraction system
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN105930432A (zh) * 2016-04-19 2016-09-07 北京百度网讯科技有限公司 序列标注工具的训练方法和装置
CN108228564A (zh) * 2018-01-04 2018-06-29 苏州大学 在众包数据上进行对抗学习的命名实体识别方法
CN109284361A (zh) * 2018-09-29 2019-01-29 深圳追科技有限公司 一种基于深度学习的实体抽取方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341305A (zh) * 2020-03-05 2020-06-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
CN111341305B (zh) * 2020-03-05 2023-09-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
CN111666137A (zh) * 2020-04-26 2020-09-15 广州文远知行科技有限公司 数据标注方法、装置、计算机设备和存储介质
CN111666137B (zh) * 2020-04-26 2022-04-05 广州文远知行科技有限公司 数据标注方法、装置、计算机设备和存储介质
CN112654999A (zh) * 2020-07-21 2021-04-13 华为技术有限公司 标注信息的确定方法及装置
CN112654999B (zh) * 2020-07-21 2022-01-28 华为技术有限公司 标注信息的确定方法及装置
CN111881106A (zh) * 2020-07-30 2020-11-03 北京智能工场科技有限公司 基于ai检验的数据标注和处理方法
CN111881106B (zh) * 2020-07-30 2024-03-29 北京智能工场科技有限公司 基于ai检验的数据标注和处理方法
WO2022052199A1 (zh) * 2020-09-11 2022-03-17 南方科技大学 数据标注方法、网络设备、终端、系统及存储介质
CN112560938A (zh) * 2020-12-11 2021-03-26 上海哔哩哔哩科技有限公司 模型训练方法、装置及计算机设备
CN112560938B (zh) * 2020-12-11 2023-08-25 上海哔哩哔哩科技有限公司 模型训练方法、装置及计算机设备
CN112906349A (zh) * 2021-03-30 2021-06-04 苏州大学 一种数据标注的方法、系统、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN110750523A (zh) 数据标注方法、系统、计算机设备和存储介质
WO2022142006A1 (zh) 基于语义识别的话术推荐方法、装置、设备及存储介质
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN112861662B (zh) 基于人脸和交互文本的目标对象行为预测方法及相关设备
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN110046806B (zh) 用于客服派单的方法、装置和计算设备
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN110909768B (zh) 一种标注数据获取方法及装置
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN114117048A (zh) 一种文本分类的方法、装置、计算机设备及存储介质
CN112100491A (zh) 基于用户数据的信息推荐方法、装置、设备及存储介质
CN116911361A (zh) 基于深度学习框架网络训练网络模型的方法、装置和设备
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN114969544A (zh) 基于热点数据的推荐内容生成方法、装置、设备及介质
CN114638229A (zh) 笔录数据的实体识别方法、装置、介质及设备
CN114357164A (zh) 情感-原因对抽取方法、装置、设备及可读存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN112733645A (zh) 手写签名校验方法、装置、计算机设备及存储介质
CN112818084A (zh) 信息交互方法、相关装置、设备及计算机可读介质
CN113450169A (zh) 车辆推荐信息的处理方法、系统、计算机设备和存储介质
CN113157863B (zh) 问答数据处理方法、装置、计算机设备及存储介质
CN113743448B (zh) 模型训练数据获取方法、模型训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200204