CN112163424B - 数据的标注方法、装置、设备和介质 - Google Patents
数据的标注方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN112163424B CN112163424B CN202010979471.7A CN202010979471A CN112163424B CN 112163424 B CN112163424 B CN 112163424B CN 202010979471 A CN202010979471 A CN 202010979471A CN 112163424 B CN112163424 B CN 112163424B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- labeling
- result
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 167
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims description 44
- 230000008451 emotion Effects 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013499 data model Methods 0.000 description 3
- 230000008909 emotion recognition Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000168096 Glareolidae Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例公开了一种数据的标注方法、装置、设备和介质。其中,该方法包括:根据待标注数据的任务类型,确定待标注数据的目标标注模型;根据目标标注模型,对待标注数据进行标注。本发明实施例通过预先训练好的标注模型,对待标注数据进行有效标注,从而极大提高数据的标注效率。
Description
技术领域
本发明实施例涉及数据识别技术,尤其涉及一种数据的标注方法、装置、设备和介质。
背景技术
在公司企业级别中,数据格式具有多样性,例如包括:txt、json、csv和html等不同环境下返回的实际工作数据。数据内容的多样性,包括:文本类型和pdf图片类型等。在大数据时代,企业中75%左右的占比是非结构化数据,有效使用这部分数据对于各项分析工作的开展具有重要作用。现有技术中,对于多样化数据的标注,主要是通过人工实现数据标注,即通过专业人员对多数待标注数据进行人工预测,以得到待标注数据的标注结果。
上述方案的缺陷在于:整个标注过程需要耗费大量的人力物力,一旦当待标注数据成千上万时,在大量的工作积压中,标注人员往往难以及时处理,导致数据的标注效率降低。
发明内容
本申请实施例提供一种数据的标注方法、装置、设备和介质,可以通过预先训练好的标注模型,对待标注数据进行有效标注,从而极大提高数据的标注效率。
第一方面,本发明实施例提供了一种数据的标注方法,包括:
根据待标注数据的任务类型,确定所述待标注数据的目标标注模型;
根据所述目标标注模型,对所述待标注数据进行标注。
第二方面,本发明实施例提供了一种数据的标注装置,包括:
模型确定模块,用于根据待标注数据的任务类型,确定所述待标注数据的目标标注模型;
数据标注模块,用于根据所述目标标注模型,对所述待标注数据进行标注。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中的任一种所述的数据的标注方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例中的任一种所述的数据的标注方法。
本发明实施例根据待标注数据的任务类型,确定待标注数据的目标标注模型;根据目标标注模型,对待标注数据进行标注。本发明实施例通过预先训练好的标注模型,对待标注数据进行有效标注,从而极大提高数据的标注效率。
附图说明
图1是本发明实施例一中的数据的标注方法的流程示意图;
图2是本发明实施例二中的数据的标注方法的流程示意图;
图3是本发明实施例三中的数据的标注装置的结构示意图;
图4是本实施例四中的电子设备的结构示意图;
图5是本发明实施例二中的一种目标标注模型的标注流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的数据的标注方法的流程示意图。本实施例可适用于利用标注工具实现数据有效标定的情况。本实施例方法可由数据的标注装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中。可实现本申请任意实施例所述的数据的标注方法。如图1所示,该方法具体包括如下:
S110、根据待标注数据的任务类型,确定待标注数据的目标标注模型。
在本实施例中,待标注数据为企业用户开展各项分析工作所需的基础数据,由于针对不同的分析目的,则需要将原始的基础数据进行特征提取,以得到适用于不同分析目的进行分析工作的数据。
具体的,在确定待标注数据的目标标注模型时,可以利用标注工具来实现;该标注工具可支持多种类型的数据格式导入,能干合理展示待标注数据的文本内容范围给用户;同时也可以支持主流的多种标注任务;而且,标注管理人员还可以通过该标注工具分配多个标注人员,并基于多角色区分的标注人员,实现快速分发标注工作和汇总标注数据。目标标注模型为内置在标注工具中的常用经典算法模型,能够实现小批量数据的在线训练辅助数据标注工作,减轻人工压力。
在本实施例中,可选的,待标注数据的任务类型包括实体识别、关系识别、事件抽取、文本分类和情感分析中的至少一种。
其中,实体识别是识别出待标注数据中的实体部分,例如姓名,或者某些动词。关系识别既能够使用实体标注任务中导出的标注数据,也能够从纯文本的状态同时标注实体和关系,实现了最大限度的灵活性,同时关系识别任务支持对组成关系的两个实体的类型限制,也可以选择忽略实体的类型,关系标注产生的标注数据还可以被上游实体识别任务再次编辑使用,为语料的灵活使用提供了便利。事件抽取属于多元关系标注的范畴,所谓多元关系,即其中任意两个成员之间都有关系。文本分类支持单标签分类和支持多标签分类,即一个文本上按照相关性,可以有多个标签,例如基于标签树的分类。情感分析分为三个层次:篇章级别的情感识别、句子级别的情感识别、Aspect级别的情感识别;例如在这句话“比起宝马我更喜欢奔驰”中,相对于“宝马”这里是“贬义”;但相对于“奔驰”,这里是“褒义”;本实施例中可支持篇章级别的情感标注以及句子级别的情感标注。
S120、根据目标标注模型,对待标注数据进行标注。
在本实施例中,在选定符合的目标标注模型后,根据目标标注模型,对待标注数据进行标注;其中,目标标注模型是内置在标注工具中的常用的经典算法识别模型,能够对待标注数据实现快速高效的标注,极大的节省了人力资源的耗费。
在本实施例中,可选的,根据目标标注模型,对待标注数据进行标注,包括:
将待标注数据输入目标标注模型进行数据标注,并获取目标标注模型输出的数据标注结果,以得到待标注数据的数据标注结果。
在本实施例中,可在标注工具中,将待标注数据输入至目标标注模型的表述框中,再通过点击“标注”按钮,即可获得目标标注模型输出的数据标注结果;再对该数据标注结果进行检验,以确定出待标注数据的最终的检测结果。
本发明实施例根据待标注数据的任务类型,确定待标注数据的目标标注模型;根据目标标注模型,对待标注数据进行标注。本发明实施例通过预先训练好的标注模型,对待标注数据进行有效标注,从而极大提高数据的标注效率。
在本实施例中,还提供了标注工具的具体使用流程,如下:
一、用户注册登录:点击标注工具页面中的“注册”按钮,按照相应的提示情况填写注册所需的信息;注册完毕之后,输入预先设置的用户名和密码,点击“登陆”即可进去标注工具页面。
二、数据管理:用户将待标注数据上传至标注工具;其中,页面支持txt、docx、doc、json以及pdf等类型的数据上传;按照待上传数据类型选择对应的类型选择上传即可;对于生产环境或者测试环境产生的各类数据,都无法直接拿来再标注使用,因此在标注工作的前期需要对数据进行清洗等预处理工作(此步骤可支持用户自定义选择);可支持按照用户自定义规则对数据进行清洗,用户将数据清理的规则按照说明格式进行编码,传入后台程序,由后台程序读取相应的规则,对指定数据集进行清洗工作,如去掉空格或者去掉英文字符等。
三、创建标注任务并添加成员:创建标注任务并添加成员,在页面中点击“创建任务”按钮,在弹窗中完成数据集选择(可选择多个数据集),并添加参与标注的成员及其任务量分配编辑。
四、进入标注页面:页面显示标注任务基本情况,会显示标注进度,可以选择适合的标签体系(例如实体类型或情感类型);其中,标签体系可支持自定义;待标注人员拿到清洗后的数据,选择对应的标签体系,在提供的标注界面上进行移动勾选,对目标文字(即待标注数据的内容)进行选定标注确认,目标文字出现不同背景色以及对应的标签类型。
示例性的,标注出合同文本中的甲乙方作为实体对象;选中的甲方:xxx会出现对应的标签为甲方以及文字不同颜色高亮显示,乙方:xxx出现另一种对应的标签为乙方和颜色高亮提示;对金融新闻文本标注出金融公司实体以及对应的有无风险判定标签,同样实体对象标签和高亮显示,有无风险类别由标注人员判定之后选择判定;完成少量人工标注之后,提交部分已完成的标注文本;流转到下一个步骤。
五、选择人机协同标注功能:选择相应任务的神经网络模型,将之前的标注数据当作小样本训练数据完成简单的模型训练。例如,对于合同文本的甲乙方实体识别来说,通过前期已经标注的文本样本作为训练数据,在本实施例提供的算法库中,选择对应的合适的模型(例如选择实体识别模型);将小批量经过人工标注后的数据输入到实体识别模型中,进行模型训练。后续随着人工标注数据越来越多,输入模型的训练数据越来越多,模型准确率将逐渐上升,由训练出来的模型进行自动标注将越来越可靠,从而大大减轻人力人工。
在上述实施例的基础上,可选的,在得到所述待标注数据的数据标注结果之后,本实施例方法还包括:
若检测到结果抽查事件,则将数据标注结果与预设结果中待标注数据的标注结果进行匹配;
根据匹配结果对数据标注结果进行校正,得到待标注数据的检测结果。
在本实施例中,结果抽查事件是标注人员为了验证标注工具中标注模型对待标注数据的标注结果是否准确的检验情况;预设结果是根据专业的标注人员对于待标注数据采用人工标注的方式得到的标注结果,再将该标注结果输入至标注工具中,以对目标标注模型得到的数据标注结果进行校正;本实施例在目标标注模型确定出数据标注结果的基础上,还利用人工标注的预设结果对数据标注结果进行校正,能够有效保证待标注数据的标注结果的准确性。
在上述实施例的基础上,可选的,根据匹配结果对数据标注结果进行校正,得到待标注数据的检测结果,包括:
若匹配结果为匹配到数据标注结果,与预设结果中待标注数据的标注结果一致,则确认数据标注结果为待标注数据的检测结果;
若匹配结果为匹配到数据标注结果,与预设结果中待标注数据的标注结果不一致,则上报异常标注现象并对待标注数据进行重新标注。
在本实施例中,异常标注现象为根据人工检测确定出待标注数据的数据标注结果有误的情况,针对该情况,需要对待标注数据进行重新标注,即冲重新根据待标注数据的任务类型,选择适合的目标标注模型进行标注;本实施例在检测出待标注数据的结果不准确时,及时准确的进行上报提醒,以指示标注人员对该待标注数据进行相应处理,避免数据标定错误导致后期分析过程的不利因素的产生。
实施例二
图2是本发明实施例二中的数据的标注方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化,并可与上述技术方案中任意可选方案组合。如图2所示,该方法包括:
S210、获取标注数据的模型关联文件。
在本实施例中,模型关联文件为存储在标注工具中的文件,例如可以是一个EXCEL或者WORD形式的文件;其中,存储着数据的任务类型与标注模型的关联关系;模型关联文件可支持用户根据新的待标注数据的任务类型与对应的标注模型进行文件内容更新。
S220、根据待标注数据的任务类型和模型关联文件,确定待标注数据的目标标注模型。
在本实施例中,可以根据待标注数据的任务类型结合预先制定的模型关联文件,快速有效的查找到待标注数据对应的目标标注模型。
在本实施例中,可选的,根据待标注数据的任务类型和模型关联文件,确定待标注数据的目标标注模型,包括:
从模型关联文件中,查找是否存在与待标注数据的任务类型关联的标注模型;
若是,则将与待标注数据的任务类型关联的标注模型作为待标注数据的目标标注模型;
其中,目标标注模型包括实体识别模型、关系识别算法模型、事件抽取模型、文本分类模型和情感分析模型中的至少一种。
在本实施例中,可以在标注工具中,点击“模型关联文件”按钮,并在模型关联文件的输入搜索框中,输入待标注数据的任务类型的名称,并点击“查询”,即可得到相对应的查询结果。
S230、根据目标标注模型,对待标注数据进行标注。
在本实施例中,以目标标注模型分别为关系识别算法模型、事件抽取模型、文本分类模型和情感分析模型进行标注展示。
目标标注模型为关系识别算法模型:一、联合序列标注:将实体标签和关系标签体系纳入到统一的序列标注框架中,如将关系“收购”设计为实体-关系联合标签体系COMPANY_sub,COMPANY_obj,力求通过一个模型同时解决实体、关系的联合推理。二、候选分类:假定原始文本已由NER系统识别出所有的命名实体,对于文本中任意一组候选实体对,基于多种特征判别它们之间是否存在关系,以及具体的关系类型。
目标标注模型为事件抽取模型:基于memory的聚类算法进行聚类;使用最大熵分类器;数据预处理,使用ground truth标注文本,然后将文本tokenize,然后切分为句子;识别anchor:实现对文本做词性识别找触发词;主要分为两个步骤:找出每一个词是否为触发词;以及,给每一个触发词命名然后分类。
目标标注模型为文本分类模型:数据预处理,例如进行文本分词和去除停用词;计算词频,忽略频率较低的词;做数据增强(例如用近义词替换法);采用多种尺寸的卷积核,分别进行卷积,提取不同的局部特征,以获取最终的分类结果。
目标标注模型为情感分析模型:第一步、根据情感分类等级,自适应的匹配词典中情感词的权重;第二步、利用词典提取文本中的情感词,否定词和程度副词;第三步、基于规则判断文本中短句的情感等级,然后综合短句的情感等级获得文本情感等级;第四步、用户修正文本情感等级,然后根据文本调整词典以及词的情感权重;第五步、循环第四步,获得领域性词典,较好的领域性词典,二分类可以达到85%-90%的精确率。本实施例采用改进的基于词典和规则的情感分类,改进的基于词典和规则的情感分类的实现流程框图见图5。
在上述实施例的基础上,可选的,在从模型关联文件中,查找是否存在与待标注数据的任务类型关联的标注模型之后,本实施例方法还包括:
若否,则计算待标注数据的任务类型与模型关联文件中其他任务类型的相似值;
根据相似值,确定待标注数据的目标标注模型。
在本实施例中,若没有查找到待标注数据的任务类型对应的标注模型,则表示该待标注数据的任务类型为标注工具中出现的新的任务类型,则对该任务类型进行记录;通过匹配该任务类型与模型关联文件中其他任务类型的相似值,为其分配归属任务类型,以有效确定出目标标注模型;其中,相似值为该新的任务信息与模型关联文件中其他任务类型的匹配程度,具体可以根据两者名称的语义内容进行相似度匹配,得到具体的数值,来表示两者的匹配度。
在上述实施例的基础上,可选的,根据相似值,确定待标注数据的目标标注模型,包括:
根据相似值,对模型关联文件中其他任务类型分配相似分;
将相似分最大的任务类型关联的标注模型作为待标注数据的目标标注模型。
在本实施例中,相似分为模型关联文件中其他任务类型对应于待标注数据的任务类型的一个具体数值;通过将各模型关联文件中其他任务类型的相似分比较,选择出数值最大的一个任务类型,并查询出该任务类型的标注模型,将该标注模型作为待标注数据的目标标注模型。
在上述实施例的基础上,可选的,本实施例方法还包括:
响应于模型训练操作,根据标注数据和数据预测结果,对目标数据模型进行训练。
在本实施例中,在通过人工抽查确定标注工具的标注结果准确后,根据标注结果,发起模型训练操作请求,根据标注数据和数据预测结果,对目标数据模型进行再训练,以增强目标标注模型的适用性。
在上述实施例的基础上,可选的,在根据待标注数据的任务类型,确定待标注数据的目标标注模型之前,本实施例方法还包括:
获取具有数据预测结果的标注数据,作为模型训练样本;
将模型训练样本输入初始网络模型进行训练,得到目标标注模型。
在本实施例中,标注工具中的标注模型均是根据训练数据进行训练得到的;其中,初始网络模型为标注模型的一个架构模型,其并不能进行任何数据的识别操作。本实施例通过已知数据预测结果的标注数据训练得到目标标注模型,以使得目标标注模型具有较为准确地标注精度。
在上述实施例的基础上,可选的,将模型训练样本输入初始网络模型进行训练,得到目标标注模型,包括:
将模型训练样本输入初始网络模型进行训练,并在训练完成后计算训练后的初始网络模型的准确率;
若检测到初始网络模型的准确率超过准确率阈值,则将训练后的初始网络模型作为目标标注模型。
在本实施例中,模型训练样本包括标注数据的内容和人工预先预测出的标注结果;准确率阈值是通过验证样本得到的一个统计值,例如,选定100个验证样本,将100个验证样本中的标注数据输入训练模型中进行训练,并将训练结果与验证样本中的预设结果进行比较,若准确率大于准确率阈值,则确定训练得到的标注模型合格。本实施例通过对训练完成后的初始网络模型的准确率进行计算,能够有效预测标注模型在后期标注过程中的准确程度,以使得最终确定的目标标注模型具有较高的精准性。
实施例三
图3是本发明实施例三中的数据的标注装置的结构示意图,本实施例可适用于利用标注工具实现数据有效标定的情况。该装置配置于电子设备中,可实现本申请任意实施例所述的数据的标注方法。该装置具体包括如下:
模型确定模块310,用于根据待标注数据的任务类型,确定所述待标注数据的目标标注模型;
数据标注模块320,用于根据所述目标标注模型,对所述待标注数据进行标注。
在上述实施例的基础上,可选的,所述待标注数据的任务类型包括实体识别、关系识别、事件抽取、文本分类和情感分析中的至少一种。
在上述实施例的基础上,可选的,本实施例装置还包括:
关联文件获取模块,用于获取标注数据的模型关联文件;
相应的,模型确定模块310,具体用于:
根据待标注数据的任务类型和所述模型关联文件,确定所述待标注数据的目标标注模型。
在上述实施例的基础上,可选的,模型确定模块310,还具体用于:
从所述模型关联文件中,查找是否存在与待标注数据的任务类型关联的标注模型;
若是,则将所述与待标注数据的任务类型关联的标注模型作为所述待标注数据的目标标注模型;
其中,所述目标标注模型包括实体识别模型、关系识别算法模型、事件抽取模型、文本分类模型和情感分析模型中的至少一种。
在上述实施例的基础上,可选的,本实施例装置还包括:
模型查找模块,还用于若否,则计算所述待标注数据的任务类型与所述模型关联文件中其他任务类型的相似值;
模型确定模块310,还用于根据所述相似值,确定所述待标注数据的目标标注模型。
在上述实施例的基础上,可选的,模型确定模块310,还具体用于:
根据所述相似值,对所述模型关联文件中其他任务类型分配相似分;
将相似分最大的任务类型关联的标注模型作为所述待标注数据的目标标注模型。
在上述实施例的基础上,可选的,数据标注模块320,具体用于:
将所述待标注数据输入所述目标标注模型进行数据标注,并获取所述目标标注模型输出的数据标注结果,以得到所述待标注数据的数据标注结果。
在上述实施例的基础上,可选的,本实施例装置还包括:
事件检测模块,用于若检测到结果抽查事件,则将所述数据标注结果与预设结果中所述待标注数据的标注结果进行匹配;
检测结果确定模块,用于根据匹配结果对所述数据标注结果进行校正,得到所述待标注数据的检测结果。
在上述实施例的基础上,可选的,检测结果确定模块,具体用于:
若匹配结果为匹配到所述数据标注结果,与所述预设结果中所述待标注数据的标注结果一致,则确认所述数据标注结果为所述待标注数据的检测结果;
若匹配结果为匹配到所述数据标注结果,与所述预设结果中所述待标注数据的标注结果不一致,则上报异常标注现象并对所述待标注数据进行重新标注。
在上述实施例的基础上,可选的,本实施例装置还包括:
模型训练模块,用于响应于模型训练操作,根据标注数据和数据预测结果,对所述目标数据模型进行训练。
在上述实施例的基础上,可选的,本实施例装置还包括:
数据获取模块,用于获取具有数据预测结果的标注数据,作为模型训练样本;
模型确定模块310,还用于将所述模型训练样本输入初始网络模型进行训练,得到目标标注模型。
在上述实施例的基础上,可选的,模型确定模块310,还具体用于:
将所述模型训练样本输入初始网络模型进行训练,并在训练完成后计算训练后的初始网络模型的准确率;
若检测到所述初始网络模型的准确率超过准确率阈值,则将所述训练后的初始网络模型作为目标标注模型。
通过本发明实施例三的数据的标注装置,可以通过预先训练好的标注模型,对待标注数据进行有效标注,从而极大提高数据的标注效率。
本发明实施例所提供的数据的标注装置可执行本发明任意实施例所提供的数据的标注方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4是本发明实施例四中的电子设备的结构示意图,如图4所示,该电子设备包括处理器410、存储器420、输入装置430和输出装置440;电子设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据的标注方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现本发明实施例所提供的数据的标注方法。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,可以包括键盘、鼠标等。输出装置440可包括显示屏等显示设备。
实施例五
本实施例提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现本发明实施例所提供的数据的标注方法。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据的标注方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种数据的标注方法,其特征在于,所述方法包括:
根据待标注数据的任务类型,确定所述待标注数据的目标标注模型;
根据所述目标标注模型,对所述待标注数据进行标注;
其中,在根据待标注数据的任务类型,确定所述待标注数据的目标标注模型之前,所述方法还包括:
获取标注数据的模型关联文件;
相应的,根据待标注数据的任务类型,确定所述待标注数据的目标标注模型,包括:
从所述模型关联文件中,查找是否存在与待标注数据的任务类型关联的标注模型;
若是,则将所述与待标注数据的任务类型关联的标注模型作为所述待标注数据的目标标注模型;
若否,则表示所述待标注数据的任务类型为标注工具中出现的新的任务类型,对所述任务类型进行记录;
匹配所述任务类型与所述模型关联文件中其他任务类型的相似值,为所述任务类型分配归属任务类型;其中,所述相似值为新的任务类型与所述模型关联文件中其他任务类型的匹配程度,所述匹配程度是根据新的任务类型与所述模型关联文件中其他任务类型的名称的语义内容进行相似度匹配得到具体的数值表示;
根据所述相似值,对所述模型关联文件中其他任务类型分配相似分;
将相似分最大的任务类型关联的标注模型作为所述待标注数据的目标标注模型;其中,所述目标标注模型包括实体识别模型、关系识别算法模型、事件抽取模型、文本分类模型和情感分析模型中的至少一种;所述目标标注模型为内置在所述标注工具中的算法模型;所述标注工具支持多种类型的数据格式导入以及支持多种标注任务;
其中,所述根据所述目标标注模型,对所述待标注数据进行标注,包括:
将所述待标注数据输入所述目标标注模型进行数据标注,并获取所述目标标注模型输出的数据标注结果,以得到所述待标注数据的数据标注结果;
其中,在得到所述待标注数据的数据标注结果之后,所述方法还包括:
若检测到结果抽查事件,则将所述数据标注结果与预设结果中所述待标注数据的标注结果进行匹配;
根据匹配结果对所述数据标注结果进行校正,得到所述待标注数据的检测结果;其中,所述结果抽查事件是标注人员验证标注工具中标注模型对待标注数据的标注结果是否准确的检验情况;所述预设结果是根据专业的标注人员对于待标注数据采用人工标注的方式得到的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述待标注数据的任务类型包括实体识别、关系识别、事件抽取、文本分类和情感分析中的至少一种。
3.根据权利要求1所述的方法,其特征在于,根据匹配结果对所述数据标注结果进行校正,得到所述待标注数据的检测结果,包括:
若匹配结果为匹配到所述数据标注结果,与所述预设结果中所述待标注数据的标注结果一致,则确认所述数据标注结果为所述待标注数据的检测结果;
若匹配结果为匹配到所述数据标注结果,与所述预设结果中所述待标注数据的标注结果不一致,则上报异常标注现象并对所述待标注数据进行重新标注。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于模型训练操作,根据标注数据和数据预测结果,对所述目标标注模型进行训练。
5.根据权利要求1所述的方法,其特征在于,在根据待标注数据的任务类型,确定所述待标注数据的目标标注模型之前,所述方法还包括:
获取具有数据预测结果的标注数据,作为模型训练样本;
将所述模型训练样本输入初始网络模型进行训练,得到目标标注模型。
6.根据权利要求5所述的方法,其特征在于,将所述模型训练样本输入初始网络模型进行训练,得到目标标注模型,包括:
将所述模型训练样本输入初始网络模型进行训练,并在训练完成后计算训练后的初始网络模型的准确率;
若检测到所述初始网络模型的准确率超过准确率阈值,则将所述训练后的初始网络模型作为目标标注模型。
7.一种数据的标注装置,其特征在于,所述装置包括:
模型确定模块,用于根据待标注数据的任务类型,确定所述待标注数据的目标标注模型;
数据标注模块,用于根据所述目标标注模型,对所述待标注数据进行标注;
关联文件获取模块,用于获取标注数据的模型关联文件;
相应的,所述模型确定模块,具体用于:根据待标注数据的任务类型和所述模型关联文件,确定所述待标注数据的目标标注模型;
所述模型确定模块,还具体用于:从所述模型关联文件中,查找是否存在与待标注数据的任务类型关联的标注模型;
若是,则将所述与待标注数据的任务类型关联的标注模型作为所述待标注数据的目标标注模型;
模型查找模块,还用于若否,则表示所述待标注数据的任务类型为标注工具中出现的新的任务类型,对所述任务类型进行记录;
匹配所述任务类型与所述模型关联文件中其他任务类型的相似值,为所述任务类型分配归属任务类型;其中,所述相似值为新的任务类型与所述模型关联文件中其他任务类型的匹配程度,所述匹配程度是根据新的任务类型与所述模型关联文件中其他任务类型的名称的语义内容进行相似度匹配得到具体的数值表示;
模型确定模块,还具体用于根据所述相似值,对所述模型关联文件中其他任务类型分配相似分;
将相似分最大的任务类型关联的标注模型作为所述待标注数据的目标标注模型;其中,所述目标标注模型包括实体识别模型、关系识别算法模型、事件抽取模型、文本分类模型和情感分析模型中的至少一种;所述目标标注模型为内置在所述标注工具中的算法模型;所述标注工具支持多种类型的数据格式导入以及支持多种标注任务;
所述数据标注模块,具体用于将所述待标注数据输入所述目标标注模型进行数据标注,并获取所述目标标注模型输出的数据标注结果,以得到所述待标注数据的数据标注结果;
事件检测模块,用于若检测到结果抽查事件,则将所述数据标注结果与预设结果中所述待标注数据的标注结果进行匹配;
检测结果确定模块,用于根据匹配结果对所述数据标注结果进行校正,得到所述待标注数据的检测结果;其中,所述结果抽查事件是标注人员验证标注工具中标注模型对待标注数据的标注结果是否准确的检验情况;所述预设结果是根据专业的标注人员对于待标注数据采用人工标注的方式得到的标注结果。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1~6中任一所述的数据的标注方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~6中任一所述的数据的标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010979471.7A CN112163424B (zh) | 2020-09-17 | 2020-09-17 | 数据的标注方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010979471.7A CN112163424B (zh) | 2020-09-17 | 2020-09-17 | 数据的标注方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112163424A CN112163424A (zh) | 2021-01-01 |
CN112163424B true CN112163424B (zh) | 2024-07-19 |
Family
ID=73858144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010979471.7A Active CN112163424B (zh) | 2020-09-17 | 2020-09-17 | 数据的标注方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163424B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157170B (zh) * | 2021-03-25 | 2022-09-20 | 北京百度网讯科技有限公司 | 数据的标注方法和装置 |
CN112906349A (zh) * | 2021-03-30 | 2021-06-04 | 苏州大学 | 一种数据标注的方法、系统、设备及可读存储介质 |
CN113469944A (zh) * | 2021-06-03 | 2021-10-01 | 厦门宏泰智能制造有限公司 | 一种产品质检方法、装置和电子设备 |
CN113312131B (zh) * | 2021-06-11 | 2023-04-18 | 北京百度网讯科技有限公司 | 标注工具的生成、运行方法和装置 |
CN113344083A (zh) * | 2021-06-16 | 2021-09-03 | 安徽容知日新科技股份有限公司 | 一种数据标注方法、装置及计算设备 |
CN114003690A (zh) * | 2021-10-25 | 2022-02-01 | 南京中兴新软件有限责任公司 | 信息标注方法、模型训练方法、电子设备及存储介质 |
CN113886606B (zh) * | 2021-12-08 | 2022-12-13 | 北京海致星图科技有限公司 | 一种基于知识图谱的数据标注方法、装置、介质及设备 |
CN114359367B (zh) * | 2022-03-15 | 2022-06-28 | 深圳市华付信息技术有限公司 | 数据标注方法、装置、计算机设备及存储介质 |
CN114861989A (zh) * | 2022-04-15 | 2022-08-05 | 阳光保险集团股份有限公司 | 一种加保业务的预测方法及装置 |
CN117172248B (zh) * | 2023-11-03 | 2024-01-30 | 翼方健数(北京)信息科技有限公司 | 一种文本数据标注方法、系统和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427487A (zh) * | 2019-07-30 | 2019-11-08 | 中国工商银行股份有限公司 | 一种数据标注方法、装置及存储介质 |
CN110968695A (zh) * | 2019-11-18 | 2020-04-07 | 罗彤 | 基于弱监督技术主动学习的智能标注方法、装置及平台 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866337B (zh) * | 2009-04-14 | 2014-07-02 | 日电(中国)有限公司 | 词性标注系统、用于训练词性标注模型的装置及其方法 |
CN110209764B (zh) * | 2018-09-10 | 2023-04-07 | 腾讯科技(北京)有限公司 | 语料标注集的生成方法及装置、电子设备、存储介质 |
CN110288007B (zh) * | 2019-06-05 | 2021-02-02 | 北京三快在线科技有限公司 | 数据标注的方法、装置及电子设备 |
CN111104479A (zh) * | 2019-11-13 | 2020-05-05 | 中国建设银行股份有限公司 | 一种数据标注的方法及装置 |
-
2020
- 2020-09-17 CN CN202010979471.7A patent/CN112163424B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427487A (zh) * | 2019-07-30 | 2019-11-08 | 中国工商银行股份有限公司 | 一种数据标注方法、装置及存储介质 |
CN110968695A (zh) * | 2019-11-18 | 2020-04-07 | 罗彤 | 基于弱监督技术主动学习的智能标注方法、装置及平台 |
Also Published As
Publication number | Publication date |
---|---|
CN112163424A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
US11501210B1 (en) | Adjusting confidence thresholds based on review and ML outputs | |
CN110888990B (zh) | 文本推荐方法、装置、设备及介质 | |
CN110717034A (zh) | 一种本体构建方法及装置 | |
CN111309912A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
US20160103837A1 (en) | System for, and method of, ranking search results obtained by searching a body of data records | |
CN106919551B (zh) | 一种情感词极性的分析方法、装置及设备 | |
CN108885623A (zh) | 基于知识图谱的语意分析系统及方法 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN113760891B (zh) | 一种数据表的生成方法、装置、设备和存储介质 | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
CN110910175B (zh) | 一种旅游门票产品画像生成方法 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN110555205A (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
US20180018321A1 (en) | Avoiding sentiment model overfitting in a machine language model | |
WO2018171295A1 (zh) | 一种给文章标注标签的方法、装置、终端及计算机可读存储介质 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN112528022A (zh) | 主题类别对应的特征词提取和文本主题类别识别方法 | |
CN105786971B (zh) | 一种面向国际汉语教学的语法点识别方法 | |
CN116484025A (zh) | 漏洞知识图谱构建方法、评估方法、设备及存储介质 | |
CN109992723B (zh) | 一种基于社交网络的用户兴趣标签构建方法及相关设备 | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN113468890B (zh) | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |