CN113127635B - 数据处理方法、装置及系统,存储介质和电子设备 - Google Patents
数据处理方法、装置及系统,存储介质和电子设备 Download PDFInfo
- Publication number
- CN113127635B CN113127635B CN201911408103.0A CN201911408103A CN113127635B CN 113127635 B CN113127635 B CN 113127635B CN 201911408103 A CN201911408103 A CN 201911408103A CN 113127635 B CN113127635 B CN 113127635B
- Authority
- CN
- China
- Prior art keywords
- information
- detection state
- state reference
- labeling
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 42
- 238000002372 labelling Methods 0.000 claims abstract description 356
- 238000001514 detection method Methods 0.000 claims abstract description 332
- 238000012790 confirmation Methods 0.000 claims abstract description 117
- 238000007689 inspection Methods 0.000 claims abstract description 55
- 238000004519 manufacturing process Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 51
- 230000005856 abnormality Effects 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000002159 abnormal effect Effects 0.000 claims abstract description 35
- 238000012986 modification Methods 0.000 claims description 22
- 230000004048 modification Effects 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000013519 translation Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开一种数据处理方法和装置,数据处理系统,生产序列标注标签的模型训练方法,序列标注标签的确定方法,数据翻译方法及计算机存储介质和电子设备,其中处理方法包括:对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果;根据所述异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息;退回包括所述检测状态参考信息的序列标注信息;获取针对退回的包括所述检测状态参考信息的所述序列标注信息中,所述检测状态参考信息的确认信息;根据所述确认信息,确定针对异常标注标签的目标标注标签。从而通过对序列标注信息中的标注标签的质检,保证标注标签的稳定性和准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种数据处理方法及装置,以及数据处理系统,生产序列标注标签的模型训练方法,序列标注标签的确定方法,数据翻译方法,计算机存储介质和电子设备。
背景技术
在大数据时代下基于深层神经网络的机器学习算法能够很好地完成包括命名实体识别、中文分词和词性标注在内的多种序列标注任务。但由于大部分有效的算法是有监督学习,需要规模较大的训练语料并训练数量庞大的参数,才能够获得表现较好的模型。而序列标注中的人工标注作为语料生产的一个主要手段,由于存在人为因素,因此其主要面临的问题包括标注质量和成本两方面的问题,而这两方面会使模型训练产生负面影响。
发明内容
本申请提供一种数据处理方法,以解决现有技术中标注结果稳定性差的问题。
鉴于此,本申请提供一种数据处理方法,包括:
对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果;
根据所述异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息;
退回包括所述检测状态参考信息的序列标注信息;
获取针对退回的包括所述检测状态参考信息的所述序列标注信息中,所述检测状态参考信息的确认信息;
根据所述确认信息,确定针对异常标注标签的目标序列标注标签。
在一些实施例中,所述对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果,包括:
根据文本信息和用于存储标注信息记忆库中的标注信息中的至少一种信息,对所述序列标注信息中的标注标签进行异常检测,获得异常检测结果。
在一些实施例中,所述检测状态参考信息中至少包括如下一种信息:
针对所述标注标签的修订信息;
针对所述标注标签的检测状态信息;
针对所述标注标签的标注异常的内容信息。
在一些实施例中,所述获取针对所述退回的包括所述检测状态参考信息的序列标注信息中,所述检测状态参考信息的确认信息,包括:
获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为正确的确认信息;或者;
获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为错误的确认信息。
在一些实施例中,所述获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为正确的确认信息,包括:
获取针对退回的包括所述检测状态参考信息的序列标注信息中,确认修订后标注标签为正确的确认信息。
在一些实施例中,所述获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为错误的确认信息,包括:
获取针对退回的包括所述检测状态参考信息的序列标注信息中,确认修订后标注标签为错误的确认信息。
在一些实施例中,所述根据所述确认信息,确定针对异常标注标签的目标序列标注标签,包括:
当所述确认信息为所述检测状态参考信息为正确时,将所述检测状态参考信息中修订后标注标签,确定为所述目标序列标注标签;
当所述确认信息为所述检测状态参考信息为错误时,且所述检测状态参考信息中已修订标注标签的再次修订的标注标签为正确,则将再次修订的标注标签确定为所述目标序列标注标签。
在一些实施例中,还包括:
当所述确认信息为所述检测状态参考信息为错误时,且所述检测状态参考信息中针对已修订标注标签的再次修订的标注标签为错误,则修订所述检测状态参考信息,获得携带有修订后的检测状态参考信息的序列标注信息;
返回到所述退回包括所述检测状态参考信息的序列标注信息的步骤继续执行,所述序列标注信息为携带有修订后的检测状态参考信息的序列标注信息。
在一些实施例中,还包括:
当所述确认信息为所述检测状态参考信息为错误时,根据所述检测状态参考信息中针对已修订标注标签和针对所述检测状态参考信息中已修订标注标签的再次修订的标注标签,确定标签差异信息;
输出所述标签差异信息。
在一些实施例中,还包括:
根据所述确认信息,将用于存储序列标注信息的记忆库中所述标注标签更新为所述目标序列标注标签。
本申请还提供一种数据处理装置,包括:
检测单元,用于对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果;
添加单元,用于根据所述异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息;
退回单元,用于将包括有所述检测状态参考信息的序列标注信息进行退回;
获取单元,用于获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息的确认信息;
确定单元,用于根据所述确认信息,确定针对异常标注标签的目标序列标注标签。
本申请还提供一种数据处理方法,包括:
根据文本信息生成序列标注信息;
获取包括检测状态参考信息的序列标注信息,所述检测状态参考信息用于描述所述序列标注信息中标注标签异常的信息;
根据对所述检测状态参考信息的修改,生成包括修改后的检测状态参考信息的确认信息。
在一些实施例中,所述根据对所述检测状态参考信息的修改,生成包括修改后的检测状态参考信息的确认信息,包括:
对所述检测状态参考信息进行检查,获得检查结果;
当所述检查结果为正确时,将所述检测状态参考信息中的检测状态信息修改为确定,并生成包括修改后的检测状态参考信息的确认信息。
在一些实施例中,当所述检查结果为错误时,修改所述检测状态参考信息中描述标注异常的内容信息,并生成包括修改后的检测状态参考信息的确认信息。
在一些实施例中,所述对所述检测状态参考信息进行检查,获得检查结果,包括:
将所述文本信息和记忆库中存储的标注标签信息中的至少一种信息,与所述检测状态参考信息中修订标签进行比对,获得检查结果。
在一些实施例中,还包括:
获取针对所述确认信息,反馈的包括检测状态参考信息的序列标注信息。
在一些实施例中,所述获取针对所述确认信息,反馈的包括检测状态参考信息的序列标注信息,包括:
当所述确认信息中针对所述检测状态参考信息确认为错误时,获取基于所述错误修改的检测状态参考信息的序列标注信息;
对基于所述错误修改的检测状态参考信息的序列标注信息进行二次确认,生成二次确认信息。
在一些实施例中,所述根据文本信息生成的序列标注信息,包括:
对所述文本信息进行划词标注;
根据所述划词标注生成序列标注信息。
在一些实施例中,所述对所述文本信息进行划词标注,生成序列标注信息,包括:
获取预标注信息和记忆库中存储的标注信息中的至少一种信息;
将获取的至少一种信息与所述划词标注,生成序列标注信息。
本申请提供一种数据处理装置,包括:
第一生成单元,用于根据文本信息生成序列标注信息;
获取单元,用于获取包括检测状态参考信息的序列标注信息,所述检测状态参考信息用于描述所述序列标注信息中标注标签异常的信息;
第二生成单元,用于根据对所述检测状态参考信息的修改,发送包括修改后的检测状态参考信息的确认信息。
本申请还提供一种数据处理系统,包括:生产节点和质检节点;
所述生产节点,用于根据文本信息生成序列标注信息,发送到所述质检节点;所述质检节点对所述序列标注信息中的标注标签进行异常检测,根据异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息,并将包括有检测状态参考信息的序列标注信息退回给所述生产节点;所述生产节点根据接收的包括有检测状态参考信息的序列标注信息,对所述检测状态参考信息进行修改,生成包括修改后的检测状态参考信息的确认信息;所述质检节点获取所述确认信息,并对所述确认信息中修改后的检测状态参考信息,确定检测状态参考信息中异常标注标签的目标序列标注标签。
在一些实施例中,还包括:
将用于存储标注标签记忆库中相对应的标注标签更新为所述目标序列标注标签。
本申请还提供一种生产序列标注标签的模型训练方法,包括:
对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果;
根据所述异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息;
退回包括所述检测状态参考信息的序列标注信息;
获取针对退回的包括所述检测状态参考信息的所述序列标注信息中,所述检测状态参考信息的确认信息;
根据所述确认信息,确定针对异常标注标签的目标序列标注标签;
将所述目标序列标注标签作为样本数据输入到模型中进行训练,获得用于生产序列标注标签的训练模型。
本申请还提供一种序列标注标签的确定方法,包括:
将待标注的数据输入到用于生产序列标注标签的训练模型中;
根据所述训练模型针对所述数据输出的序列标注标签概率,确定所述输入数据的序列标注标签。
本申请还提供一种数据翻译方法,包括:
将待翻译数据输入到用于生产序列标注标签的训练模型中;
根据所述训练模型针对所述待翻译数据输出的序列标注标签概率,确定所述待翻译数据的目标序列标注标签;
根据所述目标序列标注标签,确定所述待翻译数据对应的翻译后目标数据。
本申请还提供一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被读取执行时,执行如上所述的生产序列标注标签的模型训练方法;或者执行如上所述的序列标注标签的确定方法;或者执行如上所述的数据翻译方法;或者执行如上所述的数据处理方法的步骤。
本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储对终端设备产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如上所述的生产序列标注标签的模型训练方法;或者执行如上所述的序列标注标签的确定方法;或者执行如上所述的数据翻译方法;或者执行如上所述的数据处理方法的步骤。
与现有技术相比,本申请具有以下优点:
本申请提供的一种数据处理方法,通过对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果;根据所述异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息;退回包括所述检测状态参考信息的序列标注信息;获取针对退回的包括所述检测状态参考信息的所述序列标注信息中,所述检测状态参考信息的确认信息;根据所述确认信息,确定针对异常标注标签的目标序列标注标签;从而通过对序列标注信息中的标注标签的质检,提高针对文本信息进行序列标注的质量,保证标注标签的稳定性和准确性。
另外,本申请还提供一种数据处理方法,通过根据文本信息生成的序列标注信息;获取包括检测状态参考信息的序列标注信息,所述检测状态参考信息用于描述所述序列标注信息中标注标签异常的信息;根据对所述检测状态参考信息的修改,生成包括修改后的检测状态参考信息的确认信息,从而生产节点的角度也能够通过获得的质检结果进一步提高序列标注信息中标注标签的标注质量,提高标注标签的稳定性,减低标注标签的错误率。
附图说明
图1是本申请提供的一种数据处理方法实施例的流程图;
图2是本申请提供的一种数据处理装置实施例的结构示意图;
图3是本申请提供的一种数据处理方法实施例的流程图;
图4是本申请提供的一种数据处理装置实施例的结构示意图;
图5是本申请提供的一种数据处理系统实施例的结构示意图;
图6是本申请提供的一种数据翻译方法实施例的应用场景示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请中使用的术语是仅仅出于对特定实施例描述的目的,而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如:“一种”、“第一”、和“第二”等,并非对数量上的限定或先后顺序上的限定,而是用来将同一类型的信息彼此区分。
基于背景技术部分的描述,为了能够更好的了解本申请提供的数据处理方法,现对本申请的技术构思进行说明。对于监督学习而言,需要大量标注标签对模型进行训练,从而获得训练模型。在需要进行机器学习的应用领域内,可通过训练模型对需要处理的数据进行分类、识别等操作,获得需要的数据结果。标注标签的准确性意味着训练模型输出的准确定,因此,提高标注标签的准确性方能在机器学习时提升数据处理的精度及效率。
基于上述内容,本申请提供一种数据处理方法,请参考图1所示,图1是本申请提供的一种数据处理方法实施例的流程图,该实施例主要是以对序列标注信息进行质检的角度进行描述,如果序列标注信息中的标注标签被检测出异常,并针对异常进行修订后,如果生成标注标签的生产方对修订内容不认同,则可以进行多次循环检测,直到生产方与质检方对标注标签的修订确认正确后,确定目标序列标注标签,具体处理方法包括:
步骤S101:对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果。
首先,对所述步骤S101中的名词进行解释。
所谓序列标注信息也可以称之为序列标注语料。所述序列标注信息可以包括分词、命名实体识别、词性标注等在内的对一个文本序列中的每一个词元(字或词)w,标注其在特定标签集的标签a,则对给定序列W可得到其在标签集/>上的序列A,实现W到A的任务即序列标注任务。
所述序列标注信息可以包括分词信息、命名实体识别信息、词性信息等。
所述分词,在本实施例中主要可以指中文分词(Chinese Word Segmentation):将给定句子切分为具有合理语义的词序列。在分词问题中,序列节点的“词”对应为句子中的每个字,节点的标签空间为{B,I,E,S}。B表示这个字是某个词的开头,I表示这个字是某个词的中间部分,E表示这个字是某个词的结尾,S表示这个字单独成词。每个字最终都会打上对应标签,最终根据标签序列来确定分词结果。
所谓词性标注(Part-of-Speech Tagging):给定已分词的句子,将句子中的所有词标记词性。所述“词”对应的就是已分词的词序列中的词,节点的标签空间为词性标记空间如{名词,动词,形容词,…}。每个词都会标注词性标签。
所谓命名实体识别(Named Entity Recognition):找出给定句子中的命名实体(常见的有人名、地名、机构名或者企业特定词)。命名实体识别中,序列节点的“词”对应为句子中的每个字,节点的标签空间为{B,I,E,O}。B表示这个字是某个命名实体的开头,I表示这个字是某个命名实体的中间部分,E表示这个字是某个命名实体的结尾,O表示这个字不属于命名实体部分,根据最后的标签序列确定识别结果。
简而言之,序列标注信息中可以包括针对分词的标注标签、命名实体识别的标注标签、词性的标注标签等。
文本信息可以是基于原始文本的文本信息,也可以是其他类型信息转换为文本的转换文本信息,例如:语音信息,图像信息等。
异常可以理解为,标注标签的错标、漏标或多标等异常情况。
所述步骤S101的目的在于,确定出序列标注信息中的标注标签是否存在上述异常的情况。
所述步骤S101的具体实现可以是,通过接收来自生产节点发送的序列标注信息,然后对所述序列标注信息进行异常检测,从而获得所述序列标注信息中存在异常的标注标签。为提高检测的准确性,在对序列标注信息进行检测时,可以结合多方参考进行检测,故此,所述步骤S101检测的具体实现可以包括:
根据文本信息和用于存储标注信息记忆库中的标注信息中的至少一种信息,对所述序列标注信息的标注标签进行异常检测,获得异常检测结果。
本实施例中,可以将序列标注信息中标注标签与文本信息进行比较,或者将序列标注信息中的标注标签与记忆库中的标注信息进行比较,又或者将序列标注信息中标注标签分别于文本信息和记忆库中的标注信息进行比较。当将序列标注信息中的标注标签与记忆库中的标注信息进行比较时,在记忆库中查找与标注标签相似或相同的标注信息;序列标注信息中标注标签与文本信息进行比较时,通过对文本信息的分析来确定标注标签是否异常。
当标注标签的标签内容与所述文本信息和记忆库中的任意一方比较时,如果不匹配则说明标签内容错误,序列标注信息存在异常的标注标签。
当标注标签的数量与所述文本信息和记忆库中的任意一方比较时,如果存在重复或缺少,则说明标注标签有漏标异常或者多标异常情况。
步骤S102:根据所述异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息。
所述步骤S102的目的在于对存在异常的序列标注信息确定标注状态,具体实现过程可以包括:
当获得异常检测检测结果时,在序列标注信息中添加用于描述所述标注标签异常检测结果为错误的检测状态参考信息,例如:添加Issue状态为new,其中,Issue可以表示为当前序列标注信息中的标注标签存在问题,new表示标注标签的检测状态为新增且有效。当然Issue中还可以包括标注标签的修订信息,以及异常的内容信息即异常的分析原因中的至少一种,因此,所述检测状态参考信息中至少包括如下一种信息:
针对所述标注标签的修订信息;
针对所述标注标签的检测状态信息;
针对所述标注标签的标注异常的内容信息。
当未检测到异常时,无需添加检测状态参考信息,则可将序列标注信息中的标注标签确定为目标序列标注标签。添加描述标注标签检测结果为正确的检测状态参考信息。例如:添加Issue状态为confirm,即表示标注标签检测结果为正确。
步骤S103:退回包括所述检测状态参考信息的序列标注信息;
所述步骤S103具体实现过程是将包括有所述检测状态参考信息的序列标注信息,退回到生产节点,以供生产节点对所述检测状态参考信息进行确认。
步骤S104:获取针对所述序列标注信息中的所述检测状态参考信息的确认信息。
所述步骤S104的目的在于获得针对所述检测状态参考信息的确认信息,即:确认检测状态参考信息中的修订信息是否正确或者是否错误,或者也可以为接受或者驳回修订信息。
在本实施例中,所述步骤S104获取确认信息的具体实现过程,可以是质检节点将添加有所述检测状态参考信息的序列标注信息退回到生产节点,根据退回的序列标注信息,获取所述确认信息。
因此,所述步骤S104中获取确认信息的具体过程可以包括:
步骤S104-1:获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为正确的确认信息;或者;
步骤S104-2:获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为错误的确认信息。
其中,正确的确认信息可以是确认所述检测状态参考信息中,确认修订后标注标签为正确的确认信息,也就是说,对于检测状态参考信息中的修订信息认同。错误的确认信息可以是确认所述检测状态参考信息中,确认修订后标注标签为错误的确认信息,当然,确认信息中可以包括针对认为错误的说明信息。
在本实施例中,若获取的确认信息为针对所述检测状态参考信息为正确时,则获取的所述检测状态参考信息中的Issue状态为confirm,confirm表示所述检测状态参考信息有效且得到确认,即该序列标注信息的标注标签存在异常问题,且针对异常进行修订后的标注标签为正确。
若获取的确认信息为针对所述检测状态参考信息为错误时,则获取的所述检测状态参考信息Issue状态为dispute,即生产方对检测状态参考信息中的修订信息存在异议或是不认可,此时在检测状态参考信息中还可以附有说明标注标签并非异常的信息,当然还可以包括基于修订后标注标签的再次修订内容。
步骤S105:根据所述确认信息,确定针对异常标注标签的目标序列标注标签。
步骤S105的目的在于获得最终确定的标注标签,以便后续在监督学习应用场景下利用标注标签对数据进行训练,或者其他需要使用到标注标签的场景。
所述步骤S105的具体实现过程可以包括:
步骤S105-1:当所述确认信息为所述检测状态参考信息为正确时,将所述检测状态参考信息中修订后标注标签,确定为所述目标序列标注标签;
步骤S105-2:当所述确认信息为所述检测状态参考信息为错误时,且所述检测状态参考信息中针对已修订标注标签的再次修订的标注标签为正确,则将再次修订的标注标签确定为所述目标序列标注标签。
上述步骤S105-1和步骤S105-2中对检测状态参考信息的修订可以是将Issue的状态修改为close,即异常标注标签的问题已解决。
当所述确认信息为所述检测状态参考信息为错误时,且所述检测状态参考信息中针对已修订标注标签的再次修订的标注标签为错误,则修订所述检测状态参考信息,获得携带有修订后的检测状态参考信息的序列标注信息;
返回到所述步骤S103,即退回包括所述检测状态参考信息的序列标注信息的步骤继续执行,所述序列标注信息为携带有修订后的检测状态参考信息的序列标注信息。即质检节点针对获取的生产节点修改后的检测状态参考信息再次进行修改,并将再次修改后的检测状态参考信息退回给生产节点进行确认,往复循环,直到生产节点和质检节点针对异常的标注标签的修订均认可后,确定为目标序列标注标签。
对上述检测状态参考信息中Issue状态的修改总结如下:
Issue的状态为new:表示新增异常标注标签,质检节点确认当前获取的序列标注信息中存在异常标注标签问题,进而添加检测状态参考信息。
Issue的状态为confirm:表示异常标注标签问题为有效且得到确认,生产节点认为所述异常标注标签问题存在,并得针对检测状态参考信息进行了确认,也可以是后续循环质检时质检节点的确认。
Issue的状态为dispute:表示异常标注标签问题的当前状态为存在争议,即质检节点针对生产节点反馈的检测状态参考信息提出意见,生产节点对质检节点提供的检测状态参考信息提出意见。
Issue的状态为close:表示异常标注标签问题已解决,可以确定目标序列标注标签。
生产节点或质检节点均可以按照上述对检测状态参考信息中的Issue的状态进行修订。
在本实施例中,还可以包括:
步骤S10a:当所述确认信息为所述检测状态参考信息为错误时,根据所述检测状态参考信息中针对已修订标注标签和针对所述检测状态参考信息中已修订标注标签的再次修订的标注标签,确定标签差异信息;
步骤S10b:输出所述标签差异信息。
从而便于了解生产节点和质检节点质检对异常标注标签修订后,存在的修订差异,根据所述差异能够进一步调整标注标签的标注,提高标注标签的准确性,减少标注标签的质检轮次。
在本实施例中,可以将用于存储序列标注信息的记忆库中所述标注标签更新为所述目标序列标注标签,从而保证记忆库中能够实时存储修订后的标注标签。
以上是对本申请提供的一种数据处理方法实施例的详细描述,与前述提供的一种数据处理方法实施例相对应,本申请还公开一种数据处理装置实施例,请参看图2,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图2所示,图2是本申请提供的一种数据处理装置实施例的结构示意图,该语料处理装置,包括:
检测单元201,用于对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果;
所述监测单元201的具体可以用于根据文本信息和用于存储标注信息记忆库中的标注信息中的至少一种信息,对所述序列标注信息中的标注标签进行异常检测,获得异常检测结果。
所述检测状态参考信息中至少可以包括如下一种信息:
针对所述标注标签的修订信息;
针对所述标注标签的检测状态信息;
针对所述标注标签的标注异常的内容信息。
添加单元202,用于根据所述异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息;
退回单元203,用于将包括有所述检测状态参考信息的序列标注信息进行退回;
获取单元204,用于获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息的确认信息;
所述获取单元204可以包括:正确确认信息获取子单元或错误确认信息获取子单元。
所述正确确认信息获取子单元,用于获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为正确的确认信息。
所述正确确认信息获取子单元具体用于获取针对退回的包括所述检测状态参考信息的序列标注信息中,确认修订后标注标签为正确的确认信息。
所述错误确认信息获取子单元,用于获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为错误的确认信息。
所述错误确认信息获取子单元具体用于获取针对退回的包括所述检测状态参考信息的序列标注信息中,确认修订后标注标签为错误的确认信息。
确定单元205,用于根据所述确认信息,确定针对异常标注标签的目标序列标注标签。
所述确定单元205具体用于当所述确认信息为所述检测状态参考信息为正确时,将所述检测状态参考信息中修订后标注标签,确定为所述目标序列标注标签;
当所述确认信息为所述检测状态参考信息为错误时,且所述检测状态参考信息中已修订标注标签的再次修订的标注标签为正确,则将再次修订的标注标签确定为所述目标序列标注标签。
还包括:
修订单元,用于当所述确认信息为所述检测状态参考信息为错误时,且所述检测状态参考信息中针对已修订标注标签的再次修订的标注标签为错误,则修订所述检测状态参考信息,获得携带有修订后的检测状态参考信息的序列标注信息;
返回单元,用于返回到所述退回包括所述检测状态参考信息的序列标注信息的步骤继续执行,所述序列标注信息为携带有修订后的检测状态参考信息的序列标注信息。
以上为针对本申请提供数据处理装置实施例的概要描述,该处理装置的具体内容可以参考上述步骤S101到步骤S105中的描述,此处不做过多赘述。
基于上述内容,本申请还提供一种数据处理方法,该方法与上述步骤S101到步骤S105的不同之处在于:该实施例主要是以对序列标注信息进行生产节点的角度进行描述,如图3所示,图3是本申请提供的一种数据处理方法实施例的流程图,该处理方法包括:
步骤S301:根据文本信息生成的序列标注信息。
序列标注信息的标注是通过生产节点完成,生产节点可以通过文本信息的划词标注生成序列标注信息。在本实施例中,序列标注信息的生成可以通过将划词标注和预标注信息生成,也可以通过将划词标注和记忆库中存储的标注信息生成,也可以通过将划词标注与预标注信息和记忆库生成。
所述序列标注信息可以包括分词、命名实体识别、词性标注等在内的对一个文本序列中的每一个词元(字或词)w,标注其在特定标签集的标签a,则对给定序列W可得到其在标签集/>上的序列A,实现W到A的任务即序列标注任务。具体可以参考步骤S101的描述,此处不再赘述。
步骤S302:获取包括检测状态参考信息的序列标注信息,所述检测状态参考信息用于描述所述序列标注信息中标注标签异常的信息。
所述步骤S302可以理解为获取质检节点针对检测到序列标注信息中异常标注标签,而在序列标注信息中添加有检测状态参考信息的序列标注信息,从而便于针对质检节点提供的检测状态参考信息确定质检结果的准确性。具体检测状态参考信息的内容可以参考上述步骤S102的描述,此处不再重复赘述。
步骤S303:根据对所述检测状态参考信息的修改,生成包括修改后的检测状态参考信息的确认信息。
所述步骤S303的目的在于针对质检节点提供的包括有检测状态参考信息的序列标注信息进行检测状态参考信息的确认,确认包括认可质检方的修订或者否定质检方的修订。当然可以包括对质检方的修订没有任何操作,此时为默认质检方的修订。
所述步骤S303的具体实现过程可以包括:
步骤S303-1:对所述检测状态参考信息进行检查,获得检查结果;
步骤S303-2:当所述检查结果为正确时,将所述检测状态参考信息中的检测状态信息修改为确定,并生成包括修改后的检测状态参考信息的确认信息。即,将Issue状态由new,修改为confirm,confirm表示所述检测状态参考信息有效且得到确认,质检节点可以根据获取生产节点确认信息,确定目标标注信息。
当所述检查结果为错误时,修改所述检测状态参考信息中描述标注异常的内容信息,并生成包括修改后的检测状态参考信息的确认信息。此处描述标注异常的内容信息可以理解为针对质检方的修订,在生产方不认可的情况下,进行的说明。即,将Issue状态修改为dispute的情况,还可以增加不认可质检方修订信息的说明。此时,检测状态参考信息中还可以包括生产方针对质检方提供针对异常标注标签已修订信息的再次修订,即质检方针对生产方检测到异常后,对异常标注标签进行第一次修订,并作为检测状态参考信息退回到生产方(步骤S103),生产方针对第一次修改,在确认为错误的情况下,对第一次修改进行第二次修订,获得第二次修订后的修订标签,发送给质检方再次进行质检。也就是说,当所述检查结果为错误时,修改检测状态参考信息可以包括修订信息,不认可质检方修订信息的说明等等。
所述步骤S103-1的具体实现过程可以是将所述文本信息和记忆库中存储的标注标签信息中的至少一种信息,与所述检测状态参考信息中修订标签进行比对,获得检查结果。
本实施例中,当根据对所述检测状态参考信息的修改,生成包括修改后的检测状态参考信息的确认信息后,质检方会获取到所述确认信息,并对所述确认信息进行核实,如果质检方对获取的来自生产方的确认信息认同,则确定目标序列标注标签(如步骤S105),若不认同,则会对确认信息中的包括的修订信息再次进行修订,并反馈给生产方(如步骤S104-2),实现多次质检。生产方会根据反馈的检测状态参考信息再次进行检查,获得确定信息。故此,本实施例中还可以包括:
获取针对所述确认信息,反馈的包括检测状态参考信息的序列标注信息。具体实现过程可以是:当所述确认信息中针对所述检测状态参考信息确认为错误时,获取基于所述错误修改的检测状态参考信息的序列标注信息;
对基于所述错误修改的检测状态参考信息的序列标注信息进行二次确认,生成二次确认信息。
以上是对本申请提供的一种数据处理方法实施例的详细描述,与前述提供的一种数据处理方法实施例相对应,本申请还公开一种数据处理装置实施例,请参看图4,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图4所示,图4是本申请提供的一种数据处理装置实施例的结构示意图,该语料处理装置包括:
第一生成单元401,用于根据文本信息生成序列标注信息;
所述第一生成单元401包括:划词子单元和第一生成子单元,所述划词子单元用于对所述文本信息进行划词标注;所述第一生成子单元用于根据所述划词子单元中的划词标注生成序列标注信息。
在其他实施例中,所述第一生成单元401包括:获取子单元和第一生成子单元,所述获取子单元用于获取预标注信息和记忆库中存储的标注信息中的至少一种信息;所述第一生成子单元用于将获取的至少一种信息与所述划词标注,生成序列标注信息。
获取单元402,用于获取包括检测状态参考信息的序列标注信息,所述检测状态参考信息用于描述所述序列标注信息中标注标签异常的信息;
第二生成单元403,用于根据对所述检测状态参考信息的修改,生成包括修改后的检测状态参考信息的确认信息;
所述第二生成单元403包括:检查子单元和第二生成子单元,所述检查子单元用于对所述检测状态参考信息进行检查,获得检查结果;所述第二生成子单元,用于当所述检查结果为正确时,将所述检测状态参考信息中的检测状态信息修改为确定,并生成包括修改后的检测状态参考信息的确认信息。所述生成子单元,还可以用于当所述检查结果为错误时,修改所述检测状态参考信息中描述标注异常的内容信息,并生成包括修改后的检测状态参考信息的确认信息。
所述检查子单元包括对比子单元,用于将所述文本信息和记忆库中存储的标注标签信息中的至少一种信息,与所述检测状态参考信息中修订标签进行比对,获得检查结果。
本实施例中,还包括:反馈子单元,用于获取针对所述确认信息,反馈的包括检测状态参考信息的序列标注信息。所述反馈子单元,具体用于当所述确认信息中针对所述检测状态参考信息确认为错误时,获取基于所述错误修改的检测状态参考信息的序列标注信息;对基于所述错误修改的检测状态参考信息的序列标注信息进行二次确认,生成二次确认信息。
以上为针对本申请提供数据处理装置实施例的概要描述,处理装置的具体内容可以参考上述步骤S301到步骤S303中的描述或者结合上述步骤S101到步骤S105的描述,此处不做过多赘述。
基于上述内容,本申请还提供一种数据处理系统,请参考图5所示,图5是本申请提供的一种数据处理系统实施例的结构框架示意图,该处理系统包括:生产节点和质检节点。
所述生产节点,用于根据文本信息生成序列标注信息,发送到所述质检节点;所述质检节点对所述序列标注信息中的标注标签进行异常检测,根据异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息,并将包括有检测状态参考信息的序列标注信息退回给所述生产节点;所述生产节点根据接收的包括有检测状态参考信息的序列标注信息,对所述检测状态参考信息进行修改,生成包括修改后的检测状态参考信息的确认信息;所述质检节点获取所述确认信息,并对所述确认信息中修改后的检测状态参考信息,确定检测状态参考信息中异常标注标签的目标序列标注标签。
可以理解的是,当生产节点对质检节点退回的包括有检测状态参考信息的序列标注信息不认可的情况下,还可以针对检测状态参考信息中质检节点修订的标注标签再次进行修订,之后发送到质检节点再次进行质检,从而实现多轮次的质检循环,提高目标序列标注标签的准确定。
关于数据处理系统的具体内容可以参考上述从质检节点角度描述的步骤S101到步骤S105的内容,以及从生产节点角度描述的步骤S301到步骤S303的内容。
基于上述内容,本申请还提供一种生产序列标注标签的模型训练方法,包括:
获取目标序列标注标签,所述目标序列标注标签采用如上述数据处理方法中步骤S101至步骤S105中确定的目标序列标注标签;此处不再重复赘述。
将所述目标序列标注标签作为样本数据输入到模型中进行训练,获得用于生产序列标注标签的训练模型。
基于上述内容,本申请还提供一种序列标注标签的确定方法,包括:
将待标注的数据输入到如上所述的生产序列标注标签的模型训练方法提供的训练模型中;
根据所述训练模型针对所述数据输出的序列标注标签概率,确定所述输入数据的序列标注标签。
基于上述内容,请参考图6所示,图6是本申请提供一种数据翻译方法实施例的应用场景示意图,该翻译方法,包括:
将待翻译数据输入到如上所述的生产序列标注标签的模型训练方法提供的训练模型中;
根据所述训练模型针对所述待翻译数据输出的序列标注标签概率,确定所述待翻译数据的目标序列标注标签;
根据所述目标序列标注标签,确定所述待翻译数据对应的翻译后目标数据。
可以理解的是,输入到如上所述的生产序列标注标签的模型训练方法提供的训练模型中的待翻译数据可以是文本数据或者语音数据。翻译后的目标数据可以通过终端设备进行输出。
在本实施例中,所述终端设备可以是平板电脑、手机、PC机,智能音箱等。
基于上述内容,本申请还提供一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被读取执行时,执行如上所述的数据处理方法的步骤S101到步骤S105;或者执行如上所述数据处理方法的步骤S301到步骤S303;或者执行如上所述提供的一种生产序列标注标签的模型训练方法的步骤;或者执行如上所述提供的一种序列标注标签的确定方法的步骤;或者执行如上所述提供的数据翻译方法的步骤。
基于上述内容,本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储对终端设备产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如上所述的数据处理方法的步骤S101到步骤S105;或者执行如上所述的数据处理方法的步骤S301到步骤S303;或者执行如上所述提供的一种生产序列标注标签的模型训练方法的步骤;或者执行如上所述提供的一种序列标注标签的确定方法的步骤;或者执行如上所述提供的数据翻译方法的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他成分的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (27)
1.一种生产序列标注标签的模型训练方法,其特征在于,包括:
对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果;
根据所述异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息;
退回包括所述检测状态参考信息的序列标注信息;
获取针对退回的包括所述检测状态参考信息的所述序列标注信息中,所述检测状态参考信息的确认信息;
根据所述确认信息,确定针对异常标注标签的目标序列标注标签;
将所述目标序列标注标签作为样本数据输入到模型中进行训练,获得用于生产序列标注标签的训练模型。
2.一种序列标注标签的确定方法,其特征在于,包括:
将待标注的数据输入到用于生产序列标注标签的训练模型中,其中,所述训练模型根据权利要求1所述的生产序列标注标签的模型训练方法获得;
根据所述训练模型针对所述数据输出的序列标注标签概率,确定输入数据的序列标注标签。
3.一种数据翻译方法,其特征在于,包括:
将待翻译数据输入到用于生产序列标注标签的训练模型中,其中,所述训练模型根据权利要求1所述的生产序列标注标签的模型训练方法获得;
根据所述训练模型针对所述待翻译数据输出的序列标注标签概率,确定所述待翻译数据的目标序列标注标签;
根据所述目标序列标注标签,确定所述待翻译数据对应的翻译后目标数据。
4.一种数据处理方法,其特征在于,包括:
对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果;
根据所述异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息;
退回包括所述检测状态参考信息的序列标注信息;
获取针对退回的包括所述检测状态参考信息的所述序列标注信息中,所述检测状态参考信息的确认信息;其中,所述确认信息为根据对所述检测状态参考信息的修改,生成的包括修改后的检测状态参考信息的确认信息;
根据所述确认信息,确定针对异常标注标签的目标序列标注标签。
5.根据权利要求4所述的数据处理方法,其特征在于,所述对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果,包括:
根据文本信息和用于存储标注信息记忆库中的标注信息中的至少一种信息,对所述序列标注信息中的标注标签进行异常检测,获得异常检测结果。
6.根据权利要求4所述的数据处理方法,其特征在于,所述检测状态参考信息中至少包括如下一种信息:
针对所述标注标签的修订信息;
针对所述标注标签的检测状态信息;
针对所述标注标签的标注异常的内容信息。
7.根据权利要求4所述的数据处理方法,其特征在于,所述获取针对所述退回的包括所述检测状态参考信息的序列标注信息中,所述检测状态参考信息的确认信息,包括:
获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为正确的确认信息;或者;
获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为错误的确认信息。
8.根据权利要求7所述的数据处理方法,其特征在于,所述获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为正确的确认信息,包括:
获取针对退回的包括所述检测状态参考信息的序列标注信息中,确认修订后标注标签为正确的确认信息。
9.根据权利要求7所述的数据处理方法,其特征在于,所述获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息为错误的确认信息,包括:
获取针对退回的包括所述检测状态参考信息的序列标注信息中,确认修订后标注标签为错误的确认信息。
10.根据权利要求4所述的数据处理方法,其特征在于,所述根据所述确认信息,确定针对异常标注标签的目标序列标注标签,包括:
当所述确认信息为所述检测状态参考信息为正确时,将所述检测状态参考信息中修订后标注标签,确定为所述目标序列标注标签;
当所述确认信息为所述检测状态参考信息为错误时,且所述检测状态参考信息中已修订标注标签的再次修订的标注标签为正确,则将再次修订的标注标签确定为所述目标序列标注标签。
11.根据权利要求10所述的数据处理方法,其特征在于,还包括:
当所述确认信息为所述检测状态参考信息为错误时,且所述检测状态参考信息中针对已修订标注标签的再次修订的标注标签为错误,则修订所述检测状态参考信息,获得携带有修订后的检测状态参考信息的序列标注信息;
返回到所述退回包括所述检测状态参考信息的序列标注信息的步骤继续执行,所述序列标注信息为携带有修订后的检测状态参考信息的序列标注信息。
12.根据权利要求11所述的数据处理方法,其特征在于,还包括:
当所述确认信息为所述检测状态参考信息为错误时,根据所述检测状态参考信息中针对已修订标注标签和针对所述检测状态参考信息中已修订标注标签的再次修订的标注标签,确定标签差异信息;
输出所述标签差异信息。
13.根据权利要求4所述的数据处理方法,其特征在于,还包括:
根据所述确认信息,将用于存储序列标注信息的记忆库中所述标注标签更新为所述目标序列标注标签。
14.一种数据处理装置,其特征在于,包括:
检测单元,用于对获取的基于文本信息的序列标注信息中的标注标签进行异常检测,获得异常检测结果;
添加单元,用于根据所述异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息;
退回单元,用于将包括有所述检测状态参考信息的序列标注信息进行退回;
获取单元,用于获取针对退回的包括所述检测状态参考信息的序列标注信息中,用于描述针对所述检测状态参考信息的确认信息;其中,所述确认信息为根据对所述检测状态参考信息的修改,生成的包括修改后的检测状态参考信息的确认信息;
确定单元,用于根据所述确认信息,确定针对异常标注标签的目标序列标注标签。
15.一种数据处理方法,其特征在于,包括:
根据文本信息生成序列标注信息;
获取根据权利要求4-13任一所述方法中退回的包括检测状态参考信息的序列标注信息,所述检测状态参考信息用于描述所述序列标注信息中标注标签异常的信息;
根据对所述检测状态参考信息的修改,生成包括修改后的检测状态参考信息的确认信息。
16.根据权利要求15所述的数据处理方法,其特征在于,所述根据对所述检测状态参考信息的修改,生成包括修改后的检测状态参考信息的确认信息,包括:
对所述检测状态参考信息进行检查,获得检查结果;
当所述检查结果为正确时,将所述检测状态参考信息中的检测状态信息修改为确定,并生成包括修改后的检测状态参考信息的确认信息。
17.根据权利要求16所述的数据处理方法,其特征在于,当所述检查结果为错误时,修改所述检测状态参考信息中描述标注异常的内容信息,并生成包括修改后的检测状态参考信息的确认信息。
18.根据权利要求16所述的数据处理方法,其特征在于,所述对所述检测状态参考信息进行检查,获得检查结果,包括:
将所述文本信息和记忆库中存储的标注标签信息中的至少一种信息,与所述检测状态参考信息中修订标签进行比对,获得检查结果。
19.根据权利要求15所述的数据处理方法,其特征在于,还包括:
获取针对所述确认信息,反馈的包括检测状态参考信息的序列标注信息。
20.根据权利要求19所述的数据处理方法,其特征在于,所述获取针对所述确认信息,反馈的包括检测状态参考信息的序列标注信息,包括:
当所述确认信息中针对所述检测状态参考信息确认为错误时,获取基于所述错误修改的检测状态参考信息的序列标注信息;
对基于所述错误修改的检测状态参考信息的序列标注信息进行二次确认,生成二次确认信息。
21.根据权利要求15所述的数据处理方法,其特征在于,所述根据文本信息生成的序列标注信息,包括:
对所述文本信息进行划词标注;
根据所述划词标注生成序列标注信息。
22.根据权利要求21所述的数据处理方法,其特征在于,所述对所述文本信息进行划词标注,生成序列标注信息,包括:
获取预标注信息和记忆库中存储的标注信息中的至少一种信息;
将获取的至少一种信息与所述划词标注,生成序列标注信息。
23.一种数据处理装置,其特征在于,包括:
第一生成单元,用于根据文本信息生成序列标注信息;
获取单元,用于获取根据权利要求4-13任一所述方法中退回的包括检测状态参考信息的序列标注信息,所述检测状态参考信息用于描述所述序列标注信息中标注标签异常的信息;
第二生成单元,用于根据对所述检测状态参考信息的修改,发送包括修改后的检测状态参考信息的确认信息。
24.一种数据处理系统,其特征在于,包括:生产节点和质检节点;
所述生产节点,用于根据文本信息生成序列标注信息,发送到所述质检节点;所述质检节点对所述序列标注信息中的标注标签进行异常检测,根据异常检测结果,在所述序列标注信息中添加用于描述所述标注标签异常的检测状态参考信息,并将包括有检测状态参考信息的序列标注信息退回给所述生产节点;所述生产节点根据接收的包括有检测状态参考信息的序列标注信息,对所述检测状态参考信息进行修改,生成包括修改后的检测状态参考信息的确认信息;所述质检节点获取所述确认信息,并对所述确认信息中修改后的检测状态参考信息,确定检测状态参考信息中异常标注标签的目标序列标注标签。
25.根据权利要求24所述的数据处理系统,其特征在于,还包括:
将用于存储标注标签记忆库中相对应的标注标签更新为所述目标序列标注标签。
26.一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被读取执行时,执行如权利要求1所述的生产序列标注标签的模型训练方法;或者执行如权利要求2所述的序列标注标签的确定方法;或者执行如权利要求3所述的数据翻译方法;或者执行如权利要求4至13任意一项所述的数据处理方法的步骤;或者执行如权利要求15至22任意一项所述的数据处理方法的步骤。
27.一种电子设备,包括:
处理器;
存储器,用于存储对终端设备产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如权利要求1所述的生产序列标注标签的模型训练方法;或者执行如权利要求2所述的序列标注标签的确定方法;或者执行如权利要求3所述的数据翻译方法;或者执行如权利要求4至13任意一项所述的数据处理方法的步骤;或者执行如权利要求15至22任意一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911408103.0A CN113127635B (zh) | 2019-12-31 | 2019-12-31 | 数据处理方法、装置及系统,存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911408103.0A CN113127635B (zh) | 2019-12-31 | 2019-12-31 | 数据处理方法、装置及系统,存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127635A CN113127635A (zh) | 2021-07-16 |
CN113127635B true CN113127635B (zh) | 2024-04-02 |
Family
ID=76770238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911408103.0A Active CN113127635B (zh) | 2019-12-31 | 2019-12-31 | 数据处理方法、装置及系统,存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127635B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116319266A (zh) * | 2023-02-14 | 2023-06-23 | 百融至信(北京)科技有限公司 | 一种分布式调度方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662953A (zh) * | 2012-03-01 | 2012-09-12 | 倪旻 | 与输入法集成的语义标注系统和方法 |
JPWO2013030984A1 (ja) * | 2011-08-31 | 2015-03-23 | 株式会社日立パワーソリューションズ | 設備状態監視方法およびその装置 |
CN106156470A (zh) * | 2015-04-16 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 一种时间序列异常检测标注方法及系统 |
CN107578769A (zh) * | 2016-07-04 | 2018-01-12 | 科大讯飞股份有限公司 | 语音数据标注方法和装置 |
CN108416384A (zh) * | 2018-03-05 | 2018-08-17 | 苏州大学 | 一种图像标签标注方法、系统、设备及可读存储介质 |
CN109684309A (zh) * | 2018-08-03 | 2019-04-26 | 全球能源互联网研究院有限公司 | 一种数据质量评测方法及装置、计算机设备和存储介质 |
CN110362822A (zh) * | 2019-06-18 | 2019-10-22 | 中国平安财产保险股份有限公司 | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 |
CN110427487A (zh) * | 2019-07-30 | 2019-11-08 | 中国工商银行股份有限公司 | 一种数据标注方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013030984A (ja) * | 2011-07-28 | 2013-02-07 | Renesas Electronics Corp | 遅延ロックループ回路及びロックアップ方法 |
-
2019
- 2019-12-31 CN CN201911408103.0A patent/CN113127635B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2013030984A1 (ja) * | 2011-08-31 | 2015-03-23 | 株式会社日立パワーソリューションズ | 設備状態監視方法およびその装置 |
CN102662953A (zh) * | 2012-03-01 | 2012-09-12 | 倪旻 | 与输入法集成的语义标注系统和方法 |
CN106156470A (zh) * | 2015-04-16 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 一种时间序列异常检测标注方法及系统 |
CN107578769A (zh) * | 2016-07-04 | 2018-01-12 | 科大讯飞股份有限公司 | 语音数据标注方法和装置 |
CN108416384A (zh) * | 2018-03-05 | 2018-08-17 | 苏州大学 | 一种图像标签标注方法、系统、设备及可读存储介质 |
CN109684309A (zh) * | 2018-08-03 | 2019-04-26 | 全球能源互联网研究院有限公司 | 一种数据质量评测方法及装置、计算机设备和存储介质 |
CN110362822A (zh) * | 2019-06-18 | 2019-10-22 | 中国平安财产保险股份有限公司 | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 |
CN110427487A (zh) * | 2019-07-30 | 2019-11-08 | 中国工商银行股份有限公司 | 一种数据标注方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
融合从底向上与自顶向下的中文复杂句人工标注方法;毛婷婷;吕学强;周强;刘殷;;小型微型计算机系统;20160415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113127635A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931490B (zh) | 文本纠错方法、装置及存储介质 | |
CN113948066B (zh) | 一种实时转译文本的纠错方法、系统、存储介质和装置 | |
CN110929094A (zh) | 一种视频标题处理方法和装置 | |
CN114238629A (zh) | 一种基于自动提示推荐的语言处理方法、装置及终端 | |
US11074406B2 (en) | Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor | |
CN109885821B (zh) | 基于人工智能的文章撰写方法及装置、计算机存储介质 | |
CN109033427B (zh) | 股票的筛选方法及装置、计算机设备及可读存储介质 | |
CN117725182A (zh) | 基于大语言模型的数据检索方法、装置、设备和存储介质 | |
US10782942B1 (en) | Rapid onboarding of data from diverse data sources into standardized objects with parser and unit test generation | |
CN113127635B (zh) | 数据处理方法、装置及系统,存储介质和电子设备 | |
JP2022140382A (ja) | 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム | |
CN112347320B (zh) | 数据表字段的关联字段推荐方法及装置 | |
CN113051259A (zh) | 一种用于门店经营的多数据源结构差异处理方法及系统 | |
CN116560631B (zh) | 一种机器学习模型代码的生成方法及装置 | |
CN114385694A (zh) | 一种数据加工处理方法、装置、计算机设备及存储介质 | |
CN113032538A (zh) | 一种基于知识图谱的话题转移方法、控制器及存储介质 | |
CN118350464A (zh) | 基于任意粒度文本输入的对话式目标定位方法及装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN117725895A (zh) | 文档生成方法、装置、设备及介质 | |
CN110955755A (zh) | 一种确定目标标准信息的方法和系统 | |
CN113850235B (zh) | 一种文本处理方法、装置、设备及介质 | |
CN116028626A (zh) | 文本匹配方法、装置、存储介质以及电子设备 | |
CN118537666B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN115249017B (zh) | 文本标注方法、意图识别模型的训练方法及相关设备 | |
CN117743518A (zh) | 一种基于多阶段归因的情绪原因对抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |