CN110826494B - 标注数据质量评价方法、装置、计算机设备及存储介质 - Google Patents

标注数据质量评价方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110826494B
CN110826494B CN201911082125.2A CN201911082125A CN110826494B CN 110826494 B CN110826494 B CN 110826494B CN 201911082125 A CN201911082125 A CN 201911082125A CN 110826494 B CN110826494 B CN 110826494B
Authority
CN
China
Prior art keywords
labeling
annotation
data
text
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911082125.2A
Other languages
English (en)
Other versions
CN110826494A (zh
Inventor
章逸骋
陈运文
高翔
王江
陈宇
纪达麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datagrand Information Technology Shanghai Co ltd
Original Assignee
Datagrand Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Information Technology Shanghai Co ltd filed Critical Datagrand Information Technology Shanghai Co ltd
Priority to CN201911082125.2A priority Critical patent/CN110826494B/zh
Publication of CN110826494A publication Critical patent/CN110826494A/zh
Application granted granted Critical
Publication of CN110826494B publication Critical patent/CN110826494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明实施例公开了一种标注数据质量评价方法、装置、计算机设备及存储介质。所述方法包括:获取待处理的至少一个标注样本;分别对所述至少一个标注样本进行标注准确性分析;对所述至少一个标注样本进行标注一致性分析;根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果。本发明实施例可以准确评估标注数据的质量,并减少人工成本,提高评估效率。

Description

标注数据质量评价方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种标注数据质量评价方法、装置、计算机设备及存储介质。
背景技术
目前,在文本识别领域中,通常采用预先训练的模型识别文本,在模型的训练过程中,文本数据的标注质量至关重要,高质量的标注数据才能生成高质量的模型。
现有的训练样本可以通过人工方式或自动标注方式进行样本标注。然而标注可能会出现错误。例如,标注不应被标注的数据;遗漏标注数据;标注的数据与标准数据部分重合等。
通常,标注后的样本会采用人工复核方式进行检查。往往人工复核还是会出现疏漏,尤其是在标注样本的数据量大的情况下,人工检查难以快速准确判断出标注样本中各标注文本的标注质量。
发明内容
本发明实施例提供了一种标注数据质量评价方法、装置、计算机设备及存储介质,可以准确评估标注数据的质量,并减少人工成本,提高评估效率。
第一方面,本发明实施例提供了一种标注数据质量评价方法,包括:
获取待处理的至少一个标注样本;
分别对所述至少一个标注样本进行标注准确性分析;
对所述至少一个标注样本进行标注一致性分析;
根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果。
第二方面,本发明实施例提供了一种标注数据质量评价装置,包括:
标注样本获取模块,用于获取待处理的至少一个标注样本;
标注准确性分析模块,用于分别对所述至少一个标注样本进行标注准确性分析;
标注一致性分析模块,用于对所述至少一个标注样本进行标注一致性分析;
标注质量评价结果确定模块,用于根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果。
第三方面,本发明实施例还提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例中任一所述的标注数据质量评价方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的标注数据质量评价方法。
本发明实施例通过自动获取待处理的标准样本,并进行准确性分析和一致性分析,从准确性和一致性两方面评价标注文本的质量,同时,省却人工评价标注文本的成本,解决了现有技术中人工检查标注文本的准确率低且效率低的问题,实现减少人工成本,提高评估效率,同时提高标注数据的评估准确率。
附图说明
图1是本发明实施例一中的一种标注数据质量评价方法的流程图;
图2a是本发明实施例二中的一种标注数据质量评价方法的流程图;
图2b是本发明实施例二中的一种标注数据质量评价方法的流程图;
图3是本发明实施例三中的一种标注数据质量评价装置的结构示意图;
图4是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中的一种标注数据质量评价方法的流程图,本实施例可适用于对标注完成的样本中的标注文本进行标注质量评价的情况,该方法可以由本发明实施例提供的标注数据质量评价装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中,例如,终端设备或服务器等。如图1所示,本实施例的方法具体包括:
S110,获取待处理的至少一个标注样本。
具体的,标注样本用于作为标注文本的载体,其中,标注样本可以是文本、文档、图像识别出的图像文本或音频识别出的音频文本等。
通常,在一段文本中标注出特定字段,并将标注出特定字段的文本作为训练样本,对模型进行训练,可以得到识别出特定字段的模型。其中,文本中标注出的字段质量决定着模型的识别准确率,即字段质量越高模型的识别准确率越高,字段质量越低模型的识别准确率越低。
标注样本可以是以人工方式进行标注的样本,也可以是以机器方式,例如神经网络模型自动标注的样本。
通常对标注样本的评价是指同时对大量标注样本的评价。
S130,分别对所述至少一个标注样本进行标注准确性分析。
准确性分析用于评估标注样本中的标注数据是否标注准确,具体的,准确性分析用于在标注样本中判断是否存在多余标注数据、错误标注数据和遗漏标注数据等,其中,多余标注数据可以是指标注了实际上不需要标注的数据;错误标注数据可以是指标注的数据与正确的标注数据不完全相同,存在部分重合;遗漏标注数据可以是指遗漏了实际上需要标注的数据。此外,准确性分析还用于判断是否存在其他准确性类型的标注数据,对此,本发明实施例不作具体限制。
示例性的,在标注样本中标注出省市名称,标注样本的标注数据包括:湖南省、北京市、海淀区和四川。正确的标注数据包括:湖南省、北京市、四川省和深圳市。其中,在标注样本中,海淀区不属于省或市,因此,海淀区为多余标注数据;标注样本中的四川省中的“省”字未标注出来,因此,四川为错误标注数据;标注样本中未标注出深圳市,由此,深圳市为遗漏标注数据。
具体的,可以预先配置标注样本对应正确的目标标注样本,将标注样本中的标注数据分别与目标标注样本中的标注数据比对,将比对结果作为标注样本的标注准确性分析结果。其中,标注样本中的标注数据分别与目标标注样本中的标注数据比对,实际是将标注数据中的每个标注文本分别进行比较。
还可以通过模型对标注样本的未标注版本进行自动标注,将标注出的数据与标注样本中的标注数据进行比对,将比对结果作为标注样本的标注准确性分析结果。
可选的,所述分别对所述至少一个标注样本进行标注准确性分析,包括:获取所述标注样本匹配的原始文本;其中,所述原始文本中不包括任何标注数据;采用预先训练的模型对所述原始文本进行标注,得到预测标注数据;将所述标注样本包括的待评价的标注数据与所述预测标注数据进行比较,得到所述标注样本的准确性分析结果。
原始文本可以是指标注样本在未标注前对应的文本。模型用于在原始文本中进行标注。预测标注数据用于与标注样本中的待评价的标注数据进行比较,评价标注数据的准确性。预测标注数据可以是指在原始文本中,按照与标注数据相同的标注规则进行标注得到的数据。
可以理解的是,标注样本是按照预设标注规则标注得到标注数据,而预先训练的模型按照相同标注规则标注得到的预测标注数据。具体的,预设标注规则用于确定标注数据,例如,预设标注规则规定了标注数据的类型、名称和字段长度等中的至少一项信息。示例性的,标注样本的标注数据为省市名称,相应的,模型标注得到的预测标注数据同样为省市名称。
具体的,可以将标注样本中的标注数据删除得到原始文本,并将原始文本输入到预先训练的模型进行文本识别,在原始文本中标注预测标注数据。将每个待评价的标注数据分别与各预测标注数据进行比较,判断每个待评价的标注数据是否准确。标注样本的准确性分析结果包括每个标注样本的分析结果。
通过获取标注样本的原始文本,并对原始文本进行标注得到预测标注数据,并分别与待评价的标注数据进行比较,得到标注样本的准确性分析结果,实现获取准确标注数据并与待评价的标注数据进行比较,评估标注数据的准确性,提高标注数据准确性分析的准确率,从而实现准确评估标注数据的质量。
此外,还可以通过其他方式进行标注准确性分析,对此,本发明实施例不作具体限制。
S130,对所述至少一个标注样本进行标注一致性分析。
一致性分析用于评估标注样本中的标注数据包括的标注文本是否一致。标注文本可以是完全相同的字段,或者是类型相同的字段。具体的,一致性分析用于判断在标注样本的标注数据中的标注文本是否边界一致性和/或章节一致性等。其中,边界一致性可以是指标注文本的上下边界是否相同,例如,标注文本多标注或少标注了边界上的单位、标点或其他元素等,确定标注文本的边界不一致,示例性的,标注文本实际是身份证号,标注文本A包括的数字的个数为19位,而其他标注文本包括的数字的个数均为18位,确定标注文本A与其他标注文本边界不一致;章节一致性可以是指同一类标注文本在同一批文档中的章节(所在位置)是否一致,例如,标注文本B出现在了文档的第三章节,而属于同一类其他标注文本均出现在对应文档的第一章节,确定标注文本B与其他该类标注文本章节不一致。示例性的,至少一个标注样本均为采购合同,其中,采购合同中,采购金额实际出现在合同的第一章节,对于采购金额这一类标注文本应当在第一章节。通常标注样本中的采购金额的标注文本在第一章节,而某个或某几个标注样本在第二章节中标注出采购金额的标注文本,该标注文本与其他标注样本中的标注文本不一致。也即,第二章节中标注出的标注文本与第一章节中标注出的标注文本不一致。其中,在采购合同中,常见的标注文本包括下述至少一项甲方、乙方、采购金额和交付时间等,通常存在设定章节中,从而可以进行章节一致性判断。此外,一致性分析还用于判断标注数据在其他方面是否一致,对此,本发明实施例不作具体限制。
实际上,一个标注样本中会同时标注不同类型的标注文本,也即标注数据中包括多个不同类型的标注文本,例如,标注数据中存在身份证号的标注文本和省市名称的标注文本。一致性分析的分析对象实际是同一类型的标注文本或完全相同的标注文本。
可选的,所述对所述至少一个标注样本进行标注一致性分析,包括:对所述至少一个标注样本中待评价的标注数据进行分类,形成至少一个类,每个类包括至少一个初始标注文本;分别对各所述类的初始标注文本进行一致性分析;其中,所述一致性分析包括边界一致性分析和/或章节一致性分析;如果属于同一类的初始标注文本一致,则所述类中全部初始标注文本的一致性数据类型为一致数据;如果属于同一类的初始标注文本不一致,则所述类中满足设定占比条件的初始标注文本的一致性数据类型为不一致数据;将所述标注样本的各所述初始标注文本的一致性数据类型和各所述初始标注文本关联的信息作为所述标注样本的一致性分析结果。
其中,将待评价的标注数据进行分类,在标注数据中,将同一类型的标注文本划分为同一类,并每类中的标注文本作为初始标注文本,将属于同一类的初始标注文本进行一致性分析。如果一个类的至少一个初始标注文本一致,确定该类中的全部初始标注文本的一致性分析结果为一致;如果一个类的至少一个初始标注文本不一致,可以进一步对至少一个初始标注文本进行分组,并计算每组包括的初始标注文本的数量与占该类包括的初始标注文本的数量的比值,根据计算得到的比值,判断各组是否满足阈值条件,确定满足阈值条件的组包括的初始标注文本均满足设定占比条件,同时将满足设定占比条件的初始标注文本的一致性分析结果确定为不一致。
其中,设定占比条件用于确定初始标注文本的一致性分析结果,阈值条件用于确定比值小的组或与比值最大的组对应的比值之间的差值是否低于设定阈值的组。
具体的,确定占比低于最大比值的组满足阈值条件,占比低于最大比值的组中包括的初始标注文本满足设定占比条件。
此外,数量最多的第一组和数量次多的第二组包括的初始标注文本的数量几乎相同,此时,无法准确确定是哪组的初始标注文本为正确的标注,从而,将两个组包括的初始标注文本的一致性分析均确定为不一致。如果存在与比值最大的组对应的比值之间的差值是否低于设定阈值的组,则确定该类中全部组满足阈值条件,也即全部初始标注文本满足设定占比条件。
示例性的,一个类中划分得到3组,第一组包括21个初始标注文本,第二组包括18个标注文本,第三组包括10个标注文本,设定阈值为0.1,第二组和第三组的占比均小于第一组,第二组和第三组满足阈值条件。同时,第一组和第二组的占比差值为0.06,小于设定阈值,从而,第一组也满足阈值条件。从而该类中的初始标注文本均满足设定占比条件。
其中,如果一个类中只包括一个初始标注文本,可以直接确定该初始标注文本为一致或不一致,具体可以根据需要进行设置,对此,本发明实施例不作具体限制。一致性数据类型包括一致数据和不一致数据。初始标注文本关联的信息用于在标注样本中标识初始标注文本,例如,初始标注文本关联的信息包括初始标注文本的标注位置。具体的,初始标注文本关联的信息可以仅是数据类型为不一致数据的初始标注文本的信息。
当一个类中包括至少两个初始标注文本时,边界一致性判断可以通过判断初始标注文本的标注字段的个数是否相同;而章节一致性判断可以通过判断同一类初始标注文本在同类标注样本中的章节(所在位置)的是否一致。
边界一致性分析和章节一致性分析是独立并行的分析,互相不干扰。如果同一类的初始标注文本的边界一致,则该类中全部初始标注文本为边界一致数据;如果同一类的初始标注文本的边界不一致,则该类中满足设定占比条件的初始标注文本为边界不一致数据。如果同一类的初始标注文本的章节一致,则该类中全部初始标注文本为章节一致数据;如果同一类的初始标注文本的章节不一致,则该类中满足设定占比条件的初始标注文本为章节不一致数据。
通过对待评价的标注数据进行分类,并针对同一类的标注数据进行一致性分析,可以在标注数据的标注位置评价的基础上,进一步判断标注数据本身是否标注准确,从而,提高标注数据的质量评价的准确性。
S140,根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果。
综合准确性分析结果和一致性分析结果,形成标注样本的标注质量评价结果。标注质量评价结果用于评价标注样本的标注数据中每个标注样本的标注质量。其中,准确性分析结果和一致性分析结果是相互独立的分析结果,可以直接将准确性分析结果和一致性分析结果作为标注质量评价结果。
可选的,在生成所述标注样本的标注质量评价结果之后,还包括:生成标注优化信息,以提示用户优化所述标注样本中的标注数据。
标注优化信息用于确定标注数据的优化建议,帮助用户修正不准确的标注数据。
通过生成标注优化信息,提供不准确的标注数据的优化建议,加快标注数据修改的效率。
可选的,所述根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果,包括:如果查询到所述标注样本的历史标注质量评价结果,从所述准确性分析结果和所述一致性分析结果中,提取与所述历史标注质量评价结果匹配的数据作为无效数据;将所述无效数据从所述准确性分析结果和所述一致性分析结果中删除,形成所述标注样本的标注质量评价结果。
历史标注质量评价结果可以是指预先存储的标注样本通过本发明实施例提供的标注数据质量评价方法,得到的标注质量评价结果。历史标注质量评价结果用于记录标注样本的历史准确性分析结果和历史一致性分析结果。
无效数据用于无效的分析结果进行删除。具体的,无效数据可以是指历史标注质量评价结果中错误的评价结果和/或与历史标注质量评价结果相同的评价结果。其中,可以将准确性分析结果和一致性分析结果中与历史标注质量评价结果相同的分析结果作为与历史标注质量评价结果匹配的数据,也即无效数据。
其中,标注样本可以重复进行标注质量评价。例如,用户可以根据标注优化信息对标注样本中的标注数据进行修正,并对修正后的标注样本的进行标注质量评价,以评价修正后的标注样本的标注质量,重复进行上述操作,可以快速有效减少标注样本中的问题标注数据。
但实际上,历史准确性分析结果和历史一致性分析结果可能存在错误的分析结果。用户会忽略错误的分析结果,在下一轮的标注质量评价结果中,可以将这部分错误的分析结果作为无效数据删除,避免多次重复出现,减少对用户的干扰。
通过将准确性分析结果和一致性分析结果中,与历史标注质量评价结果匹配的数据作为无效数据,从准确性分析结果和一致性分析结果中剔除,实现删除错误的分析结果以及重复的分析结果,简化标注质量评价结果,同时优化标注质量评价结果,提高标注质量评价结果的准确率。
本发明实施例通过自动获取待处理的标准样本,并进行准确性分析和一致性分析,从准确性和一致性两方面评价标注文本的质量,同时,省却人工评价标注文本的成本,解决了现有技术中人工检查标注文本的准确率低且效率低的问题,实现减少人工成本,提高评估效率,同时提高标注数据的评估准确率。
实施例二
图2a为本发明实施例二中的一种标注数据质量评价方法的流程图,本实施例以上述实施例为基础进行具体化,将所述分别对所述至少一个标注样本进行标注准确性分析具体化为:获取所述标注样本匹配的原始文本;其中,所述原始文本中不包括任何标注数据;采用预先训练的模型对所述原始文本进行标注,得到预测标注数据;将所述标注样本包括的待评价的标注数据与所述预测标注数据进行比较,得到所述标注样本的准确性分析结果。将所述对所述至少一个标注样本进行标注一致性分析具体化为:对所述至少一个标注样本中待评价的标注数据进行分类,形成至少一个类,每个类包括至少一个初始标注文本;分别对各所述类的初始标注文本进行一致性分析;其中,所述一致性分析包括边界一致性分析和/或章节一致性分析;如果属于同一类的初始标注文本一致,则所述类中全部初始标注文本的一致性数据类型为一致数据;如果属于同一类的初始标注文本不一致,则所述类中满足设定占比条件的初始标注文本的一致性数据类型为不一致数据。
本实施例的方法具体包括:
S201,获取待处理的至少一个标注样本。
S202,获取所述标注样本匹配的原始文本;其中,所述原始文本中不包括任何标注数据。
S203,采用预先训练的模型对所述原始文本进行标注,得到预测标注数据。
可选的,所述预先训练的模型通过将所述标注样本作为训练样本训练形成。
通过标注样本对模型进行训练,可以减少预先准备的模型的训练样本的数据量,减少训练样本的工作量,还可以在评价标注数据的同时训练模型,无需额外单独训练模型,提高模型训练效率。
此外,在算力和时间充裕的情况,或者模型存在潜在的过拟合问题,可以选择不使用以全量数据训练模型并用于评估标注样本的标注质量,可以采用交叉验证的方式训练模型并预测。
S204,将所述标注样本包括的待评价的标注数据与所述预测标注数据进行比较,得到所述标注样本的准确性分析结果。
可选的,所述将所述标注样本包括的待评价的标注数据与所述预测标注数据进行比较,得到所述标注样本的准确性分析结果,包括:获取所述待评价的标注数据中包括的全部初始标注文本,并逐一与所述预测标注数据中匹配的预测标注文本进行比较;如果所述初始标注文本与匹配的预测标注文本相同,则确定所述初始标注文本的准确性数据类型为正确标注数据;如果在所述预测标注数据中不存在与所述初始标注文本匹配的预测标注文本,则确定所述初始标注文本的准确性数据类型为多余标注数据;如果所述初始标注文本与匹配的预测标注文本不同,则确定所述初始标注文本的准确性数据类型为错误标注数据;如果所述待评价的标注数据中不存在与所述预测标注数据中预测标注文本匹配的初始标注文本,在所述标注样本中标注出与所述预测标注文本匹配的初始标注文本,且确定所述初始标注文本的准确性数据类型为遗漏标注数据;将所述标注样本的各所述初始标注文本的数据类型和各所述初始标注文本关联的信息作为所述标注样本的准确性分析结果。
其中,匹配的预测标注文本是指与初始标注文本的标注位置相同的预测标注文本。标注位置可以是指标注样本中的位置,例如,第一章节第三段第二句话等。或者还可以通过在标注样本中建立坐标系,采用坐标位置表示标注位置。
准确性数据类型包括正确标注数据、多余标注数据、错误标注数据和遗漏标注数据。
初始标注文本与匹配的预测标注文本相同,具体是指初始标注文本与预测标注文本完全相同,例如,初始标注文本包括的字段与预测标注文本包括的字段完全相同。初始标注文本与预测标注文本完全相同,表明该初始标注文本标注正确,即该初始标注文本的准确性数据类型为正确标注数据。
如果遍历预测标注文本,未找到与待评价的标注数据匹配的预测标注文本,确定在标注样本中不应该标注出该初始标注文本,此时,该初始标注文本的准确性数据类型实际为多余标注数据。
初始标注文本与匹配的预测标注文本不同,具体是指初始标注文本与预测标注文本不同或不全相同,例如,初始标注文本包括的字段与预测标注文本包括的字段完全不同或部分相同。此时,该初始标注文本的准确性数据类型实际是错误标注数据。
如果遍历待评价的标注数据,未找到与预测标注文本匹配的初始标注文本,确定在标注样本中并未标注出该预测标注文本匹配的初始标注文本,此时,该初始标注文本的准确性数据类型实际为遗漏标注数据。
通过将待评价的标注数据与预测标注数据进行比较,确定每个待评价的标注数据的准确性数据类型,以及问题标注数据的标识信息,准确且详细提供标注数据中每个标注样本的分析结果,增加标注质量评价结果的全面性和准确性。
S205,对所述至少一个标注样本中待评价的标注数据进行分类,形成至少一个类,每个类包括至少一个初始标注文本。
S206,分别对各所述类的初始标注文本进行一致性分析;其中,所述一致性分析包括边界一致性分析和/或章节一致性分析。
S207,如果属于同一类的初始标注文本一致,则所述类中全部初始标注文本的数据类型为一致数据。
S208,如果属于同一类的初始标注文本不一致,则所述类中满足设定占比条件的初始标注文本的一致性数据类型为不一致数据。
S209,将所述标注样本的各所述初始标注文本的一致性数据类型和各所述初始标注文本关联的信息作为所述标注样本的一致性分析结果。
S210,根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果。
可选的,在生成所述标注样本的标注质量评价结果之后,还包括:生成标注优化信息,以提示用户优化所述标注样本中的标注数据。
可选的,所述根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果,包括:如果查询到所述标注样本的历史标注质量评价结果,从所述准确性分析结果和所述一致性分析结果中,提取与所述历史标注质量评价结果匹配的数据作为无效数据;将所述无效数据从所述准确性分析结果和所述一致性分析结果中删除,形成所述标注样本的标注质量评价结果。
在一个具体的例子中,如图2b所示,标注数据质量评价方法具体可以包括:
S221,获取新的标注样本和/或修正后的标注样本。
新的标注样本可以是指未经过标注数据质量评价方法的标注样本,也即本地未存储有该标注样本对应的历史标注质量评价结果。
修正后的标注样本可以是指经过标注数据质量评价方法的标注样本,也即本地存储有该标注样本对应的历史标注质量评价结果。
示例性的,可以接收新的标注样本以及根据上一轮标注数据质量评价的结果而改进的标注数据。
S222,对获取的至少一个标注样本进行预处理,得到所述标注样本中待评价的标注数据。
具体的,对标注样本进行预处理,获取待评价的标注数据,标注数据中包括至少一个标注文本,其中,标注文本的类型或标注规则可以相同,也可以不同。预处理可以包括但不限于文本归一化、文本解析和表格解析等处理。
S223,根据各所述标注样本训练模型。
可以采用待评价的标注样本对模型进行训练,实现同时评价标注样本的标注质量,同时实现模型训练过程,可以提高模型训练的效率,以及通过不断改进的标注样本进行训练,可以提高模型的识别准确率。
S224,通过模型对各所述标注样本匹配的原始文本进行预测,得到各所述标注样本对应的预测标注数据。
S225,将所述标注样本的预测标注数据与所述标注样本的标注数据进行比较。
S226,得到所述标注样本的准确性分析结果。
S227,对所述至少一个标注数据进行边界一致性分析。
S228,对所述至少一个标注数据进行章节一致性分析。
需要说明的是,还可以并行执行其他一致性分析操作,具体可以根据需要进行设置,对此,本发明实施例不作具体限制。
S229,对各标注样本进行统计,合并得到各所述标注样本的一致性分析结果。
通常,一致性分析结果可以给出潜在的错误,然而短依赖的模型无法判断出这些潜在的错误。潜在的错误是指错误概率超过设定阈值的错误,即很有可能是错误,但无法保证一定是错误。
S230,对各标注样本进行统计,合并得到各所述标注样本的标注质量评价结果。
S231,根据各所述标注样本的所述标注质量评价结果,分别对各所述标注样本进行后处理。
针对准确性结果,可以提供错误标注数据的替换结果,多余标注数据的删除建议和遗漏标注数据的添加建议等修改建议;也可以仅提供错误标注数据、多余标注数据和遗漏标注数据的标注位置等指示性建议。
针对一致性结果,可以提供不一致数据的标注位置等指示性建议;也可以仅提供不一致数据的替换结果等修改建议。
可以根据需要进行配置建议的类型和具体内容,对此,本发明不作具体限制。
后处理用于在标注样本中提供标注优化信息,指示用户修改存在问题的标注数据。
S232,修正各所述标注样本。
可以接收用户的修正指令,修正标注样本,可以对错误标注数据的替换结果,多余标注数据的删除建议和遗漏标注数据的添加建议选择接受或者拒绝,仅有指示性意见的标注数据进行手动更改或者拒绝修正。
可以将修正后的标注样本与新的标注样本进行合并,进行下一轮的标注质量评价。
本发明实施例通过将标注数据与自动生成的标准预测标注数据进行比较,确定的标注数据中每个标注样本的准确性分析结果,通过对每个标注样本进行一致性分析,确定每个标注样本的一致性分析结果,综合准确性分析结果和一致性分析结果,以每个标注样本为单位进行标注样本的标注质量评价结果,提高标注质量评价结果的全面性和准确性。
实施例三
图3为本发明实施例三中的一种标注数据质量评价装置的示意图。实施例三是实现本发明上述实施例提供的标注数据质量评价方法的相应装置,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。
相应的,本实施例的装置可以包括:
标注样本获取模块310,用于获取待处理的至少一个标注样本;
标注准确性分析模块320,用于分别对所述至少一个标注样本进行标注准确性分析;
标注一致性分析模块330,用于对所述至少一个标注样本进行标注一致性分析;
标注质量评价结果确定模块340,用于根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果。
本发明实施例通过自动获取待处理的标准样本,并进行准确性分析和一致性分析,从准确性和一致性两方面评价标注文本的质量,同时,省却人工评价标注文本的成本,解决了现有技术中人工检查标注文本的准确率低且效率低的问题,实现减少人工成本,提高评估效率,同时提高标注数据的评估准确率。
进一步的,所述标注准确性分析模块320,包括:预测标注数据比较单元,用于获取所述标注样本匹配的原始文本;其中,所述原始文本中不包括任何标注数据;采用预先训练的模型对所述原始文本进行标注,得到预测标注数据;将所述标注样本包括的待评价的标注数据与所述预测标注数据进行比较,得到所述标注样本的准确性分析结果。
进一步的,所述预测标注数据比较单元,包括:数据类型确定子单元,用于获取所述待评价的标注数据中包括的全部初始标注文本,并逐一与所述预测标注数据中匹配的预测标注文本进行比较;如果所述初始标注文本与匹配的预测标注文本相同,则确定所述初始标注文本的准确性数据类型为正确标注数据;如果在所述预测标注数据中不存在与所述初始标注文本匹配的预测标注文本,则确定所述初始标注文本的准确性数据类型为多余标注数据;如果所述初始标注文本与匹配的预测标注文本不同,则确定所述初始标注文本的准确性数据类型为错误标注数据;如果所述待评价的标注数据中不存在与所述预测标注数据中预测标注文本匹配的初始标注文本,在所述标注样本中标注出与所述预测标注文本匹配的初始标注文本,且确定所述初始标注文本的准确性数据类型为遗漏标注数据;将所述标注样本的各所述初始标注文本的数据类型和各所述初始标注文本关联的信息作为所述标注样本的准确性分析结果。
进一步的,所述标注一致性分析模块330,包括:初始标注文本分类分析单元,用于对所述至少一个标注样本中待评价的标注数据进行分类,形成至少一个类,每个类包括至少一个初始标注文本;分别对各所述类的初始标注文本进行一致性分析;其中,所述一致性分析包括边界一致性分析和/或章节一致性分析;如果属于同一类的初始标注文本一致,则所述类中全部初始标注文本的一致性数据类型为一致数据;如果属于同一类的初始标注文本不一致,则所述类中满足设定占比条件的初始标注文本的一致性数据类型为不一致数据。
进一步的,所述预先训练的模型通过将所述标注样本作为训练样本训练形成。
进一步的,所述标注数据质量评价装置还包括:标注优化信息生成模块,用于在生成所述标注样本的标注质量评价结果之后,生成标注优化信息,以提示用户优化所述标注样本中的标注数据。
进一步的,所述标注质量评价结果确定模块340,包括:无效数据剔除单元,用于如果查询到所述标注样本的历史标注质量评价结果,从所述准确性分析结果和所述一致性分析结果中,提取与所述历史标注质量评价结果匹配的数据作为无效数据;将所述无效数据从所述准确性分析结果和所述一致性分析结果中删除,形成所述标注样本的标注质量评价结果。
上述标注数据质量评价装置可执行本发明实施例一所提供的标注数据质量评价方法,具备执行的标注数据质量评价方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。计算机设备12可以是服务器或客户端。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、(Redundant Arrays of Inexpensive Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的一种标注数据质量评价方法。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的标注数据质量评价方法:
也即,该程序被处理器执行时实现:获取待处理的至少一个标注样本;分别对所述至少一个标注样本进行标注准确性分析;对所述至少一个标注样本进行标注一致性分析;根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种标注数据质量评价方法,其特征在于,包括:
获取待处理的至少一个标注样本;
分别对所述至少一个标注样本进行标注准确性分析;
对所述至少一个标注样本进行标注一致性分析;
根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果;
所述分别对所述至少一个标注样本进行标注准确性分析,包括:
获取所述标注样本匹配的原始文本;其中,所述原始文本中不包括任何标注数据;采用预先训练的模型对所述原始文本进行标注,得到预测标注数据;将所述标注样本包括的待评价的标注数据与所述预测标注数据进行比较,得到所述标注样本的准确性分析结果;
所述对所述至少一个标注样本进行标注一致性分析,包括:
对所述至少一个标注样本中待评价的标注数据进行分类,形成至少一个类,每个类包括至少一个初始标注文本;分别对各所述类的初始标注文本进行一致性分析;其中,所述一致性分析包括边界一致性分析和/或章节一致性分析;如果属于同一类的初始标注文本一致,则所述类中全部初始标注文本的一致性数据类型为一致数据;如果属于同一类的初始标注文本不一致,则所述类中满足设定占比条件的初始标注文本的一致性数据类型为不一致数据;将所述标注样本的各所述初始标注文本的一致性数据类型和各所述初始标注文本关联的信息作为所述标注样本的一致性分析结果;
所述将所述标注样本包括的待评价的标注数据与所述预测标注数据进行比较,得到所述标注样本的准确性分析结果,包括:
获取所述待评价的标注数据中包括的全部初始标注文本,并逐一与所述预测标注数据中匹配的预测标注文本进行比较;
如果所述初始标注文本与匹配的预测标注文本相同,则确定所述初始标注文本的准确性数据类型为正确标注数据;
如果在所述预测标注数据中不存在与所述初始标注文本匹配的预测标注文本,则确定所述初始标注文本的准确性数据类型为多余标注数据;
如果所述初始标注文本与匹配的预测标注文本不同,则确定所述初始标注文本的准确性数据类型为错误标注数据;
如果所述待评价的标注数据中不存在与所述预测标注数据中预测标注文本匹配的初始标注文本,在所述标注样本中标注出与所述预测标注文本匹配的初始标注文本,且确定所述初始标注文本的准确性数据类型为遗漏标注数据;
将所述标注样本的各所述初始标注文本的准确性数据类型和各所述初始标注文本关联的信息作为所述标注样本的准确性分析结果。
2.根据权利要求1所述的方法,其特征在于,所述预先训练的模型通过将所述标注样本作为训练样本训练形成。
3.根据权利要求1所述的方法,其特征在于,在生成所述标注样本的标注质量评价结果之后,还包括:
生成标注优化信息,以提示用户优化所述标注样本中的标注数据。
4.根据权利要求1所述的方法,其特征在于,所述根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果,包括:
如果查询到所述标注样本的历史标注质量评价结果,从所述准确性分析结果和所述一致性分析结果中,提取与所述历史标注质量评价结果匹配的数据作为无效数据;
将所述无效数据从所述准确性分析结果和所述一致性分析结果中删除,形成所述标注样本的标注质量评价结果。
5.一种标注数据质量评价装置,其特征在于,包括:
标注样本获取模块,用于获取待处理的至少一个标注样本;
标注准确性分析模块,用于分别对所述至少一个标注样本进行标注准确性分析;
标注一致性分析模块,用于对所述至少一个标注样本进行标注一致性分析;
标注质量评价结果确定模块,用于根据准确性分析结果和一致性分析结果,生成所述标注样本的标注质量评价结果;
所述标注准确性分析模块,包括:预测标注数据比较单元,用于获取所述标注样本匹配的原始文本;其中,所述原始文本中不包括任何标注数据;采用预先训练的模型对所述原始文本进行标注,得到预测标注数据;将所述标注样本包括的待评价的标注数据与所述预测标注数据进行比较,得到所述标注样本的准确性分析结果;
所述标注一致性分析模块,包括:初始标注文本分类分析单元,用于对所述至少一个标注样本中待评价的标注数据进行分类,形成至少一个类,每个类包括至少一个初始标注文本;分别对各所述类的初始标注文本进行一致性分析;其中,所述一致性分析包括边界一致性分析和/或章节一致性分析;如果属于同一类的初始标注文本一致,则所述类中全部初始标注文本的一致性数据类型为一致数据; 如果属于同一类的初始标注文本不一致,则所述类中满足设定占比条件的初始标注文本的一致性数据类型为不一致数据;
所述预测标注数据比较单元,包括:数据类型确定子单元,用于获取所述待评价的标注数据中包括的全部初始标注文本,并逐一与所述预测标注数据中匹配的预测标注文本进行比较;如果所述初始标注文本与匹配的预测标注文本相同,则确定所述初始标注文本的准确性数据类型为正确标注数据;如果在所述预测标注数据中不存在与所述初始标注文本匹配的预测标注文本,则确定所述初始标注文本的准确性数据类型为多余标注数据;如果所述初始标注文本与匹配的预测标注文本不同,则确定所述初始标注文本的准确性数据类型为错误标注数据;如果所述待评价的标注数据中不存在与所述预测标注数据中预测标注文本匹配的初始标注文本,在所述标注样本中标注出与所述预测标注文本匹配的初始标注文本,且确定所述初始标注文本的准确性数据类型为遗漏标注数据;将所述标注样本的各所述初始标注文本的数据类型和各所述初始标注文本关联的信息作为所述标注样本的准确性分析结果。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一所述的标注数据质量评价方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的标注数据质量评价方法。
CN201911082125.2A 2019-11-07 2019-11-07 标注数据质量评价方法、装置、计算机设备及存储介质 Active CN110826494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911082125.2A CN110826494B (zh) 2019-11-07 2019-11-07 标注数据质量评价方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911082125.2A CN110826494B (zh) 2019-11-07 2019-11-07 标注数据质量评价方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110826494A CN110826494A (zh) 2020-02-21
CN110826494B true CN110826494B (zh) 2023-06-06

Family

ID=69553168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911082125.2A Active CN110826494B (zh) 2019-11-07 2019-11-07 标注数据质量评价方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110826494B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553880A (zh) * 2020-03-26 2020-08-18 北京中科虹霸科技有限公司 模型生成方法、标签标注方法、虹膜图像质量评价方法及装置
CN111724374B (zh) * 2020-06-22 2024-03-01 智眸医疗(深圳)有限公司 分析结果的评估方法及终端
CN111985583B (zh) * 2020-09-27 2021-04-30 上海松鼠课堂人工智能科技有限公司 基于学习数据的深度学习样本标注方法
CN112000808B (zh) * 2020-09-29 2024-04-16 迪爱斯信息技术股份有限公司 一种数据处理方法及装置、可读存储介质
CN113326890B (zh) * 2021-06-17 2023-07-28 北京百度网讯科技有限公司 标注数据处理方法、相关装置及计算机程序产品
CN115223166A (zh) * 2022-09-20 2022-10-21 整数智能信息技术(杭州)有限责任公司 图片预标注方法、图片标注方法及装置、电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210294A (zh) * 2019-04-23 2019-09-06 平安科技(深圳)有限公司 优化模型的评价方法、装置、存储介质及计算机设备
CN110245235A (zh) * 2019-06-24 2019-09-17 杭州微洱网络科技有限公司 一种基于协同训练的文本分类辅助标注方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10289963B2 (en) * 2017-02-27 2019-05-14 International Business Machines Corporation Unified text analytics annotator development life cycle combining rule-based and machine learning based techniques

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210294A (zh) * 2019-04-23 2019-09-06 平安科技(深圳)有限公司 优化模型的评价方法、装置、存储介质及计算机设备
CN110245235A (zh) * 2019-06-24 2019-09-17 杭州微洱网络科技有限公司 一种基于协同训练的文本分类辅助标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚承昊 ; 杜晶 ; 肖俊超 ; .软件外包项目工作日志质量评估方法.计算机系统应用.2015,(10),全文. *
田驰远 ; 陈德华 ; 王梅 ; 乐嘉锦 ; .基于依存句法分析的病理报告结构化处理方法.计算机研究与发展.2016,(12),全文. *

Also Published As

Publication number Publication date
CN110826494A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110826494B (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN107423278B (zh) 评价要素的识别方法、装置及系统
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
US20180267956A1 (en) Identification of reading order text segments with a probabilistic language model
CN109614625B (zh) 标题正文相关度的确定方法、装置、设备及存储介质
CN111144210B (zh) 图像的结构化处理方法及装置、存储介质及电子设备
CN112163072A (zh) 基于多数据源的数据处理方法以及装置
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
CN111079432A (zh) 文本检测方法、装置、电子设备及存储介质
CN114428677A (zh) 任务处理方法、处理装置、电子设备及存储介质
CN112181490A (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN115359799A (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN110647523B (zh) 数据质量的分析方法及装置、存储介质、电子设备
CN112699671B (zh) 一种语言标注方法、装置、计算机设备和存储介质
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN111754352A (zh) 一种观点语句正确性的判断方法、装置、设备和存储介质
CN113807416B (zh) 一种模型训练方法、装置、电子设备以及存储介质
CN110826616B (zh) 信息处理方法及装置、电子设备、存储介质
CN111062208B (zh) 一种文件审核的方法、装置、设备及存储介质
CN114065762A (zh) 一种文本信息的处理方法、装置、介质及设备
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN111400282B (zh) 数据处理策略调整方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant