CN112988733B - 一种数据质量提升和增强的方法及装置 - Google Patents

一种数据质量提升和增强的方法及装置 Download PDF

Info

Publication number
CN112988733B
CN112988733B CN202110410090.1A CN202110410090A CN112988733B CN 112988733 B CN112988733 B CN 112988733B CN 202110410090 A CN202110410090 A CN 202110410090A CN 112988733 B CN112988733 B CN 112988733B
Authority
CN
China
Prior art keywords
data
sample data
trained
training
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110410090.1A
Other languages
English (en)
Other versions
CN112988733A (zh
Inventor
刘邦长
孔飞
常德杰
刘朝振
王海
赵洪文
谷书锋
赵进
罗晓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaoyijia Health Technology Group Co ltd
Original Assignee
Beijing Miaoyijia Health Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaoyijia Health Technology Group Co ltd filed Critical Beijing Miaoyijia Health Technology Group Co ltd
Priority to CN202110410090.1A priority Critical patent/CN112988733B/zh
Publication of CN112988733A publication Critical patent/CN112988733A/zh
Application granted granted Critical
Publication of CN112988733B publication Critical patent/CN112988733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于中医药实体抽取技术领域,尤其涉及一种数据质量提升和增强的方法及装置,通过获取待训练样本数据,将所述待训练样本数据进行部分标注标签、部分无标签处理,将含标签的所述待训练样本数据均分成n份原始训练集;通过预训练,获得n个训练模型,使用n个训练模型分别对无标签的待训练样本数据进行匹配预测,获取n份预测结果;通过数据去噪:判断模块判断出训练样本数据是否标注有误,并修正,再通过实际环境再校验。本发明有效减少了噪声数据,提高了数据质量,使训练模型的稳定性和精确度大大提高,彻底解决了由于中医药实体名称庞大、复杂带来的数据噪声大,难以去除,严重影响了AI和深度学习的使用效果的技术难题。

Description

一种数据质量提升和增强的方法及装置
技术领域
本发明属于中医药实体抽取技术领域,尤其涉及一种数据质量提升和增强的方法及装置。
背景技术
深度学习是由大数据驱动发展的一个领域,目前所有的深度学习神经网络算法都会面临训练数据噪声问题。如果训练数据中噪声数据过多,就无法训练得到一个效果较好的深度学习算法,因此,高质量的数据已经成为AI和深度学习系统所必备的条件,一般会花费较多人力物力进行数据去噪。在中医药实体抽取领域,需要大量的高质量的原始语料来进行模型的抽取训练,一般需要的语料也是10w级别中医药实体,目前,通过训练自动标注模型的方式,但由于只简单训练一个分类模型,使模型的稳定性和精确度都不高,且直接应用模型预测的结果作为标签,没有进一步的处理,因此,使得数据质量不高,噪声数据多,严重影响了AI和深度学习的使用效果。
发明内容
为解决上述问题,本发明提供了一种数据质量提升和增强的方法及装置,通过获取模块获取待训练样本数据,将所述待训练样本数据进行部分标注标签、部分无标签处理,通过A策略预训练:将含标签的所述待训练样本数据均分成n份原始训练集;通过预训练,即通过输入模块将含标签的样本数据输入至深度学习网络模型中训练,分别获得n个实体抽取模型;使用n个所述实体抽取模型分别对无标签的所述待训练样本数据进行匹配预测,获取n份预测结果;通过B策略数据去噪:依据所述预测结果,通过判断模块判断出含标签的所述训练样本数据是否标注有误,对有误的样本数据删除或增补;通过实际环境再校验:即在实际环境中人工进行最终校验,通过校验结果进一步判断是否调整B策略去噪的参数。本发明有效减少了噪声数据,提高了数据质量,使实体抽取模型的稳定性和精确度大大提高,彻底解决了由于中医药实体名称庞大、复杂带来的数据噪声大,难以去除,严重影响了AI和深度学习的使用效果的技术难题。
为实现上述发明目的,本发明的技术方案是:
一种数据质量提升和增强的方法,包括如下步骤:
步骤1:获取待训练样本数据,将一部分所述待训练样本数据逐一标注标签,另一部分含相同数据成分的所述待训练样本数据不标注标签;
步骤2:A策略预训练:获取含标签的所述待训练样本数据形成原始训练集,将所述原始训练集均分为n份,并将样本数据输入至深度学习网络模型中进行训练,分别获得n个实体抽取模型;
步骤3:获取无标签的所述待训练样本数据,使用n个所述实体抽取模型分别对无标签的所述待训练样本数据进行匹配预测,获取n份预测结果;
步骤4:B策略数据去噪:依据所述预测结果,判断出含标签的所述待训练样本数据中标注的误差数据,修正后重新获取有标签的待训练样本数据;
步骤5:进行实际环境中最终校验:通过数据格式判断所述实体抽取模型的效果;
步骤6:将结果反馈至预训练阶段,以判断是否调整B策略去噪的参数。
在一些实施例中,步骤1进一步包括:所述样本数据包括中医药实体的类型数据、实体名数据及位置数据。
在一些实施例中,步骤2进一步包括:n份所述原始训练集中每份中的数据类型均相同。
在一些实施例中,步骤3进一步包括:n份所述预测结果中包括样本数据,所述样本数据与所述训练样本数据相同,或者不相同。
在一些实施例中,份数n为大于等于10的正整数。
在一些实施例中,步骤4进一步包括:若某个原始训练集中的第i个实体同时出现在n份所述预测结果中,但没有出现在原始训练集的标注中,则所述预测结果正确,原始训练集的标注有误,因此,将所述第i个实体的标签补充到该训练样本的标注中;若某个原始训练集中的第i个实体均没有出现在n份所述预测结果中,则所述预测结果正确,原始训练集的标注有误,将所述第i个实体的标签从该训练样本的标注中剔除。
在一些实施例中,步骤5进一步包括:所述数据格式为:
n=|n+(m-z)/a|
其中:n为原始训练集的份数;
a为超参数,设a=10e,且e为大于等于2的正整数;
m为所有抽查实体正确次数之和;
z为所有抽查实体错误次数之和;
并把|n+(m-z)/a|四舍五入。
在一些实施例中,依据n判断,m值越大,则z值越小,数据质量越高,引导n值趋小;反之,m值越小,z值越大,数据质量越低,则引导n值趋大。
本发明还公开了一种数据质量提升和增强的装置,所述装置包括:
获取模块:分别获取有标签的待训练样本数据、无标签的待训练样本数据及训练的预测结果;
识别模块:用于识别样本数据的标签类型;
处理模块:将原始训练集按照类型及对应的实体名均分为n份;
输入模块:将待训练样本数据输入至深度学习网络模型中;
生成模块:生成n个实体抽取模型;
匹配模块:使实体抽取模型与无标签样本数据进行匹配;
判断模块:依据预测结果判断原始训练集中的样本数据的标签标注的正确性;
计算模块:计算数据格式中的数据。
本发明的有益效果是:本发明提供了一种数据质量提升和增强的方法及装置,通过获取模块获取待训练样本数据,将所述待训练样本数据进行部分标注标签、部分无标签处理,将含标签的所述待训练样本数据均分成n份原始训练集;通过预训练,即通过输入模块将含标签的样本数据输入至深度学习网络模型中训练,分别获得n个实体抽取模型,使用n个所述实体抽取模型分别对无标签的所述待训练样本数据进行匹配预测,获取n份预测结果;通过数据去噪:依据所述预测结果,通过判断模块判断出含标签的所述训练样本数据是否标注有误,对有误的样本数据删除或增补;通过实际环境再校验:即在实际环境中人工进行最终校验,通过校验结果进一步判断是否调整B策略去噪的参数。本发明有效减少了噪声数据,提高了数据质量,使实体抽取模型的稳定性和精确度大大提高,彻底解决了由于中医药实体名称庞大、复杂带来的数据噪声大,难以去除,严重影响了AI和深度学习的使用效果的技术难题。
附图说明
图1为本申请实施例提供的数据质量提升和增强的方法的一个可选的流程示意图;
其中:
1-获取模块; 2-处理模块;3-输入模块;4-生成模块;5-匹配模块;6-判断模块;7-计算模块;8-识别模块。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
参照图1所示:
本发明实施例:
本发明公开了一种数据质量提升和增强的装置,所述装置包括:
获取模块1:分别获取有标签的待训练样本数据、无标签的待训练样本数据及训练的预测结果;
处理模块2:将原始训练集按照类型及对应的实体名均分为n份;
输入模块3:将待训练样本数据输入至深度学习网络模型中;
生成模块4:生成n个实体抽取模型;
匹配模块5:使实体抽取模型与无标签样本数据进行匹配;
判断模块6:依据预测结果判断原始训练集中的样本数据的标签标注的正确性;
计算模块7:计算数据格式中的数据;
识别模块8:用于识别样本数据的标签类型。
本发明提供一种数据质量提升和增强的方法,包括如下步骤:
步骤S101:获取模块1获取待训练样本数据,部分所述待训练样本数据逐一标注标签,另一部分含相同数据成分的所述待训练样本数据不标注标签;步骤S201:A策略预训练:获取模块1获取含标签的所述待训练样本数据形成原始训练集,处理模块2将原始训练集均分为n份,输入模块3将所有样本数据输入至深度学习网络模型中进行训练,通过生成模块4生成n个实体抽取模型;步骤S301:通过匹配模块5使n个所述实体抽取模型分别对无标签的所述待训练样本数据进行匹配预测,获取模块1获取n份预测结果;步骤S401:B策略数据去噪:判断模块6依据所述预测结果及通过识别模块8识别样本数据的标签类型,判断出含标签的所述待训练样本数据中标注的错误信息,修正原有标签的待训练样本数据;步骤S501:进行实际环境中最终校验;步骤S601:将结果反馈至预训练阶段,以判断是否调整B策略去噪的参数。
下面将结合本申请实施例的示例性应用和实施具体说明:
步骤S101:获取模块1获取待训练样本数据,一部分所述待训练样本数据逐一标注标签, 另一部分含相同数据成分的所述待训练样本数据不标注标签;
在一些实施例中,所述样本数据包括中医药实体的类型数据、实体名数据及位置数据;通过人工标注标签;
步骤S201:预训练:获取模块1获取含标签的所述待训练样本数据形成原始训练集,处理模块2将所述原始训练集按照类型及对应的实体名均分为n份,输入模块3将所有样本数据输入至深度学习网络模型中进行训练,分别获得n个实体抽取模型;
在一些实施例中,n=10,对10个实体抽取模型进行训练,每个实体抽取模型中的数据信息均相同。
例如:在中医药实体抽取时,六味地黄丸的数据信息包括:类型(药品)、实体名(六味地黄丸)、出现位置 [90,95]三部分,在n份原始训练集中上述针对六味地黄丸的三部分内容均应全部出现。
步骤S301:所述获取模块1获取无标签的所述待训练样本数据,通过匹配模块5使10个所述实体抽取模型分别对无标签的所述待训练样本数据进行匹配预测,获取模块1获取10份预测结果,如预测结果为a1~a10。
在一些实施例中,10份所述预测结果中包括样本数据,所述样本数据与所述原始训练集中的样本数据相同,或者不相同。
步骤S401:数据去噪:判断模块6依据所述预测结果,判断出含标签的所述待训练样本数据中标注的错误数据,修正后重新获取有标签的待训练样本数据;
在一些实施例中,若某个原始训练集中的第i个实体(如六味地黄丸)同时出现在a1~a10的10份所述预测结果中,但在所述原始训练集中没有标注出,则所述预测结果正确,将所述第i个实体(如六味地黄丸)的标签补充到原始训练集中;若某个原始训练集中的第i个实体(如六味地黄丸)没有出现在a1~a10的10份所述预测结果中,则所述预测结果错误,标注是错的,将所述第i个实体(如六味地黄丸)的标签从原始训练集的标注中剔除,即原始训练集中没有所述第i个实体(如六味地黄丸),属于误标。
步骤S501:进行实际环境中最终校验:
在实际环境中验证抽查,生成如下的数据格式。
通过计算模块7计算数据格式中的数据,判断所述实体抽取模型的效果;
在一些实施例中,所述数据格式为:
n=|n+(m-z)/a|
其中:n为原始训练集的份数;
a为超参数,设a=10e,且e为大于等于2的正整数;
m为所有抽查实体正确次数之和;
z为所有抽查实体错误次数之和;
并把|n+(m-z)/a|进行四舍五入。
在一些实施例中,依据n判断,所述m值越大,则z值越大,数据质量越高,引导n值趋小;反之,所述m值越小,z值越大,数据质量越低,则引导n值趋大。
步骤S601:将结果反馈至预训练阶段,以判断是否调整B策略去噪的参数。
在一些实施例中,当n值足够大,实体抽取模型要求严格,噪音数据少,数据质量越高,会逐步减小n值;当n值不够大,噪音数据较多,实体抽取模型要求不太严格,会逐步增大n值,以满足AI和深度学习系统对数据的高质量需求。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (3)

1.一种数据质量提升和增强的方法,其特征在于,包括如下步骤:
步骤1:获取待训练样本数据,将一部分所述待训练样本数据逐一标注标签,另一部分含相同数据成分的所述待训练样本数据不标注标签;
步骤2:A策略预训练:获取含标签的所述待训练样本数据形成原始训练集,将所述原始训练集按照类型、实体名均分为数据类型相同的n份,并将样本数据输入至深度学习网络模型中进行训练,分别获得n个实体抽取模型,其中,n为大于等于10的正整数;
步骤3:获取无标签的所述待训练样本数据,使用n个所述实体抽取模型分别对无标签的所述待训练样本数据进行匹配预测,获取n份预测结果;
步骤4:B策略数据去噪:依据所述预测结果,判断出含标签的所述待训练样本数据中标注的误差数据,修正后重新获取有标签的待训练样本数据;其中,若某个原始训练集中的第i个实体同时出现在n份所述预测结果中,但没有出现在所述原始训练集的标注中,则所述预测结果正确,将所述第i个实体的标签补充到该训练样本的标注中;若某个原始训练集中的第i个实体没有出现在n份所述预测结果中,则所述预测结果错误,将所述第i个实体的标签从该训练样本的标注中去除;
步骤5:进行实际环境中最终校验:通过数据格式判断所述实体抽取模型的效果,所述数据格式为:
n=|n+(m-z)/a|
其中:n为原始训练集的份数;
a为超参数,设a=10e,且e为大于等于2的正整数;
m为所有抽查实体正确次数之和;
z为所有抽查实体错误次数之和;
并把|n+(m-z)/a|进行四舍五入;
步骤6:将结果反馈至预训练阶段,以判断是否调整B策略去噪的参数;
所述步骤1包括:所述样本数据包括中医药实体的类型数据、实体名数据及位置数据。
2.根据权利要求1所述的数据质量提升和增强的方法,其特征在于:步骤3进一步包括:n份所述预测结果中包括样本数据,所述样本数据与所述训练样本数据相同,或者不相同。
3.根据权利要求1所述的数据质量提升和增强的方法,其特征在于:
依据n判断,m值越大,则z值越小,数据质量越高,引导n值趋小;反之,m值越小,z值越大,数据质量越低,则引导n值趋大。
CN202110410090.1A 2021-04-16 2021-04-16 一种数据质量提升和增强的方法及装置 Active CN112988733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110410090.1A CN112988733B (zh) 2021-04-16 2021-04-16 一种数据质量提升和增强的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110410090.1A CN112988733B (zh) 2021-04-16 2021-04-16 一种数据质量提升和增强的方法及装置

Publications (2)

Publication Number Publication Date
CN112988733A CN112988733A (zh) 2021-06-18
CN112988733B true CN112988733B (zh) 2021-08-27

Family

ID=76340747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110410090.1A Active CN112988733B (zh) 2021-04-16 2021-04-16 一种数据质量提升和增强的方法及装置

Country Status (1)

Country Link
CN (1) CN112988733B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1908960A (zh) * 2005-08-02 2007-02-07 中国科学院计算技术研究所 一种基于特征分组的多分类器组合人脸识别方法
CN109446369A (zh) * 2018-09-28 2019-03-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
CN110457675A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备
CN110826332A (zh) * 2019-11-02 2020-02-21 山西大学 一种基于gp的中医药专利命名实体自动识别方法
US20200143248A1 (en) * 2017-07-12 2020-05-07 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and device, and expression image classification method and device
CN111652256A (zh) * 2019-03-18 2020-09-11 上海铼锶信息技术有限公司 一种获取多维数据的方法和系统
CN112560912A (zh) * 2020-12-03 2021-03-26 北京百度网讯科技有限公司 分类模型的训练方法、装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN107153822A (zh) * 2017-05-19 2017-09-12 北京航空航天大学 一种基于深度学习的半自动图像精标注方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1908960A (zh) * 2005-08-02 2007-02-07 中国科学院计算技术研究所 一种基于特征分组的多分类器组合人脸识别方法
US20200143248A1 (en) * 2017-07-12 2020-05-07 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and device, and expression image classification method and device
CN109446369A (zh) * 2018-09-28 2019-03-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
CN111652256A (zh) * 2019-03-18 2020-09-11 上海铼锶信息技术有限公司 一种获取多维数据的方法和系统
CN110457675A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备
CN110826332A (zh) * 2019-11-02 2020-02-21 山西大学 一种基于gp的中医药专利命名实体自动识别方法
CN112560912A (zh) * 2020-12-03 2021-03-26 北京百度网讯科技有限公司 分类模型的训练方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112988733A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
WO2021212612A1 (zh) 智能化文本纠错方法、装置、电子设备及可读存储介质
EP3486838A1 (en) System and method for semi-supervised conditional generative modeling using adversarial networks
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN113704429A (zh) 基于半监督学习的意图识别方法、装置、设备及介质
CN110390110B (zh) 用于语义匹配的预训练生成句子向量的方法和装置
CN110543637A (zh) 一种中文分词方法及装置
CN110119353A (zh) 测试数据生成方法、装置以及控制器和介质
CN113780365B (zh) 样本生成方法和装置
US20090182757A1 (en) Method for automatically computing proficiency of programming skills
CN109800776A (zh) 素材标注方法、装置、终端和计算机可读存储介质
CN114780701A (zh) 自动问答匹配方法、装置、计算机设备及存储介质
CN114610855A (zh) 对话回复生成方法、装置、电子设备及存储介质
CN112988733B (zh) 一种数据质量提升和增强的方法及装置
CN110489727A (zh) 人名识别方法及相关装置
CN113407676A (zh) 题目批改方法和系统、电子设备和计算机可读介质
CN112861519A (zh) 医疗文本纠错方法、装置以及存储介质
CN110032714B (zh) 一种语料标注反馈方法及装置
CN115169330B (zh) 中文文本纠错及验证方法、装置、设备及存储介质
CN113515591B (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN108597602A (zh) 一种面向皮肤医学数据的标签纠错方法
CN111382750A (zh) 图形验证码识别方法及装置
CN112364640A (zh) 实体名词链接方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Bangchang

Inventor after: Kong Fei

Inventor after: Chang Dejie

Inventor after: Liu Chaozhen

Inventor after: Wang Hai

Inventor after: Zhao Hongwen

Inventor after: Gu Shufeng

Inventor after: Zhao Jin

Inventor after: Luo Xiaobin

Inventor before: Liu Bangchang

Inventor before: Kong Fei

Inventor before: Chang Dejie

Inventor before: Liu Chaozhen

Inventor before: Wang Hai

Inventor before: Zhao Hongwen

Inventor before: Gu Shufeng

Inventor before: Zhao Jin

Inventor before: Luo Xiaobin