CN113723104A - 一种有噪数据下实体抽取的方法与装置 - Google Patents
一种有噪数据下实体抽取的方法与装置 Download PDFInfo
- Publication number
- CN113723104A CN113723104A CN202111083213.1A CN202111083213A CN113723104A CN 113723104 A CN113723104 A CN 113723104A CN 202111083213 A CN202111083213 A CN 202111083213A CN 113723104 A CN113723104 A CN 113723104A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- entity
- ner
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Algebra (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种有噪数据下实体抽取的方法与装置,该方法包括:根据标注数据训练得到多个相同模型结构的命名实体识别NER模型;采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测,获得预测数据;对比所述预测数据与所述标注数据之间的标注差异,根据所述标注差异对所述标注数据进行修改,得到倾向召回的第一数据集和倾向精确的第二数据集;将所述第一数据集和第二数据集作为训练集,训练得到最终的NER模型。本发明通过初步训练获得多个不同的模型,选择出倾向召回和精确的数据进行联合训练,可同时考虑数据中存在的漏标、长标、短标的问题,使得训练出的模型鲁棒性更高。
Description
技术领域
本发明涉及命名实体识别NER模型训练领域,具体涉及一种有噪数据下实体抽取的方法与装置。
背景技术
在命名实体识别NER模型的训练过程中,因为标注的专业性和不同标注人员的标注水平问题,所使用的训练数据中难免会存在噪音,噪音主要体现在数据的漏标、长标、短标,其中,漏标指的是实体未被标注出来,长标指的是长的实体被标注为短的实体,例如“胸部CT”被标注为“胸部”,短标则指的是短的实体被标注为长的实体,例如“B超”被标注为“B超检查”,数据中存在的噪音会对模型的效果受到影响。
发明内容
本发明提供一种有噪数据下实体抽取的方法与装置,能够解决数据中存在的噪音会对模型的效果受到影响的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明提供一种有噪数据下实体抽取的方法,包括:
根据标注数据训练得到多个相同模型结构的命名实体识别NER模型;
采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测,获得预测数据;
对比所述预测数据与所述标注数据之间的标注差异,根据所述标注差异对所述标注数据进行修改,得到倾向召回的第一数据集和倾向精确的第二数据集;
将所述第一数据集和第二数据集作为训练集,训练得到最终的NER模型。
进一步,所述根据标注数据训练得到多个相同模型结构的命名实体识别NER模型,具体包括:
将标注数据按照k折交叉的方式进行划分,其中k-1折数据用来作为模型训练集,剩余1折数据作为模型测试集,从而获得k种数据集;
将所述k种数据集分别接入相同模型结构的NER模型进行训练,获得包含多个NER模型的NER模型集合。
进一步,根据所述标注差异对所述标注数据进行修改,得到倾向召回的第一数据集和倾向精确的第二数据集,具体包括:
若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数大于阈值,则保留该实体;若同一实体在所述多个NER模型的预测数据中长标并且在所述标注数据中短标的次数大于阈值,则将所述标注数据中短标的实体替换为所述预测数据中长标的实体,最终获得第一数据集;
若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数小于阈值,则删除该实体;若同一实体在所述多个NER模型的预测数据中短标并且在所述标注数据中长标的次数大于阈值,则将所述标注数据中长标的实体替换为所述预测数据中短标的实体,最终获得第二数据集。
进一步,所述NER模型采用BERT+BiLSTM+CRF。
进一步,将所述第一数据集和第二数据集作为训练集,训练得到最终的NER模型,具体包括:
将所述第一数据集和第二数据集作为训练集分别接入BERT+BiLSTM模型,分别获得BiLSTM的第一隐层状态和第二隐层状态;
将所述第一隐层状态和第二隐层状态进行拼接获得第三隐层状态;
将所述第三隐层状态接入CRF层获得预测的结果,通过模型的迭代,获得最终的NER模型。
第二方面,本发明提供一种有噪数据下实体抽取的装置,包括:
第一模型训练模块,用于根据标注数据训练得到多个相同模型结构的命名实体识别NER模型;
数据预测模块,用于采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测,获得预测数据;
数据处理模块,用于对比所述预测数据与所述标注数据之间的标注差异,根据所述标注差异对所述标注数据进行修改,得到倾向召回的第一数据集和倾向精确的第二数据集;
第二模型训练模块,用于将所述第一数据集和第二数据集作为训练集,训练得到最终的NER模型。
进一步,所述第一模型训练模块,具体包括:
数据划分单元,用于将标注数据按照k折交叉的方式进行划分,其中k-1折数据用来作为模型训练集,剩余1折数据作为模型测试集,从而获得k种数据集;
模型训练单元,用于将所述k种数据集分别接入相同模型结构的NER模型进行训练,获得包含多个NER模型的NER模型集合。
进一步,所述数据处理模块,具体包括:
第一数据处理单元,用于若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数大于阈值,则保留该实体;若同一实体在所述多个NER模型的预测数据中长标并且在所述标注数据中短标的次数大于阈值,则将所述标注数据中短标的实体替换为所述预测数据中长标的实体,最终获得第一数据集;
第二数据处理单元,用于若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数小于阈值,则删除该实体;若同一实体在所述多个NER模型的预测数据中短标并且在所述标注数据中长标的次数大于阈值,则将所述标注数据中长标的实体替换为所述预测数据中短标的实体,最终获得第二数据集。
进一步,所述NER模型采用BERT+BiLSTM+CRF。
进一步,所述第二模型训练模块,具体包括:
训练集接入单元,用于将所述第一数据集和第二数据集作为训练集分别接入BERT+BiLSTM模型,分别获得BiLSTM的第一隐层状态和第二隐层状态;
拼接单元,用于将所述第一隐层状态和第二隐层状态进行拼接获得第三隐层状态;
预测及迭代单元,用于将所述第三隐层状态接入CRF层获得预测的结果,通过模型的迭代,获得最终的NER模型。
本发明的有益效果是:
通过初步训练获得多个不同的模型,选择出倾向召回和精确的数据进行联合训练,可同时考虑数据中存在的漏标、长标、短标的问题,使得训练出的模型鲁棒性更高。
附图说明
图1为本发明实施例提供的一种有噪数据下实体抽取的方法的流程示意图;
图2为本发明实施例提供的一种有噪数据下实体抽取的方法的框架流程示意图;
图3为本发明实施例提供的一种有噪数据下实体抽取的装置的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明实施例提供一种有噪数据下实体抽取的方法,如图1所示,该方法包括:
110、根据标注数据训练得到多个相同模型结构的命名实体识别NER模型;
具体的,如图2所示,该步骤中,针对有限的标注数据N,可采用k折交叉的方法获得多份数据分别进行训练,从而得到多个NER模型,所述的NER模型可采用现有技术实现,如BERT+BiLSTM+CRF。
120、采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测,获得预测数据;
具体的,如图2所示,采用训练的多个NER模型对标注数据重新预测得到预测数据Nk。
130、对比所述预测数据与所述标注数据之间的标注差异,根据所述标注差异对所述标注数据进行修改,得到倾向召回的第一数据集和倾向精确的第二数据集;
具体的,同一实体在NER模型的预测数据中的标注结果可能会与标注数据中的标注结果存在差异,例如,预测数据中标注出实体但该实体在标注数据中漏标,预测数据中标注出长的实体但在标注数据中标注短的实体,预测数据中标注出短的实体但在标注数据中标注长的实体等。
根据这些标注差异,对标注数据进行修改,可得到倾向召回的第一数据集和倾向精确的第二数据集,其中,召回的概念包括:保留预测数据中标注出但在标注数据中漏标的实体,以及将标注数据中短标的实体替换为预测数据中长标的实体;精确的概念包括:删除预测数据中标注出但在标注数据中漏标的实体,以及将标注数据中长标的实体替换为预测数据中短标的实体。
140、将所述第一数据集和第二数据集作为训练集,训练得到最终的NER模型。
基于最终训练得到的NER模型,即可用于进行实体的抽取。
本发明实施例提供的一种有噪数据下实体抽取的方法,通过初步训练获得多个不同的模型,选择出倾向召回和精确的数据进行联合训练,可同时考虑数据中存在的漏标、长标、短标的问题,使得训练出的模型鲁棒性更高。
可选地,在该实施例中,步骤110,具体包括:
1101、将标注数据按照k折交叉的方式进行划分,其中k-1折数据用来作为模型训练集,剩余1折数据作为模型测试集,从而获得k种数据集;
1102、将所述k种数据集分别接入相同模型结构的NER模型进行训练,获得包含多个NER模型的NER模型集合。
具体的,比如对标注数据N进行5折交叉,数据集分成5份,对应12345,数据集中模型训练集与模型测试集的组合是(1234,5)、(1235,4)、(1245,3)、(1345,2)和(2345,1),共训练得到5个相同模型结构的NER模型,构成NER模型集合M={M1,M2,…Mk}。
可选地,在该实施例中,步骤130,具体包括:
1301、若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数大于阈值,则保留该实体;若同一实体在所述多个NER模型的预测数据中长标并且在所述标注数据中短标的次数大于阈值,则将所述标注数据中短标的实体替换为所述预测数据中长标的实体,最终获得第一数据集;
1302、若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数小于阈值,则删除该实体;若同一实体在所述多个NER模型的预测数据中短标并且在所述标注数据中长标的次数大于阈值,则将所述标注数据中长标的实体替换为所述预测数据中短标的实体,最终获得第二数据集。
具体的,如图2所示,步骤1301用以选择倾向召回的数据集Nr,对比Nk与N,若漏标和长标次数对比原始数据N大于阈值r,则保留漏标,并将N中短标的实体替换为长标的实体,最终获得数据Nr。
步骤1302用以选择倾向精确的数据集Np,对比Nk与N,若漏标次数对比原始数据N小于阈值p,则删除漏标实体,若短标次数大于阈值p,将N中长标实体替换为短标的实体,最终获得数据Np。
可选地,在该实施例中,步骤140,具体包括:
1401、将所述第一数据集和第二数据集作为训练集分别接入BERT+BiLSTM模型,分别获得BiLSTM的第一隐层状态和第二隐层状态;
1402、将所述第一隐层状态和第二隐层状态进行拼接获得第三隐层状态;
1403、将所述第三隐层状态接入CRF层获得预测的结果,通过模型的迭代,获得最终的NER模型。
具体的,如图2所示,步骤140将步骤130获得的数据Nr和Np作为训练集分别接入BERT+BiLSTM模型,分别获得BiLSTM的隐层状态Hr和Hp,再将Hr和Hp进行拼接获得Hf,最后将Hf接入CRF(条件随机场,Conditional Random Fields)层获得预测的结果,通过模型的迭代,获得最终的NER模型。
与上述方法实施例相对应地,本发明实施例提供一种有噪数据下实体抽取的装置,该装置中的各个功能模块的功能原理已在前述实施例中进行了具体说明,以下不再赘述。
如图3所示,该装置包括:
第一模型训练模块,用于根据标注数据训练得到多个相同模型结构的命名实体识别NER模型;
数据预测模块,用于采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测,获得预测数据;
数据处理模块,用于对比所述预测数据与所述标注数据之间的标注差异,根据所述标注差异对所述标注数据进行修改,得到倾向召回的第一数据集和倾向精确的第二数据集;
第二模型训练模块,用于将所述第一数据集和第二数据集作为训练集,训练得到最终的NER模型。
可选地,在该实施例中,所述第一模型训练模块,具体包括:
数据划分单元,用于将标注数据按照k折交叉的方式进行划分,其中k-1折数据用来作为模型训练集,剩余1折数据作为模型测试集,从而获得k种数据集;
模型训练单元,用于将所述k种数据集分别接入相同模型结构的NER模型进行训练,获得包含多个NER模型的NER模型集合。
可选地,在该实施例中,所述数据处理模块,具体包括:
第一数据处理单元,用于若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数大于阈值,则保留该实体;若同一实体在所述多个NER模型的预测数据中长标并且在所述标注数据中短标的次数大于阈值,则将所述标注数据中短标的实体替换为所述预测数据中长标的实体,最终获得第一数据集;
第二数据处理单元,用于若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数小于阈值,则删除该实体;若同一实体在所述多个NER模型的预测数据中短标并且在所述标注数据中长标的次数大于阈值,则将所述标注数据中长标的实体替换为所述预测数据中短标的实体,最终获得第二数据集。
可选地,在该实施例中,所述NER模型采用BERT+BiLSTM+CRF。
可选地,在该实施例中,所述第二模型训练模块,具体包括:
训练集接入单元,用于将所述第一数据集和第二数据集作为训练集分别接入BERT+BiLSTM模型,分别获得BiLSTM的第一隐层状态和第二隐层状态;
拼接单元,用于将所述第一隐层状态和第二隐层状态进行拼接获得第三隐层状态;
预测及迭代单元,用于将所述第三隐层状态接入CRF层获得预测的结果,通过模型的迭代,获得最终的NER模型。
本发明实施例提供的一种有噪数据下实体抽取的装置,其有益效果是:
通过初步训练获得多个不同的模型,选择出倾向召回和精确的数据进行联合训练,可同时考虑数据中存在的漏标、长标、短标的问题,使得训练出的模型鲁棒性更高。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种有噪数据下实体抽取的方法,其特征在于,包括:
根据标注数据训练得到多个相同模型结构的命名实体识别NER模型;
采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测,获得预测数据;
对比所述预测数据与所述标注数据之间的标注差异,根据所述标注差异对所述标注数据进行修改,得到倾向召回的第一数据集和倾向精确的第二数据集;
将所述第一数据集和第二数据集作为训练集,训练得到最终的NER模型。
2.根据权利要求1所述的方法,其特征在于,所述根据标注数据训练得到多个相同模型结构的命名实体识别NER模型,具体包括:
将标注数据按照k折交叉的方式进行划分,其中k-1折数据用来作为模型训练集,剩余1折数据作为模型测试集,从而获得k种数据集;
将所述k种数据集分别接入相同模型结构的NER模型进行训练,获得包含多个NER模型的NER模型集合。
3.根据权利要求1所述的方法,其特征在于,根据所述标注差异对所述标注数据进行修改,得到倾向召回的第一数据集和倾向精确的第二数据集,具体包括:
若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数大于阈值,则保留该实体;若同一实体在所述多个NER模型的预测数据中长标并且在所述标注数据中短标的次数大于阈值,则将所述标注数据中短标的实体替换为所述预测数据中长标的实体,最终获得第一数据集;
若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数小于阈值,则删除该实体;若同一实体在所述多个NER模型的预测数据中短标并且在所述标注数据中长标的次数大于阈值,则将所述标注数据中长标的实体替换为所述预测数据中短标的实体,最终获得第二数据集。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述NER模型采用BERT+BiLSTM+CRF。
5.根据权利要求4所述的方法,其特征在于,将所述第一数据集和第二数据集作为训练集,训练得到最终的NER模型,具体包括:
将所述第一数据集和第二数据集作为训练集分别接入BERT+BiLSTM模型,分别获得BiLSTM的第一隐层状态和第二隐层状态;
将所述第一隐层状态和第二隐层状态进行拼接获得第三隐层状态;
将所述第三隐层状态接入CRF层获得预测的结果,通过模型的迭代,获得最终的NER模型。
6.一种有噪数据下实体抽取的装置,其特征在于,包括:
第一模型训练模块,用于根据标注数据训练得到多个相同模型结构的命名实体识别NER模型;
数据预测模块,用于采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测,获得预测数据;
数据处理模块,用于对比所述预测数据与所述标注数据之间的标注差异,根据所述标注差异对所述标注数据进行修改,得到倾向召回的第一数据集和倾向精确的第二数据集;
第二模型训练模块,用于将所述第一数据集和第二数据集作为训练集,训练得到最终的NER模型。
7.根据权利要求6所述的装置,其特征在于,所述第一模型训练模块,具体包括:
数据划分单元,用于将标注数据按照k折交叉的方式进行划分,其中k-1折数据用来作为模型训练集,剩余1折数据作为模型测试集,从而获得k种数据集;
模型训练单元,用于将所述k种数据集分别接入相同模型结构的NER模型进行训练,获得包含多个NER模型的NER模型集合。
8.根据权利要求6所述的装置,其特征在于,所述数据处理模块,具体包括:
第一数据处理单元,用于若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数大于阈值,则保留该实体;若同一实体在所述多个NER模型的预测数据中长标并且在所述标注数据中短标的次数大于阈值,则将所述标注数据中短标的实体替换为所述预测数据中长标的实体,最终获得第一数据集;
第二数据处理单元,用于若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数小于阈值,则删除该实体;若同一实体在所述多个NER模型的预测数据中短标并且在所述标注数据中长标的次数大于阈值,则将所述标注数据中长标的实体替换为所述预测数据中短标的实体,最终获得第二数据集。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述NER模型采用BERT+BiLSTM+CRF。
10.根据权利要求9所述的装置,其特征在于,所述第二模型训练模块,具体包括:
训练集接入单元,用于将所述第一数据集和第二数据集作为训练集分别接入BERT+BiLSTM模型,分别获得BiLSTM的第一隐层状态和第二隐层状态;
拼接单元,用于将所述第一隐层状态和第二隐层状态进行拼接获得第三隐层状态;
预测及迭代单元,用于将所述第三隐层状态接入CRF层获得预测的结果,通过模型的迭代,获得最终的NER模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111083213.1A CN113723104A (zh) | 2021-09-15 | 2021-09-15 | 一种有噪数据下实体抽取的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111083213.1A CN113723104A (zh) | 2021-09-15 | 2021-09-15 | 一种有噪数据下实体抽取的方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723104A true CN113723104A (zh) | 2021-11-30 |
Family
ID=78684006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111083213.1A Pending CN113723104A (zh) | 2021-09-15 | 2021-09-15 | 一种有噪数据下实体抽取的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723104A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10635751B1 (en) * | 2019-05-23 | 2020-04-28 | Capital One Services, Llc | Training systems for pseudo labeling natural language |
CN112329466A (zh) * | 2020-10-13 | 2021-02-05 | 北京三快在线科技有限公司 | 命名实体识别模型的构建方法、装置、设备以及存储介质 |
CN112749563A (zh) * | 2021-01-21 | 2021-05-04 | 北京明略昭辉科技有限公司 | 一种命名实体识别数据标注质量评估与控制方法及系统 |
CN112749562A (zh) * | 2020-12-31 | 2021-05-04 | 合肥工业大学 | 命名实体识别方法、装置、存储介质及电子设备 |
CN113204970A (zh) * | 2021-06-07 | 2021-08-03 | 吉林大学 | 一种BERT-BiLSTM-CRF命名实体检测模型及装置 |
-
2021
- 2021-09-15 CN CN202111083213.1A patent/CN113723104A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10635751B1 (en) * | 2019-05-23 | 2020-04-28 | Capital One Services, Llc | Training systems for pseudo labeling natural language |
CN112329466A (zh) * | 2020-10-13 | 2021-02-05 | 北京三快在线科技有限公司 | 命名实体识别模型的构建方法、装置、设备以及存储介质 |
CN112749562A (zh) * | 2020-12-31 | 2021-05-04 | 合肥工业大学 | 命名实体识别方法、装置、存储介质及电子设备 |
CN112749563A (zh) * | 2021-01-21 | 2021-05-04 | 北京明略昭辉科技有限公司 | 一种命名实体识别数据标注质量评估与控制方法及系统 |
CN113204970A (zh) * | 2021-06-07 | 2021-08-03 | 吉林大学 | 一种BERT-BiLSTM-CRF命名实体检测模型及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
CN109478204B (zh) | 非结构化文本的机器理解 | |
US10395147B2 (en) | Method and apparatus for improved segmentation and recognition of images | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
CN111382255B (zh) | 用于问答处理的方法、装置、设备和介质 | |
CN108920461B (zh) | 一种多类型且含复杂关系的实体抽取方法及装置 | |
CN109376267B (zh) | 用于生成模型的方法和装置 | |
US20120290293A1 (en) | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding | |
CN109871491A (zh) | 论坛帖子推荐方法、系统、设备及存储介质 | |
US20220318275A1 (en) | Search method, electronic device and storage medium | |
WO2020172329A1 (en) | Learning to extract entities from conversations with neural networks | |
CN111613341B (zh) | 基于语义成分的实体链接方法及装置 | |
CN113326380B (zh) | 基于深度神经网络的设备量测数据处理方法、系统及终端 | |
CN113076739A (zh) | 一种实现跨领域的中文文本纠错方法和系统 | |
CN112131322B (zh) | 时间序列分类方法及装置 | |
EP2707808A2 (en) | Exploiting query click logs for domain detection in spoken language understanding | |
CN111046659A (zh) | 上下文信息生成方法、上下文信息生成装置及计算机可读记录介质 | |
CN110852076B (zh) | 一种自动化疾病编码转换的方法及装置 | |
CN110275953B (zh) | 人格分类方法及装置 | |
CN113723104A (zh) | 一种有噪数据下实体抽取的方法与装置 | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
CN115861255A (zh) | 用于图像处理的模型训练方法、装置、设备、介质及产品 | |
Jia et al. | Sample generation of semi‐automatic pavement crack labelling and robustness in detection of pavement diseases | |
US20210406773A1 (en) | Transforming method, training device, and inference device | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |