CN113962214A - 基于eletric-bert的实体抽取方法 - Google Patents
基于eletric-bert的实体抽取方法 Download PDFInfo
- Publication number
- CN113962214A CN113962214A CN202111239034.2A CN202111239034A CN113962214A CN 113962214 A CN113962214 A CN 113962214A CN 202111239034 A CN202111239034 A CN 202111239034A CN 113962214 A CN113962214 A CN 113962214A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- bert
- eletric
- entity extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims description 18
- 238000007906 compression Methods 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于ELETRIC‑BERT的实体抽取方法,包括:通过预训练得到领域预训练模型ELETRIC‑BERT;将领域预训练模型ELETRIC‑BERT与实体抽取基本模型进行整合,得到基于ELETRIC‑BERT的实体抽取模型;使用模块替换策略,将原模型参数量压缩为原来的一半;使用压缩后的模型,进行实体抽取任务,从文本语料中抽取出领域实体。与现有实体抽取技术相比,本发明可以在实现高准确抽取率的同时,大幅度减少模型对标注语料的依赖。
Description
技术领域
本发明涉及一种基于ELETRIC-BERT的实体抽取方法,属于自然语言处理技术领域。
背景技术
实体抽取,又称为命名实体识别,主要是识别出文本中实体的命名性指称项,并标明其类别,是信息抽取任务中的一项重要技术任务,在早期,主要是利用基于规则的方法进行实体抽取。基于规则的方法在小规模语料中,效果很好,但是需要人工编写相应规则,所以迁移能力差,通用性不强。后来,传统机器学习模型应用到了命名实体识别领域,以提高其鲁棒性。包括马尔可夫模型、最大熵模型等。基于传统机器学习模型的实体抽取方法,虽然取得了较好的性能,但是依赖于人工设计的特征,并且容易受到现有自然语言处理工具性能的影响。
近年来,随着深度学习的蓬勃发展,很多学者提出使用神经网络模型自动地从文本中提取特征,进而完成实体抽取任务,即使用深度学习模型进行实体抽取。基于深度学习的实体抽取模型,包括Lample提出的BiLSTM-CRF模型;Chiu提出的BiLSTM-CNN以及Zhang提出的LatticeLSTM。这些基于深度学习的实体抽取模型,均取得了优于基于规则或传统机器学习模型的效果,但是需要大量的标注语料。标注大量语料,费时费力,特别是在电力领域这样的垂直领域,组织专家,标注大量语料,难以实现,只能获取到少量标注语料,所以如何利用少量的标注语料,实现准确的实体抽取,是信息抽取技术在电力系统领域应用过程中亟需攻克的一个难题。
发明内容
为解决上述问题,本发明提供一种基于ELETRIC-BERT的实体抽取方法,在保证抽取准确率的同时,缓解模型对标注语料的依赖。
为了达到上述目的,本发明提供如下技术方案:
一种基于ELETRIC-BERT的实体抽取方法,,包括如下步骤:
步骤1:首先采集海量电力领域文本语料作为训练数据集;之后设计合适的预训练任务;最后进行预训练过程,对模型的参数进行更新,得到了蕴含丰富知识的领域预训练模型ELETRIC-BERT;
步骤2:将步骤1中通过预训练过程得到的领域预训练模型ELETRIC-BERT与实体抽取基本模型进行整合,得到基于ELETRIC-BERT的实体抽取模型;
步骤3:使用模块替换策略,将原模型参数量压缩为原来的一半;使用压缩后的模型,进行实体抽取任务,从文本语料中抽取出领域实体。
进一步的,所述步骤1中预训练任务为领域词完型填空,包括:对数据集中的文本语料进行句子级别的遮挡,每个句子随机遮挡其部分领域专有词,若句子中专有词不足,则使用StandfordCoreNLP进行依存分析,得到相应解析树,然后分析解析树,提取出句子中的普通词,对这部分普通词进行遮挡,填补专有词的空缺。
进一步的,遮挡的专有词字数占总句子的15%。
进一步的,所述步骤1预训练过程中,模型对句子中遮挡住的专用词进行预测,基于预测误差计算出的梯度,使用梯度下降算法对模型的参数进行更新。
进一步的,所述步骤2中整合过程为:在实体抽取基本模型上叠加领域预训练模型进行训练。
进一步的,所述步骤3中模块替换策略使用6个未经训练的transformerencoderblock对ELETRIC-BERT中已经训练好的12个transformer encoder block进行学习,压缩之前的ELETRIC-BERT模型predecessor包含12个encoderblock,将其分为6个模块,分别为[prd1,prd2,prd3,…prd6],每个模块对应两个encoderblock,压缩后模型successor也分为6个模块,各模块分别为[scc1,scc2,scc3…,scc6],每个模块包含1个encoderblock,将successor中的每个模块与predecessor中的每个模块一一对应,在相应的自然语言处理任务驱动下,进行两阶段训练。
进一步的,所述两阶段训练包括如下过程:
(1)整合训练
对于predecessor中的任一模块prdi,通过伯努利分布,采样一个随机变量γi,采样概率为p,即γi为1的概率为p,为0的概率为1-p,如下式所示
γi~Bernoulli(p)
γi为1时,使用对应scci替换掉prdi;为0时,则保持原来的prdi不变;因此整合后的模型中任一个模块的输出yi由下式表示
yi=γi*scci(yi-1)+(1-γ)*prdi(yi-1)
模型训练一定次数直至收敛,转入微调训练阶段
(2)微调训练
将successor各个模块按照顺序串起来,在下游自然语言处理任务的驱动下,进行微调,更新相应参数。
与现有技术相比,本发明具有如下优点和有益效果:
本发明方法执行领域专用词完型填空预训练任务,能够训练出能自适应于电力领域的预训练模型,提升任务难度,增加了学到知识的丰富度。本发明采用了联合迁移和主动学习的实体抽取模型,大大减少人工标注样本,并对模型进行压缩,提高模型的训练和推理速度。与现有实体抽取技术相比,本发明可以在实现高准确抽取率的同时,大幅度减少模型对标注语料的依赖。
附图说明
图1为本发明提供的基于ELETRIC-BERT的实体抽取方法总体框架图。
图2展示了不同类型的遮挡,其中包括原字词、以字为单位的遮挡以及以词为单位的遮挡。
图3为ELETRIC-BERT压缩示意图。
图4为模型替换策略中的示意图,其中(a)为整合训练示意图,(b)为微调阶段示例图。
图5为两个实验结果图,其中(a)为实体抽取实验结果图,(b)为模型压缩实验结果图
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供的一种基于ELETRIC-BERT的实体抽取方法,框架如图1所示,包括如下步骤:
步骤1,通过预训练过程,得到领域预训练模型ELETRIC-BERT
主要是在BERT模型的基础上,首先采集海量电力领域文本语料作为训练数据集,将训练数据集作为数据支撑,之后设计合适的预训练任务;最后进行预训练过程,对模型的参数进行更新,从而得到蕴含丰富知识的领域预训练模型ELETRIC-BERT。
执行的预训练任务为领域专用词完型填空,能够训练出能自适应于电力领域的预训练模型。BERT是以字为单位进行遮挡,以字为单位进行遮挡,任务难度较易,相应得学到的知识有限,如附图2所示,句子‘哈尔滨是黑龙江的省会’,遮挡住字‘尔’后,可以通过旁边的‘哈’和‘滨’两个字,轻易预测出中间的字为‘尔’。而以词为单位进行遮挡,任务难度较难,相应得学到的知识更加丰富,遮挡住词‘哈尔滨’,必须深层次理解语义,才能预测出句首为词‘哈尔滨’。而本发明采用的领域词完形填空首先对数据集中的文本语料进行句子级别的遮挡,主要是以电力领域专有词为单位进行遮挡,预训练模型可以学习到更加深层次电力知识,下游的电力领域自然语言处理任务,在预训练模型的基础上进行微调,性能提升幅度更大。电力领域专有词主要是来自于电力系统长期沉淀出来的高质量词典,词典种类丰富,包括地名、电站名、电厂名、调度中心列表、线路列表等。具体地说,领域词完型填空任务,以领域专有词进行遮挡,对输入的每个句子,随机遮挡其部分专有词,遮挡的词的总字数占句子总字数的15%。如果句子中专有词的字数不足句子总字数的15%,则使用StandfordCoreNLP进行依存分析,得到相应解析树,分析解析树,随机提取出句子中的普通词补足句子总字数的15%,然后对上述15%的词(包括专有词和普通词)进行遮挡,填补领域专用词的短缺。之后在预训练过程中,模型需要对句子中遮挡住的专用词进行预测,基于预测误差计算出的梯度,使用梯度下降算法对模型的参数进行更新。
本实施例中,训练数据为电力系统领域预训练语料,包括操作票、带电作业日志、电气缺陷日志、风险预警、检修单、历史故障日志、事故预案、运行方式调整发文。训练参数如下:epoch为60,batch size为16,learning rate为5e-5。优化器选择Adamw优化算法,最后得到的领域预训练模型的困惑度为2.832。
步骤2,将通过预训练过程得到的预训练模型ELETRIC-BERT与实体抽取基本模型BiLSTM+GlobalAttention+CRF进行整合,得到基于ELETRIC-BERT的实体抽取模型,以进行实体抽取。
具体地说,就是在实体抽取基本模型上叠加领域预训练模型进行训练。实验数据为通过半自动化标注的电力系统语料数据集。标注的主要是一些典型实体类别,包括厂站、地区、设备、设备属性、指标属性等。实验结果如附图5(a)所示。使用全部训练集训练,模型性能达到最大F1值(0.960)。只使用60%的训练集,F1值(0.948)就达到了模型最高性能的98.8%,说明联合迁移和主动学习的实体抽取模型可以大大减少人工标注样本。
步骤3,由于步骤2得到的实体抽取模型参数量巨大,因此本步骤使用模块替换策略,对基于ELETRIC-BERT的实体抽取模型压缩,提高模型的训练和推理速度。最后使用压缩后的模型,进行实体抽取任务,从文本语料中抽取出领域实体。
具体的,ELETRIC-BERT实体抽取模型,由12个相同结构的transformer encoderblock(下文简称为encoder block)组成,参数量达1.1亿,训练和推理过程中计算量巨大。针对以上问题,本文提出使用模块替换策略,将ELETRIC-BERT原来的12个encoder block压缩为6个,压缩过程主要是通过模块替换策略实现的,如附图3所示。模块替换策略主要是使用6个未经训练的encoderblock对ELETRIC-BERT中已经训练好的12个encoder block进行学习,通过学习过程,可以学习到ELETRIC-BERT中蕴含的知识,从而取代原来的ELETRIC-BERT进行实体抽取。下面对模块替换策略进行详细描述。
压缩之前的ELETRIC-BERT模型称为predecessor,压缩后模型称为successor,原模型与压缩模型均包含相同模块数。predecessor包含12个encoderblock,将其分为6个模块,分别为[prd1,prd2,prd3,…prd6],每个模块对应两个encoder block。同样将successor也分为6个模块,各模块分别为[scc1,scc2,scc3…,scc6],每个模块包含1个encoderblock。将successor中的每个模块与predecessor中的每个模块一一对应。在相应的自然语言处理任务驱动下(本文使用实体抽取任务),进行两阶段训练。第一阶段为整合训练,第二阶段为微调训练。
整合训练阶段如附图4(a)所示,主要是predecessor与successor整合。predecessor是已经迭代收敛好的模型,参数不变,更新successor参数,也就是说让successor学习predecessor中的知识。整合过程如下:
对于predecessor中的任一模块prdi,通过伯努利分布,采样一个随机变量γi,采样概率为p,即γi为1的概率为p,为0的概率为1-p,如下式所示
γi~Bernoulli(p)
γi为1时,使用对应scci替换掉prdi;为0时,则保持原来的prdi不变。所以整合后的模型中任一个模块的输出yi可以由下式表示
yi=γi*scci(yi-1)+(1-γ)*prdi(yi-1)
模型训练一定次数收敛后,successor通过替换策略已经从predecessor学到了相应知识,接着转入阶段二,微调训练阶段。整合训练阶段完成后,需要将successor各模块联合起来训练,通过微调训练来实现。主要是将successor各个模块按照顺序串起来,在下游自然语言处理任务的驱动下,进行微调,更新相应参数,如附图4(b)所示。微调训练阶段完成后,successor可以取代predecessor,进行实体抽取。相比于原模型predecessor的12个encoder block,successor只有仅仅6个encoder block,压缩比为2,大大减少了模型参数量,显著提高了模型的训练和推理速度。
在本实施例的模块替换策略中,compress ratio(压缩比例)设置为2,即原来领域预训练模型的12层Transformer Encoder Block压缩成6层的Transformer EncoderBlock。replacing rate(替换比例)设置为0.5,即有50%概率原来predecessor的每个模块会被successor的对应模块替换。steps for replacing(整合训练阶段训练的步数),设置为一个动态的值,保证整合训练阶段和successor微调阶段所训练的步数相同。具体计算式如下所示,其中totalEpoch为全部样本训练次数,examples为样本数,batchSize为一次训练所选取样本数。
最后的结果图如附图5(b)所示,预训练模型参数被压缩为原来一半后,使用全部训练集训练,在测试集中的F1值,仍然能达到0.957,与压缩前模型达到的最大F1(0.960)相差不大,表明了模型压缩的有效性。模型使用70%的训练数据进行训练,F1值为0.945,也达到了的模型最高性能的98.7%,说明压缩后的联合迁移和主动学习的实体抽取模型也可以大大减少人工标注样本。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种基于ELETRIC-BERT的实体抽取方法,其特征在于,包括如下步骤:
步骤1:首先采集海量电力领域文本语料作为训练数据集;之后设计合适的预训练任务;最后进行预训练过程,对模型的参数进行更新,得到了蕴含丰富知识的领域预训练模型ELETRIC-BERT;
步骤2:将步骤1中通过预训练过程得到的领域预训练模型ELETRIC-BERT与实体抽取基本模型进行整合,得到基于ELETRIC-BERT的实体抽取模型;
步骤3:使用模块替换策略,将原模型参数量压缩为原来的一半;使用压缩后的模型,进行实体抽取任务,从文本语料中抽取出领域实体。
2.根据权利要求1所述的基于ELETRIC-BERT的实体抽取方法,其特征在于,所述步骤1中预训练任务为领域词完型填空,包括:对数据集中的文本语料进行句子级别的遮挡,每个句子随机遮挡其部分领域专有词,若句子中专有词不足,则使用StandfordCoreNLP进行依存分析,得到相应解析树,然后分析解析树,提取出句子中的普通词,对这部分普通词进行遮挡,填补专有词的空缺。
3.根据权利要求2所述的基于ELETRIC-BERT的实体抽取方法,其特征在于,遮挡的专有词字数占总句子的15%。
4.根据权利要求2所述的基于ELETRIC-BERT的实体抽取方法,其特征在于,所述步骤1预训练过程中,模型对句子中遮挡住的专用词进行预测,基于预测误差计算出的梯度,使用梯度下降算法对模型的参数进行更新。
5.根据权利要求1所述的基于ELETRIC-BERT的实体抽取方法,其特征在于,所述步骤2中整合过程为:在实体抽取基本模型上叠加领域预训练模型进行训练。
6.根据权利要求1所述的基于ELETRIC-BERT的实体抽取方法,其特征在于,所述步骤3中模块替换策略使用6个未经训练的transformer encoder block对ELETRIC-BERT中已经训练好的12个transformer encoder block进行学习,压缩之前的ELETRIC-BERT模型predecessor包含12个encoder block,将其分为6个模块,分别为[prd1,prd2,prd3,...prd6],每个模块对应两个encoder block,压缩后模型successor也分为6个模块,各模块分别为[scc1,scc2,scc3...,scc6],每个模块包含1个encoder block,将successor中的每个模块与predecessor中的每个模块一一对应,在相应的自然语言处理任务驱动下,进行两阶段训练。
7.根据权利要求6所述的基于ELETRIC-BERT的实体抽取方法,其特征在于,所述两阶段训练包括如下过程:
(1)整合训练
对于predecessor中的任一模块prdi,通过伯努利分布,采样一个随机变量γi,采样概率为p,即γi为1的概率为p,为0的概率为1-p,如下式所示
γi~Bernoulli(p)
γi为1时,使用对应scci替换掉prdi;为0时,则保持原来的prdi不变;因此整合后的模型中任一个模块的输出yi由下式表示
yi=γi*scci(yi-1)+(1-γ)*prdi(yi-1)
模型训练一定次数直至收敛,转入微调训练阶段
(2)微调训练
将successor各个模块按照顺序串起来,在下游自然语言处理任务的驱动下,进行微调,更新相应参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111239034.2A CN113962214A (zh) | 2021-10-25 | 2021-10-25 | 基于eletric-bert的实体抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111239034.2A CN113962214A (zh) | 2021-10-25 | 2021-10-25 | 基于eletric-bert的实体抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113962214A true CN113962214A (zh) | 2022-01-21 |
Family
ID=79466622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111239034.2A Pending CN113962214A (zh) | 2021-10-25 | 2021-10-25 | 基于eletric-bert的实体抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113962214A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN113204649A (zh) * | 2021-05-11 | 2021-08-03 | 西安交通大学 | 基于实体关系联合抽取的法律知识图谱构建方法及设备 |
-
2021
- 2021-10-25 CN CN202111239034.2A patent/CN113962214A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN113204649A (zh) * | 2021-05-11 | 2021-08-03 | 西安交通大学 | 基于实体关系联合抽取的法律知识图谱构建方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359293B (zh) | 基于神经网络的蒙古文命名实体识别方法及其识别系统 | |
CN109492202B (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN105631468A (zh) | 一种基于rnn的图片描述自动生成方法 | |
CN111241279A (zh) | 一种基于多任务学习机制的自然语言关系抽取方法 | |
CN113468877A (zh) | 语言模型的微调方法、装置、计算设备和存储介质 | |
CN111428104B (zh) | 基于观点型阅读理解的癫痫病辅助医疗智能问答方法 | |
CN111507092A (zh) | 一种基于cnn与bert模型的英文语法纠错方法 | |
CN111125370A (zh) | 一种适应小样本的关系抽取方法 | |
CN112364125A (zh) | 一种联合阅读课程学习机制的文本信息抽取系统及方法 | |
CN113204645A (zh) | 一种基于知识引导的方面级情感分析模型训练方法 | |
CN115935957A (zh) | 一种基于句法分析的句子语法纠错方法及系统 | |
CN115496072A (zh) | 一种基于对比学习的关系抽取方法 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN113095045B (zh) | 一种基于逆向操作的中文数学应用题数据增强方法 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN116910272B (zh) | 基于预训练模型t5的学术知识图谱补全方法 | |
CN113962214A (zh) | 基于eletric-bert的实体抽取方法 | |
CN112395891A (zh) | 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法 | |
CN106682642A (zh) | 多面向语言行为识别方法及系统 | |
CN111831792A (zh) | 一种电力知识库构建方法及系统 | |
CN116340455A (zh) | 一种高速列车转向架设计标准实体关系抽取方法 | |
CN106339367A (zh) | 一种蒙古文自动校正方法 | |
CN115688703A (zh) | 一种特定领域文本纠错方法、存储介质和装置 | |
CN111523329A (zh) | 基于编码器-转换器-解码器框架的神经网络机器翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |