CN112417877A - 一种基于改进bert的文本蕴含关系识别方法 - Google Patents
一种基于改进bert的文本蕴含关系识别方法 Download PDFInfo
- Publication number
- CN112417877A CN112417877A CN202011327880.5A CN202011327880A CN112417877A CN 112417877 A CN112417877 A CN 112417877A CN 202011327880 A CN202011327880 A CN 202011327880A CN 112417877 A CN112417877 A CN 112417877A
- Authority
- CN
- China
- Prior art keywords
- bert
- training
- ter
- text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了自然语言处理技术领域的一种基于改进BERT的文本蕴含关系识别方法,提出新的训练目标TER用于进一步学习文本蕴含关系中的蕴含、冲突和中立等关系,同时,为了进一步增强预训练语言模型中的任务相关知识,并有效缓解微调过程中因训练数据不足而导致模型难以得到充分训练问题,提出预训练+任务相关预训练+微调的三阶段方法,给出相应的任务相关预训练数据的构造方法;TER‑BERT中所提出的TER训练目标及三阶段方法不仅使得模型能够更好地学习文本蕴含关系,而且可以充分利用已标注的目标任务语料构造训练数据并增强模型的任务相关知识,从而提高模型在党建问答系统、党建文本识别及文本摘要等应用系统中的性能。
Description
技术领域
本发明涉及自然语言处理技术领域,具体为一种基于改进BERT的文本蕴含关系识别方法。
背景技术
文本蕴含关系识别是指识别两段文本之间的蕴含关系,即在给定前提文本P和假设文本H的情况下,若可以通过文本P的内容识别出文本H的内容是正确的,那么可以说前提文本P蕴含假设H,文本蕴含关系识别长期以来作为自然语言处理中的一项重要子任务,在问答系统、信息检索、信息抽取、阅读理解和文本推断等诸多领域都有着重要的应用。
传统的文本蕴含关系识别方法主要包括基于词语相似度的无监督方法、基于特征抽取的分类方法和基于逻辑推断的方法等,由于这些方法往往需要依赖人工抽取的特征、人工设计的规则以及词性标注、句法分析等预处理工具,近年来,随着深度学习的快速发展,采用深层神经网络进行文本蕴含关系识别研究成为了主流,并在SNLI和CBT等多个文本蕴含关系识别语料上取得一系列新的最好效果,特别是近两年在BERT的推动,基于预训练语言模型及预训练+微调的两阶段方法在多个自然语言处理任务上取得了突出的效果,许多相关工作证明了利用大规模无标注文本语料学习通用语言表示,并根据具体任务进行微调的两阶段方式是可行的,作为预训练语言模型的主要代表,BERT采用多层Transformer结构及自注意力机制,在海量的通用无标注文本基础上结合MLM和NSP(Next SentencePrediction)目标训练学习文本的语法和语义信息,但由于预训练的BERT模型是基于一般的互联网文本训练所得,而且NSP(Next Sentence Prediction)的目的是学习句子之间的相邻关系,而非前后顺序,这使得预训练BERT模型一方面往往缺乏任务相关的领域知识,另一方面难以进一步刻画细粒度的文本蕴含关系,为此,我们提出一种基于改进BERT的文本蕴含关系识别方法。
发明内容
本发明的目的在于提供一种基于改进BERT的文本蕴含关系识别方法,首先针对BERT中的NSP训练目标只学习文本句子之间的相邻关系,不适合刻画细粒度文本蕴含关系问题,提出改进后的BERT模型TER-BERT,TER-BERT中采用新的针对文本蕴含关系预测训练目标(Textual Entailment Relation,TER)及相应的损失函数代替传统的NSP,目的是使得多层Transformer能够更好地学习文本之间的蕴含关系;接着,通过利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料,给出相应的构造策略,并在公开预训练语言模型BERT(BERT-base或BERT-large)的基础上,采用TER-BERT模型进行再次预训练,目的是进一步增强任务相关的知识,最后,将经过任务相关数据预训练的TER-BERT应用于相应的文本蕴含关系识别任务中,并通过微调的方式进一步学习任务相关知识,实验结果证明基于改进TER-BERT及相应的预训练+任务相关预训练+微调的三阶段方法能够进一步提高BERT模型在多个文本蕴含关系识别任务上的性能,并明显优于经典的BERT模型。
为实现上述目的,本发明提供如下技术方案:一种基于改进BERT的文本蕴含关系识别方法,识别方法的具体步骤为:
步骤一:提出针对文本蕴含关系识别的新训练目标(Textual Entailment Relation,TER),将原来BERT中基于NSP的句子间二元相邻关系的判断更改为基于TER的文本间三元关系的判断,即在TER训练目标中,模型区分两个句子之间的蕴含关系、冲突关系及中立关系,同时,对于TER训练目标利用三元交叉熵作为损失函数定义;最后,将整个BERT模型的损失值定义为MLM和TER损失值的和;
步骤二:根据目标任务语料集中已标注的训练数据和验证数据,通过以下策略构造相应的无标注任务相关训练语料,具体来说,若已标注数据中两个文本A和B之间为的蕴含关系(即A=>B),则在待训练语料中该文本为相邻关系;同时按50%的概率对调两个句子的先后顺序,且视对调后的句子对为非蕴含关系,即在待训练语料中为非相邻关系,记为A[SEP]B;对于中立或冲突的文本对均视为非相邻关系,通过[SEP]进行相隔,同时按50%的概率对调其先后顺序,为了使模型能够从标注为文本蕴含关系的句子对中学习其先后顺序关系,将待训练语料中所有相邻关系的文本均直接构造为句子对,即不采用50%的概率进行选择;
步骤三:为了同时充分利用预训练语言模型BERT在大规模通用文本上所学习到的语法和语义知识,在公开预训练语言模型BERT-base(即不区分大小写、采用12层Transformer和764维向量)的基础上,利用步骤一和二中构造的训练目标MLM+TER及任务相关语料对BERT进行训练,目的是让模型进一步学习文本间的蕴含关系,增强任务相关的领域知识,并得到包含任务相关知识的预训练语言模型TER-BERT;
步骤四:对于待判断的两个句子,构造句子对作为步骤3中TER-BERT的输入,并将TER-BERT中最后一层的[CLS]标志所对应的词向量H[CLS]作为句子对的最终语义表示;
步骤五:将H[CLS]通过一个维度为100的全连接层和一个softmax函数进行分类和判断,同时采用多元交叉熵函数作为损失函数对模型中的待训练参数进行反向调整。
优选的,改进BERT是在原来BERT及其NSP训练目标的基础上,针对细粒度文本蕴含关系提出新的训练目标TER,并将原来的NSP替换成为基于三元关系的TER训练目标和三元交叉熵函数。
优选的,任务预训练方法是利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料,并在公开预训练模型BERT(BERT-base或BERT-large)的基础进行再次预训练,且句子的最大长度统一取128,学习率统一为5e-05,不区分大小写,并采用全词掩码的方式,目的是进一步增强任务相关的知识并得到相应的预训练模型TER-BERT;在构造任务相关的预训练语料时,将包含蕴含关系的句子视为相邻关系;同时按50%的概率对调两个句子的先后顺序,且视对调后的句子对的标签为中立的,其目的是使得模型能够进一步学习两个句子在蕴含关系的先后顺序关系,对于中立或冲突的文本对均视为非相邻关系,通过空白行进行相隔,同时按50%的概率对调其先后顺序,且继续使用原来的标签;同时,为了使模型能够从标注为文本蕴含关系的句子对中学习其先后顺序关系,将待训练语料中所有相邻关系的文本均直接构造为标签为蕴含关系的句子对,即不采用50%的概率进行选择。
优选的,预训练语言模型在TER-BERT的基础利用目标任务集中的训练数据进行微调和验证,并直接将TER-BERT最后一层中[CLS]标志所对应的词向量作为句子对的最终语义表示,最后通过一个全连接网络和一个softmax函数进行分类判断和输出。
与现有技术相比,本发明的有益效果是:
本发明设计合理,针对现有BERT模型中采用的NSP无法学习细粒度文本蕴含关系问题,提出新的训练目标TER用于进一步学习文本蕴含关系中的蕴含、冲突和中立等关系,同时,为了进一步增强预训练语言模型中的任务相关知识,并有效缓解微调过程中因训练数据不足而导致模型难以得到充分训练问题,提出预训练+任务相关预训练+微调的三阶段方法,给出相应的任务相关预训练数据的构造方法;实验结果证明,该发明所提出的改进BERT及相应的三阶段方法可以使得模型更好地学习文本蕴含关系任务的相关知识,在SNLI和CBT等多个相关语料库上都取得了优于经典BERT及之前各相关方法的效果,并有效地提升了党建问答及党建新闻摘要等相关系统的性能,TER-BERT中所提出的TER训练目标及三阶段方法不仅使得模型能够更好地学习文本蕴含关系,而且可以充分利用已标注的目标任务语料构造训练数据并增强模型的任务相关知识,从而提高模型在党建问答系统、党建文本识别及文本摘要等应用系统中的性能。
附图说明
图1为本发明神经网络模型的总体架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于改进BERT的文本蕴含关系识别方法,识别方法的具体步骤为:
步骤一:提出针对文本蕴含关系识别的新训练目标(Textual Entailment Relation,TER),将原来BERT中基于NSP的句子间二元相邻关系的判断更改为基于TER的文本间三元关系的判断,即在TER训练目标中,模型区分两个句子之间的蕴含关系、冲突关系及中立关系,同时,对于TER训练目标利用三元交叉熵作为损失函数定义;最后,将整个BERT模型的损失值定义为MLM和TER损失值的和;
步骤二:根据目标任务语料集中已标注的训练数据和验证数据,通过以下策略构造相应的无标注任务相关训练语料,具体来说,若已标注数据中两个文本A和B之间为的蕴含关系(即A=>B),则在待训练语料中该文本为相邻关系;同时按50%的概率对调两个句子的先后顺序,且视对调后的句子对为非蕴含关系,即在待训练语料中为非相邻关系,记为A[SEP]B;对于中立或冲突的文本对均视为非相邻关系,通过[SEP]进行相隔,同时按50%的概率对调其先后顺序,为了使模型能够从标注为文本蕴含关系的句子对中学习其先后顺序关系,将待训练语料中所有相邻关系的文本均直接构造为句子对,即不采用50%的概率进行选择;
步骤三:为了同时充分利用预训练语言模型BERT在大规模通用文本上所学习到的语法和语义知识,在公开预训练语言模型BERT-base(即不区分大小写、采用12层Transformer和764维向量)的基础上,利用步骤一和二中构造的训练目标MLM+TER及任务相关语料对BERT进行训练,目的是让模型进一步学习文本间的蕴含关系,增强任务相关的领域知识,并得到包含任务相关知识的预训练语言模型TER-BERT;
步骤四:对于待判断的两个句子,构造句子对作为步骤3中TER-BERT的输入,并将TER-BERT中最后一层的[CLS]标志所对应的词向量H[CLS]作为句子对的最终语义表示;
步骤五:将H[CLS]通过一个维度为100的全连接层和一个softmax函数进行分类和判断,同时采用多元交叉熵函数作为损失函数对模型中的待训练参数进行反向调整。
改进BERT是在原来BERT及其NSP训练目标的基础上,针对细粒度文本蕴含关系提出新的训练目标TER,并将原来的NSP替换成为基于三元关系的TER训练目标和三元交叉熵函数;
任务预训练方法是利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料,并在公开预训练模型BERT(BERT-base或BERT-large)的基础进行再次预训练,且句子的最大长度统一取128,学习率统一为5e-05,不区分大小写,并采用全词掩码的方式,目的是进一步增强任务相关的知识并得到相应的预训练模型TER-BERT;在构造任务相关的预训练语料时,将包含蕴含关系的句子视为相邻关系;同时按50%的概率对调两个句子的先后顺序,且视对调后的句子对的标签为中立的,其目的是使得模型能够进一步学习两个句子在蕴含关系的先后顺序关系,对于中立或冲突的文本对均视为非相邻关系,通过空白行进行相隔,同时按50%的概率对调其先后顺序,且继续使用原来的标签;同时,为了使模型能够从标注为文本蕴含关系的句子对中学习其先后顺序关系,将待训练语料中所有相邻关系的文本均直接构造为标签为蕴含关系的句子对,即不采用50%的概率进行选择;
预训练语言模型在TER-BERT的基础利用目标任务集中的训练数据进行微调和验证,并直接将TER-BERT最后一层中[CLS]标志所对应的词向量作为句子对的最终语义表示,最后通过一个全连接网络和一个softmax函数进行分类判断和输出;
上面所述基于改进BERT的文本蕴含关系识别方法中的文本蕴含关系识别模型是在一个多层神经网络中完成的,多层神经网络的架构图如图1所示,其中各单元词向量的输出维度为768维,模型训练过程中采用多元交叉熵定义损失函数,并结合了Adam优化器,其学习率统一为2e-05,句子长度取128,并采用全词掩码的方式,为避免过拟合,采用基于Dropout的正则化策略,值统一设置为0.1。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (4)
1.一种基于改进BERT的文本蕴含关系识别方法,其特征在于:识别方法的具体步骤为:
步骤一:提出针对文本蕴含关系识别的新训练目标(Textual Entailment Relation,TER),将原来BERT中基于NSP的句子间二元相邻关系的判断更改为基于TER的文本间三元关系的判断,即在TER训练目标中,模型区分两个句子之间的蕴含关系、冲突关系及中立关系,同时,对于TER训练目标利用三元交叉熵作为损失函数定义;最后,将整个BERT模型的损失值定义为MLM和TER损失值的和;
步骤二:根据目标任务语料集中已标注的训练数据和验证数据,通过以下策略构造相应的无标注任务相关训练语料,具体来说,若已标注数据中两个文本A和B之间为的蕴含关系(即A=>B),则在待训练语料中该文本为相邻关系;同时按50%的概率对调两个句子的先后顺序,且视对调后的句子对为非蕴含关系,即在待训练语料中为非相邻关系,记为A[SEP]B;对于中立或冲突的文本对均视为非相邻关系,通过[SEP]进行相隔,同时按50%的概率对调其先后顺序,为了使模型能够从标注为文本蕴含关系的句子对中学习其先后顺序关系,将待训练语料中所有相邻关系的文本均直接构造为句子对,即不采用50%的概率进行选择;
步骤三:为了同时充分利用预训练语言模型BERT在大规模通用文本上所学习到的语法和语义知识,在公开预训练语言模型BERT-base(即不区分大小写、采用12层Transformer和764维向量)的基础上,利用步骤一和二中构造的训练目标MLM+TER及任务相关语料对BERT进行训练,目的是让模型进一步学习文本间的蕴含关系,增强任务相关的领域知识,并得到包含任务相关知识的预训练语言模型TER-BERT;
步骤四:对于待判断的两个句子,构造句子对作为步骤3中TER-BERT的输入,并将TER-BERT中最后一层的[CLS]标志所对应的词向量H[CLS]作为句子对的最终语义表示;
步骤五:将H[CLS]通过一个维度为100的全连接层和一个softmax函数进行分类和判断,同时采用多元交叉熵函数作为损失函数对模型中的待训练参数进行反向调整。
2.根据权利要求1所述的一种基于改进BERT的文本蕴含关系识别方法,其特征在于:改进BERT是在原来BERT及其NSP训练目标的基础上,针对细粒度文本蕴含关系提出新的训练目标TER,并将原来的NSP替换成为基于三元关系的TER训练目标和三元交叉熵函数。
3.根据权利要求1所述的一种基于改进BERT的文本蕴含关系识别方法,其特征在于:任务预训练方法是利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料,并在公开预训练模型BERT(BERT-base或BERT-large)的基础进行再次预训练,且句子的最大长度统一取128,学习率统一为5e-05,不区分大小写,并采用全词掩码的方式,目的是进一步增强任务相关的知识并得到相应的预训练模型TER-BERT;在构造任务相关的预训练语料时,将包含蕴含关系的句子视为相邻关系;同时按50%的概率对调两个句子的先后顺序,且视对调后的句子对的标签为中立的,其目的是使得模型能够进一步学习两个句子在蕴含关系的先后顺序关系,对于中立或冲突的文本对均视为非相邻关系,通过空白行进行相隔,同时按50%的概率对调其先后顺序,且继续使用原来的标签;同时,为了使模型能够从标注为文本蕴含关系的句子对中学习其先后顺序关系,将待训练语料中所有相邻关系的文本均直接构造为标签为蕴含关系的句子对,即不采用50%的概率进行选择。
4.根据权利要求1所述的一种基于改进BERT的文本蕴含关系识别方法,其特征在于:预训练语言模型在TER-BERT的基础利用目标任务集中的训练数据进行微调和验证,并直接将TER-BERT最后一层中[CLS]标志所对应的词向量作为句子对的最终语义表示,最后通过一个全连接网络和一个softmax函数进行分类判断和输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011327880.5A CN112417877B (zh) | 2020-11-24 | 2020-11-24 | 一种基于改进bert的文本蕴含关系识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011327880.5A CN112417877B (zh) | 2020-11-24 | 2020-11-24 | 一种基于改进bert的文本蕴含关系识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417877A true CN112417877A (zh) | 2021-02-26 |
CN112417877B CN112417877B (zh) | 2022-09-27 |
Family
ID=74777593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011327880.5A Active CN112417877B (zh) | 2020-11-24 | 2020-11-24 | 一种基于改进bert的文本蕴含关系识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417877B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800748A (zh) * | 2021-03-30 | 2021-05-14 | 平安科技(深圳)有限公司 | 适用于多音字的音素预测方法、装置、设备及存储介质 |
CN113010653A (zh) * | 2021-03-16 | 2021-06-22 | 支付宝(杭州)信息技术有限公司 | 一种对话策略模型训练、对话的方法和系统 |
CN113032559A (zh) * | 2021-03-15 | 2021-06-25 | 新疆大学 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
CN113569553A (zh) * | 2021-07-28 | 2021-10-29 | 广州芳禾数据有限公司 | 基于改进Adaboost算法的句子相似性判断方法 |
CN113723106A (zh) * | 2021-07-29 | 2021-11-30 | 北京工业大学 | 基于标签扩展的零样本文本分类方法 |
CN113836281A (zh) * | 2021-09-13 | 2021-12-24 | 中国人民解放军国防科技大学 | 一种基于自动问答的实体关系联合抽取方法 |
CN113836919A (zh) * | 2021-09-30 | 2021-12-24 | 中国建筑第七工程局有限公司 | 一种基于迁移学习的建筑行业文本纠错方法 |
CN113887230A (zh) * | 2021-09-30 | 2022-01-04 | 北京熵简科技有限公司 | 一种面向金融场景的端到端自然语言处理训练框架与方法 |
CN113934836A (zh) * | 2021-12-21 | 2022-01-14 | 北京云迹科技有限公司 | 一种问题回复方法、装置和电子设备 |
CN113961705A (zh) * | 2021-10-29 | 2022-01-21 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
CN114780722A (zh) * | 2022-03-31 | 2022-07-22 | 北京理工大学 | 一种结合领域通用型语言模型的领域泛化方法 |
CN114817494A (zh) * | 2022-04-02 | 2022-07-29 | 华南理工大学 | 基于预训练和注意力交互网络的知识型检索式对话方法 |
CN116151249A (zh) * | 2023-03-14 | 2023-05-23 | 天津大学 | 一种基于困难样本筛选的即兴委婉语检测方法 |
CN117829147A (zh) * | 2024-01-04 | 2024-04-05 | 北京新数科技有限公司 | 一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110502643A (zh) * | 2019-08-28 | 2019-11-26 | 南京璇玑信息技术有限公司 | 一种基于bert模型的预测下一句模型自动构建技术 |
CN111079406A (zh) * | 2019-12-13 | 2020-04-28 | 华中科技大学 | 自然语言处理模型训练方法、任务执行方法、设备及系统 |
CN111241851A (zh) * | 2020-04-24 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 语义相似度确定方法、装置及处理设备 |
CN111241279A (zh) * | 2020-01-07 | 2020-06-05 | 华东师范大学 | 一种基于多任务学习机制的自然语言关系抽取方法 |
-
2020
- 2020-11-24 CN CN202011327880.5A patent/CN112417877B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110502643A (zh) * | 2019-08-28 | 2019-11-26 | 南京璇玑信息技术有限公司 | 一种基于bert模型的预测下一句模型自动构建技术 |
CN111079406A (zh) * | 2019-12-13 | 2020-04-28 | 华中科技大学 | 自然语言处理模型训练方法、任务执行方法、设备及系统 |
CN111241279A (zh) * | 2020-01-07 | 2020-06-05 | 华东师范大学 | 一种基于多任务学习机制的自然语言关系抽取方法 |
CN111241851A (zh) * | 2020-04-24 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 语义相似度确定方法、装置及处理设备 |
Non-Patent Citations (3)
Title |
---|
CAGLA AKSOY: "Hierarchical Multitask Learning Approach for BERT", 《ARXIV:2011.04451V1 [CS.CL]》 * |
JACOB DEVLIN等: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", 《ARXIV:1810.04805V2[CS.CL]》 * |
ZHENZHONG LAN等: "ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS", 《ARXIV:1909.11942V6 [CS.CL]》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032559A (zh) * | 2021-03-15 | 2021-06-25 | 新疆大学 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
CN113010653A (zh) * | 2021-03-16 | 2021-06-22 | 支付宝(杭州)信息技术有限公司 | 一种对话策略模型训练、对话的方法和系统 |
CN112800748A (zh) * | 2021-03-30 | 2021-05-14 | 平安科技(深圳)有限公司 | 适用于多音字的音素预测方法、装置、设备及存储介质 |
CN113569553A (zh) * | 2021-07-28 | 2021-10-29 | 广州芳禾数据有限公司 | 基于改进Adaboost算法的句子相似性判断方法 |
CN113723106B (zh) * | 2021-07-29 | 2024-03-12 | 北京工业大学 | 基于标签扩展的零样本文本分类方法 |
CN113723106A (zh) * | 2021-07-29 | 2021-11-30 | 北京工业大学 | 基于标签扩展的零样本文本分类方法 |
CN113836281A (zh) * | 2021-09-13 | 2021-12-24 | 中国人民解放军国防科技大学 | 一种基于自动问答的实体关系联合抽取方法 |
CN113836919A (zh) * | 2021-09-30 | 2021-12-24 | 中国建筑第七工程局有限公司 | 一种基于迁移学习的建筑行业文本纠错方法 |
CN113887230A (zh) * | 2021-09-30 | 2022-01-04 | 北京熵简科技有限公司 | 一种面向金融场景的端到端自然语言处理训练框架与方法 |
CN113961705A (zh) * | 2021-10-29 | 2022-01-21 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
CN113961705B (zh) * | 2021-10-29 | 2024-08-27 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
CN113934836A (zh) * | 2021-12-21 | 2022-01-14 | 北京云迹科技有限公司 | 一种问题回复方法、装置和电子设备 |
CN114780722A (zh) * | 2022-03-31 | 2022-07-22 | 北京理工大学 | 一种结合领域通用型语言模型的领域泛化方法 |
CN114780722B (zh) * | 2022-03-31 | 2024-05-14 | 北京理工大学 | 一种结合领域通用型语言模型的领域泛化方法 |
CN114817494B (zh) * | 2022-04-02 | 2024-06-21 | 华南理工大学 | 基于预训练和注意力交互网络的知识型检索式对话方法 |
CN114817494A (zh) * | 2022-04-02 | 2022-07-29 | 华南理工大学 | 基于预训练和注意力交互网络的知识型检索式对话方法 |
CN116151249B (zh) * | 2023-03-14 | 2023-08-08 | 天津大学 | 一种基于困难样本筛选的即兴委婉语检测方法 |
CN116151249A (zh) * | 2023-03-14 | 2023-05-23 | 天津大学 | 一种基于困难样本筛选的即兴委婉语检测方法 |
CN117829147A (zh) * | 2024-01-04 | 2024-04-05 | 北京新数科技有限公司 | 一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质 |
CN117829147B (zh) * | 2024-01-04 | 2024-08-23 | 北京新数科技有限公司 | 一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112417877B (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417877B (zh) | 一种基于改进bert的文本蕴含关系识别方法 | |
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN113987209B (zh) | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 | |
CN111914091B (zh) | 一种基于强化学习的实体和关系联合抽取方法 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
WO2023225858A1 (zh) | 一种基于常识推理的阅读型考题生成系统及方法 | |
CN112417884A (zh) | 一种基于知识增强和知识迁移的句子语义相关度判断方法 | |
CN111933127B (zh) | 一种具备自学习能力的意图识别方法及意图识别系统 | |
CN111177376A (zh) | 一种基于bert与cnn层级连接的中文文本分类方法 | |
CN113297364A (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN111597811B (zh) | 一种基于图神经网络算法的金融篇章级多关联事件抽取方法 | |
CN111753058A (zh) | 一种文本观点挖掘方法及系统 | |
CN113569553A (zh) | 基于改进Adaboost算法的句子相似性判断方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
Zhao et al. | Knowledge-aware bayesian co-attention for multimodal emotion recognition | |
CN115658890A (zh) | 基于主题增强的情感共注意力bert模型的中文评论分类方法 | |
Tao et al. | News text classification based on an improved convolutional neural network | |
CN115496072A (zh) | 一种基于对比学习的关系抽取方法 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
Katumullage et al. | Using neural network models for wine review classification | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN113360606A (zh) | 一种基于Filter的知识图谱问答联合训练方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN113869040A (zh) | 一种电网调度的语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |