CN114662659A - 一种基于多阶段迁移学习策略综合的众包文本集成方法 - Google Patents
一种基于多阶段迁移学习策略综合的众包文本集成方法 Download PDFInfo
- Publication number
- CN114662659A CN114662659A CN202210237867.3A CN202210237867A CN114662659A CN 114662659 A CN114662659 A CN 114662659A CN 202210237867 A CN202210237867 A CN 202210237867A CN 114662659 A CN114662659 A CN 114662659A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- crowdsourcing
- data
- ttgcif
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于多阶段迁移学习策略综合的众包文本集成方法,具体为1、构建迁移式生成型众包文本集成模型TTGCIF;2、获得源域文本数据集和目标域文本数据集的语义原型;3、对语义原型进行词嵌入处理;4、根据最大均值差异做数据分布对齐;5、对TTGCIF进行语义原型转导模型训练;6、将源域文本数据集处理为训练任务集;7、将训练任务集输入到TTGCIF中进行领域快速适应模型训练;8、将部分目标域文本数据集输入到TTGCIF中进行模型微调训练。通过以上过程,实现文本集成。本发明能够摒弃传统方法中对数据标签的需求,减少人力物力的浪费,对数据稀缺场景下进行众包文本集成的有着极大的促进作用。
Description
技术领域
本发明属于自然语言处理技术领域。
背景技术
自然语言处理领域中的大量有监督训练的模型,需要带有标记值的文本进行训练。但是相关领域中带标记的文本来源稀少,除了一些标准的数据集外,如果需要新的数据集进行训练,就只能依靠专家人工生成文本标记值,需要花费大量人力物力。而在众包环境下,利用大量闲散的人力来对无标记的文本人工生成标记值,能用极其微小的代价获得大量带有标记值的文本进行训练。依靠众包模式来获取有标记的文本数据,成为了机器学习领域获取训练数据和标记值的主要途径。
众包模式是一种个人或组织能从一个大的、相对开放的、逐渐增长的互联网用户群体中获取服务和内容的一种模式。该模式旨在将原本复杂的、需要耗费大量人力物力的任务进行拆解后,以自由自愿的形式外包给非特定的大众志愿者的做法。由此衍生的平台如Amazon Mechanical Turk,Figure Eight(CrowdFlower)等能提供“人工标记图片”“人工书写摘要”“众人评价”等服务。这些服务生成的数据内容,由于人工水平的参差不齐或操作误差,会存在一些错误。
机器学习模型的训练,需要准确度较高的训练数据集。因此,对众包环境下获得的有瑕疵的数据和标记值进行优化,是必不可少的。在此基础上,对众包的相关研究也是一个机器学习领域必不可少的一部分。而目前,最前沿的研究工作中集中在事实推断和标签集成。
而对众包环境下的文本进行内容集成,是标签集成工作的一个重要分支,目前可使用抽取式和生成式方法[1]。抽取式方法由于技术更为成熟,展现出的集成效果要优于生成式方法[2]。而这两种方法又分为有监督和无监督方法的选择。对于无监督方法,Tadashi[3]等人提出的基于聚类的摘要模型,Joshi[4]等人提出了基于两层自动编码器的句子选择方法等方法。对于有监督方法,Nallapati[5]等人提出基于循环神经网络的抽取模型SumaaRuNNer。以上方法能够对一段文本进行有效集成,但是仍然存在内容选择错误、文本集成质量不高的问题。
因此现有技术需要一种提高众包集成文本质量的方法,来处理相关领域众包集成文本真值缺乏的问题,但当前对于集成文本真值在众包环境下缺乏的解决方法研究还很少,并且还有很多问题存在。比如,现有的基于深度学习的方法几乎都是利用有监督方式训练模型,从而需要大量标记文本进行模型训练;现有的用于解决集成文本真值缺乏问题方法的效果,仍主要取决于相关领域的真值数据量;此外,相关方法并未充分利用相关领域已有数据所能提供的信息,来提升众包文本集成的效果。
发明内容
发明目的:为了解决上述现有技术存在的问题,本发明提供了一种基于多阶段迁移学习策略综合的众包文本集成方法。
技术方案:本发明提供了一种基于多阶段迁移学习策略综合的众包文本集成方法,包括如下步骤:
步骤1:对Transformer模型进行改进:在Transformer模型中加入指针生成器网络和双向门控循环网络,并在Transformer模型中的编码器和解码器的每一层的前馈网络后连接适配器层;得到改进后的模型TTGCIF模型;
步骤2:构建源域文本数据集和目标域文本数据中的每个<众包原始文本,众包集成文本>的语义原型z,z=[xd,yd,ad],x表示众包原始文本,y表示众包集成文本,a表示众包原始文上的语义注释文本;d∈{Source,Target},Source表示源域,Target表示目标域;
步骤3:对z中每个文本做词嵌入处理:对xd和ad进行词嵌入得到和且的向量形式满足Transformer模型中编码器的格式要求,的向量形式满足双向门控循环网络的格式要求;对yd单独进行两次词嵌入处理,第一次词嵌入处理后得到的向量形式满足双向门控循环网络的格式要求,第二次词嵌入处理后得到的向量形式满足Transformer模型中解码器的格式要求;
步骤6:从N个源域中随机抽取K条语义原型,得到N*K条语义原型,将该N*K条语义原型作为训练任务数据集;将训练任务数据集中的一半数据划分为支持集,另一半数据划分为查询集;重复步骤6,直到源域的所有的语义原型都被抽取过,得到若干个训练任务数据集;
步骤7:将步骤5中训练好的TTGCIF模型中的双向门控循环网络的参数固定不动,基于步骤5中训练好的TTGCIF模型参数,采用步骤6中的支持集和查询集对编码器和解码器进行训练;
步骤8:对步骤7中训练好的编码器和解码器的参数进行调整,得到最终的TTGCIF模型;
步骤9:将需要提取集成文本的众包原始文本输入至步骤8的TTGCIF模型中,得到对应的众包集成文本。
进一步的,所述步骤1中的解码器从输入至输出包括8个子层,双向门控循环网络的输出通过全连接层与解码器的第2个子层的输入端连接;指针生成器网络用于和Transformer解码器共同计算生成概率。
进一步的,所述目标域的众包集成文本yTarget采用如下方法获得:将目标域的众包原始文本xtarget的每个子句分成单词序列,按照子句中单词的数量,从高到低选择u个子句作为目标域的众包伪集成文本,也既yTarget;u为源域中每个众包集成文本长度除以源域中相应的众包原始文本长度的均值。
进一步的,所述步骤4具体为,将和投射到再生核希尔伯特空间H中,得到在H中的表示X1Source,和在H中的表示X1Target;在核希尔伯特空间H中,基于如下公式训练含有Sigmoid激活函数的全连接层:
其中,N表示源域和目标域的总个数之和。
进一步的,所述步骤5中基于如下损失函数对TTGCIF模型进行训练:
为TTGCIF模型的输出,TE(.)表示Transformer的编码器;pgen表示指针生成器网络产生的生成概率,wt表示输入至Transformer解码器的中的第t个标记;Pvocab(.)表示词汇分布,Pcopy表示复制分布概率,σ表示Sigmod激活函数,T为转置,表示编码器里8个子层中最后一个子层的输出,st表示解码器里8个子层中最后一个子层的输出,为at中第i'个数据,at为中的第t个标记输入至Transformer解码器后,解码器最后一个子层中多头注意力模块输出的注意力权重分布向量,I表示at中数据的总个数;linear表示线性层,wh,ws,wx,bptr,w和bvocab均表示学习参数;
有益效果:本发明通过使用多种迁移学习策略,无需花费大量的人力物力进行数据标注来训练深度网络模型,就能构建出泛化效果较好的生成模型。本发明从数据的层面,首先通过数据的语义关联性,构建不同领域间的语义原型表示,再在数据表征上减小不同数据间的分布差异;本发明还从模型的层面,通过语义类型转导和领域快速适应方法,捕捉不同领域数据中的共性知识,提升模型在目标领域上的泛化性能提升效果。本发明构建的模型TTGCIF能够摒弃传统方法中对数据标签的需求,减少人力物力的浪费,在数据稀缺场景下进行众包文本集成的有着极大的促进作用。
附图说明
图1是本发明的方法流程图;
图2是本发明的TTGCIF模型的结构图;
图3是通过在核空间中最小化MMD来实现领域分布对齐的过程图;
图4是语义原型转导寻示意图;
图5是基于语义原型转导训练流程图。
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
本实施案例基于改进的Transformer文本生成模型,运用迁移学习中多种策略综合构建集成框架,不依赖目标领域的真值数据训练模型得到集成文本,进而提高众包文本集成的准确度。如图1所示,本方法包含如下步骤:
步骤10,基于Transformer模型进行改进,构建定制化的迁移式生成型众包文本集成模型TTGCIF,其结构如图2所示。该模型TTGCIF由标准的Transformer模型改进而来。Transformer模型由一个编码器和一个解码器组成。编码器由8个相同的层堆叠而成。每层有2个子层,第1个子层是一个多头自注意力机制,第2个子层是一个前馈网络。在2个子层的每一层都采用一个残差连接,然后进行归一化处理;解码器也是由8个相同的层堆叠而成,除了和编码器层内相同的2个子层外,额外加入了第3个子层,用于对编码器堆栈的输出进行多头注意力机制的计算,与编码器相似在每个子层周围采用残差连接,然后进行归一化处理。另外编码器和解码器的每一个子层中都在前馈网络后面额外添加了一个适配器层(Adapter Layer),该层定义如公式(1)所示,通过全连接层压缩前馈网络输出的隐藏状态h的维度,再将压缩后的隐藏状态的维度恢复为输入适配器层前的隐藏状态的维度,其中原始的维度大小为压缩后的维度大小的4倍。
其中,Adapter表示适配器层;h表示前馈网络输出的隐藏状态;表示适配器层中使用的外部全连接层,用于将压缩后的隐藏状态的维度恢复到输入前的维度;ReLU表示使用的激活函数为ReLU激活函数;表示适配器层中使用的内部全连接层,用于将输入的隐藏状态的维度进行压缩;表示适配器层输出的隐藏状态的维度的数量;表示输入适配器层的隐藏状态的维度的数量;FFN表示Transformer中使用的前馈网络(Feed-Forward Network);MHA表示Transformer中使用的多头注意力(Multi-HeadAttention)。
模型TTGCIF包括了一个增强的编码器和一个标准的Transformer解码器,同时加入指针生成器网络。增强的编码器由一个双向门控循环网络(Bi-GRU)和Transformer编码器共同组成。解码器包括多头注意力模块+前馈网络模块+适配器层+残差&归一化;解码器中的第1个多头注意力模块是解码器内部进行自注意力机制的计算,第2个多头注意力模块会结合前一个模块(add&norm)的输出+编码器端的输出+双向门控循环网络(Bi-GRU)的输出,共同进行自注意力机制的计算;
双向门控循环网络的输入接收在TTGCIF模型训练过程中指定的语义原型数据,输出将连接到一个全连接层以进行维度的调整,全连接层的输出连接解码器的第二层的多头注意力模块。指针生成器网络计算一个生成概率Pgen∈[0,1],该概率决定从词表自带的中生成单词的概率,而不是从原文输入的原文中复制单词的概率。通过这种方式,指针生成器网络和Transformer的解码器一起使用,共同计算出最后的生成概率,最终得到众包文本。
步骤20,构建源域文本数据集和目标域文本数据集中的每个<众包原始文本,众包集成文本>的语义原型:众包原始文本x,众包集成文本y和x上的语义注释文本a。
每个<众包原始文本,众包集成文本>的语义原型被构造为z=[xd,yd,ad]的表示序列,其中d∈{Source,Target}。Source表示数据来源于源域,Target表示数据来源于目标域。
在训练过程中对什么的训练,当训练数据yd来自目标域时,首先将相应的目标域的众包原始文本xtar get的每个子句按单词进行分词,按照子句中所含单词的数量,从高到低选择u个子句作为目标域中的众包伪集成文本,也既yTarget。u为源域中每个众包集成文本长度除以源域中相应的众包原始文本长度的均值。
语义注释文本ad是将众包原始文本xd转换成一个关键词序列,关键词的标签属于{名词、副词、形容词、动词}。
步骤30,将步骤20中得到的语义原型z=[xd,yd,ad],输入到预训练的BERT中进行[xd,yd,ad]的词嵌入处理。
将众包原始文本xd输入到BERT中,通过BERT对众包原始文本xd进行词嵌入处理后得到其词嵌入表示得到的词嵌入表示将以(batch_size,enc_max_len,dim)这样的张量形式输入到TTGCIF的编码器中,batch_size表示每次输入到模型中的数据的数量,enc_max_len表示编码器接受输入的最大长度,dim表示BERT进行词嵌入处理的维度。
将语义注释文本ad输入到BERT中,通过BERT对语义注释文本ad进行词嵌入处理后得到其词嵌入表示得到的词嵌入表示将以(batch_size,enc_max_len,dim)这样的张量形式输入到TTGCIF的编码器中。其中,batch_size表示每次输入到模型中的数据的数量,enc_max_len表示编码器(此时的编码器表示双向门控循环网络)接受输入的最大长度,dim表示BERT进行词嵌入处理的维度。
将众包集成文本yd输入到BERT中,通过BERT对众包集成文本yd进行词嵌入处理后得到其词嵌入表示。得到的词嵌入表示将以(batch_size,dec_max_len,dim)这样的张量形式输入到TTGCIF的解码器中。其中,batch_size表示每次输入到模型中的数据的数量,dec_max_len表示解码器接受输入的最大长度,dim表示BERT进行词嵌入处理的维度。由于本实施例中要将词嵌入后的众包集成文本输入到双向门控循环网络和解码器中,所以需要对yd进行两次单独的词嵌入,一次词嵌入后输出的向量的形式满足双向门控循环网络的格式要求,另外一次词嵌入后输出的向量的形式满足解码器的格式要求;
根据公式(2),最小化最大均值差异来减少源域和目标域之间的数据分布和的距离,使得两者的数据分布表示对齐。在最小化的过程中,全连接层的参数将被更新,参数更新使得在核空间H中,全连接层输出的数据分布与目标域直接输出的数据分布近似。
训练后全连接层的输出映射表示将更新为相应源域的映射表示其输出为对齐后的数据表示。接着如下公式(3)所定义,目标域中的对齐数据表示是通过将目标域众包原始文本输入到BERT中得到的词嵌入表示,再将改词嵌入表示输入到在源域上训练得出的映射得到的。其中,因为有多个源域会训练得到多个映射所以最终的目标域的对齐数据表示将是根据所有源域映射输出的结果的平均表示得出。
其中,N表示源域和目标域的总个数之和,N-1表示源域的总个数。
步骤50,如图4所示,将输入到Transformer模型的编码器中,将或者输入到双向门控循环网络中,将输入到解码器中,对TTGCIF模型进行训练,该训练过程中模型根据语义关联性使模型训练直到损失函数Lxy和损失函数Lay同时收敛。其中,→表示在训练的生成过程中,或输入模型后产生的输出将根据损失函数与尽可能的相同;
为TTGCIF模型的输出的文本生成概率向量,TE(.)表示编码器端输入的是Transformer编码器;Pgen表示指针生成器网络产生的生成概率,wt表示输入至Transformer解码器的中的第t个标记;Pvocab(.)表示词汇分布,Pcopy表示复制分布概率,σ表示Sigmod激活函数,T为转置,表示编码器里8个子层中最后一个子层的输出,st表示解码器里8个子层中最后一个子层的输出,为at中第i'个数据,at为中的第t个标记输入至Transformer解码器后,解码器最后一个子层中多头注意力模块输出的注意力权重分布向量,I表示at中数据的总个数;linear表示线性层,wh,ws,wx,bptr,w和Pvocab均表示学习参数。
词汇分布Pvocab是通过计算的,用Softmax激活函数来确定解码器输出列表上的标记分布。复制分布概率Pcopy被计算用于根据注意力权重at确定未登陆词,即模型的输入文本中存在的没有包含在用于生成查询的词表中的词汇(Out-of-Vocabulary,OOV)标记的分布。最终根据这两个分布Pvocab和Pcopy,在第t步从扩展的词汇(扩展的词汇:扩展的词汇是由原始词表+拓展词组成的。原始词表是TTGCIF模型自带的,是一个由一定量的单词组成的序列;拓展词是将输入的文本先进行分词,再将分完的词与原始词表做比较,如果不包含在原始词表中就作为拓展词)表中选择一个合适的标记进行输出。
在公式(4)中,针对使用损失函数Lxy,将众包文作为输入到Transformer编码器中,即使Transformer解码器生成的集成文本与源域或目标域的众包集成文本接近。指将的表示输入Bi-GRU后输出隐藏状态接近域d中的原始众包文件输入Transformer编码器后输出的隐藏状态也就是说双向循环网络的输出的和要相接近也就是约等于。D是均方误差(MSE)。根据公式(4)当给定域d中的语义原型时,在最小化Lxy后,可以在域d内建立隐性语义关联,即
在公式(5)中,针对使用损失函数Lay,将语义注释输入到Bi-GRU中,即使Transformer解码器生成的集成文本与源域或目标域的众包集成文本接近。的表示被输入到Bi-GRU,即通过MSE度量接近根据公式(5)当给定领域d中的语义原型时,在最小化Lay后,可以在领域d内建立另一个隐含的语义关联,即
步骤503,在公式(6)中将步骤501中定义的损失函数Lxy和步骤502中定义的损失函数Lay合并构建一个复合损失函数Ltotal。
Ltotal=Lxy+Lay (6)
步骤60,从N个源域中随机抽取K条语义原型,得到N*K条语义原型,将该N*K条语义原型作为训练任务数据集;训练任务数据集中的一半数据划分为支持集,另一半数据划分为查询集;重复步骤6,直到源域的所有的语义原型都被抽取过,得到若干个训练任务数据集。
步骤70,在步骤50训练所得模型的参数的基础上,模型TTGCIF冻结Bi-GRU部分,只保留Transformer编码器和Transformer解码器继续采用如下损失函数训练:
其中,表示在步骤50中训练中所使用的损失函数;-logP表示在步骤50中模型训练使用的是交叉熵损失函数;表示将输入到Transformer的编码器中;表示模型的输出;Pgen表示指针生成器网络产生的生成概率;Pvocab表示从词表中生成词汇的生成概率;Pcopy表示从输入中复制词汇的概率;表示损失函数的目的是为了让模型的输出与尽可能的相同。
在公式(8)中,TTGCIF的初始参数Θ0被更新为步骤50训练所得的参数,模型的未更新前(已经经历过步骤50没有经历过步骤70)的原始参数被复制保留为Θorigin。然后,将步骤60获取的训练任务集中的每一个训练任务中的支持集数据输入到模型TTGCIF中,对模型的参数Θ(编码器和解码器中的参数)进行梯度更新。
其中,Θ表示模型的参数;Θ0←ΘZero-Shot表示将模型的初始参数Θ0更新为步骤50训练所得的参数;ΘOrigin←Θ表示模型每次在使用支持集数据训练前将模型的参数Θ更新为上一次保留的参数ΘOrigin;表示第m个训练任务数据集中的支持集数据;表示当前支持集数据中的来自第i1个源域的第j1个众包原始文本数据;表示当前支持集数据中的来自第i1个源域的第j1个众包集成文本数据;η表示参数更新求导过程中的超参数。
在公式(9)中,迁移式生成型众包文本集成模型TTGCIF的保留的参数Θorigin,将使用步骤60获取的训练任务数据集中的每一个训练任务中的查询集数据,沿着步骤70中获取的模型参数Θ提供的梯度方向进行更新。在使用训练任务集中的所有数据训练完成后,得到最终的模型参数。
其中,表示第m个训练任务数据集中的查询集数据;表示当前查询集数据中的来自第i2个源域的第j2个众包原始文本数据;表示当前查询集数据中的来自第i2个源域的第j2个众包集成文本数据;η表示参数更新求导过程中的超参数。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
Claims (6)
1.一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,包括如下步骤:
步骤1:对Transformer模型进行改进:在Transformer模型中加入指针生成器网络和双向门控循环网络,并在Transformer模型中的编码器和解码器的每一层的前馈网络后连接适配器层;得到改进后的模型TTGCIF模型;
步骤2:构建源域文本数据集和目标域文本数据集中的每个<众包原始文本,众包集成文本>的语义原型z,z=[xd,yd,ad],x表示众包原始文本,y表示众包集成文本,a表示众包原始文上的语义注释文本;d∈{Source,Target},Source表示源域,Target表示目标域;
步骤3:对z中每个文本做词嵌入处理:对xd和ad进行词嵌入处理得到和且的向量形式满足Transformer模型中编码器的格式要求,的向量形式满足双向门控循环网络的格式要求;对yd单独进行两次词嵌入处理,第一次词嵌入处理后得到的的向量形式满足双向门控循环网络的格式要求,第二次词嵌入处理后得到的的向量形式满足Transformer模型中解码器的格式要求;
步骤6:从N个源域中随机抽取K条语义原型,得到N*K条语义原型,将该N*K条语义原型作为训练任务数据集;将训练任务数据集中的一半数据划分为支持集,另一半数据划分为查询集;重复步骤6,直到源域的所有的语义原型都被抽取过,得到若干个训练任务数据集;
步骤7:将步骤5中训练好的TTGCIF模型中的双向门控循环网络的参数固定不动,基于步骤5中训练好的TTGCIF模型参数,采用步骤6中的支持集和查询集对编码器和解码器进行训练;
步骤8:对步骤7中训练好的编码器和解码器的参数进行调整,得到最终的TTGCIF模型;
步骤9:将需要提取集成文本的众包原始文本输入至步骤8的TTGCIF模型中,得到对应的众包集成文本。
2.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述步骤1中的解码器从输入至输出包括8个子层,双向门控循环网络的输出通过一个全连接层与解码器的第2个子层的输入端连接;指针生成器网络用于和Transformer解码器共同计算生成概率。
3.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述目标域的众包集成文本yTarget采用如下方法获得:将目标域的众包原始文本xtarget的每个子句分成单词序列,按照子句中单词的数量,从高到低选择u个子句作为目标域的众包伪集成文本,也既yTarget;u为源域中每个众包集成文本长度除以源域中相应的众包原始文本长度的均值。
5.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述步骤5中基于如下损失函数对TTGCIF模型进行训练:
pgen表示指针生成器网络产生的生成概率,wt表示输入至Transformer解码器的中的第t个标记;Pvocab(.)表示词汇分布,Pcopy表示复制分布概率,σ表示Sigmod激活函数,T为转置,表示编码器里8个子层中最后一个子层的输出,st表示解码器里8个子层中最后一个子层的输出,为at中第i'个数据,at为中的第t个标记输入至Transformer解码器后,解码器最后一个子层中多头注意力模块输出的注意力权重分布向量,I表示at中数据的总个数;linear表示线性层,wh,ws,wx,bptr,w和bvocab均表示学习参数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210237867.3A CN114662659B (zh) | 2022-03-11 | 2022-03-11 | 一种基于多阶段迁移学习策略综合的众包文本集成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210237867.3A CN114662659B (zh) | 2022-03-11 | 2022-03-11 | 一种基于多阶段迁移学习策略综合的众包文本集成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114662659A true CN114662659A (zh) | 2022-06-24 |
CN114662659B CN114662659B (zh) | 2022-09-16 |
Family
ID=82029528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210237867.3A Active CN114662659B (zh) | 2022-03-11 | 2022-03-11 | 一种基于多阶段迁移学习策略综合的众包文本集成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114662659B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081752A (zh) * | 2022-08-11 | 2022-09-20 | 浙江君同智能科技有限责任公司 | 黑灰产众包流量预测装置及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247972A (zh) * | 2017-06-29 | 2017-10-13 | 哈尔滨工程大学 | 一种基于众包技术的分类模型训练方法 |
US20180359132A1 (en) * | 2017-06-07 | 2018-12-13 | Accenture Global Solutions Limited | Integration platform for multi-network integration of service platforms |
US20190026604A1 (en) * | 2017-07-19 | 2019-01-24 | Tata Consultany Services Limited | Crowdsourcing and deep learning based segmenting and karyotyping of chromosomes |
WO2021190236A1 (zh) * | 2020-03-23 | 2021-09-30 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
US20210303803A1 (en) * | 2020-03-25 | 2021-09-30 | International Business Machines Corporation | Text style transfer using reinforcement learning |
-
2022
- 2022-03-11 CN CN202210237867.3A patent/CN114662659B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180359132A1 (en) * | 2017-06-07 | 2018-12-13 | Accenture Global Solutions Limited | Integration platform for multi-network integration of service platforms |
CN107247972A (zh) * | 2017-06-29 | 2017-10-13 | 哈尔滨工程大学 | 一种基于众包技术的分类模型训练方法 |
US20190026604A1 (en) * | 2017-07-19 | 2019-01-24 | Tata Consultany Services Limited | Crowdsourcing and deep learning based segmenting and karyotyping of chromosomes |
WO2021190236A1 (zh) * | 2020-03-23 | 2021-09-30 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
US20210303803A1 (en) * | 2020-03-25 | 2021-09-30 | International Business Machines Corporation | Text style transfer using reinforcement learning |
Non-Patent Citations (1)
Title |
---|
仲秋雁等: "考虑工人参与意愿影响因素的竞争式众包任务推荐方法", 《系统工程理论与实践》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081752A (zh) * | 2022-08-11 | 2022-09-20 | 浙江君同智能科技有限责任公司 | 黑灰产众包流量预测装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114662659B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508462B (zh) | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 | |
CN110737769B (zh) | 一种基于神经主题记忆的预训练文本摘要生成方法 | |
CN114201581B (zh) | 一种基于对比学习的长文本检索模型 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN114048350A (zh) | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 | |
CN113051399B (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
CN111414481A (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
Yu et al. | Acoustic modeling based on deep learning for low-resource speech recognition: An overview | |
CN114880461A (zh) | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN114840688A (zh) | 一种计算机构建的嵌入式对齐方法 | |
CN111061951A (zh) | 一种基于双层自注意力评论建模的推荐模型 | |
CN114925195A (zh) | 一种融合词汇编码与结构编码的标准内容文本摘要生成方法 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN114218928A (zh) | 一种基于图知识和主题感知的抽象文本摘要方法 | |
CN111401003B (zh) | 一种外部知识增强的幽默文本生成方法 | |
CN115374270A (zh) | 一种基于图神经网络的法律文本摘要生成方法 | |
CN112347761A (zh) | 基于bert的药物关系抽取方法 | |
CN114662659B (zh) | 一种基于多阶段迁移学习策略综合的众包文本集成方法 | |
CN113641854B (zh) | 一种将文字转化为视频的方法及系统 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN113434698B (zh) | 基于全层级注意力的关系抽取模型建立方法及其应用 | |
CN114757177A (zh) | 一种基于bart融合指针生成网络的文本摘要方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |