CN115310622B - 一种基于自适应专家系统的智能问答方法 - Google Patents

一种基于自适应专家系统的智能问答方法 Download PDF

Info

Publication number
CN115310622B
CN115310622B CN202211243870.2A CN202211243870A CN115310622B CN 115310622 B CN115310622 B CN 115310622B CN 202211243870 A CN202211243870 A CN 202211243870A CN 115310622 B CN115310622 B CN 115310622B
Authority
CN
China
Prior art keywords
layer
gradient
expert system
answer
modulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211243870.2A
Other languages
English (en)
Other versions
CN115310622A (zh
Inventor
毛震东
张勇东
王泉
彭奕兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Beijing University of Posts and Telecommunications
Original Assignee
University of Science and Technology of China USTC
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, Beijing University of Posts and Telecommunications filed Critical University of Science and Technology of China USTC
Priority to CN202211243870.2A priority Critical patent/CN115310622B/zh
Publication of CN115310622A publication Critical patent/CN115310622A/zh
Application granted granted Critical
Publication of CN115310622B publication Critical patent/CN115310622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及自然语言理解技术领域,公开了一种基于自适应专家系统的智能问答方法,对任意的输入实例,基于模型的梯度来计算一个嵌入表示,并用这个基于梯度的嵌入表示来自适应地对专家进行调制;以这种方式,自适应专家系统将能充分适应于输入的实例,捕捉实例的特性,从而数据集的特性也隐式地进行了表达。

Description

一种基于自适应专家系统的智能问答方法
技术领域
本发明涉及自然语言理解技术领域,具体涉及一种基于自适应专家系统的智能问答方法。
背景技术
机器阅读理解使得机器能够阅读一段文本并回答给定问题,是机器迈向更高级智能的重要步骤。过去几年,随着深度学习技术的发展,尤其是预训练语言模型,机器阅读理解已经取得了长足的进步。日渐增加的机器阅读理解数据集也带来了一个问题:是否能结合多个数据集建立一个模型,使得其不仅能够在训练分布上表现得好,而且也能很好地泛化迁移到新的分布上。
最直接的解决办法就是同时在多个数据集上进行训练,使模型能够建模跨数据集的规律。然而这种多数据集训练的方法可能会在不同的数据集上过拟合或欠拟合,并且迁移泛化的效果可能不如直接在与测试分布更相似的单个源数据集上进行训练。
为了解决多数据集训练的问题,最近有方法提出在预训练模型上训练一组专家系统分别学习建模不同数据集特性,但是这种多专家系统范式存在着一些缺点,首先,每个数据集都需分配一个专家,因此专家数量会随着数据集增加而增加;更重要的是,对于未见过的数据集的专家参数将由训练数据集的专家参数的平均来估计,这在实际场景中并不合理,因为并不总能假设新的分布可以被训练分布的加权平均所简单描述。
发明内容
为解决上述技术问题,本发明提供一种基于自适应专家系统的智能问答方法,训练单个专家,可以自动适应于来自所有数据集的每个实例。
为解决上述技术问题,本发明采用如下技术方案:
一种基于自适应专家系统的智能问答方法,自适应专家系统包括:
基本模型(θ,α),包括基于Transformer的问答模块θ和瓶颈结构适配器α;基于Transformer的问答模块θ包括预训练Transformer编码器,Transformer编码器包括多个Transformer层;在每一个Transformer层中插入两个所述的瓶颈结构适配器α;瓶颈结构适配器α包括依次设置的下投影层、GeLU非线性层、上投影层;
调制层β,添加至各瓶颈结构适配器α的下投影层之后以及上投影层之后,用于通过实例级别调制信号来调节上投影层和下投影层的输出;
基于梯度的调制器γ,用于产生所述的实例级别调制信号;
自适应专家系统的训练方法包括两个阶段:
第一阶段,训练基本模型(θ,α):通过在所有源数据集DS上计算交叉熵损失一
Figure DEST_PATH_IMAGE001
对基本模型(θ,α)进行训练:
Figure 53199DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE003
表示给定问题q和上下文c情况下得到真实回答a的概率,
Figure 409094DEST_PATH_IMAGE004
为基本模型中回答开始位置概率
Figure DEST_PATH_IMAGE005
和回答结束位置概率
Figure 403726DEST_PATH_IMAGE006
的乘积,
Figure DEST_PATH_IMAGE007
Figure 390137DEST_PATH_IMAGE008
分别表示回答a的开始位置标记和结束位置标记;
第二阶段,冻结基本模型(θ,α),在所有的源数据集DS上调试调制层β和调制器γ:给定一个训练实例
Figure DEST_PATH_IMAGE009
,首先用基本模型(θ,α)来提取梯度,然后将训练实例
Figure 555539DEST_PATH_IMAGE010
和提取的梯度输入至自适应专家系统(θ,α,β,γ)对回答进行预测,采用交叉熵损失二
Figure DEST_PATH_IMAGE011
调制β和γ:
Figure 722250DEST_PATH_IMAGE012
其中
Figure DEST_PATH_IMAGE013
,用来标记自适应专家系统预测得到回答a的概率;
Figure 23919DEST_PATH_IMAGE014
为自适应专家系统中回答开始位置概率,
Figure DEST_PATH_IMAGE015
为自适应专家系统中回答结束位置概率;
自适应专家系统(θ,α,β,γ)完成训练后,将待回答的实例输入基本模型(θ,α)中提取梯度,然后将待回答的实例和梯度输入自适应专家系统(θ,α,β,γ)对回答进行预测。
具体地,下投影层后的调制层为第一调制层,上投影层后的调制层为第二调制层;调制层β通过实例级别调制信号来调节上投影层和下投影层的输出时,过程如下:
第一调制层的输出
Figure 977968DEST_PATH_IMAGE016
第二调制层的输出
Figure DEST_PATH_IMAGE017
Figure 115820DEST_PATH_IMAGE018
其中
Figure DEST_PATH_IMAGE019
分别为瓶颈结构适配器的m维输入和输出,MLP为用于维度映射的多层感知机,
Figure 813517DEST_PATH_IMAGE020
分别是下投影层和上投影层的参数,
Figure DEST_PATH_IMAGE021
分别是第一调制层所用到的实例级别调制信号、第二调制层所用到的实例级别调制信号,[;]为串接操作,GeLU()为GeLU非线性层的输出。
具体地,使用基于梯度的调制器γ产生实例级别调制信号时,包括以下步骤:
步骤一:将每个实例输入基本模型,预测回答开始位置分布和结束位置的分布;
步骤二:从开始位置的分布和结束位置的分布中采样出伪标签,并根据伪标签和预测分布计算交叉熵损失;
步骤三:提取交叉熵损失关于瓶颈结构适配器α的梯度,将提取到的瓶颈结构适配器的梯度从底层到顶层排列成梯度序列,并使用GRU对梯度序列进行编码为隐状态,然后将隐状态输入至MLP多层感知机得到所述的实例级别调制信号。
具体地,产生实例级别调制信号的步骤三具体包括:问答模块有L个Transformer层,每层有两个瓶颈结构适配器,用
Figure 235271DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
来分别标记第
Figure 609490DEST_PATH_IMAGE024
个Transformer层的第一个瓶颈结构适配器的梯度绝对值和第二个瓶颈结构适配器的梯度绝对值;
将提取到的2L个瓶颈结构适配器的梯度,按从底层到顶层的顺序排列为一个梯度序列
Figure DEST_PATH_IMAGE025
,使用GRU将梯度序列编码为与梯度序列各元素对应的隐状态记为
Figure 280643DEST_PATH_IMAGE026
对于每个
Figure DEST_PATH_IMAGE027
,使用两个MLP多层感知机分别产生两个实例级别调制信号
Figure 470447DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
,用于第
Figure 746707DEST_PATH_IMAGE030
层Transformer中的第i个适配器,实例级别调制信号
Figure 245822DEST_PATH_IMAGE028
用于下投影层之后的调制层,实例级别调制信号
Figure 138691DEST_PATH_IMAGE029
用于上投影层之后的调制层。
进一步地,自适应专家系统训练的第二阶段过程中,除交叉熵损失二
Figure 584716DEST_PATH_IMAGE011
外,额外引入对比学习损失
Figure DEST_PATH_IMAGE031
,将第二阶段的损失函数替换为
Figure 27068DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
其中λ是
Figure 697083DEST_PATH_IMAGE034
Figure 546091DEST_PATH_IMAGE031
的权衡因子;
给定实例
Figure DEST_PATH_IMAGE035
,经过GRU编码后表征为隐状态
Figure 140014DEST_PATH_IMAGE036
,来自相同数据集的实例作为正样本
Figure DEST_PATH_IMAGE037
,来自不同数据集的实例作为负样本
Figure 390867DEST_PATH_IMAGE038
,对比学习损失
Figure 497363DEST_PATH_IMAGE031
被定义为:
Figure DEST_PATH_IMAGE039
Figure 817355DEST_PATH_IMAGE040
是两个向量表征之间的余弦相似度,
Figure DEST_PATH_IMAGE041
是温度参数,
Figure 198658DEST_PATH_IMAGE042
为正样本
Figure 569596DEST_PATH_IMAGE037
中的实例编码后的隐状态,
Figure DEST_PATH_IMAGE043
为负样本
Figure 332147DEST_PATH_IMAGE038
中的实例编码后的隐状态。
具体地,所述Transformer层包括一个多头自注意力层和一个全连接前馈层,两个瓶颈结构适配器分别插入在多头自注意力层之后以及全连接前馈层之后。
与现有技术相比,本发明的有益技术效果是:
本发明提出了基于自适应专家系统的多数据集问答方法,在共享的Transformer问答模块上构建了一个自适应专家模块,可以根据每个实例的梯度自适应地对其进行调制;自适应专家模块可以建模跨数据集的规律性,最突出的优势是能够很好地适应来自任何未见过的给定数据集的实例。此外,本发明的恒定额外参数是另一个优势,可用于未来具有大量数据集的场景。
本发明进一步设计了一种对比学习机制,以增强来自不同数据集中的调制信号的可辨识性,从而实现更好的调制。
附图说明
图1为本发明自适应专家系统的示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
机器阅读理解是文本问答的一个基础任务,以上下文c为基础,为给定的问题q找到一个回答a。抽取式机器阅读理解中,每个问题的回答被约束为上下文c中的一个连续片段,即:
Figure 421326DEST_PATH_IMAGE044
,其中i和j是回答的开始和结束位置。
考虑多数据集机器阅读理解场景,给定来自不同分布的多个源数据集DS和目标数据集DT,每个数据集由形式为
Figure DEST_PATH_IMAGE045
三元组的标注实例组成。目标是要在源数据集DS上训练一个模型,实现不错的领域内表现,同时能够在未见过的目标数据集DT上实现较好的迁移效果。
本发明提出了一种基于自适应专家系统的多数据集问答方法,包括以下三个部分:共享的基于Transformer的问答模块、自适应专家模块、模型训练。
1.共享的基于Transformer的问答模块
共享的基于Transformer的问答模块采用一个预训练Transformer编码器和一个线性问答层,是基本的机器阅读理解框架,Transformer编码器由一个嵌入层和一组L个连续的Transformer层构成。每个Transformer层有两个子层:一个多头自注意力层和一个全连接前馈层,都包裹在残差连接和层正则化中。在图1左边部分提供了关于Transformer编码器的简单结构。Transformer编码器采用问题q和上下文c作为输入,并产生它们的深度上下文化后的表征。经过Transformer编码器的编码过程后,搭建了一个线性输出层,随后进行一个标准softmax操作,来预测上下文中的每个片段
Figure 278423DEST_PATH_IMAGE046
作为回答的开始位置的概率
Figure DEST_PATH_IMAGE047
和结束位置的概率
Figure 815453DEST_PATH_IMAGE048
,线性问答层包括所述线性输出层和标准softmax操作。这个基于Transformer的问答模块,记为θ,被所有来自源数据集DS的训练数据集所共享,并因此可以建模跨数据集的规律。
2.自适应专家模块
接下来介绍建立在基于Transformer的问答模块上的自适应专家模块,它可以捕捉来自源数据集DS的不同训练数据集的特性。本发明中,自适应专家模块是一系列轻量级适配器模块,交错在Transformer编码器的各Transformer层之间,同时具有一个突出的特性,即它可以根据每个输入实例的梯度自适应地进行调整。借助此特性,自适应专家模块将能够对每个实例的特异性进行编码,并使整个模型充分适应该实例;具体地,自适应专家模块包括可调适配器和基于梯度的调制器。
2.1可调适配器
适配器通常是指轻量级的、特定于任务的模块,交错在预训练Transformer编码器的Transformer层之间而不改变其原始结构。本发明中的可调适配器是作为普通微调参数方案的高效替代方案:仅在冻结的Transformer层上训练适配器,而不是微调整个Transformer层。这表明对于特定的下游任务,可调适配器能够捕获任务的特性,因为Transformer层是冻结的,并且在各种任务中共享。鉴于此,本发明主要基于适配器设计的专家,但本发明中的适配器具有可调整的特性,可以自动适应来自不同数据集的单个实例,因此能更好地泛化到没见过的数据集中。
图1展示了可调适配器的结构以及是如何被插入到Transformer层中的。可调适配器包括在每一个Transformer层中插入的两个传统瓶颈结构适配器,以及每个瓶颈结构适配器中的调制层。具体来说,在每一个Transformer层中插入两个瓶颈结构适配器,其中一个在多头自注意力层之后,另一个在全连接前馈层之后,它们都处于残差连接和层正则化之前。
本实施例中,适配器是标准的瓶颈结构,由下投影层和上投影层和中间的GeLU非线性层构成。下投影层将原始的高维特征投影到低维空间,而非线性层之后的上投影层将其投影回原始的维度。本发明中的可调适配器在这个瓶颈结构基础上,分别在下投影层和上投影层之后插入了两个调制层。每个调制层用一个实例级别的调制信号来调节投影过后的输出,实例级别的调制信号由基于梯度的调制器产生。通过引入实例级别的调制信号,调制层能够使得适配器自动根据每个输入实例进行自我调节,这也是可调适配器最显著的特性。调节过程如下:
Figure DEST_PATH_IMAGE049
Figure 732593DEST_PATH_IMAGE050
Figure 309068DEST_PATH_IMAGE018
其中
Figure 438698DEST_PATH_IMAGE051
分别为瓶颈结构适配器的m维输入和输出,输出即关于给定问题或上下文中的一个具体片段(token);
Figure 784229DEST_PATH_IMAGE052
分别是下投影层和上投影层的参数;
Figure 154161DEST_PATH_IMAGE053
分别是下投影层后和上投影层后的两个调制层所用到的实例级别的调制信号;MLP是一个用于维度映射的多层感知机,
Figure 952353DEST_PATH_IMAGE054
是两个调制层的输出;[;]是串接操作。将可调适配器分为传统瓶颈结构适配器α部分和添加的调制层β部分。
2.2基于梯度的调制器
使用一个基于梯度的调制器来产生在可调适配器中使用的实例级别的调制信号。为提取梯度,考虑一个基本模型(θ,α),由共享的基于Transformer的问答模块(记为θ)和每层插入的两个传统瓶颈结构适配器(记为α)构成。将每个实例(即问题q和支持上下文c),输入基本模型,并预测回答的开始和结束位置的分布,即
Figure 885674DEST_PATH_IMAGE055
Figure 85711DEST_PATH_IMAGE056
。从这开始位置和结束位置的分布中采样出伪标签,并根据伪标签和预测分布计算交叉熵损失。之后,提取交叉熵损失关于适配器α的梯度。由于问答模块有L个Transformer层,每层有两个适配器,这里用
Figure 875813DEST_PATH_IMAGE057
Figure 364563DEST_PATH_IMAGE058
来分别标记在第
Figure 147580DEST_PATH_IMAGE059
个Transformer层的多头自注意力层之后的适配器和全连接前馈层之后的适配器的梯度绝对值。
经过梯度提取,将提取到的2L个从底层到顶层的适配器的梯度排列成一个梯度序列
Figure 467703DEST_PATH_IMAGE025
,并使用一个GRU对梯度序列进行编码。GRU编码的序列特性使信息得以从底层流向高层,能够使得在顶层产生更具表达力的编码输出。经过GRU编码的对应于梯度序列元素的隐状态记为
Figure 163126DEST_PATH_IMAGE060
。对于每个
Figure 139173DEST_PATH_IMAGE061
,使用两个MLP来产生两个调制信号
Figure 211034DEST_PATH_IMAGE028
Figure 136396DEST_PATH_IMAGE029
,用于对应的可调适配器,即用于第
Figure 268300DEST_PATH_IMAGE059
层Transformer中的第i个可调适配器,调制信号
Figure 466063DEST_PATH_IMAGE028
用于下投影层之后的调制层,调制信号
Figure 607194DEST_PATH_IMAGE029
用于上投影层之后的调制层。将基于梯度的调制器记为γ。
3.模型训练
模型训练分为两阶段。在第一阶段,训练由共享的基于Transformer的问答模块θ和每个Transformer层插入两个的传统瓶颈结构适配器α构成的基本模型(θ,α)。在这些适配器中没有使用调制层,通过在所有源数据集DS上计算交叉熵损失一
Figure 370751DEST_PATH_IMAGE062
来进行θ和α的训练:
Figure 876819DEST_PATH_IMAGE002
其中
Figure 607883DEST_PATH_IMAGE063
表示给定问题q和上下文c情况下得到真实回答a的概率,
Figure 287126DEST_PATH_IMAGE064
定义为回答开始位置概率
Figure 170768DEST_PATH_IMAGE065
和回答结束位置概率
Figure 847737DEST_PATH_IMAGE066
的乘积,
Figure 816830DEST_PATH_IMAGE007
Figure 50497DEST_PATH_IMAGE008
分别表示回答a的开始位置标记和结束位置标记。经过第一阶段训练,可以得到一个基本模型来提供好的初始点,而且也能够在适配器调制过程中用于梯度的提取。
在第二阶段,冻结基本模型(θ,α),引入额外的适配器调制层β和基于梯度的调制器γ,一起形成了完整的自适应专家系统。第二阶段在所有的源数据集DS上调试β和γ。具体而言,给定一个训练实例
Figure 991908DEST_PATH_IMAGE009
,首先用基本模型(θ,α)来提取梯度,然后将这个训练实例和提取的梯度一起送入到自适应专家系统(θ,α,β,γ)来进行回答的预测。仍然采用交叉熵损失(交叉熵损失二
Figure 636516DEST_PATH_IMAGE011
来调制β和γ:
Figure 92905DEST_PATH_IMAGE067
这里
Figure 113951DEST_PATH_IMAGE013
,用来标记完整自适应专家系统预测得到回答a的概率;
Figure 175448DEST_PATH_IMAGE014
为自适应专家系统中回答开始位置概率,
Figure 974645DEST_PATH_IMAGE015
为自适应专家系统中回答结束位置概率。
除了交叉熵损失,进一步考虑一个对比学习损失
Figure 183910DEST_PATH_IMAGE068
,以便更好地区分来自源数据集DS中的不同数据集的实例的梯度。第二阶段的整个损失为:
Figure 743067DEST_PATH_IMAGE069
这里λ是两个损失项的权衡因子。
自适应专家系统的关键特性是它使用了一个能够根据实例的基于梯度的表征进行自适应调制的可调适配器。直觉上,这些来自相同数据集的实例的基于梯度的表征应该相互靠近,而那些来自不同数据集的实例的表征应该相互远离。基于这个直觉,引入一个对比学习损失。具体地,对每个实例,考虑经过GRU编码后的最后的隐状态
Figure 659070DEST_PATH_IMAGE070
作为实例级别的表征用于对比学习。给定实例
Figure 645481DEST_PATH_IMAGE035
,表征简化为
Figure 827195DEST_PATH_IMAGE036
,来自相同数据集的实例作为正样本,记为
Figure 127726DEST_PATH_IMAGE071
,那些来自不同数据集的实例作为负样本,记为
Figure 960553DEST_PATH_IMAGE072
。对比学习损失被定义为:
Figure 383444DEST_PATH_IMAGE073
这里
Figure 36142DEST_PATH_IMAGE040
是两个向量表征之间的余弦相似度,并且
Figure 186370DEST_PATH_IMAGE041
是温度参数,
Figure 76965DEST_PATH_IMAGE042
为正样本
Figure 405178DEST_PATH_IMAGE074
中的实例编码后的隐状态,
Figure 810752DEST_PATH_IMAGE043
为负样本
Figure 453086DEST_PATH_IMAGE038
中的实例编码后的隐状态。对比损失能增强不同数据集的实例级别的表征的区分度,从而使可调适配器产生更准确的调制。
在推理阶段,给定一个实例,将其输入到基本模型(θ,α)中并提取梯度,然后将实例和提取的梯度送入到自适应专家系统(θ,α,β,γ)来进行回答的预测。具有最大的
Figure 994926DEST_PATH_IMAGE075
的片段
Figure 510352DEST_PATH_IMAGE076
被选择为预测的回答。这个推理过程在包括领域内学习、少样本迁移和零样本泛化的三个设定下都是相同的。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于自适应专家系统的智能问答方法,其特征在于:自适应专家系统包括:
基本模型(θ,α),包括基于Transformer的问答模块θ和瓶颈结构适配器α;基于Transformer的问答模块θ包括预训练Transformer编码器,Transformer编码器包括多个Transformer层;在每一个Transformer层中插入两个所述的瓶颈结构适配器α;瓶颈结构适配器α包括依次设置的下投影层、GeLU非线性层、上投影层;
调制层β,添加至各瓶颈结构适配器α的下投影层之后以及上投影层之后,用于通过实例级别调制信号来调节上投影层和下投影层的输出;
基于梯度的调制器γ,用于产生所述的实例级别调制信号;
自适应专家系统的训练方法包括两个阶段:
第一阶段,训练基本模型(θ,α):通过在所有源数据集DS上计算交叉熵损失一
Figure 282745DEST_PATH_IMAGE001
对基本模型(θ,α)进行训练:
Figure 532591DEST_PATH_IMAGE002
其中
Figure 425461DEST_PATH_IMAGE003
表示给定问题q和上下文c情况下得到真实回答a的概率,
Figure 402644DEST_PATH_IMAGE004
为基本模型中回答开始位置概率
Figure 267832DEST_PATH_IMAGE005
和回答结束位置概率
Figure 937848DEST_PATH_IMAGE006
的乘积,
Figure 403219DEST_PATH_IMAGE007
Figure 184093DEST_PATH_IMAGE008
分别表示回答a的开始位置标记和结束位置标记;
第二阶段,冻结基本模型(θ,α),在所有的源数据集DS上调试调制层β和调制器γ:给定一个训练实例
Figure 903787DEST_PATH_IMAGE009
,首先用基本模型(θ,α)来提取梯度,然后将训练实例
Figure 744704DEST_PATH_IMAGE010
和提取的梯度输入至自适应专家系统(θ,α,β,γ)对回答进行预测,采用交叉熵损失二
Figure 612166DEST_PATH_IMAGE011
调制β和γ:
Figure 947464DEST_PATH_IMAGE012
其中
Figure 521665DEST_PATH_IMAGE013
,用来标记自适应专家系统预测得到回答a的概率;
Figure 533483DEST_PATH_IMAGE014
为自适应专家系统中回答开始位置概率,
Figure 357082DEST_PATH_IMAGE015
为自适应专家系统中回答结束位置概率;
自适应专家系统(θ,α,β,γ)完成训练后,将待回答的实例输入基本模型(θ,α)中提取梯度,然后将待回答的实例和梯度输入自适应专家系统(θ,α,β,γ)对回答进行预测。
2.根据权利要求1所述的基于自适应专家系统的智能问答方法,其特征在于:下投影层后的调制层为第一调制层,上投影层后的调制层为第二调制层;调制层β通过实例级别调制信号来调节上投影层和下投影层的输出时,过程如下:
第一调制层的输出
Figure 10918DEST_PATH_IMAGE016
第二调制层的输出
Figure 439625DEST_PATH_IMAGE017
Figure 871612DEST_PATH_IMAGE018
其中
Figure 448087DEST_PATH_IMAGE019
分别为瓶颈结构适配器的m维输入和输出,MLP为用于维度映射的多层感知机,
Figure 640034DEST_PATH_IMAGE020
分别是下投影层和上投影层的参数,
Figure 719985DEST_PATH_IMAGE021
分别是第一调制层所用到的实例级别调制信号、第二调制层所用到的实例级别调制信号,[;]为串接操作,GeLU()为GeLU非线性层的输出。
3.根据权利要求1所述的基于自适应专家系统的智能问答方法,其特征在于:使用基于梯度的调制器γ产生实例级别调制信号时,包括以下步骤:
步骤一:将每个实例输入基本模型,预测回答开始位置分布和结束位置的分布;
步骤二:从开始位置的分布和结束位置的分布中采样出伪标签,并根据伪标签和预测分布计算交叉熵损失;
步骤三:提取交叉熵损失关于瓶颈结构适配器α的梯度,将提取到的瓶颈结构适配器的梯度从底层到顶层排列成梯度序列,并使用GRU对梯度序列进行编码为隐状态,然后将隐状态输入至MLP多层感知机得到所述的实例级别调制信号。
4.根据权利要求3所述的基于自适应专家系统的智能问答方法,其特征在于:产生实例级别调制信号的步骤三具体包括:问答模块有L个Transformer层,每层有两个瓶颈结构适配器,用
Figure 542448DEST_PATH_IMAGE022
Figure 91372DEST_PATH_IMAGE023
来分别标记第
Figure 821431DEST_PATH_IMAGE024
个Transformer层的第一个瓶颈结构适配器的梯度绝对值和第二个瓶颈结构适配器的梯度绝对值;
将提取到的2L个瓶颈结构适配器的梯度,按从底层到顶层的顺序排列为一个梯度序列
Figure 21468DEST_PATH_IMAGE025
,使用GRU将梯度序列编码为与梯度序列各元素对应的隐状态记为
Figure 14832DEST_PATH_IMAGE026
对于每个
Figure 34740DEST_PATH_IMAGE027
,使用两个MLP多层感知机分别产生两个实例级别调制信号
Figure 83337DEST_PATH_IMAGE028
Figure 137880DEST_PATH_IMAGE029
,用于第
Figure 36566DEST_PATH_IMAGE030
层Transformer中的第i个适配器,实例级别调制信号
Figure 809350DEST_PATH_IMAGE028
用于下投影层之后的调制层,实例级别调制信号
Figure 146791DEST_PATH_IMAGE029
用于上投影层之后的调制层。
5.根据权利要求3所述的基于自适应专家系统的智能问答方法,其特征在于:自适应专家系统训练的第二阶段过程中,除交叉熵损失二
Figure 259103DEST_PATH_IMAGE011
外,额外引入对比学习损失
Figure 141739DEST_PATH_IMAGE031
,将第二阶段的损失函数替换为
Figure 401820DEST_PATH_IMAGE032
Figure 277372DEST_PATH_IMAGE033
其中λ是
Figure 306508DEST_PATH_IMAGE011
Figure 546996DEST_PATH_IMAGE034
的权衡因子;
给定实例
Figure 809219DEST_PATH_IMAGE035
,经过GRU编码后表征为隐状态
Figure 222883DEST_PATH_IMAGE036
,来自相同数据集的实例作为正样本
Figure 309787DEST_PATH_IMAGE037
,来自不同数据集的实例作为负样本
Figure 517915DEST_PATH_IMAGE038
,对比学习损失
Figure 752587DEST_PATH_IMAGE034
被定义为:
Figure 720674DEST_PATH_IMAGE039
Figure 662085DEST_PATH_IMAGE040
是两个向量表征之间的余弦相似度,
Figure 572273DEST_PATH_IMAGE041
是温度参数,
Figure 28662DEST_PATH_IMAGE042
为正样本
Figure 987391DEST_PATH_IMAGE037
中的实例编码后的隐状态,
Figure 845625DEST_PATH_IMAGE043
为负样本
Figure 175981DEST_PATH_IMAGE038
中的实例编码后的隐状态。
6.根据权利要求1所述的基于自适应专家系统的智能问答方法,其特征在于:所述Transformer层包括一个多头自注意力层和一个全连接前馈层,两个瓶颈结构适配器分别插入在多头自注意力层之后以及全连接前馈层之后。
CN202211243870.2A 2022-10-12 2022-10-12 一种基于自适应专家系统的智能问答方法 Active CN115310622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211243870.2A CN115310622B (zh) 2022-10-12 2022-10-12 一种基于自适应专家系统的智能问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211243870.2A CN115310622B (zh) 2022-10-12 2022-10-12 一种基于自适应专家系统的智能问答方法

Publications (2)

Publication Number Publication Date
CN115310622A CN115310622A (zh) 2022-11-08
CN115310622B true CN115310622B (zh) 2023-01-17

Family

ID=83868424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211243870.2A Active CN115310622B (zh) 2022-10-12 2022-10-12 一种基于自适应专家系统的智能问答方法

Country Status (1)

Country Link
CN (1) CN115310622B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备
CN109299237A (zh) * 2018-09-26 2019-02-01 苏州大学 基于行动者评论家强化学习算法的循环网络人机对话方法
CN111626063A (zh) * 2020-07-28 2020-09-04 浙江大学 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN112131366A (zh) * 2020-09-23 2020-12-25 腾讯科技(深圳)有限公司 训练文本分类模型及文本分类的方法、装置及存储介质
CN112199479A (zh) * 2020-09-15 2021-01-08 北京捷通华声科技股份有限公司 优化语言语义理解模型方法、装置、设备及存储介质
CN113051371A (zh) * 2021-04-12 2021-06-29 平安国际智慧城市科技股份有限公司 中文机器阅读理解方法、装置、电子设备及存储介质
CN113128206A (zh) * 2021-04-26 2021-07-16 中国科学技术大学 基于单词重要性加权的问题生成方法
CN114020862A (zh) * 2021-11-04 2022-02-08 中国矿业大学 一种面向煤矿安全规程的检索式智能问答系统及方法
CN114444488A (zh) * 2022-01-26 2022-05-06 中国科学技术大学 一种少样本机器阅读理解方法、系统、设备及存储介质
CN114490991A (zh) * 2022-01-28 2022-05-13 福州大学 基于细粒度局部信息增强的对话结构感知对话方法及系统
CN114648032A (zh) * 2022-05-23 2022-06-21 腾讯科技(深圳)有限公司 语义理解模型的训练方法、装置和计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4030355A1 (en) * 2021-01-14 2022-07-20 Naver Corporation Neural reasoning path retrieval for multi-hop text comprehension
US20220292262A1 (en) * 2021-03-10 2022-09-15 At&T Intellectual Property I, L.P. System and method for hybrid question answering over knowledge graph

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备
CN109299237A (zh) * 2018-09-26 2019-02-01 苏州大学 基于行动者评论家强化学习算法的循环网络人机对话方法
CN111626063A (zh) * 2020-07-28 2020-09-04 浙江大学 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN112199479A (zh) * 2020-09-15 2021-01-08 北京捷通华声科技股份有限公司 优化语言语义理解模型方法、装置、设备及存储介质
CN112131366A (zh) * 2020-09-23 2020-12-25 腾讯科技(深圳)有限公司 训练文本分类模型及文本分类的方法、装置及存储介质
CN113051371A (zh) * 2021-04-12 2021-06-29 平安国际智慧城市科技股份有限公司 中文机器阅读理解方法、装置、电子设备及存储介质
CN113128206A (zh) * 2021-04-26 2021-07-16 中国科学技术大学 基于单词重要性加权的问题生成方法
CN114020862A (zh) * 2021-11-04 2022-02-08 中国矿业大学 一种面向煤矿安全规程的检索式智能问答系统及方法
CN114444488A (zh) * 2022-01-26 2022-05-06 中国科学技术大学 一种少样本机器阅读理解方法、系统、设备及存储介质
CN114490991A (zh) * 2022-01-28 2022-05-13 福州大学 基于细粒度局部信息增强的对话结构感知对话方法及系统
CN114648032A (zh) * 2022-05-23 2022-06-21 腾讯科技(深圳)有限公司 语义理解模型的训练方法、装置和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bilingual Question Answering System Using Bidirectional Encoder Representations from Transformers and Best Matching Method;Dini Adni Navastara et al;《2021 13th International Conference on Information & Communication Technology and System (ICTS)》;20211021;全文 *
基于BERT和TF-IDF的问答社区问句自动标引研究;唐晓波等;《情报科学》;20200827;全文 *

Also Published As

Publication number Publication date
CN115310622A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN109241536B (zh) 一种基于深度学习自注意力机制的句子排序方法
CN111694924B (zh) 一种事件抽取方法和系统
CN109840322B (zh) 一种基于强化学习的完形填空型阅读理解分析模型及方法
CN110265098A (zh) 一种病例管理方法、装置、计算机设备及可读存储介质
US20230325725A1 (en) Parameter Efficient Prompt Tuning for Efficient Models at Scale
CN113609965B (zh) 文字识别模型的训练方法及装置、存储介质、电子设备
Guo et al. The emergence of compositional languages for numeric concepts through iterated learning in neural agents
Ahmad et al. Ligature based Urdu Nastaleeq sentence recognition using gated bidirectional long short term memory
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN112949929A (zh) 一种基于协同嵌入增强题目表示的知识追踪方法及系统
CN114969298A (zh) 一种基于跨模态异质图神经网络的视频问答方法
CN116227560A (zh) 基于DTW-former的时间序列预测模型及方法
CN107944468A (zh) 基于隐空间编码的零样本学习分类方法
CN115310622B (zh) 一种基于自适应专家系统的智能问答方法
Fleuret The little book of deep learning
Kim et al. Label propagation adaptive resonance theory for semi-supervised continuous learning
CN110069666B (zh) 基于近邻结构保持的哈希学习方法和装置
US20230281400A1 (en) Systems and Methods for Pretraining Image Processing Models
CN114495114B (zh) 基于ctc解码器的文本序列识别模型校准方法
CN115578680A (zh) 一种视频理解方法
CN112256858B (zh) 融合问题模式和答题结果的双卷积知识追踪方法及系统
CN114266340A (zh) 一种引入自注意力机制的知识查询网络模型
CN114357186A (zh) 基于交互式概率编码的实体抽取方法、装置、介质和设备
CN114519469B (zh) 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法
Jiang et al. LG-MLFormer: local and global MLP for image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant