CN115455162A - 层次胶囊与多视图信息融合的答案句子选择方法与装置 - Google Patents

层次胶囊与多视图信息融合的答案句子选择方法与装置 Download PDF

Info

Publication number
CN115455162A
CN115455162A CN202211113668.8A CN202211113668A CN115455162A CN 115455162 A CN115455162 A CN 115455162A CN 202211113668 A CN202211113668 A CN 202211113668A CN 115455162 A CN115455162 A CN 115455162A
Authority
CN
China
Prior art keywords
information
capsule
layer
answer
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211113668.8A
Other languages
English (en)
Inventor
杨鹏
李冰
易梦
孙元康
吉顺航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211113668.8A priority Critical patent/CN115455162A/zh
Publication of CN115455162A publication Critical patent/CN115455162A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种层次胶囊与多视图信息融合的答案句子选择方法与装置。首先,对互联网中的包含多个答案的问题文本进行采集和预处理;接着,采用层次胶囊网络,通过其渐进聚合的特征,对编码输出的表征进行信息聚合和单词聚合,保证了有效信息的准确传递,且能使用同一特征进行参数传递;然后,为了解决微调步骤的不稳定性和使用预训练模型的最终输出仅能预测单一标签的问题,通过使用多视图信息融合方法,计算整个BERT编码中间层输出的权重来对学习信息进行加权。本发明能够改善以往答案句子选择方法中忽略了模型内部多层中间输出对答案句子选择的影响、仅能预测单一结果等问题,进而提升答案句子选择的准确性和高效性。

Description

层次胶囊与多视图信息融合的答案句子选择方法与装置
技术领域
本发明涉及一种层次胶囊与多视图信息融合的答案句子选择方法与装置,属于互联网和人工智能技术领域。
背景技术
随着互联网技术的飞速发展,答案句子选择成为信息检索和自然语言处理领域的一个重要子任务,并被应用于许多功能领域,其中应用最为广泛的是社区型问答(Community Question Answering,CQA)。答案选择任务的目标是给定一个问题和相对应的候选答案列表,根据其与给定问题的相关性选择准确的或排名第一的答案,将其视为正确答案。然而,一个问题通常有许多答案,其中包含大量的不相关信息。要从所提供的不同质量的长串答案中找到想要的核心信息可能是非常耗时且困难的。因此,在社区型问答中,根据问题,对答案中的句子进行全面分析并有效地捕捉问题与答案之间的复杂语义关系,可以有效地帮助管理社区或获取有价值的信息。
传统的答案选择模型主要依靠特征工程、语言学工具或词法。这些方法主要是通过人工提取高质量的特征来计算问题之间的相似度。它需要大量具有专业知识的人力和手工操作,既费时又缺乏普适性。因此,为了减少特征工程的工作,深度学习模型的研究思路逐渐成为答案选择的主流。它们可以自动学习问题和答案中的特征以进行答案选择。然而,这类模型一般只考虑问题和答案中每个句子的上下文和语义信息,缺乏信息交互。为此,将注意力机制引入深度神经网络吸引了研究者的兴趣。通过注意力机制的引入,能够有效增加句子表征中相似部分的信息权重,从而更新问题和答案的上下文信息表征。尽管如此,基于注意力的模型也有一定的局限性。大多数模型从网络的隐藏状态中粗略地收集有用的信息,并将它们压缩到一个注意力向量中,但它们在捕捉问题和候选答案之间的各种细粒度方面是不够的。此外,单一的注意力向量可能不足以捕捉问题的不同方面,从而导致答案的不准确性。随着预训练模型的出现,由于其能够将丰富的常识编码到模型参数中,从而捕捉词与语境之间的语义关系,为各种下游任务提供更好的语义特征,因此受到研究者的广泛关注。然而大多数预训练模型都是使用模型的最终输出,并根据不同的任务在模型输出的上层增加相应的应对策略。这种方法忽略了模型内部多层的中间输出对答案句子选择的影响。
发明内容
针对现有技术中存在的问题与不足,本发明尝试通过胶囊网络来解决深度网络模型中因池化操作而丢弃有效信息的问题,且为了避免当句子信息分散而类别数量较少时,因步幅过大而导致信息的丢失产生不利于聚合的问题,提出了层次胶囊网络(HCN)方法。此方法可以聚合整个句子的长度和语义特征,不会因为聚合跨度大而造成信息损失和不匹配。基于此,本发明提出一种层次胶囊网络与多视图信息融合的答案句子选择方法,利用层次胶囊网络聚合整个句子的长度和语义特征,避免因聚合跨度大而造成信息损失和不匹配;并通过多视图信息融合方法使微调步骤趋于稳定且最终输出能预测多个标签,能够有效解决微调步骤的不稳定性和使用预训练模型的最终输出仅能预测单一标签的问题。
为实现上述发明目的,本发明通过以下技术方案来实现:
层次胶囊与多视图信息融合的答案句子选择方法,包括如下步骤:
步骤1:问答对文本采集
通过互联网采集包含多个答案的问题文本与答案文本,积累样本数据集;数据集中的每条样本包括网络文本中的问题和答案;分割数据集形成训练集、验证集和测试集;
步骤2:数据预处理
对数据集中每一个样本进行预处理,并构造三元组数据,一个三元组数据包括问题文本,答案文本和答案文本所对应的标签;
步骤3:模型训练
首先将问题和答案进行分句处理,并利用BERT双向语言模型生成上下文嵌入向量,其中BERT模型使用大规模答案选择语料库ASNQ进行微调优化;然后在编码层,利用BERT编码器来编码双向上下文语义信息,以进一步获得词与词之间的信息依赖;接着在层次胶囊网络(HCN)中,通过信息聚合胶囊网络(InforCaps)、句段聚合胶囊网络(SegCaps)和类别聚合胶囊网络(CateCaps)共享学习同一类特征参数;信息聚合胶囊层的动态路由机制聚合每个词的高维稀疏语义,以获得词之间的初步聚类特征;在句段聚合胶囊层对聚类后的丰富词汇特征继续进行二次聚类,逐渐减少胶囊的数量,得到一个较短的句子长度,但获得丰富的信息,最后将胶囊层输入到类别胶囊层进行分类,由此保证特定对象的聚类性能;同时,在多视图信息融合层,第一步计算整个BERT编码器中所有编码中间层输出的权重并进行归一化处理,第二步利用该权重对各编码层输出的信息进行加权融合得到最终的信息表,第三步采用激活函数Relu对多视图信息融合层得到的加权信息表示进行处理并将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中进行分类,由此能够增强编码器中间层信息的学习;最后,输出层由层次胶囊网络层和多视图信息融合层的输出联合组成,使用边际损失和交叉熵损失的联合损失函数来训练所述模型;
步骤4:模型测试与答案句子选择
根据训练所得到的最佳模型,对包含多个答案的问题进行答案句子选择。
进一步的,所述步骤1中,获取数据集时首先从社交网络平台中抓取大量的包含多个答案的问题文本与对应的答案文本,并根据人工规则选择问题的标准答案;分割数据集时训练集、验证集和测试集比例为8:1:1。
进一步的,所述步骤2中预处理的过程为:对数据进行数据清洗,保留只包含问题与答案以及答案标签的数据,利用nltk库对问题和答案进行分句处理,并剔除只包含两句以下的数据组。
进一步的,所述步骤3包括如下子步骤:
子步骤3-1,构建数据层
首先将BERT模型在大型答案选择语料库ASNQ上进行微调优化,使微调出来的模型参数更加适应于下游任务;然后利用微调后的BERT模型来提取词汇表,将三元组中问题和答案的每个单词序列转化为词向量表示;在BERT模型中,输入的句子对被组合成一个序列,句子之间由一个特殊的分隔符[SEP]分开;句子的开头手动添加[CLS]标记,这意味着序列的聚合表示;在整个MPT-HCN模型实验中,对数据进行预处理,以使所有类型保持一致;因此,所有数据集的输入形式为[[CLS],A,[SEP],B,[SEP]],其中A和B分别代表问题和相应候选集中的一个候选答案;
子步骤3-2,构建文本嵌入层
给定一个问题q及其词元
Figure BDA0003844611550000031
同时给定一个与问题对应的候选答案ai及其词元
Figure BDA0003844611550000032
其中s和m分别代表问题和答案的长度,每个词均利用BERT模型初始化完成,上下文嵌入表示E的公式如下:
Figure BDA0003844611550000033
其中
Figure BDA0003844611550000034
代表整个输入的表示,k=s+m+3是输入问题、答案和特殊词元的总长度,de是上下文嵌入表示的维度;
子步骤3-3,构建文本编码层
采用BERT编码器来编码双向语境信息;该编码器由N个相同的层组成,每层由两部分组成:多头注意力机制和位置全连接前馈神经网络,并采用残差连接来避免因网络层过深而造成的原始信息损失;通过计算问题向量Q和键向量K之间的匹配关系,得到加权矩阵Attention(Q,K,V),然后输出每个值矩阵V对应的headi的加权值:
Figure BDA0003844611550000035
Figure BDA0003844611550000041
同时,多头注意是由多个注意层串联而成的,各注意层的不同参数矩阵所得到的矢量信息叠加后得到编码器第n层上下文深度表示:
Mn=MultiHead(Q,K,V)=Concat(head1,…,headh)WO
其中,
Figure BDA0003844611550000042
WO为可学习参数,dk是一个常量参数;并且多头注意机制的实现需要通过一个由两个线性层和Relu()激活函数组成的全连接前向神经网络;最后,进行残差连接和层归一化处理,以确保信息能够完全传输到第n+1层;
Figure BDA0003844611550000043
Hn=LayerNormMn+Fn
其中,
Figure BDA0003844611550000044
为可学习参数;
子步骤3-4,构建层次胶囊网络层
层次胶囊网络层包含三类胶囊:信息聚合胶囊网络、句段聚合胶囊网络和类别聚合胶囊网络,它们通过共享学习同一类特征参数,以保证特定对象的聚类性能;
在信息聚合胶囊网络中,首先对固定词的隐含信息进行聚类;该网络使用HN作为输入,并设置胶囊的数量为k,每个胶囊的神经元为dmodel;然后,将编码器的输出状态
Figure BDA0003844611550000045
Figure BDA0003844611550000046
作为胶囊网络的输入层,并得到预测向量:
Figure BDA0003844611550000047
Wij为可学习化参数;
其次,预测向量uj|i被输入动态路由协议,并确定耦合系数cij,该系数表明信息被传递到下一层的概率:
Figure BDA0003844611550000048
接着,将所有输入信息进行加权求和:
Figure BDA0003844611550000049
总输入sj在挤压函数中执行非线性变换,以确保向量的方向保持不变:
Figure BDA00038446115500000410
最后,根据得到的胶囊j的向量输出vj,学习权重bij被更新并传递给动态路由的下一个迭代:
bij=bij+uj|ivj
在信息聚合胶囊网络后,可获得输出
Figure BDA0003844611550000051
其保持单词数量固定,并缩短每个单词维度所表示的信息,其中
Figure BDA0003844611550000052
在句段聚合胶囊网络中,通过使每个胶囊中的神经元保持固定,并逐渐减少囊的数量,而非合并操作,从而促进更好的类别输出;将信息聚合胶囊网络的输出HI作为该网络的输入,其中nI为胶囊个数,dI为每个胶囊神经元个数,由此可得预测向量:
Figure BDA0003844611550000053
Wjt为可学习化参数;
相同的动态路由机制也被用于该网络:
vt=Dynamic Routing(ut|j,iterS)
vt为胶囊t的向量输出;
最后,可获得句段聚合胶囊网络输出
Figure BDA0003844611550000054
其中
Figure BDA0003844611550000055
在类别聚合胶囊网络中,使用HS作为输入,具体计算方法与句段聚合胶囊网络相同,得到最后输出为
Figure BDA0003844611550000056
最终采用结果的范式:
HHCN=||HC||
其中
Figure BDA0003844611550000057
子步骤3-5,构建多视图信息融合层
由于BERT能够有效地学习双向语义信息,因此第n层编码中cls位置向量表示
Figure BDA0003844611550000058
聚合了通过第nth层中整个序列学习的信息;对于在BERT编码器第nth层中获得的编码信息
Figure BDA0003844611550000059
Figure BDA00038446115500000510
Figure BDA00038446115500000511
由此,得到在[CLS]位置的各层编码器的编码信息集集合:
Figure BDA00038446115500000512
其中[,]为串联操作;
使用平均池化来获得不同编码层的信息权重,并应用Softmax函数对权重进行归一化以获得ω:
ω=Softmax(Average(Hcls))
接着,采用线性层来进行多视图信息映射,并将一般的信息表示被映射到特定的编码器层表示:
Ccls=tanh(WclsHcls+bcls)
其中
Figure BDA00038446115500000513
Figure BDA0003844611550000061
最后,通过编码器每一层的信息权重与特定信息进行加权融合,得到信息表示
Figure BDA0003844611550000062
Figure BDA0003844611550000063
其最终包含BERT编码器中所有层的输出;
在信息融合时,采用ReLU激活函数来处理
Figure BDA0003844611550000064
然后将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中:
Figure BDA0003844611550000065
子步骤3-6,联合训练损失
采用随机初始化的方式对所有的参数进行初始化,范围在[-0.1,0.1],采用Adam优化器进行梯度反向传播更新模型参数,初始学习率设置为2e-5,初始Dropout值为0.1,并使用最大梯度范数为1的梯度进行剪切;当训练损失不再下降或训练轮数超过一定数量,模型训练结束,并保存在验证集上表现最好的模型。
进一步的,所述步骤4具体包括如下过程:
首先对数据进行步骤2的数据处理,并构建模型的输入形式,输入步骤3训练好的模型中,从而对答案句子进行选择。
进一步的,所述步骤4还包括如下过程:
将模型所选答案与标准答案进行类平均精度(MPR)和平均倒数排名(MRR)计算,检验答案句子选择的性能;具体的计算方法为:
Figure BDA0003844611550000066
Figure BDA0003844611550000067
其中,ranki是指第i个问题的第一个正确候选答案的排名位置,
Figure BDA0003844611550000068
是前K个相关候选答案的列表。
层次胶囊与多视图信息融合的答案句子选择装置,所述装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的层次胶囊与多视图信息融合的答案句子选择方法。
相对于现有技术,本发明的优点如下:
1.本发明采用基于层次胶囊网络与多视图信息融合的答案句子选择技术,构建层次胶囊网络,聚合整个句子的长度和语义特征,进而避免因聚合跨度大而造成信息损失和不匹配,保证了有效信息的准确传递,且能使用同一特征进行参数传递,达到更佳的聚类性能。
2.本发明提出了多视图融合方法,可以有效解决微调步骤的不稳定性。此外,该方法通过对编码器中间层的学习,打破了以往使用预训练模型的最终输出仅能预测单一标签的惯例,有效地对多标签答案句子选择进行预测,提升了答案句子选择的准确性和高效性。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的整体模型图。
图3为本发明实施例涉及的答案句子选择示例图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实现本发明的具体模型如图2所示。根据模型图,本发明提供了一种层次胶囊与多视图信息融合的答案句子选择方法,详细实施步骤如下:
步骤1,问题与答案文本采集。为了保证数据的多样性与普适性,本实施首先从社交网络平台中抓取大量的包含多个答案的问题文本与对应的答案文本,并根据人工规则选择问题的标准答案。问题,答案与答案标签共同组成样本数据集D。数据集中的每条样本包括网络文本中的问题和答案,样本示例如图3所示。最后将所有得到的数据按照8:1:1进行分割形成训练集、验证集和测试集。
步骤2,数据预处理。为了能保证数据更适用于所设计的模型训练。首先对数据进行数据清洗,保留只包含问题与答案以及答案标签的数据,利用nltk库对问题和答案进行分句处理,并剔除只包含两句以下的数据组,以便于后续进行消融实验的验证。最后,将数据集分别处理为三元组的形式,以便于后续步骤的应用。一个三元组数据包括问题文本,答案文本和答案文本所对应的标签。
步骤3,模型训练。利用步骤2处理后的数据集对本发明提出的基于层次胶囊网络与多视图信息融合的答案句子选择模型进行训练,该步骤的实施可以分为以下子步骤:
子步骤3-1,构建数据层。首先将BERT模型在大型答案选择语料库ASNQ上进行微调优化,使微调出来的模型参数更加适应于下游任务。然后利用微调后的BERT模型来提取词汇表,将三元组中问题和答案的每个单词序列转化为词向量表示。在BERT模型中,输入的句子对被组合成一个序列,句子之间由一个特殊的分隔符[SEP]分开。句子的开头需要手动添加[CLS]标记,这意味着序列的聚合表示。在整个MPT-HCN模型实验中,需要对数据进行预处理,以使所有类型保持一致。因此,所有数据集的输入形式为[[CLS],A,[SEP],B,[SEP]],其中A和B分别代表问题和相应候选集中的一个候选答案。
子步骤3-2,构建文本嵌入层。给定一个问题q及其词元
Figure BDA0003844611550000081
同时给定一个与问题对应的候选答案ai及其词元
Figure BDA0003844611550000082
其中s和m分别代表问题和答案的长度,每个词均利用BERT模型初始化完成,上下文嵌入表示E的公式如下:
Figure BDA0003844611550000083
其中
Figure BDA0003844611550000084
代表整个输入的表示,k=s+m+3是输入问题、答案和特殊词元的总长度,de是上下文嵌入表示的维度。
子步骤3-3,构建文本编码层。本实施例需要采用BERT编码器来编码双向语境信息。该编码器由N个相同的层组成。每层由两部分组成:多头注意力机制和位置全连接前馈神经网络,并采用残差连接来避免因网络层过深而造成的原始信息损失。通过计算问题向量Q和键向量K之间的匹配关系,得到加权矩阵Attention(Q,K,V),然后输出每个值矩阵V对应的headi的加权值:
Figure BDA0003844611550000085
Figure BDA0003844611550000086
同时,多头注意是由多个注意层串联而成的,各注意层的不同参数矩阵所得到的矢量信息叠加后得到编码器第n层上下文深度表示:
Mn=MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
其中
Figure BDA0003844611550000087
WO为可学习参数。并且多头注意机制的实现需要通过一个由两个线性层和Relu()激活函数组成的全连接前向神经网络。最后,进行残差连接和层归一化处理,以确保信息能够完全传输到第n+1层。
Figure BDA0003844611550000088
Hn=LayerNormMn+Fn
子步骤3-4,构建层次胶囊网络层。层次胶囊网络层主要包含三类胶囊:信息聚合胶囊网络、句段聚合胶囊网络和类别聚合胶囊网络,它们通过共享学习同一类特征参数,以保证特定对象的聚类性能。
在信息聚合胶囊网络中,首先需要对固定词的隐含信息进行聚类。该网络使用HN作为输入,并设置胶囊的数量为k,每个胶囊的神经元为dmodel。然后,将编码器的输出状态
Figure BDA0003844611550000089
Figure BDA00038446115500000810
作为胶囊网络的输入层,并得到预测向量:
Figure BDA00038446115500000811
其次,预测向量uj|i被输入动态路由协议,并确定耦合系数cij。该系数可以表明信息被传递到下一层的概率。
Figure BDA0003844611550000091
接着,将所有输入信息进行加权求和:
Figure BDA0003844611550000092
总输入sj在挤压函数中执行非线性变换,以确保向量的方向保持不变。
Figure BDA0003844611550000093
最后,根据得到的胶囊j的向量输出vj,学习权重bij被更新并传递给动态路由的下一个迭代。
bij=bij+uj|ivj
在信息聚合胶囊网络后,可获得输出
Figure BDA0003844611550000094
其保持单词数量固定,并缩短每个单词维度所表示的信息,其中
Figure BDA0003844611550000095
在句段聚合胶囊网络中,通过使每个胶囊中的神经元保持固定,并逐渐减少囊的数量,而非合并操作,从而促进更好的类别输出。将信息聚合胶囊网络的输出HI作为该网络的输入,其中nI为胶囊个数,dI为每个胶囊神经元个数,由此可得预测向量:
Figure BDA0003844611550000096
相同的动态路由机制也被用于该网络:
vt=Dynamic Routing(ut|j,iterS)
最后,可获得句段聚合胶囊网络输出
Figure BDA0003844611550000097
其中
Figure BDA0003844611550000098
在类别聚合胶囊网络中,使用HS作为输入,具体计算方法与句段聚合胶囊网络相同,得到最后输出为
Figure BDA0003844611550000099
最终采用结果的范式:
HHCN=||HC||
其中
Figure BDA00038446115500000910
子步骤3-5,构建多视图信息融合层。由于BERT能够有效地学习双向语义信息,因此
Figure BDA00038446115500000911
聚合了通过第nth层中整个序列学习的信息。对于在BERT编码器第nth层中获得的编码信息
Figure BDA00038446115500000912
Figure BDA00038446115500000913
由此,可以得到在[CLS]位置的各层编码器的编码信息集集合:
Figure BDA0003844611550000101
其中[,]为串联操作。
为了让编码器更高效地学习语义信息,本实施使用平均池化来获得不同编码层的信息权重,并应用Softmax函数对权重进行归一化以获得ω:
ω=Softmax(Average(Hcls))
接着,采用线性层来进行多视图信息映射,并将一般的信息表示被映射到特定的编码器层表示:
Ccls=tanh(WclsHcls+bcls)
其中
Figure BDA0003844611550000102
dlabel为向量的维度大小。
Figure BDA0003844611550000103
最后,通过编码器每一层的信息权重与特定信息进行加权融合,得到信息表示
Figure BDA0003844611550000104
Figure BDA0003844611550000105
其最终包含BERT编码器中所有层的输出。
在信息融合时,采用ReLU激活函数来处理
Figure BDA0003844611550000106
然后将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中:
Figure BDA0003844611550000107
子步骤3-6,联合训练损失。本实例采用随机初始化的方式对所有的参数进行初始化,范围在[-0.1,0.1],采用Adam优化器进行梯度反向传播更新模型参数,初始学习率设置为2e-5,初始Dropout值为0.1,并使用最大梯度范数为1的梯度进行剪切。当训练损失不再下降或训练轮数超过30轮,模型训练结束,并保存在验证集上表现最好的模型。
步骤4,模型测试与答案句子选择。根据步骤3所得到的最佳验证模型,对所使用的数据集进行答案句子选择。首先对数据进行步骤2的数据处理,并构建模型的输入形式,输入训练好的模型中,从而对答案句子进行选择,并将模型所选答案与标准答案进行类平均精度(MPR)和平均倒数排名(MRR)计算,检验答案句子选择的性能。具体的计算方法为:
Figure BDA0003844611550000108
Figure BDA0003844611550000109
其中,ranki是指第i个问题的第一个正确候选答案的排名位置,
Figure BDA00038446115500001010
是前K个相关候选答案的列表。
基于相同的发明构思,本发明提供了一种层次胶囊与多视图信息融合的答案句子选择装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的层次胶囊与多视图信息融合的答案句子选择方法。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,包括以下步骤:
步骤1:问答对文本采集
通过互联网采集包含多个答案的问题文本与答案文本,积累样本数据集;数据集中的每条样本包括网络文本中的问题和答案;分割数据集形成训练集、验证集和测试集;
步骤2:数据预处理
对数据集中每一个样本进行预处理,并构造三元组数据,一个三元组数据包括问题文本,答案文本和答案文本所对应的标签;
步骤3:模型训练
首先将问题和答案进行分句处理,并利用BERT双向语言模型生成上下文嵌入向量,其中BERT模型使用大规模答案选择语料库ASNQ进行微调优化;然后在编码层,利用BERT编码器来编码双向上下文语义信息,以进一步获得词与词之间的信息依赖;接着在层次胶囊网络HCN中,通过信息聚合胶囊网络InforCaps、句段聚合胶囊网络SegCaps和类别聚合胶囊网络CateCaps共享学习同一类特征参数;信息聚合胶囊层的动态路由机制聚合每个词的高维稀疏语义,以获得词之间的初步聚类特征;在句段聚合胶囊层对聚类后的丰富词汇特征继续进行二次聚类,逐渐减少胶囊的数量,得到一个较短的句子长度,但获得丰富的信息,最后将胶囊层输入到类别胶囊层进行分类,由此保证特定对象的聚类性能;同时,在多视图信息融合层,第一步计算整个BERT编码器中所有编码中间层输出的权重并进行归一化处理,第二步利用该权重对各编码层输出的信息进行加权融合得到最终的信息表,第三步采用激活函数Relu对多视图信息融合层得到的加权信息表示进行处理并将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中进行分类,由此能够增强编码器中间层信息的学习;最后,输出层由层次胶囊网络层和多视图信息融合层的输出联合组成,使用边际损失和交叉熵损失的联合损失函数来训练所述模型;
步骤4:模型测试与答案句子选择
根据训练所得到的最佳模型,对包含多个答案的问题进行答案句子选择。
2.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤1中,获取数据集时首先从社交网络平台中抓取大量的包含多个答案的问题文本与对应的答案文本,并根据人工规则选择问题的标准答案;分割数据集时训练集、验证集和测试集比例为8∶1∶1。
3.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤2中预处理的过程为:对数据进行数据清洗,保留只包含问题与答案以及答案标签的数据,利用nltk库对问题和答案进行分句处理,并剔除只包含两句以下的数据组。
4.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤3包括如下子步骤:
子步骤3-1,构建数据层
首先将BERT模型在大型答案选择语料库ASNQ上进行微调优化,使微调出来的模型参数更加适应于下游任务;然后利用微调后的BERT模型来提取词汇表,将三元组中问题和答案的每个单词序列转化为词向量表示;在BERT模型中,输入的句子对被组合成一个序列,句子之间由一个特殊的分隔符[SEP]分开;句子的开头手动添加[CLS]标记,这意味着序列的聚合表示;在整个MPT-HCN模型实验中,对数据进行预处理,以使所有类型保持一致;因此,所有数据集的输入形式为[[CLS],A,[SEP],B,[SEP]],其中A和B分别代表问题和相应候选集中的一个候选答案;
子步骤3-2,构建文本嵌入层
给定一个问题q及其词元
Figure FDA0003844611540000021
同时给定一个与问题对应的候选答案ai及其词元
Figure FDA0003844611540000022
其中s和m分别代表问题和答案的长度,每个词均利用BERT模型初始化完成,上下文嵌入表示E的公式如下:
Figure FDA0003844611540000027
其中
Figure FDA0003844611540000023
代表整个输入的表示,k=s+m+3是输入问题、答案和特殊词元的总长度,de是上下文嵌入表示的维度;
子步骤3-3,构建文本编码层
采用BERT编码器来编码双向语境信息;该编码器由N个相同的层组成,每层由两部分组成:多头注意力机制和位置全连接前馈神经网络,并采用残差连接来避免因网络层过深而造成的原始信息损失;通过计算问题向量Q和键向量K之间的匹配关系,得到加权矩阵Attention(Q,K,V),然后输出每个值矩阵V对应的headi的加权值:
Figure FDA0003844611540000024
Figure FDA0003844611540000025
同时,多头注意是由多个注意层串联而成的,各注意层的不同参数矩阵所得到的矢量信息叠加后得到编码器第n层上下文深度表示:
Mn=MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,
Figure FDA0003844611540000026
WO为可学习参数,dk是一个常量参数;并且多头注意机制的实现需要通过一个由两个线性层和Relu()激活函数组成的全连接前向神经网络;最后,进行残差连接和层归一化处理,以确保信息能够完全传输到第n+1层;
Figure FDA0003844611540000031
Hn=LayerNormMn+Fn
其中,
Figure FDA0003844611540000032
为可学习参数;
子步骤3-4,构建层次胶囊网络层
层次胶囊网络层包含三类胶囊:信息聚合胶囊网络、句段聚合胶囊网络和类别聚合胶囊网络,它们通过共享学习同一类特征参数,以保证特定对象的聚类性能;
在信息聚合胶囊网络中,首先对固定词的隐含信息进行聚类;该网络使用HN作为输入,并设置胶囊的数量为k,每个胶囊的神经元为dmodel;然后,将编码器的输出状态
Figure FDA0003844611540000033
Figure FDA0003844611540000034
作为胶囊网络的输入层,并得到预测向量:
Figure FDA0003844611540000035
Wij为可学习化参数;
其次,预测向量uj|i被输入动态路由协议,并确定耦合系数cij,该系数表明信息被传递到下一层的概率:
Figure FDA0003844611540000036
接着,将所有输入信息进行加权求和:
Figure FDA0003844611540000037
总输入sj在挤压函数中执行非线性变换,以确保向量的方向保持不变:
Figure FDA0003844611540000038
最后,根据得到的胶囊j的向量输出vj,学习权重bij被更新并传递给动态路由的下一个迭代:
bij=bij+uj|ivj
在信息聚合胶囊网络后,可获得输出
Figure FDA0003844611540000039
其保持单词数量固定,并缩短每个单词维度所表示的信息,其中
Figure FDA00038446115400000310
在句段聚合胶囊网络中,通过使每个胶囊中的神经元保持固定,并逐渐减少囊的数量,而非合并操作,从而促进更好的类别输出;将信息聚合胶囊网络的输出HI作为该网络的输入,其中nI为胶囊个数,dI为每个胶囊神经元个数,由此可得预测向量:
Figure FDA0003844611540000041
Wjt为可学习化参数;
相同的动态路由机制也被用于该网络:
vt=Dynamic Routing(ut|j,iterS)
vt为胶囊t的向量输出;
最后,可获得句段聚合胶囊网络输出
Figure FDA0003844611540000042
其中
Figure FDA0003844611540000043
在类别聚合胶囊网络中,使用HS作为输入,具体计算方法与句段聚合胶囊网络相同,得到最后输出为
Figure FDA0003844611540000044
最终采用结果的范式:
HHCN=||HC||
其中
Figure FDA0003844611540000045
nC=2;
子步骤3-5,构建多视图信息融合层
由于BERT能够有效地学习双向语义信息,因此第n层编码中cls位置向量表示
Figure FDA0003844611540000046
聚合了通过第nth层中整个序列学习的信息;对于在BERT编码器第nth层中获得的编码信息
Figure FDA0003844611540000047
Figure FDA0003844611540000048
Figure FDA0003844611540000049
由此,得到在[CLS]位置的各层编码器的编码信息集集合:
Figure FDA00038446115400000410
其中[,]为串联操作;
使用平均池化来获得不同编码层的信息权重,并应用Softmax函数对权重进行归一化以获得ω:
ω=Softmax(Average(Hcls))
接着,采用线性层来进行多视图信息映射,并将一般的信息表示被映射到特定的编码器层表示:
Ccls=tanh(WclsHcls+bcls)
其中
Figure FDA00038446115400000411
Figure FDA00038446115400000412
最后,通过编码器每一层的信息权重与特定信息进行加权融合,得到信息表示
Figure FDA0003844611540000051
Figure FDA0003844611540000052
其最终包含BERT编码器中所有层的输出;
在信息融合时,采用ReLU激活函数来处理
Figure FDA0003844611540000053
然后将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中:
Figure FDA0003844611540000054
子步骤3-6,联合训练损失
采用随机初始化的方式对所有的参数进行初始化,范围在[-0.1,0.1],采用Adam优化器进行梯度反向传播更新模型参数,初始学习率设置为2e-5,初始Dropout值为0.1,并使用最大梯度范数为1的梯度进行剪切;当训练损失不再下降或训练轮数超过一定数量,模型训练结束,并保存在验证集上表现最好的模型。
5.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤4具体包括如下过程:
首先对数据进行步骤2的数据处理,并构建模型的输入形式,输入步骤3训练好的模型中,从而对答案句子进行选择。
6.根据权利要求5所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤4还包括如下过程:
将模型所选答案与标准答案进行类平均精度MPR和平均倒数排名MRR计算,检验答案句子选择的性能;具体的计算方法为:
Figure FDA0003844611540000055
Figure FDA0003844611540000056
其中,ranki是指第i个问题的第一个正确候选答案的排名位置,
Figure FDA0003844611540000057
是前K个相关候选答案的列表。
7.层次胶囊与多视图信息融合的答案句子选择装置,所述装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现权利要求1-6中任意一项所述的层次胶囊与多视图信息融合的答案句子选择方法。
CN202211113668.8A 2022-09-14 2022-09-14 层次胶囊与多视图信息融合的答案句子选择方法与装置 Pending CN115455162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211113668.8A CN115455162A (zh) 2022-09-14 2022-09-14 层次胶囊与多视图信息融合的答案句子选择方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211113668.8A CN115455162A (zh) 2022-09-14 2022-09-14 层次胶囊与多视图信息融合的答案句子选择方法与装置

Publications (1)

Publication Number Publication Date
CN115455162A true CN115455162A (zh) 2022-12-09

Family

ID=84303390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211113668.8A Pending CN115455162A (zh) 2022-09-14 2022-09-14 层次胶囊与多视图信息融合的答案句子选择方法与装置

Country Status (1)

Country Link
CN (1) CN115455162A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法

Similar Documents

Publication Publication Date Title
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN111144448B (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN113688244B (zh) 基于神经网络的文本分类方法、系统、设备及存储介质
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110647619A (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN112000772B (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN113806494B (zh) 一种基于预训练语言模型的命名实体识别方法
CN111339281A (zh) 一种多视角融合的阅读理解选择题的答案选择方法
CN113204633B (zh) 一种语义匹配蒸馏方法及装置
CN113297364A (zh) 一种面向对话系统中的自然语言理解方法及装置
CN114238649B (zh) 一种常识概念增强的语言模型预训练方法
CN112000770A (zh) 面向智能问答的基于语义特征图的句子对语义匹配方法
CN116975256B (zh) 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统
CN112001166A (zh) 面向政务咨询服务的智能问答句子对语义匹配方法和装置
CN112307760A (zh) 基于深度学习的财务报告情感分析方法、装置及终端
CN116341562A (zh) 一种基于Unilm语言模型的相似问题生成方法
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答系统构建方法
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN117807232A (zh) 商品分类方法、商品分类模型构建方法及装置
CN117634615A (zh) 一种基于模态无关对比学习的多任务代码检索方法
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN115455162A (zh) 层次胶囊与多视图信息融合的答案句子选择方法与装置
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination