CN115455162A

CN115455162A - 层次胶囊与多视图信息融合的答案句子选择方法与装置

Info

Publication number: CN115455162A
Application number: CN202211113668.8A
Authority: CN
Inventors: 杨鹏; 李冰; 易梦; 孙元康; 吉顺航
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-09

Abstract

本发明公开了一种层次胶囊与多视图信息融合的答案句子选择方法与装置。首先，对互联网中的包含多个答案的问题文本进行采集和预处理；接着，采用层次胶囊网络，通过其渐进聚合的特征，对编码输出的表征进行信息聚合和单词聚合，保证了有效信息的准确传递，且能使用同一特征进行参数传递；然后，为了解决微调步骤的不稳定性和使用预训练模型的最终输出仅能预测单一标签的问题，通过使用多视图信息融合方法，计算整个BERT编码中间层输出的权重来对学习信息进行加权。本发明能够改善以往答案句子选择方法中忽略了模型内部多层中间输出对答案句子选择的影响、仅能预测单一结果等问题，进而提升答案句子选择的准确性和高效性。

Description

层次胶囊与多视图信息融合的答案句子选择方法与装置

技术领域

本发明涉及一种层次胶囊与多视图信息融合的答案句子选择方法与装置，属于互联网和人工智能技术领域。

背景技术

随着互联网技术的飞速发展，答案句子选择成为信息检索和自然语言处理领域的一个重要子任务，并被应用于许多功能领域，其中应用最为广泛的是社区型问答(Community Question Answering,CQA)。答案选择任务的目标是给定一个问题和相对应的候选答案列表，根据其与给定问题的相关性选择准确的或排名第一的答案，将其视为正确答案。然而，一个问题通常有许多答案，其中包含大量的不相关信息。要从所提供的不同质量的长串答案中找到想要的核心信息可能是非常耗时且困难的。因此，在社区型问答中，根据问题，对答案中的句子进行全面分析并有效地捕捉问题与答案之间的复杂语义关系，可以有效地帮助管理社区或获取有价值的信息。

传统的答案选择模型主要依靠特征工程、语言学工具或词法。这些方法主要是通过人工提取高质量的特征来计算问题之间的相似度。它需要大量具有专业知识的人力和手工操作，既费时又缺乏普适性。因此，为了减少特征工程的工作，深度学习模型的研究思路逐渐成为答案选择的主流。它们可以自动学习问题和答案中的特征以进行答案选择。然而，这类模型一般只考虑问题和答案中每个句子的上下文和语义信息，缺乏信息交互。为此，将注意力机制引入深度神经网络吸引了研究者的兴趣。通过注意力机制的引入，能够有效增加句子表征中相似部分的信息权重，从而更新问题和答案的上下文信息表征。尽管如此，基于注意力的模型也有一定的局限性。大多数模型从网络的隐藏状态中粗略地收集有用的信息，并将它们压缩到一个注意力向量中，但它们在捕捉问题和候选答案之间的各种细粒度方面是不够的。此外，单一的注意力向量可能不足以捕捉问题的不同方面，从而导致答案的不准确性。随着预训练模型的出现，由于其能够将丰富的常识编码到模型参数中，从而捕捉词与语境之间的语义关系，为各种下游任务提供更好的语义特征，因此受到研究者的广泛关注。然而大多数预训练模型都是使用模型的最终输出，并根据不同的任务在模型输出的上层增加相应的应对策略。这种方法忽略了模型内部多层的中间输出对答案句子选择的影响。

发明内容

针对现有技术中存在的问题与不足，本发明尝试通过胶囊网络来解决深度网络模型中因池化操作而丢弃有效信息的问题，且为了避免当句子信息分散而类别数量较少时，因步幅过大而导致信息的丢失产生不利于聚合的问题，提出了层次胶囊网络(HCN)方法。此方法可以聚合整个句子的长度和语义特征，不会因为聚合跨度大而造成信息损失和不匹配。基于此，本发明提出一种层次胶囊网络与多视图信息融合的答案句子选择方法，利用层次胶囊网络聚合整个句子的长度和语义特征，避免因聚合跨度大而造成信息损失和不匹配；并通过多视图信息融合方法使微调步骤趋于稳定且最终输出能预测多个标签，能够有效解决微调步骤的不稳定性和使用预训练模型的最终输出仅能预测单一标签的问题。

为实现上述发明目的，本发明通过以下技术方案来实现：

层次胶囊与多视图信息融合的答案句子选择方法，包括如下步骤：

步骤1：问答对文本采集

通过互联网采集包含多个答案的问题文本与答案文本，积累样本数据集；数据集中的每条样本包括网络文本中的问题和答案；分割数据集形成训练集、验证集和测试集；

步骤2：数据预处理

对数据集中每一个样本进行预处理，并构造三元组数据，一个三元组数据包括问题文本，答案文本和答案文本所对应的标签；

步骤3：模型训练

首先将问题和答案进行分句处理，并利用BERT双向语言模型生成上下文嵌入向量，其中BERT模型使用大规模答案选择语料库ASNQ进行微调优化；然后在编码层，利用BERT编码器来编码双向上下文语义信息，以进一步获得词与词之间的信息依赖；接着在层次胶囊网络(HCN)中，通过信息聚合胶囊网络(InforCaps)、句段聚合胶囊网络(SegCaps)和类别聚合胶囊网络(CateCaps)共享学习同一类特征参数；信息聚合胶囊层的动态路由机制聚合每个词的高维稀疏语义，以获得词之间的初步聚类特征；在句段聚合胶囊层对聚类后的丰富词汇特征继续进行二次聚类，逐渐减少胶囊的数量，得到一个较短的句子长度，但获得丰富的信息，最后将胶囊层输入到类别胶囊层进行分类，由此保证特定对象的聚类性能；同时，在多视图信息融合层，第一步计算整个BERT编码器中所有编码中间层输出的权重并进行归一化处理，第二步利用该权重对各编码层输出的信息进行加权融合得到最终的信息表，第三步采用激活函数Relu对多视图信息融合层得到的加权信息表示进行处理并将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中进行分类，由此能够增强编码器中间层信息的学习；最后，输出层由层次胶囊网络层和多视图信息融合层的输出联合组成，使用边际损失和交叉熵损失的联合损失函数来训练所述模型；

步骤4：模型测试与答案句子选择

根据训练所得到的最佳模型，对包含多个答案的问题进行答案句子选择。

进一步的，所述步骤1中，获取数据集时首先从社交网络平台中抓取大量的包含多个答案的问题文本与对应的答案文本，并根据人工规则选择问题的标准答案；分割数据集时训练集、验证集和测试集比例为8：1：1。

进一步的，所述步骤2中预处理的过程为：对数据进行数据清洗，保留只包含问题与答案以及答案标签的数据，利用nltk库对问题和答案进行分句处理，并剔除只包含两句以下的数据组。

进一步的，所述步骤3包括如下子步骤：

子步骤3-1，构建数据层

首先将BERT模型在大型答案选择语料库ASNQ上进行微调优化，使微调出来的模型参数更加适应于下游任务；然后利用微调后的BERT模型来提取词汇表，将三元组中问题和答案的每个单词序列转化为词向量表示；在BERT模型中，输入的句子对被组合成一个序列，句子之间由一个特殊的分隔符[SEP]分开；句子的开头手动添加[CLS]标记，这意味着序列的聚合表示；在整个MPT-HCN模型实验中，对数据进行预处理，以使所有类型保持一致；因此，所有数据集的输入形式为[[CLS],A,[SEP],B,[SEP]]，其中A和B分别代表问题和相应候选集中的一个候选答案；

子步骤3-2，构建文本嵌入层

给定一个问题q及其词元

同时给定一个与问题对应的候选答案a_i及其词元

其中s和m分别代表问题和答案的长度，每个词均利用BERT模型初始化完成，上下文嵌入表示E的公式如下：

其中

代表整个输入的表示，k＝s+m+3是输入问题、答案和特殊词元的总长度，d_e是上下文嵌入表示的维度；

子步骤3-3，构建文本编码层

采用BERT编码器来编码双向语境信息；该编码器由N个相同的层组成，每层由两部分组成：多头注意力机制和位置全连接前馈神经网络，并采用残差连接来避免因网络层过深而造成的原始信息损失；通过计算问题向量Q和键向量K之间的匹配关系，得到加权矩阵Attention(Q,K,V)，然后输出每个值矩阵V对应的head_i的加权值：

同时，多头注意是由多个注意层串联而成的，各注意层的不同参数矩阵所得到的矢量信息叠加后得到编码器第n层上下文深度表示：

M_n＝MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

其中，

W^O为可学习参数，d_k是一个常量参数；并且多头注意机制的实现需要通过一个由两个线性层和Relu()激活函数组成的全连接前向神经网络；最后，进行残差连接和层归一化处理，以确保信息能够完全传输到第n+1层；

H_n＝LayerNormM_n+F_n

其中，

为可学习参数；

子步骤3-4，构建层次胶囊网络层

层次胶囊网络层包含三类胶囊：信息聚合胶囊网络、句段聚合胶囊网络和类别聚合胶囊网络，它们通过共享学习同一类特征参数，以保证特定对象的聚类性能；

在信息聚合胶囊网络中，首先对固定词的隐含信息进行聚类；该网络使用H_N作为输入，并设置胶囊的数量为k，每个胶囊的神经元为d_model；然后，将编码器的输出状态

作为胶囊网络的输入层，并得到预测向量：

W_ij为可学习化参数；

其次，预测向量u_j|i被输入动态路由协议，并确定耦合系数c_ij，该系数表明信息被传递到下一层的概率：

接着，将所有输入信息进行加权求和：

总输入s_j在挤压函数中执行非线性变换，以确保向量的方向保持不变：

最后，根据得到的胶囊j的向量输出v_j,学习权重b_ij被更新并传递给动态路由的下一个迭代：

b_ij＝b_ij+u_j|iv_j

在信息聚合胶囊网络后，可获得输出

其保持单词数量固定，并缩短每个单词维度所表示的信息，其中

在句段聚合胶囊网络中，通过使每个胶囊中的神经元保持固定，并逐渐减少囊的数量，而非合并操作，从而促进更好的类别输出；将信息聚合胶囊网络的输出H_I作为该网络的输入，其中n_I为胶囊个数，d_I为每个胶囊神经元个数，由此可得预测向量：

W_jt为可学习化参数；

相同的动态路由机制也被用于该网络：

v_t＝Dynamic Routing(u_t|j,iter_S)

v_t为胶囊t的向量输出；

最后，可获得句段聚合胶囊网络输出

其中

在类别聚合胶囊网络中，使用H_S作为输入，具体计算方法与句段聚合胶囊网络相同，得到最后输出为

最终采用结果的范式：

H_HCN＝||H_C||

其中

子步骤3-5，构建多视图信息融合层

由于BERT能够有效地学习双向语义信息，因此第n层编码中cls位置向量表示

聚合了通过第n^th层中整个序列学习的信息；对于在BERT编码器第n^th层中获得的编码信息

且

由此，得到在[CLS]位置的各层编码器的编码信息集集合：

其中[,]为串联操作；

使用平均池化来获得不同编码层的信息权重，并应用Softmax函数对权重进行归一化以获得ω：

ω＝Softmax(Average(H_cls))

接着，采用线性层来进行多视图信息映射，并将一般的信息表示被映射到特定的编码器层表示：

C_cls＝tanh(W_clsH_cls+b_cls)

其中

最后，通过编码器每一层的信息权重与特定信息进行加权融合，得到信息表示

其最终包含BERT编码器中所有层的输出；

在信息融合时，采用ReLU激活函数来处理

然后将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中：

子步骤3-6，联合训练损失

采用随机初始化的方式对所有的参数进行初始化，范围在[-0.1,0.1]，采用Adam优化器进行梯度反向传播更新模型参数，初始学习率设置为2e-5，初始Dropout值为0.1，并使用最大梯度范数为1的梯度进行剪切；当训练损失不再下降或训练轮数超过一定数量，模型训练结束，并保存在验证集上表现最好的模型。

进一步的，所述步骤4具体包括如下过程：

首先对数据进行步骤2的数据处理，并构建模型的输入形式，输入步骤3训练好的模型中，从而对答案句子进行选择。

进一步的，所述步骤4还包括如下过程：

将模型所选答案与标准答案进行类平均精度(MPR)和平均倒数排名(MRR)计算，检验答案句子选择的性能；具体的计算方法为：

其中，rank_i是指第i个问题的第一个正确候选答案的排名位置，

是前K个相关候选答案的列表。

层次胶囊与多视图信息融合的答案句子选择装置，所述装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的层次胶囊与多视图信息融合的答案句子选择方法。

相对于现有技术，本发明的优点如下：

1.本发明采用基于层次胶囊网络与多视图信息融合的答案句子选择技术，构建层次胶囊网络，聚合整个句子的长度和语义特征，进而避免因聚合跨度大而造成信息损失和不匹配，保证了有效信息的准确传递，且能使用同一特征进行参数传递，达到更佳的聚类性能。

2.本发明提出了多视图融合方法，可以有效解决微调步骤的不稳定性。此外，该方法通过对编码器中间层的学习，打破了以往使用预训练模型的最终输出仅能预测单一标签的惯例，有效地对多标签答案句子选择进行预测，提升了答案句子选择的准确性和高效性。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的整体模型图。

图3为本发明实施例涉及的答案句子选择示例图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实现本发明的具体模型如图2所示。根据模型图，本发明提供了一种层次胶囊与多视图信息融合的答案句子选择方法，详细实施步骤如下：

步骤1，问题与答案文本采集。为了保证数据的多样性与普适性，本实施首先从社交网络平台中抓取大量的包含多个答案的问题文本与对应的答案文本，并根据人工规则选择问题的标准答案。问题，答案与答案标签共同组成样本数据集D。数据集中的每条样本包括网络文本中的问题和答案，样本示例如图3所示。最后将所有得到的数据按照8：1：1进行分割形成训练集、验证集和测试集。

步骤2，数据预处理。为了能保证数据更适用于所设计的模型训练。首先对数据进行数据清洗，保留只包含问题与答案以及答案标签的数据，利用nltk库对问题和答案进行分句处理，并剔除只包含两句以下的数据组，以便于后续进行消融实验的验证。最后，将数据集分别处理为三元组的形式，以便于后续步骤的应用。一个三元组数据包括问题文本，答案文本和答案文本所对应的标签。

步骤3，模型训练。利用步骤2处理后的数据集对本发明提出的基于层次胶囊网络与多视图信息融合的答案句子选择模型进行训练，该步骤的实施可以分为以下子步骤：

子步骤3-1，构建数据层。首先将BERT模型在大型答案选择语料库ASNQ上进行微调优化，使微调出来的模型参数更加适应于下游任务。然后利用微调后的BERT模型来提取词汇表，将三元组中问题和答案的每个单词序列转化为词向量表示。在BERT模型中，输入的句子对被组合成一个序列，句子之间由一个特殊的分隔符[SEP]分开。句子的开头需要手动添加[CLS]标记，这意味着序列的聚合表示。在整个MPT-HCN模型实验中，需要对数据进行预处理，以使所有类型保持一致。因此，所有数据集的输入形式为[[CLS],A,[SEP],B,[SEP]]，其中A和B分别代表问题和相应候选集中的一个候选答案。

子步骤3-2，构建文本嵌入层。给定一个问题q及其词元

同时给定一个与问题对应的候选答案a_i及其词元

其中

代表整个输入的表示，k＝s+m+3是输入问题、答案和特殊词元的总长度，d_e是上下文嵌入表示的维度。

子步骤3-3，构建文本编码层。本实施例需要采用BERT编码器来编码双向语境信息。该编码器由N个相同的层组成。每层由两部分组成：多头注意力机制和位置全连接前馈神经网络，并采用残差连接来避免因网络层过深而造成的原始信息损失。通过计算问题向量Q和键向量K之间的匹配关系，得到加权矩阵Attention(Q,K,V)，然后输出每个值矩阵V对应的head_i的加权值：

M_n＝MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^o

其中

W^O为可学习参数。并且多头注意机制的实现需要通过一个由两个线性层和Relu()激活函数组成的全连接前向神经网络。最后，进行残差连接和层归一化处理，以确保信息能够完全传输到第n+1层。

H_n＝LayerNormM_n+F_n

子步骤3-4，构建层次胶囊网络层。层次胶囊网络层主要包含三类胶囊：信息聚合胶囊网络、句段聚合胶囊网络和类别聚合胶囊网络，它们通过共享学习同一类特征参数，以保证特定对象的聚类性能。

在信息聚合胶囊网络中，首先需要对固定词的隐含信息进行聚类。该网络使用H_N作为输入，并设置胶囊的数量为k，每个胶囊的神经元为d_model。然后，将编码器的输出状态

作为胶囊网络的输入层，并得到预测向量：

其次，预测向量u_j|i被输入动态路由协议，并确定耦合系数c_ij。该系数可以表明信息被传递到下一层的概率。

接着，将所有输入信息进行加权求和：

总输入s_j在挤压函数中执行非线性变换，以确保向量的方向保持不变。

最后，根据得到的胶囊j的向量输出v_j,学习权重b_ij被更新并传递给动态路由的下一个迭代。

b_ij＝b_ij+u_j|iv_j

在信息聚合胶囊网络后，可获得输出

在句段聚合胶囊网络中，通过使每个胶囊中的神经元保持固定，并逐渐减少囊的数量，而非合并操作，从而促进更好的类别输出。将信息聚合胶囊网络的输出H_I作为该网络的输入，其中n_I为胶囊个数，d_I为每个胶囊神经元个数，由此可得预测向量：

相同的动态路由机制也被用于该网络：

v_t＝Dynamic Routing(u_t|j,iter_S)

最后，可获得句段聚合胶囊网络输出

其中

最终采用结果的范式：

H_HCN＝||H_C||

其中

子步骤3-5，构建多视图信息融合层。由于BERT能够有效地学习双向语义信息，因此

聚合了通过第n^th层中整个序列学习的信息。对于在BERT编码器第n^th层中获得的编码信息

且

由此，可以得到在[CLS]位置的各层编码器的编码信息集集合：

其中[,]为串联操作。

为了让编码器更高效地学习语义信息，本实施使用平均池化来获得不同编码层的信息权重，并应用Softmax函数对权重进行归一化以获得ω：

ω＝Softmax(Average(H_cls))

C_cls＝tanh(W_clsH_cls+b_cls)

其中

d_label为向量的维度大小。

其最终包含BERT编码器中所有层的输出。

在信息融合时，采用ReLU激活函数来处理

子步骤3-6，联合训练损失。本实例采用随机初始化的方式对所有的参数进行初始化，范围在[-0.1,0.1]，采用Adam优化器进行梯度反向传播更新模型参数，初始学习率设置为2e-5，初始Dropout值为0.1，并使用最大梯度范数为1的梯度进行剪切。当训练损失不再下降或训练轮数超过30轮，模型训练结束，并保存在验证集上表现最好的模型。

步骤4，模型测试与答案句子选择。根据步骤3所得到的最佳验证模型，对所使用的数据集进行答案句子选择。首先对数据进行步骤2的数据处理，并构建模型的输入形式，输入训练好的模型中，从而对答案句子进行选择，并将模型所选答案与标准答案进行类平均精度(MPR)和平均倒数排名(MRR)计算，检验答案句子选择的性能。具体的计算方法为：

是前K个相关候选答案的列表。

基于相同的发明构思，本发明提供了一种层次胶囊与多视图信息融合的答案句子选择装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的层次胶囊与多视图信息融合的答案句子选择方法。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.层次胶囊与多视图信息融合的答案句子选择方法，其特征在于，包括以下步骤：

步骤1：问答对文本采集

步骤2：数据预处理

步骤3：模型训练

首先将问题和答案进行分句处理，并利用BERT双向语言模型生成上下文嵌入向量，其中BERT模型使用大规模答案选择语料库ASNQ进行微调优化；然后在编码层，利用BERT编码器来编码双向上下文语义信息，以进一步获得词与词之间的信息依赖；接着在层次胶囊网络HCN中，通过信息聚合胶囊网络InforCaps、句段聚合胶囊网络SegCaps和类别聚合胶囊网络CateCaps共享学习同一类特征参数；信息聚合胶囊层的动态路由机制聚合每个词的高维稀疏语义，以获得词之间的初步聚类特征；在句段聚合胶囊层对聚类后的丰富词汇特征继续进行二次聚类，逐渐减少胶囊的数量，得到一个较短的句子长度，但获得丰富的信息，最后将胶囊层输入到类别胶囊层进行分类，由此保证特定对象的聚类性能；同时，在多视图信息融合层，第一步计算整个BERT编码器中所有编码中间层输出的权重并进行归一化处理，第二步利用该权重对各编码层输出的信息进行加权融合得到最终的信息表，第三步采用激活函数Relu对多视图信息融合层得到的加权信息表示进行处理并将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中进行分类，由此能够增强编码器中间层信息的学习；最后，输出层由层次胶囊网络层和多视图信息融合层的输出联合组成，使用边际损失和交叉熵损失的联合损失函数来训练所述模型；

步骤4：模型测试与答案句子选择

2.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法，其特征在于，所述步骤1中，获取数据集时首先从社交网络平台中抓取大量的包含多个答案的问题文本与对应的答案文本，并根据人工规则选择问题的标准答案；分割数据集时训练集、验证集和测试集比例为8∶1∶1。

3.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法，其特征在于，所述步骤2中预处理的过程为：对数据进行数据清洗，保留只包含问题与答案以及答案标签的数据，利用nltk库对问题和答案进行分句处理，并剔除只包含两句以下的数据组。

4.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法，其特征在于，所述步骤3包括如下子步骤：

子步骤3-1，构建数据层

首先将BERT模型在大型答案选择语料库ASNQ上进行微调优化，使微调出来的模型参数更加适应于下游任务；然后利用微调后的BERT模型来提取词汇表，将三元组中问题和答案的每个单词序列转化为词向量表示；在BERT模型中，输入的句子对被组合成一个序列，句子之间由一个特殊的分隔符[SEP]分开；句子的开头手动添加[CLS]标记，这意味着序列的聚合表示；在整个MPT-HCN模型实验中，对数据进行预处理，以使所有类型保持一致；因此，所有数据集的输入形式为[[CLS]，A，[SEP]，B，[SEP]]，其中A和B分别代表问题和相应候选集中的一个候选答案；

子步骤3-2，构建文本嵌入层

给定一个问题q及其词元

同时给定一个与问题对应的候选答案a_i及其词元

其中

子步骤3-3，构建文本编码层

采用BERT编码器来编码双向语境信息；该编码器由N个相同的层组成，每层由两部分组成：多头注意力机制和位置全连接前馈神经网络，并采用残差连接来避免因网络层过深而造成的原始信息损失；通过计算问题向量Q和键向量K之间的匹配关系，得到加权矩阵Attention(Q，K，V)，然后输出每个值矩阵V对应的head_i的加权值：

M_n＝MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中，

H_n＝LayerNormM_n+F_n

其中，

为可学习参数；

子步骤3-4，构建层次胶囊网络层

作为胶囊网络的输入层，并得到预测向量：

W_ij为可学习化参数；

接着，将所有输入信息进行加权求和：

最后，根据得到的胶囊j的向量输出v_j，学习权重b_ij被更新并传递给动态路由的下一个迭代：

b_ij＝b_ij+u_j|iv_j

在信息聚合胶囊网络后，可获得输出

W_jt为可学习化参数；

相同的动态路由机制也被用于该网络：

v_t＝Dynamic Routing(u_t|j，iter_S)

v_t为胶囊t的向量输出；

最后，可获得句段聚合胶囊网络输出

其中

最终采用结果的范式：

H_HCN＝||H_C||

其中

n_C＝2；

子步骤3-5，构建多视图信息融合层

且

由此，得到在[CLS]位置的各层编码器的编码信息集集合：

其中[，]为串联操作；

ω＝Softmax(Average(H_cls))

C_cls＝tanh(W_clsH_cls+b_cls)

其中

其最终包含BERT编码器中所有层的输出；

在信息融合时，采用ReLU激活函数来处理

子步骤3-6，联合训练损失

采用随机初始化的方式对所有的参数进行初始化，范围在[-0.1，0.1]，采用Adam优化器进行梯度反向传播更新模型参数，初始学习率设置为2e-5，初始Dropout值为0.1，并使用最大梯度范数为1的梯度进行剪切；当训练损失不再下降或训练轮数超过一定数量，模型训练结束，并保存在验证集上表现最好的模型。

5.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法，其特征在于，所述步骤4具体包括如下过程：

6.根据权利要求5所述的层次胶囊与多视图信息融合的答案句子选择方法，其特征在于，所述步骤4还包括如下过程：

将模型所选答案与标准答案进行类平均精度MPR和平均倒数排名MRR计算，检验答案句子选择的性能；具体的计算方法为：

是前K个相关候选答案的列表。

7.层次胶囊与多视图信息融合的答案句子选择装置，所述装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现权利要求1-6中任意一项所述的层次胶囊与多视图信息融合的答案句子选择方法。