CN115455162A - 层次胶囊与多视图信息融合的答案句子选择方法与装置 - Google Patents
层次胶囊与多视图信息融合的答案句子选择方法与装置 Download PDFInfo
- Publication number
- CN115455162A CN115455162A CN202211113668.8A CN202211113668A CN115455162A CN 115455162 A CN115455162 A CN 115455162A CN 202211113668 A CN202211113668 A CN 202211113668A CN 115455162 A CN115455162 A CN 115455162A
- Authority
- CN
- China
- Prior art keywords
- information
- capsule
- layer
- answer
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002775 capsule Substances 0.000 title claims abstract description 116
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 238000010187 selection method Methods 0.000 title claims abstract description 10
- 230000002776 aggregation Effects 0.000 claims abstract description 34
- 238000004220 aggregation Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000010008 shearing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 238000007500 overflow downdraw method Methods 0.000 abstract description 3
- 230000000750 progressive effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010668 complexation reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种层次胶囊与多视图信息融合的答案句子选择方法与装置。首先,对互联网中的包含多个答案的问题文本进行采集和预处理;接着,采用层次胶囊网络,通过其渐进聚合的特征,对编码输出的表征进行信息聚合和单词聚合,保证了有效信息的准确传递,且能使用同一特征进行参数传递;然后,为了解决微调步骤的不稳定性和使用预训练模型的最终输出仅能预测单一标签的问题,通过使用多视图信息融合方法,计算整个BERT编码中间层输出的权重来对学习信息进行加权。本发明能够改善以往答案句子选择方法中忽略了模型内部多层中间输出对答案句子选择的影响、仅能预测单一结果等问题,进而提升答案句子选择的准确性和高效性。
Description
技术领域
本发明涉及一种层次胶囊与多视图信息融合的答案句子选择方法与装置,属于互联网和人工智能技术领域。
背景技术
随着互联网技术的飞速发展,答案句子选择成为信息检索和自然语言处理领域的一个重要子任务,并被应用于许多功能领域,其中应用最为广泛的是社区型问答(Community Question Answering,CQA)。答案选择任务的目标是给定一个问题和相对应的候选答案列表,根据其与给定问题的相关性选择准确的或排名第一的答案,将其视为正确答案。然而,一个问题通常有许多答案,其中包含大量的不相关信息。要从所提供的不同质量的长串答案中找到想要的核心信息可能是非常耗时且困难的。因此,在社区型问答中,根据问题,对答案中的句子进行全面分析并有效地捕捉问题与答案之间的复杂语义关系,可以有效地帮助管理社区或获取有价值的信息。
传统的答案选择模型主要依靠特征工程、语言学工具或词法。这些方法主要是通过人工提取高质量的特征来计算问题之间的相似度。它需要大量具有专业知识的人力和手工操作,既费时又缺乏普适性。因此,为了减少特征工程的工作,深度学习模型的研究思路逐渐成为答案选择的主流。它们可以自动学习问题和答案中的特征以进行答案选择。然而,这类模型一般只考虑问题和答案中每个句子的上下文和语义信息,缺乏信息交互。为此,将注意力机制引入深度神经网络吸引了研究者的兴趣。通过注意力机制的引入,能够有效增加句子表征中相似部分的信息权重,从而更新问题和答案的上下文信息表征。尽管如此,基于注意力的模型也有一定的局限性。大多数模型从网络的隐藏状态中粗略地收集有用的信息,并将它们压缩到一个注意力向量中,但它们在捕捉问题和候选答案之间的各种细粒度方面是不够的。此外,单一的注意力向量可能不足以捕捉问题的不同方面,从而导致答案的不准确性。随着预训练模型的出现,由于其能够将丰富的常识编码到模型参数中,从而捕捉词与语境之间的语义关系,为各种下游任务提供更好的语义特征,因此受到研究者的广泛关注。然而大多数预训练模型都是使用模型的最终输出,并根据不同的任务在模型输出的上层增加相应的应对策略。这种方法忽略了模型内部多层的中间输出对答案句子选择的影响。
发明内容
针对现有技术中存在的问题与不足,本发明尝试通过胶囊网络来解决深度网络模型中因池化操作而丢弃有效信息的问题,且为了避免当句子信息分散而类别数量较少时,因步幅过大而导致信息的丢失产生不利于聚合的问题,提出了层次胶囊网络(HCN)方法。此方法可以聚合整个句子的长度和语义特征,不会因为聚合跨度大而造成信息损失和不匹配。基于此,本发明提出一种层次胶囊网络与多视图信息融合的答案句子选择方法,利用层次胶囊网络聚合整个句子的长度和语义特征,避免因聚合跨度大而造成信息损失和不匹配;并通过多视图信息融合方法使微调步骤趋于稳定且最终输出能预测多个标签,能够有效解决微调步骤的不稳定性和使用预训练模型的最终输出仅能预测单一标签的问题。
为实现上述发明目的,本发明通过以下技术方案来实现:
层次胶囊与多视图信息融合的答案句子选择方法,包括如下步骤:
步骤1:问答对文本采集
通过互联网采集包含多个答案的问题文本与答案文本,积累样本数据集;数据集中的每条样本包括网络文本中的问题和答案;分割数据集形成训练集、验证集和测试集;
步骤2:数据预处理
对数据集中每一个样本进行预处理,并构造三元组数据,一个三元组数据包括问题文本,答案文本和答案文本所对应的标签;
步骤3:模型训练
首先将问题和答案进行分句处理,并利用BERT双向语言模型生成上下文嵌入向量,其中BERT模型使用大规模答案选择语料库ASNQ进行微调优化;然后在编码层,利用BERT编码器来编码双向上下文语义信息,以进一步获得词与词之间的信息依赖;接着在层次胶囊网络(HCN)中,通过信息聚合胶囊网络(InforCaps)、句段聚合胶囊网络(SegCaps)和类别聚合胶囊网络(CateCaps)共享学习同一类特征参数;信息聚合胶囊层的动态路由机制聚合每个词的高维稀疏语义,以获得词之间的初步聚类特征;在句段聚合胶囊层对聚类后的丰富词汇特征继续进行二次聚类,逐渐减少胶囊的数量,得到一个较短的句子长度,但获得丰富的信息,最后将胶囊层输入到类别胶囊层进行分类,由此保证特定对象的聚类性能;同时,在多视图信息融合层,第一步计算整个BERT编码器中所有编码中间层输出的权重并进行归一化处理,第二步利用该权重对各编码层输出的信息进行加权融合得到最终的信息表,第三步采用激活函数Relu对多视图信息融合层得到的加权信息表示进行处理并将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中进行分类,由此能够增强编码器中间层信息的学习;最后,输出层由层次胶囊网络层和多视图信息融合层的输出联合组成,使用边际损失和交叉熵损失的联合损失函数来训练所述模型;
步骤4:模型测试与答案句子选择
根据训练所得到的最佳模型,对包含多个答案的问题进行答案句子选择。
进一步的,所述步骤1中,获取数据集时首先从社交网络平台中抓取大量的包含多个答案的问题文本与对应的答案文本,并根据人工规则选择问题的标准答案;分割数据集时训练集、验证集和测试集比例为8:1:1。
进一步的,所述步骤2中预处理的过程为:对数据进行数据清洗,保留只包含问题与答案以及答案标签的数据,利用nltk库对问题和答案进行分句处理,并剔除只包含两句以下的数据组。
进一步的,所述步骤3包括如下子步骤:
子步骤3-1,构建数据层
首先将BERT模型在大型答案选择语料库ASNQ上进行微调优化,使微调出来的模型参数更加适应于下游任务;然后利用微调后的BERT模型来提取词汇表,将三元组中问题和答案的每个单词序列转化为词向量表示;在BERT模型中,输入的句子对被组合成一个序列,句子之间由一个特殊的分隔符[SEP]分开;句子的开头手动添加[CLS]标记,这意味着序列的聚合表示;在整个MPT-HCN模型实验中,对数据进行预处理,以使所有类型保持一致;因此,所有数据集的输入形式为[[CLS],A,[SEP],B,[SEP]],其中A和B分别代表问题和相应候选集中的一个候选答案;
子步骤3-2,构建文本嵌入层
子步骤3-3,构建文本编码层
采用BERT编码器来编码双向语境信息;该编码器由N个相同的层组成,每层由两部分组成:多头注意力机制和位置全连接前馈神经网络,并采用残差连接来避免因网络层过深而造成的原始信息损失;通过计算问题向量Q和键向量K之间的匹配关系,得到加权矩阵Attention(Q,K,V),然后输出每个值矩阵V对应的headi的加权值:
同时,多头注意是由多个注意层串联而成的,各注意层的不同参数矩阵所得到的矢量信息叠加后得到编码器第n层上下文深度表示:
Mn=MultiHead(Q,K,V)=Concat(head1,…,headh)WO
其中,WO为可学习参数,dk是一个常量参数;并且多头注意机制的实现需要通过一个由两个线性层和Relu()激活函数组成的全连接前向神经网络;最后,进行残差连接和层归一化处理,以确保信息能够完全传输到第n+1层;
Hn=LayerNormMn+Fn
子步骤3-4,构建层次胶囊网络层
层次胶囊网络层包含三类胶囊:信息聚合胶囊网络、句段聚合胶囊网络和类别聚合胶囊网络,它们通过共享学习同一类特征参数,以保证特定对象的聚类性能;
Wij为可学习化参数;
其次,预测向量uj|i被输入动态路由协议,并确定耦合系数cij,该系数表明信息被传递到下一层的概率:
接着,将所有输入信息进行加权求和:
总输入sj在挤压函数中执行非线性变换,以确保向量的方向保持不变:
最后,根据得到的胶囊j的向量输出vj,学习权重bij被更新并传递给动态路由的下一个迭代:
bij=bij+uj|ivj
在句段聚合胶囊网络中,通过使每个胶囊中的神经元保持固定,并逐渐减少囊的数量,而非合并操作,从而促进更好的类别输出;将信息聚合胶囊网络的输出HI作为该网络的输入,其中nI为胶囊个数,dI为每个胶囊神经元个数,由此可得预测向量:
Wjt为可学习化参数;
相同的动态路由机制也被用于该网络:
vt=Dynamic Routing(ut|j,iterS)
vt为胶囊t的向量输出;
HHCN=||HC||
子步骤3-5,构建多视图信息融合层
由于BERT能够有效地学习双向语义信息,因此第n层编码中cls位置向量表示聚合了通过第nth层中整个序列学习的信息;对于在BERT编码器第nth层中获得的编码信息 且由此,得到在[CLS]位置的各层编码器的编码信息集集合:
其中[,]为串联操作;
使用平均池化来获得不同编码层的信息权重,并应用Softmax函数对权重进行归一化以获得ω:
ω=Softmax(Average(Hcls))
接着,采用线性层来进行多视图信息映射,并将一般的信息表示被映射到特定的编码器层表示:
Ccls=tanh(WclsHcls+bcls)
子步骤3-6,联合训练损失
采用随机初始化的方式对所有的参数进行初始化,范围在[-0.1,0.1],采用Adam优化器进行梯度反向传播更新模型参数,初始学习率设置为2e-5,初始Dropout值为0.1,并使用最大梯度范数为1的梯度进行剪切;当训练损失不再下降或训练轮数超过一定数量,模型训练结束,并保存在验证集上表现最好的模型。
进一步的,所述步骤4具体包括如下过程:
首先对数据进行步骤2的数据处理,并构建模型的输入形式,输入步骤3训练好的模型中,从而对答案句子进行选择。
进一步的,所述步骤4还包括如下过程:
将模型所选答案与标准答案进行类平均精度(MPR)和平均倒数排名(MRR)计算,检验答案句子选择的性能;具体的计算方法为:
层次胶囊与多视图信息融合的答案句子选择装置,所述装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的层次胶囊与多视图信息融合的答案句子选择方法。
相对于现有技术,本发明的优点如下:
1.本发明采用基于层次胶囊网络与多视图信息融合的答案句子选择技术,构建层次胶囊网络,聚合整个句子的长度和语义特征,进而避免因聚合跨度大而造成信息损失和不匹配,保证了有效信息的准确传递,且能使用同一特征进行参数传递,达到更佳的聚类性能。
2.本发明提出了多视图融合方法,可以有效解决微调步骤的不稳定性。此外,该方法通过对编码器中间层的学习,打破了以往使用预训练模型的最终输出仅能预测单一标签的惯例,有效地对多标签答案句子选择进行预测,提升了答案句子选择的准确性和高效性。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的整体模型图。
图3为本发明实施例涉及的答案句子选择示例图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实现本发明的具体模型如图2所示。根据模型图,本发明提供了一种层次胶囊与多视图信息融合的答案句子选择方法,详细实施步骤如下:
步骤1,问题与答案文本采集。为了保证数据的多样性与普适性,本实施首先从社交网络平台中抓取大量的包含多个答案的问题文本与对应的答案文本,并根据人工规则选择问题的标准答案。问题,答案与答案标签共同组成样本数据集D。数据集中的每条样本包括网络文本中的问题和答案,样本示例如图3所示。最后将所有得到的数据按照8:1:1进行分割形成训练集、验证集和测试集。
步骤2,数据预处理。为了能保证数据更适用于所设计的模型训练。首先对数据进行数据清洗,保留只包含问题与答案以及答案标签的数据,利用nltk库对问题和答案进行分句处理,并剔除只包含两句以下的数据组,以便于后续进行消融实验的验证。最后,将数据集分别处理为三元组的形式,以便于后续步骤的应用。一个三元组数据包括问题文本,答案文本和答案文本所对应的标签。
步骤3,模型训练。利用步骤2处理后的数据集对本发明提出的基于层次胶囊网络与多视图信息融合的答案句子选择模型进行训练,该步骤的实施可以分为以下子步骤:
子步骤3-1,构建数据层。首先将BERT模型在大型答案选择语料库ASNQ上进行微调优化,使微调出来的模型参数更加适应于下游任务。然后利用微调后的BERT模型来提取词汇表,将三元组中问题和答案的每个单词序列转化为词向量表示。在BERT模型中,输入的句子对被组合成一个序列,句子之间由一个特殊的分隔符[SEP]分开。句子的开头需要手动添加[CLS]标记,这意味着序列的聚合表示。在整个MPT-HCN模型实验中,需要对数据进行预处理,以使所有类型保持一致。因此,所有数据集的输入形式为[[CLS],A,[SEP],B,[SEP]],其中A和B分别代表问题和相应候选集中的一个候选答案。
子步骤3-3,构建文本编码层。本实施例需要采用BERT编码器来编码双向语境信息。该编码器由N个相同的层组成。每层由两部分组成:多头注意力机制和位置全连接前馈神经网络,并采用残差连接来避免因网络层过深而造成的原始信息损失。通过计算问题向量Q和键向量K之间的匹配关系,得到加权矩阵Attention(Q,K,V),然后输出每个值矩阵V对应的headi的加权值:
同时,多头注意是由多个注意层串联而成的,各注意层的不同参数矩阵所得到的矢量信息叠加后得到编码器第n层上下文深度表示:
Mn=MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
Hn=LayerNormMn+Fn
子步骤3-4,构建层次胶囊网络层。层次胶囊网络层主要包含三类胶囊:信息聚合胶囊网络、句段聚合胶囊网络和类别聚合胶囊网络,它们通过共享学习同一类特征参数,以保证特定对象的聚类性能。
在信息聚合胶囊网络中,首先需要对固定词的隐含信息进行聚类。该网络使用HN作为输入,并设置胶囊的数量为k,每个胶囊的神经元为dmodel。然后,将编码器的输出状态 作为胶囊网络的输入层,并得到预测向量:
其次,预测向量uj|i被输入动态路由协议,并确定耦合系数cij。该系数可以表明信息被传递到下一层的概率。
接着,将所有输入信息进行加权求和:
总输入sj在挤压函数中执行非线性变换,以确保向量的方向保持不变。
最后,根据得到的胶囊j的向量输出vj,学习权重bij被更新并传递给动态路由的下一个迭代。
bij=bij+uj|ivj
在句段聚合胶囊网络中,通过使每个胶囊中的神经元保持固定,并逐渐减少囊的数量,而非合并操作,从而促进更好的类别输出。将信息聚合胶囊网络的输出HI作为该网络的输入,其中nI为胶囊个数,dI为每个胶囊神经元个数,由此可得预测向量:
相同的动态路由机制也被用于该网络:
vt=Dynamic Routing(ut|j,iterS)
HHCN=||HC||
子步骤3-5,构建多视图信息融合层。由于BERT能够有效地学习双向语义信息,因此聚合了通过第nth层中整个序列学习的信息。对于在BERT编码器第nth层中获得的编码信息且由此,可以得到在[CLS]位置的各层编码器的编码信息集集合:
其中[,]为串联操作。
为了让编码器更高效地学习语义信息,本实施使用平均池化来获得不同编码层的信息权重,并应用Softmax函数对权重进行归一化以获得ω:
ω=Softmax(Average(Hcls))
接着,采用线性层来进行多视图信息映射,并将一般的信息表示被映射到特定的编码器层表示:
Ccls=tanh(WclsHcls+bcls)
子步骤3-6,联合训练损失。本实例采用随机初始化的方式对所有的参数进行初始化,范围在[-0.1,0.1],采用Adam优化器进行梯度反向传播更新模型参数,初始学习率设置为2e-5,初始Dropout值为0.1,并使用最大梯度范数为1的梯度进行剪切。当训练损失不再下降或训练轮数超过30轮,模型训练结束,并保存在验证集上表现最好的模型。
步骤4,模型测试与答案句子选择。根据步骤3所得到的最佳验证模型,对所使用的数据集进行答案句子选择。首先对数据进行步骤2的数据处理,并构建模型的输入形式,输入训练好的模型中,从而对答案句子进行选择,并将模型所选答案与标准答案进行类平均精度(MPR)和平均倒数排名(MRR)计算,检验答案句子选择的性能。具体的计算方法为:
基于相同的发明构思,本发明提供了一种层次胶囊与多视图信息融合的答案句子选择装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的层次胶囊与多视图信息融合的答案句子选择方法。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,包括以下步骤:
步骤1:问答对文本采集
通过互联网采集包含多个答案的问题文本与答案文本,积累样本数据集;数据集中的每条样本包括网络文本中的问题和答案;分割数据集形成训练集、验证集和测试集;
步骤2:数据预处理
对数据集中每一个样本进行预处理,并构造三元组数据,一个三元组数据包括问题文本,答案文本和答案文本所对应的标签;
步骤3:模型训练
首先将问题和答案进行分句处理,并利用BERT双向语言模型生成上下文嵌入向量,其中BERT模型使用大规模答案选择语料库ASNQ进行微调优化;然后在编码层,利用BERT编码器来编码双向上下文语义信息,以进一步获得词与词之间的信息依赖;接着在层次胶囊网络HCN中,通过信息聚合胶囊网络InforCaps、句段聚合胶囊网络SegCaps和类别聚合胶囊网络CateCaps共享学习同一类特征参数;信息聚合胶囊层的动态路由机制聚合每个词的高维稀疏语义,以获得词之间的初步聚类特征;在句段聚合胶囊层对聚类后的丰富词汇特征继续进行二次聚类,逐渐减少胶囊的数量,得到一个较短的句子长度,但获得丰富的信息,最后将胶囊层输入到类别胶囊层进行分类,由此保证特定对象的聚类性能;同时,在多视图信息融合层,第一步计算整个BERT编码器中所有编码中间层输出的权重并进行归一化处理,第二步利用该权重对各编码层输出的信息进行加权融合得到最终的信息表,第三步采用激活函数Relu对多视图信息融合层得到的加权信息表示进行处理并将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中进行分类,由此能够增强编码器中间层信息的学习;最后,输出层由层次胶囊网络层和多视图信息融合层的输出联合组成,使用边际损失和交叉熵损失的联合损失函数来训练所述模型;
步骤4:模型测试与答案句子选择
根据训练所得到的最佳模型,对包含多个答案的问题进行答案句子选择。
2.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤1中,获取数据集时首先从社交网络平台中抓取大量的包含多个答案的问题文本与对应的答案文本,并根据人工规则选择问题的标准答案;分割数据集时训练集、验证集和测试集比例为8∶1∶1。
3.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤2中预处理的过程为:对数据进行数据清洗,保留只包含问题与答案以及答案标签的数据,利用nltk库对问题和答案进行分句处理,并剔除只包含两句以下的数据组。
4.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤3包括如下子步骤:
子步骤3-1,构建数据层
首先将BERT模型在大型答案选择语料库ASNQ上进行微调优化,使微调出来的模型参数更加适应于下游任务;然后利用微调后的BERT模型来提取词汇表,将三元组中问题和答案的每个单词序列转化为词向量表示;在BERT模型中,输入的句子对被组合成一个序列,句子之间由一个特殊的分隔符[SEP]分开;句子的开头手动添加[CLS]标记,这意味着序列的聚合表示;在整个MPT-HCN模型实验中,对数据进行预处理,以使所有类型保持一致;因此,所有数据集的输入形式为[[CLS],A,[SEP],B,[SEP]],其中A和B分别代表问题和相应候选集中的一个候选答案;
子步骤3-2,构建文本嵌入层
子步骤3-3,构建文本编码层
采用BERT编码器来编码双向语境信息;该编码器由N个相同的层组成,每层由两部分组成:多头注意力机制和位置全连接前馈神经网络,并采用残差连接来避免因网络层过深而造成的原始信息损失;通过计算问题向量Q和键向量K之间的匹配关系,得到加权矩阵Attention(Q,K,V),然后输出每个值矩阵V对应的headi的加权值:
同时,多头注意是由多个注意层串联而成的,各注意层的不同参数矩阵所得到的矢量信息叠加后得到编码器第n层上下文深度表示:
Mn=MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,WO为可学习参数,dk是一个常量参数;并且多头注意机制的实现需要通过一个由两个线性层和Relu()激活函数组成的全连接前向神经网络;最后,进行残差连接和层归一化处理,以确保信息能够完全传输到第n+1层;
Hn=LayerNormMn+Fn
子步骤3-4,构建层次胶囊网络层
层次胶囊网络层包含三类胶囊:信息聚合胶囊网络、句段聚合胶囊网络和类别聚合胶囊网络,它们通过共享学习同一类特征参数,以保证特定对象的聚类性能;
Wij为可学习化参数;
其次,预测向量uj|i被输入动态路由协议,并确定耦合系数cij,该系数表明信息被传递到下一层的概率:
接着,将所有输入信息进行加权求和:
总输入sj在挤压函数中执行非线性变换,以确保向量的方向保持不变:
最后,根据得到的胶囊j的向量输出vj,学习权重bij被更新并传递给动态路由的下一个迭代:
bij=bij+uj|ivj
在句段聚合胶囊网络中,通过使每个胶囊中的神经元保持固定,并逐渐减少囊的数量,而非合并操作,从而促进更好的类别输出;将信息聚合胶囊网络的输出HI作为该网络的输入,其中nI为胶囊个数,dI为每个胶囊神经元个数,由此可得预测向量:
Wjt为可学习化参数;
相同的动态路由机制也被用于该网络:
vt=Dynamic Routing(ut|j,iterS)
vt为胶囊t的向量输出;
HHCN=||HC||
子步骤3-5,构建多视图信息融合层
由于BERT能够有效地学习双向语义信息,因此第n层编码中cls位置向量表示聚合了通过第nth层中整个序列学习的信息;对于在BERT编码器第nth层中获得的编码信息 且由此,得到在[CLS]位置的各层编码器的编码信息集集合:
其中[,]为串联操作;
使用平均池化来获得不同编码层的信息权重,并应用Softmax函数对权重进行归一化以获得ω:
ω=Softmax(Average(Hcls))
接着,采用线性层来进行多视图信息映射,并将一般的信息表示被映射到特定的编码器层表示:
Ccls=tanh(WclsHcls+bcls)
子步骤3-6,联合训练损失
采用随机初始化的方式对所有的参数进行初始化,范围在[-0.1,0.1],采用Adam优化器进行梯度反向传播更新模型参数,初始学习率设置为2e-5,初始Dropout值为0.1,并使用最大梯度范数为1的梯度进行剪切;当训练损失不再下降或训练轮数超过一定数量,模型训练结束,并保存在验证集上表现最好的模型。
5.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤4具体包括如下过程:
首先对数据进行步骤2的数据处理,并构建模型的输入形式,输入步骤3训练好的模型中,从而对答案句子进行选择。
7.层次胶囊与多视图信息融合的答案句子选择装置,所述装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现权利要求1-6中任意一项所述的层次胶囊与多视图信息融合的答案句子选择方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211113668.8A CN115455162A (zh) | 2022-09-14 | 2022-09-14 | 层次胶囊与多视图信息融合的答案句子选择方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211113668.8A CN115455162A (zh) | 2022-09-14 | 2022-09-14 | 层次胶囊与多视图信息融合的答案句子选择方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115455162A true CN115455162A (zh) | 2022-12-09 |
Family
ID=84303390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211113668.8A Pending CN115455162A (zh) | 2022-09-14 | 2022-09-14 | 层次胶囊与多视图信息融合的答案句子选择方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455162A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235670A (zh) * | 2023-11-10 | 2023-12-15 | 南京信息工程大学 | 基于细粒度交叉注意力的医学影像问题视觉解答方法 |
-
2022
- 2022-09-14 CN CN202211113668.8A patent/CN115455162A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235670A (zh) * | 2023-11-10 | 2023-12-15 | 南京信息工程大学 | 基于细粒度交叉注意力的医学影像问题视觉解答方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111554268B (zh) | 基于语言模型的语言识别方法、文本分类方法和装置 | |
CN111144448B (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN113688244B (zh) | 基于神经网络的文本分类方法、系统、设备及存储介质 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN110647619A (zh) | 一种基于问题生成和卷积神经网络的常识问答方法 | |
CN112000772B (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN113806494B (zh) | 一种基于预训练语言模型的命名实体识别方法 | |
CN111339281A (zh) | 一种多视角融合的阅读理解选择题的答案选择方法 | |
CN113204633B (zh) | 一种语义匹配蒸馏方法及装置 | |
CN113297364A (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN114238649B (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN112000770A (zh) | 面向智能问答的基于语义特征图的句子对语义匹配方法 | |
CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 | |
CN112001166A (zh) | 面向政务咨询服务的智能问答句子对语义匹配方法和装置 | |
CN112307760A (zh) | 基于深度学习的财务报告情感分析方法、装置及终端 | |
CN116341562A (zh) | 一种基于Unilm语言模型的相似问题生成方法 | |
CN117609421A (zh) | 基于大语言模型的电力专业知识智能问答系统构建方法 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN117807232A (zh) | 商品分类方法、商品分类模型构建方法及装置 | |
CN117634615A (zh) | 一种基于模态无关对比学习的多任务代码检索方法 | |
CN115408603A (zh) | 一种基于多头自注意力机制的在线问答社区专家推荐方法 | |
CN115455162A (zh) | 层次胶囊与多视图信息融合的答案句子选择方法与装置 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |