CN110472010A

CN110472010A - 一种实现文本匹配的可解释神经网络的方法

Info

Publication number: CN110472010A
Application number: CN201910649105.2A
Authority: CN
Inventors: 毛晓柳; 张鹏
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-11-19
Anticipated expiration: 2039-07-18
Also published as: CN110472010B

Abstract

本发明公开了一种实现文本匹配的可解释神经网络的方法，包括以下步骤：将深层卷积网络映射为张量网络；将张量网络看作图，利用最小割理论分析语言特点(远距离相关和近距离相关)与深层卷积网络的通道数的关系；针对匹配任务的数据集(比如QA任务)，利用量子纠缠熵量化句子对的语言特点，纠缠熵越大，句子对属于远距离相关，纠缠熵越小，句子对属于近距离相关；从而将数据集分为远距离相关的子数据集和近距离相关的子数据集，根据不同的子数据集动态的调整网络架构，即卷积网络每层的通道数。

Description

一种实现文本匹配的可解释神经网络的方法

技术领域

本发明涉及自然语言匹配任务的技术领域，特别是涉及通过张量网络实现语言匹配的可解释神经网络的方法。

背景技术

神经网络体系结构在语言建模和匹配中得到了广泛的应用，如问答、信息检索和语义分析等。虽然这些方法已经取得了一些成功，但是性能的提高在很大程度上依赖于参数调优。为了缓解这种情况，研究人员倾向于从不同的角度来看待神经网络，以获得新的直觉和见解。特别是建立了神经网络与量子力学的基本联系。例如，神经网络被用来解决量子多体问题，而量子力学被用来解释神经网络的表达能力。这种联系可以帮助我们从量子理论的深奥数学中研究神经网络。最近，Levine等人展示了神经网络可以映射到张量网络(TN，一种近似量子多体系统的数学工具)。因此，神经网络体系结构的属性(如连通性、网络中的信道数)可以用TN图来解释。

上述思想启发了一种基于量子多体波函数的语言建模方法，即QMWFLM。虽然QMWF-LM构造了一个高阶张量，它对所有单词的复合意义的概率进行了编码。设计一种既能反映对语言特征的理解，又能指导不同隐层卷积核个数等网络结构设计的分析方法是一项具有挑战性的工作。

发明内容

基于QMWF-LM中如此大的张量空间作为一个虚拟概念，可以进行深入的分析。本发明将QMWF-LM与张量网络联系起来，利用最小割分析等图论工具来解释QMWF-LM。具体地说，对于短程相关，在最小割分析的基础上，应该在相对较浅的层分配更多的核，而在相对较深的层分配更多的核，以实现长期相关性。直观地说,在问答系统等文本匹配任务,可以参考一些简单的问答短程相关性对许多常见的问题和答案的句子之间,可以匹配本地一些重叠的特性(例如,附近的一个词或词的统计组合如语法)。而长程相关则是指具有较少常用词的问答对，其有效匹配可能需要从全局上下文中提取更高层次的语义信息。

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于卷积网络模型的可解释性方法，搭建数据集特点与卷积神经网络之间的联系，不同的数据集分别应用不同的卷积网络，运用卷积网络模型训练文本分类模型，并利用反向传播、随机梯度下降优化方法训练网络模型得到最优模型在测试集上预测结果，最终得到更加准确的分类结果。

本发明的目的是通过以下技术方案来实现的，包括如下步骤：

S1、通过卷积网络相关基础信息建立张量网络模型；

S2、采用最小割方法将张量网络视为图形处理分别获得短程相关类和远程相关类；

S3、分别提取短程相关类和远程相关类中参数确定attention matrix数学模型，

3.1、通过如下公式建立句子对的全局表示：

给定包含单词的n个单词序列({w_i∈R^m}(i∈[n])，把它拆分成两部分V_Q∪V_A＝{w₁,...,w_n}，这里V_Q＝{w₁,...,w_b},V_A＝{w₁,...,w_n-b}；

3.2、利用attention matrix和熵量化句子对之间的相关性通过如下公式获得Attention矩阵；

其中，b表示问题句的句子长度，n-b表示问题句的句子长度，k表示词向量的维度；

3.3、通过如下公式计算纠缠熵。

S∈(0,ln(r)),S_max＝ln(r)；

3.4、根据纠缠熵划分远程相关的子数据集和近程相关的子数据集；

3.5、根据远程相关的子数据集确定卷积网络中相应的分配通道数量；

3.6、根据近程相关的子数据集确定卷积网络中相应的分配通道数量。

所述3.1步骤中50维词向量由word2vec在English Wikimedia dump上训练，其中词汇表外的单词由(-0.25,0.25)范围内的均匀分布随机初始化。

有益效果：

本发明为如何根据数据集可选择的网络架构提供了可解释机制，能够将数据集中的句子对作为一种先验知识，从而使得卷积网络映射这种先验知识，为展未来量子人工智能系统及匹配任务分析系统提供了新思路。

附图说明

图1为本发明的方法流程图；

图2显示了本发明设计的神经网络模型；

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。具体步骤如下：

如图1所示，本发明提供一种实现文本匹配的可解释神经网络的方法，包括如下步骤，

S1、通过卷积网络相关基础信息建立张量网络模型；在深度网络中，卷积网络是常常应用于信息检索、文本匹配的网络。为了分析卷积网络中通道数与数据特征之间的关系，首先将卷积网络用张量网络表示。

S2、采用最小割方法将张量网络视为图形处理分别获得短程相关类和远程相关类；将张量网络看作图并基于最小割理论分析这个图。首先通过最小割方法理论分析语言特征(远程相关和短程相关)与深度卷积网络的参数(通道数)的关系。可以总结出：对于短期相关，在最小割分析的基础上，应在相对较浅的层分配更多的通道数，而在相对较深的层分配更多的通道数，以实现远程相关。

S3、分别提取短程相关类和远程相关类中参数确定attention matrix数学模型，即如图2所示：

3.1、通过如下公式建立句子对的全局表示：

在卷积网络中应用我们的理论。针对匹配任务数据集(比如TREC-QA数据集和YAHOO-QA数据集)，通过Attention矩阵和量子纠缠熵量化数据集中每条句子对的语言特征(长程相关或是短程相关)。纠缠熵是高阶张量之间的一种纠缠测度，而高阶张量可以形成维突变。所以纠缠熵的精确计算是不切实际的。因此，我们构造了一个更简单的attentionmatrix，在此基础上，由两个子系统问题句和答案句之间不同粒子(输入词)的相关性计算纠缠熵。方法如下，得到句子对的全局表示。50维词向量由word2vec在English Wikimediadump上训练，其中词汇表外的单词由(-0.25,0.25)范围内的均匀分布随机初始化。由此得到句子对中每个单词的词向量。给定包含单词的n个单词序列(例如，一个句子对){w_i∈R^m}(i∈[n])，把它拆分成两部分V_Q∪V_A＝{w₁,...,w_n}，这里V_Q＝{w₁,...,w_b},V_A＝{w₁,...,w_n-b}.

证明熵与attention matrix之间的联系。定理：在attention matrix A中，每个元素A_i,j代表句子0中第i个单词和句子1中第j个单词的匹配得分。F₀∈R^d×s1,F₁∈R^d×s2分别表示句子0和句子1的句子矩阵。d是一个单词的维数，s1或s2是一个句子的长度。

A_i,j＝match-score(F₀[:,i],F₁[:,j])，函数match-score可以用多种方式定义。

声明：矩阵T可以看作是子系统V_Q和V_A的attention matrix。

证明0和F1分别用基向量表示子系统V_Q和V_A的矩阵。φi和φ_j分别对应的概率振幅为α_i和β_j，T_i,j＝α_i×β_j。每一项T_i,j表示子系统V_Q的基向量与子系统V_A的基向量组合的系数。T_i,j＝match-score(F₀[:,i],F₁[:,j])。

函数匹配度可以定义为两个子系统基向量对应的概率幅值的乘积，也就是T_i,j＝α_i×β_j。

3.3、通过如下公式计算纠缠熵；

S∈(0,ln(r)),S_max＝ln(r)；

表1显示了不同数据集之间的句子对匹配的对比结果。

Claims

1.一种实现文本匹配的可解释神经网络的方法，包括如下步骤，

S1、通过卷积网络相关基础信息建立张量网络模型；

S3、分别提取短程相关类和远程相关类中参数确定attention matrix数学模型，其特征在于：

3.1、通过如下公式建立句子对的全局表示：

3.3、通过如下公式计算纠缠熵。

S∈(0,ln(r)),S_max＝ln(r)；

2.根据权利要求1所述的一种实现文本匹配的可解释神经网络的方法，其特征在于:所述3.1步骤中50维词向量由word2vec在English Wikimedia dump上训练，其中词汇表外的单词由(-0.25,0.25)范围内的均匀分布随机初始化。