CN110472010A - 一种实现文本匹配的可解释神经网络的方法 - Google Patents

一种实现文本匹配的可解释神经网络的方法 Download PDF

Info

Publication number
CN110472010A
CN110472010A CN201910649105.2A CN201910649105A CN110472010A CN 110472010 A CN110472010 A CN 110472010A CN 201910649105 A CN201910649105 A CN 201910649105A CN 110472010 A CN110472010 A CN 110472010A
Authority
CN
China
Prior art keywords
network
sentence
data set
range
sub data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910649105.2A
Other languages
English (en)
Other versions
CN110472010B (zh
Inventor
毛晓柳
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910649105.2A priority Critical patent/CN110472010B/zh
Publication of CN110472010A publication Critical patent/CN110472010A/zh
Application granted granted Critical
Publication of CN110472010B publication Critical patent/CN110472010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实现文本匹配的可解释神经网络的方法,包括以下步骤:将深层卷积网络映射为张量网络;将张量网络看作图,利用最小割理论分析语言特点(远距离相关和近距离相关)与深层卷积网络的通道数的关系;针对匹配任务的数据集(比如QA任务),利用量子纠缠熵量化句子对的语言特点,纠缠熵越大,句子对属于远距离相关,纠缠熵越小,句子对属于近距离相关;从而将数据集分为远距离相关的子数据集和近距离相关的子数据集,根据不同的子数据集动态的调整网络架构,即卷积网络每层的通道数。

Description

一种实现文本匹配的可解释神经网络的方法
技术领域
本发明涉及自然语言匹配任务的技术领域,特别是涉及通过张量网络实现语言匹配的可解释神经网络的方法。
背景技术
神经网络体系结构在语言建模和匹配中得到了广泛的应用,如问答、信息检索和语义分析等。虽然这些方法已经取得了一些成功,但是性能的提高在很大程度上依赖于参数调优。为了缓解这种情况,研究人员倾向于从不同的角度来看待神经网络,以获得新的直觉和见解。特别是建立了神经网络与量子力学的基本联系。例如,神经网络被用来解决量子多体问题,而量子力学被用来解释神经网络的表达能力。这种联系可以帮助我们从量子理论的深奥数学中研究神经网络。最近,Levine等人展示了神经网络可以映射到张量网络(TN,一种近似量子多体系统的数学工具)。因此,神经网络体系结构的属性(如连通性、网络中的信道数)可以用TN图来解释。
上述思想启发了一种基于量子多体波函数的语言建模方法,即QMWFLM。虽然QMWF-LM构造了一个高阶张量,它对所有单词的复合意义的概率进行了编码。设计一种既能反映对语言特征的理解,又能指导不同隐层卷积核个数等网络结构设计的分析方法是一项具有挑战性的工作。
发明内容
基于QMWF-LM中如此大的张量空间作为一个虚拟概念,可以进行深入的分析。本发明将QMWF-LM与张量网络联系起来,利用最小割分析等图论工具来解释QMWF-LM。具体地说,对于短程相关,在最小割分析的基础上,应该在相对较浅的层分配更多的核,而在相对较深的层分配更多的核,以实现长期相关性。直观地说,在问答系统等文本匹配任务,可以参考一些简单的问答短程相关性对许多常见的问题和答案的句子之间,可以匹配本地一些重叠的特性(例如,附近的一个词或词的统计组合如语法)。而长程相关则是指具有较少常用词的问答对,其有效匹配可能需要从全局上下文中提取更高层次的语义信息。
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于卷积网络模型的可解释性方法,搭建数据集特点与卷积神经网络之间的联系,不同的数据集分别应用不同的卷积网络,运用卷积网络模型训练文本分类模型,并利用反向传播、随机梯度下降优化方法训练网络模型得到最优模型在测试集上预测结果,最终得到更加准确的分类结果。
本发明的目的是通过以下技术方案来实现的,包括如下步骤:
S1、通过卷积网络相关基础信息建立张量网络模型;
S2、采用最小割方法将张量网络视为图形处理分别获得短程相关类和远程相关类;
S3、分别提取短程相关类和远程相关类中参数确定attention matrix数学模型,
3.1、通过如下公式建立句子对的全局表示:
给定包含单词的n个单词序列({wi∈Rm}(i∈[n]),把它拆分成两部分VQ∪VA={w1,...,wn},这里VQ={w1,...,wb},VA={w1,...,wn-b};
3.2、利用attention matrix和熵量化句子对之间的相关性通过如下公式获得Attention矩阵;
其中,b表示问题句的句子长度,n-b表示问题句的句子长度,k表示词向量的维度;
3.3、通过如下公式计算纠缠熵。
S∈(0,ln(r)),Smax=ln(r);
3.4、根据纠缠熵划分远程相关的子数据集和近程相关的子数据集;
3.5、根据远程相关的子数据集确定卷积网络中相应的分配通道数量;
3.6、根据近程相关的子数据集确定卷积网络中相应的分配通道数量。
所述3.1步骤中50维词向量由word2vec在English Wikimedia dump上训练,其中词汇表外的单词由(-0.25,0.25)范围内的均匀分布随机初始化。
有益效果:
本发明为如何根据数据集可选择的网络架构提供了可解释机制,能够将数据集中的句子对作为一种先验知识,从而使得卷积网络映射这种先验知识,为展未来量子人工智能系统及匹配任务分析系统提供了新思路。
附图说明
图1为本发明的方法流程图;
图2显示了本发明设计的神经网络模型;
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。具体步骤如下:
如图1所示,本发明提供一种实现文本匹配的可解释神经网络的方法,包括如下步骤,
S1、通过卷积网络相关基础信息建立张量网络模型;在深度网络中,卷积网络是常常应用于信息检索、文本匹配的网络。为了分析卷积网络中通道数与数据特征之间的关系,首先将卷积网络用张量网络表示。
S2、采用最小割方法将张量网络视为图形处理分别获得短程相关类和远程相关类;将张量网络看作图并基于最小割理论分析这个图。首先通过最小割方法理论分析语言特征(远程相关和短程相关)与深度卷积网络的参数(通道数)的关系。可以总结出:对于短期相关,在最小割分析的基础上,应在相对较浅的层分配更多的通道数,而在相对较深的层分配更多的通道数,以实现远程相关。
S3、分别提取短程相关类和远程相关类中参数确定attention matrix数学模型,即如图2所示:
3.1、通过如下公式建立句子对的全局表示:
给定包含单词的n个单词序列({wi∈Rm}(i∈[n]),把它拆分成两部分VQ∪VA={w1,...,wn},这里VQ={w1,...,wb},VA={w1,...,wn-b};
在卷积网络中应用我们的理论。针对匹配任务数据集(比如TREC-QA数据集和YAHOO-QA数据集),通过Attention矩阵和量子纠缠熵量化数据集中每条句子对的语言特征(长程相关或是短程相关)。纠缠熵是高阶张量之间的一种纠缠测度,而高阶张量可以形成维突变。所以纠缠熵的精确计算是不切实际的。因此,我们构造了一个更简单的attentionmatrix,在此基础上,由两个子系统问题句和答案句之间不同粒子(输入词)的相关性计算纠缠熵。方法如下,得到句子对的全局表示。50维词向量由word2vec在English Wikimediadump上训练,其中词汇表外的单词由(-0.25,0.25)范围内的均匀分布随机初始化。由此得到句子对中每个单词的词向量。给定包含单词的n个单词序列(例如,一个句子对){wi∈Rm}(i∈[n]),把它拆分成两部分VQ∪VA={w1,...,wn},这里VQ={w1,...,wb},VA={w1,...,wn-b}.
3.2、利用attention matrix和熵量化句子对之间的相关性通过如下公式获得Attention矩阵;
其中,b表示问题句的句子长度,n-b表示问题句的句子长度,k表示词向量的维度;
证明熵与attention matrix之间的联系。定理:在attention matrix A中,每个元素Ai,j代表句子0中第i个单词和句子1中第j个单词的匹配得分。F0∈Rd×s1,F1∈Rd×s2分别表示句子0和句子1的句子矩阵。d是一个单词的维数,s1或s2是一个句子的长度。
Ai,j=match-score(F0[:,i],F1[:,j]),函数match-score可以用多种方式定义。
声明:矩阵T可以看作是子系统VQ和VA的attention matrix。
证明0和F1分别用基向量表示子系统VQ和VA的矩阵。φi和φj分别对应的概率振幅为αi和βj,Ti,j=αi×βj。每一项Ti,j表示子系统VQ的基向量与子系统VA的基向量组合的系数。Ti,j=match-score(F0[:,i],F1[:,j])。
函数匹配度可以定义为两个子系统基向量对应的概率幅值的乘积,也就是Ti,j=αi×βj
3.3、通过如下公式计算纠缠熵;
S∈(0,ln(r)),Smax=ln(r);
3.4、根据纠缠熵划分远程相关的子数据集和近程相关的子数据集;
3.5、根据远程相关的子数据集确定卷积网络中相应的分配通道数量;
3.6、根据近程相关的子数据集确定卷积网络中相应的分配通道数量。
表1显示了不同数据集之间的句子对匹配的对比结果。

Claims (2)

1.一种实现文本匹配的可解释神经网络的方法,包括如下步骤,
S1、通过卷积网络相关基础信息建立张量网络模型;
S2、采用最小割方法将张量网络视为图形处理分别获得短程相关类和远程相关类;
S3、分别提取短程相关类和远程相关类中参数确定attention matrix数学模型,其特征在于:
3.1、通过如下公式建立句子对的全局表示:
给定包含单词的n个单词序列({wi∈Rm}(i∈[n]),把它拆分成两部分VQ∪VA={w1,...,wn},这里VQ={w1,...,wb},VA={w1,...,wn-b};
3.2、利用attention matrix和熵量化句子对之间的相关性通过如下公式获得Attention矩阵;
其中,b表示问题句的句子长度,n-b表示问题句的句子长度,k表示词向量的维度;
3.3、通过如下公式计算纠缠熵。
S∈(0,ln(r)),Smax=ln(r);
3.4、根据纠缠熵划分远程相关的子数据集和近程相关的子数据集;
3.5、根据远程相关的子数据集确定卷积网络中相应的分配通道数量;
3.6、根据近程相关的子数据集确定卷积网络中相应的分配通道数量。
2.根据权利要求1所述的一种实现文本匹配的可解释神经网络的方法,其特征在于:所述3.1步骤中50维词向量由word2vec在English Wikimedia dump上训练,其中词汇表外的单词由(-0.25,0.25)范围内的均匀分布随机初始化。
CN201910649105.2A 2019-07-18 2019-07-18 一种实现文本匹配的可解释神经网络的方法 Active CN110472010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910649105.2A CN110472010B (zh) 2019-07-18 2019-07-18 一种实现文本匹配的可解释神经网络的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910649105.2A CN110472010B (zh) 2019-07-18 2019-07-18 一种实现文本匹配的可解释神经网络的方法

Publications (2)

Publication Number Publication Date
CN110472010A true CN110472010A (zh) 2019-11-19
CN110472010B CN110472010B (zh) 2022-05-10

Family

ID=68509673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910649105.2A Active CN110472010B (zh) 2019-07-18 2019-07-18 一种实现文本匹配的可解释神经网络的方法

Country Status (1)

Country Link
CN (1) CN110472010B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256867A (zh) * 2020-09-27 2021-01-22 华为技术有限公司 文本分类模型的训练方法、系统及相关设备
CN112492612A (zh) * 2020-11-23 2021-03-12 中国联合网络通信集团有限公司 资源分配方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798385A (zh) * 2017-12-08 2018-03-13 电子科技大学 基于块张量分解的循环神经网络稀疏连接方法
WO2018217829A1 (en) * 2017-05-23 2018-11-29 Intel Corporation Methods and apparatus for enhancing a neural network using binary tensor and scale factor pairs
CN109086463A (zh) * 2018-09-28 2018-12-25 武汉大学 一种基于区域卷积神经网络的问答社区标签推荐方法
CN110019772A (zh) * 2017-08-14 2019-07-16 普天信息技术有限公司 一种文本情绪分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018217829A1 (en) * 2017-05-23 2018-11-29 Intel Corporation Methods and apparatus for enhancing a neural network using binary tensor and scale factor pairs
CN110019772A (zh) * 2017-08-14 2019-07-16 普天信息技术有限公司 一种文本情绪分类方法及系统
CN107798385A (zh) * 2017-12-08 2018-03-13 电子科技大学 基于块张量分解的循环神经网络稀疏连接方法
CN109086463A (zh) * 2018-09-28 2018-12-25 武汉大学 一种基于区域卷积神经网络的问答社区标签推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DINGCHENG LI.ETL: "MfeCNN: Mixture Feature Embedding Convolutional Neural Network for Data Mapping", 《IEEE TRANSACTIONS ON NANOBIOSCIENCE》 *
WEMERSON MARINHO.ET.L: "A Compact Encoding for Efficient Character-level Deep Text Classification", 《 2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 *
吴飞等: "深度学习的可解释性", 《航空兵器》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256867A (zh) * 2020-09-27 2021-01-22 华为技术有限公司 文本分类模型的训练方法、系统及相关设备
CN112492612A (zh) * 2020-11-23 2021-03-12 中国联合网络通信集团有限公司 资源分配方法和装置
CN112492612B (zh) * 2020-11-23 2023-07-21 中国联合网络通信集团有限公司 资源分配方法和装置

Also Published As

Publication number Publication date
CN110472010B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
Govaert et al. An EM algorithm for the block mixture model
CN109886020A (zh) 基于深度神经网络的软件漏洞自动分类方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
US9536201B2 (en) Identifying associations in data and performing data analysis using a normalized highest mutual information score
WO2022001333A1 (zh) 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN110019843A (zh) 知识图谱的处理方法及装置
CN110889282B (zh) 一种基于深度学习的文本情感分析方法
CN105912524B (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN112988917B (zh) 一种基于多种实体上下文的实体对齐方法
CN109447098B (zh) 一种基于深度语义嵌入的图像聚类算法
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN111241303A (zh) 一种大规模非结构化文本数据的远程监督关系抽取方法
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
Balamurugan et al. Performance analysis of cart and C5. 0 using sampling techniques
CN110472010A (zh) 一种实现文本匹配的可解释神经网络的方法
Liu et al. An advantage actor-critic algorithm with confidence exploration for open information extraction
Sun et al. Graph force learning
CN108563637A (zh) 一种融合三元组知识库的句子实体补全方法
US11914670B2 (en) Methods and systems for product quantization-based compression of a matrix
Ahan et al. Social network analysis using data segmentation and neural networks
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
Zhang et al. Research on high-dimensional model representation with various metamodels
CN112463974A (zh) 知识图谱建立的方法和装置
Pratima et al. Pattern recognition algorithms for cluster identification problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant