CN109697288A - 一种基于深度学习的实例对齐方法 - Google Patents
一种基于深度学习的实例对齐方法 Download PDFInfo
- Publication number
- CN109697288A CN109697288A CN201811589849.1A CN201811589849A CN109697288A CN 109697288 A CN109697288 A CN 109697288A CN 201811589849 A CN201811589849 A CN 201811589849A CN 109697288 A CN109697288 A CN 109697288A
- Authority
- CN
- China
- Prior art keywords
- vector
- pair
- module
- model
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的实例对齐方法,属于信息融合及Web挖掘技术领域。本发明包括如下步骤:构建实例语料集;构建实例对集合;对实例对集合进行预处理;基于段落向量模型Doc2vec和词向量模型Word2vec生成实例对的特征向量;基于训练集实例对训练双向长短期记忆‑卷积神经网络模型;利用经过训练的双向长短期记忆‑卷积神经网络模型对测试集实例对进行实例对齐判别,输出实例对齐结果。本发明将实例对齐问题转换为分类问题,通过双向长短期记忆‑卷积神经网络模型判别实例对齐,提高了实例对齐的识别性能,在信息检索、问答系统、意见挖掘等领域具有广阔的应用前景。
Description
技术领域
本发明涉及一种基于深度学习的实例对齐方法,属于信息融合和Web挖掘技术领域。
背景技术
本体对齐也称本体映射。本体对齐是指识别不同本体的概念、实例、属性的等价关系。实例对齐是本体对齐的重要研究内容,它是指判断不同数据源或本体中的实体是否指称现实世界中的相同事物。
本体对齐技术包括基于语言学的本体对齐方法、基于结构的本体对齐方法、基于推理的对齐方法,以及基于机器学习的本体对齐方法。
基于语言学的本体对齐方法是指根据自然语言处理技术、知识词典来计算本体元素的相似性。基于语言学的本体对齐方法可分为基于字符串的本体对齐方法、基于自然语言处理技术的本体对齐方法、基于知识的本体对齐方法。
基于结构的本体对齐技术是指根据本体结构信息构建本体元素的对应关系。基于推理的本体对齐方法是指使用可满足性求解器来解决本体对齐问题。基于机器学习的本体对齐方法是指利用监督式机器学习或非监督式机器学习方法来判断本体元素的对齐关系。
词向量模型Word2vec是一种构建词向量的神经网络模型。词向量模型Word2vec是基于词语的上下文来生成每个词语的向量表示。文档向量模型Doc2vec是基于词向量模型改进的神经网络模型。文档向量模型Doc2vec能够将一段句子或文档表示为向量。
卷积神经网络是一种前馈神经网络,它主要由输入层、卷积层、池化层、全连接层组成。卷积层用于特征提取,池化层用于降低数据维度,全连接层用于分类。长短期记忆模型是一种用于解决长期依赖问题的神经网络模型。长短期记忆模型是由若干神经网络模块构成的链式结构。在神经网络模块中,长短期记忆模型通过输入门、遗忘门和输出门来实现信息的遗忘和记忆功能。
现有的本体对齐方法包括基于语言学的方法、基于结构的方法、基于推理的方法,以及基于机器学习的方法。实例对齐是本体对齐领域的重要研究问题。目前采用深度学习技术进行实例对齐的研究工作较少。
发明内容
本发明的目的在于针对现有基于深度学习的实例对齐方法存在对齐性能较低的技术缺陷,提出了一种基于深度学习的实例对齐方法。
所述实例对齐是指对于不同数据源的实例词条,判别哪些实例词条描述同一客观事物。
所述深度学习的实例对齐方法,包括如下内容:其一,基于段落向量模型Doc2vec和词向量模型Word2vec来构建文本表示向量,通过段落向量模型Doc2vec模型生成段落层面的文本特征,通过词向量模型Word2vec模型生成文本高频词特征;其二,通过双向长短期记忆-卷积神经网络模型进行不同实例词条的对齐;双向长短期记忆模型(BidirectionalLong-term Short-term Memory Model,简称BiLSTM)能够保留过去和未来的上下文的时序特征;卷积神经网络模型(Convolutional Neural Network,简称CNN)能够选择特征和具有良好的数据泛化能力,双向长短期记忆模型和卷积神经网络模型的融合能够增强语义捕获能力。
本发明的目的是通过以下技术方案实现的。
一种基于深度学习的实例对齐方法,包括如下步骤:
步骤1:由语料采集模块构建实例语料集,具体为:从多个百科网站采集实例词条文件,并将其保存到计算机;
步骤2:由实例对构建模块构建实例对集合,具体为:从百科网站Ei和Ej采集实例词条文件,构建实例对(ei,ej),所有的实例对组成了实例对集合;
其中,ei是来自百科网站Ei的实例词条,ej是来自百科网站Ej的实例词条,i,j为整数;
步骤3:由实例对预处理模块对实例对集合进行预处理;
其中,实例对集合预处理包括数据清洗和中文分词;数据清洗是指过滤掉实例词条中的符号和停用词;符号是指除了中文汉字、字母和阿拉伯数字以外的符号,包括中文标点符号、英文标点符号、括号、引号、星号(*)、井号(#)。停用词是指没有表示实际意义的词语,例如,连词“但是”、介词“在”、感叹词“啊”。
中文分词是指采用分词工具对实例词条进行分词。对于实例对(ei,ej),经预处理后,将该实例对表示为:(wi1,wi2,…,wip,wj1,wj2,….,wjq),其中wi1,wi2,…,wip为实例词条ei中的词语,wj1,wj2,….,wjq为实例词条ej中的词语,p,q为整数;
步骤4:由特征向量生成模块生成训练集实例对的特征向量;
基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量,该特征向量由实例对的段落向量和实例对的高频词向量构成;
步骤4.1:基于段落向量模型Doc2vec生成训练集实例对的段落向量;
对于任一实例对,采用段落向量模型Doc2vec生成实例对的段落向量。将一个实例对看做一个段落进行向量训练。对于实例对(ei,ej),设生成的段落向量表示为Vij,Vij=(y1,y2,…,ym),m为整数,y1,y2,…,ym为实数;
步骤4.2:基于词向量模型Word2vec生成训练集实例对的高频词向量;
对任一实例对,首先,计算实例对包含的词语的频率,并按照词语频率的非升序方式对词语进行排列。然后,提取排列在前面的k个词语。最后,基于词向量模型Word2vec生成k个词语的d维向量,进一步构建实例对的高频词向量。
对于实例对(ei,ej),该实例对的高频词向量Uij表示为:
Uij=(x11,x12,…,x1d,x21,x22,…,x2d,…,xk1,xk2,…,xkd)
其中,(xi1,xi2,…,xid)为第i个词语的d维向量,xij为实数,1≤i≤k,1≤j≤d。
根据实例对的段落向量和实例对的高频词向量来构建实例对的特征向量。对于实例对(ei,ej),该实例对的特征向量Wij为其段落向量Vij和其高频词向量Uij的拼接,即:
Wij=Vij+Uij,其中“+”表示向量拼接;
步骤5:基于训练集实例对,由深度学习模型训练模块训练双向长短期记忆-卷积神经网络模型;
双向长短期记忆-卷积神经网络模型的输入是特征向量。双向长短期记忆-卷积神经网络模型包括隐藏层、卷积层、池化层、全连接层。通过隐藏层捕捉序列特征,通过卷积层的卷积操作提取局部特征,通过池化层的最大池化操作来保留显著特征,通过全连接层输出实例对齐结果。
双向长短期记忆模型不仅能够保持特征的时序语义信息,而且能够捕获文本的上下文信息。卷积神经网络能够捕捉局部相关性,进行局部感知、权值共享,降低噪声。
步骤6:实例对齐判别模块利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行实例对齐判别,输出实例对齐结果。
步骤6.1,构建测试集实例对的特征向量;
对于测试集实例对,如同步骤4基于段落向量模型Doc2vec和词向量模型Word2vec生成测试集实例对的特征向量;
步骤6.2:利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行对齐判别;
通过双向长短期记忆-卷积神经网络模型的全连接层,对测试集实例对进行两个类别的分类判别,两个类别包括实例对齐和实例不对齐,输出实例对对齐结果。
至此,就完成了本方法的全部过程。
基于上述方法构建的一种基于深度学习的实例对齐判别系统,包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块、实例对齐判别模块。语料采集模块与实例对构建模块相连。实例对构建模块与实例对预处理模块相连。实例对预处理模块与特征向量生成模块相连。特征向量生成模块与深度学习模型训练模块相连。深度学习模型训练模块与实例对齐判别模块相连;
所述语料采集模块用于构建实例语料集;
所述实例对构建模块用于对所述语料采集模块构建的实例语料集来构建实例对集合;
所述实例对预处理模块用于对所述实例对构建模块构建的实例对集合进行预处理;
所述特征向量生成模块用于对实例对预处理模块处理的训练集实例对来生成训练集实例对的特征向量;
所述深度学习模型训练模块用于对所述特征向量生成模块生成的训练集实例对的特征向量来训练双向长短期记忆-卷积神经网络模型;
所述实例对齐判别模块对用于对所述深度学习模型训练模块训练的双向长短期记忆-卷积神经网络模型进行测试集实例对的实例对齐判别,输出实例对齐结果。
有益效果
一种基于深度学习的实例对齐方法,与现有本体对齐方法以基于语言学的方法、基于结构的方法、基于推理的方法,以及基于机器学习的方法相比,具有如下有益效果:
1.本发明的实例对齐方法具有开放性,实例词条来自百科网站,不受限于实例词条的领域和主题;
2.本发明基于段落向量模型Doc2vec和词向量模型Word2vec来生成两种不同粒度的文本表示向量,进一步融合为文本表示向量;通过段落向量模型Doc2vec生成段落向量,通过词向量模型Word2vec生成高频词向量,进一步将段落向量和高频词向量融合为文本表示向量;段落向量能够保留段落层面的语义信息,高频词向量能够增强文本的主题信息;这种文本表示向量的构建方法不需要人工构建文本特征,以一种自动方式实现对文本的语义建模,提高了实例对齐方法的灵活性;
3.本发明采用的基于双向长短期记忆-卷积神经网络模型的实例对齐方法中,一方面,双向长短期记忆模型能够保留过去和未来的时序上下文信息;另一方面,卷积神经网络模型具有良好的数据泛化能力,双向长短期记忆模型和卷积神经网络模型的融合能够刻画文本的隐含语义信息;因此,该实例对齐方法提高了实例对齐的判别性能;
4.本发明所述方法能够提高实例对齐的性能,在信息检索、问答系统、意见挖掘等领域具有广阔的应用前景。
附图说明
图1为本发明实施例一种实例对齐判别的流程示意图;
图2为本发明实施例一种实例对齐判别系统的组成结构示意图。
具体实施方式
下面结合实施例对本发明方法的优选实施方式进行详细说明。
实施例
本实施例叙述了采用本发明所述的一种基于深度学习的实例对齐判别方法的流程,如图1所示。
从图1可以看出,具体包括如下步骤:
步骤1:由语料采集模块构建实例语料集;
从多个百科网站采集实例词条文件,并将其保存到计算机;例如,百科网站可以是百度百科网站、互动百科网站、维基百科网站;
步骤2:由实例对构建模块构建实例对集合;
设从百科网站Ei和Ej采集实例词条文件,构建实例对(ei,ej),其中ei是来自百科网站Ei的实例词条,ej是来自百科网站Ej的实例词条;
例如,对于采集的百度百科网站词条集合Eb、互动百科网站词条集合Eh、维基百科网站词条集合Ew,构建实例对(ei,ej),(ei,ek),(ej,ek)。其中,ei是来自百度百科网站的实例词条集合Eb,ej是来自互动百科网站的实例词条集合Eh,ek是来自维基百科网站的实例词条集合Ew,i,j,k为整数。对于来自百度百科网站的实例词条“斯德哥尔摩b”与来自互动百科网站的实例词条“斯德哥尔摩h”,构建实例对(斯德哥尔摩b,斯德哥尔摩h),这两个实例词条指向同一客观事物,构成对齐关系。对于来自百度百科网站的实例词条“苹果b”与来自互动百科网站的实例词条“苹果h”,构建实例对(苹果b,苹果h),“苹果b”是指蔷薇科苹果属果实,“苹果h”是指公司,这两个实例词条指向不同客观事物,不构成对齐关系。
步骤3:由实例对预处理模块对实例对集合进行预处理;
实例对集合预处理包括数据清洗和中文分词。数据清洗是指过滤掉实例词条中的符号和停用词。符号是指除了中文汉字、字母和阿拉伯数字以外的符号,包括中文标点符号、英文标点符号、括号、引号、星号(*)、井号(#)。停用词是指没有表示实际意义的词语,例如,连词“但是”、介词“在”、感叹词“啊”。
中文分词是指采用分词工具对实例词条进行分词。本实施例采用Jieba分词工具进行分词。对于实例对(ei,ej),经预处理后,将该实例对表示为:(wi1,wi2,…,wip,wj1,wj2,….,wjq),其中wi1,wi2,…,wip为实例词条ei中的词语,wj1,wj2,….,wjq为实例词条ej中的词语,p,q为整数;
步骤4:由特征向量生成模块生成训练集实例对的特征向量;
基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量,该特征向量由实例对的段落向量和实例对的高频词向量构成。
步骤4.1:基于段落向量模型Doc2vec生成训练集实例对的段落向量;
对于任一实例对,采用段落向量模型Doc2vec生成实例对的段落向量。将一个实例对看做一个段落进行向量训练。对于实例对(ei,ej),设生成的段落向量表示为Vij,Vij=(y1,y2,…,ym),m为整数,y1,y2,…,ym为实数;
例如,一实例对的50维段落向量为:
(0.8776458,-0.08583971,0.51683015,-0.7163322,0.6889271,0.4393551,-0.8924358,-0.17663553,-0.17723355,0.6971458,-.07159367,-.0010829,0.03765607,0.15656911,0.66449714,0.5947003,0.06735937,-.64578694,-.07207327,0.38739118,-.34428546,1.3648946,0.01405714,0.13922204,0.8339424,-0.16757068,-0.18972449,-.1419887,0.2581704,0.21455202,-0.665458,0.5563938,0.08304888,-0.33694595,0.03604816,-0.02815954,-0.24967998,0.01980442,0.71370316,-0.9094115,-0.38368478,-0.29982486,0.43883863,-0.11248431,-0.6596637,1.2798346,-0.5344551,0.59593713,0.19075109,0.4296212)。
步骤4.2:基于词向量模型Word2vec生成训练集实例对的高频词向量;
对任一实例对,首先,计算实例对包含的词语的频率,并按照词语频率的非升序方式对词语进行排列。然后,提取排列在前面的k个词语。最后,基于词向量模型Word2vec生成k个词语的d维向量,进一步构建实例对的高频词向量。
对于实例对(ei,ej),该实例对的高频词向量Uij表示为:
Uij=(x11,x12,…,x1d,x21,x22,…,x2d,…,xk1,xk2,…,xkd)
其中,(xi1,xi2,…,xid)为第i个词语的d维向量,xij为实数,1≤i≤k,1≤j≤d。
例如:一实例对的高频词向量为:
(0.40692407,-1.4222343,1.3663188,1.0949209,0.35140678,1.493906,-0.36583182,-0.2124255,-0.44481152,0.79690564,0.15333992,-1.8623912,1.1483903,1.8237,0.6760602,2.0964797,0.56734097,-0.25807074,-0.17868093,1.6521981,3.5204954,-5.1852007,0.5040737,-1.9438875,1.1702276,3.2616816,-2.8691363,-2.440555,1.9423966,3.8161159,0.04169573,-0.6256945,0.3850351,0.15866673,0.41135004,0.6789893,-0.47155154,-0.3643711,-0.18702565,0.34810296,5.4573073,6.064143,8.541241,1.1249971,3.4528527,7.988612,2.4507773,-3.0371041,-1.4498938,-0.52321756)。
根据实例对的段落向量和实例对的高频词向量来构建实例对的特征向量。对于实例对(ei,ej),该实例对的特征向量Wij为其段落向量Vij和其高频词向量Uij的拼接,即:
Wij=Vij+Uij,其中“+”表示向量拼接;
步骤5:基于训练集实例对,由深度学习模型训练模块训练双向长短期记忆-卷积神经网络模型;
双向长短期记忆-卷积神经网络模型的输入是特征向量。双向长短期记忆-卷积神经网络模型包括隐藏层、卷积层、池化层、全连接层。通过隐藏层捕捉序列特征,通过卷积层的卷积操作提取局部特征,通过池化层的最大池化操作来保留显著特征,通过全连接层输出实例对齐结果。
双向长短期记忆模型不仅能够保持特征的时序语义信息,而且能够捕获文本的上下文信息。卷积神经网络能够捕捉局部相关性,进行局部感知、权值共享,降低噪声。
步骤6:实例对齐判别模块利用经过训练的双向长短期记忆-卷积神经网络模型模型对测试集实例对进行实例对齐判别,输出实例对齐结果。
步骤6.1,构建测试集实例对的特征向量;
对于测试集实例对,如同步骤4基于段落向量模型Doc2vec和词向量模型Word2vec生成测试集实例对的特征向量;
步骤6.2:利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行对齐判别;
通过双向长短期记忆-卷积神经网络模型的全连接层,对测试集实例对进行两个类别的分类判别,两个类别包括实例对齐和实例不对齐,输出实例对对齐结果。
至此,从步骤1到步骤6,完成了一种基于深度学习的实例对齐方法。
基于上述方法构建的一种基于深度学习的实例对齐判别系统,如图2所示,包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块、实例对齐判别模块。语料采集模块与实例对构建模块相连。实例对构建模块与实例对预处理模块相连。实例对预处理模块与特征向量生成模块相连。特征向量生成模块与深度学习模型训练模块相连。深度学习模型训练模块与实例对齐判别模块相连;
所述语料采集模块用于构建实例语料集;
所述实例对构建模块用于对所述语料采集模块构建的实例语料集来构建实例对集合;
所述实例对预处理模块用于对所述实例对构建模块构建的实例对集合进行预处理;
所述特征向量生成模块用于对实例对预处理模块处理的训练集实例对来生成训练集实例对的特征向量;
所述深度学习模型训练模块用于对所述特征向量生成模块生成的训练集实例对的特征向量来训练双向长短期记忆-卷积神经网络模型;
所述实例对齐判别模块对用于对所述深度学习模型训练模块训练的双向长短期记忆-卷积神经网络模型进行测试集实例对的实例对齐判别,输出实例对齐结果。
为说明本发明的实例对齐判别效果,本实验是在同等条件下,以相同的训练集和测试集分别采用两种方法进行比较。第一种方法是基于支持向量机的实例对齐判别,第二种方法是本发明的基于深度学习的实例对齐判别方法。采用的评测指标为准确率(Accuracy),计算公式为:
其中,N1为被正确判别的实例对是否对齐的数量,N2为所有判别的实例对的数量。
实例对判别结果为:已有技术的基于支持向量机的实例对判别方法的准确率为92.59%,采用本发明方法的准确率为99.92%,通过实验表明了本发明提出的基于深度学习的实例对齐判别方法的有效性。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (6)
1.一种基于深度学习的实例对齐方法,所依托的一种基于深度学习的实例对齐判别系统,其特征在于:包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块以及实例对齐判别模块;语料采集模块与实例对构建模块相连;实例对构建模块与实例对预处理模块相连;实例对预处理模块与特征向量生成模块相连;特征向量生成模块与深度学习模型训练模块相连;深度学习模型训练模块与实例对齐判别模块相连,所述实例对齐方法,其特征在于:包括如下步骤:
步骤1:由语料采集模块构建实例语料集;
步骤2:由实例对构建模块构建实例对集合;
步骤3:由实例对预处理模块对实例对集合进行预处理;
其中,实例对集合预处理包括数据清洗和中文分词;数据清洗是指过滤掉实例词条中的符号和停用词;符号是指除了中文汉字、字母和阿拉伯数字以外的符号,包括中文标点符号、英文标点符号、括号、引号、星号*和井号#;停用词是指没有表示实际意义的词语;
中文分词是指采用分词工具对实例词条进行分词;
步骤4:由特征向量生成模块生成训练集实例对的特征向量,具体为:
基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量;
其中,特征向量由实例对的段落向量和实例对的高频词向量构成;
步骤5:基于训练集实例对,由深度学习模型训练模块训练双向长短期记忆-卷积神经网络模型;
其中,双向长短期记忆-卷积神经网络模型的输入是特征向量;双向长短期记忆-卷积神经网络模型包括隐藏层、卷积层、池化层、全连接层;通过隐藏层捕捉序列特征,通过卷积层的卷积操作提取局部特征,通过池化层的最大池化操作来保留显著特征,通过全连接层输出实例对齐结果;
双向长短期记忆模型不仅能够保持特征的时序语义信息,而且能够捕获文本的上下文信息;卷积神经网络能够捕捉局部相关性,进行局部感知、权值共享,降低噪声;
步骤6:实例对齐判别模块利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行实例对齐判别,输出实例对齐结果。
2.根据权利要求1所述的一种基于深度学习的实例对齐方法,其特征在于:步骤1,具体为:从多个百科网站采集实例词条文件,构建实例语料集,并将实例语料集保存到计算机。
3.根据权利要求1所述的一种基于深度学习的实例对齐方法,其特征在于:步骤2,具体为:从百科网站Ei和Ej采集实例词条文件,构建实例对(ei,ej),所有的实例对组成了实例对集合;
其中,ei是来自百科网站Ei的实例词条,ej是来自百科网站Ej的实例词条,i,j为整数。
4.根据权利要求1所述的一种基于深度学习的实例对齐方法,其特征在于:步骤3中,停用词主要包括连词“但是”、介词“在”以及感叹词“啊”;
步骤3中对实例对(ei,ej),经预处理后,将该实例对表示为:(wi1,wi2,…,wip,wj1,wj2,….,wjq),其中wi1,wi2,…,wip为实例词条ei中的词语,wj1,wj2,….,wjq为实例词条ej中的词语,p,q为整数。
5.根据权利要求1所述的一种基于深度学习的实例对齐方法,其特征在于:
步骤4,具体包括如下子步骤:
步骤4.1:基于段落向量模型Doc2vec生成训练集实例对的段落向量;
对于任一实例对,采用段落向量模型Doc2vec生成实例对的段落向量,即将一个实例对看作一个段落进行向量训练;对于实例对(ei,ej),设生成的段落向量表示为Vij,Vij=(y1,y2,…,ym),m为整数,y1,y2,…,ym为实数;
步骤4.2:基于词向量模型Word2vec生成训练集实例对的高频词向量;
对任一实例对,首先,计算实例对包含的词语的频率,并按照词语频率的非升序方式对词语进行排列;然后,提取排列在前面的k个词语;最后,基于词向量模型Word2vec生成k个词语的d维向量,进一步构建实例对的高频词向量;
对于实例对(ei,ej),该实例对的高频词向量Uij表示为:
Uij=(x11,x12,…,x1d,x21,x22,…,x2d,…,xk1,xk2,…,xkd);
其中,(xi1,xi2,…,xid)为第i个词语的d维向量,xij为实数,1≤i≤k,1≤j≤d;
根据实例对的段落向量和实例对的高频词向量来构建实例对的特征向量;对于实例对(ei,ej),该实例对的特征向量Wij为其段落向量Vij和其高频词向量Uij的拼接,即:
Wij=Vij+Uij,其中“+”表示向量拼接。
6.根据权利要求1所述的一种基于深度学习的实例对齐方法,其特征在于:步骤6,具体包括如下子步骤:
步骤6.1,构建测试集实例对的特征向量;
对于测试集实例对,如同步骤4基于段落向量模型Doc2vec和词向量模型Word2vec生成测试集实例对的特征向量;
步骤6.2:利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行对齐判别;
通过双向长短期记忆-卷积神经网络模型的全连接层,对测试集实例对进行两个类别的分类判别,两个类别包括实例对齐和实例不对齐,输出实例对对齐结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811589849.1A CN109697288B (zh) | 2018-12-25 | 2018-12-25 | 一种基于深度学习的实例对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811589849.1A CN109697288B (zh) | 2018-12-25 | 2018-12-25 | 一种基于深度学习的实例对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109697288A true CN109697288A (zh) | 2019-04-30 |
CN109697288B CN109697288B (zh) | 2020-09-15 |
Family
ID=66231939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811589849.1A Active CN109697288B (zh) | 2018-12-25 | 2018-12-25 | 一种基于深度学习的实例对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697288B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110224673A (zh) * | 2019-05-14 | 2019-09-10 | 太原理工大学 | 一种基于深度学习的太阳能光伏电池板故障检测方法 |
CN110297897A (zh) * | 2019-06-21 | 2019-10-01 | 科大讯飞(苏州)科技有限公司 | 问答处理方法及相关产品 |
CN110362820A (zh) * | 2019-06-17 | 2019-10-22 | 昆明理工大学 | 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 |
CN111476673A (zh) * | 2020-04-02 | 2020-07-31 | 中国人民解放军国防科技大学 | 基于神经网络的社交网络间用户对齐的方法、装置、介质 |
CN111882869A (zh) * | 2020-07-13 | 2020-11-03 | 大连理工大学 | 一种考虑不良天气的深度学习交通流预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915448A (zh) * | 2015-06-30 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于层次卷积网络的实体与段落链接方法 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106844738A (zh) * | 2017-02-14 | 2017-06-13 | 华南理工大学 | 基于神经网络的食材之间容克关系的分类方法 |
US20180075368A1 (en) * | 2016-09-12 | 2018-03-15 | International Business Machines Corporation | System and Method of Advising Human Verification of Often-Confused Class Predictions |
CN108108354A (zh) * | 2017-06-18 | 2018-06-01 | 北京理工大学 | 一种基于深度学习的微博用户性别预测方法 |
CN108182262A (zh) * | 2018-01-04 | 2018-06-19 | 华侨大学 | 基于深度学习和知识图谱的智能问答系统构建方法和系统 |
-
2018
- 2018-12-25 CN CN201811589849.1A patent/CN109697288B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915448A (zh) * | 2015-06-30 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于层次卷积网络的实体与段落链接方法 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
US20180075368A1 (en) * | 2016-09-12 | 2018-03-15 | International Business Machines Corporation | System and Method of Advising Human Verification of Often-Confused Class Predictions |
CN106844738A (zh) * | 2017-02-14 | 2017-06-13 | 华南理工大学 | 基于神经网络的食材之间容克关系的分类方法 |
CN108108354A (zh) * | 2017-06-18 | 2018-06-01 | 北京理工大学 | 一种基于深度学习的微博用户性别预测方法 |
CN108182262A (zh) * | 2018-01-04 | 2018-06-19 | 华侨大学 | 基于深度学习和知识图谱的智能问答系统构建方法和系统 |
Non-Patent Citations (2)
Title |
---|
CHUNXIA ZHANG 等: "A multi-view fusion approach for entity alignment", 《 2017 IEEE 16TH INTERNATIONAL CONFERENCE ON COGNITIVE INFORMATICS & COGNITIVE COMPUTING (ICCI*CC)》 * |
徐增林 等: "知识图谱技术综述", 《电子科技大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110224673A (zh) * | 2019-05-14 | 2019-09-10 | 太原理工大学 | 一种基于深度学习的太阳能光伏电池板故障检测方法 |
CN110362820A (zh) * | 2019-06-17 | 2019-10-22 | 昆明理工大学 | 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 |
CN110362820B (zh) * | 2019-06-17 | 2022-11-01 | 昆明理工大学 | 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 |
CN110297897A (zh) * | 2019-06-21 | 2019-10-01 | 科大讯飞(苏州)科技有限公司 | 问答处理方法及相关产品 |
CN110297897B (zh) * | 2019-06-21 | 2020-11-24 | 科大讯飞(苏州)科技有限公司 | 问答处理方法及相关产品 |
CN111476673A (zh) * | 2020-04-02 | 2020-07-31 | 中国人民解放军国防科技大学 | 基于神经网络的社交网络间用户对齐的方法、装置、介质 |
CN111882869A (zh) * | 2020-07-13 | 2020-11-03 | 大连理工大学 | 一种考虑不良天气的深度学习交通流预测方法 |
CN111882869B (zh) * | 2020-07-13 | 2022-10-04 | 大连理工大学 | 一种考虑不良天气的深度学习交通流预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109697288B (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN109697288A (zh) | 一种基于深度学习的实例对齐方法 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN110442760A (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN109766544A (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN108280057A (zh) | 一种基于blstm的微博谣言检测方法 | |
Mehndiratta et al. | Identification of sarcasm using word embeddings and hyperparameters tuning | |
CN110162592A (zh) | 一种基于万有引力改进的TextRank的新闻关键词提取方法 | |
CN110263169A (zh) | 一种基于卷积神经网络和关键词聚类的热点事件检测方法 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN111274814A (zh) | 一种新型的半监督文本实体信息抽取方法 | |
Sheshikala et al. | Natural language processing and machine learning classifier used for detecting the author of the sentence | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN109086443A (zh) | 基于主题的社交媒体短文本在线聚类方法 | |
Han et al. | An attention-based neural framework for uncertainty identification on social media texts | |
CN113988054B (zh) | 一种面向煤矿安全领域的实体识别方法 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
Hasnat et al. | Understanding sarcasm from reddit texts using supervised algorithms | |
CN108268461A (zh) | 一种基于混合分类器的文本分类装置 | |
Sayyed et al. | Study and analysis of emotion classification on textual data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |