CN108984745B - 一种融合多知识图谱的神经网络文本分类方法 - Google Patents

一种融合多知识图谱的神经网络文本分类方法 Download PDF

Info

Publication number
CN108984745B
CN108984745B CN201810780502.9A CN201810780502A CN108984745B CN 108984745 B CN108984745 B CN 108984745B CN 201810780502 A CN201810780502 A CN 201810780502A CN 108984745 B CN108984745 B CN 108984745B
Authority
CN
China
Prior art keywords
text
vector
entity
word
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810780502.9A
Other languages
English (en)
Other versions
CN108984745A (zh
Inventor
陈羽中
张伟智
郭昆
林剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810780502.9A priority Critical patent/CN108984745B/zh
Publication of CN108984745A publication Critical patent/CN108984745A/zh
Application granted granted Critical
Publication of CN108984745B publication Critical patent/CN108984745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Abstract

本发明涉及一种融合多知识图谱的神经网络文本分类方法,包括以下步骤:将训练集中文本输入至长短期记忆网络中,得到文本的上下文向量;对训练集中各文本抽取实体,在知识图谱中进行实体匹配;分别计算匹配到的各实体、知识图谱中各关系在上下文向量下的注意力权重,得到文本的总体实体向量、总体关系向量,进而得到事实三元组向量;计算不同知识图谱下的事实三元组向量,计算这些事实三元组的注意力权重,得到文本表征向量并输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;利用训练好的深度神经网络模型预测待预测文本所属类别。该方法提升了模型对文本语义的理解,可以更可靠、准确且鲁棒地对文本内容进行分类。

Description

一种融合多知识图谱的神经网络文本分类方法
技术领域
本发明涉及自然语言处理及数据挖掘技术领域,特别是一种融合多知识图谱的神经网络文本分类方法。
背景技术
文本分类(text categorization)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。近年来,利用深度学习来建立语言模型的研究思路逐渐走向成熟,大大提升了文本的特征质量。有学者最早提出一种基于卷积神经网络的句子分类模型,通过卷积层对预训练的词向量矩阵进行特征提取,利用梯度下降法优化网络权重参数,达到优于传统基于机器学习分类方法的分类精度;有学者提出一种对句子建模的深度神经网络模型,底层通过组合邻近的词语信息,逐步向上传递,上层则又组合新的Phrase信息,从而使得句子中即使相离较远的词语也有交互行为;有学者提出一种结合卷积神经网络和循环神经网络的网络模型,利用循环神经网络的结构得到词的上下文信息,将词本身与其上下文视为一个整体,共同参与卷积层的特征提取以及输出层的分类;有学者提出一种结合大型的分类知识库Probase于卷积神经网络的分类模型,将一个短文本概念化为一组相关概念,然后,在预训练的词向量上,通过合并词与相关概念得到短文本的嵌入;有学者提出一种增强模型,运用知识图谱来进行NLP任务,运用注意力机制来从知识图谱中提取与任务相关的事实三元组。
目前借助知识图谱来增强深度神经网络语义建模的研究还相对较少,且这些研究在知识图谱中的信息与训练集文本的结合匹配上还较为粗糙,容易导致引入过多与训练集文本内容不相关的知识图谱信息,从而形成噪声,影响建模。此外,目前的研究工作大多只考虑单一知识图谱上的建模,可能无法更多的覆盖到训练集文本的内容,而不同知识图谱之间的信息可以相互补充,相对于单一知识图谱,多知识图谱可以覆盖更多训练集文本内容。
发明内容
本发明的目的在于提供一种融合多知识图谱的神经网络文本分类方法,该方法提升了模型对文本语义的理解,可以更可靠、准确且鲁棒地对文本内容进行分类。
为实现上述目的,本发明的技术方案是:一种融合多知识图谱的神经网络文本分类方法,包括以下步骤:
步骤A:将训练集中文本输入至长短期记忆网络中,得到文本的上下文向量;
步骤B:对训练集中各文本抽取实体,在知识图谱中进行实体匹配;
步骤C:计算步骤B中匹配到的各实体在步骤A中得到的上下文向量下的注意力权重,得到文本的总体实体向量,同时,计算知识图谱中各关系在所述上下文向量下的注意力权重,得到文本的总体关系向量,进而得到事实三元组向量;
步骤D:在不同知识图谱中重复步骤B、C,得到不同知识图谱下的事实三元组向量,计算这些事实三元组在步骤A中得到的上下文向量下的注意力权重,得到最终的文本表征向量,将所述文本表征向量输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;
步骤E:利用训练好的深度神经网络模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。
进一步地,所述步骤A中,将训练集中文本输入至长短期记忆网络中,得到文本的上下文向量,包括以下步骤:
步骤A1:对任一文本D,进行分词处理,并使用词嵌入工具将文本中的词转为词向量形式,计算公式如下:
v=W·v′
其中,文本中每个词随机初始化为一个d’维的实数向量v’;W为词嵌入矩阵,W∈Rd ×d′,由大规模语料在神经网络语言模型中训练得到,用于将d’维实数向量投射为d维词向量;v∈Rd,表示词向量,d为词向量的维度;
步骤A2:对于文本D,将构成句子的词看作一个时序序列,将词向量按照词序依次输入到一个双向的长短期记忆网络中,对于长短期记忆网络的正向,依次输入x1,x2,...,xn,对于长短期记忆网络的反向,则依次输入xn,xn-1,...,x1,其中,xn表示文本中第n个词的词向量,n为文本D中词的个数;计算每个词在正向和反向的隐层状态值,将这些隐层状态值求平均,乘以权重矩阵,最后使用激活函数得到文本D的上下文向量,计算公式如下:
Figure BDA0001732235950000031
Figure BDA0001732235950000032
Figure BDA0001732235950000033
Figure BDA0001732235950000034
C=ReLU(oTWc)
其中,xt为文本中第t个词的词向量,
Figure BDA0001732235950000035
表示文本D中第t个词的在正向长短期记忆网络中的隐层状态向量,
Figure BDA0001732235950000036
表示文本D中第t个词在反向长短期记忆网络中的隐层状态向量,f为长短期记忆网络中对隐层状态的计算函数,ht为正向和反向状态向量的串联,o为隐层状态的平均值向量,oT为向量o的转置向量,Wc为权重参数矩阵,ReLU为使用的激活函数,C为文本的上下文向量。
进一步地,所述步骤B中,对训练集中各文本抽取实体,在知识图谱中进行实体匹配,包括以下步骤:
步骤B1:对于每一分词后的训练文本D,对其进行词性标注,取其中的名词及名词短语,构成集合S,对于集合S中的每一个元素si,利用CrossWikis数据集,从中得到名词或名词短语si到实体列表的映射,所述实体列表指实体及其各自别名,即通过CrossWikis得到集合
Figure BDA0001732235950000037
Figure BDA0001732235950000038
ei表示以si为名称或别名在CrossWikis中匹配到的第i个实体,eij表示实体ei在CrossWikis中的第j个别名,m是以si为名称或别名在CrossWikis中匹配到的实体的个数,nm表示第m个实体的别名个数;设当前使用的知识图谱为KG,对于集合S中的元素,大部分都能从CrossWikis中匹配到实体,对于不能从CrossWikis中匹配到实体的s’i,则在当前知识图谱KG中按照字面进行实体匹配,得到在KG中的实体集合{e’1,e’2,…,e’k},e’k表示在当前知识图谱KG中,对不存在于KG中的实体按照字面进行实体匹配,得到的第k个实体;将得到的所有实体
Figure BDA0001732235950000039
Figure BDA00017322359500000310
e’1,e’2,…,e’k构成一个集合,记为Es
步骤B2:计算给定s条件下各实体e的置信分数:
对于集合S中的元素s及s所对应的实体集合Es中的元素e,其中s为si或s’i,e为ei、eij或e’i,对于存在于CrossWikis中的实体ei,CrossWikis给出了给定si条件下,得到实体ei或eij的概率P(ei|si)或P(eij|si)作为实体ei或eij的置信分数;对于不存在于CrossWikis中的实体e’i,利用使概率值最大的实体emax及词的流行度推算概率值P(e’i|s’i),计算公式如下:
P(ei′|si′)=P(emax|si′)·pop(ei′)/pop(emax)
其中,emax表示使P(e|s)值最大的实体,pop为实体词的流行度,通过统计该词在大规模英文网页语料数据集ClueWeb12上的频数得到。
进一步地,所述步骤C中,计算匹配到的各实体在得到的上下文向量下的注意力权重,得到文本的总体实体向量,同时,计算知识图谱中各关系在上下文向量下的注意力权重,得到文本的总体关系向量,进而得到事实三元组向量,包括以下步骤:
步骤C1:借助预训练的知识图谱嵌入,得到步骤B中匹配到的各实体对应的向量表示,计算这些实体向量在步骤A中得到的上下文向量下的注意力权重,然后对这些实体向量加权求和,得到文本的总体实体向量,计算公式如下:
Figure BDA0001732235950000041
Figure BDA0001732235950000042
其中,Es为文本D所匹配到的所有实体的集合,|E|为集合中实体的个数,ei为E中的第i个实体的在当前知识图谱嵌入中的向量表示,
Figure BDA0001732235950000043
为ei的置信分数,
Figure BDA0001732235950000044
为ei在上下文C下的注意力权重,eD为文本D的总体实体向量;
步骤C2:借助预训练的知识图谱嵌入,得到当前知识图谱中的所有关系对应的向量表示,计算这些关系向量在步骤A中得到的上下文向量下的注意力权重,然后对这些关系向量加权求和,得到文本的总体关系向量,计算公式如下:
Figure BDA0001732235950000045
Figure BDA0001732235950000046
其中,R为当前知识图谱中的关系集合,|R|为集合中关系的个数,ri为当前知识图谱的第i个关系的向量表示,
Figure BDA0001732235950000051
为关系向量ri在上下文C下的注意力权重,rD为文本D的总体关系向量;
步骤C3:利用步骤C1、C2得到的文本的总体实体向量和总体关系向量,计算当前知识图谱的事实三元组向量,计算公式如下:
F=[eD,rD,eD+rD]
其中,F表示当前知识图谱的事实三元组,其中,eD为知识图谱事实三元组中的主实体,rD为知识图谱事实三元组中的关系,由于知识图谱嵌入使用基于TransE模型,在该模型中,有主实体+关系=客实体的关系,因此,eD+rD为知识图谱事实三元组中的客实体。
进一步地,所述步骤D中,在不同知识图谱中重复步骤B、C,得到不同知识图谱下的事实三元组向量,计算这些事实三元组在步骤A中得到的上下文向量下的注意力权重,得到最终的文本表征向量,将所述文本表征向量输入到全连接层,使用分类器计算各文本属于各类别的概率来训练网络,包括以下步骤:
步骤D1:在不同知识图谱中重复步骤B、C,得到不同知识图谱下的事实三元组向量,计算这些事实三元组在步骤A中得到的上下文向量下的注意力权重,然后对这些事实三元组向量加权求和,得到最终的文本表征向量,计算公式如下:
Figure BDA0001732235950000052
Figure BDA0001732235950000053
其中,g为知识图谱的个数,
Figure BDA0001732235950000054
为第i个知识图谱的事实三元组Fi的注意力权重,p为最终的文本表征向量;
步骤D2:将文本特征向量输入到全连接层,并使用softmax归一化,计算文本属于各类别的概率,计算公式如下:
y=fdense(Wdense·p+bdense)
Figure BDA0001732235950000061
其中,Wdense为全连接层权重矩阵,bdense为偏置项,fdense为激活函数,y为文本表征向量p经过全连接层非线性转换的特征向量,向量维度为L,yi为y的第i维,p(yi)为预测为类别i的概率,0≤p(yi)≤1,L为类别的总数;
步骤D3:以对数似然函数为损失函数,通过随机梯度下降优化方法,利用方向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:
Figure BDA0001732235950000062
其中,Dtrain表示训练集,x为训练集中的文本,y为x的真实类别,θ表示模型参数。
相较于现有技术,本发明的有益效果是:利用知识图谱,对文本中所包含的实体,在知识图谱中进行实体匹配,获得上下文向量下的注意力权重,同时计算知识图谱中各关系,得到在上下文向量下的注意力权重,得到文本的总体实体向量,通过在不同知识图谱中所获得的文本实体向量得到最终的文本表征向量,从而提升了模型对文本的语义的理解,更可靠准确且鲁棒地对文本内容进行分类。
附图说明
图1是本发明实施例的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
图1是本发明一种融合多知识图谱的神经网络文本分类方法的实现流程图。如图1所示,该方法包括以下步骤:
步骤A:将训练集中文本输入至长短期记忆网络中,得到文本的上下文向量。具体包括以下步骤:
步骤A1:对任一文本D,进行分词处理,并使用词嵌入工具将文本中的词转为词向量形式,计算公式如下:
v=W·v′
其中,文本中每个词随机初始化为一个d’维的实数向量v’;W为词嵌入矩阵,W∈Rd ×d′,由大规模语料在神经网络语言模型中训练得到,用于将d’维实数向量投射为d维词向量;v∈Rd,表示词向量,d为词向量的维度;
步骤A2:对于文本D,将构成句子的词看作一个时序序列,将词向量按照词序依次输入到一个双向的长短期记忆网络中,对于长短期记忆网络的正向,依次输入x1,x2,...,xn,对于长短期记忆网络的反向,则依次输入xn,xn-1,...,x1,其中,xn表示文本中第n个词的词向量,n为文本D中词的个数;计算每个词在正向和反向的隐层状态值,将这些隐层状态值求平均,乘以权重矩阵,最后使用激活函数得到文本D的上下文向量,计算公式如下:
Figure BDA0001732235950000071
Figure BDA0001732235950000072
Figure BDA0001732235950000073
Figure BDA0001732235950000074
C=ReLU(oTWc)
其中,xt为文本中第t个词的词向量,
Figure BDA0001732235950000075
表示文本D中第t个词的在正向长短期记忆网络中的隐层状态向量,
Figure BDA0001732235950000076
表示文本D中第t个词在反向长短期记忆网络中的隐层状态向量,f为长短期记忆网络中对隐层状态的计算函数,ht为正向和反向状态向量的串联,o为隐层状态的平均值向量,oT为向量o的转置向量,Wc为权重参数矩阵,ReLU为使用的激活函数,C为文本的上下文向量。
步骤B:对训练集中各文本抽取实体,在知识图谱中进行实体匹配。具体包括以下步骤:
步骤B1:对于每一分词后的训练文本D,对其进行词性标注,取其中的名词及名词短语,构成集合S,对于集合S中的每一个元素si,利用CrossWikis数据集,从中得到名词或名词短语si到实体列表的映射,所述实体列表指实体及其各自别名,即通过CrossWikis得到集合
Figure BDA0001732235950000077
Figure BDA0001732235950000078
ei表示以si为名称或别名在CrossWikis中匹配到的第i个实体,eij表示实体ei在CrossWikis中的第j个别名,m是以si为名称或别名在CrossWikis中匹配到的实体的个数,nm表示第m个实体的别名个数;设当前使用的知识图谱为KG,对于集合S中的元素,大部分都能从CrossWikis中匹配到实体,对于不能从CrossWikis中匹配到实体的s’i,则在当前知识图谱KG中按照字面进行实体匹配,得到在KG中的实体集合{e’1,e’2,…,e’k},e’k表示在当前知识图谱KG中,对不存在于KG中的实体按照字面进行实体匹配,得到的第k个实体;将得到的所有实体
Figure BDA0001732235950000081
Figure BDA0001732235950000082
e’1,e’2,…,e’k构成一个集合,记为Es
步骤B2:计算给定s条件下各实体e的置信分数:
对于集合S中的元素s及s所对应的实体集合Es中的元素e,其中s为si或s’i,e为ei、eij或e’i,对于存在于CrossWikis中的实体ei,CrossWikis给出了给定si条件下,得到实体ei或eij的概率P(ei|si)或P(eij|si)作为实体ei或eij的置信分数;对于不存在于CrossWikis中的实体e’i,利用使概率值最大的实体emax及词的流行度推算概率值P(e’i|s’i),计算公式如下:
P(ei′|si′)=P(emax|si′)·pop(ei′)/pop(emax)
其中,emax表示使P(e|s)值最大的实体,pop为实体词的流行度,通过统计该词在大规模英文网页语料数据集ClueWeb12上的频数得到。
步骤C:计算步骤B中匹配到的各实体在步骤A中得到的上下文向量下的注意力权重,得到文本的总体实体向量,同时,计算知识图谱中各关系在所述上下文向量下的注意力权重,得到文本的总体关系向量,进而得到事实三元组向量。具体包括以下步骤:
步骤C1:借助预训练的知识图谱嵌入,得到步骤B中匹配到的各实体对应的向量表示,计算这些实体向量在步骤A中得到的上下文向量下的注意力权重,然后对这些实体向量加权求和,得到文本的总体实体向量,计算公式如下:
Figure BDA0001732235950000083
Figure BDA0001732235950000084
其中,Es为文本D所匹配到的所有实体的集合,|E|为集合中实体的个数,ei为E中的第i个实体的在当前知识图谱嵌入中的向量表示,
Figure BDA0001732235950000085
为ei的置信分数,
Figure BDA0001732235950000086
为ei在上下文C下的注意力权重,eD为文本D的总体实体向量;
步骤C2:借助预训练的知识图谱嵌入,得到当前知识图谱中的所有关系对应的向量表示,计算这些关系向量在步骤A中得到的上下文向量下的注意力权重,然后对这些关系向量加权求和,得到文本的总体关系向量,计算公式如下:
Figure BDA0001732235950000091
Figure BDA0001732235950000092
其中,R为当前知识图谱中的关系集合,|R|为集合中关系的个数,ri为当前知识图谱的第i个关系的向量表示,
Figure BDA0001732235950000093
为关系向量ri在上下文C下的注意力权重,rD为文本D的总体关系向量;
步骤C3:利用步骤C1、C2得到的文本的总体实体向量和总体关系向量,计算当前知识图谱的事实三元组向量,计算公式如下:
F=[eD,rD,eD+rD]
其中,F表示当前知识图谱的事实三元组,其中,eD为知识图谱事实三元组中的主实体(subject entity),rD为知识图谱事实三元组中的关系(relation),由于知识图谱嵌入使用基于TransE模型,在该模型中,有主实体+关系=客实体(subject entity+relation=object entity)的关系,因此,eD+rD为知识图谱事实三元组中的客实体(objectentity)。
步骤D:在不同知识图谱中重复步骤B、C,得到不同知识图谱下的事实三元组向量,计算这些事实三元组在步骤A中得到的上下文向量下的注意力权重,得到最终的文本表征向量,将所述文本表征向量输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络。具体包括以下步骤:
步骤D1:在不同知识图谱中重复步骤B、C,得到不同知识图谱下的事实三元组向量,计算这些事实三元组在步骤A中得到的上下文向量下的注意力权重,然后对这些事实三元组向量加权求和,得到最终的文本表征向量,计算公式如下:
Figure BDA0001732235950000094
Figure BDA0001732235950000095
其中,g为知识图谱的个数,
Figure BDA0001732235950000101
为第i个知识图谱的事实三元组Fi的注意力权重,p为最终的文本表征向量;
步骤D2:将文本特征向量输入到全连接层,并使用softmax归一化,计算文本属于各类别的概率,计算公式如下:
y=fdense(Wdense·p+bdense)
Figure BDA0001732235950000102
其中,Wdense为全连接层权重矩阵,bdense为偏置项,fdense为激活函数,y为文本表征向量p经过全连接层非线性转换的特征向量,向量维度为L,yi为y的第i维,p(yi)为预测为类别i的概率,0≤p(yi)≤1,L为类别的总数;
步骤D3:以对数似然函数为损失函数,通过随机梯度下降优化方法,利用方向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:
Figure BDA0001732235950000103
其中,Dtrain表示训练集,x为训练集中的文本,y为x的真实类别,θ表示模型参数。
步骤E:利用训练好的深度神经网络模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (4)

1.一种融合多知识图谱的神经网络文本分类方法,其特征在于,包括以下步骤:
步骤A:将训练集中文本输入至长短期记忆网络中,得到文本的上下文向量;
步骤B:对训练集中各文本抽取实体,在知识图谱中进行实体匹配;
步骤C:计算步骤B中匹配到的各实体在步骤A中得到的上下文向量下的注意力权重,得到文本的总体实体向量,同时,计算知识图谱中各关系在所述上下文向量下的注意力权重,得到文本的总体关系向量,进而得到事实三元组向量;
步骤D:在不同知识图谱中重复步骤B、C,得到不同知识图谱下的事实三元组向量,计算这些事实三元组在步骤A中得到的上下文向量下的注意力权重,得到最终的文本表征向量,将所述文本表征向量输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;
步骤E:利用训练好的深度神经网络模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出;
所述步骤A中,将训练集中文本输入至长短期记忆网络中,得到文本的上下文向量,包括以下步骤:
步骤A1:对任一文本D,进行分词处理,并使用词嵌入工具将文本中的词转为词向量形式,计算公式如下:
v=W·v′
其中,文本中每个词随机初始化为一个d’维的实数向量v’;W为词嵌入矩阵,W∈Rd×d′,由大规模语料在神经网络语言模型中训练得到,用于将d’维实数向量投射为d维词向量;v∈Rd,表示词向量,d为词向量的维度;
步骤A2:对于文本D,将构成句子的词看作一个时序序列,将词向量按照词序依次输入到一个双向的长短期记忆网络中,对于长短期记忆网络的正向,依次输入x1,x2,...,xn,对于长短期记忆网络的反向,则依次输入xn,xn-1,...,x1,其中,xn表示文本中第n个词的词向量,n为文本D中词的个数;计算每个词在正向和反向的隐层状态值,将这些隐层状态值求平均,乘以权重矩阵,最后使用激活函数得到文本D的上下文向量,计算公式如下:
Figure FDA0003134672090000011
Figure FDA0003134672090000012
Figure FDA0003134672090000021
Figure FDA0003134672090000022
C=ReLU(oTWc)
其中,xt为文本中第t个词的词向量,
Figure FDA0003134672090000023
表示文本D中第t个词的在正向长短期记忆网络中的隐层状态向量,
Figure FDA0003134672090000024
表示文本D中第t个词在反向长短期记忆网络中的隐层状态向量,f为长短期记忆网络中对隐层状态的计算函数,ht为正向和反向状态向量的串联,o为隐层状态的平均值向量,oT为向量o的转置向量,Wc为权重参数矩阵,ReLU为使用的激活函数,C为文本的上下文向量。
2.根据权利要求1所述的一种融合多知识图谱的神经网络文本分类方法,其特征在于,所述步骤B中,对训练集中各文本抽取实体,在知识图谱中进行实体匹配,包括以下步骤:
步骤B1:对于每一分词后的训练文本D,对其进行词性标注,取其中的名词及名词短语,构成集合S,对于集合S中的每一个元素si,利用CrossWikis数据集,从中得到名词或名词短语si到实体列表的映射,所述实体列表指实体及其各自别名,即通过CrossWikis得到集合
Figure FDA0003134672090000025
Figure FDA0003134672090000026
ei表示以si为名称或别名在CrossWikis中匹配到的第i个实体,eij表示实体ei在CrossWikis中的第j个别名,m是以si为名称或别名在CrossWikis中匹配到的实体的个数,nm表示第m个实体的别名个数;设当前使用的知识图谱为KG,对于集合S中的元素,大部分都能从CrossWikis中匹配到实体,对于不能从CrossWikis中匹配到实体的s’i,则在当前知识图谱KG中按照字面进行实体匹配,得到在KG中的实体集合{e’1,e’2,…,e’k},e’k表示在当前知识图谱KG中,对不存在于KG中的实体按照字面进行实体匹配,得到的第k个实体;将得到的所有实体e1,e11,…,
Figure FDA0003134672090000027
e2,e21,…,
Figure FDA0003134672090000028
…,em,em1,…,
Figure FDA0003134672090000029
e’1,e’2,…,e’k构成一个集合,记为Es
步骤B2:计算给定s条件下各实体e的置信分数:
对于集合S中的元素s及s所对应的实体集合Es中的元素e,其中s为si或s’i,e为ei、eij或e’i,对于存在于CrossWikis中的实体ei,CrossWikis给出了给定si条件下,得到实体ei或eij的概率P(ei|si)或P(eij|si)作为实体ei或eij的置信分数;对于不存在于CrossWikis中的实体e’i,利用使概率值最大的实体emax及词的流行度推算概率值P(e’i|s’i),计算公式如下:
P(e′i|s′i)=P(emax|s′i)·pop(e′i)/pop(emax)
其中,emax表示使P(e|s)值最大的实体,pop为实体词的流行度,通过统计该词在大规模英文网页语料数据集ClueWeb12上的频数得到。
3.根据权利要求2所述的一种融合多知识图谱的神经网络文本分类方法,其特征在于,所述步骤C中,计算匹配到的各实体在得到的上下文向量下的注意力权重,得到文本的总体实体向量,同时,计算知识图谱中各关系在上下文向量下的注意力权重,得到文本的总体关系向量,进而得到事实三元组向量,包括以下步骤:
步骤C1:借助预训练的知识图谱嵌入,得到步骤B中匹配到的各实体对应的向量表示,计算这些实体向量在步骤A中得到的上下文向量下的注意力权重,然后对这些实体向量加权求和,得到文本的总体实体向量,计算公式如下:
Figure FDA0003134672090000031
Figure FDA0003134672090000032
其中,Es为文本D所匹配到的所有实体的集合,|E|为集合中实体的个数,ei为E中的第i个实体的在当前知识图谱嵌入中的向量表示,
Figure FDA0003134672090000033
为ei的置信分数,
Figure FDA0003134672090000034
为ei在上下文C下的注意力权重,eD为文本D的总体实体向量;
步骤C2:借助预训练的知识图谱嵌入,得到当前知识图谱中的所有关系对应的向量表示,计算这些关系向量在步骤A中得到的上下文向量下的注意力权重,然后对这些关系向量加权求和,得到文本的总体关系向量,计算公式如下:
Figure FDA0003134672090000035
Figure FDA0003134672090000036
其中,R为当前知识图谱中的关系集合,|R|为集合中关系的个数,ri为当前知识图谱的第i个关系的向量表示,
Figure FDA0003134672090000041
为关系向量ri在上下文C下的注意力权重,rD为文本D的总体关系向量;
步骤C3:利用步骤C1、C2得到的文本的总体实体向量和总体关系向量,计算当前知识图谱的事实三元组向量,计算公式如下:
F=[eD,rD,eD+rD]
其中,F表示当前知识图谱的事实三元组,其中,eD为知识图谱事实三元组中的主实体,rD为知识图谱事实三元组中的关系,由于知识图谱嵌入使用基于TransE模型,在该模型中,有主实体+关系=客实体的关系,因此,eD+rD为知识图谱事实三元组中的客实体。
4.根据权利要求3所述的一种融合多知识图谱的神经网络文本分类方法,其特征在于,所述步骤D中,在不同知识图谱中重复步骤B、C,得到不同知识图谱下的事实三元组向量,计算这些事实三元组在步骤A中得到的上下文向量下的注意力权重,得到最终的文本表征向量,将所述文本表征向量输入到全连接层,使用分类器计算各文本属于各类别的概率来训练网络,包括以下步骤:
步骤D1:在不同知识图谱中重复步骤B、C,得到不同知识图谱下的事实三元组向量,计算这些事实三元组在步骤A中得到的上下文向量下的注意力权重,然后对这些事实三元组向量加权求和,得到最终的文本表征向量,计算公式如下:
Figure FDA0003134672090000042
Figure FDA0003134672090000043
其中,g为知识图谱的个数,
Figure FDA0003134672090000044
为第i个知识图谱的事实三元组Fi的注意力权重,p为最终的文本表征向量;
步骤D2:将文本特征向量输入到全连接层,并使用softmax归一化,计算文本属于各类别的概率,计算公式如下:
y=fdense(Wdense·p+bdense)
Figure FDA0003134672090000051
其中,Wdense为全连接层权重矩阵,bdense为偏置项,fdense为激活函数,y为文本表征向量p经过全连接层非线性转换的特征向量,向量维度为L,yi为y的第i维,p(yi)为预测为类别i的概率,0≤p(yi)≤1,L为类别的总数;
步骤D3:以对数似然函数为损失函数,通过随机梯度下降优化方法,利用方向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:
Figure FDA0003134672090000052
其中,Dtrain表示训练集,x为训练集中的文本,y为x的真实类别,θ表示模型参数。
CN201810780502.9A 2018-07-16 2018-07-16 一种融合多知识图谱的神经网络文本分类方法 Active CN108984745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810780502.9A CN108984745B (zh) 2018-07-16 2018-07-16 一种融合多知识图谱的神经网络文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810780502.9A CN108984745B (zh) 2018-07-16 2018-07-16 一种融合多知识图谱的神经网络文本分类方法

Publications (2)

Publication Number Publication Date
CN108984745A CN108984745A (zh) 2018-12-11
CN108984745B true CN108984745B (zh) 2021-11-02

Family

ID=64549115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810780502.9A Active CN108984745B (zh) 2018-07-16 2018-07-16 一种融合多知识图谱的神经网络文本分类方法

Country Status (1)

Country Link
CN (1) CN108984745B (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11507800B2 (en) * 2018-03-06 2022-11-22 Adobe Inc. Semantic class localization digital environment
CN109801706B (zh) * 2018-12-12 2020-11-10 清华大学 心理压力问题的感知方法及装置
CN109767081B (zh) * 2018-12-25 2023-08-25 云南电网有限责任公司信息中心 电力工单表生成方法及装置
CN109739996B (zh) * 2018-12-29 2020-12-25 北京航天数据股份有限公司 一种工业知识图谱的构建方法及装置
CN109919177B (zh) * 2019-01-23 2022-03-29 西北工业大学 基于层次化深度网络的特征选择方法
CN109992771B (zh) * 2019-03-13 2020-05-05 北京三快在线科技有限公司 一种文本生成的方法及装置
CN109902152B (zh) * 2019-03-21 2021-07-06 北京百度网讯科技有限公司 用于检索信息的方法和装置
CN110147450B (zh) * 2019-05-06 2021-08-03 北京科技大学 一种知识图谱的知识补全方法及装置
CN110263324B (zh) * 2019-05-16 2021-02-12 华为技术有限公司 文本处理方法、模型训练方法和装置
CN110297908B (zh) * 2019-07-01 2021-09-21 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN112328784B (zh) * 2019-08-05 2023-04-18 上海智臻智能网络科技股份有限公司 数据信息分类方法及装置
CN110442733A (zh) * 2019-08-08 2019-11-12 恒生电子股份有限公司 一种主题生成方法、装置和设备及介质
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110532368B (zh) * 2019-09-04 2023-03-14 达闼机器人股份有限公司 问答方法、电子设备及计算机可读存储介质
CN110609986B (zh) * 2019-09-30 2022-04-05 哈尔滨工业大学 一种基于预训练的结构化数据生成文本的方法
CN110956254B (zh) * 2019-11-12 2022-04-05 浙江工业大学 一种基于动态知识表示学习的案件推理方法
CN110866190B (zh) * 2019-11-18 2021-05-14 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN111078833B (zh) * 2019-12-03 2022-05-20 哈尔滨工程大学 一种基于神经网络的文本分类方法
CN111128391B (zh) * 2019-12-24 2021-01-12 推想医疗科技股份有限公司 一种信息处理设备、方法和存储介质
CN111159411B (zh) * 2019-12-31 2023-04-14 哈尔滨工业大学(深圳) 一种融合知识图谱的文本立场分析方法、系统及存储介质
CN111177394B (zh) * 2020-01-03 2022-04-29 浙江大学 基于句法注意力神经网络的知识图谱关系数据分类方法
CN111274789B (zh) * 2020-02-06 2021-07-06 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
CN111414484B (zh) * 2020-03-04 2021-05-28 科大讯飞(苏州)科技有限公司 有效时段信息确定方法、装置、电子设备和存储介质
CN111291139B (zh) * 2020-03-17 2023-08-22 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN111538835B (zh) * 2020-03-30 2023-05-23 东南大学 一种基于知识图谱的社交媒体情感分类方法与装置
CN111178458B (zh) * 2020-04-10 2020-08-14 支付宝(杭州)信息技术有限公司 分类模型的训练、对象分类方法及装置
CN111539197B (zh) * 2020-04-15 2023-08-15 北京百度网讯科技有限公司 文本匹配方法和装置以及计算机系统和可读存储介质
CN111625634B (zh) * 2020-05-25 2023-08-22 泰康保险集团股份有限公司 词槽识别方法及装置、计算机可读存储介质、电子设备
CN111832924B (zh) * 2020-06-30 2021-06-15 北方工业大学 基于图神经网络的社区燃气系统动态风险评估方法及装置
CN112215000B (zh) * 2020-10-21 2022-08-23 重庆邮电大学 一种基于实体替换的文本分类方法
CN112163101B (zh) * 2020-10-30 2024-01-26 武汉大学 一种面向空间知识图谱的地理实体匹配与融合方法
CN112509565A (zh) * 2020-11-13 2021-03-16 中信银行股份有限公司 语音识别方法、装置、电子设备及可读存储介质
CN112732944A (zh) * 2021-01-30 2021-04-30 吉林大学 一种文本检索的新方法
CN113051353A (zh) * 2021-03-05 2021-06-29 浙江工业大学 一种基于注意力机制的知识图谱路径可达性预测方法
CN112860904B (zh) * 2021-04-06 2022-02-22 哈尔滨工业大学 一种融入外部知识的生物医疗关系抽取方法
CN113297387B (zh) * 2021-04-20 2022-04-29 内蒙古工业大学 一种基于nkd-gnn的图文不匹配新闻检测方法
CN113641766B (zh) * 2021-07-15 2023-06-02 北京三快在线科技有限公司 一种关系识别方法、装置、存储介质及电子设备
CN116186295B (zh) * 2023-04-28 2023-07-18 湖南工商大学 基于注意力的知识图谱链接预测方法、装置、设备及介质
CN117040926B (zh) * 2023-10-08 2024-01-26 北京网藤科技有限公司 应用知识图谱的工控网络安全特征分析方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107871158A (zh) * 2016-09-26 2018-04-03 清华大学 一种结合序列文本信息的知识图谱表示学习方法及装置
CN108073711A (zh) * 2017-12-21 2018-05-25 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
JP2004178123A (ja) * 2002-11-26 2004-06-24 Hitachi Ltd 情報処理装置、該情報処理装置を実現するためのプログラム
US9355099B2 (en) * 2012-12-01 2016-05-31 Althea Systems and Software Private Limited System and method for detecting explicit multimedia content
CN105824802B (zh) * 2016-03-31 2018-10-30 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN107885759A (zh) * 2016-12-21 2018-04-06 桂林电子科技大学 一种基于多目标优化的知识图谱表示学习方法
CN107391623B (zh) * 2017-07-07 2020-03-31 中国人民大学 一种融合多背景知识的知识图谱嵌入方法
CN107832400B (zh) * 2017-11-01 2019-04-16 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871158A (zh) * 2016-09-26 2018-04-03 清华大学 一种结合序列文本信息的知识图谱表示学习方法及装置
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN108073711A (zh) * 2017-12-21 2018-05-25 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A self-organizing map for concept classification in information retrieval;G. Desjardins 等;《IEEE》;20051227;第1570-1574页 *
基于特征词的Web领域知识分类研究;高俊平 等;《软件导刊》;20160229;第9-11页 *

Also Published As

Publication number Publication date
CN108984745A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN107832400B (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN109635109B (zh) 基于lstm并结合词性及多注意力机制的句子分类方法
CN107918782B (zh) 一种生成描述图像内容的自然语言的方法与系统
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN109189925A (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN110096711B (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN107220220A (zh) 用于文本处理的电子设备和方法
CN111027595A (zh) 双阶段语义词向量生成方法
CN109214001A (zh) 一种中文语义匹配系统及方法
CN111400469A (zh) 针对语音问答的智能生成系统及其方法
CN110263325A (zh) 中文分词系统
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant