CN108052625B - 一种实体精细分类方法 - Google Patents
一种实体精细分类方法 Download PDFInfo
- Publication number
- CN108052625B CN108052625B CN201711366934.7A CN201711366934A CN108052625B CN 108052625 B CN108052625 B CN 108052625B CN 201711366934 A CN201711366934 A CN 201711366934A CN 108052625 B CN108052625 B CN 108052625B
- Authority
- CN
- China
- Prior art keywords
- knowledge base
- vector
- target entity
- text
- entity text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 167
- 239000013604 expression vector Substances 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 21
- 230000002457 bidirectional effect Effects 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 8
- 238000012887 quadratic function Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种实体精细分类方法,包括:基于目标实体文本中各单词对应的单词向量,计算实体表示向量;基于句子中目标实体文本两侧各单词分别对应的语境单词向量,获取目标实体文本的基础语境向量;基于目标实体文本的知识库表示向量和基础语境向量,计算所述两侧各单词分别对应的知识库相关注意力值;基于所述知识库相关注意力值及所述基础语境向量,计算目标实体文本的知识库相关语境向量;合并所述目标实体文本的实体表示向量和知识库相关语境向量,获取句子表示向量,基于该句子表示向量,利用于建的目标分类器模型,获取目标实体文本属于各给定类别的概率。本发明能够有效提高分类模型的稳定性,并有效改善实体精细分类的效果。
Description
技术领域
本发明涉及信息处理技术领域,更具体地,涉及一种实体精细分类方法。
背景技术
实体分类的任务是识别实体文本的语义类型,如人物名、地点名、组织名等。该任务有助于精确定位文本中的实体,对于自然语言处理的很多其他任务具有重要的意义。
实体精细分类是实体分类新的研究方向,可以把实体分成更加精细的类别,如人物——运动员或地名——国家等。现有的精细分类方法包括涉及特征的传统方法和利用词向量作为特征的深度学习方法。其中,采用深度学习的方法:
一方面,把实体本身和语境当作两个独立的因素来考虑,单独从实体文本本身方向判断所属分类。而事实上语境中每个词的重要性是根据所考虑的实体变化的。如在例句“盖茨和艾伦联合创立了微软这个世界上最大的软件公司”中,“公司”一词对于判断“微软”的类型非常重要,但是对于判断“盖茨”的类型则没有那么重要。
另一方面,为了结构化地对现实世界的知识进行存储和处理,很多大规模知识图谱被建立,如Wikidata和DBpedia等。知识图谱将世界上所有人物、地名、机构名等专有名词和事物表示为实体,将实体之间的内在联系表示为关系,旨在将数据库中的海量知识表示为实体之间利用关系作为桥梁的三元关系组。例如,“加拿大与美国接壤”这一知识,在知识图谱中利用“加拿大,共享边界,美国”的三元组关系进行表示。这种关系信息可以为实体分类提供帮助,例如,如果知道了上述三元组,则可以推断出句子中的“加拿大”很可能是一个国家。然而,采用深度学习的精细分类方法中并没有考虑知识图谱中的这些关系信息。
综上可见,采用深度学习的精细分类方法在利用大规模训练数据上有独特的优势,能够达到较佳的水平。但是,该方法由于采用实体与语境分离以及文本与知识库分离的处理方式,将导致对实体精细分类的效果不佳。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明提供一种实体精细分类方法,用以有效提高分类模型的稳定性,并有效改善实体精细分类的效果。
本发明提供一种实体精细分类方法,包括:S1,基于目标实体文本中各单词对应的单词向量,计算所述目标实体文本的实体表示向量;S2,基于句子中所述目标实体文本两侧各单词分别对应的语境单词向量,利用双向循环神经网络,获取所述目标实体文本的基础语境向量;S3,基于所述目标实体文本的知识库表示向量和所述基础语境向量,计算所述两侧各单词分别对应的知识库相关注意力值;S4,基于所述两侧各单词分别对应的知识库相关注意力值,以及所述目标实体文本的基础语境向量,计算所述目标实体文本的知识库相关语境向量;S5,合并所述目标实体文本的实体表示向量和知识库相关语境向量,获取所述句子对应的句子表示向量,并基于所述句子表示向量,利用预先建立的目标分类器模型,获取所述目标实体文本属于各给定类别的概率。
其中,建立步骤S5中所述目标分类器模型的步骤进一步包括:基于所述句子表示向量,根据非线性层函数和逻辑斯蒂函数(Logistic Function)建立初始分类器模型;以所述初始分类器模型所有维度的交叉熵作为优化目标,利用给定训练样本训练所述初始分类器模型,通过梯度下降法优化所述优化目标,获取所述目标分类器模型。
其中,步骤S3中所述目标实体文本的知识库表示向量的获取步骤进一步具体包括:S301,利用文本信息重构知识库表示的初始神经网络,并利用所述给定训练样本训练所述知识库表示的初始神经网络,获取知识库表示的近似神经网络;S302,利用所述知识库表示的近似神经网络,获取所述目标实体文本对应的近似知识库表示向量,作为所述目标实体文本的知识库表示向量。
其中,所述利用文本信息重构知识库表示的初始神经网络的步骤进一步包括:搜索真实知识库中与未定位的所述文本信息近似的多个真实实体,选取所述多个真实实体中真实知识库表示与所述未定位的文本信息的近似知识库表示的差值小于设定阈值且取值最小的真实实体作为最接近真实实体,以所述最接近真实实体的真实知识库表示作为所述未定位的文本信息的初始近似知识库表示;其中,所述近似的多个真实实体表示以所述目标实体文本为搜索关键词,在给定知识库中搜索到的相关实体。
其中,所述S2的步骤进一步具体包括:将所述句子中所述目标实体文本前侧各单词分别对应的前向单词向量以及后侧各单词分别对应的后侧单词向量分别输入所述双向循环神经网络,获取所述前侧各单词分别对应的前向基础语境向量和所述后侧各单词分别对应的后向基础语境向量。
其中,所述S3的步骤进一步具体包括:基于所述前向基础语境向量和所述目标实体文本的知识库表示向量,利用给定非负函数公式,计算所述前侧各单词分别对应的前向知识库相关注意力值;基于所述后向基础语境向量和所述目标实体文本的知识库表示向量,利用所述给定非负函数公式,计算所述后侧各单词分别对应的后向知识库相关注意力值。
其中,所述给定非负函数公式进一步具体为二次函数公式。
其中,所述S4的步骤进一步具体包括:以所述前向知识库相关注意力值和所述后向知识库相关注意力值作为相应权值,对所述前向基础语境向量和所述后向基础语境向量加权求平均,计算所述目标实体文本的知识库相关语境向量。
其中,所述S1的步骤进一步具体包括:求取所述各单词对应的单词向量的平均值,作为所述目标实体文本的实体表示向量。
其中,所述双向循环神经网络进一步具体为双向LSTM循环神经网络。
本发明提供的一种实体精细分类方法,采用基于知识库信息的注意力机制的神经网络实体精细分类模型,同时考虑知识库和文本信息的互补,以及训练和测试的相合,能够有效提高模型的稳定性,改善实体精细分类的效果,实用性强。
附图说明
图1为本发明实施例一种实体精细分类方法的流程图;
图2为本发明实施例一种计算两侧各单词分别对应的知识库相关注意力值的流程图;
图3为本发明实施例一种获取目标实体文本的知识库表示向量的流程图;
图4为本发明实施例一种建立目标分类器模型的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
作为本发明实施例的一个实施例,本实施例提供一种实体精细分类方法,参考图1,为本发明实施例一种实体精细分类方法的流程图,包括:
S1,基于目标实体文本中各单词对应的单词向量,计算所述目标实体文本的实体表示向量;
S2,基于句子中所述目标实体文本两侧各单词分别对应的语境单词向量,利用双向循环神经网络,获取所述目标实体文本的基础语境向量;
S3,基于所述目标实体文本的知识库表示向量和所述基础语境向量,计算所述两侧各单词分别对应的知识库相关注意力值;
S4,基于所述两侧各单词分别对应的知识库相关注意力值,以及所述目标实体文本的基础语境向量,计算所述目标实体文本的知识库相关语境向量;
S5,合并所述目标实体文本的实体表示向量和知识库相关语境向量,获取所述句子对应的句子表示向量,并基于所述句子表示向量,利用预先建立的目标分类器模型,获取所述目标实体文本属于各给定类别的概率。
步骤S1可以理解为,对于待分类的目标实体,其对应有相应的目标实体文本,该目标实体文本通常由一个或多个单词组成。为了将自然语言转化为计算机能够识别的语言,通常将实体库中的单词表示成一个向量形式,如单热点表征(One-hot Representation)词向量、分布式表征(Distributed representation)词向量等,形成单词向量库。
实际处理时,根据目标实体文本中包含的各个单词查询单词向量库,获取每个组成单词对应的单词向量,并根据各单词向量计算目标实体文本对应的表示向量,即实体表示向量。
其中可选的,所述S1的步骤进一步具体包括:求取所述各单词对应的单词向量的平均值,作为所述目标实体文本的实体表示向量。
可以理解为,首先根据目标实体文本对应的各个单词进行查表,获取各组成单词分别对应的预训练好的单词向量。对于各组成单词向量,求取其向量平均值,即按下式计算各单词对应的单词向量的平均值,作为实体表示向量:
式中,m表示目标实体对应的实体表示向量,mk表示目标实体文本中第k个单词对应的单词向量,nm表示目标实体文本中包含单词的总数。
步骤S2可以理解为,对于单一的实体文本,通常可能表示不同的含义,因此会归入不同的类别。因此,对于目标实体文本的具体含义和分类确定,需要结合该目标实体文本所在句子的具体语境。对于目标实体文本所在的句子,在目标实体文本之前出现的单词表示过去状态,目标实体文本之后出现的单词表示将来的状态。
本步骤先通过查表等方式,确定目标实体文本所在句子中目标实体文本前后各单词对应的单词向量,即语境单词向量。再分别利用目标实体文本两侧的语境单词向量,通过双向循环神经网络分别输出两个方向各语境单词分别对应的关于语境的向量表示,即基础语境向量。
其中可选的,所述S2的步骤进一步具体包括:将所述句子中所述目标实体文本前侧各单词分别对应的前向单词向量以及后侧各单词分别对应的后侧单词向量分别输入所述双向循环神经网络,获取所述前侧各单词分别对应的前向基础语境向量和所述后侧各单词分别对应的后向基础语境向量。
可以理解为,首先对句子中的输入的除目标实体文本之外的语境单词进行查表,获取各语境单词对应的预训练好的词向量。其中语境单词包括目标实体前侧的各个单词和目标实体后侧的各个单词,预训练好的词向量包括前侧单词对应的前向单词向量和后侧单词对应的后向单词向量。
例如,将目标实体文本前、后侧语境的单词分别表示为{...,l2,l1}和{...,r2,r1}。其中,l1和l2分别表示目标实体文本前侧相邻第一个和第二个单词对应的词向量,相应的,r1和r2分别表示目标实体文本后侧相应位置的单词对应的词向量。
将{...,l2,l1}和{...,r2,r1}分别输入给定的双向循环神经网络,分别得到{...,l2,l1}和{...,r2,r1}中各向量分别对应的基础语境向量。例如,将{...,l2,l1}中各向量分别对应的前向基础语境向量表示为其中i=1,2,...,L1,和分别表示目标实体文本前侧第i个单词向量对应的网络正向输出基础语境向量和反向输出基础语境向量,L1表示句子中目标实体文本前侧单词的总数量。
同样的,将{...,r2,r1}中各向量分别对应的后向基础语境向量表示为其中j=1,2,...,L2,和分别表示目标实体文本后侧第j个单词向量对应的网络正向输出基础语境向量和反向输出基础语境向量,L2表示句子中目标实体文本后侧单词的总数量。
在一个实施例中,所述双向循环神经网络进一步具体为双向LSTM循环神经网络。可以理解为,在上述实施例的基础语境向量计算中,具体采用长短时记忆双向循环神经网络,即双向LSTM循环神经网络。LSTM网络能够记忆长期的信息,对于网络的稳定性具有重要意义。
步骤S3可以理解为,在根据上述步骤获取目标实体文本所在句子的基础语境向量之后,考虑到目标实体关于知识库的表示具有一定的注意力响应,在处理基础语境向量时,把实体的知识库表示用作注意力机制的查询向量。具体分别根据句子中上述前向基础语境向量和后向基础语境向量,以及目标实体文本的知识库表示向量,分别计算两个方向上各单词分别对应的知识库相关注意力值。
其中可选的,所述S3的进一步处理步骤参考图2,为本发明实施例一种计算两侧各单词分别对应的知识库相关注意力值的流程图,具体包括:
S31,基于所述前向基础语境向量和所述目标实体文本的知识库表示向量,利用给定非负函数公式,计算所述前侧各单词分别对应的前向知识库相关注意力值。
可以理解为,根据上述实施例,分别计算两个方向上各单词分别对应的知识库相关注意力值。本步骤具体进行目标实体文本前侧的前向知识库相关注意力值的计算。
式中,表示句子中目标实体文本前侧相邻第i个单词对应的知识库相关注意力值,e表示目标实体文本的知识库表示向量,Wka表示参数矩阵,通过训练学习确定,表示句子中目标实体文本前侧相邻第i个单词对应的前向基础语境向量,f(x)表示给定非负函数。
在一个实施例中,所述给定非负函数公式进一步具体为二次函数公式。可以理解为,在上述步骤中具体取f(x)为二次函数。
S32,基于所述后向基础语境向量和所述目标实体文本的知识库表示向量,利用所述给定非负函数公式,计算所述后侧各单词分别对应的后向知识库相关注意力值。
可以理解为,与上述步骤同理,本步骤具体进行目标实体文本后侧的后向知识库相关注意力值的计算。对于上述实施例中的后向基础语境向量假设目标实体文本的知识库表示向量为e,则利用下式计算后向知识库相关注意力值:
式中,表示句子中目标实体文本后侧相邻第j个单词对应的知识库相关注意力值,e表示目标实体文本的知识库表示向量,Wka表示参数矩阵,通过训练学习确定,表示句子中目标实体文本后侧相邻第j个单词对应的后向基础语境向量,f(x)表示给定非负函数。
同样的,当上述步骤中f(x)取二次函数时,此处f(x)也为相同的二次函数。
其中可选的,步骤S3中所述目标实体文本的知识库表示向量的获取步骤进一步参考图3,为本发明实施例一种获取目标实体文本的知识库表示向量的流程图,具体包括:
S301,利用文本信息重构知识库表示的初始神经网络,并利用给定训练样本训练所述知识库表示的初始神经网络,获取知识库表示的近似神经网络。
可以理解为,在上述知识库相关注意力值的计算中,向量e是计算的关键。向量e表示目标实体在知识库中的表示,原则上用TransE技术求出,可以反映它和其他实体的关系,提供丰富的背景信息。在训练时,可以知道文本中的实体对应知识库中具体哪个实体,因此可以直接使用TransE得到的表示向量。但是在测试时,并不知道目标实体与知识库的具体对应关系。
本实施例在照常训练分类器模型时,利用文本信息重构知识库表示的初始神经网络,并利用训练分类器模型的给定训练样本训练该初始神经网络,与标准的表示向量进行对齐。训练好的模型作为知识库表示的近似神经网络。
其中可选的,所述利用文本信息重构知识库表示的初始神经网络的步骤进一步包括:搜索真实知识库中与未定位的所述文本信息近似的多个真实实体,选取所述多个真实实体中真实知识库表示与所述未定位的文本信息的近似知识库表示的差值小于设定阈值且取值最小的真实实体作为最接近真实实体,以所述最接近真实实体的真实知识库表示作为所述未定位的文本信息的初始近似知识库表示;
其中,所述近似的多个真实实体表示以所述目标实体文本为搜索关键词,在给定知识库中搜索到的相关实体。
可以理解为,为了进一步提高重构的近似实体知识库表示的准确性,进一步对重构的近似实体知识库进行消岐处理。即:对于文本中未定位的实体,从知识库中搜索与其名称相近的实体,然后计算该实体的重构近似表示和所有候选实体的真实表示的差值。其中名称相近的界定为:以目标实体文本为搜索关键词,在给定知识库中进行搜索,搜索结果中出现的相关实体即表示与目标实体名称相近的实体。其中给定知识库可以为维基百科、百度百科等通用知识库,也可以是根据需要临时构建的知识库。
如果存在某个候选实体它的差值小于某个阈值,那么很大概率已经成功定位了该实体,可以直接使用它的真实知识库表示。若存在多个差值小于设定阈值的情况,则选取其中最小差值对应的候选实体作为该未定位文本的知识库表示。若所有差值均大于阈值,则很大概率知识库中并不存在这个实体或者相近的实体,于是使用重建的近似知识库表示作为该实体的知识库表示。
S302,利用所述知识库表示的近似神经网络,获取所述目标实体文本对应的近似知识库表示向量,作为所述目标实体文本的知识库表示向量。
可以理解为,在对分类器模型进行测试时,利用这个重构网络获取一个近似的实体知识库表示,用于计算注意力的值。
步骤S4可以理解为,在根据上述步骤计算获取目标实体文本前、后侧各单词分别对应的知识库相关注意力值之后,可以根据该注意力值确定目标实体文本关于知识库中各实体的相关度情况。具体根据目标实体文本的基础语境向量以及句子中各语境单词分别对应的知识库相关注意力值,计算目标实体文本关于给定知识库的知识库相关语境向量。
其中可选的,所述S4的步骤进一步具体包括:以所述前向知识库相关注意力值和所述后向知识库相关注意力值作为相应权值,对所述前向基础语境向量和所述后向基础语境向量加权求平均,计算所述目标实体文本的知识库相关语境向量。
可以理解为,在根据上述实施例计算目标实体文本关于给定知识库的知识库相关语境向量时,对前侧各单词分别对应的前向基础语境向量和后侧各单词分别对应的后向基础语境向量加权求平均,计算目标实体文本的知识库相关语境向量。具体利用下式进行计算:
式中,c表示目标实体文本的知识库相关语境向量,表示句子中目标实体文本前侧相邻第i个单词对应的知识库相关注意力值,表示句子中目标实体文本前侧相邻第i个单词对应的前向基础语境向量,L1表示句子中目标实体文本前侧单词的总数量,表示句子中目标实体文本后侧相邻第j个单词对应的知识库相关注意力值,表示句子中目标实体文本后侧相邻第j个单词对应的后向基础语境向量,L2表示句子中目标实体文本后侧单词的总数量。
步骤S5可以理解为,对于给定的目标实体,其分类受对应的目标实体文本和所在句子的语境环境影响。因此将目标实体文本的实体表示向量及其所在句子中语境单词的知识库相关语境向量合并,组成的向量作为该句子的句子表示向量。即,合并上述步骤中获取的目标实体对应的实体表示向量m和目标实体文本的知识库相关语境向量c,组成以下句子表示向量:
式中,x表示目标实体文本所在句子的句子表示向量,c表示目标实体文本的知识库相关语境向量,m表示目标实体的实体表示向量。
然后,将该句子表示向量作为事先训练好的分类器模型的输入向量,利用分类器模型计算输出该目标实体文本属于给定类别库中各类别的概率。
其中可选的,建立步骤S5中所述目标分类器模型的步骤进一步参考图4,为本发明实施例一种建立目标分类器模型的流程图,包括:
S51,基于所述句子表示向量,根据非线性层函数和逻辑斯蒂函数(LogisticFunction)建立初始分类器模型。
可以理解为,根据上述实施例,在进行目标实体文本的分类时,可将目标实体文本所在句子的句子表示向量作为分类模型的输入计算目标实体文本属于各给定类型的概率。因此根据所述的句子表示向量的维度,利用非线性层函数和逻辑斯蒂函数建立初始分类器模型。如当非线性层函数取双曲正切函数tanh()时,得到如下初始分类器模型:
y=σ(Wy1tanh(Wy2x));
y(n)=p(t(n)|s,θ);
式中,y表示目标实体文本相对给定分类库的概率分布向量,σ()表示逻辑斯蒂函数,tanh()表示双曲正切函数,Wy1和Wy2表示参数矩阵,x表示目标实体文本所在句子的句子表示向量,y(n)表示向量y的第n维元素,即目标实体属于第n个分类的概率,p(t(n)|s,θ)表示在目标实体文本所在句子s和模型参数θ条件下目标实体文本属于第n个分类t(n)的概率。
S52,以所述初始分类器模型所有维度的交叉熵作为优化目标,利用给定训练样本训练所述初始分类器模型,通过梯度下降法优化所述优化目标,获取所述目标分类器模型。
可以理解为,在根据上述步骤获取初始分类器模型的表达式之后,利用给定训练样本对初始分类器模型进行训练。具体用梯度下降方法对该模型的参数进行优化,优化目标是模型表达式每一维的交叉熵,表示如下:
式中,J(θ)表示优化目标函数,表示第q个目标实体相对给定分类库的实际概率分布向量的第n维元素,即第q个目标实体属于第n个分类的实际概率,表示第q个目标实体相对给定分类库的计算概率分布向量的第n维元素,即第q个目标实体属于第n个分类的计算概率,θ表示分类器模型参数。
本发明实施例提供的一种实体精细分类方法,采用基于知识库信息的注意力机制的神经网络实体精细分类模型,同时考虑知识库和文本信息的互补,以及训练和测试的相合,能够有效提高模型的稳定性,改善实体精细分类的效果,实用性强。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种实体精细分类方法,其特征在于,包括:
S1,基于目标实体文本中各单词对应的单词向量,计算所述目标实体文本的实体表示向量;
S2,基于句子中所述目标实体文本两侧各单词分别对应的语境单词向量,利用双向循环神经网络,获取所述目标实体文本的基础语境向量;
S3,基于所述目标实体文本的知识库表示向量和所述基础语境向量,计算所述两侧各单词分别对应的知识库相关注意力值;
S4,基于所述两侧各单词分别对应的知识库相关注意力值,以及所述目标实体文本的基础语境向量,计算所述目标实体文本的知识库相关语境向量;
S5,合并所述目标实体文本的实体表示向量和知识库相关语境向量,获取所述句子对应的句子表示向量,并基于所述句子表示向量,利用预先建立的目标分类器模型,获取所述目标实体文本属于各给定类别的概率;
所述S1的步骤进一步具体包括:
求取所述各单词对应的单词向量的平均值,作为所述目标实体文本的实体表示向量;
S2的步骤进一步具体包括:将所述句子中所述目标实体文本前侧各单词分别对应的前向单词向量以及后侧各单词分别对应的后侧单词向量分别输入所述双向循环神经网络,获取所述前侧各单词分别对应的前向基础语境向量和所述后侧各单词分别对应的后向基础语境向量;
步骤S3中所述目标实体文本的知识库表示向量的获取步骤进一步具体包括:
S301,利用文本信息重构知识库表示的初始神经网络,并利用所述给定训练样本训练所述知识库表示的初始神经网络,获取知识库表示的近似神经网络;
S302,利用所述知识库表示的近似神经网络,获取所述目标实体文本对应的近似知识库表示向量,作为所述目标实体文本的知识库表示向量。
2.根据权利要求1所述的方法,其特征在于,建立步骤S5中所述目标分类器模型的步骤进一步包括:
基于所述句子表示向量,根据非线性层函数和逻辑斯蒂函数(Logistic Function)建立初始分类器模型;
以所述初始分类器模型所有维度的交叉熵作为优化目标,利用给定训练样本训练所述初始分类器模型,通过梯度下降法优化所述优化目标,获取所述目标分类器模型。
3.根据权利要求1所述的方法,其特征在于,所述利用文本信息重构知识库表示的初始神经网络的步骤进一步包括:
搜索真实知识库中与未定位的所述文本信息近似的多个真实实体,选取所述多个真实实体中真实知识库表示与所述未定位的文本信息的近似知识库表示的差值小于设定阈值且取值最小的真实实体作为最接近真实实体,以所述最接近真实实体的真实知识库表示作为所述未定位的文本信息的初始近似知识库表示;
其中,所述近似的多个真实实体表示以所述目标实体文本为搜索关键词,在给定知识库中搜索到的相关实体。
4.根据权利要求3所述的方法,其特征在于,所述S3的步骤进一步具体包括:
基于所述前向基础语境向量和所述目标实体文本的知识库表示向量,利用给定非负函数公式,计算所述前侧各单词分别对应的前向知识库相关注意力值;
基于所述后向基础语境向量和所述目标实体文本的知识库表示向量,利用所述给定非负函数公式,计算所述后侧各单词分别对应的后向知识库相关注意力值。
5.根据权利要求4所述的方法,其特征在于,所述给定非负函数公式进一步具体为二次函数公式。
6.根据权利要求4所述的方法,其特征在于,所述S4的步骤进一步具体包括:
以所述前向知识库相关注意力值和所述后向知识库相关注意力值作为相应权值,对所述前向基础语境向量和所述后向基础语境向量加权求平均,计算所述目标实体文本的知识库相关语境向量。
7.根据权利要求1所述的方法,其特征在于,所述双向循环神经网络进一步具体为双向LSTM循环神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711366934.7A CN108052625B (zh) | 2017-12-18 | 2017-12-18 | 一种实体精细分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711366934.7A CN108052625B (zh) | 2017-12-18 | 2017-12-18 | 一种实体精细分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108052625A CN108052625A (zh) | 2018-05-18 |
CN108052625B true CN108052625B (zh) | 2020-05-19 |
Family
ID=62133185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711366934.7A Active CN108052625B (zh) | 2017-12-18 | 2017-12-18 | 一种实体精细分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108052625B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875024B (zh) * | 2018-06-20 | 2020-10-20 | 清华大学深圳研究生院 | 文本分类方法、系统、可读存储介质及电子设备 |
CN109062894A (zh) * | 2018-07-19 | 2018-12-21 | 南京源成语义软件科技有限公司 | 中文自然语言实体语义关系的自动辨识算法 |
CN109271516B (zh) * | 2018-09-26 | 2020-09-15 | 清华大学 | 一种知识图谱中实体类型分类方法及系统 |
CN110442734B (zh) * | 2019-08-13 | 2020-11-17 | 海南大学 | 基于数据图谱、信息图谱和知识图谱的交互区域划分及传输优化处理方法 |
CN110795569B (zh) * | 2019-10-08 | 2021-06-15 | 北京百度网讯科技有限公司 | 知识图谱的向量表示生成方法、装置及设备 |
CN111104973B (zh) * | 2019-12-06 | 2022-02-15 | 天津大学 | 一种基于知识注意力的细粒度图像分类方法 |
CN111145913B (zh) * | 2019-12-30 | 2024-02-20 | 讯飞医疗科技股份有限公司 | 基于多重注意力模型的分类方法、装置及设备 |
CN111949768B (zh) * | 2020-08-23 | 2024-02-02 | 云知声智能科技股份有限公司 | 一种文件分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615687A (zh) * | 2015-01-22 | 2015-05-13 | 中国科学院计算技术研究所 | 一种面向知识库更新的实体细粒度分类方法与系统 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106909655A (zh) * | 2017-02-27 | 2017-06-30 | 中国科学院电子学研究所 | 基于产生式别名挖掘的知识图谱实体发现和链接方法 |
KR20170096282A (ko) * | 2016-02-15 | 2017-08-24 | 한국과학기술원 | 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법 |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
-
2017
- 2017-12-18 CN CN201711366934.7A patent/CN108052625B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615687A (zh) * | 2015-01-22 | 2015-05-13 | 中国科学院计算技术研究所 | 一种面向知识库更新的实体细粒度分类方法与系统 |
KR20170096282A (ko) * | 2016-02-15 | 2017-08-24 | 한국과학기술원 | 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106909655A (zh) * | 2017-02-27 | 2017-06-30 | 中国科学院电子学研究所 | 基于产生式别名挖掘的知识图谱实体发现和链接方法 |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
Non-Patent Citations (2)
Title |
---|
Corpus-level Fine-grained Entity Typing Using Contextual Information;Yadollah Yaghoobzadeh;《Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing(EMNLP2015)》;20150930;715-725 * |
知识表示学习研究进展;刘知远等;《计算机研究与发展》;20161231;第53卷(第2期);247-261 * |
Also Published As
Publication number | Publication date |
---|---|
CN108052625A (zh) | 2018-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052625B (zh) | 一种实体精细分类方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN107180084B (zh) | 词库更新方法及装置 | |
CN114743020B (zh) | 一种结合标签语义嵌入和注意力融合的食物识别方法 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN111339754A (zh) | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 | |
CN103995853A (zh) | 基于关键句的多语言情感数据处理分类方法及系统 | |
Atia et al. | Increasing the accuracy of opinion mining in Arabic | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和系统 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
Zul et al. | Social media sentiment analysis using K-means and naïve bayes algorithm | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN112307336A (zh) | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 | |
CN110209818A (zh) | 一种面向语义敏感词句的分析方法 | |
US20230282018A1 (en) | Generating weighted contextual themes to guide unsupervised keyphrase relevance models | |
CN111177402A (zh) | 基于分词处理的评价方法、装置、计算机设备及存储介质 | |
CN114896386A (zh) | 基于BiLSTM的电影评论语义情感分析方法及系统 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
Hindocha et al. | Short-text Semantic Similarity using GloVe word embedding | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN113535949A (zh) | 基于图片和句子的多模态联合事件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |