CN114661912A - 基于无监督句法分析的知识图谱构建方法、装置及设备 - Google Patents
基于无监督句法分析的知识图谱构建方法、装置及设备 Download PDFInfo
- Publication number
- CN114661912A CN114661912A CN202210053719.6A CN202210053719A CN114661912A CN 114661912 A CN114661912 A CN 114661912A CN 202210053719 A CN202210053719 A CN 202210053719A CN 114661912 A CN114661912 A CN 114661912A
- Authority
- CN
- China
- Prior art keywords
- data set
- vector representation
- unsupervised
- phrase
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于无监督句法分析构建知识图谱的方法、装置及设备,通过获取文本数据集,并对所述文本数据集进行预处理,对预处理后的数据集进行编码,得到句法树中每个短语的向量表示,计算所述短语向量表示的得分,将得分最高的句法树进行解码,并作为句法分析的结果,根据所述得分最高的句法树构建知识图谱;解决了现有技术中采用启发式规则构建知识图谱工作量大,可以移植性差的问题,实现了基于无监督句法分析来构件知识图谱,成本较低且准确性高。
Description
技术领域
本发明涉及自然语言技术领域,特别涉及一种基于无监督句法分析的知识图谱构建方法、装置及设备。
背景技术
互联网作为一个全球化、分布式的信息服务中心,为人们提供了丰富的数据资源和便捷的资源获取方式,同时也造成了人们对于计算机的依赖日益增长。而人们在使用互联网的同时,也为互联网中加入了更多的信息;更多的网民意味互联网信息的爆炸式增长。但与此同时,这些互联网上的海量信息是存在大量的重复和冗余的,这就给高效率利用互联网信息带来了非常大的困难;所以,如何高效的对互联网中的海量信息中抽取出有用的信息并进行高效率分析和利用是一个非常重要且有意义的问题。而计算机的处理是十分高效的,因此人们迫切希望利用现有信息处理技术来自动化、智能化地从微博文本数据中获取有价值的信息。而获取有意义有关联的信息的重要一环便是构建知识图谱。
现有的知识图谱构建按照数据来源可分为两种方式:一种是基于基础的文本知识库,使用自然语言处理技术,抽取其中的实体和实体之间的关系组成三元组来构建,这种方式一般用于互联网的搜索,本发明涉及的便是这种方式,其中的信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术,是构建正确知识图谱的关键步骤;第二种方式需要用到用户预定义的知识图谱,一般用于特定的领域,比如说学科知识图谱的构建。
传统的实体关系抽取与知识图谱的构建大多依赖于启发式规则,虽实现简单且准确率高,但工作量大、可移植性极差,随着语料库的不断丰富,尤其是微博文本数据集的不断扩大,这种传统的方法不再具有可行性。句法分析作为信息抽取的一种方法,过分析词与词间的关系来揭示句法结构,构建语法树,视核心动词为中心成分,不受其它词支配,受支配的词则以依存关系附属于支配词。无论在开发领域还是专业领域,现已有不少学者基于句法分析抽取实体关系。
虽然通常有监督句法分析的效果远远要好于无监督句法分析(如通常有监督算法在PTB数据集以及CTB数据集的F1值都在90以上),但有监督句法分析需要大量的人工来对文本进行细致的标注,有时还需要语言学家的参与,这都需要大量的人力物力。对于微博这种单一数据领域来说,这些成本有时候会更高,因此有监督句法分析在实际场景中的应用价值偏小。
发明内容
基于此,有必要针对上述技术问题,提供一种成本低、效率高的基于无监督句法分析的知识图谱构建方法、装置及设备。
本发明一实施例提供一种基于无监督句法分析的知识图谱构建方法,所述方法包括:
获取文本数据集,并对所述文本数据集进行预处理;
对预处理后的数据集进行编码,得到句法树中每个短语的向量表示;
计算所述短语向量表示的得分;
将得分最高的句法树进行解码,并作为句法分析的结果;
根据所述得分最高的句法树构建知识图谱。
在一种实施方式中,所述获取文本数据集,并对所述文本数据集进行预处理包括:
将文本数据集转换为字符串,并将所述字符串读入缓冲区中;
对转换为所述字符串的所述文本数据集中的句子进行分词;
将每个所述句子初步编码转化为向量,并存储在元组中。
在一种实施方式中,所述对预处理后的数据集进行编码,得到句法树中每个短语的向量表示包括:
根据训练语料中的上下文得到预处理后的所述文本数据集中的句子的文本向量表示;
根据所述预处理后的所述文本数据集中的句子的文本向量表示,获得句法树中每个短语的向量表示。
在一种实施方式中,所述根据训练语料中的上下文得到预处理后的所述文本数据集中的句子的文本向量表示包括:
将所述预处理后的所述文本数据集中的句子的单词序列输入编码器,得到每个单词的文本向量表示;
所述根据所述预处理后的所述文本数据集中句子的文本向量表示,获得句法树中每个短语的向量表示包括:
根据每个单词的文本向量表示,获得所述句法树中每个短语的向量表示。
在一种实施方式中,所述计算所述短语向量表示的得分包括:
获得所述短语的非终结符的得分和跨度得分;
将非终结符的得分和跨度得分确定为所述短语向量表示的得分。
在一种实施方式中,所述将得分最高的句法树进行解码包括:
对于一个句法距离序列,找出序列中最大的元素di;
将下标小于i的句子构成左子树,大于等于i的句子构成右子树;
对于所述左子树和所述右子树进行递归解码。
在一种实施方式中,所述根据所述得分最高的句法树构建知识图谱包括:
根据所述句法树,结合词性特征,确定存在关联关系的两个实体;
根据所述句法树确定两个实体之间的关联关系;
对所述关联关系进行过滤,得到不包含重复关联关系的实体关系。
本发明一实施例提供一种基于无监督句法分析的知识图谱构建装置,所述装置包括:
数据获取模块,获取文本数据集,并对所述文本数据集进行预处理;
数据编码模块,对预处理后的数据集进行编码,得到句法树中每个短语的向量表示;
得分计算模块,计算所述短语向量表示的得分;
解码模块,将得分最高的句法树进行解码,并作为句法分析的结果;
图谱构建模块,根据所述得分最高的句法树构建知识图谱。
本发明一实施例提供一种计算机可读存储介质,其上存储有计算机指令,
该指令被处理器执行时实现上述的基于无监督句法分析的知识图谱构建方法的步骤。
本发明一实施例提供一种基于无监督句法分析的知识图谱构建设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,
所述处理器执行所述程序时实现上述的基于无监督句法分析的知识图谱构建方法的步骤。
综上所述,本发明提供的基于无监督句法分析构建知识图谱的方法,通过获取文本数据集,并对所述文本数据集进行预处理,对预处理后的数据集进行编码,得到句法树中每个短语的向量表示,计算所述短语向量表示的得分,将得分最高的句法树进行解码,并作为句法分析的结果,根据所述得分最高的句法树构建知识图谱;解决了现有技术中采用启发式规则构建知识图谱工作量大,可以移植性差的问题,实现了基于无监督句法分析来构件知识图谱,成本较低且准确性高。
附图说明
为了更清楚地说明本发明实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例中基于无监督句法分析的知识图谱构建方法流程图;
图2为本发明另一个实施例中基于无监督句法分析的知识图谱构建方法流程图;
图3为本发明又一个实施例中基于无监督句法分析的知识图谱构建方法流程图;
图4为本发明又一个实施例中基于无监督句法分析的知识图谱构建方法流程图;
图5为本发明又一个实施例中基于无监督句法分析的知识图谱构建方法流程图;
图6为本发明又一个实施例中基于无监督句法分析的知识图谱构建方法流程图;
图7为本发明一个实施例中基于无监督句法分析的知识图谱构建装置示意图;
图8为本发明一个实施例中基于无监督句法分析的知识图谱构建设备的硬件示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例一
请参考图1,本发明一实施例提供了基于无监督句法分析的知识图谱构建方法,该方法包括:
S100,获取文本数据集,并对文本数据集进行预处理。
在本发明实施例中,文本数据集可以是微博文本数据集。获取微博文本数据集,并对数据集进行一系列的预处理。
在一种实施方中,请参考图2,步骤S100包括:
S110,将文本数据集转换为字符串,并将字符串读入缓冲区中。
将文本数据集转换成字符串的格式,以便于将文本数据集存入缓冲区中。
S120,对转换为字符串的文本数据集中的句子进行分词。
对转换为字符串的文本数据集中的句子进行分词操作,采用jieba分词实现,其底层分词算法是基于隐马尔科夫的生成式分词算法,同时加入了中文常用词字典来提高分词效果。
S130,将每个句子初步编码转化为向量,并存储在元组中。
在一种实施方式中,需要将文本数据集向量化,根据构建好的训练语料词典,对文本数据集中的每个句子按照单词在语料词典中的顺序进行初步编码,将文本字符串转化为向量,再通过编码模型中的word embedding层对其进行编码训练,训练完成的向量存储在元组中。
S200,对预处理后的数据集进行编码,得到句法树中每个短语的向量表示。
基于步骤S100中预处理后的文本数据集,根据训练语料中的上下文来学习文本数据集中句子的文本向量表示,然后进一步获得句法树中每个短语的向量表示。
在一种实施方中,请参考图3,步骤S200包括以下步骤:
S210,根据训练语料中的上下文得到预处理后的文本数据集中的句子的文本向量表示。
具体的,将预处理后的文本数据集中的句子的单词序列输入编码器,得到每个单词的文本向量表示。
S220,根据所述预处理后的所述文本数据集中的句子的文本向量表示,获得句法树中每个短语的向量表示。
具体的,根据每个单词的文本向量表示,获得句法树中每个短语的向量表示。
进一步的,在本发明实施例中,对于给定的单词序列(即句子)S=(w0,w1,...,wn-1),编码器将上述单词序列作为输入,得到每个单词的上下文向量表示,然后更进一步的获得句法树中每个短语的向量表示。
实现了基于transformer网络的树状编码模型的训练,这种树状编码模型对传统的Transformer神经网络进行修改,在普通的多头自注意力层之前还加入了一层计算句子中句法成分先验的模块,并在每个子层的计算中,加入句法分析中类似层级的约束,希望能够隐式地对句子的层次结构进行建模,无监督地学习到句子的句法结构。
为了加入句中单词之间的句法先验注意力,隐式地对句法结构进行建模,在传统的自注意力基础上,加入了句法先验知识计算模块如下:
在原本的点积自注意力基础上,新加入了一个代表句法先验知识的C,其中在多头自注意力层中不同的头,我们设定为共享同一个句法先验知识C,这样有助于减少网络中的参数,防止设计过于复杂的网络导致过拟合。其中C为注意力分数矩阵,Cij表示句子单词i和单词j构成一个短语的概率。
为计算先验成分C,本发明使用最大似然估计,引入了各个单词之间构成短语的事件为独立事件的假设,先验成分Cij拆解公式如下:
其中P(i,j)表示单词i与单词j组成的单词顺序集合构成短语的概率,ak表示单词k和单词k+1组成短语的概率。
其中p(i,i+1)(指单词i和单词i+1组成短语的概率,等同于ai)的计算方式,本发明采用类似attention机制的方式,也同样采用合成注意力的方式构造单词之间的n×n大小的注意力矩阵A:
A=Relu(XW1+b1)W2+b2
由于得分sk,k+1是有顺序的,为了防止存在得分全部相同的特殊情况出现,对得分进行归一化操作:
p(k,k+1),p(k,k-1)=softmax(sk,k+1,sk,k-1)
然后,我们需要通过多头自注意力机制层来得到句子中各个单词之间的自注意力分数,下面简单介绍一下多头自注意力机制的运算过程。
普通的点积注意力机制可以用以下数学公式来表示:
自注意力机制就是在点积注意力的基础上,将Q,K,V都设为源端向量,即Q,K,V相同,进行计算。而多头自注意力机制就是通过H个不同的线性变换对Q,K,V进行投影,映射到不同的空间,在不同的空间进行自注意力机制计算,最后将不同的空间下的结果拼接起来:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
其中WO为随机初始化的矩阵,需要训练,作用是将拼接起来的矩阵调整为一个H大小的矩阵。
headi=Attention(QWi Q,KWi K,VWi V)
综上所述,最终我们可以得出先验成分C,其为一个表示各个单词之间构成短语概率的一个矩阵,再与多头自注意力机制层得出的各个单词之间的自注意力分数矩阵做对应位置元素的乘积,最终得到某一层的最终结果,即句子中所有单词融合句法信息和句义信息的最终表示。
此外,由于句法树结构存在一定的递归性,比如:短语成分在句法树中较低的层中互相连接的单词在更高的层中有更大的概率互相连接属于一个更大的短语,或是本来在较低的层中两个不能构成短语的单词在更高的层中有可能构成短语。这些句法结构的特殊性质都应该被考虑进去并进行相应的隐式建模来让模型无监督的学习到句子结构。所以,针对这些层级性质,模型中添加了层级限制,我们使得分数始终小于分数其中l代表第几层编码网络,k表示句子中的第k个单词;具体而言第l层的句子中的第k个单词的表示具有如下性质:
其中表示l-1层第k个单词的结果,表示第l层按照之前公式计算的第k个单词的结果。初始化时,我们将设定为0。基于这些计算,我们每一个层都可以得到一个句子中所有单词构成短语的概率,即句法先验成分矩阵;且每一层同时又依赖于上一层的结果,具有一定的层级性质。经过实验,这些结构能帮助模型更好的无监督地学习到句子中的句法信息。
S300,计算短语向量表示的得分。
在本发明实施例中,得分分为两部分,第一部分为该短语的非终结符的得分,第二部分为该短语的跨度得分,分数一般采用两层前馈神经网络来得到,根据得到的短语跨度得分和非终结符得分,最终的句法树总得分定义为该句法树包含的所有短语的非终结符得分与所有短语的跨度得分之和。
具体的,请参考图4,步骤S300包括:
S310,获得短语的非终结符的得分和跨度得分。
S320,将非终结符的得分和跨度得分确定为短语向量表示的得分。
将将非终结符的得分和跨度得分相加,得到短语向量表示的得分。
S400,将得分最高的句法树进行解码,并作为句法分析的结果。
根据步骤S300计算出每个句法树的得分,得到得分最高的句法树,并将该句法树作为句法分析的结果。
具体的,请参考图5,步骤S400中解码步骤包括:
S410,对于一个句法距离序列,首先找出序列中最大的元素di。
S420,将下标小于i的句子构成左子树,大于等于i的句子构成右子树。
S430,对于所述左子树和所述右子树进行递归解码。
S500,根据得分最高的句法树构建知识图谱。
具体的,请参考图6,步骤S500包括:
S510,根据句法树,结合词性特征,确定存在关联关系的两个实体。
S520,根据句法树确定两个实体之间的关联关系。
通过句法分析得到实体关系之后,基于实体关系的知识图谱构建主要包含如下三个模块,数据模块:负责提供抽取获得的实体关系三元组;图谱模块:基于数据层提供的三元组数据,构建实体与实体间的关系图谱;应用模块:基于构建的知识图谱,为智能搜索、智能问答等互联网领域应用提供可靠的支撑。
S530,对关联关系进行过滤,得到不包含重复关联关系的实体关系。
综上所述,本发明提供的基于无监督句法分析构建知识图谱的方法,通过获取文本数据集,并对所述文本数据集进行预处理,对预处理后的数据集进行编码,得到句法树中每个短语的向量表示,计算所述短语向量表示的得分,将得分最高的句法树进行解码,并作为句法分析的结果,根据所述得分最高的句法树构建知识图谱;解决了现有技术中采用启发式规则构建知识图谱工作量大,可以移植性差的问题,实现了基于无监督句法分析来构件知识图谱,成本较低且准确性高。
实施例二
请参考图7,本发明一实施例提供一种基于无监督句法分析构建知识图谱的装置,该装置包括:数据获取模块100、数据编码模块200、得分计算模块300、解码模块400和图谱构件模块500。
数据获取模块100,获取文本数据集,并对文本数据集进行预处理;
数据编码模块200,对预处理后的数据集进行编码,得到句法树中每个短语的向量表示;
得分计算模块300,计算短语向量表示的得分;
解码模块400,将得分最高的句法树进行解码,并作为句法分析的结果;
图谱构件模块500,根据得分最高的句法树构建知识图谱。
在一种实施方式中,数据获取模块100还用于:将文本数据集转换为字符串,并将字符串读入缓冲区中;对转换为字符串的文本数据集中的句子进行分词;将每个句子初步编码转化为向量,并存储在元组中。
在一种实施方式中,数据编码模块200还用于:根据训练语料中的上下文得到预处理后的文本数据集中的句子的文本向量表示;根据预处理后的文本数据集中的句子的文本向量表示,获得句法树中每个短语的向量表示。
具体的,数据编码模块200还用于:将预处理后的文本数据集中的句子的单词序列输入编码器,得到每个单词的文本向量表示;根据每个单词的文本向量表示,获得句法树中每个短语的向量表示。
在一种实施方式中,得分计算模块300还用于:获得短语的非终结符的得分和跨度得分;将非终结符的得分和跨度得分确定为短语向量表示的得分。
在一种实施方式中,解码模块400还用于,对于一个句法距离序列,找出序列中最大的元素di;将下标小于i的句子构成左子树,大于等于i的句子构成右子树;对于左子树和右子树进行递归解码。
在一种实施方式中,图谱构建模块500还用于:根据句法树,结合词性特征,确定存在关联关系的两个实体;根据所述句法树确定两个实体之间的关联关系;对关联关系进行过滤,得到不包含重复关联关系的实体关系。
实施例三
本发明实施例提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现实施例一中的方法的步骤。该存储介质上还存储有信息。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
实施例四
本实施例提供一种基于无监督句法分析的知识图谱构建设备,如图8所示,包括存储器820、处理器810及存储在存储器820上并可在处理器810上运行的计算机程序,处理器810执行程序时实现实施例一中方法的步骤。
图8是本发明实施例提供的执行基于无监督句法分析的知识图谱构建方法的设备的硬件结构示意图,如8所示,该系统包括一个或多个处理器810以及存储器820,图8中以一个处理器810为例。
执行基于无监督句法分析的知识图谱构建方法的热设备还可以包括:输入装置830和输出装置840。
处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。
处理器810可以为中央处理器(Central Processing Unit,CPU)。处理器810还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
在本说明书的描述中,参考术语“有些实施例”、“其他实施例”、“理想实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特征包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性描述不一定指的是相同的实施例或示例。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于无监督句法分析的知识图谱构建方法,其特征在于,所述方法包括:
获取文本数据集,并对所述文本数据集进行预处理;
对预处理后的数据集进行编码,得到句法树中每个短语的向量表示;
计算所述短语向量表示的得分;
将得分最高的句法树进行解码,并作为句法分析的结果;
根据所述得分最高的句法树构建知识图谱。
2.根据权利要求1所述的基于无监督句法分析的知识图谱构建方法,其特征在于,所述获取文本数据集,并对所述文本数据集进行预处理包括:
将文本数据集转换为字符串,并将所述字符串读入缓冲区中;
对转换为所述字符串的所述文本数据集中的句子进行分词;
将每个所述句子初步编码转化为向量,并存储在元组中。
3.根据权利要求1所述的基于无监督句法分析的知识图谱构建方法,其特征在于,所述对预处理后的数据集进行编码,得到句法树中每个短语的向量表示包括:
根据训练语料中的上下文得到预处理后的所述文本数据集中的句子的文本向量表示;
根据所述预处理后的所述文本数据集中的句子的文本向量表示,获得句法树中每个短语的向量表示。
4.根据权利要求3所述的基于无监督句法分析的知识图谱构建方法,其特征在于,所述根据训练语料中的上下文得到预处理后的所述文本数据集中的句子的文本向量表示包括:
将所述预处理后的所述文本数据集中的句子的单词序列输入编码器,得到每个单词的文本向量表示;
所述根据所述预处理后的所述文本数据集中句子的文本向量表示,获得句法树中每个短语的向量表示包括:
根据每个单词的文本向量表示,获得所述句法树中每个短语的向量表示。
5.根据权利要求1所述的基于无监督句法分析的知识图谱构建方法,其特征在于,所述计算所述短语向量表示的得分包括:
获得所述短语的非终结符的得分和跨度得分;
将非终结符的得分和跨度得分确定为所述短语向量表示的得分。
6.根据权利要求1所述的基于无监督句法分析的知识图谱构建方法,其特征在于,所述将得分最高的句法树进行解码包括:
对于一个句法距离序列,找出序列中最大的元素di;
将下标小于i的句子构成左子树,大于等于i的句子构成右子树;
对于所述左子树和所述右子树进行递归解码。
7.根据权利要求1所述的基于无监督句法分析的知识图谱构建方法,其特征在于,所述根据所述得分最高的句法树构建知识图谱包括:
根据所述句法树,结合词性特征,确定存在关联关系的两个实体;
根据所述句法树确定两个实体之间的关联关系;
对所述关联关系进行过滤,得到不包含重复关联关系的实体关系。
8.一种基于无监督句法分析的知识图谱构建装置,其特征在于,所述装置包括:
数据获取模块,获取文本数据集,并对所述文本数据集进行预处理;
数据编码模块,对预处理后的数据集进行编码,得到句法树中每个短语的向量表示;
得分计算模块,计算所述短语向量表示的得分;
解码模块,将得分最高的句法树进行解码,并作为句法分析的结果;
图谱构建模块,根据所述得分最高的句法树构建知识图谱。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,
该指令被处理器执行时实现权利要求1-7任一项所述的基于无监督句法分析的知识图谱构建方法的步骤。
10.一种基于无监督句法分析的知识图谱构建设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述程序时实现权利要求1-7任一项所述的基于无监督句法分析的知识图谱构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210053719.6A CN114661912A (zh) | 2022-01-18 | 2022-01-18 | 基于无监督句法分析的知识图谱构建方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210053719.6A CN114661912A (zh) | 2022-01-18 | 2022-01-18 | 基于无监督句法分析的知识图谱构建方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114661912A true CN114661912A (zh) | 2022-06-24 |
Family
ID=82026250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210053719.6A Pending CN114661912A (zh) | 2022-01-18 | 2022-01-18 | 基于无监督句法分析的知识图谱构建方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661912A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116882494A (zh) * | 2023-09-07 | 2023-10-13 | 山东山大鸥玛软件股份有限公司 | 面向专业文本的无监督知识图构建方法和装置 |
-
2022
- 2022-01-18 CN CN202210053719.6A patent/CN114661912A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116882494A (zh) * | 2023-09-07 | 2023-10-13 | 山东山大鸥玛软件股份有限公司 | 面向专业文本的无监督知识图构建方法和装置 |
CN116882494B (zh) * | 2023-09-07 | 2023-11-28 | 山东山大鸥玛软件股份有限公司 | 面向专业文本的无监督知识图构建方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059185B (zh) | 一种医学文档专业词汇自动化标注方法 | |
CN111259653B (zh) | 基于实体关系消歧的知识图谱问答方法、系统以及终端 | |
WO2022198868A1 (zh) | 开放式实体关系的抽取方法、装置、设备及存储介质 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
WO2021042516A1 (zh) | 命名实体识别方法、装置及计算机可读存储介质 | |
CN109325242B (zh) | 基于词对和翻译判断句子是否对齐的方法、装置及设备 | |
CN110727839A (zh) | 自然语言查询的语义解析 | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN114091450B (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN109783806A (zh) | 一种利用语义解析结构的文本匹配方法 | |
CN111241303A (zh) | 一种大规模非结构化文本数据的远程监督关系抽取方法 | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN112417891A (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
Chen et al. | Bilinear joint learning of word and entity embeddings for entity linking | |
CN117291265B (zh) | 一种基于文本大数据的知识图谱构建方法 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN112632250A (zh) | 一种多文档场景下问答方法及系统 | |
CN110929510A (zh) | 一种基于字典树的中文未登录词识别方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN114218921A (zh) | 一种优化bert的问题语义匹配方法 | |
CN112800244B (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
CN114661912A (zh) | 基于无监督句法分析的知识图谱构建方法、装置及设备 | |
Zheng et al. | Weakly-supervised image captioning based on rich contextual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |