CN115795061A

CN115795061A - 一种基于词向量和依存句法的知识图谱构建方法及系统

Info

Publication number: CN115795061A
Application number: CN202310100517.7A
Authority: CN
Inventors: 蓝建敏; 李思伟; 申鑫; 池沐霖
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-03-14
Anticipated expiration: 2043-02-13
Also published as: CN115795061B

Abstract

本发明公开了一种基于词向量和依存句法的知识图谱构建方法及系统，通过提取领域文本数据中的多个三元组，构建初始知识图谱；计算每条文本数据的文本数据二维坐标；基于初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其节点文本数据，计算节点向量坐标，基于节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据中的第一三元组，以及节点文本数据对应的多个节点三元组，获取并基于第一三元组和每个节点三元组中存在依存句法关系一致的第一实体词，将相似知识图谱嵌入到原始知识图谱中，得到知识图谱。与现有技术相比，本发明的技术方案在提高知识图谱的内容丰富程度的前提下，提高知识图谱构建的效率。

Description

一种基于词向量和依存句法的知识图谱构建方法及系统

技术领域

本发明涉及知识图谱构建的技术领域，特别是涉及一种基于词向量和依存句法的知识图谱构建方法及系统。

背景技术

在大数据时代背景下，随着海量数据的出现以及多数据源融合交叉应用，传统的数据管理模式以及查询方式受到一定的制约，近年来，知识图谱作为一种新的知识表示方法和数据管理模式，在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库，用于符号形式描述物理世界中的概念及其相互关系，其基本组成单位是“实体-关系-实体”三元组，以及实体及其相关属性-值对，实体间通过关系相互连接，构成网状的知识结构。

对于知识图谱的建立通常是直接通过单一的算法，基于原始数据库建立对应的知识图谱，通过这种方式建立的知识图谱对数据的描述方式单一，且所呈现的知识图谱所涉及的内容仅为原始数据库中的数据，内容受限。因此，为了丰富知识图谱的内容，普遍通过构建知识图谱补全模型，用于获取知识图谱的相关数据，以补全原始知识图谱，但现有中，对于知识图谱推理模型的构建过程，需要获取大量数据，用于模型训练，数据处理量大，不利于提高知识图谱的构建效率。

发明内容

本发明要解决的技术问题是：提供一种基于词向量和依存句法的知识图谱构建方法及系统，在提高知识图谱的内容丰富程度的前提下，提高知识图谱构建的效率。

为了解决上述技术问题，本发明提供了一种基于词向量和依存句法的知识图谱构建方法，

获取领域文本数据，对所述领域文本数据进行分句处理，得到多条文本数据，根据依存句法对每条文本数据进行实体关系提取，得到并基于多个三元组，构建初始知识图谱，获取所述初始知识图谱中的实体领域嵌入向量；

基于word2vec技术对每条文本数据进行词向量化处理，得到每条文本数据的词向量，并对所述词向量进行降维处理，得到每条文本数据在预设向量空间的文本数据二维坐标；

获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，基于所述word2vec技术对所述节点进行向量化处理，得到节点词向量，并对所述节点词向量和所述领域嵌入向量进行加法处理，得到节点向量坐标；

计算所述节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据二维坐标，及所述第一文本数据二维坐标对应的第一文本数据；

提取所述第一文本数据对应的第一三元组，并基于依存句法对所述节点文本数据进行实体关系提取，得到多个节点三元组，依次将所述第一三元组和每个节点三元组进行对比，判断所述第一三元组和每个多个节点三元组中是否存在依存句法关系一致的第一实体词，若是，则保留所述第一实体词，并基于所述第一实体词，将所述相似知识图谱与所述初始知识图谱进行结合，得到知识图谱。

在一种可能的实现方式中，基于word2vec技术对每条文本数据进行词向量化处理，得到每条文本数据的词向量，并对所述词向量进行降维处理，得到每条文本数据在预设空间的文本数据二维坐标，具体包括：

对每条文本数据进行数据分词处理，得到每条文本数据对应的词集合；

采用word2vec技术对所述词集合中的每个文本词进行词向量处理，得每个文本词对应的词向量，并对所述词向量进行降维处理，得到每个词向量在预设向量空间中的二维词向量坐标；

基于所述词集合，对每条文本数据进行关键词抽取，得到多个关键词，分别将所述多个关键词对应的二维词向量坐标进行求和，得到每条文本数据在预设空间的文本数据二维坐标。

在一种可能的实现方式中，根据依存句法对每条文本数据进行实体关系提取，得到并基于多个三元组，构建初始知识图谱，具体包括：

基于依存句法对所述每条文本数据进行数据预处理，其中，所述数据预处理包括分词、词性标注和实体识别；

根据识别出来的实体及所述实体对应的词性，获取每条文本数据中实体之间的依存关系，并基于所述实体和实体之间的依存关系，得到多个初始三元组；

按预设规则对所述多个初始三元组进行筛选，以使去除所述多个初始三元组中的低质量三元组，得到多个三元组；

将所述多个三元组存储到Neo4j数据库中，并基于所述Neo4j数据库构建初始知识图谱。

在一种可能的实现方式中，获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，具体包括：

获取所述初始知识图谱中实体的领域类型，根据所述领域类型，获取相同领域类型的推理知识数据，基于推理知识数据，构建推理知识图谱，获取所述推理知识图谱中的任一节点，并将所述任一节点作为未知实体的节点，并获取所述节点对应的节点文本数据。

在一种可能的实现方式中，计算所述节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据二维坐标，及所述第一文本数据二维坐标对应的第一文本数据；具体包括：

根据预设的距离计算公式计算节点向量坐标与每个文本数据二维坐标的距离，得到多个距离值，对所有距离值进行排序，获取所有距离值中的距离最小值；

根据所述距离最小值，获取对应的第一文本数据二维坐标，并根据所述第一文本数据二维坐标，获取对应的第一文本数据。

在一种可能的实现方式中，获取领域文本数据，对所述领域文本数据进行分句处理，得到多条文本数据，具体包括：

获取领域文本数据，对所述领域文本数据进行遍历，获取并得到所述领域文本数据中的所有结束字符；

基于所述所有结束字符，对所述领域文本数据进行数据分割，得到多条文本数据。

在一种可能的实现方式中，获取所述初始知识图谱中的实体领域嵌入向量，具体包括：

获取所述初始知识图谱中的实体、及与所述实体的相邻的一个或多个相邻实体，获取所述一个或多个相邻实体的映射在预设向量空间中的相邻实体嵌入向量；

根据所述一个或多个相邻实体嵌入向量，确定所述实体的一个或多个关系嵌入向量，并根据所述一个或多个关系嵌入向量，得到实体领域嵌入向量。

在一种可能的实现方式中，对每条文本数据进行关键词抽取，得到多个关键词，具体包括：

基于预设的关键词抽取算法，计算每条文本数据中每个词组对应的突出强度，对所有突出强度进行归一化处理，得到每个突出强度对应的归一化突出强度，并基于所述归一化突出强度，获取每条文本数据对应的多个关键词，其中，所述关键词抽取算法，如下所示：

；

式中，

为词组k的突出强度，k为每条文本数据中的单个词组，z为每条文本数据中的总词组数,r为主题，

为主题r下出现词汇k的概率分布函数，

为主题集合中出现主题r的概率分布函数，R为主题集合,a、b、c为常数。

本发明还提供了一种基于词向量和依存句法的知识图谱构建系统，包括：初始知识图谱构建模块、数据词向量化处理模块、节点词向量化处理模块、坐标距离计算模块和知识图谱构建模块；

其中，所述初始知识图谱构建模块，用于获取领域文本数据，对所述领域文本数据进行分句处理，得到多条文本数据，根据依存句法对每条文本数据进行实体关系提取，得到并基于多个三元组，构建初始知识图谱，获取所述初始知识图谱中的实体领域嵌入向量；

所述数据词向量化处理模块，用于基于word2vec技术对每条文本数据进行词向量化处理，得到每条文本数据的词向量，并对所述词向量进行降维处理，得到每条文本数据在预设向量空间的文本数据二维坐标；

所述节点词向量化处理模块，用于获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，基于所述word2vec技术对所述节点进行向量化处理，得到节点词向量，并对所述节点词向量和所述领域嵌入向量进行加法处理，得到节点向量坐标；

所述坐标距离计算模块，用于计算所述节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据二维坐标，及所述第一文本数据二维坐标对应的第一文本数据；

所述知识图谱构建模块，用于提取所述第一文本数据对应的第一三元组，并基于依存句法对所述节点文本数据进行实体关系提取，得到多个节点三元组，依次将所述第一三元组和每个节点三元组进行对比，判断所述第一三元组和每个多个节点三元组中是否存在依存句法关系一致的第一实体词，若是，则保留所述第一实体词，并基于所述第一实体词，将所述相似知识图谱与所述初始知识图谱进行结合，得到知识图谱。

在一种可能的实现方式中，所述数据词向量化处理模块，用于基于word2vec技术对每条文本数据进行词向量化处理，得到每条文本数据的词向量，并对所述词向量进行降维处理，得到每条文本数据在预设空间的文本数据二维坐标，具体包括：

在一种可能的实现方式中，所述初始知识图谱构建模块，用于根据依存句法对每条文本数据进行实体关系提取，得到并基于多个三元组，构建初始知识图谱，具体包括：

在一种可能的实现方式中，所述节点词向量化处理模块，用于获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，具体包括：

在一种可能的实现方式中，所述坐标距离计算模块，用于计算所述节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据二维坐标，及所述第一文本数据二维坐标对应的第一文本数据；具体包括：

在一种可能的实现方式中，所述初始知识图谱构建模块，用于获取领域文本数据，对所述领域文本数据进行分句处理，得到多条文本数据，具体包括：

在一种可能的实现方式中，所述初始知识图谱构建模块，用于获取所述初始知识图谱中的实体领域嵌入向量，具体包括：

在一种可能的实现方式中，所述数据词向量化处理模块，用于对每条文本数据进行关键词抽取，得到多个关键词，具体包括：

；

式中，

为主题r下出现词汇k的概率分布函数，

本发明还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述的基于词向量和依存句法的知识图谱构建方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任意一项所述的基于词向量和依存句法的知识图谱构建方法。

本发明实施例一种基于词向量和依存句法的知识图谱构建方法及系统，与现有技术相比，具有如下有益效果：

通过提取领域文本数据中多条文本数据对应的多个三元组，构建初始知识图谱，获取所述初始知识图谱中的实体领域嵌入向量；并基于word2vec技术对每条文本数据进行词向量化处理，得到每条文本数据在预设向量空间的文本数据二维坐标；获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，同时基于word2vec技术对所述节点进行向量化处理，得到节点向量坐标；以使将所述节点与所述初始知识图谱映射在同一预设空间向量中，基于计算所述节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据，以使得到节点与初始知识图谱中关联程度较高的文本数据；通过提取所述第一文本数据对应的第一三元组，以及所述节点文本数据对应的多个节点三元组，依次将所述第一三元组和每个节点三元组进行对比，获取存在依存句法关系一致的第一实体词，并基于所述第一实体词，将所述相似知识图谱嵌入到原始知识图谱中，得到知识图谱。与现有技术相比，本发明的技术方案将相似知识图谱嵌入到原始知识图谱，提高知识图谱的内容丰富程度，且该过程避免了对知识图谱补全模型的构建和训练，减少了知识图谱构建过程中的数据处理量，以使提高知识图谱的构建效率。

附图说明

图1是本发明提供的一种基于词向量和依存句法的知识图谱构建方法的一种实施例的流程示意图；

图2是本发明提供的一种基于词向量和依存句法的知识图谱构建系统的一种实施例的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，图1是本发明提供的一种基于词向量和依存句法的知识图谱构建方法的一种实施例的流程示意图，如图1所示，该方法包括步骤101-步骤105，具体如下：

步骤101：获取领域文本数据，对所述领域文本数据进行分句处理，得到多条文本数据，根据依存句法对每条文本数据进行实体关系提取，得到并基于多个三元组，构建初始知识图谱，获取所述初始知识图谱中的实体领域嵌入向量。

一实施例中，获取单个领域的相关资料，构成领域文本数据，并将所述领域文本数据整合为相同的文件存储格式进行存储；其中，所述单个领域的相关资料包括领域文献、领域新闻、领域相关人物等。

一实施例中，获取领域文本数据，对所述领域文本数据进行遍历，获取并得到所述领域文本数据中的所有结束字符，基于所述所有结束字符，对所述领域文本数据进行数据分割，得到多条文本数据。

一实施例中，基于依存句法对所述每条文本数据进行数据预处理，其中，所述数据预处理包括分词、词性标注和实体识别，根据识别出来的实体及所述实体对应的词性，获取每条文本数据中实体之间的依存关系，并基于所述实体和实体之间的依存关系，得到多个初始三元组。

具体的，根据依存句法对每条文本数据进行实体关系提取时，通过句法分析对划分出来的每条文本数据中的每个词组进行分析，得到每条文本数据的句子构成成分，并基于所述句子构成成分，得到多个初始三元组；其中，所述句子构成成分包括支配词、被支配词以及支配词与被支配词之间的依存关系。

具体的，获取构成每条文本数据的每个词组，并确认所述每个词组的词性，基于所述每个词组的词性和预设的依存句法标注关系，确定词组与词组之间的依存关系，即支配词与被支配词之间的依存关系，以使基于支配词、被支配词及支配词与被支配词之间的依存关系，得到多个三元组。

具体的，对于支配词和被支配词均为一个实体，且一个实体即为一个节点。

具体的，每个词组的词性包括名词、副词、形容词、动词、组词、代词、数词、量词、介词、连词、冠词、助词、叹词和拟声词等。

具体的，预设的依存句法标注关系包括主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立关系和核心关系。

一实施例中，按预设规则对所述多个初始三元组进行筛选，以使去除所述多个初始三元组中的低质量三元组，得到多个三元组。

具体的，通过遍历所有初始三元组，对具有重复性的初始多元组，进行去重处理，得到去重后的所有三元组，并基于所有三元组的描述关系，对去重处理后的所有三元组进行分类处理，得到不同的描述类型对应的三元组；其中，所述所有三元组的描述关系包括但不限于描述人物关系，描述地点关系、描述机构关系、描述建筑关系等。

一实施例中，将所述多个三元组存储到Neo4j数据库中，并基于所述Neo4j数据库构建初始知识图谱。

具体的，将所述所有三元组数据转化为csv格式文本，将所述csv格式文本存储到Neo4j数据库中，以使在所述Neo4j数据库中构建初始知识图谱。

一实施例中，获取所述初始知识图谱中的实体领域嵌入向量，具体的，获取所述初始知识图谱中的实体及与所述实体的相邻的一个或多个相邻实体，获取所述一个或多个相邻实体的映射在预设向量空间中的相邻实体嵌入向量；根据所述一个或多个相邻实体嵌入向量，确定所述实体的一个或多个关系嵌入向量，并根据所述一个或多个关系嵌入向量，得到实体领域嵌入向量。

一实施例中，所述实体的关系嵌入向量是实体与相邻实体之间的关系映射到向量空间时，该实体与相邻实体之间关系的表征方式。

一实施例中，当所述关系嵌入向量为多个时，计算所述多个关系嵌入向量的平均向量，并将所述平均向量，作为所述实体领域嵌入向量。

步骤102：基于word2vec技术对每条文本数据进行词向量化处理，得到每条文本数据的词向量，并对所述词向量进行降维处理，得到每条文本数据在预设向量空间的文本数据二维坐标。

一实施例中，对每条文本数据进行数据分词处理，得到每条文本数据对应的词集合。

具体的，基于python中的jieba库对每条文本数据进行分词处理，得到每条文本数据对应的词集合，其中，每条文本数据对应的词集合由一个或多个词组构成。

一实施例中，采用word2vec技术对所述词集合中的每个文本词进行词向量处理，得每个文本词对应的词向量。

具体的，Word2vec技术的基本思想是利用深度学习方式，通过训练，将每个词映射成K维的实数特征向量，Word2vec本质上也是一种矩阵分解模型，矩阵刻画了每个词和其上下文的词的集合的相关情况，对这个矩阵进行分解，只取每个词对应在隐含空间的向量。

具体的，通过Word2vec构建矩阵分解模型，对所述矩阵分解模型进行训练，将所述词集合中的每个文本词输入到训练好的矩阵分解模型中，得到每个文本词对应的K维词向量。

其中，所述矩阵分解模型的训练过程，通过对所述词集合中的每个文本词进行数据处理，其中，所述数据处理包括去停用词，并统计词频，基于统计出的词频结果，去除高频词和低频词；并构建Huffman树，所有的非叶节点存储有一个参数向量，所有的叶节点分别代表了词典中的一个词，随机初始化每个单词的词向量，参数向量初始值为0；构建完huffman树之后，将对应的huffman码分配给每个单词；采用CBOW或Skip-gram的方式，对所述词向量进行训练，以使完成对矩阵分解模型的训练。

一实施例中，对所述词向量进行降维处理，得到每个词向量在预设向量空间中的二维词向量坐标。

具体的，通过降维算法将K维词向量降为二维词向量，并将其在预设空间向量中标识，得到每个词向量在预设向量空间中的二维词向量坐标，其中，所述降维算法包括但不限于奇异值分解算法、主成分分析算法、因子分析算法和独立成分分析算法。

一实施例中，基于预设的关键词抽取算法，对每条文本数据进行关键词抽取，得到多个关键词；具体的，设置主题集合，对每条文本数据，在所述主题集合中随机抽取一个主题，并从所述每条文本数据中随机抽取一个词组，基于依存句法的关键词抽取算法，计算每条文本数据中每个词组对一个的突出强度，对每条文本数据对应的所有突出强度进行归一化处理，得到归一化突出强度，对所有归一化图像突出强度按从高到低的顺序进行排序，选取归一化图像突出强度排序中前预设数量个词组，并将选取的所述归一化图像突出强度对应的词组作为关键词，其中，所述关键词抽取算法如下所示：

；

式中，

为主题r下出现词汇k的概率分布函数，

优选的，对每条文本数据抽取两个关键词，即选取的归一化图像突出强度排序中前预设数量个词组为两个。

一实施例中，基于向量坐标加法公式分别将所述多个关键词对应的二维词向量坐标进行求和，得到每条文本数据在预设空间的文本数据二维坐标。

步骤103：获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，基于所述word2vec技术对所述节点进行向量化处理，得到节点词向量，并对所述节点词向量和所述领域嵌入向量进行加法处理，得到节点向量坐标。

一实施例中，获取所述初始知识图谱中实体的领域类型，根据所述领域类型，获取相同领域类型的推理知识数据。

一实施例中，基于推理知识数据，构建推理知识图谱；具体的，基于步骤101中构建初始知识图谱的方式，对所述推理知识数据进行分句处理，得到多条推理知识数据，根据依存句法对所述每条推理知识数据进行实体关系提取，得到并基于多个三元组，构建推理知识图谱；其中，推理知识图谱的构建过程与初始知识图谱的构建过程相同，在此不再进行叙述。

优选的，对于获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，还可直接基于初始知识图谱的领域类型，获取以构建好的同领域类型的推理知识图谱。

一实施例中，获取所述推理知识图谱中的任一节点，并将所述任一节点作为未知实体的节点，并获取所述节点对应的节点文本数据。

一实施例中，由于知识图谱的构建依赖于文本数据，因此，对于构建好的知识图谱，可基于节点直接获取所述节点对应的节点文本数据。

步骤104：计算所述节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据二维坐标，及所述第一文本数据二维坐标对应的第一文本数据。

一实施例中，根据预设的距离计算公式计算节点向量坐标与每个文本数据二维坐标的距离，得到多个距离值；其中，所述预设的距离计算公式如下所示：

；

式中，

为距离值，

为节点向量坐标，

为文本数据二维坐标。

一实施例中，按从小到大的顺序对所有距离值进行排序，获取所有距离值中的距离最小值；根据所述距离最小值，将所述距离最小值对应的文本数据作为第一文本数据，获取对应的第一文本数据二维坐标，并根据所述第一文本数据二维坐标，获取对应的第一文本数据。

步骤105：提取所述第一文本数据对应的第一三元组，并基于依存句法对所述节点文本数据进行实体关系提取，得到多个节点三元组，依次将所述第一三元组和每个节点三元组进行对比，判断所述第一三元组和每个多个节点三元组中是否存在依存句法关系一致的第一实体词，若是，则保留所述第一实体词，并基于所述第一实体词，将所述相似知识图谱与所述初始知识图谱进行结合，得到知识图谱。

一实施例中，由于步骤101中已对每条文本数据进行实体关系提取，因此，本步骤中可直接提取出第一文本数据对应的多个三元组，并将所述多个三元组作为第一三元组。

一实施例中，基于依存句法对所述节点文本数据进行实体关系提取，得到多个节点三元组，具体的，基于依存句法对所述第一文本数据进行数据预处理，其中，所述数据预处理包括分词、词性标注和实体识别；根据识别出来的实体及所述实体对应的词性，获取第一文本数据中实体之间的依存关系，并基于所述实体和实体之间的依存关系，得到多个节点三元组。其中，基于依存句法对所述节点文本数据进行实体关系提取的过程与上述步骤101中根据依存句法对每条文本数据进行实体关系提取的过程相同，在此不再详细叙述。

一实施例中，判断所述第一三元组和每个多个节点三元组中是否存在依存句法关系一致的词，具体的，先判断所述第一三元组对应的依存关系与所述节点三元组对应的依存关系是否一致，若是，则提取和对比第一三元组中依赖词对应的第一实体与节点三元组中依赖词对应的第二实体，判断所述第一实体和所述第二实体是否相同，若是，则将所述第一实体或所述第二实体作为第一实体词，并保留所述第一实体词，若否，则继续提取和对比第一三元组中被依赖词对应的第三实体与节点三元组中被依赖词对应的第四实体，判断所述第三实体和所述第四实体是否相同，若是，则将所述第一实体或所述第二实体作为第一实体词，并保留所述第一实体词，否则舍弃所述节点三元组。

一实施例中，将所述第一实体词作为所述相似知识图谱中未知实体的节点对应的实体词，且由于保留下来的第一实体词同时存在与相似知识图谱和初始知识图谱中，因此，基于第一实体词，将所述相似知识图谱中第一实体词对应的节点和所述初始知识图谱中第一实体词对应的节点进行拼接，以使将所述相似知识图谱与所述初始知识图谱进行结合，得到最终构成的知识图谱。

实施例2

参见图2，图2是本发明提供的一种基于词向量和依存句法的知识图谱构建系统的一种实施例的结构示意图，如图2所示，该系统包括初始知识图谱构建模块201、数据词向量化处理模块202、节点词向量化处理模块203、坐标距离计算模块204和知识图谱构建模块205，具体如下：

所述初始知识图谱构建模块201，用于获取领域文本数据，对所述领域文本数据进行分句处理，得到多条文本数据，根据依存句法对每条文本数据进行实体关系提取，得到并基于多个三元组，构建初始知识图谱，获取所述初始知识图谱中的实体领域嵌入向量。

所述数据词向量化处理模块202，用于基于word2vec技术对每条文本数据进行词向量化处理，得到每条文本数据的词向量，并对所述词向量进行降维处理，得到每条文本数据在预设向量空间的文本数据二维坐标。

所述节点词向量化处理模块203，用于获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，基于所述word2vec技术对所述节点进行向量化处理，得到节点词向量，并对所述节点词向量和所述领域嵌入向量进行加法处理，得到节点向量坐标。

所述坐标距离计算模块204，用于计算所述节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据二维坐标，及所述第一文本数据二维坐标对应的第一文本数据。

所述知识图谱构建模块205，用于提取所述第一文本数据对应的第一三元组，并基于依存句法对所述节点文本数据进行实体关系提取，得到多个节点三元组，依次将所述第一三元组和每个节点三元组进行对比，判断所述第一三元组和每个多个节点三元组中是否存在依存句法关系一致的第一实体词，若是，则保留所述第一实体词，并基于所述第一实体词，将所述相似知识图谱与所述初始知识图谱进行结合，得到知识图谱。

一实施例中，所述数据词向量化处理模块202，用于基于word2vec技术对每条文本数据进行词向量化处理，得到每条文本数据的词向量，并对所述词向量进行降维处理，得到每条文本数据在预设空间的文本数据二维坐标，具体包括：对每条文本数据进行数据分词处理，得到每条文本数据对应的词集合；采用word2vec技术对所述词集合中的每个文本词进行词向量处理，得每个文本词对应的词向量，并对所述词向量进行降维处理，得到每个词向量在预设向量空间中的二维词向量坐标；基于所述词集合，对每条文本数据进行关键词抽取，得到多个关键词，分别将所述多个关键词对应的二维词向量坐标进行求和，得到每条文本数据在预设空间的文本数据二维坐标。

一实施例中，所述初始知识图谱构建模块201，用于根据依存句法对每条文本数据进行实体关系提取，得到并基于多个三元组，构建初始知识图谱，具体包括：基于依存句法对所述每条文本数据进行数据预处理，其中，所述数据预处理包括分词、词性标注和实体识别；根据识别出来的实体及所述实体对应的词性，获取每条文本数据中实体之间的依存关系，并基于所述实体和实体之间的依存关系，得到多个初始三元组；按预设规则对所述多个初始三元组进行筛选，以使去除所述多个初始三元组中的低质量三元组，得到多个三元组；将所述多个三元组存储到Neo4j数据库中，并基于所述Neo4j数据库构建初始知识图谱。

一实施例中，所述节点词向量化处理模块203，用于获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，具体包括：获取所述初始知识图谱中实体的领域类型，根据所述领域类型，获取相同领域类型的推理知识数据，基于推理知识数据，构建推理知识图谱，获取所述推理知识图谱中的任一节点，并将所述任一节点作为未知实体的节点，并获取所述节点对应的节点文本数据。

一实施例中，所述坐标距离计算模块204，用于计算所述节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据二维坐标，及所述第一文本数据二维坐标对应的第一文本数据；具体包括：根据预设的距离计算公式计算节点向量坐标与每个文本数据二维坐标的距离，得到多个距离值，对所有距离值进行排序，获取所有距离值中的距离最小值；根据所述距离最小值，获取对应的第一文本数据二维坐标，并根据所述第一文本数据二维坐标，获取对应的第一文本数据。

一实施例中，所述初始知识图谱构建模块201，用于获取领域文本数据，对所述领域文本数据进行分句处理，得到多条文本数据，具体包括：获取领域文本数据，对所述领域文本数据进行遍历，获取并得到所述领域文本数据中的所有结束字符；基于所述所有结束字符，对所述领域文本数据进行数据分割，得到多条文本数据。

一实施例中，所述初始知识图谱构建模块201，用于获取所述初始知识图谱中的实体领域嵌入向量，具体包括：获取所述初始知识图谱中的实体、及与所述实体的相邻的一个或多个相邻实体，获取所述一个或多个相邻实体的映射在预设向量空间中的相邻实体嵌入向量；根据所述一个或多个相邻实体嵌入向量，确定所述实体的一个或多个关系嵌入向量，并根据所述一个或多个关系嵌入向量，得到实体领域嵌入向量。

一实施例中，所述数据词向量化处理模块202，用于对每条文本数据进行关键词抽取，得到多个关键词，具体包括：基于预设的关键词抽取算法，计算每条文本数据中每个词组对应的突出强度，对所有突出强度进行归一化处理，得到每个突出强度对应的归一化突出强度，并基于所述归一化突出强度，获取每条文本数据对应的多个关键词，其中，所述关键词抽取算法，如下所示：

；

式中，

为主题r下出现词汇k的概率分布函数，

所属领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不在赘述。

需要说明的是，上述基于词向量和依存句法的知识图谱构建系统的实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

在上述的基于词向量和依存句法的知识图谱构建方法的实施例的基础上，本发明另一实施例提供了一种基于词向量和依存句法的知识图谱构建终端设备，该基于词向量和依存句法的知识图谱构建终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时，实现本发明任意一实施例的基于词向量和依存句法的知识图谱构建方法。

示例性的，在这一实施例中所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于词向量和依存句法的知识图谱构建终端设备中的执行过程。

所述基于词向量和依存句法的知识图谱构建终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于词向量和依存句法的知识图谱构建终端设备可包括，但不仅限于，处理器、存储器。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于词向量和依存句法的知识图谱构建终端设备的控制中心，利用各种接口和线路连接整个基于词向量和依存句法的知识图谱构建终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于词向量和依存句法的知识图谱构建终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（SmartMedia Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在上述基于词向量和依存句法的知识图谱构建方法的实施例的基础上，本发明另一实施例提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时，控制所述存储介质所在的设备执行本发明任意一实施例的基于词向量和依存句法的知识图谱构建方法。

在这一实施例中，上述存储介质为计算机可读存储介质，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

综上，本发明提供的一种基于词向量和依存句法的知识图谱构建方法及系统，通过提取领域文本数据中多条文本数据对应的多个三元组，构建初始知识图谱，获取所述初始知识图谱中的实体领域嵌入向量；并基于word2vec技术对每条文本数据进行词向量化处理，得到每条文本数据在预设向量空间的文本数据二维坐标；获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，同时基于word2vec技术对所述节点进行向量化处理，得到节点向量坐标；以使将所述节点与所述初始知识图谱映射在同一预设空间向量中，基于计算所述节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据，以使得到节点与初始知识图谱中关联程度较高的文本数据；通过提取所述第一文本数据对应的第一三元组，以及所述节点文本数据对应的多个节点三元组，依次将所述第一三元组和每个节点三元组进行对比，获取存在依存句法关系一致的第一实体词，并基于所述第一实体词，将所述相似知识图谱嵌入到原始知识图谱中，得到知识图谱。与现有技术相比，本发明的技术方案将相似知识图谱嵌入到原始知识图谱，提高知识图谱的内容丰富程度，且该过程避免了对知识图谱补全模型的构建和训练，减少了知识图谱构建过程中的数据处理量，以使提高知识图谱的构建效率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种基于词向量和依存句法的知识图谱构建方法，其特征在于，包括：

2.如权利要求1所述的一种基于词向量和依存句法的知识图谱构建方法，其特征在于，基于word2vec技术对每条文本数据进行词向量化处理，得到每条文本数据的词向量，并对所述词向量进行降维处理，得到每条文本数据在预设空间的文本数据二维坐标，具体包括：

3.如权利要求1所述的一种基于词向量和依存句法的知识图谱构建方法，其特征在于，根据依存句法对每条文本数据进行实体关系提取，得到并基于多个三元组，构建初始知识图谱，具体包括：

4.如权利要求1所述的一种基于词向量和依存句法的知识图谱构建方法，其特征在于，获取并基于所述初始知识图谱的领域类型，得到相似知识图谱中未知实体的节点及其对应的节点文本数据，具体包括：

5.如权利要求1所述的一种基于词向量和依存句法的知识图谱构建方法，其特征在于，计算所述节点向量坐标到每个文本数据二维坐标的距离，获取距离最小值对应的第一文本数据二维坐标，及所述第一文本数据二维坐标对应的第一文本数据；具体包括：

6.如权利要求1所述的一种基于词向量和依存句法的知识图谱构建方法，其特征在于，获取领域文本数据，对所述领域文本数据进行分句处理，得到多条文本数据，具体包括：

7.如权利要求1所述的一种基于词向量和依存句法的知识图谱构建方法，其特征在于，获取所述初始知识图谱中的实体领域嵌入向量，具体包括：

8.一种基于词向量和依存句法的知识图谱构建系统，其特征在于，包括：初始知识图谱构建模块、数据词向量化处理模块、节点词向量化处理模块、坐标距离计算模块和知识图谱构建模块；

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的基于词向量和依存句法的知识图谱构建方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的基于词向量和依存句法的知识图谱构建方法。