CN114186071A

CN114186071A - 知识树三元组存储查询方法

Info

Publication number: CN114186071A
Application number: CN202111498341.2A
Authority: CN
Inventors: 路纲; 谌鸿静; 吴晓军
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-15
Anticipated expiration: 2041-12-09
Also published as: CN114186071B

Abstract

一种知识树三元组存储查询方法，由收集民歌资源文本、设定民歌资源样本属性、构建三元组、生成知识树、重整知识树结构、存储知识树结构、查询知识树步骤组成。将三元组记录转换成树结构，解决了现有三元组记录存储耗时长的技术问题，提高了三元组记录存储的效率，实现了高效存储，在查询过程中，解决了现有三元组记录查询时间复杂度较大的技术问题，降低了查询时的时间复杂度，本发明具有存储效率高、查询时间短等优点，可用于自然语言处理的知识图谱技术领域。

Description

知识树三元组存储查询方法

技术领域

本发明属于自然语言处理的知识图谱技术领域，具体涉及到知识树的三元组图谱构建方法。

技术背景

知识图谱(Knowledge Graph,KG)是显示知识结构关系的图形，用可视化的技术描述知识资源及其载体，构建以及显示它们之间的关系，知识图谱中的知识是通过RDF的结构来进行表示的，其基本的构成单元是事实，每个事实都被表示为一个形如<Subject,Predict,Object>的三元组，三元组(Subject-Predict-Object，SPO)即主语-谓语-宾语是用来表示事物的一种方法和形式，利用三元组对知识图谱中的数据进行存储。知识图谱的目标是构建一个能够刻画现实世界的知识库，为自动问答、信息检索等应用提供支撑。因此，构建一个合格的图谱对知识的持久化存储以及目标知识的高效检索具有重大的理论和实践意义。

目前常用图这种结构来展示知识图谱，但其实知识的结构是一棵树(无圈连通图)，知识的这种表示方法是完备和自洽的，从知识描述和定义角度看，如果知识结构中存在闭环，也就意味着存在自身定义自身的循环——这是非良性的结构。

知识表示是对知识的一种描述性定义，对图谱的构建及应用至关重要，利用它把知识有效的组织起来，支持高效的查询和推理，知识表示的研究由来已久，表示方法有一阶谓词逻辑表示法、产生式系统、框架表示法、语义网络等。

但以上知识表示的方法在理论或实践上都有不足，一阶谓词逻辑表示法的表达能力有限，特别是对具有归纳结构和多层次的知识；产生式系统表示法具有良好的推理模拟能力，但由其组成的知识体系的完备性难以保证，因此其在应用过程中的灵活性较差，而且无法对世界进行本体化的描述；框架表示法是一种适应性强、结构化良好、推理方式灵活的知识表示模型，但缺少良好理论基础支撑；语义网络用于表示一个事物与其各个部分间的分类知识，但其表达能力有限，且属于重量级的方法，灵活性简便性不足。

综上，上述方法各有缺陷，与它们相比，本专利提出的知识树表示形式高效简洁完备，是一种较好的知识表达模型，它将知识描述、存储和查询支持融为一体，并且具有扩展性良好，可支持大规模知识定义和存储。知识树具有层次结构，可表达相关知识间的类型关系、因果关系和从属关系，具有良好的对称性、连续性、可视化特性，利于语义匹配、推理，灵活性、可扩展性强，适用于各行业领域，具有广泛的应用前景。

在知识图谱领域，当前迫切需解决的问题是找到一种能同时满足高效知识存储和查询的构建技术。为此，我们提出知识树三元组存储查询方法。

发明内容

本发明所要解决的问题在于克服上述现有方法的缺点，提供一种存储空间复杂度和查询时间复杂度最优的知识树三元组存储查询方法。

解决上述技术问题所采用的技术方案是由下述步骤组成：

(1)收集民歌资源文本

收集民歌资源文本。

(2)设定民歌资源样本属性

根据民歌资源中的文本描述，确定民歌资源样本的所属关系层次结构，所述的所属关系层次结构包括第一关系层次、第二关系层次、…、最后一个关系层次，民歌资源样本的所属关系层次名称作为该样本的属性和属性值，第一关系层次的名称作为民歌资源样本的第一属性，第二关系层次的名称作为民歌资源样本的第二属性，依次设定，最后一个关系层次的名称作为民歌资源样本的属性值。

(3)构建三元组

民歌资源样本表示为三元组(x,y,z)，其中x为民歌资源样本的主体，主体由民歌资源样本的属性构成，属性间用分隔符进行分割，z为民歌资源样本的属性值，有两种类型：一是最终知识，二是非最终知识，属性值z的类型由主体x中的最后一个属性决定；主体x中的最后一个属性为：曲目、别名、表演者、定义，表明属性值z为最终知识；主体x中的最后一个属性为：类型、分类，表明属性值z为非最终知识；y为民歌资源样本的主体x与属性值z之间的关系性质，关系性质y分为：包含、等于，经过上述转换之后，将得到的民歌资源样本的三元组(x,y,z)存储至txt、csv或数据库文件中，每个民歌资源样本的三元组(x,y,z)为一条记录。

(4)生成知识树

知识树包括主根O、分支点集合B、子树，分支点集合B∈{k₁,k₂,...,k_j}，j取值为有限的正整数，扫描三元组记录，一条三元组记录表示一棵子树，三元组记录中主体x的第一个属性k，k∈B，属性k与分支点集合B中的一个分支点相等，将该三元组记录所表示的子树嫁接到与属性k相等的分支点上，

将三元组记录所表示的子树嫁接到知识树的主根O上，将属性k加入分支点集合B。

(5)重整知识树结构

主体x的最后一个属性为类型或分类，表明属性值z为非最终知识，是知识树的中间节点，将属性值z加入分支点集合B中，属性值z与分支点集合B中的一个分支点相同时，重整知识树结构，将该分支点为根的子树与原树剥离，嫁接到以属性值z为根的子树上，按下式得到构建知识树时的时间复杂度T_n：

其中n表示数据规模的大小，n为有限的正整数，按下式得到构建树的平均时间复杂度S_n：

S_n＝M×O(logn)+P×O(1)

其中，M,P取值为正小数，(M+P)为1。

重复(4)、(5)步骤，直至扫描完全部的三元组记录为止，得到一棵完整的知识树。

按下式得到构建知识树的时间复杂度T_N：

T_N＝O(N×S_n)

(6)存储知识树结构

将知识树的节点分为两类，一类是业务知识节点，其名称在知识树中只能出现一次，一类是非业务知识节点；扫描知识树的所有节点，找出所有节点中的业务知识节点，依据业务知识节点的使用次数，用字典存储其中使用次数最高的知识节点的地址引用，数组存储次常用的知识节点的地址引用，对数组中存储的地址引用按知识名英文字母顺序进行排序，得到知识树结构，并将知识树结构存储到文件中，运行时载入内存。

(7)查询知识树

按下式确定知识树中查询的时间复杂度T_n：

其中a表示查询知识树节点的个数，a取值为1,b为参数，b的取值为2，f(n)表示查询外的计算时间，f(n)取值为O(1)。

按下式确定知识树中查找的平均时间复杂度S_n：

S_n＝m×O(1)+p×O(logn)+q×O(n)

其中，m表示字典中记录的最常用知识节点的个数，p表示数组中记录的次常用知识节点个数，q表示不常用的知识节点个数，m,p,q取值为正小数，m、p、q的和为1。

在本发明的构建三元组步骤(3)中，所述的分隔符，采用下划线作为分隔符。

本发明与现有的技术相比具有以下优点：

本发明将三元组记录以树的结构存储在文件中，解决了现有三元组记录存储耗时长的技术问题，现有的存储时间复杂度为O(n)，采用知识树的结构，对三元组记录进行存储，提高了三元组记录存储的效率，时间复杂度为O(1)和O(logn)，皆小于O(n)；本发明采用了查询知识树，在查询过程中，解决了现有三元组记录查询时间复杂度较大的技术问题，现有的查询时间复杂度为O(n),使用知识树进行查询，降低了查询时的时间复杂度，使用次数最高的知识节点的查询时间复杂度为O(1)，次常用的知识节点的查询时间复杂度为O(logn)，不常用的知识节点的时间复杂度为O(n)，均是理论上的最优结果。本发明具有存储效率高、查询时间短等优点。

附图说明

图1是本发明实施例1的流程图。

图2是实施例1知识树的结构示意图。

图3是实施例2知识树的结构示意图。

图4是实施例3知识树的结构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步详细说明，但本发明不限于下述实施例。

实施例1

以上海市戏曲为例，本实施例的知识树三元组存储查询方法由以下步骤组成(如图1所示)。

(1)收集民歌资源文本

收集民歌资源文本，本实施例收集上海市戏曲的民歌资源文本。

(2)设定民歌资源样本属性

根据民歌资源中文本的描述，确定每个民歌资源样本的所属关系层次结构，所述的所属关系层次结构包括第一关系层次、第二关系层次、…、最后一个关系层次，民歌资源样本的所属关系层次名称作为该样本的属性和属性值，第一关系层次的名称作为民歌资源样本的第一属性，第二关系层次的名称作为民歌资源样本的第二属性，依次设定，最后一个关系层次的名称作为民歌资源样本的属性值。

本实施例以上海市戏曲为例。对上海市戏曲进行分类，包含奉贤山歌剧、沪剧、滑稽剧三类，其中沪剧的曲目包含啼笑姻缘、罗汉钱、芦荡火种，滑稽戏的曲目包含一二三齐步走，三毛学生意。

对沪剧民歌中的啼笑姻缘、罗汉钱、芦荡火种，根据民歌资源中的文本描述，确定所属关系层次结构有沪剧-曲目-啼笑因缘、沪剧-曲目-罗汉钱、沪剧-曲目-芦荡火种，沪剧为啼笑姻缘、罗汉钱、芦荡火种的第一属性，曲目为啼笑姻缘、罗汉钱、芦荡火种的第二属性，啼笑姻缘、罗汉钱、芦荡火种为属性值。

对滑稽戏中的一二三齐步走、三毛学生意，根据民歌资源中的文本描述，确定所属关系层次结构有滑稽戏-曲目-一二三齐步走、滑稽戏-曲目-三毛学生意，滑稽戏为一二三齐步走、三毛学生意的第一属性，曲目为一二三齐步走、三毛学生意的第二属性，一二三齐步走、三毛学生意为属性值。

(3)构建三元组

民歌资源样本表示为三元组(x,y,z)，其中x为民歌资源样本的主体，主体由民歌资源样本的属性构成，属性间用分隔符进行分割，本实施例的分隔符采用下划线，z为民歌资源样本的属性值，有两种类型：一是最终知识，二是非最终知识，属性值z的类型由主体x中的最后一个属性决定；主体x中的最后一个属性为：曲目、别名、表演者、定义，表明属性值z为最终知识；主体x中的最后一个属性为：类型、分类，表明属性值z为非最终知识；y为民歌资源样本的主体x与属性值z之间的关系性质，关系性质y分为：包含、等于，经过上述转换之后，将得到的民歌资源样本的三元组(x,y,z)存储至txt、csv或数据库文件中，每个民歌资源样本的三元组(x,y,z)为一条记录。

(4)生成知识树

知识树包括主根为O、分支点集合B、子树，分支点集合B∈{k₁,k₂,...,k_j}，j取值为有限的正整数，扫描三元组记录，一条三元组记录表示一棵子树，三元组记录中主体x的第一个属性k，k∈B，属性k与分支点集合B中的一个分支点相等，将该三元组记录所表示的子树嫁接到与属性k相等的分支点上，

将三元组记录所表示的子树嫁接到知识树的主根O上，将属性k加入分支点集合B中。

(5)重整知识树结构

S_n＝M×O(logn)+P×O(1)

其中，M,P取值为正小数，(M+P)为1,本实施例的M取值为0.9，P取值为0.1。

重复(4)、(5)步骤，直至扫描完全部的三元组记录为止，得到一棵完整的知识树；

按下式得到构建知识树的时间复杂度T_N：

T_N＝O(N×S_n)

(6)存储知识树结构

将知识树的节点分为两类，一类是业务知识节点，其名称在知识树中只能出现一次，一类是非业务知识节点；扫描知识树的所有节点，找出所有节点中的业务知识节点，依据业务知识节点的使用次数，用字典存储其中使用次数最高的知识节点的地址引用，数组存储次常用的知识节点的地址引用，对数组中存储的地址引用按知识名英文字母顺序进行排序，得到知识树结构，如图2所示，并将知识树结构存储到文件中，运行时载入内存。

(7)查询知识树

按下式确定知识树中查询的时间复杂度T_n：

其中a表示查询知识树节点的个数，a取值为1,b为参数，b的取值为2，f(n)表示查询外的计算时间，本实施的f(n)取值为O(1)。

按下式确定知识树中查找的平均时间复杂度S_n：

S_n＝m×O(1)+p×O(logn)+q×O(n)

其中，m表示字典中记录的最常用知识节点的个数，p表示数组中记录的次常用知识节点个数，q表示不常用的知识节点个数，m,p,q取值为正小数，m、p、q的和为1。本实施例m取值为0.3，p取值为0.5，q取值为0.2。

完成知识树三元组存储查询方法。

实施例2

以中国戏曲为例，本实施例的知识树三元组存储查询方法由以下步骤组成：

(1)收集民歌资源文本

收集民歌资源文本，本实施例收集中国戏曲民歌资源文本。

(2)设定民歌资源样本属性

本实施例以中国戏曲为例。对中国戏曲进行分类，包含历史剧、歌舞剧、现代剧、舞台剧四类，其中历史剧的曲目包含屈原、玉镜台、长歌行，现代剧的曲目包含沙家浜、沙家浜-智斗、西京故事、黄河管子声。

对历史剧中的屈原、玉镜台、长歌行，根据民歌资源中的文本描述，确定所属关系层次结构有历史剧-曲目-屈原、历史剧-曲目-玉镜台、历史剧-曲目-长歌行，历史剧为屈原、玉镜台、长歌行的第一属性，曲目为屈原、玉镜台、长歌行的第二属性，屈原、玉镜台、长歌行为属性值。

对现代剧中的沙家浜、沙家浜-智斗、西京故事、黄河管子声，根据民歌资源中的文本描述，确定所属关系层次结构有现代剧-曲目-沙家浜、现代剧-曲目-沙家浜-智斗、现代剧-曲目-西京故事、现代剧--曲目-黄河管子声，现代剧为沙家浜、沙家浜-智斗、西京故事、黄河管子声的第一属性，曲目为沙家浜、沙家浜-智斗、西京故事、黄河管子声的第二属性，沙家浜、沙家浜-智斗、西京故事、黄河管子声为属性值。

(3)构建三元组

该步骤与实施例1相同。

(4)生成知识树

该步骤与实施例1相同。

(5)重整知识树结构

S_n＝M×O(lohn)+P×O(1)

其中，M,P取值为正小数，(M+P)为1,本实施例的M取值为0.7，P取值为0.3。

按下式得到构建知识树的时间复杂度T_N：

T_N＝O(N×S_n)

(6)存储知识树结构

该步骤与实施例1相同，得到知识树结构，如图3所示。

(7)查询知识树

按下式确定知识树中查询的时间复杂度T_n：

其中a表示查询知识树节点的个数，a取值为1,b为参数，b的取值为2，f(n)表示查询外的计算时间，本实施的f(n)取值为O(1)；

按下式确定知识树中查找的平均时间复杂度S_n：

S_n＝m×O(1)+p×O(logn)+q×O(n)

其中，m表示字典中记录的最常用知识节点的个数，p表示数组中记录的次常用知识节点个数，q表示不常用的知识节点个数，m，p，q取值为正小数，m、p、q的和为1。本实施例m取值为0.2，p取值为0.6，q取值为0.2。

完成知识树三元组存储查询方法。

实施例3

以云南省戏曲为例。本实施例的知识树三元组存储查询方法由以下步骤组成：

(1)收集民歌资源文本

收集民歌资源文本，本实施例收集云南省戏曲民歌资源文本。

(2)设定民歌资源样本属性

本实施例以云南省戏曲为例。对云南省戏曲进行分类，包含云南壮剧、云南花灯戏、傣剧、关索剧、彝剧、昆剧、昆明曲剧、滇剧、白剧九类，其中傣剧的曲目包含娥并与桑洛，昆剧的曲目包含玉簪记、西厢记，滇剧的曲目包含牛皋扯旨、闯宫。

对傣剧中的娥并与桑洛，根据民歌资源中的文本描述，确定所属关系层次结构有傣剧-曲目-娥并与桑洛，傣剧为娥并与桑洛的第一属性，曲目为娥并与桑洛的第二属性，娥并与桑洛为属性值。

对昆剧中的玉簪记、西厢记，根据民歌资源中的文本描述，确定所属关系层次结构有昆剧-曲目-玉簪记、昆剧-曲目-西厢记，昆剧为玉簪记、西厢记的第一属性，曲目为玉簪记、西厢记的第二属性，玉簪记、西厢记为属性值。

对滇剧中的牛皋扯旨、闯宫，根据民歌资源中的文本描述，确定所属关系层次结构有滇剧-曲目-牛皋扯旨、滇剧-曲目-闯宫，滇剧为牛皋扯旨、闯宫的第一属性，曲目为牛皋扯旨、闯宫的第二属性，牛皋扯旨、闯宫为属性值。

(3)构建三元组

该步骤与实施例1相同。

(4)生成知识树

该步骤与实施例1相同。

(5)重整知识树结构

主体x的最后一个属性为类型或分类，表明属性值z为非最终知识，是知识树的中间节点，将属性值z加入分支点集合B中，属性值z与分支点集合B中的一个分支点相同时，重整知识树结构，将该分支点为根的子树与原树剥离，嫁接到以属性值z为根的子树上，按下式得到构建知识树时的时间复杂度T_n:

S_n＝M×O(lohn)+P×O(1)

其中，M,P取值为正小数，(M+P)为1,本实施例的M取值为0.8，P取值为0.2。

按下式得到构建知识树的时间复杂度T_N：

T_N＝O(N×S_n)

(6)存储知识树结构

该步骤与实施例1相同，得到知识树结构，如图4所示。

(7)查询知识树

按下式确定知识树中查询的时间复杂度T_n：

按下式确定知识树中查找的平均时间复杂度S_n：

S_n＝m×O(1)+p×O(lohn)+q×O(n)

其中，m表示字典中记录的最常用知识节点的个数，p表示数组中记录的次常用知识节点个数，q表示不常用的知识节点个数，m,p,q取值为正小数，m、p、q的和为1。本实施例m取值为0.1，p取值为0.5，q取值为0.4。

完成知识树三元组存储查询方法。

Claims

1.一种知识树三元组存储查询方法，其特征在于由以下步骤组成：

(1)收集民歌资源文本

收集民歌资源文本；

(2)设定民歌资源样本属性

根据民歌资源中的文本描述，确定民歌资源样本的所属关系层次结构，所述的所属关系层次结构包括第一关系层次、第二关系层次、…、最后一个关系层次，民歌资源样本的所属关系层次名称作为该样本的属性和属性值，第一关系层次的名称作为民歌资源样本的第一属性，第二关系层次的名称作为民歌资源样本的第二属性，依次设定，最后一个关系层次的名称作为民歌资源样本的属性值；

(3)构建三元组

民歌资源样本表示为三元组(x，y，z)，其中x为民歌资源样本的主体，主体由民歌资源样本的属性构成，属性间用分隔符进行分割，z为民歌资源样本的属性值，有两种类型：一是最终知识，二是非最终知识，属性值z的类型由主体x中的最后一个属性决定；主体x中的最后一个属性为：曲目、别名、表演者、定义，表明属性值z为最终知识；主体x中的最后一个属性为：类型、分类，表明属性值z为非最终知识；y为民歌资源样本的主体x与属性值z之间的关系性质，关系性质y分为：包含、等于，经过上述转换之后，将得到的民歌资源样本的三元组(x，y，z)存储至txt、csv或数据库文件中，每个民歌资源样本的三元组(x，y，z)为一条记录；

(4)生成知识树

知识树包括主根O、分支点集合B、子树，分支点集合B∈{k₁，k₂，...，k_j}，j取值为有限的正整数，扫描三元组记录，一条三元组记录表示一棵子树，三元组记录中主体x的第一个属性k，k∈B，属性k与分支点集合B中的一个分支点相等，将该三元组记录所表示的子树嫁接到与属性k相等的分支点上，

将三元组记录所表示的子树嫁接到知识树的主根O上，将属性k加入分支点集合B；

(5)重整知识树结构

S_n＝M×O(logn)+P×O(1)

其中，M，P取值为正小数，(M+P)为1；

按下式得到构建知识树的时间复杂度T_N：

T_N＝O(N×S_n)

(6)存储知识树结构

将知识树的节点分为两类，一类是业务知识节点，其名称在知识树中只能出现一次，一类是非业务知识节点；扫描知识树的所有节点，找出所有节点中的业务知识节点，依据业务知识节点的使用次数，用字典存储其中使用次数最高的知识节点的地址引用，数组存储次常用的知识节点的地址引用，对数组中存储的地址引用按知识名英文字母顺序进行排序，得到知识树结构，并将知识树结构存储到文件中，运行时载入内存；

(7)查询知识树

按下式确定知识树中查询的时间复杂度T_n：

其中a表示查询知识树节点的个数，a取值为1，b为参数，b的取值为2，f(n)表示查询外的计算时间，f(n)取值为O(1)；

按下式确定知识树中查找的平均时间复杂度S_n：

S_n＝m×O(1)+p×O(logn)+q×O(n)

其中，m表示字典中记录的最常用知识节点的个数，p表示数组中记录的次常用知识节点个数，q表示不常用的知识节点个数，m，p，q取值为正小数，m、p、q的和为1。

2.根据权利要求1所述的知识树三元组存储查询方法，其特征在于：在构建三元组步骤(3)中，所述的分隔符，采用下划线作为分隔符。