CN110781318A - 一种融合mkd和kg的甲骨学知识图谱构建方法 - Google Patents
一种融合mkd和kg的甲骨学知识图谱构建方法 Download PDFInfo
- Publication number
- CN110781318A CN110781318A CN201911045837.7A CN201911045837A CN110781318A CN 110781318 A CN110781318 A CN 110781318A CN 201911045837 A CN201911045837 A CN 201911045837A CN 110781318 A CN110781318 A CN 110781318A
- Authority
- CN
- China
- Prior art keywords
- oracle
- entities
- module
- bone
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 106
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000005065 mining Methods 0.000 claims abstract description 17
- 238000011160 research Methods 0.000 claims abstract description 14
- 238000010276 construction Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000007621 cluster analysis Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 239000000463 material Substances 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合MKD和KG的甲骨学知识图谱构建方法及系统,构建方法包括以下步骤:S1、分别对甲骨文文献、甲骨文数据库、甲骨文文本、甲骨文语料库提取实体以及实体之间的关系;S2、对甲骨文文献、甲骨文数据库、甲骨文文本、甲骨文语料库、甲骨文本体库进行实体对齐和关系融合,构成融合图谱;S3、挖掘获取隐含语义关系;S4、将隐含语义关系扩充到融合图谱中,最终构成甲骨学知识图谱。本发明中MKD以甲骨文文献为主要研究对象,KG以甲骨文语料为主要研究对象,将MKD和KG两类知识图谱相结合,通过实体对齐和关系融合,并结合隐含语义构建甲骨学知识图谱,从而发现显式的实体和关系背后隐藏的潜在实体和关系,知识关联强。
Description
技术领域
本发明属于甲骨文信息处理技术领域,具体涉及一种融合MKD和KG的甲骨学知识图谱构建方法。
背景技术
甲骨文是现今已发现的成体系的最早文字,是中华民族传统文化的瑰宝,具有极高的文物价值、史料价值和研究价值。针对甲骨文的研究崭然成为一门举世瞩目的国际性显学—甲骨学。近年来,从事甲骨学研究的学者越来越多,尤其是2017年11月甲骨文成功入选《世界记忆名录》后,甲骨学成为研究热点。但是甲骨学研究面临着许多问题,如学习难度大、学习周期长、知识关联性弱、知识共享程度低等问题,本专利拟通过构建甲骨学知识图谱来解决这些问题。
构建甲骨学知识图谱的关键是实现各类数据源中实体发现和关系抽取。由于甲骨文的古籍特性,使得甲骨文的研究必须依赖大量的文献资料,而科学知识图谱(MappingKnowledge Domains,简称MKD)在文献挖掘方面极具优势。但是,MKD的分析关系大多是直接或间接关联关系,且存在的语义解释性不佳的问题,无法表达甲骨学知识中深层次的语义关系,如甲骨文著录与甲骨片的关系、甲骨片与甲骨片的关系、商王世系关系、贞人与商王的关系、方国地理位置关系、祭祀对象关系等。而以Google为代表的知识图谱(KnowledgeGraph,简称KG)是一个描述客观世界有关人物、地点和事物以及它们之间的关联关系的系统,其结点表示实体或概念,通过边连接实体/概念之间的语义关系,KG作为一种统一的方式体现知识定义和知识实体两个层次共同构成的知识系统,可以很好地弥补MKD的不足。
因此,一种融合MKD和KG的甲骨学知识图谱构建方法亟待提出。
发明内容
为解决现有技术存在的缺陷,本发明提供一种融合MKD和KG的甲骨学知识图谱构建方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种融合MKD和KG的甲骨学知识图谱构建方法,包括以下步骤:
S1、分别对甲骨文文献、甲骨文数据库、甲骨文文本、甲骨文语料库提取实体以及实体之间的关系;
S2、对步骤S1中提取的实体以及实体之间的关系进行实体对齐和关系融合,构成融合图谱;
S3、基于本体推理和规则推理,挖掘获取隐含语义关系;
S4、将隐含语义关系扩充到融合图谱中,最终构成甲骨学知识图谱
作为本发明的一种优选技术方案,步骤S1中甲骨文文献为甲骨学科学知识图谱的构建提供文献元数据信息,甲骨文文献模块利用甲骨学科学知识图谱显示甲骨文知识关联、知识演化及知识群结构;实体为研究机构、学者、地点、人物、事件中的一种或多种;实体之间的关系为合作、被引、共现、为…提供依据、主体、分期、类组、材质、祭祀对象、继承中的一种或多种;采用共引、共词、聚类分析中的一种或多种方法提取实体以及实体之间的关系。
作为本发明的一种优选技术方案,甲骨文本体库包括甲骨文文献本体、甲骨文内容本体和甲骨文常识本体,规则推理采用的是Drools开源规则引擎。
作为本发明的一种优选技术方案,关系融合为确定两个实体的关系是否表达同一种关系,或者是否是包含关系。
作为本发明的一种优选技术方案,步骤S1中针对甲骨文文献,通过构建MKD,利用共引、共词和聚类分析方法提取实体及实体之间的关系;
其中共词方法采用Cosine函数法:
其中,Di=(d1i,d2i,...dni)T和Dj=(d1j,,d2j,,...dnj)T均是关键词集合;
针对甲骨文数据库,通过获取关系模型中的关系、元组、属性、域、关系模式提取实体及实体之间的关系;具体操作采用直接映射的方法,即表名映射为实体所属的概念;表记录映射为实体,其对应的表字段映射为实体的属性;表与表之间的外键映射为实体和实体之间的关系;
针对甲骨文文本,通过文本挖掘的方法获取命名实体,再基于依存句法提取实体和实体之间的关系;
针对甲骨文语料库,通过在甲骨文专家的指导下,利用人机交互的方式提取实体及实体之间的关系。
步骤S2中实体对齐主要是判断各个数据源中的两个实体是否是同一个实体,即等价实体;如果实体对<e1,e2>在甲骨文文本中被记录为“=”,或在数据库中有相应字段记录为相等信息,或者在本体中标记为“isSame”关系,则这些实体对在相同或不同数据集中出现时,则直接判定为等价实体;
步骤S3中基于本体的推理,即利用甲骨文本体中已经定义好的关系,包括kind-of、instance-of、property-of、part-of、equivalence通用本体关系,以及甲骨学领域涉及的商王世系、占卜事件、地理位置、时间空间复杂的语义关系和公理进行推理,充分利用关系的传递性、自反性进行推理。
作为本发明的一种优选技术方案,本发明还提供一种融合MKD和KG的甲骨学知识图谱构建系统,包括甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块、甲骨文本体库模块、规则库模块、实体及实体之间的关系提取模块、实体对齐及关系融合模块、隐含语义挖掘模块、甲骨学知识图谱组合模块,甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块的输出端与实体及实体之间的关系提取模块的输入端连接,实体及实体之间的关系提取模块、甲骨文本体库模块的输出端与实体对齐及关系融合模块的输入端连接,甲骨文本体库、规则库模块的输出端与隐含语义挖掘模块的输入端连接,实体对齐及关系融合模块、隐含语义挖掘模块的输出端与甲骨学知识图谱组合模块的输入端连接。
本发明的有益效果是:本发明中MKD以甲骨文文献为主要研究对象,KG以甲骨文语料为主要研究对象,将MKD和KG两类知识图谱相结合,通过实体对齐和关系融合,并结合隐含语义构建甲骨学知识图谱,从而体现显式的实体和关系背后隐藏的潜在实体和关系,知识关联强。
附图说明
图1是本发明一种融合MKD和KG的甲骨学知识图谱构建方法的工作流程图。
图2是本发明一种融合MKD和KG的甲骨学知识图谱构建系统的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
为了达到本发明的目的,如图1所示,在本发明的其中一种实施方式中提供一种融合MKD和KG的甲骨学知识图谱构建方法,包括以下步骤:
S1、分别对甲骨文文献、甲骨文数据库、甲骨文文本、甲骨文语料库提取实体以及实体之间的关系;
S2、对步骤S1中提取的实体以及实体之间的关系进行实体对齐和关系融合,构成融合图谱;
S3、基于本体推理和规则推理对甲骨文本体库和规则库分别挖掘获取隐含语义关系;
S4、将隐含语义关系扩充到融合图谱中,最终构成甲骨学知识图谱
具体的,步骤S1中甲骨文文献为甲骨学科学知识图谱的构建提供文献元数据信息,甲骨文文献模块利用甲骨学科学知识图谱显示甲骨文知识关联、知识演化及知识群结构;实体为研究机构、学者、地点、人物、事件中的一种或多种;实体之间的关系为合作、被引、共现、为…提供依据、主体、分期、类组、材质、祭祀对象、继承中的一种或多种;采用共引、共词、聚类分析中的一种或多种方法提取实体以及实体之间的关系。
具体的,甲骨文本体库包括甲骨文文献本体、甲骨文内容本体和甲骨文常识本体。
具体的,步骤S3中规则推理采用的是Drools开源规则引擎。
具体的,关系融合为确定两个实体的关系是否表达同一种关系,或者是否是包含关系。如“文武丁”和“文丁”指的是同一位商王;“艾兰”和“Sarah Allan”指的是同一学者;当某一甲骨片被收录进不同的著录时,其甲骨片编号根据研究的需要往往是不同的,如《甲骨文合集补编》中第b00008片甲骨与《东京大学东洋文化研究所藏甲骨文字》中第d00123片甲骨是同一片甲骨;“Oracle Bone Collections in the United States”与“美国所藏甲骨录”指的是同一本著录,类似的情况还有著录的中文繁体与中文简体版本。
步骤S1中针对甲骨文文献,通过构建MKD,利用共引、共词和聚类分析方法提取实体及实体之间的关系;
其中共词方法采用Cosine函数法:
其中,Di=(d1i,d2i,...dni)T和Dj=(d1j,,d2j,,...dnj)T均是关键词集合;
针对甲骨文数据库,通过获取关系模型中的关系、元组、属性、域、关系模式提取实体及实体之间的关系;具体操作采用直接映射的方法,即表名映射为实体所属的概念;表记录映射为实体,其对应的表字段映射为实体的属性;表与表之间的外键映射为实体和实体之间的关系;
针对甲骨文文本,通过文本挖掘的方法获取命名实体,再基于依存句法提取实体和实体之间的关系;
针对甲骨文语料库,通过在甲骨文专家的指导下,利用人机交互的方式提取实体及实体之间的关系。
步骤S2中实体对齐主要是判断各个数据源中的两个实体是否是同一个实体,即等价实体;如果实体对<e1,e2>在甲骨文文本中被记录为“=”,或在数据库中有相应字段记录为相等信息,或者在本体中标记为“isSame”关系,则这些实体对在相同或不同数据集中出现时,则直接判定为等价实体;
步骤S3中基于本体的推理,即利用甲骨文本体中已经定义好的关系,包括kind-of、instance-of、property-of、part-of、equivalence通用本体关系,以及甲骨学领域涉及的商王世系、占卜事件、地理位置、时间空间复杂的语义关系和公理进行推理,充分利用关系的传递性、自反性进行推理。基于规则的推理需要在甲骨文专家的指导下书写相应的规则来弥补本体无法直接完成的推理,如甲骨学领域涉及的因果关系、甲骨字考释、甲骨文分期断代、残辞拟补;现以一则简单示例说明基于规则的推理:
根据甲骨文领域知识,定义如下两条规则:
规则1:贞人为商王占卜(用divinateFor表示占卜关系),因此是商王的臣子(用serveFor表示臣子关系)。
规则2:身为同一在位商王的臣子,相互之间互为同僚(colleague)关系。
上述规则形式化表示为:
Rule1:OBI:serveFor(X,Y):-OBI:divinateFor(X,Y)
Rule2:OBI:colleague(X,Z):-OBI:serveFor(X,Y),OBI:serveFor(Z,Y)。
如图2所示,为了进一步地优化本发明的实施效果,在本发明的另一种实施方式中,本发明还提供一种融合MKD和KG的甲骨学知识图谱构建系统,包括甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块、甲骨文本体库模块、规则库模块、实体及实体之间的关系提取模块、实体对齐及关系融合模块、隐含语义挖掘模块、甲骨学知识图谱组合模块,甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块的输出端与实体及实体之间的关系提取模块的输入端连接,实体及实体之间的关系提取模块、甲骨文本体库模块的输出端与实体对齐及关系融合模块的输入端连接,甲骨文本体库、规则库模块的输出端与隐含语义挖掘模块的输入端连接,实体对齐及关系融合模块、隐含语义挖掘模块的输出端与甲骨学知识图谱组合模块的输入端连接。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种融合MKD和KG的甲骨学知识图谱构建方法,其特征在于,包括以下步骤:
S1、分别对甲骨文文献、甲骨文数据库、甲骨文文本、甲骨文语料库提取实体以及实体之间的关系;
S2、对步骤S1中提取的实体以及实体之间的关系进行实体对齐和关系融合,构成融合图谱;
S3、基于本体推理和规则推理,挖掘获取隐含语义关系;
S4、将隐含语义关系扩充到融合图谱中,最终构成甲骨学知识图谱。
2.根据权利要求1所述的融合MKD和KG的甲骨学知识图谱构建方法,其特征在于,步骤S1中甲骨文文献为甲骨学科学知识图谱的构建提供文献元数据信息,甲骨文文献模块利用甲骨学科学知识图谱显示甲骨文知识关联、知识演化及知识群结构;实体为研究机构、学者、地点、人物、事件中的一种或多种;实体之间的关系为合作、被引、共现、为…提供依据、主体、分期、类组、材质、祭祀对象、继承中的一种或多种;采用共引、共词、聚类分析中的一种或多种方法提取实体以及实体之间的关系。
3.根据权利要求1所述的融合MKD和KG的甲骨学知识图谱构建方法,其特征在于,甲骨文本体库包括甲骨文文献本体、甲骨文内容本体和甲骨文常识本体;规则推理采用的是Drools开源规则引擎。
4.根据权利要求1所述的融合MKD和KG的甲骨学知识图谱构建方法,其特征在于,关系融合为确定两个实体的关系是否表达同一种关系,或者是否是包含关系。
5.根据权利要求1所述的融合MKD和KG的甲骨学知识图谱构建方法,其特征在于,
步骤S1中针对甲骨文文献,通过构建MKD,利用共引、共词和聚类分析方法提取实体及实体之间的关系;
其中共词方法采用Cosine函数法:
其中,Di=(d1i,d2i,...dni)T和Dj=(d1j,,d2j,,...dnj)T均是关键词集合;
针对甲骨文数据库,通过获取关系模型中的关系、元组、属性、域、关系模式提取实体及实体之间的关系;具体操作采用直接映射的方法,即表名映射为实体所属的概念;表记录映射为实体,其对应的表字段映射为实体的属性;表与表之间的外键映射为实体和实体之间的关系;
针对甲骨文文本,通过文本挖掘的方法获取命名实体,再基于依存句法提取实体和实体之间的关系;
针对甲骨文语料库,通过在甲骨文专家的指导下,利用人机交互的方式提取实体及实体之间的关系。
步骤S2中实体对齐主要是判断各个数据源中的两个实体是否是同一个实体,即等价实体;如果实体对<e1,e2>在甲骨文文本中被记录为“=”,或在数据库中有相应字段记录为相等信息,或者在本体中标记为“isSame”关系,则这些实体对在相同或不同数据集中出现时,则直接判定为等价实体;
步骤S3中基于本体的推理,即利用甲骨文本体中已经定义好的关系,包括kind-of、instance-of、property-of、part-of、equivalence通用本体关系,以及甲骨学领域涉及的商王世系、占卜事件、地理位置、时间空间复杂的语义关系和公理进行推理,充分利用关系的传递性、自反性进行推理。
6.一种融合MKD和KG的甲骨学知识图谱构建系统,其特征在于,包括甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块、甲骨文本体库模块、规则库模块、实体及实体之间的关系提取模块、实体对齐及关系融合模块、隐含语义挖掘模块、甲骨学知识图谱组合模块,甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块的输出端与实体及实体之间的关系提取模块的输入端连接,实体及实体之间的关系提取模块、甲骨文本体库模块的输出端与实体对齐及关系融合模块的输入端连接,甲骨文本体库、规则库模块的输出端与隐含语义挖掘模块的输入端连接,实体对齐及关系融合模块、隐含语义挖掘模块的输出端与甲骨学知识图谱组合模块的输入端连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045837.7A CN110781318A (zh) | 2019-10-30 | 2019-10-30 | 一种融合mkd和kg的甲骨学知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045837.7A CN110781318A (zh) | 2019-10-30 | 2019-10-30 | 一种融合mkd和kg的甲骨学知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110781318A true CN110781318A (zh) | 2020-02-11 |
Family
ID=69387731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911045837.7A Pending CN110781318A (zh) | 2019-10-30 | 2019-10-30 | 一种融合mkd和kg的甲骨学知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781318A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092700A (zh) * | 2021-11-25 | 2022-02-25 | 吉林大学 | 基于目标检测和知识图谱的古文字识别方法 |
CN114491075A (zh) * | 2022-02-14 | 2022-05-13 | 安阳师范学院 | 一种甲骨文计算机辅助考释方法及系统 |
-
2019
- 2019-10-30 CN CN201911045837.7A patent/CN110781318A/zh active Pending
Non-Patent Citations (2)
Title |
---|
熊晶: "《甲骨学知识图谱构建方法研究》", 31 January 2019, pages: 1 - 7 * |
熊晶等: "甲骨文大规模基础数据的语义挖掘研究", 《现代图书情报技术》, no. 02, 28 February 2015 (2015-02-28), pages 7 - 14 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092700A (zh) * | 2021-11-25 | 2022-02-25 | 吉林大学 | 基于目标检测和知识图谱的古文字识别方法 |
CN114092700B (zh) * | 2021-11-25 | 2022-09-20 | 吉林大学 | 基于目标检测和知识图谱的古文字识别方法 |
CN114491075A (zh) * | 2022-02-14 | 2022-05-13 | 安阳师范学院 | 一种甲骨文计算机辅助考释方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807100A (zh) | 一种基于多模态数据的甲骨学知识图谱构建方法及系统 | |
Cafarella et al. | Ten years of webtables | |
Hoffart et al. | YAGO2: A spatially and temporally enhanced knowledge base from Wikipedia | |
Thorne et al. | Database reasoning over text | |
CN105608232B (zh) | 一种基于图形数据库的bug知识建模方法 | |
Fu et al. | Automatic record linkage of individuals and households in historical census data | |
CN115422155A (zh) | 一种数据湖元数据模型的建模方法 | |
WO2017193471A1 (zh) | 一种东巴经典古籍传承体系数字化国际共享平台 | |
CN112015915A (zh) | 基于问题生成的知识库问答系统及装置 | |
CN110781318A (zh) | 一种融合mkd和kg的甲骨学知识图谱构建方法 | |
CN105760425B (zh) | 一种本体数据存储方法 | |
CN114707003B (zh) | 一种论文作者姓名消歧的方法、设备及储存介质 | |
CN105824956A (zh) | 一种基于链表结构的倒排索引模型及其构建方法 | |
Wilton | Beginning sql | |
De Leeuw et al. | Digital methods in holocaust studies: the European holocaust research infrastructure | |
Lara | Documentary languages and knowledge organization systems in the context of the semantic web | |
Kantabutra et al. | Intentionally-Linked Entities: A Better Database System for Representing Dynamic Social Networks, Narrative Geographic Information Sytem and General Abstractions of Reality | |
Lin et al. | EventGo! Mining Events through Semi-Supervised Event Title Recognition and Pattern-based Venue/Date Coupling. | |
Liu et al. | Modeling fuzzy relational database in HBase | |
Xie et al. | Exploring Media Images of Librarians in Newspapers of Mainland China and Taiwan. | |
Xu | English Chinese Cross Language Information Retrieval Method Based on Association Pattern Mining | |
Shang et al. | AutoNet: automated network construction and exploration system from domain-specific corpora | |
Li et al. | Database Design on Corpus System for Chinese-English Translation of Scientific Papers [J] | |
An et al. | Column concept determination based on multiple evidences | |
Ibrahim et al. | Elevating Annotation Summaries To First-Class Citizens In InsightNotes. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |