CN113792152A - 一种三角图与知识图谱的融合方法 - Google Patents

一种三角图与知识图谱的融合方法 Download PDF

Info

Publication number
CN113792152A
CN113792152A CN202110968825.2A CN202110968825A CN113792152A CN 113792152 A CN113792152 A CN 113792152A CN 202110968825 A CN202110968825 A CN 202110968825A CN 113792152 A CN113792152 A CN 113792152A
Authority
CN
China
Prior art keywords
sandstone
graph
ontology
triangular
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110968825.2A
Other languages
English (en)
Other versions
CN113792152B (zh
Inventor
胡志臣
许小龙
胡祥奔
唐柏轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110968825.2A priority Critical patent/CN113792152B/zh
Publication of CN113792152A publication Critical patent/CN113792152A/zh
Application granted granted Critical
Publication of CN113792152B publication Critical patent/CN113792152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种三角图与知识图谱的融合方法,属于知识图谱的技术领域。其包括步骤1:利用马尔可夫图方法将含有三角图的沉积学PDFA文件转换为灰度图像;步骤2:重构砂岩三角图,根据三角图获取底边数据,计算每个三角图图形边缘值;步骤3:分析沉积学中各砂岩实体与砂岩实体间关系,去除同义砂岩实体名,构建沉积学领域砂岩知识图谱;步骤4:对砂岩内部成分划界,计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值;步骤5:构建三角图与知识图谱的链接关系,形成砂岩图谱三角图,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱,提供了适用于砂岩三角图分析数值工作的方法。

Description

一种三角图与知识图谱的融合方法
技术领域
本发明涉及知识图谱的技术领域,特别涉及一种三角图与知识图谱的融合方法。
背景技术
知识图谱是一门把语言学、计算机科学、数学等相关领域融为一体的交叉学科,知识图谱逐渐渗透到各行各业用于文本数据挖掘和信息存储。当前,大量的企业和组织将与日俱增的数据信息完全或者部分通过知识图谱,推理出有价值的核心热点,以降低检索时间并提高分析信息能力。
沉积学领域中对文本中三角图数据分析量的不断增加,特别是在大数据时代,三角图数据分析需要学习掌握多种分类类别和繁杂的命名种类,大大加大了探索研究的难度。为了应对与日俱增的分析需求,沉积学领域需要领域专家需要学习分析相关对照手册。当前沉积学领域普遍依赖人工查询定点,人工查询定点会消耗大量时间,影响数据时效性,制约了信息化产业的动态发展。
随着三角图在沉积学砂岩领域的广泛应用,文本三角图产生热点的数据日益增长,将会对三角图内数据分析带来挑战。为了应对沉积学领域节约时间开销的迫切需求,在知识图谱处理支撑三角图数据中,如何实现面向沉积学文本三角图定位分析是工业界和学术界关注的热点。
发明内容
本发明针对沉积学砂岩领域文本中三角图对应砂岩种类和本体关系无法直接产生关联这个空缺,提供沉积学砂岩领域文献中三角图与知识图谱的融合方法,适用于砂岩三角图分析数值工作。
为实现上述目的,本发明采用以下技术方案:
本发明一种三角图与知识图谱的融合方法,
步骤1:利用马尔可夫图方法将含有三角图的沉积学PDFA文件转换为灰度图像;
步骤2:重构砂岩三角图,根据三角图获取底边数据,计算每个三角图图形边缘值;
步骤3:分析沉积学中各砂岩实体与砂岩实体间关系,去除同义砂岩实体名,构建沉积学领域砂岩知识图谱;
步骤4:对砂岩内部成分划界,计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值;
步骤5:构建三角图与知识图谱的链接关系,形成砂岩图谱三角图,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱。
进一步地,步骤一中,所述马尔可夫图方法将含有三角图的沉积学PDFA文件的每一页全部转化为图片格式的文档,其马尔可夫链的状态转移矩阵P表示为{Pi,j|0≤i≤255,0≤j≤255},其中Pi,j是PDFA字节流中字节值i到字节值j的转换概率,计算方法如式所示:
Figure BDA0003225201840000021
式中,Wi,j是PDFA字节流中从字节值i到字节值j的转换次数,为了显示为灰度位图图像,状态转换矩阵P被缩放为I:
I=255/max(p)P;
式中,所有PDFA文件的马尔可夫图的图像大小相同,图像的像素为256×256,max(p)表示为PDFA字节流中字节值i到字节值j的转换的最大概率。
进一步地,步骤2中,所述重构砂岩三角图的具体内容为:
在PDFA文件中,三角图成等边三角形呈现,其会出现在文件随机的位置,在计算机中,将PDFA文件的横坐标定义为X,纵坐标定义为Y,其X=0表示文件最左边,Y=0表示文件最上边,将三角图左下角点标定义为(x0,y0),其中x0代表三角图左下角点横坐标,y0代表三角图左下角点纵坐标,(x2,y2)代表三角图右下角点坐标,其中x2代表三角图右下角点横坐标,y2代表三角图右下角点纵坐标,计算三角图顶点坐标(x1,y1)为:
x1=(x2-x0)/2;
Figure BDA0003225201840000022
式中x2-x0代表三角图底边长度。
进一步地,步骤3中,所述知识图谱包括本体词典列表和实体关系词典列表,
整合沉积学砂岩领域所有教科书文本,获取教课书中所有砂岩实体、属性、框架的本体词典列表,同时整合各砂岩实体、属性和框架之间的关系,并获得实体关系词典列表;所述本体词典列表数据集SST={sst1,sst2,...,sstN},其中,sst1表示第一个种类的本体词典列表,sst2表示第二个种类的本体词典列表,sstN表示第N个种类的本体词典列表,同时遍历所有本体名去除相同本体名,确保本体的唯一性;SSTR={sstr1,2,,sstr1,3,...,sstrM,N},其中sstr1,2表示sst1和sst2存在本体关系,sstr1,3表示sst1和sst3存在本体关系,sstrM,N表示sstM和sstN存在本体关系;
所述实体关系词典列表的种类记录的是一个多属性元组,SSTR中种类表示为sr=(Garzanti,Dott,Gilbert,Pettijohn,Crook,Dapples,Folk,Mcbride,Van_Andel,Wackes,Arenite,Firstproperties,Secondproperties,Thirdproperties,Forthproperties,Dataproperty),其中Garzanti代表本体关系中Garzanti对砂岩种类分类的定义,Dott代表本体关系中Dott对砂岩种类分类的定义,Gilbert代表本体关系中Gilbert对砂岩种类分类的定义,Pettijohn代表本体关系中Pettijohn对砂岩种类分类的定义,Crook代表本体关系中Crook对砂岩种类分类的定义,Dapples代表本体关系中Dapples对砂岩种类分类的定义,Folk代表本体关系中Folk对砂岩种类分类的定义,Mcbride代表本体关系中Mcbride对砂岩种类分类的定义,Van_Andel代表本体关系中Van_Andel对砂岩种类分类的定义,Wackes代表本体关系中对砂岩种类下含量的分类定义,Arenite代表本体关系中对砂岩种类下含量的分类定义,Firstproperties,Secondproperties,Thirdproperties,Forthproperties代表本体关系中对层级属性的定义,Dataproperty代表本体关系中对各部分数量属性定义。
进一步地,步骤5中,所述构建三角图与知识图谱的链接关系具体步骤如下:
步骤5.1:将三角图的等边三角形的每条边都定义为0%到100%的刻度尺,将三角图左下角点到右下角点定义为长石F的含量,其范围为0%到100%,将顶点到左下角点定义为石英Q的含量,其范围为0%到100%,将顶点到右下角点定义为岩屑L的含量,其范围为0%到100%;步骤5.2:计算三角形内任意一点所占比重P,及所对应数值V;
设顶点为P1,左下角点为P0,右下角为P2,对应数值为V1,V0,V2
算出石英边值V′1:V′1=(1-T2)*V0+T2*V1
岩屑边值V′2:V′2=(1-T1)*V2+T1*V0
长石边值V′3:V′3=1-V′1-V′2
进一步地,步骤5中,所述石英边值计算方法的具体步骤如下:
首先做出平行于右侧三角形边的平行线,穿过三角图内一点,相交于左侧三角形边为一点,坐标定义为P′1,对应值为V′1,相交于底侧三角形边为一点,坐标定义为P′2,对应值为V′2,设定线段P′1至P占总线段P1至P2的比例T1,如公式:
T1=P′1-P/P1-P2
式中,P′1-P为点P′1至P的向量,P1-P2为P1至P2的向量;
另外设定线段P′1至P0占总线段P1至P0的比例T2,如公式:
T2=P′1-P0/P1-P0
式中,P′1-P0为点P′1至P0的向量,P1-P0为P1至P0的向量;
同理由于相似三角形对应边成比例的关系,P′2至P0的比例系数也为T2,类似的,向量P′2至P′1相对与向量P2至P1的比例系数同样也为T2
根据向量定理可知:
P′1-P0=(P′1-P0)+(P′1-P)
式中,P′1-P0为点P′1至P0的向量,P′1-P0为P′1至P0的向量,P′1-P为P′1至P的向量,首尾两向量和为首到尾相连的第三向量,根据比例值可以换算为:
T2*(P1-P0)=(P-P0)+T1*(P2-P1)
顶点为P1,左下角点为P0,右下角为P2,根据权利要求3,分别对应坐标点(x1,y1),(x0,y0),(x2,y2),公式可以进一步细化成:
Figure BDA0003225201840000041
式中,x1-x0代表P1所对应的点(x1,y1)中x1减去P0所对应的点(x0,y0),是数值相减,并不是x1到x0的向量,同理x2-x1,代表P2所对应的点(x2,y2)中x2减去P1所对应的点(x1,y1),是数值相减,并不是x2到x1的向量,可以利用(x1,y1),(x0,y0),(x2,y2),求出对应T1,T2值;
因此,最终可以算出石英边值V′1
V′1=(1-T2)*V0+T2*V1
有益效果
1、本发明通过设计基于砂岩分类种类和知识图谱的文本挖掘方法,在沉积学砂岩领域构建了完整的砂岩知识图谱分类,实现了文本三角图数据动态萃取;
2、沉积学文本中对三角图进行分析、定位,能够分析出三角图内各点对应的长石、石英、岩屑的准确数值;
3、链接三角图和知识图谱两大领域特征,可以通过三角图分析对应砂岩,并在知识图谱中分析找出对应知识元,并展开对应相关的特征;
4、完成实时对应系统工具,能够实时分析文本中三角图,减少沉积学领域专家对应查找的时间消耗,调高了识别关键信息的准确度。
附图说明
图1是本发明一种三角图与知识图谱的融合方法的流程图;
图2是图1中砂岩三角图的展示图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提出的沉积学砂岩领域文献中的一种三角图与知识图谱的融合方法,其流程如图1所示:
步骤1:利用图像可视化技术将含有三角图的沉积学PDFA文件转换为灰度图像。
图像可视化技术采用马尔可夫图方法将含有三角图的沉积学PDFA文件的每一页全部转化为图片格式的文档。其马尔可夫链的状态空间是一个字节的可能值集,表示为:S={0,1,...,255}。将含有三角图的沉积学PDFA文件下载,PDFA文件代表PAF文件中标准文件,不加密,不以整体图片形式呈现,其中将PDFA文件作为字节流文件,其字节流表示为256个状态的马尔可夫链的状态转换矩阵。马尔可夫链的状态转移矩阵P表示为{Pi,j|0≤i≤255,0≤j≤255},其中Pi,j是PDFA字节流中字节值i到字节值j的转换概率,计算方法如式所示:
Figure BDA0003225201840000051
式中,Wi,j是PDFA字节流中从字节值i到字节值j的转换次数。为了显示为灰度位图图像,状态转换矩阵P被缩放为I:
I=255/max(p)P;
式中,所有PDFA文件的马尔可夫图的图像大小相同,图像的像素为256×256。max(p)表示为PDFA字节流中字节值i到字节值j的转换的最大概率。
步骤2:重构各三角图,根据三角图获取底边数据,计算每个三角图图形边缘值。
三角图是沉积学砂岩领域中研究砂岩各部分含量的直观表现,如图2所示。在PDFA文件中,三角图成等边三角形呈现,其会出现在文件随机的位置。在计算机中,将PDFA文件的横坐标定义为X,纵坐标定义为Y,其X=0表示文件最左边,Y=0表示文件最上边,将三角图左下角点标定义为(x0,y0),其中x0代表三角图左下角点横坐标,y0代表三角图左下角点纵坐标。(x2,y2)代表三角图右下角点坐标,中x2代表三角图右下角点横坐标,y2代表三角图右下角点纵坐标。计算三角图顶点坐标(x1,y1)为:
x1=(x2-x0)/2;
Figure BDA0003225201840000061
式中x2-x0代表三角图底边长度。
步骤3:分析沉积学中各砂岩实体与砂岩实体间关系,去除同义砂岩实体名,构建沉积学领域砂岩知识图谱。
整合沉积学砂岩领域所有教科书文本,获取教课书中所有砂岩实体,属性,框架的本体词典列表。同时整合各砂岩实体,属性和框架之间的关系,并整合成实体关系词典列表。本体词典列表数据集SST={sst1,sst2,...,sstN},其中,sst1表示第一个种类的本体词典列表,sst2表示第二个种类的本体词典列表,sstN表示第N个种类的本体词典列表,同时遍历所有本体名去除相同本体名,确保本体的唯一性;SSTR={sstr1,2,,sstr1,3,...,sstrM,N},其中sstr1,2表示sst1和sst2存在本体关系,sstr1,3表示sst1和sst3存在本体关系,sstrM,N表示sstM和sstN存在本体关系;
实体关系词典列表的种类记录是一个多属性元组,SSTR中种类表示为sr=(Garzanti,Dott,Gilbert,Pettijohn,Crook,Dapples,Folk,Mcbride,Van_Andel,Wackes,Arenite,Firstproperties,Secondproperties,Thirdproperties,Forthproperties,Dataproperty),其中Garzanti代表本体关系中Garzanti对砂岩种类分类的定义,Dott代表本体关系中Dott对砂岩种类分类的定义,Gilbert代表本体关系中Gilbert对砂岩种类分类的定义,Pettijohn代表本体关系中Pettijohn对砂岩种类分类的定义,Crook代表本体关系中Crook对砂岩种类分类的定义,Dapples代表本体关系中Dapples对砂岩种类分类的定义,Folk代表本体关系中Folk对砂岩种类分类的定义,Mcbride代表本体关系中Mcbride对砂岩种类分类的定义,Van_Andel代表本体关系中Van_Andel对砂岩种类分类的定义,Wackes代表本体关系中对砂岩种类下含量的分类定义,Arenite代表本体关系中对砂岩种类下含量的分类定义,Firstproperties,Secondproperties,Thirdproperties,Forthproperties代表本体关系中对层级属性的定义,Dataproperty代表本体关系中对各部分数量属性定义。
步骤4:对砂岩内部成分划界,计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值。
计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值,其中F代表砂岩含量的长石含量,Q表砂岩含量的石英含量,L表砂岩含量的岩屑含量。为了区分各种沉积学砂岩中各FQL占比为此本专利做出了详细的统计,例如对砂岩中77种石头中Garzanti,Pettijohn和Folk分类进行举例
Quartzose sandstone=F<10%and L<10%;
式中F<10%代表长石含量小于整体的10%,设整体含量为100%,and代表并列存在的意思,当达成F<10%条件时候也需要达成L<10%,岩屑含量小于整体的10%的条件:
Feldspathic sandstone=Q<10%and L<10%
式中Q<10%代表石英含量小于整体的10%,设整体含量为100%,and代表并列存在的意思,当达成Q<10%条件时候也需要达成L<10%,岩屑含量小于整体的10%的条件:
Lithic sandstone=Q<10%and F<10%
式中Q<10%代表石英含量小于整体的10%,设整体含量为100%,and代表并列存在的意思,当达成Q<10%条件时候也需要达成F<10%,长石含量小于整体的10%的条件,同理砂岩分类如下:
Feldspatho-quartzo-lithic sandstone=L>Q>F>10%
Litho-quartzose sandstone=F<10%and Q>L>10%
Quartzo-lithic-feldspatho sandstone=F>L>Q>10%
Lithic-quartzo-feldspatho sandstone=F>Q>L>10%
Quartzo-feldspathic sandstone=L<10%and F>Q>10%
Feldspatho-quartzose sandstone=L<10%and Q>F>10%
Lithic-feldspatho-quartzo sandstone=Q>F>L>10%
Quartzo-feldspatho-lithic sandstone=L>F>Q>10%
Feldspatho-lithic-quartzo sandstone=Q>L>F>10%
Feldspatho-lithic sandstone=Q<10%and L>F>10%
Quartzo-lithic sandstone=F<10and L>Q>10
Quartzose sandstone=Q>95%
Feldspathic sandstone=F>25%and F>3*L
Lithic sandstone=L>25%and L>3*F
Subarkose=5%<F<25%and F>L
Sublitharenite=5%<L<25%and L>F
Litho-feldspathic sandstone=Q<75%and 1%<F/L<3%
Feldspatho-lithic sandstone=Q<75%and 1/3<F/L<1
Quartz arenite=L<5%and F<5%
Lithic sandstone=F<L and L>25%
Subarkose=5%<F<25%and F>L
Sublitharenite=5%<L<25%and F<L
Feldspathic sandstone=F>25%and F>L
Feldspathic wackes=Q<95%and F>L
Lithic wackes=Q<95%and F<L
Quartz wackes=Q>95%
步骤5:构建三角图与知识图谱的链接关系,形成砂岩图谱三角图,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱。
利用步骤2和步骤4构建链接关系,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱,将三角图的等边三角形的每条边都定义为0%到100%的刻度尺,将三角图左下角点到右下角点定义为长石F的含量,其范围为0%到100%,将顶点到左下角点定义为石英Q的含量,其范围为0%到100%,将顶点到右下角点定义为岩屑L的含量,其范围为0%到100%,计算三角形内任意一点P,所占比重,P所对应数值为V,因此设顶点为P1,左下角点为P0,右下角为P2,对应数值为V1,V0,V2,举例计算石英边值计算方法(顶点至左下角),首先做出平行于右侧三角形边的平行线,穿过三角图内一点,相交于左侧三角形边为一点,坐标定义为P′1,对应值为V′1,相交于底侧三角形边为一点,坐标定义为P′2,对应值为V′2,设定线段P′1至P占总线段P1至P2的比例T1,如公式:
T1=P′′-P/P1-P2
式中,P′1-P为点P′1至P的向量,P1-P2为P1至P2的向量。
另外设定线段P′1至P0占总线段P1至P0的比例T2,如公式:
T2=P′1-P0/P1-P0
式中,P′1-P0为点P′1至P0的向量,P1-P0为P1至P0的向量。
同理由于相似三角形对应边成比例的关系,P′2至P0的比例系数也为T2,类似的,向量P′2至P′1相对与向量P2至P1的比例系数同样也为T2
根据向量定理可知:
P′1-P0=(P′1-P0)+(P′1-P)
式中,P′1-P0为点P′1至P0的向量,P′1-P0为P′1至P0的向量,P′1-P为P′1至P的向量,首尾两向量和为首到尾相连的第三向量,根据比例值可以换算为:
T2*(P1-P0)=(P-P0)+T1*(P2-P1)
顶点为P1,左下角点为P0,右下角为P2,,分别对应坐标点(x1,y1),(x0,y0),(x2,y2),公式可以进一步细化成:
Figure BDA0003225201840000101
式中,x1-x0代表P1所对应的点(x1,y1)中x1减去P0所对应的点(x0,y0),是数值相减,并不是x1到x0的向量,同理x2-x1,代表P2所对应的点(x2,y2)中x2减去P1所对应的点(x1,y1),是数值相减,并不是x2到x1的向量。可以利用(x1,y1),(x0,y0),(x2,y2),求出对应T1,T2值。
因此,最终可以算出石英边值,V′1对应石英边值:
V′1=(1-T2)*V0+T2*V1
同理,可以求出三角图内一点,对应的岩屑,长石的边值,
岩屑边值V′2:V′2=(1-T1)*V2+T1*V0
长石边值V′3:V′3=1-V′1-V′2
最后通过砂岩图谱三角图展示出来。
实施例,本实施例选择沉积学文献砂岩数据作为输入数据集进行实验,并选择Python作为仿真平台。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种三角图与知识图谱的融合方法,其特征在于:
步骤1:利用马尔可夫图方法将含有三角图的沉积学PDFA文件转换为灰度图像;
步骤2:重构砂岩三角图,根据三角图获取底边数据,计算每个三角图图形边缘值;
步骤3:分析沉积学中各砂岩实体与砂岩实体间关系,去除同义砂岩实体名,构建沉积学领域砂岩知识图谱;
步骤4:对砂岩内部成分划界,计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值;
步骤5:构建三角图与知识图谱的链接关系,形成砂岩图谱三角图,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱。
2.根据权利要求1所述的融合方法,其特征在于:步骤一中,所述马尔可夫图方法将含有三角图的沉积学PDFA文件的每一页全部转化为图片格式的文档,其马尔可夫链的状态转移矩阵P表示为{Pi,j|0≤i≤255,0≤j≤255},其中Pi,j是PDFA字节流中字节值i到字节值j的转换概率,计算方法如式所示:
Figure FDA0003225201830000011
式中,Wi,j是PDFA字节流中从字节值i到字节值j的转换次数,为了显示为灰度位图图像,状态转换矩阵P被缩放为I:
I=255/max(p)P;
式中,所有PDFA文件的马尔可夫图的图像大小相同,图像的像素为256×256,max(p)表示为PDFA字节流中字节值i到字节值j的转换的最大概率。
3.根据权利要求2所述的融合方法,其特征在于,步骤2中,所述重构砂岩三角图的具体内容为:
在PDFA文件中,三角图成等边三角形呈现,其会出现在文件随机的位置,在计算机中,将PDFA文件的横坐标定义为X,纵坐标定义为Y,其X=0表示文件最左边,Y=0表示文件最上边,将三角图左下角点标定义为(x0,y0),其中x0代表三角图左下角点横坐标,y0代表三角图左下角点纵坐标,(x2,y2)代表三角图右下角点坐标,其中x2代表三角图右下角点横坐标,y2代表三角图右下角点纵坐标,计算三角图顶点坐标(x1,y1)为:
x1=(x2-x0)/2;
Figure FDA0003225201830000021
式中x2-x0代表三角图底边长度。
4.根据权利要求3所述的融合方法,其特征在于:
步骤3中,所述知识图谱包括本体词典列表和实体关系词典列表,整合沉积学砂岩领域所有教科书文本,获取教课书中所有砂岩实体、属性、框架的本体词典列表,同时整合各砂岩实体、属性和框架之间的关系,并获得实体关系词典列表;所述本体词典列表数据集SST={sst1,sst2,...,sstN},其中,sst1表示第一个种类的本体词典列表,sst2表示第二个种类的本体词典列表,sstN表示第N个种类的本体词典列表,同时遍历所有本体名去除相同本体名,确保本体的唯一性;SSTR={sstr1,2,,sstr1,3,...,sstrM,N},其中sstr1,2表示sst1和sst2存在本体关系,sstr1,3表示sst1和sst3存在本体关系,sstrM,N表示sstM和sstN存在本体关系;
所述实体关系词典列表的种类记录的是一个多属性元组,SSTR中种类表示为sr=(Garzanti,Dott,Gilbert,Pettijohn,Crook,Dapples,Folk,Mcbride,Van_Andel,Wackes,Arenite,Firstproperties,Secondproperties,Thirdproperties,Forthproperties,Dataproperty),其中Garzanti代表本体关系中Garzanti对砂岩种类分类的定义,Dott代表本体关系中Dott对砂岩种类分类的定义,Gilbert代表本体关系中Gilbert对砂岩种类分类的定义,Pettijohn代表本体关系中Pettijohn对砂岩种类分类的定义,Crook代表本体关系中Crook对砂岩种类分类的定义,Dapples代表本体关系中Dapples对砂岩种类分类的定义,Folk代表本体关系中Folk对砂岩种类分类的定义,Mcbride代表本体关系中Mcbride对砂岩种类分类的定义,Van_Andel代表本体关系中Van_Andel对砂岩种类分类的定义,Wackes代表本体关系中对砂岩种类下含量的分类定义,Arenite代表本体关系中对砂岩种类下含量的分类定义,Firstproperties,Secondproperties,Thirdproperties,Forthproperties代表本体关系中对层级属性的定义,Dataproperty代表本体关系中对各部分数量属性定义。
5.根据权利要求4所述的融合方法,其特征在于:步骤5中,所述构建三角图与知识图谱的链接关系具体步骤如下:
步骤5.1:将三角图的等边三角形的每条边都定义为0%到100%的刻度尺,将三角图左下角点到右下角点定义为长石F的含量,其范围为0%到100%,将顶点到左下角点定义为石英Q的含量,其范围为0%到100%,将顶点到右下角点定义为岩屑L的含量,其范围为0%到100%;
步骤5.2:计算三角形内任意一点所占比重P,及所对应数值V;
设顶点为P1,左下角点为P0,右下角为P2,对应数值为V1,V0,V2
算出石英边值V′1:V′1=(1-T2)*V0+T2*V1
岩屑边值V′2:V′2=(1-T1)*V2+T1*V0
长石边值V′3:V′3=1-V′1-V′2
6.根据权利要求5所述的融合方法,其特征在于:步骤5中,所述石英边值计算方法的具体步骤如下:
首先做出平行于右侧三角形边的平行线,穿过三角图内一点,相交于左侧三角形边为一点,坐标定义为P′1,对应值为V′1,相交于底侧三角形边为一点,坐标定义为P′2,对应值为V′2,设定线段P′1至P占总线段P1至P2的比例T1,如公式:
T1=P′1-P/P1-P2
式中,P′1-P为点P′1至P的向量,P1-P2为P1至P2的向量;
另外设定线段P′1至P0占总线段P1至P0的比例T2,如公式:
T2=P′1-P0/P1-P0
式中,P′1-P0为点P′1至P0的向量,P1-P0为P1至P0的向量;
同理由于相似三角形对应边成比例的关系,P′2至P0的比例系数也为T2,类似的,向量P′2至P′1相对与向量P2至P1的比例系数同样也为T2
根据向量定理可知:
P1′-P0=(P1′-P0)+(P1′-P)
式中,P′1-P0为点P′1至P0的向量,P′1-P0为P′1至P0的向量,P′1-P为P′1至P的向量,首尾两向量和为首到尾相连的第三向量,根据比例值可以换算为:
T2*(P1-P0)=(P-P0)+T1*(P2-P1)
顶点为P1,左下角点为P0,右下角为P2,根据权利要求3,分别对应坐标点(x1,y1),(x0,y0),(x2,y2),公式可以进一步细化成:
Figure FDA0003225201830000041
式中,x1-x0代表P1所对应的点(x1,y1)中x1减去P0所对应的点(x0,y0),是数值相减,并不是x1到x0的向量,同理x2-x1,代表P2所对应的点(x2,y2)中x2减去P1所对应的点(x1,y1),是数值相减,并不是x2到x1的向量,可以利用(x1,y1),(x0,y0),(x2,y2),求出对应T1,T2值;
因此,最终可以算出石英边值V′1
V1′=(1-T2)*V0+T2*V1
CN202110968825.2A 2021-08-23 2021-08-23 一种三角图与知识图谱的融合方法 Active CN113792152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110968825.2A CN113792152B (zh) 2021-08-23 2021-08-23 一种三角图与知识图谱的融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110968825.2A CN113792152B (zh) 2021-08-23 2021-08-23 一种三角图与知识图谱的融合方法

Publications (2)

Publication Number Publication Date
CN113792152A true CN113792152A (zh) 2021-12-14
CN113792152B CN113792152B (zh) 2023-07-04

Family

ID=78876253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110968825.2A Active CN113792152B (zh) 2021-08-23 2021-08-23 一种三角图与知识图谱的融合方法

Country Status (1)

Country Link
CN (1) CN113792152B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106323A (zh) * 2011-11-10 2013-05-15 富士通株式会社 获得图的结构描述信息的方法及装置
CN107391512A (zh) * 2016-05-17 2017-11-24 北京邮电大学 知识图谱预测的方法和装置
CN107679110A (zh) * 2017-09-15 2018-02-09 广州唯品会研究院有限公司 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109902165A (zh) * 2019-03-08 2019-06-18 中国科学院自动化研究所 基于马尔科夫逻辑网的智能交互式问答方法、系统、装置
CN110019842A (zh) * 2018-09-30 2019-07-16 北京国双科技有限公司 一种建立知识图谱的方法及装置
CN110807100A (zh) * 2019-10-30 2020-02-18 安阳师范学院 一种基于多模态数据的甲骨学知识图谱构建方法及系统
CN111104522A (zh) * 2019-12-20 2020-05-05 武汉理工大学 一种基于知识图谱的区域产业关联效应趋势预测方法
CN111324609A (zh) * 2020-02-17 2020-06-23 腾讯云计算(北京)有限责任公司 知识图谱构建方法、装置、电子设备及存储介质
CN111400428A (zh) * 2020-02-17 2020-07-10 浙江创课网络科技有限公司 一种知识图谱体系搭建方法
CN111639878A (zh) * 2020-06-09 2020-09-08 东北大学 一种基于知识图谱构建的滑坡风险预测方法及系统
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112527915A (zh) * 2020-11-17 2021-03-19 北京科技大学 线性文化遗产知识图谱构建方法、系统、计算设备和介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106323A (zh) * 2011-11-10 2013-05-15 富士通株式会社 获得图的结构描述信息的方法及装置
CN107391512A (zh) * 2016-05-17 2017-11-24 北京邮电大学 知识图谱预测的方法和装置
CN107679110A (zh) * 2017-09-15 2018-02-09 广州唯品会研究院有限公司 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN110019842A (zh) * 2018-09-30 2019-07-16 北京国双科技有限公司 一种建立知识图谱的方法及装置
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109902165A (zh) * 2019-03-08 2019-06-18 中国科学院自动化研究所 基于马尔科夫逻辑网的智能交互式问答方法、系统、装置
CN110807100A (zh) * 2019-10-30 2020-02-18 安阳师范学院 一种基于多模态数据的甲骨学知识图谱构建方法及系统
CN111104522A (zh) * 2019-12-20 2020-05-05 武汉理工大学 一种基于知识图谱的区域产业关联效应趋势预测方法
CN111324609A (zh) * 2020-02-17 2020-06-23 腾讯云计算(北京)有限责任公司 知识图谱构建方法、装置、电子设备及存储介质
CN111400428A (zh) * 2020-02-17 2020-07-10 浙江创课网络科技有限公司 一种知识图谱体系搭建方法
CN111639878A (zh) * 2020-06-09 2020-09-08 东北大学 一种基于知识图谱构建的滑坡风险预测方法及系统
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112527915A (zh) * 2020-11-17 2021-03-19 北京科技大学 线性文化遗产知识图谱构建方法、系统、计算设备和介质

Also Published As

Publication number Publication date
CN113792152B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
AU2018247340B2 (en) Dvqa: understanding data visualizations through question answering
US10599924B2 (en) Semantic page segmentation of vector graphics documents
US10963632B2 (en) Method, apparatus, device for table extraction based on a richly formatted document and medium
CN108229303B (zh) 检测识别和检测识别网络的训练方法及装置、设备、介质
Murrell R graphics
CN102903089B (zh) 一种Linux环境下生成遥感图像快视图的方法
TWI821671B (zh) 一種文本區域的定位方法及裝置
CN110796143A (zh) 一种基于人机协同的场景文本识别方法
CN111428457A (zh) 数据表的自动格式化
CN115917613A (zh) 文档中文本的语义表示
CN108681595B (zh) 地理pdf地图混合平面坐标系统模型及其构建方法
CN113673506A (zh) 一种基于多尺度特征金字塔的场景文本检测方法及系统
CN113792152B (zh) 一种三角图与知识图谱的融合方法
Henninger Data-driven journalism
Chiou et al. The effects of joint and link flexibilities on the dynamic stability of force-controlled manipulators
CN106997462A (zh) 一种量子线路图像识别方法
CN109033373B (zh) 用于标注地质体代号的方法、装置及其存储介质
Yuan et al. Road vectorization based on image pixel tracking and attribute matching method
Zhang et al. Application of R-FCN algorithm in machine visual solutions on tensorflow based
US11600028B1 (en) Semantic resizing of line charts
Ding et al. Design of improved road sign recognition system based on deep learning
Whitehead et al. Desktop mapping on the Apple Macintosh
CN110232102B (zh) 一种基于迁移学习的人员关系模型建模方法
CN118076982A (zh) 信息提取和结构化方法
CN117912035A (zh) 一种快速提取文档类pdf文字信息的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant