CN116628212A - 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 - Google Patents
面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 Download PDFInfo
- Publication number
- CN116628212A CN116628212A CN202211492468.8A CN202211492468A CN116628212A CN 116628212 A CN116628212 A CN 116628212A CN 202211492468 A CN202211492468 A CN 202211492468A CN 116628212 A CN116628212 A CN 116628212A
- Authority
- CN
- China
- Prior art keywords
- relation
- entity
- industrial
- confidence
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000011835 investigation Methods 0.000 title claims abstract description 40
- 238000011161 development Methods 0.000 title claims abstract description 36
- 238000012217 deletion Methods 0.000 claims abstract description 3
- 230000037430 deletion Effects 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 65
- 230000018109 developmental process Effects 0.000 claims description 31
- 238000012546 transfer Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 17
- 108091026890 Coding region Proteins 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 230000000295 complement effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 241001334134 Rugopharynx epsilon Species 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000013523 data management Methods 0.000 abstract description 3
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 230000008447 perception Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 22
- 238000013519 translation Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 235000013336 milk Nutrition 0.000 description 7
- 239000008267 milk Substances 0.000 description 7
- 210000004080 milk Anatomy 0.000 description 7
- 239000000843 powder Substances 0.000 description 7
- 235000015277 pork Nutrition 0.000 description 6
- 235000020254 sheep milk Nutrition 0.000 description 6
- 239000000047 product Substances 0.000 description 5
- 235000015278 beef Nutrition 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010220 Pearson correlation analysis Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012271 agricultural production Methods 0.000 description 2
- 235000020247 cow milk Nutrition 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,将国民经济和社会发展调查领域下各子领域上下层次四元组获取;基于历史调查数据的产业实体间“相关”关系四元组获取;外部数据源抽取产业实体相关的语义四元组;以三个步骤得到的四元组数据为基础,通过不确定性知识图谱嵌入模型补全产业实体缺失的“相关”关系,并得到置信度。解决了当前数据管理方式无法对海量数据进行有效管理的问题,以知识图谱的形式囊括了各子领域的上下层次产业结构,以置信度的形式度量了国民经济和社会发展调查领域下庞杂产业结构间的潜在联系的大小,为国民经济和社会发展领域的全局感知、风险监控,以及追根溯源的交互式分析提供了数据基础。
Description
技术领域
本发明属于知识图谱技术领域,特别是涉及一种面向国民经济和社会发展调查领域的不确定性知识图谱建模方法。
背景技术
国民经济和社会发展调查领域包含了经济增长、就业、居民消费价格、农业生产、工业生产、国际收支、科技创新、社会保障等多个子领域,各子领域又有着庞杂的树状产业结构以及其调查指标数据。然而传统的数据管理方式无法对爆发式增长的海量数据进行合理呈现。为了实现对社会发展领域的全局感知、风险监控,以及追根溯源的交互式分析,需要有效发掘并建立各产业间的潜在联系。例如为了分析居民消费价格子领域的猪肉价格指数发生大的变化的原因,我们需要知道跟其相关的节点有哪些,这些节点各自对猪肉价格指数的影响有多大,比如农业生产子领域下的猪肉出栏量跟经济增长、就业等子领域的环境因素对猪肉价格都有影响,而两者影响的程度明显不同。
发明内容
本发明实施例的目的在于提供一种面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,解决了当前数据管理方式无法对海量数据进行有效管理的问题。
面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,包括以下步骤:
S1、建立国民经济和社会发展调查领域下各子领域上下层次四元组;
S2、基于历史调查数据的产业实体间“相关”关系置信度计算;
S3、外部数据源抽取产业实体相关的语义四元组;
S4、以S1、S2、S3得到的四元组数据为基础,通过不确定性知识图谱嵌入模型补全产业实体缺失的“相关”关系,并得到置信度,具体包括以下步骤:
S41、不确定性知识图谱嵌入模型训练;
S42、缺失关系事实推理:根据输出头实体和关系构建候选集,通过S41训练的模型对候选集中关系事实置信度预测并排序。
进一步地,所述S1包括:
实体id编码:对国民经济和社会发展调查领域的树状产业实体进行编码,将每个产业实体编码为14位的id号,其中10000000000000代表国民经济和社会发展调查领域,id号第2位代表国民经济和社会发展调查领域下各子领域实体,id号第3~14位代表各子领域下6层结构,每2位表示同一层次;
按照领域树状结构建立上下层次结构四元组,关系设置为包括,置信度设置为1,具体形式为(产业实体m,包括,产业实体n,1)。
进一步地,所述S2包括下述处理过程:
S21,将各产业n个月的m项历史调查的指标数据拼接为n×m维向量;
S22,通过皮尔森相关性分析方法计算不同产业实体向量的相关性数值,计算方法为两个变量X、Y之间的协方差和两者标准差乘积的比值;
S23,过滤选择相关性数值绝对值大于阈值的产业实体建立“相关”关系四元组,以相关性数值作为置信度,具体形式为(产业实体a,相关,产业实体b,置信度wi)。
进一步地,所述S3包括:
S31,以产业实体为目标爬取外部数据源作为抽取的数据源文本数据;
S32,输入字序列,然后将字词混合嵌入得到对应的字向量序列并加上位置嵌入后输入到12层点云动态图卷积DGCNN中进行编码,得到编码后的序列;输入以字为单位的文本序列,经过一个字的嵌入层后得到字向量序列;然后将文本分词,通过一个Word2Vec模型来提取对应的词向量,再将每个词的词向量重复词的字数,得到跟字向量对齐的词向量序列;最后将词向量序列经过一个矩阵变换得到跟字向量一样的维度,并将两者相加;
S33,将S32得到的编码序列对应目标产业实体的子序列传入到一个双向LSTM模型中,得到目标产业实体的编码向量,然后加上相对位置嵌入,得到一个与步骤S32得到的编码序列等长的向量序列;
S34,将S32得到的编码序列传入一层SelfAttention后,将输出结果与步骤S33输出的向量序列进行拼接,将拼接后的结果传入CNN、Dense模型,对于每一种关系,都构建一个“半指针-半标注”结构来预测对应的尾实体的首、尾位置,同时把关系和尾实体都预测出来,置信度设置为1。
进一步地,所述S41包括下述处理过程:
S411,嵌入层:实体关系编码:将头实体h和尾实体t映射到复数向量空间Ck,即h,t∈Ck;
S412,评分层:通过关系的评分函数得到关系事实的评分,评分衡量了这个关系事实成立的可能性,函数值越大,事实成立的可能性越大,将关系r定义为复数向量空间中从头实体h到尾实体t的旋转,评分函数定义如下:
η是固定余量,代表哈达玛内积,对于存在的四元组(h,r,t,w),嵌入中的每个维度i都有ti=hiri,另外,将r∈Ck的每个元素的模长约束为|ri|=1,通过这种形式,ri形式化为/>表示在原始复数向量空间中逆时针旋转θr,i的弧度;i指实体(h,t)和关系(r)向量表示的维度i,e为自然常数;
S413,附加层:对四元组数据集构建“相关”关系实体矩阵,对于实体矩阵MR,mab=1表示序号a、b的实体间存在关系“相关”,mab=0则表示序号a、b的实体间不存在关系“相关”,用关系矩阵法对实体矩阵做关系传递性判别计算推导头实体h和尾实体t具有“相关”关系的传递关系链的个数作为传递关系系数u;
S414,模型置信度计算:把传递关系系数u加入评分层得到融合传递关系系数的新评分G(l):
G(l)=ug(l)
G(l)的含义是基于旋转距离的评分函数输出结果乘上附加层计算的传递关系系数后得到的新的评分,g(l)的含义是基于旋转距离的评分函数的输出结果;
因为由上式得到的是一个表示为距离的负值,取值范围在(-∞,0],为了得到范围在[0,1]的分数,使用超参数ζ并归一化:
κ、b是权值矩阵与偏置值;F(l)是预测的置信度;
S415,损失函数:结合S413得到的传递关系系数和S412得到的评分作为模型预测的置信度得分,损失函数L如下式所示:
损失函数为真实置信度和模型预测置信度得分之间的均方误差,从而将不确定性知识图谱的置信度信息加入嵌入空间。
进一步地,所述S42包括下述处理过程:
S421,构建候选集:固定头实体以及关系,以其他所有产业实体作为尾实体构建候选集;
S422,将候选集中的头实体、关系、尾实体分别输入不确定性知识图谱嵌入模型,输出为关系事实的置信度,构成四元组,按照阈值的方式筛选掉置信度过低的四元组并将剩下的四元组按置信度进行排序作为补全的结果。
本发明的有益效果是提供了一种面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,我们以历史调查数据通过皮尔森相关性分析方法获得产业实体间“相关”关系的置信度,通过“相关”关系的置信度对国民经济和社会发展调查领域产业实体间的潜在关系做准确的表示,在这个基础上,为了通过不确定性知识图谱嵌入模型推理补全缺失的“相关”关系事实,一方面我们通过外部数据源例如百度百科抽取产业实体有关的关系事实补充语义信息,另一方面提出了融合关系传递模式的不确定性知识图谱嵌入模性解决了传统知识图谱嵌入模型无法表达“相关”这一传递关系模式的缺陷。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的流程图。
图2是平移距离模型对传递关系事实进行建模的图。
图3是融合关系传递性的不确定性知识图谱嵌入模型的图。
图4是通过训练的模型对候选集中关系事实置信度预测并排序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,以各产业结构和调查指数为目标,通过不确定性知识图谱的形式囊括经济增长、就业、居民消费价格等子领域的产业结构,以包含置信度的“相关”关系表示产业实体的潜在联系大小,为知识驱动的问答服务提供数据基础。
首先做了以下定义及原理说明:
1,以包含置信度的不确定性知识图谱对产业实体间的“相关”关系进行表示。
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及相关属性值对,实体间通过关系相互联结,构成网状的知识结构。而在国民经济和社会发展调查领域,不同产业间的潜在联系由于具有不同的强度,无法用一个确定的方式进行表达,例如三元组(牛肉价格,相关,猪肉价格)、(牛肉价格,相关,牛乳价格),两个三元组都存在,但是后者的强度明显更高。为了解决这一问题,我们将传统知识图谱中三元组(h,r,t)拓展为四元组(h,r,t,w),其中h代表头实体、t代表尾实体、r代表头尾实体之间的关系,w代表置信度,将前面的三元组表示为四元组(牛肉价格,相关,猪肉价格,0.3)、(牛肉价格,相关,牛乳价格,0.8)。
2,基于指标数据的产业实体“相关”关系置信度计算。
各产业实体间的“相关”关系表示了其潜在的关联关系,当某一产业实体指标数据发生变化时,就会对具有“相关”关系的产业实体造成影响,而这也意味着我们可以从历史的调查指标数据中分析得到产业实体“相关”关系的置信度。皮尔森相关性系数是一种线性相关系数,计算方法为两个变量X、Y之间的协方差和两者标准差乘积的比值,用来反映两个向量线性相关程度,值介于-1到1之间,绝对值越大表明相关性越强。我们通过某两个产业实体的n个月的m种历史调查数据作为n×m维向量X、Y,计算X、Y的皮尔森相关性系数,最后将相关系数的结果作为行业实体的“相关”关系的置信度。每个月的历史调查数据有多种,比如同比价格指数、环比价格指数等。
3,解决传递关系模式的不确定性知识图谱嵌入模型。
通过皮尔森相关性方法得到的“相关”关系事实很可能是不完整的,为此我们利用不确定性知识图谱嵌入模型推理补全图谱中缺失的“相关”关系。而“相关”属于传递关系模式,当前的知识图谱嵌入模型由于无法表达传递关系模型而在这一关系事实的置信度预测上误差极大。
知识图谱嵌入模型是将知识图谱中实体和关系信息编码到低维向量空间中捕获节点和边的语义信息,然后通过评分函数给存在关系事实高的评分,给不存在关系事实低的评分,从而通过未知关系事实的嵌入向量以及评分函数预测缺失的关系事实。知识图谱嵌入模型的有效性取决于嵌入向量以及评分函数于对关系模式的表达能力。现有的知识图谱嵌入模型主要分为基于翻译距离的模型和基于语义匹配的模型。基于翻译距离的模型评分函数计算的是头实体加上几何变换后与尾实体的距离,有基于平移距离模型的TranSE系列模型和基于旋转距离模型的RotatE系列模型,基于语义匹配的模型评分函数计算的是头实体加上语义变换后与尾实体的相似度,主要有DistMult和ComplEx模型及两者的变体模型。TransE系列模型将关系建模为平移,能有效处理逆向与组合关系模式,模型RotatE系列模型通过将关系看作在复数空间中的旋转因子,可以同时处理对称、非对称、逆向、组合四个关系模式,DistMult模型将关系看作实体间的相互作用而针对处理对称关系模式,模型ComplEx引入复值嵌入实现对非对称关系进行处理。
而对于“相关关系”所属的传递关系模式,现有的知识图谱嵌入模型由于无法处理这一关系模式而在置信度预测任务上受到了极大的限制。如图2所示,以TranSE系列模型为例,TranSE系列模型将关系表示为平移,希望头实体加上关系的平移后接近尾实体,距离越近,置信度越高。四元组(羊肉价格,影响,羊乳价格,0.89)、(羊乳价格,影响,奶粉价格,0.86)是模型的训练数据的一部分,四元组(羊肉价格,影响,奶粉价格,?)是缺失的关系事实,我们希望模型预测(羊肉价格,影响,奶粉价格)置信度接近0.81。然而在向量空间对四元组(羊肉价格,影响,羊乳价格,0.89)、(羊乳价格,影响,奶粉价格,0.86)建模后,如果要求关系事实(羊肉价格,影响,奶粉价格)存在,平移距离模型要求传递关系“影响”的平移向量必须为零向量,同样的在旋转距离模型中要求旋转向量为0或者2Π,这都导致了向量空间中实体重合的问题,而这显然是不合理的,所以此时得到的模型置信度预测结果为(羊肉价格,影响,奶粉价格,0),与真实结果误差极大。为了解决这个问题,提出了融合关系传递性的不确定性知识图谱嵌入模型,设计了捕捉不同关系传递性大小的附加层,在评分层输入到损失函数之前,附加层根据关系传递性数值来调制其输出,从而让模型学习到关系的传递性从而增强不确定知识图谱的置信度预测。
4,外部数据源进行语义扩充。
由于图谱目前仅有国民经济和社会发展调查领域下各子领域的上下层次关系以及皮尔森相关性分析方法得到的“相关”关系。为了丰富图谱以及提高不确定性知识图谱嵌入模型推理未知产业实体间“相关”关系置信度的准确性,从外部数据源中抽取与产业实体相关的关系事实提供更多的语义信息,比如,原料、产地等,这些关系事实能提高嵌入空间中产业实体的向量表示的准确性从而使模型具有更好的推理效果。
图1为本发明实施一种面向国民经济和社会发展调查领域的不确定性知识图谱建模方法的流程图。如图1所示,本发明方法对应的软件模块主要包括四个模块,分别是一、上下层次四元组获取模块;二、基于历史调查数据的置信度计算模块;三、外部数据实体关系抽取模块;四、基于不确定性知识图谱嵌入模型的补全模块。
首先,本发明以已有的国民经济和社会发展调查领域下各子领域的树状层次结构建立上下层次结构四元组,对产业实体进行编码,关系设置为包括,置信度设置为1。然后基于历史调查的指标数据通过皮尔森相关性分析方法得到产业实体间的“相关”关系,并将相关系数作为置信度。为了通过不确定性知识图谱嵌入模型推理补全缺失的“相关”关系事实,一方面我们通过外部数据源例如百度百科抽取产业实体有关的关系事实补充语义信息,另一方面提出了融合关系传递模式的不确定性知识图谱嵌入模性解决了传统知识图谱嵌入模型无法表达“相关”这一传递关系模式的缺陷,从而通过模型对已有数据进行补全。
本发明具体过程如下:
一,将以已有的国民经济和社会发展调查领域下各子领域产业实体进行编码并按照原有的树状层次结构建立上下层次结构四元组。具体包括下述处理过程:
(1)实体id编码:对国民经济和社会发展调查领域的树状产业实体进行编码,将每个产业实体编码为14位的id号,其中10000000000000代表国民经济和社会发展调查领域,id号第2位代表国民经济和社会发展调查领域下各子领域实体,id号第3~14位代表各子领域下6层结构,每2位表示同一层次。
(2)按照领域树状结构建立上下层次结构四元组,关系设置为“包括”,置信度设置为1,具体形式为(产业实体m,包括,产业实体n,1)。
二,基于历史调查的指标数据计算产业实体间的相关度作为置信度,具体包括下述处理过程:
(1)将各产业n个月的m项历史调查的指标数据拼接为n×m维向量;
(2)通过皮尔森相关性分析方法计算不同产业实体向量的相关性数值,计算方法为两个变量X、Y之间的协方差和两者标准差乘积的比值;
(3)过滤选择相关性数值绝对值大于阈值(这里设置为0.3)的产业实体建立产业实体间的“相关”关系四元组并以相关性数值作为置信度。
三,外部数据源(以百度百科为例)抽取产业实体有关的关系事实补充语义信息,可以增强产业实体的向量表示,提高后续不确定性知识图谱嵌入模型补全缺失的关系的准确性,包括下述过程:
(1)以产业实体为目标爬取相关的百度百科词条信息作为抽取的数据源文本数据;
(2)输入字序列,然后将字词混合嵌入得到对应的字向量序列并加上位置嵌入后输入到12层点云动态图卷积DGCNN中进行编码,得到编码后的序列。我们输入以字为单位的文本序列,经过一个字的嵌入层后得到字向量序列;然后将文本分词,通过一个Word2Vec模型来提取对应的词向量,再将每个词的词向量重复“词的字数”遍,得到跟字向量对齐的词向量序列;最后将词向量序列经过一个矩阵变换得到跟字向量一样的维度,并将两者相加;
(3)将(2)得到的编码序列对应目标产业实体的子序列传入到一个双向LSTM模型中,得到目标产业实体的编码向量,然后加上相对位置嵌入,得到一个与上步得到的编码序列等长的向量序列;
(4)将(2)得到的编码序列传入一层SelfAttention后,将输出结果与第(3)步输出的向量序列进行拼接,将拼接后的结果传入CNN、Dense模型,对于每一种关系,都构建一个“半指针-半标注”结构来预测对应的尾实体的首、尾位置,这样就同时把关系和尾实体都预测出来,置信度设置为1。
四、解决传递关系模式的不确定性知识图谱嵌入模型
产业实体间的“相关”是明显的传递关系模式,例如(羊肉价格,相关,羊乳价格)、(羊乳价格,相关,奶粉价格)、(羊肉价格,相关,奶粉价格),而现有的知识图谱嵌入模型由于无法处理这一关系模式而在置信度预测任务上受到了极大的限制,为了解决这个问题,如图3所示,我们提出了融合关系传递性的不确定性知识图谱嵌入模型,设计了捕捉不同关系传递性大小的附加层,在评分层输入到损失函数之前,附加层根据关系传递性数值来调制其输出,从而让模型学习到关系的传递性从而增强不确定知识图谱的置信度预测。包括下述内容:
(1)嵌入层:实体关系编码:将头实体h和尾实体t映射到复数向量空间,即h,t∈Ck;
(2)评分层:通过关系的评分函数得到关系事实的评分,评分衡量了这个关系事实成立的可能性,函数值越大,事实成立的可能性越大,我们将关系r定义为复数向量空间中从头实体h到尾实体t的旋转。评分函数定义如下:
η是固定余量,代表哈达玛内积,对于存在的四元组(h,r,t,w),嵌入中的每个维度i。另外,将r∈Ck的每个元素的模长约束为|ri|=1,通过这种形式,ri就形式化为/>表示为在原始复数向量空间中逆时针旋转θr,i的弧度。
(3)附加层:对四元组数据集构建“相关”关系实体矩阵,对于实体矩阵MR,mab=1表示序号a、b的实体间存在关系“相关”,mab=0则表示序号a、b的实体间不存在关系“相关”,我们用关系矩阵法对实体矩阵做关系传递性判别计算可推导头实体h和尾实体t具有“相关”关系的传递关系链的个数作为传递关系系数u。
(4)模型置信度计算:我们把得传递关系系数加入评分层得到融合传递关系系数的新评分G(l):
G(l)=ug(l)
因为由上式得到的是一个表示为距离的负值,取值范围在(-∞,0],为了得到范围在[0,1]的分数,我们使用了一个超参数ζ并归一化:
κ、b是权值矩阵与偏置值;F(l)是预测的置信度;
(5)损失函数:组合(3)得到的传递关系系数和(2)得到的评分作为模型预测的置信度得分,损失函数如下式所示:
损失函数为真实置信度w和模型预测置信度得分之间的均方误差,从而将不确定性知识图谱的置信度信息加入嵌入空间。
(6)根据输出头实体和关系构建候选集,通过训练的模型对候选集中关系事实置信度预测并排序,具体流程如图4所示,首先固定头实体以及关系,以其他所有产业实体作为尾实体构建候选集;然后将候选集中的头实体、关系、尾实体分别输入不确定性知识图谱嵌入模型,输出为关系事实的置信度,构成四元组,按照阈值的方式筛选掉置信度过低的四元组并将剩下的四元组按置信度进行排序作为补全的结果。
不确定性知识图谱嵌入模型能根据已有四元组补全缺失的关系事实,模型的效果是本建模方法正确性的关键,为了验证不确定性知识图谱嵌入模型的有效性,我们在公开数据集上验证了模型的有效性。
公共数据集:CN15k、NL27k和PPI5k。
CN15k是ConceptNet的一个子集,包含15000个实体和241158个不确定关系事实。NL27k是NELL的一个子集,该数据集从网页中收集数据,包含了27221个实体和175412个不确定关系事实。PPI5k是蛋白质-蛋白质相互作用知识库的子集,标记了蛋白质之间的相互作用与发生的概率,包含4999个蛋白质和271,666个不确定关系事实。其中PPI5k比NL27k和CN15k关系更密切,拥有更多的传递关系事实。实验过程中我们将每个数据集分为三个部分:85%用于训练,7%用于验证,8%用于测试。我们使用Adam作为优化器,并对验证数据集上的超参数进行微调。网格搜索的超参数范围设置如下:嵌入维数k∈{125、250、500、1000},batch size∈{256,512、1024},L2正则化∈{0.001,0.003,0.005},嵌入固定余量η∈{3、6、9、12、18、24、30},实体嵌入的实部和虚部均均匀初始化,关系嵌入的相位在0和2Π之间均初始化。
实验一,置信度预测实验
我们评估了模型预测置信度的能力,在不确定性知识图谱嵌入模型性能评估中,这是一项最重要的任务:高置信度意味着高概率、高强度,从而能发掘更有价值的信息。表1报告了测试数据集中模型输出的预测置信度与真实值的均方误差(MSE)和平均绝对值误差(MAE),对比的模型包括确定性知识图谱嵌入模型ConvKB、RotatE以及不确定性知识图谱嵌入模型URGE、UKGE、SUKE、BEUrRE。
表1置信度预测实验结果
总的结果表明,我们的模型UreTran在这三个数据集上的置信度预测任务平均性能优于确定性知识图谱嵌入方法及最近的不确定性知识图谱嵌入方法,在数据集PPI5k和NL27k上UreTran取得了最佳的结果,在CN15k上取得了次优的结果。
实验二,候选集评估实验
我们固定头实体和关系,以其他所有实体作为尾实体构成候选集,模型预测候选集中的四元组的置信度并进行排序,用归一化折损累计增益算法(NDCG)来衡量预测候选集排序的合理性,NDCG是实际排序列表增益与预期排序列表增益的比值,其值范围在0到1之间,预测关系事实的排名越接近真实排名,计算出的NDCG就会更高,并且排名越高的关系事实对结果影响的权重越大,实验中我们使用了线性增益跟指数增益两个指标,线性增益跟指数增益指排名对结果影响的权重是线性增长还是指数增长。
实验结果如表2所示,我们的模型由于对传递关系模式的表达能力在所有数据集上取得了更好的结果,提高了推理的一致性,产生这一结果的原因是模型对关系模型的表达能力对这一指标影响极大,因为模型如果对某一关系事实无法表达时会将原本极大的置信度预测为极小,使得排名原本靠前的关系事实排名变得极为靠后,而在NDCG中原本排名靠前的关系事实对结果影响最大。
表2候选集评估实验结果
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (6)
1.面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,其特征在于,包括以下步骤:
S1、建立国民经济和社会发展调查领域下各子领域上下层次四元组;
S2、基于历史调查数据的产业实体间相关关系置信度计算;
S3、外部数据源抽取产业实体相关的语义四元组;
S4、以S1、S2、S3得到的四元组数据为基础,通过不确定性知识图谱嵌入模型补全产业实体缺失的相关关系,并得到置信度,具体包括以下步骤:
S41、不确定性知识图谱嵌入模型训练;
S42、缺失关系事实推理:根据输出头实体和关系构建候选集,通过S41训练的模型对候选集中关系事实置信度预测并排序。
2.根据权利要求1所述的面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,其特征在于,所述S1包括:
实体id编码:对国民经济和社会发展调查领域的树状产业实体进行编码,将每个产业实体编码为14位的id号,其中10000000000000代表国民经济和社会发展调查领域,id号第2位代表国民经济和社会发展调查领域下各子领域实体,id号第3~14位代表各子领域下6层结构,每2位表示同一层次;
按照领域树状结构建立上下层次结构四元组,关系设置为包括,置信度设置为1,具体形式为(产业实体m,包括,产业实体n,1)。
3.根据权利要求1所述的面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,其特征在于,所述S2包括下述处理过程:
S21,将各产业n个月的m项历史调查的指标数据拼接为n×m维向量;
S22,通过皮尔森相关性分析方法计算不同产业实体向量的相关性数值,计算方法为两个变量X、Y之间的协方差和两者标准差乘积的比值;
S23,过滤选择相关性数值绝对值大于阈值的产业实体建立“相关”关系四元组,以相关性数值作为置信度,具体形式为(产业实体a,相关,产业实体b,置信度wi)。
4.根据权利要求1所述的面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,其特征在于,所述S3包括:
S31,以产业实体为目标爬取外部数据源作为抽取的数据源文本数据;
S32,输入字序列,然后将字词混合嵌入得到对应的字向量序列并加上位置嵌入后输入到12层点云动态图卷积DGCNN中进行编码,得到编码后的序列;输入以字为单位的文本序列,经过一个字的嵌入层后得到字向量序列;然后将文本分词,通过一个Word2Vec模型来提取对应的词向量,再将每个词的词向量重复词的字数,得到跟字向量对齐的词向量序列;最后将词向量序列经过一个矩阵变换得到跟字向量一样的维度,并将两者相加;
S33,将S32得到的编码序列对应目标产业实体的子序列传入到一个双向LSTM模型中,得到目标产业实体的编码向量,然后加上相对位置嵌入,得到一个与步骤S32得到的编码序列等长的向量序列;
S34,将S32得到的编码序列传入一层SelfAttention后,将输出结果与步骤S33输出的向量序列进行拼接,将拼接后的结果传入CNN、Dense模型,对于每一种关系,都构建一个“半指针-半标注”结构来预测对应的尾实体的首、尾位置,同时把关系和尾实体都预测出来,置信度设置为1。
5.根据权利要求1所述的面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,其特征在于,所述S41包括下述处理过程:
S411,嵌入层:实体关系编码:将头实体h和尾实体t映射到复数向量空间Ck,即h,t∈Ck;
S412,评分层:通过关系的评分函数得到关系事实的评分,评分衡量了这个关系事实成立的可能性,函数值越大,事实成立的可能性越大,将关系r定义为复数向量空间中从头实体h到尾实体t的旋转,评分函数定义如下:
η是固定余量,○代表哈达玛内积,对于存在的四元组(h,r,t,w),嵌入中的每个维度i都有ti=hiri,另外,将r∈Ck的每个元素的模长约束为|ri|=1,通过这种形式,ri形式化为 表示在原始复数向量空间中逆时针旋转θr,i的弧度;i指实体(h,t)和关系(r)向量表示的维度i,e为自然常数;
S413,附加层:对四元组数据集构建相关关系实体矩阵,对于实体矩阵MR,mab=1表示序号a、b的实体间存在关系“相关”,mab=0则表示序号a、b的实体间不存在关系“相关”,用关系矩阵法对实体矩阵做关系传递性判别计算推导头实体h和尾实体t具有“相关”关系的传递关系链的个数作为传递关系系数u;
S414,模型置信度计算:把传递关系系数u加入评分层得到融合传递关系系数的新评分G(l):
G(l)=ug(l)
G(l)的含义是基于旋转距离的评分函数输出结果乘上附加层计算的传递关系系数后得到的新的评分,g(l)的含义是基于旋转距离的评分函数的输出结果;
因为由上式得到的是一个表示为距离的负值,取值范围在(-∞,0],为了得到范围在[0,1]的分数,使用超参数ζ并归一化:
κ、b是权值矩阵与偏置值;F(l)是预测的置信度;
S415,损失函数:结合S413得到的传递关系系数和S412得到的评分作为模型预测的置信度得分,损失函数L如下式所示:
损失函数为真实置信度和模型预测置信度得分之间的均方误差,从而将不确定性知识图谱的置信度信息加入嵌入空间。
6.根据权利要求1所述的面向国民经济和社会发展调查领域的不确定性知识图谱建模方法,其特征在于,所述S42包括下述处理过程:
S421,构建候选集:固定头实体以及关系,以其他所有产业实体作为尾实体构建候选集;
S422,将候选集中的头实体、关系、尾实体分别输入不确定性知识图谱嵌入模型,输出为关系事实的置信度,构成四元组,按照阈值的方式筛选掉置信度过低的四元组并将剩下的四元组按置信度进行排序作为补全的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211492468.8A CN116628212B (zh) | 2022-11-25 | 2022-11-25 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211492468.8A CN116628212B (zh) | 2022-11-25 | 2022-11-25 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116628212A true CN116628212A (zh) | 2023-08-22 |
CN116628212B CN116628212B (zh) | 2024-06-04 |
Family
ID=87625373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211492468.8A Active CN116628212B (zh) | 2022-11-25 | 2022-11-25 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628212B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093727A (zh) * | 2023-10-16 | 2023-11-21 | 湖南董因信息技术有限公司 | 基于时间关系感知的时序知识图谱补全方法 |
CN117114739A (zh) * | 2023-09-27 | 2023-11-24 | 数据空间研究院 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723214A (zh) * | 2020-06-09 | 2020-09-29 | 云南大学 | 一种面向模式的非功能需求知识精化方法 |
CN112348190A (zh) * | 2020-10-26 | 2021-02-09 | 福州大学 | 一种基于改进的嵌入模型suke的不确定知识图预测方法 |
CN113868432A (zh) * | 2021-09-18 | 2021-12-31 | 同济大学 | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 |
WO2022151811A1 (zh) * | 2021-01-15 | 2022-07-21 | 医渡云(北京)技术有限公司 | 基于模型的医学知识图谱的推理方法、装置、设备及介质 |
-
2022
- 2022-11-25 CN CN202211492468.8A patent/CN116628212B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723214A (zh) * | 2020-06-09 | 2020-09-29 | 云南大学 | 一种面向模式的非功能需求知识精化方法 |
CN112348190A (zh) * | 2020-10-26 | 2021-02-09 | 福州大学 | 一种基于改进的嵌入模型suke的不确定知识图预测方法 |
WO2022151811A1 (zh) * | 2021-01-15 | 2022-07-21 | 医渡云(北京)技术有限公司 | 基于模型的医学知识图谱的推理方法、装置、设备及介质 |
CN113868432A (zh) * | 2021-09-18 | 2021-12-31 | 同济大学 | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 |
Non-Patent Citations (4)
Title |
---|
PAPERWEEKLY: "论文浅尝 | 基于置信度的知识图谱表示学习框架", Retrieved from the Internet <URL:www.bing.com> * |
SM KAZEMI: "Simple embedding for link prediction in knowledge graphs", ARXIV, 26 October 2018 (2018-10-26), pages 1 - 12 * |
范淼: "基于表示学习的知识挖掘研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 2, 15 February 2019 (2019-02-15) * |
黄培馨;赵翔;方阳;朱慧明;肖卫东;: "融合对抗训练的端到端知识三元组联合抽取", 计算机研究与发展, no. 12, 15 December 2019 (2019-12-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114739A (zh) * | 2023-09-27 | 2023-11-24 | 数据空间研究院 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
CN117114739B (zh) * | 2023-09-27 | 2024-05-03 | 数据空间研究院 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
CN117093727A (zh) * | 2023-10-16 | 2023-11-21 | 湖南董因信息技术有限公司 | 基于时间关系感知的时序知识图谱补全方法 |
CN117093727B (zh) * | 2023-10-16 | 2024-01-05 | 湖南董因信息技术有限公司 | 基于时间关系感知的时序知识图谱补全方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116628212B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN116628212B (zh) | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 | |
CN108520275A (zh) | 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法 | |
Naghibi et al. | Urban growth modeling using cellular automata with multi-temporal remote sensing images calibrated by the artificial bee colony optimization algorithm | |
Ding et al. | Open-vocabulary universal image segmentation with maskclip | |
CN113610540B (zh) | 一种河蟹防伪溯源方法及系统 | |
Lu et al. | CMKT: Concept map driven knowledge tracing | |
CN109947923A (zh) | 一种基于词向量的初等数学题型自动提取方法及系统 | |
CN116310647A (zh) | 一种基于增量学习的劳保物品目标检测方法及系统 | |
Lonij et al. | Open-world visual recognition using knowledge graphs | |
Wang et al. | MechRetro is a chemical-mechanism-driven graph learning framework for interpretable retrosynthesis prediction and pathway planning | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN112001484A (zh) | 一种基于多任务深度学习的安全缺陷报告预测方法 | |
CN116882503A (zh) | 基于知识推理模型的科技创新服务决策支持方法 | |
CN111339258A (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN116226404A (zh) | 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统 | |
Zha et al. | Recognizing plans by learning embeddings from observed action distributions | |
CN115664970A (zh) | 基于双曲空间的网络异常点检测方法 | |
CN116302953A (zh) | 一种基于增强嵌入向量语义表示的软件缺陷定位方法 | |
CN115034837A (zh) | 一种基于知识图谱的产品销量预测方法、设备和介质 | |
CN114254199A (zh) | 基于二分图投影和node2vec的课程推荐方法 | |
CN116226475B (zh) | 一种添加非共现信息优化检索的方法 | |
Balouchi et al. | Graph Representation Learning In A Contrastive Framework For Community Detection | |
CN112860903B (zh) | 一种融入约束信息的远程监督关系抽取方法 | |
Kabra et al. | Student’s Performance Prediction Using Genetic Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |