CN116049381A - 一种基于知识图谱的特定目标可视化分析方法及系统 - Google Patents

一种基于知识图谱的特定目标可视化分析方法及系统 Download PDF

Info

Publication number
CN116049381A
CN116049381A CN202211667430.XA CN202211667430A CN116049381A CN 116049381 A CN116049381 A CN 116049381A CN 202211667430 A CN202211667430 A CN 202211667430A CN 116049381 A CN116049381 A CN 116049381A
Authority
CN
China
Prior art keywords
entity
event
module
reasoning
clue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211667430.XA
Other languages
English (en)
Inventor
王元卓
沈英汉
程松庆
江旭晖
胡玉龙
陈中正
李子健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202211667430.XA priority Critical patent/CN116049381A/zh
Publication of CN116049381A publication Critical patent/CN116049381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于知识图谱的特定目标可视化分析方法和系统,包括:获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。本发明提供了多领域数据综合分析的能力,提供时序线索推理、隐含线索推理功能,可以挖掘出数据库中并不存在的线索数据。

Description

一种基于知识图谱的特定目标可视化分析方法及系统
技术领域
该发明属于数据分析技术领域,尤其涉及一种基于知识图谱的特定目标可视化分析系统。
背景技术
互联网时代的崛起加快了数据的产生与传输速度,社会对分析数据的需求越来越旺盛,如何从海量数据中提取高价值信息,成为立足时代的重要手段。
数据分析作为大数据应用重要分支,通过对各领域数据进行采集、清洗、降噪、消歧、对齐等方式形成结构化数据,运用模型算法将多源异构数据进行融合和关联,构建多领域知识图谱。知识图谱作为关系分析的重要手段,以节点和边的形式展示实体之间的关联关系。从数据中检索某一个特定目标,提取多维实体画像或事件时序,以图表、关系图等可视化形式呈现,最终能够提供高效的分析能力及深度关系挖掘能力,辅助用户进行战略决策。
目前现有数据分析技术多数运用于舆情、科技、金融等领域,不同领域数据和分析维度存在很大不同,导致现有技术只能解决单一领域等数据分析,在做跨领域综合分析时能力欠缺,自适应能力差,这体现在两个方面:1、无法有效融合来自多领域的知识,导致分析特定目标维度单一;2、分析算子自适应能力差,仅面向特定领域具体业务需求,无法灵活适用于多变的分析业务需求,在遇到新的分析业务需求时需要重新设计算子。导致了数据分析技术的应用能力有限,无法满足不同领域用户对数据高效分析的需求。现有数据分析系统通常会将分析结果直接呈现出来,留给用户极大降低了可视化分析的流程,不支持人机交互式的线索挖掘,不符合用户的思维模式。
现有技术主要针对特定领域进行数据分析,在做多领域综合分析时能力欠缺,导致在做特定目标分析时,数据不全面,分析维度单一,社会关系分析有局限性。在分析方式上大多数产品以舆情数据为主,不着重分析事件中实体之间的关联关系。实体分为多种类型,比如人物、学校、企业、政府机构等,现有技术多数并未将不同实体类型数据进行融合,导致分析结果信息量有限,分析维度单一。在可视化方面,分析结果多数以图表或者关系图的方式展示,在做关系深度挖掘和细度分析时,流程不合理,不能充分展示探索过程,且不能针对特定的目标做时序事件线索分析。在展示不同节点类型时,现有技术并不支持自定义节点和边,导致分析结果展示效果不够明确,用户体验差。
发明内容
本发明的目的是解决上述现有技术在做特定目标分析时不支持多领域综合分析,且可视化分析流程不符合用户进行线索挖掘时思维逻辑的问题,提出了一种基于知识图谱的特定目标可视化分析系统。
具体来说,本发明提出了一种基于知识图谱的特定目标可视化分析方法,包括:
步骤S1、获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;
步骤S2、以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。
所述的基于知识图谱的特定目标可视化分析方法,步骤2中该关联事件包括时序事件线索推理事件;基于该特定目标和该知识图谱,通过基于事件图神经注意力网络的时序事件推理模型,预测该特定目标参与事件的趋势,得到该时序事件线索推理事件;
该时序事件推理模型包括:线索收集模块和线索推理;线索收集模块用于在由已知动态事件构造的事件知识图谱F中召回有助于推理查询q的事件线索;线索收集模块由随机游走采集器和路径编码器构成,前者的功能是依据给定的查询信息,在事件知识图谱中检索若干条从s出发的N条长度为l的路径线索,并组装为线索集;路径编码器由一个单向LSTM编码器实现,用于将随机游走采集器收集的路径编码为向量信息,并计算线索集每条路径的权重系数,以便线索推理模块进行下一步推理;线索推理模块的目标是依据线索收集模块召回有助于推理查询q的事件线索信息中,推理出隐含事件集合;线索推理模块由子图编码模块与时序推理模块构成;子图编码模块由图神经网络构成,用于理解每一时刻中线索的拓扑特征,时序推理模块由单向循环神经网络构成,用于学习线索随时间单向演化的规律,并预测时序事件的未来发展,得到该时序事件线索推理事件。
所述的基于知识图谱的特定目标可视化分析方法,该时序事件推理模型训练过程包括:
初始化实体向量、关系向量与时间向量,设置为可训练模式;对于查询q=s,r,t以及正确实体o,初始化查询表示向量为
Figure BDA0004015073830000031
从特定目标实体s出发,通过该随机游走采集器采样N条长度为l的路径线索,组装为线索集P={p0,p1,...,pN},其中N与l为自定义参数;
通过路径编码器编码线索集中的路径,对于路径p=[s,r0,t0,o0,r1,t1,o1,...,rl-1,tl-1,ol-1](其中s0=s),编码公式为(0≤k≤l-1):
tk=σ(WrΔtk+Urhk-1
Figure BDA0004015073830000032
Figure BDA0004015073830000033
上述公式中的Δtk=tk-tk-1(当k=0时,Δtk=0);tk代表时序门限控制表示,
Figure BDA0004015073830000034
代表本单元编码的语义信息,Wr,Wh与Ur,Uh代表4个映射矩阵,
Figure BDA0004015073830000035
为路径中第k步对应关系与实体向量;LSTM第k步的输出为hk
路径p对应第l-1步的输出hl-1成为该路径的编码向量p,据此,得到路径线索集的编码向量{p0,p1,...,pN};
使用Softmax计算每个编码向量对于查询的attention分值{α01,...,αN};
通过路径线索集的编码向量,得到全局线索表示
Figure BDA0004015073830000036
通过线索集P,依据路径中事件时间信息的构建查询子图序列{SG0,SG1,...,SGt-1};
使用子图编码模块的图神经网络编码子图序列中每一个子图,得到子图中的节点表示{SG0,SG1,...,SGt-1};
使用该时序推理模块的单向循环神经网络编码上述子图序列的节点表示,输出t时刻的子图节点表示SGt
结合全局线索表示
Figure BDA0004015073830000041
计算SGt中每个节点的匹配分数;
选取匹配分数最高的实体o′与正确实体o,通过二分类损失函数计算本次训练的损失,通过反向传播算法训练更新该时序事件推理模型。
所述的基于知识图谱的特定目标可视化分析方法,该步骤S1包括:
构建多源异构数据融合模型,用于根据不同数据源的提取结果,补全不同数据源实体之间的映射关系,实现各数据源的提取结果的融合,构建该知识图谱;
其中该多源异构数据融合模型包括实体表示模块与实体映射关系推理模块;
实体表示模块用于根据实体的文本描述信息、时态信息以及其邻居的结构信息来编码实体的特征,作为映射关系挖掘的依据,该实体表示模块由实体文本描述信息编码模块、时间信息编码模块和结构信息编码模块组成;实体的文本描述信息编码由预训练语言模型BERT结合神经网络全连接层实现;时间信息的编码则是使用Time2vec算法表示;而对于结构信息,则是通过将实体描述信息以及时间信息的表示进行拼接作为输入,并通过带注意力机制的图神经网络进行编码,最终将编码后得到的向量作为实体的最终表示;
该实体映射关系推理模块用于根据实体的该最终表示来推理实体之间所存在的映射关系;实体映射关系推理模块由实体表示翻译模块和实体映射匹配模块两部分组成;实体表示翻译模块由多层感知机(MLP)构成,用于将源自于不同数据源的实体的表示映射到统一的语义空间;实体映射匹配模块则是首先通过余弦相似度的方式计算不同源的实体表示匹配程度,并以匹配程度的数值为依据,进行实体映射匹配,最终得到实体之间的映射关系,实现多源异构数据融合,得到该知识图谱。
本发明还提出了一种基于知识图谱的特定目标可视化分析系统,包括:
知识图谱构建模块,用于获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;
目标可视化模块,用于以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。
所述的基于知识图谱的特定目标可视化分析系统,目标可视化模块中该关联事件包括时序事件线索推理事件;基于该特定目标和该知识图谱,通过基于事件图神经注意力网络的时序事件推理模型,预测该特定目标参与事件的趋势,得到该时序事件线索推理事件;
该时序事件推理模型包括:线索收集模块和线索推理;线索收集模块用于在由已知动态事件构造的事件知识图谱F中召回有助于推理查询q的事件线索;线索收集模块由随机游走采集器和路径编码器构成,前者的功能是依据给定的查询信息,在事件知识图谱中检索若干条从s出发的N条长度为l的路径线索,并组装为线索集;路径编码器由一个单向LSTM编码器实现,用于将随机游走采集器收集的路径编码为向量信息,并计算线索集每条路径的权重系数,以便线索推理模块进行下一步推理;线索推理模块的目标是依据线索收集模块召回有助于推理查询q的事件线索信息中,推理出隐含事件集合;线索推理模块由子图编码模块与时序推理模块构成;子图编码模块由图神经网络构成,用于理解每一时刻中线索的拓扑特征,时序推理模块由单向循环神经网络构成,用于学习线索随时间单向演化的规律,并预测时序事件的未来发展,得到该时序事件线索推理事件。
所述的基于知识图谱的特定目标可视化分析系统,该时序事件推理模型训练过程包括:
初始化实体向量、关系向量与时间向量,设置为可训练模式;对于查询q=(s,r,t)以及正确实体o,初始化查询表示向量为
Figure BDA0004015073830000051
从特定目标实体s出发,通过该随机游走采集器采样N条长度为l的路径线索,组装为线索集P={p0,p1,...,PN},其中N与l为自定义参数;
通过路径编码器编码线索集中的路径,对于路径p=[s,r0,t0,o0,r1,t1,o1,...,r-1,tl-1,ol-1](其中s0=s),编码公式为(0≤k≤l-1):
tk=σ(WrΔtk+Urhk-1)
Figure BDA0004015073830000052
Figure BDA0004015073830000053
上述公式中的Δtk=tk-tk-1(当k=0时,Δtk=0);tk代表时序门限控制表示,
Figure BDA0004015073830000061
代表本单元编码的语义信息,Wr,Wh与Ur,Uh代表4个映射矩阵,
Figure BDA0004015073830000062
为路径中第k步对应关系与实体向量;LSTM第k步的输出为hk
路径p对应第l-1步的输出hl-1成为该路径的编码向量p,据此,得到路径线索集的编码向量{p0,p1,...,pN};
使用Softmax计算每个编码向量对于查询的attention分值{α01,...,αN};
通过路径线索集的编码向量,得到全局线索表示
Figure BDA0004015073830000063
通过线索集P,依据路径中事件时间信息的构建查询子图序列{SG0,SG1,...,SGt-1};
使用子图编码模块的图神经网络编码子图序列中每一个子图,得到子图中的节点表示{SG0,SG1,...,SGt-1};
使用该时序推理模块的单向循环神经网络编码上述子图序列的节点表示,输出t时刻的子图节点表示SGt
结合全局线索表示
Figure BDA0004015073830000064
计算SGt中每个节点的匹配分数;
选取匹配分数最高的实体o′与正确实体o,通过二分类损失函数计算本次训练的损失,通过反向传播算法训练更新该时序事件推理模型。
所述的基于知识图谱的特定目标可视化分析系统,该知识图谱构建模块包括:
构建多源异构数据融合模型,用于根据不同数据源的提取结果,补全不同数据源实体之间的映射关系,实现各数据源的提取结果的融合,构建该知识图谱;
其中该多源异构数据融合模型包括实体表示模块与实体映射关系推理模块;
实体表示模块用于根据实体的文本描述信息、时态信息以及其邻居的结构信息来编码实体的特征,作为映射关系挖掘的依据,该实体表示模块由实体文本描述信息编码模块、时间信息编码模块和结构信息编码模块组成;实体的文本描述信息编码由预训练语言模型BERT结合神经网络全连接层实现;时间信息的编码则是使用Time2vec算法表示;而对于结构信息,则是通过将实体描述信息以及时间信息的表示进行拼接作为输入,并通过带注意力机制的图神经网络进行编码,最终将编码后得到的向量作为实体的最终表示;
该实体映射关系推理模块用于根据实体的该最终表示来推理实体之间所存在的映射关系;实体映射关系推理模块由实体表示翻译模块和实体映射匹配模块两部分组成;实体表示翻译模块由多层感知机(MLP)构成,用于将源自于不同数据源的实体的表示映射到统一的语义空间;实体映射匹配模块则是首先通过余弦相似度的方式计算不同源的实体表示匹配程度,并以匹配程度的数值为依据,进行实体映射匹配,最终得到实体之间的映射关系,实现多源异构数据融合,得到该知识图谱。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于知识图谱的特定目标可视化分析方法的程序。
本发明还提出了一种客户端,用于所述任意一种基于知识图谱的特定目标可视化分析系统。
本发明通过对多源异构数据进行融合,形成基础库,该基础库不限领域,数据包含但不限于人物、学校、企业、政府机构、民盟组合等类型数据。通过模型算法分析实体之间的关联关系,结合动态事件所涉及的实体信息,构建知识图谱。按照用户的思维逻辑,本发明支持按实体和事件进行特定目标检索,提供实体画像分析、事件画像分析、关系分析、实体与事件关联分析,隐含线索挖掘等多种分析工具。用户在进行特定目标关联关系分析时,可以自由划定检索范围(如检索实体或检索事件),从算子库中选中适合当前业务的算子,自主切换视图布局,按类型或选中范围自定义节点样式,从而达到更高的可视化分析效果。在分析过程中,本发明可以对检索目标进行细度检索,排除冗余目标,辅助用户获取更加准确的分析结果。因为本发明的可视化分析流程源于用户的思维模式,有助于提高分析效率,挖掘更多高价值的隐含线索。
由以上方案可知,本发明的优点在于:
本发明与现有技术相比,提供了多领域数据综合分析的能力,所设计的可视化分析流程更加符合用户的思维模式,满足从特定目标检索到关联线索发现的探索步骤,本发明提供时序线索推理、隐含线索推理功能,可以挖掘出数据库中并不存在的线索数据。提高了分析效率和用户体验,便于挖掘推理高价值隐含线索。
附图说明
图1为知识图谱构建图;
图2为基于知识图谱的可视化分析流程图。
具体实施方式
在研究对多领域数据特定目标综合线索挖掘和可视化展示时,发现如果将采集到的海量实体信息作为基础数据,将多源异构数据进行融合和关联,结合不同的领域场景和动态事件,能够解决现有技术进行特定目标分析时分析领域与分析维度单一的问题。
在做特定目标线索挖掘流程可视化研究时,该发明以融合多源异构数据为基础,构建多领域知识图谱;以任务为导向,挖掘特定目标线索,从目标检索这一功能点出发,通过设计实体画像分析、关系分析、观点分析、多跳关联实体分析、时序线索挖掘、隐含线索挖掘等分析原型引擎,业务逻辑更加符合用户的思维模式与使用业务流程。此外,用户在使用分析原型引擎时,可以按照所需关系分析作为线索挖掘的重要模块,采用更加合理的布局算法、样式分层、自定义节点、算子库等方式能够提升分析效率和结果输出。按照用户的思维逻辑去设计,有利于提高分析效率和挖掘隐含线索。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明包括两部分,即构建包括实体数据和动态事件数据的多领域知识图谱,以及基于上述多领域知识图谱的特定目标线索发现可视化分析。
本发明设计的多领域知识图谱构建流程图如附件图1所示,下面陈述流程步骤:
步骤1、实体数据与动态事件采集
本发明需要采集的数据包含两类,即实体和动态事件。采集的实体数据主要包含各领域智库学者、企业高管、企业、学校、政府组织、民盟组织、意见领袖、社交账号等,通过模型算法对实体进行分类和标签化,以便构建多领域知识图谱,服务于特定目标线索发现可视化分析。采集的动态事件主要包含新闻动态、社交言论、官方网站等,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类,通过关键词匹配等方式对文本关键信息进行提取,识别文本中所提及的人、事、物等实体,抽取实体之间存在的关系,以及事件发生的时间、地点等论元信息,初步构建多领域知识图谱。
步骤2、多源异构数据融合
在业务需求中需要深度结合来自不同数据源的异构数据用于后续线索分析,因此需要模型依据已有的描述信息来补全不同数据源实体之间的映射关系,实现融合。据此,本发明设计一种基于图神经网络的多源异构数据融合模型。
该模型的输入为:
来自不同数据源、需要融合的知识图谱KG1=(E1,R1,Q1,T1),KG2=(E2,R2,Q2,T2),其中E代表实体集合,R代表关系集合,Q代表事实集合。事实q∈Q表示为(ehead,r,etail,t),其中,ehead,etail,r和t分别代表头实体、尾实体、关系以及动态事件发生的时间,ehead,etail∈E,r∈R,t∈T。
该模型的输出为:
KG1与KG2中实体之间的映射关系{(e′0,e0),(e′1,e1),…(e′n,en)},其中e′0,e′1,…,e′n∈E1,e0,e1,…,en∈E2
模型结构功能:
该模型分为实体表示与实体映射关系推理两个模块。
实体表示模块的目标是根据实体的文本描述信息、时态信息以及其邻居的结构信息来编码实体的特征,作为映射关系挖掘的依据。实体表示模块由实体文本描述信息编码模块、时间信息编码模块和结构信息编码模块组成。实体的文本描述信息编码由预训练语言模型BERT结合神经网络全连接层实现;时间信息的编码则是使用Time2vec算法表示;而对于结构信息,则是通过将实体描述信息以及时间信息的表示进行拼接作为输入,并通过带注意力机制的图神经网络进行编码。最终,将编码后得到的向量作为实体的最终表示,并用作下一步映射关系推理。
实体映射关系推理模块的目标是根据实体的表示来推理实体之间所存在的映射关系。实体映射关系推理模块由实体表示翻译模块和实体映射匹配模块两部分组成。实体表示翻译模块由多层感知机(MLP)构成,其功能是将源自于不同数据源的实体的表示映射到统一的语义空间;实体映射匹配模块则是首先通过余弦相似度的方式计算不同源的实体表示匹配程度,并以匹配程度的数值为依据,结合Sinkhorn算法进行实体映射匹配,最终得到实体之间的映射关系,实现多源异构数据融合。
模型训练方法:
该模型训练过程如下:
步骤(1):将不同数据源的知识图谱中,实体的文本描述信息、时间信息以及结构信息作为输入。
步骤(2):通过预训练语言模型BERT,对于实体的文本描述信息进行编码,得到关于实体文本描述信息的高维表示,并通过神经网络全连接层进行降维,得到实体名称信息的表示
Figure BDA0004015073830000101
其中n为知识图谱中实体的数目。
步骤(3):通过Time2Vec算法对于时间信息进行表示,公式为:
Figure BDA0004015073830000102
上述公式中的t2v(.)是编码器,k为时间信息表示的维度数,ωi
Figure BDA0004015073830000103
是可学习的参数,给定时间t,通过上述编码方式能够得到相对应的表示
Figure BDA0004015073830000104
其中n为知识图谱中实体的数目。
步骤(4):将实体名称信息的表示
Figure BDA0004015073830000105
和时间信息的表示
Figure BDA0004015073830000106
拼接,作为输入,并使用图注意力神经网络GAT计算实体结构信息的表示,其具体包括信息传递模块、注意力权重模块以及信息聚合模块,具体公式如下:
信息传递部分计算目标节点o向源节点s传递的交互消息表示,根据节点的类型φ和边的类型ψ进行转化,形式化表示如下:
Figure BDA0004015073830000107
,其中l代表网络层数,WM和WMSG为根据节点和边类型选择的信息传递映射矩阵。
注意力权重计算部分用于衡量目标节点o向源节点s传递的交互消息重要性程度,形式化表示如下:
Figure BDA0004015073830000108
,其中WQ和WATT为根据节点和边类型选择的注意力权重计算映射矩阵。
最终根据信息传递以及注意力权重进行信息聚合,表示如下:
Figure BDA0004015073830000109
通过多层的图神经网络对于实体的表示进行更新,最终学习到的实体表示既包括实体的文本描述信息、时间信息,也包括通过图神经网络捕获到的实体周围的结构信息。
步骤(5):对于两个需要融合的知识图谱,对其中的实体进行两两比较,通过余弦相似度的方式,计算实体表示的相似程度。
步骤(6):通过Sinkhorn算法进行实体映射匹配,得到KG1与KG2中实体之间的映射关系{(e'0,e0),(e'1,e1),…(e'n,en)}。
步骤(7):比对预测得到的映射关系以及正确的映射关系,通过交叉熵损失函数计算本次训练损失,通过反向传播算法修正模型参数。
模型推理步骤:
同上述步骤(1)至步骤(6).
模型结果:
该模型的实体文本描述信息编码模块、时间信息编码模块和结构信息编码模块能够综合利用多源异构数据中的实体文本描述信息、时间信息以及图结构信息,帮助推理不同源实体之间所存在的映射关系,且在实际应用场景中存在部分数据噪音或缺失的条件下,避免某一类数据缺失而导致无法得到实体表示的问题。模型最后所得到的实体对之间映射关系集合能够帮助业务人员更为全面地分析特定目标,综合不同来源的线索,服务于后续的线索推理等业务需求。
步骤3、新建分析任务
用户可以根据业务新建分析任务,分析任务可包含任务名称、任务标签、任务描述、分析结果、创建时间等字段,用于记录对特定目标的线索发现记录和分析结果。
步骤4、特定目标检索
在新建分析任务后,进入特定目标检索步骤。目标检索分为实体检索和事件检索两类。按实体检索时,可以按照“一个人”、“一类人”、“一群人”等三类模式进行检索,检索的目标是从检索结果中勾选目标实体进行分析:
“一个人”是具有唯一标识属性的人员实体,这个人员的实际身份一定是唯一的,但可以拥有若干个虚拟身份,通过“人员检索框”进行检索,输入一个人的姓名/ID/昵称等,检索出这个人的实际身份,以及可能在不同平台对应的虚拟身份。
“一类人”是具有一个或多个共同属性的人员实体,通过“类别检索框”进行检索。“类别检索框”的输入框为可变个数的(1个或任意多个),用于不同个数、类别属性组合的检索。属性可以是数值、字符串或类别属性,也可以使用模糊匹配、自然语言表述形式进行检索。在输入需要检索的类别特征后,此后操作区会显示符合检索条件的人员。
“一群人”是多个通过其他实体/事件间接关联的人员实体,通过“群体检索框”进行检索。首先需要在“群体检索框”中查找关联的实体/事件(1个或多个),并点击相应的关联实体/事件进行检索,此后操作区会显示符合检索条件的人员(即“一群人”)。
按事件检索时,用户可以按照事件关键词、时间范围、标签等检索事件,在系统返回的备选事件中,选择目标事件进行画像分析(步骤5),同时支持将多个疑似事件涉及的所有实体以列表的形式展示出来,进行实体分析。
步骤5、事件画像分析
在步骤4的事件检索选定特定目标事件后,事件画像分析包含事件详情、重大节点时序、言论关键词词云、涉及地点、涉及人物、涉及组织、相似事件推荐等分析模块,全方面展示特定目标事件详情辅助用户对事件发生前因后果进行追溯。支持对事件信息进行编辑,提高事件相关信息的精准度。
步骤6、获取目标实体
通过目标检索,用户依据自身需求,从步骤4“特定目标检索”中返回的实体结果中勾选出待分析实体,以进行观点分析(步骤7)、实体画像分析(步骤8)、关系分析(步骤9)。
步骤7、观点分析
在步骤4实体检索选中特定目标实体后,用户可以对特定目标实体进行观点分析。观点分析的目的是分析特定目标实体对关联实体或者事件的情感倾向,本发明采用文本情感极性分析模型作为观点分析步骤的基础模块,通过分析动态事件库中检索的与特定目标实体具有关联的实体、事件对应的文本信息,以判断特定目标实体对上述实体、事件的情感极性值。考虑到特定目标实体的情感可能会随时间改变,本发明利用折线图表达目标实体情感倾向发展趋势,折线图的横轴对应时间,纵轴范围为[-1,1],代表观点的极性值,-1代表完全消极,1代表完全积极;折线图中的点代表特定目标的情感值;本发明可对事件观点进行溯源,辅助用户明确情感走势的原因。通过情感分析模型算法,对特定目标对该实体或事件未来的情感走势进行预测。
步骤8、实体画像分析
在步骤4实体检索选中特定目标实体后,用户可以对特定目标进行实体画像分析。根据特定目标的不同,实体画像分析包含人员分析和组织分析两类。人员分析是对“一个人”模式进行分析,包含人员基础信息、个人履历、个人能力、标签、社交关键词、参与重要活动、核心观点、社会关系图谱、最新动态、社交活跃度等模块。组织分析则是对“一类人”模式和“一群人”模式进行分析,包含组织基础信息、组织演变信息、组织核心成员架构、标签、关键词、核心观点、成员分析、社会关系图谱等模块。利用饼图、折线图、雷达图、关系图、词云、气泡图等多种图表从多维度展示特定目标的多维度分析结果,形成实体画像。
步骤9、关系分析
在步骤4选中特定目标后,用户可以对特定目标进行关系分析。关系分析可直接体现特定目标实体多个实体之间或者实体与事件的关联关系,以节点和边形式展示,节点标注实体的名称与类别,关系标注关系类型。
由于多领域知识图谱中的实体存在多种类型,为了更直观地展示节点类型,本发明支持自定义节点图标、颜色、大小、形状等样式,默认按类型进行样式区分。同时支持不同类型边的颜色、形状、显示属性调整。在关系图布局方面不但提供常见的力导布局、栅格布局、环形布局、同心圆布局、辐射布局,针对知识图谱中实体类型多样的特点新增了聚类分层布局,对不同类型的节点进行聚类分层展示,方便查看同类型实体,提高多样化的分析效果。
针对常见的业务场景,本发明在步骤9中提供了算法工具库功能,提供包含路径分析、按属性筛选节点、权重分析等算法工具,辅助用户一键快速获取想要分析的结果。
步骤10、多跳关联实体分析
多跳关联实体分析是指通过节点拓展等方法展示与特定目标实体具有关系的其他实体,以及多跳关系路径。在步骤9所述关系分析中,仅展示与特定目标实体具有单条关联的实体,展示内容有限。在该步骤中,用户可自定义跳数H(H>1,且为整数),系统依托步骤9的输出结果在多领域知识图谱中检索与特定目标实体距离H跳的实体,随着关系不断的拓展,会发现更多关于目标实体的多级社会关系及背景信息。右键点击节点可以看到常见分析工具的快速入口,以菜单的形式罗列常用功能,增加分析效率和易用性。为了方便展示,本发明在步骤10中提供了社群发现功能,方便将挖掘出的多跳关联实体划分不同社区后展示,以便用户了解实体之间的亲疏关系。
步骤11、时序事件线索推理
在业务需求中需要依据特定目标实体历史事件线索预测实体未来发展趋势,因此需要模型依据已采集的时序事件(下简称为“事件”)线索数据预测实体未来演化趋势。基于此,本发明在此设计一种基于事件图神经注意力网络的时序事件线索推理模型。
该模型的输入为:
(1)查询q=s,r,t,其包含特定目标实体s,特定关系类型r与预测时间t;
(2)事件知识图谱F={f0,f1,...,,fi},其中线索事件fi表示为(si,ri,oi,ti)的形式,其中si表示事件的头实体,ri表示事件的关系类型,oi表示为事件的尾实体,ti表示为事件的时间信息。
该模型的输出为:
推理出的j个与查询q相关的隐含事件集合F'={f'0,f'1,...f'j},其中线索事件f'j表示为(s,r,oj,t)。
模型结构功能:
该模型分为线索收集与线索推理两个模块。
线索收集模块的目标是在由已知动态事件构造的事件知识图谱F中召回有助于推理查询q的事件线索;线索收集模块由随机游走采集器和路径编码器构成,前者的功能是依据给定的查询信息,在事件知识图谱中检索若干条从s出发的N条长度为l的路径线索,并组装为线索集;路径编码器由一个单向LSTM编码器实现,其功能是将随机游走采集器收集的路径编码为向量信息,并计算线索集每条路径的权重系数,以便线索推理模块进行下一步推理。
线索推理模块的目标是依据线索收集模块召回有助于推理查询q的事件线索信息中,推理出隐含事件集合。线索推理模块由子图编码模块与时序推理模块构成。子图编码模块由图神经网络构成,其功能是理解每一时刻中线索的拓扑特征,时序推理模块由单向循环神经网络构成,其功能是学习线索随时间单向演化的规律,并预测时序事件线索未来的发展趋势。
模型训练方法:
该模型训练过程如下:
步骤(1):初始化实体向量、关系向量与时间向量,设置为可训练模式;对于查询q=s,r,t以及正确实体o,初始化查询表示向量为
Figure BDA0004015073830000151
步骤(2):从特定目标实体s出发,通过随机游走采集器采样N条长度为l的路径,组装为路径线索集P={p0,p1,...,pN},其中N与l为自定义参数;
步骤(3):通过路径编码器编码线索集中的路径,对于路径p=[s,r0,t0,o0,r1,t1,o1,...,rl-1,tl-1,ol-1],编码公式为(0≤k≤l-1):
tk=σ(WrΔtk+Urhk-1
Figure BDA0004015073830000152
Figure BDA0004015073830000153
上述公式中的Δtk=tk-tk-1(当k=0时,Δtk=0),tk代表时序门限控制表示,
Figure BDA0004015073830000154
代表本单元编码的语义信息,其中Wr,Wh与Ur,Uh代表4个映射矩阵,
Figure BDA0004015073830000155
为路径中第k步对应关系与实体向量;LSTM第k步的输出为hk
最终,路径p对应第l-1步的输出h1-1成为该路径的编码向量p。据此,本发明得到路径线索集的编码向量{p0,p1,...,pN}.
步骤(4):使用Softmax计算每个编码向量对于查询的attention分值{α01,...,αN}.
步骤(5):通过路径线索集的编码向量,计算全局线索表示
Figure BDA0004015073830000156
Figure BDA0004015073830000157
步骤(6):通过线索集P,依据路径中事件时间信息的构建查询子图序列{SG0,SG1,...,SGt-1}.
步骤(7):使用子图编码模块的图神经网络编码子图序列中每一个子图,得到子图中的节点表示{SG0,SG1,...,SGt-1}.
步骤(8):使用时序推理模块的单向循环神经网络(RNN)编码上述子图序列的节点表示,输出t时刻的子图节点表示SGt.
步骤(9):结合全局线索表示
Figure BDA0004015073830000158
计算SGt中每个节点的匹配分数,并为节点的匹配分数排序;
步骤(10):选取预测rank为1的实体o'与正确实体o,通过二分类损失函数计算本次训练的损失,通过反向传播算法修正模型参数与节点、关系、时间表示向量。
模型推理步骤:
同上述步骤(1)至步骤(8).
步骤(9)中输出匹配分数排名前j名(j可由用户指定)的实体集合,构建隐含事件集合作为输出。
模型结果:
时序事件线索推理可以预测特定目标人员未来参与事件的趋势,如人员之间社交关联建立、开展团伙行为等。该模型在线索收集模块中筛选与有助于推理查询q的事件线索以进行下一阶段的线索推理,并计算线索的权重值,有助于在推理过程中避免弱相关或不相关的事件线索被选中以降低推理模型效率;在线索推理模块中使用了图神经网络编码子图特征,并使用单向循环神经网络学习子图之间的时序特征,增强了推理能力,并在时序线索推理中达到了更优的效果。
步骤12、隐含线索推理
考虑到数据源的局限性,以及信息抽取模型存在的误差,无法确保步骤1中的数据采集步骤包含全量知识,需要通过隐含线索推理步骤来挖掘隐含线索。隐含线索推理是指依托步骤1、2中构建与融合的多领域知识图谱与步骤10返回的多跳关联实体、多跳关系路径等结果,通过PRA等规则挖掘算法发现实体间的隐含关系,而该隐含关系并不存在于多领域知识图谱中。隐含线索推理步骤的原理是通过两个并不直接存在明显关系的实体A、B之间间接存在的多跳关系路径推理A、B之间隐含的直接关联。比如实体A与实体B存在多跳关系路径“A-出生地-檀香山-位于-夏威夷-位于-B”,可由此推理出隐含线索“(A,国籍,B)”通过隐含线索推理步骤,可以补充并完善特定目标关联知识,以便用户全面分析特定目标实体。
步骤13、关系分析任务保存
本发明可以将上述步骤10至步骤12形成的关系类分析成果保存至所选分析任务中,以便可以随时查看分析结果,进行分析研判,同时可以在此基础上进行阶段性探索。
步骤14、线索发现
最终用户通过步骤7、步骤8、步骤13的分析结果,对检索目标进行分析研判,得到高价值的特定目标关联线索。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于知识图谱的特定目标可视化分析系统,包括:
知识图谱构建模块,用于获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;
目标可视化模块,用于以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。
所述的基于知识图谱的特定目标可视化分析系统,目标可视化模块中该关联事件包括时序事件线索推理事件;基于该特定目标和该知识图谱,通过基于事件图神经注意力网络的时序事件推理模型,预测该特定目标参与事件的趋势,得到该时序事件线索推理事件;
该时序事件推理模型包括:线索收集模块和线索推理;线索收集模块用于在由已知动态事件构造的事件知识图谱F中召回有助于推理查询q的事件线索;线索收集模块由随机游走采集器和路径编码器构成,前者的功能是依据给定的查询信息,在事件知识图谱中检索若干条从s出发的N条长度为l的路径线索,并组装为线索集;路径编码器由一个单向LSTM编码器实现,用于将随机游走采集器收集的路径编码为向量信息,并计算线索集每条路径的权重系数,以便线索推理模块进行下一步推理;线索推理模块的目标是依据线索收集模块召回有助于推理查询q的事件线索信息中,推理出隐含事件集合;线索推理模块由子图编码模块与时序推理模块构成;子图编码模块由图神经网络构成,用于理解每一时刻中线索的拓扑特征,时序推理模块由单向循环神经网络构成,用于学习线索随时间单向演化的规律,并预测时序事件的未来发展,得到该时序事件线索推理事件。
所述的基于知识图谱的特定目标可视化分析系统,该时序事件推理模型训练过程包括:
初始化实体向量、关系向量与时间向量,设置为可训练模式;对于查询q=(s,r,t)以及正确实体o,初始化查询表示向量为
Figure BDA0004015073830000181
从特定目标实体s出发,通过该随机游走采集器采样N条长度为l的路径线索,组装为线索集P={p0,p1,...,pN},其中N与l为自定义参数;
通过路径编码器编码线索集中的路径,对于路径p=[s,r0,t0,o0,r1,t1,o1,...,rl-1,tl-1,ol-1](其中s0=s),编码公式为(0≤k≤l-1):
tk=σ(WrΔtk+Urhk-1)
Figure BDA0004015073830000182
Figure BDA0004015073830000183
上述公式中的Δtk=tk-tk-1(当k=0时,Δtk=0);tk代表时序门限控制表示,
Figure BDA0004015073830000184
代表本单元编码的语义信息,wr,Wh与Ur,Uh代表4个映射矩阵,
Figure BDA0004015073830000185
为路径中第k步对应关系与实体向量;LSTM第k步的输出为hk
路径p对应第l-1步的输出hl-1成为该路径的编码向量p,据此,得到路径线索集的编码向量{p0,p1,...,pN};
使用Softmax计算每个编码向量对于查询的attention分值{α01,...,αN};
通过路径线索集的编码向量,得到全局线索表示
Figure BDA0004015073830000186
通过线索集P,依据路径中事件时间信息的构建查询子图序列{SG0,SG1,...,SGt-1};
使用子图编码模块的图神经网络编码子图序列中每一个子图,得到子图中的节点表示{SG0,SG1,...,SGt-1};
使用该时序推理模块的单向循环神经网络编码上述子图序列的节点表示,输出t时刻的子图节点表示SGt
结合全局线索表示
Figure BDA0004015073830000187
计算SGt中每个节点的匹配分数;
选取匹配分数最高的实体o′与正确实体o,通过二分类损失函数计算本次训练的损失,通过反向传播算法训练更新该时序事件推理模型。
所述的基于知识图谱的特定目标可视化分析系统,该知识图谱构建模块包括:
构建多源异构数据融合模型,用于根据不同数据源的提取结果,补全不同数据源实体之间的映射关系,实现各数据源的提取结果的融合,构建该知识图谱;
其中该多源异构数据融合模型包括实体表示模块与实体映射关系推理模块;
实体表示模块用于根据实体的文本描述信息、时态信息以及其邻居的结构信息来编码实体的特征,作为映射关系挖掘的依据,该实体表示模块由实体文本描述信息编码模块、时间信息编码模块和结构信息编码模块组成;实体的文本描述信息编码由预训练语言模型BERT结合神经网络全连接层实现;时间信息的编码则是使用Time2vec算法表示;而对于结构信息,则是通过将实体描述信息以及时间信息的表示进行拼接作为输入,并通过带注意力机制的图神经网络进行编码,最终将编码后得到的向量作为实体的最终表示;
该实体映射关系推理模块用于根据实体的该最终表示来推理实体之间所存在的映射关系;实体映射关系推理模块由实体表示翻译模块和实体映射匹配模块两部分组成;实体表示翻译模块由多层感知机(MLP)构成,用于将源自于不同数据源的实体的表示映射到统一的语义空间;实体映射匹配模块则是首先通过余弦相似度的方式计算不同源的实体表示匹配程度,并以匹配程度的数值为依据,进行实体映射匹配,最终得到实体之间的映射关系,实现多源异构数据融合,得到该知识图谱。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于知识图谱的特定目标可视化分析方法的程序。
本发明还提出了一种客户端,用于所述任意一种基于知识图谱的特定目标可视化分析系统。

Claims (10)

1.一种基于知识图谱的特定目标可视化分析方法,其特征在于,包括:
步骤S1、获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;
步骤S2、以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。
2.如权利要求1所述的基于知识图谱的特定目标可视化分析方法,其特征在于,步骤2中该关联事件包括时序事件线索推理事件;基于该特定目标和该知识图谱,通过基于事件图神经注意力网络的时序事件推理模型,预测该特定目标参与事件的趋势,得到该时序事件线索推理事件;
该时序事件推理模型包括:线索收集模块和线索推理;线索收集模块用于在由已知动态事件构造的事件知识图谱F中召回有助于推理查询q的事件线索;线索收集模块由随机游走采集器和路径编码器构成,前者的功能是依据给定的查询信息,在事件知识图谱中检索若干条从s出发的N条长度为l的路径线索,并组装为线索集;路径编码器由一个单向LSTM编码器实现,用于将随机游走采集器收集的路径编码为向量信息,并计算线索集每条路径的权重系数,以便线索推理模块进行下一步推理;线索推理模块的目标是依据线索收集模块召回有助于推理查询q的事件线索信息中,推理出隐含事件集合;线索推理模块由子图编码模块与时序推理模块构成;子图编码模块由图神经网络构成,用于理解每一时刻中线索的拓扑特征,时序推理模块由单向循环神经网络构成,用于学习线索随时间单向演化的规律,并预测时序事件的未来发展,得到该时序事件线索推理事件。
3.如权利要求2所述的基于知识图谱的特定目标可视化分析方法,其特征在于,该时序事件推理模型训练过程包括:
初始化实体向量、关系向量与时间向量,设置为可训练模式;对于查询q=(s,r,t)以及正确实体o,初始化查询表示向量为
Figure FDA0004015073820000011
从特定目标实体s出发,通过该随机游走采集器采样N条长度为l的路径线索,组装为线索集P={p0,p1,...,pN},其中N与l为自定义参数;
通过路径编码器编码线索集中的路径,对于路径p=[s,r0,t0,o0,r1,t1,o1,...,rl-1,tl-1,ol-1](其中s0=s),编码公式为(0≤k≤l-1):
tk=σ(WrΔtk+Urhk-1)
Figure FDA0004015073820000021
Figure FDA0004015073820000022
上述公式中的Δtk=tk-tk-1(当k=0时,Δtk=0);tk代表时序门限控制表示,
Figure FDA0004015073820000023
代表本单元编码的语义信息,Wr,Wh与Ur,Uh代表4个映射矩阵,
Figure FDA0004015073820000024
为路径中第k步对应关系与实体向量;LSTM第k步的输出为hk
路径p对应第l-1步的输出hl-1成为该路径的编码向量p,据此,得到路径线索集的编码向量{p0,p1,...,pN};
使用Softmax计算每个编码向量对于查询的attention分值{α01,...,αN};
通过路径线索集的编码向量,得到全局线索表示
Figure FDA0004015073820000025
通过线索集P,依据路径中事件时间信息的构建查询子图序列{SG0,SG1,...,SGt-1};
使用子图编码模块的图神经网络编码子图序列中每一个子图,得到子图中的节点表示{SG0,SG1,...,SGt-1};
使用该时序推理模块的单向循环神经网络编码上述子图序列的节点表示,输出t时刻的子图节点表示SGt
结合全局线索表示
Figure FDA0004015073820000026
计算SGt中每个节点的匹配分数;
选取匹配分数最高的实体o′与正确实体o,通过二分类损失函数计算本次训练的损失,通过反向传播算法训练更新该时序事件推理模型。
4.如权利要求1所述的基于知识图谱的特定目标可视化分析方法,其特征在于,该步骤S1包括:
构建多源异构数据融合模型,用于根据不同数据源的提取结果,补全不同数据源实体之间的映射关系,实现各数据源的提取结果的融合,构建该知识图谱;
其中该多源异构数据融合模型包括实体表示模块与实体映射关系推理模块;
实体表示模块用于根据实体的文本描述信息、时态信息以及其邻居的结构信息来编码实体的特征,作为映射关系挖掘的依据,该实体表示模块由实体文本描述信息编码模块、时间信息编码模块和结构信息编码模块组成;实体的文本描述信息编码由预训练语言模型BERT结合神经网络全连接层实现;时间信息的编码则是使用Time2vec算法表示;而对于结构信息,则是通过将实体描述信息以及时间信息的表示进行拼接作为输入,并通过带注意力机制的图神经网络进行编码,最终将编码后得到的向量作为实体的最终表示;
该实体映射关系推理模块用于根据实体的该最终表示来推理实体之间所存在的映射关系;实体映射关系推理模块由实体表示翻译模块和实体映射匹配模块两部分组成;实体表示翻译模块由多层感知机(MLP)构成,用于将源自于不同数据源的实体的表示映射到统一的语义空间;实体映射匹配模块则是首先通过余弦相似度的方式计算不同源的实体表示匹配程度,并以匹配程度的数值为依据,进行实体映射匹配,最终得到实体之间的映射关系,实现多源异构数据融合,得到该知识图谱。
5.一种基于知识图谱的特定目标可视化分析系统,其特征在于,包括:
知识图谱构建模块,用于获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;
目标可视化模块,用于以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。
6.如权利要求5所述的基于知识图谱的特定目标可视化分析系统,其特征在于,目标可视化模块中该关联事件包括时序事件线索推理事件;基于该特定目标和该知识图谱,通过基于事件图神经注意力网络的时序事件推理模型,预测该特定目标参与事件的趋势,得到该时序事件线索推理事件;
该时序事件推理模型包括:线索收集模块和线索推理;线索收集模块用于在由已知动态事件构造的事件知识图谱F中召回有助于推理查询q的事件线索;线索收集模块由随机游走采集器和路径编码器构成,前者的功能是依据给定的查询信息,在事件知识图谱中检索若干条从s出发的N条长度为l的路径线索,并组装为线索集;路径编码器由一个单向LSTM编码器实现,用于将随机游走采集器收集的路径编码为向量信息,并计算线索集每条路径的权重系数,以便线索推理模块进行下一步推理;线索推理模块的目标是依据线索收集模块召回有助于推理查询q的事件线索信息中,推理出隐含事件集合;线索推理模块由子图编码模块与时序推理模块构成;子图编码模块由图神经网络构成,用于理解每一时刻中线索的拓扑特征,时序推理模块由单向循环神经网络构成,用于学习线索随时间单向演化的规律,并预测时序事件的未来发展,得到该时序事件线索推理事件。
7.如权利要求6所述的基于知识图谱的特定目标可视化分析系统,其特征在于,该时序事件推理模型训练过程包括:
初始化实体向量、关系向量与时间向量,设置为可训练模式;对于查询q=(s,r,t)以及正确实体o,初始化查询表示向量为
Figure FDA0004015073820000041
从特定目标实体s出发,通过该随机游走采集器采样N条长度为l的路径线索,组装为线索集P={p0,p1,...,pN},其中N与l为自定义参数;
通过路径编码器编码线索集中的路径,对于路径p=[s,r0,t0,o0,r1,t1,o1,...,rl-1,tl-1,ol-1](其中s0=s),编码公式为(0≤k≤l-1):
tk=σ(WrΔtk+Urhk-1)
Figure FDA0004015073820000042
Figure FDA0004015073820000043
上述公式中的Δtk=tk-tk-1(当k=0时,Δtk=0);tk代表时序门限控制表示,
Figure FDA0004015073820000044
代表本单元编码的语义信息,Wr,Wh与Ur,Uh代表4个映射矩阵,
Figure FDA0004015073820000045
为路径中第k步对应关系与实体向量;LSTM第k步的输出为hk
路径p对应第l-1步的输出hl-1成为该路径的编码向量p,据此,得到路径线索集的编码向量{p0,p1,...,pN};
使用Softmax计算每个编码向量对于查询的attention分值{α01,...,αN};
通过路径线索集的编码向量,得到全局线索表示
Figure FDA0004015073820000046
通过线索集P,依据路径中事件时间信息的构建查询子图序列{SG0,SG1,...,SGt-1};
使用子图编码模块的图神经网络编码子图序列中每一个子图,得到子图中的节点表示{SG0,SG1,...,SGt-1};
使用该时序推理模块的单向循环神经网络编码上述子图序列的节点表示,输出t时刻的子图节点表示SGt
结合全局线索表示
Figure FDA0004015073820000051
计算SGt中每个节点的匹配分数;
选取匹配分数最高的实体o′与正确实体o,通过二分类损失函数计算本次训练的损失,通过反向传播算法训练更新该时序事件推理模型。
8.如权利要求6所述的基于知识图谱的特定目标可视化分析系统,其特征在于,该知识图谱构建模块包括:
构建多源异构数据融合模型,用于根据不同数据源的提取结果,补全不同数据源实体之间的映射关系,实现各数据源的提取结果的融合,构建该知识图谱;
其中该多源异构数据融合模型包括实体表示模块与实体映射关系推理模块;
实体表示模块用于根据实体的文本描述信息、时态信息以及其邻居的结构信息来编码实体的特征,作为映射关系挖掘的依据,该实体表示模块由实体文本描述信息编码模块、时间信息编码模块和结构信息编码模块组成;实体的文本描述信息编码由预训练语言模型BERT结合神经网络全连接层实现;时间信息的编码则是使用Time2vec算法表示;而对于结构信息,则是通过将实体描述信息以及时间信息的表示进行拼接作为输入,并通过带注意力机制的图神经网络进行编码,最终将编码后得到的向量作为实体的最终表示;
该实体映射关系推理模块用于根据实体的该最终表示来推理实体之间所存在的映射关系;实体映射关系推理模块由实体表示翻译模块和实体映射匹配模块两部分组成;实体表示翻译模块由多层感知机(MLP)构成,用于将源自于不同数据源的实体的表示映射到统一的语义空间;实体映射匹配模块则是首先通过余弦相似度的方式计算不同源的实体表示匹配程度,并以匹配程度的数值为依据,进行实体映射匹配,最终得到实体之间的映射关系,实现多源异构数据融合,得到该知识图谱。
9.一种存储介质,用于存储执行如权利要求1到4所述任意一种基于知识图谱的特定目标可视化分析方法的程序。
10.一种客户端,用于权利要求5至8中任意一种基于知识图谱的特定目标可视化分析系统。
CN202211667430.XA 2022-12-23 2022-12-23 一种基于知识图谱的特定目标可视化分析方法及系统 Pending CN116049381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211667430.XA CN116049381A (zh) 2022-12-23 2022-12-23 一种基于知识图谱的特定目标可视化分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211667430.XA CN116049381A (zh) 2022-12-23 2022-12-23 一种基于知识图谱的特定目标可视化分析方法及系统

Publications (1)

Publication Number Publication Date
CN116049381A true CN116049381A (zh) 2023-05-02

Family

ID=86115563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211667430.XA Pending CN116049381A (zh) 2022-12-23 2022-12-23 一种基于知识图谱的特定目标可视化分析方法及系统

Country Status (1)

Country Link
CN (1) CN116049381A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117910906A (zh) * 2024-02-19 2024-04-19 广东康利达物联科技有限公司 应用于智慧物流的数据可视化方法及系统
CN117933400A (zh) * 2024-03-21 2024-04-26 深圳大学 基于知识图谱的海事事故分析方法、系统、终端及介质
CN117910906B (zh) * 2024-02-19 2024-07-05 广东康利达物联科技有限公司 应用于智慧物流的数据可视化方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117910906A (zh) * 2024-02-19 2024-04-19 广东康利达物联科技有限公司 应用于智慧物流的数据可视化方法及系统
CN117910906B (zh) * 2024-02-19 2024-07-05 广东康利达物联科技有限公司 应用于智慧物流的数据可视化方法及系统
CN117933400A (zh) * 2024-03-21 2024-04-26 深圳大学 基于知识图谱的海事事故分析方法、系统、终端及介质

Similar Documents

Publication Publication Date Title
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN110362660A (zh) 一种基于知识图谱的电子产品质量自动检测方法
CN113158033A (zh) 一种基于知识图谱偏好传播的协同推荐模型构建方法
CN105393263A (zh) 计算机-人交互式学习中的特征完成
CN112463976B (zh) 一种以群智感知任务为中心的知识图谱构建方法
CN103473283A (zh) 一种文本案例匹配方法
CN113065587B (zh) 一种基于超关系学习网络的场景图生成方法
JP2016540332A (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
Xie et al. Generative adversarial network based service recommendation in heterogeneous information networks
CN112948547A (zh) 测井知识图谱构建查询方法、装置、设备及存储介质
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
CN117708746B (zh) 一种基于多模态数据融合的风险预测方法
Zhang et al. An interpretable and scalable recommendation method based on network embedding
CN105608118B (zh) 基于用户交互信息的结果推送方法
CN105354339B (zh) 基于上下文的内容个性化提供方法
Yao et al. Integrating multihub driven attention mechanism and big data analytics for virtual representation of visual scenes
Kou et al. Diversity-driven automated web API recommendation based on implicit requirements
CN117829643A (zh) 多媒体液晶评价器的评价方法及系统
Zhou et al. Reliable knowledge graph fact prediction via reinforcement learning
Chen et al. Exploiting aesthetic features in visual contents for movie recommendation
CN115293479A (zh) 舆情分析工作流系统及其方法
Cheng et al. Research on feasibility of convolution neural networks for rock thin sections image retrieval
CN116049381A (zh) 一种基于知识图谱的特定目标可视化分析方法及系统
CN115481325A (zh) 基于用户全局兴趣迁移感知的个性化新闻推荐方法及系统
Portmann A fuzzy grassroots ontology for improving social semantic web search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination