CN115858822B - 一种时序知识图谱构建方法及系统 - Google Patents
一种时序知识图谱构建方法及系统 Download PDFInfo
- Publication number
- CN115858822B CN115858822B CN202310138917.7A CN202310138917A CN115858822B CN 115858822 B CN115858822 B CN 115858822B CN 202310138917 A CN202310138917 A CN 202310138917A CN 115858822 B CN115858822 B CN 115858822B
- Authority
- CN
- China
- Prior art keywords
- data
- time
- target
- entity
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种时序知识图谱构建方法及系统,通过获取基础图谱数据;获取舆情信息,提取舆情信息中的关键事件数据;其中,基础图谱数据和关键事件数据都包含时间属性;确定关键事件数据和基础图谱数据中的共同实体,对包含共同实体的关键事件数据和基础图谱数据进行信息关联,得到包含关键事件数据的时序图谱数据;利用时序图谱数据构建包含时间属性的目标知识图谱。本发明实现了实体在时间发展的过程中涉及到的关键事件查找,通过获取包含时间属性的基础图谱数据和关键事件数据,用以构建具有时间维度的三维知识图谱,直观展示随着时间变化,实体、事件、关系发生的变化,使得基于时间段进行图谱检索成为可能。
Description
技术领域
本发明涉及知识图谱技术领域,具体涉及一种时序知识图谱构建方法及系统。
背景技术
知识图谱是一种由节点和边构成的图数据结构,每个节点表示现实世界中客观存在的实体,每个边作为实体与实体之间的关系。将这种抽象的图数据结构进行可视化,能够使用户以更直观的交互方式实现对数据的观测、探索及分析,从而挖掘数据中隐藏的信息特征、关系和模式。相关技术中,可视化针对的都是静态知识图谱,实体和关系本身不具备可持续的时序特性,即图谱中的实体和关系不会随着时间的变化而变化,从而构建出的都是静态不可变的知识图谱,无法反映现实世界中事物时序的持续性。但是,随着时间推移,实体和实体间的关系也会不断变化,不同实体在重叠时序空间可能产生相互或者共同影响。而一般的静态知识图谱无法从时间发展的维度直观展示伴随着时间变化,实体和实体之间关系产生的变化和影响。
发明内容
为此,本发明提供一种时序知识图谱构建方法及系统,对实体、事件及关系赋予持续的时间属性,并在二维图谱的基础上加入时间维度,构建三维可视化的知识图谱,实现实体、事件及关系随着时间变化发生变化的直观展示。
为实现以上目的,本发明采用如下技术方案:
依据本发明第一方面,提供了一种时序知识图谱构建方法,所述方法包括:
获取基础图谱数据;其中,所述基础图谱数据包括多个实体、所述实体之间的第一关联关系以及所述实体和所述第一关联关系对应的基础时间数据;
获取舆情信息,提取所述舆情信息中的关键事件数据;其中,所述关键事件数据至少包括关键事件、相关实体和事件时间数据;
确定所述关键事件数据和所述基础图谱数据中的共同实体,对包含共同实体的所述关键事件数据和所述基础图谱数据进行信息关联,得到包含所述关键事件数据的时序图谱数据;
利用所述时序图谱数据构建包含时间属性的目标知识图谱。
依据本发明第二方面,提供了一种时序知识图谱构建系统,所述系统包括:
数据获取模块,用于获取基础图谱数据;其中,所述基础图谱数据包括多个实体、所述实体之间的第一关联关系以及所述实体和所述第一关联关系对应的基础时间数据;
信息获取模块,用于获取舆情信息,提取所述舆情信息中的关键事件数据;其中,所述关键事件数据至少包括关键事件、相关实体和事件时间数据;
数据处理模块,用于确定所述关键事件数据和所述基础图谱数据中的共同实体,对包含共同实体的所述关键事件数据和所述基础图谱数据进行信息关联,得到包含所述关键事件数据的时序图谱数据;
图谱构建模块,用于利用所述时序图谱数据构建包含时间属性的目标知识图谱。
本发明采用以上技术方案,至少具备以下有益效果:
通过本发明方案,获取基础图谱数据;获取舆情信息,提取所述舆情信息中的关键事件数据;其中,所述基础图谱数据和所述关键事件数据都包含时间属性;确定所述关键事件数据和所述基础图谱数据中的共同实体,对包含共同实体的所述关键事件数据和所述基础图谱数据进行信息关联,得到包含所述关键事件数据的时序图谱数据;利用所述时序图谱数据构建包含时间属性的目标知识图谱,由此,实现实体在时间发展的过程中涉及到的关键事件查找,通过获取包含时间属性的基础图谱数据和关键事件数据,用以构建具有时间维度的三维知识图谱,直观展示随着时间变化,实体、事件、关系发生的变化,使得基于时间段进行图谱检索成为可能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一实施例提供的时序知识图谱构建方法的流程示意图;
图2示出了本发明一实施例提供的三维目标知识图谱的简要示意图;
图3示出了本发明一实施例提供的时序知识图谱构建系统的结构示意图;
图4示出了本发明另一实施例提供的时序知识图谱构建系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种时序知识图谱构建方法,如图1所示,至少可以包括以下步骤S101~S104:
步骤S101,获取基础图谱数据。
其中,基础图谱数据可以包括多个实体、实体之间的第一关联关系以及实体和第一关联关系对应的基础时间数据。
对于步骤S101,在一个可选实施例中,获取基础图谱数据,可以包括步骤S101-1~S101-2:
步骤S101-1,获取基础数据,提取基础数据中的实体和实体之间的第一关联关系;
本发明实施例以构建一种金融领域企业发展的时序知识图谱为例,获取构建该知识图谱所需要的基础数据,可以包括人物、企业机构、投资关系、分支机构、就职人员、债券关系、交易对手等。基础数据中的实体可以为人物或企业机构,可以理解的是,利用上述获取的基础数据,可以分析得到各人物及企业机构之间的相互关系,例如,人物与企业机构、人物与人物、企业机构与企业机构之间的竞争关系、投资关系、就职关系、交易关系等,即可以作为基础数据中多个实体之间的第一关联关系。
步骤S101-2,利用与实体的类型相匹配的预设规则,为对应的实体设置对应时间属性的基础时间数据;以及,利用与第一关联关系的类型相匹配的预设规则,为对应的第一关联关系设置对应时间属性的基础时间数据。
为了构建包含时间维度的知识图谱,本发明实施例需要对基础数据中的实体和第一关联关系赋予时间属性,即对实体或第一关联关系设置基础时间数据。针对实体,需要先确定实体类型,基于实体类型设置对应时间属性的基础时间数据。例如,实体类型为人物,则设置人物实体的出生年月作为起始时间,死亡年月作为结束时间,若人物实体在世则无结束时间;再比如,实体类型为企业机构,则设置企业机构的成立时间作为起始时间,解体时间作为结束时间,若企业机构未解体则无结束时间。同理,针对第一关联关系,需要先确定其类型,基于第一关联关系类型设置对应时间属性的基础时间数据。例如,若第一关联关系为投资关系,则将投资关系建立的时间作为起始时间,投资关系终止的时间作为结束时间,若投资关系未终止则认为投资关系长期有效,无结束时间;再比如,若第一关联关系为交易关系,则将交易发生时间作为起始时间,交易终止时间作为结束时间等。
需要说明的是,针对实体和第一关联关系的基础时间数据的配置规则可以根据实际情况进行设置,上述内容只为举例,本发明对此不做限定。
步骤S102,获取舆情信息,提取舆情信息中的关键事件数据。
本发明实施例以构建一种金融领域企业发展的时序知识图谱为例,为了获取随着时间发展企业金融风险变化的情况,需要收集到与该企业金融风险相关的关键事件数据。具体地,可以先获取来源于权威信源的舆情信息,权威信源可以为金融领域相关的官方媒体,也可以为具有一定公信力的大众媒体。
对于步骤S102,在一个可选实施例中,提取舆情信息中的关键事件数据,可以包括步骤S102-1~S102-2:
步骤S102-1,构建事件分类模型,根据事件分类模型确定舆情信息对应的事件类型。
其中,事件类型可以包括司法事件、处罚事件、企业变更、投资事件、负面事件、纠纷事件、舆情事件等。
具体地,构建事件分类模型可以利用预设事件类型和舆情信息样本对Bert预训练模型进行训练,得到训练完成的目标Bert模型;并利用Flask框架封装目标Bert模型,得到事件分类模型。
BERT预训练模型全称为BidirectionalEncoder Representations fromTransformers,是一个语言表示模型,可以通过训练的方式实现对句子进行分类。其中,预设事件类型可以为上述例举中的事件类型,也可以根据实际需要设置多种其他事件类型,本发明对此不做限定。舆情信息样本可以为预先获取到的包含多种预设事件类型的关键事件的舆情信息,可以理解的是,这些舆情信息样本中的预设事件类型是已知的,将舆情信息样本作为模型输入数据,预设类型事件作为模型输出数据,对Bert预训练模型进行训练和验证,得到训练完成的目标Bert模型,利用Flask框架封装目标Bert模型,得到可以直接进行使用的事件分类模型,该事件分类模型用于输入舆情信息得到舆情信息对应的事件类型。
步骤S102-2,构建事件抽取模型,根据事件抽取模型对舆情信息中的关键事件数据进行抽取。
在本发明实施例中,针对不同事件类型的舆情信息,需要抽取到不同事件类型对应的关键事件数据。例如,事件类型为诉讼事件,需要抽取的关键事件数据可以为原告、原告、被告、起诉时间、宣判时间、宣判结果、法院、地点等;再比如,事件类型为处罚事件,需要抽取的关键事件数据可以为处罚机构、被处罚机构、处罚时间、处罚依据、处罚结果等;再比如,事件类型为投资事件,需要抽取的关键事件数据可以为投资时间、投资机构、投资金额等。
具体地,构建事件抽取模型可以利用不同事件类型的预设信息属性和舆情信息样本对UIE预训练模型进行训练,训练完成的目标UIE模型;并利用Flask框架封装目标UIE模型,得到事件抽取模型。
UIE预训练模型全称为UniversalInformation Extraction,是一个结构化生成式信息抽取预训练语言模型,可以通过训练的方式实现对句子进行数据抽取。其中,预设信息属性可以为上述例举中的关键事件数据,也可以根据实际需要设置多种其他的关键事件数据,本发明对此不做限定。本发明实施例中的舆情信息样本可以为预先获取到的包含不同事件类型的关键事件的舆情信息,可以理解的是,这些舆情信息样本对应的事件类型和包含的预设信息属性是已知的,将不同事件类型的舆情信息样本作为模型输入数据,预设信息属性作为模型输出数据,对UIE预训练模型进行训练和验证,得到训练完成的目标UIE模型,利用Flask框架封装目标UIE模型,得到可以直接进行使用的事件抽取模型,该事件抽取模型用于针对不同事件类型的舆情信息抽取对应信息属性的关键事件数据。
进一步地,提取舆情信息中的关键事件数据还可以包括:利用与关键事件的类型相匹配的预设规则,为对应的关键事件设置事件有效期;根据事件有效期计算关键事件的事件结束时间,将事件结束时间作为事件时间数据。
上述步骤中从舆情信息中提取的关键事件数据只限定于舆情信息中原有的数据,但往往原有的舆情信息中不包含关于关键事件的事件有效期,即事件在知识图谱中时间维度的结束时间点,因此需要对关键事件添加事件有效期作为部分关键事件数据供后续使用。本发明实施例在对关键事件添加事件有效期前,需要确定关键事件的事件类型,根据事件类型对其添加相应的事件有效期。例如,若关键事件的事件类型为司法事件、处罚事件、企业变更等,则认为事件长期有效;再比如,若关键事件的事件类型为投资关系、合作关系等,则将投资关系或合作关系的结束时间作为事件有效期;又比如,若事件类型为舆情事件,则将互联网无即时发布与该舆情事件相关信息3天后作为事件有效期。需要说明的是,本发明实施例提供的关于事件有效期的确定方法只为举例,实际应用中可根据实际情况进行设置,本发明对此不做限定。
步骤S103,确定关键事件数据和基础图谱数据中的共同实体,对包含共同实体的关键事件数据和基础图谱数据进行信息关联,得到包含关键事件数据的时序图谱数据。
具体地,可以根据关键事件数据和基础图谱数据中的事件、实体、时间属性查询共同实体。在此之前,需要对关联事件数据中的相关实体与基础图谱数据中的实体进行格式一致化处理。
一般情况下,关键事件数据和基础图谱数据中可能存在共同实体但叫法不同,因此,可以在进行共同实体查找之前,对关键事件数据的相关实体的名称通过实体字典与基础图谱数据中的实体的名称进行关联,也可以对关键事件数据中的相关实体的名称和基础图谱数据中的实体的名称进行格式统一化,使针对同一实体的名称叫法一致,以便于后续查找共同实体。
进一步地,在查找得到共同实体后,还可以根据共同实体对关键事件数据和基础图谱数据进行融合,得到时序图谱数据。还可以对查询结果进行比较,即关键事件数据和基础图谱数据若存在共同实体或者存在关系延续,则需要对其时间属性进行更新记录,并对不同时间段对应的事件数值量进行记录,例如舆情事件的信息量等。
步骤S104,利用时序图谱数据构建包含时间属性的目标知识图谱。
本发明实施例基于时序图谱数据构建的目标知识图谱,将时序图谱数据中包含的实体和事件作为目标实体,目标实体之间的关联关系作为第二关联关系,利用目标实体和第二关联关系构建二维平面的知识图谱;由于目标实体和第二关联关系都包含时间属性,故构建垂直于上述二维平面的时间维度,实现包含时间维度的三维目标知识图谱的构建。
对于步骤S104,在一个可选实施例中,提取舆情信息中的关键事件数据,可以包括步骤S104-1~S104-5:
步骤S104-1,提取时序图谱数据中的多个目标实体和目标实体之间的第二关联关系。
其中,目标实体包括实体和关键事件。目标实体之间的第二关联关系的提取与上述第一关联关系的提取方法类似,本发明对此不在赘述。
步骤S104-2,利用力引导算法确定目标实体和第二关联关系在二维方向平面的对应位置。
力引导算法是一种确定知识图谱各实体和关系的位置布局的方法,可以使全局的布局效果最优。如图2所示,为本发明实施例提供的一种目标知识图谱的简要示意图,通过力引导算法,确定目标知识图谱中各目标实体的位置,即目标实体a~d点在二维平面对应的位置。
步骤S104-3,提取时序图谱数据中针对目标实体和第二关联关系的目标时间数据。
其中,目标时间数据包括实体对应的基础时间数据和事件对应的事件时间数据。
步骤S104-4,构建垂直于二维方向平面的时间维度,基于目标实体和第二关联关系在二维方向平面的目标时间数据确定目标实体和第二关联关系在时间维度上的时间起始位置。
如图2所示,垂直于目标实体a~d点的柱形长度即是利用目标实体的时间起始位置确定的,垂直于目标实体a~d点的长方体的长度即是利用各目标实体之间的第二关联关系的时间起始位置确定的。
步骤S104-5,基于目标实体和第二关联关系在二维方向平面的对应位置和在时间维度上的时间起始位置生成三维的目标知识图谱。
如图2所示,基于目标实体a~d点和目标实体a~d点之间的第二关联关系在二维平面的对应位置添加时间维度上对应的时间起始位置,生成三维的目标知识图谱。
进一步地,本发明实施例提取舆情信息中的关键事件数据,还可以包括:利用与目标实体的类型相匹配的预设规则,为对应的目标实体设置实体强度;以及,利用与第二关联关系的类型相匹配的预设规则,为对应的第二关联关系设置关联强度;分别对实体强度和关联强度进行强度归一化,得到各目标实体对应的目标实体强度和各关联关系对应的目标关联强度;利用目标实体强度确定目标实体在二维平面上对应的目标节点大小;以及利用目标关联强度确定第二关联关系在二维平面上对应的目标线段粗细。
为了进一步加强目标知识图谱的显示功能,可以对目标实体和第二关联关系设置对应的实体强度和关联强度,并将实体强度和关联强度反映在目标知识图谱上。针对实体强度和关联强度的设置,可以先确定目标实体或第二关联关系的类型,基于不同类型设置对应的强度设置规则,例如,目标实体为企业,则实体强度可以为注册资本;再比如,第二关联关系为投资关系,则关联强度可以为投资金额;又比如,目标实体为舆情事件,则实体强度为舆情信息量等。需要说明的是,本发明实施例提供的关于实体强度和关联强度的设置方法只为举例,实际应用中可根据实际情况进行设置,本发明对此不做限定。可以理解的是,在得到目标实体对应的实体强度和第二关联关系对应的关联强度后,为了便于实体强度和关联强度在目标知识图谱上进行统一显示,还可以为实体强度和关联强度进行强度归一化处理,得到能够准确反映相对实体强度和相对关联强度的目标实体强度和目标关联强度。使用强度归一化的结果来展示实体、关系在目标知识图谱中的相关大小和强度,即目标实体强度为二维平面上对应的目标节点大小,目标关联强度为二维平面上对应的目标线段粗细,例如,图2中目标实体d与b之间的目标关联强度较目标实体a与b之间的目标关联强度更高,上述强度归一化处理也可以使显示的目标实体的实体大小和第二关联关系的关系程度更均匀。
进一步地,为了实现用户对目标知识图谱的操控功能,可以对目标知识图谱添加时间轴控制组件;响应于用户针对时间轴控制组件的控制指令,生成目标知识图谱在对应时间段内的三维动画,并对三维动画进行页面显示。
如图2所示,正下方即为时间轴控制组件,用户可以选取某一时间段内的目标知识图谱进行显示。当用户点击播放控制器上的按钮后,页面将生成该时间段对应的三维动画,从开始时间点沿时间轴方向,按照预设时间进度进行动画绘制和播放。
为了便于用户使用,还可以加入二维快照功能,即当时间轴控制变化时,提取该时间段内的二维关系图,以缩略图的形式进行展示,如图2左下方所示,以帮助用户了解时间段内包含的目标实体情况。
进一步地,为了实现用户对目标知识图谱的查找功能,可以基于预设查询数据确定用于构建目标知识图谱的时序图谱数据;其中,预设查询数据包括查询实体、查询时间、查询深度等。
由于时序图谱数据包含大量的目标实体和第二关联关系,为了查找用户需要的数据构建目标知识图谱,可以加入查询功能,查询功能可以为基于目标实体、时间范围以及目标实体涉及到的关系深度进行查找,通过输入上述数据,查找结果为符合要求的部分时序图谱数据,基于该部分时序图谱数据进行三维目标知识图谱构建,满足用户的准确需求。
本发明实施例提供了一种时序知识图谱构建方法,通过获取基础图谱数据;获取舆情信息,提取舆情信息中的关键事件数据;其中,基础图谱数据和关键事件数据都包含时间属性;确定关键事件数据和基础图谱数据中的共同实体,对包含共同实体的关键事件数据和基础图谱数据进行信息关联,得到包含关键事件数据的时序图谱数据;利用时序图谱数据构建包含时间属性的目标知识图谱,由此,实现实体在时间发展的过程中涉及到的关键事件查找,通过获取包含时间属性的基础图谱数据和关键事件数据,用以构建具有时间维度的三维知识图谱,直观展示随着时间变化,实体、事件、关系发生的变化,使得基于时间段进行图谱检索成为可能。
进一步地,作为图1的具体实现,本发明实施例提供了一种时序知识图谱构建系统,如图3所示,该系统可以包括:数据获取模块310、信息获取模块320、数据处理模块330以及图谱构建模块340。
数据获取模块310,可以用于获取基础图谱数据;其中,基础图谱数据包括多个实体、实体之间的第一关联关系以及实体和第一关联关系对应的基础时间数据;
信息获取模块320,可以用于获取舆情信息,提取舆情信息中的关键事件数据;其中,关键事件数据至少包括关键事件、相关实体和事件时间数据;
数据处理模块330,可以用于确定关键事件数据和基础图谱数据中的共同实体,对包含共同实体的关键事件数据和基础图谱数据进行信息关联,得到包含关键事件数据的时序图谱数据;
图谱构建模块340,可以用于利用时序图谱数据构建包含时间属性的目标知识图谱。
可选地,如图4所示,本发明另一实施例提供的一种时序知识图谱构建系统,还包括:动画显示模块350以及数据查询模块360。
动画显示模块350,可以用于对目标知识图谱添加时间轴控制组件;响应于用户针对时间轴控制组件的控制指令,生成目标知识图谱在对应时间段内的三维动画,并对三维动画进行页面显示。
数据查询模块360,可以用于在利用时序图谱数据构建包含时间属性的目标知识图谱之前,基于预设查询数据确定用于构建目标知识图谱的时序图谱数据;其中,预设查询数据包括查询实体、查询时间、查询深度中至少之一。
可选地,数据获取模块310,还可以用于获取基础数据,提取基础数据中的实体和实体之间的第一关联关系;基础数据包括人物、企业机构、投资关系、分支机构、就职人员、债券关系、交易对手中至少之一;利用与实体的类型相匹配的预设规则,为对应的实体设置对应时间属性的基础时间数据;以及,利用与第一关联关系的类型相匹配的预设规则,为对应的第一关联关系设置对应时间属性的基础时间数据。
可选地,信息获取模块320,还可以用于构建事件分类模型,根据事件分类模型确定舆情信息对应的事件类型;事件类型包括司法事件、处罚事件、企业变更、投资事件、负面事件、纠纷事件中至少之一;构建事件抽取模型,根据事件抽取模型对舆情信息中的关键事件数据进行抽取;事件抽取模型用于针对不同事件类型的舆情信息抽取对应信息属性的关键事件数据。
可选地,信息获取模块320,还可以用于构建事件分类模型,包括:利用预设事件类型和舆情信息样本对Bert预训练模型进行训练,得到训练完成的目标Bert模型;利用Flask框架封装目标Bert模型,得到事件分类模型;和/或,构建事件抽取模型,包括:利用不同事件类型的预设信息属性和舆情信息样本对UIE预训练模型进行训练,训练完成的目标UIE模型;利用Flask框架封装目标UIE模型,得到事件抽取模型。
可选地,信息获取模块320,还可以用于利用与关键事件的类型相匹配的预设规则,为对应的关键事件设置事件有效期;根据事件有效期计算关键事件的事件结束时间,将事件结束时间作为事件时间数据。
可选地,图谱构建模块340,还可以用于提取时序图谱数据中的多个目标实体和目标实体之间的第二关联关系;其中,目标实体包括实体和关键事件中至少之一;利用力引导算法确定目标实体和第二关联关系在二维方向平面的对应位置;提取时序图谱数据中针对目标实体和第二关联关系的目标时间数据;其中,目标时间数据包括基础时间数据、事件时间数据中至少之一;构建垂直于二维方向平面的时间维度,基于目标实体和第二关联关系在二维方向平面的目标时间数据确定目标实体和第二关联关系在时间维度上的时间起始位置;基于目标实体和第二关联关系在二维方向平面的对应位置和在时间维度上的时间起始位置生成三维的目标知识图谱。
可选地,图谱构建模块340,还可以用于利用与目标实体的类型相匹配的预设规则,为对应的目标实体设置实体强度;以及,利用与第二关联关系的类型相匹配的预设规则,为对应的第二关联关系设置关联强度;分别对实体强度和关联强度进行强度归一化,得到各目标实体对应的目标实体强度和各关联关系对应的目标关联强度;利用目标实体强度确定目标实体在二维平面上对应的目标节点大小;以及利用目标关联强度确定第二关联关系在二维平面上对应的目标线段粗细。
需要说明的是,本发明实施例提供的一种时序知识图谱构建系统所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
所属领域的技术人员可以清楚地了解到,上述描述的系统、装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。
另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或者固件的形式实现。
本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。
或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。
Claims (8)
1.一种时序知识图谱构建方法,其特征在于,所述方法包括:
获取基础图谱数据;其中,所述基础图谱数据包括多个实体、所述实体之间的第一关联关系以及所述实体和所述第一关联关系对应的基础时间数据;其中,所述实体为人物或企业机构;所述第一关联关系为人物与企业机构、人物与人物、企业机构与企业机构之间的关联关系;
获取舆情信息,提取所述舆情信息中的关键事件数据;其中,所述关键事件数据至少包括关键事件、相关实体和事件时间数据;
通过实体字典对所述关键事件数据的相关实体名称与基础图谱数据中的实体名称进行关联;或,对关联事件数据中的相关实体与基础图谱数据中的实体进行格式一致化处理;以确定所述关键事件数据和所述基础图谱数据中的共同实体,对包含共同实体的所述关键事件数据和所述基础图谱数据进行信息关联,得到包含所述关键事件数据的时序图谱数据;
利用所述时序图谱数据构建包含时间属性的目标知识图谱;
其中,所述利用所述时序图谱数据构建包含时间属性的目标知识图谱,包括:
提取所述时序图谱数据中的多个目标实体和所述目标实体之间的第二关联关系;其中,所述目标实体包括实体和关键事件中至少之一;
利用力引导算法确定所述目标实体和所述第二关联关系在二维方向平面的对应位置;
提取所述时序图谱数据中针对所述目标实体和所述第二关联关系的目标时间数据;其中,所述目标时间数据包括基础时间数据、事件时间数据中至少之一;
构建垂直于所述二维方向平面的时间维度,基于所述目标实体和所述第二关联关系在所述二维方向平面的目标时间数据确定所述目标实体和所述第二关联关系在所述时间维度上的时间起始位置;
基于所述目标实体和所述第二关联关系在所述二维方向平面的对应位置和在所述时间维度上的时间起始位置生成三维的所述目标知识图谱;
其中,所述利用所述时序图谱数据构建包含时间属性的目标知识图谱,还包括:
利用与所述目标实体的类型相匹配的预设规则,为对应的目标实体设置实体强度;以及,
利用与所述第二关联关系的类型相匹配的预设规则,为对应的第二关联关系设置关联强度;
分别对所述实体强度和所述关联强度进行强度归一化,得到各所述目标实体对应的目标实体强度和各所述关联关系对应的目标关联强度;
利用所述目标实体强度确定所述目标实体在所述二维方向平面上对应的目标节点大小;以及利用所述目标关联强度确定所述第二关联关系在所述二维方向平面上对应的目标线段粗细。
2.根据权利要求1所述的方法,其特征在于,所述获取基础图谱数据,包括:
获取基础数据,提取所述基础数据中的实体和所述实体之间的第一关联关系;所述基础数据包括投资关系、分支机构、就职人员、债券关系、交易对手中至少之一;
利用与所述实体的类型相匹配的预设规则,为对应的实体设置对应时间属性的基础时间数据;以及,
利用与所述第一关联关系的类型相匹配的预设规则,为对应的第一关联关系设置对应时间属性的基础时间数据。
3.根据权利要求1所述的方法,其特征在于,所述提取所述舆情信息中的关键事件数据,包括:
构建事件分类模型,根据所述事件分类模型确定所述舆情信息对应的事件类型;所述事件类型包括司法事件、处罚事件、企业变更、投资事件、负面事件、纠纷事件中至少之一;
构建事件抽取模型,根据所述事件抽取模型对所述舆情信息中的关键事件数据进行抽取;所述事件抽取模型用于针对不同事件类型的所述舆情信息抽取对应信息属性的关键事件数据。
4.根据权利要求3所述的方法,其特征在于,
所述构建事件分类模型,包括:
利用预设事件类型和舆情信息样本对Bert预训练模型进行训练,得到训练完成的目标Bert模型;
利用Flask框架封装所述目标Bert模型,得到所述事件分类模型;
和/或,
所述构建事件抽取模型,包括:
利用不同事件类型的预设信息属性和舆情信息样本对UIE预训练模型进行训练,训练完成的目标UIE模型;
利用Flask框架封装所述目标UIE模型,得到所述事件抽取模型。
5.根据权利要求3所述的方法,其特征在于,所述提取所述舆情信息中的关键事件数据,还包括:
利用与所述关键事件的类型相匹配的预设规则,为对应的关键事件设置事件有效期;
根据所述事件有效期计算所述关键事件的事件结束时间,将所述事件结束时间作为所述事件时间数据。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标知识图谱添加时间轴控制组件;
响应于用户针对所述时间轴控制组件的控制指令,生成所述目标知识图谱在对应时间段内的三维动画,并对所述三维动画进行页面显示。
7.根据权利要求1~6中任一项所述的方法,其特征在于,所述利用所述时序图谱数据构建包含时间属性的目标知识图谱之前,还包括:
基于预设查询数据确定用于构建目标知识图谱的所述时序图谱数据;
其中,所述预设查询数据包括查询实体、查询时间、查询深度中至少之一。
8.一种时序知识图谱构建系统,其特征在于,所述系统包括:
数据获取模块,用于获取基础图谱数据;其中,所述基础图谱数据包括多个实体、所述实体之间的第一关联关系以及所述实体和所述第一关联关系对应的基础时间数据;其中,所述实体为人物或企业机构;所述第一关联关系为人物与企业机构、人物与人物、企业机构与企业机构之间的关联关系;
信息获取模块,用于获取舆情信息,提取所述舆情信息中的关键事件数据;其中,所述关键事件数据至少包括关键事件、相关实体和事件时间数据;
数据处理模块,用于通过实体字典对所述关键事件数据的相关实体名称与基础图谱数据中的实体名称进行关联;或,对关联事件数据中的相关实体与基础图谱数据中的实体进行格式一致化处理;以确定所述关键事件数据和所述基础图谱数据中的共同实体,对包含共同实体的所述关键事件数据和所述基础图谱数据进行信息关联,得到包含所述关键事件数据的时序图谱数据;
图谱构建模块,用于利用所述时序图谱数据构建包含时间属性的目标知识图谱;
所述图谱构建模块,还用于提取所述时序图谱数据中的多个目标实体和所述目标实体之间的第二关联关系;其中,所述目标实体包括实体和关键事件中至少之一;
利用力引导算法确定所述目标实体和所述第二关联关系在二维方向平面的对应位置;
提取所述时序图谱数据中针对所述目标实体和所述第二关联关系的目标时间数据;其中,所述目标时间数据包括基础时间数据、事件时间数据中至少之一;
构建垂直于所述二维方向平面的时间维度,基于所述目标实体和所述第二关联关系在所述二维方向平面的目标时间数据确定所述目标实体和所述第二关联关系在所述时间维度上的时间起始位置;
基于所述目标实体和所述第二关联关系在所述二维方向平面的对应位置和在所述时间维度上的时间起始位置生成三维的所述目标知识图谱;
所述图谱构建模块,还用于利用与所述目标实体的类型相匹配的预设规则,为对应的目标实体设置实体强度;以及,
利用与所述第二关联关系的类型相匹配的预设规则,为对应的第二关联关系设置关联强度;
分别对所述实体强度和所述关联强度进行强度归一化,得到各所述目标实体对应的目标实体强度和各所述关联关系对应的目标关联强度;
利用所述目标实体强度确定所述目标实体在所述二维方向平面上对应的目标节点大小;以及利用所述目标关联强度确定所述第二关联关系在所述二维方向平面上对应的目标线段粗细。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138917.7A CN115858822B (zh) | 2023-02-21 | 2023-02-21 | 一种时序知识图谱构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138917.7A CN115858822B (zh) | 2023-02-21 | 2023-02-21 | 一种时序知识图谱构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115858822A CN115858822A (zh) | 2023-03-28 |
CN115858822B true CN115858822B (zh) | 2023-05-26 |
Family
ID=85658477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310138917.7A Active CN115858822B (zh) | 2023-02-21 | 2023-02-21 | 一种时序知识图谱构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115858822B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701573A (zh) * | 2023-06-06 | 2023-09-05 | 哈尔滨理工大学 | 一种基于时序知识图谱的查询方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785968A (zh) * | 2018-12-27 | 2019-05-21 | 东软集团股份有限公司 | 一种事件预测方法、装置、设备及程序产品 |
CN112905805A (zh) * | 2021-03-05 | 2021-06-04 | 北京中经惠众科技有限公司 | 知识图谱构建方法及装置、计算机设备和存储介质 |
CN113535966A (zh) * | 2020-04-13 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 知识图谱的创建方法、信息获取的方法、装置和设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391673B (zh) * | 2017-07-21 | 2020-11-03 | 苏州狗尾草智能科技有限公司 | 携带时间戳的中文通用知识图谱的生成方法及装置 |
US20190188332A1 (en) * | 2017-12-15 | 2019-06-20 | Mito.AI AS | System of dynamic knowledge graph based on probabalistic cardinalities for timestamped event streams |
CN111221983B (zh) * | 2020-01-15 | 2023-08-04 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
CN113742489A (zh) * | 2021-08-05 | 2021-12-03 | 昆明理工大学 | 一种基于时序知识图谱的综合影响力补偿方法 |
-
2023
- 2023-02-21 CN CN202310138917.7A patent/CN115858822B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785968A (zh) * | 2018-12-27 | 2019-05-21 | 东软集团股份有限公司 | 一种事件预测方法、装置、设备及程序产品 |
CN113535966A (zh) * | 2020-04-13 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 知识图谱的创建方法、信息获取的方法、装置和设备 |
CN112905805A (zh) * | 2021-03-05 | 2021-06-04 | 北京中经惠众科技有限公司 | 知识图谱构建方法及装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115858822A (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10824682B2 (en) | Enhanced online user-interaction tracking and document rendition | |
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
Lewoniewski et al. | Relative quality and popularity evaluation of multilingual Wikipedia articles | |
CN104572888B (zh) | 一种时间序列关联的信息检索方法 | |
CN115858822B (zh) | 一种时序知识图谱构建方法及系统 | |
CN111651552B (zh) | 结构化信息确定方法、装置和电子设备 | |
Chen et al. | Towards correlating search on google and asking on stack overflow | |
CN111241212A (zh) | 知识图谱的构建方法及装置、存储介质、电子设备 | |
KR20200145299A (ko) | 온라인 면접 동영상 분석 및 소셜미디어 정보분석 기반 지능형 채용지원 플랫폼 | |
Martinho | Researching culture through big data: Computational engineering and the human and social sciences | |
Wang et al. | Visualizing the intellectual structure of eye movement research in cartography | |
Lobonț et al. | A panel threshold model to capture the nonlinear nexus between public policy and entrepreneurial activities in EU countries | |
Ait-Mlouk et al. | Winfra: A web-based platform for semantic data retrieval and data analytics | |
Fielding | New data and old dilemmas: Changes and continuities in online social research | |
CN115757720A (zh) | 基于知识图谱的项目信息搜索方法、装置、设备和介质 | |
WO2021120878A1 (zh) | 基于书籍图谱的书籍显示方法、计算设备及存储介质 | |
CN115309885A (zh) | 一种用于科技服务的知识图谱构建、检索和可视化方法及系统 | |
CN110502745B (zh) | 文本信息评价方法、装置、计算机设备和存储介质 | |
CN114201582A (zh) | 一种基于BiLSTM-CRF模型的文本数据智能提取方法和装置 | |
He et al. | Text2analysis: A benchmark of table question answering with advanced data analysis and unclear queries | |
Zhao et al. | A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence | |
Mashagba et al. | Using Gradient Boosting Algorithms in Predicting Student Academic Performance | |
Liu et al. | Improving NASA’s Earth Satellite and Model Data Discoverability for Interdisciplinary Research, Applications, and Education | |
CN111611401B (zh) | 汉字构形系统可视化的方法、系统、装置及可读存储介质 | |
TWI837541B (zh) | 產生創意素材的系統及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |