CN111159428A

CN111159428A - 经济领域知识图谱事件关系自动抽取的方法和装置

Info

Publication number: CN111159428A
Application number: CN201911400041.9A
Authority: CN
Inventors: 刘粉香; 贠瑞峰; 刘彬彬; 彭翔; 张炎红; 陆军
Original assignee: Smart Shenzhou Beijing Technology Co Ltd
Current assignee: Smart Shenzhou Beijing Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-15

Abstract

本申请提供了一种经济领域知识图谱事件关系自动抽取的方法、装置、存储介质和处理器。该方法包括：获取原始数据，原始数据为经济金融领域的数据；根据事件知识图谱基础架构以及原始数据，构建事件知识图谱，事件知识图谱包括主题事件；将主题事件按时间排序；对排序后的主题事件按照预定时间窗口分组为多个事务，至少一个事务包括主题事件；基于事务，采用频繁项集挖掘算法挖掘关联规则；采用机器学习算法确定所挖掘的关联规则的关联关系，关联关系为事件关系。该方法中，通过频繁项集挖掘算法挖掘关联规则，后续采用机器学习算法确定所挖掘的关联规则的关联关系，相比现有技术中的判定方法，该方法可以实现事件关系的快速判定。

Description

经济领域知识图谱事件关系自动抽取的方法和装置

技术领域

本申请涉及经济领域，具体而言，涉及一种经济领域知识图谱事件关系自动抽取的方法、装置、存储介质和处理器。

背景技术

当前知识图谱领域，从应用角度看，静态的实体-关系或实体-属性-值的知识图谱架构，不能满足日益复杂的需求，尤其在经济金融领域。经济金融领域需要及时捕捉外部事件，根据事件之间的因果、順承、反转、条件等关系，进行沙盘推演、事件预警等。现有的静态实体知识图谱模型无法胜任这种要求。事件知识图谱可以建立事件与事件，事件与实体之间复杂的关联关系，并且这种关系以及实体属性、事件属性都可以动态更新和记录。例如，静态实体知识图谱可以回答“美联储降息多少”的问题，事件知识图谱可以回答“美联储降息将会导致什么结果”的问题，显然后者才是真正具有价值的问题。

事件知识图谱仍处于发展阶段，在经济领域落地时，仍然需要解决大量技术问题，其中事件与事件之间的关系判定是一个难点问题。事件之间关系的判定可以看作一个分类问题。在整个知识图谱系统中，事件之间的关系种类和个数都是预先设定并且一段时间内相对稳定的，比如順承、转折、因果等等。当前判定事件之间关系需要本领域的专家，根据自己深厚的领域知识和经验，预先把知识图谱中所有“元事件”(比如“降息”)之间的关系，通过规则形式确定下来，使用时利用规则匹配来确定“主题事件”(比如“美联储降息”)之间的关系。这种实现方式需要经济金融专家深度参与到知识图谱构建中，通过工程技术人员配合，将专家们的知识和经验，转换成知识图谱架构、逻辑，甚至代码，落地难度可想而知。

在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

发明内容

本申请的主要目的在于提供一种经济领域知识图谱事件关系自动抽取的方法、装置、存储介质和处理器，以解决现有技术中事件知识图谱的事件之间的关系判定效率较低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种经济领域知识图谱事件关系自动抽取的方法，该自动抽取方法包括：获取原始数据，所述原始数据为经济金融领域的数据；根据事件知识图谱基础架构以及所述原始数据，构建所述事件知识图谱，所述事件知识图谱包括主题事件；将所述主题事件按时间排序；对排序后的所述主题事件按照预定时间窗口分组为多个事务，至少一个所述事务包括主题事件；基于所述事务，采用频繁项集挖掘算法挖掘关联规则；采用机器学习算法确定所挖掘的所述关联规则的关联关系，所述关联关系为事件关系。

进一步地，所述主题事件有多个，构建所述事件知识图谱之前，所述方法还包括：确定元事件、不同的所述主题事件之间的关系、所述主题事件与实体的关系、实体属性以及事件属性；根据所述元事件、不同的所述主题事件之间的关系、所述主题事件与实体的关系、所述实体属性以及所述事件属性，更新主题事件、所述实体、事件属性值以及实体属性值。

进一步地，基于所述事务使用频繁项集挖掘算法，挖掘关联规则，包括：基于所述事务使用频繁项集挖掘算法，确定所述事务的所有频繁项集；根据所述频繁项集利用频繁项集生成规则，挖掘置信度高的所述关联规则。

进一步地，所述频繁项集包括第一频繁项集和第二频繁项集，根据所述频繁项集利用频繁项集生成规则，挖掘置信度高的所述关联规则之后，且在采用机器学习算法确定所挖掘的所述关联规则的关联关系，所述关联关系为事件关系之前，所述方法还包括：确定第一概率和第二概率，所述第一概率为所述第一频繁项集出现的概率，所述第二概率为所述第二频繁项集出现的概率，所述第一频繁项集表示为X，所述第二频繁项集表示为Y；确定预定规则的置信度，所述预定规则表示为X＝>Y；确定所述预定规则的第一独立性；确定所述预定规则的第二独立性。

进一步地，采用机器学习算法确定所挖掘的所述关联规则的关联关系，包括：将所述第一频繁项集按所述时间排序并组合，确定第一频繁项集集合；将所述第二频繁项集按所述时间排序并组合，确定第二频繁项集集合；按照所述预定时间窗口对所述第一频繁项集集合和所述第二频繁项集集合分组，生成所述第一频繁项集集合的多个子集和所述第二频繁项集集合的多个子集；确定所述第一频繁项集集合的子集发生的第一时间和所述第二频繁项集集合的子集发生的第二时间；根据所述第一时间和所述第二时间生成所述预定规则对应的预定子规则；采用机器学习算法确定所述预定子规则的关联关系。

进一步地，采用机器学习算法确定所述预定子规则的关联关系，包括：对所述第一频繁项集集合的子集中的每个词和所述第二频繁项集集合的子集中的每个词进行嵌入，确定各所述词对应的第一嵌入向量；将各所述第一嵌入向量的和对应的时间向量相加，得到第二嵌入向量；根据所述第二嵌入向量和统计量得到第三嵌入向量，所述统计量由所述预定子规则对应的所述第一概率、所述第二概率、所述置信度、所述第一独立性和所述第二独立性组成；将所述第三嵌入向量输入神经网络训练，确定所述预定子规则的关联关系。

进一步地，所述原始数据包括至少以下之一：经济金融领域权威网站信息、经济金融领域权威报纸信息、经济金融领域权威期刊信息、经济金融领域权威杂志信息。

进一步地，所述预定时间窗口包括至少以下之一：一周、一个月、一季度、一年。

进一步地，所述关联关系包括至少以下之一：因果关系、转折关系、顺承关系、条件关系。

根据本申请的另一方面，提供了一种经济领域知识图谱事件关系自动抽取的装置，该自动抽取装置包括：获取单元，用于获取原始数据，所述原始数据为经济金融领域的数据；构建单元，根据事件知识图谱基础架构以及所述原始数据，构建所述事件知识图谱，所述事件知识图谱包括主题事件；排序单元，用于将所述主题事件按时间排序；分组单元，对排序后的所述主题事件按照预定时间窗口分组为多个事务，至少一个所述事务包括主题事件；挖掘单元，基于所述事务，采用频繁项集挖掘算法挖掘关联规则；第一确定单元，用于采用机器学习算法确定所挖掘的所述关联规则的关联关系，所述关联关系为事件关系。

根据本申请的另一方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行任意一种所述的方法。

根据本申请的另一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意一种所述的方法。

应用本申请的技术方案，上述方案中，首先，获取原始数据，所述原始数据为经济金融领域的数据，其次，根据事件知识图谱基础架构以及所述原始数据，构建所述事件知识图谱，所述事件知识图谱包括主题事件，之后，将所述主题事件按时间排序，之后，对排序后的所述主题事件按照预定时间窗口分组为多个事务，至少一个所述事务包括主题事件，之后，基于所述事务，采用频繁项集挖掘算法挖掘关联规则，最后，采用机器学习算法确定所挖掘的所述关联规则的关联关系，所述关联关系为事件关系。该方法中，通过频繁项集挖掘算法挖掘关联规则，后续采用机器学习算法确定所挖掘的所述关联规则的关联关系，相比现有技术中的判定方法，该方法可以实现事件关系的快速判定。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请的实施例的一种经济领域知识图谱事件关系自动抽取的方法流程图；以及

图2示出了根据本申请的实施例的一种经济领域知识图谱事件关系自动抽取的装置示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。

正如背景技术中所说的，现有技术中事件知识图谱的事件之间的关系判定效率较低，为了解决上述的技术问题，提供了一种经济领域知识图谱事件关系自动抽取的方法、装置、存储介质和处理器。

根据本申请的实施例，提供了一种经济领域知识图谱事件关系自动抽取的方法。图1是根据本申请实施例的经济领域知识图谱事件关系自动抽取的方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，获取原始数据，上述原始数据为经济金融领域的数据；

步骤S102，根据事件知识图谱基础架构以及上述原始数据，构建上述事件知识图谱，上述事件知识图谱包括主题事件；

步骤S103，将上述主题事件按时间排序；

步骤S104，对排序后的上述主题事件按照预定时间窗口分组为多个事务，上述至少一个上述事务包括主题事件；

步骤S105，基于上述事务，采用频繁项集挖掘算法挖掘关联规则；

步骤S106，采用机器学习算法确定所挖掘的上述关联规则的关联关系，上述关联关系为事件关系。

上述方案中，首先，获取原始数据，上述原始数据为经济金融领域的数据，其次，根据事件知识图谱基础架构以及上述原始数据，构建上述事件知识图谱，上述事件知识图谱包括主题事件，之后，将上述主题事件按时间排序，之后，对排序后的上述主题事件按照预定时间窗口分组为多个事务，上述至少一个上述事务包括主题事件，之后，基于上述事务，采用频繁项集挖掘算法挖掘关联规则，最后，采用机器学习算法确定所挖掘的上述关联规则的关联关系，上述关联关系为事件关系。该方法中，通过频繁项集挖掘算法挖掘关联规则，后续采用机器学习算法确定所挖掘的上述关联规则的关联关系，相比现有技术中的判定方法，该方法可以实现事件关系的快速判定。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

需要说明的是，原始信息来源主要有两个，一个是自动爬取，一个是内容自制。将知识图谱中所有主题事件按时间排序，设定事件窗口大小为W，将所有事件按照事件窗口划分后作为后续关联规则挖掘的输入数据。例如下表所示：

T1＝1月	E1,E2
		T2＝2月	E3
T3＝3月	E4,E5
		T4＝4月	E1,E2,E3
T5＝5月	E2

假设知识图谱有5个主题事件，按照关联规则算法的定义，I＝{E1,E2,E3,E4,E5}称为项集，D＝{T1,T2,T3,T4,T5}称为数据库，T1～T5称为事务，每个事务都是I的子集，上述表格按月记录了每个事件发生的情况。关联规则算法的作用就是找出一些项集的关联规则，比如{E2,E3}＝>{E1}，表示如果E2和E3发生了，那么E1也很可能发生。

本申请的一种实施例中，上述主题事件有多个，构建上述事件知识图谱之前，上述方法还包括：确定元事件、不同的上述主题事件之间的关系、上述主题事件与实体的关系、实体属性以及事件属性，根据上述元事件、不同的上述主题事件之间的关系、上述主题事件与实体的关系、上述实体属性以及上述事件属性，更新主题事件、上述实体、事件属性值以及实体属性值。根据事件知识图谱基础架构，结合经济金融领域，建立事件知识图谱。其中，需要预先确定的有元事件，事件与事件关系，事件与实体关系，实体属性，事件属性等。需要动态添加或更新的有主题事件，实体，事件属性值，实体属性值。对于主题事件添加或更新的主要流程如下：首先使用事件抽取算法从原始数据中抽取主题事件(比如，从标题中，使用seq2seq算法生成主题事件)，然后用文本聚类算法将主题事件进行聚类，最后用文本分类算法判定主题事件属于哪种元事件(可能属于多个元事件)，事件属性必须包含时间属性。时间属性值为序列类型，因为同一事件可能发生多次，这样后续就能够更加准确地确定关联规则。

需要说明的是，上述元事件、不同的上述主题事件之间的关系、上述主题事件与实体的关系可能是因果、顺承、翻转、条件等关系，比如“美联储降息”和“黄金升值”这两个主题事件之间是因果关系，实体理解为一个名词，比如：工商银行、中国。本申请的一种实施例中，基于上述事务使用频繁项集挖掘算法，挖掘关联规则，包括：基于上述事务使用频繁项集挖掘算法，确定上述事务的所有频繁项集，根据上述频繁项集利用频繁项集生成规则，挖掘置信度高的上述关联规则。使用频繁项集挖掘算法找出描述的数据的所有频繁项集，利用频繁项集生成规则，找出置信度高的规则，项的集合称为项集，每一个项为主题事件，项集的出现频率是包含项集的事务数，简称为项集的频率，支持度计数或计数，定义项集的支持度有时称为相对支持度，出现的频率称为绝对支持度，如果项集的相对支持度满足预定义的最小支持度阈值，就是频繁项集，根据频繁项集生成的规则，找到置信度高的关联规则，可以提高数据的可靠度，在后续根据置信度求得频繁项集出现的概率。

需要说明的是，本申请的项集挖掘算法可以选择多种格式的挖掘算法，例如：FP-growth、Apriori，本申请适用于多种挖掘算法，技术人员可以根据需要选择合适的算法。

本申请的一种实施例中，上述频繁项集包括第一频繁项集和第二频繁项集，根据上述频繁项集利用频繁项集生成规则，挖掘置信度高的上述关联规则之后，且在采用机器学习算法确定所挖掘的上述关联规则的关联关系，上述关联关系为事件关系之前，上述方法还包括：确定第一概率和第二概率，上述第一概率为上述第一频繁项集出现的概率，上述第二概率为上述第二频繁项集出现的概率，上述第一频繁项集表示为X，上述第二频繁项集表示为Y，确定预定规则的置信度，上述预定规则表示为X＝>Y，确定上述预定规则的第一独立性，确定上述预定规则的第二独立性。项集X出现的概率定义为数据库中包含项目集X的事务数t与所有事务数T的比值，第一概率用p(X)表示，第二概率用p(Y)，即

且

例如，p({E1,E2})＝2/5＝0.4，p({E2})＝3/5＝0.6。

规则X＝>Y的置信度定义为p(X∪Y)与p(X)之比，即Conf(X＝>Y)＝p(X∪Y)/p(X)，例如，{E2,E3}＝>{E1}的置信度为Conf({E2,E3}＝>{E1})＝p({E1,E2,E3})/p({E2,E3})＝0.2/0.2＝1.0，Conf(X＝>Y)＝1.0意味着，如果X发生的话，那么Y也一定会发生。

一个规则X＝>Y的第一独立性(Lift)定义为

例如，Lift({E2,E3}＝>{E1})＝p({E1,E2,E3})/(p({E2,E3})P({E1}))＝0.2/(0.2*0.4)＝2.5，对于一个规则，如果Lift(X＝>Y)>1，表示X和Y有相互依赖关系，值越大依赖越大，如果Lift(X＝>Y)＝1，表示X和Y相互独立，如果Lift(X＝>Y)<1，表示X和Y相互排斥。

一个规则的第二独立性(Conviction)定义为

例如，Conv({E1,E2}＝>{E3})＝(0.4-0.4*0.4)/(0.4-0.2)＝1.2，Conviction类似于Lift，也是用来衡量X和Y之间的独立性，Conviction越大约说明X和Y越关联。Conviction主要用来表示X出现而Y不出现的概率，也就是关联规则X＝>Y预测错误的概率。如上例，Conv(X＝>Y)＝1.2表示这条规则有0.2的概率出错。这样就能够得到频繁项集的概率，确定预定规则的置信度，在后续可以更加高效准确地得到关联规则。

本申请的一种实施例中，采用机器学习算法确定所挖掘的上述关联规则的关联关系，包括：将上述第一频繁项集按上述时间排序并组合，确定第一频繁项集集合，将上述第二频繁项集按上述时间排序并组合，确定第二频繁项集集合，按照上述预定时间窗口对上述第一频繁项集集合和上述第二频繁项集集合分组，生成上述第一频繁项集集合的多个子集和上述第二频繁项集集合的多个子集，确定上述第一频繁项集集合的子集发生的第一时间和上述第二频繁项集集合的子集发生的第二时间，根据上述第一时间和上述第二时间生成上述预定规则对应的预定子规则，采用机器学习算法确定上述预定子规则的关联关系。使用机器学习的方法，自动判断提取的规则的关联关系。比如提取一项规则{黄金价格升高}＝>{美联储降息}，需要通过机器学习的算法，将这个规则分类为“果因关系”。可使用的机器学习的分类算法有很多，理论上都可以使用，以神经网络算法(BLSTM或transformer-Encoder等)作为例子，叙述分类过程。设训练集为{X_i＝>Y_i},i＝1,..,N，对应标注为{L_i},i＝1,...,N，其中L_i属于知识图谱中事件关系的集合，比如L_i＝“转折关系”，X_i和Y_i为主题事件是集合，X_i＝{X_i1,...,X_iM}，Y_i＝{Y_i1,...,Y_iK}。每个主题事件都有若干个发生时间，比如“美联储减息”一年中可能发生多次。

事件之间的相互影响具有时效性，对抽取的规则X＝>Y，使用设定的时间窗口归一化X和Y内的时间。比如，X＝{X₁,X₂},Y＝{Y₁}，X₁发生时间＝{3月15日，10月15日}，X₂发生时间＝{3月15日，10月15日，12月17日}，Y₁发生时间＝{3月15日，10月15日}。那么规则X＝>Y按时间切片成两个数据X_3月＝>Y_3月，X_10月＝>Y_10月。对于规则X＝>Y，网络输入的基本形式为X₁|X₂...|X_M<SEG>Y₁|Y₂...|Y_K，其中<SEG>是分割符，例如，X＝{X1,X2}＝{“美联储减息”，“GDP增速超过7％”}，Y＝{“黄金升值”}，输入网络的文本信息为:

美联储减息|GDP增速超过7％<SEG>黄金升值，

这样就可以判断规则的关联关系，并且将规则按照时间切片，在后续判定事件之间的关系中就可以根据预定的子规则判定这一时间内的时间之间的关系。

本申请的一种实施例中，采用机器学习算法确定上述预定子规则的关联关系，包括：对上述第一频繁项集集合的子集中的每个词和上述第二频繁项集集合的子集中的每个词进行嵌入，确定各上述词对应的第一嵌入向量，将各上述第一嵌入向量的和对应的时间向量相加，得到第二嵌入向量，根据上述第二嵌入向量和统计量得到第三嵌入向量，上述统计量由上述预定子规则对应的上述第一概率、上述第二概率、上述置信度、上述第一独立性和上述第二独立性组成，将上述第三嵌入向量输入神经网络训练，确定上述预定子规则的关联关系。对每个字(或词)做embedding，得到embedding向量。例如“美”做embedding后得到向量emb_美＝(0.12,0.023,...,0.06)。输入网络的文本信息embedding后为emb_美,...,emb_息,emb_|,...,emb_<SEG>,emb_黄,...,emb每个主题事件都有时间属性，给所有日期做编号，比如2019年3月15日编号为1,后面2019年3月16日编号为2，以此类推。

使用time-embedding，将所有主题事件的embedding加上对应的time-embedding。例如，假设time_{美联储减息}＝33,time_{GDP增速超过7％}＝342,time_黄金升值＝798，对时间编号直接使用embedding，向量大小与字词embedding一致，得到emb_X1，emb_X2，emb_Y。输入网络的数据变为：

emb美+embX1,...,emb息+embX1,emb|,...,emb<SEG>,emb黄+embY,...,emb值+embY，这里emb|＝0和emb<SEG>＝0。将统计量组合成向量T＝[p(X),p(Y),Confidence,Lift,Convictio]，然后追加(concat)到的embedding向量中。例如，上述例子的embedding变为：

[emb_美+emb_X1,T],...,[emb_息+emb_X1,T],[emb_|,T],...,[emb_<SEG>,T],[emb_黄+emb_Y,T],...,[emb_值+emb_Y,T]。

将上述embedding向量输入网络训练，得到事件关系分类网络，对于分类得分向量不明朗的情况，自动输出，由人工评判，这样就可以确定每个预定子规则时间的关联关系，进而可以判定元事件、不同的上述主题事件之间的关系、上述主题事件与实体的关系，但是由于机器可能存在不明确的情况，需要将结果输出，再由人工进行判定。

本申请的一种实施例中，上述原始数据包括至少以下之一：经济金融领域权威网站信息、经济金融领域权威报纸信息、经济金融领域权威期刊信息、经济金融领域权威杂志信息。

需要说明的是，金融领域权威网站、报纸、期刊、杂志等信息包括标题，摘要，正文等等，还可以从其他的权威的地方获取到原始数据，也可以自制补充内容信息，比如知识图谱关注的某支股票走势，将走势图转为一定格式的文本信息。

本申请的一种实施例中，上述预定时间窗口包括至少以下之一：一周、一个月、一季度、一年。

当然，上述的时间窗口可以根据实际情况来确定，例如可以选择两周，两个月，两个季度，半年，还可以选择其他合适的范围。

本申请的一种实施例中，上述关联关系包括至少以下之一：因果关系、转折关系、顺承关系、条件关系。

当然，上述的管理关系并不限于以上的一种方式，还可以是并列关系、承接关系、递进关系等等，具体需要根据实体属性以及事件属性来确定。

本申请实施例还提供了一种经济领域知识图谱事件关系自动抽取的装置，需要说明的是，本申请实施例的经济领域知识图谱事件关系自动抽取的装置可以用于执行本申请实施例所提供的用于经济领域知识图谱事件关系自动抽取的方法。以下对本申请实施例提供的经济领域知识图谱事件关系自动抽取的装置进行介绍。

图2是根据本申请实施例的经济领域知识图谱事件关系自动抽取的装置的示意图。如图2所示，该装置包括：

获取单元10，用于获取原始数据，上述原始数据为经济金融领域的数据；

构建单元20，根据事件知识图谱基础架构以及上述原始数据，构建上述事件知识图谱，上述事件知识图谱包括主题事件；

排序单元30，用于将上述主题事件按时间排序；

分组单元40，对排序后的上述主题事件按照预定时间窗口分组为多个事务，上述至少一个上述事务包括主题事件；

挖掘单元50，基于上述事务，采用频繁项集挖掘算法挖掘关联规则；

第一确定单元60，用于采用机器学习算法确定所挖掘的上述关联规则的关联关系，上述关联关系为事件关系。

上述的装置中，获取单元获取原始数据，上述原始数据为经济金融领域的数据，构建单元根据事件知识图谱基础架构以及上述原始数据，构建上述事件知识图谱，上述事件知识图谱包括主题事件，排序单元将上述主题事件按时间排序，分组单元对排序后的上述主题事件按照预定时间窗口分组为多个事务，上述至少一个上述事务包括主题事件，挖掘单元基于上述事务，采用频繁项集挖掘算法挖掘关联规则，第一确定单元采用机器学习算法确定所挖掘的上述关联规则的关联关系，上述关联关系为事件关系。该方法中，通过频繁项集挖掘算法挖掘关联规则，后续采用机器学习算法确定所挖掘的上述关联规则的关联关系，相比现有技术中的判定方法，该方法可以实现事件关系的快速判定。

需要说明的是，原始信息来源主要有两个，一个是自动爬取，一个是内容自制。将知识图谱中所有主题事件按时间排序，设定事件窗口大小为W，，将所有事件按照事件窗口划分后作为后续关联规则挖掘的输入数据。例如下表所示：

T1＝1月	E1,E2
		T2＝2月	E3
T3＝3月	E4,E5
		T4＝4月	E1,E2,E3
T5＝5月	E2

本申请的一种实施例中，上述装置还包括第二确定单元和更新单元，第二确定单元用于上述主题事件有多个，构建上述事件知识图谱之前，确定元事件、不同的上述主题事件之间的关系、上述主题事件与实体的关系、实体属性以及事件属性，更新单元用于根据上述元事件、不同的上述主题事件之间的关系、上述主题事件与实体的关系、上述实体属性以及上述事件属性，更新主题事件、上述实体、事件属性值以及实体属性值。根据事件知识图谱基础架构，结合经济金融领域，建立事件知识图谱。其中需要预先确定的有元事件，事件与事件关系，事件与实体关系，实体属性，事件属性等。需要动态添加或更新的有主题事件，实体，事件属性值，实体属性值，对于主题事件添加或更新的主要流程如下：首先使用事件抽取算法从原始数据中抽取主题事件(比如，从标题中，使用seq2seq算法生成主题事件)，然后用文本聚类算法将主题事件进行聚类，最后用文本分类算法判定主题事件属于哪种元事件(可能属于多个元事件)，事件属性必须包含时间属性。时间属性值为序列类型，因为同一事件可能发生多次，这样后续就能够更加准确地确定关联规则。

需要说明的是，上述元事件、不同的上述主题事件之间的关系、上述主题事件与实体的关系可能是因果、顺承、翻转、条件等关系，比如“美联储降息”和“黄金升值”这两个主题事件之间是因果关系，实体理解为一个名词，比如：工商银行、中国。

本申请的一种实施例中，挖掘单元包括第一确定模块和挖掘模块，第一确定模块用于基于上述事务使用频繁项集挖掘算法，确定上述事务的所有频繁项集，根据上述频繁项集利用频繁项集生成规则，挖掘置信度高的上述关联规则。使用频繁项集挖掘算法找出描述的数据的所有频繁项集，利用频繁项集生成规则，找出置信度高的规则，项的集合称为项集，每一个项为主题事件，项集的出现频率是包含项集的事务数，简称为项集的频率，支持度计数或计数，定义项集的支持度有时称为相对支持度，出现的频率称为绝对支持度，如果项集的相对支持度满足预定义的最小支持度阈值，就是频繁项集，根据频繁项集生成的规则，找到置信度高的关联规则，可以提高数据的可靠度，在后续根据置信度求得频繁项集出现的概率。

本申请的一种实施例中，上述装置还包括：第三确定单元、第四确定单元、第五确定单元和第六确定单元，第三确定单元用于上述频繁项集包括第一频繁项集和第二频繁项集，根据上述频繁项集利用频繁项集生成规则，挖掘置信度高的上述关联规则之后，且在采用机器学习算法确定所挖掘的上述关联规则的关联关系，上述关联关系为事件关系之前，确定第一概率和第二概率，上述第一概率为上述第一频繁项集出现的概率，上述第二概率为上述第二频繁项集出现的概率，上述第一频繁项集表示为X，上述第二频繁项集表示为Y，第四确定单元用于确定预定规则的置信度，上述预定规则表示为X＝>Y，第五确定单元用于确定上述预定规则的第一独立性，第六确定单元用于确定上述预定规则的第二独立性。项集X出现的概率定义为数据库中包含项目集X的事务数t与所有事务数T的比值，第一概率用p(X)表示，第二概率用p(Y)，即

且

例如，p({E1,E2})＝2/5＝0.4，p({E2})＝3/5＝0.6。

一个规则X＝>Y的第一独立性(Lift)定义为

一个规则的第二独立性(Conviction)定义为

本申请的一种实施例中，第一确定单元包括第二确定模块、第三确定模块、第一生成模块、第四确定模块、第二生成模块和第五确定模块，第二确定模块用于将上述第一频繁项集按上述时间排序并组合，确定第一频繁项集集合，第三确定模块用于将上述第二频繁项集按上述时间排序并组合，确定第二频繁项集集合，第一生成模块用于按照上述预定时间窗口对上述第一频繁项集集合和上述第二频繁项集集合分组，生成上述第一频繁项集集合的多个子集和上述第二频繁项集集合的多个子集，第四生成模块用于确定上述第一频繁项集集合的子集发生的第一时间和上述第二频繁项集集合的子集发生的第二时间，第二生成模块用于根据上述第一时间和上述第二时间生成上述预定规则对应的预定子规则，第五确定模块用于采用机器学习算法确定上述预定子规则的关联关系。使用机器学习的方法，自动判断提取的规则的关联关系。比如提取一项规则{黄金价格升高}＝>{美联储降息}，需要通过机器学习的算法，将这个规则分类为“果因关系”。可使用的机器学习的分类算法有很多，理论上都可以使用，以神经网络算法(BLSTM或transformer-Encoder等)作为例子，叙述分类过程。设训练集为{X_i＝>Y_i},i＝1,..,N，对应标注为{L_i},i＝1,...,N，其中L_i属于知识图谱中事件关系的集合，比如L_i＝“转折关系”，X_i和Y_i为主题事件是集合，X_i＝{X_i1,...,X_iM}，Y_i＝{Y_i1,...,Y_iK}。每个主题事件都有若干个发生时间，比如“美联储减息”一年中可能发生多次。

美联储减息|GDP增速超过7％<SEG>黄金升值，

本申请的一种实施例中，第五确定模块包括第一确定子模块、相加子模块、得到子模块和第二确定子模块，第一确定子模块用于对上述第一频繁项集集合的子集中的每个词和上述第二频繁项集集合的子集中的每个词进行嵌入，确定各上述词对应的第一嵌入向量，相加子模块用于将各上述第一嵌入向量的和对应的时间向量相加，得到第二嵌入向量，得到子模块用于根据上述第二嵌入向量和统计量得到第三嵌入向量，上述统计量由上述预定子规则对应的上述第一概率、上述第二概率、上述置信度、上述第一独立性和上述第二独立性组成，第二确定子模块用于将上述第三嵌入向量输入神经网络训练，确定上述预定子规则的关联关系。对每个字(或词)做embedding，得到embedding向量。例如“美”做embedding后得到向量emb_美＝(0.12,0.023,...,0.06)。输入网络的文本信息embedding后为：

emb_美,...,emb_息,emb_|,...,emb_<SEG>,emb_黄,...,emb。

每个主题事件都有时间属性，给所有日期做编号，比如2019年3月15日编号为1,后面2019年3月16日编号为2，以此类推。使用time-embedding，将所有主题事件的embedding加上对应的time-embedding。例如，假设time美联储减息＝33,timeGDP增速超过7％＝342,time黄金升值＝798，对时间编号直接使用embedding，向量大小与字词embedding一致，得到embX1，embX2，embY。输入网络的数据变为：

上述经济领域知识图谱事件关系自动抽取的装置包括处理器和存储器，上述获取单元、构建单元、排序单元、分组单元、挖掘单元和第一确定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高事件知识图谱的事件之间的关系判定效率。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述经济领域知识图谱事件关系自动抽取的方法。

本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述经济领域知识图谱事件关系自动抽取的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

步骤S103，将上述主题事件按时间排序；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

步骤S103，将上述主题事件按时间排序；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、本申请的经济领域知识图谱事件关系自动抽取的方法，首先，获取原始数据，上述原始数据为经济金融领域的数据，其次，根据事件知识图谱基础架构以及上述原始数据，构建上述事件知识图谱，上述事件知识图谱包括主题事件，之后，将上述主题事件按时间排序，之后，对排序后的上述主题事件按照预定时间窗口分组为多个事务，上述至少一个上述事务包括主题事件，之后，基于上述事务，采用频繁项集挖掘算法挖掘关联规则，最后，采用机器学习算法确定所挖掘的上述关联规则的关联关系，上述关联关系为事件关系。该方法中，通过频繁项集挖掘算法挖掘关联规则，后续采用机器学习算法确定所挖掘的上述关联规则的关联关系，相比现有技术中的判定方法，该方法可以实现事件关系的快速判定。

2)本申请的经济领域知识图谱事件关系自动抽取的装置，获取单元获取原始数据，上述原始数据为经济金融领域的数据，构建单元根据事件知识图谱基础架构以及上述原始数据，构建上述事件知识图谱，上述事件知识图谱包括主题事件，排序单元将上述主题事件按时间排序，分组单元对排序后的上述主题事件按照预定时间窗口分组为多个事务，上述至少一个上述事务包括主题事件，挖掘单元基于上述事务，采用频繁项集挖掘算法挖掘关联规则，第一确定单元采用机器学习算法确定所挖掘的上述关联规则的关联关系，上述关联关系为事件关系。该方法中，通过频繁项集挖掘算法挖掘关联规则，后续采用机器学习算法确定所挖掘的上述关联规则的关联关系，相比现有技术中的判定方法，该方法可以实现事件关系的快速判定。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种经济领域知识图谱事件关系自动抽取的方法，其特征在于，包括：

获取原始数据，所述原始数据为经济金融领域的数据；

根据事件知识图谱基础架构以及所述原始数据，构建所述事件知识图谱，所述事件知识图谱包括主题事件；

将所述主题事件按时间排序；

对排序后的所述主题事件按照预定时间窗口分组为多个事务，至少一个所述事务包括主题事件；

基于所述事务，采用频繁项集挖掘算法挖掘关联规则；

采用机器学习算法确定所挖掘的所述关联规则的关联关系，所述关联关系为事件关系。

2.根据权利要求1所述的方法，其特征在于，所述主题事件有多个，构建所述事件知识图谱之前，所述方法还包括：

确定元事件、不同的所述主题事件之间的关系、所述主题事件与实体的关系、实体属性以及事件属性；

根据所述元事件、不同的所述主题事件之间的关系、所述主题事件与实体的关系、所述实体属性以及所述事件属性，更新主题事件、所述实体、事件属性值以及实体属性值。

3.根据权利要求1所述的方法，其特征在于，基于所述事务使用频繁项集挖掘算法，挖掘关联规则，包括：

基于所述事务使用频繁项集挖掘算法，确定所述事务的所有频繁项集；

根据所述频繁项集利用频繁项集生成规则，挖掘置信度高的所述关联规则。

4.根据权利要求3所述的方法，其特征在于，所述频繁项集包括第一频繁项集和第二频繁项集，根据所述频繁项集利用频繁项集生成规则，挖掘置信度高的所述关联规则之后，且在采用机器学习算法确定所挖掘的所述关联规则的关联关系，所述关联关系为事件关系之前，所述方法还包括：

确定第一概率和第二概率，所述第一概率为所述第一频繁项集出现的概率，所述第二概率为所述第二频繁项集出现的概率，所述第一频繁项集表示为X，所述第二频繁项集表示为Y；

确定预定规则的置信度，所述预定规则表示为X＝>Y；

确定所述预定规则的第一独立性；

确定所述预定规则的第二独立性。

5.根据权利要求4所述的方法，其特征在于，采用机器学习算法确定所挖掘的所述关联规则的关联关系，包括：

将所述第一频繁项集按所述时间排序并组合，确定第一频繁项集集合；

将所述第二频繁项集按所述时间排序并组合，确定第二频繁项集集合；

按照所述预定时间窗口对所述第一频繁项集集合和所述第二频繁项集集合分组，生成所述第一频繁项集集合的多个子集和所述第二频繁项集集合的多个子集；

确定所述第一频繁项集集合的子集发生的第一时间和所述第二频繁项集集合的子集发生的第二时间；

根据所述第一时间和所述第二时间生成所述预定规则对应的预定子规则；

采用机器学习算法确定所述预定子规则的关联关系。

6.根据权利要求5所述的方法，其特征在于，采用机器学习算法确定所述预定子规则的关联关系，包括：

对所述第一频繁项集集合的子集中的每个词和所述第二频繁项集集合的子集中的每个词进行嵌入，确定各所述词对应的第一嵌入向量；

将各所述第一嵌入向量的和对应的时间向量相加，得到第二嵌入向量；

根据所述第二嵌入向量和统计量得到第三嵌入向量，所述统计量由所述预定子规则对应的所述第一概率、所述第二概率、所述置信度、所述第一独立性和所述第二独立性组成；

将所述第三嵌入向量输入神经网络训练，确定所述预定子规则的关联关系。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述原始数据包括至少以下之一：

经济金融领域权威网站信息、经济金融领域权威报纸信息、经济金融领域权威期刊信息、经济金融领域权威杂志信息。

8.根据权利要求1至6中任一项所述的方法，其特征在于，所述预定时间窗口包括至少以下之一：

一周、一个月、一季度、一年。

9.根据权利要求1至6中任一项所述的方法，其特征在于，所述关联关系包括至少以下之一：

因果关系、转折关系、顺承关系、条件关系。

10.一种经济领域知识图谱事件关系自动抽取的装置，其特征在于，包括：

获取单元，用于获取原始数据，所述原始数据为经济金融领域的数据；

构建单元，根据事件知识图谱基础架构以及所述原始数据，构建所述事件知识图谱，所述事件知识图谱包括主题事件；

排序单元，用于将所述主题事件按时间排序；

分组单元，对排序后的所述主题事件按照预定时间窗口分组为多个事务，至少一个所述事务包括主题事件；

挖掘单元，基于所述事务，采用频繁项集挖掘算法挖掘关联规则；

第一确定单元，用于采用机器学习算法确定所挖掘的所述关联规则的关联关系，所述关联关系为事件关系。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至9中任意一项所述的方法。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至9中任意一项所述的方法。