CN109800251A

CN109800251A - 一种关系发现方法和装置、计算机可读存储介质

Info

Publication number: CN109800251A
Application number: CN201910038593.3A
Authority: CN
Inventors: 梁秀钦
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-05-24

Abstract

本申请公开了一种关系发现方法和装置、计算机可读存储介质，所述方法包括：根据预设的关系抽取规则确定事件索引标识，所述事件索引标识包括事件标识、事件中的实体标识和实体的记录标识；对具有相同事件标识的不同实体标识进行两两配对，得到所述实体标识的关系人结果。本申请通过引入事件索引标识，多个事件的数据可以按标识分别进行存储，在关系发现时，通过对相同事件标识的不同实体标识进行两两配对，大大减少了关系计算的复杂度。

Description

一种关系发现方法和装置、计算机可读存储介质

技术领域

本申请涉及但不限于数据挖掘技术领域，尤其涉及一种关系发现方法和装置、计算机可读存储介质。

背景技术

关系网络是指在网络挖掘、金融分析、公共安全以及相关的链接关系分析领域中，专家定义或识别抽取的一系列实体及其间的关系所构成的网络结构。这些新场景中的关系网络类似在线社交网络，但是其容纳和覆盖的实体更加丰富多样。

在关系网络中，实体是指具有扩展属性的个体，例如，出行中的个人，社交中的特定人。公安领域中基于事件数据的挖掘定义了一类关系，该类关系旨在通过分析、挖掘、推理的方式找到实体之间的关系，所以该类关系称为隐性关系。当前隐性关系的发现主要依赖事件数据，比如火车出行、上网和旅店住宿等数据。

在隐性关系中有一类计算是针对多事件融合的实体关系，比如，隐性关系描述为在某个行政区划下，某个时间点出现的实体，那么我们认为这些实体之间具有该行政区划下的隐性关系。由于这些实体来自多个事件，比如，在某个行政区划下有火车事件、大巴事件和住宿事件等，我们把火车站、大巴车站、住宿地址统称为在某个行政区划。此外，当计算某个地方方圆1公里内的事件实体关系时，也需要融合多个事件的数据。

如图1所示，在针对多事件融合的关系计算中，当符合某个条件的实体数非常多时，增加一个实体将导致两两实体之间的关系对数成指数级增长，即产生组合爆炸问题。关系计算中的组合爆炸问题给存储和计算过程带来了严重考验。

现有技术一般使用分布式计算和存储平台来改善该问题，通过分布式计算可以加快计算速度，通过分布式存储结合一定的压缩技术可以减少存储数据，但是现有技术不能从根源上降低关系计算的复杂度和减少存储数据的指数级增长。

发明内容

本发明实施例提供了一种关系发现方法和装置、计算机可读存储介质，能够减少关系计算的复杂度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种关系发现方法，包括：

根据预设的关系抽取规则确定事件索引标识，所述事件索引标识包括事件标识、事件中的实体标识和实体的记录标识；

对具有相同事件标识的不同实体标识进行两两配对，得到所述实体标识的关系人结果。

在一实施例中，当所述预设的关系抽取规则包括对所述事件中的实体标识和/或实体的记录标识的过滤条件时，在确定所述事件索引标识之后，所述方法还包括：

根据所述事件中的实体标识和/或实体的记录标识的过滤条件，对确定的所述事件索引标识进行过滤。

在一实施例中，所述根据预设的关系抽取规则确定事件索引标识，包括：

根据所述预设的关系抽取规则确定聚类索引标识，所述聚类索引标识为属于同一组的一个或多个事件数据的组索引值；

获取所述聚类索引标识下的事件索引标识。

在一实施例中，在所述根据预设的关系抽取规则确定事件索引标识之前，所述方法还包括：

提取事件数据中关系发现所必需的字段并对其进行编码；

对所述编码后的数据构建索引标识，所述索引标识包括事件索引标识和/或聚类索引标识。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如以上任一项所述的关系发现方法的步骤。

本发明实施例还提供了一种关系发现装置，包括处理器及存储器，其中：所述处理器用于执行存储器中存储的程序，以实现如以上任一项所述的关系发现方法的步骤。

本发明实施例还提供了一种关系发现装置，包括索引确定模块和关系计算模块，其中：

索引确定模块，用于根据预设的关系抽取规则确定事件索引标识，所述事件索引标识包括事件标识、事件中的实体标识和实体的记录标识；

关系计算模块，用于对具有相同事件标识的不同实体标识进行两两配对，得到所述实体标识的关系人结果。

在一实施例中，当所述预设的关系抽取规则包括对所述事件中的实体标识和/或实体的记录标识的过滤条件时，所述索引确定模块还用于：

在一实施例中，所述索引确定模块具体用于：根据所述预设的关系抽取规则确定聚类索引标识，所述聚类索引标识为属于同一组的一个或多个事件数据的组索引值；获取所述聚类索引标识下的事件索引标识。

在一实施例中，所述装置还包括数据编码模块和索引构建模块，其中：

数据编码模块，用于提取事件数据中关系发现所必需的字段并对其进行编码；

索引构建模块，用于对所述编码后的数据构建索引标识，所述索引标识包括事件索引标识和/或聚类索引标识。

本发明实施例的技术方案，具有如下有益效果：

本发明实施例提供的关系发现方法和装置、计算机可读存储介质，通过引入事件索引标识，多个事件的数据可以按标识分别进行存储，在关系发现时，通过对相同事件标识的不同实体标识进行两两配对，大大减少了关系计算的复杂度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为相关技术中一种多事件融合的关系计算原理示意图；

图2为本发明实施例的一种关系发现方法的流程示意图；

图3为本发明实施例的一种事件索引标识的结构示意图；

图4为本发明实施例定义的一种索引文件的存储结构示意图；

图5为本发明实施例定义的一种结果文件的存储结构示意图；

图6为本发明实施例的一种关系发现装置的结构示意图；

图7为本发明实施例的另一种关系发现装置的结构示意图；

图8为本发明实施例的另一种关系发现方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

从事件数据中通过分析、挖掘、推理的方式提取出的关系称为隐性关系。隐性关系的发现主要是通过专家提供的规则经验或者通过关联分析出可信的模式。伙伴关系是本申请挖掘的一种隐性关系的类型，该关系是一种互为伙伴的隐性关系。

实体是产生事件的一个个体，是事件发生的主体，比如火车事件，它是以人为主，则这个实体就是某个人，而表示一个人的方式有多种，如：身份证，护照号，军官证等，所以有时也将一个具体表示一个人的唯一标识(Identifier，ID)作为一个实体。

实体信息即实体的详细信息，例如火车事件，有车次、车厢、座位号、发站、到站等信息。

实体与实体事件是可能存在的，显性关系表示关系已经客观存在，可以通过事实直接作出判断，比如亲属关系。而隐性关系就是无法通过简单信息就可以判断的，需要一定的计算规则从历史数据做一些统计和计算才能够确定他们是否存在规则，这种关系是一种可能性也就是满足某个规则的两个实体只是有非常大的可能有这个关系。关系规则是指社交网络分析、实体关系分析等场景中的一些相似、相近、相关关系的识别领域知识。关系规则的产生大多依赖专家的历史经验和大量数据案例分析得到。

事件数据是针对公安领域收集的一类关于实体的活动数据，如：出行、住宿、网吧等记录了实体在场所活动数据。

我们把实体之间发生相同事件的情景称为一种模式，如果该模式频繁度高就说明具有一定的真实性，比如：两个人同坐火车到某地，然后到相同宾馆入住，如果这样的偶然事件发生的次数多了，我们很容易判断两个人定然是认识的，或是同时一起出差，也可能是同学、老乡等。也就是说从偶然转换成必然是在一定模式下提高了出现的频次，当频次达到一个量的时候就发生了变化。所以通过频繁模式来找两个人的关系是一种实现的手段。频繁模式主要是通过挖掘主体人在多个事件中出现的频繁程度来确定是否存在一定的关系。

本发明实施例主要通过数据编码和构建索引的方式来解决关系计算中组合爆炸情况的计算复杂度和存储量大的问题。

如图2所示，根据本发明实施例的一种关系发现方法，包括如下步骤：

步骤201：根据预设的关系抽取规则确定事件索引ID，所述事件索引ID包括事件ID、事件中的实体ID和实体的记录ID；

在本实施例的一示例中，如图3所示，所述事件索引ID包括事件ID、事件中的实体ID和实体的记录ID，所述事件ID占用1个字节，用来定位不同的事件，例如火车事件、住宿事件等；所述实体ID占用8个字节，用来定位某个具体的实体，图3中的火车事件数据中的一行记录属于一个实体；所述记录ID占用1个字节，用来定位某个实体的具体第几条记录。

在本发明的一实施例中，当所述预设的关系抽取规则包括对所述事件中的实体ID和/或实体的记录ID的过滤条件时，在确定所述事件索引ID之后，所述方法还包括：

根据所述事件中的实体ID和/或实体的记录ID的过滤条件，对确定的所述事件索引ID进行过滤。

在该实施例的一示例中，假设过滤条件为计算给定的一个或多个实体的关系人，则需要使用给定的实体的实体ID，对确定的事件索引ID进行过滤，排除不包含这些实体的事件索引ID。

在该实施例的另一示例中，假设过滤条件包含一个或多个实体的属性值，例如：实体的属性必须为“男性”或“汉族”，则需要使用给定的实体的属性值，对确定的事件索引ID进行过滤，排除不包含这些属性值的事件索引ID。

在本发明的另一实施例中，所述根据预设的关系抽取规则确定事件索引ID，包括：

根据所述预设的关系抽取规则确定聚类索引ID，所述聚类索引ID为属于同一组的一个或多个事件数据的组索引值；

获取所述聚类索引ID下的事件索引ID。

在该实施例中，如图4所示，在用于存储所述事件索引ID和聚类索引ID的索引文件中，首先存储聚类索引ID数，然后存储各个聚类索引ID的聚类索引ID、对应事件索引ID个数、第一个事件索引ID的对应偏移位置，接着存储各个聚类索引ID下的事件索引ID。

这里需要说明下聚类索引ID，比如，假设当前计算的是在某街道行政区划下的隐性关系，聚类索引ID可以是这个街道行政区划编码，这个街道行政区划编码下的所有事件索引ID中包含的实体ID关系对数，就是在当前聚类索引ID下的实体ID关系对数。再如，假设当前计算的是相同乘车日期并且相同车次和相同车厢情况下的隐性关系，聚类索引ID就是根据乘车日期、车次和车厢产生的一个组索引值。

在本发明的一实施例中，所述方法之前还包括：提取事件数据中关系发现所必需的字段并对其进行编码；

对所述编码后的数据构建索引ID，所述索引ID包括事件索引ID和/或聚类索引ID。

例如：在火车乘车事件中，原始数据的每一行都包括乘车人、乘车日期、车次、车厢、座位号、始发站、到达站、售票窗口、售票员、售票火车站、订票日期等等很多信息，从这些数据中提取关系计算所需要的数据列(比如：乘车人、乘车日期、车次、车厢、始发站、到达站)并对其进行编码。在该阶段之后，原始数据变成了以实体为关键字(Key)，以实体以外的字段为数据列(Value)的数据结构。

需要说明的是，本申请定义的索引ID，需满足以下几点要求：

1)各种类型的索引ID占用字节长度应一致，目的是在后续关系发现时，方便使用高效的索引查找算法；

2)各种类型的索引ID占用字节应尽量少，目的是减少各索引ID存储的空间；

3)各种类型的索引ID能快速定位到原事件记录：索引ID只是提供事件记录的查找，在关系发现时，还是需要使用事件数据来完成关系的计算。

步骤102：对具有相同事件ID的不同实体ID进行两两配对，得到所述实体ID的关系人结果。

本申请通过在构建的事件ID索引的基础上来进行关系发现，假设设定的关系抽取规则为火车同车次同车厢3次，那么我们选择火车同车次同车厢的事件ID索引，然后对该事件ID索引中记录的Key来实现两两碰撞。

在本发明的一实施例中，如图5所示，在用于存储所述关系人结果的结果文件中，首先存储实体个数，然后存储各个实体的实体ID、各个实体对应关系人个数、各个实体第一个关系人的对应偏移位置，接着存储各个实体对应的关系人。

总体来说，通过实体个数，我们可以知道结果文件中存储了多少个实体的关系对，通过每个实体存储的对应关系人个数和第一个关系人的对应偏移位置，可以得到该实体所有的关系人。

在本实施例的一示例中，所述实体个数可以占用4个字节，各个实体和关系人通过实体ID来标识，可以占用8个字节，各个实体对应关系人个数可以占用4个字节，第一个关系人的对应偏移位置可以占用4个字节。

如图6所示，根据本发明实施例的一种关系发现装置，包括索引确定模块601和关系计算模块602，其中：

索引确定模块601，用于根据预设的关系抽取规则确定事件索引ID，所述事件索引ID包括事件ID、事件中的实体ID和实体的记录ID；

关系计算模块602，用于对具有相同事件ID的不同实体ID进行两两配对，得到所述实体ID的关系人结果。

在本实施例的一示例中，如图3所示，所述事件ID占用1个字节，用来定位不同的事件，例如火车事件、住宿事件等；所述实体ID占用8个字节，用来定位具体是哪一个实体，图3中的火车事件数据中的一行记录属于一个实体；所述记录ID占用1个字节，用来定位某个实体的具体第几条记录。

在本发明的一实施例中，当所述预设的关系抽取规则包括对所述事件中的实体ID和/或实体的记录ID的过滤条件时，所述索引确定模块601还用于：

在本发明的另一实施例中，所述索引确定模块601的根据预设的关系抽取规则确定事件索引ID，包括：

获取所述聚类索引ID下的事件索引ID。

这里需要说明下聚类索引ID，比如，假设当前计算的是在某街道行政区划下的隐性关系，聚类索引ID可以是这个街道行政区划编码，这个街道行政区划编码下的所有事件索引ID就是在当前聚类索引ID下的索引关系对。再如，假设当前计算的是相同乘车日期并且相同车次和相同车厢情况下的隐性关系，聚类索引ID就是根据乘车日期、车次和车厢产生的一个组索引值。

在本发明的一实施例中，如图7所示，所述装置还包括数据编码模块603和索引构建模块604，其中：

数据编码模块603，用于提取事件数据中关系发现所必需的字段并对其进行编码；

索引构建模块604，用于对所述编码后的数据构建索引ID，所述索引ID包括事件索引ID和/或聚类索引ID。

数据编码模块603从原始数据中提取在关系计算时所需要的数据列，并对数据列进行编码，例如：在火车乘车事件中，原始数据的每一行都包括乘车人、乘车日期、车次、车厢、座位号、始发站、到达站、售票窗口、售票员、售票火车站、订票日期等等很多信息，数据编码模块603从这些数据中提取关系计算所需要的数据列(比如：乘车人、乘车日期、车次、车厢、始发站、到达站)并对其进行编码。在该阶段之后，原始数据变成了以实体为关键字(Key)，以实体以外的字段为数据列(Value)的数据结构。

在本发明的一实施例中，如图5所示，在用于存储所述关系人结果的结果文件中，首先存储实体个数，然后存储各个实体的实体ID、各个实体的对应关系人个数、各个实体的第一个关系人的对应偏移位置，接着存储各个实体对应的关系人。

图8为根据本发明实施例的一种关系发现方法的具体流程示意图。以下参考图8，详细说明本发明实施例提供的关系发现过程，这个过程针对关系计算方法分成两大步，其一是选择计算引擎，其二是完成关系规则中的条件过滤。

一、选择关系计算引擎

整个流程针对关系计算，分成两种计算引擎方式来实现，分别是在线引擎和离线引擎：

1)在线引擎方式：主要考虑给定部分实体计算其隐性关系人，我们通过读取索引文件，分别遍历每个聚合索引ID，然后找到包括所述给定部分实体的事件索引集合，然后找到这些事件索引集合中包含的给定部分实体的隐性关系人；

2)离线引擎方式：主要考虑计算全部实体之间的隐性关系，然后生成最终的关系结果文件。这种计算方式通过读取索引文件，遍历每个聚合索引ID，然后遍历聚合索引ID下的所有事件索引ID，分别完成两两组合关系生成，最终生成结果文件。

二、选择关系规则条件过滤

针对关系计算中条件过滤的情况，主要考虑无条件过滤和有条件过滤：

1)无条件过滤：针对无条件过滤的隐性关系，在关系计算中，无需加载原始的事件数据，因为不用处理关系条件过滤事件记录，索引在计算中直接使用索引数据即可完成关系计算。

2)有条件过滤：针对有条件过滤的隐性关系计算，需要在计算时加载事件数据，因为要从事件数据中过滤出需要的事件，比如过滤指定地点的事件。

本申请通过引入索引的方式来给事件记录做索引处理，提前通过隐性关系规则完成索引的构建，减少了计算时内存的大小，加快了计算速度；进一步地，通过使用本申请定义的结果文件结构，减少了结果数据；进一步地，通过使用数据编码对事件数据进行压缩，减少了存储数据的指数级增长。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上仅为本申请的优选实施例，当然，本申请还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本申请所附的权利要求的保护范围。

Claims

1.一种关系发现方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，当所述预设的关系抽取规则包括对所述事件中的实体标识和/或实体的记录标识的过滤条件时，在确定所述事件索引标识之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据预设的关系抽取规则确定事件索引标识，包括：

获取所述聚类索引标识下的事件索引标识。

4.根据权利要求1或3任一所述的方法，其特征在于，在所述根据预设的关系抽取规则确定事件索引标识之前，所述方法还包括：

提取事件数据中关系发现所必需的字段并对其进行编码；

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至3中任一项所述的关系发现方法的步骤。

6.一种关系发现装置，其特征在于，包括处理器及存储器，其中：所述处理器用于执行存储器中存储的程序，以实现如权利要求1至3中任一项所述的关系发现方法的步骤。

7.一种关系发现装置，其特征在于，包括索引确定模块和关系计算模块，其中：

8.根据权利要求7所述的装置，其特征在于，当所述预设的关系抽取规则包括对所述事件中的实体标识和/或实体的记录标识的过滤条件时，所述索引确定模块还用于：

9.根据权利要求7所述的装置，其特征在于，所述索引确定模块具体用于：根据所述预设的关系抽取规则确定聚类索引标识，所述聚类索引标识为属于同一组的一个或多个事件数据的组索引值；获取所述聚类索引标识下的事件索引标识。

10.根据权利要求7或9任一所述的装置，其特征在于，还包括数据编码模块和索引构建模块，其中：