CN109815270B

CN109815270B - 一种关系计算的方法、装置、计算机存储介质及终端

Info

Publication number: CN109815270B
Application number: CN201910038619.4A
Authority: CN
Inventors: 齐云飞
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2020-11-27
Anticipated expiration: 2039-01-16
Also published as: CN109815270A

Abstract

一种关系计算的方法、装置、计算机存储介质及终端，包括：从原始数据整理获得标准数据；按照预设的分层结构对标准数据进行整理，获得分层结构数据；根据获得的分层结构数据进行关系计算。本发明实施例降低了关系计算的应用难度，提升了关系计算系统的适用性。

Description

一种关系计算的方法、装置、计算机存储介质及终端

技术领域

本文涉及但不限于知识图谱技术，尤指一种关系计算的方法、装置、计算机存储介质及终端。

背景技术

关系计算是知识图谱的基石，是构建知识图谱最重要的组成部分。如果能够构建出全面、准确、丰富的关系网络，则对于实体分析、团伙挖掘(团伙挖掘是相关技术中根据建立好关系组成关系图，在图上做关联规则挖掘最后形成一个团)等实际项目的效果会带来显著的提高。

随着大数据技术的发展，相关技术解决关系计算等问题大多采用大数据技术，使用开源项目将传统数据库和Hive(Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的结构化查询语言(sql)查询功能，可以将sql语句转换为映射规约(MapReduce)任务进行运行)进行对接，之后通过Hive进行多表关系融合和整理，存储在Hadoop上，最后使用SparkSQL计算关系。

基于大数据的关系计算，存在以下问题：1、Hadoop生态圈目前还不稳定，其版本更新速度快，且各个版本之间还可能存在兼容问题；再加上各厂商会开发自身的大数据平台，各大数据平台缺乏统一标准，增加了适配工作；2、Hadoop生态系统组件众多，对于实施和维护人员的要求也有所提高，增加了人力消耗；3、Hadoop生态是集群环境，在生产环境至少需要搭建3台以上服务器，硬件成本高。综上，如何降低关系计算的应用难度，提升关系计算系统的适用性，成为目前需要解决的一个问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种关系计算的方法、装置、计算机存储介质及终端，能够降低关系计算的应用难度，提升关系计算系统的适用性。

本发明实施例提供了一种关系计算的方法，包括：

从原始数据整理获得标准数据；

按照预设的分层结构对标准数据进行整理，获得分层结构数据；其中，各所述分层结构数据包括对应于实体、索引值和进行关系计算的标准数据的存储位置的分层；按照预设的分层结构对标准数据进行整理包括：在所述实体的所在层，添加所述实体对应的所述标准数据的存储位置信息；在所述索引值的所在层，添加所述索引值对应的标准数据的所述标准数据的存储位置信息；在所述进行关系计算的标准数据的存储位置的所在层，添加同时符合当前分层结构数据的实体和索引值的标准数据的存储位置；

根据获得的分层结构数据进行关系计算；其中，所述根据获得的分层结构数据进行关系计算包括：根据所述分层结构数据的实体和索引值生成：实体与索引值组成的第一索引结构信息、和索引值与实体组成的第二索引结构信息；从当前第一索引结构信息提取出实体，将其作为第一实体；根据预先设置的关系计算的规则，确定对第一实体进行过滤的过滤相关参数；根据确定的过滤相关参数对标准数据进行过滤后，确定符合关系计算的对应于所述第一实体的标准数据；符合第一实体的进行关系计算的标准数据满足预设的条数要求时，从当前第二索引结构信息提取出第二实体；确定当前第二索引结构信息中与第一实体的索引值相同的第二实体；根据确定的过滤相关参数对标准数据进行过滤后，确定符合关系计算的对应于所述第二实体的标准数据；对确定的符合关系计算的对应于所述第一实体的标准数据、和符合关系计算的对应于所述第二实体的标准数据，进行除实体外其他信息的比对，获得关系计算结果；所述过滤相关参数包括：数据列的取值范围和/或所述标准数据的有效条件。

可选的，所述从原始数据整理获得标准数据包括：

按照预设的字节数分块读取所述原始数据；

对读取的每一块所述原始数据，解析并存储所述原始数据的每一行；

从按行存储的数据中，提取关系计算所需的数据列；

将提取的数据列，按照预设的编码格式进行转换后，获得所述标准数据。

可选的，所述根据获得的分层结构数据进行关系计算之前，所述方法还包括：

将同一实体的所述分层结构数据，按照预设整合策略合并存储在同一分片内。

可选的，所述方法还包括：

根据所述索引值的不同，将所述分层结构数据进行分组存储。

可选的，所述索引值包括：

在所述标准数据中，根据关系计算确定的一项或一项以上数据列的取值。

可选的，所述符合第一实体的进行关系计算的标准数据不满足预设的条数要求时，所述方法还包括：

根据在后一个第一索引结构信息和第二索引结构信息，进行关系计算。

另一方面，本发明实施例还提供一种关系计算的装置，包括：第一单元、第二单元和计算单元；其中，

第一单元用于：从原始数据整理获得标准数据；

第二单元用于：对标准数据通过以下整理，获得包括对应于实体、索引值和进行关系计算的标准数据的存储位置的分层的分层结构数据：在实体的所在层，添加实体对应的标准数据的存储位置信息；在索引值的所在层，添加索引值对应的标准数据的标准数据的存储位置信息；在进行关系计算的标准数据的存储位置的所在层，添加同时符合当前分层结构数据的实体和索引值的标准数据的存储位置；

计算单元用于：根据所述分层结构数据的实体和索引值生成：实体与索引值组成的第一索引结构信息、和索引值与实体组成的第二索引结构信息；从当前第一索引结构信息提取出实体，将其作为第一实体；根据预先设置的关系计算的规则，确定对第一实体进行过滤的过滤相关参数；根据确定的过滤相关参数对标准数据进行过滤后，确定符合关系计算的对应于所述第一实体的标准数据；符合第一实体的进行关系计算的标准数据满足预设的条数要求时，从当前第二索引结构信息提取出第二实体；确定当前第二索引结构信息中与第一实体的索引值相同的第二实体；根据确定的过滤相关参数对标准数据进行过滤后，确定符合关系计算的对应于所述第二实体的标准数据；对确定的符合关系计算的对应于所述第一实体的标准数据、和符合关系计算的对应于所述第二实体的标准数据，进行除实体外其他信息的比对，获得关系计算结果；所述过滤相关参数包括：数据列的取值范围和/或所述标准数据的有效条件。

可选的，所述第一单元具体用于：

按照预设的字节数分块读取所述原始数据；

从按行存储的数据中，提取关系计算所需的数据列；

可选的，所述装置还包括存储单元，用于：

可选的，所述存储单元还用于：

可选的，所述索引值包括：

可选的，所述计算单元还用于：

判断出符合第一实体的进行关系计算的标准数据不满足预设的条数要求时，根据在后一个第一索引结构信息和第二索引结构信息，进行关系计算。

再一方面，本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行上述关系计算的方法。

还一方面，本发明实施例还提供一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：

从原始数据整理获得标准数据；

与相关技术相比，本申请技术方案包括：从原始数据整理获得标准数据；按照预设的分层结构对标准数据进行整理，获得分层结构数据；根据获得的分层结构数据进行关系计算。本发明实施例降低了关系计算的应用难度，提升了关系计算系统的适用性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例关系计算的方法的流程图；

图2为本发明实施例关系计算的装置的结构框图；

图3为本发明应用示例分层结构数据的组成示意图；

图4为本发明应用示例进行关系计算的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例关系计算的方法的流程图，如图1所示，包括：

步骤101、从原始数据整理获得标准数据；

可选的，本发明实施例所述从原始数据整理获得标准数据包括：

按照预设的字节数分块读取所述原始数据；

从按行存储的数据中，提取关系计算所需的数据列；

需要说明的是，本发明实施例可以根据换行符解析出原始数据的每一行。

步骤102、按照预设的分层结构对标准数据进行整理，获得分层结构数据；

可选的，各所述分层结构数据包括对应于实体、索引值和进行关系计算的标准数据的存储位置的分层，本发明实施例按照预设的分层结构对标准数据进行整理，获得分层结构数据包括：

在所述实体的所在层，添加所述实体对应的所述标准数据的存储位置信息；

在所述索引值的所在层，添加所述索引值对应的标准数据的所述标准数据的存储位置信息；

在所述进行关系计算的标准数据的存储位置的所在层，添加同时符合当前分层结构数据的实体和索引值的标准数据的存储位置。

步骤103、根据获得的分层结构数据进行关系计算。

可选的，所述根据获得的分层结构数据进行关系计算之前，本发明实施例方法还包括：

可选的，本发明实施例方法还包括：

可选的，本发明实施例索引值包括：

可选的，本发明实施例根据获得的分层结构数据进行关系计算包括：

根据所述分层结构数据的实体和索引值生成：实体与索引值组成的第一索引结构信息、和索引值与实体组成的第二索引结构信息；

从当前第一索引结构信息提取出实体，将其作为第一实体；

根据预先设置的关系计算的规则，确定对第一实体进行过滤的过滤相关参数；

根据确定的过滤相关参数对标准数据进行过滤后，确定符合关系计算的对应于所述第一实体的标准数据；

符合第一实体的进行关系计算的标准数据满足预设的条数要求时，从当前第二索引结构信息提取出第二实体；

确定当前第二索引结构信息中与第一实体的索引值相同的第二实体；

根据确定的过滤相关参数对标准数据进行过滤后，确定符合关系计算的对应于所述第二实体的标准数据；

对确定的符合关系计算的对应于所述第一实体的标准数据、和符合关系计算的对应于所述第二实体的标准数据，进行除实体外其他信息的比对，获得关系计算结果；

其中，所述过滤相关参数包括：数据列的取值范围和/或所述标准数据的有效条件。

可选的，符合第一实体的进行关系计算的标准数据不满足预设的条数要求时，本发明实施例方法还包括：

可选的，本发明实施例根据确定的过滤相关参数对标准数据进行过滤包括：

比较第二实体和第一实体的大小，确定第二实体比第一实体大的标准数据；根据确定的过滤相关参数，对确定第二实体比第一实体大的标准数据进行过滤。

图2为本发明实施例关系计算的装置的结构框图，如图2所示，包括：第一单元、第二单元和计算单元；其中，

第一单元用于：从原始数据整理获得标准数据；

可选的，本发明实施例第一单元具体用于：

按照预设的字节数分块读取所述原始数据；

从按行存储的数据中，提取关系计算所需的数据列；

第二单元用于：按照预设的分层结构对标准数据进行整理，获得分层结构数据；

可选的，本发明实施例分层结构数据包括对应于实体、索引值和进行关系计算的标准数据的存储位置的分层，所述第二单元具体用于：

计算单元用于：根据获得的分层结构数据进行关系计算。

可选的，本发明实施例装置还包括存储单元，用于：

可选的，本发明实施例存储单元还用于：

可选的，本发明实施例索引值包括：

可选的，本发明实施例计算单元具体用于：

从当前第一索引结构信息提取出实体，将其作为第一实体；

可选的，本发明实施例计算单元还用于：

可选的，本发明实施例计算单元用于根据确定的过滤相关参数对标准数据进行过滤包括：

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行上述关系计算的方法。

本发明实施例还提供一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：

从原始数据整理获得标准数据；

按照预设的分层结构对标准数据进行整理，获得分层结构数据；

根据获得的分层结构数据进行关系计算。

以下通过应用示例对本发明实施例方法进行清楚详细的说明，应用示例仅用于陈述本发明，并不用于限定本发明的保护范围。

应用示例

本发明应用示例旨在通过独立的服务器对吉比特(GB)级数据量的信息(比如铁路乘车数据)进行关系计算，确定实体之间是否存在关系。包括：分块读取数据；提取计算字段并进行编码压缩，以缩小数据在内存中占用的字节；使用分片技术将数据划分成多个分片；根据关系计算规则构建计算索引；以索引为入口判断实体是否存在关系。鉴于无需使用Hadoop生态系统，所以可以避免和Hadoop相关的问题；由于采用独立服务器，因此也不存在分布式系统的问题。

本发明应用示例标准数据是指某一种实体或事件在关系计算时所需要的数据列；所谓的标准数据构建包括从原始数据中提取关系计算所需的数据列，并对提取的数据列进行编码的过程。原始数据可以包括火车乘车数据、住宿数据、民航数据、卡口数据、网吧数据等；以火车乘车数据为例，火车乘车数据包括：乘车人、乘车日期、车次、车厢、座位号、始发站、到达站、售票窗口、售票员、售票火车站、订票日期等信息；标准数据构建就是从火车乘车数据中提取关系计算需要的数据列(比如：乘车人、乘车日期、车次、车厢、始发站、到达站)。本发明应用示例，标准数据构建包括：

1、读取原始数据；为了减少磁盘输入输出(IO)操作，本发明应用示例按照预设的字节数分块读取原始数据；这里，预设的字节数作为系统参数，可以根据原始数据和计算机内存的大小，由本领域技术人员分析确定。本发明应用示例可以默认一个分块的字节数为56兆(M)；技术人员可以根据计算机内存大小进行调整，字节数大小可以通过系统配置文件实现配置调整；理论上只要指定的字节数不超过机器最大内存均可；对读取的每一块原始数据，根据换行符解析出数据的每一行，并将解析出的每一行数据按行存储；本发明应用示例将按行存储数据后，将数据传输到数据队列中，已进行后续处理。

2、从按行存储的数据中，提取关系计算所需的数据列；本发明应用示例，按行存储的数据中包含多个数据列，但并非所有数据列对关系计算都是必须，所以只提取出关系计算需要用到的数据列，需要提取的数据列可以根据关系计算的不同通过配置文件指定；提取的数据列可以根据关系计算的内容进行确定，提取的数据列可以理解为关系数据库中的数据列。仍以火车乘车数据为例，数据列可以包括：乘车人、车次、车厢等信息；将提取的数据列，按照预设的编码格式进行编码转换后，获得标准数据；本发明应用示例将每一列数据列编码成字节大小相同的二进制数据；这里，不同数据列转换获得的字节因为数据列的不同可能不相同，比如身份证是8字节，车次是3字节。

3、按照预设的分层结构对标准数据进行整理，获得分层结构数据；

本发明应用示例分层结构数据包括对应于实体、索引值和进行关系计算的标准数据的存储位置的分层，按照预设的分层结构对标准数据进行整理，获得分层结构数据包括：在实体的所在层，添加实体对应的所述标准数据的存储位置信息；在索引值的所在层，添加索引值对应的标准数据的标准数据的存储位置信息；在进行关系计算的标准数据的存储位置的所在层，添加同时符合当前分层结构数据的实体和索引值的标准数据的存储位置。

需要说明的是，进行关系计算的标准数据的存储位置可以包括：进行关系计算的标准数据，在合并处理后的标准数据的排序；

图3为本发明应用示例分层结构数据的组成示意图，如图3所示，第一层包括：实体、第一偏移量和该实体对应的标准数据的长度；其中，偏移量用于指示实体对应的标准数据的存储路径；第二层包括：索引值、第二偏移量和该索引值对应的标准数据的长度；第三层用于记录实体为第一层的实体、和索引值与第二层索引值相同的标准数据的存储位置；

可选的，根据获得的分层结构数据进行关系计算之前，本发明应用示例方法还包括：

将同一实体的分层结构数据，按照预设整合策略合并存储在同一分片内。

需要说明的是，合并处理的方法可以参照相关技术中已有的多路归并方式进行。

可选的，本发明应用示例可以以实体作为关键字，参照相关技术对关键字进行哈希运算后，根据哈希运算结果及分片数，确定各实体对应的标准数据的存储的分片。

可选的，本发明应用示例方法还包括：

根据索引值的不同，将分层结构数据进行分组存储。

本发明应用示例通过分组存储，可以提高关系计算的效率。

可选的，本发明应用示例方法还包括：根据实体和索引值生成：由实体和索引值组成的第一索引结构信息，和由索引值和实体组成的第二索引结构信息；其中，第一索引结构信息可以用于说明实体相同的标准数据中哪些索引值。

需要说明的是，本发明应用示例第一索引结构信息和第二索引结构信息也可以采用分层结构数据进行存储。

以下以火车乘车数据为例，基于关系计算需要使用同一时间同一车次的数据为例，进行标准数据的存储，可以包括：

逐条遍历标准数据，对每一个实体取出的标准数据，提取构建索引值的字段，即时间和车次；将同一实体的数据合并后，将相同的索引值的实体存储在一起，并记录生成该索引值的标准数据在所有标准数据中的排序；生成第一索引结构信息和第二索引结构信息。

完成数据存储后，本发明应用示例进行关系计算，图4为本发明应用示例进行关系计算的方法流程图，如图4所示，包括：

步骤401、根据分层结构数据的实体和索引值生成：实体与索引值组成的第一索引结构信息、和索引值与实体组成的第二索引结构信息；

步骤402、从当前第一索引结构信息提取出实体，将其作为第一实体；

步骤403、根据预先设置的关系计算的规则，确定对第一实体进行过滤的过滤相关参数；

步骤404、根据确定的过滤相关参数对标准数据进行过滤后，确定符合关系计算的对应于第一实体的标准数据；

步骤405、符合第一实体的进行关系计算的标准数据满足预设的条数要求时，从当前第二索引结构信息提取出第二实体；

步骤406、确定当前第二索引结构信息中与第一实体的索引值相同的第二实体；

步骤407、根据确定的过滤相关参数对标准数据进行过滤后，确定符合关系计算的对应于所述第二实体的标准数据；

步骤408、对确定的符合关系计算的对应于第一实体的标准数据、和符合关系计算的对应于第二实体的标准数据，进行除实体外其他信息的比对，获得关系计算结果；

其中，过滤相关参数包括：数据列的取值范围和/或标准数据的有效条件。

需要说明的是，本发明应用示例数据列的取值范围可以包括对实体属性的取值范围，例如：对年龄、性别的限定，比如：年龄小于40岁，性别是男性；标准数据的有效条件可以包括用于对关系计算的数据的时间限定，例如，时间发生在2018年12月01日以后的数据；满足预设的条数要求可以由本领域技术人员参照场景不同进行设置，可以是大于预设的第一次数阈值，也可以是小于预设的第二次数阈值。

可选的，本发明应用示例方法还包括：

比较第二实体和第一实体的大小，从第二实体比第一实体大的标准数据中，根据相关参数对标准数据进行过滤；通过该处理，可以减少关系计算时的比对次数。

可选的，本发明应用示例方法还包括：

对关系计算获得的数据对进行去重处理。

需要说明的是，本发明应用示例可以将第二实体进行哈希运算获得哈希值，比较计算获得的哈希值与第一实体的大小；

本发明应用示例关系计算的结果依然可以采用分层结构数据进行存储，一共三层，第一层为第一实体，第二层为第二实体，第三层为关系计算获得的数据对。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的每个模块/单元可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种关系计算的方法，其特征在于，包括：

从原始数据整理获得标准数据；

按照预设的分层结构对标准数据进行整理，获得分层结构数据；其中，各所述分层结构数据包括对应于实体、索引值和进行关系计算的标准数据的存储位置的分层；所述按照预设的分层结构对标准数据进行整理包括：在所述实体的所在层，添加所述实体对应的所述标准数据的存储位置信息；在所述索引值的所在层，添加所述索引值对应的标准数据的所述标准数据的存储位置信息；在所述进行关系计算的标准数据的存储位置的所在层，添加同时符合当前分层结构数据的实体和索引值的标准数据的存储位置；

2.根据权利要求1所述的方法，其特征在于，所述从原始数据整理获得标准数据包括：

按照预设的字节数分块读取所述原始数据；

从按行存储的数据中，提取关系计算所需的数据列；

3.根据权利要求1所述的方法，其特征在于，所述根据获得的分层结构数据进行关系计算之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3～4任一项所述的方法，其特征在于，所述索引值包括：

6.根据权利要求1所述的方法，其特征在于，所述符合第一实体的进行关系计算的标准数据不满足预设的条数要求时，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述根据确定的过滤相关参数对标准数据进行过滤包括：

8.一种关系计算的装置，其特征在于，包括：第一单元、第二单元和计算单元；其中，

第一单元用于：从原始数据整理获得标准数据；

9.根据权利要求8所述的装置，其特征在于，所述第一单元具体用于：

按照预设的字节数分块读取所述原始数据；

从按行存储的数据中，提取关系计算所需的数据列；

10.根据权利要求8所述的装置，其特征在于，所述装置还包括存储单元，用于：

11.根据权利要求10所述的装置，其特征在于，所述存储单元还用于：

12.根据权利要求10～11任一项所述的装置，其特征在于，所述索引值包括：

13.根据权利要求8所述的装置，其特征在于，所述计算单元还用于：

14.根据权利要求8所述的装置，其特征在于，所述计算单元用于根据确定的过滤相关参数对标准数据进行过滤包括：

15.一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～7中任一项所述的关系计算的方法。

16.一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：

从原始数据整理获得标准数据；