CN110716970A

CN110716970A - 异构数据同构化处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110716970A
Application number: CN201810678020.2A
Authority: CN
Inventors: 杨双全; 张阳; 熊云
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2020-01-21
Anticipated expiration: 2038-06-27
Also published as: CN110716970B

Abstract

本申请提出一种异构数据同构化处理方法、装置计算机设备及存储介质，其中，方法包括：获取待处理的第一源数据及第二源数据，其中，所述第一源数据与所述第二源数据为异构数据；将所述第一源数据进行可视化处理，以生成所述第一源数据对应的第一图谱，其中，所述第一图谱中的各节点分别为所述第一源数据中的各实体，各节点间的关联边为对应各实体间的关系数据；将所述第二源数据进行可视化处理，以生成所述第二源数据对应的第二图谱，其中，所述第二图谱中的各节点分别为所述第二源数据中的各实体，各节点间的关联边为对应实体间的关系数据。通过本方法，能够提高对异构数据进行同构化处理的准确性，保证同构化数据与异构数据之间的一致性。

Description

异构数据同构化处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种异构数据同构化处理方法、装置计算机设备及存储介质。

背景技术

随着互联网的快速发展，以及信息化和电子化的全面普及，互联网数据、社会数据(例如居民医保、社保信息、水电煤信息)等数据呈现爆炸式增长，这些数据通常为异构数据。由于不同数据之间的异构性，往往需要对异构数据进行同构化处理，以方便后续对数据进行处理。

传统的对异构数据进行同构化处理的方法，主要是基于统一的Schema进行归一化处理，将异构数据转化为同构数据。由于这种方式根据Schema进行同构化处理，能够处理的数据种类由Schema决定，若Schema设计的较简单，同构化处理的数据有限，容易导致异构数据中的信息丢失，使得同构化处理后的数据与原始的异构数据之间的一致性差；若Schema设计的复杂，则会增加大量的冗余信息，加重处理负担。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种异构数据同构化处理方法，以提高对异构数据进行同构化处理的准确性，保证同构化数据与异构数据之间的一致性，解决现有技术中因依赖Schema进行同构化处理导致信息丢失、一致性差的技术问题。

本申请的第二个目的在于提出一种异构数据同构化处理装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

本申请的第五个目的在于提出一种计算机程序产品。

为达上述目的，本申请第一方面实施例提出了一种异构数据同构化处理方法，包括：

获取待处理的第一源数据及第二源数据，其中，所述第一源数据与所述第二源数据为异构数据；

将所述第一源数据进行可视化处理，以生成所述第一源数据对应的第一图谱，其中，所述第一图谱中的各节点分别为所述第一源数据中的各实体，各节点间的关联边为对应各实体间的关系数据；

将所述第二源数据进行可视化处理，以生成所述第二源数据对应的第二图谱，其中，所述第二图谱中的各节点分别为所述第二源数据中的各实体，各节点间的关联边为对应实体间的关系数据。

本申请实施例的异构数据同构化处理方法，通过获取异构的、待处理的第一源数据和第二源数据，分别对第一源数据和第二源数据进行可视化处理，得到对应的第一图谱和第二图谱，其中，第一图谱中的各节点为第一源数据中的各实体，第二图谱中的各节点为第二源数据中的各实体，第一图谱和第二图谱中各节点间的关联边为对应各实体间的关系数据。由此，实现了根据异构数据中的实体及实体间的关系构建图谱，将异构数据转化为图谱表示的同构数据，提高了同构化数据与异构数据之间的一致性，保证了同构化数据的完整性。

为达上述目的，本申请第二方面实施例提出了一种异构数据同构化处理装置，包括：

获取模块，用于获取待处理的第一源数据及第二源数据，其中，所述第一源数据与所述第二源数据为异构数据；

生成模块，用于将所述第一源数据进行可视化处理，以生成所述第一源数据对应的第一图谱，其中，所述第一图谱中的各节点分别为所述第一源数据中的各实体，各节点间的关联边为对应各实体间的关系数据；以及，将所述第二源数据进行可视化处理，以生成所述第二源数据对应的第二图谱，其中，所述第二图谱中的各节点分别为所述第二源数据中的各实体，各节点间的关联边为对应实体间的关系数据。

本申请实施例的异构数据同构化处理装置，通过获取异构的、待处理的第一源数据和第二源数据，分别对第一源数据和第二源数据进行可视化处理，得到对应的第一图谱和第二图谱，其中，第一图谱中的各节点为第一源数据中的各实体，第二图谱中的各节点为第二源数据中的各实体，第一图谱和第二图谱中各节点间的关联边为对应各实体间的关系数据。由此，实现了根据异构数据中的实体及实体间的关系构建图谱，将异构数据转化为图谱表示的同构数据，提高了同构化数据与异构数据之间的一致性，保证了同构化数据的完整性。

为达上述目的，本申请第三方面实施例提出了一种计算机设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的异构数据同构化处理方法。

为达上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的异构数据同构化处理方法。

为达上述目的，本申请第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时实现如第一方面实施例所述的异构数据同构化处理方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种异构数据同构化处理方法的流程示意图；

图2(a)为根据第一源数据生成的第一图谱的示例图一；

图2(b)为根据第一源数据生成的第一图谱的示例图二；

图3为本申请实施例所提供的另一种异构数据同构化处理方法的流程示意图；

图4为对第一图谱和第二图谱进行合并处理的示例图一；

图5(a)为第一图谱的示例图一；

图5(b)为第二图谱的示例图一；

图5(c)为将第二图谱合并至第一图谱中得到的总图谱的示例图一；

图5(d)为将第一图谱合并至第二图谱中得到的总图谱的示例图一；

图6为本申请实施例所提供的又一种异构数据同构化处理方法的流程示意图；

图7(a)为第一图谱的示例图二；

图7(b)为第二图谱的示例图二；

图7(c)为将第二图谱合并至第一图谱中得到的总图谱的示例图二；

图8为本申请一具体实施例所提供的同构化处理引擎的结构示意图；

图9为本申请实施例所提供的一种异构数据同构化处理装置的结构示意图；

图10为本申请实施例所提供的另一种异构数据同构化处理装置的结构示意图

图11为本申请实施例所提供的又一种异构数据同构化处理装置的结构示意图；以及

图12为本申请一实施例提出的计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的异构数据同构化处理方法、装置、计算机设备及存储介质。

多源异构数据是指来自不同的来源或渠道，以不同形式、不同来源、不同视角和不同背景等多种样式出现的数据。

随着科技的不断发展，互联网尤其是移动互联网影响着社会生活的方方面面，例如移动支付、网上约车等，产生了海量的互联网数据；随着信息化和电子化的全面普及，居民的社会数据也呈现爆炸式增长；此外，各种警用采集技术的飞速发展、采集装备的不断升级，以及采集装备的大规模应用，使得警务数据也越来越多。对于这些多源异构数据，如何对其进行同构化处理以得到同构数据，并构建关联网络，成为亟待解决的问题。

传统的同构化处理方法采用通用的数据结构，对异构数据进行同构化处理，这种方法仅能对少数类别的警务数据进行归一化处理，而无法对来自于互联网、社会数据和警务数据的多源异构数据整体进行同构化处理。

针对上述问题，本申请提出一种异构数据同构化处理方法，以根据异构数据中的实体及实体间的关系构建图谱，将异构数据转化为图谱表示的同构数据，实现多源异构数据的同构化处理。

图1为本申请实施例所提供的一种异构数据同构化处理方法的流程示意图。

如图1所示，该异构数据同构化处理方法可以包括以下步骤：

步骤101，获取待处理的第一源数据及第二源数据，其中，第一源数据与第二源数据为异构数据。

异构数据，顾名思义，即不同结构的数据。异构数据通常体现在以下五个层次上：(1)计算机体系结构的异构，数据的物理存储来源于不同体系结构的计算机(大型机、工作站等)中；(2)操作系统的异构，数据的存储来源于不同的操作系统(Unix、Windows等)；(3)数据格式的异构，数据的存储管理机制不同，可以是关系型数据库系统(Oracle、DB2等)，也可以是文件行二维数据(txt、xls等)；(4)数据存储地点的异构，数据存储在分散的物理位置上；(5)数据存储的逻辑模型异构，数据分别在不同的业务逻辑中存储和维护，从而相同意义的数据存在表现的异构，如：独立的销售系统和独立的采购系统中，同一部门的编码不一致等。

数据的异构不利于数据处理、分析、合并等，因此，需要对异构数据进行同构化处理，以得到同构数据。本实施例中，可以从数据源获取待处理的数据分别作为第一源数据和第二源数据，分别进行处理。

由于数据来源的多样性，数据中可能存在噪声和脏数据，噪声和脏数据会对异构数据的同构化处理造成不良影响。从而，在本申请实施例一种可能的实现方式中，对异构数据进行同构化处理之前，可以先对获取的第一源数据和第二源数据进行清洗处理，以去除异构数据中包含的冗余数据和无关数据，从而避免数据扰动和噪声。

作为一种示例，可以采用数据清洗框架ETL-Framework对异构数据进行清洗，将获取的第一源数据和第二源数据通过数据传输通路输入至统一的ETL-Framework中进行清洗，以清洗掉第一源数据和第二源数据中的冗余、无关数据。该ETL-Framework可以独立于数据处理逻辑，从而避免因数据处理逻辑与数据清洗框架紧耦合导致数据清洗复杂度高的问题。

步骤102，将第一源数据进行可视化处理，以生成第一源数据对应的第一图谱，其中，第一图谱中的各节点分别为第一源数据中的各实体，各节点间的关联边为对应各实体间的关系数据。

对于异构数据，一条数据中可能包含多个实体，以及各个实体的属性信息，还可以从数据中提取出实体之间的关系信息。本实施例中，对于获取的第一源数据，可以从第一源数据中提取出包含的所有实体以及各个实体间的关系数据。进而，对第一源数据进行可视化处理，将每一个实体看作一个节点，将实体间的关系数据抽象化为关联边，存在关联的两个节点通过对应的关联边进行连接，生成第一源数据对应的第一图谱。

进一步地，关联边可以包括但不限于单向边、双向边、带权值的边等，以用于表示不同的关系数据，例如，执行关系可以用单向边表示，从属关系可以用双向边表示，倍数关系可以用带权值的边表示等等。需要说明的是，不同的边所表示的关系可以预先设定，本申请对此不作限定。

例如，第一源数据为“用户A通过某宝从店铺B购买了一件衬衫”，则第一源数据中包含的实体有“用户A”、“某宝”、“店铺B”和“衬衫”，“用户A”与“某宝”、“店铺B”和“衬衫”之间均存在关系，“某宝”和“店铺B”之间存在关系，“店铺B”和“衬衫”之间存在关系，则对第一源数据进行可视化处理后得到的第一图谱如图2(a)所示。

在本申请实施例一种可能的实现方式中，第一图谱中还可以包括各节点及各关联边分别对应的属性信息，其中，任一节点或任一关联边的属性信息，为对应实体在第一源数据中的非关系数据。

例如，第一源数据为“22岁的女性用户A于4月13日通过某宝从店铺B购买了一件白色衬衫”，则实体“用户A”的属性信息为“22岁”、“女”，实体“衬衫”的属性信息为“白色”，“用户A”购买“衬衫”的时间为“4月13日”，则第一资源数据对应的第一图谱如图2(b)所示。

步骤103，将第二源数据进行可视化处理，以生成第二源数据对应的第二图谱，其中，第二图谱中的各节点分别为第二源数据中的各实体，各节点间的关联边为对应实体间的关系数据。

本实施例中，可以按照与将第一资源数据进行可视化处理得到第一图谱相同的处理方式，将第二资源数据进行可视化处理，得到第二资源数据对应的第二图谱。

通过针对每一个异构数据，采用相同的方式，基于数据中的实体进行同构化处理，将异构数据图谱化为图结构，从而可以避免因数据结构不同导致无法归一化处理的问题。

在本申请实施例一种可能的实现方式中，第一资源数据与第二资源数据可以为异源数据，任一节点或任一关联边的属性信息中，还可以包括对应源数据的来源信息，以标识源数据的来源。

两个异构数据之间可能存在关联性，比如，两个异构数据中包含相同的姓名、地名等，从而，采用本申请实施例所提供的异构数据同构化处理方法，对包含相同实体的两个异构数据进行同构化处理后，对应生成的第一图谱和第二图谱中，包含相同的节点。例如，对于同一个用户，该用户的交通数据(包括驾驶证信息、车辆信息等)和社保数据均包含该用户的姓名和身份证号，从而，通过对该用户的交通数据和社保数据进行同构化处理，所得到的第一图谱和第二图谱中，包含两个相同的节点，这两个节点分别对应的实体为用户的姓名和身份证号。为了得到具有相同节点的至少两个图谱的整体图谱，在本申请实施例一种可能的实现方式中，可以将将具有相同节点的图谱进行合并。从而，本申请实施例提供了另一种异构数据同构化处理方法，图3为本申请实施例所提供的另一种异构数据同构化处理方法的流程示意图。

如图3所示，在如图1所示实施例的基础上，步骤103之后，还可以包括以下步骤：

步骤104，根据第一图谱与第二图谱中包含的相同节点，将第一图谱及第二图谱进行合并处理。

本实施例中，当所得到的第一图谱和第二图谱中包含相同的节点时，可以根据相同的节点，对第一图谱和第二图谱进行合并处理，得到一张融合后的总图谱。

作为一种可能的实现方式，可以第一图谱及第二图谱中的任一图谱为初始图谱，将另一图谱中的各节点和关联边以相同节点为起始点，依次合并至初始图谱中。

例如，图4为对第一图谱和第二图谱进行合并处理的示例图一。如图4所示，第一图谱和第二图谱中包含一个相同的节点，即节点7，假设将第一图谱作为初始图谱，将第二图谱合并至第一图谱中，得到如图4中所示的总图谱。

作为一种可能的实现方式，可以根据第一图谱及第二图谱中分别包含的节点数量和/或关联边的数量，确定初始图谱，进而，将另一图谱中的各节点和关联边以相同节点为起始点，依次合并至初始图谱中。

例如，图5(a)为第一图谱的示例图一，图5(b)为第二图谱的示例图一，结合图5(a)和图5(b)可以看出，第一图谱和第二图谱中包含相同的节点7。假设以第一图谱和第二图谱中节点数最多的图谱作为初始图谱，则可以将第一图谱作为初始图谱，将第二图谱合并至第一图谱中，得到总图谱，如图5(c)所示。假设以第一图谱和第二图谱中关联边的数量最多的图谱作为初始图谱，双向边的关联边看作两条单向边的关联边，则在如图5(a)所示的第一图谱中，相当于有7条单向边，而在如图5(b)所示的第二图谱中，相当于有8条单向边，则将第二图谱作为初始图谱，将第一图谱合并至第二图谱中，得到如图5(d)所示的总图谱。

通过根据图谱中包含的节点数量和/或关联边的数量确定初始图谱，将节点数量最多和/或关联边最多的图谱作为初始图谱，将另一图谱合并至初始图谱中，能够加快合并处理的速度，提高处理效率。

本实施例的异构数据同构化处理方法，通过在第一图谱和第二图谱中包含相同的节点时，根据第一图谱与第二图谱中包含的相同节点，将第一图谱及第二图谱进行合并处理，从而实现了将不同异构数据进行融合，构建得到完整的关联图谱数据，使得融合后的数据更完整、更全面。

进一步地，在本申请实施例一种可能的实现方式中，当初始图谱与非初始图谱中包括N个相同节点时，其中，N为大于1的正整数，这种情况下，在对相同节点进行合并时，可以先确定N个相同节点的合并顺序，进而根据合并顺序进行合并。从而，如图6所示，在如图3所示实施例的基础上，将另一图谱中的各节点和关联边以相同节点为起始点，依次合并至初始图谱中，可以包括以下步骤：

步骤201，根据N个相同节点在初始图谱中分别对应的关联边的数量，确定N个相同节点的合并顺序。

本实施例中，当第一图谱和第二图谱中包含的相同节点为多个时，可以根据初始图谱中所包含的N个相同节点分别对应的关联边的数量，确定N个相同节点的合并顺序，其中N为大于1的正整数。

作为一种示例，可以先确定N个相同节点分别对应的双向边的数量，将对应的双向边数量最多的节点确定为起始节点，将双向边数量次多的节点确定为第二个合并的节点，依次类推；当双向边的数量相同时，进一步根据对应的单向边的数量确定合并顺序；当各个相同节点均无对应的双向边时，可以根据单向边的数量，按照单向边的数量从多到少的顺序，依次确定N个相同节点的合并顺序。

作为一种示例，可以将一个双向边看作两个单向边，确定N个相同节点分别对应的单向边的数量，按照单向边数量从多到少的顺序，依次确定N个相同节点的合并顺序，将对应的单向边数量最多的节点确定为起始节点。

步骤202，根据N个相同节点的合并顺序，依次将另一图谱中的各节点和关联边合并至初始图谱中。

本实施例中，确定了初始图谱中N个相同节点的合并顺序之后，可以根据所确定的N个相同节点的合并顺序，依次将另一图谱中的各节点和关联边合并至初始图谱中。

举例而言，图7(a)为第一图谱的示例图二，图7(b)为第二图谱的示例图二。如图7(a)和图7(b)所示，第一图谱和第二图谱中包含两个相同的节点，分别为节点2和节点4。第一图谱中包含5个节点，第二图谱中包含4个节点，可以将第一图谱作为初始图谱。在第一图谱中，节点2对应两条双向边，节点4对应一条单向边和一条双向边，可以将节点2作为起始点，按照先节点2再节点4的合并顺序，依次将第二图谱中的各节点和关联边合并至第一图谱中，合并后的总图谱如图7(c)所示。从图7(c)中可以看出，节点2与节点4之间既有单向边，又有双向边，但由于单向边对应的属性信息为属性B，而双向边对应的属性信息为属性A，属性信息中又可以包括对应源数据的来源信息，从而，在合并后得到的总图谱中，可以根据属性A和属性B中包含的来源信息，确定节点2与节点4之间的关联关系。

本实施例在异构数据同构化处理方法，通过在初始图谱中包括不止一个相同节点时，根据N个相同节点在初始图谱中分别对应的关联边的数量，确定N个相同节点的合并顺序，进而根据合并顺序依次将另一图谱的各节点和关联边合并至初始图谱中，能够提高图谱合并的速度，提高合并效率。

图8为本申请一具体实施例所提供的同构化处理引擎的结构示意图，该引擎可以实现本申请前述实施例所述的异构数据同构化处理方法，用于对异构数据进行同构化处理，将异构数据图谱化为图结构。如图8所示，该引擎包括：多源异构数据ETL模块、多源异构数据图谱化模块和多源异构数据结构化模块。其中，多源异构数据ETL模块用于对多源异构数据进行数据清洗，以清洗掉多源异构数据中的噪声和脏数据。待处理的多源异构数据通过数据传输通路进入到统一的数据清洗框架ETL-Framework，该框架独立于数据处理逻辑，从而能够避免因数据处理逻辑与数据清洗框架紧耦合导致数据清洗复杂度高的问题。对于传输至数据清洗框架的多源异构数据，针对多源异构数据预定义的数据格式，可以通过简单的数据清洗逻辑和/或可配置于ETL-Framework的正则表达式，对多源异构数据中的冗余、无关数据进行清洗，从而避免造成数据扰动和噪声。

对多源异构数据进行数据清洗后，可以通过多源异构数据图谱化模块对清洗后的多源异构数据进行同构化处理，将多源异构数据图谱化为图结构。多源异构数据图谱化模块包括实体图谱化和关系图谱化两部分，其中，实体图谱化部分将多源异构数据中包含的所有实体抽象化为图谱中的节点，实体的属性信息作为图谱中对应节点的属性信息；关系图谱化部分将实体之间的关联关系抽象化为图谱中的关联边，任一关联边所连接的两个节点表示该关联关系对应的两个实体，并将关联关系的属性信息作为对应的关联边的属性信息。

多源异构数据结构化模块用于对多源异构数据图谱化模块生成的多个图谱进行合并处理，构建完整的关联图谱信息，实现将多源异构数据同构化在一个关联图谱中。

本申请实施例的同构化处理引擎能够对海量的多源异构数据进行同构化处理，采用图谱的形式存储对应的非结构数据，将多源异构数据同构化在一个关联图谱中，将非结构化的多源异构数据问题，转化为图谱问题，通过构建关联图谱，解决了多源异构数据的同构化处理难题，提高了同构化处理的准确性。

为了实现上述实施例，本申请还提出一种转义识别装置。

图9为本申请实施例所提供的一种异构数据同构化处理装置的结构示意图。

如图9所示，该异构数据同构化处理装置50可以包括：获取模块510和生成模块520。其中，

获取模块510，用于获取待处理的第一源数据及第二源数据，其中，第一源数据与第二源数据为异构数据。

生成模块520，用于将第一源数据进行可视化处理，以生成第一源数据对应的第一图谱，其中，第一图谱中的各节点分别为第一源数据中的各实体，各节点间的关联边为对应各实体间的关系数据；以及，将第二源数据进行可视化处理，以生成第二源数据对应的第二图谱，其中，第二图谱中的各节点分别为第二源数据中的各实体，各节点间的关联边为对应实体间的关系数据。

在本申请实施例一种可能的实现方式中，第一源数据与第二源数据为异源数据，任一节点或任一关联边的属性信息中，还可以包括对应源数据的来源信息。

进一步地，在本申请实施例一种可能的实现方式中，第一图谱与第二图谱中包含相同的节点，从而，如图10所示，在如图9所示实施例的基础上，该异构数据同构化处理装置50还可以包括：

合并模块530，用于根据第一图谱与第二图谱中包含的相同节点，将第一图谱及第二图谱进行合并处理。

作为一种可能的实现方式，合并模块530具体用于以第一图谱及第二图谱中的任一图谱为初始图谱，将另一图谱中的各节点和关联边以相同节点为起始点，依次合并至初始图谱中。

作为一种可能的实现方式，合并模块530具体用于根据第一图谱及第二图谱中分别包含的节点数量和/或关联边的数量，确定初始图谱；将另一图谱中的各节点和关联边以相同节点为起始点，依次合并至初始图谱中。

通过在第一图谱和第二图谱中包含相同的节点时，根据第一图谱与第二图谱中包含的相同节点，将第一图谱及第二图谱进行合并处理，从而实现了将不同异构数据进行融合，构建得到完整的关联图谱数据，使得融合后的数据更完整、更全面。

进一步地，在本申请实施例一种可能的实现方式中，初始图谱与非初始图谱中包括N个相同节点，其中，N为大于1的正整数，此时，合并模块530将另一图谱中的各节点和关联边以相同节点为起始点，依次合并至初始图谱中时，可以先根据N个相同节点在初始图谱中分别对应的关联边的数量，确定N个相同节点的合并顺序；进而，根据N个相同节点的合并顺序，依次将另一图谱中的各节点和关联边合并至初始图谱中。

通过在初始图谱中包括不止一个相同节点时，根据N个相同节点在初始图谱中分别对应的关联边的数量，确定N个相同节点的合并顺序，进而根据合并顺序依次将另一图谱的各节点和关联边合并至初始图谱中，能够提高图谱合并的速度，提高合并效率。

在本申请实施例一种可能的实现方式中，如图11所示，在如图9所示实施例的基础上，该异构数据同构化处理装置50还可以包括：

数据清洗模块500，用于将第一源数据及第二源数据进行清洗处理。

通过对获取的第一源数据和第二源数据进行清洗处理，能够去除异构数据中包含的冗余数据和无关数据，从而避免数据扰动和噪声。

需要说明的是，前述对异构数据同构化处理方法实施例的解释说明也适用于该实施例的异构数据同构化处理装置，其实现原理类似，此处不再赘述。

本实施例的异构数据同构化处理装置，通过获取异构的、待处理的第一源数据和第二源数据，分别对第一源数据和第二源数据进行可视化处理，得到对应的第一图谱和第二图谱，其中，第一图谱中的各节点为第一源数据中的各实体，第二图谱中的各节点为第二源数据中的各实体，第一图谱和第二图谱中各节点间的关联边为对应各实体间的关系数据。由此，实现了根据异构数据中的实体及实体间的关系构建图谱，将异构数据转化为图谱表示的同构数据，提高了同构化数据与异构数据之间的一致性，保证了同构化数据的完整性。

为了实现上述实施例，本申请还提出一种计算机设备，包括：处理器和存储器。其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述实施例所述的异构数据同构化处理方法。

图12为本申请一实施例提出的计算机设备的结构示意图，示出了适于用来实现本申请实施方式的示例性计算机设备90的框图。图12显示的计算机设备90仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图12所示，计算机设备90以通用计算机设备的形式表现。计算机设备90的组件可以包括但不限于：一个或者多个处理器或者处理单元906，系统存储器910，连接不同系统组件(包括系统存储器910和处理单元906)的总线908。

总线908表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备90访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器910可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)911和/或高速缓存存储器912。计算机设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统913可以用于读写不可移动的、非易失性磁介质(图12未显示，通常称为“硬盘驱动器”)。尽管图12中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc ReadOnly Memory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线908相连。系统存储器910可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。

具有一组(至少一个)程序模块9140的程序/实用工具914，可以存储在例如系统存储器910中，这样的程序模块9140包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9140通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备90也可以与一个或多个外部设备10(例如键盘、指向设备、显示器100等)通信，还可与一个或者多个使得用户能与该终端设备90交互的设备通信，和/或与使得该计算机设备90能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口902进行。并且，计算机设备90还可以通过网络适配器900与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图12所示，网络适配器900通过总线908与计算机设备90的其它模块通信。应当明白，尽管图12中未示出，可以结合计算机设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元906通过运行存储在系统存储器910中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的异构数据同构化处理方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如前述实施例所述的异构数据同构化处理方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现如前述实施例所述的异构数据同构化处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种异构数据同构化处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述第一图谱中还包括各节点及各关联边分别对应的属性信息；

其中，任一节点或任一关联边的属性信息，为对应实体在所述第一源数据中的非关系数据。

3.如权利要求2所述的方法，其特征在于，所述第一源数据与所述第二源数据为异源数据；

所述任一节点或任一关联边的属性信息中，还包括对应源数据的来源信息。

4.如权利要求1所述的方法，其特征在于，所述第一图谱与所述第二图谱中包含相同的节点；

所述生成所述第二源数据对应的第二图谱之后，还包括：

根据所述第一图谱与所述第二图谱中包含的相同节点，将所述第一图谱及所述第二图谱进行合并处理。

5.如权利要求4所述的方法，其特征在于，所述将所述第一图谱及所述第二图谱进行合并处理，包括：

以所述第一图谱及所述第二图谱中的任一图谱为初始图谱，将另一图谱中的各节点和关联边以所述相同节点为起始点，依次合并至所述初始图谱中。

6.如权利要求4所述的方法，其特征在于，所述将所述第一图谱及所述第二图谱进行合并处理，包括：

根据所述第一图谱及所述第二图谱中分别包含的节点数量和/或关联边的数量，确定初始图谱；

将另一图谱中的各节点和关联边以所述相同节点为起始点，依次合并至所述初始图谱中。

7.如权利要求5或6所述的方法，其特征在于，所述初始图谱与非初始图谱中包括N个相同节点，其中，N为大于1的正整数；

所述将另一图谱中的各节点和关联边以所述相同节点为起始点，依次合并至所述初始图谱中，包括：

根据所述N个相同节点在所述初始图谱中分别对应的关联边的数量，确定所述N个相同节点的合并顺序；

根据所述N个相同节点的合并顺序，依次将所述另一图谱中的各节点和关联边合并至所述初始图谱中。

8.如权利要求1-6任一项所述的方法，其特征在于，所述获取待处理的第一源数据及第二源数据之后，还包括：

将所述第一源数据及所述第二源数据进行清洗处理。

9.一种异构数据同构化处理装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-8中任一项所述的异构数据同构化处理方法。

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的异构数据同构化处理方法。