CN116894229A

CN116894229A - 一种同类多数据源融合方法、装置、设备及存储介质

Info

Publication number: CN116894229A
Application number: CN202311144144.XA
Authority: CN
Inventors: 孟繁平; 吴璇; 陈健丁
Original assignee: Beijing Huayun'an Software Co ltd
Current assignee: Beijing Huayun'an Software Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-10-17

Abstract

本公开的实施例提供了一种同类多数据源融合方法、装置、设备及存储介质，应用于数据处理领域。所述方法包括：获取多个数据源；根据各数据源的类型字段进行聚合，得到聚合数据集；对所述聚合数据集除类型字段的各字段，分别计算对应的各数据源的准确率，将准确率最高的数据源的字段作为数据融合字段；根据所述数据融合字段生成融合数据。以此方式，可以通过根据实际接收数据源的重复率得到各数据源各片段的准确率，从而确定多数据源融合时各融合片段的优先级，进一步提高了多数据源融合的数据融合质量。

Description

一种同类多数据源融合方法、装置、设备及存储介质

技术领域

本公开涉及数据处理领域，尤其涉及一种同类多数据源融合方法、装置、设备及存储介质。

背景技术

同类别多数据源融合多按照设置预定的融合规则进行融合，融合规则是根据此类数据进行预定，与数据本身无关，例如数据聚合后数据的字段1选择数据源2的字段1进行融合，数据聚合后数据的字段2选择数据源1的字段2进行融合，数据聚合后的数据字段3选择数据源3的字段3进行融合。但是数据源聚合后，字段1按照默认规则选择数据源2的字段1融合，此条聚合数据的融合结果可能是适合的，但是下一条聚合数据可能只适合数据源1的字段1融合，却由于默认融合规则只能与数据源2的字段2进行融合，所以当存在默认规则，融合字段只与数据源本身有关，与数据源数据就无关了。当通过默认规则得到了融合结果后，可能该融合结果并未提高数据融合质量，并且可能某些融合字段需要人工进行修正，提高了运营成本与维护成本。

发明内容

本公开提供了一种同类多数据源融合的方法、装置、设备及存储介质。

根据本公开的第一方面，提供了一种同类多数据源融合方法。该方法包括：获取多个数据源；

根据各数据源的类型字段进行聚合，得到聚合数据集；

对所述聚合数据集除类型字段的各字段，分别计算对应的各数据源的准确率，将准确率最高的数据源的字段作为数据融合字段；

根据所述数据融合字段生成融合数据。

进一步地，所述根据各数据源的类型字段进行聚合，得到聚合数据集包括：

所述数据源包括一个类型字段；将各数据源的除类型字段的各字段进行相同字段聚合，形成聚合数据；

根据类型字段将相同类型的数据源进行聚合得到聚合数据集。

进一步地，所述将准确率最高的数据源的字段作为数据融合字段包括：

将各数据源的字段与其他数据源的相同字段分别进行全文对比，确定重复率；

根据与所述其他数据源的相同字段的重复率求和取平均值作为该数据源的该字段的准确率；

将所述准确率最高的对应的数据源字段作为数据融合字段。

进一步地，所述根据所述数据融合字段生成融合数据包括：

根据各字段对应的数据融合字段，得到融合数据。

进一步地，根据预设时间间隔，重新计算各数据源的各字段的准确率；

根据确定的各数据源的准确率与对应字段的历史准确率比对，若高于历史准确率，将对应时间点之后的数据融合字段进行更新。

进一步地，所述获取多个数据源包括：

根据多个传感器或多个不同的时间周期获取多个数据源。

根据本公开的第二方面，提供了一种同类多数据源融合装置。该装置包括：数据源获取模块，用于获取多个数据源；

聚合数据集确定模块，用于根据各数据源的类型字段进行聚合，得到聚合数据集；

数据融合字段确定模块，用于对所述聚合数据集除类型字段的各字段，分别计算对应的各数据源的准确率，将准确率最高的数据源的字段作为数据融合字段；

融合数据生成模块，用于根据所述数据融合字段生成融合数据。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

本公开通过根据实际接收数据源的重复率得到各数据源各片段的准确率，从而确定多数据源融合时各融合片段的优先级，进一步提高了多数据源融合的数据融合质量，并且在一定程度上减少了运营成本与维护成本。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的同类多数据源融合方法的流程图；

图2示出了根据本公开的实施例的同类多数据源融合装置的框图；

图3示出了能够实施本公开的实施例的同类多数据源融合方法的示意图；

图4示出了用来实现本公开实施例的同类多数据源融合方法的电子设备的框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开通过对同类多数据源融合时，计算各数据源的各字段重复率的方式确定选择各字段为融合字段时的准确率，选择准确率最高的各字段作为融合字段进行融合，从而在不需要预定数据源融合规则的情况下进行数据融合，减少人力成本。并且此种融合方式保证了每一条聚合数据后的数据融合都会根据数据本身而决定，通过根据实际接收数据源的重复率得到各数据源各片段的准确率，从而确定多数据源融合时各融合片段的优先级，进一步提高了多数据源融合的数据融合质量。

图1示出了根据本公开的实施例的同类多数据源融合方法的流程图。

所述同类多数据源融合方法包括以下步骤：

S1：获取多个数据源。

具体的，所述多个数据源是根据多个传感器或多个不同的时间周期获取的。在本实施例中，多个数据源可以是漏洞数据源，通过漏洞检测传感器获取。本实施方式中通过对多个同类多数据源的处理提高了数据源质量。

S2：根据各数据源的类型字段进行聚合，得到聚合数据集。

具体的，所述数据源包括一个类型字段；将各数据源的除类型字段的各字段进行相同字段聚合，形成聚合数据；根据类型字段将相同类型的数据源进行聚合得到聚合数据集。数据源包括多个字段，其中一个字段为类型字段。

在本公开的一些实施方式中，聚合数据集还可以是通过以下方式得到。以一类多数据源为例，假设该类数据源包括四个数据源D₁、D₂、D₃、D₄，每个数据源包括四个字段f₁、f₂、f₃、f₄，其中，将每个数据源的类型字段定义为第四个字段（即f₄）。类型字段用于标识所属数据源属于哪个类型，数据源的其他字段进行聚合。聚合数据字段1包括数据源D₁的f₁、D₂的f₁、D₃的f₁、D₄的f₁，聚合数据字段2包括数据源D₁的f₂、D₂的f₂、D₃的f₂、D₄的f₂，聚合数据字段3包括数据源D₁的f₃、D₂的f₃、D₃的f₃、D₄的f₃，聚合数据包括聚合数据字段1、聚合数据字段2、聚合数据字段3，聚合数据字段f₄（由于对同类数据源进行处理因此四个数据源的类型字段f₄相同，无需对标识字段进行处理）。

S3：对所述聚合数据集除类型字段的各字段，分别计算对应的各数据源的准确率，将准确率最高的数据源的字段作为数据融合字段。

具体的，将各数据源的字段与其他数据源的相同字段分别进行全文对比，确定重复率；根据与所述其他数据源的相同字段的重复率求和取平均值作为该数据源的该字段的准确率；将所述准确率最高的对应的数据源字段作为数据融合字段。

同样的，以上述四个同类数据源D₁、D₂、D₃、D₄为例，选中聚合数据字段1，以聚合后的数据源D₁的f₁为基础，分别与聚合后的数据源D₂的f₁、聚合后的数据源D₃的f₁、聚合后的数据源D₄的f₁进行全文比对确定对应的重复率，将各个重复率相加后计算其平均值作为准确率；以聚合后的数据源D₂的f₁为基础，分别与聚合后的数据源D₁的f₁、聚合后的数据源D₃的f₁、聚合后的数据源D₄的f₁进行全文比对确定对应的重复率，将各个重复率相加后计算其平均值作为准确率；以聚合后的数据源D₃的f₁为基础，分别与聚合后的数据源D₁的f₁、聚合后的数据源D₂的f₁、聚合后的数据源D₄的f₁进行全文比对确定对应的重复率，将各个重复率相加后计算其平均值作为准确率；将以上计算结果中准确率最高的字段作为数据融合字段1。

重复以上处理过程，确定各数据融合字段。

S4：根据所述数据融合字段生成融合数据。

具体的，根据各字段对应的数据融合字段，得到融合数据。

同样的，以上述四个同类数据源D₁、D₂、D₃、D₄为例，假设S3的处理结果为：

关于字段1，聚合后的数据源D₄的f₁的准确率最高，即字段1对应的数据融合字段为数据源D₄的f₁；

关于字段2，聚合后的数据源D₁的f₂的准确率最高，即字段2对应的数据融合字段为数据源D₁的f₂；

关于字段3，聚合后的数据源D₂的f₃的准确率最高，即字段3对应的数据融合字段为数据源D₂的f₃；

关于字段4，因字段4被定义为各数据源的类型字段，并且因是同类数据源，该字段为各数据源的标识是相同的，也无需进行准确率计算，可直接使用。

则融合数据为数据源D₄的f₁，数据源D₁的f₂，数据源D₂的f₃，和f₄。

同样的，本公开也可以采用上述聚合、比对、确定融合字段、得到融合数据等处理方式对多个同类多数据源进行处理。

本公开的同类多数据融合方法通过根据实际接收数据源的重复率得到各数据源各片段的准确率，从而确定多数据源融合时各融合片段的优先级，进一步提高了多数据源融合的数据融合质量。

如图3所示，为了更完整的描述本公开的同类多数据融合方法，以漏洞源数据为例描述各数据源融合过程。

（1）多数据源获取过程：

根据调度计算引擎发生的请求，获取全量漏洞源1数据中的全部漏洞源1数据，解析漏洞源1数据获取所有的CVE编号；全量数据是指当前需要迁移的数据库系统的全部数据。

根据调度计算引擎发生的请求，获取全量漏洞源2数据中的全部漏洞源2数据，解析漏洞源2数据获取当前存在CVE编号相同的漏洞数据，发送不同的CVE编号的漏洞数据至等待数据进行存储，并发生存储成功信息给调度计算引擎；CVE（Common Vulnerabilities&Exposures）是公共漏洞和暴露。CVE就好像是一个字典表，为广泛认同的信息安全漏洞或者已经暴露出来的弱点给出一个公共的名称。使用一个共同的名字，能够帮助用户在各自独立的各种漏洞数据库中和漏洞评估工具中共享数据。每个漏洞都被分配一个称为CVE标识符的编号，编号格式为“CVE-年份-编号”，例如CVE-2019-0708代表远程桌面服务远程代码执行漏洞。

根据调度计算引擎发生的请求，获取全量漏洞源3数据中的全部漏洞源3数据，解析漏洞源3数据获取当前存在CVE编号相同的漏洞数据，发送不同的CVE编号的漏洞数据至等待数据进行存储，并发生存储成功信息给调度计算引擎。

（2）确定数据融合片段过程：

假设将漏洞源1-漏洞源3命名为datasource1、datasource2、datasource3，三个数据源都有4个字段，命名为field1~field4，此类数据源field4为类型字段（即表示CVE编号的字段），其他字段要进行融合，聚合数据后的数据命名为group_data1~group_dataN（N为聚合数据数量）。

获取数据源datasource1、数据源datasource2、数据源datasource3的数据后，datasource1、datasource2、datasource3根据field4（即表示CVE编号的字段）进行聚合。当三个数据源根据field4进行聚合后，其他字段需要datasource1、datasource2、datasource3利用重复率计算出准确率进行融合。

获取漏洞源1与漏洞源2的相同CVE编号的漏洞名称进行分词，并全文比对，计算各字段相似度（即重复率）；获取漏洞源1与漏洞源3的相同CVE编号的漏洞名称进行分词，并全文比对，计算各字段相似度（即重复率）；获取漏洞源2与漏洞源3的相同CVE编号的漏洞名称进行分词，并全文比对，计算各字段相似度（即重复率）；根据相同CVE编号的漏洞名称的各漏洞源的各字段的重复率计算准确率，将准确率最高的字段确定为相同CVE编号的漏洞名称的融合字段。准确率计算公式为：(比对1重复率+比对2重复率+....)/比对次数=该字段准确率。

具体的，获得聚合数据的字段1，简称group_data1。假设group_data1的datasource1的field1与group_data1的datasource2的field1进行全文比对计算出重复率在85%。group_data1的datasource1的field1与group_data1的datasource3的field1进行全文比对计算出重复率在95%。

计算group_data1的datasource1的field1准确率在90%，此准确率计算公式为：(比对1重复率+比对2重复率+....)/比对次数，例如group_data1的datasource1的field1的准确率公式为：(85%+95%)/2等于90%。

group_data1的datasource2的field1与group_data1的datasource1的field1进行全文比对计算出重复率在85%。group_data1的datasource2的field1与group_data1的datasource3的field1进行全文比对计算出重复率在87%。计算group_data1的datasource2的field1准确率在85.43%，此准确率公式为：(85%+87%)/2=85.43%。

group_data1的datasource3的field1与group_data1的datasource1的field1进行全文比对计算出重复率在95%。group_data1的datasource3的field1与group_data1的datasource2的field1进行全文比对计算出重复率在87%。计算group_data1的datasource3的field1准确率在91%，此准确率公式为：(95%+87%)/2=91%。

group_data1的field1选择datasource3的field1进行数据融合，准确率最高。group_data1后面的field2和field3都按照此方式进行数据融合。

由于获取的是全量漏洞源1-3数据，包含漏洞源解析出的所有的CVE编号，因此聚合后会出现多条聚合数据，group_data2、group_data3……，后面都按照此方式进行数据融合。

在一些实施例中，还可以对数据融合字段进行更新。根据预设时间间隔，重新计算各数据源的各字段的准确率；根据确定的各数据源的准确率与对应字段的历史准确率比对，若高于历史准确率，将对应时间点之后的数据融合字段进行更新。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图2示出了根据本公开的实施例的同类多数据源融合装置200的方框图。装置200包括：

数据源获取模块210，用于获取多个数据源；

聚合数据集确定模块220，用于根据各数据源的类型字段进行聚合，得到聚合数据集；

数据融合字段确定模块230，用于对所述聚合数据集除类型字段的各字段，分别计算对应的各数据源的准确率，将准确率最高的数据源的字段作为数据融合字段；

融合数据生成模块240，用于根据所述数据融合字段生成融合数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图4示出了可以用来实施本公开的实施例的电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

电子设备400包括计算单元401，其可以根据存储在ROM402中的计算机程序或者从存储单元408加载到RAM403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储电子设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。I/O接口405也连接至总线404。

电子设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如同类多数据源融合方法。例如，在一些实施例中，同类多数据源融合方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到电子设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的同类多数据源融合方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行同类多数据源融合方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种同类多数据源融合方法，其特征在于，所述方法包括：

获取多个数据源；

根据各数据源的类型字段进行聚合，得到聚合数据集；

根据所述数据融合字段生成融合数据。

2.根据权利要求1所述的方法，其特征在于，所述根据各数据源的类型字段进行聚合，得到聚合数据集包括：

3.根据权利要求1所述的方法，其特征在于，所述将准确率最高的数据源的字段作为数据融合字段包括：

将所述准确率最高的对应的数据源字段作为数据融合字段。

4.根据权利要求1所述的方法，其特征在于，所述根据所述数据融合字段生成融合数据包括：

根据各字段对应的数据融合字段，得到融合数据。

5.根据权利要求3所述的方法，其特征在于，根据预设时间间隔，重新计算各数据源的各字段的准确率；

6.根据权利要求1所述的方法，其特征在于，所述获取多个数据源包括：

根据多个传感器或多个不同的时间周期获取多个数据源。

7.一种同类多数据源融合装置，其特征在于，包括：

数据源获取模块，用于获取多个数据源；

8. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

9.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。