CN117076861A

CN117076861A - 一种基于数据融合的关务数据处理系统、方法及介质

Info

Publication number: CN117076861A
Application number: CN202311051705.1A
Authority: CN
Inventors: 陈征; 王辉
Original assignee: Shenzhen Shenzhen International Bay Area Investment And Development Co ltd
Current assignee: Shenzhen Shenzhen International Bay Area Investment And Development Co ltd
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-11-17

Abstract

本发明涉及人工智能技术领域，揭露了一种基于数据融合的关务数据处理系统、方法及介质，该系统中包括数据清洗模块、数据纠正模块、数据集成模块、数据映射模块、模型训练模块及数据融合模块，可通过对预先采集的多源关务数据依次进行数据清洗、数据纠正、数据集成和数据映射，得到多源关务数据的映射数据，利用映射数据对预先构建的数据融合模型进行模型训练，得到训练完成的数据融合模型，利用所述训练完成的数据融合模型对实时关务数据进行数据融合，提高了关务数据处理时的处理效率。

Description

一种基于数据融合的关务数据处理系统、方法及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于数据融合的关务数据处理系统、方法及介质。

背景技术

国际贸易是经济发展的重要推动力之一，关务数据可以提供对进出口货物的详细信息，包括数量、价值、品牌等，从而帮助企业了解贸易流动情况，分析市场需求和趋势，为制定经济政策和商业决策提供依据。通过对关务数据的处理和分析，可以促进贸易畅通，优化供应链，提高市场竞争力，从而推动经济的稳定和增长。

由于关务数据涉及多个环节和多个部门，包括进出口商、海关、运输公司等，这些各方之间的数据收集和整理方式可能不统一，数据格式和标准存在差异，导致数据的收集和整理工作相对繁琐和复杂，同时，处理过程中可能需要跨部门或跨机构协同工作，由于沟通和协作的问题导致处理流程冗长，从而导致关务数据处理时的效率较低。

发明内容

本发明提供一种基于数据融合的关务数据处理系统、方法及介质，其主要目的在于解决自助收银时的效率较低的问题。

为实现上述目的，本发明提供的一种基于数据融合的关务数据处理系统，其特征在于，所述系统包括数据清洗模块、数据纠正模块、数据集成模块、数据映射模块、模型训练模块及数据融合模块，其中：

所述数据清洗模块，用于生成预先采集的多源关务数据的清洗数据；

所述数据纠正模块，用于生成所述清洗数据的数据冲突值，根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据；

所述数据集成模块，用于根据所述纠正数据的关键字段生成所述纠正数据的集成数据；

所述数据映射模块，用于对所述集成数据进行数据映射，得到所述集成数据的映射数据；

所述模型训练模块，用于利用所述映射数据和预设的目标函数对预先构建的数据融合模型进行模型训练，得到训练完成的数据融合模型，其中，所述预设的目标函数为：

其中，Y是目标函数值，min(*)是最小化函数，w是所述数据融合模型需要训练的权重向量，w^T是所述权重向量的转置，b是所述数据融合模型需要训练的偏置项，ξ_i是第i个训练数据所对应的松弛变量，C是正则化参数，i是所述训练数据的数据标识，l是所述训练数据的数据总数；

所述数据融合模块，用于利用所述训练完成的数据融合模型对实时关务数据进行数据融合，得到所述实时关务数据的融合数据。

可选地，所述数据清洗模块在生成预先采集的多源关务数据的清洗数据时，具体用于：

根据预先采集的多源关务数据的数据来源对所述多源关务数据进行数据去重，得到所述多源关务数据的去重数据；

对所述去重数据进行缺失值填充，得到所述去重数据的填充数据；

对所述填充数据进行异常值处理，得到异常值处理后的填充数据，确定所述异常值处理后的填充数据为所述多源关务数据的清洗数据。

可选地，所述数据纠正模块在生成所述清洗数据的数据冲突值时，具体用于：

对所述清洗数据进行特征提取，得到所述清洗数据的数据特征；

对所述数据特征进行哈希映射，得到所述数据特征的哈希值；

利用所述哈希值生成所述数据特征的标识符；

根据所述标识符和所述标识符所对应的数据来源生成所述清洗数据的数据冲突值。

可选地，所述数据纠正模块在根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据时，具体用于：

S11、当所述数据冲突值大于预设的冲突阈值，确定所述数据冲突值所对应的清洗数据为待纠正数据；

S12、逐个生成所述待纠正数据的候选选项；

S13、根据所述候选选项和所述待纠正数据的投票顺序对所述待纠正数据中的第一个待纠正数据进行投票决策，得到所述第一个待纠正数据的第一个投票结果；

S14、根据所述第一个投票结果对所述待纠正数据进行数据更新，得到所述待纠正数据的更新数据；

S15、逐个生成所述更新数据的候选选项，返回步骤S13，直至所述待纠正数据中的全部纠正数据都完成投票决策，根据投票决策的决策结果对所述待纠正数据进行数据纠正，得到所述清洗数据的纠正数据。

可选地，所述数据集成模块在根据所述纠正数据的关键字段生成所述纠正数据的集成数据时，具体用于：

提取所述纠正数据的关键字段，计算所述关键字段的字段相似度；

根据所述字段相似度对所述纠正数据进行数据匹配，得到所述纠正数据的匹配数据；

对所述匹配数据进行数据集成，得到所述匹配数据得分集成数据。

可选地，所述数据集成模块在计算所述关键字段的字段相似度时，具体用于：

利用如下相似度算法计算所述关键字段的字段相似度：

其中，S是所述关键字段的字段相似度，A是所述关键字段中第一个字段的字段向量，B是所述关键字段中第二个字段的字段向量，W是所述字段向量所对应的权重向量，W⊙B表示所述关键字段中第二个字段的字段向量B与所述字段向量所对应的权重向量W的元素逐一相乘得到的加权向量，A·(W⊙B)表示将所述关键字段中第一个字段的字段向量A与所述加权向量W⊙B的内积运算。

可选地，所述数据映射模块在对所述集成数据进行数据映射，得到所述集成数据的映射数据时，具体用于：

对所述集成数据进行数据归一化，得到所述集成数据的归一化数据；

根据所述集成数据的排列顺序生成所述归一化数据的数据序列；

构建所述归一化数据的数据词典，利用所述数据词典对所述数据序列中的归一化数据逐个进行数据映射，得到所述数据序列的映射序列，根据所述映射序列确定所述集成数据的映射数据。

可选地，所述模型训练模块在利用所述映射数据和预设的目标函数对预先构建的数据融合模型进行模型训练，得到训练完成的数据融合模型时，具体用于：

根据所述映射数据生成所述数据融合模型的训练数据；

确定所述数据融合模型的模型参数空间，在所述模型参数空间中遍历所述数据融合模型的参数组合；

逐个根据所述参数组合对所述数据融合模型进行参数配置，得到配置完成的数据融合模型；

利用所述训练数据和预设的目标函数对所述配置完成的数据融合模型进行交叉验证，根据交叉验证的验证结果生成所述数据融合模型的最优参数；

利用所述最优参数对所述数据融合模型进行最优配置，得到训练完成的数据融合模型。

为了解决上述问题，本发明还提供一种基于数据融合的关务数据处理方法，所述方法包括：

S1、生成预先采集的多源关务数据的清洗数据；

S2、生成所述清洗数据的数据冲突值，根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据；

S3、根据所述纠正数据的关键字段生成所述纠正数据的集成数据；

S4、对所述集成数据进行数据映射，得到所述集成数据的映射数据；

S5、利用所述映射数据和预设的目标函数对预先构建的数据融合模型进行模型训练，得到训练完成的数据融合模型，其中，所述预设的目标函数为：

S6、利用所述训练完成的数据融合模型对实时关务数据进行数据融合，得到所述实时关务数据的融合数据。

为了解决上述问题，本发明还提供一种存储介质，所述存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于数据融合的关务数据处理方法。

本发明实施例通过生成预先采集的多源关务数据的清洗数据，并根据数据冲突值对清洗数据进行纠正，可以自动化地清理和修复数据，同时，基于纠正数据的关键字段生成集成数据，并对集成数据进行数据映射，可以将来自不同源头的数据整合为一体，并建立映射关系,这样可以简化数据的查询和分析，节省了人工查找和整合数据的时间，对预先构建的数据融合模型进行训练，得到一个优化的权重向量和偏置项。这种基于模型的数据融合方法可以更加准确地将各个数据源的信息进行融合，提高数据融合的精度和效率，这些步骤充分利用了计算机技术和数据科学的方法，减少了人工操作的需求，并通过优化算法和模型来提高数据处理的速度，因此本发明提出的基于数据融合的关务数据处理系统及方法，可以提高关务数据处理时的效率。

附图说明

图1为本发明一实施例提供的基于数据融合的关务数据处理系统的系统架构图；

图2为本发明一实施例提供的基于数据融合的关务数据处理方法的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

实际上，基于数据融合的关务数据处理系统所部署的服务端设备可能是由一台或多台设备构成的。上述基于数据融合的关务数据处理系统可以实现为：业务实例、虚拟机、硬件设备。比如，该基于数据融合的关务数据处理系统可以实现为部署在云节点中的一个或多个设备上的一种业务实例。简单来说，该基于数据融合的关务数据处理系统可以理解为是部署在云节点上的一种软件，用于为各用户端提供基于数据融合的关务数据处理系统。或者，该基于数据融合的关务数据处理系统也可以实现为部署在云节点中的一个或多个设备上的一种虚拟机。该虚拟机中安装有用于管理各用户端的应用软件。或者，该基于数据融合的关务数据处理系统还可以实现为由众多相同或不同类型的硬件设备构成的服务端，设置一个或多个硬件设备用于为各用户端提供基于数据融合的关务数据处理系统。

在实现形式上，基于数据融合的关务数据处理系统和用户端相互适应。即，基于数据融合的关务数据处理系统作为安装于云服务平台的应用，则用户端作为与该应用建立通信连接的客户端；或实现基于数据融合的关务数据处理系统作为网站实现，则用户端作为网页实现；再或实现基于数据融合的关务数据处理系统作为云服务平台实现，则用户端作为即时通信应用中的小程序实现。

如图1所示，是本发明一实施例提供的基于数据融合的关务数据处理系统的系统架构图。

本发明所述基于数据融合的关务数据处理系统100可以设置于云端服务器中，在实现形式上，可以作为一个或多个服务设备，也可以作为一应用安装于云端(例如移动服务运营方的服务器、服务器集群等)上，或者也可以开发为网站。根据实现的功能，所述基于数据融合的关务数据处理系统100可以包括数据清洗模块101、数据纠正模块102、数据集成模块103、数据映射模块104、模型训练模块105及数据融合模块106。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

本发明实施例中，基于数据融合的关务数据处理系统中，上述各个模块均可独立实现，且与其他模块调用。这里的调用可以理解为，某一模块可以连接另一类型的多个模块，并为其连接的多个模块提供相应服务。比如，分享评测模块可以调用同一信息采集模块，以获取该信息采集模块采集的信息基于上述特性，本发明实施例提供的基于数据融合的关务数据处理系统中，无需修改程序代码，即可通过增加模块、并直接调用的形式来调整基于数据融合的关务数据处理系统架构的适用范围，实现集群式水平拓展，以便达到快捷灵活拓展基于数据融合的关务数据处理系统的目的。实际应用中，上述模块可以设置在同一设备或不同设备中，也可以是设置在虚拟设备中，例如云端服务器中的服务实例。

下面结合具体实施例，分别针对基于数据融合的关务数据处理系统的各个组成部分以及具体工作流程进行说明：

所述数据清洗模块101，用于生成预先采集的多源关务数据的清洗数据。

在本发明实施例中，所述数据清洗模块101在生成预先采集的多源关务数据的清洗数据时，具体用于：

详细地，所述预先采集的多源关务数据是指从不同的源头采集到的关务数据，其中，所述多源关务数据是与国际贸易和海关手续相关的数据，这些数据包括企业的进出口报关单、贸易合同、运输文件、海关清单、税收数据等信息。

进一步地，所述预先采集的多源关务数据可以从各种数据源收集原始数据，例如：数据库、文件、API等，这些数据可以是结构化数据、半结构化数据或非结构化数据，其中，所述结构化数据可以是关系型数据库中的表格数据，所述半结构化数据可以是XML或JSON格式的文档，所述非结构化数据可以是文本或图像。

详细地，所述数据清洗是指对预先采集的多源关务数据进行数据去重、缺失值填充以及异常值处理，为的是消除错误和冗余信息，确保数据的准确性和完整性。

详细地，所述对所述去重数据进行缺失值填充，即对数据中存在的缺失值进行补充，可以采用统计方法(如均值、中位数、众数等)或插值方法(如线性插值、多项式插值等)来填充缺失值，得到填充数据；所述对所述填充数据进行异常值处理即对数据中的异常值进行识别和处理，可以采用统计方法(如3σ原则、箱线图等)或基于模型的方法(如离群点分析、异常检测算法等)来识别和处理异常值，得到经过异常值处理后的填充数据。

所述数据纠正模块102，用于生成所述清洗数据的数据冲突值，根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据。

在本发明实施例中，所述数据纠正模块102在生成所述清洗数据的数据冲突值时，具体用于：

利用所述哈希值生成所述数据特征的标识符；

详细地，所述对所述清洗数据进行特征提取是指提取出能够表征数据内容和属性的特征，可以使用各种特征提取方法，如统计特征、频率特征、文本特征、图像特征等，根据具体情况选择适合的方法，得到清洗数据的数据特征；所述哈希映射是指将数据特征映射为固定长度的哈希值，哈希函数可以将数据特征映射到一个唯一的哈希值，确保不同的数据特征对应不同的哈希值；所述利用所述哈希值生成所述数据特征的标识符可以使用哈希值本身或对哈希值再进行处理(如截断、编码)作为标识符，确保标识符的唯一性和可识别性。

详细地，所述生成所述清洗数据的数据冲突值，根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据是因为由于不同数据源的数据质量和准确性可能存在差异，因此在进行数据融合之前，需要对数据进行修正，例如：假设有三个数据源A、B和C，分别提供了一组商品销售数据，包括销售数量和销售额，其中，数据源A显示：商品A的销售数量为100，销售额为2000、商品B的销售数量为150，销售额为3000；数据源B显示：商品A的销售数量为120，销售额为2200、商品B的销售数量为100，销售额为2800；数据源显示商品A的销售数量为110，销售额为2100、商品B的销售数量为130，销售额为3200，此时，存在不同数据源的数据不一致的情况。

进一步地，假设有三个数据源A、B和C，它们提供了商品销售数量的数据，其中，数据源A显示商品A的销售数量为100，数据源B显示商品A的销售数量为120，数据源C显示商品A的销售数量为110,现使用相同的算法来计算数据冲突值，计算每个数据源与其他数据源之间销售数量的差异，并除以最大销售数量。

例如：对于数据源A：与数据源B的差异：|100-120|/120＝0.1667、与数据源C的差异：|100-110|/110＝0.0909；对于数据源B：与数据源A的差异：|120-100|/120＝0.1667、与数据源C的差异：|120-110|/120＝0.0833；对于数据源C：与数据源A的差异：|110-100|/110＝0.0909、与数据源B的差异：|110-120|/120＝0.0833。根据上述计算，可以得到数据冲突值矩阵，所述数据冲突值矩阵的每个单元格表示对应数据源之间销售数量的冲突程度，值越小，表示两个数据源之间的一致性越高。

在本发明实施例中，所述数据纠正模块102在根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据时，具体用于：

S12、逐个生成所述待纠正数据的候选选项；

详细地，所述上述提供的数据源A、B和C的销售数据，可以看到商品A的销售数量在不同数据源中存在差异，分别为100、120和110，现使用数据纠正模块来对这些数据进行纠正,首先，假设使用某种算法或规则来计算数据冲突值，根据具体情况，通过对比不同数据源的销售数量得到数据冲突值为0.1667，所述数据冲突值大于预设的冲突阈值(假设为0.1)，因此可以确定待纠正数据为商品A的销售数量。

在本发明实施例中，可以选择在数据源A和数据源B中的销售数量作为候选选项，即100和120，根据候选选项和投票顺序对待纠正数据进行投票决策，比较待纠正数据与候选选项的差异，并根据某种规则或算法进行投票决策，假设我们选择了绝对值差异最小的候选选项作为投票结果，那么选择了销售数量为100的候选选项，根据第一次投票的结果，更新待纠正数据，将商品A的销售数量更新为100，得到了纠正后的销售数量数据。通过上述步骤，我们对商品A的销售数量进行了纠正。

类似地，可以使用同样的流程对其他字段(如销售额、商品B的销售数量等)进行数据纠正。

所述数据集成模块103，用于根据所述纠正数据的关键字段生成所述纠正数据的集成数据。

在本发明实施例中，所述数据集成模块103在根据所述纠正数据的关键字段生成所述纠正数据的集成数据时，具体用于：

详细地，所述提取所述纠正数据的关键字段是指从纠正数据中提取出需要进行相似度计算和匹配的关键字段，所述关键字段可以是能够唯一标识数据的字段或者与其他数据进行匹配的字段。

详细地，所述根据所述字段相似度对所述纠正数据进行数据匹配可以使用阈值判断相似度是否达到匹配要求，或使用机器学习算法进行数据匹配,将相似度高于阈值或经过机器学习模型预测为匹配的纠正数据匹配起来，并得到匹配数据；所述对所述匹配数据进行数据集成是指将相似的数据进行合并。

详细地，所述数据集成模块103在计算所述关键字段的字段相似度时，具体用于：

利用如下相似度算法计算所述关键字段的字段相似度：

详细地，所述根据所述纠正数据的关键字段生成所述纠正数据的集成数据是指，将来自不同源的纠正数据合并成一个统一的数据集，以便数据能够在统一的结构和格式下进行处理和分析。

进一步地，所述字段相似度是一个介于-1到1之间的余弦相似度值S，用于衡量所述关键字段中第一个字段的字段向量A和所述关键字段中第二个字段的字段向量B之间的相似程度，其中，所述字段相似度的值越接近1，表示两个向量越相似；所述字段相似度的值越接近-1，表示两个向量越不相似。

所述数据映射模块104，用于对所述集成数据进行数据映射，得到所述集成数据的映射数据。

在本发明实施例中，所述数据映射模块104在对所述集成数据进行数据映射，得到所述集成数据的映射数据时，具体用于：

详细地，所述对所述集成数据进行数据归一化是为了将不同数据的取值范围统一到相同的尺度，便于后续处理，可以使用标准化、最小-最大规范化等方法对集成数据进行归一化处理，使得数据在同一尺度内；所述根据所述集成数据的排列顺序生成所述归一化数据的数据序列是指按照集成数据的顺序，逐个提取归一化数据，并形成一个有序的数据序列；所述构建所述归一化数据的数据词典是指将数据序列中的每个归一化数据与一个唯一的标识符(例如索引或ID)关联起来，形成数据词典，其中，所述数据词典用于记录每个归一化数据与其对应的标识符之间的映射关系。

详细地，所述利用所述数据词典对所述数据序列中的归一化数据逐个进行数据映射是指根据数据词典中的映射关系，将归一化数据替换为与之对应的标识符，这样就得到了数据序列的映射序列，其中每个归一化数据都被映射为其对应的标识符。

进一步地，根据映射序列中的标识符，找到数据词典中对应的归一化数据，将这些归一化数据作为集成数据的映射数据。

所述模型训练模块105，用于利用所述映射数据和预设的目标函数对预先构建的数据融合模型进行模型训练，得到训练完成的数据融合模型。

在本发明实施例中，所述模型训练模块105在利用所述映射数据和预设的目标函数对预先构建的数据融合模型进行模型训练，得到训练完成的数据融合模型时，具体用于：

根据所述映射数据生成所述数据融合模型的训练数据；

详细地，所述根据所述映射数据生成所述数据融合模型的训练数据是指将映射数据作为输入，同时准备相应的输出标签或目标值，组成训练数据集；所述模型参数空间包括数据融合模型中各个可调整的参数的取值范围或可能的取值列表；所述在所述模型参数空间中遍历所述数据融合模型的参数组合，逐个根据所述参数组合对所述数据融合模型进行参数配置是指对于每一组参数组合，将其作为配置来配置数据融合模型。

详细地，使用网格搜索技术在所述模型参数空间中遍历所述数据融合模型的参数组合，将所述模型参数空间划分成一个个网格，每个网格对应一个参数组合，这些参数组合将用于训练和评估所述数据融合模型。

详细地，对于每个参数组合，使用交叉验证来评估模型的性能，将所述训练数据划分为多个子集(通常使用k折交叉验证)，其中k-1个子集用于训练模型，剩下的1个子集用于验证模型的性能，重复这个过程，直到每个子集都充当过验证集，最后，将每次验证的结果进行平均，得到模型在当前参数组合下的性能评估指标，其中，所述性能评估指标包括但不限于：准确率、精确率以及召回率等。

详细地，所述预设的目标函数为：

其中，Y是目标函数值，min(*)是最小化函数，w是所述数据融合模型需要训练的权重向量，w^T是所述权重向量的转置，b是所述数据融合模型需要训练的偏置项，ξ_i是第i个训练数据所对应的松弛变量，C是正则化参数，i是所述训练数据的数据标识，l是所述训练数据的数据总数。

详细地，所述正则化参数C控制着对误分类样本的惩罚程度和决策边界的容错能力，较小的正则化参数C值会导致容错性增加，但也可能导致较大的误分类；而较大的正则化参数C值会减少容错性，但可以得到更准确的分类结果。

详细地，所述预设的目标函数可以用来确定数据融合模型的最优参数配置，通过最小化目标函数来优化权重和偏置，实现关务数据的整合、分类和预测，提高数据处理时的数据质量和处理性能。

所述数据融合模块106，用于利用所述训练完成的数据融合模型对实时关务数据进行数据融合，得到所述实时关务数据的融合数据。

在本发明实施例中，所述数据融合模块106在利用所述训练完成的数据融合模型对实时关务数据进行数据融合，得到所述实时关务数据的融合数据时，具体用于：

生成所述实时关务数据的模型输入数据，将所述模型输入数据输入至所述训练完成的数据融合模型，得到所述模型输入数据的模型输出数据；

确定所述模型输出数据为所述实时关务数据的融合数据。

参照图2所示，为本发明一实施例提供的基于数据融合的关务数据处理方法的流程示意图。

在本实施例中，所述基于数据融合的关务数据处理方法包括：

S1、生成预先采集的多源关务数据的清洗数据；

本发明实施例通过生成预先采集的多源关务数据的清洗数据，并根据数据冲突值对清洗数据进行纠正，可以自动化地清理和修复数据，同时，基于纠正数据的关键字段生成集成数据，并对集成数据进行数据映射，可以将来自不同源头的数据整合为一体，并建立映射关系,这样可以简化数据的查询和分析，节省了人工查找和整合数据的时间，对预先构建的数据融合模型进行训练，得到一个优化的权重向量和偏置项。这种基于模型的数据融合方法可以更加准确地将各个数据源的信息进行融合，提高数据融合的精度和效率，这些步骤充分利用了计算机技术和数据科学的方法，减少了人工操作的需求，并通过优化算法和模型来提高数据处理的速度，因此本发明提出的基于数据融合的关务数据处理系统，可以提高关务数据处理时的效率。

本发明还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

一种基于数据融合的关务数据处理系统，其特征在于，所述系统包括数据清洗模块、数据纠正模块、数据集成模块、数据映射模块、模型训练模块及数据融合模块，其中：

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于数据融合的关务数据处理系统，其特征在于，所述系统包括数据清洗模块、数据纠正模块、数据集成模块、数据映射模块、模型训练模块及数据融合模块，其中：

2.如权利要求1所述的基于数据融合的关务数据处理系统，其特征在于，所述数据清洗模块在生成预先采集的多源关务数据的清洗数据时，具体用于：

3.如权利要求1所述的基于数据融合的关务数据处理系统，其特征在于，所述数据纠正模块在生成所述清洗数据的数据冲突值时，具体用于：

利用所述哈希值生成所述数据特征的标识符；

4.如权利要求1所述的基于数据融合的关务数据处理系统，其特征在于，所述数据纠正模块在根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据时，具体用于：

S12、逐个生成所述待纠正数据的候选选项；

5.如权利要求1所述的基于数据融合的关务数据处理系统，其特征在于，所述数据集成模块在根据所述纠正数据的关键字段生成所述纠正数据的集成数据时，具体用于：

6.如权利要求5所述的基于数据融合的关务数据处理系统，其特征在于，所述数据集成模块在计算所述关键字段的字段相似度时，具体用于：

利用如下相似度算法计算所述关键字段的字段相似度：

7.如权利要求1所述的基于数据融合的关务数据处理系统，其特征在于，所述数据映射模块在对所述集成数据进行数据映射，得到所述集成数据的映射数据时，具体用于：

8.如权利要求1至8中任一项所述的基于数据融合的关务数据处理系统，其特征在于，所述模型训练模块在利用所述映射数据和预设的目标函数对预先构建的数据融合模型进行模型训练，得到训练完成的数据融合模型时，具体用于：

根据所述映射数据生成所述数据融合模型的训练数据；

9.一种基于数据融合的关务数据处理方法，其特征在于，所述方法包括：

S1、生成预先采集的多源关务数据的清洗数据；

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的基于数据融合的关务数据处理方法。