CN117851790A

CN117851790A - 一种数据自动化采集的数据流通系统

Info

Publication number: CN117851790A
Application number: CN202311610759.7A
Authority: CN
Inventors: 黄聪; 吴叶国; 强锋; 冯建社; 吴青山; 柴干; 马利
Original assignee: Shenzhen Weiyan Technology Co ltd
Current assignee: Shenzhen Weiyan Technology Co ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-04-09

Abstract

本发明公开了一种数据自动化采集的数据流通系统，属于数据流通技术领域。为解决数据流通系统中难以对数据源进行选择的问题，本发明通过数据质量评定模块、数据可靠稳定性评定模块、数据安全性评定模块、数据格式和接口选择模块、数据可扩展性评定模块以及数据持有者合规性评定模块，确保数据源提供的数据准确、完整、一致，并符合业务需求，能够评估数据源的数据精度、数据更新频率、数据缺失率，还可以评估数据源的可用性、系统稳定性、故障容忍性和恢复能力以及评估数据源的数据安全措施。

Description

一种数据自动化采集的数据流通系统

技术领域

本发明涉及数据流通技术领域，特别涉及一种数据自动化采集的数据流通系统。

背景技术

数据流通是指以数据或数据中蕴含的价值(信息内容)作为对象，按照一定规则从数据提供方传递到数据需求方的过程，即数据资源先后被不同主体获取、掌握或利用的过程。在数据要素市场建设的背景下，数据流通领域受到了空前的关注，各方均在积极探索参与数据流通，进而实现充分释放数据要素价值的目标。

目前数据在流通之前，只是简单的对数据进行筛分，但是数据体量较大，在筛分之后，数据中仍会残留不准确、不完整的数据，导致在数据流通过程中，给需求方带来不准确的数据，造成这问题的主要因素并不是筛分力度不够，而是对数据源没有选择好，选择的数据源不够稳定，且数据源自身不具备保护机制，导致数据源很容易被破坏。

发明内容

本发明的目的在于提供一种数据自动化采集的数据流通系统，以解决上述背景技术中数据流通系统中难以对数据源进行选择的问题。

为实现上述目的，本发明提供如下技术方案：一种数据自动化采集的数据流通系统，包括：

数据预处理系统，用于：

选择一个质量高、稳定性安全性好的数据源，随后在选择好的数据源中进行数据采集，最后对采集后的数据进行储存；

数据中期处理系统，用于：

对采集后的数据进行处理和转换，防止有些数据不准确、不完整，同时对数据格式和结构进行转换，将数据从一种格式转换成另一种格式，以符合后续处理和分析，其次，对处理好后的数据进行分析和挖掘，以了解数据的分布、趋势和关系，同时对分析结果进行解释和解读，将分析结果转化为实际行动和决策支持，最后，将数据传输给需求方；

数据后期处理系统，用于：

设立数据安全和隐私保护，防止数据泄露和篡改，提高数据流通的安全性。

进一步地，所述数据预处理系统包括：数据源选择模块、数据采集收集模块以及数据储存模块，其中

数据源选择模块，包括：

数据质量评定模块，用于确保数据源提供的数据准确、完整、一致，并符合业务需求，评估数据源的数据质量指标，其中包括数据精度、数据更新频率、数据缺失率；数据可靠稳定性评定模块，用于评估数据源的可用性、系统稳定性、故障容忍性和恢复能力；数据安全性评定模块，用于确保数据的机密性和完整性，评估数据源的数据安全措施，其中包括数据加密、访问控制、身份认证；数据格式和接口选择模块，用于了解数据源的数据格式和接口是否与目标系统兼容，检查数据源是否提供适当的数据格式(如CSV、JSON、XML等)，以及合适的API或集成方式；数据可扩展性评定模块，用于考虑数据源的可扩展性，特别是在需要处理大量数据或将来可能增加数据量的情况下，确保数据源能够满足未来的需求并支持数据的扩展；数据持有者合规性评定模块，用于在选择数据源时，确保遵守相关法律和法规，尊重数据的所有权和隐私，了解数据持有者的合规性、使用条款和隐私政策；

数据采集收集模块，包括：

数据确定模块，用于确定需求和目标，与需求方明确沟通需求和目标，理解他们对数据的具体要求和期望，明确所需数据的类型、格式、内容以及采集频率；数据自检评估模块，用于评估数据源的可靠性、数据准确性、数据完整性、数据一致性等方面的指标，确保从数据源采集的数据遵守相关的隐私和合规性规定，遵循适用的法律、法规和隐私政策，获得必要的许可和授权，保护数据主体的权益和隐私；采集方式选择模块，用于选择合适的数据采集方法和技术，以满足需求方的要求，根据数据源的类型和特性，选择适当的采集方式，如爬取网页、使用API接口、传感器数据收集等，使用合适的工具或技术进行数据采集，确保数据的有效获取和存储；

数据储存模块，包括：

储存格式选择模块，用于选择合适的数据存储格式，以满足数据的使用和分析需求，常见的数据存储格式包括关系型数据库、NoSQL数据库、数据仓库、平面文件(如JSON、CSV、Parquet)等，根据数据结构和查询要求选择最适合的存储格式；灾难恢复模块，用于制定合理的数据备份策略，确保数据的备份和恢复过程可靠和高效，定期备份数据，并将备份数据存储在不同的位置或媒介中，以防止数据丢失或灾难发生时的数据恢复；定期处理模块，用于定期进行数据清理和归档，删除不再需要的数据，以减少存储空间的占用，同时，确保归档的数据仍然可供后续查询和分析使用；监控管理模块，用于建立监控机制，定期检查和评估数据存储模块的运行状态和性能，监控存储空间的使用情况，及时扩展存储容量，同时，建立合适的管理和权限控制，确保数据存储系统的稳定和可管理性。

进一步地，所述数据中期处理系统包括：数据处理和转换模块和数据分析和挖掘模块；

数据处理和转换模块，包括：

清洗去重模块，用于进行必要的数据清洗和去重操作，以去除数据集中的不准确、不完整、重复或冗余的数据，确保数据的准确性、一致性和完整性；数据格式转换模块，用于根据需求，对数据进行格式和结构的转换，将数据从一种格式(如CSV、JSON)转换为另一种格式，或将数据从非关系型结构转换为关系型结构等，确保数据的格式和结构符合后续处理和分析的要求；数据聚合汇总模块，用于根据需求，进行数据的聚合和汇总操作，将原始数据按照特定条件进行分组、求和、平均值计算等汇总操作，生成更高层次的统计数据；数据校验模块，用于对处理后的数据进行验证和校验，确保数据的正确性和一致性，使用数据校验规则、逻辑检查或与其他数据源进行比对；数据提效模块，用于考虑数据处理的效率和性能，对大规模数据进行处理时，采用合适的算法和技术，如使用并行计算、分布式计算等，以提高处理速度和效率；文档记录模块，用于为数据处理和转换过程编写适当的文档和记录，记录数据处理的步骤、方法和参数设置，以便复现和追溯数据处理过程。

进一步地，所述数据分析和挖掘模块包括：

探索和可视化模块，用于：

对处理好的数据进行探索性分析和可视化，以了解数据的分布、趋势和关系；

模型选建模块，用于：

根据分析目标，选择适当的数据挖掘和机器学习模型进行建模；

模型训练评估模块，用于：

使用处理好的数据进行模型训练，并评估模型的性能；

解读应用模块，用于：

对分析结果进行解释和解读，并将其应用于实际业务场景；

改进监控模块，用于：

持续监控模型效果和业务结果，根据反馈进行改进和优化。

进一步地，所述数据中期处理系统还包括：数据传输和共享模块，数据传输和共享模块包括：

传输方式选择模块，用于：

对传递方式进行选择，传递方式分为阶梯式传递和分散式传递，阶梯式传递是将相同数据依次传递给需求方，分散式传递是将相同的数据或者不同的数据一次性传递给需求方；

外漏监测模块，用于：

对传输过程进行监测，防止数据外漏，同时也对漏洞风险进行排除；

篡改监测模块，用于：

对传输过程进行监测，防止数据被篡改；

共享机制模块，用于：

将所有需求方需要的数据种类上传，当每个需求方的数据需求种类不同时，每个需求方则可以看到其他需求方所要的数据类别，以供参考。

进一步地，所述传输方式选择模块包括：阶梯式传递模块和分散式传递模块；

阶梯式传递模块，包括：

检查站设立模块，用于在每个需求方之间设立检查站，以供每传输一个需求方，都需要进行检查数据有无异常；阶梯自检模块，用于数据在经过检查站时，对数据进行自检，检测数据有无被泄露或者被篡改的风险；最终比对模块，用于数据在到达最终需求方时，将数据与供应方发出的数据进行比对，查看有无区别或异常；

分散式传递模块，包括：

需求方统计模块，用于对每个需求方进行统计，同时对每个需求方进行简易命名，方便后续记录；数据需求统计模块，用于对每个需求方的数据需求种类进行统计，若每个需求方的需求种类相同，则统一传递数据；若每个需求方的种类需求不同，则按顺序传递数据；统一核对模块，用于当每个需求方的需求种类相同时，对每个需求方的数据进行统一核对，防止出错，也节省时间；分类核对模块，用于当每个需求方的需求种类不同时，考虑到量多，则对每个需求方的数据进行分类核对，防止出错。

进一步地，所述外漏监测模块包括：

审计建立模块，用于：

记录数据传输过程的日志和事件；

监控机制建立模块，用于：

设立阶梯式监控机制，对数据的传输进行监控，实时监控数据传输活动，及时发现异常行为和异常数据流量，以便迅速采取应对措施，防止数据泄漏；

漏洞扫描模块，用于：

定期进行安全测试和漏洞扫描，以发现数据传输过程中存在的安全漏洞和风险；

篡改监测模块，包括：

哈希校验模块，用于发送方在发送数据之前，可以对数据进行哈希运算生成摘要(哈希值)，并将摘要一同发送给接收方，接收方在接收到数据后，再次对数据进行哈希运算并与发送方提供的摘要进行比较，如果哈希值一致，说明数据没有被篡改；

MAC模块，用于MAC是在发送方使用密钥对数据进行签名，将签名附加到数据中，接收方可以使用相同的密钥对接收到的数据进行验证，以确保数据完整性和真实性

绑定模块，用于哈希值与MAC绑定发送，且为一次性，即使用后自动消除，当需求方只收到其中一个时，则代表数据已被篡改。

进一步地，所述数据传输和共享模块包括权限设置模块，其中所述权限设置模块包括：

请求者识别模块，用于输入请求者身份信息，同时将信息发送给管理者审核；

密码请求模块，用于向密钥库发送请求指令，请求给予权限密码；

密码接收模块，用于接收密钥库发送过来的密码，同时向密钥库回复已接收；

密码定时模块，用于请求者需要在规定时间内使用密码将数据传输出去，逾时自动消除，若未在时间内使用密码导致密码消除的，需要重新向密钥库发送请求指令。

进一步地，所述数据后期处理系统包括数据安全和隐私保护模块，其中所述数据安全和隐私保护模块包括：

身份管理模块，用于提前录入可以接收密码的请求者身份信息，并额外设立管理者进行管理，用于审核后续每次发来的请求者身份信息，若身份正确，则允许请求者发送请求指令；

密钥库模块，用于设立密钥库，用于存储密码，同时用于接收请求指令，若请求指令正确，则给予密码；若请求指令不正确，则自动记录信息并警告。

进一步地，所述数据安全和隐私保护模块还包括：

数据加密模块，用于对敏感数据进行加密处理，使用对称加密算法或非对称加密算法，确保未经授权用户无法解密和访问数据，并保护数据在传输和存储过程中的安全性；

请求记录模块，用于对每次接收到请求进行记录，其中包括请求人、请求理由、请求时间以及请求后续结果；

其中所述数据安全和隐私保护模块与权限设置模块信号连接。

与现有技术相比，本发明的有益效果是：

1.现有技术下，数据流通系统中难以对数据源进行选择，而本发明通过数据质量评定模块、数据可靠稳定性评定模块、数据安全性评定模块、数据格式和接口选择模块、数据可扩展性评定模块以及数据持有者合规性评定模块，确保数据源提供的数据准确、完整、一致，并符合业务需求，能够评估数据源的数据精度、数据更新频率、数据缺失率，还可以评估数据源的可用性、系统稳定性、故障容忍性和恢复能力以及评估数据源的数据安全措施，同时还能够了解数据源的数据格式和接口是否与目标系统兼容，检查数据源是否提供适当的数据格式，其次还能够考虑数据源的可扩展性，特别是在需要处理大量数据或将来可能增加数据量的情况下，确保数据源能够满足未来的需求并支持数据的扩展，最后在选择数据源时，可以评定数据源是否遵守相关法律和法规。

2.现有技术下，目前数据流通系统不能够对数据进行分析和挖掘，而本发明通过探索和可视化模块、模型选建模块、模型训练评估模块、解读应用模块以及改进监控模块，能够对处理好的数据进行探索性分析和可视化，以了解数据的分布、趋势和关系，通过直方图、散点图等图表，可以获取数据的基本统计特征和趋势，如数据的中心位置、离散程度、相关性等，有助于理解数据的基本特征，为后续的分析提供参考和背景，根据分析目标，选择适当的数据挖掘和机器学习模型进行建模，通过模型来捕捉数据中的模式和关联关系，通过将数据集划分为训练集和测试集，可以训练模型并使用测试集评估模型的预测能力和泛化能力，意义在于了解模型的稳定性和预测能力，以确定模型的可靠性和可用性，通过解释和交互可视化来传达分析结果，帮助业务决策者理解数据洞察和模型预测，将分析结果转化为实际行动和决策支持，为业务创造价值，数据挖掘和分析是一个迭代的过程，数据的不断更新和新的业务需求也需要及时调整和重新分析，能够保持数据分析的有效性和持续的商业价值。

附图说明

图1为本发明数据自动化采集的数据流通系统整体流程图；

图2为本发明数据自动化采集的数据流通系统中数据预处理系统程序框图；

图3为本发明数据自动化采集的数据流通系统中数据处理和转换模块程序框图；

图4为本发明数据自动化采集的数据流通系统中数据分析和挖掘模块程序框图；

图5为本发明数据自动化采集的数据流通系统中数据传输和共享模块程序框图；

图6为本发明数据自动化采集的数据流通系统中权限设置模块程序框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1和图2，本发明提供以下技术方案：

一种数据自动化采集的数据流通系统，包括：

数据预处理系统，用于：

数据中期处理系统，用于：

数据后期处理系统，用于：

数据预处理系统包括：数据源选择模块、数据采集收集模块以及数据储存模块，其中

数据源选择模块，包括：

数据采集收集模块，包括：

数据储存模块，包括：

具体的，通过数据质量评定模块、数据可靠稳定性评定模块、数据安全性评定模块、数据格式和接口选择模块、数据可扩展性评定模块以及数据持有者合规性评定模块，确保数据源提供的数据准确、完整、一致，并符合业务需求，能够评估数据源的数据精度、数据更新频率、数据缺失率，还可以评估数据源的可用性、系统稳定性、故障容忍性和恢复能力以及评估数据源的数据安全措施，同时还能够了解数据源的数据格式和接口是否与目标系统兼容，检查数据源是否提供适当的数据格式，其次还能够考虑数据源的可扩展性，特别是在需要处理大量数据或将来可能增加数据量的情况下，确保数据源能够满足未来的需求并支持数据的扩展，最后在选择数据源时，可以评定数据源是否遵守相关法律和法规。

请参阅图3-图6，本发明提供以下技术方案:

数据中期处理系统包括：数据处理和转换模块和数据分析和挖掘模块；

数据处理和转换模块，包括：

数据分析和挖掘模块包括：

探索和可视化模块，用于：

模型选建模块，用于：

模型训练评估模块，用于：

使用处理好的数据进行模型训练，并评估模型的性能；

解读应用模块，用于：

对分析结果进行解释和解读，并将其应用于实际业务场景；

改进监控模块，用于：

持续监控模型效果和业务结果，根据反馈进行改进和优化。

数据中期处理系统还包括：数据传输和共享模块，数据传输和共享模块包括：

传输方式选择模块，用于：

外漏监测模块，用于：

篡改监测模块，用于：

对传输过程进行监测，防止数据被篡改；

共享机制模块，用于：

传输方式选择模块包括：阶梯式传递模块和分散式传递模块；

阶梯式传递模块，包括：

分散式传递模块，包括：

外漏监测模块包括：

审计建立模块，用于：

记录数据传输过程的日志和事件；

监控机制建立模块，用于：

漏洞扫描模块，用于：

篡改监测模块，包括：

数据传输和共享模块包括权限设置模块，其中所述权限设置模块包括：

数据后期处理系统包括数据安全和隐私保护模块，其中所述数据安全和隐私保护模块包括：

数据安全和隐私保护模块还包括：

具体的，通过探索和可视化模块、模型选建模块、模型训练评估模块、解读应用模块以及改进监控模块，能够对处理好的数据进行探索性分析和可视化，以了解数据的分布、趋势和关系，通过直方图、散点图等图表，可以获取数据的基本统计特征和趋势，如数据的中心位置、离散程度、相关性等，有助于理解数据的基本特征，为后续的分析提供参考和背景，根据分析目标，选择适当的数据挖掘和机器学习模型进行建模，通过模型来捕捉数据中的模式和关联关系，通过将数据集划分为训练集和测试集，可以训练模型并使用测试集评估模型的预测能力和泛化能力，意义在于了解模型的稳定性和预测能力，以确定模型的可靠性和可用性，通过解释和交互可视化来传达分析结果，帮助业务决策者理解数据洞察和模型预测，将分析结果转化为实际行动和决策支持，为业务创造价值，数据挖掘和分析是一个迭代的过程，数据的不断更新和新的业务需求也需要及时调整和重新分析，能够保持数据分析的有效性和持续的商业价值，其次，在数据传输的时候，请求者需要利用请求者识别模块输入自己的身份信息，并将信息发送给管理员审核，而管理员在身份管理模块中查找，若能找到相匹配的，则允许请求者发送请求指令，随即请求者向密钥库发送请求指令，请求给予权限密码，密钥库模块接收到请求指令，若请求指令正确，则给予密码；若请求指令不正确，则自动记录信息并警告，通过密码接收模块接收密钥库发送过来的密码，同时向密钥库回复已接收，请求者利用密码发送数据给需求方，这样能够保证数据在传输过程中不被篡改和泄露，保证数据安全性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据自动化采集的数据流通系统，其特征在于，包括：

数据预处理系统，用于：

数据中期处理系统，用于：

数据后期处理系统，用于：

2.如权利要求1所述的一种数据自动化采集的数据流通系统，其特征在于：所述数据预处理系统包括：数据源选择模块、数据采集收集模块以及数据储存模块，其中

数据源选择模块，包括：

数据采集收集模块，包括：

数据储存模块，包括：

3.如权利要求1所述的一种数据自动化采集的数据流通系统，其特征在于：所述数据中期处理系统包括：数据处理和转换模块和数据分析和挖掘模块；

数据处理和转换模块，包括：

4.如权利要求3所述的一种数据自动化采集的数据流通系统，其特征在于：所述数据分析和挖掘模块包括：

探索和可视化模块，用于：

模型选建模块，用于：

模型训练评估模块，用于：

使用处理好的数据进行模型训练，并评估模型的性能；

解读应用模块，用于：

对分析结果进行解释和解读，并将其应用于实际业务场景；

改进监控模块，用于：

持续监控模型效果和业务结果，根据反馈进行改进和优化。

5.如权利要求4所述的一种数据自动化采集的数据流通系统，其特征在于：所述数据中期处理系统还包括：数据传输和共享模块，数据传输和共享模块包括：

传输方式选择模块，用于：

外漏监测模块，用于：

篡改监测模块，用于：

对传输过程进行监测，防止数据被篡改；

共享机制模块，用于：

6.如权利要求5所述的一种数据自动化采集的数据流通系统，其特征在于：所述传输方式选择模块包括：阶梯式传递模块和分散式传递模块；

阶梯式传递模块，包括：

分散式传递模块，包括：

7.如权利要求6所述的一种数据自动化采集的数据流通系统，其特征在于：所述外漏监测模块包括：

审计建立模块，用于：

记录数据传输过程的日志和事件；

监控机制建立模块，用于：

漏洞扫描模块，用于：

篡改监测模块，包括：

8.如权利要求1所述的一种数据自动化采集的数据流通系统，其特征在于：所述数据传输和共享模块包括权限设置模块，其中所述权限设置模块包括：

9.如权利要求8所述的一种数据自动化采集的数据流通系统，其特征在于：所述数据后期处理系统包括数据安全和隐私保护模块，其中所述数据安全和隐私保护模块包括：

10.如权利要求9所述的一种数据自动化采集的数据流通系统，其特征在于：所述数据安全和隐私保护模块还包括：