CN116881303A - 基于大数据的数据管理方法、装置、电子设备及存储介质 - Google Patents

基于大数据的数据管理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116881303A
CN116881303A CN202310899238.1A CN202310899238A CN116881303A CN 116881303 A CN116881303 A CN 116881303A CN 202310899238 A CN202310899238 A CN 202310899238A CN 116881303 A CN116881303 A CN 116881303A
Authority
CN
China
Prior art keywords
data
test
image data
test data
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310899238.1A
Other languages
English (en)
Inventor
陈飞
陈典银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tewei Kechuang Information Technology Co ltd
Original Assignee
Shenzhen Tewei Kechuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tewei Kechuang Information Technology Co ltd filed Critical Shenzhen Tewei Kechuang Information Technology Co ltd
Priority to CN202310899238.1A priority Critical patent/CN116881303A/zh
Publication of CN116881303A publication Critical patent/CN116881303A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据管理技术领域,尤其涉及一种基于大数据的数据管理方法、装置、电子设备及存储介质。本申请先确定原始试验数据的数据源,基于数据源设置对应数据字典表和数据模型字段,从而利用数据模型字段对原始试验数据进行转换,并在转换后进行预处理,能够确保原始试验数据的一致性、清晰性和完整性,最后根据数据字典表生成数据存储规则,将目标试验数据存储至预设试验数据库中进行管理,能够更好地组织和管理数据,从而有利于进行数据的查询及分析。

Description

基于大数据的数据管理方法、装置、电子设备及存储介质
技术领域
本申请涉及数据管理技术领域,尤其是涉及一种基于大数据的数据管理方法、装置、电子设备及存储介质。
背景技术
目前,产品研发过程中会产生大量的试验数据,但由于研发项目具有流程复杂、成本高、测试参数多、资源分散、设备种类繁多、数据格式不一、数据结构复杂等问题,导致基于大量的试验数据进行数据检索、重新利用、数据共享等非常不便。
现有技术中,通常通过人工进行整理和分析这些大量的实验数据,人工整理分析数据工作效率低且易产生错误。此外,缺少海量数据的存储处理能力,因而会影响到试验数据的查询、导入导出等工作效率。
因此,如何对大量实验数据进行管理成为亟待解决的技术问题。
发明内容
为了解决现有的,本申请提供一种基于大数据的数据管理方法、装置、电子设备及存储介质,用于解决大量数据管理效率低且易产生错误的技术问题。
本申请的第一方面提供一种基于大数据的数据管理方法,所述方法包括:
获取原始试验数据,确定所述原始试验数据的数据源;
基于所述数据源设置对应所述原始试验数据的数据字典表和数据模型字段;
利用所述数据模型字段对对应的所述原始试验数据进行转换,得到标准试验数据;
对所述标准试验数据进行数据预处理,得到目标试验数据;
基于所述数据字典表生成数据存储规则;
按照所述数据存储规则将所述目标试验数据存储至预设试验数据库中进行管理。
在一个可选的实施方式中,所述按照所述数据存储规则将所述目标试验数据存储至预设试验数据库进行管理包括:
根据所述数据存储规则,确定所述目标试验数据的存储地址;
将所述目标试验数据存储至所述预设试验数据库中所述存储地址对应的位置;
确定与所述存储地址对应的所述目标试验数据的管理方式;
基于所述管理方式对所述预设试验数据库中的所述目标试验数据进行管理。
在一个可选的实施方式中,所述方法还包括:
接收到用户的数据查看指令时,获取所述用户的数据查看权限;
确定所述数据查看指令中待查看数据的数据读取权限;
在所述数据查看权限与所述数据读取权限下,允许所述用户访问并查看所述待查看数据。
在一个可选的实施方式中吧,所述方法还包括:
获取所述预设试验数据库中的多个图像数据;
对所述多个图像数据进行聚类分析,得到多类图像数据;
计算每类图像数据中任意两个所述图像数据之间的相似度;
根据所述相似度将每类图像数据分为第一类图像数据和第二类图像数据,其中,所述第一类图像数据对应的相似度大于预设相似度阈值,所述第二类图像数据对应的相似度小于所述预设相似度阈值;
为每类图像数据中的所述第一类图像数据标注标签。
在一个可选的实施方式中,所述方法还包括:
根据所述第一类图像数据确定对应类的类中心;
计算每类图像数据中的所述第二类图像数据与其余类的类中心之间的距离;
根据所述距离对所述第二类图像数据进行分类;
根据分类后的类中的第一类图像的标签为所述第二类图像标注标签。
在一个可选的实施方式中,所述方法还包括:
获取所述预设试验数据库的目标试验数据的存续生命周期;
基于所述目标试验数据及对应的存续生命周期训练生命周期预测模型;
通过所述生命周期预测模型对所述预设试验数据库中新增的目标试验数据进行预测,得到所述新增的目标试验数据的预测生命周期;
根据所述预测生命周期对所述新增的目标试验数据对应的项目进行可靠性评估。
在一个可选的实施方式中,所述利用所述数据模型字段对对应的所述原始试验数据进行转换,得到标准试验数据包括:
基于所述数据模型字段建立数据转换规则;
根据所述数据转换规则对所述原始试验数据进行转换。
本申请的第二方面提供一种基于大数据的数据管理装置,所述装置包括:
获取模块,用于获取原始试验数据,确定所述原始试验数据的数据源;
设置模块,用于基于所述数据源设置对应所述原始试验数据的数据字典表和数据模型字段;转换模块,用于利用所述数据模型字段对对应的所述原始试验数据进行转换,得到标准试验数据;
处理模块,用于对所述标准试验数据进行数据预处理,得到目标试验数据;
生成模块,用于基于所述数据字典表生成数据存储规则;
存储模块,用于按照所述数据存储规则将所述目标试验数据存储至预设试验数据库中进行管理。
本申请的第三方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据的数据管理方法的步骤。
本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于大数据的数据管理方法的步骤。
综上所述,本申请提供的基于大数据的数据管理方法、装置、电子设备及存储介质,在获取原始试验数据时,先确定所述原始试验数据的数据源,基于所述数据源设置对应所述原始试验数据的数据字典表和数据模型字段,从而利用所述数据模型字段对对应的所述原始试验数据进行转换,并按照根据所述数据字典表生成的数据存储规则将所述目标试验数据存储至预设试验数据库中进行管理。由于获取原始试验数据时的数据源不同,本申请基于数据源设置数据模型字段对所述原始试验数据进行转换并在转换后进行预处理,能够确保所述原始试验数据的一致性、清晰性和完整性。此外,基于数据源设置数据字典表来生成数据存储规则,基于数据存储规则将所述目标试验数据存储至预设试验数据库中,能够更好地组织和管理数据,从而有利于进行数据的查询及分析。
附图说明
图1是本申请实施例示出的基于大数据的数据管理方法的流程图;
图2是本申请实施例示出的基于大数据的数据管理装置的结构图;
图3是本申请实施例示出的电子设备的结构图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指包含一个或多个所列出项目的任何或所有可能组合。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例提供的基于大数据的数据管理方法由电子设备执行,相应地,基于大数据的数据管理装置运行于电子设备中。
图1是本申请实施例一提供的基于大数据的数据管理方法的流程图。所述基于大数据的数据管理方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取原始试验数据,确定所述原始试验数据的数据源。
在产品研发过程中,会产生海量的未经过任何处理的试验数据,将这些未经过任何处理的试验数据称为原始试验数据。不同的研发项目,会产生不同的原始实验数据,同一个研发项目,在不同的研发阶段,也有可能会产生不同类型的原始实验数据,可以将所述原始试验数据产生的来源称之为所述原始试验数据的数据源。
在一些实施例中,所述原始试验数据可以来源于实际产品研发过程中使用的特定的试验设备或仪器,例如扫描电子显微镜、液相色谱仪、气相色谱仪等。在其他实施例中,所述原始试验数据可以来源于产品研发过程中专门建立的试验平台或系统记录的试验阶段的相关数据。所述试验设备或仪器、所述试验平台或系统具备数据采集的功能,并可以通过接口将所述原始试验数据直接导出给电子设备,或通过网络连接传输给电子设备。
示例性的,假设一个汽车制造公司在研发一款电动汽车,在研发的过程进行了大量的试验来评估电动汽车的电池性能,则监控电池的监控设备、电动汽车的控制系统、电池模型的仿真软件等都会产生大量的原始试验数据。例如,电池监测设备会测量和监测电池的电压、电流、温度等参数,电动汽车的控制系统会采集与电池相关的数据,例如电池状态、充电状况等,电池模型的仿真软件会生成与电池性能相关的仿真数据等。
S12,基于所述数据源设置对应所述原始试验数据的数据字典表和数据模型字段。
电子设备根据不同的数据源,设置不同的数据字典表和数据模型字段。
电子设备可以根据用户对所述原始试验数据的需求和分析目标,构建数据模型字段来组织和存储所述原始试验数据,所述数据模型字段是在后续数据分析和处理中使用的字段结构。所述数据模型字段可以包括,但不限于:数据字段名称(数据在系统中使用的名称或标识符)、数据类型(如数值型、字符串型、日期时间型等)、数据长度(数据的字符长度或数值精度)、约束条件等。
电子设备可以基于所述数据模型字段创建所述数据字典表,所述数据字典表是用于记录数据模型中的数据模型字段及其相关属性的文档或数据库表。
示例性的,假设针对电动汽车电池的原始试验数据,设置的数据模型字段包括:电压字段(伏特,V)、电流字段(安培,A)和温度字段(摄氏度,℃),则基于所述数据模型字段创建的数据字典表如下所示:
数据字段名称 数据字段类型 数据字段单位 数据字段描述
Voltage 数值型 V 电池电压
Current 数值型 A 电池电流
Temperature 数值型 电池温度
需要说明的是,在创建的数据字典表中,应当列出数据模型字段的详细信息。
通过上述可选的实施方式,通过所述数据字典表和所述数据模型字段的设置,可以确保所述原始试验数据的一致性和清晰性,并为后续的数据分析、建模、可视化以及数据管理提供了基础。
S13,利用所述数据模型字段对对应的所述原始试验数据进行转换,得到标准试验数据。
电子设备中预先存储有多个数据转换规则,每个数据转换规则对应一个数据模型字段,不同的数据模型字段,对应不同的数据转换规则。例如,电子设备可以预先设置第一个数据模型字段、第二个数据模型字段、第三个数据模型字段,其中,第一个数据模型字段对应第一种数据转换规则,第二个数据模型字段对应第二种数据转换规则,第三个数据模型字段对应第三种数据转换规则。
在一个可选的实施方式中,所述利用所述数据模型字段对所述原始试验数据进行转换得到标准试验数据包括:
基于所述数据模型字段建立数据转换规则;
根据所述数据转换规则对所述原始试验数据进行转换。
原始试验数据中包括原始数据字段,当所述数据模型字段与所述原始试验数据的原始数据字段不同时,需要利用所述数据转换规则对所述原始试验数据进行数据转换,以将原始试验数据转换为符合数据模型的标准试验数据。所述数据转换规则根据所述数据模型及所述原始试验数据的具体结构有所不同。
具体实施时,先确定原始数据字段中与数据模型字段相同的第一目标原始数据字段,将第一目标原始数据字段对应的原始数据,按照数据模型字段的数据格式进行转换;然后可以通过语义理解,确定剩余原始数据字段中与数据模型字段具有相同语义表示的第二目标原始数据字段,将第二目标原始数据字段按照数据模型字段进行转换。对于原始数据字段中既没有与数据模型字段相同的数据字段,也没有与数据模型字段语义表示相同的数据字段,则可以确定数据模型字段对应的数据转换规则,根据确定的数据转换规则对所述原始试验数据进行转换。在其他实施方式中,也可以同时确定原始数据字段中是否有与数据模型字段相同或者语义表示相同的目标原始数据字段。其中,所述数据格式可以包括,但不限于:日期时间格式、百分比格式、小数位数格式等。
示例性的,假设数据模型字段中有一个“温度”字段,而原始试验数据对应的原始数据字段中有一个“Temp”字段,通过语义理解,“温度”数据模型字段与“Temp”原始数据字段具有相同的语义表示,则将原始数据字段“Temp”替换为数据模型字段“温度”。假设数据模型字段中有一个“温度”字段,原始试验数据对应的原始数据字段中有一个“温度”字段,而数据模型字段“温度”对应的数据格式为摄氏度表示,原始数据字段“温度”对应的数据格式为华氏度表示,则将原始数据字段“温度”对应的数据格式转换为数据模型字段“温度”对应的数据格式(以摄氏度表示)。假设原始试验数据对应的原始数据字段中有一个“地址”字段,则确定“地址”字段对应的数据转换规则,根据“地址”字段对应的数据转换规则对地址进行转换。例如,将XX省XX市XX市/县XX镇XX乡XX村转换为XX省XX市XX镇。
应当理解的是,根据不同的场景和需求,可以采用其他数据转换规则来处理原始试验数据。
上述可选的实施方式中,通过对所述原始试验数据进行数据转换,能够实现原始实验数据的统一,有利于后续进行数据分析、查询或使用。
S14,对所述标准试验数据进行数据预处理,得到目标试验数据。
由于转换后得到的所述标准试验数据可能包含错误、缺失值或异常值等情况,故需要对转换得到的所述标准试验数据进一步处理,获得目标试验数据,以满足具体的需求。可以通过对所述标准试验数据进行数据清洗,实现对标注实验数据的数据预处理。数据清洗可以包括缺失值填充,数据归一化等。
示例性的,假设在标准试验数据中,12:05下温度字段对应的数据缺失,12:10下电流字段对应的数据超出了正常范围(例如,8A),电子设备需要对所述标准试验数据进行数据清洗处理。
其中,标准试验数据如下表所示:
Time Temperature(℃) Current(A)
12:00 25.2 2.3
12:05 NULL 3.2
12:10 26.8 10.5
对标准试验数据进行数据清洗处理后,得到的目标试验数据如下表所示:
Time Temperature(℃) Current(A)
12:00 25.2 2.3
12:05 26 3.2
12:10 26.8 8
在其他实施例中,如果转换后得到的标准试验数据是敏感数据时,需要对所述标准试验数据进行脱敏加密处理。脱敏处理是通过对所述敏感数据进行匿名化、泛化、删除或替换等技术手段,去除或修改数据中的敏感信息,保持所述敏感数据的有效性,同时降低所述敏感数据被滥用或泄露的风险。数据加密是将所述敏感数据转换为密文形式,只有授权的用户持有相应的密钥才能解密和查看所述敏感数据。通过数据脱敏加密处理,即使所述敏感数据意外泄露,也可以保护所述敏感数据的机密性和完整性。
通过上述可选的实施方式,对所述标准试验数据进行数据清洗处理可以确保数据的准确性、完整性和一致性,为进一步的分析和实验提供可靠的数据基础。另外对所述标准试验数据进行数据脱敏加密处理可以保证数据的安全性、隐私性和机密性。
S15,基于所述数据字典表生成数据存储规则。
电子设备可以根据所述数据字典表中的所述数据模型字段,生成数据存储规则。所述数据存储规则是用来定义数据如何存储、组织和访问的一种规范,所述数据存储规则的具体形式取决于用户的需求以及数据模型的选型。
一些实施例中,电子设备可以根据所述数据字典表中的所述数据模型字段及其相关属性,设计数据库表。所述数据库表结构可以包括,但不限于:数据库表表名、数据字段名称、数据类型、数据长度、约束条件等。所述数据存储规则可以包括,但不限于:数据类型和数据长度规则、数据有效性规则、数据存储位置规则以及数据关联规则等。
电子设备可以根据数据字典表中的数据类型和数据长度,生成第一种数据存储规则(数据类型和数据长度规则),以定义所述数据库表中对应字段的数据类型和数据长度。例如,所述数据字典表中定义了姓名字段为字符串型,数据长度为50,那么对应的数据存储规则就是在所述数据库表中创建一个名为"姓名"的字段,类型为VARCHAR(50)。电子设备可以根据数据字典表中的数据有效性,生成第二种数据存储规则(数据有效性规则),设定数据的验证规则和约束条件。例如,所述数据字典表中定义了年龄字段的取值范围为18到99岁,那么数据存储规则可以是在所述数据库表的年龄字段上添加CHECK约束。电子设备可以根据数据字典表中的数据存储位置,生成第三种数据存储规则(数据存储位置规则),所述第三种数据存储规则用于决定数据存储在哪个数据库或文件中。例如,所述数据字典表中定义了电压字段存储在磁盘上的指定文件夹中,那么第三种数据存储规则可以是将相应的文件路径(磁盘上的指定文件夹)保存在所述数据库表的电压字段中。
通过上述可选的实施方式,基于生成的所述数据存储规则,研发人员可以在数据库中创建相应的所述数据库表,并应用相应的所述数据存储规则来存储数据,以进一步确保数据的一致性和完整性和准确性,另外还可以更好地组织和管理数据,便于进行复杂的查询和分析操作。
S16,按照所述数据存储规则将所述目标试验数据存储至预设试验数据库中进行管理。
电子设备可以在预设试验数据库中创建相应的数据库表,并根据所述数据字典表的所述数据模型字段及其相关属性和所述数据存储规则,来存储目标试验数据。每个所述数据库表对应一个数据字典表,并且所述数据库表结构要符合所述数据存储规则。
在一个可选的实施方式中,所述按照所述数据存储规则将所述目标试验数据存储至预设试验数据库进行管理包括:
根据所述数据存储规则,确定所述目标试验数据的存储地址;
将所述目标试验数据存储至所述预设试验数据库中所述存储地址对应的位置;
确定与所述存储地址对应的所述目标试验数据的管理方式;
基于所述管理方式对所述预设试验数据库中的所述目标试验数据进行管理。
一些实施例中,电子设备可以根据数据模型和数据字典表结构,创建一个预设试验数据库,并在所述预设试验数据库中创建相应的数据库表。所述预设试验数据库通常由电子设备中的数据库管理系统(Database Management System,DBMS)来管理。在电子设备创建预设试验数据库和数据库表时,DBMS会分配一个默认的存储路径或目录作为存储地址给所述预设试验数据库和所述数据库表。所述存储地址可以是DBMS默认的路径,也可以是用户指定的路径。根据DBMS的要求或管理员的设置,可以查看或修改所述存储地址。电子设备基于所述存储地址确定所述目标试验数据的管理方式通常是根据所述存储地址的性质和特点来决定的。不同的所述存储地址可以需要采用不同的所述管理方式来满足所述目标试验数据管理和访问的需求。电子设备确定好所述管理方式后,可以基于所述管理方式,对预设试验数据库中的所述目标试验数据进行管理。
在一个可选的实施方式中,将所述目标试验数据存储至所述预设试验数据库中所述存储地址对应的位置的具体实现方式可以包括:
1)将所述目标试验数据整理成适合导入所述预设试验数据库的结构,例如使用CSV、JSON等格式;
2)使用所述预设试验数据库的管理工具或编程语言将所述目标试验数据连接到预设试验数据库;
3)使用SQL语句或相应的导入工具,将所述目标试验数据导入到所述预设试验数据库的相应数据库表中,确保按照所述数据模型中定义的所述数据模型字段对应关系进行导入。
一些实施例中,电子设备可以根据不同的存储地址,如云存储、数据库服务器等,确定所述目标试验数据的不同的管理方式。例如,对于云存储的存储地址,电子设备可以使用云提供商提供的备份和恢复机制,结合访问控制策略来管理所述目标试验数据。对于数据库服务器的存储地址,电子设备可以设置定期备份和事务日志来保护所述目标试验数据的完整性和可恢复性。
在一个可选的实施方式中,假设电子设备使用磁盘驱动器作为存储地址来存储所述目标试验数据,则电子设备确定与所述存储地址对应的所述目标试验数据的管理方式可以包括:
1)对所述目标试验数据进行数据备份与恢复。在预设试验数据库中,电子设备可以设置定期备份所述目标试验数据到另一个磁盘驱动器或外部介质。通过将所述目标试验数据定期备份到另一个磁盘驱动器或外部介质上,能够避免数据丢失或损坏。例如,每天结束产品试验时进行自动备份,并将备份数据存储在单独的磁盘驱动器或网络存储设备上。如果所述目标试验数据出现故障或丢失,可以使用磁盘驱动器或网络存储设备上的备份数据进行恢复。
2)对所述目标试验数据进行数据版本控制。在预设试验数据库中,电子设备可以使用专门的版本控制工具或功能来跟踪所述目标试验数据的修改历史和演化以记录所述目标试验数据的演化历史和修改内容。可以通过在磁盘驱动器上创建专门的版本控制目录或使用版本控制工具(如Git)来实现。
3)对所述目标试验数据进行数据权限与访问控制。通过数据库管理系统(DBMS)或访问控制机制,基于磁盘驱动器的操作系统权限,设定对所述目标试验数据的权限和访问控制。为访问所述目标试验数据的用户分配适当的权限,并限制未授权的用户进行访问。例如,只有经过授权的用户才能访问和修改所述目标试验数据,未经过授权的用户只具有对所述目标试验数据的只读权限。
4)对所述目标试验数据进行数据合规性监管:根据适用的法规和标准,确保对预设试验数据库中的所述目标试验数据进行合规性管理。对所述目标试验数据中数据隐私进行保护,记录所述目标试验数据处理活动,并进行合规性审核。
通过上述可选的实施方式,对于所述预设试验数据库中的所述目标试验数据根据不同的存储地址采用不同的管理方式和技术进行管理,这样可以提高所述目标试验数据的可用性、可扩展性和性能,并确保所述目标试验数据的安全性和完整性。
在一个可选的实施方式中,所述方法还包括:
接收到用户的数据查看指令时,获取所述用户的数据查看权限;
确定所述数据查看指令中待查看数据的数据读取权限;
在所述数据查看权限与所述数据读取权限下,允许所述用户访问并查看所述待查看数据。
在一些实施例中,电子设备可以预先为不同的数据设置不同的数据读取权限,还可以为不同的用户设置不同的数据查看权限。
当所述用户需要查看数据时,会触发对该数据的数据查看指令,电子设备获取用户的数据查看权限,及确定所述数据查看指令中待查看数据的数据读取权限,从而根据数据查看权限和数据读取权限这两个权限来共同确定用户对待查看数据的查看范围。
在一些实施方式中,电子设备可以在接收到用户触发的数据查看指令时获取所述用户的身份标识,根据所述用户的身份标识确定用户对需要查看的数据的数据查看权限。数据查看权限不同,用户查看的数据范围也不同。根据所述用户的身份标识确定数据查看权限可以通过访问控制列表(Access Control Lists,ACL)、角色基础访问控制(Role-Based AccessControl,RBAC)或属性基础访问控制(Attribute Based Access Control,ABAC)等授权机制来实现。在一些实施方式中,电子设备可以通过获取用户的授权级别和/或所属组织/部门确定用户的身份标识。例如,某个用户只能查看自己所属部门的数据,而无法访问其他部门的数据。
在一些实施方式中,电子设备还可以在接收到用户触发的数据查看指令时获取待查看数据的数据标识,根据数据标识确定待查看数据的数据读取权限。数据读取权限不同,用户读取的数据方式也不同。所述数据读取权限可以包括,但不限于:完全读取权限、部分读取权限、只读权限和临时读取权限。示例性的,假设待查看数据的数据标识为普通数据,则所述用户具有对待查看数据的完全读取权限,即所述用户可以查看数据的所有内容和属性。假设待查看数据的数据标识为重要数据,则所述用户具有对待查看数据的部分读取权限,即所述用户只能查看数据中的部分内容和属性,仅限于所需要的信息。假设待查看数据的数据标识为核心数据,则所述用户具有对待查看数据的只读权限,即所述用户只能查看数据,无法对数据进行修改、删除或添加。假设待查看数据的数据标识为机密数据,则所述用户具有对待查看数据的临时读取权限,即所述用户可以在特定时间范围内和特定条件下查看数据,超过指定时间范围或条件后,则无法进行查看。
在一个可选的实施方式中,所述方法还包括:
获取所述预设试验数据库中的多个图像数据;
对所述多个图像数据进行聚类分析,得到多类图像数据;
计算每类图像数据中任意两个所述图像数据之间的相似度;
根据所述相似度将每类图像数据分为第一类图像数据和第二类图像数据,其中,所述第一类图像数据对应的相似度大于预设相似度阈值,所述第二类图像数据对应的相似度小于所述预设相似度阈值;
为每类图像数据中的所述第一类图像数据标注标签。
预设实验数据库中的数据根据数据类型可以分为图像数据,音频数据,视频数据,文本数据等。
电子设备可以使用聚类算法,例如,K-means聚类、层次聚类、谱聚类,对所述多个图像数据进行聚类分析,从而将多个图像数据分为多个类。
使用聚类算法对多个图像数据进行了聚类分析之后,虽然能够在一定程度上将相同或者相似的图像数据分为同一类,将不同的图像数据分为不同的类,但仍然存在错分的情况,将一些不相似甚至差别非常大的图像数据分为了同一类,因而电子设备还计算每类图像数据中任意两个所述图像数据之间的相似度,将相似度与预设相似度阈值进行比较,根据比较结果将每类图像数据分为第一类图像数据和第二类图像数据。
当比较结果为任意两个所述图像数据之间的相似度大于预设相似度阈值时,表明这两个图像数据不仅分为了同一个类且非常相似,则电子设备将这两个图像数据分为第一类图像数据。当比较结果为任意两个所述图像数据之间的相似度小于预设相似度阈值时,表明这两个图像数据虽然分为了同一个类但并不相似,则电子设备将两个图像数据分为第二类图像数据。
在一些实施方式中,电子设备可以通过计算两个图像数据之间的欧式距离或者余弦夹角来得到两个图像数据之间的相似度。欧式距离越大,或者余弦夹角越大,表明对应的两个图像数据之间的相似度越小,欧式距离越小,或者余弦夹角越小,表明对应的两个图像数据之间的相似度越大。
示例性的,如果所述预设试验数据库包括4个图像数据,分别为A、B、C和D,其中,A和B的相似度为95%、A和C的相似度为98%、A和D的相似度为70%、B和C的相似度为90%、B和D的相似度为80%及C和D的相似度为80%,假设预设相似度阈值为85%,则由于A和B的相似度95%、A和C的相似度98%和B和C的相似度90%都大于85%,则图像数据A、B、C称为第一类图像数据,并为所述第一类图像数据标注标签。由于A和D的相似度70%、B和D的相似度80%、C和D的相似度80%都小于85%,但因为图像数据A、B、C已经分为第一类图像数据,则图像数据D称为第二类图像数据。
上述可选的实施方式,通过对预设试验数据库中的多个图像数据进行聚类分析,将多个图像数据进行粗分类,将相同或者相似的图像数据分为同一类,将不同的图像数据分为不同的类;接着为了避免误分的情况,再通过计算每类图像数据中任意两个所述图像数据之间的相似度,根据相似度及预设相似度阈值,将每类图像数据进行细分类为第一类图像数据和第二类图像数据。如此,能够确保第一类图像数据中的图像数据均为相同或者相似的。
在一个可选的实施方式中,所述方法还包括:
根据所述第一类图像数据确定对应类的类中心;
计算每类图像数据中的所述第二类图像数据与其余类的类中心之间的距离;
根据所述距离对所述第二类图像数据进行分类;
根据分类后的类中的第一类图像的标签为所述第二类图像标注标签。
在一些实施例中,电子设备可以根据所述第一类图像数据的特征向量进行平均或求和,得到所述第一类图像数据的类中心向量。所述类中心向量表示了第一类图像数据的平均特征,在特征空间中代表了所述第一类图像数据对应类的类中心。
对于每类中的第二类图像数据,由于第二类图像与该类中的第一类图像数据并不相似,电子设备需要对第二类图像数据进行再分类,确定与第二类图像数据实际应当分为的类。
电子设备可以使用欧氏距离或其他距离度量方法计算每类图像数据中的所述第二类图像数据的特征向量与其余类的类中心向量之间的距离。电子设备可以使用不同的分类方法来对第二类图像数据进行分类,所述分类方法可以包括,但不限于:阈值分类、最近邻分类。
以最近邻分类方法对所述第二类图像数据进行分类为例,假设A类中有一个第二类图像数据F,电子设备计算到所述第二类图像数据F与B类的类中心之间的距离为0.3,与C类的类中心之间的距离为0.8,由于距离第二类图像数据F最近的是B类的类中心,因此所述第二类图像数据分为B类。
在一些实施方式中,电子设备可以为每类图像数据中的第一类图像数据标注相同的标签,不同类的第一类图像标注不同的标签,当对第二类图像数据进行分类后,根据分类后的类中的第一类图像标签为第二类图像标注标签。
上述可选的实施方式,通过第一类图像数据确定类中心,再计算每类图像数据中的第二类图像数据与其余类的类中心之间的距离,最后根据所述距离对所述第二类图像数据进行分类,如此,能够将所有的图像数据都进行分类。对图像数据进行分类后,不仅可以分类存储,还有利于后续进行分析和检索,查询等。
在一个可选的实施方式中,所述方法还包括:
获取所述预设试验数据库的目标试验数据的存续生命周期;
基于所述目标试验数据及对应的存续生命周期训练生命周期预测模型;
通过所述生命周期预测模型对所述预设试验数据库中新增的目标试验数据进行预测,得到所述新增的目标试验数据的预测生命周期;
根据所述预测生命周期对所述新增的目标试验数据对应的项目进行可靠性评估。
在产品研发过程中,所述目标试验数据是进行验证和评估产品性能的重要数据指标。为了更好地利用所述目标试验数据,了解产品在不同阶段的性能和特征变化情况,需要获取所述预设试验数据库中所述目标试验数据的存续生命周期。所述存续生命周期指的是所述目标试验数据从被记录或采集到存储、维护和更新的整个过程,通常涉及数据采集、处理、存储、标注、更新等环节。
为了预测后续的目标试验数据的存续生命周期,可以基于已有的目标试验数据及其相应的存续生命周期训练生命周期预测模型。
在一些实施例中,所述生命周期预测模型可以是基于机器学习或统计分析的模型,通过分析历史数据和相关特征,预测未来数据的存续期限或存续状态。将新增的目标试验数据的特征作为所述生命周期预测模型的输入,通过所述生命周期预测模型对新增的目标试验数据进行预测,获得新增的目标试验数据对应的存续生命周期预测结果,将得到的存续生命周期预测结果称为新增的目标试验数据的预测生命周期。
示例性的,假设目标试验数据包括:多个汽车车型及每个汽车车型对应的路况、加速度、汽车行驶时间等,电子设备可以将每个汽车车型及对应的路况、加速度、汽车行驶时间等构成一个多元组,使用机器学习算法,基于多个多元组训练一个生命周期预测模型。假设汽车制造公司在预设试验数据库中添加了一组车型、路况及加速度,所述生命周期预测模型可以基于新增的车型、路况及加速度,输出预测生命周期。
电子设备可以根据所述预测生命周期对所述新增的目标试验数据对应的项目进行可靠性评估。具体而言,电子设备将预测生命周期与预设生命周期范围进行比较,如果比较得到的结果为预测生命周期为短期存续,表明该新增的目标实验数据对应的项目并不具备继续研发的必要,可以及时停止。如果比较得到的结果为预测生命周期为长期存续,表明该新增的目标实验数据对应的项目具备继续研发的必要,可以继续加大投入力度。
电子设备还可以基于目标实验数据进行质量检查、统计分析、故障模式识别等操作。
上述可选的实施方式,通过获取所述目标试验数据的存续生命周期并训练生命周期预测模型,对后续新增的目标实验数据进行生命周期预测,从而进行可靠性评估,能够在产品研发过程中做出更准确的决策和规划。
图2是本申请实施例二提供的基于大数据的数据管理装置的功能模块图。
在一些实施例中,所述基于大数据的数据管理装置20以包括多个由计算机程序段所组成的功能模块。所述基于大数据的数据管理装置20的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于大数据的数据管理的功能。
本实施例中,所述基于大数据的数据管理装置20据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、设置模块202、转换模块203、处理模块204、生成模块205、存储模块206、标注模块207及评估模块208。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述获取模块201,用于获取原始试验数据,确定所述原始试验数据的数据源。
在产品研发过程中,会产生海量的未经过任何处理的试验数据,将这些未经过任何处理的试验数据称为原始试验数据。不同的研发项目,会产生不同的原始实验数据,同一个研发项目,在不同的研发阶段,也有可能会产生不同类型的原始实验数据,可以将所述原始试验数据产生的来源称之为所述原始试验数据的数据源。
在一些实施例中,所述原始试验数据可以来源于实际产品研发过程中使用的特定的试验设备或仪器,例如扫描电子显微镜、液相色谱仪、气相色谱仪等。在其他实施例中,所述原始试验数据可以来源于产品研发过程中专门建立的试验平台或系统记录的试验阶段的相关数据。所述试验设备或仪器、所述试验平台或系统具备数据采集的功能,并可以通过接口将所述原始试验数据直接导出给电子设备,或通过网络连接传输给电子设备。
示例性的,假设一个汽车制造公司在研发一款电动汽车,在研发的过程进行了大量的试验来评估电动汽车的电池性能,则监控电池的监控设备、电动汽车的控制系统、电池模型的仿真软件等都会产生大量的原始试验数据。例如,电池监测设备会测量和监测电池的电压、电流、温度等参数,电动汽车的控制系统会采集与电池相关的数据,例如电池状态、充电状况等,电池模型的仿真软件会生成与电池性能相关的仿真数据等。
所述设置模块202,用于基于所述数据源设置对应所述原始试验数据的数据字典表和数据模型字段。
电子设备根据不同的数据源,设置不同的数据字典表和数据模型字段。
电子设备可以根据用户对所述原始试验数据的需求和分析目标,构建数据模型字段来组织和存储所述原始试验数据,所述数据模型字段是在后续数据分析和处理中使用的字段结构。所述数据模型字段可以包括,但不限于:数据字段名称(数据在系统中使用的名称或标识符)、数据类型(如数值型、字符串型、日期时间型等)、数据长度(数据的字符长度或数值精度)、约束条件等。
电子设备可以基于所述数据模型字段创建所述数据字典表,所述数据字典表是用于记录数据模型中的数据模型字段及其相关属性的文档或数据库表。
示例性的,假设针对电动汽车电池的原始试验数据,设置的数据模型字段包括:电压字段(伏特,V)、电流字段(安培,A)和温度字段(摄氏度,℃),则基于所述数据模型字段创建的数据字典表如下所示:
数据字段名称 数据字段类型 数据字段单位 数据字段描述
Voltage 数值型 V 电池电压
Current 数值型 A 电池电流
Temperature 数值型 电池温度
需要说明的是,在创建的数据字典表中,应当列出数据模型字段的详细信息。
通过上述可选的实施方式,通过所述数据字典表和所述数据模型字段的设置,可以确保所述原始试验数据的一致性和清晰性,并为后续的数据分析、建模、可视化以及数据管理提供了基础。
所述转换模块203,用于利用所述数据模型字段对对应的所述原始试验数据进行转换,得到标准试验数据。
电子设备中预先存储有多个数据转换规则,每个数据转换规则对应一个数据模型字段,不同的数据模型字段,对应不同的数据转换规则。例如,电子设备可以预先设置第一个数据模型字段、第二个数据模型字段、第三个数据模型字段,其中,第一个数据模型字段对应第一种数据转换规则,第二个数据模型字段对应第二种数据转换规则,第三个数据模型字段对应第三种数据转换规则。
在一个可选的实施方式中,所述利用所述数据模型字段对所述原始试验数据进行转换得到标准试验数据包括:
基于所述数据模型字段建立数据转换规则;
根据所述数据转换规则对所述原始试验数据进行转换。
原始试验数据中包括原始数据字段,当所述数据模型字段与所述原始试验数据的原始数据字段不同时,需要利用所述数据转换规则对所述原始试验数据进行数据转换,以将原始试验数据转换为符合数据模型的标准试验数据。所述数据转换规则根据所述数据模型及所述原始试验数据的具体结构有所不同。
具体实施时,先确定原始数据字段中与数据模型字段相同的第一目标原始数据字段,将第一目标原始数据字段对应的原始数据,按照数据模型字段的数据格式进行转换;然后可以通过语义理解,确定剩余原始数据字段中与数据模型字段具有相同语义表示的第二目标原始数据字段,将第二目标原始数据字段按照数据模型字段进行转换。对于原始数据字段中既没有与数据模型字段相同的数据字段,也没有与数据模型字段语义表示相同的数据字段,则可以确定数据模型字段对应的数据转换规则,根据确定的数据转换规则对所述原始试验数据进行转换。在其他实施方式中,也可以同时确定原始数据字段中是否有与数据模型字段相同或者语义表示相同的目标原始数据字段。其中,所述数据格式可以包括,但不限于:日期时间格式、百分比格式、小数位数格式等。
示例性的,假设数据模型字段中有一个“温度”字段,而原始试验数据对应的原始数据字段中有一个“Temp”字段,通过语义理解,“温度”数据模型字段与“Temp”原始数据字段具有相同的语义表示,则将原始数据字段“Temp”替换为数据模型字段“温度”。假设数据模型字段中有一个“温度”字段,原始试验数据对应的原始数据字段中有一个“温度”字段,而数据模型字段“温度”对应的数据格式为摄氏度表示,原始数据字段“温度”对应的数据格式为华氏度表示,则将原始数据字段“温度”对应的数据格式转换为数据模型字段“温度”对应的数据格式(以摄氏度表示)。假设原始试验数据对应的原始数据字段中有一个“地址”字段,则确定“地址”字段对应的数据转换规则,根据“地址”字段对应的数据转换规则对地址进行转换。例如,将XX省XX市XX市/县XX镇XX乡XX村转换为XX省XX市XX镇。
应当理解的是,根据不同的场景和需求,可以采用其他数据转换规则来处理原始试验数据。
上述可选的实施方式中,通过对所述原始试验数据进行数据转换,能够实现原始实验数据的统一,有利于后续进行数据分析、查询或使用。
所述处理模块204,用于对所述标准试验数据进行数据预处理,得到目标试验数据。
由于转换后得到的所述标准试验数据可能包含错误、缺失值或异常值等情况,故需要对转换得到的所述标准试验数据进一步处理,获得目标试验数据,以满足具体的需求。可以通过对所述标准试验数据进行数据清洗,实现对标注实验数据的数据预处理。数据清洗可以包括缺失值填充,数据归一化等。
示例性的,假设在标准试验数据中,12:05下温度字段对应的数据缺失,12:10下电流字段对应的数据超出了正常范围(例如,8A),电子设备需要对所述标准试验数据进行数据清洗处理。
其中,标准试验数据如下表所示:
Time Temperature(℃) Current(A)
12:00 25.2 2.3
12:05 NULL 3.2
12:10 26.8 10.5
对标准试验数据进行数据清洗处理后,得到的目标试验数据如下表所示:
Time Temperature(℃) Current(A)
12:00 25.2 2.3
12:05 26 3.2
12:10 26.8 8
在其他实施例中,如果转换后得到的标准试验数据是敏感数据时,需要对所述标准试验数据进行脱敏加密处理。脱敏处理是通过对所述敏感数据进行匿名化、泛化、删除或替换等技术手段,去除或修改数据中的敏感信息,保持所述敏感数据的有效性,同时降低所述敏感数据被滥用或泄露的风险。数据加密是将所述敏感数据转换为密文形式,只有授权的用户持有相应的密钥才能解密和查看所述敏感数据。通过数据脱敏加密处理,即使所述敏感数据意外泄露,也可以保护所述敏感数据的机密性和完整性。
通过上述可选的实施方式,对所述标准试验数据进行数据清洗处理可以确保数据的准确性、完整性和一致性,为进一步的分析和实验提供可靠的数据基础。另外对所述标准试验数据进行数据脱敏加密处理可以保证数据的安全性、隐私性和机密性。
所述生成模块205,用于基于所述数据字典表生成数据存储规则。
电子设备可以根据所述数据字典表中的所述数据模型字段,生成数据存储规则。所述数据存储规则是用来定义数据如何存储、组织和访问的一种规范,所述数据存储规则的具体形式取决于用户的需求以及数据模型的选型。
一些实施例中,电子设备可以根据所述数据字典表中的所述数据模型字段及其相关属性,设计数据库表。所述数据库表结构可以包括,但不限于:数据库表表名、数据字段名称、数据类型、数据长度、约束条件等。所述数据存储规则可以包括,但不限于:数据类型和数据长度规则、数据有效性规则、数据存储位置规则以及数据关联规则等。
电子设备可以根据数据字典表中的数据类型和数据长度,生成第一种数据存储规则(数据类型和数据长度规则),以定义所述数据库表中对应字段的数据类型和数据长度。例如,所述数据字典表中定义了姓名字段为字符串型,数据长度为50,那么对应的数据存储规则就是在所述数据库表中创建一个名为"姓名"的字段,类型为VARCHAR(50)。电子设备可以根据数据字典表中的数据有效性,生成第二种数据存储规则(数据有效性规则),设定数据的验证规则和约束条件。例如,所述数据字典表中定义了年龄字段的取值范围为18到99岁,那么数据存储规则可以是在所述数据库表的年龄字段上添加CHECK约束。电子设备可以根据数据字典表中的数据存储位置,生成第三种数据存储规则(数据存储位置规则),所述第三种数据存储规则用于决定数据存储在哪个数据库或文件中。例如,所述数据字典表中定义了电压字段存储在磁盘上的指定文件夹中,那么第三种数据存储规则可以是将相应的文件路径(磁盘上的指定文件夹)保存在所述数据库表的电压字段中。
通过上述可选的实施方式,基于生成的所述数据存储规则,研发人员可以在数据库中创建相应的所述数据库表,并应用相应的所述数据存储规则来存储数据,以进一步确保数据的一致性和完整性和准确性,另外还可以更好地组织和管理数据,便于进行复杂的查询和分析操作。
所述存储模块206,用于按照所述数据存储规则将所述目标试验数据存储至预设试验数据库中进行管理。
电子设备可以在预设试验数据库中创建相应的数据库表,并根据所述数据字典表的所述数据模型字段及其相关属性和所述数据存储规则,来存储目标试验数据。每个所述数据库表对应一个数据字典表,并且所述数据库表结构要符合所述数据存储规则。
在一个可选的实施方式中,所述按照所述数据存储规则将所述目标试验数据存储至预设试验数据库进行管理包括:
根据所述数据存储规则,确定所述目标试验数据的存储地址;
将所述目标试验数据存储至所述预设试验数据库中所述存储地址对应的位置;
确定与所述存储地址对应的所述目标试验数据的管理方式;
基于所述管理方式对所述预设试验数据库中的所述目标试验数据进行管理。
一些实施例中,电子设备可以根据数据模型和数据字典表结构,创建一个预设试验数据库,并在所述预设试验数据库中创建相应的数据库表。所述预设试验数据库通常由电子设备中的数据库管理系统(Database Management System,DBMS)来管理。在电子设备创建预设试验数据库和数据库表时,DBMS会分配一个默认的存储路径或目录作为存储地址给所述预设试验数据库和所述数据库表。所述存储地址可以是DBMS默认的路径,也可以是用户指定的路径。根据DBMS的要求或管理员的设置,可以查看或修改所述存储地址。电子设备基于所述存储地址确定所述目标试验数据的管理方式通常是根据所述存储地址的性质和特点来决定的。不同的所述存储地址需要采用不同的所述管理方式来满足所述目标试验数据管理和访问的需求。电子设备确定好所述管理方式后,可以基于所述管理方式,对预设试验数据库中的所述目标试验数据进行管理。
在一个可选的实施方式中,将所述目标试验数据存储至所述预设试验数据库中所述存储地址对应的位置的具体实现方式可以包括:
1)将所述目标试验数据整理成适合导入所述预设试验数据库的结构,例如使用CSV、JSON等格式;
2)使用所述预设试验数据库的管理工具或编程语言将所述目标试验数据连接到预设试验数据库;
3)使用SQL语句或相应的导入工具,将所述目标试验数据导入到所述预设试验数据库的相应数据库表中,确保按照所述数据模型中定义的所述数据模型字段对应关系进行导入。
一些实施例中,电子设备可以根据不同的存储地址,如云存储、数据库服务器等,确定所述目标试验数据的不同的管理方式。例如,对于云存储的存储地址,电子设备可以使用云提供商提供的备份和恢复机制,结合访问控制策略来管理所述目标试验数据。对于数据库服务器的存储地址,电子设备可以设置定期备份和事务日志来保护所述目标试验数据的完整性和可恢复性。
在一个可选的实施方式中,假设电子设备使用磁盘驱动器作为存储地址来存储所述目标试验数据,则电子设备确定与所述存储地址对应的所述目标试验数据的管理方式可以包括:
1)对所述目标试验数据进行数据备份与恢复。
在预设试验数据库中,电子设备可以设置定期备份所述目标试验数据到另一个磁盘驱动器或外部介质。通过将所述目标试验数据定期备份到另一个磁盘驱动器或外部介质上,能够避免数据丢失或损坏。例如,每天结束产品试验时进行自动备份,并将备份数据存储在单独的磁盘驱动器或网络存储设备上。如果所述目标试验数据出现故障或丢失,可以使用磁盘驱动器或网络存储设备上的备份数据进行恢复。
2)对所述目标试验数据进行数据版本控制。
在预设试验数据库中,电子设备可以使用专门的版本控制工具或功能来跟踪所述目标试验数据的修改历史和演化以,记录所述目标试验数据的演化历史和修改内容。可以通过在磁盘驱动器上创建专门的版本控制目录或使用版本控制工具(如Git)来实现。
3)对所述目标试验数据进行数据权限与访问控制。
通过数据库管理系统(DBMS)或访问控制机制,基于磁盘驱动器的操作系统权限,设定对所述目标试验数据的权限和访问控制。为访问所述目标试验数据的用户分配适当的权限,并限制未授权的用户进行访问。例如,只有经过授权的用户才能访问和修改所述目标试验数据,未经过授权的用户只具有对所述目标试验数据的只读权限。
4)对所述目标试验数据进行数据合规性监管。
根据适用的法规和标准,确保对预设试验数据库中的所述目标试验数据进行合规性管理。对所述目标试验数据中数据隐私进行保护,记录所述目标试验数据处理活动,并进行合规性审核。
通过上述可选的实施方式,对于所述预设试验数据库中的所述目标试验数据根据不同的存储地址采用不同的管理方式和技术进行管理,这样可以提高所述目标试验数据的可用性、可扩展性,并确保所述目标试验数据的安全性和完整性。
所述获取模块201,还用于接收到用户的数据查看指令时,获取所述用户的数据查看权限;确定所述数据查看指令中待查看数据的数据读取权限;在所述数据查看权限与所述数据读取权限下,允许所述用户访问并查看所述待查看数据。
在一些实施例中,电子设备可以预先为不同的数据设置不同的数据读取权限,还可以为不同的用户设置不同的数据查看权限。
当所述用户需要查看数据时,会触发对该数据的数据查看指令,电子设备获取用户的数据查看权限,及确定所述数据查看指令中待查看数据的数据读取权限,从而根据数据查看权限和数据读取权限这两个权限来共同确定用户对待查看数据的查看范围。
在一些实施方式中,电子设备可以在接收到用户触发的数据查看指令时获取所述用户的身份标识,根据所述用户的身份标识确定用户对需要查看的数据的数据查看权限。数据查看权限不同,用户查看的数据范围也不同。根据所述用户的身份标识确定数据查看权限可以通过访问控制列表(Access Control Lists,ACL)、角色基础访问控制(Role-Based AccessControl,RBAC)或属性基础访问控制(Attribute Based Access Control,ABAC)等授权机制来实现。在一些实施方式中,电子设备可以通过获取用户的授权级别和/或所属组织/部门确定用户的身份标识。例如,某个用户只能查看自己所属部门的数据,而无法访问其他部门的数据。
在一些实施方式中,电子设备还可以在接收到用户触发的数据查看指令时获取待查看数据的数据标识,根据数据标识确定待查看数据的数据读取权限。数据读取权限不同,用户读取的数据方式也不同。所述数据读取权限可以包括,但不限于:完全读取权限、部分读取权限、只读权限和临时读取权限。示例性的,假设待查看数据的数据标识为普通数据,则所述用户具有对待查看数据的完全读取权限,即所述用户可以查看数据的所有内容和属性。假设待查看数据的数据标识为重要数据,则所述用户具有对待查看数据的部分读取权限,即所述用户只能查看数据中的部分内容和属性,仅限于所需要的信息。假设待查看数据的数据标识为核心数据,则所述用户具有对待查看数据的只读权限,即所述用户只能查看数据,无法对数据进行修改、删除或添加。假设待查看数据的数据标识为机密数据,则所述用户具有对待查看数据的临时读取权限,即所述用户可以在特定时间范围内和特定条件下查看数据,超过指定时间范围或条件后,则无法进行查看。
所述标注模块207,用于获取所述预设试验数据库中的多个图像数据;对所述多个图像数据进行聚类分析,得到多类图像数据;计算每类图像数据中任意两个所述图像数据之间的相似度;根据所述相似度将每类图像数据分为第一类图像数据和第二类图像数据,其中,所述第一类图像数据对应的相似度大于预设相似度阈值,所述第二类图像数据对应的相似度小于所述预设相似度阈值;为每类图像数据中的所述第一类图像数据标注标签。
预设实验数据库中的数据根据数据类型可以分为图像数据,音频数据,视频数据,文本数据等。
电子设备可以使用聚类算法,例如,K-means聚类、层次聚类、谱聚类,对所述多个图像数据进行聚类分析,从而将多个图像数据分为多个类。
使用聚类算法对多个图像数据进行了聚类分析之后,虽然能够在一定程度上将相同或者相似的图像数据分为同一类,将不同的图像数据分为不同的类,但仍然存在错分的情况,将一些不相似甚至差别非常大的图像数据分为了同一类,因而电子设备还计算每类图像数据中任意两个所述图像数据之间的相似度,将相似度与预设相似度阈值进行比较,根据比较结果将每类图像数据分为第一类图像数据和第二类图像数据。
当比较结果为任意两个所述图像数据之间的相似度大于预设相似度阈值时,表明这两个图像数据不仅分为了同一个类且非常相似,则电子设备将这两个图像数据分为第一类图像数据。当比较结果为任意两个所述图像数据之间的相似度小于预设相似度阈值时,表明这两个图像数据虽然分为了同一个类但并不相似,则电子设备将两个图像数据分为第二类图像数据。
在一些实施方式中,电子设备可以通过计算两个图像数据之间的欧式距离或者余弦夹角来得到两个图像数据之间的相似度。欧式距离越大,或者余弦夹角越大,表明对应的两个图像数据之间的相似度越小,欧式距离越小,或者余弦夹角越小,表明对应的两个图像数据之间的相似度越大。
示例性的,如果所述预设试验数据库包括4个图像数据,分别为A、B、C和D,其中,A和B的相似度为95%、A和C的相似度为98%、A和D的相似度为70%、B和C的相似度为90%、B和D的相似度为80%及C和D的相似度为80%,假设预设相似度阈值为85%,则由于A和B的相似度95%、A和C的相似度98%和B和C的相似度90%都大于85%,则图像数据A、B、C称为第一类图像数据,并为所述第一类图像数据标注标签。由于A和D的相似度70%、B和D的相似度80%、C和D的相似度80%都小于85%,但因为图像数据A、B、C已经分为第一类图像数据,则图像数据D称为第二类图像数据。
上述可选的实施方式,通过对预设试验数据库中的多个图像数据进行聚类分析,将多个图像数据进行粗分类,将相同或者相似的图像数据分为同一类,将不同的图像数据分为不同的类;接着为了避免误分的情况,再通过计算每类图像数据中任意两个所述图像数据之间的相似度,根据相似度及预设相似度阈值,将每类图像数据进行细分类为第一类图像数据和第二类图像数据。如此,能够确保第一类图像数据中的图像数据均为相同或者相似的。
所述标注模块207,还用于根据所述第一类图像数据确定对应类的类中心;计算每类图像数据中的所述第二类图像数据与其余类的类中心之间的距离;根据所述距离对所述第二类图像数据进行分类;根据分类后的类中的第一类图像的标签为所述第二类图像标注标签。
在一些实施例中,电子设备可以根据所述第一类图像数据的特征向量进行平均,得到所述第一类图像数据的类中心向量。所述类中心向量表示了第一类图像数据的平均特征,在特征空间中代表了所述第一类图像数据对应类的类中心。
对于每类中的第二类图像数据,由于第二类图像与该类中的第一类图像数据并不相似,电子设备需要对第二类图像数据进行再分类,确定与第二类图像数据实际应当分为的类。
电子设备可以使用欧氏距离或其他距离度量方法计算每类图像数据中的所述第二类图像数据的特征向量与其余类的类中心向量之间的距离。电子设备可以使用不同的分类方法来对第二类图像数据进行分类,所述分类方法可以包括,但不限于:阈值分类、最近邻分类。
以最近邻分类方法对所述第二类图像数据进行分类为例,假设A类中有一个第二类图像数据F,电子设备计算到所述第二类图像数据F与B类的类中心之间的距离为0.3,与C类的类中心之间的距离为0.8,由于距离第二类图像数据F最近的是B类的类中心,因此所述第二类图像数据分为B类。
在一些实施方式中,电子设备可以为每类图像数据中的第一类图像数据标注相同的标签,不同类的第一类图像标注不同的标签,当对第二类图像数据进行分类后,根据分类后的类中的第一类图像标签为第二类图像标注标签。
上述可选的实施方式,通过第一类图像数据确定类中心,再计算每类图像数据中的第二类图像数据与其余类的类中心之间的距离,最后根据所述距离对所述第二类图像数据进行分类,如此,能够将所有的图像数据都进行分类。对图像数据进行分类后,不仅可以分类存储,还有利于后续进行分析和检索,查询等。
所述评估模块208,用于获取所述预设试验数据库的目标试验数据的存续生命周期;基于所述目标试验数据及对应的存续生命周期训练生命周期预测模型;通过所述生命周期预测模型对所述预设试验数据库中新增的目标试验数据进行预测,得到所述新增的目标试验数据的预测生命周期;根据所述预测生命周期对所述新增的目标试验数据对应的项目进行可靠性评估。
在产品研发过程中,所述目标试验数据是进行验证和评估产品性能的重要数据指标。为了更好地利用所述目标试验数据,了解产品在不同阶段的性能和特征变化情况,需要获取所述预设试验数据库中所述目标试验数据的存续生命周期。所述存续生命周期指的是所述目标试验数据从被记录或采集到存储、维护和更新的整个过程,通常涉及数据采集、处理、存储、标注、更新等环节。
为了预测后续的目标试验数据的存续生命周期,可以基于已有的目标试验数据及其相应的存续生命周期训练生命周期预测模型。
在一些实施例中,所述生命周期预测模型可以是基于机器学习或统计分析的模型,通过分析历史数据和相关特征,预测未来数据的存续期限或存续状态。将新增的目标试验数据的特征作为所述生命周期预测模型的输入,通过所述生命周期预测模型对新增的目标试验数据进行预测,获得新增的目标试验数据对应的存续生命周期预测结果,将得到的存续生命周期预测结果称为新增的目标试验数据的预测生命周期。
示例性的,假设目标试验数据包括:多个汽车车型及每个汽车车型对应的路况、加速度、汽车行驶时间等,电子设备可以将每个汽车车型及对应的路况、加速度、汽车行驶时间等构成一个多元组,使用机器学习算法,基于多个多元组训练一个生命周期预测模型。假设汽车制造公司在预设试验数据库中添加了一组车型、路况及加速度,所述生命周期预测模型可以基于新增的车型、路况及加速度,输出预测生命周期。
电子设备可以根据所述预测生命周期对所述新增的目标试验数据对应的项目进行可靠性评估。具体而言,电子设备将预测生命周期与预设生命周期范围进行比较,如果比较得到的结果为预测生命周期为短期存续,表明该新增的目标实验数据对应的项目并不具备继续研发的必要,可以及时停止。如果比较得到的结果为预测生命周期为长期存续,表明该新增的目标实验数据对应的项目具备继续研发的必要,可以继续加大投入力度。
电子设备还可以基于目标实验数据进行质量检查、统计分析、故障模式识别等操作。
上述可选的实施方式,通过获取所述目标试验数据的存续生命周期并训练生命周期预测模型,对后续新增的目标实验数据进行生命周期预测,从而进行可靠性评估,能够在产品研发过程中做出更准确的决策和规划。
参阅图3所示,为本申请实施例三提供的电子设备的结构示意图。在本申请较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32及至少一条通信总线33。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于大数据的数据管理方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Ony Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-OnlyMemory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的基于大数据的数据管理方法的全部或者部分步骤;或者实现目标对象覆冰厚度获取装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

Claims (10)

1.一种基于大数据的数据管理方法,其特征在于,所述方法包括:
获取原始试验数据,确定所述原始试验数据的数据源;
基于所述数据源设置对应所述原始试验数据的数据字典表和数据模型字段;
利用所述数据模型字段对对应的所述原始试验数据进行转换,得到标准试验数据;
对所述标准试验数据进行数据预处理,得到目标试验数据;
基于所述数据字典表生成数据存储规则;
按照所述数据存储规则将所述目标试验数据存储至预设试验数据库中进行管理。
2.根据权利要求1所述的基于大数据的数据管理方法,其特征在于,所述按照所述数据存储规则将所述目标试验数据存储至预设试验数据库进行管理包括:
根据所述数据存储规则,确定所述目标试验数据的存储地址;
将所述目标试验数据存储至所述预设试验数据库中所述存储地址对应的位置;
确定与所述存储地址对应的所述目标试验数据的管理方式;
基于所述管理方式对所述预设试验数据库中的所述目标试验数据进行管理。
3.根据权利要求1所述的基于大数据的数据管理方法,其特征在于,所述方法还包括:
接收到用户的数据查看指令时,获取所述用户的数据查看权限;
确定所述数据查看指令中待查看数据的数据读取权限;
在所述数据查看权限与所述数据读取权限下,允许所述用户访问并查看所述待查看数据。
4.根据权利要求1所述的基于大数据的数据管理方法,其特征在于,所述方法还包括:
获取所述预设试验数据库中的多个图像数据;
对所述多个图像数据进行聚类分析,得到多类图像数据;
计算每类图像数据中任意两个所述图像数据之间的相似度;
根据所述相似度将每类图像数据分为第一类图像数据和第二类图像数据,其中,所述第一类图像数据对应的相似度大于预设相似度阈值,所述第二类图像数据对应的相似度小于所述预设相似度阈值;
为每类图像数据中的所述第一类图像数据标注标签。
5.根据权利要求4所述的基于大数据的数据管理方法,其特征在于,所述方法还包括:
根据所述第一类图像数据确定对应类的类中心;
计算每类图像数据中的所述第二类图像数据与其余类的类中心之间的距离;
根据所述距离对所述第二类图像数据进行分类;
根据分类后的类中的第一类图像的标签为所述第二类图像标注标签。
6.根据权利要求1至5中任意一项所述的基于大数据的数据管理方法,其特征在于,所述方法还包括:
获取所述预设试验数据库的目标试验数据的存续生命周期;
基于所述目标试验数据及对应的存续生命周期训练生命周期预测模型;
通过所述生命周期预测模型对所述预设试验数据库中新增的目标试验数据进行预测,得到所述新增的目标试验数据的预测生命周期;
根据所述预测生命周期对所述新增的目标试验数据对应的项目进行可靠性评估。
7.根据权利要求1至5中任意一项所述的基于大数据的数据管理方法,其特征在于,所述利用所述数据模型字段对对应的所述原始试验数据进行转换,得到标准试验数据包括:
基于所述数据模型字段建立数据转换规则;
根据所述数据转换规则对所述原始试验数据进行转换。
8.一种基于大数据的数据管理装置,其特征在于,所述装置包括:
获取模块,用于获取原始试验数据,确定所述原始试验数据的数据源;
设置模块,用于基于所述数据源设置对应所述原始试验数据的数据字典表和数据模型字段;
转换模块,用于利用所述数据模型字段对对应的所述原始试验数据进行转换,得到标准试验数据;
处理模块,用于对所述标准试验数据进行数据预处理,得到目标试验数据;
生成模块,用于基于所述数据字典表生成数据存储规则;
存储模块,用于按照所述数据存储规则将所述目标试验数据存储至预设试验数据库中进行管理。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7中任意一项所述的基于大数据的数据管理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的基于大数据的数据管理方法的步骤。
CN202310899238.1A 2023-07-20 2023-07-20 基于大数据的数据管理方法、装置、电子设备及存储介质 Pending CN116881303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310899238.1A CN116881303A (zh) 2023-07-20 2023-07-20 基于大数据的数据管理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310899238.1A CN116881303A (zh) 2023-07-20 2023-07-20 基于大数据的数据管理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116881303A true CN116881303A (zh) 2023-10-13

Family

ID=88267726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310899238.1A Pending CN116881303A (zh) 2023-07-20 2023-07-20 基于大数据的数据管理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116881303A (zh)

Similar Documents

Publication Publication Date Title
US11468192B2 (en) Runtime control of automation accuracy using adjustable thresholds
Shen et al. Random-forest-based failure prediction for hard disk drives
Mirakhorli et al. Detecting, tracing, and monitoring architectural tactics in code
US8051204B2 (en) Information asset management system, log analysis server, log analysis program, and portable medium
US11704438B2 (en) Systems and method of contextual data masking for private and secure data linkage
US11966402B2 (en) Context driven data profiling
CN112487042B (zh) 电能计量数据处理方法、装置、计算机设备和存储介质
Accorsi Automated privacy audits to complement the notion of control for identity management
Seenivasan ETL (extract, transform, load) best practices
Kumar et al. Development of a cloud-assisted classification technique for the preservation of secure data storage in smart cities
CN101965558B (zh) 事件历史追踪装置
KR102221035B1 (ko) 머신러닝 기반 산업기술 유출 예측 알고리즘과 이를 이용한 예측 시스템 및 방법
US11651313B1 (en) Insider threat detection using access behavior analysis
CN116881303A (zh) 基于大数据的数据管理方法、装置、电子设备及存储介质
Paul et al. An ontology-based integrated assessment framework for high-assurance systems
CN113498592A (zh) 数字财产认证和管理系统
CN117742618B (zh) 一种固态硬盘的数据存储管理方法和固态硬盘管理装置
US12008137B2 (en) Systems and method of contextual data masking for private and secure data linkage
Binlashram et al. A new Multi-Agents System based on Blockchain for Prediction Anomaly from System Logs
Nunes et al. A taxonomy on privacy and confidentiality
US20230367636A1 (en) System and method for determining memory resource configuration for network nodes to operate in a distributed computing network
Paul et al. Trustworthiness assessment framework for net-centric systems
CN116680460A (zh) 银行数据的血缘分析方法、装置、介质和设备
Pai Automated data classification for mainframes
CN117194382A (zh) 中台数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination