CN114707174A - 一种数据处理方法、装置、电子设备和存储介质 - Google Patents

一种数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114707174A
CN114707174A CN202210236012.9A CN202210236012A CN114707174A CN 114707174 A CN114707174 A CN 114707174A CN 202210236012 A CN202210236012 A CN 202210236012A CN 114707174 A CN114707174 A CN 114707174A
Authority
CN
China
Prior art keywords
data
data processing
processing model
encoder
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210236012.9A
Other languages
English (en)
Inventor
潘征
谢春华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Entropy Microelectronics Technology Co ltd
Original Assignee
Shanghai Entropy Microelectronics Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Entropy Microelectronics Technology Co ltd filed Critical Shanghai Entropy Microelectronics Technology Co ltd
Priority to CN202210236012.9A priority Critical patent/CN114707174A/zh
Publication of CN114707174A publication Critical patent/CN114707174A/zh
Priority to PCT/CN2023/080414 priority patent/WO2023169496A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据处理方法、装置、电子设备和存储介质,其中,该方法包括:根据数据源的数据类型在数据处理库确定数据处理模型结构;基于所述数据源的训练集和所述数据处理模型结构生成数据处理模型;根据所述数据处理模型确定所述数据源的原始数据对应的共享数据,其中,所述共享数据与所述原始数据具有相同的流形结构与概率分布特征。本发明实施例通过数据处理模型实现原始数据的隐私处理,可降低数据共享难度,从而增加数据的利用率。

Description

一种数据处理方法、装置、电子设备和存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、电子设备和存储介质。
背景技术
机器学习的三大要素为数据、算法和算力,而硬件和软件技术的发展,算法和算力得到了巨大提升,伴随着大数据的出现,机器学习成为当前研究的热点,机器学习应用领域虽然广泛为行业带来了智能化革命,但是机器学习项目却落地并不容易,究其原因在于数据获取成为机器学习的症结。在机器学习中对数据存储两种要求:1、数据可以充分采集;2、数据可以集中使用。然而再实际应用中这些要求往往无法得到满足,如,对于小规模公司数据采集成本过高,导致数据采集不充分;商业数据保密要求过过招,导致数据无法集中使用现实环境中的机器学习难以实施。
目前针对上述问题采取的解决方式为数据共享,常见的数据共享方法主要包括联邦学习和安全多方计算等,其中,联邦学习要求数据拥有方和使用方同时在线,共同完成计算任务,各方算力需求与数据拥有量成正比。安全多方计算页需要各方同时在线参与计算,并且由于底层协议的需要,每步运算过程各方都要进行数据通讯。现有数据共享方法要求数据提供方和数据使用方同时在线,共同完成机器学习任务的训练,这种方式将数据提供方和数据使用方进行了绑定,增加了数据共享的难道,目前亟需一种将数据提供方和数据使用方解耦,降低数据共享难度,提高共享效率的数据处理方法。
发明内容
本发明提供一种数据处理方法、装置、电子设备和存储介质,以实现数据提供方和数据使用方的解耦,降低数据共享难度,增加数据的利用率。
第一方面,本发明实施例提供了一种数据处理方法,其中,该方法包括:
根据数据源的数据类型在数据处理库确定数据处理模型结构;
基于所述数据源的训练集和所述数据处理模型结构生成数据处理模型;
根据所述数据处理模型确定所述数据源的原始数据对应的共享数据,其中,所述共享数据与所述原始数据具有相同的流形结构与概率分布特征。
第二方面,本发明实施例还提供了一种数据处理装置,其中,该装置包括:
模型结构模块,用于根据数据源的数据类型在数据处理库确定数据处理模型结构;
模型训练模块,用于基于所述数据源的训练集和所述数据处理模型结构生成数据处理模型;
共享数据模块,用于根据所述数据处理模型确定所述数据源的原始数据对应的共享数据,其中,所述共享数据与所述原始数据具有相同的流形结构与概率分布特征。
第三方面,本发明实施例还提供了一种电子设备,其中,该电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明实施例中任一所述的数据处理方法。
本发明实施例,通过在数据处理库中选择数据源的数据类型对应的数据处理模型结构,使用来自数据源的训练集对数据处理模型结构进行训练以生成数据处理模型,使用数据处理模型对数据源的原始数据进行处理以生成共享数据,该共享数据具有与原始数据相同的的流形结构与概率分布特征,本发明实施例通过数据处理模型实现原始数据的隐私处理,可降低数据共享难度,从而增加数据的利用率。
附图说明
图1是本发明实施例一提供的一种数据共享方法的流程图;
图2是本发明实施例二提供的一种数据共享方法的流程图;
图3是本发明实施例二提供的一种编码器和解码器的训练示意图;
图4是本发明实施例二提供的一种编码器和解码器的训练示意图;
图5是本发明实施例二提供的一种编码器和解码器的训练示意图;
图6是本发明实施例二提供的一种数据共享方法的示例图;
图7是本发明实施例三提供的一种数据共享装置的结构示意图;
图8是本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构,此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
图1是本发明实施例一提供的一种数据共享方法的流程图,本实施例可适用于数据共享的情况,该方法可以由数据共享装置来执行,该装置可以采用硬件和/或软件的方式来实现,参见图1,本发明实施例提供的方法具体包括如下步骤:
步骤110、根据数据源的数据类型在数据处理库确定数据处理模型结构。
其中,数据源可以是数据拥有者的数据存储位置,数据源可以包括数据的逻辑地址或者物理地址。数据处理库可以是数据共享方案提供方预先构建的模型结构库,数据处理库中可以包括一个或多个数据处理模型结构,该数据处理模型结构可以用于生成与原始数据具有相同流形结构和概率分布特征的共享数据,可以理解的是,数据处理模型结构可以为流形学习模型结构,可以对高维数据进行降维处理。
在本发明实施例中,数据共享方案提供商可以预先构建一个数据处理库,数据拥有方在进行数据共享时,可以按照数据源中数据的数据类型在数据处理库中查询用于处理该数据类型的数据处理模型结构。
步骤120、基于数据源的训练集和数据处理模型结构生成数据处理模型。
其中,训练集可以是对数据处理模型结构进行训练的数据集,训练集中的数据可以包括图像数据、表格数据或者医疗检测数据中至少之一。
具体的,可以在数据源中读取数据作为训练集,并将训练集输入到数据处理模型结构中进行训练,在训练过程中可以对数据处理模型结构的参数进行不断调整,直到数据处理结构对应的数据处理模型的输出结果满足训练结束条件。
步骤130、根据数据处理模型确定数据源的原始数据对应的共享数据,其中,共享数据与原始数据具有相同的流形结构与概率分布特征。
其中,原始数据可以是数据源中的数据,可以是包含隐私数据的信息,原始数据无法共享给第三方使用,共享数据可以是脱敏数据,共享数据可以与原始数据具有相同的概率分布特征,共享数据在机器学习领域可以与原始数据具有相同的效果,流形结构和概率分布特征可以是原始数据取值的流形结构和概率规律。
在本发明实施例中,在数据处理模型训练完成后,可以从数据源中读取原始数据,并使用数据处理模型对原始数据进行处理,可以将该数据处理模型输出的数据作为共享数据,可以理解的是,数据处理模型可以对原始数据进行处理,生成与原始数据不同但是蕴含原始数据流形结构和概率分布特征的共享数据,该共享数据可以由第三方进行使用。
本发明实施例,通过在数据处理库中选择数据源的数据类型对应的数据处理模型结构,使用来自数据源的训练集对数据处理模型结构进行训练以生成数据处理模型,使用数据处理模型对数据源的原始数据进行处理以生成共享数据,该共享数据具有与原始数据相同的流形结构和概率分布特征,本发明实施例通过数据处理模型实现原始数据的隐私处理,可降低数据共享难度,从而增加数据的利用率。
实施例二
图2是本发明实施例二提供的一种数据共享方法的流程图,本发明实施例是在上述发明实施例的基础上的具体化,参见图2,本发明实施例提供的方法具体包括如下步骤:
步骤210、读取数据源内原始数据的数据类型。
其中,原始数据可以是数据源存储的数据,原始数据可以包括隐私数据无法直接分享给第三方使用。
在本发明实施例中,可以从数据源中读取到原始数据的数据类型,例如,可以数据库元数据中提取原始数据的数据类型。
步骤220、在数据处理库中查找与数据类型匹配的数据处理模型结构。
具体的,数据处理库中可以将数据类型与数据处理模型结构进行关联存储,在对数据源的原始数据进行处理时,可以按照提取到的数据类型在数据处理库中查找对应的数据处理模型结构。示例型的,数据处理库中数据处理模型结构可以与其对应的数据类型存在相同的标识号。
步骤230、在数据源采集原始数据作为训练集。
具体的,可以与数据源建立连接,可以使用该连接读取阈值数量的原始数据作为训练集,该阈值数量可以由数据处理模型结构的确定,例如,不同的数据处理模型结构可以配置阈值数量,该阈值数量可以是使用的训练集中数据量的最少要求,训练集中数据量越多,越能反映数据的流形结构和概率分布,则数据处理结构的训练结构越准确。
步骤240、根据训练集训练数据处理模型结构以生成数据处理模型的编码器和解码器。
其中,编码器可以是对高维的原始数据处理为低维度的数据的机器学习模型,解码器可以是将低维度数据处理为高维度数据的机器学习模型,编码器和解码器联合组成流型学习模型,解码器可以与编码器的处理过程可以相反,编码器和编码器可以为卷积神经网络模型或全连接网络模型等。
在本发明实施例中,数据处理模型中可以包括编码器和解码器,可以使用采集到的训练集对编码器和解码器进行训练,可以由训练好的编码器和解码器作为数据处理模型。
步骤250、将数据源的原始数据输入数据处理模型的编码器以生成低维度空间的点云数据。
其中,点云数据可以是经过编码器处理的原始数据,点云数据可以由一个或多个经过编码器处理的原始数据组成,点云数据包括的数据的维度由用户指定的超参确定。
在本发明实施例中,训练好的编码器可以对数据源读取到的原始数据进行降维处理,可以把处理结果作为点云数据,该点云数据中每个数据坐标可以分别对应与数据源的一个原始数据。
步骤260、对点云数据进行数据规约。
在本发明实施例中,可以对点云数据进行数据规约,将点云数据的中各数据的概率由点表示形式转换为权重表示形式,可提高后续映射关系的收敛稳定性和效率。
步骤270、确定点云数据对应的数据分布概率与指定概率分布的映射关系。
其中,指定概率分布可以是预先设定概率分布,可以包括均匀分布和高斯分布等。
具体的,可以基于点云数据的概率分布以及指定概率分布的解析出映射关系,该映射可以是反应出指定概率分布到点云数据的概率分布的映射情况。
步骤280、按照指定概率分布采样生成数据点集。
在本发明实施例中,可以按照指定概率分布在数据空间内进行数据重采样,使得采集的的数据符合指定概率的要求,可以将重采样获取到的数据组成数据点集。
步骤290、将数据点集按照映射关系映射到数据分布概率。
具体的,可以按照上述获取到的映射关系对数据点集进行处理,使得映射后的数据点集内各数据符合原始数据的数据分布概率。
步骤2100、在映射后的数据点集中剔除与点云数据大于相似度阈值的数据。
其中,相似度阈值可以是判断原始数据与共享数据相似程度的参数,相似读阈值可以由用户根据设备性能以及处理速度进行设置。
在本发明实施例中,可以确定数据点集与点云数据内各数据的相似度,该相似读可以包括概率取值、向量距离或者欧式几何距离等,存在数据点集中数据与点云数据内数据的相似度大于相似度阈值时,则将该数据从数据点集中剔除。
步骤2110、将数据点集输入解码器以生成共享数据。
具体的,可以将数据点集中数据输入到解码器,由解码器将数据从低维度空间提升到原始数据对应的高维度空间,可以将提升维度后的数据作为共享数据。
本发明实施例,通过读取数据源内原始数据的数据类型,按照数据类型获取匹配的数据处理模型结构,在数据源采集原始数据作为训练集,使用训练集训练数据处理模型结构中的编码器和解码器,使用编码器处理数据源的原始数据为低维度空间的点云数据,对点云数据进行数据规约并确定数据分布概率与指定分布概率的映射关系,按照指定分布概率在数据空间内重采样生成数据点集,将数据点集按照映射关系映射到数据分布概率下,剔除数据点集中与数据点云相似度大于相似度阈值的数据,使用解码器将数据点集转换为共享数据,本发明实施例通过数据处理模型实现原始数据的隐私处理,可保留原始数据的流形结构和概率分布特征,实现共享数据的分享利用,去除相似度过高数据,进一步防止隐私泄露,降低了隐私数据的共享难度。
进一步的,在上述发明实施例的基础上,根据所述训练集训练数据处理模型结构以生成所述数据处理模型的编码器和解码器,包括:
将图像数据类型的所述训练集从低分辨率到高分辨率对所述编码器和所述解码器进行逐层训练;使用均方误差作为损失函数控制所述编码器和所述解码器的参数更新;其中,所述编码器和所述解码器为图卷积神经网络模型,分别至少包括卷积层、线性整流层和批量归一化层。
在本发明实施例中,在数据源的数据类型为图像数据类型时,数据处理模型中的编码器和解码器可以为图卷积神经网络,该图卷积神经网络中包括至少卷积层、线性整流层和批量归一化层,可以使用图像数据组成的训练集对编码器和解码器进行训练,该编码器和解码器的训练过程可以按照不同的分辨率训练多次,先对编码器和解码器中对应低分辨率的卷积层进行训练,再为对应高分辨率的卷积层进行训练,每次训练完成后,可以计算编码器和解码器输出结果与输入的训练集内图像数据的均方误差,可以使用均方误差确定出编码器和解码器的训练情况,再均方误差小于预设误差值时,确定编码器和解码器训练完成。参见图3,对于图像数据,本发明实施例可使用卷积神经网络(Convolutional NeuralNetworks,CNN)模型实现包括编码器和解码器的自编码器,通过逐级分辨率特征提取方法构建自编码器,实现学习图像数据的流形结构。自编码器的层数可以与图像数据的分辨率相关,以128*128的图像为例,编码器和解码器可以从4*4的分辨率开始逐层训练,对于编码器每层模块包含一个卷积(Convolutional,Cov)层、一个批量归一化(BatchNormalization,BN)层和一个线性整流函数(Linear Rectification function,RELU)层,该自编码器可以从低分辨率开始逐层训练,例如先训练4x4的编码器和解码器,然后再训练8x8分辨率,依次逐渐达到最大的分辨率。在训练过程中,采用均方误差作为损失函数指导编码器和解码器的参数更新。
进一步的,在上述发明实施例的基础上,根据所述训练集训练数据处理模型结构以生成所述数据处理模型的编码器和解码器,包括:
使用医疗检测数据类型的所述训练集对所述编码器和所述解码器进行训练;将交叉熵作为损失函数控制所述编码器和所述解码器的参数更新;其中,所述编码器和所述解码器为全连接层网络,所述全连接层网络包括的隐含层数和隐含层维度数由医疗检测数据的维度确定。
在本发明实施例中,在数据源为医疗数据时,编码器和解码器可以为全连接层网络,该全连接层网络中可以包括多层隐含层,每个隐含层包括的维度可以为多个,在训练编码器和解码器对应的全连接层网络时,隐含层和隐含层的维度可以由医疗数据的维度多少决定,全连接层网络的训练可以为多次,每次训练后可以使用交叉熵损害函数衡量每次全连接层网络的训练效果,在交叉熵损害函数的取值满足训练结束条件时,编码器和解码器训练完成。
在一个示例性的实施方式中,图4是本发明实施例二提供的一种编码器和解码器的训练示意图,参见图4,医疗检测数据为独热数据,数据每个维度代表一项检测指标的阴性或者阳性,而指标间可能存在相关性,可以使用全连接层网络模型构建自读热数据自编码器,该自编码器可以进行流形学习,自编码器可以包括编码器和解码器,根据输入的维度,选择全连接层隐含层数,各隐含层维度数。对于独热数据采用交叉熵(CrossEntropy)作为损失函数指导编码器和解码器更新参数。当损失函数达到一定值后停止训练。
进一步的,在上述发明实施例的基础上,根据所述训练集训练数据处理模型结构以生成所述数据处理模型的编码器和解码器,包括:
针对表格数据类型的所述训练集,分别提取所述训练的数值型数据和类别型数据;对所述数值型数据进行高斯拟合归一化,并将所述类别型数据进行实体嵌入编码;将实体嵌入编码生成的类别向量和高斯拟合归一化后的所述数值型数据对所述编码器和所述解码器进行训练;其中,所述编码器和所述解码器为全连接层网络,所述全连接层网络包括的隐含层数和隐含层维度数由表格数据的维度确定。
在本发明实施例中,在数据源的数据为表格数据时,处理表格数据的编码器和解码器可以使用全连接层网络结构,表格数据中的数值型数据和类别型数据需要预先进行处理,数值型数据可以进行高斯拟合归一化,例如可以对表格数据中的数值型数据进行均值归一化或者方差归一化等。而类别型数据可以进行实体嵌入处理,将类别型数据向量化,尽量保留类别数据之间的关系。将经过预处理后的类别型数据和数值型数据输入到全连接层网络结构,实现对全连接层网络结构的参数的调整,每次训练后可以使用损失函数确定训练是否完成,可以理解的是,针对类别型数据和数值型数据可以采取不同的损失函数,例如类别型数据可以采用交叉熵作为损失函数;对于数值型数据采用均方误差作为损失函数。
在一个示例性的实施方式中,参见图5,由于表格数据包括的数据类型不同,可以划分为数值型数据和类别型数据,可以先对不同类型的数据分别进行预处理,对数值型数据进行高斯拟合归一化,对类别型数据进行实体嵌入编码。然后使用全连接前向网络构造自编码器,对于每个类别数据,采用实体嵌入将离散的类别标签转换为连续的数值类型。对于数值型数据则通过均值、方差等方式进行归一化得到预处理的数据。然后将这2组数据组合起来作为全连接层的输入,按照数据的维度设置全连接层的隐含层层数以及各隐含层维度,在全连接层的训练过程中可以采样不同的损失函数控制训练完成,对于类别型数据采用交叉熵作为损失函数;对于数值型数据采用均方误差作为损失函数,当损失函数的取值满足阈值时停止训练。
在一个示例性的实施方式中,图6是本发明实施例二提供的一种数据共享方法的示例图,数据共享方法可以基于数据生成框架实现,该数据生成框架可以包括不同类型数据的流形学习模型,该数据生成框架中流形学习模型还配合最优传输映射从原隐私数据中学习数据模式(包括数据的流形结构以及流形上的概率密度分布),依照数据模式在数据空间中进行数据重采样,从而得到符合数据模式的且不同于原始数据的生成数据。原始数据始终保留在数据拥有方,生成数据用于共享。参见图6,共享数据的生成可以包括学习阶段和生成阶段,其中,学习阶段包括:1、通过针对不同类型数据的自编码器,学习数据流形结构,流形学习的输出是流形展开的低维空间中的点云数据;2、数据规约模块对点云数据进行转换,将概率的点表示转换为权重表示;3、最后数据进入最优传输映射求解器,得到指定概率分布(均匀分布、高斯分布)到数据概率分布的映射。生成阶段包括:1、指定概率分布数据点采样模块生成符合指定概率分布的数据点集;2、数据映射模块使用学习阶段求得的最优传输映射,将数据点集映射到原始数据概率分布;3、数据过滤模块剔除生成数据中与原始数据相似度过高的数据;4、最后使用学习阶段学到的数据解码器,分别得到不同类型的生成数据。
实施例三
图7是本发明实施例三提供的一种数据共享装置的结构示意图,本发明实施例提供的数据共享方法可以通过软件和/或硬件实现,并一般可以集成于服务器,参见图7,本发明实施例提供的装置具体可以包括:模型结构模块301、模型训练模块302和共享数据模块303。
模型结构模块301,用于根据数据源的数据类型在数据处理库确定数据处理模型结构。
模型训练模块302,用于基于所述数据源的训练集和所述数据处理模型结构生成数据处理模型。
共享数据模块303,用于根据所述数据处理模型确定所述数据源的原始数据对应的共享数据,其中,所述共享数据与所述原始数据具有相同的流行结构与概率分布特征。
本发明实施例,通过模型结构模块在数据处理库中选择数据源的数据类型对应的数据处理模型结构,模型训练模使用来自数据源的训练集对数据处理模型结构进行训练以生成数据处理模型,共享数据模块使用数据处理模型对数据源的原始数据进行处理以生成共享数据,该共享数据具有与原始数据相同的流形结构与概率分布特征,本发明实施例通过数据处理模型实现原始数据的隐私处理,可降低数据共享难度,从而增加数据的利用率。
进一步的,在上述发明实施例的基础上,装置中模型结构模块301包括:
类型读取单元,用于读取所述数据源内原始数据的数据类型。
结构确定单元,用于在所述数据处理库中查找与所述数据类型匹配的所述数据处理模型结构。
进一步的,在上述发明实施例的基础上,装置中模型训练模块302包括:
训练集生成单元,用于在所述数据源采集原始数据作为训练集。
模型训练单元,用于根据所述训练集训练数据处理模型结构以生成所述数据处理模型的编码器和解码器。
进一步的,在上述发明实施例的基础上,模型训练单元具体用于:将图像数据类型的所述训练集从低分辨率到高分辨率对所述编码器和所述解码器进行逐层训练;使用均方误差作为损失函数控制所述编码器和所述解码器的参数更新;其中,所述编码器和所述解码器为图卷积神经网络模型,分别至少包括卷积层、线性整流层、池化层和损失函数层。
进一步的,在上述发明实施例的基础上,模型训练单元具体用于:使用医疗检测数据类型的所述训练集对所述编码器和所述解码器进行训练;将交叉熵作为损失函数控制所述编码器和所述解码器的参数更新;其中,所述编码器和所述解码器为全连接层网络,所述全连接层网络包括的隐含层数和隐含层维度数由医疗检测数据的维度确定。
进一步的,在上述发明实施例的基础上,模型训练单元具体用于:针对表格数据类型的所述训练集,分别提取所述训练的数值型数据和类别型数据;
对所述数值型数据进行高斯拟合归一化,并将所述类别型数据进行实体嵌入编码;将实体嵌入编码生成的类别向量和高斯拟合归一化后的所述数值型数据对所述编码器和所述解码器进行训练;其中,所述编码器和所述解码器为全连接层网络,所述全连接层网络包括的隐含层数和隐含层维度数由表格数据的维度确定。
进一步的,在上述发明实施例的基础上,共享数据模块303包括:
数据编码模块,用于将所述数据源的原始数据输入所述数据处理模型的编码器以生成低维度空间的点云数据。
数据规约模块,用于对所述点云数据进行数据规约。
最优传输映射求解器模块,用于确定所述点云数据对应的数据分布概率与指定概率分布的映射关系。
数据点采样模块,用于按照所述指定概率分布采样生成数据点集。
数据映射模块,用于将所述数据点集按照所述映射关系映射到所述数据分布概率。
数据过滤模块,用于在映射后的所述数据点集中剔除与所述点云数据大于相似度阈值的数据。
数据解码模块,用于将所述数据点集输入解码器以生成所述共享数据。
实施例四
图8是本发明实施例四提供的一种电子设备的结构示意图,如图8所示,该电子设备包括处理器40、存储器41、输入装置42和输出装置43;电子设备中处理器40的数量可以是一个或多个,图8中以一个处理器40为例;电子设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图8中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据共享方法对应的程序指令/模块(例如,数据共享装置中的模型结构模块301、模型训练模块302和共享数据模块303)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的数据共享方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据共享方法,该方法包括:
根据数据源的数据类型在数据处理库确定数据处理模型结构;
基于所述数据源的训练集和所述数据处理模型结构生成数据处理模型;
根据所述数据处理模型确定所述数据源的原始数据对应的共享数据,其中,所述共享数据与所述原始数据具有相同的流形结构与概率分布特征。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据共享方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述数据共享装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
根据数据源的数据类型在数据处理库确定数据处理模型结构;
基于所述数据源的训练集和所述数据处理模型结构生成数据处理模型;
根据所述数据处理模型确定所述数据源的原始数据对应的共享数据,其中,所述共享数据与所述原始数据具有相同的流形结构与概率分布特征。
2.根据权利要求1所述方法,其特征在于,所述根据数据源的数据类型在数据处理库确定数据处理模型结构,包括:
读取所述数据源内原始数据的数据类型;
在所述数据处理库中查找与所述数据类型匹配的所述数据处理模型结构。
3.根据权利要求1所述方法,其特征在于,所述基于所述数据源对应的训练集和所述数据处理模型结构生成数据处理模型,包括:
在所述数据源采集原始数据作为训练集;
根据所述训练集训练数据处理模型结构以生成所述数据处理模型的编码器和解码器。
4.根据权利要求3所述方法,其特征在于,所述根据所述训练集训练数据处理模型结构以生成所述数据处理模型的编码器和解码器,包括:
将图像数据类型的所述训练集从低分辨率到高分辨率对所述编码器和所述解码器进行逐层训练;
使用均方误差作为损失函数控制所述编码器和所述解码器的参数更新;
其中,所述编码器和所述解码器为图卷积神经网络模型,分别至少包括卷积层、线性整流层、池化层和损失函数层。
5.根据权利要求3所述方法,其特征在于,所述根据所述训练集训练数据处理模型结构以生成所述数据处理模型的编码器和解码器,包括:
使用医疗检测数据类型的所述训练集对所述编码器和所述解码器进行训练;
将交叉熵作为损失函数控制所述编码器和所述解码器的参数更新;
其中,所述编码器和所述解码器为全连接层网络,所述全连接层网络包括的隐含层数和隐含层维度数由医疗检测数据的维度确定。
6.根据权利要求3所述方法,其特征在于,所述根据所述训练集训练数据处理模型结构以生成所述数据处理模型的编码器和解码器,包括:
针对表格数据类型的所述训练集,分别提取所述训练的数值型数据和类别型数据;
对所述数值型数据进行高斯拟合归一化,并将所述类别型数据进行实体嵌入编码;
将实体嵌入编码生成的类别向量和高斯拟合归一化后的所述数值型数据对所述编码器和所述解码器进行训练;
其中,所述编码器和所述解码器为全连接层网络,所述全连接层网络包括的隐含层数和隐含层维度数由表格数据的维度确定。
7.根据权利要求1所述方法,其特征在于,所述根据所述数据处理模型确定所述数据源的原始数据对应的共享数据,包括:
将所述数据源的原始数据输入所述数据处理模型的编码器以生成低维度空间的点云数据;
对所述点云数据进行数据规约;
确定所述点云数据对应的数据分布概率与指定概率分布的映射关系;
按照所述指定概率分布采样生成数据点集;
将所述数据点集按照所述映射关系映射到所述数据分布概率;
在映射后的所述数据点集中剔除与所述点云数据大于相似度阈值的数据;
将所述数据点集输入解码器以生成所述共享数据。
8.一种数据处理装置,其特征在于,所述装置包括:
模型结构模块,用于根据数据源的数据类型在数据处理库确定数据处理模型结构;
模型训练模块,用于基于所述数据源的训练集和所述数据处理模型结构生成数据处理模型;
共享数据模块,用于根据所述数据处理模型确定所述数据源的原始数据对应的共享数据,其中,所述共享数据与所述原始数据具有相同的流形结构与概率分布特征。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的数据处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时如权利要求1-7中任一所述的数据共享方法。
CN202210236012.9A 2022-03-11 2022-03-11 一种数据处理方法、装置、电子设备和存储介质 Pending CN114707174A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210236012.9A CN114707174A (zh) 2022-03-11 2022-03-11 一种数据处理方法、装置、电子设备和存储介质
PCT/CN2023/080414 WO2023169496A1 (zh) 2022-03-11 2023-03-09 一种数据处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210236012.9A CN114707174A (zh) 2022-03-11 2022-03-11 一种数据处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114707174A true CN114707174A (zh) 2022-07-05

Family

ID=82167981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210236012.9A Pending CN114707174A (zh) 2022-03-11 2022-03-11 一种数据处理方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN114707174A (zh)
WO (1) WO2023169496A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023169496A1 (zh) * 2022-03-11 2023-09-14 上海熵熵微电子科技有限公司 一种数据处理方法、装置、电子设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413087B (zh) * 2018-11-16 2019-12-31 京东城市(南京)科技有限公司 数据共享方法、装置、数字网关及计算机可读存储介质
CN110569663A (zh) * 2019-08-15 2019-12-13 深圳市莱法照明通信科技有限公司 一种教育数据共享的方法、装置、系统和存储介质
CN110517759B (zh) * 2019-08-29 2022-03-25 腾讯医疗健康(深圳)有限公司 一种待标注图像确定的方法、模型训练的方法及装置
US11675921B2 (en) * 2020-04-02 2023-06-13 Hazy Limited Device and method for secure private data aggregation
CN113033825B (zh) * 2021-04-21 2024-05-28 支付宝(杭州)信息技术有限公司 一种隐私保护的模型训练方法、系统及装置
CN114707174A (zh) * 2022-03-11 2022-07-05 上海熵熵微电子科技有限公司 一种数据处理方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023169496A1 (zh) * 2022-03-11 2023-09-14 上海熵熵微电子科技有限公司 一种数据处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2023169496A1 (zh) 2023-09-14

Similar Documents

Publication Publication Date Title
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
CN111651474B (zh) 一种自然语言至结构化查询语言的转换方法及系统
CN110825949A (zh) 基于卷积神经网络的信息检索方法、及其相关设备
CN112417381B (zh) 应用于图像版权保护的快速定位侵权图像的方法及装置
CN109993129B (zh) 一种基于指纹细结点圆柱码的指纹识别方法
CN102208033A (zh) 基于数据聚类的鲁棒sift特征匹配方法
CN116151263B (zh) 多模态命名实体识别方法、装置、设备以及存储介质
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN114707174A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN114781779A (zh) 一种无监督能耗异常检测方法、装置及存储介质
CN114358109A (zh) 特征提取模型训练、样本检索方法、装置和计算机设备
CN116484878B (zh) 电力异质数据的语义关联方法、装置、设备及存储介质
CN112069269A (zh) 基于大数据和多维特征的数据溯源方法及大数据云服务器
CN112115994A (zh) 图像识别模型的训练方法、装置、服务器及存储介质
CN112699260A (zh) 物种识别方法及装置
Han et al. Grid graph-based large-scale point clouds registration
CN114548325A (zh) 基于对偶对比学习的零样本关系抽取方法和系统
CN112287005A (zh) 一种数据处理方法、装置、服务器及介质
CN111090743A (zh) 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
CN113869398B (zh) 一种不平衡文本分类方法、装置、设备及存储介质
CN111597453A (zh) 用户画像方法、装置、计算机设备及计算机可读存储介质
CN117173731B (zh) 一种模型训练的方法、图像处理的方法以及相关装置
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN111858982B (zh) 图像搜索方法、装置及电子设备
CN116108851B (zh) 基于ner的群体性诉求识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination