CN107391564B - 数据转换方法、装置以及电子设备 - Google Patents

数据转换方法、装置以及电子设备 Download PDF

Info

Publication number
CN107391564B
CN107391564B CN201710441516.3A CN201710441516A CN107391564B CN 107391564 B CN107391564 B CN 107391564B CN 201710441516 A CN201710441516 A CN 201710441516A CN 107391564 B CN107391564 B CN 107391564B
Authority
CN
China
Prior art keywords
original data
data
division
dividing
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710441516.3A
Other languages
English (en)
Other versions
CN107391564A (zh
Inventor
席炎
王文雯
杜玮
赵星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201710441516.3A priority Critical patent/CN107391564B/zh
Publication of CN107391564A publication Critical patent/CN107391564A/zh
Application granted granted Critical
Publication of CN107391564B publication Critical patent/CN107391564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了数据转换方法、装置以及电子设备。所述方法包括:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。利用本申请实施例,可以对数据拥有者提供的原始数据进行脱敏转换处理,同时一定程度上可以保留原始数据的分布特征,再将得到的脱敏数据提供给数据存储平台,从而有利于降低数据拥有者的隐私通过数据存储平台泄露的风险,则有利于数据的共享利用。

Description

数据转换方法、装置以及电子设备
技术领域
本申请涉及计算机软件技术领域,尤其涉及数据转换方法、装置以及电子设备。
背景技术
随着计算机技术和互联网技术的迅速发展,网络上的数据也爆炸式地增长,这些数据分布在不同的数据拥有者手中,通过一定的数据存储平台,可以将这些数据进行汇聚,以用于实现更大的价值,比如,用于构建信用模型等,用于进行数据挖掘等。
在现有技术中,数据拥有者向数据存储平台提供的原始数据往往包含有数据拥有者的隐私,而由于数据存储平台对于数据拥有者而言可控性较差,导致数据拥有者的隐私有通过数据存储平台泄露的风险,进而不利于数据的共享利用。
发明内容
本申请实施例提供数据转换方法、装置以及电子设备,用以解决现有技术中的如下技术问题:数据拥有者向数据存储平台提供的原始数据往往包含有数据拥有者的隐私,而由于数据存储平台对于数据拥有者而言可控性较差,导致数据拥有者的隐私有通过数据存储平台泄露的风险,进而不利于数据的共享利用。
为解决上述技术问题,本申请实施例是这样实现的:
本申请实施例提供的一种数据转换方法,包括:
接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;
根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;
对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。
本申请实施例提供的一种数据转换装置,包括:
数据接收划分模块,接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;
最终参数确定模块,根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;
数据脱敏转换模块,对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。
本申请实施例提供的另一种数据转换方法,包括:
接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;
通过将每次集合划分及其前一次集合划分得到的原始数据集合进行对比,确定原始数据集合中的原始数据分布变化情况;
当原始数据分布变化程度小于指定阈值时,将当次集合划分时采用的集合划分参数确定为最终的集合划分参数,并对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。
本申请实施例提供的再一种数据转换方法,包括:
接收各原始数据;
采用等距划分或者等频划分的方式对所述各原始数据进行集合划分;
根据划分得到的原始数据集合,对所述各原始数据进行脱敏转换处理,得到对应的脱敏数据。
本申请实施例提供的一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;
根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;
对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:可以对数据拥有者提供的原始数据进行脱敏转换处理,同时一定程度上可以保留原始数据的分布特征,再将得到的脱敏数据提供给数据存储平台,从而有利于降低数据拥有者的隐私通过数据存储平台泄露的风险,则有利于数据的共享利用,因此,可以部分或全部地解决现有技术中的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据转换方法的流程示意图;
图2为本申请实施例提供的一种实际应用场景下,图1的数据转换方法的一种具体实施方案的部分流程示意图;
图3为本申请实施例提供的针对非数值型原始数据,图1的数据转换方法的一种具体实施方案的流程示意图;
图4为本申请实施例提供的一种实际应用场景下,图1的数据转换方法的一种应用示意图;
图5为本申请实施例提供的对应于图1的一种数据转换装置的结构示意图。
具体实施方式
本申请实施例提供数据转换方法、装置以及电子设备。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的方案的核心思想是:持续地接收原始数据,在接收过程中,定时或不定时地以一定的标准,判定当前已接收到的原始数据是否已处于稳定状态,若是,则可以基于当前的稳定状态,对已接收到的原始数据进行数据脱敏转换;其中,原始数据处于稳定状态可以指:已接收到的全部原始数据在划分出的原始数据集合中的分布已基本稳定,或者新接收到的原始数据在划分出的原始数据集合中的分布已基本稳定。
下面对本申请的方案进行详细说明。
图1为本申请实施例提供的一种数据转换方法的流程示意图。从程序角度而言,该流程的执行主体可以是服务器上或者终端上的程序,比如,数据转换平台、数据转换应用等。从设备角度而言,该流程的执行主体包括但不限于可作为服务器或者终端的以下至少一种设备:个人计算机、中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。
图1中的流程可以包括以下步骤:
S101:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分。
在本申请实施例中,原始数据一般可以是键值对(也可以称为:字段-字段值、变量-变量值)形式的数据,以字段-字段值为例,在字段已知的情况下,该字段可以省略不包含在对应的原始数据中,则原始数据可以只包含字段值。
可以针对指定的每个字段,分别执行图1中的流程,在这种情况下,步骤S101中所述的各原始数据属于同一个字段。比如,对于“月收入”字段,其对应的各原始数据可以是各用户的月收入;再比如,对于“毕业学校”字段,其对应的各原始数据可以是各用户的毕业学校名称;等等。
在本申请实施例中,原始数据是有一定的分布特征的,最终会对已接收到的原始数据进行脱敏转换处理,同时又会尽量保留原始数据的分布特征。
为了达到这样的目的,可以通过步骤S101中所述的“在接收过程中多次对已接收到的原始数据进行集合划分(以下可以简称为:多次进行集合划分)”对接收到原始数据的分布特征进行探索,随着已接收到的原始数据数量的增加,原始数据的分布往往会逐渐趋向稳定,进而依据稳定后的分布对已接收到的原始数据进行脱敏转换处理。
在本申请实施例中,多次进行集合划分的具体实施方式可以有多种。比如,在接收过程中,可以每当接收到设定数量的原始数据时,对已接收到的部分或者全部原始数据进行一次集合划分;再比如,在接收过程中,可以每过设定时间,对已接收到的部分或者全部原始数据进行一次集合划分;等等。
进一步地,每次进行集合划分可以采用相同的规则,比如,均以等距的方式划分,均以等频的方式划分等。需要说明的是,采用相同的规则并不意味着每次集合划分采用的集合划分参数完全相同,比如,均以等距的方式划分,但是,每次集合划分时采用的分位点未必相同。
更进一步地,每次进行集合划分时所采用的集合划分参数可以是根据所采用的规则和该次待划分的原始数据计算得到的。
S102:根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数。
在本申请实施例中,可以通过对各次集合划分涉及的数据进行对比,确定原始数据分布变化情况,这种对比可以是一次集合划分对一次集合划分的,也可以是一次集合划分对多次集合划分的,等等。
进一步地,可以采用指定的指标对原始数据分布变化的程度进行度量,比如,群体稳定性指标(Population Stability Index。PSI)、集合划分采用的分位点等指标。
在本申请实施例中,最终的集合划分参数的意义在于:在按照最终的集合划分参数划分得到的原始数据集合中,原始数据的分布已经基本稳定,即使后续再有新接收到的原始数据加入原始数据集合,一般也无法动摇这种稳定。
S103:对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。
在本申请实施例中,可以以原始数据集合为单位,进行脱敏转换处理。优选地,同一个原始数据集合中的原始数据的脱敏数据相同,不同原始数据集合中的原始数据的脱敏数据不同。
进一步地,得到脱敏数据后,可以根据需求进行后续处理。比如,若脱敏数据是用于构建共创信用模型,则可以将脱敏数据发送给对应的第三方平台进行存储,等各合作方的原始数据对应的脱敏数据汇集完毕后,再进行模型构建,其中,所述共创信用模型指:多方参与的数据提供机构,根据各自提供的自有数据,联合开发的信用模型;再比如,若脱敏数据是用于进行数据挖掘,则可以将脱敏数据存储在数据仓库中,并可以针对数据仓库运行数据挖掘算法;等等。
图1中的各步骤的执行主体可以是同一设备或同一程序,也可以是不同设备或不同程序。比如,步骤S101~S103的执行主体均为设备1;又比如,步骤S101~S102的执行主体为设备1,步骤S103的执行主体为设备2;等等。
通过图1的方法,可以对数据拥有者提供的原始数据进行脱敏转换处理,同时一定程度上可以保留原始数据的分布特征,再将得到的脱敏数据提供给数据存储平台,从而有利于降低数据拥有者的隐私通过数据存储平台泄露的风险,则有利于数据的共享利用,因此,可以部分或全部地解决现有技术中的问题。
基于图1的方法,本申请实施例还提供了该方法的一些具体实施方案,以及扩展方案,下面进行说明。
在本申请实施例中,对于步骤S102,前面已经提到,可以一次集合划分对一次集合划分地进行比较。
例如,对于步骤S102,所述根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体可以包括:
将每次集合划分及其前一次集合划分得到的原始数据集合进行对比,(比如,分别计算每次集合划分及其前一次集合划分得到的各原始数据集合中的数据在对应的已接收到的原始数据中的占比,将分别计算出的占比进行对比;或者将原始数据集合本身进行对比;等等),和/或将每次集合划分及其前一次集合划分采用的集合划分参数进行对比(比如,将每次集合划分及其前一次集合划分采用的分位点或者待划分的原始数据数量进行对比,等等)进行对比;
根据对比结果,确定原始数据集合中的原始数据分布变化情况;当原始数据分布变化程度小于指定阈值时,根据当次集合划分或者其前一次集合划分时采用的集合划分参数确定最终的集合划分参数,优选地可以将当次集合划分或者其前一次集合划分时采用的集合划分参数确定为最终的集合划分参数。
在本申请实施例中,原始数据可以均是数值型数据,或者均是非数值型数据,对于这两类数据采用的集合划分方案可以不同,分别进行说明。
在本申请实施例中,当所述原始数据均为数值型数据时,对于步骤S101,所述对已接收到的原始数据进行集合划分,具体可以包括:采用等距划分的方式对已接收到的原始数据进行集合划分;或者,采用等频划分的方式对已接收到的原始数据进行集合划分。
等距划分具体可以指:将指定的区间平均划分成N个子区间,假定a为该指定的区间的最小值,b为该指定的区间的最大值,则每个子区间的宽度为
Figure BDA0001320102490000081
各子区间的分位点(也即,子区间端点)分别为:a、a+W、a+2*W、…、a+(N-1)*W、a+N*W=b。
具体到本申请的方案,所述采用等距划分的方式对已接收到的原始数据进行集合划分,具体可以包括:确定一个待划分数值区间;将所述待划分数值区间划分为多个等长的数值子区间;分别将每个所述数值子区间包含的已接收到的原始数据划分为一个原始数据集合。
该待划分数值区间可以是一个预先指定的取值范围(比如,原始数据对应的字段的取值范围等),也可以是根据已接收到的原始数据所属的数值区间(比如,分别以已接收到的原始数据中的最大值和最小值为两端端点的数值区间,称为标准区间)确定的。以后一种方式为例,该待划分数值区间比如可以是该标准区间,或者该标准区间的子区间等,其中,偏离期望过远的异常的原始数据可以不落在该子区间内,以防止该异常的原始数据对后续处理带来的不利影响。
等频划分具体可以指:将指定的区间划分为N个子区间,每个子区间有相同数量的原始数据。
具体到本申请的方案,所述采用等频划分的方式对已接收到的原始数据进行集合划分,具体可以包括:对已接收到的原始数据进行排序;根据排序结果,将所述已接收到的原始数据划分为多个原始数据集合,每个所述原始数据集合中包含的原始数据数量相同。比如,将前100大的原始数据划分为一个原始数据集合,再将第101~第200大的原始数据划分为一个原始数据集合,以此类推。
需要说明的是,等频划分和等距划分只是本申请可采用的集合划分方式示例,也可以用聚类等其他方式进行集合划分。
在本申请实施例中,当所述原始数据均为非数值型数据时,对于步骤S101,所述对已接收到的原始数据进行集合划分,具体可以包括:
在已接收到的原始数据中分别确定不同的非数值型数据分别的占比;将占比小于设定比例的全部非数值型数据划分为一个原始数据集合,以及将占比不小于所述设定比例的不同的非数值型数据划分为一个或者多个原始数据集合,优选地可以将占比不小于所述设定比例的不同的非数值型数据分别划分为一个原始数据集合。
在本申请实施例中,对于步骤S103,所述得到脱敏数据后,还可以执行:将所述脱敏数据发送给第三方平台,以用于创建信用模型。
为了便于理解,本申请实施例提供了一种实际应用场景下,图1的数据转换方法的一种具体实施方案的部分流程示意图,如图2所示。
在该实际应用场景下,执行主体为数据转换平台。数据转换平台从合作方A接收各原始数据,每个原始数据分别为一个用户的字段A1的字段值,属于数值型的数据。划分集合时采用等距划分方式,采用PSI对原始数据分布变化的程度进行度量,当对应的PSI小于0.01(PSI阈值的一个示例,作为上述的指定阈值)时,认为已接收的原始数据的分布已经稳定。
数据转换平台分别在接收到1000个、2000个、3000个…原始数据时,对已接收到的原始数据进行一次集合划分。
当接收到1000个原始数据时,数据转换平台根据这1000个原始数据的数值,计算1%分位点A1_p1和99%分位点A1_p99;以(A1_p99-A1_p1)/10为间隔生成10个分段区间(也即,上述的数值子区间);根据这10个分段区间,将这1000个原始数据(可能有部分数据被舍弃)对应划分为10个集合,每个集合中的原始数据均属于该集合对应的分段区间;分别计算每个集合中的原始数据个数在这1000个原始数据中的占比,对应得到10个占比值。
当接收到2000个原始数据时,类似地,也可以计算得到10个占比值(为了便于描述,称为:当次的占比值;相应地,将接收到1000个原始数据时计算得到的10个占比值称为:上一次的占比值)。
进而,可以根据PSI的如下定义公式,计算PSI1:
PSI=sum((实际占比-预期占比)*In(实际占比/预期占比));
其中,所述实际占比为当次的占比值,所述预期占比为上一次的占比值。
计算出PSI1后,若PSI1<0.01,可以认为原始数据分布稳定,进而可以停止迭代,将当次采用的集合划分参数(分位点、分段间隔等)作为最终的集合划分参数,否则继续迭代,计算诸如PSI2、PSI3、…PSIn-1等,如此,可以自适应地确定最终的集合划分参数,以及相应的集合划分结果。
采用最终的集合划分参数划分可以得到的10个原始数据集合,对这10个原始数据集合进行脱敏转换时,比如可以分别为每个原始数据集合指定一个不同的字母作为该原始数据集合中的各原始数据对应的脱敏数据,假定为第一个原始数据集合指定的字母为x,则第一个原始数据集合中的每个原始数据对应的脱敏数据均为x。
需要说明的是,图2中的例子中使用的一些数据(比如,每次进行集合划分时已接收到的原始数据个数、划分出的集合个数、PSI阈值等)也是示例性的,并非对本申请的限定。
对于上面的各实施例,原始数据处于稳定状态主要指:已接收到的全部原始数据在划分出的集合中的分布已基本稳定。
前面也有提到,原始数据处于稳定状态也可以指:新接收到的原始数据在划分出的集合中的分布已基本稳定。这种情况下的方案相对而言比较适用于一些非数值型原始数据(比如,字符型的枚举值、字符串型的枚举值等)。下面也基于一些相应的实施例进行说明。
在本申请实施例中,对于步骤S101,所述在接收过程中多次对已接收到的原始数据进行集合划分,具体可以包括:在接收过程中,每当接收到设定数量的原始数据时,将已接收到的全部原始数据划分为一个原始数据集合。
进一步地,对于步骤S102,所述根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体可以包括:确定每次集合划分得到的原始数据集合相比于其前一次集合划分得到的原始数据集合,新增且不与之前重复的原始数据的占比;当所述占比小于设定阈值时(可以认为此时原始数据已处于稳定状态),根据当次集合划分得到的原始数据集合,确定最终的集合划分参数。需要说明的是,在这里,最终的集合划分参数用于对当次划分得到的原始数据集合进一步划分。
为了便于理解,举例进行说明。假定接收的各原始数据为“毕业学校”字段值,划分出的原始数据集合即为学校名称集合,学校名称集合中可以有重复的学校名称(由于重复的原始数据导致)。随着接收到原始数据的增加,当次划分得到的学校名称集合相比于其前一次划分得到的学校名称集合新增的学校名称(也即,新增且不与之前重复的原始数据),当新增的学校名称对应的原始数据占比小于设定阈值(比如,千分之一等)时,可以根据当次集合划分得到的学校名称集合相关的数据,确定最终的集合划分参数。
进一步地,所述根据当次集合划分得到的原始数据集合,确定最终的集合划分参数,具体可以包括:将设定比例,以及所述当次集合划分得到的原始数据集合确定为最终的集合划分参数。
更进一步地,对于步骤S103,可以按照如下方式,采用所述最终的集合划分参数划分得到原始数据集合:在所述当次集合划分得到的原始数据集合中,将占比不大于所述设定比例的全部原始数据划分为一个原始数据集合,以及将占比大于所述设定比例的相同原始数据分别划分为一个原始数据集合。
沿用上例进行说明,假定设定比例为5%,假定当次集合划分得到的原始数据集合包括:多个学校1名称、多个学校2名称、多个学校3名称、一个学校4名称、一个学校5名称;其中,所述多个学校1名称、所述多个学校2名称、所述多个学校3名称在当次集合划分得到的原始数据集合的占比均大于5%,而所述一个学校4名称、所述一个学校5名称在当次集合划分得到的原始数据集合的占比均不大于5%;
则采用最终的集合划分参数,可以将所述多个学校1名称划分为一个原始数据集合,将所述多个学校2名称划分为一个原始数据集合,将所述多个学校3名称划分为一个原始数据集合,将所述一个学校4名称和所述一个学校5名称共同划分为一个原始数据集合。
根据上面的说明,本申请实施例提供了针对非数值型原始数据,图1的数据转换方法的一种具体实施方案的流程示意图,如图3所示。
图3中的流程可以包括以下步骤:
S301:接收各原始数据,在接收过程中,每当接收到设定数量的原始数据时,将已接收到的全部原始数据划分为一个原始数据集合。
S302:确定每次集合划分得到的原始数据集合相比于其前一次集合划分得到的原始数据集合,新增且不与之前重复的原始数据的占比。
S303:当所述占比小于设定阈值时,将设定比例,以及当次集合划分得到的原始数据集合确定为最终的集合划分参数。
S304:按照如下方式,采用所述最终的集合划分参数划分得到原始数据集合:在所述当次集合划分得到的原始数据集合中,将占比不大于所述指定的比例参数的全部原始数据划分为一个原始数据集合,以及将占比大于所述指定的比例参数的相同原始数据分别划分为一个原始数据集合。
S305:对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。
在采用最终的集合划分参数划分得到的原始数据集合后,如何进行脱敏转换处理在上面已经说明,这里不再赘述。
根据上面的说明,本申请实施例提供了一种实际应用场景下,图1的数据转换方法的一种应用示意图,如图4所示。
在图4中,主要包括三类平台:合作方自有平台、数据转换平台、数据存储平台。在实际应用中,各类平台的拥有者往往不同,比如,合作方自有平台的拥有者为对应的合作方,数据转换平台的拥有者为云服务厂商,数据存储平台的拥有者为第三方或征信公司等。
多个合作方可以分别向数据转换平台发送自己的原始数据;
数据转换平台则按照上述的数据转换方法,对原始数据进行脱敏转换,获得对应的脱敏数据(具体为:转换值或者转换编码等),如前所述,为了实现转换,可能基于等距划分、等频划分等方式对原始数据进行集合划分;
数据转换平台将得到的脱敏数据发送给数据存储平台进行存储。
上面为本申请实施例提供的一种数据转换方法,基于同样的发明思路,本申请实施例还提供了对应的装置,如图5所示。
图5为本申请实施例提供的对应于图1的一种数据转换装置的结构示意图,该装置可以位于图1中流程的执行主体上,包括:
数据接收划分模块501,接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;
最终参数确定模块502,根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;
数据脱敏转换模块503,对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。
可选地,所述数据接收划分模块501在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:
所述数据接收划分模块501在接收过程中,每当接收到设定数量的原始数据时,对已接收到的全部原始数据进行一次集合划分。
可选地,所述最终参数确定模块502根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:
所述最终参数确定模块502将每次集合划分及其前一次集合划分得到的原始数据集合进行对比,和/或将每次集合划分及其前一次集合划分采用的集合划分参数进行对比;
根据对比结果,确定原始数据集合中的原始数据分布变化情况;
当原始数据分布变化程度小于指定阈值时,将当次集合划分或者其前一次集合划分时采用的集合划分参数确定为最终的集合划分参数。
可选地,所述最终参数确定模块502将每次集合划分得到的原始数据集合与前一次集合划分得到的原始数据集合进行对比,具体包括:
所述最终参数确定模块502分别计算每次集合划分及其前一次集合划分得到的各原始数据集合中的数据在对应的已接收到的原始数据中的占比;
将分别计算出的占比进行对比。
可选地,当所述原始数据均为数值型数据时,所述数据接收划分模块501对已接收到的原始数据进行集合划分,具体包括:
所述数据接收划分模块501采用等距划分的方式对已接收到的原始数据进行集合划分;或者,采用等频划分的方式对已接收到的原始数据进行集合划分。
可选地,所述数据接收划分模块501采用等距划分的方式对已接收到的原始数据进行集合划分,具体包括:
所述数据接收划分模块501确定一个待划分数值区间;
将所述待划分数值区间划分为多个等长的数值子区间;
分别将每个所述数值子区间包含的已接收到的原始数据划分为一个原始数据集合。
可选地,所述数据接收划分模块501采用等频划分的方式对已接收到的原始数据进行集合划分,具体包括:
所述数据接收划分模块501对已接收到的原始数据进行排序;
根据排序结果,将所述已接收到的原始数据划分为多个原始数据集合,每个所述原始数据集合中包含的原始数据数量相同。
可选地,当所述原始数据均为非数值型数据时,所述数据接收划分模块501对已接收到的原始数据进行集合划分,具体包括:
所述数据接收划分模块501在已接收到的原始数据中分别确定不同的非数值型数据分别的占比;
将占比小于设定比例的全部非数值型数据划分为一个原始数据集合,以及将占比不小于所述设定比例的不同的非数值型数据划分为一个或者多个原始数据集合。
可选地,所述数据接收划分模块501在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:
所述数据接收划分模块501在接收过程中,每当接收到设定数量的原始数据时,将已接收到的全部原始数据划分为一个原始数据集合。
可选地,所述最终参数确定模块502根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:
所述最终参数确定模块502确定每次集合划分得到的原始数据集合相比于其前一次集合划分得到的原始数据集合,新增且不与之前重复的原始数据的占比;
当所述占比小于设定阈值时,根据当次集合划分得到的原始数据集合,确定最终的集合划分参数。
可选地,所述最终参数确定模块502根据当次集合划分得到的原始数据集合,确定最终的集合划分参数,具体包括:
所述最终参数确定模块502将设定比例,以及所述当次集合划分得到的原始数据集合确定为最终的集合划分参数。
可选地,所述数据接收划分模块501按照如下方式,采用所述最终的集合划分参数划分得到原始数据集合:
在所述当次集合划分得到的原始数据集合中,将占比不大于所述设定比例的全部原始数据划分为一个原始数据集合,以及将占比大于所述设定比例的相同原始数据分别划分为一个原始数据集合。
可选地,所述数据脱敏转换模块503对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据,具体包括:
所述数据脱敏转换模块503分别对采用所述最终的集合划分参数划分得到的每个原始数据集合执行:为该原始数据集合指定一个不同于该原始数据集合中包含的原始数据的数据,分别作为该原始数据集合中包含的每个原始数据对应的脱敏数据。
可选地,所述数据脱敏转换模块503得到脱敏数据后,还将所述脱敏数据发送给第三方平台,以用于创建信用模型。
结合上面的说明,基于同样的发明思路,本申请实施例还提供了另一种数据装换方法,这是图1中的方法一种优选的实施方案,其可以包括:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;通过将每次集合划分及其前一次集合划分得到的原始数据集合进行对比,确定原始数据集合中的原始数据分布变化情况;当原始数据分布变化程度小于指定阈值时,将当次集合划分时采用的集合划分参数确定为最终的集合划分参数,并对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。
需要说明的是,在实际应用中,若已有大量(具体多少可以根据经验确定)原始数据,可以认为原始数据分布已经稳定,则可以直接对这些原始数据进行一次集合划分,然后直接对划分出的原始数据集合进行脱敏转换处理,得到脱敏数据,而无需进行多次集合划分。
根据上一段的思路,本申请实施例还提供了再一种数据转换方法,可以包括:接收各原始数据;采用等距划分或者等频划分的方式对所述各原始数据进行集合划分;根据划分得到的原始数据集合,对所述各原始数据进行脱敏转换处理,得到对应的脱敏数据。
基于同样的发明思路,本申请实施例还提供了对应于图1的一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
监听语音;
根据利用通用的语音数据训练的语音唤醒模型,以及所述监听到的语音,进行语音唤醒,其中,所述语音唤醒模型包含深度神经网络和联结主义时间分类器。
基于同样的发明思路,本申请实施例还提供了对应于图1的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
监听语音;
根据利用通用的语音数据训练的语音唤醒模型,以及所述监听到的语音,进行语音唤醒,其中,所述语音唤醒模型包含深度神经网络和联结主义时间分类器。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的装置、电子设备、非易失性计算机存储介质与方法有一定的对应性,因此,装置、电子设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、电子设备、非易失性计算机存储介质的有益技术效果。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (21)

1.一种数据转换方法,包括:
接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;所述在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:在接收过程中,每当接收到设定数量的原始数据时,对已接收到的全部原始数据进行一次集合划分;
根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:将每次集合划分及其前一次集合划分得到的原始数据集合进行对比,和/或将每次集合划分及其前一次集合划分采用的集合划分参数进行对比;根据对比结果,确定原始数据集合中的原始数据分布变化情况;当原始数据分布变化程度小于指定阈值时,将当次集合划分或者其前一次集合划分时采用的集合划分参数确定为最终的集合划分参数;
对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据;其中,按照所述最终的集合划分参数划分得到的原始数据集合中,原始数据的分布已处于稳定状态。
2.如权利要求1所述的方法,所述将每次集合划分得到的原始数据集合与前一次集合划分得到的原始数据集合进行对比,具体包括:
分别计算每次集合划分及其前一次集合划分得到的各原始数据集合中的数据在对应的已接收到的原始数据中的占比;
将分别计算出的占比进行对比。
3.如权利要求1所述的方法,当所述原始数据均为数值型数据时,所述对已接收到的原始数据进行集合划分,具体包括:
采用等距划分的方式对已接收到的原始数据进行集合划分;或者,采用等频划分的方式对已接收到的原始数据进行集合划分。
4.如权利要求3所述的方法,所述采用等距划分的方式对已接收到的原始数据进行集合划分,具体包括:
确定一个待划分数值区间;
将所述待划分数值区间划分为多个等长的数值子区间;
分别将每个所述数值子区间包含的已接收到的原始数据划分为一个原始数据集合。
5.如权利要求3所述的方法,所述采用等频划分的方式对已接收到的原始数据进行集合划分,具体包括:
对已接收到的原始数据进行排序;
根据排序结果,将所述已接收到的原始数据划分为多个原始数据集合,每个所述原始数据集合中包含的原始数据数量相同。
6.如权利要求1所述的方法,当所述原始数据均为非数值型数据时,所述对已接收到的原始数据进行集合划分,具体包括:
在已接收到的原始数据中分别确定不同的非数值型数据分别的占比;
将占比小于设定比例的全部非数值型数据划分为一个原始数据集合,以及将占比不小于所述设定比例的不同的非数值型数据划分为一个或者多个原始数据集合。
7.如权利要求1所述的方法,所述根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:
确定每次集合划分得到的原始数据集合相比于其前一次集合划分得到的原始数据集合,新增且不与之前重复的原始数据的占比;
当所述占比小于设定阈值时,根据当次集合划分得到的原始数据集合,确定最终的集合划分参数。
8.如权利要求7所述的方法,所述最终的集合划分参数还包括设定比例。
9.如权利要求8所述的方法,按照如下方式,采用所述最终的集合划分参数划分得到原始数据集合:
在所述当次集合划分得到的原始数据集合中,将占比不大于所述设定比例的全部原始数据划分为一个原始数据集合,以及将占比大于所述设定比例的相同原始数据分别划分为一个原始数据集合。
10.如权利要求1所述的方法,所述对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据,具体包括:
分别对采用所述最终的集合划分参数划分得到的每个原始数据集合执行:为该原始数据集合指定一个不同于该原始数据集合中包含的原始数据的数据,分别作为该原始数据集合中包含的每个原始数据对应的脱敏数据。
11.如权利要求1所述的方法,所述得到脱敏数据后,所述方法还包括:
将所述脱敏数据发送给第三方平台,以用于创建信用模型。
12.一种数据转换装置,包括:
数据接收划分模块,接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;所述在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:在接收过程中,每当接收到设定数量的原始数据时,对已接收到的全部原始数据进行一次集合划分;
最终参数确定模块,根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:将每次集合划分及其前一次集合划分得到的原始数据集合进行对比,和/或将每次集合划分及其前一次集合划分采用的集合划分参数进行对比;根据对比结果,确定原始数据集合中的原始数据分布变化情况;当原始数据分布变化程度小于指定阈值时,将当次集合划分或者其前一次集合划分时采用的集合划分参数确定为最终的集合划分参数;
数据脱敏转换模块,对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据;其中,按照所述最终的集合划分参数划分得到的原始数据集合中,原始数据的分布已处于稳定状态。
13.如权利要求12所述的装置,所述最终参数确定模块将每次集合划分得到的原始数据集合与前一次集合划分得到的原始数据集合进行对比,具体包括:
所述最终参数确定模块分别计算每次集合划分及其前一次集合划分得到的各原始数据集合中的数据在对应的已接收到的原始数据中的占比;
将分别计算出的占比进行对比。
14.如权利要求12所述的装置,当所述原始数据均为数值型数据时,所述数据接收划分模块对已接收到的原始数据进行集合划分,具体包括:
所述数据接收划分模块采用等距划分的方式对已接收到的原始数据进行集合划分;或者,采用等频划分的方式对已接收到的原始数据进行集合划分。
15.如权利要求14所述的装置,所述数据接收划分模块采用等距划分的方式对已接收到的原始数据进行集合划分,具体包括:
所述数据接收划分模块确定一个待划分数值区间;
将所述待划分数值区间划分为多个等长的数值子区间;
分别将每个所述数值子区间包含的已接收到的原始数据划分为一个原始数据集合。
16.如权利要求14所述的装置,所述数据接收划分模块采用等频划分的方式对已接收到的原始数据进行集合划分,具体包括:
所述数据接收划分模块对已接收到的原始数据进行排序;
根据排序结果,将所述已接收到的原始数据划分为多个原始数据集合,每个所述原始数据集合中包含的原始数据数量相同。
17.如权利要求12所述的装置,当所述原始数据均为非数值型数据时,所述数据接收划分模块对已接收到的原始数据进行集合划分,具体包括:
所述数据接收划分模块在已接收到的原始数据中分别确定不同的非数值型数据分别的占比;
将占比小于设定比例的全部非数值型数据划分为一个原始数据集合,以及将占比不小于所述设定比例的不同的非数值型数据划分为一个或者多个原始数据集合。
18.如权利要求12所述的装置,所述最终参数确定模块根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:
所述最终参数确定模块确定每次集合划分得到的原始数据集合相比于其前一次集合划分得到的原始数据集合,新增且不与之前重复的原始数据的占比;
当所述占比小于设定阈值时,根据当次集合划分得到的原始数据集合,确定最终的集合划分参数。
19.如权利要求18所述的装置,所述最终参数确定模块还用于:
将设定比例确定为最终的集合划分参数。
20.如权利要求19所述的装置,所述数据接收划分模块按照如下方式,采用所述最终的集合划分参数划分得到原始数据集合:
在所述当次集合划分得到的原始数据集合中,将占比不大于所述设定比例的全部原始数据划分为一个原始数据集合,以及将占比大于所述设定比例的相同原始数据分别划分为一个原始数据集合。
21.一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;所述在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:在接收过程中,每当接收到设定数量的原始数据时,对已接收到的全部原始数据进行一次集合划分;
根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:将每次集合划分及其前一次集合划分得到的原始数据集合进行对比,和/或将每次集合划分及其前一次集合划分采用的集合划分参数进行对比;根据对比结果,确定原始数据集合中的原始数据分布变化情况;当原始数据分布变化程度小于指定阈值时,将当次集合划分或者其前一次集合划分时采用的集合划分参数确定为最终的集合划分参数;
对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据;其中,按照所述最终的集合划分参数划分得到的原始数据集合中,原始数据的分布已处于稳定状态。
CN201710441516.3A 2017-06-13 2017-06-13 数据转换方法、装置以及电子设备 Active CN107391564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710441516.3A CN107391564B (zh) 2017-06-13 2017-06-13 数据转换方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710441516.3A CN107391564B (zh) 2017-06-13 2017-06-13 数据转换方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN107391564A CN107391564A (zh) 2017-11-24
CN107391564B true CN107391564B (zh) 2021-01-26

Family

ID=60333261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710441516.3A Active CN107391564B (zh) 2017-06-13 2017-06-13 数据转换方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN107391564B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536753B (zh) * 2018-03-13 2021-06-25 腾讯科技(深圳)有限公司 重复信息的确定方法及相关装置
CN111626556A (zh) * 2020-04-18 2020-09-04 青岛奥利普自动化控制系统有限公司 一种基于lims的数据处理方法和设备
CN111597548B (zh) * 2020-07-17 2020-10-30 支付宝(杭州)信息技术有限公司 实现隐私保护的数据处理方法及装置
CN112560080A (zh) * 2020-11-03 2021-03-26 浙江数秦科技有限公司 一种面向大数据应用的数据交换控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326575B1 (en) * 2009-02-23 2012-12-04 Bank Of America Corporation Machine-based population stability index selection
CN105426445A (zh) * 2015-11-06 2016-03-23 天津佳宁坤祥科技有限公司 一种格式保留的数据脱敏方法
CN105653981A (zh) * 2015-12-31 2016-06-08 中国电子科技网络信息安全有限公司 大数据平台的数据流通与交易的敏感数据保护系统及方法
CN106295392A (zh) * 2015-06-24 2017-01-04 阿里巴巴集团控股有限公司 数据脱敏处理方法和装置
CN106599713A (zh) * 2016-11-11 2017-04-26 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN106778314A (zh) * 2017-03-01 2017-05-31 全球能源互联网研究院 一种基于k‑means的分布式差分隐私保护方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655939B2 (en) * 2007-01-05 2014-02-18 Digital Doors, Inc. Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor
US20110099101A1 (en) * 2009-10-26 2011-04-28 Bank Of America Corporation Automated validation reporting for risk models
US20140380489A1 (en) * 2013-06-20 2014-12-25 Alcatel-Lucent Bell Labs France Systems and methods for data anonymization
US10339341B2 (en) * 2014-05-07 2019-07-02 Hush Hush Methods and systems for obfuscating sensitive information in computer systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326575B1 (en) * 2009-02-23 2012-12-04 Bank Of America Corporation Machine-based population stability index selection
CN106295392A (zh) * 2015-06-24 2017-01-04 阿里巴巴集团控股有限公司 数据脱敏处理方法和装置
CN105426445A (zh) * 2015-11-06 2016-03-23 天津佳宁坤祥科技有限公司 一种格式保留的数据脱敏方法
CN105653981A (zh) * 2015-12-31 2016-06-08 中国电子科技网络信息安全有限公司 大数据平台的数据流通与交易的敏感数据保护系统及方法
CN106599713A (zh) * 2016-11-11 2017-04-26 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN106778314A (zh) * 2017-03-01 2017-05-31 全球能源互联网研究院 一种基于k‑means的分布式差分隐私保护方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"数据库营销在零售行业的应用";陈天鹏;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;20170315(第03期);论文第二章-第五章 *

Also Published As

Publication number Publication date
CN107391564A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN108845936B (zh) 一种基于海量用户的ab测试方法及系统
CN107391564B (zh) 数据转换方法、装置以及电子设备
CN107577694B (zh) 一种基于区块链的数据处理方法及设备
CN107391527B (zh) 一种基于区块链的数据处理方法及设备
CN112200132B (zh) 一种基于隐私保护的数据处理方法、装置及设备
CN107577697B (zh) 一种数据处理方法、装置及设备
CN109391680B (zh) 一种定时任务数据处理方法、装置及系统
CN111181569B (zh) 一种时序数据的压缩方法、装置以及设备
CN108073687B (zh) 随机游走、基于集群的随机游走方法、装置以及设备
CN110635962B (zh) 用于分布式系统的异常分析方法及装置
CN110634030A (zh) 应用的业务指标挖掘方法、装置及设备
CN108920183B (zh) 一种业务决策方法、装置及设备
CN115618748A (zh) 一种模型优化的方法、装置、设备及存储介质
CN110245978B (zh) 策略组中的策略评估、策略选择方法及装置
CN110020333A (zh) 数据分析方法及装置、电子设备、存储介质
CN108932525B (zh) 一种行为预测方法及装置
CN108681490B (zh) 针对rpc信息的向量处理方法、装置以及设备
CN113837635A (zh) 风险检测处理方法、装置及设备
CN112817428A (zh) 任务运行方法、装置、移动终端和存储介质
CN116521350A (zh) 基于深度学习算法的etl调度方法及装置
CN115905266A (zh) 图结构数据的处理方法和用于图结构数据的存储引擎
CN107368281B (zh) 一种数据处理方法及装置
CN115545943A (zh) 一种图谱的处理方法、装置及设备
CN113157767B (zh) 一种风险数据监控方法、装置以及设备
CN111242195B (zh) 模型、保险风控模型训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1247315

Country of ref document: HK

TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant