CN112100645A - 数据处理方法及装置 - Google Patents
数据处理方法及装置 Download PDFInfo
- Publication number
- CN112100645A CN112100645A CN201910528365.4A CN201910528365A CN112100645A CN 112100645 A CN112100645 A CN 112100645A CN 201910528365 A CN201910528365 A CN 201910528365A CN 112100645 A CN112100645 A CN 112100645A
- Authority
- CN
- China
- Prior art keywords
- data
- neural network
- convolutional
- self
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 102
- 239000013598 vector Substances 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000003860 storage Methods 0.000 claims abstract description 39
- 238000013075 data extraction Methods 0.000 claims abstract description 31
- 238000013500 data storage Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 230000004913 activation Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 108091026890 Coding region Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种数据处理方法及装置。其中,方法基于经过训练的卷积自编码神经网络而执行,方法包括:接收携带数据标识的数据存储请求,利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到待存储数据对应的特征向量,将特征向量与数据标识关联存储至存储服务器;接收携带数据标识的数据提取请求,查询存储服务器得到数据标识对应的特征向量,利用卷积自编码神经网络中的卷积解码器对特征向量进行数据重建处理,得到待提取数据,响应数据提取请求返回待提取数据,实现了数据快速实时保护,使得即便盗取者盗取了特征向量也无法获取到特征向量对应的数据,有效避免用户的隐私、敏感信息被泄露,提升了数据的安全性。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种数据处理方法及装置。
背景技术
据安全情报供应商Risk Based Security发布《2018年数据泄露快报(DataBreach QuickView Report)》,2018年公开披露的数据泄露事件达到6500起,涉及50亿条数据记录。其中,分之二来自商业组织,政府占13.9%,医疗行业占13.4%,教育业占6.5%。数据保护形势日益严峻。
而通信运营商核心网中存储了每个用户的隐私信息,包括位置信息、通话信息等,此类敏感信息一旦泄露,将造成不可逆转的影响。5G核心网在安全性上做了很大提升,5G核心网的特征之一是控制面和用户面分离,而用户面和控制面都会进行加密;此外,5G无线通信端信令和消息传输也会加密,包括空口的信令。但目前在5G网元的用户数据存储过程中,对隐私数据的保护仍显不足。
现有5G核心网在安全性上做了很大提升,5G核心网的特征之一是控制面和用户面分离,而用户面和控制面都会进行加密;此外,5G无线通信端信令和消息传输也会加密,包括空口的信令。但目前在5G网元的用户数据存储过程中,对隐私数据的保护仍显不足。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及装置。
根据本发明的一个方面,提供了一种数据处理方法,方法基于经过训练的卷积自编码神经网络而执行,方法包括:
接收携带数据标识的数据存储请求,利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到待存储数据对应的特征向量,将特征向量与数据标识关联存储至存储服务器;
接收携带数据标识的数据提取请求,查询存储服务器得到数据标识对应的特征向量,利用卷积自编码神经网络中的卷积解码器对特征向量进行数据重建处理,得到待提取数据,响应数据提取请求返回待提取数据。
根据本发明的另一方面,提供了一种数据处理装置,装置基于经过训练的卷积自编码神经网络而运行,装置包括:
第一接收模块,适于接收携带数据标识的数据存储请求;
特征提取模块,适于利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到待存储数据对应的特征向量;
存储模块,适于将特征向量与数据标识关联存储至存储服务器;
第二接收模块,适于接收携带数据标识的数据提取请求;
查询模块,适于查询存储服务器得到数据标识对应的特征向量;
数据重建处理模块,适于利用卷积自编码神经网络中的卷积解码器对特征向量进行数据重建处理,得到待提取数据;
响应模块,适于响应数据提取请求返回待提取数据。
根据本发明的又一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述数据处理方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述数据处理方法对应的操作。
根据本发明提供的方案,接收携带数据标识的数据存储请求,利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到待存储数据对应的特征向量,将特征向量与数据标识关联存储至存储服务器;接收携带数据标识的数据提取请求,查询存储服务器得到数据标识对应的特征向量,利用卷积自编码神经网络中的卷积解码器对特征向量进行数据重建处理,得到待提取数据,响应数据提取请求返回待提取数据。基于本发明提供的方案,通过存储数据对应的特征向量,实现了数据快速实时保护,使得即便盗取者盗取了特征向量也无法获取到特征向量对应的数据,有效避免用户的隐私、敏感信息被泄露,提升了数据的安全性,特征向量保留了存储数据内部结构,使得能够根据特征向量进行数据重建,从而满足数据提取需求,实现了数据自由存储及提取。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的数据处理方法的流程示意图;
图2示出了数据处理流程的功能示意图;
图3示出了根据本发明一个实施例的卷积自编码神经网络训练的流程示意图;
图4示出了卷积自编码神经网络的示意图;
图5示出了根据本发明一个实施例的数据处理装置的结构示意图;
图6示出了根据本发明一个实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的数据处理方法的流程示意图。该方法基于经过训练的卷积自编码神经网络而执行,如图1所示,该方法包括以下步骤:
步骤S101,接收携带数据标识的数据存储请求,利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到待存储数据对应的特征向量,将特征向量与数据标识关联存储至存储服务器。
当数据存储方需要存储数据时,可以发送携带数据标识的数据存储请求,其中,数据标识用于标识一条数据,每条数据对应有唯一的数据标识,从而能够根据数据标识将多条数据区分开来。接收数据存储方发送的携带有数据标识的数据存储请求,然后,利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,这个过程是降维、压缩的过程,其保留了待存储数据的内部结构的同时,将待存储数据映射到低维潜在空间,在利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取后,得到待存储数据对应的特征向量,该特征向量是待存储数据的精髓所在。在得到待存储数据对应的特征向量之后,将待存储数据以特征向量的形式与相应的数据标识关联存储至存储服务器中。
步骤S102,接收携带数据标识的数据提取请求,查询存储服务器得到数据标识对应的特征向量,利用卷积自编码神经网络中的卷积解码器对特征向量进行数据重建处理,得到待提取数据,响应数据提取请求返回待提取数据。
当数据提取方需要提取数据时,可以发送携带数据标识的数据提取请求,数据标识唯一标识一条数据,在存储数据时,将数据标识与特征向量关联存储,因此,通过查询存储服务器能够得到数据标识对应的特征向量,在得到数据标识对应的特征向量后,将特征向量输入至卷积自编码神经网络中的卷积解码器,卷积解码器根据相应的特征向量进行数据重建处理,通过数据重建处理能够得到待提取数据。在得到待提取数据后,响应数据提取请求向数据提取方返回待提取数据。
下面结合实例具体说明数据处理过程,数据存储方为NF(Network Funtion,网元)或者NEF(Network Exposure Function,能力开放功能网元),存储服务器为UDSF(Unstructured Data Storage network Function,非结构化数据存储服务器)或SDSF(Structured Data Storage network Function,结构化数据存储服务器),待存储数据为非结构化数据和/或结构化数据,具体地,NF可以将非结构化数据存储在UDSF中,以实现计算与存储的分离。UDSF属于NF所在的PLMN,NF可能为了存储它们非结构化数据共享一个UDSF或者可能拥有它们自己的UDSF(比如一个UDSF可能靠近各自的NF),UDSF可以与其他网元进行合设,例如SDSF;NEF将要向内/外开放的结构化数据存储在SDSF中,SDSF可与UDR(User Data Repository)、UDSF合设。
这里的结构化数据特指3GPP规范中明确定义了结构的数据,例如签约数据(subscription data);而非结构化数据特指3GPP规范中未明确定义结构的数据,例如UE上下文(User equipment context),UE上下文是用户的业务档案,例如当一个UE处于附着状态(非idle状态),那么它的上下文包括:IMSI、UE网络能力、TAI、S1APID、eNodeBID、鉴权信息、协商的安全算法、生成的密钥、创建的连接信息(如APN、PGW、QCI)、承载信息(EBI、QCI、上下行AMBR、TFT、控制面与用户面地址)等。这里仅是简单举例结构化数据和非结构化数据,不具有任何限定作用。
图2示出了数据处理流程的功能示意图,如图2所示,当NF需要将非结构化数据存储在UDSF上时,或者NEF需要将结构化数据存储在SDSF时,NF或者NEF发送数据存储请求,该数据存储请求中携带有要存储的数据的数据标识,然后利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到待存储数据对应的特征向量,将特征向量与数据标识关联存储至NF或NEF。特征向量不仅保留了待存储数据内部结构,而且还降低了数据存储所需存储空间,以特征向量形式存储待存储数据,实现了对数据的保护。
当NF或者NEF有数据提取需求时,NF向UDSF或者NEF向SDSF发送提取相关数据的数据提取请求,该数据提取请求中携带有要提取数据的数据标识,根据数据标识查询UDSF或者SDSF,得到数据标识对应的特征向量,在得到特征向量之后,将对应的特征向量输入至卷积自编码神经网络中的卷积解码器,卷积解码器根据相应的特征向量进行数据重建处理,通过数据重建处理能够得到待提取数据。在得到待提取数据后,响应数据提取请求将待提取数据返回给NF或NEF。
根据本发明上述实施例提供的方法,接收携带数据标识的数据存储请求,利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到待存储数据对应的特征向量,将特征向量与数据标识关联存储至存储服务器;接收携带数据标识的数据提取请求,查询存储服务器得到数据标识对应的特征向量,利用卷积自编码神经网络中的卷积解码器对特征向量进行数据重建处理,得到待提取数据,响应数据提取请求返回待提取数据。基于本发明提供的方案,通过存储数据对应的特征向量,实现了数据快速实时保护,使得即便盗取者盗取了特征向量也无法获取到特征向量对应的数据,有效避免用户的隐私、敏感信息被泄露,提升了数据的安全性,特征向量保留了存储数据内部结构,使得能够根据特征向量进行数据重建,从而满足数据提取需求,实现了数据自由存储及提取。
图3示出了根据本发明一个实施例的卷积自编码神经网络训练的流程示意图,图4示出了卷积自编码神经网络的示意图,结合图3和图4详细介绍卷积自编码神经网络训练过程:
步骤S301,获取数据集,对数据集中的数据进行清洗处理,并对清洗处理后的数据进行序列化处理。
在进行卷积自编码神经网络的训练之前,需要先获取训练数据集和测试数据集,具体地,可以利用步骤S301-步骤S303的方法获取训练数据集和测试数据集:
收集历史数据,例如,从5G核心网的UDSF和SDSF中获取历史非结构化数据和历史结构化数据作为卷积自编码神经网络的数据集,以非结构化数据为UE上下文为例,UE上下文是用户的业务档案,例如当一个UE处于附着状态(非idle状态),那么它的上下文就包括IMSI、UE网络能力、TAI、S1APID、eNodeB ID、鉴权信息、协商的安全算法、生成的密钥、创建的连接信息(如APN、PGW、QCI)、承载信息(EBI、QCI、上下行AMBR、TFT、控制面与用户面地址)等。
在获取到数据集之后,对数据集中的数据进行清洗,即,对历史非结构化数据和历史结构化数据进行清洗,例如,文本清洗,这里的清洗主要是将一些无用的字符去除,例如,字符“,”、“;”等。
在对数据集中的数据进行清洗处理之后,对清洗处理后的数据进行序列化处理,例如,统一字母大小写,将大写字母转换成小写字母。数据集的文本词典是所有数据的总和,文本词典大小为N,利用数据集的文本词典将数据中的每个文本转换为整数序列,例如:[“qci”:40,“imsi”:105,“info”:8,“update”:278,“on”:89,“agent”:164,“modify”:59,“the”:21,“interrupted”:303,“command”:231,...]。
步骤S302,依据预设数据长度对序列化处理后的数据进行填充处理。
为了便于卷积自编码神经网络的训练,定义每条输入数据的编码序列长度为L,对于编码序列长度不足L的,在相应的空白位置自动补充为0,训练过程中0默认不作分析。
步骤S303,将填充处理后的数据集按照随机数法划分为训练数据集和测试数据集。
在对数据进行填充处理之后,将填充处理后的数据集按照随机数法划分为训练数据集和测试数据集,例如,按照9:1的比例划分数据集,即数据集中90%的数据作为训练数据集,10%的数据作为测试数据集。训练数据集中的数据用于对卷积自编码神经网络进行训练,测试数据集用于对训练得到的卷积自编码神经网络进行测试验证。
在得到训练数据集及测试数据集之后,就可以利用训练数据进行卷积自编码神经网络的训练,将训练数据输入至待训练的卷积自编码神经网络中进行训练,得到初始卷积自编码神经网络,利用测试数据对初始卷积自编码神经网络进行测试,得到卷积自编码神经网络,具体地,可以利用步骤S304-S307中的方法得到卷积自编码神经网络:
步骤S304,将训练数据输入至待训练的卷积自编码神经网络中的卷积编码器,得到与训练数据对应的特征向量。
自编码器(autoencoder)是把输入数据进行一个压缩和解压缩的过程,通过将原数据进行压缩,然后再解压,对比原数据和解压后的数据,求出重建误差,进行反向传递,逐步提升自编码的准确性,训练好的自编码中间这一部分就是能总结原数据精髓的特征向量表示。
卷积自编码器(convolutional autoencoder)利用了传统自编码器的无监督的学习方式,结合了卷积神经网络的卷积和池化操作,从而实现特征提取,最后通过stack,实现一个深层的神经网络。卷积自编码器创建的目的就在于,利用卷积神经网络的卷积和池化操作,实现特征不变性提取(invariant feature)的无监督特征提取。卷积自编码器是采用卷积层代替全连接层,原理和自编码器一样,对输入的数据进行降采样以提供较小维度潜在表示,并强制自编码器学习数据的压缩版本,也节省了数据的存储空间。
卷积自编码器由编码器(encoder)和解码器(decoder)两部分组成:编码器负责对原数据进行压缩,最终得到原数据的精髓;解码器负责对压缩后的数据进行还原重建。
本实施例通过开源深度学习框架tensorflow来搭建待训练的卷积自编码神经网络,所搭建的待训练的卷积自编码神经网络:包含1个输入层、12个隐藏层、1个输出层。其中12个隐藏层中前6层属于卷积编码器,后6层属于卷积解码器。
第一层为输入层,又称为词嵌入层(embedding):输入数据的编码序列长度为L,经输入层处理后将文本转换为一个1×128的一维向量。该层的作用是对输入数据中的每个单词进行向量映射(word embeddings),即将文本中的每个单词的整数序列转换为固定形状128维度的向量;
卷积编码器负责完成对原始数据的压缩降维,抽取出代表输入数据的特征向量,以特征向量的形式存储于存储服务器(UDSF或SDSF)中。编码器分别包含:
第二层为第一卷积层(Conv1D):卷积核个数为128(即输出的维度),卷积核的空域窗长度设置为2(即卷积核每次连续读取2个词),激活函数设置为“relu”,利用第一卷积层进行文本特征提取;
第三层为第一最大值池化层(MaxPooling1D):池化窗口大小设置为2,最大值池化层将卷积核抽取出的特征值中的最大值保留,其他特征值全部丢弃;
第四层为第二卷积层(Conv1D):卷积核个数为64,卷积核的空域窗长度设置为2,激活函数设置为“relu”;
第五层为第二最大值池化层(MaxPooling1D):池化窗口大小设置为2,最大值池化层将卷积核抽取出的特征值中的最大值保留,其他特征值全部丢弃;
第六层为第三卷积层(Conv1D):卷积核个数为32,卷积核的空域窗长度设置为2,激活函数设置为“relu”;
第七层为第三最大值池化层(MaxPooling1D):池化窗口大小设置为2,最大值池化层将卷积核抽取出的特征值中的最大值保留,其他特征值全部丢弃。
具体地,将训练数据输入至待训练的卷积自编码神经网络中的输入层,经输入层处理后,输入至卷积编码器,由卷积编码器进行数据特征题述,得到与训练数据对应的特征向量。
步骤S305,将特征向量输入至待训练的卷积自编码神经网络中的卷积解码器,得到与特征向量对应的还原数据。
卷积解码器负责对压缩数据的还原重建,具体地,根据抽取的特征向量进行数据重建。卷积解码器分别包含:
第八层为第四卷积层(Conv1D):卷积核个数为32,卷积核的空域窗长度设置为2,激活函数设置为“relu”;
第九层为第一上采样层(Upsampling1D):上采样因子设置为2,即在时间轴上将每个时间步重复2次;
第十层为第五卷积层(Conv1D):卷积核个数为64,卷积核的空域窗长度设置为2,激活函数设置为“relu”;
第十一层为第二上采样层(Upsampling1D):上采样因子设置为2,即在时间轴上将每个时间步重复2次;
第十二层为第六卷积层(Conv1D):卷积核个数为128,卷积核的空域窗长度设置为2,激活函数设置为“relu”;
第十三层为第三上采样层(Upsampling1D):上采样因子设置为2,即在时间轴上将每个时间步重复2次;
第十四层为输出层(也为卷积层Conv1D):卷积核个数为1,卷积核的空域窗长度设置为2,激活函数设置为“sigmoid”。
具体地,在利用步骤S304得到训练数据对应的特征向量后,将特征向量输入至待训练的卷积自编码神经网络中的卷积解码器,由卷积解码器进行数据重建处理,得到与特征向量对应的还原数据,经输出层输出。
步骤S306,根据训练数据与还原数据之间的重建误差,得到待训练的卷积自编码神经网络的损失函数,根据损失函数更新待训练的卷积自编码神经网络的权重参数。
步骤S307,迭代执行步骤S304-步骤S306,直至满足预定收敛条件,得到初始卷积自编码神经网络。
在根据步骤S305得到还原数据后,计算训练数据与还原数据之间的重建误差,根据训练数据与还原数据之间的重建误差,得到待训练的卷积自编码神经网络的损失函数,例如,选择categorical crossentropy多类交叉熵作为损失函数(loss='categorical_crossentropy'),其中,可以利用梯度下降优化算法例如,adam优化器,改善传统梯度下降的学习速度(optimizer='adam')。卷积自编码神经网络通过梯度下降,可以找到使损失函数最小的最优权重参数,神经网络通过训练会自主学习到权重参数。
迭代执行步骤S304-步骤S306,直至满足预定收敛条件,得到初始卷积自编码神经网络。其中,预定收敛条件包括:迭代次数达到预设迭代次数;和/或,待训练的卷积自编码神经网络的损失函数的输出值小于预设阈值。例如,将预设迭代次数设置为1000,本领域技术人员可以根据实际经验设置预设迭代次数及预设阈值,这里不做具体说明。在本实施中,还可以设置每次训练数据的数量,例如设置为20条数据。
步骤S308,利用测试数据对初始卷积自编码神经网络进行验证,若验证通过,则得到卷积自编码神经网络。
在训练后,利用测试数据集中的测试数据对初始卷积自编码神经网络进行验证,若输入的测试数据与初始卷积自编码神经网络输出的还原数据相同,则认为验证通过,得到卷积自编码神经网络。
根据本发明实施例提供的方法,通过训练卷积自编码神经网络,能够使得在数据处理时,利用卷积自编码神经网络对数据进行实时保护,以及降低了数据存储所需的存储空间。
图5示出了根据本发明一个实施例的数据处理装置的结构示意图。该装置基于经过训练的卷积自编码神经网络而运行,如图5所示,该装置包括:第一接收模块501、特征提取模块502、存储模块503、第二接收模块504、查询模块505、数据重建处理模块506、响应模块507。
第一接收模块501,适于接收携带数据标识的数据存储请求;
特征提取模块502,适于利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到待存储数据对应的特征向量;
存储模块503,适于将特征向量与数据标识关联存储至存储服务器;
第二接收模块504,适于接收携带数据标识的数据提取请求;
查询模块505,适于查询存储服务器得到数据标识对应的特征向量;
数据重建处理模块506,适于利用卷积自编码神经网络中的卷积解码器对特征向量进行数据重建处理,得到待提取数据;
响应模块507,适于响应数据提取请求返回待提取数据。
可选地,装置还包括:卷积自编码神经网络训练模块508;
其中,卷积自编码神经网络训练模块508适于:获取训练数据集和测试数据集;
将训练数据输入至待训练的卷积自编码神经网络中进行训练,得到初始卷积自编码神经网络;其中,待训练的卷积自编码神经网络包括输入层、卷积编码器、卷积解码器以及输出层;
利用测试数据对初始卷积自编码神经网络进行验证,若验证通过,则得到卷积自编码神经网络。
可选地,卷积自编码神经网络训练模块508进一步适于:将训练数据输入至待训练的卷积自编码神经网络中的卷积编码器,得到与训练数据对应的特征向量;
将特征向量输入至待训练的卷积自编码神经网络中的卷积解码器,得到与特征向量对应的还原数据;
根据训练数据与还原数据之间的重建误差,得到待训练的卷积自编码神经网络的损失函数,根据损失函数更新待训练的卷积自编码神经网络的权重参数;
卷积自编码神经网络训练模块迭代执行,直至满足预定收敛条件,得到初始卷积自编码神经网络。
可选地,预定收敛条件包括:迭代次数达到预设迭代次数;和/或,待训练的卷积自编码神经网络的损失函数的输出值小于预设阈值。
可选地,卷积编码器包含:第一卷积层、第一最大值池化层、第二卷积层、第二最大值池化层、第三卷积层、第三最大值池化层;
卷积解码器包含:第四卷积层、第一上采样层、第五卷积层、第二上采样层、第六卷积层、第三上采样层。
可选地,卷积自编码神经网络训练模块508进一步适于:获取数据集,对数据集中的数据进行数据预处理;
将数据预处理后的数据集按照随机数法划分为训练数据集和测试数据集。
可选地,卷积自编码神经网络训练模块508进一步适于:对数据集中的数据进行清洗处理,并对清洗处理后的数据进行序列化处理;
依据预设数据长度对序列化处理后的数据进行填充处理。
根据本发明上述实施例提供的装置,接收携带数据标识的数据存储请求,利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到待存储数据对应的特征向量,将特征向量与数据标识关联存储至存储服务器;接收携带数据标识的数据提取请求,查询存储服务器得到数据标识对应的特征向量,利用卷积自编码神经网络中的卷积解码器对特征向量进行数据重建处理,得到待提取数据,响应数据提取请求返回待提取数据。基于本发明提供的方案,通过存储数据对应的特征向量,实现了数据快速实时保护,使得即便盗取者盗取了特征向量也无法获取到特征向量对应的数据,有效避免用户的隐私、敏感信息被泄露,提升了数据的安全性,特征向量保留了存储数据内部结构,使得能够根据特征向量进行数据重建,从而满足数据提取需求,实现了数据自由存储及提取。
本发明实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的数据处理方法。
图6示出了根据本发明一个实施例的电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图6所示,该电子设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。
其中:
处理器、通信接口、以及存储器通过通信总线完成相互间的通信。
通信接,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器,用于执行程序,具体可以执行上述数据处理方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的数据处理方法。程序中各步骤的具体实现可以参见上述数据处理实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据处理设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种数据处理方法,所述方法基于经过训练的卷积自编码神经网络而执行,所述方法包括:
接收携带数据标识的数据存储请求,利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到所述待存储数据对应的特征向量,将所述特征向量与数据标识关联存储至存储服务器;
接收携带数据标识的数据提取请求,查询存储服务器得到所述数据标识对应的特征向量,利用卷积自编码神经网络中的卷积解码器对特征向量进行数据重建处理,得到待提取数据,响应所述数据提取请求返回待提取数据。
2.根据权利要求1所述的方法,其中,卷积自编码神经网络训练过程包括:
获取训练数据集和测试数据集;
将训练数据输入至待训练的卷积自编码神经网络中进行训练,得到初始卷积自编码神经网络;其中,所述待训练的卷积自编码神经网络包括输入层、卷积编码器、卷积解码器以及输出层;
利用测试数据对初始卷积自编码神经网络进行验证,若验证通过,则得到卷积自编码神经网络。
3.根据权利要求2所述的方法,其中,所述将训练数据输入至待训练的卷积自编码神经网络中进行训练,得到初始卷积自编码神经网络进一步包括:
S1,将所述训练数据输入至待训练的卷积自编码神经网络中的卷积编码器,得到与训练数据对应的特征向量;
S2,将所述特征向量输入至待训练的卷积自编码神经网络中的卷积解码器,得到与所述特征向量对应的还原数据;
S3,根据所述训练数据与所述还原数据之间的重建误差,得到待训练的卷积自编码神经网络的损失函数,根据所述损失函数更新待训练的卷积自编码神经网络的权重参数;
迭代执行步骤S1-步骤S3,直至满足预定收敛条件,得到初始卷积自编码神经网络。
4.根据权利要求3所述的方法,其中,所述预定收敛条件包括:迭代次数达到预设迭代次数;和/或,所述待训练的卷积自编码神经网络的损失函数的输出值小于预设阈值。
5.根据权利要求1-4中任一项所述的方法,其中,所述卷积编码器包含:第一卷积层、第一最大值池化层、第二卷积层、第二最大值池化层、第三卷积层、第三最大值池化层;
所述卷积解码器包含:第四卷积层、第一上采样层、第五卷积层、第二上采样层、第六卷积层、第三上采样层。
6.根据权利要求1-4中任一项所述的方法,其中,所述获取训练数据集和测试数据集进一步包括:
获取数据集,对数据集中的数据进行数据预处理;
将数据预处理后的数据集按照随机数法划分为训练数据集和测试数据集。
7.根据权利要求6所述的方法,其中,所述对数据集中的数据进行数据预处理进一步包括:
对数据集中的数据进行清洗处理,并对清洗处理后的数据进行序列化处理;
依据预设数据长度对序列化处理后的数据进行填充处理。
8.一种数据处理装置,所述装置基于经过训练的卷积自编码神经网络而运行,所述装置包括:
第一接收模块,适于接收携带数据标识的数据存储请求;
特征提取模块,适于利用卷积自编码神经网络中的卷积编码器对待存储数据进行特征提取,得到所述待存储数据对应的特征向量;
存储模块,适于将所述特征向量与数据标识关联存储至存储服务器;
第二接收模块,适于接收携带数据标识的数据提取请求;
查询模块,适于查询存储服务器得到所述数据标识对应的特征向量;
数据重建处理模块,适于利用卷积自编码神经网络中的卷积解码器对特征向量进行数据重建处理,得到待提取数据;
响应模块,适于响应所述数据提取请求返回待提取数据。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的数据处理方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的数据处理方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910528365.4A CN112100645A (zh) | 2019-06-18 | 2019-06-18 | 数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910528365.4A CN112100645A (zh) | 2019-06-18 | 2019-06-18 | 数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112100645A true CN112100645A (zh) | 2020-12-18 |
Family
ID=73748571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910528365.4A Pending CN112100645A (zh) | 2019-06-18 | 2019-06-18 | 数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100645A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780450A (zh) * | 2021-09-16 | 2021-12-10 | 郑州云智信安安全技术有限公司 | 基于自编码神经网络的分布式存储方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622485A (zh) * | 2017-08-15 | 2018-01-23 | 中国科学院深圳先进技术研究院 | 一种融合深度张量神经网络的医学影像数据分析方法和系统 |
CN108062780A (zh) * | 2017-12-29 | 2018-05-22 | 百度在线网络技术(北京)有限公司 | 图像压缩方法和装置 |
CN108475309A (zh) * | 2015-08-21 | 2018-08-31 | 维尔蒂姆知识产权有限公司 | 用于生物特征协议标准的系统和方法 |
CN109325508A (zh) * | 2017-07-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 知识表示、机器学习模型训练、预测方法、装置以及电子设备 |
-
2019
- 2019-06-18 CN CN201910528365.4A patent/CN112100645A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108475309A (zh) * | 2015-08-21 | 2018-08-31 | 维尔蒂姆知识产权有限公司 | 用于生物特征协议标准的系统和方法 |
CN109325508A (zh) * | 2017-07-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 知识表示、机器学习模型训练、预测方法、装置以及电子设备 |
CN107622485A (zh) * | 2017-08-15 | 2018-01-23 | 中国科学院深圳先进技术研究院 | 一种融合深度张量神经网络的医学影像数据分析方法和系统 |
CN108062780A (zh) * | 2017-12-29 | 2018-05-22 | 百度在线网络技术(北京)有限公司 | 图像压缩方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780450A (zh) * | 2021-09-16 | 2021-12-10 | 郑州云智信安安全技术有限公司 | 基于自编码神经网络的分布式存储方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105404845B (zh) | 图片处理方法及装置 | |
CN110830807B (zh) | 图像压缩方法、装置及存储介质 | |
CN110378301B (zh) | 行人重识别方法及系统 | |
CN103346800B (zh) | 一种数据压缩方法及装置 | |
CN111507100B (zh) | 一种卷积自编码器及基于该编码器的词嵌入向量压缩方法 | |
CN110619334B (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN110008192A (zh) | 一种数据文件压缩方法、装置、设备及可读存储介质 | |
US20160110324A1 (en) | Compression of cascading style sheet files | |
CN116433914A (zh) | 一种二维医学图像分割方法及系统 | |
CN113947136A (zh) | 图像压缩和分类方法、装置及电子设备 | |
CN114071141A (zh) | 一种图像处理方法及其设备 | |
CN112100645A (zh) | 数据处理方法及装置 | |
WO2021042895A1 (zh) | 基于神经网络的验证码识别方法、系统及计算机设备 | |
CN112016502A (zh) | 安全带检测方法、装置、计算机设备及存储介质 | |
WO2024032585A1 (zh) | 数据处理方法及装置、神经网络模型、设备、介质 | |
CN111353514A (zh) | 模型训练方法、图像识别方法、装置及终端设备 | |
KR101982203B1 (ko) | 개인정보 보호가 가능한, 영상 인식을 위한 단말 장치, 서버 장치 및 시스템 | |
CN110796115B (zh) | 图像检测方法、装置、电子设备及可读存储介质 | |
CN110019012A (zh) | 数据预处理方法、装置和计算机可读存储介质 | |
CN117252890A (zh) | 颈动脉斑块分割方法、装置、设备及介质 | |
CN111967478A (zh) | 一种基于权重翻转的特征图重构方法、系统、存储介质及终端 | |
EP3591608A1 (en) | Method and system for image reconstruction using deep dictionary learning (ddl) | |
CN113989152A (zh) | 图像增强方法、装置、设备以及存储介质 | |
KR20140108378A (ko) | 압축파일 악성코드 감염 여부 검사 시스템 및 압축파일 악성코드 감염 여부 검사 방법 | |
CN115345213A (zh) | 一种信令自动补全方法、装置、计算设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201218 |