CN112417249B - 数据提取方法、系统、设备以及计算机可读存储介质 - Google Patents
数据提取方法、系统、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112417249B CN112417249B CN202011352961.0A CN202011352961A CN112417249B CN 112417249 B CN112417249 B CN 112417249B CN 202011352961 A CN202011352961 A CN 202011352961A CN 112417249 B CN112417249 B CN 112417249B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- dimension
- model
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013075 data extraction Methods 0.000 title claims abstract description 32
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 210000004209 hair Anatomy 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 241000282693 Cercopithecidae Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 239000010410 layer Substances 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241000718131 Cercopithecus kandti Species 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种数据提取方法、系统、设备以及计算机可读存储介质,方法包括:利用自编码器对目标数据进行无监督学习,得到第一目标模型,所述目标数据为需要通过运算以提取无标记数据的数据;从所述目标数据中提取第一目标已标记数据,基于所述第一目标模型确定所述第一目标已标记数据的类型;从所述目标数据中提取第一目标数据,所述第一目标数据为基于所述第一模型提取出的与所述第一目标已标记数据类型匹配的数据;当所述第一目标数据的维度为目标维度时,确定所述第一目标数据为需要提取的数据。解决了无法从无标记数据中提取无标记数据的技术问题,提高了对无标记数据提取的准确性。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及一种数据提取方法、系统、设备以及计算机可读存储介质。
背景技术
近年来,随着互联网、物联网、5G、大数据等领域的快速发展,各种各样的数据给人们生活带来了便利。如何对采集的数据进行分析处理,以提取需要的信息,是数据处理的重中之重。在针对不同领域采集到的数据进行分析处理时,可采用统计学习、机器学习、深度学习等算法。算法处理要与领域数据匹配,如有监督学习在已经标记好的数据分类、回归、预测领域的广泛应用。
基于已标记数据的处理应用非常广泛而且成熟。然而,在现实生活中存在着大量未标记的数据,如何有效从未标记的数据中提取与少量已标记数据类型相同的数据,进而形成可利用的信息,已经成为了现今数据分析的关键课题。
发明内容
本申请实施例通过提供一种数据提取方法、系统、设备以及计算机可读存储介质,旨在解决在大量无标记数据中提取类型与已知数据类型一致的目标数据,进而进行数据分析的问题。
为实现上述目的,本申请一方面提供一种数据提取方法,包括:
利用自编码器对目标数据进行无监督学习,得到第一目标模型,所述目标数据为需要通过运算以提取无标记数据的数据.;
从所述目标数据中提取第一目标已标记数据,基于所述第一目标模型确定所述第一目标已标记数据的类型;
从所述目标数据中提取第一目标数据,所述第一目标数据为基于所述第一模型提取出的与所述第一目标已标记数据类型匹配的数据;
当所述第一目标数据的维度为目标维度时,确定所述第一目标数据为需要提取的数据。
可选地,所述从所述目标数据中提取第一目标数据的步骤之后,包括:
获取所述第一目标数据的维度;
当所述第一目标数据的维度大于所述目标维度时,根据所述第一目标数据和所述第一目标已标记数据确定需要提取的数据。
可选地,所述根据所述第一目标数据和所述第一目标已标记数据确定需要提取的数据的步骤,包括:
利用自编码器对所述第一目标数据进行无监督学习,得到第二目标模型,所述第二目标模型的维度低于第一目标模型的维度;
将所述第一目标已标记数据作为第二目标已标记数据;
基于所述第二目标模型确定所述第二目标已标记数据的类型;
从所述第一目标数据中提取第二目标数据,所述第二目标数据基于所述第二模型提取出的与所述第二目标已标记数据类型匹配的数据;
当所述第二目标数据的维度为目标维度时,确定所述第二目标数据为需要提取的数据。
可选地,所述从所述第一目标数据中提取第二目标数据的步骤之后,包括:
当所述第二目标数据的维度大于目标维度时,至少执行1次以下步骤1-5,直至获取到维度为目标维度的第N目标数据:
步骤1,利用自编码器对第N-1目标数据进行无监督学习,得到第N目标模型,所述第N目标模型的维度低于第N-1目标模型的维度;
步骤2,将第N-1目标已标记数据作为第N目标已标记数据;
步骤3,基于所述第N目标模型确定第N目标已标记数据的类型;
步骤4,从所述第N-1目标数据中提取第N目标数据,所述第N目标数据基于所述第N模型提取出的与所述第N-1目标已标记数据类型匹配的数据;
步骤5,获取所述第N目标数据的维度,在所述第N数据的维度为目标维度时,确定所述第N目标数据为需要提取的数据。
可选地,所述利用自编码器对目标数据进行无监督学习,得到目标模型的步骤,包括:
获取目标数据的维度,利用自编码器神经网络,以所述维度作为输入和输出的节点个数,设置中间节点数小于输入或输出节点个数,得到自编码器模型;
将所述目标数据代入所述自编码器模型进行训练,得到所述第一目标模型。
可选地,所述将所述目标数据代入所述自编码器模型进行训练,得到所述目标模型的步骤,包括:
根据所述目标数据的特性设定目标损失函数;
根据所述目标损失函数得到所述第一目标模型。
可选地,所述从所述已标记数据中提取目标已标记数据的类型步骤,包括:
从所述已标记数据中提取符合目标类型提取结果的已标记数据类型作为目标类型数据。
此外,本申请还提供一种数据提取系统,所述数据提取系统包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的数据提取程序,所述数据提取程序被所述处理器执行时实现如权利要求1-7任一项数据提取方法的步骤。
此外,本申请还提供一种数据提取设备,所述数据提取设备包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的数据提取程序,所述数据提取程序被所述处理器执行时实现如上任一项数据提取方法的步骤。
此外,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有项数据提取程序,所述项数据提取程序被处理器执行时实现如上中任一项数据提取的步骤。
在本实施例中,当目标数据存在大量的无标记数据时,使用人工的方式对大量无标记数据进行一一提取,需要耗费大量的人力、时间。在本申请中,通过将含有大量无标记数据的目标数据通过自编码器训练学习,得到对目标数据第一次降维后的第一目标模型,进而根据第一目标模型确定第一目标已标记数据的类型,进而基于第一目标模型从目标数据中确定与第一目标已标记数据类型匹配的数据(第一目标数据)。获取第一目标数据的维度,当第一目标数据的维度为目标维度时即可确认第一目标数据为从目标数据中需要提取的数据。以此实现了根据已知少量已标记数据即可实现提取目标数据中包含的与已标记数据匹配的无标记数据。不需要通过人工进行一一分析,提高了对无标记数据提取的效率。
附图说明
图1为本申请实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本申请数据提取方法一实施例的流程示意图;
图3为本申请数据提取方法又一实施例的流程示意图;
图4为本申请数据提取方法实施步骤的流程示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例的主要解决方案是:利用自编码器对目标数据进行无监督学习,得到第一目标模型,所述目标数据为需要通过运算以提取无标记数据的数据。将已知的已标记数据作为第一目标已标记数据,基于所述第一目标模型确定所述第一目标已标记数据的类型;从所述目标数据中提取第一目标数据,所述第一目标数据为基于所述第一模型提取出的与所述第一目标已标记数据类型匹配的数据;当所述第一目标数据的维度为目标维度时,确定所述第一目标数据为需要提取的数据。
在互联网技术高速发展的今天,各种数据采集设备产生了大量的数据,对于已标记的数据可通过各种方法实现数据分析,例如统计学习、机器学习、深度学习等。其中,不同领域中也有不同的数据处理方法。目前对数据的分析主要是基于获取到的有标记数据的分析处理。但是,生活中存在大量无标记数据,如何从海量无标记数据中提取符合要求的数据是进行数据分析的重中之重。本申请对海量数据(目标数据)中的无标记数据进行提取时,利用自编码器对海量数据(目标数据)中的无标记数据通过自编码器进行无监督学习,得到第一目标模型,通过已知的目标已标记数据,并基于第一目标模型确定已标记数据的类型,再通过第一目标模型从海量数据中提取出与目标已标记数据类型相同的数据,作为第一目标数据,在第一目标数据的维度为预设的目标维度时,则表明第一目标数据为需要从海量数据中提取的数据。以此,实现提取目标数据中的无标记数据。
如图1所示,图1为本申请实施例方案涉及的硬件运行环境的终端结构示意图。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、遥控器、音频电路、WiFi模块、检测器等等。当然,终端还可配置陀螺仪、气压计、湿度计、温度传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及家电设备的控制程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的家电设备的控制程序,并执行以下操作:
利用自编码器对目标数据进行无监督学习,得到第一目标模型,所述目标数据为需要通过运算以提取无标记数据的数据.;
从所述已知已标记数据作为第一目标已标记数据,基于所述第一目标模型确定所述第一目标已标记数据的类型;
从所述目标数据中提取第一目标数据,所述第一目标数据为基于所述第一模型提取出的与所述第一目标已标记数据类型匹配的数据;
当所述第一目标数据的维度为目标维度时,确定所述第一目标数据为需要提取的数据。
参考图2,图2为本申请数据提取一实施例的流程示意图。
本申请实施例提供了数据提取的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
数据提取方法包括:
步骤S10,利用自编码器对目标数据进行无监督学习,得到第一目标模型,所述目标数据为需要通过运算以提取无标记数据的数据;
自编码器就是将原始数据进行编码,进行降低维度,发现数据之间的规律的过程。比如目标数据为一张图片,其像素为28*28像素,将图片向量化之后的得到一个长度为784的向量,在网络训练的过程中,网络只用到该向量之中少量元素,其中的大部分元素对于网络来说是没有用的,自编码器通过无监督学习来提取有用的信息,对于手写数字图片来说可能是颜色为黑色的像素点,将图片中的很大一部分白色像素舍弃,只提取对网络有用的信息,达到降低数据维度的目的。即,自编码器通过无监督学习来发现数据集内部特征,提取有用信息,达到降维的目的。所述目标数据为需要通过运算从而提取无标记数据的数据,其包括已标记数据和无标记数据。
所述从所述目标数据中提取第一目标已标记数据的的步骤,包括:
从所述目标数据中提取符合目标类型提取结果的已标记数据作为目标数据。
可以理解的是目标数据中存在少量的已标记数据和大量的无标记数据,用户可以在少量的已标记数据中作为从含有大量无标记数据的目标数据中提取的基础。通过确定用户选择的数据为需要在目标数据中提取的数据的基础,确定了从目标数据中获取数据的类型。
在本申请中,通过利用自编码器对目标数据进行无监督学习,得到第一目标模型。所述第一目标模型为首次利用自编码器对目标数据进行无监督学习而获取到的模型。
在本申请中以图片为例,通过数据采集得到大量的图片数据,其包括各种各样的图案,图案的种类具体可划分为人物图片、猴子图片、大象图片、房屋设计图片等至少100种类别,其中每一类别至少存在1000份图片数据(例如,猴子图片包括:金丝狐、狐猴、懒猴、指猴等,人物图片包括小A、小B、小C)。以采集到的所有图片数据作为作为目标数据,利用自编码器对其进行无监督学习,得到第一目标模型。第一目标模型中为采集了输入的所有图片数据的特征进行压缩,提取所有图片数据中所有特征之间的关系得到的模型。所述第一目标模型将所有图片数据分成了各种不同的类型。
步骤S20,从所述目标数据中提取第一目标已标记数据,基于所述第一目标模型确定所述第一目标已标记数据的类型;
在获取到第一目标模型后进一步地从目标数据中提取第一目标已标记数据,将第一目标已标记数据具体为用户确定需要从目标数据中获取无标记数据的类型的数据。所述目标已标记数据为用户在已标记数据中确定数据。例如,在图片数据中用户选择了一张长头发的女性图片作为目标已标记数据。
在接收到用户确定的目标已标记数据后,将目标已标记数据通过第一目标模型即可确定目标已标记数据的类型。
步骤S30,从所述目标数据中提取第一目标数据,所述第一目标数据为基于所述第一模型提取出的与所述第一目标已标记数据类型匹配的数据;
提取第一目标已标记数据,将目标已标记数据通过第一目标模型确定第一目标已标记数据的类型后,基于第一目标模型在目标数据中确定与第一目标已标记数据类型匹配的第一目标数据。可以理解的是,目标已标记数据为已知特征的数据(例如,人物图片中的特征信息包括五官特征数据、肢体特征数据、毛发特征数据等)。以此为基础,将第一目标已标记数据通过第一目标模型学习得到人物图片中各种特征数据的之间的联系,进而将包含了大量无标记数据的目标数据通过第一目标模型即可得到与第一目标已标记数据包含的已知特征匹配的数据,从而实现了通过少量的已标记数据从存在大量无标记数据的目标数据中提取出与第一目标已标记数据相同类型的数据。
步骤S40,当所述第一目标数据的维度为目标维度时,确定所述第一目标数据为需要提取的数据。
在得到第一目标数据后,获取第一目标数据的维度,判断第一目标数据的维度是否为目标维度,在确定第一目标数据的维度为目标维度时,则确定第一目标数据为需要从目标数据中提取的数据。
具体的,本实施例举例如下:
获取的目标数据以图片为例,其中包含少量的已标记数据(图片的特征信息已知)和大量无标记数据(图片的特征信息未知),用户可在目标数据中随机选择其中一个已标记数据作为目标数据,进而从目标数据中筛选出与目标数据类型相同的数据,如,在图片中存在二张图片的特征信息已知的数据,第一张为黄头发大眼睛的中年女性、第二张为白头发的老年人,第二张为黄头发大眼睛的儿童,黄色毛发的雌性金丝猴。在用户选的已标记数据为人物图片时(标记的特征信息为长头发的中年女性),确认用户需要从目标数据中提取与已标记数据类型相同的数据。则将获取到的图片进行自编码学习,得到各个像素点之间的关系,形成第一目标模型。进而将已标记数据输入第一目标模型确定已标记数据的类型(特征信息一致的图片中各个像素之间的关系),再基于第一目标模型将所有图片的像素与长头发的中年女性匹配的数据筛选出来。
在本实施例中,当目标数据存在大量的无标记数据时,由于无标记数据不存在标记的特征数据,而使用人工的方式对大量无标记数据进行一一提取,需要耗费大量的人力、时间。在本申请中,通过将含有大量无标记数据的目标数据进行自编码器学习,得到对目标数据第一次降维后的第一目标模型,进而根据第一目标模型确定第一目标已标记数据的类型,进而基于第一目标模型从目标数据中确定与第一目标已标记数据类型匹配的数据(第一目标数据)。获取第一目标数据的维度,当第一目标数据的维度为目标维度时即可确认第一目标数据为从目标数据中需要提取的数据。以此实现了只需要提取目标数据中的少量已标记数据即可实现提取目标数据中包含的与已标记数据匹配的无标记数据。不需要通过人工进行一一分析,提高了对无标记数据提取的效率。
参照图2,图2为本申请的又一实施例,所述从所述目标数据中提取第一目标数据的步骤之后,包括:
步骤S50,获取所述第一目标数据的维度;
步骤S60,当所述第一目标数据的维度大于所述目标维度时,根据所述目标数据、所述第一目标数据和所述第一目标已标记数据确定需要提取的数据。
所述目标维度为确定提取的数据的维度,可由用户自主设置,目标维度越低,代表最后提取数据的准确性越高。第一目标数据的维度即为目标数据的特征,在对目标数据使用自编码器进行学习构建模型的过程中,通过降低维度的方式逐步提取目标数据,达到提高目标数据准确性的效果。在本实施例中,将从目标数据中提取的第一目标数据的维度与目标维度进行比对,在提取的第一目标数据的维度大于目标维度时,则进一步地根据目标数据、第一目标数据和第一目标已标记数据确定需要提取的数据。在本申请中,将通过提取的第一目标数据的维度与目标维度进行比对,在第一目标数据的维度大于目标维度时,控制将获取到的数据进一步地执行运算,提高了获取的数据的准确性。
所述根据所述第一目标数据和所述第一目标已标记数据确定需要提取的数据的步骤,包括:
步骤S61,利用自编码器对所述第一目标数据进行无监督学习,得到第二目标模型,所述第二目标模型的维度低于第一目标模型的维度;
步骤S62,将所述第一目标已标记数据作为第二目标已标记数据;
步骤S63,基于所述第二目标模型确定所述第二目标已标记数据的类型;
步骤S63,从所述第一目标数据中提取第二目标数据,所述第二目标数据基于所述第二模型提取出的与所述第二目标已标记数据类型匹配的数据;
步骤S64,当所述第二目标数据的维度为目标维度时,确定所述第二目标数据为需要提取的数据。
在本实施例中,在第一目标数据的维度大于目标维度时,则将第一目标数据进一步地利用自编码器进行无监督学习,得到第二目标模型,可以理解的是,在对第一目标数据进行无监督学习时,通过自编码器中encoder部分对第一目标数据进行降维,提取第一目标数据中的特征,得到第二目标模型的维度低于第一目标模型。将第一目标已标记数据继续作为第二目标已标记数据,进而通过第二目标模型确定第二目标已标记数据的类型,通过第二目标模型从第一目标数据中提取与第二目标已标记数据类型匹配的数据。
本实施例举例如下:目标数据以图片为例,用户确定提取海量图片中的长头发的中年女性图片作为第一目标已标记数据,由于在第一目标模型中获取的第一目标数据的维度较大,第一目标数据中包括:大量中年长头发女性图片、大量中年短头发女性图片、以及大量青年长头发女性图片,即获取到的第一目标数据与需要从目标数据中提取的数据差别较大,这是由于第一目标模型对目标数据进行编码时数据的维度较高导致的,所以在获取到第一目标数据时,将第一目标已标记数据继续作为第二目标已标记数据,即第二目标已标记数据中同样只包括中年长头发女性图片。利用自编码器对第一目标数据进行无监督学习,得到第二目标模型,并通过第二目标模型确定第二目标已标记数据的类型,再提取第一目标数据中与第二目标已标记数据的类型一致的数据作为需要提取的数据,即为第二目标数据,第二目标数据的维度低于第一目标数据的维度。进一步地获取第二数据的维度,在第二数据的维度为目标维度时则确定第二数据为需要从目标数据中提取的数据。在本实施例中在确定第一目标数据的维度大于目标维度时,进一步地将目标数据降维,以获取到更低维度的数据,提高从目标数据中提取数据的准确性。
所述从所述目标数据中提取第二目标数据,所述第二目标数据基于所述第二模型提取出的与所述第二目标已标记数据类型匹配的数据的步骤之后,包括:
当所述第二目标数据的维度大于目标维度时,至少执行1次以下步骤1-5,直至获取到维度为目标维度的第N目标数据:
步骤1,利用自编码器对第N-1目标数据进行无监督学习,得到第N目标模型,所述第N目标模型的维度低于第N-1目标模型的维度;
步骤2,将第N-1目标已标记数据作为第N目标已标记数据;
步骤3,基于所述第N目标模型确定第N目标已标记数据的类型;
步骤4,从所述第N-1目标数据中提取第N目标数据,所述第N目标数据基于所述第N模型提取出的与所述第N-1目标已标记数据类型匹配的数据;
步骤5,获取所述第N目标数据的维度,在所述第N数据的维度为目标维度时,确定所述第N目标数据为需要提取的数据。
在本申请中,当第二目标数据的维度大于目标维度时,进一步执行上述中将目标数据利用自编码器进行无监督学习等步骤,直至获取到数据的维度为N的目标数据,其中,大于2的N为正整数。
在本实施例中,当第二目标数据的维度大于目标维度时,进一步地对目标数据进行降维处理,直至获取到维度等于目标维度的数据,将所述数据确定为需要从目标数据中提取的数据。
在本实施例中,在第N-1目标数据的维度大于目标维度时,则需要再次执行将目标数据利用自编码器进行学习,直至获取到数据的维度满足目标维度的第N目标数据。通过链式循环的方法得到从存在大量无标记数据的目标数据中提取出符合要求的数据,提高了提取的数据的正确性。
基于上一实施例,本申请提出又一实施例。所述利用自编码器对目标数据进行无监督学习,得到目标模型的步骤,包括:
步骤S11,获取目标数据的维度,利用自编码器神经网络,以所述维度作为输入和输出的节点个数,设置中间节点数小于输入或输出节点个数,得到自编码器模型;
步骤S12,将所述目标数据代入所述自编码器模型进行训练,得到所述第一目标模型。
在获取目标数据的维度,利用自编码器,以输入的目标数据的维度作为输入和输出的节点个数,设置中间节点数小于输入或者输出节点个数,得到自编码器模型,将所述目标数据代入所述自编码器模型进行训练,得到所述第一目标模型。可以理解的是,在本实施例中所有的目标模型都是通过以此方法实现。在本实施例中自编码器对目标数据实现了降维,提高了从目标数据中提取数据的准确性。
所述将所述目标数据代入所述自编码器模型进行训练,得到所述目标模型的步骤,包括:
步骤S121,根据所述目标数据的特性设定目标损失函数;
步骤S122,根据所述目标损失函数得到所述第一目标模型。
在本实施例中,在对目标数据进行降维时,获取目标数据的特性,所述特性即为目标数据的特征,进而选择与目标数据的特性匹配的目标损失函数,进而在输入目标数据的维度后根据设定的目标损失函数得到第一目标模型。通过特定的目标模型进行数据提取,提高了数据的准确性。
参照图4,图4为本申请数据提取方法实施步骤的流程示意图,本发明的具体实施过程如下:
步骤S1,在数据集{x1,x2,...,xn-1,xn},xi:具有m维特征的数据,提取已知的1条或者多条作为需要筛选出同类型的数据的参考数据{x′1,x'2,...};
步骤S2,利用自编码器,每次筛选都以m维特征数作为输入、输出节点个数,中间隐含层可以采用单层或多层网络,中间层节点维度m1小于m,形成自编码器模型encoder+decoder;
步骤S3,以xi同时作为输入、输出值,对自编码器模型encoder+decoder进行训练,根据数据特性设定一定的损失函数,如交叉熵损失、均方差损失等。训练完成形成model1,model1中包含encoder1+decoder1;
步骤S4,以参考数据{x′1,x'2,...}作为输入,通过encoder1,确定参考数据的类别C1';
步骤S5,将{x1,x2,...,xn-1,xn}作为输入,通过encoder1,筛选出类别为C1'的数据作为新的数据集{x11,x21,...,xn1-1,xn1},n1<n;
步骤S6,以{x11,x21,...,xn1-1,xn1},{x′1,x'2,...}为基础数据,循环2-5步,在循环过程中,设置中间节点数目,中间节点的数目每一次循环都要比上次小(每次筛选数据时,会删除不匹配数据,降低中间节点的数目是为了进一步降低数据维度,便于进一步的精确筛选数据),即mk<...<m1<m。对数据{x11,x21,...,xn1-1,xn1}进行筛选,直至达到预设的门限或者数据无法降维为止,筛选出的第k次结果数据为{x1k,x2k,...,xnk-1,xnk}为最终与{x′1,x'2,...}同类型数据。
此外,本申请还提供一种数据提取系统,所述数据提取系统包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的数据提取程序,所述数据提取程序被所述处理器执行时实现如权利要求1-7任一项数据提取方法的步骤。
此外,本申请还提供一种数据提取设备,所述数据提取设备包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的数据提取程序,所述数据提取程序被所述处理器执行时实现如上任一项数据提取方法的步骤。
此外,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有项数据提取程序,所述项数据提取程序被处理器执行时实现如上中任一项数据提取的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第二等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括可选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (7)
1.一种数据提取方法,其特征在于,所述数据提取方法包括:
获取目标数据的维度,利用自编码器神经网络,以所述目标数据的维度作为输入和输出的节点个数,设置中间节点数小于输入或输出节点个数,得到自编码器模型,所述目标数据为图片数据;
将所述目标数据代入所述自编码器模型进行训练,得到第一目标模型,所述目标数据为需要通过运算以提取无标记数据的数据,所述目标数据包括已标记数据和无标记数据;
从所述目标数据中提取第一目标已标记数据,基于所述第一目标模型确定所述第一目标已标记数据的类型;
从所述目标数据中提取第一目标数据,所述第一目标数据为基于所述第一目标模型提取出的与所述第一目标已标记数据类型匹配的数据;
获取所述第一目标数据的维度,所述第一目标数据的维度为所述目标数据的特征;
当所述第一目标数据的维度为目标维度时,确定所述第一目标数据为需要提取的数据;
当所述第一目标数据的维度大于所述目标维度时,利用所述自编码器对所述第一目标数据进行无监督学习,得到第二目标模型,所述第二目标模型的维度低于第一目标模型的维度;
将所述第一目标已标记数据作为第二目标已标记数据;
基于所述第二目标模型确定所述第二目标已标记数据的类型;
从所述第一目标数据中提取第二目标数据,所述第二目标数据基于所述第二目标模型提取出的与所述第二目标已标记数据类型匹配的数据;
当所述第二目标数据的维度为目标维度时,确定所述第二目标数据为需要提取的数据。
2.如权利要求1所述的数据提取方法,其特征在于,所述从所述第一目标数据中提取第二目标数据的步骤之后,包括:
当所述第二目标数据的维度大于目标维度时,至少执行1次以下步骤1-5,直至获取到维度为目标维度的第N目标数据:
步骤1,利用自编码器对第N-1目标数据进行无监督学习,得到第N目标模型,所述第N目标模型的维度低于第N-1目标模型的维度;
步骤2,将第N-1目标已标记数据作为第N目标已标记数据;
步骤3,基于所述第N目标模型确定第N目标已标记数据的类型;
步骤4,从所述第N-1目标数据中提取第N目标数据,所述第N目标数据基于所述第N目标模型提取出的与所述第N-1目标已标记数据类型匹配的数据;
步骤5,获取所述第N目标数据的维度,在所述第N数据的维度为目标维度时,确定所述第N目标数据为需要提取的数据。
3.如权利要求2所述的数据提取方法,其特征在于,所述将所述目标数据代入所述自编码器模型进行训练,得到所述目标模型的步骤,包括:
根据所述目标数据的特性设定目标损失函数;
根据所述目标损失函数得到所述第一目标模型。
4.如权利要求1所述的数据提取方法,其特征在于,所述从所述目标数据中提取第一目标已标记数据的步骤,包括:
从所述目标数据中提取符合目标类型提取结果的已标记数据作为所述第一目标已标记数据。
5.一种数据提取系统,其特征在于,所述数据提取系统包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的数据提取程序,所述数据提取程序被所述处理器执行时实现如权利要求1-4任一项数据提取方法的步骤。
6.一种数据提取设备,其特征在于,所述数据提取设备包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的数据提取程序,所述数据提取程序被所述处理器执行时实现如权利要求1-4任一项数据提取方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有项数据提取程序,所述项数据提取程序被处理器执行时实现如权利要求1至4中任一项数据提取的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011352961.0A CN112417249B (zh) | 2020-11-25 | 2020-11-25 | 数据提取方法、系统、设备以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011352961.0A CN112417249B (zh) | 2020-11-25 | 2020-11-25 | 数据提取方法、系统、设备以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417249A CN112417249A (zh) | 2021-02-26 |
CN112417249B true CN112417249B (zh) | 2024-06-25 |
Family
ID=74842587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011352961.0A Active CN112417249B (zh) | 2020-11-25 | 2020-11-25 | 数据提取方法、系统、设备以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417249B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709482A (zh) * | 2017-03-17 | 2017-05-24 | 中国人民解放军国防科学技术大学 | 基于自编码器的人物亲缘关系识别方法 |
CN107402947A (zh) * | 2017-03-29 | 2017-11-28 | 北京粉笔未来科技有限公司 | 图片检索模型建立方法和装置、图片检索方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009174B (zh) * | 2018-12-13 | 2020-11-06 | 创新先进技术有限公司 | 风险识别模型训练方法、装置及服务器 |
US11426255B2 (en) * | 2019-02-21 | 2022-08-30 | Theator inc. | Complexity analysis and cataloging of surgical footage |
CN110428058B (zh) * | 2019-08-08 | 2024-04-26 | 深圳前海微众银行股份有限公司 | 联邦学习模型训练方法、装置、终端设备及存储介质 |
CN111047048B (zh) * | 2019-11-22 | 2023-04-07 | 支付宝(杭州)信息技术有限公司 | 赋能模型训练及商户赋能方法、装置、电子设备 |
-
2020
- 2020-11-25 CN CN202011352961.0A patent/CN112417249B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709482A (zh) * | 2017-03-17 | 2017-05-24 | 中国人民解放军国防科学技术大学 | 基于自编码器的人物亲缘关系识别方法 |
CN107402947A (zh) * | 2017-03-29 | 2017-11-28 | 北京粉笔未来科技有限公司 | 图片检索模型建立方法和装置、图片检索方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112417249A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6994588B2 (ja) | 顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 | |
CN108960409B (zh) | 标注数据生成方法、设备及计算机可读存储介质 | |
Liu et al. | Learning spatio-temporal representations for action recognition: A genetic programming approach | |
Shao et al. | Feature learning for image classification via multiobjective genetic programming | |
CN104182538B (zh) | 基于半监督哈希的图像检索方法 | |
CN111814620A (zh) | 人脸图像质量评价模型建立方法、优选方法、介质及装置 | |
CN111476138B (zh) | 建筑图纸构件识别模型构建方法、识别方法及相关设备 | |
CN111090768A (zh) | 一种基于深度卷积神经网络的相似图像检索系统和方法 | |
CN110751072B (zh) | 基于知识嵌入图卷积网络的双人交互识别方法 | |
CN110636445A (zh) | 基于wifi的室内定位方法、装置、设备及介质 | |
CN112529149B (zh) | 一种数据处理方法及相关装置 | |
Li et al. | Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes | |
CN116978011B (zh) | 一种用于智能目标识别的图像语义通信方法及系统 | |
CN111898704A (zh) | 对内容样本进行聚类的方法和装置 | |
CN117372782A (zh) | 一种基于频域分析的小样本图像分类方法 | |
CN114998583A (zh) | 图像处理方法、图像处理装置、设备及存储介质 | |
CN117037258B (zh) | 面部图像的检测方法、装置、存储介质及电子设备 | |
CN112417249B (zh) | 数据提取方法、系统、设备以及计算机可读存储介质 | |
CN117437577A (zh) | 基于多特征融合的视频分类方法及系统 | |
CN111709473A (zh) | 对象特征的聚类方法及装置 | |
CN115546554A (zh) | 敏感图像的识别方法、装置、设备和计算机可读存储介质 | |
CN116091763A (zh) | 苹果叶部病害图像语义分割系统及分割方法、设备和介质 | |
CN115147894A (zh) | 图像处理方法、装置、电子设备及介质 | |
WO2020241208A1 (ja) | 検索装置、制御方法、及びプログラム | |
Uddin | A robust daily human activity recognition and prediction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |