CN117271491A - 用户数据清洗方法、装置、智能设备和存储介质 - Google Patents
用户数据清洗方法、装置、智能设备和存储介质 Download PDFInfo
- Publication number
- CN117271491A CN117271491A CN202311255097.6A CN202311255097A CN117271491A CN 117271491 A CN117271491 A CN 117271491A CN 202311255097 A CN202311255097 A CN 202311255097A CN 117271491 A CN117271491 A CN 117271491A
- Authority
- CN
- China
- Prior art keywords
- user data
- data
- database
- cloud platform
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000010801 machine learning Methods 0.000 claims abstract description 47
- 238000007405 data analysis Methods 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims abstract description 15
- 230000005540 biological transmission Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 43
- 238000011176 pooling Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 14
- 238000004458 analytical method Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 241001178520 Stomatepia mongo Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Fuzzy Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,提供涉及一种用户数据清洗方法、装置、智能设备和存储介质。智能设备与云平台通信连接并且云平台的数据库中存储有用户数据;智能设备通过加密访问云平台的数据库,并获取该数据库中的用户数据得到原始用户数据;然后对原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;接着利用预训练的机器学习模型对待清洗用户数据进行识别和清洗获得干净用户数据;最后将干净用户数据进行存储,以便基于干净用户数据进行数据分析。通过加密访问数据库直接获取用户数据,并采用机器学习模型对用户数据进行清洗,从而保证了数据传输的保密性,提高了用户数据的处理效率,并为业务分析提供了数据支持。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种用户数据清洗方法、装置、智能设备和存储介质。
背景技术
在当前数字化时代,云计算技术得到广泛应用,越来越多的企业和个人将数据存储在云平台上。这些数据包含了大量有价值的信息,可用于用户画像分析、市场趋势研究、个性化推荐等领域,因此对云平台的用户数据进行提取和清洗变得至关重要。
目前通常采用爬虫访问的方式来对云平台管理的用户数据进行提取。但是这种方式只能通过模拟请求去爬取云平台的用户数据,爬取的速度慢、效率低,并且只能爬取前端所存在的数据,也不能在数据挖掘的过程中进行数据清洗。
发明内容
有鉴于此,本发明的目的在于提供一种用户数据清洗方法、装置、智能设备和存储介质。
为了实现上述目的,本发明采用的技术方案如下:
第一方面,本发明提供一种用户数据清洗方法,应用于智能设备,所述智能设备与云平台通信连接,所述云平台的数据库中存储有用户数据,所述用户数据清洗方法包括:
通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据;
对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;
利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;
将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析。
在可选的实施方式中,所述通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据的步骤,包括:
向所述云平台发送携带有私用密钥的数据库访问请求,以使所述云平台将所述数据库访问请求中的私用密钥与自身的公用密钥进行匹配,并在匹配成功的情况下向所述智能设备发放数据库访问权限;
基于所述数据库访问权限访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据。
在可选的实施方式中,所述原始用户数据包括多个用户的业务数据,所述业务数据包括多个业务字段对应的字段值;
所述对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库的步骤,包括:
对于每个业务数据,从所述业务数据中提取预设的多个目标业务字段对应的字段值获得第一业务数据,得到每个第一业务数据;
对每个第一业务数据的数据类型进行调整,获得与所述中间数据库的数据格式匹配的每个中间业务数据得到所述待清洗用户数据,并将所述待清洗用户数据存储到所述中间数据库。
在可选的实施方式中,所述待清洗用户数据包括多个中间业务数据;所述机器学习模型包括词嵌入层、卷积层、池化层和全连接层,所述卷积层包括多个不同大小的卷积核;
所述利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据的步骤,包括:
将任意一个中间业务数据作为待处理业务数据;
利用所述词嵌入层对所述待处理业务数据进行编码获得初始向量;
利用所述卷积层中的每个卷积核对所述初始向量进行卷积操作,获得每个所述卷积核对应的特征向量;
利用所述池化层对每个特征向量进行池化操作,并将池化后的特征向量进行拼接获得关键特征向量;
利用所述全连接层对所述关键特征向量进行识别,获得所述待处理业务数据的类别;
遍历每个中间业务数据,得到每个中间业务数据的类别,所述类别为无效或者有效;
从所述待清洗用户数据中选取所述类别为有效的每个中间业务数据,获得每个有效业务数据得到所述干净用户数据。
在可选的实施方式中,所述智能设备还与服务器通信连接,所述干净用户数据包括多个有效业务数据;
所述将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析的步骤,包括:
对每个有效业务数据的数据类型进行调整,获得与所述服务器的数据库的数据格式匹配的每个第二业务数据得到目标用户数据;
通过加密传输协议将所述目标用户数据发送给所述服务器,以使所述服务器将所述目标用户数据存储到自身的数据库并进行数据分析。
在可选的实施方式中,所述机器学习模型是按照以下方式得到的:
获取多个业务数据样本,所述业务数据包含多个目标业务字段对应的字段值样本;
利用基础机器学习模型对每个业务数据样本进行识别,获得每个业务数据样本的类别;
基于每个业务数据样本的类别对所述基础机器学习模型进行训练,获得所述机器学习模型。
第二方面,本发明提供一种用户数据清洗装置,应用于智能设备,所述智能设备与云平台通信连接,所述云平台的数据库中存储有用户数据,所述用户数据清洗装置,包括:
获取模块,用于通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据;
清洗模块,用于对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;
利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;
存储模块,用于将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析。
在可选的实施方式中,所述获取模块还用于:
向所述云平台发送携带有私用密钥的数据库访问请求,以使所述云平台将所述数据库访问请求中的私用密钥与自身的公用密钥进行匹配,并在匹配成功的情况下向所述智能设备发放数据库访问权限;
基于所述数据库访问权限访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据。
第三方面,本发明提供一种智能设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现前述实施方式中任一项所述的用户数据清洗方法。
第四方面,本发明提供一种存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现前述实施方式中任一项所述的用户数据清洗方法。
本发明提供的用户数据清洗方法、装置、智能设备和存储介质,智能设备与云平台通信连接并且云平台的数据库中存储有用户数据;智能设备通过加密访问云平台的数据库,并获取云平台的数据库中的用户数据得到原始用户数据;然后对原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;接着利用预训练的机器学习模型对中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;最后将干净用户数据进行存储,以便基于干净用户数据进行数据分析。通过加密访问数据库直接获取用户数据,并采用机器学习模型对用户数据进行清洗,从而保证了数据传输的保密性,并提高了用户数据的处理效率以及数据的准确性和可信度,还能够实时快速地为业务分析提供数据支持。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种场景示意图;
图2示出了本发明实施例提供的智能设备的方框示意图;
图3示出了本发明实施例提供的用户数据清洗方法的一种流程示意图;
图4示出了本发明实施例提供的用户数据清洗方法的又一种流程示意图;
图5示出了本发明实施例提供的用户数据清洗装置的功能模块图。
图标:120-处理器;130-存储器;170-通信接口;-用户数据清洗装置;310-获取模块;330-清洗模块;350-存储模块;370-训练模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在当前数字化时代,云计算技术得到广泛应用,越来越多的企业和个人将数据存储在云平台上。这些数据包含了大量有价值的信息,可用于用户画像分析、市场趋势研究、个性化推荐等领域,因此对云平台的用户数据进行提取和清洗变得至关重要。然而,由于云平台上的用户数据呈现多样性、复杂性和高维度特征,直接使用这些原始数据进行分析和应用往往面临诸多挑战。这些挑战包括但不限于以下几个方面:
(1)数据来源多样性:云平台上的数据来自不同行业、领域和应用,格式和结构各异。(2)数据质量不一:由于数据来源的差异和传输过程中可能出现的干扰,云平台的用户数据常常伴随着缺失值、错误数据、重复数据等问题,这些不完整或者错误的数据可能导致分析结果的不准确。(3)数据隐私和安全:用户对于自身数据的隐私保护越来越重视,因此在数据提取和清洗过程中必须确保严格的数据安全措施,防止数据泄露和滥用。(4)大数据处理:云平台上的用户数据往往规模庞大,对于数据的提取和清洗需要具备较高的计算能力和存储资源。
目前通常采用爬虫访问的方式来对云平台管理的用户数据进行提取。但是这种方式只能通过模拟请求去爬取云平台的用户数据,爬取的速度慢、效率低,并且只能爬取前端所存在的数据,也不能在数据挖掘的过程中进行数据清洗。由此,本发明实施例提供了一种用户数据清洗方法以解决上述问题。
请参照图1,是本发明实施例提供的一种场景示意图,其包括通信连接的智能设备和云平台,并且云平台的数据库中存储有用户数据。
请参阅图2,是本发明实施例提供的智能设备的方框示意图。该智能设备包括处理器120、存储器130以及通信接口170。
处理器120、存储器130以及通信接口170各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
处理器120可以是一种集成电路芯片,具有信号的处理能力,其可以是通用处理器,如中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器130可以是随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
通信接口170可以用于与其他设备进行信令或数据的通信。
可以理解的是,图2所示的结构仅为智能设备的结构示意图,智能设备还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
下面将以上述的智能设备作为执行主体,执行本发明实施例提供的各个方法中的各个步骤,并实现对应技术效果。
请参阅图3,图3是本发明实施例提供的用户数据清洗方法的一种流程示意图。
步骤S202,通过加密访问云平台的数据库,并获取云平台的数据库中的用户数据得到原始用户数据;
在本实施例中,云平台的数据库中存储有用户数据。为了能够提高用户数据清洗的效率,本发明实施例是通过直接访问云平台的数据库的方式来获取用户数据,并且为了避免用户数据泄露和滥用,以提高数据传输的保密性,本发明实施例中的智能设备通过加密访问云平台的数据库,并加密获取云平台的数据库中的用户数据,即得到原始用户数据。
步骤S204,对原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;
在本实施例中,可以按照业务分析需求对原始用户数据进行提取,以获得用于数据分析的关键用户数据,即得到待清洗用户数据,并且将待清洗存储到中间数据库。
可以理解的是,本发明实施例采用中间数据库来存储待清洗用户数据,不仅可以满足多种业务分析对源数据一致性的要求,并且还能够起到数据备份的效果可为多个数据分析平台提供基础数据,保证了业务分析的连贯性。
步骤S206,利用预训练的机器学习模型对中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;
步骤S208,将干净用户数据进行存储,以便基于干净用户数据进行数据分析;
在本实施例中,可以预先训练一个机器学习模型来对用户数据进行识别,然后利用该机器学习模型对中间数据库中的待清洗用户数据进行识别,并按照识别结果对待清洗用户数据进行清洗,以过滤掉不符合数据规范的脏数据即得到干净用户数据;再将干净用户数据进行存储,以便于后续可以基于干净用户数据进行数据分析。
可以理解的是,通过对用户数据进行清洗,可以处理用户数据中的缺失值、错误值和无效值等问题,从而可以提高数据的准确性和完整性。
可见基于上述步骤,智能设备与云平台通信连接并且云平台的数据库中存储有用户数据;智能设备通过加密访问云平台的数据库,并获取云平台的数据库中的用户数据得到原始用户数据;然后对原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;接着利用预训练的机器学习模型对中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;最后将干净用户数据进行存储,以便基于干净用户数据进行数据分析。通过加密访问数据库直接获取用户数据,并采用机器学习模型对用户数据进行清洗,从而保证了数据传输的保密性,并提高了用户数据的处理效率以及数据的准确性和可信度,还能够实时快速地为业务分析提供数据支持。
可选地,对于步骤S202,本发明实施例提供了一种可能的实现方式。
步骤S202-1,向云平台发送携带有私用密钥的数据库访问请求,以使云平台将数据库访问请求中的私用密钥与自身的公用密钥进行匹配,并在匹配成功的情况下向智能设备发放数据库访问权限;
步骤S202-3,基于数据库访问权限访问云平台的数据库,并获取云平台的数据库中的用户数据得到原始用户数据。
在本实施例中,可以采用SSL(Secure Socket Layer,安全套接层)这种网络安全协议,来保证数据传输的保密性。云平台的数据库可以是Mongo数据库,也可以是其他的数据库,本发明实施例对此不作限定。为了便于理解,下面将以云平台的数据库是Mongo数据库为例进行说明。
可以预先在云平台安装SSL CA证书并配置相关信息,即设置公用密钥以及公用密钥与私用密钥的匹配关系。然后智能设备可以通过Mongo shell即与Mongo数据库交互的JavaScript接口,向云平台发送携带有私用密钥的数据库访问请求。
接着云平台接收该数据库访问请求,并将其携带的私用密钥与自身的公用密钥进行匹配,如果匹配失败,则向智能设备发送访问失败消息;如果匹配成功,则向智能设备发放数据库访问权限。那么智能设备就可以基于该数据库访问权限访问云平台的数据库并获取其中的用户数据,得到原始用户数据。
可选地,对于步骤S204,本发明实施例提供了一种可能的实现方式。
步骤S204-1,对于每个业务数据,从业务数据中提取预设的多个目标业务字段对应的字段值获得第一业务数据,得到每个第一业务数据;
步骤S204-3,对每个第一业务数据的数据类型进行调整,获得与中间数据库的数据格式匹配的每个中间业务数据得到待清洗用户数据,并将待清洗用户数据存储到中间数据库。
在本实施例中,原始用户数据包括多个用户的业务数据,并且每个业务数据均包括多个业务字段对应的字段值。可以理解的是,每个业务数据的处理方式类似,为了便于理解,下面将以一个业务数据为例进行说明。
可以按照业务要求预先设置业务分析所需的业务字段,即预先设定多个目标业务字段。然后从业务数据中提取这多个目标业务字段分别对应的字段值,即获得第一业务数据。按照类似的方式对每个业务数据进行处理,即可以得到每个第一业务数据。
由于第一业务数据的数据类型有可能不符合中间数据库的数据格式,那么可以对第一业务数据的数据类型进行调整,使其与中间数据库的数据格式匹配,如可以将原来的字符串类型调整为整数类型,即得到中间业务数据。按照类似的方式对每个第一业务数据进行处理,可以获得每个中间业务数据,即得到待清洗用户数据。
再将待清洗用户数据存储到中间数据库,如可以在中间数据库中创建数据表并在该数据表中设置这多个目标业务字段以及将每个中间业务数据写入该数据表中。
可选地,对于步骤S206,本发明实施例提供了一种可能的实现方式。
步骤S206-1,将任意一个中间业务数据作为待处理业务数据;
步骤S206-3,利用词嵌入层对待处理业务数据进行编码获得初始向量;
步骤S206-5,利用卷积层中的每个卷积核对初始向量进行卷积操作,获得每个卷积核对应的特征向量;
步骤S206-7,利用池化层对每个特征向量进行池化操作,并将池化后的特征向量进行拼接获得关键特征向量;
步骤S206-9,利用全连接层对关键特征向量进行识别,获得待处理业务数据的类别;
步骤S206-11,遍历每个中间业务数据,得到每个中间业务数据的类别,类别为无效或者有效;
步骤S206-13,从待清洗用户数据中选取类别为有效的每个中间业务数据,获得每个有效业务数据得到干净用户数据。
在本实施例中,待清洗用户数据包括多个中间业务数据。机器学习模型包括词嵌入层、卷积层、池化层和全连接层,并且卷积层包括多个不同大小的卷积核。可以理解的是,对每个中间业务数据处理的方式类似,下面将以一个中间业务数据作为待处理业务数据为例进行说明。
首先将待处理业务数据输入机器学习模型的词嵌入层,利用该词嵌入层对待处理业务数据进行编码以将其映射到一个低维空间,获得初始向量。然后利用卷积层中不同大小的卷积核对初始向量进行卷积操作,如可以采用卷积核大小分别为3、4和5的三个卷积核对初始向量进行卷积操作,得到每个卷积核对应的特征向量,以捕获需要的关键词的语义信息。
接着利用池化层对每个特征向量进行最大池化操作,并将这些池化后的特征向量进行拼接,获得关键特征向量,即捕获关键词中最明显的特征。最后利用全连接层获取关键特征向量中的最大特征并对其进行识别,得到待处理业务数据的类别。按照类似的方式对每个中间业务数据进行处理,即可得到每个中间业务数据的类别。
可以理解的是,本发明实施例是将中间业务数据转换为文本格式后,输入到机器学习模型中进行处理。该机器学习模型是通过捕捉文本中的局部特征,并对关键特征进行组合和筛选,以获得不同抽象层次的语义信息。
中间业务数据的类别为无效或者有效。如果中间业务数据的类别是无效,则说明该中间业务数据不符合数据规范即为脏数据;如果中间业务数据的类别是有效,则说明该中间业务数据符号数据规范即为有效业务数据。
基于每个中间业务数据的类别,从待清洗用户数据中选取类别为有效的每个中间业务数据获得每个有效业务数据,以过滤掉类别为无效的每个脏数据即得到干净用户数据。
可选地,对于步骤S208,本发明实施例提供了一种可能的实现方式。
步骤S208-1,对每个有效业务数据的数据类型进行调整,获得与服务器的数据库的数据格式匹配的每个第二业务数据得到目标用户数据;
步骤S208-3,通过加密传输协议将目标用户数据发送给服务器,以使服务器将目标用户数据存储到自身的数据库并进行数据分析。
在本实施例中,干净用户数据包括多个有效业务数据。智能设备还与服务器通信连接,其可以将干净用户数据存储到该服务器的数据库,以便于该服务器对干净用户数据进行数据分析,或者其他数据分析平台通过与该服务器进行交互以获取干净用户数据进行数据分析。
为了保证干净用户数据能够成功存储到服务器的数据库中,可以先对每个有效业务数据的数据类型进行调整,使其与服务器的数据库的数据格式匹配,即得到包含每个调整后的有效业务数据的目标用户数据。
然后通过加密传输协议如TLS(Transport Layer Security,安全传输层协议),将目标用户数据发送给服务器,以确保数据传输的保密性。服务器将接收到的目标用户数据存储到自身的数据库中并可以基于目标用户数据进行数据分析。
可选地,对于上述机器学习模型,本发明实施例提供了一种获得该机器学习模型的实现方式,请参阅图4。
步骤S212,获取多个业务数据样本,业务数据包含多个目标业务字段对应的字段值样本;
步骤S214,利用基础机器学习模型对每个业务数据样本进行识别,获得每个业务数据样本的类别;
步骤S216,基于每个业务数据样本的类别对基础机器学习模型进行训练,获得机器学习模型。
可以理解的是,机器学习模型可以是通过Tensorflow搭建的TextCNN模型,并且机器学习模型与基础机器学习模型的网络结构相同,两者的模型参数存在差异。
在本实施例中,可以先获取多个历史业务数据,并对每个历史业务数据进行预处理如分词、去标点或者去掉一些无意义的符号等,即得到每个业务数据样本,并且每个业务数据样本均包括多个目标业务字段对应的字段值样本。
然后将每个业务数据样本输入到基础机器学习模型中,并利用基础机器学习模型对每个业务数据样本进行识别,获得每个业务数据样本的类别。再基于每个业务数据样本的类别对基础机器学习模型进行训练,即获得机器学习模型。
可以理解的是,基础机器学习模型中的词嵌入层用于将业务数据样本编码为向量。为了提高模型训练的效率,可以预先建立一个词向量库,该词向量库中包括多个词向量及其唯一索引号。可以利用该词向量库先将每个业务数据样本映射编码为向量,再将这些向量输入到基础机器学习模型中进行处理。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种用户数据清洗装置的实现方式。请参阅图5,图5为本发明实施例提供的用户数据清洗装置的功能模块图。需要说明的是,本实施例提供的用户数据清洗装置,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例未提及之处,可参考上述实施例中相应的内容。该用户数据清洗装置包括:
获取模块310,用于通过加密访问云平台的数据库,并获取云平台的数据库中的用户数据得到原始用户数据;
清洗模块330,用于对原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;
利用预训练的机器学习模型对中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;
存储模块350,用于将干净用户数据进行存储,以便基于干净用户数据进行数据分析。
可选地,获取模块310还用于:向云平台发送携带有私用密钥的数据库访问请求,以使云平台将数据库访问请求中的私用密钥与自身的公用密钥进行匹配,并在匹配成功的情况下向智能设备发放数据库访问权限;基于数据库访问权限访问云平台的数据库,并获取云平台的数据库中的用户数据得到原始用户数据。
可选地,清洗模块330还用于:对于每个业务数据,从业务数据中提取预设的多个目标业务字段对应的字段值获得第一业务数据,得到每个第一业务数据;对每个第一业务数据的数据类型进行调整,获得与中间数据库的数据格式匹配的每个中间业务数据得到待清洗用户数据,并将待清洗用户数据存储到中间数据库。
可选地,清洗模块330还用于:将任意一个中间业务数据作为待处理业务数据;利用词嵌入层对待处理业务数据进行编码获得初始向量;利用卷积层中的每个卷积核对初始向量进行卷积操作,获得每个卷积核对应的特征向量;利用池化层对每个特征向量进行池化操作,并将池化后的特征向量进行拼接获得关键特征向量;利用全连接层对关键特征向量进行识别,获得待处理业务数据的类别;遍历每个中间业务数据,得到每个中间业务数据的类别,类别为无效或者有效;从待清洗用户数据中选取类别为有效的每个中间业务数据,获得每个有效业务数据得到干净用户数据。
可选地,存储模块350还用于:对每个有效业务数据的数据类型进行调整,获得与服务器的数据库的数据格式匹配的每个第二业务数据得到目标用户数据;通过加密传输协议将目标用户数据发送给服务器,以使服务器将目标用户数据存储到自身的数据库并进行数据分析。
可选地,用户数据清洗装置还包括训练模块370,用于获取多个业务数据样本,业务数据包含多个目标业务字段对应的字段值样本;利用基础机器学习模型对每个业务数据样本进行识别,获得每个业务数据样本的类别;基于每个业务数据样本的类别对基础机器学习模型进行训练,获得机器学习模型。
本发明实施例还提供了一种智能设备,包括处理器和存储器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明实施例揭示的用户数据清洗方法。
本发明实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本发明实施例揭示的用户数据清洗方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户数据清洗方法,其特征在于,应用于智能设备,所述智能设备与云平台通信连接,所述云平台的数据库中存储有用户数据,所述用户数据清洗方法包括:
通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据;
对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;
利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;
将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析。
2.根据权利要求1所述的用户数据清洗方法,其特征在于,所述通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据的步骤,包括:
向所述云平台发送携带有私用密钥的数据库访问请求,以使所述云平台将所述数据库访问请求中的私用密钥与自身的公用密钥进行匹配,并在匹配成功的情况下向所述智能设备发放数据库访问权限;
基于所述数据库访问权限访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据。
3.根据权利要求1所述的用户数据清洗方法,其特征在于,所述原始用户数据包括多个用户的业务数据,所述业务数据包括多个业务字段对应的字段值;
所述对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库的步骤,包括:
对于每个业务数据,从所述业务数据中提取预设的多个目标业务字段对应的字段值获得第一业务数据,得到每个第一业务数据;
对每个第一业务数据的数据类型进行调整,获得与所述中间数据库的数据格式匹配的每个中间业务数据得到所述待清洗用户数据,并将所述待清洗用户数据存储到所述中间数据库。
4.根据权利要求1所述的用户数据清洗方法,其特征在于,所述待清洗用户数据包括多个中间业务数据;所述机器学习模型包括词嵌入层、卷积层、池化层和全连接层,所述卷积层包括多个不同大小的卷积核;
所述利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据的步骤,包括:
将任意一个中间业务数据作为待处理业务数据;
利用所述词嵌入层对所述待处理业务数据进行编码获得初始向量;
利用所述卷积层中的每个卷积核对所述初始向量进行卷积操作,获得每个所述卷积核对应的特征向量;
利用所述池化层对每个特征向量进行池化操作,并将池化后的特征向量进行拼接获得关键特征向量;
利用所述全连接层对所述关键特征向量进行识别,获得所述待处理业务数据的类别;
遍历每个中间业务数据,得到每个中间业务数据的类别,所述类别为无效或者有效;
从所述待清洗用户数据中选取所述类别为有效的每个中间业务数据,获得每个有效业务数据得到所述干净用户数据。
5.根据权利要求1所述的用户数据清洗方法,其特征在于,所述智能设备还与服务器通信连接,所述干净用户数据包括多个有效业务数据;
所述将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析的步骤,包括:
对每个有效业务数据的数据类型进行调整,获得与所述服务器的数据库的数据格式匹配的每个第二业务数据得到目标用户数据;
通过加密传输协议将所述目标用户数据发送给所述服务器,以使所述服务器将所述目标用户数据存储到自身的数据库并进行数据分析。
6.根据权利要求1所述的用户数据清洗方法,其特征在于,所述机器学习模型是按照以下方式得到的:
获取多个业务数据样本,所述业务数据包含多个目标业务字段对应的字段值样本;
利用基础机器学习模型对每个业务数据样本进行识别,获得每个业务数据样本的类别;
基于每个业务数据样本的类别对所述基础机器学习模型进行训练,获得所述机器学习模型。
7.一种用户数据清洗装置,其特征在于,应用于智能设备,所述智能设备与云平台通信连接,所述云平台的数据库中存储有用户数据,所述用户数据清洗装置,包括:
获取模块,用于通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据;
清洗模块,用于对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;
利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;
存储模块,用于将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析。
8.根据权利要求7所述的用户数据清洗装置,其特征在于,所述获取模块还用于:
向所述云平台发送携带有私用密钥的数据库访问请求,以使所述云平台将所述数据库访问请求中的私用密钥与自身的公用密钥进行匹配,并在匹配成功的情况下向所述智能设备发放数据库访问权限;
基于所述数据库访问权限访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据。
9.一种智能设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至6中任一项所述的用户数据清洗方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现权利要求1至6中任一项所述的用户数据清洗方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311255097.6A CN117271491A (zh) | 2023-09-26 | 2023-09-26 | 用户数据清洗方法、装置、智能设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311255097.6A CN117271491A (zh) | 2023-09-26 | 2023-09-26 | 用户数据清洗方法、装置、智能设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117271491A true CN117271491A (zh) | 2023-12-22 |
Family
ID=89210105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311255097.6A Pending CN117271491A (zh) | 2023-09-26 | 2023-09-26 | 用户数据清洗方法、装置、智能设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271491A (zh) |
-
2023
- 2023-09-26 CN CN202311255097.6A patent/CN117271491A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023065632A1 (zh) | 数据脱敏方法、数据脱敏装置、设备及存储介质 | |
WO2018208451A1 (en) | Real time detection of cyber threats using behavioral analytics | |
US11599667B1 (en) | Efficient statistical techniques for detecting sensitive data | |
CN106599160B (zh) | 一种内容规则库管理系统及其编码方法 | |
CN114218322B (zh) | 基于密文传输的数据展示方法、装置、设备及介质 | |
Queiroz et al. | Eavesdropping hackers: Detecting software vulnerability communication on social media using text mining | |
CN113946871A (zh) | 隐私保护数据记录集成方法、系统和计算机可读存储介质 | |
CN111177421A (zh) | 一种面向数字人文的电子邮件历史事件轴生成方法及装置 | |
CN113965377A (zh) | 一种攻击行为检测方法及装置 | |
Luz et al. | Data preprocessing and feature extraction for phishing URL detection | |
CN117097571A (zh) | 一种网络传输敏感数据的检测方法、系统、装置及介质 | |
CN117611285A (zh) | 一种基于多平台的保险产品推荐方法、装置、设备及介质 | |
CN116070248B (zh) | 一种用于保证电力数据安全的数据处理系统及方法 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
Tereshchenko et al. | Features of applying pretrained convolutional neural networks to graphic image steganalysis | |
CN117271491A (zh) | 用户数据清洗方法、装置、智能设备和存储介质 | |
CN116561298A (zh) | 基于人工智能的标题生成方法、装置、设备及存储介质 | |
Alsaedi et al. | Multi-Modal Features Representation-Based Convolutional Neural Network Model for Malicious Website Detection | |
Li et al. | Perceptual image hash function via associative memory‐based self‐correcting | |
Liu et al. | Subverting privacy-preserving gans: Hiding secrets in sanitized images | |
CN112950222A (zh) | 资源处理异常检测方法、装置、电子设备及存储介质 | |
CN113407505A (zh) | 一种安全日志要素处理方法及系统 | |
CN110650110B (zh) | 一种登录页面识别方法及相关设备 | |
CN115134095A (zh) | 僵尸网络控制端检测方法及装置、存储介质、电子设备 | |
CN118014011B (zh) | 大语言模型训练及训练数据构建方法、装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |