CN117390494A - 用户数据的分类处理方法、装置、设备和存储介质 - Google Patents
用户数据的分类处理方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN117390494A CN117390494A CN202311439814.0A CN202311439814A CN117390494A CN 117390494 A CN117390494 A CN 117390494A CN 202311439814 A CN202311439814 A CN 202311439814A CN 117390494 A CN117390494 A CN 117390494A
- Authority
- CN
- China
- Prior art keywords
- data
- user data
- training
- sequence
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000012549 training Methods 0.000 claims abstract description 155
- 238000012545 processing Methods 0.000 claims abstract description 47
- 238000013145 classification model Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 23
- 238000003672 processing method Methods 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims description 74
- 238000013507 mapping Methods 0.000 claims description 35
- 238000013480 data collection Methods 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012913 prioritisation Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用户数据的分类处理方法,包括:获取多个训练用户数据序列;将训练用户数据序列输入至无监督学习模型中进行训练;依序将所述训练用户数据序列中的一个用户数据进行隐藏之后,输入至全连接层中进行处理得到对应的特征向量,输入至分类层进行分类预测,得到预测结果;调整隐藏层、全连接层以及分类层的模型参数,使得同一个训练用户数据序列,隐藏一个用户数据之后得到的预测结果相同;迭代训练无监督学习模型,得到用户数据分类模型;获取待处理的用户数据序列,将用户数据序列输入到所述用户数据分类模型中,以进行数据的分类处理。本发明中,通过基于训练数据进行无监督学习,无需进行数据标注,降低人工标注数据的任务量。
Description
技术领域
本发明涉及数据处理的技术领域,特别涉及一种用户数据的分类处理方法、装置、设备和存储介质。
背景技术
在当今数字化、信息化的时代,海量用户数据成为了许多应用领域的重要资源。然而,处理和分类这些数据一直是一个具有挑战性的任务。用户数据中包含着关键的信息和模式,通过对其进行分类处理,可以发现隐藏在数据背后的规律,从而为决策制定、个性化推荐、广告投放等提供有力支持。
传统上,用户数据分类处理方法往往依赖于有监督学习技术,即通过预先标记好的数据进行训练。然而,这种方法需要大量手动标注的数据,并且对新数据的适应性较差,因为新数据的标记工作通常是耗时且昂贵的。这便使得目前的数据分类方式不仅不够准确,而且前期耗费人力。
发明内容
本发明的主要目的为提供一种用户数据的分类处理方法、装置、设备和存储介质,旨在解决目前需要手动标注大量数据进行训练的缺陷。
为实现上述目的,本发明提供了一种用户数据的分类处理方法,包括以下步骤:
获取训练数据;其中,所述训练数据包括多个训练用户数据序列,所述训练用户数据序列为训练用户的多个用户数据所组成的序列;
将所述训练用户数据序列输入至无监督学习模型中进行训练;其中,所述无监督学习模型包括隐藏层、全连接层以及分类层;
所述无监督学习模型在针对每一个训练用户数据序列的处理时,基于所述无监督学习模型的隐藏层依序将所述训练用户数据序列中的一个用户数据进行隐藏之后,输入至所述全连接层中进行处理得到对应的特征向量,将所述特征向量输入至分类层进行分类预测,得到训练用户数据序列的预测结果;
调整所述隐藏层、全连接层以及分类层的模型参数,使得针对同一个训练用户数据序列,隐藏一个用户数据之后预测得到的预测结果相同;
基于训练数据中的所有训练用户数据序列,迭代训练无监督学习模型,直至模型收敛得到用户数据分类模型;
获取待处理的用户数据序列,将用户数据序列输入到所述用户数据分类模型中,以进行数据的分类处理;其中,所述用户数据序列是用于记录用户数据的序列。
进一步地,所述获取待处理的用户数据序列的步骤之前,包括:
获取采集用户数据的设备的设备参数;其中,所述设备参数包括所述设备采集数据的标准信息以及所述设备的归属信息;
将所述采集数据的标准信息输入至文本检测脚本中,检测出所述采集数据的标准信息中各个标准所对应的数据标识;其中,所述数据标识为字符组合;
从数据库中获取一个通用转换表;其中,通用转换表中包括数据标识与数据类型的映射关系;
基于所述归属信息,对所述通用转换表进行修正,得到修正转换表;
基于所述修正转换表对所述数据标识进行转换,得到对应的目标数据类型,作为待采集用户数据的类型。
进一步地,所述基于所述归属信息,对所述通用转换表进行修正,得到修正转换表的步骤,包括:
根据所述归属信息,在数据库中匹配对应的数据优先序列;其中,数据库中存储有归属信息与数据优先序列的映射关系;所述数据优先序列中包括多个数据类型的优先排列顺序;
获取所述数据优先序列中排列在前四位的数据类型作为目标数据类型;
从所述通用转换表中剔除所有所述目标数据类型,并在所述通用转换表中留下四个空位;其中,所述通用转换表中的数据类型的个数为偶数;
将所述通用转换表中剩余的数据类型进行平移,以填充所述四个空位,并在所述通用转换表的数据类型所在列的最中间位置留下四个目标空位;
将所述目标数据类型依序填入所述四个目标空位中,以对所述通用转换表进行修正,得到所述修正转换表。
进一步地,所述获取待处理的用户数据序列的步骤,包括:
获取用户数据的多个数据采集设备的认证信息以及序号;其中,所述认证信息包括各个数据采集设备发送的认证字符码;
基于各个数据采集设备的序号的大小顺序,对所有数据采集设备进行排序,得到数据采集设备的排序;其中,所述排序按照序号从小到大排列;
基于所述数据采集设备的排序,将各个所述数据采集设备对应的认证字符码依序进行组合,得到字符码组合;
基于各个数据采集设备的序号,从数据库中确定出各个数据采集设备对应的密码生成规则;其中,所述密码生成规则包括密码中的字符数量、密码中的字符组合方式以及密码中的字符选取规则;
针对各个数据采集设备,基于对应的密码生成规则,从所述字符码组合中选取对应的字符进行组合,得到对应的加密密码,并将加密密码发送至对应的各个数据采集设备;
接收各个数据采集设备采集的用户数据,并按照所述数据采集设备的排序,对各个所述数据采集设备采集的用户数据进行排序并组合,得到所述用户数据序列;其中,各个数据采集设备采集用户数据之后,基于对应的加密密码对用户数据进行加密;所述用户数据序列中的各个用户数据基于对应的加密密码进行解密。
进一步地,所述针对各个数据采集设备,基于对应的密码生成规则,从所述字符码组合中选取对应的字符进行组合,得到对应的加密密码的步骤,包括:
依序针对所述数据采集设备的排序中的各个数据采集设备,基于对应的密码生成规则,从所述字符码组合中选取对应位置上的字符进行组合,得到对应的加密密码,并将所述字符码组合中对应位置上的字符删除。
进一步地,所述获取用户数据的多个数据采集设备的认证信息以及序号的步骤,包括:
获取用户数据的各个数据采集设备发送的认证数字串;其中各个数据采集设备发送的认证数字串互不相同;
获取数据采集设备的总数量,基于所述总数量对预设的映射表进行转换,得到转换映射表;其中,所述转换映射表中包括数字与字符的映射关系;
针对每个认证数字串,按照预设规则进行分隔,得到每个认证数字串对应的多个数字组合,将各个认证数字串对应的第一个数字组合作为对应数据采集设备的序号;
将各个认证数字串对应的多个数字组合中除第一个数字组合之外的所有数字组合依序基于所述转换映射表进行映射转换,得到对应的字符,并依序进行组合,得到各个数据设备对应的认证字符码。
本发明还提供了一种用户数据的分类处理装置,包括:
获取单元,用于获取训练数据;其中,所述训练数据包括多个训练用户数据序列,所述训练用户数据序列为训练用户的多个用户数据所组成的序列;
输入单元,用于将所述训练用户数据序列输入至无监督学习模型中进行训练;其中,所述无监督学习模型包括隐藏层、全连接层以及分类层;
隐藏单元,用于所述无监督学习模型在针对每一个训练用户数据序列的处理时,基于所述无监督学习模型的隐藏层依序将所述训练用户数据序列中的一个用户数据进行隐藏之后,输入至所述全连接层中进行处理得到对应的特征向量,将所述特征向量输入至分类层进行分类预测,得到训练用户数据序列的预测结果;
调整单元,用于调整所述隐藏层、全连接层以及分类层的模型参数,使得针对同一个训练用户数据序列,隐藏一个用户数据之后预测得到的预测结果相同;
训练单元,用于基于训练数据中的所有训练用户数据序列,迭代训练无监督学习模型,直至模型收敛得到用户数据分类模型;
分类单元,用于获取待处理的用户数据序列,将用户数据序列输入到所述用户数据分类模型中,以进行数据的分类处理;其中,所述用户数据序列是用于记录用户数据的序列。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明提供的用户数据的分类处理方法,包括:获取训练数据;其中,所述训练数据包括多个训练用户数据序列,所述训练用户数据序列为训练用户的多个用户数据所组成的序列;将所述训练用户数据序列输入至无监督学习模型中进行训练;其中,所述无监督学习模型包括隐藏层、全连接层以及分类层;所述无监督学习模型在针对每一个训练用户数据序列的处理时,基于所述无监督学习模型的隐藏层依序将所述训练用户数据序列中的一个用户数据进行隐藏之后,输入至所述全连接层中进行处理得到对应的特征向量,将所述特征向量输入至分类层进行分类预测,得到训练用户数据序列的预测结果;调整所述隐藏层、全连接层以及分类层的模型参数,使得针对同一个训练用户数据序列,隐藏一个用户数据之后预测得到的预测结果相同;基于训练数据中的所有训练用户数据序列,迭代训练无监督学习模型,直至模型收敛得到用户数据分类模型;获取待处理的用户数据序列,将用户数据序列输入到所述用户数据分类模型中,以进行数据的分类处理;其中,所述用户数据序列是用于记录用户数据的序列。本发明中,通过基于训练数据进行无监督学习,无需进行数据标注,降低人工标注数据的任务量;同时基于无监督学习训练得到的用户数据分类模型适应性强,便于新的用户数据的分类处理,提升准确性。
附图说明
图1是本发明一实施例中用户数据的分类处理方法步骤示意图;
图2是本发明一实施例中用户数据的分类处理装置结构框图;
图3是本发明一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本发明一实施例中提供了一种用户数据的分类处理方法,包括以下步骤:
步骤S1,获取训练数据;其中,所述训练数据包括多个训练用户数据序列,所述训练用户数据序列为训练用户的多个用户数据所组成的序列;
步骤S2,将所述训练用户数据序列输入至无监督学习模型中进行训练;其中,所述无监督学习模型包括隐藏层、全连接层以及分类层;
步骤S3,所述无监督学习模型在针对每一个训练用户数据序列的处理时,基于所述无监督学习模型的隐藏层依序将所述训练用户数据序列中的一个用户数据进行隐藏之后,输入至所述全连接层中进行处理得到对应的特征向量,将所述特征向量输入至分类层进行分类预测,得到训练用户数据序列的预测结果;
步骤S4,调整所述隐藏层、全连接层以及分类层的模型参数,使得针对同一个训练用户数据序列,隐藏一个用户数据之后预测得到的预测结果相同;
步骤S5,基于训练数据中的所有训练用户数据序列,迭代训练无监督学习模型,直至模型收敛得到用户数据分类模型;
步骤S6,获取待处理的用户数据序列,将用户数据序列输入到所述用户数据分类模型中,以进行数据的分类处理;其中,所述用户数据序列是用于记录用户数据的序列。
在本实施例中,上述方案应用用户数据分类模型对用户数据进行分类处理,采用无监督学习的训练方式训练得到上述用户数据分类模型,无需进行数据标注,降低人工标注数据的任务量;同时基于无监督学习训练得到的用户数据分类模型适应性强,便于新的用户数据的分类处理,提升准确性。
如上述步骤S1所述的,需要收集训练数据,上述训练数据将用于训练用户数据分类模型。训练数据包括多个训练用户数据序列。每个训练用户数据序列由多个用户数据点组成,上述数据点可以是用户的行为记录、浏览历史、交易记录等。可以通过各种途径收集这些数据,如数据库查询、日志文件、传感器数据等。在收集训练数据时,应该确保数据的质量和完整性,以提高模型的准确性和鲁棒性。
如上述步骤S2所述的,将训练数据输入到无监督学习模型中进行训练。无监督学习模型包括隐藏层、全连接层和分类层。隐藏层是模型的核心组成部分,用于提取训练用户数据序列中的特征。全连接层用于处理隐藏层提取的特征,生成对应的特征向量。分类层用于将特征向量输入到分类器中进行分类预测。在训练过程中,模型通过优化算法不断调整模型参数,以减小预测结果与真实结果之间的差异,提高分类准确性。
如上述步骤S3所述的,无监督学习模型针对每个训练用户数据序列的处理过程如下:
隐藏层依序将训练用户数据序列中的一个用户数据进行隐藏处理。隐藏处理可以采用各种方法,如自动编码器、生成对抗网络等。通过隐藏一个用户数据,模型可以学习到该数据在序列中的重要性和对预测结果的影响。
将隐藏处理后的数据输入到全连接层中进行处理。全连接层通常由多个神经元组成,每个神经元具有一组权重和偏置,用于对输入进行线性转换和非线性激活。全连接层将隐藏层输出的数据映射到一个高维特征空间,并对特征进行更复杂的表达和提取。在全连接层中处理后,得到对应的特征向量。特征向量是一个高维向量,表示了用户数据在特征空间中的位置和特征重要性。
如上述步骤S4所述的,根据训练用户数据序列的预测结果,调整隐藏层、全连接层和分类层的模型参数,使得针对同一个训练用户数据序列,隐藏一个用户数据之后,基于其它用户数据进行预测得到的预测结果相同。即针对每个用户数据序列,每一次隐藏一个用户数据,将剩余用户数据进行预测,最终得到的所有预测结果都是相同的。通过上述迭代训练,模型逐渐学习到训练数据中的特征和模式,并不断提高分类准确性。上述过程通常需要进行多轮训练,直到模型收敛。
如上述步骤S5所述的,使用训练数据中的所有训练用户数据序列来迭代训练无监督学习模型。迭代训练是为了进一步提高模型的性能和准确性。在每一次迭代中,模型会使用一部分训练数据进行训练,并根据预测结果调整模型参数。通过多次迭代训练,模型会逐渐学习到更多的特征和模式,提高分类的准确性和泛化能力。通常,迭代次数和训练样本的选择会根据实际情况进行调整,以达到最佳的性能。
如上述步骤S6所述的,需要获取待处理的用户数据序列,以便进行数据分类处理。用户数据序列包含了记录用户数据的序列,可以是时间序列、日志数据、交易数据等。可以通过各种途径获取这些数据序列,如数据库查询、API调用、日志读取等。用户需要确保数据的格式和质量符合预期的要求,以获得准确的分类结果。
将待处理的用户数据序列输入到已训练好的用户数据分类模型中,以进行数据分类处理。模型会按照之前训练过程中学习到的特征和模式,对输入的数据序列进行分类预测。分类结果可以是一系列标签、类别或得分。上述结果可以用于后续的决策制定、个性化推荐、行为分析等任务。
在本实施例中,通过无监督学习模型将用户数据进行分类处理。该方法具有许多优点:首先,无需事先标记的数据,减少了数据准备的工作量;其次,该方法能够适应新数据,无需重新训练模型;此外,通过迭代训练,模型可以学习到更丰富的特征和模式,提高了分类准确性。用户数据分类模型在各种应用场景中具有广泛的应用潜力,如市场分析、个性化推荐、用户行为预测等。
在一实施例中,所述获取待处理的用户数据序列的步骤之前,包括:
获取采集用户数据的设备的设备参数;其中,所述设备参数包括所述设备采集数据的标准信息以及所述设备的归属信息;在本实施例中,需要获得用于采集用户数据的设备的设备参数。上述设备参数可以包括设备的型号、操作系统版本、采集数据的传感器类型和性能指标等信息。通过获取设备参数,可以更好地了解设备的能力和特性,有助于后续的数据采集和处理。上述设备的归属信息指的是设备所归属的管理用户(或者管理终端)。
将所述采集数据的标准信息输入至文本检测脚本中,检测出所述采集数据的标准信息中各个标准所对应的数据标识;其中,所述数据标识为字符组合;将采集的数据的标准信息输入到文本检测脚本中,以检测出各个标准所对应的数据标识。数据标识是对采集数据的描述,通常是由字符组合组成的唯一标识。通过文本检测脚本检测数据的标准信息,可以将数据标识与数据类型进行关联,以便后续的数据转换和处理。
从数据库中获取一个通用转换表;其中,通用转换表中包括数据标识与数据类型的映射关系;需要从数据库中获取一个通用转换表。通用转换表是一个包含数据标识与数据类型的映射关系的表格。通过查找数据标识在通用转换表中对应的数据类型,可以确定数据的类型,如文本、数字、日期等。然后,根据采集用户数据的设备的归属信息,对通用转换表进行修正,得到修正转换表。修正转换表主要是根据设备归属信息的特定要求对通用转换表进行修改或追加,以适应不同设备之间的数据标识和数据类型的差异。
基于所述归属信息,对所述通用转换表进行修正,得到修正转换表;使用修正转换表中的数据标识和数据类型的映射关系,对检测出的数据标识进行转换,得到对应的目标数据类型。通过将数据标识转换为目标数据类型,可以使数据在后续的处理过程中更加统一和易于处理。转换后的目标数据类型可以是字符串、整数、浮点数、日期等类型。上述修正转换表于归属信息相关联,具有独特性,增强了转换表在数据转换时的数据安全性。
基于所述修正转换表对所述数据标识进行转换,得到对应的目标数据类型,作为待采集用户数据的类型。将转换后的目标数据类型作为待采集用户数据的类型。通过将数据标识转换为目标数据类型,可以明确指定待采集用户数据的类型,以便在后续的采集和处理过程中进行统一的数据处理和分析。待采集用户数据的类型可以根据转换后的目标数据类型来确定,例如字符串、整数、浮点数、日期等。
在一实施例中,所述基于所述归属信息,对所述通用转换表进行修正,得到修正转换表的步骤,包括:
根据所述归属信息,在数据库中匹配对应的数据优先序列;其中,数据库中存储有归属信息与数据优先序列的映射关系;所述数据优先序列中包括多个数据类型的优先排列顺序;根据设备的归属信息,在数据库中查找匹配的数据优先序列。数据优先序列是指与设备归属信息相关联的优先排列顺序,其中包含多个数据类型。数据库中存储着归属信息与数据优先序列的映射关系,通过匹配归属信息,可以获取与该设备对应的数据优先序列。
获取所述数据优先序列中排列在前四位的数据类型作为目标数据类型;从数据优先序列中获取排列在前四位的数据类型作为目标数据类型。通常,数据优先序列是按照设备归属信息的特定要求进行排序的,前四位的数据类型是具有较高优先级的数据类型。
从所述通用转换表中剔除所有所述目标数据类型,并在所述通用转换表中留下四个空位;其中,所述通用转换表中的数据类型的个数为偶数;从通用转换表中剔除所有目标数据类型,并在通用转换表中留下四个空位。通用转换表中的数据类型的个数为偶数,通过剔除目标数据类型,并在剩余的数据类型中留下四个空位,为后续的修正转换表做准备。
将所述通用转换表中剩余的数据类型进行平移,以填充所述四个空位,并在所述通用转换表的数据类型所在列的最中间位置留下四个目标空位;将通用转换表中剩余的数据类型进行平移,以填充四个空位,并在数据类型所在列的最中间位置留下四个目标空位。通过平移和填充数据类型,可以为后续的修正转换表提供正确的位置。
将所述目标数据类型依序填入所述四个目标空位中,以对所述通用转换表进行修正,得到所述修正转换表。将目标数据类型依序填入四个目标空位中,以对通用转换表进行修正,得到修正转换表。通过填入目标数据类型,修正转换表可以保持目标数据类型的位置和顺序,以适应设备归属信息的特定要求。
在一实施例中,所述获取待处理的用户数据序列的步骤,包括:
获取用户数据的多个数据采集设备的认证信息以及序号;其中,所述认证信息包括各个数据采集设备发送的认证字符码;
基于各个数据采集设备的序号的大小顺序,对所有数据采集设备进行排序,得到数据采集设备的排序;其中,所述排序按照序号从小到大排列;
基于所述数据采集设备的排序,将各个所述数据采集设备对应的认证字符码依序进行组合,得到字符码组合;
基于各个数据采集设备的序号,从数据库中确定出各个数据采集设备对应的密码生成规则;其中,所述密码生成规则包括密码中的字符数量、密码中的字符组合方式以及密码中的字符选取规则;
针对各个数据采集设备,基于对应的密码生成规则,从所述字符码组合中选取对应的字符进行组合,得到对应的加密密码,并将加密密码发送至对应的各个数据采集设备;
接收各个数据采集设备采集的用户数据,并按照所述数据采集设备的排序,对各个所述数据采集设备采集的用户数据进行排序并组合,得到所述用户数据序列;其中,各个数据采集设备采集用户数据之后,基于对应的加密密码对用户数据进行加密;所述用户数据序列中的各个用户数据基于对应的加密密码进行解密。
在本实施例中,获取数据采集设备的认证信息和序号:此步骤涉及多个数据采集设备,每个设备都有一个认证信息和一个序号。认证信息是由各个数据采集设备发送的认证字符码组成,用于验证设备的身份。序号用于确定数据采集设备之间的大小顺序。
对数据采集设备进行排序:根据数据采集设备的序号,对所有设备进行排序。排序是根据序号从小到大排列设备,以确定其在处理过程中的顺序。
组合认证字符码:通过按照数据采集设备的排序,将每个设备对应的认证字符码依序组合在一起,形成一个字符码组合。其是为了后续步骤生成对应的加密密码。
确定密码生成规则:根据数据采集设备的序号,从数据库中确定每个设备对应的密码生成规则。上述规则包括密码中的字符数量、字符组合方式和字符选取规则等。上述规则将用于生成每个设备的加密密码。
生成加密密码并发送:针对每个数据采集设备,根据其对应的密码生成规则,从字符码组合中选取相应的字符进行组合,生成对应的加密密码。然后,将加密密码发送到对应的设备上。
接收和排序用户数据:接收各个数据采集设备采集的用户数据,并按照数据采集设备的排序对这些数据进行排序和组合,得到最终的用户数据序列。在采集用户数据后,根据对应的加密密码对数据进行加密。最终,用户数据序列中的数据基于对应的加密密码进行解密。
在本实施例中,生成各个加密密码的方式不同,且生成过程中需要综合所有数据采集设备发送的认证信息和序号,有益于提高加密密码的安全性。
在一实施例中,所述针对各个数据采集设备,基于对应的密码生成规则,从所述字符码组合中选取对应的字符进行组合,得到对应的加密密码的步骤,包括:
依序针对所述数据采集设备的排序中的各个数据采集设备,基于对应的密码生成规则,从所述字符码组合中选取对应位置上的字符进行组合,得到对应的加密密码,并将所述字符码组合中对应位置上的字符删除。通过上述删除操作,可以避免已被使用过的字符被重复使用。
在一实施例中,所述获取用户数据的多个数据采集设备的认证信息以及序号的步骤,包括:
获取用户数据的各个数据采集设备发送的认证数字串;其中各个数据采集设备发送的认证数字串互不相同;
获取数据采集设备的总数量,基于所述总数量对预设的映射表进行转换,得到转换映射表;其中,所述转换映射表中包括数字与字符的映射关系;
针对每个认证数字串,按照预设规则进行分隔,得到每个认证数字串对应的多个数字组合,将各个认证数字串对应的第一个数字组合作为对应数据采集设备的序号;
将各个认证数字串对应的多个数字组合中除第一个数字组合之外的所有数字组合依序基于所述转换映射表进行映射转换,得到对应的字符,并依序进行组合,得到各个数据设备对应的认证字符码。
在本实施例中,通过通信渠道接收各个数据采集设备发送的认证数字串。每个数据采集设备发送的认证数字串都是唯一的,没有相同的数字串。
获取设备总数量并进行映射表转换:确定数据采集设备的总数量,并将总数量与预设的映射表进行转换,得到一个转换映射表。上述映射表包含了数字与字符之间的映射关系。根据预设的规则,将每个认证数字串进行分隔,得到多个数字组合。然后,从每个数字组合中取第一个数字组合作为对应设备的序号。上述序号用于确定数据采集设备之间的顺序。
对于每个认证数字串中的其他数字组合,根据转换映射表将数字映射为对应的字符。然后,将这些字符依序组合在一起,生成每个数据设备对应的认证字符码。
在本实施例中,通过获取设备的认证数字串和序号,并结合映射表转换和字符组合的方式,实现了为每个数据采集设备生成唯一的认证字符码。通过拆分认证数字串并映射转换,可以保证每个数据设备得到不同的字符码,确保了认证字符码的唯一性。确保了数据采集设备之间的身份验证和排序准确性。通过确保各个数据设备的认证字符码唯一且按照预设规则进行映射转换,可以为后续步骤提供依据,确保数据处理过程中设备之间的协调和一致性。有助于提高数据处理的独特性、准确性和安全性,保护用户数据的完整性和隐私。
参照图2,本发明一实施例中还提供了一种用户数据的分类处理装置,包括:
获取单元,用于获取训练数据;其中,所述训练数据包括多个训练用户数据序列,所述训练用户数据序列为训练用户的多个用户数据所组成的序列;
输入单元,用于将所述训练用户数据序列输入至无监督学习模型中进行训练;其中,所述无监督学习模型包括隐藏层、全连接层以及分类层;
隐藏单元,用于所述无监督学习模型在针对每一个训练用户数据序列的处理时,基于所述无监督学习模型的隐藏层依序将所述训练用户数据序列中的一个用户数据进行隐藏之后,输入至所述全连接层中进行处理得到对应的特征向量,将所述特征向量输入至分类层进行分类预测,得到训练用户数据序列的预测结果;
调整单元,用于调整所述隐藏层、全连接层以及分类层的模型参数,使得针对同一个训练用户数据序列,隐藏一个用户数据之后预测得到的预测结果相同;
训练单元,用于基于训练数据中的所有训练用户数据序列,迭代训练无监督学习模型,直至模型收敛得到用户数据分类模型;
分类单元,用于获取待处理的用户数据序列,将用户数据序列输入到所述用户数据分类模型中,以进行数据的分类处理;其中,所述用户数据序列是用于记录用户数据的序列。
在本实施例中,上述装置实施例中的各个单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、显示屏、输入装置、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储本实施例中对应的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本发明实施例中提供的用户数据的分类处理方法,包括:获取训练数据;其中,所述训练数据包括多个训练用户数据序列,所述训练用户数据序列为训练用户的多个用户数据所组成的序列;将所述训练用户数据序列输入至无监督学习模型中进行训练;其中,所述无监督学习模型包括隐藏层、全连接层以及分类层;所述无监督学习模型在针对每一个训练用户数据序列的处理时,基于所述无监督学习模型的隐藏层依序将所述训练用户数据序列中的一个用户数据进行隐藏之后,输入至所述全连接层中进行处理得到对应的特征向量,将所述特征向量输入至分类层进行分类预测,得到训练用户数据序列的预测结果;调整所述隐藏层、全连接层以及分类层的模型参数,使得针对同一个训练用户数据序列,隐藏一个用户数据之后预测得到的预测结果相同;基于训练数据中的所有训练用户数据序列,迭代训练无监督学习模型,直至模型收敛得到用户数据分类模型;获取待处理的用户数据序列,将用户数据序列输入到所述用户数据分类模型中,以进行数据的分类处理;其中,所述用户数据序列是用于记录用户数据的序列。本发明中,通过基于训练数据进行无监督学习,无需进行数据标注,降低人工标注数据的任务量;同时基于无监督学习训练得到的用户数据分类模型适应性强,便于新的用户数据的分类处理,提升准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种用户数据的分类处理方法,其特征在于,包括以下步骤:
获取训练数据;其中,所述训练数据包括多个训练用户数据序列,所述训练用户数据序列为训练用户的多个用户数据所组成的序列;
将所述训练用户数据序列输入至无监督学习模型中进行训练;其中,所述无监督学习模型包括隐藏层、全连接层以及分类层;
所述无监督学习模型在针对每一个训练用户数据序列的处理时,基于所述无监督学习模型的隐藏层依序将所述训练用户数据序列中的一个用户数据进行隐藏之后,输入至所述全连接层中进行处理得到对应的特征向量,将所述特征向量输入至分类层进行分类预测,得到训练用户数据序列的预测结果;
调整所述隐藏层、全连接层以及分类层的模型参数,使得针对同一个训练用户数据序列,隐藏一个用户数据之后预测得到的预测结果相同;
基于训练数据中的所有训练用户数据序列,迭代训练无监督学习模型,直至模型收敛得到用户数据分类模型;
获取待处理的用户数据序列,将用户数据序列输入到所述用户数据分类模型中,以进行数据的分类处理;其中,所述用户数据序列是用于记录用户数据的序列。
2.根据权利要求1所述的用户数据的分类处理方法,其特征在于,所述获取待处理的用户数据序列的步骤之前,包括:
获取采集用户数据的设备的设备参数;其中,所述设备参数包括所述设备采集数据的标准信息以及所述设备的归属信息;
将所述采集数据的标准信息输入至文本检测脚本中,检测出所述采集数据的标准信息中各个标准所对应的数据标识;其中,所述数据标识为字符组合;
从数据库中获取一个通用转换表;其中,通用转换表中包括数据标识与数据类型的映射关系;
基于所述归属信息,对所述通用转换表进行修正,得到修正转换表;
基于所述修正转换表对所述数据标识进行转换,得到对应的目标数据类型,作为待采集用户数据的类型。
3.根据权利要求2所述的用户数据的分类处理方法,其特征在于,所述基于所述归属信息,对所述通用转换表进行修正,得到修正转换表的步骤,包括:
根据所述归属信息,在数据库中匹配对应的数据优先序列;其中,数据库中存储有归属信息与数据优先序列的映射关系;所述数据优先序列中包括多个数据类型的优先排列顺序;
获取所述数据优先序列中排列在前四位的数据类型作为目标数据类型;
从所述通用转换表中剔除所有所述目标数据类型,并在所述通用转换表中留下四个空位;其中,所述通用转换表中的数据类型的个数为偶数;
将所述通用转换表中剩余的数据类型进行平移,以填充所述四个空位,并在所述通用转换表的数据类型所在列的最中间位置留下四个目标空位;
将所述目标数据类型依序填入所述四个目标空位中,以对所述通用转换表进行修正,得到所述修正转换表。
4.根据权利要求1所述的用户数据的分类处理方法,其特征在于,所述获取待处理的用户数据序列的步骤,包括:
获取用户数据的多个数据采集设备的认证信息以及序号;其中,所述认证信息包括各个数据采集设备发送的认证字符码;
基于各个数据采集设备的序号的大小顺序,对所有数据采集设备进行排序,得到数据采集设备的排序;其中,所述排序按照序号从小到大排列;
基于所述数据采集设备的排序,将各个所述数据采集设备对应的认证字符码依序进行组合,得到字符码组合;
基于各个数据采集设备的序号,从数据库中确定出各个数据采集设备对应的密码生成规则;其中,所述密码生成规则包括密码中的字符数量、密码中的字符组合方式以及密码中的字符选取规则;
针对各个数据采集设备,基于对应的密码生成规则,从所述字符码组合中选取对应的字符进行组合,得到对应的加密密码,并将加密密码发送至对应的各个数据采集设备;
接收各个数据采集设备采集的用户数据,并按照所述数据采集设备的排序,对各个所述数据采集设备采集的用户数据进行排序并组合,得到所述用户数据序列;其中,各个数据采集设备采集用户数据之后,基于对应的加密密码对用户数据进行加密;所述用户数据序列中的各个用户数据基于对应的加密密码进行解密。
5.根据权利要求4所述的用户数据的分类处理方法,其特征在于,所述针对各个数据采集设备,基于对应的密码生成规则,从所述字符码组合中选取对应的字符进行组合,得到对应的加密密码的步骤,包括:
依序针对所述数据采集设备的排序中的各个数据采集设备,基于对应的密码生成规则,从所述字符码组合中选取对应位置上的字符进行组合,得到对应的加密密码,并将所述字符码组合中对应位置上的字符删除。
6.根据权利要求4所述的用户数据的分类处理方法,其特征在于,所述获取用户数据的多个数据采集设备的认证信息以及序号的步骤,包括:
获取用户数据的各个数据采集设备发送的认证数字串;其中各个数据采集设备发送的认证数字串互不相同;
获取数据采集设备的总数量,基于所述总数量对预设的映射表进行转换,得到转换映射表;其中,所述转换映射表中包括数字与字符的映射关系;
针对每个认证数字串,按照预设规则进行分隔,得到每个认证数字串对应的多个数字组合,将各个认证数字串对应的第一个数字组合作为对应数据采集设备的序号;
将各个认证数字串对应的多个数字组合中除第一个数字组合之外的所有数字组合依序基于所述转换映射表进行映射转换,得到对应的字符,并依序进行组合,得到各个数据设备对应的认证字符码。
7.一种用户数据的分类处理装置,其特征在于,包括:
获取单元,用于获取训练数据;其中,所述训练数据包括多个训练用户数据序列,所述训练用户数据序列为训练用户的多个用户数据所组成的序列;
输入单元,用于将所述训练用户数据序列输入至无监督学习模型中进行训练;其中,所述无监督学习模型包括隐藏层、全连接层以及分类层;
隐藏单元,用于所述无监督学习模型在针对每一个训练用户数据序列的处理时,基于所述无监督学习模型的隐藏层依序将所述训练用户数据序列中的一个用户数据进行隐藏之后,输入至所述全连接层中进行处理得到对应的特征向量,将所述特征向量输入至分类层进行分类预测,得到训练用户数据序列的预测结果;
调整单元,用于调整所述隐藏层、全连接层以及分类层的模型参数,使得针对同一个训练用户数据序列,隐藏一个用户数据之后预测得到的预测结果相同;
训练单元,用于基于训练数据中的所有训练用户数据序列,迭代训练无监督学习模型,直至模型收敛得到用户数据分类模型;
分类单元,用于获取待处理的用户数据序列,将用户数据序列输入到所述用户数据分类模型中,以进行数据的分类处理;其中,所述用户数据序列是用于记录用户数据的序列。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311439814.0A CN117390494A (zh) | 2023-11-01 | 2023-11-01 | 用户数据的分类处理方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311439814.0A CN117390494A (zh) | 2023-11-01 | 2023-11-01 | 用户数据的分类处理方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117390494A true CN117390494A (zh) | 2024-01-12 |
Family
ID=89440605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311439814.0A Pending CN117390494A (zh) | 2023-11-01 | 2023-11-01 | 用户数据的分类处理方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117390494A (zh) |
-
2023
- 2023-11-01 CN CN202311439814.0A patent/CN117390494A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455525B2 (en) | Method and apparatus of open set recognition and a computer readable storage medium | |
CN109783604B (zh) | 基于少量样本的信息提取方法、装置和计算机设备 | |
CN111767228B (zh) | 基于人工智能的界面测试方法、装置、设备和介质 | |
CN111767707A (zh) | 雷同病例检测方法、装置、设备及存储介质 | |
CN111626124A (zh) | Ocr图像样本生成、印刷体验证方法、装置、设备及介质 | |
CN111859916B (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
CN111797629B (zh) | 医疗文本数据的处理方法、装置、计算机设备和存储介质 | |
CN112699923A (zh) | 文档分类预测方法、装置、计算机设备及存储介质 | |
CN111428261A (zh) | 照片信息处理方法、装置、设备及介质 | |
CN111666932B (zh) | 单据审核方法、装置、计算机设备及存储介质 | |
CN115935344A (zh) | 一种异常设备的识别方法、装置及电子设备 | |
CN116627272B (zh) | 触摸控制方法、装置以及计算机设备 | |
CN113723070B (zh) | 文本相似度模型训练方法、文本相似度检测方法及装置 | |
CN116524873B (zh) | 显示屏的显示调整方法、装置以及计算机设备 | |
CN113705468A (zh) | 基于人工智能的数字图像识别方法及相关设备 | |
CN113076961A (zh) | 一种图像特征库更新方法、图像检测方法和装置 | |
CN113254687A (zh) | 图像检索、图像量化模型训练方法、装置和存储介质 | |
CN111709422A (zh) | 基于神经网络的图像识别方法、装置和计算机设备 | |
CN117390494A (zh) | 用户数据的分类处理方法、装置、设备和存储介质 | |
CN110852098A (zh) | 一种数据修正方法及电子设备和存储介质 | |
CN112363929B (zh) | 系统上线方法、装置、计算机设备及存储介质 | |
WO2023173547A1 (zh) | 文本图像匹配方法、装置、设备及存储介质 | |
CN114238768A (zh) | 资讯信息的推送方法、装置、计算机设备和存储介质 | |
CN116414976A (zh) | 文档检测方法、装置及电子设备 | |
CN116541228B (zh) | 显示器的触控响应检测方法、装置以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |