CN111797942A - 用户信息的分类方法及装置、计算机设备、存储介质 - Google Patents

用户信息的分类方法及装置、计算机设备、存储介质 Download PDF

Info

Publication number
CN111797942A
CN111797942A CN202010717289.4A CN202010717289A CN111797942A CN 111797942 A CN111797942 A CN 111797942A CN 202010717289 A CN202010717289 A CN 202010717289A CN 111797942 A CN111797942 A CN 111797942A
Authority
CN
China
Prior art keywords
data
classification
target
error rate
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010717289.4A
Other languages
English (en)
Inventor
陈烨
朱元
李磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010717289.4A priority Critical patent/CN111797942A/zh
Publication of CN111797942A publication Critical patent/CN111797942A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术,可应用于智慧城市领域中,揭露了一种用户信息的分类方法及装置、计算机设备、存储介质,其中,该方法包括:确定目标数据样本,其中,所述目标数据样本包括两种类型的数据:有效数据和无效数据;采用原始分类模型对所述目标数据样本进行迭代分类;基于分类结果计算分类错误率,当所述分类错误率小于或等于第一阈值时,得到目标分类模型,其中,所述分类错误率用于表示对所述目标数据样本分类分错的概率。本发明还涉及区块链技术,所述目标分类模型存储至区块链网络。通过本发明,解决了相关技术中因数据之间独立性不够导致分类错误率高的技术问题。

Description

用户信息的分类方法及装置、计算机设备、存储介质
技术领域
本发明涉及计算机领域,具体而言,涉及一种用户信息的分类方法及装置、计算机设备、存储介质。
背景技术
目前,在业务过程中,如何根据获取到的客户属性的简单要素实现对客户的有效分类,一直以来都存在较大难度。在简单的分类比较中,通常采用一些明显的差异化外观及条件进行分类,但是在使用以数据驱动为背景的客户营销场景中,现有的分类结果往往和表面上的数据难以契合形成规律,因此,如何根据采集到的客户信息快速识别有效客户和无效客户,对于提升工作效率至关重要。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种用户信息的分类方法及装置、计算机设备、存储介质,以至少解决了相关技术中因数据之间独立性不够导致分类错误率高的技术问题。
根据本发明的一个实施例,提供了一种分类模型的训练方法,包括:确定目标数据样本,其中,所述目标数据样本包括两种类型的数据:有效数据和无效数据;采用原始分类模型对所述目标数据样本进行迭代分类;基于分类结果计算分类错误率,当所述分类错误率小于或等于第一阈值时,得到目标分类模型,其中,所述分类错误率用于表示对所述目标数据样本分类分错的概率;采用所述目标分类模型对测试数据样本进行分类,得到分类结果,其中,所述测试数据样本是与所述目标数据具有相同数据结构的数据集,所述测试数据样本包括两种类型的数据:有效用户信息和无效用户信息。
可选的,所述采用原始分类模型对所述目标数据样本进行迭代分类包括:采用朴素贝叶斯分类算法对所述目标数据样本进行分类;从所述目标数据样本中刷选出有效数据,并保留无效数据和分错的数据,得到下一轮迭代的训练数据样本;循环上述得到下一轮迭代的训练数据样本的步骤;直到所述目标数据样本中无效数据的概率的最小值小于或等于第二阈值时,循环结束。
可选的,通过以下公式计算所述目标数据样本中无效数据的概率:
Figure BDA0002598687120000021
其中,N表示无效数据,R表示有效数据,X表示目标数据样本,P(N|X)表示目标数据样本中无效数据的条件概率,P(X|N)表示无效数据中目标数据样本出现的概率,P(N)为实际调查的无效数据的概率,P(R)为实际调查的有效数据的概率,P(X|R)表示有效数据中目标数据样本出现的概率。
可选的,所述基于分类结果计算分类错误率包括:针对每一次分类,查找所述目标样本中分错的数据;根据所述分错的数据计算所述分类错误率,其中,通过以下公式计算所述分类错误率m:
Figure BDA0002598687120000022
其中,a表示分错的数据的个数,b表示目标数据样本的数量。
可选的,在根据所述分错的数据计算所述分类错误率之后,所述方法还包括:判断所述分类错误率m是否小于或等于所述第二阈值,其中,所述第二阈值表征所述目标分类模型的分类能力;若所述分类错误率m小于或等于所述第二阈值,得到所述目标分类模型。
可选的,在采用原始分类模型对所述目标数据样本进行迭代分类之后,所述方法还包括:采用朴素贝叶斯分类算法分别计算有效数据的概率和无效数据的概率;在所述目标数据样本条件下,比较所述有效数据的概率和所述无效数据的概率;若所述有效数据的概率大于所述无效数据的概率,得到所述目标分类模型。
可选的,在当所述分类错误率小于或等于第一阈值时,得到目标分类模型之后,所述方法还包括:将所述目标分类模型存储至区块链网络。
根据本发明的一个实施例,提供了一种分类模型的训练装置,包括:第一确定模块,用于确定目标数据样本,其中,所述目标数据样本包括两种类型的数据:有效数据和无效数据;第一分类模块,用于采用原始分类模型对所述目标数据样本进行迭代分类;第二确定模块,用于基于分类结果计算分类错误率,当所述分类错误率小于或等于第一阈值时,得到目标分类模型,其中,所述分类错误率用于表示对所述目标数据样本分类分错的概率;第二分类模块,用于采用所述目标分类模型对测试数据样本进行分类,得到分类结果,其中,所述测试数据样本是与所述目标数据具有相同数据结构的数据集,所述测试数据样本包括两种类型的数据:有效用户信息和无效用户信息。
可选的,所述第一分类模块包括:分类单元,用于采用朴素贝叶斯分类算法对所述目标数据样本进行分类;第一确定单元,用于从所述目标数据样本中刷选出有效数据,并保留无效数据和分错的数据,得到下一轮迭代的训练数据样本;循环上述得到下一轮迭代的训练数据样本的步骤;直到所述目标数据样本中无效数据的概率的最小值小于或等于第二阈值时,循环结束。
可选的,所述第一分类模块还用于,通过以下公式计算所述目标数据样本中无效数据的概率:
Figure BDA0002598687120000031
其中,N表示无效数据,R表示有效数据,X表示目标数据样本,P(N|X)表示目标数据样本中无效数据的条件概率,P(X|N)表示无效数据中目标数据样本出现的概率,P(N)为实际调查的无效数据的概率,P(R)为实际调查的有效数据的概率,P(X|R)表示有效数据中目标数据样本出现的概率。
可选的,所述第二确定模块包括:查找单元,用于针对每一次分类,查找所述目标样本中分错的数据;计算单元,用于根据所述分错的数据计算所述分类错误率,其中,通过以下公式计算所述分类错误率m:
Figure BDA0002598687120000032
其中,a表示分错的数据的个数,b表示目标数据样本的数量。
可选的,所述所述第二确定模块还包括:判断单元,用于判断所述分类错误率m是否小于或等于所述第二阈值,其中,所述第二阈值表征所述目标分类模型的分类能力;第二确定单元,用于若所述分类错误率m小于或等于所述第二阈值,得到所述目标分类模型。
可选的,所述装置还包括:计算模块,用于在采用原始分类模型对所述目标数据样本进行迭代分类之后,采用朴素贝叶斯分类算法分别计算有效数据的概率和无效数据的概率;比较模块,用于在所述目标数据样本条件下,比较所述有效数据的概率和所述无效数据的概率;第三确定模块,用于若所述有效数据的概率大于所述无效数据的概率,得到所述目标分类模型。
可选的,所述装置还包括:存储模块,用于在当所述分类错误率小于或等于第一阈值时,得到目标分类模型之后,将所述目标分类模型存储至区块链网络。
根据本发明的又一个实施例,还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项装置实施例中的步骤。
通过本发明,通过使用已知类型的数据集作为监督条件,采用朴素贝叶斯算法进行分类,得到分错率较小的分类模型,进而对用户信息进行分类,解决了相关技术中因数据之间独立性不够导致分类错误率高的技术问题,进行能够在工作效率上,极大提升数据识别效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种用户信息的分类方法应用于计算机终端的硬件结构框图;
图2是根据本发明实施例的一种用户信息的分类方法的流程图;
图3是根据本发明实施例的一种用户信息的分类装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种用户信息的分类方法应用于计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的用户信息的分类方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
使用传统朴素贝叶斯算法的计算公式仅能对数据之间相互独立的数据集进行分类,而在业务营销机构中,大量的数据之间由于独立性不够,若使用传统朴素贝叶斯算法进行分类,极易出现分类错误的情况,无法在实际监管作用中进行有效分类。
为了解决上述问题,在本实施例中提供了一种用户信息的分类方法,图2是根据本发明实施例的一种用户信息的分类方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,确定目标数据样本,其中,目标数据样本包括两种类型的数据:有效数据和无效数据;
本实施例中的目标数据库样本中每个数据的类型是已知的。
步骤S204,采用原始分类模型对目标数据样本进行迭代分类;
可选的,原始分类模型为朴素贝叶斯算法模型,但不限于此。
步骤S206,基于分类结果计算分类错误率,当分类错误率小于或等于第一阈值时,得到目标分类模型,其中,分类错误率用于表示对目标数据样本分类分错的概率;
步骤S208,采用目标分类模型对测试数据样本进行分类,得到分类结果,其中,测试数据样本是与目标数据具有相同数据结构的数据集,测试数据样本包括两种类型的数据:有效用户信息和无效用户信息。
以在业务开展的过程中为例,对于客户的简单分类可以分为有效客户和无效客户两种类型,对于从客户中采集到的数据,比如通过提取用户的画像数据获得用户的属性信息,或者从用户注册行为或购买行为时收集到的基本数据信息,可作为单一样本的数据集。
本实施例中的有效客户和无效客户指的是两种不同的客户类型,具体在对应的场景分析中,有效客户和无效客户的划分可以依照用户的实际需要来指定。比如,根据客户需求,评估用户价值,基于用户价值将用户信息分为有效客户信息或无效客户信息。理论上,有效客户和无效客户所对应群体的名称是可以互换的,比如A对应有效客户,B对应无效客户;互换以后,A对应无效客户,B对应有效客户,并不影响模型对A和B的分类结果。
通过上述步骤,通过使用已知类型的数据集作为监督条件,采用朴素贝叶斯算法进行分类,得到分错率较小的分类模型,进而对用户信息进行分类,解决了相关技术中因数据之间独立性不够导致分类错误率高的技术问题,进行能够在工作效率上,极大提升数据识别效率。
可选的,采用原始分类模型对目标数据样本进行迭代分类包括:采用朴素贝叶斯分类算法对目标数据样本进行分类;从目标数据样本中刷选出有效数据,并保留无效数据和分错的数据,得到下一轮迭代的训练数据样本;循环上述得到下一轮迭代的训练数据样本的步骤;直到目标数据样本中无效数据的概率的最小值小于或等于第二阈值时,循环结束。
在本实施例中,通过设定,已知目标数据样本作为作为监督条件进行迭代循环。在一个示例中,设定独立错误分类因子为TZ,其中,独立错误分类因子是用来解释数据集中某一数据的垃圾程度;然后设定迭代评价的循环次数为K,以及选择预设数量级(比如选择500数量级)以上的随机样本(即上述目标数据样本)。需要说明的是,如果样本数量集较少以及迭代次数过少,将无法形成有效的分类模型,或者分类模型的分类能力较弱,具体的参数设置需要根据实际模型表现情况进行调试;另外,针对数据之间存在较大的共性,因此从独立错误分类因子中优选部分数据,提高了数据分类准确性。
根据上述实施例,设定迭代次数K,在每一次迭代过程中,筛选出有效数据,并将上一次模型分错的无效样本数据放入随机数据样本中,再添加TZ中的其他样本数据,形成下一轮迭代的样本集数据,以保证训练数据样本的数量级。
可选的,通过以下公式计算目标数据样本中无效数据的概率:
Figure BDA0002598687120000081
其中,N表示无效数据,R表示有效数据,X表示目标数据样本,P(N|X)表示目标数据样本中无效数据的条件概率,P(X|N)表示无效数据中目标数据样本出现的概率,P(N)为实际调查的无效数据的概率,P(R)为实际调查的有效数据的概率,P(X|R)表示有效数据中目标数据样本出现的概率。
在本实施例中,通过计算在选取的随机样本的条件下,计算随机样本中无效客户的概率的最小值minP(N|X),来确定是否结束循环操作。
可选的,基于分类结果计算分类错误率包括:针对每一次分类,查找目标样本中分错的数据;根据分错的数据计算分类错误率,其中,通过以下公式计算分类错误率m:
Figure BDA0002598687120000082
其中,a表示分错的数据的个数,b表示目标数据样本的数量。
可选的,在根据分错的数据计算分类错误率之后,还包括:判断分类错误率m是否小于或等于第二阈值,其中,第二阈值表征目标分类模型的分类能力;若分类错误率m小于或等于第二阈值,得到目标分类模型。
在本案的一个可选的实施例中,设定最小的分类错误率为n,对于每一次的迭代后,统计训练数据样本条件下样本分类中,计算模型错误率,保存最小的错误率下的目标分类模型。
可选的,在采用原始分类模型对目标数据样本进行迭代分类之后,还包括:采用朴素贝叶斯分类算法分别计算有效数据的概率和无效数据的概率;在目标数据样本条件下,比较有效数据的概率和无效数据的概率;若有效数据的概率大于无效数据的概率,得到目标分类模型。
在本案的另一个实施例中,通过比较P(R)(有效数据的概率)和P(N)(无效数据的概率),即从另一个角度判断目标分类模型是否能更好的把有效数据和无效数据进行区分。优选地,P(R)大于P(N),两者之间的差额越大越好,P(R)越接近于1越好,P(N)越接近于0越好。
可选的,在当分类错误率小于或等于第一阈值时,得到目标分类模型之后,还包括:将目标分类模型存储至区块链网络。
可选的,为进一步保证上述目标分类模型的私密和安全性,上述目标分类模型还可以存储于一区块链的节点中。
本实施例中的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
其中,区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
下面结合一具体实施例对本发明进一步地说明:
在一个具体实施例中,例如在银行场景中,针对理财产品销售我们可以把客户分为两种类型,有营销潜力的和没有营销潜力的客户。通过对客户年龄、性别、工作单位、户籍所在地,是否有个人住房、收入流水以及交易明细等维度数据进行客户授权后的搜集。
假设客户画像数据包含的数据集为Xi,有效客户为R,无效客户为N。根据贝叶斯算法分类模型有如下方程:
Figure BDA0002598687120000101
其中:n的范围建议在0.2以下,以保证模型有较为精确的分类能力;X是客户画像数据集;i是客户数量;P(R|Xi)为客户Xi是有效客户的条件概率;P(R)为有效客户的概率;P(Xi|R)为有效客户中Xi出现的概率;P(N)为训练阶段数据集中无效客户的概率,或实际调查的无效客户的概率;P(Xi|N)为无效客户中Xi出现的概率。
经过上述迭代模型优化,客户有效性的模型错误率大大降低,能够较好满足业务营销过程中,前期快速判断的需要。
采用朴素贝叶斯算法和通过本方案的改进型朴素贝叶斯算法对银行客户根据是否有营销潜力进行分类。结果如下:
(1)采用朴素贝叶斯算法的测试效果:11287个样本(即上述用户信息),随机选取9823(即上述独立分类错误因子TZ)个作为训练样本,对1000个测试样本(即上述随机样本),分类的平均错误率约为:6.5%。
(2)改进型朴素贝叶斯算法的测试效果:11287个样本(即上述用户信息),随机选取9823个作为训练样本(即上述独立分类错误因子TZ),采用改进型朴素贝叶斯算法,对1000个测试样本(即上述随机样本),分类的平均错误率约为:1.6%。
通过上述步骤,对比可知,使用基于改进型朴素贝叶斯算法的客户分类方法,能够在朴素贝叶斯算法分类模型健壮性足够的基础上,通过对算法流程的优化,达到客户的快速分类的有益效果,从而解决业务开展初期缺乏全面数据背景下的客户分类难题。本方案可应用于智慧城市领域中,从而推动智慧城市的建设。
实施例2
在本实施例中还提供了一种用户信息的分类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的一种用户信息的分类装置的结构框图,如图3所示,该装置包括:第一确定模块30,用于确定目标数据样本,其中,目标数据样本包括两种类型的数据:有效数据和无效数据;第一分类模块32,连接至上述第一确定模块30,用于采用原始分类模型对目标数据样本进行迭代分类;第二确定模块34,连接至上述第一分类模块32,用于基于分类结果计算分类错误率,当分类错误率小于或等于第一阈值时,得到目标分类模型,其中,分类错误率用于表示对目标数据样本分类分错的概率;第二分类模块36,连接至上述第二确定模块34,用于采用所述目标分类模型对测试数据样本进行分类,得到分类结果,其中,所述测试数据样本是与所述目标数据具有相同数据结构的数据集,所述测试数据样本包括两种类型的数据:有效用户信息和无效用户信息。
可选的,第一分类模块32包括:分类单元,用于采用朴素贝叶斯分类算法对目标数据样本进行分类;第一确定单元,用于从目标数据样本中刷选出有效数据,并保留无效数据和分错的数据,得到下一轮迭代的训练数据样本;循环上述得到下一轮迭代的训练数据样本的步骤;直到目标数据样本中无效数据的概率的最小值小于或等于第二阈值时,循环结束。
可选的,第一分类模块32还用于,通过以下公式计算目标数据样本中无效数据的概率:
Figure BDA0002598687120000121
其中,N表示无效数据,R表示有效数据,X表示目标数据样本,P(N|X)表示目标数据样本中无效数据的条件概率,P(X|N)表示无效数据中目标数据样本出现的概率,P(N)为实际调查的无效数据的概率,P(R)为实际调查的有效数据的概率,P(X|R)表示有效数据中目标数据样本出现的概率。
可选的,第二确定模块34包括:查找单元,用于针对每一次分类,查找目标样本中分错的数据;计算单元,用于根据分错的数据计算分类错误率,其中,通过以下公式计算分类错误率m:
Figure BDA0002598687120000122
其中,a表示分错的数据的个数,b表示目标数据样本的数量。
可选的,第二确定模块34还包括:判断单元,用于判断分类错误率m是否小于或等于第二阈值,其中,第二阈值表征目标分类模型的分类能力;第二确定单元,用于若分类错误率m小于或等于第二阈值,得到目标分类模型。
可选的,上述装置还包括:计算模块,用于在采用原始分类模型对目标数据样本进行迭代分类之后,采用朴素贝叶斯分类算法分别计算有效数据的概率和无效数据的概率;比较模块,用于在目标数据样本条件下,比较有效数据的概率和无效数据的概率;第三确定模块,用于若有效数据的概率大于无效数据的概率,得到目标分类模型。
可选的,上述装置还包括:存储模块,用于在当分类错误率小于或等于第一阈值时,得到目标分类模型之后,将目标分类模型存储至区块链网络。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,确定目标数据样本,其中,所述目标数据样本包括两种类型的数据:有效数据和无效数据;
S2,采用原始分类模型对所述目标数据样本进行迭代分类;
S3,基于分类结果计算分类错误率,当所述分类错误率小于或等于第一阈值时,得到目标分类模型,其中,所述分类错误率用于表示对所述目标数据样本分类分错的概率;
S4,采用所述目标分类模型对测试数据样本进行分类,得到分类结果,其中,所述测试数据样本是与所述目标数据具有相同数据结构的数据集,所述测试数据样本包括两种类型的数据:有效用户信息和无效用户信息。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,确定目标数据样本,其中,所述目标数据样本包括两种类型的数据:有效数据和无效数据;
S2,采用原始分类模型对所述目标数据样本进行迭代分类;
S3,基于分类结果计算分类错误率,当所述分类错误率小于或等于第一阈值时,得到目标分类模型,其中,所述分类错误率用于表示对所述目标数据样本分类分错的概率;
S4,采用所述目标分类模型对测试数据样本进行分类,得到分类结果,其中,所述测试数据样本是与所述目标数据具有相同数据结构的数据集,所述测试数据样本包括两种类型的数据:有效用户信息和无效用户信息。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用户信息的分类方法,其特征在于,包括:
确定目标数据样本,其中,所述目标数据样本包括两种类型的数据:有效数据和无效数据;
采用原始分类模型对所述目标数据样本进行迭代分类;
基于分类结果计算分类错误率,当所述分类错误率小于或等于第一阈值时,得到目标分类模型,其中,所述分类错误率用于表示对所述目标数据样本分类分错的概率;
采用所述目标分类模型对测试数据样本进行分类,得到分类结果,其中,所述测试数据样本是与所述目标数据具有相同数据结构的数据集,所述测试数据样本包括两种类型的数据:有效用户信息和无效用户信息。
2.根据权利要求1所述的方法,其特征在于,所述采用原始分类模型对所述目标数据样本进行迭代分类包括:
采用朴素贝叶斯分类算法对所述目标数据样本进行分类;从所述目标数据样本中刷选出有效数据,并保留无效数据和分错的数据,得到下一轮迭代的训练数据样本;
循环上述得到下一轮迭代的训练数据样本的步骤;
直到所述目标数据样本中无效数据的概率的最小值小于或等于第二阈值时,循环结束。
3.根据权利要求2所述的方法,其特征在于,通过以下公式计算所述目标数据样本中无效数据的概率:
Figure FDA0002598687110000011
其中,N表示无效数据,R表示有效数据,X表示目标数据样本,P(N|X)表示目标数据样本中无效数据的条件概率,P(X|N)表示无效数据中目标数据样本出现的概率,P(N)为实际调查的无效数据的概率,P(R)为实际调查的有效数据的概率,P(X|R)表示有效数据中目标数据样本出现的概率。
4.根据权利要求1所述的方法,其特征在于,所述基于分类结果计算分类错误率包括:
针对每一次分类,查找所述目标样本中分错的数据;
根据所述分错的数据计算所述分类错误率,其中,通过以下公式计算所述分类错误率m:
Figure FDA0002598687110000021
其中,a表示分错的数据的个数,b表示目标数据样本的数量。
5.根据权利要求4所述的方法,其特征在于,在根据所述分错的数据计算所述分类错误率之后,所述方法还包括:
判断所述分类错误率m是否小于或等于所述第二阈值,其中,所述第二阈值表征所述目标分类模型的分类能力;
若所述分类错误率m小于或等于所述第二阈值,得到所述目标分类模型。
6.根据权利要求1所述的方法,其特征在于,在采用原始分类模型对所述目标数据样本进行迭代分类之后,所述方法还包括:
采用朴素贝叶斯分类算法分别计算有效数据的概率和无效数据的概率;
在所述目标数据样本条件下,比较所述有效数据的概率和所述无效数据的概率;
若所述有效数据的概率大于所述无效数据的概率,得到所述目标分类模型。
7.根据权利要求1所述的方法,其特征在于,在当所述分类错误率小于或等于第一阈值时,得到目标分类模型之后,所述方法还包括:
将所述目标分类模型存储至区块链网络。
8.一种用户信息的分类装置,其特征在于,包括:
第一确定模块,用于确定目标数据样本,其中,所述目标数据样本包括两种类型的数据:有效数据和无效数据;
第一分类模块,用于采用原始分类模型对所述目标数据样本进行迭代分类;
第二确定模块,用于基于分类结果计算分类错误率,当所述分类错误率小于或等于第一阈值时,得到目标分类模型,其中,所述分类错误率用于表示对所述目标数据样本分类分错的概率。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010717289.4A 2020-07-23 2020-07-23 用户信息的分类方法及装置、计算机设备、存储介质 Pending CN111797942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010717289.4A CN111797942A (zh) 2020-07-23 2020-07-23 用户信息的分类方法及装置、计算机设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010717289.4A CN111797942A (zh) 2020-07-23 2020-07-23 用户信息的分类方法及装置、计算机设备、存储介质

Publications (1)

Publication Number Publication Date
CN111797942A true CN111797942A (zh) 2020-10-20

Family

ID=72827600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010717289.4A Pending CN111797942A (zh) 2020-07-23 2020-07-23 用户信息的分类方法及装置、计算机设备、存储介质

Country Status (1)

Country Link
CN (1) CN111797942A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111284A (zh) * 2021-04-12 2021-07-13 中国铁塔股份有限公司 归类信息展示方法、装置、电子设备和可读存储介质
CN113177596A (zh) * 2021-04-30 2021-07-27 中国人民银行数字货币研究所 一种区块链地址分类方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003106A (ja) * 2008-06-20 2010-01-07 Nippon Telegr & Teleph Corp <Ntt> 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体
CN106204083A (zh) * 2015-04-30 2016-12-07 中国移动通信集团山东有限公司 一种目标用户分类方法、装置及系统
CN107331385A (zh) * 2017-07-07 2017-11-07 重庆邮电大学 一种骚扰电话的识别与拦截方法
US20170365012A1 (en) * 2016-06-21 2017-12-21 Linkedin Corporation Identifying service providers as freelance market participants
CN107730286A (zh) * 2016-08-10 2018-02-23 中国移动通信集团黑龙江有限公司 一种目标客户筛选方法及装置
CN108596276A (zh) * 2018-05-10 2018-09-28 重庆邮电大学 基于特征加权的朴素贝叶斯微博用户分类方法
CN108897754A (zh) * 2018-05-07 2018-11-27 广东省电信规划设计院有限公司 基于大数据的工单类型的识别方法、系统和计算设备
CN109861957A (zh) * 2018-11-06 2019-06-07 中国科学院信息工程研究所 一种移动应用私有加密协议的用户行为精细化分类方法及系统
CN110533489A (zh) * 2019-09-05 2019-12-03 腾讯科技(深圳)有限公司 应用于模型训练的样本获取方法及装置、设备、存储介质
KR20200054121A (ko) * 2019-11-29 2020-05-19 주식회사 루닛 기계 학습 방법 및 장치

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003106A (ja) * 2008-06-20 2010-01-07 Nippon Telegr & Teleph Corp <Ntt> 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体
CN106204083A (zh) * 2015-04-30 2016-12-07 中国移动通信集团山东有限公司 一种目标用户分类方法、装置及系统
US20170365012A1 (en) * 2016-06-21 2017-12-21 Linkedin Corporation Identifying service providers as freelance market participants
CN107730286A (zh) * 2016-08-10 2018-02-23 中国移动通信集团黑龙江有限公司 一种目标客户筛选方法及装置
CN107331385A (zh) * 2017-07-07 2017-11-07 重庆邮电大学 一种骚扰电话的识别与拦截方法
CN108897754A (zh) * 2018-05-07 2018-11-27 广东省电信规划设计院有限公司 基于大数据的工单类型的识别方法、系统和计算设备
CN108596276A (zh) * 2018-05-10 2018-09-28 重庆邮电大学 基于特征加权的朴素贝叶斯微博用户分类方法
CN109861957A (zh) * 2018-11-06 2019-06-07 中国科学院信息工程研究所 一种移动应用私有加密协议的用户行为精细化分类方法及系统
CN110533489A (zh) * 2019-09-05 2019-12-03 腾讯科技(深圳)有限公司 应用于模型训练的样本获取方法及装置、设备、存储介质
KR20200054121A (ko) * 2019-11-29 2020-05-19 주식회사 루닛 기계 학습 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TIMOTHY J. HAZEN: "MCE Training Techniques for Topic Identification of Spoken Audio Documents", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》, vol. 19, no. 8, 7 April 2011 (2011-04-07), pages 2451, XP011362467, DOI: 10.1109/TASL.2011.2139207 *
季加东: "系统流行病学网络差异比较的统计方法及其应用研究", 《中国博士学位论文全文数据库 (医药卫生科技辑)》, vol. 2017, no. 08, 12 September 2017 (2017-09-12), pages 055 - 29 *
李玲俐: "数据挖掘中分类算法综述", 《重庆师范大学学报(自然科学版)》, vol. 28, no. 04, 7 July 2011 (2011-07-07), pages 44 - 47 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111284A (zh) * 2021-04-12 2021-07-13 中国铁塔股份有限公司 归类信息展示方法、装置、电子设备和可读存储介质
CN113177596A (zh) * 2021-04-30 2021-07-27 中国人民银行数字货币研究所 一种区块链地址分类方法和装置
CN113177596B (zh) * 2021-04-30 2024-03-22 中国人民银行数字货币研究所 一种区块链地址分类方法和装置

Similar Documents

Publication Publication Date Title
US10484413B2 (en) System and a method for detecting anomalous activities in a blockchain network
Ostapowicz et al. Detecting fraudulent accounts on blockchain: A supervised approach
US20210027182A1 (en) Automated machine learning systems and methods
CN111614690B (zh) 一种异常行为检测方法及装置
CN109978033B (zh) 同操作人识别模型的构建与同操作人识别的方法和装置
CN112465411B (zh) 一种风险预测方法、装置及设备
CN112669138B (zh) 数据处理方法及相关设备
CN110348528A (zh) 基于多维数据挖掘的用户信用确定方法
CN112733045B (zh) 用户行为的分析方法、装置及电子设备
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN111797942A (zh) 用户信息的分类方法及装置、计算机设备、存储介质
Wang et al. An unsupervised strategy for defending against multifarious reputation attacks
Nguyen et al. CLARA: confidence of labels and raters
CN110675069B (zh) 地产行业客户签约风险预警方法、服务器及存储介质
US20210174367A1 (en) System and method including accurate scoring and response
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
Song et al. Blockchain data analysis from the perspective of complex networks: Overview
CN112926984B (zh) 基于区块链安全大数据的信息预测方法及区块链服务系统
CN110347669A (zh) 基于流式大数据分析的风险防范方法
Zheng et al. Analysis and modeling of social influence in high performance computing workloads
Tubino et al. Towards a better identification of Bitcoin actors by supervised learning
Zhou et al. HID: Hierarchical multiscale representation learning for information diffusion
Chu et al. Exploiting spatial-temporal behavior patterns for fraud detection in telecom networks
CN116228312A (zh) 大额积分兑换行为的处理方法和装置
CN115439928A (zh) 一种操作行为识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination