CN111651440A - 用户信息判别方法、装置及计算机可读存储介质 - Google Patents

用户信息判别方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111651440A
CN111651440A CN202010361370.3A CN202010361370A CN111651440A CN 111651440 A CN111651440 A CN 111651440A CN 202010361370 A CN202010361370 A CN 202010361370A CN 111651440 A CN111651440 A CN 111651440A
Authority
CN
China
Prior art keywords
data
user
data set
user data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010361370.3A
Other languages
English (en)
Inventor
任正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010361370.3A priority Critical patent/CN111651440A/zh
Publication of CN111651440A publication Critical patent/CN111651440A/zh
Priority to PCT/CN2021/078123 priority patent/WO2021218336A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据技术,揭露了一种用户信息判别方法,包括:获取用户数据集,对所述用户数据集进行数据清洗,得到清洗数据集;对所述清洗数据集进行分类,得到用分类数据集;对所述分类数据集进行数据扩展,得到扩展数据;将所述扩展数据与所述分类数据集进行组合,得到用户肖像集;利用所述用户肖像集训练多个预先构建的分类器,将训练完成的多个分类器进行聚合,得到用户模型;获取待判别用户数据,将所述待判别用户数据输入至所述用户模型进行判别,得到所述待判别用户数据对应的用户类型。本发明还涉及区块链技术,所述用户数据集存储于区块链中。本发明可以提高用户信息判别的效率和准确率。

Description

用户信息判别方法、装置及计算机可读存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种用户信息判别方法、装置、 电子设备及计算机可读存储介质。
背景技术
随着互联网的兴起,用户工作生活与互联网密切相关,越来越多的用户 信息(如个人信用,个人社会关系)可以通过网络获取,通过对获取到的用 户信息进行判别,有利于提高信息系统的决策效率,例如有利于快速向不同 用户推送消息。
现有技术中,用户信息判别的方法多为业务人员人工进行判别,过多依 赖业务人员的工作状态、经验技术、临场判断等条件,导致用户信息判别的 效率不高,判别准确率较低。
发明内容
本发明提供一种用户信息判别方法、装置、电子设备及计算机可读存储 介质,其主要目的在于提高用户信息判别的效率和准确率。
为实现上述目的,本发明提供的一种用户信息判别方法,包括:
获取用户数据集,对所述用户数据集进行数据清洗,得到清洗数据集;
对所述清洗数据集进行分类,得到分类数据集,所述分类数据集包含多 种类型的用户数据;
获取所述分类数据集中第一用户数据的多个邻近数据,在所述多个邻近 数据中选择第二用户数据作为样本数据,在所述样本数据中添加随机数,得 到扩展数据;
将所述扩展数据与所述分类数据集进行组合,得到用户肖像集;
利用所述用户肖像集训练多个预先构建的分类器,将训练完成的多个分 类器进行聚合,得到用户模型;
获取待判别用户数据,将所述待判别用户数据输入至所述用户模型进行 判别,得到所述待判别用户数据对应的用户类型。
可选地,所述对所述用户数据集进行数据清洗,包括:
获取所述用户数据集包含的数据类型;
当所述用户数据集包含非数值型的数据时,将所述非数值型的数据转化 为数值型数据;
判断所述用户数据集是否存在缺失值,当所述用户数据集存在缺失值时, 对所述用户数据集进行数据填充;或者
判断所述用户数据集是否存在异常值,当所述用户数据集存在异常值时, 删除所述用户数据集包含的异常值。
可选地,所述对所述用户数据集进行数据填充,包括:
将所述缺失值的相邻值分别输入预设的线性回归方程,通过所述线性回 归方程计算所述缺失值的线性预测值;
计算所述缺失值的预设邻域范围内的所有数值的第一平均值,得到所述 缺失值的平均预测值;
计算所述平均预测值与所述线性预测值的第二平均值,确定所述第二平 均值为所述缺失值。
可选地,所述线性回归方程为:
Y=aX+b
其中,Y为所述线性预测值,X为所述相邻值,a,b为预设回归参数。
可选地,所述用户数据集存储于区块链中,所述判断所述用户数据集是 否存在异常值,包括:
利用对比算法计算所述用户数据集中目标用户数据与所述目标用户数据 的邻近用户数据的局部可达密度比值;
判断所述局部可达密度比值是否小于或等于预设比值;
若所述局部可达密度比值小于或等于预设比值,确定所述目标用户数据 为异常值。
为了解决上述问题,本发明还提供一种用户信息判别装置,所述装置包 括:
数据清洗模块,用于获取用户数据集,对所述用户数据集进行数据清洗, 得到清洗数据集;
分类模块,用于对所述清洗数据集进行分类,得到用分类数据集,所述 分类数据集包含多种类型的用户数据;
数据扩展模块,用于获取所述分类数据集中第一用户数据的多个邻近数 据,在所述多个邻近数据中选择第二用户数据作为样本数据,在所述样本数 据中添加随机数,得到扩展数据;
数据组合模块,用于将所述扩展数据与所述分类数据集进行组合,得到 用户肖像集;
模型训练模块,用于利用所述用户肖像集训练多个预先构建的分类器, 将训练完成的多个分类器进行聚合,得到用户模型;
数据判断模块,用于获取待判别用户数据,将所述待判别用户数据输入 至所述用户模型进行判别,得到所述待判别用户数据对应的用户类型。
可选地,所述数据清洗模块包括:
获取单元,用于获取用户数据集以及获取所述用户数据集包含的数据类 型;
数据转化单元,用于当所述用户数据集包含非数值型的数据时,将所述 非数值型的数据转化为数值型数据;
数据填充单元,用于判断所述用户数据集是否存在缺失值,当所述用户 数据集存在缺失值时,对所述用户数据集进行数据填充;
数据删除单元,用于判断所述用户数据集是否存在异常值,当所述用户 数据集存在异常值时,删除所述用户数据集包含的异常值。
可选地,所述用户数据集存储于区块链中,所述数据填充单元对所述用 户数据集进行数据填充包括:
将所述缺失值的相邻值分别输入预设的线性回归方程,通过所述线性回 归方程计算所述缺失值的线性预测值;
计算所述缺失值的预设邻域范围内的所有数值的第一平均值,得到所述 缺失值的平均预测值;
计算所述平均预测值与所述线性预测值的第二平均值,确定所述第二平 均值为所述缺失值。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述中任意一项所述的用 户信息判别方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算 机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的 处理器执行以实现上述中任意一项所述的用户信息判别方法。
本发明实施例获取用户数据集,对所述用户数据集进行数据清洗,得到 清洗数据集,减少冗余数据和错误数据;对所述清洗数据集进行分类,得到 用分类数据集,将所述清洗数据进行分类,以提高后续数据处理的效率;获 取所述分类数据集中第一用户数据的多个邻近数据,在所述多个邻近数据中 选择第二用户数据作为样本数据,在所述样本数据中添加随机数,得到扩展 数据,进行数据扩展,提高用于数据的完整性;利用所述用户肖像集训练多 个预先构建的分类器,将训练完成的多个分类器进行聚合,得到用户模型, 训练得到用户模型,进而提高后续对待判别用户数据进行判别的准确性。本 发明实施例无需依赖人工判别,提高了判别的效率。因此,本发明实施例可 以实现提高用户信息判别的效率和准确率的目的。
附图说明
图1为本发明一实施例提供的用户信息判别方法的流程示意图;
图2为本发明一实施例提供的用户信息判别装置的模块示意图;
图3为本发明一实施例提供的实现用户信息判别方法的电子设备的内部 结构示意图;
图4为本发明一实施例提供的用户类型中正面类型的类型示意图;
图5为本发明一实施例提供的用户类型中拒绝反面类型的类型示意图;
图6为本发明一实施例提供的用户类型中逾期反面类型的类型示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限 定本发明。
本发明提供一种用户信息判别方法。参照图1所示,为本发明一实施例 提供的用户信息判别方法的流程示意图。该方法可以由一个装置执行,该装 置可以由软件和/或硬件实现。
在本实施例中,用户信息判别方法包括:
S1、获取用户数据集,对所述用户数据集进行数据清洗,得到清洗数据 集。
本实施例中,所述用户数据集包括但不限于:用户的基本信息(如,年 龄,性别等)、征信信息、社会关系、用户标签。
本发明一可选实施例中,可直接从存储业务订单的数据库中获取所述用 户数据集。需要强调的是,为进一步保证上述用户数据集的私密和安全性, 上述用户数据集还可以存储于一区块链的节点中。
本实施例中,所述用户数据集可以包括不同用户类别的用户数据,具体 的,用户类别包括但不限于:审批通过类用户、审批拒绝类用户、逾期类用 户。
进一步的,所述对所述用户数据集进行数据清洗,包括:
获取所述用户数据集包含的数据类型;
当所述用户数据集包含非数值型的数据时,将所述非数值型的数据转化 为数值型数据;
判断所述用户数据集是否存在缺失值,当所述用户数据集存在缺失值时, 对所述用户数据集进行数据填充;或者
判断所述用户数据集是否存在异常值,当所述用户数据集存在异常值时, 删除所述用户数据集包含的异常值。
本实施例中,用户数据集包含的数据类型可以包含一种或多种。
本实施例中,用户数据集可以包含数值类型的数据,如用户年龄等,用 户数据集还可以包含数值类型的数据以及非数值类型的数据,例如,用户性 别等。
详细地,所述将所述非数值型的数据转化为数值型数据时,可以通过不 同数据来表示非数值数据的内容。例如,若将用户性别转化为数值型数据, 则用1表示用户性别为男性,用0表示用户性别为女性。
在本发明一可选实施例中,所述对所述用户数据集进行数据填充,包括:
将所述缺失值的相邻值分别输入预设的线性回归方程,通过所述线性回 归方程计算所述缺失值的线性预测值;
计算所述缺失值的预设邻域范围内的所有数值的第一平均值,得到所述 缺失值的平均预测值;
计算所述平均预测值与所述线性预测值的第二平均值,确定所述第二平 均值为所述缺失值。
较佳地,若用户数据集包含缺失的时间数据,根据缺失的时间顺序的前 后时间顺序进行顺序填充。
优选地,所述线性回归方程为:
Y=aX+b
其中,Y为所述线性预测值,X为所述相邻值,a,b为预设回归参数。
本发明另一可选实施例中,所述判断所述用户数据集是否存在异常值, 包括:
利用对比算法计算所述用户数据集中目标用户数据与所述目标用户数据 的邻近用户数据的局部可达密度比值;
判断所述局部可达密度比值是否小于或等于预设比值;
若所述局部可达密度比值小于或等于预设比值,确定所述目标用户数据 为异常值。
本实施例中,目标用户数据可以为用户数据集中任意用户数据。
具体的,本发明实施例利用如下对比算法计算所述目标用户数据与所述 目标用户数据的邻近用户数据的局部可达密度比值LFk(q):
Figure BDA0002474712150000061
Figure BDA0002474712150000062
其中,Nk(q)为所述目标用户数据的邻近用户数据的集合,p为所述目标 用户数据,q为Nk(q)中任一用户数据,ld(q)为Nk(q)内的数据密度,ld(p)为 所述目标用户数据的自身密度,k为Nk(q)中用户数据的个数,reach- distk(p,q)为用于计算p,q之间的距离的运算。
由于获取到的用户数据集可能存在着数据特征属性不一等情况,因此本 发明实施例通过对所述用户数据集集进行数据清洗,可以删除无效数据以及 错误数据,减少数据冗余,提高数据数据精确性,有利于基于清洗后的数据 进行准确的分析。
S2、对所述清洗数据集进行分类,得到分类数据集,所述分类数据集包 含多种类型的用户数据。
在本实施例中,分类数据集包含的用户数据为清洗后得到的用户数据, 即清洗数据集中的用户数据。
具体的,对所述清洗数据集进行分类包括:将所述清洗数据集中的清洗 数据按照所述用户类别进行标签标记,并将标记完成的所述清洗数据按照所 述标签进行分类,得到由若干带有标签的用户数据组成的分类数据集,其中, 用户类别的名称可以为标签的具体内容。
S3、获取所述分类数据集中第一用户数据的多个邻近数据,在所述多个 邻近数据中选择第二用户数据作为样本数据,在所述样本数据中添加随机数, 得到扩展数据集并将所述扩展数据。
由于获取用户数据集是从数据库中随机抽取,因此可能导致抽取的所述 用户数据集中具有某一用户类别的用户数据集较少,进而使得所述分类数据 集中某一用户类别的用户数据集较少,不利后续训练出优良分类功能的分类 模型,因此,本发明实施例对所述清洗数据进行数据扩展。
所述第一用户数据为某一用户类型中的用户数据,该类型用户数据的特 征为用户数据量小于等于预设数据量。
在具体实施时,第一用户数据的数量可以为一个或者多个,当第一用户 数据的数量为多个时,第一用户数据可以为相同类型的数据也可以为不同类 型的数据。
详细地,本发明实施例利用欧式距离算法计算所述清洗数据集中第一清 洗数据的多个邻近数据,所述欧式距离算法用于计算空间中两点之间的距离, 本发明实施例中用欧式距离来衡量所述清洗数据集中任一清洗数据与所述清 洗数据集中其他数据的距离,所述第二清洗数据可从所述多个临近数据中随 机选择得到。
较佳地,本发明实施例利用如下公式将随机数δ添加至样本xa中,得到扩 展数据S:
S=xi+δ*(xa-xi)
其中,xi为所述清洗数据集中第一清洗数据,xa为从所述k个近邻数据中 选择的第二清洗数据,δ为0到1之间的随机数。
S4、将所述扩展数据与所述分类数据集进行组合,得到用户肖像集。
本实施例中,将所述扩展数据与所述分类数据集进行组合包括:当所述 第一清洗数据扩展完成后,将得到的所有扩展数据S并入所述清洗数据集, 得到用户肖像集。
S5、利用所述用户肖像集训练多个预先构建的分类器,将训练完成的多 个分类器聚合得到用户模型。进一步地,所述分类器的确定根据用户肖像子 集的数量确定。
例如,存在3个用户肖像子集,则分类器的数量为3个。较佳地,本发 明实施例利用如下特征提取算法对所述用户肖像集进行特征提取,得到用户 特征Oq
Figure BDA0002474712150000081
其中,Wiq为所述用户肖像集中第i个用户肖像子集内的第q个用户肖像, Xi为所述第i个用户肖像子集的所属类别,θ为误差因子。
本实施例通过特征提取,可以提高训练的效率,减少计算资源的浪费。
较佳的,当所述用户肖像集完成上述特征提取过程后,得到所述用户特 征集,为了更好的对所述分类器进行计算,本发明实施例将所述用户特征集 进行分类存储,以便后续分别训练多个分类器。
进一步地,本发明实施例利用所述用户特征集对预构建的分类器进行训 练,得到用户模型,其中,所述分类器的个数取决于所述用户特征的标签的 个数。
详细地,所述分类器c(x)如下:
c(x)=argmaxP(ai,c)ПP(ak|ai,c)
Figure BDA0002474712150000082
Figure BDA0002474712150000083
其中,ai为所述用户特征集中的用户特征,ak为ai对应的用户肖像(即分 类后的数据),c为用户标签(即用户类别),n为所述用户特征集中用户特 征的个数,P(ai,c)为所述用户特征和所述用户标签同时出现的概率, P(ak|ai,c)为所述用户特征和所述用户标签同时出现时所述用户肖像出现的 概率,F(ai,c)指ai和c同时出现的次数,F(ak,ai,c)指ai、ak和c同时出现的 次数。
较佳地,对于所述分类器得到的分类结果,本发明实施例利用如下相似 性算法计算所述分类结果与目标结果的相似度ρX,Yi
Figure BDA0002474712150000091
其中,X为所述分类结果,μX为所述分类结果的均值,Y为目标结果,
Figure BDA0002474712150000092
为,
Figure BDA0002474712150000093
为所述目标结果的均值,i是所述目标结果的个数,σX为所述分类结果的方 差,
Figure BDA0002474712150000094
为所述目标结果的方差。
将所述相似度与预设的相似阈值进行对比,若所述相似度小于或等于所 述相似阈值,则确定所述分类结果不准确,调整所述分类器的参数重新进行 分类;若所述相似度大于所述相似阈值,则确定所述分类结果准确,得到训 练完成的分类器,将所述用户肖像集中每个用户肖像子集训练完成的分类器 进行聚合,得到所述用户模型。
优选地,所述目标结果是利用带有不同标签的历史用户数据集预先训练 得到的。
进一步地,所述目标结果包括但不限于:正面类型(图4),拒绝反面类 型(图5),逾期反面类型(图6);不同的目标结果可以包含不同的信息, 具体的,所述正面类型包括:用户的基本信息、社会信息、信用信息、贷款 信息等信息;所述拒绝反面类型包括:用户的基本信息、社会信息、信用信 息、贷款信息和违法/欺诈信息等信息;所述逾期反面类型包括:用户的基本 信息、还款信息、信用信息和逾期程度等信息。
详细地,所述正面类型是指所有通过审批且未逾期的用户,这类用户拥 有所有正常用户、优质用户的各种特征;所述拒绝反面类型与所述正面类型 相反,是指所有被审批拒绝的用户,这类用户在审批中被拒绝;所述逾期反 面类型是指所有逾期用户,这类用户不同于所述拒绝反面类型中的用户,在 基本信息和征信信息中没有明显的缺陷从而未被拒绝,但其逾期行为是可以 从数据上反映出来,并能够被归集形成一定的特征的。
S6、获取待判别用户数据,将所述待判别用户数据输入至所述用户模型进行 判别,得到所述待判别用户数据对应的用户类型。
进一步地,所述待判别用户数据包括但不限于用户的基本信息(如,年 龄,性别等)、征信信息、社会关系等数据,但并不含有用户的标签,因此, 需要使用所述用户模型根据所述待判断用户数据进行判断。
较佳地,所述待判断用户数据可从用于存储用户数据的数据库中获取, 所述数据库可为mysql数据库,Orcale数据库等。
详细地,将所述待判别用户数据输入至所述用户模型进行判断,得到判 别结果,其中,所述判别结果即为所述待判断用户数据属于哪一种所述目标 结果。
进一步的,在得到判别结果之后,向决策系统传输所述判别结果,有利 于决策系统快速准确地决策。
本发明一可选实施例中,若将所述待判别用户数据输入至所述用户模型 后,所述用户模型输出的判别结果为所述待判别用户数据符合所述拒绝反面 类型,则当所述待判别用户数据对应的用户在提出业务请求的时候,可以根 据所述判别结果确定发送拒绝该用户办理业务的消息提醒。本发明实施例获 取用户数据集,对所述用户数据集进行数据清洗,得到清洗数据集,减少冗 余数据和错误数据;对所述清洗数据集进行分类,得到用分类数据集,将所 述清洗数据进行分类,以提高后续数据处理的效率;获取所述分类数据集中第一用户数据的多个邻近数据,在所述多个邻近数据中选择第二用户数据作 为样本数据,在所述样本数据中添加随机数,得到扩展数据,进行数据扩展, 提高用于数据的完整性;利用所述用户肖像集训练多个预先构建的分类器, 将训练完成的多个分类器进行聚合,得到用户模型,训练得到用户模型,进 而提高后续对待判别用户数据进行判别的准确性。本发明实施例无需依赖人 工判别,提高了判别的效率。因此,本发明实施例可以实现提高用户信息判 别的效率和准确率的目的。
如图2所示,是本发明一实施例提供的用户信息判别装置的模块示意图。
本发明所述用户信息判别装置100可以安装于电子设备中。根据实现的 功能,所述用户信息判别装置可以包括数据清洗模块101、分类模块102、数 据扩展模块103、数据组合模块104、模型训练模块105和数据判断模块106。 本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行, 并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器 中。
在本实施例中,关于各模块/单元的功能如下:
所述数据清洗模块101,用于获取用户数据集,对所述用户数据集进行数 据清洗,得到清洗数据集;
所述分类模块模块102,用于对所述清洗数据集进行分类,得到用分类数 据集,所述分类数据集包含多种类型的用户数据;
所述数据扩展模块103,用于获取所述分类数据集中第一用户数据的多个 邻近数据,在所述多个邻近数据中选择第二用户数据作为样本数据,在所述 样本数据中添加随机数,得到扩展数据;
所述数据组合模块104,用于将所述扩展数据与所述分类数据集进行组合, 得到用户肖像集;
所述模型训练模块105,用于利用所述用户肖像集训练多个预先构建的分 类器,将训练完成的多个分类器进行聚合,得到用户模型;
所述数据判断模块106,用于获取待判别用户数据,将所述待判别用户数 据输入至所述用户模型进行判别,得到所述待判别用户数据对应的用户类型。
详细地,所述用户信息判别装置各模块的具体实施步骤如下:
所述数据清洗模块101获取用户数据集,对所述用户数据集进行数据清 洗,得到清洗数据集。
本实施例中,所述用户数据集包括但不限于:用户的基本信息(如,年 龄,性别等)、征信信息、社会关系、用户标签。
本发明一可选实施例中,可直接从存储业务订单的数据库中获取所述用 户数据集。需要强调的是,为进一步保证上述用户数据集的私密和安全性, 上述用户数据集还可以存储于一区块链的节点中。
本实施例中,所述用户数据集可以包括不同用户类别的用户数据,具体 的,用户类别包括但不限于:审批通过类用户、审批拒绝类用户、逾期类用 户。
进一步的,所述对所述用户数据集进行数据清洗,包括:
获取所述用户数据集包含的数据类型;
当所述用户数据集包含非数值型的数据时,将所述非数值型的数据转化 为数值型数据;
判断所述用户数据集是否存在缺失值,当所述用户数据集存在缺失值时, 对所述用户数据集进行数据填充;或者
判断所述用户数据集是否存在异常值,当所述用户数据集存在异常值时, 删除所述用户数据集包含的异常值。
本实施例中,用户数据集包含的数据类型可以包含一种或多种。
本实施例中,用户数据集可以包含数值类型的数据,如用户年龄等,用 户数据集还可以包含数值类型的数据以及非数值类型的数据,例如,用户性 别等。
详细地,所述将所述非数值型的数据转化为数值型数据时,可以通过不 同数据来表示非数值数据的内容。例如,若将用户性别转化为数值型数据, 则用1表示用户性别为男性,用0表示用户性别为女性。
在本发明一可选实施例中,所述对所述用户数据集进行数据填充,包括:
将所述缺失值的相邻值分别输入预设的线性回归方程,通过所述线性回 归方程计算所述缺失值的线性预测值;
计算所述缺失值的预设邻域范围内的所有数值的第一平均值,得到所述 缺失值的平均预测值;
计算所述平均预测值与所述线性预测值的第二平均值,确定所述第二平 均值为所述缺失值。
较佳地,若用户数据集包含缺失的时间数据,根据缺失的时间顺序的前 后时间顺序进行顺序填充。
优选地,所述线性回归方程为:
Y=aX+b
其中,Y为所述线性预测值,X为所述相邻值,a,b为预设回归参数。
本发明另一可选实施例中,所述判断所述用户数据集是否存在异常值, 包括:
利用对比算法计算所述用户数据集中目标用户数据与所述目标用户数据 的邻近用户数据的局部可达密度比值;
判断所述局部可达密度比值是否小于或等于预设比值;
若所述局部可达密度比值小于或等于预设比值,确定所述目标用户数据 为异常值。
本实施例中,目标用户数据可以为用户数据集中任意用户数据。
具体的,本发明实施例利用如下对比算法计算所述目标用户数据与所述 目标用户数据的邻近用户数据的局部可达密度比值LFk(q):
Figure BDA0002474712150000131
Figure BDA0002474712150000132
其中,Nk(q)为所述目标用户数据的邻近用户数据的集合,p为所述目标 用户数据,q为Nk(q)中任一用户数据,ld(q)为Nk(q)内的数据密度,ld(p)为 所述目标用户数据的自身密度,k为Nk(q)中用户数据的个数,reach- distk(p,q)为用于计算p,q之间的距离的运算。
由于获取到的用户数据集可能存在着数据特征属性不一等情况,因此本 发明实施例通过对所述用户数据集集进行数据清洗,可以删除无效数据以及 错误数据,减少数据冗余,提高数据数据精确性,有利于基于清洗后的数据 进行准确的分析。
所述分类模块模块102对所述清洗数据集进行分类,得到用分类数据集, 所述分类数据集包含多种类型的用户数据。
在本实施例中,分类数据集包含的用户数据为清洗后得到的用户数据, 即清洗数据集中的用户数据。
具体的,对所述清洗数据集进行分类包括:将所述清洗数据集中的清洗 数据按照所述用户类别进行标签标记,并将标记完成的所述清洗数据按照所 述标签进行分类,得到由若干带有标签的用户数据组成的分类数据集,其中, 用户类别的名称可以为标签的具体内容。
所述数据扩展模块103获取所述分类数据集中第一用户数据的多个邻近 数据,在所述多个邻近数据中选择第二用户数据作为样本数据,在所述样本 数据中添加随机数,得到扩展数据集并将所述扩展数据。
由于获取用户数据集是从数据库中随机抽取,因此可能导致抽取的所述 用户数据集中具有某一用户类别的用户数据集较少,进而使得所述分类数据 集中某一用户类别的用户数据集较少,不利后续训练出优良分类功能的分类 模型,因此,本发明实施例对所述清洗数据进行数据扩展。
所述第一用户数据为某一用户类型中的用户数据,该类型用户数据的特 征为用户数据量小于等于预设数据量。
在具体实施时,第一用户数据的数量可以为一个或者多个,当第一用户 数据的数量为多个时,第一用户数据可以为相同类型的数据也可以为不同类 型的数据。
详细地,本发明实施例利用欧式距离算法计算所述清洗数据集中第一清 洗数据的多个邻近数据,所述欧式距离算法用于计算空间中两点之间的距离, 本发明实施例中用欧式距离来衡量所述清洗数据集中任一清洗数据与所述清 洗数据集中其他数据的距离,所述第二清洗数据可从所述多个临近数据中随 机选择得到。
较佳地,本发明实施例利用如下公式将随机数δ添加至样本xa中,得到扩 展数据S:
S=xi+δ*(xa-xi)
其中,xi为所述清洗数据集中第一清洗数据,xa为从所述k个近邻数据中 选择的第二清洗数据,δ为0到1之间的随机数。
所述数据组合模块104将所述扩展数据与所述分类数据集进行组合,得 到用户肖像集。
本实施例中,将所述扩展数据与所述分类数据集进行组合包括:当所述 第一清洗数据扩展完成后,将得到的所有扩展数据S并入所述清洗数据集, 得到用户肖像集。
所述模型训练模块105利用所述用户肖像集训练多个预先构建的分类器, 将训练完成的多个分类器聚合得到用户模型。
进一步地,所述分类器的确定根据用户肖像子集的数量确定。例如,存 在3个用户肖像子集,则分类器的数量为3个。较佳地,本发明实施例利用 如下特征提取算法对所述用户肖像集进行特征提取,得到用户特征Oq
Figure BDA0002474712150000141
其中,Wiq为所述用户肖像集中第i个用户肖像子集内的第q个用户肖像,Xi为所述第i个用户肖像子集的所属类别,θ为误差因子。
本实施例通过特征提取,可以提高训练的效率,减少计算资源的浪费。
较佳的,当所述用户肖像集完成上述特征提取过程后,得到所述用户特 征集,为了更好的对所述分类器进行计算,本发明实施例将所述用户特征集 进行分类存储,以便后续分别训练多个分类器。
进一步地,本发明实施例利用所述用户特征集对预构建的分类器进行训 练,得到用户模型,其中,所述分类器的个数取决于所述用户特征的标签的 个数。
详细地,所述分类器c(x)如下:
c(x)=argmaxP(ai,c)ПP(ak|ai,c)
Figure BDA0002474712150000151
Figure BDA0002474712150000152
其中,ai为所述用户特征集中的用户特征,ak为ai对应的用户肖像(即分 类后的数据),c为用户标签(即用户类别),n为所述用户特征集中用户特 征的个数,P(ai,c)为所述用户特征和所述用户标签同时出现的概率, P(ak|ai,c)为所述用户特征和所述用户标签同时出现时所述用户肖像出现的 概率,F(ai,c)指ai和c同时出现的次数,F(ak,ai,c)指ai、ak和c同时出现的 次数。
较佳地,对于所述分类器得到的分类结果,本发明实施例利用如下相似 性算法计算所述分类结果与目标结果的相似度
Figure BDA0002474712150000153
Figure BDA0002474712150000154
其中,X为所述分类结果,μX为所述分类结果的均值,Y为目标结果,
Figure BDA0002474712150000155
为,
Figure BDA0002474712150000156
为所述目标结果的均值,i是所述目标结果的个数,σX为所述分类结果的方 差,
Figure BDA0002474712150000157
为所述目标结果的方差。
将所述相似度与预设的相似阈值进行对比,若所述相似度小于或等于所 述相似阈值,则确定所述分类结果不准确,调整所述分类器的参数重新进行 分类;若所述相似度大于所述相似阈值,则确定所述分类结果准确,得到训 练完成的分类器,将所述用户肖像集中每个用户肖像子集训练完成的分类器 进行聚合,得到所述用户模型。
优选地,所述目标结果是利用带有不同标签的历史用户数据集预先训练 得到的。
进一步地,所述目标结果包括但不限于:正面类型(图4),拒绝反面类 型(图5),逾期反面类型(图6);不同的目标结果可以包含不同的信息, 具体的所述正面类型包括:用户的基本信息、社会信息、信用信息、贷款信 息等信息;所述拒绝反面类型包括:用户的基本信息、社会信息、信用信息、 贷款信息和违法/欺诈信息等信息;所述逾期反面类型包括:用户的基本信息、 还款信息、信用信息和逾期程度等信息。
详细地,所述正面类型是指所有通过审批且未逾期的用户,这类用户拥 有所有正常用户、优质用户的各种特征;所述拒绝反面类型与所述正面类型 相反,是指所有被审批拒绝的用户,这类用户在审批中被拒绝;所述逾期反 面类型是指所有逾期用户,这类用户不同于所述拒绝反面类型中的用户,在 基本信息和征信信息中没有明显的缺陷从而未被拒绝,但其逾期行为是可以 从数据上反映出来,并能够被归集形成一定的特征的。
所述数据判断模块106获取待判别用户数据,将所述待判别用户数据输 入至所述用户模型进行判别,得到所述待判别用户数据对应的用户类型。
进一步地,所述待判别用户数据包括但不限于用户的基本信息(如,年 龄,性别等)、征信信息、社会关系等数据,但并不含有用户的标签,因此, 需要使用所述用户模型根据所述待判断用户数据进行判断。
较佳地,所述待判断用户数据可从用于存储用户数据的数据库中获取, 所述数据库可为mysql数据库,Orcale数据库等。
详细地,将所述待判别用户数据输入至所述用户模型进行判断,得到判 别结果,其中,所述判别结果即为所述待判断用户数据属于哪一种所述目标 结果。
进一步的,在得到判别结果之后,向决策系统传输所述判别结果,有利 于决策系统快速准确地决策。
本发明一可选实施例中,若将所述待判别用户数据输入至所述用户模型 后,所述用户模型输出的判别结果为所述待判别用户数据符合所述拒绝反面 类型,则当所述待判别用户数据对应的用户在提出业务请求的时候,可以根 据所述判别结果确定发送拒绝该用户办理业务的消息提醒。
如图3所示,是本发明实现用户信息判别方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储 在所述存储器11中并可在所述处理器10上运行的计算机程序,如用户信息 判别程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储 介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器 等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电 子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在 另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配 备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器 11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储 器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如用户 信息判别程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的 数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封 装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路 所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微 处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器 10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整 个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者 模块(例如执行用户信息判别程序等),以及调用存储在所述存储器11内的 数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect, 简称PCI)总线或扩展工业标准结构(extended industry standard architecture, 简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所 述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通 信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3 示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更 多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源 (比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器 10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管 理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、 电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。 所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再 赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接 口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用 于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器 (Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可 以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是 LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当 的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显 示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构 的限制。
所述电子设备1中的所述存储器11存储的用户信息判别程序12是多个 指令的组合,在所述处理器10中运行时,可以实现:
获取用户数据集,对所述用户数据集进行数据清洗,得到清洗数据集;
对所述清洗数据集进行分类,得到分类数据集,所述分类数据集包含多 种类型的用户数据;需要强调的是,为进一步保证上述用户数据集的私密和 安全性,上述用户数据集还可以存储于一区块链的节点中;
获取所述分类数据集中第一用户数据的多个邻近数据,在所述多个邻近 数据中选择第二用户数据作为样本数据,在所述样本数据中添加随机数,得 到扩展数据;
将所述扩展数据与所述分类数据集进行组合,得到用户肖像集;
利用所述用户肖像集训练多个预先构建的分类器,将训练完成的多个分 类器进行聚合,得到用户模型;
获取待判别用户数据,将所述待判别用户数据输入至所述用户模型进行 判别,得到所述待判别用户数据对应的用户类型。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式 实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介 质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何 实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只 读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和 方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示 意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可 以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作 为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件 功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节, 而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实 现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限 制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落 在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将 权利要求中的任何附关联图表记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权 利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件 来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算 法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心 化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中 包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个 区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制, 尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当 理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术 方案的精神和范围。

Claims (10)

1.一种用户信息判别方法,其特征在于,所述方法包括:
获取用户数据集,对所述用户数据集进行数据清洗,得到清洗数据集;
对所述清洗数据集进行分类,得到分类数据集,所述分类数据集包含多种类型的用户数据;
获取所述分类数据集中第一用户数据的多个邻近数据,在所述多个邻近数据中选择第二用户数据作为样本数据,在所述样本数据中添加随机数,得到扩展数据;
将所述扩展数据与所述分类数据集进行组合,得到用户肖像集;
利用所述用户肖像集训练多个预先构建的分类器,将训练完成的多个分类器进行聚合,得到用户模型;
获取待判别用户数据,将所述待判别用户数据输入至所述用户模型进行判别,得到所述待判别用户数据对应的用户类型。
2.如权利要求1所述的用户信息判别方法,其特征在于,所述对所述用户数据集进行数据清洗,包括:
获取所述用户数据集包含的数据类型;
当所述用户数据集包含非数值型的数据时,将所述非数值型的数据转化为数值型数据;
判断所述用户数据集是否存在缺失值,当所述用户数据集存在缺失值时,对所述用户数据集进行数据填充;或者
判断所述用户数据集是否存在异常值,当所述用户数据集存在异常值时,删除所述用户数据集包含的异常值。
3.如权利要求2所述的用户信息判别方法,其特征在于,所述对所述用户数据集进行数据填充,包括:
将所述缺失值的相邻值分别输入预设的线性回归方程,通过所述线性回归方程计算所述缺失值的线性预测值;
计算所述缺失值的预设邻域范围内的所有数值的第一平均值,得到所述缺失值的平均预测值;
计算所述平均预测值与所述线性预测值的第二平均值,确定所述第二平均值为所述缺失值。
4.如权利要求3所述的用户信息判别方法,其特征在于,所述线性回归方程为:
Y=aX+b
其中,Y为所述线性预测值,X为所述相邻值,a,b为预设回归参数。
5.如权利要求2所述的用户信息判别方法,其特征在于,所述用户数据集存储于区块链中,所述判断所述用户数据集是否存在异常值,包括:
利用对比算法计算所述用户数据集中目标用户数据与所述目标用户数据的邻近用户数据的局部可达密度比值;
判断所述局部可达密度比值是否小于或等于预设比值;
若所述局部可达密度比值小于或等于预设比值,确定所述目标用户数据为异常值。
6.一种用户信息判别装置,其特征在于,所述装置包括:
数据清洗模块,用于获取用户数据集,对所述用户数据集进行数据清洗,得到清洗数据集;
分类模块,用于对所述清洗数据集进行分类,得到分类数据集,所述分类数据集包含多种类型的用户数据;
数据扩展模块,用于获取所述分类数据集中第一用户数据的多个邻近数据,在所述多个邻近数据中选择第二用户数据作为样本数据,在所述样本数据中添加随机数,得到扩展数据;
数据组合模块,用于将所述扩展数据与所述分类数据集进行组合,得到用户肖像集;
模型训练模块,用于利用所述用户肖像集训练多个预先构建的分类器,将训练完成的多个分类器进行聚合,得到用户模型;
数据判断模块,用于获取待判别用户数据,将所述待判别用户数据输入至所述用户模型进行判别,得到所述待判别用户数据对应的用户类型。
7.如权利要求6所述的用户信息判别装置,其特征在于,所述数据清洗模块包括:
获取单元,用于获取用户数据集以及获取所述用户数据集包含的数据类型;
数据转化单元,用于当所述用户数据集包含非数值型的数据时,将所述非数值型的数据转化为数值型数据;
数据填充单元,用于判断所述用户数据集是否存在缺失值,当所述用户数据集存在缺失值时,对所述用户数据集进行数据填充;
数据删除单元,用于判断所述用户数据集是否存在异常值,当所述用户数据集存在异常值时,删除所述用户数据集包含的异常值。
8.如权利要求7所述的用户信息判别装置,其特征在于,所述用户数据集存储于区块链中,所述数据填充单元对所述用户数据集进行数据填充包括:
将所述缺失值的相邻值分别输入预设的线性回归方程,通过所述线性回归方程计算所述缺失值的线性预测值;
计算所述缺失值的预设邻域范围内的所有数值的第一平均值,得到所述缺失值的平均预测值;
计算所述平均预测值与所述线性预测值的第二平均值,确定所述第二平均值为所述缺失值。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任一所述的用户信息判别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一所述的用户信息判别方法。
CN202010361370.3A 2020-04-30 2020-04-30 用户信息判别方法、装置及计算机可读存储介质 Pending CN111651440A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010361370.3A CN111651440A (zh) 2020-04-30 2020-04-30 用户信息判别方法、装置及计算机可读存储介质
PCT/CN2021/078123 WO2021218336A1 (zh) 2020-04-30 2021-02-26 用户信息判别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010361370.3A CN111651440A (zh) 2020-04-30 2020-04-30 用户信息判别方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111651440A true CN111651440A (zh) 2020-09-11

Family

ID=72352659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010361370.3A Pending CN111651440A (zh) 2020-04-30 2020-04-30 用户信息判别方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111651440A (zh)
WO (1) WO2021218336A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269793A (zh) * 2020-09-16 2021-01-26 连尚(新昌)网络科技有限公司 一种基于区块链的检测用户类型的方法与设备
CN112347094A (zh) * 2020-11-06 2021-02-09 蘑菇物联技术(深圳)有限公司 工业通用设备物联数据清洗方法、装置和存储介质
CN112702408A (zh) * 2020-12-20 2021-04-23 国网山东省电力公司临沂供电公司 基于多感知功能的物联网系统及方法
WO2021218336A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 用户信息判别方法、装置、设备及计算机可读存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762423A (zh) * 2021-11-09 2021-12-07 北京世纪好未来教育科技有限公司 数据处理和模型训练方法、装置、电子设备及存储介质
CN114647640B (zh) * 2022-04-05 2024-02-27 西北工业大学 一种基于人工智能的动车组转向架业务数据清洗方法
CN116955444A (zh) * 2023-06-15 2023-10-27 共享易付(广州)网络科技有限公司 基于大数据分析的采集噪声点挖掘方法及系统
CN116958717B (zh) * 2023-09-20 2023-12-12 山东省地质测绘院 基于机器学习的地质大数据智能清洗方法
CN117633706A (zh) * 2023-11-30 2024-03-01 众悦(威海)信息技术有限公司 一种用于信息系统数据融合的数据处理方法
CN117891812B (zh) * 2024-03-18 2024-05-24 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201820175A (zh) * 2016-11-22 2018-06-01 財團法人資訊工業策進會 資料庫轉換伺服器及其資料庫轉換方法
CN106777024A (zh) * 2016-12-08 2017-05-31 北京小米移动软件有限公司 识别恶意用户的方法及装置
CN108629633A (zh) * 2018-05-09 2018-10-09 浪潮软件股份有限公司 一种基于大数据建立用户画像的方法及系统
CN108876470B (zh) * 2018-06-29 2022-03-01 腾讯科技(深圳)有限公司 标签用户扩展方法、计算机设备及存储介质
CN110019563B (zh) * 2018-08-09 2022-12-09 北京首钢自动化信息技术有限公司 一种基于多维数据的肖像建模方法和装置
CN110503459B (zh) * 2019-07-19 2023-09-15 平安科技(深圳)有限公司 基于大数据的用户信用度评估方法、装置及存储介质
CN111080355B (zh) * 2019-12-10 2022-12-20 蚂蚁胜信(上海)信息技术有限公司 用户集合的展示方法、装置和电子设备
CN111651440A (zh) * 2020-04-30 2020-09-11 深圳壹账通智能科技有限公司 用户信息判别方法、装置及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021218336A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 用户信息判别方法、装置、设备及计算机可读存储介质
CN112269793A (zh) * 2020-09-16 2021-01-26 连尚(新昌)网络科技有限公司 一种基于区块链的检测用户类型的方法与设备
CN112347094A (zh) * 2020-11-06 2021-02-09 蘑菇物联技术(深圳)有限公司 工业通用设备物联数据清洗方法、装置和存储介质
CN112347094B (zh) * 2020-11-06 2024-03-15 蘑菇物联技术(深圳)有限公司 工业通用设备物联数据清洗方法、装置和存储介质
CN112702408A (zh) * 2020-12-20 2021-04-23 国网山东省电力公司临沂供电公司 基于多感知功能的物联网系统及方法

Also Published As

Publication number Publication date
WO2021218336A1 (zh) 2021-11-04

Similar Documents

Publication Publication Date Title
CN111651440A (zh) 用户信息判别方法、装置及计算机可读存储介质
CN112541745B (zh) 用户行为数据分析方法、装置、电子设备及可读存储介质
CN113592019B (zh) 基于多模型融合的故障检测方法、装置、设备及介质
CN112380859A (zh) 舆情信息的推荐方法、装置、电子设备及计算机存储介质
CN112016905B (zh) 基于审批流程的信息展示方法、装置、电子设备及介质
CN111652280A (zh) 基于行为的目标物数据分析方法、装置及存储介质
WO2022127339A1 (zh) 基于网站注册的用户画像生成方法、装置、设备和介质
CN111652278A (zh) 用户行为检测方法、装置、电子设备及介质
CN111696663A (zh) 疾病风险的分析方法、装置、电子设备及计算机存储介质
CN113688923A (zh) 订单异常智能检测方法、装置、电子设备及存储介质
CN114491047A (zh) 多标签文本分类方法、装置、电子设备及存储介质
CN111639706A (zh) 基于图像集的个人风险画像生成方法及相关设备
CN113064994A (zh) 会议质量评估方法、装置、设备及存储介质
CN111984898A (zh) 基于大数据的标签推送方法、装置、电子设备及存储介质
CN113516417A (zh) 基于智能建模的业务评估方法、装置、电子设备及介质
CN112885423A (zh) 疾病标签检测方法、装置、电子设备及存储介质
CN115661531A (zh) 基于图文的早期口腔癌识别方法、装置、设备及存储介质
CN113704474A (zh) 银行网点设备操作指引生成方法、装置、设备及存储介质
CN111460293B (zh) 信息推送方法、装置及计算机可读存储介质
CN114708073B (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
CN113888265A (zh) 产品推荐方法、装置、设备及计算机可读存储介质
CN114996386A (zh) 业务角色识别方法、装置、设备及存储介质
CN112580505B (zh) 网点开关门状态识别方法、装置、电子设备及存储介质
CN114219367A (zh) 用户评分方法、装置、设备及存储介质
CN111522902B (zh) 数据录入方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination