CN109460440B - 一种基于权重值的画像处理方法、装置及设备 - Google Patents

一种基于权重值的画像处理方法、装置及设备 Download PDF

Info

Publication number
CN109460440B
CN109460440B CN201811089680.3A CN201811089680A CN109460440B CN 109460440 B CN109460440 B CN 109460440B CN 201811089680 A CN201811089680 A CN 201811089680A CN 109460440 B CN109460440 B CN 109460440B
Authority
CN
China
Prior art keywords
sample
class
data
characteristic data
saturation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811089680.3A
Other languages
English (en)
Other versions
CN109460440A (zh
Inventor
金戈
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811089680.3A priority Critical patent/CN109460440B/zh
Publication of CN109460440A publication Critical patent/CN109460440A/zh
Application granted granted Critical
Publication of CN109460440B publication Critical patent/CN109460440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于权重值的画像处理方法、装置及设备,其中方法包括:获取每个画像的特征数据,并计算特征数据的饱和度;根据饱和度,选取符合样本规则的特征数据作为样本数据;利用逻辑回归算法计算样本数据的样本权重值;提取每个样本权重值对应的样本画像,并将样本权重值与样本画像进行对应存储在数据库中;根据数据库中的样本权重值对样本画像进行选取或分类,将结果在显示屏上显示。通过上述方案,无论画像特征数据的饱和度的数值是高还是低,都能利用逻辑回归算法算出各个画像对应的权重值,这样,就可以根据这些权重值对画像进行选择和分类操作,减少了由于低饱和度画像的数据丢失,造成画像的筛选和分类的准确度降低的情况。

Description

一种基于权重值的画像处理方法、装置及设备
技术领域
本申请涉及图像处理技术领域,特别是涉及一种基于权重值的画像处理方法、装置及设备。
背景技术
随着人们生活水平的提高,为群众服务的行业越来越多,一些服务公司的员工也越来越多,为了方便公司管理,根据员工的画像对这些员工进行挑选或分类,成为公司的重要问题。
目前,一般通过员工画像的特征进行选取和分类,现有的方式根据画像的饱和度,通过二分类的方式将饱和度较低的特征或填充失值或舍弃。然后根据饱和度的大小筛选需要的员工画像,或者为员工画像进行分类,进而完成对员工的筛选和分类。
但是,这种方式使得对画像特征的选取不够精确,比较容易造成饱和度较低的画像特征出现错误或者无法得到饱和度较低的画像特征,影响画像的筛选和分类效果。
发明内容
有鉴于此,本申请提供了一种基于权重值的画像处理方法、装置及设备。主要目的在于解决画像特征的选取不够精确,比较容易造成饱和度较低的画像特征出现错误或者无法得到饱和度较低的画像特征,影响画像的筛选和分类效果的技术问题。
依据本申请的第一方面,提供了一种基于权重值的画像处理方法,所述方法包括:
获取每个画像的特征数据,并计算所述特征数据的饱和度;
根据所述饱和度,选取符合样本规则的特征数据作为样本数据;
利用逻辑回归算法计算样本数据的样本权重值;
提取每个样本权重值对应的样本画像,并将所述样本权重值与样本画像进行对应存储在数据库中;
根据数据库中的样本权重值对所述样本画像进行选取或分类,并将选取或分类结果推送至显示屏进行显示。
依据本申请的第二方面,提供了一种基于权重值的画像处理装置,所述装置包括:
获取单元,用于获取每个画像的特征数据,并计算所述特征数据的饱和度;
样本选取单元,用于根据所述饱和度,选取符合样本规则的特征数据作为样本数据;
计算单元,用于利用逻辑回归算法计算样本数据的样本权重值;
存储单元,用于提取每个样本权重值对应的样本画像,并将所述样本权重值与样本画像进行对应存储在数据库中;
处理单元,用于根据数据库中的样本权重值对所述样本画像进行选取或分类,并将选取或分类结果推送至显示屏进行显示。
依据本申请的第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的基于权重值的画像处理方法的步骤。
依据本申请的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基于权重值的画像处理方法的步骤。
借由上述技术方案,本申请提供的一种基于权重值的画像处理方法、装置和设备,无论画像特征数据的饱和度的数值是高还是低,都能利用逻辑回归算法算出各个画像对应的权重值,这样,就可以根据这些权重值对画像进行筛选和分类操作,减少了由于低饱和度画像的数据丢失,造成画像的筛选和分类的准确度降低的情况。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请的基于权重值的画像处理方法的一个实施例的流程图;
图2为本申请的基于权重值的画像处理装置的一个实施例的结构框图;
图3为本申请的计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种基于权重值的画像处理方法,能够根据每个画像的饱和度筛选样本数据,然后利用逻辑回归算法计算样本数据的样本权重值,以供根据得到的样本权重值对画像进行选取或分类,这样能够提高画像选取或分类的准确率。
如图1所示,本申请实施例提供了一种基于权重值的画像处理方法,方法包括如下步骤:
步骤101,获取每个画像的特征数据,并计算特征数据的饱和度。
在该步骤中,每个画像的特征数据可以是一个或者多个,该特征数据可以是:皮肤颜色、眼睛大小、头发长度等,然后获取各个特征数据的彩度数据和明度数据,将彩度数据除以明度数据计算各个特征对应的饱和度。由于彩度数据≤明度数据,因此计算得出的饱和度的范围是0至1。
步骤102,根据饱和度,选取符合样本规则的特征数据作为样本数据。
在该步骤中,样本规则可以是选取在设置饱和度范围内的特征数据作为样本数据,用户可以实际情况设置选取样本数据的饱和度范围。样本规则也可以是按照饱和度的大小对这些特征数据进行分组,得到多组样本数据。用户可以根据自己的实际需要对样本规则进行更改设置。
步骤103,利用逻辑回归算法计算样本数据的样本权重值。
在该步骤中,利用逻辑回归算法能够对比较杂乱无章的样本数据进行梳理,得到与样本数据比较接近的逻辑回归函数,然后再利用该逻辑回归函数计算每个样本数据对应的样本权重值。
步骤104,提取每个样本权重值对应的样本画像,并将样本权重值与样本画像进行对应存储在数据库中。
在该步骤中,得到样本权重值后,为了便于后续画像的选取和分类,需要将各个样本权重值与相应的样本画像进行对应存储。这样在进行选取或分类时,只需从数据库中调取即可。
存储方式可以是列表存储、键值对存储、超链接存储等。
步骤105,根据数据库中的样本权重值对样本画像进行选取或分类,并将选取或分类结果推送至显示屏进行显示。
在该步骤中,显示屏上会有两个选择键,一个是选取键,另一个是分类键。当用户触发显示屏上的选取键之后,会在显示屏列出多个选取条件(例如,大眼睛的画像、长头发的画像,也可以用户手动输入对应的权重值/权重值区间),用户从多个选取条件中选择自己需要的一项,然后根据选择的该项选取条件确定出用户需要的一个或多个样本权重值,并从数据库中将这些样本权重值对应的样本画像提取出来,并按照样本权重值由大到小或者由小到大的顺序在显示屏上进行显示。当用户触发显示屏上的分类键后,就会根据数据库中存储的样本权重值进行归类,得出各个类别对应的样本权重值范围,然后将各个类别的样本权重值范围对应的样本画像,按照确定的类别进行划分,最后将各个类别及其对应的样本画像一同在显示屏上进行显示。
通过上述技术方案,无论画像特征数据的饱和度的数值是高还是低,都能利用逻辑回归算法算出各个画像对应的权重值,这样,就可以根据这些权重值对画像进行筛选和分类操作,减少了由于低饱和度画像的数据丢失,造成画像的筛选和分类的准确度降低的情况。
步骤102具体包括:
步骤1021,去除饱和度为0的特征数据。
在该步骤中,饱和度为0的画像属于没有色彩的空白画像,空白画像对于后续的画像选取或分类没有任何意义,因此为了避免这些空白画像的干扰,需要将饱和度为0的特征数据及其对应的画像剔除。
步骤1022,在除去饱和度为0的特征数据以外的剩余特征数据中,将饱和度为1的特征数据划分为主特征数据,将饱和度小于1的特征数据划分为次特征数据。
在该步骤中,饱和度为1的特征数据对应的画像的色彩比较鲜明,因此将这些特征数据作为主特征数据,饱和度大于0小于1的特征数据的色彩鲜明度相对较低,将其划分为次特征数据。
步骤1023,选取全部主特征数据和一个次特征数据共同组成一个一类样本,选取全部主特征数据作为二类样本,其中,次特征数据的数量为Q,对应一类样本的数量为Q,Q≥1。
在该步骤中,将一类样本中的次特征数据对应的饱和度设置为1,使得一类样本的饱和度全体为1,这样便于后续利用逻辑回归算法进行权重值的计算。二类样本中包含全部的主特征数据是用来作为一类样本的参考数据,便于后续进行逻辑回归算法计算相应的权重值。
上述步骤103具体包括:
步骤1031,为一类样本中的主特征数据和次特征数据赋予对应的数值,以及为二类样本中的主特征数据赋予对应的数值。
在该步骤中,为了便于后续进行逻辑回归计算,需要为主特征数据和次特征数据设置相应的数值,然后将这些数值与一类样本和二类样本进行对应。
步骤1032,将一类样本中的主特征数据和次特征数据对应的数值代入逻辑回归函数,计算一类样本中主特征数据对应的一类主权重值和次特征数据对应的一类次权重值。
在该步骤中,相应的逻辑回归(Sigmoid)函数为:
P(y=1|x,w)=1/(1+exp(-(w0+w1x1+w2x2+…+wnxn)));
其中,P是饱和度为1的概率,y是饱和度,x是为特征数据赋予的数值,w是得出的权重值。
例如,将一类样本中根据上述步骤1031得到的一组x值,其中主特征数据对应的数值为Xa={X1,X2,…,Xn},次特征数据对应的数值为Xb,组合在一起,即,{X1,X2,…,Xn,Xb}代入上式,得到对应的一组权重值{W1,W2,…,Wn,Wb},对应一类主权重值为Wa={W1,W2,…,Wn},一类次权重值为Wb
这样,将Q组一类样本中对应的Q组x值,依次输入逻辑回归函数就会对应得到Q组一类主权重值,和Q个一类次权重值Wb={Wb1,Wb2,…,WbQ}。
步骤1033,将二类样本赋予的数值代入逻辑回归函数,计算二类样本中主特征数据对应的二类主权重值。
例如,将二类样本中主特征数据对应的x值,即Xc={Xc1,Xc2,…,Xcn}代入Sigmoid函数,得到二类主权重值为Wc={Wc1,Wc2,…,Wcn}。
步骤1034,将一类次权重值以及二类主权重值组合为样本权重值。
在该步骤中,由于通过二类样本中没有次特征数据的干扰,得到的主权重值比较准确,需要将一类主权重值去除。将二类主权重值作为主特征数据的权重值,将得到的Q个一类次权重值作为次特征数据的权重值,二者组合在一起就是对应样本数据的样本权重值。
例如,在上述例子中经过逻辑回归函数得到的一类次权重值为Wb={Wb1,Wb2,…,WbQ},二类主权重值为Wc={Wc1,Wc2,…,Wcn},则组合后的样本权重值为{Wb1,Wb2,…,WbQ,Wc1,Wc2,…,Wcn}。
通过上述技术方案,利用逻辑回归算法对一类样本和二类样本进行计算,得到比较准确的样本权重值(每个样本权重值对应一个样本画像),这样,使得根据该样本权重值对样本画像进行筛选或分类的准确率得到有效提高。
步骤1031具体包括:
步骤10311,获取主特征数据和次特征数据对应的画像的个人信息。
在该步骤中,公司的服务器中会将每个员工的个人信息存储起来,以便后续进行查找和使用。每个主特征数据和次特征数据都对应一个画像,每个画像代表一个员工,就可以直接从服务器中调取主特征数据对应画像的个人信息,以及次特征数据对应画像的个人信息。其中,个人信息包括:收入、教育程度、年龄、身高、性别、爱好等。
步骤10312,根据获取的个人信息为主特征数据和次特征数据进行类别划分。
例如,将获取的个人信息分为收入类、教育程度类、年龄类、身高类、性别类、爱好类等。
步骤10313,根据划分的类别,为一类样本中的主特征数据和次特征数据赋予对应的数值,以及为二类样本中的主特征数据赋予对应的数值。
例如,根据类别赋予第一位对应的数值,例如,收入类第一位数值为1,教育程度类第一位数值为2,年龄类第一位数值为3,身高类第一位数值为4,性别类第一位数值为5,爱好类第一位数值为6。
若个人信息是收入、教育程度、年龄或身高,则直接将收入金额、教育等级(小学1级,中学为2级,大学为3级,研究生及以上为4级)、年龄数值、身高数值(单位cm)作为第二位及以后位数的数值。
即,收入类为x=1+收入值,教育程度类为x=2+教育等级,年龄类为x=3+年龄值,身高类为x=4+身高值。
若个人信息是性别,则男性赋予数值x=51,女性赋予数值x=52。
若个人信息是爱好,则为各种不同的爱好设置相应的第二位数值,例如,音乐为x=61,跳舞为x=62,运动为x=63,美术为x=64,读写为x=65等。
通过上述技术方案,能够为不同的画像对应员工的特征数据,赋予符合员工特点的数值,这样就可以将这些数值代入逻辑回归函数中,进行权重值的计算,得出的权重值能够与每个画像对应员工的特点进行对应,使得根据权重值对画像进行选取或分类的准确度得到有效提高。
在步骤1033之前还包括:
步骤1033’,根据一类主权重值、一类次权重值以及二类主权重值,重新计算一类次权重值,公式如下:
新一类次权重值=一类次权重值*(二类主权重值/一类主权重值)。
则对应步骤1033具体包括:
将新一类次权重值以及二类主权重值组合为样本权重值。
例如,经过逻辑回归函数的计算得到的一类主权重值为Wa={W1,W2,…,Wn},一类次权重值为Wb={Wb1,Wb2,…,WbQ},二类主权重值为Wc={Wc1,Wc2,…,Wcn},则新的一类次权重值Mb=Wb*(Wc1+Wc2+…+Wcn)/(W1+W2+…+Wn)。由于一类次权重值有Q项,则对应的新的一类次权重值Mb={Mb1,Mb2,…,MbQ}。
则由新一类次权重值和二类主权重值组合的样本权重值为{Mb1,Mb2,…,MbQ,Wc1,Wc2,…,Wcn}。
步骤105具体包括:
步骤1051,根据画像选取命令,确定待选取画像的待选权重值范围,其中,预先将每个画像选取命令以及对应的权重值范围进行关联,并存储在数据库中。
步骤1052,从数据库中提取待选权重值范围内对应的样本画像,作为待选取画像,并推送至显示屏进行显示。
在上述方案中,画像选取命令是用户根据自己的实际需要选取对应类别的人物画像,选取过程中根据各个画像对应的权重值进行筛选的。具体的画像选取命令以及各个画像选取命令对应的权重值范围,可以根据用户的不同需求类型进行设定。
例如,画像是某公司的员工画像,则对应的画像选取命令有:业务能力高的员工、业务能力中等的员工、业务能力低的员工,对应的权重值范围是:业务能力高的员工权重值范围为大于50、业务能力中等的员工权重值范围为20-50(包含50)、业务能力低的员工权重值范围为0-20(包含20)。
若用户需要选取业务能力低的员工,对这些员工进行培训学习,只需触发显示屏上的选择键,并在列出的选项中选择业务能力低的员工。然后系统就会从数据库中调取对应的权重值范围为0-20(不包含20),再从数据库中获取样本权重值在该范围内的所有样本画像,并将这些样本画像及其对应的员工信息(姓名、年龄、学历、所属部门、工位号等)全部通过显示屏显示给用户。用户就可以根据显示的画像和员工信息,找到对应的员工,并通知其进行培训学习。也可以是在员工信息中加入邮箱地址或者手机号,这样就可以将培训时间、地点、内容等形成通知消息,将通知消息通过邮箱或手机号通知给业务能力低的员工。
如果没有找到业务能力低的员工对应的样本画像,则在显示屏上显示“未找到”。
步骤105具体还包括:
步骤1053,接收到画像分类命令后,将样本权重值,按照数据库中存储的各个画像类别对应的分类权重值范围进行分类,其中,预先将各个画像类别以及对应的分类权重值范围进行关联,并存储在数据库中。
步骤1054,从数据库中获取各个画像类别中样本权重值对应的样本画像,将样本画像与相应的画像类别进行关联,并推送至显示屏进行显示。
在上述技术方案中,画像分类命令包括:根据业务能力进行分类、根据教育程度进行分类、根据年龄进行分类等,对应的各个画像的类别包括:业务能力高的员工、业务能力中等的员工、业务能力低的员工,高学历员工、中等学历员工、低学历员工,老年员工、中年员工、青年员工。并分别为每一个类别设置对应的权重值范围。
例如,接收到的画像分类命令是根据年龄进行分类,则调取数据库中老年员工、中年员工、青年员工及其对应的权重值范围,为:老年员工权重范围是大于10、中年员工权重范围是5-10(包含10)、青年员工权重范围是0-5(包含5),在数据库中存储的样本权重值进行查找,若只查找到中年员工和青年员工对应的权重值,则将员工画像划分为两类分别为:中年员工和青年员工,并将两类对应的画像及其员工信息推送至显示屏进行显示。
通过上述实施例的基于权重值的画像处理方法,无论画像特征数据的饱和度的数值是高还是低,都能利用逻辑回归算法算出各个画像对应的权重值,这样,就可以根据这些权重值对画像进行筛选和分类操作,减少了由于低饱和度画像的数据丢失,造成画像的筛选和分类的准确度降低的情况。
在本申请的另一个实施例的基于权重值的画像处理方法的包括如下步骤:
一、选取样本
获取公司员工(例如,保险公司的保险代理人)的画像,提取每个画像的对应的特征,并获取各个特征的彩度数据和明度数据,将彩度数据除以明度数据计算各个特征对应的饱和度。将饱和度为1的特征定义为主特征,饱和度小于1的特征定义为次特征。
选取饱和度为1的所有主特征,以及一项饱和度低于1的次特征,将该饱和度低于1的次特征的饱和度设定为1,这样所有的主特征和该一项次特征被称为一类样本。由于次特征有Q项,每项次特征与所有主特征作为一组一类样本,因此得到的一类样本有Q组。这样得到的一类样本为:所有主特征+一项次特征。
将饱和度为1的所有主特征作为二类样本,二类样本为:所有主特征。
二、利用逻辑回归方式计算主特征和次特征权重
1、获取一类样本和二类样本中各个员工的特征信息(例如,收入、教育程度、年龄、身高、性别、爱好等),并为这些特征赋予相应数值x。
具体如下:
对特征信息进行类别划分,并根据类别为x值的第一位赋予对应的数值,例如,收入类x的第一位数值为1,教育程度类x的第一位数值为2,年龄类x的第一位数值为3,身高类x的第一位数值为4,性别类x的第一位数值为5,爱好类x的第一位数值为6。
若代理人的特征信息是收入、教育程度、年龄或身高,则直接将收入金额、教育等级(小学1级,中学为2级,大学为3级,研究生及以上为4级)、年龄数值、身高数值(单位cm)作为数值x第二位及以后位数的数值。
即,收入类为x=1+收入值,教育程度类为x=2+教育等级,年龄类为x=3+年龄值,身高类为x=4+身高值。
若代理人的特征信息是性别,则男性赋予数值x=51,女性赋予数值x=52。
若代理人的特征信息是爱好,则为各种不同的爱好设置相应的数值作为x值的第二位数值,例如,音乐为x=61,跳舞为x=62,运动为x=63,美术为x=64,读写为x=65等。
2、构造Sigmoid(逻辑回归)函数,进行逻辑回归,计算相应权重值。
构造Sigmoid函数:
P(y=1|x,w)=1/(1+exp(-(w0+w1x1+w2x2+…+wnxn))),P是y=1的概率,y是饱和度,x是员工特征信息数值,w是要得出的权重值。
将一类样本中根据上述方法得到的一组x值,即主特征Xa={X1,X2,…,Xn},次特征Xb,组合在一起,即,{X1,X2,…,Xn,Xb}代入上式,得到对应的一组权重值{N1,N2,…,Nn,Nb},对应主特征权重为Na={N1,N2,…,Nn},次特征权重为Nb
将一类样本中对应的Q组x值,依次输入Sigmoid函数,得到一类样本对应的主特征权重值和次特征权重值有Q组。
同理,将二类样本中的x值,即主特征Za={Z1,Z2,…,Zn}代入Sigmoid函数,计算二类样本中主特征权重值为Ma={M1,M2,…,Mn}。
三、根据得到的主特征和次特征权重重新计算次特征权重
若主特征Xa={X1,X2,…,Xn},次特征Xb,一类样本下所建逻辑回归对应主特征权重为Na={N1,N2,…,Nn},次特征权重为Nb,而二类样本下所建逻辑回归对应主特征权重为Ma={M1,M2,…,Mn}。
次特征新的权重值的计算公式如下式所示:
Mb=Nb×(M1+M2+…+Mn)/(N1+N2+…+Nn)
每个次特征Xb对应一个新的权重值,由于次特征有Q项,因此得出的新的次特征权重值有Q项。将这Q项新的次特征权重值Mb={Mb1,Mb2,…,MbQ}与上述二类样本得出的主特征权重Ma={M1,M2,…,Mn}进行组合,得出各个代理人画像对应的权重值组。
并将权重值组中的各个权重值与对应的员工画像进行关联。
四、根据员工画像对应的权重值组,对员工画像进行选取或分类
1、选取对应的员工画像
根据经验建立各个员工画像类别对应的权重值区间的表格,例如,高收入员工画像的权重值区间是50(包括50)-100,低收入员工的权重值区间是0-50;
若用户想要选取高收入员工的画像,则在表格中获取高收入员工画像对应的权重值区间,并在得到的权重值组中筛选出在50(包括50)-100内的权重值对应的员工画像,并将其推送至显示端显示给用户。
2、对员工画像进行分类
根据经验建立各个员工画像类别对应的权重值区间的表格,将得到的权重值组与表格中的各类权重值区间进行比对。
将与各个类别权重值区间相对应的权重值所关联的员工画像,按照各个类别的名称进行分类划分,并将每个类别的员工画像组合在一起,并将其推送至显示端显示给用户。
通过上述实施例,无需对员工画像的特征的饱和度中,较低的数据进行填充或舍弃,而是根据饱和度划分相应的主特征和次特征,并利用逻辑回归算法计算主特征和次特征的权重值,根据得出的权重值对员工画像进行选取或分类。有效提高了员工画像选取或分类的准确度。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种基于权重值的画像处理装置,如图2所示,装置包括:获取单元21、样本选取单元22、计算单元23、存储单元24和处理单元25。
获取单元21,用于获取每个画像的特征数据,并计算特征数据的饱和度;
样本选取单元22,用于根据饱和度,选取符合样本规则的特征数据作为样本数据;
计算单元23,用于利用逻辑回归算法计算样本数据的样本权重值;
存储单元24,用于提取每个样本权重值对应的样本画像,并将样本权重值与样本画像进行对应存储在数据库中;
处理单元25,用于根据数据库中的样本权重值对样本画像进行选取或分类,并将选取或分类结果推送至显示屏进行显示。
在具体实施例中,样本选取单元22具体包括:
去燥模块,用于去除饱和度为0的特征数据;
划分模块,用于在除去饱和度为0的特征数据以外的剩余特征数据中,将饱和度为1的特征数据划分为主特征数据,将饱和度小于1的特征数据划分为次特征数据;
样本划分模块,用于选取全部主特征数据和一个次特征数据共同组成一个一类样本,选取全部主特征数据作为二类样本,其中,次特征数据的数量为Q,对应一类样本的数量为Q,Q≥1。
在具体实施例中,计算单元23具体包括:
数值赋予模块,用于为一类样本中的主特征数据和次特征数据赋予对应的数值,以及为二类样本中的主特征数据赋予对应的数值;
代入模块,用于将一类样本中的主特征数据和次特征数据对应的数值代入逻辑回归函数,计算一类样本中主特征数据对应的一类主权重值和次特征数据对应的一类次权重值;
组合模块,用于将一类次权重值以及二类主权重值组合为样本权重值。
在具体实施例中,数值赋予模块具体包括:
信息获取模块,用于获取主特征数据和次特征数据对应的画像的个人信息;
类别划分模块,用于根据获取的个人信息为主特征数据和次特征数据进行类别划分;根据划分的类别,为一类样本中的主特征数据和次特征数据赋予对应的数值,以及为二类样本中的主特征数据赋予对应的数值。
在具体实施例中,计算单元23还包括:
重新计算模块,用于根据一类主权重值、一类次权重值以及二类主权重值,重新计算一类次权重值,公式如下:
新一类次权重值=一类次权重值*(二类主权重值/一类主权重值);
则对应组合模块,还用于将新一类次权重值以及二类主权重值组合为样本权重值。
在具体实施例中,处理单元25具体包括:
范围确定模块,用于根据画像选取命令,确定待选取画像的待选权重值范围,其中,预先将每个画像选取命令以及对应的权重值范围进行关联,并存储在数据库中;
提取模块,用于从数据库中提取待选权重值范围内对应的样本画像,作为待选取画像,并推送至显示屏进行显示。
在具体实施例中,范围确定模块,还用于接收到画像分类命令后,将样本权重值,按照数据库中存储的各个画像类别对应的分类权重值范围进行分类,其中,预先将各个画像类别以及对应的分类权重值范围进行关联,并存储在数据库中;
提取模块,还用于从数据库中提取各个画像类别中样本权重值对应的样本画像,将样本画像与相应的画像类别进行关联,并推送至显示屏进行显示。
基于上述图1所示方法和图2所示装置的实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,如图3所示,包括存储器32和处理器31,其中存储器32和处理器31均设置在总线33上存储器32存储有计算机程序,处理器31执行计算机程序时实现图1所示的基于权重值的画像处理方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储器(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
可选地,该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备的结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述如图1所示方法和图2所示装置的实施例,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1所示的基于权重值的画像处理方法。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与计算机设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,无论画像特征数据的饱和度的数值是高还是低,都能利用逻辑回归算法算出各个画像对应的权重值,这样,就可以根据这些权重值对画像进行筛选和分类操作,减少了由于低饱和度画像的数据丢失,造成画像的筛选和分类的准确度降低的情况。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (8)

1.一种基于权重值的画像处理方法,其特征在于,所述方法包括:
获取每个画像的特征数据,并计算所述特征数据的饱和度,其中,所述特征数据包括皮肤颜色、眼睛大小、头发长度;
所述获取每个画像的特征数据,并计算所述特征数据的饱和度,具体包括:
获取各个特征数据的彩度数据和明度数据,将彩度数据除以明度数据计算各个特征对应的饱和度,其中,所述饱和度的范围是0至1;
根据所述饱和度,选取符合样本规则的特征数据作为样本数据;
所述根据所述饱和度,选取符合样本规则的特征数据作为样本数据,具体包括:
去除饱和度为0的特征数据;
在除去饱和度为0的特征数据以外的剩余特征数据中,将饱和度为1的特征数据划分为主特征数据,将饱和度小于1的特征数据划分为次特征数据;
选取全部主特征数据和一个次特征数据共同组成一个一类样本,选取全部主特征数据作为二类样本,其中,所述次特征数据的数量为Q,对应所述一类样本的数量为Q,Q≥1;
利用逻辑回归算法计算样本数据的样本权重值;
所述利用逻辑回归算法计算样本数据的样本权重值,具体包括:
为所述一类样本中的主特征数据和次特征数据赋予对应的数值,以及为所述二类样本中的主特征数据赋予对应的数值;
将所述一类样本中的主特征数据和次特征数据对应的数值代入逻辑回归函数,计算所述一类样本中主特征数据对应的一类主权重值和次特征数据对应的一类次权重值,所述逻辑回归函数为:
P(y=1|x, w) = 1/(1+exp(-(w0+w1x1+w2x2+…+wnxn)));
其中,P是饱和度为1的概率,y是饱和度,x是为特征数据赋予的数值,w是得出的权重值;
将所述二类样本赋予的数值代入逻辑回归函数,计算所述二类样本中主特征数据对应的二类主权重值;
将所述一类次权重值以及所述二类主权重值组合为样本权重值;
提取每个样本权重值对应的样本画像,并将所述样本权重值与样本画像进行对应存储在数据库中;
根据数据库中的样本权重值对所述样本画像进行选取或分类,并将选取或分类结果推送至显示屏进行显示。
2.根据权利要求1所述的画像处理方法,其特征在于,所述为一类样本中的主特征数据和次特征数据赋予对应的数值,以及为二类样本中的主特征数据赋予对应的数值,具体包括:
获取所述主特征数据和所述次特征数据对应的画像的个人信息;
根据获取的个人信息为所述主特征数据和所述次特征数据进行类别划分;
根据划分的类别,为所述一类样本中的主特征数据和次特征数据赋予对应的数值,以及为所述二类样本中的主特征数据赋予对应的数值。
3.根据权利要求1所述的画像处理方法,其特征在于,在将所述一类次权重值以及二类主权重值组合为样本权重值之前,还包括:
根据所述一类主权重值、所述一类次权重值以及所述二类主权重值,重新计算一类次权重值,公式如下:
新一类次权重值=一类次权重值*(二类主权重值/一类主权重值);
则将所述一类次权重值以及二类主权重值组合为样本权重值,具体包括:
将所述新一类次权重值以及二类主权重值组合为样本权重值。
4.根据权利要求1-3任一项所述的画像处理方法,其特征在于,所述根据数据库中的样本权重值对所述样本画像进行选取,并将选取结果推送至显示屏进行显示,具体包括:
根据画像选取命令,确定待选取画像的待选权重值范围,其中,预先将每个画像选取命令以及对应的权重值范围进行关联,并存储在数据库中;
从所述数据库中提取所述待选权重值范围内对应的样本画像,作为待选取画像,并推送至显示屏进行显示。
5.根据权利要求1-3任一项所述的画像处理方法,其特征在于,所述根据数据库中的样本权重值对所述样本画像进行分类,并将分类结果推送至显示屏进行显示,具体包括:
接收到画像分类命令后,将所述样本权重值,按照数据库中存储的各个画像类别对应的分类权重值范围进行分类,其中,预先将各个画像类别以及对应的分类权重值范围进行关联,并存储在数据库中;
从数据库中提取各个画像类别中样本权重值对应的样本画像,将样本画像与相应的画像类别进行关联,并推送至显示屏进行显示。
6.一种基于权重值的画像处理装置,其特征在于,所述装置包括:
获取单元,用于获取每个画像的特征数据,并计算所述特征数据的饱和度,其中,所述特征数据包括皮肤颜色、眼睛大小、头发长度;
所述获取单元,还用于获取各个特征数据的彩度数据和明度数据,将彩度数据除以明度数据计算各个特征对应的饱和度,其中,所述饱和度的范围是0至1;
样本选取单元,用于根据所述饱和度,选取符合样本规则的特征数据作为样本数据;
所述样本选取单元包括:
去燥模块,用于去除饱和度为0的特征数据;
划分模块,用于在除去饱和度为0的特征数据以外的剩余特征数据中,将饱和度为1的特征数据划分为主特征数据,将饱和度小于1的特征数据划分为次特征数据;
样本划分模块,用于选取全部主特征数据和一个次特征数据共同组成一个一类样本,选取全部主特征数据作为二类样本,其中,所述次特征数据的数量为Q,对应所述一类样本的数量为Q,Q≥1;
计算单元,用于利用逻辑回归算法计算样本数据的样本权重值;
所述计算单元包括:
数值赋予模块,用于为所述一类样本中的主特征数据和次特征数据赋予对应的数值,以及为所述二类样本中的主特征数据赋予对应的数值;
代入模块,用于将所述一类样本中的主特征数据和次特征数据对应的数值代入逻辑回归函数,计算所述一类样本中主特征数据对应的一类主权重值和次特征数据对应的一类次权重值,所述逻辑回归函数为:
P(y=1|x, w) = 1/(1+exp(-(w0+w1x1+w2x2+…+wnxn)));
其中,P是饱和度为1的概率,y是饱和度,x是为特征数据赋予的数值,w是得出的权重值;
将所述二类样本赋予的数值代入逻辑回归函数,计算所述二类样本中主特征数据对应的二类主权重值;
组合模块,用于将所述一类次权重值以及所述二类主权重值组合为样本权重值;
存储单元,用于提取每个样本权重值对应的样本画像,并将所述样本权重值与样本画像进行对应存储在数据库中;
处理单元,用于根据数据库中的样本权重值对所述样本画像进行选取或分类,并将选取或分类结果推送至显示屏进行显示。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的基于权重值的画像处理方法的步骤。
8.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的基于权重值的画像处理方法的步骤。
CN201811089680.3A 2018-09-18 2018-09-18 一种基于权重值的画像处理方法、装置及设备 Active CN109460440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811089680.3A CN109460440B (zh) 2018-09-18 2018-09-18 一种基于权重值的画像处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811089680.3A CN109460440B (zh) 2018-09-18 2018-09-18 一种基于权重值的画像处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN109460440A CN109460440A (zh) 2019-03-12
CN109460440B true CN109460440B (zh) 2023-10-27

Family

ID=65606811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811089680.3A Active CN109460440B (zh) 2018-09-18 2018-09-18 一种基于权重值的画像处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN109460440B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223235A (zh) * 2019-12-27 2020-06-02 合肥美的智能科技有限公司 无人柜机的商品投放方法、无人柜机及其控制装置
CN111598606A (zh) * 2020-04-05 2020-08-28 武汉卓讯互动信息科技有限公司 一种游戏评分方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761283A (zh) * 2016-02-14 2016-07-13 广州神马移动信息科技有限公司 一种图片主色提取方法及装置
CN105893407A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 个体用户画像方法和系统
CN106529110A (zh) * 2015-09-09 2017-03-22 阿里巴巴集团控股有限公司 一种用户数据分类的方法和设备
CN106650763A (zh) * 2016-07-05 2017-05-10 国网内蒙古东部电力有限公司电力科学研究院 一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN107563453A (zh) * 2017-09-19 2018-01-09 马上消费金融股份有限公司 一种不平衡样本数据分类方法及系统
CN107832780A (zh) * 2017-10-17 2018-03-23 北京木业邦科技有限公司 基于人工智能木板分选低置信度样本处理方法及系统
CN107895026A (zh) * 2017-11-17 2018-04-10 联奕科技有限公司 一种校园用户画像的实现方法
CN108108451A (zh) * 2017-12-27 2018-06-01 合肥美的智能科技有限公司 群体的群体用户画像获取方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015084726A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Event detection through text analysis template models

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529110A (zh) * 2015-09-09 2017-03-22 阿里巴巴集团控股有限公司 一种用户数据分类的方法和设备
CN105893407A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 个体用户画像方法和系统
CN105761283A (zh) * 2016-02-14 2016-07-13 广州神马移动信息科技有限公司 一种图片主色提取方法及装置
CN106650763A (zh) * 2016-07-05 2017-05-10 国网内蒙古东部电力有限公司电力科学研究院 一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN107563453A (zh) * 2017-09-19 2018-01-09 马上消费金融股份有限公司 一种不平衡样本数据分类方法及系统
CN107832780A (zh) * 2017-10-17 2018-03-23 北京木业邦科技有限公司 基于人工智能木板分选低置信度样本处理方法及系统
CN107895026A (zh) * 2017-11-17 2018-04-10 联奕科技有限公司 一种校园用户画像的实现方法
CN108108451A (zh) * 2017-12-27 2018-06-01 合肥美的智能科技有限公司 群体的群体用户画像获取方法和装置

Also Published As

Publication number Publication date
CN109460440A (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
CN108229590B (zh) 一种获取多标签用户画像的方法和装置
CN108256568B (zh) 一种植物种类识别方法以及装置
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
CN106227786B (zh) 用于推送信息的方法和装置
CN111325353A (zh) 训练数据集的贡献度计算方法、装置、设备及存储介质
CN111709816A (zh) 基于图像识别的服务推荐方法、装置、设备及存储介质
US11176271B1 (en) System, method, and computer program for enabling a candidate to anonymously apply for a job
CN109460440B (zh) 一种基于权重值的画像处理方法、装置及设备
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
JP2015060432A (ja) プログラム、コンピュータおよび訓練データ作成支援方法
CN112396079A (zh) 号码识别模型训练方法、号码识别方法及装置
CN109447103A (zh) 一种基于硬聚类算法的大数据分类方法、装置及设备
CN111160699A (zh) 一种专家推荐方法及系统
CN112988848B (zh) 一种数据处理方法、装置、设备及存储介质
US10185765B2 (en) Non-transitory computer-readable medium, information classification method, and information processing apparatus
JP7206761B2 (ja) 情報処理装置
CN108810577B (zh) 一种用户画像的构建方法、装置及电子设备
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN110110143A (zh) 一种视频分类方法及装置
CN109656433B (zh) 类目信息处理方法、装置、计算机设备和存储介质
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN110825898A (zh) 美甲套图推荐方法、装置、电子设备、及存储介质
CN107656760A (zh) 数据处理方法及装置、电子设备
JP7147183B2 (ja) 情報処理装置、情報処理システム、及びプログラム
CN111159575A (zh) 一种基于手机银行的交友方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant