CN113570349B

CN113570349B - 基于em-fcm算法的电力员工画像侧写方法及系统

Info

Publication number: CN113570349B
Application number: CN202111139443.5A
Authority: CN
Inventors: 李文彬; 伍明; 李辉明; 黄静婷; 吴燕芳; 胡长华
Original assignee: Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-01-21
Anticipated expiration: 2041-09-28
Also published as: CN113570349A

Abstract

本申请公开了一种基于EM‑FCM算法的电力员工画像侧写方法及系统，其方法根据所有待侧写员工的日常行为数据对所有待侧写员工赋予多个标签，并进行评分，得到各个标签对应的标签分值，并构建标签评价矩阵，对标签评价矩阵归一化后，得到聚类对象数据，基于EM算法对聚类对象数据计算并输出EM算法获得的最佳聚类中心，基于EM算法，以最佳聚类中心构建适应度目标函数，通过聚类对象数据计算适应度目标函数值，通过适应度目标函数值进行迭代计算，直至迭代收敛，输出所有待侧写员工的标签分类结果，从而可以全面地考察员工的表现特点及个性化标签，并对其进行分类，提高员工侧写的公平性。

Description

基于EM-FCM算法的电力员工画像侧写方法及系统

技术领域

本申请涉及图像处理技术领域，尤其涉及一种基于EM-FCM算法的电力员工画像侧写方法及系统。

背景技术

侧写（profile），是指根据行为方式推断出人的性格，生活环境，职业，成长背景等等。随着大数据技术的提出，侧写技术主要应用于用户画像方面，即对用户的消费习惯、偏好信息等进行标签描述，进而判断用户特点并根据相关特点进行精准推送，已广泛用于多方面。

但是，目前对于电力企业内部员工画像侧写，辅助员工成长的研究较少。通过研究分析，主要有以下两个方面的原因：

一方面是员工画像侧写需要海量数据，而大多数企业对于员工相关数据仅局限于员工基本信息如：年龄、学历、技能技术水平等，对于员工日常表现、情绪、能力等方面评价较少，且难以收集。

另一方面是电力企业属性与常规企业有所不同，其会有要求更多的个性化需求，则要求在员工画像侧写中需要重点考虑相关个性化需求，即电力企业员工画像侧写具有其个性化的标签，如：生产安全优先、工作廉洁要求、党建学习、网络安全意识等。

而现阶段电力企业对于员工的考察，尚处于人工考察阶段，而人工考察容易遗漏员工的表现特点，难以充分挖掘每个员工潜力；而对于电力企业的一些个性化的标签，人工考察难以对员工日常行为形成闭环评价，其公平性有待加强。

发明内容

本申请提供了一种基于EM-FCM算法的电力员工画像侧写方法及系统，用于解决现有技术中对员工考察容易遗漏员工的表现特点及个性化标签而导致的侧写公平性较差的技术问题。

有鉴于此，本申请第一方面提供了一种基于EM-FCM算法的电力员工画像侧写方法，包括以下步骤：

获取所有待侧写员工的日常行为数据；

基于专家数据库对所述待侧写员工赋予多个标签，基于专家数据库对所述待侧写员工的标签进行评分，从而得到各个标签对应的标签分值；

依据所述待侧写员工对应的各个标签及其标签分值构建标签评价矩阵，所述标签评价矩阵中的每个元素为所述待侧写员工对应的每个标签的标签分值，对所述标签评价矩阵进行归一化，得到聚类对象数据；

基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数；

基于EM算法，将所述聚类对象数据作为离散粒子，输出EM算法获得的最佳聚类中心；

将所述最佳聚类中心作为更新后的所述初始聚类中心代入所述初始适应度目标函数，构建新的适应度目标函数；

基于所述新的适应度目标函数，判断所述适应度目标函数值是否小于预设的阈值，若所述适应度目标函数值小于所述预设的阈值，则输出所有待侧写员工的标签分类结果，若所述适应度目标函数值不小于所述预设的阈值，则返回至所述基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数的步骤，从而进行迭代计算所述适应度目标函数值，直至所述适应度目标函数值小于所述预设的阈值。

优选地，获取所有待侧写员工的日常行为数据的步骤具体包括：

搭建IT信息系统服务器，将所有日常行为监督系统的数据接口与所述IT信息系统服务器进行数据交互，从而通过所述IT信息系统服务器获取所有日常行为监督系统提供的所有待侧写员工的日常行为数据，所述日常行为数据包括考勤数据、绩效评价数据、技能学习签到数据、信息安全考察数据、技术等级、学历数据、科研考核数据。

优选地，基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数的步骤具体包括：

从所述聚类对象数据随机选择一个数据作为聚类中心，基于所述聚类中心的编码方式对所述聚类中心进行粒子编码，生成初始聚类种群；

将所述聚类对象数据分为K个初始聚类种群，记为

，假定样本j属于第i个初始聚类种群C_i的概率为

，则通过公式1和公式2分别计算聚类对象数据的初始聚类中心和模糊隶属度值，其公式1和公式2分别为：

公式1

公式2

公式1中，c_i表示初始聚类中心，

为隶属度，N表示样本总数，x_j表示第j个聚类对象，x_i表示第i个聚类对象；

公式2中，m为初始聚类种群中的聚类对象总数，c_j表示样本j的聚类中心；

基于所述初始聚类中心和所述模糊隶属度值，构建FCM算法的初始适应度目标函数为：

公式3

公式3中，

表示在[0,1]区间内的随机数，

表示适应度目标函数值。

优选地，基于EM算法，将所述聚类对象数据作为离散粒子，输出EM算法获得的最佳聚类中心的步骤具体包括：

将所述聚类对象数据作为离散粒子，通过公式4对EM算法随机初始化，其公式4为：

公式4

公式4中，

表示第t次迭代中第i个离散粒子具有的电荷值；n为离散粒子总数；

为第t次迭代中第i个离散粒子；

为第t次迭代中评价函数最好的离散粒子；f(x)表示评价函数，如公式5：

公式5

通过公式6在所有离散粒子中进行局部搜索，从而获得相对当前离散粒子的适应度函数值较优的离散粒子，其公式6为：

公式6

公式6中，

表示当前离散粒子，

表示相对当前离散粒子的适应度函数值较优的离散粒子，

为相关系数，rand表示0~1之间的随机数；

对当前离散粒子及相对当前离散粒子的适应度函数值较优的离散粒子做贪婪选择，保留适应度函数值较优的离散粒子，以更新所述初始聚类种群，获得更新后的更新聚类种群；

基于所述更新聚类种群通过公式7计算所有离散粒子的合力，记为F_i，公式7为：

公式7

公式7中，

表示更新聚类种群中的聚类对象总数，

表示第t次迭代中的更新聚类种群中的第

个离散粒子具有的电荷值，

表示第t次迭代中的更新聚类种群中的第

个离散粒子具有的电荷值，

表示更新聚类种群中的第

个离散粒子，

表示更新聚类种群中的第

个离散粒子，

表示第

个离散粒子的评价函数值，

表示第

个离散粒子的评价函数值；

基于所有离散粒子的合力通过公式8进行粒子移动，对粒子移动后产生的新粒子做贪婪选择，从而保留相对移动前的离散粒子的适应度函数值较优的离散粒子，其公式8为：

公式8

公式8中，Z_i表示粒子移动后产生的新粒子，

表示随机步长，取值为0~1之间；

判断迭代次数t是否小于预设迭代次数阈值，若不满足，重新执行将所述聚类对象数据作为离散粒子，通过公式4对EM算法随机初始化的步骤，直至迭代收敛，输出最终的离散粒子，构成最佳聚类种群，在所述最佳聚类种群中随机选择一个离散粒子作为最佳聚类中心。

第二方面，本发明还提供了一种基于EM-FCM算法的电力员工画像侧写系统，包括：

数据获取模块，用于获取所有待侧写员工的日常行为数据；

评分模块，用于基于专家数据库对所述待侧写员工赋予多个标签，基于专家数据库对所述待侧写员工的标签进行评分，从而得到各个标签对应的标签分值；

聚类对象模块，用于依据所述待侧写员工对应的各个标签及其标签分值构建标签评价矩阵，所述标签评价矩阵中的每个元素为所述待侧写员工对应的每个标签的标签分值，对所述标签评价矩阵进行归一化，得到聚类对象数据；

适应度函数模块，用于基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数；

聚类中心获取模块，用于基于EM算法，将所述聚类对象数据作为离散粒子，输出EM算法获得的最佳聚类中心；

函数更新模块，用于将所述最佳聚类中心作为更新后的所述初始聚类中心代入所述初始适应度目标函数，构建新的适应度目标函数；

聚类输出模块，用于基于所述新的适应度目标函数，判断所述适应度目标函数值是否小于预设的阈值，若所述适应度目标函数值小于所述预设的阈值，则输出所有待侧写员工的标签分类结果，若所述适应度目标函数值不小于所述预设的阈值，则返回至所述基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数的步骤，从而进行迭代计算所述适应度目标函数值，直至所述适应度目标函数值小于所述预设的阈值。

从以上技术方案可以看出，本发明具有以下优点：

本发明根据所有待侧写员工的日常行为数据对所有待侧写员工赋予多个标签，并进行评分，得到各个标签对应的标签分值，并构建标签评价矩阵，对标签评价矩阵归一化后，得到聚类对象数据，基于EM算法对聚类对象数据计算并输出EM算法获得的最佳聚类中心，基于EM算法，以最佳聚类中心构建适应度目标函数，通过聚类对象数据计算适应度目标函数值，通过适应度目标函数值进行迭代计算，直至迭代收敛，输出所有待侧写员工的标签分类结果，从而可以全面地考察员工的表现特点及个性化标签，并对其进行分类，提高员工侧写的公平性。

附图说明

图1为本申请实施例提供的一种基于EM-FCM算法的电力员工画像侧写方法的流程图；

图2为本申请实施例提供的一种基于EM-FCM算法的电力员工画像侧写系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本发明提供的一种基于EM-FCM算法的电力员工画像侧写方法，包括以下步骤：

S100、获取所有待侧写员工的日常行为数据；

S200、基于专家数据库对待侧写员工赋予多个标签，基于专家数据库对待侧写员工的标签进行评分，从而得到各个标签对应的标签分值；

S300、依据待侧写员工对应的各个标签及其标签分值构建标签评价矩阵，标签评价矩阵中的每个元素为待侧写员工对应的每个标签的标签分值，对标签评价矩阵进行归一化，得到聚类对象数据；

S400、基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数；

S500、基于EM算法，将聚类对象数据作为离散粒子，输出EM算法获得的最佳聚类中心；

S600、将最佳聚类中心作为更新后的初始聚类中心代入初始适应度目标函数，构建新的适应度目标函数；

S700、基于新的适应度目标函数，判断适应度目标函数值是否小于预设的阈值，若适应度目标函数值小于预设的阈值，则输出所有待侧写员工的标签分类结果，若适应度目标函数值不小于预设的阈值，则返回至基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数的步骤，从而进行迭代计算适应度目标函数值，直至适应度目标函数值小于预设的阈值。

需要说明的是，本实施例提供了一种基于EM-FCM算法的电力员工画像侧写方法，根据所有待侧写员工的日常行为数据对所有待侧写员工赋予多个标签，并进行评分，得到各个标签对应的标签分值，并构建标签评价矩阵，对标签评价矩阵归一化后，得到聚类对象数据，基于EM算法对聚类对象数据计算并输出EM算法获得的最佳聚类中心，基于EM算法，以最佳聚类中心构建适应度目标函数，通过聚类对象数据计算适应度目标函数值，通过适应度目标函数值进行迭代计算，直至迭代收敛，输出所有待侧写员工的标签分类结果，从而可以全面地考察员工的表现特点及个性化标签，并对其进行分类，提高员工侧写的公平性。

以下为本发明提供的一种基于EM-FCM算法的电力员工画像侧写方法的实施例的详细描述。

本发明提供的一种基于EM-FCM算法的电力员工画像侧写方法，包括以下步骤：

S101、获取所有待侧写员工的日常行为数据；

具体地，搭建IT信息系统服务器，将所有日常行为监督系统的数据接口与IT信息系统服务器进行数据交互，从而通过IT信息系统服务器获取所有日常行为监督系统提供的所有待侧写员工的日常行为数据，日常行为数据包括考勤数据、绩效评价数据、技能学习签到数据、信息安全考察数据、技术等级、学历数据、科研考核数据。

需要说明的是，在原始状态下，其所有信息系统是无法交互的，如考勤系统、绩效系统、党建系统、培训系统、智慧安监系统、人力系统和设备部科研考核，这导致不能同时获取到信息系统中的信息，通过搭建IT信息系统FTP服务器，将日常行为监督系统中所有开放的接口进行交互，通过FTP方式与IT信息系统服务器进行文件交换，实现IT信息系统服务器调用并展示已有系统数据功能。

S201、基于专家数据库对待侧写员工赋予多个标签，基于专家数据库对待侧写员工的标签进行评分，从而得到各个标签对应的标签分值；

需要说明的是，其标签可以通过日常行为或系统进行设定并分类，可以包括考勤标签、绩效评价标签、技能学习签到标签、信息安全考察标签、技术等级、学历标签、科研考核标签。

同时，所有标签均存在5档次：优（90分以上）、良（80-90）、中（70-80）、可（60-70）、不及格（60分以下）；其分值分别是5、4、3、2、1。

S301、依据待侧写员工对应的各个标签及其标签分值构建标签评价矩阵，标签评价矩阵中的每个元素为待侧写员工对应的每个标签的标签分值，对标签评价矩阵进行归一化，得到聚类对象数据；

在本实施例中，标签评价矩阵为：

式中，x_m1表示同一个标签对应的第m个待侧写员工的分值，x_1n表示同一个待侧写员工对应的第n个标签的分值，x_mn表示第m个待侧写员工的第n个标签的分值。

S401、基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数；

需要说明的是，FCM算法为FCM（Fuzzy C-Means）模糊聚类算法。

在本实施例中，步骤S401具体包括：

S4011、从聚类对象数据随机选择一个数据作为聚类中心，基于聚类中心的编码方式对聚类中心进行粒子编码，生成初始聚类种群；

S4012、将聚类对象数据分为K个初始聚类种群，记为

，假定样本j属于第i个初始聚类种群C_i的概率为

公式1

公式2

公式1中，c_i表示初始聚类中心，

S4013、基于初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数为：

公式3

公式3中，

表示在[0,1]区间内的随机数，

表示适应度目标函数值。

S501、基于EM算法，将聚类对象数据作为离散粒子，输出EM算法获得的最佳聚类中心；

需要说明的是，EM算法为也称期望最大化（Expectation-Maximum,简称EM）算法。FCM算法容易受噪声和初始值的影响较大，因此需要进一步改进聚类中心，而EM算法作为一种全局寻优能力较强的智能算法，发明考虑利用其寻优结果作为FCM算法的初始中心进行聚类，提升聚类效果。

在本实施例中，步骤S501具体包括：

S5011、将聚类对象数据作为离散粒子，通过公式4对EM算法随机初始化，其公式4为：

公式4

公式4中，

为第t次迭代中第i个离散粒子；

公式5

S5012、通过公式6在所有离散粒子中进行局部搜索，从而获得相对当前离散粒子的适应度函数值较优的离散粒子，其公式6为：

公式6

公式6中，

表示当前离散粒子，

表示相对当前离散粒子的适应度函数值较优的离散粒子，

为相关系数，rand表示0~1之间的随机数；

其中，

可以调节可改变算法搜索精度。

S5013、对当前离散粒子及相对当前离散粒子的适应度函数值较优的离散粒子做贪婪选择，保留适应度函数值较优的离散粒子，以更新初始聚类种群，获得更新后的更新聚类种群；

S5014、基于更新聚类种群通过公式7计算所有离散粒子的合力，记为F_i，公式7为：

公式7

公式7中，

表示更新聚类种群中的聚类对象总数，

表示第t次迭代中的更新聚类种群中的第

个离散粒子具有的电荷值，

表示第t次迭代中的更新聚类种群中的第

个离散粒子具有的电荷值，

表示更新聚类种群中的第

个离散粒子，

表示更新聚类种群中的第

个离散粒子，

表示第

个离散粒子的评价函数值，

表示第

个离散粒子的评价函数值；

从公式7可知，适应度函数值较优的粒子会吸引较差的粒子；适应度函数较差的粒子会排斥交友的粒子。因此任意两个粒子之间的作用力方向总是指向目标函数较优粒子。

S5015、基于所有离散粒子的合力通过公式8进行粒子移动，对粒子移动后产生的新粒子做贪婪选择，从而保留相对移动前的离散粒子的适应度函数值较优的离散粒子，其公式8为：

公式8

公式8中，Z_i表示粒子移动后产生的新粒子，

表示随机步长，取值为0~1之间；

S5016、判断迭代次数t是否小于预设迭代次数阈值，若不满足，重新执行将聚类对象数据作为离散粒子，通过公式4对EM算法随机初始化的步骤，直至迭代收敛，输出最终的离散粒子，构成最佳聚类种群，在最佳聚类种群中随机选择一个离散粒子作为最佳聚类中心。

S601、将最佳聚类中心作为更新后的初始聚类中心代入初始适应度目标函数，构建新的适应度目标函数；

S701、基于新的适应度目标函数，判断适应度目标函数值是否小于预设的阈值，若适应度目标函数值小于预设的阈值，则输出所有待侧写员工的标签分类结果，若适应度目标函数值不小于预设的阈值，则返回至基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数的步骤，从而进行迭代计算适应度目标函数值，直至适应度目标函数值小于预设的阈值。

以上为本发明提供的一种基于EM-FCM算法的电力员工画像侧写方法的实施例的详细描述，以下为本发明提供的一种基于EM-FCM算法的电力员工画像侧写系统的实施例的详细描述。

请见图2，本发明还提供了一种基于EM-FCM算法的电力员工画像侧写系统，包括：

数据获取模块100，用于获取所有待侧写员工的日常行为数据；

评分模块200，用于基于专家数据库对待侧写员工赋予多个标签，基于专家数据库对待侧写员工的标签进行评分，从而得到各个标签对应的标签分值；

聚类对象模块300，用于依据待侧写员工对应的各个标签及其标签分值构建标签评价矩阵，标签评价矩阵中的每个元素为待侧写员工对应的每个标签的标签分值，对标签评价矩阵进行归一化，得到聚类对象数据；

适应度函数模块400，用于基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数；

聚类中心获取模块500，用于基于EM算法，将聚类对象数据作为离散粒子，输出EM算法获得的最佳聚类中心；

函数更新模块600，用于将最佳聚类中心作为更新后的初始聚类中心代入初始适应度目标函数，构建新的适应度目标函数；

聚类输出模块700，用于基于新的适应度目标函数，判断适应度目标函数值是否小于预设的阈值，若适应度目标函数值小于预设的阈值，则输出所有待侧写员工的标签分类结果，若适应度目标函数值不小于预设的阈值，则返回至基于FCM算法计算聚类对象数据的初始聚类中心和模糊隶属度值，构建FCM算法的初始适应度目标函数的步骤，从而进行迭代计算适应度目标函数值，直至适应度目标函数值小于预设的阈值。

需要说明的是，本实施例提供的一种基于EM-FCM算法的电力员工画像侧写系统与上述提供的一种基于EM-FCM算法的电力员工画像侧写方法的流程一致，在此不再赘述。

本发明提供了一种基于EM-FCM算法的电力员工画像侧写系统，根据所有待侧写员工的日常行为数据对所有待侧写员工赋予多个标签，并进行评分，得到各个标签对应的标签分值，并构建标签评价矩阵，对标签评价矩阵归一化后，得到聚类对象数据，基于EM算法对聚类对象数据计算并输出EM算法获得的最佳聚类中心，基于EM算法，以最佳聚类中心构建适应度目标函数，通过聚类对象数据计算适应度目标函数值，通过适应度目标函数值进行迭代计算，直至迭代收敛，输出所有待侧写员工的标签分类结果，从而可以全面地考察员工的表现特点及个性化标签，并对其进行分类，提高员工侧写的公平性。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。