CN113407659A - 员工社区发现方法、系统、计算机和可读存储介质 - Google Patents

员工社区发现方法、系统、计算机和可读存储介质 Download PDF

Info

Publication number
CN113407659A
CN113407659A CN202110779613.XA CN202110779613A CN113407659A CN 113407659 A CN113407659 A CN 113407659A CN 202110779613 A CN202110779613 A CN 202110779613A CN 113407659 A CN113407659 A CN 113407659A
Authority
CN
China
Prior art keywords
sequence
model
employee
interaction
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110779613.XA
Other languages
English (en)
Inventor
梁秀钦
孙泽懿
徐凯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110779613.XA priority Critical patent/CN113407659A/zh
Publication of CN113407659A publication Critical patent/CN113407659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请涉及一种员工社区发现方法、装置、系统、计算机设备和计算机可读存储介质,其中,该员工社区发现方法包括:交互序列获取步骤,获取目标员工的会话交互数据,将所述会话交互数据进行加密处理并根据一预设切分单位分为多个会话单元,并将所述会话单元输出为员工交互序列;序列模型获取步骤,基于所述员工交互序列通过序列建模方法构建并训练序列模型;序列向量获取步骤,基于所述序列模型得到所述员工交互序列的序列向量;员工社区发现步骤,将所述序列向量利用聚类算法进行聚类,完成社区发现。通过本申请,实现更准确、完善的发现员工社区。

Description

员工社区发现方法、系统、计算机和可读存储介质
技术领域
本申请涉及互联网技术领域,特别是涉及员工社区发现方法、系统、计算机设备和计算机可读存储介质。
背景技术
社交网络源自网络社交,网络社交的起点是电子邮件,目前网络社交的方式不限于企业微信、微信、QQ、微博、OA或钉钉等社交平台,社交网络的核心是参与其中的用户以及用户之间的关系。从企业管理角度,企业员工的社区发现(Community Detection)能够帮助企业发现员工的社交网络中的社区结构,从而了解内部员工的合作模式和团队组成情况,进而能够更好的促进员工的合作,了解企业内部合作模式,提升企业运行效率,也为企业社区搭建提供基础。
如根据专利文献CN104077723A公开的一种社交网络推荐系统及方法,其中公开的社区发现方法是利用社交网络的用户信息、关注列表、粉丝列表等数据进行用户链接强度计算,从而实现社区发现。但是,应用于企业内部而言,尤其是针对大型企业,获取每位员工的社交账号信息是不实际的而且不适用于企业员工社区,会存在社区发现不准确的问题;另外,员工在工作中产生的交互数据的数据量也很大,不但对数据存储成本要求较高,直接对交互数据进行计算的成本也较大。
发明内容
本申请实施例提供了一种员工社区发现方法、系统、计算机设备和计算机可读存储介质,以适用于企业内部员工社区的发现,实现更准确更完善的社区发现。
第一方面,本申请实施例提供了一种员工社区发现方法,包括:
交互序列获取步骤,获取目标员工的会话交互数据,将所述会话交互数据进行加密处理并根据一预设切分单位分为多个会话单元,并根据时间顺序将所述会话单元输出为员工交互序列;
序列模型获取步骤,基于所述员工交互序列通过序列建模方法构建并训练序列模型;具体的,所述序列模型包括Word2Vec模型和/或Glove模型。
序列向量获取步骤,基于所述序列模型得到所述员工交互序列的序列向量;
员工社区发现步骤,将所述序列向量利用聚类算法进行聚类,完成社区发现。具体的,所述聚类算法为K-Means算法。
基于上述步骤,本申请实施例以企业员工会话交互过程为基础数据实现员工社区发现,会话交互数据中既包括群聊中员工合作关系又包括个人之间的交互关系,实现更准确、完善的发现员工社区。另外,将会话交互数据处理为员工交互序列并基于序列模型实现员工关系的向量化表示,大大减少原始数据的存储成本。而且,该方式并不限制数据量的大小,更甚者数据量越大模型训练效果越好,如此一来,降低了数据的计算成本,避免了面对海量数据加重计算成本的问题。
在其中一些实施例中,所述序列模型为Word2Vec模型,所述序列模型获取步骤进一步包括:
数据预处理步骤,将所述员工交互序列转换为员工交互预料;其中,需将员工交互序列中每一行数据中的逗号替换为空格。
词典构建步骤,遍历所述员工交互预料中的词语构建词典构建词典并统计词频;
霍夫曼树构造步骤,基于所述词频构造一霍夫曼树;
模型训练步骤,利用所述霍夫曼树训练Word2Vec模型中CBOW模型(ContinuousBag-of-Words)或Skip-Gram模型。
基于上述步骤,结合所述员工交互序列完成对本申请实施例序列模型的建立及训练,以便于通过所述序列模型对所述员工交互序列进行向量表示,从而降低数据存储成本。
在其中一些实施例中,上述员工社区发现方法还包括:
社区员工输出步骤,基于用户的查询请求将聚类成社区的员工进行输出。
在其中一些实施例中,上述员工社区发现方法还包括:
模型迭代步骤,获取一预设增量周期会话交互数据的增量数据,基于所述增量数据对所述序列模型进行迭代训练;
增量社区发现步骤,根据所述序列模型获取序列向量并进行聚类操作。
基于上述步骤,本申请实施例通过基于数据增量的模型迭代实现动态的社区发现,面临数据增量快的情况直接通过模型迭代的方式快速动态更新社区,进一步便于在进行项目筹备时参考最新的员工社区进行员工配置,有助于提高员工协作能力,提高工作效率。
第二方面,本申请实施例提供了一种员工社区发现系统,包括:
交互序列获取模块,获取目标员工的会话交互数据,将所述会话交互数据进行加密处理并根据一预设切分单位分为多个会话单元,并根据时间顺序将所述会话单元输出为员工交互序列;
序列模型获取模块,基于所述员工交互序列通过序列建模方法构建并训练序列模型;具体的,所述序列模型包括Word2Vec模型和/或Glove模型。
序列向量获取模块,基于所述序列模型得到所述员工交互序列的序列向量;
员工社区发现模块,将所述序列向量利用聚类算法进行聚类,完成社区发现。具体的,所述聚类算法为K-Means算法。
基于上述结构,本申请实施例以企业员工会话交互过程为基础数据实现员工社区发现,会话交互数据中既包括群聊中员工合作关系又包括个人之间的交互关系,有助于更准确、完善的发现员工社区。另外,将会话交互数据处理为员工交互序列并基于序列模型实现员工关系的向量化表示,大大减少原始数据的存储成本。而且,该方式并不限制数据量的大小,更甚者数据量越大模型训练效果越好,如此一来,降低了数据的计算成本,避免了面对海量数据加重计算成本的问题。
在其中一些实施例中,所述序列模型为Word2Vec模型,所述序列模型获取模块进一步包括:
数据预处理模块,将所述员工交互序列转换为员工交互预料;其中,需将员工交互序列中每一行数据中的逗号替换为空格。
词典构建模块,遍历所述员工交互预料中的词语构建词典构建词典并统计词频;
霍夫曼树构造模块,基于所述词频构造一霍夫曼树;
模型训练模块,利用所述霍夫曼树训练Word2Vec模型中CBOW模型或Skip-Gram模型。
基于上述结构,结合所述员工交互序列完成对本申请实施例序列模型的建立及训练,以便于通过所述序列模型对所述员工交互序列进行向量表示,从而降低数据存储成本。
在其中一些实施例中,上述员工社区发现系统还包括:
社区员工输出模块,基于用户的查询请求将聚类成社区的员工进行输出。
在其中一些实施例中,上述员工社区发现系统还包括:
模型迭代模块,获取一预设增量周期会话交互数据的增量数据,基于所述增量数据对所述序列模型进行迭代训练;
增量社区发现模块,根据所述序列模型获取序列向量并进行聚类操作。
基于上述结构,本申请实施例通过基于数据增量的模型迭代实现动态的社区发现,面临数据增量快的情况直接通过模型迭代的方式快速动态更新社区,进一步便于在进行项目筹备时参考最新的员工社区进行员工配置,有助于提高员工协作能力,提高工作效率。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的员工社区发现方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的员工社区发现方法。
相比于相关技术,本申请实施例提供的员工社区发现方法、系统、计算机设备和计算机可读存储介质,尤其涉及一种营销智能技术,通过加密方式实现员工社区发现,有效保护数据安全及隐私;通过对会话交互数据的向量表示,克服了当前大数据环境下还有数据及数据增量大的前提下的数据存储成本及计算成本高的问题,有效减小数据存储成本及计算成本。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的员工社区发现方法的流程图;
图2是根据本申请实施例的员工社区发现方法的优选流程图;
图3是根据本申请优选实施例的员工社区发现方法的流程图;
图4是根据本申请优选实施例的会话交互数据的示意图;
图5是根据本申请优选实施例的员工交互序列的示意图;
图6是根据本申请优选实施例的序列向量的示意图;
图7是根据本申请优选实施例的员工社区聚类结果示意图;
图8是根据本申请优选实施例的员工社区发现方法的分步骤原理示意图;
图9是根据本申请实施例的员工社区发现系统的结构框图;
图10是根据本申请实施例的员工社区发现系统的优选结构框图。
其中:
1、交互序列获取模块;2、序列模型获取模块;3、序列向量获取模块;
4、员工社区发现模块;5、社区员工输出模块;6、模型迭代模块;
7、增量社区发现模块;201、数据预处理模块;202、词典构建模块;
203、霍夫曼树构造模块;204、模型训练模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
隐式交互:隐式交互的提取来自于用户的“提到”(“@”)和“转发”行为。当用户间存在互动(“提到”或“转发”)行为时,用户间建立关联的概率将增大。
为了基于海量员工会话交互数据实现员工社区发现,克服数据量、数据增量非常大的问题,实现减少数据存储成本和计算成本,同时考虑到员工会话交互数据是涉及数据安全和隐私问题的情况,提供了如下员工社区发现方法。
本实施例提供了一种员工社区发现方法。图1是根据本申请实施例的员工社区发现方法的流程图,如图1所示,该流程包括如下步骤:
交互序列获取步骤S1,获取目标员工的会话交互数据,将会话交互数据进行加密处理并根据一预设切分单位分为多个会话单元,并根据时间顺序将会话单元输出为员工交互序列;具体的,会话交互数据的加密处理具体为对员工姓名进行匿名ID处理,举例而非限制,如基于MD5(Message-Digest Algorithm)加密算法,MD5加密算法为单向加密算法,以便于有效实现隐私保护及数据安全。可选的,预设切分单位可以为日、天、周、月、年等,本申请实施例支持对会话交互数据中的单聊数据和群聊数据以同一预设切分单位或不同预设切分单位进行会话单元的切分。基于此,本实施例的数据基础既包括群聊中员工合作关系又包括个人之间的交互关系,有助于更准确、完善的发现员工社区。
序列模型获取步骤S2,基于员工交互序列通过序列建模方法构建并训练序列模型;具体的,序列模型包括Word2Vec模型和/或Glove模型。
序列向量获取步骤S3,基于序列模型得到员工交互序列的序列向量;基于本步骤得到的序列向量可以为根据员工表示为32位的稠密向量。
员工社区发现步骤S4,将序列向量利用聚类算法进行聚类,完成社区发现。可选的,聚类算法为K-Means算法,也可以是其他聚类算法。
员工社区输出步骤S5,基于用户的查询请求将聚类成社区的员工进行输出。值得注意的是,为了保护数据安全和隐私,输出的员工为匿名ID,但对下游业务的使用支持基于员工字典库进行匿名ID到姓名的转换。
基于上述步骤,本申请实施例以企业员工会话交互过程为基础数据实现员工社区发现,会话交互数据中既包括群聊中员工合作关系又包括个人之间的交互关系,实现更准确、完善的发现员工社区。另外,将会话交互数据处理为员工交互序列并基于序列模型实现员工关系的向量化表示,大大减少原始数据的存储成本。而且,该方式并不限制数据量的大小,更甚者数据量越大模型训练效果越好,如此一来,降低了数据的计算成本,避免了面对海量数据加重计算成本的问题。
在其中一些实施例中,序列模型为Word2Vec模型,序列模型获取步骤S2进一步包括:
数据预处理步骤S201,将员工交互序列转换为员工交互预料,其中,需将员工交互序列中每一行数据中的逗号替换为空格。
词典构建步骤S202,遍历员工交互预料中文本,找出所有出现过的词语构建词典,并统计各个词语的出现频率,实现词频统计。
霍夫曼树构造步骤S203,基于上述词频构造一霍夫曼树。本申请实施例采用霍夫曼树来代替隐藏层和输出层的神经元,霍夫曼树的叶子节点起到输出层神经元的作用,叶子节点的个数即为词汇表的小大,而内部节点则起到隐藏层神经元的作用。
模型训练步骤S204,利用步骤S203得到的霍夫曼树训练训练Word2Vec模型中CBOW模型或Skip-Gram模型。
基于上述步骤,本实施例基于Word2Vec模型通用性高且高效的特点,采用Word2Vec模型构建序列模型,结合员工交互序列完成对本申请实施例序列模型的建立及训练,以便于通过序列模型对员工交互序列进行向量表示,从而降低数据存储成本。
本实施例还提供了一种员工社区发现方法。图2是根据本申请实施例的员工社区发现方法的优选流程图,如图2所示,该流程除了包括上述实施例的步骤,还包括如下步骤:
模型迭代步骤S6,获取一预设增量周期会话交互数据的增量数据,基于增量数据对序列模型进行迭代训练;
增量社区发现步骤S7,根据序列模型获取序列向量并进行聚类操作。
基于上述步骤,本申请实施例通过基于数据增量的模型迭代实现动态的社区发现,面临数据增量快的情况直接通过模型迭代的方式快速动态更新社区,进一步便于在进行项目筹备时参考最新的员工社区进行员工配置,有助于提高员工协作能力,提高工作效率。
下面通过优选实施例对本申请实施例进行描述和说明。
图3是根据本申请优选实施例的员工社区发现方法的流程图,如图3所示,该员工社区发现方法包括如下步骤:
员工交互序列生成S301:获取员工会话交互数据,如图4所示,其中包括员工之间的隐式交互,使用MD5加密算法将员工姓名进行匿名ID处理,以天作为预设切分单位将会话交互数据的单聊数据和群聊数据切分为会话单元,然后将会话单元按照时间顺序生成员工交互序列,员工交互序列的具体示例如图5所示。
员工交互序列建模S302:基于上述员工交互序列数据进行序列建模,可以通过基于Word2Vec、Glove等序列建模方法,本实施例优选使用Word2Vec模型来完成序列建模,具体步骤如下:
首先,将员工交互序列数据处理为语料形式,具体把数据中每行数据中的逗号去掉替换成空格。
然后,构建词典,并统计词频。具体需要遍历一遍所有文本,找出所有出现过的词,并统计各词的出现频率:
随后,构造树形结构:依照各词出现频率构造霍夫曼树Huffman;
最后,基于该霍夫曼树训练中间向量和词向量模型,完成Word2Vec模型的CBOW或Skip-Gram模型来完成训练。
员工数字化表示S303:基于上述的序列模型完成员工的向量表示,得到员工交互序列的序列向量,具体按照员工表示成32位的稠密向量来表示每个员工,如图6所示。
使用K-Means算法完成聚类S304:使用聚类算法完成社区的发现,基于上述步骤S303得到的32维稠密向量,将稠密向量完成K-Means算法的调试和验证。具体如图7所示,图中星号表示利用聚类算法划分得到的几个社区。
输出聚类成社区的员工S305:根据查询请求将聚类成社区的员工进行输出。
数据增量和模型迭代S306:直接通过模型迭代的方式,通过每天或者设置固定天数的增量数据,启动模型训练过程和后续员工数字化表示,然后通过聚类算法进行聚类操作完成最终的社区发现。参考图8所示,步骤S306整个过程是不断处理增量数据、迭代模型、重新构建员工数字化表示、完成聚类操作。从而实现以企业员工会话数据的增量数据为基础的模型迭代,通过数据增量实现动态的社区发现。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种员工社区发现系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图9是根据本申请实施例的员工社区发现系统的结构框图,如图9所示,该系统包括:
交互序列获取模块1,获取目标员工的会话交互数据,将会话交互数据进行加密处理并根据一预设切分单位分为多个会话单元,并根据时间顺序将会话单元输出为员工交互序列;具体的,会话交互数据的加密处理具体为对员工姓名进行匿名ID处理,举例而非限制,如基于MD5加密算法,以便于有效实现隐私保护及数据安全。可选的,预设切分单位可以为日、天、周、月、年等,本申请实施例支持对会话交互数据中的单聊数据和群聊数据以同一预设切分单位或不同预设切分单位进行会话单元的切分。
序列模型获取模块2,基于员工交互序列通过序列建模方法构建并训练序列模型;具体的,序列模型包括Word2Vec模型和/或Glove模型。可选的,序列模型为Word2Vec模型,序列模型获取模块2进一步包括:数据预处理模块201,将所述员工交互序列转换为员工交互预料;其中,需将员工交互序列中每一行数据中的逗号替换为空格。词典构建模块202,遍历所述员工交互预料中的词语构建词典构建词典并统计词频。霍夫曼树构造模块203,基于所述词频构造一霍夫曼树。模型训练模块204,利用所述霍夫曼树训练Word2Vec模型中CBOW模型或Skip-Gram模型。基于此,结合员工交互序列完成对本申请实施例序列模型的建立及训练,以便于通过序列模型对员工交互序列进行向量表示,从而降低数据存储成本。
序列向量获取模块3,基于序列模型得到员工交互序列的序列向量基于本模块得到的序列向量可以为根据员工表示为32位的稠密向量。
员工社区发现模块4,将所述序列向量利用聚类算法进行聚类,完成社区发现。具体的,所述聚类算法为K-Means算法。
社区员工输出模块5,基于用户的查询请求将聚类成社区的员工进行输出。
基于上述结构,本申请实施例以企业员工会话交互过程为基础数据实现员工社区发现,会话交互数据中既包括群聊中员工合作关系又包括个人之间的交互关系,有助于更准确、完善的发现员工社区。另外,将会话交互数据处理为员工交互序列并基于序列模型实现员工关系的向量化表示,大大减少原始数据的存储成本。而且,该方式并不限制数据量的大小,更甚者数据量越大模型训练效果越好,如此一来,降低了数据的计算成本,避免了面对海量数据加重计算成本的问题。
图10是根据本申请实施例的员工社区发现系统的优选结构框图,如图10所示,该系统包括图9所示的所有模块,此外还包括:
模型迭代模块6,获取一预设增量周期会话交互数据的增量数据,基于增量数据对序列模型进行迭代训练;
增量社区发现模块7,根据所述序列模型获取序列向量并进行聚类操作。
基于上述结构,本申请实施例通过基于数据增量的模型迭代实现动态的社区发现,面临数据增量快的情况直接通过模型迭代的方式快速动态更新社区,进一步便于在进行项目筹备时参考最新的员工社区进行员工配置,有助于提高员工协作能力,提高工作效率。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1-2描述的本申请实施例员工社区发现方法可以由计算机设备来实现。计算机设备可以包括处理器以及存储有计算机程序指令的存储器。具体地,上述处理器可以包括中央处理器(CPU),或者特定集成电路(Application Specific IntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器可在数据处理装置的内部或外部。在特定实施例中,存储器是非易失性(Non-Volatile)存储器。在特定实施例中,存储器包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random AccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。
处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种员工社区发现方法。
另外,结合上述实施例中的员工社区发现方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种员工社区发现方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种员工社区发现方法,其特征在于,包括:
交互序列获取步骤,获取目标员工的会话交互数据,将所述会话交互数据进行加密处理并根据一预设切分单位分为多个会话单元,并将所述会话单元输出为员工交互序列;
序列模型获取步骤,基于所述员工交互序列通过序列建模方法构建并训练序列模型;
序列向量获取步骤,基于所述序列模型得到所述员工交互序列的序列向量;
员工社区发现步骤,将所述序列向量利用聚类算法进行聚类,完成社区发现。
2.根据权利要求1所述的员工社区发现方法,其特征在于,所述序列模型为Word2Vec模型,所述序列模型获取步骤进一步包括:
数据预处理步骤,将所述员工交互序列转换为员工交互预料;
词典构建步骤,遍历所述员工交互预料中的词语构建词典并统计词频;
霍夫曼树构造步骤,基于所述词频构造一霍夫曼树;
模型训练步骤,利用所述霍夫曼树训练Word2Vec模型中CBOW模型或Skip-Gram模型。
3.根据权利要求1或2所述的员工社区发现方法,其特征在于,还包括:
社区员工输出步骤,基于用户的查询请求将聚类成社区的员工进行输出。
4.根据权利要求1或2所述的员工社区发现方法,其特征在于,还包括:
模型迭代步骤,获取一预设增量周期会话交互数据的增量数据,基于所述增量数据对所述序列模型进行迭代训练;
增量社区发现步骤,根据所述序列模型获取序列向量并进行聚类操作。
5.一种员工社区发现系统,其特征在于,包括:
交互序列获取模块,获取目标员工的会话交互数据,将所述会话交互数据进行加密处理并根据一预设切分单位分为多个会话单元,并将所述会话单元输出为员工交互序列;
序列模型获取模块,基于所述员工交互序列通过序列建模方法构建并训练序列模型;
序列向量获取模块,基于所述序列模型得到所述员工交互序列的序列向量;
员工社区发现模块,将所述序列向量利用聚类算法进行聚类,完成社区发现。
6.根据权利要求5所述的员工社区发现系统,其特征在于,所述序列模型为Word2Vec模型,所述序列模型获取模块进一步包括:
数据预处理模块,将所述员工交互序列转换为员工交互预料;
词典构建模块,遍历所述员工交互预料中的词语构建词典并统计词频;
霍夫曼树构造模块,基于所述词频构造一霍夫曼树;
模型训练模块,利用所述霍夫曼树训练Word2Vec模型中CBOW模型或Skip-Gram模型。
7.根据权利要求5或6所述的员工社区发现系统,其特征在于,还包括:
社区员工输出模块,基于用户的查询请求将聚类成社区的员工进行输出。
8.根据权利要求5或6所述的员工社区发现系统,其特征在于,还包括:
模型迭代模块,获取一预设增量周期会话交互数据的增量数据,基于所述增量数据对所述序列模型进行迭代训练;
增量社区发现模块,根据所述序列模型获取序列向量并进行聚类操作。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的员工社区发现方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的员工社区发现方法。
CN202110779613.XA 2021-07-09 2021-07-09 员工社区发现方法、系统、计算机和可读存储介质 Pending CN113407659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110779613.XA CN113407659A (zh) 2021-07-09 2021-07-09 员工社区发现方法、系统、计算机和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110779613.XA CN113407659A (zh) 2021-07-09 2021-07-09 员工社区发现方法、系统、计算机和可读存储介质

Publications (1)

Publication Number Publication Date
CN113407659A true CN113407659A (zh) 2021-09-17

Family

ID=77685697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110779613.XA Pending CN113407659A (zh) 2021-07-09 2021-07-09 员工社区发现方法、系统、计算机和可读存储介质

Country Status (1)

Country Link
CN (1) CN113407659A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793489A (zh) * 2014-01-16 2014-05-14 西北工业大学 一种在线社交网络中社群话题的发现方法
CN104077723A (zh) * 2013-03-25 2014-10-01 中兴通讯股份有限公司 一种社交网络推荐系统及方法
CN107749033A (zh) * 2017-11-09 2018-03-02 厦门市美亚柏科信息股份有限公司 一种网络社区活跃用户簇的发现方法、终端设备及存储介质
CN108280115A (zh) * 2017-10-24 2018-07-13 腾讯科技(深圳)有限公司 识别用户关系的方法及装置
CN109951377A (zh) * 2019-03-20 2019-06-28 西安电子科技大学 一种好友分组方法、装置、计算机设备和存储介质
CN111582538A (zh) * 2020-03-25 2020-08-25 清华大学 一种基于图神经网络的社群价值预测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077723A (zh) * 2013-03-25 2014-10-01 中兴通讯股份有限公司 一种社交网络推荐系统及方法
CN103793489A (zh) * 2014-01-16 2014-05-14 西北工业大学 一种在线社交网络中社群话题的发现方法
CN108280115A (zh) * 2017-10-24 2018-07-13 腾讯科技(深圳)有限公司 识别用户关系的方法及装置
CN107749033A (zh) * 2017-11-09 2018-03-02 厦门市美亚柏科信息股份有限公司 一种网络社区活跃用户簇的发现方法、终端设备及存储介质
CN109951377A (zh) * 2019-03-20 2019-06-28 西安电子科技大学 一种好友分组方法、装置、计算机设备和存储介质
CN111582538A (zh) * 2020-03-25 2020-08-25 清华大学 一种基于图神经网络的社群价值预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈长华等: "融合Word2vec与时间因素的馆藏学术论文推荐算法", 图书馆论坛, vol. 39, no. 5, pages 112 - 113 *

Similar Documents

Publication Publication Date Title
Fu et al. Toward efficient multi-keyword fuzzy search over encrypted outsourced data with accuracy improvement
CN109154940B (zh) 学习新字词
US11341128B2 (en) Poly-logarithmic range queries on encrypted data
CN112214775B (zh) 防止第三方获取关键图数据信息的对图数据的注入式攻击方法、装置、介质及电子设备
CN107240029B (zh) 一种数据处理方法及装置
CN112214499B (zh) 图数据处理方法、装置、计算机设备和存储介质
CN111400504A (zh) 企业关键人的识别方法和装置
CN104424187B (zh) 一种向客户端用户推荐好友的方法及装置
CN112948885B (zh) 实现隐私保护的多方协同更新模型的方法、装置及系统
CN109120431B (zh) 复杂网络中传播源选择的方法、装置及终端设备
Zhang et al. SUMMA: subgraph matching in massive graphs
CN108648017B (zh) 易于扩展的用户需求匹配方法、装置、设备及存储介质
Bringmann et al. De-anonymization of heterogeneous random graphs in quasilinear time
Wan et al. Online frank-wolfe with arbitrary delays
CN108696418B (zh) 一种社交网络中隐私保护方法及装置
CN113407702B (zh) 员工合作关系强度量化方法、系统、计算机和存储介质
Ying et al. FrauDetector+ An Incremental Graph-Mining Approach for Efficient Fraudulent Phone Call Detection
CN115292737B (zh) 一种多关键词模糊搜索加密方法、系统及电子设备
CN104125254A (zh) 获取平台用户资料的方法和系统
Yao et al. Beware of what you share: Inferring user locations in Venmo
CN113407659A (zh) 员工社区发现方法、系统、计算机和可读存储介质
CN108319659B (zh) 一种基于加密图像快速搜索的社交发现方法
Wang Optimization of intelligent data mining technology in big data environment
CN110889467A (zh) 一种公司名称匹配方法、装置、终端设备及存储介质
CN115712678A (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination