CN112988724A - 一种工作效率数据获取方法及系统 - Google Patents

一种工作效率数据获取方法及系统 Download PDF

Info

Publication number
CN112988724A
CN112988724A CN202110189080.XA CN202110189080A CN112988724A CN 112988724 A CN112988724 A CN 112988724A CN 202110189080 A CN202110189080 A CN 202110189080A CN 112988724 A CN112988724 A CN 112988724A
Authority
CN
China
Prior art keywords
data
work efficiency
database
dimensionality
hbase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110189080.XA
Other languages
English (en)
Inventor
于佳新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202110189080.XA priority Critical patent/CN112988724A/zh
Publication of CN112988724A publication Critical patent/CN112988724A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种工作效率数据获取方法及系统。工作效率数据获取方法包括:存储步骤:将数据存储到所述数据对应的数据库中;清洗步骤:对存储到所述数据库中的所述数据进行清洗,并抽取所述数据对应的维度;计算步骤:根据所述数据对应的所述维度,通过大数据分布式计算获取特征数据;获取步骤:通过深度神经网络模型对所述特征数据进行处理,并获取所述特征数据对应的画像数据后,利用B I技术平台,对所述画像数据进行可视化处理,获取工作效率数据。本发明提供一种工作效率数据获取方法及系统,本发明对大数据进行计算后,再通过深度神经网络学习模型,得出员工的画像,通过员工数据,可以得到员工的工作效率。

Description

一种工作效率数据获取方法及系统
技术领域
本申请涉及数据获取技术领域,尤其涉及一种工作效率数据获取方法及系统。
背景技术
当前社会,沟通都是通过互联网了,因此在工作中,需求的交接,结果的对接,也更多的转移到了互联网上,而作为企业来说,怎么判断员工的工作沟通以及沟通的效率,而员工的沟通数据又怎么直观的展示出来,也就成为了企业里需解决的问题。现有的技术,可以通过管理者看到当前员工是否活跃,沟通的情况,从而可以看到员工使用企业沟通软件的频率和次数,通过这些数据,可以进行数据的整理,可视化计算,通过结果可以得到员工在企业里的沟通效率。现有技术仅仅可以看到使用人员的活跃状态,通过管理者看到使用人员的使用次数,但并不能通过数据进行计算,也无法和会议,邮件关联起来,就造成了仅仅通过一个使用频率来判断员工的工作状态,这个结果的不合理性,并且沟通的次数也不仅仅代表工作的沟通次数,所以这个结果来说,也是具有很大的片面性的。
因此,针对以上现状,本发明提供一种工作效率数据获取方法及系统,本发明通过总结员工的沟通内容、邮件内容、会议内容以及群聊内容与沟通、邮件、会议、群聊频率、时长等相关数据,对数据进行分析,积累了样本数据,并对大数据进行计算后,再通过深度神经网络学习模型,得出员工的画像,通过员工的数据,可以得到员工的工作效率,进而可以得到企业员工的工作效率,提高了企业对员工的了解以及企业内部员工的工作效率,提高了员工积极性。
发明内容
本申请实施例提供了一种工作效率数据获取方法及系统,以至少解决相关技术中主观因素影响的问题。
本发明提供了一种工作效率数据获取方法,包括:
存储步骤:将数据存储到所述数据对应的数据库中;
清洗步骤:对存储到所述数据库中的所述数据进行清洗,并抽取所述数据对应的维度;
计算步骤:根据所述数据对应的所述维度,通过大数据分布式计算获取特征数据;
获取步骤:通过深度神经网络模型对所述特征数据进行处理,并获取所述特征数据对应的画像数据后,利用BI技术平台,对所述画像数据进行可视化处理,获取工作效率数据。
上述的工作效率数据获取方法,所述存储步骤包括,所述数据由员工的邮件数据、沟通软件上的沟通数据、会议数据以及群聊数据组成,通过selenium和webdriver对所述邮件数据进行抓取,并将抓取到的所述邮件数据存储到数据库hbase中,所述沟通数据通过api存储到所述数据库hbase中,通过oam系统将所述会议数据与所述群聊数据存储到所述数据库hbase中。
上述的工作效率数据获取方法,所述清洗步骤包括,通过ETL工具对所述数据库hbase中的所述数据进行清洗,并抽取所述数据对应的所述维度后,将所述数据与所述数据对应的所述维度存储到所述数据库hbase中。
上述的工作效率数据获取方法,所述计算步骤包括,根据所述数据对应的所述维度,通过所述大数据分布式计算对所述数据进行计算,并根据所述数据对应的所述维度,获取所述数据对应的所述特征数据。
上述的工作效率数据获取方法,所述获取步骤包括,通过所述深度神经网络模型,对所述特征数据进行处理,进而获取所述数据对应的用户的所述画像数据,并利用所述BI技术平台,对所述画像数据进行可视化处理,形成所述用户的所述画像数据对应的图标与报表,并对所述图标与所述报表进行汇总,进而获取所述用户的所述工作效率数据。
本发明还提供一种工作效率数据获取系统,其中,适用于上述所述的工作效率数据获取方法,所述工作效率数据获取系统包括:
存储单元:将数据存储到所述数据对应的数据库中;
清洗单元:对存储到所述数据库中的所述数据进行清洗,并抽取所述数据对应的维度;
计算单元:根据所述数据对应的所述维度,通过大数据分布式计算获取特征数据;
获取单元:通过深度神经网络模型对所述特征数据进行处理,并获取所述特征数据对应的画像数据后,利用BI技术平台,对所述画像数据进行可视化处理,获取工作效率数据。
上述的工作效率数据获取系统,所述数据由员工的邮件数据、沟通软件上的沟通数据、会议数据以及群聊数据组成,所述存储单元通过selenium和webdriver对所述邮件数据进行抓取,并将抓取到的所述邮件数据存储到数据库hbase中,所述存储单元通过api将所述沟通数据存储到所述数据库hbase中,所述存储单元通过oam系统将所述会议数据与所述群聊数据存储到所述数据库hbase中。
上述的工作效率数据获取系统,所述清洗单元通过ETL工具对存储到所述数据库hbase中的所述数据进行清洗,并抽取所述数据对应的所述维度后,对所述数据与所述数据对应的所述维度进行汇总整理,并存储到所述数据库hbase中。
上述的工作效率数据获取系统,所述计算单元根据所述数据对应的所述维度,通过所述大数据分布式计算对所述数据进行计算,并根据所述数据对应的所述维度,获取所述数据对应的所述特征数据。
上述的工作效率数据获取系统,通过所述深度神经网络模型,对所述特征数据进行处理,进而通过所述获取单元获取所述数据对应的用户的所述画像数据,并利用所述BI技术平台,对所述画像数据进行可视化处理,形成所述用户的所述画像数据对应的图标与报表,并对所述图标与所述报表进行汇总,进而获取所述用户的所述工作效率数据。
相比于相关技术,本发明提供一种工作效率数据获取方法及系统,本发明通过总结员工的沟通内容、邮件内容、会议内容以及群聊内容与沟通、邮件、会议、群聊频率、时长等相关数据,对数据进行分析,积累了样本数据,并对大数据进行计算后,再通过深度神经网络学习模型,得出员工的画像,通过员工的数据,可以得到员工的工作效率,进而可以得到企业员工的工作效率,提高了企业对员工的了解以及企业内部员工的工作效率,提高了员工积极性。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的工作效率数据获取方法流程图;
图2是根据本申请实施例的流程结构图;
图3是根据本申请实施例的员工沟通概览图;
图4为本发明的工作效率数据获取系统的结构示意图;
图5是根据本申请实施例的电子设备的框架图。
其中,附图标记为:
存储单元:51;
清洗单元:52;
计算单元:53;
获取单元:54;
总线:80;
处理器:81;
存储器:82;
通信接口:83。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本发明基于工作效率数据获取方法及系统,下面进行简要的介绍。
Hbase是一个开源的非关系型分布式数据库,它参考了谷歌的BigTable建模,实现的编程语言为Java。它是Apache软件基金会Hadoop项目的一部分,运行于HDFS文件系统之上,为Hadoop提供类似于BigTable规模的服务。虽然其在性能有显著的提升,但还不能直接取代SQL数据库,它已经应用于多个数据驱动型网站。HBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。与YonghongZ-DataMart等商用大数据产品不同,HBase是GoogleBigtable的开源实现,类似GoogleBigtable利用GFS作为其文件存储系统,HBase利用HadoopHDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用HadoopMapReduce来处理HBase中的海量数据;GoogleBigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应。HadoopEcoSystem中的各层系统其中,HBase位于结构化存储层,HadoopHDFS为HBase提供了高可靠性的底层存储支持,HadoopMapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。主要讨论逻辑模型和物理模型。Hbase的名字的来源是Hadoopdatabase,即hadoop数据库。逻辑模型主要是从用户角度来考虑,即如何使用Hbase。物理模型是主要从实现Hbase的角度来讨论。
深度神经网络指的是微软推出了一新款语音识别软件,其工作原理是模仿人脑思考方式,从而使该软件的语音识别速度更快,识别准确率也更高。层的好处是可以用较少的参数表示复杂的函数。在监督学习中,以前的多层神经网络的问题是容易陷入局部极值点。如果训练样本足够充分覆盖未来的样本,那么学到的多层权重可以很好的用来预测新的测试样本。但是很多任务难以得到足够多的标记样本,在这种情况下,简单的模型,比如线性回归或者决策树往往能得到比多层神经网络更好的结果(更好的泛化性,更差的训练误差)。非监督学习中,以往没有有效的方法构造多层网络。多层神经网络的顶层是底层特征的高级表示,比如底层是像素点,上一层的结点可能表示横线,三角;而顶层可能有一个结点表示人脸。一个成功的算法应该能让生成的顶层特征最大化的代表底层的样例。如果对所有层同时训练,时间复杂度会太高;如果每次训练一层,偏差就会逐层传递。这会面临跟上面监督学习中相反的问题,会严重欠拟合。2006年,hinton提出了在非监督数据上建立多层神经网络的一个有效方法,简单的说,分为两步,一是每次训练一层网络,二是调优使原始表示x向上生成的高级表示r和该高级表示r向下生成的x'尽可能一致。方法是首先逐层构建单层神经元,这样每次都是训练一个单层网络。当所有层训练完后,hinton使用wake-sleep算法进行调优。将除最顶层的其它层间的权重变为双向的,这样最顶层仍然是一个单层神经网络,而其它层则变为了图模型。向上的权重用于”认知“,向下的权重用于”生成“。然后使用Wake-Sleep算法调整所有的权重。让认知和生成达成一致,也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。比如顶层的一个结点表示人脸,那么所有人脸的图像应该激活这个结点,并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。Wake-Sleep算法分为醒(wake)和睡(sleep)两个部分。wake阶段,认知过程,通过外界的特征和向上的权重(认知权重)产生每一层的抽象表示(结点状态),并且使用梯度下降修改层间的下行权重(生成权重)。也就是“如果现实跟我想像的不一样,改变我的权重使得我想像的东西就是这样的“。sleep阶段,生成过程,通过顶层表示(醒时学得的概念)和向下权重,生成底层的状态,同时修改层间向上的权重。也就是“如果梦中的景象不是我脑中的相应概念,改变我的认知权重使得这种景象在我看来就是这个概念“。由于自动编码器(auto-encoder,即上面说的神经网络。广义上的自动编码器指所有的从低级表示得到高级表示,并能从高级表示生成低级表示的近似的结构,狭义上指的是其中的一种,谷歌的人脸识别用的)有联想功能,也就是缺失部分输入也能得到正确的编码,所以上面说的算法也可以用于有监督学习,训练时y做为顶层网络输入的补充,应用时顶层网络生成y'。
分布式计算(Distributed computing),又译为分散式运算,是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。常见的分布式计算项目通常使用世界各地上千万志愿者计算机的闲置计算能力,通过互联网进行数据传输(志愿计算),借助分布式计算可以花费较小的成本来达到目标。分布式计算是利用互联网上的计算机的中央处理器的闲置处理能力来解决大型计算问题的一种计算科学。分布式计算是近年提出的一种新的计算方式。所谓分布式计算就是在两个或多个软件互相共享信息,这些软件既可以在同一台计算机上运行,也可以在通过网络连接起来的多台计算机上运行。分布式计算比起其它算法具有以下几个优点:稀有资源可以共享;通过分布式计算可以在多台计算机上平衡计算负载;可以把程序放在最适合运行它的计算机上。其中,共享稀有资源和平衡负载是计算机分布式计算的核心思想之一。下面,我们看看它是怎么工作的:首先,要发现一个需要非常巨大的计算能力才能解决的问题。这类问题一般是跨学科的、极富挑战性的、人类急待解决的科研课题。其中较为著名的是:从这些实际的例子可以看出,这些项目都很庞大,需要惊人的计算量,仅仅由单个的电脑或是个人在一个能让人接受的时间内计算完成是决不可能的。在以前,这些问题都应该由超级计算机来解决。但是,超级计算机的造价和维护非常的昂贵,这不是一个普通的科研组织所能承受的。随着科学的发展,一种廉价的、高效的、维护方便的计算方法应运而生——分布式计算!随着计算机的普及,个人电脑开始进入千家万户。与之伴随产生的是电脑的利用问题。越来越多的电脑处于闲置状态,即使在开机状态下中央处理器的潜力也远远不能被完全利用。我们可以想象,一台家用的计算机将大多数的时间花费在“等待”上面。即便是使用者实际使用他们的计算机时,处理器依然是寂静的消费,依然是不计其数的等待(等待输入,但实际上并没有做什么)。互联网的出现,使得连接调用所有这些拥有限制计算资源的计算机系统成为了现实。那么,一些本身非常复杂的但是却很适合于划分为大量的更小的计算片断的问题被提出来,然后由某个研究机构通过大量艰辛的工作开发出计算用服务端和客户端。服务端负责将计算问题分成许多小的计算部分,然后把这些部分分配给许多联网参与计算的计算机进行并行处理,最后将这些计算结果综合起来得到最终的结果。当然,这看起来也似乎很原始、很困难,但是随着参与者和参与计算的计算机的数量的不断增加,计算计划变得非常迅速,而且被实践证明是的确可行的。目前一些较大的分布式计算项目的处理能力已经可以达到甚而超过目前世界上速度最快的巨型计算机。
本发明提供一种工作效率数据获取方法及系统,本发明通过总结员工的沟通内容、邮件内容、会议内容以及群聊内容与沟通、邮件、会议、群聊频率、时长等相关数据,对数据进行分析,积累了样本数据,并对大数据进行计算后,再通过深度神经网络学习模型,得出员工的画像,通过员工的数据,可以得到员工的工作效率,进而可以得到企业员工的工作效率,提高了企业对员工的了解以及企业内部员工的工作效率,提高了员工积极性。
下面将工作效率数据获取为例对本申请实施例进行说明。
实施例一
本实施例提供了工作效率数据获取方法。请参照图1-图3,图1是根据本申请实施例的工作效率数据获取方法流程图;图2是根据本申请实施例的流程结构图;图3是根据本申请实施例的员工沟通概览图,如图所示,工作效率数据获取方法包括如下步骤:
存储步骤S1:将数据存储到所述数据对应的数据库中;
清洗步骤S2:对存储到所述数据库中的所述数据进行清洗,并抽取所述数据对应的维度;
计算步骤S3:根据所述数据对应的所述维度,通过大数据分布式计算获取特征数据;
获取步骤S4:通过深度神经网络模型对所述特征数据进行处理,并获取所述特征数据对应的画像数据后,利用BI技术平台,对所述画像数据进行可视化处理,获取工作效率数据。
实施例中,所述存储步骤S1包括,所述数据由员工的邮件数据、沟通软件上的沟通数据、会议数据以及群聊数据组成,通过selenium和webdriver对所述邮件数据进行抓取,并将抓取到的所述邮件数据存储到数据库hbase中,所述沟通数据通过api存储到所述数据库hbase中,通过oam系统将所述会议数据与所述群聊数据存储到所述数据库hbase中。
具体实施中,所述员工的邮件数据包括员工邮件内容、邮件使用频率以及使用时长;沟通软件上的沟通数据包括沟通内容、沟通软件使用频率以及使用时长;会议数据包括会议内容、开会频率以及会议时长;群聊数据包括群聊内容、群聊频率以及群聊时长。
实施例中,所述清洗步骤S2包括,通过ETL工具对所述数据库hbase中的所述数据进行清洗,并抽取所述数据对应的所述维度后,将所述数据与所述数据对应的所述维度存储到所述数据库hbase中。
实施例中,所述清洗步骤S3包括,通过ETL工具对所述数据库hbase中的所述数据进行清洗,并抽取所述数据对应的所述维度后,将所述数据与所述数据对应的所述维度存储到所述数据库hbase中。
实施例中,所述获取步骤S4包括,通过所述深度神经网络模型,对所述特征数据进行处理,进而获取所述数据对应的用户的所述画像数据,并利用所述BI技术平台,对所述画像数据进行可视化处理,形成所述用户的所述画像数据对应的图标与报表,并对所述图标与所述报表进行汇总,进而获取所述用户的所述工作效率数据。
由此,本发明提供一种工作效率数据获取方法及系统,本发明通过总结员工的沟通内容、邮件内容、会议内容以及群聊内容与沟通、邮件、会议、群聊频率、时长等相关数据,对数据进行分析,积累了样本数据,并对大数据进行计算后,再通过深度神经网络学习模型,得出员工的画像,通过员工的数据,可以得到员工的工作效率,进而可以得到企业员工的工作效率,提高了企业对员工的了解以及企业内部员工的工作效率,提高了员工积极性。
实施例二
请参照图4,图4为本发明的工作效率数据获取系统的结构示意图。如图4所示,发明的工作效率数据获取系统,适用于上述的工作效率数据获取方法,工作效率数据获取系统包括:
存储单元51:将数据存储到所述数据对应的数据库中;
清洗单元52:对存储到所述数据库中的所述数据进行清洗,并抽取所述数据对应的维度;
计算单元53:根据所述数据对应的所述维度,通过大数据分布式计算获取特征数据;
获取单元54:通过深度神经网络模型对所述特征数据进行处理,并获取所述特征数据对应的画像数据后,利用BI技术平台,对所述画像数据进行可视化处理,获取工作效率数据。
在本实施例中,所述数据由员工的邮件数据、沟通软件上的沟通数据、会议数据以及群聊数据组成,所述存储单元51通过selenium和webdriver对所述邮件数据进行抓取,并将抓取到的所述邮件数据存储到数据库hbase中,所述存储单元51通过api将所述沟通数据存储到所述数据库hbase中,所述存储单元51通过oam系统将所述会议数据与所述群聊数据存储到所述数据库hbase中。
在本实施例中,所述清洗单元52通过ETL工具对存储到所述数据库hbase中的所述数据进行清洗,并抽取所述数据对应的所述维度后,对所述数据与所述数据对应的所述维度进行汇总整理,并存储到所述数据库hbase中。
在本实施例中,所述计算单元53根据所述数据对应的所述维度,通过所述大数据分布式计算对所述数据进行计算,并根据所述数据对应的所述维度,获取所述数据对应的所述特征数据。
本实施例中,通过所述深度神经网络模型,对所述特征数据进行处理,进而通过所述获取单元54获取所述数据对应的用户的所述画像数据,并利用所述BI技术平台,对所述画像数据进行可视化处理,形成所述用户的所述画像数据对应的图标与报表,并对所述图标与所述报表进行汇总,进而获取所述用户的所述工作效率数据。
实施例三
结合5所示,本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为FPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EFPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意工作效率数据获取方法。
在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图5所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/工作效率数据获取设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
电子设备可连接工作效率数据获取系统,从而实现结合图1-图3描述的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种工作效率数据获取方法,其特征在于,包括:
存储步骤:将数据存储到所述数据对应的数据库中;
清洗步骤:对存储到所述数据库中的所述数据进行清洗,并抽取所述数据对应的维度;
计算步骤:根据所述数据对应的所述维度,通过大数据分布式计算获取特征数据;
获取步骤:通过深度神经网络模型对所述特征数据进行处理,并获取所述特征数据对应的画像数据后,利用BI技术平台,对所述画像数据进行可视化处理,获取工作效率数据。
2.根据权利要求1所述的工作效率数据获取方法,其特征在于,所述存储步骤包括,所述数据由员工的邮件数据、沟通软件上的沟通数据、会议数据以及群聊数据组成,通过selenium和webdriver对所述邮件数据进行抓取,并将抓取到的所述邮件数据存储到数据库hbase中,所述沟通数据通过api存储到所述数据库hbase中,通过oam系统将所述会议数据与所述群聊数据存储到所述数据库hbase中。
3.根据权利要求1所述的工作效率数据获取方法,其特征在于,所述清洗步骤包括,通过ETL工具对所述数据库hbase中的所述数据进行清洗,并抽取所述数据对应的所述维度后,将所述数据与所述数据对应的所述维度存储到所述数据库hbase中。
4.根据权利要求1所述的工作效率数据获取方法,其特征在于,所述计算步骤包括,根据所述数据对应的所述维度,通过所述大数据分布式计算对所述数据进行计算,并根据所述数据对应的所述维度,获取所述数据对应的所述特征数据。
5.根据权利要求1所述的工作效率数据获取方法,其特征在于,所述获取步骤包括,通过所述深度神经网络模型,对所述特征数据进行处理,进而获取所述数据对应的用户的所述画像数据,并利用所述BI技术平台,对所述画像数据进行可视化处理,形成所述用户的所述画像数据对应的图标与报表,并对所述图标与所述报表进行汇总,进而获取所述用户的所述工作效率数据。
6.一种工作效率数据获取系统,其特征在于,适用于上述权利要求1-5所述的工作效率数据获取方法,所述工作效率数据获取系统包括:
存储单元:将数据存储到所述数据对应的数据库中;
清洗单元:对存储到所述数据库中的所述数据进行清洗,并抽取所述数据对应的维度;
计算单元:根据所述数据对应的所述维度,通过大数据分布式计算获取特征数据;
获取单元:通过深度神经网络模型对所述特征数据进行处理,并获取所述特征数据对应的画像数据后,利用BI技术平台,对所述画像数据进行可视化处理,获取工作效率数据。
7.根据权利要求6所述的工作效率数据获取系统,其特征在于,所述数据由员工的邮件数据、沟通软件上的沟通数据、会议数据以及群聊数据组成,所述存储单元通过selenium和webdriver对所述邮件数据进行抓取,并将抓取到的所述邮件数据存储到数据库hbase中,所述存储单元通过api将所述沟通数据存储到所述数据库hbase中,所述存储单元通过oam系统将所述会议数据与所述群聊数据存储到所述数据库hbase中。
8.根据权利要求7所述的工作效率数据获取系统,其特征在于,所述清洗单元通过ETL工具对存储到所述数据库hbase中的所述数据进行清洗,并抽取所述数据对应的所述维度后,对所述数据与所述数据对应的所述维度进行汇总整理,并存储到所述数据库hbase中。
9.根据权利要求8所述的工作效率数据获取系统,其特征在于,所述计算单元根据所述数据对应的所述维度,通过所述大数据分布式计算对所述数据进行计算,并根据所述数据对应的所述维度,获取所述数据对应的所述特征数据。
10.根据权利要求9所述的工作效率数据获取系统,其特征在于,通过所述深度神经网络模型,对所述特征数据进行处理,进而通过所述获取单元获取所述数据对应的用户的所述画像数据,并利用所述BI技术平台,对所述画像数据进行可视化处理,形成所述用户的所述画像数据对应的图标与报表,并对所述图标与所述报表进行汇总,进而获取所述用户的所述工作效率数据。
CN202110189080.XA 2021-02-19 2021-02-19 一种工作效率数据获取方法及系统 Pending CN112988724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110189080.XA CN112988724A (zh) 2021-02-19 2021-02-19 一种工作效率数据获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110189080.XA CN112988724A (zh) 2021-02-19 2021-02-19 一种工作效率数据获取方法及系统

Publications (1)

Publication Number Publication Date
CN112988724A true CN112988724A (zh) 2021-06-18

Family

ID=76393422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110189080.XA Pending CN112988724A (zh) 2021-02-19 2021-02-19 一种工作效率数据获取方法及系统

Country Status (1)

Country Link
CN (1) CN112988724A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792981A (zh) * 2021-08-18 2021-12-14 宜卡科技(深圳)有限公司 效率统计方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174290A1 (en) * 2006-01-19 2007-07-26 International Business Machines Corporation System and architecture for enterprise-scale, parallel data mining
CN103279816A (zh) * 2013-04-27 2013-09-04 深信服网络科技(深圳)有限公司 基于活动窗口统计终端工作效率的方法和系统
CN110851646A (zh) * 2019-11-18 2020-02-28 陈镜涛 智能园区的工作效率统计方法
CN111967729A (zh) * 2020-07-28 2020-11-20 兰笺(苏州)科技有限公司 一种基于数据挖掘的产业化人员画像评价方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174290A1 (en) * 2006-01-19 2007-07-26 International Business Machines Corporation System and architecture for enterprise-scale, parallel data mining
CN103279816A (zh) * 2013-04-27 2013-09-04 深信服网络科技(深圳)有限公司 基于活动窗口统计终端工作效率的方法和系统
CN110851646A (zh) * 2019-11-18 2020-02-28 陈镜涛 智能园区的工作效率统计方法
CN111967729A (zh) * 2020-07-28 2020-11-20 兰笺(苏州)科技有限公司 一种基于数据挖掘的产业化人员画像评价方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792981A (zh) * 2021-08-18 2021-12-14 宜卡科技(深圳)有限公司 效率统计方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Hazelwood et al. Applied machine learning at facebook: A datacenter infrastructure perspective
CN112905891B (zh) 基于图神经网络的科研知识图谱人才推荐方法及装置
Chen et al. Heterogeneous neural attentive factorization machine for rating prediction
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
Ding et al. Joint qos prediction for web services based on deep fusion of features
CN112988724A (zh) 一种工作效率数据获取方法及系统
Rai et al. Using open source intelligence as a tool for reliable web searching
CN112988954A (zh) 文本分类方法、装置、电子设备和计算机可读存储介质
CN110020214B (zh) 一种融合知识的社交网络流式事件检测系统
CN115115901A (zh) 获取跨域学习模型的方法及装置
CN114332470A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
CN114357152A (zh) 信息处理方法、装置、计算机可读存储介质和计算机设备
Larrakoetxea et al. Efficient machine learning on edge computing through data compression techniques
Dass et al. Amelioration of big data analytics by employing big data tools and techniques
Feng et al. Design and implementation of personalized recommendation system under big data platform
Song et al. Towards an Energy Complexity Model for Distributed Data Processing Algorithms
Wang et al. Service discovery based on user latent intentions
Wang et al. A software-hardware co-exploration framework for optimizing communication in neuromorphic processor
CN117539963B (zh) 一种社交网络数据动态分析方法及系统
US11836168B1 (en) Systems and methods for generating dynamic human-like conversational responses using a modular architecture featuring layered data models in non-serial arrangements with gated neural networks
CN112749297B (zh) 视频推荐方法、装置、计算机设备和计算机可读存储介质
CN115130596A (zh) 一种多模态内容处理方法、装置、电子设备和存储介质
Hongling et al. Research on Data Preprocessing and 3D Matrix Model
Aditya et al. Emotion based video player

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination