CN111401674A - 一种基于大数据的高企信息化管理系统 - Google Patents

一种基于大数据的高企信息化管理系统 Download PDF

Info

Publication number
CN111401674A
CN111401674A CN201911254807.7A CN201911254807A CN111401674A CN 111401674 A CN111401674 A CN 111401674A CN 201911254807 A CN201911254807 A CN 201911254807A CN 111401674 A CN111401674 A CN 111401674A
Authority
CN
China
Prior art keywords
data
information
enterprise
center
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911254807.7A
Other languages
English (en)
Other versions
CN111401674B (zh
Inventor
李福瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911254807.7A priority Critical patent/CN111401674B/zh
Publication of CN111401674A publication Critical patent/CN111401674A/zh
Application granted granted Critical
Publication of CN111401674B publication Critical patent/CN111401674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于大数据的高企信息化管理系统,包括信息终端、安全防护模块和信息管理中心,所述信息终端包括用户登录单元、信息查询单元和信息上传单元,所述安全防护模块用于对信息上传单元上传的企业信息中的异常信息进行过滤后传输至信息管理中心,所述信息管理中心包括项目信息存储单元、员工信息存储单元、财务信息存储单元和政策信息存储单元,信息管理中心按照接收到的企业信息的种类将所述企业信息存储于对应的存储单元中。有益效果:提供一种基于大数据的高企信息化管理系统,将企业中各部门之间的资料结合在一个平台,为企业和个人提供企业信息查询功能,实现了企业各部门之间的信息共享和档案信息化,提高了企业管理的效率。

Description

一种基于大数据的高企信息化管理系统
技术领域
本发明创造涉及大数据领域,具体涉及一种基于大数据的高企信息化管理系统。
背景技术
随着信息化技术的迅速发展和信息社会的来临,各企业越来越重视信息化建设,对于企业而言,要想提高自身的影响力,就必须结合时代的发展需求,改进和完善企业的内部信息管理工作。信息技术的发展对企业内部控制及财务管理提出了更高的要求,企业应当紧跟时代的发展步伐,推动企业内部控制和财务管理的信息化建设,从而提高企业的竞争力。
发明内容
针对上述问题,本发明旨在提供一种基于大数据的高企信息化管理系统。
本发明创造的目的通过以下技术方案实现:
一种基于大数据的高企信息化管理系统,包括信息终端、安全防护模块和信息管理中心,所述信息终端包括用户登录单元、信息查询单元和信息上传单元,所述用户登录单元为用户提供登录该管理系统的界面,用户在该登录界面通过输入用户名和密码进入该管理系统,用户可以通过信息查询单元查询信息管理中心存储的企业信息,用户可以通过信息上传单元上传企业信息,所述安全防护模块用于对信息上传单元上传的企业信息中的异常信息进行过滤,将过滤后的企业信息传输至信息管理中心,所述信息管理中心包括项目信息存储单元、员工信息存储单元、财务信息存储单元和政策信息存储单元,信息管理中心按照接收到的企业信息的种类将所述企业信息存储于对应的存储单元中。
本发明创造的有益效果:提供一种基于大数据的高企信息化管理系统,将企业中各部门之间的资料结合在一个平台,为企业和个人提供企业信息查询功能,实现了企业各部门之间的信息共享和档案信息化,提高了企业管理的效率,此外,在企业信息上传的过程中,对企业信息进行安全检测,确保了企业管理系统的安全性。
附图说明
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明结构示意图。
附图标记:
信息终端1;安全防护模块2;信息管理中心3;用户登录单元11;信息查询单元12;信息上传单元13;信息处理单元21;信息分类单元22;安全检测单元23;项目信息存储单元31;员工信息存储单元32;财务信息存储单元33;政策信息存储单元34。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种基于大数据的高企信息化管理系统,包括信息终端1、安全防护模块2和信息管理中心3,所述信息终端1包括用户登录单元11、信息查询单元12和信息上传单元13,所述用户登录单元11为用户提供登录该管理系统的界面,用户在该登录界面通过输入用户名和密码进入该管理系统,用户可以通过信息查询单元12查询信息管理中心3存储的企业信息,用户可以通过信息上传单元13上传企业信息,所述安全防护模块2用于对信息上传单元13上传的企业信息中的异常信息进行过滤,将过滤后的企业信息传输至信息管理中心3,所述信息管理中心3包括项目信息存储单元31、员工信息存储单元32、财务信息存储单元33和政策信息存储单元34,信息管理中心3按照接收到的企业信息的种类将所述企业信息存储于对应的存储单元中。
本优选实施例提供一种基于大数据的高企信息化管理系统,将企业中各部门之间的资料结合在一个平台,为企业和个人提供企业信息查询功能,实现了企业各部门之间的信息共享和档案信息化,提高了企业管理的效率。
优选地,所述安全防护模块2用于对信息上传单元13上传的企业信息中的异常信息进行过滤,包括信息处理单元21、信息分类单元22和安全检测单元23,所述信息处理单元21用于对上传的企业信息进行标准化处理,并对标准化处理后的企业信息进行降维,所述信息分类单元22用于对处理后的企业信息进行分类,所述安全检测单元23用于根据分类结果对上传的企业信息中的异常数据进行过滤。
优选地,所述信息分类单元22用于对处理后的企业信息进行分类,包括参数确定部分和数据分类部分,所述参数确定部分用于选取初始聚类中心,所述数据分类部分用于根据选取的初始聚类中心将企业信息进行分类。
本优选实施例在企业信息上传的过程中,对企业信息进行安全检测,确保了企业管理系统的安全性。
优选地,所述参数确定部分用于选取聚类中心,设
Figure 100002_DEST_PATH_IMAGE002
表示待分类的数据集(其中,
Figure 100002_DEST_PATH_IMAGE004
表示数据集
Figure 100002_DEST_PATH_IMAGE006
中的数据量),定义数据集
Figure 442343DEST_PATH_IMAGE006
中数据
Figure 100002_DEST_PATH_IMAGE008
对应的竞争聚类中心的权值为
Figure 100002_DEST_PATH_IMAGE010
,则
Figure 174676DEST_PATH_IMAGE010
的计算公式为:
Figure 100002_DEST_PATH_IMAGE012
式中,
Figure 148317DEST_PATH_IMAGE008
为数据集
Figure 430656DEST_PATH_IMAGE006
中的第
Figure 100002_DEST_PATH_IMAGE014
个数据点,
Figure 100002_DEST_PATH_IMAGE016
为数据集
Figure 743826DEST_PATH_IMAGE006
中的第
Figure 100002_DEST_PATH_IMAGE018
个数据,
Figure 100002_DEST_PATH_IMAGE020
表示数据
Figure 443797DEST_PATH_IMAGE008
的邻域数据集合,
Figure 100002_DEST_PATH_IMAGE022
表示数据
Figure 809794DEST_PATH_IMAGE008
的邻域数据集合
Figure 394359DEST_PATH_IMAGE020
中的数据量,
Figure 100002_DEST_PATH_IMAGE024
为数值较小的正常数,
Figure 100002_DEST_PATH_IMAGE026
为数据
Figure 358773DEST_PATH_IMAGE008
的邻域数据集合
Figure 370592DEST_PATH_IMAGE020
中的数据,
Figure 100002_DEST_PATH_IMAGE028
为数据
Figure 226814DEST_PATH_IMAGE008
的邻域数据集合
Figure 615070DEST_PATH_IMAGE020
中的数据,且
Figure 100002_DEST_PATH_IMAGE030
在数据集
Figure 371674DEST_PATH_IMAGE006
中选取聚类中心,具体为:
step1:在计算每个数据对应的竞争聚类中心的权值后,选择具有最大权值的数据作为第一个聚类中心
Figure 100002_DEST_PATH_IMAGE032
Figure 100002_DEST_PATH_IMAGE034
为其对应的竞争聚类中心的权值;
step2:确定聚类中心后,对数据集
Figure 906124DEST_PATH_IMAGE006
中的每个数据对应的竞争聚类中心的权值进行修正,具体为:
Figure 100002_DEST_PATH_IMAGE036
式中,
Figure 100002_DEST_PATH_IMAGE038
是第
Figure 100002_DEST_PATH_IMAGE040
个聚类中心,
Figure 100002_DEST_PATH_IMAGE042
是聚类中心
Figure 403970DEST_PATH_IMAGE038
对应的竞争聚类中心的权值;
Step3:修正了数据集
Figure 831803DEST_PATH_IMAGE006
中各个数据的权值后,在修正后的权值中选取具有最大权值的数据点作为下一个聚类中心,当新的聚类中心满足
Figure 100002_DEST_PATH_IMAGE044
时(其中,
Figure 100002_DEST_PATH_IMAGE046
为设置的阈值),则算法结束,否则返回步骤Step2;
算法结束时得到的所有聚类中心即为初始聚类中心,记为
Figure 100002_DEST_PATH_IMAGE048
Figure 100002_DEST_PATH_IMAGE050
为得到的聚类中心数。
本优选实施例采用基于权值的竞争方式在数据集中选取初始聚类中心,在计算数据点对应的竞争聚类中心的权值公式中,综合考虑了该数据到数据集中其他数据的距离因素和该数据周围数据的分布特性,使得选取的聚类中心具有最高的数据密度,此外,构建的权值计算公式相较于传统聚类中采用的指数形式的计算方法,使得该聚类算法具有计算复杂度低和运行时间少的优点,在对高维数据进行聚类时,具有较好的聚类效果。
优选地,所述数据分类部分采用
Figure 100002_DEST_PATH_IMAGE052
聚类算法对处理后的企业信息进行聚类,将参数确定部分得到的聚类中心作为初始聚类中心,获得的聚类中心的个数
Figure 98705DEST_PATH_IMAGE050
作为
Figure 747599DEST_PATH_IMAGE052
聚类算法的最大类别数
Figure 100002_DEST_PATH_IMAGE054
,在所述
Figure 873686DEST_PATH_IMAGE052
聚类算法中提出一种新的聚类有效性指标
Figure 100002_DEST_PATH_IMAGE056
,设数据集
Figure 869324DEST_PATH_IMAGE006
被划分为
Figure 100002_DEST_PATH_IMAGE058
个类
Figure 100002_DEST_PATH_IMAGE060
,则聚类有效性指标
Figure 367564DEST_PATH_IMAGE056
的表达式为:
Figure 100002_DEST_PATH_IMAGE062
式中,
Figure 282299DEST_PATH_IMAGE004
表示待分类的数据集
Figure 567787DEST_PATH_IMAGE006
中的数据量,
Figure 100002_DEST_PATH_IMAGE064
表示类
Figure 100002_DEST_PATH_IMAGE066
中的第
Figure 100002_DEST_PATH_IMAGE068
个数据,
Figure 100002_DEST_PATH_IMAGE070
表示类
Figure 100002_DEST_PATH_IMAGE072
中的第
Figure 527303DEST_PATH_IMAGE014
个数据,
Figure 100002_DEST_PATH_IMAGE074
表示类
Figure 411207DEST_PATH_IMAGE066
中的数据量,
Figure 100002_DEST_PATH_IMAGE076
表示类
Figure 903368DEST_PATH_IMAGE072
的第
Figure 100002_DEST_PATH_IMAGE078
个数据,
Figure 100002_DEST_PATH_IMAGE080
表示类
Figure 4048DEST_PATH_IMAGE072
中的数据量;
聚类有效性指标
Figure 574445DEST_PATH_IMAGE056
的值越大,代表聚类效果越好。
本优选实施例将参数确定部分得到的聚类中心作为
Figure 749074DEST_PATH_IMAGE052
聚类算法的初始聚类中心,解决了
Figure 349820DEST_PATH_IMAGE052
聚类算法对初始聚类中心敏感的问题,提高了聚类结果的准确性;在
Figure 609900DEST_PATH_IMAGE052
聚类算法中提出一种新的聚类有效性指标
Figure 219873DEST_PATH_IMAGE056
,传统的聚类有效性指标都以数据到类的聚类中心的距离作为衡量类内距离和类间聚类的参考,而本优选实施例提出的聚类有效性指标
Figure 45746DEST_PATH_IMAGE056
在衡量类内距离,以数据到其所在类中其他数据的距离均值作为参考,在衡量类间距离时,以数据到其他类中数据的距离平均距离的最小值作为参考,能够更加准确的反应数据和其他数据之间的结构关系,从而提高了聚类结果的准确性。
优选地,所述安全检测单元23用于根据数据分类部分的分类结果对企业信息中的异常信息进行过滤,设数据分类部分最终将处理后的企业信息划分为
Figure 100002_DEST_PATH_IMAGE082
个类,将划分的
Figure 115596DEST_PATH_IMAGE082
个类按照类中数据量由多到少进行排序组成集合
Figure 100002_DEST_PATH_IMAGE084
,且集合
Figure 100002_DEST_PATH_IMAGE086
,当集合
Figure 456447DEST_PATH_IMAGE084
中的类满足
Figure 100002_DEST_PATH_IMAGE088
Figure 100002_DEST_PATH_IMAGE090
时(其中,
Figure 100002_DEST_PATH_IMAGE092
为设置的第一阈值,
Figure 100002_DEST_PATH_IMAGE094
为设置的第二阈值,
Figure 100002_DEST_PATH_IMAGE096
为类
Figure 100002_DEST_PATH_IMAGE098
中的数据量,
Figure 100002_DEST_PATH_IMAGE100
为类
Figure 100002_DEST_PATH_IMAGE102
中的数据量,
Figure 100002_DEST_PATH_IMAGE104
为类
Figure 100002_DEST_PATH_IMAGE106
中的数据量,
Figure 100002_DEST_PATH_IMAGE108
为类
Figure 100002_DEST_PATH_IMAGE110
中的数据量,
Figure 100002_DEST_PATH_IMAGE112
为集合的分界值),根据获得的分界值
Figure 855066DEST_PATH_IMAGE112
将集合
Figure 738708DEST_PATH_IMAGE084
划分为子集合
Figure 100002_DEST_PATH_IMAGE114
和子集合
Figure 100002_DEST_PATH_IMAGE116
,且子集合
Figure 100002_DEST_PATH_IMAGE118
,子集合
Figure 100002_DEST_PATH_IMAGE120
,定义检测系数
Figure 100002_DEST_PATH_IMAGE122
,设
Figure 100002_DEST_PATH_IMAGE124
为数据集
Figure 163480DEST_PATH_IMAGE006
中的任一数据点,则数据
Figure 132573DEST_PATH_IMAGE124
对应的检测系数
Figure 100002_DEST_PATH_IMAGE126
为:
当数据
Figure 913709DEST_PATH_IMAGE124
满足
Figure 100002_DEST_PATH_IMAGE128
时,则定义数据
Figure 183017DEST_PATH_IMAGE124
对应的检测系数
Figure 100002_DEST_PATH_IMAGE130
,其中,
Figure 100002_DEST_PATH_IMAGE132
表示类
Figure 624362DEST_PATH_IMAGE102
的聚类中心,
Figure 100002_DEST_PATH_IMAGE134
表示类
Figure 913042DEST_PATH_IMAGE102
中的数据量,
Figure 100002_DEST_PATH_IMAGE136
为类
Figure 199667DEST_PATH_IMAGE102
中的数据;
当数据
Figure 792322DEST_PATH_IMAGE124
满足
Figure 100002_DEST_PATH_IMAGE138
时,则定义数据
Figure 935728DEST_PATH_IMAGE124
对应的检测系数
Figure 100002_DEST_PATH_IMAGE140
,其中,
Figure 912036DEST_PATH_IMAGE132
为类
Figure 205614DEST_PATH_IMAGE102
的聚类中心,类
Figure 652776DEST_PATH_IMAGE102
为集合
Figure 639187DEST_PATH_IMAGE114
中类的聚类中心离数据
Figure 70168DEST_PATH_IMAGE124
距离最小的类,
Figure 964175DEST_PATH_IMAGE096
为类中的数据量,
Figure 921690DEST_PATH_IMAGE136
为类
Figure 839968DEST_PATH_IMAGE098
中的数据;
根据上述定义的检测系数的计算公式计算数据集
Figure 272086DEST_PATH_IMAGE006
中各数据对应的检测系数
Figure 100002_DEST_PATH_IMAGE142
(其中,
Figure 224998DEST_PATH_IMAGE004
为数据集
Figure 553212DEST_PATH_IMAGE006
中的数据量),将计算所得的各数据的检测系数按由大到小进行排序,选取前
Figure 100002_DEST_PATH_IMAGE144
个数据作为异常数据进行删除,其中,
Figure 100002_DEST_PATH_IMAGE146
本优选实施例定义检测系数对数据集
Figure 788146DEST_PATH_IMAGE006
中的异常数据进行检测,根据各个类中的数据量将分类得到的类集合
Figure 492797DEST_PATH_IMAGE084
划分为两个子集合,对两个子集合中的数据分别定义不同的检测系数
Figure 34637DEST_PATH_IMAGE122
,能够有效的避免当异常数据被分配到数据量较多的类中而被认为是正常数据的缺陷,此外,在对两个子集合设置检测系数时,综合考虑了数据点和聚类中心之间的距离以及数据点所在类的数据量,保证了距离相等时,数据量较少的类中的数据比数据量较多的类中的数据的检测系数大,从而保证了异常数据的有效检测。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (6)

1.一种基于大数据的高企信息化管理系统,其特征是,包括信息终端、安全防护模块和信息管理中心,所述信息终端包括用户登录单元、信息查询单元和信息上传单元,所述用户登录单元为用户提供登录该管理系统的界面,用户在该登录界面通过输入用户名和密码进入该管理系统,用户可以通过信息查询单元查询信息管理中心存储的企业信息,用户可以通过信息上传单元上传企业信息,所述安全防护模块用于对信息上传单元上传的企业信息中的异常信息进行过滤,将过滤后的企业信息传输至信息管理中心,所述信息管理中心包括项目信息存储单元、员工信息存储单元、财务信息存储单元和政策信息存储单元,信息管理中心按照接收到的企业信息的种类将所述企业信息存储于对应的存储单元中。
2.根据权利要求1所述的一种基于大数据的高企信息化管理系统,其特征是,所述安全防护模块用于对信息上传单元上传的企业信息中的异常信息进行过滤,包括信息处理单元、信息分类单元和安全检测单元,所述信息处理单元用于对上传的企业信息进行标准化处理,并对标准化处理后的企业信息进行降维,所述信息分类单元用于对处理后的企业信息进行分类,所述安全检测单元用于根据分类结果对上传的企业信息中的异常信息进行过滤。
3.根据权利要求2所述的一种基于大数据的高企信息化管理系统,其特征是,所述信息分类单元用于对处理后的企业信息进行聚类,包括参数确定部分和数据分类部分,所述参数确定部分用于选取初始聚类中心,所述数据分类部分用于根据确定的初始聚类中心将企业信息进行分类。
4.根据权利要求3所述的一种基于大数据的高企信息化管理系统,其特征是,所述参数确定部分用于选取初始聚类中心,设
Figure DEST_PATH_IMAGE002
表示待分类的数据集,其中,
Figure DEST_PATH_IMAGE004
表示数据集
Figure DEST_PATH_IMAGE006
中的数据量,定义数据集
Figure 262310DEST_PATH_IMAGE006
中数据
Figure DEST_PATH_IMAGE008
对应的竞争聚类中心的权值为
Figure DEST_PATH_IMAGE010
,则
Figure 62339DEST_PATH_IMAGE010
的计算公式为:
Figure DEST_PATH_IMAGE012
式中,
Figure 169973DEST_PATH_IMAGE008
为数据集
Figure 96340DEST_PATH_IMAGE006
中的第
Figure DEST_PATH_IMAGE014
个数据,
Figure DEST_PATH_IMAGE016
为数据集
Figure 802391DEST_PATH_IMAGE006
中的第
Figure DEST_PATH_IMAGE018
个数据,
Figure DEST_PATH_IMAGE020
表示数据
Figure 218328DEST_PATH_IMAGE008
的邻域数据集合,
Figure DEST_PATH_IMAGE022
表示数据
Figure 547679DEST_PATH_IMAGE008
的邻域数据集合
Figure 12158DEST_PATH_IMAGE020
中的数据量,
Figure DEST_PATH_IMAGE024
为数值较小的正常数,
Figure DEST_PATH_IMAGE026
为数据
Figure 773047DEST_PATH_IMAGE008
的邻域数据集合
Figure 94307DEST_PATH_IMAGE020
中的数据,
Figure DEST_PATH_IMAGE028
为数据
Figure 910953DEST_PATH_IMAGE008
的邻域数据集合
Figure 179124DEST_PATH_IMAGE020
中的数据,且
Figure DEST_PATH_IMAGE030
在数据集
Figure 711DEST_PATH_IMAGE006
中选取聚类中心,具体为:
step1:在计算每个数据对应的竞争聚类中心的权值后,选择具有最大权值的数据作为第一个聚类中心
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
为其对应的竞争聚类中心的权值;
step2:确定聚类中心后,对数据集
Figure 24031DEST_PATH_IMAGE006
中的每个数据对应的竞争聚类中心的权值进行修正,具体为:
Figure DEST_PATH_IMAGE036
式中,
Figure DEST_PATH_IMAGE038
是第
Figure DEST_PATH_IMAGE040
个聚类中心,
Figure DEST_PATH_IMAGE042
是聚类中心
Figure 488160DEST_PATH_IMAGE038
对应的竞争聚类中心的权值;
Step3:修正了数据集
Figure 294442DEST_PATH_IMAGE006
中各个数据的权值后,在修正后的权值中选取具有最大权值的数据作为下一个聚类中心,当新的聚类中心满足
Figure DEST_PATH_IMAGE044
时,则算法结束,否则返回步骤Step2,其中,
Figure DEST_PATH_IMAGE046
为设置的阈值;
算法结束时得到的所有聚类中心即为初始聚类中心,记为
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
为得到的聚类中心数。
5.根据权利要求4所述的一种基于大数据的高企信息化服务系统,其特征是,所述数据分类部分采用
Figure DEST_PATH_IMAGE052
聚类算法对处理后的企业信息进行聚类,将参数确定部分得到的聚类中心作为初始聚类中心,获得的聚类中心的个数
Figure 423066DEST_PATH_IMAGE050
作为
Figure 289391DEST_PATH_IMAGE052
聚类算法的最大类别数
Figure DEST_PATH_IMAGE054
,在所述
Figure 80630DEST_PATH_IMAGE052
聚类算法中提出一种新的聚类有效性指标
Figure DEST_PATH_IMAGE056
,设数据集
Figure 956182DEST_PATH_IMAGE006
被划分为
Figure DEST_PATH_IMAGE058
个类
Figure DEST_PATH_IMAGE060
,则聚类有效性指标
Figure 546170DEST_PATH_IMAGE056
的表达式为:
Figure DEST_PATH_IMAGE062
式中,
Figure 239188DEST_PATH_IMAGE004
表示待分类的数据集
Figure 222450DEST_PATH_IMAGE006
中的数据量,
Figure DEST_PATH_IMAGE064
表示类
Figure DEST_PATH_IMAGE066
中的第
Figure DEST_PATH_IMAGE068
个数据,
Figure DEST_PATH_IMAGE070
表示类
Figure DEST_PATH_IMAGE072
中的第
Figure 26327DEST_PATH_IMAGE014
个数据,
Figure DEST_PATH_IMAGE074
表示类
Figure 769741DEST_PATH_IMAGE066
中的数据量,
Figure DEST_PATH_IMAGE076
表示类
Figure 774606DEST_PATH_IMAGE072
的第
Figure DEST_PATH_IMAGE078
个数据,
Figure DEST_PATH_IMAGE080
表示类
Figure 602753DEST_PATH_IMAGE072
中的数据量。
6.根据权利要求5所述的一种基于大数据的高企信息化服务系统,其特征是,所述安全检测单元用于根据数据分类部分的分类结果对企业信息中的异常信息进行过滤,设数据分类部分最终将处理后的企业信息划分为
Figure DEST_PATH_IMAGE082
个类,将划分的
Figure 587152DEST_PATH_IMAGE082
个类按照类中数据量由多到少进行排序组成集合
Figure DEST_PATH_IMAGE084
,且集合
Figure DEST_PATH_IMAGE086
,当集合
Figure 387618DEST_PATH_IMAGE084
中的类满足
Figure DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE090
时,根据此时的
Figure DEST_PATH_IMAGE092
值将集合
Figure 625701DEST_PATH_IMAGE084
划分为子集合
Figure DEST_PATH_IMAGE094
和子集合
Figure DEST_PATH_IMAGE096
,且子集合
Figure DEST_PATH_IMAGE098
,子集合
Figure DEST_PATH_IMAGE100
,其中,
Figure DEST_PATH_IMAGE102
为设置的第一阈值,
Figure DEST_PATH_IMAGE104
为设置的第二阈值,
Figure DEST_PATH_IMAGE106
为类
Figure DEST_PATH_IMAGE108
中的数据量,
Figure DEST_PATH_IMAGE110
为类
Figure DEST_PATH_IMAGE112
中的数据量,
Figure DEST_PATH_IMAGE114
为类
Figure DEST_PATH_IMAGE116
中的数据量,
Figure DEST_PATH_IMAGE118
为类
Figure DEST_PATH_IMAGE120
中的数据量,
Figure 49467DEST_PATH_IMAGE092
为集合的分界值;
定义检测系数
Figure DEST_PATH_IMAGE122
,设
Figure DEST_PATH_IMAGE124
为数据集
Figure 371645DEST_PATH_IMAGE006
中的任一数据点,则数据
Figure 761038DEST_PATH_IMAGE124
对应的检测系数
Figure DEST_PATH_IMAGE126
为:
当数据
Figure 107706DEST_PATH_IMAGE124
满足
Figure DEST_PATH_IMAGE128
时,则定义数据
Figure 84014DEST_PATH_IMAGE124
对应的检测系数
Figure DEST_PATH_IMAGE130
,其中,
Figure DEST_PATH_IMAGE132
表示类
Figure 439909DEST_PATH_IMAGE112
的聚类中心,
Figure DEST_PATH_IMAGE134
表示类
Figure 683809DEST_PATH_IMAGE112
中的数据量,
Figure DEST_PATH_IMAGE136
为类
Figure 935799DEST_PATH_IMAGE112
中的数据;
当数据
Figure 865315DEST_PATH_IMAGE124
满足
Figure DEST_PATH_IMAGE138
时,则定义数据
Figure 290480DEST_PATH_IMAGE124
对应的检测系数
Figure DEST_PATH_IMAGE140
,其中,
Figure 654465DEST_PATH_IMAGE132
为类
Figure 546198DEST_PATH_IMAGE112
的聚类中心,类
Figure 198896DEST_PATH_IMAGE112
为集合
Figure 601321DEST_PATH_IMAGE094
中类的聚类中心离数据
Figure 23075DEST_PATH_IMAGE124
距离最小的类,
Figure 351288DEST_PATH_IMAGE106
为类
Figure 491283DEST_PATH_IMAGE108
中的数据量,
Figure 195933DEST_PATH_IMAGE136
为类
Figure 737773DEST_PATH_IMAGE108
中的数据;
根据上述定义的检测系数的计算公式计算数据集
Figure 236888DEST_PATH_IMAGE006
中各数据对应的检测系数
Figure DEST_PATH_IMAGE142
,其中,
Figure 684750DEST_PATH_IMAGE004
为数据集
Figure 927512DEST_PATH_IMAGE006
中的数据量,将计算所得的各数据的检测系数按由大到小进行排序,选取前
Figure DEST_PATH_IMAGE144
个数据作为异常数据进行删除,其中,
Figure DEST_PATH_IMAGE146
CN201911254807.7A 2019-12-10 2019-12-10 一种基于大数据的高企信息化管理系统 Active CN111401674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911254807.7A CN111401674B (zh) 2019-12-10 2019-12-10 一种基于大数据的高企信息化管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911254807.7A CN111401674B (zh) 2019-12-10 2019-12-10 一种基于大数据的高企信息化管理系统

Publications (2)

Publication Number Publication Date
CN111401674A true CN111401674A (zh) 2020-07-10
CN111401674B CN111401674B (zh) 2023-06-23

Family

ID=71428328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911254807.7A Active CN111401674B (zh) 2019-12-10 2019-12-10 一种基于大数据的高企信息化管理系统

Country Status (1)

Country Link
CN (1) CN111401674B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577792A (zh) * 2017-09-18 2018-01-12 前海梧桐(深圳)数据有限公司 一种企业数据自动聚类的方法及其系统
CN107786648A (zh) * 2017-10-17 2018-03-09 湖南指尖聚赢网络科技股份有限公司 一种企业服务管理云平台
CN109359817A (zh) * 2018-09-13 2019-02-19 江苏站企动网络科技有限公司 一种企业信息分析管理系统
US20190197057A1 (en) * 2016-06-15 2019-06-27 Beijing Jingdong Shangke Information Technology Co Ltd. A classification method and a classification device for service data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197057A1 (en) * 2016-06-15 2019-06-27 Beijing Jingdong Shangke Information Technology Co Ltd. A classification method and a classification device for service data
CN107577792A (zh) * 2017-09-18 2018-01-12 前海梧桐(深圳)数据有限公司 一种企业数据自动聚类的方法及其系统
CN107786648A (zh) * 2017-10-17 2018-03-09 湖南指尖聚赢网络科技股份有限公司 一种企业服务管理云平台
CN109359817A (zh) * 2018-09-13 2019-02-19 江苏站企动网络科技有限公司 一种企业信息分析管理系统

Also Published As

Publication number Publication date
CN111401674B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
JP7183388B2 (ja) 個人情報の調査結果の信頼性レベルを特定するための機械学習システムおよび方法
CN110555316B (zh) 基于聚类匿名的隐私保护表数据共享方法
US20170329804A1 (en) Method And Apparatus Of Generating Image Characteristic Representation Of Query, And Image Search Method And Apparatus
Sharma et al. A novel method for detecting spam email using KNN classification with spearman correlation as distance measure
CN111612041B (zh) 异常用户识别方法及装置、存储介质、电子设备
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
US20070005556A1 (en) Probabilistic techniques for detecting duplicate tuples
CN107633030B (zh) 基于数据模型的信用评估方法及装置
US20090192955A1 (en) Granular support vector machine with random granularity
EP2811441A1 (en) System and method for detecting spam using clustering and rating of e-mails
CN110751231B (zh) 一种基于无监督算法的养卡号码检测方法及系统
CN108428001B (zh) 信用分值预测方法及装置
EP2674881A1 (en) Privacy preserving method for querying a remote public service
CN114092729A (zh) 基于聚类匿名化与差分隐私保护的异构用电数据发布方法
CN112307133A (zh) 安全防护方法、装置、计算机设备及存储介质
CN117170979B (zh) 一种大规模设备的能耗数据处理方法、系统、设备及介质
CN112583847B (zh) 一种面向中小企业网络安全事件复杂分析的方法
US20240005034A1 (en) Sensitive information disclosure prediction system for social media users and method thereof
US11308130B1 (en) Constructing ground truth when classifying data
CN111625578A (zh) 适用于文化科技融合领域时间序列数据的特征提取方法
CN111401674A (zh) 一种基于大数据的高企信息化管理系统
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
Yeom et al. Detail analysis on machine learning based malicious network traffic classification
CN107180022A (zh) 对象分类方法及装置
CN113934789B (zh) 基于电子元器件的数据仓库构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant