CN105469204A - 深度融合大数据分析技术的重装制造企业综合评价系统 - Google Patents

深度融合大数据分析技术的重装制造企业综合评价系统 Download PDF

Info

Publication number
CN105469204A
CN105469204A CN201510808148.2A CN201510808148A CN105469204A CN 105469204 A CN105469204 A CN 105469204A CN 201510808148 A CN201510808148 A CN 201510808148A CN 105469204 A CN105469204 A CN 105469204A
Authority
CN
China
Prior art keywords
data
evaluation
index
model
evaluation system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510808148.2A
Other languages
English (en)
Inventor
杨炳儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Bdm Science And Technology Co Ltd
Original Assignee
Tianjin Bdm Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Bdm Science And Technology Co Ltd filed Critical Tianjin Bdm Science And Technology Co Ltd
Priority to CN201510808148.2A priority Critical patent/CN105469204A/zh
Publication of CN105469204A publication Critical patent/CN105469204A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

该发明建立了一个深度融合大数据分析技术的重装制造企业综合评价系统(简称综合评价系统),对促进企业讲究经营道德、提高经济效益、履行社会责任具有重要的推动作用。我国正在进行实行市场体制的各种建设,其间不可忽视建立严格、有效的企业综合评价制度。该系统将大数据分析技术,云计算技术、数字地图技术和OLAP分析技术有效地融入综合评价系统中,从而形成了一种“三层立体式”评价系统。此系统在结构、功能、模型、技法上形成了至今相对最为完备、系统、全新的综合评价系统,对综合评价系统的发展具有重要的推动作用,对进一步构建基于互联网的服务平台奠定了坚实的基础。

Description

深度融合大数据分析技术的重装制造企业综合评价系统
技术领域
本发明涉及了知识工程中大数据分析与系统工程中系统评价交叉领域。将大数据技术深入融合到重装制造企业综合评价系统中(简称综合评价系统),并利用OLAP等技术进行数据分析,具体说是一种基于大数据分析技术而建立的重装制造企业综合评价系统。其顶层设计如摘要附图与图11所示。
背景技术
一.分布式存储技术:大多数系统都有大量的结构化数据,一般存储在Oracle或MySQL的等的关系型数据库中,当系统规模大到单一节点的数据库无法支撑时,一般有两种方法:垂直扩展与水平扩展,这样的拓展方式属于结构式数据存储的拓展方式。但是在面对海量一般的数据时,里面包括:所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。我们用到的就必须是非结构化得存储方式,分布式文件系统是实现非结构化数据存储的主要技术,说到分布式文件系统就不得不提GFS(全称为"GoogleFileSystem"),GFS的系统架构图如图1所示。
GFS将整个系统分为三类角色:Client(客户端)、Master(主服务器)、ChunkServer(数据块服务器)。
Client(客户端):是GFS提供给应用程序的访问接口,它是一组专用接口,不遵守POSIX规范,以库文件的形式提供。应用程序直接调用这些库函数,并与该库链接在一起。
Master(主服务器):是GFS的管理节点,主要存储与数据文件相关的元数据,而不是Chunk(数据块)。元数据包括:命名空(NameSpace),也就是整个文件系统的目录结构,一个能将64位标签映射到数据块的位置及其组成文件的表格,Chunk副本位置信息和哪个进程正在读写特定的数据块等。还有Master节点会周期性地接收从每个Chunk节点来的更新("Heart-beat")来让元数据保持最新状态。
ChunkServer(数据块服务器):负责具体的存储工作,用来存储Chunk。GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个Chunk(数据块),每一个Chunk以Block为单位进行划分,大小为64KB,每个Chunk有一个唯一的64位标签。GFS采用副本的方式实现容错,每一个Chunk有多个存储副本(默认为三个)。ChunkServer的个数可有有多个,它的数目直接决定了GFS的规模。
GFS之所以重要的原因在于,在Google公布了GFS论文之后,许多开源组织基于GFS的论文开发了各自的分布式文件系统,其中比较知名的有HDFS,MooseFS,MogileFS等。
二.分布式计算(Map/Reduce)技术:分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按GoogleMap/Reduce框架所设计的分布式框架。
Map/Reduce三个层面上的含义:
基于集群的高性能计算平台(ClusterInfrastructure):
允许用市场的普通服务器,构成一个包含数百到数千个节点的分布式并行计算集群。
并行程序开发与运行框架(softwareFramework):
提供了一个庞大但设计精良的并行计算软件构架,能自动完成计算任务的并行处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行子任务以及收集计算结果,将数据分布存储、数据通信、容错处理等进行并行计算中的很多复杂细节交由系统负责处理,大大减少了软件开发人员的负担。
并行程序设计模型与方法(ProgrammingModel&Methodology)
借助于函数式语言中的设计思想,提供了一种简便的并行程序设计方法,用Map和Reduce;两个函数编程实现基本的并行计算任务,提供了完整的并行编程接口,完成大规模数据处理。
GoogleMap/Reduce的工作原理如图2所示。
三.流式计算技术:目前,复杂的批量数据处理(batchdataprocessing),通常的时间跨度在数十分钟到数小时之间。
基于历史数据的交互式查询(interactivequery),通常的时间跨度在数十秒到数分钟之间。
基于实时数据流的数据处理(streamingdataprocessing),通常的时间跨度在数百毫秒到数秒之间。
对于很多的开源软件来说,我们可以利用Map/Reduce来进行批量数据处理,可以用Impala来进行交互式查询,对于流式数据处理,我们可以采用Storm。
SparkStreaming构架
计算流程:SparkStreaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark,也就是把SparkStreaming的输入数据按照batchsize(如1秒)分成一段一段的数据(DiscretizedStream),每一段数据都转换成Spark中的RDD(ResilientDistributedDataset),然后将SparkStreaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作,将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行叠加,或者存储到外部设备。SparkStreaming的整个流程如图3所示。
四.虚拟化技术:虚拟化指对计算资源进行抽象的一个广义概念。虚拟化对上层应用或用户隐藏了计算机资源的底层属性。它既包括使单个的资源(比如一个服务器,一个操作系统,一个应用程序,一个存储设备)划分成多个虚拟资源,也包括将多个资源整合成一个虚拟资源。虚拟化技术是针对实现虚拟化的具体的技术性手段和方法的集合概念。虚拟化技术根据对象可分为存储虚拟化、计算虚拟化、网络虚拟化等。计算虚拟化可以分为操作系统虚拟化、应用程序级和虚拟管理器。虚拟管理器分为宿主虚拟机和客户虚拟机。
虚拟化技术是云计算与大数据深度融合得以实现的关键技术之一。它将应用程序以及数据,在不同的层次以不同的面貌加以展现,从而使得不同层次的使用者、开发及维持人员,能够方便的使用开发及维护存储的数据、应用于计算和管理的程序。虚拟技术亦分很多种,从不同的层次上来讲,有cpu一级的虚拟化技术(目前intel正在着手研究着,在底层硬件上直接运行多个操作系统),硬件层上一级的虚拟化技术-----操作系统、vmware都是在硬件之上建立虚拟化程序。还有建立在操作系统之上的虚拟化技术:高级语言虚拟化技术(java\C#)、指令动态解释执行的vmware\vpc、脚本语言运行时系统(如python\javascript、matlab、sql等)。
在云上的大数据拥有跨越大量节点、集群和层的众多潜在功能服务层,而这些节点、集群和层很容易变得不堪重负。为了应对这些问题。首先,应该规划一个全面的云数据虚拟化基础设施。虚拟化云分析法是新时代中的大数据典范。作为一种集成方法,它能够确保大数据的统一访问、建模、部署、优化和管理成为一种异构资源。
与任何虚拟化一样,数据虚拟化是一种允许用户访问、管理和优化异构基础架构的方法,就好像它们是一种单一、且在逻辑上是统一的资源一样。这使得用户能够从一些服务、功能或其他资源的内部部署中对外部界面进行抽象化。
发明内容
本发明的目的在于,建立了一个深度融合大数据分析技术的重装制造企业综合评价系统(简称综合评价系统),对促进企业讲究经营道德、提高经济效益、履行社会责任具有重要的推动作用。系统在结构和功能上形成了至今相对最为完备、系统、全新的综合评价系统,对综合评价系统的发展具有重要的推动作用。
本发明的技术方案为:深度融合大数据分析技术的重装制造企业综合评价系统,包括:研发系统的总体架构、评价指标体系,数据采集;系统的组织结构有企业基本信息维护模块、综合能力定量信息维护模块、综合能力评价模块、评价模型维护模块、系统和数据安全模块、基础数据维护模块,数据查询模块、数据检查和统计模块和数据打印模块;该综合评价系统的控制以及执行有如下步骤:
步骤1、确定相关企业的评价指标体系,即:确定企业的基本评价指标,形成评价指标的“核”,有关指标体系的选择是和专家咨询后确定;
步骤2、进行数据采集,即:从不同的渠道自动收集相关数据,存入真实数据库中;
步骤3、进行数据预处理,即:对真实数据库中的数据进行再加工,形成可分析处理的数据库;
步骤4、进行指标体系计算模型的选择,即:根据用户的需求,选择相应的指标体系计算模型进行计算分析,得到用户所需要的信息;
步骤5、进行综合能力评价,即:搜寻评价体系的模型,得到辅助决策知识信息,利用多级模糊综合评价方法以及特定的模式表达所得到的知识信息,并存入评价数据库;
步骤6、进行实时维护,即:对所获得的每一条评价结果与原有的知识信息相比是否重复、冗余或矛盾,并根据判断结果作相应处理;
根据本发明所述的方法,其包括如下技术方案:
步骤1中所述的评价指标体系包括:1)核心能力:包括3个一级指标、11个二级指标,如图4所示;2)质量风险:包括2个一级指标、5个二级指标、24个三级指标,如图5所示;3)企业竞争力:包括5个一级指标、7个二级指标、19个三级指标,如图6所示;4)经济与金融评估:包括13个一级指标,如图7所示;5)创新能力:包括2个一级指标、6个二级指标、18个三级指标如图8所示;
步骤2中所述的数据采集是指:1)主动采集方式,主要包括:从指标对应的政府管理单位获取公开可信的数据、从互联网搜索相关指标涉及的数据(利用先进的垂直搜索引擎)、对于上市公司,从其公告中获取相关指标涉及的数据、从专业数据库中获得数据;2)人工采集方式,主要包括:通过调查问卷形式获取相关指标涉及的数据、人工核实权重值较大的数据、采取会员填表的形式获得数据;
步骤3中所述数据预处理:采集层通过要素采集、关键词抽取、全文索引、自动去重,分区存储等方式将采集到的数据存储到数据库中,再由分析层,通过自动分类,自动聚类、自动摘要、人名识别、公司名识别、产品名识别、政府预判、中文分词等方法将采集到的数据进行分析处理,最后由呈现层,通过分析报告、能力评价、适度匹配、分类评级、统计图表、风险预警的方式将最终的结果呈现给用户,如图9所示;
步骤4中所述的模型是指:建立一种具有自动选择功能的模型库;其内容包括:1)将评价问题分解为数据和文本描述两个部分,对评价问题的文本描述部分进行语言识别或理解,并从模型库中选择适合的模型类型;问题的数据部分送入数据库保存,同时送到数据识别器进行识别,根据识别结果以及模型类型的选择结果进行模型的结构选择;2)根据保存在数据库中的有关数据对模型结构中的特定参数进行估值,完成模型事例的确定;
步骤5中所述的辅助决策知识评价是指:通过人机交互界面由使用者评价;或者:所述的辅助决策知识评价是指:利用可视化工具所提供的各类图形和分析资料进行评价;或者:所述的辅助决策知识评价是是指:采用基于自认知逻辑的因果关联规则的自动评价方法,即:根据规则的关联强度及设定的阈值,由所述数字计算机自动实现。
步骤5中所述的多级模糊综合评价方法是指:利用多级模糊综合评价方法,汇集用户所需要的评价结果,形成针对重装体系的评价指标体系,从而对采集到的数据进行诊断和定位,最后根据用户的各级决策者的主要评价内容来确定任务集。
所述的自动评价方法为:本项目针对企业的评价指标体系采用了多级模糊综合评判与模糊聚类分析相融合的模型和方法。按指标体系的层次结构,有一级、二级和三级模糊综合评判三种类型,此处给出三级模糊综合评判模型和方法。
(1)确定因素集(指评价指标集合,具体原型见摘要附图)
设A为因素集,将A分为几个子集,作为第二级因素集合A={Ai};Ai又可分为几个子集,作为第三级因素集合,即Ai={Aij}
对于每个。依次划分。
(2)确定评语级(可分为5级);
设V为评语集,记V={V1,V2,…,V5}={5星,4星,3星,2星,1星}。
(3)利用统计学方法确定第三级各因素相应的模糊评判矩阵R;
针对最后一级指标,在具体的企业、生产场景、技术人员分布、管理人员分布等情况下,充分考虑对评价而言各自的代表性,打分计量,形成以诸因素为行,诸评语为列的模糊评判矩阵,其表示如下:
具体而论:可组织10人的专家加以考察,求得评价人员在某个评语等级下划“√”的人数与总人数的比值,其比值就表示评判专家认为隶属于第t个评语的隶属度。
(4)确定三级评判中对应因素的权重A;
设Ai对目标层的权重集为B={bi}(此处设定i=5);同样可设Aij对准则层Ai的权重向量为Wi=(wi1,wi2,…,wim)(此处设定j=1,...,m),且满足规一化条件:
以上权重集可通过Delphi法或专家评分法得出。该方法的特点在于集中专家的知识和经验,确定各指标的权重,并在不断的反馈和修改中得到比较满意的结果。其基本步骤如下:
①选择专家。这是很重要的一步,选得好不好将直接影响到结果的准确性。一般情况下,选本专业领域中既有实际工作经验又有较深理论修养的专家10人左右,并需征得专家本人的同意。
②将待定权重的p个指标和有关资料以及统一的确定权重的规则发给选定的各位专家,请他们独立的给出各指标的权数值。
③回收结果并计算各指标权数的均值和标准差。
④将计算的结果及补充资料返还给各位专家,要求所有的专家在新的基础上确定权数。
⑤重复第3)和第4)步,直至各指标权数与其均值的离差不超过预先给定的标准为止,也就是各专家的意见基本趋于一致,以此时各指标权数的均值作为该指标的权重。
(5)计算三级评判中的结果向量Ai:
Ai=AοR
(6)二级评判中的模糊评判矩阵Ri
常用的模糊综合评判模型有主因素决定型、主因素突出型、加权平均型等。这里采用主因素决定型的评判模型。得到二级评判矩阵Ri
(7)确定二级评判中对应因素的权重B;
(8)计算二级评判中的结果向量Si=BοRi
(9)重复三级向二级计算的过程,完成一级评判中的结果向量X;
(10)计算X与评语级中相应的标准向量之间的海明距离,实现模糊聚类,得出相应的综合评判结果(即对应评语级中的等级)。
在整个综合评判模型与方法中,采用了一系列的新技术,举例阐述如下:
【注1】聚类分析(clusteranalysis)又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
K-Means算法是实践中最为常用的算法之一,在处理大数据量方面有绝对优势,而且可以取得较好的效果。根据经过聚类得到的结果,评价得分将聚类在某一簇(某一级),显然真正评级在该簇更为合理,由此可以去除干扰给出更为合理的评级。
【注2】评价系统中引入Hadoop开源云计算平台
在评价系统中引入云计算平台,对于解决其中的复杂计算问题有着十分重要的意义。本项目将以Hadoop开源平台为基础,利用这一平台进行聚类计算以期解决评价得分的合理性问题。
基于Hadoop的并行K-Means聚类算法设计思路:
由上一部分的介绍可以看出,基于Hadoop的并行算法设计,用户最主要的工作是设计和实现Map和Reduce函数,包括输入和输出<key,value>键值对的类型以及Map和Reduce函数的具体逻辑等。串行的K-Means算法的步骤分为三步:
(1)任意选择k个样本作为聚簇初始的中心点;
(2)迭代;
①根据每个聚簇的中心点坐标,将每个样本分配给距离其最近的聚簇;
②更新聚簇的中心点坐标,即计算每个聚簇中所有样本的均值;
(3)直到收敛。
从K-Means算法中可以看出,算法中主要的计算工作是将每个样本分配给距离其最近的聚簇,并且分配不同样本的操作之间是相互独立的,因此考虑将这一步骤并行地执行。在每次迭代中,算法执行相同的操作,并行K-Means算法(PK-Means)在每次迭代中分别执行相同的Map和Reduce操作就可以完成。首先随机选择k个样本作为中心点,并将这k个中心点存储在HDFS上的一个文件中,作为全局变量。接下来每次迭代由3部分组成:Map函数、Combine函数和Reduce函数。
①Map函数的设计:Map函数输入的<key,value>对是MapReduce框架默认的格式,即key是当前样本相对于输入数据文件起始点的偏移量,value是当前样本的各维坐标值组成的字符串。首先,从value中解析出当前样本各维的值;然后计算其与k个中心点的距离,找出距离最近的聚簇的下标;最后输出<key’,value’>,其中key’是距离最近的聚簇的下标,value’是当前样本的各维坐标组成的字符串。
②为了减少算法迭代过程中传输的数据量和通讯代价,一般在Map操作之后,算法中会设计一个Combine的操作,将每个Map函数处理完后的输出数据进行本地合并。因为每个Map操作后输出的数据,总是先存储在本地的节点,所以每个Combine操作都是在本地执行,通信代价很小。
③Reduce函数的设计:Reduce函数输入的<key,value>中,key是聚簇的下标,value是从各个Combine函数传输的中间结果。在Reduce函数中首先解析出从每个Combine中处理的样本个数和相应节点各维的坐标累加值;然后将对应的各维累加值分别对应相加,再除以总的样本个数,即得新的中心点坐标。
根据Reduce的输出结果,得到新的中心点坐标,并更新到HDFS上的文件中,然后进行下一次迭代,直到算法收敛。
【注3】本项目拟采用知识表示的模糊语言场理论实现评价得分的离散化分级。由于对于评价得分这类连续属性需要先进行离散化处理。目前,研究者提出了很多种连续性数据的离散化算法,例如,等长区间法、基于聚类的离散化算法和基于信息熵的二元分割法等等。其中,本文采用的杨炳儒教授提出的一种基于语言场理论的连续值离散化方法,在顶级刊物FuzzySetsandSystems发表的论文中已给出相关的定义与证明。具体阐述如下:
(1)评价得分的离散化处理
对于给定的连续属性的划分,首先需要确定描述该属性所需的离散值的数量,给出离散半径的标准值和误差半径,阈值上、下限、误差(ε-邻域)以及对应该离散值的隶属度,一般情况下这些数值可以由用户或专家给出。
可以用5个离散的语言值“*”、“**”、“***”、“****”、“*****”来描述,对应的标准样本点分别为a1=10,a2=30,a3=50,a4=70,a5=90(单位“%”),误差半径设为r1=2,r2=2,r3=2,r4=2,r5=2(单位“%”),对应离散的语言值的隶属度可由用户(或专家)给定。
某一连续数值u映射到离散值时分两种情况讨论:a)若u没有落在交叉区间中,则可直接映射到对应离散值;b)若u落在ai和ai+1之间的交叉区间,则利用插值公式
来求取u的非标准向量U,其中ai为第i个区间的标准样本点,li为该区间长度,Ai为该区间标准向量,A邻为相邻区间的标准向量,可以是Ai+1(或Ai-1);然后,可以根据U与Ai、Ai+1、Ai-1的测度的最小值来计算出区间位置,其中测度采用海明距离来计算(如,设U的各个分量为u1、u2、…、un,Ai的各个分量为b1、b2、…、bn,则测度
该算法的理论推导严谨,应用于实践的计算较为简单,既避免了经常出现的极小数据量下的边界值选取混乱的问题,又兼顾了动态数据变化的影响,因此适用于本项目的应用。
(2)离散化算法的解决方案
离散化算法主要完成定义语言变量、定义语言值并根据它求取区间边界值和根据边界值对连续属性离散化的工作。
随着系统运行数据量增大时,很可能超出原有数据库取值范围,一般来说阈值上、下限可以由相关专家来确定作为属性值的上、下限(基础数据论域的上、下限)。若设用户定义的离散语义值数量为5,即a1,a2,a3,a4,a5作为标准样本点。如下图所示,以a3为例,其中r3是a3的误差半径。若属性在[阈值下限,AR[1,1]],[AR[i,2],AR[i+1,1]],[AR[4,2],阈值上限](其中i=1,2,3)这五个区间中取值,则是标准样本,除此之外均为非标准样本。
如图10所示,连续属性离散化算法的标准样本选取范围
本算法中用到了两个性质:
“性质一假设语言值个数为5,边界点满足如下关系:LI[1,1]=阈值下限,LI[5,2]=阈值上限,而且LI[i,2]>LI[i+1,1]。”
“性质二如果没有属性在区间内取值则
LI[i,2]=AR[i,1],LI[i+1,1]=AR[i,2]。”
算法描述如下:
①设List为不重复的升序排列的属性值表,求出AR[i,1]、AR[i,2]、O[i]、L[i],并设定隶属度;
②开始循环,i=1(循环变量);
③List.FindNearest(O[i]);
④t=从List中取指针指向的值;
⑤若t<=AR[i,1],则Li[i,2]=AR[i,1],List.Next;否则转向⑦;
⑥若List.EOF,则Li[i+1,1]=AR[i,2]并转向⑨;
⑦若t>=AR[i,2],则Li[i+1,1]=AR[i,2],List.Prior;否则转向⑨;
⑧若List.BOF,则Li[i,2]=AR[i,1]并转向⑨;否则利用插值公式求U,然后根据所求海明距离的大小来确定Li[i+1,1]和Li[i,2]的取值;
⑨循环变量i=i+1,若i<5则转向②继续循环;
⑩结束算法。
由此所求的边界值为Li[i,2],Li[i+1,1],其中,i=1,2,3,4。
【注4】在综合评判系统中,注入数字地图技术,强化可视化与拓展信息展现的效果。可以将服务的各个公司或企业在地图上做出标识,方便后期对企业按地理范围的各种统计输出。并可应用于今后的交易平台,以大数据的方式展现出交易双方的关系、潜在的交易客户群体等信息。
本发明的意义在于:1)首次从大数据的认知与生态机理出发,从本质上分析大数据与云计算的结合点;2)首次结合客观原型,研究在大数据的挖掘技术与云计算的融合的具体内容与环节上的四点内容;3)结合客观原型-----重型装备研发两者融合技术具体的技术实现模型、方法及其软件系统。在大数据技术中,软件是引擎。在此软件系统设计中采用“数据汇交层——整合层——服务层”和“硬件——基础软件——应用软件——信息服务(包括信息安全)”的总体框架,如图11所示;4)在应用环节上:在国内外首次提出“三层立体式”评价体系,形成至今相对最为完备、系统、全新的评价指标体系;首次提出“多级模糊综合评判”与“模糊聚类分析”相融合的评价模型与方法;在大数据分析方面:强化数据质量与数据管理的同时,首次提出在评价体系中,采用在Hadoop平台上的OLAP分析(即One-Size-fits-allOLAP分析);首次在评价系统中,嵌入数字地图技术,强化可视化再造效果。力求功能设计与结构设计最大化,确保综合评价系统的通用性,并与行业技术指标的制定密切联系起来;5)充分注重大数据分析与挖掘相关技术和云计算的深度融合在未来发展中该制造业的普遍实用性。
附图说明
图1为GFS的系统框架图;
图2为GoogleMap/Reduce的工作原理图;
图3为SparkStreaming的工作流程图;
图4为企业核心竞争能力指标体系详解图;
图5为质量风险指标体系详解图;
图6为企业竞争力指标体系详解图;
图7为经济与金融指标体系详解图;
图8为创新能力指标体系详解图;
图9为数据采集与处理示意图;
图10为连续属性离散化算法的标准样本选取范围图;
图11为系统总体架构三层模式图。

Claims (8)

1.一种深度融合大数据分析技术的重装制造企业综合评价系统的总体架构(其顶层设计如摘要附图、图11所示)。包括:评价指标体系,数据采集;系统的组织结构有企业基本信息维护模块、综合能力定量信息维护模块、综合能力评价模块、评价模型维护模块、系统和数据安全模块、基础数据维护模块,数据查询模块、数据检查和统计模块和数据打印模块;该综合评价系统的控制以及执行有如下步骤:
步骤1、确定相关企业的评价指标体系,即:确定企业的基本评价指标,形成评价指标的“核”,有关指标体系的选择是和专家咨询后确定;
步骤2、进行数据采集,即:从不同的渠道自动收集相关数据,存入真实数据库中;
步骤3、进行数据预处理,即:对真实数据库中的数据进行再加工,形成可分析处理的数据库;
步骤4、进行指标体系计算模型的选择,即:根据用户的需求,选择相应的指标体系计算模型进行计算分析,得到用户所需要的信息;
步骤5、进行综合能力评价,即:搜寻评价体系的模型,得到辅助决策知识信息,利用“多级模糊综合评判”与“模糊聚类分析”相融合的评价模型和方法以及特定的模式表达所得到的知识信息,并存入评价数据库中;
步骤6、进行实时维护,即:对所获得的每一条评价结果与原有的知识信息相比是否重复、冗余或矛盾,并根据判断结果作相应处理。
2.根据本发明所述的方法,其包括如下技术方案:
步骤1中所述的评价指标体系包括:1)核心能力:包括3个一级指标、11个二级指标,如图4所示;2)质量风险:包括2个一级指标、5个二级指标、24个三级指标,如图5所示;3)企业竞争力:包括5个一级指标、7个二级指标、19个三级指标,如图6所示;4)经济与金融评估:包括13个一级指标,如图7所示;5)创新能力:包括2个一级指标、6个二级指标、18个三级指标如图8所示。
3.步骤2中所述的数据采集是指:1)主动采集方式,主要包括:从指标对应的政府管理单位获取公开可信的数据、从互联网搜索相关指标涉及的数据(利用先进的垂直搜索引擎)、对于上市公司,从其公告中获取相关指标涉及的数据、从专业数据库中获得数据;2)人工采集方式,主要包括:通过调查问卷形式获取相关指标涉及的数据、人工核实权重值较大的数据、采取会员填表的形式获得数据。
4.步骤3中所述数据预处理:采集层通过要素采集、关键词抽取、全文索引、自动去重,分区存储等方式将采集到的数据存储到数据库中,再由分析层,通过自动分类,自动聚类、自动摘要、人名识别、公司名识别、产品名识别、政府预判、中文分词等方法将采集到的数据进行分析处理,最后由呈现层,通过分析报告、能力评价、适度匹配、分类评级、统计图表、风险预警的方式将最终的结果呈现给用户,如图9所示。
5.步骤4中所述的模型是指:建立一种具有自动选择功能的模型库;其内容包括:1)将评价问题分解为数据和文本描述两个部分,对评价问题的文本描述部分进行语言识别或理解,并从模型库中选择适合的模型类型;问题的数据部分送入数据库保存,同时送到数据识别器进行识别,根据识别结果以及模型类型的选择结果进行模型的结构选择;2)根据保存在数据库中的有关数据对模型结构中的特定参数进行估值,完成模型事例的确定。
6.步骤5中所述的辅助决策知识评价是指:通过人机交互界面由使用者评价;或者:所述的辅助决策知识评价是指:利用可视化工具所提供的各类图形和分析资料进行评价;或者:所述的辅助决策知识评价是是指:采用基于自认知逻辑的因果关联规则的自动评价方法,即:根据规则的关联强度及设定的阈值,由所述数字计算机自动实现。
7.步骤5中所述的“多级模糊综合评判”与“模糊聚类分析”相融合的评价模型和方法是指:在发明中首次提出利用“多级模糊综合评判”与“模糊聚类分析”相融合的评价模型和方法,将采集到的针对重装体系的评价指标体系数据进行诊断和评价,最后根据用户的各级决策者的主要评价内容来确定任务集,并给出评价结果。
8.本发明在重装制造企业综合评价系统中实施的大数据与云计算相融合的技术方案包括:分布式存储技术(见图1)、分布式计算技术(见图2)、流计算技术(见图3)、虚拟化技术。
CN201510808148.2A 2015-11-20 2015-11-20 深度融合大数据分析技术的重装制造企业综合评价系统 Pending CN105469204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510808148.2A CN105469204A (zh) 2015-11-20 2015-11-20 深度融合大数据分析技术的重装制造企业综合评价系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510808148.2A CN105469204A (zh) 2015-11-20 2015-11-20 深度融合大数据分析技术的重装制造企业综合评价系统

Publications (1)

Publication Number Publication Date
CN105469204A true CN105469204A (zh) 2016-04-06

Family

ID=55606872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510808148.2A Pending CN105469204A (zh) 2015-11-20 2015-11-20 深度融合大数据分析技术的重装制造企业综合评价系统

Country Status (1)

Country Link
CN (1) CN105469204A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202457A (zh) * 2016-07-17 2016-12-07 合肥赑歌数据科技有限公司 一种分布式的大数据规划方法
CN106251035A (zh) * 2016-07-15 2016-12-21 国网北京市电力公司 用于项目指标计算的数据处理方法和装置
CN107256254A (zh) * 2017-06-09 2017-10-17 鹏元征信有限公司 一种行业景气指数获取方法、存储设备及终端
CN108090652A (zh) * 2017-11-22 2018-05-29 北京科东电力控制系统有限责任公司 构建基于大数据技术的电力交易指标体系的方法
CN108629475A (zh) * 2017-09-08 2018-10-09 淄博职业学院 一种基于宏观经济数据的经营信息分析系统的交互方法
CN108710705A (zh) * 2018-05-28 2018-10-26 贵州中科恒运软件科技有限公司 一种关于政务数据融合分析的方法
CN109471381A (zh) * 2018-09-12 2019-03-15 国网浙江省电力有限公司嘉兴供电公司 基于大数据融合的设备能效综合控制方法
CN109977112A (zh) * 2018-12-28 2019-07-05 万康源(天津)基因科技有限公司 科研文献的结构化信息提取方法及系统
CN110544050A (zh) * 2019-09-12 2019-12-06 南京岳智信息技术有限公司 一种基于机器学习的科技企业创新能力评价方法
CN111597174A (zh) * 2020-04-24 2020-08-28 重庆科技学院 一种分布式数据统计处理系统、方法、存储介质、终端
CN113485983A (zh) * 2021-06-07 2021-10-08 上海众言网络科技有限公司 问卷数据处理方法及装置
US11475015B2 (en) 2020-11-20 2022-10-18 Coupang Corp. Systems and method for generating search terms
CN115511506A (zh) * 2022-09-30 2022-12-23 中国电子科技集团公司第十五研究所 企业信用的评级方法、装置、终端设备和存储介质
CN116362379A (zh) * 2023-02-27 2023-06-30 上海交通大学 一种基于六维指标的核反应堆运行参数预测方法
WO2024119504A1 (zh) * 2022-12-09 2024-06-13 华为技术有限公司 数据处理方法、装置、设备和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435781A (zh) * 2003-02-24 2003-08-13 杨炳儒 一种基于信息挖掘的智能决策支持构造方法
CN102222279A (zh) * 2011-06-14 2011-10-19 华南理工大学 基于模糊综合评判法的制革行业技术的评估方法
CN104954453A (zh) * 2015-06-02 2015-09-30 浙江工业大学 基于云计算的数据挖掘rest服务平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435781A (zh) * 2003-02-24 2003-08-13 杨炳儒 一种基于信息挖掘的智能决策支持构造方法
CN102222279A (zh) * 2011-06-14 2011-10-19 华南理工大学 基于模糊综合评判法的制革行业技术的评估方法
CN104954453A (zh) * 2015-06-02 2015-09-30 浙江工业大学 基于云计算的数据挖掘rest服务平台

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴楠: "面向电子产品的第三方逆向物流战略伙伴选择研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *
张进财等: "企业竞争力评价指标体系的构建", 《管理世界》 *
李晨云: "中国上市商业银行竞争力综合评价研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑(月刊)》 *
翟琳琳: "网络舆情分析中文本分类和聚类的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251035A (zh) * 2016-07-15 2016-12-21 国网北京市电力公司 用于项目指标计算的数据处理方法和装置
CN106202457A (zh) * 2016-07-17 2016-12-07 合肥赑歌数据科技有限公司 一种分布式的大数据规划方法
CN107256254A (zh) * 2017-06-09 2017-10-17 鹏元征信有限公司 一种行业景气指数获取方法、存储设备及终端
CN108629475A (zh) * 2017-09-08 2018-10-09 淄博职业学院 一种基于宏观经济数据的经营信息分析系统的交互方法
CN108090652A (zh) * 2017-11-22 2018-05-29 北京科东电力控制系统有限责任公司 构建基于大数据技术的电力交易指标体系的方法
CN108710705A (zh) * 2018-05-28 2018-10-26 贵州中科恒运软件科技有限公司 一种关于政务数据融合分析的方法
CN109471381A (zh) * 2018-09-12 2019-03-15 国网浙江省电力有限公司嘉兴供电公司 基于大数据融合的设备能效综合控制方法
CN109977112A (zh) * 2018-12-28 2019-07-05 万康源(天津)基因科技有限公司 科研文献的结构化信息提取方法及系统
CN110544050A (zh) * 2019-09-12 2019-12-06 南京岳智信息技术有限公司 一种基于机器学习的科技企业创新能力评价方法
CN111597174A (zh) * 2020-04-24 2020-08-28 重庆科技学院 一种分布式数据统计处理系统、方法、存储介质、终端
US11475015B2 (en) 2020-11-20 2022-10-18 Coupang Corp. Systems and method for generating search terms
TWI792302B (zh) * 2020-11-20 2023-02-11 南韓商韓領有限公司 用於產生搜尋的關鍵詞的方法以及系統
CN113485983A (zh) * 2021-06-07 2021-10-08 上海众言网络科技有限公司 问卷数据处理方法及装置
CN113485983B (zh) * 2021-06-07 2023-12-26 上海众言网络科技有限公司 问卷数据处理方法及装置
CN115511506A (zh) * 2022-09-30 2022-12-23 中国电子科技集团公司第十五研究所 企业信用的评级方法、装置、终端设备和存储介质
WO2024119504A1 (zh) * 2022-12-09 2024-06-13 华为技术有限公司 数据处理方法、装置、设备和系统
CN116362379A (zh) * 2023-02-27 2023-06-30 上海交通大学 一种基于六维指标的核反应堆运行参数预测方法

Similar Documents

Publication Publication Date Title
CN105469204A (zh) 深度融合大数据分析技术的重装制造企业综合评价系统
CN101093559B (zh) 一种基于知识发现的专家系统构造方法
Hor et al. A semantic graph database for BIM-GIS integrated information model for an intelligent urban mobility web application
CN104798043B (zh) 一种数据处理方法和计算机系统
CN106547882A (zh) 一种智能电网中营销大数据的实时处理方法及系统
CN103136337A (zh) 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
Davila Delgado et al. Big data analytics system for costing power transmission projects
Samadi Alinia et al. Tehran’s seismic vulnerability classification using granular computing approach
Marle et al. Forming risk clusters in projects to improve coordination between risk owners
Education Data science
Nair et al. Clustering with apache hadoop
Nasir et al. Partial key grouping: Load-balanced partitioning of distributed streams
Wan et al. A financial transaction methods based on mapreduce technology and blockchain
Alwahaishi et al. Analysis of the dblp publication classification using concept lattices
Huang et al. PFPMine: A parallel approach for discovering interacting data entities in data-intensive cloud workflows
KR102444589B1 (ko) 건설분야 문서 분석 방법
Ntaliakouras et al. An apache spark methodology for forecasting tourism demand in greece
CN115293479A (zh) 舆情分析工作流系统及其方法
Li Construction of an interactive sharing platform for competitive intelligence data of marine resources under the background of intelligence construction
Finogeev et al. Application of hyper-convergent platform for big data in exploring regional innovation systems
Sassite et al. A smart data approach for Spatial Big Data analytics
Shouaib et al. Survey on iot-based big data analytics
Fiosina et al. Distributed nonparametric and semiparametric regression on SPARK for big data forecasting
Zhou et al. [Retracted] An Improved Data Mining Model for Predicting the Impact of Economic Fluctuations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160406