CN104992190B - 基于业务对象的数据聚类分析系统及方法 - Google Patents

基于业务对象的数据聚类分析系统及方法 Download PDF

Info

Publication number
CN104992190B
CN104992190B CN201510435529.0A CN201510435529A CN104992190B CN 104992190 B CN104992190 B CN 104992190B CN 201510435529 A CN201510435529 A CN 201510435529A CN 104992190 B CN104992190 B CN 104992190B
Authority
CN
China
Prior art keywords
business object
data
module
field
optimal path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510435529.0A
Other languages
English (en)
Other versions
CN104992190A (zh
Inventor
柯志超
马小东
尹世帅
刘士坤
马晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU GUOYUN DATA TECHNOLOGY Co Ltd
Original Assignee
SUZHOU GUOYUN DATA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU GUOYUN DATA TECHNOLOGY Co Ltd filed Critical SUZHOU GUOYUN DATA TECHNOLOGY Co Ltd
Priority to CN201510435529.0A priority Critical patent/CN104992190B/zh
Publication of CN104992190A publication Critical patent/CN104992190A/zh
Application granted granted Critical
Publication of CN104992190B publication Critical patent/CN104992190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于业务对象的数据聚类分析系统,包括业务对象抽象模块、语义分析模块和聚类分析模块;业务对象抽象模块,将表中字段根据其代表的含义命名成业务对象,并将表与字段信息绑定到其业务对象;语义分析模块,根据业务对象上配置的表和字段信息,找出同时配置有用户选择的所有业务对象的表集合,找出使用资源最少和计算时间最短的路径作为最优路径,完成数据计算;聚类分析模块,基于最优路径生成对应的数据,提供可视化的聚类结果。系统通过语义分析模块自动查找数据间的关系,为用户屏蔽了数据间的复杂关系,使得用户只需关注结果,不需要关注整个挖掘分析过程中的细节,简单方便。

Description

基于业务对象的数据聚类分析系统及方法
技术领域
本发明涉及一种数据聚类分析方法,具体地涉及一种基于业务对象的数据聚类分析系统及方法。
背景技术
目前市面上的数据聚类分析的方法主要有分两种:
1、基于R语言或者编码实现的Kmeans等算法,通过人工输入或者读取文件中的数据进行聚类,并且输出文本或者图形结果。
这种方法,对于使用者来说要求特别高,要了解编程的相关知识,甚至对于聚类的算法也要很了解。普通人无法通过这个方式实现聚类分析。
2、类似于SPSS一样的挖掘分析工具,通过图形化的界面,手动输入数据或者读取文件中的 数据,然后使用SPSS封装的算法完成数据聚类,并且呈现出结果。
这种方法,降低了用户的使用门槛,但是前期的数据准备和处理这个过程还是需要用户通过别的工具或者是手动来完成,耗时耗力。当用户的需求发生变化时,又需要整理一遍数据。
发明内容
针对上述技术问题,本发明目的是:提供一种基于业务对象的数据聚类分析系统,系统通过语义分析模块自动查找数据间的关系,为用户屏蔽了数据间的复杂关系,使得用户只需关注结果,不需要关注整个挖掘分析过程中的细节,简单方便。
本发明的技术方案是:
一种基于业务对象的数据聚类分析系统,包括业务对象抽象模块、语义分析模块和聚类分析模块;
所述业务对象抽象模块,将表中字段根据其代表的含义命名成业务对象,并将表与字段信息绑定到其业务对象;
所述语义分析模块,根据业务对象上配置的表和字段信息,找出同时配置有用户选择的所有业务对象的表集合,通过对表的数据量大小、表的粒度、表的关联次数进行排序,找出使用资源最少和计算时间最短的路径作为最优路径,完成数据计算;
所述聚类分析模块,基于最优路径,生成对应的数据,提供可视化的聚类结果。
本发明还公开了一种基于业务对象的数据聚类分析方法,包括以下步骤:
(1)将表中字段根据其代表的含义命名成业务对象,并将表与字段信息绑定到其业务对象;
(2)把相同含义的字段绑定到相同的业务对象上,没有配置业务对象的字段则根据其代表的含义命名业务对象,完成所有表的配置形成业务对象集合{O};
(3)选择业务对象集合{O}中的业务对象,并设置一定数量的维度和度量,指定业务对象在聚类分析中所占的比重;
(4)解析维度和度量中配置的字段和表关系;
(5)根据表和字段信息,找出有同时配置有用户选择的所有对象的表集合{CT};
(6)系统基于表集合{CT}计算每一个表的数据量大小、数据粒度大小、消耗资源数量、表的关联次数,找出使用资源最少和计算时间最短的路径作为最优路径;
(7)基于最优路径计算出来的数据结果和用户设置的聚类数以及业务对象权重,传递到聚类分析模块中,聚类分析模块根据数据的输入,选择合适的算法完成聚类,并以可视化的方式呈现。
与现有技术相比,本发明的优点是:
1、用户不需要事先处理数据,只需使用系统中整理好的业务对象,在任意时刻任意组合业务对象来产生数据,把一个复杂的数据挖掘过程,转换成普通分析人员也可以使用的功能。
2、系统通过语义分析模块查找数据间的关系,为用户屏蔽了数据间的复杂关系,使得用户只需关注结果,不需要关注整个挖掘分析过程中的细节,简单方便,不需要用户具有相关的专业知识。
3、本系统通过业务对象抽象模块,把所有复杂的数据关系抽象成有限的业务对象,把数据的整理过程,转换成对业务对象的操作。拖拽不同的业务对象,通过语义分析模块分析业务对象背后的数据关系,自动查找数据之间的关联,计算出相应的数据,这个数据作为聚类分析的输入。用户不需要花费大量的时间在数据处理上,只需要关注自己的业务对象即可。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明基于业务对象的数据聚类分析系统的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例:
如图1所示,一种基于业务对象的数据聚类分析系统,包括业务对象抽象模块、语义分析模块和聚类分析模块。
业务对象抽象模块:完成对复杂数据关系的业务抽象,这个过程中,用户只需要识别出底层表中每一个字段的含义,把代表相同含义的字段绑定到同一个业务对象上即可。不需要配置任何额外的关联信息,不需要了解不同数据之间的关系。包括如下步骤:
a)选择任意一个表T,例如表T中包含的字段有{C1,C2,C3},把这些字段按照其代表的含义,分别命名成业务对象{O1,O2,O3},并且把表与字段信息绑定到对象{O1,O2,O3}上。例如一个表User{id,sex,age,address}抽象成业务对象{用户,性别,年龄,住址}。
b)选择另一个表T2,根据字段(C3,C4)代表的含义, T2表的C3的含义与T表的C3含义一致,那么绑定到步骤a)已经配置的业务对象O3上,C4字段第一次出现,那么按照步骤a)配置一个对象O4 。
c)重复步骤b ),把相同含义的字段绑定到已经配置的业务对象上,没有配置的字段则新建业务对象,如此完成所有表的配置形成业务对象集合{O}。
语义分析模块,根据用户选择的业务对象,分析出业务对象所代表的含义以及使用到的表,系统通过算法选择最优路径,完成数据计算。
d)用户选择业务对象集合{O}中的业务对象:例如,维度{O1,O2}和度量{O3,O4}。设置好需要分类的数量,指定好业务对象在聚类分析中所占的比重。
e)系统解析维度和度量中配置的字段和表关系。以O1为例,找出O1上配置的字段集合{X1},{X1}中的每一个元素包含两个信息{C(字段信息),T(表信息)}。同样把O2,O3,O4的字段集合都找出来{X2},{X3},{X4}。
f)根据{X1}, {X2},{X3},{X4}的表和字段信息,找出有同时配置有用户选择的所有对象的表集合{CT},这些表集合中的表就是可用的路径。
g)系统基于表集合{CT},计算每一个表的数据量大小,数据粒度大小,消耗资源数量,表的关联次数等信息进行排序,为用户选择一个最优路径。
聚类分析模块,基于最优路径生成对应的数据,提供可视化的聚类结果。具体步骤如下:
h)基于最优路径计算出来的数据结果和用户设置的聚类数以及对象权重,传递到聚类分析模块中。
i)聚类分析 模块根据数据的输入,选择合适的算法:kmeans,fuzzy,clara,完成聚类,并以可视化的方式呈现给用户 。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (2)

1.一种基于业务对象的数据聚类分析系统,其特征在于,包括业务对象抽象模块、语义分析模块和聚类分析模块;
所述业务对象抽象模块,将表中字段根据其代表的含义命名成业务对象,并将表与字段信息绑定到其业务对象;
所述语义分析模块,根据业务对象上配置的表和字段信息,找出同时配置有用户选择的所有业务对象的表集合,通过对表的数据量大小、表的粒度、表的关联次数进行排序,找出使用资源最少和计算时间最短的路径作为最优路径,查找数据间的关系,根据最优路径计算数据结果;
所述聚类分析模块,根据聚类数、业务对象权重以及最优路径计算的数据结果,选择聚类算法进行聚类,并提供可视化的聚类结果。
2.一种基于业务对象的数据聚类分析方法,其特征在于,包括以下步骤:
(1)将表中字段根据其代表的含义命名成业务对象,并将表与字段信息绑定到其业务对象;
(2)把相同含义的字段绑定到相同的业务对象上,没有配置业务对象的字段则根据其代表的含义命名业务对象,完成所有表的配置形成业务对象集合{O};
(3)选择业务对象集合{O}中的业务对象,并设置一定数量的维度和度量,指定业务对象在聚类分析中所占的比重;
(4)解析维度和度量中配置的字段和表关系;
(5)根据表和字段信息,找出同时配置有用户选择的所有对象的表集合{CT};
(6)系统基于表集合{CT}计算每一个表的数据量大小、数据粒度大小、消耗资源数量、表的关联次数,找出使用资源最少和计算时间最短的路径作为最优路径,查找数据间的关系,根据最优路径计算数据结果;
(7)将聚类数、业务对象权重以及基于最优路径计算的数据结果传递到聚类分析模块中,聚类分析模块选择聚类算法进行聚类,并以可视化的方式呈现。
CN201510435529.0A 2015-07-23 2015-07-23 基于业务对象的数据聚类分析系统及方法 Active CN104992190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510435529.0A CN104992190B (zh) 2015-07-23 2015-07-23 基于业务对象的数据聚类分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510435529.0A CN104992190B (zh) 2015-07-23 2015-07-23 基于业务对象的数据聚类分析系统及方法

Publications (2)

Publication Number Publication Date
CN104992190A CN104992190A (zh) 2015-10-21
CN104992190B true CN104992190B (zh) 2019-01-08

Family

ID=54304003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510435529.0A Active CN104992190B (zh) 2015-07-23 2015-07-23 基于业务对象的数据聚类分析系统及方法

Country Status (1)

Country Link
CN (1) CN104992190B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392114B (zh) * 2021-07-29 2022-03-15 浩鲸云计算科技股份有限公司 一种基于业务对象的智能关系管理和智能数据融合的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268275A (zh) * 2014-10-16 2015-01-07 苏州国云数据科技有限公司 一种对数据做业务抽象和路径查找分析的方法
CN104794221A (zh) * 2015-04-29 2015-07-22 苏州国云数据科技有限公司 一种基于业务对象的多维数据分析系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268275A (zh) * 2014-10-16 2015-01-07 苏州国云数据科技有限公司 一种对数据做业务抽象和路径查找分析的方法
CN104794221A (zh) * 2015-04-29 2015-07-22 苏州国云数据科技有限公司 一种基于业务对象的多维数据分析系统

Also Published As

Publication number Publication date
CN104992190A (zh) 2015-10-21

Similar Documents

Publication Publication Date Title
US20200175964A1 (en) System and Method for a Computer User Interface for Exploring Conversational Flow with Selectable Details
CN110019396A (zh) 一种基于分布式多维分析的数据分析系统及方法
KR20160137935A (ko) 소셜 네트워크 정보흐름 표시방법, 장치, 서버, 프로그램 및 컴퓨터가 판독가능한 기록매체
CN109408102A (zh) 一种版本比对方法和装置、家电设备、网络设备
JP2015528173A (ja) データ関係を利用したデータの扱い方
KR20170134601A (ko) 데이터 처리 방법 및 장치
CN103888543A (zh) 基于Web服务的医疗资源推荐方法及系统
CN105446952B (zh) 用于处理语义片段的方法和系统
CN105488599B (zh) 预测文章热度的方法和装置
CN108009715A (zh) 一种自动分析指标波动根因的方法
CN115687672A (zh) 图表可视化智能推荐方法、装置、设备及可读存储介质
CN104992190B (zh) 基于业务对象的数据聚类分析系统及方法
JPWO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
CN106406835A (zh) 一种报表生成方法和报表生成装置
CN110717095B (zh) 服务项目的推送方法及装置
KR101688829B1 (ko) 사용자 패턴을 반영한 문서 제공 방법 및 그 장치
CN103679386B (zh) 一种资讯数据处理方法及资讯数据处理的客户端
JP6267398B2 (ja) サービス設計支援システムおよびサービス設計支援方法
CN106295892A (zh) 一种企业佣金的计算方法及装置
KR20160070218A (ko) 데이터 분석 서비스 추천 시스템 및 방법
Ku et al. Service recommendation system for big data analysis
Walek et al. Fuzzy tool for conceptual modeling under uncertainty
CN104243201B (zh) 网络设备测试用例对应拓扑图的存储方法及系统
CN107577640B (zh) 一种毛型纱线合股捻缩率的预测方法
CN112162831A (zh) 一种大数据分析方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant