CN106156802A - 一种基于加权聚类方法的投资热点展示方法 - Google Patents
一种基于加权聚类方法的投资热点展示方法 Download PDFInfo
- Publication number
- CN106156802A CN106156802A CN201610618196.XA CN201610618196A CN106156802A CN 106156802 A CN106156802 A CN 106156802A CN 201610618196 A CN201610618196 A CN 201610618196A CN 106156802 A CN106156802 A CN 106156802A
- Authority
- CN
- China
- Prior art keywords
- investment
- data
- amount
- point
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 239000003086 colorant Substances 0.000 claims abstract description 7
- 230000001747 exhibiting effect Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000007418 data mining Methods 0.000 claims description 8
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 230000007774 longterm Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000011031 large-scale manufacturing process Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Instructional Devices (AREA)
Abstract
本发明公开了一种基于加权聚类方法的投资热点展示方法,其具体实现过程为:将投资数据进行预处理,该投资数据包括投资地址及投资金额,把投资地址转换成地图上对应的经纬度,投资金额赋予权重,使用加权聚类算法进行处理,形成经过聚合的区域,每个区域包含不同金额的投资点,最后在地图上以投资热点的形式展示出来。该基于加权聚类方法的投资热点展示方法与现有技术相比,可使得投资地址和投资金额在地图上以投资热点的形式展示出来,不同的投资额度会显示不同的颜色,最终会形成直观的投资分布图,帮助决策者快速明确投资趋势,实用性强,适用范围广泛,易于推广。
Description
技术领域
本发明涉及数据挖掘技术领域,具体地说是一种实用性强、基于加权聚类方法的投资热点展示方法。
背景技术
如今,一个大规模生产、分享和应用数据的时代正在开启,而数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,绝大部分都隐藏在表面之下,而发掘数据的价值,并把这些价值以可视化的形式展示出来,成为一种备受追捧的技术手段。
政府机构掌握着大量的经济和民生数据,如果用数据挖掘技术对这些数据做深度的挖掘和分析,必定会得到很多对于社会发展有重大意义的信息。基于此,现提供一种科学高效的基于元数据的通用的可视化统计分析方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、基于加权聚类方法的投资热点展示方法。
一种基于加权聚类方法的投资热点展示方法,其实现过程为:将投资数据进行预处理,该投资数据包括投资地址及投资金额,把投资地址转换成地图上对应的经纬度,投资金额赋予权重,使用加权聚类算法进行处理,形成经过聚合的区域,每个区域包含不同金额的投资点,最后在地图上以投资热点的形式展示出来。
上述经过聚合的区域是指形成数据的聚类中心,每一个聚类中心都表示一个投资区域的中心,投资金额最大的点即为中心,投资金额越小离中心越远,把所有的投资中心及投资点在地图上展示出来,并根据距离赋予不同的展示色带,并把同一区域的投资点通过闭包算法渲染出来,最终形成一目了然的热点分布趋势图。
其具体实现过程为:
对原始数据进行预处理,这里的原始数据即为使用者以指定的格式输入投资项目的详细地址及投资金额:把原始数据中的地址,通过调用网络地图API接口,批量转换成在加权聚类算法以及地图上可以识别的经纬度的表示形式,精确到小数点后六位;
在完成上述技术方案的基础上,把投资金额进行规约化处理,使所有的数据都在同一个区间内;
对于处理后的数据进行格式转换,转成数据所使用的数据挖掘算法能够识别的样本数据集;
通过加权聚类算法得到每一个区域的聚类中心以及该聚类中包含的样本点,把这些点在地图上以坐标点的形式绘制出来,并且通过闭包算法,把每个区域的边界点用平滑的曲线连接起来,形成一个完整的闭包;
对每个区域的点进行不同颜色的绘制,根据投资金额的大小制定色度变化的规则,使投资金额大的点颜色较深,随着金额的减小颜色逐渐变浅,最终形成可视化的趋势变化图。
所述投资金额的规约化处理具体为:规约化处理投资金额采用特征值规约,特征值归约是特征值离散化技术,它将连续型特征的值离散化,使之成为若干区间,每个区间映射到一个离散符号。
所述加权聚类算法是指修改的k-means加权聚类算法,其具体为:在迭代计算聚类中心时,把样本数据的权重加入进去,这里的权重是规约处理之后的投资金额,使权重大的样本对聚类中心的贡献大,权重小的样本对聚类中心的样本小,即改进之后,得到的每个聚类中心就是该区域内投资金额最大的点,随着金额的减小,数据在聚类中心的周围往外慢慢扩散。
本发明的一种基于加权聚类方法的投资热点展示方法,具有以下优点:
本发明提供的一种基于加权聚类方法的投资热点展示方法,选取经济领域中的投资数据,首先对原始数据进行预处理,然后基于数据挖掘中的加权聚类算法,并根据数据的具体情况对算法做加权改进,使之适应数据集的特点,得到聚类结果,并用可视化技术手段把计算结果在地图上渲染出来,形成可复用的投资趋势模型,直观的展示出区域的投资趋势,辅助领导者进行决策,只要获取到某一城市或者省份投资项目的具体地址和投资金额,即可在地图上以投资热点的形式展示出来,不同的投资额度会显示不同的颜色,最终会形成直观的投资分布图,帮助决策者快速明确投资趋势,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的实现示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
本发明的一种基于加权聚类方法的投资热点展示方法,主要是把投资数据经过加权聚类算法的处理,形成经过聚合的区域,每个区域包含不同金额的投资点,在地图上以投资热点的形式展示出来。
使用者以指定的格式输入投资项目的详细地址及投资金额,把投资地址转换成地图上对应的经纬度,应用改进的加权k-means加权聚类算法,投资金额大的点赋予较大的权重,投资金额小的点赋予较小的权重,通过多次迭代聚类,形成适当数据的聚类中心,每一个聚类中心都代表了一个投资区域的中心,投资金额大的点离中心较近,投资金额越小离中心越远,把所有的投资中心及投资点在地图上展示出来,并根据距离赋予不同的展示色带,并把同一区域的投资点通过闭包算法渲染出来,最终形成一目了然的热点分布趋势图。
本发明的方法中涉及到数据挖掘加权聚类算法、地图开发批量坐标经纬度转换、地图坐标点标注、闭包算法、色度渲染等技术,使原本杂乱无章的投资趋势清晰明了的在地图上展示出来。
为了从看似杂乱无章的投资数据中找出能为决策者提供帮助的有用信息,找出某一区域内的投资走向,并以可视化的方式在地图上展示出来,让使用者能一目了然看到想要的结果。
如附图1所示,为实现以上的目标,本发明采用的技术方案如下:
1、把原始数据中的地址信息通过调用地图API进行经纬度解析,得到经度和维度表示的点;
2、把投资金额用一定的规约算法就行规约,使所有数据都落在同一个区间内;
3、把样本集进行格式转化,转换成数据挖掘算法可以识别的格式;
4、对加权聚类算法进行改进,使之在计算聚类中心时充分考虑投资金额的影响,即给加权聚类算法加权;
5、把修改后的加权聚类算法应用到样本集上,得到各聚类中心以及每个聚类包含的点;
6、把加权聚类算法得到的点通过经纬度在地图上批量绘制坐标点,得到包含有所有坐标点的地图;
7、应用闭包算法把每个区域最外围的点连接在一起绘制成一个闭合的区域图;
8、根据投资额度的大小,为这些坐标点渲染不同的颜色,金额大的渲染深色,依次逐渐变浅。
进一步的,本发明根据上述八个步骤具体解释如下:
对包括投资地址、投资金额的原始数据进行预处理:把原始数据中的地址,通过调用百度地图API接口,批量转换成在加权聚类算法以及地图上可以识别的经纬度的表示形式,精确到小数点后六位。
在完成上述技术方案的基础上,把投资金额进行规约化处理,使所有的数据都在同一个区间内。我们采用的是特征值规约,特征值归约是特征值离散化技术,它将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。这种技术的好处在于简化了数据描述,并易于理解数据和最终的挖掘结果。
在完成上述技术方案的基础上,对于处理后的数据进行格式转换,转成数据所使用的数据挖掘算法能够识别的样本数据集。
在完成上述技术方案的基础上,修改k-means加权聚类算法,在迭代计算聚类中心时,把样本数据的权重考虑进去(此处所说的权重,就是规约处理之后的投资金额),使权重大的样本对聚类中心的贡献大,权重小的样本对聚类中心的样本小,这样改进之后,最后得到的每个聚类中心就是该区域内投资金额最大的点,随着金额的减小,数据会在聚类中心的周围往外慢慢扩散。
在完成上述技术方案的基础上,通过加权聚类算法得到每一个区域的聚类中心以及该聚类中包含的样本点,把这些点在地图上以坐标点的形式绘制出来,并且通过闭包算法,把每个区域的边界点用平滑的曲线连接起来,形成一个完整的闭包。
在完成上述技术方案的基础上,对每个区域的点进行不同颜色的绘制,根据投资金额的大小制定色度变化的规则,使投资金额大的点颜色较深,随着金额的减小颜色逐渐变浅,最终形成可视化的趋势变化图。
本专利基于加权的加权聚类算法以及地图的可视化展示方法实现了政府投资数据的投资热点趋势展现,把杂乱无章的一堆数据变成地图上规律清晰可见的分布图,给决策者带来直观方便的视觉冲击。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于加权聚类方法的投资热点展示方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (5)
1.一种基于加权聚类方法的投资热点展示方法,其特征在于,其实现过程为:将投资数据进行预处理,该投资数据包括投资地址及投资金额,把投资地址转换成地图上对应的经纬度,投资金额赋予权重,使用加权聚类算法进行处理,形成经过聚合的区域,每个区域包含不同金额的投资点,最后在地图上以投资热点的形式展示出来。
2.根据权利要求1所述的一种基于加权聚类方法的投资热点展示方法,其特征在于,上述经过聚合的区域是指形成数据的聚类中心,每一个聚类中心都表示一个投资区域的中心,投资金额最大的点即为中心,投资金额越小离中心越远,把所有的投资中心及投资点在地图上展示出来,并根据距离赋予不同的展示色带,并把同一区域的投资点通过闭包算法渲染出来,最终形成一目了然的热点分布趋势图。
3.根据权利要求2所述的一种基于加权聚类方法的投资热点展示方法,其特征在于,其具体实现过程为:
对原始数据进行预处理,这里的原始数据即为使用者以指定的格式输入投资项目的详细地址及投资金额:把原始数据中的地址,通过调用网络地图API接口,批量转换成在加权聚类算法以及地图上可以识别的经纬度的表示形式,精确到小数点后六位;
在完成上述技术方案的基础上,把投资金额进行规约化处理,使所有的数据都在同一个区间内;
对于处理后的数据进行格式转换,转成数据所使用的数据挖掘算法能够识别的样本数据集;
通过加权聚类算法得到每一个区域的聚类中心以及该聚类中包含的样本点,把这些点在地图上以坐标点的形式绘制出来,并且通过闭包算法,把每个区域的边界点用平滑的曲线连接起来,形成一个完整的闭包;
对每个区域的点进行不同颜色的绘制,根据投资金额的大小制定色度变化的规则,使投资金额大的点颜色较深,随着金额的减小颜色逐渐变浅,最终形成可视化的趋势变化图。
4.根据权利要求3所述的一种基于加权聚类方法的投资热点展示方法,其特征在于,所述投资金额的规约化处理具体为:规约化处理投资金额采用特征值规约,特征值归约是特征值离散化技术,它将连续型特征的值离散化,使之成为若干区间,每个区间映射到一个离散符号。
5.根据权利要求3所述的一种基于加权聚类方法的投资热点展示方法,其特征在于,所述加权聚类算法是指修改的k-means加权聚类算法,其具体为:在迭代计算聚类中心时,把样本数据的权重加入进去,这里的权重是规约处理之后的投资金额,使权重大的样本对聚类中心的贡献大,权重小的样本对聚类中心的样本小,即改进之后,得到的每个聚类中心就是该区域内投资金额最大的点,随着金额的减小,数据在聚类中心的周围往外慢慢扩散。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610618196.XA CN106156802A (zh) | 2016-08-01 | 2016-08-01 | 一种基于加权聚类方法的投资热点展示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610618196.XA CN106156802A (zh) | 2016-08-01 | 2016-08-01 | 一种基于加权聚类方法的投资热点展示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106156802A true CN106156802A (zh) | 2016-11-23 |
Family
ID=57328026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610618196.XA Pending CN106156802A (zh) | 2016-08-01 | 2016-08-01 | 一种基于加权聚类方法的投资热点展示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156802A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107958417A (zh) * | 2017-12-08 | 2018-04-24 | 武汉市科技金融创新促进中心 | 一种基于大数据的投融资桥接方法及平台 |
WO2019087552A1 (ja) * | 2017-11-01 | 2019-05-09 | Heroz株式会社 | 金融取引スタイル特徴マッピング装置及び取引スタイル特徴マップの生成方法 |
CN116579854A (zh) * | 2022-12-30 | 2023-08-11 | 长安银行股份有限公司 | 理财风险控制数据的可视化数据处理方法 |
-
2016
- 2016-08-01 CN CN201610618196.XA patent/CN106156802A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019087552A1 (ja) * | 2017-11-01 | 2019-05-09 | Heroz株式会社 | 金融取引スタイル特徴マッピング装置及び取引スタイル特徴マップの生成方法 |
CN107958417A (zh) * | 2017-12-08 | 2018-04-24 | 武汉市科技金融创新促进中心 | 一种基于大数据的投融资桥接方法及平台 |
CN116579854A (zh) * | 2022-12-30 | 2023-08-11 | 长安银行股份有限公司 | 理财风险控制数据的可视化数据处理方法 |
CN116579854B (zh) * | 2022-12-30 | 2023-12-22 | 长安银行股份有限公司 | 理财风险控制数据的可视化数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764228A (zh) | 一种图像中文字目标检测方法 | |
CN108154560A (zh) | 激光点云标注方法、装置及可读存储介质 | |
CN104077447B (zh) | 基于纸质平面数据的城市三维空间矢量建模方法 | |
CN102289991B (zh) | 一种基于视觉变量的地图注记自动分类配置方法 | |
CN106156802A (zh) | 一种基于加权聚类方法的投资热点展示方法 | |
CN106649466B (zh) | 数字地图中典型地形几何参数获取方法 | |
CN111046917B (zh) | 基于深度神经网络的对象性增强目标检测方法 | |
CN102254174A (zh) | 崩滑体中裸地信息的自动提取方法 | |
CN106709989B (zh) | 基于面向对象影像特征的地理本体建模与语义推理方法 | |
CN111639426B (zh) | 一种风特征时空过程可视化方法 | |
CN102096831A (zh) | 一种图形动态关系识别方法 | |
CN102982561B (zh) | 适用于彩色图像彩色的二进制鲁棒尺度不变特征检测方法 | |
CN106157624A (zh) | 基于交通定位数据的多粒度道路分流可视分析方法 | |
CN111488940B (zh) | 一种基于深度卷积神经网络的航标图像智能分类方法 | |
CN103399863B (zh) | 基于边缘方向差特征袋的图像检索方法 | |
CN104361365A (zh) | 一种抽油泵运行状态识别方法及装置 | |
CN112257496A (zh) | 一种基于深度学习的输电通道周围环境分类方法及系统 | |
US20230059277A1 (en) | Map data processing method and apparatus, and storage medium | |
CN115757604A (zh) | 一种基于夜光影像数据的gdp时空演变分析方法 | |
Song et al. | A new convolutional neural network architecture for automatic segmentation of overlapping human chromosomes | |
CN101777122A (zh) | 一种角毛藻显微图像细胞目标提取方法 | |
CN104200502A (zh) | 一种二维散点数据密度制图方法 | |
CN115035225B (zh) | 基于osg的战场威胁评估示警方法 | |
CN106682789A (zh) | 规划防汛物资储备数量的方法及系统 | |
CN109376638A (zh) | 一种基于遥感图像和地理信息系统的文地率计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161123 |
|
RJ01 | Rejection of invention patent application after publication |