CN106991283B - 一种基于分形技术的病案库构建方法 - Google Patents

一种基于分形技术的病案库构建方法 Download PDF

Info

Publication number
CN106991283B
CN106991283B CN201710206758.4A CN201710206758A CN106991283B CN 106991283 B CN106991283 B CN 106991283B CN 201710206758 A CN201710206758 A CN 201710206758A CN 106991283 B CN106991283 B CN 106991283B
Authority
CN
China
Prior art keywords
fractal
medical record
attribute
attributes
max
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710206758.4A
Other languages
English (en)
Other versions
CN106991283A (zh
Inventor
邱航
付波
蒲晓蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201710206758.4A priority Critical patent/CN106991283B/zh
Publication of CN106991283A publication Critical patent/CN106991283A/zh
Application granted granted Critical
Publication of CN106991283B publication Critical patent/CN106991283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于分形技术的病案库构建方法;其包括输入数据集、尺度筛选、样本缩减、属性约简器、输出病案库;本发明基于分形技术抓取病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减与重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。本发明主要用于医院对于历史病案库进行分类、整理与分析,帮助医务人员基于历史病案认识疾病、诊治疾病和预防疾病。

Description

一种基于分形技术的病案库构建方法
技术领域
本发明涉及一种病案库构建方法,尤其是一种基于分形技术的病案库构建方法。
背景技术
属性约简是指从数据集的原始属性集合中得到一个属性子集,该属性子集可以充分体现数据集的主要特征,具有和原始属性集合基本同等的区分能力。
这里,属性也常称为特征。属性约简主要存在两种基本途径:特征抽取(featureextraction)与特征选择(featureselection)。特征抽取主要分为线性特征抽取技术与非线性特征抽取技术,无论是线性还是非线性特征抽取技术,其输出的特征空间的属性都是人工构造的,和原有的特征空间的特征之间不存在明显对应关系,因而不便于人们理解。特征选择技术依据某个准则从众多原始特征中选择部分最能反映模式类别统计特性的相关特征,从而达到降低特征空间维度的效果。与特征抽取技术相比,该方法所得到的特征空间没有经过抽象的旋转及变换,便于最终结果的分析与理解,因而是在实际应用中比较常见的方法。
分形理论是现代非线性科学研究中十分活跃的一个数学分支,它的基本思想是利用整体与局部相似的特点,将一个复杂现象看成是由简单现象迭代而成,从而揭示复杂现象中所蕴含的规律和特性,特别适合于解决复杂问题。对于具有分形特征的物体而言,分形维数是一个重要的指标,它能够定量地描述分形集的复杂程度。近几年来,研究表明分形维数在数据挖掘领域有着非常特殊的作用,将分形技术应用于机器学习领域能够更好地克服传统机器学习技术的不足,更加有效地解决在结构复杂、高维数据集上的数据建模与分析问题。
其中,
现有技术一:“Fast feature selection using fractaldimension”中提出的基于分形维的特征选择方法FDR北京中星微电子有限公司黄英的专利《基于视频监控的人数统计方法和系统》,于2009年01月7日向中国国家知识产权局申请专利并获得批准,于2009年01月8日公开,公开号为:CN101477641FDR算法的主要思想是每次删除对数据集整体分形维数影响最小的属性,最终保留分形维数与数据集整体分形维数的差值满足一定阈值要求的属性子集。
现有技术一的缺点:
目前已知分形维数算法的最优时间复杂度为O(NlogN)(N为数据点数目),为了每次删除对当前属性集分形维数影响最小的属性,FDR算法需要(E—D)(E+D+1)/2次(D为需要保留的属性数目,E为数据空间属性数目)扫描数据集并计算当前属性子集对应的分形维数,相应地,FDR算法总的时间复杂度为O(E NlogN)。从本质上分析,FDR算法仍然属于基于特征子集优劣的特征选择算法,引入了大量分形维数的计算工作,因而无法应用于高维数据特征选择工作.其中,现有技术二:闫光辉和李战怀于2008在计算机研究与发展上发表论文《两阶段无监督顺序前向分形属性规约算法》,研究了一种基于分形的属性规约方法。该方法首先利用分形对属性集进行相似属性分组和冗余属性排除,然后产生最大无关属性子集。此方法相比FDR算法在效率上有所提高。
现有技术二的缺点
该方法的缺点主要有:
1.该方法需要计算的分形维平均次数也较多。
1)相似属性分组时需要计算每个属性的分形维;
2)冗余属性排除时需要在每个相似属性分组中两两属性之间的计算分形维;
3)在利用前向算法向候选最大无关属性组中添加属性时也需要不断计算分形维。
2.该算法无法排除2个以上属性之间的依赖性。
3.该算法对数据集属性间相关性或冗余较小或较大时都不好。
发明内容
本发明的目的在于克服现有技术的不足,在此提供一种基于分形技术的病案库构建方法;本发明基于分形技术扑捉病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减和重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。
本发明是这样实现的,提供一种基于分形技术的病案库构建方法,其特征在于:包括如下步骤;
步骤1:输入数据集;
输入病案数据,提取关键属性
S={A,E},其中A表示拥有m个属性的属性集{A1,A1,…,Am},E表示包括n个元组的对象集;
步骤2:尺度筛选;
步骤2.1计算D(A)的q为-5,2,5时的多重分形维度D-5、D2、D5,以及对应的分形标度区;
步骤2.2对q为-5,2,5时对应的分形标度区间求交,得到公共分形标度区;
步骤2.3取公共分形标度区的中间标度[rmin,rmax],作为筛选结果;
步骤2.4选择最大分形尺度rmax作为输出尺度;
步骤3:样本缩减
步骤3.1删减非分形样本
依次检索Pi(rmin),i=1,…,N,若Pi(rmin)<τ,去除样本点i;
依次检索Pi(rmax),i=1,…,N,若Pi(rmax)<τ,去除样本点i;
步骤3.2保留rmax尺度样本;
步骤4:属性约简器
步骤4.1:计算属性无关概率,构建无关属性组,算法:
(1)初始化:数据集D={A,E},
A={A1,A1,…,Am}E表示包括n个元组的对象集,
kmax,W={W1,W2,…,Wm}
(2)r←计算初始数据集D(A)的分形维数
(3)d←取大于等于d的最小整数
(4)
Figure BDA0001260012570000031
(5)k←0
(6)do k←k+1
(7)
Figure BDA0001260012570000032
其中
Figure BDA0001260012570000033
为属性子集选择函数,其依据概率Wk在A中选择d个
属性
(8)ds←计算属性子集D(S)的分形维数
(9)
Figure BDA0001260012570000034
(10)
Figure BDA0001260012570000041
(11)对Wk+1(A)作归一化处理
(12)until k=kmax
步骤4.2:根据属性无关概率,选择属性子集,
依据Wk+1(A),选择具有最大无关概率的前k个属性。
本发明的优点在于:本发明基于分形技术扑捉病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减和重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。
附图说明
图1是本发明病案库维护流程。
具体实施方式
下面将对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过改进提供一种基于分形技术的病案库构建方法,可以按照如下实施;包括如下步骤;
步骤1:输入数据集;
输入病案数据,提取关键属性
S={A,E},其中A表示拥有m个属性的属性集{A1,A1,…,Am},E表示包括n个元组的对象集;
步骤2:尺度筛选;
步骤2.1计算D(A)的q为-5,2,5时的多重分形维度D-5、D2、D5,以及对应的分形标度区;
步骤2.2对q为-5,2,5时对应的分形标度区间求交,得到公共分形标度区;
步骤2.3取公共分形标度区的中间标度[rmin,rmax],作为筛选结果;
步骤2.4选择最大分形尺度rmax作为输出尺度;
步骤3:样本缩减
步骤3.1删减非分形样本
依次检索Pi(rmin),i=1,…,N,若Pi(rmin)<τ,去除样本点i;
依次检索Pi(rmax),i=1,…,N,若Pi(rmax)<τ,去除样本点i;
步骤3.2保留rmax尺度样本;
步骤4:属性约简器
步骤4.1:计算属性无关概率,构建无关属性组,算法:
(1)初始化:数据集D={A,E},
A={A1,A1,…,Am}E表示包括n个元组的对象集,
kmax,W={W1,W2,…,Wm}
(2)r←计算初始数据集D(A)的分形维数
(3)d←取大于等于d的最小整数
(4)
Figure BDA0001260012570000051
(5)k←0
(6)do k←k+1
(8)
Figure BDA0001260012570000052
其中
Figure BDA0001260012570000053
为属性子集选择函数,其依据概率Wk在A中选择d个属性
(8)ds←计算属性子集D(S)的分形维数
(9)
Figure BDA0001260012570000054
(10)
Figure BDA0001260012570000055
(11)对Wk+1(A)作归一化处理
(12)until k=kmax
步骤4.2:根据属性无关概率,选择属性子集,
依据Wk+1(A),选择具有最大无关概率的前k个属性。
考虑到实际数据分布的多样性和复杂性,仅以某一分形维数为特征难以区分单一分形集和多重分形集,为了能更准确地描述一个数据集的分形特征,本文使用了多重分形维数。
算法:计算多重分形维度
多重分形维数Dq采用推广G-P(Grassberger-Procaccia)算法计算。给定q值,Dq的计算方法如下:
步骤1:以r0为初值,13.14.增量Δr为步长,重复计算一系列离散r对应的q阶关联积分Cq(r)。
给定r的Cq(r)的计算方法如下:
若X为数据集,记为X={x1,x2,…,xN},其中,数据项xi具有M个属性,可以看作是M维空间中的点,由这些点组成M维欧氏空间中的一个子集。
定义xi到xj点的距离为dij。以xi点为中心、以r为半径作球,计算全部点均位于球内的概率,计算公式如下:
Figure BDA0001260012570000061
其中,δ(x)是Heaviside阶跃函数:
Figure BDA0001260012570000062
因此,q阶关联积分可以通过下式计算:
Figure BDA0001260012570000063
步骤2:确定分形标度区
根据步骤1中计算得到的一系列Cq(r)绘制ln Cq(r)-
lnr曲线。数据集具有多重分形性质,则ln Cq(r)-
lnr曲线中间有一段是直线,这段直线对应于分形标度区,记为[rmin,rmax]
步骤3:计算广义维数Dq
在分形标度区中用最小二乘法拟合其斜率,得到Dq的值。
本发明基于分形技术扑捉病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减和重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (1)

1.一种基于分形技术的病案库构建方法,其特征在于:包括如下步骤;
步骤1:输入数据集;
输入病案数据,提取关键属性
S={A,E},其中A表示拥有m个属性的属性集{A1,A1,…,Am},E表示包括n个元组的对象集;
步骤2:尺度筛选;
步骤2.1计算D(A)的q为-5,2,5时的多重分形维度D-5、D2、D5
以及对应的分形标度区;
步骤2.2对q为-5,2,5时对应的分形标度区间求交,得到公共分形标度区;
步骤2.3取公共分形标度区的中间标度[rmin,rmax],作为筛选结果;
步骤2.4选择最大分形尺度rmax作为输出尺度;
步骤3:样本缩减
步骤3.1删减非分形样本
依次检索Pi(rmin),i=1,…,N,若Pi(rmin)<τ,去除样本点i;
依次检索Pi(rmax),i=1,…,N,若Pi(rmax)<τ,去除样本点i;
步骤3.2保留rmax尺度样本;
步骤4:属性约简器
步骤4.1:计算属性无关概率,构建无关属性组,算法:
(1)初始化:数据集D={A,E},A={A1,A1,…,Am}E表示包括n个元组的对象集,kmax,W={W1,W2,…,Wm}
(2)r←计算初始数据集D(A)的分形维数
(3)d←取大于等于d的最小整数
(4)
Figure FDA0001260012560000011
(5)k←0
(6)do k←k+1
(7)
Figure FDA0001260012560000012
其中
Figure FDA0001260012560000013
为属性子集选择函数,其依据概率Wk在A中选择d个属性
(8)ds←计算属性子集D(S)的分形维数
(9)
Figure FDA0001260012560000014
(10)
Figure FDA0001260012560000021
(11)对Wk+1(A)作归一化处理
(12)until k=kmax
步骤4.2:根据属性无关概率,选择属性子集,
依据Wk+1(A),选择具有最大无关概率的前k个属性。
CN201710206758.4A 2017-03-31 2017-03-31 一种基于分形技术的病案库构建方法 Active CN106991283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710206758.4A CN106991283B (zh) 2017-03-31 2017-03-31 一种基于分形技术的病案库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710206758.4A CN106991283B (zh) 2017-03-31 2017-03-31 一种基于分形技术的病案库构建方法

Publications (2)

Publication Number Publication Date
CN106991283A CN106991283A (zh) 2017-07-28
CN106991283B true CN106991283B (zh) 2020-07-17

Family

ID=59415926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710206758.4A Active CN106991283B (zh) 2017-03-31 2017-03-31 一种基于分形技术的病案库构建方法

Country Status (1)

Country Link
CN (1) CN106991283B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101881826A (zh) * 2009-05-06 2010-11-10 中国人民解放军海军航空工程学院 扫描模式海杂波局部多重分形目标检测器
WO2012144695A1 (en) * 2011-04-20 2012-10-26 Im Co., Ltd. Prostate cancer diagnosis device using fractal dimension value
US8892388B2 (en) * 2010-09-30 2014-11-18 Schlumberger Technology Corporation Box counting enhanced modeling
CN104778481A (zh) * 2014-12-19 2015-07-15 五邑大学 一种大规模人脸模式分析样本库的构建方法和装置
CN105824937A (zh) * 2016-03-17 2016-08-03 合肥工业大学 一种基于二进制萤火虫算法的属性选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101881826A (zh) * 2009-05-06 2010-11-10 中国人民解放军海军航空工程学院 扫描模式海杂波局部多重分形目标检测器
US8892388B2 (en) * 2010-09-30 2014-11-18 Schlumberger Technology Corporation Box counting enhanced modeling
WO2012144695A1 (en) * 2011-04-20 2012-10-26 Im Co., Ltd. Prostate cancer diagnosis device using fractal dimension value
CN104778481A (zh) * 2014-12-19 2015-07-15 五邑大学 一种大规模人脸模式分析样本库的构建方法和装置
CN105824937A (zh) * 2016-03-17 2016-08-03 合肥工业大学 一种基于二进制萤火虫算法的属性选择方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
两阶段无监督顺序前向分形属性规约算法;闫光辉,李战怀;《计算机研究与发展》;20081231;第45卷(第11期);全文 *
分形技术在案例库维护中的应用;倪志伟 等;《计算机应用》;20090630;第29卷(第6期);引言、第1-4节 *
基于分形理论的一种新的机器学习方法:分形学习;倪志伟 等;《中国科学技术大学学报》;20130430;第43卷(第4期);全文 *
基于分形维数的属性约简;郭平 等;《计算机科学》;20071231;第34卷(第9期);全文 *
基于分形维数的数据挖掘技术研究综述;倪丽萍 等;《计算机科学》;20081231;第35卷(第1期);第2-3节 *

Also Published As

Publication number Publication date
CN106991283A (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
Sussman et al. A consistent adjacency spectral embedding for stochastic blockmodel graphs
US10073906B2 (en) Scalable tri-point arbitration and clustering
CN107292097B (zh) 基于特征组的中医主症选择方法
Deng et al. An improved fuzzy clustering method for text mining
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
Ding et al. A Hybrid Feature Selection Algorithm Based on Information Gain and Sequential Forward Floating Search①
Genender-Feltheimer Visualizing high dimensional and big data
Shim et al. Active cluster annotation for wafer map pattern classification in semiconductor manufacturing
CN114067915A (zh) 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法
Bruzzese et al. DESPOTA: DEndrogram slicing through a pemutation test approach
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
Song et al. Latent semantic analysis for vector space expansion and fuzzy logic-based genetic clustering
De Araujo et al. Automatic cluster labeling based on phylogram analysis
CN106991283B (zh) 一种基于分形技术的病案库构建方法
CN108664548B (zh) 一种退化条件下的网络访问行为特征群体动态挖掘方法及系统
Melnykov et al. Recent developments in model-based clustering with applications
Kumar et al. A new Initial Centroid finding Method based on Dissimilarity Tree for K-means Algorithm
Ramkumar et al. An effective analysis of data clustering using distance-based K-means Algorithm
CN114118299A (zh) 一种结合相似性度量和社区发现的聚类方法
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
Umale et al. Overview of k-means and expectation maximization algorithm for document clustering
Morvan et al. Graph sketching-based space-efficient data clustering
Feng et al. A genetic k-means clustering algorithm based on the optimized initial centers
Fu et al. A Near-Duplicate Video Cleaning Method Based on AFENet Adaptive Clustering
CN117435580B (zh) 一种数据库参数筛选方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant