CN112233742B - 一种基于聚类的病历文档分类系统、设备、存储介质 - Google Patents
一种基于聚类的病历文档分类系统、设备、存储介质 Download PDFInfo
- Publication number
- CN112233742B CN112233742B CN202011063653.6A CN202011063653A CN112233742B CN 112233742 B CN112233742 B CN 112233742B CN 202011063653 A CN202011063653 A CN 202011063653A CN 112233742 B CN112233742 B CN 112233742B
- Authority
- CN
- China
- Prior art keywords
- clustering
- cluster
- document
- module
- medical record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 8
- 238000010845 search algorithm Methods 0.000 claims description 6
- 239000002245 particle Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 8
- 201000010099 disease Diseases 0.000 description 23
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 23
- 208000032843 Hemorrhage Diseases 0.000 description 13
- 208000024891 symptom Diseases 0.000 description 12
- 208000034158 bleeding Diseases 0.000 description 8
- 230000000740 bleeding effect Effects 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 208000031969 Eye Hemorrhage Diseases 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009885 systemic effect Effects 0.000 description 2
- 230000008733 trauma Effects 0.000 description 2
- 206010003210 Arteriosclerosis Diseases 0.000 description 1
- 206010010741 Conjunctivitis Diseases 0.000 description 1
- 208000003164 Diplopia Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 206010034960 Photophobia Diseases 0.000 description 1
- 208000003251 Pruritus Diseases 0.000 description 1
- 206010064930 age-related macular degeneration Diseases 0.000 description 1
- 208000011775 arteriosclerosis disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000029444 double vision Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004402 high myopia Effects 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 201000004614 iritis Diseases 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于聚类的病历文档分类系统、设备、存储介质,所述系统包括:预处理模块:获取多个电子病历文档作为样本集,对样本集中的样本进行向量化表示;初始化模块:用于采用密度聚类方法对向量化表示的样本集进行初步聚类;样本聚类模块:用于采用改进的乌鸦搜索算法优化所述初步聚类结果,得到最终聚类结果;文档分类模块:用于确定向量化表示的待分类文档所属的聚类类簇,在所属的聚类类簇内部通过语义相似度进行待分类文档分类。本发明基于聚类和细分分类可兼顾全局统筹分析与局部差异分析,实现病历文档准确分类。
Description
技术领域
本发明涉及文档分类技术领域,具体涉及一种基于聚类的病历文档分类系统、设备、存储介质。
背景技术
随着医疗行业人工智能技术的发展,产生了大量文档数据,通过对这些文本数据的分析处理,可获得其中中蕴含的大量有益信息。比如在医疗行业中,各类病历记录、处方记录、诊断记录都实现了电子化,分过分析医疗行业文本数据,可进一步提高智能化水平,为公众健康提供助力。对于海量的文本数据,对其进行聚类分析是文本数据分析中的一项重要内容,海量的电子病历记录组成了庞大的病历库,对这些电子病历进行分析处理可反过来为疾病的智能化辅助诊断与分析提供依据。
由于同一疾病不同人群的症状、检查结果不一定相同,不同疾病的症状或者检查结果又存在一定的相似性,现有的疾病筛查方式很难区分个体差异及不同疾病之间症状的相似性,因而影响准确的判断。
发明内容
有鉴于此,本发明提出了一种基于聚类的病历文档分类系统、设备、存储介质,用于解决现有的病例分类方式很难区分个体差异及不同疾病之间症状的相似性的问题。
本发明第一方面,公开一种基于聚类的病历文档分类系统,所述系统包括:
预处理模块:获取多个电子病历文档作为样本集,对样本集中的样本进行向量化表示;
初始化模块:用于采用密度聚类方法对向量化表示的样本集进行初步聚类;
样本聚类模块:用于采用改进的乌鸦搜索算法优化所述初步聚类结果,得到最终聚类结果;
文档分类模块:用于确定向量化表示的待分类文档所属的聚类类簇,在所属的聚类类簇内部通过语义相似度进行待分类文档分类。
优选的,所述初始化模块具体用于:
计算向量化表示的样本向量之间的欧氏距离并初始化截断距离;
计算样本的局部密度ρi和距离偏量δi,计算两者乘积γi=ρiδi;
将γi降序排列,选取前K个点作为各个类簇中心,K为聚类类别数。
优选的,所述样本聚类模块中,所述采用改进的乌鸦搜索算法优化所述初步聚类结果具体为:
初始化种群数量N、最大迭代次数T、飞行距离l、感知概率P;初始化种群位置Xi和记忆;
设置适应度函数,计算种群中各个个体的适应度;
更新种群位置:
更新种群位置:
其中,xi,t+1为第i只乌鸦第t+1次迭代时的位置,xi,t为第i只乌鸦第t次迭代时的位置,xs,t、xh,t为从第t次迭代中随机挑选的位置,w1、w2为权重,mj,t为第t次迭代时第j只乌鸦的藏食位置;lgsig(·)为对数sigmoid传递函数,且ri、rj均为[0,1]之间均匀分布的随机数,Pj,t表示乌鸦j在第t次迭代后的感知概率;R(0,1)为0~1之间的随机数,N(0,1)d为D维标准正态分布;
检测每只乌鸦的新位置的可行性,重新计算各个个体的适应度;
如果个体新位置的适应度函数值比记忆位置的适应度值更好,通过新的位置更新记忆;
重新更新种群位置,迭代运算直至收敛,得到的个体最优位置即为聚类中心点向量。
优选的,所述所述样本聚类模块中,个体i在第t次迭代时的飞行距离li,t根据局部密度ρi和距离偏量δi的乘积γi,t动态调整:
a为常数。
优选的,所述适应度函数为类内距离值和最小,即:
其中K为聚类类簇数,d(Xi,Cj)为第j类中粒子Xi到个对应的聚类中心点Cj的距离。
优选的,所述文档分类模块具体用于:
对待分类文档进行向量化表示,计算向量化表示的待分类文档与样本聚类模块确定的各个聚类中心点之间的欧式距离,选取欧氏距离最小的聚类类簇;
计算向量化的待分类文档与所属的聚类类簇中各个文本特征向量之间的余弦相似度,选取余弦相似度最大的样本对应的类别作为待分类文档类别。
本发明第二方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如本发明第一方面所述的系统。
本发明第三方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明第一方面所述的系统。
本发明相对于现有技术具有以下有益效果:
1)本发明基于电子病历库,可以实现病历的准确聚类和细分分类,在聚类时,采用改进的乌鸦搜索算法来优化密度聚类,基于感知概率,分情况进行位置更新:基于乌鸦搜索算法进行快速局部寻优;结合头脑风暴算法的思想,随机融合两个个体位置并添加随机扰动,进行全局寻优。本发明在乌鸦算法快速寻找局部最优解的基础上结合头脑风暴算法全局寻优的优势,有效提升算法整体优化能力,实现快速、准确的样本聚类;在分类时,基于待分类病历所述类簇在类簇内部进行病历细分,可实现基于病历级别的辅助诊断。
2)本发明通过聚类来分析不同病历或不同疾病之间的相似性,将症状或者专业检测结果存在一定相似性的病历或疾病聚为一类;同时在聚类类簇内部通过语义相似度计算来进行病历或疾病细分,消除个体差异的影响;本发明基于聚类和细分分类可实现全局统筹分析与局部差异分析的兼顾,为医疗文档数据分析或疾病辅助诊断提供可靠基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于聚类的病历文档分类系统结构示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,本发明提出的一种基于聚类的病历文档分类系统结构示意图,所述系统包括:预处理模块1、初始化模块2、样本聚类模块3、文档分类模块4;
预处理模块1,用于获取多个电子病历文档作为样本集,对样本集中的样本进行向量化表示;
初始化模块2,用于采用密度聚类方法对向量化表示的样本集进行初步聚类,具体用于:
计算向量化表示的样本向量之间的欧氏距离并初始化截断距离;
计算样本的局部密度ρi和距离偏量δi,计算两者乘积γi=ρiδi;
将γi降序排列,选取前K个点作为各个类簇中心,K为聚类类别数。
样本聚类模块3,用于采用改进的乌鸦搜索算法优化所述初步聚类结果,得到最终聚类结果;
所述采用改进的乌鸦搜索算法优化所述初步聚类结果具体为:
设定种群数量N、最大迭代次数T、个体维度n、飞行距离l、感知概率P;初始化种群位置和记忆;
设置适应度函数,计算种群中各个个体的适应度;所述适应度函数为类内距离值和最小,即:
其中K为聚类类簇数,d(Xi,Cj)为第j类中粒子Xi到个对应的聚类中心点Cj的距离。
更新种群位置:
其中,xi,t+1为第i只乌鸦第t+1次迭代时的位置,xi,t为第i只乌鸦第t次迭代时的位置,xs,t、xh,t为从第t次迭代中随机挑选的位置,w1、w2为权重,mj,t为第t次迭代时第j只乌鸦的藏食位置;lgsig(·)为对数sigmoid传递函数,且ri、rj均为[0,1]之间均匀分布的随机数,Pj,t表示乌鸦j在第t次迭代后的感知概率;R(0,1)为0~1之间的随机数,N(0,1)d为D维标准正态分布;
li,t为个体i在第t次迭代时的飞行距离,li,t根据个体i的局部密度ρi和距离偏量δi的乘积γi,t动态调整:
a为常数。
在迭代的过程中,计算个体i的局部密度ρi和距离偏量δi的乘积γi,由于γi越大表示越接近聚类中心,因此在越接近聚类中心时,调整飞行距离使飞行距离越来越小,防止飞行距离过大错过最优点。
检测每只乌鸦的新位置的可行性,重新计算各个个体的适应度;
如果个体新位置的适应度函数值比记忆位置的适应度值更好,通过新的位置更新记忆;
重新更新种群位置,迭代运算直至收敛,得到的个体最优位置即为聚类中心点向量。
本发明采用改进的乌鸦搜索算法来优化密度聚类,基于感知概率,分情况进行位置更新:如果乌鸦j不知道被乌鸦i跟踪(rj≥Pj,t),乌鸦i跟随乌鸦j寻找藏食,进行快速局部寻优;如果乌鸦j知道被乌鸦i跟踪(rj<Pj,t),乌鸦j会随机进入搜索空间的位置来愚弄乌鸦i,本发明在随机进入搜索空间时结合头脑风暴算法的思想,随机融合两个个体位置并添加随机扰动,进行全局寻优。本发明在乌鸦算法快速寻找局部最优解的基础上结合头脑风暴算法全局寻优的优势,有效提升算法整体优化能力,实现快速、准确的样本聚类。
文档分类模块4,用于确定向量化表示的待分类文档所属的聚类类簇,在所属的聚类类簇内部通过语义相似度进行待分类文档分类。所述文档分类模块具体用于:
对待分类文档进行向量化表示,计算向量化表示的待分类文档与样本聚类模块确定的各个聚类中心点之间的欧式距离,选取欧氏距离最小的聚类类簇;
计算向量化的待分类文档与所属的聚类类簇中各个文本特征向量之间的余弦相似度,选取余弦相似度最大的样本对应的类别作为待分类文档类别。
本发明基于电子病历库,可以实现病历的准确聚类和细分分类,以眼出血为例,眼出血为常见疾病。眼部出血可为眼局部病变,亦可为全身疾病在眼部的表现,眼部出血(包括眼外、内出血即眼底和眼表出血),原因不外是由外伤或病理性所造成,而病理性者则往往与全身性疾病因素有关。因出血部位和性质不同,可出现视力障碍、复视、疼痛、羞明等不同症状。最常见的眼表出血为眼部炎症,如结膜炎、虹膜炎、眼外伤等所致。而自发的出血多见于老年人,特别是有高血压、糖尿病、动脉硬化等基础病的老年患者;眼底出血指眼内视网膜(眼睛最深处、最底部的地方)出血,或玻璃体内出血。此现象只靠肉眼是看不到的,早期可能不红、不痛、不痒,需通过专业的眼底检查才可看到,相比眼表出血危险性更大。四类人群谨防眼底出血:即糖尿病、高血压、高度近视、老年黄斑变性等眼底出血的高危人群。
从病历库中获取以眼出血为主诉症状的电子病历文档,所述电子电子病历文档中可以包括病人描述症状、检测指标、专业的眼底检查结果、疾病诊断结果等等,对各个电子病历文档采用TF-IDF进行向量化表示,构成向量化样本集;通过所述初始化模块对样本集初步聚类,通过所述样本聚类模块优化聚类效果,最后对待分类病历文档进行向量化和聚类类簇判断,在聚类类簇内部再通过与语义相似度进行细分类别,得到对应的疾病名称。
由于同一疾病不同人群的症状、检查结果不一定相同,不同疾病的症状或者检查结果又存在一定的相似性,现有的疾病筛查方式很难区分个体差异及不同疾病之间症状的相似性,因而影响准确的判断。本发明通过聚类来分析不同病历或不同疾病之间的相似性,将症状或者专业检测结果存在一定相似性的病历或疾病聚为一类,同时在聚类类簇内部通过语义相似度计算来进行病历或疾病细分,消除个体差异的影响,本发明基于聚类和细分分类可实现全局统筹分析与局部差异分析的兼顾,为医疗文档数据分析或疾病辅助诊断提供可靠基础。
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明预处理模块、初始化模块、样本聚类模块、文档分类模块所构成的系统。所述存储介质包括:U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明预处理模块、初始化模块、样本聚类模块、文档分类模块所构成的系统。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于聚类的病历文档分类系统,其特征在于,所述系统包括:
预处理模块:获取多个电子病历文档作为样本集,对样本集中的样本进行向量化表示;
初始化模块:用于采用密度聚类方法对向量化表示的样本集进行初步聚类;
样本聚类模块:用于采用改进的乌鸦搜索算法优化所述初步聚类结果,得到最终聚类结果;所述采用改进的乌鸦搜索算法优化所述初步聚类结果具体为:
初始化种群数量N、最大迭代次数T、飞行距离l、感知概率P;初始化种群位置Xi和记忆;
设置适应度函数,计算种群中各个个体的适应度;
更新种群位置:
其中,xi,t+1为第i只乌鸦第t+1次迭代时的位置,xi,t为第i只乌鸦第t次迭代时的位置,xs,t、xh,t为从第t次迭代中随机挑选的位置,w1、w2为权重,mj,t为第t次迭代时第j只乌鸦的藏食位置;lgsig(·)为对数sigmoid传递函数,且ri、rj均为[0,1]之间均匀分布的随机数,Pj,t表示乌鸦j在第t次迭代后的感知概率;R(0,1)为0~1之间的随机数,N(0,1)d为D维标准正态分布;
检测每只乌鸦的新位置的可行性,重新计算各个个体的适应度;
如果个体新位置的适应度函数值比记忆位置的适应度值更好,通过新的位置更新记忆;
重新更新种群位置,迭代运算直至收敛,得到的个体最优位置即为聚类中心点向量;
文档分类模块:用于确定向量化表示的待分类文档所属的聚类类簇,在所属的聚类类簇内部通过语义相似度进行待分类文档分类。
2.根据权利要求1所述基于聚类的病历文档分类系统,其特征在于,所述初始化模块具体用于:
计算向量化表示的样本向量之间的欧氏距离并初始化截断距离;
计算样本的局部密度ρi和距离偏量δi,计算两者乘积γi=ρiδi;
将γi降序排列,选取前K个点作为各个类簇中心,K为聚类类别数。
3.根据权利要求2所述基于聚类的病历文档分类系统,其特征在于,所述样本聚类模块中,个体i在第t次迭代时的飞行距离li,t根据局部密度ρi和距离偏量δi的乘积γi,t动态调整:
4.根据权利要求1所述基于聚类的病历文档分类系统,其特征在于,所述适应度函数为类内距离值和最小,即:
其中K为聚类类簇数,d(Xi,Cj)为第j个聚类类簇中粒子Xi到对应的聚类中心点Cj的距离。
5.根据权利要求2所述基于聚类的病历文档分类系统,其特征在于,所述文档分类模块具体用于:
对待分类文档进行向量化表示,计算向量化表示的待分类文档与样本聚类模块确定的各个聚类中心点之间的欧式距离,选取欧氏距离最小的聚类类簇;
计算向量化的待分类文档与所属的聚类类簇中各个文本特征向量之间的余弦相似度,选取余弦相似度最大的样本对应的类别作为待分类文档类别。
6.一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求1~5任一项所述的系统。
7.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现权利要求1~5任一项所述的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063653.6A CN112233742B (zh) | 2020-09-30 | 2020-09-30 | 一种基于聚类的病历文档分类系统、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063653.6A CN112233742B (zh) | 2020-09-30 | 2020-09-30 | 一种基于聚类的病历文档分类系统、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112233742A CN112233742A (zh) | 2021-01-15 |
CN112233742B true CN112233742B (zh) | 2024-02-23 |
Family
ID=74121057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011063653.6A Active CN112233742B (zh) | 2020-09-30 | 2020-09-30 | 一种基于聚类的病历文档分类系统、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233742B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113031877B (zh) * | 2021-04-12 | 2024-03-08 | 中国移动通信集团陕西有限公司 | 数据存储方法、装置、设备及介质 |
CN113990514A (zh) * | 2021-10-28 | 2022-01-28 | 平安医疗健康管理股份有限公司 | 医师诊疗行为的异常检测装置、计算机设备及存储介质 |
CN117789907B (zh) * | 2024-02-28 | 2024-05-10 | 山东金卫软件技术有限公司 | 基于多源数据融合的智慧医疗数据智能管理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080050226A (ko) * | 2006-12-01 | 2008-06-05 | 한국전자통신연구원 | 모듈러 곱셈 장치 및 설계 방법 |
CN107480426A (zh) * | 2017-07-20 | 2017-12-15 | 广州慧扬健康科技有限公司 | 自迭代病历档案聚类分析系统 |
CN109190023A (zh) * | 2018-08-15 | 2019-01-11 | 深圳信息职业技术学院 | 协同推荐的方法、装置及终端设备 |
CN109242002A (zh) * | 2018-08-10 | 2019-01-18 | 深圳信息职业技术学院 | 高维数据分类方法、装置及终端设备 |
US10540381B1 (en) * | 2019-08-09 | 2020-01-21 | Capital One Services, Llc | Techniques and components to find new instances of text documents and identify known response templates |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1785696B1 (en) * | 2005-11-09 | 2011-10-05 | Harman Becker Automotive Systems GmbH | Optimum route determination with tilings |
CN109933881A (zh) * | 2019-03-06 | 2019-06-25 | 武汉大学 | 一种基于优化深度信念网络的电力电子电路故障诊断方法 |
-
2020
- 2020-09-30 CN CN202011063653.6A patent/CN112233742B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080050226A (ko) * | 2006-12-01 | 2008-06-05 | 한국전자통신연구원 | 모듈러 곱셈 장치 및 설계 방법 |
CN107480426A (zh) * | 2017-07-20 | 2017-12-15 | 广州慧扬健康科技有限公司 | 自迭代病历档案聚类分析系统 |
CN109242002A (zh) * | 2018-08-10 | 2019-01-18 | 深圳信息职业技术学院 | 高维数据分类方法、装置及终端设备 |
CN109190023A (zh) * | 2018-08-15 | 2019-01-11 | 深圳信息职业技术学院 | 协同推荐的方法、装置及终端设备 |
US10540381B1 (en) * | 2019-08-09 | 2020-01-21 | Capital One Services, Llc | Techniques and components to find new instances of text documents and identify known response templates |
Non-Patent Citations (2)
Title |
---|
"基于乌鸦搜索算法的新型特征选择算法";王颖,等;《吉林大学学报(理学版)》;第57卷(第4期);869-874 * |
Gupta, Deepak,et al.."Improved diagnosis of Parkinson's disease using optimized crow search algorithm".《COMPUTERS & ELECTRICAL ENGINEERING》.2018,第68卷412-424. * |
Also Published As
Publication number | Publication date |
---|---|
CN112233742A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Diaz-Pinto et al. | CNNs for automatic glaucoma assessment using fundus images: an extensive validation | |
CN112233742B (zh) | 一种基于聚类的病历文档分类系统、设备、存储介质 | |
CN112766379B (zh) | 一种基于深度学习多权重损失函数的数据均衡方法 | |
CN109410204B (zh) | 一种基于cam的皮质白内障图像处理及增强方法 | |
Islam et al. | Automated diabetic retinopathy detection using bag of words approach | |
CN111009321A (zh) | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 | |
Mahapatra et al. | A novel framework for retinal vessel segmentation using optimal improved frangi filter and adaptive weighted spatial FCM | |
Usman et al. | Intelligent automated detection of microaneurysms in fundus images using feature-set tuning | |
CN107169284A (zh) | 一种生物医学关键属性选择方法 | |
CN111000553A (zh) | 一种基于投票集成学习的心电数据智能分类方法 | |
Vij et al. | A novel deep transfer learning based computerized diagnostic Systems for Multi-class imbalanced diabetic retinopathy severity classification | |
Yang et al. | Discriminative dictionary learning for retinal vessel segmentation using fusion of multiple features | |
CN114469120B (zh) | 一种基于相似度阈值迁移的多尺度Dtw-BiLstm-Gan心电信号生成方法 | |
Akyol et al. | Diabetes mellitus data classification by cascading of feature selection methods and ensemble learning algorithms | |
Afzali et al. | An effective sample preparation method for diabetes prediction. | |
van Grinsven et al. | A bag of words approach for discriminating between retinal images containing exudates or drusen | |
Kabir et al. | Multi-classification based Alzheimer's disease detection with comparative analysis from brain MRI scans using deep learning | |
CN113012148A (zh) | 一种基于眼底影像的糖尿病肾病-非糖尿病肾病鉴别诊断装置 | |
CN111816298A (zh) | 事件预测方法及其装置、存储介质、终端、云服务系统 | |
CN116821820A (zh) | 一种虚假交易识别方法、装置、电子设备及存储介质 | |
Yang et al. | Fuzzy Gaussian Lasso clustering with application to cancer data | |
Veras et al. | SURF descriptor and pattern recognition techniques in automatic identification of pathological retinas | |
Rayen et al. | An efficient mammogram image retrieval system using an optimized classifier | |
Belhadi et al. | Automated retinal vessel segmentation using entropic thresholding based spatial correlation histogram of gray level images | |
Jabbar et al. | Liver fibrosis processing, multiclassification, and diagnosis based on hybrid machine learning approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |