CN112233742A - 一种基于聚类的病历文档分类系统、设备、存储介质 - Google Patents

一种基于聚类的病历文档分类系统、设备、存储介质 Download PDF

Info

Publication number
CN112233742A
CN112233742A CN202011063653.6A CN202011063653A CN112233742A CN 112233742 A CN112233742 A CN 112233742A CN 202011063653 A CN202011063653 A CN 202011063653A CN 112233742 A CN112233742 A CN 112233742A
Authority
CN
China
Prior art keywords
clustering
cluster
module
medical record
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011063653.6A
Other languages
English (en)
Other versions
CN112233742B (zh
Inventor
杜登斌
杜乐
杜小军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuzheng Intelligent Technology Beijing Co ltd
Original Assignee
Wuzheng Intelligent Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuzheng Intelligent Technology Beijing Co ltd filed Critical Wuzheng Intelligent Technology Beijing Co ltd
Priority to CN202011063653.6A priority Critical patent/CN112233742B/zh
Publication of CN112233742A publication Critical patent/CN112233742A/zh
Application granted granted Critical
Publication of CN112233742B publication Critical patent/CN112233742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于聚类的病历文档分类系统、设备、存储介质,所述系统包括:预处理模块:获取多个电子病历文档作为样本集,对样本集中的样本进行向量化表示;初始化模块:用于采用密度聚类方法对向量化表示的样本集进行初步聚类;样本聚类模块:用于采用改进的乌鸦搜索算法优化所述初步聚类结果,得到最终聚类结果;文档分类模块:用于确定向量化表示的待分类文档所属的聚类类簇,在所属的聚类类簇内部通过语义相似度进行待分类文档分类。本发明基于聚类和细分分类可兼顾全局统筹分析与局部差异分析,实现病历文档准确分类。

Description

一种基于聚类的病历文档分类系统、设备、存储介质
技术领域
本发明涉及文档分类技术领域,具体涉及一种基于聚类的病历文档分类系统、设备、存储介质。
背景技术
随着医疗行业人工智能技术的发展,产生了大量文档数据,通过对这些文本数据的分析处理,可获得其中中蕴含的大量有益信息。比如在医疗行业中,各类病历记录、处方记录、诊断记录都实现了电子化,分过分析医疗行业文本数据,可进一步提高智能化水平,为公众健康提供助力。对于海量的文本数据,对其进行聚类分析是文本数据分析中的一项重要内容,海量的电子病历记录组成了庞大的病历库,对这些电子病历进行分析处理可反过来为疾病的智能化辅助诊断与分析提供依据。
由于同一疾病不同人群的症状、检查结果不一定相同,不同疾病的症状或者检查结果又存在一定的相似性,现有的疾病筛查方式很难区分个体差异及不同疾病之间症状的相似性,因而影响准确的判断。
发明内容
有鉴于此,本发明提出了一种基于聚类的病历文档分类系统、设备、存储介质,用于解决现有的病例分类方式很难区分个体差异及不同疾病之间症状的相似性的问题。
本发明第一方面,公开一种基于聚类的病历文档分类系统,所述系统包括:
预处理模块:获取多个电子病历文档作为样本集,对样本集中的样本进行向量化表示;
初始化模块:用于采用密度聚类方法对向量化表示的样本集进行初步聚类;
样本聚类模块:用于采用改进的乌鸦搜索算法优化所述初步聚类结果,得到最终聚类结果;
文档分类模块:用于确定向量化表示的待分类文档所属的聚类类簇,在所属的聚类类簇内部通过语义相似度进行待分类文档分类。
优选的,所述初始化模块具体用于:
计算向量化表示的样本向量之间的欧氏距离并初始化截断距离;
计算样本的局部密度ρi和距离偏量δi,计算两者乘积γi=ρiδi
将γi降序排列,选取前K个点作为各个类簇中心,K为聚类类别数。
优选的,所述样本聚类模块中,所述采用改进的乌鸦搜索算法优化所述初步聚类结果具体为:
初始化种群数量N、最大迭代次数T、飞行距离l、感知概率P;初始化种群位置Xi和记忆;
设置适应度函数,计算种群中各个个体的适应度;
更新种群位置:
更新种群位置:
Figure BDA0002713118740000021
其中,xi,t+1为第i只乌鸦第t+1次迭代时的位置,xi,t为第i只乌鸦第t次迭代时的位置,xs,t、xh,t为从第t次迭代中随机挑选的位置,w1、w2为权重,mj,t为第t次迭代时第j只乌鸦的藏食位置;lgsig(·)为对数sigmoid传递函数,且
Figure BDA0002713118740000022
ri、rj均为[0,1]之间均匀分布的随机数,Pj,t表示乌鸦j在第t次迭代后的感知概率;R(0,1)为0~1之间的随机数,N(0,1)d为D维标准正态分布;
检测每只乌鸦的新位置的可行性,重新计算各个个体的适应度;
如果个体新位置的适应度函数值比记忆位置的适应度值更好,通过新的位置更新记忆;
重新更新种群位置,迭代运算直至收敛,得到的个体最优位置即为聚类中心点向量。
优选的,所述所述样本聚类模块中,个体i在第t次迭代时的飞行距离li,t根据局部密度ρi和距离偏量δi的乘积γi,t动态调整:
Figure BDA0002713118740000031
a为常数。
优选的,所述适应度函数为类内距离值和最小,即:
Figure BDA0002713118740000032
其中K为聚类类簇数,d(Xi,Cj)为第j类中粒子Xi到个对应的聚类中心点Cj的距离。
优选的,所述文档分类模块具体用于:
对待分类文档进行向量化表示,计算向量化表示的待分类文档与样本聚类模块确定的各个聚类中心点之间的欧式距离,选取欧氏距离最小的聚类类簇;
计算向量化的待分类文档与所属的聚类类簇中各个文本特征向量之间的余弦相似度,选取余弦相似度最大的样本对应的类别作为待分类文档类别。
本发明第二方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如本发明第一方面所述的系统。
本发明第三方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明第一方面所述的系统。
本发明相对于现有技术具有以下有益效果:
1)本发明基于电子病历库,可以实现病历的准确聚类和细分分类,在聚类时,采用改进的乌鸦搜索算法来优化密度聚类,基于感知概率,分情况进行位置更新:基于乌鸦搜索算法进行快速局部寻优;结合头脑风暴算法的思想,随机融合两个个体位置并添加随机扰动,进行全局寻优。本发明在乌鸦算法快速寻找局部最优解的基础上结合头脑风暴算法全局寻优的优势,有效提升算法整体优化能力,实现快速、准确的样本聚类;在分类时,基于待分类病历所述类簇在类簇内部进行病历细分,可实现基于病历级别的辅助诊断。
2)本发明通过聚类来分析不同病历或不同疾病之间的相似性,将症状或者专业检测结果存在一定相似性的病历或疾病聚为一类;同时在聚类类簇内部通过语义相似度计算来进行病历或疾病细分,消除个体差异的影响;本发明基于聚类和细分分类可实现全局统筹分析与局部差异分析的兼顾,为医疗文档数据分析或疾病辅助诊断提供可靠基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于聚类的病历文档分类系统结构示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,本发明提出的一种基于聚类的病历文档分类系统结构示意图,所述系统包括:预处理模块1、初始化模块2、样本聚类模块3、文档分类模块4;
预处理模块1,用于获取多个电子病历文档作为样本集,对样本集中的样本进行向量化表示;
初始化模块2,用于采用密度聚类方法对向量化表示的样本集进行初步聚类,具体用于:
计算向量化表示的样本向量之间的欧氏距离并初始化截断距离;
计算样本的局部密度ρi和距离偏量δi,计算两者乘积γi=ρiδi
将γi降序排列,选取前K个点作为各个类簇中心,K为聚类类别数。
样本聚类模块3,用于采用改进的乌鸦搜索算法优化所述初步聚类结果,得到最终聚类结果;
所述采用改进的乌鸦搜索算法优化所述初步聚类结果具体为:
设定种群数量N、最大迭代次数T、个体维度n、飞行距离l、感知概率P;初始化种群位置
Figure BDA0002713118740000053
和记忆;
设置适应度函数,计算种群中各个个体的适应度;所述适应度函数为类内距离值和最小,即:
Figure BDA0002713118740000051
其中K为聚类类簇数,d(Xi,Cj)为第j类中粒子Xi到个对应的聚类中心点Cj的距离。
更新种群位置:
Figure BDA0002713118740000052
其中,xi,t+1为第i只乌鸦第t+1次迭代时的位置,xi,t为第i只乌鸦第t次迭代时的位置,xs,t、xh,t为从第t次迭代中随机挑选的位置,w1、w2为权重,mj,t为第t次迭代时第j只乌鸦的藏食位置;lgsig(·)为对数sigmoid传递函数,且
Figure BDA0002713118740000061
ri、rj均为[0,1]之间均匀分布的随机数,Pj,t表示乌鸦j在第t次迭代后的感知概率;R(0,1)为0~1之间的随机数,N(0,1)d为D维标准正态分布;
li,t为个体i在第t次迭代时的飞行距离,li,t根据个体i的局部密度ρi和距离偏量δi的乘积γi,t动态调整:
Figure BDA0002713118740000062
a为常数。
在迭代的过程中,计算个体i的局部密度ρi和距离偏量δi的乘积γi,由于γi越大表示越接近聚类中心,因此在越接近聚类中心时,调整飞行距离使飞行距离越来越小,防止飞行距离过大错过最优点。
检测每只乌鸦的新位置的可行性,重新计算各个个体的适应度;
如果个体新位置的适应度函数值比记忆位置的适应度值更好,通过新的位置更新记忆;
重新更新种群位置,迭代运算直至收敛,得到的个体最优位置即为聚类中心点向量。
本发明采用改进的乌鸦搜索算法来优化密度聚类,基于感知概率,分情况进行位置更新:如果乌鸦j不知道被乌鸦i跟踪(rj≥Pj,t),乌鸦i跟随乌鸦j寻找藏食,进行快速局部寻优;如果乌鸦j知道被乌鸦i跟踪(rj<Pj,t),乌鸦j会随机进入搜索空间的位置来愚弄乌鸦i,本发明在随机进入搜索空间时结合头脑风暴算法的思想,随机融合两个个体位置并添加随机扰动,进行全局寻优。本发明在乌鸦算法快速寻找局部最优解的基础上结合头脑风暴算法全局寻优的优势,有效提升算法整体优化能力,实现快速、准确的样本聚类。
文档分类模块4,用于确定向量化表示的待分类文档所属的聚类类簇,在所属的聚类类簇内部通过语义相似度进行待分类文档分类。所述文档分类模块具体用于:
对待分类文档进行向量化表示,计算向量化表示的待分类文档与样本聚类模块确定的各个聚类中心点之间的欧式距离,选取欧氏距离最小的聚类类簇;
计算向量化的待分类文档与所属的聚类类簇中各个文本特征向量之间的余弦相似度,选取余弦相似度最大的样本对应的类别作为待分类文档类别。
本发明基于电子病历库,可以实现病历的准确聚类和细分分类,以眼出血为例,眼出血为常见疾病。眼部出血可为眼局部病变,亦可为全身疾病在眼部的表现,眼部出血(包括眼外、内出血即眼底和眼表出血),原因不外是由外伤或病理性所造成,而病理性者则往往与全身性疾病因素有关。因出血部位和性质不同,可出现视力障碍、复视、疼痛、羞明等不同症状。最常见的眼表出血为眼部炎症,如结膜炎、虹膜炎、眼外伤等所致。而自发的出血多见于老年人,特别是有高血压、糖尿病、动脉硬化等基础病的老年患者;眼底出血指眼内视网膜(眼睛最深处、最底部的地方)出血,或玻璃体内出血。此现象只靠肉眼是看不到的,早期可能不红、不痛、不痒,需通过专业的眼底检查才可看到,相比眼表出血危险性更大。四类人群谨防眼底出血:即糖尿病、高血压、高度近视、老年黄斑变性等眼底出血的高危人群。
从病历库中获取以眼出血为主诉症状的电子病历文档,所述电子电子病历文档中可以包括病人描述症状、检测指标、专业的眼底检查结果、疾病诊断结果等等,对各个电子病历文档采用TF-IDF进行向量化表示,构成向量化样本集;通过所述初始化模块对样本集初步聚类,通过所述样本聚类模块优化聚类效果,最后对待分类病历文档进行向量化和聚类类簇判断,在聚类类簇内部再通过与语义相似度进行细分类别,得到对应的疾病名称。
由于同一疾病不同人群的症状、检查结果不一定相同,不同疾病的症状或者检查结果又存在一定的相似性,现有的疾病筛查方式很难区分个体差异及不同疾病之间症状的相似性,因而影响准确的判断。本发明通过聚类来分析不同病历或不同疾病之间的相似性,将症状或者专业检测结果存在一定相似性的病历或疾病聚为一类,同时在聚类类簇内部通过语义相似度计算来进行病历或疾病细分,消除个体差异的影响,本发明基于聚类和细分分类可实现全局统筹分析与局部差异分析的兼顾,为医疗文档数据分析或疾病辅助诊断提供可靠基础。
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明预处理模块、初始化模块、样本聚类模块、文档分类模块所构成的系统。所述存储介质包括:U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明预处理模块、初始化模块、样本聚类模块、文档分类模块所构成的系统。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于聚类的病历文档分类系统,其特征在于,所述系统包括:
预处理模块:获取多个电子病历文档作为样本集,对样本集中的样本进行向量化表示;
初始化模块:用于采用密度聚类方法对向量化表示的样本集进行初步聚类;
样本聚类模块:用于采用改进的乌鸦搜索算法优化所述初步聚类结果,得到最终聚类结果;
文档分类模块:用于确定向量化表示的待分类文档所属的聚类类簇,在所属的聚类类簇内部通过语义相似度进行待分类文档分类。
2.根据权利要求1所述基于聚类的病历文档分类系统,其特征在于,所述初始化模块具体用于:
计算向量化表示的样本向量之间的欧氏距离并初始化截断距离;
计算样本的局部密度ρi和距离偏量δi,计算两者乘积γi=ρiδi
将γi降序排列,选取前K个点作为各个类簇中心,K为聚类类别数。
3.根据权利要求2所述基于聚类的病历文档分类系统,其特征在于,所述样本聚类模块中,所述采用改进的乌鸦搜索算法优化所述初步聚类结果具体为:
初始化种群数量N、最大迭代次数T、飞行距离l、感知概率P;初始化种群位置Xi和记忆;
设置适应度函数,计算种群中各个个体的适应度;
更新种群位置:
Figure FDA0002713118730000011
其中,xi,t+1为第i只乌鸦第t+1次迭代时的位置,xi,t为第i只乌鸦第t次迭代时的位置,xs,t、xh,t为从第t次迭代中随机挑选的位置,w1、w2为权重,mj,t为第t次迭代时第j只乌鸦的藏食位置;lgsig(·)为对数sigmoid传递函数,且
Figure FDA0002713118730000012
ri、rj均为[0,1]之间均匀分布的随机数,Pj,t表示乌鸦j在第t次迭代后的感知概率;R(0,1)为0~1之间的随机数,N(0,1)d为D维标准正态分布;
检测每只乌鸦的新位置的可行性,重新计算各个个体的适应度;
如果个体新位置的适应度函数值比记忆位置的适应度值更好,通过新的位置更新记忆;
重新更新种群位置,迭代运算直至收敛,得到的个体最优位置即为聚类中心点向量。
4.根据权利要求3所述基于聚类的病历文档分类系统,其特征在于,所述所述样本聚类模块中,个体i在第t次迭代时的飞行距离li,t根据局部密度ρi和距离偏量δi的乘积γi,t动态调整:
Figure FDA0002713118730000021
a为常数。
5.根据权利要求3所述基于聚类的病历文档分类系统,其特征在于,所述适应度函数为类内距离值和最小,即:
Figure FDA0002713118730000022
其中K为聚类类簇数,d(Xi,Cj)为第j类中粒子Xi到个对应的聚类中心点Cj的距离。
6.根据权利要求2所述基于聚类的病历文档分类系统,其特征在于,所述文档分类模块具体用于:
对待分类文档进行向量化表示,计算向量化表示的待分类文档与样本聚类模块确定的各个聚类中心点之间的欧式距离,选取欧氏距离最小的聚类类簇;
计算向量化的待分类文档与所属的聚类类簇中各个文本特征向量之间的余弦相似度,选取余弦相似度最大的样本对应的类别作为待分类文档类别。
7.一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求1~6任一项所述的系统。
8.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现权利要求1~6任一项所述的系统。
CN202011063653.6A 2020-09-30 2020-09-30 一种基于聚类的病历文档分类系统、设备、存储介质 Active CN112233742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011063653.6A CN112233742B (zh) 2020-09-30 2020-09-30 一种基于聚类的病历文档分类系统、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011063653.6A CN112233742B (zh) 2020-09-30 2020-09-30 一种基于聚类的病历文档分类系统、设备、存储介质

Publications (2)

Publication Number Publication Date
CN112233742A true CN112233742A (zh) 2021-01-15
CN112233742B CN112233742B (zh) 2024-02-23

Family

ID=74121057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011063653.6A Active CN112233742B (zh) 2020-09-30 2020-09-30 一种基于聚类的病历文档分类系统、设备、存储介质

Country Status (1)

Country Link
CN (1) CN112233742B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113031877A (zh) * 2021-04-12 2021-06-25 中国移动通信集团陕西有限公司 数据存储方法、装置、设备及介质
CN113990514A (zh) * 2021-10-28 2022-01-28 平安医疗健康管理股份有限公司 医师诊疗行为的异常检测装置、计算机设备及存储介质
CN117789907A (zh) * 2024-02-28 2024-03-29 山东金卫软件技术有限公司 基于多源数据融合的智慧医疗数据智能管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070129885A1 (en) * 2005-11-09 2007-06-07 Harald Wellmann Optimum route determination with tiling
KR20080050226A (ko) * 2006-12-01 2008-06-05 한국전자통신연구원 모듈러 곱셈 장치 및 설계 방법
CN107480426A (zh) * 2017-07-20 2017-12-15 广州慧扬健康科技有限公司 自迭代病历档案聚类分析系统
CN109190023A (zh) * 2018-08-15 2019-01-11 深圳信息职业技术学院 协同推荐的方法、装置及终端设备
CN109242002A (zh) * 2018-08-10 2019-01-18 深圳信息职业技术学院 高维数据分类方法、装置及终端设备
US10540381B1 (en) * 2019-08-09 2020-01-21 Capital One Services, Llc Techniques and components to find new instances of text documents and identify known response templates
US20200285900A1 (en) * 2019-03-06 2020-09-10 Wuhan University Power electronic circuit fault diagnosis method based on optimizing deep belief network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070129885A1 (en) * 2005-11-09 2007-06-07 Harald Wellmann Optimum route determination with tiling
KR20080050226A (ko) * 2006-12-01 2008-06-05 한국전자통신연구원 모듈러 곱셈 장치 및 설계 방법
CN107480426A (zh) * 2017-07-20 2017-12-15 广州慧扬健康科技有限公司 自迭代病历档案聚类分析系统
CN109242002A (zh) * 2018-08-10 2019-01-18 深圳信息职业技术学院 高维数据分类方法、装置及终端设备
CN109190023A (zh) * 2018-08-15 2019-01-11 深圳信息职业技术学院 协同推荐的方法、装置及终端设备
US20200285900A1 (en) * 2019-03-06 2020-09-10 Wuhan University Power electronic circuit fault diagnosis method based on optimizing deep belief network
US10540381B1 (en) * 2019-08-09 2020-01-21 Capital One Services, Llc Techniques and components to find new instances of text documents and identify known response templates

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUPTA, DEEPAK,ET AL.: ""Improved diagnosis of Parkinson\'s disease using optimized crow search algorithm"", 《COMPUTERS & ELECTRICAL ENGINEERING》, vol. 68, pages 412 - 424 *
王颖,等: ""基于乌鸦搜索算法的新型特征选择算法"", 《吉林大学学报(理学版)》, vol. 57, no. 4, pages 869 - 874 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113031877A (zh) * 2021-04-12 2021-06-25 中国移动通信集团陕西有限公司 数据存储方法、装置、设备及介质
CN113031877B (zh) * 2021-04-12 2024-03-08 中国移动通信集团陕西有限公司 数据存储方法、装置、设备及介质
CN113990514A (zh) * 2021-10-28 2022-01-28 平安医疗健康管理股份有限公司 医师诊疗行为的异常检测装置、计算机设备及存储介质
CN117789907A (zh) * 2024-02-28 2024-03-29 山东金卫软件技术有限公司 基于多源数据融合的智慧医疗数据智能管理方法
CN117789907B (zh) * 2024-02-28 2024-05-10 山东金卫软件技术有限公司 基于多源数据融合的智慧医疗数据智能管理方法

Also Published As

Publication number Publication date
CN112233742B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN108806792B (zh) 深度学习面诊系统
dos Santos Ferreira et al. Convolutional neural network and texture descriptor-based automatic detection and diagnosis of glaucoma
CN112233742B (zh) 一种基于聚类的病历文档分类系统、设备、存储介质
CN107193919A (zh) 一种电子病历的检索方法及系统
CN111000553A (zh) 一种基于投票集成学习的心电数据智能分类方法
Usman et al. Intelligent automated detection of microaneurysms in fundus images using feature-set tuning
Nuankaew et al. Average weighted objective distance-based method for type 2 diabetes prediction
Akyol et al. Diabetes mellitus data classification by cascading of feature selection methods and ensemble learning algorithms
Rudd Application of support vector machine modeling and graph theory metrics for disease classification
CN112669968A (zh) 一种疾病风险预测方法和设备
CN111986814A (zh) 一种红斑狼疮患者的狼疮性肾炎预测模型的建模方法
Kabir et al. Multi-classification based Alzheimer's disease detection with comparative analysis from brain MRI scans using deep learning
Aljehane An intelligent moth flame optimization with inception network for diabetic retinopathy detection and grading
Rathi et al. Early Prediction of Diabetes Using Machine Learning Techniques
CN113012148A (zh) 一种基于眼底影像的糖尿病肾病-非糖尿病肾病鉴别诊断装置
Dai et al. Study of cardiac arrhythmia classification based on convolutional neural network
CN112861881A (zh) 一种基于改进MobileNet模型的蜂窝肺识别方法
CN111816298A (zh) 事件预测方法及其装置、存储介质、终端、云服务系统
Baxani et al. Heart disease prediction using machine learning algorithms logistic regression, support vector machine and Random Forest Classification Techniques
Xie et al. Fused variable screening for massive imbalanced data
Veras et al. SURF descriptor and pattern recognition techniques in automatic identification of pathological retinas
Sutradhar et al. An early warning system of heart failure mortality with combined machine learning methods
Jabbar et al. Liver fibrosis processing, multiclassification, and diagnosis based on hybrid machine learning approaches
CN108446740A (zh) 一种用于脑影像病历特征提取的多层一致协同方法
Pavalarajan et al. Detection of Alzheimer's disease at Early Stage using Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant