CN116631558B - 一种基于互联网的医学检测项目的构建方法 - Google Patents

一种基于互联网的医学检测项目的构建方法 Download PDF

Info

Publication number
CN116631558B
CN116631558B CN202310610895.XA CN202310610895A CN116631558B CN 116631558 B CN116631558 B CN 116631558B CN 202310610895 A CN202310610895 A CN 202310610895A CN 116631558 B CN116631558 B CN 116631558B
Authority
CN
China
Prior art keywords
complaint
cluster
frequency
word
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310610895.XA
Other languages
English (en)
Other versions
CN116631558A (zh
Inventor
肖璇
彭锐
王少亭
何晓云
郑红云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin Hospital of Wuhan University
Original Assignee
Renmin Hospital of Wuhan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin Hospital of Wuhan University filed Critical Renmin Hospital of Wuhan University
Priority to CN202310610895.XA priority Critical patent/CN116631558B/zh
Publication of CN116631558A publication Critical patent/CN116631558A/zh
Application granted granted Critical
Publication of CN116631558B publication Critical patent/CN116631558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于互联网的医学检测项目的构建方法,包括:在目标门诊病历集中提取患者主诉词集,对每个患者主诉词语进行重复频次排序,得到患者主诉词语序列,在患者主诉词语序列中提取主诉词语聚类集,在主诉词语聚类集中提取最大聚类中心值对应的主诉词语聚类,将最大聚类中心值对应的主诉词语聚类作为标准主诉聚类,得到标准主诉聚类集,计算当前主诉词集与每一个标准主诉聚类的相似度集,根据相似度集,在准主诉聚类集中提取相似度大于相似阈值的标准主诉聚类,得到目标主诉聚类集,将目标主诉聚类集对应的医学检测项目集作为目标医学检测项目集。本发明可以解决医学检测项目的获取存在耗费人力大、精准度差的问题。

Description

一种基于互联网的医学检测项目的构建方法
技术领域
本发明涉及激光处理技术领域,尤其涉及一种基于互联网的医学检测项目的构建方法。
背景技术
医学检测项目是对人体器官或部位进行的医学测试项目,医学检测项目包含多种类别,例如:胃镜检查、血常规检查、x光检查、ct检查、MRI检查以及心电图检查等等。医学检测是诊断疾病、监测疾病进展以及健康检查的重要手段。
当前患者到医院就诊时,通常是患者向医生口述自己的病情,再由医生撰写病人主诉。医生在充分与患者进行沟通并了解基本病况后即可提出各项医学检测项目的建议。患者根据医生建议的医学检测项目再去进行身体检查。但这种方式下的医学检测项目需要医生根据自己的专业知识及从医经验进行确定,因此医学检测项目的获取存在耗费人力大、精准度差的问题。
发明内容
本发明提供一种基于互联网的医学检测项目的构建方法其主要目的在于解决医学检测项目的获取存在耗费人力大、精准度差的问题。
为实现上述目的,本发明提供的一种基于互联网的医学检测项目的构建方法,包括:
在预构建的局域互联网中提取历史门诊病历集及医学检测项目集,在所述医学检测项目集中依次提取医学检测项目;
在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历,得到目标门诊病历集,在所述目标门诊病历集中提取患者主诉词集;
获取所述患者主诉词集中每个患者主诉词语的重复频次,根据所述重复频次对所述患者主诉词集中每个患者主诉词语进行重复频次排序,得到患者主诉词语序列;
根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集,在所述主诉词语聚类集中提取最大聚类中心值对应的主诉词语聚类;
将所述最大聚类中心值对应的主诉词语聚类作为所述医学检测项目的标准主诉聚类,汇总所有医学检测项目的标准主诉聚类,得到标准主诉聚类集;
接收用户输入的当前主诉词集,利用预构建的相似度计算公式,计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,得到相似度集,所述相似度计算公式如下所示:
其中,Si表示第i个标准主诉聚类与所述当前主诉词集的相似度,a表示对数底数,Ni表示第i个标准主诉聚类的词语总数,ci表示当前主诉词集与第i个标准主诉聚类的词语重复数;
根据所述相似度集,在所述标准主诉聚类集中提取相似度大于预设相似阈值的标准主诉聚类,得到目标主诉聚类集,将所述目标主诉聚类集对应的医学检测项目集作为所述用户的目标医学检测项目集。
可选地,所述根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集,包括:
根据所述患者主诉词语序列中每个患者主诉词语的重复频次构建主诉词语频次序列;
在所述主诉词语频次序列中随机选取两个重复频次,将所述两个重复频次作为初始聚类中心组;
根据所述初始聚类中心组对所述主诉词语频次序列进行分类,得到第一初始频次聚类及第二初始频次聚类;
判断所述第一初始频次聚类及第二初始频次聚类中是否存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类;
若所述第一初始频次聚类及第二初始频次聚类中存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类,则返回上述在所述主诉词语频次序列中随机选取两个重复频次的步骤;
若所述第一初始频次聚类及第二初始频次聚类中不存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类,则根据所述第一初始频次聚类及第二初始频次聚类获取主诉词语聚类集。
可选地,所述根据所述初始聚类中心组对所述主诉词语频次序列进行分类,得到第一初始频次聚类及第二初始频次聚类,包括:
在所述主诉词语频次序列中依次提取待归类频次,判断所述待归类频次与所述初始聚类中心组中两个聚类中心的差值的大小;
若所述待归类重复频次与所述初始聚类中心组中第一个聚类中心的差值小于等于所述待归类重复频次与所述初始聚类中心组中第二个聚类中心的差值,则将所述待归类重复频次归类为第一个聚类中心;
若所述待归类重复频次与所述初始聚类中心组中第一个聚类中心的差值不小于等于所述待归类重复频次与所述初始聚类中心组中第二个聚类中心的差值,则将所述待归类重复频次归类为第二个聚类中心,直至完成主诉词语频次序列中所有待归类重复频次的归类,得到所述第一初始频次聚类及第二初始频次聚类。
可选地,所述判断所述第一初始频次聚类及第二初始频次聚类中是否存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类,包括:
分别在所述第一初始频次聚类及第二初始频次聚类中依次提取第一重复频次及第二重复频次;
依次组合所述第一重复频次及第二重复频次,得到校验聚类中心组;
根据所述校验聚类中心组对所述主诉词语频次序列进行再分类,得到第一校验频次聚类及第二校验频次聚类;
判断所述第一校验频次聚类及第二校验频次聚类分别与所述第一初始频次聚类及第二初始频次聚类是否相同;
若所述第一校验频次聚类及第二校验频次聚类不分别与所述第一初始频次聚类及第二初始频次聚类相同,则所述第一初始频次聚类及第二初始频次聚类中存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类;
若所述第一校验频次聚类及第二校验频次聚类分别与所述第一初始频次聚类及第二初始频次聚类相同,则所述第一初始频次聚类及第二初始频次聚类中不存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类。
可选地,所述根据所述第一初始频次聚类及第二初始频次聚类获取主诉词语聚类集,包括:
分别获取所述第一初始频次聚类中重复频次及第二初始频次聚类中重复频次与患者主诉词语序列的第一对应关系及第二对应关系;
根据所述第一对应关系及第二对应关系在所述患者主诉词语序列提取第一主诉词语聚类及第二主诉词语聚类,得到主诉词语聚类集。
可选地,所述在所述目标门诊病历集中提取患者主诉词集,包括:
在所述目标门诊病历集中提取患者主诉语段集;
对所述患者主诉语段集进行分词处理,得到患者主诉词集。
可选地,所述获取所述患者主诉词集中每个患者主诉词语的重复频次,包括:
根据目标门诊病历对所述患者主诉词集进行分类,得到不同患者对应的患者主诉词组集合;
根据所述患者主诉词组集合中不同患者主诉词组之间患者主诉词语的重复频次统计每个患者主诉词语的重复频次。
可选地,所述根据所述患者主诉词组集合中不同患者主诉词组之间患者主诉词语的重复频次统计每个患者主诉词语的重复频次,包括:
在所述患者主诉词组集合中随机去除一个对照主诉词组,得到待匹配主诉词组集;
在所述待匹配主诉词组集中依次提取待匹配主诉词组,统计所述待匹配主诉词组与所述对照主诉词组中每个患者主诉词语的重复频次,直至所述待匹配主诉词组集中所有待匹配主诉词组均完成统计,得到所述每个患者主诉词语的重复频次。
可选地,所述利用预构建的相似度计算公式,计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,得到相似度集,包括:
在所述标准主诉聚类集中依次提取标准主诉聚类;
获取当前主诉词集与标准主诉聚类重复的患者主诉词语个数,得到主诉词语重合度集;
获取每个标准主诉聚类的患者主诉词语总数,得到标准主诉词语数量集;
根据所述标准主诉词语数量集、主诉词语重合度集及所述相似度计算公式计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,得到相似度集。
可选地,所述在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历,得到目标门诊病历集,包括:
在所述历史门诊病历集中依次提取历史门诊病历;
在所述历史门诊病历中提取门诊检查项目集;
判断所述门诊检查项目集中是否包含所述医学检测项目;
若所述门诊检查项目集中不包含所述医学检测项目,则不将所述历史门诊病历作为目标门诊病历;
若所述门诊检查项目集中包含所述医学检测项目,则将所述历史门诊病历作为目标门诊病历;
汇总所有目标门诊病历,得到所述目标门诊病历集。
本发明实施例为解决背景技术所述问题,需要先获取各个医学检测项目对应的标准主诉聚类集,从而得到根据标准主诉聚类与当前主诉词集的相似度获取目标医学检测项目集,在获取各个医学检测项目对应的标准主诉聚类集的过程中,需要先在所述历史门诊病历集中提取包含各项医学检测项目的历史门诊病历,得到目标门诊病历集,然后在所述目标门诊病历集中提取患者主诉词集,在得到所述患者主诉词集后,先获取所述患者主诉词集中每个患者主诉词语的重复频次,然后根据所述重复频次对所述患者主诉词集中每个患者主诉词语进行重复频次排序,得到患者主诉词语序列,此时就可以根据预构建的聚类算法在所述患者主诉词语序列中提取最大聚类中心值对应的标准主诉聚类,从而得到标准主诉聚类集,在得到各个医学检测项目对应的标准主诉聚类集后,可以接收用户输入的当前主诉词集,利用预构建的相似度计算公式,计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,当所述标准主诉聚类集中存在与当前主诉词集的相似度大于预设相似阈值的标准主诉聚类时,则将该标准主诉聚类作为得到目标主诉聚类集中的一个组成,最后将所述目标主诉聚类集对应的医学检测项目集作为所述用户的目标医学检测项目集,完成基于互联网的医学检测项目的构建。因此本发明提出的基于互联网的医学检测项目的构建方法,可以解决医学检测项目的获取存在耗费人力大、精准度差的问题。
附图说明
图1为本发明一实施例提供的基于互联网的医学检测项目的构建方法的流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1所示,为本发明一实施例提供的基于互联网的医学检测项目的构建方法的流程示意图。在本实施例中,所述基于互联网的医学检测项目的构建方法包括:
S1、在预构建的局域互联网中提取历史门诊病历集及医学检测项目集,在所述医学检测项目集中依次提取医学检测项目。
可解释的,所述局域互联网指医院存储病人就诊信息及门诊病历的局域网。历史门诊病历集指根据患者主诉及患者基本信息构建的门诊病历集合。所述患者主诉可以是医生按照固定格式,根据患者的主诉撰写的内容。所述固定格式包括主诉的三要素及主诉书写的一般要求。所述医学检测项目指医生根据患者主诉制定的需要检查的项目,例如:胃镜检查、血常规检查、x光检查、ct检查、MRI检查以及心电图检查等项目。
S2、在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历,得到目标门诊病历集,在所述目标门诊病历集中提取患者主诉词集。
可解释的,所述患者主诉词集指所述目标门诊病历集中每个历史门诊病历的主诉内容经分词处理后的词集。例如:上腹部刺痛、食欲减退、黑便、胃部疼痛、嗳气反酸、恶心呕吐以及头晕目眩等。
本发明实施例中,所述在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历,得到目标门诊病历集,包括:
在所述历史门诊病历集中依次提取历史门诊病历;
在所述历史门诊病历中提取门诊检查项目集;
判断所述门诊检查项目集中是否包含所述医学检测项目;
若所述门诊检查项目集中不包含所述医学检测项目,则不将所述历史门诊病历作为目标门诊病历;
若所述门诊检查项目集中包含所述医学检测项目,则将所述历史门诊病历作为目标门诊病历;
汇总所有目标门诊病历,得到所述目标门诊病历集。
本发明实施例中,所述在所述目标门诊病历集中提取患者主诉词集,包括:
在所述目标门诊病历集中提取患者主诉语段集;
对所述患者主诉语段集进行分词处理,得到患者主诉词集。
可解释的,所述患者主诉语段集指目标门诊病历中的主诉内容。
S3、获取所述患者主诉词集中每个患者主诉词语的重复频次,根据所述重复频次对所述患者主诉词集中每个患者主诉词语进行重复频次排序,得到患者主诉词语序列。
可解释的,所述重复频次指同一患者主诉词语在不同目标门诊病历中出现的次数。例如:当所述医学检测项目为胃镜检查时,上腹部刺痛在80个目标门诊病历中出现,黑便在70个目标门诊病历中出现,则上腹部刺痛的重复频次为80,黑便的重复频次为70。所述患者主诉词语序列是按照重复频次从大到小的顺序对患者主诉词语进行的排序。
本发明实施例中,所述获取所述患者主诉词集中每个患者主诉词语的重复频次,包括:
根据目标门诊病历对所述患者主诉词集进行分类,得到不同患者对应的患者主诉词组集合;
根据所述患者主诉词组集合中不同患者主诉词组之间患者主诉词语的重复频次统计每个患者主诉词语的重复频次。
本发明实施例中,所述根据所述患者主诉词组集合中不同患者主诉词组之间患者主诉词语的重复频次统计每个患者主诉词语的重复频次,包括:
在所述患者主诉词组集合中随机去除一个对照主诉词组,得到待匹配主诉词组集;
在所述待匹配主诉词组集中依次提取待匹配主诉词组,统计所述待匹配主诉词组与所述对照主诉词组中每个患者主诉词语的重复频次,直至所述待匹配主诉词组集中所有待匹配主诉词组均完成统计,得到所述每个患者主诉词语的重复频次。
可解释的,所述对照主诉词组指所述所述患者主诉词组集合中任意一个患者的患者主诉词组,用于对照统计。例如:当所述医学检测项目为胃镜检查时,有1000个目标门诊病历,对应有1000患者主诉词组,在1000患者主诉词组中随机抽取一个患者主诉词组,可以为上腹部刺痛、黑便、胃部疼痛、嗳气反酸以及头晕目眩,此时可以在余下的999个患者主诉词组中依次提取患者主诉词组与所述对照主诉词组进行对照统计,当999个患者主诉词组中的第一个患者主诉词组为食欲减退、黑便、胃部疼痛、恶心呕吐以及头晕目眩时,此时上腹部刺痛的重复频次为1,黑便的重复频次为2,胃部疼痛的重复频次为2,嗳气反酸的重复频次为1,头晕目眩的重复频次为2,食欲减退的重复频次为1,恶心呕吐的重复频次为1,此时再继续在余下的998个患者主诉词组中依次提取患者主诉词组与所述对照主诉词组进行对照统计,直至所有999个患者主诉词组均已完成对照统计,从而得到每个患者主诉词语的重复频次。
S4、根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集,在所述主诉词语聚类集中提取最大聚类中心值对应的主诉词语聚类。
可理解的,所述聚类算法可以为K-Means算法。所述主诉词语聚类集指患者主诉词语序列经过聚类后得到的聚类集合。每一个主诉词语聚类都以其中的一个患者主诉词语的重复频次作为聚类中心值,最大聚类中心值指所有主诉词语聚类中最大的聚类中心值。
本发明实施例中,所述根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集,包括:
根据所述患者主诉词语序列中每个患者主诉词语的重复频次构建主诉词语频次序列;
在所述主诉词语频次序列中随机选取两个重复频次,将所述两个重复频次作为初始聚类中心组;
根据所述初始聚类中心组对所述主诉词语频次序列进行分类,得到第一初始频次聚类及第二初始频次聚类;
判断所述第一初始频次聚类及第二初始频次聚类中是否存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类;
若所述第一初始频次聚类及第二初始频次聚类中存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类,则返回上述在所述主诉词语频次序列中随机选取两个重复频次的步骤;
若所述第一初始频次聚类及第二初始频次聚类中不存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类,则根据所述第一初始频次聚类及第二初始频次聚类获取主诉词语聚类集。
应明白的,由于同一个医学检查项目的患者主诉差距不大,而不同患者可能存在一个或多个医学检查项目(即患有一种或多种疾病),因此同一医学检查项目对应的患者主诉词语集合应与其它医学检查项目对应的患者主诉词语集合之间的重复频次有较大的差别,例如:所述胃镜检查项目对应的一个患者可能存在胃溃疡及高血糖两种疾病,胃镜检查项目对应的另一个患者可能存在胃溃疡及高血脂两种疾病,此时由于都存在胃溃疡,因此胃溃疡对应的患者主诉词语应明显高于其他疾病的患者主诉词语,此时将主诉词语频次序列分为两类即可。其中所述聚类算法为现有技术在此不再赘述。
本发明实施例中,所述根据所述初始聚类中心组对所述主诉词语频次序列进行分类,得到第一初始频次聚类及第二初始频次聚类,包括:
在所述主诉词语频次序列中依次提取待归类频次,判断所述待归类频次与所述初始聚类中心组中两个聚类中心的差值的大小;
若所述待归类重复频次与所述初始聚类中心组中第一个聚类中心的差值小于等于所述待归类重复频次与所述初始聚类中心组中第二个聚类中心的差值,则将所述待归类重复频次归类为第一个聚类中心;
若所述待归类重复频次与所述初始聚类中心组中第一个聚类中心的差值不小于等于所述待归类重复频次与所述初始聚类中心组中第二个聚类中心的差值,则将所述待归类重复频次归类为第二个聚类中心,直至完成主诉词语频次序列中所有待归类重复频次的归类,得到所述第一初始频次聚类及第二初始频次聚类。
本发明实施例中,所述判断所述第一初始频次聚类及第二初始频次聚类中是否存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类,包括:
分别在所述第一初始频次聚类及第二初始频次聚类中依次提取第一重复频次及第二重复频次;
依次组合所述第一重复频次及第二重复频次,得到校验聚类中心组;
根据所述校验聚类中心组对所述主诉词语频次序列进行再分类,得到第一校验频次聚类及第二校验频次聚类;
判断所述第一校验频次聚类及第二校验频次聚类分别与所述第一初始频次聚类及第二初始频次聚类是否相同;
若所述第一校验频次聚类及第二校验频次聚类不分别与所述第一初始频次聚类及第二初始频次聚类相同,则所述第一初始频次聚类及第二初始频次聚类中存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类;
若所述第一校验频次聚类及第二校验频次聚类分别与所述第一初始频次聚类及第二初始频次聚类相同,则所述第一初始频次聚类及第二初始频次聚类中不存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类。
例如:所述主诉词语频次序列为上腹部刺痛900、食欲减退890、黑便869、胃部疼痛843、嗳气反酸799、恶心呕吐790、头晕目眩699、失眠多梦57、胸闷102、心悸79,此时上腹部刺痛、食欲减退、黑便、胃部疼痛、嗳气反酸、恶心呕吐、头晕目眩为最大聚类中心值对应的主诉词语聚类,失眠多梦、胸闷、心悸为另一个主诉词语聚类。
本发明实施例中,所述根据所述第一初始频次聚类及第二初始频次聚类获取主诉词语聚类集,包括:
分别获取所述第一初始频次聚类中重复频次及第二初始频次聚类中重复频次与患者主诉词语序列的第一对应关系及第二对应关系;
根据所述第一对应关系及第二对应关系在所述患者主诉词语序列提取第一主诉词语聚类及第二主诉词语聚类,得到主诉词语聚类集。
可解释的,所述第一对应关系指第一初始频次聚类中的所有重复频次与所述患者主诉词语序列中部分患者主诉词语的对应关系。第二对应关系同理。
S5、将所述最大聚类中心值对应的主诉词语聚类作为所述医学检测项目的标准主诉聚类,汇总所有医学检测项目的标准主诉聚类,得到标准主诉聚类集。
可解释的,所述标准主诉聚类指所述医学检测项目的标准主诉词语集合。例如:当所述医学检测项目为胃镜检查时,所述标准主诉词语集合可以为上腹部刺痛、食欲减退、黑便、胃部疼痛、嗳气反酸、恶心呕吐以及头晕目眩等。
S6、接收用户输入的当前主诉词集,利用预构建的相似度计算公式,计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,得到相似度集。
详细地,所述相似度计算公式如下所示:
其中,Si表示第i个标准主诉聚类与所述当前主诉词集的相似度,a表示对数底数,Ni表示第i个标准主诉聚类的词语总数,ci表示当前主诉词集与第i个标准主诉聚类的词语重复数。
可理解的,当所述当前主诉词集与所述标准主诉聚类中患者主诉词语重合度越高时,表示所述标准主诉聚类对应的医学检测项目越适合所述当前主诉词集对应的患者。
本发明实施例中,所述利用预构建的相似度计算公式,计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,得到相似度集,包括:
在所述标准主诉聚类集中依次提取标准主诉聚类;
获取当前主诉词集与标准主诉聚类重复的患者主诉词语个数,得到主诉词语重合度集;
获取每个标准主诉聚类的患者主诉词语总数,得到标准主诉词语数量集;
根据所述标准主诉词语数量集、主诉词语重合度集及所述相似度计算公式计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,得到相似度集。
S7、根据所述相似度集,在所述标准主诉聚类集中提取相似度大于预设相似阈值的标准主诉聚类,得到目标主诉聚类集,将所述目标主诉聚类集对应的医学检测项目集作为所述用户的目标医学检测项目集。
进一步地,由于同一患者可能同时患有多种疾病,因此当前主诉词集可能与多个标准主诉聚类集相似度较高,因此通过为不同医学检测项目设定不同的相似度阈值,达到筛选出患者需要做哪些医学检测项目的目的。
本发明实施例为解决背景技术所述问题,需要先获取各个医学检测项目对应的标准主诉聚类集,从而得到根据标准主诉聚类与当前主诉词集的相似度获取目标医学检测项目集,在获取各个医学检测项目对应的标准主诉聚类集的过程中,需要先在所述历史门诊病历集中提取包含各项医学检测项目的历史门诊病历,得到目标门诊病历集,然后在所述目标门诊病历集中提取患者主诉词集,在得到所述患者主诉词集后,先获取所述患者主诉词集中每个患者主诉词语的重复频次,然后根据所述重复频次对所述患者主诉词集中每个患者主诉词语进行重复频次排序,得到患者主诉词语序列,此时就可以根据预构建的聚类算法在所述患者主诉词语序列中提取最大聚类中心值对应的标准主诉聚类,从而得到标准主诉聚类集,在得到各个医学检测项目对应的标准主诉聚类集后,可以接收用户输入的当前主诉词集,利用预构建的相似度计算公式,计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,当所述标准主诉聚类集中存在与当前主诉词集的相似度大于预设相似阈值的标准主诉聚类时,则将该标准主诉聚类作为得到目标主诉聚类集中的一个组成,最后将所述目标主诉聚类集对应的医学检测项目集作为所述用户的目标医学检测项目集,完成基于互联网的医学检测项目的构建。因此本发明提出的基于互联网的医学检测项目的构建方法,可以解决医学检测项目的获取存在耗费人力大、精准度差的问题。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于互联网的医学检测项目的构建方法,其特征在于,所述方法包括:
在预构建的局域互联网中提取历史门诊病历集及医学检测项目集,在所述医学检测项目集中依次提取医学检测项目;
在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历,得到目标门诊病历集,在所述目标门诊病历集中提取患者主诉词集;
获取所述患者主诉词集中每个患者主诉词语的重复频次,根据所述重复频次对所述患者主诉词集中每个患者主诉词语进行重复频次排序,得到患者主诉词语序列;
根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集,在所述主诉词语聚类集中提取最大聚类中心值对应的主诉词语聚类;
将所述最大聚类中心值对应的主诉词语聚类作为所述医学检测项目的标准主诉聚类,汇总所有医学检测项目的标准主诉聚类,得到标准主诉聚类集;
接收用户输入的当前主诉词集,利用预构建的相似度计算公式,计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,得到相似度集,所述相似度计算公式如下所示:
其中,Si表示第i个标准主诉聚类与所述当前主诉词集的相似度,a表示对数底数,Ni表示第i个标准主诉聚类的词语总数,ci表示当前主诉词集与第i个标准主诉聚类的词语重复数;
根据所述相似度集,在所述标准主诉聚类集中提取相似度大于预设相似阈值的标准主诉聚类,得到目标主诉聚类集,将所述目标主诉聚类集对应的医学检测项目集作为所述用户的目标医学检测项目集。
2.如权利要求1所述的构建方法,其特征在于,所述根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集,包括:
根据所述患者主诉词语序列中每个患者主诉词语的重复频次构建主诉词语频次序列;
在所述主诉词语频次序列中随机选取两个重复频次,将所述两个重复频次作为初始聚类中心组;
根据所述初始聚类中心组对所述主诉词语频次序列进行分类,得到第一初始频次聚类及第二初始频次聚类;
判断所述第一初始频次聚类及第二初始频次聚类中是否存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类;
若所述第一初始频次聚类及第二初始频次聚类中存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类,则返回上述在所述主诉词语频次序列中随机选取两个重复频次的步骤;
若所述第一初始频次聚类及第二初始频次聚类中不存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类,则根据所述第一初始频次聚类及第二初始频次聚类获取主诉词语聚类集。
3.如权利要求2所述的构建方法,其特征在于,所述根据所述初始聚类中心组对所述主诉词语频次序列进行分类,得到第一初始频次聚类及第二初始频次聚类,包括:
在所述主诉词语频次序列中依次提取待归类频次,判断所述待归类频次与所述初始聚类中心组中两个聚类中心的差值的大小;
若所述待归类重复频次与所述初始聚类中心组中第一个聚类中心的差值小于等于所述待归类重复频次与所述初始聚类中心组中第二个聚类中心的差值,则将所述待归类重复频次归类为第一个聚类中心;
若所述待归类重复频次与所述初始聚类中心组中第一个聚类中心的差值不小于等于所述待归类重复频次与所述初始聚类中心组中第二个聚类中心的差值,则将所述待归类重复频次归类为第二个聚类中心,直至完成主诉词语频次序列中所有待归类重复频次的归类,得到所述第一初始频次聚类及第二初始频次聚类。
4.如权利要求2所述的构建方法,其特征在于,所述判断所述第一初始频次聚类及第二初始频次聚类中是否存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类,包括:
分别在所述第一初始频次聚类及第二初始频次聚类中依次提取第一重复频次及第二重复频次;
依次组合所述第一重复频次及第二重复频次,得到校验聚类中心组;
根据所述校验聚类中心组对所述主诉词语频次序列进行再分类,得到第一校验频次聚类及第二校验频次聚类;
判断所述第一校验频次聚类及第二校验频次聚类分别与所述第一初始频次聚类及第二初始频次聚类是否相同;
若所述第一校验频次聚类及第二校验频次聚类不分别与所述第一初始频次聚类及第二初始频次聚类相同,则所述第一初始频次聚类及第二初始频次聚类中存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类;
若所述第一校验频次聚类及第二校验频次聚类分别与所述第一初始频次聚类及第二初始频次聚类相同,则所述第一初始频次聚类及第二初始频次聚类中不存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类。
5.如权利要求2所述的构建方法,其特征在于,所述根据所述第一初始频次聚类及第二初始频次聚类获取主诉词语聚类集,包括:
分别获取所述第一初始频次聚类中重复频次及第二初始频次聚类中重复频次与患者主诉词语序列的第一对应关系及第二对应关系;
根据所述第一对应关系及第二对应关系在所述患者主诉词语序列提取第一主诉词语聚类及第二主诉词语聚类,得到主诉词语聚类集。
6.如权利要求1所述的构建方法,其特征在于,所述在所述目标门诊病历集中提取患者主诉词集,包括:
在所述目标门诊病历集中提取患者主诉语段集;
对所述患者主诉语段集进行分词处理,得到患者主诉词集。
7.如权利要求6所述的构建方法,其特征在于,所述获取所述患者主诉词集中每个患者主诉词语的重复频次,包括:
根据目标门诊病历对所述患者主诉词集进行分类,得到不同患者对应的患者主诉词组集合;
根据所述患者主诉词组集合中不同患者主诉词组之间患者主诉词语的重复频次统计每个患者主诉词语的重复频次。
8.如权利要求7所述的构建方法,其特征在于,所述根据所述患者主诉词组集合中不同患者主诉词组之间患者主诉词语的重复频次统计每个患者主诉词语的重复频次,包括:
在所述患者主诉词组集合中随机去除一个对照主诉词组,得到待匹配主诉词组集;
在所述待匹配主诉词组集中依次提取待匹配主诉词组,统计所述待匹配主诉词组与所述对照主诉词组中每个患者主诉词语的重复频次,直至所述待匹配主诉词组集中所有待匹配主诉词组均完成统计,得到所述每个患者主诉词语的重复频次。
9.如权利要求1所述的构建方法,其特征在于,所述利用预构建的相似度计算公式,计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,得到相似度集,包括:
在所述标准主诉聚类集中依次提取标准主诉聚类;
获取当前主诉词集与标准主诉聚类重复的患者主诉词语个数,得到主诉词语重合度集;
获取每个标准主诉聚类的患者主诉词语总数,得到标准主诉词语数量集;
根据所述标准主诉词语数量集、主诉词语重合度集及所述相似度计算公式计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度,得到相似度集。
10.如权利要求1所述的构建方法,其特征在于,所述在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历,得到目标门诊病历集,包括:
在所述历史门诊病历集中依次提取历史门诊病历;
在所述历史门诊病历中提取门诊检查项目集;
判断所述门诊检查项目集中是否包含所述医学检测项目;
若所述门诊检查项目集中不包含所述医学检测项目,则不将所述历史门诊病历作为目标门诊病历;
若所述门诊检查项目集中包含所述医学检测项目,则将所述历史门诊病历作为目标门诊病历;
汇总所有目标门诊病历,得到所述目标门诊病历集。
CN202310610895.XA 2023-05-29 2023-05-29 一种基于互联网的医学检测项目的构建方法 Active CN116631558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310610895.XA CN116631558B (zh) 2023-05-29 2023-05-29 一种基于互联网的医学检测项目的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310610895.XA CN116631558B (zh) 2023-05-29 2023-05-29 一种基于互联网的医学检测项目的构建方法

Publications (2)

Publication Number Publication Date
CN116631558A CN116631558A (zh) 2023-08-22
CN116631558B true CN116631558B (zh) 2024-03-22

Family

ID=87602241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310610895.XA Active CN116631558B (zh) 2023-05-29 2023-05-29 一种基于互联网的医学检测项目的构建方法

Country Status (1)

Country Link
CN (1) CN116631558B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117763207B (zh) * 2024-02-22 2024-04-30 四川大学华西医院 一种皮肤专业二分类专病数据库建立的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656952A (zh) * 2016-12-30 2018-02-02 青岛中科慧康科技有限公司 平行智能病例推荐模型的建模方法
CN112786194A (zh) * 2021-01-28 2021-05-11 北京一脉阳光医学信息技术有限公司 基于人工智能的医学影像导诊导检系统、方法及设备
CN113592345A (zh) * 2021-08-10 2021-11-02 康键信息技术(深圳)有限公司 基于聚类模型的医疗分诊方法、系统、设备及存储介质
CN113903423A (zh) * 2021-11-18 2022-01-07 北方健康医疗大数据科技有限公司 用药方案推荐方法、装置、设备及介质
CN114974561A (zh) * 2022-05-06 2022-08-30 安徽讯飞医疗股份有限公司 一种辅助诊疗方法、装置以及设备
CN115269795A (zh) * 2022-07-20 2022-11-01 北京新纽科技有限公司 一种电子病历的分段方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794122B (zh) * 2014-01-20 2020-04-17 腾讯科技(北京)有限公司 一种位置信息推荐方法、装置和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656952A (zh) * 2016-12-30 2018-02-02 青岛中科慧康科技有限公司 平行智能病例推荐模型的建模方法
CN112786194A (zh) * 2021-01-28 2021-05-11 北京一脉阳光医学信息技术有限公司 基于人工智能的医学影像导诊导检系统、方法及设备
CN113592345A (zh) * 2021-08-10 2021-11-02 康键信息技术(深圳)有限公司 基于聚类模型的医疗分诊方法、系统、设备及存储介质
CN113903423A (zh) * 2021-11-18 2022-01-07 北方健康医疗大数据科技有限公司 用药方案推荐方法、装置、设备及介质
CN114974561A (zh) * 2022-05-06 2022-08-30 安徽讯飞医疗股份有限公司 一种辅助诊疗方法、装置以及设备
CN115269795A (zh) * 2022-07-20 2022-11-01 北京新纽科技有限公司 一种电子病历的分段方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进聚类算法构建智慧医院的研究与实践;曹磊等;《计算机与现代化》;20201215(第第12期期);38-42 *

Also Published As

Publication number Publication date
CN116631558A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111990989A (zh) 一种基于生成对抗及卷积循环网络的心电信号识别方法
US20080103403A1 (en) Method and System for Diagnosis of Cardiac Diseases Utilizing Neural Networks
CN109009102B (zh) 一种基于脑电图深度学习的辅助诊断方法及系统
CN116631558B (zh) 一种基于互联网的医学检测项目的构建方法
CN107145715B (zh) 一种基于推举算法的临床医学智能判别装置
CN110223784A (zh) 临床试验患者匹配方法
Nasimov et al. A new approach to classifying myocardial infarction and cardiomyopathy using deep learning
Wołk et al. Early and remote detection of possible heartbeat problems with convolutional neural networks and multipart interactive training
CN111653273A (zh) 一种基于智能手机的院外肺炎初步识别方法
CN104361245B (zh) 检测数据处理系统和方法
CN113128654A (zh) 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
CN109907751B (zh) 一种基于人工智能监督学习的实验室胸痛数据检查辅助识别方法
US20210338171A1 (en) Tensor amplification-based data processing
CN112002413B (zh) 一种心血管系统感染智能认知系统、设备及存储介质
CN117582235A (zh) 基于cnn-lstm模型的心电信号分类方法
CN107066816B (zh) 基于临床数据的就医指导方法、装置及服务器
CN113257410A (zh) 一种基于中医临床医疗知识库和深度学习模型的问诊方法
CN113096127A (zh) 一种脑网络演化模型的生成系统及方法
CN115691735B (zh) 一种基于慢阻肺专科数据的多模态数据管理方法及系统
CN109087712B (zh) 一种基于随机子空间集成学习的主动脉夹层筛查系统
CN114662530A (zh) 一种基于时序信号卷积与多信号融合的睡眠阶段分期方法
Diab et al. An unsupervised classification method of uterine electromyography signals: Classification for detection of preterm deliveries
CN112686091B (zh) 基于深度神经网络的两步骤心律失常分类方法
CN114550910A (zh) 基于人工智能的射血分数保留型心衰诊断及分型系统
Bahar et al. Model Structure of Fetal Health Status Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant