CN116631558B

CN116631558B - 一种基于互联网的医学检测项目的构建方法

Info

Publication number: CN116631558B
Application number: CN202310610895.XA
Authority: CN
Inventors: 肖璇; 彭锐; 王少亭; 何晓云; 郑红云
Original assignee: Renmin Hospital of Wuhan University
Current assignee: Renmin Hospital of Wuhan University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2024-03-22
Anticipated expiration: 2043-05-29
Also published as: CN116631558A

Abstract

本发明涉及一种基于互联网的医学检测项目的构建方法，包括：在目标门诊病历集中提取患者主诉词集，对每个患者主诉词语进行重复频次排序，得到患者主诉词语序列，在患者主诉词语序列中提取主诉词语聚类集，在主诉词语聚类集中提取最大聚类中心值对应的主诉词语聚类，将最大聚类中心值对应的主诉词语聚类作为标准主诉聚类，得到标准主诉聚类集，计算当前主诉词集与每一个标准主诉聚类的相似度集，根据相似度集，在准主诉聚类集中提取相似度大于相似阈值的标准主诉聚类，得到目标主诉聚类集，将目标主诉聚类集对应的医学检测项目集作为目标医学检测项目集。本发明可以解决医学检测项目的获取存在耗费人力大、精准度差的问题。

Description

一种基于互联网的医学检测项目的构建方法

技术领域

本发明涉及激光处理技术领域，尤其涉及一种基于互联网的医学检测项目的构建方法。

背景技术

医学检测项目是对人体器官或部位进行的医学测试项目，医学检测项目包含多种类别，例如：胃镜检查、血常规检查、x光检查、ct检查、MRI检查以及心电图检查等等。医学检测是诊断疾病、监测疾病进展以及健康检查的重要手段。

当前患者到医院就诊时，通常是患者向医生口述自己的病情，再由医生撰写病人主诉。医生在充分与患者进行沟通并了解基本病况后即可提出各项医学检测项目的建议。患者根据医生建议的医学检测项目再去进行身体检查。但这种方式下的医学检测项目需要医生根据自己的专业知识及从医经验进行确定，因此医学检测项目的获取存在耗费人力大、精准度差的问题。

发明内容

本发明提供一种基于互联网的医学检测项目的构建方法其主要目的在于解决医学检测项目的获取存在耗费人力大、精准度差的问题。

为实现上述目的，本发明提供的一种基于互联网的医学检测项目的构建方法，包括：

在预构建的局域互联网中提取历史门诊病历集及医学检测项目集，在所述医学检测项目集中依次提取医学检测项目；

在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历，得到目标门诊病历集，在所述目标门诊病历集中提取患者主诉词集；

获取所述患者主诉词集中每个患者主诉词语的重复频次，根据所述重复频次对所述患者主诉词集中每个患者主诉词语进行重复频次排序，得到患者主诉词语序列；

根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集，在所述主诉词语聚类集中提取最大聚类中心值对应的主诉词语聚类；

将所述最大聚类中心值对应的主诉词语聚类作为所述医学检测项目的标准主诉聚类，汇总所有医学检测项目的标准主诉聚类，得到标准主诉聚类集；

接收用户输入的当前主诉词集，利用预构建的相似度计算公式，计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度，得到相似度集，所述相似度计算公式如下所示：

其中，S_i表示第i个标准主诉聚类与所述当前主诉词集的相似度，a表示对数底数，N_i表示第i个标准主诉聚类的词语总数，c_i表示当前主诉词集与第i个标准主诉聚类的词语重复数；

根据所述相似度集，在所述标准主诉聚类集中提取相似度大于预设相似阈值的标准主诉聚类，得到目标主诉聚类集，将所述目标主诉聚类集对应的医学检测项目集作为所述用户的目标医学检测项目集。

可选地，所述根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集，包括：

根据所述患者主诉词语序列中每个患者主诉词语的重复频次构建主诉词语频次序列；

在所述主诉词语频次序列中随机选取两个重复频次，将所述两个重复频次作为初始聚类中心组；

根据所述初始聚类中心组对所述主诉词语频次序列进行分类，得到第一初始频次聚类及第二初始频次聚类；

判断所述第一初始频次聚类及第二初始频次聚类中是否存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类；

若所述第一初始频次聚类及第二初始频次聚类中存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类，则返回上述在所述主诉词语频次序列中随机选取两个重复频次的步骤；

若所述第一初始频次聚类及第二初始频次聚类中不存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类，则根据所述第一初始频次聚类及第二初始频次聚类获取主诉词语聚类集。

可选地，所述根据所述初始聚类中心组对所述主诉词语频次序列进行分类，得到第一初始频次聚类及第二初始频次聚类，包括：

在所述主诉词语频次序列中依次提取待归类频次，判断所述待归类频次与所述初始聚类中心组中两个聚类中心的差值的大小；

若所述待归类重复频次与所述初始聚类中心组中第一个聚类中心的差值小于等于所述待归类重复频次与所述初始聚类中心组中第二个聚类中心的差值，则将所述待归类重复频次归类为第一个聚类中心；

若所述待归类重复频次与所述初始聚类中心组中第一个聚类中心的差值不小于等于所述待归类重复频次与所述初始聚类中心组中第二个聚类中心的差值，则将所述待归类重复频次归类为第二个聚类中心，直至完成主诉词语频次序列中所有待归类重复频次的归类，得到所述第一初始频次聚类及第二初始频次聚类。

可选地，所述判断所述第一初始频次聚类及第二初始频次聚类中是否存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类，包括：

分别在所述第一初始频次聚类及第二初始频次聚类中依次提取第一重复频次及第二重复频次；

依次组合所述第一重复频次及第二重复频次，得到校验聚类中心组；

根据所述校验聚类中心组对所述主诉词语频次序列进行再分类，得到第一校验频次聚类及第二校验频次聚类；

判断所述第一校验频次聚类及第二校验频次聚类分别与所述第一初始频次聚类及第二初始频次聚类是否相同；

若所述第一校验频次聚类及第二校验频次聚类不分别与所述第一初始频次聚类及第二初始频次聚类相同，则所述第一初始频次聚类及第二初始频次聚类中存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类；

若所述第一校验频次聚类及第二校验频次聚类分别与所述第一初始频次聚类及第二初始频次聚类相同，则所述第一初始频次聚类及第二初始频次聚类中不存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类。

可选地，所述根据所述第一初始频次聚类及第二初始频次聚类获取主诉词语聚类集，包括：

分别获取所述第一初始频次聚类中重复频次及第二初始频次聚类中重复频次与患者主诉词语序列的第一对应关系及第二对应关系；

根据所述第一对应关系及第二对应关系在所述患者主诉词语序列提取第一主诉词语聚类及第二主诉词语聚类，得到主诉词语聚类集。

可选地，所述在所述目标门诊病历集中提取患者主诉词集，包括：

在所述目标门诊病历集中提取患者主诉语段集；

对所述患者主诉语段集进行分词处理，得到患者主诉词集。

可选地，所述获取所述患者主诉词集中每个患者主诉词语的重复频次，包括：

根据目标门诊病历对所述患者主诉词集进行分类，得到不同患者对应的患者主诉词组集合；

根据所述患者主诉词组集合中不同患者主诉词组之间患者主诉词语的重复频次统计每个患者主诉词语的重复频次。

可选地，所述根据所述患者主诉词组集合中不同患者主诉词组之间患者主诉词语的重复频次统计每个患者主诉词语的重复频次，包括：

在所述患者主诉词组集合中随机去除一个对照主诉词组，得到待匹配主诉词组集；

在所述待匹配主诉词组集中依次提取待匹配主诉词组，统计所述待匹配主诉词组与所述对照主诉词组中每个患者主诉词语的重复频次，直至所述待匹配主诉词组集中所有待匹配主诉词组均完成统计，得到所述每个患者主诉词语的重复频次。

可选地，所述利用预构建的相似度计算公式，计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度，得到相似度集，包括：

在所述标准主诉聚类集中依次提取标准主诉聚类；

获取当前主诉词集与标准主诉聚类重复的患者主诉词语个数，得到主诉词语重合度集；

获取每个标准主诉聚类的患者主诉词语总数，得到标准主诉词语数量集；

根据所述标准主诉词语数量集、主诉词语重合度集及所述相似度计算公式计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度，得到相似度集。

可选地，所述在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历，得到目标门诊病历集，包括：

在所述历史门诊病历集中依次提取历史门诊病历；

在所述历史门诊病历中提取门诊检查项目集；

判断所述门诊检查项目集中是否包含所述医学检测项目；

若所述门诊检查项目集中不包含所述医学检测项目，则不将所述历史门诊病历作为目标门诊病历；

若所述门诊检查项目集中包含所述医学检测项目，则将所述历史门诊病历作为目标门诊病历；

汇总所有目标门诊病历，得到所述目标门诊病历集。

本发明实施例为解决背景技术所述问题，需要先获取各个医学检测项目对应的标准主诉聚类集，从而得到根据标准主诉聚类与当前主诉词集的相似度获取目标医学检测项目集，在获取各个医学检测项目对应的标准主诉聚类集的过程中，需要先在所述历史门诊病历集中提取包含各项医学检测项目的历史门诊病历，得到目标门诊病历集，然后在所述目标门诊病历集中提取患者主诉词集，在得到所述患者主诉词集后，先获取所述患者主诉词集中每个患者主诉词语的重复频次，然后根据所述重复频次对所述患者主诉词集中每个患者主诉词语进行重复频次排序，得到患者主诉词语序列，此时就可以根据预构建的聚类算法在所述患者主诉词语序列中提取最大聚类中心值对应的标准主诉聚类，从而得到标准主诉聚类集，在得到各个医学检测项目对应的标准主诉聚类集后，可以接收用户输入的当前主诉词集，利用预构建的相似度计算公式，计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度，当所述标准主诉聚类集中存在与当前主诉词集的相似度大于预设相似阈值的标准主诉聚类时，则将该标准主诉聚类作为得到目标主诉聚类集中的一个组成，最后将所述目标主诉聚类集对应的医学检测项目集作为所述用户的目标医学检测项目集，完成基于互联网的医学检测项目的构建。因此本发明提出的基于互联网的医学检测项目的构建方法，可以解决医学检测项目的获取存在耗费人力大、精准度差的问题。

附图说明

图1为本发明一实施例提供的基于互联网的医学检测项目的构建方法的流程示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1所示，为本发明一实施例提供的基于互联网的医学检测项目的构建方法的流程示意图。在本实施例中，所述基于互联网的医学检测项目的构建方法包括：

S1、在预构建的局域互联网中提取历史门诊病历集及医学检测项目集，在所述医学检测项目集中依次提取医学检测项目。

可解释的，所述局域互联网指医院存储病人就诊信息及门诊病历的局域网。历史门诊病历集指根据患者主诉及患者基本信息构建的门诊病历集合。所述患者主诉可以是医生按照固定格式，根据患者的主诉撰写的内容。所述固定格式包括主诉的三要素及主诉书写的一般要求。所述医学检测项目指医生根据患者主诉制定的需要检查的项目，例如：胃镜检查、血常规检查、x光检查、ct检查、MRI检查以及心电图检查等项目。

S2、在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历，得到目标门诊病历集，在所述目标门诊病历集中提取患者主诉词集。

可解释的，所述患者主诉词集指所述目标门诊病历集中每个历史门诊病历的主诉内容经分词处理后的词集。例如：上腹部刺痛、食欲减退、黑便、胃部疼痛、嗳气反酸、恶心呕吐以及头晕目眩等。

本发明实施例中，所述在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历，得到目标门诊病历集，包括：

在所述历史门诊病历集中依次提取历史门诊病历；

在所述历史门诊病历中提取门诊检查项目集；

判断所述门诊检查项目集中是否包含所述医学检测项目；

汇总所有目标门诊病历，得到所述目标门诊病历集。

本发明实施例中，所述在所述目标门诊病历集中提取患者主诉词集，包括：

在所述目标门诊病历集中提取患者主诉语段集；

对所述患者主诉语段集进行分词处理，得到患者主诉词集。

可解释的，所述患者主诉语段集指目标门诊病历中的主诉内容。

S3、获取所述患者主诉词集中每个患者主诉词语的重复频次，根据所述重复频次对所述患者主诉词集中每个患者主诉词语进行重复频次排序，得到患者主诉词语序列。

可解释的，所述重复频次指同一患者主诉词语在不同目标门诊病历中出现的次数。例如：当所述医学检测项目为胃镜检查时，上腹部刺痛在80个目标门诊病历中出现，黑便在70个目标门诊病历中出现，则上腹部刺痛的重复频次为80，黑便的重复频次为70。所述患者主诉词语序列是按照重复频次从大到小的顺序对患者主诉词语进行的排序。

本发明实施例中，所述获取所述患者主诉词集中每个患者主诉词语的重复频次，包括：

本发明实施例中，所述根据所述患者主诉词组集合中不同患者主诉词组之间患者主诉词语的重复频次统计每个患者主诉词语的重复频次，包括：

可解释的，所述对照主诉词组指所述所述患者主诉词组集合中任意一个患者的患者主诉词组，用于对照统计。例如：当所述医学检测项目为胃镜检查时，有1000个目标门诊病历，对应有1000患者主诉词组，在1000患者主诉词组中随机抽取一个患者主诉词组，可以为上腹部刺痛、黑便、胃部疼痛、嗳气反酸以及头晕目眩，此时可以在余下的999个患者主诉词组中依次提取患者主诉词组与所述对照主诉词组进行对照统计，当999个患者主诉词组中的第一个患者主诉词组为食欲减退、黑便、胃部疼痛、恶心呕吐以及头晕目眩时，此时上腹部刺痛的重复频次为1，黑便的重复频次为2，胃部疼痛的重复频次为2，嗳气反酸的重复频次为1，头晕目眩的重复频次为2，食欲减退的重复频次为1，恶心呕吐的重复频次为1，此时再继续在余下的998个患者主诉词组中依次提取患者主诉词组与所述对照主诉词组进行对照统计，直至所有999个患者主诉词组均已完成对照统计，从而得到每个患者主诉词语的重复频次。

S4、根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集，在所述主诉词语聚类集中提取最大聚类中心值对应的主诉词语聚类。

可理解的，所述聚类算法可以为K-Means算法。所述主诉词语聚类集指患者主诉词语序列经过聚类后得到的聚类集合。每一个主诉词语聚类都以其中的一个患者主诉词语的重复频次作为聚类中心值，最大聚类中心值指所有主诉词语聚类中最大的聚类中心值。

本发明实施例中，所述根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集，包括：

应明白的，由于同一个医学检查项目的患者主诉差距不大，而不同患者可能存在一个或多个医学检查项目(即患有一种或多种疾病)，因此同一医学检查项目对应的患者主诉词语集合应与其它医学检查项目对应的患者主诉词语集合之间的重复频次有较大的差别，例如：所述胃镜检查项目对应的一个患者可能存在胃溃疡及高血糖两种疾病，胃镜检查项目对应的另一个患者可能存在胃溃疡及高血脂两种疾病，此时由于都存在胃溃疡，因此胃溃疡对应的患者主诉词语应明显高于其他疾病的患者主诉词语，此时将主诉词语频次序列分为两类即可。其中所述聚类算法为现有技术在此不再赘述。

本发明实施例中，所述根据所述初始聚类中心组对所述主诉词语频次序列进行分类，得到第一初始频次聚类及第二初始频次聚类，包括：

本发明实施例中，所述判断所述第一初始频次聚类及第二初始频次聚类中是否存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类，包括：

例如：所述主诉词语频次序列为上腹部刺痛900、食欲减退890、黑便869、胃部疼痛843、嗳气反酸799、恶心呕吐790、头晕目眩699、失眠多梦57、胸闷102、心悸79，此时上腹部刺痛、食欲减退、黑便、胃部疼痛、嗳气反酸、恶心呕吐、头晕目眩为最大聚类中心值对应的主诉词语聚类，失眠多梦、胸闷、心悸为另一个主诉词语聚类。

本发明实施例中，所述根据所述第一初始频次聚类及第二初始频次聚类获取主诉词语聚类集，包括：

可解释的，所述第一对应关系指第一初始频次聚类中的所有重复频次与所述患者主诉词语序列中部分患者主诉词语的对应关系。第二对应关系同理。

S5、将所述最大聚类中心值对应的主诉词语聚类作为所述医学检测项目的标准主诉聚类，汇总所有医学检测项目的标准主诉聚类，得到标准主诉聚类集。

可解释的，所述标准主诉聚类指所述医学检测项目的标准主诉词语集合。例如：当所述医学检测项目为胃镜检查时，所述标准主诉词语集合可以为上腹部刺痛、食欲减退、黑便、胃部疼痛、嗳气反酸、恶心呕吐以及头晕目眩等。

S6、接收用户输入的当前主诉词集，利用预构建的相似度计算公式，计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度，得到相似度集。

详细地，所述相似度计算公式如下所示：

其中，S_i表示第i个标准主诉聚类与所述当前主诉词集的相似度，a表示对数底数，N_i表示第i个标准主诉聚类的词语总数，c_i表示当前主诉词集与第i个标准主诉聚类的词语重复数。

可理解的，当所述当前主诉词集与所述标准主诉聚类中患者主诉词语重合度越高时，表示所述标准主诉聚类对应的医学检测项目越适合所述当前主诉词集对应的患者。

本发明实施例中，所述利用预构建的相似度计算公式，计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度，得到相似度集，包括：

在所述标准主诉聚类集中依次提取标准主诉聚类；

S7、根据所述相似度集，在所述标准主诉聚类集中提取相似度大于预设相似阈值的标准主诉聚类，得到目标主诉聚类集，将所述目标主诉聚类集对应的医学检测项目集作为所述用户的目标医学检测项目集。

进一步地，由于同一患者可能同时患有多种疾病，因此当前主诉词集可能与多个标准主诉聚类集相似度较高，因此通过为不同医学检测项目设定不同的相似度阈值，达到筛选出患者需要做哪些医学检测项目的目的。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于互联网的医学检测项目的构建方法，其特征在于，所述方法包括：

2.如权利要求1所述的构建方法，其特征在于，所述根据预构建的聚类算法在所述患者主诉词语序列中提取主诉词语聚类集，包括：

3.如权利要求2所述的构建方法，其特征在于，所述根据所述初始聚类中心组对所述主诉词语频次序列进行分类，得到第一初始频次聚类及第二初始频次聚类，包括：

4.如权利要求2所述的构建方法，其特征在于，所述判断所述第一初始频次聚类及第二初始频次聚类中是否存在不同的初始聚类中心组将所述主诉词语频次序列进行再分类，包括：

5.如权利要求2所述的构建方法，其特征在于，所述根据所述第一初始频次聚类及第二初始频次聚类获取主诉词语聚类集，包括：

6.如权利要求1所述的构建方法，其特征在于，所述在所述目标门诊病历集中提取患者主诉词集，包括：

在所述目标门诊病历集中提取患者主诉语段集；

对所述患者主诉语段集进行分词处理，得到患者主诉词集。

7.如权利要求6所述的构建方法，其特征在于，所述获取所述患者主诉词集中每个患者主诉词语的重复频次，包括：

8.如权利要求7所述的构建方法，其特征在于，所述根据所述患者主诉词组集合中不同患者主诉词组之间患者主诉词语的重复频次统计每个患者主诉词语的重复频次，包括：

9.如权利要求1所述的构建方法，其特征在于，所述利用预构建的相似度计算公式，计算所述当前主诉词集与标准主诉聚类集中每一个标准主诉聚类的相似度，得到相似度集，包括：

在所述标准主诉聚类集中依次提取标准主诉聚类；

10.如权利要求1所述的构建方法，其特征在于，所述在所述历史门诊病历集中提取包含所述医学检测项目的历史门诊病历，得到目标门诊病历集，包括：

在所述历史门诊病历集中依次提取历史门诊病历；

在所述历史门诊病历中提取门诊检查项目集；

判断所述门诊检查项目集中是否包含所述医学检测项目；

汇总所有目标门诊病历，得到所述目标门诊病历集。