CN113851208A

CN113851208A - 基于显式主题分配技术的医疗检查推荐系统及方法

Info

Publication number: CN113851208A
Application number: CN202111129774.0A
Authority: CN
Inventors: 朱能军; 黄洁韫; 骆祥峰; 沈坤炜; 陈小松; 朱思吉
Original assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd; University of Shanghai for Science and Technology
Current assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd; University of Shanghai for Science and Technology
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-28

Abstract

本发明提供了一种基于显式主题分配技术的医疗检查推荐系统及方法，步骤S1：建立LLDA模型；步骤S2：利用历史病例及治疗方案对LLDA模型进行训练，得到训练后的LLDA模型；步骤S3：将患者当前已有信息输入训练后的LLDA模型，得到患者下一项应该做得医疗检查选项以及与患者当前状态最匹配的治疗方案。突破国内医院以往只能依靠专业医护人员的建议或者遵循统一化的检查流程的情况，将医疗数据驱动的方法运用到下一项医疗检查个性化推荐当中，作为医生决策的有效参考，能够合理缓解医疗检查资源紧张的问题。

Description

基于显式主题分配技术的医疗检查推荐系统及方法

技术领域

本发明涉及医疗智能决策和数据挖掘领域，具体地，涉及一种基于显式主题分配技术的医疗检查推荐方法及系统，更为具体地，涉及一种医疗检查推荐及治疗方案组合评估方法及系统。

背景技术

通常，医生在分析患者当前检查结果报告后，会根据他的领域知识和经验规则作出医疗诊断和建议。如果报告中给出的证据足够充分，这些建议一般会是具体的治疗方案；反之，医生会建议患者做进一步的补充检查。

至于哪项检查会成为下一项检查，在传统就医过程中完全依赖于医生的经验和偏好。有些医生(或者患者)甚至会要求将所有可能的检查都做一遍。从快速合理确定治疗方案的角度，这样做可能既没有必要，也大大浪费了宝贵的医疗资源，同时还让患者遭受了身体和经济等方面的压力。如果只用做一次或某几次特定检查就能确定病因和治疗方案，那么这些检查就属于检查路径当中的最优检查选项，应当尽可能被安排到早期的检查当中，避免过度医疗。

治疗方案和患者的各项身体指标有着紧密而复杂的关系。医疗检查作为一种获取身体指标的手段，辅助医生确定合理的治疗方案。通过对历史病例和诊断结果的学习，可以挖掘能够决定不同治疗方案的关键指标，即在该治疗方案下，高频出现的检查结果。关键指标的匹配，能够帮助病因和治疗方案的确认。因此，可以通过挖掘不同治疗方案下的关键指标，以及患者当前状态和关键指标的匹配程度，反过来推荐检查选项和最有可能的治疗方案。

然而，目前国内只能基于医生自己的判断或者根据统一化的检查流程对患者进行检查建议。缺乏病例数据驱动的、能为患者推荐下一项最优检查项目的解决方案。为此，本发明设计了基于治疗方案分配的下一项医疗检查推荐的方法。该方法在不依赖医生个人经验的前提下，自主学习历史病理数据，进而推荐最有可能帮助确认治疗方案的下一项最优检查项目。本发明在减少医疗检查次数、快速合理确认治疗方案、节约医疗成本方面，具有现实意义和良好应用前景。针对历史病例数据以及相对应的治疗方案，本发明利用显式主题分配技术，将不同的治疗方案分配到患者不同特征上，从而挖掘治疗方案与稀疏多样的患者特征之间的关系；以及确定不同治疗方案组合下包含了重要特征的基准集合，然后，根据目标患者当前的检查结果，计算其与基准集合的匹配度。再根据匹配度以及各缺失特征的重要程度，确定目标患者需要补充验证的特征，该特征所对应的检查即为该患者下一项需要进行的医疗检查。该项医疗检查相对于其他检查而言，在尽可能减少检查次数的情况下，帮助确认患者的治疗方案，从概率的角度，属于当前最优检查选择。

专利文献CN112397196A(申请号：CN201910760742.7)公开了一种生成影像检查推荐模型的方法和装置：该方法的一具体实施方式包括：获取目标患者信息样本集，其中，目标患者信息样本集中的目标患者信息样本包括目标患者的影像检查信息、基本体征信息、症状信息、体格检查信息和化验信息；从目标患者信息样本集中选取目标患者信息样本，执行以下训练步骤：将选取的目标患者信息样本的基本体征信息、症状信息、体格检查信息和化验信息输入初始模型，得到影像检查信息；将得到的影像检查信息和目标患者信息样本的影像检查信息进行对比；根据对比结果确定初始模型是否训练完成；响应于确定初始模型训练完成，将初始模型确定为影像检查推荐模型。该方法只针对影像检查进行推荐，推荐过程中只考虑了患者病例信息，而没有考虑之后可能的治疗方案信息；除了可以给出检查推荐外，不能给出治疗方案的推荐，也不能给出推荐该检查的理由；不能分析检查项目和治疗方案之间的关系。

专利文献CN108565019A(申请号：CN201810332094.0)公开了一种多学科适用的临床检查组合推荐方法及装置：该方法包括：获取患者的症状信息；将所述症状信息输入已构建的多标签贝叶斯分类器，得到所述患者所患疾病的预测集合，其中，所述多标签贝叶斯分类器是用从电子病历中提取到的症状以及诊断结果训练得到的；根据所述预测集合从医疗知识图谱中确定医疗检查的推荐项组合，其中，所述医疗知识图谱包括症状实体、疾病实体、单检查实体和检查组实体，所述检查组实体是通过计算所述单检查实体的频繁项集确定的。该方法先通过症状预测或判断患者可能的疾病，再基于预测的疾病，利用医疗知识图谱关联相关检查，进行推荐。与本专利技术路线不一样，该专利不能发现治疗方案组合和患者属性之间的关系，不能根据患者属性情况进一步推荐治疗方案，本专利不存在疾病判断和疾病集合，不需要建立疾病和检查方案之间的关联关系。

专利文献CN106126873A(申请号：CN201610373723.5)公开了一种治疗方案推荐方法，包括以下步骤：获取用户的问题信息与个人信息；将第一问题信息及第一个人信息与知识库中的各解决案例中的问题信息及个人信息进行匹配，获取匹配成功且符合第一预设条件的解决案例中的治疗方案作为第二治疗方案；将第二治疗方案推荐给用户。该专利不能同时展示每种治疗方案组合下，不同特征的重要性，不能为医护人员进一步洞察病理机制提供有效的辅助信息。

专利文献CN109859851A(申请号：CN201811606759.9)公开了一种治疗方案推荐方法和装置，本发明涉及大数据领域，该方法包括：获取目标患者的患病信息，患病信息至少包括目标患者的症状；根据目标患者的患病信息从目标数据库中查找治疗方案，得到多个候选治疗方案，目标数据库中存储了多个患者的患病信息和治疗方案，候选治疗方案关联的患者的症状与目标患者的症状之间的相似度满足预设条件，候选治疗方案至少包括药品名称和药品用量；获取第一临床用药数据；根据第一临床用药数据对多个候选治疗方案进行筛选，得到至少一个目标治疗方案；输出目标治疗方案。但该专利不能为患者提供候选治疗方案组合，并评估该组合与患者情况的匹配性，不可以展示每种治疗方案组合下，不同特征的重要性，为医护人员进一步洞察病理机制提供有效的辅助信息。

发明内容

针对现有技术中的缺陷，本发明的目的是提供基于显式主题分配技术的医疗检查推荐方法及系统。

根据本发明提供的一种基于显式主题分配技术的医疗检查推荐系统，包括：

模块M1：建立LLDA模型；

模块M2：利用历史病例及治疗方案对LLDA模型进行训练，得到训练后的LLDA模型；

模块M3：将患者当前已有信息输入训练后的LLDA模型，得到患者下一项应该做得医疗检查选项以及与患者当前状态最匹配的治疗方案。

优选地，所述模块M1采用：

将每个患者结构化且非空的属性转化为不同的属性名以及相应的属性值的特征，并作为LLDA模型当中的词；

将每个患者所有特征组成的集合作为LLDA模型当中的文档；

将每个患者的治疗方案作为LLDA模型当中的标签。

优选地，所述模块M2采用：基于历史病例及治疗方案，利用收缩的吉布斯采样策略，对LLDA模型进行训练。

优选地，所述模块M2采用：

针对患者u，患者u的每个特征ω_i的治疗方案z_u，特征ω_i的采样概率表示为：

其中，i表示特征的标号；j表示治疗方案标号；

表示患者除特征ω_i外所有特征当前的主题；α，β分别表示“患者-治疗方案”和“治疗方案-特征”先验概率分布；V表示总的特征数量；K表示总的治疗方案的数量；

表示被分配了治疗方案j的特征ω_i的数量，

表示针对患者u，患者u属性被分配成治疗方案j的个数；

表示特征ω_i的先验概率，α_j表示治疗方案j的先验概率。

优选地，所述模块M3采用：

模块M3.1：在LLDA模型训练完成后，确定不同治疗方案组合Δ＝{Λ_i|i＝1,2,3,…}下，每个特征的权重比例；

考虑不同治疗方案之间是独立的，给定治疗方案组合Δ,每个特征重要性P(ω|Δ)的贝叶斯形式的计算方式如下：

其中，Λ_i表示不同的治疗方案；P(Λ_i)表示在当前组合Δ＝{Λ_i|i＝1,2,3,…}下，治疗方案Λ_i统计比例；P(z＝j|Λ_i)表示指示函数，考虑独立性，仅当Λ_i＝j时，值为1，否则为0；P(ω∣z＝j)为LLDA模型学出的“治疗方案-特征”分布，在治疗方案为j的情况下，特征ω的概率；

模块M3.2：针对每种治疗组合，利用特征权重，对特征进行降序排序，选取权重最大的N个特征组成基准集合；

模块M3.3：计算目标患者的特征集合与各基准集合的匹配度s_Δ,u，表达式如下：

其中，

表示异或操作符；

表示特征ω_j的属性名；P(ω_j|u)和

为患者u的两个指示函数；当用户拥有特征ω_j，指示函数P(ω_j|u)为1，否则为0；同样的，当患者存在与特征ω_j属性名相同的特征，则指示函数

取值1，否则为0；P(ω_j|Δ)表示表示在治疗方案组合Δ下，特征ω_j的权重；Φ_Δ表示治疗方案组合Δ所对应的基准集合；α_Δ,u为标准化之前的匹配度；

模块M3.4：根据患者属性集合与基准集合匹配度、特征权重以及特征缺失情况，计算每个特征检查增益值

表达式如下：

其中，

表示治疗方案组合Δ_i所对应的基准集合；P(ω|Δ_i)表示在治疗方案组合Δ_i下，特征ω_j的权重；

表示指示函数；当条件

满足时，取值为1，否则为0，max函数将所有负值转化成0，避免匹配度为负值的基准集合的影响；

模块M3.5：将检查增益值按照从大到小顺序，所有特征对对应的检查选项列表为推荐列表；

模块M3.6：根据患者属性集合与基准集合的匹配度，确定患者治疗推荐方案，当匹配度大于等于预设值时，则推荐当前治疗方案；当匹配度小于预设值时，则继续评估治疗方案组合或推荐下一项检查。

根据本发明提供的一种基于显式主题分配技术的医疗检查推荐方法，包括：

步骤S1：建立LLDA模型；

步骤S2：利用历史病例及治疗方案对LLDA模型进行训练，得到训练后的LLDA模型；

步骤S3：将患者当前已有信息输入训练后的LLDA模型，得到患者下一项应该做得医疗检查选项以及与患者当前状态最匹配的治疗方案。

优选地，所述步骤S1采用：

将每个患者所有特征组成的集合作为LLDA模型当中的文档；

将每个患者的治疗方案作为LLDA模型当中的标签。

优选地，所述步骤S2采用：基于历史病例及治疗方案，利用收缩的吉布斯采样策略，对LLDA模型进行训练。

优选地，所述步骤S2采用：

其中，i表示特征的标号；j表示治疗方案标号；

表示被分配了治疗方案j的特征ω_i的数量，

表示针对患者u，患者u属性被分配成治疗方案j的个数；

表示特征ω_i的先验概率，α_j表示治疗方案j的先验概率。

优选地，所述步骤S3采用：

步骤S3.1：在LLDA模型训练完成后，确定不同治疗方案组合Δ＝{Λ_i|i＝1,2,3,…}下，每个特征的权重比例；

步骤S3.2：针对每种治疗组合，利用特征权重，对特征进行降序排序，选取权重最大的N个特征组成基准集合；

步骤S3.3：计算目标患者的特征集合与各基准集合的匹配度s_Δ,u，表达式如下：

其中，

表示异或操作符；

表示特征ω_j的属性名；P(ω_j|u)和

取值1，否则为0；P(ω_j|Δ)表示在治疗方案组合Δ下，特征ω_j的权重；Φ_Δ表示治疗方案组合Δ所对应的基准集合；α_Δ,u为标准化之前的匹配度；

步骤S3.4：根据患者属性集合与基准集合匹配度、特征权重以及特征缺失情况，计算每个特征检查增益值

表达式如下：

其中，

表示指示函数；当条件

步骤S3.5：将检查增益值按照从大到小顺序，所有特征对对应的检查选项列表为推荐列表；

步骤S3.6：根据患者属性集合与基准集合的匹配度，确定患者治疗推荐方案，当匹配度大于等于预设值时，则推荐当前治疗方案；当匹配度小于预设值时，则继续评估治疗方案组合或推荐下一项检查。

与现有技术相比，本发明具有如下的有益效果：

1、将稀疏多样的患者属性转化成具有基本语义“属性名：属性值”的特征，避免缺失值处理、样本对齐等问题，方便对特征进行治疗方案的分配；

2、突破国内医院以往只能依靠专业医护人员的建议或者遵循统一化的检查流程的情况，将医疗数据驱动的方法运用到下一项医疗检查个性化推荐当中，作为医生决策的有效参考，能够合理缓解医疗检查资源紧张的问题；

3、在推荐医疗检查项目的同时，可以为患者提供候选治疗方案组合，并评估该组合与患者情况的匹配性；

4、同时可以展示每种治疗方案组合下，不同特征的重要性，为医护人员进一步洞察病理机制提供有效的辅助信息。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于显式主题分配技术的医疗检查推荐流程图；

图2为患者属性及治疗方案表；

图3为治疗方案-特征分布表；

图4为治疗方案组合及其基准集合(Top-3)；

图5为患者属性与基准集合匹配度；

图6为各属性检查增益值。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

本发明要解决的技术问题体现在以下几点：

(1)将稀疏多样的患者属性转化成具有基本语义“属性名：属性值”的特征，避免缺失值处理、样本对齐等问题，方便对特征进行治疗方案的分配；

(2)根据不同治疗方案在患者特征上的分配情况，确定不同治疗方案组合下包含多个关键特征的基准集合；

(3)计算目标患者特征集合与基准集合的匹配度，并设置存在冲突特征情况时的惩罚措施；

(4)计算每个特征检查的增益值；

(5)根据增益值确定下一项检查。

基于上述技术问题，本发明提供一种基于显式主题分配技术的医疗检查推荐系统，包括：

模块M1：建立LLDA模型；

具体地，所述模块M1采用：

将每个患者结构化且非空的属性转化为不同的属性名以及相应的属性值的特征，并作为LLDA模型(标签主体模型)当中的词；

将每个患者所有特征组成的集合作为LLDA模型当中的文档；

将每个患者的治疗方案作为LLDA模型当中的标签。

具体地，所述模块M2采用：基于历史病例及治疗方案，利用收缩的吉布斯采样(Collapsed Gibbs Sampling)策略，对LLDA模型进行训练。

具体地，所述模块M2采用：

其中，i表示特征的标号；j表示治疗方案标号；

表示被分配了治疗方案j的特征ω_i的数量，

表示针对患者u，患者u属性被分配成治疗方案j的个数；

表示特征ω_i的先验概率，α_j表示治疗方案j的先验概率。

另外，在LLDA当中，候选的j严格受到真实对应的治疗方案的限制，即j只能从患者u的治疗方案当中选择。

具体地，所述模块M3采用：

模块M3.2：针对每种治疗组合，利用特征权重，对特征进行降序排序，选取top-N权重最大的N个特征组成基准集合；

其中，

表示异或操作符；

表示特征ω_j的属性名；P(ω_j|u)和

类似于指示函数，分别当患者拥有该特征；当用户拥有特征ω_j，指示函数P(ω_j|u)为1，否则为0；同样的，当患者存在与特征ω_j属性名相同的特征，则指示函数

因为不同属性有不同属性值，所以可以构造多个不同的特征，当属性名相同但值不同时，该特征之间是冲突的，因此，在计算匹配度时应该受到惩罚，上述表达式中异或操作则起到了该作用，当存在特征冲突时，异或结果为1，总的匹配度则要减去该冲突特征带来的影响，即减去该冲突特征权重P(ω_j|Δ)，该特征所对应的检查不必重复再做；

表达式如下：

其中，

表示指示函数；当条件

根据本发明提供的一种基于显式主题分配技术的医疗检查推荐方法，如图1所示，包括：

步骤S1：建立LLDA模型；

具体地，所述步骤S1采用：

将每个患者所有特征组成的集合作为LLDA模型当中的文档；

将每个患者的治疗方案作为LLDA模型当中的标签。

具体地，所述步骤S2采用：基于历史病例及治疗方案，利用收缩的吉布斯采样(Collapsed Gibbs Sampling)策略，对LLDA模型进行训练。

具体地，所述步骤S2采用：

其中，i表示特征的标号；j表示治疗方案标号；

表示被分配了治疗方案j的特征ω_i的数量，

表示针对患者u，患者u属性被分配成治疗方案j的个数；

表示特征ω_i的先验概率，α_j表示治疗方案j的先验概率。

具体地，所述步骤S3采用：

步骤S3.2：针对每种治疗组合，利用特征权重，对特征进行降序排序，选取top-N权重最大的N个特征组成基准集合；

其中，

表示异或操作符；

表示特征ω_j的属性名；P(ω_j|u)和

取值1，否则为0；P(ω_j|Δ)表示表示在治疗方案组合Δ下，特征ω_j的权重；Φ_Δ表示治疗方案组合Δ所对应的基准集合；α_Δ，u为标准化之前的匹配度；

因为不同属性有不同属性值，所以可以构造多个不同的特征，当属性名相同但值不同时，该特征之间是冲突的，因此，在计算匹配度时应该受到惩罚，上述表达式中异或操作则起到了该作用，当存在特征冲突时，异或结果为1，总的匹配度则要减去该冲突特征带来的影响，即减去该冲突特征权重P(w_j|Δ)，该特征所对应的检查不必重复再做。

表达式如下：

其中，

表示指示函数；当条件

实施例2：

实施例2是实施例1的优选例

假设有如图2所示的患者属性及治疗方案表。根据这些信息，下一项医疗检查推荐及治疗方案组合评估方法具体步骤如下：

步骤1：将图2中每个患者结构化且非空的属性转化成不同的“属性名：属性值”的特征，如u1：{A1：v1，A2：v2，A3：v3}，集合中的元素如A1：v1等相当于用户u1的文档，t1为u1的治疗方案，相当于其主题。

步骤2：设置α，β初始值，对上述步骤1中所有患者的所有特征随机分配治疗方案。根据如下所示采样概率，对每个特征重新分配治疗方案，重复这一步骤直至每个特征的治疗方案不发生变化或变化小于指定标准。最终基于统计，可得到如图3所示的治疗方案-特征分布。

步骤3：确定不同治疗方案组合，如{(t1)，(t2)，(t1，t2)}，计算每种组合下每个特征的权重比例。在组合(t1，t2)的中，令P(t1)＝P(t2)＝0.5，则特征权重计算的一个示例如下：

P(‘A2：v2’(t1，t2))＝0.5*0.6+0.5*0＝0.3

步骤4：针对每种治疗组合，利用特征权重，对特征进行降序排序，选取权重最大的3个特征组成基准集合，得到如图4所示的治疗方案组合及其基准集合(top-3)。

步骤5：计算目标患者的特征集合与各基准集合的匹配度s_Δ，u，得到如图5所示的患者属性与基准集合匹配度表，其中一个计算示例如下：

步骤6：根据患者属性集合与基准集合匹配度、特征权重、以及特征缺失情况，计算每个特征检查增益值

得到如图6所示的各属性检查增益值，其中一个计算示例如下：

步骤7：针对目标患者，如u3，将以上特征检查增益值按照从大到小排序，得到患者u3检查增益最大的特征为A1：v1，因此，推荐图2中A1所对应的“检查1”作为其下一项检查。

步骤8：评估如图5所示的患者属性与基准集合匹配度情况，可以发现

因此，从统计的角度，可以直接推荐t1作为u1的治疗方案。同时，根据当前的检查结果，可以判断(t1，t2)最有可能成为u3的组合治疗模式，因为u3的属性集合与(t1，t2)的基准集合最匹配，匹配度为0.714。若将阈值设置为0.7，则可不必再做下一步检查，直接推荐(t1，t2)作为治疗方案。进一步分析可以看出，之所以模型会推荐u3做“检查5”，是因为通过“检查5”的结果，可以进一步评估(t1，t2)是否适合u3。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。