CN115238168A

CN115238168A - 一种自适化远程医疗专家推荐方法

Info

Publication number: CN115238168A
Application number: CN202210625044.8A
Authority: CN
Inventors: 翟运开; 路薇; 陈昊天; 高盼; 陈亚军; 卫东乐; 卢耀恩; 石金铭
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-10-25

Abstract

本发明公开了一种自适化远程医疗专家推荐方法，属于远程医疗技术领域，包含数据集成与预处理、患者特征建模、面向专家长短期知识的特征建模和融合推荐模型构建，基于患者病历、远程医疗专家长短期知识背景构建了具有反馈调节的自适应推荐模型，解决了远程医疗情境下的个性化专家推荐的技术问题，在患者满意的同时使推荐更具时效性。在充分刻画患者和专家知识背景的基础上，提出了专家推荐指数，并将专家活跃度与兴趣度及患者效用反馈纳入同一推荐框架，使推荐结果分布向最频繁、最活跃的专家倾斜，提升推荐能力，在数据稀疏性和隐私保护前提下具有可操作性。

Description

一种自适化远程医疗专家推荐方法

技术领域

本发明属于远程医疗技术领域，尤其涉及一种自适化远程医疗专家推荐方法。

背景技术

远程医疗是解决医疗资源不均衡问题的战略途径，因其能够借助互联网技术提供跨区域、跨机构的诊疗服务而得到了蓬勃发展。远程医疗在使用过程中已收集、积累了大量代表患者健康状况的临床数据，明显增加了可用于面向患者决策的数字信息，使得数据驱动个性化医疗服务成为可能。但现有远程医疗服务并未充分利用和发挥其大数据价值。

患者最关心的是如何找到最专业的医学专家来解决他们的健康问题，但对患者来说，为自己挑选合适的专家极具挑战性，尤其是在没有合适的匹配机制的情况下。面对信息体量的快速增长，由于患者缺乏专业的医疗背景和知识，他们在寻找合适的专家时不知所措，面临巨大的时间和搜索成本，使得问题不能得到及时有效地解决，甚至造成医疗资源的浪费，降低诊疗效率。因而目前大多采用申请方医生或调度人员人工推荐的方式为患者选择会诊专家。但随着会诊量的增加，人工推荐的方式无法保证医疗服务的专业性和质量，加之医疗信息的不对称性，易引起患者的不信任，进而影响医患关系和患者满意度。

个性化推荐是解决信息过载和“知识迷向”问题的有效途径，能够帮助患者和远程医疗调度人员过滤掉大量不相关的医生，从专业层面快速准确地找到符合患者需求的远程医疗专家，降低患者搜索成本，辅助医疗决策，确保医疗服务价值的有效实现，从而为患者和远程医疗机构增益

尽管推荐系统已被尝试运用于医疗保健领域，然而已有研究也存在一些不足：①大多患者与医生之间的交互数据较少，因为他们很少生病；同时，出于隐私保护，患者不愿在在线平台上透漏过多个人信息，数据稀疏性问题导致难以捕捉患者偏好，从而导致推荐效果不佳。 ②单一地根据患者的择医偏好为其提供个性化推荐，忽略了患者对不同推荐方式的选择偏好。③忽视了医生的兴趣度和活跃度及其随时间的变化，导致匹配成本增加，从而影响整个系统性能。④存在冷启动问题，新注册医生由于历史数据的不足缺乏展示机会，难以被发现。同时，由于以下原因，远程医疗情境下的医生推荐仍具有挑战性：①区别于传统推荐，极少患者会就不同种类的保健项目进行投票或评分，这给协同过滤机制带来了困难；②健康相关数据较为敏感，在远程医疗情境下，患者无法获得其他类似患者的信息，其决策行为不会受到其他患者的影响，这给采用基于社交网络的推荐系统带来了困难。

发明内容

本发明的目的是提供一种自适化远程医疗专家推荐方法，解决了基于患者病历、远程医疗专家长短期知识背景，通过构建具有反馈调节的自适应推荐模型，来实现远程医疗情境下的个性化专家推荐的技术问题。

为实现上述目的，本发明采用如下技术方案：一种自适化远程医疗专家推荐方法，包括如下步骤：

步骤1：数据集成与预处理模块首先从远程医疗平台数据库中积累的业务数据和在线医疗平台中的医生简介数据，并将收集到的数据集成为原始数据；业务数据中包含患者病历；

数据集成与预处理模块对原始数据进而预处理，利用自定义用户字典识别医疗领域专业词汇，利用停用词列表过滤掉无意义的词、数字和符号；生成语料数据并存入语料库中；

步骤2：患者特征建模模块从语料库中获取语料数据，利用词的上下文信息将语料数据中的高维语句转换成低维实数向量，提取出描述患者特征的关键词，形成患者特征模型；

对比患者特征模型，以专家诊断过的相似患者的最高相似值作为专家初始推荐指数，构建初始的推荐专家候选集；

步骤3：长短期知识特征建模模块分别对专家的长期知识特征和短期知识特征进行建模，生成专家长短期知识特征，具体包括如下步骤：

步骤S3-1：在对长期知识特征进行建模时，首先从专家简介中提取专家的长期知识特征，然后对长期知识领域进行知识视图相似性测算，更新新注册专家的初始推荐指数，并按照相似性排序更新推荐专家候选集；

步骤S3-2：在对短期知识特征进行建模时，选用LDA(Latent DirichletAllocation)主题模型凝练专家诊断过的病历文本，从中识别代表疾病类别的隐藏主题，隐藏主题代表医生擅长的疾病特征，一个专家属于一个或多个隐藏主题，生成基于隐藏主题的专家短期知识特征描述框架，在语义层面扩展推荐专家候选集；

步骤4：在患者特征模型和专家长短期知识特征的基础上，融合专家活跃度和兴趣度，以及患者主客观感知效用构建带有反馈调节的可解释性专家推荐模型，使得推荐结果向积极性的专家倾斜。

优选的，在执行步骤2时，具体包括如下步骤：

步骤S2-1：加载同义词字典、特征词字典和停用词表，对患者病历进行规范化处理、中文分词、文本标注和特征词提取；

步骤S2-2：在引入特征词典和停用词表的基础上，利用文本分词技术将文本转换为由词语组成的特征词集，然后借助word2vec模型计算出文本中每个关键词的向量，并对不重复的词向量取平均值，进而合成句向量表示文本的最终向量；

步骤S2-3：采用词频-逆文档频率值作为特征词权重，刻画特征词的重要程度,得到矢量化文本；

步骤S2-4：利用计算余弦相似度的方法计算矢量化文本间的相似度；

步骤S2-5：以专家诊断过的相似患者的最高相似值作为专家初始推荐指数，完成患者特征到专家特征的映射，即通过目标患者特征与专家诊断的患者特征之间的相似性映射医-患背景的相似性，将相似患者的诊治专家组成初始推荐专家候选集。

优选的，在执行步骤S2-5时，采用以下两个步骤构建推荐专家候选集：

步骤S2-5-1：统计所有相似专家，将其相似患者的最高相似度作为专家初始推荐指数，并按照专家初始推荐指数进行降序排序；

步骤S2-5-2：从排序结果中取前十名纳入候选集。

优选的，在执行步骤S3-2时，基于知识的属性特征采用Jaccard 相似系数来计算知识视图中的知识之间的属性相似性。

优选的，在执行步骤S3-1时，具体包括如下步骤：

步骤S3-1-1：通过计算专家知识属性的视图相似性来表征专家长期知识领域之间的相似度，构建专家知识属性矩阵；采用频次统计方法对专家简介信息不完整的特征模型进行缺失值填充；

步骤S3-2-2：根据专家擅长疾病构建其知识结构，并通过计算专家之间的知识视图相似性来预测专家的能力匹配。

优选的，在执行步骤S3-2时，具体包括如下步骤：

步骤S3-2-1：整合专家诊断过的患者病历文本作为专家短期知识背景，进而形成LDA主题模型训练语料库，从而对专家短期知识特征模型进行构建和训练；

步骤S3-2-2：通过LDA主题模型的主题聚类凝练出隐藏的主题以及每个医生的“文档-主题”分布；

步骤S3-2-3：LDA主题模型的主题聚类生成的“主题-词项”概率分布用于完成对专家短期知识特征的表达；

在LDA主题模型中文本采用服从Dirichlet(Dirichletdistribution)分布的主题概率向量来衡量，若使用余弦夹角来计算文本相似度就失去了主题模型的优势，KL散度作为一种衡量两个概率分布差异性的方法，常被用来计算文档主题分布向量的相似度，但由于KL散度的不对称性使其不能用作距离测量，作为KL散度的变形，具有对称性的 JS散度被提出来弥补KL散度的不足；因此采用JS散度的变形来衡量概率分布的相似度；

步骤S3-2-3：基于“文档-主题”概率分布的相似性得到与推荐专家候选集中具有相似知识特征的专家，并以此作为面向专家短期知识特征的推荐指数，这些具有相似知识特征的专家也具有诊疗目标患者的能力。

优选的，在执行步骤4时，具体包括如下步骤：

步骤S4-1：专家S_j的最近活跃度AC_j计算如下公式所示：

其中，T表示专家会诊时间的合集，t_c表示目标患者申请时间，t_l表示该专家上次会诊时间，为了降低专家最近活跃度的跳跃性,将最近活跃度AC_j作如式下公式的处理：

其中，AC_max表示最活跃专家的活跃度；

步骤S4-2：采用衰减函数对会诊专家S_j的兴趣度I_j进行动态建模，其建模公式如下：

其中，N_j(t)是专家S_j在t阶段的会诊次数，N(t)是t阶段的总会诊次数，e^-t为时刻t的指数函数；

为消除权重系数融合时量纲的影响，进一步对兴趣度进行如下公式的处理，得到专家的兴趣度，I_max表示表现出最高兴趣的专家的兴趣度：

在推荐指数的基础上融合专家活跃度和兴趣度进行推荐，推荐指数包含了专家的初始推荐指数和面向专家短期知识特征的推荐指数，使推荐结果分布向最近、最频繁的专家倾斜，具体表达形式如下公式所示：

prof_score＝(γ₁LAC+γ₂AI)×ini_score×short_score；

其中，γ₁和γ₂分别是活跃度和兴趣度的权重系数，且γ₁+γ₂＝1， ini_score为专家的初始推荐指数，short_score为面向专家短期知识特征的推荐指数；

步骤S4-3：患者反馈划分为主观QoS反馈和客观QoS反馈：

主观QoS反馈指患者在得到推荐结果前对推荐指数偏好的反馈，根据患者偏好调整融合推荐指数优化推荐排序，使推荐结果关注权重更高的内容，形成可解释性推荐策略；

在对推荐指数进行规范化处理后，将上述推荐指数进行线性融合，具体表示为：

compre_score＝ω_pprof_score′+ω_qqos_score；

其中，prof_score'＝prof_score/prof_score_max，ω_p和ω_q分别为患者对专业推荐策略和服务质量的偏好权重，满足ω_p+ω_q＝1；

客观QoS反馈是指患者在服务完成后的事后评价反馈，患者根据服务过程中的感知质量对医疗服务进行评价，即患者感知效用值，体现了患者对医疗服务和专家的满意度，是对专家客观QoS值的反馈调整，设定qos_1,j,qos_2,j,...,qos_m,j是m位患者对专家S_j的综合客观QoS评价值，患者P_i在服务完成后作出qos_i,j的反馈评价，通过患者反馈进一步调整更新专家S_j的客观QoS值为：

其中，qos_u,j表示第u位患者对专家S_j的客观QoS评价值；

经标准化后转换为患者反馈感知效用指数，如下公式所示：

其中，qos_max是所有专家的最高评价值；

更新专家QoS值，对推荐结果排序的做进一步反馈调整优化。

本发明所述的一种自适化远程医疗专家推荐方法，在充分刻画患者和专家知识背景的基础上，提出了专家推荐指数，并将专家活跃度与兴趣度及患者效用反馈纳入同一推荐框架，构建了具有反馈调节的自适应推荐模型，解决了远程医疗情境下的个性化专家推荐的技术问题，在患者满意的同时使推荐更具时效性。结合专家长、短期知识特征的全面刻画专家的知识领域信息，通过对专家长期知识特征的提取，刻画新注册专家的特征知识背景，为缺乏历史诊断数据的新注册专家增加被推荐机会，在一定程度上缓解冷启动问题；专家活跃度及对远程医疗的兴趣会随时间发生变化，通过动态衡量专家在远程医疗服务中的活跃度及兴趣度，使推荐结果分布向最频繁、最活跃的专家倾斜，提升匹配成功率和推荐能力，进而提升服务效率和质量；为充分考虑患者对不同推荐方式的偏好，构建了基于电子病历的专家自适化推荐模型，通过患者偏好的反馈动态调节推荐结果，提高推荐结果的自适性与可解释性；同时，本发明所提方法减少了大量额外信息的提交，压缩数据空间，解决了数据稀疏性和隐私保护问题，该方法能够指导远程医疗实践，完善远程医疗平台建设，促进远程医疗的可持续发展。该方法同样适用于在线健康问答平台及评审专家推荐系统，考虑专家的兴趣领域及其随时间的变化，能够为专家推荐相关的问题或符合兴趣领域的评审稿件，提升推荐的合理性，保证工作效率和效果。

附图说明

图1是本发明的远程医疗专家推荐框架图；

图2是本发明的LDA概率模型图；

图3是本发明的会诊数量分布情况图；

图4是本发明的困惑度曲线图；

图5是本发明的不同权重偏好下的融合推荐模型性能曲线图；

图6是本发明的推荐结果准确率和召回率对比曲线图；

图7是本发明的基准模型和融合模型在推荐结果的相关性的对比图；

图8是本发明的基准模型和融合模型在推荐结果的活跃度的对比图；

图9是本发明的基准模型和融合模型在推荐结果的兴趣度的对比图；

图10是本发明的基准模型和融合模型这两种推荐方法的适切度评价对比图。

具体实施方式

由图1-图10所示的一种自适化远程医疗专家推荐方法，包括如下步骤：

步骤1：数据集成与预处理模块首先收集远程医疗平台数据库中积累的业务数据和在线医疗平台中的医生简介数据，并将收集到的数据集成为原始数据；业务数据中包含患者病历；

本实施例中，数据来源于双渠道，即远程医疗平台数据库中积累的业务数据和在线医疗平台中的医生简介，原始数据较为粗糙，在进行文本挖掘前需对其进行预处理工作：①提取、整合、存储相关数据信息，并对数据进行规范化、完整性检查，剔除异常数据、基于填补规则补充缺失值，进而形成可靠语料。②创建自定义用户字典以使医疗领域专业词汇能够被正确识别。③创建停用词列表过滤掉对本实施例无意义的词、数字和符号，以便后文的数据分析，提高推荐准确率。

步骤S2-1是特征词标化过程，患者病历以专业化的术语组成了患者病症的特征描述，面对专业性强、表述方式因人而异的医学术语，本实施例加载同义词字典、特征词字典和停用词表进行患者病历进行规范化处理、中文分词、文本标注和特征词提取。这一策略可增强文本的表征力，使得专业术语能够被正确识别和划分，压缩特征空间维度，提高数据处理效率。

步骤S2-2是文本矢量化表示过程，在引入特征词典和停用词表的基础上，利用文本分词技术将文本转换为由词语组成的特征词集，然后借助word2vec模型计算出文本中每个关键词的向量，并对不重复的词向量取平均，进而合成句向量表示文本的最终向量。如患者p_i的病历d_i由f个特征词构成，其规范化表示为：

p.feature_profile＝{w_k|w_k∈d_i，k＝1，2，...，f}，d_i表示患者p_i的病历文本，w_k表示第k个特征词，其对应的词向量为 v_k＝{v_k1,v_k2,...,v_kp}。

步骤S2-3是特征词权重计算过程，词频(Term frequency,TF)是指给定单词在文本中出现的频率，而逆文档频率(Inverse document frequency,IDF)是衡量单词重要性的指标。则

中的关键词w_k的 tf-idf值表示为：

tf-idf(w_k,d_i)＝tf(w_k,d_i)×idf(w_k)

其中，n_k,i表示特征词w_k在病历文档d_i中出现的频次；m表示所有病历的数量；|{d:w_k∈d}|表示包含特征词w_k的病历数量。但是，若病历中不包含w_k，除数将变为0使公式无意义，因此，|{d:w_k∈d}| 通常表示为1+|{d:w_k∈d}|。tf-idf的值越大，该特征词在病历中的重要程度越高，反之亦然。因此，本实施例采用tf-idf值作为特征词权重，刻画特征词的重要程度。病历d_i的特征向量表示为：

步骤S2-4是文本相似性测度过程，本实施例中，矢量化的文本可以利用余弦相似度计算文本间的相似度，即各文本与目标文本的相似度Sim(d_i,d_j)。余弦相似度是一种最简单、有效的向量相似度计算方法，其公式如下所示：

为推荐优质医生，需返回高相似度患者的会诊专家，但是由于远程会诊患者并不是常见疾病或特征，因此，设置相似度阈值会限制推荐结果，本实施例采用以下两个步骤构建推荐专家候选集：

步骤S2-5-2：从排序结果中取前十名纳入候选集。

步骤3：短期知识特征体现了专家近期的关注与兴趣变化，长期知识特征体现了专家持续性的特质，相对较稳定。二者结合能够更加全面的刻画专家的领域知识信息，提高推荐的准确性和科学性。病历库反映了专家在一定时间段内诊疗的疾病特征，而网页上公布的专家简介表征了专家持续性积累的经验及长期关注的疾病领域，因此专家的短期知识特征以病历库为基础，专家的长期知识特征从专家简介中提取。

基于患者病历文本相似性确定推荐专家候选集的推荐策略只能发现诊断过与目标患者具有相似病情的专家，对于系统中新注册或诊断数量较少的专家，由于业务量少、缺乏足够的业务数据支撑，以至于被推荐机会不高。为解决新注册医生的冷启动问题，本实施例面向专家医生的长期知识领域进行知识视图相似性测算，赋予新注册医生初始推荐指数，进而增加他们的推荐机会，在一定程度上缓解冷启动问题。

长短期知识特征建模模块分别对专家的长期知识特征和短期知识特征进行建模，生成专家长短期知识特征，具体包括如下步骤：

步骤S3-1：在对长期知识特征进行建模时，首先从专家简介中提取专家长期知识特征，然后对长期知识领域进行知识视图相似性测算，更新新注册专家的初始推荐指数，按照相似性排序更新推荐专家候选集；

在执行步骤S3-1时，具体包括如下步骤：

本实施例针对知识的多样性，根据其所属领域、研究专长等赋予其不同的属性，如：医生和疾病之间存在多对多的关系，即一个医生可能擅长多种疾病，一种疾病也可被多个医生擅长，医生专长可以用向量表示，且取值为{0,1}，1表示医生擅长该疾病，0则表示不擅长该疾病。因此，本实施例通过计算医生知识属性的视图相似性来表征医生长期知识领域之间的相似度，为此构建如表1所示的专家知识属性矩阵：

表1

专家简介信息的不完整使得特征模型面临数据稀疏性问题。如果取所有医生同时具有的属性作为填充值，则相似度偏低，为保持中立，本实施例采取频次统计方法进行缺失值填充。具体是，假设a_jp为缺失值，即专家S_j的第p个知识属性未知，若

则令a_jp＝1，否则a_jp＝0。其中，|S|为专家总数，专家长期知识特征规范化描述为d.feature_profile＝{a_jp,j＝1,2,...,n；p＝1,2,...,g}。

步骤S3-2-2：根据专家擅长疾病构建其知识结构，并通过计算专家之间的知识视图相似性来预测专家的能力匹配；

根据医生擅长疾病构建其知识结构，并通过计算医生之间的知识视图相似性来预测医生的能力匹配。基于知识的属性特征，本实施例采用Jaccard系数来计算知识之间的属性相似性，其计算公式为

其中，A(j)和A(h)分别表示专家S_j和S_h的知识属性集， |A(j)∩A(h)|表示专家S_j和S_h同时拥有的知识个数， |A(j)∪A(h)|表示专家S_j和S_h共有的知识个数。

此外，基于不同知识的贡献和重要程度的差异性，通过权重对不同知识加以区分，得到加权的Jaccard知识视图相似度：

其中，ω(a)是知识属性的权重。为充分利用属性信息，通过信息熵的大小为属性确权，权重是从数据中学习的，避免了专家确权的主观性过强，即

ω(a)＝-p(a)log₂p(a)-(1-p(a))log₂(1-p(a))；

其中，p(a)为属性a出现的概率，n(a)为属性a出现的次数。

为返回具有相似知识领域背景的专家，本实施例设置专家相似性阈值为0.7，若Sim_Knowledge≥0.7，则返回该专家索引值。同时，更新新注册专家的初始推荐指数

并按照相似性排序更新推荐专家候选集。其中，ini_score_h为符合阈值要求的相似专家的初始推荐指数，q为新注册专家的相似专家数量。

步骤S3-2：基于LDA的专家短期知识特征模型仅通过寻找相似患者形成推荐专家候选集的推荐策略是片面的，系统中可能存在其他符合目标患者需求的专家。LDA主题概率模型将专家知识特征映射至隐主题空间，在同一主题下寻找具有相似概率分布的专家，能够从语义层面有效识别出擅长诊治相似疾病的医生，大大降低寻找相似医生的规模和时间成本。因此，本实施例选用LDA主题模型凝练专家诊断过的病历文本，从中识别代表疾病类别的隐藏主题，这些主题代表医生擅长的疾病特征，每个专家属于一个或多个隐藏主题，生成基于主题的专家短期知识特征描述框架，在语义层面扩展推荐专家候选集。

LDA模型是一种用于语料库建模的非监督产生式概率方法，是主题建模最常用的方法。LDA根据文档和词汇的概率分布将高维文本-词汇矩阵分为两个低维的文档-主题矩阵和主题-词汇矩阵，从而得到文档的主题分布。一条文本的生成过程可以形式化表述如下：①从 Dirichlet(α)分布中抽取文档d下的多项式主题分布θ_d，即 θ_d～Dirichlet(α)；②从Dirichlet(β)分布中抽取主题t下的多项式词分布

即

③对于文档d中的词w_k，从以θ_d为参数的多项式分布中抽取主题z_n，即z_n-Multi(θ_d)，从以

为参数的多项式分布中抽取文档d中的第k个单词，即

其概率模型如图2所示。

LDA的建模过程可以描述为为每个资源寻找主题的混合，即文档中的每个词以特定概率选择某个主题，并从主题中以一定概率选择某个特征词来得到，该过程可形式化为以下公式。

其中，P(w_k|d_i)是给定文档d_i中第k个特征词的概率；z_n是潜在主题，其数量是预设的，P(w_k|z_n)是特征词w_k出现在主题z_n的概率； P(z_n|d_i)是从文档d_i的主题z_n中选择特征词的概率。

在对短期知识特征进行建模时，选用LDA(Latent Dirichlet Allocation)主题模型凝练专家诊断过的病历文本，从中识别代表疾病类别的隐藏主题，隐藏主题代表医生擅长的疾病特征，一个专家属于一个或多个隐藏主题，生成基于隐藏主题的专家短期知识特征描述框架，在语义层面扩展推荐专家候选集；

在远程医疗情境中，一位专家可以诊疗多名患者，一名患者也可以通过多次申请享受同一位或多位专家的服务。本发明侧重于由专家诊断过的患者病历文本组成的专家短期知识，因此，医患对应关系类型对本发明影响不大。鉴于此，本发明在隐私保护基础上，在隐主题空间上构建面向短期知识特征的专家知识模型，其建模过程具体包括如下步骤：

步骤S3-2-2：通过LDA主题模型的主题聚类凝练出隐藏的主题 topic(t)＝{topic₁,topic₂,...,topic_k}以及每个医生的“文档-主题”分布d.topic_profile＝{t₁,t₂,...,t_k}，k为经过LDA主题聚类出的主题数；

步骤S3-2-3：LDA主题聚类生成的“主题-词项”概率分布可完成对专家短期知识特征的表达 d.feature_profile＝{＜f_i,ω_i＞,i＝1,2,...,n}，f_i为主题下的特征词，ω_i为特征词的权重，n为特征词个数；

步骤S3-2-3：基于“文档-主题”概率分布的相似性得到与推荐专家候选集中具有相似知识特征的专家，并以此作为面向专家短期知识特征的推荐指数short_score，这些相似专家也具有诊疗目标患者的能力。

在LDA模型中，文本用服从Dirichlet分布的主题概率向量来衡量，若使用余弦夹角来计算文本相似度就失去了主题模型的优势。KL散度作为一种衡量两个概率分布差异性的方法，常被用来计算文档主题分布向量的相似度，则两个分布P和Q的KL散度可表示为：

但由于KL散度的不对称性使其不能用作距离测量，即 D_KL(P||Q)≠D_KL(Q||P)。因此，作为KL散度的变形，具有对称性的JS散度被提出来弥补KL散度的不足。D_JS∈[0,1]，D_JS的值越小，表示两个分布越相似，当两个分布相同时，D_JS＝0。两个分布 P和Q的JS散度可表示为：

两个分布越相似，D_JS的值越小，因此，为了方便进行相似度计算，本实施例对JS散度值进行转换，转换方式如下公式，其中ε为调节因子，相似度取值范围为[0,1]。

步骤4：本实施例将上述推荐指数、专家活跃度和兴趣度及患者效用反馈融合，形成带有反馈调节的远程医疗专家自适化推荐模型，在考虑患者偏好的基础上为患者推荐相关且活跃的会诊专家。首先，融合专家推荐指数与专家活跃度和兴趣度，构成基于患者病历的专业推荐方法；然后，借鉴注意力机制，引入患者感知效用反馈，通过患者主、客观QoS(Quality of Service)反馈实现可解释性推荐和推荐结果的动态调整，进一步调整优化推荐结果。

在患者特征模型和专家长短期知识特征的基础上，融合专家活跃度和兴趣度，以及患者主客观感知效用构建带有反馈调节的可解释性专家推荐模型，使得推荐结果向积极性的专家倾斜。

在执行步骤4时，具体包括如下步骤：

步骤S4-1：专家活跃度会随着时间的推移而发生变化。专家在远程医疗平台中越活跃，其愿意开展远程医疗服务的可能性越大。因此，在考虑相似性的基础上，还应考虑专家在平台中的活跃度，推荐列表应向活跃度高、具有较大热情的专家进行倾斜。专家在最近一段时间会诊病历越多，会诊间隔越小(以天为单位)，表明专家在平台中越活跃，专家S_j的最近活跃度AC_j计算如下公式所示：

其中，T表示专家会诊时间的合集，t_c表示目标患者申请时间， t_l表示该专家上次会诊时间，为了降低专家最近活跃度的跳跃性,将最近活跃度AC_j作如下公式的处理：

其中，AC_max表示最活跃专家的活跃度；

步骤S4-2：专家的会诊数量可以看作专家对远程医疗服务的显性反馈，是专家兴趣行为的表现。随着会诊频次的增加，专家表现出对远程医疗较高的偏好和兴趣，此类专家更加信任和愿意服务于远程医疗患者，这使得我们可以根据专家的会诊频次来动态衡量专家对远程医疗的兴趣。同时，用户兴趣会随着时间的演进发生变化。因此，考虑到会诊的频率和时间，采用衰减函数对会诊专家S_j的兴趣度I_j进行动态建模，其建模公式如下：

prof_score＝(γ₁LAC+γ₂AI)×ini_score×short_score；

步骤S4-3：融合推荐将专业推荐策略和患者反馈评价纳入同一框架。用户反馈是需求与服务匹配推荐环节中闭环控制的重要环节。患者反馈划分为主观QoS反馈和客观QoS反馈：

compre_score＝ω_pprof_score′+ω_qqos_score；

其中，prof_score'＝prof_score/prof_score_max，ω_p和 ω_q分别为患者对专业推荐策略和服务质量的偏好权重，满足 ω_p+ω_q＝1；

其中，qos_u,j表示第u位患者对专家S_j的客观QoS评价值；

经标准化后转换为患者反馈感知效用指数，如下公式所示：

其中，qos_max是所有专家的最高评价值；

更新专家QoS值，对推荐结果排序的做进一步反馈调整优化。

以下为本实施例中的具体的实验与分析。

样本选择与预处理

本实施例的临床实验数据从国家远程医疗中心获得，其依托郑州大学第一附属医院展开运营，专家简介信息从“好大夫在线”平台爬取，作为补充数据以刻画专家长期知识背景。由于医疗机构的不同设置会导致科室划分的差异，申请医生在申请会诊时对申请科室存在不确定性和模糊性，且由于内科和外科是医疗领域两大科室，门类多样且交叉、数据量大。因此，本实施例不考虑科室的具体分支，选取内科和外科两个部门的业务数据作为实验数据进行分析。首先，根据郑州大学第一附属医院官方网站公布的科室分布情况将具体科室划分为内科医学部、外科医学部、综合医学部、妇产科医学部、老年医学部等12大类。然后，根据研究目的，提取内科和外科医学部两个部门下属医生的会诊数据。为充分保护患者隐私，本实施例尽可能压缩数据空间，提取了包含会诊时间、诊断结果、专家名称和科室四类属性的数据集，采集2021年全年数据共9078条，数据集的统计信息如表2所示，每月会诊量分布情况如图3所示会诊数量分布情况。结合表2数据统计，经审查证实了会诊专家与患者的多对多关系。

数据集	会诊专家	患者	会诊数
				内科	131	5714	6174
外科	121	2796	2904

表2

之后，对采集数据进行预处理操作。首先，同义疾病名称应该用医学领域的具体术语替换，如：“呼衰”替换为“呼吸衰竭”，“HBV”替换为“乙肝”，保证数据的一致性，同时，采取2.3提到的频次统计方法进行缺失值填充，保证数据的完整性；其次，使用Python中的Jieba 包进行中文分词，且在分词处理过程中使用搜狗输入法词库中的医学词汇大全来构建用户词典以识别专业医学词汇，如“类风湿性关节炎”、“系统性红斑狼疮”的正确识别；最后，在哈工大停用词表的基础上根据实际情况加入对本发明无用的词汇进行停用词剔除，过滤掉无实际意义且对本实施例分析无用的词、数字和符号等，以支持文本向量化。

实验设计及评价标准

实验设计：通过设计多个对比实验来评估本实施例所提方法的性能，这些对比实验主要围绕两个方面展开：①实验验证，主题数量K 显著影响LDA主题模型的聚类效果，统计不同主题数量下的模型困惑度，确定最优主题个数，使LDA模型建模性能达到最优。②对比分析，将本实施例所提的融合策略与传统的基于内容的推荐策略进行性能对比分析，计算患者不同主观QoS反馈和不同推荐项目数量下推荐结果的准确率(Pre@N)、召回率(Rec@N)、相似度(Relevance)、活跃度(Activity)和兴趣度(Interest)。

评价标准：本实施例采用Top-N推荐系统中广泛使用的准确率、召回率作为推荐策略性能的评价指标，并通过推荐结果相关性、兴趣度和活跃度的对比分析，检验模型性能。准确率表示正确推荐项目占所有推荐项目的比率；召回率表示正确推荐项目占样本中应检索到项目的比率，这两个评价指标的计算方法如下所示。

其中，TP表示正确判别项目，FP表示错误判别项目，FN表示假阴性，即错误项目被推荐。准确率和召回率越高，模型的推荐性能越好。

相关性是指推荐专家诊断的患者与目标患者间的相似性，相似程度越高表明专家越适合为目标患者提供远程医疗服务；活跃度是指专家在远程医疗活动中的活跃程度；兴趣度是指专家对远程医疗活动所表现出的行为兴趣。

实验及结果分析

主题模型参数选择：为获取较优模型，实验需先确定模型参数。对于主题模型，主题个数的取值对建模的质量和主题的生成十分关键。若直接根据经验给定主题数量，可能导致LDA模型的性能不能达到最优，大大影响推荐效果，因而需采取科学的手段选择主题数量。本实施例采用困惑度选择主题个数，根据肘部法则选取主题数量，实验结果如图4所示，横坐标表示主题个数，纵坐标表示LDA模型的困惑度，可以看出，当K＝14时，LDA模型的困惑度最低。因此，在接下来的实验中设置主题个数为14，迭代次数为500，每个主题下展示前10个高频词。

对比实验：本实验选取2021年12月31日的数据集作为测试数据对算法进行测试，并通过不同情境下的对比实验来评估融合推荐模型的性能。若专家简介中包含目标患者疾病标签则视为正确推荐。

(1)权重系数对融合推荐策略的有效性检验

推荐热度是根据患者投票、医生回复率、口碑和患者满意度等多指标按照一定规则融合计算的结果，能够综合反映医生的服务质量。因此，本实施例提取好大夫在线的医生综合推荐热度作为各专家的初始服务质量评价值。不同偏好权重ω_q下融合推荐模型的推荐性能结果如图5所示，其中，N＝10表示专家推荐返回结果的个数，pre@10 表示推荐准确率，Rec@10表示召回率，横坐标表示ω_q的不同取值，纵坐标代表百分比。

从图5可以看出，融合方法的推荐准确率和召回率在ω_q≤0.4时保持较高水平；之后，随着权重系数ω_q的不断增大，推荐结果的准确率和召回率呈整体下降趋势，其中ω_q增加意味着患者对服务质量更为重视，削弱了医、患现实背景对推荐结果的影响，进而影响了推荐模型整体性能，因此，在进行专家推荐时不应过分强调患者感知效应。

(2)推荐结果个数对推荐模型的有效性检验

专家推荐根据患者病历文本的相似性来实施专家推荐，这是典型的基于内容的推荐方法。因此，为检验融合推荐模型的性能，本实施例采用基于内容的推荐方法作为基准方法。本实验分别对基准方法和本实施例所提的融合推荐方法进行建模，通过分析不同推荐结果个数下两种推荐方法的准确率、召回率、相关性、活跃度和兴趣度来评估模型性能。经过上节实验验证，当ω_q＝0.4时，达到最佳实验效果，因而，本实施例在模型对比分析过程中设定ω_p＝0.6，ω_q＝0.4。模型在准确率和召回率上的对比实验结果如图6所示，其中，横坐标表示专家推荐返回结果的个数，即Top-N中N的取值，主纵坐标表示准确率，次纵坐标表示召回率。

根据准确率的定义，一般情况下，对于同一算法，N取值越大，其推荐结果的准确率越低，即准确率随着N值的增加呈下降趋势。图6显示pre_融合＞pre_基准，表明融合方法在会诊专家推荐中表现出较高的准确性，能够准确为患者推荐合适的会诊专家，提高了推荐结果的准确率。同样地，融合推荐方法在召回率上也表现出较高的性能。综上，本实施例所提的融合方法提高了专家推荐结果的准确率和召回率。

图7显示了基准模型和融合模型在推荐结果的相关性、活跃度和兴趣度上的对比，横坐标表示推荐返回结果的个数，纵坐标反映推荐结果的相关性、活跃度和兴趣度。图7、图8、图9显示融合推荐方法的推荐结果在专家的相关性、活跃度和兴趣度上均优于基准模型，表明融合推荐模型能够在保证推荐准确性的基础上，为患者推荐相关且活跃的专家，进一步证实了本实施例所提方法的有效性。

(3)适切度分析

为进一步检验融合推荐模型的性能，本实施例分别采用基准模型和融合模型对一随机案例进行专家推荐，产生两组推荐结果。之后，根据推荐结果制作问卷进行实地调查以评估推荐结果与目标患者的适切度。问卷内容包括目标患者病历描述及两组推荐结果的合理性评估，并采用Likert五级量表进行评分，1～5分别表示非常不合理～非常合理。将调查问卷发放给国家远程医疗中心4位长期从事远程医疗调度工作的医疗人员，其结合实际并根据自身工作经验对两种推荐结果进行适切度评分，评分结果如图10所示。

如图10所示，在适切度评价上融合推荐方法优于基准方法，足以证明融合推荐方法的推荐医生列表比基准方法的推荐列表更合理，更能满足患者的疾病及其就诊需求。

总的来说，融合推荐方法能够为患者推荐相关且在远程医疗服务过程中具有较高积极性的专家，也就是说，本实施例所提方法能够在考虑患者个性化偏好的基础上确保推荐结果的准确性和相关性，同时也保证推荐的专家对远程医疗具有较高的兴趣度和活跃度，进而提高远程医疗效率和服务质量，促进远程医疗的可持续发展

本发明所述的一种自适化远程医疗专家推荐方法，在充分刻画患者和专家知识背景的基础上，提出了专家推荐指数，并将专家活跃度与兴趣度及患者效用反馈纳入同一推荐框架，构建了具有反馈调节的自适应推荐模型，解决了远程医疗情境下的个性化专家推荐的技术问题，在患者满意的同时使推荐更具时效性。结合专家长、短期知识特征的全面刻画专家的知识领域信息，通过对专家长期知识特征的提取，刻画新注册专家的特征知识背景，为缺乏历史诊断数据的新注册专家增加被推荐机会，在一定程度上缓解冷启动问题；专家活跃度及对远程医疗的兴趣会随时间发生变化，通过动态衡量专家在远程医疗服务中的活跃度及兴趣度，使推荐结果分布向最频繁、最活跃的专家倾斜，提升匹配成功率和推荐能力，进而提升服务效率和质量；为充分考虑患者对不同推荐方式的偏好，构建了带有反馈调节的专家自适化推荐模型，通过患者偏好的反馈动态调节推荐结果，提高推荐结果的自适性与可解释性；同时，本发明所提方法减少了大量额外信息的提交，压缩数据空间，解决了数据稀疏性和隐私保护问题，该方法能够指导远程医疗实践，完善远程医疗平台建设，促进远程医疗的可持续发展。该方法同样适用于在线健康问答平台及评审专家推荐系统，考虑专家的兴趣领域及其随时间的变化，能够为专家推荐相关的问题或符合兴趣领域的评审稿件，提升推荐的合理性，保证工作效率和效果。

Claims

1.一种自适化远程医疗专家推荐方法，其特征在于：包括如下步骤：

步骤S3-2：在对短期知识特征进行建模时，选用LDA，即Latent Dirichlet Allocation主题模型凝练专家诊断过的病历文本，从中识别代表疾病类别的隐藏主题，隐藏主题代表医生擅长的疾病特征，一个专家属于一个或多个隐藏主题，生成基于隐藏主题的专家短期知识特征描述框架，在语义层面扩展推荐专家候选集；

2.如权利要求1所述的一种自适化远程医疗专家推荐方法，其特征在于：在执行步骤2时，具体包括如下步骤：

3.如权利要求2所述的一种自适化远程医疗专家推荐方法，其特征在于：在执行步骤S2-5时，采用以下两个步骤构建推荐专家候选集：

步骤S2-5-2：从排序结果中取前十名纳入候选集。

4.如权利要求1所述的一种自适化远程医疗专家推荐方法，其特征在于：在执行步骤S3-1时，基于知识的属性特征采用Jaccard相似系数来计算知识视图中的知识之间的属性相似性。

5.如权利要求1所述的一种自适化远程医疗专家推荐方法，其特征在于：在执行步骤S3-1时，具体包括如下步骤：

步骤S3-1-2：根据专家擅长疾病构建其知识结构，并通过计算专家之间的知识视图相似性来预测专家的能力匹配。

6.如权利要求1所述的一种自适化远程医疗专家推荐方法，其特征在于：在执行步骤S3-2时，具体包括如下步骤：

在LDA主题模型中文本采用服从Dirichlet，即Dirichlet distribution分布的主题概率向量来衡量，若使用余弦夹角来计算文本相似度就失去了主题模型的优势，KL散度作为一种衡量两个概率分布差异性的方法，常被用来计算文档主题分布向量的相似度，但由于KL散度的不对称性使其不能用作距离测量，作为KL散度的变形，具有对称性的JS散度被提出来弥补KL散度的不足；因此采用JS散度的变形来衡量概率分布的相似度；

7.如权利要求6所述的一种自适化远程医疗专家推荐方法，其特征在于：在执行步骤4时，具体包括如下步骤：

步骤S4-1：专家S_j的最近活跃度AC_j计算如下公式所示：

其中，T表示专家会诊时间的合集，t_c表示目标患者申请时间，t_l表示该专家上次会诊时间，为了降低专家最近活跃度的跳跃性,将最近活跃度AC_j作如下公式的处理：

其中，AC_max表示最活跃专家的活跃度；

prof_score＝(γ₁LAC+γ₂AI)×ini_score×short_score；

其中，γ₁和γ₂分别是活跃度和兴趣度的权重系数，且γ₁+γ₂＝1，ini_score为专家的初始推荐指数，short_score为面向专家短期知识特征的推荐指数；

步骤S4-3：患者反馈划分为主观QoS反馈和客观QoS反馈：

compre_score＝ω_pprof_score'+ω_qqos_score；

其中，qos_u,j表示第u位患者对专家S_j的客观QoS评价值；

经标准化后转换为患者反馈感知效用指数，如下公式所示：

其中，qos_max是所有专家的最高评价值；

更新专家QoS值，对推荐结果排序的做进一步反馈调整优化。