CN115238168A - 一种自适化远程医疗专家推荐方法 - Google Patents
一种自适化远程医疗专家推荐方法 Download PDFInfo
- Publication number
- CN115238168A CN115238168A CN202210625044.8A CN202210625044A CN115238168A CN 115238168 A CN115238168 A CN 115238168A CN 202210625044 A CN202210625044 A CN 202210625044A CN 115238168 A CN115238168 A CN 115238168A
- Authority
- CN
- China
- Prior art keywords
- expert
- recommendation
- patient
- experts
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种自适化远程医疗专家推荐方法,属于远程医疗技术领域,包含数据集成与预处理、患者特征建模、面向专家长短期知识的特征建模和融合推荐模型构建,基于患者病历、远程医疗专家长短期知识背景构建了具有反馈调节的自适应推荐模型,解决了远程医疗情境下的个性化专家推荐的技术问题,在患者满意的同时使推荐更具时效性。在充分刻画患者和专家知识背景的基础上,提出了专家推荐指数,并将专家活跃度与兴趣度及患者效用反馈纳入同一推荐框架,使推荐结果分布向最频繁、最活跃的专家倾斜,提升推荐能力,在数据稀疏性和隐私保护前提下具有可操作性。
Description
技术领域
本发明属于远程医疗技术领域,尤其涉及一种自适化远程医疗专 家推荐方法。
背景技术
远程医疗是解决医疗资源不均衡问题的战略途径,因其能够借助 互联网技术提供跨区域、跨机构的诊疗服务而得到了蓬勃发展。远程 医疗在使用过程中已收集、积累了大量代表患者健康状况的临床数 据,明显增加了可用于面向患者决策的数字信息,使得数据驱动个性 化医疗服务成为可能。但现有远程医疗服务并未充分利用和发挥其大 数据价值。
患者最关心的是如何找到最专业的医学专家来解决他们的健康 问题,但对患者来说,为自己挑选合适的专家极具挑战性,尤其是在 没有合适的匹配机制的情况下。面对信息体量的快速增长,由于患者 缺乏专业的医疗背景和知识,他们在寻找合适的专家时不知所措,面 临巨大的时间和搜索成本,使得问题不能得到及时有效地解决,甚至 造成医疗资源的浪费,降低诊疗效率。因而目前大多采用申请方医生 或调度人员人工推荐的方式为患者选择会诊专家。但随着会诊量的增 加,人工推荐的方式无法保证医疗服务的专业性和质量,加之医疗信 息的不对称性,易引起患者的不信任,进而影响医患关系和患者满意度。
个性化推荐是解决信息过载和“知识迷向”问题的有效途径,能 够帮助患者和远程医疗调度人员过滤掉大量不相关的医生,从专业层 面快速准确地找到符合患者需求的远程医疗专家,降低患者搜索成 本,辅助医疗决策,确保医疗服务价值的有效实现,从而为患者和远 程医疗机构增益
尽管推荐系统已被尝试运用于医疗保健领域,然而已有研究也存 在一些不足:①大多患者与医生之间的交互数据较少,因为他们很少 生病;同时,出于隐私保护,患者不愿在在线平台上透漏过多个人信 息,数据稀疏性问题导致难以捕捉患者偏好,从而导致推荐效果不佳。 ②单一地根据患者的择医偏好为其提供个性化推荐,忽略了患者对不 同推荐方式的选择偏好。③忽视了医生的兴趣度和活跃度及其随时间 的变化,导致匹配成本增加,从而影响整个系统性能。④存在冷启动 问题,新注册医生由于历史数据的不足缺乏展示机会,难以被发现。 同时,由于以下原因,远程医疗情境下的医生推荐仍具有挑战性:①区别于传统推荐,极少患者会就不同种类的保健项目进行投票或评 分,这给协同过滤机制带来了困难;②健康相关数据较为敏感,在远 程医疗情境下,患者无法获得其他类似患者的信息,其决策行为不会 受到其他患者的影响,这给采用基于社交网络的推荐系统带来了困 难。
发明内容
本发明的目的是提供一种自适化远程医疗专家推荐方法,解决了 基于患者病历、远程医疗专家长短期知识背景,通过构建具有反馈调 节的自适应推荐模型,来实现远程医疗情境下的个性化专家推荐的技 术问题。
为实现上述目的,本发明采用如下技术方案:一种自适化远程医 疗专家推荐方法,包括如下步骤:
步骤1:数据集成与预处理模块首先从远程医疗平台数据库中积 累的业务数据和在线医疗平台中的医生简介数据,并将收集到的数据 集成为原始数据;业务数据中包含患者病历;
数据集成与预处理模块对原始数据进而预处理,利用自定义用户 字典识别医疗领域专业词汇,利用停用词列表过滤掉无意义的词、数 字和符号;生成语料数据并存入语料库中;
步骤2:患者特征建模模块从语料库中获取语料数据,利用词的 上下文信息将语料数据中的高维语句转换成低维实数向量,提取出描 述患者特征的关键词,形成患者特征模型;
对比患者特征模型,以专家诊断过的相似患者的最高相似值作为 专家初始推荐指数,构建初始的推荐专家候选集;
步骤3:长短期知识特征建模模块分别对专家的长期知识特征和 短期知识特征进行建模,生成专家长短期知识特征,具体包括如下步 骤:
步骤S3-1:在对长期知识特征进行建模时,首先从专家简介中提 取专家的长期知识特征,然后对长期知识领域进行知识视图相似性测 算,更新新注册专家的初始推荐指数,并按照相似性排序更新推荐专 家候选集;
步骤S3-2:在对短期知识特征进行建模时,选用LDA(Latent DirichletAllocation)主题模型凝练专家诊断过的病历文本,从中识别 代表疾病类别的隐藏主题,隐藏主题代表医生擅长的疾病特征,一个 专家属于一个或多个隐藏主题,生成基于隐藏主题的专家短期知识特 征描述框架,在语义层面扩展推荐专家候选集;
步骤4:在患者特征模型和专家长短期知识特征的基础上,融合 专家活跃度和兴趣度,以及患者主客观感知效用构建带有反馈调节的 可解释性专家推荐模型,使得推荐结果向积极性的专家倾斜。
优选的,在执行步骤2时,具体包括如下步骤:
步骤S2-1:加载同义词字典、特征词字典和停用词表,对患者病 历进行规范化处理、中文分词、文本标注和特征词提取;
步骤S2-2:在引入特征词典和停用词表的基础上,利用文本分词 技术将文本转换为由词语组成的特征词集,然后借助word2vec模型 计算出文本中每个关键词的向量,并对不重复的词向量取平均值,进 而合成句向量表示文本的最终向量;
步骤S2-3:采用词频-逆文档频率值作为特征词权重,刻画特征词 的重要程度,得到矢量化文本;
步骤S2-4:利用计算余弦相似度的方法计算矢量化文本间的相似 度;
步骤S2-5:以专家诊断过的相似患者的最高相似值作为专家初始 推荐指数,完成患者特征到专家特征的映射,即通过目标患者特征与 专家诊断的患者特征之间的相似性映射医-患背景的相似性,将相似 患者的诊治专家组成初始推荐专家候选集。
优选的,在执行步骤S2-5时,采用以下两个步骤构建推荐专家候 选集:
步骤S2-5-1:统计所有相似专家,将其相似患者的最高相似度作 为专家初始推荐指数,并按照专家初始推荐指数进行降序排序;
步骤S2-5-2:从排序结果中取前十名纳入候选集。
优选的,在执行步骤S3-2时,基于知识的属性特征采用Jaccard 相似系数来计算知识视图中的知识之间的属性相似性。
优选的,在执行步骤S3-1时,具体包括如下步骤:
步骤S3-1-1:通过计算专家知识属性的视图相似性来表征专家长 期知识领域之间的相似度,构建专家知识属性矩阵;采用频次统计方 法对专家简介信息不完整的特征模型进行缺失值填充;
步骤S3-2-2:根据专家擅长疾病构建其知识结构,并通过计算专 家之间的知识视图相似性来预测专家的能力匹配。
优选的,在执行步骤S3-2时,具体包括如下步骤:
步骤S3-2-1:整合专家诊断过的患者病历文本作为专家短期知识 背景,进而形成LDA主题模型训练语料库,从而对专家短期知识特 征模型进行构建和训练;
步骤S3-2-2:通过LDA主题模型的主题聚类凝练出隐藏的主题以 及每个医生的“文档-主题”分布;
步骤S3-2-3:LDA主题模型的主题聚类生成的“主题-词项”概率分 布用于完成对专家短期知识特征的表达;
在LDA主题模型中文本采用服从Dirichlet(Dirichletdistribution)分 布的主题概率向量来衡量,若使用余弦夹角来计算文本相似度就失去 了主题模型的优势,KL散度作为一种衡量两个概率分布差异性的方 法,常被用来计算文档主题分布向量的相似度,但由于KL散度的不 对称性使其不能用作距离测量,作为KL散度的变形,具有对称性的 JS散度被提出来弥补KL散度的不足;因此采用JS散度的变形来衡 量概率分布的相似度;
步骤S3-2-3:基于“文档-主题”概率分布的相似性得到与推荐专家 候选集中具有相似知识特征的专家,并以此作为面向专家短期知识特 征的推荐指数,这些具有相似知识特征的专家也具有诊疗目标患者的 能力。
优选的,在执行步骤4时,具体包括如下步骤:
步骤S4-1:专家Sj的最近活跃度ACj计算如下公式所示:
其中,T表示专家会诊时间的合集,tc表示目标患者申请时间,tl表示该专家上次会诊时间,为了降低专家最近活跃度的跳跃性,将最 近活跃度ACj作如式下公式的处理:
其中,ACmax表示最活跃专家的活跃度;
步骤S4-2:采用衰减函数对会诊专家Sj的兴趣度Ij进行动态建 模,其建模公式如下:
其中,Nj(t)是专家Sj在t阶段的会诊次数,N(t)是t阶段的总 会诊次数,e-t为时刻t的指数函数;
为消除权重系数融合时量纲的影响,进一步对兴趣度进行如下公 式的处理,得到专家的兴趣度,Imax表示表现出最高兴趣的专家的兴 趣度:
在推荐指数的基础上融合专家活跃度和兴趣度进行推荐,推荐指 数包含了专家的初始推荐指数和面向专家短期知识特征的推荐指数, 使推荐结果分布向最近、最频繁的专家倾斜,具体表达形式如下公式 所示:
prof_score=(γ1LAC+γ2AI)×ini_score×short_score;
其中,γ1和γ2分别是活跃度和兴趣度的权重系数,且γ1+γ2=1, ini_score为专家的初始推荐指数,short_score为面向专家短期知识特 征的推荐指数;
步骤S4-3:患者反馈划分为主观QoS反馈和客观QoS反馈:
主观QoS反馈指患者在得到推荐结果前对推荐指数偏好的反馈, 根据患者偏好调整融合推荐指数优化推荐排序,使推荐结果关注权重 更高的内容,形成可解释性推荐策略;
在对推荐指数进行规范化处理后,将上述推荐指数进行线性融合, 具体表示为:
compre_score=ωpprof_score′+ωqqos_score;
其中,prof_score'=prof_score/prof_scoremax,ωp和ωq分别 为患者对专业推荐策略和服务质量的偏好权重,满足ωp+ωq=1;
客观QoS反馈是指患者在服务完成后的事后评价反馈,患者根据 服务过程中的感知质量对医疗服务进行评价,即患者感知效用值,体 现了患者对医疗服务和专家的满意度,是对专家客观QoS值的反馈 调整,设定qos1,j,qos2,j,...,qosm,j是m位患者对专家Sj的综合客 观QoS评价值,患者Pi在服务完成后作出qosi,j的反馈评价,通过 患者反馈进一步调整更新专家Sj的客观QoS值为:
其中,qosu,j表示第u位患者对专家Sj的客观QoS评价值;
经标准化后转换为患者反馈感知效用指数,如下公式所示:
其中,qosmax是所有专家的最高评价值;
更新专家QoS值,对推荐结果排序的做进一步反馈调整优化。
本发明所述的一种自适化远程医疗专家推荐方法,在充分刻画患 者和专家知识背景的基础上,提出了专家推荐指数,并将专家活跃度 与兴趣度及患者效用反馈纳入同一推荐框架,构建了具有反馈调节的 自适应推荐模型,解决了远程医疗情境下的个性化专家推荐的技术问 题,在患者满意的同时使推荐更具时效性。结合专家长、短期知识特 征的全面刻画专家的知识领域信息,通过对专家长期知识特征的提 取,刻画新注册专家的特征知识背景,为缺乏历史诊断数据的新注册 专家增加被推荐机会,在一定程度上缓解冷启动问题;专家活跃度及 对远程医疗的兴趣会随时间发生变化,通过动态衡量专家在远程医疗服务中的活跃度及兴趣度,使推荐结果分布向最频繁、最活跃的专家 倾斜,提升匹配成功率和推荐能力,进而提升服务效率和质量;为充 分考虑患者对不同推荐方式的偏好,构建了基于电子病历的专家自适 化推荐模型,通过患者偏好的反馈动态调节推荐结果,提高推荐结果 的自适性与可解释性;同时,本发明所提方法减少了大量额外信息的 提交,压缩数据空间,解决了数据稀疏性和隐私保护问题,该方法能 够指导远程医疗实践,完善远程医疗平台建设,促进远程医疗的可持 续发展。该方法同样适用于在线健康问答平台及评审专家推荐系统, 考虑专家的兴趣领域及其随时间的变化,能够为专家推荐相关的问题 或符合兴趣领域的评审稿件,提升推荐的合理性,保证工作效率和效 果。
附图说明
图1是本发明的远程医疗专家推荐框架图;
图2是本发明的LDA概率模型图;
图3是本发明的会诊数量分布情况图;
图4是本发明的困惑度曲线图;
图5是本发明的不同权重偏好下的融合推荐模型性能曲线图;
图6是本发明的推荐结果准确率和召回率对比曲线图;
图7是本发明的基准模型和融合模型在推荐结果的相关性的对 比图;
图8是本发明的基准模型和融合模型在推荐结果的活跃度的对 比图;
图9是本发明的基准模型和融合模型在推荐结果的兴趣度的对 比图;
图10是本发明的基准模型和融合模型这两种推荐方法的适切度 评价对比图。
具体实施方式
由图1-图10所示的一种自适化远程医疗专家推荐方法,包括如 下步骤:
步骤1:数据集成与预处理模块首先收集远程医疗平台数据库中 积累的业务数据和在线医疗平台中的医生简介数据,并将收集到的数 据集成为原始数据;业务数据中包含患者病历;
数据集成与预处理模块对原始数据进而预处理,利用自定义用户 字典识别医疗领域专业词汇,利用停用词列表过滤掉无意义的词、数 字和符号;生成语料数据并存入语料库中;
本实施例中,数据来源于双渠道,即远程医疗平台数据库中积累 的业务数据和在线医疗平台中的医生简介,原始数据较为粗糙,在进 行文本挖掘前需对其进行预处理工作:①提取、整合、存储相关数据 信息,并对数据进行规范化、完整性检查,剔除异常数据、基于填补 规则补充缺失值,进而形成可靠语料。②创建自定义用户字典以使医 疗领域专业词汇能够被正确识别。③创建停用词列表过滤掉对本实施 例无意义的词、数字和符号,以便后文的数据分析,提高推荐准确率。
步骤2:患者特征建模模块从语料库中获取语料数据,利用词的 上下文信息将语料数据中的高维语句转换成低维实数向量,提取出描 述患者特征的关键词,形成患者特征模型;
对比患者特征模型,以专家诊断过的相似患者的最高相似值作为 专家初始推荐指数,构建初始的推荐专家候选集;
步骤S2-1:加载同义词字典、特征词字典和停用词表,对患者病 历进行规范化处理、中文分词、文本标注和特征词提取;
步骤S2-1是特征词标化过程,患者病历以专业化的术语组成了患 者病症的特征描述,面对专业性强、表述方式因人而异的医学术语, 本实施例加载同义词字典、特征词字典和停用词表进行患者病历进行 规范化处理、中文分词、文本标注和特征词提取。这一策略可增强文 本的表征力,使得专业术语能够被正确识别和划分,压缩特征空间维 度,提高数据处理效率。
步骤S2-2:在引入特征词典和停用词表的基础上,利用文本分词 技术将文本转换为由词语组成的特征词集,然后借助word2vec模型 计算出文本中每个关键词的向量,并对不重复的词向量取平均值,进 而合成句向量表示文本的最终向量;
步骤S2-2是文本矢量化表示过程,在引入特征词典和停用词表的基 础上,利用文本分词技术将文本转换为由词语组成的特征词集,然后 借助word2vec模型计算出文本中每个关键词的向量,并对不重复的 词向量取平均,进而合成句向量表示文本的最终向量。如患者pi的病 历di由f个特征词构成,其规范化表示为:
p.feature_profile={wk|wk∈di,k=1,2,...,f},di表示患者pi的 病历文本,wk表示第k个特征词,其对应的词向量为 vk={vk1,vk2,...,vkp}。
步骤S2-3:采用词频-逆文档频率值作为特征词权重,刻画特征词 的重要程度,得到矢量化文本;
步骤S2-3是特征词权重计算过程,词频(Term frequency,TF)是 指给定单词在文本中出现的频率,而逆文档频率(Inverse document frequency,IDF)是衡量单词重要性的指标。则中的关键词wk的 tf-idf值表示为:
tf-idf(wk,di)=tf(wk,di)×idf(wk)
其中,nk,i表示特征词wk在病历文档di中出现的频次;m表示 所有病历的数量;|{d:wk∈d}|表示包含特征词wk的病历数量。但是, 若病历中不包含wk,除数将变为0使公式无意义,因此,|{d:wk∈d}| 通常表示为1+|{d:wk∈d}|。tf-idf的值越大,该特征词在病历中的重要程度越高,反之亦然。因此,本实施例采用tf-idf值作为特征词 权重,刻画特征词的重要程度。病历di的特征向量表示为:
步骤S2-4:利用计算余弦相似度的方法计算矢量化文本间的相似 度;
步骤S2-4是文本相似性测度过程,本实施例中,矢量化的文本可 以利用余弦相似度计算文本间的相似度,即各文本与目标文本的相似 度Sim(di,dj)。余弦相似度是一种最简单、有效的向量相似度计算 方法,其公式如下所示:
步骤S2-5:以专家诊断过的相似患者的最高相似值作为专家初始 推荐指数,完成患者特征到专家特征的映射,即通过目标患者特征与 专家诊断的患者特征之间的相似性映射医-患背景的相似性,将相似 患者的诊治专家组成初始推荐专家候选集。
为推荐优质医生,需返回高相似度患者的会诊专家,但是由于远 程会诊患者并不是常见疾病或特征,因此,设置相似度阈值会限制推 荐结果,本实施例采用以下两个步骤构建推荐专家候选集:
步骤S2-5-1:统计所有相似专家,将其相似患者的最高相似度作 为专家初始推荐指数,并按照专家初始推荐指数进行降序排序;
步骤S2-5-2:从排序结果中取前十名纳入候选集。
步骤3:短期知识特征体现了专家近期的关注与兴趣变化,长期 知识特征体现了专家持续性的特质,相对较稳定。二者结合能够更加 全面的刻画专家的领域知识信息,提高推荐的准确性和科学性。病历 库反映了专家在一定时间段内诊疗的疾病特征,而网页上公布的专家 简介表征了专家持续性积累的经验及长期关注的疾病领域,因此专家 的短期知识特征以病历库为基础,专家的长期知识特征从专家简介中 提取。
基于患者病历文本相似性确定推荐专家候选集的推荐策略只能发 现诊断过与目标患者具有相似病情的专家,对于系统中新注册或诊断 数量较少的专家,由于业务量少、缺乏足够的业务数据支撑,以至于 被推荐机会不高。为解决新注册医生的冷启动问题,本实施例面向专 家医生的长期知识领域进行知识视图相似性测算,赋予新注册医生初 始推荐指数,进而增加他们的推荐机会,在一定程度上缓解冷启动问 题。
长短期知识特征建模模块分别对专家的长期知识特征和短期知识 特征进行建模,生成专家长短期知识特征,具体包括如下步骤:
步骤S3-1:在对长期知识特征进行建模时,首先从专家简介中提 取专家长期知识特征,然后对长期知识领域进行知识视图相似性测 算,更新新注册专家的初始推荐指数,按照相似性排序更新推荐专家 候选集;
在执行步骤S3-1时,具体包括如下步骤:
步骤S3-1-1:通过计算专家知识属性的视图相似性来表征专家长 期知识领域之间的相似度,构建专家知识属性矩阵;采用频次统计方 法对专家简介信息不完整的特征模型进行缺失值填充;
本实施例针对知识的多样性,根据其所属领域、研究专长等赋予 其不同的属性,如:医生和疾病之间存在多对多的关系,即一个医生 可能擅长多种疾病,一种疾病也可被多个医生擅长,医生专长可以用 向量表示,且取值为{0,1},1表示医生擅长该疾病,0则表示不擅长 该疾病。因此,本实施例通过计算医生知识属性的视图相似性来表征 医生长期知识领域之间的相似度,为此构建如表1所示的专家知识属 性矩阵:
表1
专家简介信息的不完整使得特征模型面临数据稀疏性问题。如果 取所有医生同时具有的属性作为填充值,则相似度偏低,为保持中立, 本实施例采取频次统计方法进行缺失值填充。具体是,假设ajp为缺 失值,即专家Sj的第p个知识属性未知,若则令ajp=1,否则ajp=0。其中,|S|为专家总数,专家长期知识 特征规范化描述为d.feature_profile={ajp,j=1,2,...,n;p=1,2,...,g}。
步骤S3-2-2:根据专家擅长疾病构建其知识结构,并通过计算专 家之间的知识视图相似性来预测专家的能力匹配;
根据医生擅长疾病构建其知识结构,并通过计算医生之间的知识 视图相似性来预测医生的能力匹配。基于知识的属性特征,本实施例 采用Jaccard系数来计算知识之间的属性相似性,其计算公式为
其中,A(j)和A(h)分别表示专家Sj和Sh的知识属性集, |A(j)∩A(h)|表示专家Sj和Sh同时拥有的知识个数, |A(j)∪A(h)|表示专家Sj和Sh共有的知识个数。
此外,基于不同知识的贡献和重要程度的差异性,通过权重对不 同知识加以区分,得到加权的Jaccard知识视图相似度:
其中,ω(a)是知识属性的权重。为充分利用属性信息,通过信息 熵的大小为属性确权,权重是从数据中学习的,避免了专家确权的主 观性过强,即
ω(a)=-p(a)log2p(a)-(1-p(a))log2(1-p(a));
其中,p(a)为属性a出现的概率,n(a)为属性a出现的次数。
并按照相似性排序更新推荐专家候选集。其中,ini_scoreh为符合 阈值要求的相似专家的初始推荐指数,q为新注册专家的相似专家数 量。
步骤S3-2:基于LDA的专家短期知识特征模型仅通过寻找相似 患者形成推荐专家候选集的推荐策略是片面的,系统中可能存在其他 符合目标患者需求的专家。LDA主题概率模型将专家知识特征映射 至隐主题空间,在同一主题下寻找具有相似概率分布的专家,能够从 语义层面有效识别出擅长诊治相似疾病的医生,大大降低寻找相似医 生的规模和时间成本。因此,本实施例选用LDA主题模型凝练专家 诊断过的病历文本,从中识别代表疾病类别的隐藏主题,这些主题代 表医生擅长的疾病特征,每个专家属于一个或多个隐藏主题,生成基 于主题的专家短期知识特征描述框架,在语义层面扩展推荐专家候选 集。
LDA模型是一种用于语料库建模的非监督产生式概率方法,是主题 建模最常用的方法。LDA根据文档和词汇的概率分布将高维文本-词 汇矩阵分为两个低维的文档-主题矩阵和主题-词汇矩阵,从而得到文 档的主题分布。一条文本的生成过程可以形式化表述如下:①从 Dirichlet(α)分布中抽取文档d下的多项式主题分布θd,即 θd~Dirichlet(α);②从Dirichlet(β)分布中抽取主题t下的多项式词 分布即③对于文档d中的词wk,从以θd为参 数的多项式分布中抽取主题zn,即zn-Multi(θd),从以为参数的 多项式分布中抽取文档d中的第k个单词,即其概 率模型如图2所示。
LDA的建模过程可以描述为为每个资源寻找主题的混合,即文档 中的每个词以特定概率选择某个主题,并从主题中以一定概率选择某 个特征词来得到,该过程可形式化为以下公式。
其中,P(wk|di)是给定文档di中第k个特征词的概率;zn是潜在 主题,其数量是预设的,P(wk|zn)是特征词wk出现在主题zn的概率; P(zn|di)是从文档di的主题zn中选择特征词的概率。
在对短期知识特征进行建模时,选用LDA(Latent Dirichlet Allocation)主题模型凝练专家诊断过的病历文本,从中识别代表疾 病类别的隐藏主题,隐藏主题代表医生擅长的疾病特征,一个专家属 于一个或多个隐藏主题,生成基于隐藏主题的专家短期知识特征描述 框架,在语义层面扩展推荐专家候选集;
在远程医疗情境中,一位专家可以诊疗多名患者,一名患者也可 以通过多次申请享受同一位或多位专家的服务。本发明侧重于由专家 诊断过的患者病历文本组成的专家短期知识,因此,医患对应关系类 型对本发明影响不大。鉴于此,本发明在隐私保护基础上,在隐主题 空间上构建面向短期知识特征的专家知识模型,其建模过程具体包括 如下步骤:
步骤S3-2-1:整合专家诊断过的患者病历文本作为专家短期知识 背景,进而形成LDA主题模型训练语料库,从而对专家短期知识特 征模型进行构建和训练;
步骤S3-2-2:通过LDA主题模型的主题聚类凝练出隐藏的主题 topic(t)={topic1,topic2,...,topick}以及每个医生的“文档-主题”分 布d.topic_profile={t1,t2,...,tk},k为经过LDA主题聚类出的主题 数;
步骤S3-2-3:LDA主题聚类生成的“主题-词项”概率分布可完成 对专家短期知识特征的表达 d.feature_profile={<fi,ωi>,i=1,2,...,n},fi为主题下的特征 词,ωi为特征词的权重,n为特征词个数;
步骤S3-2-3:基于“文档-主题”概率分布的相似性得到与推荐专家 候选集中具有相似知识特征的专家,并以此作为面向专家短期知识特 征的推荐指数short_score,这些相似专家也具有诊疗目标患者的能 力。
在LDA模型中,文本用服从Dirichlet分布的主题概率向量来衡量, 若使用余弦夹角来计算文本相似度就失去了主题模型的优势。KL散 度作为一种衡量两个概率分布差异性的方法,常被用来计算文档主题 分布向量的相似度,则两个分布P和Q的KL散度可表示为:
但由于KL散度的不对称性使其不能用作距离测量,即 DKL(P||Q)≠DKL(Q||P)。因此,作为KL散度的变形,具有对称性 的JS散度被提出来弥补KL散度的不足。DJS∈[0,1],DJS的值越 小,表示两个分布越相似,当两个分布相同时,DJS=0。两个分布 P和Q的JS散度可表示为:
两个分布越相似,DJS的值越小,因此,为了方便进行相似度计 算,本实施例对JS散度值进行转换,转换方式如下公式,其中ε为 调节因子,相似度取值范围为[0,1]。
步骤4:本实施例将上述推荐指数、专家活跃度和兴趣度及患者 效用反馈融合,形成带有反馈调节的远程医疗专家自适化推荐模型, 在考虑患者偏好的基础上为患者推荐相关且活跃的会诊专家。首先, 融合专家推荐指数与专家活跃度和兴趣度,构成基于患者病历的专业 推荐方法;然后,借鉴注意力机制,引入患者感知效用反馈,通过患 者主、客观QoS(Quality of Service)反馈实现可解释性推荐和推荐 结果的动态调整,进一步调整优化推荐结果。
在患者特征模型和专家长短期知识特征的基础上,融合专家活跃 度和兴趣度,以及患者主客观感知效用构建带有反馈调节的可解释性 专家推荐模型,使得推荐结果向积极性的专家倾斜。
在执行步骤4时,具体包括如下步骤:
步骤S4-1:专家活跃度会随着时间的推移而发生变化。专家在远 程医疗平台中越活跃,其愿意开展远程医疗服务的可能性越大。因此, 在考虑相似性的基础上,还应考虑专家在平台中的活跃度,推荐列表 应向活跃度高、具有较大热情的专家进行倾斜。专家在最近一段时间 会诊病历越多,会诊间隔越小(以天为单位),表明专家在平台中越 活跃,专家Sj的最近活跃度ACj计算如下公式所示:
其中,T表示专家会诊时间的合集,tc表示目标患者申请时间, tl表示该专家上次会诊时间,为了降低专家最近活跃度的跳跃性,将最 近活跃度ACj作如下公式的处理:
其中,ACmax表示最活跃专家的活跃度;
步骤S4-2:专家的会诊数量可以看作专家对远程医疗服务的显性 反馈,是专家兴趣行为的表现。随着会诊频次的增加,专家表现出对 远程医疗较高的偏好和兴趣,此类专家更加信任和愿意服务于远程医 疗患者,这使得我们可以根据专家的会诊频次来动态衡量专家对远程 医疗的兴趣。同时,用户兴趣会随着时间的演进发生变化。因此,考 虑到会诊的频率和时间,采用衰减函数对会诊专家Sj的兴趣度Ij进行 动态建模,其建模公式如下:
其中,Nj(t)是专家Sj在t阶段的会诊次数,N(t)是t阶段的 总会诊次数,e-t为时刻t的指数函数;
为消除权重系数融合时量纲的影响,进一步对兴趣度进行如下公 式的处理,得到专家的兴趣度,Imax表示表现出最高兴趣的专家的兴 趣度:
在推荐指数的基础上融合专家活跃度和兴趣度进行推荐,推荐指 数包含了专家的初始推荐指数和面向专家短期知识特征的推荐指数, 使推荐结果分布向最近、最频繁的专家倾斜,具体表达形式如下公式 所示:
prof_score=(γ1LAC+γ2AI)×ini_score×short_score;
其中,γ1和γ2分别是活跃度和兴趣度的权重系数,且γ1+γ2=1, ini_score为专家的初始推荐指数,short_score为面向专家短期知识特 征的推荐指数;
步骤S4-3:融合推荐将专业推荐策略和患者反馈评价纳入同一框 架。用户反馈是需求与服务匹配推荐环节中闭环控制的重要环节。患 者反馈划分为主观QoS反馈和客观QoS反馈:
主观QoS反馈指患者在得到推荐结果前对推荐指数偏好的反馈, 根据患者偏好调整融合推荐指数优化推荐排序,使推荐结果关注权重 更高的内容,形成可解释性推荐策略;
在对推荐指数进行规范化处理后,将上述推荐指数进行线性融合, 具体表示为:
compre_score=ωpprof_score′+ωqqos_score;
其中,prof_score'=prof_score/prof_scoremax,ωp和 ωq分别为患者对专业推荐策略和服务质量的偏好权重,满足 ωp+ωq=1;
客观QoS反馈是指患者在服务完成后的事后评价反馈,患者根据 服务过程中的感知质量对医疗服务进行评价,即患者感知效用值,体 现了患者对医疗服务和专家的满意度,是对专家客观QoS值的反馈 调整,设定qos1,j,qos2,j,...,qosm,j是m位患者对专家Sj的综合客 观QoS评价值,患者Pi在服务完成后作出qosi,j的反馈评价,通过 患者反馈进一步调整更新专家Sj的客观QoS值为:
其中,qosu,j表示第u位患者对专家Sj的客观QoS评价值;
经标准化后转换为患者反馈感知效用指数,如下公式所示:
其中,qosmax是所有专家的最高评价值;
更新专家QoS值,对推荐结果排序的做进一步反馈调整优化。
以下为本实施例中的具体的实验与分析。
样本选择与预处理
本实施例的临床实验数据从国家远程医疗中心获得,其依托郑州 大学第一附属医院展开运营,专家简介信息从“好大夫在线”平台爬 取,作为补充数据以刻画专家长期知识背景。由于医疗机构的不同设 置会导致科室划分的差异,申请医生在申请会诊时对申请科室存在不 确定性和模糊性,且由于内科和外科是医疗领域两大科室,门类多样 且交叉、数据量大。因此,本实施例不考虑科室的具体分支,选取内 科和外科两个部门的业务数据作为实验数据进行分析。首先,根据郑 州大学第一附属医院官方网站公布的科室分布情况将具体科室划分 为内科医学部、外科医学部、综合医学部、妇产科医学部、老年医学 部等12大类。然后,根据研究目的,提取内科和外科医学部两个部 门下属医生的会诊数据。为充分保护患者隐私,本实施例尽可能压缩 数据空间,提取了包含会诊时间、诊断结果、专家名称和科室四类属 性的数据集,采集2021年全年数据共9078条,数据集的统计信息如 表2所示,每月会诊量分布情况如图3所示会诊数量分布情况。结合 表2数据统计,经审查证实了会诊专家与患者的多对多关系。
数据集 | 会诊专家 | 患者 | 会诊数 |
内科 | 131 | 5714 | 6174 |
外科 | 121 | 2796 | 2904 |
表2
之后,对采集数据进行预处理操作。首先,同义疾病名称应该用 医学领域的具体术语替换,如:“呼衰”替换为“呼吸衰竭”,“HBV”替 换为“乙肝”,保证数据的一致性,同时,采取2.3提到的频次统计方 法进行缺失值填充,保证数据的完整性;其次,使用Python中的Jieba 包进行中文分词,且在分词处理过程中使用搜狗输入法词库中的医学 词汇大全来构建用户词典以识别专业医学词汇,如“类风湿性关节 炎”、“系统性红斑狼疮”的正确识别;最后,在哈工大停用词表的基 础上根据实际情况加入对本发明无用的词汇进行停用词剔除,过滤掉 无实际意义且对本实施例分析无用的词、数字和符号等,以支持文本 向量化。
实验设计及评价标准
实验设计:通过设计多个对比实验来评估本实施例所提方法的性 能,这些对比实验主要围绕两个方面展开:①实验验证,主题数量K 显著影响LDA主题模型的聚类效果,统计不同主题数量下的模型困 惑度,确定最优主题个数,使LDA模型建模性能达到最优。②对比 分析,将本实施例所提的融合策略与传统的基于内容的推荐策略进行 性能对比分析,计算患者不同主观QoS反馈和不同推荐项目数量下 推荐结果的准确率(Pre@N)、召回率(Rec@N)、相似度(Relevance)、 活跃度(Activity)和兴趣度(Interest)。
评价标准:本实施例采用Top-N推荐系统中广泛使用的准确率、 召回率作为推荐策略性能的评价指标,并通过推荐结果相关性、兴趣 度和活跃度的对比分析,检验模型性能。准确率表示正确推荐项目占 所有推荐项目的比率;召回率表示正确推荐项目占样本中应检索到项 目的比率,这两个评价指标的计算方法如下所示。
其中,TP表示正确判别项目,FP表示错误判别项目,FN表示 假阴性,即错误项目被推荐。准确率和召回率越高,模型的推荐性能 越好。
相关性是指推荐专家诊断的患者与目标患者间的相似性,相似程 度越高表明专家越适合为目标患者提供远程医疗服务;活跃度是指专 家在远程医疗活动中的活跃程度;兴趣度是指专家对远程医疗活动所 表现出的行为兴趣。
实验及结果分析
主题模型参数选择:为获取较优模型,实验需先确定模型参数。 对于主题模型,主题个数的取值对建模的质量和主题的生成十分关 键。若直接根据经验给定主题数量,可能导致LDA模型的性能不能 达到最优,大大影响推荐效果,因而需采取科学的手段选择主题数量。 本实施例采用困惑度选择主题个数,根据肘部法则选取主题数量,实 验结果如图4所示,横坐标表示主题个数,纵坐标表示LDA模型的 困惑度,可以看出,当K=14时,LDA模型的困惑度最低。因此,在 接下来的实验中设置主题个数为14,迭代次数为500,每个主题下展 示前10个高频词。
对比实验:本实验选取2021年12月31日的数据集作为测试数据 对算法进行测试,并通过不同情境下的对比实验来评估融合推荐模型 的性能。若专家简介中包含目标患者疾病标签则视为正确推荐。
(1)权重系数对融合推荐策略的有效性检验
推荐热度是根据患者投票、医生回复率、口碑和患者满意度等多 指标按照一定规则融合计算的结果,能够综合反映医生的服务质量。 因此,本实施例提取好大夫在线的医生综合推荐热度作为各专家的初 始服务质量评价值。不同偏好权重ωq下融合推荐模型的推荐性能结 果如图5所示,其中,N=10表示专家推荐返回结果的个数,pre@10 表示推荐准确率,Rec@10表示召回率,横坐标表示ωq的不同取 值,纵坐标代表百分比。
从图5可以看出,融合方法的推荐准确率和召回率在ωq≤0.4时 保持较高水平;之后,随着权重系数ωq的不断增大,推荐结果的准 确率和召回率呈整体下降趋势,其中ωq增加意味着患者对服务质量 更为重视,削弱了医、患现实背景对推荐结果的影响,进而影响了推 荐模型整体性能,因此,在进行专家推荐时不应过分强调患者感知效 应。
(2)推荐结果个数对推荐模型的有效性检验
专家推荐根据患者病历文本的相似性来实施专家推荐,这是典型 的基于内容的推荐方法。因此,为检验融合推荐模型的性能,本实施 例采用基于内容的推荐方法作为基准方法。本实验分别对基准方法和 本实施例所提的融合推荐方法进行建模,通过分析不同推荐结果个数 下两种推荐方法的准确率、召回率、相关性、活跃度和兴趣度来评估 模型性能。经过上节实验验证,当ωq=0.4时,达到最佳实验效果, 因而,本实施例在模型对比分析过程中设定ωp=0.6,ωq=0.4。 模型在准确率和召回率上的对比实验结果如图6所示,其中,横坐标 表示专家推荐返回结果的个数,即Top-N中N的取值,主纵坐标表 示准确率,次纵坐标表示召回率。
根据准确率的定义,一般情况下,对于同一算法,N取值越大, 其推荐结果的准确率越低,即准确率随着N值的增加呈下降趋势。 图6显示pre_融合>pre_基准,表明融合方法在会诊专家推荐中表现 出较高的准确性,能够准确为患者推荐合适的会诊专家,提高了推荐 结果的准确率。同样地,融合推荐方法在召回率上也表现出较高的性 能。综上,本实施例所提的融合方法提高了专家推荐结果的准确率和 召回率。
图7显示了基准模型和融合模型在推荐结果的相关性、活跃度和 兴趣度上的对比,横坐标表示推荐返回结果的个数,纵坐标反映推荐 结果的相关性、活跃度和兴趣度。图7、图8、图9显示融合推荐方 法的推荐结果在专家的相关性、活跃度和兴趣度上均优于基准模型, 表明融合推荐模型能够在保证推荐准确性的基础上,为患者推荐相关 且活跃的专家,进一步证实了本实施例所提方法的有效性。
(3)适切度分析
为进一步检验融合推荐模型的性能,本实施例分别采用基准模型 和融合模型对一随机案例进行专家推荐,产生两组推荐结果。之后, 根据推荐结果制作问卷进行实地调查以评估推荐结果与目标患者的 适切度。问卷内容包括目标患者病历描述及两组推荐结果的合理性评 估,并采用Likert五级量表进行评分,1~5分别表示非常不合理~非 常合理。将调查问卷发放给国家远程医疗中心4位长期从事远程医疗 调度工作的医疗人员,其结合实际并根据自身工作经验对两种推荐结 果进行适切度评分,评分结果如图10所示。
如图10所示,在适切度评价上融合推荐方法优于基准方法,足以 证明融合推荐方法的推荐医生列表比基准方法的推荐列表更合理,更 能满足患者的疾病及其就诊需求。
总的来说,融合推荐方法能够为患者推荐相关且在远程医疗服务 过程中具有较高积极性的专家,也就是说,本实施例所提方法能够在 考虑患者个性化偏好的基础上确保推荐结果的准确性和相关性,同时 也保证推荐的专家对远程医疗具有较高的兴趣度和活跃度,进而提高 远程医疗效率和服务质量,促进远程医疗的可持续发展
本发明所述的一种自适化远程医疗专家推荐方法,在充分刻画患 者和专家知识背景的基础上,提出了专家推荐指数,并将专家活跃度 与兴趣度及患者效用反馈纳入同一推荐框架,构建了具有反馈调节的 自适应推荐模型,解决了远程医疗情境下的个性化专家推荐的技术问 题,在患者满意的同时使推荐更具时效性。结合专家长、短期知识特 征的全面刻画专家的知识领域信息,通过对专家长期知识特征的提 取,刻画新注册专家的特征知识背景,为缺乏历史诊断数据的新注册 专家增加被推荐机会,在一定程度上缓解冷启动问题;专家活跃度及 对远程医疗的兴趣会随时间发生变化,通过动态衡量专家在远程医疗服务中的活跃度及兴趣度,使推荐结果分布向最频繁、最活跃的专家 倾斜,提升匹配成功率和推荐能力,进而提升服务效率和质量;为充 分考虑患者对不同推荐方式的偏好,构建了带有反馈调节的专家自适 化推荐模型,通过患者偏好的反馈动态调节推荐结果,提高推荐结果 的自适性与可解释性;同时,本发明所提方法减少了大量额外信息的 提交,压缩数据空间,解决了数据稀疏性和隐私保护问题,该方法能 够指导远程医疗实践,完善远程医疗平台建设,促进远程医疗的可持 续发展。该方法同样适用于在线健康问答平台及评审专家推荐系统, 考虑专家的兴趣领域及其随时间的变化,能够为专家推荐相关的问题 或符合兴趣领域的评审稿件,提升推荐的合理性,保证工作效率和效 果。
Claims (7)
1.一种自适化远程医疗专家推荐方法,其特征在于:包括如下步骤:
步骤1:数据集成与预处理模块首先收集远程医疗平台数据库中积累的业务数据和在线医疗平台中的医生简介数据,并将收集到的数据集成为原始数据;业务数据中包含患者病历;
数据集成与预处理模块对原始数据进而预处理,利用自定义用户字典识别医疗领域专业词汇,利用停用词列表过滤掉无意义的词、数字和符号;生成语料数据并存入语料库中;
步骤2:患者特征建模模块从语料库中获取语料数据,利用词的上下文信息将语料数据中的高维语句转换成低维实数向量,提取出描述患者特征的关键词,形成患者特征模型;
对比患者特征模型,以专家诊断过的相似患者的最高相似值作为专家初始推荐指数,构建初始的推荐专家候选集;
步骤3:长短期知识特征建模模块分别对专家的长期知识特征和短期知识特征进行建模,生成专家长短期知识特征,具体包括如下步骤:
步骤S3-1:在对长期知识特征进行建模时,首先从专家简介中提取专家的长期知识特征,然后对长期知识领域进行知识视图相似性测算,更新新注册专家的初始推荐指数,并按照相似性排序更新推荐专家候选集;
步骤S3-2:在对短期知识特征进行建模时,选用LDA,即Latent Dirichlet Allocation主题模型凝练专家诊断过的病历文本,从中识别代表疾病类别的隐藏主题,隐藏主题代表医生擅长的疾病特征,一个专家属于一个或多个隐藏主题,生成基于隐藏主题的专家短期知识特征描述框架,在语义层面扩展推荐专家候选集;
步骤4:在患者特征模型和专家长短期知识特征的基础上,融合专家活跃度和兴趣度,以及患者主客观感知效用构建带有反馈调节的可解释性专家推荐模型,使得推荐结果向积极性的专家倾斜。
2.如权利要求1所述的一种自适化远程医疗专家推荐方法,其特征在于:在执行步骤2时,具体包括如下步骤:
步骤S2-1:加载同义词字典、特征词字典和停用词表,对患者病历进行规范化处理、中文分词、文本标注和特征词提取;
步骤S2-2:在引入特征词典和停用词表的基础上,利用文本分词技术将文本转换为由词语组成的特征词集,然后借助word2vec模型计算出文本中每个关键词的向量,并对不重复的词向量取平均值,进而合成句向量表示文本的最终向量;
步骤S2-3:采用词频-逆文档频率值作为特征词权重,刻画特征词的重要程度,得到矢量化文本;
步骤S2-4:利用计算余弦相似度的方法计算矢量化文本间的相似度;
步骤S2-5:以专家诊断过的相似患者的最高相似值作为专家初始推荐指数,完成患者特征到专家特征的映射,即通过目标患者特征与专家诊断的患者特征之间的相似性映射医-患背景的相似性,将相似患者的诊治专家组成初始推荐专家候选集。
3.如权利要求2所述的一种自适化远程医疗专家推荐方法,其特征在于:在执行步骤S2-5时,采用以下两个步骤构建推荐专家候选集:
步骤S2-5-1:统计所有相似专家,将其相似患者的最高相似度作为专家初始推荐指数,并按照专家初始推荐指数进行降序排序;
步骤S2-5-2:从排序结果中取前十名纳入候选集。
4.如权利要求1所述的一种自适化远程医疗专家推荐方法,其特征在于:在执行步骤S3-1时,基于知识的属性特征采用Jaccard相似系数来计算知识视图中的知识之间的属性相似性。
5.如权利要求1所述的一种自适化远程医疗专家推荐方法,其特征在于:在执行步骤S3-1时,具体包括如下步骤:
步骤S3-1-1:通过计算专家知识属性的视图相似性来表征专家长期知识领域之间的相似度,构建专家知识属性矩阵;采用频次统计方法对专家简介信息不完整的特征模型进行缺失值填充;
步骤S3-1-2:根据专家擅长疾病构建其知识结构,并通过计算专家之间的知识视图相似性来预测专家的能力匹配。
6.如权利要求1所述的一种自适化远程医疗专家推荐方法,其特征在于:在执行步骤S3-2时,具体包括如下步骤:
步骤S3-2-1:整合专家诊断过的患者病历文本作为专家短期知识背景,进而形成LDA主题模型训练语料库,从而对专家短期知识特征模型进行构建和训练;
步骤S3-2-2:通过LDA主题模型的主题聚类凝练出隐藏的主题以及每个医生的“文档-主题”分布;
步骤S3-2-3:LDA主题模型的主题聚类生成的“主题-词项”概率分布用于完成对专家短期知识特征的表达;
在LDA主题模型中文本采用服从Dirichlet,即Dirichlet distribution分布的主题概率向量来衡量,若使用余弦夹角来计算文本相似度就失去了主题模型的优势,KL散度作为一种衡量两个概率分布差异性的方法,常被用来计算文档主题分布向量的相似度,但由于KL散度的不对称性使其不能用作距离测量,作为KL散度的变形,具有对称性的JS散度被提出来弥补KL散度的不足;因此采用JS散度的变形来衡量概率分布的相似度;
步骤S3-2-3:基于“文档-主题”概率分布的相似性得到与推荐专家候选集中具有相似知识特征的专家,并以此作为面向专家短期知识特征的推荐指数,这些具有相似知识特征的专家也具有诊疗目标患者的能力。
7.如权利要求6所述的一种自适化远程医疗专家推荐方法,其特征在于:在执行步骤4时,具体包括如下步骤:
步骤S4-1:专家Sj的最近活跃度ACj计算如下公式所示:
其中,T表示专家会诊时间的合集,tc表示目标患者申请时间,tl表示该专家上次会诊时间,为了降低专家最近活跃度的跳跃性,将最近活跃度ACj作如下公式的处理:
其中,ACmax表示最活跃专家的活跃度;
步骤S4-2:采用衰减函数对会诊专家Sj的兴趣度Ij进行动态建模,其建模公式如下:
其中,Nj(t)是专家Sj在t阶段的会诊次数,N(t)是t阶段的总会诊次数,e-t为时刻t的指数函数;
为消除权重系数融合时量纲的影响,进一步对兴趣度进行如下公式的处理,得到专家的兴趣度,Imax表示表现出最高兴趣的专家的兴趣度:
在推荐指数的基础上融合专家活跃度和兴趣度进行推荐,推荐指数包含了专家的初始推荐指数和面向专家短期知识特征的推荐指数,使推荐结果分布向最近、最频繁的专家倾斜,具体表达形式如下公式所示:
prof_score=(γ1LAC+γ2AI)×ini_score×short_score;
其中,γ1和γ2分别是活跃度和兴趣度的权重系数,且γ1+γ2=1,ini_score为专家的初始推荐指数,short_score为面向专家短期知识特征的推荐指数;
步骤S4-3:患者反馈划分为主观QoS反馈和客观QoS反馈:
主观QoS反馈指患者在得到推荐结果前对推荐指数偏好的反馈,根据患者偏好调整融合推荐指数优化推荐排序,使推荐结果关注权重更高的内容,形成可解释性推荐策略;
在对推荐指数进行规范化处理后,将上述推荐指数进行线性融合,具体表示为:
compre_score=ωpprof_score'+ωqqos_score;
其中,prof_score'=prof_score/prof_scoremax,ωp和ωq分别为患者对专业推荐策略和服务质量的偏好权重,满足ωp+ωq=1;
客观QoS反馈是指患者在服务完成后的事后评价反馈,患者根据服务过程中的感知质量对医疗服务进行评价,即患者感知效用值,体现了患者对医疗服务和专家的满意度,是对专家客观QoS值的反馈调整,设定qos1,j,qos2,j,...,qosm,j是m位患者对专家Sj的综合客观QoS评价值,患者Pi在服务完成后作出qosi,j的反馈评价,通过患者反馈进一步调整更新专家Sj的客观QoS值为:
其中,qosu,j表示第u位患者对专家Sj的客观QoS评价值;
经标准化后转换为患者反馈感知效用指数,如下公式所示:
其中,qosmax是所有专家的最高评价值;
更新专家QoS值,对推荐结果排序的做进一步反馈调整优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210625044.8A CN115238168A (zh) | 2022-06-02 | 2022-06-02 | 一种自适化远程医疗专家推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210625044.8A CN115238168A (zh) | 2022-06-02 | 2022-06-02 | 一种自适化远程医疗专家推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238168A true CN115238168A (zh) | 2022-10-25 |
Family
ID=83668659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210625044.8A Pending CN115238168A (zh) | 2022-06-02 | 2022-06-02 | 一种自适化远程医疗专家推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238168A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115879179B (zh) * | 2023-02-24 | 2023-05-09 | 忻州师范学院 | 一种异常病历检测装置 |
CN117149986A (zh) * | 2023-10-31 | 2023-12-01 | 杭州海兴泽科信息技术有限公司 | 基于多级数据通道的实时大数据处理方法及系统 |
CN117235373A (zh) * | 2023-11-14 | 2023-12-15 | 四川省计算机研究院 | 基于信息熵的科研热点推荐方法 |
CN117524434A (zh) * | 2023-11-17 | 2024-02-06 | 中国人民解放军海军第九七一医院 | 基于静脉治疗数据平台的专家信息管理优化方法及系统 |
-
2022
- 2022-06-02 CN CN202210625044.8A patent/CN115238168A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115879179B (zh) * | 2023-02-24 | 2023-05-09 | 忻州师范学院 | 一种异常病历检测装置 |
CN117149986A (zh) * | 2023-10-31 | 2023-12-01 | 杭州海兴泽科信息技术有限公司 | 基于多级数据通道的实时大数据处理方法及系统 |
CN117149986B (zh) * | 2023-10-31 | 2024-02-09 | 杭州海兴泽科信息技术有限公司 | 基于多级数据通道的实时大数据处理方法及系统 |
CN117235373A (zh) * | 2023-11-14 | 2023-12-15 | 四川省计算机研究院 | 基于信息熵的科研热点推荐方法 |
CN117235373B (zh) * | 2023-11-14 | 2024-03-15 | 四川省计算机研究院 | 基于信息熵的科研热点推荐方法 |
CN117524434A (zh) * | 2023-11-17 | 2024-02-06 | 中国人民解放军海军第九七一医院 | 基于静脉治疗数据平台的专家信息管理优化方法及系统 |
CN117524434B (zh) * | 2023-11-17 | 2024-04-30 | 中国人民解放军海军第九七一医院 | 基于静脉治疗数据平台的专家信息管理优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109411082B (zh) | 一种医疗质量评价及就诊推荐方法 | |
CN115238168A (zh) | 一种自适化远程医疗专家推荐方法 | |
Hosseini et al. | Heteromed: Heterogeneous information network for medical diagnosis | |
Chattopadhyay et al. | A Case‐Based Reasoning system for complex medical diagnosis | |
CN106227880A (zh) | 医生搜索推荐的实现方法 | |
CN111897967A (zh) | 一种基于知识图谱和社交媒体的医疗问诊推荐方法 | |
US20090106225A1 (en) | Identification of medical practitioners who emphasize specific medical conditions or medical procedures in their practice | |
Li et al. | Reliable medical diagnosis from crowdsourcing: Discover trustworthy answers from non-experts | |
CN109935337B (zh) | 一种基于相似性度量的病案查找方法及系统 | |
Tang et al. | An adaptive clinical decision support system for serving the elderly with chronic diseases in healthcare industry | |
Asghar et al. | Health miner: opinion extraction from user generated health reviews | |
CN116910172B (zh) | 基于人工智能的随访量表生成方法及系统 | |
US10936962B1 (en) | Methods and systems for confirming an advisory interaction with an artificial intelligence platform | |
Cao et al. | Multi-information source hin for medical concept embedding | |
CN112700865A (zh) | 一种基于综合推理的智能分诊方法 | |
Ng et al. | CrsRecs: A personalized course recommendation system for college students | |
Xie et al. | A network embedding-based scholar assessment indicator considering four facets: Research topic, author credit allocation, field-normalized journal impact, and published time | |
Chen et al. | Doctors ranking through heterogeneous information: The new score functions considering patients’ emotional intensity | |
Gülkesen et al. | Research subjects and research trends in medical informatics | |
Wei et al. | Embedding electronic health records for clinical information retrieval | |
Besbes et al. | Personalized and context-aware retrieval based on fuzzy ontology profiling | |
Porcel et al. | The basics of journal-level metrics: What clinical researchers need to know | |
Ahmed et al. | Machine learning approach for effective ranking of researcher assessment parameters | |
Abar et al. | On interestingness measures for mining statistically significant and novel clinical associations from emrs | |
Zhao et al. | Reviewer recommendations using document vector embeddings and a publisher database: Implementation and evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |