CN114722217A - 一种基于链接预测和协同过滤的内容推送方法 - Google Patents
一种基于链接预测和协同过滤的内容推送方法 Download PDFInfo
- Publication number
- CN114722217A CN114722217A CN202210545418.5A CN202210545418A CN114722217A CN 114722217 A CN114722217 A CN 114722217A CN 202210545418 A CN202210545418 A CN 202210545418A CN 114722217 A CN114722217 A CN 114722217A
- Authority
- CN
- China
- Prior art keywords
- graph
- data
- user
- knowledge
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001914 filtration Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000011282 treatment Methods 0.000 claims description 128
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 239000003814 drug Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 229940079593 drug Drugs 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 25
- 238000010586 diagram Methods 0.000 description 9
- 206010028980 Neoplasm Diseases 0.000 description 7
- 201000007983 brain glioma Diseases 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 238000011269 treatment regimen Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000001959 radiotherapy Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 208000032612 Glial tumor Diseases 0.000 description 3
- 206010018338 Glioma Diseases 0.000 description 3
- BPEGJWRSRHCHSN-UHFFFAOYSA-N Temozolomide Chemical compound O=C1N(C)N=NC2=C(C(N)=O)N=CN21 BPEGJWRSRHCHSN-UHFFFAOYSA-N 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 229960004964 temozolomide Drugs 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 2
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011369 optimal treatment Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001613 neoplastic effect Effects 0.000 description 1
- 238000011275 oncology therapy Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- JMANVNJQNLATNU-UHFFFAOYSA-N oxalonitrile Chemical compound N#CC#N JMANVNJQNLATNU-UHFFFAOYSA-N 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供的一种基于链接预测和协同过滤的内容推送方法,包括:获取用户医疗历史数据,并基于所述用户医疗历史数据和预定义知识库构建临床知识图谱;采用图计算框架对所述临床知识图谱中的数据进行预处理,得到用于执行链接预测的图数据;利用所述图数据构建链接预测模型,并对所述链接预测模型进行训练;在所述链接预测模型中执行基于用户的协同过滤运算,确定待推送到相应用户的内容。通过本发明的方案,同时考虑患者用户的个性化临床指标因素,并满足的临床指南要求,得到的推送方案更加精准,并且更具有实际意义。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种基于链接预测和协同过滤的内容推送方法。
背景技术
随着人工智能技术的发展,国内外人工智能领域的企业和高等院所在深度学习、知识图谱、表示学习、图计算等领域不断有新的算法模型被提出和开源,为医学场景的智能化应用也提供了技术支撑。医疗行业的人工智能应用被广泛地开发,特别是临床辅助决策支持系统(CDSS),为临床医生提供了治疗决策的辅助建议,提高医生的诊疗效率。特别是近几年市场上也出现了一些医疗人工智能的产品和系统,包括医疗诊断、辅助治疗决策、随访管理等方面。
目前已存在多种技术方案来实现医学内容的推送或推送,包括以指南规则进行的治疗方案推送等。例如对于肿瘤疾病,一些肿瘤治疗推送系统以NCCN,ESMO等指南的规则驱动给出治疗方案的推送。但是现有的医学内容推送并未考虑用户实际因素或属性。例如,基于指南的肿瘤推送方案中在实际临床场景中面临患者信息不全,规则局限性等,有些患者无法给出治疗方案。另外指南推送出的方案也并非患者的首选方案甚至选用方案,因为最终的患者的个体治疗方案的选择包括多种因素,如医保因素、经济因素、患者个体体质差异等。因此,现有的医学内容推送技术无法给出智能和准确的结果。
发明内容
为了解决现有技术中所存在的问题,本发明提供一种基于链接预测和协同过滤的内容推送方法,包括:
获取用户医疗历史数据,并基于所述用户医疗历史数据和预定义知识库构建临床知识图谱;
采用图计算框架对所述临床知识图谱中的数据进行预处理,得到用于执行链接预测的图数据;
利用所述图数据构建链接预测模型,并对所述链接预测模型进行训练;
在所述链接预测模型中执行基于用户的协同过滤运算,确定待推送到相应用户的内容。
优选地,所述临床知识图谱以临床治疗过程中的对象作为知识图谱结构中的节点,所述对象包括患者、治疗方案、药物、治疗阶段,并定义这些节点包括的属性、属性的数据类型以及值域范围。
优选地,所述基于所述用户医疗历史数据和预定义知识库构建临床知识图谱,进一步包括:
将所述预定义知识库中的知识数据填充到所述临床知识图谱中,同时将所述预定义知识库中的规则配置到知识图谱的规则引擎工具中。
优选地,所述采用图计算框架对所述临床知识图谱中的数据进行预处理,进一步包括:
根据知识图谱中的存储的用户节点和治疗方案节点,构建用户患者间的关系数据,其中治疗方案节点,包括基于所述预定义知识库推送的治疗方案和所述用户实际选择的治疗方案,并且具有相同治疗方案的用户之间存在双向关系链接。
优选地,所述利用所述图数据构建链接预测模型,并对所述链接预测模型进行训练,进一步包括:
确定待搜索的构成基本模型的超参数,所述超参数包括神经网络的层数,节点表示的维度,激活函数,学习率;
分别设定图卷积网络(GCN)和图注意力网络(GAT)两种模型的超参数的初始值和参数搜索空间;
建立集成学习的模型框架,进行模型的训练和测试,将平均F1分数最高的模型确定最佳链接预测模型。
优选地,所述执行基于用户的协同过滤运算,进一步包括:
利用所述最佳链接预测模型来计算与新用户相似的相似用户,根据协同过滤算法计算出与所述相似用户相关联的备选治疗方案的分值并排序,将排序得到的治疗方案推送给所述新用户。
优选地,所述构建临床知识图谱之后,进一步包括:
使用来自所述知识图谱的训练数据来训练预先选择的NLP模型,从患者用户接收包括医疗文本的关键词查询;使用所述NLP模型从所述医疗文本中提取字符串和运算符,将字符串映射到所述知识图谱中的节点,将运算符映射到对从知识图谱提取的数据执行的运算;使用从所述节点提取的数据来执行与所述运算符相关联的函数,以生成查询结果。
优选地,所述建立集成学习的模型框架,进行模型的训练和测试,进一步包括:
利用所述图卷积网络接收包括表示上下文的当前状态的观察值的超参数输入,并且根据所述卷积网络参数处理所述超参数输入以生成超参数输出,所述图卷积网络与所述图注意力网络联合训练,所述图注意力网络具有多个图注意力网络参数,并接收包括标识动作和观察结果的数据的图注意力网络输入,并且根据图注意力网络参数处理所述图注意力网络输入以生成所述动作的估计值。
基于同一发明构思,本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
与现有技术相比,本发明的有益效果为:
本发明提供的一种基于链接预测和协同过滤的内容推送方法,包括获取用户医疗历史数据,并基于用户医疗历史数据和预定义知识库构建临床知识图谱;采用图计算框架对临床知识图谱中的数据进行预处理,得到用于执行链接预测的图数据;利用图数据构建链接预测模型,并对链接预测模型进行训练;在链接预测模型中执行基于用户的协同过滤运算,确定待推送到相应用户的内容。本发明的方法同时考虑患者的临床指标因素,满足的临床指南要求以及患者的个性化治疗指标等因素,得到更加精准的推送方案,更贴近于临床应用。
附图说明
图1为本发明的基于链接预测和协同过滤的内容推送方法的流程图。
图2为本发明的基于链接预测和协同过滤的治疗方案推送逻辑流程示意图。
图3为本发明的治疗方案推送模型建立流程示意图。
具体实施方式
本发明基于临床指南和真实世界的病历数据作为用户的知识图谱,运用图学习领域的链接预测以及推送算法协同过滤整合进行用户的治疗方案推送,方法考虑了临床知识和真实病历数据的患者关系关联,具有可解释性,应用于临床决策支持。
知识图谱技术在医疗辅助决策临床场景中都有相关的研究和产品应用。随着知识图谱的发展,图学习技术从图像处理领域延伸到知识图谱领域,对于节点和关系为主要特征的知识图谱,运用Node2Vector,GCN,GAT等算法进行信息嵌入,应用到节点预测、链接预测、图分类、推送系统等。应用图表示学习可以进行患者的预后疗效预测,基于深度神经网络(GNN)进行患者的药物使用预测等。
协同过滤推送算法是常用的推送算法,本发明中将其应用于临床场景的治疗方案推送,协同过滤包括基于用户相似的协同过滤和基于物品的协同过滤,本发明使用基于用户的协同过滤算法。例如对于肿瘤治疗方案而言,所述用户可以是肿瘤患者。本发明实现的治疗方案的个性化内容推送方法,以既有的治疗方案为基础,通过实际临床场景的真实病历数据作为数据基础,其中包含了患者的治疗方案选定信息,得到的个性化推送方案更具有实际意义。
如图1所示,本发明提供一种基于链接预测和协同过滤的内容推送方法包括:
S1:获取用户医疗历史数据,并基于所述用户医疗历史数据和预定义知识库构建临床知识图谱;
S2:采用图计算框架对所述临床知识图谱中的数据进行预处理,得到用于执行链接预测的图数据;
S3:利用所述图数据构建链接预测模型,并对所述链接预测模型进行训练;
S4:在所述链接预测模型中执行基于用户的协同过滤运算,确定待推送到相应用户的内容。
具体地,所述步骤S1对应于临床知识图谱的构建阶段,包括构建临床治疗过程中的临床知识和临床病历数据的知识图谱,从而形成患者之间的关系,用于本发明中的链接预测模型的构建。知识图谱的内容可以包括临床场景中的患者指标、指标值域和数据类型、患者和治疗方案的关系、治疗方案和药物等内容。指标项为患者的诊断治疗过程中的指标。
参见图2,所述步骤S1的临床知识图谱的构建可以包括以下步骤的操作,主要包括:
S11、基于本体模型的思想,首先以临床治疗过程中的对象作为知识图谱结构中的节点,包括患者,治疗方案,药物,治疗阶段等,其中治疗方案进一步包括全身治疗、手术、放疗等,并定义这些节点包括的属性、属性的数据类型以及值域范围等,设计关联的节点之间的关系。节点结构如图3所示。
S12、构建临床知识库,根据步骤S11获取的知识图谱结构,将知识库中的知识数据存储填充到知识图谱中,同时配置指南中的规则到规则引擎工具中。临床知识库可以包括指南文献、治疗规范等。
S13、对肿瘤临床患者的病历数据进行整理,包括入院信息、治疗决策等内容,将数据脱敏处理,按照知识图谱设计中的节点和属性信息进行临床病历数据的节点关系抽取等结构化操作,将患者的信息根据设计的知识图谱结构填充到知识图谱中。
S14、对临床知识图谱的内容进行知识验证。
当处理知识图谱中的医疗文本时,该方法进一步包括:使用来自所述知识图谱的训练数据来训练预先选择的NLP模型,从患者用户接收包括医疗文本的关键词查询;使用该NLP模型从所述医疗文本中提取字符串和运算符,将字符串映射到所述知识图谱中的节点,所述节点表示从所输入的数据计算的值,将运算符映射到对从知识图谱提取的数据执行的运算;使用从所述节点提取的数据来执行与所述运算符相关联的函数,以生成查询结果,并返回所述查询结果。其中,从所述医疗文本中提取字符串包括,对于所述医疗文本中的每个词素,为所述词素和所述知识图谱中的节点的每对组合生成词嵌入值,当确定所生成的词嵌入值中超过预设阈值时,确定所述词素是关键字符串。然后识别与所述医疗文本中的所述词素的潜在组合相对应的一组节点,并选择所识别的节点集合中具有最大词嵌入值的节点作为与所述医疗文本中的词素相对应的字符串。
其中从医疗文本中提取运算符包括,对于所述医疗文本中的每个词素,通过对所述医疗文本进行语义分析,标识词素与运算的组合,并对于所标识的词素与运算的组合中的操作,标识所提取的字符串中的哪些字符串表示对在所述医疗文本中指定操作的输入,并标识词素与运算的组合中包括的所述运算的迭代次数。
所述步骤S2对应于图数据预处理阶段。按照图计算的框架和链接预测的实施方法将临床知识图谱中的数据进行预处理,达到可以进行链接预测的计算需求。具体过程包括:
S21、根据本发明中的链接预测算法设计,将患者作为链接预测的节点,患者的属性信息和数值作为节点特征。
S22、根据患者属性的数据类型及值域,对数值型的数据进行原始保留处理,将枚举型和布尔型的数据进行独热(one-hot)编码处理。
S23、根据知识图谱中的存储的患者用户节点和治疗方案节点构建用户患者间的关系数据,其中治疗方案节点包括指南推送的治疗方案和实际选择的治疗方案,具有相同治疗方案的患者之间存在双向关系链接。
S24、将患者数据进行索引,并根据患者的用户间关系,形成图的边(关系)的数据存储。
所述步骤S3对应于用户的链接预测模型构建和训练阶段。具体而言,基于真实世界的患者的诊疗数据,运用图计算领域的链接预测(link prediction)算法构建模型,实现用户患者间关系的预测。广泛应用的链接预测模型的基本模型包括图卷积网络(GCN)和图注意力网络(GAT)模型,本发明中采用基于投票法(voting)将图卷积网络(GCN)和图注意力网络(GAT)模型结合的集成链接模型方式。基于医疗历史数据患者的治疗决策选择的治疗方案作为患者之间的关系链接,根据患者的指标信息构建患者用户节点的特征,对于新的患者,输入患者的指标信息,则预测知识图谱数据库中的历史用户与新用户之间产生关系即使用共同治疗方案的概率,本发明中将此概率值作为患者之间的相似度值。所述步骤S3进一步包括:
S31、确定待搜索的构成基本模型的超参数,包括神经网络的层数,节点表示的维度,激活函数,学习率等。
S32、分别设定图卷积网络(GCN)和图注意力网络(GAT)两种模型的超参数的初始值和参数搜索空间。
S33、建立集成学习的模型框架,进行模型的训练和测试,将平均F1分数(m-F1)最高的模型确定最佳链接预测模型。
在可选的实施例中,本发明进一步给出一种训练具有多个卷积网络参数的图卷积网络GCN和图注意力网络GAT的方法,其中所述图卷积网络接收包括表示上下文的当前状态的观察值的超参数输入,并且根据所述卷积网络参数处理所述超参数输入以生成超参数输出。其中,所述图卷积网络与图注意力网络联合训练,所述图注意力网络具有多个图注意力网络参数,并接收包括标识动作和观察结果的数据的图注意力网络输入,并且根据图注意力网络参数处理所述图注意力网络输入以生成所述动作的估计值。首先对与参数空间上下文的交互而生成的多个观察结果-动作-激励向量的子集进行采样;通过最小化熵正则化时间差的误差来确定对图注意力网络参数的当前值的更新,所述熵正则化时间差的误差根据由所采样的观察结果-动作-激励向量的子集的观察结果表示的参数空间上下文的状态的变化。然后基于所述图注意力网络,使用所采样的观察结果-动作-激励向量的子集来确定对所述卷积网络参数的更新。
其中,确定对图注意力网络参数的当前值的更新包括,对于每个向量并且对于参数空间上下文的状态的变化,当由所述向量中的所述观察结果表示的所述上下文的状态已经改变时,执行所述向量中的动作,并作为响应而获得表示该变化的下一状态的下一观察结果。其中,所述熵正则化时间差的误差测量的是每个向量中的激励与所述下一状态的熵正则化估计值的下限值之和与向量中的观察结果和动作值的估计值之间的误差。
然后,为每个改变后的下一状态生成相应的熵正则化估计值,包括:使用图卷积网络处理表示改变后的下一状态的下一观察结果,以生成可能动作的下一概率分布;从所述下一概率分布中采样下一动作;确定所述下一观察结果-下一动作值的估计值;基于所述下一概率分布与参考下一概率分布之间的散度来确定熵正则化惩罚值,并根据所述估计值和所述熵正则化惩罚值来确定下一状态的相应熵正则化估计值。所述超参数输出包括动作的连续空间上的概率分布的输出参数。
所述步骤S4对应于患者治疗方案协同过滤推送模型的构建。该阶段应用前一阶段所训练出的最佳链接预测模型来计算相似患者,设定K值,选择TopK最相似的患者进行协同过滤计算,并执行基于用户的协同过滤,来构建患者的最佳治疗方案推送模型,将指南文献中对应的治疗方案推送等级结合患者的选择进行评分转换,根据协同过滤算法计算出备选方案的分值并排序,设定N值,按照评分从高到低将TopN排序出的治疗方案推送给新患者。在进一步的实施例中,步骤S4具体包括:
S41、根据所述知识图谱中的患者信息将推送治疗方案和选定治疗方案根据相应的推送等级进行量化。优选地,对于患者已选择使用的任一项治疗方案,直接定义为最高评分(例如可为5分),而忽略指南证据等级的方案评分值,对于其他治疗方案,可以根据指南推送等级按照等级从优到差,分值从高到低排序(最高分低于5分)。当同一个方案有多个指南推送时,取均值作为方案分值。
S42、根据基于用户的协同过滤算法计算新用户对于备选治疗方案的推送分值,计算方法如下:
利用步骤S2获取的用户之间的相似度值,对于新的患者用户u,确定最相似的K个用户,将K个用户的指南规则推导和最终选用的治疗方案(即在知识图谱中所有与K个患者相关联的治疗方案)全部提取出来,对于每个候选治疗方案i,新用户u对该方案的推送分值为:
S(u,i)=mean(wuv×si),v∈TopK
其中mean表示均值运算,si表示候选治疗方案i的方案评分,wuv为新用户u与其他用户v的相似度。
S43、将新患者u通过前一步骤计算出的治疗方案按照分值从高到低排序选择TopN作为最终的推送方案列表。
可见,本发明的基于链接预测和协同过滤的内容推送方法,以实际临床场景的应用出发,根据患者用户在实际治疗中选择的治疗方案,结合知识库中以规则驱动的治疗方案进行治疗方案推送模型的构建。方法同时考虑患者的临床指标因素,满足的指南要求以及患者的个性化治疗指标等因素,得到更加精准的推送方案,更贴近于临床应用。
以下以脑胶质瘤患者的治疗方案推送为例,指南采用NCCN2020.v3,通过示例性的实施方式对本发明的基于链接预测和协同过滤的内容推送方法的实现过程进行具体描述。
步骤A1:获取用户医疗历史数据,并基于所述用户医疗历史数据和预定义知识库构建临床知识图谱。
A11、以NCCN 2020.v3为基础,进行脑胶质瘤的临床治疗的知识图谱的建设,包括患者用户,治疗方案,药物,治疗阶段等,其中治疗方案进一步包括全身治疗、手术、放疗等。其中患者的指标内容包括年龄、性别、KPS评分等68个指标,治疗方案包括标准放疗同步替莫唑胺和辅助替莫唑胺+交变电场治疗、大分割脑部放疗(首选)±同步或辅助替莫唑胺等74个治疗方案。
A12、根据NCCN 2020.v3指南中的逻辑规则描述,运用规则编辑工具进行指南规则的配置,共32条规则。
A13、收集脑胶质瘤患者用户的病历数据,包括入院信息、治疗决策等内容,将数据脱敏处理,按照知识图谱设计中的节点和属性信息进行临床病历数据的节点关系抽取等结构化操作,将患者的信息根据设计的知识图谱结构填充到知识图谱中。
A14、对脑胶质瘤患者用户知识图谱内容进行知识验证。
步骤A2:采用图计算框架对所述临床知识图谱中的数据进行预处理,得到用于执行链接预测的图数据。
A21、根据本发明的算法,将脑胶质瘤患者用户作为链接预测的节点,患者的属性信息及数值作为节点特征。
A22、根据患者脑胶质瘤属性的数据类型及值域,对数值型的数据如年龄、体重等指标进行原始保留处理,将枚举型(如KPS评分、肿瘤位置等)和布尔型指标(如性别、是否复发)等数据如进行独热(one-hot)编码处理。
A23、根据知识图谱中的存储的患者用户节点和治疗方案节点构建用户患者间的关系数据,其中治疗方案节点包括指南推送的治疗方案和实际选择的治疗方案,而具有相同治疗方案的患者之间存在双向关系链接。
A24、将患者进行索引,并根据患者的用户间关系,形成图的边(关系)的数据存储。
步骤A3:利用所述图数据构建脑胶质瘤患者的链接预测模型,并对所述链接预测模型进行训练。
基于医疗历史数据将脑胶质瘤患者的治疗决策选择的治疗方案作为患者之间的关系链接,根据患者的指标信息构建患者用户节点的特征,对于新的肿瘤患者,输入患者的指标信息,则预测知识图谱数据库中的历史患者与新患者之间产生关系(使用共同治疗方案)的概率,本发明中将此概率值作为患者之间的相似度值。
A31、确定待搜索的构成基本模型的超参数,包括神经网络的层数,节点表示的维度,激活函数,学习率等。
A32、分别设定图卷积网络(GCN)和图注意力网络(GAT)两种模型的超参数的初始值和参数搜索空间。
A33、建立集成学习的模型框架,并以训练(70%~90%)、验证(5%~20%)、测试(5%~10%)为模型数据的划分范围,以5%为最小步长,以50~100作为集成模型寻优的迭代步数,分别进行模型的训练和测试,以平均F1分数(m-F1)最高确定最佳链接预测模型。
步骤A4:在所述链接预测模型中执行基于用户的协同过滤运算,确定推送到相应脑胶质瘤患者用户的内容。
应用步骤A3训练出的最佳链接预测模型来计算相似患者,设定K=5,选择Top5最相似的患者进行协同过滤计算,并根据基于用户(user-based)的协同过滤模型来构建患者的最佳推送治疗方案模型,将指南文献中对应的治疗方案推送等级结合患者的选择进行评分转换,根据协同过滤算法计算出备选方案的分值并排序,设定N=5,按照评分从高到低将Top5排序出的治疗方案推送给新患者。
A41、根据知识图谱中的患者信息将推送治疗方案和选定治疗方案,根据相应的推送等级进行量化。如下表:
方案来源 | 指南证据等级 | 方案评分 |
指南规则 | 1 | 4 |
指南规则 | 2A | 3 |
指南规则 | 2B | 2 |
指南规则 | 3 | 1 |
其他 | 用户选定方案 | 5 |
表1
A42、根据基于用户的协同过滤算法计算新患者对于备选治疗方案的推送分值,计算方法如下:
确定新患者u最相似的5个患者,将这些患者的指南规则推导和最终选用的治疗方案(即在知识图谱中所有与5个患者有关系的治疗方案)全部提取出来,对于每个候选治疗方案i,患者u对该方案i的推送分值为:
S(u,i)=mean(wuv×si),v∈Top5
其中mean表示均值运算,si表示候选治疗方案i的方案评分,wuv为新用户u与用户v的相似度。
A43、将患者u通过步骤A3计算出的治疗方案按照分值从高到低排序选择Top5作为最终的推送方案列表。
其中,在将生成最终的推送方案列表之前,该方法还可包括:生成包括多个用户的用户简档数据、治疗方案数据和用户与治疗方案的反馈数据的基础数据集。所述用户简档数据包括所述用户的动作和行为,或者与所述用户相关联的特征。接收识别与待推送内容相关联的多个约束的规则数据。选择所述基础数据集中的特征子集和相似用户子集,所述相似用户子集对应于共享所述基础数据集中的类似属性的第一用户集合。基于所述特征子集和所述相似用户子集以及预设的有监督的深度学习模型来构建第一协同过滤模型。从所述第一用户集合中识别第一用户。来确定候选治疗方案的集合。基于所述第一协同过滤模型生成所述第一用户对所述候选治疗方案集合的用户反馈的预测结果。基于所述预测结果生成第一候选治疗方案的推送列表。利用推送模型处理用户的推送请求、所述用户简档数据和所述规则数据,以确定对所述推送请求的反馈,所述反馈包括针对所述用户的所述内容的推送集合,并且其中,所述推送模型基于以下多项来训练:与所述待推送内容相关联的历史推送请求,与其他用户相关联的用户历史简档数据、历史规则数据,或与所述内容相关联的历史内容数据。
其中,生成基础数据集的过程可以包括:检索所述多个用户的用户简档数据,并检索多个治疗方案的属性数据。检索针对所述多个用户和所述多个治疗方案的正向反馈数据,所述正向反馈数据表示所述用户接受所述治疗方案。将所述用户简档数据、所述治疗方案数据、所述正向反馈数据组合成所述数据集中的多个数据项。优选地,可以首先识别所述基础数据集中的活动用户集合。并基于所述活动用户集合来创建所述正向反馈数据。在确定所述候选治疗方案的集合时,可以首先确定与所述第一候选治疗方案的推送的逻辑规则。然后确定满足所述逻辑规则的约束的所述候选治疗方案集合。
其中,当用户发送推送请求的反馈时,基于所述反馈来为该用户确定附加推送内容,或重新训练所述推送模型。而当所述用户是特定类型的用户时,利用多个推送模型中的第一推送模型处理由用户访问的特定内容和用户简档数据,以识别第一内容组。利用第二推送模型来处理所述第一内容组和所述内容的频率分布,以识别第二内容组。利用第三推送模型来处理第二内容组和与所述内容相关联的内容类型数据,以识别第三内容组,利用第四推送模型来处理所述第三内容组和与所述内容相关联的内容属性数据,以将标识所述第三内容组的特定数量的推送结果识别为对推送请求的反馈。
可选地,当用户从所述内容组中选择特定内容时,在上述第一内容组和第二内容组的基础上,还可以利用所述第三推送模型来处理所述第二内容组和所述内容的条件概率,以识别第三内容组。利用所述第四推送模型处理所述第三内容组和与所述内容相关联的内容类型数据,以识别第四内容组。将条件概率分配给所述第四内容组以生成标识所述第四内容组的特定数量的推送结果作为对推送请求的反馈。
为进一步提升推荐效果,本发明进一步利用fastText提取出用户以及治疗方案的隐式特征,通过因子分解算法处理提取到的隐式特征,进而计算得到用户选择某个治疗方案的概率值。通过加入一个动态参数,将链接预测算法所得到的值与fastText和因子分解所得值相结合,最终获得匹配率预测数值。
首先通过所有用户对治疗方案的反馈信息形成文本文件,通过fastText算法分别对文本文件进行向量化处理,以此向量作为因子分解算法的输入。在已有用户治疗方案选择历史的情况下,与知识图谱相结合作为链接预测算法的输入;通过计算得到因子分解算法与链接预测算法的输出后,利用动态整合方法将输出进行结合,获得最终的预测评估值,基于预测评估值进而为用户提供个性化推送。
设U={u1,u2,…,um}和V={v1,v2,…,vn}分别表示用户集合与治疗方案集合,m表示用户数量,n表示治疗方案数量。用户与治疗方案的匹配矩阵定义为Yuv={yuv|u∈U,v∈V},其中yuv的值为1和0,当取值为1时,表示用户u和治疗方案v存在选择历史,即用户u选择过治疗方案v。
利用关系图谱G表示关系-节点三元组(h,r,t)。其中h∈E,r∈R,t∈E,分别代表着首节点、关系与末节点。E和R分别代表关系图谱G中的节点集合和关系集合。链接预测算法的目标是在已有匹配矩阵Y和关系图谱G的情况下,得到用户u和待推送治疗方案v的选择预测评分。即将用户u和治疗方案v作为输入,输出用户u会选择治疗方案v的概率。
定义用户u的第k个关联节点为:
定义用户u在G上的第k步传递路径为:
Ri是d×d的矩阵,表示关系ri的嵌入值;hi是d维的向量,表示首节点hi的嵌入值;相关系数pi表示治疗方案v与首节点hi在关系Ri上的相似程度。
其中αi是可训练混合参数,且其∑αi为1。
另一方面,使用fastText分别获得用户以及治疗方案的特征向量,基于特征向量使用因子分解模型获得用户与治疗方案的匹配度即预测评分。为根据已知的上下文词素来预测中心词的后验概率,构建连续词袋模型结构,包括:输入层,用于获取上下文词向量cxt(w),w为原始词素;叠加层,用于将输入层的cxt(w)词向量相加;输出层,用于输出中间词向量。
连续词袋模型的训练函数为:
maxΦ=∑(logp(w|Cxt(w)))
在因子分解运算中,基于FastText构建出用户与治疗方案的特征向量:
tu=fastText(Tu)
tv=fastText(Tv)
zuv=tu·tv
其中Tu、Tv分别表示用户u对治疗方案v的反馈文本;tu与tv为相对应的用户和治疗方案特征向量。“·”表示向量点乘运算。zuv是u与v之间的相关系数。
通过因子分解算法将特征两两组合,引入交叉项特征,得到匹配度:
其中:m0表示全局偏差项;m是潜在特征向量zu,v的系数。
通过上述链接预测算法、fastText以及因子分解算法分别从评分和文本两个的信息源获得隐式特征。然后加入一个线性插值α,用于有效结合两种运算,得到最终的预测匹配度:
实施例2:
为了实现上述方法,本发明还提供一种规则驱动的肿瘤医疗辅助决策系统,包括:
知识图谱构建模块201,用于获取用户医疗历史数据,并基于所述用户医疗历史数据和预定义知识库构建临床知识图谱;
图数据预处理模块202,用于采用图计算框架对所述临床知识图谱中的数据进行预处理,得到用于执行链接预测的图数据;
链接预测模块203,用于利用所述图数据构建链接预测模型,并对所述链接预测模型进行训练;
协同过滤模块204,用于在所述链接预测模型中执行基于用户的协同过滤运算,确定待推送到相应用户的内容。
本实施例中的各功能模块所实现的功能同实施例1,这里不再赘述。
实施例3:
本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
实施例4:
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本领域内的技术人员应当理解,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在多个其中包包含计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (10)
1.一种基于链接预测和协同过滤的内容推送方法,其特征在于,包括:
获取用户医疗历史数据,并基于所述用户医疗历史数据和预定义知识库构建临床知识图谱;
采用图计算框架对所述临床知识图谱中的数据进行预处理,得到用于执行链接预测的图数据;
利用所述图数据构建链接预测模型,并对所述链接预测模型进行训练;
在所述链接预测模型中执行基于用户的协同过滤运算,确定待推送到相应用户的内容。
2.根据权利要求1所述的方法,其特征在于,所述临床知识图谱以临床治疗过程中的对象作为知识图谱结构中的节点,并定义这些节点包括的属性、属性的数据类型以及值域范围,所述对象包括患者、治疗方案、药物、治疗阶段。
3.根据权利要求1所述的方法,其特征在于,所述基于所述用户医疗历史数据和预定义知识库构建临床知识图谱,进一步包括:
将所述预定义知识库中的知识数据填充到所述临床知识图谱中,同时将所述预定义知识库中的规则配置到知识图谱的规则引擎工具中。
4.根据权利要求1所述的方法,其特征在于,所述采用图计算框架对所述临床知识图谱中的数据进行预处理,进一步包括:
根据知识图谱中的存储的用户节点和治疗方案节点,构建用户患者间的关系数据,其中所述治疗方案节点包括基于所述预定义知识库推送的治疗方案和所述用户实际选择的治疗方案,并且具有相同治疗方案的用户之间存在双向关系链接。
5.根据权利要求1所述的方法,其特征在于,所述利用所述图数据构建链接预测模型,并对所述链接预测模型进行训练,进一步包括:
确定待搜索的构成基本模型的超参数,所述超参数包括神经网络的层数,节点表示的维度,激活函数,学习率;
分别设定图卷积网络(GCN)和图注意力网络(GAT)两种模型的超参数的初始值和参数搜索空间;
建立集成学习的模型框架,进行模型的训练和测试,将平均F1分数最高的模型确定最佳链接预测模型。
6.根据权利要求5所述的方法,其特征在于,所述执行基于用户的协同过滤运算,进一步包括:
利用所述最佳链接预测模型来计算与新用户相似的相似用户,根据协同过滤算法计算出与所述相似用户相关联的备选治疗方案的分值并排序,将排序得到的治疗方案推送给所述新用户。
7.根据权利要求1所述的方法,其特征在于,所述构建临床知识图谱之后,进一步包括:
使用来自所述知识图谱的训练数据来训练预先选择的NLP模型,从患者用户接收包括医疗文本的关键词查询;使用所述NLP模型从所述医疗文本中提取字符串和运算符,将字符串映射到所述知识图谱中的节点,将运算符映射到对从知识图谱提取的数据执行的运算;使用从所述节点提取的数据来执行与所述运算符相关联的函数,以生成查询结果。
8.根据权利要求5所述的方法,其特征在于,所述建立集成学习的模型框架,进行模型的训练和测试,进一步包括:
利用所述图卷积网络接收包括表示上下文的当前状态的观察值的超参数输入,并且根据所述卷积网络参数处理所述超参数输入以生成超参数输出,所述图卷积网络与所述图注意力网络联合训练,所述图注意力网络具有多个图注意力网络参数,并接收包括标识动作和观察结果的数据的图注意力网络输入,并且根据图注意力网络参数处理所述图注意力网络输入以生成所述动作的估计值。
9.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210545418.5A CN114722217A (zh) | 2022-05-17 | 2022-05-17 | 一种基于链接预测和协同过滤的内容推送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210545418.5A CN114722217A (zh) | 2022-05-17 | 2022-05-17 | 一种基于链接预测和协同过滤的内容推送方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114722217A true CN114722217A (zh) | 2022-07-08 |
Family
ID=82231155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210545418.5A Pending CN114722217A (zh) | 2022-05-17 | 2022-05-17 | 一种基于链接预测和协同过滤的内容推送方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114722217A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116313153A (zh) * | 2023-05-12 | 2023-06-23 | 北京大学 | 一种结合非临床数据的药物不良反应预测方法和系统 |
-
2022
- 2022-05-17 CN CN202210545418.5A patent/CN114722217A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116313153A (zh) * | 2023-05-12 | 2023-06-23 | 北京大学 | 一种结合非临床数据的药物不良反应预测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299396B (zh) | 融合注意力模型的卷积神经网络协同过滤推荐方法及系统 | |
CN111191020B (zh) | 基于机器学习和知识图谱的处方推荐方法和系统 | |
Tan et al. | Evolutionary computing for knowledge discovery in medical diagnosis | |
Bashir et al. | An ensemble based decision support framework for intelligent heart disease diagnosis | |
Che et al. | A novel approach for learning label correlation with application to feature selection of multi-label data | |
Gan et al. | A genetic fuzzy k-Modes algorithm for clustering categorical data | |
Parmezan et al. | Metalearning for choosing feature selection algorithms in data mining: Proposal of a new framework | |
CN114048331A (zh) | 一种基于改进型kgat模型的知识图谱推荐方法及系统 | |
Kumar et al. | A benchmark to select data mining based classification algorithms for business intelligence and decision support systems | |
Kamila et al. | Pareto-based multi-objective optimization for classification in data mining | |
Qi et al. | Impacts of dirty data: and experimental evaluation | |
CN111370102A (zh) | 科室导诊方法、装置以及设备 | |
Leyva et al. | Knowledge-based instance selection: A compromise between efficiency and versatility | |
Chan et al. | A two-phase evolutionary algorithm for multiobjective mining of classification rules | |
Elayidom et al. | A generalized data mining framework for placement chance prediction problems | |
CN110299194B (zh) | 基于综合特征表示与改进宽深度模型的相似病例推荐方法 | |
Dutta et al. | Breast cancer prediction using stacked GRU-LSTM-BRNN | |
Lamba et al. | A MCDM-based performance of classification algorithms in breast cancer prediction for imbalanced datasets | |
CN114722217A (zh) | 一种基于链接预测和协同过滤的内容推送方法 | |
Wang et al. | Causal rule sets for identifying subgroups with enhanced treatment effect | |
Oliveira et al. | Evolutionary rank aggregation for recommender systems | |
Moudani et al. | Intelligent decision support system for osteoporosis prediction | |
Flores et al. | Wrapper discretization by means of estimation of distribution algorithms | |
Di Nuovo et al. | Psychology with soft computing: An integrated approach and its applications | |
Jain et al. | Multi-reduct rough set classifier for computer-aided diagnosis in medical data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 266000 Room 201, building 1, 88 Kaifeng Road, Shibei District, Qingdao City, Shandong Province Applicant after: Baiyang Intelligent Technology Group Co.,Ltd. Address before: 266000 Room 201, building 1, 88 Kaifeng Road, Shibei District, Qingdao City, Shandong Province Applicant before: Qingdao Baiyang Intelligent Technology Co.,Ltd. Country or region before: China |