CN113722507B

CN113722507B - 基于知识图谱的住院费用预测方法、装置及计算机设备

Info

Publication number: CN113722507B
Application number: CN202111015811.5A
Authority: CN
Inventors: 徐啸
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-07-21
Anticipated expiration: 2041-08-31
Also published as: CN113722507A

Abstract

本申请公开了一种基于知识图谱的住院费用预测方法、装置及计算机设备，涉及人工智能技术领域，可解决目前的住院费用预测方式，存在的预测工作量大、准确性低的技术问题。包括：获取医学知识图谱，并利用图嵌入算法对医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量；根据节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，并利用第一特征向量以及历史医疗数据中的历史费用数据训练住院费用预测模型；获取目标患者在第一时间周期内的目标诊断数据，并根据节点表征向量生成目标诊断数据的第二特征向量，将第二特征向量输入训练完成的住院费用预测模型，获取目标患者在第二时间周期内的住院费用预测结果。

Description

基于知识图谱的住院费用预测方法、装置及计算机设备

技术领域

本申请涉及人工智能技术领域，尤其涉及到一种基于知识图谱的住院费用预测方法、装置及计算机设备。

背景技术

住院患者的医疗费用预测，是需要根据患者入院时的状态，预估其潜在的未来费用情况。对于住院患者来说，常常需要长期就医，对就诊过程中所需要的医疗费用的准确预测，有利于患者对长期治疗方案的规划；对于医院来说，日常需要进行人员、药品及医疗器械等资源的调配，对医疗费用的准确预测有利于医院高效管理。

为了实现对住院患者的医疗费用预测，目前往往需要收集大量历史医疗数据，将历史医疗数据作为训练样本，构建并训练预测模型，进而利用预测模型实现对住院费用的预测。

然而，同一类伤情的同一种治疗方案，可能对应于很多不同的医疗费用项，譬如不同厂家生产的同一种药品，而不同地区、不同医院、不同医生可能会选择不同的项目，故收集得到的历史医疗数据的颗粒度太细，在利用医疗费用预测构建并训练预测模型之前，需要预先按照特征类型以及用药类型进行分类预处理，导致工作量较大，且按照历史医疗数据划分得到的训练样本不够覆盖全部的治疗方案，导致住院患者医疗费用预测准确性较低。

发明内容

有鉴于此，本申请提供了一种基于知识图谱的住院费用预测方法、装置及计算机设备，可用于解决目前的住院费用预测方式，存在的预测工作量大、准确性低的技术问题。

根据本申请的一个方面，提供了一种基于知识图谱的住院费用预测方法，该方法包括：

获取医学知识图谱，并利用图嵌入算法对所述医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量；

根据所述节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，并利用所述第一特征向量以及所述历史医疗数据中的历史费用数据训练住院费用预测模型；

获取目标患者在第一时间周期内的目标诊断数据，并根据所述节点表征向量生成所述目标诊断数据的第二特征向量，将所述第二特征向量输入训练完成的住院费用预测模型，获取所述目标患者在第二时间周期内的住院费用预测结果。

根据本申请的另一个方面，提供了一种基于知识图谱的住院费用预测装置，该装置包括：

获取模块，用于获取医学知识图谱，并利用图嵌入算法对所述医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量；

训练模块，用于根据所述节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，并利用所述第一特征向量以及所述历史医疗数据中的历史费用数据训练住院费用预测模型；

预测模块，用于获取目标患者在第一时间周期内的目标诊断数据，并根据所述节点表征向量生成所述目标诊断数据的第二特征向量，将所述第二特征向量输入训练完成的住院费用预测模型，获取所述目标患者在第二时间周期内的住院费用预测结果。

根据本申请的又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述基于知识图谱的住院费用预测方法。

根据本申请的再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于知识图谱的住院费用预测方法。

借由上述技术方案，本申请提供的一种基于知识图谱的住院费用预测方法、装置及计算机设备，与目前住院费用预测方式相比，本申请可首先获取与疾病诊断与住院费用相关的医学知识图谱，并利用图嵌入算法对医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量；进而根据节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，并利用第一特征向量以及历史医疗数据中的历史费用数据训练住院费用预测模型；在判定住院费用预测模型训练完成后，可进一步获取目标患者在第一时间周期内的目标诊断数据，并根据节点表征向量生成目标诊断数据的第二特征向量，将第二特征向量输入训练完成的住院费用预测模型，即可获取到目标患者在第二时间周期内的住院费用预测结果。通过本申请中的技术方案，可将知识图谱与医疗数据相结合，共同打造一套住院费用预测模型。鉴于知识图谱蕴含了每种医学概念从低粒度到高粒度的关联关系，因此知识图谱可以覆盖全部维度下的医疗费用数据，能够对费用预测模型的训练提供有效数据支撑，并且不需要在训练预测模型之前，对医疗数据进行分类预处理，进而能够减少工作量、降低费用预测成本，提高费用预测模型的效率和准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种基于知识图谱的住院费用预测方法的流程示意图；

图2示出了本申请实施例提供的另一种基于知识图谱的住院费用预测方法的流程示意图；

图3示出了本申请实施例提供的一种基于知识图谱的住院费用预测装置的结构示意图；

图4示出了本申请实施例提供的另一种基于知识图谱的住院费用预测装置的结构示意图。

具体实施方式

本申请实施例可以基于人工智能技术实现对住院费用的精准预测。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前住院费用预测方式，存在的预测工作量大、准确性低的技术问题。本申请提供了一种基于知识图谱的住院费用预测方法，如图1所示，该方法包括：

101、获取医学知识图谱，并利用图嵌入算法对医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量。

其中，医学知识图谱是由各个知识图谱节点以及各个知识图谱节点之间的边构成的图结构数据，知识图谱节点用于表示医学概念，如诊断、药物、耗材等，边用于表示医学概念之间的关系，如诊断与药物之间的关系、药物与耗材之间的关系等；图嵌入(GraphEmbedding，也叫Network Embedding)算法是一种将图结构数据（通常为高维稠密的矩阵）映射为低微稠密向量的过程，能够很好地解决图结构数据难以高效输入机器学习算法的问题。在本申请中，可利用图嵌入算法对医学知识图谱进行表征学习，进一步提取出医学知识图谱中所包含各个知识图谱节点的节点表征向量。

通过本实施例中的步骤，可首先对医学知识图谱中各个知识图谱节点的节点表征向量进行提取，并将节点表征向量按照医疗项目名称进行统一存储，以便后续住院费用预测过程中可直接基于医疗项目名称进行节点表征向量的提取与复用，并基于节点表征向量实现对住院费用预测模型的训练，进而可简化住院费用预测的流程，提高住院费用预测的效率。

对于本申请的执行主体可为住院费用预测装置，可配置在客户端侧或服务端侧，可利用图嵌入算法对对获取到的医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量；进而根据节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，并利用第一特征向量以及历史医疗数据中的历史费用数据训练住院费用预测模型；最后在获取目标患者在第一时间周期内的目标诊断数据后，可根据节点表征向量生成目标诊断数据的第二特征向量，并将第二特征向量输入训练完成的住院费用预测模型，获取目标患者在第二时间周期内的住院费用预测结果。

102、根据节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，并利用第一特征向量以及历史医疗数据中的历史费用数据训练住院费用预测模型。

其中，历史医疗数据包括历史诊断数据以及历史费用数据，历史诊断数据是指预设历史时间段（如前一个月）内样本住院患者记录的医疗项目数据，历史费用数据是指该医疗项目数据对应产生的费用数据，医疗项目数据例如可包括药物数据、检查数据、就诊数据、住院数据等；住院费用预测模型具体可为回归模型，如多层感知机（MultilayerPerceptron，MIP）、XGBoost（eXtreme Gradient Boosting）等。

对于本实施例，可利用节点表征向量对历史诊断数据进行向量表征，进一步得到预设历史时间段内各个医疗项目产生的表征向量累加和，即第一特征向量。进而以第一特征向量作为输入特征，以历史费用数据作为标签数据训练住院费用预测模型，在确定住院费用预测模型输出的费用预测结果与标签数据计算得到的损失函数小于预设阈值时，判定住院费用预测模型训练完成；若确定住院费用预测模型输出的费用预测结果和标签数据对比计算得到的损失函数大于或等于预设阈值，则需要不断调整住院费用预测模型的模型参数，并对调整模型参数的住院费用预测模型进行迭代训练，直至住院费用预测模型符合预设训练标准，判定住院费用预测模型训练完成。

103、获取目标患者在第一时间周期内的目标诊断数据，并根据节点表征向量生成目标诊断数据的第二特征向量，将第二特征向量输入训练完成的住院费用预测模型，获取目标患者在第二时间周期内的住院费用预测结果。

其中，目标患者为待进行住院费用预测的用户，目标诊断数据为目标患者在第一时间段内所积累产生的医疗项目数据，例如可包括药物数据、检查数据、就诊数据、住院数据等；第一时间周期为预测时刻之前的一个时间段，第二时间周期为医疗费用待预测的一个时间段。

对于本实施例，可利用节点表征向量对目标诊断数据进行向量表征，进一步得到第一时间段内各个医疗项目产生的向量累加和，即第二特征向量。进而以第二特征向量作为输入特征，输入至训练完成的住院费用预测模型中，即可获取得到目标患者在第二时间周期内的住院费用预测结果。

通过本实施例中基于知识图谱的住院费用预测方法，可首先获取与疾病诊断与住院费用相关的医学知识图谱，并利用图嵌入算法对医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量；进而根据节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，并利用第一特征向量以及历史医疗数据中的历史费用数据训练住院费用预测模型；在判定住院费用预测模型训练完成后，可进一步获取目标患者在第一时间周期内的目标诊断数据，并根据节点表征向量生成目标诊断数据的第二特征向量，将第二特征向量输入训练完成的住院费用预测模型，即可获取到目标患者在第二时间周期内的住院费用预测结果。通过本申请中的技术方案，可将知识图谱与医疗数据相结合，共同打造一套住院费用预测模型。鉴于知识图谱蕴含了每种医学概念从低粒度到高粒度的关联关系，因此知识图谱可以覆盖全部维度下的医疗费用数据，能够对费用预测模型的训练提供有效数据支撑，并且不需要在训练预测模型之前，对医疗数据进行分类预处理，进而能够减少工作量、降低费用预测成本，提高费用预测模型的效率和准确性。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种基于知识图谱的住院费用预测方法，如图2所示，该方法包括：

201、基于深度游走算法，对医学知识图谱中的各个知识图谱节点进行随机游走处理，得到各个知识图谱节点对应预设游走步数下的节点游走序列。

深度游走算法的核心思想总结成一句话就是，短的随机游走路径=句子（shortrandom walk = sentence，quoted from Bryan Perozzi），因此只需要设定一个随机游走的步数r，通过随机游走就可以得到一个长度为r的路径（节点集）。其中，节点游走序列是各个知识图谱节点按照医学知识图谱中的图结构随机游走预设游走步数后得到的知识图谱节点集合；预设游走步数可根据实际应用场景进行设定，例如可设定为10步。

对于本实施例，具体可应用于图嵌入算法中的深度游走（Deepwalk）算法对医学知识图谱上每一个知识图谱节点做节点嵌入，得到节点表征（Node Embedding）。即通过知识图谱节点(node)和边的图，学出每个知识图谱节点的表征向量。在网络里面，从一个知识图谱节点随机走到有连线的下一个知识图谱节点，按照预设游走步数走若干步，就得到了一个知识图谱节点的节点游走序列。

202、将节点游走序列输入训练完成的词嵌入模型，得到各个知识图谱节点的节点表征向量。

其中，词嵌入（word2vec）模型为利用与节点游走序列属于同领域的游走序列样本训练得到的。相应的，在执行本实施例步骤之前，具体还包括:确定与节点游走序列属于同一序列类型的游走序列样本，并标记游走序列样本对应的表征向量；将标记有表征向量的游走序列样本作为输入特征，训练词嵌入模型，在判定词嵌入模型输出结果的误差小于预设阈值时，判定词嵌入模型训练完成。

对于本实施例，在获取得到各个知识图谱节点对应预设游走步数下的节点游走序列后，可把随机游走的大量节点游走序列作为输入特征输入训练完成的词嵌入模型，经过词嵌入模型的处理后，得到每个知识图谱节点的节点表征向量。由于词嵌入模型是基于与节点游走序列属于同一序列类型的游走序列样本进行训练的，因此节点表征向量能够表现出各个节点在医学知识图谱中的特征。

203、在历史医疗数据中提取历史诊断数据，并按照预设关键词提取历史诊断数据中的第一医疗项目特征数据，第一医疗项目特征数据包括第一医疗项目名称以及第一医疗项目名称下医疗项目应用于治疗的累计次数。

对于本实施例，作为一种优选方式，在按照预设关键词提取历史诊断数据中的第一医疗项目特征数据时，实施例步骤203具体可以包括：对历史诊断数据对应的诊断文本进行预处理，得到包含各个第一词语的第一词序列；计算预设关键词词库中各个预设关键词与各个第一词语的语义相似度，预设关键词词库中按照医疗项目标识，存储有各个医疗项目对应的预设关键词；提取与任一第一词语对应语义相似度大于第一预设相似度阈值的第一预设关键词，并根据第一预设关键词对应的医疗项目标识确定历史诊断数据中的第一医疗项目特征数据。

在具体的应用场景中，预处理操作可包括切词处理以及停用词滤除两部分内容。其中，切词处理可将各个输入文本切分为各个独立的词段，但在切分后的词段中，往往会存在一些冗余或者质量不高的词汇，故为了提高话题抽取效率，且节省运行的空间占用，故可通过设置需要滤除的停用词，以便筛选出一些对于话题抽取作用不大的词语，并将之滤除。

其中，在进行分词处理时，可利用现有的切词工具（如CRF 分词器）对输入文本进行词语切分，得到各个独立的第一词语以及分词后的第一词序列，其中，每个第一词语标记有对应的目标词性。各个第一词语作为词序列中的元素，按照在输入文本中的出现位置依次排列，进一步得到第一词序列，其中，对应第一词序列的格式为：[词1，词2，词3，…词N]。

进一步的，作为一种优选方式，为了提高预设关键词的匹配效率，在利用上述方法获取得到标记好目标词性的第一词语后，还可对第一词语进行识别，剔除第一词序列中存在的一些停用词性，得到仅包含有效第一词语的第一词序列。其中，预设停用词性可为语气助词、副词、介词、连接词等，这些预设停用词性通常自身并无什么明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“哎”，“哎哟”，“别的”，“结果”，“让”，“不过”等。由于这些词很少单独表达文档相关程度的信息，且这些功能词对于医疗项目特征数据提取基本没有什么帮助，故为了提高医疗项目特征数据的提取效率和节省存储空间，可事先过滤掉这些没有意义的词。具体可基于现有的停用词词表来实现对停用词的识别与滤除。

在计算预设关键词词库中各个预设关键词与各个第一词语的语义相似度时，作为一种可选方式，可采用任何适用于度量的距离函数进行计算，距离函数可包括欧几里得距离（Euclidean Distance）、曼哈顿距离（Manhattan Distance）、杰卡德距离（JaccardDistance）、马氏距离（Mahalanobis distance）等，具体可根据数据类型以及实际应用场景进行选择，在此不进行具体的限定。第一预设相似度阈值的数值可根据实际应用场景进行设定。

相应的，在计算预设关键词词库中各个预设关键词与各个第一词语的语义相似度时，作为另一种可选方式，可预先训练语义相似性计算模型，利用任一一个预设关键词与任意一个第一词语构建语义分析词对；将语义分析词对输入训练完成的语义相似性计算模型中，即可获取得到语义分析词对中预设关键词与第一词语的语义相似度。其中，语义相似性计算模型具体可为神经网络模型、朴素贝叶斯模型、决策树模型、支持向量机等机器学习模型中的任意一种，具体可根据实际应用场景以及样本量的大小，选取适应的机器学习模型用于进行词对语义相似度的分析，在此不进行具体的限定。在执行本实施例步骤之前，还需要利用配置有相似度标签的样本词对对语义相似性计算模型进行预训练，在判定语义相似性计算模型的损失函数达到收敛状态时，可利用语义相似性计算模型计算预设关键词词库中各个预设关键词与各个第一词语的语义相似度。

例如，对于本实施例，若对历史诊断数据对应的诊断文本进行预处理，得到包含各个第一词语的第一词序列：[阿莫仙，核磁，阿莫仙，磁共振，MIR]；进而计算预设关键词词库中各个预设关键词与各个第一词语的语义相似度。若当且仅当利用预设关键词“阿莫西林/阿莫仙/Amoxicillin/Amoxicil等”、以及“核磁共振/核磁/磁共振/MIR/MR等”计算与各个第一词语的语义相似度时，判定该语义相似度大于第一预设相似度阈值，故可将“阿莫西林”和“核磁共振”确定为第一预设关键词。进而可根据“阿莫西林”和“核磁共振”的医疗项目标识以及对应出现在第一词序列中的累计次数确定出历史诊断数据中的第一医疗项目特征数据，通过对预设关键词出现次数的累记，可知在第一词序列中共包含2个阿莫西林对应的药物项目标识以及3个核磁共振对应的检查项目标识，故可确定出第一医疗项目特征数据为：2*阿莫西林+3*核磁共振，第一医疗项目特征数据中具体包括第一医疗项目名称以及第一医疗项目名称下医疗项目应用于治疗的累计次数。

204、在节点表征向量中查取与第一医疗项目名称匹配的第一表征向量，依据医疗项目的第一表征向量以及累计次数，计算医疗项目应用于治疗的第二表征向量，计算历史诊断数据中各个医疗项目对应第二表征向量的累加结果，将累计结果确定为历史诊断数据对应的第一特征向量。

对于本实施例，在确定得到第一医疗项目特征数据后，可进一步在节点表征向量中查取与第一医疗项目名称匹配的第一表征向量，并根据第一医疗项目名称对应出现的累计次数计算得到该医疗项目应用于治疗的第二表征向量，进而通过计算所有第二表征向量的加和结果，即可得到历史诊断数据对应的第一特征向量。

例如，基于实施例步骤203的实例，若确定第一医疗项目特征数据包括的第一医疗项目名称为“阿莫西林”和“核磁共振”，且“阿莫西林”这一医疗项目对应出现的累计次数为2，“核磁共振”这一医疗项目对应出现的累计次数为3。进而可在节点表征向量中查取与“阿莫西林”和“核磁共振”对应第一医疗项目名称匹配的第一表征向量依次为：a、b；依据“阿莫西林”这一医疗项目的第一表征向量a以及累计次数2，可计算到“阿莫西林”应用于治疗的第二表征向量2*a，依据“核磁共振”这一医疗项目的第一表征向量b以及累计次数3，可计算到“核磁共振”应用于治疗的第二表征向量3*b；进而通过计算所有第二表征向量的加和结果，即可得到历史诊断数据对应的第一特征向量：2*a+3*b。

205、利用第一特征向量以及历史医疗数据中的历史费用数据训练住院费用预测模型。

对于本实施例，可将第一特征向量确定为费用预测模型的输入特征，将历史费用数据作为标签数据，并利用第一特征向量和标签数据训练费用预测模型。具体可将第一特征向量和标签数据输入费用预测模型，得到历史医疗数据集中每个样本住院患者的医保费用预测结果，并将医保费用预测结果与每个样本住院患者的标签数据进行对比；进一步在对比误差较大时，判定损失函数未达到收敛状态，可进一步调整费用预测模型的参数，以便依据调整参数后的费用预测模型重新依据每个样本住院患者的第一特征向量和标签数据重新训练费用预测模型，以使费用预测模型输出的医保费用预测结果与每个住院患者的标签数据的交叉熵损失函数小于预设阈值，判定费用预测模型训练完成。

相应的，作为一种可选实施方式，实施例步骤205具体可以包括：将第一特征向量作为输入特征，将历史费用数据作为标签数据训练住院费用预测模型；获取住院费用预测模型输出的住院费用预测结果，并根据住院费用预测结果与历史费用数据计算住院费用预测模型的损失函数；若确定损失函数小于预设阈值，则判定住院费用预测模型训练完成；若确定损失函数大于或等于预设阈值，则迭代更新住院费用预测模型的模型参数，并将第一特征向量作为输入特征，将历史费用数据作为标签数据迭代训练更新模型参数后的住院费用预测模型，直至住院费用预测模型的损失函数小于预设阈值。

206、获取目标患者在第一时间周期内的目标诊断数据，并根据节点表征向量生成目标诊断数据的第二特征向量，将第二特征向量输入训练完成的住院费用预测模型，获取目标患者在第二时间周期内的住院费用预测结果。

对于本实施例，在获取目标患者在第一时间周期内的目标诊断数据后，可进一步按照预设关键词提取目标诊断数据中的医疗项目特征数据，医疗项目特征数据包括医疗项目名称以及该医疗项目应用于治疗的累计次数；在医学知识图谱对应各个节点的表征向量中查取与医疗项目名称匹配的第三表征向量；依据该医疗项目的第三表征向量以及应用于治疗的累计次数，计算该医疗项目应用于治疗的第四表征向量；计算历史诊断数据中各个医疗项目名称对应第四表征向量的累加结果，得到目标医疗数据对应的第二特征向量。相应的，在根据节点表征向量生成目标诊断数据的第二特征向量时，作为一种可选方式，实施例步骤206具体可以包括：按照预设关键词提取目标诊断数据中的第二医疗项目特征数据，第二医疗项目特征数据包括第二医疗项目名称以及第二医疗项目名称下医疗项目应用于治疗的累计次数；在节点表征向量中查取与第二医疗项目名称匹配的第三表征向量；依据医疗项目的第三表征向量以及累计次数，计算医疗项目应用于治疗的第四表征向量；计算目标诊断数据中各个医疗项目对应第四表征向量的累加结果，将累计结果确定为目标诊断数据对应的第二特征向量。

其中，在按照预设关键词提取目标诊断数据中的第二医疗项目特征数据时，实施例步骤具体可以包括：对目标诊断数据进行预处理，得到包含各个第二词语的第二词序列；计算预设关键词词库中各个预设关键词与各个第二词语的语义相似度，预设关键词词库中按照医疗项目标识，存储有各个医疗项目对应的预设关键词；提取与任一第二词语对应语义相似度大于第二预设相似度阈值的第二预设关键词，并根据第二预设关键词对应的医疗项目标识确定目标诊断数据中的第二医疗项目特征数据。其中，第一预设相似度阈值和第二预设相似度阈值均为0至1之间的数值，设定的数值越接近于1，表示依据语义相似度结果提取出的医疗项目特征数据越准确，第二预设相似度阈值可与第一预设相似度阈值设定相同或不同的数值，具体可根据实际应用场景进行设定。

需要说明的是，在上述根据节点表征向量生成目标诊断数据的第二特征向量时，具体实施过程可参照实施例步骤203至204中的相关描述，在此不再赘述。

例如，对于本实施例，若对目标诊断数据进行预处理，得到包含各个第二词语的第二词序列：[B超，化疗，B型超声波]；进而计算预设关键词词库中各个预设关键词与各个第二词语的语义相似度。若当且仅当利用预设关键词“B超/B型超声波等”、以及“化学治疗/化疗等”计算与各个第二词语的语义相似度时，判定该语义相似度大于第二预设相似度阈值，故可将“B超”和“化疗”确定为第二预设关键词。进而可根据“B超”和“化疗”的医疗项目标识以及对应出现在第二词序列中的累计次数确定出目标诊断数据中的第二医疗项目特征数据，通过对预设关键词出现次数的累记，可知在第二词序列中共包含2个B超对应的检查项目标识以及1个化疗对应的治疗项目标识，故可确定出第二医疗项目特征数据为：2*B超+1*化疗。进而可在节点表征向量中查取与“B超”和“化疗”对应第二医疗项目名称匹配的第三表征向量依次为：c、d；依据“B超”这一医疗项目的第三表征向量c以及累计次数2，可计算到“B超”应用于治疗的第四表征向量2*c，依据“化疗”这一医疗项目的第三表征向量d以及累计次数1，可计算到“化疗”应用于治疗的第四表征向量1*d；进而通过计算所有第四表征向量的加和结果，即可得到目标诊断数据对应的第二特征向量：2*c+1*d；最后可将2*c+1*d这一第二特征向量输入至训练完成的住院费用预测模型，住院费用预测模型则会基于对第二特征向量的特征学习，输出目标患者在第二时间周期内的住院费用预测结果。

借由上述基于知识图谱的住院费用预测方法，可首先获取与疾病诊断与住院费用相关的医学知识图谱，并利用图嵌入算法对医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量；进而根据节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，并利用第一特征向量以及历史医疗数据中的历史费用数据训练住院费用预测模型；在判定住院费用预测模型训练完成后，可进一步获取目标患者在第一时间周期内的目标诊断数据，并根据节点表征向量生成目标诊断数据的第二特征向量，将第二特征向量输入训练完成的住院费用预测模型，获取得到目标患者在第二时间周期内的住院费用预测结果。通过本申请中的技术方案，可将知识图谱与医疗数据相结合，共同打造一套住院费用预测模型。鉴于知识图谱蕴含了每种医学概念从低粒度到高粒度的关联关系，因此知识图谱可以覆盖全部维度下的医疗费用数据，能够对费用预测模型的训练提供有效数据支撑，并且不需要在训练预测模型之前，对医疗数据进行分类预处理，进而能够减少工作量、降低费用预测成本，提高费用预测模型的效率和准确性。

进一步的，作为图1和图2所示方法的具体实现，本申请实施例提供了一种基于知识图谱的住院费用预测装置，如图3所示，该装置包括：获取模块31、训练模块32、预测模块33；

获取模块31，可用于获取医学知识图谱，并利用图嵌入算法对医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量；

训练模块32，可用于根据节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，并利用第一特征向量以及历史医疗数据中的历史费用数据训练住院费用预测模型；

预测模块33，可用于获取目标患者在第一时间周期内的目标诊断数据，并根据节点表征向量生成目标诊断数据的第二特征向量，将第二特征向量输入训练完成的住院费用预测模型，获取目标患者在第二时间周期内的住院费用预测结果。

在具体的应用场景中，为了利用图嵌入算法对医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量，如图4所示，获取模块31，具体可包括：处理单元311、输入模块312；

处理单元311，可用于基于深度游走算法，对医学知识图谱中的各个知识图谱节点进行随机游走处理，得到各个知识图谱节点对应预设游走步数下的节点游走序列，其中，节点游走序列是各个知识图谱节点按照医学知识图谱中的图结构随机游走预设游走步数后得到的知识图谱节点集合；

输入单元312，可用于将节点游走序列输入训练完成的词嵌入模型，得到各个知识图谱节点的节点表征向量。

在具体的应用场景中，历史医疗数据包括历史诊断数据，为了根据节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，如图4所示，训练模块32，包括：第一提取单元321、第一查取单元322、第一计算单元323、第一确定单元324；

第一提取单元321，可用于在历史医疗数据中提取历史诊断数据，并按照预设关键词提取历史诊断数据中的第一医疗项目特征数据，第一医疗项目特征数据包括第一医疗项目名称以及第一医疗项目名称下医疗项目应用于治疗的累计次数；

第一查取单元322，可用于在节点表征向量中查取与第一医疗项目名称匹配的第一表征向量；

第一计算单元323，可用于依据医疗项目的第一表征向量以及累计次数，计算医疗项目应用于治疗的第二表征向量；

第一确定单元324，可用于计算历史诊断数据中各个医疗项目对应第二表征向量的累加结果，将累计结果确定为历史诊断数据对应的第一特征向量。

相应的，第一提取单元321，具体可用于对历史诊断数据对应的诊断文本进行预处理，得到包含各个第一词语的第一词序列；计算预设关键词词库中各个预设关键词与各个第一词语的语义相似度，预设关键词词库中按照医疗项目标识，存储有各个医疗项目对应的预设关键词；提取与任一第一词语对应语义相似度大于第一预设相似度阈值的第一预设关键词，并根据第一预设关键词对应的医疗项目标识确定历史诊断数据中的第一医疗项目特征数据。

在具体的应用场景中，历史医疗数据包括历史费用数据，在利用第一特征向量以及历史医疗数据中的历史费用数据训练住院费用预测模型时，如图4所示，训练模块32，还包括：训练单元325、第二计算单元326、判定单元327、更新单元328；

训练单元325，可用于将第一特征向量作为输入特征，将历史费用数据作为标签数据训练住院费用预测模型；

第二计算单元326，可用于获取住院费用预测模型输出的住院费用预测结果，并根据住院费用预测结果与历史费用数据计算住院费用预测模型的损失函数；

判定单元327，可用于若确定损失函数小于预设阈值，则判定住院费用预测模型训练完成；

更新单元328，可用于若确定损失函数大于或等于预设阈值，则迭代更新住院费用预测模型的模型参数，并将第一特征向量作为输入特征，将历史费用数据作为标签数据迭代训练更新模型参数后的住院费用预测模型，直至住院费用预测模型的损失函数小于预设阈值。

在具体的应用场景中，在根据节点表征向量生成目标诊断数据的第二特征向量时，如图4所示，预测模块33，包括：第二提取单元331、第二查取单元332、第三计算单元333、第二确定单元334；

第二提取单元331，可用于按照预设关键词提取目标诊断数据中的第二医疗项目特征数据，第二医疗项目特征数据包括第二医疗项目名称以及第二医疗项目名称下医疗项目应用于治疗的累计次数；

第二查取单元332，可用于在节点表征向量中查取与第二医疗项目名称匹配的第三表征向量；

第三计算单元333，可用于依据医疗项目的第三表征向量以及累计次数，计算医疗项目应用于治疗的第四表征向量；

第二确定单元334，可用于计算目标诊断数据中各个医疗项目对应第四表征向量的累加结果，将累计结果确定为目标诊断数据对应的第二特征向量。

相应的，第二提取单元331，具体可用于对目标诊断数据进行预处理，得到包含各个第二词语的第二词序列；计算预设关键词词库中各个预设关键词与各个第二词语的语义相似度，预设关键词词库中按照医疗项目标识，存储有各个医疗项目对应的预设关键词；提取与任一第二词语对应语义相似度大于第二预设相似度阈值的第二预设关键词，并根据第二预设关键词对应的医疗项目标识确定目标诊断数据中的第二医疗项目特征数据。

需要说明的是，本实施例提供的一种基于知识图谱的住院费用预测装置所涉及各功能单元的其他相应描述，可以参考图1至图2的对应描述，在此不再赘述。

基于上述如图1至图2所示方法，相应的，本实施例还提供了一种存储介质，存储介质具体可为易失性或非易失性，其上存储有计算机可读指令，该可读指令被处理器执行时实现上述如图1至图2所示的基于知识图谱的住院费用预测方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景的方法。

基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例，为了实现上述目的，本实施例还提供了一种计算机设备，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1至图2所示的基于知识图谱的住院费用预测方法。

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频（RadioFrequency，RF）电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏（Display）、输入单元比如键盘（Keyboard）等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口（如WI-FI接口）等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，与目前现有技术相比，本申请可首先获取与疾病诊断与住院费用相关的医学知识图谱，并利用图嵌入算法对医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量；进而根据节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，并利用第一特征向量以及历史医疗数据中的历史费用数据训练住院费用预测模型；在判定住院费用预测模型训练完成后，可进一步获取目标患者在第一时间周期内的目标诊断数据，并根据节点表征向量生成目标诊断数据的第二特征向量，将第二特征向量输入训练完成的住院费用预测模型，获取目标患者在第二时间周期内的住院费用预测结果。通过本申请中的技术方案，可将知识图谱与医疗数据相结合，共同打造一套住院费用预测模型。鉴于知识图谱蕴含了每种医学概念从低粒度到高粒度的关联关系，因此知识图谱可以覆盖全部维度下的医疗费用数据，能够对费用预测模型的训练提供有效数据支撑，并且不需要在训练预测模型之前，对医疗数据进行分类预处理，进而能够减少工作量、降低费用预测成本，提高费用预测模型的效率和准确性。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于知识图谱的住院费用预测方法，其特征在于，包括：

获取目标患者在第一时间周期内的目标诊断数据，并根据所述节点表征向量生成所述目标诊断数据的第二特征向量，将所述第二特征向量输入训练完成的住院费用预测模型，获取所述目标患者在第二时间周期内的住院费用预测结果；

所述历史医疗数据包括历史诊断数据；

所述根据所述节点表征向量生成样本住院患者关于历史医疗数据的第一特征向量，包括：

在历史医疗数据中提取所述历史诊断数据，并按照预设关键词提取所述历史诊断数据中的第一医疗项目特征数据，所述第一医疗项目特征数据包括第一医疗项目名称以及所述第一医疗项目名称下医疗项目应用于治疗的累计次数；

在所述节点表征向量中查取与所述第一医疗项目名称匹配的第一表征向量；

依据所述医疗项目的第一表征向量以及所述累计次数，计算所述医疗项目应用于治疗的第二表征向量；

计算所述历史诊断数据中各个所述医疗项目对应第二表征向量的累加结果，将所述累加结果确定为所述历史诊断数据对应的第一特征向量；

所述按照预设关键词提取所述历史诊断数据中的第一医疗项目特征数据，包括：

对所述历史诊断数据对应的诊断文本进行预处理，得到包含各个第一词语的第一词序列；

计算预设关键词词库中各个预设关键词与各个所述第一词语的语义相似度，所述预设关键词词库中按照医疗项目标识，存储有各个医疗项目对应的预设关键词；

提取与任一所述第一词语对应所述语义相似度大于第一预设相似度阈值的第一预设关键词，并根据所述第一预设关键词对应的医疗项目标识确定所述历史诊断数据中的第一医疗项目特征数据。

2.根据权利要求1所述的方法，其特征在于，所述利用图嵌入算法对所述医学知识图谱进行表征学习，得到各个知识图谱节点的节点表征向量，包括：

基于深度游走算法，对所述医学知识图谱中的各个知识图谱节点进行随机游走处理，得到所述各个知识图谱节点对应预设游走步数下的节点游走序列，其中，所述节点游走序列是所述各个知识图谱节点按照所述医学知识图谱中的图结构随机游走所述预设游走步数后得到的知识图谱节点集合；

将所述节点游走序列输入训练完成的词嵌入模型，得到所述各个知识图谱节点的节点表征向量。

3.根据权利要求1所述的方法，其特征在于，所述历史医疗数据包括历史费用数据；

所述利用所述第一特征向量以及所述历史医疗数据中的历史费用数据训练住院费用预测模型，包括：

将所述第一特征向量作为输入特征，将所述历史费用数据作为标签数据训练住院费用预测模型；

获取所述住院费用预测模型输出的住院费用预测结果，并根据所述住院费用预测结果与所述历史费用数据计算所述住院费用预测模型的损失函数；

若确定所述损失函数小于预设阈值，则判定所述住院费用预测模型训练完成；

若确定所述损失函数大于或等于预设阈值，则迭代更新所述住院费用预测模型的模型参数，并将所述第一特征向量作为输入特征，将所述历史费用数据作为标签数据迭代训练更新模型参数后的住院费用预测模型，直至所述住院费用预测模型的损失函数小于预设阈值。

4.根据权利要求1所述的方法，其特征在于，所述根据所述节点表征向量生成所述目标诊断数据的第二特征向量，包括：

按照预设关键词提取所述目标诊断数据中的第二医疗项目特征数据，所述第二医疗项目特征数据包括第二医疗项目名称以及所述第二医疗项目名称下医疗项目应用于治疗的累计次数；

在所述节点表征向量中查取与所述第二医疗项目名称匹配的第三表征向量；

依据所述医疗项目的第三表征向量以及所述累计次数，计算所述医疗项目应用于治疗的第四表征向量；

计算所述目标诊断数据中各个所述医疗项目对应第四表征向量的累加结果，将所述累加结果确定为所述目标诊断数据对应的第二特征向量。

5.根据权利要求4所述的方法，其特征在于，所述按照预设关键词提取所述目标诊断数据中的第二医疗项目特征数据，包括：

对所述目标诊断数据进行预处理，得到包含各个第二词语的第二词序列；

计算预设关键词词库中各个预设关键词与各个所述第二词语的语义相似度，所述预设关键词词库中按照医疗项目标识，存储有各个医疗项目对应的预设关键词；

提取与任一所述第二词语对应所述语义相似度大于第二预设相似度阈值的第二预设关键词，并根据所述第二预设关键词对应的医疗项目标识确定所述目标诊断数据中的第二医疗项目特征数据。

6.一种基于知识图谱的住院费用预测装置，其特征在于，包括：

预测模块，用于获取目标患者在第一时间周期内的目标诊断数据，并根据所述节点表征向量生成所述目标诊断数据的第二特征向量，将所述第二特征向量输入训练完成的住院费用预测模型，获取所述目标患者在第二时间周期内的住院费用预测结果；

所述历史医疗数据包括历史诊断数据；

所述训练模块包括：

第一提取单元，用于在历史医疗数据中提取历史诊断数据，并按照预设关键词提取历史诊断数据中的第一医疗项目特征数据，第一医疗项目特征数据包括第一医疗项目名称以及第一医疗项目名称下医疗项目应用于治疗的累计次数；

第一查取单元，用于在节点表征向量中查取与第一医疗项目名称匹配的第一表征向量；

第一计算单元，用于依据医疗项目的第一表征向量以及累计次数，计算医疗项目应用于治疗的第二表征向量；

第一确定单元，用于计算历史诊断数据中各个医疗项目对应第二表征向量的累加结果，将累加结果确定为历史诊断数据对应的第一特征向量；

所述第一提取单元具体用于：对历史诊断数据对应的诊断文本进行预处理，得到包含各个第一词语的第一词序列；计算预设关键词词库中各个预设关键词与各个第一词语的语义相似度，预设关键词词库中按照医疗项目标识，存储有各个医疗项目对应的预设关键词；提取与任一第一词语对应语义相似度大于第一预设相似度阈值的第一预设关键词，并根据第一预设关键词对应的医疗项目标识确定历史诊断数据中的第一医疗项目特征数据。

7.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5中任一项所述的基于知识图谱的住院费用预测方法。

8.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5中任一项所述的基于知识图谱的住院费用预测方法。