CN116070693B - 患者信息与医疗服务关系检测模型训练、检测方法及装置 - Google Patents
患者信息与医疗服务关系检测模型训练、检测方法及装置 Download PDFInfo
- Publication number
- CN116070693B CN116070693B CN202310362637.4A CN202310362637A CN116070693B CN 116070693 B CN116070693 B CN 116070693B CN 202310362637 A CN202310362637 A CN 202310362637A CN 116070693 B CN116070693 B CN 116070693B
- Authority
- CN
- China
- Prior art keywords
- vector
- medical service
- information
- medical
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种患者信息与医疗服务关系检测模型训练方法、患者信息与医疗服务匹配异常的检测方法及相关装置。所述方法包括:获取患者就诊信息和医疗服务信息;对患者就诊信息和医疗服务信息分别进行特征编码,得到患者信息向量和医疗服务向量;将包含有患者信息向量和医疗服务向量的向量对作为样本数据,生成样本数据集;使用样本数据集对预设的深度学习模型进行训练,得到患者信息与医疗服务关系检测模型。能够高效且准确地检测患者信息与医疗服务匹配是否存在异常。
Description
技术领域
本发明涉及医保欺诈检测领域,特别涉及一种患者信息与医疗服务关系检测模型训练方法、患者信息与医疗服务匹配异常的检测方法及相关装置。
背景技术
医保欺诈行为会对医保基金使用的公平性和有效性产生负面影响,在多种医保欺诈的手段中,部分欺诈者通过从医院或者与自身不相符的医疗服务进而获得报销来实现欺诈。现实场景中,医疗服务与患者的就诊信息不相符的具体情形可能复杂多样,并且随着医疗技术的发展,医保相关规章、政策和法律的不断完善和改变,这种情形会随着时间推移而不断变化,因此,如果想要利用异常识别规则对异常行为进行检测,一方面现实情况下很难穷尽所有的检测规则,而有限的检测规则显然会使得检测结果准确率偏低;另一方面,即便可以穷尽所有的检测规则,如果对每条医保数据都按照海量的规则进行检测,其计算量非常庞大,其效率也很难接受,因此亟需一种能够高效且准确检测患者信息与医疗服务是否匹配的方法。
发明内容
在庞大的患者数据中,真正患者信息与医疗服务匹配异常的样本较少,同时获取数据成本较高,通过现有技术检测患者信息与医疗服务对应异常的情况,还存在一系列问题。通过对医保数据的研究和分析,本发明的发明人发现,利用非常多的样本量(包括噪声),通过无监督学习挖掘患者信息和医疗服务不匹配的规则,能够高效且准确检测患者信息与医疗服务不匹配的医保记录。
鉴于上述问题和发现,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种患者信息与医疗服务关系检测模型训练方法、患者信息与医疗服务匹配异常的检测方法及相关装置。
第一方面,本发明实施例提供一种患者信息与医疗服务关系检测模型训练方法,包括:
获取患者就诊信息和医疗服务信息;
对所述患者就诊信息和医疗服务信息分别进行特征编码,得到患者信息向量和医疗服务向量;
将包含有所述患者信息向量和所述医疗服务向量的向量对作为样本数据,生成样本数据集;
使用所述样本数据集对预设的深度学习模型进行训练,得到患者信息与医疗服务关系检测模型。
在一个实施例中,所述患者就诊信息和/或医疗服务信息中包括:连续型数据;
对所述患者就诊信息和医疗服务信息分别进行特征编码,包括:
将所述连续型数据映射到预先划分的多个数据区间中对应的数据区间,根据所述对应的数据区间,对所述连续型数据进行特征编码。
在一个实施例中,所述患者就诊信息包括:至少一条历史疾病数据;
对患者就诊信息进行特征编码,包括:
对患者对应的至少一条历史疾病数据进行特征编码,得到历史疾病向量;所述历史疾病向量中包含分别与所述至少一条历史疾病数据对应的有效数据位。
在一个实施例中,所述得到历史疾病向量之后,还包括:
将所述历史疾病向量与对应的时间衰减函数相乘;所述时间衰减函数中包含至少一个时间衰减系数;所述时间衰减系数用于对所述历史疾病向量中每个历史疾病对应的有效数据位的数值进行衰减,且衰减程度与所述历史疾病的跨越时长正相关。
在一个实施例中,所述患者信息向量包括:就诊科室向量和就诊医院等级向量;
得到患者信息向量的步骤之后,还包括:
将所述就诊科室向量和就诊医院等级向量进行运算,得到交叉向量;
对所述交叉向量进行变换,得到科室-医院等级向量;
使用所述科室-医院等级向量,替代所述就诊科室向量和就诊医院等级向量。
在一个实施例中,医疗服务信息中包括组合医疗服务信息;
对医疗服务信息进行特征编码,包括:
对患者对应的至少一个组合医疗服务信息进行特征编码,得到组合医疗服务向量,所述组合医疗服务向量中包含与所述至少一个组合医疗服务信息对应的有效数据位。
在一个实施例中,将包含有所述患者信息向量和所述医疗服务向量的向量对作为样本数据,生成样本数据集,包括:
对于各条医保记录,分别将每条医保记录对应的所述患者信息向量和对应的医疗服务向量连接,生成多个正样本数据;
对所述多个正样本数据中的患者信息向量和/或医疗服务向量进行混洗,得到多个负样本数据;
将所述多个正样本数据和所述多个负样本数据组合,生成样本数据集。
第二方面,本发明实施例提供一种患者信息与医疗服务匹配异常的检测方法,包括:
获取待检测的医保记录,从所述医保记录中提取患者就诊信息和对应的医疗服务信息;
对所述患者就诊信息和对应的医疗服务信息分别进行特征编码,生成待检测的患者信息向量和待检测的医疗服务向量;
将所述待检测的患者信息向量和待检测的医疗服务向量输入至训练好的患者信息与医疗服务关系检测模型中,通过所述患者信息与医疗服务关系检测模型输出待检测医保记录的患者信息与医疗服务匹配的概率值;
根据所述待检测医保记录的患者信息与医疗服务匹配的概率值,确定待检测医保记录的患者信息与医疗服务匹配是否存在异常;
所述患者信息与医疗服务关系检测模型是通过如前所述的患者信息与医疗服务关系检测模型训练方法得到的。
第三方面,本发明实施例提供一种患者信息与医疗服务关系检测模型训练装置,包括:
获取模块,用于获取患者就诊信息和医疗服务信息;
编码模块,用于对所述患者就诊信息和医疗服务信息分别进行特征编码,得到患者信息向量和医疗服务向量;
生成模块,用于将包含有所述患者信息向量和所述医疗服务向量的向量对作为样本数据,生成样本数据集;
训练模块,用于使用所述样本数据集对预设的深度学习模型进行训练,得到患者信息与医疗服务关系检测模型。
第四方面,本发明实施例提供一种患者信息与医疗服务匹配异常的检测的装置,包括:
提取模块,用于获取待检测的医保记录,从所述医保记录中提取患者就诊信息和对应的医疗服务信息;
编码模块,用于对所述患者就诊信息和对应的医疗服务信息分别进行特征编码,生成待检测的患者信息向量和待检测的医疗服务向量;
检测模块,用于将所述待检测的患者信息向量和待检测的医疗服务向量输入至训练好的患者信息与医疗服务关系检测模型中,通过所述患者信息与医疗服务关系检测模型输出待检测医保记录的患者信息与医疗服务匹配的概率值;
确定模块,用于根据所述待检测医保记录的患者信息与医疗服务匹配的概率值,确定待检测医保记录的患者信息与医疗服务匹配是否存在异常;
所述患者信息与医疗服务关系检测模型是通过如前所述的患者信息与医疗服务关系检测模型训练方法得到的。
第五方面,本发明实施例提供一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前所述的患者信息与医疗服务关系检测模型的训练方法或如前所述的患者信息与医疗服务匹配异常的检测方法。
第六方面,本发明实施例提供一种电子设备,其特征在于,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前所述的患者信息与医疗服务关系检测模型的训练方法或如前所述的患者信息与医疗服务匹配异常的检测方法。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的患者信息与医疗服务关系检测模型的训练方法,获取患者就诊信息和医疗服务信息,作为训练患者信息与医疗服务关系检测模型的基础数据,对患者就诊信息和医疗服务信息分别进行特征编码,得到患者信息向量和医疗服务向量,将患者信息向量和医疗服务向量组成向量对,得到样本数据集,使用样本数据集训练预设的深度学习模型,得到患者信息与医疗服务关系检测模型,由于海量医疗相关数据中大多数是相互匹配的患者就诊信息和医疗服务信息,本发明实施例通过无监督学习的方式,创建深度学习模型以充分挖掘和学习海量医疗相关数据中蕴含的患者就诊信息与医疗服务信息之间的匹配关系,从而可得到患者信息与医疗服务关系检测模型,利用该模型可快速、准确地判断出患者信息与医疗服务之间是否是匹配,避免了现有技术中使用检测规则进行识别带来的检测准确性和效率都较低的问题,极大地提高了筛选患者就诊信息和医疗服务信息不匹配的医保记录的效率和准确率。
在本发明实施例中,深度学习模型的训练过程,剔除了与患者就诊信息和医疗服务信息无关的数据,减少了噪音数据对患者信息与医疗服务关系检测模型的干扰,进一步提高了患者信息与医疗服务关系检测模型的训练效率和准确性。
基于上述训练好的患者信息与医疗服务关系检测模型,将患者就诊信息与医疗服务信息输入至该模型中,能够输出二者匹配的概率值,二者匹配的概率值能够表征二者匹配的程度,实现高效准确地筛选出患者就诊信息和医疗服务信息不匹配的医保记录。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中患者信息与医疗服务关系检测模型的训练的方法流程图;
图2为本发明实施例中生成样本数据集的方法流程图;
图3为本发明实施例中预设的深度学习模型的结构示意图;
图4为本发明实施例中患者信息与医疗服务匹配异常的检测方法流程图;
图5为本发明实施例中患者信息与医疗服务关系检测模型训练装置的结构示意图;
图6为本发明实施例中患者信息与医疗服务匹配异常的检测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了解决现有技术中存在的难以快速高效准确地检测医生开药违规的行为的问题,本发明实施例提供一种患者信息与医疗服务关系检测模型训练方法和患者信息与医疗服务匹配异常的检测方法和装置。
首先对本发明实施例提供的患者信息与医疗服务关系检测模型训练方法进行说明。
本发明实施例提供患者信息与医疗服务关系检测模型训练方法,其流程如图1所示,包括如下步骤:
步骤S1:获取患者就诊信息和医疗服务信息;
步骤S2:对患者就诊信息和医疗服务信息分别进行特征编码,得到患者信息向量和医疗服务向量;
步骤S3:将包含有患者信息向量和医疗服务向量的向量对作为样本数据,生成样本数据集;
步骤S4:使用样本数据集对预设的深度学习模型进行训练,得到患者信息与医疗服务关系检测模型。
上述步骤S1中,可以从医保记录中获取患者就诊信息和医疗服务信息,每条医保记录的患者就诊信息与医疗服务信息是一一对应的,由于医保记录中有很多与训练患者信息与医疗服务关系检测模型无关的数据,剔除这些无关数据,保留患者就诊信息(包括患者自身的相关信息、就诊信息和历史疾病信息等)和医疗服务信息,比如,医保记录中的“患者性别”、“年龄”、“就诊科室”、“就诊医院等级”、“主诊断疾病”和“历史疾病”这些字段对应的数据,组成该条医保记录的患者就诊信息,“药品”、“治疗项目”和“器械耗材”这些字段对应的数据,组成该条医保记录的医疗服务信息,当然,根据实际需要,也可以保留医保记录中其他字段对应的数据,来训练患者信息与医疗服务关系检测模型,本发明实施例对此不做限定,上述做法能够减少数据冗余,同时降低了噪音数据对模型训练过程的干扰,提高深度学习模型的训练效率、训练速度和准确率。
上述步骤S2中,从大量的医保记录中获取训练患者信息与医疗服务关系检测模型的数据后,分别对每条医保记录中的患者就诊信息和医疗服务信息进行特征编码,换言之,将同一条医保记录中的患者就诊信息和对应的医疗服务信息分别进行特征编码,得到患者信息向量和医疗服务向量,特征编码的形式可以选择独热编码(Onehot)的形式,也可以选择其他的编码形式,本发明实施例对此不做限定。
上述步骤S3中,将同一条医保记录中的两个向量,也就是患者信息向量和对应的医疗服务向量组成向量对,以向量对的形式作为样本,对深度学习模型进行训练,由于大量历史的医保记录中的患者就诊信息和对应的医疗服务信息蕴藏了患者信息与医疗服务的内在对应关系,使用这样的样本对深度学习模型进行训练,让深度学习模型对这种内在对应关系进行学习,能够使最终得到的患者信息与医疗服务关系监测模型更准确。
上述步骤S4中,采用无监督的学习的训练方法,通过大量的样本数据集对预设的深度学习模型进行训练,使得模型能够准确地学习到患者信息与医疗服务的内在对应关系,例如,预设的深度学习模型可以选择DSSM模型,本发明实施例对此不做限定。
本发明实施例利用患者就诊信息的向量和医疗服务信息的向量,训练预设的深度学习模型,得到患者信息与医疗服务关系检测模型,训练完成的患者信息与医疗服务关系检测模型能够输出每条医保记录中的患者就诊信息与医疗服务信息之间的匹配概率值,概率值表征该医保记录中患者就诊信息与医疗服务信息之间的匹配程度,为利用该模型进行患者就诊信息和医疗服务信息之间匹配关系的检测提供良好的支持。
在一些可选的实施例中,在上述步骤S1中,获取患者就诊信息和医疗服务信息,其中,患者就诊信息可以由多个字段对应的数据组成,这些字段的数据类型可以均为连续型,也可均为离散型,当然也可以包含连续型和离散型两种,在本发明实施例中,从医保记录中提取到的患者就诊信息中,“年龄”字段的数据类型为连续型,“患者性别”、“就诊科室”、“就诊医院等级”、“主诊断疾病”、“历史疾病”这些字段的数据类型为离散型,根据实际的需要,还可以提取医保记录中的其他字段的数据作为患者就诊信息中的一部分。
同样的,医疗服务信息也可以由多个字段对应的数据组成,这些字段的数据类型可以均为连续型,也可均为离散型,当然也可以包含连续型和离散型两种,在本发明实施例中,从医保记录中提取到的医疗服务信息中,“药品”、“治疗项目”和“器械耗材”这些字段的数据类型均为离散型,根据实际的需要,还可以提取医保记录中的其他字段的数据作为医疗服务信息中的一部分。
在一些可选的实施例中,患者就诊信息中的“年龄”字段的数据类型为连续型,在本发明实施例中,医疗服务信息中没有连续型数据,但是根据实际需要,也可以提取出数据类型为连续型的字段对应的数据,作为组成医疗服务信息的一部分,并不影响本发明实施例的患者信息与医疗服务关系检测模型的训练方法的实施,基于此,上述步骤S2中,对患者就诊信息和医疗服务信息分别进行特征编码,对于患者就诊信息或者医疗服务信息中的连续型数据,可以将连续型数据映射到预先划分的多个数据区间中对应的数据区间,根据对应的数据区间,对连续型数据进行特征编码;对于患者就诊信息或者医疗服务信息中的离散型数据,可以选择独热编码(Onehot)的方式对其进行特征编码得到对应的向量。
对于连续型数据,按照预先设立的规则,将连续型数据划分成不同的区间,这样做的好处是:可以将连续型数据与其他数据组合;以“年龄”字段对应的数据为例,将不同年龄段划分为不同的区间,由于疾病在不同年龄段、或者不同性别上,发病概率可能不同,且治疗方式可能也不同,比如,例如35岁男性肝癌患者和70岁女性肝癌患者的治疗方式可能存在较大区别,因为年龄、性别、诊断特征等的非线性数据的组合对医疗项目的合理性判断是存在直接影响的,所以通过对这些复杂的非线性数据组合进行特征编码得到训练数据对深度学习模型进行训练,能够使得患者信息与医疗服务关系检测模型更准确地预测患者就诊信息和医疗服务信息的匹配程度。
下面对步骤S2中生成患者信息向量和医疗服务向量的过程进行详细说明:
(一)、生成患者信息向量:
(1)、对“年龄”字段对应的数据进行特征编码,生成年龄向量:
确定年龄区间,例如,通过自定义的方式,划分10岁或者15岁为一个年龄区间,又例如,以某种疾病在不同年龄段的发病率及进展概率确定年龄区间,然后再对“年龄”字段对应的数据进行特征提取;
用一个具体的例子对上述生成年龄向量的过程进行说明,以疾病在不同年龄段的发病率来确定年龄区间的方式为例,通过调研发现,在0岁~30岁、30岁~40岁、40岁~50岁和50岁以上的不同年龄区间内,A疾病的进展概率有显著差异,因此按照上述划分方式将年龄划分成多个年龄区间,即0岁~30岁为一个区间、30岁~40岁为一个区间、40岁~50岁为一个区间、50岁以上为一个区间,然后采用独热编码的方式,对各年龄区间进行编码,得到一个独热向量[0,0,0,0.],这个独热向量的各个数据位的状态均为0,该独热向量中第一个数据位对应0岁~30岁这个年龄区间、第二个数据位对应30岁~40岁这个年龄区间、第三个数据位对应40岁~50岁这个年龄区间、第四个数据位对应50岁以上这个年龄区间,对于35岁的患者B,将患者B的年龄映射到对应的区间上,也就是30岁~40岁这个区间,并将这个区间对应的数据位的状态更改为1,得到患者B的年龄向量为[0,1,0,0]。
(2)、采用独热编码的方式,对“历史疾病”字段对应的数据进行特征编码,生成历史疾病向量,具体的,对患者对应的至少一条历史疾病数据进行特征编码,得到历史疾病向量;历史疾病向量中包含分别与至少一条历史疾病数据对应的有效数据位;
在实际中,患者在本次就医之前,很可能已经患上了一种或多种疾病,这些疾病数据称作历史疾病数据,对于一位患者来说,历史疾病数据对该患者本次诊疗方案可能存在影响,所以在训练患者信息与医疗服务关系检测模型时,需要将医保记录中的历史疾病数据作为训练数据的一部分,采用独热编码的方式,对疾病库中所有种类的疾病数据进行特征编码,生成维数固定的向量,且这个维数固定的向量每个数据位的状态均为0,对于每条医保记录中的历史疾病数据,将上述生成的维数固定的向量中对应该医保记录历史疾病数据的数据位状态改为1,得到该医保记录的历史疾病向量;如果医保记录的历史疾病数据只有一种历史疾病,那么得到的历史疾病向量中只有一个有效数据位,对应该条医保记录的一个历史疾病数据,如果医保记录的历史疾病数据有多种历史疾病,则将该条医保记录中历史疾病数据的多种历史疾病合并,则得到的历史疾病向量中有多个有效数据位,且每个有效数据位分别对应该条医保记录的一个历史疾病数据;
用一个具体的例子进行说明,比如,获取疾病库中的100种疾病进行独热编码,得到[0,0,0,0,0,...,0,0,0],其中第二个位置和第五个位置分别表示高血压和胃炎这两种疾病,有一条医保记录的历史疾病数据为:胃炎,那么,对应得到的历史疾病向量为[0,0,0,0,1,…,0,0,0],其中,数值为1的数据位表征“胃炎”这个疾病,又比如,有一条医保记录的历史疾病数据为:胃炎、高血压,那么,对应得到的药品向量为[0,1,0,0,1,…, 0,0,0],其中,第一个数值为1的数据位表征“高血压”这个疾病,第二个数值为1的数据位表征“胃炎”这个疾病。
在一些可选的实施例中,为了使得历史疾病对于模型训练结果的影响不至于超过当前疾病对模型训练结果的影响,在得到医保记录的历史疾病向量后,将历史疾病向量中与关于时间的衰减函数相乘,使得距离现在时间间隔越长的疾病对结果产生的影响越小,具体的,例如,可以用下述方式实现:
得到历史疾病向量之后,将历史疾病向量与对应的时间衰减函数相乘;时间衰减函数中包含至少一个时间衰减系数;时间衰减系数用于对历史疾病向量中每个历史疾病对应的有效数据位的数值进行衰减,且衰减程度与历史疾病的跨越时长正相关。
上述的跨越时长,是指患者的某一历史疾病从首次确诊的时间到该患者本次就医时间的时间差,获取历史疾病向量中每个有效数据位对应的历史疾病的跨越时长,构建每条医保记录的历史疾病向量对应的时间衰减函数。
(3)、采用独热编码的方式,对“就诊科室”字段对应的数据进行特征编码,生成就诊科室向量;
采用独热编码的方式,对实际中医院的所有就诊科室进行特征编码,生成维数固定的向量,且这个维数固定的向量每个数据位的状态均为0,每个数据位分别表征不同的就诊科室,对于每条医保记录中的就诊科室数据,将上述生成的维数固定向量中对应该医保记录的就诊科室数据的数据位状态改为1,得到该医保记录的就诊科室向量;用一个具体的例子进行说明,比如,对所有的就诊科室进行独热编码,得到[0,0,0,0,0,...,0,0,0](如果实际中有100个就诊科室,那么将得到100维的向量),假设向量中的第五个位置表征“内分泌科”这个科室,有一条医保记录的就诊科室数据为“内分泌科”,那么,对应得到的就诊科室向量为[0,0,0,0,1,…,0,0,0],其中,数值为1的数据位表征就诊科室为内分泌科。
(4)、采用独热编码的方式,对“就诊医院等级”字段对应的数据进行特征编码,生成就诊医院等级向量;
采用独热编码的方法,对实际医院的所有就诊医院等级进行特征编码,生成维数固定的向量,且这个维数固定的向量每个数据位的状态均为0,每个数据位分别表征不同的就诊医院等级,对于每条医保记录中的就诊医院等级数据,将上述生成的维数固定向量中对应该医保记录的就诊医院等级数据的数据位状态改为1,得到该医保记录的就诊医院等级向量;用一个具体的例子进行说明,比如,对所有的就诊医院等级进行独热编码,得到[0,0,0,0,0,...,0,0,0](假设实际中就诊医院有10个等级,那么将得到10维的向量),假设向量中的第2个位置表征“三级甲等”这个等级,有一条医保记录的就诊医院等级数据为“三级甲等”,那么,对应得到的就诊医院等级向量为[0,1,0,0,0,…,0,0,0],其中,数值为1的数据位表征就诊医院等级为三级甲等。
在一些可选的实施例中,由于就诊科室数据和就诊医院等级数据单独作为判断患者信息与医疗服务信息的匹配条件,均不具备很好的区分性,所以为了更好的建立患者信息与对应的医疗服务信息的匹配关系,得到每条医保记录的就诊科室向量和就诊医院等级向量之后,继续对这两个向量进行交叉组合,本发明实施例采取的组合特征的方式是:将每条医保记录特征编码后得到的就诊科室向量和就诊医院等级向量相乘,再将相乘的结果转化为一维向量,这样就生成了就诊科室和就诊医院等级的交叉二阶特征,具体的实现方式如下:
(a)、将就诊科室向量和就诊医院等级向量进行运算,得到交叉向量;
(b)、对交叉向量进行变换,得到科室-医院等级向量;
(c)、使用科室-医院等级向量,替代就诊科室向量和就诊医院等级向量。
用一个具体的例子进行说明:比如对一条医保记录中的就诊科室数据和就诊医院等级数据分别进行特征编码,得到就诊科室向量:[0,0,1]与就诊医院等级向量:[1,0,0],将这两个向量相乘得到交叉向量:[[1,0,0],[0,0,0],[0,0,0]],再将交叉向量变换得到[1,0,0,0,0,0,0,0,0]科室-医院等级向量,得到的科室-医院等级向量是一维向量,并且替换这条医保记录对应的就诊科室向量与就诊医院等级向量。
(5)、采用独热编码的方式,对“主诊断疾病”字段对应的数据进行特征编码,生成主诊断疾病向量;
采用独热编码的方法,对疾病库中的所有疾病进行特征编码,生成维数固定的向量,且这个维数固定的向量每个数据位的值为0,每个数据位分别表征不同种类的疾病,对于每条医保记录中的主诊断疾病数据,将上述生成的维数固定向量中对应该医保记录的主诊断疾病数据的数据位状态改为1,得到该医保记录的主诊断疾病向量;用一个具体的例子进行说明,比如,对疾病库中的疾病数据进行独热编码,得到[0,0,0,0,0,...,0,0,0](若疾病库中有1000种疾病,那么将得到1000维的向量),假设向量中的第2个位置表征“糖尿病”这个疾病,有一条医保记录的主诊断疾病数据为“糖尿病”,那么,对应得到的主诊断疾病向量为[0,1,0,0,0,…,0,0,0],其中,数值为1的数据位表征主诊断疾病为糖尿病。
(6)、采用独热编码的方式,对“患者性别”字段对应的数据进行特征编码,生成性别向量;
采用独热编码的方法,对性别的种类进行特征编码,生成维数固定的向量(性别分为男和女,所以性别向量是一个2维的向量),且这个维数固定的向量每个数据位的状态均为0,每个数据位分别表征不同的性别,对于每条医保记录中的患者性别,将上述生成的维数固定向量中对应该医保记录的患者性别数据的数据位状态改为1,得到该医保记录的性别向量;用一个具体的例子进行说明,比如,对性别男女进行独热编码,得到[0,0],第一个位置和第二个位置分别代表男、女两个性别,有一条医保记录的患者数据为“男”,那么,对应得到的性别向量为[1,0,],其中,数值为1的数据位表征患者为男性。
对于每条医保记录,将生成的年龄向量、性别向量、科室-医院等级向量、主诊断疾病向量和历史疾病向量连接,得到该条医保记录的患者信息向量,可以采用首尾相连的方式,也可以采用其他方式,本发明实施例对此不做限定。
(二)、生成医疗服务向量:
医疗服务信息主要由“药品”、“治疗项目”和“器械耗材”三部分信息组成,但不限于此,需要说明的是,本实施例中仅以医疗服务信息包含上述三种信息为例进行介绍,针对其他类型的医疗服务信息的处理方式均可参照本实施例的介绍,在此不再赘述。
上述三个字段的共同特点为:每条医保记录中,患者可能开具了一个或多个类型的药品、参与了一个或多个治疗项目、使用了一个或多个器械耗材,有这种特点的数据可以称为组合医疗服务信息,也就是说,医疗服务信息由“药品”、“治疗项目”和“器械耗材”这三个组合医疗服务信息组成。
采用独热编码的方式,对患者对应的至少一个组合医疗服务信息进行特征编码,得到组合医疗服务向量,组合医疗服务向量中包含与至少一个组合医疗服务信息对应的有效数据位:
(1)、采用独热编码的方式,对“药品”字段对应的数据进行特征编码,生成药品向量,对药品库中所有种类的药品数据进行特征编码,生成维数固定的向量,且这个固定的向量每个数据位的状态均为0,对于每条医保记录中的药品数据,将上述生成的固定向量中对应该医保记录的药品数据的数据位的状态改为1,得到该医保记录的药品向量;如果医保记录的药品数据只有一种药品,那么得到的药品向量中只有一个有效数据位,对应该条医保记录的一个药品数据,如果医保记录的药品数据有多种药品,则将该条医保记录中药品数据的多种药品合并,则得到的药品向量中有多个有效数据位,且每个有效数据位分别对应该条医保记录的一个药品数据;用一个具体的例子进行说明,比如,获取药品数据库中的100种药品进行独热向量编码,得到[0,0,0,0,0,...,0,0,0],其中第二个位置和第五个位置分别表示感冒灵和斯达舒这两种药品,有一条医保记录的药品数据为“感冒灵”,那么,对应得到的历史疾病向量为[0,1,0,0,0,…,0,0,0],其中,数值为1的数据位表征“感冒灵”,又比如,有一条医保记录的药品数据为:“感冒灵、斯达舒”,那么,对应得到的药品向量为[0,1,0,0,1,…, 0,0,0],其中,第一个数值为1的数据位表征感冒灵这个药品,第二个数值为1的数据位表征斯达舒这个药品。
(2)、采用独热编码的方式,对“治疗项目”字段对应的数据进行特征编码,生成治疗项目向量,其生成方式与生成药品向量的方式相同,在前述中已详细说明,本发明实施例在此不做赘述,用一个具体的例子进行说明,比如,有一条医保记录的治疗项目数据为“针灸”,那么,对应得到的治疗项目向量为[0,0,0,0,1,0,0,0,0],其中数值为1的数据位表征针灸,又比如,有一条医保记录的治疗项目数据为“核磁共振、胸透”,那么,对应得到的治疗项目向量为[0,1,0,1,0,0,0,0,0],第一个数值为1的数据位表征核磁共振,第二个数值为1的数据位表征胸透。
(3)、采用独热编码的方式,对“器械耗材”字段对应的数据进行特征编码,生成器械耗材向量,其生成方式与生成药品向量的方式相同,在前述中已详细说明,本发明实施例在此不做赘述,用一个具体的例子进行说明,比如,有一条医保记录的器械耗材数据为:手术刀,那么,对应得到的器械耗材向量为[0,0,0,0,1,...,0,0,0,0],其中数值为1的数据位表征手术刀,又比如,有一条医保记录的器械耗材数据为:手术刀、纱布,那么,对应得到的器械耗材向量为[0,1,0,0,1,...,0,0,0,0],第一个数值为1的数据位表征纱布,第二个数值为1的数据位表征手术刀。
对于每条医保记录,将生成的药品向量、治疗项目向量、器械耗材向量连接,得到该条医保记录的医疗服务向量,可以采用首尾相连的方式,也可以采用其他方式,本发明实施例对此不做限定。
独热编码即 One-Hot 编码,其方法是使用 N 位状态寄存器来对 N 个状态进行编码,每个状态都有它独立的寄存器位。历史疾病数据、药品数据、治疗项目数据和器械耗材数据,在编码得到的特征向量中均有对应的有效数据位。
在一些可选的实施例中,上述步骤S3,生成样本数据集,如图2所示,例如可以通过下述方式实现:
步骤S21:对于各条医保记录,分别将每条医保记录对应的患者信息向量和对应的医疗服务向量连接,生成多个正样本数据;
步骤S22:对多个正样本数据中的患者信息向量和/或医疗服务向量进行混洗,得到多个负样本数据;
步骤S23:将多个正样本数据和多个负样本数据组合,生成样本数据集。
在一些可选的实施例中,上述步骤S21中,用一个具体的例子对生成多个正样本数据进行说明:如下表1所示,下表1中有两列数据,左边一列表示患者信息向量,右边一列表示医疗服务向量,一共有九行数据,一行代表一组样本数据,以第一行样本数据为例:左边一格的数据表示A患者的患者信息向量,右边一格的数据表示A患者的医疗服务向量,则第一行数据即为一组正样本数据,以此类推,下表1中一共有9组正样本数据:
表1:
在一些可选的实施例中,上述步骤S22中,由于模型训练还需要负样本进行学习,所以通过将正样本数据对随机打乱的方式生成负样本数据。可以通过对多个正样本数据中的医疗服务向量进行混洗,得到多个负样本数据,得到多个负样本数据;以表1中的数据为例对得到多个负样本数据进行说明:如下表2所示,是将表1中多个正样本数据中的医疗服务向量进行混洗,得到多组负样本数据,
表2:
在一些可选的实施例中,上述步骤S23,生成样本数据集,例如可以通过下述方式实现:
本发明实施例通过对正样本数据随机混洗三次的方式生成了比正样本数据多三倍的负样本数据,将多个正样本数据和多个负样本数据作为样本数据集。
在一些可选的实施例中,可以为正样本数据集中正样本数据设置对应的正标签,为负样本集中负样本数据设置对应的负标签。
在一些可选的实施例中,得到样本数据集之后,调用样本数据集对预设的深度学习模型进行训练,本发明实施例采用的是DSSM(Deep Structured Sementic Model)模型,为预先选择的DSSM模型设置五个计算模块,该模型的结构示意图如图3所示,在图3中,从左到右依次是Q、D1、D2、D3、D4这五个计算模块,且每一个计算模块的结构是相同的,以Q计算模块为例,首先是两个全连接层,第三层一个正则化层,最后也是两个全连接层,将数据样本数据集中的患者信息向量和医疗服务向量(包括正样本数据的医疗服务向量和负样本数据的医疗服务向量)分别输入五个模块中,其中,Q计算模块为患者信息计算模块,将患者信息向量输入Q计算模块;D(包含D1、D2、D3和D4)计算模块为医疗服务项目计算模块,将正样本数据的医疗服务向量输入D1计算模块,将三组负样本数据的医疗服务向量分别输入D2计算模块、D3计算模块和D4计算模块中;因为D1计算模块、D2计算模块、D3计算模块和D4计算模块输入的均是医疗服务向量,所以对于每个医疗服务项目计算模块,设置对应的正标签或者负标签,用一个具体的例子进行说明,例如,在本发明实施例中,D1、D2、D3和D4这四个医疗服务项目计算模块的输入的医疗服务向量依次是[正样本数据,负样本数据,负样本数据,负样本数据],设置的标签即为[1,0,0,0],其中,数值1代表正标签,表征正样本数据的医疗服务向量,数值0代表负标签,表征负样本数据的医疗服务向量,标签中数值1所在的位置要与正样本数据的医疗服务向量的位置相对应,当然,正样本数据的医疗服务向量可以出现在四个位置中的任意位置。将正样本数据的医疗服务向量、负样本的医疗服务向量和患者信息向量同时输入到预先选择的DSSM模型中进行训练;在这五个计算模块的出口,采用余弦相似度的计算方式,分别将四个医疗服务项目模块的输出与患者信息模块的输出进行计算,得到对应的四个匹配分数,如图3所示,D1计算模块的输出与患者信息模块的输出经过计算后得到匹配分数R(Q、D1),D2计算模块的输出与患者信息模块的输出经过计算后得到匹配分数R(Q、D2),D3计算模块的输出与患者信息模块的输出经过计算后得到匹配分数R(Q、D3),D4计算模块的输出与患者信息模块的输出经过计算后得到匹配分数R(Q、D4),得到的四个匹配分数会进入softMax层,softMax层将得到的四个匹配分数分别进行归一化处理,得到患者信息模块的输出与对应的四个医疗服务项目模块的输出相匹配的概率值,如图3所示,D1计算模块的输出与患者信息模块的输出相匹配的概率值为P(D1|Q),表征患者信息向量与正样本数据中的医疗服务向量的匹配概率,D2计算模块的输出与患者信息模块的输出相匹配的概率值为P(D2|Q),表征患者信息向量与该模块输入的负样本数据中的医疗服务向量的匹配概率,D3计算模块的输出与患者信息模块的输出相匹配的概率值为P(D3|Q),表征患者信息向量与该模块输入的负样本数据中的医疗服务向量的匹配概率,D4计算模块的输出与患者信息模块的输出相匹配的概率值为P(D4|Q),表征患者信息向量与该模块输入的负样本数据中的医疗服务向量的匹配概率。
下面,对本发明实施例提供的患者信息与医疗服务匹配异常的检测方法进行说明。
本发明实施例提供患者信息与医疗服务匹配异常的检测方法,其流程如图4所示,包括如下步骤:
步骤S41:获取待检测的医保记录,从医保记录中提取患者就诊信息和对应的与医疗服务信息;
步骤S42:对患者就诊信息和对应的与医疗服务信息分别进行特征编码,生成待检测的患者信息向量和待检测的医疗服务向量;
步骤S43:将待检测的患者信息向量和待检测的医疗服务向量输入至训练好的患者信息与医疗服务关系检测模型中,通过患者信息与医疗服务关系检测模型输出待检测医保记录的患者信息与医疗服务匹配的概率值;
步骤S44:根据待检测医保记录的患者信息与医疗服务匹配的概率值,确定待检测医保记录的患者信息与医疗服务匹配是否存在异常;
患者信息与医疗服务关系检测模型是通过如前所述的患者信息与医疗服务关系检测模型训练方法得到的。
在一些可选的实施例中,上述步骤S42中对患者就诊信息和对应的与医疗服务信息分别进行特征编码,生成待检测的患者信息向量和待检测的医疗服务向量的方式,在本发明提供的患者信息与医疗服务关系检测模型训练方法中已详细说明,本发明实施例在此处不再赘述。
在一些可选的实施例中,在上述步骤S43中,调用训练好的患者信息与医疗服务关系检测模型,对待检测的医保记录进行检测,因为训练好的患者信息与医疗服务关系检测模型有五个计算模块,在本发明实施例中,将待检测的医疗服务向量复制四遍,得到四组待检测的医疗服务向量,将待检测的患者信息向量和四组待检测的医疗服务向量输入至训练好的患者信息与医疗服务关系检测模型中,得到待检测的患者信息向量分别与每组待检测的医疗服务向量的匹配概率值,对得到的四个匹配概率值计算平均值,将计算得到的平均值作为待检测的患者信息向量和待检测的医疗服务向量的匹配概率值。
若待检测的患者信息向量和待检测的医疗服务向量的匹配概率值高于预设的概率阈值,则确定该待检测医保记录的患者信息与医疗服务相匹配,若待检测的患者信息向量和待检测的医疗服务向量的匹配概率值低于预设的概率阈值,则确定该待检测医保记录的患者信息与医疗服务的匹配存在异常。
基于同一发明构思,本发明实施例还提供一种患者信息与医疗服务关系检测模型训练装置,该装置的结构如图5所示,包括:
提取模块51,用于获取患者就诊信息和医疗服务信息;
编码模块52,用于对患者就诊信息和医疗服务信息分别进行特征编码,得到患者信息向量和医疗服务向量;
生成模块53,用于将包含有患者信息向量和医疗服务向量的向量对作为样本数据,生成样本数据集;
训练模块54,用于使用样本数据集对预设的深度学习模型进行训练,得到患者信息与医疗服务关系检测模型。
关于上述实施例中的患者信息与医疗服务关系检测模型训练装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本发明实施例还提供一种患者信息与医疗服务匹配异常的检测的装置,该装置的结构如图6所示,包括:
提取模块61,用于获取待检测的医保记录,从医保记录中提取患者就诊信息和对应的医疗服务信息;
编码模块62,用于对患者就诊信息和对应的与医疗服务信息分别进行特征编码,生成待检测的患者信息向量和待检测的医疗服务向量;
检测模块63,用于将待检测的患者信息向量和待检测的医疗服务向量输入至训练好的患者信息与医疗服务关系检测模型中,通过患者信息与医疗服务关系检测模型输出待检测医保记录的患者信息与医疗服务匹配的概率值;
确定模块64,用于根据待检测医保记录的患者信息与医疗服务匹配的概率值,确定待检测医保记录的患者信息与医疗服务匹配是否存在异常;
患者信息与医疗服务关系检测模型是通过如前的患者信息与医疗服务关系检测模型训练方法得到的。
关于上述实施例中的患者信息与医疗服务匹配异常的检测装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本发明实施例还提供一种计算机存储介质,其特征在于,计算机存储介质中存储有计算机可执行指令,计算机可执行指令被处理器执行时实现如前所述的患者信息与医疗服务关系检测模型训练方法或如前所述的患者信息与医疗服务匹配异常的检测方法。
基于同一发明构思,本发明实施例还提供一种电子设备,其特征在于,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如前所述的患者信息与医疗服务关系检测模型训练方法或如前所述的患者信息与医疗服务匹配异常的检测方法。
除非另外具体陈述,术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算系统、或类似设备的动作和/或过程,所述动作和/或过程将表示为处理系统的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理系统的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如,在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本发明的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本发明。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本发明的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
Claims (10)
1.一种患者信息与医疗服务关系检测模型的训练方法,其特征在于,包括:
获取患者就诊信息和医疗服务信息;
分别对每条医保记录中的所述患者就诊信息和医疗服务信息分别进行特征编码,得到患者信息向量和医疗服务向量;所述患者就诊信息包括:至少一条历史疾病数据;对患者就诊信息进行特征编码,包括:对患者对应的医保记录中的至少一条历史疾病的字段的至少一条历史疾病数据进行特征编码,所述特征编码包括:采用独热编码的方式,对疾病库中所有种类的疾病数据进行特征编码,生成向量,且所述向量每个数据位的状态均为0,对于每条医保记录中的历史疾病数据,将上述生成的所述向量中对应该医保记录历史疾病数据的数据位状态改为1,得到该医保记录的历史疾病向量;所述历史疾病向量中包含分别与所述至少一条历史疾病数据对应的有效数据位;将所述历史疾病向量与对应的时间衰减函数相乘;所述时间衰减函数中包含至少一个时间衰减系数;所述时间衰减系数用于对所述历史疾病向量中每个历史疾病对应的有效数据位的数值进行衰减,且衰减程度与所述历史疾病的跨越时长正相关;
将包含有所述患者信息向量和所述医疗服务向量的向量对作为样本数据,生成样本数据集;
使用所述样本数据集对预设的DSSM模型进行训练,得到患者信息与医疗服务关系检测模型;所述DSSM模型包含Q计算模块和多个D计算模块,所述Q计算模块为患者信息计算模块,所述D计算模块为医疗服务项目计算模块;训练时,将患者信息向量输入所述Q计算模块,将正样本数据的医疗服务向量输入所述多个D计算模块中的一个,将负样本数据的医疗服务向量分别输入至所述多个D计算模块中剩余的D计算模块中,并对于每个D计算模块设置对应的正标签或负标签; 在所述Q计算模块和所述多个D计算模块的出口,采用余弦相似度的计算方式,分别将所述多个D计算模块的输出与所述Q计算模块的输出进行计算,得到对应的多个匹配分数,将所述多个匹配分数经过softMax层分别进行归一化处理,得到所述Q计算模块的输出与对应的多个D计算模块的输出相匹配的概率值。
2.如权利要求1所述的方法,其特征在于,所述患者就诊信息和/或医疗服务信息中包括:连续型数据;
对所述患者就诊信息和医疗服务信息分别进行特征编码,包括:
将所述连续型数据映射到预先划分的多个数据区间中对应的数据区间,根据所述对应的数据区间,对所述连续型数据进行特征编码。
3.如权利要求1所述的方法,其特征在于,所述患者信息向量包括:就诊科室向量和就诊医院等级向量;
得到患者信息向量的步骤之后,还包括:
将所述就诊科室向量和就诊医院等级向量进行运算,得到交叉向量;
对所述交叉向量进行变换,得到科室-医院等级向量;
使用所述科室-医院等级向量,替代所述就诊科室向量和就诊医院等级向量。
4.如权利要求1所述的方法,其特征在于,医疗服务信息中包括组合医疗服务信息;
对医疗服务信息进行特征编码,包括:
对患者对应的所述至少一个组合医疗服务信息进行特征编码,得到组合医疗服务向量,所述组合医疗服务向量中包含与所述至少一个组合医疗服务信息对应的有效数据位。
5.如权利要求1-4任一项所述的方法,其特征在于,将包含有所述患者信息向量和所述医疗服务向量的向量对作为样本数据,生成样本数据集,包括:
对于各条医保记录,分别将每条医保记录对应的所述患者信息向量和对应的医疗服务向量连接,生成多个正样本数据;
对所述多个正样本数据中的患者信息向量和/或医疗服务向量进行混洗,得到多个负样本数据;
将所述多个正样本数据和所述多个负样本数据组合,生成样本数据集。
6.一种患者信息与医疗服务匹配异常的检测方法,其特征在于,包括:
获取待检测的医保记录,从所述医保记录中提取患者就诊信息和对应的医疗服务信息;
对所述患者就诊信息和对应的医疗服务信息分别进行特征编码,生成待检测的患者信息向量和待检测的医疗服务向量;
将所述待检测的患者信息向量和待检测的医疗服务向量输入至训练好的患者信息与医疗服务关系检测模型中,通过所述患者信息与医疗服务关系检测模型输出待检测医保记录的患者信息与医疗服务匹配的概率值;
根据所述待检测医保记录的患者信息与医疗服务匹配的概率值,确定待检测医保记录的患者信息与医疗服务匹配是否存在异常;
所述患者信息与医疗服务关系检测模型是通过如权利要求1-5任一项所述的患者信息与医疗服务关系检测模型的训练方法得到的。
7.一种患者信息与医疗服务关系检测模型训练装置,其特征在于,包括:
获取模块,用于获取患者就诊信息和医疗服务信息;
编码模块,用于分别对每条医保记录中的所述患者就诊信息和医疗服务信息分别进行特征编码,得到患者信息向量和医疗服务向量;所述患者就诊信息包括:至少一条历史疾病数据;对患者就诊信息进行特征编码,包括:对患者对应的医保记录中的至少一条历史疾病的字段的至少一条历史疾病数据进行特征编码,所述特征编码包括:采用独热编码的方式,对疾病库中所有种类的疾病数据进行特征编码,生成向量,且所述向量每个数据位的状态均为0,对于每条医保记录中的历史疾病数据,将上述生成的所述向量中对应该医保记录历史疾病数据的数据位状态改为1,得到该医保记录的历史疾病向量;所述历史疾病向量中包含分别与所述至少一条历史疾病数据对应的有效数据位;将所述历史疾病向量与对应的时间衰减函数相乘;所述时间衰减函数中包含至少一个时间衰减系数;所述时间衰减系数用于对所述历史疾病向量中每个历史疾病对应的有效数据位的数值进行衰减,且衰减程度与所述历史疾病的跨越时长正相关;
生成模块,用于将包含有所述患者信息向量和所述医疗服务向量的向量对作为样本数据,生成样本数据集;
训练模块,用于使用所述样本数据集对预设的DSSM模型进行训练,得到患者信息与医疗服务关系检测模型;所述DSSM模型包含Q计算模块和多个D计算模块,所述Q计算模块为患者信息计算模块,所述D计算模块为医疗服务项目计算模块;训练时,将患者信息向量输入所述Q计算模块,将正样本数据的医疗服务向量输入所述多个D计算模块中的一个,将负样本数据的医疗服务向量分别输入至所述多个D计算模块中剩余的D计算模块中,并对于每个D计算模块设置对应的正标签或负标签; 在所述Q计算模块和所述多个D计算模块的出口,采用余弦相似度的计算方式,分别将所述多个D计算模块的输出与所述Q计算模块的输出进行计算,得到对应的多个匹配分数,将所述多个匹配分数经过softMax层分别进行归一化处理,得到所述Q计算模块的输出与对应的多个D计算模块的输出相匹配的概率值。
8.一种患者信息与医疗服务匹配异常的检测装置,其特征在于,包括:
提取模块,用于获取待检测的医保记录,从所述医保记录中提取患者就诊信息和对应的医疗服务信息;
编码模块,用于对所述患者就诊信息和对应的医疗服务信息分别进行特征编码,生成待检测的患者信息向量和待检测的医疗服务向量;
检测模块,用于将所述待检测的患者信息向量和待检测的医疗服务向量输入至训练好的患者信息与医疗服务关系检测模型中,通过所述患者信息与医疗服务关系检测模型输出待检测医保记录的患者信息与医疗服务匹配的概率值;
确定模块,用于根据所述待检测医保记录的患者信息与医疗服务匹配的概率值,确定待检测医保记录的患者信息与医疗服务匹配是否存在异常;
所述患者信息与医疗服务关系检测模型是通过如权利要求1-5任一项所述的患者信息与医疗服务关系检测模型的训练方法得到的。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1-5任一项所述的患者信息与医疗服务关系检测模型的训练方法或如权利要求6所述的患者信息与医疗服务匹配异常的检测方法。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-5任一所述的患者信息与医疗服务关系检测模型的训练方法或如权利要求6所述的患者信息与医疗服务匹配异常的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310362637.4A CN116070693B (zh) | 2023-04-06 | 2023-04-06 | 患者信息与医疗服务关系检测模型训练、检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310362637.4A CN116070693B (zh) | 2023-04-06 | 2023-04-06 | 患者信息与医疗服务关系检测模型训练、检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116070693A CN116070693A (zh) | 2023-05-05 |
CN116070693B true CN116070693B (zh) | 2023-07-25 |
Family
ID=86171831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310362637.4A Active CN116070693B (zh) | 2023-04-06 | 2023-04-06 | 患者信息与医疗服务关系检测模型训练、检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116070693B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117316404A (zh) * | 2023-09-11 | 2023-12-29 | 北京合源汇丰医药科技有限公司 | 一种基于ai算法的医疗信息异常检测方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838579A (zh) * | 2021-09-29 | 2021-12-24 | 平安医疗健康管理股份有限公司 | 一种医疗数据的异常检测方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934719A (zh) * | 2017-12-18 | 2019-06-25 | 北京亚信数据有限公司 | 医保违规行为的检测方法及检测装置、医保控费系统 |
KR102332740B1 (ko) * | 2021-07-28 | 2021-12-01 | 주식회사 비플컨설팅 | 딥러닝을 이용하여 환자의 증상을 진단하는 방법, 장치 및 시스템 |
CN113657548A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 医保异常检测方法、装置、计算机设备及存储介质 |
CN114357008A (zh) * | 2021-12-16 | 2022-04-15 | 上海金仕达卫宁软件科技有限公司 | 医疗行为一致性识别模型建立方法及风险识别方法 |
-
2023
- 2023-04-06 CN CN202310362637.4A patent/CN116070693B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838579A (zh) * | 2021-09-29 | 2021-12-24 | 平安医疗健康管理股份有限公司 | 一种医疗数据的异常检测方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于神经网络的医保欺诈主动发现模型;王超;韩可欣;黄登一;;数字技术与应用(05);75-76,78 * |
Also Published As
Publication number | Publication date |
---|---|
CN116070693A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ieracitano et al. | A fuzzy-enhanced deep learning approach for early detection of Covid-19 pneumonia from portable chest X-ray images | |
Huang et al. | An empirical evaluation of deep learning for ICD-9 code assignment using MIMIC-III clinical notes | |
US11748677B2 (en) | Multi-model medical scan analysis system using fine-tuned models | |
EP3989127B1 (en) | Predicting likelihoods of conditions being satisfied using recurrent neural networks | |
Shorfuzzaman et al. | Artificial Neural Network‐Based Deep Learning Model for COVID‐19 Patient Detection Using X‐Ray Chest Images | |
Liu et al. | Handling missing values in healthcare data: A systematic review of deep learning-based imputation techniques | |
CN116070693B (zh) | 患者信息与医疗服务关系检测模型训练、检测方法及装置 | |
CN109887606B (zh) | 一种基于注意力的双向递归神经网络的诊断预测方法 | |
CN114912887B (zh) | 一种基于电子病历的临床数据录入方法及录入装置 | |
US20220237883A1 (en) | Image processing method and apparatus and storage medium | |
CN117438090B (zh) | 一种药源性免疫性血小板减少毒性预测模型、方法及系统 | |
Pham et al. | I-AI: A Controllable & Interpretable AI System for Decoding Radiologists' Intense Focus for Accurate CXR Diagnoses | |
Alghamdi et al. | Enhancing deep learning techniques for the diagnosis of the novel coronavirus (COVID-19) using X-ray images | |
Ghavidel et al. | Predicting the Need for Cardiovascular Surgery: A Comparative Study of Machine Learning Models | |
CN112884593A (zh) | 一种基于图聚类分析的医保骗保行为检测方法及预警装置 | |
CN114649071A (zh) | 一种基于真实世界数据的消化性溃疡治疗方案的预测系统 | |
CN116108906A (zh) | 疾病药品关系映射模型训练及相关推荐、检测方法和装置 | |
Hasanah et al. | CheXNet and feature pyramid network: a fusion deep learning architecture for multilabel chest X-Ray clinical diagnoses classification | |
CN115240873A (zh) | 一种基于机器学习的药物推荐方法、电子设备和计算机可读存储介质 | |
CN113327655A (zh) | 多维度数据的离群值检测方法、装置、设备和介质 | |
Medhat | Prediction of missing values for decision attribute | |
CN113393940B (zh) | 控制方法以及医疗系统 | |
Ding et al. | AMIM: an adaptive weighted multimodal integration model for Alzheimer’s disease classification | |
Souza Filho et al. | Machine Learning Algorithms to Detect Sex in Myocardial Perfusion Imaging | |
Alsekait et al. | Heart-Net: A Multi-Modal Deep Learning Approach for Diagnosing Cardiovascular Diseases. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |