CN116108906A

CN116108906A - 疾病药品关系映射模型训练及相关推荐、检测方法和装置

Info

Publication number: CN116108906A
Application number: CN202310361776.5A
Authority: CN
Inventors: 沈丹婷; 张灏; 赵礼悦; 齐综擎
Original assignee: Beijing Asiainfo Data Co ltd
Current assignee: Beijing Asiainfo Data Co ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-05-12

Abstract

本发明公开了一种疾病药品关系映射模型训练方法、检测疾病药品关系异常的方法和装置。所述方法包括：获取选定时间范围内的医保数据，医保数据包含多条医保记录，从每条医保记录中提取疾病数据和与疾病数据对应的药品数据；根据预先建立的索引，生成各条疾病数据和对应的药品数据的向量对，作为样本集；调用样本集对预设的深度神经网络进行训练，得到疾病药品关系映射模型。本发明能够高效准确地检测出医保数据中疾病药品关系异常的情况，从而实现对医生违规开药行为的准确识别。

Description

疾病药品关系映射模型训练及相关推荐、检测方法和装置

技术领域

本发明涉及医保风控领域，特别涉及一种疾病药品关系映射模型训练、药品推荐、检测疾病药品关系异常的方法和相关装置。

背景技术

在实际的就医行为中，大部分医生开药是根据患者现有疾病和历史疾病开出与之相对应的药品，发明人在对大量医保记录组成的医保数据进行研究与分析后发现，医保数据中可能存在一些患者所患疾病与所开具的药品对应异常的情况，检测这些疾病药品关系异常的情况，有助于监控超适应症开药的违规行为，但是医保风控数据庞大且复杂，尚没有一种技术手段可以高效准确地检测出疾病药品关系异常的情况。

发明内容

在庞大且复杂的医保数据中，很难通过人工检测的方法高效准确地检测到患者所患疾病与所开具的药品对应异常的情况，通过对医保数据的研究和分析，本发明的发明人发现，患者所患疾病和医生所开具的药品之间存在一定的联系，利用神经网络结构来构建疾病与药品之间的关系，能够高效准确地检测到疾病药品关系异常的情况，从而找出医生违规开药的行为。

鉴于上述问题和发现，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种疾病药品关系映射模型训练方法、检测疾病药品关系异常的方法和装置。

第一方面，本发明实施例提供一种疾病药品关系映射模型训练方法，包括：

获取选定时间范围内的医保数据，所述医保数据包含多条医保记录，从所述每条医保记录中提取疾病数据和与所述疾病数据对应的药品数据；

根据预先建立的索引，生成各条疾病数据和对应的药品数据的向量对，作为样本集；

调用所述样本集对预设的深度神经网络进行训练，得到疾病药品关系映射模型。

在一个实施例中，所述根据预先建立的索引，生成各条疾病数据和对应的药品数据的向量对，作为样本集，包括：

对所述医保记录中的所述疾病数据进行特征编码得到第一疾病向量；

对所述医保记录中的所述药品数据进行特征编码得到第一药品向量；

将每条所述医保记录对应的第一疾病向量和第一药品向量进行组合，得到每条医保记录的向量对，生成所述样本集。

在一个实施例中，对所述医保记录中的所述疾病数据进行特征编码得到第一疾病向量，包括：

根据所述疾病数据包含的至少一个疾病标识在预设的第一集合中的索引，对医保记录中的所述疾病数据进行独热向量编码，以使得独热向量编码得到的所述第一疾病向量中包含至少一个有效数据位，所述至少一个有效数据位用于表征所述疾病数据中包含的至少一个疾病标识；且所述每个有效数据位在所述第一疾病向量中的位置，与所述疾病标识在所述第一集合中的索引对应；所述第一集合是由多个种类疾病标识的索引组成的集合。

在一个实施例中，对所述医保记录中的所述疾病数据进行特征编码得到第一疾病向量的步骤之前，还包括：

获取所述医保记录中包含的历史疾病数据，若所述历史疾病数据中的疾病标识存在于预设的慢病列表中，且所述历史疾病数据中的疾病标识对应的索引存在于所述第一集合中，则将所述历史疾病数据与该条医保记录的疾病数据合并，对合并后的数据进行特征编码。

在一个实施例中，所述第一集合通过下述方式得到：

从疾病数据库中挑选出现频率最高的预设数量的疾病标识，并为挑选出来的疾病标识分别建立索引，生成所述第一集合。

在一个实施例中，生成疾病数据和对应的药品数据的向量对的步骤之前，包括：

用标准编码替代所述疾病数据和对应的药品数据。

第二方面，本发明实施例提供一种药品的推荐方法，包括：

获取待推荐药品的疾病数据，对所述疾病数据进行特征提取，得到对应的疾病向量；所述疾病数据包括至少一种疾病标识；

将所述疾病向量输入至预设的疾病药品关系映射模型中，通过所述疾病药品关系映射模型输出与所述疾病向量对应的推荐药品向量；

根据所述推荐药品向量，确定所述疾病数据对应的待推荐药品及各待推荐药品对应的推荐分值并推送；

所述疾病药品关系映射模型是通过如前述的疾病药品关系映射模型训练方法得到的。

第三方面，本发明实施例提供一种检测疾病药品关系异常的方法，包括：

获取待预测的多条医保记录，从各条医保记录中分别提取疾病数据和对应的实际药品数据，对所述疾病数据和对应的实际药品数据进行特征提取，分别得到第二疾病向量和第二药品向量，所述第二药品向量的有效数据位表征对应的医保记录实际开具的药品；

将所述第二疾病向量输入至疾病药品关系映射模型中，通过所述疾病药品关系映射模型输出与所述第二疾病向量对应的预测向量；所述预测向量的有效数据位表征与所述疾病数据对应的预测的药品；

根据所述预测向量和第二药品向量，确定疾病药品关系异常的医保记录；

所述疾病药品关系映射模型是通过如前所述的疾病药品关系映射模型训练方法得到的。

在一个实施例中，根据所述预测向量和第二药品向量，确定疾病药品关系异常的医保记录，包括：

对于每条待预测的医保记录，将所述第二药品向量与所述预测向量进行预设的运算，得到疾病药品关系得分；

根据所述疾病药品关系得分，确定待预测的多条医保记录中疾病药品关系异常的医保记录。

对所述预测分值按照大小进行排序，选择从最大开始的预设数量的预测分值对应的预测药品作为疾病药品关系正常的范围；

针对所述每条待预测的医保记录对应的第二药品向量，判断所述第二药品向量中所有的有效位对应的药品是否均在所述范围内，若否，则确定所述待预测的医保记录存在疾病药品关系异常。

第四方面，本发明实施例提供一种疾病药品关系映射模型训练装置，包括：

提取模块，用于获取选定时间范围内的医保数据，所述医保数据包含多条医保记录，从所述每条医保记录中提取疾病数据和与所述疾病数据对应的药品数据；

生成模块，用于根据预先建立的索引，生成各条疾病数据和对应的药品数据的向量对，作为样本集；

训练模块，用于调用所述样本集对预设的深度神经网络进行训练，得到疾病药品关系映射模型。

第五方面，本发明实施例提供一种药品推荐的装置，包括：

疾病向量提取模块，用于获取待推荐药品的疾病数据，对所述疾病数据进行特征提取，得到对应的疾病向量；所述疾病数据包括至少一种疾病标识；

药品向量输出模块，用于将所述疾病向量输入至预设的疾病药品关系映射模型中，通过所述疾病药品关系映射模型输出与所述疾病向量对应的推荐药品向量；

推送模块，用于根据所述推荐药品向量，确定所述疾病数据对应的待推荐药品及各待推荐药品对应的推荐分值并推送；

第六方面，本发明实施例提供一种疾病药品关系异常的检测装置，包括：

特征提取模块，用于获取待预测的多条医保记录，从各条医保记录中分别提取疾病数据和对应的实际药品数据，对所述疾病数据和对应的实际药品数据进行特征提取，分别得到第二疾病向量和第二药品向量，所述第二药品向量的有效数据位表征对应的医保记录实际开具的药品；

预测模块，用于将所述第二疾病向量输入至疾病药品关系映射模型中，通过所述疾病药品关系映射模型输出与所述第二疾病向量对应的预测向量；所述预测向量的有效数据位表征与所述疾病数据对应的预测的药品；

确定模块，用于根据所述预测向量和第二药品向量，确定疾病药品关系异常的医保记录；

所述疾病药品关系映射模型是通过前述的疾病药品关系映射模型训练方法得到的

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的上述疾病药品关系映射模型训练及相关推荐、检测方法和装置，根据预先建立的索引，对医保数据中医保记录的疾病数据和药品数据分别进行向量提取，生成与各医保记录对应的向量对，然后利用深度神经网络模型学习和预测与医保记录中的疾病数据有正确映射关系的药品数据，然后根据医保记录中的实际药品数据，与预测出的与疾病数据有正确映射关系的药品数据之间的匹配程度，实现高效准确地检测出疾病药品关系存在异常的医保记录，避免了人工在筛选疾病药品关系异常时存在的主观性强、效率低的问题，并极大的提高了筛选存在疾病药品异常的医保记录的效率和准确率。

在本发明实施例中，深度神经网络模型训练的过程，剔除了医保记录中与获取疾病药品关系无关的数据，减少了噪音数据对疾病药品关系映射模型的干扰，提高了深度神经网络模型的训练效率，并且也提高了训练完成的疾病药品关系映射模型预测结果的准确性。

并且，在本发明实施例中，生成疾病数据和对应的药品数据的向量对的步骤之前，用标准编码替代从医保记录中提取到的疾病数据和药品数据，由于医保数据的来源可能是多家医院，所以有可能存在同一疾病数据或同一药品数据对应有多个名称，通过标准编码的方式处理后，保证了不同数据来源不同格式下的疾病数据或药品数据具有唯一对应的标识，以方便后续对疾病数据和药品数据进行区分、识读并建立索引，进一步保证了训练样本的正确性，提高了疾病药品关系映射模型的准确性。

基于上述训练好的疾病药品关系映射模型，将疾病数据输入至模型中，能够预测出与该疾病数据对应的药品数据，并且能得到每种药品数据与该疾病数据对应的推荐分值，药品数据的推荐分值能够表征该药品数据与疾病数据的匹配程度，可实现在临床上帮助医护工作者为患者所患的疾病推荐对症的药品，或者更好地为购药的患者提供专业的建议，提升诊疗的质量和效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中疾病药品关系映射模型训练方法的流程图；

图2为本发明实施例中生成样本集的方法的流程图；

图3为本发明实施例中疾病药品关系映射模型的结构示意图；

图4为本发明实施例中药品的推荐方法的流程图；

图5A~5C为本发明实施例中检测疾病药品关系异常的方法的相关流程图；

图6为本发明实施例中疾病药品关系映射模型训练装置的结构示例图；

图7为本发明实施例中药品推荐的装置的结构示例图；

图8为本发明实施例中检测疾病药品关系异常的装置的结构示例图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的难以快速高效准确地检测医生开药违规的行为的问题，本发明实施例提供一种疾病药品关系映射模型的训练方法，其流程参照图1所示，包括如下步骤：

步骤S1：获取选定时间范围内的医保数据，医保数据包含多条医保记录，从每条医保记录中提取疾病数据和与疾病数据对应的药品数据；

步骤S2：根据预先建立的索引，生成各条疾病数据和对应的药品数据的向量对，作为样本集；

步骤S3：调用样本集对预设的深度神经网络进行训练，得到疾病药品关系映射模型。

上述步骤S1中，从医保记录中提取疾病数据和与疾病数据对应的药品数据，比如“疾病编码”和“历史疾病”等字段的数据与疾病相关，属于疾病数据，又比如“药品编码”的字段与药品相关，属于药品数据，剔除医保记录中与训练疾病药品关系映射模型无关的数据，比如“就诊科室”等字段的数据与疾病药品关系映射模型的训练无关，在提取训练数据时剔除这样的数据，这样做能够减少数据冗余，同时降低了噪音数据对模型的干扰，提高深度神经网络的训练效率、训练速度和准确率。

上述步骤S2中，分别对各条医保记录中的疾病数据和对应的药品数据分别进行向量提取，换言之，将同一条医保记录中的疾病数据和对应的药品数据分别进行向量提取，然后将属于同一条医保记录的两个向量组成向量对，以向量对的形式作为样本，对深度神经网络进行训练，由于大量历史的医保记录中的疾病数据和对应的药品数据中蕴藏了药品和疾病的内在对应关系，使用这样的样本对深度神经网络进行训练，让深度神经网络对这种内在对应关系进行学习，能够使最终得到的疾病药品关系映射模型更准确。

上述步骤S3中，例如可采用有监督的学习的训练方法，即将样本集划分为训练集和测试集，通过训练样本对预设的深度神经网络模型进行训练，并通过验证集验证学习效果，并反向调整神经网络模型的参数，使得模型的损失函数不断收敛，直至损失函数的损失达到预设的条件，本发明实施例对训练过程并不做限定，可根据实际采用的深度神经网络采用对应的训练方式，在此仅示例而已。深度神经网络也可以采用多种，例如自动编码器(AutoEncoder)、变分自编码器(VAE)、递归神经网络(RNN)、深信度网络(DBN)等。本发明实施例对此不做限定。

本发明实施例利用疾病数据的向量和所对应药品数据的向量，训练预设的深度神经网络模型，得到疾病药品关系映射模型，训练完成的疾病药品关系映射模型能够输出与输入的疾病数据有正确映射关系的药品数据，为使用疾病药品关系映射模型进行药品推荐或利用疾病药品关系映射模型进行疾病药品关系异常的检测提供良好的数据支持。

在一些可选的实施例中，上述步骤S1中，获取选定时间范围内的医保数据，医保数据包含多条医保记录，从每条医保记录中提取疾病数据和与疾病数据对应的药品数据，例如可以通过下述方式实现：

从每条医保记录包含的多个字段中，提取“疾病编码”字段的数据作为医保记录的疾病数据，提取“药品编码”字段的数据作为医保记录的药品数据；疾病数据包含至少一个疾病标识，每条药品数据包含为至少一个类型的疾病所开具一个或多个药品标识。

下面用一个具体的例子说明一条医保记录中提取的疾病数据和与疾病数据对应的药品数据的过程，如下表1所示，“疾病编码”字段表示一位患者本次就医所患的疾病，“药品编码”字段表示该患者本次就医所开具的药品，“来访ID”字段表示该患者本就医行为产生的医保记录的ID，需要说明的是，一个患者可以有多次就医行为，对应产生多条医保记录，每条医保记录会对应一个来访ID，下表1中有三条医保记录，分别由三位患者的就诊行为产生的，其中，第一条医保记录的疾病数据中有一个类型为R21.x00的疾病标识，对应的药品数据中有一个类型为Z-A10AA-Z0010-E00的药品标识；第二条医保记录的疾病数据中有两个类型分别为C34.900,J98.414和R10.402的疾病标识，对应的药品数据中有两个类型分别为X-J01DB-T063-E00和X-V08CA-G002-B00的药品标识，第三条医保记录中有一个类型为Z37.000的疾病标识，对应的药品数据中有三个类型为X-003-FYB、X-A04AA-T122-B00和X-A06AG-K031-S008的药品标识。

表1：

因为医保记录涵盖全国不同医院的疾病和诊疗项目名称，由于地区、医院规定或者医护人员自身的使用习惯等因素，各医保记录中可能存在对同一种疾病或者同一种药品的录入数据格式各异的情况，为了保证模型的准确率和效率，在一些可选的实施例中，可预先对这些疾病数据中的疾病标识进行标准编码，并使用疾病标识的标准编码替换医保记录中的疾病数据中原有的疾病标识，将疾病标识的标准编码作为疾病数据中的疾病标识；药品数据中的药品标识处理过程与此类似，对其进行标准编码后，替换掉原有的药品数据中的各药品标识，将药品标识的标准编码作为所述药品数据中的药品标识。这样就保证了所提取的疾病数据（药品数据）的一致性，也因为采用标准编码，使得疾病名称更容易被识别和相互区别，且更容易与其他标准库建立联系，方便后续数据的进一步处理。

为了得到疾病数据与药品数据之间准确的映射关系，用于训练深度神经网络模型的数据必然是成对的数据，也就是医保记录中的疾病数据与对应的药品数据组成的数据对，为了更好的使模型能够学习疾病数据与药品数据的映射关系，可将标准编码后的疾病数据和药品数据进行向量化处理。

基于此，在一些可选的实施例中，上述步骤S2，根据预先建立的索引，生成各条疾病数据和对应的药品数据的向量对，作为样本集，如图2所示，可以利用下述步骤实现：

步骤S21：对医保记录中的疾病数据进行特征编码得到第一疾病向量；

步骤S22：对医保记录中的药品数据进行特征编码得到第一药品向量；

步骤S23：将每条医保记录对应的第一疾病向量和第一药品向量进行组合，得到每条医保记录的向量对，生成样本集。

在一些可选的实施例中，上述步骤S21中医保记录中的疾病数据进行特征编码得到第一疾病向量，可以通过下述方式实现：

根据疾病数据包含的至少一个疾病标识在预设的第一集合中的索引，对医保记录中的疾病数据进行独热向量编码，以使得独热向量编码得到的第一疾病向量中包含至少一个有效数据位，至少一个有效数据位用于表征疾病数据中包含的至少一个疾病标识；且每个有效数据位在第一疾病向量中的位置，与疾病标识在第一集合中的索引对应。

其中，第一集合是由多个种类疾病标识的索引组成的集合。

独热编码即 One-Hot 编码，又称一位有效编码。其方法是使用 N 位状态寄存器来对 N 个状态进行编码，每个状态都有它独立的寄存器位。在编码过程中，其有效位在向量中的位置需要依据该疾病标识在预先设立的多个种类疾病标识的索引来确定。

上述第一集合可以视作是一个囊括了各种常见疾病的索引的集合，该集合中的各种疾病可根据各种医疗领域的标准库中的疾病信息来定义，或者采用从数据库中采集，或者人工采集的方式得到，本发明实施例对此不做限定。

在一些可选的实施例中，某些医保记录中会同时包含本次确诊的疾病以及患者的历史疾病数据，并且，患者的历史疾病数据可能也会影响该患者本次就诊所开具的药品数据，比如，在医保记录的某次就诊记录数据中，患者本次确诊的疾病还可能是由某历史疾病引起的，或者两者具有一定的关联，那么不仅需要针对本次就诊的疾病开具药品，还需要对相关历史疾病开具对应药品。基于这类情况，为了更准确地映射疾病数据与药品数据的关系，则可将医保记录中的历史疾病数据和疾病数据进行合并，再对合并之后的数据进行特征编码。

具体实施时，可在对医保记录中的疾病数据进行特征编码前，获取医保记录中包含的历史疾病数据，并且，判断历史疾病数据中的疾病标识是否存在于预设的慢病列表中，若历史疾病数据中的疾病标识存在于预设的慢病列表中，且历史疾病数据中的疾病标识对应的索引存在于第一集合中，则将历史疾病数据与该条医保记录的疾病数据合并，对合并后的数据进行特征编码。

上述采用独热向量编码的方式对疾病数据进行特征编码，具体的，例如利用下述步骤实现：

步骤S211：获取所有的疾病标识，为每个疾病标识建立索引，生成第一集合；

步骤S212：针对医保记录中包含至少一个疾病标识的疾病数据，根据疾病数据中每个疾病标识在第一集合中对应的索引，对该医保记录的疾病数据进行独热向量编码，得到第一疾病独热向量；第一疾病独热向量的有效数据位分别表征疾病数据中的每个疾病标识；

在上述步骤S211中，所有的疾病标识，可以是囊括了所有疾病的疾病标识，但是由于疾病数据库中的疾病类型非常多，其中有些疾病类型非常罕见，患者患罕见病的概率很低，较佳地，出于模型训练的需求，可以不将所有的疾病标识输入至模型进行训练，因此，在一些可选的实施例中，实现上述步骤S211的过程，还可以从疾病数据库中挑选出现频率最高的预设数量的疾病标识，并为挑选出来的疾病标识分别建立索引，生成第一集合，例如，遍历疾病数据库中的所有疾病标识，按照出现频率从高到低的顺序，从中挑选排序靠前的预设数量（例如1024个）的疾病标识，并对这1024个出现频率高的疾病标识分别建立索引，得到第一集合。

在上述步骤S212中，由于医保记录的疾病数据中每个疾病标识在第一集合中均有唯一对应的索引，对每条医保记录的疾病数据进行onehot独热向量编码，得到第一疾病独热向量，第一疾病独热向量中的各有效数据位分别对应其在第一集合中的索引，得到的第一疾病独热向量是一个N维的向量（每条医保记录的第一疾病独热向量的维数都相同）。

如果在某一条医保记录的疾病数据中，包含有多个疾病标识，那么可在第一疾病独热向量中将每个疾病标识的对应位置的有效数据位的值都设置为预设的数值（例如都设置为1），其他有效数据位的值均设置为0。

用一个具体的例子说明：

某条医保记录的第一疾病独热向量，例如以上表1中的第二条医保记录的疾病数据为例，对这条疾病数据进行独热向量编码，得到的第一疾病独热向量的示例如下表2所示：

表2：

。

上表2中，每个方框代表一个有效数据位，其值可以是1或者0，在每个方框中，上方的字符表示疾病标识的标准编码，下方的数值是该有效数据位的值，这条医保记录的疾病数据包含3个疾病标识，分别是C34.900、J98.414和R10.402。

在一些可选的实施例中，类似地，上述步骤S22，医保记录中的药品数据进行特征编码得到第一药品向量，与上述得到第一疾病向量的编码方式相同，也可采用one-hot独热向量编码的方式实现此步骤，具体的，可以通过下述方式实现：

根据医保记录中药品数据包含的至少一个药品标识在预设的第二集合中的索引，对医保记录中的药品数据进行独热向量编码，以使得独热向量编码得到的第一药品向量中包含至少一个有效数据位，至少一个有效数据位用于表征药品数据中包含的至少一个药品标识；且每个有效数据位在第一药品向量中的位置，与药品标识在第二集合中的索引对应；第二集合是由多个种类药品标识的索引组成的集合。

类似地，上述采用独热向量编码的方式对药品数据进行特征编码，具体的，例如利用下述步骤实现：

步骤S221：获取所有的药品标识，为每个药品标识建立索引，生成第二集合；

步骤S222：针对医保记录中包含至少一个药品标识的药品数据，根据药品数据中每个药品标识在第二集合中对应的索引，对该医保记录的药品数据进行独热向量编码，得到第一药品独热向量；第一药品独热向量的有效数据位分别表征药品数据中的每个药品标识；

在上述步骤S221中，由于药品数据库中的疾病类型非常多，其中有些药品类型并不经常开具给患者，出于模型训练的需求，可以不将所有的药品标识输入至模型进行训练，因此，在一些可选的实施例中，实现上述步骤S221的过程，还可以从药品数据库中挑选出现频率最高的预设数量的药品标识，并为挑选出来的药品标识分别建立索引，生成第二集合，例如，遍历药品数据库中的所有药品标识，从中挑选1024个频率最高的药品标识，并对这1024个出现频率高的药品标识分别建立索引，得到第二集合。需要说明的是，在本实施例中，用于训练的医保记录中的药品数据所包含的药品标识为挑选出的预设数量（例如1024个）频率最高的药品标识的子集；当然，实现上述步骤S211的过程，还可以利用其它方式生成第二集合，本发明实施例对此不做限定，比如根据经验，直接选择1024个药品标识，并对这1024个药品标识建立索引，得到第二集合。

在上述步骤S222中，由于医保记录的药品数据中每个药品标识在第二集合中均有唯一对应的索引，对每条医保记录的药品数据进行onehot独热向量编码，得到第一药品独热向量。第一药品独热向量中的各有效数据位分别对应其在第二集合中的索引。

假设在某一条医保记录的药品数据所得到的第一药品独热向量是一个M维的向量（每条医保记录的第一药品独热向量的维数都相同），且该药品数据中包含有多个药品标识，那么该第一药品独热向量中，与每个药品标识的索引对应的位置的有效数据位的值都是1，其他数据位的值是0。

用一个具体的例子说明某条医保记录的第一药品独热向量，例如以表1中的第二条医保记录的药品数据为例，对这条药品数据进行独热向量编码，得到的第一药品独热向量如下表3所示：

表3：

上表3中，在每个方框中，上方的字符表示药品标识的标准编码，下面是该数据位的值，其值可以是1或者0，其中1表示有效数据位。这条医保记录的药品数据包含2个药品标识，分别是X-J01DB-T063-E00和X-V08CA-G002-B00。

在本发明实施例中，一条医保记录中，疾病数据可能包含多个疾病标识，药品数据可能包含多个药品标识，本发明实施例对疾病数据和药品数据进行独热向量编码时，将该多个疾病标识的信息编码至一个独热向量中，以及将该多个药品标识的信息编码至一个独热向量中，而现有技术中，通常将单个特征，例如将单个疾病标识进行独热向量编码，或者将单个药品标识进行独热向量编码生成训练数据的方式相比，因为将多个信息编码至一个向量中，可更好地反映多个疾病标识作为一个信息整体，与多个药品标识作为一个信息整体之间的内在联系（例如匹配程度），而并非某个具体疾病标识，与某个具体的药品标识之间的内在联系，这样生成的向量，可以更好地反映医保数据的真实情况，使模型更准确。

并且，第一疾病独热向量中的有效数据位分别与第一集合中的疾病标识的索引对应，第一药品独热向量与第二集合中的药品标识的索引对应，也可更快速地对模型的输出结果的识读，方便与实际的疾病标识和药品标识对应。

在上述步骤S23生成样本集的过程中，还可以将样本集划分为训练样本集和验证样本集，例如可以是：将90%的样本作为用于训练的训练样本集，将10%的样本作为用于验证的测试样本集，将样本集输入预选选择的DNN深度神经网络模型中进行训练，并同时监控验证的结果，当交叉熵损失函数的结果不再有进步的2次迭代以后停止训练，此时获得疾病药品关系映射模型，参照图3所示，该模型输入的是N维（例如图3中所示的1024维）的第一疾病独热向量，输出是每个第一疾病独热向量对应的M维（例如图3中所示的1024维）的第一药品独热向量及该第一药品独热向量中每各类型药品的数据的可能性分值，每个可能性分值例如可以是一个在0-1之间的数值。

在利用疾病药品关系映射模型映射疾病药品关系时，将医保记录的疾病数据处理成向量，输入疾病药品关系映射模型中，能够输出该疾病数据对应的药品数据的向量，输出的药品数据的向量包含每个类型的药品的数据及每个类型的药品的数据对应的可能性分值，每个可能性分值能够表征对于输入的疾病数据，开具该类型的药品的可能性，可能性分值越高，表明开具该类型药品的可能性越大，通过疾病药品关系映射模型，可以快速高效地得到输入模型的医保记录中的疾病数据与所开具的药品数据的关系。

本发明实施例提供一种药品的推荐方法，其流程如图4所示，包括如下步骤：

步骤S41：获取待推荐药品的疾病数据，对疾病数据进行特征提取，得到对应的疾病向量；疾病数据包括至少一种疾病标识；

对疾病数据的特征提取，例如可使用独热向量编码的方式，具体实现方式可参照前述独热向量编码的具体实施方式，在此不再赘述。

步骤S42：将疾病向量输入至预设的疾病药品关系映射模型中，通过疾病药品关系映射模型输出与疾病向量对应的推荐药品向量；

步骤S43：根据推荐药品向量，确定疾病数据对应的待推荐药品及各待推荐药品对应的推荐分值并推送。

上述疾病药品关系映射模型是通过前述的疾病药品关系映射模型训练方法得到的。

对于任何一个疾病标识或者任多个疾病标识组成的疾病数据，通过药品关系映射模型，能够得到每种药品数据与该疾病数据的匹配分数，即对于该疾病数据来说，每种药品数据的推荐度值。

这种推荐度值，在不同的场景下，可以多种用途，比如在临床上为医生开具处方提供数据参考；又比如，为患者在线购买药品提供建议等等。本发明实施例对其不做限定。

在一个实施例中，可以进一步将每种药品数据与该疾病数据的匹配分数与预设的分数阈值进行比较，确定大于等于该阈值的药品数据，作为该疾病数据可推荐的药品数据。举例来说，匹配分数均为[0,1]的范围内，则将匹配分数大于等于0.5的药品数据作为疾病数据（可能包含至少一种疾病）所推荐的药品数据（可能包含至少一种药品）。

发明实施例提供一种疾病药品关系异常的检测方法，其流程参照图5A所示，包括如下步骤：

步骤S51：获取待预测的多条医保记录，从各条医保记录中分别提取疾病数据和对应的实际药品数据，对疾病数据和对应的实际药品数据进行特征提取，分别得到第二疾病向量和第二药品向量，第二药品向量的有效数据位表征对应的医保记录实际开具的药品；

步骤S52：将第二疾病向量输入至疾病药品关系映射模型中，通过疾病药品关系映射模型输出与第二疾病向量对应的预测向量；预测向量的有效数据位表征与疾病数据对应的预测的药品；

步骤S53：根据预测向量和第二药品向量，确定疾病药品关系异常的医保记录。

疾病药品关系映射模型是通过前述的疾病药品关系映射模型训练方法得到的。

在一些可选的实施例中，上述步骤S51中得到第二疾病向量和第二药品向量的方法，在前述的疾病药品关系映射模型训练方法中已经进行说明，本发明实施例在此不做赘述。

在一些可选的实施例中，上述步骤S52中，将第二疾病独热向量输入至疾病药品关系映射模型中，通过疾病药品关系映射模型输出与第二疾病独热向量对应的预测向量；预测向量为各预测药品的可能性分值形成的预测向量，预测向量中每个有效数据位，与第二药品独热向量中每个有效数据位对应的药品标识一致。

一个预测向量的例子如表4所示，其中第一个数据表示为标识为Z-A10AA-Z0010-E00这个药品的预测得分是0.12，第二个数据表示标识为X-009-JNY这个药品的预测得分是0.89：

表4：

在一些可选的实施例中，上述步骤S53中根据预测向量和第二药品向量，确定疾病药品关系异常的医保记录，将第二药品向量与预测向量进行运算，得到待预测的每条医保记录的疾病药品关系得分，可以用两种不同的方式实现，具体说明如下：

第一种方式：

参照图5B所示，第一种方式包括下述步骤：

步骤S5311：对于每条待预测的医保记录，将第二药品向量与预测向量进行预设的运算，得到疾病药品关系得分；

步骤S5312：根据疾病药品关系得分，确定待预测的多条医保记录中疾病药品关系异常的医保记录。

第二种方式：

参照图5C所示，第二种方式包括下述步骤：

步骤S5321：根据预测向量，确定疾病数据对应的预测药品以及每个预测药品的预测分值；

步骤S5322：对预测分值按照大小进行排序，选择从最大开始的预设数量的预测分值对应的预测药品作为疾病药品关系正常的范围；

步骤S5323：针对每条待预测的医保记录对应的第二药品向量，判断第二药品向量中所有的有效位对应的药品是否均在该范围内；若否，执行下述步骤S5324；反之，执行下述步骤S5325；

步骤S5324：确定待预测的医保记录存在疾病药品关系异常。

确定待预测的医保记录存在疾病药品关系异常时，还可以记录第二药品向量中有效位对应的药品不在该范围内的药品，将这些异常信息交由人工进行进一步的审核，以确认是否真正发生异常。

步骤S5325：确定待预测的医保记录存在疾病药品关系正常。

用一个具体的例子对上述第二种方式进行说明，比如某条医保记录的第二药品独热向量如表5所示：

表5：

由疾病药品关系映射模型输出的该条医保记录的预测向量如下表6所示：

表6：

通过上表5和上表6可以得出，预测向量中与第二药品独热向量各有效数据位对应的药品的数据及其可能性分值为：X-003-FYB的可能性分值为0.23，Z-B01BH-K1201-E10的可能性分支为0.24，H-001-FYQ的可能性分值为0.99；

将表6中的预测向量包含的各可能性分值按照从大到小的顺序排序，得到排序后的可能性分值，如表7所示：

表7：

假设从表7中筛选从最大开始的前5位所对应的预测药品，判断第二药品向量中有效数据位代表的实际药品是否在在这前5位对应的预测药品的范围内，判断结果为是，所以判断该条待预测的医保记录为疾病药品关系正常的医保记录。反之，则认为是异常的。

对于每条待预测的医保记录，通过对第二药品向量和预测向量进行数学运算，将每条疾病数据对应的实际开具的药品数据与对应的通过疾病药品关系映射模型输出的预测开具的药品数据强关联起来，能够准确高效地判断出每条疾病数据实际开具的药品数据与预测的药品数据的符合程度，从而对疾病对应开具的药品的合理性进行评价。

进一步地，为了保证疾病药品关系异常的医保记录的准确性，还可以将通过模型筛选出的疾病药品关系异常的医保记录交由人工审核，并将人工审核过的疾病药品关系异常的医保记录作为最终的结果。

例如，获取可能存在异常的医保记录的就诊标识，通过来访ID，获取该来访ID对应的患者ID在选定时间范围内的多条医保记录，进而获取该患者ID对应的多条医保记录的所有药品数据，并按照药品类型进行归类，得到每个患者ID在预设时间范围内所开的药品数据集合，根据药品数据集合中药品的类型对该患者ID的多条医保记录进行分组，得到药品数据集合中每个类型药品对应的多条医保记录；

对于药品集合中每个类型药品对应的多条医保记录，由人工检查每个类型的药品与该药品对应的多条医保记录中所有的疾病数据及历史疾病数据的符合度，筛选出符合度较低的医保记录，则认为这些医保记录存在疾病药品关系异常，能够快速高效地检测出存在疾病药品关系异常的医保记录。

通过疾病药品关系映射模型输出每条待预测的医保记录预测的药品数据，并通过计算医保记录实际开具的药品数据和预测开具的药品数据的数学关系，自动筛选出可能存在疾病药品关系异常的医保记录，且避免了人工在筛选疾病药品关系异常时存在的主观性强、效率低的问题，极大的提高了筛选存在疾病药品异常的医保记录的效率和准确性。

以一个具体实例来说明上述检测疾病药品关系异常的方法，检测疾病药品关系异常的方法具体实现流程如下：

1、获取一年时间范围内的多条医保记录；

2、提取每条医保记录中本次就诊的疾病数据和历史疾病数据；

3、获取疾病数据库出现频率最高的1024个疾病标识，用疾病标识的标准编码替代这1024个疾病标识，生成第一集合，并对标准编码后的疾病标识建立索引；获取药品数据库出现频率最高的1024个药品标识，用药品标识的标准编码替代这1024个药品标识，生成第二集合，并对标准编码后的药品标识建立索引；

4、遍历每条医保记录中本次就诊的疾病数据和历史疾病数据以及药品数据，若存在至少一条疾病数据标识（本次就诊的以及历史疾病）在第一集合中没有对应的编码，或药品数据标识在第二集合中没有对应的编码，则丢弃该条医保记录，并将经过此轮处理后的医保记录进行下一步的处理。

5、对每条医保记录的疾病数据，根据其在第一集合中对应的索引，对每条医保记录的

疾病数据进行onehot独热向量编码，得到第一疾病向量；

6、对每条医保记录的药品数据，根据其在第二集合中对应的索引，对每条医保记录的药品数据进行onehot独热向量编码，得到第一药品向量；

7、将每条医保记录的第一疾病向量与对应的第一药品向量进行组合，生成样本集中的样本数据；

8、将该样本集中90%的样本作为训练样本集，10%的样本作为测试样本集，使用训练样本集对预设的深度神经网络进行训练，并使用测试样本集对训练的深度神经网络进行验证，同时更新训练的神经网络的参数，当交叉熵损失函数的结果不再有进步的2次迭代以后停止训练，得到疾病药品关系映射模型；

9、获取待预测的一年时间范围内的多条医保记录；

10、提取每条待预测医保记录的疾病数据和与疾病数据对应的药品数据；

11、对待预测每条医保记录的疾病数据，根据其在第一集合中对应的索引，对每条待预测医保记录的疾病数据进行onehot独热向量编码，得到第二疾病向量；

12、对待预测每条医保记录的药品数据，根据其在第二集合中对应的索引，对每条待预测医保记录的药品数据进行onehot独热向量编码，得到第二药品向量；

13、将每条待预测医保记录的第二疾病向量输入疾病药品关系映射模型中，输出对应的每条待预测医保记录的预测向量，预测向量为各预测药品的可能性分值形成的预测向量；

14、对预测向量中各预测药品的预测分值从大到小进行排序，选择从最大开始的若干数量（比如前100位）的预测分值的预测药品作为疾病药品关系正常的范围；

15、针对每条待预测医保记录对应的第二药品向量中所有的有效位，判断所有有效位对应的药品是否均在疾病药品关系正常的范围内，若是，则判断待预测医保记录属于正常的医保记录，若否，则确定该待预测医保记录存在疾病药品关系异常，并且记录不在参考范围内的药品，并交由人工审核。

16、人工审核过程中，获取存在疾病药品关系异常的医保记录的来访ID，通过来访ID，获取该来访ID对应的患者标识在选定时间范围内的多条医保记录，进而获取该患者ID对应的多条医保记录的所有药品数据，并按照药品类型进行归类，得到每个患者ID在预设时间范围内所开的药品数据集合，根据药品数据集合中药品的类型对该患者ID的多条医保记录进行分组，得到药品数据集合中每个类型药品对应的多条医保记录；

17、对于药品集合中每个类型药品对应的多条医保记录，由技术人员检查每个类型的药品与该药品对应的多条医保记录中所有的疾病数据及历史疾病数据的符合度，筛选出符合度较低的医保记录，则认为这些医保记录存在疾病药品关系异常。

基于同一发明构思，本发明实施例还提供了一种疾病药品关系映射模型训练装置，该装置的结构如图6所示，包括：

提取模块61，用于获取选定时间范围内的医保数据，所述医保数据包含多条医保记录，从所述每条医保记录中提取疾病数据和与所述疾病数据对应的药品数据；

生成模块62，用于根据预先建立的索引，生成各条疾病数据和对应的药品数据的向量对，作为样本集；

训练模块63，用于调用所述样本集对预设的深度神经网络进行训练，得到疾病药品关系映射模型。

关于上述实施例中的疾病药品关系映射模型训练装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本发明实施例还提供了一种药品推荐的装置，该装置的结构如图7所示，包括：

疾病向量提取模块71，用于获取待推荐药品的疾病数据，对所述疾病数据进行特征提取，得到对应的疾病向量；所述疾病数据包括至少一种疾病标识；

药品向量输出模块72，用于将所述疾病向量输入至预设的疾病药品关系映射模型中，通过所述疾病药品关系映射模型输出与所述疾病向量对应的推荐药品向量；

推送模块73，用于根据所述推荐药品向量，确定所述疾病数据对应的待推荐药品及各待推荐药品对应的推荐分值并推送；

上述疾病药品关系映射模型是通过前述疾病药品关系映射模型训练方法得到的。

基于同一发明构思，本发明实施例还提供一种疾病药品关系异常的检测装置，该装置的结构如图8所示，包括：

特征提取模块81，用于获取待预测的多条医保记录，从各条医保记录中分别提取疾病数据和对应的实际药品数据，对所述疾病数据和对应的实际药品数据进行特征提取，分别得到第二疾病向量和第二药品向量，所述第二药品向量的有效数据位表征对应的医保记录实际开具的药品；

预测模块82，用于将所述第二疾病向量输入至疾病药品关系映射模型中，通过所述疾病药品关系映射模型输出与所述第二疾病向量对应的预测向量；所述预测向量的有效数据位表征与所述疾病数据对应的预测的药品；

确定模块83，用于根据所述预测向量和第二药品向量，确定疾病药品关系异常的医保记录；

上述疾病药品关系射模型是通过如前述疾病药品关系映射模型训练方法得到的。

关于上述实施例中的检测疾病药品关系异常的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

除非另外具体陈述，术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算系统、或类似设备的动作和/或过程，所述动作和/或过程将表示为处理系统的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理系统的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如，在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种疾病药品关系映射模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据预先建立的索引，生成各条疾病数据和对应的药品数据的向量对，作为样本集，包括：

3.如权利要求2所述的方法，其特征在于，对所述医保记录中的所述疾病数据进行特征编码得到第一疾病向量，包括：

4.如权利要求3所述的方法，其特征在于，对所述医保记录中的所述疾病数据进行特征编码得到第一疾病向量的步骤之前，还包括：

5.如权利要求3所述的方法，其特征在于，所述第一集合通过下述方式得到：

6.如权利要求1所述的方法，其特征在于，建立疾病数据和药品数据的索引的步骤之前，还包括：

分别对提取的疾病数据中的疾病标识和提取的药品数据中的药品标识进行标准编码，得到疾病标识的标准编码以及药品标识的标准编码；

将疾病标识的标准编码作为所述疾病数据中的疾病标识；将药品标识的标准编码作为所述药品数据中的药品标识。

7.一种药品的推荐方法，其特征在于，包括：

所述疾病药品关系映射模型是通过如权利要求1-6任一项所述的疾病药品关系映射模型训练方法得到的。

8.一种疾病药品关系异常的检测方法，其特征在于，包括：

将所述第二疾病向量输入至疾病药品关系映射模型中，通过所述疾病药品关系映射模型输出与所述第二疾病向量对应的预测向量；所述预测向量的有效数据位表征与所述疾病数据对应的预测药品；

9.如权利要求8所述的方法，其特征在于，根据所述预测向量和第二药品向量，确定疾病药品关系异常的医保记录，包括：

10.如权利要求8所述的方法，其特征在于，根据所述预测向量和第二药品向量，确定疾病药品关系异常的医保记录，包括：

根据所述预测向量，确定所述疾病数据对应的预测药品以及每个预测药品的预测分值；

11.一种疾病药品关系映射模型训练装置，其特征在于，包括：

12.一种药品推荐的装置，其特征在于，包括：

13.一种疾病药品关系异常的检测装置，其特征在于，包括：