CN115101160A

CN115101160A - 药品销售数据挖掘和检索方法及装置

Info

Publication number: CN115101160A
Application number: CN202210613682.8A
Authority: CN
Inventors: 周立运; 林济延
Original assignee: Digital Cube Beijing Pharmaceutical Technology Co ltd
Current assignee: Digital Cube Beijing Pharmaceutical Technology Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-23

Abstract

本发明提供一种药品销售数据挖掘和检索方法及装置，其中挖掘方法包括：确定目标药品；基于任一医院的各医生的医生介绍文本和/或所属科室，从所述各医生中确定与所述目标药品的适应症相关的目标医生；基于所述目标医生的论文发表信息，确定所述目标医生的学术影响力；基于所述目标医生的学术影响力，以及所述目标药品在所述任一医院的销售数据，确定所述目标医生针对所述目标药品的销售数据。本发明实施例提供的药品销售数据挖掘和检索方法及装置，实现了任一医院各个目标医生针对目标药品的销售数据的客观、准确挖掘，相较于人工预估，节省了人力成本的同时减少了误差。

Description

药品销售数据挖掘和检索方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种药品销售数据挖掘和检索方法及装置。

背景技术

在当前创新药上市速度加快的背景下，在新产品上市前了解到各个医院各个医生对于各个药品的销售数据，医药企业能够以此作为一定的参考，有利于防范风险，减少药品积压，同时能够较快的为医院提供所需药品。

目前，各个医院各个医生对于各个药品的销售数据无法通过公开渠道获取，医药企业通常是根据过往经验进行人工预估，比较耗时耗力，且误差较大。

因此，如何能够依据各个医院各个医生自身的情况，进行有针对性的销售数据挖掘是亟需解决的问题。

发明内容

本发明提供一种药品销售数据挖掘和检索方法及装置，用以解决现有技术中各个医院各个医生对于各个药品的销售数据无法通过公开渠道获取，人工预估耗时耗力且误差较大的缺陷。

本发明提供一种药品销售数据挖掘方法，包括：

确定目标药品；

基于任一医院的各医生的医生介绍文本和/或所属科室，从所述各医生中确定与所述目标药品的适应症相关的目标医生；

基于所述目标医生的论文发表信息，确定所述目标医生的学术影响力；

基于所述目标医生的学术影响力，以及所述目标药品在所述任一医院的销售数据，确定所述目标医生针对所述目标药品的销售数据。

根据本发明提供的药品销售数据挖掘方法，所述目标医生包括核心医生和非核心医生；所述基于任一医院的各医生的医生介绍文本和/或所属科室，从所述各医生中确定与所述目标药品的适应症相关的目标医生，包括：

基于任一医院的各医生的医生介绍文本，从所述各医生中确定与所述目标药品的适应症相关的核心医生；

基于任一医院的各医生的所属科室，从所述各医生中确定与所述核心医生的所属科室相同的非核心医生。

根据本发明提供的药品销售数据挖掘方法，所述基于所述目标医生的论文发表信息，确定所述目标医生的学术影响力，包括：

基于所述目标医生中核心医生的论文发表信息，确定所述核心医生的学术影响力；

基于所述目标医生中非核心医生的论文发表信息，以及所述非核心医生的职称信息，确定所述非核心医生的学术影响力。

根据本发明提供的药品销售数据挖掘方法，所述目标药品在所述任一医院的销售数据基于如下步骤确定：

在所述任一医院为样本医院的情况下，获取所述目标药品在所述样本医院的样本销售数据，并将所述样本销售数据确定为所述销售数据；

在所述任一医院为非样本医院的情况下，将所述非样本医院的第一医院信息输入至药品销售数据预测模型，得到所述药品销售数据预测模型输出的预测销售数据，并将所述预测销售数据确定为所述销售数据；

所述药品销售数据预测模型基于所述样本医院的第一医院信息，以及所述目标药品在所述样本医院的样本销售数据，对初始模型进行训练得到的。

根据本发明提供的药品销售数据挖掘方法，所述药品销售数据预测模型基于如下步骤训练得到：

确定至少两个初始模型；

将所述样本医院的第二医院信息分别输入至所述至少两个初始模型，得到所述至少两个初始模型分别输出的所述目标药品在所述样本医院的至少两个样本预测销售数据，所述第二医院信息包括所述第一医院信息；

基于所述至少两个样本预测销售数据分别与所述样本销售数据之间的相关性分析结果，分别对所述至少两个初始模型进行参数迭代，得到至少两个回归模型；

基于所述至少两个回归模型，确定所述药品销售数据预测模型。

根据本发明提供的药品销售数据挖掘方法，所述基于所述至少两个回归模型，确定所述药品销售数据预测模型，包括：

基于所述至少两个回归模型，以及所述回归模型在参数迭代过程中的相关性分析结果，确定所述药品销售数据预测模型。

根据本发明提供的药品销售数据挖掘方法，所述基于所述至少两个样本预测销售数据分别与所述样本销售数据之间的相关性分析结果，分别对所述至少两个初始模型进行参数迭代，得到至少两个回归模型，之后还包括：

基于所述至少两个样本预测销售数据分别与所述样本销售数据之间的相关性分析结果，确定所述第二医院信息中各参数在销售数据预测上的重要性分析结果；

基于所述第二医院信息中各参数在销售数据预测上的重要性分析结果，从所述第二医院信息的各参数中确定出所述第一医院信息所包含的参数。

根据本发明提供的药品销售数据挖掘方法，所述得到所述药品销售数据预测模型输出的预测销售数据，之后还包括：

在所述预测销售数据指示为异常数据的情况下，基于与所述非样本医院属于同类别医院的同类预测销售数据，对所述预测销售数据进行替换，医院的类别是基于医院信息确定的。

本发明还提供一种检索方法，包括：

接收用户终端发送的目标适应症；

从预先确定的适应症对应的目标药品的销售数据中，确定出与所述目标适应症对应的目标医生，以及所述目标医生针对所述目标药品的销售数据；所述适应症对应的目标药品的销售数据基于如上述任一项所述的药品销售数据挖掘方法确定。

本发明还提供一种药品销售数据挖掘装置，包括：

目标药品确定单元，用于确定目标药品；

目标医生确定单元，用于基于任一医院的各医生的医生介绍文本和/或所属科室，从所述各医生中确定与所述目标药品的适应症相关的目标医生；

影响力确定单元，用于基于所述目标医生的论文发表信息，确定所述目标医生的学术影响力；

销售数据确定单元，用于基于所述目标医生的学术影响力，以及所述目标药品在所述任一医院的销售数据，确定所述目标医生针对所述目标药品的销售数据。

本发明还提供一种检索装置，包括：

适应症接收单元，用于接收用户终端发送的目标适应症；

销售数据确定单元，用于从预先确定的各适应症对应的各药品的销售数据中，确定出与所述目标适应症对应的目标医生，以及所述目标医生针对与所述目标适应症对应的药品的销售数据；所述各适应症对应的各药品的销售数据基于如上述任一项所述的药品销售数据挖掘方法确定。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述药品销售数据挖掘方法或检索方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述药品销售数据挖掘方法或检索方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述药品销售数据挖掘方法或检索方法。

本发明提供的药品销售数据挖掘和检索方法及装置，基于任一医院的各医生的医生介绍文本和/或所属科室，从各医生中确定与目标药品的适应症相关的目标医生；基于目标医生的论文发表信息，确定目标医生的学术影响力；基于目标医生的学术影响力，以及目标药品在任一医院的销售数据，确定目标医生针对目标药品的销售数据，由此实现了针对任一医院中各个目标医生针对目标药品的销售数据的客观、准确挖掘，相较于人工预估，节省了人力成本的同时减少了误差。此外，由此得到的目标医生针对目标药品的销售数据，能够为医药企业制定合理的销售策略提供便利和数据支持。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的药品销售数据挖掘方法的流程示意图；

图2是本发明提供的药品销售数据挖掘方法中步骤120的流程示意图；

图3是本发明提供的药品销售数据挖掘方法中步骤130的流程示意图；

图4是本发明提供的药品销售数据确定方法的流程示意图；

图5是本发明提供的药品销售数据预测模型训练方法的流程示意图；

图6是本发明提供的检索方法的流程示意图；

图7是本发明提供的药品销售数据挖掘装置的结构示意图；

图8是本发明提供的检索装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

医药企业在新药上市前通常需要了解各个医院各个医生针对各个药品的销售数据，以制定更具成本效益的产品上市和销售策略。而各个医院各个医生针对各个药品的销售数据无法从公开渠道获取，通常是根据过往经验预估，耗时耗力且误差较大。

鉴于此，本发明实施例提供一种药品销售数据挖掘方法，针对各个医院各个医生自身的情况，针对性的进行药品销售数据挖掘，从而相对客观、准确的获取各个医院各个医生针对各个药品的销售数据，进而为医药企业制定销售策略提供便利和数据支持。

图1是本发明提供的药品销售数据挖掘方法的流程示意图，如图1所示，该方法包括：

步骤110，确定目标药品。

具体地，目标药品即需要进行销售数据挖掘的药品，目标药品可以仅包括一个药品，也可以包括针对同一适应症下的多个药品，本发明实施例对此不作具体限定。

例如，可基于用户选择的任一适应症，从预先设置的适应症和药品的对应关系数据库中，筛选得到该适应症下所有的目标药品。

步骤120，基于任一医院的各医生的医生介绍文本和/或所属科室，从各医生中确定与目标药品的适应症相关的目标医生。

具体地，目标医生即对目标药品的销售数据影响较大的医生，考虑到医生一般只针对自己擅长的适应症领域，和/或所属科室涵盖的适应症开具药品处方，因此，此处的目标医生具体可以是与目标药品的适应症相关的医生。例如，针对治疗皮肤疾病的目标药品，目标医生可以是与皮肤疾病相关的医生。

与目标药品的适应症相关的目标医生，可通过对该医院的各医生的医生介绍文本和/或所属科室进行文本处理实现。

医生介绍文本可包括医生简介和擅长领域等，医生所属科室也能够反映医生擅长的适应症诊疗领域。可以从各个医院的网站或者互联网医疗服务平台，抓取该医院中各个医生的医生介绍文本和/或所属科室。可实时抓取，也可定时抓取，比如每周或每月等。

对该医院的各医生的医生介绍文本和/或所属科室进行文本结构化处理，可得到与各医生相关联的适应症，进而从各医生中筛选得到与目标药品的适应症相关的目标医生；还可以基于关键字匹配，首先筛选得到包含目标药品的适应症的医生介绍文本和/或所属科室，从而得到与之对应的目标医生。

步骤130，基于目标医生的论文发表信息，确定目标医生的学术影响力。

具体地，考虑到在同一医院中，不同的目标医生针对目标药品的销售数据会存在差异，为了更加精确的得到各个医生针对目标药品的销售数据，可首先确定目标医生的学术影响力，在此基础上，基于学术影响力，确定目标医生针对目标药品的销售数据。

目标医生的学术影响力，可通过目标医生的论文发表信息确定。此处的论文发表信息具体可包括H指数、G指数和发表期刊数量等。其中，H指数用于评估研究人员的学术产出数量与学术产出水平，H代表“高引用次数”，H指数是指该目标医生至多有H篇论文分别被引用了至少H次，目标医生的H指数越高，表明该医生的学术影响力越大。

G指数是指论文按被引次数排序后相对排前的累积被引至G的平方次的最大论文序次G，通常作为H指数的补充或提高。目标医生的G指数越高，表明该医生的学术影响力越大。

步骤140，基于目标医生的学术影响力，以及目标药品在任一医院的销售数据，确定目标医生针对目标药品的销售数据。

具体地，得到目标医生的学术影响力的基础上，即可根据目标医生的学术影响力确定各个目标医生针对目标药品的销售系数。针对任一医生，可将该医生的学术影响力在该医院所有目标医生的学术影响力之和中所占的比值，确定为该目标医生针对目标药品的销售系数。可理解的是，目标医生的学术影响力越大，该目标医生针对目标药品的销售系数越大，对应的销售数据越大；目标医生的学术影响力越小，该目标医生针对目标药品的销售系数越小，对应的销售数据越小。

此处的销售数据可以是销售额，也可以是销售量，本发明实施例对此不作具体限定。

在一个实施例中，可首先根据该医院目标医生的学术影响力，确定该医院针对目标药品的适应症的影响力。比如，将所有目标医生的学术影响力之和，确定为该医院针对目标药品的适应症的影响力。

随即，将各个目标医生的学术影响力与该医院针对目标药品的适应症的影响力的比值确定为该目标医生针对目标药品的销售系数。

此处，目标药品在任一医院的销售数据可通过公开渠道获取，也可基于模型预测得到，本发明实施例对此不作具体限定。目标药品在任一医院的销售数据通常是指该医院中所有目标医生开具的药品处方对应的销售数据。

得到各个医生针对目标药品的销售系数，以及目标药品在该医院的销售数据的基础上，即可计算得出各个目标医生针对目标药品的销售数据。

本发明实施例提供的药品销售数据挖掘方法，基于任一医院的各医生的医生介绍文本和/或所属科室，从各医生中确定与目标药品的适应症相关的目标医生；基于目标医生的论文发表信息，确定目标医生的学术影响力；基于目标医生的学术影响力，以及目标药品在任一医院的销售数据，确定目标医生针对目标药品的销售数据，由此实现了任一医院各个目标医生针对目标药品的销售数据的客观、准确挖掘，相较于人工预估，节省了人力成本的同时减少了误差。此外，由此得到的目标医生针对目标药品的销售数据，能够为医药企业制定合理的销售策略提供便利和数据支持。

基于上述任一实施例，目标医生包括核心医生和非核心医生，图2是本发明提供的药品销售数据挖掘方法中步骤120的流程示意图，如图2所示，步骤120具体包括：

步骤121，基于任一医院的各医生的医生介绍文本，从各医生中确定与目标药品的适应症相关的核心医生；

步骤122，基于任一医院的各医生的所属科室，从各医生中确定与核心医生的所属科室相同的非核心医生。

具体地，考虑到任一医院中目标医生的数量可能较多，为了从医生角度获取更加细分销售数据，可进一步对目标医生进行细分，目标医生可包括核心医生和非核心医生。此处的核心医生是指在目标药品的适应症领域，相对而言影响力更大或专业水平更加精进的医生。针对核心医生，通常在医生介绍文本里会着重介绍该医生擅长诊疗的适应症。因此，可基于任一医院的各医生的医生介绍文本，从中筛选出包括目标药品的适应症关键词的文本，从而从各医生中确定与目标药品的适应症相关的核心医生。

得到核心医生的基础上，可进一步获取核心医生的所属科室，获取与核心医生所属同一医院、同一科室的非核心医生。可理解的是，非核心医生和核心医生属于同一科室，均与目标药品的适应症相关。

本发明实施例提供的方法，将目标医生进一步细分为核心医生和非核心医生，从医生角度进一步对销售数据进行更具针对性的挖掘，从而方便企业制定更加合理的销售策略。

基于上述任一实施例，图3是本发明提供的药品销售数据挖掘方法中步骤130的流程示意图，如图3所示，步骤130具体包括：

步骤131，基于目标医生中核心医生的论文发表信息，确定核心医生的学术影响力；

步骤132，基于目标医生中非核心医生的论文发表信息，以及非核心医生的职称信息，确定非核心医生的学术影响力。

具体地，在获取到核心医生和非核心医生的基础上，可进一步针对核心医生和非核心医生，分别计算各自的学术影响力，从而得到各自针对目标药品的销售系数。

针对核心医生的学术影响力，可从核心医生的论文发表信息进行挖掘实现。例如，核心医生的学术影响力＝1/2(H指数+G指数)。

针对非核心医生的学术影响力，可结合非核心医生的论文发表信息，以及职称信息两方面进行挖掘实现。例如，非核心医生的学术影响力＝1/10(H指数+G指数)*职称权重，其中，职称权重可预先设置，比如主任级别医生的职称权重可设置为1，其他级别可设置为0.5等。

进一步地，可得到该医院中核心医生或非核心医生的学术影响力在该医院所有目标医生(核心医生和非核心医生)的学术影响力之和中所占的比值，即该医院中各个目标医生针对目标药品的销售系数，从而得到各目标医生针对目标药品的销售数据。

本发明实施例提供的方法，进一步对核心医生和非核心医生的学术影响力进行细分，从而为分别得到核心医生和非核心医生针对目标药品的销售数据提供了基础。

基于上述任一实施例，图4是本发明提供的药品销售数据确定方法的流程示意图，如图4所示，目标药品在任一医院的销售数据基于如下步骤确定：

步骤410，在任一医院为样本医院的情况下，获取目标药品在样本医院的样本销售数据，并将样本销售数据确定为销售数据；

步骤420，在任一医院为非样本医院的情况下，将非样本医院的第一医院信息输入至药品销售数据预测模型，得到药品销售数据预测模型输出的预测销售数据，并将预测销售数据确定为销售数据；

药品销售数据预测模型基于样本医院的第一医院信息，以及目标药品在样本医院的样本销售数据，对初始模型进行训练得到的。

具体地，此处的样本医院是指可通过公开渠道获取到药品销售数据的医院，非样本医院是指无法通过公开渠道获取到药品销售数据的医院。因此，目标药品在任一医院的销售数据的获取方式可分为以下两种情况：

针对该医院为样本医院的情况，可直接获取得到目标药品在样本医院的样本销售数据，并将样本销售数据确定为销售数据。

针对该医院为非样本医院的情况，可对目标药品在该医院的销售数据进行预测，将该非样本医院的第一医院信息输入至药品销售数据预测模型，得到药品销售数据预测模型输出的预测销售数据，并将预测销售数据确定为销售数据。

此处的第一医院信息可以包括与药品销售数据相关的医院信息，具体可包括以下参数中的一项或多项：医院级别、特色科室、医院总床位数、医院医生总数、医院药品销售收入、医院西药销售收入和门诊/住院病人数等。

第一医院信息还可包括与目标药品对应的科室相关信息，具体可包括以下参数中的一项或多项：科室床位总数、科室医生总数和科室病人总数。

第一医院信息还可包括该医院所在城市的城市信息，具体可包括以下参数中的一项或多项：市区人口总数、市区户数、人均国内生产总值(Gross Domestic Product，GDP)和人口自然增长率。

在执行步骤420之前，可基于样本医院的第一医院信息，以及目标药品在样本医院的样本销售数据，对初始模型进行训练，得到药品销售数据预测模型。初始模型在训练过程中，可学习样本医院的第一医院信息与样本医院的样本销售数据之间的映射关系，使得训练得到的药品销售数据预测模型能够对目标药品在非样本医院的销售数据进行较为客观、准确的预测。

本发明实施例提供的方法，针对非样本医院无法通过公开渠道获取药品在医院的销售数据的情况下，采用样本医院的销售数据和第一医院信息，以及药品销售数据预测模型，对目标药品在非样本医院的销售数据进行有效预测，从而得到目标药品在非样本医院的销售数据。

基于上述任一实施例，图5是本发明提供的药品销售数据预测模型训练方法的流程示意图，如图5所示，药品销售数据预测模型基于如下步骤训练得到：

步骤510，确定至少两个初始模型；

步骤520，将样本医院的第二医院信息分别输入至至少两个初始模型，得到至少两个初始模型分别输出的目标药品在样本医院的至少两个样本预测销售数据，第二医院信息包括第一医院信息；

步骤530，基于至少两个样本预测销售数据分别与样本销售数据之间的相关性分析结果，分别对至少两个初始模型进行参数迭代，得到至少两个回归模型；

步骤540，基于至少两个回归模型，确定药品销售数据预测模型。

具体地，考虑到相比于神经网络模型，树模型对于模型的输入和输出具有很好的可解释性，此处的初始模型可以是至少两个树模型。进一步地，考虑到销售数据预测问题属于回归任务，因此初始模型可选择在处理回归问题上性能较优的预训练的回归树模型，例如RandomForest模型，LightGBM模型或XGBoost模型。

初始模型确定之后，即可将样本医院的第二医院信息分别输入至至少两个初始模型中，得到至少两个初始模型分别输出的目标药品在样本医院的至少两个样本预测销售数据。

此处的第二医院信息包括第一医院信息，也就是说，第二医院信息所包含的参数要多于第一医院信息所包含的参数。第二医院信息可理解为初始模型的初始参数，第一医院信息可理解为经过训练得到的药品销售数据预测模型的最终参数。比如，在训练过程中，发现第二医院信息中部分参数对于销售数据的预测结果影响非常小，即可为了减少模型的参数量，将此部分参数去掉，由此得到第一医院信息中包含的参数。

得到由初始模型输出的目标药品在样本医院的至少两个样本预测销售数据后，即可将至少两个样本预测销售数据与样本销售数据分别进行相关性分析，得到样本预测销售数据与样本销售数据之间的相关性分析结果。比如，采用斯皮尔曼(spearman)相关性分析，得到spearman相关系数。

随即，基于得到的相关性分析结果，对至少两个初始模型进行参数迭代，得到至少两个回归模型。比如，以spearman相关系数最大化为目标对预训练的初始模型进行参数迭代，得到回归模型。

在此基础上，可根据得到的至少两个回归模型，确定药品销售数据预测模型，比如对至少两个回归模型按照各自的权重进行加权，得到药品销售数据预测模型。

本发明实施例提供的方法，通过输入样本医院的第二医院信息，对至少两个初始模型分别输出的至少两个预测样本销售数据，与样本销售数据分别进行相关性分析，基于相关性分析结果对至少两个初始模型进行训练，由此训练得到的药品销售预测模型能够客观、准确的预测目标药品在非样本医院的销售数据。

基于上述任一实施例，步骤540具体包括：

基于至少两个回归模型，以及回归模型在参数迭代过程中的相关性分析结果，确定药品销售数据预测模型。

具体地，初始模型可以是两个或两个以上的树模型，在训练过程中，可得到相应数量的回归模型，以及回归模型在参数迭代过程中的相关性分析结果，此处的相关性分析结果具体可以是相关性系数。进一步地，还可基于相关性分析结果确定各个回归模型的权重，基于各个回归模型的权重，对各个回归模型进行加权，得到药品销售数据预测模型。

在一个实施例中，初始模型为三个，分别为RandomForest模型M1，LightGBM模型M2和XGBoost模型M3，分别进行训练得到三个模型的最佳回归模型为：M1b、M2b和M3b，同时得到三个回归模型对应的spearman相关系数分别为ρ1，ρ2和ρ3。则药品销售数据预测模型可由M1b、M2b、M3b按ρ1，ρ2，ρ3的权重投票结果确定。即药品销售数据预测模型可表达为如下形式：

M＝(M1b*ρ1+M2b*ρ2+M3b*ρ3)/(ρ1+ρ2+ρ3)

基于上述任一实施例，步骤530之后还包括：

基于至少两个样本预测销售数据分别与样本销售数据之间的相关性分析结果，确定第二医院信息中各参数在销售数据预测上的重要性分析结果；

基于第二医院信息中各参数在销售数据预测上的重要性分析结果，从第二医院信息的各参数中确定出第一医院信息所包含的参数。

具体地，考虑到影响药品销售数据的因素较多，为了减少模型的参数量，可进一步选取在销售数据预测上重要程度较高的参数，即在模型训练过程中对模型的输入参数进行筛选。

在模型训练过程中，可基于样本预测销售数据与样本销售数据之间的相关性分析结果，确定第二医院信息中各参数在销售数据预测上的重要性分析结果。

随即，根据第二医院信息中各参数在销售数据预测上的重要性分析结果，从第二医院信息的各参数中确定出第一医院信息所包含的参数，由此得到的第一医院信息所包含的参数为在销售数据预测上，重要性比较重要的参数。

本发明实施例提供的方法，通过第二医院信息中各参数在销售数据预测上的重要性分析结果，对第二医院信息中的各参数进一步进行筛选，得到第一医院信息中包含的各参数，进一步减少了参数量，从而提高了模型的预测效率。

基于上述任一实施例，步骤420中得到药品销售数据预测模型输出的预测销售数据，之后还包括：

在预测销售数据指示为异常数据的情况下，基于与非样本医院属于同类别医院的同类预测销售数据，对预测销售数据进行替换，医院的类别是基于医院信息确定的。

具体地，为了进一步保证药品销售数据预测的准确性，针对药品销售预测模型输出的目标药品在非样本医院的预测销售数据，可进一步检查是否为异常数据。针对异常数据，可基于与非样本医院属于同类别医院的同类预测销售数据，对预测销售数据进行替换。

此处的异常数据可包括以下几种情形：

(1)预测的非样本医院的销售数据为负值。

(2)预测的非样本医院的销售数据与该非样本医院中的药品销售收入，或与西药销售收入，或与门诊/住院病人数成异常关系。

可以根据预测的非样本医院的销售数据与药品销售收入，这两组数据做散点图，从而获取异常值；

可以根据预测的非样本医院的销售数据与西药销售收入，这两组数据做散点图，从而获取异常值；

可以根据预测的非样本医院的销售数据与门诊/住院病人数，这两组数据做散点图，从而获取异常值；例如，散点图显示医院A有很多与目标药品的适应症相关的门诊病人，但只有很少的目标药品销量，此时可判断预测数据为异常数据。

(3)预先获取客户所销售的药品在非样本医院的销售数据，预测的非样本医院的销售数据小于客户所销售的药品在非样本医院的销售数据(即整体数据小于部分数据)。

针对上述第(1)或(2)两种异常数据情形，即预测得到的销售数据为负值，或销售数据与医院数据成异常关系的情形下，可以用同类别医院的同类预测销售数据的平均值进行替换。

其中，同类医院基于医院信息确定，可以为同医院所在省/市、同医院级别、同医院特色科室、同医院总床位数。

针对上述第(3)种异常数据情形，即预测销售额小于客户实际销售额的情形下，可以用客户实际销售额对预测销售额进行替换。

本发明实施例提供的方法，通过对预测得到的预测销售数据进行异常数据替换，进一步提高了药品销售数据预测的准确性。

基于上述任一实施例，图6是本发明提供的检索方法的流程示意图，如图6所示，该检索方法包括：

步骤610，接收用户终端发送的目标适应症；

步骤620，从预先确定的适应症对应的目标药品的销售数据中，确定出与目标适应症对应的目标医生，以及目标医生针对目标药品的销售数据；各适应症对应的各药品的销售数据基于如上述任一项的药品销售数据挖掘方法确定。

具体地，目标药品通过上述实施例进行药品销售数据挖掘，从而得到各个医院的各个医生针对目标药品的销售数据。由此得到的药品销售数据为进行销售策略的制定提供了便利，例如，可查找目标药品对应的目标医生和目标医生对应的销售数据等。在此基础上，可以构建检索系统，以便于目标医生和目标医生对应的销售数据的快速查找。

用户可以通过智能手机、电脑、平板电脑等形式的用户终端输入目标适应症，并且将目标适应症发送到用于检索的服务端。此处的目标适应症即期望查找到相关药品信息、医生信息和医生销售数据的适应症。

在接收到目标适应症之后，即可在各医院的各医生针对各药品的销售数据中，定位目标适应症对应的目标药品，目标适应症对应的目标医生，以及目标医生针对目标药品的销售数据返回到用户终端，以供用户终端查看。

本发明实施例提供的方法，实现了快速获取目标适应症对应的目标医生，及目标医生对应的目标药品销售数据，为开展针对医生的市场推广活动和销售策略的制定提供了可靠的依据。

基于上述任一实施例，提供一种药品销售数据检索方法，包括：

S1，确定目标药品。

S2，确定所述目标药品在任一医院的销售数据。S2具体包括：

S21，在所述任一医院为样本医院的情况下，获取所述目标药品在所述样本医院的样本销售数据，并将所述样本销售数据确定为所述销售数据。

获取预设年份内，目标药品在样本医院的销售数据及样本医院的第一医院信息。优选的，预设年份为历史两年的销售数据，目的是为了减少后续模型训练中的过拟合。其中，第一医院信息包括但不限于医院的医院名称、医院所在省/市、医院级别(如：二级、三级)、医院等次(如，甲等、乙等)、医院专业性质(如，综合、专科)、地域分类(如，省级医院、县级医院)、行业性质(如，普通医院、军警医院)、医院特色科室、医院医生总数、医院总床位数、医院各科室医生数、医院各科室床位数。

将获取到的目标药品在样本医院的销售数据进行清洗、去重处理，可以按照目标药品的通用名、生产企业、适应症进行存储。目标药品在样本医院的销售数据可展示为如表1所示的形式：

表1

S22，在所述任一医院为非样本医院的情况下，将所述非样本医院的第一医院信息输入至药品销售数据预测模型，得到所述药品销售数据预测模型输出的目标药品在非样本医院的预测销售数据。

其中，药品销售数据预测模型基于如下步骤训练得到：

确定至少两个初始模型；

S23，在所述预测销售数据指示为异常数据的情况下，基于与所述非样本医院属于同类别医院的同类预测销售数据，对所述预测销售数据进行替换，医院的类别是基于医院信息确定的。

S3，基于任一医院的各医生的医生介绍文本，从所述各医生中确定与所述目标药品的适应症相关的核心医生；基于任一医院的各医生的所属科室，从所述各医生中确定与所述核心医生的所属科室相同的非核心医生。

S4，基于所述目标医生中核心医生的论文发表信息，确定所述核心医生的学术影响力；基于所述目标医生中非核心医生的论文发表信息，以及所述非核心医生的职称信息，确定所述非核心医生的学术影响力。

S5，基于所述目标医生的学术影响力，以及所述目标药品在所述任一医院的销售数据，确定所述目标医生针对所述目标药品的销售数据。目标医生包括核心医生和非核心医生。

任一医院目标适应症影响力＝该医院核心医生学术影响力+该医院非核心医生学术影响力；

各医生对应的销售系数＝各医生学术影响力/医生所在医院目标适应症的影响力；

医生和其对应的销售数据之间的映射关系为：医生针对目标药品的销售数据＝医生所在医院目标药品的销售数据*医生对应的销售系数。

S6，接收用户终端发送的目标适应症。

S7，从S5确定的适应症对应的目标药品的销售数据中，确定出与所述目标适应症对应的目标医生，以及所述目标医生针对所述目标药品的销售数据。

基于上述任一实施例，图7是本发明提供的药品销售数据挖掘装置的结构示意图，如图7所示，该药品销售数据挖掘装置包括：

目标药品确定单元710，用于确定目标药品；

目标医生确定单元720，用于基于任一医院的各医生的医生介绍文本和/或所属科室，从所述各医生中确定与所述目标药品的适应症相关的目标医生；

影响力确定单元730，用于基于所述目标医生的论文发表信息，确定所述目标医生的学术影响力；

销售数据确定单元740，用于基于所述目标医生的学术影响力，以及所述目标药品在所述任一医院的销售数据，确定所述目标医生针对所述目标药品的销售数据。

本发明实施例提供的药品销售数据挖掘装置，基于任一医院的各医生的医生介绍文本和/或所属科室，从各医生中确定与目标药品的适应症相关的目标医生；基于目标医生的论文发表信息，确定目标医生的学术影响力；基于目标医生的学术影响力，以及目标药品在任一医院的销售数据，确定目标医生针对目标药品的销售数据，由此实现了针对任一医院中各个目标医生针对目标药品的销售数据的客观、准确挖掘，相较于人工预估，节省了人力成本的同时减少了误差。此外，由此得到的目标医生针对目标药品的销售数据，能够为医药企业制定合理的销售策略提供便利和数据支持。

基于上述任一实施例，目标医生确定单元720进一步用于：

基于上述任一实施例，影响力确定单元730进一步用于：

基于上述任一实施例，该装置还包括销售数据确定单元，用于：

基于上述任一实施例，该装置还包括模型训练单元，用于：

确定至少两个初始模型；

基于上述任一实施例，模型训练单元进一步用于：

基于上述任一实施例，该装置还包括参数确定单元，用于：

基于上述任一实施例，该装置还包括数据替换单元，用于：

基于上述任一实施例，图8是本发明提供的检索装置的结构示意图，如图8所示，该检索装置包括：

适应症接收单元810，用于接收用户终端发送的目标适应症；

销售数据确定单元820，从预先确定的适应症对应的目标药品的销售数据中，确定出与所述目标适应症对应的目标医生，以及所述目标医生针对所述目标药品的销售数据；所述各适应症对应的各药品的销售数据基于如上述任一项所述的药品销售数据挖掘方法确定。

本发明实施例提供的检索装置，实现了快速获取目标适应症对应的目标医生，及目标医生对应的目标药品销售数据，为开展针对医生的市场推广活动和销售策略的制定提供了可靠的依据。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行药品销售数据挖掘方法，该方法包括：确定目标药品；基于任一医院的各医生的医生介绍文本和/或所属科室，从所述各医生中确定与所述目标药品的适应症相关的目标医生；基于所述目标医生的论文发表信息，确定所述目标医生的学术影响力；基于所述目标医生的学术影响力，以及所述目标药品在所述任一医院的销售数据，确定所述目标医生针对所述目标药品的销售数据。

处理器可以调用存储器中的逻辑指令，以执行检索方法，该方法包括：接收用户终端发送的目标适应症；从预先确定的各适应症对应的各药品的销售数据中，确定出与所述目标适应症对应的目标医生，以及所述目标医生针对与所述目标适应症对应的药品的销售数据；所述各适应症对应的各药品的销售数据基于如上述所述的药品销售数据挖掘方法确定。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的药品销售数据挖掘方法，该方法包括：确定目标药品；基于任一医院的各医生的医生介绍文本和/或所属科室，从所述各医生中确定与所述目标药品的适应症相关的目标医生；基于所述目标医生的论文发表信息，确定所述目标医生的学术影响力；基于所述目标医生的学术影响力，以及所述目标药品在所述任一医院的销售数据，确定所述目标医生针对所述目标药品的销售数据。

计算机程序被处理器执行时，计算机能够执行上述各方法所提供的检索方法，该方法包括：接收用户终端发送的目标适应症；从预先确定的各适应症对应的各药品的销售数据中，确定出与所述目标适应症对应的目标医生，以及所述目标医生针对与所述目标适应症对应的药品的销售数据；所述各适应症对应的各药品的销售数据基于如上述所述的药品销售数据挖掘方法确定。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的药品销售数据挖掘方法，该方法包括：确定目标药品；基于任一医院的各医生的医生介绍文本和/或所属科室，从所述各医生中确定与所述目标药品的适应症相关的目标医生；基于所述目标医生的论文发表信息，确定所述目标医生的学术影响力；基于所述目标医生的学术影响力，以及所述目标药品在所述任一医院的销售数据，确定所述目标医生针对所述目标药品的销售数据。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种药品销售数据挖掘方法，其特征在于，包括：

确定目标药品；

2.根据权利要求1所述的药品销售数据挖掘方法，其特征在于，所述目标医生包括核心医生和非核心医生；所述基于任一医院的各医生的医生介绍文本和/或所属科室，从所述各医生中确定与所述目标药品的适应症相关的目标医生，包括：

3.根据权利要求1所述的药品销售数据挖掘方法，其特征在于，所述基于所述目标医生的论文发表信息，确定所述目标医生的学术影响力，包括：

4.根据权利要求1所述的药品销售数据挖掘方法，其特征在于，所述目标药品在所述任一医院的销售数据基于如下步骤确定：

5.根据权利要求4所述的药品销售数据挖掘方法，其特征在于，所述药品销售数据预测模型基于如下步骤训练得到：

确定至少两个初始模型；

6.根据权利要求5所述的药品销售数据挖掘方法，其特征在于，所述基于所述至少两个回归模型，确定所述药品销售数据预测模型，包括：

7.根据权利要求5所述的药品销售数据挖掘方法，其特征在于，所述基于所述至少两个样本预测销售数据分别与所述样本销售数据之间的相关性分析结果，分别对所述至少两个初始模型进行参数迭代，得到至少两个回归模型，之后还包括：

8.根据权利要求4所述的药品销售数据挖掘方法，其特征在于，所述得到所述药品销售数据预测模型输出的预测销售数据，之后还包括：

9.一种检索方法，其特征在于，包括：

接收用户终端发送的目标适应症；

从预先确定的适应症对应的目标药品的销售数据中，确定出与所述目标适应症对应的目标医生，以及所述目标医生针对所述目标药品的销售数据；所述适应症对应的目标药品的销售数据基于如权利要求1-8中任一项所述的药品销售数据挖掘方法确定。

10.一种药品销售数据挖掘装置，其特征在于，包括：

目标药品确定单元，用于确定目标药品；