CN112766651A

CN112766651A - 用于数据分析的方法

Info

Publication number: CN112766651A
Application number: CN202011621559.8A
Authority: CN
Inventors: 黄旭江
Original assignee: SHANGHAI PHARMEYES PHARMACEUTICAL TECHNOLOGY CONSULTING Ltd
Current assignee: SHANGHAI PHARMEYES PHARMACEUTICAL TECHNOLOGY CONSULTING Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07

Abstract

本发明公开了一种用于数据分析的方法。该方法包括：获取针对多个终端的多个基础数据，每个基础数据包括终端名称、交易时间和产品名称；将多个基础数据通过映射关系转化为多个标签数据；将多个标签数据存储在数据库中；从数据库提取至少一部分标签数据，至少一部分标签数据具有相同的产品编码；分别对至少一部分标签数据中的具有相同的唯一标识符的标签数据基于包括时间近度R、时间频度F和一个或多个非敏感因素X的维度进行数据处理以分别生成针对不同的标识符的R分值、F分值和一个或多个X分值；针对每一个唯一标识符，对相应的R分值、F分值和一个或多个X分值进行加权求和，以生成相应的RFX分值。

Description

用于数据分析的方法

技术领域

本发明涉及医药数据分析领域，更具体地，本发明涉及一种用于数据分析的方法和处理器以及存储有对应程序的计算机可读存储介质。

背景技术

在医药领域中，通常通过对终端(例如，药店、医院)进行分析来评估其潜力价值。现有技术中，已经使用一些建模方法来衡量客户价值和客户创利能力。这些建模方法一般针对特定客户的基本属性和历史购买行为进行评估。然而，至今还未建立在明确目标市场和/或明确非目标市场的这些情况下都适用的评估方法。

此外，现有的模型往往将金额作为必要的关键指标来描述该客户的价值状况。然而，金额(例如，客户在最近一段时间内购买的金额)通常对于客户而言是非常敏感的数据。换而言之，现有技术中的常规方法可能会暴露终端的消费金额这样的敏感信息，并且可能引发终端之间的不正当竞争。

因此，本领域需要一种隐藏客户数据并且能够不使用客户敏感数据来进行可定性潜力价值分析的多角度量化方法。

发明内容

本发明的示例性实施例的目的在于克服现有技术中的上述的和/或其他的问题，特别是能够通过将客户数据转换为标签流向数据并对其进行处理，防止客户信息被直接暴露，同时在分析过程中不需要以客户敏感数据(例如，消费金额M)作为分析的维度，而是通过相关性分析，使用非敏感数据进行数据分析，从而避免客户敏感数据被不当公开的风险，提高客户体验度同时确保该分析结果与利用客户购买金额的现有模型分析的结果具有类似的准确性。

具体地，本发明的示例性实施例提供了一种用于数据分析的方法，其特征在于，所述方法包括：获取针对多个终端的多个基础数据，每个基础数据包括终端名称、交易时间和产品名称；将所述多个基础数据通过映射关系转化为多个标签数据，其中每个标签数据包括与相应终端名称对应的唯一标识符、交易时间和与产品名称对应的产品编码；将所述多个标签数据存储在数据库中；从所述数据库提取至少一部分标签数据，所述至少一部分标签数据具有相同的产品编码；分别对所述至少一部分标签数据中的具有相同的所述唯一标识符的标签数据基于包括时间近度R、时间频度F和一个或多个非敏感因素X的维度进行数据处理以分别生成针对不同的所述标识符的R分值、F分值和一个或多个X分值，其中所述时间近度R是指最近一次购买的时间与当前的时间间隔，所述时间频度F是指在一段时间内购买的次数；针对每一个唯一标识符，对相应的R分值、F分值和一个或多个X分值进行加权求和，以生成相应的RFX分值。

较佳地，所述一个或多个非敏感因素X包括时间长度D和/或终端互动E，其中所述时间长度D是指第一次建档时间与当前的时间间隔，所述终端互动E是指在一段时间内进货的次数。

较佳地，所述一个或多个非敏感因素X还包括以下因素中的至少一个：诊疗人次；平均诊疗价格；每个省份的单产值；以药店为单位的平均客流量、面积、费用和投入产出比；终端一级属性；终端二级属性；终端三级属性；终端省份；终端上游经销商数量；终端商品的生产厂家数量；终端销售的产品种类数量；终端销售产品的平均价格；以及终端的建档日期、营业面积、所在地级市的GDP、人口和年龄结构，并且所述方法还包括针对所述多个终端获取与所述至少一个因素相关联的数据，并且将这些数据添加到与相应终端名称对应的唯一标识符所在的标签数据中。

较佳地，所述方法进一步包括基于针对不同终端生成的RFX值，对所述不同终端进行排序。

较佳地，所述标签数据进一步包括对所述多个终端添加标签。

较佳地，所述至少一部分标签数据还具有相同的标签。

较佳地，所述产品编码包括ATC一级编码、ATC二级编码和/或ATC三级编码。

较佳地，所述系统进一步包括在进行业务建模之前对所述标签数据进行数据清洗，以进行去噪处理。

较佳地，所述数据清洗包括重复值删除、数据插补。

较佳地，对R分值、F分值和X分值进行加权求和的权重是利用机器学习通过多次回归与拟合得到的。

根据本发明的另一个示例性实施例，提供了一种处理器，包括用于执行上述示例性实施例的方法的装置。

根据本发明的又另一个示例性实施例，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述示例性实施例的方法的步骤。

附图说明

通过结合附图对于本发明的示例性实施例进行描述，可以更好地理解本发明，在附图中：

图1示例性地示出了根据本发明的第一示例性实施例的用于数据分析的方法100；

图2示例性地示出了根据本发明的第二示例性实施例的用于数据分析的方法100；

图3示例性地示出了根据本发明的示例性实施例的基础数据和标签数据的示例；

图4示例性地示出了利用RFD模型分析的结果与利用RFM模型分析的结果具有类似的准确性；

图5示例性地示出了对终端添加的标签；以及

图6示例性地示出了根据本发明的示例性实施例的数据分析的结果。

在附图中，相似的组件及/或特征可以具有相同的数字参考标号。此外，相同类型的各个组件可以藉由在该参考标号之后接续字母来进行区分，该字母可以在类似的组件及/或特征之间进行区分。假使只在说明书中使用第一数字参考标号，则该描述适用于任何一个具有相同第一数字参考标号的类似组件及/或特征，而与该字母下标无关。

具体实施方式

以下将描述本发明的具体实施方式，需要指出的是，在这些实施方式的具体描述过程中，为了进行简明扼要的描述，本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是，在任意一种实施方式的实际实施过程中，正如在任意一个工程项目或者设计项目的过程中，为了实现开发者的具体目标，为了满足系统相关的或者商业相关的限制，常常会做出各种各样的具体决策，而这也会从一种实施方式到另一种实施方式之间发生改变。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本发明公开的内容相关的本领域的普通技术人员而言，在本公开揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本公开的内容不充分。

除非另作定义，权利要求书和说明书中使用的技术术语或者科学术语应当为本发明所属技术领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，也不限于是直接的还是间接的连接。

第一实施例

图1示例性地示出了根据本发明的第一示例性实施例的用于数据分析的方法100。如图1所示，方法100可以包括以下步骤S110-S210：用于对数据分析的方法100包括获取针对多个终端的多个基础数据的步骤S110、将多个基础数据通过映射关系转化为多个标签数据的步骤S130、将多个标签数据存储在数据库中的步骤S150、提取标签数据的步骤S170、对标签数据进行数据处理的步骤S190以及生成分值的步骤S210。

在步骤S110，获取针对多个终端的多个数据。所获取的针对多个终端的多个基础数据可以包括终端名称、交易时间和产品名称。此外，基础数据还可以包括(但不限于)流向唯一码等等。在获取基础数据时，不获取产品的交易数量、交易数量和交易金额等客户敏感信息。由此，可以主动避免触碰客户敏感数据，由此可以避免由于数据暴露而引发的不正当竞争。

在步骤S130，将多个基础数据通过映射关系转化为多个标签数据。基础数据中的终端名称可以通过参考映射关系表被转化为与终端名称对应的唯一标识符。基础数据中的产品名称可以被转化为产品编码。作为示例，产品编码可以是ATC(解剖学治疗学及化学分类系统Anatomical Therapeutic Chemical)编码，并且ATC编码可以进一步包括ATC一级编码、ATC二级编码、ATC三级编码等等。基础数据中的交易时间可以直接保留在标签数据中，或者也可以用不同的时间格式来存储在标签数据中。

图3中示出了基础数据和标签数据的示例。通过将多个基础数据转化为多个标签数据，数据可以由基础数据的原始流向转化为标签数据的标签流向以便进行后续的数据处理和分析。尽管所提供的基础数据中可能包含数量和金额，但是在数据处理和分析的过程中，将不再使用数量和金额数据。如图3所示，标签数据中不再呈现具体的产品名称、上游名称和下游(即，终端)名称，也不再包括产品的交易数量以及交易金额。由此，有效地避免了客户敏感数据被直接暴露的风险，从而可以避免由于数据暴露而引发的不正当竞争。

在步骤S150，将多个标签数据存储在数据库中，并且在步骤S170，根据分析的需要，以特定的标准从数据库提取至少一部分标签数据。该特定的标准可以是不同级别的产品编码或产品编码的任意组合。例如，如果想要分析不同终端对具有相同ATC编码的产品的需求或在具有某个ATC编码的领域的活跃度，则可以以该ATC编码为条件提取不同终端的标签数据。

在步骤S190，针对具有相同的唯一标识符的终端，对所提取的标签数据基于包括时间近度R、时间频度F和非敏感因素X的维度进行数据处理以分别生成针对不同的唯一标识符的R分值、F分值和X分值。时间近度R可以是最近一次购买的时间与当前的时间间隔，时间频度F可以是在一段时间内购买的次数。在第一实施例中，非敏感因素X可以是时间长度D。时间长度D可以是第一次建档时间距离当前的时间间隔。

以下示出了关于R分值的示例计算方法。然而，应理解，以下算法仅是示例性的，本领域技术人员可以构想到其他的计算方法来计算R分值。

R_终端＝当前日期-最后一次交易日期；

在计算出各个终端的α之后，取各个终端的α中最大的α_max，然后计算

由此得出每个终端的R分值。

以下示出了关于F分值的计算方法。然而，应理解，以下算法仅是示例性的，本领域技术人员可以构想到其他的计算方法来计算F分值。

例如，以一年作为统计期限。

F_终端＝最近一年内发生交易的天数(一天内发生多次交易计为1)

在计算出各个终端的β之后，取各个终端的β中最大的β_max，然后计算

由此得出每个终端的F分值。

以下示出了关于D分值的计算方法。然而，应理解，以下算法仅是示例性的，本领域技术人员可以构想到其他的计算方法来计算D分值。

D_终端＝终端开户时间-当前时间；

在计算出各个终端的γ之后，取各个终端的γ中最大的γ_max，然后计算

由此得出每个终端的D分值。

在步骤S210，对R分值、F分值和X分值进行加权求和，以得到与终端相对应的RFX分值。

例如，RFX分值＝R分值×W_R+F分值×W_F+X分值×W_X。

其中，W_R、W_F和W_X分别表示R分值、F分值和X分值的权重，并且示例性地，W_R+W_F+W_X＝100％。

仅作为一个示例，W_R＝20％，W_F＝60％，W_X＝20％。

对R分值、F分值和X分值进行加权的权重可以是通过机器学习的方法，根据客户的分析需求以及分值的准确性通过多次回归与拟合分析得到的相应指数。在得到最终的RFX模型之前，在对RFX模型进行训练期间，以根据RFM模型得到的分值作为标准参考，以获得RFM分值为目的，对RFX模型进行训练。首先，根据RFM模型计算出终端的RFM分值；然后，调节RFX模型中R分值、F分值和X分值中的每一个的权重，在这个过程中，通过机器学习得到R分值、F分值和X分值中的每一个的权重与RFM分值的关系，用一组训练集训练RFX模型；最后，用一组测试集来测试最终确认的R分值、F分值和X分值中的每一个的权重。当测试结果指示分值的准确性足够高时，对该RFX模型的训练结束，并且将R分值、F分值和X分值中的每一个的权重确定为最终确认的权重。分值的准确性是指，以RFX分值为参考对终端的排序与以将金额(M)作为关键指标的模型所得的RFM分值为参考对终端的排序相同。

以上描述了根据本发明的第一示例性实施例的用于数据分析的方法。采用了该方法，能够通过将客户数据转换为标签流向数据并对其进行处理，防止客户信息被直接暴露，同时在分析过程中不需要以客户敏感数据(例如，交易金额M和交易数量)作为分析的维度，而是通过相关性分析，使用非敏感数据(时间长度D)进行数据分析，从而避免客户敏感数据被不当公开的风险，提高客户体验度同时确保该分析结果与利用客户购买金额M的现有模型分析的结果具有类似的准确性。

可选地，如图2所示，上述方法100还可以包括以下步骤S220：基于针对不同终端生成的RFX值，对不同终端进行排序。如上所述，当对所提取的标签数据的终端以RFX分值为标准进行排序时，该排序的顺序与当终端以RFM分值为标准进行排序时的顺序是一致的，如图4所示。在非敏感因素X是时间长度D的第一实施例中，如图4所示的结果表明了利用RFD模型分析的结果与利用RFM模型分析的结果具有类似的准确性。

第二实施例

根据本发明的第二示例性实施例的用于数据分析的方法的若干细节与上文关于图1描述的方法100是相同的，在此不再赘述。以下主要描述第二示例性实施例的方法的不同之处。

与第一实施例相类似，在步骤S110获取针对多个终端的多个基础数据，在步骤S130将多个基础数据通过映射关系转化为多个标签数据，在步骤S150将多个标签数据存储在数据库中，并且在步骤S170提取标签数据。

在步骤S190，针对具有相同的唯一标识符的终端，对所提取的标签数据进行数据处理以分别生成针对不同的唯一标识符的R分值、F分值和X分值。在第二实施例中，非敏感因素X是终端互动E。终端互动E是指终端的消费波动。

在第二实施例中，R分值和F分值都可以采用与第一实施例相同的算法。

以下示出了关于E分值的计算方法。然而，应理解，以下算法仅是示例性的，本领域技术人员可以构想到其他的计算方法来计算E分值。

对终端的不同的消费频率(例如，一天内消费2次以上、两天内消费1～2次、三天内消费1～2次、七天内消费1～2次、七天内无消费、七天以上无消费)，按照消费频率的由高到低的顺序，分别赋予不同的分值，其中，消费频率越高，分值越高。本领域技术人员将会理解，可以有更多或更少的消费频率的分类，并且各个消费频率可以有不同的分值。例如，对一天内消费2次以上、两天内消费1～2次、三天内消费1～2次、七天内消费1～2次、七天内无消费、七天以上无消费的消费频率分别赋予5分、4分、3分、2分、1分以及0分的分值。

随后，在步骤S210，对R分值、F分值和X分值进行加权求和，以得到与终端相对应的RFX分值。其中，对R分值、F分值和X分值进行加权的权重是根据客户的分析需求以及分值的准确性通过多次回归与拟合分析得到的相应指数。

以上描述了根据本发明的第二示例性实施例的用于数据分析的方法。采用了该方法，能够通过将客户数据转换为标签流向数据并对其进行处理，防止客户信息被直接暴露，同时在分析过程中不需要以客户敏感数据(例如，交易金额M和交易数量)作为分析的维度，而是通过相关性分析，使用非敏感数据(终端互动E)进行数据分析，从而避免客户敏感数据被不当公开的风险，提高客户体验度同时确保该分析结果与利用客户购买金额M的现有模型分析的结果具有类似的准确性。

图4中进一步示例性地示出了各个终端的RFE分值，并且从图4中可以看出，以RFE分值为参考的各个终端的排序与以RFM为参考的排序相同，RFE模型分析的结果也展现出与利用RFM模型分析的结果相符合的准确性。

在本发明的可选实施例中，如图2所示，上述方法100还可以包括对终端添加标签的步骤S140。标签可以包括静态标签(也称为“事实标签”)、动态标签(也称为“模型标签”)和预测标签。如图5中示意性地示出的，静态标签可以包括行业主数据编码、注册城市、人社级别、卫健委级别、经济类型、经营范围、经营城市、经度纬度、治疗领域等等，对于医疗结构的动态标签可以包括医联体角色、DTP药店、经济类型、互联网医院、建档时间、创建时间等等，对于经销商的动态标签可以包括覆盖等级医院数量、覆盖要点数量、货物周转率、退货量等等。预测标签可以是基于特征数据经过机器学习得到的模型计算标签。

在本发明的可选实施例中，如图2所示，上述方法100还可以包括数据清洗的步骤S160。待清洗的数据可能有数据重复、数据缺失或数据异常的问题。数据重复将导致数据方差小，从而影响数据分布；数据缺失将导致数据变量小，从而影响准确性；而数据异常将导致数据产生伪回归。因此，数据清洗将删除重复数据，利用均值、众数、临近值和拉格朗日插值法进行数据插补，和/或与平均值的偏差值对比删除异常值。应理解，本领域技术人员可以构想到其他数据清洗的方法，以符合本发明的设计理念。

在本发明的可选实施例中，如图2所示，上述方法100还可以包括对不同终端进行排序的步骤S220。例如，图4示出了对终端A-F进行排序的结果。由此，可以对多个终端的潜力进行可视化分析。

在本发明的可选实施例中，一个或多个非敏感因素X可以进一步包括以下非敏感因素X_i中的至少一个：诊疗人次；平均诊疗价格；每个省份的单产值；以药店为单位的平均客流量、面积、费用和投入产出比；终端一级属性；终端二级属性；终端三级属性；终端省份；终端上游经销商数量；终端商品的生产厂家数量；终端销售的产品种类数量；终端销售产品的平均价格；以及终端的建档日期、营业面积、所在地级市的GDP、人口和年龄结构。如此，上述方法100可以还包括针对所述多个终端获取与所述至少一个因素相关联的数据，并且将这些数据添加到与相应终端名称对应的唯一标识符所在的标签数据中。

在对终端进行分析的过程中，除了上文中论述的D分值和E分值之外，通过引入更多的非敏感因素X_i及其相应的分值，可以使分析结果更全面。

此外，特别地，在无法获取针对多个终端的时间近度R、时间频度F、时间长度D、终端互动E等数据的情况下(例如，数据库中没有关于该终端的数据、该终端未曾建档等等)，可以通过使用关于终端的可以从其他方式(例如，互联网上可获得的资料等等)获得的非敏感因素X_i数据中的一个或多个，基于在对其他终端进行分析过程中已经确认的非敏感因素X_i数据的权重，从而对该终端产生包含一个或多个非敏感因素X_i数据的X_i分值。

图6示例性地示出了根据本发明的示例性实施例的数据分析的结果。根据不同的终端的非敏感因素，可以得到不同的分值(即，潜力值)，并由可以对终端进行分级。

以上描述了根据本发明的用于数据分析的方法。本发明的用于数据分析的方法具有下述优势。本发明可以用于判断终端的当前价值、未来价值等等。本发明可以帮助市场进入洞察，分析城市潜力。在客户明确目标市场和非目标市场，想要尽快铺点的情况下，本发明的示例性实施例帮助客户在城市层面分析终端的已覆盖情况和未覆盖情况，由此展示城市的潜力指数大小。同时，在经销商的遴选上，也可以清楚展示该经销商的潜力指数大小。

本发明还可以帮助潜力市场洞察。在明确目标市场，不明确非目标市场的情况下，本发明的示例性实施例具有渠道探测的意义，通过结合客户的触点偏好、渠道偏好、利益偏好中的一个或多个，对非目标终端进行遴选。

本发明还可以帮助在潜力市场洞察中识别机会和风险。在客户不明确目标市场，明确非目标市场的情况下，本发明的示例性实施例可以帮助客户看到竞争态势。在客户不明确目标市场，也不明确非目标市场的情况下，本发明的示例性实施例帮助企业分析各个终端的位置和潜力。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种用于数据分析的方法，其特征在于，所述方法包括：

获取针对多个终端的多个基础数据，每个基础数据包括终端名称、交易时间和产品名称；

将所述多个基础数据通过映射关系转化为多个标签数据，其中每个标签数据包括与相应终端名称对应的唯一标识符、交易时间和与产品名称对应的产品编码；

将所述多个标签数据存储在数据库中；

从所述数据库提取至少一部分标签数据，所述至少一部分标签数据具有相同的产品编码；

分别对所述至少一部分标签数据中的具有相同的所述唯一标识符的标签数据基于包括时间近度R、时间频度F和一个或多个非敏感因素X的维度进行数据处理以分别生成针对不同的所述标识符的R分值、F分值和一个或多个X分值，其中所述时间近度R是指最近一次购买的时间与当前的时间间隔，所述时间频度F是指在一段时间内购买的次数；

针对每一个唯一标识符，对相应的R分值、F分值和一个或多个X分值进行加权求和，以生成相应的RFX分值。

2.如权利要求1所述的方法，其特征在于，所述一个或多个非敏感因素X包括时间长度D和/或终端互动E，其中所述时间长度D是指第一次建档时间与当前的时间间隔，所述终端互动E是指在一段时间内进货的次数。

3.如权利要求1所述的方法，其特征在于，所述一个或多个非敏感因素X包括以下因素中的至少一个：诊疗人次；平均诊疗价格；每个省份的单产值；以药店为单位的平均客流量、面积、费用和投入产出比；终端一级属性；终端二级属性；终端三级属性；终端省份；终端上游经销商数量；终端商品的生产厂家数量；终端销售的产品种类数量；终端销售产品的平均价格；以及终端的建档日期、营业面积、所在地级市的GDP、人口和年龄结构，并且所述方法还包括针对所述多个终端获取与所述至少一个因素相关联的数据，并且将这些数据添加到与相应终端名称对应的唯一标识符所在的标签数据中。

4.如权利要求1所述的方法，其特征在于，所述方法进一步包括基于针对不同终端生成的RFX值，对所述不同终端进行排序。

5.如权利要求1所述的方法，其特征在于，所述标签数据进一步包括对所述多个终端添加标签。

6.如权利要求5所述的方法，其特征在于，所述至少一部分标签数据还具有相同的标签。

7.如权利要求1所述的方法，其特征在于，所述产品编码包括ATC一级编码、ATC二级编码和/或ATC三级编码。

8.如权利要求1所述的方法，其特征在于，所述系统进一步包括在进行业务建模之前对所述标签数据进行数据清洗，以进行去噪处理。

9.如权利要求8所述的方法，其特征在于，所述数据清洗包括重复值删除、数据插补。

10.如权利要求1所述的方法，其特征在于，对R分值、F分值和X分值进行加权求和的权重是利用机器学习通过拟合得到的。

11.一种处理器，用于执行如权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1至9中任一项所述的方法的步骤。