CN117391765A - 一种药店会员群体画像构建方法 - Google Patents

一种药店会员群体画像构建方法 Download PDF

Info

Publication number
CN117391765A
CN117391765A CN202310605232.9A CN202310605232A CN117391765A CN 117391765 A CN117391765 A CN 117391765A CN 202310605232 A CN202310605232 A CN 202310605232A CN 117391765 A CN117391765 A CN 117391765A
Authority
CN
China
Prior art keywords
user
pharmacy
label
group
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310605232.9A
Other languages
English (en)
Inventor
顾鹏辉
李涛
杨雨晨
谢君臣
沈章
袁冲
吕静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Haiyun Health Technology Co ltd
Wuhan University of Science and Engineering WUSE
Original Assignee
Wuhan Haiyun Health Technology Co ltd
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Haiyun Health Technology Co ltd, Wuhan University of Science and Engineering WUSE filed Critical Wuhan Haiyun Health Technology Co ltd
Priority to CN202310605232.9A priority Critical patent/CN117391765A/zh
Publication of CN117391765A publication Critical patent/CN117391765A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种药店会员群体画像构建方法,包括以下步骤:1)获取药店用户的历史消费数据和用户信息数据,并根据历史消费数据和用户信息数据提取样本特征;2)对所述样本特征进行处理,获得用户画像标签;所述用户画像标签包括以下维度:用户维度、消费维度和医药维度;3)根据用户画像标签构建用户画像;4)用户群体划分,构建用户群体画像;5)对用户群体画像进行特征提取,形成最终的群体画像。本发明对现有药店会员用户画像特征维度进行了扩充;本发明提出药店会员的群体画像方法,对用户刻画更精准,基于本发明群体画像的消费预测和营销预测具有较高的准确率和更高的性能。

Description

一种药店会员群体画像构建方法
技术领域
本发明涉及人工智能技术,尤其涉及一种药店会员群体画像构建方法。
背景技术
用户画像在现有零售领域已经得到广泛的应用,成为刻画用户形象和行为习惯,进行精准营销的重要研究方向,而大数据、深度学习等技术的兴起,在用户画像的内涵、标签体系、特征建模、领域应用上带来了新的机遇和挑战。群体画像是更粗粒度的用户画像,当用户被划分为群体后,就会衍生出更多属于群体的特征和标签,扩展了用户画像的内涵。
用户画像特征建模方法由基本的统计模型逐步转向机器学习和深度学习为主的隐式特征挖掘。从早期的简单的统计到现在的基于深度学习技术的应用,国内外越来越多的研究者通过借助机器学习的方法构建用户画像。邹京甫提出了基于文本语义规则的实体抽取方法,通过挖掘药品说明书中的实体构建用户画像的标签,为线下药店零售领域的用户画像研究打开了思路。
现有的用户画像建模方法主要通过用户静态属性和消费行为数据刻画用户特征,不能满足药店运营的需要。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种药店会员群体画像构建方法。
本发明解决其技术问题所采用的技术方案是:一种药店用户群体画像构建方法,包括以下步骤:
1)获取药店用户的历史消费数据和用户信息数据,并根据历史消费数据和用户信息数据提取样本特征;
其中,用户信息数据是用户的基础信息,包括用户的姓名、年龄、性别、居住地、国籍、职业、身份标识;
2)对所述样本特征进行处理,获得用户画像标签;所述用户画像标签包括以下维度:用户维度、消费维度和医药维度;
3)根据用户画像标签构建用户画像;
4)用户群体划分,构建用户群体画像;
对用户维度和消费维度选择前k个重要的用户标签,医药维度选择包括疾病标签的用户标签;
计算任意两药店用户在各标签上的相似度,得到药店用户画像相似度;
根据药店用户画像相似度,进行药店用户画像聚类,完成群体划分;
5)对用户群体画像进行特征提取,形成最终的群体画像。
按上述方案,所述步骤2)中,医药维度的标签包括:是否是医保用户;品牌偏好;活动相应敏感度;疾病;疾病大类;是否常购处方药;特殊病类;药品种类;融合用药周期的近期购买趋势。
按上述方案,所述步骤4)中,计算任意两药店用户在各标签上的相似度,对于数值型标签使用欧式距离计算相似度,对于非数值型标签使用基于语义树路径的长度计算相似度。
按上述方案,所述步骤4)中,进行药店用户画像聚类采用FCM模糊聚类算法。
按上述方案,所述步骤5)中,对用户群体画像进行特征提取采用基于决策树的群体特征提取方法。
按上述方案,所述步骤5)中,基于决策树的群体特征提取方法具体如下:
5.1)有放回的随机选择N个样本,用这N个样本用来训练一个决策树,作为决策树根节点处的样本;
5.2)在决策树的每个节点需要分裂时,随机从样本的所有属性中选取出m个属性,然后从这m个属性中采用信息增益来选择1个属性作为该节点的分裂属性;
5.3)如果下一次该节点选出来的分裂属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,停止继续分裂;否则,直到不能够再分裂为止;将决策树的路径即为群体标签的横向标签;
5.4)重复步骤5.1)至5.3),构建随机森林,得到决策过程中权重最大的特征,作为横向标签的基本维度;
5.5)对于横向标签结果,根据路径得到具体的组合特征标签,进行部分标签合并,最终生成主题标签表示群体特征。
本发明产生的有益效果是:
1、本发明对现有药店会员用户画像特征维度进行了扩充;
2、提出药店会员的群体画像方法,对用户刻画更精准,基于本发明群体画像的消费预测和营销预测具有较高的准确率和更高的性能。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种药店用户群体画像模型构建方法,包括以下步骤:
1)获取药店用户的历史消费数据和用户信息数据,并根据历史消费数据和用户信息数据提取样本特征;
其中,用户信息是用户已有的基础信息,包括用户的姓名、年龄、性别、居住地、国籍、职业、身份标识;
2)对所述特征进行处理,获得用户画像标签;所述用户画像标签包括以下维度:用户维度、消费维度和医药维度;
其中,医药维度的标签包括:是否是医保用户;品牌偏好;活动相应敏感度;疾病;疾病大类;是否常购处方药;特殊病类;药品种类;融合用药周期的近期购买趋势标签;
表1用户画像标签体系
标签的获取:
1、疾病标签DISEASE
药品所属疾病利用药品说明书,用户电子病例等非结构化文本数据通过实体识别方法提取;
本实施例采用ALBERT+BiLSTM+CRF神经网络模型挖掘出文本数据中的药品、疾病、症状实体,作为医药领域的标签;
在传统的BiLSTM-CRF模型为核心的基础上,结合ALBERT中文预训练模型,将输出层词向量作为BiLSTM网络的辅助分层输入,依靠网络层的主分类模型捕获序列的有效信息,采用CRF模型的目标是通过邻近实体的关系获得一个最优的预测序列,提取药品疾病对应关系。
疾病标签由用户购买的药品提取出的疾病症状标签转移给用户,疾病标签并不是所有疾病都具有标识意义,所以疾病标签分为长期标签和短期标签;短期标签设有一定的时间阈值,例如感冒标签一般在10天左右就会自动取消;长期疾病标签则长期持有;疾病标签的规则如公式(2):
2、融合用药周期的近期价值标签VALS
部分药品具有购买周期较为规律的特点,所以将提取出的购药周期与反应消费价值的RFM模型相结合,提取用户近期价值标签VALS;RFM模型只需客户交易数据,容易收集,适应零售行业特点。
R(Recency)为最近一次消费时间,F(Frequency)为消费频率,用观测期顾客消费的总次数代替,M(Monetary)为观测期消费金额;药品零售中有部分群体会周期性购药,例如受慢性病用药周期,医保发放周期等因素的影响,部分特征会呈现周期性变化,因此在模型构建时进行优化,加入C(cycle)表示为距离购药周期的下一次可能购入时间距离现在时间的时间差,C的计算方式如公式(3);
C=|(tl+T)-tn| (3)
tl为用户上次购买时间,tn为现在的时间,T为一个周期,计算方式如公式(4);
tf为用户第一次购入该商品的时间,n为购买次数,当该用户的购买次数为1时,T为该药品所有非购买一次的用户的平均购买周期;将R,F,M,C按如下公式进行标准化。
标准化公式:F、M用公式(5),R、C用公式(6);
其中,Nj为第j项指标值,Nmax为第j项指标的最大值,Nmin为第j项指标的最小值,Nij为标准化值;
熵值法确定各指标的权重计算公式如公式(8);
最终基于RFM改进的RFMC模型表示为公式(9),Wj为第j项的权重;客户的价值与R、C成反比,与F、M成正比;
3、特殊病类标签SPECIAL
是否有老年病/儿童病/职业病标签GERIAT/CHD/OCUPAT;
根据药品购买情况及其年龄特征,特殊病类标签的规则如公式(10);令HBCHD(Med):Med为所购药品集合,属于儿童用药药品合集,TS(Med)为购药次数,TS_Max(Med)某一种药的购药次数;
3)用户群体划分,构建用户群体画像;
本实施例中,对用户维度和消费维度选择前k个用户标签,医药维度选择疾病标签,特殊病类标签,是否是医保用户特征,融合用药周期的用户价值标签;
根据选择的标签收集数据,对提取出的标签进行聚类,实现群体划分;
会员维度和消费维度的特征基于卡方检验和信息增益排序的特征重要性排序,选择其中较为重要的k个用户标签特征,融合医药领域的疾病标签,也可以加上特殊病类标签,是否是医保用户特征,融合用药周期的用户价值标签中的一个或多个;
对数值型标签,使用欧式距离计算相似度;
对于所有的数值型特征依据以下公式进行标准化。
利用FCM聚类的软化分优势,对用户进行FCM聚类,形成用户群体。
将用户的向量矩阵X=[x1,x2,…,xn]T(xi为第i个用户的特征向量)作为FCM模糊聚类的输入,在满足公式(3)隶属度需要的条件下,调整最大迭代次数,目标函数为公式(4)。公式中:k为聚类数目;N为样本总数;xi代表样本中第i个数据;ci为第i个聚类中心;m为模糊参数;uij表示xi对应cj的隶属度;隶属度矩阵U=[uij]的大小为N×k;Dis(xi,cj)=||xi-cj||表示第j个数据与第i个聚类中心的距离,数值型数据就是欧式距离。
对非数值型标签使用基于语义树路径的长度计算相似度;
由于疾病标签不是数值型,无法根据标签直接进行距离的计算,使用基于语义树路径的相似度计算方式进行分类;
两实体的距离定义如公式(5)和公式(6),其中,H(E)为实体E在病类树的层高,为实体Ei和Ej的最近公共父节点。例如药品1和药品2的最近公共父节点为抗酸及抗溃疡药物,则他们之间的距离为2。
Dis(Ei,Ej)=Dis(Ei,Father(Ei,Ej))+Dis(Ej,Father(Ei,Ej)) (5)
Dis(Ei,Father(Ei,Ej))=H(Ei)-H(Father(Ei,Ej)) (6)
计算任意两药店用户在各标签上的相似度,得到药店用户画像相似度;
根据药店用户画像相似度,进行药店用户画像聚类,完成群体划分;
进行药店用户画像聚类采用FCM模糊聚类算法。
FCM聚类过程如算法1.
得到群体画像后,依据群体的特点会产生一些新的群体概念层面的标签,描述群体共有的特性,比如高价药品偏好群体等等。而对于每个样本相对各个群体的隶属度,可以量化标签属性,变成组合特征,将群体隶属度特征加入预测等应用,可以得到较好结果。
5)群体画像模型构建;
聚类结果并不具有可解释性,但是决策树可以对各群体的特征进行解释,形成最终的群体画像;
输入:样本特征向量矩阵D=[X,Clusterj],其中Clusterj为群体分类,A是划分节点的属性集
输出:每个群体的特征组合,群体画像;
基于决策树的群体特征提取方法具体如下:
5.1)有放回的随机选择N个样本,用这N个样本用来训练一个决策树,作为决策树根节点处的样本;
5.2)在决策树的每个节点需要分裂时,随机从样本的所有属性中选取出m个属性,然后从这m个属性中采用信息增益来选择1个属性作为该节点的分裂属性;
5.3)如果下一次该节点选出来的分裂属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,停止继续分裂;否则,直到不能够再分裂为止;将决策树的路径即为群体标签的横向标签;
5.4)重复步骤5.1)至5.3),构建随机森林,得到决策过程中权重最大的特征,作为横向标签的基本维度;
5.5)对于横向标签结果,根据路径得到具体的组合特征标签,进行部分标签合并,最终生成主题标签表示群体特征。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种药店会员群体画像构建方法,其特征在于,包括以下步骤:
1)获取药店用户的历史消费数据和用户信息数据,并根据历史消费数据和用户信息数据提取样本特征;
其中,用户信息数据是用户的基础信息,包括用户的姓名、年龄、性别、居住地、国籍、职业、身份标识;
2)对所述样本特征进行处理,获得用户画像标签;所述用户画像标签包括以下维度:用户维度、消费维度和医药维度;
医药维度的标签包括:疾病标签;
3)根据用户画像标签构建用户画像;
4)用户群体划分,构建用户群体画像;
对用户维度和消费维度选择前k个用户标签,医药维度选择包括疾病标签的用户标签;
计算所有药店用户在各标签上的相似度,得到药店用户画像相似度;
根据药店用户画像相似度,进行药店用户画像聚类,完成群体划分;
5)对用户群体画像进行特征提取,形成最终的群体画像。
2.根据权利要求1所述的药店会员群体画像构建方法,其特征在于,所述步骤2)中,医药维度的标签还包括:是否是医保用户;品牌偏好;活动相应敏感度;疾病大类;是否常购处方药;特殊病类;药品种类;融合用药周期的近期购买趋势。
3.根据权利要求1所述的药店会员群体画像构建方法,其特征在于,所述步骤4)中,计算任意两药店用户在各标签上的相似度,对于数值型标签使用欧式距离计算相似度,对于非数值型标签使用基于语义树路径的长度计算相似度。
4.根据权利要求1所述的药店会员群体画像构建方法,其特征在于,所述步骤4)中,进行药店用户画像聚类采用FCM模糊聚类算法。
5.根据权利要求1所述的药店会员群体画像构建方法,其特征在于,所述步骤5)中,对用户群体画像进行特征提取采用基于决策树的群体特征提取方法。
6.根据权利要求5所述的药店会员群体画像构建方法,其特征在于,所述步骤5)中,所述步骤5)中,基于决策树的群体特征提取方法具体如下:
5.1)有放回的随机选择N个样本,用这N个样本用来训练一个决策树,作为决策树根节点处的样本;
5.2)在决策树的每个节点需要分裂时,随机从样本的所有属性中选取出m个属性,然后从这m个属性中采用信息增益来选择1个属性作为该节点的分裂属性;
5.3)如果下一次该节点选出来的分裂属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,停止继续分裂;否则,直到不能够再分裂为止;将决策树的路径即为群体标签的横向标签;
5.4)重复步骤5.1)至5.3),构建随机森林,得到决策过程中权重最大的特征,作为横向标签的基本维度;
5.5)对于横向标签结果,根据路径得到具体的组合特征标签,进行部分标签合并,最终生成主题标签表示群体特征。
CN202310605232.9A 2023-05-23 2023-05-23 一种药店会员群体画像构建方法 Pending CN117391765A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310605232.9A CN117391765A (zh) 2023-05-23 2023-05-23 一种药店会员群体画像构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310605232.9A CN117391765A (zh) 2023-05-23 2023-05-23 一种药店会员群体画像构建方法

Publications (1)

Publication Number Publication Date
CN117391765A true CN117391765A (zh) 2024-01-12

Family

ID=89437946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310605232.9A Pending CN117391765A (zh) 2023-05-23 2023-05-23 一种药店会员群体画像构建方法

Country Status (1)

Country Link
CN (1) CN117391765A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117911085A (zh) * 2024-03-18 2024-04-19 南京焦点方寸信息技术有限公司 一种基于企业营销的用户管理系统、方法及终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117911085A (zh) * 2024-03-18 2024-04-19 南京焦点方寸信息技术有限公司 一种基于企业营销的用户管理系统、方法及终端
CN117911085B (zh) * 2024-03-18 2024-06-11 南京焦点方寸信息技术有限公司 一种基于企业营销的用户管理系统、方法及终端

Similar Documents

Publication Publication Date Title
Ray et al. An ensemble-based hotel recommender system using sentiment analysis and aspect categorization of hotel reviews
CN108363804B (zh) 基于用户聚类的局部模型加权融合Top-N电影推荐方法
Liu et al. Analyzing changes in hotel customers’ expectations by trip mode
CN109189904A (zh) 个性化搜索方法及系统
CN108763362A (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
US10810260B2 (en) System and method for automatically generating articles of a product
Zhang et al. Combining sentiment analysis with a fuzzy kano model for product aspect preference recommendation
CN112990973A (zh) 线上店铺画像构建方法及系统
Bi et al. How built environment impacts online car-hailing ridership
US20140379516A1 (en) Context based recommender system
CN117391765A (zh) 一种药店会员群体画像构建方法
Li et al. Mining online reviews for ranking products: A novel method based on multiple classifiers and interval-valued intuitionistic fuzzy TOPSIS
CN113220985B (zh) 基于健康养老环境下嵌入式用户画像模型的服务推荐方法
CN114722810A (zh) 一种基于信息抽取和多属性决策的房地产客户画像方法和系统
Xu et al. Explaining customer satisfaction via hotel reviews: A comparison between pre-and post-COVID-19 reviews
Duarte et al. Machine Learning and Marketing: A Literature Review.
Hasheminejad et al. Clustering of bank customers based on lifetime value using data mining methods
Chang et al. A comparative analysis on artificial neural network-based two-stage clustering
CN115409630A (zh) 一种基于混合推荐算法的保险产品精准推荐方法
Kumar et al. Combined sentiment score and star rating analysis of travel destination prediction based on user preference using morphological linear neural network model with correlated topic modelling approach
CN111782964B (zh) 一种社区帖子的推荐方法
Amira et al. Opinion Analysis of Traveler Based on Tourism Site Review Using Sentiment Analysis
Yan et al. Customer segmentation using real transactional data in e-commerce platform: A case of online fashion bags shop
Han et al. A hybrid model of tensor factorization and sentiment utility logistic model for trip recommendation
CN112182165B (zh) 基于在线评论的新产品质量规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination