CN107423320B

CN107423320B - 一种大数据架构下的医学领域自媒体平台数据推送方法

Info

Publication number: CN107423320B
Application number: CN201710200819.6A
Authority: CN
Inventors: 纪俊; 喻海清; 于滨
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2023-06-09
Anticipated expiration: 2037-03-30
Also published as: CN107423320A

Abstract

本发明提供一种大数据架构下的医学领域自媒体平台数据推送方法，其包括以下步骤:步骤1：数据选择与转化；从用户行为日志信息中抽取有效数据，转化为建模数据矩阵；步骤2：构建评估数据矩阵；从建模数据矩阵筛选出符合评估推荐模型健壮性的评估数据矩阵；步骤3：推荐模型构建与评价；步骤4：组合形成推荐结果。本发明将医学领域自媒体平台相关数据进行系统的分析、建模，并给出模型预测的评价方法，通过该模型能够基于医学领域自媒体平台数据，对医生阅读进行有效的推荐，使医生在登录平台时实时获取相关文献，为达到最佳阅读选择提供依据。

Description

一种大数据架构下的医学领域自媒体平台数据推送方法

技术领域

本发明涉及大数据应用技术领域，具体地说，涉及一种大数据架构下的医学领域自媒体平台数据推送方法。

背景技术

医学领域自媒体平台作为一种为医生服务的新型自媒体，目标是给注册医生用户提供最新的专业领域资讯，同时也给医生用户提供相互交流学习的平台，因此不但内容庞杂，而且信息量也比较大，如何更好的组织内容，对医生用户形成更好的黏性，是急需解决的实际问题。

精确了解医生的需求，同时引导医生的行为和媒体自身的目标更好的契合，是医学领域自媒体平台努力的方向。推荐算法发展到今天，可以分类为大众行为的推荐和个性化推荐。目前平台推荐系统首先对用户点击阅读内容进行统计和推荐建模，然后有计划的安排一些线上线下活动，最后根据统计结果和活动内容进行大众化推荐和个性化推荐相结合的混合推荐。

目前基于统计的推荐模型简单，结果容易掌控，但是内容相对滞后，不能有效利用平台产生的大量医生行为数据，提高模型性能和准确度。

发明内容

为解决以上问题，本发明提供的一种基于医学领域自媒体平台医生阅读文献数据的推荐方法。本专利采用大众行为推荐的模式并结合个性化推荐中的协同过滤算法，在数据处理和算法运用方面做了大量的改进，将其在Hadoop+Spark架构实施，达到了更好为平台服务的目的，其具体的技术方案如下：

一种大数据架构下的医学领域自媒体平台数据推送方法，其包括以下步骤：

步骤1:数据选择与转化；从用户行为日志信息中抽取可供建模的有效数据，并将这种流式数据转化为用户、时间、标签集合为列展开的建模数据矩阵；

步骤2:构建评估数据矩阵；为了降低数据矩阵的稀疏性，从建模数据矩阵筛选出符合评估推荐模型健壮性的评估数据矩阵；

(2.1)行过滤数据，即统计某用户某月阅读标签的个数，根据设定的阈值决定是否过滤掉某行数据；

(2.2)列过滤数据，即统计某标签阅读次数，根据设定的阈值决定是否过滤掉某列数据；

步骤3:推荐模型构建与评价，其步骤如下：

(3.1)依据阅读记录中的时间字段，将建模数据矩阵分割为训练集Xtrain、测试集Xtest,测试集为当月数据，训练集包含当月之前三个月的数据；

(3.2)使用改进基于物品的协同过滤推荐算法在训练集上建模；

(3.3)根据推荐模型按列对当月数据进行循环迭代推荐预测，得到所有用户所有标签的推荐矩阵Xrecomd；

(3.4)类似(3.1)～(3.3)步骤，对评估数据矩阵进行相同的处理，得到推荐矩阵X1recomd；

(3.5)设定阈值t_{_}，对评估数据矩阵以及对应的推荐矩阵X1recomd进行0-1化处理，计算敏感度，特异度指标，选出稳定的大众化整体最优标签池TagPool；

步骤4:组合形成推荐结果，其步骤如下：

(4.1)原有用户根据ID从推荐矩阵Xrecomd中按推荐系数选择最大的6个标签，加入大众化整体最优标签池TagPool中的标签形成用户自身的标签池，整体最优标签池中的大众化标签，综合考虑了敏感度和特异度指标，且特异度优先；

(4.2)对于原有用户，根据自身的数字化基本信息综合形成5个推荐标签；

(4.3)新用户则根据自身的数字化基本信息从最优标签池TagPool中综合形成5个推荐标签；

(4.4)考虑标签的时效性，得到具体的推荐内容。

进一步，步骤1中数据选择过程包括：

(1.1)对残缺、错误数据，将其值置为空；

(1.2)对重复数据进行删除；

(1.3)对格式不标准数据，通过数值编码方式统一处理为数值格式。

进一步，步骤(3.1)及(3.4)中，分割数据之前对数据矩阵按列做归一化处理。

进一步，步骤(3.2)中，在对比各种推荐算法的基础上，选取了基于物品的协同过滤算法的基础上做了改进。

根据权利要求1所述的一种大数据架构下的医学领域自媒体平台数据推送方法，其特征在于：步骤(4.2)中，用户的数字化信息包括用户的专业、职称以及职务相关信息。

进一步，步骤(4.1)中，每个标签代表一类文献，推荐原则依据文献的时效性。

进一步，(4.1)中提到的敏感度和特异度所述如下：

TP：正实例预测为正类数目；

FN：正实例预测为负类数目；

FP：负实例预测为正类的数目；

TN：负实例预测为负类的数目；

敏感度(sensitivity)：正类中正确预测为正类的实例比例，即TP/(TP+FN)

特异度(specificity)：负类中被正确预测为负类的实例比例，即TN/(TN+FP)。

进一步，整个推荐流程基于Hadoop分布式文件管理和Spark内存计算实现。本发明所提供的一种大数据架构下的医学领域自媒体平台数据推送方法，具有以下优点：

本发明使用与医学领域自媒体平台医生阅读文献数据进行系统的分析、建模，并给出模型评价方法，通过该模型能够基于医学领域自媒体平台上医生阅读文献数据有效的系统推荐，有助于增加系统工作效率，节省用户筛选信息的时间。

附图说明

图1为本发明一种大数据架构下的医学领域自媒体平台数据推送方法的工作流示意图。

图2为本发明构建评估数据矩阵流程图。

图3为本发明改进的基于物品的协同过滤推荐算法流程图。

图4为本发明敏感度，特异度评价指标形成稳定的最优标签池TagPool示意图。图5为本发明推荐结果组成工作流示意图。

图6为本发明技术架构图。

图7为本发明数据流图。

具体实施方式

下面结合附图及本发明的实施例对本发明的一种大数据架构下的医学领域自媒体平台数据推送方法作进一步详细的说明。

本发明主要从医学领域自媒体平台上收集到的医生用户数据进行建模，使用SDK采集的日志数据中蕴含的用户行为信息对用户阅读行为进行预测，并将预测结果进行概率化描述。该发明包括针对医学领域自媒体平台上医生阅读文献数据进行数据处理流程和进行推荐建模、行为预测、分析、概率化等重要方法和结果。该发明结合了专业医疗自媒体数据和数据挖掘方法，是专业医疗自媒体数据与大数据分析方法结合的一种创新，该发明在一定程度上填补了专业医学自媒体数据国内研究的空白，在利用专业自媒体数据进行推荐预测分析方面具有创新性。

该发明使用医疗数据来源于某医学领域自媒体平台数据库中收集的医生相关数据，数据中主要信息包括医生基本信息和医生阅读记录信息。如图1所示，基于医学领域自媒体平台医生阅读文献数据的推荐预测方法具体步骤如下：

1.数据选择与转化

原始数据集为dataset1，形式为(userid，month，tag，value)，数据缺失严重，tag为0的数据被从数据集中移出，然后将数据展开成(userid，month，tag1,…,tagN),此时数据集组成建模数据矩阵。

2.构建评估数据矩阵

对于建模数据矩阵，进行迭代行，列过滤，根据设定阈值循环过滤掉不满足条件的行和列，此时数据集为评估数据矩阵，步骤见图2。

3.推荐模型构建与评价

1)依据阅读记录中的时间字段，将建模数据矩阵分割为训练集Xtrain、测试集Xtest,测试集为当月数据，训练集包含当月之前三个月的数据；

2)使用改进的基于物品的协同过滤推荐算法在训练集上建模(见图3)；

3)根据推荐模型按列对当月数据进行循环迭代推荐预测，得到所有用户所有标签的推荐矩阵Xrecomd；

4)类似(3.1)～(3.3)步骤，对评估数据矩阵进行相同的处理，得到推荐矩阵X1recomd；

5)设定阈值t_control，对评估数据矩阵以及对应的推荐矩阵X1recomd进行0-1化处理，计算敏感度，特异度指标，选出稳定的最优标签池TagPool(见图4)。

4.推荐结果组成，其步骤如下(见图5)：

1)原有用户根据ID从推荐矩阵Xrecomd中按推荐系数选择最大的6个标签，加入最优标签池TagPool中的标签形成用户自身的标签池，整体最优标签池中的大众化标签，综合考虑了敏感度和特异度指标，且特异度优先；

2)根据原有用户自身的数字化的基本信息综合形成5个推荐标签；

3)新用户则根据自身的数字化基本信息从最优标签池TagPool中综合形成5个推荐标签。

4)考虑标签的时效性，得到具体的推荐内容。

实施例1：

为了验证本发明的一种基于掌上医讯医生阅读文献数据的推荐方法的有效性，本实施例选取时间范围为2016.4-2016.7掌上医讯。

1、数据选择与转化：

原始数据统计如下：

表1

根据本发明采用数据集具有形式为：每行表示为一条阅读记录，各列分别表示用户标号，时间，阅读文章标签，次数，数据集格式如表格1。

表2

从2442355条SDK行为数据，通过记录有效性验证，得到91214*4条记录，再通过数据选择与转化，最终标签数目从200个减少为83个，活跃用户为13815个，最终得到13815*83建模数据矩阵。每个月数据量统计结果如下表3：

表3

数据转换后得到的建模矩阵格式如表格4。

表4

表4中，从第四列到最后一列表示-1到4304总计83个标签的阅读记录数。

2.构建评估数据矩阵

对于如表4所示的建模数据矩阵，经过2次迭代行，列过滤，设定有效记录阈值为每个用户至少阅读2个标签，且有效标签阈值为每个标签至少有1％的用户阅读，循环过滤掉不满足条件的行和列，最终得到维数为13796*66的评估数据矩阵，格式同表4。

3.推荐模型构建与评价

根据用户ID从推荐矩阵Xrecomd中按推荐系数选择最大的6个标签，构成如下推荐表格5：

表5

设定阈值t_control＝0.02，对评估数据矩阵以及对应的推荐矩阵X1recomd进行0-1化处理，选取敏感度指标为0.8，特异度指标为0.9，选出稳定的最优标签池TagPool，如表6:

表6

结合两者，形成用户userid为10014的标签池TagPool为：39，1101，1104，601，742，3906，61，43，14，4301，4302，3906。

4.推荐结果组成

根据用户userid为10014的标签池，考虑到用户自身的数字化特性，用户为肿瘤科医生，且准备参加硕士研究生考试，以及标签的时效性，最终形成推荐标签为：1101，1104，601，4301，4302，对应于肿瘤内科，肿瘤外科，热点，政策，考研。

附注：关于分类问题一些指标解释，对于二分类问题，定义两个类别分别为正类和负类，正类中的每一个对象称为正实例，负类中的每一个对象称为负实例。通常，在预测川崎病时，川崎病样本为正类，普通发烧患者为负类。使用分类模型对测试样本进行预测，会有四种情况，如果一个实例是正类并被预测为真正类(True positive，TP)，如果实例是负类被预测为正类，称之为假正类(False postive,FP)。相应的，相应地，如果实例是负类被预测成负类，称之为真负类(True negative,TN),正实例被预测成负类则为假负类(falsenegative,FN)。

TP：正实例预测为正类数目；

FN：正实例预测为负类数目；

FP：负实例预测为正类的数目；

TN：负实例预测为负类的数目；

敏感性(sensitivity)：正类中正确预测为正类的实例比例，即TP/(TP+FN)特异性(specificity)：负类中被正确预测为负类的实例比例，即TN/(TN+FP)

阳性预测值(Positive Predictive Value,PPV)：预测为正类的实例中，正实例占的比例，即TP/(TP+FP)。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所作的均等变化与修饰，皆应属本发明专利的涵盖范围。

Claims

1.一种大数据架构下的医学领域自媒体平台数据推送方法，其特征在于：其包括以下步骤：

步骤3:推荐模型构建与评价，其步骤如下：

(3.5)设定阈值t_control，对评估数据矩阵以及对应的推荐矩阵X1recomd进行0-1化处理，计算敏感度，特异度指标，选出稳定的大众化整体最优标签池TagPool；

步骤4:组合形成推荐结果，其步骤如下：

(4.4)考虑标签的时效性，得到具体的推荐内容；

上述(4.2)中，数字化基本信息包括用户的专业、职称以及职务相关信息；

上述(4.1)中，每个标签代表一类文献，推荐原则依据文献的时效性；

上述(4.1)中提到的敏感度和特异度所述如下：

TP：正实例预测为正类数目；

FN：正实例预测为负类数目；

FP：负实例预测为正类的数目；

TN：负实例预测为负类的数目；

敏感度(sensitivity)：正类中正确预测为正类的实例比例，即TP/(TP+FN)；特异度(specificity)：负类中被正确预测为负类的实例比例，即TN/(TN+FP)。

2.根据权利要求1所述的一种大数据架构下的医学领域自媒体平台数据推送方法，其特征在于：步骤1中数据选择过程包括：

(1.1)对残缺、错误数据，将其值置为空；

(1.2)对重复数据进行删除；

3.根据权利要求1所述的一种大数据架构下的医学领域自媒体平台数据推送方法，其特征在于：步骤(3.1)和(3.4)中，分割数据之前对数据矩阵按列做归一化处理。

4.根据权利要求1所述的一种大数据架构下的医学领域自媒体平台数据推送方法，其特征在于：步骤(3.2)中，在对比各种推荐算法的基础上，选取了基于物品的协同过滤算法的基础上做了改进。