CN107423320B - 一种大数据架构下的医学领域自媒体平台数据推送方法 - Google Patents
一种大数据架构下的医学领域自媒体平台数据推送方法 Download PDFInfo
- Publication number
- CN107423320B CN107423320B CN201710200819.6A CN201710200819A CN107423320B CN 107423320 B CN107423320 B CN 107423320B CN 201710200819 A CN201710200819 A CN 201710200819A CN 107423320 B CN107423320 B CN 107423320B
- Authority
- CN
- China
- Prior art keywords
- data
- recommendation
- matrix
- medical field
- media platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 47
- 238000011156 evaluation Methods 0.000 claims abstract description 26
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 4
- 230000035945 sensitivity Effects 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 7
- 230000006872 improvement Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000009897 systematic effect Effects 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 208000011200 Kawasaki disease Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000001725 mucocutaneous lymph node syndrome Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提供一种大数据架构下的医学领域自媒体平台数据推送方法,其包括以下步骤:步骤1:数据选择与转化;从用户行为日志信息中抽取有效数据,转化为建模数据矩阵;步骤2:构建评估数据矩阵;从建模数据矩阵筛选出符合评估推荐模型健壮性的评估数据矩阵;步骤3:推荐模型构建与评价;步骤4:组合形成推荐结果。本发明将医学领域自媒体平台相关数据进行系统的分析、建模,并给出模型预测的评价方法,通过该模型能够基于医学领域自媒体平台数据,对医生阅读进行有效的推荐,使医生在登录平台时实时获取相关文献,为达到最佳阅读选择提供依据。
Description
技术领域
本发明涉及大数据应用技术领域,具体地说,涉及一种大数据架构下的医学领域自媒体平台数据推送方法。
背景技术
医学领域自媒体平台作为一种为医生服务的新型自媒体,目标是给注册医生用户提供最新的专业领域资讯,同时也给医生用户提供相互交流学习的平台,因此不但内容庞杂,而且信息量也比较大,如何更好的组织内容,对医生用户形成更好的黏性,是急需解决的实际问题。
精确了解医生的需求,同时引导医生的行为和媒体自身的目标更好的契合,是医学领域自媒体平台努力的方向。推荐算法发展到今天,可以分类为大众行为的推荐和个性化推荐。目前平台推荐系统首先对用户点击阅读内容进行统计和推荐建模,然后有计划的安排一些线上线下活动,最后根据统计结果和活动内容进行大众化推荐和个性化推荐相结合的混合推荐。
目前基于统计的推荐模型简单,结果容易掌控,但是内容相对滞后,不能有效利用平台产生的大量医生行为数据,提高模型性能和准确度。
发明内容
为解决以上问题,本发明提供的一种基于医学领域自媒体平台医生阅读文献数据的推荐方法。本专利采用大众行为推荐的模式并结合个性化推荐中的协同过滤算法,在数据处理和算法运用方面做了大量的改进,将其在Hadoop+Spark架构实施,达到了更好为平台服务的目的,其具体的技术方案如下:
一种大数据架构下的医学领域自媒体平台数据推送方法,其包括以下步骤:
步骤1:数据选择与转化;从用户行为日志信息中抽取可供建模的有效数据,并将这种流式数据转化为用户、时间、标签集合为列展开的建模数据矩阵;
步骤2:构建评估数据矩阵;为了降低数据矩阵的稀疏性,从建模数据矩阵筛选出符合评估推荐模型健壮性的评估数据矩阵;
(2.1)行过滤数据,即统计某用户某月阅读标签的个数,根据设定的阈值决定是否过滤掉某行数据;
(2.2)列过滤数据,即统计某标签阅读次数,根据设定的阈值决定是否过滤掉某列数据;
步骤3:推荐模型构建与评价,其步骤如下:
(3.1)依据阅读记录中的时间字段,将建模数据矩阵分割为训练集Xtrain、测试集Xtest,测试集为当月数据,训练集包含当月之前三个月的数据;
(3.2)使用改进基于物品的协同过滤推荐算法在训练集上建模;
(3.3)根据推荐模型按列对当月数据进行循环迭代推荐预测,得到所有用户所有标签的推荐矩阵Xrecomd;
(3.4)类似(3.1)~(3.3)步骤,对评估数据矩阵进行相同的处理,得到推荐矩阵X1recomd;
(3.5)设定阈值t_,对评估数据矩阵以及对应的推荐矩阵X1recomd进行0-1化处理,计算敏感度,特异度指标,选出稳定的大众化整体最优标签池TagPool;
步骤4:组合形成推荐结果,其步骤如下:
(4.1)原有用户根据ID从推荐矩阵Xrecomd中按推荐系数选择最大的6个标签,加入大众化整体最优标签池TagPool中的标签形成用户自身的标签池,整体最优标签池中的大众化标签,综合考虑了敏感度和特异度指标,且特异度优先;
(4.2)对于原有用户,根据自身的数字化基本信息综合形成5个推荐标签;
(4.3)新用户则根据自身的数字化基本信息从最优标签池TagPool中综合形成5个推荐标签;
(4.4)考虑标签的时效性,得到具体的推荐内容。
进一步,步骤1中数据选择过程包括:
(1.1)对残缺、错误数据,将其值置为空;
(1.2)对重复数据进行删除;
(1.3)对格式不标准数据,通过数值编码方式统一处理为数值格式。
进一步,步骤(3.1)及(3.4)中,分割数据之前对数据矩阵按列做归一化处理。
进一步,步骤(3.2)中,在对比各种推荐算法的基础上,选取了基于物品的协同过滤算法的基础上做了改进。
根据权利要求1所述的一种大数据架构下的医学领域自媒体平台数据推送方法,其特征在于:步骤(4.2)中,用户的数字化信息包括用户的专业、职称以及职务相关信息。
进一步,步骤(4.1)中,每个标签代表一类文献,推荐原则依据文献的时效性。
进一步,(4.1)中提到的敏感度和特异度所述如下:
TP:正实例预测为正类数目;
FN:正实例预测为负类数目;
FP:负实例预测为正类的数目;
TN:负实例预测为负类的数目;
敏感度(sensitivity):正类中正确预测为正类的实例比例,即TP/(TP+FN)
特异度(specificity):负类中被正确预测为负类的实例比例,即TN/(TN+FP)。
进一步,整个推荐流程基于Hadoop分布式文件管理和Spark内存计算实现。本发明所提供的一种大数据架构下的医学领域自媒体平台数据推送方法,具有以下优点:
本发明使用与医学领域自媒体平台医生阅读文献数据进行系统的分析、建模,并给出模型评价方法,通过该模型能够基于医学领域自媒体平台上医生阅读文献数据有效的系统推荐,有助于增加系统工作效率,节省用户筛选信息的时间。
附图说明
图1为本发明一种大数据架构下的医学领域自媒体平台数据推送方法的工作流示意图。
图2为本发明构建评估数据矩阵流程图。
图3为本发明改进的基于物品的协同过滤推荐算法流程图。
图4为本发明敏感度,特异度评价指标形成稳定的最优标签池TagPool示意图。图5为本发明推荐结果组成工作流示意图。
图6为本发明技术架构图。
图7为本发明数据流图。
具体实施方式
下面结合附图及本发明的实施例对本发明的一种大数据架构下的医学领域自媒体平台数据推送方法作进一步详细的说明。
本发明主要从医学领域自媒体平台上收集到的医生用户数据进行建模,使用SDK采集的日志数据中蕴含的用户行为信息对用户阅读行为进行预测,并将预测结果进行概率化描述。该发明包括针对医学领域自媒体平台上医生阅读文献数据进行数据处理流程和进行推荐建模、行为预测、分析、概率化等重要方法和结果。该发明结合了专业医疗自媒体数据和数据挖掘方法,是专业医疗自媒体数据与大数据分析方法结合的一种创新,该发明在一定程度上填补了专业医学自媒体数据国内研究的空白,在利用专业自媒体数据进行推荐预测分析方面具有创新性。
该发明使用医疗数据来源于某医学领域自媒体平台数据库中收集的医生相关数据,数据中主要信息包括医生基本信息和医生阅读记录信息。如图1所示,基于医学领域自媒体平台医生阅读文献数据的推荐预测方法具体步骤如下:
1.数据选择与转化
原始数据集为dataset1,形式为(userid,month,tag,value),数据缺失严重,tag为0的数据被从数据集中移出,然后将数据展开成(userid,month,tag1,…,tagN),此时数据集组成建模数据矩阵。
2.构建评估数据矩阵
对于建模数据矩阵,进行迭代行,列过滤,根据设定阈值循环过滤掉不满足条件的行和列,此时数据集为评估数据矩阵,步骤见图2。
3.推荐模型构建与评价
1)依据阅读记录中的时间字段,将建模数据矩阵分割为训练集Xtrain、测试集Xtest,测试集为当月数据,训练集包含当月之前三个月的数据;
2)使用改进的基于物品的协同过滤推荐算法在训练集上建模(见图3);
3)根据推荐模型按列对当月数据进行循环迭代推荐预测,得到所有用户所有标签的推荐矩阵Xrecomd;
4)类似(3.1)~(3.3)步骤,对评估数据矩阵进行相同的处理,得到推荐矩阵X1recomd;
5)设定阈值tcontrol,对评估数据矩阵以及对应的推荐矩阵X1recomd进行0-1化处理,计算敏感度,特异度指标,选出稳定的最优标签池TagPool(见图4)。
4.推荐结果组成,其步骤如下(见图5):
1)原有用户根据ID从推荐矩阵Xrecomd中按推荐系数选择最大的6个标签,加入最优标签池TagPool中的标签形成用户自身的标签池,整体最优标签池中的大众化标签,综合考虑了敏感度和特异度指标,且特异度优先;
2)根据原有用户自身的数字化的基本信息综合形成5个推荐标签;
3)新用户则根据自身的数字化基本信息从最优标签池TagPool中综合形成5个推荐标签。
4)考虑标签的时效性,得到具体的推荐内容。
实施例1:
为了验证本发明的一种基于掌上医讯医生阅读文献数据的推荐方法的有效性,本实施例选取时间范围为2016.4-2016.7掌上医讯。
1、数据选择与转化:
原始数据统计如下:
表1
根据本发明采用数据集具有形式为:每行表示为一条阅读记录,各列分别表示用户标号,时间,阅读文章标签,次数,数据集格式如表格1。
表2
从2442355条SDK行为数据,通过记录有效性验证,得到91214*4条记录,再通过数据选择与转化,最终标签数目从200个减少为83个,活跃用户为13815个,最终得到13815*83建模数据矩阵。每个月数据量统计结果如下表3:
表3
数据转换后得到的建模矩阵格式如表格4。
表4
表4中,从第四列到最后一列表示-1到4304总计83个标签的阅读记录数。
2.构建评估数据矩阵
对于如表4所示的建模数据矩阵,经过2次迭代行,列过滤,设定有效记录阈值为每个用户至少阅读2个标签,且有效标签阈值为每个标签至少有1%的用户阅读,循环过滤掉不满足条件的行和列,最终得到维数为13796*66的评估数据矩阵,格式同表4。
3.推荐模型构建与评价
根据用户ID从推荐矩阵Xrecomd中按推荐系数选择最大的6个标签,构成如下推荐表格5:
表5
设定阈值tcontrol=0.02,对评估数据矩阵以及对应的推荐矩阵X1recomd进行0-1化处理,选取敏感度指标为0.8,特异度指标为0.9,选出稳定的最优标签池TagPool,如表6:
表6
结合两者,形成用户userid为10014的标签池TagPool为:39,1101,1104,601,742,3906,61,43,14,4301,4302,3906。
4.推荐结果组成
根据用户userid为10014的标签池,考虑到用户自身的数字化特性,用户为肿瘤科医生,且准备参加硕士研究生考试,以及标签的时效性,最终形成推荐标签为:1101,1104,601,4301,4302,对应于肿瘤内科,肿瘤外科,热点,政策,考研。
附注:关于分类问题一些指标解释,对于二分类问题,定义两个类别分别为正类和负类,正类中的每一个对象称为正实例,负类中的每一个对象称为负实例。通常,在预测川崎病时,川崎病样本为正类,普通发烧患者为负类。使用分类模型对测试样本进行预测,会有四种情况,如果一个实例是正类并被预测为真正类(True positive,TP),如果实例是负类被预测为正类,称之为假正类(False postive,FP)。相应的,相应地,如果实例是负类被预测成负类,称之为真负类(True negative,TN),正实例被预测成负类则为假负类(falsenegative,FN)。
TP:正实例预测为正类数目;
FN:正实例预测为负类数目;
FP:负实例预测为正类的数目;
TN:负实例预测为负类的数目;
敏感性(sensitivity):正类中正确预测为正类的实例比例,即TP/(TP+FN)特异性(specificity):负类中被正确预测为负类的实例比例,即TN/(TN+FP)
阳性预测值(Positive Predictive Value,PPV):预测为正类的实例中,正实例占的比例,即TP/(TP+FP)。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。
Claims (4)
1.一种大数据架构下的医学领域自媒体平台数据推送方法,其特征在于:其包括以下步骤:
步骤1:数据选择与转化;从用户行为日志信息中抽取可供建模的有效数据,并将这种流式数据转化为用户、时间、标签集合为列展开的建模数据矩阵;
步骤2:构建评估数据矩阵;为了降低数据矩阵的稀疏性,从建模数据矩阵筛选出符合评估推荐模型健壮性的评估数据矩阵;
(2.1)行过滤数据,即统计某用户某月阅读标签的个数,根据设定的阈值决定是否过滤掉某行数据;
(2.2)列过滤数据,即统计某标签阅读次数,根据设定的阈值决定是否过滤掉某列数据;
步骤3:推荐模型构建与评价,其步骤如下:
(3.1)依据阅读记录中的时间字段,将建模数据矩阵分割为训练集Xtrain、测试集Xtest,测试集为当月数据,训练集包含当月之前三个月的数据;
(3.2)使用改进基于物品的协同过滤推荐算法在训练集上建模;
(3.3)根据推荐模型按列对当月数据进行循环迭代推荐预测,得到所有用户所有标签的推荐矩阵Xrecomd;
(3.4)类似(3.1)~(3.3)步骤,对评估数据矩阵进行相同的处理,得到推荐矩阵X1recomd;
(3.5)设定阈值tcontrol,对评估数据矩阵以及对应的推荐矩阵X1recomd进行0-1化处理,计算敏感度,特异度指标,选出稳定的大众化整体最优标签池TagPool;
步骤4:组合形成推荐结果,其步骤如下:
(4.1)原有用户根据ID从推荐矩阵Xrecomd中按推荐系数选择最大的6个标签,加入大众化整体最优标签池TagPool中的标签形成用户自身的标签池,整体最优标签池中的大众化标签,综合考虑了敏感度和特异度指标,且特异度优先;
(4.2)对于原有用户,根据自身的数字化基本信息综合形成5个推荐标签;
(4.3)新用户则根据自身的数字化基本信息从最优标签池TagPool中综合形成5个推荐标签;
(4.4)考虑标签的时效性,得到具体的推荐内容;
上述(4.2)中,数字化基本信息包括用户的专业、职称以及职务相关信息;
上述(4.1)中,每个标签代表一类文献,推荐原则依据文献的时效性;
上述(4.1)中提到的敏感度和特异度所述如下:
TP:正实例预测为正类数目;
FN:正实例预测为负类数目;
FP:负实例预测为正类的数目;
TN:负实例预测为负类的数目;
敏感度(sensitivity):正类中正确预测为正类的实例比例,即TP/(TP+FN);特异度(specificity):负类中被正确预测为负类的实例比例,即TN/(TN+FP)。
2.根据权利要求1所述的一种大数据架构下的医学领域自媒体平台数据推送方法,其特征在于:步骤1中数据选择过程包括:
(1.1)对残缺、错误数据,将其值置为空;
(1.2)对重复数据进行删除;
(1.3)对格式不标准数据,通过数值编码方式统一处理为数值格式。
3.根据权利要求1所述的一种大数据架构下的医学领域自媒体平台数据推送方法,其特征在于:步骤(3.1)和(3.4)中,分割数据之前对数据矩阵按列做归一化处理。
4.根据权利要求1所述的一种大数据架构下的医学领域自媒体平台数据推送方法,其特征在于:步骤(3.2)中,在对比各种推荐算法的基础上,选取了基于物品的协同过滤算法的基础上做了改进。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710200819.6A CN107423320B (zh) | 2017-03-30 | 2017-03-30 | 一种大数据架构下的医学领域自媒体平台数据推送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710200819.6A CN107423320B (zh) | 2017-03-30 | 2017-03-30 | 一种大数据架构下的医学领域自媒体平台数据推送方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107423320A CN107423320A (zh) | 2017-12-01 |
CN107423320B true CN107423320B (zh) | 2023-06-09 |
Family
ID=60423114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710200819.6A Active CN107423320B (zh) | 2017-03-30 | 2017-03-30 | 一种大数据架构下的医学领域自媒体平台数据推送方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423320B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395261A (zh) * | 2019-08-16 | 2021-02-23 | 中国移动通信集团浙江有限公司 | 业务推荐方法、装置、计算设备及计算机存储介质 |
CN110457586A (zh) * | 2019-08-16 | 2019-11-15 | 苏州大学 | 基于自媒体平台的用户偏好智能提取方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853470A (zh) * | 2010-05-28 | 2010-10-06 | 浙江大学 | 一种基于社会化标签的协同过滤方法 |
CN103399858A (zh) * | 2013-07-01 | 2013-11-20 | 吉林大学 | 基于信任的社会化协同过滤推荐方法 |
CN103678618A (zh) * | 2013-12-17 | 2014-03-26 | 南京大学 | 一种基于社交网络平台的Web服务推荐方法 |
CN105205130A (zh) * | 2015-09-15 | 2015-12-30 | 广东工业大学 | 一种提升推荐系统准确性的方法 |
CN105808786A (zh) * | 2016-04-05 | 2016-07-27 | 电子科技大学 | 一种基于内容互信的协同主题回归标签推荐方法 |
CN106056427A (zh) * | 2016-05-25 | 2016-10-26 | 中南大学 | 一种基于Spark的大数据混合模型的移动推荐方法 |
CN106250545A (zh) * | 2016-08-10 | 2016-12-21 | Tcl集团股份有限公司 | 一种基于用户搜索内容的多媒体推荐方法及系统 |
CN106339593A (zh) * | 2016-08-31 | 2017-01-18 | 青岛睿帮信息技术有限公司 | 基于医疗数据建模的川崎病分类预测方法 |
-
2017
- 2017-03-30 CN CN201710200819.6A patent/CN107423320B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853470A (zh) * | 2010-05-28 | 2010-10-06 | 浙江大学 | 一种基于社会化标签的协同过滤方法 |
CN103399858A (zh) * | 2013-07-01 | 2013-11-20 | 吉林大学 | 基于信任的社会化协同过滤推荐方法 |
CN103678618A (zh) * | 2013-12-17 | 2014-03-26 | 南京大学 | 一种基于社交网络平台的Web服务推荐方法 |
CN105205130A (zh) * | 2015-09-15 | 2015-12-30 | 广东工业大学 | 一种提升推荐系统准确性的方法 |
CN105808786A (zh) * | 2016-04-05 | 2016-07-27 | 电子科技大学 | 一种基于内容互信的协同主题回归标签推荐方法 |
CN106056427A (zh) * | 2016-05-25 | 2016-10-26 | 中南大学 | 一种基于Spark的大数据混合模型的移动推荐方法 |
CN106250545A (zh) * | 2016-08-10 | 2016-12-21 | Tcl集团股份有限公司 | 一种基于用户搜索内容的多媒体推荐方法及系统 |
CN106339593A (zh) * | 2016-08-31 | 2017-01-18 | 青岛睿帮信息技术有限公司 | 基于医疗数据建模的川崎病分类预测方法 |
Non-Patent Citations (5)
Title |
---|
B Veloso.A multi-agent brokerage platform for media content recommendation.《AMCS》.2015,全文. * |
余勇.面向微搏用户的标签及好友推荐算法研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2016,全文. * |
榻良.基于主题模型的企业微博推荐方法研究与实现.《中国优秀硕士学位论文全文数据库信息科技辑》.2016,全文. * |
程高伟.基于标签的学习资源推荐系统.《中国优秀硕士学位论文全文数据库信息科技辑》.2016,全文. * |
苏本昌.基于滑标评分的推荐系统模型及算法研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2015,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN107423320A (zh) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Verenich et al. | Survey and cross-benchmark comparison of remaining time prediction methods in business process monitoring | |
Sivarajah et al. | Critical analysis of Big Data challenges and analytical methods | |
US20200050968A1 (en) | Interactive interfaces for machine learning model evaluations | |
Templ et al. | Statistical disclosure control for micro-data using the R package sdcMicro | |
CN113157448B (zh) | 用于管理特征处理的系统和方法 | |
CN106663038B (zh) | 用于机器学习的特征处理配方 | |
Chapman et al. | Capturing and querying fine-grained provenance of preprocessing pipelines in data science | |
CN112396108A (zh) | 业务数据评估方法、装置、设备及计算机可读存储介质 | |
Nowok et al. | Providing bespoke synthetic data for the UK Longitudinal Studies and other sensitive data with the synthpop package for R 1 | |
CN109409561B (zh) | 多时间尺度时间序列协同预测模型的构建方法 | |
CN110544035A (zh) | 一种内控检测方法、系统和计算机可读存储介质 | |
CN107423320B (zh) | 一种大数据架构下的医学领域自媒体平台数据推送方法 | |
Bommarito II et al. | Measuring and modeling the US regulatory ecosystem | |
Olawoyin et al. | Big data management for machine learning from big data | |
Scherzinger et al. | The best of both worlds: Challenges in linking provenance and explainability in distributed machine learning | |
Chakhchoukh et al. | Understanding how in-visualization provenance can support trade-off analysis | |
Wu et al. | Event evolution model based on random walk model with hot topic extraction | |
Olszak et al. | Big Data Approach to Analyzing the IT Job Market | |
CN114023407A (zh) | 一种健康档案缺失值补全方法、系统以及存储介质 | |
Doraikannan et al. | Principal component analysis for dimensionality reduction for animal classification based on LR | |
Kushwaha et al. | Inclusion of semantic and time-variant information using matrix factorization approach for implicit rating of last. fm dataset | |
Yang et al. | Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies | |
Mead et al. | Proposing a Broader Scope of Predictive Features for Modeling Refugee Counts | |
CN117951457B (zh) | 基于生物炭的负碳产品碳减排量核算方法及系统 | |
Li et al. | The model design of medical data life cycle based on big data platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |