CN106779181A - 一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法 - Google Patents
一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法 Download PDFInfo
- Publication number
- CN106779181A CN106779181A CN201611073910.8A CN201611073910A CN106779181A CN 106779181 A CN106779181 A CN 106779181A CN 201611073910 A CN201611073910 A CN 201611073910A CN 106779181 A CN106779181 A CN 106779181A
- Authority
- CN
- China
- Prior art keywords
- represent
- doctor
- medical
- round
- medical institutions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012417 linear regression Methods 0.000 title claims abstract description 34
- 238000004364 calculation method Methods 0.000 claims abstract description 51
- 230000004913 activation Effects 0.000 claims abstract description 4
- 238000009412 basement excavation Methods 0.000 claims abstract 2
- 230000017105 transposition Effects 0.000 claims description 30
- 238000003745 diagnosis Methods 0.000 claims description 21
- 230000001413 cellular effect Effects 0.000 claims description 9
- 235000019580 granularity Nutrition 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 6
- 201000010099 disease Diseases 0.000 claims description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 4
- 230000001225 therapeutic effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000003455 independent Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Child & Adolescent Psychology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法,该方法依据线性回归张量因子对医疗机构—居住区就诊量矩阵进行处理,得到医疗机构推荐目标模型;进而采用隐性特征模型对多元异构的推荐用原始数据进行活化数据挖掘,得到隐性特征矩阵;最后通过迭代计算医疗机构—居住区就诊量矩阵是否达到收敛,若收敛,则采用推荐标准误差模型进行计算修正后的医疗机构—居住区就诊量矩阵,从而将推荐结果提供给用户。本发明应用在推荐系统中有效提高了对医疗机构的推荐准确度,从而提高医疗机构互联网数据对于智慧城市的建设的利用价值,解决残缺数据对大部分智慧城市的智能化建设的影响。
Description
技术领域
本发明涉及医疗机构技术领域,更特别地说,是指一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法。
背景技术
数据活化之非负矩阵分解(Non-negative Matrix Factorization,NMF)由D.Lee等在1999年正式提出的(即Lee D D,Seung H S.Learning the parts of objects bynon-negativ matrix factorization[J].Nature,1999,401(6755):788-91.),经过了十余年的发展,现在已经成为了相对完善的数据分析方法。并且,NMF方法还在图像分析、文本聚类、数据挖掘、语音处理等方面得到了广泛的应用。由于NMF方法具有快速和有效等特性,在模式识别领域中被广泛用于特征提取与数据降维。在图像处理方向,NMF方法被用于研究机器人对外界感知这一课题。因为非负性约束的存在,分解结果中有大量的元素为零,故这种表示方法属于稀疏编码,具有节省存储空间的特点。
线性回归是一种回归分析方法,这种分析利用线性回归方程的最小平方函数,对一个或多个自变量与一个因变量之间的关系进行建模。线性回归方法基于数理统计中的回归分析,是广泛应用的一种用来确定两个或两个以上变量之间关系的统计方法之一。在实际应用中,只有一个自变量的线性回归为一元线性回归,而有多个自变量的线性回归为多元线性回归。
医疗机构,是指依法定程序设立的从事疾病诊断、治疗活动的卫生机构的总称。对于医疗机构在进行注册或审批时,在审批部门将留下名称、地址、网址、服务特长等相关信息的数据。或者经地理位置信息软件(如百度地图、谷歌地图)分析获得医疗机构的地理信息。
面对互联网上的海量信息,普通用户往往无所适从。为了满足用户的信息需求,计算机科学家发明了两项意义深远的技术:一是搜索技术,它帮助计算机系统被动地应答用户的查询,将与之最相关、最重要的信息返回给用户;二是推荐系统技术,它根据用户的兴趣、行为、情景等信息,把用户最可能感兴趣的内容主动推送给用户。近年来,推荐系统技术得到了长足的发展,不但成为学术研究的热点之一,而且在电子商务、在线广告、社交网络等重要的互联网应用中大显身手。推荐系统(Recommender System,RS)是为用户推荐所需物品的软件工具的技术。
发明内容
为了解决医疗机构在推荐系统的互联网应用中出现的推荐准确度差的问题,本发明提出了一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法。本发明方法是通过解决具有多源异构性和极高稀疏性的数据的预测技术难点,同时优化算法改善多系数调参难以达到全局最优的困难,使模型获得更优解,提高了数据预测的准确性。本发明应用在推荐系统中有效提高了对医疗机构的推荐准确度,从而提高医疗机构互联网数据对于智慧城市的建设的利用价值,解决残缺数据对大部分智慧城市的智能化建设的影响。
本发明提出的一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法,包括有下列步骤:
步骤A:初始化医疗机构推荐系统,并从GPS地理信息模块、医疗机构信息模块、病患就诊信息模块和手机基站信息模块中获取推荐用原始数据;
步骤B:应用步骤A获取的推荐用原始数据构建二维医疗机构—居住区就诊量矩阵;
在本发明中,医疗机构—居住区就诊量矩阵记为
步骤C:根据步骤B得到的医疗机构—居住区就诊量设计适用于时空多维度条件下,多尺度与多粒度的海量数据的线性回归张量因子;
在本发明中,线性回归张量因子记为FR=[Rr,Rs,Rt]b×a×3。
步骤D:依据步骤C的线性回归张量因子重新对步骤B的医疗机构—居住区就诊量矩阵进行处理,得到医疗机构推荐目标模型;
在本发明中,医疗机构推荐目标模型记为
步骤E:在医疗机构推荐系统中应用步骤D的医疗机构推荐目标模型,并初始化;然后采用隐性特征模型对多元异构的推荐用原始数据进行活化数据挖掘,得到隐性特征矩阵;
在本发明中,隐性特征有2个,即医疗机构的隐性特征记为
即居住区域的隐性特征记为
步骤F:通过步骤E得到的隐性特征矩阵,迭代计算医疗机构—居住区就诊量矩阵;若未达到收敛,则返回步骤E,重新计算隐性特征矩阵偏导;若收敛,则修正医疗机构—居住区就诊量矩阵;
在本发明中,以来修正步骤B构建的医疗机构-居住区域就诊量矩阵,记为Tm就诊量_重构。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
步骤G:以推荐标准误差模型对经步骤F修正后的医疗机构—居住区就诊量矩阵进行推荐标准误差的计算,若标准误差小于0.3,则将获得推荐结果提供给用户。
在本发明中,推荐标准误差模型记为
计算推荐标准误差模型RMSE就诊量_误差作为算法准确度的评判标准,如果Weight缺失中为0,则通过所述RMSE就诊量_误差来对和进行相似度衡量。
本发明医疗机构推荐方法的优点在于:
①本发明方法中应用线性回归张量因子与非负矩阵分解(即二维医疗机构—居住区就诊量矩阵)两种方法的结合,充分考虑了医疗机构互联网数据的多源异构性。
②本发明方法中用了线性回归张量因子,可以自适应训练特征系数,改善了已有医疗机构研究中由于加入多种数据因子造成因子系数繁多、调参困难、难以达到全局最优的问题,这样可以在推荐时计算出更优解推荐给用户。
③本发明利用隐性特征来对医疗机构互联网数据进行学习预测,能够解决医疗机构互联网数据的极高稀疏性(尤其非零率极高的情况,即数据大部分缺失状态),从而提高推荐医疗机构的准确度。
④本发明利用推荐标准误差模型对二维医疗机构—居住区就诊量矩阵进行修正,并用推荐标准误差值来作衡量,从而可以提高推荐的优质性。
附图说明
图1是本发明基于线性回归因子非负矩阵分解模型的医疗机构推荐方法的流程图。
图2是不同区域的医疗机构经本发明方法的标准误差对比图。
图3是不同方法的标准误差对比图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的详细说明。
参见图1所示,本发明提出了一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法,该推荐方法包括有下列处理步骤:
步骤A:初始化医疗机构推荐系统,并从GPS地理信息模块、医疗机构信息模块、病患就诊信息模块和手机基站信息模块中获取推荐用原始数据;
在本发明中,医疗机构推荐系统借助公共的互联网系统的大数据进行推荐技术处理。医疗机构推荐系统所需的推荐用原始数据是由互联网提供。为满足本发明所需的原始数据,则互联网中至少需要以下模块提供数据信息,即包括有:
GPS地理信息模块,用于提供目标的地理位置,地理位置以经度和纬度显示,即(x,y);
医疗机构信息模块,用于提供不同医疗机构的名称、医疗机构类型、患者关联信息(属于各医疗机构共享的部分患者信息,不涉及患者隐私)、治疗特色等信息;所述患者关联信息有就诊信息DI和患者就诊时间信息DT等;而就诊信息DI包括有患者的住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话等相关信息,其中,患者的住址为不可缺少项;
病患就诊信息模块,用于提供患者自愿公开的患者基础信息,如患者的住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话等相关信息;
手机基站信息模块,用于提供手机用户注册信息、用户的移动状态信息、用户登录互联网信息等。
在本发明中,为了表征医疗机构与居住区域之间的就诊量,应用了患者的就诊信息DI、患者就诊时间信息DT、以及医疗机构集DC={Doctor1,Doctor2,…,Doctorb}和居住区域集RE={re1,re2,…,ren-1,ren,ren+1,…,rea}的信息。所述患者的就诊信息DI包括有患者的家庭住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话等相关信息,其中,患者的家庭住址为不可缺少项。
步骤B:应用步骤A获取的推荐用原始数据构建二维医疗机构—居住区就诊量矩阵;
在本发明中,医疗机构—居住区就诊量矩阵记为
步骤C:根据步骤B得到的医疗机构—居住区就诊量设计适用于时空多维度条件下,多尺度与多粒度的海量数据的线性回归张量因子;
在本发明中,线性回归张量因子记为FR=[Rr,Rs,Rt]b×a×3。
步骤D:依据步骤C的线性回归张量因子重新对步骤B的医疗机构—居住区就诊量矩阵进行处理,得到医疗机构推荐目标模型;
在本发明中,医疗机构推荐目标模型记为
步骤E:在医疗机构推荐系统中应用步骤D的医疗机构推荐目标模型,并初始化;然后采用隐性特征模型对多元异构的推荐用原始数据进行活化数据挖掘,得到隐性特征矩阵;
在本发明中,隐性特征有2个,即医疗机构的隐性特征记为
即居住区域的隐性特征记为
步骤F:通过步骤E得到的隐性特征矩阵,迭代计算医疗机构—居住区就诊量矩阵;若未达到收敛,则返回步骤E,重新计算隐性特征矩阵偏导;若收敛,则修正医疗机构—居住区就诊量矩阵;
在本发明中,以来修正步骤B构建的医疗机构-居住区域就诊量矩阵,记为Tm就诊量_重构。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
表示经修正后的就诊量。
步骤G:以推荐标准误差模型对经步骤F修正后的医疗机构—居住区就诊量矩阵进行推荐标准误差的计算,若标准误差小于0.3,则将获得推荐结果提供给用户。
在本发明中,推荐标准误差模型记为
计算推荐标准误差模型RMSE就诊量_误差作为算法准确度的评判标准,如果Weight缺失中为0,则通过所述RMSE就诊量_误差来对和进行相似度衡量。
在本发明的医疗机构推荐系统中,居住区域记为re,多个居住区域形成的居住区域集记为RE={re1,re2,…,ren-1,ren,ren+1,…,rea},角标a表示居住区域的总个数,n表示居住区域的标识号。居住区域re的地理位置re(x,y)中的x为经度,y为纬度。
re1表示第一个居住区域,所述第一个居住区域re1的地理位置记为
re2表示第二个居住区域,所述第二个居住区域re2的地理位置记为
ren表示任意一个居住区域,所述任意一个居住区域ren的地理位置记为
ren-1表示与ren距离最近的一个居住区域,简称为前一个居住区域,所述前一个居住区域ren-1的地理位置记为
ren+1表示与ren距离次近的一个居住区域,简称为后一个居住区域,所述后一个居住区域ren+1的地理位置记为
rea表示最后一个居住区域,所述最后一个居住区域rea的地理位置记为
在本发明的医疗机构推荐系统中,医疗机构记为Doctor,多个医疗机构形成的医疗机构集记为DC={Doctor1,Doctor2,…,Doctorb},角标b表示医疗机构的总个数,也是医疗机构的标识号。医疗机构Doctor的地理位置Doctor(x,y)中的x为经度,y为纬度。
Doctor1表示第一个医疗机构,所述第一个医疗机构Doctor1的地理位置记为
Doctor2表示第二个医疗机构,所述第二个医疗机构Doctor2的地理位置记为
Doctorb表示最后一个医疗机构,所述最后一个医疗机构Doctorb的地理位置记为为了方便叙述,将Doctorb也称为任意一个医疗机构。
在本发明的医疗机构推荐系统中,手机用户记为Phone,多个手机用户形成的手机用户集记为PH={Phone1,Phone2,…,Phonec},角标c表示手机用户的总个数,也是手机用户的标识号。手机用户Phone所属的手机基站地理位置Phone(x,y)中的x为经度,y为纬度。
Phone1表示第一个手机用户,所述第一个手机用户Phone1所属的手机基站地理位置记为
Phone2表示第二个手机用户,所述第二个手机用户Phone2所属的手机基站地理位置记为
Phonec表示最后一个手机用户,所述最后一个手机用户Phonec所属的手机基站地理位置记为为了方便叙述,将Phonec也称为任意一个手机用户。
在本发明中,医疗机构推荐系统应用手机用户信息来表征医疗机构与居住区域之间的人流量。
本发明是一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法,包括有下列步骤:
在步骤B中的医疗机构与居住区就诊量信息的获取处理过程如下;
以地图(如地理位置)为基础的空间结构是医疗机构互联网数据的一种基本组织方式,而城市快节奏的生活方式也使得医疗机构互联网数据对于时间维度的变化非常敏感。因此,时空多维特性成为医疗机构互联网数据的另一个重要特点。在空间上,根据城市地理规模的不同,医疗机构互联网数据具有不同尺度的空间跨度。在时间上,根据产生的时间不同,医疗机构互联网数据具有时间相关的变化和分布。因此在进行医疗机构互联网数据分析和应用时,一方面需要考虑时间和空间两个维度的数据演化特性,另一方面还需要充分利用时间和空间不同维度之间的数据关联关系。
在本发明的医疗机构推荐系统中,医疗机构与居住区就诊量信息以二维矩阵形式来进行关联数据信息的收集,采用矩阵形式构建,即得到医疗机构-居住区就诊量矩阵b表示医疗机构的总个数,a表示居住区域的总个数,在本发明中,b的取值为321,a的取值为1343。
表示Doctor1跟re1之间映射的的就诊量;所述的计算关系为:判断患者在Doctor1的就诊信息的住址是否位于居住区域re1的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录。
表示去Doctor1进行就诊的患者的家庭住址。
表示Doctor1跟re2之间映射的的就诊量;所述的计算关系为:判断患者在Doctor1的就诊信息的住址是否位于居住区域re2的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录。
表示Doctor1跟rea之间映射的的就诊量;所述的计算关系为:判断患者在Doctor1的就诊信息的住址是否位于居住区域rea的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录。
表示Doctor2跟re1之间映射的的就诊量;所述的计算关系为:判断患者在Doctor2的就诊信息的住址是否位于居住区域re1的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录。
表示去Doctor2进行就诊的患者的家庭住址。
表示Doctor2跟re2之间映射的的就诊量;所述的计算关系为:判断患者在Doctor2的就诊信息的住址是否位于居住区域re2的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录。
表示Doctor2跟rea之间映射的的就诊量;所述的计算关系为:判断患者在Doctor2的就诊信息的住址是否位于居住区域rea的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录。
表示Doctorb跟re1之间映射的的就诊量;所述的计算关系为:判断患者在Doctorb的就诊信息的住址是否位于居住区域re1的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录。
表示去Doctorb进行就诊的患者的家庭住址。
表示Doctorb跟re2之间映射的的就诊量;所述的计算关系为:判断患者在Doctorb的就诊信息的住址是否位于居住区域re2的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录。
表示Doctorb跟rea之间映射的的就诊量;所述的计算关系为:判断患者在Doctorb的就诊信息的住址是否位于居住区域rea的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录。
在步骤C中的线性回归张量因子的获取处理过程如下:
研究和利用医疗机构数据除了要考虑时间和空间等多个维度之外,还需要考虑数据尺度和数据粒度对于数据特性的影响。在规模的尺度上,医疗机构可以分为专科医院、中型医院、大型医院等;在地理尺度上,对于医疗机构数据的描述可以小到几个街区或大到数千平方公里;在时间尺度上,医疗机构数据的覆盖时间可以短到一些事件的监控,长到上百年的医疗机构变迁。在地理采样粒度上,可以像遥感测绘数据一样精确到数米,也可以向气象环境数据一样以区县、地区、甚至省市为单位;在时间粒度上,更是根据数据采样设备的时钟、存储与传输能力、计算速度等因素产生不同的时间粒度。在本发明的医疗机构推荐系统中,在时空多维度的条件下,高效处理多尺度与多粒度的海量数据,采用了“线性回归张量因子”来改善海量数据多特征因子公式冗余并且计算难以达到全局最优的问题。根据步骤B中提取出来的Tm就诊量设计线性回归张量因子。
在本发明中,线性回归张量因子为FR=[Rr,Rs,Rt]b×a×3,且
所述距离因子
所述就诊量因子
所述人流量因子其中,b表示医疗机构的总个数,a表示居住区域的总个数,在本发明中,b的取值为321,a的取值为1343。r表示距离标识,s表示就诊量标识,r表示人流量标识。
表示Doctor1跟re1之间的距离,利用和进行距离的计算,计算公式为
表示Doctor1跟re2之间的距离,利用和进行距离的计算,计算公式为
表示Doctor1跟rea之间的距离,利用和进行距离的计算,计算公式为
表示Doctor2跟re1之间的距离,利用和进行距离的计算,计算公式为
表示Doctor2跟re2之间的距离,利用和进行距离的计算,计算公式为
表示Doctor2跟rea之间的距离,利用和进行距离的计算,计算公式为
表示Doctorb跟re1之间的距离,利用和进行距离的计算,计算公式为
表示Doctorb跟re2之间的距离,利用和进行距离的计算,计算公式为
表示Doctorb跟rea之间的距离,利用和进行距离的计算,计算公式为
表示Doctor1跟距离re1最近的5个居住区域之间的患者就诊量的平均值。令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域。的计算形式为为了方便说明,距离最近的五个居住区域表现形式为则
表示Doctor1跟距离re2最近的5个居住区域之间的患者就诊量的平均值。令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域。的计算形式为为了方便说明,令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,ren-1,ren,ren+1,rea为距离最近的五个居住区域。的计算形式为
表示Doctor1跟距离rea最近的5个居住区域之间的患者就诊量的平均值。令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域。的计算形式为为了方便说明,令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,re2,ren-1,ren,ren+1为距离最近的五个居住区域。的计算公式为
表示Doctor2跟距离re1最近的5个居住区域之间的患者就诊量的平均值。令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域。的计算形式为为了方便说明,令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re2,ren-1,ren,ren+1,rea为距离最近的五个居住区域。的计算公式为
表示Doctor2跟距离re2最近的5个居住区域之间的患者就诊量的平均值。令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域。的计算形式为为了方便说明,令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,ren-1,ren,ren+1,rea为距离最近的五个居住区域。的计算公式为
表示Doctor2跟距离rea最近的5个居住区域之间的患者就诊量的平均值。令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域。的计算形式为为了方便说明,令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,re2,ren-1,ren,ren+1为距离最近的五个居住区域。的计算形式为
表示Doctorb跟距离re1最近的5个居住区域之间的患者就诊量的平均值。令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域。的计算形式为为了方便说明,令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re2,ren-1,ren,ren+1,rea为距离最近的五个居住区域。的计算公式为
表示Doctorb跟距离re2最近的5个居住区域之间的患者就诊量的平均值。令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域。的计算形式为为了方便说明,令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,ren-1,ren,ren+1,rea为距离最近的五个居住区域。的计算公式为
表示Doctorb跟距离rea最近的5个居住区域之间的患者就诊量的平均值。令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域。的计算形式为为了方便说明,令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,re2,ren-1,ren,ren+1为距离最近的五个居住区域。的计算公式为
表示Doctor1跟re1之间映射的人流量;所述的计算关系为:判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在医院基站列表HL中,不是则放弃记录;同理,判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在居住区基站列表REL中,不是则放弃记录。如果Phonec同时存在于医院基站列表HL和居住区基站列表REL中则在人流量因子Rt中记录否则,放弃记录。
在本发明中,医院基站列表HL的列表形式为:
在本发明中,居住区基站列表REL的列表形式为:
表示Doctor1跟re2之间映射的人流量;所述的计算关系为:判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在医院基站列表HL中,不是则放弃记录;同理,判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在居住区基站列表REL中,不是则放弃记录。如果Phonec同时存在于医院基站列表HL和居住区基站列表REL中则在Rt中记录否则,放弃记录。
表示Doctor1跟rea之间映射的人流量;所述的计算关系为:判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在医院基站列表HL中,不是则放弃记录;同理,判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在居住区基站列表REL中,不是则放弃记录。如果Phonec同时存在于医院基站列表HL和居住区基站列表REL中则在Rt中记录否则,放弃记录。
表示Doctor2跟re1之间映射的人流量;所述的计算关系为:判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在医院基站列表HL中,不是则放弃记录;同理,判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在居住区基站列表REL中,不是则放弃记录。如果Phonec同时存在于医院基站列表HL和居住区基站列表REL中则在Rt中记录否则,放弃记录。
在本发明中,医院基站列表HL的列表形式为:
在本发明中,居住区基站列表REL的列表形式为:
表示Doctor2跟re2之间映射的人流量;所述的计算关系为:判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在医院基站列表HL中,不是则放弃记录;同理,判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在居住区基站列表REL中,不是则放弃记录。如果Phonec同时存在于医院基站列表HL和居住区基站列表REL中则在Rt中记录否则,放弃记录。
在本发明中,医院基站列表HL的列表形式为:
在本发明中,居住区基站列表REL的列表形式为:
表示Doctor2跟rea之间映射的人流量;所述的计算关系为:判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在医院基站列表HL中,不是则放弃记录;同理,判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在居住区基站列表REL中,不是则放弃记录。如果Phonec同时存在于医院基站列表HL和居住区基站列表REL中则在Rt中记录否则,放弃记录。
在本发明中,医院基站列表HL的列表形式为:
在本发明中,居住区基站列表REL的列表形式为:
表示Doctorb跟re1之间映射的人流量;所述的计算关系为:判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在医院基站列表HL中,不是则放弃记录;同理,判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在居住区基站列表REL中,不是则放弃记录。如果Phonec同时存在于医院基站列表HL和居住区基站列表REL中则在Rt中记录否则,放弃记录。
在本发明中,医院基站列表HL的列表形式为:
在本发明中,居住区基站列表REL的列表形式为:
表示Doctorb跟re2之间映射的人流量;所述的计算关系为:判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在医院基站列表HL中,不是则放弃记录;同理,判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在居住区基站列表REL中,不是则放弃记录。如果Phonec同时存在于医院基站列表HL和居住区基站列表REL中则在Rt中记录否则,放弃记录。
在本发明中,医院基站列表HL的列表形式为:
在本发明中,居住区基站列表REL的列表形式为:
表示Doctorb跟rea之间映射的人流量;所述的计算关系为:判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在医院基站列表HL中,不是则放弃记录;同理,判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在居住区基站列表REL中,不是则放弃记录。如果Phonec同时存在于医院基站列表HL和居住区基站列表REL中则在Rt中记录否则,放弃记录。
在本发明中,医院基站列表HL的列表形式为:
在本发明中,居住区基站列表REL的列表形式为:
在步骤D和步骤E中,对推荐目标模型和隐性特征矩阵的获取处理过程如下:
由于医疗机构互联网数据具有非常多的类型与来源,即数据的多元性.这些不同来源的医疗机构数据无论是从结构上、组织方式上、维度尺度与粒度上都会存在巨大差异,即数据的异构性、智慧城市的应用需求要求推荐系统必须将这些多元异构数据进行有机的融合,通过挖掘活化数据之间的相关性与相互作用方式来获取隐性特征。
在本发明中,根据Tm就诊量和FR来设计医疗机构推荐目标模型记为
在本发明中,当前轮次的J值(方便说明,记为J当前)与前一次的J值(方便说明,记为J前一次)进行差值比较ΔJ=|J当前-J前一次|,若ΔJ趋近于0,则隐性特征模型J达到收敛,并用医疗机构推荐目标模型来修改医疗机构—居住区就诊量矩阵;若ΔJ不趋近于0,则说明隐性特征模型J未达到收敛,返回步骤E重新进行隐性特征矩阵获取。
F表示范数,即Frobenius范数。
γ表示医院隐性特征矩阵的系数。
θ表示对FR张量因子的学习系数。
δ表示居住区隐性特征矩阵的系数。
Weight缺失表示缺失值权重。
其中,所述缺失值权重
取值范围是0或者1,0代表Doctor1跟re1之间的数据缺失,是需要预测的对象,1代表Doctor1跟re1之间的数据存在,不需要预测。
取值范围是0或者1,0代表Doctor1跟re2之间的数据缺失,是需要预测的对象,1代表Doctor1跟re2之间的数据存在,不需要预测。
取值范围是0或者1,0代表Doctor1跟rea之间的数据缺失,是需要预测的对象,1代表Doctor1跟rea之间的数据存在,不需要预测。
取值范围是0或者1,0代表Doctor2跟re1之间的数据缺失,是需要预测的对象,1代表Doctor2跟re1之间的数据存在,不需要预测。
取值范围是0或者1,0代表Doctor2跟re2之间的数据缺失,是需要预测的对象,1代表Doctor2跟re2之间的数据存在,不需要预测。
取值范围是0或者1,0代表Doctor2跟rea之间的数据缺失,是需要预测的对象,1代表Doctor2跟rea之间的数据存在,不需要预测。
取值范围是0或者1,0代表Doctorb跟re1之间的数据缺失,是需要预测的对象,1代表Doctorb跟re1之间的数据存在,不需要预测。
取值范围是0或者1,0代表Doctorb跟re2之间的数据缺失,是需要预测的对象,1代表Doctorb跟re2之间的数据存在,不需要预测。
取值范围是0或者1,0代表Doctorb跟rea之间的数据缺失,是需要预测的对象,1代表Doctorb跟rea之间的数据存在,不需要预测。
其中,对应于医疗机构的隐性特征记为
表示Doctor1跟re1之间就诊量预测的隐性特征值,最大迭代次数记为m,且m=500;每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置。计算公式:α表示梯度下降系数。
表示Doctor1跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置。计算公式:
表示Doctor1跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置。计算公式:
表示Doctor2跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置。计算公式:
表示Doctor2跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置。计算公式:
表示Doctor2跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置。计算公式:
表示Doctorb跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置。计算公式:
表示Doctorb跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置。计算公式:
表示Doctorb跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置。计算公式:
对应于居住区域的隐性特征记为
表示Doctor1跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置。计算公式:
表示Doctor1跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置。计算公式:
表示Doctor1跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置。计算公式:
表示Doctor2跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置。计算公式:
表示Doctor2跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置。计算公式:
表示Doctor2跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置。计算公式:
表示Doctorb跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置。计算公式:
表示Doctorb跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置。计算公式:
表示Doctorb跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置。计算公式:
由于本发明的线性回归张量因子FR选用了多个就诊量协同,因此线性回归张量因子FR的系数记为
表示Doctor1跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值。计算公式: α表示梯度下降系数。sum为加和函数符号。
表示Doctor1跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值。计算公式:
表示Doctor1跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值。计算公式:
实施例1
若一个行政地区的医疗机构总数为321个,划分在市区区域里的医疗机构有157个,划分在郊区区域里的医疗机构有164个。
若一个行政地区的医疗机构测试集为160个,训练集为161个,划分在市区区域里的医疗机构测试集有78个,训练集有79个,划分在郊区区域里的医疗机构测试集有82个,训练集有82个。
如图2所示,图中A号线表示行政区域所有医疗机构参与本发明方法的标准误差,其中测试集有160个医疗机构,训练集有161个医疗机构。
如图2所示,图中B号线表示行政区域划分在市区区域里的医疗机构参与本发明方法的标准误差,其中测试集有78个医疗机构,训练集有79个医疗机构。
如图2所示,图中C号线表示行政区域划分在郊区区域里的医疗机构参与本发明方法的标准误差,其中测试集有82个医疗机构,训练集有82个医疗机构。
从图2可以看出,经过本发明方法计算得到的标准误差很小,说明针对医疗机构的推荐准确度高。
实施例2
若一个行政地区的医疗机构总数为321个,则测试集有160个医疗机构,训练集有161个医疗机构。
如图3所示,经“SVD”、“LR”和“本发明”三种方法的标准误差对比可见,本发明的标准误差最小,说明本发明的方法比“SVD”、“LR”两种方法的推荐准确度高。
“SVD”方法请参考《推荐系统技术、评估及高效算法》李艳民译,2015年7月第1版,第104-105页。
“LR(Linear Models for Regression)”方法请参考《Pattern Recognition andMachine Learning》Christopher M.Bishop,2006年,第136-147中。
Claims (2)
1.一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法,其特征在于包括有下列步骤:
步骤A:初始化医疗机构推荐系统,并从GPS地理信息模块、医疗机构信息模块、病患就诊信息模块和手机基站信息模块中获取推荐用原始数据;
步骤B:应用步骤A获取的推荐用原始数据构建二维医疗机构—居住区就诊量矩阵;
医疗机构—居住区就诊量矩阵记为
步骤C:根据步骤B得到的医疗机构—居住区就诊量设计适用于时空多维度条件下,多尺度与多粒度的海量数据的线性回归张量因子;
线性回归张量因子记为FR=[Rr,Rs,Rt]b×a×3;
所述距离因子
所述就诊量因子
所述人流量因子r表示距离标识,s表示就诊量标识,r表示人流量标识;b的取值为321,a的取值为1343;
步骤D:依据步骤C的线性回归张量因子重新对步骤B的医疗机构—居住区就诊量矩阵进行处理,得到医疗机构推荐目标模型;
医疗机构推荐目标模型记为
F表示范数,即Frobenius范数;
γ表示医院隐性特征矩阵的系数;
θ表示对FR张量因子的学习系数;
δ表示居住区隐性特征矩阵的系数;
Weight缺失表示缺失值权重;
步骤E:在医疗机构推荐系统中应用步骤D的医疗机构推荐目标模型,并初始化;然后采用隐性特征模型对多元异构的推荐用原始数据进行活化数据挖掘,得到隐性特征矩阵;
隐性特征有2个,即医疗机构的隐性特征记为
表示Doctor1跟re1之间就诊量预测的隐性特征值,最大迭代次数记为m,且m=500;每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:α表示梯度下降系数;
表示Doctor1跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctor1跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctor2跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctor2跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctor2跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctorb跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctorb跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctorb跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
即居住区域的隐性特征记为
表示Doctor1跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctor1跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctor1跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctor2跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctor2跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctor2跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctorb跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctorb跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctorb跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的 表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
步骤F:通过步骤E得到的隐性特征矩阵,迭代计算医疗机构—居住区就诊量矩阵;若未达到收敛,则返回步骤E,重新计算隐性特征矩阵偏导;若收敛,则修正医疗机构—居住区就诊量矩阵;
以来修正步骤B构建的医疗机构-居住区域就诊量矩阵,记为Tm就诊量_重构;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
步骤G:以推荐标准误差模型对经步骤F修正后的医疗机构—居住区就诊量矩阵进行推荐标准误差的计算,若标准误差小于0.3,则将获得推荐结果提供给用户;
推荐标准误差模型记为
计算推荐标准误差模型RMSE就诊量_误差作为算法准确度的评判标准,如果Weight缺失中为0,则通过所述RMSE就诊量_误差来对和进行相似度衡量。
2.根据权利要求1所述的基于线性回归因子非负矩阵分解模型的医疗机构推荐方法,其特征在于:医疗机构推荐系统所需的推荐用原始数据是由互联网提供,则互联网中至少需要以下模块提供数据信息,即包括有:
GPS地理信息模块,用于提供目标的地理位置,地理位置以经度和纬度显示,即(x,y);
医疗机构信息模块,用于提供不同医疗机构的名称、医疗机构类型、患者关联信息(属于各医疗机构共享的部分患者信息,不涉及患者隐私)、治疗特色等信息;所述患者关联信息有就诊信息DI和患者就诊时间信息DT等;而就诊信息DI包括有患者的住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话等相关信息,其中,患者的住址为不可缺少项;
病患就诊信息模块,用于提供患者自愿公开的患者基础信息,如患者的住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话等相关信息;
手机基站信息模块,用于提供手机用户注册信息、用户的移动状态信息、用户登录互联网信息等;
为了表征医疗机构与居住区域之间的就诊量,应用了患者的就诊信息DI、患者就诊时间信息DT、以及医疗机构集DC={Doctor1,Doctor2,…,Doctorb}和居住区域集RE={re1,re2,…,ren-1,ren,ren+1,…,rea}的信息;所述患者的就诊信息DI包括有患者的家庭住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话等相关信息,其中,患者的家庭住址为不可缺少项;
所述居住区域集RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中角标a表示居住区域的总个数,n表示居住区域的标识号;居住区域re的地理位置re(x,y)中的x为经度,y为纬度;
re1表示第一个居住区域,所述第一个居住区域re1的地理位置记为
re2表示第二个居住区域,所述第二个居住区域re2的地理位置记为
ren表示任意一个居住区域,所述任意一个居住区域ren的地理位置记为
ren-1表示与ren距离最近的一个居住区域,简称为前一个居住区域,所述前一个居住区域ren-1的地理位置记为
ren+1表示与ren距离次近的一个居住区域,简称为后一个居住区域,所述后一个居住区域ren+1的地理位置记为
rea表示最后一个居住区域,所述最后一个居住区域rea的地理位置记为
所述医疗机构集DC={Doctor1,Doctor2,…,Doctorb}中角标b表示医疗机构的总个数,也是医疗机构的标识号;医疗机构Doctor的地理位置Doctor(x,y)中的x为经度,y为纬度;
Doctor1表示第一个医疗机构,所述第一个医疗机构Doctor1的地理位置记为
Doctor2表示第二个医疗机构,所述第二个医疗机构Doctor2的地理位置记为
Doctorb表示最后一个医疗机构,所述最后一个医疗机构Doctorb的地理位置记为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611073910.8A CN106779181B (zh) | 2016-11-29 | 2016-11-29 | 一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611073910.8A CN106779181B (zh) | 2016-11-29 | 2016-11-29 | 一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106779181A true CN106779181A (zh) | 2017-05-31 |
CN106779181B CN106779181B (zh) | 2021-04-06 |
Family
ID=58898492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611073910.8A Active CN106779181B (zh) | 2016-11-29 | 2016-11-29 | 一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106779181B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223786A (zh) * | 2019-06-13 | 2019-09-10 | 重庆亿创西北工业技术研究院有限公司 | 基于非负张量分解的药物-药物相互作用预测方法及系统 |
CN112331283A (zh) * | 2020-10-27 | 2021-02-05 | 贵州精准医疗电子有限公司 | 健康监测方法、装置及计算机可读介质 |
CN113392176A (zh) * | 2020-09-28 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本相似性的确定方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942298A (zh) * | 2014-04-14 | 2014-07-23 | 清华大学 | 基于线性回归的推荐方法及系统 |
WO2016118156A1 (en) * | 2015-01-23 | 2016-07-28 | Hewlett-Packard Development Company, L.P. | Visually interactive identification of a cohort of data objects similar to a query object based on domain knowledge |
CN105871707A (zh) * | 2016-06-17 | 2016-08-17 | 中国联合网络通信集团有限公司 | 基于云计算的资源推荐方法及系统 |
CN106127644A (zh) * | 2016-06-22 | 2016-11-16 | 朗森特科技有限公司 | 一种用于远程医疗的专家推荐系统 |
-
2016
- 2016-11-29 CN CN201611073910.8A patent/CN106779181B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942298A (zh) * | 2014-04-14 | 2014-07-23 | 清华大学 | 基于线性回归的推荐方法及系统 |
WO2016118156A1 (en) * | 2015-01-23 | 2016-07-28 | Hewlett-Packard Development Company, L.P. | Visually interactive identification of a cohort of data objects similar to a query object based on domain knowledge |
CN105871707A (zh) * | 2016-06-17 | 2016-08-17 | 中国联合网络通信集团有限公司 | 基于云计算的资源推荐方法及系统 |
CN106127644A (zh) * | 2016-06-22 | 2016-11-16 | 朗森特科技有限公司 | 一种用于远程医疗的专家推荐系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223786A (zh) * | 2019-06-13 | 2019-09-10 | 重庆亿创西北工业技术研究院有限公司 | 基于非负张量分解的药物-药物相互作用预测方法及系统 |
CN113392176A (zh) * | 2020-09-28 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本相似性的确定方法、装置、设备及介质 |
CN113392176B (zh) * | 2020-09-28 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 文本相似性的确定方法、装置、设备及介质 |
CN112331283A (zh) * | 2020-10-27 | 2021-02-05 | 贵州精准医疗电子有限公司 | 健康监测方法、装置及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106779181B (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Le Bagousse-Pinguet et al. | Phylogenetic, functional, and taxonomic richness have both positive and negative effects on ecosystem multifunctionality | |
Noszczyk | A review of approaches to land use changes modeling | |
Zhang et al. | The Traj2Vec model to quantify residents’ spatial trajectories and estimate the proportions of urban land-use types | |
Fisher et al. | Modelling the errors in areal interpolation between zonal systems by Monte Carlo simulation | |
Zhang et al. | Modeling hierarchical category transition for next POI recommendation with uncertain check-ins | |
JP5248915B2 (ja) | Gps追跡及び周知な近傍目的地からのユーザの行動趣向の学習 | |
Hadayeghi et al. | Development of planning-level transportation safety models using full Bayesian semiparametric additive techniques | |
Jeong et al. | Integrating buildings into a rural landscape using a multi-criteria spatial decision analysis in GIS-enabled web environment | |
Liu et al. | A two-stage destination prediction framework of shared bicycles based on geographical position recommendation | |
Ying et al. | A temporal-aware POI recommendation system using context-aware tensor decomposition and weighted HITS | |
Osman et al. | An integrated land use change model to simulate and predict the future of greater Cairo metropolitan region | |
CN112380425A (zh) | 社区推荐方法、系统、计算机设备及存储介质 | |
Hu et al. | Nonnegative matrix tri-factorization with user similarity for clustering in point-of-interest | |
McKenzie et al. | Measuring urban regional similarity through mobility signatures | |
Liu et al. | Modeling the interaction coupling of multi-view spatiotemporal contexts for destination prediction | |
Zhang et al. | FM-based: algorithm research on rural tourism recommendation combining seasonal and distribution features | |
CN106779181A (zh) | 一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法 | |
Dalumpines et al. | Making mode detection transferable: extracting activity and travel episodes from GPS data using the multinomial logit model and Python | |
Dadashpour Moghaddam et al. | A GIS-based assessment of urban tourism potential with a branding approach utilizing hybrid modeling | |
Maithani et al. | Simulation of peri-urban growth dynamics using weights of evidence approach | |
Luan et al. | Collaborative tensor factorization and its application in POI recommendation | |
Lansley et al. | Challenges to representing the population from new forms of consumer data | |
Blanchard et al. | Intelligibility and first passage times in complex urban networks | |
CN113704373B (zh) | 基于移动轨迹数据的用户识别方法、装置及存储介质 | |
Yu et al. | Analyzing the structure of tourism destination network based on digital footprints: Taking Guilin, China as a case |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |