CN106779181A

CN106779181A - 一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法

Info

Publication number: CN106779181A
Application number: CN201611073910.8A
Authority: CN
Inventors: 王静远; 林雅婷; 吴俊杰; 熊璋
Original assignee: SHENZHEN BEIHANG NEW INDUSTRIAL TECHNOLOGY RESEARCH INSTITUTE
Current assignee: SHENZHEN BEIHANG NEW INDUSTRIAL TECHNOLOGY RESEARCH INSTITUTE
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2017-05-31
Anticipated expiration: 2036-11-29
Also published as: CN106779181B

Abstract

本发明公开了一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法，该方法依据线性回归张量因子对医疗机构—居住区就诊量矩阵进行处理，得到医疗机构推荐目标模型；进而采用隐性特征模型对多元异构的推荐用原始数据进行活化数据挖掘，得到隐性特征矩阵；最后通过迭代计算医疗机构—居住区就诊量矩阵是否达到收敛，若收敛，则采用推荐标准误差模型进行计算修正后的医疗机构—居住区就诊量矩阵，从而将推荐结果提供给用户。本发明应用在推荐系统中有效提高了对医疗机构的推荐准确度，从而提高医疗机构互联网数据对于智慧城市的建设的利用价值，解决残缺数据对大部分智慧城市的智能化建设的影响。

Description

一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法

技术领域

本发明涉及医疗机构技术领域，更特别地说，是指一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法。

背景技术

数据活化之非负矩阵分解(Non-negative Matrix Factorization，NMF)由D.Lee等在1999年正式提出的(即Lee D D，Seung H S.Learning the parts of objects bynon-negativ matrix factorization[J].Nature，1999，401(6755):788-91.)，经过了十余年的发展，现在已经成为了相对完善的数据分析方法。并且，NMF方法还在图像分析、文本聚类、数据挖掘、语音处理等方面得到了广泛的应用。由于NMF方法具有快速和有效等特性，在模式识别领域中被广泛用于特征提取与数据降维。在图像处理方向，NMF方法被用于研究机器人对外界感知这一课题。因为非负性约束的存在，分解结果中有大量的元素为零，故这种表示方法属于稀疏编码，具有节省存储空间的特点。

线性回归是一种回归分析方法，这种分析利用线性回归方程的最小平方函数，对一个或多个自变量与一个因变量之间的关系进行建模。线性回归方法基于数理统计中的回归分析，是广泛应用的一种用来确定两个或两个以上变量之间关系的统计方法之一。在实际应用中，只有一个自变量的线性回归为一元线性回归，而有多个自变量的线性回归为多元线性回归。

医疗机构，是指依法定程序设立的从事疾病诊断、治疗活动的卫生机构的总称。对于医疗机构在进行注册或审批时，在审批部门将留下名称、地址、网址、服务特长等相关信息的数据。或者经地理位置信息软件(如百度地图、谷歌地图)分析获得医疗机构的地理信息。

面对互联网上的海量信息，普通用户往往无所适从。为了满足用户的信息需求，计算机科学家发明了两项意义深远的技术：一是搜索技术，它帮助计算机系统被动地应答用户的查询，将与之最相关、最重要的信息返回给用户；二是推荐系统技术，它根据用户的兴趣、行为、情景等信息，把用户最可能感兴趣的内容主动推送给用户。近年来，推荐系统技术得到了长足的发展，不但成为学术研究的热点之一，而且在电子商务、在线广告、社交网络等重要的互联网应用中大显身手。推荐系统(Recommender System，RS)是为用户推荐所需物品的软件工具的技术。

发明内容

为了解决医疗机构在推荐系统的互联网应用中出现的推荐准确度差的问题，本发明提出了一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法。本发明方法是通过解决具有多源异构性和极高稀疏性的数据的预测技术难点，同时优化算法改善多系数调参难以达到全局最优的困难，使模型获得更优解，提高了数据预测的准确性。本发明应用在推荐系统中有效提高了对医疗机构的推荐准确度，从而提高医疗机构互联网数据对于智慧城市的建设的利用价值，解决残缺数据对大部分智慧城市的智能化建设的影响。

本发明提出的一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法，包括有下列步骤：

步骤A：初始化医疗机构推荐系统，并从GPS地理信息模块、医疗机构信息模块、病患就诊信息模块和手机基站信息模块中获取推荐用原始数据；

步骤B：应用步骤A获取的推荐用原始数据构建二维医疗机构—居住区就诊量矩阵；

在本发明中，医疗机构—居住区就诊量矩阵记为

步骤C：根据步骤B得到的医疗机构—居住区就诊量设计适用于时空多维度条件下，多尺度与多粒度的海量数据的线性回归张量因子；

在本发明中，线性回归张量因子记为FR＝[R_r,R_s,R_t]_b×a×3。

步骤D：依据步骤C的线性回归张量因子重新对步骤B的医疗机构—居住区就诊量矩阵进行处理，得到医疗机构推荐目标模型；

在本发明中，医疗机构推荐目标模型记为

步骤E：在医疗机构推荐系统中应用步骤D的医疗机构推荐目标模型，并初始化；然后采用隐性特征模型对多元异构的推荐用原始数据进行活化数据挖掘，得到隐性特征矩阵；

在本发明中，隐性特征有2个，即医疗机构的隐性特征记为

即居住区域的隐性特征记为

步骤F：通过步骤E得到的隐性特征矩阵，迭代计算医疗机构—居住区就诊量矩阵；若未达到收敛，则返回步骤E，重新计算隐性特征矩阵偏导；若收敛，则修正医疗机构—居住区就诊量矩阵；

在本发明中，以来修正步骤B构建的医疗机构-居住区域就诊量矩阵，记为Tm_{就诊量_重构}。

表示经修正后的就诊量。

步骤G：以推荐标准误差模型对经步骤F修正后的医疗机构—居住区就诊量矩阵进行推荐标准误差的计算，若标准误差小于0.3，则将获得推荐结果提供给用户。

在本发明中，推荐标准误差模型记为

计算推荐标准误差模型RMSE_{就诊量_误差}作为算法准确度的评判标准，如果Weight_缺失中为0，则通过所述RMSE_{就诊量_误差}来对和进行相似度衡量。

本发明医疗机构推荐方法的优点在于：

①本发明方法中应用线性回归张量因子与非负矩阵分解(即二维医疗机构—居住区就诊量矩阵)两种方法的结合，充分考虑了医疗机构互联网数据的多源异构性。

②本发明方法中用了线性回归张量因子，可以自适应训练特征系数，改善了已有医疗机构研究中由于加入多种数据因子造成因子系数繁多、调参困难、难以达到全局最优的问题，这样可以在推荐时计算出更优解推荐给用户。

③本发明利用隐性特征来对医疗机构互联网数据进行学习预测，能够解决医疗机构互联网数据的极高稀疏性(尤其非零率极高的情况，即数据大部分缺失状态)，从而提高推荐医疗机构的准确度。

④本发明利用推荐标准误差模型对二维医疗机构—居住区就诊量矩阵进行修正，并用推荐标准误差值来作衡量，从而可以提高推荐的优质性。

附图说明

图1是本发明基于线性回归因子非负矩阵分解模型的医疗机构推荐方法的流程图。

图2是不同区域的医疗机构经本发明方法的标准误差对比图。

图3是不同方法的标准误差对比图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的详细说明。

参见图1所示，本发明提出了一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法，该推荐方法包括有下列处理步骤：

在本发明中，医疗机构推荐系统借助公共的互联网系统的大数据进行推荐技术处理。医疗机构推荐系统所需的推荐用原始数据是由互联网提供。为满足本发明所需的原始数据，则互联网中至少需要以下模块提供数据信息，即包括有：

GPS地理信息模块，用于提供目标的地理位置，地理位置以经度和纬度显示，即(x,y)；

医疗机构信息模块，用于提供不同医疗机构的名称、医疗机构类型、患者关联信息(属于各医疗机构共享的部分患者信息，不涉及患者隐私)、治疗特色等信息；所述患者关联信息有就诊信息DI和患者就诊时间信息DT等；而就诊信息DI包括有患者的住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话等相关信息，其中，患者的住址为不可缺少项；

病患就诊信息模块，用于提供患者自愿公开的患者基础信息，如患者的住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话等相关信息；

手机基站信息模块，用于提供手机用户注册信息、用户的移动状态信息、用户登录互联网信息等。

在本发明中，为了表征医疗机构与居住区域之间的就诊量，应用了患者的就诊信息DI、患者就诊时间信息DT、以及医疗机构集DC＝{Doctor₁,Doctor₂,…,Doctor_b}和居住区域集RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}的信息。所述患者的就诊信息DI包括有患者的家庭住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话等相关信息，其中，患者的家庭住址为不可缺少项。

在本发明中，医疗机构—居住区就诊量矩阵记为

在本发明中，线性回归张量因子记为FR＝[R_r,R_s,R_t]_b×a×3。

在本发明中，医疗机构推荐目标模型记为

在本发明中，隐性特征有2个，即医疗机构的隐性特征记为

即居住区域的隐性特征记为

表示经修正后的就诊量。

在本发明中，推荐标准误差模型记为

在本发明的医疗机构推荐系统中，居住区域记为re，多个居住区域形成的居住区域集记为RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}，角标a表示居住区域的总个数，n表示居住区域的标识号。居住区域re的地理位置re(x,y)中的x为经度，y为纬度。

re₁表示第一个居住区域，所述第一个居住区域re₁的地理位置记为

re₂表示第二个居住区域，所述第二个居住区域re₂的地理位置记为

re_n表示任意一个居住区域，所述任意一个居住区域re_n的地理位置记为

re_n-1表示与re_n距离最近的一个居住区域，简称为前一个居住区域，所述前一个居住区域re_n-1的地理位置记为

re_n+1表示与re_n距离次近的一个居住区域，简称为后一个居住区域，所述后一个居住区域re_n+1的地理位置记为

re_a表示最后一个居住区域，所述最后一个居住区域re_a的地理位置记为

在本发明的医疗机构推荐系统中，医疗机构记为Doctor，多个医疗机构形成的医疗机构集记为DC＝{Doctor₁,Doctor₂,…,Doctor_b}，角标b表示医疗机构的总个数，也是医疗机构的标识号。医疗机构Doctor的地理位置Doctor(x,y)中的x为经度，y为纬度。

Doctor₁表示第一个医疗机构，所述第一个医疗机构Doctor₁的地理位置记为

Doctor₂表示第二个医疗机构，所述第二个医疗机构Doctor₂的地理位置记为

Doctor_b表示最后一个医疗机构，所述最后一个医疗机构Doctor_b的地理位置记为为了方便叙述，将Doctor_b也称为任意一个医疗机构。

在本发明的医疗机构推荐系统中，手机用户记为Phone，多个手机用户形成的手机用户集记为PH＝{Phone₁,Phone₂,…,Phone_c}，角标c表示手机用户的总个数，也是手机用户的标识号。手机用户Phone所属的手机基站地理位置Phone(x,y)中的x为经度，y为纬度。

Phone₁表示第一个手机用户，所述第一个手机用户Phone₁所属的手机基站地理位置记为

Phone₂表示第二个手机用户，所述第二个手机用户Phone₂所属的手机基站地理位置记为

Phone_c表示最后一个手机用户，所述最后一个手机用户Phone_c所属的手机基站地理位置记为为了方便叙述，将Phone_c也称为任意一个手机用户。

在本发明中，医疗机构推荐系统应用手机用户信息来表征医疗机构与居住区域之间的人流量。

本发明是一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法，包括有下列步骤：

在步骤B中的医疗机构与居住区就诊量信息的获取处理过程如下；

以地图(如地理位置)为基础的空间结构是医疗机构互联网数据的一种基本组织方式，而城市快节奏的生活方式也使得医疗机构互联网数据对于时间维度的变化非常敏感。因此，时空多维特性成为医疗机构互联网数据的另一个重要特点。在空间上，根据城市地理规模的不同，医疗机构互联网数据具有不同尺度的空间跨度。在时间上，根据产生的时间不同，医疗机构互联网数据具有时间相关的变化和分布。因此在进行医疗机构互联网数据分析和应用时，一方面需要考虑时间和空间两个维度的数据演化特性，另一方面还需要充分利用时间和空间不同维度之间的数据关联关系。

在本发明的医疗机构推荐系统中，医疗机构与居住区就诊量信息以二维矩阵形式来进行关联数据信息的收集，采用矩阵形式构建，即得到医疗机构－居住区就诊量矩阵b表示医疗机构的总个数，a表示居住区域的总个数，在本发明中，b的取值为321，a的取值为1343。

表示Doctor₁跟re₁之间映射的的就诊量；所述的计算关系为：判断患者在Doctor₁的就诊信息的住址是否位于居住区域re₁的地理位置里，是，则在Tm_就诊量中记录下否，放弃在Tm_就诊量中记录。

表示去Doctor₁进行就诊的患者的家庭住址。

表示Doctor₁跟re₂之间映射的的就诊量；所述的计算关系为：判断患者在Doctor₁的就诊信息的住址是否位于居住区域re₂的地理位置里，是，则在Tm_就诊量中记录下否，放弃在Tm_就诊量中记录。

表示Doctor₁跟re_a之间映射的的就诊量；所述的计算关系为：判断患者在Doctor₁的就诊信息的住址是否位于居住区域re_a的地理位置里，是，则在Tm_就诊量中记录下否，放弃在Tm_就诊量中记录。

表示Doctor₂跟re₁之间映射的的就诊量；所述的计算关系为：判断患者在Doctor₂的就诊信息的住址是否位于居住区域re₁的地理位置里，是，则在Tm_就诊量中记录下否，放弃在Tm_就诊量中记录。

表示去Doctor₂进行就诊的患者的家庭住址。

表示Doctor₂跟re₂之间映射的的就诊量；所述的计算关系为：判断患者在Doctor₂的就诊信息的住址是否位于居住区域re₂的地理位置里，是，则在Tm_就诊量中记录下否，放弃在Tm_就诊量中记录。

表示Doctor₂跟re_a之间映射的的就诊量；所述的计算关系为：判断患者在Doctor₂的就诊信息的住址是否位于居住区域re_a的地理位置里，是，则在Tm_就诊量中记录下否，放弃在Tm_就诊量中记录。

表示Doctor_b跟re₁之间映射的的就诊量；所述的计算关系为：判断患者在Doctor_b的就诊信息的住址是否位于居住区域re₁的地理位置里，是，则在Tm_就诊量中记录下否，放弃在Tm_就诊量中记录。

表示去Doctor_b进行就诊的患者的家庭住址。

表示Doctor_b跟re₂之间映射的的就诊量；所述的计算关系为：判断患者在Doctor_b的就诊信息的住址是否位于居住区域re₂的地理位置里，是，则在Tm_就诊量中记录下否，放弃在Tm_就诊量中记录。

表示Doctor_b跟re_a之间映射的的就诊量；所述的计算关系为：判断患者在Doctor_b的就诊信息的住址是否位于居住区域re_a的地理位置里，是，则在Tm_就诊量中记录下否，放弃在Tm_就诊量中记录。

在步骤C中的线性回归张量因子的获取处理过程如下：

研究和利用医疗机构数据除了要考虑时间和空间等多个维度之外，还需要考虑数据尺度和数据粒度对于数据特性的影响。在规模的尺度上，医疗机构可以分为专科医院、中型医院、大型医院等；在地理尺度上，对于医疗机构数据的描述可以小到几个街区或大到数千平方公里；在时间尺度上，医疗机构数据的覆盖时间可以短到一些事件的监控，长到上百年的医疗机构变迁。在地理采样粒度上，可以像遥感测绘数据一样精确到数米，也可以向气象环境数据一样以区县、地区、甚至省市为单位；在时间粒度上，更是根据数据采样设备的时钟、存储与传输能力、计算速度等因素产生不同的时间粒度。在本发明的医疗机构推荐系统中，在时空多维度的条件下，高效处理多尺度与多粒度的海量数据，采用了“线性回归张量因子”来改善海量数据多特征因子公式冗余并且计算难以达到全局最优的问题。根据步骤B中提取出来的Tm_就诊量设计线性回归张量因子。

在本发明中，线性回归张量因子为FR＝[R_r,R_s,R_t]_b×a×3，且

所述距离因子

所述就诊量因子

所述人流量因子其中，b表示医疗机构的总个数，a表示居住区域的总个数，在本发明中，b的取值为321，a的取值为1343。r表示距离标识，s表示就诊量标识，r表示人流量标识。

表示Doctor₁跟re₁之间的距离，利用和进行距离的计算，计算公式为

表示Doctor₁跟re₂之间的距离，利用和进行距离的计算，计算公式为

表示Doctor₁跟re_a之间的距离，利用和进行距离的计算，计算公式为

表示Doctor₂跟re₁之间的距离，利用和进行距离的计算，计算公式为

表示Doctor₂跟re₂之间的距离，利用和进行距离的计算，计算公式为

表示Doctor₂跟re_a之间的距离，利用和进行距离的计算，计算公式为

表示Doctor_b跟re₁之间的距离，利用和进行距离的计算，计算公式为

表示Doctor_b跟re₂之间的距离，利用和进行距离的计算，计算公式为

表示Doctor_b跟re_a之间的距离，利用和进行距离的计算，计算公式为

表示Doctor₁跟距离re₁最近的5个居住区域之间的患者就诊量的平均值。令为从RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中选出的距离最近的五个居住区域。的计算形式为为了方便说明，距离最近的五个居住区域表现形式为则

表示Doctor₁跟距离re₂最近的5个居住区域之间的患者就诊量的平均值。令为从RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中选出的距离最近的五个居住区域。的计算形式为为了方便说明，令RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中的re₁,re_n-1,re_n,re_n+1,re_a为距离最近的五个居住区域。的计算形式为

表示Doctor₁跟距离re_a最近的5个居住区域之间的患者就诊量的平均值。令为从RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中选出的距离最近的五个居住区域。的计算形式为为了方便说明，令RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中的re₁,re₂,re_n-1,re_n,re_n+1为距离最近的五个居住区域。的计算公式为

表示Doctor₂跟距离re₁最近的5个居住区域之间的患者就诊量的平均值。令为从RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中选出的距离最近的五个居住区域。的计算形式为为了方便说明，令RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中的re₂,re_n-1,re_n,re_n+1,re_a为距离最近的五个居住区域。的计算公式为

表示Doctor₂跟距离re₂最近的5个居住区域之间的患者就诊量的平均值。令为从RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中选出的距离最近的五个居住区域。的计算形式为为了方便说明，令RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中的re₁,re_n-1,re_n,re_n+1,re_a为距离最近的五个居住区域。的计算公式为

表示Doctor₂跟距离re_a最近的5个居住区域之间的患者就诊量的平均值。令为从RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中选出的距离最近的五个居住区域。的计算形式为为了方便说明，令RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中的re₁,re₂,re_n-1,re_n,re_n+1为距离最近的五个居住区域。的计算形式为

表示Doctor_b跟距离re₁最近的5个居住区域之间的患者就诊量的平均值。令为从RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中选出的距离最近的五个居住区域。的计算形式为为了方便说明，令RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中的re₂,re_n-1,re_n,re_n+1,re_a为距离最近的五个居住区域。的计算公式为

表示Doctor_b跟距离re₂最近的5个居住区域之间的患者就诊量的平均值。令为从RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中选出的距离最近的五个居住区域。的计算形式为为了方便说明，令RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中的re₁,re_n-1,re_n,re_n+1,re_a为距离最近的五个居住区域。的计算公式为

表示Doctor_b跟距离re_a最近的5个居住区域之间的患者就诊量的平均值。令为从RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中选出的距离最近的五个居住区域。的计算形式为为了方便说明，令RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中的re₁,re₂,re_n-1,re_n,re_n+1为距离最近的五个居住区域。的计算公式为

表示Doctor₁跟re₁之间映射的人流量；所述的计算关系为：判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在医院基站列表HL中，不是则放弃记录；同理，判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在居住区基站列表REL中，不是则放弃记录。如果Phone_c同时存在于医院基站列表HL和居住区基站列表REL中则在人流量因子R_t中记录否则，放弃记录。

在本发明中，医院基站列表HL的列表形式为：

在本发明中，居住区基站列表REL的列表形式为：

表示Doctor₁跟re₂之间映射的人流量；所述的计算关系为：判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在医院基站列表HL中，不是则放弃记录；同理，判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在居住区基站列表REL中，不是则放弃记录。如果Phone_c同时存在于医院基站列表HL和居住区基站列表REL中则在R_t中记录否则，放弃记录。

表示Doctor₁跟re_a之间映射的人流量；所述的计算关系为：判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在医院基站列表HL中，不是则放弃记录；同理，判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在居住区基站列表REL中，不是则放弃记录。如果Phone_c同时存在于医院基站列表HL和居住区基站列表REL中则在R_t中记录否则，放弃记录。

表示Doctor₂跟re₁之间映射的人流量；所述的计算关系为：判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在医院基站列表HL中，不是则放弃记录；同理，判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在居住区基站列表REL中，不是则放弃记录。如果Phone_c同时存在于医院基站列表HL和居住区基站列表REL中则在R_t中记录否则，放弃记录。

在本发明中，医院基站列表HL的列表形式为：

在本发明中，居住区基站列表REL的列表形式为：

表示Doctor₂跟re₂之间映射的人流量；所述的计算关系为：判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在医院基站列表HL中，不是则放弃记录；同理，判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在居住区基站列表REL中，不是则放弃记录。如果Phone_c同时存在于医院基站列表HL和居住区基站列表REL中则在R_t中记录否则，放弃记录。

在本发明中，医院基站列表HL的列表形式为：

在本发明中，居住区基站列表REL的列表形式为：

表示Doctor₂跟re_a之间映射的人流量；所述的计算关系为：判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在医院基站列表HL中，不是则放弃记录；同理，判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在居住区基站列表REL中，不是则放弃记录。如果Phone_c同时存在于医院基站列表HL和居住区基站列表REL中则在R_t中记录否则，放弃记录。

在本发明中，医院基站列表HL的列表形式为：

在本发明中，居住区基站列表REL的列表形式为：

表示Doctor_b跟re₁之间映射的人流量；所述的计算关系为：判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在医院基站列表HL中，不是则放弃记录；同理，判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在居住区基站列表REL中，不是则放弃记录。如果Phone_c同时存在于医院基站列表HL和居住区基站列表REL中则在R_t中记录否则，放弃记录。

在本发明中，医院基站列表HL的列表形式为：

在本发明中，居住区基站列表REL的列表形式为：

表示Doctor_b跟re₂之间映射的人流量；所述的计算关系为：判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在医院基站列表HL中，不是则放弃记录；同理，判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在居住区基站列表REL中，不是则放弃记录。如果Phone_c同时存在于医院基站列表HL和居住区基站列表REL中则在R_t中记录否则，放弃记录。

在本发明中，医院基站列表HL的列表形式为：

在本发明中，居住区基站列表REL的列表形式为：

表示Doctor_b跟re_a之间映射的人流量；所述的计算关系为：判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在医院基站列表HL中，不是则放弃记录；同理，判断PH＝{Phone₁,Phone₂,…,Phone_c}中的任意是否位于如果是，则记录在居住区基站列表REL中，不是则放弃记录。如果Phone_c同时存在于医院基站列表HL和居住区基站列表REL中则在R_t中记录否则，放弃记录。

在本发明中，医院基站列表HL的列表形式为：

在本发明中，居住区基站列表REL的列表形式为：

在步骤D和步骤E中，对推荐目标模型和隐性特征矩阵的获取处理过程如下：

由于医疗机构互联网数据具有非常多的类型与来源，即数据的多元性.这些不同来源的医疗机构数据无论是从结构上、组织方式上、维度尺度与粒度上都会存在巨大差异，即数据的异构性、智慧城市的应用需求要求推荐系统必须将这些多元异构数据进行有机的融合，通过挖掘活化数据之间的相关性与相互作用方式来获取隐性特征。

在本发明中，根据Tm_就诊量和FR来设计医疗机构推荐目标模型记为

在本发明中，当前轮次的J值(方便说明，记为J_当前)与前一次的J值(方便说明，记为J_前一_次)进行差值比较ΔJ＝|J_当前-J_前一次|，若ΔJ趋近于0，则隐性特征模型J达到收敛，并用医疗机构推荐目标模型来修改医疗机构—居住区就诊量矩阵；若ΔJ不趋近于0，则说明隐性特征模型J未达到收敛，返回步骤E重新进行隐性特征矩阵获取。

F表示范数，即Frobenius范数。

γ表示医院隐性特征矩阵的系数。

θ表示对FR张量因子的学习系数。

δ表示居住区隐性特征矩阵的系数。

Weight_缺失表示缺失值权重。

其中，所述缺失值权重

取值范围是0或者1，0代表Doctor₁跟re₁之间的数据缺失，是需要预测的对象，1代表Doctor₁跟re₁之间的数据存在，不需要预测。

取值范围是0或者1，0代表Doctor₁跟re₂之间的数据缺失，是需要预测的对象，1代表Doctor₁跟re₂之间的数据存在，不需要预测。

取值范围是0或者1，0代表Doctor₁跟re_a之间的数据缺失，是需要预测的对象，1代表Doctor₁跟re_a之间的数据存在，不需要预测。

取值范围是0或者1，0代表Doctor₂跟re₁之间的数据缺失，是需要预测的对象，1代表Doctor₂跟re₁之间的数据存在，不需要预测。

取值范围是0或者1，0代表Doctor₂跟re₂之间的数据缺失，是需要预测的对象，1代表Doctor₂跟re₂之间的数据存在，不需要预测。

取值范围是0或者1，0代表Doctor₂跟re_a之间的数据缺失，是需要预测的对象，1代表Doctor₂跟re_a之间的数据存在，不需要预测。

取值范围是0或者1，0代表Doctor_b跟re₁之间的数据缺失，是需要预测的对象，1代表Doctor_b跟re₁之间的数据存在，不需要预测。

取值范围是0或者1，0代表Doctor_b跟re₂之间的数据缺失，是需要预测的对象，1代表Doctor_b跟re₂之间的数据存在，不需要预测。

取值范围是0或者1，0代表Doctor_b跟re_a之间的数据缺失，是需要预测的对象，1代表Doctor_b跟re_a之间的数据存在，不需要预测。

其中，对应于医疗机构的隐性特征记为

表示Doctor₁跟re₁之间就诊量预测的隐性特征值，最大迭代次数记为m，且m＝500；每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置。计算公式：α表示梯度下降系数。

表示Doctor₁跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置。计算公式：

表示Doctor₁跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置。计算公式：

表示Doctor₂跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置。计算公式：

表示Doctor₂跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置。计算公式：

表示Doctor₂跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置。计算公式：

表示Doctor_b跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置。计算公式：

表示Doctor_b跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置。计算公式：

表示Doctor_b跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置。计算公式：

对应于居住区域的隐性特征记为

表示Doctor₁跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置。计算公式：

表示Doctor₁跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置。计算公式：

表示Doctor₁跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置。计算公式：

表示Doctor₂跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置。计算公式：

表示Doctor₂跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置。计算公式：

表示Doctor₂跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置。计算公式：

表示Doctor_b跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置。计算公式：

表示Doctor_b跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置。计算公式：

表示Doctor_b跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置。计算公式：

由于本发明的线性回归张量因子FR选用了多个就诊量协同，因此线性回归张量因子FR的系数记为

表示Doctor₁跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值。计算公式： α表示梯度下降系数。sum为加和函数符号。

表示Doctor₁跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值。计算公式：

表示Doctor₁跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值。计算公式：

实施例1

若一个行政地区的医疗机构总数为321个，划分在市区区域里的医疗机构有157个，划分在郊区区域里的医疗机构有164个。

若一个行政地区的医疗机构测试集为160个，训练集为161个，划分在市区区域里的医疗机构测试集有78个，训练集有79个，划分在郊区区域里的医疗机构测试集有82个，训练集有82个。

如图2所示，图中A号线表示行政区域所有医疗机构参与本发明方法的标准误差，其中测试集有160个医疗机构，训练集有161个医疗机构。

如图2所示，图中B号线表示行政区域划分在市区区域里的医疗机构参与本发明方法的标准误差，其中测试集有78个医疗机构，训练集有79个医疗机构。

如图2所示，图中C号线表示行政区域划分在郊区区域里的医疗机构参与本发明方法的标准误差，其中测试集有82个医疗机构，训练集有82个医疗机构。

从图2可以看出，经过本发明方法计算得到的标准误差很小，说明针对医疗机构的推荐准确度高。

实施例2

若一个行政地区的医疗机构总数为321个，则测试集有160个医疗机构，训练集有161个医疗机构。

如图3所示，经“SVD”、“LR”和“本发明”三种方法的标准误差对比可见，本发明的标准误差最小，说明本发明的方法比“SVD”、“LR”两种方法的推荐准确度高。

“SVD”方法请参考《推荐系统技术、评估及高效算法》李艳民译，2015年7月第1版，第104-105页。

“LR(Linear Models for Regression)”方法请参考《Pattern Recognition andMachine Learning》Christopher M.Bishop，2006年，第136-147中。

Claims

1.一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法，其特征在于包括有下列步骤：

医疗机构—居住区就诊量矩阵记为

线性回归张量因子记为FR＝[R_r,R_s,R_t]_b×a×3；

所述距离因子

所述就诊量因子

所述人流量因子r表示距离标识，s表示就诊量标识，r表示人流量标识；b的取值为321，a的取值为1343；

医疗机构推荐目标模型记为

F表示范数，即Frobenius范数；

γ表示医院隐性特征矩阵的系数；

θ表示对FR张量因子的学习系数；

δ表示居住区隐性特征矩阵的系数；

Weight_缺失表示缺失值权重；

隐性特征有2个，即医疗机构的隐性特征记为

表示Doctor₁跟re₁之间就诊量预测的隐性特征值，最大迭代次数记为m，且m＝500；每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置；计算公式：α表示梯度下降系数；

表示Doctor₁跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置；计算公式：

表示Doctor₁跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置；计算公式：

表示Doctor₂跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置；计算公式：

表示Doctor₂跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置；计算公式：

表示Doctor₂跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置；计算公式：

表示Doctor_b跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置；计算公式：

表示Doctor_b跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置；计算公式：

表示Doctor_b跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示Q_特征矩阵的转置；计算公式：

即居住区域的隐性特征记为

表示Doctor₁跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置；计算公式：

表示Doctor₁跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置；计算公式：

表示Doctor₁跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置；计算公式：

表示Doctor₂跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置；计算公式：

表示Doctor₂跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置；计算公式：

表示Doctor₂跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置；计算公式：

表示Doctor_b跟re₁之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置；计算公式：

表示Doctor_b跟re₂之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置；计算公式：

表示Doctor_b跟re_a之间就诊量预测的隐性特征值，迭代m次循环计算，每一轮的都由前一轮的隐性特征值通过以下公式更新，第一轮的表示随机产生的一个初始数值，表示P_特征矩阵的转置；计算公式：

以来修正步骤B构建的医疗机构-居住区域就诊量矩阵，记为Tm_{就诊量_重构}；

表示经修正后的就诊量；

步骤G：以推荐标准误差模型对经步骤F修正后的医疗机构—居住区就诊量矩阵进行推荐标准误差的计算，若标准误差小于0.3，则将获得推荐结果提供给用户；

推荐标准误差模型记为

2.根据权利要求1所述的基于线性回归因子非负矩阵分解模型的医疗机构推荐方法，其特征在于：医疗机构推荐系统所需的推荐用原始数据是由互联网提供，则互联网中至少需要以下模块提供数据信息，即包括有：

手机基站信息模块，用于提供手机用户注册信息、用户的移动状态信息、用户登录互联网信息等；

为了表征医疗机构与居住区域之间的就诊量，应用了患者的就诊信息DI、患者就诊时间信息DT、以及医疗机构集DC＝{Doctor₁,Doctor₂,…,Doctor_b}和居住区域集RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}的信息；所述患者的就诊信息DI包括有患者的家庭住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话等相关信息，其中，患者的家庭住址为不可缺少项；

所述居住区域集RE＝{re₁,re₂,…,re_n-1,re_n,re_n+1,…,re_a}中角标a表示居住区域的总个数，n表示居住区域的标识号；居住区域re的地理位置re(x,y)中的x为经度，y为纬度；

所述医疗机构集DC＝{Doctor₁,Doctor₂,…,Doctor_b}中角标b表示医疗机构的总个数，也是医疗机构的标识号；医疗机构Doctor的地理位置Doctor(x,y)中的x为经度，y为纬度；

Doctor_b表示最后一个医疗机构，所述最后一个医疗机构Doctor_b的地理位置记为