CN107291739A - 网络用户健康状况的评价方法、系统及设备 - Google Patents

网络用户健康状况的评价方法、系统及设备 Download PDF

Info

Publication number
CN107291739A
CN107291739A CN201610201241.1A CN201610201241A CN107291739A CN 107291739 A CN107291739 A CN 107291739A CN 201610201241 A CN201610201241 A CN 201610201241A CN 107291739 A CN107291739 A CN 107291739A
Authority
CN
China
Prior art keywords
user
network
behavior data
measured
health status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610201241.1A
Other languages
English (en)
Inventor
徐宇
任寅姿
孙艳
向邦宇
刘亚光
杨建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610201241.1A priority Critical patent/CN107291739A/zh
Priority to TW105129845A priority patent/TW201737194A/zh
Priority to US15/473,016 priority patent/US20170286624A1/en
Priority to EP17776613.6A priority patent/EP3411850A4/en
Priority to PCT/US2017/024886 priority patent/WO2017173012A1/en
Publication of CN107291739A publication Critical patent/CN107291739A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及一种网络用户健康状况的评价方法、系统及设备。其中,网络用户健康状况的评价方法,包括:获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;基于所述网络行为数据,评价所述待测用户的健康状况。本发明基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式,成本低,可行性高,更新快。

Description

网络用户健康状况的评价方法、系统及设备
技术领域
本发明涉及通信领域,尤其涉及一种网络用户健康状况的评价方法、系统及设备。
背景技术
目前,一些互联网应用充当平台的角色,服务提供者和服务需求者在平台上注册,服务提供者为服务需求者提供相关服务。在某些场景下,服务提供者应该是健康的。所以在对服务提供者和服务需求者进行匹配的时候,需要将服务提供者近期的健康状况作为一个参考指标。
当前的相关技术中,通过医疗检测数据来评价用户的健康状况,该相关技术一般包括以下步骤:
采集医疗检测数据,例如血压、血糖、BMI(Body Mass Index,体质指数),骨密度、心血管、动脉硬化、血氧等基础项数据;
对采集的医疗检测数据进行筛选,筛选出最新数据参与健康指数计算;
对血压、血糖、BMI、骨密度、心血管等基础项采用等比法、区间取值法计算单项指标评分;
基于单项指标评分加权平均计算综合健康指数。
上述相关技术存在以下弊端:
一是,用户的医疗检测数据难以获取。用户的医疗检测数据虽然可以反映用户的健康状况,但由于该类数据属于高度隐私数据,用户往往不愿意提供这些数据,这使得基于医疗检测数据检测用户健康状况的方案可行性非常低。
二是,基于医疗检测数据获得的健康状况更新成本高。由于医疗检测数据的收集成本较高,受限于高成本,基于医疗检测数据获得的健康状况更不可能周期性地进行更新。
三是,基于医疗检测数据获得的健康状况对可信度低。对单项指标评分进行加权计算综合健康指数时,权重的选取主观性较强,导致降低了基于医疗检测数据获得的健康状况的可信度。
发明内容
本发明的目的在于提供一种网络用户健康状况的评价方法、系统及设备,开拓一种新的健康状况评价方式。
为实现上述目的,本发明提出了一种网络用户健康状况的评价方法,包括:
获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;
基于所述网络行为数据,评价所述待测用户的健康状况。
进一步地,上述方法还可具有以下特点,所述基于所述网络行为数据,评价所述待测用户的健康状况包括:
根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户;
从所述网络行为数据中提取所述待测用户和所述样本用户的特征数据;
以所述特征数据作为预设的健康指数计算模型的输入,计算获得所述待测用户的健康指数。
进一步地,上述方法还可具有以下特点,所述根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户包括:
根据所述网络行为数据中的第一指定网络行为数据从所述多个用户中选择正样本用户,所述正样本用户不包括所述待测用户;
根据所述网络行为数据中的第二指定网络行为数据从所述多个用户中选择负样本用户,所述负样本用户不包括所述待测用户。
进一步地,上述方法还可具有以下特点,所述根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户还包括:
分别从所述正样本用户和所述负样本用户中清除重叠样本用户,所述重叠样本用户指既是正样本用户又是负样本用户的样本用户;
平衡所述正样本用户和所述负样本用户的数量比例,使所述数量比例处于设定比例范围内。
进一步地,上述方法还可具有以下特点,所述第一指定网络行为数据为在预设的第一历史时期内在运动类目下的购买行为数据,所述第二指定网络行为数据为在预设的第二历史时期内搜索和浏览医疗挂号网站的行为数据。
进一步地,上述方法还可具有以下特点,所述以所述特征数据作为预设的健康指数计算模型的参数,计算获得所述待测用户的健康指数,包括:
利用所述样本用户的特征数据对所述健康指数计算模型进行训练,以得到所述健康指数计算模型中的参数值;
将所述待测用户的特征数据作为以所述参数值为参数的所述健康指数计算模型的输入,以预测出所述待测用户的健康概率;
对所述待测用户的健康概率进行归一化处理,以获得所述待测用户的健康指数。
进一步地,上述方法还可具有以下特点,所述特征数据包括体质指数BMI、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作之中的任意多种。
本发明实施例的网络用户健康状况的评价方法,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式。并且,本发明实施例的网络用户健康状况的评价方法,成本低,可行性高,更新快。
为实现上述目的,本发明还提出了一种网络用户健康状况的评价系统,包括:
获取装置,用于获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;
评价装置,用于基于所述获取装置获取的所述网络行为数据,评价所述待测用户的健康状况。
进一步地,上述系统还可具有以下特点,所述评价装置包括:
选择模块,用于根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户;
提取模块,用于从所述网络行为数据中提取所述待测用户和所述选择模块选择的所述样本用户的特征数据;
计算模块,用于以所述提取模块提取的所述特征数据作为预设的健康指数计算模型的输入,计算获得所述待测用户的健康指数。
进一步地,上述系统还可具有以下特点,所述选择模块包括:
第一选择单元,用于根据所述网络行为数据中的第一指定网络行为数据从所述多个用户中选择正样本用户,所述正样本用户不包括所述待测用户;
第二选择单元,用于根据所述网络行为数据中的第二指定网络行为数据从所述多个用户中选择负样本用户,所述负样本用户不包括所述待测用户。
进一步地,上述系统还可具有以下特点,所述选择模块还包括:
清除单元,用于分别从所述正样本用户和所述负样本用户中清除重叠样本用户,所述重叠样本用户指既是正样本用户又是负样本用户的样本用户。
平衡单元,用于平衡所述正样本用户和所述负样本用户的数量比例,使所述数量比例处于设定比例范围内。
进一步地,上述系统还可具有以下特点,所述第一指定网络行为数据为在预设的第一历史时期内在运动类目下的购买行为数据,所述第二指定网络行为数据为在预设的第二历史时期内搜索和浏览医疗挂号网站的行为数据。
进一步地,上述系统还可具有以下特点,所述计算模块包括:
训练单元,用于利用所述样本用户的特征数据对所述健康指数计算模型进行训练,以得到所述健康指数计算模型中的参数值;
预测单元,用于将所述待测用户的特征数据作为以所述参数值为参数的所述健康指数计算模型的输入,以预测出所述待测用户的健康概率;
归一化单元,用于对所述预测单元预测出的所述待测用户的健康概率进行归一化处理,以获得所述待测用户的健康指数。
进一步地,上述系统还可具有以下特点,所述特征数据包括体质指数BMI、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作之中的任意多种。
本发明实施例的网络用户健康状况的评价系统,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式。并且,本发明实施例的网络用户健康状况的评价系统,成本低,可行性高,更新快。
为实现上述目的,本发明还提出了一种网络用户健康状况的评价设备,包括前述任一项所述的网络用户健康状况的评价系统。
本发明实施例的网络用户健康状况的评价设备,包括网络用户健康状况的评价系统,能够基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式,成本低,可行性高,更新快。
附图说明
图1为本发明实施例一中网络用户健康状况的评价方法的流程图。
图2为本发明实施例二中网络用户健康状况的评价方法的流程图。
图3为本发明实施例三中网络用户健康状况的评价系统的结构框图。
图4为本发明实施例四中网络用户健康状况的评价系统的结构框图。
图5为本发明实施例五中网络用户健康状况的评价设备的结构框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,根据本发明精神所获得的所有实施例,都属于本发明的保护范围。
图1为本发明实施例一中网络用户健康状况的评价方法的流程图。如图1所示,本实施例中,网络用户健康状况的评价方法可以包括如下步骤:
步骤S101,获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;
其中,从网络行为数据中可以提取出电商行为数据、网页浏览行为数据、体质指数BMI、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作等特征数据。
其中,设定历史时期一般是过去两周、过去一个月、过去一年等等。对于不同种类的网络行为数据,设定历史时期可以不同。例如,当获取的网络行为数据是电商行为数据时,设定历史时期可以是过去一个月,当获取的网络行为数据为是否经常熬夜时,设定历史时期可以是过去两周。
网络行为数据是由网络服务器自动记录的,可以从网络服务器获取。由于网络行为数据不属于隐私数据,多数都可以公开,并且也不需要由用户本人提供,因此获取非常容易,而且成本很低,这就使得本发明基于网络行为数据评价用户健康状况的方案可行性非常高。
步骤S102,基于获取的网络行为数据,评价待测用户的健康状况。
网络行为数据可以在一定程度上反映用户的健康状况,而且在当今的互联网时代,人们的日常生活与网络密不可分,上网行为几乎无时无处不在,因此本发明开拓性地基于网络行为数据来评价用户的健康状况。这相对于传统的基于医疗检测数据的健康状况评价方式具有革命性的意义。并且,网络行为数据不仅更新快,而且其更新几乎不需要任何成本,因此,基于网络行为数据的更新来更新用户的健康状况不仅更新快,而且更新成本非常低廉。
本发明实施例的网络用户健康状况的评价方法,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式。并且,本发明实施例的网络用户健康状况的评价方法,成本低,可行性高,更新快。
图2为本发明实施例二中网络用户健康状况的评价方法的流程图。如图2所示,本实施例中,网络用户健康状况的评价方法可以包括如下步骤:
步骤S201,获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;
步骤S202,根据该网络行为数据中的指定网络行为数据从该多个用户中选择样本用户;
在本发明实施例中,根据网络行为数据中的指定网络行为数据从该多个用户中选择样本用户可以包括:
根据网络行为数据中的第一指定网络行为数据从该多个用户中选择正样本用户,其中,正样本用户不包括待测用户;
根据网络行为数据中的第二指定网络行为数据从该多个用户中选择负样本用户,其中,负样本用户不包括待测用户。
在此基础上,在本发明其他实施例中,根据网络行为数据中的指定网络行为数据从该多个用户中选择样本用户还可以进一步包括:
分别从正样本用户和负样本用户中清除重叠样本用户,其中,重叠样本用户指既是正样本用户又是负样本用户的样本用户;
平衡正样本用户和负样本用户的数量比例,使该数量比例处于设定比例范围内。
其中,第一指定网络行为数据可以为在预设的第一历史时期内在运动类目下的购买行为数据,第二指定网络行可以为数据为在预设的第二历史时期内搜索和浏览医疗挂号网站的行为数据。
其中,正样本用户表示健康用户,负样本用户表示不健康用户。
步骤S203,从该网络行为数据中提取待测用户和样本用户的特征数据;
其中,特征数据可以包括体质指数BMI、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作等,也可以是其中的任意多种。
步骤S204,以特征数据作为预设的健康指数计算模型的参数,计算获得待测用户的健康指数。
上述的步骤S202至步骤S204是前述步骤S102的一种具体实施方式。
在本发明实施例中,以特征数据作为预设的健康指数计算模型的参数,计算获得待测用户的健康指数可以包括如下子步骤:
利用所述样本用户的特征数据对所述健康指数计算模型进行训练,以得到所述健康指数计算模型中的参数值;
将所述待测用户的特征数据作为以所述参数值为参数的所述健康指数计算模型的输入,以预测出所述待测用户的健康概率;
对待测用户的健康概率进行归一化处理,以获得待测用户的健康指数。
通过将待测用户的特征数据与样本用户的相应特征数据进行比较,可以比较客观地反映待测用户的健康状况,使得用户健康状况评价结果可信度更高。
下面通过一个具体应用示例对本发明实施例的网络用户健康状况的评价方法作进一步说明。
在该示例中,网络用户健康状况的评价方法可以包括如下步骤:
步骤a,获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;
步骤b,根据网络行为数据选择正样本用户;
假定爱好运动的人群健康状况比较好。基于该假设,本步骤根据用户过去一个月内在运动类目下的购买行为数据筛选出正样本集。
首先,对用户过去一个月内在运动类目下的购买行为数据进行初步清洗(即排除)。考虑到网购数据受刷单行为的影响,需要对明显异常的数据进行清洗,对用户在过去一年、过去一个月、过去两个星期内在某一叶子类目下的订单数分别设置阈值,将在过去一年或者过去一个月或者过去两个星期内的订单数大于设定阈值的用户排除掉。
然后,对初步清洗后的数据统计每个用户在过去一个月内的总的购买频次X,计算这些用户的平均购买频次μ,方差σ2,利用z-score方法对购买频次X标准化得到
为小概率事件,可认为这部分为异常值,从而在满足的用户中选取正样本用户。另外,还需要选取购买频次相对较高的用户,因此最后将满足的用户标记为正样本用户。
步骤c,根据网络行为数据选择负样本用户;
具体地,根据用户过去一个月搜索和浏览医疗挂号网站的数据,统计用户搜索和浏览的频次,选取总频次大于设定阈值的用户作为负样本用户。
步骤d,将重叠样本用户从正、负样本用户中去除;
正、负样本用户可能会有重合,需要将重合的样本用户从正、负样本用户中去除。其中,重叠样本用户指既是正样本用户又是负样本用户的样本用户。
步骤e,对正、负样本用户的比例进行调控;
调控是为了防止正、负样本用户数量不平衡。
步骤f,从网络行为数据中提取待测用户和正、负样本用户的特征数据;
该示例中,特征数据包括体质指数BMI、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作。
其中,体质指数BMI用来衡量人体胖瘦程度以及是否健康,是用体重除以身高的平方得出的数字,即BMI=体重/身高的平方,体重单位为千克,身高单位为米。在计算BMI时要对异常值进行清洗:(1)对于身高为0的情况,将BMI设为空值;(2)将BMI<12或BMI>40的BMI值认为异常数据,将BMI设为空值。
其中,用户沉溺于游戏和爱好垃圾食品是一个模糊的概念,而不是非0即1的二值概念。根据用户过去一个月在游戏类目和过去两个星期在垃圾食品类目下的购买行为,分别计算用户沉溺于游戏和爱好垃圾食品的程度,计算出的值位于区间[0,1],用户沉溺于游戏和爱好垃圾食品的程度可以采用如下步骤计算:
(1)对用户在过去一年、过去一个月、过去两个星期内在某一叶子类目下的订单数分别设置阈值,将在过去一年或者过去一个月或者过去两个星期内的订单数大于设定阈值的用户排除掉;
(2)根据初步清理后的数据统计用户的总购买频次,计算第一四分位数Q1和第三四分位数Q3,求分位距IQR;
(3)在异常值检测理论中,位于区间[Q3+1.5IQR,+∞)的点被认为异常点,认为购买频次大于Q3+1.5IQR的程度比较大,但是考虑到这个结果会受刷单等垃圾数据的影响,选取一个临界值Q=Q3+2.5IQR,购买频次大于这个临界值Q比较多的被认为是垃圾数据,对应的程度值应该比较小,另外购买频次接近临界值的对应的程度应该比较大,所以通过公式如下公式(2)计算用户沉溺于游戏和爱好垃圾食品的程度,
其中,α为可调参数。
其中,对于是否经常熬夜,根据用户在个人电脑端和移动设备端的上网时间偏好判断用户是否经常熬夜,把最常浏览时间段为凌晨0到5点的用户标记为经常熬夜。
其中,关于过去两周购买医药用品的频次。基于用户过去两周在医药类目下的购买数据,首先按照上述正样本用户选择中相同的方法对数据进行初步清洗,然后統计用户过去两周在该类目下的总频次,设定一个阈值,如果用户的总频次大于该阈值则设为空值。
其中,关于是否从事体力工作。根据用户从事的工作(学生,白领,经商,公务员,制造工人,医务人员,媒体人士,建筑从业者,营业员,服务员),把工作为制造工人和建筑从业者的用户标记为从事体力劳动。
步骤g,根据预设的健康指数计算模型计算健康指数。
考虑到特征数据总存在较多的空数据,这里选择随机森林作为分类模型,根据输入健康指数计算模型的样本和特征,健康指数计算模型先预测用户是否健康,并输出用户健康的概率prb。对输出的概率值prb作归一化处理,设所有用户(正、负样本用户和待测用户)中概率值prb的最大值为max_prb,最小值为min_prb,按照如下的公式(3)计算健康指数:
本发明实施例的网络用户健康状况的评价方法,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式,成本低,可行性高,更新快。并且,本发明实施例的网络用户健康状况的评价方法,能够比较客观地反映待测用户的健康状况,健康状况评价结果可信度更高。
图3为本发明实施例三中网络用户健康状况的评价系统的结构框图。如图3所示,本实施例中,网络用户健康状况的评价系统300可以包括获取装置310和评价装置320。其中,获取装置310用于获取包括待测用户在内的多个用户在设定历史时期的网络行为数据。评价装置320用于基于获取装置310获取的网络行为数据,评价待测用户的健康状况。
其中,网络行为数据可以包括电商行为数据和/或网页浏览行为数据,例如体质指数BMI、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作等。
其中,设定历史时期一般是过去两周、过去一个月、过去一年等等。对于不同种类的网络行为数据,设定历史时期可以不同。例如,当获取的网络行为数据是电商行为数据时,设定历史时期可以是过去一个月,当获取的网络行为数据为是否经常熬夜时,设定历史时期可以是过去两周。
网络行为数据是由网络服务器自动记录的,可以从网络服务器获取。由于网络行为数据不属于隐私数据,多数都可以公开,并且也不需要由用户本人提供,因此获取非常容易,而且成本很低,这就使得本发明基于网络行为数据评价用户健康状况的方案可行性非常高。
网络行为数据可以在一定程度上反映用户的健康状况,而且在当今的互联网时代,人们的日常生活与网络密不可分,上网行为几乎无时无处不在,因此本发明开拓性地基于网络行为数据来评价用户的健康状况。这相对于传统的基于医疗检测数据的健康状况检测方式具有革命性的意义。并且,网络行为数据不仅更新快,而且其更新几乎不需要任何成本,因此,基于网络行为数据的更新来更新用户的健康状况不仅更新快,而且更新成本非常低廉。
本发明实施例的网络用户健康状况的评价系统,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式。并且,本发明实施例的网络用户健康状况的评价系统,成本低,可行性高,更新快。
图4为本发明实施例四中网络用户健康状况的评价系统的结构框图。如图4所示,本实施例中,网络用户健康状况的评价系统400可以包括获取装置410和评价装置420。其中,获取装置410用于获取包括待测用户在内的多个用户在设定历史时期的网络行为数据。评价装置420用于基于获取装置410获取的网络行为数据,评价待测用户的健康状况。
参见图4,本实施例中,评价装置420可以包括选择模块421、提取模块422和计算模块423。其中,选择模块421用于根据网络行为数据中的指定网络行为数据从该多个用户中选择样本用户。提取模块422用于从网络行为数据中提取待测用户和选择模块421选择的样本用户的特征数据。计算模块423用于以提取模块422提取的特征数据作为预设的健康指数计算模型的参数,计算获得待测用户的健康指数。
在本发明实施例中,选择模块421可以包括第一选择单元和第二选择单元。其中,第一选择单元用于根据网络行为数据中的第一指定网络行为数据从该多个用户中选择正样本用户,正样本用户不包括所述待测用户。第二选择单元用于根据网络行为数据中的第二指定网络行为数据从多个用户中选择负样本用户,负样本用户不包括所述待测用户。在此基础上,在本发明其他实施例中,选择模块421还可以进一步包括清除单元和平衡单元。其中,清除单元用于分别从正样本用户和负样本用户中清除重叠样本用户,其中,重叠样本用户指既是正样本用户又是负样本用户的样本用户。平衡单元用于平衡正样本用户和负样本用户的数量比例,使该数量比例处于设定比例范围内。
其中,第一指定网络行为数据可以为在预设的第一历史时期内在运动类目下的购买行为数据,第二指定网络行为数据可以为在预设的第二历史时期内搜索和浏览医疗挂号网站的行为数据。
在本发明实施例中,计算模块423可以包括训练单元、预测单元和归一化单元。其中,训练单元用于利用样本用户的特征数据对所述健康指数计算模型进行训练,以得到健康指数计算模型中的参数值。预测单元用于将待测用户的特征数据作为以训练单元得到的参数值为参数的健康指数计算模型的输入,以预测出待测用户的健康概率。归一化单元用于对预测单元预测出的待测用户的健康概率进行归一化处理,以获得待测用户的健康指数。
其中,特征数据可以包括体质指数BMI、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作之中的任意多种。
本发明实施例的网络用户健康状况的评价系统,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式,成本低,可行性高,更新快。并且,本发明实施例的网络用户健康状况的评价系统,能够比较客观地反映待测用户的健康状况,健康状况评价结果可信度更高。
图5为本发明实施例五中网络用户健康状况的评价设备的结构框图。如图5所示,本实施例中,网络用户健康状况的评价设备500中包括网络用户健康状况的评价系统。其中,网络用户健康状况的评价系统可以是本发明前述实施例中的任一种网络用户健康状况的评价系统。
网络用户健康状况的评价系统用于获取包括待测用户在内的多个用户在设定历史时期的网络行为数据,以及基于获取的网络行为数据,评价待测用户的健康状况。
其中,网络用户健康状况的评价设备可以是计算机、服务器等。
本发明实施例的网络用户健康状况的评价设备,包括网络用户健康状况的评价系统,能够基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式,成本低,可行性高,更新快。并且,本发明实施例的网络用户健康状况的评价设备,能够比较客观地反映待测用户的健康状况,健康状况评价结果可信度更高。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种网络用户健康状况的评价方法,其特征在于,包括:
获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;
基于所述网络行为数据,评价所述待测用户的健康状况。
2.根据权利要求1所述的网络用户健康状况的评价方法,其特征在于,所述基于所述网络行为数据,评价所述待测用户的健康状况包括:
根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户;
从所述网络行为数据中提取所述待测用户和所述样本用户的特征数据;
以所述特征数据作为预设的健康指数计算模型的输入,计算获得所述待测用户的健康指数。
3.根据权利要求2所述的网络用户健康状况的评价方法,其特征在于,所述根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户包括:
根据所述网络行为数据中的第一指定网络行为数据从所述多个用户中选择正样本用户,所述正样本用户不包括所述待测用户;
根据所述网络行为数据中的第二指定网络行为数据从所述多个用户中选择负样本用户,所述负样本用户不包括所述待测用户。
4.根据权利要求3所述的网络用户健康状况的评价方法,其特征在于,所述根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户还包括:
分别从所述正样本用户和所述负样本用户中清除重叠样本用户,所述重叠样本用户指既是正样本用户又是负样本用户的样本用户;
平衡所述正样本用户和所述负样本用户的数量比例,使所述数量比例处于设定比例范围内。
5.根据权利要求3所述的网络用户健康状况的评价方法,其特征在于,所述第一指定网络行为数据为在预设的第一历史时期内在运动类目下的购买行为数据,所述第二指定网络行为数据为在预设的第二历史时期内搜索和浏览医疗挂号网站的行为数据。
6.根据权利要求2所述的网络用户健康状况的评价方法,其特征在于,所述以所述特征数据作为预设的健康指数计算模型的输入,计算获得所述待测用户的健康指数,包括:
利用所述样本用户的特征数据对所述健康指数计算模型进行训练,以得到所述健康指数计算模型中的参数值;
将所述待测用户的特征数据作为以所述参数值为参数的所述健康指数计算模型的输入,以预测出所述待测用户的健康概率;
对所述待测用户的健康概率进行归一化处理,以获得所述待测用户的健康指数。
7.根据权利要求2所述的网络用户健康状况的评价方法,其特征在于,所述特征数据包括体质指数BMI、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作之中的任意多种。
8.一种网络用户健康状况的评价系统,其特征在于,包括:
获取装置,用于获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;
评价装置,用于基于所述获取装置获取的所述网络行为数据,评价所述待测用户的健康状况。
9.根据权利要求8所述的网络用户健康状况的评价系统,其特征在于,所述评价装置包括:
选择模块,用于根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户;
提取模块,用于从所述网络行为数据中提取所述待测用户和所述选择模块选择的所述样本用户的特征数据;
计算模块,用于以所述提取模块提取的所述特征数据作为预设的健康指数计算模型的输入,计算获得所述待测用户的健康指数。
10.根据权利要求9所述的网络用户健康状况的评价系统,其特征在于,所述选择模块包括:
第一选择单元,用于根据所述网络行为数据中的第一指定网络行为数据从所述多个用户中选择正样本用户,所述正样本用户不包括所述待测用户;
第二选择单元,用于根据所述网络行为数据中的第二指定网络行为数据从所述多个用户中选择负样本用户,所述负样本用户不包括所述待测用户。
11.根据权利要求10所述的网络用户健康状况的评价系统,其特征在于,所述选择模块还包括:
清除单元,用于分别从所述正样本用户和所述负样本用户中清除重叠样本用户,所述重叠样本用户指既是正样本用户又是负样本用户的样本用户。
平衡单元,用于平衡所述正样本用户和所述负样本用户的数量比例,使所述数量比例处于设定比例范围内。
12.根据权利要求10所述的网络用户健康状况的评价系统,其特征在于,所述第一指定网络行为数据为在预设的第一历史时期内在运动类目下的购买行为数据,所述第二指定网络行为数据为在预设的第二历史时期内搜索和浏览医疗挂号网站的行为数据。
13.根据权利要求9所述的网络用户健康状况的评价系统,其特征在于,所述计算模块包括:
训练单元,用于利用所述样本用户的特征数据对所述健康指数计算模型进行训练,以得到所述健康指数计算模型中的参数值;
预测单元,用于将所述待测用户的特征数据作为以所述参数值为参数的所述健康指数计算模型的输入,以预测出所述待测用户的健康概率;
归一化单元,用于对所述预测单元预测出的所述待测用户的健康概率进行归一化处理,以获得所述待测用户的健康指数。
14.根据权利要求9所述的网络用户健康状况的评价系统,其特征在于,所述特征数据包括体质指数BMI、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作之中的任意多种。
15.一种网络用户健康状况的评价设备,其特征在于,包括权利要求8至14任一项所述的网络用户健康状况的评价系统。
CN201610201241.1A 2016-03-29 2016-03-31 网络用户健康状况的评价方法、系统及设备 Pending CN107291739A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201610201241.1A CN107291739A (zh) 2016-03-31 2016-03-31 网络用户健康状况的评价方法、系统及设备
TW105129845A TW201737194A (zh) 2016-03-31 2016-09-13 網路用戶健康狀況的評價方法、系統及設備
US15/473,016 US20170286624A1 (en) 2016-03-31 2017-03-29 Methods, Systems, and Devices for Evaluating a Health Condition of an Internet User
EP17776613.6A EP3411850A4 (en) 2016-03-31 2017-03-30 METHODS, SYSTEMS AND DEVICES FOR ASSESSING THE HEALTH CONDITION OF AN INTERNET USER
PCT/US2017/024886 WO2017173012A1 (en) 2016-03-29 2017-03-30 Methods, systems, and devices for evaluating a health condition of an internet user

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610201241.1A CN107291739A (zh) 2016-03-31 2016-03-31 网络用户健康状况的评价方法、系统及设备

Publications (1)

Publication Number Publication Date
CN107291739A true CN107291739A (zh) 2017-10-24

Family

ID=59961657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610201241.1A Pending CN107291739A (zh) 2016-03-29 2016-03-31 网络用户健康状况的评价方法、系统及设备

Country Status (4)

Country Link
US (1) US20170286624A1 (zh)
EP (1) EP3411850A4 (zh)
CN (1) CN107291739A (zh)
TW (1) TW201737194A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766512A (zh) * 2018-05-31 2018-11-06 康键信息技术(深圳)有限公司 健康数据管理方法、装置、计算机设备和存储介质
CN109214444A (zh) * 2018-08-24 2019-01-15 小沃科技有限公司 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN114496250A (zh) * 2022-01-17 2022-05-13 无锡市第二人民医院 一种螺旋体系下的老年综合评估方法及系统
CN116245555A (zh) * 2023-03-09 2023-06-09 清瑞网络科技(山东)有限责任公司 一种基于大数据的用户信息收集分析系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800139A (zh) * 2018-12-18 2019-05-24 东软集团股份有限公司 服务器健康度分析方法,装置,存储介质及电子设备
CN110175247B (zh) * 2019-03-13 2021-06-08 北京邮电大学 一种优化基于深度学习的异常检测模型的方法
CN111798978A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 用户健康评估方法、装置、存储介质及电子设备
CN110110633B (zh) * 2019-04-28 2022-05-13 华东交通大学 一种基于机器学习的偏瘫步态自动识别和分析的方法
CN114787937A (zh) * 2019-12-09 2022-07-22 皇家飞利浦有限公司 用于基于家庭互联网业务模式来监测健康状况的系统和方法
CN112016844A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 区域健康建设进程评估方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003222A (ja) * 2008-06-23 2010-01-07 Focus Systems Corp 健康支援システム
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法
CN103262104A (zh) * 2010-09-08 2013-08-21 电信教育集团-巴黎电信学校 用于为对象配置评分的方法以及决策支持系统
CN104143165A (zh) * 2014-06-13 2014-11-12 朱健鹏 面向抑郁情绪的心理干预方案个性化推荐方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106538A1 (en) * 2005-11-08 2007-05-10 The Regence Group Employing user interaction to generate health care rewards
US8930204B1 (en) * 2006-08-16 2015-01-06 Resource Consortium Limited Determining lifestyle recommendations using aggregated personal information
WO2012050969A1 (en) * 2010-09-29 2012-04-19 Quentiq AG Automated health data acquisition, processing and communication system
US10172581B2 (en) * 2013-09-09 2019-01-08 Dana-Farber Cancer Institute, Inc. Methods of assessing tumor growth
AU2015201602A1 (en) * 2014-03-27 2015-10-15 MyCognition Limited Adaptive cognitive skills assessment and training
US11080732B2 (en) * 2016-06-13 2021-08-03 Adobe Inc. Audience comparison

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003222A (ja) * 2008-06-23 2010-01-07 Focus Systems Corp 健康支援システム
CN103262104A (zh) * 2010-09-08 2013-08-21 电信教育集团-巴黎电信学校 用于为对象配置评分的方法以及决策支持系统
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法
CN104143165A (zh) * 2014-06-13 2014-11-12 朱健鹏 面向抑郁情绪的心理干预方案个性化推荐方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766512A (zh) * 2018-05-31 2018-11-06 康键信息技术(深圳)有限公司 健康数据管理方法、装置、计算机设备和存储介质
CN108766512B (zh) * 2018-05-31 2023-04-07 康键信息技术(深圳)有限公司 健康数据管理方法、装置、计算机设备和存储介质
CN109214444A (zh) * 2018-08-24 2019-01-15 小沃科技有限公司 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN109214444B (zh) * 2018-08-24 2022-01-07 小沃科技有限公司 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN114496250A (zh) * 2022-01-17 2022-05-13 无锡市第二人民医院 一种螺旋体系下的老年综合评估方法及系统
CN116245555A (zh) * 2023-03-09 2023-06-09 清瑞网络科技(山东)有限责任公司 一种基于大数据的用户信息收集分析系统
CN116245555B (zh) * 2023-03-09 2023-12-08 张家口巧工匠科技服务有限公司 一种基于大数据的用户信息收集分析系统

Also Published As

Publication number Publication date
TW201737194A (zh) 2017-10-16
EP3411850A4 (en) 2019-11-13
US20170286624A1 (en) 2017-10-05
EP3411850A1 (en) 2018-12-12

Similar Documents

Publication Publication Date Title
CN107291739A (zh) 网络用户健康状况的评价方法、系统及设备
CN107862022A (zh) 文化资源推荐系统
CN107798027B (zh) 一种信息热度预测方法、信息推荐方法及装置
CN108769159A (zh) 一种电子菜谱智能推荐方法
Gruber et al. Inequality in health care utilization in Germany? Theoretical and empirical evidence for specialist consultation
CN106897566A (zh) 一种风险预估模型的构建方法及装置
CN113284623B (zh) 基于用户能力的个性化认知训练任务推荐算法及系统
CN108446944B (zh) 一种常驻城市的确定方法、装置及电子设备
KR101572176B1 (ko) 개인 유전정보 기반 스마트기기용 헬스케어 앱 관리 방법 및 시스템
CN113239279B (zh) 一种慢性病医疗数据采集分析管理方法及云平台
Arwan et al. Ontology and semantic matching for diabetic food recommendations
CN108039198A (zh) 一种面向移动医疗的医生推荐方法及系统
CN109767270A (zh) 基于人工智能的存房养老信息推荐方法及系统
CN106558012A (zh) 一种基于智能社区的健康服务系统
KR102304563B1 (ko) 사용자 맞춤형 비만 관리 서비스 제공 방법 및 장치
CN110046889A (zh) 一种异常行为主体的检测方法、装置及服务器
CN109840702A (zh) 一种基于多核融合的新项目协同推荐方法
CN110020152B (zh) 应用推荐方法及装置
Song et al. A non-cooperative game with incomplete information to improve patient hospital choice
JP5472922B2 (ja) 生活習慣改善支援システム、及び、生活習慣改善支援方法
CN107103177A (zh) 一种个人健康指数理论评分系统及其评分方法
CN111295716B (zh) 健康管理辅助装置、方法及程序
KR102342770B1 (ko) 질병 예측치의 분포를 이용한 건강관리 상담 시스템
Ntalaperas et al. DISYS: An intelligent system for personalized nutritional recommendations in restaurants
KR20210084231A (ko) 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171024