CN112530598B - 一种基于健康数据的健康风险自测量表推荐方法 - Google Patents

一种基于健康数据的健康风险自测量表推荐方法 Download PDF

Info

Publication number
CN112530598B
CN112530598B CN202011448507.5A CN202011448507A CN112530598B CN 112530598 B CN112530598 B CN 112530598B CN 202011448507 A CN202011448507 A CN 202011448507A CN 112530598 B CN112530598 B CN 112530598B
Authority
CN
China
Prior art keywords
data
health
self
feature
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011448507.5A
Other languages
English (en)
Other versions
CN112530598A (zh
Inventor
张振
佘盼
张敬谊
高兆晨
马成龙
胡杉文
张鑫金
任杰惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WONDERS INFORMATION CO Ltd
Original Assignee
WONDERS INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WONDERS INFORMATION CO Ltd filed Critical WONDERS INFORMATION CO Ltd
Priority to CN202011448507.5A priority Critical patent/CN112530598B/zh
Publication of CN112530598A publication Critical patent/CN112530598A/zh
Application granted granted Critical
Publication of CN112530598B publication Critical patent/CN112530598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供了一种基于健康数据的健康风险自测量表推荐方法。本发明从数据驱动的角度出发,融合大数据技术、深度学习技术加速健康数据挖掘的落地,提供健康自测的应用场景。堆叠交叉模型(DeepFM with Stacked Self‑Attentive,简称ADFM)通过计算用户对候选量表的风险指数,找到用户风险指数较高的量表,从用户被动查询健康信息到主动推荐健康测试量表,最后根据用户自测结果推送干预方案,达到减少用户健康风险的目的。

Description

一种基于健康数据的健康风险自测量表推荐方法
技术领域
本发明涉及一种基于健康数据的健康风险自测量表推荐方法以及健康风险自测量表推荐系统,属于健康量表数据挖掘方法技术领域。
背景技术
随着政府推动“互联网+”移动健康管理的发展,互联网与智能手机的结合更好地为用户提供个性化的健康管理服务。鉴于健康数据复杂性,健康数据采集与具体的移动应用落地相脱离,借助于用户信息挖掘改进服务质量,是快速积累竞争优势的关键。主流的健康检测方式有两种:一种是用户自行前往医院进行健康自测;第二种是用户在线使用量表进行健康自测。当前大部分的移动应用由于仅有较少用户活跃,数据未达到应用的指标,无法深入的对用户和疾病、疾病和用户、急性疾病和慢性疾病的关系进行描述。随着平台用户健康数据的积累,在保证用户信息隐私的情况下,对数据进行的充分挖掘是推动精准健康管理的机遇和挑战。
统计显示,生活方式在健康的影响因素中占据了60%的权重,而医疗才占8%,健康筛查能快速的了解当前的健康状况,以便于及时进行生活方式的调整。当前存在有很多成熟的健康知识普及平台和咨询平台:一种是以健康信息的检索为主,例如好大夫、春雨医生、阿里健康等,另一种是健康咨询类平台,有专业的医生在线提供服务,例如:快速问医网、寻医问药网等。但是,由于许多疾病病因复杂和存在个体知识差异,因此仅仅依靠用户自身的自然语言无法给出精确的健康建议。随着用户健康数据的沉淀,个性化用户健康管理场景的诉求日益强烈,健康筛查作为个性化健康管理的第一步,如何通过数据挖掘赋能健康管理第一步是目前亟待解决的问题。
发明内容
本发明要解决的技术问题是:随着用户健康数据的沉淀,个性化用户健康管理场景的诉求日益强烈,健康筛查作为个性化健康管理的第一步,如何通过数据挖掘赋能健康管理第一步是目前亟待解决的问题。
为了解决上述技术问题,本发明的技术方案是提供了一种基于健康数据的健康风险自测量表推荐方法,其特征在于,包括以下步骤:
步骤一:获取用户已授权的自测量表相关数据;
步骤二:量表数据预处理
对授权获取到的自测量表相关数据进行拼接,将每一次用户的健康自测结果、用户信息和量表信息共同关联存储为一条数据,将数据特征划分为:稠密特征、稀疏特征和不定长特征,对稠密特征、稀疏特征和不定长特征的格式进行编码,并通过关键词抽取技术得出当前自测量表的标签,然后将该标签与PGC给出的当前自测量表的标签进行拼接,获得当前数据的标签;并使用BERT对数据进行向量化处理;
步骤三:数据标注
对步骤二获得的带有标签的数据进行标注,标注时,依据健康自测结果,将健康自测结果为高危的健康自测结果标识为1,其余的健康自测结果统一标识为0;
步骤四:异常数据处理
求得当前用户进行健康自评次数的平均值,根据平均值分布,设置初始的数据去除比例;
步骤五:输入特征和模型构建
构建堆叠交叉模型后,将通过步骤四处理的数据输入该堆叠交叉模型,数据在堆叠交叉模型内先进入特征嵌入层(Feature Embedding),使用特征嵌入方式将稠密特征数据、稀疏特征数据和不定长特征数据转换为低维向量,得到特征嵌入结果;特征嵌入结果并行地与特征交叉层(FM)、多头注意力层(Multi-head Self-Attention)、DNN层进行拼接,其中:通过特征交叉层作为低阶特征提取的部分,通过多头注意力层获得显式高阶交叉特征,通过DNN层得到疾病健康风险指数;堆叠交叉模型最后利用全连接层将特征交叉层、多头注意力层及DNN层的输出结果进行拼接后输出,堆叠交叉模型利用Sigmoid函数的置信度映射用户的患病风险的方式来进行模型训练;
步骤六:量表相关候选集召回
利用用户基本信息、用户健康信息和量表特征召回相关的自测量表;
步骤七:候选量表排序
利用堆叠交叉模型对用户候选自测量表进行计算健康风险指数,使用指数倒排进行Top-K推荐,为用户推荐具有潜在健康风险的自测量表;
步骤八:模型验证
使用10折交叉验证的模型评估方法,在等同条件下进行10次实验,使用交叉熵损失、AUC、GAUC和提出的融合指标FAUC进行模型验证。
优选地,步骤一中所述自测量表相关数据包括量表基本属性数据、用户基本健康数据、用户基本数据、量表评测结果。所述用户基本健康数据包括但不限于用户基本属性、健康档案数据、可穿戴设备采集的数据等。进一步,所述健康档案数据包括但不限于健康史、体征数据、健康报告等。更进一步,所述健康史包含但不限于家族史、既往史、过敏史、用药史、手术史、吸烟史、饮酒史等。所述体征数据包括但不限于身高、体重、腰围、血压、血糖、心率、步数、睡眠等。进一步,所述可穿戴设备采集的数据包括但不限于所述体征数据和运动数据。更进一步,所述运动数据包括但不限于量表测评历史数据、用户操作日志数据等。
优选地,步骤二中的所述量表数据预处理还包含对稀疏数据进行空值填充和字典化处理转化为one-hot向量,如果是稠密特征的数据处理为标量,对稠密特征的数据的预处理如下式(1)所示:
式(1)中,x表示稠密特征的数值,y表示通过离散函数处理后的稠密特征的值。
优选地,步骤四中,去除健康自评次数小于平均值0.1倍和健康自评次数高于平均值0.9倍的用户数据。
优选地,步骤三中,进行数据标注时,识别所述自测量表中的健康自测结果的标记信息,包括:确定待测自测量表的健康风险程度;利用数据标注的方式为所述堆叠交叉模型提供拟合目标,对健康自测结果进行编码,将健康自测结果为高危的结果标识为1,其余的结果统一标识为0。
优选地,步骤五中,根据所述用户基本数据和自测量表相关数据,来构建所述堆叠交叉模型;将用户信息和待测自测量表信息输入所述堆叠交叉模型,确定所述待测自测量表的风险指数。
优选地,步骤五中,使用特征嵌入方式将稠密特征数据和稀疏特征数据转换为低维向量时,低维向量的k值设定为8;在特征嵌入层中,对每个特征数据随机初始化一个特征嵌入空间,然后乘以随机初始的值后作为其表达的最终特征嵌入结果。
优选地,步骤五中,将所述FM层、多头Attention层及DNN层抽取的特征通过DNN进行回归,并对FM层、多头Attention层及DNN层得到的回归数值进行加和,最后利用Sigmoid函数的置信度共同组成堆叠交叉模型的模型架构,所述堆叠交叉模型的输出概率的计算公式如下式(2)所示:
式(2)中,表示堆叠交叉模型数据抽取器加和回归结果,yFM表示FM特征抽取的结果,yDNN表示DNN特征抽取的结果,yAttention表示多头注意力模型抽取的结果;
yFM的计算方式如下式(3)所示:
式(3)中,w0表示模型的偏差常数,n表示样本的特征数量,vi表示第i个样本的隐向量的特征值,vj表示第j个样本的隐向量的特征值,xi表示第i个样本的特征值,xj表示第j个样本的特征值;
步骤八中的所述融合指标FAUC的具体计算公式如公式(4)所示:
式(4)中,FAUC表示融合指标FAUC,AUC表示AUC指标,GAUC表示GAUC指标。
本发明的另一个技术方案是提供了一种基于健康数据的健康风险自测量表推荐装置,其特征在于,运行上述的健康风险自测量表推荐方法,包括:
数据授权获取模块,用于获取授权之后的量表信息、用户评测信息、用户信息等;
特征预处理模块,用于处理授权获取的数据,对数据进行筛选和标注,将数据处理成为所述堆叠交叉模型能够直接处理的形式;
量表召回模块,用于找到和用户信息相关联的量表,并且当用户以及内容量比较大的时候,通过召回策略减少无关量表的影响推荐效果;
推荐排序模块,用于根据所召回的量表,通过计算用户对候选量表的风险指数,找到用户风险指数较高的量表,提示用户进行健康自测;
推荐排序模型更新模块,用户及时的收集反馈信息进行健康风险模型的增量训练,增加模型的泛化性和准确性。
本发明的另一个技术方案是提供了一种基于健康数据的健康自测量表推荐系统,其特征在于,包括:前端、后端、服务端以及上述的健康自测量表推荐装置;
所述前端,用于授权获取待推荐用户的量表评测结果,并将量表评测结果发送至所述后端;
所述服务端,用于接收所述前端发送的量表评测结果,并通过所述健康自测量表推荐装置向所述待推荐用户进行健康自测量表的召回和排序,将所述推荐数据发送至所述前端。
本发明从数据驱动的角度出发,融合大数据技术、深度学习技术加速健康数据挖掘的落地,提供健康自测的应用场景。堆叠交叉模型(DeepFM with Stacked Self-Attentive,简称ADFM)通过计算用户对候选量表的风险指数,找到用户风险指数较高的量表,从用户被动查询健康信息到主动推荐健康测试量表,最后根据用户自测结果推送干预方案,达到减少用户健康风险的目的。
与现有技术相比,本发明具有如下有益效果:
本发明利用数据挖掘技术找到用户风险较高的量表,实现量表推荐的自动化和个性化。本发明提出的堆叠交叉模型(DeepFM with Stacked Self-Attentive,简称ADFM)的架构通过拼接特征提取的方式进行拓展,借助于细粒度的特征交叉,实现了可以使用很少的信息即可进行量表个性化推荐,缓解了量表推荐的冷启动问题,并且使用融合评估函数FAUC能兼具全局排序和个性化排序的优点,对于量表个性化推荐具有一定的实际参考价值。
附图说明
图1为本发明平台流程示意图;
图2为本发明平台操作示意图;
图3为本发明方法离线推荐排序流程示意图;
图4为本发明方法ADFM模型架构示意图;
图5为本发明方法量表特征预处理流程示意图;
图6为本发明方法用户健康自测示意图;
图7为本发明量表离线计算流程示意图;
图8为本发明方法离线推荐召回流程示意图;
图9为本发明方法量表推荐架构示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
如图1、2、3、4、5、6、7、8、9所示,本实施例公开的技术方案具体包括以下步骤:
步骤一:获取蛮牛健康APP上用户授权的自测量表相关数据。数据来自于用户根据量表的问题填写的自身健康信息,主要包括量表基本属性数据、用户基本健康数据、用户基本数据、量表评测结果。所述用户基本健康数据包括但不限于用户基本属性、健康档案数据、可穿戴设备采集的数据等。进一步,所述健康档案数据包括但不限于健康史、体征数据、健康报告等。更进一步,所述健康史包含但不限于家族史、既往史、过敏史、用药史、手术史、吸烟史、饮酒史等。更进一步,所述体征数据包括但不限于身高、体重、腰围、血压、血糖、心率、步数、睡眠等。进一步,所述可穿戴设备采集的数据包括但不限于所述体征数据和运动数据。更进一步,所述运动数据包括但不限于量表测评历史数据、用户操作日志数据等,具体如下图1、2、3、6所示。
步骤二:量表数据预处理。对授权获取到的自测量表相关数据进行拼接,将每一次用户的健康自测结果、用户信息和量表信息共同存储为一条数据。本发明将数据特征划分为:稠密特征、稀疏特征和不定长特征,例如:用户年龄为稠密特征,用户性别为稀疏特征,用户喜好为不定长特征。对稠密特征、稀疏特征和不定长特征分别使用one-hot的格式进行编码,并利用通过关键词抽取技术得出当前自测量表的标签,然后将该标签与PGC(Professional Generated Content,专业内容生产者,简称PGC)给出的当前自测量表的标签进行拼接,获得当前数据的标签。使用BERT对数据进行向量化处理,具体处理步骤如下图5所示。
步骤三:对步骤二获得的带有标签的数据进行标注。标注时,依据健康自测结果,将健康自测结果为高危的数据标识为1,其余的数据统一标识为0。
步骤四:异常数据处理。针对异常数据进行过滤,防止模型的过拟合,求得用户健康自评次数的平均值,去除自测次数小于均值0.1倍和自评次数高于平均值0.9倍的用户数据。
步骤五:构建输入特征和模型。特征首先进入模型的Embedding层,稀疏型特征和稠密特征统一使用k=8的维度设置,在稠密型特征的Embedding方式,对每个稠密型特征使用随机初始化,然后乘以特征值后作为其最终的Embedding。模型对特征进行Embedding处理之后,使用多特征组合的方式进行全面的特征自动化提取。先进入多头Attention中获得显式高阶交叉特征,拼接最初的Embedding层结果后,随后接DNN层得出疾病健康风险指数。多头Attention在进入模型最后的FC层之前,除了拼接起始Embedding层外,还拼接一个DNN的最后一层输出结果。同样的方式,多头Attention在进入模型最后的FC层之前又拼接了一个FM作为特征提取的部分。本发明提供的模型架构具有拓展性,使用了高阶交叉特征、多头注意力机制、神经网络等并联进行特征提取,然后对多种特征提取得到的结果进行拼接。本发明利用Sigmoid函数的置信度映射用户的患病风险的方式来进行模型训练,充分挖掘用户健康特征和疾病之间的交叉关联。基于上述技术方案,本发明提出了堆叠交叉模型(DeepFM with Stacked Self-Attentive,简称ADFM)的架构,该ADFM架构具有很好的拓展性,各个特征提取方式独立进行,可以根据数据的分布情况进行调整,具体如下图4所示。
步骤六:量表相关候选集召回。利用用户基本信息、用户健康信息和量表特征召回相关的健康自测量表,使用基于用户信息强匹配的规则、运营召回、协同过滤召回的结果进行合并的方式,具体如下图7所示。
步骤七:量表候选集排序。利用模型对用户候选量表进行计算健康风险指数,使用指数倒排进行Top-K推荐,为用户推荐具有潜在健康风险的量表,具体如下图8所示。
步骤八:模型评估。使用交叉熵损失、AUC、GAUC和融合评估函数FAUC进行堆叠交叉模型有效性的验证,根据公开数据集和内部的数据集进行测试,进行10次实验,结果取平均值。控制特征提取方式,保持相同的数据参数和Adam优化器,统一抽取100万条数据进行6:2:2分配训练集、验证集和测试集的配比,batch size设置为1024,并使用5个epoch进行推荐模型的训练,使用FM、DNN、DeepFM、DCN、Autoint、Autoint++和本次提出的堆叠交叉模型(DeepFM with Stacked Self-Attentive,简称ADFM)模型进行性能验证。
本实施例使用了法国巴黎的营销广告公司提供的Criteo公开的广告数据集,测评结果如下表1所示:
表1模型评测数据表
使用了Avazu广告商提供的公开的广告数据集,此数据集包含用户id,所以增加GAUC和FAUC测试指标,测评结果如下表2所示:
表2模型评测数据表
使用了平台上的用户授权的健康数据,参数保持一致,线上数据由于数据量较小,测试结果仅作为模型验证。测评结果如下表3所示:
表3模型评测数据表
在推荐算法上,本发明提出的堆叠交叉模型(DeepFM with Stacked Self-Attentive,简称ADFM)的模型架构,改进了模型的特征提取方式,平行并联多种特征提取器,借助于集成学习的方式,统一了各个特征提取器的结果,实验证明了该架构具有很好的拓展性和准确度,根据数据的分布情况合理的增加或者减少特征提取的组件,并且将稀疏特征和稠密特征统一使用Embedding进行特征提取,对于之前的将稠密数据和稀疏数据分开的特征提取方式,将特征进行统一处理,进一步扩宽了特征交叉,使得特征工程得以简化,并且融合评价函数FAUC的使用能兼具全局和个性化推荐效果,为后续推荐应用提供参考。

Claims (7)

1.一种基于健康数据的健康风险自测量表推荐方法,其特征在于,包括以下步骤:
步骤一:获取用户已授权的自测量表相关数据;
步骤二:量表数据预处理
对授权获取到的自测量表相关数据进行拼接,将每一次用户的健康自测结果、用户信息和量表信息共同关联存储为一条数据,将数据特征划分为:稠密特征、稀疏特征和不定长特征,对稠密特征、稀疏特征和不定长特征的格式进行编码,并通过关键词抽取技术得出当前自测量表的标签,然后将该标签与PGC给出的当前自测量表的标签进行拼接,获得当前数据的标签;并使用BERT对数据进行向量化处理;
步骤三:数据标注
对步骤二获得的带有标签的数据进行标注,标注时,依据健康自测结果,将健康自测结果为高危的健康自测结果标识为1,其余的健康自测结果统一标识为0;
步骤四:异常数据处理
求得当前用户进行健康自评次数的平均值,根据平均值分布,设置初始的数据去除比例;
步骤五:输入特征和模型构建
构建堆叠交叉模型后,将通过步骤四处理的数据输入该堆叠交叉模型,数据在堆叠交叉模型内先进入特征嵌入层,使用特征嵌入方式将稠密特征数据、稀疏特征数据和不定长特征数据转换为低维向量,得到特征嵌入结果;特征嵌入结果并行地与特征交叉层、多头注意力层、DNN层进行拼接,其中:通过特征交叉层作为低阶特征提取的部分,通过多头注意力层获得显式高阶交叉特征,通过DNN层得到疾病健康风险指数;堆叠交叉模型最后利用全连接层将特征交叉层、多头注意力层及DNN层的输出结果进行拼接后输出,堆叠交叉模型利用Sigmoid函数的置信度映射用户的患病风险的方式来进行模型训练;
步骤六:量表相关候选集召回
利用用户基本信息、用户健康信息和量表特征召回相关的自测量表;
步骤七:候选量表排序
利用堆叠交叉模型对用户候选自测量表进行计算健康风险指数,使用指数倒排进行Top-K推荐,为用户推荐具有潜在健康风险的自测量表;
步骤八:模型验证
使用10折交叉验证的模型评估方法,在等同条件下进行10次实验,使用交叉熵损失、AUC、GAUC和提出的融合指标FAUC进行模型验证。
2.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法,其特征在于,步骤二中的所述量表数据预处理还包含对稀疏数据进行空值填充和字典化处理转化为one-hot向量,当稠密特征的数据处理为标量,对稠密特征的数据的预处理如下式(1)所示:
式(1)中,x表示稠密特征的数值,y表示通过离散函数处理后的稠密特征的值。
3.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法,其特征在于,步骤四中,去除健康自评次数小于平均值0.1倍和健康自评次数高于平均值0.9倍的用户数据。
4.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法,其特征在于,步骤三中,进行数据标注时,识别所述自测量表中的健康自测结果的标记信息,包括:确定待测自测量表的健康风险程度;利用数据标注的方式为所述堆叠交叉模型提供拟合目标,对健康自测结果进行编码,将健康自测结果为高危的结果标识为1,其余的结果统一标识为0。
5.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法,其特征在于,步骤五中,根据所述用户基本数据和自测量表相关数据,来构建所述堆叠交叉模型;将用户信息和待测自测量表信息输入所述堆叠交叉模型,确定所述待测自测量表的风险指数。
6.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法,其特征在于,步骤五中,使用特征嵌入方式将稠密特征数据和稀疏特征数据转换为低维向量时,低维向量的k值设定为8;在特征嵌入层中,对每个特征数据随机初始化一个特征嵌入空间,然后乘以随机初始的值后作为其表达的最终特征嵌入结果。
7.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法,其特征在于,步骤五中,将所述FM层、多头Attention层及DNN层抽取的特征通过DNN进行回归,并对FM层、多头Attention层及DNN层得到的回归数值进行加和,最后利用Sigmoid函数的置信度共同组成堆叠交叉模型的模型架构,所述堆叠交叉模型的输出概率的计算公式如下式(2)所示:
式(2)中,表示堆叠交叉模型数据抽取器加和回归结果,yFM表示FM特征抽取的结果,yDNN表示DNN特征抽取的结果,yAttention表示多头注意力模型抽取的结果;
yFM的计算方式如下式(3)所示:
式(3)中,w0表示模型的偏差常数,n表示样本的特征数量,vi表示第i个样本的隐向量的特征值,vj表示第j个样本的隐向量的特征值,xi表示第i个样本的特征值,xj表示第j个样本的特征值;
步骤八中的所述融合指标FAUC的具体计算公式如公式(4)所示:
式(4)中,FAUC表示融合指标FAUC,AUC表示AUC指标,GAUC表示GAUC指标。
CN202011448507.5A 2020-12-11 2020-12-11 一种基于健康数据的健康风险自测量表推荐方法 Active CN112530598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011448507.5A CN112530598B (zh) 2020-12-11 2020-12-11 一种基于健康数据的健康风险自测量表推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011448507.5A CN112530598B (zh) 2020-12-11 2020-12-11 一种基于健康数据的健康风险自测量表推荐方法

Publications (2)

Publication Number Publication Date
CN112530598A CN112530598A (zh) 2021-03-19
CN112530598B true CN112530598B (zh) 2023-07-25

Family

ID=75000498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011448507.5A Active CN112530598B (zh) 2020-12-11 2020-12-11 一种基于健康数据的健康风险自测量表推荐方法

Country Status (1)

Country Link
CN (1) CN112530598B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822847A (zh) * 2022-04-20 2022-07-29 重庆大学 一种身心健康评测系统、方法、设备及存储介质
CN116884644A (zh) * 2023-07-14 2023-10-13 温州城市智慧健康有限公司 一种健康咨询服务获取系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372390A (zh) * 2016-08-25 2017-02-01 姹ゅ钩 一种基于深度卷积神经网络的预防肺癌自助健康云服务系统
CN106529721A (zh) * 2016-11-08 2017-03-22 安徽大学 一种深度特征提取的广告点击率预测系统及其预测方法
CN106897404A (zh) * 2017-02-14 2017-06-27 中国船舶重工集团公司第七0九研究所 一种基于多gru层神经网络的推荐方法与系统
CN107423536A (zh) * 2016-12-26 2017-12-01 杭州看上科技有限公司 基于移动社保数据和云端数据分析的数据处理系统
CN107506602A (zh) * 2017-09-07 2017-12-22 北京海融兴通信息安全技术有限公司 一种大数据健康预测系统
CN108629630A (zh) * 2018-05-08 2018-10-09 广州太平洋电脑信息咨询有限公司 一种基于特征交叉联合深度神经网络的广告推荐方法
CN109065100A (zh) * 2018-08-20 2018-12-21 广州小云软件科技有限公司 一种基于区块链的中医健康个性化问卷智能生成与加密系统
CN109119130A (zh) * 2018-07-11 2019-01-01 上海夏先机电科技发展有限公司 一种基于云计算的大数据健康管理系统及方法
CN110008409A (zh) * 2019-04-12 2019-07-12 苏州市职业大学 基于自注意力机制的序列推荐方法、装置及设备
WO2020005240A1 (en) * 2018-06-27 2020-01-02 Google Llc Adapting a sequence model for use in predicting future device interactions with a computing system
CN111312405A (zh) * 2020-02-12 2020-06-19 宁德市闽东医院 一种健康体检胃癌筛查评估及管理系统
CN111680217A (zh) * 2020-05-27 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及存储介质
CN111833997A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 基于风险预测的就诊分配方法、装置、计算机设备
CN112434184A (zh) * 2020-12-15 2021-03-02 四川长虹电器股份有限公司 基于历史影视海报的深度兴趣网络的排序方法
WO2022141927A1 (zh) * 2020-12-31 2022-07-07 上海明品医学数据科技有限公司 一种健康干预系统、服务器及健康管理系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020245727A1 (en) * 2019-06-02 2020-12-10 Predicta Med Analytics Ltd. A method of evaluating autoimmune disease risk and treatment selection

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372390A (zh) * 2016-08-25 2017-02-01 姹ゅ钩 一种基于深度卷积神经网络的预防肺癌自助健康云服务系统
CN106529721A (zh) * 2016-11-08 2017-03-22 安徽大学 一种深度特征提取的广告点击率预测系统及其预测方法
CN107423536A (zh) * 2016-12-26 2017-12-01 杭州看上科技有限公司 基于移动社保数据和云端数据分析的数据处理系统
CN106897404A (zh) * 2017-02-14 2017-06-27 中国船舶重工集团公司第七0九研究所 一种基于多gru层神经网络的推荐方法与系统
CN107506602A (zh) * 2017-09-07 2017-12-22 北京海融兴通信息安全技术有限公司 一种大数据健康预测系统
CN108629630A (zh) * 2018-05-08 2018-10-09 广州太平洋电脑信息咨询有限公司 一种基于特征交叉联合深度神经网络的广告推荐方法
WO2020005240A1 (en) * 2018-06-27 2020-01-02 Google Llc Adapting a sequence model for use in predicting future device interactions with a computing system
CN109119130A (zh) * 2018-07-11 2019-01-01 上海夏先机电科技发展有限公司 一种基于云计算的大数据健康管理系统及方法
CN109065100A (zh) * 2018-08-20 2018-12-21 广州小云软件科技有限公司 一种基于区块链的中医健康个性化问卷智能生成与加密系统
CN110008409A (zh) * 2019-04-12 2019-07-12 苏州市职业大学 基于自注意力机制的序列推荐方法、装置及设备
CN111312405A (zh) * 2020-02-12 2020-06-19 宁德市闽东医院 一种健康体检胃癌筛查评估及管理系统
CN111680217A (zh) * 2020-05-27 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及存储介质
CN111833997A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 基于风险预测的就诊分配方法、装置、计算机设备
CN112434184A (zh) * 2020-12-15 2021-03-02 四川长虹电器股份有限公司 基于历史影视海报的深度兴趣网络的排序方法
WO2022141927A1 (zh) * 2020-12-31 2022-07-07 上海明品医学数据科技有限公司 一种健康干预系统、服务器及健康管理系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Modeling low- and high-order feature interactions with FM and self-attention network;Cairong Yan et al.;Applied Intelligence;第51卷;全文 *
Research on Disease Prediction Based on Improved DeepFM and IoMT;Zengchen Yu et al.;IEEE ACCESS;第9卷;全文 *
基于多注意力机制的深度神经网络故障诊断算法;王翔;任佳;;浙江理工大学学报(自然科学版)(第02期);全文 *
推荐系统研究综述;周万珍;曹迪;许云峰;刘滨;;河北科技大学学报(第01期);全文 *

Also Published As

Publication number Publication date
CN112530598A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN109411082B (zh) 一种医疗质量评价及就诊推荐方法
CN112530598B (zh) 一种基于健康数据的健康风险自测量表推荐方法
CN116386869B (zh) 一种基于多变量的病情危重程度评估方法
CN113284623B (zh) 基于用户能力的个性化认知训练任务推荐算法及系统
WO2023178971A1 (zh) 就医的互联网挂号方法、装置、设备及存储介质
CN116364299B (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及系统
CN108511056A (zh) 基于脑卒中患者相似性分析的治疗方案推荐方法及系统
CN111710429A (zh) 信息的推送方法及装置、计算机设备、存储介质
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
CN117370565A (zh) 一种信息检索方法及系统
CN115579104A (zh) 一种基于人工智能的肝癌全病程数字化管理方法及系统
CN113257410A (zh) 一种基于中医临床医疗知识库和深度学习模型的问诊方法
CN116884612A (zh) 疾病风险等级的智能分析方法、装置、设备及存储介质
CN114283947A (zh) 一种适用于手术患者的健康管理方法及系统
CN113160974A (zh) 一种基于超图聚类的精神疾病生物型发掘方法
CN115116612A (zh) 一种儿童患者病情智能风险评估系统及方法
CN118312816A (zh) 基于成员选择的簇加权聚类集成医学数据处理方法及系统
CN114820450A (zh) 适宜李氏人工肝治疗的ct血管造影图像分类方法
CN114743647A (zh) 医疗数据处理方法、装置、设备及存储介质
CN112336310B (zh) 一种基于fcbf和svm融合的心脏疾病诊断系统
CN116721730B (zh) 一种基于数字疗法的患者全程管理系统
CN117290509A (zh) 电子病历文本分类模型训练方法、装置、电子设备及介质
Xie et al. Thyroid disease diagnosis based on feature interpolation and dynamic weighting ensemble model
CN112365992A (zh) 一种基于nrs-lda的医疗体检数据识别分析方法
CN117688226B (zh) 基于相似儿童患者匹配的智能诊前自助开单方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant