CN112530598B

CN112530598B - 一种基于健康数据的健康风险自测量表推荐方法

Info

Publication number: CN112530598B
Application number: CN202011448507.5A
Authority: CN
Inventors: 张振; 佘盼; 张敬谊; 高兆晨; 马成龙; 胡杉文; 张鑫金; 任杰惠
Original assignee: WONDERS INFORMATION CO Ltd
Current assignee: WONDERS INFORMATION CO Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-07-25
Anticipated expiration: 2040-12-11
Also published as: CN112530598A

Abstract

本发明提供了一种基于健康数据的健康风险自测量表推荐方法。本发明从数据驱动的角度出发，融合大数据技术、深度学习技术加速健康数据挖掘的落地，提供健康自测的应用场景。堆叠交叉模型(DeepFM with Stacked Self‑Attentive，简称ADFM)通过计算用户对候选量表的风险指数，找到用户风险指数较高的量表，从用户被动查询健康信息到主动推荐健康测试量表，最后根据用户自测结果推送干预方案，达到减少用户健康风险的目的。

Description

一种基于健康数据的健康风险自测量表推荐方法

技术领域

本发明涉及一种基于健康数据的健康风险自测量表推荐方法以及健康风险自测量表推荐系统，属于健康量表数据挖掘方法技术领域。

背景技术

随着政府推动“互联网+”移动健康管理的发展，互联网与智能手机的结合更好地为用户提供个性化的健康管理服务。鉴于健康数据复杂性，健康数据采集与具体的移动应用落地相脱离，借助于用户信息挖掘改进服务质量，是快速积累竞争优势的关键。主流的健康检测方式有两种：一种是用户自行前往医院进行健康自测；第二种是用户在线使用量表进行健康自测。当前大部分的移动应用由于仅有较少用户活跃，数据未达到应用的指标，无法深入的对用户和疾病、疾病和用户、急性疾病和慢性疾病的关系进行描述。随着平台用户健康数据的积累，在保证用户信息隐私的情况下，对数据进行的充分挖掘是推动精准健康管理的机遇和挑战。

统计显示，生活方式在健康的影响因素中占据了60％的权重，而医疗才占8％，健康筛查能快速的了解当前的健康状况，以便于及时进行生活方式的调整。当前存在有很多成熟的健康知识普及平台和咨询平台：一种是以健康信息的检索为主，例如好大夫、春雨医生、阿里健康等，另一种是健康咨询类平台，有专业的医生在线提供服务，例如：快速问医网、寻医问药网等。但是，由于许多疾病病因复杂和存在个体知识差异，因此仅仅依靠用户自身的自然语言无法给出精确的健康建议。随着用户健康数据的沉淀，个性化用户健康管理场景的诉求日益强烈，健康筛查作为个性化健康管理的第一步，如何通过数据挖掘赋能健康管理第一步是目前亟待解决的问题。

发明内容

本发明要解决的技术问题是：随着用户健康数据的沉淀，个性化用户健康管理场景的诉求日益强烈，健康筛查作为个性化健康管理的第一步，如何通过数据挖掘赋能健康管理第一步是目前亟待解决的问题。

为了解决上述技术问题，本发明的技术方案是提供了一种基于健康数据的健康风险自测量表推荐方法，其特征在于，包括以下步骤：

步骤一：获取用户已授权的自测量表相关数据；

步骤二：量表数据预处理

对授权获取到的自测量表相关数据进行拼接，将每一次用户的健康自测结果、用户信息和量表信息共同关联存储为一条数据，将数据特征划分为：稠密特征、稀疏特征和不定长特征，对稠密特征、稀疏特征和不定长特征的格式进行编码，并通过关键词抽取技术得出当前自测量表的标签，然后将该标签与PGC给出的当前自测量表的标签进行拼接，获得当前数据的标签；并使用BERT对数据进行向量化处理；

步骤三：数据标注

对步骤二获得的带有标签的数据进行标注，标注时，依据健康自测结果，将健康自测结果为高危的健康自测结果标识为1，其余的健康自测结果统一标识为0；

步骤四：异常数据处理

求得当前用户进行健康自评次数的平均值，根据平均值分布，设置初始的数据去除比例；

步骤五：输入特征和模型构建

构建堆叠交叉模型后，将通过步骤四处理的数据输入该堆叠交叉模型，数据在堆叠交叉模型内先进入特征嵌入层(Feature Embedding)，使用特征嵌入方式将稠密特征数据、稀疏特征数据和不定长特征数据转换为低维向量，得到特征嵌入结果；特征嵌入结果并行地与特征交叉层(FM)、多头注意力层(Multi-head Self-Attention)、DNN层进行拼接，其中：通过特征交叉层作为低阶特征提取的部分，通过多头注意力层获得显式高阶交叉特征，通过DNN层得到疾病健康风险指数；堆叠交叉模型最后利用全连接层将特征交叉层、多头注意力层及DNN层的输出结果进行拼接后输出，堆叠交叉模型利用Sigmoid函数的置信度映射用户的患病风险的方式来进行模型训练；

步骤六：量表相关候选集召回

利用用户基本信息、用户健康信息和量表特征召回相关的自测量表；

步骤七：候选量表排序

利用堆叠交叉模型对用户候选自测量表进行计算健康风险指数，使用指数倒排进行Top-K推荐，为用户推荐具有潜在健康风险的自测量表；

步骤八：模型验证

使用10折交叉验证的模型评估方法，在等同条件下进行10次实验，使用交叉熵损失、AUC、GAUC和提出的融合指标FAUC进行模型验证。

优选地，步骤一中所述自测量表相关数据包括量表基本属性数据、用户基本健康数据、用户基本数据、量表评测结果。所述用户基本健康数据包括但不限于用户基本属性、健康档案数据、可穿戴设备采集的数据等。进一步，所述健康档案数据包括但不限于健康史、体征数据、健康报告等。更进一步，所述健康史包含但不限于家族史、既往史、过敏史、用药史、手术史、吸烟史、饮酒史等。所述体征数据包括但不限于身高、体重、腰围、血压、血糖、心率、步数、睡眠等。进一步，所述可穿戴设备采集的数据包括但不限于所述体征数据和运动数据。更进一步，所述运动数据包括但不限于量表测评历史数据、用户操作日志数据等。

优选地，步骤二中的所述量表数据预处理还包含对稀疏数据进行空值填充和字典化处理转化为one-hot向量，如果是稠密特征的数据处理为标量，对稠密特征的数据的预处理如下式(1)所示：

式(1)中，x表示稠密特征的数值，y表示通过离散函数处理后的稠密特征的值。

优选地，步骤四中，去除健康自评次数小于平均值0.1倍和健康自评次数高于平均值0.9倍的用户数据。

优选地，步骤三中，进行数据标注时，识别所述自测量表中的健康自测结果的标记信息，包括：确定待测自测量表的健康风险程度；利用数据标注的方式为所述堆叠交叉模型提供拟合目标，对健康自测结果进行编码，将健康自测结果为高危的结果标识为1，其余的结果统一标识为0。

优选地，步骤五中，根据所述用户基本数据和自测量表相关数据，来构建所述堆叠交叉模型；将用户信息和待测自测量表信息输入所述堆叠交叉模型，确定所述待测自测量表的风险指数。

优选地，步骤五中，使用特征嵌入方式将稠密特征数据和稀疏特征数据转换为低维向量时，低维向量的k值设定为8；在特征嵌入层中，对每个特征数据随机初始化一个特征嵌入空间，然后乘以随机初始的值后作为其表达的最终特征嵌入结果。

优选地，步骤五中，将所述FM层、多头Attention层及DNN层抽取的特征通过DNN进行回归，并对FM层、多头Attention层及DNN层得到的回归数值进行加和，最后利用Sigmoid函数的置信度共同组成堆叠交叉模型的模型架构，所述堆叠交叉模型的输出概率的计算公式如下式(2)所示：

式(2)中，表示堆叠交叉模型数据抽取器加和回归结果，y_FM表示FM特征抽取的结果，y_DNN表示DNN特征抽取的结果，y_Attention表示多头注意力模型抽取的结果；

y_FM的计算方式如下式(3)所示：

式(3)中，w₀表示模型的偏差常数，n表示样本的特征数量，v_i表示第i个样本的隐向量的特征值，v_j表示第j个样本的隐向量的特征值，x_i表示第i个样本的特征值，x_j表示第j个样本的特征值；

步骤八中的所述融合指标FAUC的具体计算公式如公式(4)所示：

式(4)中，FAUC表示融合指标FAUC，AUC表示AUC指标，GAUC表示GAUC指标。

本发明的另一个技术方案是提供了一种基于健康数据的健康风险自测量表推荐装置，其特征在于，运行上述的健康风险自测量表推荐方法，包括：

数据授权获取模块，用于获取授权之后的量表信息、用户评测信息、用户信息等；

特征预处理模块，用于处理授权获取的数据，对数据进行筛选和标注，将数据处理成为所述堆叠交叉模型能够直接处理的形式；

量表召回模块，用于找到和用户信息相关联的量表，并且当用户以及内容量比较大的时候，通过召回策略减少无关量表的影响推荐效果；

推荐排序模块，用于根据所召回的量表，通过计算用户对候选量表的风险指数，找到用户风险指数较高的量表，提示用户进行健康自测；

推荐排序模型更新模块，用户及时的收集反馈信息进行健康风险模型的增量训练，增加模型的泛化性和准确性。

本发明的另一个技术方案是提供了一种基于健康数据的健康自测量表推荐系统，其特征在于，包括：前端、后端、服务端以及上述的健康自测量表推荐装置；

所述前端，用于授权获取待推荐用户的量表评测结果，并将量表评测结果发送至所述后端；

所述服务端，用于接收所述前端发送的量表评测结果，并通过所述健康自测量表推荐装置向所述待推荐用户进行健康自测量表的召回和排序，将所述推荐数据发送至所述前端。

本发明从数据驱动的角度出发，融合大数据技术、深度学习技术加速健康数据挖掘的落地，提供健康自测的应用场景。堆叠交叉模型(DeepFM with Stacked Self-Attentive，简称ADFM)通过计算用户对候选量表的风险指数，找到用户风险指数较高的量表，从用户被动查询健康信息到主动推荐健康测试量表，最后根据用户自测结果推送干预方案，达到减少用户健康风险的目的。

与现有技术相比，本发明具有如下有益效果：

本发明利用数据挖掘技术找到用户风险较高的量表，实现量表推荐的自动化和个性化。本发明提出的堆叠交叉模型(DeepFM with Stacked Self-Attentive，简称ADFM)的架构通过拼接特征提取的方式进行拓展，借助于细粒度的特征交叉，实现了可以使用很少的信息即可进行量表个性化推荐，缓解了量表推荐的冷启动问题，并且使用融合评估函数FAUC能兼具全局排序和个性化排序的优点，对于量表个性化推荐具有一定的实际参考价值。

附图说明

图1为本发明平台流程示意图；

图2为本发明平台操作示意图；

图3为本发明方法离线推荐排序流程示意图；

图4为本发明方法ADFM模型架构示意图；

图5为本发明方法量表特征预处理流程示意图；

图6为本发明方法用户健康自测示意图；

图7为本发明量表离线计算流程示意图；

图8为本发明方法离线推荐召回流程示意图；

图9为本发明方法量表推荐架构示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1、2、3、4、5、6、7、8、9所示，本实施例公开的技术方案具体包括以下步骤：

步骤一：获取蛮牛健康APP上用户授权的自测量表相关数据。数据来自于用户根据量表的问题填写的自身健康信息，主要包括量表基本属性数据、用户基本健康数据、用户基本数据、量表评测结果。所述用户基本健康数据包括但不限于用户基本属性、健康档案数据、可穿戴设备采集的数据等。进一步，所述健康档案数据包括但不限于健康史、体征数据、健康报告等。更进一步，所述健康史包含但不限于家族史、既往史、过敏史、用药史、手术史、吸烟史、饮酒史等。更进一步，所述体征数据包括但不限于身高、体重、腰围、血压、血糖、心率、步数、睡眠等。进一步，所述可穿戴设备采集的数据包括但不限于所述体征数据和运动数据。更进一步，所述运动数据包括但不限于量表测评历史数据、用户操作日志数据等，具体如下图1、2、3、6所示。

步骤二：量表数据预处理。对授权获取到的自测量表相关数据进行拼接，将每一次用户的健康自测结果、用户信息和量表信息共同存储为一条数据。本发明将数据特征划分为：稠密特征、稀疏特征和不定长特征，例如：用户年龄为稠密特征，用户性别为稀疏特征，用户喜好为不定长特征。对稠密特征、稀疏特征和不定长特征分别使用one-hot的格式进行编码，并利用通过关键词抽取技术得出当前自测量表的标签，然后将该标签与PGC(Professional Generated Content，专业内容生产者，简称PGC)给出的当前自测量表的标签进行拼接，获得当前数据的标签。使用BERT对数据进行向量化处理，具体处理步骤如下图5所示。

步骤三：对步骤二获得的带有标签的数据进行标注。标注时，依据健康自测结果，将健康自测结果为高危的数据标识为1，其余的数据统一标识为0。

步骤四：异常数据处理。针对异常数据进行过滤，防止模型的过拟合，求得用户健康自评次数的平均值，去除自测次数小于均值0.1倍和自评次数高于平均值0.9倍的用户数据。

步骤五：构建输入特征和模型。特征首先进入模型的Embedding层，稀疏型特征和稠密特征统一使用k＝8的维度设置，在稠密型特征的Embedding方式，对每个稠密型特征使用随机初始化，然后乘以特征值后作为其最终的Embedding。模型对特征进行Embedding处理之后，使用多特征组合的方式进行全面的特征自动化提取。先进入多头Attention中获得显式高阶交叉特征，拼接最初的Embedding层结果后，随后接DNN层得出疾病健康风险指数。多头Attention在进入模型最后的FC层之前，除了拼接起始Embedding层外，还拼接一个DNN的最后一层输出结果。同样的方式，多头Attention在进入模型最后的FC层之前又拼接了一个FM作为特征提取的部分。本发明提供的模型架构具有拓展性，使用了高阶交叉特征、多头注意力机制、神经网络等并联进行特征提取，然后对多种特征提取得到的结果进行拼接。本发明利用Sigmoid函数的置信度映射用户的患病风险的方式来进行模型训练，充分挖掘用户健康特征和疾病之间的交叉关联。基于上述技术方案，本发明提出了堆叠交叉模型(DeepFM with Stacked Self-Attentive，简称ADFM)的架构，该ADFM架构具有很好的拓展性，各个特征提取方式独立进行，可以根据数据的分布情况进行调整，具体如下图4所示。

步骤六：量表相关候选集召回。利用用户基本信息、用户健康信息和量表特征召回相关的健康自测量表，使用基于用户信息强匹配的规则、运营召回、协同过滤召回的结果进行合并的方式，具体如下图7所示。

步骤七：量表候选集排序。利用模型对用户候选量表进行计算健康风险指数，使用指数倒排进行Top-K推荐，为用户推荐具有潜在健康风险的量表，具体如下图8所示。

步骤八：模型评估。使用交叉熵损失、AUC、GAUC和融合评估函数FAUC进行堆叠交叉模型有效性的验证，根据公开数据集和内部的数据集进行测试，进行10次实验，结果取平均值。控制特征提取方式，保持相同的数据参数和Adam优化器，统一抽取100万条数据进行6:2:2分配训练集、验证集和测试集的配比，batch size设置为1024，并使用5个epoch进行推荐模型的训练，使用FM、DNN、DeepFM、DCN、Autoint、Autoint++和本次提出的堆叠交叉模型(DeepFM with Stacked Self-Attentive，简称ADFM)模型进行性能验证。

本实施例使用了法国巴黎的营销广告公司提供的Criteo公开的广告数据集，测评结果如下表1所示：

表1模型评测数据表

使用了Avazu广告商提供的公开的广告数据集，此数据集包含用户id，所以增加GAUC和FAUC测试指标，测评结果如下表2所示：

表2模型评测数据表

使用了平台上的用户授权的健康数据，参数保持一致，线上数据由于数据量较小，测试结果仅作为模型验证。测评结果如下表3所示：

表3模型评测数据表

在推荐算法上，本发明提出的堆叠交叉模型(DeepFM with Stacked Self-Attentive，简称ADFM)的模型架构，改进了模型的特征提取方式，平行并联多种特征提取器，借助于集成学习的方式，统一了各个特征提取器的结果，实验证明了该架构具有很好的拓展性和准确度，根据数据的分布情况合理的增加或者减少特征提取的组件，并且将稀疏特征和稠密特征统一使用Embedding进行特征提取，对于之前的将稠密数据和稀疏数据分开的特征提取方式，将特征进行统一处理，进一步扩宽了特征交叉，使得特征工程得以简化，并且融合评价函数FAUC的使用能兼具全局和个性化推荐效果，为后续推荐应用提供参考。

Claims

1.一种基于健康数据的健康风险自测量表推荐方法，其特征在于，包括以下步骤：

步骤一：获取用户已授权的自测量表相关数据；

步骤二：量表数据预处理

步骤三：数据标注

步骤四：异常数据处理

步骤五：输入特征和模型构建

构建堆叠交叉模型后，将通过步骤四处理的数据输入该堆叠交叉模型，数据在堆叠交叉模型内先进入特征嵌入层，使用特征嵌入方式将稠密特征数据、稀疏特征数据和不定长特征数据转换为低维向量，得到特征嵌入结果；特征嵌入结果并行地与特征交叉层、多头注意力层、DNN层进行拼接，其中：通过特征交叉层作为低阶特征提取的部分，通过多头注意力层获得显式高阶交叉特征，通过DNN层得到疾病健康风险指数；堆叠交叉模型最后利用全连接层将特征交叉层、多头注意力层及DNN层的输出结果进行拼接后输出，堆叠交叉模型利用Sigmoid函数的置信度映射用户的患病风险的方式来进行模型训练；

步骤六：量表相关候选集召回

步骤七：候选量表排序

步骤八：模型验证

2.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法，其特征在于，步骤二中的所述量表数据预处理还包含对稀疏数据进行空值填充和字典化处理转化为one-hot向量，当稠密特征的数据处理为标量，对稠密特征的数据的预处理如下式(1)所示：

3.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法，其特征在于，步骤四中，去除健康自评次数小于平均值0.1倍和健康自评次数高于平均值0.9倍的用户数据。

4.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法，其特征在于，步骤三中，进行数据标注时，识别所述自测量表中的健康自测结果的标记信息，包括：确定待测自测量表的健康风险程度；利用数据标注的方式为所述堆叠交叉模型提供拟合目标，对健康自测结果进行编码，将健康自测结果为高危的结果标识为1，其余的结果统一标识为0。

5.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法，其特征在于，步骤五中，根据所述用户基本数据和自测量表相关数据，来构建所述堆叠交叉模型；将用户信息和待测自测量表信息输入所述堆叠交叉模型，确定所述待测自测量表的风险指数。

6.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法，其特征在于，步骤五中，使用特征嵌入方式将稠密特征数据和稀疏特征数据转换为低维向量时，低维向量的k值设定为8；在特征嵌入层中，对每个特征数据随机初始化一个特征嵌入空间，然后乘以随机初始的值后作为其表达的最终特征嵌入结果。

7.如权利要求1所述的一种基于健康数据的健康风险自测量表推荐方法，其特征在于，步骤五中，将所述FM层、多头Attention层及DNN层抽取的特征通过DNN进行回归，并对FM层、多头Attention层及DNN层得到的回归数值进行加和，最后利用Sigmoid函数的置信度共同组成堆叠交叉模型的模型架构，所述堆叠交叉模型的输出概率的计算公式如下式(2)所示：

y_FM的计算方式如下式(3)所示：

步骤八中的所述融合指标FAUC的具体计算公式如公式(4)所示：