CN111599438A

CN111599438A - 一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法

Info

Publication number: CN111599438A
Application number: CN202010254493.7A
Authority: CN
Inventors: 周鹏飞; 白琮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-08-28
Anticipated expiration: 2040-04-02
Also published as: CN111599438B

Abstract

一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法，包括数据库构建、检索模型构建、检索模型训练、预警精度测试和监控方法的使用五个过程。利用卷积神经网络与BERT分别学习食品图像模态和描述文本模态中的语义表征，在提取特征的同时帮助处理各形态特征之间的潜在联系，其将第三模态的数据引入跨模态检索方法中，以缩小模态间的语义鸿沟。本发明利用实时摄取的生活记录图像作为输入来检测食品并进行检索，在输出部分增添食品组成数据来提高输出信息的实用性。以上改进均可以提高跨模态检索的精确度与稳定性，从而实现准确的跨模态检索。同时，该方法还可用于辅助分析致糖尿病食物成分与个体身体状况的相关性。

Description

一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法

技术领域

本发明涉及多模态数据的分析与利用，特别涉及一种面向糖尿病患者的端到端的实时饮食健康监控方法。

背景技术

在医疗水平日益发展的今天，对于糖尿病患者来说，健康饮食仍然是困扰他们的大问题。计划和监测糖尿病患者的日常饮食是一项极度消耗人力物力的任务，比如普通人难以记忆所有关于饮食的医学知识，而且因日常餐饮的频次而难以处处谨记糖尿病饮食禁忌，导致心力交瘁。另一方面，随着物联网的快速发展，能够感知和记录生物健康数据的传感器与可穿戴设备日益普及，这些实时生物数据也越来越多地被记录和使用，如每日步数、心跳、卡路里、血糖等，这些数据均可与生活图像结合，组成一个庞大的生活数据库，利用合适的多媒体数据分析技术，我们可以从中提取需要的食物图像与身体指标数据，帮助构建一种能够对饮食进行实时监测并实时给用户反馈食品特性的方法，这种方法可以为糖尿病者提供饮食相关的健康建议，使他们能更为方便地维持健康生活。

发明内容

为了解决糖尿病患者的健康饮食问题，本发明提出了一种基于可穿戴设备获取的多模态数据与跨模态检索技术实现对糖尿病患者的饮食进行实时监控的方法，提出了一种新的基于跨模态检索方法实时饮食健康记录与预警的方法，该方法能够利用视觉和生理信息来估计用户试图获取的食物是否有糖尿病致病风险，并通过手机将详细原因反馈给用户。

本发明解决其技术问题所采用的技术方案是：

一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法，所述方法包括以下步骤：

步骤一、数据库构建，过程如下：

步骤1.1：对公开数据集Food-101进行扩展，扩展为多标签食物图像数据集，并基于此训练一个多标签分类器；

步骤1.2：对元数据集中的生活图像进行初步粗过滤，将全部模糊无法使用的图像以及所有被遮盖、看不清或视野内无明显实物的图片全部过滤剔除；

步骤1.3：对元数据集中的实时生物数据进行数据清洗，剔除无用数据并补充缺失数据；

步骤1.4：将配对的生活图像与实时生物数据进行协同过滤，即使用步骤2.1训练好的分类器来检测图像是否为食物，将所有不是食物的生活图像连同生物数据过滤删除，保留食物图像和与其配对的实时生物健康数据，并打上食物标签；

步骤1.5：将搜集到的食物组成数据集、糖尿病禁忌食物表、糖尿病血糖指标数据集通过数据整合与数据清洗汇总为一个包括食物组成、食物描述和健康提示在内的糖尿病饮食健康数据集；

步骤1.6：将食物图像及实时健康数据集同糖尿病饮食健康数据集通过食物标签进行配对，构建一个多模态的糖尿病饮食健康数据库，并划分训练集与测试集；

步骤二、检索模型构建，过程如下：

步骤2.1：该深度学习网络主要框架由一个图像特征提取模型、一个文本特征提取模型及一个典型关联分析模型组成，其中图像特征提取模型选用预训练的ResNet-101卷积神经网络，文本特征提取模型选用预训练的BERT模型；

步骤2.2：典型关联分析模型的两路输入部分各接一个池化层与一个全连接层，池化层后接特征融合模块作为全连接层的输入，全连接层后面接ReLU激活函数；

步骤2.3：最后连接到典型关联分析层，使用典型关联分析函数将图像特征与文本特征映射到同一子空间中，使用排序损失作为损失函数；

步骤三、检索模型训练，过程如下：

步骤3.1：将每个训练样本中的食物图像与食物描述文本作为两路输入送入跨模态检索模型，对食物图像使用卷积神经网络提取图像特征，对食物描述文本使用BERT提取文本特征；

步骤3.2：将上一步骤输出的特征分别送入池化层进行下采样，并将得到的图像特征向量与训练样本中的生物健康数据进行特征融合，将得到的文本特征向量与训练样本中的食物组成数据进行特征融合；

步骤3.3：将两路各自融合得到的特征向量经过一层全连接层送入典型关联分析模块，进行最终跨模态匹配部分的训练；

步骤四、预警精度测试，过程如下：

步骤4.1：将预处理好的测试数据集送入训练得到的最优模型；

步骤4.2：使用跨模态检索模型对输入的食物图像进行跨模态匹配，匹配到最优的食物描述文本及其食物组成数据，并使用多层感知机来判断匹配的文本图像对所属类别，记录所有数据；

步骤4.3：根据跨模态检索模型返回的图像文本对类别判断输入的食物是否为糖尿病人的禁忌食物，并针对结果进行预警提示；

步骤4.4：比较问询图像的类别标签和跨模态检索模型返回的图像文本对类别标签是否一致，根据信息检索中的评价指标计算所有问询图片的准确率；

步骤五、面向糖尿病患者实时饮食监控的使用，过程如下：

步骤5.1：若通过可穿戴摄像头的监视发现食物则启动跨模态检索模块，方法将食物图像联合当下通过用户佩戴的智能手表采集到的生物健康数据送入跨模态检索模型，跨模态检索模型在数据库中检索一个最匹配的食物描述文本及其食物组成数据；

步骤5.2：根据模型所测类别判断输入的食物是否为糖尿病人的禁忌食物，若是，通过智能手表的震动闪光对用户进行预警提示，并将跨模态检索得到的结果以文本的形式通过手机实时反馈给用户；

步骤5.3：根据一天的饮食检索记录，将检索结果汇总为图文并茂的多模态健康建议报告，在每日结束时反馈到用户的手机上；

经过上述步骤的操作，即可实现对糖尿病患者饮食的实时监控，包括记录与预警。

进一步，所述步骤1.2的过程如下：

步骤1.2.1：对元数据集中的生活图像进行模糊粗过滤，使用Laplacian filter(3x3的拉普拉斯卷积核)与快速傅里叶变换两种方式计算图像的模糊度，保留所有模糊度小的图片作为有用图像数据，剔除所有模糊图像；

步骤1.2.2：对剩余图像进行遮盖粗过滤，去除被某物大面积覆盖或面对天花板或墙壁的图像，过程如下：将图像转换为灰度图像，将灰度图像转换为二进制图像，将二值图像转换为矩阵，找出矩阵中最大的连通图形，并计算其面积比例，根据矩阵计算的结果,剔除最大连通图形面积超过整个区域90％的图像；

步骤1.2.3：对元数据集中的实时生物健康数据进行数据清洗与处理，如去除与饮食关联度不大的生物数据如睡眠时间，以及根据时间序列上下时刻数据的平均值来补全缺失的血糖测量值；

步骤1.2.4：对元数据集中的图像与数据进行协同过滤，使用步骤1.1中训练好的多标签分类器对生活图像打取标签，去除生活图像中对各类食物置信度低的图像，同时去掉所有与被删除图像配对的生物健康数据。

所述步骤3.3中，卷积神经网络的预训练采用大批量食物图像数据集Food-101，将预训练好的分类器中的卷积神经网络放入本发明的跨模态检索模型中进行下一步的训练与参数微调。

所述步骤5.3中，其每日的多模态健康建议报告由三份或多份饮食数据组成，其中每份饮食数据为检测到饮食的时间段中一张可穿戴摄像头摄取的食物图像、一组智能手环摄取的生物数据、一段跨模态检索模型检索得到的食物描述与饮食建议、一组检索得到的食物组成数据四部分组成，在每日结束时反馈到用户的手机上。

本发明的有益效果主要体现在：为了解决现实世界面向糖尿病患者的饮食健康监控的问题，本发明提出了一种用于实时饮食监控的基于多模态数据的跨模态检索方法，它利用卷积神经网络与BERT分别学习食品图像模态和描述文本模态中的语义表征，在提取特征的同时帮助处理各形态特征之间的潜在联系，其将第三模态的数据引入跨模态检索方法中，以缩小模态间的语义鸿沟。为了解决实时监测的问题，本发明利用实时摄取的生活记录图像作为输入来检测食品并进行检索，在输出部分增添食品组成数据来提高输出信息的实用性。以上改进均可以提高跨模态检索的精确度与稳定性，从而实现准确的跨模态检索。同时，该方法还可用于辅助分析致糖尿病食物成分与个体身体状况的相关性。

附图说明

图1为基于多模态糖尿病数据的实时饮食健康监控的构建方法框架示意图。

图2为监控方法的使用流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

参照图1，一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法，其构建流程包括预处理部分、训练部分、测试部分与结果汇总。监控方法的使用流程如图2所示。

本实施案例中构建的糖尿病饮食健康数据库共含有4500对多模态数据对，每一对多模态数据对包含一张食物图像、一组生物健康数据、一段食物描述文字以及一组食物组成数据。其中每一对都标有一个类别标签，该标签共有健康、致病、其他三类。方法构建的框架如图1所示，操作步骤主要包括数据预处理、模型训练、模型测试与结果汇总，其中模型训练包括检索模型构建和检索模型训练两个步骤，模型测试包括预警精度测试和监控方法的使用测试两个步骤。

步骤一、数据预处理，过程如下：

步骤1.1：对公开数据集Food-101进行扩展，通过给食物图像标注肉食谷物大类及牛排面包等各细分小类的方式，将Food-101数据集扩展为多标签食物图像数据集，并基于此训练一个基于ResNet-101卷积神经网络的多标签分类器；

步骤1.2：对Lifelog生活记录元数据集中的生活图像进行数据集预处理；

步骤1.2.4：对元数据集中的图像与数据进行协同过滤，使用步骤1.1中训练好的多标签分类器对生活图像打取标签，去除生活图像中对各类食物置信度低的图像，同时去掉所有与被删除图像配对的生物健康数据；

步骤1.3：另外手动整理出一个包含食物标签的食物描述数据集，此外将其与搜集到的糖尿病禁忌食物表、糖尿病血糖指标数据集通过数据整合与数据清洗汇总为一个包括食物组成、食物描述和健康提示在内的糖尿病饮食健康数据集；

步骤1.4：通过各自包含的食物标签，将食物图像及实时健康数据集同糖尿病饮食健康数据集配对，构建一个包含4500对多模态对的糖尿病饮食健康数据库，并根据3:1:1的比例划分训练集、验证集与测试集；

步骤二、检索模型构建，过程如下：

步骤2.1：将ResNet-101作为食物图像的特征提取器，其预训练过程在食物图像数据集Food-101上进行，将经过中文语料库预训练的BERT模型食物描述文本的特征提取器；

步骤2.2：图像特征提取器ResNet-101和文本特征提取器BERT后各自连接一个池化层，池化层后接一个特征向量融合模块，特征池化选用最大池化方法；

步骤2.3：特征融合模块后接一个全连接层，使用ReLU激活函数；

步骤2.4：最后连接到典型关联分析范式层，包括典型关联分析函数与损失函数，选用的损失函数为Pairwise类的排序损失，典型关联分析函数为

其中s_x是x模态下的输入数据集合，s_y是y模态下的输入数据集合，w_x与w_y分别是每一模态下的权重因子，公式(1)代表了将两种不同模态数据映射到同一空间下的典型关联分析函数。

步骤三、检索模型训练，过程如下：

步骤3.1：设定学习率为0.0001，批大小设置为32，分别用随机权值初始化参数，100次迭代为一次完整训练，模型共进行5次完整训练，取其中在验证集上准确率最高的模型作为最优模型；

步骤3.2：将每个训练样本中的食物图像与食物描述文本作为两路输入送入跨模态检索模型；

步骤3.3：对上支线的食物图像使用ResNet-101卷积神经网络提取图像特征，将提取的特征采用全局最大池化表征为特征向量，对下支线的食物描述文本使用BERT提取文本特征，将提取的特征采用全局最大池化表征为特征向量；

步骤3.4：对于两路特征向量将得到的图像特征向量与训练样本中的生物健康数据进行特征融合得到新的特征向量，将得到的文本特征向量与训练样本中的食物组成数据进行特征融合得到新的特征向量；

步骤3.5：将两路各自融合得到的特征向量经过一层全连接层送入典型关联分析范式层，进行最终跨模态匹配部分的训练，其中包括典型关联分析函数损失函数，训练的损失函数为Pairwise排序损失，表示为

其中，S(x，y)＝cos(x，y)，cos(·)是余弦函数，x代表x模态数据映射到子空间的样本，y代表与x相匹配的y模态样本，y_k代表不匹配的y模态样本，k代表y模态中不匹配的样本个数，α为定义损失函数边缘的超参数，公式(2)代表了Pairwise排序损失损失函数。

步骤四、预警精度测试，过程如下：

步骤4.1：将预处理好的测试数据集送入训练得到的最优模型进行检索测试；

步骤4.2：使用跨模态检索模型，结合输入的测试数据集中的实时健康数据对食物图像进行跨模态匹配，匹配到最优的食物描述文本及其食物组成数据，并使用多层感知机判断匹配的文本图像对所属类别，记录所有数据；

步骤4.3：比较问询图像的类别标签和跨模态检索模型返回的图像文本对类别标签是否一致，根据信息检索中的评价指标计算所有问询图片的准确率；

步骤五、监控方法的使用测试，过程如下：

步骤5.1：用户佩戴的可穿戴摄像头开启后全天每间隔1分钟不间断地进行拍摄，实时摄取的图像送入一个二分类图像分类模型判断图像是否为食物；

步骤5.2：若图像是食物，方法将食物图像联合当下通过用户佩戴的智能手表采集到的生物健康数据送入跨模态检索模型，跨模态检索模型在数据库中检索一个最匹配的食物描述文本及其食物组成数据；

步骤5.3：根据跨模态检索模型返回的图像文本对类别判断输入的食物是否为糖尿病人的禁忌食物，若是，通过智能手表的震动闪光对用户进行预警提示，并将检索结果实时反馈给用户；

步骤5.4：根据一天的饮食检索记录，将检索结果汇总为图文并茂的多模态健康建议报告，在每日结束时反馈到用户的手机上；

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法，其特征在于，所述方法包括以下步骤：

步骤一、数据库构建，过程如下：

步骤二、检索模型构建，过程如下：

步骤三、检索模型训练，过程如下：

步骤四、预警精度测试，过程如下：

步骤五、面向糖尿病患者实时饮食监控的使用，过程如下：

步骤5.1：若通过可穿戴摄像头的监视发现食物则启动跨模态检索模块，系统将食物图像联合当下通过用户佩戴的智能手表采集到的生物健康数据送入跨模态检索模型，跨模态检索模型在数据库中检索一个最匹配的食物描述文本及其食物组成数据；

步骤5.3：根据一天的饮食检索记录，将检索结果汇总为图文并茂的多模态健康建议报告，在每日结束时反馈到用户的手机上。

2.如权利要求1所述的一种基于多模态数据的面向糖尿病患者的实时饮食健康监控警方法，其特征在于，所述步骤1.2的过程如下：

步骤1.2.1：对元数据集中的生活图像进行模糊粗过滤，使用Laplacian filter与快速傅里叶变换两种方式计算图像的模糊度，保留所有模糊度小的图片作为有用图像数据，剔除所有模糊图像；

3.如权利要求1或2所述的一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法，其特征在于，所述步骤3.3中，卷积神经网络的预训练采用大批量食物图像数据集Food-101，将预训练好的分类器中的卷积神经网络放入本发明的跨模态检索模型中进行下一步的训练与参数微调。

4.如权利要求1或2所述的一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法，其特征在于，所述步骤5.3中，其每日的多模态健康建议报告由三份或多份饮食数据组成，其中每份饮食数据为检测到饮食的时间段中一张可穿戴摄像头摄取的食物图像、一组智能手环摄取的生物数据、一段跨模态检索模型检索得到的食物描述与饮食建议、一组检索得到的食物组成数据四部分组成，在每日结束时反馈到用户的手机上。