CN111798981A

CN111798981A - 一种基于饮食习惯预测痛风的模型构建方法和系统

Info

Publication number: CN111798981A
Application number: CN202010664480.7A
Authority: CN
Inventors: 李平; 杜乐
Original assignee: Wuzheng Intelligent Technology Beijing Co ltd
Current assignee: Wuzheng Intelligent Technology Beijing Co ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-20

Abstract

本发明涉及一种基于饮食习惯预测痛风的模型构建方法，包括如下步骤：获取样本数据，构建包含样本人群的多日餐食的食材信息的第一数据集；抽取第一数据集中的若干个数据，将该数据作为特征组成第二数据集；将所述第二数据集划分为训练集、验证集，将所述训练集作为KNN分类器的输入；训练KNN分类器，直至其分类误差达到阈值。通过对样本一些饮食习惯等特征的记录，利用K近邻算法，分析饮食习惯与痛风的关系，并构建模型。利用KNN模型对用户近期的饮食行为进行实时分析，实现对痛风的智能认知和预测。

Description

一种基于饮食习惯预测痛风的模型构建方法和系统

技术领域

本发明涉及医疗信息处理领域，尤其涉及一种基于饮食习惯预测痛风的模型构建方法和系统。

背景技术

痛风是一种发病率极高的并发症，主要原因是体内尿酸水平较高，通常与我们的日常生活息息相关。由于人们日常饮食结构的不合理性导致痛风疾病的产生。痛风是个长期的慢性的终生疾病，其痛苦不堪，所以痛风患者一定要管住自己的“口”很是关键。研究表明，痛风的急性发作有如下诱因：1、高嘌呤食物的摄入，长期进食动物肝脏，海鲜，牛肉，鸡肉等高嘌呤饮食可诱发痛风的急性发作；2、饮酒，大量的饮用啤酒或者白酒，是痛风发作最常见的一个原因；3、肥胖，肥胖不仅增加痛风发生的风险，而且肥胖患者痛风发病年龄较早；4、家族史，有痛风家族史的人，患痛风的几率会增加。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于饮食习惯预测痛风的模型构建方法，包括如下步骤：获取样本数据，构建包扩样本人群的多日餐食的食材信息的第一数据集；抽取第一数据集中的若干个数据，将该数据作为特征组成第二数据集；将所述第二数据集划分为训练集、验证集，将所述训练集作为KNN分类器的输入；训练KNN分类器，直至其分类误差达到阈值。阈值不高于1％，即300个样本中，预测患痛风的错误样本个数不超过3。

在发明的一些实施例中，所述第一数据集还包括样本人群的年龄、性别、体重、身高、饮酒史、痛风家族遗传史信息。

在发明的一些实施例中，根据样本年龄、性别对多日餐食的食材信息作为第二数据集的特征。

在发明的一些实施例中，所述第二数据集以是否痛风作为标签。

在发明的一些实施例中，所述特征包括年龄、性别、肥胖、饮酒史、嘌呤摄取情况、痛风家族史。

在发明的一些实施例中，还包括对样本的特征进行归一化。

本发明另一方面提供了一种基于饮食习惯预测痛风的系统，包括获取模块、匹配模块、计算模块、预测模型，所述获取模块用于获取用户的年龄、性别、体重、身高、饮酒史、痛风家族遗传史、多日餐食的食材信息；

所述匹配模块用于根据用户的性别和年龄对嘌呤元素每日摄入量及食材中嘌呤含量检索；

所述计算模块用于对匹配模块检索到的嘌呤含量进行加权计算，并与每日摄入量进行比对，得出摄入量特征；

所述预测模型根据摄入量特征预测用户是否患有痛风。

在发明的一些实施例中，所述预测模型本发明第一方面所提供的模型构建方法所构建的模型。

在发明的一些实施例中，所述预测模型还包括存储第一数据集、第二数据集的存储单元、KNN分类器。

在发明的一些实施例中，所述KNN分类器根据KNN算法和第二数据集来预测用户是否患有痛风。

优选的，在上述KNN分类器中，可将第二数据集作为输入，KNN分类器作为生成网络，构造生成式对抗网络来提高痛风预测的准确率。

本发明的有益效果是：

通过记录不同人群一个月内的饮食情况来建立数据集，通过对患者年龄、性别、肥胖、饮酒史、嘌呤摄取情况、痛风家族史等特征的记录，利用K近邻算法，分析饮食习惯与痛风的关系，并构建模型。利用KNN模型对用户近期的饮食行为进行实时分析，实现对痛风的智能认知和预测。

附图说明

图1为本发明一些实施例中的基于饮食习惯预测痛风的模型构建方法流程图；

图2为本发明一些实施例中的基于饮食习惯预测痛风系统的结构图；

图3为本发明的一些实施例中的预测模型的结构图；

图4为本发明的一些实施例中的第二数据集示意图；

图5为部分常见食材每100克嘌呤含量表。

附图中，各标号所代表的部件列表如下：

1、基于饮食习惯预测痛风系统，11、获取模块，12、匹配模块，13、计算模块，14、预测模型。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

首先，对本申请的一些必要概念进行说明：

标签：标签是我们要预测的事物，即简单线性回归中的y变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物，在本发明中标签可以指样本中的人群是否患有痛风。

特征：特征是输入变量，即简单线性回归中的x变量。简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数百万个特征，按如下方式指定：x1,x2,...xN。

样本：样本是指数据的特定实例：x。(x是一个矢量。)我们将样本分为以下两类：有标签样本、无标签样本，有标签样本同时包含特征和标签。即：labeled examples:{features,label}:(x,y)，我们使用有标签样本来训练模型。在本申请中，有标签样本是用户明确标记为“患有痛风”或“没有患有痛风”。例如，一个患者或用户样本里，包含了年龄、性别、体重、身高、饮酒史、痛风家族遗传史等特征。

下面对本发明的具体实施方案作具体说明：

参考图1和图4，一种基于饮食习惯预测痛风的模型构建方法，包括如下步骤：获取样本数据，构建包括样本人群的多日餐食的食材信息的第一数据集；抽取第一数据集中的若干个数据，将该数据作为特征组成第二数据集；将所述第二数据集划分为训练集、验证集，将所述训练集作为KNN分类器的输入；训练KNN分类器，直至其分类误差达到阈值。具体地，通过验证集对KNN分类器进行验证，直至阈值不高于1％，即300个验证样本中，预测患痛风的错误样本个数不超过3。

在发明的一些实施例中，根据样本年龄、性别对多日餐食的食材信息作为第二数据集的特征。进一步的，所述第二数据集以是否痛风作为标签。

参考图4和图5，在发明的一些实施例中，需要对样本的特征进行归一化。由于第一数据集或第二数据集中的食材信息和嘌呤摄入量存在多个特征，且取值跨度范围较大，其他数值相对较小的分类结果会被该特征所主导，而弱化了其他特征的影响，需要将该数据进行归一化。采用将该特征离差标准化，是对原始数据的线性变换，使结果落到[0,1]-[0,10]区间，区间可根据实际情况进行调整。

参考图2，本发明另一方面还提供了一种基于饮食习惯预测痛风系统1。该系统包括：获取模块11、匹配模块12、计算模块13、预测模型14。

获取模块11：获取用户年龄、性别、体重、身高、饮酒史、痛风家族遗传史、多日餐食的食材信息；

匹配模块12：根据用户录入的数据，在嘌呤表格中，根据年龄，性别优先对嘌呤元素每日摄入量及食材中嘌呤含量检索；

计算模块13：根据数据检索的结果对嘌呤含量进行加权计算，加权结果与每日摄入量对标。根据对标结果，判断出嘌呤的摄入量情况(偏低、偏高、适中)，并进行归类统计，得出最终的摄入情况；

预测模型14：根据摄入量特征预测用户是否患有痛风。例如，记录300个用户，连续30天的饮食情况，分析出嘌呤的摄入情况；选取的用户特征为：年龄、性别、肥胖、饮酒史、嘌呤摄取情况、痛风家族史。

参考图3，在本发明的一些实施例中，预测模型14包括存储单元和KNN分类器，KNN分类器根据KNN算法和第二数据集来预测用户是否患有痛风；

存储单元存储了包括第一数据集、第二数据集，并且与KNN分类器进行数据交互。具体地，KNN分类器可在用户自愿提供患病数据的情况下，来更新数据集。

特别的，在上述KNN分类器中，可将第二数据集作为输入，KNN分类器作为生成网络，构造生成式对抗网络来提高痛风预测的准确率。进一步的，生成式对抗网络实时或定时对KNN分类器进行交互以提高预测的准确率。

下面结合具体的样本实例对本发明进行说明：22岁，男，身高176cm，体重75KG，有饮酒史，无痛风家族遗传史，记录一个月内的饮食行为，对该饮食行为分析，统计嘌呤摄入情况(高、中、低)，预测是否会患痛风。

1、每日嘌呤摄入量计算：通过记录每日的食材及重量，利用知识库食材表检索出每个食材对应的嘌呤含量，通过加权计算，得出每日的嘌呤总摄入量分别设为X1。

2、一月内嘌呤的总摄入量：同理按照步骤1，分别计算出剩余天数的嘌呤摄入量分别设为X2，X3，X4，X5，X6，X30；则一月内嘌呤的总摄入量为X＝X1+X2+……X30。

3、对标计算摄入量情况：利用知识库中嘌呤每日标准摄入量表检索出该年龄段每日嘌呤标准摄入量Y，用Y*30-X，对比计算结果是否大于0。如果大于0，结果偏低；如果小于0，结果偏高；如果等于0，结果适中。

4、利用K近邻算法，实现痛风的智能预测。

K近邻算法描述如下：

1)、计算已知类别数据集中每个点和该点之间的距离；

距离计算公式：

其中x_K代表实际采集到的样本的第K个特征的值，y_K代表数据集中对应的第K个特征的值。在KNN(K-Nearest Neighbor)中，通过计算对象间距离来作为各个对象之间的非相似性指标。

2)、按照距离递增顺序排序；

3)、选取与该点距离最近的k个点；

4)、确定前k个点所在类别出现的频率；

5)、返回前k个点出现频率最高的类别作为该点的预测分类。

加载第二数据集后，根据用户录入的数据特征及嘌呤的摄入情况，用该点和数据集中的每个点(300个点)分别计算距离，结果值由小到大的排序，设置K值，当K＝1时，选取的是距离该点最近的点，预测点的类别属于已知点类别。如果已知点类别为痛风，则该点预测为痛风；如果已知点类不为痛风，则该点不会患痛风。当K＝3时，选取的是距离该点最近的3个点，确定已知点所在的类别，统计出现的次数，如果三个点的类别分别为痛风，痛风，非痛风，痛风出现2次，非痛风出现1次，则未知点预测为痛风。不同的最近邻个数往往会导致不同的分类结果，一般来说，我们在实际应用中要根据实际情况和经验确定k的取值。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于饮食习惯预测痛风的模型构建方法，其特征在于，包括如下步骤：

获取样本数据，构建包括样本人群的多日餐食的食材信息的第一数据集；

抽取第一数据集中的若干个数据，将该数据作为特征组成第二数据集；

将所述第二数据集划分为训练集、验证集，将所述训练集作为KNN分类器的输入；

训练KNN分类器，直至其分类误差达到阈值。

2.根据权利要求1所述的基于饮食习惯预测痛风的模型构建方法，其特征在于，所述第一数据集还包括样本人群的年龄、性别、体重、身高、饮酒史、痛风家族遗传史信息。

3.根据权利要求1所述的基于饮食习惯预测痛风的模型构建方法，其特征在于，根据样本年龄、性别对多日餐食的食材信息作为第二数据集的特征。

4.根据权利要求3所述的基于饮食习惯预测痛风的模型构建方法，其特征在于，所述第二数据集以是否痛风作为标签。

5.根据权利要求1所述的基于饮食习惯预测痛风的模型构建方法，其特征在于，所述特征包括年龄、性别、肥胖、饮酒史、嘌呤摄取情况、痛风家族史。

6.根据权利要求1-5中任一所述的基于饮食习惯预测痛风的模型构建方法，其特征在于，还包括对样本的特征进行归一化。

7.一种基于饮食习惯预测痛风的系统，其特征在于，包括获取模块、匹配模块、计算模块、预测模型，

所述获取模块用于获取用户的年龄、性别、体重、身高、饮酒史、痛风家族遗传史、多日餐食的食材信息；

所述预测模型根据摄入量特征预测用户是否患有痛风。

8.根据权利要求7所述的基于饮食习惯预测痛风的系统，其特征在于，所述预测模型包括权利要求1-6中任一所述的模型构建方法所构建的模型。

9.根据权利要求8所述的基于饮食习惯预测痛风的系统，其特征在于，所述预测模型还包括存储第一数据集、第二数据集的存储单元、KNN分类器。

10.根据权利要求9所述的基于饮食习惯预测痛风的系统，其特征在于，所述KNN分类器根据KNN算法和第二数据集来预测用户是否患有痛风。