CN112002375A

CN112002375A - 一种酒量预测模型的构建方法

Info

Publication number: CN112002375A
Application number: CN202010748369.6A
Authority: CN
Inventors: 朱慧彬; 何荣军; 王丽香; 赵宗宝
Original assignee: Suzhou Yinton Medical Laboratory Co ltd
Current assignee: Suzhou Yinton Medical Laboratory Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-27
Anticipated expiration: 2040-07-30
Also published as: WO2022022663A1; CN112002375B

Abstract

本发明公开了一种酒量预测模型的构建方法，包括：S1、获取样本的饮酒能力与饮酒量的关系，根据所述饮酒量分为第一预设数量个饮酒段位，并根据所述样本的饮酒能力与饮酒量的关系、饮酒段位建立第一数据库；S2、获取样本的基因数据并进行基因数据格式化；S3、根据格式化后的样本的基因数据和所述第一数据库选用机器学习模型构建第一饮酒量预测模型。有益效果：通过机器学习构建一种酒量预测模型，提供饮酒量判断标准，量化个体的饮酒能力，有利于对用户进行有效的酒量预测。

Description

一种酒量预测模型的构建方法

技术领域

本发明涉及生物基因技术领域，特别涉及一种酒量预测模型的构建方法。

背景技术

酒精进入人体后经口腔、食道、胃、肠等器官直接通过生物膜进入血液循环，迅速的被运输到全身各组织器官进行代谢利用。人体内有两种酶来进行酒精代谢：在乙醇脱氢酶催化下，乙醇被氧化成乙醛；乙醛经过乙醛脱氢酶转化为乙酸。在酒精代谢主要由两种酶(乙醇脱氢酶和乙醛脱氢酶)共同完成，个体之间的饮酒能力(酒量)差异主要由这两种酶的活性决定，而酶的多少活性由基因决定，归根结底人的酒量由基因决定。

酒作为部分人们生活中重要的饮品，衍生出各种酒文化，成为特定场合不可或缺的存在。但研究表明不是人人适宜饮酒，饮酒过度对身体的危害极大；且不同的人的饮酒能力也有较大区别，正确认知自我的酒精代谢能力，有一个健康的饮酒标准就非常重要了。而在现有技术中缺乏饮酒标准，不能有效的为用户的饮酒量进行预测。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的目的在于提出一种酒量预测模型的构建方法，通过机器学习构建一种酒量预测模型，通过收集样本的饮酒能力与饮酒量的关系，将样本的饮酒能力与饮酒量的关系、饮酒段位建立第一数据库，提高数据的准确性，收集样本的基因数据并进行基因数据格式化，将样本的基因数据与第一数据库中的数据进行相互匹配，通过机器学习模型构建第一饮酒量预测模型，提供饮酒量判断标准，量化个体的饮酒能力，有利于对用户进行有效的酒量预测。

为达到上述目的，本发明实施例提出了一种酒量预测模型的构建方法，包括：

S1、获取样本的饮酒能力与饮酒量的关系，根据所述饮酒量分为第一预设数量个饮酒段位，并根据所述样本的饮酒能力与饮酒量的关系、饮酒段位建立第一数据库；

S2、获取样本的基因数据并进行基因数据格式化；

S3、根据格式化后的样本的基因数据和所述第一数据库选用机器学习模型构建第一饮酒量预测模型。

根据本发明提出的一种酒量预测模型的构建方法，通过问卷调查方法，获取样本的饮酒能力与饮酒量，并进行数据分析,得到饮酒能力与饮酒量的对应关系，将饮酒量分为第一预设数量个饮酒段位，建立第一数据库，对饮酒量划分饮酒等级，对饮酒能力进行具体量化，有利于给出更有价值的饮酒建议。获取样本的基因数据并进行基因数据格式化，根据格式化后的样本基因数据和第一数据库选用机器学习模型构建第一饮酒量预测模型，提供饮酒量判断标准，量化个体的饮酒能力，有利于对用户进行有效的酒量预测。

根据本发明的一些实施例，所述获取样本的基因数据并进行基因数据格式化包括：

S21、采集样本的唾液；

S22、根据所述样本的唾液进行DNA提取，对提取DNA进行基因测序；

S23、对基因测序后的基因数据进行处理，得到每个样本饮酒量相关的基因位点的基因型；

S24、将所述基因位点按照基因型格式化成数字。

根据本发明的一些实施例，对所述格式化后的样本的基因数据进行基因位点筛选，包括：

S241、分别计算每个基因位点的特征值对所述第一数据库进行划分后得到的各数据子集与划分前的数据集的纯度提升值或不确定性降低值；

S242、选取最大纯度提升值或最大不确定性降低值的基因位点N和所述基因位点N的特征值n，其中，将所述基因位点N作为节点，按照所述基因位点N的特征值n的分组将所述第一数据库拆分成两个子数据集；

S243、依次在两个子数据集中，计算各基因位点的特征值在子数据集中的纯度提升值或不确定性降低值；选取最大纯度提升值或最大不确定性降低值的基因位点M和所述基因位点M的特征值m，其中，将所述基因位点M作为子节点，按照所述基因位点M的特征值m的分组对子数据集再次拆分；

S244、在确定划分后的子数据集的纯度大于预设纯度阈值或不确定性值小于预设不确定性阈值时，停止拆分，最终得到与饮酒量相关的基因位点及基因位点与饮酒段位的关系。

根据本发明的一些实施例，所述与饮酒量相关的基因位点包括rs1229984基因位点和rs671基因位点，其中，rs1229984基因位点位于ADH1B基因上，rs1229984基因位点结果为TT型时，乙醇脱氢酶活性强,乙醇代谢快；结果为CT型时乙醇脱氢酶活性中等,乙醇代谢速度中等；结果为CC型时乙醇脱氢酶活性弱,乙醇代谢速度慢；rs671基因位点位于ALDH2基因上，rs671基因位点结果为GG型时乙醛脱氢酶活性强,乙醛代谢快；结果为GA\AA型时乙醛脱氢酶活性弱,乙醛代谢慢。

根据本发明的一些实施例，在构建第一饮酒量预测模型后，还包括：

S4、将饮酒量重新分成第二预设数量的饮酒段位，根据所述样本的饮酒能力与饮酒量的关系、第二预设数量的饮酒段位建立第二数据库；

S5、根据样本的与饮酒量相关的基因位点和所述第二数据库选用机器学习模型重新构建饮酒量预测模型，得到第二饮酒量预测模型。

根据本发明的一些实施例，根据所述样本的唾液进行DNA提取，包括：

S421、将0.2ml唾液置于离心管中，加0.01mol/L PBS溶液600μL，通过离心机10000*g高速离心3min；

S422、取沉淀加入50ul，5mol/l的碘化钾溶液、75ul，0.9％的氯化钠溶液、120ul酚：氯仿(20:13)溶液，摇晃震荡1min，通过离心机10000*g高速离心3min；

S423、取上清液80ul，加入80ul的异丙醇，摇晃震荡30s，通过离心机10000*g高速离心3min；

S424、取沉淀，加入500μl无水乙醇洗涤，通过离心机10000*g高速离心3min；

S425、取沉淀室温晾干，用TE缓冲液溶解。

根据本发明的一些实施例，还包括：

S71、获取影响用户饮酒量的第二信息，所述第二信息包括：疾病史、饮酒种类、饮酒度数、饮酒频率；

S72、根据所述第二信息对第二饮酒量预测模型进行修正，得到第三饮酒量预测模型。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一个实施例的一种酒量预测模型的构建方法的流程图；

图2是根据本发明一个实施例的对样本的基因数据的处理的流程图；

图3是根据本发明一个实施例的对于饮酒量相关的基因位点筛选的流程图；

图4是根据本发明一个实施例的建立第二饮酒量预测模型的流程图；

图5是根据本发明一个实施例的对唾液进行DNA提取的流程图；

图6是根据本发明一个实施例的饮酒量相关基因与饮酒段位的决策树的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

下面参考图1至图6来描述本发明实施例提出的一种酒量预测模型的构建方法。

图1是根据本发明一个实施例的一种酒量预测模型的构建方法的流程图；如图1所示，本发明实施例提出了一种酒量预测模型的构建方法，包括：

S2、获取样本的基因数据并进行基因数据格式化；

根据本发明提出的一种酒量预测模型的构建方法，通过问卷调查方法，获取样本的饮酒能力与饮酒量，并进行数据分析,得到饮酒能力与饮酒量的对应关系，将饮酒量分为第一预设数量个饮酒段位，建立第一数据库，对饮酒量划分饮酒等级，对饮酒能力进行具体量化，有利于给出更有价值的饮酒建议。获取样本的基因数据并进行基因数据格式化，根据格式化后的样本基因数据和第一数据库选用机器学习模型构建第一饮酒量预测模型，通过机器学习中决策树模型构建一种酒量预测模型，提供饮酒量判断标准，量化个体的饮酒能力，有利于对用户进行有效的酒量预测。机器学习模型包括：线性分类、线性回归、支持向量机(SVM)、决策树分类模型、朴素贝叶斯、随机森林、神经网络模型中的至少一种。其中，决策树分类模型有易于理解和实现同时训练结果很容易推出相应的逻辑表达式，具有较好的可阅读性。

图2是根据本发明一个实施例的对样本的基因数据的处理的流程图；如图2所示，所述获取样本的基因数据并进行基因数据格式化包括：

S21、采集样本的唾液；

S24、将所述基因位点按照基因型格式化成数字。

上述技术方案的工作原理及有益效果：获取样本的基因数据通过对样本的唾液进行DNA提取、基因测序、基因分型；基因测序的方法包括：芯片测序、二代测序、三代测序、PCR测序、panel测序中的至少一种。最终得到每个样本饮酒量相关的基因位点的基因型，为了对基因位点对饮酒量的影响进行有效计算，将基因位点按照基因型格式化成数字。示例的，野生型为0、杂合突变型为1、纯合突变型为2。如在rs1229984基因位点上，CC为纯合突变型，格式化成数字为2；TT为野生型，格式化成数字为0；CT为杂合突变型，格式化成数字为1；如在rs671基因位点上，AA为纯合突变型，格式化成数字为2；GG为野生型，格式化成数字为0；AG为杂合突变型，格式化成数字为1。

在一实施例中，对格式化后的样本的基因数据进行基因位点筛选，包括：

上述技术方案的工作原理及有益效果：度量划分数据集前后的数据集的纯度以及不确定性的方法包括计算信息增益、信息增益率、基尼系数中的至少一个参数，具体的在根据基尼系数确定纯度及不确定性的方法中，基尼系数越大，数据的不确定性越高，样本纯度越低，表示数据集中目标样本所占总样本的比例越小；基尼系数越小，数据的不确定性越低，样本纯度越高，表示数据集中目标样本所占总样本的比例越高；在基尼系数小于预设数值时，表示划分后的子数据集的纯度大于预设纯度阈值或不确定性值小于预设不确定性阈值时，停止拆分，最终得到与饮酒量相关的基因位点及基因位点与饮酒段位的关系。示例的，在基尼系数等于0时，数据集中的所有样本都是同一类别。

在一实施例中，如图6所示，判断样本的rs671基因位点结果是否为GG，即判断样本的rs671基因位点格式化是否为0，根据rs671基因位点是否为0，将第一数据库分成两个数据集，为第一数据集和第二数据集，其中，第一数据集中样本的rs671基因位点结果为GG，第二数据集中样本的rs671基因位点结果为AA、AG；在第一数据集和第二数据集中计算各基因位点的特征值的基尼系数，选取计算出的基尼系数最小的基因位点A和所述基因位点A的特征值a，其中，将所述基因位点A作为子节点，按照所述基因位点A的特征值a的分组将数据集再次进行拆分；示例的，在第一数据集中，判断样本rs1229984基因位点是否为CC或CT，在判断为False时，样本rs1229984基因位点为TT，即该分组中样本rs671基因位点结果为GG，样本rs1229984基因位点为TT，如表一所示，饮酒段位为8段。在确定每个分组都为同一类型的样本即基尼系数为0时，停止拆分，最终得到与饮酒量相关的基因位点及基因位点与饮酒段位的关系。将与饮酒量相关的基因根据其基因类型，划分相对应的饮酒段位，方便记忆，且能准确的反应出基因类型与饮酒量的对应关系，一目了然，提高用户体验。

在一实施例中，与饮酒量直接相关的基因位点还包括：rs6413413、rs698、rs2298755等基因位点；酒精依赖相关位点包括：rs2066702、rs55768019、rs1789891等基因位点；酒精使用障碍相关基因位点包括：rs4975012、rs7078436、rs3114045等基因位点；酒精中毒相关基因位点包括：rs9556711、rs2140418、rs8040009等基因位点；酒精敏感性相关基因位点包括：rs112834343、rs75536499、rs146298733等基因位点；饮酒反应相关基因位点包括rs143894582、rs200848948、rs397813807等基因位点；酒精依赖冲动型行为相关基因位点包括：rs34997829基因位点；可以理解的是，本领域技术人员可以根据与饮酒量相关的基因位点，按照相关的基因位点的基因型的不同排列组合，建立饮酒量预测模型。本领域技术人员通过对相关的位点的基因型的不同排列组合，建立饮酒量预测模型，是在本发明的保护范围内。

在一实施例中，选用决策树模型构建饮酒量预测模型；

算法包括：

使用Python进行编程调用Sklearn的DecisionTreeClassifier模块进行数据挖掘和构建饮酒量预测模型；

DecisionTreeClassifier模块主要参数设置：

criterion＝'gini'：选用基尼系数作为节点划分质量的度量标准；

splitter＝’best’：在所有特征中找最好的切分点；

max_depth＝None：设置决策树的最大深度，None表示不对决策树的最大深度作约束，直到每个叶子节点上的样本均属于同一类；

min_samples_split＝2：当对一个内部节点划分时，要求该节点上的最小样本数为2；

min_samples_leaf＝1：设置叶子节点上的最小样本数为1；

最终得到rs1229984基因位点和rs671基因位点与饮酒量有关。

图4是根据本发明一个实施例的建立第二饮酒量预测模型的流程图；如图4所示，在构建第一饮酒量预测模型后，还包括：

上述技术方案的工作原理及有益效果：对第一饮酒量预测模型进行优化，将第一预设数量的饮酒段位转换成第二预设数量的饮酒段位，第二预设数量可以为9，根据样本的饮酒能力与饮酒量的关系、第二预设数量的饮酒段位建立第二数据库，在重新构建饮酒量预测模型时，只选用与饮酒量相关的基因位点，通过样本的与饮酒量相关的基因位点和所述第二数据库选用机器学习模型重新构建饮酒量预测模型，得到第二饮酒量预测模型，可以降低计算量及复杂度，第二饮酒量预测模型的预测准确性提高。得到rs1229984基因位点和rs671基因位点与饮酒量的关系如表一所示。

表一

在一实施例中，第二预设数量为7，饮酒段位为7个段位，得到rs1229984基因位点和rs671基因位点与饮酒量的关系如表二所示。

表二

上述技术方案的工作原理及有益效果：饮酒段位为0段时包括3种情形：1、rs1229984基因位点为CC，rs671基因位点为AA；2、rs1229984基因位点为TT、rs671基因位点为AA；3、rs1229984基因位点为CT，rs671基因位点为AA。饮酒段位的命名使用不连续的方式进行命名，如缺少3段及6段，该不连续方式命名可以将饮酒段位与饮酒量的具体酒量进行相匹配，示例的，饮酒段位为9段时，用户饮酒量为9两以上。

在得到第二饮酒量预测模型后，根据用户的基因数据基于所述第二饮酒量预测模型对用户的饮酒量进行预测。可以提供饮酒量判断标准，量化个体的饮酒能力，根据用户的身体情况给出给出更直观有价值的酒量评价及饮酒建议，提高用户的体验。

图5是根据本发明一个实施例的对唾液进行DNA提取的流程图；如图5所示，对唾液进行DNA提取，包括：

S425、取沉淀室温晾干，用TE缓冲液溶解。

上述技术方案的工作原理及有益效果：唾液中含有口腔脱落细胞，细胞里有遗传物质DNA，通过上述方案，可以通过唾液提取用户的DNA，以便进行相应的处理分析。

根据本发明的一些实施例，获取样本的基因数据还可以通过采集血液进行DNA提取。通过血液进行DNA提取，灵敏度高，提取的DNA数据更加准确。

在一实施例中，还包括：

上述技术方案的工作原理及有益效果：第二饮酒量预测模型基于用户的基因数据输出的预测结果没有考虑该用户的实际情况，需要根据影响用户饮酒量的第二信息对饮酒量的预测进行修正，建立第三饮酒量预测模型，需要建立根据第二信息对饮酒量的修正机制。示例的，如表二所示，用户的基因数据为rs1229984基因位点的基因型为CC、rs671基因位点的基因型为GG，则对用户的饮酒量预测为7段，即用户能饮用7两以上的酒(以50°的白酒为例)，但是用户最近在犯胃病，不能喝酒，喝酒容易引发胃穿孔，严重危害身体健康。同样的，根据用户饮酒种类、饮酒度数、饮酒频率的不同也会影响对用户饮酒量的预测。根据用户的实际情况进行更加有效的饮酒量预测，使得第三饮酒量预测模型预测结果更加精准。

在一实施例中，根据所述第二信息对第二饮酒量预测模型进行修正的方法，包括：

计算第二饮酒量预测模型给出的第一预测结果中的乙醇量：

V₁＝A×c

其中，A为第二饮酒量预测模型基于用户的基因数据输出的饮酒量(ml)；c为第二饮酒量预测模型中预设酒精浓度(％vol)；

计算根据第二信息用户能饮用的乙醇量：

V₂＝V₁×d×t×f

其中，d为用户疾病史与饮酒量的相关系数；t为饮酒种类与饮酒量的相关系数；f为饮酒频率与饮酒量的相关系数；

第三饮酒量预测模型给出的第二预测结果的饮酒量：

其中，c_u为用户输入的饮酒度数。

上述技术方案的工作原理及有益效果：用户在属于胃病患者、肝病患者、心脑血管疾病患者、孕妇、服用感冒药、安眠药、镇定药时，用户疾病史与饮酒量的相关系数d为0，即用户不能够饮酒；其他用户疾病史与饮酒量的相关系数d的取值在0-1之间；饮酒种类与饮酒量的相关系数t取值如表三所示；饮酒频率与饮酒量的相关系数f取值如表四所示；通过上述算法，根据所述第二信息对第二饮酒量预测模型进行修正，得到第三饮酒量预测模型，能根据用户的实际情况进行更加有效的饮酒量预测，预测结果更加精准，给出用户最正确的饮酒建议，提升用户体验。

表三

饮酒种类	相关系数t
		白酒	1
啤酒	1.5
		葡萄酒	1.8

表四

饮酒频率	相关系数f
		每天饮酒	0.3
三天一次饮酒	0.6
		7天一次饮酒	0.8

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种酒量预测模型的构建方法，其特征在于，包括：

S2、获取样本的基因数据并进行基因数据格式化；

2.如权利要求1所述的酒量预测模型的构建方法，其特征在于，所述获取样本的基因数据并进行基因数据格式化包括：

S21、采集样本的唾液；

S24、将所述基因位点按照基因型格式化成数字。

3.如权利要求2所述的酒量预测模型的构建方法，其特征在于，

对所述格式化后的样本的基因数据进行基因位点筛选，包括：

4.如权利要求3所述的酒量预测模型的构建方法，其特征在于，所述与饮酒量相关的基因位点包括rs1229984基因位点和rs671基因位点，其中，rs1229984基因位点位于ADH1B基因上，rs1229984基因位点结果为TT型时，乙醇脱氢酶活性强,乙醇代谢快；结果为CT型时乙醇脱氢酶活性中等,乙醇代谢速度中等；结果为CC型时乙醇脱氢酶活性弱,乙醇代谢速度慢；rs671基因位点位于ALDH2基因上，rs671基因位点结果为GG型时乙醛脱氢酶活性强,乙醛代谢快；结果为GA\AA型时乙醛脱氢酶活性弱,乙醛代谢慢。

5.如权利要求4所述的酒量预测模型的构建方法，其特征在于，在构建第一饮酒量预测模型后，还包括：

6.如权利要求2所述的酒量预测模型的构建方法，其特征在于，根据所述样本的唾液进行DNA提取，包括：

S425、取沉淀室温晾干，用TE缓冲液溶解。

7.如权利要求5所述的酒量预测模型的构建方法，其特征在于，还包括：