CN112002375A - 一种酒量预测模型的构建方法 - Google Patents

一种酒量预测模型的构建方法 Download PDF

Info

Publication number
CN112002375A
CN112002375A CN202010748369.6A CN202010748369A CN112002375A CN 112002375 A CN112002375 A CN 112002375A CN 202010748369 A CN202010748369 A CN 202010748369A CN 112002375 A CN112002375 A CN 112002375A
Authority
CN
China
Prior art keywords
drinking
gene
capacity
sample
alcohol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010748369.6A
Other languages
English (en)
Other versions
CN112002375B (zh
Inventor
朱慧彬
何荣军
王丽香
赵宗宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yinton Medical Laboratory Co ltd
Original Assignee
Suzhou Yinton Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yinton Medical Laboratory Co ltd filed Critical Suzhou Yinton Medical Laboratory Co ltd
Priority to CN202010748369.6A priority Critical patent/CN112002375B/zh
Publication of CN112002375A publication Critical patent/CN112002375A/zh
Priority to PCT/CN2021/109450 priority patent/WO2022022663A1/zh
Application granted granted Critical
Publication of CN112002375B publication Critical patent/CN112002375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种酒量预测模型的构建方法,包括:S1、获取样本的饮酒能力与饮酒量的关系,根据所述饮酒量分为第一预设数量个饮酒段位,并根据所述样本的饮酒能力与饮酒量的关系、饮酒段位建立第一数据库;S2、获取样本的基因数据并进行基因数据格式化;S3、根据格式化后的样本的基因数据和所述第一数据库选用机器学习模型构建第一饮酒量预测模型。有益效果:通过机器学习构建一种酒量预测模型,提供饮酒量判断标准,量化个体的饮酒能力,有利于对用户进行有效的酒量预测。

Description

一种酒量预测模型的构建方法
技术领域
本发明涉及生物基因技术领域,特别涉及一种酒量预测模型的构建方法。
背景技术
酒精进入人体后经口腔、食道、胃、肠等器官直接通过生物膜进入血液循环,迅速的被运输到全身各组织器官进行代谢利用。人体内有两种酶来进行酒精代谢:在乙醇脱氢酶催化下,乙醇被氧化成乙醛;乙醛经过乙醛脱氢酶转化为乙酸。在酒精代谢主要由两种酶(乙醇脱氢酶和乙醛脱氢酶)共同完成,个体之间的饮酒能力(酒量)差异主要由这两种酶的活性决定,而酶的多少活性由基因决定,归根结底人的酒量由基因决定。
酒作为部分人们生活中重要的饮品,衍生出各种酒文化,成为特定场合不可或缺的存在。但研究表明不是人人适宜饮酒,饮酒过度对身体的危害极大;且不同的人的饮酒能力也有较大区别,正确认知自我的酒精代谢能力,有一个健康的饮酒标准就非常重要了。而在现有技术中缺乏饮酒标准,不能有效的为用户的饮酒量进行预测。
发明内容
本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此,本发明的目的在于提出一种酒量预测模型的构建方法,通过机器学习构建一种酒量预测模型,通过收集样本的饮酒能力与饮酒量的关系,将样本的饮酒能力与饮酒量的关系、饮酒段位建立第一数据库,提高数据的准确性,收集样本的基因数据并进行基因数据格式化,将样本的基因数据与第一数据库中的数据进行相互匹配,通过机器学习模型构建第一饮酒量预测模型,提供饮酒量判断标准,量化个体的饮酒能力,有利于对用户进行有效的酒量预测。
为达到上述目的,本发明实施例提出了一种酒量预测模型的构建方法,包括:
S1、获取样本的饮酒能力与饮酒量的关系,根据所述饮酒量分为第一预设数量个饮酒段位,并根据所述样本的饮酒能力与饮酒量的关系、饮酒段位建立第一数据库;
S2、获取样本的基因数据并进行基因数据格式化;
S3、根据格式化后的样本的基因数据和所述第一数据库选用机器学习模型构建第一饮酒量预测模型。
根据本发明提出的一种酒量预测模型的构建方法,通过问卷调查方法,获取样本的饮酒能力与饮酒量,并进行数据分析,得到饮酒能力与饮酒量的对应关系,将饮酒量分为第一预设数量个饮酒段位,建立第一数据库,对饮酒量划分饮酒等级,对饮酒能力进行具体量化,有利于给出更有价值的饮酒建议。获取样本的基因数据并进行基因数据格式化,根据格式化后的样本基因数据和第一数据库选用机器学习模型构建第一饮酒量预测模型,提供饮酒量判断标准,量化个体的饮酒能力,有利于对用户进行有效的酒量预测。
根据本发明的一些实施例,所述获取样本的基因数据并进行基因数据格式化包括:
S21、采集样本的唾液;
S22、根据所述样本的唾液进行DNA提取,对提取DNA进行基因测序;
S23、对基因测序后的基因数据进行处理,得到每个样本饮酒量相关的基因位点的基因型;
S24、将所述基因位点按照基因型格式化成数字。
根据本发明的一些实施例,对所述格式化后的样本的基因数据进行基因位点筛选,包括:
S241、分别计算每个基因位点的特征值对所述第一数据库进行划分后得到的各数据子集与划分前的数据集的纯度提升值或不确定性降低值;
S242、选取最大纯度提升值或最大不确定性降低值的基因位点N和所述基因位点N的特征值n,其中,将所述基因位点N作为节点,按照所述基因位点N的特征值n的分组将所述第一数据库拆分成两个子数据集;
S243、依次在两个子数据集中,计算各基因位点的特征值在子数据集中的纯度提升值或不确定性降低值;选取最大纯度提升值或最大不确定性降低值的基因位点M和所述基因位点M的特征值m,其中,将所述基因位点M作为子节点,按照所述基因位点M的特征值m的分组对子数据集再次拆分;
S244、在确定划分后的子数据集的纯度大于预设纯度阈值或不确定性值小于预设不确定性阈值时,停止拆分,最终得到与饮酒量相关的基因位点及基因位点与饮酒段位的关系。
根据本发明的一些实施例,所述与饮酒量相关的基因位点包括rs1229984基因位点和rs671基因位点,其中,rs1229984基因位点位于ADH1B基因上,rs1229984基因位点结果为TT型时,乙醇脱氢酶活性强,乙醇代谢快;结果为CT型时乙醇脱氢酶活性中等,乙醇代谢速度中等;结果为CC型时乙醇脱氢酶活性弱,乙醇代谢速度慢;rs671基因位点位于ALDH2基因上,rs671基因位点结果为GG型时乙醛脱氢酶活性强,乙醛代谢快;结果为GA\AA型时乙醛脱氢酶活性弱,乙醛代谢慢。
根据本发明的一些实施例,在构建第一饮酒量预测模型后,还包括:
S4、将饮酒量重新分成第二预设数量的饮酒段位,根据所述样本的饮酒能力与饮酒量的关系、第二预设数量的饮酒段位建立第二数据库;
S5、根据样本的与饮酒量相关的基因位点和所述第二数据库选用机器学习模型重新构建饮酒量预测模型,得到第二饮酒量预测模型。
根据本发明的一些实施例,根据所述样本的唾液进行DNA提取,包括:
S421、将0.2ml唾液置于离心管中,加0.01mol/L PBS溶液600μL,通过离心机10000*g高速离心3min;
S422、取沉淀加入50ul,5mol/l的碘化钾溶液、75ul,0.9%的氯化钠溶液、120ul酚:氯仿(20:13)溶液,摇晃震荡1min,通过离心机10000*g高速离心3min;
S423、取上清液80ul,加入80ul的异丙醇,摇晃震荡30s,通过离心机10000*g高速离心3min;
S424、取沉淀,加入500μl无水乙醇洗涤,通过离心机10000*g高速离心3min;
S425、取沉淀室温晾干,用TE缓冲液溶解。
根据本发明的一些实施例,还包括:
S71、获取影响用户饮酒量的第二信息,所述第二信息包括:疾病史、饮酒种类、饮酒度数、饮酒频率;
S72、根据所述第二信息对第二饮酒量预测模型进行修正,得到第三饮酒量预测模型。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明一个实施例的一种酒量预测模型的构建方法的流程图;
图2是根据本发明一个实施例的对样本的基因数据的处理的流程图;
图3是根据本发明一个实施例的对于饮酒量相关的基因位点筛选的流程图;
图4是根据本发明一个实施例的建立第二饮酒量预测模型的流程图;
图5是根据本发明一个实施例的对唾液进行DNA提取的流程图;
图6是根据本发明一个实施例的饮酒量相关基因与饮酒段位的决策树的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
下面参考图1至图6来描述本发明实施例提出的一种酒量预测模型的构建方法。
图1是根据本发明一个实施例的一种酒量预测模型的构建方法的流程图;如图1所示,本发明实施例提出了一种酒量预测模型的构建方法,包括:
S1、获取样本的饮酒能力与饮酒量的关系,根据所述饮酒量分为第一预设数量个饮酒段位,并根据所述样本的饮酒能力与饮酒量的关系、饮酒段位建立第一数据库;
S2、获取样本的基因数据并进行基因数据格式化;
S3、根据格式化后的样本的基因数据和所述第一数据库选用机器学习模型构建第一饮酒量预测模型。
根据本发明提出的一种酒量预测模型的构建方法,通过问卷调查方法,获取样本的饮酒能力与饮酒量,并进行数据分析,得到饮酒能力与饮酒量的对应关系,将饮酒量分为第一预设数量个饮酒段位,建立第一数据库,对饮酒量划分饮酒等级,对饮酒能力进行具体量化,有利于给出更有价值的饮酒建议。获取样本的基因数据并进行基因数据格式化,根据格式化后的样本基因数据和第一数据库选用机器学习模型构建第一饮酒量预测模型,通过机器学习中决策树模型构建一种酒量预测模型,提供饮酒量判断标准,量化个体的饮酒能力,有利于对用户进行有效的酒量预测。机器学习模型包括:线性分类、线性回归、支持向量机(SVM)、决策树分类模型、朴素贝叶斯、随机森林、神经网络模型中的至少一种。其中,决策树分类模型有易于理解和实现同时训练结果很容易推出相应的逻辑表达式,具有较好的可阅读性。
图2是根据本发明一个实施例的对样本的基因数据的处理的流程图;如图2所示,所述获取样本的基因数据并进行基因数据格式化包括:
S21、采集样本的唾液;
S22、根据所述样本的唾液进行DNA提取,对提取DNA进行基因测序;
S23、对基因测序后的基因数据进行处理,得到每个样本饮酒量相关的基因位点的基因型;
S24、将所述基因位点按照基因型格式化成数字。
上述技术方案的工作原理及有益效果:获取样本的基因数据通过对样本的唾液进行DNA提取、基因测序、基因分型;基因测序的方法包括:芯片测序、二代测序、三代测序、PCR测序、panel测序中的至少一种。最终得到每个样本饮酒量相关的基因位点的基因型,为了对基因位点对饮酒量的影响进行有效计算,将基因位点按照基因型格式化成数字。示例的,野生型为0、杂合突变型为1、纯合突变型为2。如在rs1229984基因位点上,CC为纯合突变型,格式化成数字为2;TT为野生型,格式化成数字为0;CT为杂合突变型,格式化成数字为1;如在rs671基因位点上,AA为纯合突变型,格式化成数字为2;GG为野生型,格式化成数字为0;AG为杂合突变型,格式化成数字为1。
在一实施例中,对格式化后的样本的基因数据进行基因位点筛选,包括:
S241、分别计算每个基因位点的特征值对所述第一数据库进行划分后得到的各数据子集与划分前的数据集的纯度提升值或不确定性降低值;
S242、选取最大纯度提升值或最大不确定性降低值的基因位点N和所述基因位点N的特征值n,其中,将所述基因位点N作为节点,按照所述基因位点N的特征值n的分组将所述第一数据库拆分成两个子数据集;
S243、依次在两个子数据集中,计算各基因位点的特征值在子数据集中的纯度提升值或不确定性降低值;选取最大纯度提升值或最大不确定性降低值的基因位点M和所述基因位点M的特征值m,其中,将所述基因位点M作为子节点,按照所述基因位点M的特征值m的分组对子数据集再次拆分;
S244、在确定划分后的子数据集的纯度大于预设纯度阈值或不确定性值小于预设不确定性阈值时,停止拆分,最终得到与饮酒量相关的基因位点及基因位点与饮酒段位的关系。
上述技术方案的工作原理及有益效果:度量划分数据集前后的数据集的纯度以及不确定性的方法包括计算信息增益、信息增益率、基尼系数中的至少一个参数,具体的在根据基尼系数确定纯度及不确定性的方法中,基尼系数越大,数据的不确定性越高,样本纯度越低,表示数据集中目标样本所占总样本的比例越小;基尼系数越小,数据的不确定性越低,样本纯度越高,表示数据集中目标样本所占总样本的比例越高;在基尼系数小于预设数值时,表示划分后的子数据集的纯度大于预设纯度阈值或不确定性值小于预设不确定性阈值时,停止拆分,最终得到与饮酒量相关的基因位点及基因位点与饮酒段位的关系。示例的,在基尼系数等于0时,数据集中的所有样本都是同一类别。
在一实施例中,如图6所示,判断样本的rs671基因位点结果是否为GG,即判断样本的rs671基因位点格式化是否为0,根据rs671基因位点是否为0,将第一数据库分成两个数据集,为第一数据集和第二数据集,其中,第一数据集中样本的rs671基因位点结果为GG,第二数据集中样本的rs671基因位点结果为AA、AG;在第一数据集和第二数据集中计算各基因位点的特征值的基尼系数,选取计算出的基尼系数最小的基因位点A和所述基因位点A的特征值a,其中,将所述基因位点A作为子节点,按照所述基因位点A的特征值a的分组将数据集再次进行拆分;示例的,在第一数据集中,判断样本rs1229984基因位点是否为CC或CT,在判断为False时,样本rs1229984基因位点为TT,即该分组中样本rs671基因位点结果为GG,样本rs1229984基因位点为TT,如表一所示,饮酒段位为8段。在确定每个分组都为同一类型的样本即基尼系数为0时,停止拆分,最终得到与饮酒量相关的基因位点及基因位点与饮酒段位的关系。将与饮酒量相关的基因根据其基因类型,划分相对应的饮酒段位,方便记忆,且能准确的反应出基因类型与饮酒量的对应关系,一目了然,提高用户体验。
根据本发明的一些实施例,所述与饮酒量相关的基因位点包括rs1229984基因位点和rs671基因位点,其中,rs1229984基因位点位于ADH1B基因上,rs1229984基因位点结果为TT型时,乙醇脱氢酶活性强,乙醇代谢快;结果为CT型时乙醇脱氢酶活性中等,乙醇代谢速度中等;结果为CC型时乙醇脱氢酶活性弱,乙醇代谢速度慢;rs671基因位点位于ALDH2基因上,rs671基因位点结果为GG型时乙醛脱氢酶活性强,乙醛代谢快;结果为GA\AA型时乙醛脱氢酶活性弱,乙醛代谢慢。
在一实施例中,与饮酒量直接相关的基因位点还包括:rs6413413、rs698、rs2298755等基因位点;酒精依赖相关位点包括:rs2066702、rs55768019、rs1789891等基因位点;酒精使用障碍相关基因位点包括:rs4975012、rs7078436、rs3114045等基因位点;酒精中毒相关基因位点包括:rs9556711、rs2140418、rs8040009等基因位点;酒精敏感性相关基因位点包括:rs112834343、rs75536499、rs146298733等基因位点;饮酒反应相关基因位点包括rs143894582、rs200848948、rs397813807等基因位点;酒精依赖冲动型行为相关基因位点包括:rs34997829基因位点;可以理解的是,本领域技术人员可以根据与饮酒量相关的基因位点,按照相关的基因位点的基因型的不同排列组合,建立饮酒量预测模型。本领域技术人员通过对相关的位点的基因型的不同排列组合,建立饮酒量预测模型,是在本发明的保护范围内。
在一实施例中,选用决策树模型构建饮酒量预测模型;
算法包括:
使用Python进行编程调用Sklearn的DecisionTreeClassifier模块进行数据挖掘和构建饮酒量预测模型;
DecisionTreeClassifier模块主要参数设置:
criterion='gini':选用基尼系数作为节点划分质量的度量标准;
splitter=’best’:在所有特征中找最好的切分点;
max_depth=None:设置决策树的最大深度,None表示不对决策树的最大深度作约束,直到每个叶子节点上的样本均属于同一类;
min_samples_split=2:当对一个内部节点划分时,要求该节点上的最小样本数为2;
min_samples_leaf=1:设置叶子节点上的最小样本数为1;
最终得到rs1229984基因位点和rs671基因位点与饮酒量有关。
图4是根据本发明一个实施例的建立第二饮酒量预测模型的流程图;如图4所示,在构建第一饮酒量预测模型后,还包括:
S4、将饮酒量重新分成第二预设数量的饮酒段位,根据所述样本的饮酒能力与饮酒量的关系、第二预设数量的饮酒段位建立第二数据库;
S5、根据样本的与饮酒量相关的基因位点和所述第二数据库选用机器学习模型重新构建饮酒量预测模型,得到第二饮酒量预测模型。
上述技术方案的工作原理及有益效果:对第一饮酒量预测模型进行优化,将第一预设数量的饮酒段位转换成第二预设数量的饮酒段位,第二预设数量可以为9,根据样本的饮酒能力与饮酒量的关系、第二预设数量的饮酒段位建立第二数据库,在重新构建饮酒量预测模型时,只选用与饮酒量相关的基因位点,通过样本的与饮酒量相关的基因位点和所述第二数据库选用机器学习模型重新构建饮酒量预测模型,得到第二饮酒量预测模型,可以降低计算量及复杂度,第二饮酒量预测模型的预测准确性提高。得到rs1229984基因位点和rs671基因位点与饮酒量的关系如表一所示。
表一
Figure BDA0002609168070000091
Figure BDA0002609168070000101
在一实施例中,第二预设数量为7,饮酒段位为7个段位,得到rs1229984基因位点和rs671基因位点与饮酒量的关系如表二所示。
表二
Figure BDA0002609168070000102
上述技术方案的工作原理及有益效果:饮酒段位为0段时包括3种情形:1、rs1229984基因位点为CC,rs671基因位点为AA;2、rs1229984基因位点为TT、rs671基因位点为AA;3、rs1229984基因位点为CT,rs671基因位点为AA。饮酒段位的命名使用不连续的方式进行命名,如缺少3段及6段,该不连续方式命名可以将饮酒段位与饮酒量的具体酒量进行相匹配,示例的,饮酒段位为9段时,用户饮酒量为9两以上。
在得到第二饮酒量预测模型后,根据用户的基因数据基于所述第二饮酒量预测模型对用户的饮酒量进行预测。可以提供饮酒量判断标准,量化个体的饮酒能力,根据用户的身体情况给出给出更直观有价值的酒量评价及饮酒建议,提高用户的体验。
图5是根据本发明一个实施例的对唾液进行DNA提取的流程图;如图5所示,对唾液进行DNA提取,包括:
S421、将0.2ml唾液置于离心管中,加0.01mol/L PBS溶液600μL,通过离心机10000*g高速离心3min;
S422、取沉淀加入50ul,5mol/l的碘化钾溶液、75ul,0.9%的氯化钠溶液、120ul酚:氯仿(20:13)溶液,摇晃震荡1min,通过离心机10000*g高速离心3min;
S423、取上清液80ul,加入80ul的异丙醇,摇晃震荡30s,通过离心机10000*g高速离心3min;
S424、取沉淀,加入500μl无水乙醇洗涤,通过离心机10000*g高速离心3min;
S425、取沉淀室温晾干,用TE缓冲液溶解。
上述技术方案的工作原理及有益效果:唾液中含有口腔脱落细胞,细胞里有遗传物质DNA,通过上述方案,可以通过唾液提取用户的DNA,以便进行相应的处理分析。
根据本发明的一些实施例,获取样本的基因数据还可以通过采集血液进行DNA提取。通过血液进行DNA提取,灵敏度高,提取的DNA数据更加准确。
在一实施例中,还包括:
S71、获取影响用户饮酒量的第二信息,所述第二信息包括:疾病史、饮酒种类、饮酒度数、饮酒频率;
S72、根据所述第二信息对第二饮酒量预测模型进行修正,得到第三饮酒量预测模型。
上述技术方案的工作原理及有益效果:第二饮酒量预测模型基于用户的基因数据输出的预测结果没有考虑该用户的实际情况,需要根据影响用户饮酒量的第二信息对饮酒量的预测进行修正,建立第三饮酒量预测模型,需要建立根据第二信息对饮酒量的修正机制。示例的,如表二所示,用户的基因数据为rs1229984基因位点的基因型为CC、rs671基因位点的基因型为GG,则对用户的饮酒量预测为7段,即用户能饮用7两以上的酒(以50°的白酒为例),但是用户最近在犯胃病,不能喝酒,喝酒容易引发胃穿孔,严重危害身体健康。同样的,根据用户饮酒种类、饮酒度数、饮酒频率的不同也会影响对用户饮酒量的预测。根据用户的实际情况进行更加有效的饮酒量预测,使得第三饮酒量预测模型预测结果更加精准。
在一实施例中,根据所述第二信息对第二饮酒量预测模型进行修正的方法,包括:
计算第二饮酒量预测模型给出的第一预测结果中的乙醇量:
V1=A×c
其中,A为第二饮酒量预测模型基于用户的基因数据输出的饮酒量(ml);c为第二饮酒量预测模型中预设酒精浓度(%vol);
计算根据第二信息用户能饮用的乙醇量:
V2=V1×d×t×f
其中,d为用户疾病史与饮酒量的相关系数;t为饮酒种类与饮酒量的相关系数;f为饮酒频率与饮酒量的相关系数;
第三饮酒量预测模型给出的第二预测结果的饮酒量:
Figure BDA0002609168070000121
其中,cu为用户输入的饮酒度数。
上述技术方案的工作原理及有益效果:用户在属于胃病患者、肝病患者、心脑血管疾病患者、孕妇、服用感冒药、安眠药、镇定药时,用户疾病史与饮酒量的相关系数d为0,即用户不能够饮酒;其他用户疾病史与饮酒量的相关系数d的取值在0-1之间;饮酒种类与饮酒量的相关系数t取值如表三所示;饮酒频率与饮酒量的相关系数f取值如表四所示;通过上述算法,根据所述第二信息对第二饮酒量预测模型进行修正,得到第三饮酒量预测模型,能根据用户的实际情况进行更加有效的饮酒量预测,预测结果更加精准,给出用户最正确的饮酒建议,提升用户体验。
表三
饮酒种类 相关系数t
白酒 1
啤酒 1.5
葡萄酒 1.8
表四
饮酒频率 相关系数f
每天饮酒 0.3
三天一次饮酒 0.6
7天一次饮酒 0.8
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种酒量预测模型的构建方法,其特征在于,包括:
S1、获取样本的饮酒能力与饮酒量的关系,根据所述饮酒量分为第一预设数量个饮酒段位,并根据所述样本的饮酒能力与饮酒量的关系、饮酒段位建立第一数据库;
S2、获取样本的基因数据并进行基因数据格式化;
S3、根据格式化后的样本的基因数据和所述第一数据库选用机器学习模型构建第一饮酒量预测模型。
2.如权利要求1所述的酒量预测模型的构建方法,其特征在于,所述获取样本的基因数据并进行基因数据格式化包括:
S21、采集样本的唾液;
S22、根据所述样本的唾液进行DNA提取,对提取DNA进行基因测序;
S23、对基因测序后的基因数据进行处理,得到每个样本饮酒量相关的基因位点的基因型;
S24、将所述基因位点按照基因型格式化成数字。
3.如权利要求2所述的酒量预测模型的构建方法,其特征在于,
对所述格式化后的样本的基因数据进行基因位点筛选,包括:
S241、分别计算每个基因位点的特征值对所述第一数据库进行划分后得到的各数据子集与划分前的数据集的纯度提升值或不确定性降低值;
S242、选取最大纯度提升值或最大不确定性降低值的基因位点N和所述基因位点N的特征值n,其中,将所述基因位点N作为节点,按照所述基因位点N的特征值n的分组将所述第一数据库拆分成两个子数据集;
S243、依次在两个子数据集中,计算各基因位点的特征值在子数据集中的纯度提升值或不确定性降低值;选取最大纯度提升值或最大不确定性降低值的基因位点M和所述基因位点M的特征值m,其中,将所述基因位点M作为子节点,按照所述基因位点M的特征值m的分组对子数据集再次拆分;
S244、在确定划分后的子数据集的纯度大于预设纯度阈值或不确定性值小于预设不确定性阈值时,停止拆分,最终得到与饮酒量相关的基因位点及基因位点与饮酒段位的关系。
4.如权利要求3所述的酒量预测模型的构建方法,其特征在于,所述与饮酒量相关的基因位点包括rs1229984基因位点和rs671基因位点,其中,rs1229984基因位点位于ADH1B基因上,rs1229984基因位点结果为TT型时,乙醇脱氢酶活性强,乙醇代谢快;结果为CT型时乙醇脱氢酶活性中等,乙醇代谢速度中等;结果为CC型时乙醇脱氢酶活性弱,乙醇代谢速度慢;rs671基因位点位于ALDH2基因上,rs671基因位点结果为GG型时乙醛脱氢酶活性强,乙醛代谢快;结果为GA\AA型时乙醛脱氢酶活性弱,乙醛代谢慢。
5.如权利要求4所述的酒量预测模型的构建方法,其特征在于,在构建第一饮酒量预测模型后,还包括:
S4、将饮酒量重新分成第二预设数量的饮酒段位,根据所述样本的饮酒能力与饮酒量的关系、第二预设数量的饮酒段位建立第二数据库;
S5、根据样本的与饮酒量相关的基因位点和所述第二数据库选用机器学习模型重新构建饮酒量预测模型,得到第二饮酒量预测模型。
6.如权利要求2所述的酒量预测模型的构建方法,其特征在于,根据所述样本的唾液进行DNA提取,包括:
S421、将0.2ml唾液置于离心管中,加0.01mol/L PBS溶液600μL,通过离心机10000*g高速离心3min;
S422、取沉淀加入50ul,5mol/l的碘化钾溶液、75ul,0.9%的氯化钠溶液、120ul酚:氯仿(20:13)溶液,摇晃震荡1min,通过离心机10000*g高速离心3min;
S423、取上清液80ul,加入80ul的异丙醇,摇晃震荡30s,通过离心机10000*g高速离心3min;
S424、取沉淀,加入500μl无水乙醇洗涤,通过离心机10000*g高速离心3min;
S425、取沉淀室温晾干,用TE缓冲液溶解。
7.如权利要求5所述的酒量预测模型的构建方法,其特征在于,还包括:
S71、获取影响用户饮酒量的第二信息,所述第二信息包括:疾病史、饮酒种类、饮酒度数、饮酒频率;
S72、根据所述第二信息对第二饮酒量预测模型进行修正,得到第三饮酒量预测模型。
CN202010748369.6A 2020-07-30 2020-07-30 一种酒量预测模型的构建方法 Active CN112002375B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010748369.6A CN112002375B (zh) 2020-07-30 2020-07-30 一种酒量预测模型的构建方法
PCT/CN2021/109450 WO2022022663A1 (zh) 2020-07-30 2021-07-30 一种酒量预测模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010748369.6A CN112002375B (zh) 2020-07-30 2020-07-30 一种酒量预测模型的构建方法

Publications (2)

Publication Number Publication Date
CN112002375A true CN112002375A (zh) 2020-11-27
CN112002375B CN112002375B (zh) 2022-10-14

Family

ID=73462482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010748369.6A Active CN112002375B (zh) 2020-07-30 2020-07-30 一种酒量预测模型的构建方法

Country Status (2)

Country Link
CN (1) CN112002375B (zh)
WO (1) WO2022022663A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022022663A1 (zh) * 2020-07-30 2022-02-03 苏州因顿医学检验实验室有限公司 一种酒量预测模型的构建方法
WO2022022667A1 (zh) * 2020-07-30 2022-02-03 苏州因顿医学检验实验室有限公司 一种基于基因筛选的饮酒量预测系统
CN114908146A (zh) * 2022-05-31 2022-08-16 因顿健康科技(苏州)有限公司 一种快速基因检测判断酒量的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116735811B (zh) * 2023-08-14 2023-10-10 山东百脉泉酒业股份有限公司 一种酒总酸和总酯含量的测定方法及测定系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101210266A (zh) * 2006-12-30 2008-07-02 苏州市长三角系统生物交叉科学研究院有限公司 基因组遗传标记间的相互作用与遗传性状相关性的测定方法
CN102016571A (zh) * 2008-02-28 2011-04-13 弗吉尼亚大学专利基金会 血清素转运体基因与酗酒的治疗
KR101925096B1 (ko) * 2018-05-02 2018-12-04 아미코젠주식회사 숙취해소효소 분말의 제조방법 및 이를 포함하는 숙취해소용 조성물
CN111312396A (zh) * 2020-02-21 2020-06-19 光瀚健康咨询管理(上海)有限公司 一种基于酒量相关因素的个体酒量评估方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101109705A (zh) * 2006-07-21 2008-01-23 上海主健生物工程有限公司 一种检测酒精中毒和酒精成瘾易感性的试剂盒
CN106319052A (zh) * 2016-08-22 2017-01-11 广东药科大学 一种检测ALDH2基因rs671多态位点基因型的方法及试剂盒
CN112002375B (zh) * 2020-07-30 2022-10-14 苏州因顿医学检验实验室有限公司 一种酒量预测模型的构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101210266A (zh) * 2006-12-30 2008-07-02 苏州市长三角系统生物交叉科学研究院有限公司 基因组遗传标记间的相互作用与遗传性状相关性的测定方法
CN102016571A (zh) * 2008-02-28 2011-04-13 弗吉尼亚大学专利基金会 血清素转运体基因与酗酒的治疗
KR101925096B1 (ko) * 2018-05-02 2018-12-04 아미코젠주식회사 숙취해소효소 분말의 제조방법 및 이를 포함하는 숙취해소용 조성물
CN111312396A (zh) * 2020-02-21 2020-06-19 光瀚健康咨询管理(上海)有限公司 一种基于酒量相关因素的个体酒量评估方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阎明: "《酒量大小及其损伤的危险性可以预知》", 《肝博士》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022022663A1 (zh) * 2020-07-30 2022-02-03 苏州因顿医学检验实验室有限公司 一种酒量预测模型的构建方法
WO2022022667A1 (zh) * 2020-07-30 2022-02-03 苏州因顿医学检验实验室有限公司 一种基于基因筛选的饮酒量预测系统
CN114908146A (zh) * 2022-05-31 2022-08-16 因顿健康科技(苏州)有限公司 一种快速基因检测判断酒量的方法

Also Published As

Publication number Publication date
WO2022022663A1 (zh) 2022-02-03
CN112002375B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN112002375B (zh) 一种酒量预测模型的构建方法
Speed et al. Evaluating and improving heritability models using summary statistics
Ashraf et al. The macrogenoeconomics of comparative development
CN112037855B (zh) 一种基于基因筛选的饮酒量预测方法
Gerstein et al. Cryptic fitness advantage: diploids invade haploid populations despite lacking any apparent advantage as measured by standard fitness assays
Sellis et al. Heterozygote advantage is a common outcome of adaptation in Saccharomyces cerevisiae
CN108345768B (zh) 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
CN105132518A (zh) 大肠癌标志物及其应用
WO2022022667A1 (zh) 一种基于基因筛选的饮酒量预测系统
Aanen et al. Mutation-rate plasticity and the germline of unicellular organisms
CN109585017A (zh) 一种年龄相关性黄斑变性的风险预测算法模型和装置
US20170116386A1 (en) Cellular-age meta-analysis system
CN116864062B (zh) 一种基于互联网的健康体检报告数据分析管理系统
CN116189919B (zh) 一种微生物药敏的计算机分析方法、分析系统及其应用
CN116344055A (zh) 一种心衰风险预测和神经网络模型的构建方法
CN117409963A (zh) 早产儿喂养不耐受风险预测方法及系统
CN103290113B (zh) 一种快速检测黄牛sirt1基因snp的rflp方法
Portas et al. History, geography and population structure influence the distribution and heritability of blood and anthropometric quantitative traits in nine Sardinian genetic isolates
Pulanić et al. Effects of isolation and inbreeding on human quantitative traits: An example of biochemical markers of hemostasis and inflammation
US11526555B2 (en) Method and system for determining user taste changes using a plurality of biological extraction data
Wu et al. Research Progress on Phenotypic Classification of Acute Respiratory Distress Syndrome: A Narrative Review
CN111719001B (zh) 用于检测人橙子喜好相关的snp位点的引物组、应用、试剂盒及方法
CN111647666B (zh) 用于检测人西瓜喜好相关的snp位点的引物组、应用、试剂盒及方法
Serrano Strategies for Gene Discovery and Mechanistic Insight Using Pleiotropy and Induced Mutagenesis
Rudolph Ecological and Evolutionary Dynamics of Flocculation in Saccharomyces cerevisiae

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant