CN111401444A - 红酒原产地的预测方法、装置、计算机设备及存储介质 - Google Patents

红酒原产地的预测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111401444A
CN111401444A CN202010182105.9A CN202010182105A CN111401444A CN 111401444 A CN111401444 A CN 111401444A CN 202010182105 A CN202010182105 A CN 202010182105A CN 111401444 A CN111401444 A CN 111401444A
Authority
CN
China
Prior art keywords
red wine
training
origin
data
stable isotope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010182105.9A
Other languages
English (en)
Other versions
CN111401444B (zh
Inventor
吴浩
易冰清
赵旭
颜治
褚英昊
李政峰
戴帅
靳保辉
谢丽琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aiator Intelligent Technology Co ltd
Shenzhen Customs Food Inspection And Quarantine Technology Center
Original Assignee
Shenzhen Aiator Intelligent Technology Co ltd
Shenzhen Customs Food Inspection And Quarantine Technology Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aiator Intelligent Technology Co ltd, Shenzhen Customs Food Inspection And Quarantine Technology Center filed Critical Shenzhen Aiator Intelligent Technology Co ltd
Priority to CN202010182105.9A priority Critical patent/CN111401444B/zh
Publication of CN111401444A publication Critical patent/CN111401444A/zh
Application granted granted Critical
Publication of CN111401444B publication Critical patent/CN111401444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种红酒原产地的预测方法、装置、计算机设备及存储介质。所述方法包括:获取红酒中元素含量和\或稳定同位素比值数据和对应红酒的产地数据并一同作为样本集合,并将样本集合划分为训练集和测试集;对训练集和测试集进行归一化处理;利用深度神经网络对训练集进行学习;搭建训练集各训练点的多维空间分布,并在多维空间分布中加入测试集中的测试点;根据多维空间分布中的测试点和训练点的相互关系进行参数调优,从而构建红酒原产地预测模型;获取目标红酒中元素含量和\或稳定同位素比值数据,并输入至所述红酒原产地预测模型中预测得到目标红酒的产地数据。本发明提供了一种高信任度的预测方法,实现了对红酒原产地的精准预测。

Description

红酒原产地的预测方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能领域,具体涉及红酒原产地的预测方法、装置、计算机设备及存储介质。
背景技术
在国家标准GB 15037《葡萄酒》中明确规定了产地、品种和年份红酒的概念,但当前仍缺乏关于红酒产地的有效识别技术手段和方法。当红酒标注产地无法通过有效的方式进行核查时,便会出现部分不法企业在一些假冒伪劣产品上标注产地,从而将假冒伪劣产品充当优质产地红酒进行销售,对红酒市场造成较大冲击。伴随着中国对进口红酒产品需求的增加,红酒市场上出现的欺诈性红酒数量也在不断增加,包括标签上标注错误的红酒产地、假冒红酒品牌等。
传统红酒产地的识别依靠感官和风味成分进行定性区分,无法实现科学量化区分。研究发现红酒中的氨基酸含量受光合作用、气候条件和红皮表面的酵母影响较大,游离氨基酸能够表征红酒的种类,因此可以根据以上影响因素判别红酒的产地。红酒中包含多种酚类物质,因此可以利用酚类物质的种类和含量可以很好的实现红酒的划分,并能对生产工艺或红酒的产地进行推测。
微量无机元素是表征地域差异的重要指标,其依据是生物组织不断从其生活的环境如土壤、水、食物和空气中累积各种矿物元素,并且不同地域来源的生物体中元素含量有很大差异。影响地域痕量元素差异的因素主要包括土壤种类、土壤的pH、人类污染、大气和气候的差异以及矿物元素相互之间的作用等,前人对食物链中痕量元素的累积与迁移研究为产地溯源提供一定的理论依据。
然而以上方法均只是根据红酒各元素或各化合物的组成、含量为预测红酒产地提供依据,并没有提出一个可高度信任的红酒产地预测方法。
发明内容
本发明实施例提供了一种红酒原产地的预测方法、装置、计算机设备及存储介质,旨在提供一种可高度信任的预测方法,实现对红酒原产地的精准预测。
第一方面,本发明实施例提供了一种红酒原产地的预测方法,所述方法包括:
获取红酒中元素含量和\或稳定同位素比值数据和对应红酒的产地数据并一同作为样本集合,并将所述样本集合划分为训练集和测试集;
对所述训练集和所述测试集进行归一化处理;
利用深度神经网络对经过归一化处理的训练集进行学习;
搭建训练集各训练点的多维空间分布,并在所述多维空间分布中加入测试集中的测试点;
根据所述多维空间分布中的测试点和训练点的相互关系进行参数调优,从而构建红酒原产地预测模型;
获取目标红酒中元素含量和\或稳定同位素比值数据,并输入至所述红酒原产地预测模型中预测得到目标红酒的产地数据。
进一步的,所述获取红酒中元素含量和\或稳定同位素比值数据和对应红酒的产地数据并一同作为样本集合,并将所述样本集合划分为训练集和测试集,包括:
将所述样本集合按训练集占比80%、测试集占比20%的比例进行划分;
从所述训练集中随机抽取20%的样本,作为验证集。
进一步的,所述对所述训练集和所述测试集进行归一化处理,包括:
判断每一类型所述含量数据的总个数是否超过预设个数阈值;
若对应类型的元素含量或者稳定同位素比值数据的总个数超过预设个数阈值,则采用平均值除以标准偏差的方法对所述对应类型的元素含量或者稳定同位素比值数据进行归一化处理,公式如下:
Figure BDA0002412922930000021
Figure BDA0002412922930000022
式中,y为经过归一化处理后的值,x为原始元素含量或者稳定同位素比值数据,
Figure BDA0002412922930000023
为元素含量或者稳定同位素比值数据数据平均值,s为元素含量或者稳定同位素比值数据的标准偏差,xi为第i个元素含量或者稳定同位素比值数据,N为元素含量或者稳定同位素比值数据个数;
若对应类型的元素含量或者稳定同位素比值数据的总个数未超过预设个数阈值,则采用除以最大值的方法对所述对应类型的元素含量或者稳定同位素比值数据进行归一化处理,公式如下:
Figure BDA0002412922930000031
式中,y为经过归一化处理后的值,x为原始元素含量或者稳定同位素比值数据,xmax为元素含量或者稳定同位素比值数据中的最大值。
进一步的,所述利用深度神经网络对经过归一化处理的训练集进行学习,包括:
将所述训练集中的样本输入至深度神经网络中;利用所述深度神经网络进行信息提取,并输出目标信息。
进一步的,所述利用深度神经网络对经过归一化处理的训练集进行学习,还包括:
通过反向传播算法对所述深度神经网络进行优化训练,并对所述深度神经网络中的参数进行更新。
进一步的,所述搭建训练集各训练点的多维空间分布,并在所述多维空间分布中加入测试集中的测试点,包括:
将所述训练集中的训练点输入至所述深度神经网络中,搭建所述训练点的多维空间分布;
将所述测试集中的一个测试点输入至所述深度神经网络中,通过所述深度神经网络模型自动为所述测试点匹配空间位置,并生成反映所述测试点与所述训练点之间的相互关系的模型特征图。
进一步的,所述根据所述多维空间分布中的测试点和训练点的相互关系进行参数调优,从而构建红酒原产地预测模型,包括:
在所述模型特征图中获取距离所述测试点最近的多个训练点,并对所述测试点与所述最近的多个训练点的空间分布情况进行分析,并计算所述测试点和所述最近的多个训练点对应的权重的大小,从而构建红酒原产地预测模型。
第二方面,本发明实施例还提供了一种红酒原产地的预测装置,所述装置包括:
获取单元,用于获取红酒中元素含量和\或稳定同位素比值数据和对应红酒的产地数据并一同作为样本集合,并将所述样本集合划分为训练集和测试集;
归一化单元,用于对所述训练集和所述测试集进行归一化处理;
学习单元,用于利用深度神经网络对经过归一化处理的训练集进行学习;
搭建单元,用于搭建训练集各训练点的多维空间分布,并在所述多维空间分布中加入测试集中的测试点;
调优单元,用于根据所述多维空间分布中的测试点和训练点的相互关系进行参数调优,从而构建红酒原产地预测模型;
预测单元,用于获取目标红酒中元素含量和\或稳定同位素比值数据,并输入至所述红酒原产地预测模型中预测得到目标红酒的产地数据。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的红酒原产地的预测方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的红酒原产地的预测方法。
本发明实施例提供了一种红酒原产地的预测方法、装置、计算机设备及存储介质。所述方法包括:获取红酒中元素含量和\或稳定同位素比值数据和对应红酒的产地数据并一同作为样本集合,并将所述样本集合划分为训练集和测试集;对所述训练集和所述测试集进行归一化处理;利用深度神经网络对经过归一化处理的训练集进行学习;搭建训练集各训练点的多维空间分布,并在所述多维空间分布中加入测试集中的测试点;根据所述多维空间分布中的测试点和训练点的相互关系进行参数调优,从而构建红酒原产地预测模型;获取目标红酒中元素或化合物的含量数据,并输入至所述红酒原产地预测模型中预测得到目标红酒的产地数据。本发明实施例提供了一种高信任度的预测方法,达到了对红酒原产地的精准预测的效果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种红酒原产地的预测方法的流程示意图;
图2为本发明实施例提供的一种红酒原产地的预测方法的神经元结构示意图;
图3为本发明实施例提供的一种红酒原产地的预测方法的深度神经网络结构示意图;
图4为本发明实施例提供的一种红酒原产地的预测方法的空间分布图;
图5为本发明实施例提供的一种红酒原产地的预测方法的测试点与训练点的相互关系示意图;
图6为本发明实施例提供的一种红酒原产地的预测方法的模型特征图;
图7为本发明实施例提供的一种红酒原产地的预测装置的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面请参见图1,图1为本发明实施例提供的一种红酒原产地的预测方法的流程示意图,具体包括:步骤S101~S106。
S101、获取红酒中元素含量和\或稳定同位素比值数据和对应红酒的产地数据并一同作为样本集合,并将所述样本集合划分为训练集和测试集;
S102、对所述训练集和所述测试集进行归一化处理;
S103、利用深度神经网络对经过归一化处理的训练集进行学习;
S104、搭建训练集各训练点的多维空间分布,并在所述多维空间分布中加入测试集中的测试点;
S105、根据所述多维空间分布中的测试点和训练点的相互关系进行参数调优,从而构建红酒原产地预测模型;
S106、获取目标红酒中元素含量和\或稳定同位素比值数据,并输入至所述红酒原产地预测模型中预测得到目标红酒的产地数据。
根据化学检测结果显示可知,不同的红酒中包含的影响红酒可追溯性的重要因素的含量会有区别,例如乙醇δ13C、丙三醇δ13C、Δδ13C乙醇-丙三醇、δ13O以及Na、Rb、Mg、Sr等重要因素的含量,因此可以通过合适的方法对红酒的原产地进行预测,但是另一方面该方法并没有明显的规则能够进行直接判定红酒产地,具有较大难度。在这种情况下,本实施例通过深度学习神经网络为准确预测红酒原产地提供了可能。本实施例中,基于深度学习的神经网络,通过特征工程把红酒成分化成多维度数据,并将其表现在多维度的空间分布中,对多维度的空间分布中的每个维度的细微变化及维度之间的关联进行预判,从而构建关于红酒原产地的预测模型,并且将目标红酒元素含量和\或稳定同位素比值数据作为预测模型的输入,即可高准确度的预测目标红酒原产地。本实施例解决了对红酒产地朔源难度大、耗时长、可靠性低、需要对红酒成分进行过多化学分析的难题。
在一实施例中,所述步骤S101包括:
将所述样本集合按训练集占比80%、测试集占比20%的比例进行划分;
从所述训练集中随机抽取20%的样本,作为验证集。
本实施例中,对样本集合进行划分,将其按照训练集:测试集=8:2的比例(即训练集占比80%、测试集占比20%)划分为用于训练模型权重的训练集和用于测试算法准确性的测试集,并在全部的训练集中随机抽取其中的20%样本数据作为用于选择算法参数的验证集。
在一实施例中,所述步骤S102包括:
判断每一类型所述含量数据的总个数是否超过预设个数阈值;
若对应类型的元素含量或者稳定同位素比值数据的总个数超过预设个数阈值,则采用平均值除以标准偏差的方法对所述对应类型的元素含量或者稳定同位素比值数据进行归一化处理,公式如下:
Figure BDA0002412922930000071
Figure BDA0002412922930000072
式中,y为经过归一化处理后的值,x为原始元素含量或者稳定同位素比值数据,
Figure BDA0002412922930000073
为元素含量或者稳定同位素比值数据数据平均值,s为元素含量或者稳定同位素比值数据的标准偏差,xi为第i个元素含量或者稳定同位素比值数据,N为元素含量或者稳定同位素比值数据个数;
若对应类型的元素含量或者稳定同位素比值数据的总个数未超过预设个数阈值,则采用除以最大值的方法对所述对应类型的元素含量或者稳定同位素比值数据进行归一化处理,公式如下:
Figure BDA0002412922930000074
式中,y为经过归一化处理后的值,x为原始元素含量或者稳定同位素比值数据,xmax为元素含量或者稳定同位素比值数据中的最大值。
本实施例中,由于获取到的含量数据为实验室中得到的化学测试结果,因此首先根据每一类型含量数据的总个数,选择上述两种归一化算法中的一种,并通过选择的归一化算法将实验室中得到的化学测试结果转化为机器学习算法的输入,作为机器学习算法的特征,并将红酒的实际产地作为机器学习算法的标签。需要说明的是,在本实施例中,每一类型含量数据的总个数即是指每一种元素或者每一种化合物在样本集合中对应的样本个数。若预设个数阈值为10,且样本集合中的Na元素的样本个数为5,则选择上述两种方法中的第二种方法(即除以最大值的方法)对Na元素进行归一化处理。
在一实施例中,所述步骤S103包括:
将所述训练集中的样本输入至深度神经网络中;利用所述深度神经网络进行信息提取,并输出目标信息。
对于不同红酒产地的红酒,其元素种类、化合物的类型并不完全一致,因此通过化学方式检测得到的模型输入特征也不完全相同,在这种背景下,对于一般的机器学习方法,难以从特征变化较大的输入中找到相应的规律。然而深度学习算法能够自动化地进行特征选择,并且具有强大的学习能力,因此本实施例利用深度神经网络来建立化学测试结果和产地之间的关系。
本实施例中,将训练集中的样本数据输入至深度神经网络中,作为深度神经网络的输入神经元,在经过多层信息提取后,得到最终的输出信息(即目标信息)。具体地,在其中一层信息提取过程中,如图2所示,每个神经元能从多个其他神经元(x1~xn)接受输入信息,对信息进行提取后,将输出传给下一个神经元。其中x1~xn为其他神经元的输出信息,每个神经元在接受其他神经元的信息后,对每一个输入信息学习一个权重(w1~wn);再根据权重对输入信息进行加权求和,然后再加上一个偏置信息,得到汇总后的信息;最后通过一个非线性激活函数(激励函数是大部分神经网络模型具有一个短时间尺度的动力学规则,用于定义神经元如何根据其他神经元的活动来改变自己的激励值),对信息进行进一步提取,得到最终的输出信息。深度神经网络由大量的上述基本神经元相互连结组成,节点之间由权重连接,权重由算法训练得到。深度神经网络的输出则根据不同连接方式、权重和激活函数的不同而不同。
如图3所示,深度神经网络由多层神经元组成,每一层可以包含多个神经元,神经元之间的连接方式以及激活函数可以人为指定,深度神经网络的这种复杂性,使其能够逼近任意复杂函数,本实施例即是采用深度神经网络的前向传播算法,即深度神经网络接受输入x,将x从输入神经元传递给第一层神经元,第一层神经元对信息进行提取后,将信息传给第二层,依次类推,最终传给输出神经元,得到最终的目标信息。
在一实施例中,所述步骤S103还包括:
通过反向传播算法对所述深度神经网络进行优化训练,并对所述深度神经网络中的参数进行更新。
本实施例中,采用反向传播算法对深度神经网络进行训练,反向传播算法是一种最优化方法,适合于多层神经元网络的一种学习算法,它建立在梯度下降法的基础上。梯度下降法具体包括三种方法,分别是批量梯度下降法、随机梯度下降法以及小批量梯度下降法,本实施例中,采用随机梯度下降或者小批量随机梯度下降的方法对深度神经网络进行训练。随机梯度下降方法是指在算法的每一次迭代中,从训练集中随机抽取一个样本,对参数进行更新,使得训练速度加快。小批量随机梯度下降方法是指在算法的每一次迭代中,从训练集中随机的抽取一小批量样本,进行前向传播,得到梯度信息,然后依链式求导法则,将梯度反向传播,进行参数更新。
另外,在采用反向传播算法对深度神经网络进行优化训练的过程中,采用的损失函数为交叉熵损失函数,交叉熵损失函数可以衡量深度神经网络输出的预测值与真实值之间的相似性。交叉熵作为损失函数还有一个好处,即使用sigmoid函数在梯度下降时能避免出现均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。交叉熵损失函数计算公式如下:
Figure BDA0002412922930000091
式中,L为损失函数(L越大,说明深度神经网络输出的目标信息距离期望越远),yc为真实标签,pc为算法预测的概率值,M为样本个数。
在一实施例中,所述步骤S104包括:
将所述训练集中的训练点输入至所述深度神经网络中,搭建所述训练点在多维空间的空间分布图;
将所述测试集中的一个测试点输入至所述深度神经网络中,通过所述深度神经网络模型自动为所述测试点匹配空间位置,并生成反映所述测试点与所述训练点之间的相互关系的模型特征图。
本实施例中,通过深度神经网络搭建训练集中的多个训练点的多维空间分布图(在一具体应用场景中,搭建如图4所示的多个训练点的空间分布图),并在深度神经网络中加入测试集中的一个测试点,深度神经网络即会在空间分布图中自动匹配出测试点的具体位置(在一具体应用场景中,测试点在空间分布图中的具体位置如图5所示),并且可以获取到测试点与空间分布图中的每一个训练点的相互关系,从而生成模型特征图。在一具体应用场景中,测试点与多个训练点之间的相互关系的模型特征图如图6所示,图中,对角线部分为核密度估计图,用于观察看某一个变量的分布情况,横轴对应该变量的值,纵轴对应该变量的密度(可以理解为出现频次);非对角线部分为两个变量之间分布的关联散点图,将任意两个变量进行配对,将所有的数据点绘制在图上,可以用于衡量两个变量之间的关联度。
在一实施例中,所述步骤S105包括:
在所述模型特征图中获取距离所述测试点最近的多个训练点,并对所述测试点与所述最近的多个训练点的空间分布情况进行分析,并计算所述测试点和所述最近的多个训练点对应的权重的大小,从而构建红酒原产地预测模型。
本实施例中,在获得测试点与训练点之间的相互关系后,再根据测试点和训练点各自对应的权重,可以获得该测试与各预测产地的量化相关关系,从而完成红酒原产地预测模型的构建。
在一实施例中,由于乙醇δ13C、丙三醇δ13C、Δδ13C乙醇-丙三醇、δ13O以及Na、Rb、Mg、Sr的含量是影响红酒可追溯性的重要因素,因此选择将以下20中元素作为输入信息,具体包括:乙醇δ13C、丙三醇δ13C、Δδ13C乙醇-丙三醇、δ13O、Ca(钙)、K(钾)、Mg(镁)、Na(钠)、B(硼)、Al(铝)、Sc(钪)、Ti(钛)、Cr(铬)、Mn(锰)、Fe(铁)、Cu(铜)、Zn(锌)、Rb(铷)、Sr(锶)、Ba(钡)。另外,红酒原产地所在的5大洲8个国家分别为:法国、意大利、西班牙、美国、澳大利亚、南非、智利以及中国。通过对上述的20个数据进行数据特征分析、降噪处理、深度神经网络搭建以及参数调整,最终可以预测出高信任度和高准确率的红酒原产地。
在一具体应用场景中,将表1中的数据作为输入信息,对红酒的原产地进行预测,表中,EN13C为乙醇δ13C、GLY13C为丙三醇δ13C、mins为Δδ13C乙醇-丙三醇、d180为δ13O。
EN13C GLY13C mins d180 Ca K Mg Na B Al
-26.49 -29.3 2.81 2.54 59 1205.76 74.46 19.85 4.62 0.72
Sc Ti Cr Mn Fe Cu Zn Rb Sr Ba
0.08 0.07 0.02 0.55 1.56 0.07 0.41 1.3 0.23 0.06
表1
在经过数据特征分析、降噪处理、深度神经网络搭建以及参数调优后,得到最终的预测结果,即预测该红酒的原产地为法国,且预测置信度为81.481%,当前红酒原产地预测模型的整体准确度为83.6%。
在另一具体应用场景中,将表2中的数据作为输入信息,对红酒的原产地进行预测,表中,EN13C为乙醇δ13C、GLY13C为丙三醇δ13C、mins为Δδ13C乙醇-丙三醇、d180为δ13O。
EN13C GLY13C mins d180 Ca K Mg Na B Al
-26.71 -29.82 3.11 5.57 65.02 1110.16 112.16 28.25 7.48 0.33
Sc Ti Cr Mn Fe Cu Zn Rb Sr Ba
0.086 0.038 0.018 0.777 0.843 0.033 0.321 1.418 0.818 0.048
表2
在经过数据特征分析、降噪处理、深度神经网络搭建以及参数调优后,得到最终的预测结果,即预测该红酒的原产地为意大利,且预测置信度为84.659%,当前红酒原产地预测模型的整体准确度为83.6%。
在另一具体应用场景中,将表3中的数据作为输入信息,对红酒的原产地进行预测,表中,EN13C为乙醇δ13C、GLY13C为丙三醇δ13C、mins为Δδ13C乙醇-丙三醇、d180为δ13O。
EN13C GLY13C mins d180 Ca K Mg Na B Al
-26.35 -31.64 5.29 3.46 56.15 961 118.63 9.93 8.04 0.48
Sc Ti Cr Mn Fe Cu Zn Rb Sr Ba
0.19 0.051 0.078 0.496 1.223 0.028 0.516 0.330 0.527 0.109
表3
在经过数据特征分析、降噪处理、深度神经网络搭建以及参数调优后,得到最后的预测结果,及预测该红酒的原产地为西班牙,且预测置信度为82.311%,当前红酒原产地预测模型的整体准确度为83.6%。
图7为本发明实施例提供的一种红酒原产地的预测装置700的示意性框图,所述装置700包括:
获取单元701,用于获取红酒中元素含量和\或稳定同位素比值数据和对应红酒的产地数据并一同作为样本集合,并将所述样本集合划分为训练集和测试集;
归一化单元702,用于对所述训练集和所述测试集进行归一化处理;
学习单元703,用于利用深度神经网络对经过归一化处理的训练集进行学习;
搭建单元704,用于搭建训练集各训练点的多维空间分布,并在所述多维空间分布中加入测试集中的测试点;
调优单元705,用于根据所述多维空间分布中的测试点和训练点的相互关系进行参数调优,从而构建红酒原产地预测模型;
预测单元706,用于获取目标红酒中元素含量和\或稳定同位素比值数据,并输入至所述红酒原产地预测模型中预测得到目标红酒的产地数据。
在一实施例中,所述获取单元701包括:
划分单元:用于将所述样本集合按训练集占比80%、测试集占比20%的比例进行划分;
抽取单元,用于从所述训练集中随机抽取20%的样本,作为验证集。在一实施例中,
在一实施例中,所述归一化单元702包括:
判断单元,用于判断每一类型所述含量数据的总个数是否超过预设个数阈值;
平均值单元,用于若对应类型的元素含量或者稳定同位素比值数据的总个数超过预设个数阈值,则采用平均值除以标准偏差的方法对所述对应类型的元素含量或者稳定同位素比值数据进行归一化处理,公式如下:
Figure BDA0002412922930000121
Figure BDA0002412922930000122
式中,y为经过归一化处理后的值,x为原始元素含量或者稳定同位素比值数据,
Figure BDA0002412922930000123
为元素含量或者稳定同位素比值数据数据平均值,s为元素含量或者稳定同位素比值数据的标准偏差,xi为第i个元素含量或者稳定同位素比值数据,N为元素含量或者稳定同位素比值数据个数;
最大值单元,用于若对应类型的元素含量或者稳定同位素比值数据的总个数未超过预设个数阈值,则采用除以最大值的方法对所述对应类型的元素含量或者稳定同位素比值数据进行归一化处理,公式如下:
Figure BDA0002412922930000124
式中,y为经过归一化处理后的值,x为原始元素含量或者稳定同位素比值数据,xmax为元素含量或者稳定同位素比值数据中的最大值。
在一实施例中,所述学习单元703包括:
信息提取单元,用于将所述训练集中的样本输入至深度神经网络中;利用所述深度神经网络进行信息提取,并输出目标信息。
在一实施例中,所述学习单元703还包括:
优化更新单元,用于通过反向传播算法对所述深度神经网络进行优化训练,并对所述深度神经网络中的参数进行更新。
在一实施例中,搭建单元704包括:
训练点搭建单元,用于将所述训练集中的训练点输入至所述深度神经网络中,搭建所述训练点在多维空间的空间分布图;
测试点匹配单元,用于将所述测试集中的一个测试点输入至所述深度神经网络中,通过所述深度神经网络模型自动为所述测试点匹配空间位置,并生成反映所述测试点与所述训练点之间的相互关系的模型特征图。
在一实施例中,所述调整单元705包括:
构建模型单元,用于在所述模型特征图中获取距离所述测试点最近的多个训练点,并对所述测试点与所述最近的多个训练点的空间分布情况进行分析,并计算所述测试点和所述最近的多个训练点对应的权重的大小,从而构建红酒原产地预测模型。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种红酒原产地的预测方法,其特征在于,包括:
获取红酒中元素含量和\或稳定同位素比值数据和对应红酒的产地数据并一同作为样本集合,并将所述样本集合划分为训练集和测试集;
对所述训练集和所述测试集进行归一化处理;
利用深度神经网络对经过归一化处理的训练集进行学习;
搭建训练集各训练点的多维空间分布,并在所述多维空间分布中加入测试集中的测试点;
根据所述多维空间分布中的测试点和训练点的相互关系进行参数调优,从而构建红酒原产地预测模型;
获取目标红酒中元素含量和\或稳定同位素比值数据,并输入至所述红酒原产地预测模型中预测得到目标红酒的产地数据。
2.根据权利要求1所述的红酒原产地的预测方法,其特征在于,所述获取红酒中元素含量和\或稳定同位素比值数据和对应红酒的产地数据并一同作为样本集合,并将所述样本集合划分为训练集和测试集,包括:
将所述样本集合按训练集占比80%、测试集占比20%的比例进行划分;
从所述训练集中随机抽取20%的样本,作为验证集。
3.根据权利要求1所述的红酒原产地的预测方法,其特征在于,所述对所述训练集和所述测试集进行归一化处理,包括:
判断每一类型所述含量数据的总个数是否超过预设个数阈值;
若对应类型的元素含量或者稳定同位素比值数据的总个数超过预设个数阈值,则采用平均值除以标准偏差的方法对所述对应类型的元素含量或者稳定同位素比值数据进行归一化处理,公式如下:
Figure FDA0002412922920000011
Figure FDA0002412922920000012
式中,y为经过归一化处理后的值,x为原始元素含量或者稳定同位素比值数据,
Figure FDA0002412922920000013
为元素含量或者稳定同位素比值数据数据平均值,s为元素含量或者稳定同位素比值数据的标准偏差,xi为第i个元素含量或者稳定同位素比值数据,N为元素含量或者稳定同位素比值数据个数;
若对应类型的元素含量或者稳定同位素比值数据的总个数未超过预设个数阈值,则采用除以最大值的方法对所述对应类型的元素含量或者稳定同位素比值数据进行归一化处理,公式如下:
Figure FDA0002412922920000021
式中,y为经过归一化处理后的值,x为原始元素含量或者稳定同位素比值数据,xmax为元素含量或者稳定同位素比值数据中的最大值。
4.根据权利要求1所述的红酒原产地的预测方法,其特征在于,所述利用深度神经网络对经过归一化处理的训练集进行学习,包括:
将所述训练集中的样本输入至深度神经网络中;利用所述深度神经网络进行信息提取,并输出目标信息。
5.根据权利要求4所述的红酒原产地的预测方法,其特征在于,所述利用深度神经网络对经过归一化处理的训练集进行学习,还包括:
通过反向传播算法对所述深度神经网络进行优化训练,并对所述深度神经网络中的参数进行更新。
6.根据权利要求1所述的红酒原产地的预测方法,其特征在于,所述搭建训练集各训练点的多维空间分布,并在所述多维空间分布中加入测试集中的测试点,包括:
将所述训练集中的训练点输入至所述深度神经网络中,搭建所述训练点在多维空间的空间分布图;
将所述测试集中的一个测试点输入至所述深度神经网络中,通过所述深度神经网络模型自动为所述测试点匹配空间位置,并生成反映所述测试点与所述训练点之间的相互关系的模型特征图。
7.根据权利要求6所述的红酒原产地的预测方法,其特征在于,所述根据所述多维空间分布中的测试点和训练点的相互关系进行参数调优,从而构建红酒原产地预测模型,包括:
在所述模型特征图中获取距离所述测试点最近的多个训练点,并对所述测试点与所述最近的多个训练点的空间分布情况进行分析,并计算所述测试点和所述最近的多个训练点对应的权重的大小,从而构建红酒原产地预测模型。
8.一种红酒原产地的预测装置,其特征在于,包括:
获取单元,用于获取红酒中元素含量和\或稳定同位素比值数据和对应红酒的产地数据并一同作为样本集合,并将所述样本集合划分为训练集和测试集;
归一化单元,用于对所述训练集和所述测试集进行归一化处理;
学习单元,用于利用深度神经网络对经过归一化处理的训练集进行学习;
搭建单元,用于搭建训练集各训练点的多维空间分布,并在所述多维空间分布中加入测试集中的测试点;
调优单元,用于根据所述多维空间分布中的测试点和训练点的相互关系进行参数调优,从而构建红酒原产地预测模型;
预测单元,用于获取目标红酒中元素含量和\或稳定同位素比值数据,并输入至所述红酒原产地预测模型中预测得到目标红酒的产地数据。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的红酒原产地的预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的红酒原产地的预测方法。
CN202010182105.9A 2020-03-16 2020-03-16 红酒原产地的预测方法、装置、计算机设备及存储介质 Active CN111401444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010182105.9A CN111401444B (zh) 2020-03-16 2020-03-16 红酒原产地的预测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010182105.9A CN111401444B (zh) 2020-03-16 2020-03-16 红酒原产地的预测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111401444A true CN111401444A (zh) 2020-07-10
CN111401444B CN111401444B (zh) 2023-11-03

Family

ID=71430934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010182105.9A Active CN111401444B (zh) 2020-03-16 2020-03-16 红酒原产地的预测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111401444B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112161984A (zh) * 2020-09-28 2021-01-01 冯家禧 酒品定位方法、酒品信息管理方法、装置、设备及存储介质
CN116976915A (zh) * 2023-05-24 2023-10-31 南京审计大学 地理信息支持的种植类地理标志产品溯源方法
CN117934019A (zh) * 2024-03-22 2024-04-26 南京海关工业产品检测中心 一种基于深度学习的铜精矿样品溯源方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
CN106404748A (zh) * 2016-09-05 2017-02-15 华中科技大学 一种多谱线组合激光诱导击穿光谱谷类作物产地识别方法
CN106560841A (zh) * 2016-10-20 2017-04-12 中国计量大学 基于深度学习的武夷岩茶产地鉴别方法
CN106560692A (zh) * 2016-10-20 2017-04-12 中国计量大学 联合四种检验技术的武夷岩茶产地鉴别方法
WO2017191648A1 (en) * 2016-05-05 2017-11-09 Eswaran Kumar An universal classifier for learning and classification of data with uses in machine learning
US20180137338A1 (en) * 2016-11-16 2018-05-17 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
US20190090774A1 (en) * 2017-09-27 2019-03-28 Regents Of The University Of Minnesota System and method for localization of origins of cardiac arrhythmia using electrocardiography and neural networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
WO2017191648A1 (en) * 2016-05-05 2017-11-09 Eswaran Kumar An universal classifier for learning and classification of data with uses in machine learning
CN106404748A (zh) * 2016-09-05 2017-02-15 华中科技大学 一种多谱线组合激光诱导击穿光谱谷类作物产地识别方法
CN106560841A (zh) * 2016-10-20 2017-04-12 中国计量大学 基于深度学习的武夷岩茶产地鉴别方法
CN106560692A (zh) * 2016-10-20 2017-04-12 中国计量大学 联合四种检验技术的武夷岩茶产地鉴别方法
US20180137338A1 (en) * 2016-11-16 2018-05-17 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
US20190090774A1 (en) * 2017-09-27 2019-03-28 Regents Of The University Of Minnesota System and method for localization of origins of cardiac arrhythmia using electrocardiography and neural networks

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112161984A (zh) * 2020-09-28 2021-01-01 冯家禧 酒品定位方法、酒品信息管理方法、装置、设备及存储介质
CN116976915A (zh) * 2023-05-24 2023-10-31 南京审计大学 地理信息支持的种植类地理标志产品溯源方法
CN116976915B (zh) * 2023-05-24 2024-04-05 南京审计大学 地理信息支持的种植类地理标志产品溯源方法
CN117934019A (zh) * 2024-03-22 2024-04-26 南京海关工业产品检测中心 一种基于深度学习的铜精矿样品溯源方法及系统
CN117934019B (zh) * 2024-03-22 2024-05-28 南京海关工业产品检测中心 一种基于深度学习的铜精矿样品溯源方法及系统

Also Published As

Publication number Publication date
CN111401444B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN111401444B (zh) 红酒原产地的预测方法、装置、计算机设备及存储介质
Li et al. Applying various algorithms for species distribution modelling
CN109934269B (zh) 一种电磁信号的开集识别方法和装置
CN106446942A (zh) 基于增量学习的农作物病害识别方法
CN112785450B (zh) 一种土壤环境质量分区方法及系统
CN109490306B (zh) 一种基于色泽和气味数据融合的猪肉新鲜度检测方法
Hamel et al. Assessing variation in life‐history tactics within a population using mixture regression models: a practical guide for evolutionary ecologists
Leboucher et al. A metacommunity approach for detecting species influenced by mass effect
CN111681022A (zh) 一种网络平台数据资源价值评估方法
CN116699096B (zh) 一种基于深度学习的水质检测方法和系统
Petrauskas et al. The use of stochastic differential equations to describe stem taper and volume
CN113571133B (zh) 一种基于图神经网络的乳酸菌抗菌肽预测方法
CN117172430B (zh) 一种基于深度学习的水体环境评估与预测方法及系统
CN109325065A (zh) 基于动态隐变量模型的多采样率软测量方法
CN113076969A (zh) 基于混合高斯损失函数的图像目标检测方法
CN109636194B (zh) 一种输变电项目重大变动多源协同检测方法与系统
CN109211814B (zh) 一种基于三维光谱曲面分区特征的土壤剖面类型识别方法
CN114757433B (zh) 一种饮用水源抗生素抗性相对风险快速识别方法
CN102867193B (zh) 一种生物检测方法、装置及生物检测器
CN113035363B (zh) 一种概率密度加权的遗传代谢病筛查数据混合采样方法
Işık et al. Predicting Soil Quality Index with a Deep Regression Approach
CN112364932B (zh) 一种基于图像特征的拟态度建模系统及方法
CN116630814B (zh) 一种基于机器学习的建筑灾害快速定位评估方法
CN106600117A (zh) 一种面向装备制造业的知识创新评价体系动态识别方法
CN113537726A (zh) 跨境隐存高危因子智能风险挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant