CN111462834A

CN111462834A - 一种植物中镉过量的概率值的预测方法及系统

Info

Publication number: CN111462834A
Application number: CN202010253902.1A
Authority: CN
Inventors: 杨军; 赵琛; 陈同斌
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2019-11-14
Filing date: 2020-04-02
Publication date: 2020-07-28

Abstract

本发明公开了一种植物中镉过量的概率值的预测及系统，该方法包括：采集植物的镉含量和与所述植物对应土壤的数据；所述土壤的数据为影响植物中镉含量的特征变量，所述特征变量至少包括土壤的镉含量、pH值和土壤CEC；对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程；将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到所述待测土壤生长出的植物中镉含量过量的概率值。本发明实施例提供的方法拟筛选适用的概率预测理论，建立新的概率预测方法，该方法应对训练数据的数值分布无要求或要求较低，且能更为简便地引入更多土壤理化性质变量以提高预测能力。

Description

一种植物中镉过量的概率值的预测方法及系统

技术领域

本发明涉及农业科学技术领域，尤其是涉及一种植物中镉过量的概率值的预测方法及系统。

背景技术

土壤中的镉污染导致农产品镉含量超标，进而危害人体健康。作物种植需要持续的人力物力投入，相比较收获后对农产品中含量进行检测，通过检测产地环境(土壤)中镉含量，进而对其上种植的农产品遭受污染的状况进行预测，更为简便实用。

理论上，作物与土壤中镉含量具有正相关性，即土壤中镉含量的升高会提高作物中相应含量。因此该领域内最初通过大量采样，使用土壤与作物镉含量建立线性回归，直接对作物中镉含量进行预测。后引入土壤pH等土壤理化性质进一步提高线性回归的拟合精度。从理论上，土壤中影响植物吸收重金属的因素非常多，很难一一枚举，因此只能关注影响较大的因素，例如土壤pH。但仅将pH列入模型并不意味着其他因素的影响可以忽略不计，只是其他因素的影响较低，且逐一考虑成本太高。因此，如采用上述方法，对大田采样，并建立线性回归会导致预测的误差较大。相较而言，盆栽实验土壤条件可控，较为单一，而实际田野中土壤参数非人力可控，且范围较大，土壤环境更为复杂多变，忽略不计的那些因素会对线性回归造成较大影响。因此，以上线性关系往往仅出现于条件严格管控的室内盆栽实验中，导致该方法的适用范围小。

虽然，有些现有技术，使用贝叶斯后验概率理论，以土壤重金属含量的全量和有效态含量两个变量也能预测出水稻籽粒重金属含量超标概率。但是，基于贝叶斯的水稻籽粒重金属含量超标概率预测方法存在以下缺陷：

(1)该方案所必需的条件概率获取困难。土壤含量作为连续变量，其概率不能以样品频率表示，只能通过观察样品以假设其含量分布形式，进而拟合其概率密度函数。当假设的概率密度函数偏离实际情况时，模型效果较差。该技术方案假设其符合正态分布，但实际上受到外源污染土壤含量很难符合正态分布。例如，一个区域的土壤的重金属含量只能通过大量的布点采样去摸清，这些样点数据可能能够反映当地自然状态下的“正态分布”，但是，也可能当存在人为的因素干扰时，当地自然状态下也可能“失真”的情况。即，若某地区的土壤的含量不符合正态分布，则采用贝叶斯方法对该地区的水稻籽粒中镉含量的预测结果准确度低。

(2)该方法需严格假设参与建模各变量条件独立。土壤理化性质影响作物对土壤的吸收，因此引入土壤理化性质变量理论上能进一步提高预测能力。但土壤理化性质之间甚至与土壤含量往往具有较强相关性，违背该假设。该技术方案使用“有效态”含量来表征土壤理化性质对作物吸收富集的影响，但有效态含量与全量间同样存在较强的相关性，反而会伤害预测能力。

发明内容

(一)发明目的

本发明的目的是提供一种植物中镉过量的概率值的预测方法及系统，利用构建的逻辑斯谛回归方程，预测植物中镉含量是否过量。本发明实施例提供的方法拟筛选适用的概率预测理论，建立新的概率预测方法，该方法应对训练数据的数值分布无要求或要求较低，且能更为简便地引入更多土壤理化性质变量以提高预测能力。

(二)技术方案

为解决上述问题，本发明的第一方面提供了一种植物中镉过量的概率值的预测方法，包括采集植物的镉含量和与所述植物对应土壤的数据；所述土壤的数据为影响植物中镉含量的特征变量；该特征变量至少包括土壤中镉含量、pH和土壤的CEC值；对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程；将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到所述待测土壤生长出的植物中镉含量过量的概率值。

进一步地，对采集到的所述土壤的数据分析，得到所述逻辑斯谛回归方程包括：设定待测植物中镉含量的阈值；将采集的所述土壤的数据分成两组，第一组作为训练数据，用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，所述测试数据用于对初始的所述逻辑斯谛回归方程的测试；分别将所述测试数据中每个所述土壤的数据输入到初始的所述逻辑斯谛回归方程中分别得到每个土壤生长出的植物中镉含量过量的概率值；基于全部土壤生长出的植物中镉含量过量的概率值，得到所述测试数据的预测概率值；基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程。

进一步地，基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程包括：将所述测试数据标记为两类，超过所述阈值的所述植物对应的土壤标记为第一类，低于所述阈值的所述植物对应的土壤标记为第二类，获取所述测试数据中植物超过阈值的实际概率值，所述实际概率值为所述测试数据标记为第一类的植物的个数和与所述测试数据个数和的比值；将所述预测概率值与所述实际概率值比对，若比对的误差低于预设值，则确定初始的所述逻辑斯谛回归方程为分析后得到的所述逻辑斯谛回归方程。

进一步地，还包括：若比对的误差高于预设值，补充采集植物的镉含量和与所述植物对应土壤的数据；再次对原始采集到的土壤的数据和补充采集到的所述土壤的数据分析，再次得到逻辑斯谛回归方程。

进一步地，特征变量包括土壤的镉含量和pH值、CEC，构建初始的逻辑斯谛回归方程包括：分别确定与所述特征变量对应的逻辑斯谛回归方程的系数，具体步骤包括：确定不同土壤的镉含量对应的逻辑斯谛回归方程的系数；确定不同土壤的pH值对应的逻辑斯谛回归方程的系数；确定不同土壤的CEC对应的逻辑斯谛回归方程的系数；确定所述逻辑斯谛回归方程的截距。

进一步地，逻辑斯谛回归方程为：

其中，P(y＞i|x)为植物中镉过量的概率值，a_j为第j个所述特征变量对应的逻辑斯谛回归方程的系数，b为所述逻辑斯谛回归方程的截距，m为特征变量总数；x_j为待测土壤的第j个特征变量，i表示设定待测植物中镉含量的阈值。

进一步地，当采集的植物为水稻时，当所述特征变量只包括土壤的镉含量、pH值和CEC时，且当所述设定的阈值为0.02mg/kg～0.77mg/kg，则所述不同土壤的镉含量对应的逻辑斯谛回归方程的系数为3.15～7.37；不同土壤的pH值对应的逻辑斯谛回归方程的系数为：-1.05～0.53；不同土壤的CEC值对应的逻辑斯谛回归方程的系数为：-0.25～-0.05；

所述逻辑斯谛回归方程的截距为-6.24～7.45。

根据本发明的第二方面，还提供了一种植物中镉过量的概率值的预测系统，包括：数据获取模块，获取植物的镉含量和与所述植物对应的土壤的数据，所述土壤的数据为影响植物中镉含量的特征变量，该特征变量至少包括土壤中镉含量、pH和土壤的CEC值；逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程；概率值预测模块，将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到所述待测土壤生长出的植物中镉含量过量的概率值。

进一步地，逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程构建模块步骤包括：确定待测植物中镉含量的阈值；将采集的所述土壤的数据分成两组，第一组用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，所述测试数据用于对初始的所述逻辑斯谛回归方程的测试；分别将所述测试数据中每个所述土壤的数据输入到初始的所述逻辑斯谛回归方程中分别得到每个土壤生长出的植物中镉含量过量的概率值；基于全部土壤生长出的植物中镉含量过量的概率值，得到所述测试数据的预测概率值；基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程。

进一步地，逻辑斯谛回归方程构建模块基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程包括：将所述测试数据标记为两类，超过所述阈值的所述植物对应的土壤标记为第一类，低于所述阈值的所述植物对应的土壤标记为第二类；获取所述测试数据中植物超过阈值的实际概率值，所述实际概率值为所述测试数据标记为第一类的植物的个数和与所述测试数据个数和的比值；将所述预测概率值与所述实际概率值比对，若比对的误差低于预设值，则确定初始的所述逻辑斯谛回归方程为分析后得到的所述逻辑斯谛回归方程。

进一步地，若比对的误差高于预设值，补充采集植物的镉含量和与所述植物对应土壤的数据；再次对原始采集到的土壤的数据和补充采集到的所述土壤的数据分析，再次得到逻辑斯谛回归方程。

进一步地，逻辑斯谛回归方程构建模块构建的所述逻辑斯谛回归方程为：

根据本发明的第三方面，还提供了一种存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现第一方面的植物中镉过量的概率值的预测方法的步骤。

根据本发明的第四方面，还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面的植物中镉过量的概率值的预测方法的步骤。

(三)有益效果

本发明的上述技术方案具有如下有益的技术效果：

本发明一种植物中镉过量的概率值的预测方法、系统、存储介质及电子设备，该方法利用逻辑斯蒂回归算法对植物中的镉含量超过设定的阈值的概率进行预测，本发明实施例提供的方法对样本各变量数值分布无要求，对各变量间相互关系无要求。因此相较于现有技术方案，本发明适用范围更广，且可通过引入更多土壤理化性质等变量进一步提高预测能力。

附图说明

图1是本发明第一实施方式的植物中镉过量的概率值的预测方法流程示意图；

图2是本发明第二实施方式的植物中镉过量的概率值的预测系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知技术的描述，以避免不必要地混淆本发明的概念。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1是本发明第一实施方式的植物中镉过量的概率值的预测方法流程示意图。

如图1所示，该预测方法包括：

步骤S101，采集植物的镉含量和与所述植物对应土壤的数据。土壤的数据为影响植物中镉含量的特征变量。

优选的，该特征变量至少包括土壤中镉含量、pH和土壤的CEC值；本发明经过研究，发现这三个特征变量是对植物中镉含量影响最高的特征变量，如只采用土壤中镉含量则构建的逻辑斯谛回归方程虽然也能预测植物中的镉含量，但是预测的准确度会差很多。可选的，特征变量还包括但是不限于粘粒含量、有机质含量等等。

步骤S102，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程。

在一个具体的实施例中，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程的步骤包括步骤S1021～步骤S1024。

步骤S1021，先设定待测植物中镉含量的阈值。阈值例如是国家规定的标准值或者是用户自行设定的其他值。

步骤S1022，将采集的所述土壤的数据分成两组，第一组作为训练数据，用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，测试数据用于对初始的所述逻辑斯谛回归方程的测试。

可选的，测试数据中包括植物实际的镉含量超过预设阈值的，也包括未超过预设阈值的。这两类中任意一类的占比不小于总体的5％，以避免测试的结果不准确，造成过度失衡。

步骤S1022，分别将所述测试数据中每个所述土壤的数据输入到初始的所述逻辑斯谛回归方程中分别得到每个土壤生长出的植物中镉含量过量的概率值。

步骤S1023，基于全部土壤生长出的植物中镉含量过量的概率值，得到所述测试数据的预测概率值。

预测概率值为全部土壤生长出的植物中镉含量过量的概率值的平均值，即全部土壤生长出的植物中镉含量过量的概率值与测试数据的总量的商。

步骤S1024，基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程。

在一个具体的实施例中，上述确定分析得到的逻辑斯谛回归方程的步骤包括：

将测试数据标记为两类，超过所述阈值的所述植物对应的土壤标记为第一类，低于所述阈值的所述植物对应的土壤标记为第二类。

获取测试数据中植物超过阈值的实际概率值，实际概率值为所述测试数据标记为第一类的植物的个数和与所述测试数据总量的比值。

将预测概率值与实际概率值比对，若比对的误差低于预设值，则确定初始的所述逻辑斯谛回归方程为分析后得到的所述逻辑斯谛回归方程。

在一个具体的实施例中，若比对的误差高于预设值，说明第一组数据的量太少，不能涵盖当地土壤的基本特征，需要加大采样量。则补充采集植物的镉含量和与所述植物对应土壤的数据；再次对原始采集到的土壤的数据和补充采集到的所述土壤的数据分析，再次将原始采集到的土壤的数据和补充采集到的土壤的数据分成两组，再次建立逻辑斯谛回归方程，再次采用测试数据对逻辑斯谛回归方程测试，直到测试数据的预测概率值与实际概率值比对的误差低于预设值，否则，继续重新采样，重新执行上述步骤，直到得到误差低于预设值的逻辑斯谛回归方程。

在一个具体的实施例中，逻辑斯蒂回归也称为对数几率回归，它使用一个连接函数将线性回归模型产生的预测值映射到真实标记y∈(0,1)的范围内，从而将线性回归结果转化为概率输出。

在本实施例中，P(y＞i│x)为土壤条件(包括土壤含量、pH)为x时的水稻籽粒含量y超出阈值i的可能性，P(y≤i│x)则是未超出阈值的可能性，二者的比值称为几率，即土壤条件为x时植物含量y超出阈值i的相对可能性。则构建逻辑斯谛回归的过程包括：先建立对数几率方程：

对上述对数几率方程整理，即：消去等号左边对数，得到

两边同时取倒数，得到

两边同时乘p，得到

进而得到逻辑斯谛回归方程，

上述公式中，a表示某特征变量对应的系数，x表示该特征变量。

当引入多个特征变量后，得到完整的逻辑斯蒂回归公式如下：

其中，P(y＞i|x)为植物中镉过量的概率值，a_j为第j个所述特征变量对应的逻辑斯谛回归方程的系数，b为所述逻辑斯谛回归方程的截距，m为特征变量总数；x_j为待测土壤的第j个特征变量。

在一个实施例中，特征变量包括土壤的镉含量、pH值和土壤CEC则，上述逻辑斯谛回归方程中，

式中a₁为土壤中镉含量的系数，x₁为土壤中镉含量，b为截距，a₂为pH值的系数，x₂为pH值，a₃为土壤CEC的系数，x₃为土壤CEC。

当然，本领域的技术人员可以得知，当特征变量还包括粘粒含量和/或有机质含量时，可以根据上述实施例所示的步骤调整逻辑斯谛回归方程。

应当理解的是，在本身的上述实施方式中，只是列出了与植物的镉含量相关度较高的特征变量，没有列举其他的有相关的特征变量，对于本领域的普通技术人员来说，在上述说明的基础上还可以结合其他的特征参数，预测植物中镉含量过量的概率值，这里无需也无法对所有的特征变量予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

步骤S103,将待测土壤的数据输入到上述逻辑斯谛回归方程中，得到待测土壤生长出的植物中镉含量过量的概率值。

在一个具体的实施例中，当采集的植物为水稻时，即检测水稻是否超过阈值时，且特征变量为3个，具体为土壤的镉含量、pH值，和土壤CEC值，且当所述设定的阈值为0.02mg/kg～0.77mg/kg，则构建初始的逻辑斯谛回归方程包括分别确定与所述特征变量对应的逻辑斯谛回归方程的系数。具体步骤包括：

第一步，确定不同土壤的镉含量对应的逻辑斯谛回归方程的系数。

具体地，不同土壤的镉含量对应的逻辑斯谛回归方程的系数为3.15～7.37。

第二步，确定不同土壤的pH值对应的逻辑斯谛回归方程的系数。

具体地，不同土壤的pH值对应的逻辑斯谛回归方程的系数为：-1.05～0.53。

第三步，确定所述逻辑斯谛回归方程的截距。

具体地，所述逻辑斯谛回归方程的截距为-6.24～7.45。

进一步具体的，可根据分好类的样本的基本信息(包括土壤含量、土壤pH和是否超过阈值)，使用极大似然法最大化模型的对数似然，估计方程中不同土壤的镉含量对应的逻辑斯谛回归方程的系数a₁、不同土壤的pH值对应的逻辑斯谛回归方程的a₂、不同土壤的CEC对应的逻辑斯谛回归方程的a₃以及逻辑斯谛回归方程的截距b的取值。梯度下降法或牛顿法等经典的数值优化算法都可求得极大似然法中最大化对数似然的最优解。其中，“极大似然法”、“梯度下降法”和“牛顿法”，这个属于逻辑回归方程求解的基础操作，本领域的技术人员可以通过人工计算，也可以通过程序例如matlab、R语言等计算，此处不在赘述。

本发明上述实施方式提供的预测方法，通过对土壤的数据分析，进而预测出土壤中生长出的植物中镉含量过量的概率值，本发明通过概率形式表征作物含量超出一定阈值的可能性，既能够表征自身的不确定度，又能直截了当以标准限量值为基准给出预测概率，为用户提供较为可靠的参考，优于基于线性回归的含量预测，相比于通过贝叶斯模型的方法对于植物镉含量过量的预测概率，本发明的方法，对训练数据的数值分布无要求或要求较低，且能更为简便地引入更多土壤理化性质变量以提高预测能力，适用范围更广。另外，本申请提供的预测方法和系统，在预测污染土壤种植农作物是否安全时，不需要预测农作物会吸收多少毫克/千克的污染物，只需要预测农作物吸收污染物的量是否超出设定的阈值(例如是国家标准)即可，能更客观的反应作物被污染的程度。

下面将结合具体的数据详细说明本申请的概率值预测方法。

实施例1

用户需要评估其关注区域内水稻受土壤镉污染的影响时，可先建立概率预测模型，预测当地土壤种植出的稻谷中镉含量超出某一阈值的概率。确定某一个阈值，该阈值可以是国标限量值，也可以是使用人所关心的其他限量值。

具体的，首先，用户应在当地采集成对的水稻-土壤样品，并选取特征变量。当选取特征变量为土壤镉含量和土壤pH、土壤CEC3个变量时，样本数量最少应有30对超标样本和30对未超标样本(例如，成对样本中的水稻籽粒含量是否超标)，最好能达到各100对，分析其水稻、土壤中重金属含量和土壤理化性质，并按照水稻中重金属含量是否超出限量值分两类标记，一类是超标，另一类是不超标，做好数据的准备工作。可选的，超标的可以用数字“1”表示，不超标的可以用数字“0”表示。

例如，在某地区采集一批333对土壤水稻样品，土壤Cd浓度范围0.09-0.89mg/kg，平均0.28±0.13mg/kg，水稻Cd 0.01-3.82mg/kg，平均0.24±0.36mg/kg，土壤CEC 0.24-33.11cmol+/L，平均9.10±4.98cmol+/L，土壤pH 4.28-7.91，平均5.71。

选取国标0.2mg/kg的稻谷Cd限量值进行划分，即阈值为0.2mg/kg。标记为0的样品208对，土壤Cd浓度范围0.09-0.74mg/kg，平均0.26±0.12mg/kg，水稻Cd 0.01-0.20mg/kg，平均0.08±0.06mg/kg，土壤CEC0.24-33.11cmol+/L，平均9.83±5.39cmol+/L，土壤pH4.28-7.89，平均5.84；标记为1的样品125对，土壤Cd浓度范围0.12-0.89mg/kg，平均0.30±0.15mg/kg，水稻Cd 0.21-3.82mg/kg，平均0.51±0.47mg/kg，土壤CEC0.56-22.41cmol+/L，平均7.87±3.93cmol+/L，土壤pH 4.46-7.91，平均5.50。

根据以上样品建立方程：

该方程的最大化似然对数为：

进一步可等价变换为：

求a1，a2，a3和b最优解的过程即为求得最小l(a1；a2；a3；b)的过程。该函数是一个关于(a1；a2；a3；b)的高阶可导的连续凸函数，求解过程可使用梯度下降法、牛顿法等求解。为减小工作量，可借助数学工具完成以上求解过程，不再手工计算，以R语言程序为例，使用glm()函数即可求得最优解。例如，在0.2mg/kg的稻谷Cd含量限值下,土壤Cd含量系数a1＝3.55，土壤pH系数a2＝-0.24，土壤CEC系数a3＝-0.09，截距b＝0.65。

然后，若用户希望建模中同时进行验证和模型优化，则需要构建训练样本和验证样本，一般采用交叉验证的方法。具体地，交叉验证的话，分为233对训练数据和100对验证数据，10000次重复后发现预测的水稻籽粒Cd超过0.2mg/kg的概率是37.7％±2.4％，相应真实的超标率是37.5％±3.3％，误差可以接受。此时可将全部数据(233对)作为训练数据，得到所需模型及参数。

若用户对验证结果不满意，则应进一步加大采样量，尽量保证两类别的样本数大致相近，且能涵盖区域内基本的土壤条件范围。然后根据重新采集到的数据得到模型及参数。

最后，将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到待测土壤生长出的植物中镉含量过量的概率值。

实施例2

本实施例2通过在湖南省采集成对土壤-水稻样品，探索合适变量及其参数，最终建立的模型中包括土壤含量(全量)、土壤pH和CEC这3个变量。可计算水稻籽粒含量超出或小于0.02-0.77mg/kg(精确到小数点后2位)内任一含量的概率。需要说明的是，为了便于计算，下述特征变量的相关参数均保留了小数点后2位。

具体的逻辑斯谛回归方程的特征变量的系数及相关的参数可参加下表1

续表1

续表1

续表1

续表1

续表1

续表1

在本实施例中，通过发明人的研究，已经给出了阈值在0.02～0.77mg/kg条件下的逻辑斯谛回归方程中各参数。

可以根据上表和逻辑斯谛回归方程直接计算。

具体地，用户的待预测样品土壤镉含量为0.2mg/kg，土壤pH为7.0，CEC为10cmol+/kg。为满足食品中污染物限量标准卫生要求，希望稻谷中镉含量小于0.2mg/kg。可见，该用户的待预测样品的土壤条件和设定的阈值都在上表范围内，可以根据上表确定逻辑斯谛回归方程的各个参数，进而自行计算该样本的镉超标的概率。

进一步具体地，根据上表1可以查出，当选定阈值为0.2mg/kg时，土壤镉含量系数a₁＝3.55，土壤pH系数a₂＝-0.24，土壤CEC的系数a₃＝-0.09，截距项b＝0.65，因此可计算出此时水稻镉超标概率P＝22.68％。

说明，该区域的水稻中镉含量超过0.2mg/kg的概率为22.68％，超标的概率比较低。

当然，用户也可以根据上述实施例1的方法先确定逻辑斯谛回归方程的各个参数，然后自行计算超标的概率。

可以理解的是，本实施例以预测水稻中镉含量是否超标为例，但并不以此为限，使用本发明的方法还可以用于预测玉米、蔬菜等植物的镉含量是否超标。

本发明实施例提供的植物中镉过量的概率值的预测方法，相比较于常用的线性回归方法预测植物中镉含量的方法，直接输出含量超出某一阈值的概率，更适用于日常农田管理和粮食安全监管的需要，实用性更强。例如以国标限量值为阈值时，仅关心水稻籽粒含量是否超出0.2mg/kg即可，无需预测水稻籽粒实际镉含量，及水稻籽粒实际镉含量的准确性，因为水稻籽粒的含量究竟是0.7或0.8mg/kg的实际意义不大。

并且，植物中对镉含量的预测中不可预见因素较多，使用概率可表征预测中的不确定性。实际工作中往往发现尽管存在一定规律(即土壤与籽粒中含量正相关)，但存在较多的特殊情况，例如种植在含量较高的土壤中的植物的镉含量达标，而在认为较为“安全”的土壤中植物的镉含量反而超标。以概率表征时，预测70％超标率意味着当地100份水稻样品中依然存在30份合格样品，但相较于40％预测超标率的土壤更值得关注，因此本申请的预测方法更加科学且实用性更广泛。

如图2所示，该系统包括：数据获取模块、逻辑斯谛回归方程构建模块和概率值预测模块。其中，

数据获取模块，获取植物的镉含量和与所述植物对应的土壤的数据，所述土壤的数据为影响植物中镉含量的特征变量，其中特征变量至少包括土壤中镉含量、pH值和CEC。

逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程。

在一个实施例中，逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程构建模块步骤包括：

获取待测植物中镉含量的阈值，在本步骤中，获取的阈值可以是用户时时输入的或者用户预先输入的。将采集的所述土壤的数据分成两组，第一组用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，所述测试数据用于对初始的所述逻辑斯谛回归方程的测试。

分别将所述测试数据中每个所述土壤的数据输入到初始的所述逻辑斯谛回归方程中分别得到每个土壤生长出的植物中镉含量过量的概率值。

基于全部土壤生长出的植物中镉含量过量的概率值，得到所述测试数据的预测概率值。

基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程。

进一步具体地，逻辑斯谛回归方程构建模块基于预测概率值确定分析得到的所述逻辑斯谛回归方程包括：

将所述测试数据标记为两类，超过所述阈值的所述植物对应的土壤标记为第一类，低于所述阈值的所述植物对应的土壤标记为第二类。获取所述测试数据中植物超过阈值的实际概率值，所述实际概率值为所述测试数据标记为第一类的植物的个数和与所述测试数据个数和的比值。

将所述预测概率值与所述实际概率值比对，若比对的误差低于预设值，则确定初始的所述逻辑斯谛回归方程为分析后得到的所述逻辑斯谛回归方程。

若比对的误差高于预设值，补充采集植物的镉含量和与所述植物对应土壤的数据；再次对原始采集到的土壤数据和补充采集到的所述土壤的数据分析，再次得到逻辑斯谛回归方程。

逻辑斯谛回归方程构建模块构建的所述逻辑斯谛回归方程为：

其中，P(y＞i|x)为植物中镉过量的概率值，a_j为第j个所述特征变量对应的逻辑斯谛回归方程的系数，b为所述逻辑斯谛回归方程的截距，m为特征变量总数；x_j为待测土壤的第j个特征变量，i为预设的阈值。

在一个实施例中，特征变量包括土壤的镉含量和pH值及土壤CEC，则上述逻辑斯谛回归方程中，

在一个实施例中，逻辑斯谛回归方程构建模块包括系数获取单元，用于分别获取与特征变量对应的逻辑斯谛回归方程的系数。

当采集的植物为水稻，当所述特征变量只包括土壤的镉含量、pH值和CEC时；且当所述设定的阈值为0.02mg/kg～0.77mg/kg时，则系数确认单元确认系数的具体步骤包括：确定不同土壤的镉含量对应的逻辑斯谛回归方程的系数，确定不同土壤的pH值对应的逻辑斯谛回归方程的系数，确定不同土壤的CEC对应的逻辑斯谛回归方程的系数，确定所述逻辑斯谛回归方程的截距。

可以理解的是，若已经预先确定好了系数，可以将确定好的阈值和相应的系数以查找表(例如上述给出的表1)的方式存储至系统的系数确认单元中，当构建好逻辑斯谛回归方程后，可以直接在查找表中查找，减小数据处理量，当然还可以通过本申请上述的方法设定程序来计算得到相应的系数，此处不在赘述。

在一个具体的实施例中，当所述特征变量只包括土壤的镉含量、pH值和CEC时；且当所述设定的阈值为0.02mg/kg～0.77mg/kg，则所述不同土壤的镉含量对应的逻辑斯谛回归方程的系数为3.15～7.37；不同土壤的pH值对应的逻辑斯谛回归方程的系数为：-1.05～0.53；不同土壤的CEC值对应的逻辑斯谛回归方程的系数为：-0.25～-0.05；所述逻辑斯谛回归方程的截距为-6.24～7.45。

需要说明的是，系数确定单元，可根据分好类的样本的基本信息(包括土壤含量、土壤pH和是否超过阈值)，使用极大似然法最大化模型的对数似然，估计方程中不同土壤的镉含量对应的逻辑斯谛回归方程的系数a₁、不同土壤的pH值对应的逻辑斯谛回归方程的a₂以及逻辑斯谛回归方程的截距b的取值。梯度下降法或牛顿法等经典的数值优化算法都可求得极大似然法中最大化对数似然的最优解。其中，“极大似然法”、“梯度下降法”和“牛顿法”，这个属于逻辑回归方程求解的基础操作，本领域的技术人员可以通过人工计算，也可以通过程序例如matlab、R语言等计算，此处不在赘述。

概率值预测模块，将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到所述待测土壤生长出的植物中镉含量过量的概率值。

本发明上述实施方式提供的预测系统，通过对土壤的数据分析，进而预测出土壤中生长出的植物中镉含量过量的概率值，本发明通过概率形式表征作物含量超出一定阈值的可能性，既能够表征自身的不确定度，又能直截了当以标准限量值为基准给出预测概率，为用户提供较为可靠的参考，优于基于线性回归的含量预测，相比于通过贝叶斯模型的方法对于植物镉含量过量的预测概率，本发明的方法，对训练数据的数值分布无要求或要求较低，且能更为简便地引入更多土壤理化性质变量以提高预测能力，适用范围更广。

本发明的一个实施方式还提供了一种存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现第一实施方式提供的植物中镉过量的概率值的预测方法的步骤。

本发明的一个实施方式中，还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现第一实施方式提供的植物中镉过量的概率值的预测方法的步骤。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种植物中镉过量的概率值的预测方法，其特征在于，包括：

采集植物的镉含量和与所述植物对应土壤的数据；所述土壤的数据为影响植物中镉含量的特征变量，所述特征变量至少包括土壤的镉含量、土壤的pH值和土壤CEC；

对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程；

将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到所述待测土壤生长出的植物中镉含量过量的概率值。

2.根据权利要求1所述的方法，其特征在于，对采集到的所述土壤的数据分析，得到所述逻辑斯谛回归方程包括：

设定待测植物中镉含量的阈值；

将采集的所述土壤的数据分成两组，第一组作为训练数据，用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，所述测试数据用于对初始的所述逻辑斯谛回归方程的测试；

分别将所述测试数据中每个所述土壤的数据输入到初始的所述逻辑斯谛回归方程中分别得到在所述土壤中生长出的植物中镉含量过量的概率值；

基于全部的所述土壤中生长出的植物中镉含量过量的所述概率值，得到所述测试数据的预测概率值；

基于所述预测概率值得到所述逻辑斯谛回归方程。

3.根据权利要求2所述的方法，其特征在于，基于所述预测概率值得到所述逻辑斯谛回归方程包括：

将所述测试数据标记为两类，超过所述阈值的所述植物对应的土壤标记为第一类，低于所述阈值的所述植物对应的土壤标记为第二类；

获取所述测试数据中植物超过阈值的实际概率值，所述实际概率值为所述测试数据标记为第一类的植物的个数和与所述测试数据个数和的比值；

将所述预测概率值与所述实际概率值比对，若比对的误差低于预设值，则确定初始的所述逻辑斯谛回归方程为分析后得到的所述逻辑斯谛回归方程；和/或

若比对的误差高于预设值，补充采集植物的镉含量和与所述植物对应土壤的数据；

再次对原始采集到的土壤数据和补充采集到的所述土壤的数据分析，再次得到逻辑斯谛回归方程。

4.根据权利要求2或3所述的方法，其特征在于，

所述逻辑斯谛回归方程为：

其中，P(y＞i|x)为植物中镉过量的概率值，a_j为第j个所述特征变量对应的逻辑斯谛回归方程的系数，b为所述逻辑斯谛回归方程的截距，m为特征变量总数；x_j为待测土壤的第j个特征变量,i表示设定的待测植物中镉含量的阈值。

5.根据权利要求4所述的方法，其特征在于，当采集的植物为水稻时，当所述特征变量只包括土壤的镉含量、pH值和CEC时，且当所述设定的阈值为0.02mg/kg～0.77mg/kg，则所述不同土壤的镉含量对应的逻辑斯谛回归方程的系数为3.15～7.37；

不同土壤的pH值对应的逻辑斯谛回归方程的系数为：-1.05～0.53；

不同土壤的CEC值对应的逻辑斯谛回归方程的系数为：-0.25～-0.05；

所述逻辑斯谛回归方程的截距为-6.24～7.45。

6.一种植物中镉过量的概率值的预测系统，其特征在于；包括：

数据获取模块，获取植物的镉含量和与所述植物对应的土壤的数据，所述土壤的数据为影响植物中镉含量的特征变量，所述特征变量至少包括土壤的镉含量、土壤pH值和土壤CEC；

逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程；

7.根据权利要求5所述的系统，其特征在于，逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程构建模块步骤包括：

获取设定的待测植物中镉含量的阈值；

将采集的所述土壤的数据分成两组，第一组用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，所述测试数据用于对初始的所述逻辑斯谛回归方程的测试；

基于全部所述土壤中生长出的植物中镉含量过量的所述概率值，得到所述测试数据的预测概率值；

8.根据权利要求6或7所述的系统，其特征在于，所述逻辑斯谛回归方程构建模块构建的所述逻辑斯谛回归方程为：

9.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1-5中任意一项植物中镉过量的概率值的预测方法的步骤。

10.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-5中任意一项植物中镉过量的概率值的预测方法的步骤。