CN111540418A

CN111540418A - 一种植物中砷过量的概率值的预测方法及系统

Info

Publication number: CN111540418A
Application number: CN202010253881.3A
Authority: CN
Inventors: 杨军; 赵琛; 陈同斌
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2019-11-14
Filing date: 2020-04-02
Publication date: 2020-08-14

Abstract

本发明公开了一种植物中砷过量的概率值的预测方法及系统。该方法包括：采集植物的砷含量和与所述植物对应土壤的数据；所述土壤的数据为影响植物中砷含量的特征变量；所述特征变量至少包括土壤的砷含量和pH值；对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程；将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到所述待测土壤生长出的植物中砷含量过量的概率值。本发明实施例提供的方法拟筛选适用的概率预测理论，建立新的概率预测方法，该方法应对训练数据的数值分布无要求或要求较低，且能更为简便地引入更多土壤理化性质变量以提高预测能力。

Description

一种植物中砷过量的概率值的预测方法及系统

技术领域

本发明涉及农业科学技术领域，尤其是涉及一种植物中砷过量的概率值的预测方法及系统。

背景技术

土壤中的砷As污染导致农产品砷As含量超标，进而危害人体健康。作物种植需要持续的人力物力投入，相比较收获后对农产品中As含量进行检测，通过检测产地环境(土壤)中砷As含量，进而对其上种植的农产品遭受污染的状况进行预测，更为简便实用。

理论上，作物与土壤中砷As含量具有正相关性，即土壤中砷As含量的升高会提高作物中相应含量。因此该领域内最初通过大量采样，使用土壤与作物砷As含量建立线性回归，直接对作物中砷As含量进行预测。后引入土壤pH等土壤理化性质进一步提高线性回归的拟合精度。从理论上，土壤中影响植物吸收重金属的因素非常多，很难一一枚举，因此只能关注影响较大的因素，例如土壤pH。但仅将pH列入模型并不意味着其他因素的影响可以忽略不计，只是其他因素的影响较低，且逐一考虑成本太高。因此，如采用上述方法，对大田采样，并建立线性回归会导致预测的误差较大。相较而言，盆栽实验土壤条件可控，较为单一，而实际田野中土壤参数非人力可控，且范围较大，土壤环境更为复杂多变，忽略不计的那些因素会对线性回归造成较大影响。因此，以上线性关系往往仅出现于条件严格管控的室内盆栽实验中，导致该方法的适用范围小。

虽然，有些现有技术，使用贝叶斯后验概率理论，以土壤重金属含量的全量和有效态含量两个变量也能预测出水稻籽粒重金属含量超标概率。但是，基于贝叶斯的水稻籽粒重金属含量超标概率预测方法存在以下缺陷：

(1)该方案所必需的条件概率获取困难。土壤As含量作为连续变量，其概率不能以样品频率表示，只能通过观察样品以假设其含量分布形式，进而拟合其概率密度函数。当假设的概率密度函数偏离实际情况时，模型效果较差。该技术方案假设其符合正态分布，但实际上受到外源污染土壤As含量很难符合正态分布。例如，一个区域的土壤的重金属含量只能通过大量的布点采样去摸清，这些样点数据可能能够反映当地自然状态下的“正态分布”，但是，也可能当存在人为的因素干扰时，当地自然状态下也可能“失真”的情况。即，若某地区的土壤的As的含量不符合正态度分布，则采用贝叶斯方法对该地区的水稻籽粒中砷含量的预测结果准确度低。

(2)该方法需严格假设参与建模各变量条件独立。土壤理化性质影响作物对土壤As的吸收，因此引入土壤理化性质变量理论上能进一步提高预测能力。但土壤理化性质之间甚至与土壤As含量往往具有较强相关性，违背该假设。该技术方案使用“有效态”含量来表征土壤理化性质对作物吸收富集的影响，但有效态含量与全量间同样存在较强的相关性，反而会伤害预测能力。

发明内容

(一)发明目的

本发明的目的是提供一种植物中砷过量的概率值的预测方法及系统，利用构建的逻辑斯谛回归方程，预测植物中砷含量是否过量。本发明实施例提供的方法拟筛选适用的概率预测理论，建立新的概率预测方法，该方法应对训练数据的数值分布无要求或要求较低，且能更为简便地引入更多土壤理化性质变量以提高预测能力。

(二)技术方案

为解决上述问题，本发明的第一方面提供了一种植物中砷过量的概率值的预测方法，包括采集植物的砷含量和与所述植物对应土壤的数据；所述土壤的数据为影响植物中砷含量的特征变量，所述特征变量至少包括土壤的砷含量和pH值；对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程；将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到所述待测土壤生长出的植物中砷含量过量的概率值。

进一步地，对采集到的所述土壤的数据分析，得到所述逻辑斯谛回归方程包括：设定待测植物中砷含量的阈值；将采集的所述土壤的数据分成两组，第一组作为训练数据，用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，所述测试数据用于对初始的所述逻辑斯谛回归方程的测试；分别将所述测试数据中每个所述土壤的数据输入到初始的所述逻辑斯谛回归方程中分别得到每个土壤生长出的植物中砷含量过量的概率值；基于全部土壤生长出的植物中砷含量过量的概率值，得到所述测试数据的预测概率值；基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程。

进一步地，基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程包括：将所述测试数据标记为两类，超过所述阈值的所述植物对应的土壤标记为第一类，低于所述阈值的所述植物对应的土壤标记为第二类，获取所述测试数据中植物超过阈值的实际概率值，所述实际概率值为所述测试数据标记为第一类的植物的个数和与所述测试数据个数和的比值；将所述预测概率值与所述实际概率值比对，若比对的误差低于预设值，则确定初始的所述逻辑斯谛回归方程为分析后得到的所述逻辑斯谛回归方程。

进一步地，还包括：若比对的误差高于预设值，补充采集植物的砷含量和与所述植物对应土壤的数据；再次对原始采集的数据和补充采集到的所述土壤的数据分析，再次得到逻辑斯谛回归方程。

进一步地，特征变量包括土壤的砷含量和pH值，构建初始的逻辑斯谛回归方程包括：分别确定与所述特征变量对应的逻辑斯谛回归方程的系数，具体步骤包括：确定不同土壤的砷含量对应的逻辑斯谛回归方程的系数；确定不同土壤的pH值对应的逻辑斯谛回归方程的系数；确定所述逻辑斯谛回归方程的截距。

进一步地，逻辑斯谛回归方程为：

其中，P(y>i|X)为植物中砷过量的概率值，a_j为第j个所述特征变量对应的逻辑斯谛回归方程的系数，b为所述逻辑斯谛回归方程的截距，m为特征变量总数；x_j为待测土壤的第j个特征变量，i为设置的砷含量超标的阈值。

进一步地，当采集到的植物为水稻，当所述特征变量只包括土壤的砷含量和pH值时，且当所述设定的阈值为0.1mg/kg～0.37mg/kg，则所述不同土壤的砷含量对应的逻辑斯谛回归方程的系数为0.02～0.06；不同土壤的pH值对应的逻辑斯谛回归方程的系数为：-0.01～0.83；所述逻辑斯谛回归方程的截距为-5.43～-1.35。

根据本发明的第二方面，还提供了一种植物中砷过量的概率值的预测系统，包括：数据获取模块，获取植物的砷含量和与所述植物对应的土壤的数据，所述土壤的数据为影响植物中砷含量的特征变量；逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程；概率值预测模块，将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到所述待测土壤生长出的植物中砷含量过量的概率值。

进一步地，逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程构建模块步骤包括：确定待测植物中砷含量的阈值；将采集的所述土壤的数据分成两组，第一组用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，所述测试数据用于对初始的所述逻辑斯谛回归方程的测试；分别将所述测试数据中每个所述土壤的数据输入到初始的所述逻辑斯谛回归方程中分别得到每个土壤生长出的植物中砷含量过量的概率值；基于全部土壤生长出的植物中砷含量过量的概率值，得到所述测试数据的预测概率值；基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程。

进一步地，逻辑斯谛回归方程构建模块基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程包括：将所述测试数据标记为两类，超过所述阈值的所述植物对应的土壤标记为第一类，低于所述阈值的所述植物对应的土壤标记为第二类；获取所述测试数据中植物超过阈值的实际概率值，所述实际概率值为所述测试数据标记为第一类的植物的个数和与所述测试数据个数和的比值；将所述预测概率值与所述实际概率值比对，若比对的误差低于预设值，则确定初始的所述逻辑斯谛回归方程为分析后得到的所述逻辑斯谛回归方程。

进一步地，若比对的误差高于预设值，补充采集植物的砷含量和与所述植物对应土壤的数据；再次对原始采集的数据和补充采集到的所述土壤的数据分析，再次得到逻辑斯谛回归方程。

进一步地，逻辑斯谛回归方程构建模块构建的所述逻辑斯谛回归方程为：

其中，P(y>i|X)为植物中砷过量的概率值，a_j为第j个所述特征变量对应的逻辑斯谛回归方程的系数，b为所述逻辑斯谛回归方程的截距，m为特征变量总数；x_j为待测土壤的第j个特征变量，i为设置的植物中砷含量超标的阈值。

根据本发明的第三方面，还提供了一种存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现第一方面的植物中砷过量的概率值的预测方法的步骤。

根据本发明的第四方面，还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面的植物中砷过量的概率值的预测方法的步骤。

(三)有益效果

本发明的上述技术方案具有如下有益的技术效果：

本发明一种植物中砷过量的概率值的预测方法、系统、存储介质及电子设备，该方法利用逻辑斯蒂回归算法对植物中的砷含量超过设定的阈值的概率进行预测，本发明实施例提供的方法对样本各变量数值分布无要求，对各变量间相互关系无要求。因此相较于现有技术方案，本发明适用范围更广，且可通过引入更多土壤理化性质等变量进一步提高预测能力。

附图说明

图1是本发明第一实施方式的植物中砷过量的概率值的预测方法流程示意图；

图2是本发明第二实施方式的植物中砷过量的概率值的预测系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知技术的描述，以避免不必要地混淆本发明的概念。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1是本发明第一实施方式的植物中砷过量的概率值的预测方法流程示意图。

如图1所示，该预测方法包括：

步骤S101，采集植物的砷含量和与所述植物对应土壤的数据。土壤的数据为影响植物中砷含量的特征变量。

优选的，特征变量包括土壤的砷含量和pH值，这两个特征变量为对植物中的砷含量影响最高的特征变量。可选的，特征变量还包括但是不限于土壤 CEC、粘粒含量、有机质含量等等。

步骤S102，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程。

在一个具体的实施例中，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程的步骤包括步骤S1021～步骤S1024。

步骤S1021，先设定待测植物中砷含量的阈值。阈值例如是国家规定的标准值或者是用户自行设定的其他值。

步骤S1022，将采集的所述土壤的数据分成两组，第一组作为训练数据，用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，测试数据用于对初始的所述逻辑斯谛回归方程的测试。

可选的，测试数据中包括植物实际的砷含量超过预设阈值的，也包括未超过预设阈值的。这两类中任意一类的占比不小于总体的5％，以避免测试的结果不准确，造成过度失衡。

步骤S1022，分别将所述测试数据中每个所述土壤的数据输入到初始的所述逻辑斯谛回归方程中分别得到每个土壤生长出的植物中砷含量过量的概率值。

步骤S1023，基于全部土壤生长出的植物中砷含量过量的概率值，得到所述测试数据的预测概率值。

预测概率值为全部土壤生长出的植物中砷含量过量的概率值的平均值，即全部土壤生长出的植物中砷含量过量的概率值与测试数据的总量的商。

步骤S1024，基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程。

在一个具体的实施例中，上述确定分析得到的逻辑斯谛回归方程的步骤包括：

将测试数据标记为两类，超过所述阈值的所述植物对应的土壤标记为第一类，低于所述阈值的所述植物对应的土壤标记为第二类。

获取测试数据中植物超过阈值的实际概率值，实际概率值为所述测试数据标记为第一类的植物的个数和与所述测试数据总量的比值。

将预测概率值与实际概率值比对，若比对的误差低于预设值，则确定初始的所述逻辑斯谛回归方程为分析后得到的所述逻辑斯谛回归方程。

在一个具体的实施例中，若比对的误差高于预设值，说明第一组数据的量太少，不能涵盖当地土壤的基本特征，需要加大采样量。则补充采集植物的砷含量和与所述植物对应土壤的数据；再次对原始采集到的土壤的数据和补充采集到的数据分析，将原始采集到的土壤的数据和补充采集到的土壤的数据合并，合并后将数据分成两组，再次建立逻辑斯谛回归方程，再次采用测试数据对逻辑斯谛回归方程测试，直到测试数据的预测概率值与实际概率值比对的误差低于预设值，否则，继续重新采样，重新执行上述步骤，直到得到误差低于预设值的逻辑斯谛回归方程。

在一个实施例中，当采集到的植物为水稻，即待检测的植物为水稻，特征变量为2个，具体为土壤的砷含量和pH值，构建初始的逻辑斯谛回归方程包括分别确定与所述特征变量对应的逻辑斯谛回归方程的系数。

具体步骤包括：确定不同土壤的砷含量对应的逻辑斯谛回归方程的系数。

具体地，不同土壤的砷含量对应的逻辑斯谛回归方程的系数为 0.02～0.06。

确定不同土壤的pH值对应的逻辑斯谛回归方程的系数。

具体地，不同土壤的pH值对应的逻辑斯谛回归方程的系数为： -0.01～0.83。

确定所述逻辑斯谛回归方程的截距。

具体地，逻辑斯谛回归方程的截距为-5.43～-1.35。

进一步具体的，可根据分好类的样本的基本信息(包括土壤含量、土壤 pH和是否超过阈值)，使用极大似然法最大化模型的对数似然，得到方程中不同土壤的砷含量对应的逻辑斯谛回归方程的系数a₁、不同土壤的pH值对应的逻辑斯谛回归方程的a₂以及逻辑斯谛回归方程的截距b的取值。梯度下降法或牛顿法等经典的数值优化算法都可求得极大似然法中最大化对数似然的最优解。其中，“极大似然法”、“梯度下降法”和“牛顿法”，这个属于逻辑回归方程求解的基础操作，本领域的技术人员可以通过人工计算，也可以通过程序例如matlab、R语言等计算，此处不在赘述。

在一个具体的实施例中，逻辑斯蒂回归也称为对数几率回归，它使用一个连接函数将线性回归模型产生的预测值映射到真实标记y∈(0,1)的范围内，从而将线性回归结果转化为概率输出。

在本实施例中，P(y＞i│x)为土壤条件(包括土壤含量、pH)为x时的水稻籽粒As含量y超出阈值i的可能性，P(y≤i│x)则是未超出阈值的可能性，二者的比值称为几率，即土壤条件为x时植物As含量y超出阈值i的相对可能性。则构建逻辑斯谛回归的过程包括：先建立对数几率方程：

即，

对上述对数几率方程整理，即：消去等号左边对数，得到

两边同时取倒数，得到

两边同时乘p，得到

继续变换，得到

然后，得到

进而得到逻辑斯谛回归方程，

上述公式中，a表示某特征变量对应的系数，x表示该特征变量。

当引入多个特征变量后，得到完整的逻辑斯蒂回归公式如下：

其中，P(y>i|X)为植物中砷过量的概率值，a_j为第j个所述特征变量对应的逻辑斯谛回归方程的系数，b为所述逻辑斯谛回归方程的截距，m为特征变量总数；x_j为待测土壤的第j个特征变量,i表示的是设定的植物中砷含量超标的阈值。

若特征变量为土壤的砷含量和pH值，则

式中a1为土壤中砷含量的系数，x1为土壤中砷含量，b为截距，a2为pH值的系数、x2为pH值。

在一个具体的实施例中，特征变量为2个，具体为土壤的砷含量和pH 值，构建初始的逻辑斯谛回归方程包括分别确定与所述特征变量对应的逻辑斯谛回归方程的系数。具体步骤包括：

第一步，确定不同土壤的砷含量对应的逻辑斯谛回归方程的系数。

第二步，确定不同土壤的pH值对应的逻辑斯谛回归方程的系数。

第三步，确定所述逻辑斯谛回归方程的截距。

具体地，逻辑斯谛回归方程的截距为-5.43～-1.35。

进一步具体的，可根据分好类的样本的基本信息(包括土壤含量、土壤 pH和是否超过阈值)，使用极大似然法最大化模型的对数似然，估计方程中不同土壤的砷含量对应的逻辑斯谛回归方程的系数a₁、不同土壤的pH值对应的逻辑斯谛回归方程的a₂以及逻辑斯谛回归方程的截距b的取值。梯度下降法或牛顿法等经典的数值优化算法都可求得极大似然法中最大化对数似然的最优解。其中，“极大似然法”、“梯度下降法”和“牛顿法”，这个属于逻辑回归方程求解的基础操作，本领域的技术人员可以通过人工计算，也可以通过程序例如matlab、R语言等计算，此处不在赘述。

在一个实施例中，特征变量包括土壤的砷含量和pH值，还包括土壤CEC、则，上述逻辑斯谛回归方程中，

式中a1为土壤中砷含量的系数，x1为土壤中砷含量，b为截距，a2为 pH值的系数，x2为pH值，a3为土壤CEC的系数，x3为土壤CEC。

当然，本领域的技术人员可以得知，当特征变量还包括粘粒含量和/或有机质含量时，可以根据上述实施例所示的步骤调整逻辑斯谛回归方程。

应当理解的是，在本身的上述实施方式中，只是列出了与植物的砷含量相关度较高的特征变量，没有列举其他的有相关的特征变量，对于本领域的普通技术人员来说，在上述说明的基础上还可以结合其他的特征参数，预测植物中砷含量过量的概率值，这里无需也无法对所有的特征变量予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

步骤S103,将待测土壤的数据输入到上述逻辑斯谛回归方程中，得到待测土壤生长出的植物中砷含量过量的概率值。

本发明上述实施方式提供的预测方法，通过对土壤的数据分析，进而预测出土壤中生长出的植物中砷含量过量的概率值，本发明通过概率形式表征作物As含量超出一定阈值的可能性，既能够表征自身的不确定度，又能直截了当以标准限量值为基准给出预测概率，为用户提供较为可靠的参考，优于基于线性回归的含量预测，相比于通过贝叶斯模型的方法对于植物砷含量过量的预测概率，本发明的方法，对训练数据的数值分布无要求或要求较低，且能更为简便地引入更多土壤理化性质变量以提高预测能力，适用范围更广。另外，本申请提供的预测方法和系统，在预测污染土壤种植农作物是否安全时，不需要预测农作物会吸收多少毫克/千克的污染物，只需要预测农作物吸收污染物的量是否超出设定的阈值(例如是国家标准)即可，能更客观的反映作物被污染的程度。

下面将结合具体的数据详细说明本申请的概率值预测方法。

实施例1

用户需要评估其关注区域内水稻受土壤砷污染的影响时，可先建立概率预测模型，预测当地土壤种植出的稻谷中砷含量超出某一阈值的概率。确定某一个阈值，该阈值可以是国标限量值，也可以是使用人所关心的其他限量值。

具体的，首先，用户应在当地采集成对的水稻-土壤样品，并选取特征变量。当选取特征变量为土壤砷含量和土壤pH 2个变量时，样本数量最少应有 20对超标样本和20对未超标样本(例如，成对样本中的水稻籽粒含量是否超标)，最好能达到各100对，分析其水稻、土壤中重金属含量和土壤理化性质，并按照水稻中重金属含量是否超出限量值分两类标记，一类是超标，另一类是不超标，做好数据的准备工作。可选的，超标的可以用数字“1”表示，不超标的可以用数字“0”表示。

例如，在某地区采集一批样品共287对土壤和水稻籽粒，土壤As含量浓度范围4.29–116.5mg/kg，平均含量15.62±11.62mg/kg，水稻籽粒As 含量浓度范围0.08–0.39mg/kg，平均含量0.20±0.07mg/kg，土壤pH范围为4.46–7.90，平均5.79。按照绿色食品标准，希望水稻中As含量能够低于0.2mg/kg，即设定的阈值为0.2mg/kg。

因此将水稻籽粒As含量低于0.2mg/kg的成对样品标记为“0”，反之标记为“1”。其中，标记的“0”的成对样品149对，土壤As含量范围4.29– 36.94mg/kg，平均含量13.73±5.29mg/kg，水稻As含量范围0.08–0.20 mg/kg，平均含量0.15±0.03mg/kg，土壤pH 4.46–7.89，平均5.74；标记为“1”的成对样品138对，土壤As含量范围4.46–116.50mg/kg，平均含量17.66±15.61mg/kg，水稻As含量范围0.21–0.39mg/kg，平均含量 0.26±0.05mg/kg，土壤pH 4.59–7.90，平均5.85。

根据以上样品建立方程：

该方程的最大化似然对数为：

(第i个样本的标记|第i个样本的土壤As含量和pH；a1，a2，b)

进一步可等价变换为：

求a1，a2和b最优解的过程即为求得最小l(a1；a2；b)的过程。该函数是一个关于(a1；a2；b)的高阶可导的连续凸函数，求解过程可使用梯度下降法、牛顿法等求解。为减小工作量，可借助数学工具完成以上求解过程，不再手工计算，以R语言程序为例，使用glm()函数即可求得最优解，a1＝0.04，a2＝0.11，b＝-1.35(均取两位小数)。则此时逻辑斯谛回归方程为：

然后，若用户希望建模中同时进行验证和模型优化，则需要构建训练样本和验证样本，一般采用交叉验证的方法。具体地，按照7:3的比例随机将这287对数据分为201对训练数据和86对验证数据，以这201对数据带入公式求取参数，建立模型，并使用86对验证数据验证模型的预测能力。为避免随机分割带来的误差，以上过程重复进行10000次。用户可根据自身需求调整训练数据与验证数据的比例及重复次数。

经过10000次随机切分原始数据，进行模型训练和验证，在验证数据 10000次重复的平均概率是48.1％±2.1％，与验证数据10000次重复中47.9％±4.8％的真实频率相比，可以认为误差可以接受。此时可将全部数据(287 对)作为训练数据，得到所需模型及参数。

若用户对验证结果不满意，则应进一步加大采样量，尽量保证两类别的样本数大致相近，且能涵盖区域内基本的土壤条件范围。然后根据重新采集到的数据得到模型及参数。

最后，将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到待测土壤生长出的植物中砷含量过量的概率值。

实施例2

本实施例2通过在湖南省采集成对土壤-水稻样品，探索合适变量及其参数，最终建立的模型中包括土壤As含量(全量)、土壤pH 2个变量。可计算水稻籽粒As含量超出或小于0.10-0.37mg/kg(精确到小数点后2位)内任一含量的概率。

具体的逻辑斯谛回归方程的特征变量的系数及相关的参数可参加下表 1，在下表1中为便于计算也将每个系数都保留小数点后两位。

表1水稻籽粒As超阈值概率预测模型不同阈值下各项系数

续表(1)水稻籽粒As超阈值概率预测模型不同阈值下各项系数

续表(1)水稻籽粒As超阈值概率预测模型不同阈值下各项系数

在本实施例中，通过发明人的研究，已经给出了阈值在0.1～0.37间下的逻辑斯谛回归方程中各参数。

可以根据上表和逻辑斯谛回归方程直接计算。

具体地，用户的待预测样品土壤砷含量为28mg/kg，土壤pH为6.0，且当地正在建设绿色食品认证，因此希望稻谷中砷含量小于0.2mg/kg。可见，该用户的待预测样品的土壤条件和设定的阈值都在上表范围内，可以根据上表确定逻辑斯谛回归方程的各个参数，进而自行计算该样本的砷超标的概率。

进一步具体地，根据上表1可以查出，当选定阈值为0.2mg/kg时，土壤砷含量系数a₁＝0.04，土壤pH系数a₂＝0.11，截距项b＝-1.35，因此可计算出此时水稻砷超标概率P为：

说明，该区域的水稻中砷含量超过0.2mg/kg的概率为60.69％，超标的概率较高。

当然，用户也可以根据上述实施例1的方法先确定逻辑斯谛回归方程的各个参数，然后自行计算超标的概率。

可以理解的是，本实施例以预测水稻中砷含量是否超标为例，但并不以此为限，例如，使用本发明的方法还可以用于预测玉米、蔬菜等植物的砷含量是否超标。

本发明实施例提供的植物中砷过量的概率值的预测方法，相比较于常用的线性回归方法预测植物中砷含量的方法，直接输出As含量超出某一阈值的概率，更适用于日常农田管理和粮食安全监管的需要，实用性更强。例如以国标限量值为阈值时，仅关心水稻籽粒As含量是否超出0.5mg/kg即可，无需预测水稻籽粒As实际砷含量，及水稻籽粒As实际砷含量的准确性，因为水稻籽粒As的含量究竟是0.7或0.8mg/kg的实际意义不大。

并且，植物中对砷含量的预测中不可预见因素较多，使用概率可表征预测中的不确定性。实际工作中往往发现尽管存在一定规律(即土壤与籽粒中 As含量正相关)，但存在较多的特殊情况，例如种植在As含量较高的土壤中的植物的砷含量达标，而在认为较为“安全”的土壤中植物的砷含量反而超标。以概率表征时，预测70％超标率意味着当地100份水稻样品中依然存在 30份合格样品，但相较于40％预测超标率的土壤更值得关注，因此本申请的预测方法更加科学且实用性更广泛。

如图2所示，该系统包括：数据获取模块、逻辑斯谛回归方程构建模块和概率值预测模块。其中，

数据获取模块，获取植物的砷含量和与所述植物对应的土壤的数据，所述土壤的数据为影响植物中砷含量的特征变量。

逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程。

在一个实施例中，逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程构建模块步骤包括：

获取待测植物中砷含量的阈值，在本步骤中，获取的阈值可以是用户实时输入的或者用户预先输入的。将采集的所述土壤的数据分成两组，第一组用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，所述测试数据用于对初始的所述逻辑斯谛回归方程的测试。

分别将所述测试数据中每个所述土壤的数据输入到初始的所述逻辑斯谛回归方程中分别得到每个土壤生长出的植物中砷含量过量的概率值。

基于全部土壤生长出的植物中砷含量过量的概率值，得到所述测试数据的预测概率值。

基于所述预测概率值确定分析得到的所述逻辑斯谛回归方程。

进一步具体地，逻辑斯谛回归方程构建模块基于预测概率值确定分析得到的所述逻辑斯谛回归方程包括：

将所述测试数据标记为两类，超过所述阈值的所述植物对应的土壤标记为第一类，低于所述阈值的所述植物对应的土壤标记为第二类。获取所述测试数据中植物超过阈值的实际概率值，所述实际概率值为所述测试数据标记为第一类的植物的个数和与所述测试数据个数和的比值。

将所述预测概率值与所述实际概率值比对，若比对的误差低于预设值，则确定初始的所述逻辑斯谛回归方程为分析后得到的所述逻辑斯谛回归方程。

若比对的误差高于预设值，补充采集植物的砷含量和与所述植物对应土壤的数据；再次对原始采集到的土壤的数据和补充采集到的土壤的数据分析，再次得到逻辑斯谛回归方程。

逻辑斯谛回归方程构建模块构建的所述逻辑斯谛回归方程为：

其中，P(y>i|X)为植物中砷过量的概率值，a_j为第j个所述特征变量对应的逻辑斯谛回归方程的系数，b为所述逻辑斯谛回归方程的截距，m为特征变量总数；x_j为待测土壤的第j个特征变量。

在一个实施例中，若特征变量为2个，即为土壤的砷含量和pH值，则

在一个实施例中，特征变量包括土壤的砷含量和pH值，还包括土壤CEC，则上述逻辑斯谛回归方程中，

a1为土壤中砷含量的系数，x1为土壤中砷含量，b为截距，a2为pH值的系数，x2为pH值，a3为土壤CEC的系数，x3为土壤CEC。

在一个实施例中，逻辑斯谛回归方程构建模块包括系数获取单元，用于分别获取与特征变量对应的逻辑斯谛回归方程的系数。

可以理解的是，若预先已经设定好了系数，可以将确定好的阈值和相应的系数以查找表(例如上述给出的表1)的方式存储至系统的系数确认单元中，当构建好逻辑斯谛回归方程后，可以直接在查找表中查找，减小数据处理量，当然还可以通过本申请上述的方法设定程序来计算得到相应的系数，此处不在赘述。

当特征变量为土壤的砷含量和pH值时，阈值为0.1mg/kg～0.37mg/kg 时，则系数确认单元确认系数的具体步骤包括：确定不同土壤的砷含量对应的逻辑斯谛回归方程的系数，确定不同土壤的pH值对应的逻辑斯谛回归方程的系数，确定所述逻辑斯谛回归方程的截距。

在一个具体的实施例中，不同土壤的砷含量对应的逻辑斯谛回归方程的系数为0.02～0.06。不同土壤的pH值对应的逻辑斯谛回归方程的系数为： -0.01～0.83。逻辑斯谛回归方程的截距为-5.43～-1.35。

需要说明的是，系数确定单元，可根据分好类的样本的基本信息(包括土壤含量、土壤pH和是否超过阈值)，使用极大似然法最大化模型的对数似然，估计方程中不同土壤的砷含量对应的逻辑斯谛回归方程的系数a₁、不同土壤的pH值对应的逻辑斯谛回归方程的a₂以及逻辑斯谛回归方程的截距b 的取值。梯度下降法或牛顿法等经典的数值优化算法都可求得极大似然法中最大化对数似然的最优解。其中，“极大似然法”、“梯度下降法”和“牛顿法”，这个属于逻辑回归方程求解的基础操作，本领域的技术人员可以通过人工计算，也可以通过程序例如matlab、R语言等计算，此处不在赘述。

概率值预测模块，将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到所述待测土壤生长出的植物中砷含量过量的概率值。

本发明上述实施方式提供的预测系统，通过对土壤的数据分析，进而预测出土壤中生长出的植物中砷含量过量的概率值，本发明通过概率形式表征作物As含量超出一定阈值的可能性，既能够表征自身的不确定度，又能直截了当以标准限量值为基准给出预测概率，为用户提供较为可靠的参考，优于基于线性回归的含量预测，相比于通过贝叶斯模型的方法对于植物砷含量过量的预测概率，本发明的方法，对训练数据的数值分布无要求或要求较低，且能更为简便地引入更多土壤理化性质变量以提高预测能力，适用范围更广。

本发明的一个实施方式还提供了一种存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现第一实施方式提供的植物中砷过量的概率值的预测方法的步骤。

本发明的一个实施方式中，还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现第一实施方式提供的植物中砷过量的概率值的预测方法的步骤。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种植物中砷过量的概率值的预测方法，其特征在于，包括：

采集植物的砷含量和与所述植物对应土壤的数据；所述土壤的数据为影响植物中砷含量的特征变量，所述特征变量至少包括土壤的砷含量和pH值；

对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程；

将待测土壤的数据输入到所述逻辑斯谛回归方程中，得到所述待测土壤生长出的植物中砷含量过量的概率值。

2.根据权利要求1所述的方法，其特征在于，对采集到的所述土壤的数据分析，得到所述逻辑斯谛回归方程包括：

设定待测植物中砷含量的阈值；

将采集的所述土壤的数据分成两组，第一组作为训练数据，用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，所述测试数据用于对初始的所述逻辑斯谛回归方程的测试；

分别将所述测试数据中每个所述土壤的数据输入到初始的所述逻辑斯谛回归方程中分别得到在所述土壤中生长出的植物中砷含量过量的概率值；

基于全部的所述土壤中生长出的植物中砷含量过量的所述概率值，得到所述测试数据的预测概率值；

基于所述预测概率值得到所述逻辑斯谛回归方程。

3.根据权利要求2所述的方法，其特征在于，基于所述预测概率值得到所述逻辑斯谛回归方程包括：

将所述测试数据标记为两类，超过所述阈值的所述植物对应的土壤标记为第一类，低于所述阈值的所述植物对应的土壤标记为第二类；

获取所述测试数据中植物超过阈值的实际概率值，所述实际概率值为所述测试数据标记为第一类的植物的个数和与所述测试数据个数和的比值；

将所述预测概率值与所述实际概率值比对，若比对的误差低于预设值，则确定初始的所述逻辑斯谛回归方程为分析后得到的所述逻辑斯谛回归方程；和/或

若比对的误差高于预设值，补充采集植物的砷含量和与所述植物对应土壤的数据；

再次对原始采集到的土壤的数据和补充采集到的所述土壤的数据分析，再次得到逻辑斯谛回归方程。

4.根据权利要求2或3所述的方法，其特征在于，

所述逻辑斯谛回归方程为：

其中，P(y>i|X)为植物中砷过量的概率值，a_j为第j个所述特征变量对应的逻辑斯谛回归方程的系数，b为所述逻辑斯谛回归方程的截距，m为特征变量总数；x_j为待测土壤的第j个特征变量，i为设定的砷含量过量的阈值。

5.根据权利要求4所述的方法，其特征在于，当所述采集的植物为水稻，当所述特征变量只包括土壤的砷含量和pH值时，且当所述设定的阈值i为0.1mg/kg～0.37mg/kg，则所述不同土壤的砷含量对应的逻辑斯谛回归方程的系数为0.02～0.06；

不同土壤的pH值对应的逻辑斯谛回归方程的系数为：-0.01～0.83；

所述逻辑斯谛回归方程的截距为-5.43～-1.35。

6.一种植物中砷过量的概率值的预测系统，其特征在于；包括：

数据获取模块，获取植物的砷含量和与所述植物对应的土壤的数据，所述土壤的数据为影响植物中砷含量的特征变量；

逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程；

7.根据权利要求6所述的系统，其特征在于，逻辑斯谛回归方程构建模块，对采集到的所述土壤的数据分析，得到逻辑斯谛回归方程构建模块步骤包括：

获取设定的待测植物中砷含量的阈值；

将采集的所述土壤的数据分成两组，第一组用于构建初始的逻辑斯谛回归方程；另一组作为测试数据，所述测试数据用于对初始的所述逻辑斯谛回归方程的测试；

基于全部所述土壤中生长出的植物中砷含量过量的所述概率值，得到所述测试数据的预测概率值；

8.根据权利要求6或7所述的系统，其特征在于，所述逻辑斯谛回归方程构建模块构建的所述逻辑斯谛回归方程为：

其中，P(y>i|X)为植物中砷过量的概率值，a_j为第j个所述特征变量对应的逻辑斯谛回归方程的系数，b为所述逻辑斯谛回归方程的截距，m为特征变量总数；x_j为待测土壤的第j个特征变量,i为设置的砷含量过量的阈值。

9.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1-5中任意一项植物中砷过量的概率值的预测方法的步骤。

10.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-5中任意一项植物中砷过量的概率值的预测方法的步骤。