CN105069212A - 一种基于类神经网络的压载水微生物数量预测方法 - Google Patents

一种基于类神经网络的压载水微生物数量预测方法 Download PDF

Info

Publication number
CN105069212A
CN105069212A CN201510458396.9A CN201510458396A CN105069212A CN 105069212 A CN105069212 A CN 105069212A CN 201510458396 A CN201510458396 A CN 201510458396A CN 105069212 A CN105069212 A CN 105069212A
Authority
CN
China
Prior art keywords
data
neural network
value
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510458396.9A
Other languages
English (en)
Other versions
CN105069212B (zh
Inventor
乔红宇
王琪
贾君瑞
季禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Shipping College
Original Assignee
Nantong Shipping College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong Shipping College filed Critical Nantong Shipping College
Priority to CN201510458396.9A priority Critical patent/CN105069212B/zh
Publication of CN105069212A publication Critical patent/CN105069212A/zh
Application granted granted Critical
Publication of CN105069212B publication Critical patent/CN105069212B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于类神经网络的压载水微生物数量预测方法,包括如下步骤:取样及数据记录、资料尺度化处理、建立类神经网络架构、拟定倒传递网络训练及预测的各项参数设定、得到基于类神经网络的压载水微生物数量的预测实验结果。本发明为建立快速的预测模式,利用多种水质检验仪器于短时间内检测水质,主要有温度、ph值、导电度、浊度、溶氧量、含盐量、总固体溶解量共7项,将这些水质性质作为类神经网络的输入因子,肠杆菌及大肠球菌数量为目标值,经实验结果与分析后,模拟的结果可以证明使用这种方法确实是有效的。

Description

一种基于类神经网络的压载水微生物数量预测方法
技术领域
本发明属于对压载水所携带的微生物数量检测方法领域,具体涉及一种基于类神经网络的压载水微生物数量预测方法。
背景技术
随着全球航运的发展,由船舶压载水传播外来种生物侵袭、引发重大经济损失与生态污染逐渐受到国际间的日益重视。但是针对压载水所携带的微生物数量检测方法的研究迄今还没有取得明显的进展。根据BWM公约内的压载水性能标准规定,指标性微生物共有三种,分别为大肠杆菌、肠球菌以及霍乱弧菌,这三种都是会影响人体健康的致病菌种,不仅是在压载水,在一般饮用水以及生活用水也都是水质检验的指标性菌种,以下将简单介绍这几种菌种的特色:
大肠杆菌(简称E.coli),大肠杆菌是粪便性大肠杆菌的一种,生活在温血动物(包括鸟类和哺乳动物)大肠中的重要细菌种类,对食物正常消化具有重要作用。水体中发现显示该水体近期内曾遭受下水或动物排泄物的污染(U.S.EPA,2007)。大肠杆菌是肠杆菌科的一员,经常作为细菌的模式生物广泛用于科学研究,与粪便性大肠杆菌群相同,其来源亦来自动物体排泄物的释放,再经过降雨、融雪或其他沉降管道冲洗至水体,该水体将不适合作为饮用水水源,大肠杆菌也将在饮用水阶段停止流佈(U.S.EPA,2007)。在水净化和污水处理领域,大肠杆菌很早就被选作水污染程度的指示性物种,标誌着有多少人类粪便存在于水中,其测量标准为大肠菌群指数。利用大肠杆菌作为标准的主要理由在于人粪便中大肠菌群的数目远高于致病菌(如可引起伤寒的伤寒杆菌,学名SalmonellaTyphi)。
肠球菌是一种移生在肠道的革兰氏阳性球菌,故名肠球菌。目前肠球菌属有18个种(Species),为共生型细菌,致病力有限。和其他细菌不同,肠球菌并不会製造毒素或水解酵素,所以容易被吞噬细胞所杀死。但是肠球菌的其他毒性因子,如凝集素(AggregationSubstance)、碳水化物黏附素(CarbohydrateAdhesins)以及细胞溶解素(Cytolysin)的作用,也使肠球菌得以产生严重的疾病。肠球菌平时就移生在人体的肠道中,容易在年老及虚弱、表皮黏膜破损、以及因为使用抗生素而正常菌落平衡改变的病患身上产生感染。
肠球菌引起的泌尿道感染相当常见,特别是在接受抗生素治疗或是尿道手术的病患。10%到20%的细菌性心内膜炎,是由肠球菌引起的。肠球菌也常由胆汁中培养出来,常引起胆道手术后的感染及肝脓疡。另外肠球菌也会和其他细菌引起混合性感染,如腹内脓疡、腹部手术伤口感染以及糖尿病足溃疡。
霍乱弧菌是源自水中的革兰氏阴性病原菌,可存在于淡水和海水中。在卫生条件不良的未开发国家,饮用水的污染,或生食受污染的水产品就成为此菌造成中毒事件的原因。在卫生条件较好的国家,有时仍零星数件因此菌而造成的食品中毒案例。霍乱是一种猝然发作的急性肠病,由于患者大量丧失水分,需补充足够的水分和电解质,否则患者可因电解质失调及水分丧失,导致循环系统等障碍,甚至死亡。未治疗的严重患者可在几小时内死亡,致死率30-50%,但如加以适当治疗,则可降至1%以下。非洲是霍乱弧菌病例数最多的地区,世界卫生组织(WHO)于1993年的统计资料指出:非洲霍乱病例致死率(FatalityRatio)为3.1%,美洲为1.2%,亚洲是2.0%,而全球则是1.8%。
而类神经网络是近年来广为采用的处理技术,尤其是运用在预测方面效果卓越。类神经网络是一种模仿生物神经系统所发展出来的信息处理计算系统,包括软件与硬体,它使用大量简单的相连人工神经元来模仿生物神经网络的能力。人工神经元是生物神经元的简单模拟,它从外界环境或者其它人工神经元取得信息,并加以简单运算,输出其结果到外界环境或者其它人工神经元。
类神经网络是由许多平行运算的神经元所组成,一个网络能够有许多层。每层间的神经元都会互相连结,藉由调整神经元连结的强度(即权重值)以及转换函数(TransferFunction)可以训练网络达到所需的特性。如图1所示,为基本类神经网络架构,主要分为输入层(InputLayer)、隐藏层(HiddenLayer)以及输出层(OutputLayer)三种层次。
功能分别为:
(1)输入层:接受外界资料讯号的输入,神经元数量的多寡即为输入变数的个数。
(2)隐藏层:用以表现输入神经元间的交互影响,其数目并无标准方法可以决定,经常需以试验方式决定其最佳数目,使用非线性转换函数,网络可以不只一层隐藏层,也可以没有隐藏层。
(3)输出层:输出网络的处理结果,而输出层的神经元各数为问题欲解决的结果各数。
类神经网络的概念是以生物神经网络为蓝图建构出来,在逻辑上的组成与构造皆十分类似于生物神经网络,拥有与生物大脑相同功能的特性,例如人脑的容错、学习及处理模糊性问题等的优点。而类神经网络用来处理于善变的环境及输入不明确的讯号的主要特性有:
(1)学习能力(Learning)。类神经网络的学习过程可由修正连结神经元间的权重值及调整连结神经元活化函数的门槛值来决定。
(2)容错性(FaultTolerance)。类神经的所有神经元在运算处理中会以分散平行的方式解决问题,所以当资料混杂些许杂讯,或是有部分神经元失效,并不会影响网络运作的正确性。
(3)回想(Recall)。当类神经接受到一个输入项目进而依据架构产生一个输出值时,此一现象称为回想过程,依据不同架构的类神经网络则会有不同的表现方式。
(4)归纳能力(Generalization)。类神经网络对输入资料具有萃取其特徵的能力,经训练过后的类神经网络,可以对曾经训练过但有些微差异的输入信号做出正确的输出。这种类似内插的功能并非使用数学函数来运算的,而是由类神经网络的架构自动产生这样的特性。
(5)平行处理。类神经网络为仿造生物神经所设计,经由许多神经元做运算具平行处理特性。
类神经网络根据需求性或目标值的不同,学习策略也有所不同。主要可分为:
(1)监督式网络(SupervisedNetwork)。监督式学习网络可以从不断的修正网络中神经元间的权重值,以符合目标值的期待。每一次训练中都会给与输入值及目标值,而每次训练都会为了符合目标值不断的修正权重值,直到误差值于允许范围内,为最常用的网络学习方式。
(2)非监督式网络(UnsupervisedNetwork)。非监督式的学习网络与监督式不同的地方为此种训练方式不需给予目标值,而是由网络依其输入资料的特性进行学习并分类,被应用于处理输出值特性不明显的资料时。
(3)联想式网络(AssociativeNetwork)。将资料或图样权值存在网络内,当输入值含有杂讯或是不完整信息时,它就会在资料库内进行搜寻,找寻相似度最高输出结果。
(4)适应式网络(AdaptiveNetwork)。针对一个案例问题决定设计的变数值,使其不仅能满足设计限制条件,且可使目标值达到最佳状态,设计应用与排成应用皆属于最适化应用。
倒传递类神经网络为目前最为广泛被使用的类神经网络模式,训练模式是采用监督式学习网络(SupervisedNetwork),基本原理是利用最陡坡降法(GradientSteepestDescentMethod)的观念将误差函数予以最小化。图2为一般倒传递类神经网络架构图,输入层及输出层为欲解决问题输入值及目标值,隐藏层的层数及神经元数目则会根据问题型式而定,通常以试误法决定隐藏层神经元数目,而层数可以依照问题的复杂程度增加。其网络运作方式为输出层先输出一训练值,将训练值与目标值的误差回馈至连接神经元的权值,直至以调整至预期误差值内,也就是网络收敛为止。
如果依照倒传递网络的架构做分类又可分为前馈式类神经网络(FeedforwardNetworks)及回馈式类神经网络(FeedbackNetworks):
(1)前馈式类神经网络(FeedforwardNetworks):其连结方式为单一方向的向前传递连结,且网络所有的神经元皆无后向或是侧向的传递连结,也就是说网络中前一层的所有神经元都与下一层的所有神经元相连结,属于完全连结(FullyConnected)的网络,不论是完全连结或是部分连结前馈式类神经网络神经元都只与下一层的神经元作连结,同一层中的神经元不互相连结。
(2)回馈式类神经网络(FeedbackNetworks):回馈式类神经网络与前馈式类神经网络最大的不同在于回馈式类神经网络中至少会含有一个回馈迴圈,一个回馈式类神经网络可能仅包含一层神经元,而在此层的神经元会各自将其输出的讯号回传给同一层的其他神经元或前一层中的神经元,以作为输入资料。此种回馈式的架构通常使用在动态现象上,因为回馈式类神经网络在将其资料回传至同一层神经元或是上一层神经元时会产生时间上的延迟。
建立类神经网络预测模式需要大量的观测资料,而环境输入参数的选择及参数的尺度是研究最重要的一环。在生物检验方面,细菌的检测已发展的非常成熟,也能精确计算出单位容积水中的细菌量,但唯一的缺点为太过耗时。
发明内容
发明目的:为了解决现有技术的不足,本发明提供了一种基于类神经网络的压载水微生物数量预测方法,以能快速检验取得的水质性质作为输入因子,取代过去非常费时的检验方式,其检测之水质性质项目包括温度、pH值、盐度、导电度、水中总固体溶解量、溶氧量及浊度,利用倒传递类神经网络(BPN)进行预测。
技术方案:一种基于类神经网络的压载水微生物数量预测方法,包括如下步骤:取样及数据记录、资料尺度化处理、建立类神经网络架构、拟定倒传递网络训练及预测的各项参数设定、得到基于类神经网络的压载水微生物数量的预测实验结果;
具体主要分为两部分进行:第一部分将A、B、C各组数据单独进行训练,找出最适用于各组的隐藏层神经元数量,接着带入另外两组互相模拟验证,比较是否于不同地点使用本研究所拟定的7项输入因子训练后预测模拟的结果;第二部分将三组数据分为Training60组数据以及Test30组数据两组,藉此增加数据量也希望增加整体模拟的准确性,Training用来作训练而训练完后则代入Test进行模拟预测,与第一部分相同,首先找出最适用于训练的隐藏层神经元数量,接着将Test代入模拟预测,验证如果将其它地区的水质性质变化纳入一同训练,是否对于其他地区的菌落数模拟有所帮助;利用MATLAB软件的工具箱建立并运算类神经网络,使用的网络为前馈式倒传递网络。
作为优化:所述取样及数据记录步骤中,具体操作如下:
a.取样:选定三个沿海地点作为海水取样的地标,三处各别实验30组水样,并在取样时量测作为训练资料的水质性质,以确保数据的正确性;取样后的水样于当次取样后立即送回实验室培养菌落数CFU,培养及菌落数记数方式参考相关标准方法进行实验;
b.数据记录:记数采用人工记数,为避免当菌落数过多以至于不容易计数时,在培养之前会将待测液体经过稀释为10倍、100倍及1000倍,让菌落数落在可计数范围,以大肠杆菌为例,记数方式如下:
(1)选取大肠杆菌菌落数介于20至80间之同一稀释度的两个培养皿,计算其每100mL水样的大肠杆菌菌落数,单位为CFU/100mL。计算公式如下:
x = n w × 100 ;
式中,x为大肠杆菌菌落数(CFU/100mL);n为所选取培养皿的菌落数总和;w为所选取培养皿的实际水样体积总和;
(2)培养皿的大肠杆菌菌落数不在20至80个菌落之间时,则以下列方式处理:
①若原液及各稀释度水样中仅有一个稀释度的一个培养皿菌落数在20至80个之间,则选取该稀释度的两个培养皿以上述公式计算;
②若仅原液有大肠杆菌菌落产生,且少于20个,应循上述公式计数菌落数;若过滤100mL原液,培养皿中均无菌落生长,则结果以“<1CFU/100mL”表示;若过滤10mL原液,培养皿中均无菌落生长,则结果以“<10CFU/100mL”表示;
③若各培养皿之大肠杆菌菌落数均不在20至80个之间,则选取大肠杆菌菌落数最接近80之同一稀释度的两个培养皿以上述公式计算;但不可选用菌落总数大于200之培养皿;
(3)数据表示:菌落数小于100时,以整数表示,小数位四舍五入,菌落数大于100以上时,取两位有效数字,并以科学记号表示,例如菌落数为112时以1.1×102表示,菌落数为117时以1.2×102表示,菌落数为65000时以6.5×104表示;
(4)检测纪录必须注明取样时间、开始培养时间、结束培养时间、培养基名称及各稀释度的原始数据。
作为优化:所述资料尺度化处理步骤中,具体操作如下:当利用类神经网路作为某目标值的预测时,通常都会选择许多与目标值相关的影响因子作为输入值,但所输入的资料彼此间差异性很大,为了使差异缩小并使网路效率提高必须使资料尺度化,使值介於-1至1之间,公式如下:
k n = 2 ( k - A m i n A max - A m i n ) - 1
式中,kn为尺度化后的值;k为原始资料;Amax为资料库中的最大值;Amin为资料库中的最小值;
所以,为了使网络训练更加准确,在训练之前需将所有输入资料进行尺度化处理,依据上式将资料数值全部转变为-1至1之间。
作为优化:所述建立类神经网络架构步骤中,具体操作如下:主要使用Levenberg-Marquardt演算法,是用于训练适度大小的前馈类神经网络是最快速的方法,此演算法和拟牛顿法一样被设计成接近二阶的训练进度,且不必去计算Hessian矩阵:
当性能函数具有平方合的形式时,那麼Hessian矩阵可被逼近成下式:
H=JTJ
并且计算梯度,用下式就是:
g=JTe
其中,J是Jacobian,它包含网络误差对于权重值和偏权值的一阶微分,e是网络误差的向量;
Jacobian矩阵可以透过标准倒传递技巧来计算来计算,它比起计算Hessian矩阵要更为复杂,Levenberg-Marquardt演算法是将Hessian矩阵逼近来使用,即将牛顿法的基本步骤:
x k + 1 = x k - A k - 1 g k
改为下式:
xk+1=xk-[JTJ+μI]JTe
上式中,当μ=0时,就刚好是使用近似化Hessian矩阵的牛顿法了。
作为优化:所述拟定倒传递网络训练及预测的各项参数设定步骤中,具体操作如下:
(a).拟定倒传递类神经网络架构,输入因子Input及输出Output参照采样数据,隐藏层神经元数目则尝试使用2、4、6、8及10五种神经元数目进行训练,而输出层并不将两个合并作训练;
(b).判断网络训练的指标性数值如下:
①相关系数r:由相关系数r值之大小,可了解网络模式推估的预测值与实际值间的关系,其值越接近1则为越准确:
r = &Sigma; i = 1 n ( Y i - Y i &OverBar; ) - ( Y p - Y p &OverBar; ) &Sigma; i = 1 n ( Y i - Y i &OverBar; ) 2 &Sigma; i = 1 n ( Y p - Y p &OverBar; ) 2
②判定系数R2:常用来判定模拟值与观测值两者之间的相关性:
R 2 = 1 - &Sigma; i = 1 n ( Y i - Y p &OverBar; ) 2 &Sigma; i = 1 n ( Y i - Y i &OverBar; ) 2
③均方根误差RMSE:可了解网络预测值与实际值的离散程度,也就是误差值:
R M S E = &Sigma; i = 1 n ( Y i - Y p &OverBar; ) 2 n
上述公式中,Yi为实际值;为实际平均值;Yp为模拟值;为模拟平均值;n为资料的组数。
作为优化:所述得到基于类神经网络的压载水微生物数量的预测实验结果步骤中,具体内容如下:将三组采样数据各别训练,在相互代入训练结果进行模拟,比较于不同地点所取样数据预测不同地点能力如何,先将三组数据所使用的隐藏层神经元数量确定,隐藏层的神经元数目与训练资料的复杂程度有关系,输入的数据越多组或每组输入的项目越多,则网络越为复杂;
由训练结果可以看出在使用2个神经元时较不易达到好的R2值,甚至无法模拟,当神经元数目不断增加训练的效果也越来越好,但如果神经元数目过多反而会增加网络运算的复杂度,变的不容易与资料数据配合,导致R2值下降;
另外,为预测菌数多寡,将A、B、C三组数据组合,再拆开为60组训练数据以及30组测试数据,若预测后结果令人满意,则可以证明本研究所选择7项输入因子的确是影响生物生长的重点之一;将A、B、C三组数据的前20组数据组合成Training资料,而A、B、C三组数据的后10组数据组合成Test资料;首先找出适合使用于此次设计之隐藏层神经元数量,由于输入较多组数据,在神经元测试方面将范围拉大至15个神经元,训练大肠杆菌的结果为使用15个神经元R2=0.950879为最佳,而肠球菌方面使用10个神经元R2=0.948715为最佳。
有益效果:本发明为建立快速的预测模式,利用多种水质检验仪器于短时间内检测水质,主要有温度、ph值、导电度、浊度、溶氧量、含盐量、总固体溶解量共7项,将这些水质性质作为类神经网络的输入因子,肠杆菌及大肠球菌数量为目标值,经实验结果与分析后,模拟的结果可以证明使用这种方法确实是有效的。当菌数约于300以下时,预测的效果是可以接受的,对应到国际公约中D-2规则所提到大肠杆菌必须小于250CFU/100mL、肠球菌必须小于100CFU/100mL之下,本发明的研究成果是可作为参考。若是想要增加类神经网络预测的准确性,则必须再增加训练的资料组数,使网络能适应各式各样的变化,不会导致于误判。除了增加资料组数外,还必须考虑的气候的变化,这样对于不同地区互相模拟预测的准确度定会大大提升。
本发明利用类神经网络预测水中指标性微生物数量,输入的资料为三个取样地点各30组共90组作为训练资料,其项目为温度、pH值、导电度、浊度、溶氧量、含盐量、总固体溶解量,目标资料为大肠杆菌量及肠球菌量。网络训练将三个地点分别互为训练资料、验证资料及测试资料。经实际测试结果发现,课题组运用类神经网络来预测水中指标性微生物数量具有相当的准确性。
本发明以海水中大肠杆菌及肠球菌的数量预测为对象,类神经网络使用MATLAB内建类神经网络工具箱(nntool)建立网络,学习法采用Levenberg-Marquardt演算法当作训练法则,而训练函数于隐藏层使用以-1、1为界之正切双弯曲函数(tansig),输出层使用简单线性转移函数(purelin),采逐次方式(IncrementalMode)学习,也就是一次一个数据带入网络中去计算梯度并马上更新权值,当训练资料没有资料可供训练时,即完成一次学习循环(Epoch),直到网络达到训练的目标才停止训练,最后进行网络的测试比较。此演算法属于收敛速度相当快的演算法,但容易在训练类神经网络的期间会发生一种称为过度配适(OverFitting)的问题,一般解决方式有两种,一是利用规则化(Regularization)方式改善网络广义化能力,二是本研究采用的提早停止(EarlyStopping)。
附图说明
图1是本发明中基本类神经网络架构示意图;
图2是本发明中一般倒传递类神经网络架构图;
图3是本发明的总体思路流程图;
图4是本发明的实验流程图;
图5是本发明中倒传递类神经网络架构示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
实施例
本发明为建立海水中指标性微生物数量预测模式,首先说明取样及数据纪录方式,以及数据进行尺度化处理,接着拟定倒传递网络训练及预测的各项参数设定。
实验将分为两部分进行,如图4实验流程图所示,第一部分将A、B、C各组数据单独进行训练,找出最适用于各组的隐藏层神经元数量,接着带入另外两组互相模拟验证,比较是否于不同地点使用本研究所拟定的7项输入因子训练后预测模拟的结果。第二部份将三组数据分为Training(60组数据)以及Test(30组数据)两组,藉此增加数据量也希望增加整体模拟的准确性,Training用来作训练而训练完后则代入Test进行模拟预测,与第一部分相同,首先找出最适用于训练的隐藏层神经元数量,接着将Test代入模拟预测,验证如果将其它地区的水质性质变化纳入一同训练,是否对于其他地区的菌落数模拟有所帮助。本研究利用MATLAB软件的工具箱建立并运算类神经网络,使用的网络为前馈式倒传递网络(Feed-forwardNetworks)。
取样及数据纪录:
选定三个沿海地点作为海水取样的地标。三处各别实验30组水样,并在取样时量测作为训练资料的水质性质,以确保数据的正确性。当然,影响微生物生长的因素很多,但本研究目标为快速预测,因此所选择的水质性质皆以能快速并于取样点测量为主。水质性质检验项目及单位表如表1所示。检测工具及步骤参照相关标准。
表1水质性质检验项目及单位表
为确保实验的准确性,取样后的水样于当次取样后立即送回实验室培养菌落数(CFU),培养及菌落数记数方式参考相关标准方法进行实验。
记数采用人工记数,为避免当菌落数过多以至于不容易计数时,在培养之前会将待测液体经过稀释为10倍、100倍及1000倍,让菌落数落在可计数范围,以大肠杆菌为例,记数方式如下:
(1)选取大肠杆菌菌落数介于20至80间之同一稀释度的两个培养皿,计算其每100mL水样的大肠杆菌菌落数,单位为CFU/100mL。计算公式如下:
x = n w &times; 100 ;
式中,x为大肠杆菌菌落数(CFU/100mL);n为所选取培养皿的菌落数总和;w为所选取培养皿的实际水样体积总和。
(2)培养皿的大肠杆菌菌落数不在20至80个菌落之间时,则以下列方式处理:
①若原液及各稀释度水样中仅有一个稀释度的一个培养皿菌落数在20至80个之间,则选取该稀释度的两个培养皿以上述公式计算。
②若仅原液有大肠杆菌菌落产生,且少于20个,应循上述公式计数菌落数;若过滤100mL原液,培养皿中均无菌落生长,则结果以“<1CFU/100mL”表示;若过滤10mL原液,培养皿中均无菌落生长,则结果以“<10CFU/100mL”表示。
③若各培养皿之大肠杆菌菌落数均不在20至80个之间,则选取大肠杆菌菌落数最接近80之同一稀释度的两个培养皿以上述公式计算。但不可选用菌落总数大于200之培养皿。
(3)数据表示:菌落数小于100时,以整数表示(小数位四舍五入),菌落数大于100以上时,取两位有效数字,并以科学记号表示,例如菌落数为112时以1.1×102表示,菌落数为117时以1.2×102表示,菌落数为65000时以6.5×104表示。
(4)检测纪录必须注明取样时间、开始培养时间、结束培养时间、培养基名称及各稀释度的原始数据。
训练模式建立:
(1)资料尺度化。当利用类神经网路作为某目标值的预测时,通常都会选择许多与目标值相关的影响因子作为输入值,但所输入的资料彼此间差异性很大,为了使差异缩小并使网路效率提高必须使资料尺度化,使值介於-1至1之间,公式如下:
k n = 2 ( k - A m i n A max - A m i n ) - 1
式中,kn为尺度化后的值;k为原始资料;Amax为资料库中的最大值;Amin为资料库中的最小值。
所以,为了使网络训练更加准确,在训练之前需将所有输入资料进行尺度化处理,依据上式将资料数值全部转变为-1至1之间。
(2)建立类神经网络架构。本研究主要使用Levenberg-Marquardt演算法(trainlm),用于训练适度大小的前馈类神经网络是最快速的方法。此演算法和拟牛顿法一样被设计成接近二阶的训练进度,且不必去计算Hessian矩阵。
当性能函数具有平方合的形式时,那麼Hessian矩阵可被逼近成下式:
H=JTJ
并且计算梯度,用下式就是:
g=JTe
其中,J是Jacobian,它包含网络误差对于权重值和偏权值的一阶微分,e是网络误差的向量。
Jacobian矩阵可以透过标准倒传递技巧来计算来计算,它比起计算Hessian矩阵要更为复杂。Levenberg-Marquardt演算法是将Hessian矩阵逼近来使用,即将牛顿法的基本步骤:
x k + 1 = x k - A k - 1 g k
改为下式:
xk+1=xk-[JTJ+μI]JTe
上式中,当μ=0时,就刚好是使用近似化Hessian矩阵的牛顿法了。
Levenberg-Marquardt演算法使用两层网络,隐藏层转换函数为tansig,输出层转换函数为purelin,虽然此方法拥有最快速的收敛速度,但于训练过程中会发生过度配适的问题(OverFitting),亦即误差被推进到一个极小值,反而于测试数据时造成大误差,为改善此种现象,需将类神经网络广义化(Regularization),或是利用提早停止(EarlyStopping)来避免过度配适的问题。
可在程序中直接设定规则化性能函数及性能比来增进网络广义化能力,但如果设定太大将会得到过度配适,反之,则网络将不能足够的来配适训练数据,且一般花费的时间比提早停止方法较长的时间来收敛。因此本研究使用提早停止的方式,使网络训练更有效率。而网络训练的能力也与隐藏层神经元数的多寡有非常直接的关系,影响神经元间交互作用,因此选择使用多少神经元个数决定着系统的描述力与预测力。
图5为设计的倒传递类神经网络架构示意图,输入因子Input及输出Output参照采样数据,隐藏层(HiddenLayer)神经元数目则尝试使用2、4、6、8及10五种神经元数目进行训练,而输出层并不将两个合并作训练。
(3)判断网络训练的指标性数值。
①相关系数r(CorrelationCoefficient):由相关系数r值之大小,可了解网络模式推估的预测值与实际值间的关系,其值越接近1则为越准确。
r = &Sigma; i = 1 n ( Y i - Y i &OverBar; ) - ( Y p - Y p &OverBar; ) &Sigma; i = 1 n ( Y i - Y i &OverBar; ) 2 &Sigma; i = 1 n ( Y p - Y p &OverBar; ) 2
②判定系数R2(CoefficientofDetermination):常用来判定模拟值与观测值两者之间的相关性。
R 2 = 1 - &Sigma; i = 1 n ( Y i - Y p &OverBar; ) 2 &Sigma; i = 1 n ( Y i - Y i &OverBar; ) 2
③均方根误差RMSE(RootMeanSquareError):可了解网络预测值与实际值的离散程度,也就是误差值。
R M S E = &Sigma; i = 1 n ( Y i - Y p &OverBar; ) 2 n
上述公式中,Yi为实际值;为实际平均值;Yp为模拟值;为模拟平均值;n为资料的组数。
基于类神经网络的压载水微生物数量预测实验结果:
本发明首先将三组采样数据各别训练,在相互代入训练结果进行模拟,比较于不同地点所取样数据预测不同地点能力如何。先将三组数据所使用的隐藏层神经元数量确定,隐藏层的神经元数目与训练资料的复杂程度有关系,输入的数据越多组或每组输入的项目越多,则网络越为复杂。
由表2三组数据使用不同神经元训练结果可以看出在使用2个神经元时较不易达到好的R2值,甚至无法模拟,当神经元数目不断增加训练的效果也越来越好,但如果神经元数目过多反而会增加网络运算的复杂度,变的不容易与资料数据配合,导致R2值下降。
表2三组数据使用不同神经元训练结果
另外,为预测菌数多寡,将A、B、C三组数据组合,再拆开为60组训练数据以及30组测试数据,若预测后结果令人满意,则可以证明本研究所选择7项输入因子的确是影响生物生长的重点之一。将A、B、C三组数据的前20组数据组合成Training资料,而A、B、C三组数据的后10组数据组合成Test资料。首先找出适合使用于此次设计之隐藏层神经元数量,由于输入较多组数据,在神经元测试方面将范围拉大至15个神经元,训练大肠杆菌的结果为使用15个神经元R2=0.950879为最佳,而肠球菌方面使用10个神经元R2=0.948715为最佳。
结论:
本发明为建立快速的预测模式,利用多种水质检验仪器于短时间内检测水质,主要有温度、ph值、导电度、浊度、溶氧量、含盐量、总固体溶解量共7项,将这些水质性质作为类神经网络的输入因子,肠杆菌及大肠球菌数量为目标值,经实验结果与分析后,模拟的结果可以证明使用这种方法确实是有效的。当菌数约于300以下时,预测的效果是可以接受的,对应到国际公约中D-2规则所提到大肠杆菌必须小于250CFU/100mL、肠球菌必须小于100CFU/100mL之下,本研究的成果是可作为参考。
若是想要增加类神经网络预测的准确性,则必须再增加训练的资料组数,使网络能适应各式各样的变化,不会导致于误判。除了增加资料组数外,还必须考虑的气候的变化,这样对于不同地区互相模拟预测的准确度定会大大提升。
本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。

Claims (6)

1.一种基于类神经网络的压载水微生物数量预测方法,其特征在于:包括如下步骤:取样及数据记录、资料尺度化处理、建立类神经网络架构、拟定倒传递网络训练及预测的各项参数设定、得到基于类神经网络的压载水微生物数量的预测实验结果;
具体主要分为两部分进行:第一部分将A、B、C各组数据单独进行训练,找出最适用于各组的隐藏层神经元数量,接着带入另外两组互相模拟验证,比较是否于不同地点使用本研究所拟定的7项输入因子训练后预测模拟的结果;第二部分将三组数据分为Training60组数据以及Test30组数据两组,藉此增加数据量也希望增加整体模拟的准确性,Training用来作训练而训练完后则代入Test进行模拟预测,与第一部分相同,首先找出最适用于训练的隐藏层神经元数量,接着将Test代入模拟预测,验证如果将其它地区的水质性质变化纳入一同训练,是否对于其他地区的菌落数模拟有所帮助;利用MATLAB软件的工具箱建立并运算类神经网络,使用的网络为前馈式倒传递网络。
2.根据权利要求1所述的基于类神经网络的压载水微生物数量预测方法,其特征在于:所述取样及数据记录步骤中,具体操作如下:
a.取样:选定三个沿海地点作为海水取样的地标,三处各别实验30组水样,并在取样时量测作为训练资料的水质性质,以确保数据的正确性;取样后的水样于当次取样后立即送回实验室培养菌落数CFU,培养及菌落数记数方式参考相关标准方法进行实验;
b.数据记录:记数采用人工记数,为避免当菌落数过多以至于不容易计数时,在培养之前会将待测液体经过稀释为10倍、100倍及1000倍,让菌落数落在可计数范围,以大肠杆菌为例,记数方式如下:
(1)选取大肠杆菌菌落数介于20至80间之同一稀释度的两个培养皿,计算其每100mL水样的大肠杆菌菌落数,单位为CFU/100mL。计算公式如下:
x = n w &times; 100 ;
式中,x为大肠杆菌菌落数(CFU/100mL);n为所选取培养皿的菌落数总和;w为所选取培养皿的实际水样体积总和;
(2)培养皿的大肠杆菌菌落数不在20至80个菌落之间时,则以下列方式处理:
①若原液及各稀释度水样中仅有一个稀释度的一个培养皿菌落数在20至80个之间,则选取该稀释度的两个培养皿以上述公式计算;
②若仅原液有大肠杆菌菌落产生,且少于20个,应循上述公式计数菌落数;若过滤100mL原液,培养皿中均无菌落生长,则结果以“<1CFU/100mL”表示;若过滤10mL原液,培养皿中均无菌落生长,则结果以“<10CFU/100mL”表示;
③若各培养皿之大肠杆菌菌落数均不在20至80个之间,则选取大肠杆菌菌落数最接近80之同一稀释度的两个培养皿以上述公式计算;但不可选用菌落总数大于200之培养皿;
(3)数据表示:菌落数小于100时,以整数表示,小数位四舍五入,菌落数大于100以上时,取两位有效数字,并以科学记号表示,例如菌落数为112时以1.1×102表示,菌落数为117时以1.2×102表示,菌落数为65000时以6.5×104表示;
(4)检测纪录必须注明取样时间、开始培养时间、结束培养时间、培养基名称及各稀释度的原始数据。
3.根据权利要求1所述的基于类神经网络的压载水微生物数量预测方法,其特征在于:所述资料尺度化处理步骤中,具体操作如下:当利用类神经网路作为某目标值的预测时,通常都会选择许多与目标值相关的影响因子作为输入值,但所输入的资料彼此间差异性很大,为了使差异缩小并使网路效率提高必须使资料尺度化,使值介於-1至1之间,公式如下:
k n = 2 ( k - A m i n A max - A m i n ) - 1
式中,kn为尺度化后的值;k为原始资料;Amax为资料库中的最大值;Amin为资料库中的最小值;
所以,为了使网络训练更加准确,在训练之前需将所有输入资料进行尺度化处理,依据上式将资料数值全部转变为-1至1之间。
4.根据权利要求1所述的基于类神经网络的压载水微生物数量预测方法,其特征在于:所述建立类神经网络架构步骤中,具体操作如下:主要使用Levenberg-Marquardt演算法,是用于训练适度大小的前馈类神经网络是最快速的方法,此演算法和拟牛顿法一样被设计成接近二阶的训练进度,且不必去计算Hessian矩阵:
当性能函数具有平方合的形式时,那麼Hessian矩阵可被逼近成下式:
H=JTJ
并且计算梯度,用下式就是:
g=JTe
其中,J是Jacobian,它包含网络误差对于权重值和偏权值的一阶微分,e是网络误差的向量;
Jacobian矩阵可以透过标准倒传递技巧来计算来计算,它比起计算Hessian矩阵要更为复杂,Levenberg-Marquardt演算法是将Hessian矩阵逼近来使用,即将牛顿法的基本步骤:
x k + 1 = x k - A k - 1 g k
改为下式:
xk+1=xk-[JTJ+μI]JTe
上式中,当μ=0时,就刚好是使用近似化Hessian矩阵的牛顿法了。
5.根据权利要求1所述的基于类神经网络的压载水微生物数量预测方法,其特征在于:所述拟定倒传递网络训练及预测的各项参数设定步骤中,具体操作如下:
(a).拟定倒传递类神经网络架构,输入因子Input及输出Output参照采样数据,隐藏层神经元数目则尝试使用2、4、6、8及10五种神经元数目进行训练,而输出层并不将两个合并作训练;
(b).判断网络训练的指标性数值如下:
①相关系数r:由相关系数r值之大小,可了解网络模式推估的预测值与实际值间的关系,其值越接近1则为越准确:
r = &Sigma; i = 1 n ( Y i - Y i &OverBar; ) - ( Y p - Y p &OverBar; ) &Sigma; i = 1 n ( Y i - Y i &OverBar; ) 2 &Sigma; i = 1 n ( Y p - Y p &OverBar; ) 2
②判定系数R2:常用来判定模拟值与观测值两者之间的相关性:
R 2 = 1 - &Sigma; i = 1 n ( Y i - Y p &OverBar; ) 2 &Sigma; i = 1 n ( Y i - Y i &OverBar; ) 2
③均方根误差RMSE:可了解网络预测值与实际值的离散程度,也就是误差值:
R M S E = &Sigma; i = 1 n ( Y i - Y p &OverBar; ) 2 n
上述公式中,Yi为实际值;为实际平均值;Yp为模拟值;为模拟平均值;n为资料的组数。
6.根据权利要求1所述的基于类神经网络的压载水微生物数量预测方法,其特征在于:所述得到基于类神经网络的压载水微生物数量的预测实验结果步骤中,具体内容如下:将三组采样数据各别训练,在相互代入训练结果进行模拟,比较于不同地点所取样数据预测不同地点能力如何,先将三组数据所使用的隐藏层神经元数量确定,隐藏层的神经元数目与训练资料的复杂程度有关系,输入的数据越多组或每组输入的项目越多,则网络越为复杂;
由训练结果可以看出在使用2个神经元时较不易达到好的R2值,甚至无法模拟,当神经元数目不断增加训练的效果也越来越好,但如果神经元数目过多反而会增加网络运算的复杂度,变的不容易与资料数据配合,导致R2值下降;
另外,为预测菌数多寡,将A、B、C三组数据组合,再拆开为60组训练数据以及30组测试数据,若预测后结果令人满意,则可以证明本研究所选择7项输入因子的确是影响生物生长的重点之一;将A、B、C三组数据的前20组数据组合成Training资料,而A、B、C三组数据的后10组数据组合成Test资料;首先找出适合使用于此次设计之隐藏层神经元数量,由于输入较多组数据,在神经元测试方面将范围拉大至15个神经元,训练大肠杆菌的结果为使用15个神经元R2=0.950879为最佳,而肠球菌方面使用10个神经元R2=0.948715为最佳。
CN201510458396.9A 2015-07-30 2015-07-30 一种基于类神经网络的压载水微生物数量预测方法 Expired - Fee Related CN105069212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510458396.9A CN105069212B (zh) 2015-07-30 2015-07-30 一种基于类神经网络的压载水微生物数量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510458396.9A CN105069212B (zh) 2015-07-30 2015-07-30 一种基于类神经网络的压载水微生物数量预测方法

Publications (2)

Publication Number Publication Date
CN105069212A true CN105069212A (zh) 2015-11-18
CN105069212B CN105069212B (zh) 2018-07-03

Family

ID=54498578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510458396.9A Expired - Fee Related CN105069212B (zh) 2015-07-30 2015-07-30 一种基于类神经网络的压载水微生物数量预测方法

Country Status (1)

Country Link
CN (1) CN105069212B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447029A (zh) * 2016-09-05 2017-02-22 郑州航空工业管理学院 基于bp神经网络的防眩玻璃化学侵蚀工艺参数优化方法
CN107977707A (zh) * 2017-11-23 2018-05-01 厦门美图之家科技有限公司 一种对抗蒸馏神经网络模型的方法及计算设备
CN110633721A (zh) * 2018-06-22 2019-12-31 富比库股份有限公司 运用类神经网络进行分类的电子零件封装分类系统
CN110929808A (zh) * 2019-12-11 2020-03-27 国网湖南省电力有限公司 舞动温度的多要素智能修正方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101786721A (zh) * 2010-02-05 2010-07-28 重庆大学 城市污水处理厂出水有机物浓度的随机过程预测方法
CN101894353A (zh) * 2010-05-24 2010-11-24 中国人民解放军军事医学科学院微生物流行病研究所 一种突发生物事件现场危害评估模拟系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101786721A (zh) * 2010-02-05 2010-07-28 重庆大学 城市污水处理厂出水有机物浓度的随机过程预测方法
CN101894353A (zh) * 2010-05-24 2010-11-24 中国人民解放军军事医学科学院微生物流行病研究所 一种突发生物事件现场危害评估模拟系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘磊磊: "城市输配水系统二次供水中微生物的分布规律研究", 《中国优秀硕士学位论文全文数据库(工程科技II辑)》 *
李文娟: "改进BP神经网络在水质评价中的应用研究", 《中国优秀硕士学位论文全文数据库(工程科技I辑)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447029A (zh) * 2016-09-05 2017-02-22 郑州航空工业管理学院 基于bp神经网络的防眩玻璃化学侵蚀工艺参数优化方法
CN106447029B (zh) * 2016-09-05 2018-09-28 郑州航空工业管理学院 基于bp神经网络的防眩玻璃化学侵蚀工艺参数优化方法
CN107977707A (zh) * 2017-11-23 2018-05-01 厦门美图之家科技有限公司 一种对抗蒸馏神经网络模型的方法及计算设备
CN107977707B (zh) * 2017-11-23 2020-11-06 厦门美图之家科技有限公司 一种对抗蒸馏神经网络模型的方法及计算设备
CN110633721A (zh) * 2018-06-22 2019-12-31 富比库股份有限公司 运用类神经网络进行分类的电子零件封装分类系统
CN110929808A (zh) * 2019-12-11 2020-03-27 国网湖南省电力有限公司 舞动温度的多要素智能修正方法及系统

Also Published As

Publication number Publication date
CN105069212B (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
Fiksdal et al. Monitoring of fecal pollution in coastal waters by use of rapid enzymatic techniques
Gin et al. Modeling the effect of light and salinity on viable but non-culturable (VBNC) Enterococcus
Menon et al. Mortality rates of autochthonous and fecal bacteria in natural aquatic ecosystems
Zhao et al. Effects of plant and influent C: N: P ratio on microbial diversity in pilot-scale constructed wetlands
CN105069212A (zh) 一种基于类神经网络的压载水微生物数量预测方法
Solecki et al. Persistence of microbial and chemical pig manure markers as compared to faecal indicator bacteria survival in freshwater and seawater microcosms
Easton et al. Die‐off of pathogenic E. coli o157: h7 in sewage contaminated waters 1
Wang et al. Modeling and predicting fecal coliform bacteria levels in oyster harvest waters along Louisiana Gulf coast
Kundu et al. Artificial neural network modelling in biological removal of organic carbon and nitrogen for the treatment of slaughterhouse wastewater in a batch reactor
Li et al. Development of an ATP luminescence-based method for assimilable organic carbon determination in reclaimed water
DeNicola et al. Periphyton response to nutrient addition in 3 lakes of different benthic productivity
Zheng et al. Sediment resuspension drives protist metacommunity structure and assembly in grass carp (Ctenopharyngodon idella) aquaculture ponds
Singh et al. Comparative performance and 16S amplicon sequencing analysis of deep and shallow cells of a full scale HFCW having sequentially decreasing depths reveals vast enhancement potential
Wang et al. Evaluation and comparison of the benthic and microbial indices of biotic integrity for urban lakes based on environmental DNA and its management implications
Yang et al. Combined effects of food resources and exposure to ammonium nitrogen on population growth performance in the bacterivorous ciliate Paramecium caudatum
Wallis et al. Phenotypic population characteristics of the enterococci in wastewater and animal faeces: implications for the new European directive on the quality of bathing waters
CN103942600B (zh) 基于尖峰自组织径向基神经网络的污泥膨胀预测方法
Skjerve et al. A multiple logistic model for predicting the occurrence of Campylobacter jejuni and Campylobacter coli in water
McLarnan Escherichia coli as a water quality indicator organism: a case for responsive, science-based policy
Fu et al. A preliminary stochastic model for managing microorganisms in a recirculating aquaculture system
Koloren et al. Fecal pollution in rural water supplies of Ordu, at the Mid-Black Sea Coast of Turkey: The effect of climate and environmental elements
Saleem et al. Water quality assessment of Dal Lake, Kashmir using the coliforms as indicator bacteria
Zhang et al. Functional trait-based phytoplankton biomass and assemblage analyses in the pre-growing season for comprehensive algal bloom risk assessment
Nowell Evaluating practical approaches for on-farm water testing to meet the FSMA Produce Safety Rule requirements
Rahman et al. A wooded riparian strip set up for nitrogen removal can affect the water flux microbial composition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180703