CN107531528B

CN107531528B - 预测规则生成系统、预测系统、预测规则生成方法和预测方法

Info

Publication number: CN107531528B
Application number: CN201680019682.8A
Authority: CN
Inventors: 中园明子; 冈崎文美; 朝子弘之
Original assignee: Sumitomo Chemical Co Ltd
Current assignee: Sumitomo Chemical Co Ltd
Priority date: 2015-04-03
Filing date: 2016-03-30
Publication date: 2020-12-29
Anticipated expiration: 2036-03-30
Also published as: US11225680B2; KR20240135071A; JP6501593B2; CN107531528A; TWI715564B; TW201702186A; US20180105858A1; JP2016195974A; WO2016159154A1; KR20170132329A

Abstract

本发明生成高精度且可靠地对水处理后的水质进行预测的预测规则。预测规则生成系统(1)的计算机(10)具备：输入部(12)，其输入存在于进行水处理的活性污泥中的多种微生物各自的存在比例或存在于该活性污泥中的多种碱基序列各自的存在比例的时间序列数据、以及与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息；主成分分析部(13)，其对所输入的时间序列数据进行主成分分析，计算出构成时间序列数据的各时刻的数据的主成分得分；以及，预测规则生成部(14)，其基于所计算出的主成分得分和所输入的表示水处理后的水质的水质信息生成预测规则，该预测规则用于由多种微生物各自的存在比例或多种碱基序列各自的存在比例预测水处理后的水质。

Description

预测规则生成系统、预测系统、预测规则生成方法和预测方法

技术领域

本发明涉及生成用于预测水处理后的水质的预测规则的预测规则生成系统和预测规则生成方法、以及与它们相关的预测系统和预测方法。

背景技术

期待化学、钢铁等重化工业等中的废水以充分降低了对人、环境生物的影响的状态排放到自然环境中。作为为此而进行的废水处理，进行使用复合微生物体系、即活性污泥的生物处理。通常，为了适当地进行废水处理，对处理后的废水进行水质监测。具体而言，通过测定处理后的废水的生化需氧量(BOD)、化学需氧量(COD)、总有机碳(TOC)、总氮(TN)等水质数据等来进行水质监测。由于作为生物处理中重要管理指标的BOD通常需要5天左右的时间才能得到测定结果，因此有时基于其它水质数据以及温度、pH、溶解氧浓度(DO)等生物反应槽的运转参数来推测当天的BOD。此外，根据当前的废水状态来预测BOD、COD、TOC、TN等水质数据的未来值在管理上也很重要，也有时基于水质的时间序列数据、生物反应槽的运转参数的时间序列数据来进行BOD(生化需氧量)等的预测(参照专利文献1和2)。

现有技术文献

专利文献

专利文献1：日本特开2007-229550号公报

专利文献2：日本特开2007-263723号公报

发明内容

发明所要解决的问题

但是，上述那样的使用水质、生物反应槽的运转参数的时间序列数据的预测并未考虑活性污泥中的微生物群落的状态而进行，有时不能以足够的精度来进行预测。在对多种多样的废水进行处理的情况下，预测变得特别困难。因此，对于处理后的水的状态的预测而言，要求提高预测精度。

本发明是鉴于上述情况而完成的，其目的在于，提供一种可以生成高精度且可靠地进行水处理后的水质的预测的预测规则的预测规则生成系统和预测规则生成方法、以及与它们相关的预测系统和预测方法。

用于解决问题的方法

为了达到上述目的，本发明的一实施方式的预测规则生成系统具备：输入单元，其输入：存在于进行水处理的活性污泥中的多种微生物各自的存在比例或存在于该活性污泥中的多种碱基序列各自的存在比例的时间序列数据(此后有时记作“微生物信息的时间序列数据”)、以及与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息；主成分分析单元，其对输入单元所输入的时间序列数据进行主成分分析，计算出构成该时间序列数据的各时刻的数据的主成分得分；以及，预测规则生成单元，其基于主成分分析单元所计算出的构成时间序列数据的各时刻的数据的主成分得分和输入单元所输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息生成预测规则，该预测规则用于由多种微生物各自的存在比例或多种碱基序列各自的存在比例预测水处理后的水质。作为水处理后的水质，可以列举例如：处理后的水中的生化需氧量(BOD)、化学需氧量(COD)、总有机碳(TOC)或总氮(TN)等。

在本发明的一实施方式的预测规则生成系统中，基于存在于进行水处理的活性污泥中的微生物或碱基序列的存在比例的时间序列数据、和与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息，来生成预测规则。因此，可以进行考虑了活性污泥中的微生物群落的状态的预测，与仅使用水质、生物反应槽的运转参数的时间序列数据的预测相比，可以更高精度地进行预测。

此外，在本发明的一实施方式的预测规则生成系统中，进行主成分分析。通常，存在于活性污泥中的微生物种类数庞大。通过对微生物信息的时间序列数据进行主成分分析，可以在引入全部信息而不遗漏信息量的情况下以较少变量来表现微生物信息。通过如本发明的一实施方式那样进行主成分分析、减少预测规则的生成中所用的变量，从而可以可靠地进行预测规则的生成。即，根据本发明的一实施方式的预测规则生成系统，可以生成高精度且可靠地对水处理后的水质进行预测的预测规则。

主成分分析单元可以进行使用相关矩阵的主成分分析。使用方差协方差矩阵的主成分分析主要反映多数种微生物的行为，与此相对，在如该构成这样进行使用相关矩阵的主成分分析的情况下，虽然需要比使用方差协方差矩阵时多的变量，但可以生成更好地反映少数种微生物(存在比例小的微生物)的行为的预测规则。有时少数种微生物的行为会影响水处理后的水质。因此，根据该构成，可以生成更高精度地进行预测的预测规则。

预测规则生成单元可以通过进行机器学习来生成预测规则，所述机器学习将主成分分析单元所计算出的构成时间序列数据的各时刻的数据的主成分得分作为预测规则中的输入、将输入单元所输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息作为预测规则中的输出。根据该构成，可以可靠地生成预测规则。

预测规则生成系统还可以进一步具备：读取单元，其从存在于活性污泥中的多种微生物读取基因的碱基序列；以及，数据生成单元，其基于读取单元所读取的基因的碱基序列生成时间序列数据并输入到输入单元。根据该构成，可以可靠地输入微生物或碱基序列的存在比例的时间序列数据，可以可靠地实施本发明的一实施方式。

本发明的一实施方式的预测系统基于本发明的一实施方式的预测规则生成系统所生成的预测规则来预测水处理后的水质，该预测系统具备：输入单元，其输入作为预测对象的多种微生物各自的存在比例或作为预测对象的多种碱基序列各自的存在比例的数据；主成分分析单元，其基于预测规则生成系统所进行的主成分分析计算出输入单元所输入的预测对象的数据的主成分得分；以及，预测单元，其基于预测规则生成系统所生成的预测规则，由主成分分析单元所计算出的预测对象的数据的主成分得分预测水处理后的水质。根据本发明的一实施方式的预测系统，可以进行基于预测规则生成系统所生成的预测规的预测。

但是，本发明除了可以如上述那样记载为预测规则生成系统和预测系统的发明以外，还可以如下述那样记载为预测规则生成方法和预测方法的发明。其是仅类型不同、但实质上相同的发明，发挥同样的作用和效果。

即，本发明的一实施方式的预测规则生成方法为预测规则生成系统的操作方法，该预测规则生成方法包含：输入步骤，其输入存在于进行水处理的活性污泥中的多种微生物各自的存在比例或存在于该活性污泥中的多种碱基序列各自的存在比例的时间序列数据、以及与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息；主成分分析步骤，其对输入步骤中输入的时间序列数据进行主成分分析，计算出构成该时间序列数据的各时刻的数据的主成分得分；以及，预测规则生成步骤，其基于主成分分析步骤中计算出的构成时间序列数据的各时刻的数据的主成分得分和输入步骤中输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息生成预测规则，该预测规则用于由多种微生物各自的存在比例或多种碱基序列各自的存在比例预测水处理后的水质。

此外，本发明的一实施方式的预测方法为预测系统的操作方法，所述预测系统基于本发明的一实施方式的预测规则生成系统所生成的预测规则预测水处理后的水质，所述预测方法包含：输入步骤，其输入作为预测对象的多种微生物各自的存在比例或作为预测对象的多种碱基序列各自的存在比例的数据；主成分分析步骤，其基于预测规则生成系统所进行的主成分分析计算出输入步骤中输入的预测对象的数据的主成分得分；以及，预测步骤，其基于预测规则生成系统所生成的预测规则，由主成分分析步骤中计算出的预测对象的数据的主成分得分预测水处理后的水质。

发明效果

根据本发明的一实施方式，可以进行考虑了活性污泥中的微生物群落的状态的预测，与仅使用水质、生物反应槽的运转参数的时间序列数据的预测相比，可以更高精度地进行预测。此外，在本发明的一实施方式中，通过减少预测规则的生成中使用的变量，可以可靠地进行预测规则的生成。即，根据本发明的一实施方式，可以生成高精度且可靠地对水处理后的水质进行预测的预测规则。

附图说明

图1是示出本发明的实施方式的预测规则生成系统的构成的图。

图2是作为存在于活性污泥中的多种微生物各自的存在比例的主成分得分(示出全部主成分得分中的12个)与BOD的时间序列数据的例子的曲线图。

图3是示出利用本发明的实施方式的预测规则生成系统生成预测规则时所执行的处理(预测规则生成方法)的流程图。

图4是示出利用本发明的实施方式的预测规则生成系统进行预测时所执行的处理(预测方法)的流程图。

图5是示出使用所生成的预测规则的预测结果的例子的曲线图。

具体实施方式

以下，与附图一起对本发明的预测规则生成系统、预测系统、预测规则生成方法和预测方法的实施方式进行详细说明。需要说明的是，在附图的说明中，同一要素标记了相同的符号并省略重复说明。

图1示出本实施方式的预测规则生成系统1。预测规则生成系统1是生成用于预测水处理后的水质的预测规则的系统。本实施方式中，作为对象的水处理例如为用于减小工业废水、公共下水、污水等危害自然环境的水对自然环境的影响的处理。此外，该水处理利用使用活性污泥的水处理系统来进行，所述活性污泥含有作为多种微生物的集合的微生物群落。活性污泥中所含的微生物种类数通常为数千～数万以上。此外，该活性污泥通常添加到生物反应槽(bio tank、活性污泥槽)中，通过使作为处理对象的水流入到该生物反应槽内来进行水处理。生物反应槽通常包括好氧槽和厌氧槽。该水处理例如与工厂运行相应地连续进行。需要说明的是，该水处理本身是一直以来都在进行的水处理。

具体而言，预测规则生成系统1生成如下预测规则，该预测规则对从预测时刻起的预先设定的时期(例如一周或两周)内BOD等水质数据是否超过预先设定的阈值进行预测。该阈值例如设为可以判断为与适当地进行了水处理时相比水处理后的水质发生恶化(未适当地进行水处理)的程度的值。此外，该预测规则用于以基于存在于活性污泥中的多种微生物各自的存在比例或存在于活性污泥中的多种碱基序列各自的存在比例的信息作为输入来进行预测。即，该预测规则根据预测时刻的上述存在比例来预测预先设定的时期内有无BOD等水质数据的包括突发性恶化的恶化。此外，预测规则可以用于以多种微生物各自的存在比例和多种碱基序列各自的存在比例这两者作为输入来进行预测。此外，预测规则生成系统1还可以使用已生成的预测规则来进行预测。作为预测对象的水质，除了BOD以外还可以对COD、TOC、TN等同样地进行预测。

如图1所示，预测规则生成系统1包含计算机10和测序仪20而构成。计算机10是承担预测规则生成系统1的主要功能的装置，是生成预测规则并使用预测规则进行预测的装置。具体而言，计算机10具备CPU(Central Processing Unit，中央处理器)、存储器、通信模块等硬件。这些构成要素根据程序等而工作，从而发挥后述的计算机10的功能。

测序仪20是从存在于活性污泥中的多种微生物读取(确定)基因的碱基序列的读取单元。作为测序仪20，可以使用可同时读取(分析)多种微生物基因的所谓新一代测序仪。作为测序仪20，也可以使用现有的测序仪，例如罗氏公司制造的GS Junior System测序仪、罗氏公司制造的GS FLX+System测序仪、或者Illumina公司制造的MiSeqSystem测序仪。此外，测序仪20可以读取16S核糖体RNA基因的碱基序列作为微生物基因的碱基序列。其原因在于，16S核糖体RNA基因的碱基序列是对于每一微生物种别而言相对特征性的序列。需要说明的是，为了读取16S核糖体RNA基因的碱基序列，预先制备从活性污泥采集并输入到测序仪20的测序用样品(污泥样品)。活性污泥例如从好氧槽和厌氧槽分别采集。测序用样品的制备、和碱基序列的读取(测序)例如可以如下进行。

[微生物群落的DNA的制备]

从活性污泥采集约1.5ml的含微生物群的溶液，在室温下离心(13,000rpm×5分钟)。除去上清后加入1ml灭菌生理盐水，颠倒混合5秒左右，然后在室温下离心(13,000rpm×5分钟)。除去上清后，加入300μl裂解缓冲液(AMR公司制造)并充分混合后，将所得到的悬浮液添加到加入了珠子的管(Easy Extract for DNA(AMR公司制造))中后，用涡旋混合器进行2分钟的搅拌破碎。在破碎液中添加300μl的TE溶液(10mM Tris、1mM EDTA、pH8.0)(以下记作TE)，在4℃下离心(13,000rpm×5分钟)。然后，将450μl上清液加入到新管中，向其中加入600μl的苯酚混合液(Easy Extract for DNA所附带的(AMR公司制造))，进行1分钟的涡旋混合、搅拌后，在4℃下离心(13,000rpm×5分钟)。回收300μl上清并加入到新管(1.5ml)中，在其中加入1200μl的乙醇(99.5％)，在4℃下离心(13,000rpm×5分钟)。除去上清后，加入1000μl的冷乙醇(70％)，在4℃下离心(13,000rpm×5分钟)，将得到的DNA片状沉淀物真空干燥，然后加入150μl的TE，作为细菌群落DNA的溶液。

[16S核糖体RNA基因的V3-V4区域的PCR扩增]

测定细菌群落DNA的溶液中的双链DNA浓度，基于其测定值而以50ng的DNA为模板，使用通用引物组(正向引物fw357F(序列号1)和反向引物RV926r(序列号2))，对16S核糖体RNA基因(以下记作16S基因)的V3-V4区域进行PCR扩增。关于PCR，使用宝生物公司制造的“Premix Ex Taq Hot Start Version”(注册商标)，制作50μl的含有50pmol各引物的反应液，在94℃下预热2分钟后，分别以98℃×10秒、50℃×30秒、72℃×80秒进行变性、退火、延伸，重复25个循环。

以下示出正向引物HA13621-fw357F的序列结构。该正向引物在5’末端侧含有用测序仪20进行序列确定所需的接头A序列(以大写字母示出)、夹着各被测物所特有的10个碱基的条形码序列，且在3’末端侧含有与全部真细菌的16S基因退火的通用引物序列fw357F(以小写字母示出)。上述条形码序列是用于样品间的识别、同时与供于测序仪20的样品数对应的任意设计的碱基序列。

接头A序列(序列号3)

5’-CCATCTCATCCCTGCGTGTCTCCGACTCAG-3’

通用引物序列fw357F(序列号1)

5’-cctacgggaggcagcag-3’

对上述条形码序列的作用进行说明。例如，在同时进行10个被测物的分析时，可以制作10套具有不同条形码序列的HA13621-fw357F，并使用各套对各被测物进行PCR扩增。在将这些混合并供于测序仪20时，在利用通过1次运行可以得到100万个数据的GS FLX+System测序仪的情况下，通过使用与100个被测物对应的100套条形码序列，可以通过1次运行得到1万个数据/被测物的序列数据。

以下示出反向引物HA13619-RV926r的序列结构。该反向引物在5’末端侧含有用测序仪20进行序列确定所需的接头B序列(以大写字母示出)、且在3’末端侧含有与全部真细菌的16S基因退火的通用引物序列RV926r(以小写字母示出)。

HA13619-RV926r的序列(序列号4)

5’-CCTATCCCCTGTGTGCCTTGGCAGTCTCAGccgtcaattccttttragttt-3’

通过使用上述通用引物组的PCR，可以扩增构成细菌群落的各种细菌种的包含16S基因的V3-V4区域的DNA(约570个碱基)，并以其PCR产物DNA形式得到它们的混合物。

[PCR产物的生成和测序用样品的制备]

将从各个细菌群落DNA得到的PCR产物DNA(构成该细菌群落的各种细菌种的包含16S基因的V3-V4区域的DNA的混合物)混合，用DNA CLEANER(和光纯药公司制造)处理以除去过量的引物、底物核苷酸等而进行纯化。纯化DNA在用200μl的TE洗脱后回收。然后，将所回收的纯化DNA溶液供于琼脂糖凝胶电泳，切出约570bp的DNA片段，用MinElute GelExtractionKit(Qiagen公司制造)提取，从而制备供于测序仪20的DNA。将其作为用于以下测序的测序用样品。

[16S基因的测序和序列数据的精度评价]

将上述测序用样品供于作为测序仪20的罗氏公司制造的GS FLX+System测序仪，进行测序。测序的条件和步骤等按照制造商规定的操作说明。需要说明的是，在该测序仪中，将上述制备的PCR产物DNA的1分子固定在1个珠子上，然后将珠子一个一个地捕捉到在水(含有用于扩增测序用模板DNA的PCR引物、底物核苷酸、DNA合成酶)与油的乳液中独立形成的一个一个的微小水滴中，在其中进行PCR，从而扩增、制备测序用模板DNA。因此，通过在滴定板上将固定有该扩增出的模板DNA的各珠子分区后、在该分区位置上读取测序反应的信号，从而可以随机地确定上述测序用样品中所含的PCR产物DNA(构成该细菌群落的各个细菌种的包含16S基因的V3-V4区域的DNA的混合物)的碱基序列。此外，如果预先将正向引物HA13621-fw357F中的上述条形码序列设为来自各样品的各被测物的特征性的任意序列，则可以使用GS FLX+System测序仪对约100种细菌群落样品进行同时分析，可以用约10～23小时对来自某一活性污泥的样品确定2,000～10,000个16S基因的序列数据。即，能够不受菌种限定地对活性污泥中所含的细菌群落进行包罗性分析。

以上为进行测序用样品的制备、和碱基序列的读取的方法的一例。需要说明的是，测序用样品的制备、和碱基序列的读取还可以通过上述方法以外的方法来进行。测序仪20与计算机10可以以能进行信息的发送和接收的方式来连接。测序仪20将所读取的表示各微生物的碱基序列的信息(序列信息)发送到计算机10。这里，被发送到计算机的序列信息为利用测序仪20测序而得的原始的序列数据、即所谓的粗序列数据。

接下来说明本实施方式的计算机10的功能。如图1所示，计算机10具备数据生成部11、输入部12、主成分分析部13、预测规则生成部14和预测部15而构成。

数据生成部11是从测序仪20接收测序仪20所读取的存在于活性污泥中的多种微生物的碱基序列、并生成用于基于该碱基序列生成预测规则的数据的数据生成单元。用于生成预测规则的数据为存在于活性污泥中的多种微生物各自的存在比例(存在概率)的时间序列数据。该存在比例是各微生物种别(微生物种、菌种)的、该活性污泥中所含的该种别的微生物数量相对于活性污泥中所含的全部微生物数量的比例。其中，在难以严密地把握该比例的情况下，不需要严密地为相对于全部微生物数量的数量比例，为接近预测规则的生成所需程度的比例即可。此外，该数据为对于同一活性污泥(作为预测对象的活性污泥)表示在多个时间点(时刻)的存在比例的数据，即为时间序列数据。这里所谓的时间序列数据是指在某一定时期内的多个时间点取得的数据，各测定时刻的间隔可以恒定也可以不恒定。为了提高预测精度，可以以几乎恒定的时间间隔来取得。例如为多周内的每隔一周的存在比例的数据。即，每隔一周从活性污泥采集含微生物群的溶液，并计算出存在比例。因此，该数据例如可以形成微生物种别数×时间序列的时间点数的矩阵数据。

此外，在活性污泥层分为好氧槽和厌氧槽的情况下，可以得到好氧槽和厌氧槽各自的存在比例的数据并形成不同的时间序列数据，将两者用于此后的处理。作为微生物的种，不限于与被处理水中的处理对象物质的分解相关的微生物等特定的种，而是随机地设定分析对象。微生物的种别数根据活性污泥而不同，达到2万左右的数量。可以从适当得到的全部微生物种中选择存在比例大的种，并使用全部微生物种数的50％以上数量的微生物种的数据，进而可以使用75％以上。适当得到的微生物种是指例如如后述那样，在利用OTU分析得到的全部OTU种中除序列数据数(序列数的计数)非常少(例如1、2或3)的种以外的种。就微生物种数的选择而言，计算出构成微生物信息的时间序列数据的各时刻的数据中各微生物种的存在比例，对每一微生物种求出全部时刻的存在比例之和，将其作为各微生物种的存在比例，从其存在比例大的种中进行选择。此外，时间点数量为例如相当于半年的数据的时间点数量。即，时间点数量为数十至数百左右。在上述的数据生成和以下的数据处理中，也可以使用存在于活性污泥中的多种碱基序列的各自的存在比例来代替微生物的存在比例，还可以使用微生物的存在比例和碱基序列的存在比例两者。

例如，数据生成部11按照以下方式进行该数据的生成。数据生成部11从测序仪20接收粗序列数据。需要说明的是，从测序仪20接收的粗序列数据为多个时间点的活性污泥的数据，设为可以对于各时间点推测活性污泥中所含的多种微生物或碱基序列各自的存在比例的程度的数量的数据。即，按照可得到这样的数据的方式利用测序仪20进行测序。上述多个时间点相当于时间序列数据的各时间点。

对于所得到的粗序列数据(例如，上述例子中为约570个碱基/数据)，数据生成部11基于序列数据中所含的样品固有的条形码序列将各序列分配到各固有的样品(相当于时间序列数据的各时间点)。数据生成部11除去该序列数据的序列长度不足200、为1000以上、与通用引物序列(fw357F)的错配为1以上、用测序仪附带的质量程序求出的序列确定了的碱基序列的平均质量值为25以下的序列数据，从而提取高精度数据。

数据生成部11将所取得的高精度序列数据供于基于聚类分析(相似度95％、97％、或99％的阈值)的运算分类单元(Operational Taxonomic Unit)分析(以下记作OTU分析)。在OTU分析中，进行以序列数据的相似度为基准将各序列数据分组的操作。在此检测彼此具有95％以上的序列相似度的序列数据的聚类组(以下记作OTU)。需要说明的是，序列数据的聚类分析可以使用现有技术、例如免费软件Uclust等来进行。可以推测各OTU基本来自同种细菌(微生物)。从而可以认为，利用聚类分析得到的OTU的总数(OTU数)在可检测范围内与构成该细菌群落(微生物群落)的细菌种(微生物种)数等价。数据生成部11对代表各聚类组的碱基序列、即代表序列数据进行确定。代表序列数据的确定可以使用此前一直使用的方法来进行。

此外，根据各OTU中所含的序列数据数可以求出总序列数据数中的各OTU的比例，即菌种组成比或碱基序列组成比，也即上述存在比例。进而，通过对各OTU的代表序列数据在上述16S基因和细菌基因组数据库中进行同源性检索，从而可以归属于具有最高序列相似度的已知菌种，即鉴定OTU的菌种。需要说明的是，尽管本实施方式中未必需要对菌种进行鉴定，但由于可以把握活性污泥中具体包含哪种菌种的细菌，因而对预测结果的分析等有益。另外，对于构成微生物信息的时间序列数据的全部时刻数据中所包含的序列数据数(序列数的计数)非常少(例如1、2或3)的OTU(聚类组)而言，多数情况下并非有效的信息，有时会成为计算上的噪声，因此可以预先从时间序列数据中去除。

数据生成部11通过对于多个时间点计算出上述每种细菌或每种碱基序列的存在比例而例如以上述矩阵的形式生成时间序列数据。数据生成部11将所生成的时间序列数据输出到输入部12。

输入部12是输入上述微生物信息的时间序列数据和与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息的输入单元。对于上述微生物信息的时间序列数据，输入部12从数据生成部11输入。水质信息表示该时间点的水质状态，例如表示从时间序列数据中的上述时间点(从活性污泥采集含微生物群落的溶液的时间点)起的预先设定的时期(例如一周)内，BOD等水质数据是否超过预先设定的阈值等。该阈值与上述预测规则的阈值相同。水质信息可以通过对水处理后的水测定BOD等水质数据而得到。BOD等水质数据的测定虽优选为每天等的高频度，但根据上述时期来进行即可。例如，在水质信息表示一周以内BOD等水质数据是否超过预先设定的阈值时，一周内进行2次左右的测定即可。例如，在一周以内BOD等水质数据超过预先设定的阈值时，水质信息设为1，此外则设为0。

例如，通过接受用户对计算机10的水质信息的输入操作，从而输入水质信息。该水质信息是微生物信息的时间序列数据中上述每一时间点的数据的信息、即包含时间序列的时间点数的信息。输入部12输入与每一时间点数据相对应的水质信息。例如，输入到计算机10中的水质信息与表示为哪个时间点的水质信息的信息相对应。需要说明的是，输入部12可以输入时间序列的BOD等水质数据的值、判断该值从上述时间点起的一周内是否超过阈值并生成上述水质信息。该时间序列的BOD等水质数据的时间点也可以与微生物信息的时间序列数据的时间点不同。

输入部12所输入的信息中，微生物信息的时间序列数据对应于向由预测规则生成系统1生成的预测规则输入的数据。此外，水质信息对应于利用由预测规则生成系统1生成的预测规则预测的水质。输入部12将所输入的信息中的微生物信息的时间序列数据输出到主成分分析部13。输入部12将所输入的信息中的水质信息输出到预测规则生成部14。

主成分分析部13是对输入部12所输入的微生物信息的时间序列数据进行主成分分析、计算出构成该时间序列数据的各时刻的数据的主成分得分的主成分分析单元。如上所述，时间序列数据为矩阵数据，因此可以进行主成分分析。主成分分析部13以计算出构成时间序列数据的各时刻的数据、即各时间点的存在于活性污泥中的微生物或碱基序列的存在比例的数据的主成分得分的方式来进行。即，以压缩矩阵数据的微生物或碱基序列的种别数(变量)的方式进行主成分分析。在从好氧槽和厌氧槽取得微生物信息的时间序列数据时，将两者的数据一并进行主成分分析。此时，对于好氧槽、厌氧槽各自的微生物信息的时间序列数据计算出主成分得分。

具体而言，主成分分析部13还可以考虑存在于活性污泥中的微生物对水处理的性质而进行使用相关矩阵的主成分分析。即，在将微生物信息的时间序列数据变换为相关矩阵后，进行主成分分析。通过进行使用相关矩阵的主成分分析，从而可以反映少数种微生物的行为。但是，根据存在于活性污泥中的微生物的构成等，也可以使用方差协方差矩阵。主成分分析可以使用现有的数据包软件等来进行。

例如，对于各个构成微生物信息的时间序列数据的各时刻的数据，主成分分析部13将累计贡献率达到预先设定的阈值(例如80％)以上的数量的主成分得分作为后续处理中使用的主成分得分。此外，主成分分析部13也可以将按照贡献率由高到低的顺序预先设定的数量的主成分得分作为后续处理中使用的主成分得分。此外，还可以将此外的任意种类的主成分得分作为后续处理中使用的主成分得分。后续处理中使用的主成分得分数量可以考虑后续处理的处理负担等大致(对于构成时间序列数据的各时刻的数据)设为十几至几十左右。为了如后述那样在预测部选择所使用的主成分得分，在此计算出较多数量的主成分得分。主成分分析部13进行计算、并将作为后续处理中使用的主成分得分的构成时间序列数据的各时刻的数据的主成分得分输出到预测规则生成部14。此外，为了进行基于预测规则的预测，主成分分析部13预先存储用于根据微生物或碱基序列的存在比例的向量数据计算出主成分得分的信息。或者，可以预先在数据生成部11同时生成预测规则中使用的微生物信息的时间序列数据和预测中使用的微生物信息并从输入部12输入，使两者数据组合形成矩阵数据，与用于预测规则的主成分得分同时地，预先计算用于预测的主成分得分。

预测规则生成部14是基于主成分分析部13所计算出的构成微生物信息的时间序列数据的各时刻的数据的主成分得分和输入部12所输入的与构成该时间序列数据的各时刻的数据相对应的水质信息生成预测规则的预测规则生成单元，该预测规则用于根据多种微生物或碱基序列各自的存在比例预测水处理后的水质。图2是主成分得分与作为水质信息的基础的BOD的时间序列数据的例子的曲线图。在图2的曲线图中，横轴表示时间，纵轴表示主成分得分的值和BOD的值。关于主成分得分，示出在进行使用相关矩阵的主成分分析时贡献率第1位至第6位的主成分得分。示出6个好氧槽的主成分得分和6个厌氧槽的主成分得分，总计12个。关于预测规则中使用的主成分得分，从好氧槽、厌氧槽各自的30个主成分得分中选择了10个。多条线S各自表示主成分得分的值。此外，线B表示BOD的值。

预测规则根据某一时间点(微生物群落观测时，例如图2的实线L1所示的时间点)处的主成分得分来预测该时间点和该时间点之后的水质状态，例如，用于预测从该时间点起的预先设定的时期(例如至图2的虚线L2所示的时间点为止的期间)内BOD是否超过预先设定的阈值T等。

具体而言，预测规则生成部14基于输入的构成微生物信息的时间序列数据的各时刻的数据的主成分得分和与构成该时间序列数据的各时刻的数据相对应的水质信息进行例如机器学习(基于机器学习的训练)等来生成预测规则。即，输入的构成时间序列数据的各时刻的数据的主成分得分和与构成该时间序列数据的各时刻的数据相对应的水质信息为用于机器学习的正确数据(样品数据)。该机器学习中，将构成微生物信息的时间序列数据的各时刻的数据的主成分得分作为预测规则中的输入(解释变量)，将与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息作为预测规则中的输出(目标变量)。进而，在此可以对用作解释变量的主成分得分进行选择。未必预测中使用的主成分得分的数量越多则预测精度越高，此外，未必所使用的主成分得分的贡献率越高则预测精度越高。进行如下操作：从主成分分析部所计算出的主成分得分中变化各种组合而进行机器学习并评价其预测精度，反复进行该操作，选择预测精度高至某一基准值以上的主成分得分的组合作为解释变量。基准值可以设为例如75％、85％等。

作为机器学习的方法，可以使用例如线性回归模型。此时可以使用贝叶斯估计法。此外，作为线性回归模型之一，可以使用二项离散选择模型或有序离散选择模型。具体而言，可以使用概率单位模型、对数模型、受限因变量模型等。这些模型中也可以使用贝叶斯估计法。或者，可以使用SVM(支持向量机)等。或者，也可以使用贝叶斯网络。预测规则生成部14将表示生成的预测规则的信息输出到预测部15。

预测部15是基于由预测规则生成部14生成的预测规则来进行预测的预测单元，所述预测是预测水处理后的水质。如上所述，预测规则用于根据主成分得分来预测BOD等水质数据在预测时刻和该时刻之后的状态，例如，用于预测从预测时刻起的预先设定的时期内BOD等水质数据是否超过预先设定的阈值等。即，预测部15输入预测对象的主成分得分并基于预测规则进行预测。预测对象为使用了(想进行预测的时间点的)包含微生物群落的活性污泥的水处理系统(的微生物群落)。作为预测对象的水处理系统可以设为与取得用于生成预测规则的数据的水处理系统相同的水处理系统。但是，作为预测对象的水处理系统也可以是取得用于生成预测规则的数据的水处理系统以外的水处理系统。

预测对象的主成分得分与生成预测规则时的微生物信息的时间序列数据的一个时间点的主成分得分同样地求出。即，主成分得分的生成如下进行。测序仪20从存在于作为预测对象的水处理系统的活性污泥中的多种微生物读取基因的碱基序列。测序仪20将表示所读取的作为预测对象的多种微生物各自的碱基序列的信息(序列信息)发送到计算机10。

计算机10中，数据生成部11从测序仪20接收序列信息、并根据该序列信息生成作为预测对象的多种微生物或碱基序列各自的存在比例的数据。该数据例如可以设为包含微生物或碱基序列的种别数要素的向量数据。需要说明的是，该向量数据设为对应于用于生成预测规则的矩阵数据。即，每种微生物或碱基序列的存在比例的值的顺序和微生物或碱基序列的种别数(向量数据的要素数)在用于生成预测规则的矩阵数据与预测用向量数据中是相同的。

数据生成部11将生成的预测用微生物或碱基序列的存在比例的向量数据输出到输入部12。输入部12输入该向量数据后输出到主成分分析部13。主成分分析部13输入该向量数据、基于生成预测规则时所进行的主成分分析来计算出该向量数据的主成分得分。主成分分析部13将所计算出的主成分得分输出到预测部15。此外，预测对象的主成分得分也可以在求出生成预测规则时的微生物信息的时间序列数据的主成分得分时同时求出。即，通过增加用于生成预测规则的矩阵数据(微生物种别数×时间点)的时间点并组入预测用向量数据，从而可以预先计算出。

预测部15将从主成分分析部13输入的预测对象的主成分得分输入到预测规则、得到来自预测规则的输出并作为预测结果。预测结果是与所生成的预测规则相应的，在本实施方式所示的例子中，是表示从预测时刻起的预先设定的时期(例如一周)内BOD等水质数据是否超过预先设定的阈值的信息。预测部15将所得到的预测结果输出。预测结果的输出例如通过在计算机10所具备的显示器等显示装置中显示而进行。此外，预测结果的输出例如也可以通过发送到其它装置或计算机10中的其它模块而进行。以上为本实施方式的计算机10的功能。

接下来，使用图3和图4的流程图来说明本实施方式的预测规则生成系统1所执行的处理(预测规则生成系统1的操作方法)、即预测规则生成方法和预测方法。首先使用图3的流程图来说明生成预测规则时所执行的处理。本处理中，首先利用测序仪20读取构成水处理系统所用的微生物群落的微生物的基因的碱基序列(S01、读取步骤)。在此，读取多个时间点的构成微生物群落的微生物的基因的碱基序列。所读取的碱基序列数据从测序仪20输出到计算机10。

在计算机10中，由测序仪20发送的碱基序列数据被数据生成部11接收。接下来，利用数据生成部11基于碱基序列数据来生成微生物信息的时间序列数据(S02、数据生成步骤)。如上所述，所生成的时间序列数据为微生物或碱基序列的种别数×时间序列的时间点数的矩阵数据。接下来，所生成的时间序列数据从数据生成部11输入到输入部12。此外，利用输入部12，与时间序列数据的输入一并地输入上述时间点数据各自的水质信息(S03、输入步骤)。水质信息的输入例如通过定期或不定期更新的数据文件的读入、或接受用户对计算机10的水质信息的输入操作来进行。

所输入的微生物信息的时间序列数据从输入部12输出到主成分分析部13。此外，所输入的水质信息从输入部12输出到预测规则生成部14。接下来，利用主成分分析部13对微生物信息的时间序列数据进行主成分分析(S04、主成分分析步骤)。由主成分分析得到的构成时间序列数据的各时刻的数据的主成分得分从主成分分析部13输出到预测规则生成部14。

接下来，利用预测规则生成部14，基于从主成分分析部13输入的主成分得分和从输入部12输入的与构成该时间序列数据的各时刻的数据相对应的水质信息，生成预测规则(S05、预测规则生成步骤)。如上所述，预测规则的生成例如通过机器学习来进行，所述机器学习将主成分得分作为预测规则中的输入(解释变量)、将水质信息作为预测规则中的输出(目标变量)。将表示所生成的预测规则的信息从预测规则生成部14输出到预测部15。以上为生成预测规则时所执行的处理。

接下来，使用图4的流程图来说明预测时所执行的处理。在本处理中，首先利用测序仪20读取预测对象时间点的构成水处理系统所用的微生物群落的微生物的基因的碱基序列(S11、读取步骤)。所读取的碱基序列数据从测序仪20输出到计算机10。

在计算机10中，测序仪20所发送的碱基序列数据被数据生成部11接收。接下来，利用数据生成部11基于碱基序列数据来生成微生物或碱基序列各自的存在比例的数据(S12、数据生成步骤)。如上所述，所生成的数据为包含微生物或碱基序列的种别数要素的向量数据。接下来，所生成的数据从数据生成部11输入到输入部12(S13、输入步骤)。

所输入的数据由输入部12被输出到主成分分析部13。接下来，利用主成分分析部13基于生成预测规则时的主成分分析计算出所输入的数据的主成分得分(S14、主成分分析步骤)。利用主成分分析得到的数据的主成分得分从主成分分析部13输出到预测部15。

接下来，利用预测部15基于预测规则生成部14所生成的预测规则、并根据主成分分析部13所输入的主成分得分进行水质的预测(S15、预测步骤)。表示预测结果的信息例如以用户能够识别的方式来显示。以上为预测时所执行的处理。

如上所述，根据本实施方式，基于微生物信息的时间序列数据和与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息来生成预测规则。因此，与仅使用水质、生物反应槽的运转参数的时间序列数据进行预测时不同，可以进行考虑了活性污泥中的微生物群落的状态的预测。由此，与仅使用水质、生物反应槽的运转参数的时间序列数据的预测相比，可以更高精度地进行预测。

此外，根据本实施方式，进行主成分分析。通常，存在于活性污泥中的微生物种类数庞大。通过对微生物信息的时间序列数据进行主成分分析，从而可以在引入全部信息而不遗漏信息量的情况下以较少变量来表现微生物信息。通过如本实施方式这样进行主成分分析，可以减少预测规则的生成中所用的变量来可靠地进行预测规则的生成。即，根据本实施方式，可以生成高精度且可靠地预测水处理后的水质的预测规则。

如本实施方式所示，主成分分析可以使用相关矩阵。通过进行使用相关矩阵的主成分分析，从而与使用方差协方差矩阵时相比，即使进行主成分分析，也可以生成更好地反映少数种微生物(存在比例小的微生物)的行为的预测规则。有时少数种微生物的行为会影响水处理后的水质。因此，根据该构成，可以生成进行更高精度预测的预测规则。但是，如上所述，根据存在于活性污泥中的微生物的构成等，也可以使用方差协方差矩阵。

此外，如本实施方式所示，可以通过机器学习来生成预测规则。根据该构成，可以可靠地生成预测规则。但是，并非必需使用机器学习，也可以通过其以外的方法来生成预测规则。例如，可以使用时间序列分析来生成预测规则。具体而言，可以使用多变量自回归(VAR)模型等时间序列分析。

此外，如本实施方式所示，读取微生物的基因的碱基序列的测序仪20可以包含于预测规则生成系统1、并且基于所读取的碱基序列来生成时间序列数据。根据该构成，可以可靠地输入微生物或碱基序列的存在比例的时间序列数据，可以可靠地实施本发明的一实施方式。但是，预测规则生成系统1并非必需包含测序仪20。即，预测规则生成系统1(的计算机10的输入部12)也可以从外部输入微生物信息的时间序列数据。

此外，如本实施方式所示，可以具有使用所生成的预测规则进行预测的构成。即，预测规则生成系统1可以如本实施方式所示兼具预测系统。根据该构成，可以进行基于所生成的预测规则的预测。但是，预测并非必需在预测规则生成系统1中进行，也可以利用预测规则生成系统1以外的装置或系统来进行。这种情况下，预测规则生成系统1所生成的预测规则被输出到该预测规则生成系统1以外的预测系统。该预测系统具有上述预测规则生成系统1的预测功能。

接下来，说明使用由本实施方式的预测规则生成系统1生成的预测规则的预测结果的例子。图5示出该预测结果的例子的曲线图。图5中的横轴为时间轴。横轴上的一个点相当于上述一个时间点。纵轴表示从该时间点(预测时刻)起的一周内BOD是否超过预先设定的阈值，即有突发(一周内BOD超过阈值)、无突发(一周内BOD未超过阈值)。该例子中，示出了作为生成预测规则时的机器学习的方法使用基于贝叶斯估计法的使用二项概率单位模型(线性回归模型)时、和使用SVM时的结果。在图5中，虚线左侧的数据为机器学习的训练中使用的数据，虚线右侧的数据为机器学习的训练中未使用的数据。使用概率单位模型时和使用SVM时各自的值为使用预测规则的预测结果(来自预测规则的输出)。

如图5也示出那样，在使用概率单位模型作为机器学习的方法时，机器学习的训练中未使用的数据的输出与实测79％一致。使用SVM作为机器学习的方法时，机器学习的训练中未使用的数据的输出与实测81％一致。即，本实施方式的方法的预测率大约为80％，为较高的值。在图5所示的例子中，使用利用半年的训练数据(虚线左侧的数据)制作的预测模型(预测规则)，对此后的半年应用预测规则预测了BOD值。具体而言，在此后半年的微生物存在比例的时间序列数据的各时间点，进行BOD是否超过阈值的预测。可以认为，如果使用以即将预测前(例如1～两周前)所取得的数据为基础更新制作的预测规则，则预测率会进一步提高。在日常的水质管理中，可以一边加入新取得的数据以更新预测规则、一边进行预测。

接下来，对上述实施方式的变形例进行说明。在上述实施方式中，作为向预测规则的输入，为微生物或碱基序列的存在比例的数据，但在此基础上也可以输入其以外的数据。作为其以外的数据，可以使用例如：在以往的水质预测中使用的处理后的水(废水)的水质数据、生物反应槽的运转参数。具体而言，为COD(化学需氧量)、温度、TOC、TN等水质数据；pH、废水品种、溶解氧量(DO)、氧化还原电位(ORP)等生物反应槽的运转参数。或者，也可以使用作为处理对象的水向水处理系统中的流入条件数据。此外，在对废水品种进行切换而使用的废水处理系统的情况下，还可以将在该时刻或者其前后进行处理的废水品种作为数据使用。在使用微生物或碱基序列的存在比例的数据以外的数据时，对于这些数据，也可以准备正确数据进行机器学习。还可以将这些数据合并并选择预测精度高的数据组合。通过增加作为预测基础的数据，可以生成精度更高的预测规则。通过将能以高频度取得的数据组合，可以进行更精细的水质管理(预测)。

在上述实施方式中，预测的水质是从预测时刻起的预先设定的时期内BOD是否超过预先设定的阈值，但本发明所生成的预测规则只要是对水质相关指标进行预测即可，也可以对BOD以外的水质进行预测。例如，可以列举COD、TOC、TN等水质的预测。不仅可以预测水质的值是否超过阈值，也可以进行以一定范围划分多个水平时落入哪一水平的预测、或大致推测值的预测。

标号说明

1…预测规则生成系统、10…计算机、11…数据生成部、12…输入部、13…主成分分析部、14…预测规则生成部、15…预测部、20…测序仪。

Claims

1.一种预测规则生成系统，其具备：

输入单元，其输入存在于进行水处理的活性污泥中的多种微生物各自的存在比例或存在于该活性污泥中的多种碱基序列各自的存在比例的时间序列数据、以及与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息，所述微生物为不限于特定的种的微生物，所述碱基序列为不限于特定的种的微生物的碱基序列；

主成分分析单元，其对所述输入单元所输入的时间序列数据进行主成分分析，计算出构成该时间序列数据的各时刻的数据的主成分得分；以及

预测规则生成单元，其基于所述主成分分析单元所计算出的构成时间序列数据的各时刻的数据的主成分得分、和所述输入单元所输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息生成预测规则，该预测规则用于由多种微生物各自的存在比例或多种碱基序列各自的存在比例预测水处理后的水质。

2.根据权利要求1所述的预测规则生成系统，其中，所述主成分分析单元进行使用相关矩阵的主成分分析。

3.根据权利要求1所述的预测规则生成系统，其中，所述预测规则生成单元通过进行机器学习生成所述预测规则，所述机器学习将所述主成分分析单元所计算出的构成时间序列数据的各时刻的数据的主成分得分作为所述预测规则中的输入、将所述输入单元所输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息作为所述预测规则中的输出。

4.根据权利要求1～3中任一项所述的预测规则生成系统，其中，进一步具备：

读取单元，其从存在于所述活性污泥中的多种微生物读取基因的碱基序列；以及

数据生成单元，其基于所述读取单元所读取的基因的碱基序列生成所述时间序列数据并将其输入到输入单元。

5.一种预测系统，其基于权利要求1～4中任一项所述的预测规则生成系统所生成的预测规则对水处理后的水质进行预测，所述预测系统具备：

输入单元，其输入作为预测对象的多种微生物各自的存在比例或作为预测对象的多种碱基序列各自的存在比例的数据，所述微生物为不限于特定的种的微生物，所述碱基序列为不限于特定的种的微生物的碱基序列；

主成分分析单元，其基于所述预测规则生成系统所进行的主成分分析计算出所述输入单元所输入的所述预测对象的数据的主成分得分；以及

预测单元，其基于所述预测规则生成系统所生成的预测规则，由所述主成分分析单元所计算出的所述预测对象的数据的主成分得分对水处理后的水质进行预测。

6.一种预测规则生成方法，其为预测规则生成系统的操作方法，所述预测规则生成方法包含：

输入步骤，其输入存在于进行水处理的活性污泥中的多种微生物各自的存在比例或存在于该活性污泥中的多种碱基序列各自的存在比例的时间序列数据、以及与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息，所述微生物为不限于特定的种的微生物，所述碱基序列为不限于特定的种的微生物的碱基序列；

主成分分析步骤，其对所述输入步骤中输入的时间序列数据进行主成分分析，计算出构成该时间序列数据的各时刻的数据的主成分得分；以及

预测规则生成步骤，其基于所述主成分分析步骤中计算出的构成时间序列数据的各时刻的数据的主成分得分、和所述输入步骤中输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息生成预测规则，该预测规则用于由多种微生物各自的存在比例或多种碱基序列各自的存在比例预测水处理后的水质。

7.一种预测方法，其为预测系统的操作方法，所述预测系统基于权利要求1～4中任一项所述的预测规则生成系统所生成的预测规则对水处理后的水质进行预测，所述预测方法包含：

输入步骤，其输入作为预测对象的多种微生物各自的存在比例或作为预测对象的多种碱基序列各自的存在比例的数据，所述微生物为不限于特定的种的微生物，所述碱基序列为不限于特定的种的微生物的碱基序列；

主成分分析步骤，其基于所述预测规则生成系统所进行的主成分分析，计算出所述输入步骤中输入的所述预测对象的数据的主成分得分；以及

预测步骤，其基于所述预测规则生成系统所生成的预测规则，由所述主成分分析步骤中计算出的所述预测对象的数据的主成分得分对水处理后的水质进行预测。