CN107531528B - 预测规则生成系统、预测系统、预测规则生成方法和预测方法 - Google Patents
预测规则生成系统、预测系统、预测规则生成方法和预测方法 Download PDFInfo
- Publication number
- CN107531528B CN107531528B CN201680019682.8A CN201680019682A CN107531528B CN 107531528 B CN107531528 B CN 107531528B CN 201680019682 A CN201680019682 A CN 201680019682A CN 107531528 B CN107531528 B CN 107531528B
- Authority
- CN
- China
- Prior art keywords
- data
- prediction
- principal component
- time
- prediction rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 47
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 197
- 244000005700 microbiome Species 0.000 claims abstract description 122
- 238000000513 principal component analysis Methods 0.000 claims abstract description 77
- 239000010802 sludge Substances 0.000 claims abstract description 52
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000010801 machine learning Methods 0.000 claims description 19
- 108090000623 proteins and genes Proteins 0.000 claims description 19
- 241000894007 species Species 0.000 claims description 19
- 108020004414 DNA Proteins 0.000 description 25
- 230000000813 microbial effect Effects 0.000 description 25
- 238000012163 sequencing technique Methods 0.000 description 18
- 239000002773 nucleotide Substances 0.000 description 17
- 125000003729 nucleotide group Chemical group 0.000 description 17
- 230000001580 bacterial effect Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 108091028043 Nucleic acid sequence Proteins 0.000 description 10
- 239000000243 solution Substances 0.000 description 9
- 239000002351 wastewater Substances 0.000 description 9
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 229910052760 oxygen Inorganic materials 0.000 description 8
- 239000001301 oxygen Substances 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 6
- 239000000126 substance Substances 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 108020004465 16S ribosomal RNA Proteins 0.000 description 5
- 102000042567 non-coding RNA Human genes 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 239000006228 supernatant Substances 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 241000894006 Bacteria Species 0.000 description 4
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 4
- 239000011324 bead Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000007621 cluster analysis Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000004065 wastewater treatment Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 108700005443 Microbial Genes Proteins 0.000 description 2
- 241000566145 Otus Species 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 239000012491 analyte Substances 0.000 description 2
- 238000000137 annealing Methods 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000010865 sewage Substances 0.000 description 2
- 238000003756 stirring Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- ISWSIDIOOBJBQZ-UHFFFAOYSA-N Phenol Chemical compound OC1=CC=CC=C1 ISWSIDIOOBJBQZ-UHFFFAOYSA-N 0.000 description 1
- 239000007983 Tris buffer Substances 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 239000000839 emulsion Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000000499 gel Substances 0.000 description 1
- 239000010842 industrial wastewater Substances 0.000 description 1
- 239000012139 lysis buffer Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000033116 oxidation-reduction process Effects 0.000 description 1
- 239000008188 pellet Substances 0.000 description 1
- 239000002504 physiological saline solution Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C02—TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
- C02F—TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
- C02F3/00—Biological treatment of water, waste water, or sewage
- C02F3/02—Aerobic processes
- C02F3/12—Activated sludge processes
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/02—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
- C12Q1/04—Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
- C12Q1/06—Quantitative determination
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/18—Water
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/18—Water
- G01N33/186—Water using one or more living organisms, e.g. a fish
- G01N33/1866—Water using one or more living organisms, e.g. a fish using microorganisms
-
- C—CHEMISTRY; METALLURGY
- C02—TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
- C02F—TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
- C02F2209/00—Controlling or monitoring parameters in water treatment
- C02F2209/003—Downstream control, i.e. outlet monitoring, e.g. to check the treating agents, such as halogens or ozone, leaving the process
-
- C—CHEMISTRY; METALLURGY
- C02—TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
- C02F—TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
- C02F2209/00—Controlling or monitoring parameters in water treatment
- C02F2209/36—Biological material, e.g. enzymes or ATP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02W—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
- Y02W10/00—Technologies for wastewater treatment
- Y02W10/10—Biological treatment of water, waste water, or sewage
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Microbiology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Wood Science & Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Zoology (AREA)
- Medicinal Chemistry (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Food Science & Technology (AREA)
- Water Supply & Treatment (AREA)
- Environmental & Geological Engineering (AREA)
- Hydrology & Water Resources (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Toxicology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Activated Sludge Processes (AREA)
Abstract
本发明生成高精度且可靠地对水处理后的水质进行预测的预测规则。预测规则生成系统(1)的计算机(10)具备:输入部(12),其输入存在于进行水处理的活性污泥中的多种微生物各自的存在比例或存在于该活性污泥中的多种碱基序列各自的存在比例的时间序列数据、以及与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息;主成分分析部(13),其对所输入的时间序列数据进行主成分分析,计算出构成时间序列数据的各时刻的数据的主成分得分;以及,预测规则生成部(14),其基于所计算出的主成分得分和所输入的表示水处理后的水质的水质信息生成预测规则,该预测规则用于由多种微生物各自的存在比例或多种碱基序列各自的存在比例预测水处理后的水质。
Description
技术领域
本发明涉及生成用于预测水处理后的水质的预测规则的预测规则生成系统和预测规则生成方法、以及与它们相关的预测系统和预测方法。
背景技术
期待化学、钢铁等重化工业等中的废水以充分降低了对人、环境生物的影响的状态排放到自然环境中。作为为此而进行的废水处理,进行使用复合微生物体系、即活性污泥的生物处理。通常,为了适当地进行废水处理,对处理后的废水进行水质监测。具体而言,通过测定处理后的废水的生化需氧量(BOD)、化学需氧量(COD)、总有机碳(TOC)、总氮(TN)等水质数据等来进行水质监测。由于作为生物处理中重要管理指标的BOD通常需要5天左右的时间才能得到测定结果,因此有时基于其它水质数据以及温度、pH、溶解氧浓度(DO)等生物反应槽的运转参数来推测当天的BOD。此外,根据当前的废水状态来预测BOD、COD、TOC、TN等水质数据的未来值在管理上也很重要,也有时基于水质的时间序列数据、生物反应槽的运转参数的时间序列数据来进行BOD(生化需氧量)等的预测(参照专利文献1和2)。
现有技术文献
专利文献
专利文献1:日本特开2007-229550号公报
专利文献2:日本特开2007-263723号公报
发明内容
发明所要解决的问题
但是,上述那样的使用水质、生物反应槽的运转参数的时间序列数据的预测并未考虑活性污泥中的微生物群落的状态而进行,有时不能以足够的精度来进行预测。在对多种多样的废水进行处理的情况下,预测变得特别困难。因此,对于处理后的水的状态的预测而言,要求提高预测精度。
本发明是鉴于上述情况而完成的,其目的在于,提供一种可以生成高精度且可靠地进行水处理后的水质的预测的预测规则的预测规则生成系统和预测规则生成方法、以及与它们相关的预测系统和预测方法。
用于解决问题的方法
为了达到上述目的,本发明的一实施方式的预测规则生成系统具备:输入单元,其输入:存在于进行水处理的活性污泥中的多种微生物各自的存在比例或存在于该活性污泥中的多种碱基序列各自的存在比例的时间序列数据(此后有时记作“微生物信息的时间序列数据”)、以及与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息;主成分分析单元,其对输入单元所输入的时间序列数据进行主成分分析,计算出构成该时间序列数据的各时刻的数据的主成分得分;以及,预测规则生成单元,其基于主成分分析单元所计算出的构成时间序列数据的各时刻的数据的主成分得分和输入单元所输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息生成预测规则,该预测规则用于由多种微生物各自的存在比例或多种碱基序列各自的存在比例预测水处理后的水质。作为水处理后的水质,可以列举例如:处理后的水中的生化需氧量(BOD)、化学需氧量(COD)、总有机碳(TOC)或总氮(TN)等。
在本发明的一实施方式的预测规则生成系统中,基于存在于进行水处理的活性污泥中的微生物或碱基序列的存在比例的时间序列数据、和与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息,来生成预测规则。因此,可以进行考虑了活性污泥中的微生物群落的状态的预测,与仅使用水质、生物反应槽的运转参数的时间序列数据的预测相比,可以更高精度地进行预测。
此外,在本发明的一实施方式的预测规则生成系统中,进行主成分分析。通常,存在于活性污泥中的微生物种类数庞大。通过对微生物信息的时间序列数据进行主成分分析,可以在引入全部信息而不遗漏信息量的情况下以较少变量来表现微生物信息。通过如本发明的一实施方式那样进行主成分分析、减少预测规则的生成中所用的变量,从而可以可靠地进行预测规则的生成。即,根据本发明的一实施方式的预测规则生成系统,可以生成高精度且可靠地对水处理后的水质进行预测的预测规则。
主成分分析单元可以进行使用相关矩阵的主成分分析。使用方差协方差矩阵的主成分分析主要反映多数种微生物的行为,与此相对,在如该构成这样进行使用相关矩阵的主成分分析的情况下,虽然需要比使用方差协方差矩阵时多的变量,但可以生成更好地反映少数种微生物(存在比例小的微生物)的行为的预测规则。有时少数种微生物的行为会影响水处理后的水质。因此,根据该构成,可以生成更高精度地进行预测的预测规则。
预测规则生成单元可以通过进行机器学习来生成预测规则,所述机器学习将主成分分析单元所计算出的构成时间序列数据的各时刻的数据的主成分得分作为预测规则中的输入、将输入单元所输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息作为预测规则中的输出。根据该构成,可以可靠地生成预测规则。
预测规则生成系统还可以进一步具备:读取单元,其从存在于活性污泥中的多种微生物读取基因的碱基序列;以及,数据生成单元,其基于读取单元所读取的基因的碱基序列生成时间序列数据并输入到输入单元。根据该构成,可以可靠地输入微生物或碱基序列的存在比例的时间序列数据,可以可靠地实施本发明的一实施方式。
本发明的一实施方式的预测系统基于本发明的一实施方式的预测规则生成系统所生成的预测规则来预测水处理后的水质,该预测系统具备:输入单元,其输入作为预测对象的多种微生物各自的存在比例或作为预测对象的多种碱基序列各自的存在比例的数据;主成分分析单元,其基于预测规则生成系统所进行的主成分分析计算出输入单元所输入的预测对象的数据的主成分得分;以及,预测单元,其基于预测规则生成系统所生成的预测规则,由主成分分析单元所计算出的预测对象的数据的主成分得分预测水处理后的水质。根据本发明的一实施方式的预测系统,可以进行基于预测规则生成系统所生成的预测规的预测。
但是,本发明除了可以如上述那样记载为预测规则生成系统和预测系统的发明以外,还可以如下述那样记载为预测规则生成方法和预测方法的发明。其是仅类型不同、但实质上相同的发明,发挥同样的作用和效果。
即,本发明的一实施方式的预测规则生成方法为预测规则生成系统的操作方法,该预测规则生成方法包含:输入步骤,其输入存在于进行水处理的活性污泥中的多种微生物各自的存在比例或存在于该活性污泥中的多种碱基序列各自的存在比例的时间序列数据、以及与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息;主成分分析步骤,其对输入步骤中输入的时间序列数据进行主成分分析,计算出构成该时间序列数据的各时刻的数据的主成分得分;以及,预测规则生成步骤,其基于主成分分析步骤中计算出的构成时间序列数据的各时刻的数据的主成分得分和输入步骤中输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息生成预测规则,该预测规则用于由多种微生物各自的存在比例或多种碱基序列各自的存在比例预测水处理后的水质。
此外,本发明的一实施方式的预测方法为预测系统的操作方法,所述预测系统基于本发明的一实施方式的预测规则生成系统所生成的预测规则预测水处理后的水质,所述预测方法包含:输入步骤,其输入作为预测对象的多种微生物各自的存在比例或作为预测对象的多种碱基序列各自的存在比例的数据;主成分分析步骤,其基于预测规则生成系统所进行的主成分分析计算出输入步骤中输入的预测对象的数据的主成分得分;以及,预测步骤,其基于预测规则生成系统所生成的预测规则,由主成分分析步骤中计算出的预测对象的数据的主成分得分预测水处理后的水质。
发明效果
根据本发明的一实施方式,可以进行考虑了活性污泥中的微生物群落的状态的预测,与仅使用水质、生物反应槽的运转参数的时间序列数据的预测相比,可以更高精度地进行预测。此外,在本发明的一实施方式中,通过减少预测规则的生成中使用的变量,可以可靠地进行预测规则的生成。即,根据本发明的一实施方式,可以生成高精度且可靠地对水处理后的水质进行预测的预测规则。
附图说明
图1是示出本发明的实施方式的预测规则生成系统的构成的图。
图2是作为存在于活性污泥中的多种微生物各自的存在比例的主成分得分(示出全部主成分得分中的12个)与BOD的时间序列数据的例子的曲线图。
图3是示出利用本发明的实施方式的预测规则生成系统生成预测规则时所执行的处理(预测规则生成方法)的流程图。
图4是示出利用本发明的实施方式的预测规则生成系统进行预测时所执行的处理(预测方法)的流程图。
图5是示出使用所生成的预测规则的预测结果的例子的曲线图。
具体实施方式
以下,与附图一起对本发明的预测规则生成系统、预测系统、预测规则生成方法和预测方法的实施方式进行详细说明。需要说明的是,在附图的说明中,同一要素标记了相同的符号并省略重复说明。
图1示出本实施方式的预测规则生成系统1。预测规则生成系统1是生成用于预测水处理后的水质的预测规则的系统。本实施方式中,作为对象的水处理例如为用于减小工业废水、公共下水、污水等危害自然环境的水对自然环境的影响的处理。此外,该水处理利用使用活性污泥的水处理系统来进行,所述活性污泥含有作为多种微生物的集合的微生物群落。活性污泥中所含的微生物种类数通常为数千~数万以上。此外,该活性污泥通常添加到生物反应槽(bio tank、活性污泥槽)中,通过使作为处理对象的水流入到该生物反应槽内来进行水处理。生物反应槽通常包括好氧槽和厌氧槽。该水处理例如与工厂运行相应地连续进行。需要说明的是,该水处理本身是一直以来都在进行的水处理。
具体而言,预测规则生成系统1生成如下预测规则,该预测规则对从预测时刻起的预先设定的时期(例如一周或两周)内BOD等水质数据是否超过预先设定的阈值进行预测。该阈值例如设为可以判断为与适当地进行了水处理时相比水处理后的水质发生恶化(未适当地进行水处理)的程度的值。此外,该预测规则用于以基于存在于活性污泥中的多种微生物各自的存在比例或存在于活性污泥中的多种碱基序列各自的存在比例的信息作为输入来进行预测。即,该预测规则根据预测时刻的上述存在比例来预测预先设定的时期内有无BOD等水质数据的包括突发性恶化的恶化。此外,预测规则可以用于以多种微生物各自的存在比例和多种碱基序列各自的存在比例这两者作为输入来进行预测。此外,预测规则生成系统1还可以使用已生成的预测规则来进行预测。作为预测对象的水质,除了BOD以外还可以对COD、TOC、TN等同样地进行预测。
如图1所示,预测规则生成系统1包含计算机10和测序仪20而构成。计算机10是承担预测规则生成系统1的主要功能的装置,是生成预测规则并使用预测规则进行预测的装置。具体而言,计算机10具备CPU(Central Processing Unit,中央处理器)、存储器、通信模块等硬件。这些构成要素根据程序等而工作,从而发挥后述的计算机10的功能。
测序仪20是从存在于活性污泥中的多种微生物读取(确定)基因的碱基序列的读取单元。作为测序仪20,可以使用可同时读取(分析)多种微生物基因的所谓新一代测序仪。作为测序仪20,也可以使用现有的测序仪,例如罗氏公司制造的GS Junior System测序仪、罗氏公司制造的GS FLX+System测序仪、或者Illumina公司制造的MiSeqSystem测序仪。此外,测序仪20可以读取16S核糖体RNA基因的碱基序列作为微生物基因的碱基序列。其原因在于,16S核糖体RNA基因的碱基序列是对于每一微生物种别而言相对特征性的序列。需要说明的是,为了读取16S核糖体RNA基因的碱基序列,预先制备从活性污泥采集并输入到测序仪20的测序用样品(污泥样品)。活性污泥例如从好氧槽和厌氧槽分别采集。测序用样品的制备、和碱基序列的读取(测序)例如可以如下进行。
[微生物群落的DNA的制备]
从活性污泥采集约1.5ml的含微生物群的溶液,在室温下离心(13,000rpm×5分钟)。除去上清后加入1ml灭菌生理盐水,颠倒混合5秒左右,然后在室温下离心(13,000rpm×5分钟)。除去上清后,加入300μl裂解缓冲液(AMR公司制造)并充分混合后,将所得到的悬浮液添加到加入了珠子的管(Easy Extract for DNA(AMR公司制造))中后,用涡旋混合器进行2分钟的搅拌破碎。在破碎液中添加300μl的TE溶液(10mM Tris、1mM EDTA、pH8.0)(以下记作TE),在4℃下离心(13,000rpm×5分钟)。然后,将450μl上清液加入到新管中,向其中加入600μl的苯酚混合液(Easy Extract for DNA所附带的(AMR公司制造)),进行1分钟的涡旋混合、搅拌后,在4℃下离心(13,000rpm×5分钟)。回收300μl上清并加入到新管(1.5ml)中,在其中加入1200μl的乙醇(99.5%),在4℃下离心(13,000rpm×5分钟)。除去上清后,加入1000μl的冷乙醇(70%),在4℃下离心(13,000rpm×5分钟),将得到的DNA片状沉淀物真空干燥,然后加入150μl的TE,作为细菌群落DNA的溶液。
[16S核糖体RNA基因的V3-V4区域的PCR扩增]
测定细菌群落DNA的溶液中的双链DNA浓度,基于其测定值而以50ng的DNA为模板,使用通用引物组(正向引物fw357F(序列号1)和反向引物RV926r(序列号2)),对16S核糖体RNA基因(以下记作16S基因)的V3-V4区域进行PCR扩增。关于PCR,使用宝生物公司制造的“Premix Ex Taq Hot Start Version”(注册商标),制作50μl的含有50pmol各引物的反应液,在94℃下预热2分钟后,分别以98℃×10秒、50℃×30秒、72℃×80秒进行变性、退火、延伸,重复25个循环。
以下示出正向引物HA13621-fw357F的序列结构。该正向引物在5’末端侧含有用测序仪20进行序列确定所需的接头A序列(以大写字母示出)、夹着各被测物所特有的10个碱基的条形码序列,且在3’末端侧含有与全部真细菌的16S基因退火的通用引物序列fw357F(以小写字母示出)。上述条形码序列是用于样品间的识别、同时与供于测序仪20的样品数对应的任意设计的碱基序列。
接头A序列(序列号3)
5’-CCATCTCATCCCTGCGTGTCTCCGACTCAG-3’
通用引物序列fw357F(序列号1)
5’-cctacgggaggcagcag-3’
对上述条形码序列的作用进行说明。例如,在同时进行10个被测物的分析时,可以制作10套具有不同条形码序列的HA13621-fw357F,并使用各套对各被测物进行PCR扩增。在将这些混合并供于测序仪20时,在利用通过1次运行可以得到100万个数据的GS FLX+System测序仪的情况下,通过使用与100个被测物对应的100套条形码序列,可以通过1次运行得到1万个数据/被测物的序列数据。
以下示出反向引物HA13619-RV926r的序列结构。该反向引物在5’末端侧含有用测序仪20进行序列确定所需的接头B序列(以大写字母示出)、且在3’末端侧含有与全部真细菌的16S基因退火的通用引物序列RV926r(以小写字母示出)。
HA13619-RV926r的序列(序列号4)
5’-CCTATCCCCTGTGTGCCTTGGCAGTCTCAGccgtcaattccttttragttt-3’
通过使用上述通用引物组的PCR,可以扩增构成细菌群落的各种细菌种的包含16S基因的V3-V4区域的DNA(约570个碱基),并以其PCR产物DNA形式得到它们的混合物。
[PCR产物的生成和测序用样品的制备]
将从各个细菌群落DNA得到的PCR产物DNA(构成该细菌群落的各种细菌种的包含16S基因的V3-V4区域的DNA的混合物)混合,用DNA CLEANER(和光纯药公司制造)处理以除去过量的引物、底物核苷酸等而进行纯化。纯化DNA在用200μl的TE洗脱后回收。然后,将所回收的纯化DNA溶液供于琼脂糖凝胶电泳,切出约570bp的DNA片段,用MinElute GelExtractionKit(Qiagen公司制造)提取,从而制备供于测序仪20的DNA。将其作为用于以下测序的测序用样品。
[16S基因的测序和序列数据的精度评价]
将上述测序用样品供于作为测序仪20的罗氏公司制造的GS FLX+System测序仪,进行测序。测序的条件和步骤等按照制造商规定的操作说明。需要说明的是,在该测序仪中,将上述制备的PCR产物DNA的1分子固定在1个珠子上,然后将珠子一个一个地捕捉到在水(含有用于扩增测序用模板DNA的PCR引物、底物核苷酸、DNA合成酶)与油的乳液中独立形成的一个一个的微小水滴中,在其中进行PCR,从而扩增、制备测序用模板DNA。因此,通过在滴定板上将固定有该扩增出的模板DNA的各珠子分区后、在该分区位置上读取测序反应的信号,从而可以随机地确定上述测序用样品中所含的PCR产物DNA(构成该细菌群落的各个细菌种的包含16S基因的V3-V4区域的DNA的混合物)的碱基序列。此外,如果预先将正向引物HA13621-fw357F中的上述条形码序列设为来自各样品的各被测物的特征性的任意序列,则可以使用GS FLX+System测序仪对约100种细菌群落样品进行同时分析,可以用约10~23小时对来自某一活性污泥的样品确定2,000~10,000个16S基因的序列数据。即,能够不受菌种限定地对活性污泥中所含的细菌群落进行包罗性分析。
以上为进行测序用样品的制备、和碱基序列的读取的方法的一例。需要说明的是,测序用样品的制备、和碱基序列的读取还可以通过上述方法以外的方法来进行。测序仪20与计算机10可以以能进行信息的发送和接收的方式来连接。测序仪20将所读取的表示各微生物的碱基序列的信息(序列信息)发送到计算机10。这里,被发送到计算机的序列信息为利用测序仪20测序而得的原始的序列数据、即所谓的粗序列数据。
接下来说明本实施方式的计算机10的功能。如图1所示,计算机10具备数据生成部11、输入部12、主成分分析部13、预测规则生成部14和预测部15而构成。
数据生成部11是从测序仪20接收测序仪20所读取的存在于活性污泥中的多种微生物的碱基序列、并生成用于基于该碱基序列生成预测规则的数据的数据生成单元。用于生成预测规则的数据为存在于活性污泥中的多种微生物各自的存在比例(存在概率)的时间序列数据。该存在比例是各微生物种别(微生物种、菌种)的、该活性污泥中所含的该种别的微生物数量相对于活性污泥中所含的全部微生物数量的比例。其中,在难以严密地把握该比例的情况下,不需要严密地为相对于全部微生物数量的数量比例,为接近预测规则的生成所需程度的比例即可。此外,该数据为对于同一活性污泥(作为预测对象的活性污泥)表示在多个时间点(时刻)的存在比例的数据,即为时间序列数据。这里所谓的时间序列数据是指在某一定时期内的多个时间点取得的数据,各测定时刻的间隔可以恒定也可以不恒定。为了提高预测精度,可以以几乎恒定的时间间隔来取得。例如为多周内的每隔一周的存在比例的数据。即,每隔一周从活性污泥采集含微生物群的溶液,并计算出存在比例。因此,该数据例如可以形成微生物种别数×时间序列的时间点数的矩阵数据。
此外,在活性污泥层分为好氧槽和厌氧槽的情况下,可以得到好氧槽和厌氧槽各自的存在比例的数据并形成不同的时间序列数据,将两者用于此后的处理。作为微生物的种,不限于与被处理水中的处理对象物质的分解相关的微生物等特定的种,而是随机地设定分析对象。微生物的种别数根据活性污泥而不同,达到2万左右的数量。可以从适当得到的全部微生物种中选择存在比例大的种,并使用全部微生物种数的50%以上数量的微生物种的数据,进而可以使用75%以上。适当得到的微生物种是指例如如后述那样,在利用OTU分析得到的全部OTU种中除序列数据数(序列数的计数)非常少(例如1、2或3)的种以外的种。就微生物种数的选择而言,计算出构成微生物信息的时间序列数据的各时刻的数据中各微生物种的存在比例,对每一微生物种求出全部时刻的存在比例之和,将其作为各微生物种的存在比例,从其存在比例大的种中进行选择。此外,时间点数量为例如相当于半年的数据的时间点数量。即,时间点数量为数十至数百左右。在上述的数据生成和以下的数据处理中,也可以使用存在于活性污泥中的多种碱基序列的各自的存在比例来代替微生物的存在比例,还可以使用微生物的存在比例和碱基序列的存在比例两者。
例如,数据生成部11按照以下方式进行该数据的生成。数据生成部11从测序仪20接收粗序列数据。需要说明的是,从测序仪20接收的粗序列数据为多个时间点的活性污泥的数据,设为可以对于各时间点推测活性污泥中所含的多种微生物或碱基序列各自的存在比例的程度的数量的数据。即,按照可得到这样的数据的方式利用测序仪20进行测序。上述多个时间点相当于时间序列数据的各时间点。
对于所得到的粗序列数据(例如,上述例子中为约570个碱基/数据),数据生成部11基于序列数据中所含的样品固有的条形码序列将各序列分配到各固有的样品(相当于时间序列数据的各时间点)。数据生成部11除去该序列数据的序列长度不足200、为1000以上、与通用引物序列(fw357F)的错配为1以上、用测序仪附带的质量程序求出的序列确定了的碱基序列的平均质量值为25以下的序列数据,从而提取高精度数据。
数据生成部11将所取得的高精度序列数据供于基于聚类分析(相似度95%、97%、或99%的阈值)的运算分类单元(Operational Taxonomic Unit)分析(以下记作OTU分析)。在OTU分析中,进行以序列数据的相似度为基准将各序列数据分组的操作。在此检测彼此具有95%以上的序列相似度的序列数据的聚类组(以下记作OTU)。需要说明的是,序列数据的聚类分析可以使用现有技术、例如免费软件Uclust等来进行。可以推测各OTU基本来自同种细菌(微生物)。从而可以认为,利用聚类分析得到的OTU的总数(OTU数)在可检测范围内与构成该细菌群落(微生物群落)的细菌种(微生物种)数等价。数据生成部11对代表各聚类组的碱基序列、即代表序列数据进行确定。代表序列数据的确定可以使用此前一直使用的方法来进行。
此外,根据各OTU中所含的序列数据数可以求出总序列数据数中的各OTU的比例,即菌种组成比或碱基序列组成比,也即上述存在比例。进而,通过对各OTU的代表序列数据在上述16S基因和细菌基因组数据库中进行同源性检索,从而可以归属于具有最高序列相似度的已知菌种,即鉴定OTU的菌种。需要说明的是,尽管本实施方式中未必需要对菌种进行鉴定,但由于可以把握活性污泥中具体包含哪种菌种的细菌,因而对预测结果的分析等有益。另外,对于构成微生物信息的时间序列数据的全部时刻数据中所包含的序列数据数(序列数的计数)非常少(例如1、2或3)的OTU(聚类组)而言,多数情况下并非有效的信息,有时会成为计算上的噪声,因此可以预先从时间序列数据中去除。
数据生成部11通过对于多个时间点计算出上述每种细菌或每种碱基序列的存在比例而例如以上述矩阵的形式生成时间序列数据。数据生成部11将所生成的时间序列数据输出到输入部12。
输入部12是输入上述微生物信息的时间序列数据和与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息的输入单元。对于上述微生物信息的时间序列数据,输入部12从数据生成部11输入。水质信息表示该时间点的水质状态,例如表示从时间序列数据中的上述时间点(从活性污泥采集含微生物群落的溶液的时间点)起的预先设定的时期(例如一周)内,BOD等水质数据是否超过预先设定的阈值等。该阈值与上述预测规则的阈值相同。水质信息可以通过对水处理后的水测定BOD等水质数据而得到。BOD等水质数据的测定虽优选为每天等的高频度,但根据上述时期来进行即可。例如,在水质信息表示一周以内BOD等水质数据是否超过预先设定的阈值时,一周内进行2次左右的测定即可。例如,在一周以内BOD等水质数据超过预先设定的阈值时,水质信息设为1,此外则设为0。
例如,通过接受用户对计算机10的水质信息的输入操作,从而输入水质信息。该水质信息是微生物信息的时间序列数据中上述每一时间点的数据的信息、即包含时间序列的时间点数的信息。输入部12输入与每一时间点数据相对应的水质信息。例如,输入到计算机10中的水质信息与表示为哪个时间点的水质信息的信息相对应。需要说明的是,输入部12可以输入时间序列的BOD等水质数据的值、判断该值从上述时间点起的一周内是否超过阈值并生成上述水质信息。该时间序列的BOD等水质数据的时间点也可以与微生物信息的时间序列数据的时间点不同。
输入部12所输入的信息中,微生物信息的时间序列数据对应于向由预测规则生成系统1生成的预测规则输入的数据。此外,水质信息对应于利用由预测规则生成系统1生成的预测规则预测的水质。输入部12将所输入的信息中的微生物信息的时间序列数据输出到主成分分析部13。输入部12将所输入的信息中的水质信息输出到预测规则生成部14。
主成分分析部13是对输入部12所输入的微生物信息的时间序列数据进行主成分分析、计算出构成该时间序列数据的各时刻的数据的主成分得分的主成分分析单元。如上所述,时间序列数据为矩阵数据,因此可以进行主成分分析。主成分分析部13以计算出构成时间序列数据的各时刻的数据、即各时间点的存在于活性污泥中的微生物或碱基序列的存在比例的数据的主成分得分的方式来进行。即,以压缩矩阵数据的微生物或碱基序列的种别数(变量)的方式进行主成分分析。在从好氧槽和厌氧槽取得微生物信息的时间序列数据时,将两者的数据一并进行主成分分析。此时,对于好氧槽、厌氧槽各自的微生物信息的时间序列数据计算出主成分得分。
具体而言,主成分分析部13还可以考虑存在于活性污泥中的微生物对水处理的性质而进行使用相关矩阵的主成分分析。即,在将微生物信息的时间序列数据变换为相关矩阵后,进行主成分分析。通过进行使用相关矩阵的主成分分析,从而可以反映少数种微生物的行为。但是,根据存在于活性污泥中的微生物的构成等,也可以使用方差协方差矩阵。主成分分析可以使用现有的数据包软件等来进行。
例如,对于各个构成微生物信息的时间序列数据的各时刻的数据,主成分分析部13将累计贡献率达到预先设定的阈值(例如80%)以上的数量的主成分得分作为后续处理中使用的主成分得分。此外,主成分分析部13也可以将按照贡献率由高到低的顺序预先设定的数量的主成分得分作为后续处理中使用的主成分得分。此外,还可以将此外的任意种类的主成分得分作为后续处理中使用的主成分得分。后续处理中使用的主成分得分数量可以考虑后续处理的处理负担等大致(对于构成时间序列数据的各时刻的数据)设为十几至几十左右。为了如后述那样在预测部选择所使用的主成分得分,在此计算出较多数量的主成分得分。主成分分析部13进行计算、并将作为后续处理中使用的主成分得分的构成时间序列数据的各时刻的数据的主成分得分输出到预测规则生成部14。此外,为了进行基于预测规则的预测,主成分分析部13预先存储用于根据微生物或碱基序列的存在比例的向量数据计算出主成分得分的信息。或者,可以预先在数据生成部11同时生成预测规则中使用的微生物信息的时间序列数据和预测中使用的微生物信息并从输入部12输入,使两者数据组合形成矩阵数据,与用于预测规则的主成分得分同时地,预先计算用于预测的主成分得分。
预测规则生成部14是基于主成分分析部13所计算出的构成微生物信息的时间序列数据的各时刻的数据的主成分得分和输入部12所输入的与构成该时间序列数据的各时刻的数据相对应的水质信息生成预测规则的预测规则生成单元,该预测规则用于根据多种微生物或碱基序列各自的存在比例预测水处理后的水质。图2是主成分得分与作为水质信息的基础的BOD的时间序列数据的例子的曲线图。在图2的曲线图中,横轴表示时间,纵轴表示主成分得分的值和BOD的值。关于主成分得分,示出在进行使用相关矩阵的主成分分析时贡献率第1位至第6位的主成分得分。示出6个好氧槽的主成分得分和6个厌氧槽的主成分得分,总计12个。关于预测规则中使用的主成分得分,从好氧槽、厌氧槽各自的30个主成分得分中选择了10个。多条线S各自表示主成分得分的值。此外,线B表示BOD的值。
预测规则根据某一时间点(微生物群落观测时,例如图2的实线L1所示的时间点)处的主成分得分来预测该时间点和该时间点之后的水质状态,例如,用于预测从该时间点起的预先设定的时期(例如至图2的虚线L2所示的时间点为止的期间)内BOD是否超过预先设定的阈值T等。
具体而言,预测规则生成部14基于输入的构成微生物信息的时间序列数据的各时刻的数据的主成分得分和与构成该时间序列数据的各时刻的数据相对应的水质信息进行例如机器学习(基于机器学习的训练)等来生成预测规则。即,输入的构成时间序列数据的各时刻的数据的主成分得分和与构成该时间序列数据的各时刻的数据相对应的水质信息为用于机器学习的正确数据(样品数据)。该机器学习中,将构成微生物信息的时间序列数据的各时刻的数据的主成分得分作为预测规则中的输入(解释变量),将与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息作为预测规则中的输出(目标变量)。进而,在此可以对用作解释变量的主成分得分进行选择。未必预测中使用的主成分得分的数量越多则预测精度越高,此外,未必所使用的主成分得分的贡献率越高则预测精度越高。进行如下操作:从主成分分析部所计算出的主成分得分中变化各种组合而进行机器学习并评价其预测精度,反复进行该操作,选择预测精度高至某一基准值以上的主成分得分的组合作为解释变量。基准值可以设为例如75%、85%等。
作为机器学习的方法,可以使用例如线性回归模型。此时可以使用贝叶斯估计法。此外,作为线性回归模型之一,可以使用二项离散选择模型或有序离散选择模型。具体而言,可以使用概率单位模型、对数模型、受限因变量模型等。这些模型中也可以使用贝叶斯估计法。或者,可以使用SVM(支持向量机)等。或者,也可以使用贝叶斯网络。预测规则生成部14将表示生成的预测规则的信息输出到预测部15。
预测部15是基于由预测规则生成部14生成的预测规则来进行预测的预测单元,所述预测是预测水处理后的水质。如上所述,预测规则用于根据主成分得分来预测BOD等水质数据在预测时刻和该时刻之后的状态,例如,用于预测从预测时刻起的预先设定的时期内BOD等水质数据是否超过预先设定的阈值等。即,预测部15输入预测对象的主成分得分并基于预测规则进行预测。预测对象为使用了(想进行预测的时间点的)包含微生物群落的活性污泥的水处理系统(的微生物群落)。作为预测对象的水处理系统可以设为与取得用于生成预测规则的数据的水处理系统相同的水处理系统。但是,作为预测对象的水处理系统也可以是取得用于生成预测规则的数据的水处理系统以外的水处理系统。
预测对象的主成分得分与生成预测规则时的微生物信息的时间序列数据的一个时间点的主成分得分同样地求出。即,主成分得分的生成如下进行。测序仪20从存在于作为预测对象的水处理系统的活性污泥中的多种微生物读取基因的碱基序列。测序仪20将表示所读取的作为预测对象的多种微生物各自的碱基序列的信息(序列信息)发送到计算机10。
计算机10中,数据生成部11从测序仪20接收序列信息、并根据该序列信息生成作为预测对象的多种微生物或碱基序列各自的存在比例的数据。该数据例如可以设为包含微生物或碱基序列的种别数要素的向量数据。需要说明的是,该向量数据设为对应于用于生成预测规则的矩阵数据。即,每种微生物或碱基序列的存在比例的值的顺序和微生物或碱基序列的种别数(向量数据的要素数)在用于生成预测规则的矩阵数据与预测用向量数据中是相同的。
数据生成部11将生成的预测用微生物或碱基序列的存在比例的向量数据输出到输入部12。输入部12输入该向量数据后输出到主成分分析部13。主成分分析部13输入该向量数据、基于生成预测规则时所进行的主成分分析来计算出该向量数据的主成分得分。主成分分析部13将所计算出的主成分得分输出到预测部15。此外,预测对象的主成分得分也可以在求出生成预测规则时的微生物信息的时间序列数据的主成分得分时同时求出。即,通过增加用于生成预测规则的矩阵数据(微生物种别数×时间点)的时间点并组入预测用向量数据,从而可以预先计算出。
预测部15将从主成分分析部13输入的预测对象的主成分得分输入到预测规则、得到来自预测规则的输出并作为预测结果。预测结果是与所生成的预测规则相应的,在本实施方式所示的例子中,是表示从预测时刻起的预先设定的时期(例如一周)内BOD等水质数据是否超过预先设定的阈值的信息。预测部15将所得到的预测结果输出。预测结果的输出例如通过在计算机10所具备的显示器等显示装置中显示而进行。此外,预测结果的输出例如也可以通过发送到其它装置或计算机10中的其它模块而进行。以上为本实施方式的计算机10的功能。
接下来,使用图3和图4的流程图来说明本实施方式的预测规则生成系统1所执行的处理(预测规则生成系统1的操作方法)、即预测规则生成方法和预测方法。首先使用图3的流程图来说明生成预测规则时所执行的处理。本处理中,首先利用测序仪20读取构成水处理系统所用的微生物群落的微生物的基因的碱基序列(S01、读取步骤)。在此,读取多个时间点的构成微生物群落的微生物的基因的碱基序列。所读取的碱基序列数据从测序仪20输出到计算机10。
在计算机10中,由测序仪20发送的碱基序列数据被数据生成部11接收。接下来,利用数据生成部11基于碱基序列数据来生成微生物信息的时间序列数据(S02、数据生成步骤)。如上所述,所生成的时间序列数据为微生物或碱基序列的种别数×时间序列的时间点数的矩阵数据。接下来,所生成的时间序列数据从数据生成部11输入到输入部12。此外,利用输入部12,与时间序列数据的输入一并地输入上述时间点数据各自的水质信息(S03、输入步骤)。水质信息的输入例如通过定期或不定期更新的数据文件的读入、或接受用户对计算机10的水质信息的输入操作来进行。
所输入的微生物信息的时间序列数据从输入部12输出到主成分分析部13。此外,所输入的水质信息从输入部12输出到预测规则生成部14。接下来,利用主成分分析部13对微生物信息的时间序列数据进行主成分分析(S04、主成分分析步骤)。由主成分分析得到的构成时间序列数据的各时刻的数据的主成分得分从主成分分析部13输出到预测规则生成部14。
接下来,利用预测规则生成部14,基于从主成分分析部13输入的主成分得分和从输入部12输入的与构成该时间序列数据的各时刻的数据相对应的水质信息,生成预测规则(S05、预测规则生成步骤)。如上所述,预测规则的生成例如通过机器学习来进行,所述机器学习将主成分得分作为预测规则中的输入(解释变量)、将水质信息作为预测规则中的输出(目标变量)。将表示所生成的预测规则的信息从预测规则生成部14输出到预测部15。以上为生成预测规则时所执行的处理。
接下来,使用图4的流程图来说明预测时所执行的处理。在本处理中,首先利用测序仪20读取预测对象时间点的构成水处理系统所用的微生物群落的微生物的基因的碱基序列(S11、读取步骤)。所读取的碱基序列数据从测序仪20输出到计算机10。
在计算机10中,测序仪20所发送的碱基序列数据被数据生成部11接收。接下来,利用数据生成部11基于碱基序列数据来生成微生物或碱基序列各自的存在比例的数据(S12、数据生成步骤)。如上所述,所生成的数据为包含微生物或碱基序列的种别数要素的向量数据。接下来,所生成的数据从数据生成部11输入到输入部12(S13、输入步骤)。
所输入的数据由输入部12被输出到主成分分析部13。接下来,利用主成分分析部13基于生成预测规则时的主成分分析计算出所输入的数据的主成分得分(S14、主成分分析步骤)。利用主成分分析得到的数据的主成分得分从主成分分析部13输出到预测部15。
接下来,利用预测部15基于预测规则生成部14所生成的预测规则、并根据主成分分析部13所输入的主成分得分进行水质的预测(S15、预测步骤)。表示预测结果的信息例如以用户能够识别的方式来显示。以上为预测时所执行的处理。
如上所述,根据本实施方式,基于微生物信息的时间序列数据和与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息来生成预测规则。因此,与仅使用水质、生物反应槽的运转参数的时间序列数据进行预测时不同,可以进行考虑了活性污泥中的微生物群落的状态的预测。由此,与仅使用水质、生物反应槽的运转参数的时间序列数据的预测相比,可以更高精度地进行预测。
此外,根据本实施方式,进行主成分分析。通常,存在于活性污泥中的微生物种类数庞大。通过对微生物信息的时间序列数据进行主成分分析,从而可以在引入全部信息而不遗漏信息量的情况下以较少变量来表现微生物信息。通过如本实施方式这样进行主成分分析,可以减少预测规则的生成中所用的变量来可靠地进行预测规则的生成。即,根据本实施方式,可以生成高精度且可靠地预测水处理后的水质的预测规则。
如本实施方式所示,主成分分析可以使用相关矩阵。通过进行使用相关矩阵的主成分分析,从而与使用方差协方差矩阵时相比,即使进行主成分分析,也可以生成更好地反映少数种微生物(存在比例小的微生物)的行为的预测规则。有时少数种微生物的行为会影响水处理后的水质。因此,根据该构成,可以生成进行更高精度预测的预测规则。但是,如上所述,根据存在于活性污泥中的微生物的构成等,也可以使用方差协方差矩阵。
此外,如本实施方式所示,可以通过机器学习来生成预测规则。根据该构成,可以可靠地生成预测规则。但是,并非必需使用机器学习,也可以通过其以外的方法来生成预测规则。例如,可以使用时间序列分析来生成预测规则。具体而言,可以使用多变量自回归(VAR)模型等时间序列分析。
此外,如本实施方式所示,读取微生物的基因的碱基序列的测序仪20可以包含于预测规则生成系统1、并且基于所读取的碱基序列来生成时间序列数据。根据该构成,可以可靠地输入微生物或碱基序列的存在比例的时间序列数据,可以可靠地实施本发明的一实施方式。但是,预测规则生成系统1并非必需包含测序仪20。即,预测规则生成系统1(的计算机10的输入部12)也可以从外部输入微生物信息的时间序列数据。
此外,如本实施方式所示,可以具有使用所生成的预测规则进行预测的构成。即,预测规则生成系统1可以如本实施方式所示兼具预测系统。根据该构成,可以进行基于所生成的预测规则的预测。但是,预测并非必需在预测规则生成系统1中进行,也可以利用预测规则生成系统1以外的装置或系统来进行。这种情况下,预测规则生成系统1所生成的预测规则被输出到该预测规则生成系统1以外的预测系统。该预测系统具有上述预测规则生成系统1的预测功能。
接下来,说明使用由本实施方式的预测规则生成系统1生成的预测规则的预测结果的例子。图5示出该预测结果的例子的曲线图。图5中的横轴为时间轴。横轴上的一个点相当于上述一个时间点。纵轴表示从该时间点(预测时刻)起的一周内BOD是否超过预先设定的阈值,即有突发(一周内BOD超过阈值)、无突发(一周内BOD未超过阈值)。该例子中,示出了作为生成预测规则时的机器学习的方法使用基于贝叶斯估计法的使用二项概率单位模型(线性回归模型)时、和使用SVM时的结果。在图5中,虚线左侧的数据为机器学习的训练中使用的数据,虚线右侧的数据为机器学习的训练中未使用的数据。使用概率单位模型时和使用SVM时各自的值为使用预测规则的预测结果(来自预测规则的输出)。
如图5也示出那样,在使用概率单位模型作为机器学习的方法时,机器学习的训练中未使用的数据的输出与实测79%一致。使用SVM作为机器学习的方法时,机器学习的训练中未使用的数据的输出与实测81%一致。即,本实施方式的方法的预测率大约为80%,为较高的值。在图5所示的例子中,使用利用半年的训练数据(虚线左侧的数据)制作的预测模型(预测规则),对此后的半年应用预测规则预测了BOD值。具体而言,在此后半年的微生物存在比例的时间序列数据的各时间点,进行BOD是否超过阈值的预测。可以认为,如果使用以即将预测前(例如1~两周前)所取得的数据为基础更新制作的预测规则,则预测率会进一步提高。在日常的水质管理中,可以一边加入新取得的数据以更新预测规则、一边进行预测。
接下来,对上述实施方式的变形例进行说明。在上述实施方式中,作为向预测规则的输入,为微生物或碱基序列的存在比例的数据,但在此基础上也可以输入其以外的数据。作为其以外的数据,可以使用例如:在以往的水质预测中使用的处理后的水(废水)的水质数据、生物反应槽的运转参数。具体而言,为COD(化学需氧量)、温度、TOC、TN等水质数据;pH、废水品种、溶解氧量(DO)、氧化还原电位(ORP)等生物反应槽的运转参数。或者,也可以使用作为处理对象的水向水处理系统中的流入条件数据。此外,在对废水品种进行切换而使用的废水处理系统的情况下,还可以将在该时刻或者其前后进行处理的废水品种作为数据使用。在使用微生物或碱基序列的存在比例的数据以外的数据时,对于这些数据,也可以准备正确数据进行机器学习。还可以将这些数据合并并选择预测精度高的数据组合。通过增加作为预测基础的数据,可以生成精度更高的预测规则。通过将能以高频度取得的数据组合,可以进行更精细的水质管理(预测)。
在上述实施方式中,预测的水质是从预测时刻起的预先设定的时期内BOD是否超过预先设定的阈值,但本发明所生成的预测规则只要是对水质相关指标进行预测即可,也可以对BOD以外的水质进行预测。例如,可以列举COD、TOC、TN等水质的预测。不仅可以预测水质的值是否超过阈值,也可以进行以一定范围划分多个水平时落入哪一水平的预测、或大致推测值的预测。
标号说明
1…预测规则生成系统、10…计算机、11…数据生成部、12…输入部、13…主成分分析部、14…预测规则生成部、15…预测部、20…测序仪。
Claims (7)
1.一种预测规则生成系统,其具备:
输入单元,其输入存在于进行水处理的活性污泥中的多种微生物各自的存在比例或存在于该活性污泥中的多种碱基序列各自的存在比例的时间序列数据、以及与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息,所述微生物为不限于特定的种的微生物,所述碱基序列为不限于特定的种的微生物的碱基序列;
主成分分析单元,其对所述输入单元所输入的时间序列数据进行主成分分析,计算出构成该时间序列数据的各时刻的数据的主成分得分;以及
预测规则生成单元,其基于所述主成分分析单元所计算出的构成时间序列数据的各时刻的数据的主成分得分、和所述输入单元所输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息生成预测规则,该预测规则用于由多种微生物各自的存在比例或多种碱基序列各自的存在比例预测水处理后的水质。
2.根据权利要求1所述的预测规则生成系统,其中,所述主成分分析单元进行使用相关矩阵的主成分分析。
3.根据权利要求1所述的预测规则生成系统,其中,所述预测规则生成单元通过进行机器学习生成所述预测规则,所述机器学习将所述主成分分析单元所计算出的构成时间序列数据的各时刻的数据的主成分得分作为所述预测规则中的输入、将所述输入单元所输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息作为所述预测规则中的输出。
4.根据权利要求1~3中任一项所述的预测规则生成系统,其中,进一步具备:
读取单元,其从存在于所述活性污泥中的多种微生物读取基因的碱基序列;以及
数据生成单元,其基于所述读取单元所读取的基因的碱基序列生成所述时间序列数据并将其输入到输入单元。
5.一种预测系统,其基于权利要求1~4中任一项所述的预测规则生成系统所生成的预测规则对水处理后的水质进行预测,所述预测系统具备:
输入单元,其输入作为预测对象的多种微生物各自的存在比例或作为预测对象的多种碱基序列各自的存在比例的数据,所述微生物为不限于特定的种的微生物,所述碱基序列为不限于特定的种的微生物的碱基序列;
主成分分析单元,其基于所述预测规则生成系统所进行的主成分分析计算出所述输入单元所输入的所述预测对象的数据的主成分得分;以及
预测单元,其基于所述预测规则生成系统所生成的预测规则,由所述主成分分析单元所计算出的所述预测对象的数据的主成分得分对水处理后的水质进行预测。
6.一种预测规则生成方法,其为预测规则生成系统的操作方法,所述预测规则生成方法包含:
输入步骤,其输入存在于进行水处理的活性污泥中的多种微生物各自的存在比例或存在于该活性污泥中的多种碱基序列各自的存在比例的时间序列数据、以及与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息,所述微生物为不限于特定的种的微生物,所述碱基序列为不限于特定的种的微生物的碱基序列;
主成分分析步骤,其对所述输入步骤中输入的时间序列数据进行主成分分析,计算出构成该时间序列数据的各时刻的数据的主成分得分;以及
预测规则生成步骤,其基于所述主成分分析步骤中计算出的构成时间序列数据的各时刻的数据的主成分得分、和所述输入步骤中输入的与构成该时间序列数据的各时刻的数据相对应的表示水处理后的水质的水质信息生成预测规则,该预测规则用于由多种微生物各自的存在比例或多种碱基序列各自的存在比例预测水处理后的水质。
7.一种预测方法,其为预测系统的操作方法,所述预测系统基于权利要求1~4中任一项所述的预测规则生成系统所生成的预测规则对水处理后的水质进行预测,所述预测方法包含:
输入步骤,其输入作为预测对象的多种微生物各自的存在比例或作为预测对象的多种碱基序列各自的存在比例的数据,所述微生物为不限于特定的种的微生物,所述碱基序列为不限于特定的种的微生物的碱基序列;
主成分分析步骤,其基于所述预测规则生成系统所进行的主成分分析,计算出所述输入步骤中输入的所述预测对象的数据的主成分得分;以及
预测步骤,其基于所述预测规则生成系统所生成的预测规则,由所述主成分分析步骤中计算出的所述预测对象的数据的主成分得分对水处理后的水质进行预测。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015076945A JP6501593B2 (ja) | 2015-04-03 | 2015-04-03 | 予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法 |
JP2015-076945 | 2015-04-03 | ||
PCT/JP2016/060516 WO2016159154A1 (ja) | 2015-04-03 | 2016-03-30 | 予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107531528A CN107531528A (zh) | 2018-01-02 |
CN107531528B true CN107531528B (zh) | 2020-12-29 |
Family
ID=57005756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680019682.8A Active CN107531528B (zh) | 2015-04-03 | 2016-03-30 | 预测规则生成系统、预测系统、预测规则生成方法和预测方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11225680B2 (zh) |
JP (1) | JP6501593B2 (zh) |
KR (2) | KR20240135071A (zh) |
CN (1) | CN107531528B (zh) |
TW (1) | TWI715564B (zh) |
WO (1) | WO2016159154A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11365140B2 (en) | 2017-10-31 | 2022-06-21 | Luminultra Technologies Ltd. | Decision support system and method for water treatment |
RU2767009C1 (ru) | 2018-02-15 | 2022-03-16 | Тийода Корпорейшн | Система поддержки установки условий работы завода, устройство обучения и устройство поддержки установки условий работы |
JP6977953B2 (ja) * | 2018-03-22 | 2021-12-08 | 住友重機械エンバイロメント株式会社 | 水質状態判別装置 |
JP7299485B2 (ja) * | 2018-06-07 | 2023-06-28 | 日本製鉄株式会社 | 微生物群の特定方法 |
JP6790154B2 (ja) | 2019-03-07 | 2020-11-25 | 東芝デジタルソリューションズ株式会社 | 協調型学習システム及び監視システム |
CN111723825A (zh) * | 2019-03-18 | 2020-09-29 | 顺丰科技有限公司 | 一种客户信息查询异常行为检测方法和装置 |
US11157470B2 (en) * | 2019-06-03 | 2021-10-26 | International Business Machines Corporation | Method and system for data quality delta analysis on a dataset |
CN110186505B (zh) * | 2019-06-06 | 2020-02-14 | 浙江清华长三角研究院 | 一种基于支持向量机的农村生活污水处理设施出水达标情况的预测方法 |
JP7437003B2 (ja) * | 2019-07-01 | 2024-02-22 | ヒューマン・メタボローム・テクノロジーズ株式会社 | データ解析装置および方法 |
CN110633859B (zh) * | 2019-09-18 | 2024-03-01 | 西安理工大学 | 一种两阶段分解集成的水文序列预测方法 |
CN111398539A (zh) * | 2020-03-09 | 2020-07-10 | 上海交通大学 | 一种基于大数据和分子生物技术的水质微生物指示方法 |
CN112591887B (zh) * | 2020-11-03 | 2022-09-20 | 北京工业大学 | 一种基于核主成分分析和贝叶斯网络的污泥膨胀诊断方法 |
JPWO2022101983A1 (zh) * | 2020-11-10 | 2022-05-19 | ||
JP2022161412A (ja) * | 2021-04-09 | 2022-10-21 | 秀穂 野末 | 情報処理方法、情報処理装置、及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0572199A (ja) * | 1991-09-12 | 1993-03-23 | Hitachi Ltd | 水圏の監視及び浄化システム |
JP2004105952A (ja) * | 2002-08-28 | 2004-04-08 | Yaskawa Electric Corp | 下水処理運転支援装置 |
CN101540008A (zh) * | 2009-04-24 | 2009-09-23 | 北京工业大学 | 基于hpp元胞自动机模型的活性污泥净化过程的模拟方法 |
CN101593342A (zh) * | 2009-06-24 | 2009-12-02 | 贵州省理化测试分析研究中心 | 农产品产地长期安全预警的方法 |
CN103534658A (zh) * | 2010-12-28 | 2014-01-22 | 株式会社东芝 | 工序监视诊断装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3928492B2 (ja) * | 2002-06-11 | 2007-06-13 | 栗田工業株式会社 | 混合微生物系の監視方法および管理方法 |
JP4279802B2 (ja) | 2005-05-27 | 2009-06-17 | 株式会社神鋼環境ソリューション | 水処理管理方法 |
JP5022610B2 (ja) * | 2006-02-27 | 2012-09-12 | 株式会社東芝 | 下水処理場運転支援装置 |
JP4817100B2 (ja) | 2006-03-28 | 2011-11-16 | 独立行政法人農業・食品産業技術総合研究機構 | 水質モニタリング装置 |
JP5049748B2 (ja) * | 2006-11-15 | 2012-10-17 | 株式会社神鋼環境ソリューション | 生物学的水処理のシミュレーション方法およびシミュレーション装置 |
WO2008156151A1 (ja) | 2007-06-19 | 2008-12-24 | Kobelco Eco-Solutions Co., Ltd. | シミュレーション方法、シミュレーション装置、生物処理方法、ならびに、生物処理装置 |
JP5459209B2 (ja) | 2008-07-11 | 2014-04-02 | 星光Pmc株式会社 | 微生物群集の生理状態の判定方法及び排水処理方法 |
CN101825622A (zh) | 2010-04-02 | 2010-09-08 | 浙江浙大中控信息技术有限公司 | 一种水质预测方法和装置 |
CN102807301B (zh) | 2012-07-31 | 2014-01-15 | 天津大学 | 再生水厂出水水质在线监测与实时预测系统及其控制方法 |
JP5990069B2 (ja) * | 2012-09-13 | 2016-09-07 | 高砂熱学工業株式会社 | 排水処理方法及び排水処理システム |
CN103809436A (zh) | 2012-11-06 | 2014-05-21 | 西安元朔科技有限公司 | 活性污泥法污水处理过程智能建模方法 |
JP2014121692A (ja) | 2012-12-21 | 2014-07-03 | Kubota Kankyo Service Kk | 活性汚泥を利用した有機性排水の処理方法 |
CN103793604A (zh) | 2014-01-25 | 2014-05-14 | 华南理工大学 | 一种基于相关向量机的污水处理软测量方法 |
-
2015
- 2015-04-03 JP JP2015076945A patent/JP6501593B2/ja active Active
-
2016
- 2016-03-30 US US15/562,622 patent/US11225680B2/en active Active
- 2016-03-30 WO PCT/JP2016/060516 patent/WO2016159154A1/ja active Application Filing
- 2016-03-30 KR KR1020247029581A patent/KR20240135071A/ko unknown
- 2016-03-30 CN CN201680019682.8A patent/CN107531528B/zh active Active
- 2016-03-30 KR KR1020177031872A patent/KR20170132329A/ko active Application Filing
- 2016-04-01 TW TW105110649A patent/TWI715564B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0572199A (ja) * | 1991-09-12 | 1993-03-23 | Hitachi Ltd | 水圏の監視及び浄化システム |
JP2004105952A (ja) * | 2002-08-28 | 2004-04-08 | Yaskawa Electric Corp | 下水処理運転支援装置 |
CN101540008A (zh) * | 2009-04-24 | 2009-09-23 | 北京工业大学 | 基于hpp元胞自动机模型的活性污泥净化过程的模拟方法 |
CN101593342A (zh) * | 2009-06-24 | 2009-12-02 | 贵州省理化测试分析研究中心 | 农产品产地长期安全预警的方法 |
CN103534658A (zh) * | 2010-12-28 | 2014-01-22 | 株式会社东芝 | 工序监视诊断装置 |
Non-Patent Citations (1)
Title |
---|
原生动物在水质净化过程中的应用与发展;黄浩等;《节水灌溉》;20141031(第10期);第50-53页 * |
Also Published As
Publication number | Publication date |
---|---|
US11225680B2 (en) | 2022-01-18 |
KR20240135071A (ko) | 2024-09-10 |
JP6501593B2 (ja) | 2019-04-17 |
CN107531528A (zh) | 2018-01-02 |
TWI715564B (zh) | 2021-01-11 |
TW201702186A (zh) | 2017-01-16 |
US20180105858A1 (en) | 2018-04-19 |
JP2016195974A (ja) | 2016-11-24 |
WO2016159154A1 (ja) | 2016-10-06 |
KR20170132329A (ko) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107531528B (zh) | 预测规则生成系统、预测系统、预测规则生成方法和预测方法 | |
Cotto et al. | Long solids retention times and attached growth phase favor prevalence of comammox bacteria in nitrogen removal systems | |
Slater et al. | Monitoring associations between clade-level variation, overall community structure and ecosystem function in enhanced biological phosphorus removal (EBPR) systems using terminal-restriction fragment length polymorphism (T-RFLP) | |
Lanzén et al. | Exploring the composition and diversity of microbial communities at the Jan Mayen hydrothermal vent field using RNA and DNA | |
JP6479336B2 (ja) | 微生物の16SrRNA遺伝子定量用内部標準遺伝子 | |
Ibarbalz et al. | The bias associated with amplicon sequencing does not affect the quantitative assessment of bacterial community dynamics | |
Pala-Ozkok et al. | Characteristics of mixed microbial culture at different sludge ages: effect on variable kinetics for substrate utilization | |
CN107533592B (zh) | 微生物群落分析系统、判定系统、微生物群落分析方法及判定方法 | |
Feye et al. | Poultry processing and the application of microbiome mapping | |
CN116072218A (zh) | 测序方法 | |
KR20220012683A (ko) | 인공신경망 모델을 이용한 토양 오염원 예측 방법 | |
Thies | Molecular approaches to studying the soil biota | |
WO2020068881A9 (en) | Compositions, systems, apparatuses, and methods for validation of microbiome sequence processing and differential abundance analyses via multiple bespoke spike-in mixtures | |
KR20230039090A (ko) | 머신러닝 모델을 이용한 하폐수처리공정 안정성 평가 방법 및 시스템 | |
Cao et al. | Metagenomic sequencing of activated sludge filamentous bacteria community using the Ion Torrent platform | |
Bardan et al. | A mini-multiplex SNaPshot assay for the triage of degraded human DNA | |
Fields et al. | MAUI-seq: Multiplexed, high-throughput amplicon diversity profiling using unique molecular identifiers | |
Santillan et al. | Microbiome assembly predictably shapes diversity across a range of disturbance frequencies | |
Wang et al. | A preliminary report on the exploration of salivary bacterial diversity by the multiplex SNaPshot assay | |
WO2023084486A1 (en) | Generation of epigenetic age information | |
Gajos | Analysis of the determinants of Pol II pausing | |
Taranow | Exploring the sources of peak height reduction during low-template, compromised DNA data analysis | |
Nag et al. | Metagenomics: A Pathway for Searching in Microbial Contexts | |
Oberreiter et al. | Maximizing efficiency in sedimentary ancient DNA analysis: a novel extract pooling approach | |
Ye et al. | Machine learning aided analyses of thousands of draft genomes reveal plant-and environment-specific features of activated sludge process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |