JP6807529B2 - 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体 - Google Patents

識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体 Download PDF

Info

Publication number
JP6807529B2
JP6807529B2 JP2019517508A JP2019517508A JP6807529B2 JP 6807529 B2 JP6807529 B2 JP 6807529B2 JP 2019517508 A JP2019517508 A JP 2019517508A JP 2019517508 A JP2019517508 A JP 2019517508A JP 6807529 B2 JP6807529 B2 JP 6807529B2
Authority
JP
Japan
Prior art keywords
data
pulse
time
waveform
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019517508A
Other languages
English (en)
Other versions
JPWO2018207524A1 (ja
Inventor
鷲尾 隆
隆 鷲尾
正輝 谷口
正輝 谷口
敬人 大城
敬人 大城
吉田 剛
剛 吉田
孝之 鷹合
孝之 鷹合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AIPORE INC.
Original Assignee
AIPORE INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AIPORE INC. filed Critical AIPORE INC.
Publication of JPWO2018207524A1 publication Critical patent/JPWO2018207524A1/ja
Application granted granted Critical
Publication of JP6807529B2 publication Critical patent/JP6807529B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Computing Systems (AREA)
  • Biochemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Nanotechnology (AREA)
  • Urology & Nephrology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Hematology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrochemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)

Description

本発明は、計測系から得られた計測データに含まれる不適合データを識別する識別方法、該不適合データを取り除いたデータによる分類分析を行う分類分析方法、識別装置、分類分析装置および記憶媒体に関する。
例えば、非特許文献1に記載されているように、ナノセンシング、微量計測、量子計測など先端センシングデバイス開発分野において、微細・微量な対象を計測するためのデバイスが次々と開発されている。
WO2013−137209号公報
「Rosenstein,J.K.,Wanunua, M.,Merchant,C.A.,Drndic,M.,and Shepard,K.L.: Integrated nanopore sensing platform with sub−microsecond temporal resolution,Nature Methods,pp.487−492(2012)」 「Weka3:Data Mining Software in Java」、Machine Learning Group at the University of Waikato、インターネット<URL:http://www.cs.waikato.ac.nz/ml/weka/> 「Elkan,C.and Noto,K.: Learning Classifiers from Only Positive and Unlabeled Data,in KDD '08 Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining,pp.213−220, Las Vegas,Nevada,USA(2008),ACM New York,NY,USA」 「Tsutsui,M.,Taniguchi,M.,Yokota,K.,and KawaiT.: Identifying Single Nucleotides by Tunneling Current,Nature Nanotechnology,Vol.5,pp.286−290(2010)」
しかしながら、上記の先端センシングデバイスの多くは、計測系や計測対象が微小であるが故に該対象の部分的な情報のみを出力するものであり、出力が熱雑音や量子ノイズなどの影響を受けることが多い。このため、対象信号よりもノイズ信号レベルの大きい場合、すなわち、SN比が非常に悪いという場合が多く、一次的な計測段階では計測精度が低すぎて実用化に適さないという問題を生じていた。また、このような計測状況下では、小さい信号がノイズで大きい信号が対象を表すと仮定して、信号強度でノイズ成分を除去するという一般的なノイズ除去手法を採用する余地はない。さらに、対象に関する知識や問題固有の性質を用いた各種ノイズフィルタリングを適用する場面も、係る知識や性質が明らかでない場合が多く適用しがたい。特に、1分子計測技術を用いた次々世代DNAシークエンサーでは、対象分子や計測系の性質に未知な部分が多くかつノイズ信号が大きいため、ノイズの影響が深刻な課題となっている。
本発明の目的は、計測データ集合から適切に不適合データを識別して、例えば、先端センシングデバイスによる計測結果の信頼性向上に寄与する識別方法、計測データに対する高精度の分類分析を行うことのできる分類分析方法、識別装置、分類分析装置、識別用記憶媒体および分類分析用記憶媒体を提供することである。
本発明は、上記課題に鑑み、正例集合と未知集合から分類器を学習する機械学習手法に着目し、例えば、正例/負例の2値分類に適したPU分類手法(Classificaion of Positive and Ulabeled Examples)により構成した分類器を用いることによって、計測パターンから不適合データを高精度に識別し得るという知見にも基づいてなされた発明である。PU分類手法の詳細は、非特許文献3に記載されている。
本発明に係る第1の形態は、
計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別方法であって、
前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、
前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、
前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することを特徴とする識別方法である。
本発明に係る第2の形態は、
第1の形態に係る識別方法により識別した不適合データを記憶する不適合データ記憶手段を有し、
計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析方法であって、
前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことを特徴とする分類分析方法である。
本発明に係る第3の形態は、
前記特徴量は、
所定の時間幅内における波形の波高値、
パルス波長ta
パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
該波形の鋭さを表す尖度、
パルス開始からパルスピークに至る傾きを表す俯角、
波形を所定の時間毎に区分した時間区分面積の総和を表す面積、
パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比、
パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメント、
のいずれか1または2以上である分類分析方法である。
本発明に係る第4の形態は、
計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別装置であって、
前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、
前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、
前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することを特徴とする識別装置である。
本発明に係る第5の形態は、
第4の形態に係る識別装置により識別した不適合データを記憶する不適合データ記憶手段を有し、
計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析装置であって、
前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことを特徴とする分類分析装置。
本発明に係る第6の形態は、
前記特徴量は、
所定の時間幅内における波形の波高値、
パルス波長ta
パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
該波形の鋭さを表す尖度、
パルス開始からパルスピークに至る傾きを表す俯角、
波形を所定の時間毎に区分した時間区分面積の総和を表す面積、
パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比、
パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメント、
のいずれか1または2以上である分類分析装置である。
本発明に係る第7の形態は、第1の形態に係るコンピュータ制御プログラムを記憶したことを特徴とする識別用記憶媒体である。
本発明に係る第8の形態は、第2の形態コンピュータ制御プログラムを記憶したことを特徴とする分類分析用記憶媒体である。
第1の形態によれば、計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別方法であって、前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することができる。したがって、本形態においては、PU分類手法に基づく分類器を構成して、計測の結果得られたパルス状信号に含まれる不適合データを高精度に識別でき、例えば、先端センシングデバイスによる計測結果の信頼性向上に寄与することができる。
特には、本形態における分類器は、対象に関する知識や問題固有の性質を用いることなく、過去に収集された不適合データ集合と、正負不明の実測データ集合の各データで構成することができるので、単純な信号強度で識別する従来手法では達成できない優れた不適合データの除去性能を具備し、種々の計測データの解析への広汎な適用可能性を有している。
第2の形態によれば、第1の形態に係る識別方法により識別した不適合データを記憶する不適合データ記憶手段を有し、計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析方法であって、前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことができる。したがって、本形態においては、第1の形態に係るPU分類手法に基づく分類器により高精度に識別した不適合データが取り除かれた被分析データにより前記分析物に関する分類分析を高精度に行うことができる。
第3の形態によれば、前掲の各特徴量は、パルス状信号の波形形態由来の特徴量であり、これらの特徴量群のいずれかのうち1または2以上の特徴量を使用することにより、機械学習による分類分析をより一層高精度に行うことができる。
本形態においては、上記特徴量群のうち少なくとも1つ以上の特徴量を使用して分類分析する場合に限らず、上記特徴量群のうち2つ以上の組み合わせを使用して分類分析を行うことができる。
第4の形態によれば、計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別装置であって、前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することができる。したがって、本形態においては、PU分類手法に基づく分類器を構成して、計測の結果得られたパルス状信号に含まれる不適合データを高精度に識別でき、例えば、先端センシングデバイスによる計測結果の信頼性向上に寄与し得る識別装置を提供することができる。
特には、本形態に係る分類器は、対象に関する知識や問題固有の性質を用いることなく、過去に収集された不適合データ集合と、正負不明の実測データ集合の各データで構成することができるので、本形態は、単純な信号強度で識別する従来手法では達成できない優れた不適合データの除去性能を具備し、種々の計測データの解析への広汎な適用可能性を有する識別装置を実現することができる。
第5の形態によれば、第4の形態に係る識別装置により識別した不適合データを記憶する不適合データ記憶手段を有し、計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析装置であって、前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことができる。したがって、本形態においては、第4の形態に係るPU分類手法に基づく分類器により高精度に識別した不適合データが取り除かれた被分析データにより前記分析物に関する分類分析を高精度に行える分類分析装置を提供することができる。
第6の形態によれば、前掲の各特徴量は、パルス状信号の波形形態由来の特徴量であり、これらの特徴量群のいずれかのうち1または2以上の特徴量を使用することにより、機械学習による分類分析をより一層高精度に行える分類分析装置を提供することができる。
本形態においては、上記特徴量群のうち少なくとも1つ以上の特徴量を使用して分類分析する場合に限らず、上記特徴量群のうち2つ以上の組み合わせを使用して分類分析を行える分類分析装置を実現することができる。
第7の形態によれば、第1の形態に係るコンピュータ制御プログラムを記憶した識別用記憶媒体を提供することができる。したがって、本形態に係る記憶媒体は、第1の形態で説明した前記コンピュータ制御プログラムによる効果を有するので、識別用記憶媒体に記憶したコンピュータ制御プログラムをコンピュータにインストールして該コンピュータに識別分析動作させることによって高精度な識別分析を行うことができる。
第8の形態によれば、第2の形態に係るコンピュータ制御プログラムを記憶した分類分析用記憶媒体を提供することができる。したがって、本形態に係る記憶媒体は、第2の形態で説明した前記コンピュータ制御プログラムによる効果を有するので、分類分析用記憶媒体に記憶したコンピュータ制御プログラムをコンピュータにインストールして該コンピュータに分類分析動作させることによって高精度な分類分析を行うことができる。
第7および第8の形態に係る記憶媒体としては、フレキシブルディスク、磁気ディスク、光ディスク、CD、MO、DVD、ハードディスク、モバイル端末等、コンピュータにより読み取り可能な記憶媒体のいずれかを選択することができる。
本発明によれば、コンピュータ端末を利用して、DNA記憶媒体の情報圧縮技術や人工塩基対を用いた医薬品創薬、あるいは、計測試料に混入する微細な塵埃、あるいは体液などに含まれる分析物質を計測対象とする場合における、赤血球、白血球、血小板等の微小物質などに起因する不適合データの識別・除去技術等の分野におけるデータ分析を高精度に行うことができる。
本発明に係る実施形態における分析対象となる計測データを測定するための計測系を模式的に示す概要図、該計測系により計測したパルス状信号の波形例を示す図である。 前記計測系によりDNA構成分子について計測したパルス状信号の波形例を示す図である。 本発明の一実施形態である分類分析装置の概略構成を示す概略ブロック図である。 前記実施形態に用いるPC1の識別・分類分析プログラムにより実行可能な処理内容の概要を示す図である。 PC1による識別処理を示すフローチャートである。 本発明による識別精度の検証に使用した22種の分類器用ソフトウエアのリストを示す表である。 前記実施形態に用いる波高ベクトルを示す図である。 前記実施形態に用いる波長方向時間ベクトルを示す図である。 PU法の学習アルゴリズムの処理手順の概要を説明するための図である。 PU法における主要な解析内容を示す図である。 PU法による分類器の処理内容をまとめた概要説明図である。 前記識別処理におけるPU法による2値分類器の識別処理を示すフローチャートである。 本発明に係る識別方法の識別精度を検証するための識別実験から得られたパルスピーク波高のヒストグラムを示す図である。 前記識別実験から得られたF−尺度(F−Measureのヒストグラムを示す図である。 マイクロ・ナノポアデバイスの概略構成を示す概略側断面図である。 PC1による分析処理の説明に必要な処理プログラム構成を示す図である。 実施例の大腸菌と枯草菌につき実測した粒子通過によるパルス波形例を示す図である。 本発明に係る各種特徴量を説明するためのパルス波形図である。 カルマンフィルターを説明するための図である。 カルマンフィルターの各因子を実際の計測電流データで説明するための図である。 カルマンフィルターの予測(8A)と更新(8B)の繰返しの詳細を示す図である。 BL推定処理プログラムに基づくBL推定処理を示すフローチャートである。 カルマンフィルターの因子調整に使用したビーズモデルの波形図である。 大腸菌22と枯草菌23が電解質溶液24中に混在する様子を模式的に示した貫通孔12周辺の拡大図である。 調整因子のm、k、αの組合せに応じてビーズモデルの波形から拾われたパルスの数を示す表である。 特徴量抽出プログラムの実行処理内容の概要を示すフローチャートである。 粒子種推定処理を示すフローチャートである。 1つの波形データに関する各特徴量(15A)と、大腸菌と枯草菌の粒子種における確率密度関数のイメージ図(15B)とを示す図である。 大腸菌と枯草菌の粒子種の個々より得られた確率密度分布の重ね合わせのイメージ図である。 k個の粒子種別の粒子総数と、粒子種別の出現確率と、データ全体の出現頻度の期待値との関係を示すイメージ図である。 ラグランジュ未定乗数法により最適化を行う制約付き対数尤度最大化式の導出過程を説明するための図である。 データファイル作成処理を示すフローチャートである。 確率密度関数の推定処理を示すフローチャートである。 粒子数の推定処理を示すフローチャートである。 Hasselblad反復法による粒子数推定処理を示すフローチャートである。 EMアルゴリズムによる処理手順を示すフローチャートである。 本実施形態に係る個数分析機能により分析した結果の一例を示す図である。 特徴量としてパルス波長、波高を使用した検証例と、特徴量としてパルス波長、ピーク位置比を使用した検証例の各推定結果データを示す表である。 特徴量としてピーク付近波形の広がり、パルス波長を使用した検証例と、特徴量としてピーク付近波形の広がり、波高を使用した検証例の各推定結果データを示す表である。 特徴量として尖度と、パルス波高を使用した場合における個数推結果を示す図である。 BL推定処理プログラムに基づくBL推定処理を示すフローチャートである。 大腸菌と枯草菌の混合比をそれぞれ、1:10、2:10、3:10、35:100とした場合における各個数推定結果を示すヒストグラムである。 大腸菌と枯草菌の混合比をそれぞれ、4:10、45:100、1:2とした場合における各個数推定結果を示すヒストグラムである。 特徴量としてパルス波長、パルス波高を使用した場合における各粒子の散布状態を合成した図である。 特徴量としてピーク付近波形の広がり、パルス波長を使用した場合、特徴量としてピーク付近波形の広がり、ピーク位置比を使用した場合、ピーク付近波形の広がり、パルス波高を使用した場合における各粒子の散布状態を合成した図である。 マイクロ・ナノポアデバイス8を用いて、3種の粒子33a、33b、33cが貫通孔12を通過して得られる検出信号の波形例と、特徴量に基づいて得られる確率密度関数の導出例を示す図である。 俯角および面積の特徴量を説明するためのパルス波形図である。 波高ベクトルの取得の仕方を説明するための図である。 d次元の波高ベクトルとデータサンプリングとの関係を説明するための図である。 時間(波長)および波幅に関する第2類型の特徴量を説明するためのパルス波形図である。 w次元の波幅ベクトルとデータサンプリングとの関係を説明するための図である。 波幅に関する慣性モーメントを波幅ベクトルにより取得する取得過程を説明するための図である。 複数の方向に分割した場合の特徴量作成用波形ベクトルの一例を説明するための図である。 特徴量抽出の処理内容を示すフローチャートである。 1MHz、500kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である 250kHz、125kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 63kHz、32kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 16kHz、8kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 4kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 全サンプリングデータに対する各特徴量組合せに関する推定評価表である。 1MHz〜125kHzでの高密度サンプリングしたときの各特徴量組合せに関する推定評価表である。 63kHz〜4kHzでの低密度サンプリングしたときの各特徴量組合せに関する推定評価表である。 全サンプリングデータを使用したとき(50A)および高密度にサンプリングしたとき(50B)に高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数−重み付き平均相対誤差(平均値)のグラフである。 低密度にサンプリングしたときに高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数−重み付き平均相対誤差(平均値)のグラフ(51A)と、全サンプリングデータを使用したときの4種類の特徴量の組合せに関するサンプリング周波数−重み付き平均相対誤差(平均値)のグラフ(51B)である。 4種類の各特徴量組合せに対する、特徴量作成に要する計算時間とHasselblad法による反復計算に要する計算時間との合計計算時間を示すサンプリング周波数(kHz)−所要計算時間(秒)のグラフ(52A)と、各特徴量組合せに対する特徴量作成に要する計算時間を示すサンプリング周波数(kHz)−所要計算時間(秒)のグラフ(52B)である。 4種類の各特徴量組合せに対する、Hasselblad法による反復計算に要する計算時間を示すサンプリング周波数−所要計算時間(秒)のグラフである。 本発明に係る分類分析方法の概要を説明するための概要図である。 本実施形態における主な制御処理を示す図である。 本実施形態における分類分析処理を示すフローチャートである。 分類分析処理の検証により評価結果と、該検証における分析試料の詳細を示す表である。 F−尺度(F−Measure)の説明図である。
本発明の一実施形態に係る分類分析装置を図面を参照して以下に説明する。本実施形態においては、分析物の一例としてDNA構成分子を分類分析する塩基種分析形態で説明する。
図1の(1A)は、本実施形態における分析対象となる計測データを測定するための計測系を模式的に示す概要図である。
計測系は、塩基分子を含む溶液を収容する収容容器で構成された計測空間MSと、計測空間MS内に対向して配置された1対の微細形状の電極D1、D2とを有する。電極D1、D2は、金(Au)元素で形成されたナノギャップ電極であり、互いに微細距離を隔てて配設されている。微細距離は、約1nmに形成されている。計測空間MSには、測定試料は、溶媒(純水)と、溶媒に混入されたDNA構成分子とを含む溶液サンプルである。
非特許文献4に記載されているように、ナノギャップ電極は、次々世代DNAシークエンサーとして期待されるデバイスである。この電極は、機械的破断接合と呼ばれる手法を用いて作成されたごく微細な隙間をもつ電極ギャップである。この電極ギャップに一定の電圧をかけると、ギャップ付近を物質が通過する際に量子力学的トンネル効果による電流(トンネル電流:図1の破線参照)が流れる。このトンネル電流が、物質が通過した瞬間のパルス電流として電流計測器MEにより計測される。このナノ ギャップ電極によるトンネル電流パルスを計測することにより、DNA塩基分子の種類を1分子単位で識別することが可能になり、既存技術では困難であったペプチドのアミノ酸配列や疾病マーカーとなる修飾アミノ分子の識別などが可能になってきている 。図1の測定系において、約1nmの電極間隙を有するナノギャップ電極(D1、D2)を用いて、電極付近を通り過ぎる1分子に流れるトンネル電流パルスを計測して検出したパルス状信号のデータを分析対象とする。
被計測分子には、人工核酸塩基であるジチオフェンウラシル誘導体(以下、BithioUと略す。)とTTFウラシル誘導体(以下、TTFと略す。)の2種類を用いた。これらの分子は、識別を容易にするためにエピジェネティック部位(DNAメチル化などが起こる後天修飾部位)を化学的に修飾したものである。矢印Fで示すように、ギャップ付近をDNA分子を通過させる駆動力源は、分子自体のブラウン運動の他に、電気泳動、電気浸透流、誘電泳動によるものを使用することができる。
図1の(1B)および図2は、図1の計測系により計測したパルス状信号の波形例を示す。これらの図において、横軸は計測時間(×10-4sec)、縦軸は計測電流値(nA)を示す。
(1B)に示すように、パルス状信号のパルス判定部分は、計測波形中央の1/3の部分であり、このパルス波形データを被分析データに使用する。
(2A)の2A1、2A2は、塩基分子BithioUを検出したときの波形例を示す。(2B)の2B1、2B2は、塩基分子TTFを検出したときの波形例を示す。(2A)の2A3、2A4および(2B)の2B3、2B4は、塩基分子を検出したときに混在するノイズ波形例を示す。
図1の計測系において、DNAの1塩基分子を電流パルスとして計測して検出する。計測されたパルスには、塩基分子由来のものだけではなく電極表面の金属原子のゆらぎや不純物による電流パルスも含まれている(図2の(2A)の2A3、2A4および(2B)の2B3、2B4参照)。これらのノイズパルスのために、本来は塩基由来であるパルスを見逃したり、逆にノイズパルスであったのに塩基分子パルスが計測されたと誤判定する可能性が起こり得るので、計測結果としてDNA塩基分子の識別が困難になる。本発明は、計測されたパルスの波形データ集合から適切にノイズパルスの不適語データを識別、除去して、高精度に塩基種類の分類分析を可能にすることができる。
図3は本実施形態の分類分析装置の概略構成を示す。この分類分析装置は、パーソナルコンピュータ(以下、PCという。)1により構成され、PC1にはCPU2、ROM3、RAM4およびデータファイル記憶部5を有する。ROM3には、コンピュータ制御プログラムが格納されている。コンピュータ制御プログラムには、機械学習を用いた不適合データの識別処理および分類分析を行うための識別・分類分析プログラムおよび識別・分類分析に必要な特徴量の作成用プログラム等の各種処理プログラムが含まれている。分類分析プログラム等の各種処理プログラムは、各プログラムを記憶した記憶媒体(CD、DVD等)からインストールされて格納可能になっている。PC1にはキーボード等の入力手段6および液晶ディスプレイ等の表示手段7が入出力可能に接続されている。データファイル記憶部5には分析用データが格納可能になっている。
PC1は、不適合データの識別処理機能および分類分析処理機能を具備するが、本発明においては、識別処理機能および分類分析処理機能をそれぞれ別個に備えた専用端末で構成することができる。
図4は、PC1の識別・分類分析プログラム(コンピュータ制御プログラム)により実行可能な処理内容の概要を示す。図5は、PC1の識別処理のフローチャートである。
PC1の識別処理は、以下の識別方法に基づく処理手順により行われる。識別・分類分析プログラムには、正例集合の正例データと、、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いたPU手法に基づいた識別処理プログラムが格納されている。
(処理1−1)計測空間MSに分析物(DNA構成分子)を含まない試料(溶媒のみ)を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データを記憶手段のRAM4に取り込んで記憶させる。
(処理1−2)計測空間MSに分析物(DNA構成分子)を含む試料(溶媒+DNA構成分子)を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データを記憶手段のRAM4に取り込んで記憶させる。
(処理1−3)識別処理プログラムの入力形式に合わせるために、第1種データおよび第2種データの属性ベクトルが作成される。
(処理1−4)第1種データを正例データとし、第2種データを未知データとして、識別処理プログラムを実行する。
(処理1−5)識別処理プログラムの実行により、確率p(s=1|x)を抽出して求める。該確率データは、RAM4の所定エリアに記憶、保存される。なお、以下のPU法による解析において使用される属性ベクトルは、多次元データによるもので、ベクトル表記されるものであるが、以下の説明では、特にベクトル表記を省略している。
(処理1−6)該確率により、第2種データに含まれている、分析物以外の要素(前述の塩基分子由来のものでなく電極表面の金属原子のゆらぎや不純物)に起因して検出された不適合データを検出、識別する。検出した不適合データは、RAM4の所定エリアに記憶、保存される。
識別処理プログラムには、非特許文献2に開示されている、機械学習プラットフォームフリーウェア Wekaの分類器用ソフトウエアを用いることができる。
図6は、本発明による識別精度の検証に使用した22種の分類器用ソフトウエアのリストである。識別処理プログラムとして、22種のいずれも使用可能であり、ROM3に格納可能になっている。PU法におけるp(s=1|x)の計算と、PU法によるノイズデータ除去後の識別処理のいずれに対してもWekaのプログラムを使用して検証を行った。
計測したパルス波形データは、波長も波高もまちまちであるため、機械学習分類器によって塩基種類を識別するためには次元のそろった属性ベクトルを入力として用いる必要があり、機械学習処理プログラムの実行の際には、入力形式に合わせる前処理として、一種の粗視化を施し、パルス波形を反映した属性ベクトルを作成する前処理が(処理1−1)および(処理1−2)において行われる。
計測したパルス波形データは、波長も波高もまちまちであるため、機械学習分類器によって塩基種類を識別するためには次元のそろった属性ベクトルを入力として用いる必要があり、識別処理プログラムの実行の際には、入力形式に合わせる前処理として、一種の粗視化を施し、パルス波形を反映した属性ベクトルを作成する前処理が(処理1−3)において行われる。
図7は、波高ベクトルを示す。図8は、波長方向時間ベクトルを示す。
図7に示すように、計測パルス波形について、波長方向にdh分割し各分割区分ごとに計測電流値の平均値を計算して、これを成分にしたdh次元の属性ベクトルを波高ベクトルとする。この属性ベクトルには、波高方向に規格化したものとしないものの2種類が作成される。
図8に示すように、パルスのピーク前後で計測電流値を2つのグループに分けた上で、波高方向にdw 分割すると、パルスの計測電流値は、2dwのグループに分割される。この分割区分ごとにパルス開始時点からのステップ数の平均値を 算出して、これらの値を成分としてもつ2dw次元の波長方向時間ベクトルが作成される。また、パルス開始時点から終了時点までの時間を「 1 」とする規格化を施した規格化波長方向時間ベクトルも作成される。以上の波高ベクトルと波長方向時間ベクトルに加え、これらを単に連結した属性ベクトルも作成される。これらのベクトルデータは、RAM4の所定エリアに記憶される。
本実施形態において2値分類器を構成するために、波高と波長の2つの特徴量を使用している。本実施形態に係る不適合データの識別精度を検証する検証実験においては、1つのパルス波形データから作成した、下記のV1〜V8の8通りの属性ベクトルを使用して検証した。
(V1)パルスピーク値を「1」に規格化した波高ベクトル(hvNrmd)
(V2)規格化しない波高ベクトル(hvRaw)
(V3)パルス波長時間を「1」に規格化した波長方向時間ベクトル(wvNrmd)
(V4)規格化しない波長方向時間ベクトル(wvRaw)
(V5)V1とV2を連結した(dh+2dw)次元ベクトル
(V6)V1とV4を連結した(dh+2dw)次元ベクトル
(V7)V2とV3を連結した(dh+2dw)次元ベクトル
(V8)V2とV4を連結した(dh+2dw)次元ベクトル
検証実験では、上記8通りの属性ベクトルを作成し、これらの識別精度の比較を行った。属性ベクトル作成時の分割数は予備解析を行った上で、一律にdh =10、dw=5とした。
通常の2値分類器の場合、正例と負例が与えられたデータから学習して分類器が生成される。これに対し、本実施形態においては、計測データに不適合データが混在する場合であるから、PU法による分類器を使用している。本実施形態に使用されるPU法は、非特許文献3に詳述されているように、正例とラベルなしデータから学習し、正例/負例の2値分類をするための半教師あり学習アルゴリズムの一種である。ROM3に格納したPU法の学習アルゴリズムの処理手順の概要は以下の通りである。
図9は、PU法の学習アルゴリズムの処理手順の概要を説明するための図である。同図(9A)は、学習に使用する変数およびラベルフラグを示し、(9B)は、(9A)の前提条件の詳細を示す。図10は、PU法における主要な解析内容を示す図である。図11は、以下に説明する、PU法による分類器の処理内容をまとめた概要説明図である。図11において、正例集合、負例集合をそれぞれ、P、Nとし、Pには、ラベル付き部分集合Lとラベル無し部分集合Uが含まれ、NにはUのみを含むとしている。
事例x(入力データ)をパルス波形に関する属性ベクトルとし、yをそのクラスラベル、事例にクラスラベルが付けられているか否かを示すフラグをsとする。入力事例の集合のなかで、正例(y=1)の一部のみがラベルされており(s= 1)、他の正例と全ての負例(y=0)はラベルされていない(s=0)。すなわち、サンプルが負例であるならばラベルされている確率はゼロであり、p(s= 1|x,y=0)=0である。このような事例集合を2値分類器の学習アルゴリズムの入力とし、サンプルがラベルされている確率 g(x)=p(s=1|x)を求めることができる。さらに、本来求めたいものはg(x)ではなくp(y=1|x)であるから、次の補正を加えてp(y=1|x)が抽出される。
全事例集合において、サンプルがラベルされている確率である、g(x)=p(s=1|x)は、図10の(10a)に示す導出過程により、g(x)=p(y=1|x)p(s=1|y=1)の関係式に導出される。c=p(s=1|y=1)とすると、サンプルが正例である確率は、p(y=1|x)=g(x)/cと与えられる。
ここで、正事例集合中でラベル付けされる確率が一様ランダム、すなわちxによらずp(s=1|y=1,x) =p(s=1|y=1)=cは一定値であると仮定している。これは、取り扱う計測データが意図的に偏った恣意的なデータではないことによる。
ここで、cは、次のようにして推定することが可能である。正事例集合中で一 様ランダムにラベル付けされているならば、g(x)は、xが正例である場合には正例中に含まれるラベル付き事例集合の割合 に一致し、g(x)=p(s=1|y=1)=cとなる。そこで、PU法によらない通常の2値分類器で求めたg(x)を用いて、正事例であるラベル付き事例集合L中の平均(下式の数1としてcを推定することができる。
Figure 0006807529
図12は、(処理1−5)におけるPU法による2値分類器の識別処理を示す。
処理P1−1において、g(x)を学習データ集合により学習する処理が行われる。次に、処理P1−2において、数1に基づいてcを検証用データ集合により推定する処理が行われる。処理P1−3において、g(y=1|x)=g(x)/cの関係から確定したg(y=1|x)によってテストデータに対する正例/負例の識別を行う処理が行われる。この場合の判断基準は、g(y=1|x)>0.5とすることができる。
本発明は、図11に示すPU法による分類器の構成において、ラベルなし事例が正例である確率を抽出することができる。以下に、ラベルなし事例が正例である確率を抽出する抽出手順を説明する。
ラベル付き事例は全て正例であるが、ラベルなし事例は正例、負例のいずれの可能性もある。ラベルなし事例が正例である確率をw(x)とすると、その負例である確率は、 1−w(x)である。そこで、ラベルなし事例をすべて2倍に複製し、一方を正例として扱い、もう一方を負例として扱う。正例として扱うラベルなし事例xには重みw(x)を与え、負例として扱うラベルなし事例x には重み「1−w(x)」を与える。ラベル付き事例は、すべて正例であるから、重み「1」で正例として扱う。これら重み付き事例集合を学習データとして分類器を作成する。
ここで、cとg(x)=p(s=1|x)は、図9〜図11に示した手法により得られているとした場合、ラベルなし事例が正例である確率w(x)は、図10の(10b)に示す導出過程により、w(x)=(1−c)g(x)/(c(1−g(x)))となるので、cおよびg(x)の抽出によりラベルなし事例が正例である確率w(x)を求めることができる。
本実施形態による識別精度の検証実験を以下に説明する。
DNA構成分子を分析物とし、ナノギャップ電極を用いて計測した計測パルス集合から、1)まず前処理としてPU法による分類器を構成し、ノイズ由来のパルス(不適合データ)を識別し(図12参照)、抽出した不適合データを第2種データから除去して塩基由来のパルスのみのデータ集合を取得した。2)そのようにして得た塩基由来のパルス集合に対して塩基種別の識別精度を評価した。
ノイズ除去は、あらかじめ塩基(BithioU、TTF)を含んでいない溶 媒のみに対して、ナノギャップ電極により計測したトンネル電流パルスを取得しておく。このパルス集合は塩基とは関係のないノイズ由来のパルスであり、「ノイズパルス集合」と呼ぶことにする。次に、溶媒に塩基BithioUを混入したものについて計測した電流パルスを取得する。TTFについても同様に取得する。このパルス集合には、塩基由来の「塩基パルス」とノイズパルスの双方が含まれている。そこでこれを「塩基+ノイズパルス集合」と呼ぶことにする。
ノイズパルス集合中のパルスは必ずノイズパルスであるので、それを正事例集合(第1データのデータ集合)とみなし、塩基+ノイズパルス集合中のパルスは、いずれのパルスであるか不明なので、それをラベルなし事例集合とみなして、図12に示したPU分類器処理によって、ノイズパルス(正例)と塩基パルス(負例)の識別を行うことができ、正例であるノイズデータを除去することにより、ほぼ塩基パルスのみからなる集合(塩基パルス集合)を得ることができる。
PU分類器処理は、このノイズパルスと塩基パルスの正負例分類のために 1 度使用するだけであり過学習による問題は起こらないので、全パルス集合を学習用データとして用いてPU分類器を作成し、それにより全パルス集合をノイズパルスと塩基パルスに分離する分類分析を行った。このようにして、BithioUの塩基+ノイズパ ルス集合からPU分類器によりBithioUの塩基パルス集合を取得、TTFの塩基+ノイズパルス集合からPU分類器によりTTFの塩基パルス集合を取得した。
塩基パルスと塩基+ノイズパルスの識別精度評価のために、ノイズデータを除去、分離したBithioUとTTFの塩基パルス集合に対し、通常の2値分類器による塩基種類の識別実験を行った。識別実験では、2種塩基の塩基パルス数のいずれかが10に満たない場合は、学習用事例が少なすぎるために実験対象から除外した。識別精度の指標にはF−measure(後述の図71に示す、F−尺度)を用い、10倍交差検定(10−Fold crossvalidation:以下、10CVと略す。)により精度評価を行った。10CVの際には、BithioUとTTFの塩基パルス数は同数とした.すなわち、PU分類器により得たBithioUとTTFの塩基パルス数がそれぞれNB、NTであるとき、10CVに用いる塩基パルス数をBithioU、TTFともにN=min(NB,NT) に揃えた。パルス数がNより大きい塩基パルス集合については、N個の塩基パルスをランダム抽出した。また、PU分類器によるノイズ除去の効果を見るために、ノイズデータ除去を施す以前の塩基+ノイズパルス集合に対しても、BithioUとTTFの識別実験を行った。BithioU、TTFそれぞれの塩基+ノイズパルス集合からN個ずつランダム抽出して得たパルス集合に対し、塩基パルス同様に 10CVで精度評価を行った。
以下に検証実験の実験条件を説明する。
図6に示した機械学習ソフトウエアによる、22種の分類器で種々の分析条件の下で識別精度を調べた。
パルス抽出パラメータとして、パルス抽出の際には、計測電流値のベースラインからどれだけ外れたらパルス開始と判定するかという波高閾値αと、何ステップ以上波高閾値を超えたらパルスであると判定するかという波長閾k値の2つのパラメータ(後述の図22に示す調整因子)を用いている。これらのパラメータを様々試し、「波高閾値αについて4通り×波長閾k値について4通りの計16通り」に対して実験を行った。属性ベクトルとしては、V1〜V8の8種類の属性ベクトルについて試した。
分類分析用の分類器としてアンサンブル学習「Rotation Forest」を採用し、その内部で用いるベース分類器として、Wekaに実装されているもののうち、入力事例連続値ベクトルの2値分類を行える、図6の22種類の分類器を使用した。PU手法としては、図10に示したg(x)およびw(x)の2種の手法を使用した。
上記の実験条件下で行う不適合データの識別実験は、上記の実験条件下で行う不適合データの識別実験は、パルス抽出パラメータ16通り×属性ベクトル8通り×Wekaに実装された22分類器×PU手法2通りの全ての組合せのうちで、塩基パルス数が2塩基とも10以上であった3272ケースについて行った。この識別実験では、単純化のため、抽出したパ ルスに対して、1)BithioUのノイズ除去、2)TTFのノイズ除去、3)ノイズ除去後の2塩基識別のこれら3者に用いた条件(パルス抽出パラメータ、属性ベクトル、分類器、PU分類器手法)は全て共通とした。同様な条件でPU分類器によるノイズ除去を用いないで塩基+ノイズパ ルス集合に対しても識別実験を行った。
図13は、3272ケースから得られた、F−measure>0.9であった1事例(F−measureが0.93であった解析条件で使用した計測パルス集合)で、塩基と判定したパルスと、ノイズと判定したパルスについてのパルスピーク波高のヒストグラムを示す。横軸は、パルスピーク波高(nA)、縦軸は、パルス数を示す。(13A)は、BithioUに関するノイズパルスと塩基パルスのヒストグラムを示し、(13B)は、TTFに関するノイズパルスと塩基パルスのヒストグラムを示す。(13A)において、ノイズパルスと塩基パルスとでは、それぞれ、0〜0.3、0.02〜0.4の波高範囲で分布している。(13B)において、ノイズパルスと塩基パルスとでは、それぞれ、0〜0.2、0〜1.2の波高範囲で分布している。
図13からわかるように、パルスピーク波高のヒストグラムは、ノイズパルスと塩基パルス間で重なり合う部分が多く、パルスピーク波高だけではノイズパルスと塩基パルスとの識別が困難であることがわかる。
図14は、ノイズ除去あり/なしのそれぞれ3272ケースについて得られた、F−尺度(F−Measure)のヒストグラムを示す。横軸は塩基識別精度、縦軸は、ノイズ除去あり/なし別の各種条件下における解析事例数を示す。ノイズ除去なしの場合と、ノ
イズ除去ありの場合とでは、それぞれ、0.3〜0.6、0.5〜1.0の精度範囲で分布している。解析事例総数は、パルス抽出パラメータと属性ベクトルと分類器の各種組合せの3272である。
図14からわかるように、ノイズ除去なしの場合と、ノイズ除去ありの場合とでは、重なり部分が大きいものの、100%ないし100%に近い精度まで識別精度が向上している。したがって、PC1による不適合データの識別処理性能は、パルスピーク波高だけでは塩基/ノイズの判定が困難な場合であっても、パルス波形特徴を的確に把握した特徴量の属性ベクトルを用いることにより、適切にノイズパルスを除去して高い塩基分類精度を得ることができる。
PC1による分類分析装置は、上記の識別処理により識別された不適合データを除去した被分析データに対する高精度の分類分析機能を有する。この分類分析機能は、以下の分析手順によって構成されている。
(C1)上記の識別処理により識別した、分析物以外の要素に起因して検出された不適合データを不適合データ記憶手段のRAM4の所定エリアに記憶する。不適合データは、PC1で検出して記憶するだけでなく、あらかじめ外部端末に記憶した不適合データファイルをPC1に導入して記憶させてもよい。
(C2)計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、記憶した不適合データを取り除いたデータ群を被分析データとしてRAM4の所定エリアに記憶する。あらかじめ不適合データを取り除いたデータ群を被分析データとしてPC1に導入して記憶させてもよい。
(C3)PC1に搭載されたコンピュータ制御プログラムには、機械学習を用いた分類分析を行う分類分析プログラムが含まれ、ROM3に格納されている。
(C4)パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を機械学習のための学習データとし、不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、分類分析プログラムを実行することによって分析物に関する分類分析が実行可能になっている。
PC1による分類分析装置によれば、パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を機械学習のための学習データとし、PU分類手法に基づく分類器により高精度に識別した不適合データが取り除かれた被分析データから得られる特徴量を変数にして、分類分析プログラムを実行することによって分析物に関する分類分析を行うので、該被分析データにより分析物に関する分類分析を高精度に行うことができる。
本実施形態においては、高精度の不適合データの識別と分類分析を行えるので、例えば、人工塩基の識別可能となる途を開き、DNA記憶媒体の情報圧縮技術や、人工塩基対を用いた医薬品創薬などへの応用展開を図ることができる。
本発明は、上記の実施形態における電流出力波形に限らず、広範囲の出力波形、例えば、電圧波形、インピーダンス波形などに対する不適合データの識別および分類分析に適用することができる。
本発明は、ナノギャップ電極による測定系による検出波形に限らず、試料対象が通過する試料対象相当の微小構造、例えば、貫通孔、ウェル(凹型),ピラー(凸型)、流路等の測定系による検出波形に適用することができる。本発明における計測データの適応範囲は、時系列の計測データ中のすべてであって,電気計測に限らず光計測、音等の物理現象の検出データを含むことが可能である。
本発明における分析物以外の要素に起因する除去対象には、上記の実施形態における量子レベルの要素に限らず、例えば、計測器、計測デバイス、溶液中に存在する分析物以外で混入しているシグナルに適用可能である。すなわち、本発明は、例えば、計測試料に混入する微細な塵埃、あるいは血液などに含まれる分析物質を計測対象とする場合における、赤血球、白血球、血小板等の微小物質などに起因する不適合データの識別・除去技術に適用することができる。
本発明に係る識別処理および分類分析に使用される特徴量は、上記の波高・波長に限らず、波形形態由来の各種特徴量を使用することができる。本発明者ら、マイクロ・ナノポアデバイスを用いた粒子検出技術で登場する波形データの解析から有効な特徴量を把握するに至った。マイクロ・ナノポアデバイスを用いた粒子検出技術は、特許文献1などに開示されている。以下、本発明に有効な特徴量およびそれを使用したときの分類分析処理を詳述する。
図15は、マイクロ・ナノポアデバイス8を用いた粒子検出装置の概略構成を示す。
粒子検出装置は、マイクロ・ナノポアデバイス8およびイオン電流検出部により構成されている。マイクロ・ナノポアデバイス8は、チャンバー9と、チャンバー9を上下の収容空間に区画する隔壁11と、隔壁11の表裏側に配置された一対の電極13、14とを有する。隔壁11は基板10上に形成されている。隔壁11の中央付近には、微小径の貫通孔12が穿設されている。貫通孔12の下方には、基板10の一部を下向きに凹状に取り除いた凹部18を設けている。マイクロ・ナノポアデバイス8は半導体デバイス等の製造技術(例えば、電子線描画法やフォトリソグラフィ)を用いて作成される。すなわち、基板10はSi材で構成され、表面上にSi34膜による隔壁11が薄膜形成されている。凹部18は基板10の一部をエッチングにより除去して形成されている。
隔壁11は、大きさ10mm角で、厚さ0.6mmのSi基板に50nmのSiN膜を積層して形成されている。Si34膜にレジストを塗布し、電子線描画法により、直径3μmの円形の開口パターンを形成して、貫通孔12が穿設されている。貫通孔12の裏側においては、KOHによるウェットエッチングを行い50μm角の開口を形成して凹部18を設けている。凹部18の形成は、ウェットエッチングに限らず、例えば、CF4系ガスによるドライエッチングなどによる等方的なエッチング等により行うことができる。
隔壁11用の膜には、SiN膜の他に、SiO2膜、Al23膜、ガラス、サファイア、セラミック、樹脂、ゴム、エラストマー等の絶縁性膜を使用することができる。基板10の基板材料もSiに限定されるものではなく、ガラス、サファイア、セラミック、樹脂、ゴム、エラストマー、SiO2、SiN、Al23等を使用することができる。
貫通孔12は、上記の基板上の薄膜に形成する場合に限らず、例えば、貫通孔12を形成した薄膜状シートを基板上に接着することによって、貫通孔を有する隔壁を形成するようにしてもよい。
イオン電流検出部は、電極13、14の電極対と、電源15、増幅器16および電圧計20により構成されている。電極13、14は貫通孔12を介して対向配置されている。増幅器16はオペアンプ17と帰還抵抗19とにより構成されている。オペアンプ17の(−)入力端子と電極13は接続されている。オペアンプ17の(+)入力端子は接地されている。オペアンプ17の出力側と電源15の間に電圧計20が接続配置されている。電源15により電極13、14間には、0.05〜1Vの印加電圧を使用できるが、本実施例では0.05Vが印加されるようになっている。増幅器16は電極間に流れる電流を増幅して電圧計20側に出力する。電極13、14の電極材料としては、例えば、Ag/AgCl電極、Pt電極、Au電極等を使用でき、好ましくはAg/AgCl電極である。
チャンバー9は、マイクロ・ナノポアデバイス8周囲を密閉状に囲む流動性物質収容容器であり、電気的および化学的に不活性な材質、例えば、ガラス、サファイア、セラミック、樹脂、ゴム、エラストマー、SiO2、SiN、Al23等により形成されてよい。
チャンバー9内には注入口(図示せず)から検体21を含む電解質溶液24が充填される。検体21は、例えば、細菌、微小粒子状物質、分子状物質等の分析物である。検体21を、流動性物質である電解質溶液24に混入して、マイクロ・ナノポアデバイス8による計測が行われる。イオン電流検出部による計測終了時には排出口(図示せず)より充填溶液は排出可能になっている。電解質溶液には、例えば、リン酸緩衝生理食塩水(PBS)、Tris−EDTA(TE)バッファーやそれらの希釈液の他、これらと同様なすべての電解質溶液剤を使用することができる。計測は、検体含有電解質溶液をチャンバー9内に導入、充填するごとに行う場合に限らず、溶液溜から簡易ポンプ装置により検体含有電解質溶液(流動性物質)を汲み出して注入口よりチャンバー9内に充填し、計測後に排出口から排出させ、さらに、別の溶液溜あるいは新たな溶液を溶液溜に貯留し、新たに汲み出して次の計測を行う連続計測システムを構成するようにしてもよい。
電解質溶液24をチャンバー9内に充填した状態で、貫通孔12の上下の電極13、14間に電源15の電圧印加を行うと、貫通孔12に比例した一定のイオン電流が電極間に流れる。電解質溶液24中の細菌等の検体が貫通孔12を通過する際には、一部のイオン電流が検体により阻害されるため、電圧計20によりパルス状のイオン電流減少を計測することができる。したがって、マイクロ・ナノポアデバイス8を用いた粒子検出装置によれば、計測電流の波形変化を検出することにより、検体(例えば、粒子)毎の貫通孔12通過による流動性物質中に含まれる粒子個々の存在を高精度に検出することができる。計測態様には、流動性物質を強制的に流動させながら計測する場合に限らず、流動性物質を非強制的に流動させながら計測する場合を含むことができる。
電圧計20によるイオン電流の計測出力は外部出力可能になっている。この外部出力は、変換回路装置(図示せず)によりデジタル信号データ(計測電流データ)に変換されて記憶装置(図示せず)に一旦保存された後、データファイル記憶部5に格納される。データファイル記憶部5には、マイクロ・ナノポアデバイス8を用いた粒子検出装置によりあらかじめ取得した計測電流データを外部入力することができる。
図68は、PC1による分析物(例えば、大腸菌Ecや枯草菌Bs)に対する分類分析処理の概要を説明するための概要図を示す。
図68の分類分析処理は、以下の分析手順(a)〜(d)によって構成されている。
(a)所定の分析物(例えば、大腸菌Ecや枯草菌Bs)を含む流動性物質に対しナノポアデバイス8aによる計測の結果、各種別毎の検出信号として得られた貫通孔8bの分析物通過に対応するパルス状信号De、Dbの波形形態の特徴を示す特徴量をあらかじめ求める。パルス状信号De、Dbは、それぞれ大腸菌Ec、枯草菌Bsの貫通孔8b通過によって得られた信号である。
(b)コンピュータ解析部1aには、機械学習による分類分析を行う分類分析プログラムが内蔵されている。(a)においてあらかじめ求めた特徴量は、大腸菌Ec、枯草菌Bsの既知データから得られた特徴量であり、機械学習のための学習データとしてコンピュータ解析部1aにおいて使用される。
(c)例えば、大腸菌Ecおよび枯草菌Bsの含有比ないし含有数が不明の状態で流動性物質中に混入された混合物を被分類分析物Mbとした場合、(a)の既知データ取得の場合と同様に、ナノポアデバイス8cによる計測を行う。この計測により、被分類分析物Mbの貫通孔8d通過によって被分析データとしてパルス状信号Dmが得られる。
(d)既知データによる特徴量を学習データとし、被分析データのパルス状信号Dmから得られる特徴量を変数にして、分類分析プログラムを実行することによって、該被分析データにおける所定の分析物に関する分類分析を行うことができる。
上記の分類分析により、特徴量に基づいて機械学習による分類分析を行って、種別の分からない被分析データを大腸菌Ecまたは枯草菌Bsの通過に由来するもの1bと由来しないものに分類することができる。なお、本発明に係る特徴量は、コンピュータ解析部1aにおいて作成してもよいし、別の特徴量作成プログラムを使用して作成してコンピュータ解析部1aに与えるようにしてもよい。
図69は、PC1による主な制御処理を示す。
主な制御処理には、入力処理(ステップS100)、入力データから特徴量を取得する特徴量取得処理(ステップS101)、分類分析処理(ステップS104)、個数分析処理(ステップS105)および出力処理(ステップS106)が含まれている。入力処理(ステップS100)において、PC操作に必要な各種入力、内蔵プログラムの起動入力、各種分析の実行指示入力、計測電流データおよび/または特徴量データの入力、出力態様の設定入力、分析時に特徴量を指定する場合の指定特徴量の入力等が行われる。この入力処理には、不適合データの除去処理も含まれている。入力手段6による分析種別の指定操作を行うことによって、分類分析処理(ステップS104)または個数分析処理(ステップS105)が実行可能になっている(ステップS102、S103)。分類分析処理は、特徴量取得処理(ステップS101)において入力データから取得した特徴量のベクトル量データを使用して分類分析可能になっている。個数分析処理は、特徴量取得処理において入力データから取得した特徴量のスカラーデータを使用して個数分析可能になっている。本実施形態は、分類分析処理機能に加え、個数分析処理機能を具備する実施形態であるが、本発明は、分類分析処理機能のみを具備した実施形態により実施することができる。
本実施形態に係るコンピュータ制御プログラムには、粒子種別の個数ないし個数分布を分析するための個数分析プログラムが含まれている。個数分析処理(ステップS105)において、個数分析プログラムの実行が可能になっている。出力処理(ステップS106)において、分類分析処理(ステップS104)および個数分析処理(ステップS105)における分析結果データの出力が可能であり、例えば、表示手段7に各種分析結果データが表示出力される。PC1に出力手段としてプリンタ(図示せず)を接続した場合には、各種分析結果データのプリント出力が可能になっている。
<個数分析処理について>
本実施形態に係る分類分析装置は、個数分析プログラムの実行によって、分析対象として例えば、1種または2種以上の粒子(分析物の一例)を含む流動性物質(電解質溶液24)を隔壁11上側の一面側に供給し、粒子が貫通孔12を通過することにより生ずる電極13、14間の通電変化を検出した検出信号のデータ(計測電流データ)に基づいて粒子種別の個数ないし個数分布を分析する個数分析機能を有する。すなわち、PC1は、CPU2の制御によりROM3に格納した個数分析プログラムを実行することにより、データファイル記憶部5に格納、記憶した計測電流データに対する個数分析処理を行うことができる。個数分析処理は、検出信号に含まれ粒子通過に対応するパルス状信号の波形形態の特徴を示す特徴量に基づくデータ群から確率密度推定を行い、粒子種別の個数を導出する個数分析方法に基づいて、粒子種別個数の自動分析を行うことができる。
図16は、PC1の分析処理の説明に必要な処理プログラム構成を示す。各処理プログラムはROM3に格納されている。分析対象の一データ実施例として、分析物としての2種の粒子(大腸菌と枯草菌)を含む電解質溶液24を用いて抽出した計測電流データ(各粒子のパルス抽出データ)を元データに使用している。
個数分析用処理プログラム(個数分析プログラム)には、検出信号として得られた、貫通孔12の粒子通過に対応するパルス状信号の波形形態の特徴を示す特徴量に基づくデータ群から確率密度関数を求める確率密度関数モジュールプログラムと、確率密度推定の結果から粒子種別の個数を導出する粒子種分布推定プログラムとが含まれている。分類分析および個数分析に使用される処理プログラムには、データ群から抽出したベースラインを基準にして、パルス状信号の波形形態の特徴を示す特徴量を抽出する特徴量抽出プログラムと、抽出した特徴量に基づいて得られる粒子毎のパルス特徴量データによるデータファイルを作成するデータファイル作成プログラムとが含まれている。分類分析処理および個数分析処理は、データファイル作成プログラムにより作成されたデータに対して実行される。特徴量抽出プログラムには、元の計測電流データから該ベースラインを抽出するベースライン推定処理プログラムを含む。特徴量取得処理(ステップS101)においては、特徴量抽出プログラムおよびデータファイル作成プログラムを実行して、入力処理(ステップS100)で入力されたデータから特徴量を作成して、RAM4の特徴量記憶用データファイルに記憶させる処理が行われる。分類分析用の入力データは、学習データに供される特徴量の作成に必要な既知データと、被分析用のデータ(分析データ)である。既知データから作成された特徴量データは、既知データによる特徴量記憶用データファイルDAに記憶され、分析データから作成された特徴量データは、分析データによる特徴量記憶用データファイルDBに記憶される。分類分析を行う場合、これらのデータファイルDA、DBから特徴量のベクトル量データを取り込んで分析処理が実行可能になっている。個数分析用の入力データは、被分析用のデータ(分析データ)のみである。個数分析用の入力データから作成された特徴量データは、個数分析用データファイルDCに記憶され、個数分析を行う場合、該データファイルDCから特徴量のスカラーデータを取り込んで分析処理が実行可能になっている。
粒子種分布推定の前提として真の確率密度関数の形式が未知であるから、確率密度関数モジュールプログラムの実行により、カーネル法と呼ばれるノンパラメトリック(関数形式を指定しない)確率密度推定が行われる。推定対象の元データは、パルス状信号から得られた、例えば、波高h・時間幅Δt・出現数等を含むパルス出現分布データである。元の計測データ分布の各データを計測誤差不確定性を導入したガウス分布で表し、各ガウス分布の重ね合わせにより確率密度関数が得られる。確率密度関数モジュールプログラムの実行により確率密度推定処理を行い、元データを該元データに基づいた未知の複雑な確率密度関数(例えば、特徴量のパルス波高・パルス幅・出現確率)で表すことができる。
図46は、マイクロ・ナノポアデバイス8を用いて、3種の粒子33a、33b、33cが貫通孔12を通過して得られる検出信号の波形例と、特徴量に基づいて得られる確率密度関数の導出例を示す。同図(46A)は、マイクロ・ナノポアデバイス8を用いた粒子検出装置を模式的に示す。同図(46B)〜(46D)は、各検出信号の波形データを示す。同図(46E)〜(46G)は、各波形データから得られた確率密度関数の3次元分布図を示す。(46E)〜(46G)における、x軸、y軸、z軸は、それぞれ、特徴量のパルス波高、パルス幅および確率密度推定により得られた確率密度を示す。
上記のように、ノンパラメトリックな密度関数の推定法の一つであるカーネル法に基づいて確率密度推定処理が行われる。カーネル法は、1つのデータ点にある関数(カーネル関数)を当てはめ、これを全てのデータ点について行い、配置された関数を重ね合わせる推定法であり、滑らかな推定値を得るに適する。
確率密度関数モジュールプログラムの実行により、計測電流波形のパルス波高、パルス幅等のデータから多変数多次元確率密度とみなして2次元以上に拡張して加重の最適推定を行い粒子種別個数分布の推定処理が行われる。加重の最適推定にはHasselbald反復法に基づいて実行されるEMアルゴリズムソフトウエアが使用される。EMアルゴリズムは、PC1にあらかじめインストールされている。粒子種別個数分布の推定処理により得られた粒子種別個数分布結果は、表示手段7に粒子種別に対する出現頻度(粒子個数)のヒストグラムで表示出力可能になっている。
本発明に係る特徴量は、パルス状信号由来のパラメータとして、該パルス状信号の波形の局所的特徴を示す第1類型に属するものと、該パルス状信号の波形の全体的特徴を示す第2類型に属するもののいずれかである。これらのうちの1または2以上の特徴量を使用して個数分析を行うことによって、粒子種等の分析物種別に応じた個数ないし個数分布を高精度に分析することができる。
図24は、大腸菌22と枯草菌23の2種の粒子が電解質溶液24中に混在する様子を模式的に示した貫通孔12周辺の拡大図である。
<特徴量について>
図17は、実施例の大腸菌と枯草菌につき実測した粒子通過によるパルス波形例を示す。図17の(4−1)〜(4−9)は、大腸菌の実測パルス波形例(9種類)を示し、(4−10)〜(4−18)は、枯草菌の実測パルス波形例(9種類)を示す。両者を外観で比較すると、両者間に波高や波長には差異はあまりないが、ピーク位置や波形尖度等の粒子通過パルス波形形態の属性に顕著な相違がみられる。例えば、大腸菌の場合、ピークが時間経過に伴い前倒し傾向にあり、全体的に波形が尖っている(波形尖度が大きい)。枯草菌の場合、ピークが時間経過に伴い後倒し傾向にあり、波形尖度が小さい。
上記の粒子通過パルス波形形態の属性の違いに基づいて、確率分布作成のベースに用いる特徴量をパルス波形データから粒子種(大腸菌と枯草菌)別に抽出することができる。
図18は、本発明に係る各種特徴量を説明するためのパルス波形図である。図18において、横軸は時間、縦軸はパルス波高を示す。
第1類型の特徴量は、
所定の時間幅内における波形の波高値、
パルス波長ta
パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
該波形の鋭さ(ピーク波形の広がり)を表す尖度、
パルス開始からパルスピークに至る傾きを表す俯角、
波形を所定の時間毎に区分した時間区分面積の総和を表す面積、および
パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比のいずれかである。
図18の5a〜5dは、それぞれ、パルス波長、波高値、ピーク位置比、尖度を示す。図5のBLは、パルス波形データから抽出(後述のBL抽出処理参照)した基準ライン(以下、ベースラインという。)を示す。これら4種類のパルス特徴量は、図19に基づいて示すと以下の(1)〜(4)で定義される。
(1)波長(パルス幅)Δt: Δt=te−ts(tsはパルス波形の開始時間、teはパルス波形の終了時間、Δt=ta
(2)波高|h|: h=xp−xo(BLのxoを基準にしてパルスピークPPのxpまでのパルス波形の高さ)
(3)ピーク位置比r: r=(tp−ts)/(te−ts)(パルス波長(=Δt)と、パルス開始からパルスピークppに至るまでの時間tb(=tp−ts)との比)
(4)ピーク尖度κ: 波高|h|=1、ts=0、te=1となるように正規化し、パルスピークPPから波高30%の水平線と交差する時刻の時刻集合[T]=[[ti]|i=1,・・・,m]を収集して、下記数2に示すように、時刻集合[T]のデータの分散をパルス波形広がりとしてκが求められる。
Figure 0006807529
図47は、俯角、面積および面積比の特徴量を説明するためのパルス波形図である。同図において横軸は時間、縦軸はパルス波高を示す。これら3種類のパルス特徴量は、図に基づいて示すと以下の(5)、(6)、(7)で定義される。
(5)俯角θは、(34A)に示すように、パルス開始からパルスピークに至る傾きであり、下記数3により定義される。
Figure 0006807529
(6)面積mは、下記数4に示すように、単位べクトル[u]と波高ベクトル[p]との内積による面積[m]で定義される。なお、以下の説明において、変数Aのベクトル表記は[A]で示される。例えば、(34B)の10分割例に示すように、面積mは、一つの波形を所定の時間毎に10分割したときの時間区分面積hi(幅hx、高さhyとしたとき、hi=hx×hy、i=1〜10)の総和を表す面積である。
Figure 0006807529
ここで、特徴量計算の準備として、以下に定義するd次元波高ベクトル[p](=(h1,h2,・・・,hd))をあらかじめ計算して求めておく必要がある。
図48は、波高ベクトルの取得の仕方を説明するための図である。
(35A)に示すように、一つの波形データにつき、波長をd等分してd個のデータグループの分化が行われる。ついで、(35B)に示すように、各グループ(各分割区間)ごとに波高の値を平均化して、例えば、10等分するときには平均値A1〜A10が求められる。この平均化には、波高値を規格化しない場合と、波高値を規格化する場合とを含むことができる。数4で表記した面積[m]は、規格化しない場合を示す。このようにして求めた平均値を成分とするd次元ベクトルが「波高ベクトル」と定義される。
図49は、d次元の波高ベクトルとデータサンプリングとの関係を説明するための図である。
(36A)に示すように、パルスデータの取得に関わるサンプリングレートが大きい場合、パルス部分におけるステップ数(データ数)Tがベクトルの次元数dを上回るので、上述の取得手順により各区分の平均値を成分した波高ベクトルを得ることができる。一方、サンプリングレートを下げていくと、パルス部分におけるステップ数Tがベクトルの次元数d(>T)を下回る事態が生ずる。T<dの場合、上述の取得手順により各区分の平均値を取得できないので、3次スプライン補間によってd次元の波高ベクトルを取得することができる。
特徴量抽出プログラムには、波高ベクトルデータを取得するための波高ベクトル取得プログラムが含まれている。波高ベクトル取得プログラムの実行により、パルスステップ数Tがベクトルの次元数dを上回るか(T>d)同等の場合(T=d)、時間方向にd等分した各区分の平均値を求め、該平均値を成分とするd次元波高ベクトルを取得し、パルスステップ数Tがベクトルの次元数dを下回る場合(T<d)、3次スプライン補間を実行してd次元波高ベクトルを取得するようになっている。すなわち、3次スプライン補間法を用いた補間処理を行うことにより、パルスステップ数が少ない場合にもベクトルの次元数を一定にすることができる。
(7)面積比rmは、(34B)に図示した時間区分面積hiをパルス開始からパルスピークに至るまでの区間での和の、全波形面積に対する面積比で定義される。下記数5は、面積比rmを示す。
Figure 0006807529
第1類型の特徴量は、パルス波高、パルス波長、パルス面積等のパルス状信号の波形に一義的に由来し、局所的特徴を示す特徴量である。第2類型の特徴量は、第1類型の局所的特徴に対し全体的特徴を示す特徴量である。
第2類型の特徴量は、
パルス開始時点を中心にして時間区分面積を質量に、かつ該中心から時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメントのいずれかである。
図50は、時間(波長)および波幅に関する第2類型の特徴量を説明するためのパルス波形図である。同図において横軸は時間、縦軸はパルス波高を示す。これらのパルス特徴量は、同図に基づいて示すと、以下の(8)〜(15)で定義される。
(8)時間慣性モーメントは、(34B)と同様に一つの波形を所定の時間毎にi次元で等分割したときの時間区分面積hiを質量に、かつ該中心から時間区分面積hiに至る時間を回転半径に擬制したときに定まる特徴量である。すなわち、時間慣性モーメントの特徴量は、下記数6に示すように、ベクトル[v]と波高ベクトル[p]との内積による[I]で定義される。ここで、ベクトルの次元をnとしたとき、[v]=(12,22,32,・・・n2)および[p]=(h1,h2,・・・,hd)である。例えば、時間慣性モーメントは、(37A)の10分割例に示すように、(34B)と同様に一つの波形を所定の時間毎に10分割したとき、時間区分面積hi(幅hx、高さhyとしたとき、hi=hx×hy、i=1〜10)を質量に、かつ該中心から時間区分面積hiに至る時間を回転半径に擬制したときに定まる特徴量であり、(6)の面積mと同様に、波高ベクトルにより求めることができる。
Figure 0006807529
(9)規格化された時間慣性モーメントは、(8)で示した時間区面積を作成した波形に対して波高が基準値の「1」になるように波高方向に規格化した波形を用いて、(8)と同様にして作成した波高ベクトルhiにより数6で定義される特徴量である。
(10)平均値ベクトルは、(37B)の10分割例に示すように、一つの波形を波高方向にi次元で等分割し、パルスピーク前後それぞれにおいて各分割単位(分割領域wi)毎に時刻値の平均値を算出し、分割領域wiの同一波高位置の平均値をベクトルの成分とする特徴量である。
(11)規格化された平均値ベクトルは、(10)の平均値ベクトルに対し波長が基準値になるように規格化した場合の特徴量である。
(12)波幅平均値慣性モーメントは、(37B)の10分割例に示すように、一つの波形を波高方向にi次元で等分割し、パルスピーク前後それぞれにおいて各分割単位(分割領域wi)毎に時刻値の平均値を算出し、分割領域wiの同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布hi(ベクトルの次元数をnとしたとき、i=1〜n)と擬制して波形裾野の時間軸Atを回転中心にした場合の慣性モーメントとして定義される特徴量である。定義式は、数6と同じであり、(12)の特徴量は、ベクトル[v]と質量分布hiとの内積により求めることができる。
(13)規格化された波幅平均値慣性モーメントは、上記の分割領域wiを作成した波形に対して波長が基準値の「1」になるように波長方向に規格化した波形を用いて、(12)と同様にして作成した質量分布hiにより数6で定義される特徴量である。
(14)波幅分散慣性モーメントは、波幅平均値慣性モーメントと同様に、一つの波形を波高方向にi次元で等分割し、パルスピーク前後それぞれにおいて各分割単位(分割領域wi)毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布hi(ベクトルの次元数をnとしたとき、i=1〜n)と擬制して波形裾野の時間軸Atを回転中心にした場合の慣性モーメントとして定義される特徴量であり、波幅平均値慣性モーメントと同様に、数6で定義される。
(15)規格化された波幅分散慣性モーメントは、上記の分割領域wiを作成した波形に対して波長が基準値の「1」になるように波長方向に規格化した波形を用いて、(14)と同様にして作成した質量分布hiにより数6で定義される特徴量である。
波幅平均値慣性モーメントおよび波幅分散慣性モーメントは、上記のように、数6で定義される特徴量であり、該定義中のベクトル[p]は、波幅平均値慣性モーメントの場合、時刻値の平均値の差のベクトルであり、波幅分散慣性モーメントの場合、時刻値の分散ベクトルである。以下の説明で、(12)〜(15)の波幅に関する慣性モーメントにおけるベクトル[p]を[pw]と表す。
(12)〜(15)の波幅に関する慣性モーメントのデータ作成演算には、図36に示した波高ベクトルの縦横軸を交換した波幅ベクトル[pw](=[p1,p2,・・・,pdw])を用いて行われる。波幅ベクトルは、(12)〜(15)の特徴量の定義で示した平均値の差ベクトルまたは分散ベクトルである。波幅ベクトルを密度分布として捉えることによって、(12)と(13)の波幅平均値慣性モーメントおよび(14)と(15)の波幅分散慣性モーメントを求めることができる。波幅ベクトルは、パルス波形データを波高方向にdw等分し、各区分毎に求めた波高値の平均値の差または分散を成分にもつdw次元ベクトルである。(37B)の場合、波幅ベクトルの次元は10次元である。(37B)に示した時間軸Atは、ベースラインBLと異なり、波幅ベクトルから得られるパルス裾野周りの回転軸ラインである。
図51は、dw次元の波幅ベクトルとデータサンプリングとの関係を説明するための図である。
特徴量抽出プログラムには、以下のdw次元の波幅ベクトルの作成演算処理により波幅ベクトルを取得するための波幅ベクトル取得プログラムが含まれている。
パルス波形データは、波高方向に様々な間隔で分布しているため、波高方向に分割した区画においてデータ点が存在しない不存在領域Bdを1または2以上含む場合が生ずる。(38A)においては、不存在領域Bdの1例を矢印で示している。不存在領域Bdは、データ間隔が粗くなってデータ点が存在せず、上記の数6で定義される波幅に関する慣性モーメントの成分を得ることができない。そこで、前述のパルス波形広がりの場合と同様に、パルスピークまでの波高をdw等分したときの各波高の時刻集合[Tk]=[[ti]|i=1,・・・,m]を収集することにより波幅ベクトルの成分が作成される。このとき、データ点が存在しない不存在領域Bdにおいては、線形補間によって成分データの取得が行われる。該線形補間は、パルスピークの(10k+5)%(k=0,1,2,3、・・・)の値をまたぐ連続した2つのデータに対して行われる。(38B)は、データ点tiとti+1の間に生じた不存在領域Bdの高さkについての線形補間点tkの一例を示している。なお、波幅ベクトルの作成に際して、(38C)に示すように、パルス波形データの裾野領域URに波高データの食い違いが生じている場合、パルスピークに近い方に揃えるように、パルスピークに遠い側の波高データDuは切り捨てられる。波幅ベクトル取得プログラムの実行処理には、不存在領域Bdに対する線形補間処理と、波高データの食い違いに対する波高データDuの切り捨て処理が含まれている。
図52は、波幅に関する慣性モーメントを波幅ベクトルにより取得する取得過程を説明するための図である。
(39A)は、波形を波高方向に10等分した例であり、一つの波形39aに対して、上記の線形補間処理および切り捨て処理を行うことにより得られた、波幅ベクトルの分割領域39bおよび回転軸ライン39cを示す。
(39B)に示すように、各分割単位ごとに、パルスピーク前後それぞれにおいて時刻値の平均値を算出し、分割領域の同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルの波幅ベクトルを取得することができる。この平均値の差ベクトルを質量分布と擬制して回転軸ライン39c(時間軸)を回転中心にした(12)の波幅平均値慣性モーメントを作成することができる。また、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを取得することができる。この分散ベクトルを質量分布と擬制して回転軸ライン39c(時間軸)を回転中心にした(14)の波幅分散慣性モーメントを作成することができる。なお、(10)、(11)の平均値ベクトルは、
時刻値の平均値を算出して分割領域の同一波高位置の各平均値を成分としたベクトルであり、dw等分した場合、2dw次元の時刻ベクトルで表わされる。
特徴量の作成に用いた波高ベクトルおよび波幅ベクトルのベクトル次元数は、分割数に拘泥する必要はなく任意に設定することができる。波高ベクトルおよび波幅ベクトルは、波長ないし波高の一方向に細分化した場合であるが、特徴量の作成には、複数方向に細分化したベクトルを使用することができる。
図53は、複数の方向に分割した場合の特徴量作成用波形ベクトルの一例を説明するための図である。
(40A)は、一つの波形データをメッシュ状に分割したデータマップ40aを示す。データマップ40aは、波形データを横軸の時間軸方向にdn分割し、縦軸の波高方向にdw分割してマトリクス状にデータ点の数の分布状態を示す。(40B)は、マトリクス状の区画(格子)の一部を拡大した分布状態を示す。(40B)の分布状態において、11×13個の格子に0〜6個のデータ点数が分布している。このマトリクス分割によって、各格子内のデータ点数/総データ点数をdn×dw次元ベクトルの成分とした波形ベクトルを、マトリクス配列のデータ群を走査状に並べ替えたベクトルに変換することにより波高ベクトルや波幅ベクトルに代えて特徴量の作成に使用することができる。
<ベースラインの推定について>
一般に細菌等は微細に異なる形態を有する微小物体である。例えば、平均的な大腸菌の場合、2〜4μmの体長で外径が0.4〜0.7μmである。平均的な枯草菌の場合、2〜3μmの体長で外径が0.7〜0.8μmである。さらに、大腸菌などには20〜30nmの鞭毛が付随している。
検体粒子として細菌等を使用する場合には、パルス波形データから僅かの違いを見逃すと、個数判定精度の低下をもたらしてしまう。このため、特徴量を正確に算出して確率分布の推定基礎とするために、粒子通過パルス波高を正確に把握する必要があり、これには計測信号のベースラインの推定を行う必要がある。しかし、計測信号の元データのベースラインには、ノイズデータや微弱な計測電流による揺らぎが含まれているために、この揺らぎ成分等を除いたベースラインを確定してからパルス波高等を検出する必要がある。ベースラインの推定(以下、BLの推定という。)は実用上、コンピュータによりオンラインで(即時的に)行うのが好ましい。
BLの推定をコンピュータ上で行う手法として、離散的な誤差のある観測から時々刻々変化する量を推定するに好適なカルマンフィルターを使用すれば、これにより外乱(システム雑音や観測雑音)を取り除いてベースラインBLを推定することができる。
カルマンフィルターとは、離散的制御過程が図19の(6A)に示す線形差分方程式により定義され、更新可能な状態ベクトル[x]の時刻[t]における値を推定する手法である。カルマンフィルターにおいては、状態ベクトル[x]およびシステム制御入力[ut]の値は直接観測できないものとされる。
状態ベクトル[x]は、図19の(6B)に示す観測モデルにより、間接的に推定されるものとする。システム制御入力[ut]については、その統計的変動幅[σu,t]のみをパラメータとして仮定する。
計測電流データ[X]はベクトルではなくスカラーであり、さらに各種行列もスカラーであり、[F]=[G]=[H]=[1]とみなすことができる。したがって、時刻tの実際の電流値のベースラインレベル、時刻tで計測された電流、時刻tの観測ノイズをそれぞれ、[xt]、[yt]、[νt]とすると、[xt]および[yt]は図19の(6C)に示すように表される。[xt]、[ut]、[νt]は観測不可能な因子であり、[yt]は観測可能な因子である。イオン電流検出部による計測周波数をf(Hz)とすると時刻データは1/f(秒)刻みとなる。システム制御入力[ut]の影響は実際上非常に小さいものと仮定してベースラインの推定を行うことができる。
図20は、上記の各因子を実際の計測電流データで示した図である。イオン電流検出部による実際の計測の際には、粒子が貫通孔12に詰まったりして、ベースラインの歪みが生ずるが、計測時には歪みの発生時点で中断して、歪み原因を除去してから計測が行われるので、元のデータ集合には歪みのないベースラインを含むデータのみが収集されている。
カルマンフィルターによる推定は予測と更新の繰返しにより行われる。ベースラインの推定にもカルマンフィルターによる予測と更新を繰返して実行される。
図21は、カルマンフィルターにおける予測(8A)と更新(8B)の繰返しの詳細を示す図である。図8において、ベクトル表記に付加した「ハット」記号は推定値を示している。添え字の「t|t−1」は(t−1)時点の値に基づく、t時点の値の推定値であることを示している。
図22は、BL推定処理プログラムに基づくBL推定処理を示す。BL推定処理にいては、BLの推定と、それに基づくパルス波高値の抽出が行われる。
BL推定処理の実行に際しては、カルマンフィルターにおける予測と更新の処理に必要な調整因子の開始時刻m、定数k、αの値は推定対象のデータ属性に応じて適切な値にあらかじめ調整(チューニング)して決めておく必要がある。αの値はベースラインの推定値の分散を調整するための値である。kの値は図21に示したカルマンフィルターにおける更新Aの実行回数に関係する値である(ステップS57、S62参照)。開始時刻mは計測サンプリングの1個分を1ステップとして計算されたステップ数分の時間データである。
図23は、該調整に使用したビーズモデルの波形図を示す。図15においては、粒子として細菌等と同程度の大きさの微小ビーズ玉を混入させた場合(ビーズモデル)の溶液状態を示している。図23の(10A)はイオン電流検出部によってサンプリング周波数900000Hzで取得した波形データである。(10A)に示すビーズモデルの波形はなだらかに減衰していく波形を示している。(10A)の右端部分に激しい落ち込みが生じており、それを拡大して(10B)に示している。
ビーズモデルの波形から(10B)に示すベースラインの段差部分(10C)が検出された場合に、その直前期間が初期値計算期間となる。例えば、m=100000とした場合、当該初期値計算期間を除いた期間において有意性のあるパルスが11〜12個目視で確認することができる。
図25は、調整因子のm、k、αの組合せに応じてビーズモデルの波形から拾われたパルスの数を示す表である。
図25の(12A)は、m=10000の場合のk値(10、30、50、70、90)、α値(2、3、4、6)の組合せによるパルス数を示す。同図(12B)は、m=50000の場合のk値(10、30、50、70、90)、α値(2、3、4、6)の組合せによるパルス数を示す。(12C)は、m=100000の場合のk値(10、30、50、70、90)、α値(2、3、4、6)の組合せによるパルス数を示す。
図25の3種のシミュレーション結果を比較すると、(12A)と(12B)の場合、計測されるべきパルス数は12になり、(12C)では11となっている。したがって、実施例では、パルス数の最大値の最も小さい(12C)を採用して、m=100000、k=50、α=6のチューニング設定を行っている。これらのチューニング設定データはあらかじめRAM23の設定エリアに記憶、設定されている。
図22のBL推定処理は上記チューニング設定下、図21に示したカルマンフィルターによるBL推定で行われる。まず、ステップS51にて、時刻mにおけるカルマンフィルターの初期値がRAM23のワークエリアに設定される。このとき、データファイル記憶部5に格納したパルス波形データはRAM23のワークエリアに読み込まれる。ついで、時刻(m+1)におけるカルマンフィルターの予測と更新(図21のAおよびB)が実行される(ステップS52)。予測と更新においては、図21に示したカルマンフィルターの各演算が実行され、RAM23に記憶される。以降、所定の単位時間毎に予測と更新(AおよびB)が繰り返し実行され、時刻tにおけるカルマンフィルターの予測と更新Aが
行われたとき、下記数6の条件が満たされたか否かが判断される(ステップS53、S54)。単位時間は元データのサンプリング周波数により定まる値であり、あらかじめRAM23にセットされている。
Figure 0006807529
数7の条件が満たされない場合、時刻tにおけるカルマンフィルターの更新Bが実行され、単位時間経過したデータ毎にステップS53〜S55の処理が繰り返される。上記数7の条件が満たされた場合、その回数値が1回ごとにRAM23のカウントエリアに累積記憶される(ステップS54、S56)。ついで、該カウント値に基づき、数7の条件が時刻sを起点としてk回連続して満たされたか否かが判断される(ステップS57)。k回連続していない場合はステップS55に進み、更新Bが行われる。
k回連続した場合はステップS58に進み、BL確定のためのホールド必要期間が開始したと判定される。このとき、ホールド必要期間のホールド開始時刻をsとしてRAM23に記憶されるとともに、時刻(s+1)〜時刻(s+k−1)の間のカルマンフィルターの演算結果は記憶されずに捨てられる。
ホールド必要期間の開始により、時刻tにおけるパルスの落ち込み最大値がRAM23に更新可能に記憶される(ステップS59)。ついで、ステップS54と同様に、ホールド必要期間における、下記数8の条件が満たされているか否かの判断が行われる(ステップS60)。
Figure 0006807529
上記数8の条件が満たされない場合、パルスの落ち込み最大値の更新が行われる(ステップS59、S60)。数8の条件が満たされた場合、その回数値が1回ごとにRAM23のカウントエリアに累積記憶される(ステップS60、S61)。ついで、該カウント値に基づき、数8の条件が時刻s2を起点としてk回連続して満たされたか否かが判断される(ステップS62)。k回連続していない場合はステップS59に戻る。
k回連続した場合はステップS63に進み、このとき更新記憶されたパルスの落ち込み最大値がパルス波高値の推定値としてRAM23に記憶される。パルス波高値の推定値はパルス開始時刻およびパルス終了時刻のデータとともに記憶される。パルス波高値の推定を終えると、ホールド必要期間は終了と判定される。この終了によりホールド必要期間のホールド終了時刻がs2としてRAM23に記憶される(ステップS64)。次に、ステップS65に進み、時刻sの値はカルマンフィルターの演算処理の再開時の初期値として、時刻s2〜時刻(s+k−1)の期間について遡及してカルマンフィルターの演算が実行される。ステップS65の後は、全パルス波形データのBL推定処理を行ったか否かが判断されて(ステップS66)、全パルス波形データの推定完了で終了し、残データがあるときはステップS53に移る。
<特徴量抽出について>
図26は、特徴量抽出プログラムの実行処理内容の概要を示す。
特徴量抽出処理は、図22の上記BL推定処理の実行によってパルス波高値(波高|h|)の抽出データがあることを条件に実行可能になる(ステップS41)。パルス波高値の抽出データがある場合、前述の波高ベクトル取得プログラムおよび波幅ベクトル取得プログラムが実行されて、各種ベクトルのデータ作成演算が実行される(ステップS42)。波高ベクトルおよび波幅ベクトルの全てのデータ取得を終えると、該ベクトルデータが保存される(ステップS43、S44)。ついで、各種の特徴量の抽出処理が実行される(ステップS45)。波高ベクトルおよび波幅ベクトルのデータ取得に際しては、3次スプライン補間法を用いた補間処理、線形補間処理および切り捨て処理が随時行われる。
図54は、特徴量の抽出処理(ステップS45)の実行処理内容を示す。ステップS71〜S83は、それぞれ上記(1)〜(13)で定義された第1類型および第2類型の特徴量の算出と、算出された特徴量の記憶、保存の処理を示す。
第1類型の特徴量は、ステップS71〜S76において算出される。波長(パルス幅)Δtは、パルス波高値の抽出データ群に対し時系列的に順次算出されて記憶される(ステップS71)。算出された特徴量は、RAM4の特徴量記憶用メモリエリアに記憶される。パルス幅は、Δt(=te−ts;sはパルス波形の開始時刻、teはパルス波形の終了時刻)を演算して求められる。ピーク位置比rは、パルス波高値の抽出データ群に対し時系列的に順次算出されて記憶される(ステップS72)。ピーク位置比rは、r=(tp−ts)/(te−ts)(パルス幅Δtと、パルス開始からパルスピークppに至るまでの時間(=tp−ts)との比)を演算して求められる。
ピーク尖度κは、パルス波高値の抽出データ群に対し時系列的に順次算出されて記憶される(ステップS73)。パルス波高値|h|=1、ts=0、te=1となるように正規化し、パルスピークPPから波高30%の水平線と交差する時刻の時刻集合T=[[ti]|i=1,・・・,m]を収集して、時刻集合Tのデータの分散を演算してパルス波形広がりとしてκが求められる。
俯角θは、パルス開始からパルスピークまでの時刻と波高のデータと、前掲の数2の演算とに基づいて求められる(ステップS74)。面積mは、波高ベクトルのデータにより求められ、時間区分面積hiを区分数に応じて求め、それらの総和を求めることにより算出、記憶される(ステップS75)。該区分数は、任意に設定可能であり、例えば、10である。面積比rmは、全波形面積と、時間区分面積hiをパルス開始からパルスピークに至るまでの区間での部分和とをそれぞれ求め、部分和の全波形面積に対する面積比を算出して記憶される(ステップS76)。
第2類型の特徴量は、ステップS77〜S82において算出される。時間慣性モーメントは、波高ベクトルのデータにより求められ、区分数に応じて求めた時間区分面積hiと、前掲の数6の演算とに基づいて算出され、記憶される(ステップS77)。(9)の規格化された時間慣性モーメントは、ステップS77において得られた時間慣性モーメントに対し波高が基準値の「1」になるように波高方向に規格化処理(波高ベクトルと規格化ベクトルの内積)した規格化データとして記憶される(ステップS78)。波幅平均値慣性モーメントは、ステップS42〜S44で求めた波幅ベクトル(平均値の差ベクトル)のデータから、パルスピーク前後それぞれにおいて分割単位(あらかじめ設定された分割数:10)毎に算出した時刻値の平均値の差と、前掲の数7の演算とに基づいて算出され、記憶される(ステップS79)。(11)の規格化された波幅平均値慣性モーメントは、ステップS79において得られた波幅平均値慣性モーメントに対し波長が基準値「1」になるように波長方向に規格化処理(平均値の差ベクトルと規格化ベクトルの内積)した規格化データとして記憶される(ステップS80)。波幅分散慣性モーメントは、波幅ベクトル(分散ベクトル)のデータから、分割単位毎に算出した時刻値の分散と、前掲の数7の演算とに基づいて算出され、記憶される(ステップS81)。(13)の規格化された波幅分散慣性モーメントは、ステップS81において得られた波幅分散慣性モーメントに対し波長が基準値「1」になるように波長方向に規格化処理(分散ベクトルと規格化ベクトルの内積)した規格化データとして記憶される(ステップS82)。
全データからの特徴量の抽出を終了すると、各データのファイル保存が行われ、別のデータ群があるか否かが判断される(ステップS83、S84)。引き続き別ファイルのデータ群があれば、上記処理(ステップS71〜S82)が繰返し実行可能になっている。処理すべきデータがなくなれば特徴量の抽出処理は終了する(ステップS85)。上記の抽出処理においては、第1類型および第2類型の特徴量を全て求めるようにしているが、入力手段6の指定入力により所望の特徴量を指定可能にし、該指定による特徴量だけを抽出可能にすることができる。
図27は、粒子種分布推定プログラムに基づいて実行される粒子種推定処理を示す。<確率密度関数の推定について> 同種の粒子であっても計測されるパルス波形が一定とは限らないので、粒子種分布推定のための準備として、テストデータから予め粒子種別のパルス波形の確率密度関数の推定が行われる。確率密度関数の推定により導出される確率密度関数によって各パルスの出現確率を表すことができる。
図28の(15B)は大腸菌と枯草菌の粒子種において、パルス波形の特徴量としてパルス幅とパルス波高が用いて得られたパルス波形に対する確率密度関数のイメージ図であり、図中の濃淡によりパルスの出現確率を表している。図28の(15A)は1つの波形データに関する第1類型の特徴量の一部を示す。
パルス幅Δtとパルス波高hの真の密度関数は未知であるので、ノンパラメトリックな確率密度関数の推定を行う必要がある。本実施形態では、カーネル関数としてガウス関数を採用したカーネル密度推定を用いている。
カーネル密度推定とは、計測データにカーネル関数で与えられた確率密度分布を想定し、それらの分布を重ね合わせた分布を確率密度関数とみなす手法である。カーネル関数としてガウス関数を用いた場合は、各データに対して正規分布を想定し、それらを重ね合わせた分布を確率密度関数とみなすことができる。
図29は、大腸菌と枯草菌の粒子種の個々より得られた確率密度分布の重ね合わせのイメージ図である。同図(16C)は、パルス幅Δtとパルス波高hの特徴量データ(16A)から、各粒子につき求めた確率密度分布(16B)を重ね合わせた状態を示している。
入力データ[x]に対する確率密度関数[p(x)]は教師データ数[N]、教師データ[μi]、分散共分散行列[Σ]を用いて、下記数9で表される。
Figure 0006807529
さらに、確率密度関数[p(x)]は下記数10に示すように、各次元のガウス関数の積で表すことができる。
Figure 0006807529
数10からわかるように、各パルス属性が正規分布に従う独立な確率変数であると仮定していることに相当し、これは3次元以上にも同様に拡張可能である。したがって、本実施形態においては2種以上の粒子種個数の分析が可能である。
確率密度関数モジュールプログラムは、2種の特徴量に対する確率密度関数を演算して求める機能を有する。すなわち、2つの特徴量[(β,γ)]による推定対象データを使う場合、カーネル関数としてガウス関数を採用したカーネル密度推定における確率密度関数[p(β,γ)]は下記数11で表される。
Figure 0006807529
数11に基づいて確率密度関数モジュールプログラムにより実行される確率密度関数推定処理は後述の図33により詳述するように、2つの特徴量における確率密度関数の推定処理を行う。
図30は、k個の粒子種別の粒子総数と、粒子種別の出現確率と、データ全体の出現頻度の期待値との関係を示すイメージ図である。同図(17A)はデータ全体の出現頻度を示す。同図(17−1)〜(17−k)は粒子種別の出現頻度を示す。パルス[x]が計測される出現頻度の期待値は、粒子種別の確率密度関数に従ってパルス[x]が計測される出現頻度の期待値の和となる。図30に示すように、粒子種別の粒子総数[ni]と、粒子種別出現確率[pi(x)]とから粒子種別の期待値の和として下記数12で表すことができる。
Figure 0006807529
本実施形態においては、あらかじめ求められた粒子種別の確率密度関数の推定を行った確率密度関数データ(数10参照)が分析参照データとしてRAM23に記憶されている。粒子種別個数分析は、数12に基づいて、分析対象の全体データの出現頻度を各分析データから適合する粒子種別の個数を割り出すことにより行われる。個数分析は異なる粒子種のヒストグラム(粒子種に対する出現頻度(粒子数))を推定することにより行われる。
図27の粒子種推定処理においては、データの編集によって特徴量によるデータファイルを作成するデータファイル作成処理(ステップS1)と、粒子数の推定処理(ステップS2)と、推定粒子種分布の算出処理(ヒストグラム作成処理)(ステップS3)が行われる。粒子数の推定処理においては、最尤法、ラグランジュ未定乗数法およびHasselblad反復法による推定手法が用いることができる。
<最尤法(maxium likelihood estimation:統計学において与えられたデータからそれが従う確率分布の母数を点推定する方法である。)について>
今、実際のパルス推定結果として、データセット[D]=[x1,x2,x3,・・・xN]が得られているとする。推定されたj番目のパルス波高データが出現する尤度(尤もらしさ)は下記数13で表わされる。
Figure 0006807529
するとデータセットDが出現する尤度は下記数14で表される。
Figure 0006807529
数14の尤度を最大化する様な粒子種分布の値セット[n]=[n1,・・・,nk]Tが最も尤もらしい粒子種分布である。
<ラグランジュ未定乗数法(束縛条件のもとで最適化を行う解析学的方法であり、各束縛条件に対して未定乗数を用意し、これらを係数にする線形結合を新しい関数(未定乗数も新たな変数とする)として捉えることによって束縛問題を通常の極値問題として解く方法である。)について>
データセットDが出現する尤度を最大化することは、データセット[D]が出現する対数尤度を最大化することに等しい。下記数15はラグランジュ未定乗数法の適否を調べるための対数尤度を導出する過程を示す。
Figure 0006807529
数15において、途中の係数1/NNは最終式では省略している。
ここで、粒径個数分布の値セットn=[n1,・・・,nk]Tには、「合計がNである」という制約(下記数16参照)がある。
Figure 0006807529
したがって、最も尤もらしい粒子種分布を得るという命題は、制約付き対数尤度最大化の問題になるので、ラグランジュ未定乗数法により最適化を行うことが可能である。ラグランジュ未定乗数法により最適化を行う制約付き対数尤度最大化式を下記数17で表すことができる。
Figure 0006807529
数17に示す制約付き対数尤度最大化式からは、図31に示す数学的導出過程を経て下記数18に示す[k]個の連立方程式を導き出すことができる。
Figure 0006807529
数18に示す連立方程式を数値的に解くには、Hasselbladが提唱した反復法を用いて行うことができる。Hasselblad反復法によれば、下記数19の反復計算を行えばよい。この反復法の詳細は提唱論文(Hasselblad V .,1966,Estimation of parameters for a mixture of normal distributions. Technomerics,8,pp.431−444)に記述されている。
Figure 0006807529
数19の反復計算には、市販のEMアルゴリズムのソフトウエアを利用して行われる。EMアルゴリズムは、命名の由来から明らかなように、確率分布のパラメータを、尤度関数を最大化することで計算する方法、つまり尤度関数である確率分布の期待値(Expectation)を最大化(Maximization)することができるアルゴリズムである。EMアルゴリズムによれば、求めたいパラメータの初期値を設定して、その値から尤度(期待値)を計算して、多くの場合、尤度関数の偏微分が0になる条件を使って、繰り返し計算で最大尤度のパラメータを計算することができる。EMアルゴリズムを使用して行うHasselblad反復法の演算処理は、求めるパラメータの初期値を設定して、その値から尤度(期待値)を計算し、さらに尤度関数の偏微分が0になる条件を使って繰り返し計算を行って最大尤度のパラメータを計算する工程を有する。
<粒子種推定処理について>
図27に示した粒子種推定処理において実行可能な、データファイル作成処理(ステップS1)、確率密度関数の推定処理(ステップS2)、粒子数の推定処理(ステップS3)および推定粒子種分布の算出処理(ステップS4)を以下に詳述する。
図32はデータファイル作成プログラムにより実行されるデータファイル作成処理(ステップS1)を示す。
PC1の入力手段6を使用して、データファイルを作成するk個(実施例では2個)ずつの特徴量の指定操作を行うことができる。指定された特徴量の組合せ入力がRAM23に設定される(ステップS30)。特徴量の設定毎の特徴量データファイルのデータがRAM23のワークエリアに読み込まれる(ステップS31)。特徴量データファイルは、図22のBL推定処理および図26の特徴量抽出処理で抽出され、ファイル保存されている特徴量(パルス波高値等)データである。
個数推定に使う特徴量をk個指定することにより、N行k列の行列データが作成される(ステップS32)。作成された行列データは、粒子種分布推定用データファイルに出力され、指定特徴量別に保存される(ステップS33)。指定特徴量に対するすべてのデータファイルの生成を終えると終了する(ステップS34)。
図33は、確率密度関数モジュールプログラムにより実行される確率密度関数の推定処理(ステップS2)を示す。確率密度関数推定処理は、数6に基づいて2つの特徴量における確率密度関数の推定処理が行われる。
データファイル作成処理(ステップS1)において作成された、確率密度関数推定対象のデータファイルのデータを読み込んで、N行2列の行列[D]が作成される(ステップS20、S21)。行列[D]の列ごとの下記数20に示す分散
Figure 0006807529
が算出される(ステップS22)。ついで、下記数21に示す分散パラメータが標準偏差係数cを用いて下記数22に示すように設定される(ステップS23)。
Figure 0006807529
Figure 0006807529
分散パラメータおよび行列[D]の各行を下記数23に示す教師データとして代入されて確率密度関数が求められ、RAM23の所定エリアに記憶される(ステップS24、S25)。上記のステップS20〜S25の処理は全ての処理対象データからの確率密度関数の導出を行うまで行われる(ステップS26)。
Figure 0006807529
図34は粒子数の推定処理(ステップS3)を示す。
まず、上記のステップS20、S21と同様に、データファイル作成処理において作成された、粒子数推定対象のデータファイルのデータを読み込んで、N行2列の行列[D]が作成される(ステップS10、S11)。行列[D]データに対して、Hasselblad反復法による推定処理が実行される(ステップS12)。
図35は、EMアルゴリズムによって実行される、Hasselblad反復法による粒子数推定処理を示す。図23はEMアルゴリズムによる処理手順を示す。
まず、初期値の設定(処理19A)を行った後、確率密度関数に基づく個数計算が順次実行される(処理19B)(ステップS12a、S12b)。個数計算の反復は(19C)に示す収束条件を満たすまで実行される(ステップS12c)。EMアルゴリズムの実行結果(粒子種ごとの推定個数データ)はRAM23の所定エリアに格納される(ステップS12d)。
粒子数推定処理により得られた粒子種ごとの推定個数データは、ステップ4において、粒子種別の個数分布データに編集され、表示指定に応じて表示手段7にヒストグラム表示出力可能になる。図27では省略しているが、本実施形態においては、分散図出力の指定を受けた場合には、特徴量データによる粒子種別の分散図を表示出力可能になっている。
図37は、本実施形態の粒子種個数分析により分析した結果の一例を示す。同図(24A)および(25B)は分析対象の粒子種である大腸菌、枯草菌の顕微鏡拡大写真である。(24C)および(25D)は特徴量としてパルス波高およびパルス尖度を注して粒子数推定処理の実行により得られた粒子種ごとの推定個数データのヒストグラム、分散図を示す。
<特徴量による粒子種個数の分析精度の検証1について>
本発明者らは、上記実施例の大腸菌と枯草菌の計測電流データを用いて下記の評価条件下で粒子種個数の分析性能の検証1を行った。
検証1の評価条件は以下の通りである。
(1)大腸菌と枯草菌の1000kHz実験測定データで評価を行う。
(2)特徴量には、波長Δt、波高h、ピーク位置比r、ピーク尖度kの4つの第1類型の特徴量を算出して用いる。
(3)各特徴量の組合せについて個数推定処理を実施する。
(4)大腸菌と枯草菌の実測データをランダムに学習用とテスト用に分けて推定評価する。この推定評価を10回反復して実施し、それらの平均精度と標準偏差を算出する。この場合、実際に近い精度を評価する交差検定法(cross validation)により行う。
(5)検証粒子(大腸菌と枯草菌)の実測データの一部を個別に個数分析し、残りを所定の混合比δによりランダムに混合して検証用として、個数分析結果を比較する。ランダムデータ混合用データ混合プログラムをROM3に格納しPC1を利用してデータのランダム混合を実行して、そのランダム混合したデータに対する個数推定を行う。すなわち、図32のステップS32における行列データには、データ混合プログラムにより作成されたN行k列のランダム置換行列データを使用する。混合比δには、大腸菌の混合率として10、20、30、35、40、45、50%の7種類を使用する。BL推定用のパラメータ(調整因子)m、k、αの値はそれぞれ、100000、400、6を使用し、確率密度関数の推定用の標準偏差係数cには0.1を設定する。粒子種個数推定時の収束条件αは0.1に設定する。なお、評価に使用した上記調整因子の値には、図25で示したシミュレーション例と同様にしてより厳密な調整を行って得られた値が使用されている。
図38の(25A)および(25B)は、特徴量としてパルス波長、波高を使用した検証例と、特徴量としてパルス波長、ピーク位置比を使用した検証例の各推定結果データを示す。
本検証により得られた全パルスの数は大腸菌で146個、枯草菌で405個であった。
図39の(26A)および(26B)は特徴量としてピーク付近波形の広がり、パルス波長を使用した検証例と、特徴量としてピーク付近波形の広がり、波高を使用した検証例の各推定結果データを示す。
粒子種別個数の評価は、図40の(27B)に示す数式で表わされる「重み付き平均相対誤差」により行うことができる。「重み付き平均相対誤差」は各粒径の相対誤差にその粒径の真の個数割合を掛けたものを、全粒径について足した数値である。
図40の(27A)は特徴量として尖度と、パルス波高を使用した場合における個数推定結果を示す。
図41の(28A)および(28B)は特徴量としてパルス波長、パルス波高を使用した場合における各混合比δ別の個数推定結果と、特徴量としてパルス波長、ピーク位置比を使用した場合における各混合比δ別の個数推定結果を示す。
図42の(29A)〜(29D)は大腸菌と枯草菌の混合比をそれぞれ、1:10、2:10、3:10、35:100とした場合における各個数推定結果を示すヒストグラムである。
図43の(30A)〜(30C)は、大腸菌と枯草菌の混合比をそれぞれ、4:10、45:100、1:2とした場合における各個数推定結果を示すヒストグラムである。
図44の(31A)および(31B)は、特徴量としてパルス波長、パルス波高を使用した場合における各粒子の散布状態を合成した図である。
図45の(32A)、(32B)および(32C)は、特徴量としてピーク付近波形の広がり、パルス波長を使用した場合、特徴量としてピーク付近波形の広がり、ピーク位置比を使用した場合、ピーク付近波形の広がり、パルス波高を使用した場合における各粒子の散布状態を合成した図である。
上記の性能評価実験から、以下の評価結果が得られた。
(1)図44および図45のデータ散布図では、4つの特徴量に関して、大腸菌と枯草菌の特徴は大きく重なるが、明らかな相違があることが認められる。
(2)図40(27A)等に示す種別個数分布の推定結果からは、この評価検証の特徴量の中でパルス波高とピーク尖度の特徴量を組み合わせた場合が最も精度がよく、重み付き平均相対誤差の評価で4〜12%の分析精度を得ることができる。上記実施形態においては4種類全部の特徴量を抽出しているが、上記検証結果を踏まえて一部の特徴量(例えば、パルス波高とピーク尖度)だけを抽出して個数分析するようにしてもよい。
<特徴量による粒子種個数の分析精度の検証2について>
上記実施例の大腸菌と枯草菌の計測電流データを用いて、検証1とは別の粒子種個数の分析性能の検証2を行った。検証2においては、検証1とは異なり、第1類型および第2類型の特徴量((1)〜(13)の13種類)を算出して用い、これらの組合せに係る特徴量とサンプリングデータ数との関連性および各組合せの分析性能を検証した。
図55の(42A)および(42B)は、それぞれ、全データのうち、1MHz、500kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図43の(43A)および(43B)は、それぞれ、全データのうち、250kHz、125kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図44の(44A)および(44B)は、それぞれ、全データのうち、63kHz、32kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図58の(45A)および(45B)は、それぞれ、全データのうち、16kHz、8kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図59は、4kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。これらの表中の各組合せごとの推定評価結果は、検証1の(4)と同様に交差検定法により得られた、上側に記載の平均精度と、下側に括弧書きで示した標準偏差を表す。表中の慣性I、慣性I(規格化)、慣性I w、慣性I wv、慣性I w(規格化)、慣性I wv(規格化)は、それぞれ、(8)の時間慣性モーメント、(9)の規格化された時間慣性モーメント、(10)の波幅平均値慣性モーメント、(12)の波幅分散慣性モーメント、(11)の規格化された波幅平均値慣性モーメント、(13)の規格化された波幅分散慣性モーメントの特徴量を示す。
図60は、全サンプリングデータにおける各特徴量組合せに関する推定評価結果を示す。図61は、全データのうち1MHz〜125kHzでの高密度サンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図62は、全データのうち63kHz〜4kHzでの低密度サンプリングしたときの各特徴量組合せに関する推定評価結果を示す。
図63は、全サンプリングデータを使用したとき(50A)および高密度にサンプリングしたとき(50B)に高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数−重み付き平均相対誤差(平均値)のグラフである。図63における上位5種の特徴量の組合せは、波長Δt−面積m、波長Δt−慣性I、ピーク位置比r−慣性I、俯角θ−慣性I、慣性I−慣性I w(規格化)である。
図64は、低密度にサンプリングしたときに高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数−重み付き平均相対誤差(平均値)のグラフ(51A)と、全サンプリングデータを使用したときの4種類の特徴量の組合せに関するサンプリング周波数−重み付き平均相対誤差(平均値)のグラフ(51B)である。図63および図64の縦軸の値は、50回の交差検定を行って得られた重み付き平均相対誤差の平均値である。51Aにおける上位5種の特徴量の組合せは、波長Δt−面積m、波長Δt−慣性I、ピーク位置比r−面積m、俯角θ−面積m、面積m−慣性I wv(規格化)である。51Bにおける4種類の特徴量の組合せは、波長Δt−面積m、波長Δt−慣性I、尖度k−波高|h|、尖度k−ピーク位置比rである。
検証2から得られた結果は、以下の通りである。
(R1)図60および図63に示すように、全サンプリングデータを使用したときには、上位5種の組合せ、すなわち、波長Δt−慣性I、波長Δt−面積m、ピーク位置比r−慣性I、俯角θ−慣性I、慣性I−慣性I w(規格化)の特徴量の場合、高い個数推定精度を得ることができる。これらの特徴量の組合せによる個数推定精度(重み付き平均相対誤差)は、例えば、波長Δt−慣性Iで250〜1000kHzのサンプリング領域において約9〜10%、波長Δt−面積mで125〜250kHzのサンプリング領域において約9〜10%、波長Δt−慣性Iで16〜63kHzのサンプリング領域において約13〜15%である。
(R2)図61に示すように、全サンプリングデータより少ないが高密度なサンプリングデータを使用したときに高い個数推定精度が得られる特徴量は、上位5種の組合せで示せば、波長Δt−慣性I、波長Δt−面積m、ピーク位置比r−慣性I、慣性I−慣性I w、俯角θ−慣性Iの5種である。これらの特徴量の組合せによる個数推定精度(重み付き平均相対誤差)は、例えば、波長Δt−慣性Iで250〜1000kHzのサンプリング領域において約9〜10%、波長Δt−面積mで125〜250kHzのサンプリング領域において約9〜10%、波長Δt−慣性Iで16〜63kHzのサンプリング領域において約13〜15%である。
(R3)図62に示すように、高密度サンプリングデータと比べてさらに少ない低密度サンプリングデータを使用した場合に高い個数推定精度が得られる特徴量は、上位5種の組合せで示せば、波長Δt−面積m、波長Δt−慣性I、俯角θ−面積m、面積m−慣性I wv(規格化)、ピーク位置比r−面積mの5種である。これらの特徴量の組合せによる個数推定精度(重み付き平均相対誤差)は、波長Δt−慣性Iで250〜1000kHzのサンプリング領域において約9〜10%、波長Δt−面積mで125〜250kHzのサンプリング領域において約9〜10%、、波長Δt−慣性Iで16〜63kHzのサンプリング領域において約13〜16%である。
(R4)(R1)〜(R3)からわかるように、第1類型と第2類型の特徴量の組合せを使用しても高精度の個数推定を行うことができる。さらに、本発明に係る個数分析方法によれば、サンプリング数が十分に多くなくても、所定のサンプリング数が得られれば十分あるときと同程度の精度で個数分析を行うことができる。例えば、検証1で調べた尖度kとピーク位置比rとの組合せでは、12%の最大誤差を生じていたが、例えば、波長Δt−慣性Iの特徴量による場合には、全データを使用しなくとも1MHz〜125kHzでの高密度サンプリングデータを使用して、つまり部分的なデータであっても個数推定処理を約9%の高精度で行うことができる。したがって、本実施形態に係る個数分析機能は、定常的な個数分析にとどまらず、例えば、緊急性を要する検疫検査や医療現場において、菌類等の粒子有無や個数の判別に即応的実施に好適な検査ツールとして使用することができる。
<個数分析処理時間の検証3について>
個数推定には、Hasselblad法による反復計算に要する所要計算時間がかかるので、この所要計算時間とサンプリング周波数との関係について特徴量の比較検討を検証3で検証した。検証3の比較検討例には、図64の(51B)に示した、波長Δt−面積m、波長Δt−慣性I、尖度k−波高|h|、尖度k−ピーク位置比rの4種類の特徴量の組合せを使用した。これらの組合せは、他の組合せと比較して交差検定精度の良い組合せである。個数分析の計算に要する時間には、特徴量作成に要する時間と、Hasselblad法による反復計算に要する計算時間とが含まれるので、特徴量作成に要する計算時間CT1、Hasselblad法による反復計算に要する計算時間CT2およびそれらの合計計算時間CT3(=CT1+CT2)について比較検討を行った。この場合も、それぞれの所要計算時間は、50回の交差検定を行って得られた各計算時間の平均値である。
図65は、4種類の各特徴量組合せに対する合計計算時間CT3を示すサンプリング周波数(kHz)−所要計算時間(秒)のグラフ(52A)と、各特徴量組合せに対する特徴量作成に要する計算時間CT1を示すサンプリング周波数(kHz)−所要計算時間(秒)のグラフ(52B)である。図66は、各特徴量組合せに対する計算時間CT2を示すサンプリング周波数−所要計算時間(秒)のグラフである。
(52A)に示すように、波長Δt−面積mと波長Δt−慣性Iの特徴量組合せG1は、ほぼ同じ合計計算時間になっており、尖度k−波高|h|と尖度k−ピーク位置比rの特徴量組合せG2は、ほぼ同じ合計計算時間になっている。(52B)に示すように、特徴量組合せG1のそれぞれの特徴量作成に要する計算時間は同じであり、特徴量組合せG2のそれぞれの特徴量作成に要する計算時間は同じになっている。図53に示すように、Hasselblad法による反復計算に要する時間は、特徴量組合せG1、G2のいずれにおいても、1MHz〜16kHzでのサンプリング領域において約3,5秒以下の短時間で処理可能になっている。
検証3の特徴量組合せG1、G2の比較結果から明らかに、第1類型と第2類型の同一類型との組合せであっても異なる混合組合せであっても特徴量を使用して所要計算時間の短縮化を図ることができる。したがって、本実施形態に係る個数分析機能によれば、定常的な個数分析にとどまらず、例えば、緊急性を要する検疫検査や医療現場において、菌類等の粒子有無や個数の判別処理を迅速に行うことができる。
以上の性能評価からわかるように、ナノポアデバイス8により検出した検出信号のデータ群をベースにして、個数導出手段である粒子種分布推定プログラムの実行によって、該検出信号として得られた粒子通過に対応するパルス状信号の波形形態の特徴を示す特徴量に基づくデータ群から確率密度推定を行い、粒子種別の個数を導出することができる。したがって、PC1個数分析機能を用いることによって、例えば、細菌や微小粒子状物質等の分析物種別に応じた個数ないし個数分布を高精度に分析することができ、個数分析検査における簡易化および低コスト化を実現することができる。ナノポアデバイス8による検出信号を個数分析装置に直接的に取り込んでデータ保存可能にすることにより、検査・分析を統合した粒子種統合分析システムを構築するようにしてもよい。
特徴量に基づくデータ群から確率密度推定を行い、粒子種別の個数を導出した結果を、出力手段である表示手段7に表示出力あるいはプリンタにプリント出力することができる。したがって、本実施形態によれば、高精度の導出結果(粒子個数、粒子個数分布、推定精度等)を、例えば、ヒストグラムや散布図の出力形態で認知可能に即応的に報知することができるので、例えば、迅速な対応を要する医療現場や検疫場における有用な検査ツールとして本実施形態に係る個数分析機能を使用することができる。
本発明は、識別処理プログラムを搭載した特定のPC等のコンピュータ端末に限らず、該識別処理プログラムの一部ないし全部を記憶した識別分析用記憶媒体に適用することができる。すなわち、所定のコンピュータ端末に該識別分析用記憶媒体に記憶した識別分析プログラムをインストールして所望のコンピュータに個数分析動作させることができるので、簡便かつ安価に個数分析を行うことができる。本発明の適用可能な記憶媒体には、フレキシブルディスク、磁気ディスク、光ディスク、CD、MO、DVD、ハードディスク、モバイル端末等、コンピュータにより読み取り可能な記憶媒体のいずれかを選択して使用することができる。
図69は、本実施形態に係る分類分析処理を示す。
図67のコンピュータ解析部1aは、本実施形態のPC1に対応する。分析処理の準備作業として、入力処理(ステップS100)において、不適合データの除去処理、特徴量の指定、既知データおよび被分析データのPC1への入力が行われる。特徴量は、前述の(1)〜(15)に示した第1類型および第2類型の一部または全部あるいは1以上の組合せの特徴量を該入力処理であらかじめ指定しておくことができる。例えば、大腸菌Ecおよび枯草菌Bsを、粒子種別が特定された分析物(特定分析物)とする場合、これらの特定分析物の個々につき、ナノポアデバイス8aによる計測を行って、それぞれのパルス状信号のデータが既知データとしてPC1に入力され、入力データは、RAM4の既知データ記憶用メモリエリアに格納される。特定分析物の含有状態が不明の被分析対象に対するナノポアデバイス8aによる計測を行って得られたパルス状信号のデータが分析データとしてPC1に入力され、入力データは、RAM4の分析データ記憶用メモリエリアに格納される。
分類分析処理が起動操作により起動されると、既知データの入力有無が判別される(ステップS110)。既知データの未入力の場合、表示手段7により既知データの入力を促すガイダンス表示が行われる。図69において各種のガイダンス表示による報知処理ステップは省略している。既知データが入力されると、入力された既知データは、RAM4の既知データ記憶用メモリエリアに格納され、特徴量の作成に供される(ステップS100、S101)。
既知データ入力がある場合、特徴量の指定があるか否かが判断される(ステップS110、S111)。特徴量の指定がある場合、RAM4の既知データによる特徴量記憶用データファイルDAから指定された特徴量のベクトル量データがRAM4の学習データ記憶エリアに取り込まれる(ステップS113)。特徴量の指定がない場合は、RAM4の既知データによる特徴量記憶用データファイルDAからすべての特徴量のベクトル量データがRAM4の学習データ記憶エリアに取り込まれる(ステップS112)。
ついで、分析データの入力有無が判別される(ステップS114)。分析データ入力がない場合、表示手段7により分析データ入力を促すガイダンス表示が行われる。分析データが入力されると、取得した分析データはRAM4の分析データ記憶用メモリエリアに格納される(ステップS100)。分析データが入力されると、記述のように、分析データに関する特徴量が作成され、RAM4に記憶される(ステップS101)。分析データの入力がある場合、RAM4の分析データによる特徴量記憶用データファイルDBから特徴量のベクトル量データがRAM4の変数データ記憶エリアに取り込まれる(ステップS115)。
既知データおよび分析データの入力済みで特徴量の取得状態において、分類分析の実行を促すガイダンス表示が行われる。該ガイダンス表示にしたがって所定の指示操作を行うことにより、分類分析プログラムが起動されて機械学習による分類分析の実行処理が行われる(ステップS116)。本実施形態において、例えば、ランダムフォレスト法に基づくアルゴリズムで構成された機械学習による分類分析プログラムがROM3にあらかじめ格納されている。既知データによる特徴量を学習データとし、分析データから得られる特徴量を変数にして、該分類分析プログラムを実行することによって、該被分析データにおける特定分析物に関する分類分析を行うことができる。該分類分析プログラムの実行に際しては、パルス波形を同一次元の数値ベクトルに変換し、各ベクトルがどのように異なっているかを判別することにより個別のパルスを識別して分類分析が行われる。
本発明に係る機械学習による分類分析手法には、ランダムフォレスト法に限らず、例えば、k近傍法、ナイーブベイズ分類器、決定木、ニューラルネットワーク、サポートベクターマシン、バギング法、ブースティング法等の集団学習によるものを使用することができる。
機械学習による分類分析の実行処理が、分析データによる特徴量のすべてについて実行されると、分類分析処理が終了し、分類分析結果の出力処理が行われる(ステップS117)。出力処理において、種別の分からない分析データの個々について、特定分析物の例示である大腸菌Ecまたは枯草菌Bsの通過に由来するものの割合である分類結果が表示手段7に表示可能になっている。出力可能な表示態様には、各分析データ毎の分類結果に限らず、分析物(例えば、大腸菌Ecまたは枯草菌Bs)の該当総数、両者の該当比率等の表示態様を使用することができる。
<分類分析処理の処理精度の検証>
上記の分類分析処理の処理精度について、種々の機械学習による分析手法を適用して分類分析を試行して本実施形態による分類分析処理の精度を検証した。
図70の(57A)は、同図(57B)に示す分析試料を用いて、特徴量(Feature)と機械学習による分析手法のアルゴリズム(以下、分類器という。)とを種々組み合わせた場合に、本発明に係る分類分析処理(図69参照)を実行した評価結果を示す。
分析試料は、(57B)に示すように、2種類の細菌種(大腸菌、枯草菌)である。各細菌種に対し、貫通孔12の内径が4.5Φで、貫通孔12の貫通距離(ポア深さ)が1500mmのマイクロ・ナノポアデバイス8を用いて通過波形を計測して得られたパルス状信号データを42個(大腸菌の場合、計測パルスのすべてで、枯草菌の場合、計測パルス数265個のうちの42個である。)を使用した。分類器の実行の際には、パルス状信号データのうち約9割を学習データとし、残りのデータを変数に振り分けた。
評価項目は、(57A)に示すように、F−尺度(F−Measure)で表され、真陽性率(TPRate)、偽陽性率(FPRate)、適合率(Precision)、再現率(Recall)、F値(FMeasure)、受信者操作特性曲線面積(ROC(Receiver Operating Characteristic )curve Area)の項目からなる。
図71は、F−尺度の説明図である。
F−尺度は、(58A)に示すように、2種類の細菌種の実数(大腸菌の実数:P、枯草菌の実数:N)に対し、各細菌種の予想値を割り付けた場合に、各組合せにおける真陽性(TP)、偽陽性(FP)、真陰性(FN)および偽陰性(TN)の総和が1であるとして、(58B)に示すように、2TP/(2TP+FP+FN)で表される。
この検証において、アルゴリズムが異なる67種類の分類器を用いて、各種特徴量ないし特徴量の組合せを用いて約4000種のパターンに対して分類分析を試行した。この結果、60種の特徴量の組合せに対して有意な分析結果が得られた。図70の(57A)は、この検証で得られたF−尺度の優れた上位10位内の分類結果を示す表である。
上位10位内における特徴量には、(57A)に示すように、(1)〜(11)、(14)および(15)の13種類の特徴量を並べた13次元の特徴量ベクトル(表中に「hv&F」で略記)、波高ベクトル(表中に「h」で略記)と(10)の平均値ベクトル(表中に「wV」で略記)との組合せ(表中に「h&wV」で略記)、波高ベクトルと(11)の規格化された平均値ベクトル(表中に「wNrmdV」で略記)との組合せ(表中に「h&wNrmdV」で略記)が含まれている。(57A)で最も優れた分類精度によるものは、特徴量としてh&wVの組合せを使用した、ランダムホレスト法による分類器(「4meta.Random Commitee」)による場合であり、その分類精度約98.9%の高精度であった。
本発明は、分類分析プログラムを搭載した特定のPC等のコンピュータ端末に限らず、該分類分析プログラムの一部ないし全部を記憶した分類分析用記憶媒体に適用することができる。すなわち、所定のコンピュータ端末に該分類分析用記憶媒体に記憶した分類分析プログラムをインストールして所望のコンピュータに分類分析動作させることができるので、簡便かつ安価に分析析を行うことができる。本発明の適用可能な記憶媒体には、フレキシブルディスク、磁気ディスク、光ディスク、CD、MO、DVD、ハードディスク、モバイル端末等、コンピュータにより読み取り可能な記憶媒体のいずれかを選択して使用することができる。
尚、本発明は上記実施形態に限定されるものではなく、本発明の技術的思想を逸脱しない範囲における種々変形例、設計変更などをその技術的範囲内に包含するものであることは云うまでもない。
本発明によれば、高精度の不適合データの識別と分類分析を行えるので、例えば、DNA記憶媒体の情報圧縮技術や人工塩基対を用いた医薬品創薬、あるいは、計測試料に混入する微細な塵埃、あるいは体液などに含まれる分析物質を計測対象とする場合における、赤血球、白血球、血小板等の微小物質などに起因する不適合データの識別・除去技術等の分野に広範囲に応用発展することができる。特には、本発明は、DNAやRNAと夾雑物を含む試料を分析対象にして、例えば、下水中のDNA含有分析を行ってウイルスの発生を検知する検知技術におけるデータ分析に適用することができる。
1 パーソナルコンピュータ
2 CPU
3 ROM
4 RAM
5 データファイル記憶部
6 入力手段
7 表示手段
8 マイクロ・ナノポアデバイス
9 チャンバー
10 基板
11 隔壁
12 貫通孔
13 電極
14 電極
15 電源
16 増幅器
17 オペアンプ
18 凹部
19 帰還抵抗
20 電圧計
21 検体
22 大腸菌
23 枯草菌
24 電解質溶液
MS 計測空間
D1 電極
D2 電極
ME 電流計測器

Claims (8)

  1. 計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別方法であって、
    前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、
    前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、
    前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することを特徴とする識別方法。
  2. 請求項1に記載の識別方法により識別した不適合データを記憶する不適合データ記憶手段を有し、
    計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析方法であって、
    前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
    前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
    あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことを特徴とする分類分析方法。
  3. 前記特徴量は、
    所定の時間幅内における波形の波高値、
    パルス波長ta
    パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
    該波形の鋭さを表す尖度、
    パルス開始からパルスピークに至る傾きを表す俯角、
    波形を所定の時間毎に区分した時間区分面積の総和を表す面積、
    パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比、
    パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
    前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
    波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
    前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
    波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
    前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
    波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
    前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメント、
    のいずれか1または2以上である請求項2に記載の分類分析方法。
  4. 計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された不適合データの識別をコンピュータ制御プログラムの実行によって行う識別装置であって、
    前記コンピュータ制御プログラムは、正例集合の正例データと、正例負例のいずれかが不明である未知集合の未知データとから正負例を分類する分類器を学習する機械学習を用いた識別分析プログラムを有し、
    前記計測空間に分析物を含まない試料を導入して計測する第1計測条件の下で得られるパルス状信号の第1種データと、前記計測空間に分析物を含む試料を導入して計測する第2計測条件の下で得られるパルス状信号の第2種データとを記憶する記憶手段を有し、
    前記第1種データを前記正例データとし、前記第2種データを前記未知データとして、前記識別分析プログラムを実行することによって、前記第2種データに含まれる前記不適合データを識別することを特徴とする識別装置。
  5. 請求項4に記載の識別装置により識別した不適合データを記憶する不適合データ記憶手段を有し、
    計測空間に分析物を含む試料を導入して検出したパルス状信号のデータから、分析物以外の要素に起因して検出された前記不適合データを取り除いた被分析データの分類分析をコンピュータ制御プログラムの実行によって行う分類分析装置であって、
    前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
    前記パルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
    あらかじめ求めた特徴量を前記機械学習のための学習データとし、前記不適合データを取り除いた被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって前記分析物に関する分類分析を行うことを特徴とする分類分析装置。
  6. 前記特徴量は、
    所定の時間幅内における波形の波高値、
    パルス波長ta
    パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
    該波形の鋭さを表す尖度、
    パルス開始からパルスピークに至る傾きを表す俯角、
    波形を所定の時間毎に区分した時間区分面積の総和を表す面積、
    パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比、
    パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
    前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
    波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
    前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
    波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
    前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
    波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
    前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメント、
    のいずれか1または2以上である請求項5に記載の分類分析装置。
  7. 請求項1に記載のコンピュータ制御プログラムを記憶したことを特徴とする識別用記憶媒体。
  8. 請求項2に記載のコンピュータ制御プログラムを記憶したことを特徴とする分類分析用記憶媒体。
JP2019517508A 2017-05-07 2018-04-09 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体 Active JP6807529B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017092075 2017-05-07
JP2017092075 2017-05-07
PCT/JP2018/014926 WO2018207524A1 (ja) 2017-05-07 2018-04-09 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体

Publications (2)

Publication Number Publication Date
JPWO2018207524A1 JPWO2018207524A1 (ja) 2020-05-28
JP6807529B2 true JP6807529B2 (ja) 2021-01-06

Family

ID=64105353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019517508A Active JP6807529B2 (ja) 2017-05-07 2018-04-09 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体

Country Status (5)

Country Link
US (1) US20210140938A1 (ja)
EP (1) EP3623793B1 (ja)
JP (1) JP6807529B2 (ja)
CN (1) CN110720034B (ja)
WO (1) WO2018207524A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11781099B2 (en) * 2015-12-25 2023-10-10 Aipore Inc. Number analyzing method, number analyzing device, and storage medium for number analysis
JP6872034B2 (ja) * 2017-11-09 2021-05-19 富士通株式会社 波形解析装置
US20220155277A1 (en) * 2019-04-01 2022-05-19 Aipore Inc. Machine-Learning Program, Method, and Apparatus for Measuring, by Pore Electric Resistance Method, Transient Change in Ion Current Associated with Passage of Target Particles through Pores and for Analyzing Pulse Waveform of Said Transient Change
WO2020203404A1 (ja) * 2019-04-02 2020-10-08 国立研究開発法人物質・材料研究機構 測定装置、測定方法、プログラム、及び、バイオセンサ
JP7220629B2 (ja) * 2019-06-27 2023-02-10 株式会社Screenホールディングス 画像判別モデル構築方法、画像判別装置、および画像判別方法
WO2021020063A1 (ja) * 2019-08-01 2021-02-04 株式会社村田製作所 検出装置、検出方法およびプログラム
US11399312B2 (en) * 2019-08-13 2022-07-26 International Business Machines Corporation Storage and retention intelligence in mobile networks
EP4043861A4 (en) * 2019-10-11 2022-10-12 Aipore Inc. PARTICLE IDENTIFICATION SENSOR, MEASURING INSTRUMENT, COMPUTER DEVICE AND SYSTEM
JP7188373B2 (ja) * 2019-12-11 2022-12-13 トヨタ自動車株式会社 データ解析システム及びデータ解析方法
JP7396159B2 (ja) 2020-03-26 2023-12-12 富士通株式会社 画像処理装置、画像認識システム及び画像処理プログラム
US20220036134A1 (en) * 2020-07-31 2022-02-03 Netapp, Inc. Methods and systems for automated document classification with partially labeled data using semi-supervised learning
WO2022024389A1 (ja) * 2020-07-31 2022-02-03 株式会社日立ハイテク 学習済みモデルを生成する方法、生体分子の塩基配列を決定する方法、および生体分子計測装置
CN112326552B (zh) * 2020-10-21 2021-09-07 山东大学 基于视觉和力觉感知的隧道掉块病害检测方法和系统
CN113779817B (zh) * 2021-11-11 2022-03-11 长江空间信息技术工程有限公司(武汉) 一种测量控制网基准稳定性分析方法
CN114916910B (zh) * 2022-04-29 2024-04-09 无锡市华焯光电科技有限公司 脉象分类方法、分类模型训练方法、分类设备和存储介质
CN115374125B (zh) * 2022-09-01 2024-05-10 无锡市华焯光电科技有限公司 脉象诊断分类方法、数据库构建方法、装置及存储介质
CN117760920B (zh) * 2024-02-22 2024-06-21 大连理工大学 基于机器学习辅助的卡尔曼滤波金属粉尘浓度检测方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2326727B1 (en) * 2008-08-15 2016-05-04 Litmus Rapid-B LLC Flow cytometry-based systems and methods for detecting microbes
SI23471A (sl) * 2010-09-02 2012-03-30 Krog-Mit D.O.O. Naprava in informacijski sistem za samodejno interpretacijo rezultatov predtransfuzijksih preiskav
WO2013136430A1 (ja) 2012-03-13 2013-09-19 株式会社 東芝 一粒子解析装置および解析方法
US20150142327A1 (en) * 2012-03-28 2015-05-21 Arizona Board Of Regents On Behalf Of Arizona State University Method for improving the accuracy of chemical identification in a recognition-tunneling junction
EP2936116B8 (en) * 2012-12-19 2020-04-01 Koninklijke Philips N.V. System and method for classification of particles in a fluid sample
US11537930B2 (en) * 2013-03-04 2022-12-27 Nec Corporation Information processing device, information processing method, and program
CN103226088B (zh) * 2013-04-08 2015-04-22 贵州茅台酒股份有限公司 一种颗粒物计数方法
EP3364341B1 (en) * 2014-06-16 2024-07-24 Siemens Healthcare Diagnostics Inc. Analyzing digital holographic microscopy data for hematology applications
JP6692049B2 (ja) * 2014-07-29 2020-05-13 国立大学法人浜松医科大学 識別装置および識別方法
CN104200114B (zh) * 2014-09-10 2017-08-04 中国人民解放军军事医学科学院卫生装备研究所 流式细胞仪数据快速分析方法
SG11201702571RA (en) * 2014-10-01 2017-04-27 Water Optics Technology Pte Ltd A sensor for particle detection in a fluid
EP3054279A1 (en) * 2015-02-06 2016-08-10 St. Anna Kinderkrebsforschung e.V. Methods for classification and visualization of cellular populations on a single cell level based on microscopy images
JP6959614B2 (ja) * 2015-10-28 2021-11-02 国立大学法人 東京大学 分析装置,及びフローサイトメータ
WO2017075292A1 (en) * 2015-10-28 2017-05-04 The Broad Institute, Inc. Systems and methods for determining relative abundances of biomolecules
WO2018081178A1 (en) * 2016-10-24 2018-05-03 Two Pore Guys, Inc. Fractional abundance of polynucleotide sequences in a sample
WO2018034745A1 (en) * 2016-08-18 2018-02-22 The Regents Of The University Of California Nanopore sequencing base calling
CN110178012B (zh) * 2016-12-16 2022-04-05 艾珀尔有限公司 分类分析方法、分类分析装置及分类分析用记录介质
GB201707138D0 (en) * 2017-05-04 2017-06-21 Oxford Nanopore Tech Ltd Machine learning analysis of nanopore measurements

Also Published As

Publication number Publication date
EP3623793B1 (en) 2022-09-07
US20210140938A1 (en) 2021-05-13
WO2018207524A1 (ja) 2018-11-15
CN110720034A (zh) 2020-01-21
EP3623793A1 (en) 2020-03-18
CN110720034B (zh) 2022-10-18
JPWO2018207524A1 (ja) 2020-05-28
EP3623793A4 (en) 2020-06-17

Similar Documents

Publication Publication Date Title
JP6807529B2 (ja) 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体
JP6971499B2 (ja) 分類分析方法、分類分析装置および分類分析用記憶媒体
Raillon et al. Fast and automatic processing of multi-level events in nanopore translocation experiments
Briane et al. Statistical analysis of particle trajectories in living cells
Bacri et al. Dynamics of colloids in single solid-state nanopores
Vercoutere et al. Rapid discrimination among individual DNA hairpin molecules at single-nucleotide resolution using an ion channel
US8748091B2 (en) Characterizing stretched polynucleotides in a synthetic nanopassage
CN110178012B (zh) 分类分析方法、分类分析装置及分类分析用记录介质
US20150142327A1 (en) Method for improving the accuracy of chemical identification in a recognition-tunneling junction
KR20140138526A (ko) 폴리뉴클레오티드의 염기 서열을 결정하는 방법, 및 폴리뉴클레오티드의 염기 서열을 결정하는 장치
Lee et al. Multiple consecutive recapture of rigid nanoparticles using a solid‐state nanopore sensor
CN116881634B (zh) 用于清洗纳米孔信号数据的方法、设备和存储介质
Li et al. Emerging Data Processing Methods for Single‐Entity Electrochemistry
Winters-Hilt et al. Nanopore cheminformatics
US11781099B2 (en) Number analyzing method, number analyzing device, and storage medium for number analysis
Fatema et al. Correlation Between Capillary Flow and Dry Sieving Test Results of Woven and Nonwoven Geotextiles
O'Donnell et al. A Kalman filter for estimating nanopore channel conductance in voltage-varying experiments
Cuscó Rovira Novel Machine Learning Tools for data treatment in STM Break-Junction Technique
Kaushik et al. Measurement of Alcohol-Dependent Physiological Changes in Red Blood Cells Using Resistive Pulse Sensing
CN116704500A (zh) 基于机器学习的细胞识别方法和系统
Konnanath et al. Acquiring and classifying signals from nanopores and ion-channels
Acharya Improved Detection of Native Conformation Proteins with Hydrogel Interfaced Nanopores
Díaz Carral Deep LearningModel for DNA Reads through Nanopores
Sharma Single Biomolecule Sensing and Characterization Using Solid-State Nanopores
MATTON Automating flow cytometry data analysis using clustering techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20191018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20201007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20201007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201104

R150 Certificate of patent or registration of utility model

Ref document number: 6807529

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250