JP2022540195A

JP2022540195A - 自動閾値化を用いたデータ処理方法及びシステム

Info

Publication number: JP2022540195A
Application number: JP2022501145A
Authority: JP
Inventors: ジウンキム; ビョンギルカン; チャンデイ; ミナチョ
Original assignee: ディープバイオインク; ジェンキュリックスインク
Priority date: 2019-07-12
Filing date: 2020-07-10
Publication date: 2022-09-14
Anticipated expiration: 2040-07-10
Also published as: WO2021010670A1; KR20210007547A; US20220277812A1; EP3985677A1; JP7345811B2; KR102261474B1; CN114503205A; EP3985677A4

Abstract

基準となるデータセットからクラスタを区別するための閾値を自動に算出し、それを用いてデータを処理する方法、及びそれを行うシステムが開示される。本発明の一局面によれば、データ処理システムが、２以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力されるステップと、前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値（ｔｈｒｅｓｈｏｌｄ）を算出するステップと、前記データ処理システムが、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップと、を含む自動閾値化を用いたデータ処理方法が提供される。

Description

本発明は、自動閾値化（ａｕｔｏ－ｔｈｒｅｓｈｏｌｄｉｎｇ）を用いたデータ処理方法、及びそれを行うデータ処理システムに関する。さらに詳しくは、基準となるデータセットからクラスタを区別するための閾値を自動で算出し、それを用いてデータを処理する方法、及びそれを行うシステムに関する。

多くの技術またはサービス分野において、多数のデータを解析し且つ活用している。例えば、特定の医療データを解析して、患者毎にどの医薬を適用するか否かを決定したり、個人に特化した治療法を適用したりするなどの方式が盛んに適用されている。

図１ａは、所定の標的抗癌剤に適した患者を選別するための手段である、所定のコンパニオン診断キットにおいて活用される医療データの一例を示している。

図１ａは、一実施形態であって、肺癌の代表的なバイオマーカーであるＥＧＦＲ遺伝子のエクソン１８、１９、２０、２１に存在する突然変異の存否を知らせる検査キット（例えば、ＧｅｎｅｓＷｅｌｌ（商標）ｄｄＥＧＦＲＭｕｔａｔｉｏｎＴｅｓｔ）を用いて得られる医療データであり、図１ｂは、ＧｅｎｅｓＷｅｌｌ（商標）ｄｄＥＧＦＲＭｕｔａｔｉｏｎＴｅｓｔの検査方法であるＤｒｏｐｌｅｔＤｉｇｉｔａｌ（商標）ＰＣＲ（ｄｄＰＣＲ（商標））の一つの実験データである。例えば、このような医療データを解析して、手術後の標的抗癌剤を処方するに先立って治療剤が効く患者を選別し、または突然変異の発現有無を判別するのに利用可能である。しかしながら、本発明の技術的思想は、このような実施形態に限って適用されるものではなく、種々のデータの解析に利用可能であることはいうまでもない。

一方、図１ａ及び図１ｂに示すグラフにおいて、ｘ軸は、それぞれの医療データのイベントナンバーであり、ｙ軸は、医療データの数値の大きさ（Ａｍｐｌｉｔｕｄｅ）である。それぞれの点（ｓｐｏｔ）は、個別の医療データを示す。また、実施形態における医療データは、図１ａ及び図１ｂに示すように、座標系において少なくとも一つのクラスタ（例えば、図１ａでは、３つのクラスタ）にクラスタ化していてもよい。

このとき、特定のデータクラスタにおけるクラスタを区別するための閾値（ｔｈｒｅｓｈｏｌｄ）または特定のクラスタの終端点（例えば、最初のクラスタである最下端のデータクラスタにおいて最も上部に存在する少なくとも一つの個別の医療データ（例えば、ｙ軸の値が最も大きい順序で少なくとも一つ）または当該医療データの数値（ｙ軸の値））を判断する必要があり得る。しかしながら、それぞれの個別の医療データだけでは、どのような個別の医療データがどのようなクラスタに含まれるかについて、データの数値または座標系に表示された座標の位置だけでは知り難く、特に、データクラスタとデータクラスタとの間に多数の個別の医療データが存在する場合は、このような困難さがさらに増してしまう虞がある。

実際に、従来は、図１ａ及び図１ｂに示すように、人間が目視で座標系に表示された個別の医療データを確認し、任意に閾値または終端点（例えば、１番目（最下位）のクラスタにおける上端点）を区別するための区切り線１０または１１を引くような作業方式を採用している。

しかしながら、この場合、作業を行う者に応じて閾値または終端点が異なってくる虞があり、しかも、正確さに欠ける虞があるという不都合があった。

本発明が解決しようとする技術的課題は、２以上のクラスタを有する基準となるデータセットからクラスタを区別するための閾値を自動で算出し、それを用いてデータを処理する方法、及びそれを行うシステムを提供することである。

また、２以上のデータクラスタが存在するデータセットから速やかに特定のデータクラスタの終端点を自動探索することにより、上述した閾値を効果的に算出可能にする方法及びシステムを提供することである。

本発明の一局面によれば、データ処理システムが、２以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力されるステップと、前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップと、前記データ処理システムが、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップと、を含む自動閾値化を用いたデータ処理方法が提供される。

一実施形態において、前記自動閾値化を用いたデータ処理方法は、前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線（ｂａｓｅｌｉｎｅ）値を算出するステップをさらに含むが、前記データ処理システムが、前記多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップは、前記データ処理システムが、前記解析対象のデータセットに含まれているそれぞれの数値に基づき、前記解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出するステップと、前記データ処理システムが、前記基準データセットの基線値と前記解析対象のデータセットの基線値との差に基づき、前記閾値を補正した補正閾値を算出するステップと、前記データ処理システムが、前記解析対象のデータセットに含まれているそれぞれの数値を、前記補正閾値を基準として区別するステップと、を含んでもよい。

一実施形態において、前記基準データセット及び前記少なくとも一つの解析対象のデータセットに含まれているそれぞれの数値は、特定の突然変異を検出するための蛍光試薬が添加され、前記特定の突然変異に相当する遺伝子シーケンスに対するポリメラーゼ連鎖反応（ｐｏｌｙｍｅｒａｓｅｃｈａｉｎｒｅａｃｔｉｏｎ；ＰＣＲ）が行われたそれぞれの液滴（ｄｒｏｐｌｅｔ）を対象にして測定した蛍光信号のサイズの値であることを特徴としてもよい。

一実施形態において、前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、前記データ処理システムが、前記基準データセットに含まれているそれぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成するステップと、前記データ処理システムが、前記ヒストグラムデータのそれぞれのビンのうち、予め定められたノイズの基準値以下の度数を有するビンの度数が０になるようにするノイズ除去過程を行い、ノイズが除去されたヒストグラムデータを生成するステップと、前記データ処理システムが、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索するステップと、前記データ処理システムが、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索するステップと、前記第１ターゲットビン及び前記第２ターゲットビンの間の数値のうちいずれか一つである前記閾値を算出するステップと、を含んでもよい。

一実施形態において、前記データ処理システムが、入力された前記それぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成するステップは、前記基準データセットに含まれているそれぞれの数値のうち、上位一部の数値及び下位一部の数値を除去した修正データセットを生成するステップと、前記修正データセットに含まれているそれぞれの数値を用いて、前記ヒストグラムデータを生成するステップと、を含んでもよい。

一実施形態において、前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、ａ）前記データ処理システムが、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成するステップと、ｂ）前記データ処理システムが、前記ヒストグラムデータを平滑化するステップと、ｃ）前記データ処理システムが、前記平滑化されたヒストグラムデータを差分するステップと、ｄ）前記データ処理システムが、差分されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索するステップと、ｅ）前記データ処理システムが、差分されたヒストグラムデータに基づき、前記基準条件を満たし、かつ、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索するステップと、ｆ）前記データ処理システムが、前記第１ターゲットビン及び前記第２ターゲットビンの間の値のうちいずれか一つである前記閾値を算出するステップと、を含んでもよい。

一実施形態において、前記自動閾値化を用いたデータ処理方法は、前記データ処理システムが、予め設定されたビンの幅を用いて、前記基準条件を満たす第１ターゲットビンまたは第２ターゲットビンが探索されない場合、前記ビンの幅を一定の数値だけ減らすステップと、前記データ処理システムが、減ったビンの幅を用いて、前記ａ）ステップ乃至ｅ）ステップを再び行うステップと、をさらに含んでもよい。

一実施形態において、前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、ａ）前記データ処理システムが、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成するステップと、ｂ）前記データ処理システムが、前記ヒストグラムデータを平滑化するステップと、ｃ）前記データ処理システムが、平滑化されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索するステップと、ｄ）前記データ処理システムが、平滑化されたヒストグラムデータに基づき、前記基準条件を満たし、かつ、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索するステップと、を含んでもよい。

本発明の他の一局面によれば、データ処理システムにインストールされ、上述した方法を行うためのコンピュータプログラムが提供される。

本発明の他の一局面によれば、上述した方法を行うためのコンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体が提供される。

本発明の他の一局面によれば、２以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力される入力モジュールと、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出する閾値算出モジュールと、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割する処理モジュールと、を含む自動閾値化を用いたデータ処理システムが提供される。

一実施形態において、前記自動閾値化を用いたデータ処理システムは、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出する基線値算出モジュールをさらに含むが、前記処理モジュールは、前記多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するために、前記解析対象のデータセットに含まれているそれぞれの数値に基づき、前記解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出し、前記基準データセットの基線値と前記解析対象のデータセットの基線値との差に基づき、前記閾値を補正した補正閾値を算出し、前記解析対象のデータセットに含まれているそれぞれの数値を、前記補正閾値を基準として区別してもよい。

一実施形態において、前記閾値算出モジュールは、前記基準データセットに含まれているそれぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成し、前記ヒストグラムデータのそれぞれのビンのうち、予め定められたノイズの基準値以下の度数を有するビンの度数が０になるようにするノイズ除去過程を行い、ノイズが除去されたヒストグラムデータを生成し、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索し、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索し、前記第１ターゲットビン及び前記第２ターゲットビンの間の数値のうちいずれか一つである前記閾値を算出してもよい。

一実施形態において、前記閾値算出モジュールは、前記ヒストグラムデータを生成するために、前記基準データセットに含まれているそれぞれの数値のうち、上位一部の数値及び下位一部の数値を除去した修正データセットを生成し、前記修正データセットに含まれているそれぞれの数値を用いて、前記ヒストグラムデータを生成してもよい。

一実施形態において、前記閾値算出モジュールは、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成し、前記ヒストグラムデータを平滑化し、前記平滑化されたヒストグラムデータを差分し、差分されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索し、前記基準条件を満たし、かつ、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索し、前記第１ターゲットビン及び前記第２ターゲットビンの間の値のうちいずれか一つである前記閾値を算出してもよい。

一実施形態において、前記閾値算出モジュールは、予め設定されたビンの幅を用いて、前記基準条件を満たすターゲットビンが探索されない場合、前記ビンの幅を一定の数値だけ減らし、減ったビンの幅を用いて、ヒストグラムデータを再び生成し、再び生成されたヒストグラムデータを用いて、特定のクラスタの終端に存在するターゲットビンを探索してもよい。

一実施形態において、前記閾値算出モジュールは、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成し、前記ヒストグラムデータを平滑化し、平滑化されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索し、前記基準条件を満たし、かつ、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索し、前記第１ターゲットビン及び前記第２ターゲットビンの間の値のうちいずれか一つである前記閾値を算出してもよい。

本発明の一実施形態によれば、基準となるデータセットから把握できるクラスタの分割の客観的な基準を、他のデータセットに一貫して適用することができるという効果がある。

また、多数の個別データを別途にクラスタリングしなくても、個別データの数値を用いて速やかに特定のデータクラスタの終端点を自動探索することにより、クラスタ分割の基準となる閾値を効果的かつ速やかに探すことができるという効果がある。

また、本発明の一実施形態による方法及びシステムを医療データに適用する場合、従来手作業で行っていた作業に比べて、一貫性のある正確な診断ができるという効果がある。

本発明の詳細な説明の欄において引用される図面をより十分に理解するために、各図面の簡単な説明が提供される。
図１ａ及び図１ｂは、本発明の技術的思想が適用される医療データの一例を示した図である。本発明の一実施形態による自動閾値化を用いたデータ処理システムの概略的な構成を説明するためのブロック図である。本発明の一実施形態による自動閾値化を用いたデータ処理方法を行う過程を示したフローチャートである。本発明の一実施形態によるデータ処理システムが閾値を算出する過程の一例を示したフローチャートである。図５ａは、ヒストグラムデータの一例を示した図であり、図５ｂ及び図５ｃは、それぞれノイズが除去されたヒストグラムデータの一例を示した図である。図６ａは、本実施形態による自動閾値化を用いたデータ処理方法において、ヒストグラムを生成するステップを、さらに詳しく示したフローチャートであり、図６ｂは、図６ａの方法によって生成されたヒストグラムデータの一例を示した図である。本発明の一実施形態による特定のデータクラスタの終端点の探索方法を概念的に説明するための図である。本発明の一実施形態による特定のデータクラスタの終端点の探索方法を説明するためのフローチャートである。本発明の一実施形態によるデータ処理方法により算出された閾値を基準として、複数の解析対象のデータセットに含まれている個別データを一括的に分類する例を示した図である。本発明の他の一実施形態による自動閾値化を用いたデータ処理方法を示したフローチャートである。複数の解析対象のデータセットに対するクラスタの分割において、基線値によって閾値が補正される例を示した図である。本発明の一実施形態による自動閾値化を用いたデータ処理システムの概略的な構成を示したブロック図である。

本発明は、様々な変更を加えることができ、種々の実施形態を有することができるので、特定の実施形態を図面に例示し、詳細な説明において詳しく説明する。しかしながら、これは、本発明を特定の実施形態に対して限定しようとするものではなく、本発明の思想及び技術範囲に含まれるあらゆる変換、均等物乃至代替物を含むものと理解されるべきである。なお、本発明について説明するにあたって、関連する公知の技術についての具体的な説明が本発明の要旨を余計に曖昧にする虞があると認められる場合は、その詳細な説明を省略する。

「第１の」、「第２の」等の用語は、様々な構成要素を説明するうえで使用可能であるが、構成要素は、用語によって何等限定されない。用語は、ある構成要素を他の構成要素から区別する目的でしか使えない。

この出願において用いた用語は、単に特定の実施形態を説明するために用いられたものであり、本発明を限定しようとする意図はない。単数の表現は、文脈からみて明らかに他
の意味を有さない限り、複数の表現を含む。

この明細書において、「備える」、「含む」または「有する」等の用語は、明細書上に記載の特徴、数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定するものに過ぎず、一つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたもの存在または付加の可能性を予め排除しないものと理解すべきである。

また、この明細書においては、ある一つの構成要素が他の構成要素にデータを「送信」する場合は、これは、構成要素が、他の構成要素に直接的にデータを送信してもよく、少なくとも一つのさらに他の構成要素を介してデータを他の構成要素に送信してもよいことを意味する。逆に、ある一つの構成要素が他の構成要素にデータを「直接的に送信」する場合は、これは、構成要素から他の構成要素を介さずに他の構成要素にデータが送信されることを意味する。

以下、添付図面に基づいて、本発明の実施形態を中心に本発明について詳しく説明する。各図面に示されている同一の参照符号は、同一の部材を示す。

図２は、本発明の一実施形態による自動閾値化を用いたデータ処理システム（以下、「データ処理システム」という。）の概略的な構成を説明するためのブロック図である。

図２を参照すると、本発明の技術的思想によるデータ処理システム１００は、プロセッサ１１０及びメモリ１２０を含む。

メモリ１２０は、本発明の技術的思想を具現するためのコンピュータプログラム（ソフトウェア）を格納する。

ソフトウェアは、プロセッサ１１０により起動され、本発明の技術的思想による自動閾値化を用いたデータ処理方法を行ってもよい。

データ処理システム１００は、実施形態により、所定の周辺装置１３０を少なくとも一つ含んでもよい。周辺装置は、例えば、ディスプレイ装置、スピーカ、オーディオ／ビデオ処理モジュール、外付けメモリ、入出力装置、通信装置など様々であってもよい。

一実施形態において、データ処理システム１００は、所定のサーバにインストールして、本発明の技術的思想を具現することができる。サーバは、本発明の技術的思想を具現するための演算能力を有するデータ処理装置を意味し、一般に、ネットワークを介してクライアントが接続可能なデータ処理装置のみならず、パソコン、携帯端末等のように、特定のサービスを行うことができるいずれの装置もサーバと定義されてもよいことを、本発明の技術分野における平均的な知識を有する専門家であれば、容易に推論することができるであろう。すなわち、データ処理システム１００は、コンピュータ、サーバ、携帯電話等のデータプロセッシング能力を有するいかなるコンピュータシステムでも具現可能である。

データ処理システム１００は、図２では、いずれか一つの物理的装置で具現されたものと示したが、必要に応じて、複数の物理的装置が有機的に結合されて、本発明の技術的思想によるデータ処理システム１００を具現できることを、本発明の技術分野における平均的な知識を有する専門家であれば、容易に推論することができるであろう。

データ処理システム１００は、所定のデータセットを入力する。データセットは、多数の個別データを含んでいてもよい。多数の個別データは、それぞれ所定の値を有する。値は、数値であってもよい。また、多数の個別データは、一つまたは二つ以上のデータクラスタを形成していてもよい。

クラスタは、データセット内のそれぞれの個別データの分布により決まってもよい。例えば、データセット内において、距離値が一定の数値以下であって近い個別データがクラスタを形成してもよい。あるいは、共通または類似の属性を有する個別データが、全体のデータセット内において、一つのクラスタを形成してもよい。例えば、全体のデータセットは、突然変異の発現に対応するクラスタとそうでない（未発現）クラスタ、特定疾病の発現に相当するクラスタとそうでない（未発現）クラスタ等に分けられてもよい。

データ処理システム１００は、基準となる基準データセットを解析し、実際に解析の対象になる他のデータセット内の個別データを、互いに異なるクラスタで区別させるための閾値を算出し、算出した閾値を、実際に解析の対象になる他のデータセットに適用し、当該データセット内の個別データを互いに異なるクラスタに分類する。

例えば、データセットは、所定の疾病または突然変異の発現を検出するための試料を解析した個別データのセットであってもよい。

特に、一実施形態において、データセットは、特定の疾病や突然変異を検出するための蛍光試薬（例えば、ＦＡＭｐｒｏｂｅ及び／またはＨＥＸｐｒｏｂｅ）が添加され、特定の疾病または突然変異に相当する遺伝子シーケンス（例えば、ＤＮＡ及び／またはＲＮＡ）に対するポリメラーゼ連鎖反応（ｐｏｌｙｍｅｒａｓｅｃｈａｉｎｒｅａｃｔｉｏｎ、以下「ＰＣＲ」という。）が行われたそれぞれの液滴（ｄｒｏｐｌｅｔ）を対象として測定した蛍光信号のサイズ（ａｍｐｌｉｔｕｄｅ）の値を個別データとして有してもよい。このとき、基準データセットは、陽性対照（ｐｏｓｉｔｉｖｅｃｏｎｔｒｏｌ）のための試料に相当するデータセットであり、解析対象のデータセットは、個別検診者から抽出した遺伝子シーケンスに相当するデータセットであってもよい。

例えば、データセットは、ＤｒｏｐｌｅｔＤｉｇｉｔａｌ（商標）ＰＣＲシステムの出力結果であってもよい。ＤｒｏｐｌｅｔＤｉｇｉｔａｌ（商標）ＰＣＲＳｙｓｔｅｍは、２０μｌのＰＣＲ反応を、約２万個の液滴（ｄｒｏｐｌｅｔ）に割って増幅させた後、ターゲットＤＮＡを計数するシステムである。個別液滴におけるターゲットＤＮＡの増幅の有無により、陽性液滴（ｐｏｓｉｔｉｖｅｄｒｏｐｌｅｔ（１））と陰性液滴（ｎｅｇａｔｉｖｅｄｒｏｐｌｅｔ（０））として、デジタル信号のように扱って計数し、ポアソン分布によりターゲットＤＮＡのコピーを計算して、最終的にサンプルの１μｌ当たりのコピー数で結果値を確認するシステムである。ＤｒｏｐｌｅｔＤｉｇｉｔａｌ（商標）ＰＣＲは、解析しようとする試料とプローブ（ＦＡＭ、ＨＥＸ／ＶＩＣ）を含むＰＣＲ反応液から油膜で区別される約２万個の液滴（ｄｒｏｐｌｅｔ）を生成し、生成された液滴（ｄｒｏｐｌｅｔ）に対して、ＰＣＲ反応を進行し、ＰＣＲ反応が完了すると、液滴読取機（ｄｒｏｐｌｅｔｒｅａｄｅｒ）により、それぞれの液滴の蛍光信号を感知して、陽性液滴（ｐｏｓｉｔｉｖｅｄｒｏｐｌｅｔ）と陰性液滴（ｎｅｇａｔｉｖｅｄｒｏｐｌｅｔ）及びターゲット遺伝子のコピー数を計算して解析する。解析結果は、数値を有するデータリストの形態（例えば、．ｃｓｖフォーマット等）で出力される。

本発明の技術的思想による例示は、上記のような医療データであることもあるが、本発明の権利範囲は、これに限定されず、様々なデータに活用され得ることはいうまでもない。

上述したように、データ処理システム１００は、基準となる基準データセットを解析して、実際解析の対象になる他のデータセット内の個別データを、互いに異なるクラスタで区別させるための閾値を算出することができ、算出した閾値を実際に解析の対象になる他のデータセットに適用して、当該データセット内の個別データを互いに異なるクラスタに分類することができる。データセットがＤｒｏｐｌｅｔＤｉｇｉｔａｌ（商標）ＰＣＲにより出力される数値のリストである場合、基準データセットは、陽性対照（ｐｏｓｉｔｉｖｅｃｏｎｔｒｏｌ）試料に対する出力結果であってもよく、実際に解析の対象になるデータセットは、実際の検診者から抽出した遺伝子を含む試料に対する出力結果であってもよい。

この場合、データ処理システム１００は、陽性対照（ｐｏｓｉｔｉｖｅｃｏｎｔｒｏｌ）試料から算出した閾値を、多数の検診者に対する結果に共通に適用することができるので、多数の検診者に対する診断の際に一貫性及び客観性を確保することができるようになるという効果がある。

一方、データセットは、それぞれが、イベントナンバーが与えられた数値のリストの形態であってもよく、．ｃｓｖや．ｘｌｓ等のスプレッドシートや．ｄｂ等のデータベースファイルの形式で提供されてもよい。

以下では、図３を参照して、本発明の一実施形態によるデータ処理システム１００が自動閾値化を用いたデータ処理方法を行う過程について、さらに詳細に説明する。

図３を参照すると、データ処理システム１００は、２以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力する（Ｓ１００）。個別データが有し得る数値は、正の実数値であってもよく、最大値が予め決まっていてもよい。一実施形態において、基準データセットは、上述したように、陽性対照試料に対する試験結果であってもよい。

以降、データ処理システム１００は、入力された基準データセットに含まれているそれぞれの数値に基づき、基準データセットが有するクラスタを分割するための閾値を算出する（Ｓ１１０）。

一実施形態において、算出された閾値は、疾病または突然変異が発現されたクラスタと、そうでないクラスタを分類するための値であってもよい。

Ｓ１１０ステップにおいて、閾値を算出する方法は、様々である。特に、本発明の一実施形態によれば、データ処理システム１００は、閾値を算出するために、入力されたデータセットを用いてヒストグラムデータを生成し、特定のクラスタの終端点を探索／判断することができる。

ヒストグラムデータの第１軸（例えば、ｘ軸）は、それぞれのビンの階級を示し、第２軸（例えば、ｙ軸）は、それぞれの階級の度数を示す。すなわち、ヒストグラムデータは、個別データが有し得る数値の範囲を第１軸（例えば、ｘ軸）のドメインとし、このような第１軸が所定のビンの幅を有する複数のビン（ｂｉｎ）に分割された場合のそれぞれのビンに関する情報を含んでいてもよい。それぞれのビンに関する情報は、該当ビンの第１軸の値の範囲（または何番目のビンであるかを示すビンのインデックス）及び当該ビンの第２軸（例えば、ｙ軸）の値を有していてもよい。ビンの第２軸の値は、第１軸の値の範囲（すなわち、ビン幅に見合う分の範囲を有する個別データの数値）に該当する個別データの数であってもよい。

一方、特定のクラスタの終端点は、当該クラスタの左側終端点または右側終端点であってもよい。

左側終端点は、特定のクラスタに含まれている個別データのうち、個別データの数値が高い順に（例えば、図１ａまたは図１ｂにおけるｙ軸方向に上方）１番目の個別データの数値（または１番目の個別データの数値の直後の数値の範囲）または高い順にいくつかの個別データが有する数値の範囲（または範囲の直後の数値の範囲）を意味してもよい。

右側終端点は、特定のクラスタに含まれている個別データのうち、個別データの数値が低い順に（例えば、図１におけるｙ軸方向に下方）１番目の個別データが有する数値（または１番目の個別データの数値よりも低い直前の数値の範囲）または低い順に予め定められた数（例えば、２～３個）の個別データが有する数値の範囲（またはその直前の数値の範囲）を意味してもよい。

図４は、本発明の一実施形態によるデータ処理システム１００が閾値を算出する過程の一例を示したフローチャートである。

図４を参照すると、データ処理システム１００は、基準データセットに含まれているそれぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成することができる（Ｓ１１１）。

一方、データ処理システム１００は、ヒストグラムデータのそれぞれのビンのうち、予め定められたノイズの基準値以下の度数を有するビンの度数が０になるようにするノイズ除去過程を行い、ノイズが除去されたヒストグラムデータを生成することができる（Ｓ１１２）。

このとき、ノイズの基準値は、実験あるいはその他の方法により、予め定められた値であってもよい。

以下では、ヒストグラムデータからノイズを除去する例について、図５ａ乃至図５ｃを参照して説明する。

図５ａは、Ｓ１１１ステップで生成したヒストグラムデータの一例を示す図である。すなわち、データ処理システム１００は、図５ａに示されたようなヒストグラムデータを生成することができる。このとき、ノイズの基準値は、ｋで決まっていてもよい。

一実施形態において、ノイズ除去過程は、ノイズの基準値以下の度数を有するビンの度数を０に設定する過程であってもよい。このようなノイズ除去過程が、図５ａのヒストグラムデータに対して行われてから生成されるノイズが除去されたヒストグラムデータは、図５ｂの通りである。

一方、他の一実施形態において、ノイズ除去過程は、それぞれのビンの度数からノイズの基準値だけを差し引いた後、０未満の度数を有するビンの度数を０に設定する過程であってもよい。このようなノイズ除去過程が、図５ａのヒストグラムに対して行われてから生成されるノイズが除去されたヒストグラムデータは、図５ｃの通りである。

一方、さらに図４を参照すると、ヒストグラムからノイズを除去した後、データ処理システム１００は、ノイズが除去されたヒストグラムデータに基づき、基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索することができる（Ｓ１１３）。基準データセット内の第１クラスタは、基準データセットが有するクラスタのうち、当該クラスタ内の数値の平均が最も大きいクラスタであってもよい。

データ処理システム１００は、第１ターゲットビン及び後述する第２ターゲットビンを探索するために、ノイズが除去されたヒストグラムデータを、最も大きな階級に相当するビンから逆順にそれぞれのビンを探索することができる。図５ｃの例を挙げて説明すると、データ処理システム１００は、最も大きな階級のビン１－１を第１クラスタの右側終端に存在するビンと判断し、逆順（図５ｃの探索方向（ｂ））でそれぞれのビンを探索することができ、当該ビンの度数は、０よりも大きくて、次のビンの度数が０になるビン１－２を、第１クラスタの左側終端に存在するビン（すなわち、第１ターゲットビン）と判断することができる。またデータ処理システム１００は、ビン１－２乃至ビン１－１に属する数値を第１クラスタ１と判断することができる。

さらに図４を参照すると、データ処理システム１００は、ノイズが除去されたヒストグラムデータに基づき、基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索することができる（Ｓ１１４）。基準データセット内の第２クラスタは、基準データセットが有するクラスタのうち、当該クラスタ内の数値の平均が二番目に大きいクラスタであってもよい。

図５ｃの例を挙げて説明すると、データ処理システム１００は、第１クラスタの左側終端にある第１ターゲットビンを探索した後、引き続き、ノイズが除去されたヒストグラムを逆順に探索し、以前のビンの度数が０であり、当該ビンの度数が０ではないビン２－１を、第２クラスタの右側終端に存在する第２ターゲットビンと判断することができる。また、データ処理システム１００は、当該ビンの度数は０ではないが、次のビンの度数が０になるビン２－２を、第２クラスタの左側終端に存在するビンとして探索し、ビン２－２乃至ビン２－１に存在する数値を第２クラスタ２と判断することができる。

第２クラスタの左側終端に存在するビンを探索してから、データ処理システム１００は、同様な方法で、第３クラスタの右側終端に存在するビン（３－１）と第３クラスタの左側終端に存在するビン（３－２）を探索し、第３クラスタ（３）を判断することもできる。

さらに図４を参照すると、データ処理システム１００は、第１ターゲットビン（例えば、図５ｃの第１ターゲットビン１－２）及び第２ターゲットビン（例えば、図５ｃの第２ターゲットビン２－１）の間の値のうちいずれか一つである閾値を算出することができる（Ｓ１１５）。図５ｃの例を挙げて説明すると、データ処理システム１００は、第２ターゲットビン２－１に属する最大値と第１ターゲットビン１－２に属する最小値の中央値（Ｔ）を閾値と決めることができる。それ以外にも、データ処理システム１００は、第１クラスタ１と第２クラスタ２を分割させる任意の値が選定されるようにする様々な方法により、閾値を選定することができることはいうまでもない。

また、上記の例では、第１クラスタと第２クラスタを、それぞれ、当該クラスタが属する数値の平均が最も大きいクラスタと二番目に大きいクラスタとした例を説明したが、これとは異なり、第１クラスタは、当該クラスタに属する数値の平均が最も小さいクラスタであり、第２クラスタは、当該クラスタに属する数値の平均が二番目に大きいクラスタである場合も、本発明の技術的思想が適用され、この場合、データ処理システム１００は、ノイズが除去されたヒストグラムを、階級が最も小さいビンから順次に探索することにより、それぞれのクラスタの左／右側終端を判断することができることを、本発明が属する分野における通常の知識を有する者であれば、明らかに理解することができるであろう。また、データ処理システム１００は、第２クラスタと第３クラスタを分割する閾値を算出することもできることはいうまでもない。

一方、本発明における他の一実施形態では、全体的な演算速度を減らすために、閾値の算出に不必要であると見なされる一部数値を除去した後、ヒストグラムを生成することもできるが、これについて、図６を参照して説明する。

図６ａは、本実施形態による自動閾値化を用いたデータ処理方法において、ヒストグラムを生成するステップ（すなわち、図４のＳ１１１）をさらに詳しく示したフローチャートである。

図６ａを参照すると、データ処理システム１００は、ヒストグラムデータを生成するために、先ず、基準データセットに含まれているそれぞれの数値のうち、上位一部の数値及び下位一部の数値を除去した修正データセットを生成することができる（Ｓ１１１０）。例えば、データ処理システム１００は、最初の基準データセットに含まれているそれぞれの数値のうち、上位１０％及び下位１０％の数値を除去して、修正データセットを生成することができる（Ｓ１１２０）。

以降、データ処理システム１００は、修正データセットに含まれているそれぞれの数値を用いて、ヒストグラムデータを生成することができるが、修正データセットを用いて生成されたヒストグラムの一例が、図６ｂに示されている。上記で説明したように、図５ａは、最初の基準データセットを基準として生成されたヒストグラムの一例を示し、図６ｂのヒストグラムは、図５ａと比較すれば、左／右側ビンの度数が０になったことを確認することができる。

一方、本発明における他の実施形態では、ヒストグラムデータをそのまま用いるものではなく、平滑化されたヒストグラムデータ及び／または平滑化されたヒストグラムデータを差分したヒストグラムデータを用いてターゲットビンを探索してもよい。すなわち、本発明の実施形態では、平滑化されたヒストグラムデータを用いてターゲットビンを探索してもよく、平滑化されたヒストグラムデータを再び差分化して、差分したヒストグラムデータを用いてターゲットビンを探索してもよい。また、差分化を行う場合は、さらに直観的にヒストグラムデータの変曲点を判断し易いという効果がある。

ヒストグラム平滑化（ＨｉｓｔｏｇｒａｍＥｑｕａｌｉｚａｔｉｏｎ）は、一連のデータに相当するヒストグラムの分布が全体領域において均等に現れるように、当該データを変換する方法であって、例えば、コンピュータビジョン分野において映像の明暗対比を高めるか、映像の明るさを均一にするための方法として広く応用されている。周知のように、ヒストグラム平滑化は、それぞれのデータの頻度数を算出してヒストグラムを生成した後、それぞれのデータの累積度数（累積和）を計算し、計算した累積度数を正規化する過程からなる。

差分化（ｄｉｆｆｅｒｅｎｃｉｎｇ）は、周知のように、時系列データ（ｓｅｒｉｅｓｄａｔａ）解析の分野において、定常性（ｓｔａｔｉｏｎａｒｉｔｙ）を有さない一連のデータが定常性を示すようにする方法である。一連のデータを差分化するとは、一連のデータの差を計算するものであって、例えば、差分化を行うための方法は、連続する２つの値の差を計算する方法（一回差分）、連続する２つの値の差に白色雑音（ｗｈｉｔｅｎｏｉｓｅ；ε）を反映（追加）する方法（ランダムウォークモデル）、１回差分化したデータをもう一回差分する方法（２回差分）、特定データと同じ季節の以前データとの間の差を求める季節差分（ｓｅａｓｏｎａｌｄｉｆｆｅｒｅｎｃｉｎｇ）等が挙げられる。

一方、ヒストグラム平滑化及び平滑化は、それぞれ、それに相当するマスク（またはフィルター）を適用する方法で行われてもよい。

図７は、本発明の一実施形態による特定のデータクラスタの終端点の探索方法について概念的に説明するための図である。図７において、記号Оはデータセットに含まれている個別データの原本を示し、Ｈはヒストグラムデータ、Ｓは平滑化されたヒストグラムデータ、Ｄは差分化されたヒストグラムデータを示す。また、図８は、本発明の一実施形態による特定のデータクラスタの終端点の探索方法を説明するためのフローチャートを示す。以下では、便宜のため、複数のデータクラスタにおいて数値の低い順に１番目のデータクラスタの上端点（すなわち、右側終端点）を探す場合の例であるが、本発明の技術的思想が必ずしも１番目のデータクラスタに適用されなければならないとか、特定のデータクラスタの上端点を探索することにのみ適用されるものではない。例えば、ヒストグラムデータを用いて特定のクラスタの終端点を探索する場合、探索方向（例えば、第１軸の数値が低いビンから高いビンの方向に）に応じて、何番目（例えば、２番目）の終端点を探すかにより、任意のデータクラスタ（例えば、２番目のデータクラスタ）の終端点を探すことができる。また、探索方向（例えば、第１軸の数値が高いビンから低いビンの方向に）に応じて、特定のデータクラスタの上端点ではなく、下端点（すなわち、左側終端点）を探してもよい。以下では、説明の便宜のため、複数のデータクラスタにおいて数値の低い順に１番目のデータクラスタの上端点を探す場合を例にとって説明するが、本発明の権利範囲がこれに限定されることはない。

図７は、マスクの直径（すなわち、パラメータの数）が３であり、単にパラメータの値がそれぞれ［－１．０．１］であるマスクをもって平滑化及び／または差分化を行う場合の例示的なヒストグラムデータを示しているが、平滑化マスク及び／または差分化マスクの直径とパラメータ値等が多様であることはいうまでもない。

図７及び図８を参照すると、データ処理システム１００が入力されたデータセットに含まれている原個別データＯは、図７に示すように、正の実数値（例えば、１．２３４２５、２．１３４２５、４．２３２５２、３．１３１４１、１．１４４５２等）を有していてもよい。このような正の実数値は、図１ａまたは図１ｂに示すグラフにおいて、第２軸（例えば、ｙ軸）に相当する値であってもよい。

上述のように、データ処理システム１００は、入力された原個別データＯに基づき、ヒストグラムデータＨを生成することができる（Ｓ３００）。ヒストグラムデータＨは、個別データが要し得る数値の範囲を一定の幅を有する複数のビン２０に分割し、分割されたビンのそれぞれに該当する数値を有する個別データの数が、それぞれのビンの度数を有するように生成されるデータであってもよい。このようなヒストグラムデータＨを図式化すれば、図７のヒストグラムデータＨのようになる。

図７のヒストグラムデータＨにおいて、度数を有するビン２１は、いずれか一つのデータクラスタに相当するヒストグラムの部分領域であってもよい。

したがって、データクラスタの終端点、すなわち、データ処理システム１００が探索しようとするターゲットビン３０は、図７に示すようになる。すなわち、図７では、最後の個別データ、すなわち、ターゲットビン３０の直前のビン２１－１に該当する個別データの数値の範囲（すなわち、直前のビン２１－１の第１軸の値の範囲）ではなく、その度数が存在する直前のビン２１－１の直後のビンをターゲットビン３０として探索する場合を示しているが、実施形態によっては、直前のビン２１－１がターゲットビンになることもあるのはいうまでもない。

データ処理システム１００は、このようなヒストグラムデータＨから直接的にターゲットビン３０を探索するものではなく、ヒストグラムデータＨを平滑化することができる。（Ｓ３１０）。

また、平滑化されたヒストグラムデータＳを用いて、ターゲットビン３０を探索することができる（Ｓ３４０）。

このように、平滑化されたヒストグラムデータＳを用いることにより、度数を有する一連のビン２１の間に一時的に度数が０であるビン（空きビンという。）が少なくとも一つ存在する場合、すなわち、探索しようとするデータクラスタに該当する数値の範囲内に個別データが存在しない一部の範囲が存在する場合、このような空きビンをターゲットビンとして判断するか否か、あるいは、空きビンと判断するか否かが不明になるという問題を解決することができる。すなわち、平滑化されたヒストグラムデータＳを用いる場合は、たとえ元のヒストグラムＨでは空きビンであるとしても、左右の度数に応じて一定の値を有するようになって、度数が０ではなくなることがあるため、平滑化されたヒストグラムデータＳを活用した方がさらに有効になる場合がある。

このように、原ヒストグラムデータＨを平滑化した結果を例示すれば、図７のヒストグラムＳのようになる。

ヒストグラムを平滑化するための平滑化マスク（またはフィルタ）及び／または差分マスクについては周知である。

本発明の実施形態では、平滑化マスク及び／または差分マスクとしては、コンボリューションマスクを用いてもよく、所定の数字列ｘとコンボリューションマスクｈは、次のように定義され得る。

本発明の一実施形態において、平滑化マスク及び差分マークの一例は、それぞれ[１、１、１、１、１、１、１、１、１、１]、[－１、－１、－１、－１、０、１、１、１、１]を用いており、もう一つの実施形態では、[１、１、１、１、１、１、１、１、１]、[－１、－１、－１、－１、０、１、１、１、１]を用いている。しかしながら、平滑化マスク及び差分マスクは、データセットに含まれている個別データの数及びクラスタの度合い等のデータセットの特性に応じて種々に設定可能である。

一方、前述したように、データ処理システム１００は、平滑化されたヒストグラムデータＳを用いてターゲットビン３０を探索していてもよいが、他のケースの場合は、平滑化されたヒストグラムデータＳを差分化することにより、さらに明確にターゲットビン３０を探索していてもよい。

どのような場合に平滑化されたヒストグラムデータＳを用いてターゲットビン３０を探索し、また、どのような場合に差分化されたヒストグラムデータＤを用いてターゲットビン３０を探索するかは、データセットの特性に応じて予め決定されていてもよい。データセットの特性は、データの数、データの密集度、データクラスタの数をはじめとするデータセットの特性に基づいて決定されてもよく、予め繰り返し行われる実験を通じて特性がある範囲に収められる場合は、第１ケース、すなわち、平滑化ヒストグラムデータＳを用いてターゲットビン３０を探索し、別の第２ケースは、差分化ヒストグラムデータＤを用いてターゲットビン３０を探索するようにその基準が定められてもよいことはいうまでもない。

いうまでもなく、実施形態によっては、ランダムに両方式のうちのいずれか一方を選んでもよく、具現例によっては、方式の両方を用いてターゲットビン３０を探索し、その結果を比較してもよい。

もし、方式の両方を用いてターゲットビン３０を探索する場合は、探索されたターゲットビンのそれぞれの位置（第１軸の値）が同じであるか、あるいは、予め定められた位置（第１軸の値）の範囲内である場合、いずれか一方の方式により探されたターゲットビンを最終的なターゲットビンとして決定していてもよい。

したがって、データ処理システム１００は、入力される原個別データＯに基づき、第１ケースであると判断した場合（Ｓ１３０）、上述したように、平滑化されたヒストグラムデータＳを用いてターゲットビン３０を探索することができる（Ｓ３４０）。

また、データ処理システム１００が第２ケースであると判断した場合、データ処理システム１００は、平滑化されたヒストグラムデータＳを再び差分することができる（Ｓ３３０）。すると、データ処理システム１００は、差分化したヒストグラムデータＤを用いてターゲットビン３０を探索することができる（Ｓ３４０）。

データ処理システム１００が平滑化されたヒストグラムデータＳからターゲットビン３０を探索する場合の一例は、次の通りである。

例えば、データ処理システム１００は、平滑化されたヒストグラムデータＳから一定の方向（例えば、数値の値が大きくなる方向）にビンのそれぞれの度数を探索してもよい。

そうしながら、探索している現在のビンの以前の度数がカットオフ値（例えば、０）ではなく、かつ、現在の度数がカットオフ値（例えば、０）であり、予め定められた数（例えば、１個または２個以上）の次の度数がカットオフ値（例えば、０）を有するターゲットビン３０を探索することができる。

この場合、図７において、ターゲットビン３０が現在探索されている現在のビンである場合、直前のビン２１－１の度数は０ではなく、現在のビンの度数は０であれば、予め定められた数（例えば、２個）の直後のビンの度数は０であるため、現在のビンをターゲットビン３０として決定することができる。

カットオフ値は０であってもよいが、実施形態によっては、１などのように小さな値を有するように設定されてもよい。この場合は、探索する終端点は、データクラスタから終端側に個別データが１つしか存在しない数値を探すアルゴリズムにより定義されてもよく、実施形態によって、カットオフ値は種々に設定可能である。

一方、差分化されたヒストグラムデータＤからターゲットビン３０を探索する場合の一例は、次の通りである。

例えば、データ処理システム１００は、差分化されたヒストグラムデータＤから一定の方向（例えば、数値の値が大きくなる方向）にビンのそれぞれの度数を探索してもよい。

そうしながら、探索している現在のビンがターゲットビン３０であれば、現在のビンの直前のビン２１－１の度数が直後のビン３１の度数よりも小さく、直前のビン２１－１の度数が０に等しいかまたはそれよりも小さく、直後のビン３１の度数が０に等しいかまたはそれよりも大きな値を有する場合が、探索しようとするターゲットビン３０である場合であってもよい。すなわち、度数が負の実数値から次第に小さくなりながら０となる領域に該当する個所が探索しようとするターゲットビン３０になることがある。

一方、上述したようなヒストグラムデータを生成するとき、ビン幅をどのように設定するかによって、ターゲットビン３０が探索されないこともある。例えば、ビン幅が広過ぎる場合は、探索しようとするデータクラスタとその次のデータクラスタとの間に個別データが多数存在し、相対的に密集している場合、カットオフ値を有するビンが存在しないこともある。これに反して、ビン幅を狭め過ぎる場合には、一つのデータクラスタ内においてもカットオフ値を有するビンが多数検出されてしまうという問題、またはビンの数が多くなって探索時間が長引いてしまうという問題等が生じるおそれがある。したがって、繰り返し行われる実験を通じて適切なビン幅を予め決定しておくことが必要になる場合もある。

もし、このようなビン幅を予め決定しておくことが困難である場合は、所定のデフォルトのビン幅の値を用いて探索を行い、上述したようなターゲットビンが探索されない場合（すなわち、探索しようとするターゲットデータクラスタの終端のビンと、ターゲットデータクラスタと隣り合うデータクラスタのターゲットデータクラスタ側の終端のビンとの間に度数が０であるビンが存在しないほどビン幅が広い場合）は、順次に予め定められた単位値に見合う分だけビン幅を狭めていきながら、狭められたビン幅を用いて再びヒストグラムデータを生成してもよい。また、再び生成されたヒストグラムデータを用いて、前述したようなターゲットビンの探索手順（平滑化されたヒストグラムデータを用いたターゲットビンの探索、または差分化されたヒストグラムデータを用いたターゲットビンの探索）を行ってもよい。

データ処理システム１００は、図７乃至図８を参照して説明した上記の方法により、それぞれのクラスタの左側終端点及び右側終端点を判断し、それを用いて、それぞれのクラスタを分割する閾値を算出することができる。

一方、さらに図３を参照すると、データ処理システム１００は、上述したような方法により、閾値を算出した後、少なくとも一つの解析対象のデータセットのそれぞれに対して、解析対象のデータセットを、閾値を用いて、互いに異なるクラスタに分割することができる（Ｓ１２０、Ｓ１３０）

少なくとも一つの解析対象のデータセットは、全て多数の個別データを含んでもよく、それぞれの個別データは、数値の値を有していてもよい。

解析対象のデータセットは、基準データセットと同じ方式の試験または実験により生成されたデータであってもよい。もし、基準データセットが特定の疾病または突然変異の発現の有無に対する陽性対照（ｐｏｓｉｔｉｖｅｃｏｎｔｒｏｌ）試料から測定されたデータのセットである場合、少なくとも一つの解析対象のデータセットは、それに相当する解析の対象者から抽出した生体情報（例えば、遺伝子情報）を含む試料から測定されたデータのセットであってもよい。

図９は、上述した方法により算出された閾値を基準として、複数の解析対象のデータセットに含まれている個別データを一括的に分類する例を示した図である。

図９に示すように、分類の基準となる閾値１２が算出された後、データ処理システム１００は、複数の解析対象のデータセットＡ０１、Ｂ０１、…、Ｈ０１を疾病または突然変異が発現されたことを示すデータクラスタ（すなわち、閾値１２以上の値を有するクラスタ）及びそうではないクラスタ（すなわち、閾値１２未満の値を有するクラスタ）に一括的に分類してもよい。

一方、複数の解析対象のデータセットは、実験機器（例えば、ＤｒｏｐｌｅｔＤｉｇｉｔａｌ（商標）ＰＣＲシステム）それ自体で発生する誤差等により、数値の全体的な変動（ｓｈｉｆｔ）が発生することもある。すなわち、一つの解析対象のデータセット内では、問題がないが、他の解析対象のデータセットとの関係で数値が全体的に値が増加するか減少する場合が発生することがある。

このため、データ処理システム１００は、それぞれのデータセットの基線（ｂａｓｅｌｉｎｅ）値を基準として、全体的な数値を補正する過程をさらに行うようにしてもよい。このような実施形態による自動閾値化を用いたデータ処理方法の具体的な例が図１０に示されている。

図１０を参照すると、データ処理システム１００は、基準データセットに含まれている多数の個別数値を入力され（Ｓ２００）、入力された基準データセットに含まれているそれぞれの数値に基づき、基準データセットが有するクラスタを分割するための閾値を算出することができる（Ｓ２１０）。

また、データ処理システム１００は、入力された基準データセットに含まれているそれぞれの数値に基づき、基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線（ｂａｓｅｌｉｎｅ）値を算出することができる（Ｓ２２０）。

一実施形態において、データ処理システム１００は、上述した特定のクラスタの終端点の探索方法を適用して基線値を算出することができる。例えば、データ処理システム１００は、特定のグループ（例えば、最下端グループ）の上端点及び下端点を探索した後、二つの点の中央値、平均値または重心値を基線値として算出してもよい。

一方、データ処理システム１００は、少なくとも一つの解析対象のデータセットのそれぞれに対して、図１０のＳ２４０乃至Ｓ２６０のステップを行うことができる（Ｓ２３０）。

データ処理システムは、それぞれの解析対象のデータセットに対して、解析対象のデータセットに含まれているそれぞれの数値に基づき、解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出することができる（Ｓ２４０）。

また、データ処理システム１００は、基準データセットの基線値と解析対象のデータセットの基線値との差に基づき、閾値を補正した補正閾値を算出することができる。

例えば、データ処理システム１００は、閾値を基準データセットの基線値と解析対象のデータセットの基線値との差だけ補正した補正閾値を算出することができ（Ｓ２５０）、解析対象のデータセットに含まれているそれぞれの数値を、補正閾値を基準として区別することができる（Ｓ２６０）。一方、実施形態に応じて、データ処理システム１００は、基準データセットの基線値と解析対象のデータセットの基線値との差が一定の水準以上である場合に限り、閾値を基準データセットの基線値と解析対象のデータセットの基線値との差だけ補正した補正閾値を算出し（Ｓ２５０）、解析対象のデータセットに含まれているそれぞれの数値を、補正閾値を基準として区別することもできる（Ｓ２６０）。

図１１は、複数の解析対象のデータセットに対するクラスタの分割において、基線値により閾値が補正される例を示した図である。図１１は、それぞれのデータセットであるＡ０１、Ｂ０１、Ｃ０１、…、Ｈ０９に対するクラスタの分割結果を示している。

図１１を参照すると、データ処理システム１００は、Ａ０５データセットを除いた残りのデータセットに対しては、所定の閾値１３を基準としてクラスタを分割するが、基準データセットの基線値とは異なる基線値を有するＡ０５データセットに対しては、両者の差だけ補正された閾値１４を基準としてクラスタを分割することができる。

図１２は、本発明の実施形態によるデータ処理システム１００の論理的構成を説明するための図である。

図１２を参照すると、データ処理システム１００は、入力モジュール１４０、閾値算出モジュール１５０、及び処理モジュール１７０を含んでもよい。本発明の実施形態に応じては、上述した構成要素のうち、一部の構成要素は、必ずしも本発明の具現に必須に必要な構成要素に該当しなくてもよく、また、実施形態に応じて、データ処理システム１００は、これよりもさらに多くの構成要素を含んでもよいことは言うまでない。例えば、データ処理システム１００は、基線値算出モジュール１６０及び／または本発明の技術的思想を具現するためにデータ処理システム１００に含まれている他の構成（例えば、入力モジュール１４０、閾値算出モジュール１５０、基線値算出モジュール１６０、及び処理モジュール１７０等）、あるいは、データ処理システム１００の機能やリソースを制御するための制御モジュール（図示せず）をさらに含んでもよい。

データ処理システム１００は、本発明の技術的思想を具現するために必要なハードウェアリソース（ｒｅｓｏｕｒｃｅ）及び／またはソフトウェアを備えた論理的な構成を意味するが、必ずしも一つの物理的な構成要素を意味するか、一つの装置を意味するものではない。すなわち、データ処理システム１００は、本発明の技術的思想を具現するために備えられるハードウェア及び／またはソフトウェアの論理的な結合を意味するが、必要な場合は、互いに離隔した装置に設置され、それぞれの機能を行うことにより、本発明の技術的思想を具現するための論理的な構成の集合で具現されてもよい。また、データ処理システム１００は、本発明の技術的思想を具現するためのそれぞれの機能または役割別に別途で備えられる構成の集合を意味することもある。例えば、入力モジュール１４０、閾値算出モジュール１５０、基線値算出モジュール１６０、及び処理モジュール１７０のそれぞれは、互いに異なる物理的装置に位置していてもよく、同一の物理的装置に位置していてもよい。また、具現例に応じては、入力モジュール１４０、閾値算出モジュール１５０、基線値算出モジュール１６０、及び処理モジュール１７０のそれぞれを構成するソフトウェア及び／またはハードウェアの結合も互いに異なる物理的装置に位置し、互いに異なる物理的装置に位置した構成が互いに有機的に結合され、それぞれのモジュールを具現することもできる。

また、この明細書において、モジュールとは、本発明の技術的思想を行うためのハードウェア及びハードウェアを駆動するためのソフトウェアの機能的、構造的な結合を意味する。例えば、モジュールは、所定のコードと所定のコードが実行されるためのハードウェアリソース（ｒｅｓｏｕｒｃｅ）の論理的な単位を意味してもよく、必ずしも物理的に連結されたコードを意味したり、１種類のハードウェアを意味したりするとは限らないということは、本発明の技術分野における平均的な知識を有する専門家にとっては容易に推論できる筈である。

図８を参照すると、入力モジュール１４０は、２以上のクラスタを有するデータセット（例えば、陽性対照に相当するデータセット）に含まれている多数の個別数値を入力される。入力モジュール１４０は、基準データセット及び／または少なくとも一つの解析対象のデータセットを入力される。

閾値算出モジュール１５０は、入力された基準データセットに含まれているそれぞれの数値に基づき、基準データセットが有するクラスタを分割するための閾値を算出することができる。閾値算出モジュール１５０が閾値を算出する様々な方法については、上記した説明の通りである。

処理モジュール１７０は、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する解析対象のデータセットを、閾値を用いて、互いに異なるクラスタに分割することができる。

一方、一実施形態において、データ処理システム１００は、入力された基準データセットに含まれているそれぞれの数値に基づき、基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線（ｂａｓｅｌｉｎｅ）値を算出する基線値算出モジュール１６０をさらに含んでもよく、このとき、処理モジュール１７０は、多数の個別数値を有する解析対象のデータセットを、閾値を用いて、互いに異なるクラスタに分割するために、解析対象のデータセットに含まれているそれぞれの数値に基づき、解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出し、閾値を基準データセットの基線値と解析対象のデータセットの基線値との差だけ補正した補正閾値を算出し、解析対象のデータセットに含まれているそれぞれの数値を、補正閾値を基準として区別することができる。

一方、一実施形態において、閾値算出モジュール１５０は、上述したように閾値算出のために特定のクラスタの終端点を探索することができる。

一方、具現例に応じて、データ処理システム１００は、プロセッサ、及びプロセッサにより起動されるプログラムを格納するメモリを備えていてもよい。プロセッサは、シングルコア中央演算処理装置（ＣＰＵ）もしくはマルチコア中央演算処理装置（ＣＰＵ）を備えていてもよい。メモリは、高速ランダムアクセスメモリを備えていてもよく、一台以上の磁気ディスク格納装置、フラッシュメモリ装置、またはその他の不揮発性固体状態メモリ装置等の不揮発性メモリを備えていてもよい。プロセッサ及びその他の構成要素によるメモリへのアクセスは、メモリコントローラにより制御されてもよい。

一方、本発明の実施形態に係る自動閾値化を用いたデータ処理方法は、コンピュータ読み取り可能なプログラム指令の形態で具現されてコンピュータ読み取り可能な記録媒体に格納されてもよく、本発明の実施形態に係る制御プログラム及び対象プログラムもまた、コンピュータ読み取り可能な記録媒体に格納されてもよい。コンピュータ読み取り可能な記録媒体は、コンピュータシステムにより読み込まれるデータが格納されるあらゆる種類の記録装置を網羅する。

記録媒体に記録されるプログラム指令は、本発明のために特別に設計され且つ構成されたものであってもよく、ソフトウェア分野における当業者にとって公知となって使用可能なものであってもよい。

コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピディスク及び磁気テープ等の磁気媒体（ｍａｇｎｅｔｉｃｍｅｄｉａ）、ＣＤ－ＲＯＭ
（読み込み専用のコンパクトディスク）、デジタル多用途ディスク（ＤＶＤ）等の光記録媒体（ｏｐｔｉｃａｌｍｅｄｉａ）、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）等の磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉａ）及びＲＯＭ（読み出し専用メモリ）、ＲＡＭ（ランダムアクセスメモリ）、フラッシュメモリ等のプログラム指令を格納しかつ行うように特別に工夫されたハードウェア装置が挙げられる。また、コンピュータ読み取り可能な記録媒体は、ネットワークにより結ばれたコンピュータシステムに分散されて、分散方式によりコンピュータ読み取り可能なコードが格納され且つ実行されてもよい。

プログラム指令の例としては、コンパイラにより作成されるような機械語コードだけではなく、インタプリタ等を用いて電子的に情報を処理する装置、例えば、コンピュータにより起動可能な高級言語コードが挙げられる。

上述したハードウェア装置は、本発明の動作を行うために一つ以上のソフトウェアモジュールとして作動するように構成されてもよく、その逆も同様である。

上述した本発明の説明は、単なる例示のためのものであり、本発明の属する技術分野における通常の知識を有する者は、本発明の技術的な思想や必須的な特徴を変更することなく、他の具体的な形態へと容易に変形できることが理解できる筈である。よって、上述した実施形態は、あらゆる面において例示的なものに過ぎず、限定的ではないものと理解すべきである。例えば、単一型であると説明されている各構成要素は、分散されて実施されてもよく、同様に、分散されていると説明されている構成要素も、組み合わせられた形態に実施されてもよい。

本発明の範囲は、上記の詳細な説明よりは、特許請求の範囲によって表わされ、特許請求の範囲の意味及び範囲、並びにその均等概念から導き出されるあらゆる変更または変形された形態も本発明の範囲に含まれるものと解釈されるべきである。

本発明は、自動閾値化を用いたデータ処理方法及びシステムに利用可能である。

Claims

データ処理システムが、２以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力されるステップと、
前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値（ｔｈｒｅｓｈｏｌｄ）を算出するステップと、
前記データ処理システムが、少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップと、を含む自動閾値化を用いたデータ処理方法。
前記自動閾値化を用いたデータ処理方法は、
前記データ処理システムが、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線（ｂａｓｅｌｉｎｅ）値を算出するステップをさらに含むが、
前記データ処理システムが、前記多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するステップは、
前記データ処理システムが、前記解析対象のデータセットに含まれているそれぞれの数値に基づき、前記解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出するステップと、
前記データ処理システムが、前記基準データセットの基線値と前記解析対象のデータセットの基線値との差に基づき、前記閾値を補正した補正閾値を算出するステップと、
前記データ処理システムが、前記解析対象のデータセットに含まれているそれぞれの数値を、前記補正閾値を基準として区別するステップと、を含む請求項１に記載の自動閾値化を用いたデータ処理方法。
前記基準データセット及び前記少なくとも一つの解析対象のデータセットに含まれているそれぞれの数値は、
特定の突然変異を検出するための蛍光試薬が添加され、前記特定の突然変異に相当する遺伝子シーケンスに対するポリメラーゼ連鎖反応（ｐｏｌｙｍｅｒａｓｅｃｈａｉｎｒｅａｃｔｉｏｎ；ＰＣＲ）が行われたそれぞれの液滴（ｄｒｏｐｌｅｔ）を対象にして測定した蛍光信号のサイズの値である請求項１に記載の自動閾値化を用いたデータ処理方法。
前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、
前記データ処理システムが、前記基準データセットに含まれているそれぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成するステップと、
前記データ処理システムが、前記ヒストグラムデータのそれぞれのビンのうち、予め定められたノイズの基準値以下の度数を有するビンの度数が０になるようにするノイズ除去過程を行い、ノイズが除去されたヒストグラムデータを生成するステップと、
前記データ処理システムが、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索するステップと、
前記データ処理システムが、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索するステップと、
前記第１ターゲットビン及び前記第２ターゲットビンの間の数値のうちいずれか一つである前記閾値を算出するステップと、を含む請求項１に記載の自動閾値化を用いたデータ処理方法。
前記データ処理システムが、入力された前記それぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成するステップは、
前記基準データセットに含まれているそれぞれの数値のうち、上位一部の数値及び下位一部の数値を除去した修正データセットを生成するステップと、
前記修正データセットに含まれているそれぞれの数値を用いて、前記ヒストグラムデータを生成するステップと、を含む請求項４に記載の自動閾値化を用いたデータ処理方法。
前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、
ａ）前記データ処理システムが、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成するステップと、
ｂ）前記データ処理システムが、前記ヒストグラムデータを平滑化するステップと、
ｃ）前記データ処理システムが、前記平滑化されたヒストグラムデータを差分するステップと、
ｄ）前記データ処理システムが、差分されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索するステップと、
ｅ）前記データ処理システムが、差分されたヒストグラムデータに基づき、前記基準条件を満たし、かつ、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索するステップと、
ｆ）前記データ処理システムが、前記第１ターゲットビン及び前記第２ターゲットビンの間の値のうちいずれか一つである前記閾値を算出するステップと、を含む請求項１に記載の自動閾値化を用いたデータ処理方法。
前記自動閾値化を用いたデータ処理方法は、
前記データ処理システムが、予め設定されたビンの幅を用いて、前記基準条件を満たす第１ターゲットビンまたは第２ターゲットビンが探索されない場合、前記ビンの幅を一定の数値だけ減らすステップと、
前記データ処理システムが、減ったビンの幅を用いて、前記ａ）ステップ乃至ｅ）ステップを再び行うステップと、をさらに含む請求項６に記載の自動閾値化を用いたデータ処理方法。
前記データ処理システムが、前記入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出するステップは、
ａ）前記データ処理システムが、入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成するステップと、
ｂ）前記データ処理システムが、前記ヒストグラムデータを平滑化するステップと、
ｃ）前記データ処理システムが、平滑化されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索するステップと、
ｄ）前記データ処理システムが、平滑化されたヒストグラムデータに基づき、前記基準条件を満たし、かつ、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索するステップと、を含む請求項１に記載の自動閾値化を用いたデータ処理方法。
データ処理システムにインストールされ、請求項１乃至請求項８のいずれか一項に記載の方法を行うためのコンピュータプログラム。
請求項１乃至請求項８のいずれか一項に記載の方法を行うためのコンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体。
２以上のクラスタを有する基準データセットに含まれている多数の個別数値を入力される入力モジュールと、
入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタを分割するための閾値を算出する閾値算出モジュールと、
少なくとも一つの解析対象のデータセットのそれぞれに対して、多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割する処理モジュールと、を含む自動閾値化を用いたデータ処理システム。
前記自動閾値化を用いたデータ処理システムは、入力された前記基準データセットに含まれているそれぞれの数値に基づき、前記基準データセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出する基線値算出モジュールをさらに含むが、
前記処理モジュールは、前記多数の個別数値を有する前記解析対象のデータセットを、前記閾値を用いて、互いに異なるクラスタに分割するために、
前記解析対象のデータセットに含まれているそれぞれの数値に基づき、前記解析対象のデータセットが有するクラスタのうち、平均値が最も小さいクラスタの基線値を算出し、
前記基準データセットの基線値と前記解析対象のデータセットの基線値との差に基づき、前記閾値を補正した補正閾値を算出し、
前記解析対象のデータセットに含まれているそれぞれの数値を、前記補正閾値を基準として区別する請求項１１に記載の自動閾値化を用いたデータ処理システム。
前記閾値算出モジュールは、
前記基準データセットに含まれているそれぞれの数値を用いて、予め定められたビンの幅を有する複数のビンで構成されたヒストグラムデータを生成し、前記ヒストグラムデータのそれぞれのビンのうち、予め定められたノイズの基準値以下の度数を有するビンの度数が０になるようにするノイズ除去過程を行い、ノイズが除去されたヒストグラムデータを生成し、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索し、前記ノイズが除去されたヒストグラムデータに基づき、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索し、前記第１ターゲットビン及び前記第２ターゲットビンの間の数値のうちいずれか一つである前記閾値を算出する請求項１１に記載の自動閾値化を用いたデータ処理システム。
前記閾値算出モジュールは、前記ヒストグラムデータを生成するために、前記基準データセットに含まれているそれぞれの数値のうち、上位一部の数値及び下位一部の数値を除去した修正データセットを生成し、前記修正データセットに含まれているそれぞれの数値を用いて、前記ヒストグラムデータを生成する請求項１３に記載の自動閾値化を用いたデータ処理システム。
前記閾値算出モジュールは、
入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成し、前記ヒストグラムデータを平滑化し、前記平滑化されたヒストグラムデータを差分し、差分されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索し、前記基準条件を満たし、かつ、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索し、前記第１ターゲットビン及び前記第２ターゲットビンの間の値のうちいずれか一つである前記閾値を算出する請求項１１に記載の自動閾値化を用いたデータ処理システム。
前記閾値算出モジュールは、
予め設定されたビンの幅を用いて、前記基準条件を満たすターゲットビンが探索されない場合、前記ビンの幅を一定の数値だけ減らし、減ったビンの幅を用いて、ヒストグラムデータを再び生成し、再び生成されたヒストグラムデータを用いて、特定のクラスタの終端に存在するターゲットビンを探索する請求項１５に記載の自動閾値化を用いたデータ処理システム。
前記閾値算出モジュールは、
入力された前記それぞれの数値を用いて、前記数値が有し得る数値の範囲を、予め定められたビンの幅を有する複数のビンに分割し、分割されたビンのそれぞれに該当する数値を度数として有するヒストグラムデータを生成し、前記ヒストグラムデータを平滑化し、平滑化されたヒストグラムデータに基づき、所定の基準条件を満たし、かつ、前記基準データセット内の第１クラスタの左側終端に存在する第１ターゲットビンを探索し、前記基準条件を満たし、かつ、前記基準データセット内の第２クラスタの右側終端に存在する第２ターゲットビンを探索し、前記第１ターゲットビン及び前記第２ターゲットビンの間の値のうちいずれか一つである前記閾値を算出する請求項１１に記載の自動閾値化を用いたデータ処理システム。