JP4879178B2 - 自動パターン解析のための方法と装置 - Google Patents

自動パターン解析のための方法と装置 Download PDF

Info

Publication number
JP4879178B2
JP4879178B2 JP2007529054A JP2007529054A JP4879178B2 JP 4879178 B2 JP4879178 B2 JP 4879178B2 JP 2007529054 A JP2007529054 A JP 2007529054A JP 2007529054 A JP2007529054 A JP 2007529054A JP 4879178 B2 JP4879178 B2 JP 4879178B2
Authority
JP
Japan
Prior art keywords
data
mapping
pattern
map
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007529054A
Other languages
English (en)
Other versions
JP2008508645A (ja
Inventor
博 石川
Original Assignee
博 石川
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 博 石川 filed Critical 博 石川
Publication of JP2008508645A publication Critical patent/JP2008508645A/ja
Application granted granted Critical
Publication of JP4879178B2 publication Critical patent/JP4879178B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Description

本発明はデータ解析、特にパターンが発見できるようにデータを配置する方法と装置に関する。
データ管理、データ処理、そしてデータ解析は現代生活及び仕事の上での偏在的要素となっている。科学的、医学的、工学的、そして商業的用途のための膨大なデータの流れの開発、管理、そして保管は、巨大産業となった。バイオテクノロジー、金融、画像、その他のデータのソース、及び需要は、急速に増大している。必ずしもどれが興味ある現象に関係あるか知らないまま、体系的に多数の測定が行われ、大量のデータが自動的に集められている。
したがって、適切な情報を巨大なデータの山から捻り出し、干し草の山の中の針を探すことが益々重要になっている。これは、現在データ解析で使われている多くの技術の背後にある古い仮定と重大な違いを持つ。これらの技術の多くは、例えば科学的知識により前もって丁度適切な変数を測定するなどして精選された、少数の変数を対象にすることを前提にしている。
これらの技術で使われている基本的な方法論は、常に適用可能では既になくなっている。データ解析における以前の方法の基礎をなす理論はデータ要素の数が個別データの次元より遥かに大きいことを前提としている。しかし、今日ではしばしば、データの次元はデータ要素の数より遥かに大きい。そのような場合はもう例外ではなくある意味で常態である。多くの種類の事象について、その事象を数量化する潜在的に非常に多数の測定可能な項目が存在し、その事象の例の数は比較的少ない。一例を挙げれば、多数の遺伝子と、ある遺伝病に罹患する比較的少数の患者の例がある。他例には画像がある。画像は軽く百万次元(画素)を持ちうるが、一組の解析すべきデータとして百万個の画像を処理することは稀である。
従って、高次元データがより効果的に解析されうるように与えられたデータを配置する方法と装置を与えるのが本発明の目的である。与えられたデータ内によりうまくパターンを見つけられるようにそのデータを配置する方法を与えるのも本発明の目的である。
本方法は与えられたデータ内にパターンが発見できるようにそのデータを配置することを可能とする。データを特徴づける写像及びそれが所属する集合を利用して、本方法は多数の「データ項目」を比較的少数の入力データ項目から作り、統計的その他の既存のデータ解析手法を適用することを可能にする。データ又はその一部から写像の集合が決定される。次に、既存の写像を組合せるか、ある種の変換を写像に加えることにより、新しい写像が生成される。次に、それらの写像をデータに適用した結果が調べられパターンが探される。例えば、本発明のある実施形態においては、特定の結果データあるいはデータの集合の頻度が調べられる。場合により随意に、ある強いパターンが選ばれ、理想化され、そのパターンを反映したデータを見つけるために伝播され戻される。すなわち、本発明のパターン解析方法は記憶手段と処理手段を備えた情報処理システムにより実行されるパターン解析方法であって、少なくとも1つの第1データを受信する第1工程と、該第1データを前記記憶手段に記録する第2工程と、該第1データの構造と解釈に応じて少なくとも1つの原始写像を決定する第3工程と、該原始写像を前記記憶手段に記録する第4工程と、前記記憶手段に記録された少なくとも1つの第2データを選択する第5工程と、該第2データから少なくとも1つの第3データを誘導する複数の手続きから少なくとも1つの手続きを選択する第6工程と、該手続きに従い前記第2データから前記第3データを誘導する第7工程と、前記記憶手段に該第3データを記録する第8工程とを有し、前記複数の手続きに、前記記憶手段に記録された少なくとも1つの第1写像を所定の方法により選択し該第1写像を前記第2データに適用することにより前記第3データを誘導することを特徴とする第1手続きと、前記第2データ内に表現された複数の集合の直積を少なくとも1つとり該直積を前記第3データ内に表現することにより該第3データを誘導することを特徴とする第2手続きとを含むことを特徴とする。また、前記第9工程は前記第4データのエントロピーに従って前記第1パターンを探すこととすることもできる。また、前記第1パターンが見つかれば該第1パターンを前記記憶手段に記録する第10工程と、前記記憶手段に記録された少なくとも1つの第2パターンをパターン解析結果として提供する第11工程をさらに有することもできる。また、前記第1パターンが見つかれば該第1パターンに対応する少なくとも1つの第5データを所定の方法により生成し前記記憶手段に記録する第12工程をさらに有することもできる。また、前記第12工程は、前記第4データ内に表現された少なくとも1つの第1確率測度を選択しエントロピーのより低い第2確率測度を該第1確率測度から生成し該第2確率測度を前記第5データ内に表現するか、前記第4データ内に表現された少なくとも1つの第3確率測度を選択し該第3確率測度を集中させて少なくとも1つの第4確率測度を生成し該第4確率測度を前記第5データ内に表現するか、前記第4データ内に表現された少なくとも1つの第5確率測度を選択し該第5確率測度内の少なくとも1つの確率の集中に各々対応した複数の確率測度を生成し該複数の確率測度を前記第5データ内に表現するか、前記第4データ内の近似的に繰り返すパターンをより正確に前記第5データ内に繰り返させるかの少なくとも1つにより前記第5データを生成することとすることもできる。また、前記第1パターンが見つかれば前記第4データに結び付けられた手続き及び写像に従ってパターン写像を決定し前記記憶手段に記録する第13工程をさらに有し、前記第8工程は選択された前記手続きと該手続きで写像が使用されていれば該写像を前記第3データと結び付けて前記記憶手段に記録することとすることもできる。また、一連の工程を所定の条件が満たされるまで繰り返す第14工程をさらに有し、該一連の工程は前記第5ないし14工程のうち前記第14工程以外の少なくとも1つを含むこととすることもできる。また、以上において、前記複数の手続きに、前記記憶手段に記録された少なくとも1つの第2写像を選択し前記第2データ内に表現された少なくとも1つの第1集合の該第2写像による逆像をとり前記第3データ内に該逆像を表現することにより該第3データを誘導することを特徴とする第3手続きをさらに含むこともできる。また、前記複数の手続きに、前記第2データ内に表現された少なくとも1つの第2集合の少なくとも1つの部分集合をとり前記第3データ内に該部分集合を表現することにより該第3データを誘導することを特徴とする第4手続きをさらに含むこともできる。また、前記原始写像が、恒等写像、定数写像、等号写像、積写像、複数の写像の積写像を与える写像、引戻し演算写像、射影写像、対角写像、置換写像、写像合成写像、評価写像、複数の低位写像を組み合わせて高位写像を与える写像、CURRY写像、論理演算写像、ベクトル演算写像、順序写像、汎関数演算写像、固定点演算写像の1つ以上を含むこととすることもできる。
本発明のいくつかの側面の基本的理解を与えるために、以下に本発明の単純化された要約を示す。この要約は本発明の広範囲にわたる概観ではなく、本発明の鍵となるあるいは決定的な要素を指示することや、本発明の範囲を定めることも意図していない。その唯一の目的は、後のより詳細な記述への前触れとして、本発明のいくつかの概念を単純化した態様で示すことにある。
データ
図1にデータ内にパターンを発見する方法のフローチャートを示す。本方法によれば、まず解析されるべきデータが受信される(101)。最も一般的なデータの形態は、遍在する情報処理システムや機器で使われるようなビットの列である。データは通常、何らかの構造と解釈を持つ。例えば、データのある部分は8ビットのグループ毎に一文字と解釈されるテキストデータかもしれない。他の部分は32ビット整数や64ビット浮動小数点数を表すかもしれない。あるいは単一のビットが「yes」又は「no」と解釈されるかもしれない。遺伝子配列を表すデータでは、2ビットでヌクレオチド中の塩基(A,G,C,Tのどれか)を表すかもしれない。データはそれぞれが一組の情報を表すいくつかのレコードに分割されている場合もある。例えば画像データは画素数(幅と高さ)を表す2つの整数と、各画素の色を表す整数の列からなるかもしれない。
表記
以下では、データをもう少し抽象的に取り扱う。整数は、それを表すのに何ビット使われていようが整数と呼ぶ。同様に、浮動小数点数のことは実数と呼び、「yes」と「no」のように二者択一を表すデータは全てブール値と呼ぶ。さらに一般に、以下では各種の集合と写像について言及する。
集合は要素の集まりである。例えば、整数の集合Zは全ての整数を要素に持つ集合である。ブール値の集合boolはtrueとfalseの2つの要素しか持たない。集合はその全ての要素を「{}」内に列挙して表記されることもある。例えばbool={true,false}のように。表記a∈Aはaが集合Aの要素であることを表す。もし集合Bの全ての要素がもう1つの集合Aの要素でもあるならば、BはAの部分集合であり、これをA⊃B(又はB⊂A)と表記する。二つの集合AとBは、もしA⊃BかつB⊃Aならば等しい(A=Bと表記)。Aの部分集合Bは、もしA≠Bならば真部分集合である。
これらの表記を使うことは、本発明が実際に集合という数学的概念を扱うことを意味しない。それは本方法を簡潔に、(これらの表記が概念の記述に、しばしばあまり厳密でなく、使われる)関連技術分野で熟練した者によく知られた表記で記述するためである。例えば、Zのように無限個の要素を持つ集合があり、また(実数のように)正確に指定するには無限の精度を要する要素を持つ集合もあるが、それらは有限の存在である情報システムで日常的に扱われている。これは、普通はそのような集合の有限個の要素しか、各仕事に必要ないからである。また集合は時に記号的に処理され、または近似されることもある。集合や写像を表現し操作するこれらや他の手法は関連技術分野である計算機科学では良く知られている。SETLやMIRANDA等のある種のプログラム言語は集合を言語プリミティブとして持つほどである。また、ここで使われる集合や写像の概念はMLやHASKELのような型付き関数型言語における型と写像の概念に非常に近い。従って、関連技術分野における通常の能力を持つ者は適切な手法を使ってここに開示される本方法を実現することができるであろう。
集合AとBに対して、「A→B」はAからBへの写像の集合を表す。写像とは与えられた集合の各要素に一意の対象を結びつける方法である。つまりAからBへの写像とは、Aの各要素aにただ一つのB内の対象f(a)を与えるような関数のことである。そのような状態は時に「fはaをf(a)に送る(あるいは写像する)」と記述される。表記「f:A→B」はfが集合Aから集合Bへの写像であること、即ちfがA→Bの要素であることを意味する。写像f:A→Bに対して、Aはfの定義域と呼ばれる。
集合Aについて、id:A→AはAの各要素aをそれ白身に送る恒等写像を表す。
集合AとBについて、定数写像const:A→(B→A)はconst(a)(b)=aで定義される。つまり、Aの要素aについて、const(a):B→AはBのどんな要素bもaに送る写像である。
BがAの部分集合である時、包含写像incl:B→Aはincl(b)=bで定義される。
2つの集合AとBについて、A×Bはこの2集合の直積、つまり順序対(a,b)(aはAに、bはBに属する)の集合を表す。同様に、A×B×Cは3集合A、B、Cの直積を表し、以下同様である。一般に別の集合Iでインデックスされた任意の集合族Aの直積は、Πi∈Iまたは、Aが全て等しい時にはAで表される。Πi∈Iの要素は(ai∈Iで表される。ここで各aはAの要素である。有限個の要素を持つ標準集合を次のように表記する。Z={1}、Z={1,2}、...、Z={1,...,n}。以下では、A×BはI=Z、A=A、A=BのときのΠi∈Iの略記と理解されたい。同様に、A×B×CはI=Z、A=A、A=B、A=CのときのΠi∈Iの略記であり、以下同様である。
写像f:A→Bは、各a∈Aについてfのa番目の要素をf(a)と考えることによって、B即ちAでインデックスづけされたBのコピーの直積の要素と考えられる。したがって、A→BはここではBの別名とみなされる。
特別な集合unitが定義される。それはただ1つの要素を持つ。unitによって、集合Aの任意の要素aを、unitの唯一の要素をaに送る写像a:unit→Aとみなすことができる。写像に対してのみに適用可能な写像または操作を集合Aの(写像でない)普通の要素に適用するために、本発明が自動的にこの変換を実行することもある。Aunitあるいはunit→Aという形の集合はAと同一視される。
写像f:A→BとBの要素bについて、fによるbの逆像f−1(b)とは、fによりbに送られるAの要素からなるAの部分集合である。Bの部分集合Cのfによる逆像f−1(C)とは、fによりCの要素に送られるAの要素からなるAの部分集合である。
ある種の写像は再帰的に定義される。つまり、再帰的に定義された写像はその定義にそれ自身を使用する。例えば、階乗関数fac:N→Nは自然数nを、もしnが1ならば1に、それ以外ならばfac(n)のn倍に送る関数として定義される(ここでNは自然数の集合{1,2,3,...}を表す)。
引戻し
2つの積集合Πi∈IとΠj∈Jについて、全てのj∈JについてAh(j)=Bである写像h:J→Iが存在する時、対応する引戻しh:Πi∈I→Πj∈Jが(h((ai∈I))=ah(j)で定義される。この写像の特別な場合に以下がある。
[PB1]Iの任意の部分集合Jについて、h=incl:J→Iとしたh:Πi∈I→Πj∈Jは射影写像を定義する。例えば直積A×Bについて、自然な射影がある:
・proj:A×B→A [proj(a,b)=a]
・proj:A×B→B [proj(a,b)=b]
写像projはh:Πi∈Z2→Πj∈Z1でA=A、A=B、h=incl:Z→Zとしたものと同じである。
[PB2]同じ集合n個のコピーの直積A×A×...×Aについて、対角写像diag:A→A×A×...×Aがdiag(a)=(a,a,...,a)で定義される。これはh:Πi∈Z1→Πj∈ZnでA=A、B=Aとし、h:Z→ZをZ={1,...,n}の全てのjについてh(j)=1で定義したものと同じである。
[PB3]直積A×Bについて、(a,b)を(b,a)に送る交換写像A×B→B×Aがある。同様に任意の数の集合の直積について、成分の順序を変える置換写像がある。これはh:Πi∈Zn→Πj∈Znでhを置換写像としZ={1,...,n}の全てのjについてB=Aとしたものと同じである。
[PB4]2つの写像f:A→Bとg:B→Cについて、合成写像gf:A→CがA内のaについてgf(a)=g(f(a))で定義される。これも引戻しの特別な場合である。これをみるには全てのCとCをCと等しくしてg∈C=Πb∈Bでありgf∈C=Πa∈Aであることを思い出されたい。
[PB5]集合AとB、A内のaについてconst(a):B→AはB内の任意のbをaに送る写像である。J=Zとして定数写像const(a):J→Aとその引戻しconst(a):Πi∈AB→Πj∈JBを考える。それは写像f:A→Bを、そのaでの値f(a)∈Bに写像する。これは、ev(f,a)=f(a)で定義される、写像の値を評価する写像ev:(A→B)×A→Bを定義する。
統計
本発明においては、データを確率測度(確率分布)のような統計として表現すること、あるいはもっと一般に、データの相対頻度を処理することが、特に有用である。一般に、集合Aについて、A上の確率測度PrはAの(事象と呼ばれる)部分集合Bに対して0と1の間の実数Pr(B)を与える。データを確率測度で表すとは以下を意味する。もしあるデータが集合Aの単一の要素aであるなら、それはAの事象Bがaを含むときにはPr(B)=1を与え、それ以外のときPr(B)=0を与える確率測度として表現されうる。あるいはそれはaを中心としたガウス分布のような、概算測度としても表現されうる。同じ集合に属する多くのデータ点があるときには、Aに含まれる全てのデータ点に対するBに含まれるデータ点の比を与える、単純な係数測度Pr(B)として表現されるかもしれないし、あるいは再び、ガウス混合分布やParzen Windowの手法のような概算測度としても表現されうる。情報システムにおけるそのような確率測度の処理及びシミュレーションのための種々の手法が、関連技術分野ではよく知られている。後述のある実施形態においては、頻度係数と呼ばれる具体的な方法が使われる。このように確率測度を使うとき、各週強情の標準測度が必要に応じて使われる。これは、一様分布のように、その集合の、特徴のないデフォルト状態を表す確率測度である。
原始写像
次に、そのデータかそのデータの一部からの写像の集合が決定される(102)。これらの写像は原始写像と呼ばれる。原始写像に含まれる写像は集合上に定義される標準写像の一つかもしれない。例えば、整数の集合Zには、ある整数をその次に数に送る、自身への写像がある。集合Zにはまた加法もある。それはZ×ZからZへの写像として表現さるのだが、これも原始写像の集合に加えられるかもしれない。このように加法写像はZ×Z内の(i,j)をZ内のi+jに送る。従って、データの一部が一つあるいは複数の整数を表していれば、その整数の次の数を与える写像あるいはそれらの整数の和を与える写像が原始写像に含められるかもしれない。ある種の集合らはそれらの間に自然な写像を持つ。例えば、任意の集合Aについて、等しさという概念はA×Aからブール値の集合bool={true,false}への写像を定義する。つまり、A×A内の(u,ν)に対してその写像はu=νであるときに限りtrueを与える。同様に、ある種の集合には順序の概念があり、写像と考えることができる。例えば整数の集合Zに、Z×Z内の(i,j)にi<jのときに限りtrueを与えるZ×Zからboolへの順序写像がある。
以下に集合に自然に随伴し、原始写像の集合に含められるかもしれない写像のいくつかを列挙する。ここでRは実数の集合を表す。
[PM I]任意の集合Aは次の原始写像を持つ:
・恒等写像:id:A→A [id(a)=a]
・定数写像:const:A→(B→A)[const(a)(b)=a](任意の集合Bについて)
[PM II]等しいかどうか簡単に決定できる集合Aについて、等号写像:
・eq:A×A→bool [a=bならeq(a,b)=true、それ以外false]
[PM III]2つの写像f:A→Bとg:C→Dについて、積写像f×g:A×C→B×Dがf×g((a,c))=(f(a),g(c))で定義される。これは原始写像mp:(A→B)×(C→D)→(A×C→B×D)を定義する。
[PM IV]写像に対する引戻し:pullback:(J→D→(Πi∈I→Πj∈J)。これは写像を別の写像に送る。これの特別な場合には射影写像[PB1]、対角写像[PB2]、置換写像[PB3]、写像合成写像[PB4]、評価写像[PB5]が含まれる。
[PM V]低位写像の組み合わせ。Kをインデックスの集合とし、各k∈KについてIもインデックスの集合とする。k∈Kについて既知の写像f:Πi∈Ikk,i→Bがあり、もう一つのインデックス集合Jと、Ak,i≠Am,jのときh(i)≠h(j)であるような写像h:I→Jもあると仮定する。写像F:Πk∈KΠi∈Ikk,i→Πk∈Kとh:L→Jを、FはK内の全てのkについてのfの積集合として、L=Uk∈Kはインデックス集合Iの共通部分のない和集合として、そしてhはI上でhと一致するように、それぞれ定義する。すると、hの引戻しh:Πj∈J→Πk∈KΠi∈Ikk,iとFを合成すると新しい写像F:Πj∈J→Πk∈Kが定義される。
[PM VI]curry写像curry:(A×B→C)→(A→(B→C))は、写像f:A×B→Cを、写像curry(f):A→(B→C)に送るが、これはA内のaをcurry(f)(a)(b)=f(a,b)で定義される写像curry(f)(a):B→Cに送る。逆の操作はuncurry写像uncurry:(A→(B→C))→(A×B→C)で、これは写像g:A→(B→C)を、(a,b)∈A×Bをg(a)(b)に送る別の写像uncurry(g):A×B→Cに送る。これは計算機科学ではよく知られている。
[PM VII]各種の論理演算がある:NOT:bool→bool、AND:bool×bool→bool、OR:bool×bool→bool等。
[PM VIII]Rを含む任意のベクトル空間は次の自然な写像を持つ:
・(加法)Add:V×V→V [Add(u,ν)=u+ν]
・(実数との積)Mult:R×V→V [Mult{a,ν)=aν]
・(減法)Sub:V×V→V [Sub(u,ν)=u−ν] (これは加法と−1倍によって定義できるが、後の記法の簡略化のためにここに含める。)
・(長さ)Len:V→R [Len(ν)=ベクトルνの長さ]
・別のベクトル空間でパラメーターづけられた種々の線形変換:LT:V×U→W
・別のベクトル空間でパラメーターづけられた種々の双線形、trilinear、...等々の形式:
・LF:V×U→R
・BF:V×V×U→R
・TF:V×V×V×U→R
[PM IX]Rは順序の概念を持つ:
・Ord:R×R→bool [a<bならOrd(a,b)=true、それ以外はfalse]
[PM X]ユークリッド空間Eは2点間のベクトルの概念を持つ:
・Diff:E×E→V(Vは同次元のベクトル空間)
[PM XI]Rの部分集合A上の実数値関数のある種の集合U(つまりUはA→Rの部分集合)について、微分写像Der:U→(A→R)は関数をその導関数(微分)に送る。実ベクトル空間の間の写像の様々な微分をとる同様な写像がある。さらに一般に、原始写像として加えられるかもしれないよく知られた数学的変換は他にもある(例えばフーリエ変換)。
[PM XII]固定点演算。写像f:A→Aについて、固定点演算子Fix:(A→A)→Aはその写像のある固定点を与える。つまり、a=Fix(f)はf(a)=aであるようなAの要素である。これは、再帰的に定義される写像を定義するのに使える。例えば、上述の階乗写像fac:N→Nを再帰的でない写像から得ることができる。写像f:N→Nを別の写像F(f):N→Nに送る写像F:(N→N)→(N→N)を次のように定義する。F(f)は自然数nをn=1なら1に、それ以外ならf(n−1)のn倍に送る。このとき、Fix(F)が階乗写像である。固定点演算は全ての写像に適用可能ではないかもしれないことに注意せよ。
原始写像はまた、表現されたデータにもっと特有のものであるかもしれない。もしデータ中のある整数がある人の課税所得を表すなら、その所得に対する税額を与える写像も、アプリケーションの必要に応じて、原始写像として含められるかもしれない。
誘導データと写像
次のステップ(103)では、そのデータと原始写像をもとに、他のデータや写像が生成される。これらの生成法のうちのいくつかは以下の通り。
・2つ以上の集合から積集合を作られ得る。積集合上の確率測度は元の集合上のものから誘導され得る。
・データは写像によって送られ得る。確率測度は写像によって誘導され得る。
・集合の写像による逆像がとられ得る。
・データは部分集合に制限され得る。確率測度も部分集合に制限され得る。
・写像を別の写像に送る写像が適用されて、新しい写像が作られ得る、例えば:
・2つの写像f:A→Bとg:C→Dから、積写像f×g:A×C→B×Dがf×g((a,c))=(f(a),g(c))で定義される。([PM III]参照)
・2つの写像f:A→Bとg:B→Cから、写像gf:A→CがA内のaについて(gf)(a)=g(f(a))で定義される。([PM IV]参照)
・より高位の写像、つまり引数のより多い写像は、多くの対象の間の関係を定義するため重要である。写像を組み合わせてより高位の写像に導くことは、原始写像の殆どは多くても2つの引数しか持たないことから、特に重要である。このように、[PM V]の原始写像は重要である。それは上述した写像の写像を適用する特殊な場合に過ぎないが、ここで例を使って簡単に説明する価値がある。f:A×A→Bを写像とする。高位の写像を作るために、まず積写像を作る:f×f:A×A×A×A→B×B。しかしこれは同じことを2回やっているだけだから、あまり多くの新情報をもたらさない。しかし、g(a,b,c)=f×f(a,b,b,c)で定義されるg:A×A×A→B×Bは3つの引数の間に新しい関係を定義する。これが、[PM V]の原始写像が適用されたときにこの場合に起こることである。
上に列挙したように、本方法の様々な段階で新しいデータと写像を生成するための、方法と源の選び方はたくさんある。アプリケーションと、既に見つかったデータと写像を基に有用なパターンを見つける可能性がよりよくなるように、生成されるデータと写像を選ぶための計画があるべきである。一般に、パターン写像(下記参照)とされた写像は、新しい写像の構成要素として使われるより強い傾向を持つべきである。また、なにかのパターンが見つかった集合は源の集合としてより頻繁に使われるべきである。本発明の実施例で使われている一つの方法を後述する。
パターン
次のステップ(104)では、生成された様々なデータと写像の中にパターンが存在するかどうかが調べられる。これは、繰り返されたデータを見つけたり、確率測度の低いエントロピーのような統計的に有意味な条件を追求したり、比較的少数の要素への確率の集中を検出するなどの、パターン発見のための従来手法のいずれでもを使ってなされる。以下では、その中にパターンが見つかったデータをパターンデータと呼ぶ。
パターンデータは元のデータと生成されたデータに何かの写像を適用した結果である。これらの写像を以下ではパターン写像と呼ぶ。パターン写像はパターン解析に重要である。例えばもし写像をデータに適用した結果がおおまかに繰り返すパターンであるとか、あるいはある確率測度からある写像で誘導された確率測度が低いエントロピーを持っているなら、これらの写像は元のデータを何らかの面で特徴付けている。このパターン写像は類似のデータ中に同じ特徴があるかどうか調べるために適用するのに有用であろう。様々なパターン写像の組合せは、元の集合や各中間段階のデータを特徴付けるかもしれない。
パターンの存在を決定するとき、写像そのものから来るものを考慮に入れねばならない。つまり、もし写像そのものがパターンを作るなら、そのパターンはデータの特徴を表さない。例えば、上述のエントロピーは、何のパターンも持たない何か(例えばパターン写像の定義集合上の標準確率分布等)に同じパターン写像を適用した結果と相対的に評価しなければならない。
バックトラック
場合により随意に、次のステップ(105)では、本方法は前ステップで見つかったパターンデータをとってそのパターンに対応する「理想的」データを生成し得る。まず、(パターンデータが見つかったのと)同じ集合内に、パターンデータを修正することで新しいデータが作られるかもしれない。もしそのパターンデータが、生成された集合上のエントロピーの低い確率測度として見つけられたならば、さらに低いエントロピーを持った理想化された確率測度がその集合上に導入されるかもしれない。そして、パターン写像を通してその理想化された確率測度を誘導する確率測度が見つけられるかもしれない。もし確率の集中が観察されたのなら、理想化はそれをもっと集中するかもしれない。また、もし比較的少数の集中しかないのなら、それぞれ1つの集中を持つ複数の確率測度が、新しいパターンデータとして作られるかもしれない。おおまかに繰り返すパターンは正確に繰り返すパターンにされるかもしれない。
それから、理想化されたパターンの、対応するパターン写像による逆像がとられるかも知れない。元のデータの入っていた集合まで遡る上での中間段階の集合の中の可能なデータの集合がこうして同定される。これは、そのデータがパターン写像によって理想化されたパターン内に送られたときにtrueを与えるその集合上の述語論理を作ることによって実装され得る。また、元のデータのこの集合内にある部分(つまり、対応する述語論理にtrueを与えられる部分)は特に重要である。なぜならこの部分的データは他の写像によって前へ送られて他に何かパターンが現われるかどうか調べられ得るからである。
このようにしてパターンを持つ可能なデータの集合が同定できる。十分多くのパターン使い、そのような逆像の共通部分をとることで、可能なデータの小さな集合あるいはただ1つのデータさえ見つかるかもしれない。
次のステップ(106)では、望ましいデータが出力される。これは見つかったパターンや、それらに対応する「純粋な」データを含むかもしれない。
最後に、プロセスの停止条件が調べられ(107)、もし条件に合わなければプロセスは繰り返す。
データ内にパターンを見つける方法のフローチャートを示す。 探索アルゴリズムのフローチャートを示す。 データ構造FCと、FC内で使われる部分構造を図式的に表す。 理想化プロセスのフローチャートを示す。
以下の記述では、本発明の完全な理解を与えるために、説明の目的で多数の特定細部が提示される。しかし、関連技術分野で熟練した者には、本発明がそれらの特定細部なしでも実施可能であることが明確であり得る。他の場合には、本発明の記述のために、よく知られた構造や装置がブロックダイアグラム中に示される。本発明は様々な形態のハードウェア、ソフトウェア、ファームウェア、特殊用途プロセッサ、あるいはそれらの組合せによって実装され得ることが理解されるべきである。好ましくは、本発明はプログラム記憶装置に有体的に有形化されたアプリケーションプログラムのソフトウェアとして実装されるべきである。そのアプリケーションプログラムは、任意の適当なアーキテクチャからなる機械に読み込まれ、実行され得る。好ましくは、その機械は、1つあるいは複数の中央処理装置(CPU)、ランダムアクセスメモリ(RAM),入出力(I/O)インタフェースのようなハードウェアを持つコンピュータプラットフォーム上に実装されるべきである。そのコンピュータプラットフォームはまたオペレーティングシステムとマイクロ命令コードを含む。本明細書に記述された様々なプロセスや関数は、オペレーティングシステムにを通して実行されるそのマイクロ命令コードか、あるいはアプリケーションプログラム、あるいはそれらの組合せであるかもしれない。加えて、追加のデータ記憶装置や印刷装置など、他の様々な周辺装置がそのコンピュータプラットフォームに接続されるかもしれない。さらに理解されるべきことは、付随する図に描かれたシステム構成要素と方法ステップの一部は好ましくはソフトウェアに実装されるべきなので、本発明がプログラムされる態様に依存して、システム構成要素(あるいは方法ステップ)の間の実際の接続は異なるかもしれないことである。本明細書に記述された本発明の教示によれば、関連技術分野の技術者は、これらのあるいは類似した本発明の実装あるいは配置を企図することができるであろう。
データ
ここでは、データを分析するための本発明の実施例を提示する。明快さのために、関連技術分野の技術者にはよく知られる一定の抽象性が維持される。例えば、集合や写像は、情報システム上のデータとして表現、又は情報システム上のデータによって近似される。
頻度あるいは確率が本発明で以下に操作されるかを描写するため、頻度計数というデータ構造がここに開示される。それは集合上の単純な計数確率測度をモデル化するための具体的方法である。本実施例では、全てのデータはある集合上の頻度計数として表される。
以下では、任意の集合Aについて、A上の頻度計数とは、Aの要素とその数を捉えるデータを意味する。それは、Aのいかなる要素も2度以上現れないようなA×Nの部分集合として扱われる。ここでN={1,2,3,...}つまり自然数の集合である。A上の頻度計数の集合はFreq(A)で表される。従ってA上の頻度計数即ちFreq(A)の要素Fは、Aの要素aと自然数nの組(a,n)の集合Fであって、もし(a,n)を含めば(a,m)の形の他のどんな要素も含まないようなものである。頻度計数内のこれらの組は以下では粒子と呼ばれる。Aの要素aとA上の頻度計数Fについて、count(a)と記述されるaの計数とは、もしF内に(a,n)の形の要素があればnで、なければ0で定義される。mass(F)すなわちFのマスは、A内の全てのaについてのcount(a)の和として定義される。そしてaの確率P(a)は、count(a)をmass(F)で割ったものと定義される。Fの台supp(F)は、count(a)>0であるaからなるAの部分集合と定義される。FのエントロピーH(F)は、supp(F)内の全てのaについての和、−Σa∈supp(F)(a)log(a)で定義される。
後の参考のために次に注意すべきである。
[FC I]2つの頻度計数、A上のFとB上のGから、A×B上の(直積)頻度計数F×Gが次のように生成できる。F×Gは、F内の粒子(a,n)とG内の粒子(b,m)の全ての組合せについて((a,b),nm)という粒子を持つ(A×B)×Nの部分集合である。これは直積確率測度に対応する。
[FC II]写像f:A→Bがあるとき、頻度計数の写像f:Freq(A)→Freq(B)が次のように定義される。頻度計数Fに対して、f(F)は、b=f(a)なる粒子(a,m)が少なくとも1つF内に存在しnはそのような粒子(a,m)全てについてのmの和であるような粒子(b,n)からなる。言い換えれば、集合f(F)は、F内の全ての(a,m)について(f(a),m)を追加し、その後に、同じ第一成分を持つ異なる粒子がなくなるまで、同じbの(b,i)と(b,j)を(b,i+j)で置き換えてゆくことで作られる。これは誘導された確率測度に対応する。
[FC III]もしA⊃BならばFreq(A)⊃Freq(B)である。つまり、B上の頻度計数は自動的にA上の頻度計数である。A⊃BでFがA上の頻度計数であるとき、FのBへの制限F|とは、Fの粒子(a,n)でaがBに含まれるもの全てからなるB上の(従ってA上の)頻度計数である。
[FC IV]A上の2つの頻度計数FとGは、ある数m>0があって、Aの全てのaについてcount(a)=m count(a)であるとき、同値であるといわれる。もしFとGが同値なら、様々な性質がある。mass(F)=m mass(G)、supp(F)=supp(G)、Aの全てのaについてP(a)=P(a)、そしてH(F)=H(G)。
[FC V]集合Aについて、A上の標準頻度計数St(A)は、A内の各aについて粒子(a,l)を持つA×Nの部分集合として定義される。この定義と[FC I]によれば、St(A)×St(B)はSt(A×B)と同一であることに注意せよ。
原始写像
[PM I]以下に列挙された全ての原始写像が、原始写像の集合に含まれる。
誘導データと写像
ロードされたデータと原始写像に基いて、そのデータを特徴付ける様々な集合の可能性を探索するために、他のデータと写像が生成される。始めは、入力データが集合上の頻度計数として表現されたものがある。従ってシステムはその集合に適用可能な写像を試しに適用することから始める。そのような写像を適用した結果は新しいデータである。具体的には、プロセスは次のようなデータ構造を維持する:
・頻度計数の表現を格納するデータ構造FC。それは始め、頻度計数として表現された入力データと、入力データがその上にあるような集合の構成要素として現れる全ての集合Aについて、その標準頻度計数St(A)([FC V]参照)を持つ。(つまり、もし入力データがA×(B→C)上の頻度計数なら、A,B,C,B→C、A×(B→C)上の標準頻度計数がFC内に含まれるであろう。)それはまたboolやunitなどのいくつかの標準的集合上の標準頻度計数も含む。
・集合の記号表現を格納するデータ構造SETS。始めそれはFC内の頻度計数がその上にあるような集合を含む。
・写像の記号表現を格納するデータ構造MAPS。始めそれは原始写像を含む。
過程が続く上で、FC、SETS、MAPSに、以下の何れかの様に要素が加えられる。
[D I]もしFC内に頻度計数の組F、Gがあれば、F×GがFCに加えられ得る([FC I]参照)。3つ以上の頻度計数の組についても同様である。
[D II]もしMAPS内の写像がMAPS内の写像に適用できるなら(例えば[PM III]、[PM IV]、[PM V]、[PM VI]、[PM XII])、適用した結果の写像がMAPSに加えられ得る。例えば、いくつかの写像の組が選ばれてそれらの積写像あるいは可能ならそれらの合成がMAPSに加えられ得る。あるいは任意の写像が他の写像に適用されて結果がMAPSに加えられ得る。
[D III]SETS内の集合の部分集合がSETSに加えられ得る。頻度計数が部分集合に制限されうる。部分集合の逆像がSETSに加えられ得る。Aの部分集合Bについて、部分集合判別写像subset:A→bool(a∈Bならsubset(a)=true、それ以外ならfalseと定義される)がMAPSに加えられ得る。
[D IV]もし集合A上の頻度計数FがFC内に、写像f:A→BがMAPS内にあれば、f(F)がFCに加えられ得る([FC II]参照)。このルールを使って頻度計数がFCに加えられるときは、FCは使われた写像も記録する。
集合を頂点とし、写像を辺として、これらの集合は有向グラフ構造を形成すると考えられる。集合上の頻度計数もまた、頻度計数を頂点とし、写像を辺として、有向グラフ構造を形成すると考えられる。
これらの写像とデータは様々な順番でこれらのデータ構造に加えることができる。例えば、上記の木構造内で幅優先探索の順序を使うことができる。本実施例では、確率的アルゴリズムが使われる:
探索アルゴリズム
概要
以下の1から6の動作の何れかを確率的に実行せよ:
1.FC内の頻度計数FとGの組を選んでF×GをFCに加える。Fが集合A上、Gが集合B上であるとして、A×BをSETSに加える。
2.[D II]に従って写像に適用可能なMAPS内の写像を選んで適用し、結果をMAPSに加える。
3.SETS内の集合Aを選び、Aのある真部分集合BをSETSに加え、subset:A→boolをMAPSに加える。
4.FC内の頻度計数Fを選ぶ。Fが集合A上であるとして、SETS内のAの真部分集合Bを選び、F|をFCに加える。
5.MAPS内の写像f:A→Bを選び、SETS内のBの真部分集合Cを選ぶ。逆像f−1(C)をSETSに加える。
6.FC内の頻度計数Fと、Fが上にある集合から何か他の集合への写像fをMAPS内に選び、f(F)をFCに加える。
詳細
図2は探索アルゴリズムのフローチャートを示す。動作とその対象の選択は確率的になされる。
原始写像
一般的な原始写像に加えて、画像に特に有用な原始写像を加えることもある。例えば、画像が普通そうであるように画素からなれば、画素間の隣接関係が有用であるかもしれない。これはDomの2要素が隣接画素であるときのみtrueを返す原始写像
Nb:Dom×Dom→boolとしてシステムに入れることができる。もう一つの例は、例えばウェーブレットフィルターなどの、画像処理の関連分野で知られる種々のフィルターである。
誘導データと写像
本方法がMAPSとFCに加えそうな写像とデータの簡単な例を挙げる:
A.色頻度
1.A1.[D I]より、2つの頻度計数Dom→Col上のImとDom上のSt(Dom)に基づいて、(Dom→Col)×Dom上の頻度計数Im×St(Dom)がFCに加えられる。
2.A2.[D IV]より、A1からのIm×St(Dom)と(原始写像なのでMAPS内にある)評価写像ev:(Dom→Col)×Dom→Colに基づいて、ev(Im×St(Dom))がFCに加えられる。Col上の頻度計数ev(Im×St(Dom))は粒子(c,n)の集合で、nは色cを持つ画素の数である。
B.色の違いと位置の違いの頻度
1.B1.[D II]により、対角写像diag:(Dom→Col)→(Dom→Col)×(Dom→Col)、積写像mp:(Dom→Col)×(Dom→Col)→(Dom×Dom→Col×Col)、及び対角写像
diag:Dom×Dom→(Dom×Dom)×(Dom×Dom)に基づいて、写像
(mpdiag)×diag:(Dom→Col)×(Dom×Dom)→(Dom×Dom→Col×Col)×(Dom×Dom)×(Dom×Dom)がMAPSに加えられる。
2.B2.[D II]より、評価写像ev:(Dom×Dom→Col×Col)×(Dom×Dom)→Col×Col、及びDom×Domの恒等写像に基づいて、写像
ev×idDom×Dom:(Dom×Dom→Col×Col)×(Dom×Dom)×(Dom×Dom)→(Col×Col)×(Dom×Dom)がMAPSに加えられる。
3.B3.[D II]より、色空間の引算と画像領域の差写像に基づいて、写像
SubCol×DiffDom:(Col×Col)×(Dom×Dom)→Col×VDomがMAPSに加えられる。
4.B4.[D II]によりB1、B2、B3でMAPSに加えられた写像を合成して(SubCol×DifrDom(ev×idDom×Dom((mpdiag)×diag):(Dom→Col)×(Dom×Dom)→Col×VDomがMAPSに加えられる。
5.B5.[D I]により、(Dom→Col)×(Dom×Dom)上の頻度計数Im×St(Dom×Dom)がFCに加えられる。
6.B6.[D IV]により、B4の写像をB5で加えられた頻度計数Im×St(Dom×Dom)に適用した結果がFCに加えられる。
B6で加えられたCol×VDom上の頻度計数は粒子((d,ν),nd,ν)の集合で、nd,νはi)色の違いdを持ち、ii)それらの間の画像領域内でのベクトルがνである、画素の組の数である。
パターン
A2で得られるCol上の頻度計数ev(Im×St(Dom))は、あまり多くの色が使われていないときに小さいエントロピーを持つ。画像全体が一色なら、エントロピーとして可能な最小値0を持つ。
B6で加えられるCol×VDom上の頻度計数は、同じ特定の色の違いと同じベクトルで隔てられたがその組がたくさんあるとき、小さいエントロピーを持つ。例えばもし一つの色の水平な直線があれば、色の違い0と水平ベクトルの粒子に比較的高い集中(計数の高い粒子)があり、この頻度計数のエントロピーは低くなる。
例2:デ−タマトリクス
データマトリクスとはN行D列の直方配列で、各行が異なる観察あるいは固体を与え、各列が異なる属性や変数を与えるものである。各変数は、ここで値集合と呼ぶ何かの集合の要素である値をとることができる。例えば、もし変数が制すうちだけをとり得るなら、値集合は整数の集合である。もし変数が任意の数をとり得るなら、値集合は実数の集合である。あるいは変数が「yes」か「no」の値しかとれないなら、値集合はブール値の集合でありうる。
D個の変数をa,a,...,aで表し、それらの変数が値をとり得る集合をそれぞれX,X,...,Xで表す。すると、各観察は集合X×X×...×Xの要素を与える。データマトリクスの形をとった入力データは、本実施例では各観察が一つの粒子の1計数に寄与するX×X×...×X上の頻度計数として表される。従って頻度計数のマスはNである。
以上のように、高次元データがより効果的に解析され得るように、また与えられたデータ内によりよくパターンを見つけられるように、与えられたデータを配置する方法と装置が開示された。本発明は広い範囲の産業で利用可能である。それらの産業では、ますます多くのデータが収集され、巨大なデータの山から適切な情報を見つけ出すことがますます重要になっている。本発明が有用な分野は、多数の遺伝子と、ある遺伝病に罹患する比較的少数の患者の例、及び用意に百万次元(画素)を持ちうる画像の例を含む。
本明細書には本発明の特定の好ましい特徴のみを説明記述したが、関連技術分野で熟練した者には多くの修正や改変が思い浮かぶであろう。例えば、本発明を説明するためにここで使われた集合や写像の概念は、様々な分野で多くの同値あるいは類似の概念を持つ。例えば、関数、型、メソッド等である。集合や写像などの用語は、望むならば完全に避けることが可能である。本発明全体をデータとサブルーチンの言葉で記述することも可能である。しかし、そのような表面的な違いは、真の違いではない。
従って、添付の特許請求の範囲は、そのような全ての修正、変更、用語の違いを本発明の真の精神のうちに入るものとして全て含むよう意図されたものであることを理解されたい。

Claims (28)

  1. 記憶手段と処理手段を備えた情報処理システムにより実行されるパターン解析方法であって、
    少なくとも1つの第1データを受信する第1工程と、
    該第1データを、データ、写像、およびパターンの記録可能な前記記憶手段上のデータ構造に記録する第2工程と、
    該第1データの構造と解釈に応じて少なくとも1つの原始写像を決定する第3工程と、
    該原始写像を前記データ構造に記録する第4工程と、
    前記データ構造に記録された少なくとも1つの第2データを選択する第5工程と、
    該第2データから少なくとも1つの第3データを誘導する複数の手続きから少なくとも1つの手続きを選択する第6工程と、
    該手続きに従い前記第2データから前記第3データを誘導する第7工程と、
    前記データ構造に該第3データを記録する第8工程と
    を有し、前記複数の手続きに、前記データ構造に記録された少なくとも1つの第1写像を所定の方法により選択し該第1写像を前記第2データに適用することにより前記第3データを誘導することを特徴とする第1手続きと、
    前記第2データ内に表現された複数の集合の直積を少なくとも1つとり該直積を前記第3データ内に表現することにより該第3データを誘導することを特徴とする第2手続きと
    を含むことを特徴とするパターン解析方法であって、
    前記データ構造に記録された少なくとも1つの第4データ内に所定の方法により少なくとも1つの第1パターンを探す第9工程
    をさらに有することを特徴としたパターン解析方法。
  2. 前記第9工程は前記第4データのエントロピーに従って前記第1パターンを探すことを特徴とした請求項1記載のパターン解析方法。
  3. 前記第1パターンが見つかれば該第1パターンを前記データ構造に記録する第10工程と、
    前記データ構造に記録された少なくとも1つの第2パターンをパターン解析結果として提供する第11工程
    をさらに有することを特徴とした請求項1ないし2いずれか1項に記載のパターン解析方法。
  4. 前記第1パターンが見つかれば該第1パターンに対応する理想化されたデータである少なくとも1つの第5データを所定の方法により生成し前記データ構造に記録する第12工程
    をさらに有することを特徴とした請求項1ないし3いずれか1項に記載のパターン解析方法。
  5. 前記第12工程は前記第4データ内に表現された少なくとも1つの第1確率測度を選択しエントロピーのより低い第2確率測度を該第1確率測度から生成し該第2確率測度を前記第5データ内に表現するか、
    前記第4データ内に表現された少なくとも1つの第3確率測度を選択し該第3確率測度を集中させて少なくとも1つの第4確率測度を生成し該第4確率測度を前記第5データ内に表現するか、
    前記第4データ内に表現された少なくとも1つの第5確率測度を選択し該第5確率測度内の少なくとも1つの確率の集中に各々対応した複数の確率測度を生成し該複数の確率測度を前記第5データ内に表現するか、
    前記第4データ内の近似的に繰り返すパターンをより正確に前記第5データ内に繰り返させるか
    の少なくとも1つにより前記第5データを生成することを特徴とした請求項4記載のパターン解析方法。
  6. 前記第1パターンが見つかれば前記第4データに結び付けられた手続き及び写像に従ってパターン写像を決定し前記データ構造に記録する第13工程をさらに有し、
    前記第8工程は選択された前記手続きと該手続きで写像が使用されていれば該写像を前記第3データと結び付けて前記データ構造に記録することを特徴とした請求項1ないし5いずれか1項に記載のパターン解析方法。
  7. 一連の工程を所定の停止条件が満たされるまで繰り返す第14工程をさらに有し、該一連の工程は前記第5ないし14工程のうち前記第14工程以外の少なくとも1つを含むことを特徴とした請求項ないし6いずれか1項に記載のパターン解析方法。
  8. 前記複数の手続きに、
    前記データ構造に記録された少なくとも1つの第2写像を選択し前記第2データ内に表現された少なくとも1つの第1集合の該第2写像による逆像をとり前記第3データ内に該逆像を表現することにより該第3データを誘導することを特徴とする第3手続きをさらに含むことを特徴とした請求項ないし7いずれか1項に記載のパターン解析方法。
  9. 前記複数の手続きに、
    前記第2データ内に表現された少なくとも1つの第2集合の少なくとも1つの部分集合をとり前記第3データ内に該部分集合を表現することにより該第3データを誘導することを特徴とする第4手続きをさらに含むことを特徴とした請求項ないし8いずれか1項に記載のパターン解析方法。
  10. 前記原始写像が、
    恒等写像、定数写像、等号写像、積写像、複数の写像の積写像を与える写像、引戻し演算写像、射影写像、対角写像、置換写像、写像合成写像、評価写像、複数の低位写像を組み合わせて高位写像を与える写像、CURRY写像、論理演算写像、ベクトル演算写像、順序写像、汎関数演算写像、固定点演算写像の1つ以上を含むことを特徴とする請求項ないし9いずれか1項に記載のパターン解析方法。
  11. コンピュータープログラムを含む記憶手段と、該コンピュータープログラムを実行する時に、
    少なくとも1つの第1データを受信する第1工程と、
    該第1データを、データ、写像、およびパターンの記録可能な前記記憶手段上のデータ構造に記録する第2工程と、
    該第1データの構造と解釈に応じて少なくとも1つの原始写像を決定する第3工程と、
    該原始写像を前記データ構造に記録する第4工程と、
    前記データ構造に記録された少なくとも1つの第2データを選択する第5工程と、
    該第2データから少なくとも1つの第3データを誘導する複数の手続きから少なくとも1つの手続きを選択する第6工程と、
    該手続きに従い前記第2データから前記第3データを誘導する第7工程と、
    前記データ構造に該第3データを記録する第8工程と
    を実行するように配置された処理手段を有し、前記複数の手続きに、前記データ構造に記録された少なくとも1つの第1写像を所定の方法により選択し該第1写像を前記第2データに適用することにより前記第3データを誘導することを特徴とする第1手続きと、
    前記第2データ内に表現された複数の集合の直積を少なくとも1つとり該直積を前記第3データ内に表現することにより該第3データを誘導することを特徴とする第2手続きと
    を含むことを特徴とするパターン解析システムであって、
    前記処理手段が前記コンピュータープログラムを実行する時に、
    前記データ構造に記録された少なくとも1つの第4データ内に所定の方法により少なくとも1つの第1パターンを探す第9工程
    をさらに実行するように配置されたパターン解析システム。
  12. 前記処理手段が前記コンピュータープログラムを実行する時に、
    前記第1パターンが見つかれば該第1パターンを前記データ構造に記録する第10工程と、
    前記データ構造に記録された少なくとも1つの第2パターンをパターン解析結果として提供する第11工程
    をさらに実行するように配置された請求項11記載のパターン解析システム。
  13. 前記処理手段が前記コンピュータープログラムを実行する時に、
    前記第1パターンが見つかれば該第1パターンに対応する理想化されたデータである少なくとも1つの第5データを所定の方法により生成し前記データ構造に記録する第12工程をさらに実行するように配置された請求項11ないし12いずれか1項に記載のパターン解析システム。
  14. 前記第12工程は
    前記第4データ内に表現された少なくとも1つの第1確率測度を選択しエントロピーのより低い第2確率測度を該第1確率測度から生成し該第2確率測度を前記第5データ内に表現するか、
    前記第4データ内に表現された少なくとも1つの第3確率測度を選択し該第3確率測度を集中させて少なくとも1つの第4確率測度を生成し該第4確率測度を前記第5データ内に表現するか、
    前記第4データ内に表現された少なくとも1つの第5確率測度を選択し該第5確率測度内の少なくとも1つの確率の集中に各々対応した複数の確率測度を生成し該複数の確率測度を前記第5データ内に表現するか、
    前記第4データ内の近似的に繰り返すパターンをより正確に前記第5データ内に繰り返させるかの少なくとも1つにより前記第5データを生成することを特徴とした請求項13記載のパターン解析システム。
  15. 前記処理手段が前記コンピュータープログラムを実行する時に、
    前記第1パターンが見つかれば前記第4データに結び付けられた手続き及び写像に従ってパターン写像を決定し前記データ構造に記録する第13工程をさらに実行するように配置され、前記第8工程は選択された前記手続きと該手続きで写像が使用されていれば該写像を前記第3データと結び付けて前記データ構造に記録することを特徴とした請求項11ないし14いずれか1項に記載のパターン解析システム。
  16. 前記処理手段が前記コンピュータープログラムを実行する時に、
    一連の工程を所定の停止条件が満たされるまで繰り返す第14工程をさらに実行するように配置され、該一連の工程は前記第5ないし14工程のうち前記第14工程以外の少なくとも1つを含むことを特徴とした請求項11ないし15いずれか1項に記載のパターン解析システム。
  17. 前記複数の手続きに、
    前記データ構造に記録された少なくとも1つの第2写像を選択し前記第2データ内に表現された少なくとも1つの第1集合の該第2写像による逆像をとり前記第3データ内に該逆像を表現することにより該第3データを誘導することを特徴とする第3手続きをさらに含むことを特徴とした請求項11ないし16いずれか1項に記載のパターン解析システム。
  18. 前記複数の手続きに、
    前記第2データ内に表現された少なくとも1つの第2集合の少なくとも1つの部分集合をとり前記第3データ内に該部分集合を表現することにより該第3データを誘導することを特徴とする第4手続きをさらに含むことを特徴とした請求項11ないし17いずれか1項に記載のパターン解析システム。
  19. 前記原始写像が、
    恒等写像、定数写像、等号写像、積写像、複数の写像の積写像を与える写像、引戻し演算写像、射影写像、対角写像、置換写像、写像合成写像、評価写像、複数の低位写像を組み合わせて高位写像を与える写像、CURRY写像、論理演算写像、ベクトル演算写像、順序写像、汎関数演算写像、固定点演算写像の1つ以上を含むことを特徴とする請求項11ないし18いずれか1項に記載のパターン解析システム。
  20. 記憶手段を備えた処理手段によって実行されたとき、パターン解析をするように配置されたソフトウェア・プログラムが記録されたソフトウェア記録媒体であって、該ソフトウェア・プログラムは
    実行されたとき、少なくとも1つの第1データを受信する第1モジュールと、
    実行されたとき、該第1データを、データ、写像、およびパターンの記録可能な前記記憶手段上のデータ構造に記録する第2モジュールと、
    実行されたとき、該第1データの構造と解釈に応じて少なくとも1つの原始写像を決定する第3モジュールと、
    実行されたとき、該原始写像を前記データ構造に記録する第4モジュールと、
    実行されたとき、前記データ構造に記録された少なくとも1つの第2データを選択する第5モジュールと、
    実行されたとき、該第2データから少なくとも1つの第3データを誘導する複数の手続きから少なくとも1つの手続きを選択する第6モジュールと、
    実行されたとき、前記手続きに従い前記第2データから前記第3データを誘導する第7モジュールと、
    実行されたとき、前記データ構造に該第3データを記録する第8モジュールと
    を有し、前記複数の手続きに、
    前記データ構造に記録された少なくとも1つの第1写像を所定の方法により選択し該第1写像を前記第2データに適用することにより前記第3データを誘導することを特徴とする第1手続きと、
    前記第2データ内に表現された複数の集合の直積を少なくとも1つとり該直積を前記第3データ内に表現することにより該第3データを誘導することを特徴とする第2手続きと
    を含むことを特徴とするソフトウェア記録媒体
    であって、
    前記ソフトウェア・プログラムが実行されたとき、前記データ構造に記録された少なくとも1つの第4データ内に所定の方法により少なくとも1つの第1パターンを探す第9モジュール
    をさらに有することを特徴としたソフトウェア記録媒体。
  21. 前記ソフトウェア・プログラムが
    実行されたとき、前記第1パターンが見つかれば該第1パターンを前記データ構造に記録する第10モジュールと、
    実行されたとき、前記データ構造に記録された少なくとも1つの第2パターンをパターン解析結果として提供する第11モジュールと
    をさらに有することを特徴とした請求項20記載のソフトウェア記録媒体。
  22. 前記ソフトウェア・プログラムが
    実行されたとき、前記第1パターンが見つかれば該第1パターンに対応する理想化されたデータである少なくとも1つの第5データを所定の方法により生成し前記データ構造に記録する第12モジュール
    をさらに有することを特徴とした請求項20ないし21いずれか1項に記載のソフトウェア記録媒体。
  23. 前記第12モジュールは、実行されたとき、
    前記第4データ内に表現された少なくとも1つの第1確率測度を選択しエントロピーのより低い第2確率測度を該第1確率測度から生成し該第2確率測度を前記第5データ内に表現するか、
    前記第4データ内に表現された少なくとも1つの第3確率測度を選択し該第3確率測度を集中させて少なくとも1つの第4確率測度を生成し該第4確率測度を前記第5データ内に表現するか、
    前記第4データ内に表現された少なくとも1つの第5確率測度を選択し該第5確率測度内の少なくとも1つの確率の集中に各々対応した複数の確率測度を生成し該複数の確率測度を前記第5データ内に表現するか、
    前記第4データ内の近似的に繰り返すパターンをより正確に前記第5データ内に繰り返させるかの少なくとも1つにより前記第5データを生成することを特徴とした請求項22記載のソフトウェア記録媒体。
  24. 前記ソフトウェア・プログラムが実行されたとき、前記第1パターンが見つかれば前記第4データに結び付けられた手続き及び写像に従ってパターン写像を決定し前記データ構造に記録する第13モジュールをさらに有し、
    前記第8モジュールは選択された前記手続きと該手続きで写像が使用されていれば該写像を前記第3データと結び付けて前記データ構造に記録することを特徴とした請求項20ないし23いずれか1項に記載のソフトウェア記録媒体。
  25. 前記ソフトウェア・プログラムが
    実行されたとき、一連のモジュールを所定の停止条件が満たされるまで繰り返し実行する第14モジュールをさらに有し、該一連のモジュールは前記第5ないし14モジュールのうち前記第14モジュール以外の少なくとも1つを含むことを特徴とした請求項20ないし24いずれか1項に記載のソフトウェア記録媒体。
  26. 前記複数の手続きに、
    前記データ構造に記録された少なくとも1つの第2写像を選択し前記第2データ内に表現された少なくとも1つの第1集合の該第2写像による逆像をとり前記第3データ内に該逆像を表現することにより該第3データを誘導することを特徴とする第3手続きをさらに含むことを特徴とした請求項20ないし25いずれか1項に記載のソフトウェア記録媒体。
  27. 前記複数の手続きに、
    前記第2データ内に表現された少なくとも1つの第2集合の少なくとも1つの部分集合をとり前記第3データ内に該部分集合を表現することにより該第3データを誘導することを特徴とする第4手続きをさらに含むことを特徴とした請求項20ないし26いずれか1項に記載のソフトウェア記録媒体。
  28. 前記原始写像が、
    恒等写像、定数写像、等号写像、積写像、複数の写像の積写像を与える写像、引戻し演算写像、射影写像、対角写像、置換写像、写像合成写像、評価写像、複数の低位写像を組み合わせて高位写像を与える写像、CURRY写像、論理演算写像、ベクトル演算写像、順序写像、汎関数演算写像、固定点演算写像の1つ以上を含むことを特徴とする請求項20ないし27いずれか1項に記載のソフトウェア記録媒体。
JP2007529054A 2004-08-02 2005-08-01 自動パターン解析のための方法と装置 Expired - Fee Related JP4879178B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US59291104P 2004-08-02 2004-08-02
US60/592,911 2004-08-02
PCT/IB2005/052570 WO2006013549A1 (en) 2004-08-02 2005-08-01 Method and apparatus for automatic pattern analysis

Publications (2)

Publication Number Publication Date
JP2008508645A JP2008508645A (ja) 2008-03-21
JP4879178B2 true JP4879178B2 (ja) 2012-02-22

Family

ID=35786908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007529054A Expired - Fee Related JP4879178B2 (ja) 2004-08-02 2005-08-01 自動パターン解析のための方法と装置

Country Status (3)

Country Link
US (2) US20080097991A1 (ja)
JP (1) JP4879178B2 (ja)
WO (1) WO2006013549A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8141044B2 (en) * 2007-11-14 2012-03-20 International Business Machines Corporation Method and system for identifying sources of operating system jitter
US10635639B2 (en) * 2016-11-30 2020-04-28 Nutanix, Inc. Managing deduplicated data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04276785A (ja) * 1991-03-04 1992-10-01 Ricoh Co Ltd 超音波3次元物体認識方式

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5065447A (en) * 1989-07-05 1991-11-12 Iterated Systems, Inc. Method and apparatus for processing digital data
US6341372B1 (en) * 1997-05-01 2002-01-22 William E. Datig Universal machine translator of arbitrary languages
US20040198386A1 (en) * 2002-01-16 2004-10-07 Dupray Dennis J. Applications for a wireless location gateway
US6556199B1 (en) * 1999-08-11 2003-04-29 Advanced Research And Technology Institute Method and apparatus for fast voxelization of volumetric models
US7525583B2 (en) * 2005-02-11 2009-04-28 Hewlett-Packard Development Company, L.P. Decreasing aliasing in electronic images
US7730079B2 (en) * 2005-08-30 2010-06-01 Microsoft Corporation Query comprehensions

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04276785A (ja) * 1991-03-04 1992-10-01 Ricoh Co Ltd 超音波3次元物体認識方式

Also Published As

Publication number Publication date
WO2006013549A1 (en) 2006-02-09
JP2008508645A (ja) 2008-03-21
US20120002888A1 (en) 2012-01-05
US20080097991A1 (en) 2008-04-24

Similar Documents

Publication Publication Date Title
Gleixner et al. MIPLIB 2017: data-driven compilation of the 6th mixed-integer programming library
Pezzotti et al. Approximated and user steerable tSNE for progressive visual analytics
EP2585949B1 (en) Processing related datasets
Mooij et al. Constraint-based causal discovery using partial ancestral graphs in the presence of cycles
US8250116B2 (en) KStore data simulator directives and values processor process and files
Beck et al. Visual comparison of software architectures
US7966346B1 (en) Updating groups of items
JP2016509308A (ja) データレコード選択
Chang et al. Reconciling gene trees with apparent polytomies
US20040148578A1 (en) Method and system for design selection by interactive visualization
Jabbour et al. Mining top-k motifs with a sat-based framework
Hahsler et al. Dissimilarity plots: A visual exploration tool for partitional clustering
JP4879178B2 (ja) 自動パターン解析のための方法と装置
US8572551B2 (en) Difference log production for model merging
Bücher et al. AppGNN: Approximation-aware functional reverse engineering using graph neural networks
Chapman et al. DPDS: assisting data science with data provenance
Johansson et al. A screen space quality method for data abstraction
Bastianelli et al. Consistency conditions and trace anomalies in six dimensions
Puolamäki et al. Visually controllable data mining methods
Thuijsman et al. Transformational supervisor synthesis for evolving systems
Kang et al. Using Design Cohesion to Visualize, Quantify, and Restructure Software.
Debussche et al. A law of large numbers in the supremum norm for a multiscale stochastic spatial gene network
WO2005015430A1 (en) A method of processing data for a system model
Giri et al. Explainable Machine Learning Approach to Yield and Quality Improvements Using Deep Topological Data Analytics
Parkkinen et al. Graph visualization with latent variable models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111129

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees