JP2010009156A - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP2010009156A JP2010009156A JP2008165216A JP2008165216A JP2010009156A JP 2010009156 A JP2010009156 A JP 2010009156A JP 2008165216 A JP2008165216 A JP 2008165216A JP 2008165216 A JP2008165216 A JP 2008165216A JP 2010009156 A JP2010009156 A JP 2010009156A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- candidate
- node
- searching
- expansion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 27
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000001514 detection method Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 description 74
- 230000008569 process Effects 0.000 description 61
- 230000006837 decompression Effects 0.000 description 29
- 238000005065 mining Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 101100189378 Caenorhabditis elegans pat-3 gene Proteins 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 101150101567 pat-2 gene Proteins 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000000547 structure data Methods 0.000 description 3
- 101100232929 Caenorhabditis elegans pat-4 gene Proteins 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 101100518972 Caenorhabditis elegans pat-6 gene Proteins 0.000 description 1
- 101100136834 Mus musculus Plin5 gene Proteins 0.000 description 1
- 101100202291 Mus musculus Slc26a6 gene Proteins 0.000 description 1
- 101001094044 Mus musculus Solute carrier family 26 member 6 Proteins 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 101150017983 Slc36a1 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】情報処理装置のパターン探索手段は、パターンの候補に複数の木構造内で複数回現れるラベルのノードを追加して、該パターンの候補を伸張することによって、該複数の木構造内で複数回現れるパターンの探索を行い、伸張候補探索手段は、前記パターン探索手段によって伸張される前記パターンの候補のノードの候補を探索し、伸張候補検出判定手段は、前記伸張候補探索手段によって探索されたノードの伸張候補の発見可能性を判定し、判定結果保持手段は、前記伸張候補検出判定手段によって判定された伸張候補の発見可能性を保持し、前記パターン探索手段は、前記判定結果保持手段に保持された発見可能性の判定結果を用いて、パターンの探索を行う。
【選択図】図1
Description
しかし、集めた情報の量はしばしば人間の処理能力をはるかに超えるものとなる。このため、せっかく大量に集めた情報からリスクを発見したり、知識を抽出したりして活用することは実際には労力を伴う難しいものであった。
現実社会で発生するデータ、例えば電子文書であるドキュメントの操作履歴などのように人の操作を記録したものでは、たとえ同じ内容の作業を行っても、作業者の操作順などが厳密には一致しないため操作の履歴データの親子関係が厳密に一致することは期待できない。このため、そのようなデータからパターンを抽出するためには、親子関係に揺れが生じたとしてもパターンが抽出できるembedded subTree miningの技術を適用することが望ましい。また、人の操作の記録だけではなく、情報を整理した木構造データのようなものからも埋め込まれている隠れた構造を抽出するためには同様にembedded subTree miningを用いる必要がある。
embedded subTree miningを実現する従来の技術として、例えばTreeMiner、Dryade、MB3−miner、TRIPS、PrefixTreeESpanなどの技術が開示されている。
請求項1の発明は、パターンの候補に複数の木構造内で複数回現れるラベルのノードを追加して、該パターンの候補を伸張することによって、該複数の木構造内で複数回現れるパターンの探索を行うパターン探索手段と、前記パターン探索手段によって伸張される前記パターンの候補のノードの候補を探索する伸張候補探索手段と、前記伸張候補探索手段によって探索されたノードの伸張候補の発見可能性を判定する伸張候補検出判定手段と、前記伸張候補検出判定手段によって判定された伸張候補の発見可能性を保持する判定結果保持手段を具備し、前記パターン探索手段は、前記判定結果保持手段に保持された発見可能性の判定結果を用いて、パターンの探索を行うことを特徴とする情報処理装置である。
しかし、パターン上のあるノードに対して新たな子供ノードとして加えることができるノードはembedded subtree miningの場合にはinduced subtree miningの場合に比べて格段に多くなってしまう上、パターンが大きくなって前記のリーフノードからルートノードにいたるパスが長くなってくると、一つのパス上のノードに付け加えられる可能性のあるノードの種類は膨大なものになってしまう。
しかし、パターンを伸張するパス上の各ノードごとに、その箇所から伸張できるノードを探索する処理が必要となってしまう。すなわち、パターン上の指定されたノードの子供ノードとなりえるツリーデータ内の特定の位置に出現する頻出ラベルを見つける必要が生じることになる。この処理は相応の負荷がかかる処理となる。
本実施の形態は、ツリーの分布に偏りがあるようなツリーデータを対象としたような場合であっても、前述した無駄な処理を削減して効率的にembedded subtree miningを実現するものである。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、一つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、一つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「所定」という用語は、予め定められたの意の他に、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じての意を含めて用いる。
データ入力モジュール110は、データ保持モジュール120と接続されており、図示しない入力装置から木構造情報を含むデータ又は木構造に構成できる情報を含むデータを受け取り、その受け取った木構造データを本実施の形態による処理に適した形式のデータに変換してデータ保持モジュール120に送る。
データ保持モジュール120は、データ入力モジュール110、パターン伸張候補探索モジュール130と接続されており、データ入力モジュール110から木構造データや付随した情報を受け取り保持する。また、パターン伸張候補探索モジュール130の要求に応えてツリーデータに関する情報(以下、単にツリーデータともいう)を返す。
つまり、伸張候補検出判定モジュール140は、パターン伸張候補探索モジュール130によって探索されたノードの伸張候補の発見可能性を判定する。ここで発見可能性とは、対象としているノードにおいて、伸張可能なものであるか否かを示すものであり、具体的には、2値(伸張可能、伸張不可能)を示す符号、その中間値を表す数値等であってもよい。ここでの記憶装置は、伸張候補検出判定モジュール140によって判定された伸張候補の発見可能性を保持する。また、その記憶装置は、伸張候補検出判定モジュール140によって判定された伸張候補の発見可能性を、パターン候補が出現するツリーデータごとに保持するようにしてもよい。
例えば、伸張候補検出判定モジュール140は、兄弟ノードに対する判定処理として、パターン候補上のノードに新たに追加する子ノードの候補がなかったときに、発見可能性を無しと判定する。そして、他の場合には発見可能性をありと判定する。また、伸張候補検出判定モジュール140は、子孫ノードに対する判定処理として、パターン候補上のリーフノードに子ノードとして複数の候補がある、または一つ候補があり各ツリーデータに出現箇所が複数あるものが予め指定された数以上あるときに、発見可能性をありと判定する。そして、他の場合には発見可能性を無しと判定する。
処理を開始すると、頻出ラベルを列挙する(ステップS202)。つまり、データ保持モジュール120内の複数のツリーデータから頻出ラベルを捜索する。
そして、頻出ラベルのうち、未処理ラベルがなくなれば(ステップS204でn)、処理が終了する(ステップS299)。
未処理の頻出ラベルがあれば(ステップS204でy)、それらのうちから一つを選んで(ステップS206)、パターンを作成する(ステップS208)。最初におけるパターンとは、選択したラベルを持つ一つのノードからなるパターンである。
このパターンを指定して、ステップS208で作成したパターンにノードを付け加えて伸張した伸張パターンの探索の処理(ステップS210)に入る。
この繰り返しが未処理の頻出ラベルが無くなるまで繰り返される(ステップS204)。
伸張するもとのパターンと、そのパターンに含まれるノードの出現位置などの情報を入力として処理を開始する。
処理が開始されると、入力されたパターンの情報を出力する。この入力パターンの出力処理は、伸張パターンの探索処理の開始直後でもよいし、処理が終了する直前でもよいし、別の時点で行われてもよく、処理の制御と深く関わらないので、図3に示す処理の流れのなかでの時点を示していない。
特定したパスにはパターンの一つ以上のノードが存在する。これらのノードの中から、子供のノードを持つノードを列挙し(枝の追加を探す箇所の列挙)、未処理の箇所(ノード)があれば(ステップS304でy)続きの処理(ステップS306)を、なければ(ステップS304でn)リーフノードの子孫候補を探索する処理(ステップS324)に移る。
枝の追加を探す未処理のノードがある場合(ステップS304でy)には、いずれかの未処理のノードを選択する(ステップS306)。このとき、選択は先祖子孫関係においてより先祖側のものから選択する、あるいはより子孫側のノードから順番に選択することが処理の効率がよくなる。特により先祖側のものから選択する場合が、本実施の形態による効率化の効果をより発揮することができる。
発見の可能性が無い場合(ステップS308でn)には、この伸張パターンの探索処理から呼び出す伸張パターンの探索所に受け渡すためのデータとして、該当箇所のノードについて伸張ノードの発見が無いことを記録して(ステップS310)、次の繰り返しに移る(ステップS304に戻る)。
次に、探索結果について、伸張ノード(ツリーデータ上での該当する箇所での頻出ラベルに対応し、パターン上の枝の追加を探しているノードに新たに追加するパターン上のノード)が存在したかしなかったかについて結果を記録する(ステップS314)。ここで未処理の伸張ノードが見つからなかった場合(ステップS316でn)には、この伸張パターンの探索処理から新たに起動される伸張パターンの探索処理においても同じ箇所に伸張ノードは見つからない。したがって、次の未処理の箇所に対する処理を行う(ステップS304に戻る)。
この処理(ステップS324)も同様に指定された範囲のノードのラベルの頻出ラベルを探すことで実現することができる。ここでまた、伸張ノードの有無を記録する(ステップS326)。ここでの未処理の伸張ノードがあるという判定(ステップS328でy)は、単に頻出ラベルがあるということではなく、頻出ラベルが複数種類ある、あるいは、頻出ラベルは1種類だけだが、各ツリーデータにおいて指定された範囲での出現箇所が複数あるものが指定された数以上ある場合に、未処理の伸張ノードがある(発見可能性がある)という判定となる。つまり、頻出ラベルが1種類でありかつ出現箇所が複数あるツリーが多くない(頻出であるとの判断に用いる閾値に満たない)場合に、未処理の伸張ノードがない(発見可能性なし)と判定する。したがって、頻出ラベルが複数種類ある場合は、発見可能性ありと判定する。頻出ラベルが1種類だが出現箇所が複数あるツリーが一定数以上ある(頻出であるとの判断に用いる閾値以上ある)場合に、発見可能性ありと判定する。頻出ラベルが1種類かつ、出現箇所が複数あるツリーが一定数未満である場合に、発見可能性なしと判定することとなる。
以降、同様に未処理の伸張ノードがある間(ステップS328でy)、未処理の伸張ノードを一つ選択して、同様に新たなパターンを作成して(ステップS330)、新たに伸張パターンの探索処理を起動すること(ステップS332)を繰り返す。
また、頻出ラベルを探すときに参照するツリーデータごとに伸張ノードの有無の判定を行い、ツリーデータごとにその判定結果を保持してもよい。こうすることで、例えばデータ中90%のツリーデータではラベルZを持つノードのあとに兄弟ノードが無いというような場合に、90%のデータについて兄弟ノードを探す処理を省略することができるようになる。
図5(a)、(b)、(c)は、それぞれ図4(a)、(b)、(c)のラベルをA、B、...の記号に置き換えたものである。つまり、「作成」を「A」、「閲覧」を「B」、「修正」を「C」のようにである。
また、各ノードにはそれぞれを参照するための識別子を記した。例えば、図5(a)、(b)、(c)のルートノードにはv0を割り当て、v3の子孫であり一番左下に位置するリーフノードには図5(a)、(b)、(c)のツリーそれぞれにおいて、v6、v8、v6を割り当てている。
最初に頻出ラベルを探索すると、ラベルGとIは1回のみ出現しているだけであり、他のラベルはそれぞれ3回以上出現しているので、ラベルGとI以外の全てのラベルが頻出となる。このうち、ラベルAを選択して伸張パターン探索の処理に入る例を、図6を用いて説明する。以降、説明の簡単のために、パターン上のノードについては、ラベルAを持つノードを単にAのノード、ノードA、あるいは単にAということもある。
この段階でも多くのラベルが頻出となるが、ここでCを選択する。すなわち、次の入力パターンはAの子供ノードにCが加えられたツリーデータとなる(図6(Pat2)参照)。
次に、枝を追加できる未処理の他のノードは無いので、パターン上のリーフノードCについて子ノードの探索処理に移る。子ノードの出現箇所図5(a)のv1、図5(b)のv1、図5(c)のv1と図5(c)のv5のそれぞれの子孫ノードの範囲での頻出ラベルを探す。頻出ラベルの中から、ここではラベルBを選択する。ここでは他にも頻出ラベルとしてDやFなども列挙されるので、ノードCについて、伸張ノードの存在可能性の判定では発見可能性は否定できないことを記録する。
次の伸張パターンの起動において、入力パターンである図6(Pat3)の中でルートからリーフノードに達するパスは一つしかないので、そのパス(A、C、Bのノードが連なるパス)を特定する。そして、枝を追加するノードを選ぶ。
まず、ノードAを選択する。頻出の可能性を検査すると、このパターンにおいてAの子ノードとなる新たな枝は発見されないという情報が呼び出しもとの伸張パターン探索処理により得られているので、頻出ラベルの発見の無を記録して、次の処理に移る。
このとき、ノードを加えるパスには、リーフノードDとルートノードAを結ぶパスが選ばれるものとする。
ノードAについて追加できる枝を探す処理は、図6(Pat3)に対する処理と同様になる。これは、伸張ノードの発見可能性が否定されている情報を、呼び出しもとの伸張パターン探索処理より得ているためである。ただし、ノードCについて追加できる枝を探す際に発見可能性について検査を行う場合に、判定処理の方式により発見可能性の有無が分かれる。例えば、単に呼び出しもとでの処理で頻出ラベルが一つも見つからなかったか否かで判定している場合には、ここでは発見可能性を否定できない。一方で、Dが出現した出現箇所以降にCの子孫でDの出現箇所を別のパス(左側のパス)上に持つようなノードで出現する頻出ラベルが存在しないことを判定している場合には、ここでは発見可能性が否定される。しかし、いずれの場合にもこの段階でCには追加するノードは見つからないことが記録できる。
次の処理では、入力パターンを図6(Pat7)を入力として処理が行われる。
ノードを加えるパスは、A、C、D、F、E、Hのノードが連なるパスとなり、枝の追加を探すノードはA、C、D、F、Eとなる。なお、Hがない理由は、Hはパターン上でのリーフノードであるためである。これらのうち、それまでの呼び出しもとの伸張パターン探索処理により、A、C、D、Fについて伸張ノードが発見されないことがわかっている。また、判定の方式により、Eについても伸張ノードが発見されないことが呼び出しもとの伸張パターン探索処理で生成されて受け渡された伸張ノードの有無の判定結果を参照することでわかる。これにより、パターン中のノードA、C、D、F(場合によってEも)について枝の追加の探索を省略することができる。そして、ここまでの説明でもパターン中のノード(例えばノードA)について、枝の追加の探索が省略できることに何度も触れているように、この省略される回数はパターンが大きくなるにつれて鼠算的に回数を増す。すなわち、本実施の形態の構成を採用しなかった場合に生じていた非常に多くの無駄な処理を、本実施の形態を採用すれば削減することになる。
次に、Eの子ノードにノードHを加えた図6(Pat8o)の処理に移った場合を想定する。この図6(Pat8o)は、図5(b)のツリーデータでは出現しない。したがって、以降の伸張ノードを探す処理は、図5(a)と(c)のツリーデータについて行う。
なお、図7に示すハードウェア構成は、一つの構成例を示すものであり、本実施の形態は、図7に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図7に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blue−ray Disk)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…データ保持モジュール
130…パターン伸張候補探索モジュール
140…伸張候補検出判定モジュール
150…パターン探索モジュール
160…出力モジュール
Claims (7)
- パターンの候補に複数の木構造内で複数回現れるラベルのノードを追加して、該パターンの候補を伸張することによって、該複数の木構造内で複数回現れるパターンの探索を行うパターン探索手段と、
前記パターン探索手段によって伸張される前記パターンの候補のノードの候補を探索する伸張候補探索手段と、
前記伸張候補探索手段によって探索されたノードの伸張候補の発見可能性を判定する伸張候補検出判定手段と、
前記伸張候補検出判定手段によって判定された伸張候補の発見可能性を保持する判定結果保持手段
を具備し、
前記パターン探索手段は、前記判定結果保持手段に保持された発見可能性の判定結果を用いて、パターンの探索を行う
ことを特徴とする情報処理装置。 - パターンの候補に複数の木構造内で複数回現れるラベルのノードを追加して、該パターンの候補を伸張することによって、該複数の木構造内で複数回現れるパターンの探索を行うパターン探索手段と、
前記パターン探索手段によって伸張される前記パターンの候補のノードの候補を探索する伸張候補探索手段と、
前記伸張候補探索手段によって探索されたノードの伸張候補の発見可能性を判定する伸張候補検出判定手段と、
前記伸張候補検出判定手段によって判定された伸張候補の発見可能性を、前記パターンの候補が出現する木構造ごとに保持する判定結果保持手段
を具備し、
前記パターン探索手段は、前記判定結果保持手段に保持された発見可能性の判定結果を用いて、パターンの探索を行う
ことを特徴とする情報処理装置。 - 前記伸張候補検出判定手段は、
前記パターンの候補上のノードに新たに追加する子ノードの候補がなかったときに、発見可能性を無しと判定する
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記伸張候補検出判定手段は、
前記パターンの候補上のリーフノードに子ノードとして複数の候補がある、又は、一つ候補があり各木構造に出現箇所が複数あるものが予め指定された数以上あるときに、発見可能性をありと判定する
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記伸張候補探索手段は、
ノードの候補の探索をより上位のノードから行い、下位のノードでの処理は、上位のノードの探索によって更新された発見可能性の判定結果を利用して探索を行う
ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。 - コンピュータを、
パターンの候補に複数の木構造内で複数回現れるラベルのノードを追加して、該パターンの候補を伸張することによって、該複数の木構造内で複数回現れるパターンの探索を行うパターン探索手段と、
前記パターン探索手段によって伸張される前記パターンの候補のノードの候補を探索する伸張候補探索手段と、
前記伸張候補探索手段によって探索されたノードの伸張候補の発見可能性を判定する伸張候補検出判定手段と、
前記伸張候補検出判定手段によって判定された伸張候補の発見可能性を保持する判定結果保持手段
として機能させ、
前記パターン探索手段は、前記判定結果保持手段に保持された発見可能性の判定結果を用いて、パターンの探索を行う
ことを特徴とする情報処理プログラム。 - コンピュータを、
パターンの候補に複数の木構造内で複数回現れるラベルのノードを追加して、該パターンの候補を伸張することによって、該複数の木構造内で複数回現れるパターンの探索を行うパターン探索手段と、
前記パターン探索手段によって伸張される前記パターンの候補のノードの候補を探索する伸張候補探索手段と、
前記伸張候補探索手段によって探索されたノードの伸張候補の発見可能性を判定する伸張候補検出判定手段と、
前記伸張候補検出判定手段によって判定された伸張候補の発見可能性を、前記パターンの候補が出現する木構造ごとに保持する判定結果保持手段
として機能させ、
前記パターン探索手段は、前記判定結果保持手段に保持された発見可能性の判定結果を用いて、パターンの探索を行う
ことを特徴とする情報処理プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008165216A JP4935768B2 (ja) | 2008-06-25 | 2008-06-25 | 情報処理装置及び情報処理プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008165216A JP4935768B2 (ja) | 2008-06-25 | 2008-06-25 | 情報処理装置及び情報処理プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010009156A true JP2010009156A (ja) | 2010-01-14 |
| JP4935768B2 JP4935768B2 (ja) | 2012-05-23 |
Family
ID=41589606
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008165216A Expired - Fee Related JP4935768B2 (ja) | 2008-06-25 | 2008-06-25 | 情報処理装置及び情報処理プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4935768B2 (ja) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001134575A (ja) * | 1999-10-29 | 2001-05-18 | Internatl Business Mach Corp <Ibm> | 頻出パターン検出方法およびシステム |
| JP2003006196A (ja) * | 2001-06-27 | 2003-01-10 | Sharp Corp | データ検索装置、方法、プログラム及びデータ構造 |
-
2008
- 2008-06-25 JP JP2008165216A patent/JP4935768B2/ja not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001134575A (ja) * | 1999-10-29 | 2001-05-18 | Internatl Business Mach Corp <Ibm> | 頻出パターン検出方法およびシステム |
| JP2003006196A (ja) * | 2001-06-27 | 2003-01-10 | Sharp Corp | データ検索装置、方法、プログラム及びデータ構造 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4935768B2 (ja) | 2012-05-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102236693B (zh) | 确定文档之间的相似度的方法和设备 | |
| JP2010055483A (ja) | 情報再取得手順生成プログラム及び情報再取得手順生成装置 | |
| JP4682284B2 (ja) | 文書差分検出装置 | |
| US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
| JP5555238B2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
| AU2012201069B2 (en) | Information processing apparatus, information processing method, and information processing program | |
| JP4935768B2 (ja) | 情報処理装置及び情報処理プログラム | |
| JP4957656B2 (ja) | 情報処理装置及び情報処理プログラム | |
| JP4957618B2 (ja) | 情報処理装置及び情報処理プログラム | |
| JP5440043B2 (ja) | 画像処理装置及び画像処理プログラム | |
| KR100907709B1 (ko) | 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법 | |
| JP2009187224A (ja) | 情報処理装置及び情報処理プログラム | |
| JP4134824B2 (ja) | 情報処理装置及びプログラム | |
| JP5910216B2 (ja) | 情報処理装置及び情報処理プログラム | |
| US8788537B2 (en) | Computer readable medium storing information processing program, information processing apparatus, and information processing method | |
| JP5391887B2 (ja) | 情報処理装置及び情報処理プログラム | |
| US20240028328A1 (en) | Storage medium, information processing method, and information processing device | |
| JP5760868B2 (ja) | 情報処理装置及び情報処理プログラム | |
| CN113127861A (zh) | 一种规则命中检测方法、装置、电子设备及可读存储介质 | |
| JP2021002276A (ja) | 分析プログラム、プログラム分析方法およびプログラム分析装置 | |
| US20260017326A1 (en) | Data extraction approach for retail crawling engine | |
| JP5585145B2 (ja) | 修正箇所判別装置、修正箇所判別プログラム、および修正箇所判別方法 | |
| US20130031114A1 (en) | Information processing apparatus, information processing method, and computer readable medium | |
| JP2005078429A (ja) | 図面文書管理システム及びその管理方法 | |
| JP2010176354A (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111021 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111108 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111220 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120124 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120206 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4935768 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |