JP5038939B2 - 情報検索システム、方法及びプログラム - Google Patents
情報検索システム、方法及びプログラム Download PDFInfo
- Publication number
- JP5038939B2 JP5038939B2 JP2008051871A JP2008051871A JP5038939B2 JP 5038939 B2 JP5038939 B2 JP 5038939B2 JP 2008051871 A JP2008051871 A JP 2008051871A JP 2008051871 A JP2008051871 A JP 2008051871A JP 5038939 B2 JP5038939 B2 JP 5038939B2
- Authority
- JP
- Japan
- Prior art keywords
- order
- information
- word
- document
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 abstract 3
- 238000004364 calculation method Methods 0.000 description 18
- 239000002131 composite material Substances 0.000 description 18
- 230000001174 ascending effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000009825 accumulation Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 235000017399 Caesalpinia tinctoria Nutrition 0.000 description 2
- 241000388430 Tara Species 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
・「違う」が「製品」に係る
・「製品」が「届く」に係る
というパターンにマッチする文書を取得することが考慮される。
1.パターン作成は試行錯誤を伴い、しかも、パターン編集から結果閲覧まで逐次処理を要し、効率が悪い。特に、データサイズが大きい場合、編集結果の確認のために、一日以上待つことがある。
2.テキストデータの全体を見渡さないと、どのようなパターンが存在するか分からない。
3.業務に有用なパターンを探す際に、未知のパターンを見つける手掛かりがない。
インデックス作成部204は、上記構文解析済みテキスト・データを読み込み、図4に示すインデックス・ファイルを作成する。これは、図2では、インデックス206と、総称的に示されている。インデックス・ファイルは、ランク・ファイル402と、ノード・アレイ・ファイル404とからなり、ハードディスク・ドライブ108上に書かれる。
xのpreorder > yのpreorder且つ、yのpostorder < xのpostorderである。
depth(B) = depth(F) = 2
depth(C) = depth(E) = depth(G) = depth(J) = 3
depth(D) = depth(H) = depth(I) = 4
クエリ入力部210(図2)は、ユーザまたは外部アプリケーション・プログラムから、以下をパラメータにもつクエリを受理する。
・検索パターン:単語をノードラベルとするツリーで、各ブランチに、ノード最大depth差を意味する正整数属性をもつ。
・検索パターン上のノード・ピボット:検索パターン拡張の基準とする。
・ピボットとの最大depth差を指定する正整数d
・正整数N:取得する拡張ノードラベル候補の最大数。
・フラグ:これがtrueの場合、ピボットの頻出上位ノードを探す。falseの場合、ピボットの頻出下位ノードを探す。一般的に、trueの場合、ピボットは、検索パターンのルートノードになる。
ここで、Npはノードの集合、Bpはブランチ(親ノード,子ノード)の集合、Dはブランチに対して最大depth差を返す関数である。すると、検索パターンPは、以下を満たすとき、
文書T={NT,BT}とマッチする。
フラグ=falseの場合、上記の条件は、m<<m* (M), M<=dとなる。
インデックス読取部208は、図13に示すように、検索部1 1302、検索部2 1304、出現情報読取部1306、トップN計算部1308、及び上位下位判定部1310からなる。
先ず、出現情報読取部1306は、図4に示すインデックスを行単位で読み込み、出現情報配列を作成する。出現情報読取部1306は、検索部1 1302、検索部2 1304から呼び出され、指定された単語の出現情報配列を作成する際は、ランク・ファイル402の該当する単語IDの出願頻度の累積を読み、その情報をオフセットとして用いて、ノード・アレイ・ファイル404の該当行のトップにランダムアクセスし、その後、シーケンシャルアクセスで出現情報配列を読み込む。各単語IDのランク・ファイル402上の位置は,別途保持しているマップ型インデックスで調べる。
そうして、検索の単語文字列wが与えられたら、上記(1)のハッシュで、先ず単語IDを取得する。それから、上記(2)のハッシュで、ランクrを取得する。すると、ランク・ファイル402上での単語wの位置は、
(r - 1) × { ([出現回数の累積]のバイト数) + ([文書数]のバイト数) + ([単語ID]のバイト数) }
で、アクセスできるので、n2 = wの[出現回数の累積]、n1 = wの1つ上位のランクの[出現回数の累積] を読む。
但し、w が最上位のランクの場合 n1=0 とする。
ノード・アレイ・ファイル404の n1 × ([info]ブロックバイト数) から n2 × ([info]ブロックバイト数)をシーケンシャルアクセスで読み、出現情報配列を返す。上記のことは、以下のステップでも、繰り返して説明する。ここで示す[info]は、図4に示されているようなものである。
ステップ1612では、開始ポインタqにpが代入され、pに読み取った出現回数の累積が代入される。
ステップ1614では、ノード・アレイ・ファイル404のq×infoブロックのバイト数から、p×infoブロックのバイト数を読み取る。
ステップ1616では、トップN計算部1308のステップ2(後述する)に、出現情報配列が返される。
1.upper_candidates、lower_candidatesのポインタを0にセットする。
2.upper_candidates、lower_candidatesの現在のポインタの文書IDが等しくなるまで、文書IDが小さい方のポインタを進める。途中で配列の末尾に達したら終了する。
3.文書IDが等しい範囲で、lower_candidatesのdepthがupper_candidatesのdepthより大きくなるまで、lower_candidatesのポインタを進める。途中で文書IDが等しい範囲を超えたらステップ2に戻る。
4.lower_candidatesのdepthが(upper_candidatesのdepth + d)以上の範囲で、lower_candidatesのポインタを進め、upper_candidatesの現在のpreorder/postorderよりもlower_candidatesの現在のpreorder/postorderがそれぞれ大きく/小さくなった箇所で、upper_candidatesとlower_candidatesの出現情報をそれぞれfiltered_upper_candidates、filtered_lower_candidatesに追加する。
5.lower_candidatesのポインタを、ステップ3の時点の位置に戻す。
6.upper_candidatesのポインタを1進め、ステップ2に戻る。
A.preorder < B.preorder且つ、B.postorder < A.postorderを満たすペアを全て見つける、ということである。すると、上記のステップ2は、配列は文書IDでソートされているので、A.文書ID = B.文書IDになるまで配列のポインタを進めることである。
1.暫定トップN集合を空集合で初期化する。
2.インデックス読込部から、未読の単語のうち、インデックスでのソート順でトップの単語Aの出現情報配列を取得する。
3.上位下位判定部で、upper_candidates=Aの出現情報配列、lower_candidates=ピボットの出現情報配列、最大depth差dで、フィルタリングを行い、filtered_upper_candidatesの文書IDを(重複を除いて)カウントする。
4.暫定トップN集合に(A、ステップ3で算出した頻度)のペアを追加する。
5.暫定トップN集合の要素数がNより大きい場合、最も頻度の小さいペアを削除する。
6.インデックスに未読の単語が残っていなければ終了する。
7.インデックスのソート順でトップの未読の単語の頻度が、暫定トップN集合の最も頻度の小さいペアの頻度以下の場合終了する。このときの終了判定に、ランク・ファイル402の文書数が使用される。すなわち、好適には、ランク・ファイル402が、文書数でソートされているため、ファイルを途中までしか読んでいない段階でも、暫定N位のキーワードの文書数が、未読キーワードの文書数以上であれば、検索条件を見るまでもなく以下のキーワードは、ランクに入らないことになる。
8.ステップ2に戻る。
最終的な出力は、終了時点での暫定トップNとなる。flag=falseの場合は、ステップ3においてupper_candidatesとlower_candidatesが入れ替わり、filtered_upper_candidatesがfiltered_lower_candidatesになる。
上記に提示した検索パターンは、検索ヒット対象を限定していく目的のみで作成されていたが、実用的には、表現の言い換えにより検索ヒット対象を拡げるためのOR条件が必要なケースもある。例として、「Windows のインストールに失敗する」ケースを検索する条件として、
(Windows → インストール → できる → ない)
OR (Windows → インストール → 失敗する)
という条件が考えられる。しかし、ここで更に「Windows」にも言い換え表現を指定する場合を考えると、下記のように検索パターン数が組み合わせ爆発を起こし、列挙された検索パターン全てを処理するのでは効率が悪い。
(Windows → インストール → できる → ない)
OR (Windows → インストール →失敗する)
OR (WIN → インストール → できる → ない)
OR (WIN → インストール →失敗する)
OR (ウィンドウズ→ インストール → できる → ない)
OR (ウィンドウズ→ インストール →失敗する)
よって、上記のような複雑なOR条件の検索処理においても、処理が冗長にならない仕組みが必要になる。
parent_candidates=child_candidates=candidates
と定義することで、単語ノードと複合ノードの処理は出現情報読取部の外では、区別せずに扱うことができる。
従来技法では、パターン作成は試行錯誤を伴い、また、パターン編集から結果閲覧までに逐次処理を経由するので、きわめて効率が悪い。
一方、本発明の技法は、検索部2までの結果を用いてパターン検索機として使用することができる。すなわち、インデックスを使っての検索で、パターン作成後から検索結果を得るまでは、1.4GHzのクロックレートのインテル Core(商標)2 DUOのパーソナル・コンピュータで、3.6GB、10万件のデータで、平均1秒以内、検索候補の係り元、係り先のトップNの計算も数秒〜数十秒程度である。図21に、編集サイクルの違いを示す。
一方、本発明の技法では、トップN機能により、高頻度のパターンを優先的に見つけることができる。
一方、本発明の技法では、トップN機能で、興味のある単語の周辺から発見的にトピックを見つけ出せる。以下に例を挙げる。パターンを拡張する際に人間の手を介在できるため、自明なパターンかどうかの判断を行いながらのパターン作成が可能である。
次に、図22以下を参照して、具体的な検索処理の実例を説明する。
図22においては、例えば、下記の6個の文章、すなわちテキスト文をもつものとする。なお、実際はこれよりもはるかに多数の文書を扱うが、説明の便宜上、少ない文書数で説明する。
文書1:店でPCを買った。
文書2:今日電池を買った。
文書3:今日PCを買いたい。
文書4:PCをお店で買ったか、PCを通販で買ったか忘れた。
文書5:昨日、渋谷の店でPCを買った。
文書6:PCはその店で買った。
「を」の出現情報: (1,3,2,3), (2,4,3,3) (3,4,3,3) (4,6,2,6) (4,13,9,6) (5,8,6,4)
「PC」の出現情報: (1,4,1,4) (3,5,2,4) (4,7,1,7) (4,14,8,7) (5,9,6,4) (6,4,1,4)
この処理は、図2のインデックス作成部204によって、図5、図6のフローチャートを用いて、実行される。
「買う」6件
「を」、「PC」、「た」 5件
「で」、「店」 4件
「今日」 2件
「電池」、「通販」、「か」、「の」、「昨日」、「渋谷」、「その」、「は」、「その」 1件
Claims (21)
- コンピュータにより、各々に固有の文書IDが付与された複数の文書データからなるデータベースを検索するシステムであって、
前記複数の文書データが格納される記憶装置と、
前記複数の個々の文書データを、ルート・ノードから始まる構文解析により構造木の形式であらわした場合に、該文書データに含まれる単語毎に、該単語が含まれる文書データの文書IDと、該ルート・ノードから順方向に辿った順番である第1の順番と、該構造木の末端ノードから前記ルート・ノードへ逆方向に辿った順番である第2の順番を含む出現情報を前記記憶装置に格納したインデックス格納手段と、
少なくとも2つの検索すべき単語の情報を受領する受領手段と、
前記受領した単語毎の前記出現情報を、前記インデックス格納手段から読み取る読取手段と、
前記受領した単語のうちの第1の単語の出現情報と、前記受領した単語のうちの第2の単語の出現情報を比較して、それらの間で、文書IDが一致し、且つ前記第1の順番が他方より小さく、且つ前記第2の順番が他方より大きい、一方の出現情報の文書IDを検索する検索手段とを有する、
情報検索システム。 - 前記出現情報は、各単語ID毎に、出現頻度の降順でソートされて、その順でリストされている、請求項1の情報検索システム。
- 前記出現情報が、前記ルート・ノードからの深さの情報をさらに含み、前記検索手段は、前記比較した出現情報の深さの差が所定値以下であるときのみ、前記出現情報の文書IDを返す、請求項1の情報検索システム。
- 少なくとも1つの基点のノードの単語を指定する指定手段と、
該基点のノードの単語の前記出現情報を、前記インデックス格納手段から読み取り、該基点の単語の前記出現情報に関して、文書IDが同一で、且つ前記第1の順番がより大きく、且つ前記第2の順番がより小さく、深さの差が所定値以下である出現情報をもつ単語をリストする手段をさらに有する、請求項3の情報検索システム。 - 前記単語のリストは、該単語の、該当する出現情報の頻度順にリストされる、請求項4の情報検索システム。
- 記憶装置をもつコンピュータにより、各々に固有の文書IDが付与された複数の文書データからなるデータベースを検索する方法であって、
前記個々の複数の文書データを、構文解析により、ルート・ノードから始まる構造木の形式で、前記記憶装置に格納するステップと、
前記個々の複数の文書データを、ルート・ノードから始まる構文解析により構造木の形式であらわした場合に、該文書データに含まれる単語毎に、該単語が含まれる文書データの文書IDと、該ルート・ノードから順方向に辿った順番である第1の順番と、該構造木の末端ノードから前記ルート・ノードへ逆方向に辿った順番である第2の順番を含む出現情報を前記記憶装置に格納するステップと、
少なくとも2つの検索すべき単語の情報を受領するステップと、
前記受領した単語毎の前記出現情報を、前記記憶装置から読み取るステップと、
前記受領した単語のうちの第1の単語の出現情報と、前記受領した単語のうちの第2の単語の出現情報を比較して、それらの間で、文書IDが一致し、且つ前記第1の順番が他方より小さく、且つ前記第2の順番が他方より大きい、一方の出現情報の文書IDを検索するステップとを有する、
情報検索方法。 - 前記出現情報は、各単語ID毎に、出現頻度の降順でソートされて、その順でリストされている、請求項6の情報検索方法。
- 前記出現情報が、前記ルート・ノードからの深さの情報をさらに含み、前記検索手段は、前記比較した出現情報の深さの差が所定値以下であるときのみ、前記出現情報の文書IDを返す、請求項6の情報検索方法。
- 少なくとも1つの基点のノードの単語を指定する指定手段と、
該基点の単語の前記出現情報を、前記記憶装置から読み取り、該基点のノードの単語の前記出現情報に関して、文書IDが同一で、且つ前記第1の順番がより大きく、且つ前記第2の順番がより小さく、深さの差が所定値以下である出現情報をもつ単語をリストするステップをさらに有する、請求項8の情報検索方法。 - 前記単語のリストは、該単語の、該当する出現情報の頻度順にリストされる、請求項9の情報検索方法。
- 記憶装置をもつコンピュータにより、各々に固有の文書IDが付与された複数の文書データからなるデータベースを検索するプログラムであって、
前記コンピュータをして、
前記個々の複数の文書データを、構文解析により、ルート・ノードから始まる構造木の形式で、前記記憶装置に格納するステップと、
前記個々の複数の文書データを、ルート・ノードから始まる構文解析により構造木の形式であらわした場合に、該文書データに含まれる単語毎に、該単語が含まれる文書データの文書IDと、該ルート・ノードから順方向に辿った順番である第1の順番と、該構造木の末端ノードから前記ルート・ノードへ逆方向に辿った順番である第2の順番を含む出現情報を前記記憶装置に格納するステップと、
少なくとも2つの検索すべき単語の情報を受理するステップと、
前記受領した単語毎の前記出現情報を、前記記憶装置から読み取るステップと、
前記受領した単語のうちの第1の単語の出現情報と、前記受領した単語のうちの第2の単語の出現情報を比較して、それらの間で、文書IDが一致し、且つ前記第1の順番が他方より小さく、且つ前記第2の順番が他方より大きい、一方の出現情報の文書IDを検索するステップを実行させる、
情報検索プログラム。 - 前記出現情報は、各単語ID毎に、出現頻度の降順でソートされて、その順でリストされている、請求項11の情報検索プログラム。
- 前記出現情報が、前記ルート・ノードからの深さの情報をさらに含み、前記検索手段は、前記比較した出現情報の深さの差が所定値以下であるときのみ、前記出現情報の文書IDを返す、請求項11の情報検索プログラム。
- 少なくとも1つの基点のノードの単語を指定する指定手段と、
該基点の単語の前記出現情報を、前記インデックス格納手段から読み取り、該基点の単語の前記出現情報に関して、文書IDが同一で、且つ前記第1の順番がより大きく、且つ前記第2の順番がより小さく、深さの差が所定値以下である出現情報をもつ単語をリストするステップをさらに有する、請求項13の情報検索プログラム。 - 前記単語のリストは、該単語の、該当する出現情報の頻度順にリストされる、請求項14の情報検索プログラム。
- 記憶装置をもつコンピュータにより、各々に固有の文書IDが付与された複数の文書データからなるデータベースを検索するための、インデックス作成方法であって、
前記個々の複数の文書データを、構文解析により、ルート・ノードから始まる構造木の形式で、前記記憶装置に格納するステップと、
前記個々の複数の文書データを、ルート・ノードから始まる構文解析により構造木の形式であらわした場合に、該文書データに含まれる単語毎に、該単語が含まれる文書データの文書IDと、該ルート・ノードから順方向に辿った順番である第1の順番と、該構造木の末端ノードから前記ルート・ノードへ逆方向に辿った順番である第2の順番を含む出現情報を前記記憶装置に格納するステップとを有する、
データベースのインデックス作成方法。 - 前記出現情報は、各単語ID毎に、出現頻度の降順でソートされて、その順でリストされている、請求項16のインデックス作成方法。
- 前記出現情報が、前記ルート・ノードからの深さの情報をさらに含む、請求項16のインデックス作成方法。。
- 記憶装置をもつコンピュータにより、各々に固有の文書IDが付与された複数の文書データからなるデータベースを検索するための、インデックス作成用プログラムであって、
前記個々の複数の文書データを、構文解析により、ルート・ノードから始まる構造木の形式で、前記記憶装置に格納するステップと、
前記個々の複数の文書データを、ルート・ノードから始まる構文解析により構造木の形式であらわした場合に、該文書データに含まれる単語毎に、該単語が含まれる文書データの文書IDと、該ルート・ノードから順方向に辿った順番である第1の順番と、該構造木の末端ノードから前記ルート・ノードへ逆方向に辿った順番である第2の順番を含む出現情報を前記記憶装置に格納するステップとを有する、
データベースのインデックス作成用プログラム。 - 前記出現情報は、各単語ID毎に、出現頻度の降順でソートされて、その順でリストされている、請求項19のプログラム。
- 前記出現情報が、前記ルート・ノードからの深さの情報をさらに含む、請求項19のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008051871A JP5038939B2 (ja) | 2008-03-03 | 2008-03-03 | 情報検索システム、方法及びプログラム |
US12/396,876 US8171052B2 (en) | 2008-03-03 | 2009-03-03 | Information search system, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008051871A JP5038939B2 (ja) | 2008-03-03 | 2008-03-03 | 情報検索システム、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009211263A JP2009211263A (ja) | 2009-09-17 |
JP5038939B2 true JP5038939B2 (ja) | 2012-10-03 |
Family
ID=41013927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008051871A Expired - Fee Related JP5038939B2 (ja) | 2008-03-03 | 2008-03-03 | 情報検索システム、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8171052B2 (ja) |
JP (1) | JP5038939B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8375061B2 (en) * | 2010-06-08 | 2013-02-12 | International Business Machines Corporation | Graphical models for representing text documents for computer analysis |
JP2012212422A (ja) * | 2011-03-24 | 2012-11-01 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
US8990175B2 (en) | 2012-02-07 | 2015-03-24 | Dassault Systemes Americas Corp. | Related data dependencies |
JP5921379B2 (ja) * | 2012-08-10 | 2016-05-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | テキスト処理方法、システム及びコンピュータ・プログラム。 |
DE102013003055A1 (de) * | 2013-02-18 | 2014-08-21 | Nadine Sina Kurz | Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache |
CN103530067B (zh) * | 2013-10-09 | 2017-06-09 | 华为技术有限公司 | 一种数据操作的方法和设备 |
CN104679778B (zh) * | 2013-11-29 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 一种搜索结果的生成方法及装置 |
US9836529B2 (en) * | 2014-09-22 | 2017-12-05 | Oracle International Corporation | Semantic text search |
CN104484481B (zh) * | 2014-12-26 | 2018-01-02 | 上海携程商务有限公司 | 票务订单的数据匹配方法、装置及系统 |
CN105991671A (zh) * | 2015-01-28 | 2016-10-05 | 中兴通讯股份有限公司 | 一种存储文件的方法和服务器 |
US10423623B2 (en) * | 2015-02-05 | 2019-09-24 | Sap Se | Hierarchy modeling and query |
SG10201503755QA (en) * | 2015-05-13 | 2016-12-29 | Dataesp Private Ltd | Searching large data space for statistically significant patterns |
CN106940675B (zh) * | 2016-01-05 | 2020-05-19 | 佛山市顺德区顺达电脑厂有限公司 | 系统日志查询方法 |
US10528661B2 (en) * | 2016-02-11 | 2020-01-07 | International Business Machines Corporation | Evaluating parse trees in linguistic analysis |
CN111666753B (zh) * | 2020-05-11 | 2023-04-18 | 清华大学深圳国际研究生院 | 基于全局和局部匹配的短文本匹配方法及系统 |
CN114491164B (zh) * | 2022-01-17 | 2022-12-09 | 广州市玄武无线科技股份有限公司 | 一种树形数据处理方法及系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2768921B2 (ja) * | 1994-09-13 | 1998-06-25 | 株式会社東芝 | データ検索装置、データ処理装置、データ検索方法及びデータ処理方法 |
JP3353829B2 (ja) * | 1999-08-26 | 2002-12-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 膨大な文書データからの知識抽出方法、その装置及び媒体 |
JP2001134575A (ja) | 1999-10-29 | 2001-05-18 | Internatl Business Mach Corp <Ibm> | 頻出パターン検出方法およびシステム |
US7114123B2 (en) | 2001-02-14 | 2006-09-26 | International Business Machines Corporation | User controllable data grouping in structural document translation |
JP4332356B2 (ja) * | 2003-01-22 | 2009-09-16 | キヤノン株式会社 | 情報検索装置及び方法並びに制御プログラム |
JP2005284723A (ja) * | 2004-03-30 | 2005-10-13 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
JP2005352817A (ja) * | 2004-06-11 | 2005-12-22 | Fuji Xerox Co Ltd | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
US7533088B2 (en) * | 2005-05-04 | 2009-05-12 | Microsoft Corporation | Database reverse query matching |
JP4489029B2 (ja) * | 2006-02-01 | 2010-06-23 | 株式会社東芝 | 構造化文書検索システムおよび構造化文書検索方法 |
JP2007317139A (ja) | 2006-05-29 | 2007-12-06 | Fuji Xerox Co Ltd | 文書データ解析装置および方法 |
-
2008
- 2008-03-03 JP JP2008051871A patent/JP5038939B2/ja not_active Expired - Fee Related
-
2009
- 2009-03-03 US US12/396,876 patent/US8171052B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8171052B2 (en) | 2012-05-01 |
JP2009211263A (ja) | 2009-09-17 |
US20090222407A1 (en) | 2009-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5038939B2 (ja) | 情報検索システム、方法及びプログラム | |
JP5376163B2 (ja) | 文書管理・検索システムおよび文書の管理・検索方法 | |
US7516125B2 (en) | Processor for fast contextual searching | |
US7809551B2 (en) | Concept matching system | |
US9519706B2 (en) | Multiple rule development support for text analytics | |
US8135717B2 (en) | Processor for fast contextual matching | |
US8781817B2 (en) | Phrase based document clustering with automatic phrase extraction | |
EP0378848A2 (en) | Method for use of morphological information to cross reference keywords used for information retrieval | |
JPH11120203A (ja) | データベースを合併する方法およびデータベースからドキュメントを検索する装置 | |
US7024405B2 (en) | Method and apparatus for improved internet searching | |
JPH0844771A (ja) | 情報検索装置 | |
US7949656B2 (en) | Information augmentation method | |
JP2005242416A (ja) | 自然言語文の検索方法および検索装置 | |
US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP4378106B2 (ja) | 文書検索装置、文書検索方法及びプログラム | |
KR100659370B1 (ko) | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
Dhanapal | An intelligent information retrieval agent | |
JP2000003366A (ja) | 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体 | |
JPH08190571A (ja) | 文書検索方法 | |
JPH0612451A (ja) | 例文検索システム | |
Wouda | Similarity between Index Expressions | |
JPH03229367A (ja) | テキストベース検索方式 | |
JP2006163723A (ja) | ドキュメント検索方法 | |
JP2006018584A (ja) | 構造化文書管理システム、値索引生成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101027 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120612 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120706 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150713 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |