JP5140524B2 - 文検索装置,文検索プログラム,文検索方法 - Google Patents

文検索装置,文検索プログラム,文検索方法 Download PDF

Info

Publication number
JP5140524B2
JP5140524B2 JP2008232205A JP2008232205A JP5140524B2 JP 5140524 B2 JP5140524 B2 JP 5140524B2 JP 2008232205 A JP2008232205 A JP 2008232205A JP 2008232205 A JP2008232205 A JP 2008232205A JP 5140524 B2 JP5140524 B2 JP 5140524B2
Authority
JP
Japan
Prior art keywords
sentence
case
sentences
search
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008232205A
Other languages
English (en)
Other versions
JP2010066975A (ja
Inventor
博司 楢崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Priority to JP2008232205A priority Critical patent/JP5140524B2/ja
Publication of JP2010066975A publication Critical patent/JP2010066975A/ja
Application granted granted Critical
Publication of JP5140524B2 publication Critical patent/JP5140524B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は,複数の検索対象文が順に並ぶ検索対象文集合から所望の文を検索して出力する文検索装置,文検索プログラム及び文検索方法に関するものである。
文書データにはそれぞれ複数の語句を含む複数の文(句点で区分される語句の集合)が含まれる。従来,コンピュータにより,検索対象となる文書データに含まれる複数の文(検索対象文)の中から,所定のキーワードを含む文を検索して出力する処理を実行することが行われている。
例えば,特許文献1や特許文献2には,入力された文に含まれるキーワードやそれをさらに拡張したキーワードを抽出或いは生成し,そのキーワードを含む文を文書データの中から検索することについて示されている。
また,特許文献3には,文と文との一致度合いの判別を,それらの文構造に基づいて行うことについて示されている。これにより,複数の検索対象文の中から所望の文を検索する場合に,特定のキーワード(語句)を含む文を検索するのではなく,検索条件として入力した事例文と内容(文としての内容)の一致度(近似度或いは類似度ともいえる)が高い文を検索することができる。
ところで,雑多な文章情報の中から興味のある一部の文章を検索するために,一部の内容(語句)を不確定の(曖昧な)状態にした事例文を指定し,その事例文の内容と一致度合いの高い(近似する)文章を,検索対象の文書データの中から検索したいというニーズがある。さらに,個々の事例文との一致度合いの評価だけではなく,複数の事例文の相対的な位置関係(文章内で登場する順序)を指定し,その位置関係を満たしているかについても評価しつつ,検索対象の文書データの中から文章を検索したいというニーズもある。
即ち,一部の語句が不確定の状態(いわゆるワイルドカードの記号が含まれる状態)の複数の事例文と,文章中におけるそれら事例文の相対的な位置関係(登場する位置の前後関係)とを指定し,比較的長い検索対象となる文章,即ち,複数の検索対象文が順に並ぶ検索対象文集合から,指定された事例文の内容に沿う一部の文章(文の集合)を検索したいというニーズがある。この場合,複数の前記事例文の相対的な位置関係(並び順)が,検索結果として得たい文章の文脈を表す指標となる。従って,上記ニーズは,いわゆるワイルドカードを含む複数の事例文とそれらの相対的な位置関係とが指定された場合に,複数の検索対象文が順に並ぶ検索対象文集合(検索対象文章ともいえる)において,前記事例文それぞれと一致度の高い複数の検索対象文が,指定された相対的な位置関係(前後関係)で登場するときに,それら複数の検索対象文の組合せを,より優先して検索結果に含めたいというニーズであるといえる。
また,前記事例文は,様々な表現形態で並列に指定できることが望ましい。
例えば,多様な文書データの中から,何らかの設備の故障や異常の発生に対応して設備の交換を行った旨の文章を検索したい場合を考える。この場合,文書データの中で,「??が発生した。」又は「??を検出した。」という2文のいずれかが登場し,さらにその後の所定範囲内(例えば,後続する5つの文の範囲内)に,「??を交換した。」という文が登場している,という検索条件を指定できることが望ましい。なお,「??」はワイルドカードを表す。
特開平8−161354号公報 特開2007−65745号公報 特開2002−297592号公報
しかしながら,特許文献1〜3に示される技術はいずれも,複数の検索対象文の中から,指定されたキーワードを含む文や指定された事例文に近似する文を検索結果として出力するものである。そのため,特許文献1〜3に示される技術は,ワイルドカードを含む複数の事例文及び所望の文脈を表すそれら事例文の並び順(相対的な位置関係)が指定された場合に,その両者について一致度の高い文章(文の集合)を検索したいというニーズに対応できないという問題点があった。また,特許文献1〜3に示される技術は,並び順が指定される各事例文を,様々な表現形態で並列に指定したいというニーズにも対応できない。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,多様な表現で指定されたワイルドカードを含む複数の事例文と,それら事例文の並び順とが指定された場合に,その両者について一致度の高い文章(文の集合)を検索対象の文章データから検索したいというニーズに対応することができる文検索装置,文検索プログラム及び文検索方法を提供することにある。
上記目的を達成するために本発明に係る文検索装置は,記憶手段に記憶され複数の検索対象文が順に並ぶ検索対象文集合から所望の文を検索して出力する装置であり,次の(1)〜(4)に示される各構成要素を備えるものである。
(1)検索結果に含めたい文を例示する文であって不確定の語句を意味する特定の記号を語句の一部として有する複数の事例文と,その事例文を複数に区分するとともに異なる区分に属する前記事例文相互間の相対的な位置関係の条件を表す事例文位置条件情報と,を含む事例文情報を入力して記憶手段に記録する事例文情報入力手段。
(2)前記検索対象文と前記事例文とを比較し,その比較の際に前記事例文における前記特定の記号については前記検索対象文における語句との間で文法上の格の一致を語句の一致とみなしつつ,予め設定された文の一致の評価規則に従って前記検索対象文と前記事例文との一致度合いの指標値である文一致度を算出する文一致度算出手段。
(3)前記検索対象文の組合せの中から,それらの前記文一致度が所定の一致条件を満たし,かつ,前記検索対象文集合内での相対的な位置関係が,前記所定の一致条件を満たす前記文一致度それぞれに対応する前記事例文の組合せについて前記事例文位置条件情報が表す相対的な位置関係の条件を満たすものである条件満足文の組合せを特定する条件満足文組合せ特定手段。
(4)前記条件満足文の組合せそれぞれについて,それに対応する前記事例文の組合せに対する前記文一致度に応じて当該条件満足文の組合せを検索結果として出力するか否かの判別及び検索結果として出力する優先順位の判別の一方又は両方を行う条件満足文出力判別手段。
なお,「情報を入力」とは,キーボードやマウス等の操作部に対する操作に応じて情報を入力することの他,通信手段を通じて外部装置から情報を入力することや,ハードディスクやDVD等の情報記録媒体に記録(記憶)された情報を読み出して入力すること等,各種の情報入力の態様を含むことを意味する。
同様に,「出力する」とは,通信手段を通じて外部装置に情報を送信することの他,表示部に情報を表示することや,ハードディスクやDVD等の情報記録媒体に情報を記録する(記憶させる)こと等,各種の情報出力の態様を含むことを意味する。
また,本明細書において,「一致度が高い」,「一致度が低い」という記載は,「一致度」を表す数値の高低を意味するものではなく,「一致している度合い」の高低を意味するものである。従って,例えば,「一致度」の数値が小さいほど「一致している度合い」が高いことを意味する場合や,「一致度」がa,b,c,d…等の評価ランクとして表現される場合等も考えられる。
本発明においては,前記検索対象文集合から,いわゆるワイルドカードに相当する前記特定の記号を含む事例文の組合せに対して一致度の高い検索対象文の組合せのうち,その組合せに属する検索対象文の相対的な位置関係が,入力された前記事例文位置条件情報における関係を満たす前記条件満足文の組合せが特定され,それらが優先的に検索結果に反映されることになる。これにより,ワイルドカード(前記特定の記号)を含む複数の事例文と,それら事例文の並び順とが前記事例文情報として指定された場合に,その両者について一致度の高い文章(文の集合)を検索対象の文章データから検索したいというニーズに対応することができる。また,区分ごとに前記事例文を様々な表現形態の文で指定することが可能である。
例えば,本発明に係る文検索装置が,さらに,次の(5)に示す構成要素を備えればなお好適である。
(5)前記検索対象文及び前記事例文それぞれについて,構文解析処理を施すことにより文中における文法上の属性と語句との対応関係を表す構文解析結果情報を生成する構文解析手段。
この場合,予め設定された前記文の一致の評価規則が,前記検索対象文と前記事例文との間で前記構文解析結果情報を比較した結果を前記文一致度に反映させる評価規則を含む。
これにより,複数の前記検索対象文の中から,積極的な検索条件を表す複数の前記事例文それぞれに対し文としての内容(例えば,構文解析結果)の一致度が高い文が検索される。
なお,前記文法上の属性が,文法上の格,品詞,語句の時制,受動態か能動態か,肯定形の語句か否定形の語句か,及び1つの文に複数の単文が含まれる場合におけるある語句が属する単文の他の単文に対する文法上の階層関係の深さのうちの1つ又は複数を含むことが考えられる。
ところで,大量の情報の中から所望の情報を抽出する場合,抽出された情報とそれ以外の情報との区別の明確性(以下,選別性という)が高いことと,必要に応じて情報の抽出条件(検索条件)を緩めること等により,十分な量の情報が得られることとが重要である。
そして,本発明においては,前記文の一致の評価規則に応じて,比較的高い一致度が得られやすくなったりそうでなかったりする。
例えば,前記文の一致の評価規則が,比較対象の2つの文(前記事例文及び前記検索対象文)における前記特定の記号を除く残り全ての部分について,表現の完全一致を前記文一致度を高める必須要件とする評価規則であれば,ごく一部の検索対象文について高い前記文一致度が得られても,その他の検索対象文についてはごく低い前記文一致度しか得られない。この場合,前記事例文に対して一致度の高い検索対象文とそれ以外の検索対象文との間の前記選別性が高い状況であるものの,欲しい情報がほとんど得られない情報量不足になりがちである。
一方,前記文の一致の評価規則が,比較対象の2つの文に類義語やカテゴリの同じ語句が存在する場合でも前記文一致度を高めるという評価規則であれば,多くの検索対象文について,比較的高い前記文一致度が得られやすくなる。この場合,前記事例文に類似する検索対象文まで広い範囲で多くの情報量が得られるものの,前記選別性が低い(乏しい)状況となる。
そこで,本発明に係る文検索装置が,さらに,次の(6)に示す構成要素を備えればなお好適である。
(6)予め設定された複数の前記文の一致の評価規則の候補それぞれに従って前記文一致度算出手段により算出された前記候補ごとの前記文一致度を,前記候補ごとに上位の所定数のものとそれ以外のものとを比較することにより,前記候補ごとの前記文一致度の中から前記条件満足文組合せ特定手段により参照される前記文一致度を選択する文一致度選択手段。
上位所定数の前記文一致度とそれ以外の前記文一致度とを比較すれば,前記文の一致の評価規則の候補それぞれの下での前記選別性を評価できる。また,一般に,前記選別性が低い状況であるほど,多くの情報量が得られる状況であることが多い。また,上位所定数の前記文一致度から,そのときの前記文の一致の評価規則の候補の下で十分な情報量が得られるか否かを評価することもできる。
従って,前記文一致度選択手段によれば,複数の前記文の一致の評価規則の候補それぞれに従って算出された前記文一致度の中から,前記選別性と情報量とのバランスの良い検索結果が得られるような前記文一致度を選択することができる。
例えば,本発明に係る文検索装置が,前述した(6)の構成を備える場合,次の(6−1)及び(6−2)に示される構成の一方又は両方を備えることが考えられる。
(6−1)本発明に係る文検索装置が,前記検索対象文及び前記事例文に含まれる語句について,類似する語句が対応付けられて記憶手段に記憶された類義語情報に基づいて類義語であるか否かを判別する類義語判別手段を備える。
この場合,予め設定された前記文の一致の評価規則の候補に,前記構文解析結果情報の比較において比較対象となる2つの語句についての前記類義語判別手段の判別結果を前記文一致度に反映させる評価規則の候補と反映させない評価規則の候補とが含まれる。
(6−2)本発明に係る文検索装置が,前記検索対象文及び前記事例文それぞれに含まれる語句について,記憶手段に記憶されたシソーラス辞書の情報に基づいてカテゴリを判別するカテゴリ判別手段を備える。
この場合,予め設定された前記文の一致の評価規則に,前記構文解析結果情報の比較において比較対象となる2つの語句についての前記カテゴリ判別手段の判別結果を前記文一致度に反映させる評価規則の候補と反映させない評価規則の候補とが含まれる。
また,予め設定された前記文の一致の評価規則の候補に,前記検索対象文と前記事例文との間での語句の一致の評価において,前記構文解析結果情報を比較した結果を前記文一致度に反映させる評価規則の候補と反映させない評価規則の候補とが含まれることも考えられる。
また,本発明は,以上に示した本発明に係る文検索装置が備える各構成要素が実行する処理をコンピュータに実行させるための文検索プログラム(記憶手段に記憶された複数の検索対象文の中から所望の文を検索し,検索結果を情報出力手段を通じて出力する処理をコンピュータに実行させるための文検索プログラム)として捉えることもできる。
同様に,本発明は,以上に示した本発明に係る文検索装置が備える各構成要素が実行する処理をコンピュータによって実行する文検索方法(記憶手段に記憶された複数の検索対象文の中から所望の文を検索し,検索結果を情報出力手段を通じて出力する処理をコンピュータに実行する文検索方法)として捉えることもできる。
本発明によれば,多様な表現で指定されたワイルドカード(前記特定の記号)を含む複数の事例文と,それら事例文の並び順とが指定された場合に,その両者について一致度の高い文章(文の集合)を検索対象の文章データから検索したいというニーズに対応することができる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施形態に係る文検索装置X(コンピュータ)を構成要素とする文スクリーニングシステムAの概略構成を表すブロック図,図2は文検索装置Xによる文検索処理の手順を表すフローチャート,図3は文検索装置Xが表示装置に表示させる初期画面の一例を表す図,図4は検索対象文の構文解析処理のプロセス及び処理結果の一例を表す図,図5は文検索装置Xに入力される事例文情報の一例を表す図,図6は文検索装置Xにおける条件満足文のセットの特定過程の一例を説明する図,図7は文検索装置Xにより複数の文の一致の評価規則の候補それぞれに従って算出される文一致度を比較した図である。
まず,図1を参照しつつ,本発明の実施形態に係る文検索装置Xの構成について説明する。
文検索装置Xは,ハードディスク等の記憶手段(後述するデータ記憶部7)に記憶された検索対象データD0(文書データ)に含まれる複数の検索対象文の中から,その検索対象文と検索条件として入力される複数の文の集合(後述する複数の事例文を含む事例文情報D1)との間で文内容を比較することによって所望の文(検索対象文)を検索して出力する処理を実行するコンピュータである。即ち,コンピュータが備えるCPU1が,予め記憶手段に記憶された文検索プログラム10を実行することにより,そのコンピュータが文検索装置Xとして機能する。言い換えると,前記文検索プログラム10は,コンピュータを文検索装置Xとして機能させるためのプログラムである。
また,前記検索対象データD0を構成する各種の文書データは,文検索装置Xとネットワーク9を通じて通信可能な端末Tにおいて入力され,文検索装置Xは,その端末Tから受信した文書データを,前記検索対象データD0として前記データ記憶部7に記録する。
ここで,前記検索対象データD0は,複数の検索対象文が順に並ぶ検索対象文集合のデータである。
また,前記事例文情報D1は,前記検索対象データD0からのデータ検索を望むユーザにより入力される情報である。
図5に,前記事例文情報D1の一例を示す。
図5に示されるように,前記事例文情報D1は,検索結果に含めたい文を例示する複数の事例文d001を含む情報である。
また,前記事例文d001には,不確定の語句を意味する特定の記号であるワイルドカードd002が語句の一部として含まれている。
さらに,前記事例文情報D1には,前記事例文を複数に区分するとともに,異なる区分に属する前記事例文相互間の相対的な位置関係の条件を表す事例文位置条件情報の一例である文区分記号d003が含まれている。
図5に示される前記文区分記号d003である「<SEP 5>」は,3つの事例文を,それが挿入された位置の手前側に存在する「??が発生した。」及び「??を検出した。」という2つの事例文と,その後方側に存在する「??を交換した。」という事例文とに区分している。
また,図5に示される前記文区分記号d003は,それが挿入された位置により,後方側の1つの事例文が,手前側の2つの事例文に対し,それに後続する5つの文の範囲内に存在すべきこと(相対的な位置関係の一例)を表している。
そして,前記文区分記号d003は,同一区分に属する複数の事例文については,それらの相対的な位置関係を特定しない。即ち,同一区分の中には,相対的な位置関係(並び順)を問わない様々な表現形態の事例文が含められる。
図1に示されるように,文検索装置Xは,CPU1,RAM2,ROM3,入力装置4,表示装置5,通信インターフェース6及びデータ記憶部7等を備えている。
前記CPU1は,各種プログラムを実行することにより各種の演算処理を行う演算装置(プロセッサ)である。前記RAM2は,前記CPU1により実行されるプログラムや一時記憶データが展開される高速メモリである。前記ROM3は,前記CPU1により実行されるBIOS等のプログラムが予め記憶された不揮発性メモリである。前記入力装置4は,キーボードやマウス等,操作部に対する操作に応じて情報を入力する情報入力手段である。前記表示装置5は,前記CPU1による演算結果等の各種情報を映像として出力する液晶表示パネルやCRT等である。前記データ記憶部7は,前記CPU1により実行或いは参照される前記文検索プログラム10や各種情報が記憶されるハードディスク等の情報記憶手段である。
このデータ記憶部7には,検索対象データD0,事例文情報D1,検索文解析結果情報D2,事例文解析結果情報D3,構文解析辞書情報D4,シソーラス辞書情報D5及び類義語辞書情報D6などの情報が記憶される他,前記CPU1により実行される文検索プログラム10も記憶される。なお,文検索プログラム10には,周知の構文解析プログラム(プログラムモジュール)も含まれる。なお,前記検索文解析結果情報D2及び前記事例文解析結果情報D3を総称して構文解析結果情報D2,D3という。
なお,前記データ記憶部7には,当該文検索装置X(コンピュータ)を構成する各ハードウェアと前記文検索プログラム10を含む各種アプリケーションプログラムとの間の中継処理を行うOS(オペレーションシステム)及びファイルシステムのプログラムも記憶されている(不図示)。
次に,図2に示されるフローチャートを参照しつつ,前記文検索装置XのCPU1が前記文検索プログラム10を実行することによって実現される文検索処理の手順について説明する。なお,以下に示すS1,S2,…は,前記CPU1が実行する処理の手順(ステップ)の識別符号を表す。
<ステップS1,S2>
まず,CPU1は,各種ワーク変数を初期化する処理を実行する(S2)。この文検索処理で用いられワーク変数(ステップS2で初期化される変数)としては,構文解析の結果の情報が設定される解析結果変数S,P,カウンタ変数h,i,j,後述する最大一致度,対応区分番号及びセット一致度の各々を表す変数Emax,G及びEset,検索対象文を検索した結果の情報が設定される変数y,z等がある。
次に,CPU1は,所定の初期画面g0(図3参照)を前記表示装置5に表示させ,その初期画面g0の表示中における前記入力装置4に対する操作入力に応じて,次の(S2−1)〜(S2−3)に示す各処理を実行する(S2)。
(S2−1)複数の検索対象文が順に並ぶ検索対象文の集合のデータである前記検索対象データD0の参照先を指定する処理。
(S2−2)前記ワイルドカードd002を語句の一部として有する複数の事例文d001と,それら事例文d001を複数に区分するとともに異なる区分に属する前記事例文d001相互間の相対的な位置関係の条件を表す前記文区分記号d003とを含む前記事例文情報D01を入力して前記データ記憶部7に記録する(記憶させる)事例文情報入力処理。
(S2−3)検索処理の開始操作を検知する処理。
ここで,前記事例文は,検索結果に含めたい文を例示する文である。
なお,ステップS2の処理を実行するCPU1が,前記事例文情報入力手段の一例である。
図3は,前記初期画面g0の一例である。
前記初期画面g0には,検索対象フォルダ名入力枠g1と,参照ボタンg2と,検索結果表示枠g3と,事例文情報入力枠g4と,検索実行ボタンg5とが含まれる。
ステップS2において,複数の検索対象文を含む文章のデータである前記検索対象データD0の参照先を指定する処理は,そのデータが存在するフォルダ名(以下,検索対象フォルダ名という)を入力する処理である。
図3における前記検索対象フォルダ名入力枠g1は,前記検索対象フォルダ名の入力枠(情報入力枠)である。CPU1は,この検索対象フォルダ名入力枠g1に対し前記入力装置4におけるキーボードを通じて入力されたフォルダ名を前記検索対象フォルダ名として入力する処理の他,前記参照ボタンg2の操作に応じて前記初期画面g0に前記データ記憶部7内のフォルダ名のリスト(選択肢)を表示させ,そのリストの中から前記入力装置4におけるマウス等を通じた選択操作に応じて1つ又は複数のフォルダ名を選択し,選択したフォルダ名を前記検索対象フォルダ名として入力す処理も実行する。以後,CPU1は,入力された前記検索対象フォルダ名により特定されるフォルダ内に存在する1又は複数の文書データを参照し,その文書データに含まれる複数の文を検索対象文として文検索処理を実行する。
また,ステップS2において,CPU1が実行する前記事例文情報D1の入力処理は,前記事例文情報入力枠g4に対し前記入力装置4におけるキーボードを通じて図5に示されるような前記事例文情報D1を入力する処理である。
なお,CPU1が,不図示の通信手段(通信インターフェース)を通じて外部装置から前記検索対象フォルダ名,前記事例文情報D1を入力することや,ハードディスクやDVD等の情報記録媒体に記録(記憶)された情報を読み出すことにより同情報を入力すること等も考えられる。
また,ステップS2において,CPU1が実行する検索処理の開始操作の検知処理は,前記初期画面g0における前記検索実行ボタンg5が前記入力装置4におけるマウス等によって操作されたことを検知する処理である。
<ステップS3>
そして,CPU1は,検索処理の開始操作があったことを検知すると,前記検索対象データD0内の各検索対象文及び前記事例文情報D1内の各事例文について,周知の構文解析処理を施す。そして,CPU1は,その構文解析処理によって文中における文法上の属性と語句との対応関係を表す構文解析結果情報である前記検索文解析結果情報D2及び前記事例文解析結果情報D3を生成し,それらの情報D2,D3を前記データ記憶部7に記録する(S3,前記構文解析手段の一例)。このステップS3の処理は,CPU1が,周知の構文解析プログラムを実行することによって実現される。
以下,構文解析処理の一例について説明する。なお,構文解析処理の対象となる前記検索対象文及び前記事例文(それぞれ,句点により区切られた文)のことを解析対象文と称する。
例えば,前記CPU1は,前記解析対象文について,周知の形態素解析処理を実行し,その解析結果を前記データ記憶部7に一次的に記録する。これにより,前記解析対象文が語句(単語)ごとに区分され,その結果がデータ記憶部7に記録される。
さらに,CPU1は,形態素解析処理の結果をデータ記憶部7から読み出しつつ,周知の係り受け解析処理等を実行することにより,前記解析対象文を,それに含まれる単文ごとに,前記解析対象文の文中における文法上の属性と,その単文に含まれる語句との対応関係を表す構文解析結果情報(前記検索文解析結果情報D2及び前記事例文解析結果情報D3)を生成する。その構文解析結果情報D2,D3は,単文ごとに1つのレコードが構成され,そのレコードは,その単文が属する前記解析対象文の識別番号のフィールド(文番号フィールド),及び複数の文法上の属性ごとに設定された複数のフィールド(属性フィールド)それぞれに対応づけられたデータの集合である。
例えば,前記解析対象文が,「彼が来た。」という文のように,主節一つからのみ構成される文(単文)である場合,その解析対象文の構文解析結果情報は一つのレコードに展開される。一方,前記解析対象文が,「彼が加入したことにより,作業が円滑化した。」という文のように,複数(この例では,2つ)の単文が接続詞でつながれているような複文である場合や,「彼が帰り,彼女が来た。」という文のように複数(この例では2つ)の単文が並列された「重文」である場合には,その解析対象文の構文解析結果情報は,単文ごとの複数のレコードに展開される。
ここで,文法上の属性(構文解析結果情報D2,D3における属性フィールド)としては,文法上の格(ハ格,ガ格,ヲ格など),品詞(形容詞,動詞など),語句の時制(現在形,過去形等),受動態か能動態か,肯定形の語句か否定形の語句か,及び1つの文に複数の単文が含まれる場合におけるある語句が属する単文の他の単文に対する文法上の階層関係の深さ等が考えられる。
図4は,前記解析対象文についての構文解析処理(係り受け解析処理等)のプロセス及び処理結果の一例を表す図である。
例えば,「本を買った店は有名だ。」という文について構文解析処理が実行された場合について説明する。
この場合,CPU1は,前記構文解析辞書情報D4の参照により品詞が動詞である語句「だ」を特定し,この動詞「だ」を含む深さd34が第0層の節(即ち,主節)「有名だ」を特定する。さらに,CPU1は,前記構文解析辞書情報D4の参照により品詞が動詞である語句「買った」を特定し,この動詞「買った」を含む深さd34が第1層の節「本を買った」を特定する。
このように,CPU1は,構文解析処理を実行することにより,前記解析対象文それぞれについて,その文に含まれる単文(節)の前記解析対象文の文中における階層の深さd34(他の単文に対する文法上の階層関係の深さ)を判別し,その判別結果を「深さフィールド」(属性フィールドの一例)のデータとして前記データ記憶部7に記録する。この深さd34は,その値(内容)が0層であるか否かにより,その単文(節)が主節であるか否かを特定する情報でもある。
さらに,CPU1は,構文解析処理において,前記構文解析辞書情報D4の参照により,前記解析対象文に含まれる語句それぞれの品詞d25と,品詞が動詞である語句それぞれの時制d36とを自動判別し,その判別結果を品詞フィールド(動詞フィールド,形容詞フィールド等)や時制フィールド(属性フィールドの一例)のデータとして前記データ記憶部7に記録する。
また,前記CPU1は,構文解析処理を実行して前記構文解析辞書情報D4を参照することにより,品詞d25が名詞である語句とその語句に付加されている助詞の語句とを特定し,さらに,その組み合わせに基づいて語句の文法上の格d55(ハ格,ガ格,ヲ格など)を特定し,その特定結果を格フィールド(ハ格フィールド,ガ格フィールド,ヲ格フィールド等)のデータとして前記データ記憶部7に記録する。なお,図4における「ハ格」,「ガ格」及び「ヲ格」は,それぞれ「未格」,「主格」及び「目的格」と同義である。このように,構文解析結果情報D2,D3は,文中における文法上の属性と語句との対応関係を表す情報である。
なお,図4には図示されていないが,CPU1は,構文解析処理を実行して前記構文解析辞書情報D4を参照することにより,前記解析対象文に含まれる各語句について,品詞が動詞である語句が受動態であるか能動態であるか,及び肯定形の語句(「…である」等)であるか否定形の語句(「…ではない」等)であるかについても自動判別し,その判別結果を対応する属性フィールドのデータとして前記データ記憶部7に記録する。
ここで,「語句が否定形である」ということは,品詞が動詞である語句に付随する語句が否定形の属性を有すること,即ち,品詞が動詞である語句に,当該文が否定文であることを表す語句が付随していること,と等価であり,それ以外の状態が,「語句が肯定形である」状態である。従って,肯定形の語句であるか否定形の語句であるかの情報は,当該文が肯定文であるか否定文であるかを表す情報である。例えば,構文解析処理において,「停止せず」という動詞の語句は,「停止」+「する」+「ぬ」という語句に分解され,動詞の語句に「ぬ」という否定形の語句(否定の助動詞)が付随しているため,「停止せず」という語句を含む文は,否定文であると判別される。
以上のようにしてCPU1は,ステップS3において,前記検索対象文それぞれについての構文解析結果の情報である前記検索文解析結果情報D2と,前記事例文それぞれについての構文解析結果の情報である前記事例文解析結果情報D3とを生成し,それらを前記データ記憶部7に記録する。
また,CPU1は,構文解析処理を実行した文(各単文が属する文)それぞれの識別子である文番号d41も,各レコードに対応づけて構文解析結果情報D2,D3に含める。なお,図4に示す例では,各構文解析結果情報D2,D3に含められる各語句は基本形で表現されたもの(見出し語表現)である。例えば,品詞が動詞である語句については,その時制が現在である場合の表現で表される。前記CPU1は,前記構文解析辞書情報D4に含まれる語句の基本形(見出し表現)と活用形(過去形表現,受動態表現等)との対応関係の情報に基づいて,語句の見出し語表現を特定する。
<ステップS4>
以上に示したような構文解析処理が終了すると,次に,CPU1は,構文解析処理によって区分された語句(前記検索対象データD0及び前記事例文情報D1に含まれる語句)それぞれについて,前記シソーラス辞書情報D5に基づいてそのカテゴリd26を判別し,その判別結果を判別対象となった語句に対応づけて構文解析結果情報D2,D3に含めて前記データ記憶部7に記録する(図4参照)。
前記シソーラス辞書情報D5は,複数の語句とその語句それぞれのカテゴリの識別情報(同義語及び類義語の区分ごとに割り当てられた識別情報)とが対応付けられた周知の概念辞書の情報である。
例えば,前記シソーラス辞書情報D5においては,「発揮」,「表面化」,「登場」等の複数の語句が同じカテゴリ(の識別情報)に対応づけられている。
<ステップS5,S6>
そして,以上に示したステップS1〜S4の処理が終了すると,CPU1は,カウンタ変数i(初期値は1)を参照し,前記検索対象データD0にi番目の検索対象文が存在するか否かを判別する(S5)。なお,iは,当該検索対象文の識別番号であるとともに,前記検索対象データD0内における当該検索対象文の並び順の番号でもある。
ここで,i番目の検索対象文が存在する場合,CPU1は,前記検索文解析結果情報D2の中から,そのi番目の検索対象文についての構文解析結果である語句とその語句の属性との組合せ(フィールドとレコードのデータとの組合せ)を変数Sに代入する(S6)。これにより,変数Sに割り当てられたRAM2の記憶領域に構文解析結果が記憶される。但し,対応する前記カテゴリd26(前記シソーラス辞書情報に基づき判別されたカテゴリ)が存在する語句については,そのカテゴリd26も,語句と対応づけて変数Sに代入される。
また,i番目の検索対象文に複数の単文が含まれる場合には,各単文に対応する複数のレコードのデータが変数Sに代入される。
その後,CPU1は,以下に示すように,i番目の前記検索対象文について,前記事例文それぞれと一致する度合いを評価する処理(S7〜S13)を実行する。
<ステップS7〜S9>
まず,CPU1は,カウンタ変数j(初期値は1)を参照し,前記事例文情報D1にj番目の事例文が存在するか否かを判別する(S7)。
ここで,j番目の事例文が存在する場合,CPU1は,前記事例文解析結果情報D3の中から,そのj番目の事例文についての構文解析結果であるレコードのデータを変数Pに代入する(S8)。但し,対応する前記カテゴリd26が存在する語句については,そのカテゴリd26も,語句と対応づけて変数Pに代入される。また,j番目の事例文に複数の単文が含まれる場合には,各単文に対応する複数のレコードのデータが変数Pに代入される。
次に,CPU1は,変数Sに代入された検索対象文の構文解析結果と変数Pに代入された前記事例文の構文解析結果とを比較し,予め設定された文の一致の評価規則に従って,それぞれの構文解析結果における語句とその語句の文法上の属性との組合せの一致の程度を表す文一致度E(h,i,j)(S・P間の文一致度)を算出する(S9,文一致度算出処理)。
その際,CPU1は,予め設定された複数の前記文の一致の評価規則の候補それぞれに従って前記文一致度E(h,i,j)を算出する。なお,文一致度E(h,i,j)における変数h,i,jは,それぞれ前記文の一致の評価規則の候補の識別番号h,前記検索対象文の識別番号i,前記事例文d001の識別番号jである。また,前記検索対象文の識別番号iは,前記検索対象データD0内における前記検索対象文各々の相対的な位置(登場順序)を表す番号でもある。
前記文の一致の評価規則の候補としては,例えば,次の(R1)〜(R6)に示される6つが考えられる。なお,この場合,R1〜R6が,変数hに相当する。
(R1)前記検索対象文及び前記事例文d001の構文解析結果における構文構造(語句の数及び各語句の属性)が完全に一致し,かつ,各語句の表現(表記)も一致する場合にのみ,両文が一致するものとして前記文一致度の値を語句の数に比例する値だけ増加させる第1の評価規則。この第1の評価規則により,前記文一致度E(R1,i,j)が得られる。
(R2)前記検索対象文及び前記事例文d001の構文解析結果における各語句について,文法上の格が一致し,かつ,表現(表記)も一致すれば,格以外の文法上の属性が一致しなくても,その語句ごとに前記文一致度の値を所定値だけ増加させる第2の評価規則。この第2の評価規則においては,前記文一致度の値を増加させる要件として,格以外の属性(主節又は従属節の区別,時制等)の一致を必要としない。この第2の評価規則により,前記文一致度E(R2,i,j)が得られる。
(R3)前記検索対象文及び前記事例文d001の構文解析結果における各語句について,その文法上の属性に関わらず,表現(表記)が一致すれば,その語句ごとに前記文一致度の値を所定値だけ増加させる第3の評価規則。この第3の評価規則により,前記文一致度E(R3,i,j)が得られる。
(R4)前記検索対象文及び前記事例文d001の構文解析結果における構文構造(語句の数及び各語句の属性)が完全に一致し,かつ,対応する語句が類義語であれば,語句の表現が一致しなくても,その語句ごとに前記文一致度の値を所定値だけ増加させる第4の評価規則。この第4の評価規則により,前記文一致度E(R4,i,j)が得られる。その際,前記CPU1は,前記検索対象文及び前記事例文d001に含まれる語句について,前記類義語辞書情報D6に基づいて類義語であるか否かを判別する類義語判別処理を実行する。ここで,前記類義語辞書情報D6は,表現は異なるが意味が同一又は類似の語句(類似する語句)が対応付けられて前記データ記憶部7に予め記憶された情報である。
(R5)前記検索対象文及び前記事例文d001の構文解析結果における各語句について,文法上の格が一致し,かつ,対応する語句が類義語であれば,格以外の文法上の属性や語句の表現が一致しなくても,その語句ごとに前記文一致度の値を所定値だけ増加させる第5の評価規則。この第5の評価規則により,前記文一致度E(R5,i,j)が得られる。
(R6)前記検索対象文及び前記事例文d001の構文解析結果における各語句について,その文法上の属性に関わらず,対応する語句が類義語でるか,又は対応する語句の前記カテゴリd26が同一であれば,その語句ごとに前記文一致度の値を所定値だけ増加させる第6の評価規則。この第6の評価規則により,前記文一致度E(R6,i,j)が得られる。なお,語句のカテゴリd26はステップS4で判別された結果である。
但し,前記文の一致の評価規則の候補のいずれにおいても,前記事例文d001におけるワイルドカードd002については,前記検索対象文における語句との間で文法上の格が一致すれば,そららの語句は一致しているとみなして処理される。
また,比較対象となる2つの語句について,表現が一致する(このとき,当然に前記カテゴリd26も一致する)場合と,それら2つの語句について表現は一致しないが類義語である場合と,表現が一致せず類義語でもないが前記カテゴリd26が一致する場合とで,語句の一致ごとの前記文一致度E(h,i,j)の加算値(増加値)を異なる値とすることが望ましい。この場合,加算値は,表現一致の場合,類義語の場合,前記カテゴリd26一致の場合,の順(降順)に大きな値とする。
また,構文解析結果の比較(S,Pの内容の比較)において,比較対象となる属性(フィールド)ごとに,予め前記文一致度E(i,j)の加算値(増加値)に対する重みを設定しておくことも考えられる。例えば,「ハ格」,「ガ格」,「ヲ格」,「動詞」等の文法上の属性(フィールド)は,文の内容を大きく左右する重要な語句の属性であるため,それらの属性についての重みを,他の属性についての重みよりも高く設定しておくことが考えられる。
以上に示したことを考慮した場合,前記第2の評価規則R2に基づく前記文一致度E(R2,i,j)の算出式の一例としては,次の(1)式が考えられる。
Figure 0005140524
ここで,前記文の一致の評価規則について,「評価規則A<評価規則B」が,評価規則Aよりも評価規則Bの方が文の一致の評価条件が緩い(比較的高い前記一致度が得られやすい規則である)ことを表すとすれば,前記第1の評価規則R1〜前記第6の評価規則R6の関係は,以下の通りとなる。
・R1<R2<R3
・R4<R5<R6
・R1<R4
・R2<R5
・R3<R6
<ステップS10,S11>
次に,CPU1は,前記文の一致の評価規則の候補R1〜R6それぞれにおけるi番目の検索対象文における各事例文との間の前記文一致度E(h,i,j)の最大値である最大一致度Emax(h,i)と,その最大一致度Emax(h,i)が得られる前記事例文の区分の番号(以下,対応区分番号G(h,i)という)とを,必要に応じて更新する(S10)。
即ち,CPU1は,前記文の一致の評価規則の候補R1〜R6それぞれにおいて,i番目の検索対象文とj番目の事例文との間の前記文一致度E(h,i,j)が,その時点における前記最大一致度Emax(h,i)よりも大きい場合に,その最大一致度Emax(h,i)の値を,前記文一致度E(h,i,j)の値に更新する。
また,CPU1は,前記文一致度E(h,i,j)が,その時点における前記最大一致度Emax(h,i)よりも大きく,かつ,予め設定された許容値以上である場合に,前記対応区分番号G(h,i)の内容を,当該文一致度E(h,i,j)が得られた前記事例文d001の区分の番号に更新する。なお,前記最大一致度Emax(h,i)の初期値は最小値(=0)である。また,前記対応区分番号G(h,i)の初期値は空(無し)である。
そして,CPU1は,変数jを1ずつカウントアップしつつ(S11),入力された全ての前記事例文d001についてのステップS8〜S10の処理が終了するまで(j番目の事例文が存在しないと判別する(S7)まで),ステップS7〜S11の処理を繰り返す。
<ステップS12,S13>
以上のようにしてステップS7〜S11の処理が終了すると,続いて,CPU1は,前記検索対象文の番号iと,前記文の一致の評価規則の候補の番号R1〜R6と,その検索対象文及び前記文の一致の評価規則の候補について得られた前記最大一致度Emax(h,i)と,前記対応区分番号Q(h,i)との組合せ情報を,変数yに追加記録する(S12)。これにより,変数yには検索対象文それぞれについての前記文の一致の評価規則の候補の番号R1〜R6ごとの前記対応区分番号Q(h,i)及び前記最大一致度Emax(h,i)が蓄積される。
そして,CPU1は,変数iを1ずつカウントアップするとともに変数jを初期化(j=1)しつつ(S13),前記検索対象データD0に含まれる全ての検索対象文についてステップS6〜S12の処理が終了するまで(i番目の検索対象文が存在しないと判別する(S5)まで)ステップS5〜S13の処理を繰り返す。
なお,前記規則指標値は,予め設定された複数の前記文の一致の評価規則の候補R1〜R6それぞれに従ってステップS5〜S13(文一致度算出処理)で算出された前記候補R1〜R6ごとの前記最大文一致度Emax(h,i)を,その候補ごとに上位の所定数のものとそれ以外のものとを比較する指標値である。
<ステップS14>
そして,全ての検索対象文について,前記文の一致の評価規則の候補R1〜R6ごとの前記対応区分番号G(h,i)及び前記最大一致度Emax(h,i)を求める処理が終了すると,CPU1は,変数yを参照し,複数の前記文の一致の評価規則の候補R1〜R6それぞれについて,前記最大一致度Emax(h,i)に基づく規則評価値を算出する(S14)。
さらに,CPU1は,前記規則評価値に基づいて,前記候補R1〜R6ごとの前記最大文一致度Emax(h,i)の中から,後述する条件満足文のセットの特定処理(S17)において参照される前記最大文一致度Emax(H,i)を選択する文一致度選択処理を実行する(S14)。即ち,CPU1は,このステップS14の処理により,前記文の一致の評価規則の候補R1〜R6の中から最終的に採用する前記文の一致の評価規則を選択する。
図7は,複数の文の一致の評価規則の候補R1〜R4それぞれに従って算出される前記文一致度を比較した図である。なお,図7において,横軸は,評価規則の候補R1〜R4それぞれについて,前記最大文一致度Emax(h,i)の高いものから順に番号付けされたときの前記検索対象文の番号を表し,縦軸は,各検索対象文における前記最大文一致度Emax(h,i)を表す。また,図7において,前記文の一致の評価規則の候補R1〜R4以外の条件は全て同じである。
図7に示されるように,前記第1の評価規則R1から前記第4の評価規則R4へと文の一致の評価条件が緩くなるほど,一致度の高い前記最大文一致度Emax(h,i)が得られやすくなる。
そして,前記評価規則の候補R1〜R4ごとの上位の所定数(図7において例えば上位5個)の前記最大文一致度Emax(h,i)が,それ以外の前記最大文一致度Emax(h,i)に比べて大きいほど,その評価規則の候補について得られる前記最大文一致度Emax(h,i)を用いて文の一致度合いを評価すれば,前記選別性の高い検索結果が得られることがわかる。
そこで,前記規則指標値としては,例えば,以下に示す規則指標値αが考えられる。
即ち,前記規則指標値αは,前記候補R1〜R6ごとの前記最大文一致度Emax(h,i)の上位のM個(Mは予め設定された数)の値の平均値E1aveと,前記最大文一致度Emax(h,i)の上位のM+1個目から2M個目までの値の平均値E2aveとの比の指標値(α=E2ave/E1ave)である。この規則指標値αは,値が小さいほど,上位M個の前記最大文一致度Emax(h,i)が,それ以外の前記最大文一致度Emax(h,i)に対して顕著に大きい状態であること,即ち,前記選別性が高い状態であることを表す。
この場合,CPU1は,前記候補R1〜R6のうち,前記規則指標値αが予め定められたしきい値以下であるものであり,その中で上位M個の前記最大文一致度Emax(h,i)の平均値が最大であるものを特定する。さらに,CPU1は,特定した候補(これを,H番目の前記文の一致の評価規則とする)の下で算出された前記最大文一致度Emax(H,i)を,後述する条件満足文のセットの特定処理(S17)において参照されるものとして選択する。
なお,上位M個の前記最大文一致度Emax(h,i)の平均値が大きいほど,その最大文一致度Emax(h,i)を用いて前記事例文d001と近似する前記検索対象文の検索を行えば,より多くの検索結果が得られる(多くの情報量が得られる)可能性が高いことを意味する。
これにより,複数の前記文の一致の評価規則の候補R1〜R6それぞれに従って算出された前記最大文一致度Emax(h,i)の中から,前記選別性と情報量とのバランスの良い検索結果が得られるような前記最大文一致度Emax(h,i)を選択することができる。
その他,前記規則指標値αは,前記候補R1〜R6ごとの前記最大文一致度Emax(h,i)の上位のM個(Mは予め設定された数)の値の平均値E1aveと,前記最大文一致度Emax(h,i)の上位のM+1個目から2M個目までの値の平均値E2aveとの差の指標値(α=E1ave−E2ave)であることも考えられる。
この場合,CPU1は,前記候補R1〜R6のうち,前記規則指標値αが予め定められたしきい値以上であるものであり,その中で上位M個の前記最大文一致度Emax(h,i)の平均値が最大であるものを特定する(S14)。
<ステップS15,S16,S17>
次に,CPU1は,前記検索対象文の番号を表すカウンタ変数iを初期化した後(S15),前記検索対象データD0にi番目の検索対象文が存在するか否かを判別する(S16)。なお,iは,当該検索対象文の識別番号であるとともに,前記検索対象データD0内における当該検索対象文の並び順の番号でもある。
そして,CPU1は,全ての検索対象文(i番目の検索対象文)について,以下のステップS17の処理を順次実行する。
即ち,CPU1は,i番目以降のN個の前記検索対象文について,前記最大文一致度Emax(H,i〜i+N-1)が予め定められた一致条件を満たし,かつ,それに対応する前記事例文d001の相対的な位置関係が前記文区分記号d003が表す位置関係の条件を満たすものが存在すれば,それを条件満足文のセット(組合せ)として特定する(S17)。なお,個数Nは,前記事例文情報D1における前記文区分記号d003により表される文の相対的な位置関係の最大範囲を表す文の数である。例えば,図5に示される例では,前記事例文情報D1に,「<SET5>」という1つの前記文区分記号d003のみが存在するため,各事例文との比較のために参照すべき前記検索対象文の数Nは6個(=5+1)となる。
また,前記一致条件は,例えば,前記最大文一致度Emax(H,i〜i+N-1)が予め設定されたしきい値以上であるという条件などである。
また,対応する記事例文d001の相対的な位置関係が前記文区分記号d003が表す位置関係の条件を満たすか否かは,i番目以降のN個の前記検索対象文それぞれについて,その中での順番の大小関係(前後関係)と,前記対応区分番号G(H, i〜i+N-1)の大小関係とが一致するか否かにより判別される。
そして,前記条件満足文のセットが存在すれば,CPU1は,その条件満足文のセットを特定する情報と,当該条件満足文のセットについての文一致度であるセット一致度Esetとの組合せを,変数zに追加記録する(S17)。
ここで,前記セット一致度Esetは,前記条件満足文のセットそれぞれにおける,対応する前記事例文の組合せ(各区分に属する前記事例文の組合せ)に対する前記最大文一致度Emax(H,i〜i+N-1)を統合した一致度である。例えば,前記セット一致度Esetは,前記条件満足文のセットにおける各検索対象文の前記最大文一致度Emax(H,i〜i+N-1)の中で最も一致度の高いものである。その他,前記セット一致度Esetが,前記最大文一致度Emax(H,i〜i+N-1)の合計又は平均等であることも考えられる。
このように,CPU1が実行するステップS17の処理は,前記検索対象文の組合せの中から,それらの前記最大文一致度Emax(H,i〜i+N-1)が所定の一致条件を満たし,かつ,前記検索対象データD0内での相対的な位置関係が,前記一致条件を満たす前記最大文一致度Emax(H,i〜i+N-1)それぞれに対応する前記事例文d001の組合せについて前記文区分記号d003が表す相対的な位置関係の条件を満たすものである前記条件満足文のセットを特定する条件満足文組合せ特定処理の一例である。
図6は,前記条件満足文のセットの特定過程の一例を説明する図である。
例えば,図6に示されるように,変数yに,10番目〜13番目の前記検索対象文についての前記対応区分番号G(H,i),前記最大文一致度Emax(H,i)が設定されているものとする。なお,図6において,「−」は,前記対応区分番号G(H,i)が存在しないことを表している。
図6に示される例の場合,10番目及び13番目の検索対象文それぞれの前記対応区分番号G(H,10),G(H,13)がそれぞれ「1」,「2」であり,検索対象文の位置を表す番号「10」,「13」の大小関係と,それに対応する事例文の位置を表す区分番号「1」,「2」の大小関係とが一致する。
また,前記一致条件を既定するしきい値が50である場合,10番目及び13番目の検索対象文それぞれの前記最大文一致度Emax(H,10)=60,Emax(H,13)=90は,いずれも前記一致条件を満たしている。
そのため,10番目から13番目までの一連の検索対象文は,前記条件満足文のセットとして特定される。そして,その条件満足文のセットに関する情報,即ち,記条件満足文のセットの識別番号kと,前記検索対象データD0における前記検索対象文の開始番号(=10)及び終了番号(=13)と,前記セット一致度Eset(k)(=90)とが変数zに記録される。
最後に,CPU1は,前記条件満足文のセットの情報が格納された変数zを参照し,前記セット一致度Esetの高いものから順に(降順に)予め設定された数(指定数)の前記条件満足文のセットを選出し,選出した前記条件満足文のセットのリストを,前記セット一致度Esetの高いものから順に前記表示装置5の画面における前記検索結果表示枠g3(図3参照)に検索結果として表示させるとともに,前記データ記憶部7に記録する(S19)。
或いは,CPU1が,前記セット一致度Esetが予め設定されたしきい値以上である前記条件満足文のセットを選出し,選出した前記条件満足文のセットのリストを前記セット一致度Esetが高いものから順に前記表示装置5に表示させるとともに,前記データ記憶部7に記録することも考えられる。
また,CPU1が,全ての前記条件満足文のセットを,前記セット一致度Esetが高いものから順に(前記セット一致度Esetが高い前記条件満足文のセットの優先順位を上げて)前記表示装置5の画面に表示させることも考えられる。
このように,CPU1は,前記条件満足文のセットそれぞれについて,それに対応する前記事例文の組合せに対する一致度を表す前記セット一致度Esetに応じて,当該条件満足文のセットを検索結果として出力するか否かの判別や,検索結果として出力する優先順位の判別を行う条件満足文出力判別処理(S19)を実行する。
以上に示した文検索装置Xにおいては,前記検索対象データD0から,ワイルドカードd002を含む事例文d001の組合せに対して一致度の高い前記検索対象文のセットのうち,そのセットに属する検索対象文の相対的な位置関係が,入力された前記事例文情報D1における前記文区分記号d003が表す関係を満たす前記条件満足文のセットが特定され,それらが優先的に検索結果に反映されることになる。これにより,ワイルドカードd002を含む複数の事例文d001と,それら事例文d001の並び順とが前記事例文情報D1として指定された場合に,その両者について一致度の高い文章(文の集合)を前記検索対象データD0から検索したいというニーズに対応することができる。また,区分ごとに前記事例文d001を様々な表現形態の文で指定することが可能である。
以上に示した実施形態では,前記条件満足文のセットのみが出力処理の対象とされたが,その他,前記条件満足文のセットと,前記検索対象データD0の中から前記条件満足文のセットを除いた残りの前記検索対象文との両方を出力処理の対象とすることも考えられる。
この場合,CPU1は,前記条件満足文のセットにおける前記セット一致度Esetと,残りの前記検索対象文における前記最大文一致度Emax(H,i)とに基づいて,出力可否の判別や出力の優先順位の判別を行う。
本発明は,複数の検索対象文が順に並ぶ検索対象文集合から所望の文を検索して出力する文検索装置等に利用可能である。
本発明の実施形態に係る文検索装置Xを構成要素とする文スクリーニングシステムAの概略構成を表すブロック図。 文検索装置Xによる文検索処理の手順を表すフローチャート。 文検索装置Xが表示装置に表示させる初期画面の一例を表す図。 検索対象文の構文解析処理のプロセス及び処理結果の一例を表す図。 文検索装置Xに入力される事例文情報の一例を表す図。 文検索装置Xにおける条件満足文のセットの特定過程の一例を説明する図。 文検索装置Xにより複数の文の一致の評価規則の候補それぞれに従って算出される文一致度を比較した図。
符号の説明
X :本発明の実施形態に係る文検索装置(コンピュータ)
1 :CPU
2 :RAM
3 :ROM
4 :入力装置
5 :表示装置
7 :データ記憶部
10:文検索プログラム
D0:検索対象データ
D1:事例文情報
D2:検索文解析結果情報
D3:事例文解析結果情報
D4:構文解析辞書情報
D5:シソーラス辞書情報
D6:類義語辞書情報
S1,S2,…:処理手順(ステップ)

Claims (9)

  1. 記憶手段に記憶され複数の検索対象文が順に並ぶ検索対象文集合から所望の文を検索して出力する文検索装置であって,
    検索結果に含めたい文を例示する文であって不確定の語句を意味する特定の記号を語句の一部として有する複数の事例文と,該事例文を複数に区分するとともに異なる区分に属する前記事例文相互間の相対的な位置関係の条件を表す事例文位置条件情報と,を含む事例文情報を入力して記憶手段に記録する事例文情報入力手段と,
    前記検索対象文と前記事例文とを比較し,その比較の際に前記事例文における前記特定の記号については前記検索対象文における語句との間で文法上の格の一致を語句の一致とみなしつつ,予め設定された文の一致の評価規則に従って前記検索対象文と前記事例文との一致度合いの指標値である文一致度を算出する文一致度算出手段と,
    前記検索対象文の組合せの中から,それらの前記文一致度が所定の一致条件を満たし,かつ,前記検索対象文集合内での相対的な位置関係が,前記所定の一致条件を満たす前記文一致度それぞれに対応する前記事例文の組合せについて前記事例文位置条件情報が表す相対的な位置関係の条件を満たすものである条件満足文の組合せを特定する条件満足文組合せ特定手段と,
    前記条件満足文の組合せそれぞれについて,それに対応する前記事例文の組合せに対する前記文一致度に応じて当該条件満足文の組合せを検索結果として出力するか否かの判別及び検索結果として出力する優先順位の判別の一方又は両方を行う条件満足文出力判別手段と,
    を具備してなることを特徴とする文検索装置。
  2. 前記検索対象文及び前記事例文それぞれについて,構文解析処理を施すことにより文中における文法上の属性と語句との対応関係を表す構文解析結果情報を生成する構文解析手段を具備し,
    予め設定された前記文の一致の評価規則が,前記検索対象文と前記事例文との間で前記構文解析結果情報を比較した結果を前記文一致度に反映させる評価規則を含んでなる請求項1に記載の文検索装置。
  3. 前記文法上の属性が,文法上の格,品詞,語句の時制,受動態か能動態か,肯定形の語句か否定形の語句か,及び1つの文に複数の単文が含まれる場合におけるある語句が属する単文の他の単文に対する文法上の階層関係の深さのうちの1つ又は複数を含んでなる請求項2に記載の文検索装置。
  4. 予め設定された複数の前記文の一致の評価規則の候補それぞれに従って前記文一致度算出手段により算出された前記候補ごとの前記文一致度を,前記候補ごとに上位の所定数のものとそれ以外のものとを比較することにより,前記候補ごとの前記文一致度の中から前記条件満足文組合せ特定手段により参照される前記文一致度を選択する文一致度選択手段を具備してなる請求項3に記載の文検索装置。
  5. 前記検索対象文及び前記事例文に含まれる語句について,類似する語句が対応付けられて記憶手段に記憶された類義語情報に基づいて類義語であるか否かを判別する類義語判別手段を具備し,
    予め設定された前記文の一致の評価規則の候補に,前記構文解析結果情報の比較において比較対象となる2つの語句についての前記類義語判別手段の判別結果を前記文一致度に反映させる評価規則の候補と反映させない評価規則の候補とが含まれてなる請求項4に記載の文検索装置。
  6. 前記検索対象文及び前記事例文それぞれに含まれる語句について,記憶手段に記憶されたシソーラス辞書の情報に基づいてカテゴリを判別するカテゴリ判別手段を具備し,
    予め設定された前記文の一致の評価規則に,前記構文解析結果情報の比較において比較対象となる2つの語句についての前記カテゴリ判別手段の判別結果を前記文一致度に反映させる評価規則の候補と反映させない評価規則の候補とが含まれてなる請求項4又は5のいずれかに記載の文検索装置。
  7. 予め設定された前記文の一致の評価規則の候補に,前記検索対象文と前記事例文との間での語句の一致の評価において,前記構文解析結果情報を比較した結果を前記文一致度に反映させる評価規則の候補と反映させない評価規則の候補とが含まれてなる請求項4〜6のいずれかに記載の文検索装置。
  8. 記憶手段に記憶され複数の検索対象文が順に並ぶ検索対象文集合から所望の文を検索し,検索結果を情報出力手段を通じて出力する処理をコンピュータに実行させるための文検索プログラムであって,
    コンピュータに,
    検索結果に含めたい文を例示する文であって不確定の語句を意味する特定の記号を語句の一部として有する複数の事例文と,該事例文を複数に区分するとともに異なる区分に属する前記事例文相互間の相対的な位置関係の条件を表す事例文位置条件情報と,を含む事例文情報を入力して記憶手段に記録する事例文情報入力処理と,
    前記検索対象文と前記事例文とを比較し,その比較の際に前記事例文における前記特定の記号については前記検索対象文における語句との間で文法上の属性の一致を語句の一致とみなしつつ,予め設定された文の一致の評価規則に従って前記検索対象文と前記事例文との一致度合いの指標値である文一致度を算出する文一致度算出処理と,
    前記検索対象文の組合せの中から,それらの前記文一致度が所定の一致条件を満たし,かつ,前記検索対象文集合内での相対的な位置関係が,前記所定の一致条件を満たす前記文一致度それぞれに対応する前記事例文の組合せについて前記事例文位置条件情報が表す相対的な位置関係の条件を満たすものである条件満足文の組合せを特定する条件満足文組合せ特定処理と,
    前記条件満足文の組合せそれぞれについて,それに対応する前記事例文の組合せに対する前記文一致度に応じて当該条件満足文の組合せを検索結果として出力するか否かの判別及び検索結果として出力する優先順位の判別の一方又は両方を行う条件満足文出力判別処理と,
    を実行させるための文検索プログラム。
  9. 記憶手段に記憶され複数の検索対象文が順に並ぶ検索対象文集合から所望の文を検索し,検索結果を情報出力手段を通じて出力する処理をコンピュータによって実行する文検索方法であって,
    コンピュータにより,
    検索結果に含めたい文を例示する文であって不確定の語句を意味する特定の記号を語句の一部として有する複数の事例文と,該事例文を複数に区分するとともに異なる区分に属する前記事例文相互間の相対的な位置関係の条件を表す事例文位置条件情報と,を含む事例文情報を入力して記憶手段に記録する事例文情報入力処理と,
    前記検索対象文と前記事例文とを比較し,その比較の際に前記事例文における前記特定の記号については前記検索対象文における語句との間で文法上の属性の一致を語句の一致とみなしつつ,予め設定された文の一致の評価規則に従って前記検索対象文と前記事例文との一致度合いの指標値である文一致度を算出する文一致度算出処理と,
    前記検索対象文の組合せの中から,それらの前記文一致度が所定の一致条件を満たし,かつ,前記検索対象文集合内での相対的な位置関係が,前記所定の一致条件を満たす前記文一致度それぞれに対応する前記事例文の組合せについて前記事例文位置条件情報が表す相対的な位置関係の条件を満たすものである条件満足文の組合せを特定する条件満足文組合せ特定処理と,
    前記条件満足文の組合せそれぞれについて,それに対応する前記事例文の組合せに対する前記文一致度に応じて当該条件満足文の組合せを検索結果として出力するか否かの判別及び検索結果として出力する優先順位の判別の一方又は両方を行う条件満足文出力判別処理と,
    を実行してなることを特徴とする文検索方法。
JP2008232205A 2008-09-10 2008-09-10 文検索装置,文検索プログラム,文検索方法 Expired - Fee Related JP5140524B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008232205A JP5140524B2 (ja) 2008-09-10 2008-09-10 文検索装置,文検索プログラム,文検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008232205A JP5140524B2 (ja) 2008-09-10 2008-09-10 文検索装置,文検索プログラム,文検索方法

Publications (2)

Publication Number Publication Date
JP2010066975A JP2010066975A (ja) 2010-03-25
JP5140524B2 true JP5140524B2 (ja) 2013-02-06

Family

ID=42192515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008232205A Expired - Fee Related JP5140524B2 (ja) 2008-09-10 2008-09-10 文検索装置,文検索プログラム,文検索方法

Country Status (1)

Country Link
JP (1) JP5140524B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167096A (ja) * 1999-12-06 2001-06-22 Ricoh Co Ltd 文書検索システム、文書検索方法及びその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005242807A (ja) * 2004-02-27 2005-09-08 Yamatake Corp 関連知識検索装置、文章ネットワーク生成装置、文章ネットワーク生成方法、およびプログラム

Also Published As

Publication number Publication date
JP2010066975A (ja) 2010-03-25

Similar Documents

Publication Publication Date Title
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6499030B1 (en) Apparatus and method for information retrieval, and storage medium storing program therefor
US9280535B2 (en) Natural language querying with cascaded conditional random fields
US8346795B2 (en) System and method for guiding entity-based searching
JP4306894B2 (ja) 自然言語処理装置及びその方法、及び自然言語認識装置
US7603353B2 (en) Method for re-ranking documents retrieved from a multi-lingual document database
US7454393B2 (en) Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
KR101511656B1 (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
US20070106499A1 (en) Natural language search system
JP2742115B2 (ja) 類似文書検索装置
JP2014106665A (ja) 文書検索装置、文書検索方法
US8380731B2 (en) Methods and apparatus using sets of semantically similar words for text classification
US20060101014A1 (en) System and method for minimally predictive feature identification
JP2009294939A (ja) 文書分類装置
JP2002175330A (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JP3428068B2 (ja) 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JPH0844771A (ja) 情報検索装置
JP7409484B2 (ja) リスク評価装置、リスク評価方法およびプログラム
JP5140524B2 (ja) 文検索装置,文検索プログラム,文検索方法
WO2021250950A1 (ja) 文書検索の性能を評価する方法、システム、および装置
US9165063B2 (en) Organising and storing documents
JP3856388B2 (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP5142897B2 (ja) 文検索装置,文検索プログラム,文検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121119

R150 Certificate of patent or registration of utility model

Ref document number: 5140524

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151122

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees