JPH07244669A - 文書検索方式 - Google Patents

文書検索方式

Info

Publication number
JPH07244669A
JPH07244669A JP6034963A JP3496394A JPH07244669A JP H07244669 A JPH07244669 A JP H07244669A JP 6034963 A JP6034963 A JP 6034963A JP 3496394 A JP3496394 A JP 3496394A JP H07244669 A JPH07244669 A JP H07244669A
Authority
JP
Japan
Prior art keywords
case
sentence
search
document
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6034963A
Other languages
English (en)
Inventor
Katsushi Suzuki
克志 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP6034963A priority Critical patent/JPH07244669A/ja
Publication of JPH07244669A publication Critical patent/JPH07244669A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 ユーザが入力した日本語検索要求文の格解析
結果と、文書ファイル集合内の文の格解析結果とを照合
することによって、検索要求文と関連する内容を検索可
能な文書検索方式を得る。 【構成】 入力手段1によって入力された日本語検索要
求文を格解析手段3によって格解析を行い格関係を抽出
する。次に、全文検索手段4によって文書ファイル集合
7から検索要求文中の二つの自立語をともに含む文書フ
ァイルを検索する。続いて、文切り出し手段5によっ
て、全文検索結果の中から二つの自立語を同じ文に含む
ような候補文を抽出する。さらに、格照合手段6によっ
て、候補文の中の二つの自立語に対して検索要求文と同
じ格関係が成立するかどうかを調べ、成立すれば表示手
段8によって格照合結果を優先的に画面表示する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ユーザが日本語で入力
した検索要求文と関連した格構造を有する文を優先的に
提示することにより、効率的に情報検索を行なうことを
可能とする文書検索方式に関するものである。
【0002】
【従来の技術】従来の全文検索(フルテキスト検索)技
術では、計算機システムに記憶された文書ファイルの集
合に対して、検索要求として入力された文字列の照合を
行なう。すなわち、「山田電機&開発」という2つの文
字列のand結合が検索要求として与えられると、「山
田電機」と「開発」という文字列の両方を含む文書ファ
イルを検索する。
【0003】この方式においては、「山田電機が何かを
開発したこと」に関する内容の文書ファイルを検索しよ
うとした場合、「山田電機&開発」で検索すると、2つ
の文字列の文書中の関連は考慮されないので、例えば、
「山田電機が発売した。いっぽう、○○電機も開発中で
ある。」という表現を含む文書ファイルも検索されてし
まい、検索の適合率を悪くすることになる。しかし、
「山田電機が開発した」という文字列で検索しても、
「山田電機が昨年開発した」という表現は検索されず、
検索の再現率が悪い。
【0004】このように、従来技術では、文字列要素の
組み合わせを用いて検索しようとしても、離れた文字列
要素間の関連を考慮した検索が行なえず、「このような
内容の文書を検索したい」という内容検索の要求に充分
に答えられなかった。
【0005】従来このような要求に応えるものとして、
図36に示すようなテキストベース検索方式が提案され
ている。図36は、特開平3−20866号公報に示さ
れたテキストベース検索方式の説明図である。図36に
示す方式によれば、入力された検索要求文に対して形態
素解析と構文解析を行ない入力質問文中の単語の結合関
係(格関係)と同様の結合関係を抽出することにより、
検索要求文の内容に合致する文書ファイルが検索可能と
なる。
【0006】図36は、テキストベース(文書ファイ
ル)検索方式のフローチャートである。図36におい
て、43は検索要求文を入力するための入力部、44は
検索要求文を解析するための解析処理部、45は解析処
理部から参照される類義語辞書、46は解析処理部から
参照される単語辞書、47は文書ファイルの集合が格納
されているテキストベース、48はテキストベースを解
析し検索するためのテキスト検索部である。解析処理部
44は、検索要求文を解析するための文解析ステップ4
9、構造生成ステップ50、類義語展開ステップ51か
ら成る。
【0007】図37は、単語辞書46の内容の一例、図
38は、構文解析結果の一例、図39は、構造生成ステ
ップ50の処理の詳細を示すフローチャート、図40
は、類義語辞書の内容の一例である。単語辞書46に
は、単語の見出しとその単語の品詞および構文解析に必
要な文法情報が格納されている。文法情報は、付属語に
ついてその付属語が接続できる語の種類(例えば体言)
と格情報(例えば目的格)が示されている。
【0008】入力文「テキストを検索する」が入力され
ると、文解析ステップ49は、入力部から入力された文
章を解析し、文章の文法的構造を決定し、構文解析結果
として図38のような格構造を抽出する。図38におい
ては、入力文「テキストを検索する」の構文解析結果と
して、述語「検索」と名詞「テキスト」が対象格の格関
係にあることが示されている。
【0009】続いて、構造生成ステップ50によって、
構文解析結果から単語相互間の格関係をもとに検索に用
いる単語を抽出し、検索構造と呼ばれる検索に用いるた
めの構造を生成する。構造生成ステップ50では、場合
によっては受動態表現や助詞「の」による連体修飾表現
を行なう。入力文「テキストを検索する」の場合は、構
文解析結果から「検索」の対象格が「テキスト」である
ことを認識して(検索対象 テキスト)なる検索構造を
生成する。この後、類義語展開ステップ51で類義語辞
書中に「テキスト」の類義語と「検索」の類義語を見つ
け、検索構造に付加し、検索構造を((検索 探す)
(対象(テキスト 文書 文章)))の形に変換する。
【0010】テキスト検索部48では、テキストベース
解析ステップ52でテキストベース中の各文章の文解析
を行ない、照合ステップ53で単語が検索構造と同様な
関係で出現するものを一致した文書として出力する。例
えば「文書を探す」、「文書が検索される」は一致した
と判定されるが、「テキストで検索する」は非一致と判
定される。
【0011】このように、検索要求文と意味的に近い文
を検索するために、従来技術の一例である図36に示す
方式においては、検索要求文の解析を行ない、格関係を
抽出し、その結果を用いて検索要求文の格関係と同じ格
関係を有する文を文書ファイルの集合中のすべての文を
格解析した結果と照合する処理を行なう。
【0012】しかし、図36においては、テキストベー
ス中の各文章の文解析をあらかじめ行ない、解析結果を
二次記憶装置等に格納しておく必要があるため、大規模
な文書量をテキストベースで扱う場合、解析時間が多大
になりしかも解析結果の格納に記憶領域を多く必要とす
るという問題があった。
【0013】図36においては、格関係の抽出を構造生
成ステップ50で行なうが、この格解析は、図36以外
にも従来例えば図41で示すような解析方式が提案され
ている。
【0014】図41は、特開昭61−187077号公
報に示された格解析方式の要点を説明する図である。図
41は、格解析のフローチャートの要点を示す図であ
り、図42は品詞関連表、図43は格関連表、図44は
意味関連表である。図41に示す方式においては、格解
析を以下のように行なう。
【0015】図41において、形態素解析された入力文
が文節ごとにAスタックと呼ばれるプッシュダウンスタ
ックに格納されており、Aスタックから先頭文節を順次
取り出してBスタックに一時格納し、品詞関連表検索
(ステップ56)、格関連表検索(ステップ57)、意
味関連表検索(ステップ58)を順次行ないながら文節
間の係り受けを行ない、結果をCスタックに格納する
(ステップ60)。従って、Cスタックには係り受け関
係が未定の文節、あるいは解析処理された文節の構造が
順次格納され、最終的には、入力文の解析結果となり出
力される(ステップ62)。
【0016】例えば、「彼は、学校へ、行った」という
三文節から成る入力文が形態素解析されてAスタックに
格納された状態を図45に示す。図45の入力に対して
は、「彼は」「学校へ」を順番にAスタックから取り出
し、両者の係り受けを行なおうとするが失敗し、Cスタ
ックに「学校へ、彼は」のように逆順で格納される。次
に、Bスタックに「行った」が入り、「学校へ」と「行
った」の係り受けが成功し係り受け結果がBスタックに
格納され、さらにこの係り受け結果と「彼は」の係り受
けが成功し、最終的に入力文の解析結果が得られる。
【0017】「学校へ」と「行った」の係り受けを行な
う際は、格関連表から「行く」の格パタンを取りだし、
「行く」が例えば主体格と場所格を取ることを認識し、
「学校へ」が格として「終状態」「場所」「目的」を取
り得ることと合わせて、共通する要素として場所格の認
定を行なう。
【0018】このように、格解析は格パタンとスタック
を用いた処理により実現される。しかし、実際の文章に
は、図41の枠組みでは解析が難しいものが存在する。
例えば、埋め込み文と呼ばれる言語現象においては、文
が別の文の中に名詞を修飾する形で埋め込まれるが、こ
の現象は埋め込まれた文の中の格が文中の右方向へ移動
し、そのときに格解析の重要な手がかりとなる助詞が消
失する。
【0019】例えば、「炊飯器を開発する山田電機」と
いう埋め込み文においては、「山田電機が炊飯器を開発
する」という文を原形としており、この原形から「山田
電機が」が「開発する」の右方向へ移動している。そし
て、このときに、助詞「が」が消失するので、「山田電
機」と「開発」の間の格関係を認識するときに問題とな
る。図41においては、「学校へ」の形態素解析結果と
して、助詞「へ」の存在から、取り得る格として「終状
態」「場所」「目的」を認定しているので、「彼が行っ
た学校」のような埋め込み文の解析において「学校」と
「行った」の間の格関係を認識することができないとい
う問題があった。
【0020】検索要求文の意味を解析した結果を用いて
情報検索を行なう従来技術は、図36以外にも図46に
示すような検索方式が提案されている。図46は、特開
平3−209563号公報に示された知的検索方式で処
理可能な検索要求文の内容の一例を示す図であり、図4
7は、同方式で検索要求文における時間表現の実体値を
確定するために用意して利用するデータであるところの
概念辞書の例であり、65は値識別表、66は実体識別
表である。さらに図48は、検索対象となるデータベー
スを構成する関係表67の例である。
【0021】図46の方式においては、入力された検索
文例63は、検索文パタン64に変換される。図46か
らわかるように、従来の日本語表現を用いて情報検索を
行なう技術は、検索要求文63の中の各単語が係り受け
関係によって結ばれており、文または文の一部として構
文解析が可能なもののみを扱っていた。例えば、「東京
の電力会社は」という検索要求文においては、文節「東
京の」と、文節「電力会社は」が連体修飾関係でむすば
れており、それゆえに構文解析が特別の工夫を必要とせ
ずに可能となっていた。そして、構文解析した結果は、
検索文パタン64に写像され、データベース検索式の生
成に利用されていた。従って、構文的に不完全な検索要
求文を扱えないという問題があった。
【0022】データベース検索式の生成においては、検
索要求文中の各単語は、概念辞書中の検索により、単語
の意味からデータベース中の値に写像され、データベー
ス検索時に利用される。例えば、「昭和初期」という単
語は、値識別表65によって、データベースの値×(1
925≦×≦1935)に写像され、データベース検索
時に値の制約条件として用いられる。
【0023】また、「電力会社」は、{東京電力、関西
電力、…}という集合に写像され、同様にデータベース
検索時に値の制約条件として用いられる。さらに、「開
発した」は、実体識別表66によって、「開発言語」ま
たは「開発元」というデータベース67の属性名に対応
する実体に写像される。
【0024】このように、日本語を用いた検索要求文の
意味を解析して情報検索を行なう従来技術は、意味解析
のために図47のような概念辞書に代表されるような単
語とデータベース間の関係づけを行なうための辞書を必
要とし、その辞書においては単語とデータベース中の値
または属性名との写像を定義しなければならない。ま
た、検索対象となるデータは、データベースとして形式
化されて格納されなければならなかった。
【0025】そのため、概念辞書の構築やデータベース
の作成に多大な労力を必要とした。また、表の種類が多
数にわたり、かつ値の種類も大量となるような大規模な
データベースに対しては、場合によっては、単語量の増
加と単語とデータベースとの対応の曖昧さが増加するこ
とにより概念辞書の構築が実際上不可能となる可能性も
ある。
【0026】例えば、時間表現一つをとってみても、
「昭和初期」という単語一つの意味解釈を行なうために
専用の辞書内情報が必要であり、その辞書情報がデータ
ベースに依存してしまう。特に端的な例としては、「昨
年」のような時刻表現は、文脈によって指す時刻が異な
るので、辞書情報を作成できない。
【0027】困難さの別な例としては、疑問詞の解釈の
問題がある。例えば、「LISPで開発したシステムは
何ですか」という質問に答えるためには、「何」が「シ
ステム」を指していることを解析し、概念辞書を利用し
て単語「システム」がデータベース中の属性「システム
名」に対応することを解析しなければならない。従っ
て、疑問文として許される対象の範囲は、やはり概念辞
書の構築範囲に制限されてしまう。
【0028】事実、図46〜図48のような方法論によ
り広い範囲のデータを扱うことが可能になったシステム
の構築実例は知られていない。
【0029】広い範囲のデータを検索するシステムを構
築するためには、データベースに対する検索よりも文書
そのものの集合であるテキストベースを検索するシステ
ムの方が適している。しかし、図36〜図40で述べた
ように、文書内の文を格解析しておいて検索要求文と照
合を取るという従来方式には、前述した文書内の文の格
解析の際の計算時間負荷と結果格納に要する記憶領域負
荷の問題がある。また、図41〜図45で述べたよう
に、格解析能力が不足しているという問題もある。
【0030】一方、従来技術によって時間表現や疑問詞
を用いた表現を検索要求文として受け付けるためには、
図46〜図48の説明で述べたように概念辞書等を用い
て検索要求文の時間表現の意味をデータベース中の属性
や値に写像する必要があり、テキストベースの検索に対
して行なう場合は概念辞書そのもの構築が不可能であ
る。
【0031】
【発明が解決しようとする課題】従来の文書検索方式は
上記のように構成されているので以下の問題点があっ
た。まず第一に、テキストベース解析においてテキスト
ベース中のすべての文章の文解析を行ない、得られた解
析結果中を探索し、検索要求文の解析処理部から出力さ
れた検索構造と照合する処理を行なうため、大規模な文
書ファイルの集合に対しては、テキストベース解析時間
が多大なものとなるという処理時間上の問題がある。さ
らに、構文解析結果が有する記憶領域は、入力文が有す
る記憶領域に加えて、辞書中の情報や文解析処理によっ
て得られた情報が付加されているため、やはり大規模な
文書ファイルの集合に対しては大量な二次記憶領域を必
要とするという問題もある。
【0032】第二に、従来の格解析では、「…動詞+名
詞…」のように、「…動詞」という文が検索要求文の中
に埋め込まれて名詞を修飾している埋め込み文の格解析
が行なえないという問題がある。従って、文書ファイル
の検索において格解析を利用した場合、「山田電機が開
発する」という検索要求文に対しては、「名詞が動詞す
る」というパタンとの照合しか行なわず、「…を開発し
た山田電機が…」のパタンは検索結果として照合されな
い。このため検索漏れが生じ、検索精度が悪化するとい
う問題があった。
【0033】第三に、従来の格解析では、「山田電機が
開発を完了した」のように、意味的には「山田電機」が
「開発」の動作主であるにもかかわらず、構文的には直
接係り受け関係にないため、文書ファイルの検索におい
て格解析を利用した場合、文書ファイル中のこのような
文に対しては格関係の照合が行なわれず、意味的に同等
であるが文章表現上が異なるパタンが検索漏れとなると
いう問題があった。
【0034】第四に、従来の検索要求文を解析した結果
を用いて情報検索を行なう技術は、いずれも検索要求文
が構文的に正しい、すなわち、係り受け関係が単語間に
成立する「文法的に正しい文」に限定されており、「山
田電機が炊飯器を」のように、文の断片的な形態を有す
る「不完全な文」を検索要求として受け付けることがで
きなかった。
【0035】第五に、「山田電機が昨年開発した」のよ
うな相対的時間表現を用いた検索要求文の場合、概念辞
書のような知識を用いて実時刻を決定することができ
ず、相対的時間表現を用いた自然な問い合わせが不可能
であった。
【0036】第六に、「山田電機が何を開発したか」の
ような疑問詞を用いた検索要求文の場合、関係表のよう
に形式化されるデータベースに対する問い合わせとして
の解釈しか行なうことができず、一般の文書の検索にお
いては、疑問詞を用いた検索要求文を用いることができ
なかった。
【0037】この発明は、以上のような問題点を解消す
るためになされたもので、例文と類似した文を正しく検
索することができ、不要な検索を除去することができる
という意味で高精度の検索が可能であり、しかも全文書
ファイルを解析する必要がなく高速処理が可能である文
書検索方式を得ることを目的とする。
【0038】さらに、埋め込み構造解析手段により単語
の出現順序の如何にかかわらず、意味的関係を有するよ
うな単語間の関係を検索することによって、検索漏れの
少ない検索を実現することが可能である文書検索方式を
得ることを目的とする。
【0039】さらに、拡張格構造解析手段により直接二
つの単語の係り受けによって格関係をなすような文以外
に、二つの単語が直接係り受けされていないような拡張
格構造構造を検索することによって、内容が関連する可
能性のある文書を検索することが可能である文書検索方
式を得ることを目的とする。
【0040】さらに、述語省略解析手段により述語が省
略されていて名詞のみからなり、しかも名詞間に直接係
り受けがなされていないような不完全格構造の検索を行
なうことによって、広範囲な種類の文を検索することが
可能である文書検索方式を得ることを目的とする。
【0041】さらに、実時刻変換手段により、検索要求
文の中に含まれる実時刻の不確定な「昨日」「今日」の
ような時間名詞の解釈を特別なテーブルをもたずに計算
することによって、不確定な時間名詞を用いた検索要求
文から実時刻が記述された文を検索することが可能であ
る文書検索方式を得ることを目的とする。
【0042】さらに、疑問詞解釈手段と疑問詞照合手段
により、「何」「どこ」等の疑問詞の意味を解釈するこ
となしに疑問詞を含む検索要求文に基づいて、検索を行
なうことによって使用者の検索容易性を向上する文書検
索方式を得ることを目的とする。
【0043】
【課題を解決するための手段】この発明に係る文書検索
方式は、以下の要素を有する。検索要求文を入力する入
力手段、上記入力手段によって入力された検索要求文の
文字列に対して構造解析を行ない単語間の結合関係を抽
出する解析手段、上記解析手段によって抽出された検索
要求文中の複数の単語がともに含まれている文書ファイ
ルを文書ファイルの集合から検索する全文検索手段、上
記全文検索手段によって検索された文書ファイルの中か
ら、検索要求文中の複数の単語が一つの文中に存在する
文を抽出する文切り出し手段、上記文切り出し手段によ
って抽出された文中の複数の単語に対して上記解析手段
によって抽出された結合関係が成立するかどうかを調べ
る照合手段、上記照合手段の照合結果に基づき、上記検
索要求文と照合可能な文を有する文書ファイルを検索要
求文と内容的に関連する文書として出力する出力手段。
【0044】上記全文検索手段は、文字コードからその
文字コードが存在する文書ファイルを検索することがで
きる索引表と、索引表を用いて検索要求文中の単語を構
成する文字の文字コードからその文字コードが存在する
文書ファイルを検索する索引表検索手段と、検索された
文書ファイルから検索要求文中の単語を検索する文書フ
ァイル検索手段を備えたことを特徴とする。
【0045】上記文切り出し手段は、検索要求文中の単
語が存在している文書ファイル中の位置を検出する単語
照合手段と、検出された位置に基づいて複数の単語が同
一文中にある文を切り出す文切り出し手段を備えたこと
を特徴とする。
【0046】上記単語は自立語であり、上記結合関係
は、自立語間の格関係であることを特徴とする。
【0047】また、この発明に係る文書検索方式は、ユ
ーザが入力した日本語文の格構造と同じ格構造を有する
文を含む文書を索引表を用いて検索する索引表検索手段
を設けたものである。
【0048】また、埋め込み構造の解析を行ない、単語
の出現順序の如何にかかわらず意味的関係を有するよう
な単語間の関係を解析する埋め込み文解析手段を設けた
ものである。
【0049】上記埋め込み構造解析手段は、形態素解析
を行う形態素解析手段と、形態素解析結果に対して名詞
の前方に述語がきた場合の格関係を求める格関係逆照合
手段と、格関係逆照合手段により求められた格関係の成
立を確認するために前方にある付属語を観察する前方付
属語観察手段を備えたことを特徴とする。
【0050】また、直接二つの単語の係り受けによって
格関係をなすような文以外に、二つの単語が直接係り受
けされていないような拡張格構造構造を解析する拡張格
構造解析手段を設けたものである。
【0051】上記拡張格構造解析手段は、形態素を解析
する形態素解析手段と、形態素解析結果から拡張格構造
パタンを抽出し、抽出した拡張格構造パタンから原型パ
タンに変換する拡張格構造照合手段と、得られた原型パ
タンを用いて格解析を行う格解析手段を備えたことを特
徴とする。
【0052】また、述語が省略されていて名詞のみから
なり、しかも名詞間に直接係り受けがなされていないよ
うな不完全格構造を持つ検索要求文を解析する述語省略
検査手段を設けたものである。
【0053】また、検索要求文の中に含まれる実時刻の
不確定な「昨日」「今日」のような時間名詞の解釈を特
別なテーブルをもたずに計算することによって、不確定
な時間名詞を用いた検索要求文から実時刻が記述された
文を検索する実時刻変換手段を設けたものである。
【0054】また、「何」「どこ」等の疑問詞の意味を
解釈することなしに、疑問詞を含む検索要求文に基づい
て検索を行なう疑問詞解釈手段と疑問詞照合手段を設け
たものである。
【0055】
【作用】この発明においては、利用者が入力手段から入
力した検索要求文から、格解析手段によって格構造の抽
出を行ない、得られた単語分割結果からは全文検索手段
によって二単語の全文検索を行ない、文切り出し手段に
よって二単語がともに存在する文を全文検索結果の文書
ファイル集合中から文切り出し結果として抽出し、先に
得られた検索要求文の格構造と文切り出し結果としての
文の格解析結果との照合を格照合手段によって行ない、
照合が成功した文を出力手段によって出力表示する。
【0056】また、この発明においては、予め文書ファ
イルに用いられている文字を索引表に登録し、検索要求
文中の単語を構成している文字コードを用いて索引表か
らその文字コードが存在する文書ファイルを検索する。
このように、索引表を用いて検索要求文の自立語が存在
する可能性のあるファイルを特定することができるた
め、全文書ファイルを格解析してその結果を格納してお
く必要はない。
【0057】また、この発明においては、検索要求文中
の単語が存在している可能性のある文書ファイルの中か
ら、文切り出し手段が検索要求文中の単語が同一文中に
あるかどうかを判断し、その文を切り出す。従って、一
つの文書ファイル内にある全ての文に対して、格解析す
る必要がない。
【0058】また、この発明においては、前述した解析
手段において自立語間の格関係を抽出し、この自立語間
の格関係に基づいて照合手段が抽出された格関係が成立
するかどうかを調べることにより検索が行われる。
【0059】また、この発明においては、索引表を予め
作成しておくことにより、索引表から文字列が存在する
可能性のある文書ファイルを特定することができ、複数
の文書ファイル全てに対して文字列の検索を行う必要が
ない。
【0060】また、この発明においては、埋め込み構造
解析手段により名詞と述語の位置関係が逆転した埋め込
み文に対しても、格解析を行うことができる。
【0061】また、この発明においては、形態素解析手
段によって得られた埋め込み構造を有する文の形態素解
析結果から、格辞書照合手段によって格辞書を照合し、
さらに前方付属語探索手段によって消失した付属語を探
索することによって埋め込み構造を解析する。
【0062】また、この発明においては、拡張格構造解
析手段により名詞と述語が直接の格関係を持たない拡張
格構造を持つ文に対しても格解析を行うので、名詞と述
語が直接の係り受け関係にない場合でも意味的に同等な
文との照合を行うことができる。
【0063】また、この発明においては、形態素解析手
段によって得られた拡張格構造を有する文の形態素解析
結果から、拡張格構造照合手段によって拡張格構造辞書
を照合し、さらに格解析手段によって拡張格構造を解析
する。
【0064】また、この発明においては、述語省略検査
手段によって検索要求文における述語の省略を検査し、
得られた二単語を全文検索し、さらに文切り出し手段に
よって二単語を含む文を抽出した後に同一述語解析手段
によって検索要求文との照合を行なう。
【0065】また、この発明においては、検索要求文に
対して相対的時刻表現の有無を検査し、あれば実時刻変
換手段によって実際の時刻表現に変換する。
【0066】また、この発明においては、検索要求文に
対して疑問詞解釈手段によって疑問詞の有無を検査し、
あれば検索要求文の単語に対して全文検索、文切り出し
を行なったあと文切り出し結果に対して疑問詞照合手段
によって疑問詞の照合を行ない、照合が成功すれば疑問
詞照合結果表示手段によって検索要求文への回答を出力
表示する。
【0067】
【実施例】 実施例1.図1は、この発明による文書検索方式の一実
施例の全体構成図である。図1において、1は、キーボ
ードなどからなる入力手段であり、検索の対称となる日
本語文字列や制御指示などを制御部2に入力する。制御
部2は、格解析手段3、全文検索手段4、文切り出し手
段5、格照合手段6からなり、制御プログラムに従い、
後述するデータ処理を行う。7は、二次記憶装置に格納
されている文書ファイルの集合である。8は、変換結果
を表示するディスプレイなどの表示手段である。
【0068】図2は、この発明の実施例の動作を示すフ
ローチャートである。例として、「山田電機が開発す
る」という入力に対し、「山田電機が昨年開発した炊飯
器の売れ行きが好調である。」という文を文書ファイル
中から検索し、表示させる場合について説明する。
【0069】まず、入力手段1によって、「山田電機が
開発する」という日本語文を入力する(ステップ6
8)。入力はキーボードからの仮名漢字変換機能等によ
る通常の日本語入力を行なう。次に格解析手段3によっ
て、入力文字列に対する格解析を行ない「動作主(山田
電機、開発)」という格関係を「山田電機」と「開発」
という二つの自立語の間にあることを抽出する(ステッ
プ69)。
【0070】次に、全文検索手段4によって文書ファイ
ルの集合7から「山田電機」、「開発」という二つの自
立語をともにファイル中に含む文書ファイルを検索する
(ステップ70)。検索された結果は文書ファイルの部
分集合であり、これを全文検索結果と呼ぶ。続いて、文
切り出し手段5によって、全文検索結果の中から二つの
自立語を同じ文に含むような文を有する文書ファイルだ
けを抽出する。この文書ファイルの部分集合を文切り出
し結果と呼び、二つの自立語を含む文を候補文と呼ぶ
(ステップ71)。
【0071】格照合手段は、候補文の中の二つの自立語
に対してステップ69で抽出された格関係が成立するか
どうかを調べ、成立すれば候補文を含む文書ファイルを
格照合結果として優先表示するために表示手段に渡す
(ステップ72と73)。この場合、表示手段は、格照
合結果を全文検索結果よりも優先的に画面表示する(ス
テップ74)。格照合が成立しなければ、あるいはステ
ップ69の格解析が成功しなかった場合は、全文検索を
実行し(ステップ70a)、全文検索結果のみを表示手
段に渡し、全文検索結果を表示する(ステップ75)。
【0072】以下、別の図を用いて、さらに詳細を説明
する。図3は、格解析手段3の構成例を示す図である。
9は格解析制御部、12は日本語辞書、13は格辞書で
ある。格解析制御部9は、形態素解析手段10、格辞書
照合手段11からなり、後述するデータ処理を行なう。
【0073】形態素解析手段10は、日本語辞書12を
用いて入力文を単語に分割する手段であり、自立語と付
属語、及び品詞の種類を認識する。日本語辞書12は、
一般の自然言語処理で用いられるものと同様の構成であ
り、かな漢字交じりの日本語表現を見出しとして、品詞
や単語間の接続関係情報等が記載されたものである。
【0074】図4に格辞書13の構成を示す。格辞書1
3は、動詞、形容詞、形容動詞及びサ変名詞からなる述
語に対して、名詞と付属語の組み合わせが修飾した場合
に、どのような種類の格を取り得るかを規定する辞書で
ある。名詞の数は多いので、格辞書中の名詞の欄にすべ
ての名詞と対応可能な特別の印(*)を記述することが
できる。その場合は、付属語と述語のみの組み合わせに
よって対応する格を規定する。
【0075】格辞書照合手段11は、形態素解析結果に
対して格辞書13を照合し、入力文の中の名詞と付属語
及び述語の組み合わせに対応する格を見つける。格が見
つかった場合は、「格(名詞、述語)」を格解析結果と
して呼び出しプログラム側に返す。見つからなかった場
合は、失敗として制御を呼び出しプログラム側に戻す。
【0076】図5は、格解析手段の動作を示すフローチ
ャートである。「山田電機が開発する」という日本語文
が入力されると、形態素解析手段10により、「山田電
機」が名詞、「が」が付属語助詞、「開発」がサ変名
詞、「する」がサ変名詞に接続する助動詞であることが
わかる(ステップ76)。続いて、格辞書照合手段11
により、格辞書照合処理を行ない、格辞書の内容と名
詞、付属語助詞、述語の照合を行なうことによって、
「山田電機」と「開発」が動作主格の関係にあることが
わかる。そこで、「動作主(山田電機、開発)」を出力
する(ステップ77)。
【0077】図6は、格辞書照合手段11の動作を示す
フローチャートである。形態素解析結果78の中の述語
すべてに対して、文の後方にある述語から順に着目しな
がら、以下の処理を再帰的に行なう。
【0078】まず、着目している述語の直前の文節すな
わち形態素解析結果中の左側に隣接する名詞と付属語の
組み合わせに対して、名詞と付属語及び着目中の述語の
組み合わせが格辞書13の中に存在するかどうかを検査
する(ステップ80から83)。あれば、対応する格を
格辞書13から得て、名詞と述語の間の格関係と見なす
(ステップ84)。続いて、さらに左側の文節に対して
同様の処理(ステップ81から84)を順番に行ない、
着目中の述語に対するすべての格関係を抽出するまで処
理を繰り返す。
【0079】ステップ83において、格辞書13の中の
探索が失敗すれば、その文節は着目中の述語に対して格
関係を持たないので、処理を終了し制御を起動側に返
す。格辞書13の中に存在しても、着目中の述語に対し
てすでに割り当てられた格と同一種類の格であったら、
一つの述語は同一種類の格を一つしかとらないという広
く認められている「一文一格の原理」に反するので、処
理を終了し制御を起動側に返す(ステップ85)。
【0080】着目中の述語の左側の文節を順に選択し
て、処理を行なっていくステップ81から84の過程に
おいて、述語から成る文節を選択したら(ステップ8
6)、それは新しい着目述語の出現であるから、図6の
処理自身を再帰的に呼び出す(ステップ87)。再帰呼
び出しにより、呼び出し終了後は、現在着目中の述語の
処理に復帰する(ステップ88)ので、一文が複数の述
語からなる文節を持ち格関係の入れ子構造を持つ場合に
も対応できるようになっている。
【0081】着目中の述語の左側の文節を順に選択し
て、処理を行なっていく過程において、副詞等の文節を
選択したらスキップし、さらに左側の文節を探索する
(ステップ89)。このようにして、着目している述語
に対してすでに割り当てられた格関係をとる文節を選択
するか、あるいは文頭に到達するまで、着目中の述語に
対する格の割り当ての処理を繰り返す。
【0082】図7は、全文検索手段の構成を示す構成図
である。14は全文検索制御部、7は二次記憶装置に格
納された文書ファイル集合、15は文書ファイル中のす
べての文字コードや、文字コード列がどの文書ファイル
に存在するかの情報を格納してある索引表である。全文
検索制御部は、索引表検索手段16、文書ファイル検索
手段17から成り、後述するデータ処理を行なう。
【0083】索引表検索手段16は、入力された文字列
が文書ファイル集合7のどの文書ファイル中に存在する
かを検索する手段である。文書ファイル検索手段17は
索引表検索手段により得られた文書ファイルに対して、
文書ファイルの内容を検索する手段である。
【0084】図8は、全文検索手段の動作を示すフロー
チャートである。例えば、「山田電機」という文字列が
入力されると、索引表検索手段16により、索引表検索
が行われる(ステップ90)。
【0085】図9は、索引表15の構成の一例である。
図9においては、索引表は、各行を一つ一つの日本語文
字コード、各列を文書ファイルの識別番号に対応させた
二次元行列とし、行列値として0または1をとり、1の
場合は、対応する文字コードが対応する文書ファイルに
存在し、0の場合は存在しないようにしたものである。
【0086】図9の例においては、”山”がファイル2
とファイルNに、”田”がファイル1とファイルNに、
それぞれ存在することを表わしている。また、”電”が
ファイルNに存在することを表している。また、”機”
がファイル1とファイル2とファイルNにそれぞれ存在
することを表している。この結果、文字列「山田電機」
は、ファイル1及びファイル2には存在していないこと
が確認される。一方、文字列「山田電機」は、ファイル
Nに存在する可能性があることを示している。この例に
おいては、ファイルNだけに対して文字列「山田電機」
が存在している可能性があることが判明するが、複数の
ファイルに対して文字列「山田電機」が存在する可能性
があることが判明する場合も存在する。同様にして、”
開”は、ファイル1とファイルNに存在しており、”
発”は、ファイル1とファイル2とファイルNに存在し
ていることを表している。従って、文字列「開発」は、
ファイル1とファイルNに存在している可能性がある。
その他のファイルには、文字列「開発」は存在していな
い。
【0087】このようにして、文字列「山田電機」が存
在する可能性があるファイルがファイルNであり、文字
列「開発」が存在する可能性がああるファイルがファイ
ル1とファイルNであることが判明する。従って、文字
列「山田電機」と文字列「開発」の両方が存在している
可能性があるファイルは、ファイルNだけであることが
判明する。この例においては、二つの文字列が存在して
いる可能性があるファイルとしてファイルNだけが選び
出されるが、複数のファイルが選び出される場合も存在
する。
【0088】図8のステップ90における索引表検索の
結果、文字列「山田電機」に対して各文字が存在する文
書ファイルの部分集合がわかるが、この時点では、文書
ファイル中に「山田電機」の各文字がこの順序で連続し
てファイル中に出現しているかどうかは保証されないの
で、次に文書ファイル検索手段17によって、文書ファ
イル検索を行ない、「山田電機」が存在し得る各文書フ
ァイルの内容に対して「山田電機」が存在するかどうか
を検索し、存在した文書ファイルの集合を出力する(ス
テップ91)。同様にして、文字列「開発」に対して、
「開発」の各文字がこの順序で連続してファイルに出現
しているかどうかを文書ファイル検索手段によって、文
書ファイル検索を行う。
【0089】なお、索引表15は文書ファイル集合7が
与えられたとき、その中の文字コードを一度検査するこ
とにより短い計算時間で容易に作成することが可能であ
る。また、日本語文字コードとして使用頻度の高い文字
コード(例えばJIS第一水準)に限定して作成すれ
ば、実際の利用上の効果を失わずに少ない記憶領域で作
成できる。従って、文書ファイル中の文をすべて格解析
しておく方法と比較して、計算時間と記憶領域上の利点
を持つ。
【0090】図10は、文切り出し手段の構成を示す構
成図である。18は文字切り出し制御部であり、単語照
合手段19と文区切り検出手段20から成り、制御プロ
グラムにより後述するデータ処理を行なう。
【0091】図11は、文切り出し手段の動作を示すフ
ローチャートである。文書ファイルと検索要求文の中の
二つの単語が入力されると、その単語を含む文を文書フ
ァイルから抽出するために、まず単語照合手段によっ
て、単語照合処理を行なう(ステップ92)。単語照合
処理では、文書ファイル中の二つの単語のそれぞれが存
在する位置を検出する。例えば、文字列「山田電機」と
いう単語が二つ存在し、文字列「開発」が三つ存在する
場合には、あわせて五つの単語の位置を検出する。
【0092】続いて、文区切り検出手段により、二つの
単語のすべての組み合わせに対して、二つの単語の間に
文の区切りとなる句点等の文字コードの存在や空行が存
在するかどうかの検出を行なう(ステップ93)。例え
ば、文字列「山田電機」が二つ存在し、「開発」が三つ
存在する場合には、あわせて6組の組み合せが存在す
る。この6組の組み合せに対してそれぞれの単語の間に
文の区切りとなる句点や改行コードが存在するかどうか
を検出する。文の区切りが存在しなければ、二つの単語
が同一文にあると判断する。さらに二つの単語のうちフ
ァイル内の位置として前方にある方の単語から、さらに
前方にある最も近い文の区切りと、後方にある単語のう
ちさらに後方にある最も近い文の区切りとで囲まれた部
分の文字列を候補文として出力する(ステップ95)。
【0093】二つの単語の間に文の区切りとなる文字コ
ードが存在すれば、その二つの単語は同一文にないもの
と判断し、何も出力しない。ステップ93からステップ
95の処理は、ステップ92で抽出された二単語の出現
位置のすべての組み合わせに対して何度も繰り返して行
なう。例えば、6組の組み合せがある場合には、前述し
たステップ93〜ステップ95の処理は、6回繰り返さ
れる。従って、文切り出し手段の出力は、0個以上の候
補文である。
【0094】図12は、格照合手段の構成を示す構成図
である。21は格照合制御部であり、格照合制御部は格
解析手段3と格照合判定手段22からなる。格照合制御
部は、後述するデータ処理を行なう。
【0095】図13は、格照合手段の動作を示すフロー
チャートである。検索要求文を格解析した結果「格(単
語1、単語2)」と、全文検索結果から文切り出し手段
によって切り出した候補文が入力される。格解析結果と
して、「動作主(山田電機、開発)」候補文として、
「山田電機が昨年開発した炊飯器の売れ行きが好調であ
る。」という文の場合を例にとって説明する。
【0096】候補文を格解析手段によって格解析し(ス
テップ96)、「動作主(山田電機、開発)」を得る。
続いて、格照合判定手段により、ステップ97で格照合
判定を行ない、検索要求文の格解析結果と候補文の格解
析結果がそれぞれ同じ名詞と同じ述語間の同じ格関係で
あることを判定し、格照合が成功する。
【0097】図14は、表示手段によって表示出力され
る画面の一構成例を示す図である。23は図2のステッ
プ75の全文検索結果の表示例である。この場合は、通
常の文書検索と同様に検索された文書ファイルの一覧表
を表示する。24は表示手段が図2のステップ74の優
先表示を行なう場合の表示例である。24においては、
格照合手段6の出力である候補文を、全文検索手段4の
出力である全文検索結果よりも、画面の中心あるいは上
部等、利用者にわかりやすい表示位置に出力表示し、さ
らに、格関係を構成する単語を下線添加やハイライト表
示等なんらかの強調表示により、操作者にわかりやすく
優先的に表示する。これによって、検索要求文と内容が
関連する文書内の文を利用者にわかりやすく表示させる
ことが可能である。
【0098】以上のように、この実施例においては、文
書ファイルの検索において、検索要求文の入力手段と、
上記入力手段によって入力された二つの自立語から成る
日本語文字列に対して日本語の格構造解析を行ない自立
語間の格関係を抽出する格解析手段と、格解析手段によ
って抽出された検索要求文中の二つの自立語がともに含
まれている文書ファイルを二次記憶装置上の文書ファイ
ルの集合から検索する全文検索手段と、全文検索手段に
よって検索された文書ファイルの集合の中から、検索要
求文中の二つの自立語がともに一つの文中に存在する文
を抽出する文切り出し手段と、記文切り出し手段によっ
て抽出された日本語文中の二つの自立語に対して上記格
解析手段によって抽出された格関係が成立するかどうか
を調べる格照合手段を備え、上記検索要求文と格照合可
能な日本語文を有する文書ファイルを検索要求文と内容
的に関連する文書として優先表示することを特徴とす
る。
【0099】なお、上記実施例においては、検索要求文
として二つの文節からなる例文を用いて説明したが、三
つ以上の文節からなる例文も同様の手段によって扱うこ
とが可能である。
【0100】また、上記実施例においては、一つの検索
要求文のみからなる検索例を用いて説明したが、検索要
求文の複数個をandまたはorの論理演算子を用いて
結合した検索条件式の形で入力し、それぞれの検索要求
文の検索結果に対して論理結合を行なうことで検索範囲
の拡大または絞り込みを可能とするような構成も、本実
施例を用いて実施可能である。
【0101】実施例2.図15は、この発明による文書
検索方式の一実施例の全体構成図である。図15におけ
る1,2,3,4,5,6,7,8は、それぞれ、図1
における1,2,3,4,5,6,7,8と同様の入力
手段、制御部、格解析手段、全文検索手段、文切り出し
手段、格照合手段、文書ファイルの集合、表示手段であ
る。25は埋め込み構造解析手段である。
【0102】図16は、この発明の実施例の動作を示す
フローチャートである。例として、「山田電機が開発す
る」という入力に対し、「昨年新型炊飯器を開発した山
田電機」という文を文書ファイル中から検索し表示させ
る場合について説明する。
【0103】実施例1と同様に、「山田電機が開発す
る」という日本語入力文を入力する(ステップ98)。
以下、格解析手段、全文検索手段、文切り出し手段によ
る処理を実施例1と同様に行ない、候補文を抽出する
(ステップ99,100,101,102)。続いて、
格照合手段により、候補文の中の二つの自立語に対して
ステップ99で抽出された検索要求文の格解析結果と同
じ格関係が成立するかどうかを調べ(ステップ103,
104)、成立すれば候補文を含む文書ファイルを格照
合結果として優先表示するために表示手段に渡す。
【0104】この例では、候補文が「昨年新型炊飯器を
開発した山田電機」なので、格照合が成立しない。従っ
て、さらに、文切り出し結果と候補文を埋め込み構造解
析手段に渡し、埋め込み構造解析処理によって二つの自
立語の位置が入力文と逆になっていて格関係が成立して
いる候補文かどうかを調べる(ステップ105,10
6)。
【0105】この例では、埋め込み構造解析処理の結
果、入力文と同じ格構造「動作主(山田電機、開発)」
の抽出処理が成功するので、候補文を含む文書ファイル
を格照合結果として優先表示するために表示手段に渡
す。すなわち、「…を開発した山田電機が…」において
も「…を開発した」という埋め込み文が「山田電機」を
修飾していることを解析し、格関係が成立する可能性の
あることを認識する。埋め込み構造解析処理が入力文の
格解析結果と同じ格関係を出力しなかった場合は、全文
検索結果のみを表示手段に渡し、全文検索結果を表示す
る。
【0106】図17は、埋め込み構造解析手段の構成を
示す図である。26は埋め込み構造解析制御部であり、
形態素解析手段10、格辞書逆照合手段27、前方付属
語探索手段28から成る。形態素解析手段10は日本語
辞書12を、格辞書逆照合手段は格辞書13を、それぞ
れ参照する。
【0107】格辞書逆照合手段27は、格辞書照合手段
と同様に形態素解析結果に対して格辞書を照合し格関係
を求める手段であるが、格辞書照合手段が自立語名詞の
後方に述語が来た場合の格関係を求めたのに対し、自立
語名詞の前方に述語が来た場合の格関係を求めるのを特
徴とする手段である。前方付属語手段28は、格関係の
成立に必要な付属語を文の前方に探索する手段である。
埋め込み構造解析制御部は、これらの手段を用いて図2
2のデータ処理を行なう。
【0108】図18は、埋め込み構造解析手段の動作を
示すフローチャートである。埋め込み構造解析手段の入
力として「昨年新型炊飯器を開発した山田電機」という
候補文が入力された場合を説明する。形態素解析手段1
0により、形態素解析を行ない、「開発」が述語、「山
田電機」が名詞であるなど、単語分割と品詞認定結果を
得る(ステップ109)。
【0109】続いて、格辞書逆照合手段27により格辞
書逆照合処理を行ない、格関係を抽出する(ステップ1
10)。格辞書照合処理では、形態素解析中の述語「開
発」と名詞「山田電機」に着目し、述語「開発」の右側
に名詞「山田電機」が出現しているかどうかを検査し、
さらに、格辞書13を探索し述語「開発」と名詞「山田
電機」がともに出現する行の部分があり、そこに記述さ
れている格「動作主」と付属語助詞「が」を得る。検査
と格辞書探索が成功すれば、格辞書逆照合処理が成功し
たとして、格関係「動作主(山田電機、開発)」と、付
属語助詞「が」を結果として返す。
【0110】すなわち、格辞書逆照合処理は図6で説明
した格辞書照合手段の動作と異なり、述語と述語の右側
に存在する文節一つだけとしか格関係成立に関する動作
を行なわず、さらに格辞書13から付属語助詞を参照す
るが、名詞と名詞に付属する付属語助詞との検査を行な
わない。
【0111】格辞書逆照合処理が成功の場合は、結果と
して返された付属語助詞を用いて、前方付属語探索手段
により、前方付属語探索処理を行ない、格辞書中に記述
されていた付属語助詞「が」が述語の前方、すなわち左
側方向に出現しているかどうかを検査する(ステップ1
12)。これは、例えば「山田電機が開発した炊飯器」
のように述語「開発」の前方に付属語「が」が存在して
いたら、自立語名詞「炊飯器」が「開発」の動作主格で
ある可能性が少なくなることによる。検査の結果、付属
語助詞「が」が存在すれば埋め込み構造解析処理が失敗
したとし、さもなければ成功したとして制御を呼びだし
側に戻す(ステップ113)。
【0112】以上のように、この実施例においては、入
力手段、格解析手段、全文検索手段、文切り出し手段、
格照合手段、表示手段を備え、さらに格照合が失敗した
場合には埋め込み文の格解析を行なうような埋め込み構
造解析手段によって、検索要求文を構成する名詞と述語
の位置関係が逆転し、述語が先行する埋め込み文に対し
ても検索要求文との照合を行ない、それによって検索範
囲を拡大し検索漏れの少ない検索を実現することを特徴
とする。
【0113】実施例3.図19は、この発明による文書
検索方式の一実施例の全体構成図である。図19におけ
る1,2,3,4,5,6,7,8は、それぞれ、図1
における1,2,3,4,5,6,7,8と同様の入力
手段、制御部、格解析手段、全文検索手段、文切り出し
手段、格照合手段、文書ファイルの集合、表示手段であ
る。25は図15における25と同様の埋め込み構造解
析手段である。29は拡張格構造解析手段である。
【0114】図20は、この発明の実施例の動作を示す
フローチャートである。例として、「山田電機が開発す
る」という入力に対し、「昨年山田電機が開発を完了し
た」という文を文書ファイル中から検索し表示させる場
合について説明する。
【0115】実施例1,2と同様に、「山田電機が開発
する」という日本語入力文を入力する。以下、格解析手
段、全文検索手段、文切り出し手段による処理を実施例
1と同様に行ない、文切り出し結果と候補文を抽出す
る。続いて、格照合手段により、候補文の中の二つの自
立語に対してステップ115で抽出された検索要求文の
格解析結果と同じ格関係が成立するかどうかを調べ、成
立すれば候補文を含む文書ファイルを格照合結果として
表示手段に渡す。
【0116】この例では、候補文が「昨年山田電機が開
発を完了した」なので、格照合が成立しない。従って、
さらに、文切り出し結果と候補文を埋め込み構造解析手
段に渡し、埋め込み構造解析処理を行なう(ステップ1
21)。この処理も成功しないので、さらに、候補文を
拡張構造解析手段に渡し、拡張構造解析処理によって、
候補文の構造が拡張格構造かどうかを調べ、格関係を抽
出する(ステップ123)。ここで、拡張格構造とは、
「山田電機が開発を行なう」のように、名詞「山田電
機」が述語「開発」に直接係らずに述語が名詞化された
述語名詞とともに「行なう」や「する」や「完了する」
のような遂行の意味を持つ動詞に係る構造のことを呼
ぶ。
【0117】この例では、拡張格構造解析処理が入力文
の格解析結果と同じ格関係の抽出に成功するので、候補
文を含む文書ファイルを格照合結果として優先表示する
ために表示手段に渡す。すなわち、「昨年山田電機が開
発を完了した」においても「山田電機」と「開発」が動
作主の関係に事実上あることを認識したことになる。拡
張格構造解析処理が失敗した場合は、全文検索結果のみ
を表示手段に渡し、全文検索結果を表示する。
【0118】図21は、拡張格構造解析手段29の構成
を示す図である。30は拡張格構造解析制御部であり、
形態素解析手段10、拡張格構造照合手段31、格解析
手段3から成る。これらの手段は、それぞれ日本語辞書
12、拡張格構造辞書32、格辞書13を参照する。拡
張格構造照合手段31は、形態素解析結果に対して拡張
格構造辞書32を照合し格関係を求める手段である。拡
張格構造辞書32は、拡張格構造として認められる構造
を規定するための辞書である。拡張格構造解析制御部3
0は、これらの手段を用いて図22のデータ処理を行な
う。
【0119】図22は、拡張格構造解析手段の動作を示
すフローチャートである。入力文として「昨年山田電機
が開発を完了した」という候補文が入力された場合を説
明する。形態素解析手段により、形態素解析を行ない、
「開発」が述語、「山田電機」が名詞、「完了」が述語
など、単語分割と品詞認定結果を得る(ステップ12
7)。
【0120】続いて、拡張格構造照合手段により拡張格
辞書の照合処理を行なう(ステップ128)。図23
は、拡張格構造辞書の構成を示す図である。拡張格構造
辞書は、図に示すように単語と品詞の組み合わせの列の
形をした拡張格構造パタン33と、拡張格構造パタンの
中に含まれる格構造部分を取り出した原型パタン34に
よって、拡張格構造が取り得る形態を規定する。
【0121】拡張格構造の照合処理(ステップ128)
は、拡張格構造辞書の拡張格構造パタン33を順に候補
文の形態素解析結果と照合していき、照合可能な拡張格
構造パタンを抽出し、対応する原型パタン34に変換す
る。この例では、「山田電機」が<名詞>に、「開発」
が<述語>に、「完了」が「完了」にそれぞれ照合可能
なので、原型パタンの「<名詞>が<述語>する」、す
なわち、「山田電機が開発する」に変換される。さら
に、格解析手段によって、原型パタン「山田電機が開発
する」に対してステップ130で格解析処理を行ない、
格解析結果として「動作主(山田電機、開発)」を抽出
し、制御を呼び出し側に戻す。
【0122】以上のように、この実施例においては、入
力手段、格解析手段、全文検索手段、文切り出し手段、
格照合手段、表示手段を備え、さらに格照合が失敗した
場合には拡張格構造の解析を行なうような拡張格構造解
析手段によって、検索要求文を構成する名詞と述語から
なる文のみならず、意味的に同等であっても名詞と述語
が直接の係り受け関係にないような拡張格構造を有する
文との照合を行ない、それによって検索範囲を拡大し検
索漏れの少ない検索を実現することを特徴とする。
【0123】実施例4.図24は、この発明による文書
検索方式の一実施例の全体構成図である。図24におけ
る1,2,3,4,5,6,7,8は、それぞれ、図1
における1,2,3,4,5,6,7,8と同様の入力
手段、制御部、格解析手段、全文検索手段、文切り出し
手段、格照合手段、文書ファイルの集合、表示手段であ
る。15は埋め込み構造解析手段、29は拡張格構造解
析手段である。33は述語省略検査手段、34は同一述
語解析手段である。
【0124】図25は、この発明の実施例の動作を示す
フローチャートである。例として、「山田電機が炊飯器
を」という入力に対し、「昨年山田電機が炊飯器を発売
した」という文を文書ファイル中から検索し表示させる
場合について説明する。実施例1,2,3と同様に、は
じめに格解析手段3によって入力文の格解析を行なう
(ステップ132)。しかし、入力文は述語が存在しな
いので格解析が失敗する。そこで、ステップ133の判
断が失敗し、ステップ134で述語省略検査手段33に
より述語省略検査処理を行なう。
【0125】図26は、述語省略検査手段の動作を示す
フローチャートである。述語省略検査処理は入力として
与えられた検索要求文の形態素解析を行ない(ステップ
142)、入力文が「名詞1+助詞1+名詞2+助詞
2」の構造をしているかどうかを検査する(ステップ1
43,144,145,146,147,148,14
9,150)。
【0126】検査が成功すれば、図25のステップ13
6で全文検索を行なった後、ステップ137で入力文切
り出し手段によって、名詞1と名詞2がともに同一の文
に存在する候補文を検索する。続いて、同一述語解析手
段34により、候補文に対して同一述語解析を行なう
(ステップ138)。
【0127】図27は、同一述語解析手段34の動作を
示すフローチャートである。同一述語解析は、候補文の
中の二つの名詞がともに同一の述語に係っているかどう
かを検査し、係っていれば入力文と照合可能であると見
なす。
【0128】この例では、「山田電機」と「炊飯器」
が、ともに同一の述語「発売」に係っていることがわか
るので、図25のステップ139で候補文と入力文が照
合可能であると見なし、候補文を含む文書ファイルを格
照合結果として優先表示するために表示手段に渡す。述
語省略検査処理、または、同一述語解析が失敗した場合
は、全文検索結果のみを表示手段に渡し、全文検索結果
を表示する。
【0129】以上のように、この実施例では、入力手
段、格解析手段、全文検索手段、文切り出し手段、格照
合手段、表示手段を備え、さらに検索要求文の格解析が
失敗した場合には検索要求文が名詞と助詞からなる文節
の連続から構成され各文節が係り受け関係にはないもの
の後方に述語の存在を仮定すればともにその述語に係り
得るかどうかを検査する述語省略検査手段と、さらに文
書ファイル中の文に対して検索要求文の各名詞がともに
同一述語に係っているような文であるかどうかを解析す
る同一述語解析手段によって、述語が省略された不完全
な文でも検索要求文として入力可能であるために利用者
の操作性が向上していることを特徴とする。
【0130】実施例5.図28は、この発明による文書
検索方式の一実施例の全体構成図である。図28におけ
る1,2,3,4,5,6,7,8は、それぞれ、図1
における1,2,3,4,5,6,7,8と同様の入力
手段、制御部、格解析手段、全文検索手段、文切り出し
手段、格照合手段、文書ファイルの集合、表示手段であ
る。36は実時刻変換手段、37は実時刻変換のための
時刻名詞表である。
【0131】図29は、この発明の実施例の動作を示す
フローチャートである。例として、「山田電機が昨年開
発した」という入力に対し、「山田電機が開発した」と
いう文を昨年度の事実を記述する文書ファイル中から検
索し、表示させる場合について説明する。
【0132】「山田電機が昨年開発した」という日本語
入力文を検索要求として入力する。以下、格解析手段、
全文検索手段、文切り出し手段による処理を実施例1と
同様に行ない、文切り出し結果と候補文を抽出する。さ
らに実施例1と同様に、格照合手段により、候補文の中
の二つの自立語に対して、ステップ156で抽出された
検索要求文の解析結果と同じ格関係が成立するかどうか
を調べる。
【0133】成立すれば、次に入力文に対して入力文の
中に相対的時刻表現が存在するかどうかを調べ(ステッ
プ163)、存在すれば実時刻変換を行ない、実時刻を
抽出する(ステップ164)。相対的時刻表現とは、
「昨年」や「今年」のような実世界の日時や時刻との対
応の不明確な表現のことを呼び、実時刻変換とは、相対
的時刻表現を「1993年」のような実世界の絶対値と
しての日時や時刻に変換する処理である。
【0134】図30は、実時刻変換手段36の動作を示
すフローチャートである。37は名詞と処理の対応を記
述した時刻名詞表であり、ステップ166で時刻名詞表
37を探索して対応する処理を行ない実時刻に変換す
る。この際、オペレーティングシステムによって管理さ
れている計算機内部のクロックを参照するのみであり、
特別な時刻データ管理のための表は用いない点に特徴が
ある。
【0135】この例では、図29において、「山田電機
が昨年開発した」の入力文に対する実時刻変換の結果、
ステップ164で実時刻として「1993年」を抽出す
るので、候補文の中で1993年の事柄を記述した文書
ファイルを優先的に表示させるために表示手段に渡す。
【0136】以上のように、この実施例では、入力手
段、格解析手段、全文検索手段、文切り出し手段、格照
合手段、表示手段を備え、さらに「昨年」のような相対
的時刻表現を計算機内部クロックの利用によって「19
93年」のような実際の時刻表現に変換する実時刻変換
手段によって、検索要求文において実時刻の指定をする
代わりに利用者にとって自然な相対的時刻表現の利用が
可能となり利用者の操作性が向上していることを特徴と
する。
【0137】実施例6.図31は、この発明による文書
検索方式の一実施例の全体構成図である。図31におけ
る1,2,3,4,5,6,7,8は、それぞれ、図1
における1,2,3,4,5,6,7,8と同様の入力
手段、制御部、格解析手段、全文検索手段、文切り出し
手段、格照合手段、文書ファイルの集合、表示手段であ
る。39は疑問詞解釈手段、40は疑問詞照合手段、4
1は疑問詞照合結果表示手段である。42は疑問詞解釈
手段から参照される疑問詞辞書である。
【0138】図32は、この発明の実施例の動作を示す
フローチャートである。例として、「山田電機が何を開
発したか」という入力に対し、「山田電機が炊飯器を開
発した」という文を文書ファイル中から検索し、「炊飯
器」を質問への回答として表示させる場合について説明
する。
【0139】「山田電機が何を開発したか」という日本
語入力文を検索要求として、入力する(ステップ16
7)。以下、格解析手段により、「動作主(山田電機、
開発)」という格関係と、「対象(何、山田電機)」と
いう格関係の二つの格関係を抽出する(ステップ16
8)。ステップ169で判断が成功するので、次に、ス
テップ170で、疑問詞解釈手段によって疑問詞解釈処
理を行なう。
【0140】図33は、疑問詞解釈手段の動作を示すフ
ローチャートである。疑問詞解釈処理では、検索要求文
の各文節を順に検査して、疑問詞を含む文節を抽出する
処理を行なう。まず、文の先頭方向から文節を一つ取り
だし(ステップ180)、疑問詞辞書42に記述されて
いる疑問詞の見出しを探索し(ステップ181)、品詞
を調べて「何」が疑問詞であることを認識する(ステッ
プ182)。これを、疑問詞の存在が確認されるか、す
べての文節を調べ終わるまでステップ181から184
のループによって繰り返す。
【0141】この例では、疑問詞解釈処理が成功するの
で、図32のステップ171で判断が成功し、次に、疑
問詞を含まない方の格解析結果「動作主(山田電機、開
発)」を用いて、全文検索手段(ステップ172)、文
切り出し手段(ステップ173)、格照合処理(ステッ
プ174)を実施例1と同様に行ない、候補文「山田電
機が炊飯器を開発した」と候補文の格解析結果として
「動作主(山田電機、開発)」と「対象(炊飯器、開
発)」の二つの格関係を抽出する。さらに、疑問詞照合
手段によって、疑問詞照合処理を行なう(ステップ17
6)。
【0142】図34は、疑問詞照合手段の動作を示すフ
ローチャートである。疑問詞照合手段では、疑問詞を含
む方の文節に対する格関係「対象(何、山田電機)」と
同じ種類の格を持つ格関係「対象(炊飯器、開発)」を
候補文の格解析結果から抽出するために、まず、ステッ
プ185で候補文の格解析結果から格関係を一つ選び、
ステップ186で格の種類を照合し、異なればステップ
186,187,188のループで同じ格が見つかるま
で処理を繰り返す。ステップ186で格の種類の照合が
成功すれば、ステップ189で疑問詞「何」に対応する
候補文中の名詞「炊飯器」を得て、処理成功としてリタ
ンする。
【0143】図32のステップ177では、疑問詞照合
処理から出力された名詞「炊飯器」を候補文の表示を優
先的に表示させる際に同時に質問への回答として表示さ
せるために、疑問詞照合結果表示手段41に渡してステ
ップ178でわかりやすく表示する。
【0144】図35は、疑問詞照合結果の表示画面例で
ある。疑問詞照合結果表示手段41は、図35に示した
画面表示例のように、疑問詞と照合された名詞「炊飯
器」に、断定助動詞「です」を付加した文「炊飯器で
す」を利用者の質問回答として表示手段8に出力表示す
ることによって、利用者にわかりやすい形で検索結果を
提供する。もちろん、この際に格照合結果を合わせて表
示することも可能である。
【0145】以上のように、この実施例では、入力手
段、格解析手段、全文検索手段、文切り出し手段、格照
合手段、表示手段を備え、さらに「何を開発したか」の
ような疑問詞を使った検索要求文に対して疑問詞の検出
を行なう疑問詞解釈手段と、検出された疑問詞と文書フ
ァイル中の文の中の名詞との照合を行ない疑問対象を特
定する疑問詞照合手段と、特定された名詞を利用者の質
問に対する自然な回答のごとく出力表示する疑問詞照合
手段によって、利用者にとって自然な相対的時刻表現の
利用が可能となり利用者の操作性が向上していることを
特徴とする。
【0146】
【発明の効果】以上のようなこの発明によれば、検索文
要求文の構造を解析する解析手段と、文書ファイルの内
容を検索する全文検索手段と、文書から文を切り出す文
切り出し手段と構造間の照合手段を設けたことにより、
あらかじめ文書ファイル中の全文を格解析しておく処理
と解析結果を格納しておくための記憶領域を必要とせず
に、検索要求文の内容に類似した文を含む文書を検索し
出力することができる。
【0147】また、この発明によれば、索引表を備え索
引表から単語が存在する可能性のある文書ファイルを検
索するようにしたので、全文書ファイルを解析する必要
がなく、高速処理が可能となる。
【0148】また、この発明によれば、文切り出し手段
により検索要求文中の単語が存在している文を切り出す
ようにしたので、一つの文書ファイルの全文を解析する
必要がなく、高速処理が可能となる。
【0149】また、この発明によれば、自立語間の格関
係を用いて検索を行うようにしたので、高性能の検索が
可能になる。
【0150】また、この発明によれば、複数の文書ファ
イルから文字列を検索する場合に、索引表を用いて検索
するようにしたので、高速に文書ファイルを特定するこ
とが可能になる。
【0151】また、埋め込み構造解析する手段を設けた
ので、検索要求文と照合可能な文の範囲が広がり、検索
漏れの少ない検索を実現することができる。
【0152】また、格辞書照合手段により埋め込み構造
を解析した上に、さらに前方付属語探索手段により、埋
め込み構造になっていることを確認することにより、間
違いのない検索を実現することができる。
【0153】また、拡張格構造を構造解析する手段を設
けたので、検索要求文と照合可能な文の範囲が広がり、
検索漏れの少ない検索を実現することができる。
【0154】また、拡張格構造パタンから原パタンに変
換することにより、通常の格解析を行えるようにしたの
で、拡張格構造を持つ文を解析する場合にも格解析手段
を流用することができる。
【0155】また、述語が省略された不完全文を解析す
る手段を設けたので、利用者の検索時における検索要求
文の入力を容易とし、利用者の操作性を向上することが
可能になる。
【0156】また、相対的時刻表現を解析する手段を設
けたので、利用者の検索時における検索要求文の入力を
容易とし、利用者の操作性を向上することが可能にな
る。
【0157】また、疑問詞を解釈する手段を設けたの
で、利用者の検索時における検索要求文の入力を容易と
し、利用者の操作性を向上することが可能になる。
【図面の簡単な説明】
【図1】この発明による文書検索方式の一実施例の全体
構成図である。
【図2】この発明による文書検索方式の動作を示すフロ
ーチャート図である。
【図3】この発明で用いられる格解析手段の構成図であ
る。
【図4】この発明で用いられる格辞書の構成図である。
【図5】この発明で用いられる格解析手段の動作を示す
フローチャート図である。
【図6】この発明で用いられる格辞書照合処理の動作を
示すフローチャート図である。
【図7】この発明で用いられる全文検索手段の構成図で
ある。
【図8】この発明で用いられる全文検索手段の動作を示
すフローチャート図である。
【図9】この発明で用いられる索引表の構成図である。
【図10】この発明で用いられる文切り出し手段の構成
図である。
【図11】この発明で用いられる文切り出し手段の動作
を示すフローチャート図である。
【図12】この発明で用いられる格照合手段の構成図で
ある。
【図13】この発明で用いられる格照合手段の動作を示
すフローチャート図である。
【図14】この発明で用いられる表示手段による表示画
面の一例を示す図である。
【図15】この発明による文書検索方式の一実施例の全
体構成図である。
【図16】この発明で用いられる文書検索方式の動作を
示すフローチャート図である。
【図17】この発明で用いられる埋め込み構造解析手段
の構成図である。
【図18】この発明で用いられる埋め込み構造解析手段
の動作を示すフローチャート図である。
【図19】この発明による文書検索方式の一実施例の全
体構成図である。
【図20】この発明で用いられる文書検索方式の動作を
示すフローチャート図である。
【図21】この発明で用いられる拡張格構造解析手段の
構成図である。
【図22】この発明で用いられる拡張格構造解析手段の
動作を示すフローチャート図である。
【図23】この発明で用いられる拡張格構造辞書の構成
図である。
【図24】この発明による文書検索方式の一実施例の全
体構成図である。
【図25】この発明で用いられる文書検索方式の動作を
示すフローチャート図である。
【図26】この発明で用いられる述語省略検査処理の動
作を示すフローチャート図である。
【図27】この発明で用いられる同一述語解析手段の動
作を示すフローチャート図である。
【図28】この発明による文書検索方式の一実施例の全
体構成図である。
【図29】この発明で用いられる文書検索方式の動作を
示すフローチャート図である。
【図30】この発明で用いられる実時刻変換手段の動作
を示すフローチャート図である。
【図31】この発明による文書検索方式の一実施例の全
体構成図である。
【図32】この発明で用いられる文書検索方式の動作を
示すフローチャート図である。
【図33】この発明で用いられる疑問詞解釈処理の動作
を示すフローチャート図である。
【図34】この発明で用いられる疑問詞照合処理の動作
を示すフローチャート図である。
【図35】この発明で用いられる疑問詞照合結果の表示
画面例を示す図である。
【図36】従来の文書検索方式で用いられるテキストベ
ース検索方式のフローチャート図である。
【図37】従来の文書検索方式で用いられる単語辞書の
内容の一例を示す図である。
【図38】従来の文書検索方式で用いられる構文解析結
果の一例を示す図である。
【図39】従来の文書検索方式で用いられる構造生成ス
テップの動作を示すフローチャート図である。
【図40】従来の文書検索方式で用いられる類義語辞書
の内容の一例を示す図である。
【図41】従来の格解析方式で用いられる格解析の動作
を示すフローチャート図である。
【図42】従来の格解析方式で用いられる品詞関連表を
示す図である。
【図43】従来の格解析方式で用いられる格関連表を示
す図である。
【図44】従来の格解析方式で用いられる意味関連表を
示す図である。
【図45】三文節から成る入力文の形態素解析されてA
スタックに格納された状態を示す図である。
【図46】従来の情報検索方式で用いられる検索要求文
と検索パタンの内容を説明する図である。
【図47】従来の情報検索方式で用いられる概念辞書の
構成を示す図である。
【図48】従来の情報検索方式で用いられる関係表の構
成を示す図である。
【符号の説明】
1 入力手段 2 制御部 3 格解析手段 4 全文検索手段 5 文切り出し手段 6 格照合手段 7 文書ファイルの集合 8 表示手段 9 格解析手段の制御部 10 形態素解析手段 11 格辞書照合手段 12 日本語辞書 13 格辞書 14 全文検索手段の制御部 15 索引表 16 索引表検索手段 17 文書ファイル検索手段 18 文切り出し手段の制御部 19 文区切り検出手段 20 単語照合手段 21 格照合手段の制御部 22 格照合判定手段 23 全文検索結果の表示例 24 優先表示の表示例 25 埋め込み構造解析手段 26 埋め込み構造解析手段の制御部 27 格辞書逆照合手段 28 前方付属語探索手段 29 拡張格構造解析手段 30 拡張格構造解析手段の制御部 31 拡張格構造照合手段 32 拡張格構造辞書 33 拡張格構造パタン 34 原型パタン 36 実時刻変換手段 37 時刻名詞表 39 疑問詞解釈手段 40 疑問詞照合手段 41 疑問詞照合結果表示手段 42 疑問詞辞書 43 入力部 44 解析処理部 45 類義語辞書 46 単語辞書 47 テキストベース 48 テキスト検索部 49 文解析ステップ 50 構造生成ステップ 51 類義語展開ステップ 52 テキストベース解析ステップ 53 照合ステップ 63 検索文例 64 検索文パタン 65 値識別表 66 実体識別表 67 研究開発表

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 以下の要素を有する文書検索方式検索要
    求文を入力する入力手段、 上記入力手段によって入力された検索要求文の文字列に
    対して構造解析を行ない単語間の結合関係を抽出する解
    析手段、 上記解析手段によって抽出された検索要求文中の複数の
    単語がともに含まれている文書ファイルを文書ファイル
    の集合から検索する全文検索手段、 上記全文検索手段によって検索された文書ファイルの中
    から、検索要求文中の複数の単語が一つの文中に存在す
    る文を抽出する文切り出し手段、 上記文切り出し手段によって抽出された文中の複数の単
    語に対して上記解析手段によって抽出された結合関係が
    成立するかどうかを調べる照合手段、 上記照合手段の照合結果に基づき、上記検索要求文と照
    合可能な文を有する文書ファイルを検索要求文と内容的
    に関連する文書として出力する出力手段。
  2. 【請求項2】 上記全文検索手段は、文字コードからそ
    の文字コードが存在する文書ファイルを検索することが
    できる索引表と、索引表を用いて検索要求文中の単語を
    構成する文字の文字コードからその文字コードが存在す
    る文書ファイルを検索する索引表検索手段と、検索され
    た文書ファイルから検索要求文中の単語を検索する文書
    ファイル検索手段を備えたことを特徴とする請求項1記
    載の文書検索方式。
  3. 【請求項3】 上記文切り出し手段は、検索要求文中の
    単語が存在している文書ファイル中の位置を検出する単
    語照合手段と、検出された位置に基づいて複数の単語が
    同一文中にある文を切り出す文切り出し手段を備えたこ
    とを特徴とする請求項1又は2記載の文書検索方式。
  4. 【請求項4】 上記単語は自立語であり、上記結合関係
    は、自立語間の格関係であることを特徴とする請求項
    1,2又は3記載の文書検索方式。
  5. 【請求項5】 複数の文書ファイルの中から文字列検索
    を行う文書検索方式において、 文字コードからその文字コードが存在する文書ファイル
    を検索することができる索引表と、 索引表を用いて文字列を構成する文字の文字コードから
    その文字コードが存在する文書ファイルを検索する索引
    表検索手段と、 検索された文書ファイルから文字列を検索する文書ファ
    イル検索手段を備えたことを特徴とする文書検索方式。
  6. 【請求項6】 複数の文書ファイルの中から文字列検索
    を行う文書検索方式において、検索要求文の文字列に対
    して格構造解析を行い自立語間の格関係を抽出する格解
    析手段と、検索要求文の名詞と述語の位置関係が逆転し
    た格解析を行うことにより文書ファイル内の埋め込み文
    を解析する埋め込み構造解析手段と、上記埋め込み構造
    解析手段による解析結果と格解析手段によって抽出した
    格関係が成立するかどうかを調べる格照合手段を備えた
    ことを特徴とする文書検索方式。
  7. 【請求項7】 上記埋め込み構造解析手段は、形態素解
    析を行う形態素解析手段と、形態素解析結果に対して名
    詞の前方に述語がきた場合の格関係を求める格関係逆照
    合手段と、格関係逆照合手段により求められた格関係の
    成立を確認するために前方にある付属語を観察する前方
    付属語観察手段を備えたことを特徴とする請求項6記載
    の文書検索方式。
  8. 【請求項8】 複数の文書ファイルの中から文字列検索
    を行う文書検索方式において、検索要求文の文字列に対
    して格構造解析を行い自立語間の格関係を抽出する格解
    析手段と、文書ファイルの文に対して名詞と述語が直接
    の格関係を持たない拡張格構造を持つ文の格解析を行う
    拡張格構造解析手段と、上記拡張格構造解析手段と格解
    析手段によって抽出した格関係が照合するかどうかを調
    べる格照合手段を備えたことを特徴とする文書検索方
    式。
  9. 【請求項9】 上記拡張格構造解析手段は、形態素を解
    析する形態素解析手段と、形態素解析結果から拡張格構
    造パタンを抽出し、抽出した拡張格構造パタンから原型
    パタンに変換する拡張格構造照合手段と、得られた原型
    パタンを用いて格解析を行う格解析手段を備えたことを
    特徴とする請求項8記載の文書検索方式。
  10. 【請求項10】 複数の文書ファイルの中から文字列検
    索を行う文書検索方式において、検索要求文の文字列に
    対して格構造解析を行い自立語間の格関係を抽出する格
    解析手段と、文字列の格解析が失敗した場合には、検索
    要求文が名詞と助詞からなる文節の連続から構成され各
    文節が係り受け関係にはなくとも後方に述語の存在を仮
    定すればともにその述語に係り得るかどうかを検査する
    述語省略検査手段と、文書ファイル中の文に対して検索
    要求文にある各名詞が存在しともに同一述語に係ってい
    るかどうかを解析する同一述語解析手段を備えたことを
    特徴とする文書検索方式。
  11. 【請求項11】 複数の文書ファイルの中から文字列検
    索を行う文書検索方式において、相対的時刻表現を計算
    機内部クロックの利用によって実際の時刻表現に変換す
    る実時刻変換手段を備えたことを特徴とする文書検索方
    式。
  12. 【請求項12】 複数の文書ファイルの中から文字列検
    索を行う文書検索方式において、疑問詞を使った検索要
    求文に対して疑問詞の検出を行なう疑問詞解釈手段と、
    検出された疑問詞と文書ファイル中の文の中の名詞との
    照合を行ない疑問対象を特定する疑問詞照合手段を備え
    たことを特徴とする文書検索方式。
JP6034963A 1994-03-04 1994-03-04 文書検索方式 Pending JPH07244669A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6034963A JPH07244669A (ja) 1994-03-04 1994-03-04 文書検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6034963A JPH07244669A (ja) 1994-03-04 1994-03-04 文書検索方式

Publications (1)

Publication Number Publication Date
JPH07244669A true JPH07244669A (ja) 1995-09-19

Family

ID=12428807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6034963A Pending JPH07244669A (ja) 1994-03-04 1994-03-04 文書検索方式

Country Status (1)

Country Link
JP (1) JPH07244669A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172691A (ja) * 1998-12-03 2000-06-23 Mitsubishi Electric Corp 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006163491A (ja) * 2004-12-02 2006-06-22 Fuji Xerox Co Ltd 質問応答システム、質問応答方法及び質問応答プログラム
US7698271B2 (en) * 2006-09-15 2010-04-13 Fuji Xerox Co., Ltd. Conceptual network generating system, conceptual network generating method, and program product therefor
JP2015005303A (ja) * 2008-05-13 2015-01-08 日本電気株式会社 携帯端末、検索システム、検索方法および検索用プログラム
US9419649B1 (en) 2015-01-30 2016-08-16 Fujitsu Limited Encoding method and encoding device

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172691A (ja) * 1998-12-03 2000-06-23 Mitsubishi Electric Corp 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006163491A (ja) * 2004-12-02 2006-06-22 Fuji Xerox Co Ltd 質問応答システム、質問応答方法及び質問応答プログラム
JP4635585B2 (ja) * 2004-12-02 2011-02-23 富士ゼロックス株式会社 質問応答システム、質問応答方法及び質問応答プログラム
US7698271B2 (en) * 2006-09-15 2010-04-13 Fuji Xerox Co., Ltd. Conceptual network generating system, conceptual network generating method, and program product therefor
JP2015005303A (ja) * 2008-05-13 2015-01-08 日本電気株式会社 携帯端末、検索システム、検索方法および検索用プログラム
US9419649B1 (en) 2015-01-30 2016-08-16 Fujitsu Limited Encoding method and encoding device

Similar Documents

Publication Publication Date Title
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
JP4306894B2 (ja) 自然言語処理装置及びその方法、及び自然言語認識装置
US7174507B2 (en) System method and computer program product for obtaining structured data from text
US6424983B1 (en) Spelling and grammar checking system
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
KR20170106308A (ko) 어노테이션 보조 장치 및 그것을 위한 컴퓨터 프로그램
JP2002215617A (ja) 品詞タグ付けをする方法
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP2012520528A (ja) 自然言語テキストの自動的意味ラベリングのためのシステム及び方法
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP2000315216A (ja) 自然言語検索方法および装置
JP2001523019A (ja) テキストの本文の談話構造の自動認識
KR100835706B1 (ko) 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
Kazman Structuring the text of the Oxford English Dictionary through finite state transduction
JPH0844771A (ja) 情報検索装置
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
JPH07244669A (ja) 文書検索方式
JP3876014B2 (ja) 機械翻訳装置
Vickers Ontology-based free-form query processing for the semantic web
JP2002278963A (ja) 事例翻訳装置
JPH1074207A (ja) 情報検索装置及び情報検索方法
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
JPS61187077A (ja) 日本語解析装置
Korobkin et al. Methods of Russian Patent Analysis