JP2003108583A - 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 - Google Patents

言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Info

Publication number
JP2003108583A
JP2003108583A JP2001297675A JP2001297675A JP2003108583A JP 2003108583 A JP2003108583 A JP 2003108583A JP 2001297675 A JP2001297675 A JP 2001297675A JP 2001297675 A JP2001297675 A JP 2001297675A JP 2003108583 A JP2003108583 A JP 2003108583A
Authority
JP
Japan
Prior art keywords
sentence
search
target
unit
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001297675A
Other languages
English (en)
Other versions
JP3985483B2 (ja
Inventor
Takashi Imai
俊 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2001297675A priority Critical patent/JP3985483B2/ja
Publication of JP2003108583A publication Critical patent/JP2003108583A/ja
Application granted granted Critical
Publication of JP3985483B2 publication Critical patent/JP3985483B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 検索において、単純な単語の一致などにより
検索対象を特定していたのでは、大量のデータから所望
のデータを検索することができない。自然な日本語文を
用いて検索文が入力されたとき、これと検索対象分との
相関を評価する。 【解決手段】 クライアントコンピュータ300側で検
索文を受け付けたとき、この検索文を解析してサーバコ
ンピュータ200に出力し、サーバコンピュータ200
で検索を行なう。検索により特定された対象文を解析
し、検索文との対比を行なって評価し、評価に基づいて
配列して、これをクライアントコンピュータ300に送
り返す。クライアントコンピュータ300側では、結果
表示部340により、評価に基づいた結果が表示され
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、言語文を用いて検
索を行なう技術に関し、詳しくは検索された情報と検索
文との相関を評価する技術に関する。
【0002】
【従来の技術】データベースなどの検索は、通常、検索
用の単語を入力し、この単語が含まれるデータ、あるい
はその単語が含まれないデータといった条件で行なわれ
る。一つの単語で検索した結果、あまりに多くのデータ
がヒットした場合には、さらに単語を追加して絞り込み
検索を行なったり、いくつかの単語による各々の検索結
果を対象として、アンド条件やオア条件などを指定し
て、検索対象を絞り込むといったことも行なわれる。こ
うした単語を用いて所望の結果を得るには、ある程度の
訓練を必要とした。
【0003】そこで、従来から、よりよい検索手法を求
めて、様々な提案がなされている。例えば、検索すべき
単語が指定されると、その単語と意味を同じくする単語
をシソーラスを用いて特定し、その単語についても検索
を行なうことで、高精度の検索を行なおうとする技術が
提案されている。シソーラスを用いれば、検索しようと
する単語の上位概念で検索することもできる。このほ
か、自然言語を用いて検索を行なおうとするもの(例え
ば、特開平1−180046号公報に開示された「自然
言語理解方法および情報検索装置」、特開2001−1
4165号公報に開示された応答装置など)が提案され
ている。これらは、あらかじめ検索の対象(プラントの
監視や保守など)に即して、検索のシナリオを作り、こ
れに沿って検索を進めるという技術である。こうした検
索技術では、単に単語を用いたものと比べると、検索し
ようとするものは、自然な言語文で検索作業を進めるこ
とができる。
【0004】
【発明が解決しようとする課題】しかしながら、かかる
検索技術では、次の点で問題があり、特に大量のデー
タ、例えばインターネットなどのネットワークに接続さ
れたサイトの情報を検索するといったシステムでは、未
だ十分な検索技術が提案されているとは言えなかった。
まず、単語とシソーラスを用いた検索では、結局単語に
よる検索であることに変わりはないので、多数のデータ
が検索により見いだされた場合など、絞り込みを行なわ
ねばならず、検索に熟練を要する点は従前と同じであっ
た。このため、シソーラスを用いて、検索精度を高める
ことは困難であった。
【0005】また、自然言語文を用いて検索を行なうも
のは、検索対象の特徴などを生かしたシナリオを事前に
作成した上で検索を行なっており、自然言語を用いた検
索が、事前に想定したパターンをはずれると、対応でき
ないという問題があった。このため、例えばインターネ
ット上のサイト検索などのように、事前のシナリオが想
定できない対象に対しては、自然言語文を用いた検索が
できなかった。
【0006】本発明の装置は、こうした問題を解決し、
自然言語文を用いて、高精度の検索を実現することを目
的とする。
【0007】
【課題を解決するための手段およびその作用・効果】上
記課題の少なくとも一部を解決する本発明の装置は、言
語文を用いて検索を行なう装置であって、検索用の検索
文を入力する検索文入力手段と、該入力された検索文を
利用して、検索を行なう検索手段と、少なくとも前記検
索された対象に含まれる文である対象文を解析して、少
なくとも一つの述部を含む構文上の最小単位である部分
文を抽出すると共に、該抽出された部分文を、文におけ
る役割に着目して分類する分類手段と、該分類に従っ
て、前記対象文の前記検索文に対する相関の程度を評価
し、該評価に基づいて前記対象文を振り分ける対象文評
価手段とを備えたことを要旨としている。
【0008】また、この装置に対応した方法の発明は、
言語文を用いて検索を行なう方法であって、検索用の検
索文を入力し、該入力された検索文を利用して、検索を
行ない、少なくとも前記検索された対象に含まれる文で
ある対象文を解析して、少なくとも一つの述部を含む構
文上の最小単位である部分文を抽出すると共に、該抽出
された部分文を、文における役割に着目して分類し、該
分類に従って、前記対象文の前記検索文に対する相関の
程度を評価し、該評価に基づいて前記対象文を振り分け
ることを要旨としている。
【0009】かかる装置および方法によれば、検索をし
ようとする者により入力された検索用の検索文を利用し
て、検索を行なう。このとき、検索された対象に含まれ
る文である対象文が取得され、この対象文を解析して、
少なくとも一つの述部を含む構文上の最小単位である部
分文を抽出すると共に、該抽出された部分文を、文にお
ける役割に着目して分類する。その後、この分類に従っ
て、対象文の検索文に対する相関の程度を評価するか
ら、この評価に基づいて対象文を振り分けることができ
る。
【0010】
【発明の他の態様】また、こうした検索装置の発明は、
その実現形態として、サーバ上で実現したり、サーバコ
ンピュータとクライアントコンピュータとが協動するシ
ステムとして実現することもできる。また、コンピュー
タに上で動作するプログラムにより上記の検索方法を実
現することができるので、本発明をプログラムとして、
あるいはそのプログラムが記録された記録媒体(例えば
フレキシブルディスク、CD−ROM、DVD−RO
M、磁気テープなど)として把握することもできる。プ
ログラムは、記録媒体に記録して扱うこともできるが、
ネットワーク上のサーバなどにおき、これをネットワー
クを介してダウンロードして、クライアント側のコンピ
ュータで実行するという扱いにすることもできる。
【0011】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。図1は、本発明の実施の形態の一つとして
の検索システム100を示すブロック図である。図示す
る各ブロックは、実際には、サーバコンピュータ200
とクライアントコンピュータ300とから構成されてい
る。両コンピュータは、ネットワーク110を介して接
続されている。サーバコンピュータ200は、検索用エ
ンジンを搭載しており、クライアントコンピュータ30
0は、サーバコンピュータ200に対して検索の要求を
出力し、検索結果をサーバ200から受け取って表示す
る。サーバコンピュータ200やクライアントコンピュ
ータ300の具体的なハードウェア構成の詳細などは後
述する実施例に譲り、ここではブロックレベルで構成と
その作用を説明する。
【0012】図1に示すように、クライアントコンピュ
ータ300は、検索用の検索文を自然言語の一つである
日本語で受け付ける検索文入力部310、この検索文を
解析する検索文解析部320、解析された検索文から検
索用の単語列を取り出してこれをサーバコンピュータ2
00に出力する検索語出力部330、更にサーバコンピ
ュータ200からの検索結果を受け取り画面に表示する
結果表示部340を有する。他方、サーバコンピュータ
200は、クライアントコンピュータ300からの検索
語を受け取る検索語受信部210、受け取った検索語を
用いて検索を行なう検索エンジン220、検索結果を文
単位で取り出し形態素解析などを行なって解析する対象
文解析部230、解析した対象文と検索語との対比を行
なう対比実行部240、対比結果に従って対象文を配列
する配列部250、配列済みの対象文を順次クライアン
トコンピュータ300に送信する検索結果出力部260
などを備える。
【0013】クライアントコンピュータ300の検索文
入力部310は、利用者がキーボードなどを用いて入力
した日本語を受け付ける。インターネットなどのネット
ワークに接続されたサイトの検索を行なう場合には、こ
この検索文入力部310は、通常のブラウザにより表示
された検索語の入力ボックスに、IME(日本語入力メ
ソッド)などを用いて日本語文を入力する処理に相当す
る。検索文入力部310を介して、例えば、「電源を入
れると壊れた」などの自然な言語文が入力される。な
お、本実施の形態では、インターネットを介して接続し
た故障診断サイトで、コンピュータの故障についての診
断(原因や対処)を受ける場合を想定している。
【0014】利用者は、通常、自分のコンピュータの故
障の状態については、言葉で表現できるが、その原因を
特定して検索語を設定したり、単語を複数入力して、徐
々に検索範囲を絞り込んだりすることは、困難なことが
多い。そこで、この実施の形態では、利用者が通常して
いる自然言語(この例では日本語)を用いて、自分で表
現できる文の形で問い合わせを行なっている。こうした
日本語により検索文が入力されると、検索文解析部32
0がこれを解析する。解析の内容については、後述する
実施例で詳しく説明するが、通常は、まず検索文を形態
素解析し、日本語として自然な文を構成する文節に切り
分ける処理を行なう。文節に切り分けた後、検索に用い
るべき単語を解析する。例えば、検索文が、上記の「電
源を入れると壊れた」であれば、これを形態素解析し
て、「電源を」(名詞+助詞)、「入れると」(動詞連
用形+助詞)、「壊れた」(動詞終止形+過去を示す助
動詞)、といった文節に分け、更にここから検索語とし
て、「電源」、「入れる」、「壊れる」などを抽出する
のである。検索文解析部320では、こうした単語の抽
出に加えて、シソーラスを参照して、同義語や類義語
(例えば、「電源」に対する「パワーサプライ」や、
「壊れる」に対する「破損する」など)も、検索語とし
て抽出するものとしても良い。また、形態素解析に加え
て、文節間の係り受けや、更に文を構成する句や節など
の部分文の構成をも解析するものとしても良い。
【0015】こうして抽出された検索語は、検索語出力
部330により、ネットワークを介して出力され、パケ
ットに付されたIPアドレスなどを用いて、故障診断プ
ログラムが動作しているサーバコンピュータ200に届
けられる。サーバコンピュータ200は、こうしてネッ
トワークに出力された検索語を、検索語受信部210に
より受け取り、これを検索エンジン220に受け渡す。
検索エンジン220は、受け取った検索語(通常複数
個)を用いて、故障診断用の知識データベース225を
アクセスし、検索語とを含む文を見いだすとこれを取り
出す。上記の例であれば、「電源」「入れる」「壊れ
る」などの語のすべてを含む文、あるいは少なくとも一
つ以上を含む文を、検索された対象文として取り出す。
例えば、知識データベース225に収録されたデータベ
ース内に、「電源を入れると、OSが起動する前に、
『NoDisk』が表示されて、止まってしまいま
す。」や「コンピュータの使用中にハングアップして、
コンピュータの電源を切ることもできません。」などの
文があれば、検索エンジン220はこれらの文を、該当
する検索対象文として検索することになる。
【0016】こうして得られた検索対象文を、対象文解
析部230が解析する。この解析は、先に説明した検索
文解析部320による解析とほぼ同一であり、形態素解
析を基礎として、係り受けによる句構造の解析や、更
に、少なくとも一つの述部を含む構文上の最小単位であ
る部分文などが分析される。更に、対象文解析部230
では、こうして取り出された部分文を文における役割に
着目して分類する。役割としては、文における条件部か
結論部かといった区分でも良いし、更にこれを細かく分
けて例えば、条件部であれば、「条件」「理由」「逆
接」「並列」などに分類しても良い。こうして検索対象
文を分類した後、この分類に従って、検索対象文と検索
語との対比を、対比実行部240が行なう。すなわち、
検索語が、検索対象文の結論部に現われているか、条件
部に現われているか、などを考慮しつつ、両者の対比す
るのである。なお、この例では、サーバコンピュータ2
00は、複数の検索語を検索語受信部210により受信
して検索エンジン220を動かすものとしたので、対比
は、検索語と検索対象文とを単純に対比しているが、検
索文を解析した結果も併せて受け取り、検索文の解析結
果も用いて、対比を行なうものとしても良い。例えば、
検索文における各語の構成(係り受けや節の役割など)
を考慮して、検索対象文との対比を行なっても良い。な
お、ここで言う「部分文」は、少なくとも一つの述部を
含む構文上の最小単位であって、文法上は、主節や従属
節、あるいは条件節など言われる単位に、ほぼ相当する
概念である。
【0017】こうして対比を行なった後、サーバコンピ
ュータ200は、配列部250により検索対象文を振り
分けて配列し、これを検索結果出力部260からクライ
アントコンピュータ300側に返送する。配列として
は、検索語に対して、より重要な相関を有すると考えら
れる検索対象文を上位に並べるのが好適である。単純
に、相関の高い情報上位に配列するだけでなく、階層化
して出力することも好適である。検索結果の出力は、検
索語を送信してきたクライアントコンピュータ300の
IPアドレスを、パケットに付して、検索対象文をイン
ターネットなどのネットワークに出力することにより行
なわれる。こうしてネットワークに流されたデータは、
IPアドレスを手がかりに、検索語を出力したクライア
ントコンピュータ300に確実に返送される。
【0018】この検索結果を受け取ったクライアントコ
ンピュータ300は、検索対象文が配列された検索結果
を、ブラウザなどを用いて一覧表示する。通常、こうし
た故障診断では、検索結果には、URLなどが付随して
おり、利用者は、検索結果を読んで、更に詳しく内容を
知りたい場合には、このURLをクリックすることで、
直ちにサーバコンピュータ200内の必要な情報にジャ
ンプして、詳しい故障診断の情報(故障の原因や対処方
法など)を知ることができる。しかも、利用者からする
と、いくつかの検索語を特定したり、これを順次入力し
て検索結果を絞り込んだりする必要がなく、自分か把握
した範囲で、自然な日本語で状況を説明する文を入力す
れば足りる、という大きな利点がある。更に、検索の結
果も、自然な日本語文で、しかもより関連性が高いと考
えられる文が上位に表示されるので、短時間に必要な情
報にたどり着けるという利点が得られる。
【0019】上述した実施の形態おいて、検索対象文を
形態素解析して文節を切り出したとき、この対象文に含
まれる部分文の接続関係を示す接続詞、接続助詞を特定
し、接続詞、接続助詞を用いて、部分文を抽出するもの
としても良い。日本語では、接続詞や接続助詞が用いら
れる箇所までで部分文が構成されることが多く、しかも
接続助詞などに着目すれば、その前が条件を示す部分文
であるか、理由を示す部分文であるか、などを容易に認
識することができる。
【0020】更に、上記の実施の形態において、検索文
を解析する場合には、少なくとも一つの述部を含む構文
上の最小単位である部分文を抽出すると共に、抽出され
た部分文から、結論部に相当する部分を特定し、検索自
体を、特定された結論部に含まれる単語を用いて行なう
ものとしても良い。例えば「スイッチを入れたら、電源
が壊れた」というような検索文の場合、「電源が壊れ
た」という結論部の方が故障診断にとっては有用なこと
が多いので、結論部の単語「電源」「壊れる」を用いて
検索を行なうのである。もとより、アプリケーションに
よっては、条件部に相当する部分を特定して、条件部に
含まれる単語を用いて検索するものとしても良い。例え
ば、中毒診断用のシステムでは、「乾電池を飲んだの
で、腹が痛い」といった検索文が入力された場合、条件
部の方が有用と見なして「乾電池」「飲む」などの単語
を抽出し、これを用いて検索を行なえばよい。
【0021】上記の実施の形態では、検索の対象は、デ
ータベースでとしてが、検索の対象は、ネットワーク上
に置かれたサイトに含まれる情報であっても差し支えな
い。いわゆるネットワーク上の検索エンジンに適用すれ
ば、多数に上る関連サイトを、より相関の高いものを優
先して表示することも容易である。
【0022】また、上記の実施の形態では、検索システ
ムは、サーバコンピュータ200とクライアントコンピ
ュータ300とから構成したが、利用者が使用するコン
ピュータにデータベースや検索エンジンが置かれたいわ
ゆるスタンドアロンの使用形態でも差し支えない。ま
た、上記の実施の形態では、クライアントコンピュータ
300は、検索文を検索文解析部320により解析し、
検索語として、サーバコンピュータ200側に渡してい
るが、検索文をそのままクライアントコンピュータ30
0側に出力し、サーバコンピュータ200側で検索文の
解析処理から行なうものとしても良い。この場合、検索
文の解析を行なう能力はサーバコンピュータ200側の
プログラムやデータベースにより決定されるので、サー
バコンピュータ200側のプログラムを入れ替えるだけ
で、解析能力をアップグレードできるという利点が得ら
れる。また、クライアントコンピュータ300毎に解析
能力が異なると言うこともない。もとより、検索文解析
部320は、ブラウザにプラグインにより追加されるよ
うに構成し、これをサーバコンピュータ200側からク
ライアントコンピュータ300側に送信するものとして
も良い。こうすれば、クライアントコンピュータ300
によらず、ほぼ同等の解析能力を用意することかでき
る。しかも、多数のクライアントコンピュータ300か
らアクセスされるサーバコンピュータ200側の負担を
減らすことができる。
【0023】上述した実施の態様では、検索エンジン2
20により得られた検索対象文の解析をサーバコンピュ
ータ200側の対象文解析部230で行なっているが、
解析をサーバコンピュータ200側では行なわず、検索
対象文をそのままクライアントコンピュータ300に出
力し、クライアントコンピュータ300側で解析と対比
を行なうものとしても良い。クライアントコンピュータ
300は、検索文が入力されたマシンであり、利用者に
最も近い側に位置するので、利用者の要求にそって検索
対象文を解析し、検索文との相関を判定して、所望の順
序で表示することができる。例えば、音声認識を用いて
検索文を入力するような構成を採用すれば、音声入力時
の抑揚や強調された単語などの情報を、検索対象文と検
索文との相関の判断において、考慮すると言ったことも
可能である。また、検索対象文の解析をクライアントコ
ンピュータ300側で行なうものとすれば、複数のサー
バコンピュータ200上で検索エンジンを動かし、複数
のサーバコンピュータ200からの検索結果を受け取っ
て、これをまとめて解析して、相関の程度により順序付
けして表示するといったことも可能となる。
【0024】上記の実施の形態は、サーバコンピュータ
200とクライアントコンピュータ300からなる検索
システムとして説明したが、これらの検索などの機能を
コンピュータ上で実現するプログラムを、CD−ROM
などの記録媒体上に記録した形態で、本発明を実施する
ことも可能である。この場合、上述したように、サーバ
側のプログラムとクライアント側のプログラムに分け
て、それぞれ記録媒体上に記録して実施しても良いし、
一つのプログラムあるいはプログラム群として記録して
も良い。更には、サーバ側に必要なプログラムをおき、
このサーバ側のプログラムと協働して動作するプログラ
ムを、サーバ側にダウンロード可能に用意し、検索を行
なおうとするクライアント側から読み出して、実行する
形態で実施することも可能である。
【0025】
【実施例】以上説明した実施の形態を更に具体的に説明
するために、その実施例について説明する。 (1)実施例の構成:はじめに、実施例のハードウェア
構成について、図2の概略構成図を用いて説明する。図
2に示した実施例では、インターネットのようなネット
ワーク10に接続されたサーバコンピュータ20にプロ
グラムをインストールし、このプログラムを実行するこ
とで、クライアントコンピュータ30からの検索要求に
応じて検索を実行する検索システムが具現化されてい
る。検索システム50におけるサーバコンピュータ20
(以下、これを検索用サーバと呼ぶ)は、それ自身スタ
ンドアロンの検索装置として使用可能であるが、以下で
説明するように、サーバとして他のクライアントコンピ
ュータ(以下、これを単にクライアントと呼ぶ)30か
ら利用することが可能である。すなわち、ネットワーク
10に接続された多数のクライアント30の利用者が、
ネットワーク10を介して検索用サーバ20にアクセス
することで、自然言語を用いた検索とその結果の提供を
受けることができる。入力部分については、検索用サー
バ20とクライアント30はほぼ同じなので、ハードウ
ェア構成については、検索用サーバ20を例として説明
を行なう。
【0026】検索用サーバ20の内部構成を図2に基づ
いて説明する。検索用サーバ20は、モデムやルータ1
8を介してネットワーク10とのデータのやり取りを制
御するネットワークインタフェース(NT−I/F)2
1、処理を行なうCPU22、処理プログラムや固定的
なデータを記憶するROM23、ワークエリアとしての
RAM24、時間を管理するタイマ25、モニタ29へ
の表示を司る表示回路26、テキストデータをデータベ
ースとして蓄積しているハードディスク(HD)27、
キーボード11,マウス12,マイク13とのインタフ
ェースを司る入力インタフェース(I/F)28等を備
える。なお、ハードディスク27は、固定式のものとし
て記載したが、着脱式のものでも良いし、着脱式の記憶
装置(例えばCD−ROM、CD−R、CD−RW、D
VD−ROM、DVD−RAM、フレキシブルディスク
など)を併用することも可能である。また、この実施例
では、検索用サーバ20の処理プログラムは、ROM2
3内に記憶されているものとしたが、ハードディスク2
7に記憶しておき、起動時にRAM24上に展開して実
行するものとしても良い。あるいは、上述した着脱式の
記録媒体から読み込むものとしても良い。更には、ネッ
トワーク10を介して、他のサーバから読み込んで実行
するものとしても良い。同様に、以下に説明するよう
に、ハードディスク27に必要なデータの総てが記憶さ
れている必要はなく、ネットワーク10により接続され
る他のサーバに膨大なデータを分散して記憶、更新、管
理する構成としても良い。
【0027】ハードディスク27には、形態素解析辞書
IDC、文判定ルールSDI、シソーラスTSRおよび
検索対象データベースDBが記憶されている。この形態
素解析辞書IDCは、いわゆる仮名漢字変換辞書とほぼ
同一の内容を記憶した辞書であり、仮名漢字変換辞書と
は、見出しと読みが逆になっている。このため、キーボ
ード11やネットワーク10を介して入力されたかな文
字列を解析して、仮名漢字文字列に変換する仮名漢字変
換辞書をそのまま用い、読みと見出しの関係だけインデ
ックスの形でもった形態とすることもできる。形態素解
析辞書IDCの一例を、図3に示した。この例では、読
みと表記と文法情報のみを示されているが、実際の形態
素解析辞書IDCには、単語やその他の単語に関しての
読み、表記、文法情報の他に、同一意味の口語、同意
語、類義語、省略語、更には係り受けの情報などが関連
付けられて記憶されている。この解析辞書IDCは、検
索用サーバ20では、クライアント30から受け取った
検索文を形態素解析する際に用いられる。この解析辞書
IDCを用いることで、検索用サーバ20は、受け取っ
た検索文を精度良く解析することができる。例えば、解
析するかな文字列が口語体の自然言語であっても、その
口語体を、正確に解析することが可能である。
【0028】文判定ルールSDIは、係り受けや部分文
の関係を規定するルールを記憶した辞書である。係り受
けについては、形態素解析でも用いられるが、ここで
は、形態素解析により得られた文節同士の関係を特定す
るのに用いられている。更に、部分文の関係を規定する
ルールとは、大きくは、条件部か結論部かを特定するル
ールであり、条件部については、更に、条件、理由、逆
接、並列などを区別するルールが格納されている。ま
た、結論部については、結論に影響を与えない不要部を
取り除くためのルールなども記憶されている。
【0029】単語シソーラスTSRは、意味的な関係の
ある単語(例えば類義語、反意語など)を、その概念関
係に従って整理した辞書である。概念関係としては、上
位、下位、並列といった関係の他に、様々な関係が設け
られ、多数の単語がこうした概念関係で整理されてい
る。例えば「入れる」「切る」「回す」「ひねる」とい
った動詞について、「人間の動作」といった観点から、
類義語として整理されている。
【0030】検索対象データベースDBは、利用者が検
索しようとする対象そのものであり、この実施例では、
故障解析・診断用のデータベースである。なお、こうし
たデータベースDBは、本実施例では、ハードディスク
27内に記録されているが、インターネット上に存在す
る多数のサイトなどを検索対象データベースDBとして
扱うことも勿論可能である。こうした場合には、巡回型
検索エンジンにより、インターネット上のサイトのデー
タを検索し、インデックスの形で、検索用サーバ20内
のハードディスク27にデータを蓄えておいても良い
し、その都度、検索を行なっても良い。
【0031】(2)検索システムの動作−解析処理:検
索用サーバ20とこれに接続されたクライアント30か
らなる検索システム50の動作について説明する。この
実施例では、クライアント30では、インターネット上
のサイトの情報をブラウズするブラウザが動作してお
り、利用者が、検索用サーバ20から送られたデータに
基づいてこのブラウザに表示した検索用のボックスに、
検索しようとする内容を自然な日本語で入力すると、こ
れを解析することなく、そのままネットワーク10を介
して、検索用サーバ20に送信している。実施の形態で
は、検索文の解析はクライアント300側で行なった
が、この実施例では、検索文の解析から、すべて検索用
サーバ20側で行なっている。クライアント30側は、
検索文の入力およびその出力と、検索結果の表示のみを
担当している。
【0032】そこで、クライアント30側の動作につい
ての説明は簡略にとどめ、図4の説明図を用いて、検索
用サーバ20側の動作について詳しく説明する。検索用
サーバ20は、ネットワーク10を介したクライアント
30側からの要求を受け取ると、図4に示した処理を開
始する。検索用サーバ20が実行する処理は大きくは解
析処理と照合処理である。解析処理は、形態素解析処理
(ステップS100)、係り受け解析(ステップS11
0)、部分文の判定(ステップS120)から構成され
ている。他方、照合処理は、単語照合(ステップS13
0)、係り受け照合(ステップS140)、および部分
文の照合(ステップS150)から構成されている。
【0033】図4に示した処理は、クライアント30か
ら検索文を受け取ったときに開始され、まず形態素解析
処理が行なわれる(ステップS100)。形態素解析処
理は、上述したように、形態素解析辞書IDCを参照し
て行なわれる処理であり、クライアント30から受け取
った検索文から単語と文節を取り出す処理である。形態
素解析処理(ステップS100)の詳細を図5のフロー
チャートに示した。
【0034】形態素解析処理が開始されると、クライア
ント30から受け取った検索文が解析の対象として特定
され、この文の先頭からM文字目(M=1,2,・・・
・)からL文字分(L=1,2,・・・)を取り出して
解析辞書IDCを引く処理を行なう(ステップS10
2)。Mは、着目している文字列の先頭位置を、Lは、
取り出す文字数を、それぞれ示していることになる。解
析辞書の参照の手法は、まずM=1、即ち先頭位置か
ら、L=1、即ち1文字分の文字を取り出し、辞書を参
照して該当語を取り出す処理から開始する。Lを順次イ
ンクリメントしながら辞書IDCを参照し、該当する見
出し語がなくなれば、着目する文字列の先頭位置Mをイ
ンクリメントし、再度文字数Lを1に戻して、辞書の検
索を行なう。こうして着目する文字の位置か、解析しよ
うとする文の文字数を超えたところで、辞書の参照をう
ち切る。
【0035】例えば、クライアント30から「電源を入
れたら壊れた」という検索文が入力された場合を想定す
ると、解析辞書IDCを参照すると、「電源を」「電」
「源」」「源を」「を」「入れたら」「入れた」「ら」
「入れ」「たら」「た」「入」「れたら」「壊れた」
「壊れ」「た」「壊」「れた」「れ」といった語を切り
出すことができる。ここで、「た」などの仮名一音も、
語として切り出しているのは、過去形の助動詞「た」な
どが、文中に現れる可能性があるからである。
【0036】解析辞書IDCには、これらの語がその文
法情報と共に記憶されている。そこで、切り出した語を
次に文法情報に従って並べて、破綻しない配列を見い出
す処理を行なう。かかる解析は、例えば複数文節最長一
致法や最小コスト法といった手法が知られており、所定
の語の組合わせのうちどれが最も日本語としてもっとも
らしいかを検定するのである。本実施例では、最小コス
ト法を採用しているので、こうして得られた多数の文字
列を対象として、次にコスト計算を行なう(ステップS
104)。コスト計算とは、文字列の配列に対して、日
本語らしい配列ほど点数が低くなるように予め用意され
た文字列のコストを計算する処理である。その規則は大
まかに言えば、自立語はコスト2、これに付属語が付属
する場合はコスト0、といったものである。例えば、
「電源を」を例にとると、「電源」+「を」ではあれ
ば、自立語+付属語(助詞)の結びつきとなって、コス
ト2、「電」+「源」+「を」であれば、自立語+自立
語+付属語(助詞)となってコストは4となるのであ
る。最小コスト法のルールは、現実の日本語にあわせて
チューニングされており、「まったく」+「ない」など
の共起関係にある単語が文中に生じる場合は、コスト
「−1」など、様々な規則が用意されている。
【0037】こうして、逆引き辞書の参照により得られ
た全ての単語について、上記のコストを計算し、そのう
ちで最小のコストになる文を特定する処理を行なう(ス
テップS106)。上記の例では、「電」(自立語・名
詞)+「源」(自立語・名詞)+「を」(付属語・助
詞)よりも、「電源」(自立語・名詞)+「を」(付属
語・助詞)の方が、日本語として確からしいと判断する
のである。もとより、この計算は、少なくとも文を単位
として行なわれ、文全体で、コストが最小になるような
単語の配列を選択する。従って、例えば共起関係による
コストの低減などがあれば、異なる組合わせが選択され
る場合も存在する。
【0038】こうして最小コスト法により最小コスト文
が特定されると、結局検索文を構成する文節の組合わせ
が、その文法情報と共に得られたことになるので、次
に、得られた文節を、図6に示す配列に格納する処理を
行なう(ステップS108)。図6は、検索文を解析す
る際に用いられる配列の一例を示す説明図である。検索
文は、全体としては、単語情報(図6)、文節情報(図
7)、部分文情報(図8)という形態で解析され、記憶
される。このうち、図6は、単語情報の内容(配列)を
示しており、この配列は、単語、単語の読み、品詞から
構成されている。以下、単語の配列は、T[t](t=
0,1,・・・)として参照するものとする。
【0039】こうして形態素解析を完了すると、次に係
り受け解析(ステップS110)を行なう(図4参
照)。係り受け解析とは、文を構成する各文節の関係を
特定する処理である。係り受け解析は、文節情報を特定
するための処理である。係り受け解析を行なうことによ
り、文節間の関係を知ることができる。即ち、ある文節
がどの文節に係っているかをしることができる。例え
ば、名詞+「を」(助詞)は後方の最も近い述部にかか
る、というルールから、「電源を」→「切ると」という
関係が特定される。こうした係り受け解析により得られ
た文節情報は、配列Bに格納される。この配列B[b]
(b=0,1,・・・)の一例を図7に示した。この文
節情報は、単語を示すインデックスである配列B
[b]、この配列B[b]に所属している単語の番号
t、係り先文節の番号b、係りもと文節の番号bから構
成されている。図7の表中、「−」は該当する文節が存
在しないことを示している。配列に所属している単語の
番号tが与えられれば、図6に示した配列T[t]を参
照して、実際の単語を取得することができる。
【0040】係り受け解析(ステップS110)が完了
すると、次に部分文の判定処理を行なう(ステップS1
20)。この処理は、係り受け解析により解析した文節
同士の関係を利用して、1以上の文節からなる部分文同
士の関係を特定するものである。ここで部分文とは、少
なくとも一つの述部を含み構文上の最小単位である節と
ほぼ等しい概念である。部分文同士の関係は、図8に示
したように、配列S[s](s=0,1,・・・・)と
して与えられ、配列S[s]には、所属する文節の番号
b、結論部からの距離、条件部の意味が対応づけられ
る。これら、単語の配列T[t]、文節の配列B
[b]、部分文の配列S[s]の関係を図9に示した。
図示するように、これらは、上位−下位の構成となって
おり、一つの部分文から、これに含まれる文節、単語な
どを自由に参照することができる。
【0041】部分文の切出の処理を図10に示す。この
処理は、文判定ルールSDIを参照することにより行な
われる。文判定ルールSDIの一例を図11に示す。図
11は、図10のフローチャートにおける判定単語列R
mを示したものである。また、各見だしは、条件部の意
味を示している。図11の表中における「*」は、いわ
ゆるワイルドカードを示しており、どんな単語でも当て
はまることを示している。また、「*:*:動詞」は品
詞が動詞の単語であれば、読みや見出しは問わず当ては
まることを示している。例えば、図11中、符号INで
示した文型は、条件部の意味は「条件」であり、
「(*:*:動詞、*:*:活用語尾、と:*:接続助
詞)」という文型を指定しているから、動詞の後に活用
語尾がついた上で、接続助詞「と」が接続される総ての
部分文を示していることになる。動詞「入れ」+活用形
「る」+接続助詞「と」は、この文型に一致することに
なる。
【0042】図10に示した部分文の解析処理ルーチン
について説明する。このルーチンが開始されると、まず
検索文から不要文を削除する処理を行なう(ステップS
200)。不要文とは、「どうしたらよいですか」と言
った検索しようとする内容そのものとは関係がない部分
である。これらの部分は、予め不要文のリストの形で記
憶しておき、該当する文を削除するものとすればよい。
例えば「電源を入れると壊れたのですが、どうしたらよ
いですか」といった検索部が与えられている場合には、
形態素解析および係り受けの解析により、こうした不要
文に相当する部分特定することができるので、これを削
除するのである。削除した文節は、単語の配列(図6参
照)や文節の配列(図7参照)や部分文の配列(図8参
照)などから削除される。
【0043】次に、部分文の解析を開始するものとし
て、解析処理を行なう検索文を構成する全単語数nを設
定し、着目する従属節の数を示す変数を初期化(j←
0)する処理を行なう(ステップS210)。次のステ
ップS220では、図11に示した条件部を示す文例の
数を示す変数mを初期化し(m←0)、以下、変数mが
図11に示した文例の総数になるまで、以下の処理を繰
り返す。図11に示した文例は、一つの文例が()に括
られている部分であり、先頭から順にm=1,2,・・
・として指定することができる。そこで、まずm番目の
文例を、判定単語列Rmとして取得し、併せてkに判定
単語列Rmのを構成する単語数を設定する処理を行なう
(ステップS230)。例えば、上述した(*:*:動
詞、*:*:活用語尾、と:*:接続助詞)という文例
では、構成単語数kは、値3となる。
【0044】次に、検索文にその最後尾から着目し、そ
のn−k+1番目からnまでの単語列W(n-k-1,n)を
取得する処理を行なう(ステップS240)。対比する
文例が、単語数kなので、検索文からも単語数k個の単
語からなる単語列を取り出すのである。単語列の取出
は、単語を示す配列T[t]を用いて容易に取り出すこ
とができる。例えば「電源を入れると壊れた」という文
が検索文として入力された場合には、後方から3個の単
語として、「と」+「壊れ」+「た」が取得されること
になる。こうして比較用の単語列が取得されると、次
に、両者を照合する処理を行ない(ステップS25
0)、両者が一致しなければ、次の文例を取得するため
に変数mを値1だけインクリメントして(ステップS2
60)、図11に示した文例が尽きるまで(ステップS
270)、ステップS230に戻って処理を継続する。
上記の例では、末尾からの単語の切出が一致することは
ないので、やがて全文例についての判断が、判定単語列
Rmと単語列W(n-k+1,n)との一致が得られないまま
完了する。
【0045】そこで、次に着目する単語列を末尾から一
つ手前に移動するために変数nを値1だけデクリメント
し(ステップS280)、この変数nが値0より小さく
なるまで(ステップS290)、ステップS220に戻
って、変数mを初期化する処理から上記の各処理を繰り
返す。この処理を繰り返す結果、やがて末尾から3番目
の単語「と」からのk個の単語を取得するようになる
と、何番目かの文例Rm「(*:*:動詞、*:*:活
用語尾、と:*:接続助詞)」が、検索文の単語列W
(n-k+1,n)である「入れ」+「る」+「と」と一致す
る(ステップS250)。このとき、処理はステップS
300以下に分岐し、従属節が一つ見つかったとして、
従属節を示す変数jを値1だけインクリメントし(ステ
ップS300)、この従属節に関する情報を設定する処
理を行なう(ステップS310)。従属節に関する情報
の設定については、次の段落で説明する。この処理の
後、着目している単語の位置を、k−1個分だけ進め
(ステップS320)、更に上述した変数nのデクリメ
ント(ステップS280)から、上記の処理を繰り返
す。従属節が一つ見つかっても更に処理を継続するの
は、自然言語では、従属節が複数許されているからであ
る。例えば、「突然パソコンが終了したので、電源を入
れると壊れた」という検索文が入力された場合を想定す
ると、「突然パソコンが終了したので」と「電源を入れ
ると」の二つが条件を示す従属節として設定されること
になる。
【0046】従属節に関する情報の設定は、図8に示し
た結論部からの距離と条件部の意味の二つである。結論
部自身は、距離0であり、ここから文頭に向けて、結論
部(この文例では、「壊れた」)に近い従属節から、距
離1、2・・・となる。また一致した判定単語列Rmに
付与されていた分類に従い、「条件」「理由」「逆接」
「並列」などの区別が、従属節に関する情報として、配
列S[s]に対応づけて記憶される。
【0047】(3)検索システムの処理−照合処理:以
上の処理により、図4に示した解析処理が完了する。次
に照合処理が行なわれる。照合処理は、入力された検索
文と、これに基づいてデータベースDBから検索した検
索対象文との照合を行なう処理であり、まず単語の照合
処理を行なう(ステップS130)。ここでは、基本的
には検索文に含まれていた単語を用いてデータベースD
Bを引く処理が行なわれるが、検索語がについてはシソ
ーラスTSRを参照し、類義語や同意語などを広く検索
する。例えば、「電源」「入れる」という単語のみなら
ず、「パワースイッチ」や「パワーサプライ」などの類
義語や、「切る」に対して人間の身体動作として同じカ
テゴリに分類されている「切る」や「回す」なども検索
の対象とされる。こうした検索処理により、データベー
スDBから多数の検索対象文が広汎に得られるから、自
然言語により検索文が入力されても、検索漏れを生じる
ことが少ない。
【0048】単語の照合処理は、更に次のように行なわ
れる。検索対象となった文に、 検索文に含まれてる自立語が存在する場合には、類似
点として値1を与え、 シソーラスTSRにより上位概念が一致する単語が存
在する場合には、値0.9を与える。例えば、「電源を
入れると壊れた」という検索文に対して、「PCの電源
を切ると」という文がデータベースDB内に存在した場
合には、単語「電源」については類似点として値1が与
え「入れる」と「切る」については、共通の上位概念
「身体動作」を持つので、類似点として値0.9を与え
るのである。従って、この両文の類似点は、1+0.9
=1.9となる。なお、こうした類似点の付与は、更に
文末表現などに応じて細かく調整するものとしてもよ
い。例えば「壊れるようだ」とか「壊れるらしい」とい
った文が見い出された場合には、文末の関係表現に着目
して、伝聞や推量であれば、値0.1ないし0.3をマ
イナスするといったルールを適用して、類似点を調整す
ることも、二つの文の類似を判断する上で好適である。
【0049】次に係り受けの照合の処理を行なう(ステ
ップS140)。この処理は、ある単語に着目したと
き、その単語の係り先の単語も一致する場合には、その
単語についての類似点を増加するのである。例えば、
「電源を入れる」と「電源を切る」という二つの文の場
合、「電源を」という文節を構成する単語「電源」は、
「入れる」と「切る」の両方に係り受けの関係を持って
おり、しかも、「入れる」と「切る」は身体動作という
点で同一のカテゴリに属する。こうした場合には、「電
源」についての類似点として与えられた値1を50%増
加し、値1.5とする。なお、増加の仕方は、こうした
50%アップなどに限られるものではなく、所定の値
(例えば0.5)を付与するといった手法でも差し支え
ない。また、係り受けの係り先の単語が完全一致の場合
には、更に高い値を与えるようにすることも望ましい。
この結果、先の単語の照合とあわせると、「電源を入れ
る」と「電源を切る」との類似点は、1.5+0.9=
2.4となる。
【0050】係り受けの照合を行なった後、次に部分文
の照合を行なう(ステップS150)。部分文の照合
は、着目している部分文が、結論部に相当するか条件部
に相当するかにより、類似点の増加を異ならせることに
より、行なっている。この関係を図12に示した。「電
源を入れる」と「電源を切る」とを例文として用いるも
のとして、 この両文が、検索文および対象文の結論部に存在して
いれば、類似点を100%増加するものとし、 一方が結論部に、他方が条件部に存在していれば、類
似点を50%増加するものとし、 両文が、共に条件部に存在していれば、更に、両者の
結論部からの距離を判定し、距離jが一致していれば、
類似点を20%増加するものとし、 両文が共に条件部に存在しており、かつ結論部からの
距離jが異なっていれば、類似点を10%増加するもの
とする、のである。
【0051】この結果、「電源を入れる」と「電源を切
る」が共に結論部にあれば、類似点は、2.4×2=
4.8となり、一方が結論部に他方が条件部にあれば、
2.4×1.5=3.6となり、共に条件部にあって結
論部からの距離が等しければ、2.4×1.2=2.8
8となり、結論部からの距離が異なってれば、2.64
となる。
【0052】もう少し複雑な例文を例に挙げて、類似点
の計算したものを以下に説明する。検索文としてクライ
アント30から入力した文が、「コンピュータの使用中
にハングアップして、コンピュータの電源を切ることも
できません」であり、データベースDBから、次の二つ
の文(A)(B)が、検索により取り出されたとする。 (A)PCの電源をいれると、オペレーティングシステ
ムが起動する前に、「NoSystemDisk」が表
示されて起動が止まってしまいます。 (B)コンピュータの電源が切れません。この二つの文
について、単語の照合を行なうと、例文(A)について
は、「電源」が完全に一致、「コンピュータ」と「P
C」、「切る」と「入れる」が、シソーラスTSRを参
照して類似となる。従って、単語における類似点は、
0.9+1+0.9=2.8となる。他方、例文(B)
については、「コンピュータ」「電源」「切る(否
定)」が完全一致するので、類似点は3となる。
【0053】次に、係り受けによる照合を行なうと、例
文(A)については、「PC」と「電源」の係り先が同
一カテゴリと判断できるので、両者の類似点を50%増
加して、0.9×1.5+1×1.5+0.9=3.7
5となる。他方、例文(B)については、「コンピュー
タ」と「電源」の係り先が同一と判断されるので、同様
に50%増加して、1×1.5+1×1.5+1=4と
なる。
【0054】更に、部分文の一致について照合すると、
例文(A)については、「コンピュータを、使用中に→
ハングアップして」は条件部にあり、「PCの→電源を
→切る(否定)」は結論部にあることから、類似点の総
和3.75を50%増加して、最終的な類似点は、5.
63となる。従って、この例文(A)と検索文との類似
度は、類似点5.63+1=6.63として与えられ
る。他方、例文(B)については、単語が類似した部分
文が共に結論部にあることから、類似点の総和4を10
0%増加して、4×2=8となり、検索文(類似点1)
との類似度は、8+1=9となる。
【0055】この結果、例文(B)の方が例文(A)よ
り、検索文により高い相関を示すと判断して、検索用サ
ーバ20は、例文(B)を例文(A)により上位に配列
して、クライアント30に出力する。検索用サーバ20
からのデータを受けて、クライアント30上で動作して
いるブラウザは、図13に例示するように、例文(B)
を例文(A)より上位に表示することになる。従って、
検索を行なおうとしたものと、より相関の高い検索結果
から順に参照することができ、所望の情報を一層容易に
入力することができる。なお、上記の実施例では、検索
の結果、類似度を判断して、より相関の高いと考えられ
る情報を上位に表示しているが、この場合に、類似点を
あわせて表示したり、結論部で一致したか、条件部で一
致したか等の情報を加えて表示するものとしてもよい。
こうすれば、利用者は、検索結果を単に上位から順に眺
めるだけでなく、どのような条件で一致した情報かを判
断することができ、好適である。
【0056】また、上記実施例では、検索文の解析も検
索用サーバ20で行なったが、検索文の解析をクライア
ント30側で行なうものとすることもできる。あるい
は、検索用サーバ20は、クライアント30側から受け
取った単語による検索だけを行ない、検索語に部分一致
が見いだされたデータをすべてクライアント30側に渡
し、クライアント30側で、図4に示した解析処理およ
び照合処理のすべてを行なうものとしても良い。解析処
理と照合処理を、検索用サーバ20側とクライアント3
0側にわけても良い。あるいは、クライアント30と検
索用サーバ20との間に専用のサーバを設けて、ここ
で、解析処理や照合処理を行なっても良い。
【0057】上記実施例では、シソーラスTSRを設け
て、検索文に含まれる単語の類義語などを含めて広く検
索を行ない、検索語の偏りなどによる検索漏れを防止し
ているが、検索を実行する前に、検索文を標準化するこ
とで検索漏れを防止しても良い。こうした標準化の処理
としては、半角/全角文字の統一などの文字の標準化、
送りがなや長音記号の有無などの表記の標準化、同一の
意味の他の自立語への統一など自立語の標準化など、種
々のレベルを考えることができる。検索前にこうした標
準化を行なっておけば、シソーラスTSRの参照を行な
わないか、行なうとしても限定的なものにとどめること
ができる。
【0058】以上、本発明の実施の形態について説明し
たが、本発明はこうした実施の形態に何等限定されるも
のではなく、本発明の要旨を逸脱しない範囲内におい
て、更に種々なる形態で実施し得ることは勿論である。
例えば、本実施例の検索システムは、クライアント−サ
ーバシステムとして実現したが、スタンドアロンのコン
ピュータで実現しても差し支えない。また、検索対象と
しては、ネットワーク上のサイトなどを対象とすること
も可能である。更に、上記実施の形態や実施例では、検
索結果を評価して対象文の振り分けを行なった後、これ
をクライアント側に出力しているが、検索結果の評価と
対象文の振り分けまででとどめても差し支えない。評価
され振り分けられた対象文を単に出力するだけでなく、
評価され振り分けられた対象文を推論エンジンの推論対
象として利用するなど、多様な応用が可能である。マイ
ク13を用いて検索文を音声認識により入力する構成
や、検索結果を音声により報知する構成も可能である。
【図面の簡単な説明】
【図1】本発明の実施の形態としての検索システム10
0の概略構成を示すブロック図である。
【図2】本発明の一実施例としての検索システム50の
構成を示す概略構成図である。
【図3】形態素解析辞書IDCの一部を例示する説明図
である。
【図4】検索用サーバ20が実行する検索処理の概要を
示す説明図である。
【図5】形態素解析処理ルーチンを示すフローチャート
である。
【図6】形態素解析により得られる単語の配列T[t]
の一例を示す説明図である。
【図7】係り受け解析により得られる文節の配列B
[b]の一例を示す説明図である。
【図8】部分文の解析により得られる部分文の配列S
[s]の一例を示す説明図である。
【図9】単語、文節、部分文の構成礼を示す説明図であ
る。
【図10】部分文の解析ルーチンを示すフローチャート
である。
【図11】部分文の解析に用いられる判定単語列Rmを
例示する説明図である。
【図12】部分文の照合時における類似点の増加の条件
とその割合を示す説明図である。
【図13】検索結果の表示例を示す説明図である。
【符号の説明】
10…ネットワーク 11…キーボード 12…マウス 13…マイク 18…ルータ 20…検索用サーバ 22…CPU 23…ROM 24…RAM 25…タイマ 26…表示回路 27…ハードディスク 29…モニタ 30…クライアント 30…検索用サーバ 50…検索システム 100…検索システム 110…ネットワーク 200…サーバコンピュータ 210…検索語受信部 220…検索エンジン 225…知識データベース 230…対象文解析部 240…対比実行部 250…配列部 260…検索結果出力部 300…クライアントコンピュータ 310…検索文入力部 320…検索文解析部 330…検索語出力部 340…結果表示部 DB…検索対象データベース IDC…形態素解析辞書 Rm…判定単語列 SDI…文判定ルール TSR…単語シソーラス

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 言語文を用いて検索を行なう装置であっ
    て、 検索用の検索文を入力する検索文入力手段と、 該入力された検索文を利用して、検索を行なう検索手段
    と、 少なくとも前記検索された対象に含まれる文である対象
    文を解析して、少なくとも一つの述部を含む構文上の最
    小単位である部分文を抽出すると共に、該抽出された部
    分文を、文における役割に着目して分類する分類手段
    と、 該分類に従って、前記対象文の前記検索文に対する相関
    の程度を評価し、該評価に基づいて前記対象文を振り分
    ける対象文評価手段とを備えた検索装置。
  2. 【請求項2】 請求項1記載の検索装置であって、 前記分類手段は、 前記対象文を形態素解析して文節を切り出す形態素解析
    手段と、 該形態素解析により、前記対象文に含まれる部分文の接
    続関係を示す接続詞、接続助詞を特定し、該接続詞、接
    続助詞を用いて、部分文を抽出する部分文抽出手段とを
    備えた検索装置。
  3. 【請求項3】 請求項1または2記載の検索装置であっ
    て、 前記分類手段は、前記文における役割として、少なくと
    も条件部と結論部とを区別し、該区別に従って、前記部
    分文を分類する手段を有する検索装置。
  4. 【請求項4】 請求項1ないし3のいずれか記載の検索
    装置であって、 前記分類手段は、 前記対象文を形態素解析して文節を切り出す形態素解析
    手段と、 該切り出された文節の係り受け関係を解析して文節間の
    関係を特定する文節関係特定手段とを備え、 前記評価手段は、前記特定された文節間の関係を考慮し
    て、前記対象文と前記検索文に対する相関の程度を評価
    する手段である検索装置。
  5. 【請求項5】 前記評価手段は、前記検索文が前記対象
    文における前記結論部に現われる対象文を上位の相関を
    有する文として振り分ける請求項3記載の検索装置。
  6. 【請求項6】 請求項1ないし5のいずれか記載の検索
    装置であって、 前記検索文を解析して、少なくとも一つの述部を含む構
    文上の最小単位である部分文を抽出すると共に、該抽出
    された部分文から、結論部に相当する部分を特定する結
    論特定手段を備え、 前記検索手段は、前記特定された結論部に含まれる単語
    を用いて検索を行なう手段である検索装置。
  7. 【請求項7】 前記検索手段は、シソーラスを利用し
    て、同義の単語を含む検索を行なう手段である請求項1
    ないし6のいずれか記載の検索装置。
  8. 【請求項8】 請求項1ないし7のいずれか記載の検索
    装置であって、 前記評価手段が評価した対象文を、評価に従う順序で出
    力する出力手段を備えた検索装置。
  9. 【請求項9】 請求項8記載の検索装置であって、 前記出力手段は、前記評価に従う順序により、階層化し
    た態様で、前記検索された対象文を出力する手段である
    検索装置。
  10. 【請求項10】 前記検索手段が検索する対象は、デー
    タベースである請求項1ないし9のいずれか記載の検索
    装置。
  11. 【請求項11】 前記検索手段が検索する対象は、ネッ
    トワーク上に置かれたサイトに含まれる情報である請求
    項1ないし9のいずれか記載の検索装置。
  12. 【請求項12】 ネットワークを介して接続されたクラ
    イアントコンピュータとサーバコンピュータとにより実
    現され、該ネットワークを介して接続された他のコンピ
    ュータ上のデータを検索して表示する検索システムであ
    って、 前記サーバコンピュータは、 前記クライアントコンピュータ側で入力された検索用の
    検索文を利用して、 前記ネットワークを介して接続された他のコンピュータ
    上のデータを検索する検索手段と、 少なくとも前記検索された対象に含まれる文である対象
    文を解析して、少なくとも一つの述部を含む構文上の最
    小単位である部分文を抽出すると共に、該抽出された部
    分文を、文における役割に着目して分類する分類手段
    と、 該分類に従って、前記対象文の前記検索文に対する相関
    の程度を評価し、該評価に基づいて前記対象文を振り分
    ける対象文評価手段と、 該振り分けた対象文を、所定の構造で、前記クライアン
    トコンピュータ上で表示可能な形態で、前記検索文の入
    力を行なったクライアントコンピュータに送り出す送信
    手段とを備えた検索システム。
  13. 【請求項13】 ネットワークを介して接続されたクラ
    イアントコンピュータとサーバコンピュータとにより実
    現され、該ネットワークを介して接続された他のコンピ
    ュータ上のデータを検索して表示する検索システムであ
    って、 前記サーバコンピュータは、 前記クライアントコンピュータ側で入力された検索用の
    検索文を利用して、前記ネットワークを介して接続され
    た他のコンピュータ上のデータを検索する検索手段を備
    え、 前記クライアントコンピュータは、 前記サーバコンピュータから前記検索の結果として、前
    記検索された対象に含まれる文である対象文を受け取る
    受信手段と、 該対象文を解析して、少なくとも一つの述部を含む構文
    上の最小単位である部分文を抽出すると共に、該抽出さ
    れた部分文を、文における役割に着目して分類する分類
    手段と、 該分類に従って、前記対象文の前記検索文に対する相関
    の程度を評価し、該評価に基づいて前記対象文を振り分
    ける対象文評価手段と、 該振り分けた対象文を、所定の構造で表示する表示手段
    とを備えた検索システム。
  14. 【請求項14】 言語文を用いて検索を行なう方法であ
    って、 検索用の検索文を入力し、 該入力された検索文を利用して、検索を行ない、 少なくとも前記検索された対象に含まれる文である対象
    文を解析して、少なくとも一つの述部を含む構文上の最
    小単位である部分文を抽出すると共に、該抽出された部
    分文を、文における役割に着目して分類し、 該分類に従って、前記対象文の前記検索文に対する相関
    の程度を評価し、該評価に基づいて前記対象文を振り分
    ける検索方法。
  15. 【請求項15】 言語文を用いて検索を行なう機能をコ
    ンピュータで実現するプログラムであって、 検索用の検索文を入力する機能と、 該入力された検索文を利用して、検索を行なう機能と、 少なくとも前記検索された対象に含まれる文である対象
    文を解析して、少なくとも一つの述部を含む構文上の最
    小単位である部分文を抽出すると共に、該抽出された部
    分文を、文における役割に着目して分類する機能と、 該分類に従って、前記対象文の前記検索文に対する相関
    の程度を評価し、該評価に基づいて前記対象文を振り分
    ける機能とをコンピュータ上で実現するプログラム。
  16. 【請求項16】 請求項15記載のプログラムを記録し
    た記録媒体。
JP2001297675A 2001-09-27 2001-09-27 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 Expired - Fee Related JP3985483B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001297675A JP3985483B2 (ja) 2001-09-27 2001-09-27 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001297675A JP3985483B2 (ja) 2001-09-27 2001-09-27 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2003108583A true JP2003108583A (ja) 2003-04-11
JP3985483B2 JP3985483B2 (ja) 2007-10-03

Family

ID=19118707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001297675A Expired - Fee Related JP3985483B2 (ja) 2001-09-27 2001-09-27 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP3985483B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272859A (ja) * 2005-08-30 2007-10-18 Zoo Corp 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体
JP2008250388A (ja) * 2007-03-29 2008-10-16 Toshiba Corp 情報検索装置、情報検索方法及び情報検索プログラム
JP2009157845A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 情報検索装置
JP2010256977A (ja) * 2009-04-21 2010-11-11 Toshiba Corp 情報検索装置およびプログラム
WO2012099196A1 (ja) * 2011-01-21 2012-07-26 独立行政法人情報通信研究機構 情報検索サービス提供装置及び方法、情報検索サービス提供用データベースの構築装置、並びにコンピュータプログラム信号

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272859A (ja) * 2005-08-30 2007-10-18 Zoo Corp 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体
JP2008250388A (ja) * 2007-03-29 2008-10-16 Toshiba Corp 情報検索装置、情報検索方法及び情報検索プログラム
JP2009157845A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 情報検索装置
JP2010256977A (ja) * 2009-04-21 2010-11-11 Toshiba Corp 情報検索装置およびプログラム
WO2012099196A1 (ja) * 2011-01-21 2012-07-26 独立行政法人情報通信研究機構 情報検索サービス提供装置及び方法、情報検索サービス提供用データベースの構築装置、並びにコンピュータプログラム信号
CN103415866A (zh) * 2011-01-21 2013-11-27 独立行政法人情报通信研究机构 信息检索服务提供装置及方法、信息检索服务提供用数据库的构筑装置、以及计算机程序信号
KR101877281B1 (ko) * 2011-01-21 2018-07-11 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 정보 검색 서비스 제공장치와 방법, 정보 검색 서비스 제공용 데이터베이스의 구축장치, 및 컴퓨터 프로그램 신호

Also Published As

Publication number Publication date
JP3985483B2 (ja) 2007-10-03

Similar Documents

Publication Publication Date Title
EP0953192B1 (en) Natural language parser with dictionary-based part-of-speech probabilities
US7805303B2 (en) Question answering system, data search method, and computer program
US7949676B2 (en) Information search system, information search supporting system, and method and program for information search
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
Srihari et al. Infoxtract: A customizable intermediate level information extraction engine
Shutova et al. Unsupervised metaphor paraphrasing using a vector space model
US20070073678A1 (en) Semantic document profiling
EP0467527A2 (en) Natural language apparatus and method and construction of a knowledge base for natural language analysis
KR20040018404A (ko) 데이터 처리 방법, 데이터 처리 시스템 및 프로그램
KR20120001053A (ko) 문서 감성 분석 시스템 및 그 방법
JP2011118689A (ja) 検索方法及びシステム
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
EP1290574B1 (en) System and method for matching a textual input to a lexical knowledge base and for utilizing results of that match
JP2003281183A (ja) 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JP4499179B1 (ja) 端末装置
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP5439028B2 (ja) 情報検索装置、情報検索方法、およびプログラム
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP5094096B2 (ja) 有名人の別表現の自動抽出装置、方法
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4059501B2 (ja) 自然語辞書更新装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070702

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100720

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110720

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110720

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120720

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120720

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130720

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees