JP4005343B2

JP4005343B2 - 情報検索システム

Info

Publication number: JP4005343B2
Application number: JP2001369754A
Authority: JP
Inventors: 貞治高井; 隆光石岡
Original assignee: 東京ソフト株式会社
Priority date: 2001-12-04
Filing date: 2001-12-04
Publication date: 2007-11-07
Anticipated expiration: 2021-12-04
Also published as: JP2003167898A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力した文章の構文を解析して、その文章に対応する情報を検索したり、または前記情報に関連する回答文や確認文などを抽出する情報検索システムに関する。
【０００２】
【従来の技術】
例えば、インターネット上においてデータベースから情報を検索するとき、または、コンピュータ内で蓄積されたデータベースから情報を検索するときには、検索を指示するために入力された入力文章の単語を解読し、この単語を検索単位として、この単語が含まれている情報が前記データベースから検索されるのが一般的である。
【０００３】
しかし、単語を単位とした情報検索では、検索結果となる情報の数が膨大になったり、または実際に検索しようとする情報と異なる情報が検索されることになって、必要とする情報を迅速に且つ正確に検索することが困難である。
【０００４】
また、これはインターネットなどを通じて、所定の質問文や注文文などを入力し、サーバーにおいて前記質問文や注文文に対応する回答文や確認文を抽出する場合においても同様に迅速で且つ正確な回答を行うのが難しい。
【０００５】
また、入力した文章に基づいて情報を検索するいわゆるデータマイニングの手法として、例えば特開２００１−１３４５７５号公報には、入力される文章を単語に分割して、単語間の係り受け構造を解析した構文木を形成し、この構文木に基づいて、同じ構文木を含む情報をデータベースから迅速に検索するシステムが説明されている。
【０００６】
【発明が解決しようとする課題】
前記特開２００１−１３４５７５号公報に記載の構文木構造は、例えば「私は会社に行く。」という文章に対して「私→行く」「会社→行く」のような構文木を構築しているものであるため、データベースから同種の文章を迅速に検索できるようになる。
【０００７】
しかし、実際の日本語の文章は、肯定と否定の表現が様々であり、また話者の意図についても多種多様な表現が用いられる。例えば「本体の交換」を主題とする文章は「本体を交換してください」「本体を交換してほしい」「本体を交換してほしくない」などきわめて微妙な言い回しが行われることが多い。
【０００８】
したがって、入力された文章を形態素解析し、この解析により抽出された単語を中心とした単純な構文木データを構築するだけでは、入力された文章が持つ意味を的確に分析したことにならず、データベースからの情報の検索精度を高くするのに限界がある。
【０００９】
また、インターネットを介してサーバーへ所定の質問文や注文文を送信し、その質問文や注文文を解析してその回答文や確認文などを検索するシステムにおいては、同じ内容の質問や同じ内容の注文事項であっても様々な表現の文章で入力されることが多い。そのため、個々の質問文や注文文をカテゴリー別に正確に分類するのが難しく、よって回答文や確認文などをデータベースから正確に検索するのが難しい。
【００１０】
本発明は上記従来の課題を解決するものであり、データベースから情報を検索する際、または質問文や注文文などをカテゴリー別に分類する際に、正確な検索ができる情報検索システムを提供することを目的としている。
【００１１】
【課題を解決するための手段】
本発明は、（ａ）入力された文章データに辞書のデータベースを適用して、前記文章データを単語と品詞属性とに解析して形態素解析データを生成する手段と、
（ｂ）前記形態素解析データに基づいて、前記単語を少なくとも１つ含む文節を解読するとともに、文節間の係り受け関係を解析する手段と、
（ｃ）係り受け関係にある複数の文節およびこの文節ごとの述語属性と、さらに前記文節間の関係属性を付加した部分木データを生成し、さらに関係のある複数の前記部分木からなる構文木を構築して構文木データを生成する手段と、
（ｄ）前記部分木データおよび前記構文木データに基づいて、抽出すべき情報が格納されたデータベースから、前記構文木データと一致する構文を含む情報、または前記構文木データに類似した構文を含む情報を抽出する手段と、
を有し、
入力された文章をＳ、入力された文章Ｓ内の部分木データをＴｉ（ｉ＝１，２，３，…ｎ）とし、被検索対象のデータベースに含まれる情報単位をＣｊ（ｊ＝１，２，３，…ｍ）、前記情報単位Ｃｊが複数集まった集合をＭとしたときに、
前記（ｄ）の情報を抽出する手段が以下の手段を含むことを特徴とする情報検索システムである。
（ｄ１）それぞれの前記情報単位Ｃｊについて、その情報単位Ｃｊに属する全ての部分木の数に対する、前記部分木データＴｉが出現する回数の比を、前記情報単位ＣｊにおけるＴｉの出現確率Ｐ（ｊ）として演算する、
（ｄ２）前記集合Ｍに属する全ての部分木の数に対する、前記部分木データＴｉが出現する回数の比を、集合ＭにおけるＴｉの出現確率Ｐｔ（ｉ）として演算する、
（ｄ３）前記出現確率の比｛Ｐ（ｊ）／Ｐｔ（ｉ）｝を、情報単位Ｃｊにおける前記部分木データＴｉの特異度Ｐｓ（ｉ）とする、
（ｄ４）文章Ｓ内の各部分木Ｔｉについて演算された前記特異度Ｐｓ（ｉ）から、各情報単位Ｃｊの尤度Ｐｓｔ＝Σ｛Ｐｓ（ｉ）｝（ｉ＝１からｉ＝ｎまでの累積加算値）を求め、前記尤度Ｐｓｔが所定値以上の前記情報単位Ｃｊを検索結果とする。
【００１５】
例えば、前記情報単位Ｃｊは、同種のカテゴリーの文章の集まりであり、前記情報単位Ｃｊが検索結果とされたときに、この情報単位Ｃｊのカテゴリーに対する対応文がデータベースから選択されるものである。
【００１６】
ただし、前記情報単位が、インターネットを介して入力された文章を含む情報などであり、文章の入力によって情報検索が行われるものであってもよい。
【００１７】
【発明の実施の形態】
図１は本発明の実施の形態の情報検索システムを示す構成図、図２は入力された文章の解析手法を示す説明図、図３は情報検索の手法を示す説明図、図４は本発明の情報検索の応用範囲を示す説明図である。
【００１８】
図１に示すように、この情報検索システム１は、インターネット経由でデータの授受を行うことができるシステム本体２を有している。このシステム本体２は、インターネット経由で文章データＳを受け入れる読み込みインターフェース３および、前記文章データＳを格納するテキストデータベース１０を有している。
【００１９】
またシステム本体２は情報処理部８を有している。この情報処理部８は、テキストデータベース１０に格納されている前記文章データＳに対して、形態素解析４、構文解析５、構文木データの生成６および検索のための演算処理７などの各種処理を行うＣＰＵを主体として構成されている。
【００２０】
被検索対象となる情報は抽出情報データベース９に格納されている。前記情報処理部８では、前記抽出情報データベース９にアクセスするとともに、後に説明する規則に基づいて演算処理７が行われて、前記抽出情報データベース９から検索データ２３を抽出できるようになっている。
【００２１】
前記システム本体２には、データの記憶部が設けられている。この記憶部には、基本語辞書１１のデータ、ユーザ辞書１２のデータ、構文解析５を行う際の解析ルール１３のデータ、類語辞書１４のデータ、さらに述語属性と関係属性を解析するための解析ルール１５を定めたデータなどが記憶されている。
【００２２】
検索者の端末からインターネット経由により検索指示を意味する文章データＳが与えられ、この文章データＳがインターフェース３を介してテキストデータベース１０に格納される。このテキストデータベース１０から読み出された文章データＳが情報処理部８に与えられると、情報処理部８において、形態素解析４および構文解析５が行われ、さらに属性ルール１５に基づいて述語属性と関係属性が付与されて構文木データ２２が生成される。この構文木データ２２と前記抽出情報データベース９に格納されたデータ（情報単位Ｃｊ）とから演算処理７が行われて検索データ２３が抽出される。
【００２３】
この情報検索システム１が、データベースからのデータの抽出システムとして使用されるときには、前記演算処理７に基づいて前記抽出情報データベース９から抽出された検索データ２３が、インターフェースを介してインターネット経由にて検索者の端末に送り出される。そして検索者の端末のディスプレイで、前記検索データ２３の内容を確認することができる。
【００２４】
ただし、図１に示す実施の形態では、検索者の端末から入力される文章データＳが質問文または注文文などの場合を一例として示している。情報処理部８では、前記質問文や注文文などが解析され、さらに演算処理７されて、その質問や注文などの内容が抽出情報データベース９に格納されたデータ群のどのカテゴリーに属するかが検索される。そして、その検索結果、すなわち前記質問や注文が抽出情報データベース９に格納されたデータ群のどのカテゴリーに属するかを意味するデータが検索データ２３として得られる。さらに、この検索データ２３が検索モジュール２４に送られ、検索モジュール２４では、前記質問や注文のカテゴリーに対応する回答文や確認文などが検索され、この回答文や確認文などが出力インターフェース２５を介して前記検索者の端末に送り出されるようになっている。
【００２５】
以下においては、前記情報検索システム１に対して前記質問文や注文文の文章データＳが与えられたときに、前記検索データ２３が得られるまでの処理動作を、図２および図３を用いて詳しく説明する。ただし、前述のように、本発明の情報検索システム１は、前記のような質問などの解析と回答などの検索を行うものに限られず、抽出情報データベース９から情報を検索し、その検索データを検索者に与えられるシステムとして使用する場合においても、以下と同様の処理動作を実行するものとして使用できる。
【００２６】
図２では、検索者の端末からインターネット経由でシステム本体２に与えられた文章データＳが注文文である場合を一例として示している。
【００２７】
情報処理部８では、テキストデータベース１０に格納された前記文章データＳを読み出して、文章データＳ内に含まれる文末記号にしたがって、単文ごとに分割する。この実施の形態では、前記単文Ｓａが「修理してもプリンターの紙詰まりが直らないので、本体を交換してもらえませんか？」である。
【００２８】
前記単文Ｓａは、情報処理部８に設定される形態素解析エンジンに取り込まれ、基本語辞書１１およびユーザ辞書１２に基づいて形態素解析４が行われる。なお、前記ユーザ辞書１２は、システム本体２を管理する管理者において構築されるものである。図２に示す枠内は、前記単文Ｓａを形態素解析４した解析データ３１を示している。
【００２９】
形態素解析４では、前記単文Ｓａを構成している「修理」「直」「交換」「プリンター」「紙」「詰まり」「本体」などの「自立語」、および、「し」「て」「も」「の」などの「付属語」の単語綴りや、それぞれの品詞属性、すなわち「名詞」「動詞」「動詞活用語尾」「動詞接尾辞」「連用助詞」「格助詞」などの属性が解析される。
【００３０】
さらに、前記形態素解析４された解析データ３１に対し、解析ルール１３に基づく構文解析５が行われる。
【００３１】
この構文解析５では、形態素解析４により解析された「自立語」および「付属語」とから文節をまとめる。図２の例では、前記文節は「交換してもらえませんか」「本体を」「直らないので」などである。さらに前記文節間の係り受け関係を解析して、係り受け関係の文節からなる木構造をまとめる。図２の例での木構造Ｔ１´，Ｔ２´，Ｔ３´，Ｔ４´，Ｔ５´は、「本体を交換してもらえませんか」「直らないので交換してもらえませんか」「修理しても直らないので」「紙詰まりが直らないので」「プリンターの紙詰まりが」である。
【００３２】
次に、係り受け関係の単位である前記木構造Ｔ１´，Ｔ２´，Ｔ３´，Ｔ４´，Ｔ５´の単語を標準形に置き換える。このとき類語については、類語辞書１４を参照して、必要に応じて代表語に変換する。標準形の単語を用いた係り受け関係が部分木となり、標準形の部分木Ｔ１は「本体＋交換する」、部分木Ｔ２は「治る＋交換する」、部分木Ｔ３は「紙詰まり＋治る」、部分木Ｔ４は「修理する＋治る」、部分木Ｔ５は「プリンター＋紙詰まり」である。
【００３３】
さらに、それぞれの前記部分木Ｔｉに対して、属性ルール１５にしたがって属性解析を行い、それぞれの文節に述語属性が付加され、さらに文節間の関係属性が付与されて、対を成す文節および前記述語属性および関係属性とから成る部分木Ｔｉの集合である構文木データ２２が形成される。
【００３４】
前記構文木データ２２での部分木Ｔ１は、「本体」の単語を含む文節と、「交換」の単語を含む文節「交換する」とが対を成し、前記「交換する」の文節に意思を意味する述語属性「ｉｎｔ」が付与され、さらに関係属性として「意図」が付与されたものとなる。
【００３５】
部分木Ｔ２は、代表語に変換された「治」の単語を含む文節「治る」と、「交換」の単語を含む文節「交換する」とが対を成し、「治る」の文節に否定を意味する述語属性の「ｎｅｇ」が付与され、前記「交換する」の文節に述語属性の「ｉｎｔ」（意思）が付加され、さらに関係属性として「理由」が付与されたものとなる。
【００３６】
部分木Ｔ３は、「紙」の単語と「詰まり」の単語を有する文節「紙詰まり」と、「治」の単語を含む文節「治る」とが対を成し、「治る」の文節に否定を意味する述語属性の「ｎｅｇ」が付与され、さらに関係属性として「現象」が付与されたものとなる。
【００３７】
また、部分木Ｔ４は関係属性が「状況」であり、部分木Ｔ５は関係属性が「限定」である。
【００３８】
図１に示す情報検索システム１では、前記構文木データ２２と抽出情報データベース９内のデータとから演算を行って、前記単文Ｓａで述べられている意味が、抽出情報データベース９に格納された複数の情報単位のどれに該当する確率が高いかの演算が行われる。
【００３９】
すなわち、入力された文章データＳの単文Ｓａが図２に示すような「修理してもプリンターの紙詰まりが直らないので、本体を交換してもらえませんか？」の質問文または注文文などの場合には、抽出情報データベース９に、同じカテゴリーの質問文または注文文が含まれた情報単位Ｃｊ（ｊ＝１，２，３…，ｍ）が複数単位格納されている。
【００４０】
ひとつの情報単位Ｃｊには、同種の質問または注文の標準文例が複数例含まれている。そして図１に示す情報検索システム１では、図２に示す単文Ｓａ「修理してもプリンターの紙詰まりが直らないので、本体を交換してもらえませんか？」の意味する内容のカテゴリーがどの情報単位Ｃｊに相当するかが、演算処理７によって求められる。この演算処理７は、情報処理部８のＣＰＵなどにより実行される。
【００４１】
まず、それぞれの情報単位Ｃｊ内での部分木Ｔ１の出現確率Ｐ（ｊ）を演算する。これは、それぞれの前記情報単位Ｃｊ（Ｃ１，Ｃ２，Ｃ３，…，Ｃｍ）ごとに演算される。前記出現確率Ｐ（ｊ）は、その情報単位Ｃｊに属する全ての部分木の数に対する、その情報単位Ｃｊ内で前記部分木Ｔ１が出現する回数の比である。
【００４２】
次に、全ての情報単位Ｃ１，Ｃ２，Ｃ３，…，Ｃｍの集合をＭとしたときに、前記集合Ｍ内での前記部分木Ｔ１の出現確率Ｐｔ（ｉ）を演算する。これは前記集合Ｍに属する全ての部分木の数に対する、前記部分木Ｔ１が出現する回数の比として求められる。
【００４３】
前記出現確率の比｛Ｐ（ｊ）／Ｐｔ（ｉ）｝が、それぞれの情報単位Ｃ１，Ｃ２，Ｃ３，…，Ｃｍにおける、前記部分木Ｔ１の特異度Ｐｓ（１）である。
【００４４】
そして、入力された単文Ｓａの構文木データ２２内の各部分木Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５｛一般式ではＴｉ（ｉ＝１，２，３…，ｎ）｝の全てに対して前記特異度Ｐｓ（ｉ）（ｉ＝１，２，３…，ｎ）を求め、これを累積して加算した値が、前記単文Ｓａの全ての部分木Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５を加味した尤度Ｐｓｔである。
【００４５】
すなわち、特異度Ｐｓ（ｉ）（ｉは部分木の番号）から、Σ｛Ｐｓ（ｉ）｝（ｉ＝１からｉ＝ｎまでの累積加算値）で求められた前記尤度Ｐｓｔが、前記集合Ｍ内におけるそれぞれの情報単位Ｃ１，Ｃ２，Ｃ３，…，Ｃｍの尤度である。
【００４６】
前記尤度Ｐｓｔが所定値（しきい値）を越えた情報単位Ｃｊが検索すべき検索データ２３である。
【００４７】
なお、いずれの情報単位Ｃ１，Ｃ２，Ｃ３，…，Ｃｍにおいても前記尤度Ｐｓｔがしきい値を超えない場合には、情報検索システム１の管理者に警告が出されるなどし、管理者が実際の単文Ｓａを読んで解釈し、いずれの情報単位Ｃｊが前記単文Ｓａのカテゴリーに近いかを判断し、検索データ２３として指定する。
【００４８】
図１に示す検索モジュール２４では、前記尤度Ｐｓｔにより抽出された検索データ２３のカテゴリーに対応した回答文、または注文等の確認文が選択され、インターフェース２５から検索者の端末に送信される。
【００４９】
図４は、前記情報検索システム１の応用範囲を示している。
図４に示すＩのフローが、前記質問文や注文文が入力されたときであり、前記のようにインターネットを通じての自動回答や注文の確認などが行われる。また前記のように単文Ｓａが情報単位Ｃ１，Ｃ２，Ｃ３．．．，Ｃｍのいずれかのカテゴリーに属するべきかが判断された時点で、前記単文Ｓａを検索された情報単位内に格納するなどのＱ＆Ａの構築支援に利用することができる。
【００５０】
または図４に示すＩＩのフローのように、前記尤度Ｐｓｔを演算することにより、入力された単文Ｓａを主題とする、または前記単文Ｓａを含む、文章データの分類、文章データの検索、データベースの構築などを行うことができる。
【００５１】
【発明の効果】
以上のように本発明では、文章データが入力されたときに、その文章データの文意を正確に把握して、その文章データに対応する情報の検索を行うことができる。また、文章データの構文木に基づいてどの情報単位の尤度が高いかを検索することにより、情報単位の検索精度を向上させることができる。
【図面の簡単な説明】
【図１】本発明の情報検索システムの構成例を示すブロック図、
【図２】構文木データを形成する過程を示す説明図、
【図３】データベース内の情報単位の検索手法の説明図、
【図４】本発明の情報検索システムの応用範囲を示す説明図、
【符号の説明】
１情報検索システム
２システム本体
３読み込みインターフェース
４形態素解析
５構文解析
６構文木データの生成
７演算処理
８情報処理部
９抽出情報データベース
１０テキストデータベース
２２構文木データ
２３検索データ

Claims

（ａ）入力された文章データに辞書のデータベースを適用して、前記文章データを単語と品詞属性とに解析して形態素解析データを生成する手段と、
（ｂ）前記形態素解析データに基づいて、前記単語を少なくとも１つ含む文節を解読するとともに、文節間の係り受け関係を解析する手段と、
（ｃ）係り受け関係にある複数の文節およびこの文節ごとの述語属性と、さらに前記文節間の関係属性を付加した部分木データを生成し、さらに関係のある複数の前記部分木からなる構文木を構築して構文木データを生成する手段と、
（ｄ）前記部分木データおよび前記構文木データに基づいて、抽出すべき情報が格納されたデータベースから、前記構文木データと一致する構文を含む情報、または前記構文木データに類似した構文を含む情報を抽出する手段と、
を有し、
入力された文章をＳ、入力された文章Ｓ内の部分木データをＴｉ（ｉ＝１，２，３，…ｎ）とし、被検索対象のデータベースに含まれる情報単位をＣｊ（ｊ＝１，２，３，…ｍ）、前記情報単位Ｃｊが複数集まった集合をＭとしたときに、
前記（ｄ）の情報を抽出する手段が以下の手段を含むことを特徴とする情報検索システム。
（ｄ１）それぞれの前記情報単位Ｃｊについて、その情報単位Ｃｊに属する全ての部分木の数に対する、前記部分木データＴｉが出現する回数の比を、前記情報単位ＣｊにおけるＴｉの出現確率Ｐ（ｊ）として演算する、
（ｄ２）前記集合Ｍに属する全ての部分木の数に対する、前記部分木データＴｉが出現する回数の比を、集合ＭにおけるＴｉの出現確率Ｐｔ（ｉ）として演算する、
（ｄ３）前記出現確率の比｛Ｐ（ｊ）／Ｐｔ（ｉ）｝を、情報単位Ｃｊにおける前記部分木データＴｉの特異度Ｐｓ（ｉ）とする、
（ｄ４）文章Ｓ内の各部分木Ｔｉについて演算された前記特異度Ｐｓ（ｉ）から、各情報単位Ｃｊの尤度Ｐｓｔ＝Σ｛Ｐｓ（ｉ）｝（ｉ＝１からｉ＝ｎまでの累積加算値）を求め、前記尤度Ｐｓｔが所定値以上の前記情報単位Ｃｊを検索結果とする。
前記情報単位Ｃｊは、同種のカテゴリーの文章の集まりであり、前記情報単位Ｃｊが検索結果とされたときに、この情報単位Ｃｊのカテゴリーに対する対応文がデータベースから選択される請求項１記載の情報検索システム。