JP2009157845A - 情報検索装置 - Google Patents

情報検索装置 Download PDF

Info

Publication number
JP2009157845A
JP2009157845A JP2007338348A JP2007338348A JP2009157845A JP 2009157845 A JP2009157845 A JP 2009157845A JP 2007338348 A JP2007338348 A JP 2007338348A JP 2007338348 A JP2007338348 A JP 2007338348A JP 2009157845 A JP2009157845 A JP 2009157845A
Authority
JP
Japan
Prior art keywords
sentence
syntax tree
paraphrase
target sentence
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007338348A
Other languages
English (en)
Other versions
JP5038881B2 (ja
Inventor
Yoshimi Saito
佳美 齋藤
Toshiyuki Kano
敏行 加納
Saori Kurata
早織 倉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007338348A priority Critical patent/JP5038881B2/ja
Publication of JP2009157845A publication Critical patent/JP2009157845A/ja
Application granted granted Critical
Publication of JP5038881B2 publication Critical patent/JP5038881B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】適切にパラフレーズされた文を取得する。
【解決手段】構文解析部4は、入力文の構文木を生成する。文節特定部5は、検索対象文と入力文との間で一致する自立語を含む文節を特定する。文節特定部5は、一致する自立語を含む文節を特定した場合に、一致した自立語を含む入力文の文節を示す文節IDを、一致文節IDとして検索対象文記憶部11の検索対象文管理テーブルに格納する。言い換え対象文決定部10は、入力文の構成と検索対象文の構成を比較し、一方の文を基準文とし、他方の文を言い換え対象文と決定する。判断部6及び置換部7は、言い換え対象文に含まれる部分構文木の置換処理を行なう。類似度判定部8は、置換された言い換え対象文と入力文との間で類似度を判定する。表示処理部9は、類似度判定部8による判定結果に基づいて、検索対象文の出力処理を行なう。
【選択図】 図1

Description

本発明は、入力された文と類似する文を出力する情報検索装置に関する。
従来から、データを検索するために様々な検索技術が提供され、広く普及している。例えば、インターネットの検索エンジンでは、利用者の検索条件に適合する文書を検索し、検索した文書を類似度に応じてランキングしている。
この文書検索では、利用者により入力されたキーワード、又は入力文から切り出されたキーワードに基づいて、文書を検索している。しかしながら、自然言語では、これらキーワードと同じ意味を別の言葉で表現することが可能である。
例えば、利用者から「読みを送信する」という入力文を含む文書の検索要求が行われた場合、この「読みを送信する」という入力文を言い換えた「読みを付与し送信を実行する」(以下、文Aとする)という文を含む文書については検出されないことになる。
このため、利用者は、「読みを送信する」という入力文のうち、「読み」と「送信」を検索キーワードとして文書を検索することもあり得る。この場合、確かに「読みを付与し送信を実行する」(文A)という文を含む文書については検出されるが、「読みを文字列から生成し、音声の送信を実行する」(以下、文Bとする)という「読みを送信する」と全く意味が異なる文を含む文書についても検出されることになる。この場合、利用者が意図しない文書も検出されることになるため、利用者が所望する文書を特定することが困難になる。このように、キーワードによる検索では、文Aと文Bとを区別することが難しいという問題がある。
以下、上述した「読みを送信する」を、「読みを文字列に付与し送信を実行する」のような同じ意味内容であって異なる表現にする変換を、「パラフレーズ」と呼ぶ。
そして、ある表現から、同じ意味内容であって別の表現(=パラフレーズ表現)の候補を生成することをパラフレーズ表現の生成手法と呼ぶ。このパラフレーズ表現の生成手法としては、予め保持している置換ルールに基づいて、ある表現を部分的に置換して別の表現を生成する手法がある。例えば、特許文献1に記載された技術では、複数の置換ルールを適用して置換候補を生成するという手法が提案されている。パラフレーズ表現の生成手法を検索に応用することも考えられる。例えば、パラフレーズ表現の生成手法を用いて、入力文から言い換え文を生成して、当該言い換え文が入力文と類似していると判断した場合に、当該言い換え文を用いて検索を行なうという手法が考えられる。
特開2003−76687号公報
しかしながら、特許文献1に記載されている技術は、書き換えルールにより、文言の変更を行っているが、自立語の数が変わるような複雑なパラフレーズを行ってはいない。このため、「読みを送信する」と「読みを文字列に付与し送信を実行する」との間のパラフレーズを行なうことはできないという問題がある。
そこで、本発明の目的は、適切にパラフレーズされた文を取得することが可能になる情報検索装置を提供することにある。
すなわち、本発明に係わる情報検索装置は、入力文による検索の対象となる検索対象文と、当該検索対象文における、文節毎の自立語と、自立語を木構造のノードとした自立語間の係り受け構造を保持する構文木とを対応付けて記憶する文記憶手段と、入力文を構文解析して、当該入力文の自立語間の係り受け構造を保持する構文木を生成する構文木生成手段と、入力文の構成と検索対象文の構成を予め定められた比較基準により比較し、比較結果により一方の文を言い換え対象文とし他方の文を基準文とする言い換え対象文決定手段と、複数の自立語間の係り受け構造を示す第1の部分構文木パタンと、第1の部分構文木の言い換えとなる自立語間の係り受け構造を示す部分構文木パタンであって第1の部分構文木よりノードの数が少ない第2の部分構文木パタンと、第1の部分構文木パタンを第2の構文木パタンに置換する置換条件とを対応付けて記憶する構文木パタン記憶手段とを備え、言い換え対象文に含まれる部分構文木が置換条件に一致するか否か判断し、置換条件に一致すると判断した場合に当該置換条件に対応付けられた第1の部分構文木パタンと一致する言い換え対象文に含まれる部分構文木を、当該置換条件と対応付けられた第2の部分構文木パタンで置き換え、基準文の構文木と置き換えられた言い換え対象文の構文木との類似度を判定し、この判定された類似度が所定の条件を満たす場合、当該判定した類似度の判定に関わる前記検索対象文を検索結果として出力することを特徴とする。
本発明によれば、検索対象文が入力文より単純な構文木を持つ場合や、入力文より複雑な表現と入力文より単純な表現が混在している場合でも、入力文と類似する検索対象文を高い精度で特定できる。よって、適切にパラフレーズされた文を取得することができる。
以下図面により本発明の実施形態について説明する。
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態における情報検索装置の構成例を示すブロック図である。
図1に示すように、本発明の第1の実施形態における情報検索装置1は、記憶部2、入力部3、構文解析部4、文節特定部5、判断部6、置換部7、類似度判定部8、表示処理部9および言い換え対象文決定部10を備える。
記憶部2は、例えばハードディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶媒体により構成されるものであり、構文解析部4と、文節特定部5と、判断部6と、置換部7と、類似度判定部8と、表示処理部9と、言い換え対象文決定部10とによる動作のためのプログラムを記憶する他、検索対象文記憶部11、置換ルール記憶部12、置換順序記憶部13、一致文節記憶部14および置換履歴格納部15を有する。
図2は、本発明の各実施形態における情報検索装置の情報検索装置のハードウェア構成の一例を示すブロック図である。
図2に示したハードウェア構成は、図1に示した情報検索装置1の各部の機能を具現化する構成である。このハードウェア構成として、前述したプログラムなどが格納されるROM22と、当該ROM22内のプログラムに従って当該装置の各部を制御するCPU21と、当該装置の制御に必要な種々のデータを記憶するRAM(Random Access Memory)23と、処理結果等を表示するディスプレイ装置といった表示部25と、ネットワークに接続する通信I/F24と、ハードディスクドライブなどの外部記憶装置26と、利用者が入力する際に用いる入力デバイス27とを備え、それぞれがバス28により接続される。情報検索装置1は、これらの構成を備えた一般的なコンピュータに適用することができる。
図3は、本発明の第1の実施形態における情報検索装置の検索対象文記憶部が記憶する検索対象文管理テーブルの構成例を表形式で示す図である。
検索対象文記憶部11は、入力文による検索の対象となる複数の検索対象文についての構文解析結果を示す検索対象文管理テーブルを予め記憶している。図3に示すように、検索対象文管理テーブルでは、文IDと、検索対象文と、文節IDと、文節の自立語と、当該自立語の品詞と、親IDと、親の文節との関係と、一致文節IDとを対応付けて保持する。
文IDは、検索対象文毎に割り当てられたIDである。文節IDは、検索対象文の文節毎に割り当てられたIDである。テーブル中の「関係」では、親の文節との関係が格納され、例えば、「の」、「を」、「並列」、「隣」等が挙げられる。なお、テーブル中の一致文節IDは初期状態では空欄であり、後述する処理を行なう際に利用される。テーブル中の親IDは親の文節を示す文節IDが格納される。つまり、検索対象文管理テーブルでは、この親IDにより検索対象文の構文解析結果となる構文木の構造を格納する。
次に、検索対象文管理テーブル上の文ID「1」の構文木の構造について示す。図4は、本発明の第1の実施形態における情報検索装置の検索対象文管理テーブルに格納された文ID「1」の構文木のツリー構造の一例を示す図である。
図4に示す構文木は、図3に示した検索対象文管理テーブル上の文ID「1」についての構文木であり、当該検索対象文管理テーブルのフィールド情報である親IDに基づいて構文木構造を実現している。
図4に示すように、親IDである「送信(文節ID「2」)」の下に、「読み(文節ID「1」)」が関連付けられる。後述する処理では、このような構文木構造を用いてパラフレーズ処理を行なう。
置換ルール記憶部12は、置換部7が行なう後述のパラフレーズに用いる置換ルールを示す置換ルール管理テーブルを格納している。当該置換ルールに従って、言い換え対象文のパラフレーズが行われる。
図5は、本発明の第1の実施形態における情報検索装置の置換ルール記憶部が保持する置換ルール管理テーブルの構成例を表形式で示す図である。
図5に示すように、置換ルール管理テーブルは、分類ID、ルールID、対象パタン、置換パタン、係り受け条件、品詞条件および一致条件を対応付けて保持する。なお、分類とは、文の区切りとなる所定のまとまりを指す。本実施形態では分類として、名詞句、動詞句、格共有等が挙げられる。
置換ルール管理テーブル上の分類IDは、上述した分類毎に割り当てられたIDである。また、当該テーブル上のルールIDは、分類毎に設定された各置換ルールに割り当てられたIDである。そして、ルールIDの数が小さい方については、係り受け構造等が複雑な置換ルールが設定されており、ルールIDの数が大きい方については、係り受け構造等が簡単な置換ルールが設定される。
つまり、本実施形態では、情報検索装置1は、言い換え対象文において複雑な置換ルールに一致すれば当該置換ルールと対応付けられた置換を行ない、複雑な置換ルールに一致しなかった場合には単純な置換ルールと一致するか否かの判断を行ない、当該単純な置換ルールと一致した場合に当該置換ルールと対応付けられた置換を行なうことになる。このように情報検索装置1が複雑な置換ルールから順に言い換え対象文が一致するか否か判断することで、構文木を置換する精度を向上させることができる。
置換ルール管理テーブル上の対象パタンは、言い換え対象文に対して適用する自立語間の係り受け構造を示す構文木のパタンである。当該テーブル上の置換パタンは、言い換え対象文に含まれる部分構文木が対象パタンと一致するとともに後述する置換条件を満足した場合に実行される置換処理後の構文木のパタンである。対象パタン及び置換パタンの「−」は2つの単語間に係り受け関係が存在していることを示す。
図5に示すように、置換ルールテーブル上の対象パタンより置換パタンの方がノード数が少なく設定されている。なお、対象パタンの構文木と置換パタンの構文木は、ノード数こそ異なるが意味的には言い換えとなるものである。これにより、当該複数のパタンを用いて言い換え対象文を置換しても言い換え関係が成立することになる。
図6は、本発明の第1の実施形態における情報検索装置による置換前に部分構文木に対応する対象パタンの構文木と、置換後の部分構文木に対応する置換パタンの構文木の一例を示す図である。
図6に示す例は、図5に示した置換ルールテーブル上の対象パタンの構文木と、置換パタンの構文木とを示した例であり、所定の条件を満たした場合に、対象文に含まれている対象パタンの構文木が置換パタンの構文木に置換される。
図5の説明に戻る。置換ルール管理テーブルの係り受け条件、品詞条件、一致条件は、言い換え対象文において、基準文が有する自立語を残すと共に対象パタンを置換パタンに置換するための置換条件として設定される。これら全ての置換条件を満たした場合、言い換え対象文に対して置換処理が行われる。
置換ルール管理テーブル上の係り受け条件は、文節間の係り受け(関係)についての条件を示す。例えば図5に示した置換ルールテーブルを用いた場合、判断部6は、文節B−A間の係り受けが「の」又は「隣」の場合に条件を満たしていると判断する。置換ルールテーブル上の品詞条件は、各文節の自立語の品詞の条件を示す。当該テーブル上の一致条件は、言い換え対象文の各文節の自立語が基準文の文節の自立語と一致しているか否かの条件が設定される。「不一致」は言い換え対象文の各文節の自立語が基準文の自立語と一致していないことを示し、「一致」は言い換え対象文の各文節の自立語が基準文の文節の自立語と一致していることを示す。
つまり、図5に示した置換ルールテーブル上の分類ID「2」、ルールID「1」の置換ルールでは、名詞Bが名詞Aに係り、名詞Aが単語(品詞は任意のものとする)Cに係るパタンが言い換え対象文に含まれる場合に、判断部6が、これら文節間において名詞Bと名詞Aの関係が「の」又は「隣」であり、名詞Bは基準文の文節と一致し、名詞Aは基準文の文節と不一致したのであれば、置換条件を満たしていると判断することになる。そして、置換部7は、言い換え対象文の名詞Bが名詞Aに係り、名詞Aが単語Cに係るパタンを、名詞Bが単語Cに係るパタンに置換する。
図7は、本発明の第1の実施形態における情報検索装置の置換順序記憶部に保持される置換順序管理テーブルの構成例を表形式で示す図である。
記憶部2の置換順序記憶部13は、置換ルール管理テーブル上で置換ルールが設定される分類の呼び出し順序を保持する置換順序管理テーブルを記憶する。図7に示すように、置換順序管理テーブルは、分類IDとルール分類とを対応付けて保持する。そして、本実施形態にかかる情報検索装置1では、当該置換順序管理テーブルの上のレコードから順に置換処理を行なう。つまり、情報検索装置1は、図7に示した置換順序管理テーブルにしたがった場合、最初に動詞句の置換ルールで処理を行ない、次に名詞句の置換ルールで処理を行ない、最後に格共有の置換ルールで処理を行なうことになる。
入力部3は、利用者、または他の装置からの入力文の入力を受け付ける。
構文解析部4は、入力部3が処理した入力文に対して構文解析を行ない、当該入力の文節毎の自立語間の係り受け構造を示した構文木を生成する。また、各文節の自立語の品詞の判定処理も行なう。
次に、入力部3が「読みを付与し、送信する」という入力文を処理した場合に、構文解析部4が行なう構文解析の結果について説明する。
図8は、本発明の第1の実施形態における情報検索装置の構文解析部による入力文「読みを付与し送信する」の構文解析結果を示す図である。
図8に示した例では、構文解析部4は、入力文が3つの文節を含み、名詞「読み」が動詞「付与」に「を」の関係で係り、動詞「付与」が動詞「送信」に「並列」の関係で係ると解析している。
文節特定部5は、検索対象文と入力文との間で一致、または類義にあたる単語として別途登録されている単語と一致する自立語を含む文節を特定する。そして、文節特定部5は、一致する自立語を含む文節を特定した場合に、一致した自立語を含む入力文の文節を示す文節IDを、一致文節IDとして検索対象文記憶部11の検索対象文管理テーブルに格納する。
図9は、本発明の第1の実施形態における情報検索装置の検索対象文記憶部が記憶する一致文節特定後の検索対象文管理テーブルの構成例を表形式で示す図である。
図9に示した検索対象文管理テーブルは、図3に示した検索対象文と、図8に示した入力文とを文節特定部5で処理した結果を示すテーブルである。
一致文節記憶部14は、一致文節管理テーブルを記憶する。一致文節管理テーブルは、入力文の文節毎に、検索対象文の一致した文節を対応付けて保持する。文節特定部5は、一致する自立語を含む文節を特定した場合に、一致した自立語を含む検索対象文の文節を示す文節IDを、入力文の一致文節IDとして一致文節記憶部14の一致文節管理テーブルに格納し、図8に示した構文解析結果に反映させる。一致文節管理テーブルの詳細については後述する。
言い換え対象文決定部10は、入力文の構成と検索対象文の構成を比較し、比較結果により、一方の文を基準文と決定し、他方の文を言い換え対象文と決定する。なお、詳細な処理手順については後述する。
また、本実施形態では、言い換え対象文決定部10は、検索対象文記憶部11に格納される全ての検索対象文に対して処理を行なうが、このような処理に制限するものではない。例えば、入力文を構成する単語を少なくともn個(nはパラメータ)含むような検索対象文のみを予め抽出するなど、類似しそうな検索対象文を予め抽出してから言い換え対象文決定部10により処理してもよい。
判断部6は、置換順序記憶部13に格納される分類順に、自立語が一致すると文節特定部5に特定された文節、及び置換ルール記憶部12に記憶された当該分類の置換ルールを用いて、言い換え対象文が置換パタンに置換する置換条件である係り受け条件、品詞条件、一致条件を満たしているか否か判断する。
置換部7は、置換条件を満たしていると判断部6が判断した場合に、言い換え対象文に含まれる部分構文木のうち、置換ルール記憶部12に格納される対象パタンに一致する部分構文木を、置換ルールテーブル上で前述したように満たした係り受け条件、品詞条件および一致条件が関わる行の置換パタンとして示される部分構文木に置換する。そして、置換部7は、置換処理した後の言い換え対象文を後述する置換履歴格納部15に格納する。
置換履歴格納部15は、言い換え後の文、つまり置換部7により行われた置換処理後の言い換え対象文を処理ステップ毎に格納する。
類似度判定部8は、置換履歴格納部15に格納された置換処理後の言い換え対象文と基準文との間の類似度を判定する。
表示処理部9は、類似度判定部8による判定結果に基づき、検索対象文を出力する。
次に、図1に示す情報検索装置1が行なう全体の処理手順について説明する。図10は、本発明の第1の実施形態における情報検索装置が行なう全体の処理手順の一例を示すフローチャートである。
まず、入力部3が入力文の入力を受け付けると(ステップS1)、構文解析部4は、入力処理された入力文に対して構文解析を行ない、入力文の構文木を生成する(ステップS2)。そして、文節特定部5は、検索対象文と入力文との間で一致する自立語を含む文節を特定する(ステップS3)。そして、文節特定部5は、一致する自立語を含む文節を特定した場合に、一致した自立語を含む入力文の文節を示す文節IDを、一致文節IDとして検索対象文記憶部11に記憶される検索対象文管理テーブルに格納する。
次に、言い換え対象文決定部10は、入力文の構成と検索対象文の構成とを比較し、一方の文を基準文と決定し、他方の文を言い換え対象文と決定する(ステップS4)。
次に、判断部6及び置換部7は、言い換え対象文に含まれる部分構文木の置換処理を行なう(ステップS5)。
そして、類似度判定部8は、ステップS5の処理で置換された言い換え対象文と基準文との間で類似度を判定する(ステップS6)。
そして、表示処理部9は、類似度判定部8による判定結果に基づいて、検索対象文の出力処理を行なう(ステップS7)。
次に、前述したステップS3の処理である、文節特定部5における検索対象文と入力文との間で一致する自立語を含む文節を特定する処理手順について説明する。図11は、本発明の第1の実施形態における情報検索装置の文節特定部における検索対象文と入力文との間で一致する自立語を含む文節を特定する処理手順の一例を示すフローチャートである。
まず、文節特定部5は、処理対象の検索対象文を検索対象文管理テーブルから1つ設定した上で、変数i及び変数jに初期値として「1」を設定する(ステップS11)。
次に、文節特定部5は、入力文の文節ID「i」の自立語と、現在処理対象である検索対象文の文節ID「j」の自立語とが一致するか否か判断する(ステップS12)。また、文節特定部5は、一致しないと判断した場合(ステップS12のNO)、これら文節ID間について特に設定処理を行わない。
そして、文節特定部5は、各自立語が一致すると判断した場合(ステップS12のYES)、入力文の文節ID「i」の一致文節IDとして「j」を設定する(ステップS13)。そして、文節特定部5は、当該一致文節IDを一致文節管理テーブル上の現在処理対象である検索対象文の文IDの列で入力文の文節ID「i」の行の欄に登録する。
図12は、本発明の第1の実施形態における情報検索装置の一致文節記憶部に保持される一致文節管理テーブルの構成例を表形式で示す図である。
図12に示すように、一致文節管理テーブルは、入力文の各文節IDに対して、検索対象文の文ID毎に一致した文節IDである一致文節IDを格納している。
図11の説明に戻る。文節特定部5は、検索対象文の文節ID「j」の一致文節IDとして「i」を設定する(ステップS14)。そして、文節特定部5は、当該一致文節IDを、検索対象文管理テーブル上の現在処理対象の検索対象文の文IDに関わる文節ID「j」の行の一致文節IDの欄に登録する。
図9に示すように、文節特定部5による処理後の検索対象文管理テーブルには、各検索対象文の文節IDと対応付けられた一致文節IDの欄に、一致した入力文の文節IDが登録される。
図11の説明に戻る。文節特定部5は、現在処理対象の検索対象文に処理を行っていない文節があるか否か判断する(ステップS15)。文節特定部5は、処理を行っていない文節があると判断した場合(ステップS15のYES)、変数jに「1」追加し(ステップS16)、ステップS12以降の処理を再度行なう。
文節特定部5は、ステップS14の処理後、もしくはステップS12の処理で「NO」と判断した場合、現在処理対象の検索対象文の全ての文節に対して処理を行ったと判断した場合(ステップS15のNO)、入力文に処理を行っていない文節があるか否か判断する(ステップS17)。文節特定部5は、入力文に処理を行っていない文節があると判断した場合(ステップS17のYES)、検索対象文の処理対象の文節IDを示す変数jに初期値「1」を再び設定すると共に、変数iに1を加えて更新し(ステップS18)、ステップS12以降の処理を再度行なう。
次に、文節特定部5は、入力文の全ての文節に対して処理を行ったと判断した場合(ステップS17のNO)、検索対象文管理テーブルで管理される検索対象文のうち、処理を行っていない検索対象文があるか否か判断する(ステップS19)。文節特定部5は、処理を行っていない検索対象文があると判断した場合(ステップS19のYES)、文節特定部5は、処理を行っていない検索対象文を処理対象に設定し(ステップS20)、ステップS11以降の処理を再度行なう。
そして、文節特定部5は、検索対象文管理テーブルで管理される全ての検索対象文に対して処理を行ったと判断した場合(ステップS19のNO)、処理を終了する。
上述した処理手順により、各検索対象文の文節と入力文の文節とについて、同じ自立語を含む文節間での対応付けがなされたことになる。
次に、図10に示したステップS4の処理である、言い換え対象文決定部10による言い換え処理手順について説明する。図13は、本発明の第1の実施形態における情報検索装置の言い換え対象文決定部による、入力文と検索対象文を比較し、言い換え対象文と基準文を決定する処理手順の一例を示すフローチャートである。
まず、言い換え対象文決定部10は、入力文の文節数nをカウントし、検索対象文の文節数mをカウントする(ステップS21)。次に、言い換え対象文決定部10は、nとmの値を比較する。
言い換え対象文決定部10は、nがmより大きければ言い換え対象文を入力文とし、基準文を検索対象文とする(ステップS22→S23)。
一方、言い換え対象文決定部10は、nがm以下ならば、言い換え対象文を検索対象文とし、基準文を入力文とする(ステップS22→S24)。
この処理に従うと、例えば図8に示した入力文の文節数nは「3」となる。一方、図9に示した検索対象文では、文ID「1」の文の文節数mは「2」となる。よって、この例では入力文が言い換え対象文となる。
次に、図10に示したステップS5の処理である、判断部6及び置換部7による検索対象文に含まれる部分構文木の置換処理手順について説明する。図14は、本発明の第1の実施形態における情報検索装置の判断部及び置換部による検索対象文に含まれる部分構文木の置換処理手順の一例を示すフローチャートである。
まず、判断部6は、処理対象の言い換え対象文を設定し、この言い換え対象文の第1の文節(文節ID「1」)を処理対象として設定する(ステップS31)。なお、判断部6は、置換順序記憶部13に記憶された順序に従って分類ID「1」から順に処理を行なう。
次に、判断部6は、処理対象の言い換え対象文の文節を含む構文木において、当該分類の所定の置換ルール(最初はルールID「1」の置換ルール)の条件と一致するか否か判断する(ステップS32)。図5に示した置換ルール管理テーブルでは、処理対象として着目されている文節が対象パタンの文節Aに相当するものとする。
そして、判断部6は、処理対象の言い換え対象文の文節を含む構文木について、対象パタンの係り受け構造が成り立つと共に、処理対象の言い換え対象文の文節が当該対象パタンと対応付けられている係り受け条件、品詞条件、及び一致条件を満足している場合に、処理対象の言い換え対象文の各文節が置換ルールの置換条件と一致していると判断する。
判断部6は、置換ルールの置換条件と一致していないと判断した場合(ステップS32のNO)、当該分類において他の置換ルール、つまり次のルールIDに対応する置換条件があるか否か判断する(ステップS33)。
判断部6は、他の置換ルールがあると判断した場合(ステップS33のYES)、当該他の置換ルールを次に用いる置換ルールとして設定する(ステップS34)。
図5に示した置換ルールでは、例えば分類ID「1」においては2つの置換ルールが存在するため、判断部6は、処理対象の言い換え対象文の各文節がルールID「1」の条件に一致しなかった場合に、ルールID「2」の条件に一致するか否かの判断を行なうことになる。このように判断部6は、小さい数のルールIDから順に置換ルールと処理対象の言い換え対象文の各文節との一致の有無を判断することになる。
そして、置換ルール管理テーブルでは、数が小さいルールIDほど置換条件が複雑であり、ルールIDの数が大きくなるほど置換条件が単純になるように設定している(例えば分類ID「3」の置換ルール参照)。これにより、複雑な置換条件に一致した場合に当該複雑な置換条件と対応付けられた置換処理が適用され、単純な置換条件と対応付けられた置換処理は適用されないことになる。このように置換ルールに優先順位を設定したことで、本実施形態にかかる情報検索装置1では、検索対象文の構文木に対して、より適切な置換(パラフレーズ)が可能となる。
また、判断部6が処理対象の言い換え対象文の各文節が置換ルールで設定されている置換条件と一致していると判断した場合(ステップS32のYES)、置換部7は、言い換え対象文において、当該所定の置換ルールと対応付けられた対象パタンと一致する部分構文木を、当該所定の置換ルールと対応付けられた置換パタンに一致する構文木に置換する(ステップS35)。
そして、置換部7は、置換履歴格納部15に対し、当該置換履歴格納部15に格納されていない文節のうち置換された構文木までの文節を格納する(ステップS36)。
一方、判断部6は、前述したステップS33の処理の結果、当該分類において他の置換ルールがないと判断した場合(ステップS33のNO)又はステップS36の処理が終了した後において、処理対象の言い換え対象文中に処理を行っていない文節があるか否かを判断する(ステップS37)。判断部6は、処理を行っていない文節があると判断した場合(ステップS37のYES)、処理対象であった文節の次の文節、つまり次の文節IDに対応する文節を処理対象として設定する(ステップS38)。そして、判断部6や置換部7は再びステップS32以降の処理を行なう。
そして、判断部6は、ステップS37の処理の結果、全ての文節について処理が終了したと判断した場合(ステップS37のNO)、処理対象の言い換え対象文の各文節のうち置換されなかったために当該置換履歴格納部15に格納されていない文節を置換履歴格納部15に格納する(ステップS39)。
次に、判断部6は、当該処理対象の言い換え対象文に対して、置換ルール上で処理を行っていない分類IDに対応する置換ルールがあるか否か判断する(ステップS40)。そして、判断部6は処理を行っていない分類があると判断した場合(ステップS40のYES)、置換順序記憶部13に記憶された分類の順序に従って、次の分類、つまり次の分類IDに対応する置換ルールを処理対象として設定する(ステップS41)。
また、判断部6は全ての分類において処理を行ったと判断した場合(ステップS40のNO)、処理を行っていない言い換え対象文があるか否か判断する(ステップS42)。そして、判断部6は、処理を行っていない言い換え対象文があると判断した場合(ステップS42のYES)、処理を行っていない言い換え対象文を次の処理対象として設定する(ステップS43)。さらに、判断部6や置換部7は、置換順序記憶部13で設定された最初の分類の最初の置換ルールを用いてステップS42以降の処理を再び行なう。
そして、判断部6は、処理を行っていない言い換え対象文がないと判断した場合(ステップS42のYES)、処理を終了する。
図15は、本発明の第1の実施形態における情報検索装置の言い換え対象文決定部による入力文の言い換え処理結果の一例を示す図である。
図15に示した例は、図8に示した入力文と図3に示した検索対象文管理テーブル上の文IDが「1」である検索対象文との比較の結果、入力文を言い換え対象文とした場合の言い換え処理結果である。
図15に示した例を説明すると、図8に示した入力文が言い換え対象文である場合、この入力文の構文木は図5に示した置換ルールテーブル上の分類ID「1」および分類ID「2」に関わる各ルールおよび分類ID「3」のルールID「1」のルールには合致せず、分類ID「2」のルールID「2」のルールには合致している。この合致するルールの置換パタンにしたがった言い換え処理がなされる。
このように、言い換え対象文毎に、置換順序記憶部13に記憶された分類順に置換された後の当該言い換え対象文の構文木が置換履歴格納部15に格納されることになる。このように処理ステップ(分類)毎に置換された履歴が格納されることで、分類毎にどのような置換が行われたのか特定できる。
次に、図10に示したステップS6の処理である、類似度判定部8による置換された言い換え対象文と基準文との間の類似度の判定処理手順について説明する。なお、この処理手順は、検索対象文毎に行われるものとする。
図16は、本発明の第1の実施形態における情報検索装置による置換された言い換え対象文と基準文との間での類似度の判定処理手順の一例を示すフローチャートである。
まず、類似度判定部8は、変数iの初期値として「1」を設定する(ステップS51)。次に、類似度判定部8は、リンク一致数に初期値として「0」を設定する(ステップS52)。このリンク一致数とは、置換処理後の言い換え対象文と基準文との間で文節に含まれる自立語と、当該文節の親の文節に含まれる自立語とが一致した数を示したものである。類似度判定部8は、当該リンク一致数が所定の基準値以上の場合に、言い換え対象文と基準文とが類似しているものと判定する。
そして、類似度判定部8は、一致文節記憶部14に記憶される一致文節管理テーブルを参照して、基準文の文節ID「i」で一致文節IDがあるか否かを判断する(ステップS53)。この際、類似度判定部8は一致文節IDがあると判断した場合(ステップS53のYES)、当該一致文節IDを変数「j」に設定する(ステップS54)。
次に、類似度判定部8は、基準文の文節ID「i」の親文節IDの一致文節IDが、置換部7により置換された後の言い換え対象文の文節ID「j」の親文節IDと一致するか否か判断する(ステップS55)。類似度判定部8は、ステップS55の処理の結果、一致しないと判断した場合(ステップS55のNO)、特に処理を行わない。
そして、類似度判定部8は、ステップS55の処理の結果、一致すると判断した場合(ステップS55のYES)、リンク一致数に「1」を追加して更新する(ステップS56)。
類似度判定部8は、ステップS56の処理後、もしくはステップS53の処理やステップS55の処理で「NO」と判断した場合、基準文に上述した処理を行っていない文節があるか否か判断する(ステップS57)。そして、類似度判定部8は、基準文に上述した処理を行っていない文節があると判断した場合(ステップS57のYES)、変数iに1を追加して(ステップS58)、ステップS53以降の処理を再び行なう。
また、類似度判定部8は、全ての文節に対して上述した処理を行ったと判断した場合(ステップS57のNO)、現在のリンク一致数を類似度判定結果として設定した後(ステップS59)、処理を終了する。
上述した処理を行なうことで、言い換え対象文毎に、算出されたリンク一致数を類似度判定結果として取得したことになる。そして、表示処理部9は、当該類似度検索結果が所定の基準値以上の場合に類似していると判断し、類似していることを視認できるように表示処理する。
本実施形態では、所定の基準値を「1」とする。図15に示した、置換された後の言い換え対象文に関して図16に示した類似度判定処理を行なうと、文ID「1」、「3」の検索対象文に関する入力文との類似度判定結果は「1」以上となるが、文ID「2」の検索対象文に関する入力文との類似度判定結果は「0」となる。
そこで、表示処理部9は、表示部25に対し、文ID「1」、「3」の検索対象文については入力文と類似する旨を表示し、文ID「2」の検索対象文については入力文と非類似である旨を表示する。
図17は、本発明の第1の実施形態における情報検索装置の表示処理部が表示する検索結果の例を示す図である。
図17に示すように、表示処理部9は、類似している文ID「1」、「3」の検索対象文に対しては入力文と類似している旨を示す「○」を表示し、文ID「2」の検索対象文に対しては入力文と非類似である旨を示す「×」を表示する。さらに表示処理部9は、置換履歴格納部15を参照して、分類毎の置換過程を表示する。
図17の例に示すように、表示処理部9は、文ID「1」の検索対象文に対して、入力文「読みを付与し、送信する」から、「読みを送信する」までの置換過程の表示を行う。
また、表示処理部9は、文ID「2」の検索対象文に対して、当該検索対象文「読みを生成し、音声の送信を実行する」から「読みを生成し、音声を送信する」までの置換過程の表示を行う。
また、表示処理部9は、文ID「3」の検索対象文に対して、当該検索対象文「漢字の読みの情報を付与し、送信する」から、「読みを付与し、送信する」を経由して「読みを送信する」までの置換過程の表示を行う。
本実施の形態では、置換順序記憶部13に格納された分類順(動詞句、名詞句、格共有)に置換を行っているが、これは最初に動詞句について置換を行うことで、不要な自立語を含む文節を削除した後で、名詞句、格共有の順にパラフレーズを行うことを目的としたものである。ここで仮に、置換順序記憶部13において、分類の呼出順序で、動詞句と格共有との呼出順序を反対にした場合、格共有の処理が先に行われることになる。その場合、処理対象の言い換え対象文において不要な文節が削除されていないため、格共有処理を行うための条件を満たさなくなる。
以上説明したように本発明の第1の実施形態における情報検索装置1は、検索対象文が入力文より単純な構文木を持つ場合や、入力文より複雑な表現と入力文より単純な表現が混在している場合のいずれにおいても、入力文と類似する検索対象文を高い精度で特定することが可能となる。
また、本実施形態にかかる情報検索装置1では、置換順序記憶部13において、分類の呼出順序を置換するために適切な順序で設定しているため、より高い精度で置換することを可能としている。
なお、本実施形態にかかる情報検索装置1では、検索対象文をすべて出力しているが、このような出力に限らず、例えば上述した処理により類似すると判定された検索対象文のみを出力してもよい。さらに、本発明はその趣旨を逸脱しない範囲内で種々の応用が可能である。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。なお、以下の各実施形態に係る情報検索装置の構成は図1に示したものと基本的にほぼ同様であるので同一部分の説明は省略する。
図18は、本発明の第2の実施形態における情報検索装置の言い換え対象文決定部による、入力文と検索対象文を比較し、言い換え対象文と基準文を決定する処理手順の一例を示すフローチャートである。
図19は、本発明の第2の実施形態における情報検索装置により管理する除外表現管理テーブルの一例を表形式で示す図である。図19に示した除外表現管理テーブルの情報は記憶部2に予め記憶される。
図20は、本発明の第2の実施形態における情報検索装置によって除外文節の情報を検索対象文管理テーブルの一致文節ID欄に登録した一例を示す図である。この例では、第1の実施形態で説明した図9に示した例と比較して、文ID「4」の文節ID「1」に対応する一致文節IDの欄に「除外」が登録されている。
まず、言い換え対象文決定部10は、入力文の文節数をカウントし、変数n1に設定する。また、検索対象文の文節数をカウントし、変数m1に設定する(ステップS61)。
次に、言い換え対象文決定部10は、入力文に含まれる文節のうち除外表現管理テーブルで管理される文節を除いた文節数である除外文節数をカウントし、変数n2に設定する。また、言い換え対象文決定部10は、検索対象文に含まれる文節のうち除外表現管理テーブルで管理される文節を除いた文節数である除外文節数をカウントし、変数m2に設定する(ステップS62)。次に、言い換え対象文決定部10は、n1からn2を引いた値を変数Nに設定する。また、言い換え対象文決定部10は、m1からm2を引いた値をMに設定する(ステップS63)。
次に、言い換え対象文決定部10は、NとMの値を比較し、NがMより大きいか否かを判断する(ステップS64)。
言い換え対象文決定部10は、NがMより大きければ、言い換え対象文を入力文とし、基準文を検索対象文とする(ステップS64→S65)。また、言い換え対象文決定部10は、NがM以下であれば、言い換え対象文を検索対象文とし、基準文を入力文とする(ステップS64→S66)。
この処理に従うと、例えば図8に示した入力文のNが「3」となる一方で、図9に示した検索対象文では、文ID「4」の文のMが「2」となり、言い換え対象文が入力文となる。この結果、入力文に対して言い換え処理が行われる。
この入力文の言い換え処理の後、類似度判定部8での処理において、図15に示した言い換え結果の構文木と、図20に示した文ID「4」の検索対象文の構文木の類似度はリンク一致数1となる。
この結果、表示処理部9は、文ID「4」の検索対象文の文に対して、類似している旨を示す「○」の表示および入力文「読みを付与し、送信する」から、「読みを送信する。」までの置換過程の表示を行なう。
以上説明したように、本発明の第2の実施形態における情報検索装置による処理を行なうことにより、入力文と検索対象文との間で、基準文および言い換え対象文の決定について、判断材料となる文節数としてカウントするのに適切でない文節を予め除外した上で基準文および言い換え対象文の決定を行うことができるので、入力文と類似する検索対象文の特定にかかる精度がさらに向上する。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。図21は、本発明の第3の実施形態における情報検索装置の言い換え対象文決定部による、入力文と検索対象文を比較し、言い換え対象文と基準文を決定する処理手順の一例を示すフローチャートである。
まず、言い換え対象文決定部10は、一致文節記憶部14の情報を参照し、一致文節IDが付与されている文節ノード間の木構造上の距離を算出し、nは算出された距離の中で最も大きい値とする。
また、言い換え対象文決定部10は、検索対象文記憶部11の情報を参照し、一致文節IDが付与されている文節ノード間の木構造上の距離を算出し、mは算出された距離の中で最も大きい値とする(ステップS71)。
ここで、文節ノード間の木構造上の距離とは、リンクで直接繋がっている文節ノード間の距離を1と定義し、直接繋がっていない文節ノード間では、その2つのノード間を最短で結んだ時に通るリンクの数と定義する。
次に、言い換え対象文決定部10は、nとmの値を比較し、nがmより大きければ、言い換え対象文を入力文とし、基準文を検索対象文とする(ステップS72→S73)。また、言い換え対象文決定部10は、nがm以下であれば、言い換え対象文を検索対象文とし、基準文を入力文とする(ステップS72→S74)。
この処理に従うと、例えば図8に示した入力文では、一致文節間の距離は2となるので、nは「2」となる。一方、図9に示した検索対象文では、文ID「5」の文の一致文節間の距離は1となるので、mは「1」となり、言い換え対象文が入力文となる。この結果、入力文に対して言い換え処理が行われる。
類似度判定部8での処理において、図15に示した言い換え結果の構文木と、図9に示した文ID「5」の検索対象文の構文木の類似度はリンク一致数1となる。
この結果、表示処理部9は、文ID「5」の検索対象文の文に対して、類似している旨を示す「○」の表示および入力文「読みを付与し、送信する」から、「読みを送信する。」までの置換過程の表示を行う。
以上説明したように、本発明の第3の実施形態における情報検索装置による処理を行なうことにより、入力文と検索対象文との間で、基準文および言い換え対象文の決定のための判断材料として、一致文節間のノード距離の最大値を用いるようにしたので、入力文と類似する検索対象文の特定にかかる精度がさらに向上する。
上述した各実施形態にかかる情報検索装置1で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
この場合には、プログラムは、情報検索装置1の各装置において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、上述した実施形態にかかる情報検索装置1で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施形態にかかる情報検索装置1で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。また、本実施形態のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
本発明の第1の実施形態における情報検索装置の構成例を示すブロック図。 本発明の各実施形態における情報検索装置の情報検索装置のハードウェア構成の一例を示すブロック図。 本発明の第1の実施形態における情報検索装置の検索対象文記憶部が記憶する検索対象文管理テーブルの構成例を表形式で示す図。 本発明の第1の実施形態における情報検索装置の検索対象文管理テーブルに格納された文ID「1」の構文木のツリー構造の一例を示す図。 本発明の第1の実施形態における情報検索装置の置換ルール記憶部が保持する置換ルール管理テーブルの構成例を表形式で示す図。 本発明の第1の実施形態における情報検索装置による置換前に部分構文木に対応する対象パタンの構文木と、置換後の部分構文木に対応する置換パタンの構文木の一例を示す図。 本発明の第1の実施形態における情報検索装置の置換順序記憶部に保持される置換順序管理テーブルの構成例を表形式で示す図。 本発明の第1の実施形態における情報検索装置の構文解析部による入力文「読みを付与し送信する」の構文解析結果を示す図。 本発明の第1の実施形態における情報検索装置の検索対象文記憶部が記憶する一致文節特定後の検索対象文管理テーブルの構成例を表形式で示す図。 本発明の第1の実施形態における情報検索装置が行なう全体の処理手順の一例を示すフローチャート。 本発明の第1の実施形態における情報検索装置の文節特定部における検索対象文と入力文との間で一致する自立語を含む文節を特定する処理手順の一例を示すフローチャートである。 本発明の第1の実施形態における情報検索装置の一致文節記憶部に保持される一致文節管理テーブルの構成例を表形式で示す図。 本発明の第1の実施形態における情報検索装置の言い換え対象文決定部による、入力文と検索対象文を比較し、言い換え対象文と基準文を決定する処理手順の一例を示すフローチャート。 本発明の第1の実施形態における情報検索装置の判断部及び置換部による検索対象文に含まれる部分構文木の置換処理手順の一例を示すフローチャート。 は、本発明の第1の実施形態における情報検索装置の言い換え対象文決定部による入力文の言い換え処理結果の一例を示す図。 本発明の第1の実施形態における情報検索装置により置換された検索対象文と基準文との間での類似度の判定処理手順の一例を示すフローチャート。 本発明の第1の実施形態における情報検索装置の表示処理部が表示する検索結果の例を示す図。 本発明の第2の実施形態における情報検索装置の言い換え対象文決定部による、入力文と検索対象文を比較し、言い換え対象文と基準文を決定する処理手順の一例を示すフローチャート。 本発明の第2の実施形態における情報検索装置により管理する除外表現管理テーブルの一例を表形式で示す図。 本発明の第2の実施形態における情報検索装置によって除外文節の情報を検索対象文管理テーブルの一致文節ID欄に登録した一例を示す図。 本発明の第3の実施形態における情報検索装置の言い換え対象文決定部による、入力文と検索対象文を比較し、言い換え対象文と基準文を決定する処理手順の一例を示すフローチャート。
符号の説明
1…情報検索装置、2…記憶部、3…入力部、4…構文解析部、5…文節特定部、6…判断部、7…置換部、8…類似度判定部、9…表示処理部、11…検索対象文記憶部、12…置換ルール記憶部、13…置換順序記憶部、14…置換履歴格納部、15…一致文節記憶部、21…CPU、22…ROM、23…RAM、24…通信I/F、25…表示部、26…外部記憶装置、27…入力デバイス、28…バス。

Claims (5)

  1. 入力文の入力を受け付ける入力手段と、
    前記入力文による検索の対象となる検索対象文、当該検索対象文における文節毎の自立語、および前記自立語を木構造のノードとした自立語間の係り受け構造を保持する構文木を対応付けて記憶する文記憶手段と、
    前記入力文を構文解析して当該入力文の自立語間の係り受け構造を保持する構文木を生成する構文木生成手段と、
    前記入力文の構成および前記検索対象文の構成を予め定められた比較基準により比較し、比較結果により一方の文を言い換え対象文と決定し他方の文を言い換えの基準文と決定する言い換え対象文決定手段と、
    複数の自立語間の係り受け構造を示す第1の部分構文木パタン、当該第1の部分構文木パタンの言い換えとなる自立語間の係り受け構造を示すとともに前記第1の部分構文木パタンより前記ノードの数が少ない第2の部分構文木パタン、および前記第1の部分構文木パタンを前記第2の構文木パタンに置換するための置換条件を対応付けて記憶する構文木パタン記憶手段と、
    前記言い換え対象文に含まれる部分構文木が、前記構文木パタン記憶手段により記憶する前記置換条件に一致するか否か判断する判断手段と、
    前記置換条件に一致すると前記判断手段により判断した場合に、前記言い換え対象文に含まれる前記部分構文木のうち当該置換条件に対応付けられる前記第1の部分構文木パタンと一致する部分構文木を、当該置換条件と対応付けられる前記第2の部分構文木パタンで置き換える置換手段と、
    前記基準文の構文木、および前記置換手段により置き換えられた前記言い換え対象文の構文木の類似度を判定する類似度判定手段と、
    前記類似度判定手段により判定した類似度が所定の条件を満たす場合に、当該判定した類似度の判定に関わる前記検索対象文を検索結果として出力する出力手段と
    を備えることを特徴とする情報検索装置。
  2. 前記言い換え対象文決定手段は、前記入力文を構成する自立語の数および前記検索対象文を構成する自立語の数を前記比較基準とし、自立語の数が多い方の文を言い換え対象文とし、自立語の数が少ない方の文を基準文とする
    ことを特徴とする請求項1に記載の情報検索装置。
  3. 前記言い換え対象文決定手段は、前記入力文や前記検索対象文を構成する自立語の数を算出する際の除外対象の単語のリストをさらに保持し、前記入力文や前記検索対象文について、前記除外対象の単語を除いた自立語の数を算出する
    ことを特徴とする請求項2に記載の情報検索装置。
  4. 前記言い換え対象文決定手段は、前記入力文を構成する自立語のうち当該入力文の自立語および前記検索対象文の自立語の間の一致情報を付与された自立語の構文木上での最大距離、および前記検索対象文を構成する自立語のうち前記一致情報を付与された自立語の構文木上での最大距離を前記比較基準とし、最大距離が大きい方の文を言い換え対象文とし、最大距離が小さい方の文を基準文とする
    ことを特徴とする請求項1に記載の情報検索装置。
  5. 前記構文木パタン記憶手段は、文の区切りとなる所定のまとまり毎に、前記第1の部分構文木パタン、前記第2の部分構文木パタン、および前記置換条件を対応付けて記憶し、
    前記判断手段は、前記所定のまとまり毎に、前記言い換え対象文に含まれる部分構文木が、前記構文木パタン記憶手段が記憶する前記置換条件に一致するか否か判断する
    ことを特徴とする請求項1乃至4のいずれかに記載の情報検索装置。
JP2007338348A 2007-12-27 2007-12-27 情報検索装置 Expired - Fee Related JP5038881B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007338348A JP5038881B2 (ja) 2007-12-27 2007-12-27 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007338348A JP5038881B2 (ja) 2007-12-27 2007-12-27 情報検索装置

Publications (2)

Publication Number Publication Date
JP2009157845A true JP2009157845A (ja) 2009-07-16
JP5038881B2 JP5038881B2 (ja) 2012-10-03

Family

ID=40961751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007338348A Expired - Fee Related JP5038881B2 (ja) 2007-12-27 2007-12-27 情報検索装置

Country Status (1)

Country Link
JP (1) JP5038881B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188678A (ja) * 2000-01-05 2001-07-10 Mitsubishi Electric Corp 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体
JP2002123546A (ja) * 2000-10-17 2002-04-26 Canon Inc 文書検索装置、文書検索方法、及び、記録媒体
JP2003108583A (ja) * 2001-09-27 2003-04-11 Seiko Epson Corp 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP2003167898A (ja) * 2001-12-04 2003-06-13 Tokyo Soft Kk 情報検索システム
JP2007041767A (ja) * 2005-08-02 2007-02-15 Nec Corp テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188678A (ja) * 2000-01-05 2001-07-10 Mitsubishi Electric Corp 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体
JP2002123546A (ja) * 2000-10-17 2002-04-26 Canon Inc 文書検索装置、文書検索方法、及び、記録媒体
JP2003108583A (ja) * 2001-09-27 2003-04-11 Seiko Epson Corp 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP2003167898A (ja) * 2001-12-04 2003-06-13 Tokyo Soft Kk 情報検索システム
JP2007041767A (ja) * 2005-08-02 2007-02-15 Nec Corp テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム

Also Published As

Publication number Publication date
JP5038881B2 (ja) 2012-10-03

Similar Documents

Publication Publication Date Title
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
JP6828335B2 (ja) 検索プログラム、検索装置および検索方法
US10430405B2 (en) Apply corrections to an ingested corpus
US20140297571A1 (en) Justifying Passage Machine Learning for Question and Answer Systems
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
JP2020087353A (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
JPWO2009087996A1 (ja) 情報抽出装置及び情報抽出システム
CA2809021C (en) Systems and methods for lexicon generation
CN108121455A (zh) 识别纠正方法及装置
JP2013161371A (ja) テキスト検索装置及びプログラム
JP2006251935A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2009059300A (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
US20160085760A1 (en) Method for in-loop human validation of disambiguated features
JP4745417B2 (ja) 情報検索装置およびプログラム
JP5038881B2 (ja) 情報検索装置
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP2011090463A (ja) 文書検索システム、情報処理装置およびプログラム
JP2011154590A (ja) プログラムおよび情報処理装置
JP2005173847A (ja) 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
JP5160120B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP5733285B2 (ja) 検索装置、検索方法及びプログラム
KR100918489B1 (ko) 텍스트 비교 방법 및 텍스트 비교 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100315

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120706

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5038881

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees