JP2008152641A - 類似例文検索装置 - Google Patents

類似例文検索装置 Download PDF

Info

Publication number
JP2008152641A
JP2008152641A JP2006341558A JP2006341558A JP2008152641A JP 2008152641 A JP2008152641 A JP 2008152641A JP 2006341558 A JP2006341558 A JP 2006341558A JP 2006341558 A JP2006341558 A JP 2006341558A JP 2008152641 A JP2008152641 A JP 2008152641A
Authority
JP
Japan
Prior art keywords
sentence
similarity
example sentence
syntax element
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006341558A
Other languages
English (en)
Inventor
Kazuya Shimooka
和也 下岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP2006341558A priority Critical patent/JP2008152641A/ja
Publication of JP2008152641A publication Critical patent/JP2008152641A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索者が意図する例文を高い精度で検索することができる類似例文検索装置を提供する。
【解決手段】第1解析部30により、入力装置20より入力される対象文データにより示される検索対象文の構文的構造を解析して構文要素を特定すると共に、第2解析部32により、ハードディスク18に記憶された例文データにより示される各例文の構文的構造を解析して構文要素を特定し、構文要素別類似度導出部34により、検索対象文と各例文との間における、同一種類の構文要素毎の類似度を導出し、全体類似度算出部36により、構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値を加味して、検索対象文と各例文との全体的な類似度を算出し、例文選択部38により、算出した全体的な類似度に基づいて各例文から検索対象文に類似する例文を選択する。
【選択図】図3

Description

本発明は、類似例文検索装置に係り、特に、各々異なる複数の例文から検索対象文に類似する例文を検索する類似例文検索装置に関する。
従来から利用者がシステムと対話的に操作を進めていく対話システムが知られている。
この種の対話システムでは、例えば、図20に示すように、自然言語で表現された例文と当該例文に対する回答文とを対応させたデータベースを予め記憶しておき、例えば、キーボードや音声認識により入力された検索対象文の内容に類似する例文を前記データベースから検索し、検索された例文に対応する回答文を出力している。
この検索対象文に類似する例文を検索する際に適用できる技術として、特許文献1には、検索対象文と各例文の構文的構造を解析して、検索対象文と各例文とにおいて、同一種類の構文要素となる部分毎に、所定のペナルティ計算規則に基づく類似度計算を行なってペナルティ値を求め、類似度の初期値(特許文献1では、初期値が1.0)からペナルティ値を減算することにより、各例文毎に検索対象文との全体的な類似度を求めている。
特開2000−276487号公報
しかし、特許文献1に記載された技術では、各構文要素で同一のペナルティ計算規則に基づく類似度計算を行なってペナルティ値を求めているため、必ずしも検索者が意図する例文を検索できない場合がある、という問題点があった。
すなわち、例えば、検索対象文として「この間高校時代の友達と沖縄の海に行った」という例を考える。この検索対象文の構文的構造を解析した結果は、図21に示すようになる。
そして、例えば、検索者が、検索対象文の「この間行った」という部分をより重要視して類似する例文の検索を行いたいとしても、特許文献1に記載された技術では、連用修飾部である「この間」の類似度とそれぞれの格要素である「友達」、「海」の類似度とを同等に扱うため、「この間」だけを重要視して例文を検索することができない。
本発明は上記問題点を解決するためになされたものであり、検索者が意図する例文を高い精度で検索することができる類似例文検索装置を提供することを目的とする。
上記目的を達成するため、請求項1に記載の発明は、自然言語で記述された各々異なる複数の例文を示す例文データが予め記憶された記憶手段と、検索対象とする検索対象文を示す対象文データが入力される入力手段と、前記入力手段より入力される前記対象文データにより示される検索対象文、及び前記記憶手段に記憶された前記例文データにより示される各例文の構文的構造を解析して構文要素を特定する特定手段と、前記特定手段により構文要素が特定された検索対象文と各例文との間における、同一種類の構文要素毎の類似度を導出する導出手段と、前記導出手段により導出された構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値を加味して、前記検索対象文と前記各例文との全体的な類似度を算出する算出手段と、前記算出手段により算出された全体的な類似度に基づいて各例文から検索対象文に類似する例文を選択する選択手段と、を備えている。
請求項1記載の発明では、記憶手段により、自然言語で記述された各々異なる複数の例文を示す例文データが予め記憶されており、入力手段により、検索対象とする検索対象文を示す対象文データが入力される。
そして、本発明では、特定手段により、入力手段より入力される対象文データにより示される検索対象文、及び記憶手段に記憶された例文データにより示される各例文の構文的構造が解析されて構文要素が特定され、導出手段により、特定手段により構文要素が特定された検索対象文と各例文との間における、同一種類の構文要素毎の類似度が導出され、算出手段により、導出手段により導出された構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値を加味して、検索対象文と各例文との全体的な類似度が算出され、選択手段により、算出手段により算出された全体的な類似度に基づいて各例文から検索対象文に類似する例文が選択される。
このように、請求項1記載の発明によれば、検索対象文と各例文との間における、同一種類の構文要素毎の類似度を導出し、導出した構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値を加味して、検索対象文と各例文との全体的な類似度を算出し、算出した全体的な類似度に基づいて各例文から検索対象文に類似する例文を選択しているので、検索者が意図する例文を高い精度で検索することができる。
なお、本発明の算出手段は、請求項2記載の発明のように、構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値をそれぞれ乗算し、当該乗算の結果得られた各例文の構文要素毎の類似度に基づいて前記全体的な類似度を算出してもよい。
また、本発明の特定手段は、請求項3記載の発明のように、前前記検索対象文及び前記各例文の構文的構造を木構造として解析し、前記構文要素を特定することが好ましい。
また、請求項3記載の特定手段は、請求項4記載の発明のように、前記検索対象文及び前記各例文に対して形態素解析、係り受け解析、深層格解析を含む解析を行って構文要素として、述語、述語の子ノードとなるそれぞれの格要素及び格要素以外の連用修飾部、及び格要素の子ノードとなる連体修飾部の4つを少なくとも特定することが好ましい。
また、請求項4記載の発明の導出手段は、請求項5記載の発明のように、格要素の類似度の導出の際に、当該格要素の子ノードとなる連体修飾部に含まれる単語数が多いほど大きなペナルティを与えて当該類似度を低下させることが好ましい。
また、請求項5記載の発明の導出手段は、請求項6記載の発明のように、連体修飾部の類似度が所定閾値以下の場合に、前記ペナルティを与えるようにしてもよい。
また、請求項4乃至請求項6の何れか1項記載の発明の算出手段は、請求項6記載の発明のように、格要素の種類毎に、格要素及び当該格要素の子ノードとなる連体修飾部の類似度に対して異なる重み値を加味して、前記全体的な類似度を算出してもよい。
さらに、請求項1乃至請求項4の何れか1項記載の発明は、請求項8記載の発明のように、前記記憶手段が、単語間の意味的類似関係に応じて単語を階層状に分類したシソーラスを示す辞書情報をさらに予め記憶し、前記導出手段が、前記検索対象文と前記例文とにおいて、同一種類の構文要素の単語が前記辞書情報により示されるシソーラスにおいて所定階層以上一致しない場合に、当該構文要素の類似度をゼロとしてもよい。
以上説明したように、本発明によれば、検索対象文と各例文との間における、同一種類の構文要素毎の類似度を導出し、導出した構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値を加味して、検索対象文と各例文との全体的な類似度を算出し、算出した全体的な類似度に基づいて各例文から検索対象文に類似する例文を選択しているので、検索者が意図する例文を高い精度で検索することができる、という優れた効果を有する。
以下、図面を参照して本発明の実施の形態について詳細に説明する。なお、以下では、本発明を、複数の例文から検索対象文に類似する例文を検索する類似例文検索装置に適用した場合について説明する。
図1には、本実施の形態に係る類似例文検索装置10の電気系の要部構成を示すブロック図が示されている。
同図に示すように、類似例文検索装置10は、類似例文検索装置10全体の動作を司るCPU(中央処理装置)12と、CPU12による各種処理プログラムの実行時のワークエリア等として用いられるRAM(Random Access Memory)14と、各種制御プログラムや各種パラメータ等が予め記憶されたROM(Read Only Memory)16と、各種情報を記憶するために用いられるハードディスク18と、各種情報を入力するために用いられるキーボードなどの入力装置20と、各種情報を表示するために用いられるディスプレイ22と、が備えられており、これら各部はシステムバスBUSにより電気的に相互に接続されている。
従って、CPU12は、RAM14、ROM16、及びハードディスク18に対するアクセス、入力装置20を介した各種入力情報の取得、及びディスプレイ22に対する各種情報の表示を各々行うことができる。
ハードディスク18には、図2に示すような、自然言語で記述された各々異なる複数の例文を示す例文データが予め記憶されている。
入力装置20には、検索者より検索対象とする検索対象文が入力される。
CPU12は、入力装置20より入力された検索対象文に類似する例文をハードディスク18に記憶された例文データから検索し、検索結果をディスプレイ22に表示する制御を行なうものとされている
図3には、本実施の形態に係る類似例文検索装置10の機能的な構成を示す機能ブロック図が示されている。
同図に示されるように、類似例文検索装置10は、第1解析部30と、第2解析部32と、構文要素別類似度導出部34と、全体類似度算出部36と、例文選択部38とを備えている。
第1解析部30は、入力装置20に接続されており、入力装置20より検索対象文を示す対象文データが入力される。第1解析部30は、入力される対象文データにより示される検索対象文の構文的構造を解析して構文要素を特定し、特定した検索対象文の構文的構造を示す検索対象文構文構造情報を出力するものとされている。
第2解析部32は、ハードディスク18に接続されている。第2解析部32は、ハードディスク18に記憶されている例文データを読み出し、当該例文データにより示される各例文の構文的構造を解析して構文要素を特定し、例文毎に、特定した例文の構文的構造を示す例文構文構造情報を出力するものとされている。
なお、本実施の形態に係る第1解析部30及び第2解析部32は、それぞれ検索対象文及び例文に対して形態素解析、係り受け解析、及び深層格解析を含む解析を行って、構文的構造を木構造として解析して述語、述語の子ノードとなるそれぞれの格要素及び格要素以外の連用修飾部、及び格要素の子ノードとなる連体修飾部を特定する。なお、形態素解析、係り受け解析、及び深層格解析の解析手法については、多くの文献に詳述されており、例えば、形態素解析にの解析手法ついては、日本語形態素解析システム「茶筌」version2.2.1 使用説明書に記述されており、係り受け解析の手法については、Support Vector Machineによる日本語係り受け解析、工藤 拓、松本裕治 情報処理学会研究報告、SIG−NL−138、2000に記述されており、深層格解析の手法については、格パターン分析に基づく動詞の語彙知識獲得、情報処理学会論文誌、vol.36、No11、1995に記述されているので、ここでは説明を省略する。
構文要素別類似度導出部34は、第1解析部30及び第2解析部32に接続されており、第1解析部30より出力される検索対象文構文構造情報、及び第2解析部32より出力される例文構文構造情報がそれぞれ入力される。構文要素別類似度導出部34は、入力される検索対象文構文構造情報及び例文構文構造情報に基づいて、検索対象文と各例文との間において構文要素の種類が同一である部分を求めて検索対象文と各例文との間における、同一種類の構文要素毎の類似度を導出し、例文毎に構文要素毎の類似度を示す類似度情報を出力するものとされている。
全体類似度算出部36は、構文要素別類似度導出部34に接続されており、構文要素別類似度導出部34より出力される例文毎の類似度情報が入力される。全体類似度算出部36は、入力される類似度情報により示される構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値を加味して、検索対象文と各例文との全体的な類似度を算出し、例文毎に全体的な類似度を示す全体類似度情報を出力するものとされている。なお、本実施の形態に係る全体類似度算出部36では、構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値をそれぞれ乗算し、当該乗算の結果得られた各例文の構文要素毎の類似度を各例文毎に合計して重み付け合計類似度を求めると共に、各例文毎に構文要素毎の重み値を合計して合計重み値を求め、各例文毎に重み付け合計類似度を合計重み値で除算することにより、検索対象文と各例文との全体的な類似度を算出する。
例文選択部38は、ハードディスク18、ディスプレイ22及び全体類似度算出部36に接続されており、全体類似度算出部36より出力される例文毎の全体類似度情報が入力される。例文選択部38は、入力される例文毎の全体類似度情報により示される検索対象文と各例文との全体的な類似度に基づき、ハードディスク18に記憶された例文データにより示される各例文から検索対象文に類似する例文を選択し、選択した例文をディスプレイ22に表示させる制御を行なうものとされている。なお、本実施の形態に係る例文選択部38では、各例文を全体的な類似度が大きい順に並べた場合の順位が上位N位(Nは1以上の自然数)以上となる例文を選択する。
ところで、以上のように構成された類似例文検索装置10の各構成要素(第1解析部30、第2解析部32、構文要素別類似度導出部34、全体類似度算出部36、及び例文選択部38)による処理は、プログラムを実行することにより、コンピュータを利用してソフトウェア構成により実現することができる。但し、ソフトウェア構成による実現に限られるものではなく、ハードウェア構成や、ハードウェア構成とソフトウェア構成の組み合わせによって実現することもできることは言うまでもない。
以下では、本実施の形態に係る類似例文検索装置10が、類似例文検索プログラムを実行することにより上記各構成要素による処理を実現するものとされている場合について説明する。この場合、当該類似例文検索プログラムをROM16やハードディスク18に予めインストールしておく形態や、コンピュータ読み取り可能な記録媒体に格納された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等を適用することができる。
次に、図4を参照して、本実施の形態に係る類似例文検索装置10の作用を説明する。なお、図4は、CPU12により実行される類似例文検索プログラムの処理の流れを示すフローチャートであり、当該プログラムは、検索者より入力装置20に検索対象文が入力された場合にCPU12により実行される。また、以下では、入力装置20に検索対象文として「この間高校時代の友達と沖縄の海に行った」が入力された場合について説明する。
同図のステップ100では、ハードディスク18に記憶されている例文データを読み出し、当該例文データにより示される各例文の構文的構造を解析して構文要素を特定し、ステップ102では、入力装置20に入力する対象文データにより示される検索対象文の構文的構造を解析して構文要素を特定する。
図5(A)〜(C)には、検索対象文に対して形態素解析、係り受け解析、及び深層格解析を順に行なった結果の一例が模式的に示されている。
また、図6には、検索対象文の構文的構造が模式的に示されており、図7(A)〜(C)には、図2に示される各例文の構文的構造が模式的に示されている。
次のステップ104では、上記ステップ100及びステップ102において解析された検索対象文及び各例文の構文的構造に基づき、検索対象文と各例文との間における、同一種類の構文要素毎の類似度を導出する。
なお、この際の類似度の導出方法として、本実施の形態では、図8に示すような、単語間の意味的類似関係に応じて単語を階層状に分類したシソーラスを示す辞書情報を予めハードディスク18に記憶させておく。
そして、本ステップ104では、構文要素毎にシソーラスにおいて、ルートからリーフまでの階層の深さをHとし、共通する意味属性のルートからの階層の深さをDとした場合、類似度=D/Hとして導出する。
これにより、例えば、図6に示す検索対象文と図7(A)に示す例文1では、相手格の格要素である「友達」と「友人」の類似度が、図8に示されるシソーラスのルートからリーフまでの階層の深さH=6であり、共通する意味属性のルートからの階層の深さD=5であるため、0.83(≒5/6)と導出される。
図9には、図6に示す検索対象文と図7(A)〜(C)に示す各例文の同一種類の構文要素毎の類似度を導出した結果の一例が示されている。
次のステップ106では、上記ステップ104において導出された構文要素毎の類似度をSiとし、構文要素別に予め定められた重み値をWiとした場合、構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値をそれぞれ乗算し、当該乗算の結果得られた各例文の構文要素毎の類似度を各例文毎に合計して重み付け合計類似度(ΣWi×Si)を求めると共に、各例文毎に構文要素毎の重み値を合計して合計重み値(ΣWi)を求め、各例文毎に重み付け合計類似度を合計重み値で除算((ΣWi×Si)/ΣWi)することにより、検索対象文と各例文との全体的な類似度を算出する。
図10には、構文要素別の重み値を変化させた場合の全体的な類似度の算出結果の一例が示されている。
このように、構文要素別の重み値を変化させることにより、重要視する構文要素を変化して全体的な類似度の算出結果が変化する。
次のステップ108では、各例文を全体的な類似度が大きい順に並べた場合の順位が上位N位(Nは1以上の自然数)以上となる例文を選択する。例えば、N=1とすると、検索対象文に最も類似する例文が選択される。これにより、図10に示すように、全ての構文要素を同等に重要視した類似度計算を行った場合は例文1が選択され、格要素と述語をより重要視した類似度計算を行った場合は例文2が選択され、連用修飾部と述語をより重要視した類似度計算を行った場合は例文3が選択される。
次のステップ110では、上記ステップ108において選択された例文をディスプレイ22に表示させ、本類似例文検索プログラムを終了する。
以上のように、本実施の形態によれば、重要視する構文要素の重み値を大きな値に設定することにより、検索者が意図する例文を高い精度で検索することができる。
なお、上記第1の実施の形態では、構文要素として連用修飾部、格要素、連体修飾部、述語を特定する場合について説明したが、本発明はこれに限定されるものではなく、さらに他の構文要素を特定して構文要素毎の類似度を導出するものとしてもよい。
[第2の実施の形態]
第2の実施の形態に係る類似例文検索装置10の電気系の要部構成及び機能的な構成は、上記第1の実施の形態(図1及び図2参照)とほぼ同一であり、ハードディスク18に図11に示すような、自然言語で記述された各々異なる複数の例文を示す例文データが予め記憶されている。
図12には、第2の実施の形態に係る類似例文検索プログラムの処理の流れが示されている。なお、同図における図4と同一の処理には図4と同一の符号を付して、その説明を省略する。以下では、入力装置20に検索対象文として「この間高校時代の友達と沖縄の海に行った」が入力された場合について説明する。
上述したステップ100では、図11に示す各例文の構文的構造を解析して構文要素を特定し、ステップ102では、入力装置20に入力する対象文データにより示される検索対象文の構文的構造を解析して構文要素を特定する。
図13(A)、(B)には、図11に示される各例文の構文的構造が模式的に示されている。
ステップ204では、上記ステップ100及びステップ102において解析された検索対象文及び各例文の構文的構造に基づき、検索対象文と各例文とにおいて、構文要素が同一である部分毎の類似度を導出する。なお、本ステップ204では、格要素の類似度の導出の際に、当該格要素の子ノードとなる連体修飾部に含まれる単語数が多いほど大きなペナルティを与えて当該類似度を低下させるものとしている。
すなわち、本ステップ204では、格要素の類似度の導出方法として、例えば、シソーラスにおいて、ルートからリーフまでの階層の深さがHであり、格要素の共通する意味属性のルートからの階層の深さがDである場合、ペナルティの無い類似度をS1(=D/H)とし、Dを1減らして導出される、ペナルティありの類似度が必ず上回る値をS2(=(D−1)/H)とし、検索対象文及び例文の連体修飾部に含まれる単語数をNとした場合に、類似度=S1−(S1−S2)×(N/(1+N))とする。これにより、単語数Nが多くなるほどN/(1+N)が1に近い値となるため、単語数Nが多くなるほど類似度がS2に近い値となる。
ここで、図14には、着点格における格要素と連体修飾部の類似度、及び全体的な類似度について、ペナルティを与えない場合の例が示されており、図15には、ペナルティを与えた場合の例が示されている。
このように格要素の類似度計算を行うことにより、検索対象文の「沖縄の海」と何も修飾されていない(=限定されていない)「海」との類似度を、「沖縄」とは類似していない単語で修飾された(=類似しない方向に限定された)「家の近くにある海」との類似度より大きくすることが可能となる。なお、このようなペナルティを全ての場合において導入すると、検索対象文と全く同一の文に対する全体的な類似度が「1」でなくなり、また、類似する方向に限定されていても、連体修飾部にふくまれる単語数が多いためにペナルティの値が大きくなり、結果として、何も限定されていない場合よりも全体的な類似度が小さくなってしまう可能性もある。そこで、連体修飾部の類似度が所定閾値(例えば、0.7)以下の場合に、ペナルティを導入するようにしてもよい。
以上のように、本実施の形態によれば、何も修飾されていない格要素の類似度を、類似していない単語で修飾された格要素の類似度より大きくすることにより、より高い精度で類似した例文を検索することができる。
[第3の実施の形態]
第3の実施の形態に係る類似例文検索装置10の電気系の要部構成は、上記第1の実施の形態(図1)と同一であるため、説明を省略する。
図16には、第3の実施の形態に係る類似例文検索装置10の機能的な構成が示されている。なお、同図における図3と同一部分については図3と同一の符号を付して説明を省略する。
第3の実施の形態に係るハードディスク18には、図17に示すような、自然言語で記述された各々異なる複数の例文を示す例文データが予め記憶されている。
また、第3の実施の形態に係る第1解析部330及び第2解析部332は、それぞれ検索対象文及び例文に対して形態素解析、係り受け解析、及び深層格解析を含む解析を行って、構文要素として連用修飾部、相手格の格要素、相手格の連体修飾部、着点格の各要素、着点格の連用修飾部、述語を特定する。
図18(A)、(B)には、図17に示される各例文の構文的構造が模式的に示されている。
構文要素別類似度導出部34は、検索対象文と各例文との間にいて、第1解析部330及び第2解析部332により特定された同一種類の構文要素毎の類似度を導出する。
全体類似度算出部36は、構文要素別類似度導出部34により導出された構文要素毎の類似度に基づいて検索対象文と各例文との全体的な類似度を算出しており、本実施の形態では、図19に示すように格要素及び連体修飾部の重み値を格ごとに設定している。これにより、検索対象文と例文6及び例文7との全体的な類似度に差をつけることが可能となる。
以上のように、本実施の形態によれば、格要素の種類毎に、格要素及び当該格要素の子ノードとなる連体修飾部の類似度に対して異なる重み値を加味して、全体的な類似度を算出することにより、より高い精度で類似した例文を検索することができる。
なお、上記各実施の形態では、構文要素毎の類似度を、シソーラスにおいて、ルートからリーフまでの階層の深さをHとし、共通する意味属性のルートからの階層の深さをDとした場合、類似度=D/Hとして導出する場合について説明したが、本発明はこれに限定されるものではない。例えば、上記第3の実施の形態では、検索対象文と例文7の着点格の格要素(「友達」と「彼女」)の類似度が、図8に示すシソーラスのルートからリーフまでの深さがH(=6)であり、共通する意味属性のルートからの深さをD(=3)であるため、類似度=D/Hとして、「友達」と「彼女」の類似度を0.5と導出しているが、例えば、ルートから所定階層(例えば、第M層)以上一致しない場合に類似度をゼロと導出するようにしてもよい。この導出方法として、例えば、類似度=1−1/2(D−M)とすることなどが考えられる。この場合、M=2とした場合は類似度=0.5となり、M=3とした場合は類似度=0となる。また、類似度=(D−M)/Hとすることもも考えられる。このような計算により類似度を導出することにより、どの程度まで意味属性が共通したら類似度を正の値にするかを任意に指定することが可能となる。
また、上記各実施の形態では、構文要素毎の類似度を、比較する文字列に含まれる単語のシソーラスでの階層に基づいて導出する場合について説明したが、本発明はこれに限定されるものではなく、例えば、比較する文字列v、uに含まれる単語に応じて単語ベクトルv=(w1,w2,・・・,wn)、単語ベクトルu=(w’1,w’2,・・・,w’m)で表現し、ベクトル間のコサインの値を類似度としてもよい。つまり、類似度=(v・u)/(|v|×|u|)と導出する方法などがある。
また、上記各実施の形態では、重み付け合計類似度を合計重み値で除算することにより全体的な類似度を算出する場合について説明したが、本発明はこれに限定されるものではなく、例えば、重み付け合計類似度を全体的な類似度としてもよく、また、構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値をそれぞれ乗算した結果得られた各例文の構文要素毎の類似度を、例文毎に平均した平均値や、上記乗算した結果得られた各例文の構文要素毎の類似度を、例文毎にそれぞれ乗算した結果得られる値を全体的な類似度としてもよい。
また、上記各実施の形態では、単語間の意味的類似関係に応じて単語を階層状に分類したシソーラスを用いて類似度を導出する場合について説明したが、本発明はこれに限定されるものではなく、例えば、シソーラスが単語間の意味的類似関係に応じてグラフ構造とされている場合もある。この場合、2単語間の類似度はグラフ上での距離に基づいて計算により導出するようにしてもよい。例えば、2単語間のグラフ上での距離をd、ペナルティの重みをpとした場合、類似度=1−p×dとすることにより算出することができる。
また、上記各実施の形態では、入力装置20としてキーボードを適用して検索対象文を入力する場合について説明したが、本発明はこれに限定されるものではなく、例えば、入力装置20として、音声を認識する音声認識装置を適用し、発話された音声を音声認識装置によって認識することにより検索対象文が入力されるものとしてもよい。
さらに、上記各実施の形態では、検索対象文に類似する例文をディスプレイ22に表示する場合について説明したが、本発明はこれに限定されるものではなく、例えば、類似する例文を音声で出力するものとしてもよい。
その他、上記各実施の形態で説明した類似例文検索装置10の電気系の要部構成(図1参照。)、及び類似例文検索装置10の機能的な構成(図3及び16参照。)は一例であり、本発明の主旨を逸脱しない範囲内において適宜変更可能であることは言うまでもない。
また、上記各実施の形態で説明した類似例文検索プログラム(図4及び図12参照。)の処理の流れも一例であり、本発明の主旨を逸脱しない範囲内において適宜変更可能であることは言うまでもない。
第1の実施の形態に係る類似例文検索装置の電気系の構成を示すブロック図である。 第1の実施の形態に係る例文データのデータ構造を示す模式図である。 第1の実施の形態に係る類似例文検索装置の機能的な構成を示すブロック図である。 第1の実施の形態に係る類似例文検索プログラムの処理の流れを示すフローチャートである。 検索対象文に対して形態素解析、係り受け解析、及び深層格解析を順に行なった結果の一例を示す模式図である。 検索対象文の構文的構造の一例を示す模式図である。 第1の実施の形態に係る各例文の構文的構造の一例を示す模式図である。 実施の形態に係るシソーラスのデータ構造の一例を示す模式図である。 第1の実施の形態に係る構文要素毎の類似度の一例を示す図である。 第1の実施の形態に係る構文要素別の重み値を変化させた場合の全体的な類似度の一例を示す図である。 第2の実施の形態に係る例文データのデータ構造を示す模式図である。 第2の実施の形態に係る類似例文検索プログラムの処理の流れを示すフローチャートである。 第2の実施の形態に係る各例文の構文的構造の一例を示す模式図である。 第2の実施の形態に係るペナルティを与えない場合の類似度の一例を示す図である。 第2の実施の形態に係るペナルティを与えた場合の類似度の一例を示す図である。 第3の実施の形態に係る類似例文検索装置の機能的な構成を示すブロック図である。 第3の実施の形態に係る例文データのデータ構造を示す模式図である。 第3の実施の形態に係る各例文の構文的構造の一例を示す模式図である。 第3の実施の形態に係る構文要素別の重み値を変化させた場合の全体的な類似度の一例を示す図である。 従来の対話システムの機能的な構成を示すブロック図である。 従来の検索対象文の構文的構造の一例を示す模式図である。
符号の説明
18 ハードディスク(記憶手段)
20 入力装置(入力手段)
30 第1解析部(特定手段)
32 第2解析部(特定手段)
34 構文要素別類似度導出部(導出手段)
36 全体類似度算出部(算出手段)
38 例文選択部(選択手段)

Claims (8)

  1. 自然言語で記述された各々異なる複数の例文を示す例文データが予め記憶された記憶手段と、
    検索対象とする検索対象文を示す対象文データが入力される入力手段と、
    前記入力手段より入力される前記対象文データにより示される検索対象文、及び前記記憶手段に記憶された前記例文データにより示される各例文の構文的構造を解析して構文要素を特定する特定手段と、
    前記特定手段により構文要素が特定された検索対象文と各例文との間における、同一種類の構文要素毎の類似度を導出する導出手段と、
    前記導出手段により導出された構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値を加味して、前記検索対象文と前記各例文との全体的な類似度を算出する算出手段と、
    前記算出手段により算出された全体的な類似度に基づいて各例文から検索対象文に類似する例文を選択する選択手段と
    を備えた類似例文検索装置。
  2. 前記算出手段は、構文要素毎の類似度に対して構文要素の種類別に予め定められた重み値をそれぞれ乗算し、当該乗算の結果得られた各例文の構文要素毎の類似度に基づいて前記全体的な類似度を算出する
    請求項1記載の類似例文検索装置。
  3. 前記特定手段は、前記検索対象文及び前記各例文の構文的構造を木構造として解析し、前記構文要素を特定する
    請求項1又は請求項2記載の類似例文検索装置。
  4. 前記特定手段は、前記検索対象文及び前記各例文に対して形態素解析、係り受け解析、深層格解析を含む解析を行って構文要素として、述語、述語の子ノードとなるそれぞれの格要素及び格要素以外の連用修飾部、及び格要素の子ノードとなる連体修飾部の4つを少なくとも特定する
    請求項3記載の類似例文検索装置。
  5. 前記導出手段は、格要素の類似度の導出の際に、当該格要素の子ノードとなる連体修飾部に含まれる単語数が多いほど大きなペナルティを与えて当該類似度を低下させる
    請求項4記載の類似例文検索装置。
  6. 前記導出手段は、連体修飾部の類似度が所定閾値以下の場合に、前記ペナルティを与える
    請求項5記載の類似例文検索装置。
  7. 前記算出手段は、格要素の種類毎に、格要素及び当該格要素の子ノードとなる連体修飾部の類似度に対して異なる重み値を加味して、前記全体的な類似度を算出する
    請求項4乃至請求項6の何れか1項記載の類似例文検索装置。
  8. 前記記憶手段は、単語間の意味的類似関係に応じて単語を階層状に分類したシソーラスを示す辞書情報をさらに予め記憶し、
    前記導出手段は、前記検索対象文と前記例文とにおいて、同一種類の構文要素の単語が前記辞書情報により示されるシソーラスにおいて所定階層以上一致しない場合に、当該構文要素の類似度をゼロとする
    請求項1乃至請求項4の何れか1項記載の類似例文検索装置。
JP2006341558A 2006-12-19 2006-12-19 類似例文検索装置 Pending JP2008152641A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006341558A JP2008152641A (ja) 2006-12-19 2006-12-19 類似例文検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006341558A JP2008152641A (ja) 2006-12-19 2006-12-19 類似例文検索装置

Publications (1)

Publication Number Publication Date
JP2008152641A true JP2008152641A (ja) 2008-07-03

Family

ID=39654731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006341558A Pending JP2008152641A (ja) 2006-12-19 2006-12-19 類似例文検索装置

Country Status (1)

Country Link
JP (1) JP2008152641A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066964A (ja) * 2008-09-10 2010-03-25 Kobe Steel Ltd 文検索装置,文検索プログラム,文検索方法
JP2012073951A (ja) * 2010-09-29 2012-04-12 Fujitsu Ltd 文字列比較プログラム、文字列比較装置及び文字列比較方法
JPWO2011078186A1 (ja) * 2009-12-22 2013-05-09 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法およびプログラム
KR20200065926A (ko) * 2018-11-30 2020-06-09 한국생산기술연구원 기술 정보의 구조화를 통한 유사 기술 제공 방법 및 장치
KR20210076558A (ko) * 2019-12-16 2021-06-24 주식회사 엘지유플러스 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066964A (ja) * 2008-09-10 2010-03-25 Kobe Steel Ltd 文検索装置,文検索プログラム,文検索方法
JPWO2011078186A1 (ja) * 2009-12-22 2013-05-09 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法およびプログラム
JP5817531B2 (ja) * 2009-12-22 2015-11-18 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法およびプログラム
JP2012073951A (ja) * 2010-09-29 2012-04-12 Fujitsu Ltd 文字列比較プログラム、文字列比較装置及び文字列比較方法
KR20200065926A (ko) * 2018-11-30 2020-06-09 한국생산기술연구원 기술 정보의 구조화를 통한 유사 기술 제공 방법 및 장치
KR102124454B1 (ko) 2018-11-30 2020-06-19 한국생산기술연구원 기술 정보의 구조화를 통한 유사 기술 제공 방법 및 장치
KR20210076558A (ko) * 2019-12-16 2021-06-24 주식회사 엘지유플러스 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법
KR102356996B1 (ko) * 2019-12-16 2022-01-28 주식회사 엘지유플러스 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법

Similar Documents

Publication Publication Date Title
US20160328467A1 (en) Natural language question answering method and apparatus
KR101252397B1 (ko) 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2015506515A (ja) タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
JP2011118872A (ja) 未登録語のカテゴリを決定する方法と装置
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
KR20170122755A (ko) 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
JP2008152641A (ja) 類似例文検索装置
US20080071782A1 (en) Conceptual network generating system, conceptual network generating method, and program product therefor
KR101860472B1 (ko) 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
US20110071826A1 (en) Method and apparatus for ordering results of a query
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP5642037B2 (ja) 検索装置、検索方法およびプログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP6232358B2 (ja) 次発話候補ランキング装置、方法、及びプログラム
CN116610810A (zh) 基于调控云知识图谱血缘关系的智能搜索方法及系统
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP2009295101A (ja) 音声データ検索システム
JP3925418B2 (ja) トピック境界決定装置及びプログラム
KR102117281B1 (ko) 빈도 테이블을 이용한 챗봇 발언 생성 방법