JP2008158564A - 情報検索装置 - Google Patents

情報検索装置 Download PDF

Info

Publication number
JP2008158564A
JP2008158564A JP2006343146A JP2006343146A JP2008158564A JP 2008158564 A JP2008158564 A JP 2008158564A JP 2006343146 A JP2006343146 A JP 2006343146A JP 2006343146 A JP2006343146 A JP 2006343146A JP 2008158564 A JP2008158564 A JP 2008158564A
Authority
JP
Japan
Prior art keywords
information
feature
search
word
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006343146A
Other languages
English (en)
Other versions
JP4881147B2 (ja
Inventor
Toshiyuki Nanba
利行 難波
Hiroaki Sekiyama
博昭 関山
Kenichi Iso
健一 磯
Yasuhiko Fujita
泰彦 藤田
Atsushi Sasaki
淳志 佐々木
Masahiro Nii
真裕 二位
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Advanced Media Inc
Original Assignee
Toyota Motor Corp
Advanced Media Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp, Advanced Media Inc filed Critical Toyota Motor Corp
Priority to JP2006343146A priority Critical patent/JP4881147B2/ja
Publication of JP2008158564A publication Critical patent/JP2008158564A/ja
Application granted granted Critical
Publication of JP4881147B2 publication Critical patent/JP4881147B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報本体とその情報本体の意味を表す意味素性とを項目として有するレコードから構成されるデータベースを効率的に検索できるようにした情報検索装置を提供すること。
【解決手段】情報本体とその情報本体の意味を表す意味素性とを項目として有するレコードで構成されるデータベース40を検索する情報検索装置100は、音声入力又は文字入力により入力された入力情報に含まれる既登録語を検出し該既登録語に予め対応付けられた意味素性を取得する意味素性取得手段11と、入力情報に含まれる未登録語から入力情報を特徴付ける特徴語を抽出する特徴語抽出手段12と、特徴語抽出手段12が抽出した特徴語と意味素性取得手段11が取得した意味素性とに基づいてデータベース40を検索する検索手段14とを備える。
【選択図】図1

Description

本発明は、音声入力又はテキスト入力を介したユーザとシステムとの間の対話によりデータベースにある情報を検索する情報検索装置に関し、特に、情報本体とその情報本体の意味を表す意味素性とを項目として有するレコードで構成されるデータベースを検索する情報検索装置に関する。
従来、インターネット等のテキストデータベースから情報を検索する場合に、入力されたキーワードのみに基づいて全文検索を行うシステムや、入力されたキーワードに関連する別のキーワード(類義語)を追加しキーワードを拡張した上で検索を行うシステムがある。
また、過去の音声対話事例(ユーザの質問とその質問に対する回答との関係)を複数の事例集合に分類して格納したデータベースからユーザによる音声入力に応じてユーザが求める事例に関する事例集合を絞り込み、その絞り込み結果に基づいたシステムからの質問によりユーザによるさらなる音声入力を促し、そのさらなる音声入力に基づいてユーザが求める事例を特定して、ユーザに最適な情報を提示する情報検索システムが知られている(例えば、特許文献1参照。)。
この情報検索システムは、複数の事例集合のそれぞれを特徴付ける複数のキーワードを辞書に登録しておき、ユーザによる音声入力に含まれるキーワードと辞書に登録されたキーワードとを照合することでユーザが求める事例の絞り込みを行う。
そのため、上記情報検索システムは、顧客相談窓口のように顧客の質問が非定型である場合であっても、適切かつ詳細な回答を提供することができる。
特開平11−306195号公報
しかしながら、特許文献1に記載の情報検索システムは、ユーザによる音声入力から複数のキーワードを抽出し、抽出した複数のキーワードと事例集合を特徴付けるキーワードとを照合し、照合できた複数のキーワードに付されたスコア(点数)の合計に基づいて事例集合を絞り込むが、キーワードのスコアがどのように設定されるかが不明確である。
上述の点に鑑み、本発明は、情報本体とその情報本体の意味を表す意味素性とを項目として有するレコードから構成されるデータベースを効率的に検索できるようにした情報検索装置を提供することを目的とする。
上述の目的を達成するために、第一の発明に係る情報検索装置は、情報本体と該情報本体の意味を表す意味素性とを項目として有するレコードで構成されるデータベースを検索する情報検索装置であって、音声入力又は文字入力により入力された入力情報に含まれる既登録語を検出し該既登録語に予め対応付けられた意味素性を取得する意味素性取得手段と、前記入力情報に含まれる未登録語から前記入力情報を特徴付ける特徴語を抽出する特徴語抽出手段と、前記特徴語抽出手段が抽出した特徴語と前記意味素性取得手段が取得した意味素性とに基づいて前記データベースを検索する検索手段と、を備えることを特徴とする。
また、第二の発明に係る情報検索装置は、複数の階層で構成されるツリー構造を有し、情報本体と該情報本体の意味を表す意味素性と前記ツリー構造における位置を特定する位置特定語とを項目として有するレコードで構成されるデータベースを検索する情報検索装置であって、音声入力又は文字入力により入力された入力情報に含まれる既登録語を検出し該既登録語に予め対応付けられた意味素性を取得する意味素性取得手段と、前記入力情報に含まれる既登録の位置特定語を検出して取得する位置特定語取得手段と、前記入力情報に含まれる未登録語から前記入力情報を特徴付ける特徴語を抽出する特徴語抽出手段と、前記特徴語抽出手段が抽出した特徴語と前記意味素性取得手段が取得した意味素性とに基づいて前記データベースを検索する検索手段と、前記検索手段が検索したレコードの上位階層にあるレコードの位置特定語と前記入力情報に含まれる位置特定語とに基づいて絞り込み検索を行う絞り込み検索手段と、を備えることを特徴とする。
また、第三の発明は、第一又は第二の発明に係る情報検索装置であって、前記特徴語抽出手段は、前記入力情報に含まれる未登録語を使用頻度が低い順に特徴語として抽出することを特徴とする。
また、第四の発明に係る情報検索装置は、情報本体と該情報本体の意味を表す意味素性とを項目として有するレコードで構成されるデータベースを検索する情報検索装置であって、音声入力又は文字入力により入力された入力情報に含まれる既登録語を検出し該既登録語に予め対応付けられた意味素性を取得する意味素性取得手段と、前記意味素性取得手段が取得した意味素性に時刻情報を付した対話履歴を記憶する対話履歴記憶手段と、前記対話履歴記憶手段が記憶した対話履歴に基づいて前記データベースを検索する検索手段と、を備えることを特徴とする。
また、第五の発明に係る情報検索装置は、複数の階層で構成されるツリー構造を有し、情報本体と該情報本体の意味を表す意味素性と前記ツリー構造における位置を特定する位置特定語とを項目として有するレコードで構成されるデータベースを検索する情報検索装置であって、音声入力又は文字入力により入力された入力情報に含まれる既登録語を検出し該既登録語に予め対応付けられた意味素性を取得する意味素性取得手段と、前記入力情報に含まれる既登録の位置特定語を検出して取得する位置特定語取得手段と、前記意味素性取得手段が取得した意味素性に時刻情報を付した対話履歴を記憶する対話履歴記憶手段と、前記対話履歴記憶手段が記憶した対話履歴に基づいて前記データベースを検索する検索手段と、前記検索手段が検索したレコードの上位階層にあるレコードの位置特定語と前記入力情報に含まれる位置特定語とに基づいて絞り込み検索を行う絞り込み検索手段と、を備えることを特徴とする置。
また、第六の発明は、第四又は第五の発明に係る情報検索装置であって、前記検索手段は、前記時刻情報が古い順に対話履歴を除外しながら所定の検索結果を得るまで検索を繰り返すことを特徴とする。
また、第七の発明は、第四乃至第六の何れかの発明に係る情報検索装置であって、前記入力情報に含まれる未登録語から前記入力情報を特徴付ける特徴語を抽出する特徴語抽出手段を備え、前記対話履歴記憶手段は、前記対話履歴に前記特徴語抽出手段が抽出した特徴語を対応付けて記憶することを特徴とする。
また、第八の発明は、第七の発明に係る情報検索装置であって、前記特徴語抽出手段は、前記入力情報に含まれる未登録語を使用頻度が低い順に特徴語として抽出することを特徴とする。
上述の手段により、本発明は、情報本体とその情報本体の意味を表す意味素性とを項目として有するレコードから構成されるデータベースを効率的に検索できるようにした情報検索装置を提供することができる。
以下、複数の図面を参照しながら本発明を実施するための最良の形態について説明する。
図1は、本発明に係る情報検索装置の構成例を示すブロック図である。情報検索装置の実施例である自然言語対話装置100は、制御装置1、マイク2、キーボード3、ハードディスク4、通信機5、スピーカ6及びディスプレイ7から構成される。
制御装置1は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備えたコンピュータであり、RAMに格納された、音声認識手段10、意味素性取得手段11、特徴語抽出手段12、対話履歴記憶手段13、検索手段14及び応答生成手段15に対応するプログラムをレジスタにロードしながら各種処理をCPUに実行させる。
マイク2は、ユーザが発する音声を入力するための手段であり、キーボード3は、ユーザが生成する対話文をテキスト入力するための手段である。
ハードディスク4は、情報を記憶するための不揮発性記憶媒体であり、例えば、検索対象となる情報を体系的に格納する情報データベース40、意味素性とキーワードとを対応付ける意味素性データベース41、及び、ユーザと自然言語対話装置100との間の対話履歴を体系的に格納する対話履歴データベース42を記憶する。
通信機5は、有線通信又は無線通信により外部ネットワークとの間の通信を制御するための装置であり、例えば、物理的に離れた位置にあるサーバー上に記憶された情報データベース40に対して検索クエリを送信し、その検索クエリに対応する検索結果を受信する。
スピーカ6は、自然言語対話装置100による音声を出力させるための装置であり、例えば、検索結果を音声出力したり、検索結果を絞り込むために自然言語対話装置100による質問を音声出力したりする。
ディスプレイ7は、情報をユーザに対して表示するための手段であり、例えば、液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイであって、自然言語対話装置100による検索結果を表示する。
次に、制御装置1が有する各種手段について説明する。
音声認識手段10は、ユーザがマイク2を介して入力した音声(入力文)を認識するための手段であり、例えば、単語辞書、文法(統計文法又は記述文法等をいう。)、言語モデル等を用いて音声を認識する。
その後、音声認識手段10は、単語列又は単語グラフ(候補ラティス)の形式を用いて音声認識結果を意味素性取得手段11及び特徴語抽出手段12に出力する。
なお、ユーザがキーボード3を介して入力文をテキスト入力する場合、自然言語対話装置100は、キーボード3を介して入力された入力文を形態素解析等により単語列又は単語グラフ(候補ラティス)の形式にして、その結果を意味素性取得手段11及び特徴語抽出手段12に出力する。
意味素性取得手段11は、入力文を解析して意味素性を取得するための手段であり、例えば、音声認識手段10又はキーボード3を介して入力された入力文を解析して意味素性とキーワードとからなる意味表現を取得する。
「意味素性」とは、入力文に含まれる単語又は単語列の意味を表現する属性をいい、「キーワード」とは、意味素性に対応付けて登録される単語又は単語列をいう。意味素性取得手段11は、入力文に含まれる単語又は単語列と意味素性データベース41に登録されたキーワードとを照合し、照合できたキーワードに対応する意味素性を取得する。
図2は、意味素性データベース41の構成例を示す図であり、キーワード群「レストラン、リストランテ、食堂、お腹が空い、お腹が減っ、・・・」が意味素性「RESTAURANT」に対応し、同様に、キーワード群「中華、ラーメン、餃子、飲茶、・・・」が意味素性「FOOD−CHINESE」、キーワード群「イタリアン、イタリア料理、パスタ、ピザ、・・・」が意味素性「FOOD−ITALIAN」にそれぞれ対応することを示す。
音声認識手段10は、例えば、「ぎょうざをたべたい」という入力文を認識した場合、「餃子」、「を」、「食べ」、「たい」の単語を認識して意味素性取得手段11に出力する。
意味素性取得手段11は、意味素性データベース41を参照し、単語「餃子」が意味素性「FOOD−CHINESE」に対応するキーワードであることを認識して意味素性「FOOD−CHINESE」を取得する。
また、意味素性取得手段11は、意味文法に基づいて入力文に含まれる単語を意味のある単語列としてまとめ、その単語列とキーワードとを照合し、照合できたキーワードに対応する意味素性を取得するようにしてもよい。
「意味文法」とは、入力文に含まれる単語の並び順、単語間の距離、修飾語と被修飾語との間の関係等に基づいてユーザの意図を適切に反映する単語のまとまりを抽出するための文法規則である。
音声認識手段10は、例えば、「おなかがかなりすいた」という入力文を認識した場合、「お腹」、「が」、「かなり」、「空い」、「た」の単語を認識して意味素性取得手段11に出力する。
意味素性取得手段11は、意味文法に基づいて動詞「空い」を修飾する副詞「かなり」を省略した上で、「お腹」、「が」、「空い」の三つの単語を単語列「お腹が空い」にまとめ、意味素性「RESTAURANT」に対応するキーワード「お腹が空い」と照合して意味素性「RESTAURANT」を取得する。
このように、意味素性取得手段11は、入力文に含まれる単語と意味素性に対応するキーワードとが一対一で対応していない場合であっても、意味文法に基づいて複数の単語を一つの単語列にまとめ、入力文に含まれる単語列から意味素性を取得することができる。
単語列をキーワードとするのは、単語「お腹」を意味素性「RESTAURANT」に対応するキーワードに設定すると意味素性「RESTAURANT」に関連がない入力文にその意味素性を付してしまう場合があるからである。
また、意味素性取得手段11は、入力文「レインボーブリッジが見えるレストランがいい」が入力された場合、意味素性データベース41を参照し、キーワード「レインボーブリッジ」に対応付けられた意味素性「SCENE」及びキーワード「レストラン」に対応付けられた意味素性「RESTAURANT」のように一つの入力文から複数の意味表現を取得するようにしてもよい。
特徴語抽出手段12は、入力された文を特徴付ける単語を抽出するための手段であり、例えば、入力文に含まれる単語であって意味素性取得手段11が取得したキーワード以外の各単語(予め登録されていない単語をいう。)の情報データベース40における使用頻度(例えば、その単語を含むレコード(データベースを構成するデータの単位)の数で表される。)を取得し、最も使用頻度の低い単語を特徴語として抽出する。
例えば、意味素性取得手段11は、入力文「有名|な|シェフ|が|いる|レストラン」が入力された場合(縦線「|」は単語の区切りを意味する。)、意味素性データベース41を参照してキーワード「レストラン」に対応付けられた意味素性「RESTAURANT」を取得する。
その後、特徴語抽出手段12は、キーワード「レストラン」以外の、意味素性に対応しない単語「有名」、「な」、「シェフ」、「が」、「いる」のそれぞれを検索語として情報データベース40を検索して各単語を含むレコードの数を取得し、取得したレコードの数が少ない順に所定数の単語(例えば、「有名」、「シェフ」)を特徴語として抽出する。
「な」、「が」、「いる」のような単語は多くのレコードに含まれるが、「有名」、「シェフ」を含むレコードは比較的少なく、「有名」、「シェフ」のような単語が「な」、「が」、「いる」のような単語より入力文の特徴を明確に表し、重要な情報を保持していると考えられるからである。
また、特徴語抽出手段12は、各単語の品詞に基づいて特徴語を抽出してもよく、或いは、各単語の長さに基づいて特徴語を抽出してもよい。特徴語抽出手段12は、例えば、名詞、動詞、形容詞、副詞等の優先順で特徴語を抽出したり、文字数の多い単語を優先的に特徴語として抽出したり、品詞及び文字数を組み合わせた所定の優先順で特徴語を抽出したりしてもよい。
なお、特徴語抽出手段12が特徴語として抽出する単語は、一つであってもよく、複数であってもよい。
対話履歴記憶手段13は、ユーザと自然言語対話装置100との間の対話履歴を記憶するための手段であり、例えば、意味素性取得手段11が取得した意味表現(意味素性及びキーワードの組み合わせ)をタイムスタンプ(時刻情報)付きで対話履歴データベース42に記憶する。
ここで、「対話履歴」とは、ユーザと自然言語対話装置100との間の対話を時系列で記憶したものをいい、例えば、各入力文の意味素性とその入力が行われた時刻情報とを有し、各入力文に含まれるキーワード及び/又は特徴語を付加的に有していてもよい。
検索手段14は、入力文に基づいて情報データベース40から情報を検索するための手段であり、例えば、対話履歴記憶手段13に記憶された直近の意味表現を用いて情報データベース40から情報を検索する。
また、検索手段14は、対話履歴記憶手段13に記憶された対話履歴(例えば、意味表現及び/又は特徴語の履歴をいう。)のうち、記憶されてからの経過時間が所定時間(例えば、1分間)以内である対話履歴を用いて情報を検索するようにしてもよく、直近の対話履歴から数えて所定数(例えば、3件)になるまでの対話履歴を用いて情報を検索するようにしてもよい。
応答生成手段15は、ユーザの入力文に対する応答文を生成するための手段であり、例えば、意味表現及び/又は特徴語に基づいて検索手段14が情報データベース40から検索した検索結果をスピーカ6から出力するための音声データを生成する。
また、応答生成手段15は、検索結果をディスプレイ7に表示させるための画像データを生成してもよい。
検索結果は、最も関連度が高い一つのレコードであってもよく、関連度の高い順に並べられた所定数のレコードであってもよい。なお、関連度は、レコードに含まれるキーワードや特徴語の数に基づいて算出される。
次に、自然言語対話装置100がユーザの音声入力に基づいて情報を検索する処理の流れについて説明する。
図3は、上記処理の流れを示すフローチャートであり、最初に、自然言語対話装置100は、音声認識手段10によりマイク2を介してユーザが入力した音声を認識する(ステップS1)。
ここで、ユーザが「餃子を食べたい」、「レインボーブリッジが見えるレストランがいい」、「パスタがおいしい有名な店はある?」といった3つの音声入力を連続して行った場合を想定する。
音声認識手段10は、単語辞書等を用いて音声を認識し、認識結果を意味素性取得手段11に出力して意味表現を取得させる(ステップS2)。
また、音声認識手段10は、認識結果を特徴語抽出手段12にも出力して特徴語を抽出させる(ステップS3)。
特徴語抽出手段12は、入力文「パスタがおいしい有名な店はある?」が入力された場合、意味素性「FOOD−ITALIAN」に対応するキーワード「パスタ」を除く単語群「が」、「おいしい」、「有名」、「な」、「店」、「は」、「ある」から、使用頻度の最も低い単語「有名」を特徴語として抽出する。
その後、対話履歴記憶手段13は、意味素性取得手段11が取得した意味表現及び/又は特徴語抽出手段12が抽出した特徴語にタイムスタンプを付して対話履歴データベース42に記憶する(ステップS4)。
図4は、対話履歴記憶手段13が記憶した対話履歴データベース42の構成例を示す図であり、上記3つの音声入力に対応する意味表現及び特徴語がタイムスタンプと共に記憶されている状態を示す。
その後、自然言語対話装置100は、検索手段14により、対話履歴記憶手段13が記憶した対話履歴に含まれる意味表現及び/又は特徴語を用いて情報データベース40に対する検索を実行する(ステップS5)。
図5は、情報データベース40の構成例を示す図であり、情報データベース40の各レコードは、「レコードID」、「意味素性」、「本文」及び「名称」の項目を有する。なお、情報データベース40の各レコードに付される項目「意味素性」の値は、情報データベース40の管理者によって付されるが、情報の提供者によって付されてもよく、情報が情報データベース40に登録された時点で図2に示す意味素性データベース41に基づき自動的に付されるようにしてもよい。
自然言語対話装置100は、検索手段14により、直近の対話履歴に含まれる意味素性「FOOD−ITALIAN」のみを用いて情報データベース40に対する検索を実行し、意味素性「FOOD−ITALIAN」を有するレコードID=1、4、6の三件のレコードを検索結果として取得する。
また、自然言語対話装置100は、検索手段14により、直近の対話履歴に含まれる意味素性「FOOD−ITALIAN」及びキーワード「パスタ」を用いて情報データベース40に対するAND検索を実行し、意味素性「FOOD−ITALIAN」及び本文にキーワード「パスタ」を有するレコードID=1、4の二件のレコードを検索結果として取得してもよい。
また、自然言語対話装置100は、検索手段14により、直近の対話履歴に含まれる意味素性「FOOD−ITALIAN」、キーワード「パスタ」及び特徴語「有名」を用いて情報データベース40に対するAND検索を実行し、意味素性「FOOD−ITALIAN」並びに本文にキーワード「パスタ」及び特徴語「有名」を有するレコードID=1のレコードを検索結果として取得してもよい。
さらに、自然言語対話装置100は、検索手段14により、直近数件の対話履歴に含まれる意味表現(意味素性及びキーワード)及び/又は特徴語を用いて情報データベース40に対する検索を実行してもよい。対話の流れの中からユーザの意図をより正確に把握した上で検索を実行することができるからである。
例えば、自然言語対話装置100は、検索手段14により、直近三件の対話履歴に含まれる意味表現「FOOD−ITALIAN[パスタ]」、「RESTAURANT[レストラン]」、「SCENE[レインボーブリッジ]」、「FOOD−CHINESE[餃子]」を用いて情報データベース40に対するAND検索を実行する。
この場合、全ての意味素性を有するレコードがなく検索結果はゼロ件となるので、自然言語対話装置100は、例えば、検索に使用した中で最も古い対話履歴を除外した直近二件の対話履歴に含まれる意味素性を用いて再度AND検索を実行し、意味素性「FOOD−ITALIAN」、「RESTAURANT」、「SCENE」を有するレコードID=1の一件のレコードを検索結果として取得するようにする。
なお、検索手段14は、過去における所定数の対話履歴を用いて検索を実行するが、過去の所定期間(例えば、5分間)内に記憶された対話履歴を用いて検索を実行するようにしてもよく、過去の対話履歴から意味表現及び/又は特徴語が共通する対話履歴を抽出し、抽出した対話履歴の前後数件の対話履歴を用いて検索を実行するようにしてもよい。ユーザの嗜好や性向をより正確に把握した上で検索を実行することができるからである。
このように、検索手段14は、意味素性、キーワード及び特徴語を用いてAND検索又はOR検索により所定レコード数の検索結果を取得するようにする。
なお、AND検索、OR検索の実行順序については、例えば、検索手段14は、最初に、意味素性、キーワード及び特徴語を用いたAND検索を実行し、検索された件数が少ないようであれば、次に、意味素性及びキーワードを用いたAND検索を実行し、検索される件数が所定数となるまで、順次、意味素性のみによる検索、意味素性及びキーワードを用いたOR検索、意味素性及び特徴語を用いたOR検索、さらに、意味素性、キーワード及び特徴語を用いたOR検索というように、条件を段階的に緩和して検索を実行するようにしてもよい。
また、検索手段14は、最初にOR検索を実行し、条件を段階的に限定的にして検索を実行するようにしてもよい。
また、意味素性が複数ある場合、複数の意味素性についてAND検索、OR検索を実行するようにしてもよい。キーワード又は特徴語が複数ある場合についても同様であり、或いは、複数の意味素性についてのAND検索、複数のキーワードについてのOR検索等を組み合わせるようにしてもよい。
検索された件数が所定数以下となった場合、自然言語対話装置100は、応答生成手段15により、検索結果をスピーカ6から音声出力するために音声データを生成し(ステップS6)、「二件見つかりました。例えば、イタリアンレストラン○○はいかがですか?」のような音声メッセージをスピーカ6から出力させて処理を終了する。なお、レストラン名○○は、情報データベース40の項目「名称」の値に基づいて抽出される。
以上の構成により、自然言語対話装置100は、意味素性、キーワード及び特徴語の全ての条件を満たす関連性の高い情報から、意味素性だけが共通する情報、又は、キーワード若しくは特徴語だけを包含する情報まで検索条件を段階的に変更することにより、柔軟な絞り込み検索を実現することができる。
また、自然言語対話装置100は、検索に用いる対話履歴の数を自動的に変更することにより、柔軟な絞り込み検索を実現することができる。
また、自然言語対話装置100は、入力文に含まれる単語又は単語列の意味表現を検索条件とすることにより、より上位の概念に基づいた一次検索(フィルタリング)を行うことができるので、構造が異なる(例えば、フィールド数が異なる)複数の不定型データベースを一纏めにした検索を可能とし、情報を効率的に検索することができる。
次に、本発明に係る情報検索装置の別の実施例について説明する。
図6は、本発明に係る情報検索装置の別の構成例を示すブロック図である。情報検索装置の別の実施例である自然言語対話装置200は、CPU1に位置特定語取得手段16及び絞り込み検索手段17を有し、ツリー構造を有する情報データベース40Aを利用する点で自然言語対話装置100と異なり、他の構成要素は自然言語対話装置100と共通する。
図7は、自然言語対話装置200で用いられる情報データベース40Aの構成例を示す図であり、情報データベース40Aは、ツリー構造(包含関係を表現できる構造)を構成できるよう各レコード(ノード)がその親ノード又はその子ノードに関する情報を有する点で、図5に示す情報データベース40と相違する。
各ノードは、例えば、意味素性LANDMARKに対応するキーワードとして、所定の階層関係を構成する地理的名称(例えば、行政区画、地域名、施設名、施設内店舗名等であり、図7に示すような階層関係を有する。)をそれぞれ有する。以下、意味素性LANDMARKのキーワードを位置特定語という。
例えば、レコードID=1を持つノードは、地域名「お台場」を位置特定語とした意味素性LANDMARKを有し、その子ノードであるレコードID=2、3を持つノードは、それぞれ、「お台場」地域の施設「デックス」、「パレットタウン」を位置特定語とした意味素性LANDMARKを有する。
さらに、レコードID=2を持つノードの子ノードであるID=4を持つノードは、施設「デックス」の中にあるショッピングモール「シーサイドモール」を位置特定語とした意味素性LANDMARKを有し、レコードID=4を持つノードの子ノードであるID=5、6、7を持つノードは、それぞれ、ショッピングモール「シーサイドモール」の中にある店舗名「○○ラーメン」、「△△」、「▽▽堂」を位置特定語とした意味素性LANDMARKを有する。
なお、自然言語対話装置200は、例えば、親ノードのレコードIDをその子ノードに保持させることによりツリー構造を構築する。
最初に、意味素性取得手段11は、入力文「デックスにあるラーメン屋」が入力された場合、意味素性データベース41を参照して、キーワード「ラーメン」に対応付けられた意味表現「FOOD−CHINESE[ラーメン]」を取得する。
また、位置特定語取得手段16は、同様に、意味素性データベース41を参照して、位置特定語「デックス」に対応付けられた意味表現「LANDMARK[デックス]」を取得する。
その後、自然言語対話装置200は、検索手段14により、意味表現「FOOD−CHINESE[ラーメン]」のみを用いて情報データベース40Aに対する検索を実行する。
初めから意味表現「FOOD−CHINESE[ラーメン]」及び「LANDMARK[デックス]」を用いてAND検索を行うと、施設「デックス」内にあるラーメン店に関するレコードであるが本文中には単語「デックス」を含まないレコードを抽出することができないからである。
なお、自然言語対話装置200は、検索手段14により、対話履歴記憶手段13が記憶した対話履歴に含まれる意味素性、キーワード及び/又は特徴語を用いて情報データベース40Aに対する検索を実行するようにしてもよい。
その後、絞り込み検索手段17は、検索により抽出された抽出レコードの上位階層(親ノード以上のノードをいう。なお、ルートノードが最上位のノードとする。)にあるレコードが持つ意味素性LANDMARKの値(位置特定語)と入力文の意味素性LANDMARKの値(位置特定語:デックス)とを照合し、照合できた抽出レコードを最終的な検索結果とする。
以上の構成により、自然言語対話装置200は、自然言語対話装置100が有する効果に加え、自ノードの本文には単語「デックス」を含まないがその親ノード又はその親ノードより上位のノードの意味素性LANDMARKの値が「デックス」となる自ノードを検索により抽出することができる。
また、自然言語対話装置200は、情報を地理情報に関連づけて保持するので、入力文「お台場周辺のイタリアンレストラン」が入力された場合にも、お台場にあるイタリアンレストランばかりでなく、その周辺地域にあるイタリアンレストランに関する情報をも検索することができる。この場合、自然言語対話装置200は、単語列「お台場周辺」から意味素性LANDMARK[お台場]、LANDMARK[汐留]を取得する(位置特定語「汐留」は、位置特定語「お台場」と同じ階層の隣り合う位置にある(図8参照)。)。
また、自然言語対話装置200は、GPS(Global Positioning System)を備えた車両に搭載された場合であって、入力文「このあたりの中華レストラン」が入力されたとき、GPS情報に基づいて周辺の中華レストランに関する情報を検索することができる。車両がお台場地域を走行している場合、自然言語対話装置200は、単語列「このあたり」とGPS情報とに基づいて、意味素性LANDMARK[お台場]を取得する。
なお、自然言語対話装置200は、上述のようなツリー構造を有する情報データベース40Aからの情報の検索に、対話履歴や特徴語を用いた検索を利用するようにしてもよい。
また、情報データベース40Aに対して図7に示すような地理情報に基づくツリー構造を導入するが、商品の分類に基づくツリー構造(例えば、「ファッション」の下位層に「皮革製品」があり、「皮革製品」の下位層に「かばん」が配置される構成をいう。)等、包含関係を表現する他のツリー構造を導入するようにしてもよい。
以上、本発明の好適な実施例について詳説したが、本発明は、上述した実施例に制限されることなく、本発明の範囲を逸脱することなしに上述した実施例に種々の変形及び置換を加えることができる。
例えば、上述の実施例において、自然言語対話装置は、入力文に所定のキーワードが複数含まれる場合にはそのキーワードの数と同じ数の意味素性を取得し、それら意味素性を全て同等に扱いながら検索クエリを生成する(AND検索やOR検索の組み合わせを設定する)が、入力文に含まれるキーワードの語順や修飾・被修飾関係等に基づいて複数の意味素性に優先順位を付与し、その優先順位に基づいて検索クエリを生成するようにしてもよい。
また、自然言語対話装置は、キーワードを含む特定の分野(例えば、カーナビゲーション分野や医療分野等をいう。)における文例とそのキーワードに対応付けられる意味素性とに基づいて意味文法を追加し、意味素性取得手段11がより効率的に意味素性を取得できるようにしてもよい。
また、自然言語対話装置は、特定の分野における文例に基づいて音声認識手段10が用いる単語辞書や言語モデルをその特定の分野に対応させ、音声認識手段10の音声認識精度を高めるようにしてもよい。
本発明に係る情報検索装置の構成例を示すブロック図(その1)である。 意味素性データベースの構成例を示す図である。 自然言語対話装置がユーザの音声入力に基づいて情報を検索する処理の流れを示すフローチャートである。 対話履歴データベースの構成例を示す図である。 情報データベースの構成例を示す図(その1)である。 本発明に係る情報検索装置の構成例を示すブロック図(その2)である。 情報データベースの構成例を示す図(その2)である。 ツリー構造の構成例を示す図である。
符号の説明
1 制御装置
2 マイク
3 キーボード
4 ハードディスク
5 通信機
6 スピーカ
7 ディスプレイ
10 音声認識手段
11 意味素性取得手段
12 特徴語抽出手段
13 対話履歴記憶手段
14 検索手段
15 応答生成手段
16 位置特定語取得手段
17 絞り込み検索手段
40、40A 情報データベース
41 意味素性データベース
42 対話履歴データベース
100、200 自然言語対話装置

Claims (8)

  1. 情報本体と該情報本体の意味を表す意味素性とを項目として有するレコードで構成されるデータベースを検索する情報検索装置であって、
    音声入力又は文字入力により入力された入力情報に含まれる既登録語を検出し該既登録語に予め対応付けられた意味素性を取得する意味素性取得手段と、
    前記入力情報に含まれる未登録語から前記入力情報を特徴付ける特徴語を抽出する特徴語抽出手段と、
    前記特徴語抽出手段が抽出した特徴語と前記意味素性取得手段が取得した意味素性とに基づいて前記データベースを検索する検索手段と、
    を備えることを特徴とする情報検索装置。
  2. 複数の階層で構成されるツリー構造を有し、情報本体と該情報本体の意味を表す意味素性と前記ツリー構造における位置を特定する位置特定語とを項目として有するレコードで構成されるデータベースを検索する情報検索装置であって、
    音声入力又は文字入力により入力された入力情報に含まれる既登録語を検出し該既登録語に予め対応付けられた意味素性を取得する意味素性取得手段と、
    前記入力情報に含まれる既登録の位置特定語を検出して取得する位置特定語取得手段と、
    前記入力情報に含まれる未登録語から前記入力情報を特徴付ける特徴語を抽出する特徴語抽出手段と、
    前記特徴語抽出手段が抽出した特徴語と前記意味素性取得手段が取得した意味素性とに基づいて前記データベースを検索する検索手段と、
    前記検索手段が検索したレコードの上位階層にあるレコードの位置特定語と前記入力情報に含まれる位置特定語とに基づいて絞り込み検索を行う絞り込み検索手段と、
    を備えることを特徴とする情報検索装置。
  3. 前記特徴語抽出手段は、前記入力情報に含まれる未登録語を使用頻度が低い順に特徴語として抽出する、
    ことを特徴とする請求項1又は2に記載の情報検索装置。
  4. 情報本体と該情報本体の意味を表す意味素性とを項目として有するレコードで構成されるデータベースを検索する情報検索装置であって、
    音声入力又は文字入力により入力された入力情報に含まれる既登録語を検出し該既登録語に予め対応付けられた意味素性を取得する意味素性取得手段と、
    前記意味素性取得手段が取得した意味素性に時刻情報を付した対話履歴を記憶する対話履歴記憶手段と、
    前記対話履歴記憶手段が記憶した対話履歴に基づいて前記データベースを検索する検索手段と、
    を備えることを特徴とする情報検索装置。
  5. 複数の階層で構成されるツリー構造を有し、情報本体と該情報本体の意味を表す意味素性と前記ツリー構造における位置を特定する位置特定語とを項目として有するレコードで構成されるデータベースを検索する情報検索装置であって、
    音声入力又は文字入力により入力された入力情報に含まれる既登録語を検出し該既登録語に予め対応付けられた意味素性を取得する意味素性取得手段と、
    前記入力情報に含まれる既登録の位置特定語を検出して取得する位置特定語取得手段と、
    前記意味素性取得手段が取得した意味素性に時刻情報を付した対話履歴を記憶する対話履歴記憶手段と、
    前記対話履歴記憶手段が記憶した対話履歴に基づいて前記データベースを検索する検索手段と、
    前記検索手段が検索したレコードの上位階層にあるレコードの位置特定語と前記入力情報に含まれる位置特定語とに基づいて絞り込み検索を行う絞り込み検索手段と、
    を備えることを特徴とする情報検索装置。
  6. 前記検索手段は、前記時刻情報が古い順に対話履歴を除外しながら所定の検索結果を得るまで検索を繰り返す、
    ことを特徴とする請求項4又は5に記載の情報検索装置。
  7. 前記入力情報に含まれる未登録語から前記入力情報を特徴付ける特徴語を抽出する特徴語抽出手段を備え、
    前記対話履歴記憶手段は、前記対話履歴に前記特徴語抽出手段が抽出した特徴語を対応付けて記憶する、
    ことを特徴とする請求項4乃至6の何れか一項に記載の情報検索装置。
  8. 前記特徴語抽出手段は、前記入力情報に含まれる未登録語を使用頻度が低い順に特徴語として抽出する、
    ことを特徴とする請求項7に記載の情報検索装置。
JP2006343146A 2006-12-20 2006-12-20 情報検索装置 Active JP4881147B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006343146A JP4881147B2 (ja) 2006-12-20 2006-12-20 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006343146A JP4881147B2 (ja) 2006-12-20 2006-12-20 情報検索装置

Publications (2)

Publication Number Publication Date
JP2008158564A true JP2008158564A (ja) 2008-07-10
JP4881147B2 JP4881147B2 (ja) 2012-02-22

Family

ID=39659441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006343146A Active JP4881147B2 (ja) 2006-12-20 2006-12-20 情報検索装置

Country Status (1)

Country Link
JP (1) JP4881147B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013016024A (ja) * 2011-07-04 2013-01-24 Nikon Corp 情報検索方法および装置
JP2015060243A (ja) * 2013-09-17 2015-03-30 富士通株式会社 検索装置、検索方法、およびプログラム
US9154918B2 (en) 2012-02-27 2015-10-06 International Business Machines Corporation Estimating location based on social media
JP2016502696A (ja) * 2012-10-11 2016-01-28 ベベオ, インコーポレイテッド 会話型インターフェースの一部として動的に適用されるフィルタリングオペレータを伴う適応会話状態管理のための方法
JP2016103270A (ja) * 2014-11-12 2016-06-02 株式会社アドバンスト・メディア 情報処理システム、受付サーバ、情報処理方法及びプログラム
US9380121B2 (en) 2012-10-30 2016-06-28 International Business Machines Corporation Method, computer program and computer for estimating location based on social media
WO2019207909A1 (ja) * 2018-04-23 2019-10-31 株式会社Nttドコモ 対話サーバ

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306195A (ja) * 1998-04-24 1999-11-05 Mitsubishi Electric Corp 情報検索システムおよび情報検索方法
JP2002149645A (ja) * 2000-11-14 2002-05-24 Toshiba Corp 自然言語対話装置及び方法
JP2004192367A (ja) * 2002-12-12 2004-07-08 Hitachi Ltd 位置情報を使用した情報管理装置
JP2004318328A (ja) * 2003-04-14 2004-11-11 Canon Inc 情報検索方法
JP2005332271A (ja) * 2004-05-20 2005-12-02 Oki Electric Ind Co Ltd 質問種別判定装置、質問種別判定方法、および質問種別判定プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306195A (ja) * 1998-04-24 1999-11-05 Mitsubishi Electric Corp 情報検索システムおよび情報検索方法
JP2002149645A (ja) * 2000-11-14 2002-05-24 Toshiba Corp 自然言語対話装置及び方法
JP2004192367A (ja) * 2002-12-12 2004-07-08 Hitachi Ltd 位置情報を使用した情報管理装置
JP2004318328A (ja) * 2003-04-14 2004-11-11 Canon Inc 情報検索方法
JP2005332271A (ja) * 2004-05-20 2005-12-02 Oki Electric Ind Co Ltd 質問種別判定装置、質問種別判定方法、および質問種別判定プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013016024A (ja) * 2011-07-04 2013-01-24 Nikon Corp 情報検索方法および装置
US9154918B2 (en) 2012-02-27 2015-10-06 International Business Machines Corporation Estimating location based on social media
JP2016502696A (ja) * 2012-10-11 2016-01-28 ベベオ, インコーポレイテッド 会話型インターフェースの一部として動的に適用されるフィルタリングオペレータを伴う適応会話状態管理のための方法
US9380121B2 (en) 2012-10-30 2016-06-28 International Business Machines Corporation Method, computer program and computer for estimating location based on social media
US9954960B2 (en) 2012-10-30 2018-04-24 International Business Machines Corporation Method, computer program and computer for estimating location based on social media
US10356186B2 (en) 2012-10-30 2019-07-16 International Business Machines Corporation Method, computer program and computer for estimating location based on social media
JP2015060243A (ja) * 2013-09-17 2015-03-30 富士通株式会社 検索装置、検索方法、およびプログラム
US9659004B2 (en) 2013-09-17 2017-05-23 Fujitsu Limited Retrieval device and method
JP2016103270A (ja) * 2014-11-12 2016-06-02 株式会社アドバンスト・メディア 情報処理システム、受付サーバ、情報処理方法及びプログラム
WO2019207909A1 (ja) * 2018-04-23 2019-10-31 株式会社Nttドコモ 対話サーバ
JPWO2019207909A1 (ja) * 2018-04-23 2021-01-14 株式会社Nttドコモ 対話サーバ
JP7043593B2 (ja) 2018-04-23 2022-03-29 株式会社Nttドコモ 対話サーバ

Also Published As

Publication number Publication date
JP4881147B2 (ja) 2012-02-22

Similar Documents

Publication Publication Date Title
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US10642577B2 (en) Search and knowledge base question answering for a voice user interface
CN112182252B (zh) 基于药品知识图谱的智能用药问答方法及其设备
CN101532848B (zh) 信息检索装置、信息检索系统以及信息检索方法
JP7182585B2 (ja) プログラム
CN1942875B (zh) 对话支援装置
Habernal et al. SWSNL: semantic web search using natural language
CN104471568A (zh) 对自然语言问题的基于学习的处理
US20150286943A1 (en) Decision Making and Planning/Prediction System for Human Intention Resolution
CN110020213A (zh) 通过迭代处理的名称标准化
TWI735380B (zh) 自然語言處理方法與其計算裝置
JP2015219583A (ja) 話題決定装置、発話装置、方法、及びプログラム
US20120323905A1 (en) Ranking data utilizing attributes associated with semantic sub-keys
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
US20180039632A1 (en) Information processing apparatus, information processing method, and computer program
JP6994289B2 (ja) キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
CN103970815B (zh) 语音输入和输出数据库搜索方法和设备
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
JP4881147B2 (ja) 情報検索装置
JP6305630B2 (ja) 文書検索装置、方法及びプログラム
US20120317141A1 (en) System and method for ordering of semantic sub-keys
US9875298B2 (en) Automatic generation of a search query
JP7038884B1 (ja) ユーザアシストシステム
JP2012043115A (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20120317103A1 (en) Ranking data utilizing multiple semantic keys in a search query

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111202

R151 Written notification of patent or utility model registration

Ref document number: 4881147

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250