JP2015069102A

JP2015069102A - 情報処理装置、制御方法、及びプログラム

Info

Publication number: JP2015069102A
Application number: JP2013204746A
Authority: JP
Inventors: 玲二藤川; Reiji Fujikawa; 雅彦原田; Masahiko Harada
Original assignee: NEC Personal Computers Ltd
Current assignee: NEC Personal Computers Ltd
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2015-04-13
Anticipated expiration: 2033-09-30
Also published as: JP6069157B2

Abstract

【課題】的外れな回答であっても、追随して検索を継続する。【解決手段】音声情報をテキスト情報に変換、分節する手段、複数のサーバが、如何なる属性情報を保有しているかという情報を格納するデータベース、格納された情報に基づいて、テキスト情報から得られる属性と、属性に対応する情報を保有しているサーバとを対応付ける手段、テキスト情報と属性との対応関係を一時保存する手段、対応付けされたサーバから属性に対応する情報を検索する手段、検索された情報量が所定の閾値以上であるか否かを判断する手段、情報量が所定の閾値以上であると、情報量を絞り込む音声情報を要求する手段、情報量を絞り込めない音声情報を獲得しても、対応関係に基づいて、音声情報を変換、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバから所定の情報量の情報を検索する手段、を含む。【選択図】図９

Description

本発明は、情報処理装置、制御方法、及びプログラムに関する。

近年、文字、音声、図形、映像等のマルチメディアを入力、出力、及び加工処理することで、人間とコンピュータとの対話を様々な形態で行うことが可能となっている。特に、最近になって、メモリ容量やパーソナルコンピュータ（以下、ＰＣともいう。）の処理能力が飛躍的に向上したことで、マルチメディアを取り扱うことができるＰＣが開発され、種々のアプリケーションが開発されてきている。これらは何れも単に種々のマルチメディアを出し入れするだけのもので各種マルチメディアを有機的に融合するまでには至っていない。

一方、従来からの数値データに代わり、文字を含む言語データが一般的になり、白黒のイメージデータはカラー化や図形、アニメーション、三次元グラフィックス、さらには動画が扱えるように拡張されてきている。また、音声やオーディオ信号についても、単なる音声信号レベルの入出力の他に、音声認識や音声合成の機能が研究開発されつつある。しかし、マンマシンインタフェースとして使用するには性能が不安定で、実用化は限定された分野に限られているのが現状である。

このように、上述した文字、テキスト、音声、グラフィックデータ等については、従来の入出力処理（記録、再生）から各種メディアへの展開や生成機能へと発展が続いている。換言すれば、各メディアの表面的な処理からメディアの内容や構造、意味的内容を取り扱い、人間とＰＣとの間の対話をより自然に快適に行うことを目的として、音声やグラフィックス等のメディアの融合や生成を利用する対話システムの構築が検討されつつある。

ここで、対話システムに用いられる音声検索とは、文字列ではなく、発話する声により話しかけることで検索できる技術やサービスのことを指す。近年では、Ａｐｐｌｅ（登録商標）ｉＯＳに搭載されるＳｉｒｉ（登録商標）や、Ｇｏｏｇｌｅ（登録商標）音声検索が知られている。また、最近では、音声操作できるカーナビ、一部のメーカーが発売する音声による操作や番組検索が可能なテレビ、話しかけるとそのまま指定した言語に翻訳してくれる携帯電話やスマートフォン等も出てきている。このように近年、音声解析技術を使ったサービスが登場してきている。

ところで、音声検索は、キーボードやタッチパネルで文字列を打つ必要がないので、両手が塞がっている時でも情報にアクセスでき、発声という直感的なアプローチが可能である。そして、検索結果に該当するものをＰＣによる音声を用いた回答で得ることができれば、対話によりインターネットから欲しい情報を容易に取り出せるようになる、等の理由から、将来性が期待されている。

しかしながら、現状、インターネットを用いた音声検索は、それ程普及が進んでいるとはいえない。音声検索の普及が進まない原因として考えられるのが、検索サービスにおける音声認識の難しさ、その汎用性にある。すなわち、テレビに搭載されている音声認識は、基本的にテレビ番組名や出演者名等、番組と人物に関連する物事や、テレビ操作に関連する物事が認識できれば足りるのである。同様にカーナビであれば、基本的に住所・施設名等、地図情報に関連する物事を認識できれば良いのである。

例えば、カーナビで入力する住所は、東京都○○区△△町等のように定型化されているので、連続的な音声を認識した時に、○○、△△に入る文言を特定できれば良いので、結果的に精度は良くなる。このように、特定用途の機器であれば、認識すべき範囲や文脈はある程度絞り込むことができる、つまり候補を限定することができる。しかしながら、汎用的な検索サービスではそうはいかないのが現状である。

このように、音声認識については、単一単語認識から連続単語認識、連続音声認識へと発展しており、実用化のために応用を限定した方向でも開発が進められている。このような応用場面では、音声対話システムとして、音声の文字面の認識よりも音声の発話内容の理解が重要であり、例えば、キーワードスポッティングをベースに応用分野の知識を利用した音声理解システムも研究されてきている。

他方、音声等のメディアの理解と生成は、単なるデータの入出力とは異なり、メディアの変換の際に発生する情報の欠落やエラーが不可避である。すなわち、音声理解は情報量の多い音声パターンデータから音声の発話の内容や発話者の意図を抽出する処理であり、情報の圧縮を行う過程で音声認識エラーや曖昧性が生じる。したがって、音声対話システムとしては上述した認識エラーや曖昧性等の音声認識の不完全さに対処するため、ＰＣ側からユーザに対して適切な質問や確認を行い、対話制御によりスムーズに対話を進行する必要がある。

そして、音声対話システムにおいて、ＰＣ側からユーザに対して質問や確認を行った結果、ユーザ側から必要とされる回答と異なる回答が寄せられたとき、ＰＣ側では、ユーザに対して再度聞き返す、又は必要としている回答とは異なる旨を通知している。しかし、ＰＣがユーザに対して再度聞き返したり、必要としている回答とは異なる旨を通知したりしても、ユーザから的確な回答が得られないときは、ユーザからの回答が無視される場合もある。

そして、特許文献１には、音声認識した複数の候補の中に、ユーザによって音声入力された指定カテゴリに属するものがなければ、再度の音声入力を促すメッセージを出力する音声認識装置が記載されている。

特開２００１−１０９４９２号公報

上述したように、従来の音声認識、音声合成技術を利用した音声対話システムは、それぞれ別個に開発された音声認識、音声合成、画面表示の各技術を単に組み合わせただけのものであり、音声の対話という観点からの十分な考慮がなされていないという問題がある。すなわち、音声認識機能には、認識誤りや曖昧性があり、音声合成機能は人間の発声よりも明りょう度が悪く、イントネーションの制御も不十分であるため、意図や感情の伝達能力が不足しており、自然性に欠けるという根本的な問題がある。

また、音声認識装置の認識率は向上してきているが、語彙数が増大してくると誤認識を回避することは難しくなる。そして、誤認識した場合の対応として、「戻る」操作がある。これは、誤認識を破棄して、再度入力し直すというものである。しかし、この方法では、一回目と同じ認識対象を再認識させたとしても認識率の大幅な向上は見られず、結果的にユーザが意図した単語を認識できなくなる事態が多々発生する可能性が高い。そして、誤認識に対して何度も同じ単語を発生させることとなるため、認識率が低く感じられ、ユーザの信頼を失ってしまうという問題がある。

そして、特許文献１に記載された技術では、ユーザによって音声入力されるメッセージに対応する回答が得られない場合、そのメッセージに対して追随して検索することなく、再検索を行うための新たな音声を入力して欲しい旨のメッセージをユーザに対して出力し、新たな音声入力に類似する候補の再検索を行っており、ユーザによって入力されるメッセージに対してフレキシブルに対応することができないという問題がある。

そこで本発明は、上記従来の問題点に鑑みてなされたもので、検索を継続するために必要とされる質問に対して的外れな回答が寄せられたとしても、その的外れな回答の意図を汲んで、追随して検索を継続することが可能な情報処理装置、制御方法、及びプログラムを提供することを目的とする。

上記課題を解決するため、請求項１に記載の本発明における情報処理装置は、入力される音声情報をテキスト情報に変換する手段と、前記変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する手段と、前記対応付けされたサーバから前記属性に対応する情報を検索する手段と、前記検索により得られた前記属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する手段と、前記情報量が前記所定の閾値以上であると判断すると、前記情報量を絞り込むための音声情報を要求する手段と、前記情報量を絞り込めない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する所定の情報量を有する情報を検索する手段と、を含むことを特徴とする。

また、上記課題を解決するため、請求項２に記載の本発明における情報処理装置は、入力される音声情報をテキスト情報に変換する手段と、前記変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する手段と、前記テキスト情報から得られる属性のうち、前記サーバとの対応付けができないテキスト情報の有無を判断する手段と、前記サーバとの対応付けができないテキスト情報の属性を確定するための音声情報を要求する手段と、前記テキスト情報の属性を確定できない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する手段と、を含むことを特徴とする。

さらに、上記課題を解決するため、請求項３に記載の本発明における情報処理装置は、入力される音声情報をテキスト情報に変換する手段と、前記変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する手段と、前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する手段と、前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する手段と、前記不足項目を補充しない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する手段と、を含むことを特徴とする。

また、上記課題を解決するため、請求項４に記載の本発明における情報処理方法は、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置の制御方法であって、入力される音声情報をテキスト情報に変換する工程と、前記変換されたテキスト情報を分節する工程と、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける工程と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する工程と、前記対応付けされたサーバから前記属性に対応する情報を検索する工程と、前記検索により得られた前記属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する工程と、前記情報量が前記所定の閾値以上であると判断すると、前記情報量を絞り込むための音声情報を要求する工程と、前記情報量を絞り込めない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する所定の情報量を有する情報を検索する工程と、を含むことを特徴とする。

そして、上記課題を解決するため、請求項５に記載の本発明における情報処理方法は、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置の制御方法であって、入力される音声情報をテキスト情報に変換する工程と、前記変換されたテキスト情報を分節する工程と、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける工程と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する工程と、前記テキスト情報から得られる属性のうち、前記サーバとの対応付けができないテキスト情報の有無を判断する工程と、前記サーバとの対応付けができないテキスト情報の属性を確定するための音声情報を要求する工程と、前記テキスト情報の属性を確定できない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する工程と、を含むことを特徴とする。

また、上記課題を解決するため、請求項６に記載の本発明における情報処理方法は、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置の制御方法であって、入力される音声情報をテキスト情報に変換する工程と、前記変換されたテキスト情報を分節する工程と、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける工程と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する工程と、前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する工程と、前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する工程と、前記不足項目を補充しない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する工程と、を含むことを特徴とする。

さらに、上記課題を解決するため、請求項７に記載の本発明におけるプログラムは、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置のコンピュータに、入力される音声情報をテキスト情報に変換する処理と、前記変換されたテキスト情報を分節する処理と、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける処理と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する処理と、前記対応付けされたサーバから前記属性に対応する情報を検索する処理と、前記検索により得られた前記属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する処理と、前記情報量が前記所定の閾値以上であると判断すると、前記情報量を絞り込むための音声情報を要求する処理と、前記情報量を絞り込めない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する所定の情報量を有する情報を検索する処理と、を実現させることを特徴とする。

また、上記課題を解決するため、請求項８に記載の本発明におけるプログラムは、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情情報処理装置のコンピュータに、入力される音声情報をテキスト情報に変換する処理と、前記変換されたテキスト情報を分節する処理と、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける処理と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する処理と、前記テキスト情報から得られる属性のうち、前記サーバとの対応付けができないテキスト情報の有無を判断する処理と、前記サーバとの対応付けができないテキスト情報の属性を確定するための音声情報を要求する処理と、前記テキスト情報の属性を確定できない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する処理と、を実現させることを特徴とする。

そして、上記課題を解決するため、請求項９に記載の本発明におけるプログラムは、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置のコンピュータに、入力される音声情報をテキスト情報に変換する処理と、前記変換されたテキスト情報を分節する処理と、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける処理と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する処理と、前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する処理と、前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する処理と、前記不足項目を補充しない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する処理と、を実現させることを特徴とする。

本発明によれば、検索を継続するために必要とされる質問に対して的外れな回答が寄せられたとしても、その的外れな回答の意図を汲んで、追随して検索を継続することが可能な情報処理装置、制御方法、及びプログラムが得られる。

本発明の実施形態における情報処理装置の構成について説明する概略ブロック図である。本発明の実施形態における情報処理装置の主要部の構成について説明する概略ブロック図である。本発明の実施形態における情報処理装置のソフトウェア機能について説明する機能ブロック図である。本発明の実施形態における情報処理装置の起動時の画面表示（その１）について説明する図である。本発明の実施形態における情報処理装置の起動時の画面表示（その２）について説明する図である。本発明の実施形態における情報処理装置の起動時の画面表示（その３）について説明する図である。本発明の実施形態における情報処理装置の具体的な動作（その１）について説明する図である。本発明の実施形態における情報処理装置の具体的な動作（その２）について説明する図である。本発明の実施形態における情報処理装置の具体的な動作（その３）について説明する図である。本発明の実施形態における情報処理装置の動作について説明するフローチャートである。本発明の実施形態における情報処理装置のユーザインタフェースが最小化された時の画面表示について説明する図である。

次に、本発明を実施するための形態について図面を参照して詳細に説明する。なお、各図中、同一又は相当する部分には同一の符号を付しており、その重複説明は適宜に簡略化乃至省略する。本発明の内容を簡潔に説明すると、入力される音声情報をテキスト情報に変換する手段と、変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、データベースに格納された情報に基づいて、分節されたテキスト情報から得られる属性と、属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、分節されたテキスト情報とテキスト情報から得られる属性との対応関係を一時保存する手段と、対応付けされたサーバから属性に対応する情報を検索する手段と、検索により得られた属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する手段と、情報量が所定の閾値以上であると判断すると、情報量を絞り込むための音声情報を要求する手段と、情報量を絞り込めない音声情報を獲得しても、対応関係に基づいて、音声情報を変換し、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、サーバの中から属性に対応する所定の情報量を有する情報を検索する手段と、を含むことにより、検索を継続するために必要とされる質問に対して的外れな回答が寄せられたとしても、その的外れな回答の意図を汲んで、追随して検索を継続することができるのである。

まず、図１を用いて本発明の実施形態における情報処理装置の構成について説明する。図１は、本発明の実施形態における情報処理装置の構成について説明する概略ブロック図である。図１を参照すると、本発明の実施形態における情報処理装置１００は、電子情報端末、ＰＤＡ、ノート型ＰＣ、タブレット型ＰＣ等を具体例とする情報処理装置である。

図１において、本発明の実施形態における情報処理装置（以下、パーソナルコンピュータ（ＰＣ）ともいう。）１００は、マイク１０１と、音声認識部１０２と、ＲＯＭ（Read Only Memory）１０３と、ＲＡＭ（Random Access Memory）１０４と、スピーカ１０５、音声合成部１０６と、ＣＰＵ（Central Processing Unit）１０７と、表示部１０８と、入力部１０９と、電源部１１０と、ネットワーク接続部１１１と、ＨＤＤ（Hard Disk Drive）１１２と、から構成される。

マイク１０１は、ユーザの音声を音声データ（電気信号）に変換するものである。音声認識部１０２は、マイク１０１によって音声データに変換されたユーザの音声を認識するものである。ＲＯＭ１０３は、ＰＣ１００全体の動作を制御するプログラムを格納するものである。ＲＡＭ１０４は、ＲＯＭ１０３に格納されたプログラムが展開される記憶領域である。スピーカ１０５は、後述するＰＣ１００のコンシェルジュが出力する音声データを音声に変換するものである。音声合成部１０６は、ＰＣ１００のコンシェルジュが出力する音声データを、所望の音声に変換されるよう合成するものである。ＣＰＵ１０７は、ＰＣ１００全体の動作を制御するものであり、ＲＯＭ１０３に格納された制御プログラムをロードし、ＰＣ１００の動作によって得られた様々なデータをＲＡＭ１０４に展開するものである。

表示部１０８は、ＬＣＤ（Liquid Crystal Display）等で構成される表示画面であり、ＰＣ１００によって実行されたアプリケーションの結果や図示しないＴＶチューナによって受信されたテレビ番組を表示するものであり、ＰＣ１００の出力装置を構成している。入力部１０９は、キーボード、マウス、タッチパネル等、ユーザがＰＣ１００に対して指示を与えるものであり、ＰＣ１００の入力装置である。電源部１１０は、ＰＣ１００に対してＡＣ（Alternative Current：交流）又はＤＣ（Direct Current：直流）電源を与えるものである。ネットワーク接続部１１１は、インターネットに代表される図示しないネットワーク網に接続され、ネットワーク網とのインタフェースを図るものである。ＨＤＤ１１２は、ＰＣ１００のアプリケーションソフトウェアを格納したり、図示しないＴＶチューナによって受信されたテレビ番組等のコンテンツを録画したりするものである。なお、表示部１０８と入力部１０９は、ＬＣＤとタッチパネルとが一体となったタッチパネルディスプレイであっても良い。この場合、キーボードやマウスといった入力装置に代えて、指や図示しないスタイラスペンをタッチパネルディスプレイに接触させて直接文字を書く動作等を行ってデータ入力やコマンド入力といった操作を行うことができる。

次に、図２を参照して、本発明に実施形態における情報処理装置の主要部の構成について説明する。図２は、本発明の実施形態における情報処理装置の主要部の構成について説明する概略ブロック図である。

図２において、本発明の実施形態におけるＰＣ１００は、マイク２０１から入力されたユーザの音声が音声データ（電気信号）に変換されて、当該音声データが音声信号解釈部２０２によって解釈され、その結果がクライアント型音声認識部２０３において認識される。クライアント型音声認識部２０３は、認識した音声データをクライアントアプリケーション部２０４に渡す。

クライアントアプリケーション部２０４は、ユーザからの問い合わせに対する回答が、オフライン状態にあるローカルコンテンツ部２０８に格納されているか否かを確認し、ローカルコンテンツ部２０８に格納されている場合は、当該ユーザからの問い合わせに対する回答を、後述するテキスト読上部２０９、クライアント型音声合成部２１０を経由して、スピーカ２１１から音声出力する。

ユーザからの問い合わせに対する回答が、ローカルコンテンツ部２０８に格納されていない場合は、ＰＣ１００単独で回答を持ち合わせていないことになるので、インターネット等のネットワーク網２０７に接続されるネットワーク接続部２０６を介して、インターネット上の検索エンジン等を用いてユーザからの問い合わせに対する回答を検索し、得られた検索結果を、テキスト読上部２０９、クライアント型音声合成部２１０を経由して、スピーカ２１１から音声出力する。

クライアントアプリケーション部２０４は、ローカルコンテンツ部２０８、又はネットワーク網２０７から得られた回答をテキスト（文字）データに変換し、テキスト読上部２０９に渡す。テキスト読上部２０９は、テキストデータを読み上げ、クライアント型音声合成部２１０に渡す。クライアント型音声合成部２１０は、音声データを人間が認識可能な音声データに合成しスピーカ２１１に渡す。スピーカ２１１は、音声データ（電気信号）を音声に変換する。また、スピーカ２１１から音声を発するのに合わせて、ディスプレイ部に当該音声に関連する詳細な情報を表示する。

次に、本発明の実施形態における情報処理装置のソフトウェア機能について説明する。図３は、本発明の実施形態における情報処理装置のソフトウェア機能について説明する機能ブロック図である。

図３に示すように、本発明の実施形態におけるＰＣ１００は、ネットワーク３１３を介して外部に設けられた複数のサーバ７０１、７０２、・・・、７０Ｎに接続されている。サーバ７０１、７０２、・・・、７０Ｎは、それぞれ、後述する様々な属性に対応する情報を保有している。

そして、ＰＣ１００は、ユーザから発せられる音声を入力するマイク３０１と、マイク３０１から入力された音声入力を音声信号（音声情報）として取り扱い、増幅等を行う音声入力部３０２と、音声入力部３０２から入力される音声情報をテキスト情報に変換すると共に、変換されたテキスト情報を所定の音節毎に分節するテキスト解析部３０３と、分節されたテキスト情報が、如何なる属性に対応する情報であるかを判定し、当該分節されたテキスト情報から属性を取得する要素属性判定部３０４と、を有している。また、要素属性判定部３０４は、分節されたテキスト情報と、このテキスト情報から得られる属性との対応関係を一時的に保存する機能も備えている。

さらに、ＰＣ１００は、サーバ７０１、７０２、・・・、７０Ｎのうち、どのサーバが、如何なる属性に対応する情報を保有しているかという情報を予め格納しているサーバＡＰＩ（Application Programming Interface）データベース３０７と、分節されたテキスト情報から得られる属性が、様々な属性に対応する情報を保有しているサーバ７０１、７０２、・・・、７０Ｎのうち、どのサーバが保有している属性に対応するものであるかを対応付けて特定するサーバ特定部３０５と、特定されたサーバにアクセスして、分節されたテキスト情報から得られる属性に対応するサーバから、当該属性に対応する情報を検索する検索部３０６と、を有している。

そして、ＰＣ１００は、検索部３０６によって検索された結果を文章（テキスト情報）として生成する文章生成部３１０と、文章生成部３１０によって生成されたテキスト情報（検索結果等）をディスプレイ部２０５（図２）に表示する表示部３０９と、テキスト情報で得られた検索結果を、スピーカ３１２から出力するための音声信号（音声情報）に変換する音声出力部３１１と、音声出力部３１１によって変換された音声を出力するスピーカ３１２と、を有している。

また、後述するように、１つの属性は、ある１つのテキスト情報だけでなく、互いに類似する複数のテキスト情報から得られる場合もある。したがって、分節されたテキスト情報が複数の互いに類似するテキスト情報であっても、同一の属性が得られるようにすることが求められる。そこで、ＰＣ１００は、用語データベース３０８を有しており、この用語データベース３０８には、互いに類似するテキスト情報を纏めた類義語辞書が予め保持されている。

次に、本発明の実施形態における情報処理装置の起動時の画面表示について説明する。図４から図６は、本発明の実施形態における情報処理装置の起動時の画面表示について説明する図である。

本発明の実施形態に係るＰＣ１００のコンシェルジュ４００、５００、６００は、起動時の時間帯や曜日に応じて、様々な挨拶を行うことができる。例えば、起動時が朝の時間帯であるときには、図４に示すように、コンシェルジュ４００が、「おはようございます！」と発声するのに合わせてディスプレイ部２０５（図２）に関連情報を表示する。同様に、起動時が昼間の時間帯であれば、図５に示すように、コンシェルジュ５００は、「こんにちは！」と発声し、夜の時間帯であれば図６に示すように、コンシェルジュ６００は、「こんばんは！」と発声する。また、時間帯以外にも、平日と休日といった曜日に応じた発声も行うことができる。

次に、本発明の実施形態における情報処理装置の具体的な動作について説明する。図７から図９は、本発明の実施形態における情報処理装置の具体的な動作について説明する図である。

ＰＣ１００が、図４から図６に示したように起動している状態で、ユーザが、知りたい情報、検索したい情報をＰＣ１００に対して質問すると、ＰＣ１００は、その質問に対して回答する。例えば、図７に示すように、ユーザ８００が、「チャーリィ！女子会を渋谷で開きたい♪」とＰＣ１００に対して質問すると、ＰＣ１００は、入力された音声情報を、「ジョシカイヲシブヤデヒラキタイ」というテキスト情報に変換すると共に、「ジョシカイ」、「シブヤ」、「ヒラキタイ」に分節し、この分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを、サーバＡＰＩデータベース３０７（図３）に基づいてテキスト情報毎に特定する。

しかし、ＰＣ１００は、テキスト情報「ジョシカイ」の属性に対応する情報を保有しているサーバを特定することができない（サーバＡＰＩデータベース３０７に存在しない。）ので、テキスト情報「ジョシカイ」の属性を特定するため、「近いもの（パーティ・宴会、友達・同僚・家族と楽しむ）があったのですが、どれにしましょうか？」とユーザ８００に対して追加質問を行っている。そして、ユーザ８００は、ＰＣ１００がテキスト情報「ジョシカイ」の属性を特定することができるように、「友達！」という音声情報を入力している。

この質問と回答とのやり取りで重要なことは、ＰＣ１００は、ユーザ８００から発せられる音声情報である、「チャーリィ！女子会を渋谷で開きたい♪」のうち、「チャーリィ」という音声に反応し、この音声に続けて発せられる音声を認識し、ユーザ８００との対話を開始しているのである。すなわち、ＰＣ１００は、ユーザ８００から発せられる音声情報に基づいて、これをテキスト情報に変換し、この変換されたテキスト情報の中に、所定のキーワード（本実施形態の場合は「チャーリィ」というキーワード）が含まれているか否かを判断し、キーワードが含まれていると判断すると、ユーザ８００との対話を開始し、このキーワード以降、ユーザ８００から発せられる音声情報（質問）を所定のテキスト情報に変換し、この変換された所定のテキスト情報に基づいて特定される、ユーザから要求されるコマンド（例えばユーザから発話される質問に対する回答等）を実行するのである。なお、このキーワードを何にするかは、ユーザが予め定めておくものとする。

また、上記の例では、ＰＣ１００は、ユーザ８００から発せられるある特定の音声情報に反応し、この音声情報に続けて発せられる音声情報をテキスト情報として認識し、所定のコマンドを実行しているが、ＰＣ１００が、音声認識部１０２（図１）によりテキスト情報を認識し、所定のコマンドを実行する契機としては、ユーザ８００から発せられる特定の音声情報に限定されることなく、音声認識部１０２によりテキスト情報を認識することができる音声情報であれば、如何なる音源を用いても良いことは勿論である。

そして、ＰＣ１００は、ユーザ８００からの質問の内容である「女子会」、すなわちテキスト情報「ジョシカイ」から得られる属性に対応する情報を保有しているサーバを特定できないので、サーバを用いた検索を行うことができない。そこで、ＰＣ１００は、テキスト情報「ジョシカイ」の属性を特定するため、「近いもの（パーティ・宴会、友達・同僚・家族と楽しむ）があったのですが、どれにしましょうか？」と追加質問を行い、テキスト情報「ジョシカイ」が如何なる属性のものであるかを特定するため、ユーザ８００に対して聞き直しを行い、音声入力を要求しているのである。

そして、テキスト情報「ジョシカイ」が、如何なる属性のものであるかを特定できるよう、ユーザ８００が、「友達！」という音声を発した段階で、ＰＣ１００は、テキスト情報「ジョシカイ」が、如何なる属性のものであるか、すなわち「女子会」なるものが「友達」と楽しむパーティという属性を有するものであることが分かるので、改めて「友達」と楽しむパーティという属性に対応する情報を保有しているサーバを特定するのである。そして、図８に示すように、「こんなお店が見つかりましたよ。」と回答し、ディスプレイ部２０５（図２）にリスト表示する。

しかしながら、友達と楽しむパーティという属性に対応する情報を保有しているサーバを用いて検索を行った結果、候補となるお店が複数存在する。すなわち、検索により得られた情報量が予め定められた所定の閾値以上存在することになるので、情報量を絞り込むため、ＰＣ１００は、ユーザ８００に対して、「何料理にしましょうか？」という逆質問を動的に行う。要するに、ユーザ８００から発せられた友達と楽しむパーティという属性に基づいて検索を行った結果、検索結果が多数存在し、この多数の検索結果の中から最終的な候補を絞り込む、要するに、検索により得られる情報量を所定の閾値未満に絞り込むため、ＰＣ１００は、ユーザ８００に対して「何料理にしましょうか？」と逆質問を行い、情報量を絞り込むための音声情報の要求を行っているのである。

そうすると、図９に示すように、ユーザ８００は、「イタリア料理、４０００円ぐらいで、」といった回答、すなわち、ＰＣ１００が要求している「何料理にしましょうか？」という、検索により得られた情報量が予め定められた所定の閾値以上存在することになるので、情報量を絞り込むために必要なキーワードを要求しているのに対し、ユーザ８００は、「イタリア料理、」という音声に加えて「４０００円ぐらいで、」という音声を発している。すなわち、多数のお店情報に共通して付されるレストランというキーワード以外の料理の種類に関するキーワードに、予算に関する「４０００円くらいで、」というキーワードを付加するといった、いわば要求しているキーワードとは直接的に無関係な自由な条件に関するキーワードも発している。そして、ＰＣ１００は、料理の種類に関するキーワードに、予算に関するキーワードが付加されたとしても、ユーザ８００によって発せられたキーワードを分析し、「こんなお店が見つかりました。どんなタイプのお店でしょうか？」と回答すると共に、ディスプレイ部２０５（図２）にお店のリストを表示する。

また、図９の例では、ユーザ８００は、料理の種類に関するキーワードと、予算に関するキーワードを発しているが、ユーザ８００が、料理の種類に関するキーワードである「イタリア料理、」と言わずに、単に予算に関するキーワードである、「４０００円くらいで、」と発した場合であっても、ＰＣ１００は、「こんなお店が見つかりました。どんなタイプのお店でしょうか？」と回答すると共に、ディスプレイ部２０５（図２）にお店のリストを表示するのである。

本実施形態におけるＰＣ１００には、音声対話システムのソフトウェアアプリケーションプログラムがインストールされているが、このソフトウェアアプリケーションプログラムを常駐モードにするか、非常駐モードにするかを予め選択することができる。そして、常駐モードを選択すると、次回起動時からはスタートアップ時から起動する。さらに、常駐モードでは、常時、音をモニタリングし、ノイズなのか音声なのかを即座に判断している。

常駐モードにされていると、音声認識されたテキスト情報の中から「チャーリィ」といった所定のキーワードの有無だけを認識し、当該所定のキーワードが認識されると、音声認識されたテキストを、記憶して文脈解析するルーチンに引き渡す動作に移行する。

本実施形態におけるＰＣ１００には、一通りの応答、及び結果が存続する時間、具体的には、現在の話題が天気に関するものである場合、その天気に対する一通りの応答、及び天気に関する検索結果が存続する時間として、所定の時間からなる待機時間という概念を用いている。この待機時間は、ユーザ８００が、何らかのアクションを起こした場合、例えば、ユーザ８００が、話題を天気に関するものから他の話題に変える質問を行った場合、又は、ユーザ８００の求めに応じて返事を行った場合、例えば、ユーザ８００から、天気に関する話題とは異なる質問がなされ、その質問に応じてＰＣ１００が返事を行った場合、の何れかのタイミングにおいてリセットされる。そして、この待機時間は、ユーザ８００に対して何らかの検索結果を回答した直後から直ちにカウントされる。

そして、この待機時間の間は、すべての情報、すなわち、ユーザ８００との間で取り交わされたすべての情報、具体的には、待機時間が経過する前のキーワード、キーワードに基づいて行った検索、及び検索結果を履歴情報として保持し、活用している。そして、待機時間内に、ユーザ８００から新たな質問、及び／又は命令が発せられた場合、この保持している履歴情報を活用することとしている。すなわち、保持している履歴情報に共通する事項を抽出し、当該新たな質問、及び／又は命令を特定する事項と共にキーワードとして検索を行うのである。そして、待機時間が経過すると、待機時間が経過する前に保持されていたキーワード、キーワードに基づいて行った検索、及び検索結果等の履歴を削除する。

また、この待機時間が経過すると、ＰＣ１００は、ネットワーク接続部２０６（図２）を介して接続されるネットワーク網２０７上のサーバとのセッション（接続）を開放する。この時点で、ＰＣ１００にそれまで保持されていたサーバから得た情報が破棄される。そして、ユーザ８００によるＰＣ１００を用いた他の作業の邪魔にならないよう、さらに、待機時間が経過したこと（ＰＣ１００のモードが変わったこと）を示すため、ＰＣ１００の表示部１０８（図１）のウィンドウモード（ユーザインタフェース）を、図１１に示すようなコンパクトなウィンドウモードに移行する。図１１は、本発明の実施形態における情報処理装置のユーザインタフェースが最小化された時の画面表示について説明する図である。

そして、ＰＣ１００は、ユーザ８００から発せられる次のコマンドを待つ。この状態では、キーワード、キーワードに基づいて行った検索、及び検索結果の履歴情報を保持している待機時間を既に経過しているので、ユーザ８００から発せられる音声情報に、所定のキーワード（本実施形態の場合は「チャーリィ」というキーワード）が含まれているか否かを判断し、キーワードが含まれていると判断すると、ユーザ８００から入力される音声情報から認識されたテキスト情報に含まれる質問をキーワードとして検索を行い、検索結果を出力しているのである。

なお、待機時間経過後、ＰＣ１００を、ウェークアップさせる契機として、上記所定のキーワード（後述するウェークアップワード、本実施形態では、「チャーリィ」）の認識以外に、例えば、ディスプレイ部２０５（図２）に表示された所定のボタンをマウスポインタでクリックする、ＰＣ１００のハードウェアボタンを押下する、又は、ユーザ８００が発する声により声紋を認識する等、如何なる方法を用いても良いことは勿論である。

そして、ユーザ８００から発せられる質問に対しローカルコンテンツ部２０８に格納されている情報で回答が済む場合は、ネットワーク網２０７に接続することなく回答を行い、ネットワーク網２０７に対するアクセスが必要な質問であれば、セッションを接続し、新たな状態、すなわち、履歴情報がない状態で質問に対する回答を検索する。

このように、ユーザは、ＰＣ１００を起動状態にさえしておけば、後は、今やっている普通の作業（読書等）を何ら中断することなく、すなわち、ＰＣ１００とは無関係の作業を行っていたり、ＰＣ１００を使って何か別の作業を行っていたりしても、ＰＣ１００に触れることなく、ＰＣ１００に対して自然な言い方で質問すれば、ＰＣ１００は回答してくれるのである。また、候補が複数存在する場合であっても、ＰＣ１００が誘導してくれるのである。よって、検索のためのキーワードを会話の最初からすべて入力することなく、自然な会話で、声だけで簡単に、しかも快適に情報を入手することができるのである。

そして、ＰＣ１００は、上述したように、オフライン状態にあるローカルコンテンツ部２０８（図２）を有しており、ユーザ８００からなされた質問に対する回答が、このローカルコンテンツ部２０８に格納されているか否かを確認し、ローカルコンテンツ部２０８に格納されている場合は、ネットワーク接続部２０６（図２）を介してネットワーク網２０７に接続することなく、ユーザに対してスピーカ２１１（図２）から回答を行う。要するに、ネットワーク網２０７に対しては、必要に応じて接続し、検索を行い、ローカルコンテンツ部２０８に格納されている情報で回答が済む場合は、ネットワーク網２０７に接続しないのである。

次に、ユーザ８００からなされる質問が如何なる属性のものであるか特定するため、ＰＣ１００が追加質問を行い、それに対し、ＰＣ１００が、質問が如何なる属性のものであるかを特定できるよう、ユーザ８００が再び回答し、ＰＣ１００が、質問が如何なる属性のものであるかを特定し、検索を行った結果、候補が複数存在し、この複数の候補の中から最終的な候補を絞り込むためのキーワードを要求するＰＣ１００が、キーワードに基づいて導かれる複数の属性を含む検索結果（「こんなお店が見つかりましたよ。何料理にしましょうか？」）を提示し、ユーザ８００に対してある特定の属性からなる検索結果を絞り込むために必要なキーワードを要求したとき、ユーザ８００が、ある特定の属性からなるキーワードに、他の属性からなるキーワードを付加して言った場合、又は、ある特定の属性からなるキーワードを言わずに、他の属性からなるキーワードを言った場合であっても、ＰＣ１００は、ユーザ８００から言われた属性からなるキーワードに基づいて検索結果を回答するといった、ＰＣ１００が行っている具体的な音声解析の中身について述べる。

複数の属性を含む検索結果の中から、ある特定の属性からなる検索結果を絞り込むために必要なキーワードを、ＰＣ１００からユーザ８００に対して要求し、ユーザ８００が、ある特定の属性からなるキーワードに、他の属性からなるキーワードを付加して言った場合、又は、ある特定の属性からなるキーワードを言わずに、他の属性からなるキーワードを言った場合、ＰＣ１００は、ユーザ８００から発せられたすべての言葉に対してキーワード分析を行っている。これは、ＰＣ１００からユーザ８００に対して複数の検索結果の中からいずれかを選択するよう要求した場合であっても同様である。

そして、このとき、上記した要素属性判定部３１１（図３）に一時的に保存されている、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係を参照しているのである。すなわち、ユーザ８００から発せられたすべての言葉を分節し、この分節されたテキスト情報が、要素属性判定部３１１に一時的に保存されている、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係に基づいて、如何なる属性に対応するものであるかを特定し、この特定された属性に対応する情報を有しているサーバを特定し、この特定したサーバの中から情報を検索しているのである。

これにより、ユーザ８００が、ある特定の属性からなるキーワードに、他の属性からなるキーワードを付加して言った場合、又は、ある特定の属性からなるキーワードを言わずに、他の属性からなるキーワードを言った場合（上記の例では、「イタリア料理、４０００円くらいで、」のように、料理の種類に関するキーワードと、予算に関するキーワードを発した場合、又は、「４０００円くらいで、」のように、予算に関するキーワードを発した場合）であっても、予算（という属性）のキーワード＝４０００円のように、発言された言葉に対してキーワード分析を行い、そのキーワードの属性に対応する条件を埋めることができるのである。さらにいえば、ＰＣ１００は、ユーザ８００から発せられたすべての言葉に対してキーワード分析を行っているため、上記の例の場合、仮に「天気」について突然話題が振られたとしても、追従することができるのである。

このように、複数の属性を含む検索結果の中からある属性からなる検索結果を絞り込むためのキーワードの要求に対して、ある特定の属性からなるキーワードに、他の属性からなるキーワードを付加して言った場合、又は、ある特定の属性からなるキーワードを言わずに、他の属性からなるキーワードを言った場合であっても、ＰＣ１００は、その回答の意図を汲んで、追随して検索を継続することができるのである。

次に、本発明の実施形態における情報処理装置の動作について説明する。図１０は、本発明の実施形態における情報処理装置の動作について説明するフローチャートである。

図１０において、ステップ（以下、「Ｓ」という。）１００１の処理では、まず、ＰＣ１００のマイク３０１（図３）から音声が入力される。入力された音声は、音声入力部３０２において音声信号（音声情報）として取り扱われ、増幅等が行われた後、Ｓ１００２の処理へ移行する。Ｓ１００２の処理では、テキスト解析部３０３において、音声情報がテキスト情報に変換されると共に、所定の音節毎に分節され解析される。そして、Ｓ１００３の処理では、要素属性判定部３０４において、分節されたテキスト情報が、如何なる属性に対応する情報であるかが判定され、Ｓ１００４の処理へ移行する。

Ｓ１００４の処理では、サーバＡＰＩデータベース３０７（図３）を参照することにより、分節されたテキスト情報から得られる属性のうち、サーバ７０１、７０２、・・・、７０Ｎが保有している属性に対応しない要素、すなわち、属性が確定しない要素（テキスト情報）があるか否かが判断される。属性が確定しない要素がある（Ｓ１００４：ＹＥＳ）と判断されると、Ｓ１０１０の処理へ移行し、属性が確定しない要素がない（Ｓ１００４：ＮＯ）と判断されると、Ｓ１００５の処理へ移行する。

Ｓ１０１０の処理では、分節されたテキスト情報の属性を確定するための音声情報を要求する旨の質問がなされる。そして、要求された音声情報が入力されると、再びＳ１００１の処理を行う。属性の確定しない要素がないとき（Ｓ１００４：ＮＯ）、又は、Ｓ１０１０の処理で要求された音声情報をテキスト情報に変換した結果、当該テキスト情報から属性を得ることができ、属性の確定しない要素がないとき（Ｓ１００４：ＮＯ）は、Ｓ１００５の処理において、テキスト情報から得られる属性に対応する情報を保有するサーバが、サーバ特定部３０５（図３）によって特定される。

Ｓ１００６の処理では、Ｓ１００５の処理で特定されたサーバを用いて検索を実行する際、分節されたテキスト情報が、検索を実行するための必須項目（必須要件）をすべて満たしているか（不足項目があるか）否かが判断される。不足項目がある（Ｓ１００６：ＹＥＳ）と判断されると、Ｓ１０１１の処理へ移行し、不足項目がない（Ｓ１００６：ＮＯ）と判断されると、Ｓ１００７の処理へ移行する。

Ｓ１０１１の処理では、不足項目を補充するための質問、すなわち、音声情報の入力を要求する。そして、要求された音声情報が入力されると、再びＳ１００１の処理を行う。不足項目がない（Ｓ１００６：ＮＯ）と判断されたとき、又はＳ１０１１の処理で要求された音声情報をテキスト情報に変換し、当該テキスト情報から得られる属性に基づいて行う検索の不足項目が補充され、不足項目がない（Ｓ１００６：ＮＯ）と判断されたときは、Ｓ１００７の処理において、Ｓ１００５の処理で特定されたサーバを用いた検索が開始される。

Ｓ１００８の処理では、Ｓ１００７の処理で検索が実行された結果、検索結果（ある属性に対応する情報）の情報量が所定の閾値以上（検索結果の情報量が所定の閾値未満）であるか否かが判断される。所定の閾値以上（所定の閾値未満）である（Ｓ１００８：ＮＯ）と判断されると、Ｓ１０１２の処理へ移行し、所定の閾値未満である（Ｓ１００８：ＹＥＳ）と判断されると、Ｓ１００９の処理へ移行する。なお、この所定の閾値は、検索対象となる属性に応じて、任意の値に設定することが可能である。

Ｓ１０１２の処理では、検索結果（ある属性に対応する情報）の情報量を所定の閾値未満に絞り込むための質問、すなわち、音声情報の入力を要求する。そして、要求された音声情報が入力されると、再びＳ１００１の処理を行う。検索結果の情報量が所定の閾値未満である（Ｓ１００８：ＹＥＳ）と判断されたとき、又はＳ１０１２の処理で要求された音声情報をテキスト情報に変換し、当該テキスト情報から得られる属性に基づいて行う検索結果の情報量が所定の閾値未満である（Ｓ１００８：ＹＥＳ）と判断されたときは、Ｓ１００９の処理へ移行する。Ｓ１００９の処理では、検索結果がスピーカ２１１（図２）から出力されると共に、ディスプレイ部２０５（図２）に表示される。

なお、上記実施の形態では、図１０のＳ１００８の処理において、検索結果の情報量が所定の閾値以上であったとき（Ｓ１００８：ＮＯ）、Ｓ１０１２の処理においてなされる音声情報の要求に対し、検索結果の情報量を所定の閾値未満に絞り込みを行うための音声情報が得られなかった場合について説明しているが、本発明の実施形態は、この場合に限定されない。

すなわち、Ｓ１００４の処理において、サーバＡＰＩデータベース３０７（図３）を参照することにより、分節されたテキスト情報から得られる属性のうち、サーバ７０１、７０２、・・・、７０Ｎが保有している属性に対応しない要素がある（Ｓ１００４：ＹＥＳ）と判断されると、Ｓ１０１０の処理においてなされる、分節されたテキスト情報の属性を確定するための音声情報の要求に対し、分節されたテキスト情報の属性を確定するための音声情報が得られなかった場合も、要素属性判定部３１１（図３）に一時的に保存されている、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係を参照し、ユーザ８００から発せられた音声情報をテキスト情報に変換、分節し、この分節されたテキスト情報が、要素属性判定部３１１に一時的に保存されている、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係に基づいて、如何なる属性に対応するものであるかを推測し、この推測された属性に対応するサーバを特定し、この特定したサーバの中から情報を検索しているのである。

また、Ｓ１００６の処理において、Ｓ１００５の処理で特定されたサーバを用いて検索を実行する際、分節されたテキスト情報が、検索を実行するための必須項目（必須要件）をすべて満たしていない（Ｓ１００６：ＹＥＳ）と判断されると、Ｓ１０１１の処理においてなされる、不足項目を補充するための音声情報の要求に対し、不足項目を補充するための音声情報が得られなかった場合も、要素属性判定部３１１（図３）に一時的に保存されている、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係を参照し、ユーザ８００から発せられた音声情報をテキスト情報に変換、分節し、この分節されたテキスト情報が、要素属性判定部３１１に一時的に保存されている、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係に基づいて、如何なる属性に対応するものであるかを推測し、この推測された属性に対応するサーバを特定し、この特定したサーバの中から情報を検索しているのである。

なお、図１０に示した本発明の実施形態における情報処理装置１００を構成する各機能ブロックの各動作は、コンピュータ上のプログラムに実行させることもできる。すなわち、情報処理装置１００のＣＰＵ１０７が、ＲＯＭ１０３、ＲＡＭ１０４等から構成される記憶部に格納されたプログラムをロードし、プログラムの各処理ステップが順次実行されることによって行われる。

以上説明してきたように、本発明によれば、入力される音声情報をテキスト情報に変換する手段と、変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、データベースに格納された情報に基づいて、分節されたテキスト情報から得られる属性と、属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、分節されたテキスト情報とテキスト情報から得られる属性との対応関係を一時保存する手段と、対応付けされたサーバから属性に対応する情報を検索する手段と、検索により得られた属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する手段と、情報量が所定の閾値以上であると判断すると、情報量を絞り込むための音声情報を要求する手段と、情報量を絞り込めない音声情報を獲得しても、対応関係に基づいて、音声情報を変換し、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、サーバの中から属性に対応する所定の情報量を有する情報を検索する手段と、を含むことにより、検索を継続するために必要とされる質問に対して的外れな回答が寄せられたとしても、その的外れな回答の意図を汲んで、追随して検索を継続することができるのである。

以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範囲な趣旨及び範囲から逸脱することなく、これら具体例に様々な修正及び変更が可能である。

１００情報処理装置（ＰＣ）
１０１、２０１、３０１マイク
１０２音声認識部
１０３ＲＯＭ
１０４ＲＡＭ
１０５、２１１スピーカ
１０６音声合成部
１０７ＣＰＵ
１０８表示部
１０９入力部
１１０電源部
１１１ネットワーク接続部
１１２ＨＤＤ
２０２音声信号解釈部
２０３クライアント型音声認識部
２０４クライアントアプリケーション部
２０５ディスプレイ部
２０６ネットワーク接続部
２０７、３１３ネットワーク
２０８ローカルコンテンツ部
２０９テキスト読上部
２１０クライアント型音声合成部
２１１、３１２スピーカ
３０２音声入力部
３０３テキスト解析部
３０４要素属性判定部
３０５サーバ特定部
３０６検索部
３０７サーバＡＰＩデータベース
３０８用語データベース
３０９表示部
３１０文章生成部
３１１音声出力部
４００、５００、６００、９００コンシェルジュ
７０１、７０２、・・・、７０Ｎサーバ
８００ユーザ

Claims

入力される音声情報をテキスト情報に変換する手段と、
前記変換されたテキスト情報を分節する手段と、
外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する手段と、
前記対応付けされたサーバから前記属性に対応する情報を検索する手段と、
前記検索により得られた前記属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する手段と、
前記情報量が前記所定の閾値以上であると判断すると、前記情報量を絞り込むための音声情報を要求する手段と、
前記情報量を絞り込めない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する所定の情報量を有する情報を検索する手段と、
を含むことを特徴とする情報処理装置。
入力される音声情報をテキスト情報に変換する手段と、
前記変換されたテキスト情報を分節する手段と、
外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する手段と、
前記テキスト情報から得られる属性のうち、前記サーバとの対応付けができないテキスト情報の有無を判断する手段と、
前記サーバとの対応付けができないテキスト情報の属性を確定するための音声情報を要求する手段と、
前記テキスト情報の属性を確定できない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する手段と、
を含むことを特徴とする情報処理装置。
入力される音声情報をテキスト情報に変換する手段と、
前記変換されたテキスト情報を分節する手段と、
外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する手段と、
前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する手段と、
前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する手段と、
前記不足項目を補充しない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する手段と、
を含むことを特徴とする情報処理装置。
外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置の制御方法であって、
入力される音声情報をテキスト情報に変換する工程と、
前記変換されたテキスト情報を分節する工程と、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける工程と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する工程と、
前記対応付けされたサーバから前記属性に対応する情報を検索する工程と、
前記検索により得られた前記属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する工程と、
前記情報量が前記所定の閾値以上であると判断すると、前記情報量を絞り込むための音声情報を要求する工程と、
前記情報量を絞り込めない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する所定の情報量を有する情報を検索する工程と、
を含むことを特徴とする制御方法。
外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置の制御方法であって、
入力される音声情報をテキスト情報に変換する工程と、
前記変換されたテキスト情報を分節する工程と、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける工程と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する工程と、
前記テキスト情報から得られる属性のうち、前記サーバとの対応付けができないテキスト情報の有無を判断する工程と、
前記サーバとの対応付けができないテキスト情報の属性を確定するための音声情報を要求する工程と、
前記テキスト情報の属性を確定できない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する工程と、
を含むことを特徴とする制御方法。
外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置の制御方法であって、
入力される音声情報をテキスト情報に変換する工程と、
前記変換されたテキスト情報を分節する工程と、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける工程と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する工程と、
前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する工程と、
前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する工程と、
前記不足項目を補充しない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する工程と、
を含むことを特徴とする制御方法。
外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置のコンピュータに、
入力される音声情報をテキスト情報に変換する処理と、
前記変換されたテキスト情報を分節する処理と、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける処理と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する処理と、
前記対応付けされたサーバから前記属性に対応する情報を検索する処理と、
前記検索により得られた前記属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する処理と、
前記情報量が前記所定の閾値以上であると判断すると、前記情報量を絞り込むための音声情報を要求する処理と、
前記情報量を絞り込めない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する所定の情報量を有する情報を検索する処理と、
を実現させるためのプログラム。
外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情情報処理装置のコンピュータに、
入力される音声情報をテキスト情報に変換する処理と、
前記変換されたテキスト情報を分節する処理と、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける処理と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する処理と、
前記テキスト情報から得られる属性のうち、前記サーバとの対応付けができないテキスト情報の有無を判断する処理と、
前記サーバとの対応付けができないテキスト情報の属性を確定するための音声情報を要求する処理と、
前記テキスト情報の属性を確定できない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する処理と、
を実現させるためのプログラム。
外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置のコンピュータに、
入力される音声情報をテキスト情報に変換する処理と、
前記変換されたテキスト情報を分節する処理と、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける処理と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する処理と、
前記対応付けられたサーバから前記属性に対応する情報を検索する際、前記分節されたテキスト情報が、前記検索のための必須項目をすべて満たしているか否かを判断する処理と、
前記必須項目をすべて満たしていないとき、不足項目を補充するための音声情報を要求する処理と、
前記不足項目を補充しない音声情報を獲得しても、前記対応関係に基づいて、前記音声情報を変換し、分節されたテキスト情報から推測される属性に対応する情報を保有しているサーバを特定し、前記サーバの中から前記属性に対応する情報を検索する処理と、
を実現させるためのプログラム。