JP2015060391A

JP2015060391A - ユーザのデータ入力に応じて情報提供を行うためのサーバ装置、端末装置、プログラム、システムおよび方法

Info

Publication number: JP2015060391A
Application number: JP2013193361A
Authority: JP
Inventors: 俊治栗栖; Toshiharu Kurisu; 結旗柘植; Yuki Tsuge
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-09-18
Filing date: 2013-09-18
Publication date: 2015-03-30
Anticipated expiration: 2033-09-18
Also published as: JP6162009B2

Abstract

【課題】ユーザが端末装置に対し行うデータの入力に応じて、当該データに応じた機能の実行を指示することにより当該ユーザに情報を提供する仕組みにおいて、ユーザの意図にそぐわない機能が実行される頻度を低減する仕組みを提供する。
【解決手段】端末装置はユーザの音声を表わす音声データを音声認識サーバに送信する。音声認識サーバ装置は音声データが表わす音声を認識し、キーワードを抽出する。音声認識サーバ装置は、キーワードと機能の関連性の高低を示す関連性データに従い、抽出したキーワードに関連性が高い順に第１〜第４の機能を特定する。その際、音声認識サーバは、現在時刻や端末装置の現在位置に応じた関連性データを取得し、機能の特定に用いる。端末装置は第１の機能を実行するとともに、第２〜第４の機能の実行指示を促すボタンを表示する。
【選択図】図１２

Description

本発明は、ユーザが端末装置に対し行うデータ入力に応じて、当該ユーザに情報を提供する仕組みに関する。

端末装置を介してユーザが知りたい情報を提供する技術において、提供する情報を現在時刻や当該ユーザの現在位置、現在の天気等に応じたより適切なものとする仕組みが提案されている。

例えば、特許文献１には、情報検索サーバに、ユーザが過去に行った検索において当該検索に用いられたキーワードを、当該検索が行われた時に携帯端末装置が居たエリア毎に登録しておき、情報検索サーバが携帯端末装置から現在位置情報を受信した場合、情報検索サーバが当該現在位置情報により示される位置を含むエリアに関し登録されているキーワードを携帯端末装置に送信し、携帯端末装置が当該キーワードを表示する、という仕組みが提案されている。

また、端末装置を介してユーザが知りたい情報を提供する技術において、音声認識技術を利用することにより、ユーザがキーワードを端末装置に入力する手間を軽減する仕組みがある。この仕組みによれば、ユーザが端末装置に対し発話を行うと、端末装置が当該発話の内容に応じた処理を実行する。

例えば、非特許文献１には、ユーザがスマートフォンに話しかけると、スマートフォンがユーザの意図に沿った情報を提供する、という仕組みが紹介されている。この仕組みによれば、例えばユーザがスマートフォンに「この辺のタクシーを探して！」と話しかけると、スマートフォンはユーザの現在位置でタクシーを呼べるタクシー会社の情報を表示する。

非特許文献１に紹介されている仕組みによれば、ユーザは発話により、例えば「タクシー会社の検索」といった一連の処理を端末装置に実行させることができる。本願において、「タクシー会社の検索」に例示されるような、端末装置において実行される一連の処理の種別を「機能」という。

特開２０１０−２８７０４８号公報

株式会社エヌ・ティ・ティ・ドコモ、"しゃべってコンシェルでできること"、［online］、［平成25年9月13日検索］、インターネット〈URL：http://www.nttdocomo.co.jp/service/information/shabette_concier/feature/index.html〉

非特許文献１に紹介されているような、ユーザの発話に応じて端末装置がユーザの希望する機能を実行する仕組み（以下、この仕組みを「音声エージェントシステム」という）において、例えばユーザが「カレーを食べたい」と発話したとする。この場合、このユーザは「カレー屋に行ってカレーを食べたい」のか、それとも、「自分でカレーを作って食べたい」のか、一概に判断することはできない。そこで、音声エージェントシステムは何らかの基準に従いユーザのニーズを推定し、ユーザのニーズが「カレー屋に行ってカレーを食べたい」ということであると推定した場合はカレー屋を検索するための「レストラン検索」機能を実行し、一方、ユーザのニーズが「自分でカレーを作って食べたい」ということであると推定した場合はカレーの材料を買う店を検索するための「ショップ検索」機能を実行する。

しかしながら、音声エージェントシステムが行う推定は必ずしも当たるとは限らないため、ユーザが望まない機能が実行される場合がある。例えば、上記の例において、カレーを作って食べたいユーザに対し「レストラン検索」が実行されたり、カレー屋に行きたいユーザに対し「ショップ検索」が実行されたりすることがあり、望ましくない。

本発明は上記の事情に鑑み、ユーザが端末装置に対し行うデータの入力に応じて、当該データに応じた機能を実行することにより当該ユーザに情報を提供する仕組みにおいて、ユーザの意図にそぐわない機能が実行される頻度を低減する仕組みを提供することを目的とする。

上述した課題を解決するため、本発明は、端末装置の属性、前記端末装置のユーザの属性および前記端末装置がおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得する属性データ取得手段と、複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す関連性データであって、前記属性データにより表わされる属性に応じて異なる関連性データを取得する関連性データ取得手段と、前記端末装置から、ユーザにより入力された入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを受信する受信手段と、前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し、前記属性データにより表わされる属性に応じた前記関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を特定する機能特定手段と、前記機能特定手段により特定された１以上の機能を各々識別する１以上の機能識別データを前記端末装置に送信する送信手段とを備えるサーバ装置を提供する。

上記のサーバ装置において、前記受信手段は前記ユーザの音声を表わす前記入力データを受信し、前記入力データが表わす音声が示す文章を表わす文章データを生成する文章データ生成手段と、前記文章データ生成手段により生成された文章データが表わす文章に含まれるキーワードを表わすキーワードデータを、前記機能特定手段により使用される前記キーワードデータとして生成するキーワードデータ生成手段とを備える、という構成が採用されてもよい。

また、上記のサーバ装置において、前記属性データ取得手段は、前記端末装置の現在位置を示す現在位置データ、前記端末装置の過去の移動経路を示す移動経路データ、現在時刻を示す現在時刻データ、および前記端末装置においてユーザに使用された機能の履歴を示す履歴データのうちの少なくとも１つを前記属性データとして取得する、という構成が採用されてもよい。

また、本発明は、端末装置との間でデータ通信を行う通信手段を備えるコンピュータに、端末装置の属性、前記端末装置のユーザの属性および前記端末装置がおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得する処理と、複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す関連性データであって、前記属性データにより表わされる属性に応じて異なる関連性データを取得する処理と、前記端末装置から、ユーザにより入力された入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを受信する処理と、前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し、前記属性データにより表わされる属性に応じた前記関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を特定する処理と、前記特定した１以上の機能を各々識別する１以上の機能識別データを前記端末装置に送信する処理とを実行させるプログラムを提供する。

また、本発明は、処理を実行する処理実行手段と、ユーザにより入力された入力データを取得する入力データ取得手段と、自装置の属性、前記ユーザの属性および自装置がおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得する属性データ取得手段と、前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータと、前記属性データとをサーバ装置に送信する送信手段と、前記サーバ装置から、前記送信手段による前記入力データもしくは前記キーワードデータと前記属性データとの送信に対する応答として送信されてくる、前記処理実行手段により実行され得る一連の処理の種別である複数の機能のうちの１以上の機能を各々識別する１以上の機能識別データを受信する受信手段とを備え、前記処理実行手段は、前記受信手段により受信された前記１以上の機能識別データのうちの一の機能識別データにより識別される機能を実行する端末装置を提供する。

上記の端末装置において、前記入力データ取得手段は前記ユーザの音声を表わす前記入力データを取得し、前記入力データが表わす音声が示す文章を表わす文章データを生成する文章データ生成手段と、前記文章データ生成手段により生成された文章データが表わす文章に含まれるキーワードを表わすキーワードデータを、前記送信手段により前記サーバ装置に送信される前記キーワードデータとして生成するキーワードデータ生成手段とを備える、という構成が採用されてもよい。

また、上記の端末装置において、前記処理実行手段により前記一の機能識別データにより識別される機能が実行されている間、前記１以上の機能識別データのうちの前記一の機能識別データ以外の機能識別データにより識別される機能の各々に関し、当該機能の実行指示をユーザに促す表示を表示装置に指示する表示指示手段を備える、という構成が採用されてもよい。

また、本発明は、サーバ装置との間でデータ通信を行う通信手段を備えるコンピュータに、ユーザにより入力された入力データを取得する処理と、前記コンピュータの属性、前記ユーザの属性および前記コンピュータがおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得する処理と、前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータと、前記属性データとを前記サーバ装置に送信する処理と、前記サーバ装置から、前記入力データもしくは前記キーワードデータと前記属性データとの送信に対する応答として送信されてくる、一連の処理の種別である複数の機能のうちの１以上の機能を各々識別する１以上の機能識別データを受信する処理と、前記１以上の機能識別データのうちの一の機能識別データにより識別される機能を実行する処理とを実行させるプログラムを提供する。

また、本発明は、サーバ装置と端末装置を備え、前記端末装置は、ユーザにより入力された入力データを取得する入力データ取得手段と、前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを前記サーバ装置に送信する送信手段とを備え、前記サーバ装置は、前記端末装置の属性、前記端末装置のユーザの属性および前記端末装置がおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得する属性データ取得手段と、複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す関連性データであって、前記属性データにより表わされる属性に応じて異なる関連性データを取得する関連性データ取得手段と、前記端末装置から前記入力データ、もしくは前記キーワードデータを受信する受信手段と、前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し、前記属性データにより表わされる属性に応じた前記関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を特定する機能特定手段と、前記機能特定手段により特定された１以上の機能を各々識別する１以上の機能識別データを前記端末装置に送信する送信手段とを備え、前記端末装置は、前記サーバ装置から前記１以上の機能識別データを受信する受信手段と、前記１以上の機能識別データのうちの一の機能識別データにより識別される機能を実行する処理実行手段とを備えるシステムを提供する。

また、本発明は、端末装置が、ユーザにより入力された入力データを取得するステップと、前記端末装置が、前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータをサーバ装置に送信するステップと、前記サーバ装置が、前記端末装置の属性、前記端末装置のユーザの属性および前記端末装置がおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得するステップと、前記サーバ装置が、複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す関連性データであって、前記属性データにより表わされる属性に応じて異なる関連性データを取得するステップと、前記サーバ装置が、前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し、前記属性データにより表わされる属性に応じた前記関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を特定するステップと、前記サーバ装置が、前記特定した１以上の機能を各々識別する１以上の機能識別データを前記端末装置に送信するステップと、前記端末装置が、前記１以上の機能識別データのうちの一の機能識別データにより識別される機能を実行するステップとを備える方法を提供する。

本発明によれば、ユーザが行ったデータの入力に応じてユーザの意図にそぐわない機能が端末装置において実行される頻度を低減することができる。

一実施形態にかかる音声エージェントシステムの全体構成を示した図である。一実施形態にかかる端末装置のハードウェア構成を示した図である。一実施形態にかかる端末装置の機能構成を示した図である。一実施形態にかかる音声認識サーバ装置および情報提供サーバ装置のハードウェア構成を示した図である。一実施形態にかかる音声認識サーバ装置の機能構成を示した図である。一実施形態にかかる基本関連性データの構成例を示した図である。一実施形態にかかるキーワードグループデータの構成例を示した図である。一実施形態にかかるウェイト条件データの構成例を示した図である。一実施形態にかかる自宅位置データの構成例を示した図である。一実施形態にかかる情報提供サーバ装置の機能構成を示した図である。一実施形態にかかる音声エージェントシステムの動作を示したシーケンスチャートである。一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。一変形例にかかる履歴ＤＢの構成例を示した図である。一変形例にかかる自宅／オフィス位置データの構成例を示した図である。

［実施形態］
以下に、本発明の一実施形態にかかる音声エージェントシステム１を説明する。図１は、音声エージェントシステム１の全体構成を示した図である。音声エージェントシステム１は、ユーザが携帯する端末装置である端末装置１１と、音声認識サーバ装置１２と、情報提供サーバ装置１３を備えている。音声認識サーバ装置１２は、ユーザが端末装置１１に対し音声による指示を行った場合、その意図解釈を行い、端末装置１１に対し実行すべき機能を指示する。情報提供サーバ装置１３はＷｅｂサーバ装置等の各種サーバ装置であり、端末装置１１に対し各種情報の提供を行う。端末装置１１と音声認識サーバ装置１２、端末装置１１と情報提供サーバ装置１３は各々、通信ネットワーク１９を介して互いにデータ通信を行うことができる。

なお、図１においては、端末装置１１は１つのみ例示されているが、実際には端末装置１１の数は音声エージェントシステム１を利用するユーザの数に応じて任意に変化する。また、図１においては、音声認識サーバ装置１２は１つの装置として示されているが、例えば互いに連係動作する複数の装置により音声認識サーバ装置１２が構成されてもよい。また、図１においては、情報提供サーバ装置１３は１つのみ例示されているが、実際には情報提供サーバ装置１３は多数である。

端末装置１１のハードウェア構成は、タッチディスプレイを備えた一般的なスレートデバイス型のパーソナルコンピュータのハードウェア構成と同じである。図２は、端末装置１１のハードウェア構成を示した図である。すなわち、端末装置１１は、ハードウェア構成として、メモリ１０１と、プロセッサ１０２と、通信ＩＦ（Interface）１０３と、タッチディスプレイ１０４と、マイク１０５と、ＧＰＳユニット（Global Positioning System）１０６と、クロック１０７を備えている。また、これらの構成部はバス１０９を介して互いに接続されている。

メモリ１０１は揮発性半導体メモリや不揮発性半導体メモリ等を有し、ＯＳ（Operation System）、アプリケーションプログラム、ユーザデータ等の各種データを記憶するとともに、プロセッサ１０２によるデータ処理における作業領域として利用される。プロセッサ１０２はＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の処理装置である。通信ＩＦ１０３は無線通信により通信ネットワーク１９を介して、音声認識サーバ装置１２および情報提供サーバ装置１３との間で各種データ通信を行うインタフェースである。

タッチディスプレイ１０４は、ディスプレイ１０４１とタッチパネル１０４２を有している。ディスプレイ１０４１は、例えば液晶ディスプレイであり、文字、図形、写真等を表示する。タッチパネル１０４２は、例えば静電容量方式のタッチパネルであり、指等のポインタが接触した場合、当該接触の位置を特定する。

ディスプレイ１０４１とタッチパネル１０４２は積層配置されており、ディスプレイ１０４１に表示されている画像に対しユーザがポインタを接触させる動作を行うと、実際にはタッチパネル１０４２にポインタが接触し、その位置が特定される。プロセッサ１０２は、タッチパネル１０４２により特定された位置に基づき、ディスプレイ１０４１により表示されている画像のどの部分に対しポインタの接触の動作が行われたかを特定することで、ユーザの意図した操作の内容を特定する。

マイク１０５は音を拾音し拾音した音を表わす音データを生成する装置である。音声エージェントシステム１においては、マイク１０５はユーザの音声を拾音し、音声データを生成する。ＧＰＳユニット１０６は、複数の衛星からの信号を受信し、受信した信号に基づき端末装置１１の現在位置を特定し、特定した現在位置を示す現在位置データを生成する装置である。クロック１０７は基準時刻からの経過時間を継続的に計測し、現在時刻を示す現在時刻データを生成する装置である。

上記のハードウェア構成を備える端末装置１１は、メモリ１０１に記憶されているプログラムに従う処理を行うことにより、図３に示す機能構成を備える装置として動作する。すなわち、端末装置１１は、機能構成として、ユーザの音声をマイク１０５により録音して得られる音声データを、ユーザにより入力された入力データとして取得する入力データ取得手段１１１と、ＧＰＳユニット１０６により生成される現在位置データを、端末装置１１の属性もしくは端末装置１１がおかれている環境の属性を示す属性データとして取得する属性データ取得手段１１２と、入力データ取得手段１１１が取得した音声データおよび属性データ取得手段１１２が取得した現在位置データを音声認識サーバ装置１２に送信する送信手段１１３を備える。

さらに、端末装置１１は、端末装置１１において実行可能な複数の機能のうち特定の機能を識別する機能識別データを音声認識サーバ装置１２から受信する受信手段１１４と、受信手段１１４により受信された機能識別データにより識別される機能を実行する処理実行手段１１５と、受信手段１１４により受信された機能識別データにより識別される機能の実行指示をユーザに促すボタンの表示をディスプレイ１０４１に指示する表示指示手段１１６を備える。

音声認識サーバ装置１２および情報提供サーバ装置１３のハードウェア構成は、外部の装置との間で通信ネットワーク１９を介したデータ通信が可能な一般的なコンピュータのハードウェア構成と同じである。図４は、音声認識サーバ装置１２および情報提供サーバ装置１３のハードウェア構成を示した図である。すなわち、音声認識サーバ装置１２および情報提供サーバ装置１３は、ハードウェア構成として、メモリ２０１と、プロセッサ２０２と、通信ＩＦ２０３と、クロック２０４を備えている。また、これらの構成部はバス２０９を介して互いに接続されている。

メモリ２０１は揮発性半導体メモリや不揮発性半導体メモリ等を有し、ＯＳ、アプリケーションプログラム、ユーザデータ等の各種データを記憶するとともに、プロセッサ２０２によるデータ処理における作業領域として利用される。プロセッサ２０２はＣＰＵ、ＧＰＵ等の処理装置である。通信ＩＦ２０３は通信ネットワーク１９を介して他の装置との間で各種データ通信を行うインタフェースである。クロック２０４は基準時刻からの経過時間を継続的に計測し、現在時刻を示す現在時刻データを生成する装置である。

音声認識サーバ装置１２は、自機のメモリ２０１に記憶されているプログラムに従う処理を行うことにより、図５に示す機能構成を備える装置として動作する。すなわち、音声認識サーバ装置１２は、機能構成として、まず、端末装置１１から音声データを受信する受信手段１２１と、受信手段１２１により受信された音声データが表わす音声が示す文章を認識し、認識した文章データを生成する文章データ生成手段１２２と、文章データ生成手段１２２により生成された文章データが表わす文章に含まれるキーワードを抽出し、抽出したキーワードを示すキーワードデータを生成するキーワードデータ生成手段１２３を備える。

なお、文章データ生成手段１２２が行う文章の認識の処理は、既知の音声認識処理であるため、その説明を省略する。また、キーワードデータ生成手段１２３は、文章データが表わす文章の中から、後述する基本関連性データ（図６）のデータフィールド「キーワード」に含まれるキーワードと一致する言葉をキーワードとして抽出する。

また、音声認識サーバ装置１２は、端末装置１１の現在位置を示す現在位置データと現在時刻を示す現在時刻データを取得する属性データ取得手段１２４を備える。属性データ取得手段１２４は、端末装置１１の現在位置を示す現在位置データを、受信手段１２１を介して端末装置１１から取得する。また、属性データ取得手段１２４は、現在時刻データをクロック２０４から取得する。現在位置データが示す端末装置１１の現在位置および現在時刻データが示す現在時刻は、端末装置１１の属性もしくは端末装置１１がおかれている環境の属性の一例である。

また、音声認識サーバ装置１２は、複数のキーワードの各々と、端末装置１１が実行可能な複数の機能の各々との関連性の高低をスコアとして示す関連性データを取得する関連性データ取得手段１２５を備える。本実施形態において、関連性データ取得手段１２５は、自機のメモリ２０１等（メモリ２０１、音声認識サーバ装置１２に接続された外部の記憶装置、通信ネットワーク１９を介して音声認識サーバ装置１２からアクセス可能な外部のサーバ装置等）に予め記憶されている基本関連性データに示されるスコアに対し、端末装置１１の現在位置や現在時刻に応じて特定されるウェイトを乗じて修正関連性データを生成する。関連性データ取得手段１２５はそのように生成した修正関連性データを、後述する機能特定手段１２６が機能の特定に用いる関連性データとして取得する。

関連性データ取得手段１２５は、修正関連性データを生成するために、まずメモリ２０１等から基本関連性データを読み出す。図６は、基本関連性データの構成例を示した図である。基本関連性データは、端末装置１１において実行可能な複数の機能の各々に応じたデータレコードを複数含むデータベースであり、各データレコードはデータフィールドとして「機能ＩＤ」、「機能名」、「キーワード」、「スコア」を有している。データフィールド「機能ＩＤ」には、機能を識別する機能識別データである識別ＩＤが格納される。データフィールド「機能名」には機能の名称を示すテキストデータが格納される。データフィールド「キーワード」にはキーワードを示すテキストデータが格納される。データフィールド「スコア」には、キーワードと機能の関連性の高低を示す数値データであるスコアが格納される。１つのデータレコードは、データフィールド「キーワード」および「スコア」に複数セットのデータを格納することができる。

例えば、図６に例示の第１行のデータは、「レストラン検索」という機能と「食べたい」というキーワードの関連性を示すスコアが「１０」であることを示している。また、図６に例示の第２行のデータは、「レストラン検索」という機能と「Ｇ（料理）」というキーワードの関連性を示すスコアが「５」であることを示している。ここで、データフィールド「キーワード」に格納されている「Ｇ（）」という形式のデータは、キーワードそのものではなく、キーワードグループを示すデータである。例えば、「Ｇ（料理）」はキーワードグループ「料理」を示している。

個々のキーワードグループは、メモリ２０１等に記憶されているキーワードグループデータにより特定される。図７は、キーワードグループ「料理」に関するキーワードグループデータの構成例を示した図である。

関連性データ取得手段１２５は、基本関連性データにより示されるスコアに対し、メモリ２０１に予め記憶されているウェイト条件データに従い特定されるウェイトを乗じることにより修正関連性データを生成する。

図８は、ウェイト条件データの構成例を示した図である。ウェイト条件データは、端末装置１１において実行可能な複数の機能の各々に応じたデータレコードを複数含むデータベースであり、各データレコードはデータフィールドとして「機能ＩＤ」、「機能名」、「条件」、「ウェイト」を有している。データフィールド「機能ＩＤ」および「機能名」には、識別ＩＤおよび機能の名称を示すテキストデータが格納される。１つのデータレコードは、データフィールド「条件」および「ウェイト」に複数セットのデータを格納することができる。

データフィールド「条件」には、端末装置１１の現在位置もしくは現在時刻に関する条件を示すテキストデータが格納される。データフィールド「ウェイト」には、データフィールド「条件」に示される条件が満たされた場合にスコアに乗じるウェイトが格納される。例えば、図８に例示の第１行のデータは、端末装置１１の現在位置と端末装置１１のユーザの自宅の間の距離が２０ｋｍ以上である場合、基本関連性データ（図６）により示される「レストラン検索」に対応するスコアに乗じるウェイトが「１．５」である、ということを示している。この場合のウェイト「１．５」が適用されるスコアは、図６における機能ＩＤ「Ｆ１０２５」に応じた全てのスコア、すなわち、キーワード「食べたい」に応じたスコア「１０」、キーワード「Ｇ（料理）」に応じたスコア「５」等である。

上記のように、ウェイト条件データに示される条件には端末装置１１のユーザの自宅位置に関する条件が含まれるため、メモリ２０１等には端末装置１１の各々のユーザの自宅位置を示す自宅位置データが予め記憶されている。図９は、自宅位置データの構成例を示した図である。自宅位置データは、ユーザが携帯する端末装置１１を識別する端末ＩＤと、当該ユーザの自宅の位置を示す自宅位置データを互いに対応付けたデータである。なお、音声認識サーバ装置１２は、例えば端末装置１１との通信を開始する際に端末装置１１から端末ＩＤを受信し、その後の端末装置１１との通信において端末装置１１を識別する。

関連性データ取得手段１２５は、属性データ取得手段１２４により取得された現在位置データが示す端末装置１１の現在位置と、自宅位置データが示す端末装置１１のユーザの自宅位置と、属性データ取得手段１２４により取得された現在時刻データが示す現在時刻とを用いて、ウェイト条件データに示される条件のいずれが満たされるかを特定し、満たされる条件に応じたウェイトを、基本関連性データ（図６）の対応する機能に応じたスコアに乗じる。その結果、関連性データ取得手段１２５はウェイトが反映された関連性データである修正関連性データを取得する。

図５に戻り、音声認識サーバ装置１２の機能構成の説明を続ける。音声認識サーバ装置１２は、端末装置１１において実行されるべき機能および端末装置１１においてボタンの表示が行われるべき機能を特定する機能特定手段１２６を備える。

機能特定手段１２６は、関連性データ取得手段１２５により生成された修正関連性データが示すスコアの中から、キーワードデータ生成手段１２３により生成されたキーワードデータが示すキーワードに応じたスコア（ウェイトが乗じられたもの）を抽出し、抽出したそれらのスコアを機能毎に合算する。続いて、機能特定手段１２６は合算後のスコアが高い順に所定数の機能を特定する。本実施形態において、機能特定手段１２６が特定する機能の数は４つであり、以下、それらの機能をスコアが高い順に「第１の機能」、「第２の機能」、「第３の機能」、「第４の機能」という。

また、音声認識サーバ装置１２は、機能特定手段１２６により特定された第１の機能において用いられるパラメータを示すパラメータデータを生成するパラメータデータ生成手段１２７を備える。パラメータデータ生成手段１２７は、文章データ生成手段１２２により生成される文章データが表わす文章の意図解釈を行い、キーワードデータ生成手段１２３により生成されたキーワードデータが示すキーワードのうち、第１の機能において用いられるパラメータに適するものを特定する。

例えば、第１の機能が「乗換案内」であり、ユーザにより発話された文章が「銀座に行きたい」であれば、パラメータデータ生成手段１２７はユーザにより発話された文章に含まれるキーワード「銀座」が目的地を示すことを意図解釈により特定し、銀座（エリア）の最寄り駅が銀座駅であることを特定する。そして、パラメータデータ生成手段１２７は「目的駅＝銀座駅」というデータをパラメータデータとして生成する。

なお、パラメータデータ生成手段１２７が行う文章の意図解釈の処理や、ある場所の最寄り駅を特定する処理等は既知の処理であるため、その説明を省略する。

音声認識サーバ装置１２は、さらに、機能特定手段１２６により特定された第１の機能〜第４の機能を各々識別する機能ＩＤ（以下、例えば第１の機能の機能ＩＤを「第１の機能ＩＤ」のようにいう）と、パラメータデータ生成手段１２７により生成されたパラメータデータを端末装置１１に送信する送信手段１２８を備える。以上が音声認識サーバ装置１２の機能構成である。

情報提供サーバ装置１３は、自機のメモリ２０１に記憶されているプログラムに従う処理を行うことにより、図１０に示す機能構成を備える装置として動作する。すなわち、情報提供サーバ装置１３は、機能構成として、端末装置１１からデータ処理の要求を示す要求データを受信する受信手段１３１と、受信手段１３１により受信された要求データに従いデータ処理を実行する処理実行手段１３２と、処理実行手段１３２により実行されたデータ処理の結果を示す結果データを端末装置１１に送信する送信手段１３３を備える。以上が音声エージェントシステム１の構成の説明である。

続いて、ユーザが音声により端末装置１１に対し機能の実行指示を行う場合の音声エージェントシステム１の動作を説明する。図１１は、音声エージェントシステム１の動作を示したシーケンスチャートである。また、図１２は、図１１のシーケンスに従った動作において端末装置１１のディスプレイ１０４１に表示される画面を例示した図である。

まず、ユーザが端末装置１１を操作して図１２（ａ）の画面をディスプレイ１０４１に表示させた状態で、例えば「カレーを食べたい」といった発話を行うと、端末装置１１は当該発話の音声を録音、すなわち当該音声を表わす音声データの生成を行う（ステップＳ１０１）。

続いて、端末装置１１はステップＳ１０１で生成した音声データを、ＧＰＳユニット１０６により生成された端末装置１１の現在位置を示す現在位置データとともに、音声認識サーバ装置１２に送信する（ステップＳ１０２）。音声認識サーバ装置１２は端末装置１１から音声データと現在位置データを受信する（ステップＳ１０３）。続いて、音声認識サーバ装置１２はステップＳ１０３において受信した音声データが表わす音声を認識、すなわち当該音声が示す文章を特定し、特定した文章を表わす文章データを生成する（ステップＳ１０４）。

続いて、音声認識サーバ装置１２はステップＳ１０４において生成した文章データが表わす文章からキーワードを抽出し、それらのキーワードを示すキーワードデータを生成する（ステップＳ１０５）。続いて、音声認識サーバ装置１２は、修正関連性データを生成する（ステップＳ１０６）。

続いて、音声認識サーバ装置１２はステップＳ１０６において生成した修正関連性データと、ステップＳ１０５において生成したキーワードデータに基づき、第１の機能〜第４の機能を特定する（ステップＳ１０７）。続いて、音声認識サーバ装置１２は、ステップＳ１０４において生成した文章データが示す文章の意図解釈を行い、ステップＳ１０７において特定した第１の機能に応じたパラメータを特定する（ステップＳ１０８）。

続いて、音声認識サーバ装置１２は、ステップＳ１０７において特定した第１の機能〜第４の機能を各々識別する第１の機能ＩＤ〜第４の機能ＩＤと、ステップＳ１０８において特定したパラメータを示すパラメータデータを端末装置１１に送信する（ステップＳ１０９）。端末装置１１はそれらのデータを受信する（ステップＳ１１０）。

端末装置１１は、ステップＳ１１０において受信した第１の機能ＩＤにより識別される機能を実行する（ステップＳ１１１）。その際、端末装置１１はステップＳ１１０において受信したパラメータデータを用いる。また、ステップＳ１１１において、端末装置１１は必要に応じて情報提供サーバ装置１３とデータ通信を行い、第１の機能の実行において必要なデータを取得する。

端末装置１１は第１の機能の実行（ステップＳ１１１）と同時に、ステップＳ１１０において受信した第２の機能ＩＤ〜第４の機能ＩＤにより識別される機能に応じたボタンを表示する（ステップＳ１１２）。

図１２（ｂ）は、例えばユーザが平日のランチタイムに自宅から遠く離れた場所で図１２（ａ）の画面を表示している端末装置１１に対し「カレーを食べたい」と発話した場合に、ステップＳ１１２が完了した時点で端末装置１１に表示される画面を例示している。また、図１２（ｃ）は、例えばユーザが休日の午後３時頃に自宅で図１２（ａ）の画面を表示している端末装置１１に対し「カレーを食べたい」と発話した場合に、ステップＳ１１２が完了した時点で端末装置１１に表示される画面を例示している。

図１２（ｂ）および（ｃ）の画面において、領域Ａ０１には第１の機能の実行に伴う情報が表示され、領域Ａ０２には第２の機能〜第４の機能に応じたボタンが表示される。図１２（ｂ）においては「レストラン検索」が第１の機能として実行され、その情報が領域Ａ０１に表示されている。また、図１２（ｂ）においては、「レシピ検索」、「カロリー計算」、「用語検索」の各機能の実行指示を促すボタンが領域Ａ０２に表示されている。一方、図１２（ｃ）においては「レシピ検索」が第１の機能として実行され、その情報が領域Ａ０１に表示されている。また、図１２（ｃ）においては、「レストラン検索」、「カロリー計算」、「用語検索」の各機能の実行指示を促すボタンが領域Ａ０２に表示されている。

図１２（ｂ）および（ｃ）に示されるように、図１２（ａ）の画面を表示している端末装置１１に対しユーザが同じ発話を行っても、現在時刻や端末装置１１の現在位置に応じて、端末装置１１により実行される機能（第１の機能）やボタン表示される機能（第２の機能〜第４の機能）が異なり得る。これは、現在時刻や端末装置１１の現在位置に応じて異なる修正関連性データが生成され、第１の機能〜第４の機能に用いられるためである。

以上説明したように、音声エージェントシステム１によれば、ユーザが音声により端末装置１１に対し機能の実行を指示した場合、現在時刻や端末装置１１の現在位置といった端末装置の属性、ユーザの属性、もしくは端末装置がおかれている環境の属性等に応じて最も適切と推定される機能が自動的に実行される。そのため、それらの属性が考慮されることなく機能の選択および実行が行われる場合と比較し、ユーザの発話の意図にそぐわない機能が端末装置１１において実行されてしまう、という不都合が低減される。

また、音声エージェントシステム１によれば、ユーザが音声により端末装置１１に対し機能の実行を指示した場合、現在時刻や端末装置１１の現在位置に応じて２番目〜４番目に適切と推定される機能の実行指示を促すボタンが表示される。そのため、仮に最も適切と推定されて自動的に実行された機能がユーザの発話の意図にそぐわないものであったとしても、多くの場合、ユーザはそれらのボタンのいずれかをタッチ操作等することにより意図する機能を端末装置１１に実行させることができる。

［変形例］
上述した音声エージェントシステム１は本発明の一実施形態であって、本発明の技術的思想の範囲内において様々に変形することができる。以下にそれらの変形の例を示す。なお、上述した実施形態および下記の変形例は適宜組み合わされてもよい。

［第１変形例］
上述した実施形態においては、基本関連性データ（図６）が示すスコアに対し、ウェイト条件データ（図８）に示される条件のうち満たされる条件に応じたウェイトを乗じることにより、修正関連性データが生成される構成が採用されている。第１変形例においては、これに代えて、もしくは加えて、ユーザが過去に使用した機能の履歴を示す履歴データに基づき算出されるウェイトを、基本関連性データが示すスコアに対し乗じることにより、修正関連性データの生成が行われる。

履歴データの生成のため、第１変形例において、端末装置１１はユーザが使用した機能を特定する。端末装置１１は、例えば以下のように、ユーザが使用した機能を特定する。

まず、ユーザが音声により端末装置１１に対し機能の実行指示を行った後、端末装置１１のディスプレイ１０４１に表示される画面において、第１の機能に関する情報が領域Ａ０１に表示された後、第１の機能に関する何らかの操作（例えば、パラメータの変更や表示されている情報のスクロール等）が行われた場合、端末装置１１はユーザが第１の機能を使用したと判定し、第１の機能を実際に使用された機能として特定する。

また、第１の機能に関する情報が領域Ａ０１に表示された後、その表示が所定時間（例えば２０秒間）以上維持された場合、ユーザが第１の機能に関する情報を閲覧していたものと推定されるため、端末装置１１は第１の機能を実際に使用された機能として特定する。

また、第１の機能に関する情報が領域Ａ０１に表示された後、上記の所定時間（例えば２０秒間）が経過する前に第１の機能ではない機能の実行指示がユーザにより行われた場合、第１の機能はユーザが意図していた機能ではなかったと推定されるため、端末装置１１はユーザにより実行指示が行われた機能を使用された機能として特定する。例えば、ユーザが発話の後、ディスプレイ１０４１に表示される画面において速やかに第２の機能〜第４の機能のボタンのいずれかをタッチ操作した場合、端末装置１１はユーザによりタッチ操作の行われた機能を使用された機能として特定する。

端末装置１１は、上記のように特定した機能の機能ＩＤを、その時点においてＧＰＳユニット１０６により生成された現在位置データとともに、音声認識サーバ装置１２に送信する。音声認識サーバ装置１２は、端末装置１１から受信した機能ＩＤ（使用された機能を識別する識別ＩＤ）と現在位置データ、および、その時点においてクロック２０４により生成された現在時刻データに基づき、履歴データを生成する。

図１３は、音声認識サーバ装置１２が生成した履歴データを管理するためのデータベースである履歴ＤＢ（Database）の構成例を示した図である。履歴ＤＢは端末装置１１の各々に応じたデータテーブルの集まりであり、各データテーブルは、過去の所定期間（例えば、６か月間）に使用された機能の実行前にユーザにより発話された文章に含まれるキーワードの各々に応じたデータレコードが含まれている。履歴ＤＢに含まれるデータレコードは、データフィールドとして、「日付」、「時間帯」、「休日／平日」、「場所」、「キーワード」、「機能ＩＤ」を有している。

データフィールド「日付」は、機能が実行された日付を示すデータを格納する。データフィールド「時間帯」は、機能が実行された時間帯を示す「午前」、「ランチタイム」、「午後」、「ディナータイム」、「夜間」のいずれかを格納する。なお、例えば「午前」は５：００〜１１：００、「ランチタイム」は１１：００〜１３：３０、のように、互いに重複する時間帯を持たないように定義されている。

データフィールド「平日／休日」は、機能が実行された日が平日であることを示す「へ実」と、機能が実行された日が休日であることを示す「休日」のいずれかを格納する。データフィールド「場所」は、機能が実行された時に端末装置１１が配置されていた場所を示す「自宅」、「オフィス」、「自宅／オフィス以外」、「不明」のいずれかを格納する。なお、「不明」とは、例えば端末装置１１においてＧＰＳユニット１０６がＯＦＦされている、もしくは端末装置１１が地下等の測位不能な場所にある、といった理由でＧＰＳユニット１０６により現在位置データの生成が行われず、音声認識サーバ装置１２が端末装置１１から現在位置データを受信できなかったことを示す。

データフィールド「キーワード」は、ユーザにより発話された文章に含まれるキーワードを示すテキストデータを格納する。なお、１つのデータレコードのデータフィールド「キーワード」には１つのキーワードが格納される。従って、例えばユーザが「カレーを食べたい」と発話した場合、キーワード「カレー」に応じたデータレコードと、キーワード「食べたい」に応じたデータレコードの２つが履歴ＤＢの端末装置１１のデータテーブルに追加されることになる。データフィールド「機能ＩＤ」は、使用された機能の機能ＩＤを格納する。

音声認識サーバ装置１２は、現在時刻データに基づきデータフィールド「日付」および「時間帯」に格納すべきデータを生成し格納する。また、音声認識サーバ装置１２は、予めメモリ２０１等に記憶されているカレンダーデータ（平日と休日の別を示すデータ）と現在時刻データに基づきデータフィールド「平日／休日」に格納すべきデータを生成し格納する。なお、カレンダーデータは端末装置１１毎に管理され、祝日等に加え、端末装置１１のユーザの定期的な休日（例えば、日曜日と水曜日が毎週休日である、等）を示す。

音声認識サーバ装置１２は、端末装置１１の各々のユーザに関し当該ユーザの自宅の位置およびオフィスの位置を示す自宅／オフィス位置データと端末装置１１から受信した現在位置データに基づき、データフィールド「場所」に格納すべきデータを生成し格納する。図１４は、上述した実施形態において使用される自宅位置データ（図９）に代えてメモリ２０１等に記憶されている自宅／オフィス位置データの構成例を示した図である。自宅／オフィス位置データは、ユーザが携帯する端末装置１１を識別する端末ＩＤと、当該ユーザの自宅の位置を示す自宅位置データと、当該ユーザのオフィスの位置を示すオフィス位置データを互いに対応付けたデータである。

音声認識サーバ装置１２は、端末装置１１から使用された機能の機能ＩＤを受信した時点において直前に端末装置１１から受信した音声データが表わす音声が示す文章に含まれるキーワードを示すキーワードデータ（図１１のステップＳ１０５において生成したデータ）をデータフィールド「キーワード」に格納する。ただし、キーワードデータが示すキーワードが例えば「カレー」である場合、音声認識サーバ装置１２はこのキーワードが属するキーワードグループ「Ｇ（料理）」をデータフィールド「キーワード」に格納する。また、キーワードデータが複数のキーワードを示す場合、音声認識サーバ装置１２はそれらのキーワードの各々に応じたデータレコードを生成し、それらのデータレコードのデータフィールド「キーワード」に各キーワードを示すデータを格納する。また、それらのデータレコードの「キーワード」以外のデータフィールドにはデータレコード間で同じデータが格納される。

音声認識サーバ装置１２は、端末装置１１から受信した使用された機能の機能ＩＤをデータフィールド「機能ＩＤ」に格納する。以上が履歴ＤＢの説明である。

第１変形例において、音声認識サーバ装置１２の関連性データ取得手段１２５は、図１１のステップＳ１０６において、上述した履歴ＤＢに含まれる履歴データを用いて例えば以下のようにウェイトを算出し、基本関連性データが示すスコアに乗じることにより、修正関連性データを生成する。

まず、関連性データ取得手段１２５はその時点でクロック２０４により生成された現在時刻データに基づき、現在の時間帯を特定する。また、関連性データ取得手段１２５は、現在時刻データおよびカレンダーデータに基づき、平日／休日の別を特定する。また、関連性データ取得手段１２５は、自宅／オフィス位置データとステップＳ１０３において端末装置１１から受信した現在位置データに基づき、現在の端末装置１１の位置が自宅、オフィス、自宅／オフィス以外、不明のいずれであるかを特定する。

続いて、関連性データ取得手段１２５は、上記のように特定した時間帯、平日／休日、場所と、ステップＳ１０５においてキーワードデータ生成手段１２３により生成されたキーワードデータが示すキーワードの各々とに応じたデータレコードを履歴ＤＢ（図１３）から抽出し、抽出したデータレコードをデータフィールド「機能ＩＤ」毎にグループ化し、各機能ＩＤに応じたデータレコードの数をカウントする。

例えば、端末装置１１に対しユーザが平日のランチタイムにオフィスにて「カレーが食べたい」と発話した場合、関連性データ取得手段１２５は履歴ＤＢから、「時間帯＝ランチタイムａｎｄ平日／休日＝平日ａｎｄ場所＝オフィスａｎｄ（キーワード＝Ｇ（料理）ｏｒ食べたい）」という検索条件を満たすデータレコードを抽出し、抽出したデータレコードを「機能ＩＤ」毎にグループ化してその数をカウントする。その結果、例えば「レストラン検索」機能を識別する機能ＩＤ「Ｆ１０２５」のデータレコードの数は８個、「レシピ検索」機能を識別する機能ＩＤ「Ｆ０１０３」は２５個といった具合に、機能ＩＤ毎のデータレコード数が特定される。

続いて、関連性データ取得手段１２５は、上記のように機能ＩＤ毎に特定したデータレコード数に所定数（例えば０．０１）を乗じた数を１に加算して、機能ＩＤ毎のウェイトを算出する。例えば、機能ＩＤ「Ｆ１０２５」のデータレコード数が８個である場合、機能ＩＤ「Ｆ１０２５」のウェイトは「１．０８」（１＋８×０．０１＝１．０８）となる。また、機能ＩＤ「Ｆ０１０３」のデータレコード数が５０個である場合、機能ＩＤ「Ｆ０１０３」のウェイトは「１．５」（１＋５０×０．０１＝１．５）となる。

関連性データ取得手段１２５は、上記のように機能ＩＤ毎に算出したウェイトを、基本関連性データ（図６）が示す当該機能ＩＤに応じたスコアの各々に乗じることにより、修正関連性データを生成する。

例えば、機能ＩＤ「Ｆ１０２５」のウェイトが「１．０８」である場合、図６に例示されている機能ＩＤ「Ｆ１０２５」とキーワード「食べたい」の組み合わせに応じたスコア「１０」はウェイト「１．０８」が乗じられて「１０．８」に修正され、機能ＩＤ「Ｆ１０２５」とキーワード「Ｇ（料理）」の組み合わせに応じたスコア「５」はウェイト「１．０８」が乗じられて「５．４」に修正される。

また、例えば、機能ＩＤ「Ｆ０１０３」のウェイトが「１．５」である場合、図６に例示されている機能ＩＤ「Ｆ０１０３」とキーワード「食べたい」の組み合わせに応じたスコア「８」はウェイト「１．５」が乗じられて「１２」に修正され、機能ＩＤ「Ｆ１０２５」とキーワード「Ｇ（料理）」の組み合わせに応じたスコア「５」はウェイト「１．５」が乗じられて「７．５」に修正される。

第１変形例においては、上記のように生成される修正関連性データが機能の特定（図１１のステップＳ１０７）において用いられる。従って、例えば、端末装置１１の使用が開始されたばかりであり、まだ履歴ＤＢに１つも履歴データが格納されていない状態で、ユーザが平日のランチタイムにオフィスにて「カレーが食べたい」と発話した場合、基本関連性データがそのまま機能の特定に用いられて、端末装置１１には図１２（ｂ）に示す画面（「レストラン検索」機能が第１の機能として実行された画面）が表示される。

一方、ユーザが過去の所定期間（例えば、６か月間）に、平日のランチタイムにオフィスにて「○○が食べたい」（ただし、「○○」は料理名）と発話した後、「レストラン検索」機能は８回に対し「レシピ検索」機能は５０回、という具合に「レシピ検索」機能をより高い頻度で使用した場合、履歴データが反映された修正関連性データが機能の特定に用いられて、端末装置１１には図１２（ｃ）に示す画面（「レシピ検索」機能が第１の機能として実行された画面）が表示される。

上記のように、第１変形例によれば、ユーザが端末装置１１に対し音声により機能の実行指示を行った場合、ユーザが過去に使用した機能の履歴に応じた適切な機能が端末装置１１において実行される。

［その他の変形例］
（１）上述した実施形態および変形例においては、関連性データ取得手段１２５は、基本関連性データが示すスコアにウェイトを乗じて生成した修正関連性データを、機能特定手段１２６により用いられる関連性データとして取得する。このウェイトを乗じる方法は、現在時刻や端末装置１１の現在位置、ユーザが使用した機能の履歴等の属性に応じて異なる関連性データを取得する方法の一例であって、例えば、自宅用の関連性データと自宅以外用の関連性データのように属性毎に異なる関連性データを予めメモリ２０１等に記憶しておき、関連性データ取得手段１２５がこれらの関連性データを読み出すことにより取得する構成が採用されてもよい。

（２）上述した実施形態においては、機能の特定に用いられる関連性データが、現在時刻および端末装置１１の現在位置に応じて異なる構成が採用されている。また、上述した第１変形例においては、機能の特定に用いられる関連性データが、使用された機能の履歴に応じて異なる構成が採用されている。現在時刻、端末装置１１の現在位置および使用された機能の履歴は、機能の特定に用いられる関連性データに反映されるべき属性の例であって、端末装置１１の属性、端末装置１１のユーザの属性、もしくは端末装置１１がおかれている環境の属性であれば、他の属性が関連性データに反映されるべき属性として採用されてもよい。

例えば、過去の所定期間（例えば１時間）にＧＰＳユニット１０６により生成された現在位置データを時系列的に並べたものを移動経路データとして記憶しておき、移動経路データに基づき、端末装置１１が現在、自宅に向かっているか否かを判定し、その判定結果に応じて異なる関連性データを機能の特定に用いる構成が採用されてもよい。この場合、例えば端末装置１１が自宅に向かって移動している場合には「レストラン検索」機能よりも「レシピ検索」機能を優先的に第１の機能として実行する、といった動作を端末装置１１に行わせることができる。

（３）上述した基本関連性データ（図６）およびウェイト条件データ（図８）の少なくとも一方を、例えば全てのユーザが過去の所定期間内に使用した機能の履歴に基づき修正する構成が採用されてもよい。

（４）上述した実施形態および変形例においては、端末装置１１の現在位置はＧＰＳユニット１０６により特定される。これに代えて、例えば端末装置１１が無線通信を行うために接続する無線基地局の位置を示す位置データを用いる等、他の種別の位置データが用いられてもよい。

（５）上述した実施形態および変形例においては、端末装置１１が音声認識サーバ装置１２に対し音声データを送信し、音声認識サーバ装置１２において音声データが表わす音声が示す文章の特定（音声認識）が行われる。これに代えて、端末装置１１が文章データ生成手段１２２と同様の構成部を備え、端末装置１１において文章の特定が行われる構成が採用されてもよい。この場合、端末装置１１から音声認識サーバ装置１２に対し、文章データが送信されることになる。

さらに、端末装置１１がキーワードデータ生成手段１２３と同様の構成部を備え、端末装置１１において文章からキーワードの抽出が行われる構成が採用されてもよい。この場合、端末装置１１から音声認識サーバ装置１２に対し、キーワードデータが送信されることになる。

（６）上述した第１変形例において採用されているウェイトの算出方法は例示であって、他のウェイトの算出方法が採用されてもよい。例えば、履歴ＤＢ（図１３）のデータフィールド「日付」のデータに基づき、例えば過去１か月以内に使用された機能に関するデータレコードの数には０．０１５を乗じ、１か月前〜３か月前までの期間に使用された機能に関するデータレコードの数には０．０１２を乗じ、３か月前〜６か月前までの期間に使用された機能に関するデータレコードの数には０．０１０を乗じて、それらの合算値を１に加算することによってウェイトを算出する、といった構成が採用されてもよい。この場合、最近に使用された機能の数が、かなり前に使用された機能の数よりもより強く、ユーザの音声に従い新たに実行もしくはボタン表示される機能の特定に反映されることになる。

（７）上述した実施形態および変形例においては、ユーザは第１の機能を指定するためのデータ入力として、端末装置１１のマイク１０５に対し発話を行い、当該発話の音声を示す音声データが入力データとして利用される。ユーザが第１の機能を指定するために端末装置１１にデータを入力する方法は発話に限られず、また、入力データの形式も音声データに限られない。例えば、ユーザが発話に代えて、端末装置１１に対し、キーボード（タッチディスプレイ１０４に表示される仮想的なキーボード、端末装置１１に接続された機械的なキーボード等）等の入力デバイスを用いて文書を入力し、当該文章を示す文章データが入力データとして用いられてもよい。この場合、音声認識サーバ装置１２に相当するサーバ装置は、文章データ生成手段１２２を要さず、キーワードデータ生成手段１２３が受信手段１２１により受信された文章データを用いてキーワードデータを生成するように構成されることになる。

（８）上述した実施形態および変形例においては、端末装置１１、音声認識サーバ装置１２および情報提供サーバ装置１３は一般的なコンピュータに、本発明にかかるプログラムに従った処理を実行させることにより、実現されるものとした。これに代えて、端末装置１１、音声認識サーバ装置１２および情報提供サーバ装置１３うちの１以上を、いわゆる専用機として構成してもよい。

本発明は、上述した音声エージェントシステムに例示されるシステム、当該システムを構成する端末装置および音声認識サーバ装置に例示されるサーバ装置、これらの装置が行なう処理の方法、コンピュータをこれらの装置として機能させるためのプログラム、当該プログラムをコンピュータ読取可能に記録した不揮発性の記録媒体、といった形態で把握される。なお、本発明にかかるプログラムは、記録媒体を介する他、インターネットなどのネットワークを介してコンピュータに提供されてもよい。

１…音声エージェントシステム、１１…端末装置、１２…音声認識サーバ装置、１３…情報提供サーバ装置、１９…通信ネットワーク、１０１…メモリ、１０２…プロセッサ、１０３…通信ＩＦ、１０４…タッチディスプレイ、１０５…マイク、１０６…ＧＰＳユニット、１０７…クロック、１０９…バス、１１１…入力データ取得手段、１１２…属性データ取得手段、１１３…送信手段、１１４…受信手段、１１５…処理実行手段、１１６…表示指示手段、１２１…受信手段、１２２…文章データ生成手段、１２３…キーワードデータ生成手段、１２４…属性データ取得手段、１２５…関連性データ取得手段、１２６…機能特定手段、１２７…パラメータデータ生成手段、１２８…送信手段、１３１…受信手段、１３２…処理実行手段、１３３…送信手段、２０１…メモリ、２０２…プロセッサ、２０３…通信ＩＦ、２０４…クロック、２０９…バス、１０４１…ディスプレイ、１０４２…タッチパネル

Claims

端末装置の属性、前記端末装置のユーザの属性および前記端末装置がおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得する属性データ取得手段と、
複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す関連性データであって、前記属性データにより表わされる属性に応じて異なる関連性データを取得する関連性データ取得手段と、
前記端末装置から、ユーザにより入力された入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを受信する受信手段と、
前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し、前記属性データにより表わされる属性に応じた前記関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を特定する機能特定手段と、
前記機能特定手段により特定された１以上の機能を各々識別する１以上の機能識別データを前記端末装置に送信する送信手段と
を備えるサーバ装置。
前記受信手段は前記ユーザの音声を表わす前記入力データを受信し、
前記入力データが表わす音声が示す文章を表わす文章データを生成する文章データ生成手段と、
前記文章データ生成手段により生成された文章データが表わす文章に含まれるキーワードを表わすキーワードデータを、前記機能特定手段により使用される前記キーワードデータとして生成するキーワードデータ生成手段と
を備える請求項１に記載のサーバ装置。
前記属性データ取得手段は、前記端末装置の現在位置を示す現在位置データ、前記端末装置の過去の移動経路を示す移動経路データ、現在時刻を示す現在時刻データ、および前記端末装置においてユーザに使用された機能の履歴を示す履歴データのうちの少なくとも１つを前記属性データとして取得する
請求項１または２に記載のサーバ装置。
端末装置との間でデータ通信を行う通信手段を備えるコンピュータに、
端末装置の属性、前記端末装置のユーザの属性および前記端末装置がおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得する処理と、
複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す関連性データであって、前記属性データにより表わされる属性に応じて異なる関連性データを取得する処理と、
前記端末装置から、ユーザにより入力された入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを受信する処理と、
前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し、前記属性データにより表わされる属性に応じた前記関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を特定する処理と、
前記特定した１以上の機能を各々識別する１以上の機能識別データを前記端末装置に送信する処理と
を実行させるプログラム。
処理を実行する処理実行手段と、
ユーザにより入力された入力データを取得する入力データ取得手段と、
自装置の属性、前記ユーザの属性および自装置がおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得する属性データ取得手段と、
前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータと、前記属性データとをサーバ装置に送信する送信手段と、
前記サーバ装置から、前記送信手段による前記入力データもしくは前記キーワードデータと前記属性データとの送信に対する応答として送信されてくる、前記処理実行手段により実行され得る一連の処理の種別である複数の機能のうちの１以上の機能を各々識別する１以上の機能識別データを受信する受信手段と
を備え、
前記処理実行手段は、前記受信手段により受信された前記１以上の機能識別データのうちの一の機能識別データにより識別される機能を実行する
端末装置。
前記入力データ取得手段は前記ユーザの音声を表わす前記入力データを取得し、
前記入力データが表わす音声が示す文章を表わす文章データを生成する文章データ生成手段と、
前記文章データ生成手段により生成された文章データが表わす文章に含まれるキーワードを表わすキーワードデータを、前記送信手段により前記サーバ装置に送信される前記キーワードデータとして生成するキーワードデータ生成手段と
を備える請求項５に記載の端末装置。
前記処理実行手段により前記一の機能識別データにより識別される機能が実行されている間、前記１以上の機能識別データのうちの前記一の機能識別データ以外の機能識別データにより識別される機能の各々に関し、当該機能の実行指示をユーザに促す表示を表示装置に指示する表示指示手段
を備える請求項５または６に記載の端末装置。
サーバ装置との間でデータ通信を行う通信手段を備えるコンピュータに、
ユーザにより入力された入力データを取得する処理と、
前記コンピュータの属性、前記ユーザの属性および前記コンピュータがおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得する処理と、
前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータと、前記属性データとを前記サーバ装置に送信する処理と、
前記サーバ装置から、前記入力データもしくは前記キーワードデータと前記属性データとの送信に対する応答として送信されてくる、一連の処理の種別である複数の機能のうちの１以上の機能を各々識別する１以上の機能識別データを受信する処理と、
前記１以上の機能識別データのうちの一の機能識別データにより識別される機能を実行する処理と
を実行させるプログラム。
サーバ装置と端末装置を備え、
前記端末装置は、
ユーザにより入力された入力データを取得する入力データ取得手段と、
前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを前記サーバ装置に送信する送信手段と
を備え、
前記サーバ装置は、
前記端末装置の属性、前記端末装置のユーザの属性および前記端末装置がおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得する属性データ取得手段と、
複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す関連性データであって、前記属性データにより表わされる属性に応じて異なる関連性データを取得する関連性データ取得手段と、
前記端末装置から前記入力データ、もしくは前記キーワードデータを受信する受信手段と、
前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し、前記属性データにより表わされる属性に応じた前記関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を特定する機能特定手段と、
前記機能特定手段により特定された１以上の機能を各々識別する１以上の機能識別データを前記端末装置に送信する送信手段と
を備え、
前記端末装置は、
前記サーバ装置から前記１以上の機能識別データを受信する受信手段と、
前記１以上の機能識別データのうちの一の機能識別データにより識別される機能を実行する処理実行手段と
を備える
システム。
端末装置が、ユーザにより入力された入力データを取得するステップと、
前記端末装置が、前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータをサーバ装置に送信するステップと、
前記サーバ装置が、前記端末装置の属性、前記端末装置のユーザの属性および前記端末装置がおかれている環境の属性のうちの少なくとも１つを表わす属性データを取得するステップと、
前記サーバ装置が、複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す関連性データであって、前記属性データにより表わされる属性に応じて異なる関連性データを取得するステップと、
前記サーバ装置が、前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し、前記属性データにより表わされる属性に応じた前記関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を特定するステップと、
前記サーバ装置が、前記特定した１以上の機能を各々識別する１以上の機能識別データを前記端末装置に送信するステップと、
前記端末装置が、前記１以上の機能識別データのうちの一の機能識別データにより識別される機能を実行するステップと
を備える方法。