JP6154489B2

JP6154489B2 - ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、およびサーバ装置

Info

Publication number: JP6154489B2
Application number: JP2015555870A
Authority: JP
Inventors: 俊治栗栖; 結旗柘植
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-01-06
Filing date: 2014-12-24
Publication date: 2017-06-28
Anticipated expiration: 2034-12-24
Also published as: EP3093842B1; CN105874531A; WO2015102082A1; US20170004829A1; JPWO2015102082A1; EP3093842A1; EP3093842A4; CN105874531B

Description

本発明は、ユーザが端末装置に対し行うデータ入力に応じて、当該ユーザに情報を提供する仕組みに関する。

端末装置のユーザが音声により指示を行うと、端末装置が当該指示に従った処理を行う仕組み（以下、この仕組みを「音声エージェントシステム」という）がある。

例えば、非特許文献１には、音声エージェントシステムの動作例として、ユーザがスマートフォンに「この辺のタクシーを探して！」と話しかけると、スマートフォンがユーザの今いる場所でタクシーを呼べるタクシー会社の情報を表示する、という動作等が紹介されている。

株式会社エヌ・ティ・ティ・ドコモ、"しゃべってコンシェルでできること"、［online］、［平成25年10月18日検索］、インターネット〈URL：http://www.nttdocomo.co.jp/service/information/shabette_concier/feature/index.html〉

音声エージェントシステムによれば、ユーザは音声により端末装置に対し所望する処理の実行を指示することができる。音声による指示（以下、「音声指示」という）は、一般的に文字の入力等による指示と比較し手間が少ないが、音声指示に慣れていないユーザにとっては、どのような発話を行えば端末装置が正しく指示に従った処理を実行してくれるか分からない場合がある。また、音声指示に慣れたユーザであっても、咄嗟に自分の望む処理を指示するための望ましい発話の内容を思いつかない場合がある。

本発明は上記の事情に鑑み、ユーザが音声指示を行う際の困難を軽減することを目的とする。

上述した課題を解決するため、本発明は、ユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを取得する属性データ取得手段と、前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得する促し文データ取得手段と、前記促し文データが示す文の表示を表示装置に指示する表示指示手段と、前記表示装置による前記促し文データが示す文の表示に応じて前記ユーザが発した音声を示す音声データを取得する音声データ取得手段と、前記音声データが表す指示に応じて複数の機能の中から特定された機能と当該機能を用いた処理とを識別する処理識別データを取得する処理識別データ取得手段と、前記処理識別データにより識別される機能を用いた前記処理識別データにより識別される処理を実行する処理実行手段とを備える端末装置を提供する。

上記の端末装置において、前記属性データおよび前記音声データをサーバ装置に送信する送信手段を備え、前記促し文データ取得手段は、前記送信手段による前記属性データの送信に対する応答として前記サーバ装置から送信されてくる前記促し文データを受信し、前記処理識別データ取得手段は、前記送信手段による前記音声データの送信に対する応答として前記サーバ装置から送信されてくる前記処理識別データを受信する、という構成が採用されてもよい。

また、上記の端末装置において、前記送信手段は前記音声データが前記音声データ取得手段により取得されたときに前記表示装置により表示されていた文を示す前記促し文データを識別する促し文識別データを前記サーバ装置に送信し、前記処理識別データ取得手段は、前記音声データおよび前記促し文識別データの送信に対する応答として前記サーバ装置から送信されてくる、前記音声データが表す指示および前記促し文識別データにより識別される文の組み合わせに応じた処理を識別する前記処理識別データを受信する、という構成が採用されてもよい。

また、上記の端末装置において、前記属性データ取得手段は、前記ユーザが発した音声を示す音声データを前記属性データとして取得する、という構成が採用されてもよい。

また、本発明は、端末装置のユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを前記端末装置から受信する受信手段と、前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得する促し文データ取得手段と、前記促し文データを前記端末装置に送信する送信手段とを備え、前記受信手段は前記送信手段による前記促し文データの送信の後に前記端末装置から送信されてくる音声データを受信し、前記音声データが表す指示を認識する音声認識手段と、前記指示に応じて複数の機能の中から特定された機能と当該機能を用いた処理とを識別する処理識別データを生成する処理識別データ生成手段とを備え、前記送信手段は、前記受信手段により受信された前記音声データに対する応答として前記処理識別データを前記端末装置に送信するサーバ装置を提供する。

上記のサーバ装置において、前記受信手段は、複数の端末装置の各々から前記属性データと前記音声データを受信し、前記受信手段が前記複数の端末装置のうちの各々の端末装置から受信した前記属性データと、前記受信手段が当該端末装置から受信した前記音声データが表す、前記音声認識手段により認識された指示を文として示す指示文データとを対応付けて記憶装置に記憶させる記憶指示手段とを備え、前記促し文データ取得手段は、前記複数の端末装置のうちの一の端末装置から前記受信手段が受信した属性データとの間で予め定められた関係を満たす属性データに対応付けて前記記憶装置に記憶されている指示文データを用いて、当該一の端末装置に対し前記送信手段により送信される促し文データを生成する、という構成が採用されてもよい。

また、上記のサーバ装置において、前記記憶指示手段は、指示文データを、当該指示文データが示す指示が行われた時刻を示す時刻データと対応付けて前記記憶装置に記憶させ、前記促し文データ取得手段は、前記記憶装置に記憶されている複数の指示文データと当該複数の指示文データに対応付けて記憶されている時刻データとに基づき、時間の経過に伴い使用頻度が増加している指示を示す指示文データを特定し、当該特定した指示文データを用いて、前記送信手段により送信される促し文データを生成する、という構成が採用されてもよい。

また、上記のサーバ装置において、前記記憶指示手段は、前記音声認識手段により音声データから生成された指示文データを、当該音声データの送信元の端末装置を識別する端末識別データと対応付けて前記記憶装置に記憶させ、前記促し文データ取得手段は、前記複数の端末装置のうちの一の端末装置に対し前記送信手段により送信される促し文データとして、当該一の端末装置を識別する端末識別データに対応付けて前記記憶装置に記憶されている指示文データが示す指示との間で予め定められた類似性を有しない指示を促す促し文データを生成する、という構成が採用されてもよい。

また、上記のサーバ装置において、複数の処理の中の任意の２つの処理の関連性の高低を示す処理間関連性データを取得する処理間関連性データ取得手段を備え、前記受信手段は前記端末装置から送信されてくる音声データを前記属性データとして受信し、前記音声認識手段は前記属性データが表す指示を認識し、前記処理識別データ生成手段は前記属性データが表す指示に応じた処理を識別する処理識別データを生成し、前記促し文データ取得手段は、前記処理間関連性データが示す、前記属性データが表す指示に応じた処理との間の関連性の高低に基づき、前記複数の処理の中の一の処理を選択し、当該選択した一の処理の指示を促す文を示す促し文データを、前記属性データが示す属性に応じた促し文データとして取得する、という構成が採用されてもよい。

また、本発明は、コンピュータに、ユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを取得するステップと、前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得するステップと、前記促し文データが示す文の表示を表示装置に指示するステップと、前記表示装置による前記促し文データが示す文の表示に応じて前記ユーザが発した音声を示す音声データを取得するステップと、前記音声データが表す指示に応じて複数の機能の中から特定された機能と当該特定された機能を用いた処理とを識別する処理識別データを取得するステップと、前記処理識別データにより識別される機能を用いた前記処理識別データにより識別される処理を実行するステップとを実行させるためのプログラムを提供する。

本発明によれば、ユーザに対し、ユーザの属性またはユーザが置かれている環境の属性に応じた、音声指示の促しが行われる。ユーザは、その促しの内容を参考に発話の内容を考えることができる。その結果、音声指示を行う際のユーザの困難が軽減される。

一実施形態にかかる音声エージェントシステムの全体構成を示した図である。一実施形態にかかる端末装置のハードウェア構成を示した図である。一実施形態にかかる端末装置の機能構成を示した図である。一実施形態にかかるサーバ装置のハードウェア構成を示した図である。一実施形態にかかるサーバ装置の機能構成を示した図である。一実施形態にかかるサーバ装置が用いる属性データベースの構成を示した図である。一実施形態にかかるサーバ装置が用いる同義語データベースの構成を示した図である。一実施形態にかかるサーバ装置が用いる関連性データベースの構成を示した図である。一実施形態にかかるサーバ装置が用いるログデータベースの構成を示した図である。一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。一実施形態にかかる音声エージェントシステムが行う処理のシーケンスを示した図である。一実施形態にかかるサーバ装置が用いる指示文リストの構成を示した図である。一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。一変形例にかかるサーバ装置が用いる処理間関連性データベースの構成を示した図である。一変形例にかかるサーバ装置が用いる雛形文データベースの構成を示した図である。一変形例にかかる端末装置の機能構成を示した図である。一変形例にかかるサーバ装置の機能構成を示した図である。一変形例にかかる音声エージェントシステムが行う処理のシーケンスを示した図である。一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。

１…音声エージェントシステム、１１…端末装置、１２…サーバ装置、１９…通信ネットワーク、１０１…メモリ、１０２…プロセッサ、１０３…通信ＩＦ、１０４…タッチディスプレイ、１０５…マイク、１０６…クロック、１０７…ＧＰＳユニット、１０９…バス、１１１…属性データ取得手段、１１２…送信手段、１１３…促し文データ取得手段、１１４…表示指示手段、１１５…音声データ取得手段、１１６…処理識別データ取得手段、１１７…処理実行手段、１２１…受信手段、１２２…音声認識手段、１２３…処理識別データ生成手段、１２４…送信手段、１２５…記憶指示手段、１２６…計時手段、１２７…促し文データ取得手段、２０１…メモリ、２０２…プロセッサ、２０３…通信ＩＦ、２０９…バス、３２１…処理間関連性データ取得手段、１０４１…ディスプレイ、１０４２…タッチパネル

［実施形態］
以下に、本発明の一実施形態にかかる音声エージェントシステム１を説明する。図１は、音声エージェントシステム１の全体構成を示した図である。音声エージェントシステム１は、ユーザが携帯する端末装置１１−１〜１１−ｎと、サーバ装置１２を備えている。なお、端末装置１１−１〜１１−ｎの個数ｎは音声エージェントシステム１を利用するユーザの数に応じて任意に変化する。以下、端末装置１１−１〜１１−ｎの各々を区別せず、それらのいずれかを指す場合、「端末装置１１」という。サーバ装置１２は、ユーザが端末装置１１に対し音声指示を行った場合、その音声の意図解釈を行い、端末装置１１に対し実行すべき処理を指示する。なお、図１においては、サーバ装置１２は１つの装置として示されているが、例えば互いに連係動作する複数の装置によりサーバ装置１２が構成されてもよい。端末装置１１とサーバ装置１２は通信ネットワーク１９を介して互いにデータ通信を行うことができる。

端末装置１１のハードウェア構成は、例えば、タッチディスプレイを備えた一般的なスレートデバイス型のパーソナルコンピュータのハードウェア構成と同じであるが、他の形式のコンピュータであってもよい。図２は、端末装置１１のハードウェア構成の例として、スレートデバイス型のパーソナルコンピュータのハードウェア構成を示した図である。図２に例示の端末装置１１は、ハードウェア構成として、メモリ１０１と、プロセッサ１０２と、通信ＩＦ（Interface）１０３と、タッチディスプレイ１０４と、マイク１０５と、クロック１０６と、ＧＰＳ（Global Positioning System）ユニット１０７とを備えている。また、これらの構成部はバス１０９を介して互いに接続されている。

メモリ１０１は揮発性半導体メモリや不揮発性半導体メモリ等を有する記憶装置であり、ＯＳ（Operation System）、アプリケーションプログラム、ユーザデータ等の各種データを記憶するとともに、プロセッサ１０２によるデータ処理における作業領域として利用される。プロセッサ１０２はＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の処理装置である。通信ＩＦ１０３は無線通信により通信ネットワーク１９を介して、サーバ装置１２との間で各種データ通信を行うインタフェースである。

タッチディスプレイ１０４は、ディスプレイ１０４１とタッチパネル１０４２を有している。ディスプレイ１０４１は、例えば液晶ディスプレイ等の表示装置であり、文字、図形、写真等を表示する。タッチパネル１０４２は、例えば静電容量方式のタッチパネルであり、指等のポインタが接触または近接した場合、当該接触または近接の位置を特定することによりユーザの操作を受け付ける入力デバイスである。なお、以下の説明において、接触または近接を便宜的に単に「接触」という。

ディスプレイ１０４１とタッチパネル１０４２は積層配置されており、ディスプレイ１０４１に表示されている画像に対しユーザがポインタを接触させる動作を行うと、実際にはタッチパネル１０４２にポインタが接触し、その位置が特定される。プロセッサ１０２は、ＯＳやアプリケーションプログラムに従い、タッチパネル１０４２により特定された位置に基づき、当該ポインタの接触によるユーザの意図した操作の内容を特定する。

マイク１０５は音を拾音して音データを生成する拾音装置である。音声エージェントシステム１においては、マイク１０５はユーザの音声を拾音し、音声データを生成する。クロック１０６は基準時刻からの経過時間を継続的に計測し、現在時刻を示す時刻データを生成する装置である。ＧＰＳユニット１０７は、複数の衛星からの信号を受信し、受信した信号に基づき端末装置１１の現在の位置（すなわちユーザの現在の位置）を特定し、特定した位置を示す位置データを生成する装置である。

上記のハードウェア構成を備える端末装置１１は、プロセッサ１０２がメモリ１０１に記憶されているプログラムに従う処理を行うことにより、図３に示す機能構成を備える装置として動作する。

端末装置１１は、機能構成として、属性データ取得手段１１１、送信手段１１２、促し文データ取得手段１１３、表示指示手段１１４、音声データ取得手段１１５、処理識別データ取得手段１１６、処理実行手段１１７を備える。

属性データ取得手段１１１は、端末装置１１のユーザの属性もしくはユーザが置かれている環境の属性を示す属性データを取得する。本実施形態においては例として、ユーザの性別、ユーザの年齢、ユーザの現在位置、および現在時刻を示すデータが属性データとして用いられる。なお、ユーザの性別および年齢はユーザの属性の例であり、ユーザの現在位置および現在時刻は、ユーザが置かれている環境の属性の例である。ユーザの性別および年齢を示すデータは、例えばタッチパネル１０４２を用いたユーザの操作により端末装置１１に入力され、属性データ取得手段１１１はユーザに入力されたこれらのデータを取得する。また、ユーザの現在位置を示すデータは、例えばＧＰＳユニット１０７により生成される位置データを属性データ取得手段１１１が取得する。なお、本実施形態において、現在時刻を示すデータ（時刻データ）はサーバ装置１２において生成され利用されるため、属性データ取得手段１１１は時刻データを取得する必要はない。

送信手段１１２は、属性データ取得手段１１１により取得された属性データをサーバ装置１２に送信する。また、送信手段１１２は、音声データ取得手段１１５により取得された音声データをサーバ装置１２に送信する。

促し文データ取得手段１１３は、端末装置１１のユーザに対し音声指示を促す文を示すデータである促し文データを、サーバ装置１２から受信することにより取得する。表示指示手段１１４は、促し文データ取得手段１１３により取得された促し文データが示す文の表示をディスプレイ１０４１に指示する。

音声データ取得手段１１５は、ユーザにより発せられ、マイク１０５により拾音された音声を示す音声データをマイク１０５から取得する。音声データ取得手段１１５により取得された音声データは、上述の送信手段１１２によりサーバ装置１２に送信される。処理識別データ取得手段１１６は、送信手段１１２により送信された音声データに対する応答としてサーバ装置１２から送信されてくる処理識別データを取得する。処理識別データ取得手段１１６が取得する処理識別データは、送信手段１１２がサーバ装置１２に送信した音声データが表す指示に応じた処理を識別するデータである。本実施形態においては、例として、処理識別データは機能を識別する機能ＩＤと、当該機能における具体的な処理を特定するパラメータとの組み合わせにより処理を識別するデータである。

処理実行手段１１７は、処理識別データ取得手段１１６が取得した処理識別データにより識別される処理を実行する。

続いて、サーバ装置１２の構成を説明する。サーバ装置１２のハードウェア構成は、外部の装置との間で通信ネットワーク１９を介したデータ通信が可能な一般的なコンピュータのハードウェア構成と同じである。図４は、サーバ装置１２のハードウェア構成を示した図である。すなわち、サーバ装置１２は、ハードウェア構成として、メモリ２０１と、プロセッサ２０２と、通信ＩＦ２０３を備えている。また、これらの構成部はバス２０９を介して互いに接続されている。

メモリ２０１は揮発性半導体メモリや不揮発性半導体メモリ等を有する記憶装置であり、ＯＳ、アプリケーションプログラム、ユーザデータ等の各種データを記憶するとともに、プロセッサ２０２によるデータ処理における作業領域として利用される。プロセッサ２０２はＣＰＵ、ＧＰＵ等の処理装置である。通信ＩＦ２０３は通信ネットワーク１９を介して他の装置との間で各種データ通信を行うインタフェースである。

サーバ装置１２は、メモリ２０１に記憶されているプログラムに従う処理を行うことにより、図５に示す機能構成を備える装置として動作する。すなわち、サーバ装置１２は、機能構成として、受信手段１２１、音声認識手段１２２、処理識別データ生成手段１２３、送信手段１２４、記憶指示手段１２５、計時手段１２６、促し文データ取得手段１２７を備える。

受信手段１２１は、複数の端末装置１１の各々から送信されてくる属性データを受信する。また、受信手段１２１は、複数の端末装置１１の各々から送信されてくる音声データを受信する。

音声認識手段１２２は、受信手段１２１により受信された音声データが表す指示を、既知の音声認識処理により認識し、認識した指示を文で示す指示文データを生成する。処理識別データ生成手段１２３は、音声認識手段１２２により生成された指示文データに応じた処理を識別する処理識別データを生成する。

送信手段１２４は、処理識別データ生成手段１２３により生成された処理識別データを、当該処理識別データの生成に用いられた音声データの送信元の端末装置１１に送信する。また、送信手段１２４は、促し文データ取得手段１２７により取得された促し文データを、当該促し文データの取得に用いられた属性データの送信元の端末装置１１に送信する。

記憶指示手段１２５は、受信手段１２１がいずれかの端末装置１１から受信した属性データと、受信手段１２１が同じ端末装置１１から受信した音声データを用いて音声認識手段１２２が生成した指示文データと、当該指示文データが示す指示が行われた時刻を示す時刻データ（計時手段１２６が生成）とを互いに対応付けてメモリ２０１に記憶させる。

計時手段１２６は、現在時刻を示す時刻データを生成する。促し文データ取得手段１２７は、受信手段１２１がいずれかの端末装置１１から受信した属性データが示す属性に応じた促し文データを、メモリ２０１に記憶されている様々な端末装置１１から受信された属性データとそれらの属性データに対応付けてメモリ２０１に記憶されている指示文データ等のデータを用いて生成することにより取得する。

続いて、端末装置１１およびサーバ装置１２に記憶されているデータの構成を説明する。端末装置１１のメモリ１０１には、端末装置１１を識別する端末識別データと、ユーザの性別および年齢を示すデータが記憶されている。端末識別データは、例えば端末装置１１が本実施形態にかかるプログラムを最初に起動した際に、サーバ装置１２から取得したデータである。また、ユーザの性別および年齢を示すデータは、例えばユーザがタッチパネル１０４２を用いて入力したデータである。

サーバ装置１２のメモリ２０１には、端末装置１１のユーザの属性データを管理する属性データベースと、基本となるキーワード（基本キーワード）とそのキーワードと同義のキーワード（同義キーワード）との対応関係を示す同義語データを管理する同義語データベースと、様々なキーワードと様々な機能との間の関連性の高低を示す関連性データを管理する関連性データベースと、端末装置１１のユーザにより行われた音声指示に関するログデータを管理するログデータベースが記憶されている。

図６は、属性データベースの構成例を示した図である。属性データベースは端末装置１１の各々に応じたデータレコードの集まりであり、データフィールドとして［端末識別データ］、［性別］、［年齢］、［位置］を有している。なお、以下、［（データフィールド名）］は、データフィールド名で特定されるデータフィールドを示す。これらのフィールドには、フィールド名に応じたデータが格納される。［端末識別データ］、［性別］、［年齢］には、例えば端末装置１１において本実施形態にかかるプログラムを最初に起動した時等の適当なタイミングで、端末装置１１からサーバ装置１２に送信されたデータが格納され、［年齢］に関しては必要に応じて更新される。［位置］は端末装置１１が音声指示の待機状態（後述）になった時等の適当なタイミングで、端末装置１１からサーバ装置１２に送信される位置データにより頻繁に更新される。

図７は、同義語データベースの構成例を示した図である。同義語データベースは、様々な基本キーワードの各々に応じたデータレコードの集まりであり、データフィールドとして［基本キーワード］、［同義キーワード］を有している。なお、以下、［（データフィールド名）］は、データフィールド名で特定されるデータフィールドを示す。これらのデータフィールドの各々にはデータフィールド名に応じたデータが格納される。なお、１つの基本キーワードに対応する同義キーワードの数は様々である。

図８は関連性データベースの構成例を示した図である。関連性データベースは、キーワードの各々に応じたデータレコードの集まりであり、データフィールドとして［キーワード］、［種別］、［機能ＩＤ］、［機能名］、［パラメータ］、［スコア］を有している。

［キーワード］には、キーワード（同義語データベースに格納されるいずれかの基本キーワード）を示すテキストデータが格納される。［種別］には、キーワードの種別（複数可）を示すテキストデータが格納される。例えば、図８の第１のデータレコードの［種別］には、キーワード「ラーメン」の種別として「料理名」が格納されている。

［機能ＩＤ］には、機能を識別する機能ＩＤが格納される。［機能名］には、機能の名称を示すテキストデータが格納される。なお、以下、個々の機能を示す場合、機能「（機能名）」のようにいう。

［パラメータ］には、機能において用いられるパラメータの種別を示すテキストデータが格納される。例えば、図８の第１のデータレコードの［パラメータ］に格納されている「料理名、現在位置」というデータは、機能「レストラン検索」において、種別が「料理名」であるキーワードと、現在位置が用いられることを示す。

［スコア］には、キーワードと機能の関連性の高低を示す数値データであるスコアが格納される。なお、関連性データベースの各々のデータレコードは、［機能ＩＤ］、［機能名］、［パラメータ］、［スコア］に複数組のデータを格納することができる。

図９は、ログデータベースの構成例を示した図である。ログデータベースは、様々な端末装置１１のユーザにより行われた音声指示の各々に応じたデータレコードの集まりであり、データフィールドとして［端末識別データ］、［時刻］、［位置］、［指示文］、［処理識別データ］を有している。［端末識別データ］には音声指示を表す音声データの送信元の端末装置１１の端末識別データが格納される。［時刻］には音声指示が行われた時刻を示すデータが格納される。［位置］には音声指示が行われた時のユーザ（すなわち端末装置１１）の位置を示すデータが格納される。［指示文］には、音声データが表す指示を文として示す指示文データが格納される。［処理識別データ］には、音声指示に応じた処理を識別する処理識別データが格納される。

続いて、上記の構成を備える音声エージェントシステム１の動作を説明する。図１０Ａ〜１０Ｃおよび１１Ａ〜１１Ｄは、音声エージェントシステム１において、ユーザが音声指示を行う場合に端末装置１１のディスプレイ１０４１に表示される画面を例示した図である。図１０Ａ〜１０Ｃは、端末装置１１がユーザによる音声指示の待機を開始してから所定時間（例えば、１０秒間）の経過前にユーザによる音声指示が行われた場合にディスプレイ１０４１に表示される画面の推移を示している。一方、図１１Ａ〜１１Ｄは、端末装置１１がユーザによる音声指示の待機を開始してから所定時間が経過してもユーザによる音声指示が行われなかった場合にディスプレイ１０４１に表示される画面の推移を示している。

図１０Ａは、ユーザからの音声指示を待機している間にディスプレイ１０４１に表示される対話画面を示している。待機状態において、対話画面には、ユーザに対し音声指示を促す既定の促し文として、例えば「何かご用ですか？」という文が表示される。図１０Ｂに示すように、対話画面がディスプレイ１０４１に表示されている状態でユーザが音声指示を行うと、端末装置１１により音声指示に応じた処理が行われ、図１０Ｃに示すように、音声指示に応じた画面（処理実行画面）がディスプレイ１０４１に表示される。

図１１Ａは、図１０Ａと同じく、待機状態の対話画面を示している。待機状態の対話画面の表示が開始された後、所定時間（例えば、１０秒間）が経過してもユーザによる音声指示が行われないと、図１１Ｂに示すように、ディスプレイ１０４１にはユーザに対し音声指示を促す新たな促し文が表示される。この促し文は、端末装置１１のユーザの性別および年齢（ユーザの属性）と、ユーザの現在位置および現在時刻（ユーザの置かれている環境の属性）とに応じて生成された促し文である。従って、この促し文はユーザにとって自分の行いたい音声指示の内容と何らかの共通性を有している可能性が高い。そして、図１１Ｃに示すようにユーザが音声指示を行うと、端末装置１１により音声指示に応じた処理が行われ、図１１Ｄに示すように、音声指示に応じた処理実行画面がディスプレイ１０４１に表示される。

図１２は、ユーザが音声指示を行う場合に音声エージェントシステム１が行う処理のシーケンスを示した図である。以下に図１２を参照しつつ、音声エージェントシステム１が行う処理を説明する。

まず、ユーザが端末装置１１に対し所定の操作を行うと、端末装置１１の表示指示手段１１４はディスプレイ１０４１に待機状態の対話画面（図１０Ａまたは図１１Ａ）を表示させる（ステップＳ１０１）。待機状態の開始に伴い、端末装置１１の属性データ取得手段１１１はＧＰＳユニット１０７から端末装置１１の現在位置（すなわち、ユーザの現在位置）を示す位置データを取得する。送信手段１１２は、属性データ取得手段１１１が取得した位置データを、メモリ１０１に記憶されている端末識別データとともにサーバ装置１２に送信する（ステップＳ１０２）。

なお、端末装置１１とサーバ装置１２との間で確立された通信コネクションはディスプレイ１０４１に対話画面が表示されている間、維持され、サーバ装置１２は通信コネクションの確立時に端末装置１１を識別すると、その後は通信コネクションが解除されるまで、通信コネクションにより端末装置１１を識別し続けることができる。そのため、端末装置１１はステップＳ１０２においてサーバ装置１２に対し端末識別データを送信した後、以下に説明する処理において、サーバ装置１２に再び端末識別データを送信する必要はない。

サーバ装置１２の受信手段１２１は、端末装置１１から送信されてくる端末識別データと位置データを受信する（ステップＳ１０３）。記憶指示手段１２５は、メモリ２０１から属性データベース（図６）を読み出し、ステップＳ１０３において受信手段１２１が受信した端末識別データを［端末識別データ］に格納するデータレコードの［位置］に受信手段１２１が受信した位置データを格納（上書き）する。記憶指示手段１２５は、このように更新した属性データベースをメモリ２０１に記憶させる（ステップＳ１０４）。

ステップＳ１０４の後、ステップＳ１０５〜Ｓ１０８の処理が引き続き行われるが、それらの処理において用いられるデータの一部は以下に説明するステップＳ１１１〜Ｓ１２１の処理において生成されるため、先にステップＳ１１１〜Ｓ１２１の説明を行う。

端末装置１１の音声データ取得手段１１５は、待機状態の開始に伴い、ステップＳ１０２の処理と並行して、マイク１０５からユーザの音声を示す音声データが出力されるのを待つ。ユーザにより音声指示が行われると（ステップＳ１１１；「Ｙｅｓ」）、マイク１０５から音声データが出力され、音声データ取得手段１１５はこの音声データを取得する（ステップＳ１１２）。送信手段１１２は、音声データ取得手段１１５が取得した音声データをサーバ装置１２に送信する（ステップＳ１１３）。

サーバ装置１２の受信手段１２１により、端末装置１１から送信された音声データが受信されると（ステップＳ１１４）、音声認識手段１２２は音声データが表す音声の内容を認識して、認識した内容を文として示す発話文データ（同義語の変換が行われる前の指示文を示す指示文データ）を生成する（ステップＳ１１５）。例えば、図１０Ｂに例示のように、ユーザが「新宿駅はどこ？」という音声指示を行うと、音声認識手段１２２は「新宿駅はどこ？」という文を示す発話文データを生成する。

続いて、処理識別データ生成手段１２３は、音声認識手段１２２が生成した発話文データが示す文に含まれるキーワード（同義キーワード）を、同義語データベース（図７）に格納されている同義語データに従い基本キーワードに変換し、変換後の文（指示文）を示す指示文データを生成する（ステップＳ１１６）。例えば、ステップＳ１１５において「新宿駅はどこ？」という文を示す発話文データが生成された場合、ステップＳ１１６において、同義語キーワード「どこ？」が基本キーワード「どこですか？」に変換されて、「新宿駅はどこですか？」という文を示す指示文データが生成される。

続いて、処理識別データ生成手段１２３は、ステップＳ１１６において生成した指示文データが示す指示文に応じた処理を特定し、特定した処理を識別する処理識別データを生成する（ステップＳ１１７）。具体的には、処理識別データ生成手段１２３は、まず、指示文データが示す指示文に含まれるキーワードを抽出する。続いて、処理識別データ生成手段１２３は抽出したキーワードの各々に関し、当該キーワードを［キーワード］に格納するデータレコードを関連性データベース（図８）から抽出する。続いて、処理識別データ生成手段１２３は抽出した１以上のデータレコードの［機能ＩＤ］に格納されている機能ＩＤ毎に、［スコア］に格納されているスコアを合算する。

例えば、ステップＳ１１６において「新宿駅はどこですか？」という文を示す指示文データが生成された場合、処理識別データ生成手段１２３はキーワードとして「新宿駅」と「どこですか？」を抽出する。続いて、処理識別データ生成手段１２３は関連性データベースから［キーワード］に「新宿駅」を格納するデータレコード（図８の第４のデータレコード）と、［キーワード］に「どこですか？」を格納するデータレコード（図８の第５のデータレコード）を抽出する。そして、処理識別データ生成手段１２３は抽出したこれらのデータレコードの［機能ＩＤ］に格納される「Ｆ０３５６」、「Ｆ２５２７」、・・・の各々に関し、［スコア］に格納されている数値を合算する。その結果、例えば、機能ＩＤ「Ｆ０３５６」で識別される機能「乗換案内」のスコアが「１４」、機能ＩＤ「Ｆ２５２７」で識別される機能「マップ表示」のスコアが「１８」、・・・という具合に、指示文に応じた各機能のスコアが特定される。

処理識別データ生成手段１２３は、上記のように特定したスコアが最も大きい機能を、指示文に応じた機能として特定する。続いて、処理識別データ生成手段１２３は、指示文データから抽出したキーワードの中から、特定した機能に対応する関連性データの［パラメータ］に格納されるデータが示す種別のキーワードを抽出する。そして、処理識別データ生成手段１２３は、上記のように特定した機能を識別する機能ＩＤを含み、また、抽出したキーワード（もしあれば）をパラメータとして含む処理識別データを生成する。例えば、処理識別データ生成手段１２３は「新宿駅はどこですか？」という指示文に対応する処理識別データとして、機能「マップ表示」の機能ＩＤ「Ｆ２５３７」と、パラメータ「新宿駅」を含む処理識別データを生成する。

送信手段１２４は、処理識別データ生成手段１２３が生成した処理識別データを、ステップＳ１１４において受信手段１２１が受信した音声データに対する応答として、音声データの送信元の端末装置１１に送信する（ステップＳ１１８）。端末装置１１の処理識別データ取得手段１１６は、サーバ装置１２から送信されてくる処理識別データを受信する（ステップＳ１１９）。処理実行手段１１７は、処理識別データ取得手段１１６が受信した処理識別データにより識別される処理を実行する（ステップＳ１２０）。その結果、図１０Ｃに例示したような処理実行画面がディスプレイ１０４１に表示される。

一方、サーバ装置１２において、ステップＳ１１８の処理と並行して、記憶指示手段１２５はログデータベース（図９）の更新処理を行う（ステップＳ１２１）。具体的には、記憶指示手段１２５は、メモリ１０１からログデータベースを読み出し、新しいデータレコードを追加する。続いて、記憶指示手段１２５は、ステップＳ１０３において受信された端末識別データおよび位置データと、ステップＳ１１６において生成された指示文データと、ステップＳ１１７において生成された処理識別データとを、追加したデータレコードの［端末識別データ］、［位置］、［指示文］、［処理識別データ］に各々格納する。また、記憶指示手段１２５は、計時手段１２６からその時点の現在時刻を示す時刻データを取得し、［時刻］に格納する。記憶指示手段１２５は、このように更新したログデータベースをメモリ２０１に記憶させる。

なお、この場合、［時刻］に格納される時刻データは、正確には音声指示が行われた時刻よりもステップＳ１１２〜Ｓ１１７の実行に要する時間だけ後の時刻を示すが、その差は実用上無視できる程度であるため、この時刻データは音声指示が行われた時刻を示すデータとして利用される。［位置］に格納される位置データも同様に、正確には音声指示が行われた時点におけるユーザの位置と異なる位置を示す場合があるが、その差も実用上無視できる程度であるため、この位置データは音声指示が行われた時点におけるユーザの位置を示すデータとして利用される。ただし、より正確な時刻や位置を示すデータをログデータベースに格納するために、例えば端末装置１１が計時手段を備え、ステップＳ１１２において音声データを取得した時刻を示す時刻データをサーバ装置１２に送信し、また、端末装置１１がステップＳ１１２において音声データを取得した時点でＧＰＳユニット１０７により生成される位置データをサーバ装置１２に送信し、サーバ装置１２がこれらのデータをログデータベースに格納する構成としてもよい。

ステップＳ１２１の処理は、様々な端末装置１１のユーザにより音声指示が行われる毎に行われる。その結果、ログデータベース（図９）には、様々な端末装置１１の音声指示に関する多数のログデータが格納されることになる。ログデータベースに格納されているログデータは、以下に説明する促し文データの生成に用いられる。

続いて、ステップＳ１０４に続いて行われるステップＳ１０５〜Ｓ１０８の処理を説明する。ステップＳ１０４において記憶指示手段１２５により属性データベース（図６）の更新が行われた後、促し文データ取得手段１２７は、端末装置１１のユーザの属性と類似の属性のユーザにより過去に行われた音声指示に関するログデータをログデータベース（図９）から抽出する（ステップＳ１０５）。

具体的には、促し文データ取得手段１２７は、ログデータベース（図９）に属性データベース（図６）を［端末識別データ］をキーとして結合したデータベースを生成し、ステップＳ１０４において更新された属性データと、［性別］に格納されているデータが示す性別が共通しており、［年齢］に格納されているデータが示す年齢の差が所定の閾値以下（例えば、前後各５年以内）であり、［位置］に格納されているデータが示す位置の間の距離が所定の閾値以下（例えば、１ｋｍ以内）であり、［時刻］に格納されているデータが示す時刻（日付は考慮しない）が所定の閾値以下（例えば、前後１各時間以内）であるデータレコードを、属性データベースを結合したログデータベースから抽出する。

続いて、促し文データ取得手段１２７は、ステップＳ１０５において抽出したデータレコードを用いて促し文データを生成する（ステップＳ１０６）。具体的には、まず、促し文データ取得手段１２７は、［処理識別データ］に格納されているデータが同じもの毎にグループ化する。そして、促し文データ取得手段１２７は、各グループに含まれるデータレコードの数をカウントする。また、促し文データ取得手段１２７は、各グループに含まれるデータレコードの［指示文］に格納されているデータのうち数が最も多いものを、そのグループの代表的な指示文データとして特定する。その結果、促し文データ取得手段１２７により、図１３に例示するデータテーブル（以下、「指示文リスト」という）が生成される。指示文リストはデータフィールドとして［処理識別データ］、［指示文］、［数］を有している。［指示文］には、［処理識別データ］に格納されるデータにより識別される処理の指示に用いられた代表的な指示文を示す指示文データが格納される。また、［数］には、［処理識別データ］に格納されるデータにより識別される処理の指示が行われた回数を示すデータが格納される。

促し文データ取得手段１２７は、指示文リストから、［数］に格納されているデータが示す数が多い順に所定数（例えば、１０個）のデータレコードを選択し、選択したデータレコードの［指示文］に格納されている指示文データを用いて、例えば「最近、「ＸＸＸ」なんて質問をよくされます。」（ただし、「ＸＸＸ」は各々の指示文データが示す指示文）という文を示す促し文データを生成する。なお、促し文データ取得手段１２７が生成する促し文データが示す文の形式は上記の例に限られず、例えば、指示文データをそのまま促し文データとして生成してもよいし、指示文データが示す文の一部を取り出して雛形文に埋め込むことにより生成される文を示すデータを促し文データとして生成するようにしてもよい。

送信手段１２４は、促し文データ取得手段１２７が生成した促し文データを、ステップＳ１０３において受信手段１２１が受信した端末識別データおよび位置データに対する応答として、それらのデータの送信元の端末装置１１に送信する（ステップＳ１０７）。端末装置１１の促し文データ取得手段１１３は、サーバ装置１２から送信されてくる促し文データを受信する（ステップＳ１０８）。

上記により、端末装置１１はサーバ装置１２から、ユーザの属性およびユーザの置かれている状況の属性に応じた促し文データを所定数（例えば、１０個）、取得する。その状態で、端末装置１１が音声指示の待機状態となった後、所定時間（例えば、１０秒間）が経過しても音声指示が行われなかった場合（ステップＳ１３１；「Ｙｅｓ」）、表示指示手段１１４は、ステップＳ１０８において受信された所定数の促し文データの中から、例えばランダムに、促し文データを１つ選択し、選択した促し文データが示す文を提示する対話画面をディスプレイ１０４１に表示させる（ステップＳ１３２）。その結果、図１１Ｂに例示したような対話画面がディスプレイ１０４１に表示される。

その後、ユーザにより音声指示が行われれば（ステップＳ１１１；「Ｙｅｓ」）、ステップＳ１１２〜Ｓ１２１の処理が繰り返され、例えば図１１Ｄに例示したような処理実行画面がディスプレイ１０４１に表示される。一方、ユーザにより音声指示が行われた後、もしくは、ディスプレイ１０４１に表示される促し文が変更された後、音声指示が行われないで所定時間が経過すると（ステップＳ１３１；「Ｙｅｓ」）、ステップＳ１３２の処理が繰り返され、新たな促し文を提示する対話画面がディスプレイ１０４１に表示される。

以上のように、音声エージェントシステム１によれば、ユーザが音声指示を行うに際して、速やかに指示の内容が思い浮かばないような場合、ユーザの属性やユーザが置かれている環境の属性に応じた促し文がユーザに対し提示される。その結果、ユーザは音声指示を容易に行うことができる。

［変形例］
上述した音声エージェントシステム１は本発明の一実施形態であって、本発明の技術的思想の範囲内において様々に変形することができる。以下にそれらの変形の例を示す。以下の変形例の説明において、変形例が上述した実施形態と異なる部分を主に説明し、実施形態と同様の構成や動作については適宜、その説明を省略する。また、以下の変形例にかかる音声エージェントシステムが備える構成部のうち、上述した実施形態にかかる音声エージェントシステム１が備える構成部と共通もしくは対応する構成部には、上述した実施形態において用いた符号と同じ符号を用いる。なお、上述した実施形態および下記の変形例のうちの２以上が適宜組み合わされてもよい。

（１）促し文データ取得手段１２７が促し文データを生成する際、ログデータベース（図９）に格納されている指示文データのうち、例えば現在から過去の所定期間において、時間の経過に伴い使用頻度が増加している指示を示す指示文データをログデータの［時刻］に格納されている時刻データと［指示文］に格納されている指示文データに基づき特定し、特定したそれらの指示文データを用いて促し文データの生成を行う構成としてもよい。

この変形例によれば、最近、多くのユーザにより頻繁に使用されている音声指示を例示する促し文が高い確率でユーザに対し提示されることになる。従って、その時点で他の多くのユーザの注目を集めている、いわゆる旬な情報を得たいようなユーザにとって、この変形例は望ましい。

（２）促し文データ取得手段１２７が、例えば端末装置１１−Ｘに送信される促し文データを生成する際、ログデータベース（図９）に格納されている、端末装置１１−Ｘの端末識別データに対応付けて記憶されているいずれかの指示文データが示す指示との間で予め定められた類似性を有しない指示を促す促し文データを生成する構成としてもよい。

この変形例の一具体例として、促し文データ取得手段１２７は、ログデータベースにおいて、端末装置１１−Ｘの端末識別データに対応付けて記憶されている処理識別データを抽出し、抽出した処理識別データに含まれる機能ＩＤを含む処理識別データを［処理識別データ］に格納しているログデータを除外して、促し文データの生成に用いる。この場合、端末装置１１−Ｘのユーザには、自分が過去に音声指示により利用した機能とは異なる機能を用いた処理の実行を指示する音声指示を促す促し文が提示されることになる。従って、ユーザは、過去に利用したことのない機能を利用するきっかけを得ることができる。

また、この変形例の他の具体例として、促し文データ取得手段１２７は、ログデータベースに格納されているログデータのうち、端末装置１１−Ｘの端末識別データを［端末識別データ］に格納しているログデータを除外し、端末装置１１−Ｘとは異なる端末装置１１に関するログデータのみを用いて、促し文データの生成を行う。ログデータベースに格納されているログデータの数が少ないような場合、端末装置１１−Ｘに送信される促し文データの生成において、端末装置１１−Ｘが過去に行った音声指示に関するログデータに含まれる指示文データが促し文データの生成に用いられる確率が高くなるが、この場合、そのような不都合が生じない。

ユーザにとって、自分が過去に行った音声指示は既知であり、通常、同様の音声指示を行うことに困難は伴わないため、本発明の目的に照らした場合、自分が過去に行った音声指示と同じ、もしくは類似の音声指示を促す促し文が提示されることは望ましくない。本変形例によれば、そのような不都合の発生確率が低下する。

（３）図１２のステップＳ１３２においてディスプレイ１０４１により促し文の表示が行われている時にユーザによる音声指示が行われた場合、音声指示が行われた時に表示されていた促し文を示す促し文データを識別する促し文識別データを、例えば音声データとともに、サーバ装置１２に送信し、サーバ装置１２において、処理識別データ生成手段１２３が処理識別データを生成する際、指示文データが示す指示（音声データが表す指示）と、促し文識別データにより識別される促し文データが示す文との組み合わせに応じた処理を識別する処理識別データを生成する構成としてもよい。

図１４Ａ〜１４Ｃは、本変形例においてディスプレイ１０４１に表示される画面を例示している。図１４Ａに例示の画面においては、「最近、「秋葉原劇場って何？」という質問をよく耳にするよ。」という促し文が表示されている（図１２のステップＳ１３２）。この促し文に応じて、ユーザが図１４Ｂに示すように、例えば「それ、僕も興味ある」と発話すると、送信手段１１２は、ユーザの「それ、僕も興味ある」という音声指示を表す音声データとともに、「最近、「秋葉原劇場って何？」という質問をよく耳にするよ。」という促し文を示す促し文データをサーバ装置１２に送信する（図１２のステップＳ１１３）。

サーバ装置１２において、処理識別データ生成手段１２３は、「それ、僕も興味ある」という指示文に含まれる「それ」が、「最近、「秋葉原劇場って何？」という質問をよく耳にするよ。」という促し文に含まれる「秋葉原劇場」であると特定し、「秋葉原劇場、僕も興味ある」という文を生成し、この文に応じた処理識別データを生成する（図１２のステップＳ１１７）。もしくは、処理識別データ生成手段１２３は、単純に「それ、僕も興味ある」という指示文と、「秋葉原劇場って何？」という促し文の一部（「」で囲まれている部分）とに含まれているキーワードを抽出して、音声指示に応じた処理の特定を行う構成としてもよい。上記のように生成された処理識別データにより識別される処理が端末装置１１において処理実行手段１１７により実行される結果、図１４Ｃに示すように、音声指示に応じた処理実行画面がディスプレイ１０４１に表示される。

なお、上記の例では、端末装置１１からサーバ装置１２に対し、促し文データが送信される。本変形例において、端末装置１１からサーバ装置１２に対し送信されるデータは促し文を識別するデータ（促し文識別データ）であればよく、促し文データはその一例である。従って、例えば、サーバ装置１２が端末装置１１に促し文データを送信する際（図１２のステップＳ１０７）、個々の促し文データに促し文識別データを付して送信し、端末装置１１がサーバ装置１２に対し、促し文データではなく促し文データに付された促し文識別データを送信する構成が採用されてもよい。

本変形例によれば、ユーザが促し文に例示される音声指示と同じもしくは類似の音声指示を行いたい場合、例示されている音声指示を読み上げる必要はなく、より自然な発話により端末装置１１に対する音声指示を行うことができる。

（４）上述した実施形態においては、促し文データの生成に用いられるユーザの属性として、ユーザの性別および年齢が用いられる。また、促し文データの生成に用いられるユーザの置かれている環境の属性として、ユーザの現在位置および現在時刻が用いられる。本発明において、促し文データの生成に用いられるユーザの属性およびユーザの置かれている環境の属性はこれらに限られず、他に様々な種別の属性が採用可能である。

例えば、性別および年齢に加えて、もしくはこれらに代えて、ユーザの趣味、職業、過去に音声指示を行った回数（音声指示の習熟度を示す）、過去に音声指示を行った頻度等が、ユーザの属性として促し文データの生成に利用されてもよい。

また、例えば、現在位置および現在時刻に加えて、もしくはこれらに代えて、ユーザのいるエリアにおける現在の天気や気温、ユーザが自宅、オフィス、その他の場所のいずれにいるか、平日と休日のいずれであるか、等の情報が、ユーザの置かれている環境の属性として促し文データの生成に利用されてもよい。

（５）ユーザが過去（例えば、最後）に行った音声指示は、ユーザがどのような興味や要求を持っているか、という属性を示す。従って、ユーザが過去に行った音声指示を、ユーザの属性として促し文データの生成に用いる構成が採用されてもよい。この変形例において、サーバ装置１２のメモリ２０１には、端末装置１１が実行可能な複数の処理の中の任意の２つの処理の各々に関し、それらの処理の間の関連性の高低を示す処理間関連性データを管理する処理間関連性データベースと、複数の処理の各々に応じた促し文の雛形を示す雛形文データを管理する雛形文データベースが記憶されている。

図１５は、処理間関連性データベースの構成例を示した図である。本変形例においては、例として、機能の単位で処理間の関連性を特定するものとする。従って、処理間関連性データベースは、端末装置１１が実行可能な複数の機能の各々に応じたデータレコードの集まりであり、データフィールドとして［第１の機能］と［第２の機能］を有している。［第１の機能］には、第１の機能の機能ＩＤを格納する［機能ＩＤ］と、第１の機能の機能名を格納する［機能名］がサブフィールドとして含まれる。［第２の機能］には、複数の第２の機能（第１の機能と関連性がある全ての他の機能）の各々に関し、第２の機能の機能ＩＤを格納する［機能ＩＤ］と、第２の機能の機能名を格納する［機能名］と、第１の処理と第２の処理との関連性の高低と示す数値であるスコアを格納する［スコア］がサブフィールドとして含まれる。

例えば、図１５の第１行に例示されるデータは、機能ＩＤ「Ｆ１０２５」で識別される機能「レストラン検索」と、機能ＩＤ「Ｆ０３５６」で識別される機能「乗換案内」との関連性の高低を示すスコアが「１０」であることを示している。

図１６は、雛形文データベースの構成例を示した図である。雛形文データベースは、端末装置１１が実行可能な複数の機能の各々に応じたデータレコードの集まりであり、データフィールドとして、機能ＩＤを格納する［機能ＩＤ］と、機能名を格納する［機能名］と、機能を促す促し文の雛形を示す雛形文データを格納する［雛形文］を有している。

例えば、図１６の第１行に例示されるデータは、機能ＩＤ「Ｆ０３５６」で識別される機能「乗換案内」に対応する雛形文が、「（場所）に電車で行きたい」であることを示している。なお、「（場所）」は、この位置に、種別に「場所」を含むキーワード（図８参照）が挿入されることを示す。

図１７は、本変形例における端末装置３１の機能構成を示した図である。端末装置３１は音声データを属性データとして取得する。従って、端末装置３１は属性データ取得手段１１１と音声データ取得手段１１５を区別なく１つの構成部として備える。

図１８は、本変形例におけるサーバ装置３２の機能構成を示した図である。サーバ装置３２は、例えばメモリ２０１から処理間関連性データベース（図１５）を読み出し、処理間関連性データを取得する処理間関連性データ取得手段３２１を備える。

また、サーバ装置３２の促し文データ取得手段１２７は、処理間関連性データに従い、例えば最後に処理識別データ生成手段１２３により生成された処理識別データにより識別される処理との間の関連性の高低に基づき、端末装置３１において実行可能な複数の処理の中から１つの処理を選択し、選択した処理の指示を促す促し文データを生成する。

図１９は、本変形例において音声エージェントシステム１が行う処理のシーケンスを示した図である。なお、図１９において、図１２と共通または対応するステップには図１２において用いた番号と同じ番号が付されている。

本変形例においては、まず、対話画面の表示が開始された後（ステップＳ１０１）、端末装置３１のユーザによる音声指示が行われる。その後、端末装置３１とサーバ装置３２は音声指示に応じた一連の処理（ステップＳ１１２〜Ｓ１２０）を行い、音声指示に応じた処理が端末装置３１において実行される。

ただし、本変形例においては、サーバ装置３２は、音声指示に応じた処理を識別する処理識別データの生成（ステップＳ１１７）の後、促し文データの生成（ステップＳ３０１）を行い、処理識別データの送信（ステップＳ１１８）において、ステップＳ３０１において生成した促し文データを併せて送信する。端末装置３１は、音声データの送信（ステップＳ１１３）に応じて処理識別データとともにサーバ装置３２から送信されてくる促し文データを受信する（ステップＳ１１９）。ステップＳ１１９において受信された促し文データは、その後、促し文の表示（ステップＳ１３２）において用いられる。

サーバ装置３２がステップＳ３０１において促し文データを生成する手順の例を以下に説明する。まず、処理間関連性データ取得手段３２１は、処理間関連性データベース（図１５）から、処理識別データ生成手段１２３がステップＳ１１７において生成した処理識別データに含まれる機能ＩＤを［第１の機能］の［機能ＩＤ］に格納するデータレコードを検索し、促し文データ取得手段１２７に引き渡す。

促し文データ取得手段１２７は、処理間関連性データ取得手段３２１から受け取ったデータレコードの［第２の機能］に含まれるデータにおいて、［スコア］が示す数値が最大である［機能ＩＤ］に格納される機能ＩＤを、ユーザが最後に行った音声指示に応じた機能に関連性が最も高い機能を識別する機能ＩＤとして選択する。続いて、促し文データ取得手段１２７は、雛形文データベース（図１６）から、選択した機能ＩＤに応じたデータレコードを検索し、検索したデータレコードの[雛形文］に格納されている雛形文データを取得する。

続いて、促し文データ取得手段１２７は、雛形文データが示す「（場所）」等の部分に、処理識別データ生成手段１２３がステップＳ１１７において生成した処理識別データに含まれるキーワードのうち、種別が一致するものがあれば、そのキーワードを「（場所）」等の文字列と置換する。置換後の文を示すデータが促し文データとなる。以上が、ステップＳ３０１においてサーバ装置３２が促し文データを生成する手順の例である。

図２０Ａ〜２０Ｅは、本変形例において、端末装置３１のディスプレイ１０４１に表示される画面の推移を例示した図である。対話画面において、まずユーザが音声指示を行い（図２０Ａ）、音声指示に応じた処理が端末装置３１により実行される（図２０Ｂ）。その後、ユーザが暫く端末装置３１に音声指示を行わないと、ディスプレイ１０４１には音声指示を促す促し文が表示される（図２０Ｃ）。この促し文は、ユーザが最後に行った音声指示に応じた処理と関連性が高い処理の指示を促す文である。ユーザが促し文に促されて新たな音声指示を行うと（図２０Ｄ）、新たな音声指示に応じた処理が端末装置３１により実行される（図２０Ｅ）。

（６）上述した実施形態においては、促し文データの生成において用いるログデータが示す音声指示が行われた時刻の新旧については特に制限を設けず、ログデータベースに格納されている全てのログデータをステップＳ１０５（図１２）の抽出の対象としている。これに代えて、ログデータベースに格納されているログデータのうち、例えば現在から過去所定期間（例えば、１年間）に行われた音声指示に関するログデータのみを促し文データの生成において用いる構成としてもよい。

（７）促し文データ取得手段１２７が促し文データを生成する際、ログデータベースに格納されているログデータのうち、［処理識別データ］に特定の機能ＩＤを含む処理識別データが格納されているログデータを除外し、それらの特定の機能ＩＤを含まないログデータのみを用いる構成としてもよい。

ある種の機能（例えば、スケジュール管理など）を用いた処理の実行を指示する場合、ユーザに固有の言葉（知人の名前など）が多用される場合がある。従って、その種の機能に関する指示文データに含まれる情報は他のユーザにとって役立たない場合や、個人情報保護の観点から望ましくない場合がある。本変形例によれば、そのような不都合が回避される。

（８）上述した実施形態においては、促し文データ取得手段１２７が促し文データを生成する際（図１２のステップＳ１０６）、属性データの類似性に基づきログデータベースから抽出したログデータに示される指示文データのうち、処理識別データが共通するものをグループ化し、グループ毎のログデータの数をカウントし、その数が多いグループの指示文データ（代表的な指示文データ）を促し文データの生成に用いる。これは、促し文データ取得手段１２７が促し文データの生成に用いる指示文データを選択する方法の一具体例であって、他の様々な方法が採用され得る。

例えば、処理識別データが共通するものをグループ化する代わりに、指示文データが示す指示文に含まれるキーワードが共通するものをグループ化するなど、他の基準でグループ化が行われてもよい。また、促し文データの生成に用いる指示文データのグループの選択において、ログデータの数が多い順に所定数を選択する方法に代えて、例えば、ログデータの数が多い上位の所定数（例えば、第１位〜第５位）は除外し、それらに続いてログデータの数が多いグループ（例えば、第６位〜）の中から選択する構成としてもよい。この場合、例えば「今の天気は？」といった、多くのユーザにより頻繁に行われる音声指示ばかりが繰り返し促し文としてユーザに提示される、という不都合が回避される。また、促し文データ取得手段１２７が、過去の所定期間内に促し文データの生成に用いた指示文データは、新たな促し文データ（同じ端末装置１１に対し送信されるもの）の生成には用いない構成としてもよい。この場合、同じユーザに同じ、もしくは類似の促し文が繰り返し提示される、という不都合が回避される。

（９）上述した実施形態において、サーバ装置１２の促し文データ取得手段１２７は、ログデータベースから抽出したログデータに含まれる指示文データを用いて、促し文データを生成することにより促し文データを取得する。促し文データ取得手段１２７は、促し文データを生成せず、例えばメモリ２０１から読み出したり、外部の装置から受信したりすることにより、促し文データを取得する構成としてもよい。例えば、促し文データ取得手段１２７は、ログデータベースから、属性データの類似性に基づき抽出したログデータに含まれる指示文データを取り出し、取り出した指示文データをそのまま、促し文データとして取得する構成としてもよい。

（１０）上述した実施形態においては、音声認識処理（図１２のステップＳ１１５）および音声指示に応じた処理の特定処理（図１２のステップＳ１１６およびＳ１１７）はサーバ装置１２において行われる。これらの処理の両方または一方が、端末装置１１において行われる構成としてもよい。

（１１）上述した実施形態においては、ディスプレイ１０４１に例示される表示装置、タッチパネル１０４２に例示される入力デバイス、マイク１０５に例示される拾音装置は全て、端末装置１１に内蔵される構成が採用されているが、これらのうちの１以上が端末装置１１とは異なる外部の装置として構成されてもよい。また、上述した実施形態においては、端末装置１１が利用する各種データは端末装置１１に内蔵されるメモリ１０１に記憶される構成が採用されているが、それらのデータの全てまたは一部が外部の記憶装置に記憶される構成が採用されてもよい。同様に、サーバ装置１２が利用する各種データの全てまたは一部が、メモリ２０１にではなく、外部の記憶装置に記憶される構成が採用されてもよい。

（１２）上述した実施形態においては、端末装置１１が音声指示の待機状態になったタイミングで端末識別データおよび位置データが端末装置１１からサーバ装置１２に送信され（図１２のステップＳ１０２およびＳ１０３）、これらのデータの送信をトリガとして、促し文データの生成および送信の処理（図１２のステップＳ１０４〜Ｓ１０８）が行われる。これらの処理が行われるタイミングは端末装置１１が音声指示の待機状態になったタイミングに限られない。例えば、所定時間の経過毎や、端末装置１１の所定距離以上の移動が検出されたタイミング等に、端末装置１１からサーバ装置１２に対する位置データの送信が行われてもよい。また、端末装置１１において促し文の表示が必要となった時点（図１２のステップＳ１３１；「Ｙｅｓ」）で端末装置１１がサーバ装置１２に対し促し文データの要求を送信し、その要求に応じて促し文データの生成および送信の処理（図１２のステップＳ１０４〜Ｓ１０８）が行われてもよい。

（１３）上述した実施形態または変形例において、端末装置１１がサーバ装置１２から促し文データを受信した後（図１２のステップＳ１０８の後、または、図１９のステップＳ１１９の後）、ユーザが促し文の表示（図１２のステップＳ１３２、または、図１９のＳ１３２）に応じて音声指示を行うまでの間に、端末装置１１が促し文により促される処理の少なくとも一部をバックグラウンド処理として実行する構成としてもよい。

上述した実施形態を変形する場合、図１２に示した処理のシーケンスにおいて、サーバ装置１２は、ステップＳ１０６において、促し文データとともに、促し文データに応じた処理を識別する処理識別データを、例えばステップＳ１０５においてログデータベース（図９）から抽出したログデータの［処理識別データ］に格納されているデータに基づき特定する。そして、サーバ装置１２は、ステップＳ１０７において、促し文データとともに、特定した処理識別データを端末装置１１に送信する。端末装置１１は、ステップＳ１０８において、促し文データとともに処理識別データを受信すると、ユーザによる音声指示を待つことなく、受信した処理識別データにより識別される処理をバックグラウンドで実行する。

上述した変形例（５）を変形する場合、図１９に示した処理のシーケンスにおいて、サーバ装置１２はステップＳ１１８において促し文データとともに処理識別データを送信し、端末装置１１はステップＳ１１９において促し文データとともに処理識別データを受信する。従って、端末装置１１は、ステップＳ１１９の処理の後、ユーザによる音声指示を待つことなく、受信した処理識別データにより識別される処理をバックグラウンドで実行する。

その後、ユーザが促し文に促されて、促し文に応じた音声指示を行った場合、端末装置１１はバックグラウンドで実行済みの処理の結果を表示する。

この変形例によれば、ユーザが促し文に促されて音声指示を行う場合、その音声指示に従った処理が音声指示より前に実行済みであるため、その処理の結果がユーザに対し、より高速に提示される。

なお、ユーザは、必ずしも促し文と同じ音声指示を行うとは限らない。例えば、図１１Ａ〜１１Ｄの例では、「近くのおいしいピザ屋を教えて」という例文を示す促し文に対し、ユーザは「じゃあ、近くのおいしいカレー屋を教えて」という音声指示を行っている。この場合、促し文に応じた処理と音声指示に応じた処理は、パラメータが異なるが機能が一致している。従って、この場合であっても、音声指示が行われる前にバックグラウンドで当該機能（図１１Ａ〜１１Ｄの例では、機能「レストラン検索」）が起動していれば、処理の結果表示が速やかに行われる。

また、上記の変形例をさらに変形し、促し文に応じてユーザが音声指示を行った際、端末装置１１がサーバ装置１２にアクセスすることなく、音声指示に従った処理結果を表示する構成が採用されてもよい。この場合、端末装置１１は促し文に促されてユーザにより行われる音声指示を認識するために、サーバ装置１２が備える音声認識手段１２２および処理識別データ生成手段１２３と同様の構成部を備える。そして、端末装置１１は、促し文に促されたユーザが音声指示を行った場合、音声データをサーバ装置１２に送信することなく、端末装置１１において音声データが示す音声の認識、指示文データの生成、処理識別データの生成（図１２または図１９のステップＳ１１５〜Ｓ１１７と同様の処理）を行う。そのように生成された処理識別データにより識別される処理（音声データに応じた処理）がバックグラウンドで実行されている処理と一致した場合、端末装置１１は既に実行済みの処理の結果を速やかに表示する。

この変形例によれば、促し文に促されてユーザが音声指示を行った時点で、端末装置１１がサーバ装置１２と通信できない場合であっても、音声指示に従った処理の結果が端末装置１１によりユーザに提示される。

（１４）端末装置１１がスピーカを備え、促し文をスピーカから発音する構成が採用されてもよい。この場合、端末装置１１は、機能構成部として、促し文データが示す文を読み上げた音声を示す音声データを生成する音声データ生成手段と、音声データをスピーカに出力する音声データ出力手段を備える。音声データ出力手段は、表示指示手段１１４による促し文の表示指示と同時に、音声データをスピーカに出力する。その結果、ユーザに対し、促し文が表示とともに音声により提供される。

（１５）上述した実施形態においては、端末装置１１およびサーバ装置１２は一般的なコンピュータに、本発明にかかるプログラムに従った処理を実行させることにより実現される構成が採用されている。これに代えて、端末装置１１およびサーバ装置１２の一方または両方が、いわゆる専用機として構成されてもよい。

本発明は、上述した音声エージェントシステムに例示されるシステム、当該システムを構成する端末装置およびサーバ装置、これらの装置が行なう処理の方法、コンピュータをこれらの装置として機能させるためのプログラム、当該プログラムをコンピュータ読取可能に持続的に記録した記録媒体、といった形態で把握される。なお、本発明にかかるプログラムは、記録媒体を介する他、インターネットなどのネットワークを介してコンピュータに提供されてもよい。

Claims

ユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを取得する属性データ取得手段と、
前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得する促し文データ取得手段と、
前記促し文データが示す文の表示を表示装置に指示する表示指示手段と、
前記表示装置による前記促し文データが示す文の表示に応じて前記ユーザが発した音声を示す音声データを取得する音声データ取得手段と、
前記音声データが表す指示に応じて複数の機能の中から特定された機能と当該機能を用いた処理とを識別する処理識別データを取得する処理識別データ取得手段と、
前記処理識別データにより識別される機能を用いた前記処理識別データにより識別される処理を実行する処理実行手段と
を備える端末装置。
前記属性データおよび前記音声データをサーバ装置に送信する送信手段
を備え、
前記促し文データ取得手段は、前記送信手段による前記属性データの送信に対する応答として前記サーバ装置から送信されてくる前記促し文データを受信し、
前記処理識別データ取得手段は、前記送信手段による前記音声データの送信に対する応答として前記サーバ装置から送信されてくる前記処理識別データを受信する
請求項１に記載の端末装置。
前記送信手段は前記音声データが前記音声データ取得手段により取得されたときに前記表示装置により表示されていた文を示す前記促し文データを識別する促し文識別データを前記サーバ装置に送信し、
前記処理識別データ取得手段は、前記音声データおよび前記促し文識別データの送信に対する応答として前記サーバ装置から送信されてくる、前記音声データが表す指示および前記促し文識別データにより識別される文の組み合わせに応じた処理を識別する前記処理識別データを受信する
請求項２に記載の端末装置。
前記属性データ取得手段は、前記ユーザが発した音声を示す音声データを前記属性データとして取得する
請求項１乃至３のいずれか１項に記載の端末装置。
端末装置のユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを前記端末装置から受信する受信手段と、
前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得する促し文データ取得手段と、
前記促し文データを前記端末装置に送信する送信手段と
を備え、
前記受信手段は前記送信手段による前記促し文データの送信の後に前記端末装置から送信されてくる音声データを受信し、
前記音声データが表す指示を認識する音声認識手段と、
前記指示に応じて複数の機能の中から特定された機能と当該機能を用いた処理とを識別する処理識別データを生成する処理識別データ生成手段と
を備え、
前記送信手段は、前記受信手段により受信された前記音声データに対する応答として前記処理識別データを前記端末装置に送信する
サーバ装置。
前記受信手段は、複数の端末装置の各々から前記属性データと前記音声データを受信し、
前記受信手段が前記複数の端末装置のうちの各々の端末装置から受信した前記属性データと、前記受信手段が当該端末装置から受信した前記音声データが表す、前記音声認識手段により認識された指示を文として示す指示文データとを対応付けて記憶装置に記憶させる記憶指示手段と
を備え、
前記促し文データ取得手段は、前記複数の端末装置のうちの一の端末装置から前記受信手段が受信した属性データとの間で予め定められた関係を満たす属性データに対応付けて前記記憶装置に記憶されている指示文データを用いて、当該一の端末装置に対し前記送信手段により送信される促し文データを生成する
請求項５に記載のサーバ装置。
前記記憶指示手段は、指示文データを、当該指示文データが示す指示が行われた時刻を示す時刻データと対応付けて前記記憶装置に記憶させ、
前記促し文データ取得手段は、前記記憶装置に記憶されている複数の指示文データと当該複数の指示文データに対応付けて記憶されている時刻データとに基づき、時間の経過に伴い使用頻度が増加している指示を示す指示文データを特定し、当該特定した指示文データを用いて、前記送信手段により送信される促し文データを生成する
請求項６に記載のサーバ装置。
前記記憶指示手段は、前記音声認識手段により音声データから生成された指示文データを、当該音声データの送信元の端末装置を識別する端末識別データと対応付けて前記記憶装置に記憶させ、
前記促し文データ取得手段は、前記複数の端末装置のうちの一の端末装置に対し前記送信手段により送信される促し文データとして、当該一の端末装置を識別する端末識別データに対応付けて前記記憶装置に記憶されている指示文データが示す指示との間で予め定められた類似性を有しない指示を促す促し文データを生成する
請求項６または７に記載のサーバ装置。
複数の処理の中の任意の２つの処理の関連性の高低を示す処理間関連性データを取得する処理間関連性データ取得手段
を備え、
前記受信手段は前記端末装置から送信されてくる音声データを前記属性データとして受信し、
前記音声認識手段は前記属性データが表す指示を認識し、
前記処理識別データ生成手段は前記属性データが表す指示に応じた処理を識別する処理識別データを生成し、
前記促し文データ取得手段は、前記処理間関連性データが示す、前記属性データが表す指示に応じた処理との間の関連性の高低に基づき、前記複数の処理の中の一の処理を選択し、当該選択した一の処理の指示を促す文を示す促し文データを、前記属性データが示す属性に応じた促し文データとして取得する
請求項５に記載のサーバ装置。
コンピュータに、
ユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを取得するステップと、
前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得するステップと、
前記促し文データが示す文の表示を表示装置に指示するステップと、
前記表示装置による前記促し文データが示す文の表示に応じて前記ユーザが発した音声を示す音声データを取得するステップと、
前記音声データが表す指示に応じて複数の機能の中から特定された機能と当該特定された機能を用いた処理とを識別する処理識別データを取得するステップと、
前記処理識別データにより識別される機能を用いた前記処理識別データにより識別される処理を実行するステップと
を実行させるためのプログラム。