JP2019057777A

JP2019057777A - 自動音声応答システムの音声ガイダンス選択支援装置及びプログラム

Info

Publication number: JP2019057777A
Application number: JP2017179956A
Authority: JP
Inventors: 勝徳吉原; Katsunori Yoshihara
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2019-04-11

Abstract

【課題】ＩＶＲ装置の音声ガイダンスに対するユーザ意図を音声認識技術を用いて把握し、音声ガイダンスの選択情報を自動音声応答システムに提供する。【解決手段】実施形態の支援装置は、ＩＶＲ装置と接続され、ユーザが選択するための識別情報を含むガイダンス項目に含まれるキーワードに、自動再生される所定の音声情報案内に対応する識別情報を含むルート情報が紐付けられた選択支援管理情報を有している。ユーザからの着信を受け付けてユーザの発話音声を取得し、発話音声に対する音声認識結果とキーワードとをマッチングして発話音声に対応するルート情報を特定する。特定されたルート情報に基づいて音声ガイダンス選択情報を生成し、ＩＶＲ装置に発信して開始された音声ガイダンスに対して音声ガイダンス選択情報を出力する。音声ガイダンス選択情報が出力された後にユーザの着信を、自動音声応答装置に中継する。【選択図】図１

Description

本発明は、自動音声応答（ＩＶＲ）システムが提供する音声ガイダンスに対するユーザ選択を支援する技術に関する。

従来からコールセンターなど電話対応業務において、自動音声応答（ＩＶＲ）装置を導入し、音声での所定の情報案内などを自動化することで、オペレータが対応する電話対応を低減している。ＩＶＲ装置は、ユーザの着信呼を受け付け、所定の音声ガイダンスを自動再生し、ユーザの電話機からのプッシュボタン操作により送出される選択信号（ＰＢ信号）を受信する。ユーザは、音声ガイダンスに従って複数の各メニューで希望する案内項目を選択し、ＩＶＲ装置は、各メニューにおいて選択された案内項目に紐付く所定の音声情報案内を提供する。

特開２００２−１６９５８０号公報特開平１１−３０８３５５号公報

自動音声応答システムの音声ガイダンスに対するユーザ意図を音声認識技術を用いて把握し、ユーザ意図に基づく音声ガイダンスの選択情報を自動音声応答システムに提供する支援装置及びプログラムを提供する。

実施形態の支援装置は、ユーザからの着信呼に対して所定の音声ガイダンスを自動再生し、前記音声ガイダンスに従うユーザの選択操作に基づいて所定の音声情報案内を自動再生する自動音声応答装置と接続される支援装置である。ここで、前記音声ガイダンスは、ユーザが選択するための識別情報を含むガイダンス項目を複数含んでいる。前記支援装置は、前記ガイダンス項目に含まれるキーワードに、自動再生される前記所定の音声情報案内に対応する前記識別情報を含むルート情報が紐付けられた選択支援管理情報を記憶する記憶部と、ユーザからの着信を受け付ける通話制御部と、着信したユーザの発話音声を取得する音声取得部と、前記発話音声に対する音声認識結果と前記キーワードとをマッチングして、前記発話音声に対応する前記ルート情報を特定する特定部と、特定された前記ルート情報に基づいて音声ガイダンス選択情報を生成する選択情報生成部と、前記自動音声応答装置に発信し、開始された前記所定の音声ガイダンスに対して生成された前記音声ガイダンス選択情報を出力するとともに、前記音声ガイダンス選択情報が出力された後に前記ユーザの着信を前記自動音声応答装置に中継する中継部と、を備えることを特徴とする。

第１実施形態の音声ガイダンス選択支援システムのネットワーク構成図である。第１実施形態の音声ガイダンス選択支援装置の機能ブロック図である。第１実施形態の自動音声応答装置の音声ガイダンスを構成する階層化されたメニュー、各メニューに含まれる各ガイダンス項目から抽出されるメニュー解析テーブル、及びルート情報の一例を示す図である。第１実施形態の選択支援管理情報の構成例と、ユーザの発話音声認識結果に対するユーザの意図特定処理及び音声ガイダンス選択情報の生成処理と、を説明するための図である。第１実施形態のユーザの発話音声認識結果に対する音声メッセージ出力処理を説明するための図である。第１実施形態の音声メッセージ出力処理に対するユーザの回答発話音声結果を用いたユーザの意図特定処理を説明するための図である。第１実施形態の音声ガイダンス選択支援システムの処理フローを示す図である。第１実施形態の音声ガイダンス選択支援システムの処理フローを示す図である。第１実施形態の音声ガイダンス選択支援システムの処理フローを示す図である。第１実施形態の選択支援管理情報の自動更新処理を説明するための図である。第１実施形態の自動更新処理によって更新された選択支援管理情報の一例を示す図である。第１実施形態の自動更新処理フローを示す図である。第２実施形態の音声ガイダンス選択支援システムのネットワーク構成図である。第２実施形態のユーザ端末及び音声ガイダンス選択支援装置の機能ブロック図である。第２実施形態の音声ガイダンス選択支援システムの処理フローを示す図である。第２実施形態の音声ガイダンス選択支援システムの処理フローを示す図である。第２実施形態の音声ガイダンス選択支援システムの処理フローを示す図である。

以下、実施形態につき、図面を参照して説明する。

（第１実施形態）
図１から図１２は、第１実施形態を示す図である。図１は、本実施形態の音声ガイダンス選択支援システムのネットワーク構成図であり、音声ガイダンス選択支援装置（以下、支援装置という）３００は、ユーザ端末１００と自動音声応答（ＩＶＲ）装置５００との間に位置し、ＩＶＲ装置５００に対するユーザ支援窓口として構成されている。

ＩＶＲ装置５００は、公衆交換電話網／ＩＰ網における外線番号が割り当てられ、ＩＶＲ装置５００宛に発信された着信呼を受け付けて所定の音声ガイダンスを自動再生し、音声ガイダンスに従うユーザの選択操作に基づいて所定の音声情報案内を自動再生する。しかしながら、従来のＩＶＲ装置５００による電話対応には、以下のような課題がある。まず、音声ガイダンスを最後まで聴取しなければならなかったり、音声ガイダンスを構成するメニューの数が多い場合には、長い時間にわたって音声ガイダンスを聴取し、聴取した各メニューそれぞれにおいて選択操作をしなければならなかったりし、ユーザにとって煩わしい面がある。

また、ＩＶＲ装置５００は、上述のように、音声での所定の情報案内などを自動化することでオペレータによる電話対応を低減させているが、メニューに含まれるガイダンス項目をきちんと聞き取れなかった場合、ユーザは、オペレータとの電話対応を希望したり、ＩＶＲ装置５００の仕組みによっては所定時間内にユーザが選択しなかったりした場合に、オペレータに自動的に転送してしまうなど、オペレータによる電話対応の低減が図れないケースもある。特に、高齢者は、音声ガイダンスが聞き取りづらかったり、希望する音声情報案内に対して選択操作をスムーズに行えなかったりする場合もある。

そこで、本実施形態の音声ガイダンス選択支援システムは、ＩＶＲ装置５００の音声ガイダンスに対するユーザ意図を音声認識技術を用いて把握し、ユーザ意図に基づく音声ガイダンスの選択情報をＩＶＲ装置５００に提供する。

ユーザは、ユーザ端末１００から、ＩＶＲ装置５００ではなく支援装置３００に電話をかけ、ＩＶＲ装置５００が提供する音声情報案内に関連する発話を行う。支援装置３００は、ユーザが発話した音声認識結果に基づいて、ＩＶＲ装置５００が提供する音声ガイダンスに対する選択情報を生成する。支援装置３００は、ＩＶＲ装置５００に電話をかけ、自動音声応答処理の開始に伴って生成された音声ガイダンス選択情報を出力する。ＩＶＲ装置５００は、音声ガイダンス選択情報に基づいて、ユーザによる選択操作が行われているときは同じ音声ガイダンス制御を行い、音声情報案内を自動再生する。支援装置３００は、接続しているユーザ端末１００と、支援装置３００から音声ガイダンス選択情報が入力された後のＩＶＲ装置５００とを接続する。

このように構成することで、所定の音声情報案内を自動再生するまでのルート情報をユーザの発話音声から把握し、ユーザが音声ガイダンスに対する選択操作を行わなくても、ＩＶＲ装置５００が提供する音声情報案内を、ユーザの希望に応じて提供することができ、ユーザの利便性とＩＶＲ装置５００による電話対応業務の効率化をより向上させることができる。

特に、本実施形態の音声ガイダンス選択支援システムは、既存のＩＶＲ装置５００（ＩＶＲシステム）の前段に支援装置３００を設けるだけで実現することができ、後段のＩＶＲ装置５００の既存の仕組み（音声ガイダンスに従うユーザの選択操作に基づいて所定の音声情報案内を自動再生する）を変更する必要がない。

図２は、支援装置３００の機能ブロック図である。支援装置３００は、通信／通話制御装置３１０、制御装置３２０、記憶装置３３０を含んで構成される。通信／通話制御装置３１０は、公衆交換電話網／ＩＰ網を介したユーザ端末１００及びＩＶＲ装置５００との各通信／通話制御を行う。

通信／通話制御装置３１０は、公衆交換電話網（移動体通信網を含む）を通じたプッシュ回線方式のアナログ回線電話機能、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）網を介したＩＰ電話機能のいずれか一方又は両方の機能を備えている。プッシュ回線方式では、ダイヤルボタンを押すことでプッシュ信号（ＰＢ信号）が出力される。一方、ＩＰ電話は、ＳＩＰ（ＳＩＰサーバ）による発信、着信、応答、切断等の呼制御が行われ、電話間の音声通話は、ＲＴＰ（Ｒｅａｌ−ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）パケットで行われる。

通信／通話制御装置３１０は、公衆交換電話網／ＩＰ網における外線番号が割り当てられ、ユーザ端末１００からの外線着信を受け付けて応答、切断、保留、転送などの呼制御を通話制御部として機能する。また、通信／通話制御装置３１０は、公衆交換電話網／ＩＰ網における外線番号が割り当てられたＩＶＲ装置５００に対する発信、切断、保留、転送などの呼制御も行う。

さらに、本実施形態の通信／通話制御装置３１０は、ＩＶＲ装置５００に対してＰＢ信号又はＰＢ信号に対応するＲＴＰパケットの出力制御を行う。音声ガイダンス選択情報は、ＰＢ信号又はＲＴＰパケットの形式で、支援装置３００からＩＶＲ装置５００に出力される。

音声取得部３２１は、支援装置３００に着信したユーザ端末１００からの着信呼に対して、支援メッセージを出力し、ユーザ端末１００においてユーザが発話した音声を取得する。音声取得部３２１は、例えば、「〇〇サービスコールセンターです。ご希望の商品又はサービスについて音声入力してください。」という支援メッセージを音声出力し、ユーザの発話を促す。そして、支援メッセージに対して発話したユーザの音声データを取得する。

音声認識制御部３２２は、音声認識機能を備え、音声取得部３２１によって取得されたユーザの発話音声データをテキストデータに変換する音声認識処理を行う。音声認識結果は、テキスト形式で出力される。なお、音声認識機能は、支援装置３００とネットワークで接続される外部の音声認識処理サーバ（不図示）を利用することもできる。この場合、音声認識制御部３２２は、音声認識処理サーバとの間のやり取りを制御し、発話音声データを音声認識処理サーバに送信し、音声認識処理サーバから処理結果であるテキスト形式の音声認識結果を受信することができる。

意図特定部３２３は、ユーザの発話音声認識結果に基づいて、ＩＶＲ装置５００が提供する音声ガイダンスに対する選択情報を特定する。ここで、ＩＶＲ装置５００の音声ガイダンスと選択情報との関係について詳細に説明する。

図３は、本実施形態のＩＶＲ装置５００の音声ガイダンスを構成する階層化されたメニュー、各メニューに含まれる各ガイダンス項目から抽出されるメニュー解析テーブル、及びルート情報の一例を示す図である。

音声ガイダンスは、ユーザが選択するための識別情報を含むガイダンス項目を複数含んでおり、例えば、所定の音声情報案内を自動再生するまでの音声ガイダンスの階層構造に従う複数のメニュー１，２，３を含んで構成することができる。各メニュー１，２，３は、異なる複数のガイダンス項目を含んで構成されている。なお、階層構造とは、メニュー１においてガイダンス項目が選択された場合に次の音声ガイダンスはメニュー２に切り替えられるといったような、音声ガイダンスに対してユーザが選択操作したときに一方のメニューから他方のメニューに切り替えられる順序である。

図３に示すように、メニュー１において、例えば、ガイダンス項目「外貨預金の取引に関する問い合わせは、「４」を」には、当該ガイダンス項目をユーザが選択するための識別情報「４」と、ガイダンス項目を説明するためのキーワード「外貨預金」とが含まれている。そこで、メニュー１を解析すると、メニュー１解析テーブルとして、ガイダンス項目毎に互いに異なる識別情報が紐付き、各識別情報に対して異なるキーワードが紐付いている。メニュー２，３についても同様である。

図３の例では、メニュー１〜３の各ガイダンス項目を順に選択することで、所定の音声情報案内にたどり着くように音声ガイダンス制御が行われる。つまり、メニュー１〜３の各ガイダンス項目の各識別情報の並びが、所定の音声情報案内（例えば、アメリカドルの普通預金の〇〇は、□□です）にたどり着くためのルート情報となる。ルート情報を構成する識別情報の数および並びは、音声情報案内にたどり着くまでにユーザ選択を必要とするメニューの数およびユーザに出力されるメニュー順の並びとなる。図３に示すように「４１２」のルート情報は、メニュー１のガイダンス項目「４」、メニュー２のガイダンス項目「１」、及びメニュー３のガイダンス項目「２」が、左から順にメニューの階層構造の並びに準じて並んでいる。

図４は、本実施形態の選択支援管理情報の構成例と、ユーザの発話音声認識結果に対するユーザの意図特定処理及び音声ガイダンス選択情報の生成処理と、を説明するための図である。図４に示すように、選択支援管理情報は、ガイダンス項目に含まれるキーワードに、自動再生される所定の音声案内に対応する識別情報を含むルート情報が紐付けられた情報である。すなわち、ルート情報を構成する各識別情報に対応する各ガイダンス項目のキーワードがルート情報に関連付けられており、ルート情報を構成する識別情報の数に対して同じ数又はそれ以上のキーワードが対応付けられている。なお、１つのガイダンス項目には、複数のキーワードが含まれるケースもあり、この場合、１つの識別情報に対して複数のキーワードが紐付くことになる。

このように本実施形態のルート情報は、各メニューにおけるガイダンス項目の識別情報を階層構造に従って順に並べた複数の識別情報の組み合わせであり、キーワードは、順に並べられた複数の識別情報それぞれの各ガイダンス項目に含まれる各キーワードの組み合わせを含み、所定の音声情報案内に導くためのルート情報に対してガイダンス項目のキーワードが紐付けられることで、選択支援管理情報が形成される。

意図特定部３２３は、図４の例のように、ユーザの発話音声に対する音声認識結果と、選択支援管理情報のキーワードとをマッチングして、ユーザの発話音声に対応するルート情報を特定する。図４に示す一例では、ユーザの発話音声の音声認識結果に、「アメリカドル」、「定期預金」のキーワードが含まれている。意図特定部３２３は、音声認識結果にルート情報に紐付くキーワードの組み合わせがすべて含まれているか否かを判別し、含まれていると判別された場合に、判別されたキーワードの組み合わせに紐付くルート情報を抽出する。

音声ガイダンス選択情報生成部３２４は、意図特定部３２３で特定されたルート情報に基づいて音声ガイダンス選択情報を生成する。図４の例では、ユーザの発話音声に「アメリカドル」、「定期預金」のキーワードが含まれているので、意図特定部３２３は、ルート情報「４１２」を抽出する。そして、音声ガイダンス選択情報生成部３２４は、「４１２」の並び順にＰＢ信号を生成したり、ＰＢ信号に相当するＲＴＰパケットを生成したりする。

なお、ＩＶＲ装置５００に関する情報は予め記憶装置３３０に記憶されている。例えば、ＩＶＲ装置５００の電話番号や、支援装置３００とＩＶＲ装置５００との間の接続方式（公衆交換電話網ｏｒＩＰ網）が記憶されている。通信／通話制御装置３１０及び音声ガイダンス選択情報生成部３２４は、接続方式に応じて、公衆交換電話網を通じたＰＢ信号の生成及び出力制御と、ＩＰ網を通じたＲＴＰパケットの生成及び出力制御と、を切り替えることができる。

中継管理部３２５は、通信／通話制御装置３１０を通じてＩＶＲ装置５００に外線発信し、開始されたＩＶＲ装置５００の所定の音声ガイダンスに対して、生成された音声ガイダンス選択情報を出力する。このとき、中継管理部３２５は、音声ガイダンス選択情報を構成する複数の識別情報を順次出力するが、出力するタイミングは、ＩＶＲ装置５００の音声ガイダンス制御によって異なる。

例えば、ＩＶＲ装置５００の音声ガイダンス制御が、１つのメニューガイダンス再生中に１つの識別情報しか識別できない場合（個別識別制御）、中継管理部３２５は、１つ１つの識別情報を所定の時間間隔で出力する。つまり、１つの識別情報を出力した後に音声ガイダンスが次のメニューに切り替わった後に、次の識別情報を出力するようにする。音声ガイダンスが次のメニューに切り替わる時間間隔は、予め設定しておくことができる。

また、例えば、ＩＶＲ装置５００の音声ガイダンス制御が、１つのメニューガイダンス再生中に入力された複数の識別情報を識別可能な場合（一括識別制御）、中継管理部３２５は、複数の識別情報を一括して出力する。つまり、メニューガイダンスが開始された後に複数の識別情報を一括して一度に出力する。ＩＶＲ装置５００の音声ガイダンス制御が、個別識別制御であるか、一括識別制御であるかの制御種別情報は、記憶装置３３３に予め記憶しておくことができ、中継管理部３２５は、制御種別情報を参照して上述した出力方式を切り替えて生成された音声ガイダンス選択情報を、ＩＶＲ装置５００に出力することができる。

また、中継管理部３２５は、音声ガイダンス選択情報の出力制御と共に、音声ガイダンス選択情報が出力された後にユーザの外線着信呼を外線発信によって接続されたＩＶＲ装置５００に中継する中継処理を行う。ここで、中継処理とは、ユーザの着信呼と、ＩＶＲ装置５００に対する発信呼を接続する外線間転送処理である。中継管理部３２５は、例えば、ユーザの着信呼を保留にし、音声ガイダンス選択情報をＩＶＲ装置５００に出力した後、ＩＶＲ装置５００への発信呼を保留にし、保留にされたユーザ着信呼及びＩＶＲ装置５００の発信呼同士を転送して、ユーザ端末１００とＩＶＲ装置５００とを繋ぎ直す中継処理を行う。

なお、上記説明では、ＩＶＲ装置５００が提供する音声ガイダンスとして、階層構造で関連付けられた複数のメニューを含む音声ガイダンスを一例に説明したが、例えば、１つのメニューのみを有する音声ガイダンスであってもよい。つまり、複数のガイダンス項目を含む１つのメニューと音声情報案内とが一対一で対応した音声ガイダンスであり、一回のガイダンス項目（識別情報）の選択によって音声情報案内を提供する態様である。この場合であっても、本実施形態の支援装置３００による選択支援を適用することができる。

次に、本実施形態のユーザ意図補充処理について説明する。図４に示したように、選択支援管理情報は、階層構造の複数のメニューそれぞれのガイダンス項目のキーワード及び識別情報の組み合わせによって構成されている。そこで、意図特定部３２３は、ユーザの発話音声認識結果に、ルート情報に紐付くキーワードの組み合わせがすべて含まれているか否かを判別し、含まれていると判別された場合に、判別されたキーワードの組み合わせに紐付くルート情報を抽出している。

これに対して、ルート情報に紐付くキーワードの組み合わせがすべて含まれていない場合、すなわち、発話音声認識結果にキーワードの組み合わせがすべて含まれておらず、かつキーワードの組み合わせのうちの少なくとも１つが含まれている場合、発話音声の音声認識結果内のキーワードが不足している状態となる。このような不足状態の場合、本実施形態では、不足しているキーワードをユーザからさらに聞き出すための音声メッセージ出力処理を行う。なお、キーワードの組み合わせのうちの１つのキーワードも含まれていない場合は、該当するルート情報がそもそもないものと判別され、音声メッセージ出力処理は行われない。

意図特定部３２３は、発話音声認識結果にキーワードの組み合わせがすべて含まれておらず、かつキーワードの組み合わせのうちの少なくとも１つが含まれていると判別された場合、音声メッセージ制御部３２５に音声メッセージ出力要求を出力する。音声メッセージ制御部３２６は、ユーザの着信呼に対して音声メッセージを出力し、音声メッセージに対するユーザの回答発話音声データを取得する。

このとき、音声メッセージ制御部３２５は、発話音声認識結果に含まれていないキーワードに該当する識別情報のガイダンス項目に基づいて生成される音声メッセージを再生することができる。図５は、ユーザの発話音声認識結果に対する音声メッセージ出力処理を説明するための図である。図６は、音声メッセージ出力処理に対するユーザの回答発話音声結果を用いたユーザの意図特定処理を説明するための図である。

図５に示すように、例えば、発話音声認識結果が「外貨預金について知りたい」である場合、「外貨預金」しかキーワードがなく、どの通貨の外貨預金なのか、どの種類（普通預金、定期預金）なのかわからない。一方で、キーワード「外貨預金」は、メニュー１のガイダンス項目に含まれている。そこで、本実施形態では、音声情報案内に対するルート情報を構成する複数の識別情報、すなわち、複数のキーワードの組み合わせのうち、１つのガイダンス項目に対するキーワードも登録し、そのキーワードに対するルート情報として「−」を設定する。「−」は、キーワード不足を表す識別情報であり、フラグや他の記号、英数字であってもよい。

そして、図６に示すように、キーワード「外貨預金」は、メニュー１のガイダンス項目であることから、メニュー２に対応する音声メッセージ１「ご希望の通貨をお知らせください」と、メニュー３に対応する音声メッセージ２「普通貯金、定期預金のどちらをご希望でしょうか」とをＩＶＲ装置５００の音声ガイダンスの階層構造に従って予め生成する。これらの情報は、音声メッセージ管理情報として予め記憶装置３３０に記憶することができる。なお、音声メッセージは、音声合成技術を用いて、テキスト情報から音声データを生成するように構成することもできる。この場合、音声メッセージ管理情報には、各音声データではなく、テキスト情報がそれぞれ格納され、音声メッセージ制御部３２６が音声合成処理を行って音声データを生成し、ユーザの着信呼に出力することができる。

図６の例において、意図特定部３２３は、発話音声認識結果にキーワード「外貨預金」のみが含まれている場合、選択支援管理情報とマッチングするとルート情報として「−」が抽出されるので、抽出されたルート情報が「キーワード不足」であると判別し、音声メッセージ制御部３２６に、音声メッセージ出力要求を出力する。

音声メッセージ制御部３２６は、音声メッセージ管理情報を参照し、音声認識結果「外貨預金」をキーに、出力する音声メッセージを特定し、音声メッセージ１を出力する。そして、ユーザから音声メッセージ１に対する第１回答発話音声データを収集する。音声メッセージ制御部３２６は、音声メッセージ１の音声出力に引き続いて音声メッセージを音声出力するか否かを音声メッセージ管理情報を参照して判別する。図６の例では、音声メッセージ２が関連付けられているので、音声メッセージ２を出力し、ユーザから音声メッセージ２に対する第２回答発話音声データを収集する。音声メッセージ制御部３２６は、キーワード（音声認識結果）に対して紐付くすべての音声メッセージを出力し、各音声メッセージに対する回答発話音声データを収集する。

音声認識制御部３２２は、第１回答発話音声データ、第２回答発話音声データそれぞれに対して音声認識処理を行い、又は外部の音声認識処理サーバを通じた音声認識処理により、回答音声認識結果１，２を生成又は取得する。回答音声認識結果１には、キーワード「アメリカドル」が含まれ、回答音声認識結果１には、キーワード「普通預金」が含まれている。意図特定部３２３は、音声メッセージ１，２に対する回答音声認識結果１、２及びユーザの発話音声認識結果（キーワード「外貨預金」）に、選択支援管理情報のキーワードの組み合わせをすべて含むルート情報があるか否かを判別する。そして、該当するキーワードの組み合わせに紐付くルート情報を抽出し、ルート情報を特定する。

また、発話音声認識結果にキーワードが不足している状態の他の観点としては、図５に示すように、複数の異なるルート情報間で同じキーワードを含んでいる場合がある。つまり、共有キーワードのみが発話音声認識結果として抽出されると、複数のルート情報のうちどのルート情報を選んでよいかわからない。このような場合、キーワード「外貨預金」の例と同様に、例えば、１つのキーワード「アメリカドル」のルート情報にキーワード不足を示す「−」を設定した選択支援管理情報を生成することもできるが、意図特定部３２３が、発話音声認識結果と選択支援管理情報とをマッチングしたとき、２つ以上のルート情報が抽出された場合に、音声メッセージ出力処理を行うように構成することもできる。図５及び図６の例では、例えば、「アメリカドルについて知りたい」と発話された場合、選択支援管理情報において、１つのキーワード「アメリカドル」に対して２つのルート情報が抽出されることになる。この場合、音声メッセージ制御部３２６は、音声メッセージ管理情報を参照して、音声認識結果「アメリカドル」に紐付く音声メッセージ２を出力する。このとき、音声メッセージ１、すなわち、上位階層であるメニュー１に対応する音声メッセージは設定されていない。

したがたって、意図特定部３２３は、音声メッセージ２によって得られる回答音声認識結果２と、キーワード「アメリカドル」とを用いて、選択支援管理情報を参照し、２つのルート情報のうち、１つのルート情報（音声認識結果にすべてのキーワードが含まれるルート情報）を特定することができる。

このように本実施形態の支援装置３００は、ユーザの最初の発話音声認識結果ではルート情報の特定ができない場合、ユーザが希望する音声情報案内を判定不能とせずに、希望する音声情報案内に対して不足しているキーワードをユーザから聞き出すための音声メッセージ出力処理を行う。このため、ユーザ意図に従うルート情報を適切に特定することができ、ユーザの利便性をより向上させることができる。

図７から図９は、本実施形態の音声ガイダンス選択支援システムの処理フローを示す図である。図７に示すように、ユーザ端末１００は、支援装置３００の外線番号に電話をかける（Ｓ１０１）。支援装置３００（音声収集部３２１）は、ユーザの着信呼に対して支援ガイダンスを開始し、例えば、「お電話ありがとうございます。ご用件をお話ください。」の音声を出力する（Ｓ３０１）。

支援装置３００は、ユーザの発話音声データに対して音声認識処理を行い、又は外部の音声認識処理サーバを通じた音声認識処理により、音声認識結果を生成又は取得する（Ｓ３０２）。支援装置３００は、音声認識結果がＯＫである場合（Ｓ３０３のＯＫ）、ステップＳ３０４に進み、選択支援管理情報を用いた音声認識結果に対するルート情報の特定処理を行う。

なお、音声認識結果がＮＧである場合（Ｓ３０３のＮＧ）、図９に示すステップＳ３１６に進み、ＩＶＲ装置５００に対してユーザの着信呼を転送し、ＩＶＲ装置５００に対してユーザ端末１００から直接電話を掛けたときと同様の処理を行う。つまり、音声認識結果が得られないユーザの発話に対しては、一例として、支援装置３００を介さずに従来通りに直接ＩＶＲ装置５００との間で音声ガイダンスに従う選択操作をユーザに行ってもらう。このため、ＩＶＲ装置５００は、ユーザの着信呼に対して音声ガイダンスを開始し（Ｓ５０４）、音声ガイダンスの各メニューに従ってユーザが行った選択操作に基づいて、ユーザ端末１００は、ＰＢ信号等の選択情報をＩＶＲ装置５００に送出する（Ｓ１０４）。ＩＶＲ装置５００は、受信した選択情報（ガイダンス項目の識別情報）に基づいて音声ガイダンス制御処理を行い（Ｓ５０５）、ユーザ端末１００に対して所定の音声情報案内を再生（提供）する（Ｓ５０６）。

図７に戻り、ステップＳ３０５において、支援装置３００は、選択支援管理情報を参照してユーザの発話音声認識結果に対応する選択情報（ルート情報）が生成可能か否か（ユーザの発話音声認識結果に、ルート情報に紐付くキーワードの組み合わせがすべて含まれているか否か）を判別する。生成可能であると判別された場合、特定されたルート情報を用いて選択信号（音声ガイダンス選択情報）を生成し（Ｓ３０６）、ＩＶＲ装置５００に電話をかける（Ｓ３０７）。このとき、ユーザ着信呼は、保留にすることができる。

ＩＶＲ装置５００は、支援装置３００の着信呼に対して音声ガイダンスを開始する（Ｓ５０１）。支援装置３００は、開始されたＩＶＲ装置５００の音声ガイダンスに対して生成された選択信号を出力する（Ｓ３０８）。上述したように選択信号の出力処理は、ＩＶＲ装置５００の音声ガイダンス制御処理に応じて、時間間隔で順次選択信号を出力したり、出力順序は保持したまま一括して複数の選択信号を出力したりすることができる。ＩＶＲ装置５００は、支援装置３００から受信した選択情報に基づく音声ガイダンス制御処理を行う（Ｓ５０２）。

支援装置３００は、選択情報が出力された後にユーザの外線着信呼を外線発信によって接続されたＩＶＲ装置５００に中継する外線間接続処理を行う（Ｓ３０９）。ＩＶＲ装置５００は、受信した選択情報によって選択された音声情報案内を自動再生するとともに、自動再生された音声情報案内は、支援装置３００を介して（中継して）ユーザ端末１００に出力される（Ｓ５０３）。

次に、図８は、上述した音声メッセージ出力処理の処理フローを示す図である。ステップＳ３０５において、支援装置３００は、ユーザの発話音声認識結果に対応する選択情報（ルート情報）が生成できない（ユーザの発話音声認識結果に、ルート情報に紐付くキーワードの組み合わせがすべて含まれていない）と判別された場合、ステップＳ３１０に進む。

支援装置３００は、発話音声認識結果が、音声メッセージ出力処理対象であるか否かを判別する（Ｓ３１０）。例えば、発話音声認識結果にキーワードの組み合わせがすべて含まれておらず、かつキーワードの組み合わせのうちの少なくとも１つが含まれているか否かを判別する。判別の結果、キーワードの組み合わせのうちの１つのキーワードも含まれていないと判別された場合は（Ｓ３１０のＮＯ）、音声メッセージ出力処理を行わず、ステップＳ３１６に進み、ユーザ端末１００の着信呼をＩＶＲ装置５００に転送して直接接続する。

一方、ステップＳ３１０において、発話音声認識結果にキーワードの組み合わせがすべて含まれておらず、かつキーワードの組み合わせのうちの少なくとも１つが含まれていると判別された場合（Ｓ３１０のＹＥＳ）、支援装置３００は、音声メッセージ管理情報を参照して、発話音声認識結果に該当する音声メッセージを抽出し（Ｓ３１１）、ユーザ端末１００の音声メッセージを出力する（Ｓ３１２）。

支援装置３００は、ユーザ端末１００から入力される音声メッセージに対して回答した回答発話音声データを収集し、音声認識処理を行う（Ｓ３１３）。支援装置３００は、発話音声認識結果に対して音声メッセージが複数設定されている場合は（Ｓ３１４のＹＥＳ）、各音声メッセージを順次出力し、ステップＳ３１１からＳ３１４を繰り返し行い、各音声メッセージに対するユーザの回答発話音声データの収集及び音声認識処理を行う。

支援装置３００は、発話音声認識結果に対して設定された１つ又は複数の音声メッセージすべてを出力してユーザの回答発話音声データの収集及び音声認識処理を行った後（Ｓ３１４のＮＯ）、ステップＳ３０４と同様に、発話音声認識結果と回答発話音声認識結果とに基づいて、選択支援管理情報とマッチングし、ルート情報を特定する処理を行う（Ｓ３１５）。その後、ステップＳ３０５に進む。

次に、図１０から図１２を参照して、本実施形態の選択支援管理情報の自動更新処理について説明する。図４において説明したように、選択支援管理情報は、ＩＶＲ装置５００が提供する音声ガイダンスを解析し、音声ガイダンスを構成する１つ又は複数のメニューの各ガイダンス項目に含まれるキーワード及び識別情報に基づいて生成することができる。

そこで、本実施形態の支援装置３００は、解析部３２７及び情報管理部３２８を備え、ＩＶＲ装置５００が提供する音声ガイダンスが変更された場合に、自動的に選択支援管理情報を更新する自動更新処理を行う。この自動更新処理は、定期的に又は任意のタイミングで行うことができる。

解析部３２７は、通信／通話制御装置３１０を通じ、公衆交換電話網又はＩＰ網を介してＩＶＲ装置５００の外線番号に発信し、自動再生される音声ガイダンスの音声データを取得する。解析部３２７は、取得された音声データを音声認識制御部３２２に出力し、音声認識制御部３２２によって音声認識処理された又は外部の音声認識処理サーバから取得された音声認識結果に基づいて、音声ガイダンスの内容を解析する。

図１０の例のように、解析部３２７は、音声認識結果に基づいて、各メニュー１〜３のメニュー解析テーブルを生成することができる。図１０の例では、メニュー２においてガイダンス項目が追加されている。

情報管理部３２８は、解析部３２７によって解析された音声ガイダンスの内容に基づいて、選択支援管理情報のルート情報及びキーワードの生成処理、又は／及びルート情報及びキーワードの更新処理を行う。例えば、解析部３２７によって生成された各メニュー解析テーブルを参照し、メニュー２において追加されたガイダンス項目に対して上位階層のメニュー１のガイダンス項目と、下位階層のメニュー３のガイダンス項目との組み合わせを生成する。

図１１の例では、メニュー１のガイダンス項目「外貨預金」に対して追加されたメニュー２のガイダンス項目「イギリスポンド」と「人民元」に対して、メニュー階層間の組み合わせを生成することができる。情報管理部３２８は、追加されたガイダンス項目に対してメニュー階層間の組み合わせを階層構造に従って生成し、生成されたメニュー階層間の組み合わせにおいて、各メニューの各ガイダンス項目に含まれるキーワードと、対応する識別情報とを、各メニュー解析テーブルから抽出する。情報管理部３２８は、図１１の例のように、各メニュー解析テーブルから抽出されたキーワードの組み合わせと、メニュー階層順に並ぶ複数の識別情報で構成されるルート情報とを、新たな選択支援管理情報として登録する。

このように本実施形態の自動更新処理は、ＩＶＲ装置５００に任意のタイミングで発信し、ＩＶＲ装置５００が提供する音声ガイダンスを自動的に取得、解析して、メニュー解析テーブルを生成する。そして、生成されたメニュー解析テーブルに基づいて、選択支援管理情報を自動的に更新するので、ＩＶＲ装置５００の音声ガイダンスのメニューの追加や変更があっても事前にユーザに告知する必要がなく、かつユーザが希望した音声情報案内と異なる音声情報案内（変更前の音声ガイダンスに基づく意図と違う音声案内情報）が選択されることを抑制することができる。

なお、本実施形態の自動更新処理では、ＩＶＲ装置５００が出力する音声ガイダンスを音声認識して、音声認識されたガイダンス項目の識別情報をＩＶＲ装置５００に出力し、階層構造のメニュー間を自動的に切り替えて音声ガイダンスの各メニューの音声データを収集することができる。

つまり、解析部３２７は、階層構造に従う第１メニューの音声データを取得し、取得された第１メニューの音声データの音声認識結果（音声認識制御部３２２が処理し、解析部３２７に出力する）に基づいて、第１メニューのガイダンス項目に含まれるキーワードと識別情報とを抽出するとともに、音声ガイダンスの選択操作として、抽出された識別情報をＩＶＲ装置５００にリアルタイムに出力する。これにより、ＩＶＲ装置５００は、第１メニューに対する選択操作によって自動再生される第２メニューの音声データを出力する。解析部３２７は、第２メニューの音声データを取得すると、音声認識制御部３２２に出力し、第２メニューの音声データの音声認識結果に基づいて、第２メニューのガイダンス項目に含まれるキーワードと識別情報とを抽出する。これを階層構造に従う各メニューの数だけ繰り返し行い、図１０の例で示した各メニュー解析テーブルを生成することができる。

このとき、例えば、階層構造に従って上位の第１メニューに対する下位の第２メニューには、第２メニューが自動再生される状態において第１メニューの音声ガイダンスへの切り替え（戻る）を許容する切り替えガイダンス項目を含んでいることがある。図１０の例では、メニュー２、３の識別情報「９」に対応する切り替えガイダンス項目に相当する。このような場合、解析部３２７は、第２メニューの音声データを取得した後に、第２メニューの音声データの音声認識結果に含まれる切り替えガイダンス項目の識別情報を、第２メニューの選択操作としてＩＶＲ装置５００に出力する。ＩＶＲ装置５００は、切り替えガイダンス項目の識別情報の入力に応じて、音声ガイダンスを第１メニューに切り替える。解析部３２７は、第１メニューに戻った音声ガイダンスにおいて、第１メニューの選択操作として出力していないガイダンス項目の識別情報をＩＶＲ装置５００に出力し、例えば、下位の階層構造として第２メニューと並列に位置する第４メニューの音声データを取得してメニュー解析テーブルを生成することができる。

図１２は、本実施形態の自動更新処理フローを示す図である。支援装置３００は、ＩＶＲ装置５００の外線番号に発信する（Ｓ３５１）。ＩＶＲ装置５００は、音声ガイダンスを開始し（Ｓ５５１）、支援装置３００は、自動再生される音声ガイダンスの音声データを取得し、取得された音声データを音声認識制御部３２２に出力する（Ｓ３５２）。支援装置３００は、音声認識制御部３２２から出力される音声認識結果に基づいて、各メニュー毎にガイダンス項目に含まれるキーワードと選択情報（識別情報）を抽出し（Ｓ３５３）、各メニューのメニュー解析テーブルを生成する（Ｓ３５４）。

支援装置３００は、音声ガイダンスの選択操作として抽出されたいずれか１つの識別情報をＩＶＲ装置５００にリアルタイムに出力する（Ｓ３５５）。ＩＶＲ装置５００は、第１メニューに対する選択操作によって自動再生される音声データを出力する（Ｓ５５２）。ＩＶＲ装置５００は、第１メニューから切り替わった後に音声データを取得し、音声認識制御部３２２に出力する（Ｓ３５６）。このとき、上位のメニューから切り替わった後の次の音声データがメニューであるか否かを判別する（Ｓ３５７）。例えば、音声認識結果にガイダンス項目に必ず含まれる識別情報があるか否かを判別することで、収集された音声データがメニューガイダンスであるかを確認することができる。

第１メニューからガイダンスが切り替わった後に取得された音声データがメニューであると判別された場合（Ｓ３５８のＹＥＳ）、ステップＳ３５３からステップＳ３５５の処理を同様に行い（Ｓ３５９〜Ｓ３６１）、階層構造に従って順次切り替えられるメニューガイダンスを音声認識し（Ｓ５５３のＮＯからＳ５５２に戻る）、メニューの解析テーブルを各々生成する。そして、ステップＳ３５８において、音声認識された音声データがメニューでないと判別された場合、支援装置３００は、電話を切ってＩＶＲ装置５００との回線を切る（Ｓ３６２）。そして、支援装置３００は、生成された最新のメニュー解析テーブルに基づいて選択支援管理情報を更新する（Ｓ３６３）。

（第２実施形態）
図１３から図１７は、第２実施形態を示す図である。第２実施形態は、第１実施形態の音声ガイダンス選択支援システムを、ユーザ端末１００をアプリケーションとして実現した態様である。なお、上記第１実施形態と同様の構成について同符号を付して適宜説明を省略する。また、上記第１実施形態と異なる点を中心に説明し、他の同様の機能や構成について適宜説明を省略する。

図１３は、本実施形態の音声ガイダンス選択支援システムのネットワーク構成図である。本実施形態では、ユーザは、ユーザ端末１００においてＩＶＲ装置５００が提供する音声情報案内に関連する発話を行い、ユーザ端末１００から直接ＩＶＲ装置５００に電話をかける。ユーザ端末１００は、ユーザが発話した音声認識結果に基づいて、ＩＶＲ装置５００が提供する音声ガイダンスに対する選択情報を生成する。ユーザ端末１００は、ＩＶＲ装置５００に電話をかけた後、自動音声応答処理の開始に伴って、生成した音声ガイダンス選択情報を出力する。ＩＶＲ装置５００は、音声ガイダンス選択情報に基づいて、ユーザによる選択操作が行われているときは同じ音声ガイダンス制御を行い、音声情報案内を自動再生する。

本実施形態は、ユーザ端末１００のアプリケーションとして音声ガイダンス選択支援機能をインストールするだけで、ユーザによる選択操作を行わなくても既存の音声ガイダンスに従う所定の音声情報案内を自動再生させることができる。

図１４は、ユーザ端末１００の機能ブロック図及びネットワーク構成図である。ユーザ端末１００は、支援装置３００及び音声認識処理サーバ６００とネットワークを介して接続され、公衆交換電話網／ＩＰ網を介してＩＶＲ装置５００に電話をかけることができる。ユーザ端末１００は、通信／通話制御装置１１０、制御装置１２０、記憶装置１３０を含んで構成され、通信／通話制御装置１１０は、第１実施形態の通信／通話制御装置３１０と基本的には同じであり、公衆交換電話網（移動体通信網を含む）を通じたプッシュ回線方式のアナログ回線電話機能、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）網を介したＩＰ電話機能のいずれか一方又は両方の機能を備えている。

音声取得部１２１は、ユーザ端末１００において、音声ガイダンス選択支援機能が起動されると、音声取得部１２１は、不図示のスピーカーから支援メッセージを出力し、ユーザ端末１００においてユーザが発話した音声を不図示のマイクなどの集音装置を介して取得する。

音声認識制御部１２２は、音声認識制御部３２２と同様であり、音声取得部１２１によって取得されたユーザの発話音声データをテキストデータに変換する音声認識処理を行う。また、音声認識制御部１２２は、ネットワークを介して接続される外部の音声認識処理サーバ６００に、ユーザの発話音声データを送信し、音声認識処理サーバ６００から送信される音声認識結果を受信することもできる。

意図特定部１２３は、意図特定部３２３と同様であり、ユーザの発話音声認識結果に基づいて、ＩＶＲ装置５００が提供する音声ガイダンスに対する選択情報を特定する。選択支援管理情報は、記憶装置１３０に記憶されている。

意図特定部１２３は、図４の例のように、ユーザの発話音声に対する音声認識結果と、選択支援管理情報のキーワードとをマッチングして、ユーザの発話音声に対応するルート情報を特定する。音声ガイダンス選択情報生成部１２４は、音声ガイダンス選択情報生成部３２４と同じ機能であり、意図特定部１２３で特定されたルート情報に基づいて音声ガイダンス選択情報を生成する。

なお、本実施形態では、中継管理部３２５は備えていないが、中継管理部３２５によって遂行される以下の処理は、通信／通話制御装置１１０によって行われる。つまり、ＩＶＲ装置５００に外線発信し、開始されたＩＶＲ装置５００の所定の音声ガイダンスに対して、生成された音声ガイダンス選択情報を出力する。音声ガイダンス選択情報を構成する複数の識別情報を順次出力するタイミングは、上述したようにＩＶＲ装置５００の音声ガイダンス制御によって異なるように制御することができる。

音声メッセージ制御部１２５は、音声メッセージ制御部３２５と同じ機能を有し、上述した第１実施形態のユーザ意図補充処理を行う。記憶装置１３０には、図６に示した音声メッセージ管理情報が記憶されている。

本実施形態の支援装置３００は、解析部３２７及び情報管理部３２８を含んで構成することができ、上述した選択支援管理情報を更新する。更新された選択支援管理情報は、配信制御部３２９によってユーザ端末１００に配信することができる。配信制御部３２９は、その他にも本実施形態の音声ガイダンス選択支援機能に必要な各種情報をユーザ端末１００に配信し、記憶させるように制御することができる。

図１５から図１７は、本実施形態の音声ガイダンス選択支援システムの処理フローを示す図である。図１５に示すように、ユーザ端末１００は、ユーザ操作に基づいて音声ガイダンス選択支援プログラムを起動する（Ｓ１００１）。音声収集部１２１は、例えば、「お電話ありがとうございます。ご用件をお話ください。」の音声を出力する支援ガイダンスを開始する（Ｓ１００２）。

ユーザ端末１００は、ユーザの発話音声データに対して音声認識処理を行い、又は外部の音声認識処理サーバ６００を通じた音声認識処理により、音声認識結果を生成又は取得する（Ｓ１００３，Ｓ４０１、Ｓ４０２）。ユーザ端末１００は、音声認識結果がＯＫである場合（Ｓ１００４のＯＫ）、ステップＳ１００５に進み、選択支援管理情報を用いた音声認識結果に対するルート情報の特定処理を行う。

なお、音声認識結果がＮＧである場合（Ｓ１００４のＮＧ）、図１７に示すステップＳ１０１６に進み、ユーザ端末１００からＩＶＲ装置１００に直接電話を掛け、従来通りに直接ＩＶＲ装置５００との間で音声ガイダンスに従う選択操作をユーザに行ってもらう。ＩＶＲ装置５００は、ユーザ端末の着信呼に対して音声ガイダンスを開始し（Ｓ５００４）、音声ガイダンスの各メニューに従ってユーザが行った選択操作に基づいて、ユーザ端末１００は、ＰＢ信号等の選択情報をＩＶＲ装置５００に送出する（Ｓ１０１７）。ＩＶＲ装置５００は、受信した選択情報（ガイダンス項目の識別情報）に基づいて音声ガイダンス制御処理を行い（Ｓ５００５）、ユーザ端末１００に対して所定の音声情報案内を再生（提供）する（Ｓ５００６）。

図１５に戻り、ステップＳ１００５において、ユーザ端末１００は、選択情支援管理情報を参照してユーザの発話音声認識結果に対応する選択情報（ルート情報）が生成可能か否かを判別する。生成可能であると判別された場合（Ｓ１００６のＹＥＳ）、特定されたルート情報を用いて選択信号（音声ガイダンス選択情報）を生成し（Ｓ１００７）、ＩＶＲ装置５００に電話をかける（Ｓ１００８）。

ＩＶＲ装置５００は、ユーザ端末１００の着信呼に対して音声ガイダンスを開始する（Ｓ５００１）。ユーザ端末１００は、開始されたＩＶＲ装置５００の音声ガイダンスに対して生成された選択信号を出力する（Ｓ１００９）。ＩＶＲ装置５００は、ユーザ端末１００から受信した選択情報に基づく音声ガイダンス制御処理を行う（Ｓ５００２）。

ＩＶＲ装置５００は、受信した選択情報によって選択された音声情報案内を自動再生し、自動再生された音声情報案内がユーザ端末１００に出力される（５００３）。

図１６は、本実施形態の音声メッセージ出力処理の処理フローを示す図である。ステップＳ１００６において、ユーザ端末１００は、ユーザの発話音声認識結果に対応する選択情報（ルート情報）が生成できない（ユーザの発話音声認識結果に、ルート情報に紐付くキーワードの組み合わせがすべて含まれていない）と判別された場合、ステップＳ１０１０に進む。

ユーザ端末１００は、発話音声認識結果が、音声メッセージ出力処理対象であるか否かを判別する（Ｓ１０１０）。判別の結果、キーワードの組み合わせのうちの１つのキーワードも含まれていないと判別された場合は（Ｓ１０１０のＮＯ）、音声メッセージ出力処理を行わず、ステップＳ１０１６に進む。

ステップＳ１０１０において、発話音声認識結果にキーワードの組み合わせがすべて含まれておらず、かつキーワードの組み合わせのうちの少なくとも１つが含まれていると判別された場合（Ｓ１０１０のＹＥＳ）、ユーザ端末１００は、音声メッセージ管理情報を参照して、発話音声認識結果に該当する音声メッセージを抽出し（Ｓ１０１１）、ユーザ端末１００のスピーカーから音声メッセージを出力する（Ｓ１０１２）。

ユーザ端末１００は、ユーザ端末１００のマイクから入力される音声メッセージに対して回答した回答発話音声データを収集し、音声認識処理を行う（Ｓ１０１３，Ｓ４０１，Ｓ４０２）。ユーザ端末１００は、発話音声認識結果に対して音声メッセージが複数設定されている場合は（Ｓ１０１４のＹＥＳ）、各音声メッセージを順次出力し、ステップＳ１０１１からＳ１０１４を繰り返し行い、各音声メッセージに対するユーザの回答発話音声データの収集及び音声認識処理を行う。

ユーザ端末１００は、発話音声認識結果に対して設定された１つ又は複数の音声メッセージすべてを出力してユーザの回答発話音声データの収集及び音声認識処理を行った後（Ｓ１０１４のＮＯ）、発話音声認識結果と回答発話音声認識結果とに基づいて、選択支援管理情報とマッチングし、ルート情報を特定する処理を行う（Ｓ１０１５）。その後、ステップＳ１００６に進む。

以上、実施形態の音声ガイダンス選択支援システムについて説明したが、上記第１実施形態では支援装置３００とＩＶＲ装置５００とが公衆交換電話網／ＩＰ網を介して外線接続される態様について説明したが、これに限るものではない。例えば、支援装置３００が、ＩＶＲ装置５００の内線として構成することも可能である。すなわち、支援装置３００及びＩＶＲ装置５００がＰＢＸ配下の内線網で接続される構成であっても、音声ガイダンス選択支援システムを実現することが可能である。

また、ユーザ端末１００は、多機能携帯電話機やＰＤＡ(Personal Digital Assistant)等の移動通信端末装置、パーソナルコンピュータなどの通話機能、通信機能及び演算機能を備えた情報処理端末装置等が含まれる。

また、支援装置３００は、ハードウェア構成として上述以外にも、メモリ（主記憶装置）、マウス、キーボード、タッチパネル、スキャナー等の操作入力手段、プリンタなどの出力手段、補助記憶装置（ハードディスク等）等を備えることができる。

また、本発明の各機能は、プログラムによって実現可能であり、各機能を実現するために予め用意されたコンピュータプログラムが補助記憶装置に格納され、ＣＰＵ等の制御部が補助記憶装置に格納されたプログラムを主記憶装置に読み出し、主記憶装置に読み出された該プログラムを制御部が実行して、ユーザ端末１００や支援装置３００に本発明の各部の機能を動作させることができる。他方、本発明の各機能は、各々個別の制御装置で構成することができ、複数の制御装置を直接に又はネットワークを介して接続して支援装置３００を構成することもできる。

また、上記プログラムは、コンピュータ読取可能な記録媒体に記録された状態で、コンピュータに提供することも可能である。コンピュータ読取可能な記録媒体としては、ＣＤ−ＲＯＭ等の光ディスク、ＤＶＤ−ＲＯＭ等の相変化型光ディスク、ＭＯ（Magnet Optical）やＭＤ(Mini Disk)などの光磁気ディスク、フロッピー（登録商標）ディスクやリムーバブルハードディスクなどの磁気ディスク、コンパクトフラッシュ（登録商標）、スマートメディア、SDメモリカード、メモリスティック等のメモリカードが挙げられる。また、本発明の目的のために特別に設計されて構成された集積回路（ICチップ等）等のハードウェア装置も記録媒体として含まれる。

なお、本発明の実施形態を説明したが、当該実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００ユーザ端末
１１０通信／通話制御装置
１２０制御装置
１２１音声取得部
１２２音声認識制御部
１２３意図特定部
１２４音声ガイダンス選択情報生成部
１２５音声メッセージ制御部
１３０記憶装置
３００支援装置
３１０通信／通話制御装置
３２０制御装置
３２１音声取得部
３２２音声認識制御部
３２３意図特定部
３２４音声ガイダンス選択情報生成部
３２５中継管理部
３２６音声メッセージ制御部
３２７解析部
３２８情報管理部
３２９配信制御部
３３０記憶装置
５００自動音声応答（ＩＶＲ）装置
６００音声認識処理サーバ

Claims

ユーザからの着信呼に対して所定の音声ガイダンスを自動再生し、前記音声ガイダンスに従うユーザの選択操作に基づいて所定の音声情報案内を自動再生する自動音声応答装置と接続される支援装置であって、
前記音声ガイダンスは、ユーザが選択するための識別情報を含むガイダンス項目を複数含んでおり、
前記ガイダンス項目に含まれるキーワードに、自動再生される前記所定の音声案内に対応する前記識別情報を含むルート情報が紐付けられた選択支援管理情報を記憶する記憶部と、
ユーザからの着信を受け付ける通話制御部と、
着信したユーザの発話音声を取得する音声取得部と、
前記発話音声に対する音声認識結果と前記キーワードとをマッチングして、前記発話音声に対応する前記ルート情報を特定する特定部と、
特定された前記ルート情報に基づいて音声ガイダンス選択情報を生成する選択情報生成部と、
前記自動音声応答装置に発信し、開始された前記所定の音声ガイダンスに対して生成された前記音声ガイダンス選択情報を出力するとともに、前記音声ガイダンス選択情報が出力された後に前記ユーザの着信を前記自動音声応答装置に中継する中継部と、
を備えることを特徴とする支援装置。
前記音声ガイダンスは、前記所定の音声案内を自動再生するまでの前記音声ガイダンスの階層構造に従う複数のメニューを含み、かつ前記各メニューは、異なる複数の前記ガイダンス項目を含んでおり、
前記ルート情報は、前記各メニューにおける前記ガイダンス項目の前記識別情報を前記階層構造に従って順に並べた複数の前記識別情報の組み合わせであり、
前記キーワードは、順に並べられた複数の前記識別情報それぞれの前記各ガイダンス項目に含まれる各キーワードの組み合わせを含み、
前記特定部は、前記音声認識結果に前記キーワードの組み合わせがすべて含まれている場合に、前記キーワードの組み合わせに紐付く前記ルート情報を抽出する、
ことを特徴とする請求項１に記載の支援装置。
前記ユーザの着信呼に対して所定の音声メッセージを出力し、前記音声メッセージに対するユーザの回答発話を取得する音声メッセージ制御部をさらに有し、
前記特定部は、前記音声認識結果に前記キーワードの組み合わせがすべて含まれておらず、かつ前記キーワードの組み合わせのうちの少なくとも１つが含まれている場合に、前記音声メッセージ制御部に音声メッセージ出力要求を出力し、
前記音声メッセージ制御部は、前記音声認識結果に含まれていない前記キーワードに該当する前記識別情報の前記ガイダンス項目に基づいて生成される前記音声メッセージを再生し、
前記特定部は、前記音声メッセージに対する回答音声認識結果及び前記音声認識結果において前記キーワードの組み合わせをすべて含むか否かを判別し、前記キーワードの組み合わせに紐付く前記ルート情報を抽出する、
ことを特徴とする請求項２に記載の支援装置。
前記自動音声応答装置に発信し、自動再生される前記音声ガイダンスの音声データを取得し、取得された前記音声データの音声認識結果に基づいて前記音声ガイダンスの内容を解析する解析部と、
前記解析部によって解析された前記音声ガイダンスの内容に基づいて、前記選択支援管理情報の前記ルート情報及びキーワードの生成処理、又は／及び前記ルート情報及び前記キーワードの更新処理を行う情報管理部と、
をさらに有することを特徴とする請求項１から３のいずれか１つに記載の支援装置。
前記音声ガイダンスは、前記所定の音声案内を自動再生するまでの前記音声ガイダンスの階層構造に従う複数のメニューを含んでおり、
前記解析部は、第１メニューの前記音声データを取得し、取得された前記第１メニューの音声データの音声認識結果に基づいて、前記第１メニューの前記ガイダンス項目に含まれる前記キーワードと前記識別情報とを抽出するとともに、前記音声ガイダンスの選択操作として抽出された前記識別情報を前記自動音声応答装置に出力して、前記第１メニューに対する選択操作によって自動再生される第２メニューの前記音声データを取得し、取得された前記第２メニューの音声データの音声認識結果に基づいて、前記第２メニューの前記ガイダンス項目に含まれる前記キーワードと前記識別情報とを抽出することを特徴とする請求項４に記載の支援装置。
前記各メニューは、複数の異なる前記ガイダンス項目を含んでおり、
前記第２メニューは、前記第２メニューが自動再生される状態において前記第１メニューの前記音声ガイダンスへの切り替えを許容する切り替えガイダンス項目を含んでおり、
前記解析部は、第２メニューの前記音声データを取得した後に、前記第２メニューの音声データの音声認識結果に含まれる前記切り替えガイダンス項目の前記識別情報を、前記第２メニューの選択操作として前記自動音声応答装置に出力し、前記第１メニューに戻った前記音声ガイダンスにおいて、前記第１メニューの選択操作として出力していない前記ガイダンス項目の前記識別情報を前記自動音声応答装置に出力することを特徴とする請求項５に記載の支援装置。
ユーザからの着信呼に対して所定の音声ガイダンスを自動再生し、ユーザが選択するための識別情報を含むガイダンス項目を複数含んだ前記音声ガイダンスに従うユーザの選択操作に基づいて所定の音声情報案内を自動再生する自動音声応答装置と接続されるコンピュータによって実行されるプログラムであって、
ユーザからの着信を受け付ける通話制御装置を通じて、着信したユーザの発話音声を取得する第１機能と、
前記ガイダンス項目に含まれるキーワードに、自動再生される前記所定の音声案内に対応する前記識別情報を含むルート情報が紐付けられた選択支援管理情報を用いて、前記発話音声に対する音声認識結果と前記キーワードとをマッチングして、前記発話音声に対応する前記ルート情報を特定する第２機能と、
特定された前記ルート情報に基づいて音声ガイダンス選択情報を生成する第３機能と、
前記自動音声応答装置に発信し、開始された前記所定の音声ガイダンスに対して生成された前記音声ガイダンス選択情報を出力するとともに、前記音声ガイダンス選択情報が出力された後に受け付けた前記ユーザの着信を前記自動音声応答装置に中継する第４機能と、
を実現させるためのプログラム。
ユーザからの着信呼に対して所定の音声ガイダンスを自動再生し、ユーザが選択するための識別情報を含むガイダンス項目を複数含んだ前記音声ガイダンスに従うユーザの選択操作に基づいて所定の音声情報案内を自動再生する自動音声応答装置と接続される通話機能又は／及び通信機能を備えた携帯型情報処理装置によって実行されるプログラムであって、
前記ガイダンス項目に含まれるキーワードに、自動再生される前記所定の音声情報案内に対応する前記識別情報を含むルート情報が紐付けられた選択支援管理情報を記憶する機能と、
音声収集機能によって収集された前記ユーザの発話音声に対する音声認識結果と前記キーワードとをマッチングして、前記発話音声に対応する前記ルート情報を特定する第２機能と、
特定された前記ルート情報に基づいて音声ガイダンス選択情報を生成する第３機能と、
前記自動音声応答装置に発信し、開始された前記所定の音声ガイダンスに対して生成された前記音声ガイダンス選択情報を出力する第４機能と、
を実現させるためのプログラム。