JP2006317722A

JP2006317722A - 音声処理装置

Info

Publication number: JP2006317722A
Application number: JP2005140582A
Authority: JP
Inventors: Kenji Nagamatsu; 健司永松; Tetsuo Shinagawa; 哲夫品川; Fumiko Takada; 文子高田
Original assignee: Xanavi Informatics Corp
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2005-05-13
Filing date: 2005-05-13
Publication date: 2006-11-24
Anticipated expiration: 2025-05-13
Also published as: JP4684739B2

Abstract

【課題】シナリオに基づいて対話処理を行う音声対話型端末装置で、利用者の状況に応じて頻繁に利用されるコマンドをシナリオから抽出することで簡単に起動できるようにする音声対話型端末装置を提供することである。
【解決手段】シナリオデータから抽出されたコマンド候補語彙、および、そのコマンドが起動された状況を履歴情報として保存しておき、その履歴情報をもとに、現在の状況に適合したコマンドの集合を動的に決定する。
【選択図】図１

Description

本発明は、音声対話による操作が可能な音声対話型端末装置に関するものである。

従来、カーナビゲーション装置に代表される音声対話型端末装置では、装置が提供する複数の機能の中から一つを起動する場合に、その機能を選択するための対話が必要であった。例えば、目的地設定を目的地の電話番号から指定するという機能を実行する場合には、まず目的地設定機能を音声入力により起動したのち、さらに電話番号指定機能を音声入力により起動しなければならない。これは、認識する語彙が多くなるほど音声認識精度が下がるために、認識語彙を階層化して管理するために必要なことであった。

この問題に対して、例えば、アプリケーションの動作状態に応じて管理されるグローバルコマンドを用いる技術がある（例えば、特許文献１参照）この文献の手法では、各機能を起動できる音声コマンドをグローバルコマンドとして装置全体で管理しておき、各機能が現在実行中かどうか、起動可能かどうかなどの状態に応じて、グローバルコマンドの有効・無効を制御する。そして、音声入力されたコマンドがグローバルコマンドであると判断され、かつ、そのグローバルコマンドが有効であった場合には、そのコマンドに対応づけられた機能が起動するという手法である。

更に、例えばカーナビの場合に、ユーザがある状況のもとでどのような目的地を設定したかに関する履歴を保存しておき、現時点がどのような状況にあるかに基づいて、その履歴の中からユーザが目的地として設定しそうな地名を認識語彙として優先利用する技術がある（例えば、特許文献２参照）。これによって、ユーザの利用履歴と現在の状況に応じた認識語彙を利用できることになり、認識率の向上を図っている。

特開２００４−２３４２７３号公報

特開２００５−０３０９８２号公報

このように、語彙を階層的に管理する音声対話型端末装置では、ユーザが必要とする機能を実行するまでに、複数の音声コマンドを入力しなくてはならない。そのため、頻繁に利用する機能であっても、すぐには実行できないため、ユーザには使いづらいものとなってしまう。特許文献１の手法を用いれば、特定の機能を１回の音声入力で起動できるようにはなるが、グローバルコマンドとして利用できるコマンドの種類や、そのコマンドがどういう条件で有効・無効になるかは、装置および機能を提供するメーカーの設計に依存する。特許文献１ではユーザ側でその条件を変更できる仕組みも考案されているが、頻繁に利用する機能は必ずしも固定ではなく、装置を利用する時刻やユーザが置かれている状況によって異なるため、ユーザに変更作業を行なわせるのはかえって使いづらいものとなる可能性がある。又、特許文献２では、利用履歴と現在状況を勘案することで優先される認識語彙の順番を決定するが、予め認識語彙は設定しておくことが必要となる。

しかしながら、音声対話を行う端末装置では、数多くのシナリオデータを、ユーザとのインタラクションに応じて、適宜、ダウンロードしてくるようなネットワーク型音声対話端末では、予め認識語彙を定義することが困難である。

そこで、本願では、シナリオに基づいて音声対話を行う音声対話型端末装置においても、利用者の状況に応じて頻繁に利用される機能を少ない音声コマンド入力で起動できるようにする音声対話型端末装置を提供することを課題とする。

この課題を解決するために、本願で開示する代表的な発明は以下の通りである。
複数の音声対話型アプリケーションを記録する記録部と、これらの音声対話型アプリケーションを起動するコマンドを記録する記録部と、音声入力部と、入力される音声に基づいて上記音声対話型アプリケーションを起動するコマンド起動部と、センサーから取得される情報と上記起動されるコマンドの履歴を管理する履歴管理部と、上記管理される履歴に基づいて上記記録されるコマンドの認識優先順位を決定するメインコマンド設定部とを有する音声処理装置。特にメインコマンド決定部は音声対話型アプリケーションを構成する対話スクリプトから単語を抽出し、該単語を該音声対話型アプリケーションと対応づけて上記コマンド記録部に記録する。

本発明によれば、シナリオによる音声対話を利用して例えば情報提供を行うような端末装置において、コマンドの最上位階層から１回のコマンド入力で起動できるコマンドを、対話シナリオから自動抽出するとともに、利用者や端末装置が現在どのような状況に置かれているかに応じて変更することで、その状況に適したコマンドを利用者が容易に起動することが可能となる。

以下、本発明の実施の形態について図面を参照しながら説明する。
図１は、本発明の音声対話型端末装置の一実施例を示す構成図である。この実施例では、本発明を、コマンドの表示データと認識語彙を自動推定する音声対話型端末装置として実施した装置について説明する。この実施例１では、コマンドを起動するために、画面にメニュー表示される表示データ４００、および、音声入力する際に発声する内容である認識語彙４１０を、コマンド実行の際の音声対話スクリプトデータをもとに自動推定する機能を有する音声対話型端末装置を提供する。これにより、新しいシナリオデータが、例えば、ネットワークからダウンロードされた場合であっても、表示データ４００や認識語彙４１０が固定のままではなく、利用者が記憶しやすく利用しやすい音声対話型端末装置を提供することが可能となる。

図１において、音声入力部１１０は音声コマンドとして入力される音声信号が入力される装置であり、例えば、ヘッドセットのマイクロフォンや車のバックミラーやサンバイザー部に設置されたマイクロフォンを利用することができる。

対話スクリプトＤＢ１１５は、この音声対話型端末装置が提供するコマンド機能で実行される音声対話処理を定義する対話スクリプトデータを格納するデータベースである。このスクリプトデータには、コマンド機能を実行するにあたって、端末装置が利用者との間で交わさなければならない対話の流れを指定するデータが記述されている。この対話シナリオデータの記述方法としては、例えば、ＶｏｉｃｅＸＭＬ方式などの既存の音声対話データの記述手法を用いることができる。

音声認識部１２０は、音声入力装置１１０で入力された音声信号に対して音声特徴量の計算を行った後、メインコマンドＤＢ１９０に登録されている認識語彙の中のどれが音声入力されたかを決定する音声認識処理を行なう。

認識語彙ＤＢ１３０は、各時点で音声コマンドとして認識すべき単語のリストを登録した記憶装置であり、例えば、音声認識の標準的な文法であるＳＲＧＦ（ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＧｒａｍｍａｒＦｏｒｍａｔ）などで記述することもできる。

認識語彙変換部１４０は、各時点でどのような機能が起動できるか、またはどのようなコマンが入力できるかを指定するメインコマンドＤＢ１９０を参照し、そこに登録されているメインコマンドを音声入力するための認識語彙データに変換する装置である。ここでは、対話スクリプトＤＢ１１５に格納されている対話スクリプトデータから認識語彙データが自動抽出され、認識語彙ＤＢ１３０に格納される。

次に、メインコマンド入力部１５０は、各時点でどのような機能が起動できるか、またはどのようなコマンドが入力できるかを指定するメインコマンドＤＢ１９０を参照し、そこに登録されているメインコマンドを、音声コマンド以外のインタフェースで入力するための装置である。例えば、端末装置にボタンを複数設置して押されたボタンを検出したり、表示部１６０をタッチパネルにして押された位置を検出したりすることで実現できる。

表示データ変換部１５５は、各時点でどのような機能が起動できるか、またはどのようなコマンドが入力できるかを指定するメインコマンドＤＢ１９０を参照し、そこに登録されているメインコマンドを起動するメニューとして画面表示する表示データに変換する装置である。この表示データとしては、対話スクリプトＤＢ１１５に格納されている対話スクリプトデータから表示データが自動抽出され、メインコマンド表示部１６０に渡される。

メインコマンド表示部１６０は、各時点でどのような機能が起動できるか、またはどのようなコマンドが入力できるかを指定するメインコマンドＤＢ１９０を参照し、そこに登録されているメインコマンドを本音声対話型端末装置の画面として表示する装置である。これは、液晶パネルやＣＲＴなどの表示機器を用いることができる。

次に、コマンド起動部１７０は、音声認識部１２０やメインコマンド入力部１５０で入力されたメインコマンドに対応する機能を機能群１８０の中から選択して、実際に起動する装置である。起動されたコマンドに関する情報は、履歴管理部２１０に渡される。
次に、メインコマンドＤＢ１９０は、各時点で実行可能な機能に対応するコマンド（メインコマンド）のリストを格納する記憶装置である。

メインコマンド設定部２００は、ユーザがこれまでにどのような状況でどのような機能を実行したかという履歴情報を履歴管理部２１０から受け取り、また、現在がどのような状況にあるかに関する状況情報をセンサ群２３０から受け取り、各時点において実行可能でユーザが利用する可能性の高い機能に対応するコマンドを決定し、それをメインコマンドＤＢ１９０に格納する装置である。

履歴管理部２１０は、コマンド起動部１７０から起動されたコマンド情報を受け取り、また、現在がどのような状況にあるかに関する状況情報をセンサ群２３０から受け取り、それらを関連づけて履歴情報ＤＢ２２０に格納する装置である。また、履歴情報ＤＢ内の情報が不要になった場合には、それらの削除なども行なう。

履歴情報ＤＢ２２０は、履歴管理部２１０で作成された履歴情報を格納する記憶装置である。
センサ群２３０は、現在がどのような状況であるかに関する状況情報を取得するセンサの集まりである。これらのセンサとしては、例えば、現在時刻を取得する時計や、現在位置を取得するＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）装置などが考えられる。
以上のように構成された実施形態１の音声対話型端末装置について、以下にその動作を説明する。

図３に実施形態１のフローチャートを示す。
実施形態１の機能が動作を開始すると、まず、初期設定処理３００によりシステム全体の初期化が行われる。次にメインコマンド表示部１６０により、メインコマンド表示処理３１０が実行される。この処理は、メインコマンドＤＢ１９０に格納されているメインコマンド情報をもとに、入力可能なコマンド（メインコマンド）のすべて、もしくは一部を音声対話型端末装置の表示装置に表示するものである。例えば、メインコマンドＤＢ１９０にメインコマンド情報として、図４のようなものが格納されている場合、メインコマンド表示部１６０は、そのうち表示データが設定されている項目について、その上位のいくつかを、音声対話型情報端末装置の表示画面に図４のようにメニューとして表示する。このメニューは文字であってもよいし、また、図４のデータに付随するアイコンデータを持たせて、アイコンとして表示してもよい。

次に、メインコマンド入力部１５０によって、コマンド入力処理３２０が実行される。この処理は、メインコマンドＤＢ１９０に格納されているメインコマンド情報をもとにして、音声入力可能なコマンド（メインコマンド）が音声入力部１１０と音声認識部１２０を通して音声入力されるか、または音声対話型端末装置の表示装置に表示されたメニューコマンドのどれかに対応するボタンが押されるまで待ち、メインコマンド入力部１５０は音声入力されたコマンドもしくはボタンが押されたコマンドに対応するＩＤを特定して出力する。ここで音声入力可能なコマンドは、図４に示すメインコマンド情報の中の認識語彙４１０で指定される。メインコマンド情報のすべての認識語彙データを認識対象にしてもよく、また、上位のいくつかに限定して認識対象としてもよい。また、音声入力部１１０と音声認識部１２０で行われる認識処理では、メインコマンド情報内の認識語彙４１０としてカナ文字列もしくは音素文字列を登録しておいて音素ＨＭＭを用いた音声認識技術を用いることで特定してもよいし、または、認識語彙４１０としてユーザが過去に発声した音声データそのものを登録しておいてＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチ技術を用いることで特定してもよい。

次に、入力されたコマンドに対応するＩＤをメインコマンド入力部１５０から受け取り、コマンド起動部１７０はコマンド起動処理３３０を実行する。この処理は渡されたＩＤに対応するコマンドの処理を実際に起動する処理である。この処理は、例えば、図４に示すメインコマンド情報に付随する起動アプリ情報４２０を参照し、ＩＤに対応するアプリケーションプログラムを実際に起動するなどして実現する。この起動処理によって起動されたプログラムは、フローチャート図３の以降の処理とは別のタスクとして動作する。

こうしてアプリケーションプログラムを起動した後、続いて、履歴管理部２１０は状況情報取得処理３４０を実行する。この処理は、本音声対話型端末装置が現在どのような状況にあるかを表す情報を、図２におけるセンサ群２３０から収集する処理である。これらのセンサから得られる状況情報としては、現在の時刻、日付、曜日や、位置（緯経度、地名、道路名）などがある。さらには、センサではなく、他の情報処理装置と組み合わせて、端末装置の利用者がどのような意図や目的で本装置を使っているかを入力させた情報を利用してもよい。この入力方法としては、例えば、特開２００４−１４４５３１に開示されている手段を用いることができる。

次に、履歴管理部２１０は、コマンド起動処理３３０で起動したコマンドのＩＤ、および、状況情報取得処理３４０で取得された情報を受け取り、履歴データ作成処理３５０を実行する。この処理では、例えば、図６に示す構造の履歴データを作成する。こうして作成された履歴データに対して、履歴管理部２１０は履歴データ登録処理３４０を実行し、履歴データは履歴情報ＤＢ２２０に格納される。

次に、メインコマンド設定部２００により、メインコマンド設定処理３７０が実行される。この処理は、履歴情報ＤＢ２２０に格納されている履歴データ、および状況情報取得処理３４０で取得された現在の状況に関するデータをもとに、メインコマンドＤＢ１９０に格納されているメインコマンド情報（図４）の内容および順序を更新する処理である。
このメインコマンド設定部２００内で実行されるメインコマンド設定処理３７０の動作を、フローチャート図７を用いて説明する。フローチャート図７の処理はすべて、メインコマンド設定部２００が実行する処理である。
まず、履歴データ取得処理４３０が、履歴情報ＤＢ２２０から履歴情報全体を取得する。

次に、取得した履歴情報すべてについて、個々の履歴情報内の状況、例えば、図６における起動時刻、起動場所、利用目的などと、メインコマンド設定処理３７０が状況情報取得処理３４０から取得した現在の状況に関する状況情報との間で比較を行い、その類似度に応じてスコアを計算する状況データ比較・スコア化処理４４０が実行される。この比較・スコア化処理は、例えば、図８に示す類似スコア表を参照して、対応する値を取得することで実現できる。図８は時刻に関する類似スコアを定義する表であるが、場所や利用目的など他の状況データに関しても同様の類似スコア表を作成することは容易である。また、図８に示すような類似スコア表を用いずとも、例えば、場所に関する状況データが、ＧＰＳから取得された緯度・経度情報として格納されている場合、現在位置の緯度・経度情報との距離を算出してそれを類似スコアとして用いてもよい。また、利用目的のように、複数の目的の間で概念的な上位・下位関係（木構造）が定義できる場合には、二つの目的間での概念リンク数を類似スコアとして用いてもよい。最後に、一つの履歴情報内の個々の状況データに対して求めた類似スコア値をもとに、その履歴情報に対するスコア値を計算する。これは、単純な加算でもよいし、状況データ間に重みをつけた加算をするなどの手法をとればよい。以上の処理を、すべての履歴情報に対して実行する。

次に、スコア加算処理４５０が実行される。ここでは、状況データ比較・スコア化処理４４０で計算された個々の履歴情報に対するスコア値をもとに、同じコマンドＩＤを持つ履歴情報に対するスコア値を加算する。この結果、図９に示すように、コマンドＩＤごとにスコア合計値が求まる。また、単純な加算ではなく、古い履歴情報の重みを小さくして加算するなどの変更を施すことも可能である。

次に、スコアでの並び替え処理４６０が実行される。この処理では、スコア加算処理４５０から出力されたコマンドＩＤごとのスコア合計値データ（図９）を、スコア合計値の大きい順番に並べ替える処理である。

次に、表示データ決定処理４７０が実行される。この処理では、スコア合計値で並べ替えられたコマンドＩＤリスト（図９）に対して、それぞれのコマンドを簡潔に言い表す文字列データ、もしくはそれぞれのコマンドを代表するアイコンデータの決定を行う。この処理は、単純には、各コマンドに対する表示データを定義するデータ、例えば図１０のようなデータを用いれば実現できる。

次に、認識語彙決定処理４８０が実行される。この処理では、スコア合計値で並べ替えられたコマンドＩＤリスト（図９）に対して、まだ対応する音声コマンドが設定されていない場合には、それぞれのコマンドを起動する音声コマンドの認識語彙の決定を行う。この処理は、単純には、各コマンドに対する表示データを定義するデータ、例えば図１０のようなデータを用いれば実現できる。

このようにして作成されたメインコマンドデータは、メインコマンド設定部２００においてメインコマンド登録処理３８０を実行することで、メインコマンドＤＢ１９０に格納される。この更新処理により、例えば、以前は図４の内容だったメインコマンドデータが、図１１に示すものへと変更される。

この更新されたメインコマンドデータは、現在の状況に最もよく適合するコマンドの順番に並んでいるはずである。メインコマンド表示部１６０やメインコマンド入力部１５０は、この新しいメインコマンドデータを用いてメインコマンド表示処理３１０とメインコマンド入力処理３２０を実行することで、現在の状況に最もよく適合するコマンドが優先的に画面に表示されて利用者の利便性を向上させるとともに、音声入力に際しても現在の状況に最もよく適合するコマンドから先に認識処理が行われるために音声認識率が向上する可能性が高くなる。

メインコマンド設定部２００は、メインコマンド登録処理３８０を行ってメインコマンドＤＢ１９０に格納されているメインコマンド情報（図４、図１１）の内容を現在の状況に合わせて更新する。次に、認識語彙変換処理６００を実行する。この認識語彙変換処理６００では、そのコマンドＩＤに対応するシナリオデータ内部から特徴的な語句を抽出し、そのコマンドの認識語彙として設定する処理である。よって、認識語彙変換処理６００は、すべてのコマンドＩＤとそれらに対応するシナリオデータに対して、毎回、実行する必要はない。まだ、認識語彙の抽出が行われていないシナリオデータ、例えば、ダウンロードした直後のシナリオなどに限定して処理を行うことで、実行時間を短縮することが可能である。この認識語彙変換処理６００内での処理の流れは図１２のフローチャートのようにして実現することができる。以下、この図１２のフローチャートにしたがって、メインコマンド設定部２００で実行される認識語彙変換処理６００の処理内容を説明する。

認識語彙変換処理６００が起動されると、まず、認識語彙未登録コマンド検索処理６１０が実行される。この処理では、メインコマンドＤＢ１９０に格納されているメインコマンド情報（図４、図１１）の中から、対応する認識語彙データが認識語彙ＤＢ１３０にまだ登録されていないものを検索する。
ここで、認識語彙データが登録されていないメインコマンドデータが存在しない場合は、認識語彙変換処理を行う必要がないため、認識語彙変換処理６００を終了する。

一方、未登録のデータが存在する場合、次に、対話スクリプト取得処理６２０が実行される。この処理では、認識語彙データが未登録のコマンドＩＤに対して、そのコマンド機能の実行の際に利用される対話スクリプトデータ（図１３）を、対話スクリプトＤＢ１１５から検索してくる。メインコマンド情報（図４、図１１）を見てそのコマンドＩＤに対応する起動アプリが分かれば、対応する対話スクリプトデータは特定することは容易である。

次に、取得した対話スクリプトデータから特徴的な単語を抽出する特徴単語抽出処理６３０が実行される。対話スクリプトデータには、対話処理の中で端末装置が発声する文章および、それに対して利用者がどのような応答（音声入力）が可能かを指定する認識単語リストが指定されている。この特徴単語抽出処理６３０では、これらの文章、および認識単語リストをすべて単語に分割した後、その中で、最も特徴的な単語を特徴単語として出力する。特徴的な単語の決定手法としては、例えば、図１４に示すような単語出現確率データ（新聞記事など大量の文章データ中に含まれる単語の出現確率を求めたデータ）を参照して最も出現確率の低い単語を特徴単語とする手法もあるし、または、分割した単語の中からＤＦ・ＩＤＦ（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ・ＩｎｖｅｒｓｅｄＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）指標を用いて特徴単語を決める手法もある。または、利用者がこのコマンド機能を実行する際に入力した音声コマンドの中から頻出した単語自体を選ぶという手法も考えられる。このような処理を行うことにより、そのシナリオデータ内で特徴的な単語、すなわち、ユーザの記憶に残りやすく、かつ、ユーザがそのシナリオと対応づけて覚えやすい語彙を抽出することが可能となる。

次に、抽出された特徴単語を実際に認識語彙として登録するかどうかを利用者に確認する確認プロンプト提示処理５６０が実行される。この提示処理は表示装置に文字またはグラフィックで表示してもよいし、確認入力を促す音声を流してもよい。

次に、利用者からの登録確認応答が入力されるのを待つ確認入力処理５７０が実行される。この処理には、音声対話型端末装置の持つ何らかの入力手段、ボタンの押下や、タッチパネル上でのタッチ、または音声認識による方法などいろんな手段を用いることができる。ここで、もし、特徴単語抽出処理のやり直しが指示された場合、特徴単語抽出処理６３０に戻って、再度、特徴単語の抽出処理がやり直される。

抽出された特長単語に対して利用者が認識語彙としての登録確認をＯＫした場合、次に、認識語彙登録処理６４０が実行される。この処理では、現在、認識を登録しようとしているコマンドＩＤと、特徴単語抽出処理６３０で抽出された特徴単語、すなわち認識語彙を対応づけたデータを起動アプリケーションと対応づけて認識語彙ＤＢ１３０に追加する。そして、認識語彙未登録コマンド検索処理６１０に戻って、認識が登録されていない他のコマンドＩＤへの登録処理が実行される。一度に大量の認識語彙登録を利用者に要求しないように、１回に繰り返して実行できる登録処理の回数に制限を設けることも可能である
こうして、メインコマンド設定部２００において、認識語彙変換処理６００が終了すると、次に、表示データ変換処理５９０が実行される。この表示データ変換処理５９０は、対話スクリプトデータから、音声認識用の認識語彙データを抽出するか、画面表示用の文字列表示データを抽出するかの違いであり、実質、図１２に示す認識語彙変換処理６００と同様の処理で実現可能である。この表示データ変換処理５９０で抽出された特徴単語データは、メインコマンド情報（図４、図１１）の表示データ４００として登録されるとともに、コマンド機能を起動するためのメニューとして表示される。

以上の処理により、本発明の第１の実施例では、コマンドを起動するための認識語彙やメニューへの表示データを、コマンドが利用する対話スクリプトデータから抽出することで、利用者がより簡便に本音声対話型端末装置を利用することを可能にする。つまり、コマンド機能を実行する上での対話スクリプトに含まれる特長的な単語、すなわち、利用者が記憶しやすい単語を認識語彙や表示データとすることで、より簡便にコマンド機能の起動ができるようになる。さらに、実施例１で説明したように現在の状況によく適合するコマンドを優先的に利用可能な画面レイアウトを提供する上、また、そのようなコマンドを起動する音声認識処理が高精度になるように認識語彙自身が並び替えられるという機能も実現する。

次に、本発明を音声コマンド登録型の音声対話型端末装置として実施した装置について説明する。この実施例２では、利用者自身が音声コマンドとして入力可能な単語を自由に設定できる機能を有する音声対話型端末装置を提供する。
以下、構成図図２にしたがい、実施例２の構成について、実施例１の構成図図１と異なる部分のみを説明する。

音声マッチ部５００は、音声入力部１１０で入力された利用者が発声したコマンド音声と、コマンド音声ＤＢ５１０に格納されている複数の音声データとを比較し、そのうちのどのコマンド音声が発声されたかを特定する処理を行う。この比較・特定処理は、各音声データから求めたケプストラムやＦＦＴ（高速フーリエ変換）係数などの音声特徴量を、ＤＰマッチ技術を用いてマッチングを行うことで実現することができる。

コマンド音声ＤＢ５１０は、入力可能なコマンド音声データを格納したデータベースである。このデータベースには、コマンド音声登録部５２０によって利用者が指定したコマンド音声が、対応するコマンドＩＤとともに格納されている。ここで格納するコマンド音声データは、コマンド音声のＰＣＭデータそのものでもよく、また、音声マッチ部で計算する音声特徴量の形態に変換した結果のデータでもよい。コマンド音声のＰＣＭデータそのものが格納されている場合、例えば、図１６に示すようなデータ構成をとることができる。

コマンド音声登録部５２０は、メインコマンドＤＢ１９０に格納されているメインコマンド情報のうち、まだコマンド音声が登録されていないものについて、そのコマンドに対応づけられたアプリケーションを起動するためのコマンド音声データを利用者に登録させる処理を行う。

以下、フローチャート図１５にしたがい、このコマンド音声登録部５２０の処理を説明する。
コマンド音声登録部５２０が起動されると、まず、音声未登録コマンド検索処理５３０が実行される。この処理では、メインコマンドＤＢ１９０に格納されているメインコマンド情報（図４、図１１）の中から、対応するコマンド音声データがコマンド音声ＤＢ５１０にまだ登録されていないものを検索する。この処理は、コマンド音声ＤＢ５１０に格納されているデータ（図１６）と、メインコマンドＤＢ１９０に格納されているデータ（図４、図１１）を比較するだけでよい。
ここで、コマンド音声データが登録されていないメインコマンドデータが存在しない場合は、コマンド音声登録を行う必要がないため、コマンド音声登録部を終了する。

一方、未登録のデータが存在する場合、次に、音声登録プロンプト提示処理５４０が実行される。この処理では、コマンド音声データが未登録のコマンドＩＤに対して、登録するコマンド音声を入力するように利用者に促す。この提示処理は、図１７のように表示装置に文字またはグラフィックで表示してもよいし、音声入力を促す音声を流してもよい。この際、実施例１の認識語彙変換処理６００で実行されるシナリオデータからの特徴単語抽出処理６３０を実行し、そのシナリオデータ内で特徴的な単語を抽出してコマンド音声の候補としてユーザに提示することも可能である。こうすることで、ユーザは、他のシナリオの語彙と重なったり、または、紛らわしい語彙を登録してしまうことを避けることができる。

次に、登録するコマンド音声を利用者が発声するまで待つ音声入力処理５５０が実行される。ここでは、音声入力部１１０から何らかの音声データが入力されるまで待つ処理を行う。
次に、入力された音声データを実際にコマンド音声として登録するかどうかを利用者に確認する確認プロンプト提示処理５６０が実行される。この提示処理も、図１７と同様に表示装置に文字またはグラフィックで表示してもよいし、確認入力を促す音声を流してもよい。

次に、利用者からの登録確認応答が入力されるのを待つ確認入力処理５７０が実行される。この処理には、音声対話型端末装置の持つ何らかの入力手段、ボタンの押下や、タッチパネル上でのタッチ、または音声認識による方法などいろんな手段を用いることができる。ここで、もし、コマンド音声入力のやり直しが指示された場合、音声登録プロンプト提示処理５４０に戻って、再度、コマンド音声の登録処理がやり直される。

入力されたコマンド音声に対して利用者が登録確認をＯＫした場合、次に、コマンド音声登録処理５８０が実行される。この処理では、現在、コマンド音声を登録しようとしているコマンドＩＤと、音声入力処理５５０で入力されたコマンド音声データを対応づけたデータ（図１６）をコマンド音声ＤＢ５１０に追加する。そして、音声未登録コマンド検索処理５３０に戻って、コマンド音声が登録されていない他のコマンドＩＤへの登録処理が実行される。もちろん、一度に大量のコマンド音声登録を利用者に要求しないように、１回に繰り返して実行できる登録処理の回数に制限を設けることも可能である。

以上の処理により、本発明の第２の実施例では、コマンドを起動するための音声データ自体を利用者自身が指定することが可能となる上、実施例１で説明したように現在の状況によく適合するコマンドを優先的に利用可能な画面レイアウトを提供する上、また、そのようなコマンドを起動する音声のマッチング処理が高精度になるようにコマンド音声データ自身が並び替えられるという機能を実現する。

本発明の音声対話型端末装置の第１の実施例を示す構成図。本発明の音声対話型端末装置の第２の実施例を示す構成図。本発明の音声対話型端末装置の第１の実施例のフローチャート。本発明の音声対話型端末装置のメインコマンド情報の１構成例。本発明の音声対話型端末装置の画面レイアウトの１構成例。本発明の音声対話型端末装置の履歴データの１構成例。本発明の音声対話型端末装置のメインコマンド設定処理のフローチャート。本発明の音声対話型端末装置の状況データの類似スコア表の１構成例。本発明の音声対話型端末装置のコマンドＩＤごとのスコア合計値データの１例。本発明の音声対話型端末装置の表示データ・認識語彙定義データの１構成例。本発明の音声対話型端末装置のメインコマンド情報の１構成例。本発明の音声対話型端末装置の認識語彙変換処理６００のフローチャート。本発明の音声対話型端末装置で用いる対話スクリプトの１例。本発明の音声対話型端末装置の特徴単語抽出処理６３０で用いる単語出現確率データの１例。本発明の音声対話型端末装置のコマンド音声登録部のフローチャート。本発明の音声対話型端末装置のコマンド音声ＤＢの登録データの１例。本発明の音声対話型端末装置のコマンド音声登録部における音声登録プロンプト提示の１例。

符号の説明

１１０…音声入力部
１１５…対話スクリプトＤＢ
１２０…音声認識部
１３０…認識語彙ＤＢ
１４０…認識語彙変換部
１５０…メインコマンド入力部
１５５…表示データ変換部
１６０…メインコマンド表示部
１７０…コマンド起動部
１８０…コマンド機能群
１９０…メインコマンドＤＢ
２００…メインコマンド設定部
２１０…履歴管理部
２２０…履歴情報ＤＢ
２３０…センサ群
３００…初期設定処理
３１０…メインコマンド表示処理
３２０…コマンド入力処理
３３０…コマンド起動処理
３４０…状況情報取得処理
３５０…履歴データ作成処理
３６０…履歴データ登録処理
３７０…メインコマンド設定処理
３８０…メインコマンド登録処理
４００…表示データ
４１０…認識語彙
４２０…起動アプリ
４３０…履歴データ取得処理
４４０…状況データ比較・スコア化処理
４５０…スコア加算処理
４６０…スコアでの並び替え処理
４７０…表示データ決定処理
４８０…認識語彙決定処理
５００…音声マッチ部
５１０…コマンド音声ＤＢ
５２０…コマンド音声登録部
５３０…音声未登録コマンド検索処理
５４０…音声登録プロンプト提示処理
５５０…音声入力処理
５６０…確認プロンプト提示処理
５７０…確認入力処理
５８０…コマンド音声登録処理
５９０…表示データ変換処理
６００…認識語彙変換処理
６１０…認識語彙未登録コマンド検索処理
６２０…対話スクリプト取得処理
６３０…特徴単語抽出処理
６４０…認識語彙登録処理。

Claims

複数の音声対話型アプリケーションを記録する記録部と、
複数の上記音声対話型アプリケーションを起動するコマンドを記録する記録部と、
音声入力部と、
上記音声入力部を介して入力される音声に基づいて上記音声対話型アプリケーションを起動するコマンド起動部と、
センサーから取得される情報と上記起動されるコマンドの履歴を管理する履歴管理部と、
上記管理される履歴に基づいて上記記録されるコマンドの認識優先順位を決定するメインコマンド設定部とを有し
上記メインコマンド決定部は音声対話型アプリケーションを構成する対話スクリプトから単語を抽出し、該単語を該音声対話型アプリケーションと対応づけて上記コマンド記録部に記録することを特徴とする音声処理装置。
上記単語は該音声対話型アプリケーションの頻出単語であることを特徴とする請求項１記載の音声処理装置。
上記決定された優先順位とともに上記コマンドを表示手段に表示させることを特徴とする請求項１又は２に記載の音声処理装置。
上記抽出された単語を表示部に表示させ、
上記音声入力部を介して入力された音声も上記単語と対応づけて上記コマンド記録部に記録することを特徴とする請求項１乃至３の何れかに記載の音声処理装置。