JP2006317722A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2006317722A
JP2006317722A JP2005140582A JP2005140582A JP2006317722A JP 2006317722 A JP2006317722 A JP 2006317722A JP 2005140582 A JP2005140582 A JP 2005140582A JP 2005140582 A JP2005140582 A JP 2005140582A JP 2006317722 A JP2006317722 A JP 2006317722A
Authority
JP
Japan
Prior art keywords
command
voice
data
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005140582A
Other languages
English (en)
Other versions
JP4684739B2 (ja
Inventor
Kenji Nagamatsu
健司 永松
Tetsuo Shinagawa
哲夫 品川
Fumiko Takada
文子 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Xanavi Informatics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xanavi Informatics Corp filed Critical Xanavi Informatics Corp
Priority to JP2005140582A priority Critical patent/JP4684739B2/ja
Publication of JP2006317722A publication Critical patent/JP2006317722A/ja
Application granted granted Critical
Publication of JP4684739B2 publication Critical patent/JP4684739B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】シナリオに基づいて対話処理を行う音声対話型端末装置で、利用者の状況に応じて頻繁に利用されるコマンドをシナリオから抽出することで簡単に起動できるようにする音声対話型端末装置を提供することである。
【解決手段】シナリオデータから抽出されたコマンド候補語彙、および、そのコマンドが起動された状況を履歴情報として保存しておき、その履歴情報をもとに、現在の状況に適合したコマンドの集合を動的に決定する。
【選択図】図1

Description

本発明は、音声対話による操作が可能な音声対話型端末装置に関するものである。
従来、カーナビゲーション装置に代表される音声対話型端末装置では、装置が提供する複数の機能の中から一つを起動する場合に、その機能を選択するための対話が必要であった。例えば、目的地設定を目的地の電話番号から指定するという機能を実行する場合には、まず目的地設定機能を音声入力により起動したのち、さらに電話番号指定機能を音声入力により起動しなければならない。これは、認識する語彙が多くなるほど音声認識精度が下がるために、認識語彙を階層化して管理するために必要なことであった。
この問題に対して、例えば、アプリケーションの動作状態に応じて管理されるグローバルコマンドを用いる技術がある(例えば、特許文献1参照)この文献の手法では、各機能を起動できる音声コマンドをグローバルコマンドとして装置全体で管理しておき、各機能が現在実行中かどうか、起動可能かどうかなどの状態に応じて、グローバルコマンドの有効・無効を制御する。そして、音声入力されたコマンドがグローバルコマンドであると判断され、かつ、そのグローバルコマンドが有効であった場合には、そのコマンドに対応づけられた機能が起動するという手法である。
更に、例えばカーナビの場合に、ユーザがある状況のもとでどのような目的地を設定したかに関する履歴を保存しておき、現時点がどのような状況にあるかに基づいて、その履歴の中からユーザが目的地として設定しそうな地名を認識語彙として優先利用する技術がある(例えば、特許文献2参照)。これによって、ユーザの利用履歴と現在の状況に応じた認識語彙を利用できることになり、認識率の向上を図っている。
特開2004−234273号公報
特開2005−030982号公報
このように、語彙を階層的に管理する音声対話型端末装置では、ユーザが必要とする機能を実行するまでに、複数の音声コマンドを入力しなくてはならない。そのため、頻繁に利用する機能であっても、すぐには実行できないため、ユーザには使いづらいものとなってしまう。特許文献1の手法を用いれば、特定の機能を1回の音声入力で起動できるようにはなるが、グローバルコマンドとして利用できるコマンドの種類や、そのコマンドがどういう条件で有効・無効になるかは、装置および機能を提供するメーカーの設計に依存する。特許文献1ではユーザ側でその条件を変更できる仕組みも考案されているが、頻繁に利用する機能は必ずしも固定ではなく、装置を利用する時刻やユーザが置かれている状況によって異なるため、ユーザに変更作業を行なわせるのはかえって使いづらいものとなる可能性がある。又、特許文献2では、利用履歴と現在状況を勘案することで優先される認識語彙の順番を決定するが、予め認識語彙は設定しておくことが必要となる。
しかしながら、音声対話を行う端末装置では、数多くのシナリオデータを、ユーザとのインタラクションに応じて、適宜、ダウンロードしてくるようなネットワーク型音声対話端末では、予め認識語彙を定義することが困難である。
そこで、本願では、シナリオに基づいて音声対話を行う音声対話型端末装置においても、利用者の状況に応じて頻繁に利用される機能を少ない音声コマンド入力で起動できるようにする音声対話型端末装置を提供することを課題とする。
この課題を解決するために、本願で開示する代表的な発明は以下の通りである。
複数の音声対話型アプリケーションを記録する記録部と、これらの音声対話型アプリケーションを起動するコマンドを記録する記録部と、音声入力部と、入力される音声に基づいて上記音声対話型アプリケーションを起動するコマンド起動部と、センサーから取得される情報と上記起動されるコマンドの履歴を管理する履歴管理部と、上記管理される履歴に基づいて上記記録されるコマンドの認識優先順位を決定するメインコマンド設定部とを有する音声処理装置。特にメインコマンド決定部は音声対話型アプリケーションを構成する対話スクリプトから単語を抽出し、該単語を該音声対話型アプリケーションと対応づけて上記コマンド記録部に記録する。
本発明によれば、シナリオによる音声対話を利用して例えば情報提供を行うような端末装置において、コマンドの最上位階層から1回のコマンド入力で起動できるコマンドを、対話シナリオから自動抽出するとともに、利用者や端末装置が現在どのような状況に置かれているかに応じて変更することで、その状況に適したコマンドを利用者が容易に起動することが可能となる。
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本発明の音声対話型端末装置の一実施例を示す構成図である。この実施例では、本発明を、コマンドの表示データと認識語彙を自動推定する音声対話型端末装置として実施した装置について説明する。この実施例1では、コマンドを起動するために、画面にメニュー表示される表示データ400、および、音声入力する際に発声する内容である認識語彙410を、コマンド実行の際の音声対話スクリプトデータをもとに自動推定する機能を有する音声対話型端末装置を提供する。これにより、新しいシナリオデータが、例えば、ネットワークからダウンロードされた場合であっても、表示データ400や認識語彙410が固定のままではなく、利用者が記憶しやすく利用しやすい音声対話型端末装置を提供することが可能となる。
図1において、音声入力部110は音声コマンドとして入力される音声信号が入力される装置であり、例えば、ヘッドセットのマイクロフォンや車のバックミラーやサンバイザー部に設置されたマイクロフォンを利用することができる。
対話スクリプトDB115は、この音声対話型端末装置が提供するコマンド機能で実行される音声対話処理を定義する対話スクリプトデータを格納するデータベースである。このスクリプトデータには、コマンド機能を実行するにあたって、端末装置が利用者との間で交わさなければならない対話の流れを指定するデータが記述されている。この対話シナリオデータの記述方法としては、例えば、VoiceXML方式などの既存の音声対話データの記述手法を用いることができる。
音声認識部120は、音声入力装置110で入力された音声信号に対して音声特徴量の計算を行った後、メインコマンドDB190に登録されている認識語彙の中のどれが音声入力されたかを決定する音声認識処理を行なう。
認識語彙DB130は、各時点で音声コマンドとして認識すべき単語のリストを登録した記憶装置であり、例えば、音声認識の標準的な文法であるSRGF(Speech Recognition Grammar Format)などで記述することもできる。
認識語彙変換部140は、各時点でどのような機能が起動できるか、またはどのようなコマンが入力できるかを指定するメインコマンドDB190を参照し、そこに登録されているメインコマンドを音声入力するための認識語彙データに変換する装置である。ここでは、対話スクリプトDB115に格納されている対話スクリプトデータから認識語彙データが自動抽出され、認識語彙DB130に格納される。
次に、メインコマンド入力部150は、各時点でどのような機能が起動できるか、またはどのようなコマンドが入力できるかを指定するメインコマンドDB190を参照し、そこに登録されているメインコマンドを、音声コマンド以外のインタフェースで入力するための装置である。例えば、端末装置にボタンを複数設置して押されたボタンを検出したり、表示部160をタッチパネルにして押された位置を検出したりすることで実現できる。
表示データ変換部155は、各時点でどのような機能が起動できるか、またはどのようなコマンドが入力できるかを指定するメインコマンドDB190を参照し、そこに登録されているメインコマンドを起動するメニューとして画面表示する表示データに変換する装置である。この表示データとしては、対話スクリプトDB115に格納されている対話スクリプトデータから表示データが自動抽出され、メインコマンド表示部160に渡される。
メインコマンド表示部160は、各時点でどのような機能が起動できるか、またはどのようなコマンドが入力できるかを指定するメインコマンドDB190を参照し、そこに登録されているメインコマンドを本音声対話型端末装置の画面として表示する装置である。これは、液晶パネルやCRTなどの表示機器を用いることができる。
次に、コマンド起動部170は、音声認識部120やメインコマンド入力部150で入力されたメインコマンドに対応する機能を機能群180の中から選択して、実際に起動する装置である。起動されたコマンドに関する情報は、履歴管理部210に渡される。
次に、メインコマンドDB190は、各時点で実行可能な機能に対応するコマンド(メインコマンド)のリストを格納する記憶装置である。
メインコマンド設定部200は、ユーザがこれまでにどのような状況でどのような機能を実行したかという履歴情報を履歴管理部210から受け取り、また、現在がどのような状況にあるかに関する状況情報をセンサ群230から受け取り、各時点において実行可能でユーザが利用する可能性の高い機能に対応するコマンドを決定し、それをメインコマンドDB190に格納する装置である。
履歴管理部210は、コマンド起動部170から起動されたコマンド情報を受け取り、また、現在がどのような状況にあるかに関する状況情報をセンサ群230から受け取り、それらを関連づけて履歴情報DB220に格納する装置である。また、履歴情報DB内の情報が不要になった場合には、それらの削除なども行なう。
履歴情報DB220は、履歴管理部210で作成された履歴情報を格納する記憶装置である。
センサ群230は、現在がどのような状況であるかに関する状況情報を取得するセンサの集まりである。これらのセンサとしては、例えば、現在時刻を取得する時計や、現在位置を取得するGPS(Global Positioning System)装置などが考えられる。
以上のように構成された実施形態1の音声対話型端末装置について、以下にその動作を説明する。
図3に実施形態1のフローチャートを示す。
実施形態1の機能が動作を開始すると、まず、初期設定処理300によりシステム全体の初期化が行われる。次にメインコマンド表示部160により、メインコマンド表示処理310が実行される。この処理は、メインコマンドDB190に格納されているメインコマンド情報をもとに、入力可能なコマンド(メインコマンド)のすべて、もしくは一部を音声対話型端末装置の表示装置に表示するものである。例えば、メインコマンドDB190にメインコマンド情報として、図4のようなものが格納されている場合、メインコマンド表示部160は、そのうち表示データが設定されている項目について、その上位のいくつかを、音声対話型情報端末装置の表示画面に図4のようにメニューとして表示する。このメニューは文字であってもよいし、また、図4のデータに付随するアイコンデータを持たせて、アイコンとして表示してもよい。
次に、メインコマンド入力部150によって、コマンド入力処理320が実行される。この処理は、メインコマンドDB190に格納されているメインコマンド情報をもとにして、音声入力可能なコマンド(メインコマンド)が音声入力部110と音声認識部120を通して音声入力されるか、または音声対話型端末装置の表示装置に表示されたメニューコマンドのどれかに対応するボタンが押されるまで待ち、メインコマンド入力部150は音声入力されたコマンドもしくはボタンが押されたコマンドに対応するIDを特定して出力する。ここで音声入力可能なコマンドは、図4に示すメインコマンド情報の中の認識語彙410で指定される。メインコマンド情報のすべての認識語彙データを認識対象にしてもよく、また、上位のいくつかに限定して認識対象としてもよい。また、音声入力部110と音声認識部120で行われる認識処理では、メインコマンド情報内の認識語彙410としてカナ文字列もしくは音素文字列を登録しておいて音素HMMを用いた音声認識技術を用いることで特定してもよいし、または、認識語彙410としてユーザが過去に発声した音声データそのものを登録しておいてDP(Dynamic Programming)マッチ技術を用いることで特定してもよい。
次に、入力されたコマンドに対応するIDをメインコマンド入力部150から受け取り、コマンド起動部170はコマンド起動処理330を実行する。この処理は渡されたIDに対応するコマンドの処理を実際に起動する処理である。この処理は、例えば、図4に示すメインコマンド情報に付随する起動アプリ情報420を参照し、IDに対応するアプリケーションプログラムを実際に起動するなどして実現する。この起動処理によって起動されたプログラムは、フローチャート図3の以降の処理とは別のタスクとして動作する。
こうしてアプリケーションプログラムを起動した後、続いて、履歴管理部210は状況情報取得処理340を実行する。この処理は、本音声対話型端末装置が現在どのような状況にあるかを表す情報を、図2におけるセンサ群230から収集する処理である。これらのセンサから得られる状況情報としては、現在の時刻、日付、曜日や、位置(緯経度、地名、道路名)などがある。さらには、センサではなく、他の情報処理装置と組み合わせて、端末装置の利用者がどのような意図や目的で本装置を使っているかを入力させた情報を利用してもよい。この入力方法としては、例えば、特開2004−144531に開示されている手段を用いることができる。
次に、履歴管理部210は、コマンド起動処理330で起動したコマンドのID、および、状況情報取得処理340で取得された情報を受け取り、履歴データ作成処理350を実行する。この処理では、例えば、図6に示す構造の履歴データを作成する。こうして作成された履歴データに対して、履歴管理部210は履歴データ登録処理340を実行し、履歴データは履歴情報DB220に格納される。
次に、メインコマンド設定部200により、メインコマンド設定処理370が実行される。この処理は、履歴情報DB220に格納されている履歴データ、および状況情報取得処理340で取得された現在の状況に関するデータをもとに、メインコマンドDB190に格納されているメインコマンド情報(図4)の内容および順序を更新する処理である。
このメインコマンド設定部200内で実行されるメインコマンド設定処理370の動作を、フローチャート図7を用いて説明する。フローチャート図7の処理はすべて、メインコマンド設定部200が実行する処理である。
まず、履歴データ取得処理430が、履歴情報DB220から履歴情報全体を取得する。
次に、取得した履歴情報すべてについて、個々の履歴情報内の状況、例えば、図6における起動時刻、起動場所、利用目的などと、メインコマンド設定処理370が状況情報取得処理340から取得した現在の状況に関する状況情報との間で比較を行い、その類似度に応じてスコアを計算する状況データ比較・スコア化処理440が実行される。この比較・スコア化処理は、例えば、図8に示す類似スコア表を参照して、対応する値を取得することで実現できる。図8は時刻に関する類似スコアを定義する表であるが、場所や利用目的など他の状況データに関しても同様の類似スコア表を作成することは容易である。また、図8に示すような類似スコア表を用いずとも、例えば、場所に関する状況データが、GPSから取得された緯度・経度情報として格納されている場合、現在位置の緯度・経度情報との距離を算出してそれを類似スコアとして用いてもよい。また、利用目的のように、複数の目的の間で概念的な上位・下位関係(木構造)が定義できる場合には、二つの目的間での概念リンク数を類似スコアとして用いてもよい。最後に、一つの履歴情報内の個々の状況データに対して求めた類似スコア値をもとに、その履歴情報に対するスコア値を計算する。これは、単純な加算でもよいし、状況データ間に重みをつけた加算をするなどの手法をとればよい。以上の処理を、すべての履歴情報に対して実行する。
次に、スコア加算処理450が実行される。ここでは、状況データ比較・スコア化処理440で計算された個々の履歴情報に対するスコア値をもとに、同じコマンドIDを持つ履歴情報に対するスコア値を加算する。この結果、図9に示すように、コマンドIDごとにスコア合計値が求まる。また、単純な加算ではなく、古い履歴情報の重みを小さくして加算するなどの変更を施すことも可能である。
次に、スコアでの並び替え処理460が実行される。この処理では、スコア加算処理450から出力されたコマンドIDごとのスコア合計値データ(図9)を、スコア合計値の大きい順番に並べ替える処理である。
次に、表示データ決定処理470が実行される。この処理では、スコア合計値で並べ替えられたコマンドIDリスト(図9)に対して、それぞれのコマンドを簡潔に言い表す文字列データ、もしくはそれぞれのコマンドを代表するアイコンデータの決定を行う。この処理は、単純には、各コマンドに対する表示データを定義するデータ、例えば図10のようなデータを用いれば実現できる。
次に、認識語彙決定処理480が実行される。この処理では、スコア合計値で並べ替えられたコマンドIDリスト(図9)に対して、まだ対応する音声コマンドが設定されていない場合には、それぞれのコマンドを起動する音声コマンドの認識語彙の決定を行う。この処理は、単純には、各コマンドに対する表示データを定義するデータ、例えば図10のようなデータを用いれば実現できる。
このようにして作成されたメインコマンドデータは、メインコマンド設定部200においてメインコマンド登録処理380を実行することで、メインコマンドDB190に格納される。この更新処理により、例えば、以前は図4の内容だったメインコマンドデータが、図11に示すものへと変更される。
この更新されたメインコマンドデータは、現在の状況に最もよく適合するコマンドの順番に並んでいるはずである。メインコマンド表示部160やメインコマンド入力部150は、この新しいメインコマンドデータを用いてメインコマンド表示処理310とメインコマンド入力処理320を実行することで、現在の状況に最もよく適合するコマンドが優先的に画面に表示されて利用者の利便性を向上させるとともに、音声入力に際しても現在の状況に最もよく適合するコマンドから先に認識処理が行われるために音声認識率が向上する可能性が高くなる。
メインコマンド設定部200は、メインコマンド登録処理380を行ってメインコマンドDB190に格納されているメインコマンド情報(図4、図11)の内容を現在の状況に合わせて更新する。次に、認識語彙変換処理600を実行する。この認識語彙変換処理600では、そのコマンドIDに対応するシナリオデータ内部から特徴的な語句を抽出し、そのコマンドの認識語彙として設定する処理である。よって、認識語彙変換処理600は、すべてのコマンドIDとそれらに対応するシナリオデータに対して、毎回、実行する必要はない。まだ、認識語彙の抽出が行われていないシナリオデータ、例えば、ダウンロードした直後のシナリオなどに限定して処理を行うことで、実行時間を短縮することが可能である。この認識語彙変換処理600内での処理の流れは図12のフローチャートのようにして実現することができる。以下、この図12のフローチャートにしたがって、メインコマンド設定部200で実行される認識語彙変換処理600の処理内容を説明する。
認識語彙変換処理600が起動されると、まず、認識語彙未登録コマンド検索処理610が実行される。この処理では、メインコマンドDB190に格納されているメインコマンド情報(図4、図11)の中から、対応する認識語彙データが認識語彙DB130にまだ登録されていないものを検索する。
ここで、認識語彙データが登録されていないメインコマンドデータが存在しない場合は、認識語彙変換処理を行う必要がないため、認識語彙変換処理600を終了する。
一方、未登録のデータが存在する場合、次に、対話スクリプト取得処理620が実行される。この処理では、認識語彙データが未登録のコマンドIDに対して、そのコマンド機能の実行の際に利用される対話スクリプトデータ(図13)を、対話スクリプトDB115から検索してくる。メインコマンド情報(図4、図11)を見てそのコマンドIDに対応する起動アプリが分かれば、対応する対話スクリプトデータは特定することは容易である。
次に、取得した対話スクリプトデータから特徴的な単語を抽出する特徴単語抽出処理630が実行される。対話スクリプトデータには、対話処理の中で端末装置が発声する文章および、それに対して利用者がどのような応答(音声入力)が可能かを指定する認識単語リストが指定されている。この特徴単語抽出処理630では、これらの文章、および認識単語リストをすべて単語に分割した後、その中で、最も特徴的な単語を特徴単語として出力する。特徴的な単語の決定手法としては、例えば、図14に示すような単語出現確率データ(新聞記事など大量の文章データ中に含まれる単語の出現確率を求めたデータ)を参照して最も出現確率の低い単語を特徴単語とする手法もあるし、または、分割した単語の中からDF・IDF(Document Frequency・Inversed Document Frequency)指標を用いて特徴単語を決める手法もある。または、利用者がこのコマンド機能を実行する際に入力した音声コマンドの中から頻出した単語自体を選ぶという手法も考えられる。このような処理を行うことにより、そのシナリオデータ内で特徴的な単語、すなわち、ユーザの記憶に残りやすく、かつ、ユーザがそのシナリオと対応づけて覚えやすい語彙を抽出することが可能となる。
次に、抽出された特徴単語を実際に認識語彙として登録するかどうかを利用者に確認する確認プロンプト提示処理560が実行される。この提示処理は表示装置に文字またはグラフィックで表示してもよいし、確認入力を促す音声を流してもよい。
次に、利用者からの登録確認応答が入力されるのを待つ確認入力処理570が実行される。この処理には、音声対話型端末装置の持つ何らかの入力手段、ボタンの押下や、タッチパネル上でのタッチ、または音声認識による方法などいろんな手段を用いることができる。ここで、もし、特徴単語抽出処理のやり直しが指示された場合、特徴単語抽出処理630に戻って、再度、特徴単語の抽出処理がやり直される。
抽出された特長単語に対して利用者が認識語彙としての登録確認をOKした場合、次に、認識語彙登録処理640が実行される。この処理では、現在、認識を登録しようとしているコマンドIDと、特徴単語抽出処理630で抽出された特徴単語、すなわち認識語彙を対応づけたデータを起動アプリケーションと対応づけて認識語彙DB130に追加する。そして、認識語彙未登録コマンド検索処理610に戻って、認識が登録されていない他のコマンドIDへの登録処理が実行される。一度に大量の認識語彙登録を利用者に要求しないように、1回に繰り返して実行できる登録処理の回数に制限を設けることも可能である
こうして、メインコマンド設定部200において、認識語彙変換処理600が終了すると、次に、表示データ変換処理590が実行される。この表示データ変換処理590は、対話スクリプトデータから、音声認識用の認識語彙データを抽出するか、画面表示用の文字列表示データを抽出するかの違いであり、実質、図12に示す認識語彙変換処理600と同様の処理で実現可能である。この表示データ変換処理590で抽出された特徴単語データは、メインコマンド情報(図4、図11)の表示データ400として登録されるとともに、コマンド機能を起動するためのメニューとして表示される。
以上の処理により、本発明の第1の実施例では、コマンドを起動するための認識語彙やメニューへの表示データを、コマンドが利用する対話スクリプトデータから抽出することで、利用者がより簡便に本音声対話型端末装置を利用することを可能にする。つまり、コマンド機能を実行する上での対話スクリプトに含まれる特長的な単語、すなわち、利用者が記憶しやすい単語を認識語彙や表示データとすることで、より簡便にコマンド機能の起動ができるようになる。さらに、実施例1で説明したように現在の状況によく適合するコマンドを優先的に利用可能な画面レイアウトを提供する上、また、そのようなコマンドを起動する音声認識処理が高精度になるように認識語彙自身が並び替えられるという機能も実現する。
次に、本発明を音声コマンド登録型の音声対話型端末装置として実施した装置について説明する。この実施例2では、利用者自身が音声コマンドとして入力可能な単語を自由に設定できる機能を有する音声対話型端末装置を提供する。
以下、構成図図2にしたがい、実施例2の構成について、実施例1の構成図図1と異なる部分のみを説明する。
音声マッチ部500は、音声入力部110で入力された利用者が発声したコマンド音声と、コマンド音声DB510に格納されている複数の音声データとを比較し、そのうちのどのコマンド音声が発声されたかを特定する処理を行う。この比較・特定処理は、各音声データから求めたケプストラムやFFT(高速フーリエ変換)係数などの音声特徴量を、DPマッチ技術を用いてマッチングを行うことで実現することができる。
コマンド音声DB510は、入力可能なコマンド音声データを格納したデータベースである。このデータベースには、コマンド音声登録部520によって利用者が指定したコマンド音声が、対応するコマンドIDとともに格納されている。ここで格納するコマンド音声データは、コマンド音声のPCMデータそのものでもよく、また、音声マッチ部で計算する音声特徴量の形態に変換した結果のデータでもよい。コマンド音声のPCMデータそのものが格納されている場合、例えば、図16に示すようなデータ構成をとることができる。
コマンド音声登録部520は、メインコマンドDB190に格納されているメインコマンド情報のうち、まだコマンド音声が登録されていないものについて、そのコマンドに対応づけられたアプリケーションを起動するためのコマンド音声データを利用者に登録させる処理を行う。
以下、フローチャート図15にしたがい、このコマンド音声登録部520の処理を説明する。
コマンド音声登録部520が起動されると、まず、音声未登録コマンド検索処理530が実行される。この処理では、メインコマンドDB190に格納されているメインコマンド情報(図4、図11)の中から、対応するコマンド音声データがコマンド音声DB510にまだ登録されていないものを検索する。この処理は、コマンド音声DB510に格納されているデータ(図16)と、メインコマンドDB190に格納されているデータ(図4、図11)を比較するだけでよい。
ここで、コマンド音声データが登録されていないメインコマンドデータが存在しない場合は、コマンド音声登録を行う必要がないため、コマンド音声登録部を終了する。
一方、未登録のデータが存在する場合、次に、音声登録プロンプト提示処理540が実行される。この処理では、コマンド音声データが未登録のコマンドIDに対して、登録するコマンド音声を入力するように利用者に促す。この提示処理は、図17のように表示装置に文字またはグラフィックで表示してもよいし、音声入力を促す音声を流してもよい。この際、実施例1の認識語彙変換処理600で実行されるシナリオデータからの特徴単語抽出処理630を実行し、そのシナリオデータ内で特徴的な単語を抽出してコマンド音声の候補としてユーザに提示することも可能である。こうすることで、ユーザは、他のシナリオの語彙と重なったり、または、紛らわしい語彙を登録してしまうことを避けることができる。
次に、登録するコマンド音声を利用者が発声するまで待つ音声入力処理550が実行される。ここでは、音声入力部110から何らかの音声データが入力されるまで待つ処理を行う。
次に、入力された音声データを実際にコマンド音声として登録するかどうかを利用者に確認する確認プロンプト提示処理560が実行される。この提示処理も、図17と同様に表示装置に文字またはグラフィックで表示してもよいし、確認入力を促す音声を流してもよい。
次に、利用者からの登録確認応答が入力されるのを待つ確認入力処理570が実行される。この処理には、音声対話型端末装置の持つ何らかの入力手段、ボタンの押下や、タッチパネル上でのタッチ、または音声認識による方法などいろんな手段を用いることができる。ここで、もし、コマンド音声入力のやり直しが指示された場合、音声登録プロンプト提示処理540に戻って、再度、コマンド音声の登録処理がやり直される。
入力されたコマンド音声に対して利用者が登録確認をOKした場合、次に、コマンド音声登録処理580が実行される。この処理では、現在、コマンド音声を登録しようとしているコマンドIDと、音声入力処理550で入力されたコマンド音声データを対応づけたデータ(図16)をコマンド音声DB510に追加する。そして、音声未登録コマンド検索処理530に戻って、コマンド音声が登録されていない他のコマンドIDへの登録処理が実行される。もちろん、一度に大量のコマンド音声登録を利用者に要求しないように、1回に繰り返して実行できる登録処理の回数に制限を設けることも可能である。
以上の処理により、本発明の第2の実施例では、コマンドを起動するための音声データ自体を利用者自身が指定することが可能となる上、実施例1で説明したように現在の状況によく適合するコマンドを優先的に利用可能な画面レイアウトを提供する上、また、そのようなコマンドを起動する音声のマッチング処理が高精度になるようにコマンド音声データ自身が並び替えられるという機能を実現する。
本発明の音声対話型端末装置の第1の実施例を示す構成図。 本発明の音声対話型端末装置の第2の実施例を示す構成図。 本発明の音声対話型端末装置の第1の実施例のフローチャート。 本発明の音声対話型端末装置のメインコマンド情報の1構成例。 本発明の音声対話型端末装置の画面レイアウトの1構成例。 本発明の音声対話型端末装置の履歴データの1構成例。 本発明の音声対話型端末装置のメインコマンド設定処理のフローチャート。 本発明の音声対話型端末装置の状況データの類似スコア表の1構成例。 本発明の音声対話型端末装置のコマンドIDごとのスコア合計値データの1例。 本発明の音声対話型端末装置の表示データ・認識語彙定義データの1構成例。 本発明の音声対話型端末装置のメインコマンド情報の1構成例。 本発明の音声対話型端末装置の認識語彙変換処理600のフローチャート。 本発明の音声対話型端末装置で用いる対話スクリプトの1例。 本発明の音声対話型端末装置の特徴単語抽出処理630で用いる単語出現確率データの1例。 本発明の音声対話型端末装置のコマンド音声登録部のフローチャート。 本発明の音声対話型端末装置のコマンド音声DBの登録データの1例。 本発明の音声対話型端末装置のコマンド音声登録部における音声登録プロンプト提示の1例。
符号の説明
110…音声入力部
115…対話スクリプトDB
120…音声認識部
130…認識語彙DB
140…認識語彙変換部
150…メインコマンド入力部
155…表示データ変換部
160…メインコマンド表示部
170…コマンド起動部
180…コマンド機能群
190…メインコマンドDB
200…メインコマンド設定部
210…履歴管理部
220…履歴情報DB
230…センサ群
300…初期設定処理
310…メインコマンド表示処理
320…コマンド入力処理
330…コマンド起動処理
340…状況情報取得処理
350…履歴データ作成処理
360…履歴データ登録処理
370…メインコマンド設定処理
380…メインコマンド登録処理
400…表示データ
410…認識語彙
420…起動アプリ
430…履歴データ取得処理
440…状況データ比較・スコア化処理
450…スコア加算処理
460…スコアでの並び替え処理
470…表示データ決定処理
480…認識語彙決定処理
500…音声マッチ部
510…コマンド音声DB
520…コマンド音声登録部
530…音声未登録コマンド検索処理
540…音声登録プロンプト提示処理
550…音声入力処理
560…確認プロンプト提示処理
570…確認入力処理
580…コマンド音声登録処理
590…表示データ変換処理
600…認識語彙変換処理
610…認識語彙未登録コマンド検索処理
620…対話スクリプト取得処理
630…特徴単語抽出処理
640…認識語彙登録処理。

Claims (4)

  1. 複数の音声対話型アプリケーションを記録する記録部と、
    複数の上記音声対話型アプリケーションを起動するコマンドを記録する記録部と、
    音声入力部と、
    上記音声入力部を介して入力される音声に基づいて上記音声対話型アプリケーションを起動するコマンド起動部と、
    センサーから取得される情報と上記起動されるコマンドの履歴を管理する履歴管理部と、
    上記管理される履歴に基づいて上記記録されるコマンドの認識優先順位を決定するメインコマンド設定部とを有し
    上記メインコマンド決定部は音声対話型アプリケーションを構成する対話スクリプトから単語を抽出し、該単語を該音声対話型アプリケーションと対応づけて上記コマンド記録部に記録することを特徴とする音声処理装置。
  2. 上記単語は該音声対話型アプリケーションの頻出単語であることを特徴とする請求項1記載の音声処理装置。
  3. 上記決定された優先順位とともに上記コマンドを表示手段に表示させることを特徴とする請求項1又は2に記載の音声処理装置。
  4. 上記抽出された単語を表示部に表示させ、
    上記音声入力部を介して入力された音声も上記単語と対応づけて上記コマンド記録部に記録することを特徴とする請求項1乃至3の何れかに記載の音声処理装置。
JP2005140582A 2005-05-13 2005-05-13 音声処理装置 Expired - Fee Related JP4684739B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005140582A JP4684739B2 (ja) 2005-05-13 2005-05-13 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005140582A JP4684739B2 (ja) 2005-05-13 2005-05-13 音声処理装置

Publications (2)

Publication Number Publication Date
JP2006317722A true JP2006317722A (ja) 2006-11-24
JP4684739B2 JP4684739B2 (ja) 2011-05-18

Family

ID=37538450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005140582A Expired - Fee Related JP4684739B2 (ja) 2005-05-13 2005-05-13 音声処理装置

Country Status (1)

Country Link
JP (1) JP4684739B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010078851A (ja) * 2008-09-25 2010-04-08 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP2012093508A (ja) * 2010-10-26 2012-05-17 Nec Corp 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム
JP2015206909A (ja) * 2014-04-21 2015-11-19 株式会社デンソー 音声認識装置
JPWO2016002406A1 (ja) * 2014-07-04 2017-04-27 クラリオン株式会社 車載対話型システム、及び車載情報機器
KR20180084591A (ko) * 2017-01-16 2018-07-25 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 서버 및 단말
JP2018173522A (ja) * 2017-03-31 2018-11-08 大日本印刷株式会社 音声認識装置、音声認識方法、及びプログラム
US10311877B2 (en) 2016-07-04 2019-06-04 Kt Corporation Performing tasks and returning audio and visual answers based on voice command
US10650816B2 (en) 2017-01-16 2020-05-12 Kt Corporation Performing tasks and returning audio and visual feedbacks based on voice command
US10726836B2 (en) 2016-08-12 2020-07-28 Kt Corporation Providing audio and video feedback with character based on voice command
WO2020165933A1 (ja) * 2019-02-12 2020-08-20 三菱電機株式会社 機器制御装置、機器制御システム、機器制御方法、及び機器制御プログラム
JP2020530581A (ja) * 2017-10-03 2020-10-22 グーグル エルエルシー 自動アシスタントのためのコマンドバンドル提案の提供
US11398231B2 (en) 2018-05-07 2022-07-26 Google Llc Recommending automated assistant action for inclusion in automated assistant routine

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0823369A (ja) * 1994-07-08 1996-01-23 Nakayo Telecommun Inc 音声操作電話装置およびその音声による操作指示受付方法
JP2005004501A (ja) * 2003-06-12 2005-01-06 Will Being:Kk 電子計算機による対話方法及び対話システム
JP2005030982A (ja) * 2003-07-09 2005-02-03 Matsushita Electric Ind Co Ltd 音声入力方法及び、車載装置
WO2005022511A1 (de) * 2003-08-22 2005-03-10 Daimlerchrysler Ag Unterstützungsverfahren für sprachdialoge zur bedienung von kraftfahrzeugfunktionen

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0823369A (ja) * 1994-07-08 1996-01-23 Nakayo Telecommun Inc 音声操作電話装置およびその音声による操作指示受付方法
JP2005004501A (ja) * 2003-06-12 2005-01-06 Will Being:Kk 電子計算機による対話方法及び対話システム
JP2005030982A (ja) * 2003-07-09 2005-02-03 Matsushita Electric Ind Co Ltd 音声入力方法及び、車載装置
WO2005022511A1 (de) * 2003-08-22 2005-03-10 Daimlerchrysler Ag Unterstützungsverfahren für sprachdialoge zur bedienung von kraftfahrzeugfunktionen

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010078851A (ja) * 2008-09-25 2010-04-08 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP2012093508A (ja) * 2010-10-26 2012-05-17 Nec Corp 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム
JP2015206909A (ja) * 2014-04-21 2015-11-19 株式会社デンソー 音声認識装置
JPWO2016002406A1 (ja) * 2014-07-04 2017-04-27 クラリオン株式会社 車載対話型システム、及び車載情報機器
US10311877B2 (en) 2016-07-04 2019-06-04 Kt Corporation Performing tasks and returning audio and visual answers based on voice command
US10726836B2 (en) 2016-08-12 2020-07-28 Kt Corporation Providing audio and video feedback with character based on voice command
US10650816B2 (en) 2017-01-16 2020-05-12 Kt Corporation Performing tasks and returning audio and visual feedbacks based on voice command
KR101889280B1 (ko) * 2017-01-16 2018-08-21 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 서버 및 단말
KR20180084591A (ko) * 2017-01-16 2018-07-25 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 서버 및 단말
JP2018173522A (ja) * 2017-03-31 2018-11-08 大日本印刷株式会社 音声認識装置、音声認識方法、及びプログラム
JP2020530581A (ja) * 2017-10-03 2020-10-22 グーグル エルエルシー 自動アシスタントのためのコマンドバンドル提案の提供
US11232155B2 (en) 2017-10-03 2022-01-25 Google Llc Providing command bundle suggestions for an automated assistant
US20220148595A1 (en) 2017-10-03 2022-05-12 Google Llc Providing command bundle suggestions for an automated assistant
US11720635B2 (en) 2017-10-03 2023-08-08 Google Llc Providing command bundle suggestions for an automated assistant
US11398231B2 (en) 2018-05-07 2022-07-26 Google Llc Recommending automated assistant action for inclusion in automated assistant routine
US11749278B2 (en) 2018-05-07 2023-09-05 Google Llc Recommending automated assistant action for inclusion in automated assistant routine
WO2020165933A1 (ja) * 2019-02-12 2020-08-20 三菱電機株式会社 機器制御装置、機器制御システム、機器制御方法、及び機器制御プログラム
JPWO2020165933A1 (ja) * 2019-02-12 2021-03-25 三菱電機株式会社 機器制御装置、機器制御システム、機器制御方法、及び機器制御プログラム

Also Published As

Publication number Publication date
JP4684739B2 (ja) 2011-05-18

Similar Documents

Publication Publication Date Title
JP4684739B2 (ja) 音声処理装置
JP5158174B2 (ja) 音声認識装置
US8279171B2 (en) Voice input device
US8818816B2 (en) Voice recognition device
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
US8340958B2 (en) Text and speech recognition system using navigation information
US7826945B2 (en) Automobile speech-recognition interface
EP2005689B1 (en) Meta data enhancements for speech recognition
US20170148436A1 (en) Speech processing system and terminal
US20080177541A1 (en) Voice recognition device, voice recognition method, and voice recognition program
US20120173574A1 (en) Information Retrieving Apparatus, Information Retrieving Method and Navigation System
US9715877B2 (en) Systems and methods for a navigation system utilizing dictation and partial match search
JP2014106927A (ja) 情報処理システム
EP2863385B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
JP5434731B2 (ja) 音声認識システム及び自動検索システム
JP2010231433A (ja) 検索装置
JP2010039099A (ja) 音声認識および車載装置
US20170301349A1 (en) Speech recognition system
JPH07319383A (ja) 地図表示装置
JP4268325B2 (ja) 音声操作語句の提示装置及び提示方法
US10832675B2 (en) Speech recognition system with interactive spelling function
JP4645708B2 (ja) コード認識装置および経路探索装置
JP2007193184A (ja) 音声住所認識装置
JP2003150192A (ja) 音声認識装置
JP2003022092A (ja) 対話システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080512

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080512

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101209

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4684739

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees