JP2016099469A

JP2016099469A - 音声認識動作機器、音声認識動作機器の制御装置、音声認識動作機器の動作方法、プログラム、および、音声認識動作機器の制御システム

Info

Publication number: JP2016099469A
Application number: JP2014235693A
Authority: JP
Inventors: 豊川　卓; Taku Toyokawa; 卓豊川
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2014-11-20
Filing date: 2014-11-20
Publication date: 2016-05-30

Abstract

【課題】音声認識動作機器を使用できるユーザーの登録を容易にする。【解決手段】音声認識動作機器のプロセッサが実行する処理は、登録モードが選択されたことを検知するステップ（Ｓ８１０）と、音声認識処理を開始するステップ（Ｓ８１５）と、発話の入力を促すメッセージを音声で出力するステップ（Ｓ８２０）と、メッセージに応答した発話の入力を検出するステップ（Ｓ８２５）と、発話を揮発性の記憶領域に一時的に格納するステップ（Ｓ８３０）と、入力された発話を出力するステップ（Ｓ８３５）と、出力された音声がユーザーの音声であるか否かの確認の要求をモニターに表示するステップ（Ｓ８４０）と、出力された音声がユーザーの音声であることの確認が入力されたと判断した場合に（ステップＳ８５０にてＹＥＳ）、入力された発話を、ユーザー識別情報として、不揮発性の記憶領域に保存するステップ（Ｓ８６０）とを含む。【選択図】図８

Description

本開示は、音声認識に基づいて作動する機器の制御に関し、より特定的には、当該機器を使用できるユーザーを登録する技術に関する。

従来、音声で装置を制御する技術が知られている。たとえば、特開２００２−１２３２９２号公報（特許文献１）は、「スイッチの操作が行い難い場合にも、音声で術者の思い通りの視野の設定等のシステム制御が確実にできるシステム制御装置」を開示している（［要約］の［課題］参照）。特開２００２−１２３２９２号公報に開示された技術によると、「音声コマンドの音声に類似した類似単語とを予め登録しておき、音声認識を行うモードに設定された状態で、マイク２６から音声入力があった場合には、ＣＰＵ６３は前者のコマンドであると音声認識した場合にのみ、そのコマンドに割り当てられた機能を実行するようにして、音声で確実にシステム制御を行える」というものである（［要約］参照）。

また、特開２０１１−２８２２３４号公報（特許文献２）は、「音声認識装置を使用する場合に、ユーザーの心理的負担を軽減すると共に、混乱を防止して、容易に使用可能にする」ための技術を開示している。特開２０１１−２８２２３４号公報に開示された技術によると、ユーザーによる音声認識装置１０の使用状況に応じて、ユーザーに使用許可する操作コマンドの個数を増加させるコマンド増加手段」により、「使用開始時においては、ユーザーが記憶しなければならないと感じる操作コマンドの個数がかなり少なくなるので、ユーザーの心理的負担が軽減される」というものである（［要約］参照）。

特開２００２−１２３２９２号公報特開２０１１−２８２２３４号公報

音声認識を用いた制御が可能な機器では、特定のユーザーのみによる使用が望ましい場合がある。たとえば、電動車椅子、電動アシスト自転車、電気自動車その他の音声認識動作機器は、意図しない動作の防止その他の安全の観点から、不特定多数のユーザーによる使用よりも一人または少数の限られたユーザーによる使用が望ましい場合がある。その場合、使用が認められたユーザーを当該音声認識動作機器に簡易に登録するための技術が必要とされている。

本開示は、上述のような問題点を解決するためになされたものであって、ある局面における目的は、使用を許可するユーザーを簡易に登録することができる音声認識動作機器を提供することである。他の局面における目的は、音声認識動作機器の使用を許可するユーザーを簡易に登録することができる制御装置を提供することである。

他の局面における目的は、使用を許可するユーザーを簡易に登録することができる音声認識動作機器の動作方法を提供することである。他の局面における目的は、音声認識動作機器の使用を許可するユーザーを簡易に登録することができる当該音声認識動作機器の制御方法を提供することである。

他の局面における目的は、音声認識動作機器の使用を許可するユーザーを簡易に登録することができるように当該音声認識動作機器を制御するためのプログラムを提供することである。さらに他の局面における目的は、音声認識動作機器の使用を許可するユーザーを簡易に登録することができるように通信端末が音声認識動作機器を制御するためのプログラムを提供することである。

一実施の局面に従うと、音声認識動作機器が提供される。この音声認識動作機器は、発話された音声の入力を受け付けるように構成された音声入力部と、入力された音声が音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成された確認要求出力部と、確認の結果の入力を受け付けるように構成された確認結果入力部と、入力された音声が音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、音声認識動作機器のユーザーの音声として、入力された音声を登録するように構成された登録部と、音声の登録後に新たに入力される音声が音声認識動作機器のユーザーの音声であるか否かを確認するように構成された音声認識処理部と、新たに入力される音声が音声認識動作機器のユーザーの音声である場合に、新たに入力される音声に応答して音声認識動作機器を制御するように構成された動作制御部とを備える。

ある局面によると、音声認識動作機器の使用を許可するユーザーを簡易に登録することができる。

この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。

ユーザーが音声認識機器を制御する一態様を表わす図である。音声認識動作機器１００によって実現される機能の構成を表わすブロック図である。記憶部２６０におけるデータの格納の一態様を表わす図である。音声認識動作機器１００のハードウェア構成の一例を表わすブロック図である。音声認識動作機器１００のモニター４６０に表示されるメッセージ画面の一例を表わす図である。音声認識動作機器１００のモニター４６０に表示されるメッセージ画面の一例を表わす図である。音声認識動作機器１００のモニター４６０に表示されるメッセージ画面の一例を表わす図である。音声認識動作機器１００のプロセッサ４１０が実行する処理の一部を表すフローチャートである。音声認識動作機器１００のプロセッサ４１０が実行する処理の一部を表すフローチャートである。音声認識機器制御システム１０００の構成の一例を表わす図である。サーバ１０１０，１０２０を実現するコンピュータ１１００のハードウェア構成を表わすブロック図である。携帯端末１０３０のハードウェア構成を表わすブロック図である。遠隔制御端末の一例である携帯端末１０３０と音声認識動作機器１００とが実行する処理の一部を表わすフローチャートである。ＣＰＵ２０が実行する処理の一部を表わすフローチャートである。

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。

＜第１の実施の形態＞
［技術思想］
図１を参照して、本開示に係る技術思想について説明する。図１は、ユーザーが音声認識動作機器を制御する一態様を表わす図である。

ある局面において、ユーザーＡは、音声認識掃除機１１０あるいは電動車椅子１３０の動作を音声で制御できる。ユーザーＢは、音声で、音声認識掃除機１１０または対話型生活支援ロボット１２０の動作を制御することができる。以下、音声認識掃除機１１０、対話型生活支援ロボット１２０および電動車椅子１３０を総称するときは、音声認識動作機器１００という。本実施の形態において音声認識動作機器１００は、少なくとも、音声認識機能を備える機器であって、少なくとも音声に基づいて何らかの動作を行なう機器を含み得る。音声認識動作機器１００は、図１に例示される機器に限られず、エアコンその他の家庭電化製品、電気自動車、工場に設置される設備、電車、遊園地に設置される動作機械（たとえば、観覧車、ジェットコースターその他の乗り物）等を含み得る。

より具体的には、音声認識掃除機１１０は、ユーザーＡおよびＢのいずれかによる音声を登録しており、その音声を認識した場合に作動し得る。対話型生活支援ロボット１２０は、ユーザーＢの音声を登録しており、その音声を認識した場合に作動し得る。したがって、ユーザーＡが対話型生活支援ロボット１２０に対して発話しても、対話型生活支援ロボット１２０は作動しない。電動車椅子１３０はユーザーＡの音声を登録しており、その音声を認識した場合に作動し得る。したがって、ユーザーＢが電動車椅子１３０に対して発話しても、電動車椅子１３０は作動しない。このようにして、登録されたユーザー以外の発話者は、当該機器を作動させることができないので、意図しないユーザーによる機器の使用が防止され、安全性が担保され得る。

［機能構成］
図２を参照して、音声認識動作機器１００の構成について説明する。図２は、音声認識動作機器１００によって実現される機能の構成を表わすブロック図である。音声認識動作機器１００は、音声入力部２１０と、音声出力部２２０と、確認要求出力部２３０と、確認結果入力部２４０と、制御部２５０と、記憶部２６０と、通知部２７０と、報知部２８０と、動作部２９０とを備える。制御部２５０は、登録部２５１と、音声認識処理部２５２と、動作制御部２５３とを含む。

音声入力部２１０は、音声の入力を受け付けて音声に応じた信号を制御部２５０に送る。音声入力部２１０は、たとえば、マイクその他の集音装置として実現される。

音声出力部２２０は、制御部２５０から送られる信号に基づいて、音声を出力する。音声出力部２２０は、たとえば、スピーカーとして実現される。

確認要求出力部２３０は、音声認識動作機器１００のユーザーに対して、音声出力部２２０によって出力された音声が当該ユーザーの音声であるか否かの確認を促す要求を出力する。確認要求出力部２３０は、たとえば、モニター、スピーカーを用いて実現される。ある局面において、確認要求出力部２３０は、モニターとして、ユーザーに対して当該確認を求めるメッセージと、当該メッセージに対する肯定または否定の入力を受け付けるアイコンを表示する。たとえば、当該メッセージは、「出力される音声は、あなたの声ですか？はい、または、いいえ、を入力してください。」と表示される。別の局面において、確認要求出力部２３０は、スピーカーを用いて実現され、当該確認を求めるメッセージを音声として出力する。この場合、たとえば、上記のメッセージが音声として出力される。

確認結果入力部２４０は、確認要求出力部２３０により求められた確認の結果の入力を受け付ける。確認結果入力部２４０は、たとえば、タッチパネルに設けられるアイコンその他のソフトウェアスイッチ、あるいは、音声認識動作機器１００の筐体に設けられるハードウェアスイッチ等によって実現される。さらに他の局面において、確認結果入力部２４０は、音声認識処理によって実現されてもよい。この場合、音声認識動作機器１００は、最初の発話を行なったユーザーと、確認のための発話を行うユーザーとが同一であるか否かを確認することができるので、成りすましによる登録が防止され得る。

制御部２５０は、音声認識動作機器１００の動作を制御する。ある局面において、制御部２５０は、音声認識動作機器１００が備える機能を実行する動作を制御する。たとえば、音声認識動作機器１００が音声認識掃除機１１０として実現される場合、制御部２５０は、掃除機能、走行制御、充電制御等を実行する。別の局面において、音声認識動作機器１００が対話型生活支援ロボット１２０として実現される場合、制御部２５０は、歩行制御、対話制御、充電制御、非常停止制御等を実行する。さらに別の局面において、音声認識動作機器１００が電動車椅子１３０として実現される場合、制御部２５０は、車輪の駆動制御、速度制御等を実現する。

より具体的には、制御部２５０は、登録部２５１として、音声認識動作機器１００のユーザーを登録する。たとえば、登録部２５１は、ユーザーの識別情報を記憶部２６０に格納する。識別情報は、たとえば、ユーザーの名前、音声データ、生体情報等を含む。生体情報は、声紋、指紋などを含み得る。

音声認識処理部２５２は、音声入力部２１０から送られる音声信号を用いて音声認識処理を実行する。たとえば、音声認識動作機器１００の登録モードにおいて、音声認識処理部２５２は、アナログの音声信号から得られるデジタルデータを用いて周知の音声認識処理技術を用いて音声を解析し特徴量を抽出する。別の局面において、音声認識動作機器１００の通常動作モードにおいて、音声認識処理部２５２は、音声入力部２１０から送られる音声信号を解析して、音声認識動作機器１００のユーザーとして登録されているユーザーによって発話されたか否かを確認する。確認の結果は、動作制御部２５３に送られる。

動作制御部２５３は、確認の結果に基づいて音声認識動作機器１００の動作を制御する。たとえば、音声が音声認識動作機器１００に登録されたユーザーによって発せられたものである場合、動作制御部２５３は、その音声によって認識された命令に応じた動作を実行する。たとえば、音声認識動作機器１００がお掃除ロボットである場合、動作制御部２５３は、モーターを始動し、吸引および走行を開始する。音声認識動作機器１００が対話ロボットである場合、動作制御部２５３は、発話の内容に応じた返答を行なう。音声認識動作機器１００が電動車椅子の場合、動作制御部２５３は、発話の内容に応じて前進し、停止し、あるいは後退する。

さらに別の局面において、制御部２５０は、声紋認証部および個人情報出力部として機能し得る。より具体的には、制御部２５０は、声紋認証部として、音声入力部２１０に対して入力された音声の声紋を認証する。声紋の認証技術は特に限定されない。さらに、制御部２５０は、個人情報出力部として、入力された当該音声を当該音声の発話者に固有な個人情報に変換し、変換によって生成された個人情報を記憶部２６０に格納する。確認要求出力部２３０は、当該個人情報によって特定されるユーザーが音声認識動作機器１００を制御するユーザーであるか否かの確認を要求する。

記憶部２６０は、音声認識動作機器１００のユーザー情報、音声認識動作機器１００に発話を与えたユーザーに固有な個人情報、音声認識動作機器１００の動作を制御するデータおよびプログラム等を保持する。記憶部２６０は、たとえば、ハードディスク、フラッシュメモリその他の不揮発記録媒体によって実現される。別の局面において、記憶部２６０は、着脱可能なデータ記録媒体としても実現され得る。さらに別の局面において、記憶部２６０は、通信ケーブルを介して音声認識動作機器１００に装着される外部記憶装置としても実現され得る。

通知部２７０は、登録された音声と異なる音声が入力された場合に、音声認識動作機器１００が実行可能な処理を通知する。通知部２７０は、たとえば、スピーカー、モニターを用いて実現される。

報知部２８０は、登録された音声と異なる音声が入力された場合に、音声認識動作機器１００が当該異なる音声に基づく動作を実行できないことを報知する。報知部２８０は、たとえば、スピーカー、モニターを用いて実現される。さらに別の局面において、報知部２８０は、予め登録された通知先にメッセージを送信するように構成されてもよい。

動作部２９０は、音声認識動作機器１００の動作を実現する。動作部２９０は、たとえば、モーター、アクチュエーター等を用いて実現される。音声認識動作機器１００が音声認識掃除機１１０である場合には、動作部２９０は、吸引モーター、集塵器、排気口等を含み得る。音声認識動作機器１００が対話型生活支援ロボット１２０である場合には、動作部２９０は、歩行ユニット、胴体回転部等を含み得る。音声認識動作機器１００が電動車椅子１３０である場合には、電動車輪、電動リクライニング機構等を含み得る。

［データ構造］
図３を参照して、音声認識動作機器１００のデータ構造について説明する。図３は、記憶部２６０におけるデータの格納の一態様を表わす図である。記憶部２６０は、動作モード３１０とステータス３２０とを保持している。動作モード３１０は、音声認識動作機器１００の動作モードを規定している。動作モード３１０は、たとえば、登録モード、通常運転モード、音声認識モード、テストモード等を含み得る。

登録モードは、音声認識動作機器１００のユーザーの登録を受け付ける。登録モードでは、音声認識動作機器１００は、ユーザーに発話を促すメッセージを表示し、あるいは当該メッセージを音声で出力する。音声認識動作機器１００は、そのメッセージに対して発せられた音声を出力し、当該音声の発話者をユーザーとして登録するか否かを確認するメッセージを表示し、あるいは音声で出力する。

通常運転モードは、音声認識動作機器１００において予め規定された通常の動作を可能にする。たとえば、音声認識動作機器１００が音声認識掃除機１１０の場合、通常運転モードでは、音声認識動作機器１００は掃除動作あるいは充電を行なう。音声認識モードは、音声認識動作機器１００に対する発話の入力を受け付けて、発話された音声の認識処理を実行する。テストモードは、音声認識動作機器１００の試運転、動作テスト等を可能にする。たとえば、音声認識動作機器１００の制御ソフトウェアがアップデートされた場合、音声認識動作機器１００は、予め規定されたテスト動作を行なう。

ステータス３２０は、当該動作モード３１０が有効になっているか否かを表わす。ステータス３２０は、音声認識動作機器１００の動作が開始する時に、あるいは、音声認識動作機器１００の外部から制御信号を受信した時に、更新される。

［ハードウェア構成］
図４を参照して、音声認識動作機器１００の構成についてさらに説明する。図４は、音声認識動作機器１００のハードウェア構成の一例を表わすブロック図である。音声認識動作機器１００は、プロセッサ４１０と、マイク４２０と、スイッチ４３０と、メモリ４４０と、スピーカー４５０と、モニター４６０と、ＬＥＤ（Light Emitting Diode）４７０と、通信インターフェイス４８０と、モーター４９０とを備える。

プロセッサ４１０は、音声認識動作機器１００の動作を制御する。マイク４２０は、音声認識動作機器１００に対する発話を受け付けて音声信号をプロセッサ４１０に送る。スイッチ４３０は、音声認識動作機器１００に対する命令の入力を受け付ける。スイッチ４３０は、ハードウェアスイッチおよびソフトウェアスイッチのいずれであっても良い。メモリ４４０は、音声認識動作機器１００の動作を規定するために製造者によって予め作成されたプログラムおよびデータ、ならびに、音声認識動作機器１００のユーザーによって入力されたデータまたはプログラムを保持する。

スピーカー４５０は、プロセッサ４１０から送られる信号に基づいて音声を出力する。出力される音声は、音声認識動作機器１００のユーザーに発話を促すメッセージ、ユーザーによって発せられた音声、音声認識動作機器１００の動作を通知するために予め規定されたガイダンスなどを含み得る。

モニター４６０は、音声認識動作機器１００の状態、音声認識動作機器１００のユーザーに対するメッセージなどを表示する。モニター４６０は、たとえば、内蔵式のモニター装置として実現される。他の局面において、モニター４６０は、着脱可能なモニターとして、たとえば、スマートフォンその他の携帯通信端末が音声認識動作機器１００に装着される態様で用いられてもよい。

ＬＥＤ４７０は、音声認識動作機器１００の運転の状態を表示する。ＬＥＤ４７０は、単色および複数色のいずれであってもよい。ＬＥＤ４７０が単色で実現される場合、点灯の状態、点滅速度等によって、音声認識動作機器１００の状態が区別され得る。ＬＥＤ４７０が複数色で実現される場合、音声認識動作機器１００の状態は、ＬＥＤ４７０の色によって区別され得る。

通信インターフェイス４８０は、音声認識動作機器１００と他の通信端末との通信を実現する。当該通信は、赤外線信号、ＷｉＦｉ（Wireless Fidelity）、Bluetooth（登録商標）等の周知の通信方式によって実現される。

モーター４９０は、音声認識動作機器１００の動作部分を駆動する。
ある局面において、プロセッサ４１０は、声紋認証部および個人情報出力部として機能し得る。より具体的には、プロセッサ４１０は、声紋認証部として、マイク４２０に対して入力された音声の声紋を認証する。プロセッサ４１０は、個人情報出力部として、入力された当該音声を当該音声の発話者に固有な個人情報に変換し、変換によって生成された個人情報をメモリ４４０に格納する。モニター４６０は、確認要求出力部２３０として、当該個人情報によって特定されるユーザーが音声認識動作機器１００を制御するユーザーであるか否かの確認を要求する。

［表示態様］
図５〜図７を参照して、音声認識動作機器１００によるメッセージの表示について説明する。図５〜図７は、それぞれ、音声認識動作機器１００のモニター４６０に表示されるメッセージ画面の一例を表わす図である。

図５に示されるように、ある局面において、モニター４６０は、音声認識動作機器１００に対して発せられた音声の発話者を確認するためのメッセージを表示する。当該メッセージは、たとえば「出力された音声は、あなたの声ですか？」である。モニター４６０は、さらに、当該メッセージに対する回答の入力を受け付ける文字を示すアイコン（はい、いいえ）を表示する。ユーザーが「はい」をタッチすると、音声認識動作機器１００から出力された音声は、ユーザーの音声として登録される。ユーザーが「いいえ」をタッチすると、当該音声は、ユーザーの音声としては登録されず、音声データは消去される。

さらに、モニター４６０は、「もう一度、音声を出力」というメッセージを表示する。ユーザーがこのメッセージにタッチすると、音声認識動作機器１００は、先ほど出力された音声を再び出力する。これにより、ユーザーは、音声の内容を確認することができる。さらに別の局面において、モニター４６０は、「中止」とのアイコンを表示しても良い。ユーザーがこのアイコンにタッチすると、ユーザーの登録処理が中止される。

図６を参照して、音声認識動作機器１００が待機モードにあるときに、ユーザーが発話する。そのユーザーが音声認識動作機器１００に登録されているユーザーであれば、モニター４６０は、その旨を表わすメッセージ「音声認証成功音声による制御を開始します。」を表示する。その後、音声認識動作機器１００は、そのユーザーの音声を受け付ける状態（通常運転モード）になり、発話の内容に応じて動作を実行する。

図７を参照して、音声認識動作機器１００が発話したユーザーの音声を認識できない場合について説明する。このような場合、モニター４６０は、その旨を表わすメッセージ「音声認証失敗登録ユーザーの音声を確認できませんでした。」を表示する。ユーザーが改めて発話して音声認証が成功すると、モニター４６０は、図６に示されるメッセージを表示する。

なお、音声認識動作機器１００が登録されたユーザーを認証して音声認識に基づく動作を行なっている場合に、別のユーザーが音声認識動作機器１００に発話することもあり得る。この場合、音声認識動作機器１００は、当該別のユーザーによる発話を認識しないので、特段の反応を示さない。別の局面において、音声認識動作機器１００は、図７に示されるようなメッセージ「音声認証失敗登録ユーザーの音声を確認できませんでした。続ける場合は、もう一度発話してください。中止する場合は、中止、と発話して下さい。」を表示しても良い。ただし、音声認識動作機器１００の安全性の担保のため、たとえば、登録されたユーザー以外のユーザーが音声認識動作機器１００を非常停止させたい場合がある。この場合に備えて、音声認識動作機器１００は、未登録のユーザーによる発話であっても命令を受け付けるように構成されていてもよい。たとえば、非常停止のために予め規定されたメッセージ「非常停止」という発話は、ユーザーに依存することなく音声認識動作機器１００によって受け付けられるように構成されていてもよい。

［制御構造］
（ユーザーの登録）
図８および図９を参照して、音声認識動作機器１００の制御構造について説明する。図８および図９は、音声認識動作機器１００のプロセッサ４１０が実行する処理の一部を表すフローチャートである。

ステップＳ８１０にて、プロセッサ４１０は、登録モードが選択されたことを検知する。

ステップＳ８１５にて、プロセッサ４１０は、音声認識処理部２５２として、音声認識処理を開始する。

ステップＳ８２０にて、プロセッサ４１０は、音声出力部２２０として、発話の入力を促すメッセージを音声で出力する。

ステップＳ８２５にて、プロセッサ４１０は、確認結果入力部２４０として、メッセージに応答した発話の入力を検出する。

ステップＳ８３０にて、プロセッサ４１０は、登録部２５１として、発話を揮発性の記憶領域に一時的に格納する。

ステップＳ８３５にて、プロセッサ４１０は、制御部２５０として、入力された発話を音声出力部２２０を介して出力する。

ステップＳ８４０にて、プロセッサ４１０は、確認要求出力部２３０として、出力された音声がユーザーの音声であるか否かの確認の要求をモニター４６０に表示する。

ステップＳ８５０にて、プロセッサ４１０は、確認結果入力部２４０から送られる信号に基づいて、出力された音声がユーザーの音声であることの確認が入力されたか否かを判断する。プロセッサ４１０は、当該確認が入力されたと判断すると（ステップＳ８５０にてＹＥＳ）、制御をステップＳ８６０に切り替える。そうでない場合には（ステップＳ８５０にてＮＯ）、プロセッサ４１０は、制御をステップＳ８７０に切り替える。

ステップＳ８６０にて、プロセッサ４１０は、入力された発話を、ユーザー識別情報として、不揮発性の記憶領域に保存する。

ステップＳ８７０にて、プロセッサ４１０は、入力された発話を登録しない旨を音声で出力する。

（通常運転モード）
図９を参照して、ステップＳ９１０にて、プロセッサ４１０は、音声入力部２１０から送られる音声に基づいて、通常運転モードへの移行を検知する。

ステップＳ９２０にて、プロセッサ４１０は、音声認識処理部２５２として機能するための音声認識処理アプリケーションを起動する。

ステップＳ９３０にて、プロセッサ４１０は、発話された音声の入力を検出する。
ステップＳ９４０にて、プロセッサ４１０は、音声認識処理部２５２として、音声認識処理を実行し、特徴量を抽出する。

ステップＳ９５０にて、プロセッサ４１０は、メモリ４４０にアクセスして、ユーザー識別情報として保存されている音声の特徴量を読み出す。

ステップＳ９６０にて、プロセッサ４１０は、抽出された特徴量と読み出された特徴量との比較の結果に基づいて、発話したユーザーが登録されたユーザーであるか否かを判断する。プロセッサ４１０は、発話したユーザーが登録されたユーザーであると判断すると（ステップＳ９６０にてＹＥＳ）、制御をステップＳ９７０に切り替える。そうでない場合には（ステップＳ９６０にてＮＯ）、プロセッサ４１０は、制御をステップＳ９８０に切り替える。

ステップＳ９７０にて、プロセッサ４１０は、動作制御部２５３として、発話の内容に基づく動作を実行する。

ステップＳ９８０にて、プロセッサ４１０は、登録されたユーザーでないことを示すメッセージをモニター４６０に表示し、あるいは、その旨の音声をスピーカー４５０を介して出力する。さらに、プロセッサ４１０は、動作制御部２５３として、当該発話では動作せず、現在の状態を維持する。

（まとめ）
以上のようにして、本実施の形態に従う音声認識動作機器１００は、ユーザーの発話の入力を受けると、当該発話を音声で再生する。ユーザーが当該音声が当該ユーザーによるものであることを確認してその旨を音声認識動作機器１００に入力すると、音声認識動作機器１００は、その発話を与えた発話者を正当なユーザーとして登録する。その後、そのユーザーが発話を行なうと、音声認識動作機器１００は、その発話の内容に応じて作動する。一方、音声認識動作機器１００に登録されていない他のユーザーが発話を行なっても、音声認識動作機器１００は、その発話を無視して作動しない。これにより、特定のユーザーを音声認識動作機器１００に登録して、その登録されたユーザーのみが音声認識動作機器１００を作動させることができるので、音声認識動作機器１００の安全性が担保され得る。

＜第２の実施の形態＞
以下、本開示の第２の実施の形態について説明する。本実施の形態に係る音声認識機器制御システム１０００は、ユーザーの音声に基づく命令を端末から受け取って作動するように構成されており、遠隔制御機能を備える点で第１の実施の形態と異なる。なお、本実施の形態に係る技術的な特徴は、第１の実施の形態において示された特徴を用いて実現される。したがって、適宜、第１の実施の形態において示された特徴を用いて、第２の実施の形態を説明する。

［システム構成］
まず、図１０を参照して音声認識機器制御システム１０００の概要について説明する。図１０は、音声認識機器制御システム１０００の構成の一例を表わす図である。音声認識機器制御システム１０００は、音声認識動作機器１００と、サーバ１０１０，１０２０と、携帯端末１０３０とを備える。サーバ１０１０とサーバ１０２０とは、インターネット１０４０に接続されている。また、ある局面において、携帯端末１０３０も、インターネット１０４０に接続可能である。

サーバ１０１０，１０２０は、周知の構成を備えるコンピュータ装置に音声認識機能を追加することによって実現される。携帯端末１０３０は、スマートフォン、タブレット端末、腕時計型端末その他の端末であって音声認識処理機能を備える情報通信端末によって実現される。なお、サーバ１０１０，１０２０と携帯端末１０３０とを総称するときは、遠隔制御端末という。

サーバ１０１０，１０２０および携帯端末１０３０は、ユーザーの発話を受け付けて、発話に対応する制御信号を音声認識動作機器１００に直接に又は間接に送信する。当該ユーザーが、音声認識動作機器１００のユーザーとして予め登録されたユーザーである場合には、音声認識動作機器１００は、その信号に応じて作動する。そうでない場合には、音声認識動作機器１００は、その旨を表わす信号を、当該制御信号を送信したサーバ１０１０，１０２０および携帯端末１０３０のいずれかの遠隔制御端末に、直接に又は間接に送信する。情報通信端末は、その旨を表示し、または、音声で出力する。

［ハードウェア構成］
図１１を参照して、音声認識機能を備えるサーバ１０１０，１０２０の構成について説明する。図１１は、サーバ１０１０，１０２０を実現するコンピュータ１１００のハードウェア構成を表わすブロック図である。

コンピュータ１１００は、主たる構成要素として、プログラムを実行するＣＰＵ（Central Processing Unit）１と、コンピュータ１１００のユーザーによる指示の入力を受けるマウス２およびキーボード３と、ＣＰＵ１によるプログラムの実行により生成されたデータ、又はマウス２若しくはキーボード３を介して入力されたデータを揮発的に（一時的に）格納するＲＡＭ（Random Access Memory）４と、データを不揮発的に（永続的に）格納するハードディスク５と、光ディスク駆動装置６と、通信Ｉ／Ｆ（Interface）７と、モニター８とを備える。各構成要素は、相互にバスによって接続されている。光ディスク駆動装置６には、ＣＤ−ＲＯＭ９その他の光ディスクが装着される。通信インターフェイス７は、ＵＳＢ（Universal Serial Bus）インターフェイス、有線ＬＡＮ（Local Area Network）、無線ＬＡＮ、Bluetooth（登録商標）インターフェイス等を含むが、これらに限られない。

コンピュータ１１００における処理は、コンピュータ１１００を構成するハードウェアおよびＣＰＵ１により実行されるソフトウェアによって実現される。このようなソフトウェアは、ハードディスク５に予め格納されている場合がある。また、ソフトウェアは、ＣＤ−ＲＯＭ９その他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置６その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信Ｉ／Ｆ７を介してダウンロードされた後、ハードディスク５に一旦格納される。そのソフトウェアは、ＣＰＵ１によってハードディスク５から読み出され、ＲＡＭ４に実行可能なプログラムの形式で格納される。ＣＰＵ１は、そのプログラムを実行する。

図１１に示されるコンピュータ１１００を構成する各構成要素は、一般的なものである。したがって、本実施の形態に係るサーバ１０１０，１０２０における技術思想を実現する本質的な部分は、コンピュータ１１００に格納されたプログラムであるともいえる。コンピュータ１１００のハードウェアの動作は周知であるので、詳細な説明は繰り返さない。

なお、データ記録媒体としては、ＣＤ−ＲＯＭ、ＦＤ（Flexible Disk）、ハードディスクに限られず、磁気テープ、カセットテープ、光ディスク（ＭＯ（Magnetic Optical Disc）／ＭＤ（Mini Disc）／ＤＶＤ（Digital Versatile Disc））、ＩＣ（Integrated Circuit）カード（メモリカードを含む）、光カード、マスクＲＯＭ、ＥＰＲＯＭ（Electronically Programmable Read-Only Memory）、ＥＥＰＲＯＭ（Electronically Erasable Programmable Read-Only Memory）、フラッシュＲＯＭなどの半導体メモリ等の固定的にプログラムを担持する不揮発性のデータ記録媒体でもよい。ここでいうプログラムとは、ＣＰＵにより直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含み得る。

図１２を参照して、携帯端末１０３０の構成について説明する。図１２は、携帯端末１０３０のハードウェア構成を表わすブロック図である。

携帯端末１０３０は、ＣＰＵ２０と、アンテナ２３と、通信装置２４と、操作ボタン２５と、カメラ２６と、フラッシュメモリ２７と、ＲＡＭ２８と、ＲＯＭ２９と、メモリカード駆動装置３０と、マイク３２と、スピーカー３３と、音声信号処理回路３４と、モニター３５と、ＬＥＤ３６と、データ通信インターフェイス３７と、バイブレータ３８と、加速度センサ３９とを備える。メモリカード駆動装置３０には、メモリカード３１が装着され得る。

アンテナ２３は、基地局（図示しない）を介して、サーバ１０１０，１０２０によって発信される信号を受信し、または、サーバ１０１０，１０２０を介して他の通信装置と通信するための信号を送信する。アンテナ２３によって受信された信号は、通信装置２４によってフロントエンド処理が行なわれ、処理後の信号は、ＣＰＵ２０に送られる。別の局面において、通信装置２４は、ＷｉＦｉ（Wireless Fidelity）による通信回路として構成されてもよい。

操作ボタン２５は、携帯端末１０３０に対する操作を受け付ける。操作ボタン２５は、たとえば、ハードウェアキーまたはソフトウェアキーとして実現される。操作ボタン２５は、ユーザーによる操作を受け付けると、その時の携帯端末１０３０の動作モードに応じた信号をＣＰＵ２０に送出する。

ＣＰＵ２０は、携帯端末１０３０に対して与えられる命令に基づいて携帯端末１０３０の動作を制御するための処理を実行する。携帯端末１０３０が信号を受信すると、ＣＰＵ２０は、通信装置２４から送られた信号に基づいて予め規定された処理を実行し、処理後の信号を音声信号処理回路３４に送出する。音声信号処理回路３４は、その信号に対して予め規定された信号処理を実行し、処理後の信号をスピーカー３３に送出する。スピーカー３３は、その信号に基づいて音声を出力する。

マイク３２は、携帯端末１０３０に対する発話を受け付けて、発話された音声に対応する信号を音声信号処理回路３４に対して送出する。音声信号処理回路３４は、予め規定された処理を当該信号に対して実行し、処理後の信号をＣＰＵ２０に対して送出する。ＣＰＵ２０は、その信号を送信用のデータに変換し、変換後のデータを通信装置２４に対して送出する。通信装置２４は、そのデータを用いて送信用の信号を生成し、アンテナ２３に向けてその信号を送出する。アンテナ２３から発信される信号は、サーバ１０１０，１０２０に受信される。なお、他の局面において、アンテナ２３の代わりに、有線によってサーバ１０１０，１０２０と携帯端末１０３０とが接続されていてもよい。

フラッシュメモリ２７は、ＣＰＵ２０から送られるデータを格納する。また、ＣＰＵ２０は、フラッシュメモリ２７に格納されているデータを読み出し、そのデータを用いて予め規定された処理を実行する。

ＲＡＭ２８は、操作ボタン２５に対して行なわれた操作に基づいてＣＰＵ２０によって生成されるデータを一時的に保持する。ＲＯＭ２９は、携帯端末１０３０に予め定められた動作を実行させるためのプログラムあるいはデータを格納している。ＣＰＵ２０は、ＲＯＭ２９から当該プログラムまたはデータを読み出し、携帯端末１０３０の動作を制御する。

メモリカード駆動装置３０は、メモリカード３１に格納されているデータを読み出し、読み出したデータをＣＰＵ２０に送出する。メモリカード駆動装置３０は、ＣＰＵ２０によって出力されるデータを、メモリカード３１の空き領域に書き込む。

音声信号処理回路３４は、上述のような通話のための信号処理を実行する。なお、本実施の形態において示される例では、ＣＰＵ２０と音声信号処理回路３４とが別個の構成として示されているが、他の局面において、ＣＰＵ２０と音声信号処理回路３４とが一体として構成されていてもよい。

モニター３５は、ＣＰＵ２０から取得されるデータに基づいて画像を表示する。モニター３５は、たとえば、フラッシュメモリ２７に格納されている静止画像（たとえば、ユーザーの写真、音声認識動作機器１００の取扱説明書その他の電子文書）、動画像、音楽ファイルの属性（当該ファイルの名前、演奏者、演奏時間など）を表示し得る。静止画像は、描画された画像、携帯端末１０３０の製造事業者によって予め準備された画像を含み得る。ある局面において、モニター３５は、タッチパネル式の表示装置として構成され得る。

ＬＥＤ３６は、ＣＰＵ２０からの信号に基づいて、予め定められた発光動作を実現する。データ通信インターフェイス３７は、データ通信用のケーブルの装着を受け付ける。

データ通信インターフェイス３７は、ＣＰＵ２０から出力される信号を当該ケーブルに対して送出する。あるいは、データ通信インターフェイス３７は、当該ケーブルを介して受信されるデータを、ＣＰＵ２０に対して送出する。

バイブレータ３８は、ＣＰＵ２０から出力される信号に基づいて、予め定められた周波
数で発振動作を実行する。

加速度センサ３９は、携帯端末１０３０に作用する加速度の方向を検出する。検出結果は、ＣＰＵ２０に入力される。ＣＰＵ２０は、検出結果に応じて携帯端末１０３０の姿勢を検知し、たとえば、モニター３５における画面の表示方向を制御する。

なお、本実施の形態に係る携帯端末１０３０は上述の構成要素を全て備える必要はなく、少なくとも、音声入出力機能と通信機能とを有する情報処理端末であればよい。

［制御構造］
図１３を参照して、本実施の形態に係る音声認識機器制御システム１０００の制御構造について説明する。図１３は、遠隔制御端末の一例である携帯端末１０３０と音声認識動作機器１００とが実行する処理の一部を表わすフローチャートである。なお、適宜、第１の実施の形態における構成を参照して第２の実施の形態を説明する。

（ユーザーの登録）
ステップＳ１３０５にて、遠隔制御端末と音声認識動作機器１００とは、予め定められた条件が成立したことに基づいて、通信を確立する。当該予め定められた条件は、たとえば、遠隔制御端末のユーザーが音声認識動作機器１００との通信を要求する操作を行ったこと、音声認識動作機器１００のユーザーが音声認識動作機器１００のスイッチを操作して遠隔制御端末との通信を要求する操作を行ったこと、予め指定された時刻が到来したこと等を含み得る。

ステップＳ１３１０にて、携帯端末１０３０のＣＰＵ２０は、登録モードが選択されたことを検知する。

ステップＳ１３１５にて、携帯端末１０３０のＣＰＵ２０は、音声認識処理部２５２として、音声認識処理を開始する。

ステップＳ１３２０にて、ＣＰＵ２０は、音声出力部２２０として、発話の入力を促すメッセージを音声で出力する。あるいは、ＣＰＵ２０は３５に対して当該メッセージを表示させる。ユーザーは、そのようなメッセージを認識すると、マイク３２に向かって発話する。

ステップＳ１３２５にて、ＣＰＵ２０は、音声信号処理回路３４を介して、メッセージに応答した発話の入力を検出する。ＣＰＵ２０は、発話に応じた信号を生成し、その信号を通信装置２４を介して、音声認識動作機器１００に送信する。

ステップＳ１３３０にて、ＣＰＵ２０は、登録部２５１として、発話をＲＡＭ２８に一時的に格納する。

ステップＳ１３３５にて、ＣＰＵ２０は、制御部２５０として、入力された発話をスピーカー３３を介して音声で出力する。出力される音声は、ユーザーによる確認のために用いられる。

ステップＳ１３４０にて、ＣＰＵ２０は、確認要求出力部２３０として、出力された音声がユーザーの音声であるか否かの確認の要求をモニター３５に表示する。

ステップＳ１３５０にて、ＣＰＵ２０は、操作ボタン２５から送られる信号に基づいて、出力された音声がユーザーの音声であることの確認が入力されたか否かを判断する。ＣＰＵ２０は、当該確認が入力されたと判断すると（ステップＳ１３５０にてＹＥＳ）、制御をステップＳ１３６０に切り替える。そうでない場合には（ステップＳ１３５０にてＮＯ）、ＣＰＵ２０は、制御をステップＳ１３７０に切り替える。

ステップＳ１３６０にて、ＣＰＵ２０は、入力された発話を、ユーザー識別情報として、フラッシュメモリ２７その他の不揮発性の記憶領域に保存する。

ステップＳ１３７０にて、ＣＰＵ２０は、入力された発話を登録しない旨をスピーカー３３を介して音声で出力する。

（通常運転モード）
図１４を参照して、通常運転モードにおける１１００の制御構造について説明する。図１４は、ＣＰＵ２０が実行する処理の一部を表わすフローチャートである。

ステップＳ１４１０にて、ＣＰＵ２０は、ユーザーの操作に基づいて、音声認識動作機器１００の動作モードを待機モードから通常運転モードへの移行を検知する。

ステップＳ１４２０にて、ＣＰＵ２０は、音声認識処理部２５２として機能するための音声認識処理アプリケーションを起動する。

ステップＳ１４３０にて、ＣＰＵ２０は、発話された音声の入力を検出する。
ステップＳ１４４０にて、ＣＰＵ２０は、音声認識処理部２５２として、音声認識処理を実行し、特徴量を抽出する。

ステップＳ１４５０にて、ＣＰＵ２０は、フラッシュメモリ２７にアクセスして、ユーザー識別情報として保存されている音声の特徴量を読み出す。

ステップＳ１４６０にて、ＣＰＵ２０は、抽出された特徴量と読み出された特徴量との比較の結果に基づいて、発話したユーザーは登録されたユーザーであるか否かを判断する。ＣＰＵ２０は、発話したユーザーが登録されたユーザーであると判断すると（ステップＳ１４６０にてＹＥＳ）、制御をステップＳ１４７０に切り替える。そうでない場合には（ステップＳ１４６０にてＮＯ）、ＣＰＵ２０は、制御をステップＳ１４８０に切り替える。

ステップＳ１４７０にて、ＣＰＵ２０は、動作制御部２５３として、発話の内容に基づく動作を音声認識動作機器１００に実行させるための制御信号を生成し、その制御信号を通信装置２４を介して音声認識動作機器１００に送信する。音声認識動作機器１００は、その制御信号を携帯端末１０３０から受信すると、その制御信号に含まれる命令コードに従って作動する。たとえば、音声認識動作機器１００が掃除機として実現される場合、ユーザーが携帯端末１０３０に向かって「掃除して」と発話すると、携帯端末１０３０は、「掃除して」に相当する命令コード「掃除開始」を含む制御信号を生成し、直接に、または、通信回線を介して間接に音声認識動作機器１００に送信する。音声認識動作機器１００がこの制御信号を受信して命令コードを抽出すると、掃除を開始する。

ステップＳ１４８０にて、ＣＰＵ２０は、登録されたユーザーでないことを示すメッセージをモニター３５に表示し、あるいは、その旨の音声をスピーカー３３を介して出力する。さらに、ＣＰＵ２０は、当該発話に基づいて音声認識動作機器１００を作動させるための制御信号を生成しない。その結果、音声認識動作機器１００に登録されていないユーザーが携帯端末１０３０に向かって発話しても、携帯端末１０３０は制御信号を音声認識動作機器１００に送信しないので、音声認識動作機器１００は作動しない。これにより、正当なユーザーとして登録されていない他の発話者による発話に基づく音声認識動作機器１００の発話が防止され得る。

＜構成＞
一実施の形態に従う本開示に基づく構成は、以下のように、要約され得る。ある局面において、各構成は、複数のモジュールの組み合わせとして実現される。各モジュールは、ハードウェアおよびソフトウェアおよびこれらの組み合わせとして実現され得る。

［構成１］
音声認識動作機器（１００）であって、
発話された音声の入力を受け付けるように構成された音声入力部（２１０）と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成された確認要求出力部（２３０）と、
上記確認の結果の入力を受け付けるように構成された確認結果入力部（２４０）と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するように構成された登録部（２５１）と、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するように構成された音声認識処理部（２５２）と、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して上記音声認識動作機器を制御するように構成された動作制御部（２５３）とを備える。

［構成２］
入力された音声を出力するように構成された音声出力部（２２０）をさらに備え、
前記確認要求出力部は、前記出力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成されている、構成１に記載の音声認識動作機器。

［構成３］
声紋認証部と、
入力された音声を個人情報に変換し出力する個人情報出力部とをさらに備え、
前記確認要求出力部は、前記出力された個人情報によって特定されるユーザーが前記音声認識動作機器を制御するユーザーであるか否かの確認を要求するように構成されている、構成１または２に記載の音声認識動作機器。

［構成４］
上記登録された音声と異なる音声が入力された場合に、上記音声認識動作機器が実行可能な処理を通知するように構成された通知部（２７０）をさらに備える、構成１〜３のいずれかに記載の音声認識動作機器。

［構成５］
上記確認要求出力部は、モニター（４６０）を含み、
上記モニターは、上記出力された音声が発話者の音声であるか否かを問い合わせる画面を表示するように構成されている、構成１〜４のいずれかに記載の音声認識動作機器。

［構成６］
上記登録された音声と異なる音声が入力された場合に、上記音声認識動作機器が当該異なる音声に基づく動作を実行できないことを報知するように構成された報知部（２８０）をさらに備える、構成１〜５のいずれかに記載の音声認識動作機器。

［構成７］
上記登録部は、上記音声認識動作機器のユーザーの音声として、複数のユーザーの各音声を登録するように構成されており、
上記動作制御部は、登録された各上記ユーザーの音声が入力された場合に、当該音声に応答して上記音声認識動作機器を制御するように構成されている、構成１〜６のいずれか一項に記載の音声認識動作機器。

［構成８］
音声認識動作機器を制御するための制御装置（１０３０）であって、
入力された音声を出力するように構成された音声出力部（３３）と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成された確認要求出力部（３５）と、
上記確認の結果の入力を受け付けるように構成された確認結果入力部（２５）と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するように構成された登録部（２０）と、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するように構成された音声認識処理部（２５２）と、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して上記音声認識動作機器を制御するための制御信号を出力するように構成された通信部（２４）とを備える、制御装置。

［構成９］
入力された音声を出力するように構成された音声出力部（２２０）をさらに備え、
上記確認要求出力部は、上記出力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成されている、構成８に記載の制御装置。

［構成１０］
声紋認証部と、
入力された音声を個人情報に変換し出力する個人情報出力部とをさらに備え、
上記確認要求出力部は、上記出力された個人情報によって特定されるユーザーが前記音声認識動作機器を制御するユーザーであるか否かの確認を要求するように構成されている、構成８または９に記載の制御装置。

［構成１１］
上記登録された音声と異なる音声が入力された場合に、上記音声認識動作機器が実行可能な処理を通知するように構成された通知部（３５）をさらに備える、構成８〜１０のいずれかに記載の制御装置。

［構成１２］
上記確認要求出力部は、モニターを含み、
上記モニターは、上記出力された音声が発話者の音声であるか否かを問い合わせる画面を表示するように構成されている、構成８〜１１のいずれかに記載の制御装置。

［構成１３］
上記登録された音声と異なる音声が入力された場合に、上記音声認識動作機器が当該異なる音声に基づく動作を実行できないことを報知するように構成された報知部（３３，３５，３６，３８）をさらに備える、構成８〜１２のいずれかに記載の制御装置。

［構成１４］
上記登録部は、上記音声認識動作機器のユーザーの音声として、複数のユーザーの各音声を登録するように構成されており、
上記通信部は、登録された各上記ユーザーの音声が入力された場合に、当該音声に応答して上記制御信号を出力するように構成されている、構成８〜１３のいずれかに記載の制御装置。

［構成１５］
上記制御装置により制御される音声認識動作機器の指定を受け付けるように構成された指定部（２５）をさらに備え、
上記入力された音声を登録することは、指定された音声認識動作機器のユーザーの音声として、上記入力された音声を登録することを含み、
上記制御信号を出力することは、上記指定された音声認識動作機器を制御するための制御信号を出力することを含む、構成８〜１４に記載の制御装置。

［構成１６］
音声認識動作機器の動作方法であって、
発話された音声の入力を受け付けるステップ（Ｓ８２５）と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップ（Ｓ８４０）と、
上記確認の入力を受け付けるステップ（Ｓ８５０）と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するステップ（Ｓ８６０）と、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するステップ（Ｓ９６０）と、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して作動するステップ（Ｓ９７０）とを含む、方法。

［構成１７］
制御装置が音声認識動作機器を制御するための方法であって、
発話された音声の入力を受け付けるステップ（Ｓ１３２５）と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップ（Ｓ１３４０）と、
上記確認の入力を受け付けるステップ（Ｓ１３５０）と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するステップ（Ｓ１３６０）と、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するステップ（Ｓ１４６０）と、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して上記音声認識動作機器を制御するための制御信号を出力するステップ（Ｓ１４７０）とを含む、方法。

［構成１８］
音声認識動作機器を制御するためのプログラムであって、上記プログラムは上記音声認識動作機器に、
発話された音声の入力を受け付けるステップと、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
上記確認の入力を受け付けるステップと、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するステップと、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して作動するステップとを実行させる、プログラム。

［構成１９］
通信端末に音声認識動作機器を制御させるためのプログラムであって、上記プログラムは上記通信端末に、
発話された音声の入力を受け付けるステップと、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
上記確認の入力を受け付けるステップと、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するステップと、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して上記音声認識動作機器を制御するための制御信号を出力するステップとを実行させる、プログラム。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

２マウス、３キーボード、４，２８ＲＡＭ、５ハードディスク、６光ディスク駆動装置、７，４８０通信インターフェイス、８，３５，４６０モニター、９，２９ＲＯＭ、２３アンテナ、２４通信装置、２５操作ボタン、２６カメラ、２７フラッシュメモリ、３０メモリカード駆動装置、３１メモリカード、３２，４２０マイク、３３，４５０スピーカー、３４音声信号処理回路、３７データ通信インターフェイス、３８バイブレータ、３９加速度センサ、１００音声認識動作機器、１１０音声認識掃除機、１２０対話型生活支援ロボット、１３０電動車椅子、２１０音声入力部、２２０音声出力部、２３０確認要求出力部、２４０確認結果入力部、２５０制御部、２５１登録部、２５２音声認識処理部、２５３動作制御部、２６０記憶部、２７０通知部、２８０報知部、２９０動作部、４１０プロセッサ、４３０スイッチ、４４０メモリ、４９０モーター、１０１０，１０２０サーバ、１０３０携帯端末、１１００コンピュータ。

Claims

音声認識動作機器であって、
発話された音声の入力を受け付けるように構成された音声入力部と、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成された確認要求出力部と、
前記確認の結果の入力を受け付けるように構成された確認結果入力部と、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するように構成された登録部と、
前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するように構成された音声認識処理部と、
前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して前記音声認識動作機器を制御するように構成された動作制御部とを備える、音声認識動作機器。
入力された音声を出力するように構成された音声出力部をさらに備え、
前記確認要求出力部は、前記出力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成されている、請求項１に記載の音声認識動作機器。
声紋認証部と、
入力された音声を個人情報に変換し出力する個人情報出力部とをさらに備え、
前記確認要求出力部は、前記出力された個人情報によって特定されるユーザーが前記音声認識動作機器を制御するユーザーであるか否かの確認を要求するように構成されている、請求項１または２に記載の音声認識動作機器。
前記登録された音声と異なる音声が入力された場合に、前記音声認識動作機器が実行可能な処理を通知するように構成された通知部をさらに備える、請求項１〜３のいずれか一項に記載の音声認識動作機器。
前記出力部は、モニタを含み、
前記モニタは、前記出力された音声が発話者の音声であるか否かを問い合わせる画面を表示するように構成されている、請求項１〜４のいずれか一項に記載の音声認識動作機器。
前記登録された音声と異なる音声が入力された場合に、前記音声認識動作機器が当該異なる音声に基づく動作を実行できないことを報知するように構成された報知部をさらに備える、請求項１〜５のいずれか一項に記載の音声認識動作機器。
前記登録部は、前記音声認識動作機器のユーザーの音声として、複数のユーザーの各音声を登録するように構成されており、
前記動作制御部は、登録された各前記ユーザーの音声が入力された場合に、当該音声に応答して前記音声認識動作機器を制御するように構成されている、請求項１〜６のいずれか一項に記載の音声認識動作機器。
音声認識動作機器を制御するための制御装置であって、
発話された音声の入力を受け付けるように構成された音声入力部と、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成された確認要求出力部と、
前記確認の結果の入力を受け付けるように構成された確認結果入力部と、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するように構成された登録部と、
前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するように構成された音声認識処理部と、
前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して前記音声認識動作機器を制御するための制御信号を出力するように構成された通信部とを備える、制御装置。
入力された音声を出力するように構成された音声出力部をさらに備え、
前記確認要求出力部は、前記出力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成されている、請求項８に記載の制御装置。
声紋認証部と、
入力された音声を個人情報に変換し出力する個人情報出力部とをさらに備え、
前記確認要求出力部は、前記出力された個人情報によって特定されるユーザーが前記音声認識動作機器を制御するユーザーであるか否かの確認を要求するように構成されている、請求項８または９に記載の制御装置。
前記登録された音声と異なる音声が入力された場合に、前記音声認識動作機器が実行可能な処理を通知するように構成された通知部をさらに備える、請求項８〜１０のいずれか一項に記載の制御装置。
前記出力部は、モニタを含み、
前記モニタは、前記出力された音声が発話者の音声であるか否かを問い合わせる画面を表示するように構成されている、請求項８〜１１のいずれか一項に記載の制御装置。
前記登録された音声と異なる音声が入力された場合に、前記音声認識動作機器が当該異なる音声に基づく動作を実行できないことを報知するように構成された報知部をさらに備える、請求項８〜１２のいずれか一項に記載の制御装置。
前記登録部は、前記音声認識動作機器のユーザーの音声として、複数のユーザーの各音声を登録するように構成されており、
前記通信部は、登録された各前記ユーザーの音声が入力された場合に、当該音声に応答して前記制御信号を出力するように構成されている、請求項８〜１３のいずれか一項に記載の制御装置。
前記制御装置により制御される音声認識動作機器の指定を受け付けるように構成された指定部をさらに備え、
前記入力された音声を登録することは、指定された音声認識動作機器のユーザーの音声として、前記入力された音声を登録することを含み、
前記制御信号を出力することは、前記指定された音声認識動作機器を制御するための制御信号を出力することを含む、請求項８〜１４のいずれか一項に記載の制御装置。
音声認識動作機器の動作方法であって、
発話された音声の入力を受け付けるステップと、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
前記確認の入力を受け付けるステップと、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するステップと、
前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して作動するステップとを含む、方法。
制御装置が音声認識動作機器を制御するための方法であって、
発話された音声の入力を受け付けるステップと、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
前記確認の入力を受け付けるステップと、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するステップと、
前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して前記音声認識動作機器を制御するための制御信号を出力するステップとを含む、方法。
音声認識動作機器を制御するためのプログラムであって、前記プログラムは前記音声認識動作機器に、
発話された音声の入力を受け付けるステップと、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
前記確認の入力を受け付けるステップと、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するステップと、
前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して作動するステップとを実行させる、プログラム。
通信端末に音声認識動作機器を制御させるためのプログラムであって、前記プログラムは前記通信端末に、
発話された音声の入力を受け付けるステップと、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
前記確認の入力を受け付けるステップと、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するステップと、
前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して前記音声認識動作機器を制御するための制御信号を出力するステップとを実行させる、プログラム。
音声認識動作機器を制御するためのシステムであって、
発話された音声の入力を受け付けるための手段と、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するための手段と、
前記確認の結果の入力を受け付けるための手段と、
前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するための手段と、
前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するための手段と、
前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して前記音声認識動作機器を制御するための手段とを備える、システム。