JP2016099469A - 音声認識動作機器、音声認識動作機器の制御装置、音声認識動作機器の動作方法、プログラム、および、音声認識動作機器の制御システム - Google Patents

音声認識動作機器、音声認識動作機器の制御装置、音声認識動作機器の動作方法、プログラム、および、音声認識動作機器の制御システム Download PDF

Info

Publication number
JP2016099469A
JP2016099469A JP2014235693A JP2014235693A JP2016099469A JP 2016099469 A JP2016099469 A JP 2016099469A JP 2014235693 A JP2014235693 A JP 2014235693A JP 2014235693 A JP2014235693 A JP 2014235693A JP 2016099469 A JP2016099469 A JP 2016099469A
Authority
JP
Japan
Prior art keywords
voice
input
user
operation device
recognition operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014235693A
Other languages
English (en)
Inventor
豊川 卓
Taku Toyokawa
卓 豊川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2014235693A priority Critical patent/JP2016099469A/ja
Publication of JP2016099469A publication Critical patent/JP2016099469A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識動作機器を使用できるユーザーの登録を容易にする。【解決手段】音声認識動作機器のプロセッサが実行する処理は、登録モードが選択されたことを検知するステップ(S810)と、音声認識処理を開始するステップ(S815)と、発話の入力を促すメッセージを音声で出力するステップ(S820)と、メッセージに応答した発話の入力を検出するステップ(S825)と、発話を揮発性の記憶領域に一時的に格納するステップ(S830)と、入力された発話を出力するステップ(S835)と、出力された音声がユーザーの音声であるか否かの確認の要求をモニターに表示するステップ(S840)と、出力された音声がユーザーの音声であることの確認が入力されたと判断した場合に(ステップS850にてYES)、入力された発話を、ユーザー識別情報として、不揮発性の記憶領域に保存するステップ(S860)とを含む。【選択図】図8

Description

本開示は、音声認識に基づいて作動する機器の制御に関し、より特定的には、当該機器を使用できるユーザーを登録する技術に関する。
従来、音声で装置を制御する技術が知られている。たとえば、特開2002−123292号公報(特許文献1)は、「スイッチの操作が行い難い場合にも、音声で術者の思い通りの視野の設定等のシステム制御が確実にできるシステム制御装置」を開示している([要約]の[課題]参照)。特開2002−123292号公報に開示された技術によると、「音声コマンドの音声に類似した類似単語とを予め登録しておき、音声認識を行うモードに設定された状態で、マイク26から音声入力があった場合には、CPU63は前者のコマンドであると音声認識した場合にのみ、そのコマンドに割り当てられた機能を実行するようにして、音声で確実にシステム制御を行える」というものである([要約]参照)。
また、特開2011−282234号公報(特許文献2)は、「音声認識装置を使用する場合に、ユーザーの心理的負担を軽減すると共に、混乱を防止して、容易に使用可能にする」ための技術を開示している。特開2011−282234号公報に開示された技術によると、ユーザーによる音声認識装置10の使用状況に応じて、ユーザーに使用許可する操作コマンドの個数を増加させるコマンド増加手段」により、「使用開始時においては、ユーザーが記憶しなければならないと感じる操作コマンドの個数がかなり少なくなるので、ユーザーの心理的負担が軽減される」というものである([要約]参照)。
特開2002−123292号公報 特開2011−282234号公報
音声認識を用いた制御が可能な機器では、特定のユーザーのみによる使用が望ましい場合がある。たとえば、電動車椅子、電動アシスト自転車、電気自動車その他の音声認識動作機器は、意図しない動作の防止その他の安全の観点から、不特定多数のユーザーによる使用よりも一人または少数の限られたユーザーによる使用が望ましい場合がある。その場合、使用が認められたユーザーを当該音声認識動作機器に簡易に登録するための技術が必要とされている。
本開示は、上述のような問題点を解決するためになされたものであって、ある局面における目的は、使用を許可するユーザーを簡易に登録することができる音声認識動作機器を提供することである。他の局面における目的は、音声認識動作機器の使用を許可するユーザーを簡易に登録することができる制御装置を提供することである。
他の局面における目的は、使用を許可するユーザーを簡易に登録することができる音声認識動作機器の動作方法を提供することである。他の局面における目的は、音声認識動作機器の使用を許可するユーザーを簡易に登録することができる当該音声認識動作機器の制御方法を提供することである。
他の局面における目的は、音声認識動作機器の使用を許可するユーザーを簡易に登録することができるように当該音声認識動作機器を制御するためのプログラムを提供することである。さらに他の局面における目的は、音声認識動作機器の使用を許可するユーザーを簡易に登録することができるように通信端末が音声認識動作機器を制御するためのプログラムを提供することである。
一実施の局面に従うと、音声認識動作機器が提供される。この音声認識動作機器は、発話された音声の入力を受け付けるように構成された音声入力部と、入力された音声が音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成された確認要求出力部と、確認の結果の入力を受け付けるように構成された確認結果入力部と、入力された音声が音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、音声認識動作機器のユーザーの音声として、入力された音声を登録するように構成された登録部と、音声の登録後に新たに入力される音声が音声認識動作機器のユーザーの音声であるか否かを確認するように構成された音声認識処理部と、新たに入力される音声が音声認識動作機器のユーザーの音声である場合に、新たに入力される音声に応答して音声認識動作機器を制御するように構成された動作制御部とを備える。
ある局面によると、音声認識動作機器の使用を許可するユーザーを簡易に登録することができる。
この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。
ユーザーが音声認識機器を制御する一態様を表わす図である。 音声認識動作機器100によって実現される機能の構成を表わすブロック図である。 記憶部260におけるデータの格納の一態様を表わす図である。 音声認識動作機器100のハードウェア構成の一例を表わすブロック図である。 音声認識動作機器100のモニター460に表示されるメッセージ画面の一例を表わす図である。 音声認識動作機器100のモニター460に表示されるメッセージ画面の一例を表わす図である。 音声認識動作機器100のモニター460に表示されるメッセージ画面の一例を表わす図である。 音声認識動作機器100のプロセッサ410が実行する処理の一部を表すフローチャートである。 音声認識動作機器100のプロセッサ410が実行する処理の一部を表すフローチャートである。 音声認識機器制御システム1000の構成の一例を表わす図である。 サーバ1010,1020を実現するコンピュータ1100のハードウェア構成を表わすブロック図である。 携帯端末1030のハードウェア構成を表わすブロック図である。 遠隔制御端末の一例である携帯端末1030と音声認識動作機器100とが実行する処理の一部を表わすフローチャートである。 CPU20が実行する処理の一部を表わすフローチャートである。
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
<第1の実施の形態>
[技術思想]
図1を参照して、本開示に係る技術思想について説明する。図1は、ユーザーが音声認識動作機器を制御する一態様を表わす図である。
ある局面において、ユーザーAは、音声認識掃除機110あるいは電動車椅子130の動作を音声で制御できる。ユーザーBは、音声で、音声認識掃除機110または対話型生活支援ロボット120の動作を制御することができる。以下、音声認識掃除機110、対話型生活支援ロボット120および電動車椅子130を総称するときは、音声認識動作機器100という。本実施の形態において音声認識動作機器100は、少なくとも、音声認識機能を備える機器であって、少なくとも音声に基づいて何らかの動作を行なう機器を含み得る。音声認識動作機器100は、図1に例示される機器に限られず、エアコンその他の家庭電化製品、電気自動車、工場に設置される設備、電車、遊園地に設置される動作機械(たとえば、観覧車、ジェットコースターその他の乗り物)等を含み得る。
より具体的には、音声認識掃除機110は、ユーザーAおよびBのいずれかによる音声を登録しており、その音声を認識した場合に作動し得る。対話型生活支援ロボット120は、ユーザーBの音声を登録しており、その音声を認識した場合に作動し得る。したがって、ユーザーAが対話型生活支援ロボット120に対して発話しても、対話型生活支援ロボット120は作動しない。電動車椅子130はユーザーAの音声を登録しており、その音声を認識した場合に作動し得る。したがって、ユーザーBが電動車椅子130に対して発話しても、電動車椅子130は作動しない。このようにして、登録されたユーザー以外の発話者は、当該機器を作動させることができないので、意図しないユーザーによる機器の使用が防止され、安全性が担保され得る。
[機能構成]
図2を参照して、音声認識動作機器100の構成について説明する。図2は、音声認識動作機器100によって実現される機能の構成を表わすブロック図である。音声認識動作機器100は、音声入力部210と、音声出力部220と、確認要求出力部230と、確認結果入力部240と、制御部250と、記憶部260と、通知部270と、報知部280と、動作部290とを備える。制御部250は、登録部251と、音声認識処理部252と、動作制御部253とを含む。
音声入力部210は、音声の入力を受け付けて音声に応じた信号を制御部250に送る。音声入力部210は、たとえば、マイクその他の集音装置として実現される。
音声出力部220は、制御部250から送られる信号に基づいて、音声を出力する。音声出力部220は、たとえば、スピーカーとして実現される。
確認要求出力部230は、音声認識動作機器100のユーザーに対して、音声出力部220によって出力された音声が当該ユーザーの音声であるか否かの確認を促す要求を出力する。確認要求出力部230は、たとえば、モニター、スピーカーを用いて実現される。ある局面において、確認要求出力部230は、モニターとして、ユーザーに対して当該確認を求めるメッセージと、当該メッセージに対する肯定または否定の入力を受け付けるアイコンを表示する。たとえば、当該メッセージは、「出力される音声は、あなたの声ですか? はい、または、いいえ、を入力してください。」と表示される。別の局面において、確認要求出力部230は、スピーカーを用いて実現され、当該確認を求めるメッセージを音声として出力する。この場合、たとえば、上記のメッセージが音声として出力される。
確認結果入力部240は、確認要求出力部230により求められた確認の結果の入力を受け付ける。確認結果入力部240は、たとえば、タッチパネルに設けられるアイコンその他のソフトウェアスイッチ、あるいは、音声認識動作機器100の筐体に設けられるハードウェアスイッチ等によって実現される。さらに他の局面において、確認結果入力部240は、音声認識処理によって実現されてもよい。この場合、音声認識動作機器100は、最初の発話を行なったユーザーと、確認のための発話を行うユーザーとが同一であるか否かを確認することができるので、成りすましによる登録が防止され得る。
制御部250は、音声認識動作機器100の動作を制御する。ある局面において、制御部250は、音声認識動作機器100が備える機能を実行する動作を制御する。たとえば、音声認識動作機器100が音声認識掃除機110として実現される場合、制御部250は、掃除機能、走行制御、充電制御等を実行する。別の局面において、音声認識動作機器100が対話型生活支援ロボット120として実現される場合、制御部250は、歩行制御、対話制御、充電制御、非常停止制御等を実行する。さらに別の局面において、音声認識動作機器100が電動車椅子130として実現される場合、制御部250は、車輪の駆動制御、速度制御等を実現する。
より具体的には、制御部250は、登録部251として、音声認識動作機器100のユーザーを登録する。たとえば、登録部251は、ユーザーの識別情報を記憶部260に格納する。識別情報は、たとえば、ユーザーの名前、音声データ、生体情報等を含む。生体情報は、声紋、指紋などを含み得る。
音声認識処理部252は、音声入力部210から送られる音声信号を用いて音声認識処理を実行する。たとえば、音声認識動作機器100の登録モードにおいて、音声認識処理部252は、アナログの音声信号から得られるデジタルデータを用いて周知の音声認識処理技術を用いて音声を解析し特徴量を抽出する。別の局面において、音声認識動作機器100の通常動作モードにおいて、音声認識処理部252は、音声入力部210から送られる音声信号を解析して、音声認識動作機器100のユーザーとして登録されているユーザーによって発話されたか否かを確認する。確認の結果は、動作制御部253に送られる。
動作制御部253は、確認の結果に基づいて音声認識動作機器100の動作を制御する。たとえば、音声が音声認識動作機器100に登録されたユーザーによって発せられたものである場合、動作制御部253は、その音声によって認識された命令に応じた動作を実行する。たとえば、音声認識動作機器100がお掃除ロボットである場合、動作制御部253は、モーターを始動し、吸引および走行を開始する。音声認識動作機器100が対話ロボットである場合、動作制御部253は、発話の内容に応じた返答を行なう。音声認識動作機器100が電動車椅子の場合、動作制御部253は、発話の内容に応じて前進し、停止し、あるいは後退する。
さらに別の局面において、制御部250は、声紋認証部および個人情報出力部として機能し得る。より具体的には、制御部250は、声紋認証部として、音声入力部210に対して入力された音声の声紋を認証する。声紋の認証技術は特に限定されない。さらに、制御部250は、個人情報出力部として、入力された当該音声を当該音声の発話者に固有な個人情報に変換し、変換によって生成された個人情報を記憶部260に格納する。確認要求出力部230は、当該個人情報によって特定されるユーザーが音声認識動作機器100を制御するユーザーであるか否かの確認を要求する。
記憶部260は、音声認識動作機器100のユーザー情報、音声認識動作機器100に発話を与えたユーザーに固有な個人情報、音声認識動作機器100の動作を制御するデータおよびプログラム等を保持する。記憶部260は、たとえば、ハードディスク、フラッシュメモリその他の不揮発記録媒体によって実現される。別の局面において、記憶部260は、着脱可能なデータ記録媒体としても実現され得る。さらに別の局面において、記憶部260は、通信ケーブルを介して音声認識動作機器100に装着される外部記憶装置としても実現され得る。
通知部270は、登録された音声と異なる音声が入力された場合に、音声認識動作機器100が実行可能な処理を通知する。通知部270は、たとえば、スピーカー、モニターを用いて実現される。
報知部280は、登録された音声と異なる音声が入力された場合に、音声認識動作機器100が当該異なる音声に基づく動作を実行できないことを報知する。報知部280は、たとえば、スピーカー、モニターを用いて実現される。さらに別の局面において、報知部280は、予め登録された通知先にメッセージを送信するように構成されてもよい。
動作部290は、音声認識動作機器100の動作を実現する。動作部290は、たとえば、モーター、アクチュエーター等を用いて実現される。音声認識動作機器100が音声認識掃除機110である場合には、動作部290は、吸引モーター、集塵器、排気口等を含み得る。音声認識動作機器100が対話型生活支援ロボット120である場合には、動作部290は、歩行ユニット、胴体回転部等を含み得る。音声認識動作機器100が電動車椅子130である場合には、電動車輪、電動リクライニング機構等を含み得る。
[データ構造]
図3を参照して、音声認識動作機器100のデータ構造について説明する。図3は、記憶部260におけるデータの格納の一態様を表わす図である。記憶部260は、動作モード310とステータス320とを保持している。動作モード310は、音声認識動作機器100の動作モードを規定している。動作モード310は、たとえば、登録モード、通常運転モード、音声認識モード、テストモード等を含み得る。
登録モードは、音声認識動作機器100のユーザーの登録を受け付ける。登録モードでは、音声認識動作機器100は、ユーザーに発話を促すメッセージを表示し、あるいは当該メッセージを音声で出力する。音声認識動作機器100は、そのメッセージに対して発せられた音声を出力し、当該音声の発話者をユーザーとして登録するか否かを確認するメッセージを表示し、あるいは音声で出力する。
通常運転モードは、音声認識動作機器100において予め規定された通常の動作を可能にする。たとえば、音声認識動作機器100が音声認識掃除機110の場合、通常運転モードでは、音声認識動作機器100は掃除動作あるいは充電を行なう。音声認識モードは、音声認識動作機器100に対する発話の入力を受け付けて、発話された音声の認識処理を実行する。テストモードは、音声認識動作機器100の試運転、動作テスト等を可能にする。たとえば、音声認識動作機器100の制御ソフトウェアがアップデートされた場合、音声認識動作機器100は、予め規定されたテスト動作を行なう。
ステータス320は、当該動作モード310が有効になっているか否かを表わす。ステータス320は、音声認識動作機器100の動作が開始する時に、あるいは、音声認識動作機器100の外部から制御信号を受信した時に、更新される。
[ハードウェア構成]
図4を参照して、音声認識動作機器100の構成についてさらに説明する。図4は、音声認識動作機器100のハードウェア構成の一例を表わすブロック図である。音声認識動作機器100は、プロセッサ410と、マイク420と、スイッチ430と、メモリ440と、スピーカー450と、モニター460と、LED(Light Emitting Diode)470と、通信インターフェイス480と、モーター490とを備える。
プロセッサ410は、音声認識動作機器100の動作を制御する。マイク420は、音声認識動作機器100に対する発話を受け付けて音声信号をプロセッサ410に送る。スイッチ430は、音声認識動作機器100に対する命令の入力を受け付ける。スイッチ430は、ハードウェアスイッチおよびソフトウェアスイッチのいずれであっても良い。メモリ440は、音声認識動作機器100の動作を規定するために製造者によって予め作成されたプログラムおよびデータ、ならびに、音声認識動作機器100のユーザーによって入力されたデータまたはプログラムを保持する。
スピーカー450は、プロセッサ410から送られる信号に基づいて音声を出力する。出力される音声は、音声認識動作機器100のユーザーに発話を促すメッセージ、ユーザーによって発せられた音声、音声認識動作機器100の動作を通知するために予め規定されたガイダンスなどを含み得る。
モニター460は、音声認識動作機器100の状態、音声認識動作機器100のユーザーに対するメッセージなどを表示する。モニター460は、たとえば、内蔵式のモニター装置として実現される。他の局面において、モニター460は、着脱可能なモニターとして、たとえば、スマートフォンその他の携帯通信端末が音声認識動作機器100に装着される態様で用いられてもよい。
LED470は、音声認識動作機器100の運転の状態を表示する。LED470は、単色および複数色のいずれであってもよい。LED470が単色で実現される場合、点灯の状態、点滅速度等によって、音声認識動作機器100の状態が区別され得る。LED470が複数色で実現される場合、音声認識動作機器100の状態は、LED470の色によって区別され得る。
通信インターフェイス480は、音声認識動作機器100と他の通信端末との通信を実現する。当該通信は、赤外線信号、WiFi(Wireless Fidelity)、Bluetooth(登録商標)等の周知の通信方式によって実現される。
モーター490は、音声認識動作機器100の動作部分を駆動する。
ある局面において、プロセッサ410は、声紋認証部および個人情報出力部として機能し得る。より具体的には、プロセッサ410は、声紋認証部として、マイク420に対して入力された音声の声紋を認証する。プロセッサ410は、個人情報出力部として、入力された当該音声を当該音声の発話者に固有な個人情報に変換し、変換によって生成された個人情報をメモリ440に格納する。モニター460は、確認要求出力部230として、当該個人情報によって特定されるユーザーが音声認識動作機器100を制御するユーザーであるか否かの確認を要求する。
[表示態様]
図5〜図7を参照して、音声認識動作機器100によるメッセージの表示について説明する。図5〜図7は、それぞれ、音声認識動作機器100のモニター460に表示されるメッセージ画面の一例を表わす図である。
図5に示されるように、ある局面において、モニター460は、音声認識動作機器100に対して発せられた音声の発話者を確認するためのメッセージを表示する。当該メッセージは、たとえば「出力された音声は、あなたの声ですか?」である。モニター460は、さらに、当該メッセージに対する回答の入力を受け付ける文字を示すアイコン(はい、いいえ)を表示する。ユーザーが「はい」をタッチすると、音声認識動作機器100から出力された音声は、ユーザーの音声として登録される。ユーザーが「いいえ」をタッチすると、当該音声は、ユーザーの音声としては登録されず、音声データは消去される。
さらに、モニター460は、「もう一度、音声を出力」というメッセージを表示する。ユーザーがこのメッセージにタッチすると、音声認識動作機器100は、先ほど出力された音声を再び出力する。これにより、ユーザーは、音声の内容を確認することができる。さらに別の局面において、モニター460は、「中止」とのアイコンを表示しても良い。ユーザーがこのアイコンにタッチすると、ユーザーの登録処理が中止される。
図6を参照して、音声認識動作機器100が待機モードにあるときに、ユーザーが発話する。そのユーザーが音声認識動作機器100に登録されているユーザーであれば、モニター460は、その旨を表わすメッセージ「音声認証成功 音声による制御を開始します。」を表示する。その後、音声認識動作機器100は、そのユーザーの音声を受け付ける状態(通常運転モード)になり、発話の内容に応じて動作を実行する。
図7を参照して、音声認識動作機器100が発話したユーザーの音声を認識できない場合について説明する。このような場合、モニター460は、その旨を表わすメッセージ「音声認証 失敗 登録ユーザーの音声を確認できませんでした。」を表示する。ユーザーが改めて発話して音声認証が成功すると、モニター460は、図6に示されるメッセージを表示する。
なお、音声認識動作機器100が登録されたユーザーを認証して音声認識に基づく動作を行なっている場合に、別のユーザーが音声認識動作機器100に発話することもあり得る。この場合、音声認識動作機器100は、当該別のユーザーによる発話を認識しないので、特段の反応を示さない。別の局面において、音声認識動作機器100は、図7に示されるようなメッセージ「音声認証失敗 登録ユーザーの音声を確認できませんでした。続ける場合は、もう一度発話してください。中止する場合は、中止、と発話して下さい。」を表示しても良い。ただし、音声認識動作機器100の安全性の担保のため、たとえば、登録されたユーザー以外のユーザーが音声認識動作機器100を非常停止させたい場合がある。この場合に備えて、音声認識動作機器100は、未登録のユーザーによる発話であっても命令を受け付けるように構成されていてもよい。たとえば、非常停止のために予め規定されたメッセージ「非常停止」という発話は、ユーザーに依存することなく音声認識動作機器100によって受け付けられるように構成されていてもよい。
[制御構造]
(ユーザーの登録)
図8および図9を参照して、音声認識動作機器100の制御構造について説明する。図8および図9は、音声認識動作機器100のプロセッサ410が実行する処理の一部を表すフローチャートである。
ステップS810にて、プロセッサ410は、登録モードが選択されたことを検知する。
ステップS815にて、プロセッサ410は、音声認識処理部252として、音声認識処理を開始する。
ステップS820にて、プロセッサ410は、音声出力部220として、発話の入力を促すメッセージを音声で出力する。
ステップS825にて、プロセッサ410は、確認結果入力部240として、メッセージに応答した発話の入力を検出する。
ステップS830にて、プロセッサ410は、登録部251として、発話を揮発性の記憶領域に一時的に格納する。
ステップS835にて、プロセッサ410は、制御部250として、入力された発話を音声出力部220を介して出力する。
ステップS840にて、プロセッサ410は、確認要求出力部230として、出力された音声がユーザーの音声であるか否かの確認の要求をモニター460に表示する。
ステップS850にて、プロセッサ410は、確認結果入力部240から送られる信号に基づいて、出力された音声がユーザーの音声であることの確認が入力されたか否かを判断する。プロセッサ410は、当該確認が入力されたと判断すると(ステップS850にてYES)、制御をステップS860に切り替える。そうでない場合には(ステップS850にてNO)、プロセッサ410は、制御をステップS870に切り替える。
ステップS860にて、プロセッサ410は、入力された発話を、ユーザー識別情報として、不揮発性の記憶領域に保存する。
ステップS870にて、プロセッサ410は、入力された発話を登録しない旨を音声で出力する。
(通常運転モード)
図9を参照して、ステップS910にて、プロセッサ410は、音声入力部210から送られる音声に基づいて、通常運転モードへの移行を検知する。
ステップS920にて、プロセッサ410は、音声認識処理部252として機能するための音声認識処理アプリケーションを起動する。
ステップS930にて、プロセッサ410は、発話された音声の入力を検出する。
ステップS940にて、プロセッサ410は、音声認識処理部252として、音声認識処理を実行し、特徴量を抽出する。
ステップS950にて、プロセッサ410は、メモリ440にアクセスして、ユーザー識別情報として保存されている音声の特徴量を読み出す。
ステップS960にて、プロセッサ410は、抽出された特徴量と読み出された特徴量との比較の結果に基づいて、発話したユーザーが登録されたユーザーであるか否かを判断する。プロセッサ410は、発話したユーザーが登録されたユーザーであると判断すると(ステップS960にてYES)、制御をステップS970に切り替える。そうでない場合には(ステップS960にてNO)、プロセッサ410は、制御をステップS980に切り替える。
ステップS970にて、プロセッサ410は、動作制御部253として、発話の内容に基づく動作を実行する。
ステップS980にて、プロセッサ410は、登録されたユーザーでないことを示すメッセージをモニター460に表示し、あるいは、その旨の音声をスピーカー450を介して出力する。さらに、プロセッサ410は、動作制御部253として、当該発話では動作せず、現在の状態を維持する。
(まとめ)
以上のようにして、本実施の形態に従う音声認識動作機器100は、ユーザーの発話の入力を受けると、当該発話を音声で再生する。ユーザーが当該音声が当該ユーザーによるものであることを確認してその旨を音声認識動作機器100に入力すると、音声認識動作機器100は、その発話を与えた発話者を正当なユーザーとして登録する。その後、そのユーザーが発話を行なうと、音声認識動作機器100は、その発話の内容に応じて作動する。一方、音声認識動作機器100に登録されていない他のユーザーが発話を行なっても、音声認識動作機器100は、その発話を無視して作動しない。これにより、特定のユーザーを音声認識動作機器100に登録して、その登録されたユーザーのみが音声認識動作機器100を作動させることができるので、音声認識動作機器100の安全性が担保され得る。
<第2の実施の形態>
以下、本開示の第2の実施の形態について説明する。本実施の形態に係る音声認識機器制御システム1000は、ユーザーの音声に基づく命令を端末から受け取って作動するように構成されており、遠隔制御機能を備える点で第1の実施の形態と異なる。なお、本実施の形態に係る技術的な特徴は、第1の実施の形態において示された特徴を用いて実現される。したがって、適宜、第1の実施の形態において示された特徴を用いて、第2の実施の形態を説明する。
[システム構成]
まず、図10を参照して音声認識機器制御システム1000の概要について説明する。図10は、音声認識機器制御システム1000の構成の一例を表わす図である。音声認識機器制御システム1000は、音声認識動作機器100と、サーバ1010,1020と、携帯端末1030とを備える。サーバ1010とサーバ1020とは、インターネット1040に接続されている。また、ある局面において、携帯端末1030も、インターネット1040に接続可能である。
サーバ1010,1020は、周知の構成を備えるコンピュータ装置に音声認識機能を追加することによって実現される。携帯端末1030は、スマートフォン、タブレット端末、腕時計型端末その他の端末であって音声認識処理機能を備える情報通信端末によって実現される。なお、サーバ1010,1020と携帯端末1030とを総称するときは、遠隔制御端末という。
サーバ1010,1020および携帯端末1030は、ユーザーの発話を受け付けて、発話に対応する制御信号を音声認識動作機器100に直接に又は間接に送信する。当該ユーザーが、音声認識動作機器100のユーザーとして予め登録されたユーザーである場合には、音声認識動作機器100は、その信号に応じて作動する。そうでない場合には、音声認識動作機器100は、その旨を表わす信号を、当該制御信号を送信したサーバ1010,1020および携帯端末1030のいずれかの遠隔制御端末に、直接に又は間接に送信する。情報通信端末は、その旨を表示し、または、音声で出力する。
[ハードウェア構成]
図11を参照して、音声認識機能を備えるサーバ1010,1020の構成について説明する。図11は、サーバ1010,1020を実現するコンピュータ1100のハードウェア構成を表わすブロック図である。
コンピュータ1100は、主たる構成要素として、プログラムを実行するCPU(Central Processing Unit)1と、コンピュータ1100のユーザーによる指示の入力を受けるマウス2およびキーボード3と、CPU1によるプログラムの実行により生成されたデータ、又はマウス2若しくはキーボード3を介して入力されたデータを揮発的に(一時的に)格納するRAM(Random Access Memory)4と、データを不揮発的に(永続的に)格納するハードディスク5と、光ディスク駆動装置6と、通信I/F(Interface)7と、モニター8とを備える。各構成要素は、相互にバスによって接続されている。光ディスク駆動装置6には、CD−ROM9その他の光ディスクが装着される。通信インターフェイス7は、USB(Universal Serial Bus)インターフェイス、有線LAN(Local Area Network)、無線LAN、Bluetooth(登録商標)インターフェイス等を含むが、これらに限られない。
コンピュータ1100における処理は、コンピュータ1100を構成するハードウェアおよびCPU1により実行されるソフトウェアによって実現される。このようなソフトウェアは、ハードディスク5に予め格納されている場合がある。また、ソフトウェアは、CD−ROM9その他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置6その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信I/F7を介してダウンロードされた後、ハードディスク5に一旦格納される。そのソフトウェアは、CPU1によってハードディスク5から読み出され、RAM4に実行可能なプログラムの形式で格納される。CPU1は、そのプログラムを実行する。
図11に示されるコンピュータ1100を構成する各構成要素は、一般的なものである。したがって、本実施の形態に係るサーバ1010,1020における技術思想を実現する本質的な部分は、コンピュータ1100に格納されたプログラムであるともいえる。コンピュータ1100のハードウェアの動作は周知であるので、詳細な説明は繰り返さない。
なお、データ記録媒体としては、CD−ROM、FD(Flexible Disk)、ハードディスクに限られず、磁気テープ、カセットテープ、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/DVD(Digital Versatile Disc))、IC(Integrated Circuit)カード(メモリカードを含む)、光カード、マスクROM、EPROM(Electronically Programmable Read-Only Memory)、EEPROM(Electronically Erasable Programmable Read-Only Memory)、フラッシュROMなどの半導体メモリ等の固定的にプログラムを担持する不揮発性のデータ記録媒体でもよい。ここでいうプログラムとは、CPUにより直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含み得る。
図12を参照して、携帯端末1030の構成について説明する。図12は、携帯端末1030のハードウェア構成を表わすブロック図である。
携帯端末1030は、CPU20と、アンテナ23と、通信装置24と、操作ボタン25と、カメラ26と、フラッシュメモリ27と、RAM28と、ROM29と、メモリカード駆動装置30と、マイク32と、スピーカー33と、音声信号処理回路34と、モニター35と、LED36と、データ通信インターフェイス37と、バイブレータ38と、加速度センサ39とを備える。メモリカード駆動装置30には、メモリカード31が装着され得る。
アンテナ23は、基地局(図示しない)を介して、サーバ1010,1020によって発信される信号を受信し、または、サーバ1010,1020を介して他の通信装置と通信するための信号を送信する。アンテナ23によって受信された信号は、通信装置24によってフロントエンド処理が行なわれ、処理後の信号は、CPU20に送られる。別の局面において、通信装置24は、WiFi(Wireless Fidelity)による通信回路として構成されてもよい。
操作ボタン25は、携帯端末1030に対する操作を受け付ける。操作ボタン25は、たとえば、ハードウェアキーまたはソフトウェアキーとして実現される。操作ボタン25は、ユーザーによる操作を受け付けると、その時の携帯端末1030の動作モードに応じた信号をCPU20に送出する。
CPU20は、携帯端末1030に対して与えられる命令に基づいて携帯端末1030の動作を制御するための処理を実行する。携帯端末1030が信号を受信すると、CPU20は、通信装置24から送られた信号に基づいて予め規定された処理を実行し、処理後の信号を音声信号処理回路34に送出する。音声信号処理回路34は、その信号に対して予め規定された信号処理を実行し、処理後の信号をスピーカー33に送出する。スピーカー33は、その信号に基づいて音声を出力する。
マイク32は、携帯端末1030に対する発話を受け付けて、発話された音声に対応する信号を音声信号処理回路34に対して送出する。音声信号処理回路34は、予め規定された処理を当該信号に対して実行し、処理後の信号をCPU20に対して送出する。CPU20は、その信号を送信用のデータに変換し、変換後のデータを通信装置24に対して送出する。通信装置24は、そのデータを用いて送信用の信号を生成し、アンテナ23に向けてその信号を送出する。アンテナ23から発信される信号は、サーバ1010,1020に受信される。なお、他の局面において、アンテナ23の代わりに、有線によってサーバ1010,1020と携帯端末1030とが接続されていてもよい。
フラッシュメモリ27は、CPU20から送られるデータを格納する。また、CPU20は、フラッシュメモリ27に格納されているデータを読み出し、そのデータを用いて予め規定された処理を実行する。
RAM28は、操作ボタン25に対して行なわれた操作に基づいてCPU20によって生成されるデータを一時的に保持する。ROM29は、携帯端末1030に予め定められた動作を実行させるためのプログラムあるいはデータを格納している。CPU20は、ROM29から当該プログラムまたはデータを読み出し、携帯端末1030の動作を制御する。
メモリカード駆動装置30は、メモリカード31に格納されているデータを読み出し、読み出したデータをCPU20に送出する。メモリカード駆動装置30は、CPU20によって出力されるデータを、メモリカード31の空き領域に書き込む。
音声信号処理回路34は、上述のような通話のための信号処理を実行する。なお、本実施の形態において示される例では、CPU20と音声信号処理回路34とが別個の構成として示されているが、他の局面において、CPU20と音声信号処理回路34とが一体として構成されていてもよい。
モニター35は、CPU20から取得されるデータに基づいて画像を表示する。モニター35は、たとえば、フラッシュメモリ27に格納されている静止画像(たとえば、ユーザーの写真、音声認識動作機器100の取扱説明書その他の電子文書)、動画像、音楽ファイルの属性(当該ファイルの名前、演奏者、演奏時間など)を表示し得る。静止画像は、描画された画像、携帯端末1030の製造事業者によって予め準備された画像を含み得る。ある局面において、モニター35は、タッチパネル式の表示装置として構成され得る。
LED36は、CPU20からの信号に基づいて、予め定められた発光動作を実現する。データ通信インターフェイス37は、データ通信用のケーブルの装着を受け付ける。
データ通信インターフェイス37は、CPU20から出力される信号を当該ケーブルに対して送出する。あるいは、データ通信インターフェイス37は、当該ケーブルを介して受信されるデータを、CPU20に対して送出する。
バイブレータ38は、CPU20から出力される信号に基づいて、予め定められた周波
数で発振動作を実行する。
加速度センサ39は、携帯端末1030に作用する加速度の方向を検出する。検出結果は、CPU20に入力される。CPU20は、検出結果に応じて携帯端末1030の姿勢を検知し、たとえば、モニター35における画面の表示方向を制御する。
なお、本実施の形態に係る携帯端末1030は上述の構成要素を全て備える必要はなく、少なくとも、音声入出力機能と通信機能とを有する情報処理端末であればよい。
[制御構造]
図13を参照して、本実施の形態に係る音声認識機器制御システム1000の制御構造について説明する。図13は、遠隔制御端末の一例である携帯端末1030と音声認識動作機器100とが実行する処理の一部を表わすフローチャートである。なお、適宜、第1の実施の形態における構成を参照して第2の実施の形態を説明する。
(ユーザーの登録)
ステップS1305にて、遠隔制御端末と音声認識動作機器100とは、予め定められた条件が成立したことに基づいて、通信を確立する。当該予め定められた条件は、たとえば、遠隔制御端末のユーザーが音声認識動作機器100との通信を要求する操作を行ったこと、音声認識動作機器100のユーザーが音声認識動作機器100のスイッチを操作して遠隔制御端末との通信を要求する操作を行ったこと、予め指定された時刻が到来したこと等を含み得る。
ステップS1310にて、携帯端末1030のCPU20は、登録モードが選択されたことを検知する。
ステップS1315にて、携帯端末1030のCPU20は、音声認識処理部252として、音声認識処理を開始する。
ステップS1320にて、CPU20は、音声出力部220として、発話の入力を促すメッセージを音声で出力する。あるいは、CPU20は35に対して当該メッセージを表示させる。ユーザーは、そのようなメッセージを認識すると、マイク32に向かって発話する。
ステップS1325にて、CPU20は、音声信号処理回路34を介して、メッセージに応答した発話の入力を検出する。CPU20は、発話に応じた信号を生成し、その信号を通信装置24を介して、音声認識動作機器100に送信する。
ステップS1330にて、CPU20は、登録部251として、発話をRAM28に一時的に格納する。
ステップS1335にて、CPU20は、制御部250として、入力された発話をスピーカー33を介して音声で出力する。出力される音声は、ユーザーによる確認のために用いられる。
ステップS1340にて、CPU20は、確認要求出力部230として、出力された音声がユーザーの音声であるか否かの確認の要求をモニター35に表示する。
ステップS1350にて、CPU20は、操作ボタン25から送られる信号に基づいて、出力された音声がユーザーの音声であることの確認が入力されたか否かを判断する。CPU20は、当該確認が入力されたと判断すると(ステップS1350にてYES)、制御をステップS1360に切り替える。そうでない場合には(ステップS1350にてNO)、CPU20は、制御をステップS1370に切り替える。
ステップS1360にて、CPU20は、入力された発話を、ユーザー識別情報として、フラッシュメモリ27その他の不揮発性の記憶領域に保存する。
ステップS1370にて、CPU20は、入力された発話を登録しない旨をスピーカー33を介して音声で出力する。
(通常運転モード)
図14を参照して、通常運転モードにおける1100の制御構造について説明する。図14は、CPU20が実行する処理の一部を表わすフローチャートである。
ステップS1410にて、CPU20は、ユーザーの操作に基づいて、音声認識動作機器100の動作モードを待機モードから通常運転モードへの移行を検知する。
ステップS1420にて、CPU20は、音声認識処理部252として機能するための音声認識処理アプリケーションを起動する。
ステップS1430にて、CPU20は、発話された音声の入力を検出する。
ステップS1440にて、CPU20は、音声認識処理部252として、音声認識処理を実行し、特徴量を抽出する。
ステップS1450にて、CPU20は、フラッシュメモリ27にアクセスして、ユーザー識別情報として保存されている音声の特徴量を読み出す。
ステップS1460にて、CPU20は、抽出された特徴量と読み出された特徴量との比較の結果に基づいて、発話したユーザーは登録されたユーザーであるか否かを判断する。CPU20は、発話したユーザーが登録されたユーザーであると判断すると(ステップS1460にてYES)、制御をステップS1470に切り替える。そうでない場合には(ステップS1460にてNO)、CPU20は、制御をステップS1480に切り替える。
ステップS1470にて、CPU20は、動作制御部253として、発話の内容に基づく動作を音声認識動作機器100に実行させるための制御信号を生成し、その制御信号を通信装置24を介して音声認識動作機器100に送信する。音声認識動作機器100は、その制御信号を携帯端末1030から受信すると、その制御信号に含まれる命令コードに従って作動する。たとえば、音声認識動作機器100が掃除機として実現される場合、ユーザーが携帯端末1030に向かって「掃除して」と発話すると、携帯端末1030は、「掃除して」に相当する命令コード「掃除開始」を含む制御信号を生成し、直接に、または、通信回線を介して間接に音声認識動作機器100に送信する。音声認識動作機器100がこの制御信号を受信して命令コードを抽出すると、掃除を開始する。
ステップS1480にて、CPU20は、登録されたユーザーでないことを示すメッセージをモニター35に表示し、あるいは、その旨の音声をスピーカー33を介して出力する。さらに、CPU20は、当該発話に基づいて音声認識動作機器100を作動させるための制御信号を生成しない。その結果、音声認識動作機器100に登録されていないユーザーが携帯端末1030に向かって発話しても、携帯端末1030は制御信号を音声認識動作機器100に送信しないので、音声認識動作機器100は作動しない。これにより、正当なユーザーとして登録されていない他の発話者による発話に基づく音声認識動作機器100の発話が防止され得る。
<構成>
一実施の形態に従う本開示に基づく構成は、以下のように、要約され得る。ある局面において、各構成は、複数のモジュールの組み合わせとして実現される。各モジュールは、ハードウェアおよびソフトウェアおよびこれらの組み合わせとして実現され得る。
[構成1]
音声認識動作機器(100)であって、
発話された音声の入力を受け付けるように構成された音声入力部(210)と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成された確認要求出力部(230)と、
上記確認の結果の入力を受け付けるように構成された確認結果入力部(240)と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するように構成された登録部(251)と、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するように構成された音声認識処理部(252)と、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して上記音声認識動作機器を制御するように構成された動作制御部(253)とを備える。
[構成2]
入力された音声を出力するように構成された音声出力部(220)をさらに備え、
前記確認要求出力部は、前記出力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成されている、構成1に記載の音声認識動作機器。
[構成3]
声紋認証部と、
入力された音声を個人情報に変換し出力する個人情報出力部とをさらに備え、
前記確認要求出力部は、前記出力された個人情報によって特定されるユーザーが前記音声認識動作機器を制御するユーザーであるか否かの確認を要求するように構成されている、構成1または2に記載の音声認識動作機器。
[構成4]
上記登録された音声と異なる音声が入力された場合に、上記音声認識動作機器が実行可能な処理を通知するように構成された通知部(270)をさらに備える、構成1〜3のいずれかに記載の音声認識動作機器。
[構成5]
上記確認要求出力部は、モニター(460)を含み、
上記モニターは、上記出力された音声が発話者の音声であるか否かを問い合わせる画面を表示するように構成されている、構成1〜4のいずれかに記載の音声認識動作機器。
[構成6]
上記登録された音声と異なる音声が入力された場合に、上記音声認識動作機器が当該異なる音声に基づく動作を実行できないことを報知するように構成された報知部(280)をさらに備える、構成1〜5のいずれかに記載の音声認識動作機器。
[構成7]
上記登録部は、上記音声認識動作機器のユーザーの音声として、複数のユーザーの各音声を登録するように構成されており、
上記動作制御部は、登録された各上記ユーザーの音声が入力された場合に、当該音声に応答して上記音声認識動作機器を制御するように構成されている、構成1〜6のいずれか一項に記載の音声認識動作機器。
[構成8]
音声認識動作機器を制御するための制御装置(1030)であって、
入力された音声を出力するように構成された音声出力部(33)と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成された確認要求出力部(35)と、
上記確認の結果の入力を受け付けるように構成された確認結果入力部(25)と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するように構成された登録部(20)と、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するように構成された音声認識処理部(252)と、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して上記音声認識動作機器を制御するための制御信号を出力するように構成された通信部(24)とを備える、制御装置。
[構成9]
入力された音声を出力するように構成された音声出力部(220)をさらに備え、
上記確認要求出力部は、上記出力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成されている、構成8に記載の制御装置。
[構成10]
声紋認証部と、
入力された音声を個人情報に変換し出力する個人情報出力部とをさらに備え、
上記確認要求出力部は、上記出力された個人情報によって特定されるユーザーが前記音声認識動作機器を制御するユーザーであるか否かの確認を要求するように構成されている、構成8または9に記載の制御装置。
[構成11]
上記登録された音声と異なる音声が入力された場合に、上記音声認識動作機器が実行可能な処理を通知するように構成された通知部(35)をさらに備える、構成8〜10のいずれかに記載の制御装置。
[構成12]
上記確認要求出力部は、モニターを含み、
上記モニターは、上記出力された音声が発話者の音声であるか否かを問い合わせる画面を表示するように構成されている、構成8〜11のいずれかに記載の制御装置。
[構成13]
上記登録された音声と異なる音声が入力された場合に、上記音声認識動作機器が当該異なる音声に基づく動作を実行できないことを報知するように構成された報知部(33,35,36,38)をさらに備える、構成8〜12のいずれかに記載の制御装置。
[構成14]
上記登録部は、上記音声認識動作機器のユーザーの音声として、複数のユーザーの各音声を登録するように構成されており、
上記通信部は、登録された各上記ユーザーの音声が入力された場合に、当該音声に応答して上記制御信号を出力するように構成されている、構成8〜13のいずれかに記載の制御装置。
[構成15]
上記制御装置により制御される音声認識動作機器の指定を受け付けるように構成された指定部(25)をさらに備え、
上記入力された音声を登録することは、指定された音声認識動作機器のユーザーの音声として、上記入力された音声を登録することを含み、
上記制御信号を出力することは、上記指定された音声認識動作機器を制御するための制御信号を出力することを含む、構成8〜14に記載の制御装置。
[構成16]
音声認識動作機器の動作方法であって、
発話された音声の入力を受け付けるステップ(S825)と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップ(S840)と、
上記確認の入力を受け付けるステップ(S850)と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するステップ(S860)と、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するステップ(S960)と、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して作動するステップ(S970)とを含む、方法。
[構成17]
制御装置が音声認識動作機器を制御するための方法であって、
発話された音声の入力を受け付けるステップ(S1325)と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップ(S1340)と、
上記確認の入力を受け付けるステップ(S1350)と、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するステップ(S1360)と、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するステップ(S1460)と、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して上記音声認識動作機器を制御するための制御信号を出力するステップ(S1470)とを含む、方法。
[構成18]
音声認識動作機器を制御するためのプログラムであって、上記プログラムは上記音声認識動作機器に、
発話された音声の入力を受け付けるステップと、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
上記確認の入力を受け付けるステップと、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するステップと、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して作動するステップとを実行させる、プログラム。
[構成19]
通信端末に音声認識動作機器を制御させるためのプログラムであって、上記プログラムは上記通信端末に、
発話された音声の入力を受け付けるステップと、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
上記確認の入力を受け付けるステップと、
上記入力された音声が上記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、上記音声認識動作機器のユーザーの音声として、上記入力された音声を登録するステップと、
上記音声の登録後に新たに入力される音声が上記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
上記新たに入力される音声が上記音声認識動作機器のユーザーの音声である場合に、上記新たに入力される音声に応答して上記音声認識動作機器を制御するための制御信号を出力するステップとを実行させる、プログラム。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
2 マウス、3 キーボード、4,28 RAM、5 ハードディスク、6 光ディスク駆動装置、7,480 通信インターフェイス、8,35,460 モニター、9,29 ROM、23 アンテナ、24 通信装置、25 操作ボタン、26 カメラ、27 フラッシュメモリ、30 メモリカード駆動装置、31 メモリカード、32,420 マイク、33,450 スピーカー、34 音声信号処理回路、37 データ通信インターフェイス、38 バイブレータ、39 加速度センサ、100 音声認識動作機器、110 音声認識掃除機、120 対話型生活支援ロボット、130 電動車椅子、210 音声入力部、220 音声出力部、230 確認要求出力部、240 確認結果入力部、250 制御部、251 登録部、252 音声認識処理部、253 動作制御部、260 記憶部、270 通知部、280 報知部、290 動作部、410 プロセッサ、430 スイッチ、440 メモリ、490 モーター、1010,1020 サーバ、1030 携帯端末、1100 コンピュータ。

Claims (20)

  1. 音声認識動作機器であって、
    発話された音声の入力を受け付けるように構成された音声入力部と、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成された確認要求出力部と、
    前記確認の結果の入力を受け付けるように構成された確認結果入力部と、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するように構成された登録部と、
    前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するように構成された音声認識処理部と、
    前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して前記音声認識動作機器を制御するように構成された動作制御部とを備える、音声認識動作機器。
  2. 入力された音声を出力するように構成された音声出力部をさらに備え、
    前記確認要求出力部は、前記出力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成されている、請求項1に記載の音声認識動作機器。
  3. 声紋認証部と、
    入力された音声を個人情報に変換し出力する個人情報出力部とをさらに備え、
    前記確認要求出力部は、前記出力された個人情報によって特定されるユーザーが前記音声認識動作機器を制御するユーザーであるか否かの確認を要求するように構成されている、請求項1または2に記載の音声認識動作機器。
  4. 前記登録された音声と異なる音声が入力された場合に、前記音声認識動作機器が実行可能な処理を通知するように構成された通知部をさらに備える、請求項1〜3のいずれか一項に記載の音声認識動作機器。
  5. 前記出力部は、モニタを含み、
    前記モニタは、前記出力された音声が発話者の音声であるか否かを問い合わせる画面を表示するように構成されている、請求項1〜4のいずれか一項に記載の音声認識動作機器。
  6. 前記登録された音声と異なる音声が入力された場合に、前記音声認識動作機器が当該異なる音声に基づく動作を実行できないことを報知するように構成された報知部をさらに備える、請求項1〜5のいずれか一項に記載の音声認識動作機器。
  7. 前記登録部は、前記音声認識動作機器のユーザーの音声として、複数のユーザーの各音声を登録するように構成されており、
    前記動作制御部は、登録された各前記ユーザーの音声が入力された場合に、当該音声に応答して前記音声認識動作機器を制御するように構成されている、請求項1〜6のいずれか一項に記載の音声認識動作機器。
  8. 音声認識動作機器を制御するための制御装置であって、
    発話された音声の入力を受け付けるように構成された音声入力部と、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成された確認要求出力部と、
    前記確認の結果の入力を受け付けるように構成された確認結果入力部と、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するように構成された登録部と、
    前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するように構成された音声認識処理部と、
    前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して前記音声認識動作機器を制御するための制御信号を出力するように構成された通信部とを備える、制御装置。
  9. 入力された音声を出力するように構成された音声出力部をさらに備え、
    前記確認要求出力部は、前記出力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するように構成されている、請求項8に記載の制御装置。
  10. 声紋認証部と、
    入力された音声を個人情報に変換し出力する個人情報出力部とをさらに備え、
    前記確認要求出力部は、前記出力された個人情報によって特定されるユーザーが前記音声認識動作機器を制御するユーザーであるか否かの確認を要求するように構成されている、請求項8または9に記載の制御装置。
  11. 前記登録された音声と異なる音声が入力された場合に、前記音声認識動作機器が実行可能な処理を通知するように構成された通知部をさらに備える、請求項8〜10のいずれか一項に記載の制御装置。
  12. 前記出力部は、モニタを含み、
    前記モニタは、前記出力された音声が発話者の音声であるか否かを問い合わせる画面を表示するように構成されている、請求項8〜11のいずれか一項に記載の制御装置。
  13. 前記登録された音声と異なる音声が入力された場合に、前記音声認識動作機器が当該異なる音声に基づく動作を実行できないことを報知するように構成された報知部をさらに備える、請求項8〜12のいずれか一項に記載の制御装置。
  14. 前記登録部は、前記音声認識動作機器のユーザーの音声として、複数のユーザーの各音声を登録するように構成されており、
    前記通信部は、登録された各前記ユーザーの音声が入力された場合に、当該音声に応答して前記制御信号を出力するように構成されている、請求項8〜13のいずれか一項に記載の制御装置。
  15. 前記制御装置により制御される音声認識動作機器の指定を受け付けるように構成された指定部をさらに備え、
    前記入力された音声を登録することは、指定された音声認識動作機器のユーザーの音声として、前記入力された音声を登録することを含み、
    前記制御信号を出力することは、前記指定された音声認識動作機器を制御するための制御信号を出力することを含む、請求項8〜14のいずれか一項に記載の制御装置。
  16. 音声認識動作機器の動作方法であって、
    発話された音声の入力を受け付けるステップと、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
    前記確認の入力を受け付けるステップと、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するステップと、
    前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
    前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して作動するステップとを含む、方法。
  17. 制御装置が音声認識動作機器を制御するための方法であって、
    発話された音声の入力を受け付けるステップと、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
    前記確認の入力を受け付けるステップと、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するステップと、
    前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
    前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して前記音声認識動作機器を制御するための制御信号を出力するステップとを含む、方法。
  18. 音声認識動作機器を制御するためのプログラムであって、前記プログラムは前記音声認識動作機器に、
    発話された音声の入力を受け付けるステップと、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
    前記確認の入力を受け付けるステップと、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するステップと、
    前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
    前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して作動するステップとを実行させる、プログラム。
  19. 通信端末に音声認識動作機器を制御させるためのプログラムであって、前記プログラムは前記通信端末に、
    発話された音声の入力を受け付けるステップと、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認の入力を促す出力を行なうステップと、
    前記確認の入力を受け付けるステップと、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するステップと、
    前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するステップと、
    前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して前記音声認識動作機器を制御するための制御信号を出力するステップとを実行させる、プログラム。
  20. 音声認識動作機器を制御するためのシステムであって、
    発話された音声の入力を受け付けるための手段と、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるか否かの確認を要求するための手段と、
    前記確認の結果の入力を受け付けるための手段と、
    前記入力された音声が前記音声認識動作機器を制御するユーザーの音声であるという確認の入力に基づいて、前記音声認識動作機器のユーザーの音声として、前記入力された音声を登録するための手段と、
    前記音声の登録後に新たに入力される音声が前記音声認識動作機器のユーザーの音声であるか否かを確認するための手段と、
    前記新たに入力される音声が前記音声認識動作機器のユーザーの音声である場合に、前記新たに入力される音声に応答して前記音声認識動作機器を制御するための手段とを備える、システム。
JP2014235693A 2014-11-20 2014-11-20 音声認識動作機器、音声認識動作機器の制御装置、音声認識動作機器の動作方法、プログラム、および、音声認識動作機器の制御システム Pending JP2016099469A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014235693A JP2016099469A (ja) 2014-11-20 2014-11-20 音声認識動作機器、音声認識動作機器の制御装置、音声認識動作機器の動作方法、プログラム、および、音声認識動作機器の制御システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014235693A JP2016099469A (ja) 2014-11-20 2014-11-20 音声認識動作機器、音声認識動作機器の制御装置、音声認識動作機器の動作方法、プログラム、および、音声認識動作機器の制御システム

Publications (1)

Publication Number Publication Date
JP2016099469A true JP2016099469A (ja) 2016-05-30

Family

ID=56077755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014235693A Pending JP2016099469A (ja) 2014-11-20 2014-11-20 音声認識動作機器、音声認識動作機器の制御装置、音声認識動作機器の動作方法、プログラム、および、音声認識動作機器の制御システム

Country Status (1)

Country Link
JP (1) JP2016099469A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180065796A (ko) * 2016-12-08 2018-06-18 동국대학교 산학협력단 음성 인식을 이용한 드론 제어 방법과 이를 수행하기 위한 장치 및 시스템
KR20190012065A (ko) * 2017-07-26 2019-02-08 네이버 주식회사 화자 검증 방법 및 음성인식 시스템
KR20190077296A (ko) * 2019-06-26 2019-07-03 네이버 주식회사 화자 검증 방법 및 음성인식 시스템
WO2020042201A1 (zh) * 2018-08-28 2020-03-05 深圳市安顺康医疗电子有限公司 一种智能语音控制装置
US11189294B2 (en) 2018-08-07 2021-11-30 Samsung Electronics Co., Ltd. Electronic device and method for registering new user through authentication by registered user

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180065796A (ko) * 2016-12-08 2018-06-18 동국대학교 산학협력단 음성 인식을 이용한 드론 제어 방법과 이를 수행하기 위한 장치 및 시스템
KR101949796B1 (ko) * 2016-12-08 2019-02-19 동국대학교 산학협력단 음성 인식을 이용한 드론 제어 방법과 이를 수행하기 위한 장치 및 시스템
KR20190012065A (ko) * 2017-07-26 2019-02-08 네이버 주식회사 화자 검증 방법 및 음성인식 시스템
KR101995443B1 (ko) * 2017-07-26 2019-07-02 네이버 주식회사 화자 검증 방법 및 음성인식 시스템
US11189294B2 (en) 2018-08-07 2021-11-30 Samsung Electronics Co., Ltd. Electronic device and method for registering new user through authentication by registered user
WO2020042201A1 (zh) * 2018-08-28 2020-03-05 深圳市安顺康医疗电子有限公司 一种智能语音控制装置
KR20190077296A (ko) * 2019-06-26 2019-07-03 네이버 주식회사 화자 검증 방법 및 음성인식 시스템
KR102098237B1 (ko) * 2019-06-26 2020-04-07 네이버 주식회사 화자 검증 방법 및 음성인식 시스템

Similar Documents

Publication Publication Date Title
JP2016099469A (ja) 音声認識動作機器、音声認識動作機器の制御装置、音声認識動作機器の動作方法、プログラム、および、音声認識動作機器の制御システム
US10546582B2 (en) Information processing device, method of information processing, and program
US11462213B2 (en) Information processing apparatus, information processing method, and program
JP2016090655A (ja) 音声認識ロボットシステム、音声認識ロボット、音声認識ロボットの制御装置、音声認識ロボットを制御するための通信端末、およびプログラム
US20190019512A1 (en) Information processing device, method of information processing, and program
KR102662558B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR102392087B1 (ko) 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법
JP6316214B2 (ja) システム、サーバ、電子機器、サーバの制御方法、およびプログラム
WO2014112226A1 (ja) 電子機器及び掃除機
JP6383409B2 (ja) 案内装置、案内方法、プログラム及び情報記憶媒体
JP2014203024A (ja) 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム
JP7194507B2 (ja) 会議システム、会議システム制御方法およびプログラム
JP2004214895A (ja) 通信補助装置
KR102629796B1 (ko) 음성 인식의 향상을 지원하는 전자 장치
JP7042141B2 (ja) 会議システム、会議システム制御方法およびプログラム
JP2016091456A (ja) 音声認識ロボットおよび音声認識ロボットを制御するためのプログラム
WO2016157993A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR20200101221A (ko) 사용자 입력 처리 방법 및 이를 지원하는 전자 장치
JP6482037B2 (ja) 制御装置、制御方法及び制御プログラム
JP2017219746A (ja) 音声出力制御装置および音声出力制御プログラム
WO2020087336A1 (zh) 一种移动平台的控制方法及控制设备
WO2020130734A1 (ko) 사용자 상태에 기초하여 반응을 제공하는 전자 장치 및 그의 동작 방법
JP2011248733A (ja) 電子機器
US20210019024A1 (en) Control method of terminal device
JP2015095795A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体