図1は、本実施形態に係るホームオートメーションシステムの全体構成の一例を示した図である。ホームオートメーションシステムは、クラウドに置かれたサーバ群からなるクラウドサーバ1と、HGW(HomeGateWay)機能を持つホスト機器332を経由してネットワーク333で互いに接続されている各種センサ310や各種設備機器320や各種家電機器340が配置されているホーム3と、クラウドサーバ1とホスト機器332とを接続するインターネット2とから成る。
ホーム1は、HGW機能を持つホスト機器332を経由して、家庭内のネットワーク333で互いに接続されている各種センサ310や各種設備機器320や各種家電機器340が配置された家庭やオフィスや小規模事業所であり、その規模は問わない。
ホスト機器332は、予め設定されている情報やネットワーク333で接続されたセンサから通知された情報をもとにネットワーク333で接続されている機器やセンサを制御したり、また各々の機器やセンサに関する情報を一元管理したりする機能を有する。
更にホスト機器332は、マイクを備えておりユーザ331が発した言葉を取り込むことが出来る。ホスト機器332は、ユーザ331が発した言葉の中から予め決められたキーワード(以降予約語と呼ぶ)を認識すると、その予約語に続いてユーザ331が発した言葉を取り込み、その取り込んだ言葉の内容を解析することで解析結果に応じた応答をユーザ331に返したり、或いはネットワーク333で接続されている機器やセンサを解析結果に応じて制御をしたりする機能を有する。
逆にホスト機器332は、ユーザ331が発した言葉の中から予約語を認識しない限り、ユーザ331が発した言葉を継続して取り込むことはしない。これによりホスト機器332は、周囲の不要な音声を拾って動作することを防いでいる。
予約語の認識はホスト機器332内で行われ、予約語に続いてユーザ331が発した言葉を継続して取り込み、その取り込んだ言葉の内容の解析は、クラウドサーバ1において行われる。ホスト機器332の機能の詳細については後で説明する。
各種設備機器320と各種家電機器340は、説明の便宜上設備機器320が移動があまり容易でない機器を意味しており、各種家電機器340が移動が比較的容易である機器を意味している。例示した設備機器や家電機器の名称は、個々の機器の能力や機能を制限するものではない。
各種センサ310の具体例として、防犯カメラ311、火災報知器312、人感センサ313、温度センサ314がある。また、各種設備機器320320の具体例として、インターフォン325、照明326、エアコン327、給湯器328がある。また、各種家電機器340の具体例として、洗濯機341、冷蔵庫342、電子レンジ343、扇風機344、炊飯器345、テレビ346がある。
図2は、図1に示す各種センサ310のその他の例を示したものである。
図3は、図1に示すホスト機器332の種々の例を示している。
ホスト機器332−1は、図1に示すホスト機器332であり、HGW機能を内蔵する据え置き型の例である。ホスト機器332−1は、ネットワーク333を通じてホーム1内に配置されている他の機器やセンサと接続されており、またインターネット2を通じてクラウドサーバ1と接続されている。ホスト機器332−1は、据え置き型のため例えばモーター等の自律的に移動する手段を搭載しない例である。
ホスト機器332−2は、HGW機能を内蔵しない据え置き型の例である。そのためホスト機器332−2は、ネットワーク333を通じてHGW330と接続されている。ホスト機器332−2は、HGW330を経由してネットワーク333を通じてホーム1内に配置されている他の機器やセンサと接続され、またHGW330を経由してインターネット2を通じてクラウドサーバ1と接続されている。ホスト機器332−2は、据え置き型のため例えばモーター等の自律的に移動する手段を搭載しない例である。
ホスト機器332−3は、HGW機能を内蔵する可動型の例である。ホスト機器332−3は、ネットワーク333を通じて他の機器やセンサと接続されており、またインターネット2を通じてクラウドサーバ1と接続されている。ホスト機器332−3は、可動型のため例えばモーター等の自律的に移動するための手段を搭載する例である。
ホスト機器332−4は、HGW機能を内蔵しない可動型の例である。そのためホスト機器332−4は、ネットワーク333を通じてHGW330と接続されている。ホスト機器332−4は、HGW330を経由してネットワーク333を通じて他の機器やセンサと接続され、またHGW330を経由してインターネット2を通じてクラウドサーバ1と接続されている。ホスト機器332−4は、可動型のため例えばモーター等の自律的に移動するための手段を搭載する例である。
図4は、図1に示すホスト機器332の機能ブロックを示したものである。ホスト機器332は、内部の処理全体を制御するシステムコントローラ402、とそれにより各機能を制御する制御管理部401、トリガー設定部403、トリガー認識部405、入力管理部420及びネットワーク333と接続するためのネットワークI/F427をもつ。制御管理部401は、内部にホスト機器332の各種動作を制御するための複数のアプリケーションを管理するAPP−Mg401−1、ホスト機器332の各機能ブロックの初期設定や種々の状態設定や動作設定などの設定内容を管理するCONF−Mg401−2からなる。
またホスト機器332は、ユーザ331とのインターフェース(I/F)として、ユーザ331が発する言葉を取り込むためのマイク421、ユーザ331に対して応答を音声で出力するためのスピーカ423及びユーザ331に対してホスト機器332の状態を通知するための表示部425とを持つ。
マイク421は、入力管理部420に接続されている。入力管理部420は、内部で管理する状態に応じて、マイク421から入力された音声データを、トリガー設定部403、トリガー認識部405及び音声処理部407の何れに送るかの制御をする。表示部425は、ホスト機器332の状態をユーザ331に通知するものであり、例えばLED(LightEmittingDiode)やLCD(LiquidCrystalDisplay)である。
メモリ410は、動作モード保存エリア410−1、予約語保存エリア410−2、音声蓄積エリア410−3の3つの領域に分かれている。各々のエリアに保存される情報の内容は後で説明する。
先に述べたようにホスト機器332の機能は、ユーザ331が発した言葉の中から予約語を認識すると、その予約語に継続するユーザ331の発した言葉を取り込み、その取り込んだ言葉の内容を解析することで、解析結果に応じた応答をユーザ331に返したりネットワーク333を通じて接続されている機器やセンサの動作を制御したりする機能を持つ。
これらの機能を実現するために、ホスト機器332は、大きく4つの処理を行う。1つ目の処理は、予約語の登録である。2つ目の処理は、予約語の認識である。3つ目の処理は、動作を制御する機器やセンサの制御内容の登録である。4つ目の処理は、制御内容が登録されている機器やセンサの制御である。
最初に、1つ目の処理である予約語の登録について説明する。
ホスト機器332は、予約語をホスト機器332に登録する機能を有している。予約語を登録するために、ホスト機器332は、予約語を登録するモード(以降予約語登録モードと呼ぶ)を有している。
図5Aおよび図5Bは、予約語を登録するためにホスト機器332が「予約語登録モード」に遷移している状態において、予約語の登録開始から登録完了までのホスト機器332の処理シーケンスの例を示している。
なおホスト機器332は、モード変更するために予め決められた順番通りにユーザ331が発した言葉を認識することで、モード変更ができるようにしてもよい。あるいは表示部425にメニュー画面を表示し、そのメニュー画面をユーザ331が操作することでモード変更ができるようにしてもよい。あるいは、ネットワークI/F427を経由して接続されているスマートフォンやタブレットに表示されたホスト機器332のモードを変更するメニュー画面をユーザ331が操作することで、モード変更ができるようにしてもよい。
予約語として登録する言葉をユーザ331が発すると、ホスト機器332はマイク421から入力された音声データを入力管理部420に取り込む(S501)。入力管理部420は、内部で管理する状態に応じて入力された音声データの転送先を決める機能を有している。ホスト機器332のモードが設定モードである場合、入力管理部420は、受信した音声データをトリガー設定部403に転送する(S502)。トリガー設定部403は、受信した音声データをメモリ410の音声蓄積エリア410−3に保存する(S503)とともに、ユーザ331の音声を取り込んだ回数が規定回数に達しているかの確認(S504)を行う。
トリガー設定部403は、ユーザ331の音声を取り込んだ回数が規定回数に達しているかの確認の結果、規定回数に達していないと判定した場合、登録する言葉を発するようにユーザ331に促す表示を行う(S507)と共に、入力管理部420に対して入力継続通知を送付する(S506)。入力継続通知を受信した入力管理部420は、内部の状態をマイクからの音声の入力待ちの状態に遷移させる(S500)。
なお、登録する言葉を入力するようにユーザ331に対して促す表示は、トリガー設定部403が表示装置425に対して登録未完了通知を送信(S505)し、その登録未完了通知を受信した表示装置425が例えば発光ダイオード(LED)を赤色で点滅させる(S507)、というようにユーザ331が認識できる表示方法で行うことが望ましい。また表示による方法の代わりに音声による方法を用いて、登録する言葉の入力をユーザ331に促してもよい。この場合トリガー設定部403は、スピーカ423に対して登録未完了通知を送信し、この登録未完了通知を受け取ったスピーカ423は、例えば「もう一度入力してください」とユーザ331に対してアナウンスする方法でもよい。或いはトリガー設定部403は、ユーザ331に対して登録する言葉の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器332が可動型の場合、トリガー設定部403は、ホスト機器332が例えばある一定の角度幅で繰り返し回転移動するように、記載していない移動手段に対して指示を出してもよい。
トリガー設定部403は、ユーザ331の音声を取り込んだ回数が規定回数に達しているかの確認の結果、規定回数に達していると判定した場合、それまでに音声蓄積エリア410−3に保存してある音声データを読み出し(S508)、インターネット2を通じてクラウドサーバ1にある音声認識クラウド101の中の認識用データ変換部101−1に送付する(S509)。
認識用データ変換部101−1は、トリガー設定部403から送られてきた音声データを、予約語として認識するための認識用データに変換する(S510)。認識用データへの変換が完了すると、認識用データ変換部(101−1)は、インターネット2を通じて認識用データをトリガー設定部403に送付(S511)する。認識用データを受信したトリガー設定部403は、受信したデータをメモリ410の予約語保存エリア410−2に保存する(S512)。
トリガー設定部403は、予約語の登録が完了したことをユーザ331に対して知らせる表示(S514)を行う。予約語の登録が完了したことをユーザ331に対して知らせる表示は、トリガー設定部403が表示装置425に対して登録完了通知を送信(S514)し、その登録完了通知を受信した表示装置425が例えばLEDを緑色で点灯させる、というようにユーザ331が認識できる表示方法で行うことが望ましい。或いはトリガー設定部403は、予約語の登録が完了したことをユーザ331に対して通知するのに、表示による方法の代わりに音声による方法を用いてもよい。この場合トリガー設定部403は、スピーカ423に対して登録完了通知を送信し、この登録完了通知を受け取ったスピーカ423は、例えば「登録が完了しました」とユーザ331に対してアナウンスする方法でもよい。或いはトリガー設定部403は、ユーザ331に対して予約語の登録が完了したことを通知するのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器332が可動型の場合、トリガー設定部403は、ホスト機器332が例えばある一定の移動幅で繰り返し直線移動するように、記載していない移動手段に対して指示を出してもよい。
以上のように、トリガー設定部403は、予約語の登録においてデータの流れを管理する役割を持っている。
図6Aおよび図6Bは、予約語の登録開始から登録完了までの別のシーケンス例を示している。ホスト機器332が取り込んだ音声データを予約語として登録するのに不十分な場合がある。このように取り込んだデータが不十分な場合の処理の例を示す。
図6Aおよび図6Bに示すS600からS615の処理は、それぞれ図5Aおよび図5Bに示すS500からS515の処理と同一である。図5Aおよび図5Bにおける処理と図6Aおよび図6Bにおける処理との相違点は、図6Bの処理にS616の処理からS619の処理が追加されている点である。
トリガー設定部403は、ユーザ331が発した言葉を取り込んだ回数が規定回数に達しているかの確認(S604)を行った結果、規定回数に達していると判定した場合、それまでに音声蓄積エリア410−3に保存してある音声データを読み出し(S608)、インターネット2を通じてクラウドサーバ1にある音声認識クラウド101の中の認識用データ変換部101−1に送付する(S609)。
トリガー設定部403は、ユーザ331が発した言葉を取り込んだ回数が規定回数に達していないと判定した場合、登録する言葉を発するようにユーザ331に促す表示を行う(S607)と共に、入力管理部420に対して入力継続通知を送付する(S606)。入力継続通知を受信した入力管理部420は、内部の状態をマイクからの音声の入力待ちの状態に遷移させる(S600)。
なお、登録する言葉を入力するようにユーザ331に対して促す表示は、トリガー設定部403が表示装置425に対して登録未完了通知を送信(S605)し、その登録未完了通知を受信した表示装置425が例えばLEDを赤色で点滅させる(S607)、というようにユーザ331が認識できる表示方法で行うことが望ましい。また表示による方法の代わりに音声による方法を用いて、登録する言葉の入力をユーザ331に促してもよい。この場合トリガー設定部403は、スピーカ423に対して登録未完了通知を送信し、この登録未完了通知を受け取ったスピーカ423は、例えば「もう一度入力してください」とユーザ331に対してアナウンスする方法でもよい。或いはトリガー設定部403は、ユーザ331に対して登録する言葉の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器332が可動型の場合、トリガー設定部403は、ホスト機器332が例えばある一定の角度幅で繰り返し回転移動するように、記載していない移動手段に対して指示を出してもよい。
認識用データ変換部101−1は、トリガー設定部420より送られてきた全音声データを認識用データに変換する際に、送られてきた音声データが認識用データに変換できるかどうかを判定する(S616)。送られてきた音声データの幾つかが認識用データに変換できないと判定した場合、認識用データ変換部101−1は、インターネット2を通じてトリガー設定部403に対して音声データ追加要求を送信(S617)する。音声データ追加要求を受信したトリガー設定部403は、予約語として登録したい言葉をユーザ331に追加で入力してもらう回数を設定し(S618)、入力管理部420に対して入力継続通知(S619)を通知する。
トリガー設定部403がユーザ331に追加で入力してもらう追加回数を設定した(S618)時点では、表示部425の例えばLEDは赤色で点灯したままである。この表示に従って、ユーザ331は、S618で追加設定された回数分、予約語として登録する言葉を発する。
入力管理部420は、入力継続通知を受信すると(S619)、内部状態を入力待ちに遷移させ(S600)、ユーザ331が発する言葉の入力待ち状態となる。
図5Aおよび図5Bに示す処理、図6Aおよび図6Bに示す処理は、ユーザ331が発した音声を入力管理部402が取り込んだ回数が規定回数に達してから、その取り込んだ音声データをまとめてクラウドサーバ1にある認識用データ変換部101−1に送信する例であるが、ユーザ331が発した音声を入力管理部420が取り込むごとに、その取り込んだ音声データを認識用データ変換部101−1に送信してもよい。図7Aおよび図7Bは、ユーザ331が発した音声を入力管理部420が取り込むごとに、その取り込んだ音声データを逐次クラウドサーバ1にある認識用データ変換部101−1に送付して、認識用データに変換する場合のシーケンス例である。
図7Aに示すS700からS702の処理は、それぞれ図5Aに示すS500からS502に示す処理と同一である。また図7Aに示すS703とS704の処理は、それぞれ図5Aに示すS505とS507の処理と同一である。
予約語として登録する言葉をユーザ331が発すると、ホスト機器332は、マイク421から入力された音声データを入力管理部420に取り込む(S701)。ホスト機器332のモードが予約語登録モードであるので、入力管理部420は、受信した音声データをトリガー設定部403に転送する(S702)。トリガー設定部403は、受信した音声データを、受信するごとに逐次クラウドサーバ1にある認識用データ変換部101−1に送信する(S706)。認識用データ変換部101−1は、トリガー設定部403より送られてきた音声データを認識用データに変換する際に、送られてきた音声データが認識用データに変換できるかどうかを判定する(S707)。
送られてきた音声データが認識用データに変換できないと判定した場合は、認識用データ変換部101−1はインターネット2を通じてトリガー設定部403に対して音声データ追加要求を送信する(S708)。音声データ追加要求を受信したトリガー設定部403(S708)は、ユーザ331の音声を取り込んだ回数が規定回数に達しているかの確認(S714)を行う。トリガー設定部403は、ユーザ331の音声を取り込んだ回数が規定回数に達しているかの確認の結果、規定回数に達していないと判定した場合、登録する言葉を発するようにユーザ331に促す表示を継続すると共に、入力管理部420に対して入力継続通知を送付する(S715)ことで、入力管理部420をマイクからの音声の入力待ちの状態に遷移させる(S700)。入力管理部420は、入力継続通知を受信すると(S715)、内部状態を入力待ちに遷移させ(S700)、ユーザ331が発する言葉の入力待ち状態となる。
認識用データ変換部101−1は、送られてきた音声データが認識用データに変換できると判定(S707)した場合は、音声データを認識用データに変換する(S709)。認識用データ変換部101−1は、認識用データに変換した(S709)結果、既に認識用データに変換したものも含めてすべての認識用データを用いて、マイク421より入力された音声データを予約語として認識できる精度を確保しているかどうかの判定を行う(S710)。
すべての認識用データにより、マイク421より入力された音声データを予約語として認識するのに十分な精度を確保していると判定した場合は、予約語として登録したい言葉をユーザ331が発するのを止めてもらうために、インターネット2を通じて、認識用データが十分である旨の情報を付加した認識用データ(認識用データ充足通知付)をトリガー設定部403に通知する(S711)。認識用データ(認識用データ充足)を受信したトリガー設定部403は、この時点までに受信した認識用データで、マイク421より入力された音声データを予約語として認識するのに十分な認識用データが存在すると認識し、ユーザ331の音声を取り込んだ回数が規定回数に達していなくても、これ以上ユーザ331に対して登録する言葉の入力を促すことを中止する(S712)。トリガー設定部403は、この時点までに受信した認識用データすべてを予約語保存エリア410−2に保存する(S716)とともに、入力管理部420、表示部425、認識用データ変換部101−1に登録完了通知を送付する(S717)(S718)(S719)。これにより、変換された認識用データの精度により、ユーザ331の音声を取り込んだ回数が規定回数に達しなくて予約語として登録する言葉をユーザ331に発してもらうのを止めてもらうことが可能となり、より自由度のある予約語の登録処理が可能となる。なお、規定回数は、ホスト機器332の設定値としてユーザ331による変えることが可能であり、また後述する付加情報の1つとして変えることが可能である。
認識用データ変換部101−1は、この時点までに作成した認識用データにより、マイク421より入力された音声データを予約語として認識するのに十分な精度を確保していないと判定した場合は、変換した認識用データのみをトリガー設定部403に送付する(S713)。認識用データを受信したトリガー設定部403は、ユーザ331の音声を取り込んだ回数が規定回数に達しているかの確認(S714)を行う。トリガー設定部403は、規定回数に達しているかの確認の結果規定回数に達していないと判定した場合、登録する言葉を発するようにユーザ331に促す表示を継続すると共に、入力管理部420に対して入力継続通知を送付する(S715)ことで、入力管理部420をマイクからの音声の入力待ちの状態に遷移させる(S700)。
なお、登録する言葉を入力するようにユーザ331に対して促す表示は、トリガー設定部403が表示装置425に対して登録未完了通知を送信(S703)し、その登録未完了通知を受信した表示装置425が例えばLEDを赤色で点滅させる(S704)、というようにユーザ331が認識できる表示方法で行うことが望ましい。また表示による方法の代わりに音声による方法を用いて、登録する言葉の入力をユーザ331に促してもよい。この場合トリガー設定部403は、スピーカ423に対して登録未完了通知を送信し、この登録未完了通知を受け取ったスピーカ423は、例えば「もう一度入力してください」とユーザ331に対してアナウンスする方法でもよい。或いはトリガー設定部403は、ユーザ331に対して登録する言葉の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器332が可動型の場合、トリガー設定部403は、ホスト機器332が例えばある一定の角度幅で繰り返し回転移動するように、記載していない移動手段に対して指示を出してもよい。
認識用データを受信したトリガー設定部403は、規定回数に達しているかの確認(S714)の結果規定回数に達していると判定した場合、登録完了通知を入力管理部420、表示部425、認識用データ変換部101−1に登録完了通知を送付する(S717)(S718)(S719)。登録完了通知を受信(S718)した認識用データ変換部101−1は、S710の処理を行うために一時的に保存していた変換済み認識用データをクリアする。
次に、ホスト機器332の2つ目の処理である予約語の認識について説明する。
ホスト機器332は、ユーザ331が発した言葉の中から予約語を認識した場合、継続するユーザ331が発した言葉の内容を解析することで、その解析結果をもとに機器やセンサを制御する機能を有している。この予約語を認識し、予約語を認識した以降に機器やセンサを制御するために、ホスト機器332は、予約語を認識および機器やセンサを制御するモード(以降動作モードと呼ぶ)を有している。
図8Aおよび図8Bは、動作モードにおいて、ユーザ331が発した言葉が登録済みの予約語の1つであると認識するまでの、ホスト機器332の処理シーケンスの例を示している。
ユーザ331が言葉を発すると、ホスト機器332は、マイク421から入力された音声データを入力管理部420に取り込む(S801)。ホスト機器332のモードが動作モードである場合、入力管理部420は、受信した音声データをトリガー認識部405に転送する(S802)。トリガー認識部405は、入力管理部420から転送されてきた音声データを受け取ると、転送されてきた音声データが予約語であるかどうかを判定するために、メモリ410の予約語保存エリア410−2から読みだし(S803)た認識用データと比較を行う(S804)。
トリガー認識部405は、入力された音声データが予約語と認識出来ないと判定した場合(S805)、予約語を発するようにユーザ331に促す表示を行う(S808)と共に、入力管理部420に入力継続通知を送付する(S807)。なお、予約語を発するようにユーザ331に促す表示は、トリガー認識部405が表示部425に対して認識未完了通知を送信(S806)し、その認識未完了通知を受信した表示部425が例えばLEDを赤色で点滅させる(S808)、というようにユーザ3313が認識できる表示方法で行うことが望ましい。またトリガー設定部403は、表示による方法の代わりに音声による方法を用いて、音声の入力をユーザ331に促してもよい。この場合トリガー認識部405は、スピーカ423に対して、認識未完了通知を送信し、この認識未完了通知を受け取ったスピーカ423は、例えば「聞こえなかったよ」とユーザ331に対してアナウンスする方法でもよい。或いはトリガー認識部405は、ユーザ331に対して音声の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器332が可動型の場合、トリガー設定部403は、ホスト機器332が例えばある一定の角度幅で繰り返し回転移動するように、記載していない移動手段に対して指示を出してもよい。
トリガー認識部405は、入力された音声データが予約語と認識出来た場合(S805)、ユーザ331が発した音声を予約語として認識したことを示す表示を行う(S810)。なお、ユーザ331が発した音声を予約語として認識したことを示す表示は、トリガー認識部403が表示装置425に対して認識完了通知を送信(S809)し、その認識完了通知を受信した表示装置425が例えばLEDを緑色で点灯させる(S810)、というようにユーザ331が認識できる表示方法で行うことが望ましい。またトリガー認識部405は、表示による方法の代わりに音声による方法を用いて、ユーザ331が発した音声を予約語として認識しことを通知してもよい。この場合トリガー認識部405は、スピーカ423に対して認識完了通知を送信し、この認識完了通知を受け取ったスピーカ423は、例えば「はいはい」や「聞こえたよ」とユーザ331に対してアナウンスする方法でもよい。或いはトリガー認識部405は、ユーザ331が発した音声を予約語として認識したことを示すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器332が可動型の場合、トリガー設定部403は、ホスト機器332が例えばある一定の移動幅で繰り返し直線移動するように、記載していない移動手段に対して指示を出してもよい。
図9Aおよび図9Bは、動作モードにおいて、ユーザ331が発した言葉を登録済みの予約語の1つであると認識するまでのホスト機器332の処理シーケンスの他の例である。
図9Aおよび図9Bのシーケンス例と図8Aおよび図8Bのシーケンス例との違いは、予約語の認識を行う過程で、認識確率を考慮に入れている点である。認識確率とは、認識用データと、入力管理部420から転送されてきた音声データの周波数成分や強さ等の特徴点の比較を行い、両者が一致しているレベルことを意味している。図9Aおよび図9Bに示すS900からS912の処理は、それぞれS800からS812に示す処理と同一で、図9Aおよび図9Bにおける処理において図8Aおよび図8Bとの処理との違いは、S913からS916の処理が追加されている点である。
トリガー認識部405は、入力管理部420から転送されてきた音声データを受け取ると、メモリ410の予約語保存エリア410−2から認識用データを読み出し(S903)、入力管理部420から転送されてきた音声データとの比較を行う(S904)。
トリガー認識部405は、入力された音声データが予約語と認識出来たと判定(S905)した場合、認識確率の判定処理(S913)に移る。
ここでトリガー認識部405が行う音声認識処理は、メモリ410の予約語保存エリア410−2から読み出した認識用データと入力管理部420から転送されてきた音声データの周波数成分や強さ等の特徴点との比較を行い、両者が一定のレベル以上一致する場合に、入力管理部420から転送された音声データは認識用データである、と判定するものである。
ホスト機器332は、認識用データと入力管理部420から転送されてきた音声データの周波数成分や強さ等の特徴点との比較を行う際に、両者が一致しているレベルを判定する閾値を複数設けることも可能である。このようにすることで、ホスト機器332は、ユーザが発した言葉の中から予約語を認識する際に、予約語を認識出来た/予約語を認識出来ない、という2通りの判定ではなく、例えば予約語を認識出来た/予約語を認識出来ない/予約語を認識出来たとは言えない、というように、予約語に近いが正しい予約語ではない、という判定を加えることも出来る。このように認識確率の閾値を複数設けることで、ユーザ331が例えば予約語を正確に覚えていない場合、ユーザ331が予約語に近い言葉を繰り返し発することで、そのユーザ331の発した言葉を取り込んだホスト機器332は「予約語を認識出来たとは言えない」という判定結果に応じた応答をし、その応答内容を見たユーザ331は、正しい予約語に近づくことができる、というメリットがある。
図9Aおよび図9Bの例は、認識確率の閾値を2つ設けた場合の例である。予約語を認識出来る閾値を閾値1とし予約語を認識出来ない閾値を閾値0とすると、S904において比較の結果、認識確率が閾値1以上の場合は、予約語が認識出来た、との判定結果となる。また認識確率が閾値0以上閾値1未満の場合は、予約語を認識出来たいと言えない、との判定結果となる。また認識確率が閾値0未満の場合は、予約語が認識出来ない、との判定結果となる。したがってS905の処理は、認識確率を閾値0と大小比較を行う処理である。またS913の処理は、認識確率を閾値1と大小比較を行う処理となる。
ホスト機器332は、認識確率が閾値0以上閾値1未満である、と判定した場合(S913)、予約語を発するようにユーザ331に促す表示を行う(S915)と共に、入力管理部420に入力継続通知を送付する(S916)。なお、予約語を発するようにユーザ331に促す表示は、トリガー認識部405が表示部425に対して認識不十分通知を送付(S914)し、その認識不十分通知を受信した表示部425が例えばLEDを緑色で点滅させる(S915)、というようにユーザ331が認識できる表示方法で行うことが望ましい。
このように、認識確率が低い場合に、予約語を発するようにユーザ331に促す表示は、認識に失敗した場合の表示(S908)や認識に成功した場合の表示(S910)と変えることで、ユーザ331は、自分が発した言葉が予約語に近いが正しく予約語を発していない、と認識することができる。
またトリガー設定部403は、表示による方法の代わりに音声による方法を用いて、音声の入力をユーザ331に促してもよい。この場合トリガー認識部405は、スピーカ423に対して認識不十分通知を送信(S914)し、この認識不十分通知を受け取ったスピーカ423は、例えば「何か呼んだ?」とユーザ331に対してアナウンスする方法でもよい。或いはトリガー認識部405は、ユーザ331に対して音声の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。或いはホスト機器332が可動型の場合、トリガー設定部403は、ホスト機器332が例えばある一定の角度幅で繰り返し回転移動するように、記載していない移動手段に対して指示を出してもよい。
次に、ホスト機器332の3つ目の処理である、動作を制御する機器やセンサの制御内容の登録と、4つ目の処理である、制御内容が登録されている機器やセンサの制御について説明する。
まずは、ホスト機器332を用いた機器やセンサの制御の全体像を説明する。
ホスト機器332は、ユーザ331が発した言葉の中から予約語を認識した場合、予約語を認識した以降にユーザが発した言葉を継続して取り込み、その取り込んだ言葉の内容を解析することで機器やセンサを制御する機能を有している。
図10Aおよび図10Bは、ホスト機器が、予約語の認識が完了した以降において、マイク421から取り込んだ機器やセンサの制御内容を含んだ音声データの内容に基づいて、機器やセンサを制御する場合の処理シーケンスの例を示している。入力管理部420の内部状態は、予約語の認識は完了しているので認識済み(S1000)に遷移している。
ユーザ331が、機器やセンサを制御する内容を含んだ言葉を発すると、ホスト機器332はマイク421を通じて(S1001)、その音声データ(制御内容)を入力管理部420に取り込む(S1002)。入力管理部420は、内部状態が認識済みであるので、入力された音声データ(制御内容)を音声処理部407に転送する(S1002)。音声処理部407は、転送された音声データ(制御内容)をインターネット2を通じて、クラウドサーバ1にある音声認識クラウド101の中の音声テキスト変換部101−2に送る。
音声テキスト変換部101−2は、インターネット2を通じて送られてき音声データを、テキストデータに変換する処理を行う(S1004)。この処理により、もともとマイク421を通じて取り込まれたユーザ331が発した音声が、テキストデータに変換される。
テキストデータへの変換が完了すると音声テキスト変換部101−2は、変換したテキストデータを内部に保存すると共に変換完了通知を音声処理部407に送付する(S1005)。
音声処理部407は、変換完了通知を受け取ると、音声テキスト変換部101−2に対してテキスト分析要求を送信する(S1006)。音声テキスト変換部101−2は、テキスト分析要求を受信すると、内部に保存してあるテキストに変換済みのデータとともにテキスト分析要求をテキスト分析部102−1に送付する(S1007)。テキスト分析部102−1は、テキスト分析要求を受信(S1007)したら、付随しているテキストデータの内容の解析を実施する(S1008)。テキスト分析部102−1は、送られてきたテキストデータの内容の解析が完了すると、その解析結果をテキスト分析結果通知として応答・アクション生成部102−2に送付する(S1009)。応答・アクション生成部102−2は、テキスト分析結果を受信(S1009)すると、その内容に基づいて対象となる機器とその機器を制御するコマンドを生成し(S1010)、生成したコマンドを応答・アクション生成結果通知として音声処理部407に送付する(S1011)。
音声処理部407は、応答・アクション生成結果通知を受信する(S1011)と、応答・アクション生成結果通知の内容から制御対象の機器やセンサとその制御内容を特定する(S1012)。音声処理部407は、特定した制御対象の機器やセンサとその制御内容を、制御対象の機器やセンサが認識出来るフォーマットに変換して、必要なタイミングにおいてネットワーク333を通じて対象機器や対象センサにアクション通知として送信する(S1013)。
アクション通知の通知先である制御対象の機器やセンサは、アクション通知を受け取る(S1013)と、その中に含まれる制御内容に基づいて動作を行う(S1014)。
ホスト機器332は、ユーザ331が連続して音声を発する場合、この連続した音声を一連の音声と判定して途中でユーザ331に対して予約語を発することを要求することなく、この連続した音声を取り込むことが出来る。逆にホスト機器332は、ユーザ331が、ある程度時間をおいて音声を発する場合は、再度予約語の入力を要求する。各々の場合について、図11Aおよび図11Bと図12Aおよび図12Bを用いて説明する。
図11Aおよび図11Bは、予約語の認識が完了した以降において、ユーザ331が時間T0以内に連続的に言葉を発する場合の処理シーケンスの例である。ホスト機器332が、マイク421から入力された音声データ(制御内容)を入力管理部420に取り込む(S1101)と、入力管理部420は入力間隔確認タイマTを起動させる。入力間隔確認タイマTが満了する時間(=T0)以前の時間T1に、マイク421を通じてユーザ331が発した次の音声データ(制御内容)を入力管理部420に取り込んだ場合(S1121)、入力管理部420は、その取り込んだ音声データ(制御内容)を音声処理部407に転送する(S1122)。同時に、起動中の入力間隔確認タイマTを再度起動させる。音声処理部407は、転送されてきた音声データ(制御内容)をインターネット2を通じて、クラウドサーバ1にある音声認識クラウド101の中の音声テキスト変換部101−2に送る(S1123)。以降は、S1104からS1110の処理と同様に、音声認識クラウド101において送られてきた音声データ(S1123)の処理を継続する。
なお入力間隔確認タイマTは、入力管理部420がマイク421から入力された音声データを取り込んだタイミングで起動しているが、これに限らず例えば入力管理部420が、マイク421から送られてきたデータをトリガー設定部403や音声処理部407に転送するタイミングで起動してもよい。また、入力管理部420の内部状態が認識済みに遷移(S1100)したタイミングで、起動してもよい。
図12Aおよび図12Bは、ユーザ331が時間T0以内に連続的に音声を発しない場合の例である。ホスト機器332は、マイク421から入力された音声データ(制御内容)を入力管理部420に取り込む(S1201)と、入力管理部420は入力間隔確認タイマTを起動させる。入力管理部420は、入力間隔確認タイマTが満了する時間(=T0)を過ぎると、内部状態を入力待ちに遷移させる(S1220)。
ホスト機器332は、入力間隔確認タイマTが満了する時間(=T0)を過ぎてからマイク421から入力された次の音声データを取り込んだ場合(S1224)、この取り込んだ音声データをもとに機器やセンサを制御する処理を実行せず、予約語を発するようにユーザ331を促す表示を行う。
入力間隔確認タイマTが満了すると、入力管理部は内部の状態を入力待ちに遷移させる(S1220)とともに、タイムアウト通知を音声処理部407に通知する(S1221)。タイムアウト通知を受け取った音声処理部407は、表示部425に対して認識未完了通知を送信し(S1222)、その認識未完了通知を受信した表示部425は、予約語を発するようにユーザ331に促す表示、例えばLEDを赤色で点滅させる(S1223)。
入力間隔確認タイマTが満了後に、マイク421から入力された次の音声データを取り込んだ場合(S1224)、入力管理部420は、内部状態を認識中に遷移させる(S1225)とともに、その取り込んだ音声データをトリガー認識部405に転送する(S1226)。以降、ホスト機器332は、図8Aおよび図8BのS803からS812までの処理あるいは図9Aおよび図9BのS903からS916までの処理を行い、予約語の認識を再度行う。
次にホスト機器332を用いた機器やセンサを制御するための制御内容の登録と、その登録された制御内容に基づいて行う機器やセンサの制御について説明する。
図13は、ホスト機器332が、予約語を認識した後図10Aおよび図10Bのシーケンス図に示したように各種センサ310や各種設備機器320や各種家電機器340を制御する際に用いる制御情報の内容の具体的な例を示したものである。
項目1は、応答・アクション生成部102−2より送信される応答・アクション生成結果通知に含まれている、各種センサ310や各種設備機器320や各種家電機器340を制御する情報(以降応答・アクション情報と呼ぶ)の具体例である。この応答・アクション生成情報は、機器332が制御する機器やセンサ等の「対象」と、その制御対象を制御する内容を表す「命令」とから成る。ホスト機器332は、応答・アクション生成結果通知を受信すると、その中に含まれるアクション情報を抽出し、そのアクション情報の内容に基づいて、対象となる機器の制御を行う。
「命令」の例としては、制御する対象の機器を起動させる(動作させる)「起動命令」、終了させる(停止させる)「停止命令」、動作中の内容(モード)を変更する「動作変更命令」、対象機器に予め設定している内容(モード)を変更する「設定変更命令」等がある。
応答・アクション生成部102−2が応答・アクション生成結果通知に含む応答・アクション情報を生成するために、ユーザ331は予め制御対象の機器とその制御内容、及びその機器を制御させるためにホスト機器332に対して発する言葉、の組み合わせを、ホスト機器332の初期設定として応答・アクション生成部102−2に登録する必要がある。以下図13の例を用いて、ホスト機器332の初期設定における応答・アクション情報の登録に関して説明する。
項目2は、ホスト機器332を通して制御する機器である「対象」である。この「対象」は、各種センサ310や各種設備機器320や各種家電機器340に含まれる機器やセンサの識別名称であり、具体例としてエアコン1を記載している。
項目3は、「項目2」に示す機器の制御内容である「命令」である。この「命令」は、具体例として項目2に挙げたエアコン1の命令を記載しており、エアコンを動かす「起動命令」、エアコンを停止させる「停止命令」、エアコンの動作内容を変える「動作変更命令」、エアコンの設定内容を変える「設定変更命令」を例として記載している。
項目2及び項目3の各機器やセンサの製品仕様は、記載していない製品仕様の情報が保存されている製品仕様クラウドサーバに予め保存されている。ユーザ331は、ホスト機器332を通して制御したい対象機器や対象センサの項目2及び項目3の製品仕様の情報を製品仕様クラウドサーバから入手する。
次にユーザ331は、ホスト機器332を通して項目2及び項目3の制御内容を実行する際に、ホスト機器332に発する言葉である項目4=「フレーズ」を決定する。この「フレーズ」は、項目3に挙げたエアコン1の命令に対応する内容であることが望ましく、例えばエアコンを動かす「起動命令」に対しては「エアコンつけて」、エアコンを停止させる「停止命令」に対しては「エアコンけして」、エアコンの動作内容である「冷房」を「ドライ」に変える「動作変更命令」に対しては「ドライにして」、エアコンの設定内容である運転開始時間を「夜10時運転開始」に変える「設定変更命令」に対しては「夜10時にエアコンつけて」を例として記載している。
以上より決定した(対象、命令、フレーズ)の組み合わせを、ユーザ331は、ホスト機器332の初期設定として作成する。ユーザ331は、ホスト機器332を通じて制御したい機器すべてに対して同様の作成を行い、最終的に制御対象すべての機器に関する(対象、命令、フレーズ)を1つにまとめた応答・アクション情報一覧を生成する。作成された応答・アクション情報一覧は、ホスト機器332を通して応答・アクション生成部102−2に登録される。
応答・アクション生成部102−2に応答・アクション情報一覧が登録されると、図10Aおよび図10Bに示すように、ホスト機器332は、予約語の認識が完了した以降、引き続きユーザ331が発する言葉を取り込んで解析することで、機器やセンサを制御することができる。
例えば、ユーザ331が発した言葉=エアコンつけて、の場合、音声テキスト変換部101−2は入力された音声データを「えあこんつけて」というテキストに変換し、テキスト分析部102−1は、テキストデータ「えあこんつけて」を「エアコンつけて」という内容であると分析する。この分析結果をもとに応答・アクション生成部102−2は、既に登録されている応答・アクション情報一覧を参照し、「エアコンつけて」という「フレーズ」の分析結果に対応する応答・アクション情報を検索する。これにより、(対象=エアコン1、命令=運転開始)と言う応答・アクション情報を抽出し、応答・アクション生成結果通知に(対象=エアコン1、命令=運転開始)の応答・アクション情報を設定して音声処理部407に通知する。
音声処理部407は、受信した応答・アクション生成結果通知に設定されている応答・アクション情報を参照して、各種センサ310や各種設備機器320や各種家電機器340の中の該当する機器やセンサを制御する。
次にホスト機器332を用いて機器やセンサを制御する場合、種々の条件により機器やセンサを制御する制御内容や、ホスト機器332の動作内容を変更する場合について説明する。
図14は、ホスト機器332に予約語が複数登録されている場合、ホスト機器332がユーザ331の発した言葉を予約語の1つであると認識し、その認識した予約語に応じて行う動作内容の例の一覧である。
ホスト機器332は、複数の予約語を登録することが可能であり、またその複数の予約語の各々を認識した場合に、その認識した予約語に応じた動作内容(以降付加情報1と呼ぶ)を設定することが出来る。
図14に示すようにホスト機器332は、予約語として例えば「いろは」「オレ様だ」「息子や」の3つを登録しているものとする。ホスト機器332は、ユーザ331が発した言葉を予約語「いろは」と認識した場合は、既に設定されている動作内容を変えないが、ユーザ331が発した言葉を予約語「オレ様だ」と認識した場合は、以降ユーザ331の発する言葉を認識したら必ず「ご主人様喜んで」とスピーカ423を通じてアナウンスするように動作を変更する。また、ユーザ331が発した言葉を予約語「息子や」と認識した場合、ホスト機器332は、ユーザ331がシニアユーザであると判定し、シニアの場合はゆっくりと話をする傾向にあるため、図11Aおよび図11Bに示す入力間隔確認タイマの満了時間T0を通常の設定時間より長くするように設定変更する。
図14の例は、ホスト機器332が、ホスト機器自身の動作内容を変える例を示しているが、それに限らず、ホスト機器332とネットワーク333で接続されている機器やセンサに対する動作の制御を行ってもよい。
ホスト機器332は、複数の予約語に応じてホスト機器332の動作を変えるために、各々の予約語に対する付加情報1を予めホスト機器332に登録しておく必要がある。
ホスト機器332は、予約語をホスト機器332に登録する際に、登録する予約語に対応する付加情報1もあわせて登録するモード(以降予約語登録(付加情報1)モードと呼ぶ)を有している。
図15Aおよび図15Bは、予約語およびそれに対応する付加情報1を合わせて登録するために、ホスト機器332が「予約語登録(付加情報1)モード」に遷移している状態において、予約語の登録開始から付加情報1の登録完了までのホスト機器332の処理シーケンスの例を示している。図15Aおよび図15Bに示すS1500からS1514の処理は、それぞれ図5Aおよび図5Bに示すS500からS514の処理と同一である。図15Aおよび図15Bにおける処理の図5Aおよび図5Bとの処理の相違点は、S1515がS515と異なる点と、S1516からS1523が追加されている点である。
トリガー設定部403は、予約語の登録が完了したことをユーザ331に対して知らせる表示(S1514)を行う。予約語の登録が完了したことをユーザに対して知らせる表示(S1515)は、トリガー設定部403が表示装置425に対して登録完了通知を送信(S1514)し、その登録完了通知を受信した表示装置425が例えばLEDを緑色で点滅させる、というようにユーザ331が認識できる表示方法で行うことが望ましい。これにより、トリガー設定部403は、付加情報1の登録を行うようにユーザ331に促すことが可能となる。
LEDが緑色に点滅している(S1515)ことを認識したユーザ331は、S1511で登録が完了した予約語に対応した付加情報1を設定することができる。
付加情報1の設定方法は、ユーザ331が発した音声をマイク421を通じてホスト機器332が取り込み、その取り込んだ音声データを解析することで、登録できるようにしてもよい。或いはまた表示装置425に、付加情報1を設定するメニューを表示させ、ユーザ331がそのメニューに従って操作することで登録できるようにしてもよい。或いは図4に示すネットワークI/F427を経由して接続されている外部のデバイス、例えばスマートフォンやタブレットを用いて、そのスマートフォンやタブレットの表示画面に予約語に対応した付加情報1を設定するメニューを表示させ、ユーザ331がその表示されたメニュー画面に従って操作することで登録できるようにしてもよい。図15Aおよび図15Bは、表示部425に表示された付加情報1を設定するメニューを表示させ、ユーザ331がそのメニューに従って操作することで付加情報1を登録する場合の処理シーケンスの例である。
ユーザ331に付加情報1の入力を促すためにLEDが緑色に点滅する(S1515)と、表示部425に付加情報1を登録するためのメニューが表示される。ユーザ331は、表示されたメニュー画面に従って操作することで、付加情報1を作成する。作成が完了した付加情報1は、入力管理部420に取り込まれる(S1517)。入力管理部420は、取り込んだ付加情報1をトリガー設定部403に転送する。トリガー設定部403は、転送された付加情報1をメモリ410の予約語保存エリア410−2に保存する(S1519)。
なおトリガー設定部403は、付加情報1をメモリ410の予約語保存エリア410−2に保存する際にはS1513で登録した予約語と関連付けて保存する。
また、音声処理部407は、付加情報1の登録が完了したことをユーザ331に対して知らせる表示(S1522)を行う。付加情報1の登録が完了したことをユーザ331に対して知らせる表示(S1522)は、音声処理部407が表示装置425に対して登録完了通知を送信(S1520)し、その登録完了通知を受信した表示装置425が例えばLEDを緑色で点灯させる、というようにユーザ331が認識できる表示方法で行うことが望ましい。
図16Aおよび図16Bは、図15Aおよび図15Bに示す処理によりメモリ410の予約語保存エリア410−2に付加情報1が保存された場合に、ユーザ331が発した言葉の中から予約語の認識し、その認識した予約語の付加情報1を予約語保存エリア410−2から読み出して、ホスト機器332に対して動作を設定する場合のシーケンスの例である。
図16Aおよび図16Bに示すS1600からS1612の処理は、それぞれ図8Aおよび図8Bに示すS800からS812の処理と同一である。図16Aおよび図16Bの処理における図8Aおよび図8Bの処理との違いは、S1613とS1614の処理が追加されている点である。
ユーザ331が発した言葉を予約語として認識すると(S1605)、トリガー認識部405は、該当する予約語に対応した付加情報1をメモリ410の予約語保存エリア410−2から読み出す。付加情報1を読み出したトリガー認識部405は、読み出した付加情報1(S1613)の内容の動作をホスト機器332に設定する(S1614)。図14に示されている例の内容が予約語保存エリア410−2に保存されている場合、S1605で予約語として「息子や」を認識した場合、トリガー認識部405は、S1614にて入力間隔確認タイマTの満了時間T0を、通常の値をより長くするように設定する。
図17(A)は、ユーザ331が発した言葉を、ホスト機器332に登録されている予約語として認識した場合、その認識した予約語に継続するユーザ331が発した言葉に応じて、ホスト機器332が特定の動作をする動作内容の例の一覧である。
ホスト機器332は、ユーザ331が発した言葉を、登録されている予約語であると認識した場合、その認識した予約語に継続してユーザ331が発した言葉(以降付加語と呼ぶ)の内容に応じて動作内容(以降付加情報2と呼ぶ)を設定することが出来る。
例えば図17(A)に示すように、予約語として「いろは」が登録されているとする。この場合、ホスト機器332は、予約語「いろは」を認識した場合、この予約語「いろは」に続くユーザ331の発した言葉を認識しない場合は、既に設定されている動作内容を変更しない。ホスト機器332は、予約語「いろは」に続くユーザ331の発した言葉として「ちゃん」を認識した場合は、ユーザ331の機嫌がよいと判定し、スピーカ423を通して応答する場合は、応答する際のトーンを上げるように動作内容を変更する。また、ホスト機器332は、予約語「いろは」に続くユーザ331の発した言葉として「や」を認識した場合は、ユーザ331がシニアユーザであると推定し、ユーザ331がゆっくりと話す傾向にあるため、図11Aおよび図11Bに示す入力間隔確認タイマの満了時間T0を通常の設定時間より長くするように変更する。またホスト機器332は、予約語「いろは」に続くユーザ331の発した言葉として「おい」を認識した場合は、ユーザ331が怒っていると判定し、「申し訳ございません」とスピーカ423を通じてすぐにアナウンスするようにする。
図17(A)の例は、1つの予約語に対して複数の付加語を設定し予約語に対する複数の付加語の組み合わせごとに付加情報2を設定することで、ホスト機器332が付加情報2の内容に基づいて動作内容を変える例を示しているが、複数の予約語と複数の付加語との組み合わせごとに付加情報2を設定することも可能である。図17(B)に示すように、例えばホスト機器332が予約語として「いろは」と「おおきに」「あーしんど」の3つを登録しているとする。この場合、各予約語に対して付加語を定義し、その予約語+付加語の組み合わせごとに付加情報2を設定してもよい。
また、ユーザによっては、予約語を発するだけで、ある特定の動作をしてほしいときがある。例えば、ある個人の口癖がある場合、その口癖を予約語としてホスト機器332に登録し、併せてこの予約語に対応した動作をホスト機器332に登録することで、その個人の特性にあった機器やセンサの動作の制御を簡易に実行することができる。図17(B)の予約語「あーしんど」の例では、「あーしんど」という予約語をホスト機器332が認識した場合に、ホスト機器332がユーザ331の発した言葉の中から予約語を認識しただけで、ネットワーク333に接続されている冷蔵庫の中に保存されているビールの情報をスピーカ423を通してアナウンスする、ということも可能である。
ホスト機器332は、予約語に対する付加語の内容に応じて動作を変えるために、予約語に対応した付加語と、この予約語と付加語の組み合わせに対する動作内容である付加情報2、の組み合わせを予めホスト機器332に登録しておく必要がある。このためホスト機器332は、登録済み予約語に対して、対応する付加語や付加情報を追加登録するモードを有している。ホスト機器332に既に登録されている予約語に対して、付加情報1を追加するモードを付加情報1追加登録モード、付加語と付加情報2を追加するモードを付加情報2追加登録モードと呼ぶこととする。
付加情報2の設定方法は、付加情報1の設定同様にユーザ331が発した音声をマイク421を通じてホスト機器332が取り込み、その取り込んだ音声データを解析することで、登録できるようにしてもよい。或いはまた表示装置425に、付加情報2を設定するメニューを表示させ、ユーザ331がその表示されたメニューに従って操作することで登録できるようにしてもよい。或いは図4に示すネットワークI/F427を経由して接続されている外部のデバイス、例えばスマートフォンやタブレットを用いて、そのスマートフォンやタブレットの表示画面に予約語および付加語に対応した付加情報2を設定するメニューを表示させ、ユーザ331がその表示されたメニュー画面に従って操作することで登録できるようにしてもよい。
図18A、図18Bおよび図18Cは、図17(A)(B)に示す登録済みの予約語に対して、付加語の登録とその付加語に対する動作内容(付加情報2)の登録を行う場合の処理シーケンスの例である。
登録済みの予約語に対する付加語を追加登録するために、ユーザ331はホスト機器332を「付加情報2追加登録モード」に変更する。ホスト機器を「付加情報2追加登録モード」に変更すると、ユーザ331は、ホスト機器332に登録済みの予約語と、その予約語に対して登録したい付加語を発する。ホスト機器332は、ユーザ331の発した言葉の中から、最初に予約語の認識を行う(S1805)。
ホスト機器332は、ユーザ331が発した言葉をマイク421を通じて入力管理部420に取り込む(S1801)。入力管理部420は、音声データを取り込むと内部で管理する内部状態を認識中(予約語)に遷移させる(S1802)とともに、入力された音声データをトリガー認識部405に転送する(S1803)。
トリガー認識部405は、入力管理部420から転送されてきた音声データを受け取ると、メモリ410の予約語保存エリア410−2から認識用データを読み出し(S1804)、入力管理部420から転送されてきた音声データとの比較を行う(S1805)。トリガー認識部405は、入力された音声データが予約語と認識出来た場合、入力管理部420に認識完了通知(S1806)を通知する。認識完了通知を受け取った入力管理部420は、内部で管理する内部状態を認識中(予約語)から入力待ち(付加語)に遷移(S1807)させる。
ホスト機器332は、ユーザ331が予約語に続いて発した言葉をマイク421を通じて入力管理部420に取り込む(S1808)。入力管理部420は、内部で管理する内部状態が入力待ち(付加語)である(S1807)ので、入力された音声データをトリガー設定部403に転送する(S1809)。以降、図5Aおよび図5Bで説明した予約語の登録同様に、トリガー設定部403は、受信した音声データをメモリ410の音声蓄積エリア410−3に保存(S1810)しながら、規定回数の付加語の取り込みを行う(S1811)。
トリガー設定部403は、規定回数に達しているかの確認の結果規定回数に達していないと判定した場合、登録する付加語の音声の入力をユーザ331に促す表示を行う(S1812)と共に、入力管理部420に入力継続通知を送信する(S1814)。なお、付加語として登録する音声の入力をユーザ331に対して促す表示(S1813)は、トリガー設定部403が表示装置425に対して登録未完了通知を送信(S1812)し、その登録未完了通知を受信した表示装置425が例えばLEDを赤色で点滅させる、というようにユーザ331が認識できる表示方法で行うことが望ましい。また表示による方法の代わりに音声による方法を用いて、登録する音声の入力をユーザ331に促してもよい。この場合トリガー設定部403は、スピーカ423に対して登録未完了通知を送信し、この登録未完了通知を受け取ったスピーカ423は、たとえば「もう一度入力してください」とユーザ331に対してアナウンスする方法でもよい。或いはトリガー設定部403は、ユーザ331に対して登録する音声の入力を促すのに、表示による方法と音声による方法の両方を用いてもよい。
トリガー設定部403は、規定回数に達しているかの確認の結果規定回数に達していると判定した場合、それまでに音声蓄積エリア410−3に保存している音声データを読み出し(S1815)、インターネット2を通じてクラウドサーバ1にある音声認識クラウド101の中の認識用データ変換部101−1に送付する(S1816)。
認識用データ変換部101−1は、トリガー設定部403から送られてきた音声データを、付加語を認識するための認識用データに変換する(S1817)。認識用データへの変換が完了すると、認識用データ変換部101−1は、インターネット2を通じて認識用データをトリガー設定部403に送付(S1818)する。付加語を認識するための認識用データ(以降認識用データ(付加語)と呼ぶ)を受信したトリガー設定部403は、受信したデータをメモリ410の予約語保存エリア410−2に保存する(S1819)。トリガー設定部403は、認識用データ(付加語)を保存する際には、S1806で認識した予約語と関連づけて保存する。これにより、S1806で認識した予約語に関連付けされて認識用データ(付加語)を保存することが可能となる。
また、トリガー設定部403は、付加語の登録が完了したことをユーザ331に対して知らせる表示(S1822)を行う。予約語の登録が完了したことをユーザ331に対して知らせる表示(S1822)は、トリガー設定部403が表示装置425に対して登録完了通知を送信(S1821)し、その登録完了通知を受信した表示装置425が例えばLEDを緑色で点滅させる(S1822)、というようにユーザ331が認識できる表示方法で行うことが望ましい。或いはトリガー設定部403は、予約語の登録が完了したことをユーザ331に対して通知するのに、表示による方法の代わりに音声による方法を用いてもよい。この場合トリガー設定部403は、スピーカ423に対して登録完了通知を送信し(S1821)、この登録完了通知を受け取ったスピーカ423が例えば「登録が完了しました」とユーザ331に対してアナウンスする方法でもよい。或いはトリガー設定部403は、予約語の登録が完了したことをユーザ331に対して通知するのに、表示による方法と音声による方法の両方を用いてもよい。これにより、ユーザ331は、付加語に対応した動作内容である付加情報2の内容を言葉で発するタイミングを知ることができる。
ユーザ331に付加情報2の入力を促すためにLEDが緑色に点滅させる(S1822)と、表示部425に付加情報2を登録するためのメニューが表示される。ユーザ331は、表示されたメニュー画面に従って操作することで、付加情報2を作成する。作成が完了し付加情報2は、入力管理部420に取り込まれる(S1824)。入力管理部420は、取り込んだ付加情報2をトリガー設定部403に転送する(S1825)。トリガー設定部403は、転送された付加情報2をメモリ410の予約語保存エリア410−2に保存する(S1826)。
なおトリガー設定部403は、付加情報2をメモリ410の予約語保存エリア410−2に保存する際にはS1806で認識した予約語と関連付けて保存する。これにより、S1806で認識した予約語に関連付けされ、かつS1819で保存された付加語に関連付けされた動作内容(付加情報2)を保存することが可能となる。
登録済みの予約語に対して、付加情報だけをあとから追加することも可能である。
図18Dおよび図18Eは、図18A、図18Bおよび図18Cとは異なり登録済みの予約語に対して、付加情報だけを追加する場合の処理シーケンスの例である。
図18Dに示すS1850からS1856の処理は、それぞれ図18Aに示すS1800からS1806の処理と同一である。また、図18Dおよび図18Eに示すS1871からS1880の処理は、それぞれ図18Cに示すS1821からS1830の処理と同一である。図18A、図18Bおよび図18Cのシーケンス例と図18Dおよび図18Eとのシーケンス例との違いは、図18A、図18Bおよび図18CのS1807からS1820の付加語登録処理に対応する処理が、図18Dおよび図18Eには無い点である。
ユーザ331に付加情報1の入力を促すためにLEDが緑色に点滅させる(S1871)と、表示部425に付加情報1を登録するためのメニューが表示される。ユーザ331は、表示されたメニュー画面に従って操作することで、付加情報1を作成する。作成が完了し付加情報1は、入力管理部420に取り込まれる(S1874)。入力管理部420は、取り込んだ付加情報1をトリガー設定部403に転送する(S1875)。トリガー設定部403は、転送された付加情報1をメモリ410の予約語保存エリア410−2に保存する(S1876)。
なおトリガー設定部403は、付加情報1をメモリ410の予約語保存エリア410−2に保存する際にはS1856で認識した予約語と関連付けて保存する。これにより、S1856で認識した予約語に関連付けされた動作内容を保存することが可能となる。
図19Aおよび図19Bは、図18A、図18Bおよび図18Cに示す処理によりメモリ410の予約語保存エリア410−2に付加語及び付加情報2が保存された場合に、ユーザ331が発した言葉の中から予約語と付加語を認識し、その認識した予約語と付加語の組み合わせに対応する付加情報2を予約語保存エリア410−2から読み出して、ホスト機器332に対して動作を設定する場合のシーケンス例である。
図19Aに示すS1900からS1908の処理は、それぞれ図16Aに示すS1600からS1608の処理と同一である。図19Aおよび図19Bの処理における処理の図16Aおよび図16Bの処理との違いは、S1909からS1911の付加語の認識の処理が追加されている点と、S1912からS1913の付加情報2の読み出し処理を行う点である。
ユーザ311が発した言葉を取り込んだデータに対して、図19AのS1905において予約語の認識が成功すると、トリガー認識部420は、ユーザ311が発した言葉を取り込んだデータに対して、認識に成功した予約語に継続して入力された音声データが、付加語であるかの判定を判定するために、メモリ410の予約語保存エリア410−2から読み出した認識用データ(付加語)との比較を行う(S1911)。予約語に継続する音声データが付加語であると認識した場合、トリガー認識部405は、該当する予約語と付加語に対応した付加情報2をメモリ410の予約語保存エリア410−2から読み出す(S1912)。付加情報2を読み出したトリガー認識部405は、読み出した付加情報2の内容の動作をホスト機器332に設定する(S1913)。
以上のように、ホスト機器332に予約語、付加語、付加情報を登録することで、ホスト機器332は、ホスト機器332の動作や、ホスト機器332とネットワークで接続されている機器やセンサに対する動作を自由に制御することが出来、個々人の生活スタイルにあった機器やセンサの制御が可能となる。
図20は、ホスト機器332に予約語が複数登録された場合、ユーザ331が発した言葉の中から予約語のいずれかであると認識した場合、その認識した予約語に応じて、音声認識クラウド101の音声テキスト変換部101−2で用いる音声認識辞書を変更する例の一覧である。
ホスト機器332は、複数の予約語を登録することが可能である。ホスト機器332は、ユーザ331が発した言葉を、登録された複数の予約語のいずれかであると認識した場合、その認識した予約語に応じて音声認識クラウド101の音声テキスト変換部101−2で用いる音声からテキストに変換するための音声認識辞書を変更することができる。例えば図21Aおよび図21Bに示すように、ホスト機器332は、予約語として「こんにちは」「Hello」「おおきに」の3つを登録しているものとする。この場合ホスト機器332は、予約語「こんにちは」を認識した場合は、音声認識クラウド101の音声テキスト変換部101−2で用いる音声認識辞書を日本語辞書に変更するように命令を出すことができる。また、予約語「Hello」を認識した場合は、ホスト機器332は、音声認識クラウド101の音声テキスト変換部101−2に対して、音声認識辞書の種類を英語辞書に変更するように命令を出すことができる。さらにまた、予約語「おおきに」を認識した場合は、ホスト機器332は、音声認識クラウド101の音声テキスト変換部101−2で用いる音声認識辞書の種類を方言辞書(関西弁)に変更するように命令を出すことができる。
ホスト機器332が認識した予約語に応じて音声認識クラウド101の音声テキスト変換部101−2で用いる音声認識辞書の種類を変えるためには、ユーザ331は、ホスト機器332に対して予約語を登録する際に、予約語に対応して音声テキスト変換部101−2で使用する音声認識辞書の種類(以降付加情報3と呼ぶ)をあわせて登録する必要がある。
予約語に対応する音声認識辞書の種類(付加情報3)を、予約語の登録とあわせて登録する処理シーケンスは、図15Aおよび図15Bに示す予約語に対して付加情報1を登録する処理シーケンスと同一であり、表示部425に表示されるメニュー画面で付加情報1を入力する(S1516)代わりに、付加情報3の入力画面を選択して入力すればよい。以降、図15BのS1514以降の処理を用いて、付加情報3を登録する処理の流れについて説明する。図15BのS1514以降に記載されている付加情報1は、付加情報3と読み替えて説明する。
ユーザ331に付加情報3の入力を促すためにLEDが緑色点滅する(S1514)と、表示部425に付加情報3を登録するためのメニューが表示される。ユーザ331は、表示されたメニュー画面に従って付加情報3の入力操作することで、付加情報3として辞書の種類を選択することができる。作成が完了し付加情報3は、入力管理部420に取り込まれる(S1516)。入力管理部420は、取り込んだ付加情報3をトリガー設定部403に転送する。トリガー設定部403は、転送された付加情報3をメモリ410の予約語保存エリア410−2に保存する。
なおトリガー設定部403は、付加情報3をメモリ410の予約語保存エリア410−2に保存する際にはS1513で登録した予約語と関連付けて保存する。
図21Aおよび図21Bは、図20に示したようにホスト機器332に予約語が複数登録された場合の、各予約語がホスト機器332で認識された場合に、音声テキスト変換部101−2で使用する音声認識辞書の種類を変更するシーケンス例を示している。図21Aおよび図21Bに示すS2100からS2113の処理は、それぞれ図16Aおよび図16Bに示すS1600からS1613の処理と同一である。図21Aおよび図21Bにおける処理の図16Aおよび図16Bの処理との相違点は、図16Aおよび図16Bの処理の場合は、トリガー認識部403が付加情報1を読み出した後、その付加情報1の内容に基づいてホスト機器332の動作の設定を行う(S1614)のに対して、図21Aおよび図21Bの場合は、トリガー認識部403が付加情報3を読み出した後、その付加情報3の内容に基づいて音声テキスト変換部101−2で使用する音声認識辞書の種類を変えるために音声テキスト変換部101−2とのやり取りを行う(S2114−1からS2114−3)点である。
なお、予約語の認識及び音声認識辞書の変更が完了したことをユーザに対して知らせる表示は、トリガー設定部403が表示装置425に対して登録完了通知を送信(S2109)し、その登録完了通知を受信した表示装置425が例えばLEDを緑色で点灯させる、というようにユーザ331が認識できる表示方法で行うことが望ましい。或いはトリガー認識部405は、スピーカ423に対して認識完了通知を送付することで、その認識完了通知を受け取ったスピーカ423が例えば「はいはいなんでしょうか?。ところで、音声認識の辞書は方言辞書(関西弁)に変えましたよ」とユーザ331に対して音声によりアナウンスする方法でもよい。或いはトリガー認識部405は、予約語の認識と認識した予約語に対応した音声認識辞書の変更とが完了したことをユーザ331に対して通知するに、表示装置425を用いた表示による方法とスピーカ423を用いた音声による方法の両方を用いてもよい。
なお、図14に示す予約語に対応する動作内容(付加情報1)、図17(A)(B)に示す予約語に対する付加語ごとの動作内容(付加情報2)、及び図20に示す予約語に対する音声認識辞書の種類(付加情報3)は、組み合わせて登録を行うことができる。
図22は、図14に示す予約語に対応する動作内容の登録、図17(A)に示す予約語に対する付加語の登録、付加語に対する動作内容の登録及び図20に示す予約語に対する音声認識辞書の種類の登録を組み合わせて行う場合の組み合わせの一覧である。ホスト機器332は、例えば予約語「こんにちは」に対しては、音声認識辞書の種類として日本語辞書を使用するように設定する。ホスト機器332は、また予約語「こんにちは」に対して付加語として「ちゃん」「や」「おい」を登録し、付加語が「ちゃん」の場合は応答する際のトーンを上げるようにホスト機器332の動作内容を変更し、付加語が「や」の場合は入力間隔確認タイマTの満了時間T0を長くするように設定内容を変更し、また付加語が「おい」の場合は、「申し訳ございません」とすぐにアナウンスするように動作内容をする。
図23は、予約語以外の内容(以降変更条件と呼ぶ)に応じてテキスト変換部101−2で使用する音声認識辞書の種類を変更する例の一覧である。例えば図23(A)は、変更条件として時刻を設定した場合の例である。ホスト機器332は、音声認識クラウド101のテキスト変換部101−2が音声データをテキストに変換する際に使用する音声認識辞書の種類を、その音声認識辞書を使用する時間によって変更するように指示する例を示している。
ホスト機器332は、例えば、時刻05:00から08:00までは家族一般用辞書を使用し、時刻08:00から16:00までは奥様用辞書を使用し、時刻16:00から20:00までは家族一般用辞書を使用し、時刻20:00から05:00までは大人用辞書を使用するように、インターネット2を通じてテキスト変換部101−2に指示する。
また図23(B)は、変更条件=ホスト機器332の動作ステータスとした場合の例である。ホスト機器332は、テキスト変換部101−2が使用する音声認識辞書の種類を、その音声認識辞書を使用する際のホスト機器332の動作ステータスの種類によって変更するように指示することができる。
ホスト機器332は、例えば、動作ステータス=今から出勤の時は時刻・ルート検索辞書を使用し、動作ステータス=外出の時は一般辞書を使用し、動作ステータス=夜モードの時はリフレッシュ辞書を使用するように、インターネット2を通じてテキスト変換部101−2に指示する。
ホスト機器332は、条件に応じて使用する音声認識辞書の種類の情報である、変更条件種類情報を登録するモード(以降変更条件登録モードと呼ぶ)以降を有している。
ユーザ331は、変更条件に応じて音声認識辞書の種類を使い分けるために、変更条件種類情報をホスト機器332に予め登録する必要がある。
変更条件に応じて音声認識辞書の種類を使い分けるための登録方法は、ユーザ331が発した音声をマイク421を通じてホスト機器332が取り込み、その取り込んだ音声データを解析することで、登録できるようにしてもよい。或いはまた表示装置425に、付加情報1を設定するメニューを表示させ、ユーザ331がそのメニューに従って操作することで登録できるようにしてもよい。或いは図4に示すネットワークI/F427を経由して接続されている外部のデバイス、例えばスマートフォンやタブレットを用いて、そのスマートフォンやタブレットの表示画面に予約語に付加情報1を設定するメニューを表示さ、ユーザ331がその表示されたメニュー画面に従って操作することで登録できるようにしてもよい。
図24は、表示部425に表示された変更条件種類情報を設定するメニューを表示させ、ユーザ331がそのメニューに従って操作することで変更条件に応じて使い分ける音声認識辞書の種類を登録する場合の処理シーケンスの例である。図24に示すS2417からS2423の処理は、付加情報1の登録シーケンスである図15BのS1517からS1523の処理と同一である。
ユーザ331は、表示されたメニュー画面に従って操作することで、変更条件に応じて使い分ける音声認識辞書の種類を入力する。入力が完了した変更条件種類情報は、入力管理部420に取り込まれる(S2417)。入力管理部420は、取り込んだ変更条件種類情報をトリガー設定部403に転送する(S2418)。トリガー設定部403は、転送された変更条件種類情報をメモリ410の予約語保存エリア410−2に保存する(S2419)。
図25は、図23に示すように変更条件に応じて音声認識辞書の種類を変更するための変更条件種類情報がメモリ410の予約語保存エリア410−2に保存されている場合に、その保存されている変更条件種類情報の内容に応じて、ホスト機器332が音声テキスト変換部101−2に、音声認識辞書の変更を通知する場合の処理シーケンスの例である。
図25の処理は、例えば図9Bに示す予約語の認識の処理が終了した(S911)あとに、継続して行うことが望ましい。或いは、予約語の認識が行われた後に、図10Aおよび図10Bに示すように、機器やセンサを制御するためにユーザ331がホスト機器332に発した場合に、その言葉をホスト機器332が取り込んだタイミング(S1001)で行うことが望ましい。
図25は、図10Aおよび図10Bに示すように機器やセンサを制御するためにユーザ331がホスト機器332に言葉を発した場合に、その言葉をホスト機器332が取り込んだタイミング(S1001)で、音声認識辞書の変更の判定とその結果の通知を行う場合の例である。
予約語の認識が完了した場合、ホスト機器332は、継続してユーザの発した音声を、マイク421を通じて入力管理部420に取り込む(S2501)。入力管理部420は、音声データを取り込んだタイミングで、変更条件種類情報を読み出すために、音声処理部407に読み出し要求(変更条件種類情報)を送信する(S2502)とともに取り込んだ音声データに対する処理は一時停止する。読み出し要求(変更条件種類情報)を受信した音声処理部407は、メモリ410の予約語保存エリア410−2から、変更条件と音声認識辞書の種類の組み合わせが含まれている変更条件種類情報を読み出す(S2503)。音声処理部407は、読み出した変更条件種類情報の「変更条件」を解析し、その内容がホスト機器332の状態に適合しているかの判定を行う(S2504)。判定の結果適合していると判定された場合、音声処理部407は、「変更条件」に対応する「音声認識辞書の種類」を読み出し、音声認識辞書種類通知により変更後の音声認識辞書の種類をインターネット2を通じて音声テキスト変換部101−2に通知する(2505)。音声認識辞書種類通知を受信した音声テキスト変換部101−2は、通知された音声認識辞書の種類を参照し、現在使用中の音声認識辞書の種類を通知された音声認識辞書の種類に変更する(S2506)
音声テキスト変換部101−2は、音声認識辞書の種類の変更が完了すると、変更完了の通知として、音声処理部407に対して音声認識辞書変更完了通知を通知する(S2507)。
音声処理部407は、音声認識辞書変更完了通知を受信すると(S2507)、入力管理部420に対して、変更条件種類情報の読み出しが完了した旨の通知として、読み出し完了通知を送信する(S2508)。入力管理部420は、読み出し完了通知を受信する(S2508)と、S2501において取り込んでいた音声データに対する処理を再開する。
ユーザ331は、ホスト機器332に登録した予約語を忘れてしまう場合がある。そのような場合に備えて、ユーザ331は、登録済みの予約語を簡易な方法で確認できることが望ましい。
図26は、図5Aおよび図5Bに示す処理シーケンスの例で予約語を登録したユーザ331が、登録済みの予約語を忘れてしまった場合、登録済みの予約語の一部または全部をユーザ331に通知するための予約語(以降救済予約語と呼ぶ)と表示内容(表示範囲)の例の一覧を示している。例えば「わからない」という予約語に対しては、ホスト機器332に登録済みの予約語の全てを表示部425に表示する、或いはホスト機器に332に接続された外部のデバイスの表示エリアに表示する場合を示している。また「ちょっと教えて」という予約語に対しては、ホスト機器332に登録済みの予約語のうち予め決められた一部を表示部425に表示する、或いはホスト機器332に接続された外部のデバイスの表示エリアに表示する場合を示している。また「使ってないヤツ」という予約語に対しては、ホスト機器332に登録済みの予約語のうち使用履歴が過去1年間ない予約語を表示部425に表示する、或いはホスト機器332に接続された外部のデバイスの表示エリアに表示する場合を示している。ホスト機器332に接続された外部のデバイスとしては、例えばスマートフォンやタブレット、液晶テレビ等の表示画面が比較的大きくユーザが一度に多くの予約語を参照することができるデバイスであることが望ましい。
このように、登録済みの予約語を表示させるための予約語の登録は、ホスト機器のモード=設定モード(予約語(表示用))に変更して、図5Aおよび図5Bに示す予約語の登録の処理シーケンスに従って登録すればよい。
上記の例は、図26に示した「救済予約語」をユーザが発することで、すぐに該当する予約語が表示される例である。しかし、ホスト機器332が、該当する予約語を表示するまえに、ユーザ331に対して合言葉を聞くようにしてもよい。ユーザが「救済予約語」を発した後、ホスト機器332はスピーカ423を通じて例えば「山」と音声を発し、これに対して例えばユーザ331が「川」と応答したときに、該当する予約語を表示してもよい。
更に、ホスト機器332は、ユーザ331が発した言葉を取り込んで、予約語、付加語、あるいは付加情報を登録するシーンを録音あるいは録画することも出来る。あるいは、予約語、付加語、を認識した場合に、その認識するシーンを録音あるいは録画することもできる。
図27は、ホスト機器332が、ユーザ331が発した言葉を取り込んで、予約語、付加語、あるいは付加情報の登録、予約語あるいは付加語の認識、のシーンを録音あるいは録画する場合、ホスト機器332の機能ブロック図を示している。図4との違いは、ホスト機器2700が予約語、付加語、あるいは付加情報を登録するシーンを録画する、あるいは予約語あるいは付加語を認識するシーンを録画するためのカメラ2702を有する点、また制御管理部2701がAPP−Mg2701−1、CONF−Mg2701−2に加えEVT−Mg2701−3を有する点、システムコントローラ402が録音あるいは録画したシーンのデータを再生するための再生制御機能を有している点である。EVT−Mg2701−3は、予約語、付加語、あるいは付加情報を登録するシーンの発生、また、予約語、付加語、を認識するシーンの発生、に起因して後述する録音あるいは録画を行う機能を有している。以下、ホスト機器332が、ユーザ331が発した言葉を取り込んで、予約語、付加語、あるいは付加情報を登録するシーンを録音あるいは録画する処理の流れ、また予約語、付加語を認識するシーンを録音あるは録画する処理の流れ、について説明する。
図28は、予約語、付加語、あるいは付加情報を登録するシーンが発生したとき、あるいは、予約語、付加語、を認識するシーンが発生した場合に、登録のシーンあるいは認識のシーンをホスト機器332が録音あるいは録画する場合の時間経過を示している。
時刻t1において、ホスト機器332は、ユーザが発した言葉を予約語として登録を開始したとする。予約語の登録の開始は、例えば図5Aおよび図5Bの予約語の登録シーケンスにおける、入力管理部420がS502の処理を行うタイミングとしてもよい。入力管理部420は、予約語の登録の開始を認識すると、その旨をEVT−Mg2701−3に通知する。予約語の登録開始の旨の通知を受信したEVT−Mg2701―3は、マイク421を通じて予約語登録のシーンをRec1として録音する、あるいはカメラ2702を通じて予約語登録のシーンをRec1として録画する。予約語の登録の終了は、例えば図5Aおよび図5Bの予約語の登録シーケンスにおける、入力管理部420がS512の登録完了通知を受け取ったタイミングとしてもよい。予約語の登録の終了を把握した入力管理部420は、その旨とEVT−Mg2701−3に通知する。予約語の登録完了の旨を受信したEVT−Mg2701−3は、マイク421を通じて行っていた予約語登録のシーンの録音を終了させる、あるいはカメラ2702を通じて行っていた予約語登録のシーンの録画を終了させる。
同様に、時刻t2において、ホスト機器332はユーザが発した言葉を予約語として認識を開始したとする。予約語の認識の開始は、例えば図8Aおよび図8Bの予約語の認識シーケンスにおける、入力管理部420がS802の処理を行うタイミングとしてもよい。入力管理部420は、予約語の認識の開始を認識すると、その旨をEVT−Mg2701−3に通知する。予約語の認識開始の旨の通知を受信したEVT−Mg2701―3は、マイク421を通じて予約語認識のシーンをRec2として録音する、あるいはカメラ2702を通じて予約語認識のシーンをRec2として録画する。予約語の認識の終了は、例えば図8Aおよび図8Bの予約語の登録シーケンスにおける、入力管理部420がS811の認識完了通知を受け取ったタイミングとしてもよい。予約語の登録の終了を把握した入力管理部420は、その旨とEVT−Mg2701−3に通知する。予約語の登録完了の旨を受信したEVT−Mg2701−3は、マイク421を通じて行っていた予約語認識のシーンの録音を終了させる、あるいはカメラ2702を通じて行っていた予約語認識のシーンの録画を終了させる。
同様に、t3およびt4において発生した登録あるいは認識のイベントを録画あるいは録音する。
ホスト機器332は、録音または録画された登録のシーンまたは認識のシーンを再生することができる。
図29は、録画あるいは録音されたシーンの各データを再生する際に、再生対象のデータが表示されている様子の一例を示している。図29の例では、図28の時間軸に対するイベントの発生する様子に対応する形で、4つの再生対象のデータのアイコンが表示されている。この再生対象のデータのアイコン表示は、例えば表示部425に表示されてもよい。あるいはホスト機器332に接続された外部デバイス、例えばスマートフォンやタブレット、液晶テレビ等に表示されてもよい。
表示されているアイコンは、録音または録画された日時と、録画または録音の対象のデータの内容を表している。例えばアイコンの表示内容が、予約語登録「おおきに」の場合は、録画または録音されているデータの内容が、「おおきに」を予約語として登録したシーンであることを示している。同様にアイコンの表示内容が、予約語認識「おおきに」の場合は、録画または録音されているデータの内容が、「おおきに」を予約語として認識したシーンであることを示している。
ユーザ331は、再生したいデータのアイコンを選択することが、対象となるデータの録音または録画された内容を確認することが出来る。
更にまたホスト機器332は、ネットワーク333で接続されているカメラやマイクに指示を出し、これらのカメラやマイクにより、予約語、付加語、あるいは付加情報を登録するシーンが発生した場合に、あるいは、予約語、付加語、を認識するシーンが発生した場合に、登録のシーンあるいは認識のシーンを録音あるいは録画してもよい。
既に説明したようにホスト機器332は、ユーザ331が発した言葉の中から予約語を認識することで、その予約語に対応した付加情報の内容をもとに、ネットワークで接続された機器やセンサを制御することが出来る。この対象となる機器やセンサの制御内容は、高いセキュリティを必要とする場合もある。例えば、金庫の扉の開閉の制御をホスト機器を用いて実施できるように、ホスト機器332に付加情報として金庫の扉の開閉動作が設定されている予約語が登録されているとする。この場合、ホスト機器332は、該当する予約語を認識した場合、金庫の扉の開閉を行うとともに、金庫の周辺にあるマイクやカメラを用いて、制御対象の機器である金庫の周辺を録音あるいは録画することで、金庫の扉の開閉動作のセキュリティを保つことが可能となる。ユーザ331は、ネットワークで接続されたマイクやカメラを用いて録音あるいは録画されたデータも、ホスト機器332に内蔵されているマイクやカメラを用いて録音あるいは録画されたデータ同様に、その内容を確認することが出来る。 ホスト機器332による制御対象となる機器やセンサの制御内容が高いセキュリティを必要とする場合、ホスト機器332は更にまた、制御内容を実施するまえに、制御対象の機器やセンサの周辺にあるマイクやカメラを用いて録音した音声や録画した映像を用いて、録音された音声を発した人物あるいは録画された映像の人物の正当性確認を行ってもよい。ホスト機器332は、特定の付加情報における制御内容を実行する前に、あらかじめ登録してある特定人物の声や顔などの特徴点と、制御対象の機器やセンサの周辺にあるマイクやカメラを用いて集音された音声や撮影された映像とを比較し、該当人物の正当性が確認された場合のみ、該当する制御内容を実行するようにしてもよい。
以上の実施形態の説明は、認識用データ変換部101−1、音声テキスト変換部101−2、テキスト分析部102−1、応答・アクション生成部102−2が、いずれもクラウドサーバ1の中に存在しているものとして説明したが、これらの一部あるいは全てがホスト機器332の中に存在していても構わない。その場合も、既に説明した各処理の動作シーケンスの例は、記載済みのものと同様となる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。