JP6725006B2

JP6725006B2 - 制御装置および機器制御システム

Info

Publication number: JP6725006B2
Application number: JP2018553628A
Authority: JP
Inventors: 須山　明彦; 明彦須山; 田中　克明; 克明田中
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2020-07-15
Anticipated expiration: 2036-12-02
Also published as: WO2018100743A1; JPWO2018100743A1; US20180182399A1

Description

本発明は、制御装置および機器制御システムに関する。

ユーザが発話した音声を音声認識することにより制御対象機器（ＴＶやオーディオ機器等）を制御する機器制御システムが知られている。このような機器制御システムでは、音声認識処理を実行する音声認識サーバを用いて、ユーザが発話した音声から制御対象機器を動作させるための制御コマンドを生成している。

特開２０１４−７８００７号公報特表２０１６−５０１３９１号公報特開２０１１−２３２５２１号公報

上述のような音声認識サーバを用いた機器制御を行う場合、制御対象となる制御対象機器の指定、その制御内容をユーザが逐一発話しなくてはならない。そこで、ユーザが制御対象機器の指定や制御内容をすべて発話しなくても制御対象機器を制御することができれば、ユーザにとって利便性が向上すると考えられる。例えば、いつも同じ制御対象機器を動作させる場合に制御対象機器の指定を省略できれば、ユーザの発話量を減らすことができユーザの利便性が向上する。また、ユーザが発話できない状況において発話せずに制御対象機器を動作させることができればユーザの利便性が向上する。

上記課題を解決するために、本発明の目的は、音声認識サーバを用いた機器制御を行う制御装置および機器制御システムであって、ユーザが制御内容をすべて発話しなくても制御対象機器を制御することのできる制御装置および機器制御システムを提供することにある。

上記課題を解決するために、本発明に係る制御装置は、ユーザによる制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、を含む。

また、本発明に係る機器制御システムは、第１制御装置と、第２制御装置と、制御対象機器と、を含む機器制御システムであって、前記第１制御装置は、ユーザによる前記制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、を含み、前記第２制御装置は、前記音声認識サーバで実行された音声認識処理の認識結果に基づいて、前記制御対象機器を動作させるための制御コマンドを生成する制御コマンド生成部と、前記制御コマンドに従って前記制御対象機器を制御する機器制御部と、を含む。

本発明によれば、音声認識サーバを用いた機器制御を行う制御装置および機器制御システムにおいて、ユーザが制御内容をすべて発話しなくても制御対象機器を制御することが可能となる。

本発明の第１実施形態に係る機器制御システムの全体構成の一例を示す図である。第１実施形態に係る第１制御装置と、第２制御装置と、音声認識サーバと、により実行される機能の一例を示す機能ブロック図である。第１実施形態に係る関連付け情報の一例を示す図である。第１実施形態に係る機器制御システムが実行する処理の一例を示すシーケンス図である。第２実施形態の第１の例に係る第１制御装置と、第２制御装置と、音声認識サーバと、により実行される機能の一例を示す機能ブロック図である。第１制御装置の表示部に表示される操作指示画面の一例を示す図である。第２実施形態に係る補助音声情報記憶部の一例を示す図である。第２実施形態の第２の例に係る第１制御装置と、第２制御装置と、音声認識サーバと、により実行される機能の一例を示す機能ブロック図である。第２実施形態の第２の例に係る機器制御システムが実行する処理の一例を示すシーケンス図である。第１実施形態に係る第１制御装置と、第２制御装置と、音声認識サーバと、により実行される機能の一例を示す機能ブロック図である。第２実施形態に係る第１制御装置と、第２制御装置と、音声認識サーバと、により実行される機能の一例を示す機能ブロック図である。

以下、本発明の実施形態について図面を参照しながら説明する。図面では同一または同等の要素に同一の符号を付し、重複する説明を省略する。

［第１実施形態］
図１は、本発明の第１実施形態に係る機器制御システム１の全体構成の一例を示す図である。図１に示すように、第１実施形態に係る機器制御システム１は、第１制御装置１０と、第２制御装置２０と、音声認識サーバ３０と、制御対象機器４０（制御対象機器４０Ａ、制御対象機器４０Ｂ）と、を含んで構成されている。第１制御装置１０と、第２制御装置２０と、音声認識サーバ３０と、制御対象機器４０とは、ＬＡＮやインターネットなどの通信手段に接続されており、互いに通信されるようになっている。

第１制御装置１０（本発明の制御装置の一例に相当）は、制御対象機器４０を制御するためのユーザからの各種指示を受け付ける装置であって、例えば、スマートフォン、タブレット、パーソナルコンピュータ等によって実現される。なお、第１制御装置１０は、このような汎用装置に限定されず、専用装置として実現されてもよい。第１制御装置１０は、第１制御装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである制御部、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部、ユーザによる操作入力を受け付ける操作部と、ユーザが発する音声を集音するマイクロホンユニットなどである集音部などを含んでいる。

第２制御装置２０は、制御対象機器４０を制御するための装置であって、例えば、クラウドサーバ等によって実現される。第２制御装置２０は、第２制御装置２０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである制御部、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部などを含んでいる。

音声認識サーバ３０は、音声認識処理を実行する装置であって、例えば、クラウドサーバ等によって実現される。音声認識サーバ３０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである制御部、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部などを含んでいる。

制御対象機器４０は、ユーザが制御する対象となる機器である。制御対象機器４０は、例えば、オーディオ機器またはオーディオビジュアル機器であり、ユーザからの指示に応じてコンテンツ（音声や映像）の再生等を行う。なお、制御対象機器４０は、オーディオ機器またはオーディオビジュアル機器に限定されず、照明機器等他の用途に用いられる機器であってもよい。なお、図１では、２つの制御対象機器４０（制御対象機器４０Ａ、制御対象機器４０）が含まれているが、３つ以上の制御対象機器４０が含まれていてもよいし、１つの制御対象機器４０が含まれていてもよい。

図２は、第１実施形態に係る第１制御装置１０と、第２制御装置２０と、音声認識サーバ３０とにより実行される機能の一例を示す機能ブロック図である。図２に示すように、第１実施形態に係る第１制御装置１０は、機能的に、ユーザ指示取得部２１と、制御音声情報生成部２３と、制御音声情報出力部２５と、補助音声情報記憶部２６と、を含んで構成されている。これらの機能は、第１制御装置１０の記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、通信ネットワークを介して提供されてもよい。補助音声情報記憶部２６は、第１制御装置１０の記憶部により実現される。なお、補助音声情報記憶部２６は、外部の記憶装置により実現されてもよい。

また、第１実施形態に係る第２制御装置２０は、機能的に、制御コマンド生成部２７と、機器制御部２８を含んで構成されている。これらの機能は、第２制御装置２０の記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、通信ネットワークを介して提供されてもよい。

また、第１実施形態に係る音声認識サーバ３０は、機能的に、音声認識処理部３１を含んで構成されている。この機能は、音声認識サーバ３０の記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、通信ネットワークを介して提供されてもよい。

第１制御装置１０のユーザ指示取得部２１は、ユーザによるユーザ指示を取得する。具体的には、ユーザ指示取得部２１は、ユーザによる制御対象機器４０を制御するためのユーザ指示を取得する。第１実施形態では、ユーザが第１制御装置１０の集音部に対して発話することで、ユーザ指示取得部２１はユーザの発話した音声（以下、発話音声情報とする）をユーザ指示として取得する。以下、第１実施形態におけるユーザ指示は、発話音声情報として説明する。

第１制御装置１０の制御音声情報生成部２３は、ユーザ指示取得部２１が取得したユーザ指示に応じて、制御対象機器４０に対する制御内容を示す音声情報である制御音声情報を生成する。具体的には、制御音声情報生成部２３は、ユーザ指示取得部２１がユーザ指示を取得することで、制御対象機器４０に対する制御内容を示す制御音声情報を生成する。制御音声情報は、音声認識処理が可能な音声情報から構成されており、ユーザ指示とは異なる情報である補助音声情報を含んでいる。補助音声情報は、予め補助音声情報記憶部２６に記憶されている。なお、ユーザ指示取得部２１がユーザ指示を取得する毎に、予め定められた補助音声情報が生成されてもよい。

ここで、一般的に、音声認識により制御対象機器４０を制御するためには、ユーザは、制御対象機器４０を特定する情報と、制御対象機器４０の動作を示す情報と、を含むユーザ指示を出す必要がある。したがって、例えばリビングにあるオーディオ機器でプレイリスト１を再生したい場合には、ユーザは「リビングでプレイリスト１を再生」と発話することとなる。この例では、「リビングで」が制御対象機器４０を特定する情報となり、「プレイリスト１を再生」が制御対象機器４０の動作を示す情報となる。ここで、ユーザが常にリビングにあるオーディオ機器を使用している場合には、「リビングで」の発話を省略したり、ユーザが常にプレイリスト１を再生する場合には、「プレイリスト１を」の発話を省略したりできれば、ユーザにとって利便性が向上する。このように、ユーザ指示の少なくとも一部を省略することができれば、ユーザにとって利便性が向上する。この点、第１実施形態においては、ユーザ指示の一部を省略可能な構成としている。以下、ユーザが「リビングで」といった制御対象機器４０を特定する情報の発話を省略する場合を例にして説明するが、制御対象機器４０の動作を示す情報の発話を省略する場合にも同様に適用できる。

ユーザ指示の一部を省略可能にするため、第１実施形態に係る第１制御装置１０の制御音声情報生成部２３は、発話音声情報に、補助音声情報を付加した制御音声情報を生成している。補助音声情報は、予め補助音声情報記憶部２６に記憶された音声情報である。制御音声情報生成部２３は、補助音声情報記憶部２６から補助音声情報を取得して発話音声情報に付加する。補助音声情報記憶部２６に記憶されている補助音声情報は、予めユーザが発話した音声情報であってもよいし、予め音声合成により生成した音声情報であってもよい。例えば、ユーザが制御対象機器４０を特定する情報の発話を省略する場合には、制御対象機器４０を特定する音声情報（ここでは、「リビングで」とする）を補助音声情報として補助音声情報記憶部２６に記憶しておく。そして、ユーザが「プレイリスト１を再生」と発話すると、発話音声情報「プレイリスト１を再生」に、補助音声情報「リビングで」が付加された制御音声情報「プレイリスト１を再生リビングで」が生成される。つまり、ユーザが発話を省略した制御対象機器４０を特定する情報が、補助音声情報として発話音声情報に付加される。

ここで、補助音声情報として、「リビングで」といった制御対象機器４０が設置されている場所を示す場所情報を用いているが、この例に限定されず、制御対象機器４０を一意に特定できる情報であればよい。例えば、制御対象機器４０を一意に識別できる機器識別情報（ＭＡＣアドレス、機器番号等）や、制御対象機器４０の所有者を示すユーザ情報であってもよい。

また、補助音声情報記憶部２６には、複数の補助音声情報が記憶されていてもよい。具体的には、複数のユーザそれぞれに対応する複数の補助音声情報が記憶されていてもよい。この場合、制御音声情報生成部２３は、ユーザ指示を行ったユーザを特定し、特定したユーザに対応する補助音声情報を取得してもよい。ユーザの特定方法としては、発話音声情報の音声認識によりユーザを特定してもよいし、ユーザにシステムへのログイン操作を行わせることでユーザを特定してもよい。

また、補助音声情報は、予め補助音声情報記憶部２６に記憶されている例に限定されず、制御音声情報生成部２３が、ユーザ指示に応じて音声合成により生成してもよい。この場合、ユーザ指示に応じて生成される補助音声情報が定められており、上述の例でいえば、ユーザ指示を取得すると、制御音声情報生成部２３は補助音声情報「リビングで」を生成する。なお、制御音声情報生成部２３が、ユーザ指示を行ったユーザを特定し、特定したユーザに対応する補助音声情報を生成してもよい。

第１制御装置１０の制御音声情報出力部２５は、制御音声情報生成部２３が生成した制御音声情報を、音声認識処理を実行する音声認識サーバ３０へ出力する。

音声認識サーバ３０の音声認識処理部３１は、第１制御装置１０から出力された制御音声情報に対して音声認識処理を実行する。そして、音声認識処理部３１は、音声認識処理を実行した認識結果を第２制御装置２０へ出力する。ここで、認識結果は、制御音声情報を音声認識により文字列に変換したテキスト情報とする。なお、認識結果は、テキスト情報に限定されず、第２制御装置２０がその内容を認識できる形態であればよい。

第２制御装置２０の制御コマンド生成部２７は、音声認識サーバ３０において実行された音声認識の認識結果に基づいて、制御対象機器４０と制御内容とを特定する。そして、特定した制御対象機器４０を、特定した制御内容で動作させるための制御コマンドを生成する。制御コマンドは、特定した制御対象機器４０で処理可能な形式で生成される。例えば、制御音声情報「プレイリスト１を再生リビングで」を音声認識して得られた認識文字列「プレイリスト１を再生リビングで」から、制御対象機器４０と、制御内容とを特定する。ここで、第２制御装置２０には、制御対象機器４０ごとに、制御対象機器４０に対応する単語（場所、機器番号、ユーザ名など）を関連付けた、関連付け情報が予め記憶されていることとする。図３は、第１実施形態に係る関連付け情報の一例を示す図である。制御コマンド生成部２７は、図３に示すような関連付け情報を参照することで、認識文字列に含まれる単語から制御対象機器４０を特定することができる。例えば、制御コマンド生成部２７は、認識文字列に含まれる単語「リビングで」から機器Ａを特定することができる。また、制御コマンド生成部２７は、公知の自然言語処理を用いて、認識文字列から制御内容を特定することができる。

第２制御装置２０の機器制御部２８は、制御コマンドに従って制御対象機器４０を制御する。具体的には、機器制御部２８は、特定した制御対象機器４０に対して制御コマンドを送信する。そして、制御対象機器４０は、第２制御装置２０から送信された制御コマンドに従って処理を実行する。なお、制御対象機器４０が第２制御装置２０に対して制御コマンドの取得要求を送信してもよい。そして、第２制御装置２０が、取得要求に応じて制御対象機器４０に対して制御コマンドを送信してもよい。

なお、音声認識サーバ３０が、音声認識処理により制御対象機器４０と制御内容とを特定し、特定した情報を認識結果として第２制御装置２０へ出力してもよい。

第１実施形態では、音声認識サーバ３０において音声認識を行うため、第１制御装置１０では、ユーザ指示を取得した段階でユーザ指示の具体的内容まで把握することはできない。したがって、制御音声情報生成部２３は、ユーザが発話した内容によらず、予め定められた補助音声情報を発話音声情報に付加するだけである。例えばユーザが「ベッドルームでプレイリスト１を再生」と発話した場合には、制御音声情報生成部２３は、発話音声情報「ベッドルームでプレイリスト１を再生」に、補助音声情報「リビングで」を付加した制御音声情報「ベッドルームでプレイリスト１を再生リビングで」を生成することとなる。このような制御音声情報を音声認識して得られる認識文字列を解析すると、制御の対象となる制御対象機器４０が複数特定されてしまい、ベッドルームの機器Ｂで再生するのか、リビングの機器Ａで再生するのか、判別できない。そこで、制御の対象となる制御対象機器４０が複数特定される場合にも１の制御対象機器４０を特定できるように、発話音声情報に対して補助音声情報を付加する位置が定められていることとする。具体的には、制御音声情報生成部２３は、発話音声情報の先頭または末尾に補助音声情報を付加する。そして、制御音声情報生成部２３が発話音声情報の末尾に補助音声情報を付加する場合には、制御コマンド生成部２７は、制御音声情報を音声認識して得られる認識文字列において、最先に出現する制御対象機器４０に対応する単語から制御対象機器４０を特定する。また、制御音声情報生成部２３が発話音声情報の先頭に補助音声情報を付加する場合には、制御コマンド生成部２７は、制御音声情報を音声認識して得られる認識文字列において、最後に出現する制御対象機器４０に対応する単語から制御対象機器４０を特定する。これにより、制御の対象となる制御対象機器４０が複数特定される場合にも１の制御対象機器４０を特定することができる。さらには、ユーザが発話した内容を優先して制御対象機器４０を特定することができる。

なお、制御音声情報生成部２３が発話音声情報の末尾に補助音声情報を付加する場合に、制御コマンド生成部２７は、制御音声情報を音声認識して得られる文字列において、最後に出現する制御対象機器４０を制御対象として特定してもよい。また、制御音声情報生成部２３が発話音声情報の先頭に補助音声情報を付加する場合に、制御コマンド生成部２７は、制御音声情報を音声認識して得られる文字列において、最先に出現する制御対象機器４０を制御対象として特定してもよい。これにより、補助音声情報の内容を優先して制御対象機器４０を特定することができる。

なお、第１制御装置１０において発話音声情報の音声認識を行えてもよい。この場合、制御音声情報生成部２３が、発話音声情報に対して音声認識を行うことにより、発話音声情報に制御対象機器４０を特定可能な情報が含まれるか否かを判断する判断部を含んでいてもよい。そして、発話音声情報に制御対象機器４０を特定可能な情報が含まれないと判断された場合に、制御音声情報生成部２３は、発話音声情報に補助音声情報を付加して制御音声情報を生成してもよい。これにより、制御音声情報を音声認識して得られる認識文字列の解析において、制御対象となる制御対象機器４０が複数特定されることを防ぐことができる。

ここで、第１実施形態に係る機器制御システム１が実行する処理の一例を図４のシーケンス図を用いて説明する。

第１制御装置１０のユーザ指示取得部２１は、ユーザからのユーザ指示（第１実施形態においては発話音声情報）を取得する（Ｓ１０１）。

第１制御装置１０の制御音声情報生成部２３は、Ｓ１０１において取得したユーザ指示に応じて制御音声情報を生成する（Ｓ１０２）。第１実施形態においては、Ｓ１０１において取得した発話音声情報に、補助音声情報を付加した制御音声情報を生成する。

第１制御装置１０の制御音声情報出力部２５は、Ｓ１０２において生成された制御音声情報を音声認識サーバ３０へ出力する（Ｓ１０３）。

音声認識サーバ３０の音声認識処理部３１は、第１制御装置１０から出力された制御音声情報に対して音声認識処理を実行し、その認識結果を第２制御装置２０へ出力する（Ｓ１０４）。

第２制御装置２０の制御コマンド生成部２７は、音声認識サーバ３０から出力された認識結果に基づいて、制御対象となる制御対象機器４０を特定し、当該制御対象機器４０を動作させるための制御コマンドを生成する（Ｓ１０５）。

第２制御装置２０の機器制御部２８は、Ｓ１０５において生成された制御コマンドを、特定した制御対象機器４０に対して送信する（Ｓ１０６）。

制御対象機器４０は、第２制御装置２０から送信された制御コマンドに従って処理を実行する（Ｓ１０７）。

［第２実施形態］
第２実施形態では、ユーザ指示取得部２１が、ユーザによる操作部に対する操作をユーザ指示として受け付ける場合について説明する。第２実施形態に係る機器制御システム１の全体構成は、図１に示した第１実施形態に係る構成と同一であるため、重複する説明は省略する。

図５は、第２実施形態の第１の例に係る第１制御装置１０と、第２制御装置２０と、音声認識サーバ３０と、により実行される機能の一例を示す機能ブロック図である。第２実施形態の第１の例に係る機能ブロック図は、図２に示した第１実施形態に係る機能ブロック図とは、第１制御装置１０の構成に差異がある点を除けば、同一のものである。従って、第１実施形態と同等の構成には同符号を付し、重複する説明は省略する。

第２実施形態の第１の例では、ユーザ指示取得部２１は、ユーザが第１制御装置１０の操作部に対して操作を行うことで、ユーザによる操作部に対する操作を示す情報（以下、操作指示情報）をユーザ指示として受け付ける。以下、第２実施形態におけるユーザ指示は、操作指示情報として説明する。例えば、第１制御装置１０の操作部として１以上のボタンが設けられている場合は、ユーザがいずれかのボタンを押下することで、ユーザ指示取得部２１が押下されたボタンを示す操作指示情報を受け付ける。なお、第１制御装置１０の操作部はボタンに限定されず、表示部に備えられるタッチパネルであってもよい。また、第１制御装置１０とは別体の携帯機器（例えば、スマートフォンとする）を用いて第１制御装置１０を遠隔操作してもよい。この場合は、スマートフォンでアプリケーションを実行することにより、図６に示すように操作指示画面６０が表示部に表示される。図６は、第１制御装置１０の表示部に表示される操作指示画面６０の一例を示す図である。操作指示画面６０は、ユーザからの操作を受け付ける項目画像６２（例えば、プリセット１、プリセット２、プリセット３）を含んでいる。項目画像６２は、第１制御装置１０のボタンに対応付けられている。そして、ユーザが、項目画像６２に対してタップ等の操作を行うことで、ユーザ指示取得部２１が操作対象となった項目画像６２を示す操作指示情報を受け付ける。なお、第１制御装置１０が表示を有する装置（例えば、スマートフォン）の場合は、図６に示したような操作指示画面６０を用いて、ユーザが操作を行えばよい。

第２実施形態の第１の例では、制御音声情報生成部２３は、操作指示情報に対応し、予め記憶部に記憶されている補助音声情報に基づいて制御音声情報を生成する。図７は、第２実施形態に係る補助音声情報記憶部２６の一例を示す図である。第２実施形態に係る補助音声情報記憶部２６では、図７に示すように、操作指示情報と、補助音声情報と、が対応付けられて管理されている。制御音声情報生成部２３は、図７に示す補助音声情報記憶部２６から、ユーザ指示取得部２１が取得した操作指示情報に対応付けられている補助音声情報を取得して制御音声情報を生成する。言い換えれば、制御音声情報生成部２３は、ユーザ指示取得部２１が取得した操作指示情報に対応付けられている補助音声情報を制御音声情報とする。なお、制御音声情報生成部２３は、操作指示情報に対応付けられている補助音声情報を再生して再度録音したものを制御音声情報として生成してもよい。このように、制御音声情報生成部２３が予め記憶されている補助音声情報をそのまま制御音声情報とすることで、ユーザの発話がなくても音声認識サーバ３０を用いた音声認識による機器制御を行うことが可能となる。

図５において補助音声情報は、第１制御装置１０の補助音声情報記憶部２６に記憶されているが、この例に限定されず、補助音声情報は、第１制御装置１０とは別体の携帯機器（スマートフォン等）に記憶されてもよい。補助音声情報が携帯機器に記憶されている場合は、携帯機器から第１制御装置１０へ補助音声情報を送信し、第１制御装置１０が受信した補助音声情報を制御音声情報として音声認識サーバ３０へ出力すればよい。また、補助音声情報は、他のクラウドサーバに記憶されてもよい。補助音声情報が他のクラウドサーバに記憶されている場合も、第１制御装置１０がクラウドサーバから補助音声情報を取得してから、音声認識サーバ３０へ出力すればよい。

第１制御装置１０の制御音声情報出力部２５は、制御音声情報生成部２３が生成した制御音声情報を、音声認識処理を実行する音声認識サーバ３０へ出力する。第２実施形態では、第１制御装置１０は、制御音声情報出力部２５が出力した制御音声情報が示す音声情報を履歴情報記憶部２９に保持しておく。第１制御装置１０は、制御音声情報を出力した時刻に対応付けて制御音声情報が示す音声情報を保持することで、制御音声情報の使用履歴を示す履歴情報を生成する。なお、制御音声情報出力部２５が出力した制御音声情報のうち、音声認識サーバ３０の音声認識処理部３１で音声認識処理が成功した制御音声情報を履歴情報として保持してもよい。これにより音声認識処理が成功する音声情報のみを履歴情報として保持しておくことができる。

ここで、第１制御装置１０の制御音声情報生成部２３は、履歴情報に保持されている音声情報に基づいて制御音声情報を生成してもよい。例えば、スマートフォン等の表示部に履歴情報を表示し、ユーザが履歴情報のいずれかを選択することで、第１制御装置１０のユーザ指示取得部２１が選択された履歴情報を操作指示情報として取得してもよい。そして、第１制御装置１０の制御音声情報生成部２３は、履歴情報記憶部２９からユーザが選択した履歴情報に対応する音声情報を取得して制御音声情報を生成してもよい。履歴情報から制御音声情報を生成することで、一度音声認識処理が成功した音声情報を制御音声情報とすることができるため、音声認識処理の失敗が生じにくくなる。

図７に示す補助音声情報記憶部２６で管理される補助音声情報は、第１制御装置１０の補助音声情報登録部１５により登録される。具体的には、補助音声情報登録部１５は、第１制御装置１０に設けられているボタンに対応付けて補助音声情報を登録する。ボタンが複数ある場合は、複数のボタンそれぞれに対応付けて補助音声情報を登録する。例えば、ユーザが第１制御装置１０のボタンを長押しし、当該ボタンに登録したい制御内容を発話することで、補助音声情報登録部１５が、当該ボタンを示す情報（例えば、プリセット１）と、発話した制御内容を示す音声情報（例えば、「リビングでプレイリスト１を再生」）とを対応付けて補助音声情報記憶部２６に登録する。ここで、プリセット１に既に補助音声情報が対応付けられている場合は、補助音声情報登録部１５は、最新の補助音声情報で上書きして登録する。また、ユーザが第１制御装置１０のボタンを長押しすることで履歴情報を呼び出してもよい。そして、ユーザが履歴情報から音声情報を選択することで、補助音声情報登録部１５が、当該ボタンを示す情報と、履歴情報から選択した音声情報とを対応付けて補助音声情報記憶部２６に登録してもよい。また、第１制御装置１０と相互に通信可能な第１制御装置１０とは別体の携帯機器（スマートフォン等）を用いて、第１制御装置１０に設けられているボタンに対応付けて補助音声情報を登録してもよい。

また、補助音声情報登録部１５は、履歴情報から補助音声情報を登録してもよい。具体的には、履歴情報を参照し、ユーザが登録したい音声情報を選択した後に、対応付ける操作指示情報を選択することで、補助音声情報登録部１５が、当該操作指示情報と履歴情報から選択した音声情報とを対応付けて補助音声情報記憶部２６に登録してもよい。

また、第１制御装置１０をスマートフォン等により遠隔操作する場合や、第１制御装置１０がスマートフォン等である場合は、スマートフォンで実行するアプリケーション上で登録を行うことができる。例えば、図５に示した操作指示画面において、ユーザが項目画像を長押しし、当該項目画像に登録したい制御内容を発話することで、補助音声情報登録部１５が、当該項目画像を示す情報（例えば、プリセット２）と、発話した制御内容を示す音声情報（例えば、「ベッドルームで電源ＯＦＦ」）とを対応付けて補助音声情報記憶部２６に登録する。ここで、プリセット２に既に補助音声情報が対応付けられている場合は、補助音声情報登録部１５は、最新の補助音声情報を上書きして登録する。また、ユーザが項目画像を長押しすることで履歴情報を呼び出してもよい。そして、ユーザが履歴情報から音声情報を選択することで、補助音声情報登録部１５が、当該項目画像を示す情報と、履歴情報から選択した音声情報とを対応付けて補助音声情報記憶部２６に登録してもよい。また、図６に示した操作指示画面における項目画像の名称（プリセット１、プリセット２、プリセット３）は、ユーザが任意に変更することができる。また名称を変更する際に、登録されている音声情報を再生させ内容を聞いて確認しながら名称を変更しても良い。

次に、第２実施形態の第２の例では、第１制御装置１０は制御音声情報生成部２３を含まない。図８は、第２実施形態の第２の例に係る第１制御装置１０と、第２制御装置２０と、音声認識サーバ３０と、により実行される機能の一例を示す機能ブロック図である。第２実施形態の第２の例に係る機能ブロック図は、図５に示した第２実施形態の第１の例に係る機能ブロック図とは、第１制御装置１０の構成に差異がある点を除けば、同一のものである。従って、第２実施形態の第１の例と同等の構成には同符号を付し、重複する説明は省略する。

第２実施形態の第２の例では、第１制御装置１０の制御音声情報出力部２５は、補助音声情報記憶部２６から、ユーザ指示取得部２１が取得した操作指示情報に対応付けられている補助音声情報を取得する。そして、制御音声情報出力部２５は、補助音声情報記憶部２６から取得した補助音声情報を音声認識サーバ３０へ出力する。つまり、制御音声情報出力部２５は、補助音声情報記憶部２６に記憶されている補助音声情報をそのまま制御音声情報として音声認識サーバ３０へ出力する。また、制御音声情報出力部２５は、履歴情報記憶部２９から取得した音声情報をそのまま制御音声情報として音声認識サーバ３０へ出力してもよい。このように、制御音声情報出力部２５が予め記憶されている補助音声情報をそのまま制御音声情報として出力することで、ユーザの発話がなくても音声認識サーバ３０を用いた音声認識による機器制御を行うことが可能となる。

ここで、第２実施形態の第２の例に係る機器制御システム１が実行する処理の一例を図９のシーケンス図を用いて説明する。

第１制御装置１０の補助音声情報登録部１５は、補助音声情報を補助音声情報記憶部２６に登録する（Ｓ２０１）。

第１制御装置１０のユーザ指示取得部２１は、ユーザからのユーザ指示（第２実施形態においては操作指示情報）を取得する（Ｓ２０２）。

第１制御装置１０の制御音声情報出力部２５は、補助音声情報記憶部２６から、Ｓ２０２において取得した操作指示情報に対応する補助音声情報を取得して、音声認識サーバ３０へ出力する（Ｓ２０３）。

音声認識サーバ３０の音声認識処理部３１は、第１制御装置１０から出力された制御音声情報に対して音声認識処理を実行し、その認識結果を第２制御装置２０へ出力する（Ｓ２０４）。

第２制御装置２０の制御コマンド生成部２７は、音声認識サーバ３０から出力された認識結果に基づいて、制御対象となる制御対象機器４０を特定し、当該制御対象機器４０を動作させるための制御コマンドを生成する（Ｓ２０５）。

第２制御装置２０の機器制御部２８は、Ｓ１０５において生成された制御コマンドを、特定した制御対象機器４０に対して送信する（Ｓ２０６）。

制御対象機器４０は、第２制御装置２０から送信された制御コマンドに従って処理を実行する（Ｓ２０７）。

このように、第２実施形態では、第１制御装置１０の操作部、アプリケーションの項目画像といった操作指示情報に対応付けて補助音声情報を予め登録しておくことで、ユーザはボタン操作をするだけで発話することなく制御対象機器４０を制御することが可能となる。これにより、ノイズの多い環境、声を発することができない環境や、制御対象機器４０が遠くにある場合でも、音声認識サーバを用いた音声認識による機器制御を実行することができる。

特に、クラウドサーバである第２制御装置２０および音声認識サーバ３０を介して、第１制御装置１０とは異なる機器に対する制御を行う場合や、タイマー制御、スケジュールが定められた制御を行う場合に、予め登録した補助音声情報を用いて制御することは有効である。第２制御装置２０および音声認識サーバ３０を介して機器を制御する場合、制御コマンドは第２制御装置２０から対象の機器に対してだけ送信されるため、第１制御装置１０は自装置とは異なる機器に対する制御コマンドを保持することができない。したがって、第１制御装置１０から自装置とは異なる機器を制御する場合には、制御コマンドを用いた制御をすることができないため、登録した補助音声情報を用いて制御することが有効である。

また、タイマー制御を行う場合や、スケジュールが定められた制御を行う場合には、制御指示が複雑になるため登録した補助音声情報を用いて制御することが有効である。例えば、「部屋の明かりをオフしてから、３０分後にテレビの電源ＯＮにして、チャンネルを２ｃｈに変更し、徐々に音量をあげる」といった時間情報が対応付けられた複数の動作を示す情報を含むユーザ指示（スケジュールが定められたユーザ指示）を、第１制御装置１０が１つの制御コマンドとして出力することは難しい。ここで、複数の動作は、１の制御対象機器４０における動作であってもよいし、複数の制御対象機器４０における動作であってもよい。しかし、第２制御装置２０および音声認識サーバ３０では、上述のようなスケジュールが定められたユーザ指示を音声情報として取得すれば、音声認識処理を実行することにより、定められたスケジュールに従って制御コマンドを各機器に送信することができる。したがって、時間情報が対応付けられた複数の動作を示す情報を含み、スケジュールが定められた制御を示す補助音声情報を予め登録しておくことで、本来第１制御装置１０からは指示できないような複雑なユーザ指示を容易に行うことが可能となる。

また、第２制御装置２０または音声認識サーバ３０の機能を指定するようなユーザ指示（例えば、「天気に応じた音楽を再生する」）も、第１制御装置１０が制御コマンドとして出力することは難しいため、補助音声情報として予め登録しておくことが有効である。

また、複雑な制御指示であっても、ユーザは発話するだけで補助音声情報として登録することができるのでユーザにとって利便性が高い。そして、登録された補助音声情報は、再生するだけでその制御内容を確認することができるので、制御内容の表示が難しい制御コマンドと比較してユーザにとって利便性が高い。

なお、本発明は、上述の実施形態に限定されるものではない。

例えば、第１実施形態において、第１制御装置１０は、ローカルサーバやクラウドサーバとして実現されてもよい。この場合、第１制御装置１０とは別体の、ユーザ指示を受け付ける受付装置５０が用いられる。図８は、第１実施形態に係る第１制御装置１０と、第２制御装置２０と、音声認識サーバ３０と、受付装置５０とにより実行される機能の一例を示す機能ブロック図である。図８に示すように、受付装置５０は、ユーザからのユーザ指示を受け付けるユーザ指示受付部５１を含んで構成されている。ユーザ指示受付部５１が、ユーザによるユーザ指示を受け付けると、ユーザ指示は第１制御装置１０へ送信される。第１制御装置１０のユーザ指示取得部２１は、受付装置５０から送信されたユーザ指示を取得する。

また、第２実施形態において、第１制御装置１０は、ローカルサーバやクラウドサーバとして実現されてもよい。この場合、第１制御装置１０とは別体の、ユーザ指示を受け付ける受付装置５０が用いられる。図９は、第２実施形態に係る第１制御装置１０と、第２制御装置２０と、音声認識サーバ３０と、受付装置５０とにより実行される機能の一例を示す機能ブロック図である。図９に示すように、受付装置５０は、ユーザからのユーザ指示を受け付けるユーザ指示受付部５１と、補助音声情報登録部１５とを含んで構成されている。ユーザ指示受付部５１が、ユーザによるユーザ指示を受け付けると、ユーザ指示は第１制御装置１０へ送信される。第１制御装置１０のユーザ指示取得部２１は、受付装置５０から送信されたユーザ指示を取得する。

また、上述の第１実施形態および第２実施形態では、第２制御装置２０と音声認識サーバ３０とが別体の装置である例を示したが、第２制御装置２０と音声認識サーバ３０とが一体の装置であってもよい。

また、上述の第１実施形態では、制御対象機器４０を特定する情報や、制御対象機器４０の動作を示す情報を補助音声情報としたが、この例に限定されない。例えば、補助音声情報は、ユーザが発話した方向を示す角度情報や、ユーザを識別するためのユーザ識別情報等であってもよい。そして、ユーザが発話下方向を示す角度情報を付加した制御音声情報が生成された場合は、当該角度情報に基づいて制御対象機器４０を制御することができる。例えば、制御対象機器４０に備えられるスピーカを角度情報に基づいてユーザが発話した方向に向けることができる。ユーザ識別情報を付加した制御音声情報が生成された場合は、ユーザ識別情報の音声認識結果に応じて制御対象機器４０を制御することができる。例えば、ユーザ識別情報によりユーザ識別が成功した場合は、制御対象機器４０にユーザ識別が成功したユーザ名を表示したり、ユーザ識別が成功したことを示すＬＥＤ点灯をしたりすることができる。

Claims

ユーザによる制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、
前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、
前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、
を含む制御装置。
前記ユーザ指示は、前記ユーザが発話した音声である発話音声情報であり、
前記制御音声情報生成部は、前記発話音声情報に前記補助音声情報を付加した前記制御音声情報を生成する、
請求項１に記載の制御装置。
前記制御音声情報は、前記発話音声情報の先頭または末尾に前記補助音声情報を付加して生成される、
請求項２に記載の制御装置。
前記発話音声情報に前記制御対象機器を特定可能な情報が含まれるか否かを判断する判断部、をさらに含み、
前記判断部が前記発話音声情報に前記制御対象機器を特定可能な情報が含まれないと判断した場合に、前記生成部は前記発話音声情報に前記補助音声情報を付加した前記制御音声情報を生成する、
請求項２または３に記載の制御装置。
前記補助音声情報は、前記制御対象機器を一意に特定する情報である、
請求項１から４のいずれか一項に記載の制御装置。
前記補助音声情報は、前記制御対象機器の動作を示す情報である、
請求項１から４のいずれか一項に記載の制御装置。
前記ユーザ指示は、前記ユーザによる操作部に対する操作を示す操作指示情報であり、
前記制御音声情報生成部は、前記操作指示情報に対応し、予め記憶部に記憶されている前記補助音声情報に基づいて前記制御音声情報を生成する、
請求項１に記載の制御装置。
前記操作指示情報と、前記補助音声情報とを対応付けて前記記憶部に登録する補助音声情報登録部、をさらに含む、
請求項７に記載の制御装置。
制御音声情報出力部が出力した制御音声情報を示す音声情報を保持する履歴情報記憶部、をさらに含み、
前記制御音声情報生成部は、前記履歴情報記憶部に保持されている音声情報に基づいて前記制御音声情報を生成する、
請求項７に記載の制御装置。
前記補助音声情報は、時間情報が対応付けられた複数の動作を示す情報を含む、
請求項７から９のいずれか一項に記載の制御装置。
前記制御音声情報が音声認識処理されることにより得られた制御コマンドに従って前記制御対象機器を制御する機器制御部、をさらに含む、
請求項１から８のいずれか一項に記載の制御装置。
前記制御対象機器は、オーディオ機器である、
請求項１から１１のいずれか一項に記載の制御装置。
第１制御装置と、第２制御装置と、制御対象機器と、を含む機器制御システムであって、
前記第１制御装置は、
ユーザによる前記制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、
前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、
前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、を含み、
前記第２制御装置は、
前記音声認識サーバで実行された音声認識処理の認識結果に基づいて、前記制御対象機器を動作させるための制御コマンドを生成する制御コマンド生成部と、
前記制御コマンドに従って前記制御対象機器を制御する機器制御部と、を含む、
機器制御システム。