JP2020134868A

JP2020134868A - 電子機器

Info

Publication number: JP2020134868A
Application number: JP2019031633A
Authority: JP
Inventors: 亮太土屋; Ryota Tsuchiya
Original assignee: Onkyo Corp
Current assignee: Onkyo Corp
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2020-08-31

Abstract

【課題】ユーザーが、容易に、音声コマンド受付状態にできる電子機器を提供すること。【解決手段】スピーカー装置１は、カメラ９と、ＳｏＣ２と、を備える。ＳｏＣ２は、カメラ９が撮影した画像を、音声コマンドの受付を開始するための音声コマンド開始画像として受け付ける。ＳｏＣ２は、カメラ９が撮影した画像が、音声コマンド開始画像である場合に、音声コマンドの受付を開始する。ユーザーは、例えば、音声コマンド開始画像として、自身の顔画像を登録する。【選択図】図１

Description

本発明は、音声認識機能を備える電子機器に関する。

音声認識機能を備える電子機器の中には、所定のキーワード（以下、「ホットワード」という。）を認識した後、音声コマンドを受け付けるようになっているものがある（例えば、特許文献１参照。）。特許文献１では、ホットワードとして、「オーケーコンピュータ」が記載されている（図１参照。）。

特開２０１７−０７６１１７号公報

しかしながら、ホットワードの認識後に、音声コマンドが受け付けられる場合、ユーザーは、音声コマンドを発声する前に、毎回、ホットワードを発声する必要があり、面倒である。また、電子機器が音楽再生している場合、ユーザーが、大きな声を出さなければ、電子機器がホットワードを認識できない場合がある。

本発明の目的は、ユーザーが、容易に、音声コマンド受付状態にできる電子機器を提供することである。

第１の発明の電子機器は、カメラと、制御部と、を備え、前記制御部は、前記カメラが撮影した画像が、所定の画像である場合に、音声コマンドの受付を開始することを特徴とする。

本発明では、制御部は、カメラが撮影した画像が、所定の画像である場合に、音声コマンドの受付を開始する。例えば、ユーザーは、所定の画像として、自身の顔画像を登録すれば、カメラに顔を向けるだけで、電子機器を、音声コマンドの受付状態とすることができる。このように、本発明によれば、ユーザーが、容易に、音声コマンド受け付け状態にできる電子機器を提供することができる。

第２の発明の電子機器は、第１の発明の電子機器において、前記制御部は、前記カメラが撮影した画像を、前記所定の画像として受け付けることを特徴とする。

第３の発明の電子機器は、第１又は第２の発明の電子機器において、前記所定の画像は、顔画像であることを特徴とする。

第４の発明のシステムは、第１〜第３のいずれかの発明の電子機器において、マイクをさらに備え、前記制御部は、前記マイクが集音した音声が、所定のキーワードである場合に、音声コマンドの受付を開始することを特徴とする。

本発明によれば、ユーザーが、容易に、音声コマンド受付状態にできる電子機器を提供することができる。

本発明の実施形態に係るスピーカー装置の構成を示すブロック図である。

以下、本発明の実施形態について説明する。図１は、本実施形態に係るスピーカー装置１を示すブロック図である。図１に示すように、スピーカー装置１（電子機器）は、ＳｏＣ（System on Chip）２、記憶部３、Ｄ／Ａコンバーター（以下、「ＤＡＣ」という。）４、増幅器５、スピーカー６、無線モジュール７、マイク８、カメラ９を備える。ＳｏＣ２（制御部）は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、メモリ等を有し、スピーカー装置１を構成する各部を制御する。記憶部３は、音楽サービスにアクセスするためのアプリケーション等を記憶するフラッシュメモリにより構成されている。ＤＡＣ４は、デジタルオーディオデータを、アナログオーディオデータにＤ／Ａ変換する。増幅器５は、ＤＡＣ４がＤ／Ａ変換したアナログオーディオデータを増幅する。スピーカー６は、増幅器５が増幅したアナログオーディオデータに基づいて、音声を出力する。

無線モジュール７は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格、Ｗｉ−Ｆｉ規格に従った無線通信を行うためのものである。ＳｏＣ２は、無線モジュール７を介して、楽曲を配信するサーバー等から、デジタルオーディオデータを受信する。

マイク８は、音声を集音する。ＳｏＣ２は、マイク８が集音した音声を、無線モジュール７を介して、サーバーに送信する。マイク８が集音した音声が、ホットワード（所定のキーワード）であった場合、ＳｏＣ２は、音声コマンドの受付を開始する。具体的には、サーバーは、音声認識機能を有しており、受信した音声が、ホットワードであった場合、音声コマンドの受付開始の指示（コマンド）を、スピーカー装置１に送信する。ＳｏＣ２は、無線モジュール７を介して、音声コマンドの受付開始の指示を受信した場合、音声コマンドの受付を開始する。なお、ホットワードの認識は、サーバーではなく、スピーカー装置１のＳｏＣ２により行われるようになっていてもよい。

また、サーバーは、受信した音声に応じたコマンド等をスピーカー装置１に返信する。ＳｏＣ２は、無線モジュール７を介して、サーバーが送信したコマンド等を受信する。例えば、ユーザーが「楽曲Ａを再生」と発話したとする。この場合、例えば、再生を意味するコマンド「Play」と、テキスト「楽曲Ａ」とが、サーバーからスピーカー装置１に送信される。

カメラ９は、画像を撮影する。ＳｏＣ２は、カメラ９が撮影した画像が、所定の画像（以下、「音声コマンド開始画像」という。）である場合に、音声コマンドの受付を開始する。また、ＳｏＣ２は、カメラ９が撮影した画像を、音声コマンドを開始するための音声コマンド開始画像として受け付ける。例えば、ユーザーは、音声により、スピーカー装置１を、音声コマンド開始画像の受付状態とすることができる。ＳｏＣ２は、所定のキーワードにより、音声コマンド開始画像の受付状態となり、カメラ９により撮影された画像を、音声コマンド開始画像として受け付ける。ユーザーは、所定のキーワードを発した後、例えば、カメラ８に顔を向けることで、顔画像を、音声コマンド開始画像として登録することができる。

ＳｏＣ２は、受け付けた音声コマンド開始画像がユーザーの顔画像であれば、カメラ９が撮影した画像が、ユーザーの顔画像である場合、音声コマンドの受付を開始する。なお、カメラ９が撮影した音声コマンド開始画像は、記憶部３に記憶されており、ＳｏＣ２が、カメラ９が撮影した画像が音声コマンド開始画像であるか否かを判断し、カメラ９が撮影した画像が音声コマンド開始画像である場合に、音声コマンドの受付を開始するようになっていてもよい。また、カメラ９が撮影した音声コマンド開始画像は、サーバーに記憶されており、ＳｏＣ２は、カメラ９が撮影した画像を、無線モジュール７を介して、サーバーに送信し、サーバーは、受信した画像が、音声コマンド開始画像であった場合、音声コマンドの受付開始の指示（コマンド）を、スピーカー装置１に送信し、ＳｏＣ２は、無線モジュール７を介して、音声コマンドの受付開始の指示を受信した場合、音声コマンドの受付を開始するようになっていてもよい。

以上説明したように、本実施形態では、ＳｏＣ２は、カメラ９が撮影した画像が、音声コマンド開始画像である場合に、音声コマンドの受付を開始する。例えば、ユーザーは、音声コマンド開始画像として、自身の顔画像を登録すれば、カメラ９に顔を向けるだけで、スピーカー装置１を、音声コマンドの受付状態とすることができる。このように、本発明によれば、ユーザーが、容易に、音声コマンド受付状態にできる電子機器を提供することができる。

以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。

本発明は、音声認識機能を備える電子機器に好適に採用され得る。

１スピーカー装置（電子機器）
２ＳｏＣ（制御部）
８マイク
９カメラ

Claims

カメラと、
制御部と、を備え、
前記制御部は、前記カメラが撮影した画像が、所定の画像である場合に、音声コマンドの受付を開始することを特徴とする電子機器。
前記制御部は、前記カメラが撮影した画像を、前記所定の画像として受け付けることを特徴とする請求項１に記載の電子機器。
前記所定の画像は、顔画像であることを特徴とする請求項１又は２に記載の電子機器。
マイクをさらに備え、
前記制御部は、前記マイクが集音した音声が、所定のキーワードである場合に、音声コマンドの受付を開始することを特徴とする請求項１〜３のいずれか１項に記載の電子機器。