JP2020118823A

JP2020118823A - 電子機器

Info

Publication number: JP2020118823A
Application number: JP2019009071A
Authority: JP
Inventors: 亮一岩松; Ryoichi Iwamatsu
Original assignee: Onkyo Corp
Current assignee: Onkyo Corp
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2020-08-06

Abstract

【課題】ユーザーが、容易に、電子機器を操作可能とすること。【解決手段】スピーカー装置１は、音声コマンドを記憶するためのメモリ３と、所定の操作に基づいて、メモリ３に記憶されている音声コマンドを、音声認識機能を有するクラウドサーバーに送信するＳｏＣ２と、を備える。所定の操作は、プリセットボタン８の操作である。また、プリセットボタン８は、複数であり、ＳｏＣ２は、いずれかのプリセットボタン８への操作があった場合、プリセットボタン８に対応する、メモリ３に記憶されている音声コマンドを、クラウドサーバーに送信する。【選択図】図２

Description

本発明は、音声認識機能を利用する電子機器に関する。

音声認識機能を利用する電子機器の中には、所定のキーワード（以下、「ホットワード」という。）を認識した後、音声コマンドを受け付けるようになっているものがある（例えば、特許文献１参照。）。特許文献１では、ホットワードとして、「オーケーコンピュータ」が記載されている（図１参照。）。従って、ユーザーは、まず、ホットワードを発話した後、例えば、「音楽を再生して」等の音声コマンドを発話する。ユーザーは、音声コマンドにより、電子機器を制御できるため、ボタン等を操作する必要がなく、非常に便利である。しかし、ユーザーは、日常、定期的に行う操作に対しても、ホットワードを含む、音声コマンドを流暢に発話する必要がある。流暢に発話することは、簡単なように思われるが、実際は、簡単な作業ではなく、定期的に繰り返し行うことは、ユーザーにとって負担となる。

例えば、音楽サービスのお気に入りのプレイリストを聞きたいときの音声コマンドは、コマンド自体が長くなる。例えば、ユーザーは、「オッケーコンピュータ、音楽サービスＡで、プレイリスト、夜のランニング用アールアンドビー、ミドルテンポ編をかけて。」と発話する必要がある。また、例えば、インターネットラジオで、お気に入りの放送局を聴きたいときの音声コマンドは、日本語・英語混在コマンドとなる場合がある。例えば、ユーザーは、「オッケーコンピュータ、インターネットラジオで、one-hundred eighty one dot FM soulをかけて。」と発話する必要がある。また、例えば、カスタムの音声コマンドであるカスタムスキルのスマートホーム機器へのコマンドは、元々の音声コマンドに比べ、冗長である。例えば、ユーザーは、「オッケーコンピュータ、家電リモコンでテレビをつけて。」と発話する必要がある。

特開２０１７−０７６１１７号公報

上述したように、ユーザーにとって、音声コマンドを発話するのは、困難な場合がある。

本発明の目的は、ユーザーが、容易に、電子機器を操作可能とすることである。

第１の発明の電子機器は、音声コマンドを記憶するためのメモリと、所定の操作に基づいて、前記メモリに記憶されている音声コマンドを、音声認識機能を有するサーバーに送信する制御部と、を備えることを特徴とする。

本発明では、制御部は、所定の操作に基づいて、メモリに記憶されている音声コマンドを、音声認識機能を有するサーバーに送信する。これにより、ユーザーは、所定の操作を行うのみで、例えば、ユーザーが所望の音楽データが、サーバーから電子機器に送信され、電子機器が、音楽データに基づいて、音楽を再生するため、容易に、電子機器を操作することができる。また、サーバー側の仕様を変更する必要もなく、これらの機能を追加することができる。

第２の発明の電子機器は、第１の発明の電子機器において、ボタンを備え、前記所定の操作は、前記ボタンの操作であることを特徴とする。

本発明では、所定の操作は、ボタンの操作である。このため、ユーザーは、ボタンを操作することで、容易に、電子機器を操作することができる。

第３の発明の電子機器は、第２の発明の電子機器において、複数の前記ボタンを備え、
前記メモリは、複数の音声コマンドを記憶し、前記制御部は、いずれかの前記ボタンへの操作があった場合、前記ボタンに対応する、前記メモリに記憶されている音声コマンドを、前記サーバーに送信することを特徴とする。

本発明では、制御部は、いずれかのボタンの操作があった場合、ボタンに対応する、メモリに記憶されている音声コマンドを、サーバーに送信する。これにより、ユーザーは、電子機器に複数の動作を行わせることができる。

第４の発明の電子機器は、第２又は第３の発明の電子機器において、マイクを更に備え、
前記制御部は、前記ボタンへの所定時間以上の操作があった場合、前記マイクにより音声を録音し、録音した音声を、音声コマンドとして、前記メモリに記憶することを特徴とする。

本発明では、制御部は、ボタンへの所定時間以上の操作があった場合、マイクにより音声を録音し、録音した音声を、音声コマンドとして、メモリに記憶する。これにより、ユーザーは、マイクを長押しして、電子機器を録音モードとし、音声コマンドを発話することで、電子機器に、所望の音声コマンドを記憶させることができる。

第５の発明の電子機器は、第４の発明の電子機器において、前記制御部は、前記ボタンへの所定時間未満の操作があった場合、前記マイクによる音声の録音を終了することを特徴とする。

第６の発明の電子機器は、第２〜第５のいずれかの発明の電子機器において、音声を再生する音声再生器と、前記音声再生器により再生された音声が出力されるスピーカーと、をさらに備え、前記制御部は、前記ボタンの操作があった場合、前記メモリに記憶されている音声コマンドを、前記音声再生器により再生させることを特徴とする。

本発明では、制御部は、ボタンの操作があった場合、メモリに記憶されている音声コマンドを、音声再生器により再生させる。これにより、スピーカーから、音声コマンドが出力されるため、ユーザーは、実行される音声コマンドを理解することができる。

第７の発明の電子機器は、第４又は第５の発明の電子機器において、発光部を更に備え、前記制御部は、前記ボタンへの所定時間以上の操作があった場合、前記発光部を全点灯し、全点灯した後、前記発光部を徐々に消灯し、前記発光部の全点灯から全消灯までの時間は、前記マイクによる録音時間と一致していることを特徴とする。

本発明では、制御部は、ボタンへの所定時間以上の操作があった場合、発光部を全点灯し、全点灯した後、発光部を徐々に消灯する。また、発光部の全点灯から全消灯までの時間は、マイクによる録音時間と一致している。これにより、ユーザーは、電子機器による録音時間を理解することができる。

本発明によれば、ユーザーは、容易に、電子機器を操作することができる。

本発明の実施形態に係るスピーカー装置の外観を示す斜視図である。本発明の実施形態に係るスピーカー装置の構成を示すブロック図である。音声コマンドがクラウドサーバーに送信されることを説明するための図である。

以下、本発明の実施形態について説明する。図１は、本実施形態に係るスピーカー装置１の外観を示す斜視図である。図１に示すように、スピーカー装置１は、円筒状である。スピーカー装置１の上面には、複数のプリセットボタン８、円環状のＬＥＤ９（発光部）が設けられている。

図２は、本実施形態に係るスピーカー装置１を示すブロック図である。図２に示すように、スピーカー装置１（電子機器）は、ＳｏＣ（System on Chip）２、メモリ３、音声再生器４、スピーカー５、無線モジュール６、マイク７、プリセットボタン８、ＬＥＤ９を備える。ＳｏＣ２（制御部）は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）等を有し、スピーカー装置１を構成する各部を制御する。メモリ３は、音声コマンド等を記憶するフラッシュメモリにより構成されている。音声再生器４は、音声を再生する。スピーカー５には、音声再生器４により再生された音声が出力される。

無線モジュール６は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格、Ｗｉ−Ｆｉ規格に従った無線通信を行うためのものである。ＳｏＣ２は、無線モジュール６を介して、楽曲を配信するサーバー等から、音声データを受信したり、メモリ３に記憶されている音声コマンドを、音声認識機能を有するクラウドサーバーに送信したりする。

マイク７は、音声を集音する。通常、ＳｏＣ２は、マイク７が集音した音声を、無線モジュール６を介して、クラウドサーバーに送信する。マイク７が集音した音声が、ホットワード（所定のキーワード）であった場合、ＳｏＣ２は、音声コマンドの受付を開始する。具体的には、クラウドサーバーは、音声認識機能を有しており、受信した音声が、ホットワードであった場合、音声コマンドの受付開始の指示（コマンド）を、スピーカー装置１に送信する。ＳｏＣ２は、無線モジュール６を介して、音声コマンドの受付開始の指示を受信した場合、音声コマンドの受付を開始する。なお、ホットワードの認識は、サーバーではなく、スピーカー装置１のＳｏＣ２により行われるようになっていてもよい。

また、クラウドサーバーは、受信した音声コマンドに応じたコマンド等をスピーカー装置１に返信する。ＳｏＣ２は、無線モジュール６を介して、クラウドサーバーが送信したコマンド等を受信する。例えば、ユーザーが「楽曲Ａを再生」と発話したとする。この場合、例えば、再生を意味するコマンド「Play」と、テキスト「楽曲Ａ」とが、クラウドサーバーからスピーカー装置１に送信される。

スピーカー装置１による音声コマンドの録音について説明する。ＳｏＣ２は、いずれかのプリセットボタン８への所定時間以上の操作を受け付けた場合、すなわち、ユーザーにより、プリセットボタン８が長押しされた場合、マイク７により音声を録音し、録音した音声を、音声コマンドとして、メモリ３に記憶する。このとき、ＳｏＣ２は、円環状のＬＥＤ９を全点灯し、全点灯した後、ＬＥＤ９を徐々に、円周状に消灯する。ここで、ＬＥＤ８の全点灯から全消灯までの時間は、マイク７による最大録音時間（例えば、１０秒）と一致している。従って、ＬＥＤ９は、全点灯から、録音時間に合わせて消灯していき、ＬＥＤ９による、録音時間のカウントダウン表示が行われる。

ユーザーは、プリセットボタン８の長押しの後、音声コマンドを発話する。これにより、ユーザーは、音声コマンドを、スピーカー装置１に記憶させることができる。ＳｏＣ２は、最大録音時間が経過した場合、又は、プリセットボタン８の所定時間未満の操作を受け付けた場合、すなわち、ユーザーにより、プリセットボタン８が短押しされた場合、マイク７による音声の録音を終了する。ＳｏＣ２は、録音した音声コマンドと、操作を受け付けたプリセットボタン８の情報と、を対応付けて、メモリ３に記憶する。

通常、ユーザーは、マイク７に対して、音声コマンドを発話し、図３（ａ）に示すように、ＳｏＣ２は、マイク７により集音された音声を、クラウドサーバーに送信する。一方で、ＳｏＣ２は、プリセットボタン８への操作（ここでは、所定時間未満以内の操作であり、ユーザーによるプリセットボタン８の短押しである）を受け付けた場合、プリセットボタン８に対応する、メモリ３に記憶されている音声コマンドをクラウドサーバーに送信する。また、ＳｏＣ２は、プリセットボタン８に対応する、メモリ３に記憶されている音声コマンドを、音声再生器４により再生させる。これにより、スピーカー５から、音声コマンドが出力される。なお、スピーカー５からの音声コマンド出力は、ユーザーによる音声コマンドの確認用であり、スピーカー５から出力された音声コマンドは、マイク７により集音されず、音声コマンドとして使用されない。

また、図３（ｂ）に示すように、メモリ３に記憶されている音声コマンドは、マイク７の経路とは、別の経路で、クラウドサーバーに送信される。これは、スピーカー装置１周囲の環境、また、スピーカー装置１の再生音量の影響を排除し、音声コマンドの精度を高めるためである。

以上説明したように、本実施形態では、ＳｏＣ２は、所定の操作に基づいて、メモリ３に記憶されている音声コマンドを、音声認識機能を有するクラウドサーバーに送信する。これにより、ユーザーは、所定の操作を行うのみで、例えば、ユーザーが所望の音楽データが、クラウドサーバーからスピーカー装置に送信され、スピーカー装置１が、音楽データに基づいて、音楽を再生するため、容易に、スピーカー装置１を操作することができる。すなわち、長く複雑な音声コマンドの繰り返しの実行を、簡便化することができる。

また、クラウドサーバー、音楽配信サービス側の仕様を変更する必要もなく、お気に入りの音楽のプリセット再生機能を備えさせることができる。

また、本実施形態では、所定の操作は、プリセットボタン８の操作である。このため、ユーザーは、プリセットボタン８を操作することで、容易に、スピーカー装置１を操作することができる。

また、本実施形態では、ＳｏＣ２は、いずれかのプリセットボタン８の操作があった場合、プリセットボタン８に対応する、メモリ３に記憶されている音声コマンドを、クラウドサーバーに送信する。これにより、ユーザーは、スピーカー装置１に複数の動作を行わせることができる。

また、本実施形態では、ＳｏＣ２は、プリセットボタン８への所定時間以上の操作があった場合、マイク７により音声を録音し、録音した音声を、音声コマンドとして、メモリ３に記憶する。これにより、ユーザーは、マイク７を長押しして、スピーカー装置１を録音モードとし、音声コマンドを発話することで、スピーカー装置１に、所望の音声コマンドを記憶させることができる。

また、本実施形態では、ＳｏＣ２は、プリセットボタン８の操作があった場合、メモリ３に記憶されている音声コマンドを、音声再生器４により再生させる。これにより、スピーカー５から、音声コマンドが出力されるため、ユーザーは、実行される音声コマンドを理解することができる。

また、本実施形態では、ＳｏＣ２は、プリセットボタン８への所定時間以上の操作があった場合、ＬＥＤ９を全点灯し、全点灯した後、ＬＥＤ９を徐々に消灯する。また、ＬＥＤ９の全点灯から全消灯までの時間は、マイク７による録音時間と一致している。これにより、ユーザーは、スピーカー１による録音時間を理解することができる。

以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、以下に例示するように、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。

上述の実施形態においては、所定の操作は、プリセットボタン８の操作である。これに限らず、例えば、スピーカー装置１が、カメラを備えており、所定の操作は、ユーザーによる、カメラの前での所定のジェスチャ操作等であってもよい。

本発明は、音声認識機能を利用する電子機器に好適に採用され得る。

１スピーカー装置（電子機器）
２ＳｏＣ（制御部）
３メモリ
４音声再生器
５スピーカー
７マイク
８プリセットボタン
９ＬＥＤ（発光部）

Claims

音声コマンドを記憶するためのメモリと、
所定の操作に基づいて、前記メモリに記憶されている音声コマンドを、音声認識機能を有するサーバーに送信する制御部と、を備えることを特徴とする電子機器。
ボタンを備え、
前記所定の操作は、前記ボタンの操作であることを特徴とする請求項１に記載の電子機器。
複数の前記ボタンを備え、
前記メモリは、複数の音声コマンドを記憶し、
前記制御部は、いずれかの前記ボタンへの操作があった場合、前記ボタンに対応する、前記メモリに記憶されている音声コマンドを、前記サーバーに送信することを特徴とする請求項２に記載の電子機器。
マイクを更に備え、
前記制御部は、前記ボタンへの所定時間以上の操作があった場合、前記マイクにより音声を録音し、録音した音声を、音声コマンドとして、前記メモリに記憶することを特徴とする請求項２又は３に記載の電子機器。
前記制御部は、前記ボタンへの所定時間未満の操作があった場合、前記マイクによる音声の録音を終了することを特徴とする請求項４に記載の電子機器。
音声を再生する音声再生器と、
前記音声再生器により再生された音声が出力されるスピーカーと、をさらに備え、
前記制御部は、前記ボタンの操作があった場合、前記メモリに記憶されている音声コマンドを、前記音声再生器により再生させることを特徴とする請求項２〜５のいずれか１項に記載の電子機器。
発光部を更に備え、
前記制御部は、前記ボタンへの所定時間以上の操作があった場合、前記発光部を全点灯し、全点灯した後、前記発光部を徐々に消灯し、
前記発光部の全点灯から全消灯までの時間は、前記マイクによる録音時間と一致していることを特徴とする請求項４又は５に記載の電子機器。