JP2019105677A

JP2019105677A - 音声認識装置

Info

Publication number: JP2019105677A
Application number: JP2017236698A
Authority: JP
Inventors: 尚徳塩崎; Hisanori Shiozaki; 後藤　孝之; Takayuki Goto; 孝之後藤
Original assignee: Onkyo Corp
Current assignee: Onkyo Corp
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2019-06-27
Also published as: US20190180755A1

Abstract

【課題】バッテリーを搭載した音声認識装置において、バッテリー駆動時の消費電力を抑制すること。【解決手段】音声認識装置１は、バッテリーと、音声認識を行うＶＴデバイス４と、音声認識を行い、ＶＴデバイス４よりも消費電力が大きいＳｏＣ２と、を備える。外部電源からの電力による駆動時、ＳｏＣ２が、音声認識を行う。バッテリーからの電力による駆動時、ＶＴデバイス４が、音声認識を行う。ＳｏＣ２は、ＶＴデバイス４よりも音声認識率が高い。【選択図】図１

Description

本発明は、音声認識を行う音声認識装置に関する。

音声認識を行うデバイスとして、消費電力の小さいデバイス（例えば、ＤＳＰ（Digital Signal Processor）と、消費電力の大きいデバイス（例えば、ＳｏＣ（System on Chip））と、がある（例えば、特許文献１参照。）。消費電力の小さいデバイスは、音声認識率が低い。消費電力の大きいデバイスは、音声認識率が高い。

特許第６０２８１１１号公報

バッテリーを搭載した音声認識装置において、消費電力の大きい音声認識デバイスを用いると、バッテリーの電力消費が大きく、すぐに装置を使えなくなるという問題がある。

本発明の目的は、バッテリーを搭載した音声認識装置において、バッテリー駆動時の消費電力を抑制することである。

第１の発明の音声認識装置は、バッテリーと、音声認識を行う第１音声認識部と、音声認識を行い、前記第１音声認識部よりも消費電力が大きい第２音声認識部と、を備え、外部電源からの電力による駆動時、前記第２音声認識部が、音声認識を行い、前記バッテリーからの電力による駆動時、前記第１音声認識部が、音声認識を行うことを特徴とする。

本発明では、バッテリーからの電力による駆動時、第２音声認識部よりも消費電力が小さい第１音声認識部が音声認識を行う。これにより、バッテリー駆動時の消費電力を抑制することができる。

第２の発明の音声認識装置は、第１の発明の音声認識装置において、前記第２音声認識部は、前記第１音声認識部よりも音声認識率が高いことを特徴とする。

本発明では、第２音声認識部は、第１音声認識部よりも音声認識率が高い。このため、外部電源からの電力による駆動時、消費電力は増えるが、音声認識の性能が上がるというメリットある。

第３の発明の音声認識装置は、第１又は第２の発明の音声認識装置において、前記外部電源からの電力による駆動時、前記第１音声認識部は、入力された音声を前記第２音声認識部に出力することを特徴とする。

第４の発明の音声認識装置は、第１又は第２の発明の音声認識装置において、前記外部電源からの電力による駆動時、前記第１音声認識部は、入力された音声にノイズフィルター処理を行い、前記ノイズフィルター処理を行った音声信号を前記第２音声認識部に出力することを特徴とする。

第５の発明の音声認識装置は、第１〜第４のいずれかの発明の音声認識装置において、前記バッテリーからの電力による駆動時、前記第２音声認識部は、スリープ状態であることを特徴とする。

第６の発明の音声認識装置は、第１〜第５のいずれかの発明の音声認識装置において、前記第１音声認識部は、音声認識に成功した場合、スリープ状態である前記第２音声認識部を起動し、入力された音声を前記第２音声認識部に出力し、前記第２音声認識部は、音声認識を行うことを特徴とする。

第７の発明の音声認識装置は、第１〜第５のいずれかの発明の音声認識装置において、前記第１音声認識部から出力された音声を保存するための音声バッファをさらに備え、前記第１音声認識部は、音声認識に成功した場合、スリープ状態である前記第２音声認識部を起動し、入力された音声を前記音声バッファに出力し、前記音声バッファに保存された音声は、前記第２音声認識部に出力され、前記第２音声認識部は、音声認識を行うことを特徴とする。

本発明では、音声バッファに保存された音声が第２音声認識部に出力される。従って、第２音声認識部が起動するまでの間、音声バッファにより、第２音声認識部に入力される音声を、遅延させることができる。

第８の発明の音声認識装置は、第１〜第７のいずれかの発明の音声認識装置において、前記外部電源からの電力による駆動時、又は、前記バッテリーからの電力による駆動時で高い音声認識率が必要な場合、前記第２音声認識部が、音声認識を行うことを特徴とする。

本発明では、外部電源からの電力による駆動時、又は、バッテリーからの電力による駆動時で高い音声認識率が必要な場合、第２音声認識部が、音声認識を行う。これにより、バッテリーからの電力による駆動時で高い音声認識率が必要な場合でも、音声認識率が高い第２音声認識部により、音声認識を行うことができる。

本発明によれば、バッテリー駆動時の消費電力を抑制することができる。

本発明の実施形態に係る音声認識装置の構成を示すブロック図である。

以下、本発明の実施形態について説明する。図１は、本発明の実施形態に係る音声認識装置の構成を示すブロック図である。図１に示すように、音声認識装置１は、ＳｏＣ（System on Chip）２、マイク３、ＶＴ（Voice Trigger）デバイス４、音声バッファ５、を備える。

ＳｏＣ２（第２音声認識部）は、音声認識装置１を構成する各部を制御する。また、ＳｏＣ２は、音声認識を行う。マイク３は、音声を集音する。マイク３が集音した音声は、ＶＴデバイス４に出力される。ＶＴデバイス４（第１音声認識部）は、入力された音声に、ノイズフィルター処理を行ったり、音声認識を行ったりする。ＶＴデバイス４は、例えば、音声認識に特化した専用の低消費電力ＤＳＰ（Digital Signal Processor）である。ＶＴデバイス４に入力された音声は、音声バッファ５、又は、ＳｏＣ２に出力される。音声バッファ４は、入力された音声を保存するためのメモリである。音声バッファ４に保存された音声は、ＳｏＣ２に出力される。なお、音声バッファ５は、ＶＴデバイス４内のメモリであってもよい。

音声認識装置１は、外部電源（例えば、交流電源）からの電力により駆動する。また、音声認識装置１は、さらに、バッテリーを備えている。音声認識装置１は、外部電源に接続されていない場合、バッテリーからの電力により駆動する。バッテリーは、外部電源からの電力により充電される。

（第１実施形態）
バッテリーからの電力による駆動時、ＶＴデバイス４が、音声認識を行う。このとき、ＳｏＣ２は、スリープ状態である。また、外部電源からの電力による駆動時、ＳｏＣ２が、音声認識を行う。ＶＴデバイス４の消費電力は、ＳｏＣ２よりも小さい。ＳｏＣ２の消費電力は、ＶＴデバイス４よりも大きい。また、ＶＴデバイス４の音声認識率は、ＳｏＣ２よりも低い。ＳｏＣ２の音声認識率は、ＶＴデバイス４よりも高い。第１実施形態では、上述のように、バッテリーからの電力による駆動時、ＳｏＣ２よりも消費電力が小さいＶＴデバイス４が音声認識を行う。これにより、バッテリー駆動時の消費電力を抑制することができる。ＳｏＣ２を起動して、音声認識サービス（機能）を有効にしておくと、例えば、１００〜５００ｍＷの電力を消費することになる。第１実施形態では、バッテリーによる駆動時、上述したＳｏＣ２の消費電力を削減することができる。なお、ＳｏＣ２の消費電力は、スリープ状態で、１００ｍＷ以下である。

また、上述のように、第１実施形態では、外部電源からの電力による駆動時、ＶＴデバイス４よりも音声認識率が高いＳｏＣ２が、音声認識を行う。このため、外部電源からの電力による駆動時、消費電力は増えるが、音声認識の性能が上がるというメリットがある。外部電源からの電力による駆動時、ＶＴデバイス４は、入力された音声にノイズフィルター処理を行い、ノイズフィルター処理を行った音声を、ＳｏＣ２に出力する。又は、ＶＴデバイス４は、入力された音声をそのまま（スルーして）、ＳｏＣ２に出力する。

バッテリーからの電力による駆動時であっても、高い音声認識率が必要な場合、ＳｏＣ２が、音声認識を行う。これにより、バッテリーからの電力による駆動時で高い音声認識率が必要な場合でも、音声認識率が高いＳｏＣ２により、音声認識を行うことができる。

（第２実施形態）
第２実施形態では、第１実施形態同様、バッテリーからの電力による駆動時、ＶＴデバイス４が、音声認識を行う。このとき、ＳｏＣ２は、スリープ状態である。ＶＴデバイス４は、音声認識に成功した場合、ＳｏＣ２を起動する。次に、ＶＴデバイス４は、マイク３から入力された音声を音声バッファ５に出力する。音声バッファ５は、入力された音声を保存する。音声バッファ５に保存された音声は、ＳｏＣ２に出力される。ＳｏＣ２は、音声認識を行う。例えば、ＶＴデバイス４は、音声認識装置１による音声認識機能を有効にするためのトリガーワードの音声認識を行い、音声認識に成功した場合、以後の処理を行う。このため、バッテリーからの電力による駆動時、トリガーワードの音声認識をＶＴデバイス４で行い、音声認識に成功した場合に、ＳｏＣ２を起動することにより、ＳｏＣ２の消費電力を削減することができる。

また、音声認識率の低いＶＴデバイス４で音声認識を行った後、音声認識率の高いＳｏＣ２で音声認識を行うことで、消費電力を抑制しつつ、音声認識の精度を高めることができる。

また、第２実施形態では、音声バッファ５に保存された音声が、ＳｏＣ２に出力される。従って、ＳｏＣ２が起動するまでの間、音声バッファ５により、ＳｏＣ２に入力される音声を、遅延させることができる。

なお、ＳｏＣ２がスリープ状態からの起動時に、時間を要しない場合、ＶＴデバイス４は、ＳｏＣ２を起動し、入力された音声を、ＳｏＣ２に出力するようになっていてもよい。

以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。

本発明は、音声認識を行う音声認識装置に好適に採用され得る。

１音声認識装置
２ＳｏＣ（第２音声認識部）
３マイク
４ＶＴデバイス（第１音声認識部）
５音声バッファ

Claims

バッテリーと、
音声認識を行う第１音声認識部と、
音声認識を行い、前記第１音声認識部よりも消費電力が大きい第２音声認識部と、を備え、
外部電源からの電力による駆動時、前記第２音声認識部が、音声認識を行い、
前記バッテリーからの電力による駆動時、前記第１音声認識部が、音声認識を行うことを特徴とする音声認識装置。
前記第２音声認識部は、前記第１音声認識部よりも音声認識率が高いことを特徴とする請求項１に記載の音声認識装置。
前記外部電源からの電力による駆動時、前記第１音声認識部は、入力された音声を前記第２音声認識部に出力することを特徴とする請求項１又は２に記載の音声認識装置。
前記外部電源からの電力による駆動時、前記第１音声認識部は、入力された音声にノイズフィルター処理を行い、前記ノイズフィルター処理を行った音声信号を前記第２音声認識部に出力することを特徴とする請求項１又は２に記載の音声認識装置。
前記バッテリーからの電力による駆動時、前記第２音声認識部は、スリープ状態であることを特徴とする請求項１〜４のいずれか１項に記載の音声認識装置。
前記第１音声認識部は、音声認識に成功した場合、スリープ状態である前記第２音声認識部を起動し、入力された音声を前記第２音声認識部に出力し、
前記第２音声認識部は、音声認識を行うことを特徴とする請求項１〜５のいずれか１項に記載の音声認識装置。
前記第１音声認識部から出力された音声を保存するための音声バッファをさらに備え、
前記第１音声認識部は、音声認識に成功した場合、スリープ状態である前記第２音声認識部を起動し、入力された音声を前記音声バッファに出力し、
前記音声バッファに保存された音声は、前記第２音声認識部に出力され、
前記第２音声認識部は、音声認識を行うことを特徴とする請求項１〜５のいずれか１項に記載の音声認識装置。
前記外部電源からの電力による駆動時、又は、前記バッテリーからの電力による駆動時で高い音声認識率が必要な場合、前記第２音声認識部が、音声認識を行うことを特徴とする請求項１〜７のいずれか１項に記載の音声認識装置。