JP2020177060A

JP2020177060A - 音声認識システム、及び、音声認識方法

Info

Publication number: JP2020177060A
Application number: JP2019077585A
Authority: JP
Inventors: 裕介森川; Yusuke Morikawa
Original assignee: Onkyo Corp
Current assignee: Onkyo Corp
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2020-10-29

Abstract

【課題】ボイストリガーとコマンドとが連続した発音されても、コマンドを認識可能とすること。【解決手段】音声認識システム１は、音声を録音する録音処理と、録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、を行う。また、必要に応じて、音声認識システム１は、録音処理によって録音された音声のサンプリング周波数を変換するサンプリング周波数変換処理と、録音処理によって録音された音声のビット深度を変換するビット深度変換処理と、を行う。【選択図】図２

Description

本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。

音声認識を行う音声認識システムは、例えば、スピーカー装置等の電子機器と、クラウドサーバーと、から構成される。電子機器は、マイクとスピーカーとを備える。音声認識システムは、マイクから入力される音声を認識し、認識した音声に基づいて、処理を実行し、実行結果をスピーカーから出力する。例えば、ユーザーが、「今日の天気は」というコマンドを発話した場合、音声認識システムに含まれる電子機器から、「今日の天気は晴れです。」という音声が出力される。

音声認識を行う音声認識システムの中には、音声認識を有効とするためのボイストリガー（ホットワード）を検出した場合に、その後のコマンドの音声認識を行うものがある（図３参照。）。特許文献１には、ボイストリガーとして、「オーケーコンピュータ」が記載されている。従来の音声認識システムにおいては、ボイストリガーを認識する機能と、ボイストリガー認識後にコマンドを認識する機能と、では、それぞれ、独立したソリューションが提供されている。

特開２０１７−０７６１１７号公報

ボイストリガー認識機能と、コマンド認識機能と、の両機能は、音声の録音処理が必要であるという点では、共通している。そのため、両機能を結合するだけでは、録音処理を別々に行うこととなり、録音処理の連続性が失われ、音声認識ができない区間が生じてしまう。これにより、ユーザーがボイストリガーとコマンドとを連続して発音した場合、コマンドの認識が正しく行われないという問題がある。

本発明の目的は、ボイストリガーとコマンドとが連続した発音されても、コマンドを認識可能とすることである。

第１の発明の音声認識システムは、音声を録音する録音処理と、前記録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、前記録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、を行うことを特徴とする。

本発明では、録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、が行われる。従って、録音処理は、ボイストリガー認識処理と、コマンド認識処理と、から独立して、これらの処理と並行して行われ、ボイストリガー認識処理とコマンド認識処理との間も連続して行われる。このため、ボイストリガーとコマンドとが、連続して発音されても、コマンドを認識することができる。

なお、ここでは、音声認識を有効とするためのワード（例えば、「オーケーコンピュータ」等）を、ボイストリガーと呼ぶが、ホットワード、トリガーワード等と呼ばれる場合があり、これらの文言を含む概念である。

第２の発明の音声認識システムは、第１の発明の音声認識システムにおいて、前記録音処理によって録音された音声のサンプリング周波数を変換するサンプリング周波数変換処理をさらに行い、前記サンプリング変換処理によってサンプリング周波数が変換された音声に基づいて、前記ボイストリガー認識処理と、前記コマンド認識処理と、を行うことを特徴とする。

ボイストリガー認識処理とコマンド認識処理とは、録音された音声のサンプリング周波数で処理が行われるとは限らない。本発明では、録音処理によって録音された音声のサンプリング周波数の変換が行われ、サンプリング変換処理によってサンプリング周波数が変換された音声に基づいて、ボイストリガー認識処理と、コマンド認識処理と、が行われる。このため、各処理に適したサンプリング周波数の音声を提供することができる。

第３の発明の音声認識システムは、第１又は第２の発明の音声認識システムにおいて、前記録音処理によって録音された音声のビット深度を変換するビット深度変換処理をさらに行い、前記ビット深度処理によってビット深度が変換された音声に基づいて、前記ボイストリガー認識処理と、前記コマンド認識処理と、を行うことを特徴とする。

ボイストリガー認識処理とコマンド認識処理とは、録音されたビット深度で処理が行われるとは限らない。本発明では、録音処理によって録音された音声のビット深度の変換が行われ、ビット深度変換処理によってビット深度が変換された音声に基づいて、ボイストリガー認識処理と、コマンド認識処理と、が行われる。このため、各処理に適したビット深度の音声を提供することができる。

第４の発明の音声認識方法は、音声を録音する録音処理と、前記録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、前記録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、を行うことを特徴とする。

本発明によれば、ボイストリガーとコマンドとが、連続して発音されても、コマンドを認識することができる。

本発明の実施形態に係る音声認識システムの構成を示す図である。本発明の実施形態に係る録音機能と、ボイストリガー認識機能と、コマンド認識機能と、を示す図である。従来のボイストリガー認識機能と、コマンド認識機能と、を示す図である。

以下、本発明の実施形態について説明する。図１は、本発明の実施形態係る音声認識システムの構成を示すブロック図である。音声認識を行う音声認識システム１は、電子機器と、クラウドサーバーと、を備える。電子機器は、図示しないが、ＳｏＣ（System on Chip）と、マイクと、スピーカーと、等を備える。ＳｏＣは、電子機器を構成する各部を制御する。本実施形態では、音声認識システム１は、電子機器と、クラウドサーバーと、によって、構成され、電子機器とクラウドサーバーとが協働して、音声認識を行う。なお、本実施形態では、音声認識システムは、電子機器と、クラウドサーバーと、によって構成される。これに限らず、音声認識システム１は、電子機器のみ、又は、クラウドサーバーのみによって構成されていてもよい。

マイクは、音声を集音する。マイクにより集音された音声は、録音される。音声認識システム１は、音声を録音する録音処理を行う。音声認識ステム１は、録音処理によって録音された音声のサンプリング周波数を変換するサンプリング周波数変換処理を行う。また、音声認識システム１は、録音処理によって録音された音声のビット深度を変換するビット深度変換処理を行う。録音処理によって録音された音声は、必要に応じて、サンプリング周波数変換処理、ビット深度変換処理のいずれか、又は、双方が行われた後、ボイストリガー認識処理、コマンド認識処理が行われる。なお、録音処理、サンプリング周波数変換処理、及び、ビット深度変換処理を併せて、「録音機能」ともいう。

ボイストリガー認識処理（機能）は、録音処理（機能）によって録音された音声に基づいて、ボイストリガーを認識する処理である。コマンド認識処理（機能）は、録音処理（機能）によって録音された音声に基づいて、コマンドを認識する処理である。音声認識システム１は、これらの処理を行う。

サンプリング周波数変換処理において、録音処理によって録音された音声は、ボイストリガー認識処理、コマンド認識処理に適したサンプリング周波数に変換される。例えば、ボイストリガー認識処理において、サンプリング周波数１１ｋＨｚの音声に、ボイストリガー認識が行われる場合、録音処理によって録音された音声は、サンプリング周波数１１ｋＨｚに変換される。また、例えば、コマンド認識処理において、サンプリング周波数８ｋＨｚの音声に、コマンド認識が行われる場合、録音処理によって録音された音声は、サンプリング周波数８ｋＨｚに変換される。なお、録音処理によって録音された音声が、各処理に適したサンプリング周波数であれば、サンプリング周波数変換処理は、行われない。

ビット深度変換処理において、録音処理によって録音された音声は、ボイストリガー認識処理、コマンド認識処理に適したビット深度に変換される。例えば、ボイストリガー認識処理において、ビット深度１６ｂｉｔの音声に、ボイストリガー認識が行われる場合、録音処理によって録音された音声は、ビット深度１５ｂｉｔに変換される。また、例えば、コマンド認識処理において、ビット深度８ｂｉｔの音声に、コマンド認識が行われる場合、録音処理によって録音された音声は、サンプリング周波数８ｋＨｚに変換される。なお、録音処理によって録音された音声が、各処理に適したビット深度であれば、ビット深度変換処理は、行われない。

なお、録音処理によって録音された音声のサンプリング周波数が変換されている場合、ボイストリガー認識処理、及び、コマンド認識処理は、サンプリング周波数が変換された音声に行われる。また、録音処理によって録音された音声のビット深度が変換されている場合、ボイストリガー認識処理、及び、コマンド認識処理は、ビット深度が変換された音声に行われる。

以上説明したように、本実施形態では、録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、が行われる。従って、録音処理は、ボイストリガー認識処理と、コマンド認識処理と、から独立して、これらの処理と並行して行われ、ボイストリガー認識処理とコマンド認識処理との間も連続して行われる。このため、ボイストリガーとコマンドとが、連続して発音されても、コマンドを認識することができる。

なお、本実施形態では、音声認識システム１は、電子機器と、クラウドサーバーと、によって構成されており、録音機能、ボイストリガー認識機能、コマンド認識機能は、電子機器（ＳｏＣ）、クラウドサーバーのいずれかによって行われる。音声認識システム１が、電子機器、クラウドサーバーのいずれかによってのみ構成されている場合、録音機能、ボイストリガー認識機能、コマンド認識機能は、いずれによってのみ行われる。

以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。

本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。

１音声認識システム

Claims

音声を録音する録音処理と、
前記録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、
前記録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、を行うことを特徴とする音声認識システム。
前記録音処理によって録音された音声のサンプリング周波数を変換するサンプリング周波数変換処理をさらに行い、
前記サンプリング変換処理によってサンプリング周波数が変換された音声に基づいて、前記ボイストリガー認識処理と、前記コマンド認識処理と、を行うことを特徴とする請求項１に記載の音声認識システム。
前記録音処理によって録音された音声のビット深度を変換するビット深度変換処理をさらに行い、
前記ビット深度処理によってビット深度が変換された音声に基づいて、前記ボイストリガー認識処理と、前記コマンド認識処理と、を行うことを特徴とする請求項１又は２に記載の音声認識システム。
音声を録音する録音処理と、
前記録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、
前記録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、を行うことを特徴とする音声認識方法。