JP2020170101A

JP2020170101A - 音量調整装置、その方法、およびプログラム

Info

Publication number: JP2020170101A
Application number: JP2019071888A
Authority: JP
Inventors: 小林　和則; Kazunori Kobayashi; 和則小林; 翔一郎齊藤; Shoichiro Saito; 弘章伊藤; Hiroaki Ito
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2020-10-15
Also published as: US20220189499A1; WO2020203384A1

Abstract

【課題】発話の開始直後でも音量を適切に調整することができる音量調整装置、その方法、およびプログラムを提供する。【解決手段】音量調整装置は、音声認識を開始する際に用いられる所定の音声コマンドを認識する認識部と、ユーザにより発声された所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定部と、ゲインを用いて、音声信号Xの音量を調整する調整部と、を含む。【選択図】図２

Description

本発明は、音声信号の音量を調整する音量調整装置、その方法、およびプログラムに関する。

音量調整の従来技術として特許文献１が知られている。

図１は、特許文献１に記載の音量調整技術の構成を示す。図１の音量調整装置は、音声信号を入力とし、音声信号の音量を推定する音量推定部９１と、推定した音量に対して適切なゲイン値を設定するゲイン設定部９２と、設定したゲインを音声信号に乗算するゲイン乗算部９３から構成される。ゲイン値を最適音量を推定した音量で割った値に設定することで、音声を適正音量に調整することができる。

国際公開第ＷＯ２００４／０７１１３０号

しかしながら、特許文献１の方法では、音量の推定に時間を要するため、音量調整に遅れが生じ、発話の開始直後において音量が不適切となる場合がある。このため、例えば音声認識の前処理として特許文献１に記載の技術を用いた場合、発話の開始直後の音声認識率が低下しやすいという問題が生じる。

本発明は、発話の開始直後でも音量を適切に調整することができる音量調整装置、その方法、およびプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、音量調整装置は、音声認識を開始する際に用いられる所定の音声コマンドを認識する認識部と、ユーザにより発声された所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定部と、ゲインを用いて、音声信号Xの音量を調整する調整部と、を含む。

上記の課題を解決するために、本発明の他の態様によれば、音量調整装置は、音声認識を開始する際に行われる所定の操作を検出する検出部と、ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定するゲイン設定部と、所定の操作を検出した場合、ゲインg(n)を用いて、音声信号X(n)の音量を調整する調整部と、所定の操作を検出した場合、音量を調整した音声信号X(n)を音声認識する音声認識部と、を含む。

本発明によれば、発話の開始直後でも音量を適切に調整することができるという効果を奏する。特に、音声認識を行う為に適切となるような音量とすることができる。

従来技術に係る音量調整装置の機能ブロック図。第一実施形態に係る音量調整装置の機能ブロック図。第一実施形態に係る音量調整装置の処理フローの例を示す図。第一実施形態に係る音量推定部の機能ブロック図。キーワード発話時間を説明するための図。第二実施形態に係る音量推定部の機能ブロック図。第三実施形態に係る音量調整装置の機能ブロック図。第三実施形態に係る音量調整装置の処理フローの例を示す図。第三実施形態に係る音量推定部の機能ブロック図。発話区間を説明するための図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態のポイント＞
音声認識を行う際に、所定の言葉（キーワード）に対応する発話を音声認識開始のトリガーとして利用する方法がある。本実施形態では、このキーワード発話区間の音量を用いて、音声認識の対象の音声信号の音量の調整を行う。キーワードに対応する発話と音声認識の対象となる発話とは、通常、同一人物の発話であるため、発話音量に相関があるものと考えられる。すなわち、キーワードの発話音量が小さければ音声認識の対象の発話も小さい可能性が高くなり、キーワードの発話音量が大きければ音声認識の対象の発話も大きい可能性が高くなる。このことを利用して、音声認識の対象の発話の前に発せられるキーワードの音量を推定し、その推定値からゲインを設定し、音声認識の対象の発話前から音量を調整する。

＜第一実施形態＞
図２は第一実施形態に係る音量調整装置１００の機能ブロック図を、図３はその処理フローを示す。

音量調整装置１００は、音量推定部１０１と、認識部１０４と、ゲイン設定部１０２と、調整部１０３とを含む。

音量調整装置１００は、音声信号を入力とし、音声信号の音量を調整し、調整後の音声信号を出力する。なお、音声信号には、少なくとも、音声認識を開始する際に用いられる所定の音声コマンド（前述のキーワード）に対応する音声信号と、音声認識の対象の音声信号とがある。

音量調整装置１００は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音量調整装置１００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音量調整装置１００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音量調整装置１００の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音量調整装置１００が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音量調整装置１００がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、音量調整装置１００の外部に備える構成としてもよい。

以下、各部について説明する。
＜認識部１０４＞
認識部１０４は、音声信号を入力とし、音声信号に含まれるキーワードを認識する（Ｓ１０４）。例えば、認識部１０４は、音声信号にキーワードが含まれるか否かを検出し、含まれる場合には、ゲイン設定部１０２に制御信号を出力する。なお、キーワード検出技術としてどのような技術を用いてもよい。例えば、音声信号に対して音声認識を行いテキストで認識結果にキーワードが含まれるか否かにより認識してもよいし、音声信号の波形と予め求めておいたキーワードの波形との類似度と閾値との大小関係により認識してもよい。

＜音量推定部１０１＞
音量推定部１０１は、音声信号を入力とし、入力音声の音量を推定し（Ｓ１０１）、推定値を出力する。なお、ここで推定したい音量は、キーワードに係る音声信号の音量であり、認識部１０４において、キーワードを認識した後は、対応する音声認識処理が終了するまで音量推定（Ｓ１０１）を停止してもよい。この場合、音量推定部１０１は、認識部１０４から制御信号を受け取る構成とし、受け取りとともに音量の推定を停止する。

図４は、音量推定部１０１の機能ブロック図の例を示す。この例では、音量推定部１０１は、ＦＩＦＯバッファ１０１Ａと、ＲＭＳレベル計算部１０１Ｂとを含む。

図５に示すように、キーワードの認識に必要な時間（以下、検出遅延ともいう）があるため、キーワードの発話時間は、キーワード認識時刻よりも検出遅延分過去からキーワードの発話時間分過去まで存在している。この区間の音量を推定する必要がある。例えば、キーワード認識時刻をt1とし、検出遅延をt2とし、キーワードの発話時間をt3とすると、時刻t1-t2-t3から時刻t1-t2までの時間区間の音量を推定する必要がある。このため、ＦＩＦＯバッファ１０１Ａは、音声信号を入力とし、キーワード発話時間t3と、キーワード検出遅延t2とを加えた時間分、先入先出で、音声信号を蓄積する。キーワード発話時間t3とキーワード検出遅延t2は、あらかじめ標準的な発話時間と、標準的なキーワード検出遅延を固定値として与える。または、キーワード検出処理において、どの区間にキーワード発話が含まれるか検出可能な場合には、キーワード検出処理において得られるキーワード発話時間t3とキーワード検出遅延t2を逐次変更して用いても良い。この場合、ＦＩＦＯバッファ長は、想定されるキーワード発話時間t3とキーワード検出遅延t2の加算値の最大値に設定する。

RMSレベル計算部１０１Ｂは、ＦＩＦＯバッファ１０１Ａに蓄積された音声信号のうち最古の音声信号から標準的なキーワード発話時間分の音声信号を取り出し、RMSレベル(Root Mean Square:二乗平均平方根)を計算して、この値を音量の推定値として出力する。例えば、時刻tの音声信号をX(t)とすると、音声信号X(t1-t2-t3),X(t1-t2-t3+1),…,X(t1-t2)を取り出し、RMSレベル(Root Mean Square)を計算する。

＜ゲイン設定部１０２＞
ゲイン設定部１０２は、音量の推定値を入力とし、キーワードを認識すると、言い換えると、認識部１０４から制御信号を受信すると、制御信号に対応するキーワードに係る音声信号の音量の推定値を保持し、この推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定し（Ｓ１０２）、出力する。例えば、あらかじめ音声認識に最適な音量（以下、最適音量ともいう）を設定しておき、最適音量を保持した推定値で割った値をゲインとして設定する。

＜調整部１０３＞
調整部１０３は、音声信号と設定したゲインを入力とし、設定したゲインを用いて、ユーザにより発声された音声認識の対象の音声信号Xの音量を調整し（Ｓ１０３）、調整後の音声信号を出力する。例えば、設定したゲインを入力の音声信号に乗じて音量を調整する。

＜効果＞
以上の構成により、音声認識の対象の音声信号の入力前にキーワードに基づきゲインを設定するため、発話の開始直後でも音量を適切に調整することができる。調整後の音声信号に対して音声認識処理を行うことで、発話の開始直後でも音声認識精度を高くすることができる。

＜変形例＞
本実施形態では、RMSレベル計算部１０１Ｂが標準的なキーワード発話時間分の音声信号のRMSレベルを音量の推定値として常時求め、ゲイン設定部１０２が制御信号を受信したタイミングで、制御信号に対応するキーワードに係る音声信号の音量の推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定するが、以下の方法でゲインを設定してもよい。RMSレベル計算部１０１Ｂが制御信号を受信し、受信したタイミングで、ＦＩＦＯバッファ１０１Ａに蓄積された音声信号のうち最古の音声信号から標準的なキーワード発話時間分の音声信号を取り出し、標準的なキーワード発話時間分の音声信号のRMSレベルを音量の推定値として求め、ゲイン設定部１０２が音量の推定値を受信したタイミングで、音声認識の対象の音声信号Xに対するゲインを設定する。このような構成とすることで、RMSレベルを求める処理回数を減らすことができる。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

第一実施形態の音量推定部１０１では、標準的なキーワードの発話時間のRMSを求めているが、標準的なキーワードの発話時間と実際のキーワードの発話時間とに誤差がある場合、キーワードの音量を正確に推定することができない。そこで、本実施形態では、実際のキーワードの発話時間に左右されない音量の推定方法を採用する。

本実施形態に係る音量調整装置２００は、音量推定部２０１と、認識部１０４と、ゲイン設定部１０２と、調整部１０３とを含む（図２参照）。

図６は、音量推定部２０１の機能ブロック図の例を示す。この例では、音量推定部２０１は、ＲＭＳレベル計算部２０１Ａと、ＦＩＦＯバッファ２０１Ｂと、ピーク値検出部２０１Ｃとを含む。

RMSレベル計算部２０１Ａは、音声信号を入力とし、数十msから数百ms程度の窓長でRMSレベルを計算し、出力する。

ＦＩＦＯバッファ２０１Ｂは、RMSレベルを入力とし、先入先出で、標準的なキーワードの発話時間とキーワードの検出遅延を加えた時間分のRMSレベルを蓄積する。

ピーク値検出部２０１Ｃは、ＦＩＦＯバッファ２０１Ｂから蓄積されたRMSを取り出し、ピーク値を検出し、ピーク値を音量の推定値として出力する。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、標準的なキーワードの発話時間と実際のキーワードの発話時間とに誤差があっても、その影響を受けることなく音響を推定することができる。

＜第三実施形態＞
第一実施形態と異なる部分を中心に説明する。

本実施形態では、キーワードを認識する代わりに、音声認識を開始する際に行われる所定の操作を認識し、音声認識を開始する。所定の操作は、例えば、自動車のハンドルに設けられたボタンを押下する処理や、自動車の操作パネル等のタッチパネルをタッチする処理等である。音声認識の対象の音声信号は、どのようなものであってもよい。例えば、ユーザ（例えば運転手）がカーナビゲーションの設定や通話、音楽再生、窓の開閉などの実行を命じる音声コマンドに対応する音声信号等が考えられる。

図７は第一実施形態に係る音量調整装置３００の機能ブロック図を、図８はその処理フローを示す。

音量調整装置３００は、音量推定部３０１と、検出部３０４と、ゲイン設定部３０２と、調整部１０３と、ゲイン保存部３０５と、音声認識部３０６とを含む。

音量調整装置３００は、音声信号とを入力とし、音声信号の音量を調整し、調整後の音声信号に対して音声認識を行い、認識結果を出力する。

＜検出部３０４＞
検出部３０４は、音声認識を開始する際に行われる所定の操作を検出し（Ｓ３０４）、制御信号を出力する。例えば、検出部３０４はボタンやタッチパネルからなり、制御信号は所定の操作（自動車のハンドルに設けられたボタンを押下する処理や、自動車の操作パネル等のタッチパネルをタッチする処理）が行われたとき「1」であり、その他のとき「0」である信号である。検出部３０４は、所定の操作を検出し、音量推定部３０１、ゲイン設定部３０２および音声認識部３０６に音声認識の開始を示す制御信号を出力する。

＜音量推定部３０１＞
音量推定部３０１は、音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、入力音声の音量を推定し（Ｓ３０１）、推定値を出力する。

図９は、音量推定部３０１の機能ブロック図の例を示す。この例では、音量推定部３０１は、音声区間検出部３０１Ａと、ＦＩＦＯバッファ３０１Ｂと、ＲＭＳレベル計算部３０１Ｃとを含む。

図１０に示すように、一般的に、音声認識を開始する際に行われる所定の操作を行ってから、実際にユーザが音声認識の対象の発話を行うまでにはタイムラグが生じる。また、音声認識の対象の発話の長さは決まっていない。そこで、音量を推定する前に音声区間を検出する。

音声区間検出部３０１Ａは、音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、音声信号に含まれる音声区間を検出し、音声区間に関する情報を出力する。なお、音声区間検出技術としてどのような技術を用いてもよい。音声区間に関する情報とは、例えば、音声区間の開始時刻と終了時刻、音声区間の開始時刻と音声区間の継続長等の情報であり、音声区間が分かる情報であればどのようなものであってもよい。

ＦＩＦＯバッファ３０１Ｂは、音声信号を入力とし、音声認識の対象の発話の想定される最大時間分だけ、先入先出で、音声信号を蓄積する。

ＲＭＳレベル計算部３０１Ｃは、音声区間に関する情報を受け取り、音声区間に対応する音声信号をＦＩＦＯバッファ３０１Ｂから取り出し、音声区間のRMSレベルを計算し、音量の推定値として出力する。

＜ゲイン設定部３０２、ゲイン保存部３０５＞
ゲイン設定部３０２は、音量の推定値を入力とし、音量の推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定し（Ｓ３０２）、ゲイン保存部３０５に保存する。例えば、あらかじめ音声認識に最適な音量を設定しておき、最適音量を音量推定部３０１で推定した推定値(n-1番目の音声信号X(n-1)の音量の推定値)で割った値をゲインg(n)として設定する。

ゲイン設定部３０２は、ゲイン保存部３０５に１つ前の音声認識時の音量の推定値がある場合には、ゲイン保存部３０５からその推定値を取り出し、調整部１０３に出力する。つまり、この場合、ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定する。

ゲイン設定部３０２は、ゲイン保存部３０５に１つ前の音声認識時の音量の推定値がない場合(n=1の場合)には、ユーザにより発声された音声認識の対象のn番目の音声信号X(n)に対応する音量の推定値を用いて、音声認識の対象の音声信号X(n)に対するゲインg(n)を設定し、調整部１０３に出力する。

なお、調整部１０３は、音声信号と設定したゲインを入力とし、設定したゲインg(n)を用いて、ユーザにより発声された音声認識の対象のn番目の音声信号X(n)の音量を調整し（Ｓ１０３）、調整後の音声信号を出力する。

このような構成とすることで、n≧2において、n-1番目の音声信号X(n-1)を用いて、ゲインg(n)を設定しておき、音量の推定遅れを防ぐことができる。
＜音声認識部３０６＞
音声認識部３０６は、調整後の音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、音量を調整した音声信号X(n)を音声認識し（Ｓ３０６）、認識結果を出力する。

＜効果＞
このような構成により第一実施形態と同様の効果を得ることができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声認識を開始する際に用いられる所定の音声コマンドを認識する認識部と、
ユーザにより発声された前記所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定部と、
前記ゲインを用いて、前記音声信号Xの音量を調整する調整部と、を含む、
音量調整装置。
音声認識を開始する際に行われる所定の操作を検出する検出部と、
ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、前記ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定するゲイン設定部と、
前記所定の操作を検出した場合、前記ゲインg(n)を用いて、前記音声信号X(n)の音量を調整する調整部と、
前記所定の操作を検出した場合、音量を調整した前記音声信号X(n)を音声認識する音声認識部と、を含む、
音量調整装置。
請求項１の音量調整装置であって、
前記所定の音声コマンドに係る音声信号の音量を推定する音量推定部を含み、
前記ゲイン設定部は、音声認識に最適な音量を、前記所定の音声コマンドに係る音声信号の音量の推定値で割った値を前記ゲインとして設定する、
音量調整装置。
請求項２の音量調整装置であって、
前記音声信号X(n-1)の音量を推定する音量推定部を含み、
前記ゲイン設定部は、音声認識に最適な音量を、前記音声信号X(n-1)の音量の推定値で割った値を前記ゲインg(n)として設定する、
音量調整装置。
音声認識を開始する際に用いられる所定の音声コマンドを認識する認識ステップと、
ユーザにより発声された前記所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定ステップと、
前記ゲインを用いて、前記音声信号Xの音量を調整する調整ステップと、を含む、
音量調整方法。
音声認識を開始する際に行われる所定の操作を検出する検出ステップと、
ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、前記ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定するゲイン設定ステップと、
前記所定の操作を検出した場合、前記ゲインg(n)を用いて、前記音声信号X(n)の音量を調整する調整ステップと、
前記所定の操作を検出した場合、音量を調整した前記音声信号X(n)を音声認識する音声認識ステップと、を含む、
音量調整方法。
請求項１から請求項４の何れかの音量調整装置としてコンピュータを機能させるためのプログラム。