JP2020170101A - 音量調整装置、その方法、およびプログラム - Google Patents
音量調整装置、その方法、およびプログラム Download PDFInfo
- Publication number
- JP2020170101A JP2020170101A JP2019071888A JP2019071888A JP2020170101A JP 2020170101 A JP2020170101 A JP 2020170101A JP 2019071888 A JP2019071888 A JP 2019071888A JP 2019071888 A JP2019071888 A JP 2019071888A JP 2020170101 A JP2020170101 A JP 2020170101A
- Authority
- JP
- Japan
- Prior art keywords
- volume
- voice
- gain
- unit
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000005236 sound signal Effects 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
- H03G3/301—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers the gain being continuously variable
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】発話の開始直後でも音量を適切に調整することができる音量調整装置、その方法、およびプログラムを提供する。【解決手段】音量調整装置は、音声認識を開始する際に用いられる所定の音声コマンドを認識する認識部と、ユーザにより発声された所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定部と、ゲインを用いて、音声信号Xの音量を調整する調整部と、を含む。【選択図】図2
Description
本発明は、音声信号の音量を調整する音量調整装置、その方法、およびプログラムに関する。
音量調整の従来技術として特許文献1が知られている。
図1は、特許文献1に記載の音量調整技術の構成を示す。図1の音量調整装置は、音声信号を入力とし、音声信号の音量を推定する音量推定部91と、推定した音量に対して適切なゲイン値を設定するゲイン設定部92と、設定したゲインを音声信号に乗算するゲイン乗算部93から構成される。ゲイン値を最適音量を推定した音量で割った値に設定することで、音声を適正音量に調整することができる。
しかしながら、特許文献1の方法では、音量の推定に時間を要するため、音量調整に遅れが生じ、発話の開始直後において音量が不適切となる場合がある。このため、例えば音声認識の前処理として特許文献1に記載の技術を用いた場合、発話の開始直後の音声認識率が低下しやすいという問題が生じる。
本発明は、発話の開始直後でも音量を適切に調整することができる音量調整装置、その方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音量調整装置は、音声認識を開始する際に用いられる所定の音声コマンドを認識する認識部と、ユーザにより発声された所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定部と、ゲインを用いて、音声信号Xの音量を調整する調整部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、音量調整装置は、音声認識を開始する際に行われる所定の操作を検出する検出部と、ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定するゲイン設定部と、所定の操作を検出した場合、ゲインg(n)を用いて、音声信号X(n)の音量を調整する調整部と、所定の操作を検出した場合、音量を調整した音声信号X(n)を音声認識する音声認識部と、を含む。
本発明によれば、発話の開始直後でも音量を適切に調整することができるという効果を奏する。特に、音声認識を行う為に適切となるような音量とすることができる。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態のポイント>
音声認識を行う際に、所定の言葉(キーワード)に対応する発話を音声認識開始のトリガーとして利用する方法がある。本実施形態では、このキーワード発話区間の音量を用いて、音声認識の対象の音声信号の音量の調整を行う。キーワードに対応する発話と音声認識の対象となる発話とは、通常、同一人物の発話であるため、発話音量に相関があるものと考えられる。すなわち、キーワードの発話音量が小さければ音声認識の対象の発話も小さい可能性が高くなり、キーワードの発話音量が大きければ音声認識の対象の発話も大きい可能性が高くなる。このことを利用して、音声認識の対象の発話の前に発せられるキーワードの音量を推定し、その推定値からゲインを設定し、音声認識の対象の発話前から音量を調整する。
音声認識を行う際に、所定の言葉(キーワード)に対応する発話を音声認識開始のトリガーとして利用する方法がある。本実施形態では、このキーワード発話区間の音量を用いて、音声認識の対象の音声信号の音量の調整を行う。キーワードに対応する発話と音声認識の対象となる発話とは、通常、同一人物の発話であるため、発話音量に相関があるものと考えられる。すなわち、キーワードの発話音量が小さければ音声認識の対象の発話も小さい可能性が高くなり、キーワードの発話音量が大きければ音声認識の対象の発話も大きい可能性が高くなる。このことを利用して、音声認識の対象の発話の前に発せられるキーワードの音量を推定し、その推定値からゲインを設定し、音声認識の対象の発話前から音量を調整する。
<第一実施形態>
図2は第一実施形態に係る音量調整装置100の機能ブロック図を、図3はその処理フローを示す。
図2は第一実施形態に係る音量調整装置100の機能ブロック図を、図3はその処理フローを示す。
音量調整装置100は、音量推定部101と、認識部104と、ゲイン設定部102と、調整部103とを含む。
音量調整装置100は、音声信号を入力とし、音声信号の音量を調整し、調整後の音声信号を出力する。なお、音声信号には、少なくとも、音声認識を開始する際に用いられる所定の音声コマンド(前述のキーワード)に対応する音声信号と、音声認識の対象の音声信号とがある。
音量調整装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音量調整装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音量調整装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音量調整装置100の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音量調整装置100が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音量調整装置100がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、音量調整装置100の外部に備える構成としてもよい。
以下、各部について説明する。
<認識部104>
認識部104は、音声信号を入力とし、音声信号に含まれるキーワードを認識する(S104)。例えば、認識部104は、音声信号にキーワードが含まれるか否かを検出し、含まれる場合には、ゲイン設定部102に制御信号を出力する。なお、キーワード検出技術としてどのような技術を用いてもよい。例えば、音声信号に対して音声認識を行いテキストで認識結果にキーワードが含まれるか否かにより認識してもよいし、音声信号の波形と予め求めておいたキーワードの波形との類似度と閾値との大小関係により認識してもよい。
<認識部104>
認識部104は、音声信号を入力とし、音声信号に含まれるキーワードを認識する(S104)。例えば、認識部104は、音声信号にキーワードが含まれるか否かを検出し、含まれる場合には、ゲイン設定部102に制御信号を出力する。なお、キーワード検出技術としてどのような技術を用いてもよい。例えば、音声信号に対して音声認識を行いテキストで認識結果にキーワードが含まれるか否かにより認識してもよいし、音声信号の波形と予め求めておいたキーワードの波形との類似度と閾値との大小関係により認識してもよい。
<音量推定部101>
音量推定部101は、音声信号を入力とし、入力音声の音量を推定し(S101)、推定値を出力する。なお、ここで推定したい音量は、キーワードに係る音声信号の音量であり、認識部104において、キーワードを認識した後は、対応する音声認識処理が終了するまで音量推定(S101)を停止してもよい。この場合、音量推定部101は、認識部104から制御信号を受け取る構成とし、受け取りとともに音量の推定を停止する。
音量推定部101は、音声信号を入力とし、入力音声の音量を推定し(S101)、推定値を出力する。なお、ここで推定したい音量は、キーワードに係る音声信号の音量であり、認識部104において、キーワードを認識した後は、対応する音声認識処理が終了するまで音量推定(S101)を停止してもよい。この場合、音量推定部101は、認識部104から制御信号を受け取る構成とし、受け取りとともに音量の推定を停止する。
図4は、音量推定部101の機能ブロック図の例を示す。この例では、音量推定部101は、FIFOバッファ101Aと、RMSレベル計算部101Bとを含む。
図5に示すように、キーワードの認識に必要な時間(以下、検出遅延ともいう)があるため、キーワードの発話時間は、キーワード認識時刻よりも検出遅延分過去からキーワードの発話時間分過去まで存在している。この区間の音量を推定する必要がある。例えば、キーワード認識時刻をt1とし、検出遅延をt2とし、キーワードの発話時間をt3とすると、時刻t1-t2-t3から時刻t1-t2までの時間区間の音量を推定する必要がある。このため、FIFOバッファ101Aは、音声信号を入力とし、キーワード発話時間t3と、キーワード検出遅延t2とを加えた時間分、先入先出で、音声信号を蓄積する。キーワード発話時間t3とキーワード検出遅延t2は、あらかじめ標準的な発話時間と、標準的なキーワード検出遅延を固定値として与える。または、キーワード検出処理において、どの区間にキーワード発話が含まれるか検出可能な場合には、キーワード検出処理において得られるキーワード発話時間t3とキーワード検出遅延t2を逐次変更して用いても良い。この場合、FIFOバッファ長は、想定されるキーワード発話時間t3とキーワード検出遅延t2の加算値の最大値に設定する。
RMSレベル計算部101Bは、FIFOバッファ101Aに蓄積された音声信号のうち最古の音声信号から標準的なキーワード発話時間分の音声信号を取り出し、RMSレベル(Root Mean Square:二乗平均平方根)を計算して、この値を音量の推定値として出力する。例えば、時刻tの音声信号をX(t)とすると、音声信号X(t1-t2-t3),X(t1-t2-t3+1),…,X(t1-t2)を取り出し、RMSレベル(Root Mean Square)を計算する。
<ゲイン設定部102>
ゲイン設定部102は、音量の推定値を入力とし、キーワードを認識すると、言い換えると、認識部104から制御信号を受信すると、制御信号に対応するキーワードに係る音声信号の音量の推定値を保持し、この推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定し(S102)、出力する。例えば、あらかじめ音声認識に最適な音量(以下、最適音量ともいう)を設定しておき、最適音量を保持した推定値で割った値をゲインとして設定する。
ゲイン設定部102は、音量の推定値を入力とし、キーワードを認識すると、言い換えると、認識部104から制御信号を受信すると、制御信号に対応するキーワードに係る音声信号の音量の推定値を保持し、この推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定し(S102)、出力する。例えば、あらかじめ音声認識に最適な音量(以下、最適音量ともいう)を設定しておき、最適音量を保持した推定値で割った値をゲインとして設定する。
<調整部103>
調整部103は、音声信号と設定したゲインを入力とし、設定したゲインを用いて、ユーザにより発声された音声認識の対象の音声信号Xの音量を調整し(S103)、調整後の音声信号を出力する。例えば、設定したゲインを入力の音声信号に乗じて音量を調整する。
調整部103は、音声信号と設定したゲインを入力とし、設定したゲインを用いて、ユーザにより発声された音声認識の対象の音声信号Xの音量を調整し(S103)、調整後の音声信号を出力する。例えば、設定したゲインを入力の音声信号に乗じて音量を調整する。
<効果>
以上の構成により、音声認識の対象の音声信号の入力前にキーワードに基づきゲインを設定するため、発話の開始直後でも音量を適切に調整することができる。調整後の音声信号に対して音声認識処理を行うことで、発話の開始直後でも音声認識精度を高くすることができる。
以上の構成により、音声認識の対象の音声信号の入力前にキーワードに基づきゲインを設定するため、発話の開始直後でも音量を適切に調整することができる。調整後の音声信号に対して音声認識処理を行うことで、発話の開始直後でも音声認識精度を高くすることができる。
<変形例>
本実施形態では、RMSレベル計算部101Bが標準的なキーワード発話時間分の音声信号のRMSレベルを音量の推定値として常時求め、ゲイン設定部102が制御信号を受信したタイミングで、制御信号に対応するキーワードに係る音声信号の音量の推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定するが、以下の方法でゲインを設定してもよい。RMSレベル計算部101Bが制御信号を受信し、受信したタイミングで、FIFOバッファ101Aに蓄積された音声信号のうち最古の音声信号から標準的なキーワード発話時間分の音声信号を取り出し、標準的なキーワード発話時間分の音声信号のRMSレベルを音量の推定値として求め、ゲイン設定部102が音量の推定値を受信したタイミングで、音声認識の対象の音声信号Xに対するゲインを設定する。このような構成とすることで、RMSレベルを求める処理回数を減らすことができる。
本実施形態では、RMSレベル計算部101Bが標準的なキーワード発話時間分の音声信号のRMSレベルを音量の推定値として常時求め、ゲイン設定部102が制御信号を受信したタイミングで、制御信号に対応するキーワードに係る音声信号の音量の推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定するが、以下の方法でゲインを設定してもよい。RMSレベル計算部101Bが制御信号を受信し、受信したタイミングで、FIFOバッファ101Aに蓄積された音声信号のうち最古の音声信号から標準的なキーワード発話時間分の音声信号を取り出し、標準的なキーワード発話時間分の音声信号のRMSレベルを音量の推定値として求め、ゲイン設定部102が音量の推定値を受信したタイミングで、音声認識の対象の音声信号Xに対するゲインを設定する。このような構成とすることで、RMSレベルを求める処理回数を減らすことができる。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態と異なる部分を中心に説明する。
第一実施形態の音量推定部101では、標準的なキーワードの発話時間のRMSを求めているが、標準的なキーワードの発話時間と実際のキーワードの発話時間とに誤差がある場合、キーワードの音量を正確に推定することができない。そこで、本実施形態では、実際のキーワードの発話時間に左右されない音量の推定方法を採用する。
本実施形態に係る音量調整装置200は、音量推定部201と、認識部104と、ゲイン設定部102と、調整部103とを含む(図2参照)。
図6は、音量推定部201の機能ブロック図の例を示す。この例では、音量推定部201は、RMSレベル計算部201Aと、FIFOバッファ201Bと、ピーク値検出部201Cとを含む。
RMSレベル計算部201Aは、音声信号を入力とし、数十msから数百ms程度の窓長でRMSレベルを計算し、出力する。
FIFOバッファ201Bは、RMSレベルを入力とし、先入先出で、標準的なキーワードの発話時間とキーワードの検出遅延を加えた時間分のRMSレベルを蓄積する。
ピーク値検出部201Cは、FIFOバッファ201Bから蓄積されたRMSを取り出し、ピーク値を検出し、ピーク値を音量の推定値として出力する。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、標準的なキーワードの発話時間と実際のキーワードの発話時間とに誤差があっても、その影響を受けることなく音響を推定することができる。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、標準的なキーワードの発話時間と実際のキーワードの発話時間とに誤差があっても、その影響を受けることなく音響を推定することができる。
<第三実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態と異なる部分を中心に説明する。
本実施形態では、キーワードを認識する代わりに、音声認識を開始する際に行われる所定の操作を認識し、音声認識を開始する。所定の操作は、例えば、自動車のハンドルに設けられたボタンを押下する処理や、自動車の操作パネル等のタッチパネルをタッチする処理等である。音声認識の対象の音声信号は、どのようなものであってもよい。例えば、ユーザ(例えば運転手)がカーナビゲーションの設定や通話、音楽再生、窓の開閉などの実行を命じる音声コマンドに対応する音声信号等が考えられる。
図7は第一実施形態に係る音量調整装置300の機能ブロック図を、図8はその処理フローを示す。
音量調整装置300は、音量推定部301と、検出部304と、ゲイン設定部302と、調整部103と、ゲイン保存部305と、音声認識部306とを含む。
音量調整装置300は、音声信号とを入力とし、音声信号の音量を調整し、調整後の音声信号に対して音声認識を行い、認識結果を出力する。
<検出部304>
検出部304は、音声認識を開始する際に行われる所定の操作を検出し(S304)、制御信号を出力する。例えば、検出部304はボタンやタッチパネルからなり、制御信号は所定の操作(自動車のハンドルに設けられたボタンを押下する処理や、自動車の操作パネル等のタッチパネルをタッチする処理)が行われたとき「1」であり、その他のとき「0」である信号である。検出部304は、所定の操作を検出し、音量推定部301、ゲイン設定部302および音声認識部306に音声認識の開始を示す制御信号を出力する。
検出部304は、音声認識を開始する際に行われる所定の操作を検出し(S304)、制御信号を出力する。例えば、検出部304はボタンやタッチパネルからなり、制御信号は所定の操作(自動車のハンドルに設けられたボタンを押下する処理や、自動車の操作パネル等のタッチパネルをタッチする処理)が行われたとき「1」であり、その他のとき「0」である信号である。検出部304は、所定の操作を検出し、音量推定部301、ゲイン設定部302および音声認識部306に音声認識の開始を示す制御信号を出力する。
<音量推定部301>
音量推定部301は、音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、入力音声の音量を推定し(S301)、推定値を出力する。
音量推定部301は、音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、入力音声の音量を推定し(S301)、推定値を出力する。
図9は、音量推定部301の機能ブロック図の例を示す。この例では、音量推定部301は、音声区間検出部301Aと、FIFOバッファ301Bと、RMSレベル計算部301Cとを含む。
図10に示すように、一般的に、音声認識を開始する際に行われる所定の操作を行ってから、実際にユーザが音声認識の対象の発話を行うまでにはタイムラグが生じる。また、音声認識の対象の発話の長さは決まっていない。そこで、音量を推定する前に音声区間を検出する。
音声区間検出部301Aは、音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、音声信号に含まれる音声区間を検出し、音声区間に関する情報を出力する。なお、音声区間検出技術としてどのような技術を用いてもよい。音声区間に関する情報とは、例えば、音声区間の開始時刻と終了時刻、音声区間の開始時刻と音声区間の継続長等の情報であり、音声区間が分かる情報であればどのようなものであってもよい。
FIFOバッファ301Bは、音声信号を入力とし、音声認識の対象の発話の想定される最大時間分だけ、先入先出で、音声信号を蓄積する。
RMSレベル計算部301Cは、音声区間に関する情報を受け取り、音声区間に対応する音声信号をFIFOバッファ301Bから取り出し、音声区間のRMSレベルを計算し、音量の推定値として出力する。
<ゲイン設定部302、ゲイン保存部305>
ゲイン設定部302は、音量の推定値を入力とし、音量の推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定し(S302)、ゲイン保存部305に保存する。例えば、あらかじめ音声認識に最適な音量を設定しておき、最適音量を音量推定部301で推定した推定値(n-1番目の音声信号X(n-1)の音量の推定値)で割った値をゲインg(n)として設定する。
ゲイン設定部302は、音量の推定値を入力とし、音量の推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定し(S302)、ゲイン保存部305に保存する。例えば、あらかじめ音声認識に最適な音量を設定しておき、最適音量を音量推定部301で推定した推定値(n-1番目の音声信号X(n-1)の音量の推定値)で割った値をゲインg(n)として設定する。
ゲイン設定部302は、ゲイン保存部305に1つ前の音声認識時の音量の推定値がある場合には、ゲイン保存部305からその推定値を取り出し、調整部103に出力する。つまり、この場合、ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定する。
ゲイン設定部302は、ゲイン保存部305に1つ前の音声認識時の音量の推定値がない場合(n=1の場合)には、ユーザにより発声された音声認識の対象のn番目の音声信号X(n)に対応する音量の推定値を用いて、音声認識の対象の音声信号X(n)に対するゲインg(n)を設定し、調整部103に出力する。
なお、調整部103は、音声信号と設定したゲインを入力とし、設定したゲインg(n)を用いて、ユーザにより発声された音声認識の対象のn番目の音声信号X(n)の音量を調整し(S103)、調整後の音声信号を出力する。
このような構成とすることで、n≧2において、n-1番目の音声信号X(n-1)を用いて、ゲインg(n)を設定しておき、音量の推定遅れを防ぐことができる。
<音声認識部306>
音声認識部306は、調整後の音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、音量を調整した音声信号X(n)を音声認識し(S306)、認識結果を出力する。
<音声認識部306>
音声認識部306は、調整後の音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、音量を調整した音声信号X(n)を音声認識し(S306)、認識結果を出力する。
<効果>
このような構成により第一実施形態と同様の効果を得ることができる。
このような構成により第一実施形態と同様の効果を得ることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (7)
- 音声認識を開始する際に用いられる所定の音声コマンドを認識する認識部と、
ユーザにより発声された前記所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定部と、
前記ゲインを用いて、前記音声信号Xの音量を調整する調整部と、を含む、
音量調整装置。 - 音声認識を開始する際に行われる所定の操作を検出する検出部と、
ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、前記ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定するゲイン設定部と、
前記所定の操作を検出した場合、前記ゲインg(n)を用いて、前記音声信号X(n)の音量を調整する調整部と、
前記所定の操作を検出した場合、音量を調整した前記音声信号X(n)を音声認識する音声認識部と、を含む、
音量調整装置。 - 請求項1の音量調整装置であって、
前記所定の音声コマンドに係る音声信号の音量を推定する音量推定部を含み、
前記ゲイン設定部は、音声認識に最適な音量を、前記所定の音声コマンドに係る音声信号の音量の推定値で割った値を前記ゲインとして設定する、
音量調整装置。 - 請求項2の音量調整装置であって、
前記音声信号X(n-1)の音量を推定する音量推定部を含み、
前記ゲイン設定部は、音声認識に最適な音量を、前記音声信号X(n-1)の音量の推定値で割った値を前記ゲインg(n)として設定する、
音量調整装置。 - 音声認識を開始する際に用いられる所定の音声コマンドを認識する認識ステップと、
ユーザにより発声された前記所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定ステップと、
前記ゲインを用いて、前記音声信号Xの音量を調整する調整ステップと、を含む、
音量調整方法。 - 音声認識を開始する際に行われる所定の操作を検出する検出ステップと、
ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、前記ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定するゲイン設定ステップと、
前記所定の操作を検出した場合、前記ゲインg(n)を用いて、前記音声信号X(n)の音量を調整する調整ステップと、
前記所定の操作を検出した場合、音量を調整した前記音声信号X(n)を音声認識する音声認識ステップと、を含む、
音量調整方法。 - 請求項1から請求項4の何れかの音量調整装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019071888A JP2020170101A (ja) | 2019-04-04 | 2019-04-04 | 音量調整装置、その方法、およびプログラム |
US17/600,029 US20220189499A1 (en) | 2019-04-04 | 2020-03-23 | Volume control apparatus, methods and programs for the same |
PCT/JP2020/012576 WO2020203384A1 (ja) | 2019-04-04 | 2020-03-23 | 音量調整装置、その方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019071888A JP2020170101A (ja) | 2019-04-04 | 2019-04-04 | 音量調整装置、その方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020170101A true JP2020170101A (ja) | 2020-10-15 |
Family
ID=72667634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019071888A Pending JP2020170101A (ja) | 2019-04-04 | 2019-04-04 | 音量調整装置、その方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220189499A1 (ja) |
JP (1) | JP2020170101A (ja) |
WO (1) | WO2020203384A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05224694A (ja) * | 1992-02-14 | 1993-09-03 | Ricoh Co Ltd | 音声認識装置 |
JP2006145791A (ja) * | 2004-11-18 | 2006-06-08 | Nec Saitama Ltd | 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置 |
JP2006270528A (ja) * | 2005-03-24 | 2006-10-05 | Oki Electric Ind Co Ltd | 音声信号利得制御回路 |
JP2010230809A (ja) * | 2009-03-26 | 2010-10-14 | Advanced Telecommunication Research Institute International | 録音装置 |
JP2018518096A (ja) * | 2015-04-24 | 2018-07-05 | シーラス ロジック インターナショナル セミコンダクター リミテッド | 音声アクティブ化システムのためのアナログ/デジタルコンバータ(adc)ダイナミックレンジ拡張 |
US20190385608A1 (en) * | 2019-08-12 | 2019-12-19 | Lg Electronics Inc. | Intelligent voice recognizing method, apparatus, and intelligent computing device |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101459319B1 (ko) * | 2008-01-29 | 2014-11-07 | 삼성전자주식회사 | 오디오 볼륨 자동 조절 방법 및 장치 |
US9230538B2 (en) * | 2011-04-08 | 2016-01-05 | Mitsubishi Electric Corporation | Voice recognition device and navigation device |
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US10810996B2 (en) * | 2018-07-31 | 2020-10-20 | Nuance Communications, Inc. | System and method for performing automatic speech recognition system parameter adjustment via machine learning |
-
2019
- 2019-04-04 JP JP2019071888A patent/JP2020170101A/ja active Pending
-
2020
- 2020-03-23 WO PCT/JP2020/012576 patent/WO2020203384A1/ja active Application Filing
- 2020-03-23 US US17/600,029 patent/US20220189499A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05224694A (ja) * | 1992-02-14 | 1993-09-03 | Ricoh Co Ltd | 音声認識装置 |
JP2006145791A (ja) * | 2004-11-18 | 2006-06-08 | Nec Saitama Ltd | 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置 |
JP2006270528A (ja) * | 2005-03-24 | 2006-10-05 | Oki Electric Ind Co Ltd | 音声信号利得制御回路 |
JP2010230809A (ja) * | 2009-03-26 | 2010-10-14 | Advanced Telecommunication Research Institute International | 録音装置 |
JP2018518096A (ja) * | 2015-04-24 | 2018-07-05 | シーラス ロジック インターナショナル セミコンダクター リミテッド | 音声アクティブ化システムのためのアナログ/デジタルコンバータ(adc)ダイナミックレンジ拡張 |
US20190385608A1 (en) * | 2019-08-12 | 2019-12-19 | Lg Electronics Inc. | Intelligent voice recognizing method, apparatus, and intelligent computing device |
Also Published As
Publication number | Publication date |
---|---|
US20220189499A1 (en) | 2022-06-16 |
WO2020203384A1 (ja) | 2020-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10679629B2 (en) | Device arbitration by multiple speech processing systems | |
CN110140168B (zh) | 上下文热词 | |
KR101942521B1 (ko) | 음성 엔드포인팅 | |
EP2700071B1 (en) | Speech recognition using multiple language models | |
US7610199B2 (en) | Method and apparatus for obtaining complete speech signals for speech recognition applications | |
US8099277B2 (en) | Speech-duration detector and computer program product therefor | |
JP2021503633A (ja) | 音声ノイズ軽減方法、装置、サーバー及び記憶媒体 | |
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
US20130080165A1 (en) | Model Based Online Normalization of Feature Distribution for Noise Robust Speech Recognition | |
US20080154596A1 (en) | Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack | |
CN112863496B (zh) | 一种语音端点检测方法以及装置 | |
WO2020203384A1 (ja) | 音量調整装置、その方法、およびプログラム | |
JP6992713B2 (ja) | 連続発話推定装置、連続発話推定方法、およびプログラム | |
EP3852099B1 (en) | Keyword detection apparatus, keyword detection method, and program | |
JP7248087B2 (ja) | 連続発話推定装置、連続発話推定方法、およびプログラム | |
US20240233725A1 (en) | Continuous utterance estimation apparatus, continuous utterance estimatoin method, and program | |
JP7409407B2 (ja) | チャネル選択装置、チャネル選択方法、およびプログラム | |
JP7323936B2 (ja) | 疲労推定装置 | |
EP4024705A1 (en) | Speech sound response device and speech sound response method | |
JP2012189829A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
US11600273B2 (en) | Speech processing apparatus, method, and program | |
CN116264078A (zh) | 语音识别的处理方法、装置、电子设备及可读介质 | |
JP2007079607A (ja) | 時系列情報制御システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220824 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221108 |