JP2020170101A - 音量調整装置、その方法、およびプログラム - Google Patents

音量調整装置、その方法、およびプログラム Download PDF

Info

Publication number
JP2020170101A
JP2020170101A JP2019071888A JP2019071888A JP2020170101A JP 2020170101 A JP2020170101 A JP 2020170101A JP 2019071888 A JP2019071888 A JP 2019071888A JP 2019071888 A JP2019071888 A JP 2019071888A JP 2020170101 A JP2020170101 A JP 2020170101A
Authority
JP
Japan
Prior art keywords
volume
voice
gain
unit
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019071888A
Other languages
English (en)
Inventor
小林 和則
Kazunori Kobayashi
和則 小林
翔一郎 齊藤
Shoichiro Saito
翔一郎 齊藤
弘章 伊藤
Hiroaki Ito
弘章 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019071888A priority Critical patent/JP2020170101A/ja
Priority to US17/600,029 priority patent/US20220189499A1/en
Priority to PCT/JP2020/012576 priority patent/WO2020203384A1/ja
Publication of JP2020170101A publication Critical patent/JP2020170101A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • H03G3/301Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers the gain being continuously variable
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】発話の開始直後でも音量を適切に調整することができる音量調整装置、その方法、およびプログラムを提供する。【解決手段】音量調整装置は、音声認識を開始する際に用いられる所定の音声コマンドを認識する認識部と、ユーザにより発声された所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定部と、ゲインを用いて、音声信号Xの音量を調整する調整部と、を含む。【選択図】図2

Description

本発明は、音声信号の音量を調整する音量調整装置、その方法、およびプログラムに関する。
音量調整の従来技術として特許文献1が知られている。
図1は、特許文献1に記載の音量調整技術の構成を示す。図1の音量調整装置は、音声信号を入力とし、音声信号の音量を推定する音量推定部91と、推定した音量に対して適切なゲイン値を設定するゲイン設定部92と、設定したゲインを音声信号に乗算するゲイン乗算部93から構成される。ゲイン値を最適音量を推定した音量で割った値に設定することで、音声を適正音量に調整することができる。
国際公開第WO2004/071130号
しかしながら、特許文献1の方法では、音量の推定に時間を要するため、音量調整に遅れが生じ、発話の開始直後において音量が不適切となる場合がある。このため、例えば音声認識の前処理として特許文献1に記載の技術を用いた場合、発話の開始直後の音声認識率が低下しやすいという問題が生じる。
本発明は、発話の開始直後でも音量を適切に調整することができる音量調整装置、その方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音量調整装置は、音声認識を開始する際に用いられる所定の音声コマンドを認識する認識部と、ユーザにより発声された所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定部と、ゲインを用いて、音声信号Xの音量を調整する調整部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、音量調整装置は、音声認識を開始する際に行われる所定の操作を検出する検出部と、ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定するゲイン設定部と、所定の操作を検出した場合、ゲインg(n)を用いて、音声信号X(n)の音量を調整する調整部と、所定の操作を検出した場合、音量を調整した音声信号X(n)を音声認識する音声認識部と、を含む。
本発明によれば、発話の開始直後でも音量を適切に調整することができるという効果を奏する。特に、音声認識を行う為に適切となるような音量とすることができる。
従来技術に係る音量調整装置の機能ブロック図。 第一実施形態に係る音量調整装置の機能ブロック図。 第一実施形態に係る音量調整装置の処理フローの例を示す図。 第一実施形態に係る音量推定部の機能ブロック図。 キーワード発話時間を説明するための図。 第二実施形態に係る音量推定部の機能ブロック図。 第三実施形態に係る音量調整装置の機能ブロック図。 第三実施形態に係る音量調整装置の処理フローの例を示す図。 第三実施形態に係る音量推定部の機能ブロック図。 発話区間を説明するための図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態のポイント>
音声認識を行う際に、所定の言葉(キーワード)に対応する発話を音声認識開始のトリガーとして利用する方法がある。本実施形態では、このキーワード発話区間の音量を用いて、音声認識の対象の音声信号の音量の調整を行う。キーワードに対応する発話と音声認識の対象となる発話とは、通常、同一人物の発話であるため、発話音量に相関があるものと考えられる。すなわち、キーワードの発話音量が小さければ音声認識の対象の発話も小さい可能性が高くなり、キーワードの発話音量が大きければ音声認識の対象の発話も大きい可能性が高くなる。このことを利用して、音声認識の対象の発話の前に発せられるキーワードの音量を推定し、その推定値からゲインを設定し、音声認識の対象の発話前から音量を調整する。
<第一実施形態>
図2は第一実施形態に係る音量調整装置100の機能ブロック図を、図3はその処理フローを示す。
音量調整装置100は、音量推定部101と、認識部104と、ゲイン設定部102と、調整部103とを含む。
音量調整装置100は、音声信号を入力とし、音声信号の音量を調整し、調整後の音声信号を出力する。なお、音声信号には、少なくとも、音声認識を開始する際に用いられる所定の音声コマンド(前述のキーワード)に対応する音声信号と、音声認識の対象の音声信号とがある。
音量調整装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音量調整装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音量調整装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音量調整装置100の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音量調整装置100が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音量調整装置100がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、音量調整装置100の外部に備える構成としてもよい。
以下、各部について説明する。
<認識部104>
認識部104は、音声信号を入力とし、音声信号に含まれるキーワードを認識する(S104)。例えば、認識部104は、音声信号にキーワードが含まれるか否かを検出し、含まれる場合には、ゲイン設定部102に制御信号を出力する。なお、キーワード検出技術としてどのような技術を用いてもよい。例えば、音声信号に対して音声認識を行いテキストで認識結果にキーワードが含まれるか否かにより認識してもよいし、音声信号の波形と予め求めておいたキーワードの波形との類似度と閾値との大小関係により認識してもよい。
<音量推定部101>
音量推定部101は、音声信号を入力とし、入力音声の音量を推定し(S101)、推定値を出力する。なお、ここで推定したい音量は、キーワードに係る音声信号の音量であり、認識部104において、キーワードを認識した後は、対応する音声認識処理が終了するまで音量推定(S101)を停止してもよい。この場合、音量推定部101は、認識部104から制御信号を受け取る構成とし、受け取りとともに音量の推定を停止する。
図4は、音量推定部101の機能ブロック図の例を示す。この例では、音量推定部101は、FIFOバッファ101Aと、RMSレベル計算部101Bとを含む。
図5に示すように、キーワードの認識に必要な時間(以下、検出遅延ともいう)があるため、キーワードの発話時間は、キーワード認識時刻よりも検出遅延分過去からキーワードの発話時間分過去まで存在している。この区間の音量を推定する必要がある。例えば、キーワード認識時刻をt1とし、検出遅延をt2とし、キーワードの発話時間をt3とすると、時刻t1-t2-t3から時刻t1-t2までの時間区間の音量を推定する必要がある。このため、FIFOバッファ101Aは、音声信号を入力とし、キーワード発話時間t3と、キーワード検出遅延t2とを加えた時間分、先入先出で、音声信号を蓄積する。キーワード発話時間t3とキーワード検出遅延t2は、あらかじめ標準的な発話時間と、標準的なキーワード検出遅延を固定値として与える。または、キーワード検出処理において、どの区間にキーワード発話が含まれるか検出可能な場合には、キーワード検出処理において得られるキーワード発話時間t3とキーワード検出遅延t2を逐次変更して用いても良い。この場合、FIFOバッファ長は、想定されるキーワード発話時間t3とキーワード検出遅延t2の加算値の最大値に設定する。
RMSレベル計算部101Bは、FIFOバッファ101Aに蓄積された音声信号のうち最古の音声信号から標準的なキーワード発話時間分の音声信号を取り出し、RMSレベル(Root Mean Square:二乗平均平方根)を計算して、この値を音量の推定値として出力する。例えば、時刻tの音声信号をX(t)とすると、音声信号X(t1-t2-t3),X(t1-t2-t3+1),…,X(t1-t2)を取り出し、RMSレベル(Root Mean Square)を計算する。
<ゲイン設定部102>
ゲイン設定部102は、音量の推定値を入力とし、キーワードを認識すると、言い換えると、認識部104から制御信号を受信すると、制御信号に対応するキーワードに係る音声信号の音量の推定値を保持し、この推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定し(S102)、出力する。例えば、あらかじめ音声認識に最適な音量(以下、最適音量ともいう)を設定しておき、最適音量を保持した推定値で割った値をゲインとして設定する。
<調整部103>
調整部103は、音声信号と設定したゲインを入力とし、設定したゲインを用いて、ユーザにより発声された音声認識の対象の音声信号Xの音量を調整し(S103)、調整後の音声信号を出力する。例えば、設定したゲインを入力の音声信号に乗じて音量を調整する。
<効果>
以上の構成により、音声認識の対象の音声信号の入力前にキーワードに基づきゲインを設定するため、発話の開始直後でも音量を適切に調整することができる。調整後の音声信号に対して音声認識処理を行うことで、発話の開始直後でも音声認識精度を高くすることができる。
<変形例>
本実施形態では、RMSレベル計算部101Bが標準的なキーワード発話時間分の音声信号のRMSレベルを音量の推定値として常時求め、ゲイン設定部102が制御信号を受信したタイミングで、制御信号に対応するキーワードに係る音声信号の音量の推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定するが、以下の方法でゲインを設定してもよい。RMSレベル計算部101Bが制御信号を受信し、受信したタイミングで、FIFOバッファ101Aに蓄積された音声信号のうち最古の音声信号から標準的なキーワード発話時間分の音声信号を取り出し、標準的なキーワード発話時間分の音声信号のRMSレベルを音量の推定値として求め、ゲイン設定部102が音量の推定値を受信したタイミングで、音声認識の対象の音声信号Xに対するゲインを設定する。このような構成とすることで、RMSレベルを求める処理回数を減らすことができる。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態の音量推定部101では、標準的なキーワードの発話時間のRMSを求めているが、標準的なキーワードの発話時間と実際のキーワードの発話時間とに誤差がある場合、キーワードの音量を正確に推定することができない。そこで、本実施形態では、実際のキーワードの発話時間に左右されない音量の推定方法を採用する。
本実施形態に係る音量調整装置200は、音量推定部201と、認識部104と、ゲイン設定部102と、調整部103とを含む(図2参照)。
図6は、音量推定部201の機能ブロック図の例を示す。この例では、音量推定部201は、RMSレベル計算部201Aと、FIFOバッファ201Bと、ピーク値検出部201Cとを含む。
RMSレベル計算部201Aは、音声信号を入力とし、数十msから数百ms程度の窓長でRMSレベルを計算し、出力する。
FIFOバッファ201Bは、RMSレベルを入力とし、先入先出で、標準的なキーワードの発話時間とキーワードの検出遅延を加えた時間分のRMSレベルを蓄積する。
ピーク値検出部201Cは、FIFOバッファ201Bから蓄積されたRMSを取り出し、ピーク値を検出し、ピーク値を音量の推定値として出力する。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、標準的なキーワードの発話時間と実際のキーワードの発話時間とに誤差があっても、その影響を受けることなく音響を推定することができる。
<第三実施形態>
第一実施形態と異なる部分を中心に説明する。
本実施形態では、キーワードを認識する代わりに、音声認識を開始する際に行われる所定の操作を認識し、音声認識を開始する。所定の操作は、例えば、自動車のハンドルに設けられたボタンを押下する処理や、自動車の操作パネル等のタッチパネルをタッチする処理等である。音声認識の対象の音声信号は、どのようなものであってもよい。例えば、ユーザ(例えば運転手)がカーナビゲーションの設定や通話、音楽再生、窓の開閉などの実行を命じる音声コマンドに対応する音声信号等が考えられる。
図7は第一実施形態に係る音量調整装置300の機能ブロック図を、図8はその処理フローを示す。
音量調整装置300は、音量推定部301と、検出部304と、ゲイン設定部302と、調整部103と、ゲイン保存部305と、音声認識部306とを含む。
音量調整装置300は、音声信号とを入力とし、音声信号の音量を調整し、調整後の音声信号に対して音声認識を行い、認識結果を出力する。
<検出部304>
検出部304は、音声認識を開始する際に行われる所定の操作を検出し(S304)、制御信号を出力する。例えば、検出部304はボタンやタッチパネルからなり、制御信号は所定の操作(自動車のハンドルに設けられたボタンを押下する処理や、自動車の操作パネル等のタッチパネルをタッチする処理)が行われたとき「1」であり、その他のとき「0」である信号である。検出部304は、所定の操作を検出し、音量推定部301、ゲイン設定部302および音声認識部306に音声認識の開始を示す制御信号を出力する。
<音量推定部301>
音量推定部301は、音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、入力音声の音量を推定し(S301)、推定値を出力する。
図9は、音量推定部301の機能ブロック図の例を示す。この例では、音量推定部301は、音声区間検出部301Aと、FIFOバッファ301Bと、RMSレベル計算部301Cとを含む。
図10に示すように、一般的に、音声認識を開始する際に行われる所定の操作を行ってから、実際にユーザが音声認識の対象の発話を行うまでにはタイムラグが生じる。また、音声認識の対象の発話の長さは決まっていない。そこで、音量を推定する前に音声区間を検出する。
音声区間検出部301Aは、音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、音声信号に含まれる音声区間を検出し、音声区間に関する情報を出力する。なお、音声区間検出技術としてどのような技術を用いてもよい。音声区間に関する情報とは、例えば、音声区間の開始時刻と終了時刻、音声区間の開始時刻と音声区間の継続長等の情報であり、音声区間が分かる情報であればどのようなものであってもよい。
FIFOバッファ301Bは、音声信号を入力とし、音声認識の対象の発話の想定される最大時間分だけ、先入先出で、音声信号を蓄積する。
RMSレベル計算部301Cは、音声区間に関する情報を受け取り、音声区間に対応する音声信号をFIFOバッファ301Bから取り出し、音声区間のRMSレベルを計算し、音量の推定値として出力する。
<ゲイン設定部302、ゲイン保存部305>
ゲイン設定部302は、音量の推定値を入力とし、音量の推定値を用いて、音声認識の対象の音声信号Xに対するゲインを設定し(S302)、ゲイン保存部305に保存する。例えば、あらかじめ音声認識に最適な音量を設定しておき、最適音量を音量推定部301で推定した推定値(n-1番目の音声信号X(n-1)の音量の推定値)で割った値をゲインg(n)として設定する。
ゲイン設定部302は、ゲイン保存部305に1つ前の音声認識時の音量の推定値がある場合には、ゲイン保存部305からその推定値を取り出し、調整部103に出力する。つまり、この場合、ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定する。
ゲイン設定部302は、ゲイン保存部305に1つ前の音声認識時の音量の推定値がない場合(n=1の場合)には、ユーザにより発声された音声認識の対象のn番目の音声信号X(n)に対応する音量の推定値を用いて、音声認識の対象の音声信号X(n)に対するゲインg(n)を設定し、調整部103に出力する。
なお、調整部103は、音声信号と設定したゲインを入力とし、設定したゲインg(n)を用いて、ユーザにより発声された音声認識の対象のn番目の音声信号X(n)の音量を調整し(S103)、調整後の音声信号を出力する。
このような構成とすることで、n≧2において、n-1番目の音声信号X(n-1)を用いて、ゲインg(n)を設定しておき、音量の推定遅れを防ぐことができる。
<音声認識部306>
音声認識部306は、調整後の音声信号を入力とし、音声認識の開始を示す制御信号を受け取ると、音量を調整した音声信号X(n)を音声認識し(S306)、認識結果を出力する。
<効果>
このような構成により第一実施形態と同様の効果を得ることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 音声認識を開始する際に用いられる所定の音声コマンドを認識する認識部と、
    ユーザにより発声された前記所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定部と、
    前記ゲインを用いて、前記音声信号Xの音量を調整する調整部と、を含む、
    音量調整装置。
  2. 音声認識を開始する際に行われる所定の操作を検出する検出部と、
    ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、前記ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定するゲイン設定部と、
    前記所定の操作を検出した場合、前記ゲインg(n)を用いて、前記音声信号X(n)の音量を調整する調整部と、
    前記所定の操作を検出した場合、音量を調整した前記音声信号X(n)を音声認識する音声認識部と、を含む、
    音量調整装置。
  3. 請求項1の音量調整装置であって、
    前記所定の音声コマンドに係る音声信号の音量を推定する音量推定部を含み、
    前記ゲイン設定部は、音声認識に最適な音量を、前記所定の音声コマンドに係る音声信号の音量の推定値で割った値を前記ゲインとして設定する、
    音量調整装置。
  4. 請求項2の音量調整装置であって、
    前記音声信号X(n-1)の音量を推定する音量推定部を含み、
    前記ゲイン設定部は、音声認識に最適な音量を、前記音声信号X(n-1)の音量の推定値で割った値を前記ゲインg(n)として設定する、
    音量調整装置。
  5. 音声認識を開始する際に用いられる所定の音声コマンドを認識する認識ステップと、
    ユーザにより発声された前記所定の音声コマンドに係る音声信号を用いて、音声認識の対象の音声信号Xに対するゲインを設定するゲイン設定ステップと、
    前記ゲインを用いて、前記音声信号Xの音量を調整する調整ステップと、を含む、
    音量調整方法。
  6. 音声認識を開始する際に行われる所定の操作を検出する検出ステップと、
    ユーザにより発声された音声認識の対象のn-1番目の音声信号X(n-1)を用いて、前記ユーザにより発声される音声認識の対象のn番目の音声信号X(n)に対するゲインg(n)を設定するゲイン設定ステップと、
    前記所定の操作を検出した場合、前記ゲインg(n)を用いて、前記音声信号X(n)の音量を調整する調整ステップと、
    前記所定の操作を検出した場合、音量を調整した前記音声信号X(n)を音声認識する音声認識ステップと、を含む、
    音量調整方法。
  7. 請求項1から請求項4の何れかの音量調整装置としてコンピュータを機能させるためのプログラム。
JP2019071888A 2019-04-04 2019-04-04 音量調整装置、その方法、およびプログラム Pending JP2020170101A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019071888A JP2020170101A (ja) 2019-04-04 2019-04-04 音量調整装置、その方法、およびプログラム
US17/600,029 US20220189499A1 (en) 2019-04-04 2020-03-23 Volume control apparatus, methods and programs for the same
PCT/JP2020/012576 WO2020203384A1 (ja) 2019-04-04 2020-03-23 音量調整装置、その方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019071888A JP2020170101A (ja) 2019-04-04 2019-04-04 音量調整装置、その方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2020170101A true JP2020170101A (ja) 2020-10-15

Family

ID=72667634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019071888A Pending JP2020170101A (ja) 2019-04-04 2019-04-04 音量調整装置、その方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220189499A1 (ja)
JP (1) JP2020170101A (ja)
WO (1) WO2020203384A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05224694A (ja) * 1992-02-14 1993-09-03 Ricoh Co Ltd 音声認識装置
JP2006145791A (ja) * 2004-11-18 2006-06-08 Nec Saitama Ltd 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置
JP2006270528A (ja) * 2005-03-24 2006-10-05 Oki Electric Ind Co Ltd 音声信号利得制御回路
JP2010230809A (ja) * 2009-03-26 2010-10-14 Advanced Telecommunication Research Institute International 録音装置
JP2018518096A (ja) * 2015-04-24 2018-07-05 シーラス ロジック インターナショナル セミコンダクター リミテッド 音声アクティブ化システムのためのアナログ/デジタルコンバータ(adc)ダイナミックレンジ拡張
US20190385608A1 (en) * 2019-08-12 2019-12-19 Lg Electronics Inc. Intelligent voice recognizing method, apparatus, and intelligent computing device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101459319B1 (ko) * 2008-01-29 2014-11-07 삼성전자주식회사 오디오 볼륨 자동 조절 방법 및 장치
US9230538B2 (en) * 2011-04-08 2016-01-05 Mitsubishi Electric Corporation Voice recognition device and navigation device
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10810996B2 (en) * 2018-07-31 2020-10-20 Nuance Communications, Inc. System and method for performing automatic speech recognition system parameter adjustment via machine learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05224694A (ja) * 1992-02-14 1993-09-03 Ricoh Co Ltd 音声認識装置
JP2006145791A (ja) * 2004-11-18 2006-06-08 Nec Saitama Ltd 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置
JP2006270528A (ja) * 2005-03-24 2006-10-05 Oki Electric Ind Co Ltd 音声信号利得制御回路
JP2010230809A (ja) * 2009-03-26 2010-10-14 Advanced Telecommunication Research Institute International 録音装置
JP2018518096A (ja) * 2015-04-24 2018-07-05 シーラス ロジック インターナショナル セミコンダクター リミテッド 音声アクティブ化システムのためのアナログ/デジタルコンバータ(adc)ダイナミックレンジ拡張
US20190385608A1 (en) * 2019-08-12 2019-12-19 Lg Electronics Inc. Intelligent voice recognizing method, apparatus, and intelligent computing device

Also Published As

Publication number Publication date
US20220189499A1 (en) 2022-06-16
WO2020203384A1 (ja) 2020-10-08

Similar Documents

Publication Publication Date Title
US10679629B2 (en) Device arbitration by multiple speech processing systems
CN110140168B (zh) 上下文热词
KR101942521B1 (ko) 음성 엔드포인팅
EP2700071B1 (en) Speech recognition using multiple language models
US7610199B2 (en) Method and apparatus for obtaining complete speech signals for speech recognition applications
US8099277B2 (en) Speech-duration detector and computer program product therefor
JP2021503633A (ja) 音声ノイズ軽減方法、装置、サーバー及び記憶媒体
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US20130080165A1 (en) Model Based Online Normalization of Feature Distribution for Noise Robust Speech Recognition
US20080154596A1 (en) Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
CN112863496B (zh) 一种语音端点检测方法以及装置
WO2020203384A1 (ja) 音量調整装置、その方法、およびプログラム
JP6992713B2 (ja) 連続発話推定装置、連続発話推定方法、およびプログラム
EP3852099B1 (en) Keyword detection apparatus, keyword detection method, and program
JP7248087B2 (ja) 連続発話推定装置、連続発話推定方法、およびプログラム
US20240233725A1 (en) Continuous utterance estimation apparatus, continuous utterance estimatoin method, and program
JP7409407B2 (ja) チャネル選択装置、チャネル選択方法、およびプログラム
JP7323936B2 (ja) 疲労推定装置
EP4024705A1 (en) Speech sound response device and speech sound response method
JP2012189829A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
US11600273B2 (en) Speech processing apparatus, method, and program
CN116264078A (zh) 语音识别的处理方法、装置、电子设备及可读介质
JP2007079607A (ja) 時系列情報制御システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220824

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221108