JP2010136080A

JP2010136080A - 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器

Info

Publication number: JP2010136080A
Application number: JP2008309704A
Authority: JP
Inventors: Masayoshi Noguchi; 雅義野口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-12-04
Filing date: 2008-12-04
Publication date: 2010-06-17
Anticipated expiration: 2028-12-04
Also published as: US8548173B2; EP2194732A2; JP4826625B2; EP2194732A3; US20100189270A1; CN101764586A; CN101764586B

Abstract

【課題】台詞などの人声が聞きやすくなるようにした音量補正を可能にする装置および方法を提供する。
【解決手段】入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を設ける。声平均レベル検出手段において、入力音声信号中の人声の音声信号の平均レベルを検出する。ゲイン制御信号生成手段において、声平均レベル検出手段で検出された人声の音声信号の平均レベルが、基準レベルとなるように入力音声信号のゲインを制御するゲイン制御信号を生成し、生成したゲイン制御信号を可変ゲイン手段に供給して、入力音声信号のゲインを制御する。
【選択図】図１

Description

この発明は、例えばテレビ放送受信機などに代表される電子機器の音声出力部に適用して好適な音量補正装置、音量補正方法および音量補正プログラムに関する。

テレビ放送受信機で受信する放送チャンネルを切り替えたときや、ＡＶ（Ａｕｄｉｏ−Ｖｉｓｕａｌ）システムにおいて、ＡＶセンタで複数の入力機器の切り替えがなされたとき、コンテンツ間のレベル差により、出力音量に大きな変化が生じてしてしまうことがある。

このような場合、ユーザは、自分が好みの音量にするためには、リモコン等を用いてボリューム操作をして音量調節する必要があり、わずらわしさを感じる場合がある。

また、同一コンテンツ内（例えば、同一の放送チャンネル内や同一の放送番組内）においても、コマーシャル（ＣＭ）部分やシーンの変化によって、出力音量が変化し、不快に思うことがある。

この問題を解決する音量補正方式が従来から種々提案されている。その一例のＡＧＣ（Auto Gain Control；自動利得制御）による音量制御方式が広く知られている。

図２６は、このＡＧＣを用いた音量補正部の構成例を示すブロック図である。この図２６の例は、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲについて音量補正をする場合である。

すなわち、この例においては、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、それぞれ、ゲイン制御信号によりゲインが可変制御される可変ゲインアンプ１Ｌおよび１Ｒに供給される。

また、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、加算部２で互いに加算される。そして、加算部２からの加算出力信号は、アンプ３にて１／２ゲイン倍された後、平均レベル検出部４に供給され、この平均レベル検出部４で、加算出力信号の平均レベルが検出される。

そして、平均レベル検出部４で検出された平均レベルがゲイン制御信号生成部５に供給される。このゲイン制御信号生成部５では、平均レベル検出部４からの平均レベルと、予め定められている基準レベルと比較し、その比較結果を用いて両レベルの差がゼロとなるようにするゲイン制御信号を生成し、可変ゲインアンプ１Ｌ，１Ｒに供給する。

可変ゲインアンプ１Ｌ，１Ｒは、ゲイン制御信号生成部５からのゲイン制御信号によりゲインが可変制御される。この場合、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、この可変ゲインアンプ１Ｌ，１Ｒにおいて、前記加算部２からの加算出力信号の平均レベルが基準レベルと等しくなるようにゲイン制御される。

この結果、可変ゲインアンプ１Ｌ，１Ｒから得られる左右２チャンネルの出力音声信号ＳｏＬおよびＳｏＲは、小さな音は大きく、大きな音は小さく抑えられて、自動的に一定レベルの音量になるように補正される。

上述したＡＧＣによる音量補正方式の他にも、種々の音量補正方式が提案されている。例えば、特許文献１（特許３３２１８２０号公報）には、コンプレッサーを設け、大レベルの音声入力があった場合には、入力レベルに対して出力音声レベルを小さく制御し、音量をある一定の範囲に制御するようにする方式が開示されている。

上記の特許文献は、次の通りである。
特許３３２１８２０号公報

ところで、例えばテレビ放送や、記録メディアに記録されている映画コンテンツ等においては、その音声信号中には、人声、ＢＧＭ（Background Music）、効果音といった多種類の音が含まれている。ユーザが、リモコン等を用いて手動でボリュームコントロールを行う場合、音声信号中の人声のレベルを基準にして、台詞が適切に聞こえるようにレベルの調整操作を行っていることが多い。

一方、上述した従来の音量補正方式は、音声信号全体のレベルを監視して音量制御を行う方式である。例えばＡＧＣ方式の場合、音声信号全体の平均レベルを基準にして、音量制御（ゲイン制御）を行った場合、音声信号全体としての音量制御がなされ、うるさい音を出さないようにしたり、聞こえなかった小さな音を聞こえるようにしたりすることができる。

しかしながら、従来の音量補正方式では、人の声の大きさに着目して聞くと、当該人の声は必ずしも一定のレベルとはならず、台詞が聞き取りやすくなるとは言えない、という問題があった。

この発明は、上記の点に鑑みて、台詞などの人声が聞きやすくなるようにした音量補正を可能にする装置および方法を提供することを目的とする。

上記の課題を解決するために、第１の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記声平均レベル検出手段で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。

この第１の発明によれば、入力音声信号は、当該入力音声信号中の人声の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる台詞などの人声は、一定レベルとなり、聞き易い音量となる。

また、第２の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段と、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出され声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出された声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。

この第２の発明においては、ゲイン制御信号生成手段では、声以外平均レベル検出手段で検出された声以外平均レベルが、声平均レベル検出手段で検出され声平均レベルを、一定基準量以上超えているか否かにより、ゲイン制御信号の生成方法が異なる。

すなわち、声以外平均レベルが声平均レベルに対して、一定量以上とはなっていないときには、ゲイン制御信号生成手段は、声平均レベルが、基準レベルとなるように入力音声信号のゲインを制御するゲイン制御信号を生成する。また、声以外平均レベルが、声平均レベルよりも、一定量以上大きいときには、声以外平均レベルが、基準レベルとなるように入力音声信号のゲインを制御するゲイン制御信号を生成する。

したがって、第２の発明によれば、声以外平均レベルが声平均レベルに対して、一定量以上とはなっていないときには、入力音声信号は、当該入力音声信号中の人声の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる台詞などの人声は、一定レベルとなり、聞き易い音量となる。

また、声以外平均レベルが、声平均レベルよりも、一定量以上大きいときには、入力音声信号は、当該入力音声信号中の人声以外の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる人声の音声信号のレベルに比較して、声以外の音声信号のレベルが、一定量以上大きいときには、声平均レベルが基準レベルとなるようにする制御により、声以外の音声信号レベルが、さらに大きくなるのが防止される。そして、このとき、声以外の音声信号の平均レベルが一定レベルとなるように制御されるので、聞き易い音量となる。

この発明によれば、入力音声信号は、当該入力音声信号中の人声の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる台詞などの人声のレベルが変動したとしても、人声のレベルは自動的に一定レベルとなり、その音響再生音は、聞き易い音量となる。

また、この発明によれば、入力音声信号中に含まれる人声の音声信号のレベルに比較して、声以外の音声信号のレベルが、一定量以上大きいときには、声以外の音声信号の平均レベルが一定レベルとなり、その音響再生音は、聞き易い音量となる。

以下、この発明による音量補正装置の実施形態を、図面を参照しながら説明する。以下に説明する音量補正装置の実施形態は、テレビ放送受信機の音声出力部に用いられた場合である。

すなわち、図２は、テレビ放送受信機の構成例を示すブロック図である。この図２の例のテレビ放送受信機は、マイクロコンピュータを具備して構成される制御部１０を備える。この制御部１０には、リモコン受信部１１が接続され、このリモコン受信部１１でリモコン送信機１２からのリモコン信号を受けて、制御部１０に伝達する。制御部１０は、受信したリモコン信号に応じた処理制御を実行する。

制御部１０は、テレビ放送受信機の各部に対して制御信号を供給して、テレビ放送信号の受信およびその映像再生および音声再生の処理を実行する。

チューナ部１３は、制御部１０からのユーザのリモコン操作に応じたチャンネル選択制御信号により指定される放送チャンネルの信号を、テレビ放送波信号から選択抽出する。そして、チューナ部１３は、選択抽出した放送チャンネルの信号から、映像信号と、音声信号とを復調デコードし、映像信号は映像信号処理部１４に供給し、音声信号は、音声信号処理部１５に供給する。

映像信号処理部１４では、制御部１０からの制御を受けて、映像信号についての所定の処理をし、その処理後の映像信号を表示制御部１６を通じて、例えばＬＣＤ（Liquid Crystal Display）からなるディスプレイ１７に供給する。これにより、選択された放送チャンネルの放送番組の画像がディスプレイ１７に表示される。

また、音声信号処理部１５では、制御部１０からの制御を受けて、音声信号についての所定の処理をする。この実施形態では、音声信号処理部１５では、チューナ部１３からの音声信号から、左右２チャンネルの音声信号ＳｉＬおよびＳｉＲを生成し、その処理後の音声信号ＳｉＬおよびＳｉＲを音量補正部１８に供給する。

音量補正部１８は、この実施形態の音量補正装置が適用される部分であり、その入力音声信号ＳｉＬおよびＳｉＲは、後述するようにして、音量補正され、出力音声信号ＳｏＬおよびＳｏＲとし出力される。そして、この音量補正部１８からの出力音声信号ＳｏＬおよびＳｏＲが、スピーカ１９Ｌおよび１９Ｒに供給されて、音響再生される。これにより、選択された放送チャンネルの放送番組の音声がスピーカ１９Ｌおよび１９Ｒから放音される。

以下、この音量補正部１８の場合として、この実施形態の音量補正装置について説明する。

［音量補正装置の第１の実施形態］
図１は、この発明の音量補正装置の第１の実施形態としての音量補正部１８の全体の構成例を示すブロック図である。

この図１に示すように、この実施形態においても、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、それぞれ、ゲイン制御信号によりゲインが可変制御される可変ゲインアンプ２１Ｌおよび２１Ｒに供給される。

また、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、声平均レベル検出部２２に供給されて、後述するように、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲの加算信号中における人声信号の平均レベル（声平均レベル）が検出される。

そして、この声平均レベル検出部２２で検出された声平均レベルはゲイン制御信号生成部２３に供給される。ゲイン制御信号生成部２３では、声平均レベルと、予め定められている基準レベルと比較し、その比較結果を用いて、両レベルの差がゼロとなるようにするゲイン制御信号を生成して、可変ゲインアンプ２１Ｌ，２１Ｒに供給する。

可変ゲインアンプ２１Ｌ，２１Ｒは、ゲイン制御信号生成部２３からのゲイン制御信号によりゲインが可変制御される。この場合、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、この可変ゲインアンプ２１Ｌ，２１Ｒにおいて、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲの加算信号中における声平均レベルが基準レベルと等しくなるようにゲイン制御される。

以上のようにして、可変ゲインアンプ１Ｌ，１Ｒは、人の声の平均レベルを基準に自動音量補正される。このため、可変ゲインアンプ１Ｌ，１Ｒから得られる左右２チャンネルの出力音声信号ＳｏＬおよびＳｏＲがスピーカ１９Ｌ，１９Ｒにより音響再生されると、その再生音声は、台詞など人の声の音量レベルが一定となり、人声が聞き取り易くなる。

この実施形態では、声平均レベル検出部２２は、次のように構成される。

先ず、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、加算部３１で互いに加算される。この加算部３１からの加算出力信号は、アンプ３２にて１／２ゲイン倍される。このアンプ３２からの加算出力信号Ｓｍは、平均レベル検出部３３に供給され、この平均レベル検出部３３で、加算出力信号Ｓｍの平均レベルが検出され、当該平均レベルの信号（平均レベル信号という）Ａｖが出力される。そして、この平均レベル検出部３３で検出された加算出力信号Ｓｍの平均レベル信号Ａｖは、声平均レベル生成部３５に供給される。

また、アンプ３２からの加算出力信号Ｓｍが声区間検出部３４に供給されると共に、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲが、この声区間検出部３４に供給される。

後述するように、声区間検出部３４では、アンプ３２からの加算出力信号Ｓｍ中において、人声の音声信号が含まれる時間区間である声区間を検出する。また、声区間検出部３４では、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲからも、人声の音声信号が含まれる時間区間である声区間を検出する。

この実施形態では、声区間検出部３４では、人声信号の特徴量を用いて声区間を検出する。人声信号の特徴量は、複数種が存在する。この実施形態の声区間検出部３４では、後述するように、人声信号の複数種の特徴量のそれぞれについて、声区間の検出を行い、その検出結果の論理積を取ることにより、検出した声区間の精度を高めるようにしている。この声区間検出部３４は、検出した声区間を示す声区間検出フラグＦＬＧを生成して出力する。そして、声区間検出部３４は、声区間検出フラグＦＬＧを声平均レベル生成部３５に供給する。

［声平均レベル生成部３５の構成例］
声平均レベル生成部３５は、この実施形態では、図３に示すような構成を備えるものとされる。

すなわち、平均レベル検出部３３からの平均レベルＡｖは、選択部３５１の一方の入力端に供給されると共に、声区間検出フラグＦＬＧが選択信号として選択部３５１に供給される。この選択部３５１の出力信号は、積分部３５２に供給される。そして、この積分部３５２の出力信号が、選択部３５１の他方の入力端に供給されると共に、声平均レベル生成部３５の出力信号Ｖavrとして出力される。

選択部３５１は、声区間検出フラグＦＬＧにより、声区間では、平均レベル検出部３３からの平均レベル信号Ａｖを選択して積分部３５２に供給し、声区間以外では、積分部３５２の出力信号を選択して積分部３５２に供給する。

したがって、積分部３５２は、声区間では、平均レベル検出部３３からの平均レベル信号Ａｖを積分して平均化した信号を生成する。また、積分部３５２は、声区間以外では、自積分部３５２の出力レベル信号を維持（ホールド）する。

例えば、アンプ３２からの加算出力信号Ｓｍが、図４（Ａ）に示すようなものであった場合を考える。この図４（Ａ）の加算出力信号Ｓｍでは、縦バーで塗り潰した区間が人声が優勢あるいは人声のみの区間であり、声区間検出部３４の声区間検出フラグＦＬＧは、図４（Ｂ）に示すようなものとなる。

したがって、選択部３５１では、声区間検出フラグＦＬＧにより平均レベル検出部３３からの平均レベル信号Ａｖのうちの声区間の信号のみが選択されるが、それは、図４（Ｃ）に示すようなものとなる。

積分部３５２では、声区間において、直前の自積分部３５２の出力（ホールド値）を初期値として、平均レベル検出部３３からの平均レベル信号Ａｖのうちの声区間の信号レベルを積分する。そして、声区間以外の区間では、選択部３５１は、積分部３５２の出力信号Ｖavrを選択する状態になるので、積分部３５２は、声区間の終わりの時点の信号レベルをホールドする。この結果、積分部３５２の出力信号Ｖavrは、すなわち、声平均レベル生成部３５の出力信号Ｖavrは、図４（Ｄ）に示すようなものとなる。

そして、積分部３５２では、図４（Ｆ）に示すように、声検出フラグＦＬＧで示される声区間では、直前の自積分部３５２の出力（ホールド値）を初期値として積分演算を行って、人声信号レベルの平均値計算を行う。

また、積分部３５２では、図４（Ｅ）に示すように、声区間以外の区間では、声区間の終わりの時点の信号レベルをホールドする。

以上のようにして得られる声平均レベル生成部３５の出力信号Ｖavrは、人声信号の平均レベルを示すものとなっており、これが、声平均レベル検出部２２の出力信号としてゲイン制御信号生成部２３に供給される。

このゲイン制御信号生成部２３では、声平均レベル検出部２２からの声平均レベル信号Ｖavrと、予め定められている基準レベルと比較し、その比較結果としての両レベルの差がゼロとなるようにするゲイン制御信号を生成する。

そして、ゲイン制御信号生成部２３で生成されたゲイン制御信号は可変ゲインアンプ２１Ｌ，２１Ｒに供給される。可変ゲインアンプ２１Ｌ，２１Ｒでは、このゲイン制御信号により、入力音声信号ＳｉＬおよびＳｉＲの声平均レベルが、基準レベルとなるようにゲイン制御される。

図４の例においては、声平均レベル信号Ｖavrは、図４（Ｄ）に示すようなものとなるので、入力音声信号ＳｉＬおよびＳｉＲの声平均レベルが、図４（Ｇ）に示すようなレベル補正ゲインによって、基準レベルとなるようにゲイン制御される。

その結果、可変ゲインアンプ２１Ｌ，２１Ｒからの出力音声信号ＳｏＬまたはＳｏＲは、図４（Ｈ）に示すようにゲイン制御されたものとなる。

［声区間検出部３４の構成例］
前述したように、声区間検出部３４では、人声信号の特徴量に着目して、その入力音声信号Ｓｍから人声が含まれる時間区間である声区間を検出する。そして、この実施形態では、声区間検出部３４では、人声信号の特徴量は複数種があることに着目して、当該複数種の特徴量のそれぞれについて、声区間の検出を行う。そして、その結果得られる複数個の検出結果の声区間に基づいて、声区間検出フラグＦＬＧを生成して出力することにより、検出した声区間の精度を高めるようにしている。

図５に、この実施形態における声区間検出部３４の構成例のブロック図を示す。

この実施形態では、声区間検出部３４は、声周期検出部４０と、声帯域集中検出部５０、センター定位検出部６０、の３つの検出部を備える。この３つの検出部４０，５０，６０は、それぞれ声区間を特定するための人声信号の特徴量の一つを検出する。そして、これら３つの検出部４０，５０，６０の３つの検出出力の論理積をとることによって、声区間検出精度の向上を図るようにしている。以下、３つの検出部４０，５０，６０のそれぞれについて説明する。

＜声周期検出部４０＞
人声の信号は、複数の特徴的な周波数成分から構成されるが、ピッチと呼ばれる基本周波数成分のピークが強調された波形的特徴を有し、それが一母音期間継続する。また、基本周波数成分のピークは、一母音ごとに山なりのエンベロープを持って、同一周期で繰り返す。したがって、入力音声信号波形のピークを検出し、この検出したピークの周期の連続性を検出することによって、簡易的に、低負荷処理によって、声の存在する区間を特定することができる。つまり、人声の信号の同一ピーク周期の連続性を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。

前記ピークの周期は次第に上昇したり、下降したりといったスロープを持つが、隣接するピーク周期間の差はわずかである。したがって、ある程度の許容誤差範囲で隣り合うピーク周期の同一性を検出することによって、ピーク周期の変動の影響を回避して、人声が存在する声区間を検出することができる。

以上のことを踏まえて、この実施形態では、声周期検出部４０は、ピーク周期検出部４１と、連続同一周期検出部４２と、頻度検出部４３とで構成される。

ピーク周期検出部４１は、入力音声信号Ｓｍのピークを検出し、その検出したピークの周期を検出する。

連続同一周期検出部４２は、ピーク周期検出部４１で検出されたピークの周期の隣り合うものの同一性を判断し、同一性があるときには、ピークの周期の同一性が連続しているとして検出する。この場合に、連続同一周期検出部４２は、ピーク周期が声の帯域の周期範囲のみについて、ピーク周期の隣り合うものの同一性を判断するようにする。例えば、ピーク周期が、およそ１ミリ秒（１ｍｓ）から１０ミリ秒（１０ｍｓ）ほどの間にあるときに、前記ピーク周期の隣り合うものの同一性判断を行うようにする。

頻度検出部４３は、連続同一周期検出部４２の出力を、１ピーク周期ずつ遅延したものを３以上の複数個用意し、それら複数個の、例えば多数決を求めることにより、ピーク周期の変動による影響を除去するようにしている。すなわち、ピーク周期が変動した場合、当該変動時点の１〜複数周期分が、連続同一周期検出部４２で、連続同一周期の声区間として検出しても良いのにも拘らず、連続同一周期として検出されなくなる場合がある。頻度検出部４３では、このような変動による不連続として検出されてしまう１〜複数周期分をなくして、安定した連続同一周期の検出出力が得られるようにする。

図６は、声周期検出部４０の、より詳細な構成例を示す図である。ピーク周期検出部４１は、ピーク検出部４１１と周期計数カウンタ４１２とからなる。連続同一周期検出部４２は、周期比較部４２１と、遅延部４２２とからなる。

頻度検出部４３は、この例では、連続同一周期検出部４２の出力信号を、それぞれ１ピーク周期分ずつ遅延する２個の遅延部４３１，４３２と、多数決論理部４３３とからなる。

この声周期検出部４０の動作を、図７の音声波形図を参照しながら説明する。すなわち、図７（Ｂ）は、図４（Ａ）の合成音声信号Ｓｍの一部である図７（Ａ）のうちの、声区間の音声波形を示すものである。

ピーク周期検出部４１のピーク検出部４１１は、この図７（Ａ）の入力音声信号Ｓｍの、この例では、正側のピーク位置を検出し、その検出時点（検出位置）を示すピーク検出出力Ｐｋを出力する（図７（Ｃ）参照）。なお、ピーク検出部４１１は、例えば、所定のスレッショールド値を超えるピーク値を、ピーク位置として検出する。

このピーク検出部４１１からのピーク検出出力Ｐｋは、周期計数カウンタ４１２に供給される。周期計数カウンタ４１２には、人声信号のピーク周期よりも十分に周波数が高いクロックＣＬＫが供給されており、このクロックＣＬＫを、隣り合うピーク検出出力Ｐｋの間でカウントすることにより、ピーク周期を計数する。したがって、周期計測カウンタ４１２は、ピーク周期をクロックＣＬＫの計数値として出力する。

この周期計測カウンタ４１２からのピーク周期検出出力としての計数値Ｔｃは、連続同一周期検出部４２に供給される。

連続同一周期検出部４２においては、周期計測カウンタ４１２からのピーク周期検出出力としての計数値Ｔｃは、そのまま周期比較部４２１に供給されると共に、遅延部４２２を通じて遅延された後、周期比較部４１２に供給される。

遅延部４２２は、この例では、ピーク検出出力Ｐｋがクロックとして供給されるラッチ部として構成されており、周期計数カウンタ４１２からの計数値Ｔｃを、１ピーク周期分遅延させて、周期比較部４２１に供給するようにする。

この例では、周期比較部４２１では、まず、周期計数カウンタ４１２からの計数値Ｔｃが、１ｍｓから１０ｍｓまでの間のピーク周期に対応する計数値であるかどうかチェックする。そして、計数値Ｔｃが、１ｍｓから１０ｍｓまでの間のピーク周期に対応する計数値でないときには、周期比較部４２１は、周期比較を行わずに、この例では、その出力ＣＴをローレベル（「０」）とする。そして、計数値Ｔｃが、１ｍｓから１０ｍｓまでの間のピーク周期に対応する計数値であるときには、周期比較部４２１は、次のようにして、隣り合う前後のピーク周期の比較演算を行う。

すなわち、周期比較部４２１では、周期計測カウンタ４１２からの現時点でのピーク周期の計数値Ｔｃｐと、その１ピーク周期前のピーク周期の計数値Ｔｃｂとを比較し、両ピーク周期が同一であるかどうかを判定する。ここで、周期比較部４２１では、前後のピーク周期の計数値ＴｃｐとＴｃｂとが全く同一である場合のみではなく、同一と見なせるほど両者の差が小さい許容範囲であるときには同一と判定される。同一と判定する差の大きさは、声区間を検出する精度の許容度に応じて予め設定されている。

周期比較部４２１は、この例では、前後のピーク周期の計数値ＴｃｐとＴｃｂとが同一であると判定したときにはハイレベル（「１」）、同一ではないと判定されたときにローレベル（「０」）となる連続同一周期検出フラグＣＴ（図７（Ｄ）参照）を出力する。

この連続同一周期検出フラグＣＴは、頻度検出部４３に供給される。この頻度検出部４３は、前述したように、この例では、２個の遅延部４３１，４３２と、多数決論理部４３３で構成される。

遅延部４３１，４３２は、この例では、ピーク検出出力Ｐｋがクロックとして供給されるラッチ部として構成されており、その入力信号を、それぞれ１ピーク周期分遅延させる。

遅延部４３１は、連続同一周期検出部４２からの連続同一周期検出フラグＣＴを入力信号として受け、この連続同一周期検出フラグＣＴを１ピーク周期分遅延させた信号ＣＴｄ１（図７（Ｅ）参照）を出力する。

また、遅延部４３２は、遅延部４３１の出力信号ＣＴｄ１を受け、この出力信号ＣＴｄ１を、さらに、１ピーク周期分遅延させた信号ＣＴｄ２（図７（Ｆ）参照）を出力する。

そして、連続同一周期検出フラグＣＴと、その１ピーク周期遅延信号ＣＴｄ１と、その２ピーク周期遅延信号ＣＴｄ２との３個の信号は、多数決論理部４３３に供給される。

多数決論理部４３３は、３個の信号ＣＴ、ＣＴｄ１，ＣＴｄ２のうち、２個の信号がハイレベル「１」となっているときには「１」、そうでないときには、ローレベル「０」として、声周期検出フラグＦＬＧａ（図７（Ｇ）参照）を生成して出力する。

この頻度検出部４３によれば、連続同一周期検出部４２で、ピーク周期の変動のために、声区間の一部のピーク周期区間を連続同一周期区間として検出できなかったときにも、その一部のピーク区間を含めた声周期検出フラグＦＬＧａを出力することができる。

以上のようにして、声周期検出部４０で検出されて得られた声周期検出フラグＦＬＧａは、アンドゲート３４０に供給される。

なお、上述の例では、頻度検出部４３では、２個の遅延部を用いて、１ピーク周期分ずつ異なる３個の信号の多数決をとるようにしたが、頻度検出部４３では、３個以上の遅延部を用いて、その多数決をとるように構成しても良い。その場合に、多数決としては、単純な多数決ではなく、スレッショールド値を設定して、それを超えた多数決とするようにしても良い。例えば、４個の遅延部を用いて、１ピーク周期分ずつ異なる５個の信号の多数決をとる場合に、３個以上が「１」であれば、声区間検出信号ＦＬＧａを「１」とするのではなく、４個以上が「１」であるときにのみ、声区間検出信号ＦＬＧａを「１」とするようにしても良い。

また、上述の例では、声周期検出部４０では、音声波形の正側のピークを検出するようにしたが、負側のピークを検出するようにしても良い。また、正側と負側の両ピークを検出して、その両者の論理和（オア）を用いるようにしても良い。

＜声帯域集中検出部５０＞
人声の信号の母音を構成する主成分の周波数帯は、主に１００Ｈｚから１ｋＨｚといった中域の周波数帯域に多く含まれる。したがって、この１００Ｈｚから１ｋＨｚという周波数帯域の信号成分が、それ以外の成分に対して大きいところを抽出することによって、人声の存在する区間を特定することができる。つまり、人声の信号の母音を構成する主成分の周波数帯を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。

また、暗騒音や炸裂音など、主に人声とは異なる周波数帯域成分を多く持つ信号を除外することができる。なお、この実施形態では、人声の周波数帯域としては、母音の帯域とし、子音部分は除外する。これは、人声の大きさとしては、母音のレベルが主体的に知覚されるためである。

この実施形態においては、声帯域集中検出部５０は、図５に示すように、バンドパスフィルタ（ＢＰＦ）５１と、バンドエリミネーションフィルタ（ＢＥＦ）５２と、平均レベル検出部５３，５４と、アンプ５５と、比較部５６とからなる。

バンドパスフィルタ５１は、図８（Ａ）に示すように、この例では、１００Ｈｚから１ｋＨｚの間の人声が含まれる周波数帯域を通過帯域とする通過特性を備えるフィルタとされる。また、バンドエリミネーションフィルタ５２は、図８（Ｂ）に示すように、１００Ｈｚから１ｋＨｚの間の人声が含まれる周波数帯域を非通過帯域とする通過特性を備えるフィルタとされる。つまり、バンドエリミネーションフィルタ５２は、人声が含まれない周波数帯域を通過帯域とするフィルタである。

そして、アンプ３２からの左右２チャンネルの入力音声信号ＳｉＬ，ＳｉＲの加算信号Ｓｍが、バンドパスフィルタ５１およびバンドエリミネーションフィルタ５２に供給される。

バンドパスフィルタ５１からは、加算信号Ｓｍから１００Ｈｚ以上、１ｋＨｚ以下の人声が含まれる周波数帯域の信号成分が抽出され、当該信号成分が平均レベル検出部５３に供給される。平均レベル検出部５３では、加算信号Ｓｍの１００Ｈｚ以上、１ｋＨｚ以下の周波数帯域の信号成分の平均レベルが検出され、その検出された平均レベル信号ＢＰＦavr（図９の実線で示す波形参照）が平均レベル検出部５３から出力される。

また、バンドエリミネーションフィルタ５２からは、加算信号Ｓｍのうち、１００Ｈｚ以下、かつ、１ｋＨｚ以上の人声が含まれない周波数帯域の信号成分が抽出され、当該信号成分が平均レベル検出部５４に供給される。平均レベル検出部５４では、加算信号Ｓｍの１００Ｈｚ以上、１ｋＨｚ以下の人声が含まれない周波数帯域の信号成分の平均レベルが検出され、その検出された平均レベル信号ＢＥＦavr（図９の一点鎖線で示す波形参照）が平均レベル検出部５４から出力される。

そして、平均レベル検出部５３からの平均レベル信号ＢＰＦavrがそのまま比較部５６に供給されると共に、平均レベル検出部５４からの平均レベル信号ＢＥＦavrは、アンプ５５により重み付けされた後、比較部５６に供給される。ここで、アンプ５５による重み付けの値は、声区間の検出精度に関与するもので、この例では、アンプ５５による重みが大きいほど声区間として検出される区間の長さは短くなる。なお、重み付けは、平均レベル検出部５３の出力ＢＰＦavrに対して行っても良い。

比較部５６では、主に声を含む周波数帯域の平均レベル信号ＢＰＦavrが、主に声を含まない周波数帯域の平均レベルＢＥＦavrに重みづけしたレベルを上回った場合に、声帯域集中区間を検出したとして、声帯域集中検出フラグＦＬＧｂを立てる。この例では、図９に示すように、検出した声帯域集中区間においては、声帯域集中検出フラグＦＬＧｂをハイレベル（「１」）にする。

以上のようにして、声帯域集中検出部５０で検出されて得られた声帯域集中検出フラグＦＬＧｂは、アンドゲート３４０に供給される。

なお、以上の説明では、バンドパスフィルタ５１と、バンドエリミネーションフィルタ５２を使用した。しかし、主に人声を含む周波数帯域の信号と、主に人声を含まない周波数帯域の信号を抽出する手段としては、これに限られるものではなく、ローパスフィルタやハイパスフィルタなどのフィルタを用いて帯域を切り分けてもよい。

また、比較部５６では、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号と、入力信号自身とを、比較しても良い。または、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号と入力信号との差分と、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号とを比較しても良い。

＜センター定位検出部６０＞
例えばラジオ放送やテレビ放送におけるステレオ放送のコンテンツなどにおいては、人の台詞をもっとも聞き取り易くするために、人の台詞の大半はセンターに定位させているため、人声のあるところでは、定位分布がセンターに集中している。

このため、ステレオ音声信号において、センターに定位する信号成分を含む区間を特定することによって、声の存在する区間を特定することができる。つまり、ステレオ音声信号におけるセンター定位成分を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。また、ステレオ音声信号におけるセンター定位成分を抽出することで、左右に広がる音楽信号部分など、センターに定位するボーカル以外の部分を除外できる。

センター定位検出部６０は、図５に示すように、定位分布検出部６１と、センター集中定位検出部６２とからなる。そして、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲが定位分布検出部６１に供給され、この定位分布検出部６１で入力音声信号の時々刻々と変化する定位分布が検出される。

この定位分布検出部６１で検出された定位分布の情報がセンター集中定位検出部６２に供給され、このセンター集中定位検出部６２で、センターに定位する成分が集中している時間区間を検出する。このセンター集中定位検出部６２は、センターに定位する成分が集中している時間区間を示すセンター集中定位検出フラグＦＬＧｃを出力する。

定位分布検出部６１は、図１０に示すように、帯域制限フィルタ６１１，６１２と、定位方向検出部６１３と、定位方向分布計測部６１４とを備えて構成される。

センター定位分布検出部６０に入力された左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、それぞれ帯域制限フィルタ６１１，６１２において、例えば低域成分等、定位方向をあまり感じない周波数帯域の成分が除去される。

そして、帯域制限フィルタ６１１，６１２により帯域制限された２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、定位方向検出部６１３に供給される。定位方向検出部６１３は、帯域制限された２チャンネルの入力音声信号ＳｉＬおよびＳｉＲのそれぞれのレベルの大きさにより、所定の周期毎の定位方向の検出時点における２チャンネルの入力音声信号ＳｉＬおよびＳｉＲが持つ定位方向を検出する。

すなわち、定位方向検出部６１３においては、所定のサンプリング周期で、帯域制限された２チャンネルの入力オーディオ信号ＳｉＬおよびＳｉＲのそれぞれのレベル（振幅）をサンプリングする。そして、定位方向検出部６１３においては、この例では、最新サンプリング時点における定位方向を現時点における定位方向として検出するようにする。

この場合、定位方向検出部６１３は、当該最新サンプリング時点における定位方向を、入力音声信号ＳｉＬおよびＳｉＲのそれぞれについての、当該最新サンプリング時点のレベルと、それよりも過去のサンプリング時点のレベルとを用いて検出する。

２チャンネルの入力音声信号ＳｉＬおよびＳｉＲが、デジタルオーディオ信号であれば、前記サンプリング周期は、デジタルオーディオ信号のサンプル周期に等しくすることができる。もっとも、前記サンプリング周期を、デジタルオーディオ信号の１サンプル周期と等しくするのではなく、複数サンプル周期とするようにしてもよい。定位方向検出部６１３の入力音声信号がアナログ信号である場合には、この定位方向検出部６１３の入力段において、デジタルオーディオ信号に変換するようにしても良い。

この定位方向検出部６１３における定位方向の検出方法を、図１１を参照しながら説明する。図１１（Ａ），（Ｂ）は、左チャンネルの入力音声信号ＳｉＬの振幅をＸ軸にとり、右チャンネルの入力音声信号ＳｉＲの振幅をＹ軸にとった場合の座標空間を示している。

定位方向検出部６１３では、まず、各サンプリング周期毎の定位方向の検出時点において２チャンネルの入力音声信号ＳｉＬおよびＳｉＲのそれぞれのレベルを取得して、それに対応する座標点を、図１１（Ａ），（Ｂ）の座標空間に、例えばＰ１，Ｐ２，Ｐ３，Ｐ４のように、プロットしてゆく。この例では、Ｐ４が最新の検出時点の座標点であるとする。

そして、定位方向検出部６１３では、ｙ＝ｋ・ｘ（ｋは定数）で表される直線（Ｘ軸とＹ軸との交点Ｚを通る直線）を、交点Ｚを中心として±９０°回転させたときに、つまり、定数ｋを変化させたときに、プロットした座標点Ｐ１，Ｐ２，Ｐ３，Ｐ４が、どの定数ｋの直線（どの傾き角度の直線）の一番近くを移動してゆくかを算出する。つまり、定数ｋを変えた各直線からの各座標点Ｐ１，Ｐ２，Ｐ３，Ｐ４までの距離Ｄａ１，Ｄａ２，Ｄａ３，Ｄａ４あるいは距離Ｄｂ１，Ｄｂ２，Ｄｂ３，Ｄｂ４の総和が最も小さい直線の定数ｋを算出する。

そして、定位方向検出部６１３は、算出した直線の定数ｋに対応する傾き角度を、検出したい現時点における定位方向とする。図１１の例では、Ｘ軸、つまり、左チャンネルの定位方向（左方向）の角度を０°として、このＸ軸に対する角度（以下、定位角度という）θを定位方向として検出することとする。

図１１（Ａ）の場合の座標点Ｐ１，Ｐ２，Ｐ３，Ｐ４の例では、定位角度はθａとして検出され、図１１（Ｂ）の場合の座標点Ｐ１，Ｐ２，Ｐ３，Ｐ４の例では、定位角度はθｂとして検出されるものである。

なお、この実施形態では、定位方向検出部６１３においては、現時点（最新サンプリング時点）の２チャンネル入力音声信号のレベルと、過去のサンプリング時点における２チャンネル入力音声信号のレベルとは等しい重みで用いてはいない。この実施形態では、定位方向検出部６１３においては、現時点に近いサンプリング時点の２チャンネル入力音声信号のレベルほど重みが大きいものとするようにしている。

このため、定位方向検出部６１３では、２チャンネル入力音声信号のレベルのサンプリング値に対して、図１２に示すように、現時点（この例では最新サンプリング時点ｔｎ）に近いほど、重みが大きくなるように、指数関数曲線の特性を有する時間ウインドーＷＤ１が用いられている。

なお、上述の説明では、処理対象信号時点となる現時点を最新サンプリング時点（最新サンプル時点）とした。しかし、入力音声信号ＳｉＬ，ＳｉＲの入力端と、可変ゲインアンプ２１Ｌおよび２１Ｒとの間に所定時間τだけ遅延させる遅延回路を設けて、処理対象となる現時点を、入力音声信号ＳｉＬ，ＳｉＲよりも前記τだけ遅延した時点とすることができる。

その場合には、定位方向検出部６１３では、処理対象信号時点となる現時点よりも後（未来）の２チャンネル入力音声信号ＳｉＬ，ＳｉＲをも用いて、定位方向を検出するようにすることができる。例えば、図１１の例で、処理対象信号時点となる現時点がＰ２やＰ３の場合とすることができる。

そして、その場合には、前述した時間ウインドーＷＤ１の代わりに、図１３に示すような指数関数曲線の特性の時間ウインドーＷＤ２が用いられる。この時間ウインドーＷＤ２は、処理対象信号時点となる現時点ｔｐで最も重みが大きく、現時点ｔｐから離れるにつれ、過去および未来の方向に重みが小さくなるような指数関数曲線の特性を有するものである。

なお、現時点の２チャンネル入力オーディオ信号のレベルを、過去および／または未来のサンプリング時点における２チャンネル入力音声信号ＳｉＬ，ＳｉＲのレベルを重み付けせずに、そのままの値で用いても良い。

以上のようにして、定位方向検出部６１３では、現時点においては、２チャンネル入力音声信号ＳｉＬ，ＳｉＲが、どの方向からの信号であるかを、定位角度θとして検出することができる。

しかしながら、検出した現時点における定位角度θは、１時点における入力オーディオ信号の定位方向を一方向に限定したもので、各方向ごとの信号の強さが反映されていない。そこで、この実施形態では、この点にかんがみ、定位方向検出部６１３で検出された現時点における２チャンネル入力音声信号ＳｉＬ，ＳｉＲの定位方向の検出結果（定位角度θ）は、定位方向分布計測部６１４に供給される。

定位方向分布計測部６１４では、予め定められた所定時間区間ｄに渡って定位方向検出部６１３で検出された定位角度θの、全方位についての分布を求め、２チャンネル入力音声信号の定位方向が、どの角度方向にどのくらいの割合を持っているかを計測する。

この場合、所定時間区間ｄは、例えば数ミリ秒〜数百ミリ秒、この例では数十ミリ秒に選定されている。そして、この実施形態では、定位方向分布計測部６１４では、この所定時間区間ｄにおける定位方向検出部６１３で検出された定位角度θに対して、定位方向検出部６１３における重み係数の特性と同様に重み付けをするようにする。

すなわち、定位方向分布計測部６１４では、現時点ｔｐ（この例では、ｔｐ＝ｔｎ（最新サンプリング時点））に近づくほど指数関数的に大きくなるような重み付けをする時間ウインドーＷＤ３（図１４参照）をかけて重み付けをするようにする。

なお、前述したように、入力オーディオ信号に対して遅延時間τを設けるようにして、定位方向検出部６１３での重み付けのための時間ウインドーを、図１３のようにする場合には、定位方向分布計測部６１４における時間ウインドーも、図１３と同様なものとなる。その場合の時間区間ｄは、現時点ｔｐより未来と過去の両方を含む時間区間となるものである。なお、重み付けをせずに、そのままの値で用いてもよい。

図１５は、この定位方向分布計測部６１４で求められた定位角度θの分布である定位方向分布Ｐ（θ）の一例を示すもので、横軸にはＸ軸（左チャンネル定位方向）を基準にした定位角度θをとり、縦軸には各定位角度の出現度（＜１）をとったものである。ここで、この実施形態では、定位方向分布Ｐ（θ）をすべての定位角度θについて総和を求めたときに１、すなわち、
ΣＰ（θ）＝１
となるように分布が生成される。

また、定位角度θと、音声信号の定位方向との関係は、図１６に示すようなものとなる。なお、図１６に示されている正面方向、左方向、右方向などは、リスナを基準にした方向名である。

以上のようにして、定位方向分布計測部６１４からは、現時点（現サンプリング時点あるいは現サンプル時点；処理対象信号時点）ごとに、図１５に示すような定位方向分布Ｐ（θ）の情報が得られる。

この定位方向分布Ｐ（θ）の情報は、センター集中定位検出部６２に供給される。センター集中定位検出部６２では、定位分布検出部６１によって算出された定位方向分布Ｐ（θ）に対して、主にセンター方向に重みを置いた重みづけをしたセンター定位分布信号を算出する。

左チャンネルの音声信号ＳｉＬおよび右チャンネルの音声信号ＳｉＲが、例えば図１７の（Ａ）および（Ｂ）に示すような信号であった場合を考える。この図１７（Ａ）および（Ｂ）において、等間隔の縦線で塗り潰した部分は、センター定位する人声成分が含まれている区間を示している。

この図１７の例の場合、センター集中定位検出部６２で算出されるセンター定位分布信号は、図１７（Ｃ）に示すようなものとなる。

センター集中定位検出部６２では、算出したセンター定位分布信号の値と、予め設定した基準値ＲＥＦとを比較して、センター定位分布信号の値が基準値ＲＥＦを超えた区間を、センター定位検出区間として検出する。図１７の例では、基準値ＲＥＦは、０．８（８０％）とされている。そして、センター集中定位検出部６２は、検出したセンター定位検出区間を示すセンター定位検出フラグＦＬＧｃを出力する。

こうしてセンター定位検出部６２から得られるセンター定位検出フラグＦＬＧｃは、アンドゲート３４０に供給される。

なお、センター集中定位成分を検出して、声区間を検出する手法としては、上述した定位分布検出部６１とセンター集中定位検出部６２とを用いる手法に限られるものではない。例えば、簡易的には、２チャンネルの音声信号ＳｉＬ、ＳｉＲの和としてセンター集中定位信号を抽出し、抽出したセンター集中定位信号が所定の基準値を超えた区間を声区間として検出するようにしても良い。

＜声区間検出フラグの生成＞
アンドゲート３４０は、声周期検出部４０からの声周期検出フラグＦＬＧａと、声帯域集中検出部５０からの声帯域集中検出フラグＦＬＧｂと、センター定位検出部６０からのセンター定位検出フラグＦＬＧｃの論理積として、声区間検出フラグＦＬＧを出力する。

声周期検出フラグＦＬＧａ、声帯域集中検出フラグＦＬＧｂ、センター定位検出フラグＦＬＧｃは、それぞれ、声の区間を検出するための特徴量の存在を示したフラグである。アンドゲート３４０は、これら３つのフラグＦＬＧａ，ＦＬＧｂ，ＦＬＧｃの論理積をとることによって、人声の区間の検出出力である声区間検出フラグＦＬＧを生成するので、声区間の検出精度を上げることができる。

以上説明したようにして、第１の実施形態によれば、入力音声信号のうち、声区間検出フラグＦＬＧにより示される声区間の平均レベルを求め、この平均レベルが基準レベルとなるようにゲイン制御する。したがって、入力音声信号に含まれる台詞など、人声のレベルは、常に一定になるように制御されるので、台詞などが聞き易くなる。

なお、上述の第１の実施形態では、声区間検出部３４では、人声区間を検出するための３種の特徴量に基づく３つのフラグＦＬＧａ，ＦＬＧｂ，ＦＬＧｃを生成し、その論理積をとることによって、人声の区間の検出出力である声区間検出フラグＦＬＧを生成した。

しかし、処理を簡略化する場合には、上記３種の特徴量のいずれか一つに基づいて生成したフラグを、声区間検出フラグＦＬＧとしても良い。また、３種の特徴量のうちの２つを組み合わせて、それら２種の特徴量に基づいて生成されるフラグの論理積をとることにより、声区間検出フラグＦＬＧを生成するようにしてもよい。

そして、３種の特徴量のうちのいずれか一つまたは２つを組み合わせを用いる場合において、その選択のための選択操作手段を設けて、ユーザが当該選択操作手段を用いて手動で選択するようにすることができるようにしても、勿論よい。

また、声区間検出部３４に、さらに、入力音声信号Ｓｍのうちの無音を検出する無音検出部を設け、この無音検出部で検出した無音の区間は、声区間検出フラグＦＬＧをマスクして、当該無音区間は声区間としないようにすることもできる。この場合には、信号のない、または暗騒音部分を除外することができるので、声区間の検出精度を、さらに高めることができる。

なお、声区間を検出するための声信号についての特徴量としては、上述の３種に限られるものではなく、その他の特徴量を用いることもできることは言うまでもない。

［音量補正装置の第２の実施形態］
上述の第１の実施形態では、人声信号の平均レベルが基準レベルとなるように入力音声信号をゲイン制御するので、人声信号の平均レベルが低い場合には、入力音声信号全体のゲインを大きくするように制御する。このため、人声以外の音声成分のレベルが、人声信号のレベルよりも大きく、かつ、両者の差が大きい場合には、人声以外の音声成分の音量が大きくなりすぎる場合がある。また、人声の無いコンテンツの場合にも、人声以外の音の音量が著しく大きくなってしまうことがある。

この第２の実施形態は、上記の問題点を改善した例である。以下に示す第２の実施形態は、第１の実施形態と同様に、図２に示したテレビ放送受信機における音量補正部１８に適用した場合である。

図１８は、この第２の実施形態としての音量補正部１８の全体の構成例を示すブロック図である。この図１８において、図１に示した第１の実施形態の音量補正部１８の場合と同一部分には、同一符号を付すこととする。

この第２の実施形態においては、前述した第１の実施形態における声レベル検出部２２の他に、声以外平均レベル検出部２４と、総合レベル生成部２５とを設ける。声以外平均レベル検出部２４は、後述するようにして、加算信号Ｓｍから声以外の信号区間の平均レベルＮＶavrを生成する。

そして、声平均レベル検出部２２の出力信号である声平均レベル信号Ｖavrと、声以外平均レベル検出部２４の出力信号である声以外平均レベル信号ＮＶavrとが、総合レベル生成部２５に供給される。

総合レベル生成部２５は、声平均レベル信号Ｖavrと声以外平均レベル信号ＮＶavrとから、合成レベル信号を生成し、生成した合成レベル信号をゲイン制御信号生成部２３に供給する。したがって、この第２の実施形態では、ゲイン制御信号生成部２３は、総合レベル生成部２５からの合成レベル信号のレベルが、基準レベルとなるようにするゲイン制御信号を生成して、可変ゲインアンプ２１Ｌ，２１Ｒに供給するようにする。

声平均レベル検出部２２の構成は、前述したように、第１の実施形態のそれと同一であるので、ここでは、その詳細説明は省略する。

＜声以外平均レベル検出部２４＞
声以外平均レベル検出部２４は、図１８に示すように、無音検出部７１と、声以外平均レベル生成部７２と、インバータ７３と、アンドゲート７４とからなる。

無音検出部７１は、声平均レベル検出部２２のアンプ３２からの加算音声信号Ｓｍを入力信号として受けて、当該加算音声信号Ｓｍの無音区間を検出する。そして、無音検出部７１は、検出した無音区間を示す無音区間検出フラグＳＬＦＧを出力する。この無音検出部７１での無音検出の手法は、従来から良く知られている手法を用いることができるので、ここでは、その詳細な構成の説明は省略する。

無音検出部７１からの無音区間検出フラグＳＬＦＧは、図１９（Ｂ）に示すように、この実施形態では、無音区間ではローレベル（「０」）となり、無音区間以外では、ハイレベル（「１」）となる信号である。無音検出部７１からの無音区間検出フラグＳＬＦＧは、アンドゲート７４に供給される。

また、声平均レベル検出部２２の声区間検出部３４からの声区間検出フラグＦＬＧ（図１９（Ａ）参照）が、インバータ７３を通じて極性反転された後、アンドゲート７４に供給される。

したがって、このアンドゲート７４からは、図１９（Ｃ）に示すように、無音区間と声区間とを除く声以外区間で、ハイレベルとなる声以外区間検出フラグＮＦＬＧが得られる。この声以外区間検出フラグＮＦＬＧは、声以外平均レベル生成部７２に供給される。また、声平均レベル検出部２２の平均レベル検出部３３からの加算音声信号Ｓｍの平均レベル信号Ａｖが、この声以外平均レベル生成部７２に供給される。

この声以外平均レベル生成部７２は、図３に示した声平均レベル生成部３５と全く同様の構成を備えるもので、図２０に示すように、選択部７２１と積分部７２２とからなる。声以外平均レベル生成部７２では、選択部７２１に供給される選択制御信号が、声区間検出フラグＦＬＧではなく、声以外区間検出フラグＮＦＬＧである点が、声平均レベル生成部３５とは異なる。

これにより、声以外平均レベル生成部７２では、声以外区間においては、選択部７２１から平均レベル信号Ａｖが積分部７２２に入力され、無音区間および声区間においては、自積分部の出力が選択部７２１から積分部７２２に入力される。

したがって、声以外区間では、積分部７２２では、直前の自積分部７２２の出力（ホールド値）を初期値として、平均レベル検出部３３からの平均レベル信号Ａｖのうちの声以外区間の信号レベルを積分して、平均化する。そして、無音区間および声区間においては、積分部７２２は、声以外区間の終わりの時点の信号レベルをホールドする。

この結果、声以外平均レベル生成部７２の積分部７２２の出力信号ＮＶavrは、声以外区間の平均レベルを表わすものとなる。

＜総合レベル生成部２５＞
図２１に、この実施形態における総合レベル生成部２５の構成の一例を示す。

この実施形態の総合レベル生成部２５は、選択部２５１と、重み付け用アンプ２５２と、レベル比較部２５３とからなる。選択部２５１の一方の入力端Ａには、声平均レベル検出部２２からの声平均レベル信号Ｖavrが供給されると共に、選択部２５１の他方の入力端Ｂには、声以外平均レベル検出部からの声以外平均レベル信号ＮＶavrが供給される。

また、レベル比較部２５３には、声平均レベル検出部２２からの声平均レベル信号Ｖavrが重み付け用アンプ２５２を通じて重み付けされた信号と、声以外平均レベル検出部からの声以外平均レベル信号ＮＶavrが供給される。アンプ２５２における重みは、人声以外の音声成分のレベルが、それ以上になると、ゲイン制御により音量が大きくなりすぎるとされるレベルに相当するレベルを設定するためのものであり、この例では、２倍（×２）とされる。

そして、このレベル比較部２５３において両信号がレベル比較され、その比較結果出力ＣＭＰが、選択部２５１に、その選択制御信号として供給される。ここで、比較結果出力ＣＭＰは、声平均レベル信号Ｖavrの２倍のレベル値が、声以外平均レベル信号ＮＶavrの値よりも大きいときには、選択部２５１から一方の入力端Ａ側に入力されている声平均レベル信号Ｖavrを出力する値、例えば「１」となる。また、比較結果出力ＣＭＰは、声以外平均レベル信号ＮＶavrの値が、声平均レベル信号Ｖavrの２倍のレベル値よりも大きいときには、選択部２５１から他方の入力端Ｂ側に入力されている声以外平均レベル信号ＮＶavrを出力する値、例えば「０」となる。

したがって、選択部２５１からは、声以外平均レベル信号ＮＶavrが、声平均レベル信号Ｖavrの２倍のレベル値を超えない範囲（ＮＶavr＜２Ｖavr）では、第１の実施形態と同様に声平均レベル信号Ｖavrが選択されて、ゲイン制御信号生成部２３に供給される。これにより、前記範囲（ＮＶavr＜２Ｖavr）では、第１の実施形態と同様にして、声平均レベル信号Ｖavrが基準レベルとなるように、可変ゲインアンプ２１Ｌ，２１Ｒがゲイン制御され、常に、台詞など人声が聞き易い状態にレベル制御される。

また、声以外平均レベル信号ＮＶavrが、声平均レベル信号Ｖavrの２倍のレベル値を超える範囲（ＮＶavr≧２Ｖavr）では、選択部２５１からは、声以外平均レベル信号ＮＶavrが選択されて、ゲイン制御信号生成部２３に供給される。これにより、前記範囲（ＮＶavr≧２Ｖavr）では、声以外平均レベル信号ＮＶavrが基準レベルとなるように、可変ゲインアンプ２１Ｌ，２１Ｒがゲイン制御され、声以外の音が異常に大きくなるのが防止される。

図１８においては、声以外平均レベル信号ＮＶavrと、声平均レベル信号Ｖavrを重み付けしたものとを比較し、その比較出力により、声以外平均レベル信号ＮＶavrと、声平均レベル信号Ｖavrとのいずれかをゲイン制御信号生成部２３に供給するようにした。

しかし、図１８の声平均レベル生成部３５と、声以外平均レベル生成部７２および総合レベル生成部２５の構成部分は、図２２のように構成することもできる。

図２２の例においては、図１８の例と同様に、声以外平均レベル生成部７２が設けられる。また、図２２の例においては、声平均レベル生成部３５および総合レベル生成部２５の代わりに、総合平均レベル生成部２６が設けられる。

総合平均レベル生成部２６は、声平均レベル生成部３５と同様に、選択部２６１と積分部２６２とを備える。また、総合平均レベル生成部２６は、重み付け用アンプ２６３と、比較部２６４とを備える。

そして、選択部２６１の入力端Ａには、積分部２６２の出力信号（総合平均レベル信号ＧＶavr）が供給される。そして、選択部２６１の入力端Ｂには、声平均レベル検出部３３からの平均レベル信号Ａｖが供給されると共に、この選択部２６１の選択制御端子には、声区間検出フラグＦＬＧが供給される。

そして、選択部２６１で、声区間検出フラグＦＬＧに応じて選択された出力信号が積分部２６２に供給される。また、積分部２６２の出力信号は、重み付け用アンプ２６３により、この例では、２倍のレベルとされた後、比較部２６４に供給される。比較部２６４には、声以外平均レベル生成部７２の積分部７２２の出力信号である声以外平均レベル信号ＮＶavrが供給される。

また、声以外平均レベル生成部７２の積分部７２２の出力信号である声以外平均レベル信号ＮＶavrが、積分部２６２に供給されると共に、比較部２６４の比較結果の出力信号ＣＭＰが積分部２６２に供給される。積分部２６２では、比較部２６４の出力信号ＣＭＰにより、後述する条件になったときに、保持する積分出力値を、声以外平均レベル生成部７２からの声以外平均レベル信号ＮＶavrに変更する処理をする。

この図２２の例の処理動作について以下に説明する。

この図２２の例においては、総合平均レベル生成部２６と、声以外平均レベル生成部７２とにおいては、それぞれ声平均レベル検出部３３からの平均レベル信号Ａｖについて、前述したような積分動作を行う。

ただし、総合平均レベル生成部２６においては、声区間検出フラグＦＬＧで示される声区間では、選択部２６１から平均レベル信号Ａｖが出力され、積分部２６２で、総合平均レベルＧＶavrを初期値とする積分動作がなされる。そして、声区間以外では、選択部２６１から積分部２６２の出力信号が出力され、積分部２６２の出力としては、総合平均レベルＧＶavrの値が保持（前置ホールド）される。

一方、声以外平均レベル生成部７２では、声以外検出フラグで示される声以外区間では、選択部７２１から平均レベル信号Ａｖが出力され、積分部７２２で、声以外平均レベル信号ＮＶavrを初期値とする積分動作がなされる。そして、声区間では、選択部７２１から積分部７２２の出力信号が出力され、積分部２６２の出力としては、声以外平均レベル信号ＮＶavrの値が保持（前置ホールド）される。

そして、比較部２６４は、アンプ２６３を通じた総合平均レベル生成部２６からの総合平均レベル信号ＧＶavrの２倍の値と、声以外平均レベル生成部７２からの声以外平均レベル信号ＮＶavrとを比較し、その比較出力ＣＭＰを積分部２６２に供給する。

積分部２６２は、この比較出力ＣＭＰを参照し、声以外平均レベル信号ＮＶavrが、総合平均レベル信号ＧＶavrの２倍のレベル値を超えない範囲（ＮＶavr＜２ＧＶavr）か、超える範囲（ＮＶavr≧２ＧＶavr）であるかを判別する。

そして、積分部２６２は、超えない範囲（ＮＶavr＜２ＧＶavr）であると判別すると、積分結果を保持する保持部の値は切り替えずに、第１の実施形態と同様に声平均レベル信号Ｖavrを、総合平均レベル信号ＧＶavrとして生成して出力する処理を行う。

すなわち、積分部２６２は、比較部２６４からのＣＭＰが、ＮＶavr＜２ＧＶavrであることを示す状態であるときには、声以外平均レベル生成部７２からの声以外平均レベル信号ＮＶavrは無視して、第１の実施形態と同様の処理を行う。

また、積分部２６２は、超える範囲（ＮＶavr≧２ＧＶavr）であると判別すると、積分結果を保持する保持部の値を、声以外平均レベル信号ＮＶavrに変更する。したがって、前記超える範囲（ＮＶavr≧２ＧＶavr）では、声以外平均レベル信号ＮＶavrが積分部２６２の出力とされる状態となる。

そして、前記超えない範囲（ＮＶavr＜２ＧＶavr）に戻ると、積分部２６２は、比較出力ＣＭＰにより、積分結果を保持する保持部の値を、声以外平均レベル信号ＮＶavrにする動作を停止して、選択部２６１からの出力を積分する処理状態に戻る。

この図２２の例では、こうして積分部２６２から得られる出力信号を総合平均レベル信号ＧＶavrとして、ゲイン制御信号生成部２３に供給する。ゲイン制御信号生成部２３では、この総合平均レベル信号ＧＶavrが基準レベルとなるようなゲイン制御信号を生成する。

［他の実施形態および変形例］
以上の実施形態は、入力音声信号について、リアルタイムで声平均レベルや声以外平均レベルを検出して、ゲイン制御するようにした場合である。しかし、この発明は、リアルタイム処理の場合のみに適用されるわけではない。

例えば記録媒体に記録された音声信号について、声平均レベルや声以外平均レベルを検出して、ゲイン制御信号を生成して、それを記録信号に対応付けて記録するようにすることもできる。その場合には、再生時には、当該記録されているゲイン制御信号を用いて、再生音声信号を音量制御するようにすることができる。

図２３は、例えばハードディスクやＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）などの記録媒体に、テレビ放送信号を記録することができる記録再生装置に、この発明を適用した場合のブロック図である。

すなわち、この図２３の例の記録再生装置８０においては、放送記録系８１と、再生系８２と、レベル補正ゲイン生成部８３と、制御部８４と、操作部８５とを備える。操作部８５は、例えばリモコン送受信部からなる。制御部８４は、例えばマイクロコンピュータを搭載して構成され、操作部８５からの操作入力に応じた制御を、記録再生装置８０の各部に対して行う。

レベル補正ゲイン生成部８３は、上述した図１に示した第１の実施形態を適用した場合であれば、声平均レベル検出部２２と、ゲイン制御信号生成部２３とからなる。また、上述の図１８に示した第２の実施形態を適用した場合であれば、声平均レベル検出部２２と、声以外平均レベル検出部２４と、総合レベル生成部２５と、ゲイン制御信号生成部２３とからなる。

操作部８５を通じてユーザにより記録指示操作があると、制御部８４は、放送記録系８１を制御して、記録指示された放送番組の記録を実行する。

放送記録系８１においては、放送受信部８１１で記録指示された放送番組の放送波信号を受信し、デコード部８１２に供給する。デコード部８１２では、この例では、受信信号から映像信号Ｖ１と、音声信号Ａ１とがデコードされて出力される。ここで、音声信号Ａ１は、例えば左右２チャンネル音声信号とされる。

このデコード部８１２からの映像信号Ｖ１および音声信号Ａ１は、記録エンコード部８１３で記録エンコードされた後、書き込み部８１５を通じて記録媒体８１６に記録される。記録媒体８１６は、例えばハードディスク装置が用いられる。

操作部８５には、この例では、記録媒体８１６に記録されている放送番組コンテンツを指定するためのキーおよびレベル補正ゲイン生成指示キーが設けられている。ユーザにより、記録されている放送番組コンテンツの指定がなされ、レベル補正ゲイン生成指示キーが操作されると、制御部８４は、指定された放送番組コンテンツの音声信号についての再生音量を適正にするためのレベル補正ゲイン生成処理を実行するようにする。

すなわち、制御部８４は、前記レベル補正ゲイン生成指示キーの操作入力に基づき、再生系の読み出し部８２１と、再生デコード部８２２と、レベル補正ゲイン生成部８３および書き込み部８１５を動作状態に制御する。

そして、制御部８４は、読み出し部８２１を制御して、記録媒体８１６から指定された放送番組の記録信号を読み出す。読み出し部８２１は、読み出した記録信号を再生デコード部８２２に供給する。再生デコード部８２２は、記録信号を再生デコードして、再生映像信号Ｖ２および再生音声信号Ａ２を出力する。

この再生デコード部８２２からの再生音声信号Ａ２は、レベル補正ゲイン生成部８３に供給される。このレベル補正ゲイン生成部８３では、上述の第１の実施形態または第２の実施形態で説明したようにして、ゲイン制御信号が生成される。

そして、レベル補正ゲイン生成部８３は、生成したゲイン制御信号を書き込み部８１５に供給する。書き込み部８１５は、制御部８４の制御を受けながら、レベル補正ゲイン生成部８３からのゲイン制御信号を、再生中の記録信号に対応付けて記録媒体８１６に記録するようにする。

次に、操作部８５を通じてユーザにより再生指示操作があると、制御部８４は、再生系８２を制御して、再生指示された放送番組の再生を実行する。

すなわち、制御部８４は、読み出し部８２１を制御して、記録媒体８１６から指定された放送番組の記録信号と、対応付けられて記録されているゲイン制御信号とを読み出す。読み出し部８２１は、読み出した記録信号を再生デコード部８２２に供給すると共に、読み出したゲイン制御信号をゲイン制御信号再生部８２６に供給する。

再生デコード部８２２は、記録信号を再生デコードして、再生映像信号Ｖ２および再生音声信号Ａ２を得る。そして、再生映像信号Ｖ２を映像信号処理部８２３を通じ、映像出力端８２７を通じて出力する。出力端８２７には、表示装置が接続され、その表示画面に、放送番組の再生映像が映出される。

また、再生デコード部８２２からの再生音声信号は、音声信号処理部８２４を通じて可変ゲインアンプ８２５に供給される。

一方、ゲイン制御信号再生部８２６では、読み出し部８２１からの信号から、ゲイン制御信号が再生される。そして、ゲイン制御信号再生部８２６は、再生したゲイン制御信号を可変ゲインアンプ８２５に供給して、そのゲインを制御するようにする。したがって、可変ゲインアンプ８２５から得られる音声信号は、上述した第１の実施形態および第２の実施形態と同様にして、人声が聞き易く、また、人声以外の音声が大きくなってしまうことが無いものとなる。

この可変ゲインアンプ８２５からの再生音声信号は、音声出力端８２８を通じて、スピーカに供給される。

なお、この図２３の例においては、レベル補正ゲイン生成部８３では、上述した第１の実施形態または第２の実施形態と同様の構成としたが、この図２３の例は、リアルタイム処理である必要は無いので、処理時間はかかるが、より高精度の構成とすることもできる。

例えば、記録再生装置８０が、十分なバッファ容量および処理能力を持った構成である場合には、音声信号の自己相関をとりながら、ピッチ検出をして人声信号が含まれる区間を検出するようにすることもできる。また、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）によるスペクトル包絡のケプストラム解析を行なうなどして、より、精密に、人声信号が含まれる区間を検出することもできる。

なお、以上の例では、音声信号は、左右２チャンネルの場合であったが、声レベル平均検出部２２や声以外レベル平均検出部２４の入力信号が加算音声信号Ｓｍであることから、音量補正対象の音声信号は、モノーラル音声信号であっても良いことは言うまでもない。

また、最近は、音声信号は５．１チャンネルのサラウンド音声信号など、３チャンネル以上のマルチチャンネルの場合もある。このようなマルチチャンネルの場合であって、センターチャンネルが存在する場合には、当該センターチャンネルに人声信号が主として含まれるので、このセンターチャンネルの音声信号から、声区間を検出するようにすれば良い。

図２４は、入力音声信号が５．１チャンネルのサラウンド音声信号である場合における音量補正装置の実施形態の概要を説明するための図である。

すなわち、この例においては、前方左右チャンネルの音声信号ＦＬｉ，ＦＲｉは、可変ゲインアンプ９２１，９２２に供給される。また、後方左右チャンネルの音声信号ＲＬｉ，ＲＲｉは、可変ゲインアンプ９２３，９２４に供給される。また、センターチャンネルの音声信号Ｃｉは、可変ゲインアンプ９２５に供給される。さらに、低域専用チャンネルの音声信号ＬＦＥ（ＬｏｗＦｒｅｑｕｅｎｃｙＥｆｆｅｃｔ）は、可変ゲインアンプ９２６に供給される。

そして、センターチャンネルの音声信号Ｃｉは、また、レベル補正ゲイン生成部９１に供給される。このレベル補正ゲイン生成部９１は、図２３に示したレベル補正ゲイン生成部８３と同様の構成を備える。ただし、このレベル補正ゲイン生成部９１は、この例では、センターチャンネルの音声信号Ｃｉを加算音声信号Ｓｍとして、上述した実施形態の手法のいずれかにより、可変ゲインアンプ９２１〜９２６をゲイン制御するゲイン制御信号を生成する。

そして、可変ゲインアンプ６１〜６６のそれぞれから出力音声信号ＦＬｏ、ＦＲｏ、ＲＬｏ、ＲＲｏ、Ｃｏ、ＬＦｏが得られ、それぞれ用のスピーカにより放音されるようにされる。

この図２４の例によれば、５．１チャンネルの出力音声信号ＦＬｏ、ＦＲｏ、ＲＬｏ、ＲＲｏ、Ｃｏ、ＬＦｏのそれぞれが、レベル補正ゲイン生成部９１で生成されたゲイン制御信号より、ゲイン制御されたものであるので、人声が聞き易く、また、人声以外の音声が大きくなってしまうことが無いものとなる。

なお、３チャンネル以上のマルチチャンネルの音声信号が２チャンネルの音声信号にダウンミックスされて、２チャンネルの信号とされる場合には、ダウンミックス後の２チャンネルの音声信号に対してレベル補正ゲイン生成部を設ければよい。

図２５は、入力音声信号が５．１チャンネルのサラウンド音声信号がダウンミックスされて２チャンネルとされる場合における音量補正装置の実施形態の概要を説明するための図である。

すなわち、図２５の例においては、５．１チャンネルのサラウンド音声信号ＦＬｉ、ＦＲｉ、ＲＬｉ、ＲＲｉ、Ｃｉ、ＬＦｉのそれぞれが、ダウンミックス部９３に供給されて、左右２チャンネルの音声信号Ｌｉ，Ｒｉとされる。

このダウンミックス部９３からの左右２チャンネルの音声信号Ｌｉ，Ｒｉは、それぞれ可変ゲインアンプ９５１，９５２に供給されると共に、レベル補正ゲイン生成部９４に供給される。

このレベル補正ゲイン生成部９３は、図２３に示したレベル補正ゲイン生成部８３と同様の構成を備える。すなわち、このレベル補正ゲイン生成部９３は、この例では、左右２チャンネルの音声信号Ｌｉ，Ｒｉから、上述した実施形態の手法のいずれかにより、可変ゲインアンプ９５１，９５２のそれぞれをゲイン制御するゲイン制御信号を生成する。

この図２５の例においても、上述と同様の作用効果を奏する。

［その他の変形例］
なお、上述の説明では、声レベル平均検出部２２や声以外レベル平均検出部２４は、デスクリートの回路部からなるハードウエア構成としたが、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）を用いた構成とすることができる。

また、声レベル平均検出部２２や声以外レベル平均検出部２４は、コンピュータのプログラムによるソフトウエア処理の構成とすることもできることは言うまでもない。その場合には、例えば図２の例においては、声レベル平均検出部２２や声以外レベル平均検出部２４は、制御部１０がソフトウエア処理機能として備える。そして、図２において、点線で示したように、この制御部１０からのゲイン制御信号により、音量補正部１８が備える可変ゲインアンプをゲイン制御する。

なお、音声信号を、デジタル信号処理とするのであれば、可変ゲインアンプを含めた音量補正部１８の全てをソフトウエア処理として構成することもできるものである。

なお、この発明による音量補正装置が適用される電子機器は、図２に示したテレビ放送受信装置に限られるものではないことは言うまでもない。

この発明による音量補正装置の第１の実施形態を説明するためのブロック図である。この発明による音量補正装置が適用される電子機器の例を説明するためのブロック図である。図１の実施形態における声平均レベル生成部の構成例を示すブロック図である。図３の声平均レベル生成部の構成例の動作説明のために用いる波形図である。図１の実施形態における声区間検出部の構成例を示すブロック図である。図５の声区間検出部の構成例の一部を説明するためのブロック図である。図６の構成例を説明するために用いる波形図である。図５の声区間検出部の構成例の他の一部を説明するための周波数特性図である。図５の声区間検出部の構成例の他の一部の処理動作を説明するための図である。図５の声区間検出部の構成例のさらに他の一部を説明するためのブロック図である。図１０の構成例の各部を説明するために用いる図である。図１０の構成例の各部を説明するために用いる図である。図１０の構成例の各部を説明するために用いる図である。図１０の構成例の各部を説明するために用いる図である。図１０の構成例の各部を説明するために用いる図である。図１０の構成例の各部を説明するために用いる図である。図１０の構成例の処理動作を説明するために用いる波形図である。この発明による音量補正装置の第２の実施形態を説明するためのブロック図である。第２の実施形態の動作説明のためのタイミングチャートを示す図である。図１８の第２の実施形態における声以外平均レベル生成部の構成例を示すブロック図である。図１８の第２の実施形態における総合レベル生成部の構成例を示すブロック図である。この発明による音量補正装置の第２の実施形態の一部の他の構成例を説明するためのブロック図である。この発明による音量補正装置が適用される他の電子機器の例を示す図である。この発明による音量補正装置の他の実施形態を説明するためのブロック図である。この発明による音量補正装置のさらに他の実施形態を説明するためのブロック図である。従来の音量補正装置を説明するためのブロック図である。

符号の説明

２１Ｌ，２１Ｒ…可変ゲインアンプ、２２…声平均レベル検出部、２３…ゲイン制御信号生成部、２４…声以外平均レベル検出部、２５…総合レベル生成部、２６…総合平均レベル生成部、３３…平均レベル検出部、３４…声区間検出部、３５…声平均レベル生成部、７２…声以外平均レベル生成部

Claims

入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記声平均レベル検出手段で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置。
請求項１に記載の音量補正装置において、
前記声平均レベル検出手段は、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出すると共に、当該検出した前記声区間の平均レベルを連続化した連続化平均レベルを生成する声平均レベル生成手段と、
を備え、
前記ゲイン制御信号生成手段は、前記連続化平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成する
音量補正装置。
請求項２に記載の音量補正装置において、
前記声区間検出手段は、
前記入力音声信号のピーク間の周期を検出するピーク周期検出手段と、
前記ピーク周期検出手段で検出された前記ピーク間の周期を用いて隣接するピーク間の周期の同一性を検出することで、同一周期の連続を検出する同一周期連続検出手段と、
前記同一周期連続検出手段で検出された前記同一周期の連続区間を前記声区間として検出、または前記同一周期の連続の頻度が基準値以上である時間区間を前記声区間として検出する手段と
を備える音量補正装置。
請求項２に記載の音量補正装置において、
前記声区間検出手段は、
前記入力音声信号から、人声の周波数帯域を含む第１の音声信号を抽出する第１のフィルタ手段と、
前記第１のフィルタ手段からの前記第１の音声信号の平均レベルを検出する第１の平均レベル検出手段と、
前記入力音声信号から、人声の周波数帯域を含まない第２の音声信号を抽出する第２のフィルタ手段と、
前記第２のフィルタ手段からの前記第２の音声信号の平均レベルを検出する第２の平均レベル検出手段と、
前記第１の平均レベル検出手段で検出された平均レベルと前記第２の平均レベル検出手段で検出された平均レベルとのレベル差またはレベル比が、基準値以上である時間区間を前記声区間として検出する手段と、
を備える音量補正装置。
請求項２に記載の音量補正装置において、
前記入力音声信号は、２チャンネルの音声信号であり、
前記声区間検出手段は、
前記２チャンネルの音声信号からセンター定位分布の割合が基準値以上である時間区間を前記声区間として検出する
音量補正装置。
請求項２に記載の音量補正装置において、
前記声区間検出手段として、
請求項３、請求項４および請求項５に記載の声区間検出手段のいずれか１つ、または、２つ以上の組み合わせを用いる
音量補正装置。
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段と、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置。
入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、声平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
前記声平均レベル検出手段が、入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出工程と、
前記ゲイン制御信号生成手段が、前記声平均レベル検出工程で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
を有し、
前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、声平均レベル検出手段と、声以外平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
前記声平均レベル検出手段が、入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出工程と、
前記声以外平均レベル検出手段が、前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出工程と、
前記ゲイン制御信号生成手段が、前記声以外平均レベル検出工程で検出された声以外平均レベルが、前記声平均レベル検出工程で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出工程で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出工程で検出された声以外平均レベルが、前記声平均レベル検出工程で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
を有し、
前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段、
前記声平均レベル検出手段で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
として機能させる音量補正プログラム。
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出され声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出された声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
として機能させる音量補正プログラム。
請求項１〜７のいずれかの音量補正装置を備える電子機器。