JP5120288B2

JP5120288B2 - 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器

Info

Publication number: JP5120288B2
Application number: JP2009032272A
Authority: JP
Inventors: 雅義野口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-02-16
Filing date: 2009-02-16
Publication date: 2013-01-16
Anticipated expiration: 2029-02-16
Also published as: US8681998B2; EP2219371A3; EP2219371A2; CN101807894B; US20100208918A1; JP2010192954A; ATE552702T1; CN101807894A; EP2219371B1

Description

この発明は、例えばテレビ放送受信機などに代表される電子機器の音声出力部に適用して好適な音量補正装置、音量補正方法および音量補正プログラムに関する。

テレビ放送受信機で受信する放送チャンネルを切り替えたときや、ＡＶ（Audio−Visual）システムにおいて、ＡＶセンタで複数の入力機器の切り替えがなされたとき、コンテンツ間のレベル差により、出力音量に大きな変化が生じてしてしまうことがある。

このような場合、ユーザは、自分が好みの音量にするためには、リモコン等を用いてボリューム操作をして音量調節する必要があり、わずらわしさを感じる場合がある。

この問題を解決する手法の一例が、特許文献１（特許第３４７５４７６号）に開示されている。この特許文献１においては、テレビ放送受信時における選局チャンネルの切り替え時や、複数台の入力機器の切替時など、大きなレベル差があるコンテンツの切替時に、事前にチャンネル間のレベル差の情報や切り替え情報を取得する。そして、特許文献１では、取得した事前にチャンネル間のレベル差の情報や切り替え情報に基づいて音量補正するようにしている。

この問題を解決する音量補正方式の他の一例として、ＡＧＣ（Auto Gain Control；自動利得制御）による音量制御方式（ＡＧＣ方式という）が広く知られている。

図３８は、このＡＧＣ方式を用いた音量補正部の構成例を示すブロック図である。この図３８の例は、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲについて音量補正をする場合である。

すなわち、この例においては、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、それぞれ、ゲイン制御信号によりゲインが可変制御される可変ゲインアンプ１Ｌおよび１Ｒに供給される。

また、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、加算部２で互いに加算される。そして、加算部２からの加算出力信号は、アンプ３にて１／２ゲイン倍された後、平均レベル検出部４に供給され、この平均レベル検出部４で、加算出力信号の平均レベルが検出される。

そして、平均レベル検出部４で検出された平均レベルがゲイン制御信号生成部５に供給される。このゲイン制御信号生成部５では、平均レベル検出部４からの平均レベルと、予め定められている基準レベルと比較し、その比較結果を用いて両レベルの差がゼロとなるようにするゲイン制御信号を生成し、可変ゲインアンプ１Ｌ，１Ｒに供給する。

可変ゲインアンプ１Ｌ，１Ｒは、ゲイン制御信号生成部５からのゲイン制御信号によりゲインが可変制御される。この場合、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、この可変ゲインアンプ１Ｌ，１Ｒにおいて、前記加算部２からの加算出力信号の平均レベルが基準レベルと等しくなるようにゲイン制御される。

この結果、可変ゲインアンプ１Ｌ，１Ｒから得られる左右２チャンネルの出力音声信号ＳｏＬおよびＳｏＲは、小さな音は大きく、大きな音は小さく抑えられて、自動的に一定レベルの音量になるように補正される。これにより、うるさい音を出さないようにしたり、聞こえなかった小さな音を聞こえるようにしたりすることができる。

上述したＡＧＣによる音量補正方式の他にも、種々の音量補正方式が提案されている。例えば、特許文献２（特許３３２１８２０号公報）には、コンプレッサーを設け、大レベルの音声入力があった場合には、入力レベルに対して出力音声レベルを小さく制御し、音量をある一定の範囲に制御するようにする方式が開示されている。

特許第３４７５４７６号公報特許第３３２１８２０号公報

ところで、上述したような問題は、入力機器の切り替えや受信チャンネルの切り替え時における切り替え前後の異なるコンテンツ間にレベル差がある場合のみではなく、同一のコンテンツ内においても生じる。

すなわち、例えば、同一の放送チャンネル内や同一の放送番組内においても、コマーシャル（ＣＭ）部分やシーンの変化によって、出力音量が変化し、不快に思うことがある。

上述したＡＧＣ方式による音量制御によれば、同じコンテンツ内においても音声信号全体の平均レベルを基準にして、音量制御を行うことができるので、出力音量を一定にすることができると期待される。しかしながら、従来のＡＧＣ方式の音量制御では、以下のような問題がある。

すなわち、従来のＡＧＣ方式による音量制御は、音声信号全体の平均レベルを、予め定めた一定の検出時定数で検出し、検出した平均レベルを用いて音声信号全体としての音量制御を行うようにしている。

ここで、音声信号の平均レベルの検出時定数を小さくすれば、音声信号の出力音量の変化に速やかに対応して出力音量を一定にすることができる。したがって、例えばコマーシャル部分の先頭やシーンの変化時点など、レベル差が目立ち易い部分においても、出力音量変化をなくして、出力音量を一定にすることができると期待できる。

しかしながら、音声信号の平均レベルの検出時定数を小さくして、音声信号の平均レベルの変化に早く対応する音量制御をした場合には、レベル変化に忠実に追従しようとするあまり、定常的な音声区間においても音が揺れてしまうような結果となる場合がある。

これに対して、音声信号の平均レベルの検出時定数を大きくすれば、音声信号レベルの細かい変化には追従しなくなるので、定常的な音声区間における音の揺れを防止して、聞き易い音量に制御することが可能となる。

しかしながら、この場合には、逆に、入力機器の切り替えや受信チャンネルの切り替え時における切り替え時、また、コマーシャル部分の先頭やシーンの変化時点など、レベル差が大きく変化する部分に対する応答が悪化してしまうという問題がある。

この発明は、上記の点に鑑みて、チャンネル切り替え時やコマーシャル部分の先頭などの大きなレベル差の音声区間と定常的な音声区間の両方において、常に、良好な音量制御を可能とした装置および方法を提供することを目的とする。

上記の課題を解決するために、請求項１の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出手段と、
前記連続関連音区間検出手段で検出された前記連続関連音区間の前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭から一定区間は、前記連続関連音区間の残りの区間よりも平均レベル検出時定数が小さくされた平均レベル検出手段と、
前記平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。

この請求項１の発明においては、連続関連音区間検出手段で、入力音声信号中における、時間的に近接する１群の連続関連音区間が検出される。そして、平均レベル検出手段において、連続関連音区間の入力音声信号の平均レベルが検出されるが、連続関連音区間の先頭から一定区間は、当該連続関連音区間の残りの区間よりも平均レベル検出時定数が小さくされる。

その結果、平均レベル検出手段では、連続関連音区間の先頭から一定区間においては、音声信号レベルの変化に速やかに対応するように入力音声信号の平均レベルが検出される。また、連続関連音区間の先頭から一定区間よりも後の定常的な音声区間においては、平均レベル検出手段では、音声信号レベルの細かい変化には追従せずに、入力音声信号の平均レベルが検出される。

ゲイン制御信号生成手段では、以上のようにして平均レベル検出手段で検出された平均レベルに基づいて、入力音声信号のゲインを制御するゲイン制御信号が生成され、当該生成されたゲイン制御信号が可変ゲイン手段に供給される。

したがって、可変ゲイン手段においては、大きなレベル差が生じる可能性のある連続関連音区間の先頭から一定区間は、当該大きなレベル差を速やかに抑圧するようなゲイン制御が入力音声信号に対してかかる。これにより、隣り合う連続関連音区間の間におけるレベル差が、各連続関連音区間の先頭から速やかに補正される。

また、可変ゲイン手段においては、定常的な変化をする連続関連音区間の前記先頭から一定区間よりも後の区間では、音声信号レベルの細かい変化には追従せずに、平均レベルが一定となるようなゲイン制御が入力音声信号に対してかかる。これにより、定常的な音声区間における音の揺れを防止することができる。

よって、請求項１の発明によれば、チャンネル切り替え時やコマーシャル部分の先頭などの大きなレベル差の音声区間と定常的な音声区間の両方において、常に、良好な音量制御がなされる。

また、請求項２の発明は、請求項１に記載の音量補正装置において、
前記平均レベル検出手段は、
前記連続関連音区間の先頭から一定区間において、前記平均レベル検出手段で検出された前記平均レベルと前記入力音声信号の平均レベルとを比較し、その比較結果に応じて前記一定区間における前記平均レベル検出時定数を変化させる
ことを特徴とする。

この請求項２の発明においては、連続関連音区間の先頭から一定区間で、当該連続関連音区間の入力音声信号の平均レベルと、平均レベル検出手段で検出された前の連続関連音区間における平均レベルとが比較される。そして、その比較結果に応じて、連続関連音区間の先頭から一定期間における平均レベル検出時定数が変更制御される。

例えば、音が大きくなる方向のゲイン補正を、小さくなる方向のゲイン補正よりも早くする場合には、入力音声信号の平均レベルが前の連続関連音区間における平均レベルよりも高いときに、前記一定期間における平均レベル検出時定数をより小さくする。これにより、前の連続関連音区間とのレベル差が良好に補正され、レベル変化に伴う揺れを抑えた音量補正が可能となる。

また、請求項３の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出手段と、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭から一定区間は、前記連続関連音区間の残りの区間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段と、
前記声平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。

この請求項３の発明によれば、声平均レベル検出手段では、声区間検出手段で検出された、入力音声信号中に人声の音声信号が含まれる時間区間のみで、入力音声信号の平均レベル、すなわち、声平均レベルが検出される。

したがって、請求項１と同様の効果を得ることができると共に、人の声が一定のレベルとなるように補正されるので、台詞などが聞き取り易くなる。

また、請求項４の発明は、請求項３に記載の音量補正装置において、
前記声平均レベル生成手段は、
前記連続関連音区間の先頭から一定区間において、前記声平均レベル検出手段で検出された前記平均レベルと前記入力音声信号の声区間の平均レベルとを比較し、その比較結果に応じて前記先頭期間における前記平均レベル検出時定数を変化させる
ことを特徴とする。

この請求項４の発明によれば、請求項２の発明と同様にして、前の連続関連音区間とのレベル差が良好に補正されると共に、声の抑揚に対する揺れを抑えた音量補正が可能となる。

また、請求項５の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出手段と、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭から一定区間は、前記連続関連音区間の残りの区間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段と、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段と、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。

この請求項５の発明によれば、声以外の大きな音が入力されたときには、速やかにレベルを下げて補正する音量補正が可能となる。

この発明によれば、入力音声信号に対して、チャンネル切り替え時やコマーシャル部分の先頭などの大きなレベル差の音声区間と定常的な音声区間の両方において、常に、良好な音量制御がなされる。

この発明による音量補正装置の第１の実施形態の構成例を説明するためのブロック図である。この発明による音量補正装置が適用される電子機器の例を説明するためのブロック図である。図１の実施形態における連続関連音区間検出部の構成例を示すブロック図である。図３の例の連続関連音区間検出部の動作説明に用いるタイミングチャートを示す図である。図１の実施形態における連続関連音区間検出部の他の構成例を示すブロック図である。図５の例の連続関連音区間検出部の動作説明に用いるタイミングチャートを示す図である。図１の実施形態における連続関連音先頭期間検出部の構成例を説明するためのブロック図である。図１の実施形態における平均レベル検出生成部の構成例を説明するためのブロック図である。この発明による音量補正装置の第１の実施形態を説明するために用いるタイミングチャートを示す図である。この発明による音量補正装置の第２の実施形態の要部の構成例を説明するためのブロック図である。この発明による音量補正装置の第２の実施形態を説明するために用いるタイミングチャートを示す図である。この発明による音量補正装置の第３の実施形態の構成例を説明するためのブロック図である。この発明による音量補正装置の第３の実施形態の構成例の一部の詳細構成例を示すブロック図である。この発明による音量補正装置の第３の実施形態の構成例の一部の詳細構成例を示すブロック図である。図１４の構成例の処理動作を説明するために用いる図である。図１３の構成例の一部を説明するために用いる図である。図１３の構成例の一部を説明するために用いる図である。図１３の構成例の一部の詳細構成例を示すブロック図である。図１８の構成例を説明するために用いる図である。図１８の構成例を説明するために用いる図である。図１８の構成例を説明するために用いる図である。図１８の構成例を説明するために用いる図である。図１８の構成例を説明するために用いる図である。図１８の構成例を説明するために用いる図である。図１８の構成例の処理動作を説明するために用いる波形図である。この発明の第３の実施形態における連続関連音先頭期間検出部の構成例を説明するためのブロック図である。この発明の第３の実施形態における声平均レベル検出生成部の構成例を説明するためのブロック図である。この発明による音量補正装置の第３の実施形態を説明するために用いるタイミングチャートを示す図である。この発明による音量補正装置の第４の実施形態の要部の構成例を説明するためのブロック図である。この発明による音量補正装置の第４の実施形態を説明するために用いるタイミングチャートを示す図である。この発明による音量補正装置の第５の実施形態の構成例を説明するためのブロック図である。この発明の第５の実施形態における総合平均レベル検出生成部の構成例を説明するためのブロック図である。この発明による音量補正装置の第５の実施形態を説明するために用いるタイミングチャートを示す図である。この発明の第５の実施形態における総合平均レベル検出生成部の他の構成例を説明するためのブロック図である。この発明による音量補正装置が適用される他の電子機器の例を示す図である。この発明による音量補正装置の他の実施形態を説明するためのブロック図である。この発明による音量補正装置のさらに他の実施形態を説明するためのブロック図である。従来の音量補正装置を説明するためのブロック図である。

以下、この発明による音量補正装置の実施形態を、図面を参照しながら説明する。以下に説明する音量補正装置の実施形態は、テレビ放送受信機の音声出力部に用いられた場合である。

すなわち、図２は、テレビ放送受信機の構成例を示すブロック図である。この図２の例のテレビ放送受信機は、マイクロコンピュータを具備して構成される制御部１０を備える。この制御部１０には、リモコン受信部１１が接続され、このリモコン受信部１１でリモコン送信機１２からのリモコン信号を受けて、制御部１０に伝達する。制御部１０は、受信したリモコン信号に応じた処理制御を実行する。

制御部１０は、テレビ放送受信機の各部に対して制御信号を供給して、テレビ放送信号の受信およびその映像再生および音声再生の処理を実行する。

チューナ部１３は、制御部１０からのユーザのリモコン操作に応じたチャンネル選択制御信号により指定される放送チャンネルの信号を、テレビ放送波信号から選択抽出する。そして、チューナ部１３は、選択抽出した放送チャンネルの信号から、映像信号と、音声信号とを復調デコードし、映像信号は映像信号処理部１４に供給し、音声信号は、音声信号処理部１５に供給する。

映像信号処理部１４では、制御部１０からの制御を受けて、映像信号についての所定の処理をし、その処理後の映像信号を表示制御部１６を通じて、例えばＬＣＤ（Liquid Crystal Display）からなるディスプレイ１７に供給する。これにより、選択された放送チャンネルの放送番組の画像がディスプレイ１７に表示される。

また、音声信号処理部１５では、制御部１０からの制御を受けて、音声信号についての所定の処理をする。この実施形態では、音声信号処理部１５では、チューナ部１３からの音声信号から、左右２チャンネルの音声信号ＳｉＬおよびＳｉＲを生成し、その処理後の音声信号ＳｉＬおよびＳｉＲを音量補正部１８に供給する。

音量補正部１８は、この実施形態の音量補正装置が適用される部分であり、その入力音声信号ＳｉＬおよびＳｉＲは、後述するようにして、音量補正され、出力音声信号ＳｏＬおよびＳｏＲとし出力される。そして、この音量補正部１８からの出力音声信号ＳｏＬおよびＳｏＲが、スピーカ１９Ｌおよび１９Ｒに供給されて、音響再生される。これにより、選択された放送チャンネルの放送番組の音声がスピーカ１９Ｌおよび１９Ｒから放音される。

以下、この音量補正部１８の場合として、この実施形態の音量補正装置について説明する。

［音量補正装置の第１の実施形態］
図１は、この発明の音量補正装置の第１の実施形態としての音量補正部１８の全体の構成例を示すブロック図である。

この図１に示すように、この実施形態においても、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、それぞれ、ゲイン制御信号によりゲインが可変制御される可変ゲインアンプ２１Ｌおよび２１Ｒに供給される。

また、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、平均レベル検出部２２に供給されて、後述するように、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲの加算信号における連続関連音区間の音声信号全体についての平均レベルが検出される。

ここで、連続関連音区間とは、入力音声信号ＳｉＬおよびＳｉＲの加算信号において、音声信号有りとして検出される区間であって、複数個の区間からなる場合、時間的に近接していて、互いに関連する群の音声信号区間とすることができる区間である。

例えばテレビ放送番組では、シーン毎に対応する音声区間であるシーン対応音声区間が、連続関連音区間とされる。つまり、映像シーンに対応して音声が存在するが、シーンが変化するとき、比較的長い無音区間が生じる。一方、シーン内においては、一般的に時間的に僅かな期間だけ無音区間が生じても、時間的に近接して音声信号有り区間が存在すると考えられる。

そこで、この例では、時間的に近接する１または複数個の音声信号有り区間は、１シーンに対応する区間（シーン対応音声区間）であるなど、互いに関連する音声区間と考え、連続関連音区間とする。

また、テレビ放送番組においては、コマーシャルの放送タイミングとなる前には、比較的長い無音区間が存在するのが一般的である。したがって、コマーシャルの放送開始タイミングは、連続関連音区間の始めの時点と対応させるようにすることができる。

また、チャンネル切り替え時にも、入力音声信号としては、当該切り替え時での無音区間が生じるので、チャンネル切り替えに応じて、連続関連音区間の区切りとすることができる。

そして、平均レベル検出部２２では、時間軸上、離散的に存在する連続関連音区間毎に、音声信号の平均レベルを検出し、連続関連音区間の間の無音区間は、時間的に前の連続関連音区間で検出した平均レベルをホールドするようにする。これにより、平均レベル検出部２２では、入力音声信号についての総合的な平均レベルを検出するようにする。

また、後述するように、この実施形態の平均レベル検出部２２では、連続関連音区間の先頭から一定期間は、入力音声信号の平均レベルを速やかに検出することができるように、平均レベル検出時定数を小さくする。これにより、時間的に隣り合う連続関連音区間の間でのレベル差を、速やかに補正することができるようにする。

さらに、この実施形態の平均レベル検出部２２では、連続関連音区間の先頭から一定期間の後の残りの区間では、平均レベル検出時定数を、先頭から一定期間に比べて大きくし、細かな音声レベル変動には追従しないようにしている。

そして、この平均レベル検出部２２で検出された平均レベルはゲイン制御信号生成部２３に供給される。ゲイン制御信号生成部２３では、平均レベル検出部２２で検出された音声信号の平均レベルと、予め定められている基準レベルと比較し、その比較結果を用いて、両レベルの差がゼロとなるようにするゲイン制御信号を生成する。そして、ゲイン制御信号生成部２３は、生成したゲイン制御信号を、可変ゲインアンプ２１Ｌ，２１Ｒに供給する。

可変ゲインアンプ２１Ｌ，２１Ｒは、ゲイン制御信号生成部２３からのゲイン制御信号によりゲインが可変制御される。この場合、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、この可変ゲインアンプ２１Ｌ，２１Ｒにおいて、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲの加算信号の、連続関連音区間での平均レベルが基準レベルと等しくなるようにゲイン制御される。

以上のようにして、可変ゲインアンプ２１Ｌ，２１Ｒは、平均レベル検出部２２で検出された連続関連音区間の音声平均レベルを基準に自動音量補正される。

可変ゲインアンプ２１Ｌ，２１Ｒから得られる左右２チャンネルの出力音声信号ＳｏＬおよびＳｏＲはスピーカ１９Ｌ，１９Ｒにより音響再生される。この場合に、その再生音声は、チャンネル切り替え時やコマーシャル部分の先頭などの大きなレベル差の音声区間と定常的な音声区間の両方において、常に、良好に音量制御がなされたものとなる。

この実施形態では、平均レベル検出部２２は、図１に示すように構成される。

先ず、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、加算部３１で互いに加算される。この加算部３１からの加算出力信号は、アンプ３２にて１／２ゲイン倍される。このアンプ３２からの加算出力信号Ｓｍは、エンベロープ検出部３３に供給される。このエンベロープ検出部３３では、加算出力信号Ｓｍの波形のエンベロープ（包絡線）が検出され、当該エンベロープ信号Ｓemvが出力される。そして、このエンベロープ検出部３３で検出された加算出力信号Ｓｍのエンベロープ信号Ｓemvは、平均レベル生成部３６に供給される。

また、アンプ３２からの加算出力信号Ｓｍが連続関連音区間検出部３４に供給される。この連続関連音区間検出部３４は、図３に示すように、音声信号有無検出部３４１と、検出結果延長部３４２とからなる。検出結果延長部３４２は、音声信号有無検出部３４１からの検出出力信号で示される音声信号有り区間の終了時点を、一定期間だけ延長した信号を生成する。

［連続関連音区間検出部３４の構成例］
図３は、連続関連音区間検出部３４の基本的な構成例を示すもので、音声信号有無検出部３４１は、基準レベル発生部３４１１と、比較部３４１２とからなる。比較部３４１２は、アンプ３２からの加算出力信号Ｓｍ（図４（Ａ）参照）と、基準レベル発生部３４１１からの基準閾値レベルθｃ（図４（Ａ）参照）とを比較する。

そして、比較部３４１２は、加算出力信号Ｓｍが基準閾値レベルθｃよりも大きいときには“１”、小さいときに“０”となる検出出力Ｃｍｐ（図４（Ｂ）参照）を、検出結果延長部３４２出力する。すなわち、比較部３４１２からの音声有無検出出力Ｃｍｐは、音声信号有り区間では“１”となり、音声信号無し（無信号）区間では“０”となる。この比較部３４１２の検出出力Ｃｍｐは、検出結果延長部３４２に供給される。

検出結果延長部３４２は、検出出力Ｃｍｐの立ち下がり時点を、予め定めた延長時間ＤＬだけ、遅延させて延長させるようにする。すなわち、検出結果延長部３４２は、検出出力Ｃｍｐの音声信号有り区間である“１”区間を、延長時間ＤＬだけ延長するように働く。

したがって、音声信号有無検出部３４１の検出出力Ｃｍｐの“０”区間が、延長時間ＤＬよりも短いときには、図４（Ｃ）に示すように、音声信号有り区間である“１”区間が、隣り合うもの同士でつながったようになる。そして、音声信号有無検出部３４１の検出出力Ｃｍｐの“０”区間が、延長時間ＤＬよりも長くなると、図４（Ｃ）に示すように、検出結果延長部３４２の出力は、初めて“０”に立ち下がるようになる。

こうして、延長時間ＤＬよりも音声信号有り区間の間が短いときには、互いに関連のある一群の連続関連音として、検出される。そして、検出結果延長部３４２からの出力は、連続関連音区間を示す連続関連音区間検出フラグＳＦＬＧ（図４（Ｃ））となる。

検出結果延長部３４２における延長時間ＤＬは、例えばシーン対応音声区間を連続関連音区間とすることができる時間長などに、予め固定的に設定されている。なお、この延長時間ＤＬを調整することで、連続関連音区間として検出される音声区間を調整することができる。

ところで、図３の例では、加算出力信号Ｓｍから音声信号有り区間を検出するための基準閾値レベルθｃの設定が重要である。この基準閾値レベルθｃを、あまりに低い値にすると、音声信号ではないノイズをも音声信号と検出してしまうし、また、基準閾値レベルθｃの値が高すぎると、音声信号の有無を適切に検出することができないからである。

この実施形態では、このような固定設定される閾値レベルθｃを用いる代わりに、音声信号のレベルに応じて動的に変化する閾値レベルθｄを用いることで、音声信号の有無を適切に検出することができるようにしている。

この動的に変化する閾値レベルθｄを用いる場合の連続関連音区間検出部３４の構成例を図５に示す。

この例の場合の連続関連音区間検出部３４の音声信号有無検出部３４１は、図５に示すように、第１平均レベル検出部３４１３と、第２平均レベル検出部３４１４と、減衰部３４１５と、比較部３４１６とからなる。そして、検出結果延長部３４２の構成および音声信号有無検出部３４１からの音声信号有無検出出力が検出結果延長部３４２に供給される構成は、図３の例の場合と同様である。

図５の例の場合の音声信号有無検出部３４１での音声信号有無検出動作を、図６を参照しながら説明する。

第１平均レベル検出部３４１３は、その入力信号である加算出力信号Ｓｍ（図６（Ａ）参照）の平均レベルを追従性良く検出するもので、その平均レベル検出時定数は小さく設定されている。

一方、第２平均レベル検出部３４１４は、加算出力信号Ｓｍのレベル変化に応じた閾値レベルθｄを設定する目的で、加算出力信号Ｓｍの平均レベルを検出するもので、その平均レベル検出時定数は大きな値に設定されている。

第１平均レベル検出部３４１３で検出された加算出力信号Ｓｍの平均レベルＡｖｒ（図６（Ｂ）参照）は、比較部３４１６に供給される。また、第２平均レベル検出部３４１４で検出された加算出力信号Ｓｍの平均レベルは、減衰器３４１５で更に減衰された後、閾値レベルθｄ（図６（Ｃ）参照）として、比較部３４１６に供給される。

そして、比較部３４１６では、加算出力信号Ｓｍの平均レベルＡｖｒが、閾値レベルθｄを超えている期間を、音声信号有り区間として検出し、当該音声信号有り区間で“１”となる検出出力Ｃｍｐ（図６（Ｄ）参照）を出力する。

この比較部３４１６の検出出力Ｃｍｐは、検出結果延長部３４２に供給される。検出結果延長部３４２は、前述したようにして、比較部３４１６の検出出力Ｃｍｐの“１”区間を、延長時間ＤＬだけ延長した連続関連音区間検出フラグＳＦＬＧ（図６（Ｅ）参照）を出力する。

連続関連音区間検出部３４で以上のようにして検出された連続関連音区間検出フラグＳＦＬＧは、平均レベル生成部３６に供給されると共に、連続関連音先頭期間検出部３５に供給される。

連続関連音先頭期間検出部３５は、連続関連音区間検出部３４で検出された連続関連音区間の先頭から予め設定された時間長分の期間を示す先頭期間検出フラグＨＤを生成して出力する。

［連続関連音先頭期間検出部３５の構成例］
この実施形態では、連続関連音先頭期間検出部３５は、図７に示すような構成とされる。すなわち、連続関連音先頭期間検出部３５は、カウンタ３５１と、比較部３５２と、閾値カウント値発生部３５３とからなる。

カウンタ３５１のクロック端子には、図示を省略したクロック発生器からのクロック信号ＣＬＫが供給される。また、カウンタ３５１のイネーブル端子ＥＮには、連続関連音区間検出部３４からの連続関連音区間検出フラグＳＦＬＧが供給されると共に、カウンタ３５１のリセット端子ＲＳにも、連続関連音区間検出フラグＳＦＬＧが供給される。

これにより、このカウンタ３５１は、連続関連音区間検出フラグＳＦＬＧが“１”である連続関連音区間において、クロック信号ＣＬＫをカウントし、連続関連音区間検出フラグＳＦＬＧの立ち下がりにより、そのカウント値がリセットされる。

そして、カウンタ３５１からのカウント値出力ＣＮＴは比較部３５２に供給される。また、比較部３５２には、閾値カウント値発生部３５３からの閾値カウント値が供給されている。

比較部３５２は、カウント値出力ＣＮＴと、閾値カウント値とを比較し、カウンタ３５１からのカウント値出力ＣＮＴが閾値カウント値になるまでの期間は、“１”とし、その後の期間は“０”とする先頭期間検出フラグＨＤを生成して出力する。すなわち、先頭期間検出フラグＨＤは、連続関連音区間の先頭から一定期間だけ“１”となる信号である。

こうして、連続関連音先頭期間検出部３５からは、連続関連音区間の先頭から一定期間だけ“１”となる先頭期間検出フラグＨＤが得られ、当該先頭期間検出フラグＨＤが平均レベル生成部３６に供給される。

この平均レベル生成部３６では、連続関連音区間検出フラグＳＬＦＧの“１”区間である連続関連音区間では、エンベロープ検出部３１からのエンベロープ信号から、加算出力信号Ｓｍの平均レベルを検出生成する。

この平均レベル生成部３６での平均レベル検出において、先頭期間検出フラグＨＤで示される連続関連音区間の先頭から一定期間では、加算出力信号Ｓｍの平均レベルに速やかに追従するように、平均レベル検出時定数を小さい値とする。そして、連続関連音区間の前記先頭の一定期間を除く期間では、平均レベル生成部３６での平均レベル検出時定数は、音声信号の細かい変動に追従しないように、大きい値とされる。

そして、平均レベル生成部３６は、前の連続関連音区間と次の連続関連音区間との間（無音区間）では、前の連続関連音区間で検出生成した平均レベルをホールドするようにする。

［平均レベル生成部３６の構成例］
以上の処理動作を行う平均レベル生成部３６の構成例を図８に示す。すなわち、この実施形態における平均レベル生成部３６は、選択部３６１と、積分部３６２と、積分時定数変更制御部３６３とからなる。

そして、エンベロープ検出部３３からのエンベロープ信号Ｓemvが、選択部３６１の一方の入力端に供給されると共に、連続関連音区間検出フラグＳＦＬＧが選択信号として選択部３６１に供給される。この選択部３６１の出力信号は、積分部３６２に供給される。そして、この積分部３６２の出力信号が、選択部３６１の他方の入力端に供給されると共に、平均レベル生成部３６の出力信号Ｖavr１として出力される。

積分部３６２は、入力信号を積分結果に対して加算して積分することにより、入力信号の平均レベルを検出する。この場合に、積分部３６２の積分出力は、上昇または下降の積分方向のそれぞれにおいて、入力信号のレベルを超えることは無い。この例における積分部３６２での積分演算の演算式は、次の通りである。

Ｙ_ｔ＝１／Ｎ（Ｙ_{（ｔ−１）}×（Ｎ−１）＋Ｘ_ｔ）
＝Ｙ_{（ｔ−１）}×（Ｎ−１）／Ｎ＋Ｘ_ｔ×１／Ｎ
・・・（式１）
ここで、Ｙ_ｔは今回のサンプルＸ_ｔに対する積分出力、Ｙ_{（ｔ−１）}は１つ前の積分出力、Ｘ_ｔは入力サンプルである。サフィックスｔは、順次に入力される入力サンプルのサンプル番号に相当する。

（式１）において、１つ前の積分出力Ｙ_{（ｔ−１）}と入力サンプルＸ_ｔの値が等しい時には、Ｙ_ｔ＝Ｙ_{（ｔ−１）}となる。つまり、積分結果は、上昇または下降の積分方向のそれぞれにおいて、入力サンプル値を超えることは無い。

（式１）におけるＮは、積分時定数に相当するものである。この積分時定数Ｎが、この実施形態における平均レベル検出時定数の例である。この場合、積分時定数Ｎが大きければ、前の積分結果に対する新たな入力サンプルの影響はすくなく、ゆっくりした積分がなされることになり、入力信号の細かな変化に対しては追従しないものとなる。

一方、積分時定数Ｎが小さいときには、新たな入力サンプルが、積分結果に大きく影響するので、早い積分がなされて、積分出力は、入力信号の変化に速やかに反映される。

この図８の例においては、積分部３６２の積分時定数は、積分時定数変更制御部３６３からの制御信号により、変更制御される。すなわち、積分時定数変更制御部３６３には、先頭期間検出フラグＨＤが供給され、積分時定数変更制御部３６３は、先頭期間検出フラグＨＤが“１”である連続関連音区間の先頭から一定期間では、積分部３６２の積分時定数を小さい値に設定する。例えば、積分時定数Ｎ＝１００に設定される。

また、積分時定数変更制御部３６３は、先頭期間検出フラグＨＤが“０”である連続関連音区間の先頭から一定期間の後の期間では、積分部３６２の積分時定数を大きい値に設定する。例えば、積分時定数Ｎ＝１０００に設定される。

選択部３６１は、連続関連音区間検出フラグＳＦＬＧにより、連続関連音区間では、エンベロープ検出部３３からのエンベロープ信号Ｓemvを選択して積分部３６２に供給する。

したがって、積分部３６２は、連続関連音区間では、エンベロープ検出部３３からのエンベロープ信号Ｓemvを積分して平均化した信号を生成する。

この場合に、連続関連音区間の先頭から一定期間では、積分部３６２は、積分時定数が小さいので、エンベロープ信号Ｓemvに速やかに到達するような積分がなされる。また、連続関連音区間の先頭から一定期間の後の期間では、積分部３６２は、積分時定数が大きいので、エンベロープ信号Ｓemvにゆっくりと向かうような積分がなされる。

そして、選択部３６１は、連続関連音区間以外の期間になると、積分部３６２の出力信号を選択して積分部３６２に供給する。したがって、積分部３６２は、連続関連音区間以外の期間では、自積分部３６２の出力レベル信号を維持（ホールド）する。

こうして、積分部３６２からは、離散的な連続関連音区間の平均レベルを繋げた平均レベル出力Ｖavr１が得られる。

次に、図９を参照しながら、平均レベル検出部２２における処理動作を説明する。

例えば、アンプ３２からの加算出力信号Ｓｍが、図９（Ａ）に示すようなものであった場合を考える。したがって、エンベロープ検出部３３からのエンベロープ信号Ｓemvは、図９（Ｉ）に示すようなものとなる。

図９（Ａ）の加算出力信号Ｓｍでは、時間的に近接する音声信号有り区間が、連続関連音区間検出部３４で検出されるので、図９（Ｂ）に示すような連続関連音区間検出フラグＳＦＬＧが得られる。

そして、連続関連音区間になると連続関連音先頭期間検出部３５のカウンタ３５１がクロック信号ＣＬＫのカウントを開始し、そのカウント値ＣＮＴが図９（Ｃ）に示すように徐々に上昇する。そして、連続関連音先頭期間検出部３５は、連続関連音区間の先頭からカウント値ＣＮＴが閾値カウント値に到達するまでの一定期間を検出し、図９（Ｄ）に示すように、当該一定期間を示す先頭期間検出フラグＨＤを出力する。

平均レベル生成部３６は、エンベロープ検出部３３からのエンベロープ信号Ｓemvと、連続関連音区間検出フラグＳＦＬＧと、先頭期間検出フラグＨＤとを受けて、前述したようにして積分動作を行う。

この場合において、平均レベル生成部３６においては、連続関連音区間フラグＳＦＬＧの“０”区間として示される隣り合う連続関連音区間の間の期間は、図９（Ｅ）で太線区間として示すように、積分部３６２の積分出力をホールドするホールド期間となる。

また、平均レベル生成部３６においては、先頭期間検出フラグＨＤの“１”区間として示される連続関連音区間の先頭期間では、図９（Ｆ）で太線区間として示すように、積分部３６２の積分時定数を小さい値とする第１時定数期間とする。

さらに、平均レベル生成部３６においては、連続関連音区間のうちの、先頭期間検出フラグＨＤで示される先頭期間を除く期間では、図９（Ｇ）で太線区間として示すように、積分部３６２の積分時定数を大きい値とする第２時定数期間とする。

そして、平均レベル生成部３６は、連続関連音区間の音声信号の平均レベルの検出出力として連続した平均レベル出力Ｖavr１（図９（Ｈ）参照）を得る。

この平均レベル出力Ｖavr１は、ゲイン制御信号生成部２３に供給される。

このゲイン制御信号生成部２３では、平均レベル検出部２２からの声平均レベル信号Ｖavrと、予め定められている基準レベルと比較し、その比較結果としての両レベルの差がゼロとなるようにするゲイン制御信号を生成する。

そして、ゲイン制御信号生成部２３で生成されたゲイン制御信号は可変ゲインアンプ２１Ｌ，２１Ｒに供給される。可変ゲインアンプ２１Ｌ，２１Ｒでは、このゲイン制御信号により、入力音声信号ＳｉＬおよびＳｉＲの平均レベルが、基準レベルとなるようにゲイン制御される。その結果、可変ゲインアンプ２１Ｌ，２１Ｒからの出力音声信号ＳｏＬまたはＳｏＲは、ほぼ一定となるようにゲイン制御されたものとなる。

上述のようにして得られる平均レベル生成部３６の出力信号Ｖavrは、連続関連音区間の音声信号の平均レベルを示すものとなっている。しかも、出力信号Ｖavrは、連続関連音区間の先頭部分では、すみやかに入力音声信号の平均レベルに追従するものとなっているので、連続関連音区間の間での音声信号レベルの変動をなくすように音量制御されることになる。

そして、連続関連音区間の先頭期間以後の期間では、平均レベル検出時定数（上述の例では、積分時定数）が大きくされているので、連続関連音区間内での音声の細かな変動には追従せずに、聞き易い出力音が得られる。

なお、上述の説明では、平均レベル生成部３６では、エンベロープ検出部３３からのエンベロープ信号Ｓemvから加算出力信号Ｓｍの平均レベルを積分して検出するようにした。しかしながら、第１の実施形態では、エンベロープ検出部３３を設けずに、平均レベル生成部３６で加算出力信号Ｓｍを受けて、その平均レベルを積分して検出するようにすることもできる。

［音量補正装置の第２の実施形態］
この第２の実施形態は、上述した第１の実施形態の変形例である。上述の第１の実施形態では、連続関連音区間の先頭期間における平均レベル検出時定数は、１種類のみとした。これに対して、この第２の実施形態では、前の連続関連音区間の平均レベルから、後の連続関連音区間の平均レベルが上昇したか、あるいは下降したかに応じて、連続関連音区間の先頭期間における平均レベル検出時定数を変えるようにする。

例えば、音声信号レベルが急に上がってしまった状態を、それをあまりに急激に抑圧するように音量制御すると、そのレベル変化時点で音揺れが生じ、違和感を生じてしまうおそれがある。そこで、後の連続関連音区間の平均レベルが上昇した場合における平均レベル検出時定数は、後の連続関連音区間の平均レベルが下降した場合における平均レベル検出時定数よりも、より大きくして、積分速度をゆっくりとするようにする。

これに対して、音声信号レベルが、前の連続関連音区間よりも小さくなってしまった音声信号レベルを、あまりに早く上げるようにする場合の不具合を補正するようにする場合には、平均レベル検出時定数と、後の連続関連音区間の平均レベルが上昇しているか下降しているかの関係は、逆の関係となる。すなわち、後の連続関連音区間の平均レベルが降下している場合における平均レベル検出時定数を、後の連続関連音区間の平均レベルが上昇している場合における平均レベル検出時定数よりも、より大きくするようにする。

いずれを採用するかは、放送番組コンテンツの内容や、使用者の好みなどに応じて設定される。

以下に説明する例は、音声信号レベルが急に上がってしまった状態を、上述のような不具合なく有効に音声出力レベルを一定にすることができるようにする前者の場合である。

この第２の実施形態は、第１の実施形態とは、平均レベル生成部３６の構成のみが異なる。この第２の実施形態の場合の平均レベル生成部３６の構成例を、図１０に示す。第２の実施形態では、この平均レベル生成部３６以外の平均レベル検出部２２のその他の部分の構成は、上述した第１の実施形態の場合と全く同様である。

この第２の実施形態における平均レベル生成部３６は、図１０に示すように、選択部３６１と、積分部３６２と、比較部３６４と、積分時定数変更制御部３６５とからなる。選択部３６１と、積分部３６２とは、図８に示した第１の実施形態の場合におけるそれらと同一の構成を有するので、同一参照番号を付した。

この第２の実施形態では、エンベロープ信号Ｓemvと、積分部３６２のこの例の積分出力である平均レベル出力Ｖavr２とが比較部３６４に供給される。積分部３６２の積分出力である平均レベル出力Ｖavr２は、一つ前の連続関連音区間の平均レベルを示していることになる。また、エンベロープ信号Ｓemvは、今回の連続関連音区間の平均レベルに対応する信号である。

したがって、比較部３６４では、今回の連続関連音区間の音声信号の平均レベルが、前の連続関連音区間の音声信号の平均レベルよりも大きくなっているか、あるいは小さくなっているかを検出する。

そして、比較部３６４は、その比較結果出力を積分時定数変更制御部３６５に供給される。この積分時定数変更制御部３６５には、第１の実施形態と同様に、連続関連音先頭期間検出部３５からの先頭期間検出フラグＨＤも供給されている。

積分時定数変更制御部３６５では、連続関連音区間の先頭期間において、比較部３６４からの比較結果出力が、今回の平均レベルが前回よりも大きいことを示しているときには、前記先頭期間での積分部３６２の積分時定数を大きい値とする。また、比較部３６４の比較結果出力が、今回の平均レベルが前回よりも低いことを示しているときには、前記先頭期間での積分部３６２の積分時定数を小さい値とする。

その他の処理は、第１の実施形態と全く同様となる。図１１のタイミングチャートを参照しながら、この第２の実施形態における平均レベル検出部２２での処理動作を説明する。

図１１（Ａ）〜（Ｅ）は、図９（Ａ）〜（Ｅ）に示した第１の実施形態の各信号やフラグと全く同様となる。また、図１１（Ｇ）に示すように、連続関連音区間の先頭期間以外の期間においては、先頭期間よりも大きい平均レベル検出時定数（この例では、大きい積分時定数）、例えばＮ＝１０００とするのは、第１の実施形態と同様（図９（Ｇ）参照）である。

この第２の実施形態では、比較部３６４は、図１１（Ｈ）および（Ｉ）に示すように、連続関連音区間の先頭期間Ｐｈｄ１、Ｐｈｄ２、Ｐｈｄ３のそれぞれにおいて、積分部３６２の積分出力Ｖavr２と、エンベロープ信号Ｓemvとを比較する。そして、その比較結果出力に応じて、図１１（Ｆ）に示すように、積分時定数変更制御部３６５により、積分部３６２の第１時定数期間（先頭期間）の時定数を制御する。

すなわち、図１１の例では、比較部３６４は、１番目の先頭期間Ｐｈｄ１では、積分出力Ｖavr２と、エンベロープ信号Ｓemvとは等しいので、その旨の比較結果出力を積分時定数変更制御部３６５に供給する。すると、積分時定数変更制御部３６５は、このときには、積分部３６２の連続関連音区間の先頭期間における第１時定数（積分時定数）を、先頭期間の時定数としては大きい時定数、例えばＮ＝１２０とする。

次に、２番目の先頭期間Ｐｈｄ２では、今回の平均レベルであるエンベロープ信号Ｓemvのレベルの方が、前の連続関連音区間の平均レベルである積分出力Ｖavr２よりも小さいので、比較部３６４は、その旨の比較結果出力を積分時定数変更制御部３６５に供給する。すると、積分時定数変更制御部３６５は、このときには、積分部３６２の連続関連音区間の先頭期間における第１時定数（積分時定数）を、先頭期間の時定数としては、小さい時定数、例えばＮ＝８０とする。これにより、２番目の先頭期間Ｐｈｄ２では、より迅速に音声信号のレベルに追従するように積分部３６２での積分動作がなされる。つまり、小さい音を一定レベルまで上昇させるような音量制御がかかる。

また、３番目の先頭期間Ｐｈｄ３では、エンベロープ信号Ｓemvのレベルが、積分出力Ｖavr２よりも大きくなっているので、比較部３６４は、その旨の比較結果出力を積分時定数変更制御部３６５に供給する。すると、積分時定数変更制御部３６５は、このときには、積分部３６２の連続関連音区間の先頭期間における第１時定数（積分時定数）を、先頭期間の時定数としては大きい時定数とする。これにより、大きくなった音声信号レベルを、レベル変化時点での音揺れを生じることなく、一定レベルに抑圧するような音量制御がかかる。

以上説明した第２の実施形態の音量補正装置によれば、前連続関連音区間とのレベル差を速やかに補正すると共に、音声信号のレベル変化に伴う揺れを抑えた音量補正が可能となる。

［第３の実施形態］
例えばテレビ放送や、記録メディアに記録されている映画コンテンツ等においては、その音声信号中には、人声、ＢＧＭ（Background Music）、効果音といった多種類の音が含まれている。ユーザが、リモコン等を用いて手動でボリュームコントロールを行う場合、音声信号中の人声のレベルを基準にして、台詞が適切に聞こえるようにレベルの調整操作を行っていることが多い。

一方、上述した音量補正方式は、音声信号全体のレベルを監視して音量制御を行う方式である。例えば、音声信号全体の平均レベルを基準にして、ＡＧＣ方式により音量制御を行った場合、音声信号全体としての音量制御がなされ、うるさい音を出さないようにしたり、聞こえなかった小さな音を聞こえるようにしたりすることができる。

しかしながら、人の声の大きさに着目して聞くと、当該人の声は必ずしも一定のレベルとはならず、台詞が聞き取りやすいとは言えない、という場合があった。

以下に説明する第３の実施形態では、このことにかんがみ、音声信号中の人声に注目して平均レベルを求めることで、台詞等を聞き取り易くするようにする。

図１２に、この第３の実施形態における音量制御部１８の構成例のブロック図を示す。この図１２の例においては、上述した第１の実施形態と同一部分には、同一参照番号を付して、その詳細な説明は省略する。

この第３の実施形態では、図１に示した第１の実施形態の構成に加えて、声区間検出部３７を設けると共に、第１の実施形態の連続関連音先頭期間検出部３５に代えて、連続関連音先頭期間検出部３８を設ける。更に、第１の実施形態の平均レベル生成部３６に代えて、声平均レベル生成部３９を設ける。

そして、アンプ３２からの加算出力信号Ｓｍが、エンベロープ検出部３３および連続関連音区間検出部３４に供給されると共に、声区間検出部３７にも供給される。また、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲが、この声区間検出部３７に供給される。

後述するように、声区間検出部３７では、アンプ３２からの加算出力信号Ｓｍ中において、人声の音声信号が含まれる時間区間である声区間を検出する。また、この実施形態の声区間検出部３７では、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲからも、人声の音声信号が含まれる時間区間である声区間を検出する。

この実施形態では、声区間検出部３７では、人声信号の特徴量を用いて声区間を検出する。人声信号の特徴量は、複数種が存在する。この実施形態の声区間検出部３７では、後述するように、人声信号の複数種の特徴量のそれぞれについて、声区間の検出を行い、その検出結果の論理積を取ることにより、検出した声区間の精度を高めるようにしている。

この声区間検出部３７は、検出した声区間を示す声区間検出フラグＶＦＬＧを生成して出力する。そして、声区間検出部３７は、声区間検出フラグＶＦＬＧを、連続関連音先頭期間検出部３８に供給すると共に、声平均レベル生成部３９に供給する。

声平均レベル生成部３９には、更に、エンベロープ検出部３３からのエンベロープ信号Ｓemvと、連続関連音区間検出部３４からの連続関連音区間検出フラグＳＦＬＧと、連続関連音先頭期間検出部３５からの先頭期間検出フラグＨＤとが供給される。

声平均レベル生成部３９では、基本的には、上述した第１の実施形態と同様の動作を行う。しかし、この第３の実施形態では、声平均レベル生成部３９では、連続関連音区間においては、音声信号全体ではなく、声区間検出部３７で検出された声区間の音声信号の平均レベルを検出する点が第１の実施形態とは異なる。そして、連続関連音区間の先頭の一定期間と、その後の期間とで、平均レベル検出時定数を変えるようにするのは、上述の第１の実施形態と同様である。

［声区間検出部３７の構成例］
前述したように、声区間検出部３７では、人声信号の特徴量に着目して、その入力音声信号Ｓｍから人声が含まれる時間区間である声区間を検出する。そして、この実施形態では、声区間検出部３７では、人声信号の特徴量は複数種があることに着目して、当該複数種の特徴量のそれぞれについて、声区間の検出を行う。そして、その結果得られる複数個の検出結果の声区間に基づいて、声区間検出フラグＶＦＬＧを生成して出力することにより、検出した声区間の精度を高めるようにしている。

図１３に、この実施形態における声区間検出部３７の構成例のブロック図を示す。

この実施形態では、声区間検出部３７は、声周期検出部４０と、声帯域集中検出部５０、センター定位検出部６０、の３つの検出部を備える。この３つの検出部４０，５０，６０は、それぞれ声区間を特定するための人声信号の特徴量の一つを検出する。そして、これら３つの検出部４０，５０，６０の３つの検出出力の論理積をとることによって、声区間検出精度の向上を図るようにしている。以下、３つの検出部４０，５０，６０のそれぞれについて説明する。

＜声周期検出部４０＞
人声の信号は、複数の特徴的な周波数成分から構成されるが、ピッチと呼ばれる基本周波数成分のピークが強調された波形的特徴を有し、それが一母音期間継続する。また、基本周波数成分のピークは、一母音ごとに山なりのエンベロープを持って、同一周期で繰り返す。したがって、入力音声信号波形のピークを検出し、この検出したピークの周期の連続性を検出することによって、簡易的に、低負荷処理によって、声の存在する区間を特定することができる。つまり、人声の信号の同一ピーク周期の連続性を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。

前記ピークの周期は次第に上昇したり、下降したりといったスロープを持つが、隣接するピーク周期間の差はわずかである。したがって、ある程度の許容誤差範囲で隣り合うピーク周期の同一性を検出することによって、ピーク周期の変動の影響を回避して、人声が存在する声区間を検出することができる。

以上のことを踏まえて、この実施形態では、声周期検出部４０は、ピーク周期検出部４１と、連続同一周期検出部４２と、頻度検出部４３とで構成される。

ピーク周期検出部４１は、入力音声信号Ｓｍのピークを検出し、その検出したピークの周期を検出する。

連続同一周期検出部４２は、ピーク周期検出部４１で検出されたピークの周期の隣り合うものの同一性を判断し、同一性があるときには、ピークの周期の同一性が連続しているとして検出する。この場合に、連続同一周期検出部４２は、ピーク周期が声の帯域の周期範囲のみについて、ピーク周期の隣り合うものの同一性を判断するようにする。例えば、ピーク周期が、およそ１ミリ秒（１ｍｓ）から１０ミリ秒（１０ｍｓ）ほどの間にあるときに、前記ピーク周期の隣り合うものの同一性判断を行うようにする。

頻度検出部４３は、連続同一周期検出部４２の出力を、１ピーク周期ずつ遅延したものを３以上の複数個用意し、それら複数個の、例えば多数決を求めることにより、ピーク周期の変動による影響を除去するようにしている。すなわち、ピーク周期が変動した場合、当該変動時点の１〜複数周期分が、連続同一周期検出部４２で、連続同一周期の声区間として検出しても良いのにも拘らず、連続同一周期として検出されなくなる場合がある。頻度検出部４３では、このような変動による不連続として検出されてしまう１〜複数周期分をなくして、安定した連続同一周期の検出出力が得られるようにする。

図１４は、声周期検出部４０の、より詳細な構成例を示す図である。ピーク周期検出部４１は、ピーク検出部４１１と周期計数カウンタ４１２とからなる。連続同一周期検出部４２は、周期比較部４２１と、遅延部４２２とからなる。

頻度検出部４３は、この例では、連続同一周期検出部４２の出力信号を、それぞれ１ピーク周期分ずつ遅延する２個の遅延部４３１，４３２と、多数決論理部４３３とからなる。

この声周期検出部４０の動作を、図１５の音声波形図を参照しながら説明する。すなわち、図１５（Ｂ）は、加算音声信号Ｓｍの一部である図１５（Ａ）のうちの、声区間の音声波形を示すものである。図１５（Ａ）で、等間隔の縦線を付した部分が人声区間であり、黒塗りで示した部分は、声以外区間である。

ピーク周期検出部４１のピーク検出部４１１は、この図１５（Ａ）の入力音声信号Ｓｍの、この例では、正側のピーク位置を検出し、その検出時点（検出位置）を示すピーク検出出力Ｐｋを出力する（図１５（Ｃ）参照）。なお、ピーク検出部４１１は、例えば、所定のスレッショールド値を超えるピーク値を、ピーク位置として検出する。

このピーク検出部４１１からのピーク検出出力Ｐｋは、周期計数カウンタ４１２に供給される。周期計数カウンタ４１２には、人声信号のピーク周期よりも十分に周波数が高いクロックＣＬＫが供給されており、このクロックＣＬＫを、隣り合うピーク検出出力Ｐｋの間でカウントすることにより、ピーク周期を計数する。したがって、周期計測カウンタ４１２は、ピーク周期をクロックＣＬＫの計数値として出力する。

この周期計測カウンタ４１２からのピーク周期検出出力としての計数値Ｔｃは、連続同一周期検出部４２に供給される。

連続同一周期検出部４２においては、周期計測カウンタ４１２からのピーク周期検出出力としての計数値Ｔｃは、そのまま周期比較部４２１に供給されると共に、遅延部４２２を通じて遅延された後、周期比較部４１２に供給される。

遅延部４２２は、この例では、ピーク検出出力Ｐｋがクロックとして供給されるラッチ部として構成されており、周期計数カウンタ４１２からの計数値Ｔｃを、１ピーク周期分遅延させて、周期比較部４２１に供給するようにする。

この例では、周期比較部４２１では、まず、周期計数カウンタ４１２からの計数値Ｔｃが、１ｍｓから１０ｍｓまでの間のピーク周期に対応する計数値であるかどうかチェックする。そして、計数値Ｔｃが、１ｍｓから１０ｍｓまでの間のピーク周期に対応する計数値でないときには、周期比較部４２１は、周期比較を行わずに、この例では、その出力ＣＴをローレベル（「０」）とする。そして、計数値Ｔｃが、１ｍｓから１０ｍｓまでの間のピーク周期に対応する計数値であるときには、周期比較部４２１は、次のようにして、隣り合う前後のピーク周期の比較演算を行う。

すなわち、周期比較部４２１では、周期計測カウンタ４１２からの現時点でのピーク周期の計数値Ｔｃｐと、その１ピーク周期前のピーク周期の計数値Ｔｃｂとを比較し、両ピーク周期が同一であるかどうかを判定する。ここで、周期比較部４２１では、前後のピーク周期の計数値ＴｃｐとＴｃｂとが全く同一である場合のみではなく、同一と見なせるほど両者の差が小さい許容範囲であるときには同一と判定される。同一と判定する差の大きさは、声区間を検出する精度の許容度に応じて予め設定されている。

周期比較部４２１は、この例では、前後のピーク周期の計数値ＴｃｐとＴｃｂとが同一であると判定したときにはハイレベル（「１」）、同一ではないと判定されたときにローレベル（「０」）となる連続同一周期検出フラグＣＴ（図１５（Ｄ）参照）を出力する。

この連続同一周期検出フラグＣＴは、頻度検出部４３に供給される。この頻度検出部４３は、前述したように、この例では、２個の遅延部４３１，４３２と、多数決論理部４３３で構成される。

遅延部４３１，４３２は、この例では、ピーク検出出力Ｐｋがクロックとして供給されるラッチ部として構成されており、その入力信号を、それぞれ１ピーク周期分遅延させる。

遅延部４３１は、連続同一周期検出部４２からの連続同一周期検出フラグＣＴを入力信号として受け、この連続同一周期検出フラグＣＴを１ピーク周期分遅延させた信号ＣＴｄ１（図１５（Ｅ）参照）を出力する。

また、遅延部４３２は、遅延部４３１の出力信号ＣＴｄ１を受け、この出力信号ＣＴｄ１を、さらに、１ピーク周期分遅延させた信号ＣＴｄ２（図１５（Ｆ）参照）を出力する。

そして、連続同一周期検出フラグＣＴと、その１ピーク周期遅延信号ＣＴｄ１と、その２ピーク周期遅延信号ＣＴｄ２との３個の信号は、多数決論理部４３３に供給される。

多数決論理部４３３は、３個の信号ＣＴ、ＣＴｄ１，ＣＴｄ２のうち、２個の信号がハイレベル「１」となっているときには「１」、そうでないときには、ローレベル「０」として、声周期検出フラグＦＬＧａ（図１５（Ｇ）参照）を生成して出力する。

この頻度検出部４３によれば、連続同一周期検出部４２で、ピーク周期の変動のために、声区間の一部のピーク周期区間を連続同一周期区間として検出できなかったときにも、その一部のピーク区間を含めた声周期検出フラグＦＬＧａを出力することができる。

以上のようにして、声周期検出部４０で検出されて得られた声周期検出フラグＦＬＧａは、アンドゲート３７０に供給される。

なお、上述の例では、頻度検出部４３では、２個の遅延部を用いて、１ピーク周期分ずつ異なる３個の信号の多数決をとるようにしたが、頻度検出部４３では、３個以上の遅延部を用いて、その多数決をとるように構成しても良い。その場合に、多数決としては、単純な多数決ではなく、スレッショールド値を設定して、それを超えた多数決とするようにしても良い。例えば、４個の遅延部を用いて、１ピーク周期分ずつ異なる５個の信号の多数決をとる場合に、３個以上が「１」であるときではなく、４個以上が「１」であるときにのみ、声区間検出信号ＦＬＧａを「１」とするようにしても良い。

また、上述の例では、声周期検出部４０では、音声波形の正側のピークを検出するようにしたが、負側のピークを検出するようにしても良い。また、正側と負側の両ピークを検出して、その両者の論理和（オア）を用いるようにしても良い。

＜声帯域集中検出部５０＞
人声の信号の母音を構成する主成分の周波数帯は、主に１００Ｈｚから１ｋＨｚといった中域の周波数帯域に多く含まれる。したがって、この１００Ｈｚから１ｋＨｚという周波数帯域の信号成分が、それ以外の成分に対して大きいところを抽出することによって、人声の存在する区間を特定することができる。つまり、人声の信号の母音を構成する主成分の周波数帯を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。

また、暗騒音や炸裂音など、主に人声とは異なる周波数帯域成分を多く持つ信号を除外することができる。なお、この実施形態では、人声の周波数帯域としては、母音の帯域とし、子音部分は除外する。これは、人声の大きさとしては、母音のレベルが主体的に知覚されるためである。

この実施形態においては、声帯域集中検出部５０は、図１３に示すように、バンドパスフィルタ（ＢＰＦ）５１と、バンドエリミネーションフィルタ（ＢＥＦ）５２と、平均レベル検出部５３，５４と、アンプ５５と、比較部５６とからなる。

バンドパスフィルタ５１は、図１６（Ａ）に示すように、この例では、１００Ｈｚから１ｋＨｚの間の人声が含まれる周波数帯域を通過帯域とする通過特性を備えるフィルタとされる。また、バンドエリミネーションフィルタ５２は、図１６（Ｂ）に示すように、１００Ｈｚから１ｋＨｚの間の人声が含まれる周波数帯域を非通過帯域とする通過特性を備えるフィルタとされる。つまり、バンドエリミネーションフィルタ５２は、人声が含まれない周波数帯域を通過帯域とするフィルタである。

そして、アンプ３２からの左右２チャンネルの入力音声信号ＳｉＬ，ＳｉＲの加算出力信号Ｓｍが、バンドパスフィルタ５１およびバンドエリミネーションフィルタ５２に供給される。

バンドパスフィルタ５１からは、加算出力信号Ｓｍから１００Ｈｚ以上、１ｋＨｚ以下の人声が含まれる周波数帯域の信号成分が抽出され、当該信号成分が平均レベル検出部５３に供給される。平均レベル検出部５３では、加算出力信号Ｓｍの１００Ｈｚ以上、１ｋＨｚ以下の周波数帯域の信号成分の平均レベルが検出され、その検出された平均レベル信号ＢＰＦavr（図１７の実線で示す波形参照）が平均レベル検出部５３から出力される。

また、バンドエリミネーションフィルタ５２からは、加算出力信号Ｓｍのうち、１００Ｈｚ以下、かつ、１ｋＨｚ以上の人声が含まれない周波数帯域の信号成分が抽出され、当該信号成分が平均レベル検出部５４に供給される。平均レベル検出部５４では、加算信号Ｓｍの１００Ｈｚ以上、１ｋＨｚ以下の人声が含まれない周波数帯域の信号成分の平均レベルが検出され、その検出された平均レベル信号ＢＥＦavr（図１７の一点鎖線で示す波形参照）が平均レベル検出部５４から出力される。

そして、平均レベル検出部５３からの平均レベル信号ＢＰＦavrがそのまま比較部５６に供給されると共に、平均レベル検出部５４からの平均レベル信号ＢＥＦavrは、アンプ５５により重み付けされた後、比較部５６に供給される。ここで、アンプ５５による重み付けの値は、声区間の検出精度に関与するもので、この例では、アンプ５５による重みが大きいほど声区間として検出される区間の長さは短くなる。なお、重み付けは、平均レベル検出部５３の出力ＢＰＦavrに対して行っても良い。

比較部５６では、主に声を含む周波数帯域の平均レベル信号ＢＰＦavrが、主に声を含まない周波数帯域の平均レベルＢＥＦavrに重みづけしたレベルを上回った場合に、声帯域集中区間を検出したとして、声帯域集中検出フラグＦＬＧｂを立てる。この例では、図１７に示すように、検出した声帯域集中区間においては、声帯域集中検出フラグＦＬＧｂをハイレベル（「１」）にする。

以上のようにして、声帯域集中検出部５０で検出されて得られた声帯域集中検出フラグＦＬＧｂは、アンドゲート３７０に供給される。

なお、以上の説明では、バンドパスフィルタ５１と、バンドエリミネーションフィルタ５２を使用した。しかし、主に人声を含む周波数帯域の信号と、主に人声を含まない周波数帯域の信号を抽出する手段としては、これに限られるものではなく、ローパスフィルタやハイパスフィルタなどのフィルタを用いて帯域を切り分けてもよい。

また、比較部５６では、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号と、入力信号自身とを、比較しても良い。または、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号と入力信号との差分と、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号とを比較しても良い。

＜センター定位検出部６０＞
例えばラジオ放送やテレビ放送におけるステレオ放送のコンテンツなどにおいては、人の台詞をもっとも聞き取り易くするために、人の台詞の大半はセンターに定位させているため、人声のあるところでは、定位分布がセンターに集中している。

このため、ステレオ音声信号において、センターに定位する信号成分を含む区間を特定することによって、声の存在する区間を特定することができる。つまり、ステレオ音声信号におけるセンター定位成分を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。また、ステレオ音声信号におけるセンター定位成分を抽出することで、左右に広がる音楽信号部分など、センターに定位するボーカル以外の部分を除外できる。

センター定位検出部６０は、図１３に示すように、定位分布検出部６１と、センター集中定位検出部６２とからなる。そして、左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲが定位分布検出部６１に供給され、この定位分布検出部６１で入力音声信号の時々刻々と変化する定位分布が検出される。

この定位分布検出部６１で検出された定位分布の情報がセンター集中定位検出部６２に供給され、このセンター集中定位検出部６２で、センターに定位する成分が集中している時間区間を検出する。このセンター集中定位検出部６２は、センターに定位する成分が集中している時間区間を示すセンター集中定位検出フラグＦＬＧｃを出力する。

定位分布検出部６１は、図１８に示すように、帯域制限フィルタ６１１，６１２と、定位方向検出部６１３と、定位方向分布計測部６１４とを備えて構成される。

センター定位分布検出部６０に入力された左右２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、それぞれ帯域制限フィルタ６１１，６１２において、例えば低域成分等、定位方向をあまり感じない周波数帯域の成分が除去される。

そして、帯域制限フィルタ６１１，６１２により帯域制限された２チャンネルの入力音声信号ＳｉＬおよびＳｉＲは、定位方向検出部６１３に供給される。定位方向検出部６１３は、帯域制限された２チャンネルの入力音声信号ＳｉＬおよびＳｉＲのそれぞれのレベルの大きさにより、所定の周期毎の定位方向の検出時点における２チャンネルの入力音声信号ＳｉＬおよびＳｉＲが持つ定位方向を検出する。

すなわち、定位方向検出部６１３においては、所定のサンプリング周期で、帯域制限された２チャンネルの入力オーディオ信号ＳｉＬおよびＳｉＲのそれぞれのレベル（振幅）をサンプリングする。そして、定位方向検出部６１３においては、この例では、最新サンプリング時点における定位方向を現時点における定位方向として検出するようにする。

この場合、定位方向検出部６１３は、当該最新サンプリング時点における定位方向を、入力音声信号ＳｉＬおよびＳｉＲのそれぞれについての、当該最新サンプリング時点のレベルと、それよりも過去のサンプリング時点のレベルとを用いて検出する。

２チャンネルの入力音声信号ＳｉＬおよびＳｉＲが、デジタルオーディオ信号であれば、前記サンプリング周期は、デジタルオーディオ信号のサンプル周期に等しくすることができる。もっとも、前記サンプリング周期を、デジタルオーディオ信号の１サンプル周期と等しくするのではなく、複数サンプル周期とするようにしてもよい。定位方向検出部６１３の入力音声信号がアナログ信号である場合には、この定位方向検出部６１３の入力段において、デジタルオーディオ信号に変換するようにしても良い。

この定位方向検出部６１３における定位方向の検出方法を、図１９を参照しながら説明する。図１９（Ａ）および（Ｂ）は、左チャンネルの入力音声信号ＳｉＬの振幅をＸ軸にとり、右チャンネルの入力音声信号ＳｉＲの振幅をＹ軸にとった場合の座標空間を示している。

定位方向検出部６１３では、まず、各サンプリング周期毎の定位方向の検出時点において２チャンネルの入力音声信号ＳｉＬおよびＳｉＲのそれぞれのレベルを取得して、それに対応する座標点を、図１９（Ａ），（Ｂ）の座標空間に、例えばＰ１，Ｐ２，Ｐ３，Ｐ４のように、プロットしてゆく。この例では、Ｐ４が最新の検出時点の座標点であるとする。

そして、定位方向検出部６１３では、ｙ＝ｋ・ｘ（ｋは定数）で表される直線（Ｘ軸とＹ軸との交点Ｚを通る直線）を、交点Ｚを中心として±９０°回転させたときに、つまり、定数ｋを変化させたときに、プロットした座標点Ｐ１，Ｐ２，Ｐ３，Ｐ４が、どの定数ｋの直線（どの傾き角度の直線）の一番近くを移動してゆくかを算出する。つまり、定数ｋを変えた各直線からの各座標点Ｐ１，Ｐ２，Ｐ３，Ｐ４までの距離Ｄａ１，Ｄａ２，Ｄａ３，Ｄａ４あるいは距離Ｄｂ１，Ｄｂ２，Ｄｂ３，Ｄｂ４の総和が最も小さい直線の定数ｋを算出する。

そして、定位方向検出部６１３は、算出した直線の定数ｋに対応する傾き角度を、検出したい現時点における定位方向とする。図１９の例では、Ｘ軸、つまり、左チャンネルの定位方向（左方向）の角度を０°として、このＸ軸に対する角度（以下、定位角度という）θを定位方向として検出することとする。

図１９（Ａ）の場合の座標点Ｐ１，Ｐ２，Ｐ３，Ｐ４の例では、定位角度はθａとして検出され、図１９（Ｂ）の場合の座標点Ｐ１，Ｐ２，Ｐ３，Ｐ４の例では、定位角度はθｂとして検出されるものである。

なお、この実施形態では、定位方向検出部６１３においては、現時点（最新サンプリング時点）の２チャンネル入力音声信号のレベルと、過去のサンプリング時点における２チャンネル入力音声信号のレベルとは等しい重みで用いてはいない。この実施形態では、定位方向検出部６１３においては、現時点に近いサンプリング時点の２チャンネル入力音声信号のレベルほど重みが大きいものとするようにしている。

このため、定位方向検出部６１３では、２チャンネル入力音声信号のレベルのサンプリング値に対して、図２０に示すように、現時点（この例では最新サンプリング時点ｔｎ）に近いほど、重みが大きくなるように、指数関数曲線の特性を有する時間ウインドーＷＤ１が用いられている。

なお、上述の説明では、処理対象信号時点となる現時点を最新サンプリング時点（最新サンプル時点）とした。しかし、入力音声信号ＳｉＬ，ＳｉＲの入力端と、可変ゲインアンプ２１Ｌおよび２１Ｒとの間に所定時間τだけ遅延させる遅延回路を設けて、処理対象となる現時点を、入力音声信号ＳｉＬ，ＳｉＲよりも前記τだけ遅延した時点とすることができる。

その場合には、定位方向検出部６１３では、処理対象信号時点となる現時点よりも後（未来）の２チャンネル入力音声信号ＳｉＬ，ＳｉＲをも用いて、定位方向を検出するようにすることができる。例えば、図１９の例で、処理対象信号時点となる現時点がＰ２やＰ３の場合とすることができる。

そして、その場合には、前述した時間ウインドーＷＤ１の代わりに、図２１に示すような指数関数曲線の特性の時間ウインドーＷＤ２が用いられる。この時間ウインドーＷＤ２は、処理対象信号時点となる現時点ｔｐで最も重みが大きく、現時点ｔｐから離れるにつれ、過去および未来の方向に重みが小さくなるような指数関数曲線の特性を有するものである。

なお、現時点の２チャンネル入力オーディオ信号のレベルを、過去および／または未来のサンプリング時点における２チャンネル入力音声信号ＳｉＬ，ＳｉＲのレベルを重み付けせずに、そのままの値で用いても良い。

以上のようにして、定位方向検出部６１３では、現時点においては、２チャンネル入力音声信号ＳｉＬ，ＳｉＲが、どの方向からの信号であるかを、定位角度θとして検出することができる。

しかしながら、検出した現時点における定位角度θは、１時点における入力オーディオ信号の定位方向を一方向に限定したもので、各方向ごとの信号の強さが反映されていない。そこで、この実施形態では、この点にかんがみ、定位方向検出部６１３で検出された現時点における２チャンネル入力音声信号ＳｉＬ，ＳｉＲの定位方向の検出結果（定位角度θ）は、定位方向分布計測部６１４に供給される。

定位方向分布計測部６１４では、予め定められた所定時間区間ｄに渡って定位方向検出部６１３で検出された定位角度θの、全方位についての分布を求め、２チャンネル入力音声信号の定位方向が、どの角度方向にどのくらいの割合を持っているかを計測する。

この場合、所定時間区間ｄは、例えば数ミリ秒〜数百ミリ秒、この例では数十ミリ秒に選定されている。そして、この実施形態では、定位方向分布計測部６１４では、この所定時間区間ｄにおける定位方向検出部６１３で検出された定位角度θに対して、定位方向検出部６１３における重み係数の特性と同様に重み付けをするようにする。

すなわち、定位方向分布計測部６１４では、現時点ｔｐ（この例では、ｔｐ＝ｔｎ（最新サンプリング時点））に近づくほど指数関数的に大きくなるような重み付けをする時間ウインドーＷＤ３（図２２参照）をかけて重み付けをするようにする。

なお、前述したように、入力オーディオ信号に対して遅延時間τを設けるようにして、定位方向検出部６１３での重み付けのための時間ウインドーを、図２１のようにする場合には、定位方向分布計測部６１４における時間ウインドーも、図２１と同様なものとなる。その場合の時間区間ｄは、現時点ｔｐより未来と過去の両方を含む時間区間となるものである。なお、重み付けをせずに、そのままの値で用いてもよい。

図２３は、この定位方向分布計測部６１４で求められた定位角度θの分布である定位方向分布Ｐ（θ）の一例を示すもので、横軸にはＸ軸（左チャンネル定位方向）を基準にした定位角度θをとり、縦軸には各定位角度の出現度（＜１）をとったものである。ここで、この実施形態では、定位方向分布Ｐ（θ）をすべての定位角度θについて総和を求めたときに１、すなわち、
ΣＰ（θ）＝１
となるように分布が生成される。

また、定位角度θと、音声信号の定位方向との関係は、図２４に示すようなものとなる。なお、図２４に示されている正面方向、左方向、右方向などは、リスナを基準にした方向名である。

以上のようにして、定位方向分布計測部６１４からは、現時点（現サンプリング時点あるいは現サンプル時点；処理対象信号時点）ごとに、図２３に示すような定位方向分布Ｐ（θ）の情報が得られる。

この定位方向分布Ｐ（θ）の情報は、センター集中定位検出部６２に供給される。センター集中定位検出部６２では、定位分布検出部６１によって算出された定位方向分布Ｐ（θ）に対して、主にセンター方向に重みを置いた重みづけをしたセンター定位分布信号を算出する。

左チャンネルの音声信号ＳｉＬおよび右チャンネルの音声信号ＳｉＲが、例えば図２５の（Ａ）および（Ｂ）に示すような信号であった場合を考える。この図２５（Ａ）および（Ｂ）において、等間隔の縦線を付した部分は、センター定位する人声成分が含まれている区間を示している。また、黒塗りの部分は、人声成分以外の区間を示している。

この図２５の例の場合、センター集中定位検出部６２で算出されるセンター定位分布信号は、図２５（Ｃ）に示すようなものとなる。

センター集中定位検出部６２では、算出したセンター定位分布信号の値と、予め設定した基準値ＲＥＦとを比較して、センター定位分布信号の値が基準値ＲＥＦを超えた区間を、センター定位検出区間として検出する。図２５の例では、基準値ＲＥＦは、０．８（８０％）とされている。そして、センター集中定位検出部６２は、検出したセンター定位検出区間を示すセンター定位検出フラグＦＬＧｃを出力する。

こうしてセンター定位検出部６２から得られるセンター定位検出フラグＦＬＧｃは、アンドゲート３７０に供給される。

なお、センター集中定位成分を検出して、声区間を検出する手法としては、上述した定位分布検出部６１とセンター集中定位検出部６２とを用いる手法に限られるものではない。例えば、簡易的には、２チャンネルの音声信号ＳｉＬ、ＳｉＲの和としてセンター集中定位信号を抽出し、抽出したセンター集中定位信号が所定の基準値を超えた区間を声区間として検出するようにしても良い。

＜声区間検出フラグＶＦＬＧの生成＞
アンドゲート３７０は、声周期検出部４０からの声周期検出フラグＦＬＧａと、声帯域集中検出部５０からの声帯域集中検出フラグＦＬＧｂと、センター定位検出部６０からのセンター定位検出フラグＦＬＧｃの論理積として、声区間検出フラグＶＦＬＧを出力する。

声周期検出フラグＦＬＧａ、声帯域集中検出フラグＦＬＧｂ、センター定位検出フラグＦＬＧｃは、それぞれ、声の区間を検出するための特徴量の存在を示したフラグである。アンドゲート３７０は、これら３つのフラグＦＬＧａ，ＦＬＧｂ，ＦＬＧｃの論理積をとることによって、人声の区間の検出出力である声区間検出フラグＶＦＬＧを生成するので、声区間の検出精度を上げることができる。

［連続関連音先頭期間検出部３８の構成例］
連続関連音先頭期間検出部３８は、この実施形態では、図２６に示すような構成を備えるものとされる。

連続関連音先頭期間検出部３８は、カウンタ３８１と、比較部３８２と、基準カウント値発生部３８３と、アンドゲート３８４とからなる。カウンタ３８１と、比較部３８２と、基準カウント値発生部３８３とからなる構成部分は、図７に示した第１の実施形態の連続関連音先頭期間検出部３５のカウンタ３５１と、比較部３５２と、基準カウント値発生部３５３とからなる構成部分と同一である。すなわち、第３の実施形態における連続関連音先頭期間検出部３８は、図７に示した第１の実施形態の連続関連音先頭期間検出部３５とは、アンドゲート３８４を備える点のみが異なる。

この第３の実施形態では、連続関連音区間検出フラグＳＦＬＧと声区間検出フラグＶＦＬＧとがアンドゲート３８４に供給されて、両フラグの論理積出力がアンドゲート３８４から得られる。このアンドゲート３８４の論理積出力が、カウンタ３８１のイネーブル端子ＥＮに供給される。

したがって、この第３の実施形態では、カウンタ３８４は、連続関連音区間であり、かつ、声区間でのみ、クロック信号ＣＬＫをカウントする。このため、この第３の実施形態における先頭期間検出フラグＨＤで示される連続関連音区間の先頭期間は、第１の実施形態や第２の実施形態のように一定期間ではなく、連続関連音区間中の声区間に応じたものとなる。

例えば、アンプ３２からの加算出力信号Ｓｍが、図２８（Ａ）に示すようなものであった場合を考える。図２８（Ａ）においても、等間隔の縦線を付した部分が人声区間であり、黒塗りで示した部分は、声以外区間である。

この場合、エンベロープ検出部３３からのエンベロープ信号Ｓemvは、図２８（Ｊ）に示すようなものとなる。

図２８（Ａ）の加算出力信号Ｓｍにおいても、時間的に近接する音声信号有り区間が、連続関連音区間検出部３４で検出されるので、図２８（Ｂ）に示すような連続関連音区間検出フラグＳＦＬＧが得られる。

また、声区間検出部３７で加算出力信号Ｓｍ中の声区間が検出されるので、声区間検出部３７からは、図２８（Ｃ）に示すような声区間検出フラグＶＦＬＧが得られる。

そして、連続関連音区間になると連続関連音先頭期間検出部３８のカウンタ３８１がクロック信号ＣＬＫのカウントを開始し、そのカウント値ＣＮＴが図９（Ｃ）に示すように徐々に上昇する。

ただし、この第３の実施形態では、アンドゲート３８４の論理積出力がカウンタ３８１のイネーブル端子ＥＮに供給されているので、連続関連音区間であって、かつ、声区間であるときにのみ、カウンタ３８１はクロック信号ＣＬＫのカウントを行う。したがって、カウンタ３８１のカウント値出力ＣＮＴは、図２８（Ｄ）に示すようなものになる。

そして、連続関連音先頭期間検出部３８では、連続関連音区間の先頭からカウント値ＣＮＴが閾値カウント値に到達するまでの期間を検出し、当該期間を示す先頭期間検出フラグＨＤを出力する。したがって、先頭期間検出フラグＨＤは、図２８（Ｅ）に示すようなものとなる。

［声平均レベル生成部３９の構成例］
声平均レベル生成部３９は、この実施形態では、図２７に示すような構成を備えるものとされる。この声平均レベル生成部３９は、選択部３９１と、積分部３９２と、積分時定数変更制御部３９３と、アンドゲート３９４とからなる。

選択部３９１と、積分部３９２と、積分時定数変更制御部３９３からなる構成は、図８に示した第１の実施形態における平均レベル生成部３６の選択部３６１と、積分部３６２と、積分時定数変更制御部３６３からなる構成と同様である。そして、それらの各部はそれぞれ同様の処理動作を行う。

この声平均レベル生成部３９においては、図８の第１の実施形態の平均レベル生成部３６とは、声区間検出フラグＶＦＬＧが、選択部３９１における選択動作に関与すると共に、積分時定数変更制御部３９３による積分時定数の変更制御にも関与する点が異なる。

すなわち、エンベロープ検出部３３からのエンベロープ信号Ｓemvが、選択部３９１の一方の入力端に供給されると共に、積分部３９２の出力信号が、選択部３９１の他方の入力端に供給される。そして、選択部３９１の出力が積分部３９２に供給される。

また、連続関連音区間検出フラグＳＬＦＧと、声区間検出フラグＶＦＬＧとがアンドゲート３９４に供給される。そして、このアンドゲート３９４の出力が、選択信号として選択部３９１に供給される。

さらに、積分時定数変更制御部３９３には、先頭期間検出フラグＨＤに加えて、声区間検出フラグＶＦＬＧが供給される。

選択部３９１は、アンドゲート３９４の出力により、連続関連音区間内の声区間では、エンベロープ検出部３３からのエンベロープ信号Ｓemvを選択して積分部３９２に供給する。また、選択部３９１は、連続関連音区間内の声区間以外では、積分部３９２の出力信号を選択して積分部３９２に供給する。

したがって、積分部３９２は、連続関連音区間内の声区間では、前述の実施形態と同様に、エンベロープ検出部３３からのエンベロープ信号Ｓemvを積分して平均化した信号を生成する。また、積分部３９２は、連続関連音区間内の声区間以外では、自積分部３９２の出力レベル信号を維持（ホールド）する。

すなわち、図２８（Ｆ）で太線区間として示すように、連続関連音区間フラグＳＦＬＧが“０”である非連続関連音区間と、声検出フラグＶＦＬＧが“０”である声以外区間は、積分部３６２の積分出力がホールドされるホールド期間となる。

そして、積分部３９２の積分時定数が、積分時定数変更制御部３９３により、次のように変更される。

すなわち、積分時定数変更制御部３９３は、先頭期間検出フラグＨＤが“１”である連続関連音区間の先頭期間のうちの、声検出フラグＶＦＬＧが“１”である声区間では、積分部３９２の積分時定数を小さい値に設定する。例えば、積分時定数Ｎ＝１００に設定する。これは、図２８の例においては、図２８（Ｇ）で太線区間として示す第１時定数期間となる。

また、積分時定数変更制御部３９３は、連続関連音区間の先頭期間の後の期間では、声検出フラグＶＦＬＧが“１”である声区間で、積分部３９２の積分時定数を大きい値に設定する。例えば、積分時定数Ｎ＝１０００に設定する。これは、図２８の例においては、図２８（Ｈ）で太線区間として示す第２時定数期間となる。

そして、声平均レベル生成部３９からは、図２８（Ｉ）に示すような声平均レベル信号Ｖavr３が得られ、ゲイン制御信号生成部２３に供給される。

そして、ゲイン制御信号生成部２３で生成されたゲイン制御信号は可変ゲインアンプ２１Ｌ，２１Ｒに供給される。可変ゲインアンプ２１Ｌ，２１Ｒでは、このゲイン制御信号により、入力音声信号ＳｉＬおよびＳｉＲの声平均レベルが、基準レベルとなるようにゲイン制御される。

図２８の例においては、声平均レベル信号Ｖavr３は、図２８（Ｉ）に示すようなものとなるので、この声平均レベル信号Ｖavr３が、基準レベルとなるようにゲイン制御される。その結果、可変ゲインアンプ２１Ｌ，２１Ｒからの出力音声信号ＳｏＬまたはＳｏＲは、ほぼ一定となるようにゲイン制御されたものとなる。

以上説明したようにして、第３の実施形態によれば、入力音声信号のうち、声区間検出フラグＶＦＬＧにより示される声区間の平均レベルを求め、この平均レベルが基準レベルとなるようにゲイン制御する。したがって、入力音声信号に含まれる台詞など、人声のレベルは、常に一定になるように制御されるので、台詞などが聞き易くなる。

なお、上述の第３の実施形態では、声区間検出部３７では、人声区間を検出するための３種の特徴量に基づく３つのフラグＦＬＧａ，ＦＬＧｂ，ＦＬＧｃを生成し、その論理積をとることによって、人声の区間の検出出力である声区間検出フラグＦＬＧを生成した。

しかし、処理を簡略化する場合には、上記３種の特徴量のいずれか一つに基づいて生成したフラグを、声区間検出フラグＦＬＧとしても良い。また、３種の特徴量のうちの２つを組み合わせて、それら２種の特徴量に基づいて生成されるフラグの論理積をとることにより、声区間検出フラグＦＬＧを生成するようにしてもよい。

そして、３種の特徴量のうちのいずれか一つまたは２つを組み合わせを用いる場合において、その選択のための選択操作手段を設けて、ユーザが当該選択操作手段を用いて手動で選択するようにすることができるようにしても、勿論よい。

また、声区間検出部３７に、さらに、入力音声信号Ｓｍのうちの無音を検出する無音検出部を設け、この無音検出部で検出した無音の区間は、声区間検出フラグＦＬＧをマスクして、当該無音区間は声区間としないようにすることもできる。この場合には、信号のない、または暗騒音部分を除外することができるので、声区間の検出精度を、さらに高めることができる。

なお、声区間を検出するための声信号についての特徴量としては、上述の３種に限られるものではなく、その他の特徴量を用いることもできることは言うまでもない。

［音量補正装置の第４の実施形態］
この第４の実施形態は、上述した第３の実施形態の変形例である。上述の第３の実施形態では、連続関連音区間の先頭期間における平均レベル検出時定数は、１種類のみとした。これに対して、この第４の実施形態では、前の連続関連音区間の平均レベルから、後の連続関連音区間の平均レベルが上昇したか、あるいは下降したかに応じて、連続関連音区間の先頭期間における平均レベル検出時定数を変えるようにする。

つまり、この第４の実施形態は、第３の実施形態に対して、前述した第１の実施形態の変形例である第２の実施形態に対応するものである。

この第４の実施形態は、第３の実施形態とは、声平均レベル生成部３９の構成のみが異なる。この第４の実施形態の場合の声平均レベル生成部３９の構成例を、図２９に示す。第４の実施形態では、この声平均レベル生成部３９以外の平均レベル検出部２２のその他の部分の構成は、上述した第３の実施形態の場合と全く同様である。

この第４の実施形態における声平均レベル生成部３９は、図２９に示すように、選択部３９１と、積分部３９２と、アンドゲート３９４と、比較部３９５と、積分時定数変更制御部３９６とからなる。選択部３９１と、積分部３９２と、アンドゲート３９４とは、図２７に示した第３の実施形態の場合におけるそれらと同一の構成を有するので、同一参照番号を付した。

この第４の実施形態では、エンベロープ信号Ｓemvと、積分部３９２のこの例の積分出力である平均レベル出力Ｖavr４とが比較部３９５に供給される。積分部３９２の積分出力である平均レベル出力Ｖavr４は、一つ前の連続関連音区間の平均レベルを示していることになる。また、エンベロープ信号Ｓemvは、今回の連続関連音区間の平均レベルに対応する信号である。

したがって、比較部３９５では、今回の連続関連音区間の音声信号の平均レベルが、前の連続関連音区間の音声信号の平均レベルよりも大きくなっているか、あるいは小さくなっているかを検出する。

そして、比較部３９５は、その比較結果出力を積分時定数変更制御部３９６に供給される。この積分時定数変更制御部３９６には、第３の実施形態と同様に、連続関連音先頭期間検出部３５からの先頭期間検出フラグＨＤも供給されている。

この例では、積分時定数変更制御部３９６では、連続関連音区間の先頭期間において、比較部３９５からの比較結果出力が、今回の平均レベルが前回よりも大きいことを示しているときには、前記先頭期間での積分部３９２の積分時定数を大きい値とする。また、比較部３６４の比較結果出力が、今回の平均レベルが前回よりも低いことを示しているときには、前記先頭期間での積分部３９２の積分時定数を小さい値とする。

その他の処理は、第３の実施形態と全く同様となる。図３０のタイミングチャートを参照しながら、この第４の実施形態における平均レベル検出部２２での処理動作を説明する。

図３０（Ａ）〜（Ｆ）は、図２８（Ａ）〜（Ｆ）に示した第３の実施形態の各信号やフラグと全く同様となる。また、図３０（Ｈ）に示すように、連続関連音区間の先頭期間以外の期間においては、先頭期間よりも大きい平均レベル検出時定数（この例では、大きい積分時定数）、例えばＮ＝１０００とするのは、第３の実施形態と同様（図２８（Ｈ）参照）である。

この第４の実施形態では、比較部３９５は、図３０（Ｉ）および（Ｊ）に示すように、連続関連音区間の先頭期間Ｐｈｄ１、Ｐｈｄ２、Ｐｈｄ３のそれぞれにおいて、積分部３９２の積分出力Ｖavr４と、エンベロープ信号Ｓemvとを比較する。そして、その比較結果出力に応じて、図３０（Ｇ）に示すように、積分時定数変更制御部３９６により、積分部３９２の第１時定数期間（先頭期間）の時定数を制御する。

すなわち、図３０の例では、比較部３９５は、１番目の先頭期間Ｐｈｄ１では、積分出力Ｖavr４と、エンベロープ信号Ｓemvとは等しいので、その旨の比較結果出力を積分時定数変更制御部３９６に供給する。すると、積分時定数変更制御部３９６は、このときには、積分部３９２の連続関連音区間の先頭期間における第１時定数（積分時定数）を、先頭期間の時定数としては大きい時定数、例えばＮ＝１２０とする。

次に、２番目の先頭期間Ｐｈｄ２では、今回の平均レベルであるエンベロープ信号Ｓemvのレベルの方が、前の連続関連音区間の平均レベルである積分出力Ｖavr４よりも小さいので、比較部３９５は、その旨の比較結果出力を積分時定数変更制御部３９６に供給する。すると、積分時定数変更制御部３９６は、このときには、積分部３９２の連続関連音区間の先頭期間における第１時定数（積分時定数）を、先頭期間の時定数としては、小さい時定数、例えばＮ＝８０とする。これにより、２番目の先頭期間Ｐｈｄ２では、より迅速に音声信号のレベルに追従するように積分部３９２での積分動作がなされる。つまり、小さい音を一定レベルまで上昇させるような音量制御がかかる。

また、３番目の先頭期間Ｐｈｄ３では、エンベロープ信号Ｓemvのレベルが、積分出力Ｖavr４よりも大きくなっているので、比較部３９５は、その旨の比較結果出力を積分時定数変更制御部３９６に供給する。すると、積分時定数変更制御部３９６は、このときには、積分部３９２の連続関連音区間の先頭期間における第１時定数（積分時定数）を、先頭期間の時定数としては大きい時定数とする。これにより、大きくなった音声信号レベルを、レベル変化時点での音揺れを生じることなく、一定レベルに抑圧するような音量制御がかかる。

以上説明した第４の実施形態の音量補正装置によれば、第３の実施形態の効果を奏する上に、前連続関連音区間とのレベル差を速やかに補正すると共に、音声信号のレベル変化に伴う揺れを抑えた音量補正が可能となる。

［音量補正装置の第５の実施形態］
上述の第３および第４の実施形態では、人声信号の平均レベルが基準レベルとなるように入力音声信号をゲイン制御するので、人声信号の平均レベルが低い場合には、入力音声信号全体のゲインを大きくするように制御する。このため、人声以外の音声成分のレベルが、人声信号のレベルよりも大きく、かつ、両者の差が大きい場合には、人声以外の音声成分の音量が大きくなりすぎる場合がある。また、人声の無いコンテンツの場合にも、人声以外の音の音量が著しく大きくなってしまうことがある。

この第５の実施形態は、上記の問題点を改善した例である。以下に示す第５の実施形態は、第３および第４の実施形態と同様に、図２に示したテレビ放送受信機における音量補正部１８に適用した場合である。

図３１は、この第５の実施形態としての音量補正部１８の全体の構成例を示すブロック図であり、上述の第３の実施形態に適用した場合である。この図３１において、図１２に示した第３の実施形態の音量補正部１８の場合と同一部分には、同一符号を付すこととする。

この第５の実施形態においては、前述した第３の実施形態における声平均レベル生成部３９の他に、声以外平均レベル生成部７１を設けると共に、総合平均レベル生成部７２を設ける。声以外平均レベル生成部７１は、加算出力信号Ｓｍ中の声以外の信号区間の平均レベル信号ＮＶavrを生成する。

この声以外平均レベル生成部７１は、この実施形態では、ハードウエア構成的には、図２７に示した声平均レベル生成部３９と同様の構成を備える。

この声以外平均レベル生成部７１には、声平均レベル生成部３９と同様に、エンベロープ信号Ｓemvと、連続関連音区間検出フラグＳＦＬＧと、先頭期間検出フラグＨＤが供給される。そして、この声以外平均レベル生成部７１には、声区間検出部３７からの声区間検出フラグＶＦＬＧが極性反転回路７３を通じて極性判定された声区間以外検出フラグＮＶＦＬＧが供給される。つまり、声以外平均レベル生成部７１は、声区間以外検出フラグＮＶＦＬＧが、声区間検出フラグＶＦＬＧに代わって供給される点以外は、声平均レベル生成部３９と全く同様の構成となる。

そして、声以外平均レベル生成部７１では、声区間以外検出フラグＮＶＦＬＧが、声区間検出フラグＶＦＬＧに代わって供給される結果、連続関連音区間では、声以外区間の音声信号が積分されて、その平均レベルが検出生成されることになる。

そして、この声以外平均レベル生成部７１の出力信号である声以外平均レベル信号ＮＶavrと、声平均レベル生成部３９の出力信号である声平均レベル信号Ｖavr３とが、総合平均レベル生成部７２に供給される。

総合平均レベル生成部７２は、声平均レベル信号Ｖavr３と声以外平均レベル信号ＮＶavrとから、その合成レベル信号ＧＶavrを生成する。

この実施形態では、総合平均レベル生成部７２は、声平均レベル信号Ｖavr３よりも、声以外平均レベルＮＶavrが所定以上大きいか否か判別する。そして、総合平均レベル生成部７２は、声平均レベル信号Ｖavr３よりも、声以外平均レベルＮＶavrが所定以上大きくはないと判別したときには、声平均レベル信号Ｖavr３を、合成レベル信号ＧＶavrとして出力する。また、総合平均レベル生成部７２は、声平均レベル信号Ｖavr３よりも、声以外平均レベルＮＶavrが所定以上大きいと判別したときには、声以外平均レベルＮＶavrを、合成レベル信号ＧＶavrとして出力する。

そして、総合平均レベル生成部７２は、生成した合成レベル信号ＧＶavrをゲイン制御信号生成部２３に供給する。

したがって、この第５の実施形態では、ゲイン制御信号生成部２３は、総合平均レベル検出生成部７２からの合成レベル信号のレベルが、基準レベルとなるようにするゲイン制御信号を生成して、可変ゲインアンプ２１Ｌ，２１Ｒに供給するようにする。

＜総合平均レベル生成部７２＞
図３２に、この実施形態における総合平均レベル生成部７２の構成の一例を示す。

この実施形態の総合平均レベル生成部７２は、選択部７２１と、重み付け用アンプ７２２と、レベル比較部７２３とからなる。選択部７２１の一方の入力端Ａには、声平均レベル生成部３９からの声平均レベル信号Ｖavr３が供給されると共に、選択部７２１の他方の入力端Ｂには、声以外平均レベル生成部７１からの声以外平均レベル信号ＮＶavrが供給される。

また、レベル比較部７２３には、声平均レベル生成部３９からの声平均レベル信号Ｖavr３が重み付け用アンプ７２２を通じて重み付けされた信号と、声以外平均レベル生成部７１からの声以外平均レベル信号ＮＶavrが供給される。

アンプ７２２における重みは、人声以外の音声成分のレベルが、それ以上になると、ゲイン制御により音量が大きくなりすぎるとされるレベルに相当するレベルを設定するためのものであり、この例では、２倍（×２）とされる。

そして、レベル比較部７２３において両信号がレベル比較され、その比較結果出力ＣＭＰが、選択部７２１に、その選択制御信号として供給される。ここで、比較結果出力ＣＭＰは、声平均レベル信号Ｖavr３の２倍の閾値レベル値θthよりも、声以外平均レベル信号ＮＶavrの値が小さいときには、選択部７２１から一方の入力端Ａ側に入力されている声平均レベル信号Ｖavr３を出力する値、例えば「１」となる。

また、比較結果出力ＣＭＰは、声以外平均レベル信号ＮＶavrの値が、声平均レベル信号Ｖavr３の２倍の閾値レベル値θth以上のときには、選択部７２１から他方の入力端Ｂ側に入力されている声以外平均レベル信号ＮＶavrを出力する値、例えば「０」となる。

したがって、選択部７２１からは、声以外平均レベル信号ＮＶavrが、声平均レベル信号Ｖavr３の２倍のレベル値を超えない範囲（ＮＶavr＜２Ｖavr３）では、声平均レベル信号Ｖavr３が選択されて、ゲイン制御信号生成部２３に供給される。

これにより、前記範囲（ＮＶavr＜２Ｖavr３）では、第３の実施形態と同様にして、声平均レベル信号Ｖavr３が基準レベルとなるように、可変ゲインアンプ２１Ｌ，２１Ｒがゲイン制御され、常に、台詞など人声が聞き易い状態にレベル制御される。

また、声以外平均レベル信号ＮＶavrが、声平均レベル信号Ｖavr３の２倍のレベル値を超える範囲（ＮＶavr≧２Ｖavr３）では、選択部７２１からは、声以外平均レベル信号ＮＶavrが選択されて、ゲイン制御信号生成部２３に供給される。これにより、前記範囲（ＮＶavr≧２Ｖavr３）では、声以外平均レベル信号ＮＶavrが基準レベルとなるように、可変ゲインアンプ２１Ｌ，２１Ｒがゲイン制御され、声以外の音が異常に大きくなるのが防止される。

図３３を参照して、この第５の実施形態における平均レベル検出部２２の動作を説明する。

すなわち、この第５の実施形態においても、加算出力信号Ｓｍが図３３（Ａ）に示すようなものである場合、連続関連音区間検出フラグＳＦＬＧは、図３３（Ｂ）に示すようなものとなり、また、声検出フラグＶＦＬＧは図３３（Ｃ）に示すようなものとなる。更に、先頭期間検出フラグＨＤは、図３３（Ｄ）に示すようなものとなる。

そして、この図３３の例の場合には、声平均レベル信号Ｖavr３は、図３３（Ｅ）に示すようなものとなると共に、声以外平均レベル信号ＮＶavrは、図３３（Ｆ）に示すようなものとなる。

したがって、総合平均レベル信号ＧＶavrは、図３３（Ｇ）に示すようなものとなる。すなわち、声以外平均レベル信号ＮＶavrが、声平均レベル信号Ｖavr３の２倍の閾値レベルθｔｈよりも小さいのときには、総合平均レベル生成部７２からの総合平均レベル信号ＧＶavrとしては、声平均レベル信号Ｖavr３が出力される。

また、声以外平均レベル信号ＮＶavrのレベルが、声平均レベル信号Ｖavr３の２倍の閾値レベルθｔｈ以上のときには、総合平均レベル生成部７２からの総合平均レベル信号ＧＶavrとしては、声以外平均レベル信号ＮＶavrが出力される。これにより、声以外の音が異常に大きくなるのが防止される。

［総合レベル生成部７２の他の例］
図３２においては、声以外平均レベル信号ＮＶavrと、声平均レベル信号Ｖavr３を重み付けしたものとを比較し、その比較出力により、声以外平均レベル信号ＮＶavrと、声平均レベル信号Ｖavr３とのいずれかをゲイン制御信号生成部２３に供給するようにした。

しかし、図３２の声平均レベル生成部３９と、声以外平均レベル生成部７１および総合平均レベル生成部７２の構成部分は、図３４のように構成することもできる。

図３４の例においては、図３１の例と同様に、声以外平均レベル生成部７１が設けられる。また、図３４の例においては、声平均レベル生成部３９および総合平均レベル生成部７２の代わりに、総合平均レベル生成部７３が設けられる。

総合平均レベル生成部７３は、図３４に示すように、声平均レベル生成部３９と同様に、選択部７３１と積分部７３２と、積分時定数変更制御部７３３と、アンドゲート７３４とを備える。また、総合平均レベル生成部７３は、重み付け用アンプ７３５と、比較部７３６とを備える。

そして、選択部７３１の入力端Ａには、積分部７３２の出力信号（総合平均レベル信号ＧＶavr）が供給される。そして、選択部７３１の入力端Ｂには、エンベロープ検出部３３からのエンベロープ信号Ｓemvが供給される。また、この選択部７３１の選択制御端子ＳＥＬには、アンドゲート７３４からの連続関連音区間検出フラグＳＦＬＧと声検出フラグＶＦＬＧとの論理積出力が供給される。

そして、選択部７３１で、アンドゲート７３４の論理積出力に応じて選択された出力信号が積分部７３２に供給される。また、積分部７３２の出力信号は、重み付け用アンプ７３５により、この例では、２倍のレベルとされた後、比較部７３６に供給される。比較部７３６には、声以外平均レベル生成部７１の積分部７１２の出力信号である声以外平均レベル信号ＮＶavrが供給される。

また、声以外平均レベル生成部７１の積分部７１２の出力信号である声以外平均レベル信号ＮＶavrが、積分部７３２に供給されると共に、比較部７３６の比較結果の出力信号ＣＴＬが積分部７３２に供給される。積分部７３２では、比較部７３６の出力信号ＣＴＬにより、後述する条件になったときに、保持する積分出力値を、声以外平均レベル生成部７１からの声以外平均レベル信号ＮＶavrに変更する処理をする。

この図３４の例の処理動作について以下に説明する。

この図３４の例においては、総合平均レベル生成部７３と、声以外平均レベル生成部７１とにおいては、それぞれエンベロープ検出部３３からのエンベロープ信号Ｓemvについて、前述したような積分動作を行う。

ただし、総合平均レベル生成部７３においては、声区間検出フラグＶＦＬＧで示される声区間では、選択部７３１からエンベロープ信号Ｓemvが出力され、積分部７３２で、総合平均レベルＧＶavrを初期値とする積分動作がなされる。そして、声区間以外では、選択部７３１から積分部７３２の出力信号が出力され、積分部７３２の出力としては、総合平均レベルＧＶavrの値が保持（前置ホールド）される。

一方、声以外平均レベル生成部７１では、声以外検出フラグＮＶＦＬＧで示される声以外区間では、選択部７１１からエンベロープ信号Ｓemvが出力され、積分部７１２で、声以外平均レベル信号ＮＶavrを初期値とする積分動作がなされる。そして、声区間では、選択部７１１から積分部７１２の出力信号が出力され、積分部７１２の出力としては、声以外平均レベル信号ＮＶavrの値が保持（前置ホールド）される。

そして、比較部７３６は、アンプ７３５を通じた総合平均レベル生成部７３からの総合平均レベル信号ＧＶavrの２倍の値と、声以外平均レベル生成部７１からの声以外平均レベル信号ＮＶavrとを比較し、その比較出力ＣＴＬを積分部７３２に供給する。

積分部７３２は、この比較出力ＣＴＬを参照し、声以外平均レベル信号ＮＶavrが、総合平均レベル信号ＧＶavrの２倍のレベル値を超えない範囲（ＮＶavr＜２ＧＶavr）か、超える範囲（ＮＶavr≧２ＧＶavr）であるかを判別する。

そして、積分部７３２は、超えない範囲（ＮＶavr＜２ＧＶavr）であると判別すると、積分結果を保持する保持部の値は切り替えずに、第３の実施形態と同様に声平均レベル信号Ｖavr３を、総合平均レベル信号ＧＶavrとして生成して出力する処理を行う。

すなわち、積分部７３２は、比較部７３６からのＣＴＬが、ＮＶavr＜２ＧＶavrであることを示す状態であるときには、声以外平均レベル生成部７１からの声以外平均レベル信号ＮＶavrは無視して、第３の実施形態と同様の処理を行う。

また、積分部７３２は、超える範囲（ＮＶavr≧２ＧＶavr）であると判別すると、積分結果を保持する保持部の値を、声以外平均レベル信号ＮＶavrに変更する。したがって、前記超える範囲（ＮＶavr≧２ＧＶavr）では、声以外平均レベル信号ＮＶavrが積分部７３２の出力とされる状態となる。

そして、前記超えない範囲（ＮＶavr＜２ＧＶavr）に戻ると、積分部７３２は、比較出力ＣＴＬにより、積分結果を保持する保持部の値を、声以外平均レベル信号ＮＶavrにする動作を停止して、選択部７３１からの出力を積分する処理状態に戻る。

この図３４の例では、こうして積分部７３２から得られる出力信号を総合平均レベル信号ＧＶavrとして、ゲイン制御信号生成部２３に供給する。ゲイン制御信号生成部２３では、この総合平均レベル信号ＧＶavrが基準レベルとなるようなゲイン制御信号を生成する。

なお、上述した第５の実施形態は、第３の実施形態に適用した場合であるが、第４の実施形態に適用することもできることは言うまでもない。

［他の実施形態および変形例］
以上の実施形態は、入力音声信号について、リアルタイムで声平均レベルや声以外平均レベルを検出して、ゲイン制御するようにした場合である。しかし、この発明は、リアルタイム処理の場合のみに適用されるわけではない。

例えば記録媒体に記録された音声信号について、声平均レベルや声以外平均レベルを検出して、ゲイン制御信号を生成して、それを記録信号に対応付けて記録するようにすることもできる。その場合には、再生時には、当該記録されているゲイン制御信号を用いて、再生音声信号を音量制御するようにすることができる。

図３５は、例えばハードディスクやＤＶＤ（Digital Versatile Disc）などの記録媒体に、テレビ放送信号を記録することができる記録再生装置に、この発明を適用した場合のブロック図である。

すなわち、この図３５の例の記録再生装置８０においては、放送記録系８１と、再生系８２と、レベル補正ゲイン生成部８３と、制御部８４と、操作部８５とを備える。操作部８５は、例えばリモコン送受信部からなる。制御部８４は、例えばマイクロコンピュータを搭載して構成され、操作部８５からの操作入力に応じた制御を、記録再生装置８０の各部に対して行う。

レベル補正ゲイン生成部８３は、上述した実施形態における平均レベル検出部２２と、ゲイン制御信号生成部２３とからなる。

操作部８５を通じてユーザにより記録指示操作があると、制御部８４は、放送記録系８１を制御して、記録指示された放送番組の記録を実行する。

放送記録系８１においては、放送受信部８１１で記録指示された放送番組の放送波信号を受信し、デコード部８１２に供給する。デコード部８１２では、この例では、受信信号から映像信号Ｖ１と、音声信号Ａ１とがデコードされて出力される。ここで、音声信号Ａ１は、例えば左右２チャンネル音声信号とされる。

このデコード部８１２からの映像信号Ｖ１および音声信号Ａ１は、記録エンコード部８１３で記録エンコードされた後、書き込み部８１５を通じて記録媒体８１６に記録される。記録媒体８１６は、例えばハードディスク装置が用いられる。

操作部８５には、この例では、記録媒体８１６に記録されている放送番組コンテンツを指定するためのキーおよびレベル補正ゲイン生成指示キーが設けられている。ユーザにより、記録されている放送番組コンテンツの指定がなされ、レベル補正ゲイン生成指示キーが操作されると、制御部８４は、指定された放送番組コンテンツの音声信号についての再生音量を適正にするためのレベル補正ゲイン生成処理を実行するようにする。

すなわち、制御部８４は、前記レベル補正ゲイン生成指示キーの操作入力に基づき、再生系の読み出し部８２１と、再生デコード部８２２と、レベル補正ゲイン生成部８３および書き込み部８１５を動作状態に制御する。

そして、制御部８４は、読み出し部８２１を制御して、記録媒体８１６から指定された放送番組の記録信号を読み出す。読み出し部８２１は、読み出した記録信号を再生デコード部８２２に供給する。再生デコード部８２２は、記録信号を再生デコードして、再生映像信号Ｖ２および再生音声信号Ａ２を出力する。

この再生デコード部８２２からの再生音声信号Ａ２は、レベル補正ゲイン生成部８３に供給される。このレベル補正ゲイン生成部８３では、上述の第１の実施形態または第２の実施形態で説明したようにして、ゲイン制御信号が生成される。

そして、レベル補正ゲイン生成部８３は、生成したゲイン制御信号を書き込み部８１５に供給する。書き込み部８１５は、制御部８４の制御を受けながら、レベル補正ゲイン生成部８３からのゲイン制御信号を、再生中の記録信号に対応付けて記録媒体８１６に記録するようにする。

次に、操作部８５を通じてユーザにより再生指示操作があると、制御部８４は、再生系８２を制御して、再生指示された放送番組の再生を実行する。

すなわち、制御部８４は、読み出し部８２１を制御して、記録媒体８１６から指定された放送番組の記録信号と、対応付けられて記録されているゲイン制御信号とを読み出す。読み出し部８２１は、読み出した記録信号を再生デコード部８２２に供給すると共に、読み出したゲイン制御信号をゲイン制御信号再生部８２６に供給する。

再生デコード部８２２は、記録信号を再生デコードして、再生映像信号Ｖ２および再生音声信号Ａ２を得る。そして、再生映像信号Ｖ２を映像信号処理部８２３を通じ、映像出力端８２７を通じて出力する。出力端８２７には、表示装置が接続され、その表示画面に、放送番組の再生映像が映出される。

また、再生デコード部８２２からの再生音声信号は、音声信号処理部８２４を通じて可変ゲインアンプ８２５に供給される。

一方、ゲイン制御信号再生部８２６では、読み出し部８２１からの信号から、ゲイン制御信号が再生される。そして、ゲイン制御信号再生部８２６は、再生したゲイン制御信号を可変ゲインアンプ８２５に供給して、そのゲインを制御するようにする。したがって、可変ゲインアンプ８２５から得られる音声信号は、上述した第１の実施形態および第２の実施形態と同様にして、人声が聞き易く、また、人声以外の音声が大きくなってしまうことが無いものとなる。

この可変ゲインアンプ８２５からの再生音声信号は、音声出力端８２８を通じて、スピーカに供給される。

なお、この図３５の例においては、レベル補正ゲイン生成部８３では、上述した実施形態と同様の構成としたが、この図３５の例は、リアルタイム処理である必要は無いので、処理時間はかかるが、より高精度の構成とすることもできる。

例えば、連続関連音区間検出部３４は、上述のような構成とするのではなく、ＦＦＴ（Fast Fourier Transform）によるスペクトル包絡のケプストラム解析を行なうなどして、より、精密に、連続関連音区間＋延長区間を検出することができる。

また、第３〜第５の実施形態を用いる場合において、記録再生装置８０が、十分なバッファ容量および処理能力を持った構成である場合には、音声信号の自己相関をとりながら、ピッチ検出をして人声信号が含まれる声区間を検出するようにすることもできる。また、ＦＦＴによるスペクトル包絡のケプストラム解析を行なうなどして、より、精密に、人声信号が含まれる声区間を検出することもできる。

なお、以上の例では、音声信号は、左右２チャンネルの場合であったが、平均レベル検出部２２で取り扱う対象信号が加算音声信号Ｓｍであることから、音量補正対象の音声信号は、モノーラル音声信号であっても良いことは言うまでもない。

また、最近は、音声信号は５．１チャンネルのサラウンド音声信号など、３チャンネル以上のマルチチャンネルの場合もある。このようなマルチチャンネルの場合においては、センターチャンネルに人声信号が主として含まれるので、第３〜第５の実施形態を用いる場合は、このセンターチャンネルの音声信号から、声区間を検出するようにすれば良い。

図３６は、入力音声信号が５．１チャンネルのサラウンド音声信号である場合であって、第３〜第５の実施形態を用いる場合における音量補正装置の実施形態の概要を説明するための図である。

すなわち、この例においては、前方左右チャンネルの音声信号ＦＬｉ，ＦＲｉは、可変ゲインアンプ９２１，９２２に供給される。また、後方左右チャンネルの音声信号ＲＬｉ，ＲＲｉは、可変ゲインアンプ９２３，９２４に供給される。また、センターチャンネルの音声信号Ｃｉは、可変ゲインアンプ９２５に供給される。さらに、低域専用チャンネルの音声信号ＬＦＥ（ＬｏｗＦｒｅｑｕｅｎｃｙＥｆｆｅｃｔ）は、可変ゲインアンプ９２６に供給される。

そして、センターチャンネルの音声信号Ｃｉは、また、レベル補正ゲイン生成部９１に供給される。このレベル補正ゲイン生成部９１は、図３５に示したレベル補正ゲイン生成部８３と同様の構成を備える。ただし、このレベル補正ゲイン生成部９１は、この例では、センターチャンネルの音声信号Ｃｉを加算音声信号Ｓｍとして、上述した第３〜第５の実施形態の手法のいずれかにより、可変ゲインアンプ９２１〜９２６をゲイン制御するゲイン制御信号を生成する。

そして、可変ゲインアンプ９２１〜９２６のそれぞれから出力音声信号ＦＬｏ、ＦＲｏ、ＲＬｏ、ＲＲｏ、Ｃｏ、ＬＦｏが得られ、それぞれ用のスピーカにより放音されるようにされる。

この図３６の例によれば、５．１チャンネルの出力音声信号ＦＬｏ、ＦＲｏ、ＲＬｏ、ＲＲｏ、Ｃｏ、ＬＦｏのそれぞれが、レベル補正ゲイン生成部９１で生成されたゲイン制御信号より、ゲイン制御されたものであるので、人声が聞き易く、また、人声以外の音声が大きくなってしまうことが無いものとなる。

なお、３チャンネル以上のマルチチャンネルの音声信号が２チャンネルの音声信号にダウンミックスされて、２チャンネルの信号とされる場合には、ダウンミックス後の２チャンネルの音声信号に対してレベル補正ゲイン生成部を設ければよい。

図３７は、入力音声信号が５．１チャンネルのサラウンド音声信号がダウンミックスされて２チャンネルとされる場合における音量補正装置の実施形態の概要を説明するための図である。

すなわち、図３７の例においては、５．１チャンネルのサラウンド音声信号ＦＬｉ、ＦＲｉ、ＲＬｉ、ＲＲｉ、Ｃｉ、ＬＦｉのそれぞれが、ダウンミックス部９３に供給されて、左右２チャンネルの音声信号Ｌｉ，Ｒｉとされる。

このダウンミックス部９３からの左右２チャンネルの音声信号Ｌｉ，Ｒｉは、それぞれ可変ゲインアンプ９５１，９５２に供給されると共に、レベル補正ゲイン生成部９４に供給される。

このレベル補正ゲイン生成部９４は、図３４に示したレベル補正ゲイン生成部８３と同様の構成を備える。すなわち、このレベル補正ゲイン生成部９４は、この例では、左右２チャンネルの音声信号Ｌｉ，Ｒｉから、上述した実施形態の手法のいずれかにより、可変ゲインアンプ９５１，９５２のそれぞれをゲイン制御するゲイン制御信号を生成する。

この図３７の例においても、上述と同様の作用効果を奏する。

［その他の変形例］
なお、上述の説明では、平均レベル検出部２２は、デスクリートの回路部からなるハードウエア構成としたが、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）を用いた構成とすることができる。

また、平均レベル検出部２２は、コンピュータのプログラムによるソフトウエア処理の構成とすることもできることは言うまでもない。その場合には、例えば図２の例においては、平均レベル検出部２２は、制御部１０がソフトウエア処理機能として備える。そして、図２において、点線で示したように、この制御部１０からのゲイン制御信号により、音量補正部１８が備える可変ゲインアンプをゲイン制御する。

なお、音声信号を、デジタル信号処理とするのであれば、可変ゲインアンプを含めた音量補正部１８の全てをソフトウエア処理として構成することもできるものである。

なお、この発明による音量補正装置が適用される電子機器は、図２に示したテレビ放送受信装置に限られるものではないことは言うまでもない。

なお、上述の実施形態では、連続関連音区間は、入力音声信号のみから検出するようにした。しかし、テレビ放送番組信号のように映像信号が音声信号に関連して存在する場合に、音声有無検出結果と、映像信号の特徴量を用いて検出されるシーン変化点などの情報を合わせて用いることにより、連続関連音区間を検出するようにしてもよい。

２１Ｌ，２１Ｒ…可変ゲインアンプ、２２…平均レベル検出処理部、２３…ゲイン制御信号生成部、３４…連続関連音区間検出部、３５…連続関連音先頭期間検出部、３６…平均レベル検出生成部、３７…声区間検出部、３９…声平均レベル生成部７１…声以外平均レベル生成部７２…総合平均レベル検出生成部

Claims

入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出手段と、
前記連続関連音区間検出手段で検出された前記連続関連音区間の前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの区間よりも平均レベル検出時定数が小さくされた平均レベル検出手段と、
前記平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置。
請求項１に記載の音量補正装置において、
前記平均レベル検出手段は、
前記連続関連音区間の先頭期間において、前記平均レベル検出手段で検出された前記平均レベルと前記入力音声信号の平均レベルとを比較し、その比較結果に応じて前記先頭期間における前記平均レベル検出時定数を変化させる
音量補正装置。
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出手段と、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段と、
前記声平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置。
請求項３に記載の音量補正装置において、
前記声平均レベル生成手段は、
前記連続関連音区間の先頭期間において、前記声平均レベル検出手段で検出された前記平均レベルと前記入力音声信号の声区間の平均レベルとを比較し、その比較結果に応じて前記先頭期間における前記平均レベル検出時定数を変化させる
音量補正装置。
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出手段と、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段と、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段と、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置。
請求項１〜請求項５のいずれかに記載の音量補正装置において、
前記連続関連音区間検出手段は、
前記入力音声信号の有無を検出する音声信号有無検出手段と、
前記音声信号有無検出手段で検出した信号有りの区間を一定時間長だけ延長する延長手段と、
からなる音量補正装置。
請求項６に記載の音量補正装置において、
前記音声信号有無検出手段は、
第１の平均レベル検出時定数で前記入力音声信号の平均レベルを検出して、第１平均レベル出力信号を出力する第１平均レベル検出手段と、
前記第１の平均レベル検出時定数よりも大きい平均レベル検出時定数で前記入力音声信号の平均レベルを検出して、第２平均レベル出力信号を出力する第２平均レベル検出手段と、
前記第２平均レベル検出手段からの前記第２平均レベル出力信号をレベル減衰させた信号を閾値として前記第１平均レベル出力信号と比較し、前記第１平均レベル出力信号が前記閾値よりも大きい区間の検出信号を、前記音声信号有無検出手段の信号有りの区間を示す信号として出力する比較手段と、
を備える音量補正装置。
入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、連続関連音区間検出手段と、平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
前記連続関連音区間検出手段が、前記入力音声信号における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出工程と、
前記平均レベル検出手段が、前記連続関連音区間検出工程で検出された前記連続関連音区間の前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた平均レベル検出工程と、
前記ゲイン制御信号生成手段が、前記平均レベル検出工程で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
を有し、
前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、連続関連音区間検出手段と、声区間検出手段と、声平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
前記連続関連音区間検出手段が、前記入力音声信号における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出工程と、
前記声区間検出手段が、前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出工程と、
前記声平均レベル検出手段が、前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出工程と、
前記ゲイン制御信号生成手段が、前記声平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
を有し、
前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、連続関連音区間検出手段と、声区間検出手段と、声平均レベル検出手段と、声以外平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
前記連続関連音区間検出手段が、前記入力音声信号における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出工程と、
前記声区間検出手段が、前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出工程と、
前記声平均レベル検出手段が、前記声区間検出工程で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出工程と、
声以外平均レベル検出手段が、前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出工程と、
前記ゲイン制御信号生成手段が、前記声以外平均レベル検出工程で検出された声以外平均レベルが、前記声平均レベル検出工程で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出工程で検出された声以外平均レベルが、前記声平均レベル検出工程で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出工程で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
を有し、
前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段、
前記入力音声信号における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出手段、
前記連続関連音区間検出手段で検出された前記連続関連音区間の前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた平均レベル検出手段、
前記平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
として機能させる音量補正プログラム。
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段、
前記入力音声信号における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出手段、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段、
前記声平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
として機能させる音量補正プログラム。
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段、
前記入力音声信号における、時間的に近接する１群の連続関連音区間を検出する連続関連音区間検出手段、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
として機能させる音量補正プログラム。
請求項１〜７のいずれかの音量補正装置を備える電子機器。