JP5120288B2 - 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器 - Google Patents

音量補正装置、音量補正方法、音量補正プログラムおよび電子機器 Download PDF

Info

Publication number
JP5120288B2
JP5120288B2 JP2009032272A JP2009032272A JP5120288B2 JP 5120288 B2 JP5120288 B2 JP 5120288B2 JP 2009032272 A JP2009032272 A JP 2009032272A JP 2009032272 A JP2009032272 A JP 2009032272A JP 5120288 B2 JP5120288 B2 JP 5120288B2
Authority
JP
Japan
Prior art keywords
voice
signal
average level
gain
continuous related
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009032272A
Other languages
English (en)
Other versions
JP2010192954A (ja
JP2010192954A5 (ja
Inventor
雅義 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009032272A priority Critical patent/JP5120288B2/ja
Priority to US12/701,782 priority patent/US8681998B2/en
Priority to CN2010101074856A priority patent/CN101807894B/zh
Priority to EP10152994A priority patent/EP2219371B1/en
Priority to AT10152994T priority patent/ATE552702T1/de
Publication of JP2010192954A publication Critical patent/JP2010192954A/ja
Publication of JP2010192954A5 publication Critical patent/JP2010192954A5/ja
Application granted granted Critical
Publication of JP5120288B2 publication Critical patent/JP5120288B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams

Description

この発明は、例えばテレビ放送受信機などに代表される電子機器の音声出力部に適用して好適な音量補正装置、音量補正方法および音量補正プログラムに関する。
テレビ放送受信機で受信する放送チャンネルを切り替えたときや、AV(Audio−Visual)システムにおいて、AVセンタで複数の入力機器の切り替えがなされたとき、コンテンツ間のレベル差により、出力音量に大きな変化が生じてしてしまうことがある。
このような場合、ユーザは、自分が好みの音量にするためには、リモコン等を用いてボリューム操作をして音量調節する必要があり、わずらわしさを感じる場合がある。
この問題を解決する手法の一例が、特許文献1(特許第3475476号)に開示されている。この特許文献1においては、テレビ放送受信時における選局チャンネルの切り替え時や、複数台の入力機器の切替時など、大きなレベル差があるコンテンツの切替時に、事前にチャンネル間のレベル差の情報や切り替え情報を取得する。そして、特許文献1では、取得した事前にチャンネル間のレベル差の情報や切り替え情報に基づいて音量補正するようにしている。
この問題を解決する音量補正方式の他の一例として、AGC(Auto Gain Control;自動利得制御)による音量制御方式(AGC方式という)が広く知られている。
図38は、このAGC方式を用いた音量補正部の構成例を示すブロック図である。この図38の例は、左右2チャンネルの入力音声信号SiLおよびSiRについて音量補正をする場合である。
すなわち、この例においては、左右2チャンネルの入力音声信号SiLおよびSiRは、それぞれ、ゲイン制御信号によりゲインが可変制御される可変ゲインアンプ1Lおよび1Rに供給される。
また、左右2チャンネルの入力音声信号SiLおよびSiRは、加算部2で互いに加算される。そして、加算部2からの加算出力信号は、アンプ3にて1/2ゲイン倍された後、平均レベル検出部4に供給され、この平均レベル検出部4で、加算出力信号の平均レベルが検出される。
そして、平均レベル検出部4で検出された平均レベルがゲイン制御信号生成部5に供給される。このゲイン制御信号生成部5では、平均レベル検出部4からの平均レベルと、予め定められている基準レベルと比較し、その比較結果を用いて両レベルの差がゼロとなるようにするゲイン制御信号を生成し、可変ゲインアンプ1L,1Rに供給する。
可変ゲインアンプ1L,1Rは、ゲイン制御信号生成部5からのゲイン制御信号によりゲインが可変制御される。この場合、左右2チャンネルの入力音声信号SiLおよびSiRは、この可変ゲインアンプ1L,1Rにおいて、前記加算部2からの加算出力信号の平均レベルが基準レベルと等しくなるようにゲイン制御される。
この結果、可変ゲインアンプ1L,1Rから得られる左右2チャンネルの出力音声信号SoLおよびSoRは、小さな音は大きく、大きな音は小さく抑えられて、自動的に一定レベルの音量になるように補正される。これにより、うるさい音を出さないようにしたり、聞こえなかった小さな音を聞こえるようにしたりすることができる。
上述したAGCによる音量補正方式の他にも、種々の音量補正方式が提案されている。例えば、特許文献2(特許3321820号公報)には、コンプレッサーを設け、大レベルの音声入力があった場合には、入力レベルに対して出力音声レベルを小さく制御し、音量をある一定の範囲に制御するようにする方式が開示されている。
特許第3475476号公報 特許第3321820号公報
ところで、上述したような問題は、入力機器の切り替えや受信チャンネルの切り替え時における切り替え前後の異なるコンテンツ間にレベル差がある場合のみではなく、同一のコンテンツ内においても生じる。
すなわち、例えば、同一の放送チャンネル内や同一の放送番組内においても、コマーシャル(CM)部分やシーンの変化によって、出力音量が変化し、不快に思うことがある。
上述したAGC方式による音量制御によれば、同じコンテンツ内においても音声信号全体の平均レベルを基準にして、音量制御を行うことができるので、出力音量を一定にすることができると期待される。しかしながら、従来のAGC方式の音量制御では、以下のような問題がある。
すなわち、従来のAGC方式による音量制御は、音声信号全体の平均レベルを、予め定めた一定の検出時定数で検出し、検出した平均レベルを用いて音声信号全体としての音量制御を行うようにしている。
ここで、音声信号の平均レベルの検出時定数を小さくすれば、音声信号の出力音量の変化に速やかに対応して出力音量を一定にすることができる。したがって、例えばコマーシャル部分の先頭やシーンの変化時点など、レベル差が目立ち易い部分においても、出力音量変化をなくして、出力音量を一定にすることができると期待できる。
しかしながら、音声信号の平均レベルの検出時定数を小さくして、音声信号の平均レベルの変化に早く対応する音量制御をした場合には、レベル変化に忠実に追従しようとするあまり、定常的な音声区間においても音が揺れてしまうような結果となる場合がある。
これに対して、音声信号の平均レベルの検出時定数を大きくすれば、音声信号レベルの細かい変化には追従しなくなるので、定常的な音声区間における音の揺れを防止して、聞き易い音量に制御することが可能となる。
しかしながら、この場合には、逆に、入力機器の切り替えや受信チャンネルの切り替え時における切り替え時、また、コマーシャル部分の先頭やシーンの変化時点など、レベル差が大きく変化する部分に対する応答が悪化してしまうという問題がある。
この発明は、上記の点に鑑みて、チャンネル切り替え時やコマーシャル部分の先頭などの大きなレベル差の音声区間と定常的な音声区間の両方において、常に、良好な音量制御を可能とした装置および方法を提供することを目的とする。
上記の課題を解決するために、請求項1の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出手段と、
前記連続関連音区間検出手段で検出された前記連続関連音区間の前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭から一定区間は、前記連続関連音区間の残りの区間よりも平均レベル検出時定数が小さくされた平均レベル検出手段と、
前記平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。
この請求項1の発明においては、連続関連音区間検出手段で、入力音声信号中における、時間的に近接する1群の連続関連音区間が検出される。そして、平均レベル検出手段において、連続関連音区間の入力音声信号の平均レベルが検出されるが、連続関連音区間の先頭から一定区間は、当該連続関連音区間の残りの区間よりも平均レベル検出時定数が小さくされる。
その結果、平均レベル検出手段では、連続関連音区間の先頭から一定区間においては、音声信号レベルの変化に速やかに対応するように入力音声信号の平均レベルが検出される。また、連続関連音区間の先頭から一定区間よりも後の定常的な音声区間においては、平均レベル検出手段では、音声信号レベルの細かい変化には追従せずに、入力音声信号の平均レベルが検出される。
ゲイン制御信号生成手段では、以上のようにして平均レベル検出手段で検出された平均レベルに基づいて、入力音声信号のゲインを制御するゲイン制御信号が生成され、当該生成されたゲイン制御信号が可変ゲイン手段に供給される。
したがって、可変ゲイン手段においては、大きなレベル差が生じる可能性のある連続関連音区間の先頭から一定区間は、当該大きなレベル差を速やかに抑圧するようなゲイン制御が入力音声信号に対してかかる。これにより、隣り合う連続関連音区間の間におけるレベル差が、各連続関連音区間の先頭から速やかに補正される。
また、可変ゲイン手段においては、定常的な変化をする連続関連音区間の前記先頭から一定区間よりも後の区間では、音声信号レベルの細かい変化には追従せずに、平均レベルが一定となるようなゲイン制御が入力音声信号に対してかかる。これにより、定常的な音声区間における音の揺れを防止することができる。
よって、請求項1の発明によれば、チャンネル切り替え時やコマーシャル部分の先頭などの大きなレベル差の音声区間と定常的な音声区間の両方において、常に、良好な音量制御がなされる。
また、請求項2の発明は、請求項1に記載の音量補正装置において、
前記平均レベル検出手段は、
前記連続関連音区間の先頭から一定区間において、前記平均レベル検出手段で検出された前記平均レベルと前記入力音声信号の平均レベルとを比較し、その比較結果に応じて前記一定区間における前記平均レベル検出時定数を変化させる
ことを特徴とする。
この請求項2の発明においては、連続関連音区間の先頭から一定区間で、当該連続関連音区間の入力音声信号の平均レベルと、平均レベル検出手段で検出された前の連続関連音区間における平均レベルとが比較される。そして、その比較結果に応じて、連続関連音区間の先頭から一定期間における平均レベル検出時定数が変更制御される。
例えば、音が大きくなる方向のゲイン補正を、小さくなる方向のゲイン補正よりも早くする場合には、入力音声信号の平均レベルが前の連続関連音区間における平均レベルよりも高いときに、前記一定期間における平均レベル検出時定数をより小さくする。これにより、前の連続関連音区間とのレベル差が良好に補正され、レベル変化に伴う揺れを抑えた音量補正が可能となる。
また、請求項3の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出手段と、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭から一定区間は、前記連続関連音区間の残りの区間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段と、
前記声平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。
この請求項3の発明によれば、声平均レベル検出手段では、声区間検出手段で検出された、入力音声信号中に人声の音声信号が含まれる時間区間のみで、入力音声信号の平均レベル、すなわち、声平均レベルが検出される。
したがって、請求項1と同様の効果を得ることができると共に、人の声が一定のレベルとなるように補正されるので、台詞などが聞き取り易くなる。
また、請求項4の発明は、請求項3に記載の音量補正装置において、
前記声平均レベル生成手段は、
前記連続関連音区間の先頭から一定区間において、前記声平均レベル検出手段で検出された前記平均レベルと前記入力音声信号の声区間の平均レベルとを比較し、その比較結果に応じて前記先頭期間における前記平均レベル検出時定数を変化させる
ことを特徴とする。
この請求項4の発明によれば、請求項2の発明と同様にして、前の連続関連音区間とのレベル差が良好に補正されると共に、声の抑揚に対する揺れを抑えた音量補正が可能となる。
また、請求項5の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出手段と、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭から一定区間は、前記連続関連音区間の残りの区間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段と、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段と、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。
この請求項5の発明によれば、声以外の大きな音が入力されたときには、速やかにレベルを下げて補正する音量補正が可能となる。
この発明によれば、入力音声信号に対して、チャンネル切り替え時やコマーシャル部分の先頭などの大きなレベル差の音声区間と定常的な音声区間の両方において、常に、良好な音量制御がなされる。
この発明による音量補正装置の第1の実施形態の構成例を説明するためのブロック図である。 この発明による音量補正装置が適用される電子機器の例を説明するためのブロック図である。 図1の実施形態における連続関連音区間検出部の構成例を示すブロック図である。 図3の例の連続関連音区間検出部の動作説明に用いるタイミングチャートを示す図である。 図1の実施形態における連続関連音区間検出部の他の構成例を示すブロック図である。 図5の例の連続関連音区間検出部の動作説明に用いるタイミングチャートを示す図である。 図1の実施形態における連続関連音先頭期間検出部の構成例を説明するためのブロック図である。 図1の実施形態における平均レベル検出生成部の構成例を説明するためのブロック図である。 この発明による音量補正装置の第1の実施形態を説明するために用いるタイミングチャートを示す図である。 この発明による音量補正装置の第2の実施形態の要部の構成例を説明するためのブロック図である。 この発明による音量補正装置の第2の実施形態を説明するために用いるタイミングチャートを示す図である。 この発明による音量補正装置の第3の実施形態の構成例を説明するためのブロック図である。 この発明による音量補正装置の第3の実施形態の構成例の一部の詳細構成例を示すブロック図である。 この発明による音量補正装置の第3の実施形態の構成例の一部の詳細構成例を示すブロック図である。 図14の構成例の処理動作を説明するために用いる図である。 図13の構成例の一部を説明するために用いる図である。 図13の構成例の一部を説明するために用いる図である。 図13の構成例の一部の詳細構成例を示すブロック図である。 図18の構成例を説明するために用いる図である。 図18の構成例を説明するために用いる図である。 図18の構成例を説明するために用いる図である。 図18の構成例を説明するために用いる図である。 図18の構成例を説明するために用いる図である。 図18の構成例を説明するために用いる図である。 図18の構成例の処理動作を説明するために用いる波形図である。 この発明の第3の実施形態における連続関連音先頭期間検出部の構成例を説明するためのブロック図である。 この発明の第3の実施形態における声平均レベル検出生成部の構成例を説明するためのブロック図である。 この発明による音量補正装置の第3の実施形態を説明するために用いるタイミングチャートを示す図である。 この発明による音量補正装置の第4の実施形態の要部の構成例を説明するためのブロック図である。 この発明による音量補正装置の第4の実施形態を説明するために用いるタイミングチャートを示す図である。 この発明による音量補正装置の第5の実施形態の構成例を説明するためのブロック図である。 この発明の第5の実施形態における総合平均レベル検出生成部の構成例を説明するためのブロック図である。 この発明による音量補正装置の第5の実施形態を説明するために用いるタイミングチャートを示す図である。 この発明の第5の実施形態における総合平均レベル検出生成部の他の構成例を説明するためのブロック図である。 この発明による音量補正装置が適用される他の電子機器の例を示す図である。 この発明による音量補正装置の他の実施形態を説明するためのブロック図である。 この発明による音量補正装置のさらに他の実施形態を説明するためのブロック図である。 従来の音量補正装置を説明するためのブロック図である。
以下、この発明による音量補正装置の実施形態を、図面を参照しながら説明する。以下に説明する音量補正装置の実施形態は、テレビ放送受信機の音声出力部に用いられた場合である。
すなわち、図2は、テレビ放送受信機の構成例を示すブロック図である。この図2の例のテレビ放送受信機は、マイクロコンピュータを具備して構成される制御部10を備える。この制御部10には、リモコン受信部11が接続され、このリモコン受信部11でリモコン送信機12からのリモコン信号を受けて、制御部10に伝達する。制御部10は、受信したリモコン信号に応じた処理制御を実行する。
制御部10は、テレビ放送受信機の各部に対して制御信号を供給して、テレビ放送信号の受信およびその映像再生および音声再生の処理を実行する。
チューナ部13は、制御部10からのユーザのリモコン操作に応じたチャンネル選択制御信号により指定される放送チャンネルの信号を、テレビ放送波信号から選択抽出する。そして、チューナ部13は、選択抽出した放送チャンネルの信号から、映像信号と、音声信号とを復調デコードし、映像信号は映像信号処理部14に供給し、音声信号は、音声信号処理部15に供給する。
映像信号処理部14では、制御部10からの制御を受けて、映像信号についての所定の処理をし、その処理後の映像信号を表示制御部16を通じて、例えばLCD(Liquid Crystal Display)からなるディスプレイ17に供給する。これにより、選択された放送チャンネルの放送番組の画像がディスプレイ17に表示される。
また、音声信号処理部15では、制御部10からの制御を受けて、音声信号についての所定の処理をする。この実施形態では、音声信号処理部15では、チューナ部13からの音声信号から、左右2チャンネルの音声信号SiLおよびSiRを生成し、その処理後の音声信号SiLおよびSiRを音量補正部18に供給する。
音量補正部18は、この実施形態の音量補正装置が適用される部分であり、その入力音声信号SiLおよびSiRは、後述するようにして、音量補正され、出力音声信号SoLおよびSoRとし出力される。そして、この音量補正部18からの出力音声信号SoLおよびSoRが、スピーカ19Lおよび19Rに供給されて、音響再生される。これにより、選択された放送チャンネルの放送番組の音声がスピーカ19Lおよび19Rから放音される。
以下、この音量補正部18の場合として、この実施形態の音量補正装置について説明する。
[音量補正装置の第1の実施形態]
図1は、この発明の音量補正装置の第1の実施形態としての音量補正部18の全体の構成例を示すブロック図である。
この図1に示すように、この実施形態においても、左右2チャンネルの入力音声信号SiLおよびSiRは、それぞれ、ゲイン制御信号によりゲインが可変制御される可変ゲインアンプ21Lおよび21Rに供給される。
また、左右2チャンネルの入力音声信号SiLおよびSiRは、平均レベル検出部22に供給されて、後述するように、左右2チャンネルの入力音声信号SiLおよびSiRの加算信号における連続関連音区間の音声信号全体についての平均レベルが検出される。
ここで、連続関連音区間とは、入力音声信号SiLおよびSiRの加算信号において、音声信号有りとして検出される区間であって、複数個の区間からなる場合、時間的に近接していて、互いに関連する群の音声信号区間とすることができる区間である。
例えばテレビ放送番組では、シーン毎に対応する音声区間であるシーン対応音声区間が、連続関連音区間とされる。つまり、映像シーンに対応して音声が存在するが、シーンが変化するとき、比較的長い無音区間が生じる。一方、シーン内においては、一般的に時間的に僅かな期間だけ無音区間が生じても、時間的に近接して音声信号有り区間が存在すると考えられる。
そこで、この例では、時間的に近接する1または複数個の音声信号有り区間は、1シーンに対応する区間(シーン対応音声区間)であるなど、互いに関連する音声区間と考え、連続関連音区間とする。
また、テレビ放送番組においては、コマーシャルの放送タイミングとなる前には、比較的長い無音区間が存在するのが一般的である。したがって、コマーシャルの放送開始タイミングは、連続関連音区間の始めの時点と対応させるようにすることができる。
また、チャンネル切り替え時にも、入力音声信号としては、当該切り替え時での無音区間が生じるので、チャンネル切り替えに応じて、連続関連音区間の区切りとすることができる。
そして、平均レベル検出部22では、時間軸上、離散的に存在する連続関連音区間毎に、音声信号の平均レベルを検出し、連続関連音区間の間の無音区間は、時間的に前の連続関連音区間で検出した平均レベルをホールドするようにする。これにより、平均レベル検出部22では、入力音声信号についての総合的な平均レベルを検出するようにする。
また、後述するように、この実施形態の平均レベル検出部22では、連続関連音区間の先頭から一定期間は、入力音声信号の平均レベルを速やかに検出することができるように、平均レベル検出時定数を小さくする。これにより、時間的に隣り合う連続関連音区間の間でのレベル差を、速やかに補正することができるようにする。
さらに、この実施形態の平均レベル検出部22では、連続関連音区間の先頭から一定期間の後の残りの区間では、平均レベル検出時定数を、先頭から一定期間に比べて大きくし、細かな音声レベル変動には追従しないようにしている。
そして、この平均レベル検出部22で検出された平均レベルはゲイン制御信号生成部23に供給される。ゲイン制御信号生成部23では、平均レベル検出部22で検出された音声信号の平均レベルと、予め定められている基準レベルと比較し、その比較結果を用いて、両レベルの差がゼロとなるようにするゲイン制御信号を生成する。そして、ゲイン制御信号生成部23は、生成したゲイン制御信号を、可変ゲインアンプ21L,21Rに供給する。
可変ゲインアンプ21L,21Rは、ゲイン制御信号生成部23からのゲイン制御信号によりゲインが可変制御される。この場合、左右2チャンネルの入力音声信号SiLおよびSiRは、この可変ゲインアンプ21L,21Rにおいて、左右2チャンネルの入力音声信号SiLおよびSiRの加算信号の、連続関連音区間での平均レベルが基準レベルと等しくなるようにゲイン制御される。
以上のようにして、可変ゲインアンプ21L,21Rは、平均レベル検出部22で検出された連続関連音区間の音声平均レベルを基準に自動音量補正される。
可変ゲインアンプ21L,21Rから得られる左右2チャンネルの出力音声信号SoLおよびSoRはスピーカ19L,19Rにより音響再生される。この場合に、その再生音声は、チャンネル切り替え時やコマーシャル部分の先頭などの大きなレベル差の音声区間と定常的な音声区間の両方において、常に、良好に音量制御がなされたものとなる。
この実施形態では、平均レベル検出部22は、図1に示すように構成される。
先ず、左右2チャンネルの入力音声信号SiLおよびSiRは、加算部31で互いに加算される。この加算部31からの加算出力信号は、アンプ32にて1/2ゲイン倍される。このアンプ32からの加算出力信号Smは、エンベロープ検出部33に供給される。このエンベロープ検出部33では、加算出力信号Smの波形のエンベロープ(包絡線)が検出され、当該エンベロープ信号Semvが出力される。そして、このエンベロープ検出部33で検出された加算出力信号Smのエンベロープ信号Semvは、平均レベル生成部36に供給される。
また、アンプ32からの加算出力信号Smが連続関連音区間検出部34に供給される。この連続関連音区間検出部34は、図3に示すように、音声信号有無検出部341と、検出結果延長部342とからなる。検出結果延長部342は、音声信号有無検出部341からの検出出力信号で示される音声信号有り区間の終了時点を、一定期間だけ延長した信号を生成する。
[連続関連音区間検出部34の構成例]
図3は、連続関連音区間検出部34の基本的な構成例を示すもので、音声信号有無検出部341は、基準レベル発生部3411と、比較部3412とからなる。比較部3412は、アンプ32からの加算出力信号Sm(図4(A)参照)と、基準レベル発生部3411からの基準閾値レベルθc(図4(A)参照)とを比較する。
そして、比較部3412は、加算出力信号Smが基準閾値レベルθcよりも大きいときには“1”、小さいときに“0”となる検出出力Cmp(図4(B)参照)を、検出結果延長部342出力する。すなわち、比較部3412からの音声有無検出出力Cmpは、音声信号有り区間では“1”となり、音声信号無し(無信号)区間では“0”となる。この比較部3412の検出出力Cmpは、検出結果延長部342に供給される。
検出結果延長部342は、検出出力Cmpの立ち下がり時点を、予め定めた延長時間DLだけ、遅延させて延長させるようにする。すなわち、検出結果延長部342は、検出出力Cmpの音声信号有り区間である“1”区間を、延長時間DLだけ延長するように働く。
したがって、音声信号有無検出部341の検出出力Cmpの“0”区間が、延長時間DLよりも短いときには、図4(C)に示すように、音声信号有り区間である“1”区間が、隣り合うもの同士でつながったようになる。そして、音声信号有無検出部341の検出出力Cmpの“0”区間が、延長時間DLよりも長くなると、図4(C)に示すように、検出結果延長部342の出力は、初めて“0”に立ち下がるようになる。
こうして、延長時間DLよりも音声信号有り区間の間が短いときには、互いに関連のある一群の連続関連音として、検出される。そして、検出結果延長部342からの出力は、連続関連音区間を示す連続関連音区間検出フラグSFLG(図4(C))となる。
検出結果延長部342における延長時間DLは、例えばシーン対応音声区間を連続関連音区間とすることができる時間長などに、予め固定的に設定されている。なお、この延長時間DLを調整することで、連続関連音区間として検出される音声区間を調整することができる。
ところで、図3の例では、加算出力信号Smから音声信号有り区間を検出するための基準閾値レベルθcの設定が重要である。この基準閾値レベルθcを、あまりに低い値にすると、音声信号ではないノイズをも音声信号と検出してしまうし、また、基準閾値レベルθcの値が高すぎると、音声信号の有無を適切に検出することができないからである。
この実施形態では、このような固定設定される閾値レベルθcを用いる代わりに、音声信号のレベルに応じて動的に変化する閾値レベルθdを用いることで、音声信号の有無を適切に検出することができるようにしている。
この動的に変化する閾値レベルθdを用いる場合の連続関連音区間検出部34の構成例を図5に示す。
この例の場合の連続関連音区間検出部34の音声信号有無検出部341は、図5に示すように、第1平均レベル検出部3413と、第2平均レベル検出部3414と、減衰部3415と、比較部3416とからなる。そして、検出結果延長部342の構成および音声信号有無検出部341からの音声信号有無検出出力が検出結果延長部342に供給される構成は、図3の例の場合と同様である。
図5の例の場合の音声信号有無検出部341での音声信号有無検出動作を、図6を参照しながら説明する。
第1平均レベル検出部3413は、その入力信号である加算出力信号Sm(図6(A)参照)の平均レベルを追従性良く検出するもので、その平均レベル検出時定数は小さく設定されている。
一方、第2平均レベル検出部3414は、加算出力信号Smのレベル変化に応じた閾値レベルθdを設定する目的で、加算出力信号Smの平均レベルを検出するもので、その平均レベル検出時定数は大きな値に設定されている。
第1平均レベル検出部3413で検出された加算出力信号Smの平均レベルAvr(図6(B)参照)は、比較部3416に供給される。また、第2平均レベル検出部3414で検出された加算出力信号Smの平均レベルは、減衰器3415で更に減衰された後、閾値レベルθd(図6(C)参照)として、比較部3416に供給される。
そして、比較部3416では、加算出力信号Smの平均レベルAvrが、閾値レベルθdを超えている期間を、音声信号有り区間として検出し、当該音声信号有り区間で“1”となる検出出力Cmp(図6(D)参照)を出力する。
この比較部3416の検出出力Cmpは、検出結果延長部342に供給される。検出結果延長部342は、前述したようにして、比較部3416の検出出力Cmpの“1”区間を、延長時間DLだけ延長した連続関連音区間検出フラグSFLG(図6(E)参照)を出力する。
連続関連音区間検出部34で以上のようにして検出された連続関連音区間検出フラグSFLGは、平均レベル生成部36に供給されると共に、連続関連音先頭期間検出部35に供給される。
連続関連音先頭期間検出部35は、連続関連音区間検出部34で検出された連続関連音区間の先頭から予め設定された時間長分の期間を示す先頭期間検出フラグHDを生成して出力する。
[連続関連音先頭期間検出部35の構成例]
この実施形態では、連続関連音先頭期間検出部35は、図7に示すような構成とされる。すなわち、連続関連音先頭期間検出部35は、カウンタ351と、比較部352と、閾値カウント値発生部353とからなる。
カウンタ351のクロック端子には、図示を省略したクロック発生器からのクロック信号CLKが供給される。また、カウンタ351のイネーブル端子ENには、連続関連音区間検出部34からの連続関連音区間検出フラグSFLGが供給されると共に、カウンタ351のリセット端子RSにも、連続関連音区間検出フラグSFLGが供給される。
これにより、このカウンタ351は、連続関連音区間検出フラグSFLGが“1”である連続関連音区間において、クロック信号CLKをカウントし、連続関連音区間検出フラグSFLGの立ち下がりにより、そのカウント値がリセットされる。
そして、カウンタ351からのカウント値出力CNTは比較部352に供給される。また、比較部352には、閾値カウント値発生部353からの閾値カウント値が供給されている。
比較部352は、カウント値出力CNTと、閾値カウント値とを比較し、カウンタ351からのカウント値出力CNTが閾値カウント値になるまでの期間は、“1”とし、その後の期間は“0”とする先頭期間検出フラグHDを生成して出力する。すなわち、先頭期間検出フラグHDは、連続関連音区間の先頭から一定期間だけ“1”となる信号である。
こうして、連続関連音先頭期間検出部35からは、連続関連音区間の先頭から一定期間だけ“1”となる先頭期間検出フラグHDが得られ、当該先頭期間検出フラグHDが平均レベル生成部36に供給される。
この平均レベル生成部36では、連続関連音区間検出フラグSLFGの“1”区間である連続関連音区間では、エンベロープ検出部31からのエンベロープ信号から、加算出力信号Smの平均レベルを検出生成する。
この平均レベル生成部36での平均レベル検出において、先頭期間検出フラグHDで示される連続関連音区間の先頭から一定期間では、加算出力信号Smの平均レベルに速やかに追従するように、平均レベル検出時定数を小さい値とする。そして、連続関連音区間の前記先頭の一定期間を除く期間では、平均レベル生成部36での平均レベル検出時定数は、音声信号の細かい変動に追従しないように、大きい値とされる。
そして、平均レベル生成部36は、前の連続関連音区間と次の連続関連音区間との間(無音区間)では、前の連続関連音区間で検出生成した平均レベルをホールドするようにする。
[平均レベル生成部36の構成例]
以上の処理動作を行う平均レベル生成部36の構成例を図8に示す。すなわち、この実施形態における平均レベル生成部36は、選択部361と、積分部362と、積分時定数変更制御部363とからなる。
そして、エンベロープ検出部33からのエンベロープ信号Semvが、選択部361の一方の入力端に供給されると共に、連続関連音区間検出フラグSFLGが選択信号として選択部361に供給される。この選択部361の出力信号は、積分部362に供給される。そして、この積分部362の出力信号が、選択部361の他方の入力端に供給されると共に、平均レベル生成部36の出力信号Vavr1として出力される。

積分部362は、入力信号を積分結果に対して加算して積分することにより、入力信号の平均レベルを検出する。この場合に、積分部362の積分出力は、上昇または下降の積分方向のそれぞれにおいて、入力信号のレベルを超えることは無い。この例における積分部362での積分演算の演算式は、次の通りである。
=1/N(Y(t−1)×(N−1)+X
=Y(t−1)×(N−1)/N+X×1/N
・・・(式1)
ここで、Yは今回のサンプルXに対する積分出力、Y(t−1)は1つ前の積分出力、Xは入力サンプルである。サフィックスtは、順次に入力される入力サンプルのサンプル番号に相当する。
(式1)において、1つ前の積分出力Y(t−1)と入力サンプルXの値が等しい時には、Y=Y(t−1)となる。つまり、積分結果は、上昇または下降の積分方向のそれぞれにおいて、入力サンプル値を超えることは無い。
(式1)におけるNは、積分時定数に相当するものである。この積分時定数Nが、この実施形態における平均レベル検出時定数の例である。この場合、積分時定数Nが大きければ、前の積分結果に対する新たな入力サンプルの影響はすくなく、ゆっくりした積分がなされることになり、入力信号の細かな変化に対しては追従しないものとなる。
一方、積分時定数Nが小さいときには、新たな入力サンプルが、積分結果に大きく影響するので、早い積分がなされて、積分出力は、入力信号の変化に速やかに反映される。
この図8の例においては、積分部362の積分時定数は、積分時定数変更制御部363からの制御信号により、変更制御される。すなわち、積分時定数変更制御部363には、先頭期間検出フラグHDが供給され、積分時定数変更制御部363は、先頭期間検出フラグHDが“1”である連続関連音区間の先頭から一定期間では、積分部362の積分時定数を小さい値に設定する。例えば、積分時定数N=100に設定される。
また、積分時定数変更制御部363は、先頭期間検出フラグHDが“0”である連続関連音区間の先頭から一定期間の後の期間では、積分部362の積分時定数を大きい値に設定する。例えば、積分時定数N=1000に設定される。
選択部361は、連続関連音区間検出フラグSFLGにより、連続関連音区間では、エンベロープ検出部33からのエンベロープ信号Semvを選択して積分部362に供給する。
したがって、積分部362は、連続関連音区間では、エンベロープ検出部33からのエンベロープ信号Semvを積分して平均化した信号を生成する。
この場合に、連続関連音区間の先頭から一定期間では、積分部362は、積分時定数が小さいので、エンベロープ信号Semvに速やかに到達するような積分がなされる。また、連続関連音区間の先頭から一定期間の後の期間では、積分部362は、積分時定数が大きいので、エンベロープ信号Semvにゆっくりと向かうような積分がなされる。
そして、選択部361は、連続関連音区間以外の期間になると、積分部362の出力信号を選択して積分部362に供給する。したがって、積分部362は、連続関連音区間以外の期間では、自積分部362の出力レベル信号を維持(ホールド)する。
こうして、積分部362からは、離散的な連続関連音区間の平均レベルを繋げた平均レベル出力Vavr1が得られる。
次に、図9を参照しながら、平均レベル検出部22における処理動作を説明する。
例えば、アンプ32からの加算出力信号Smが、図9(A)に示すようなものであった場合を考える。したがって、エンベロープ検出部33からのエンベロープ信号Semvは、図9(I)に示すようなものとなる。
図9(A)の加算出力信号Smでは、時間的に近接する音声信号有り区間が、連続関連音区間検出部34で検出されるので、図9(B)に示すような連続関連音区間検出フラグSFLGが得られる。
そして、連続関連音区間になると連続関連音先頭期間検出部35のカウンタ351がクロック信号CLKのカウントを開始し、そのカウント値CNTが図9(C)に示すように徐々に上昇する。そして、連続関連音先頭期間検出部35は、連続関連音区間の先頭からカウント値CNTが閾値カウント値に到達するまでの一定期間を検出し、図9(D)に示すように、当該一定期間を示す先頭期間検出フラグHDを出力する。
平均レベル生成部36は、エンベロープ検出部33からのエンベロープ信号Semvと、連続関連音区間検出フラグSFLGと、先頭期間検出フラグHDとを受けて、前述したようにして積分動作を行う。
この場合において、平均レベル生成部36においては、連続関連音区間フラグSFLGの“0”区間として示される隣り合う連続関連音区間の間の期間は、図9(E)で太線区間として示すように、積分部362の積分出力をホールドするホールド期間となる。
また、平均レベル生成部36においては、先頭期間検出フラグHDの“1”区間として示される連続関連音区間の先頭期間では、図9(F)で太線区間として示すように、積分部362の積分時定数を小さい値とする第1時定数期間とする。
さらに、平均レベル生成部36においては、連続関連音区間のうちの、先頭期間検出フラグHDで示される先頭期間を除く期間では、図9(G)で太線区間として示すように、積分部362の積分時定数を大きい値とする第2時定数期間とする。
そして、平均レベル生成部36は、連続関連音区間の音声信号の平均レベルの検出出力として連続した平均レベル出力Vavr1(図9(H)参照)を得る。
この平均レベル出力Vavr1は、ゲイン制御信号生成部23に供給される。
このゲイン制御信号生成部23では、平均レベル検出部22からの声平均レベル信号Vavrと、予め定められている基準レベルと比較し、その比較結果としての両レベルの差がゼロとなるようにするゲイン制御信号を生成する。
そして、ゲイン制御信号生成部23で生成されたゲイン制御信号は可変ゲインアンプ21L,21Rに供給される。可変ゲインアンプ21L,21Rでは、このゲイン制御信号により、入力音声信号SiLおよびSiRの平均レベルが、基準レベルとなるようにゲイン制御される。その結果、可変ゲインアンプ21L,21Rからの出力音声信号SoLまたはSoRは、ほぼ一定となるようにゲイン制御されたものとなる。
上述のようにして得られる平均レベル生成部36の出力信号Vavrは、連続関連音区間の音声信号の平均レベルを示すものとなっている。しかも、出力信号Vavrは、連続関連音区間の先頭部分では、すみやかに入力音声信号の平均レベルに追従するものとなっているので、連続関連音区間の間での音声信号レベルの変動をなくすように音量制御されることになる。
そして、連続関連音区間の先頭期間以後の期間では、平均レベル検出時定数(上述の例では、積分時定数)が大きくされているので、連続関連音区間内での音声の細かな変動には追従せずに、聞き易い出力音が得られる。
なお、上述の説明では、平均レベル生成部36では、エンベロープ検出部33からのエンベロープ信号Semvから加算出力信号Smの平均レベルを積分して検出するようにした。しかしながら、第1の実施形態では、エンベロープ検出部33を設けずに、平均レベル生成部36で加算出力信号Smを受けて、その平均レベルを積分して検出するようにすることもできる。
[音量補正装置の第2の実施形態]
この第2の実施形態は、上述した第1の実施形態の変形例である。上述の第1の実施形態では、連続関連音区間の先頭期間における平均レベル検出時定数は、1種類のみとした。これに対して、この第2の実施形態では、前の連続関連音区間の平均レベルから、後の連続関連音区間の平均レベルが上昇したか、あるいは下降したかに応じて、連続関連音区間の先頭期間における平均レベル検出時定数を変えるようにする。
例えば、音声信号レベルが急に上がってしまった状態を、それをあまりに急激に抑圧するように音量制御すると、そのレベル変化時点で音揺れが生じ、違和感を生じてしまうおそれがある。そこで、後の連続関連音区間の平均レベルが上昇した場合における平均レベル検出時定数は、後の連続関連音区間の平均レベルが下降した場合における平均レベル検出時定数よりも、より大きくして、積分速度をゆっくりとするようにする。
これに対して、音声信号レベルが、前の連続関連音区間よりも小さくなってしまった音声信号レベルを、あまりに早く上げるようにする場合の不具合を補正するようにする場合には、平均レベル検出時定数と、後の連続関連音区間の平均レベルが上昇しているか下降しているかの関係は、逆の関係となる。すなわち、後の連続関連音区間の平均レベルが降下している場合における平均レベル検出時定数を、後の連続関連音区間の平均レベルが上昇している場合における平均レベル検出時定数よりも、より大きくするようにする。
いずれを採用するかは、放送番組コンテンツの内容や、使用者の好みなどに応じて設定される。
以下に説明する例は、音声信号レベルが急に上がってしまった状態を、上述のような不具合なく有効に音声出力レベルを一定にすることができるようにする前者の場合である。
この第2の実施形態は、第1の実施形態とは、平均レベル生成部36の構成のみが異なる。この第2の実施形態の場合の平均レベル生成部36の構成例を、図10に示す。第2の実施形態では、この平均レベル生成部36以外の平均レベル検出部22のその他の部分の構成は、上述した第1の実施形態の場合と全く同様である。
この第2の実施形態における平均レベル生成部36は、図10に示すように、選択部361と、積分部362と、比較部364と、積分時定数変更制御部365とからなる。選択部361と、積分部362とは、図8に示した第1の実施形態の場合におけるそれらと同一の構成を有するので、同一参照番号を付した。
この第2の実施形態では、エンベロープ信号Semvと、積分部362のこの例の積分出力である平均レベル出力Vavr2とが比較部364に供給される。積分部362の積分出力である平均レベル出力Vavr2は、一つ前の連続関連音区間の平均レベルを示していることになる。また、エンベロープ信号Semvは、今回の連続関連音区間の平均レベルに対応する信号である。
したがって、比較部364では、今回の連続関連音区間の音声信号の平均レベルが、前の連続関連音区間の音声信号の平均レベルよりも大きくなっているか、あるいは小さくなっているかを検出する。
そして、比較部364は、その比較結果出力を積分時定数変更制御部365に供給される。この積分時定数変更制御部365には、第1の実施形態と同様に、連続関連音先頭期間検出部35からの先頭期間検出フラグHDも供給されている。
積分時定数変更制御部365では、連続関連音区間の先頭期間において、比較部364からの比較結果出力が、今回の平均レベルが前回よりも大きいことを示しているときには、前記先頭期間での積分部362の積分時定数を大きい値とする。また、比較部364の比較結果出力が、今回の平均レベルが前回よりも低いことを示しているときには、前記先頭期間での積分部362の積分時定数を小さい値とする。
その他の処理は、第1の実施形態と全く同様となる。図11のタイミングチャートを参照しながら、この第2の実施形態における平均レベル検出部22での処理動作を説明する。
図11(A)〜(E)は、図9(A)〜(E)に示した第1の実施形態の各信号やフラグと全く同様となる。また、図11(G)に示すように、連続関連音区間の先頭期間以外の期間においては、先頭期間よりも大きい平均レベル検出時定数(この例では、大きい積分時定数)、例えばN=1000とするのは、第1の実施形態と同様(図9(G)参照)である。
この第2の実施形態では、比較部364は、図11(H)および(I)に示すように、連続関連音区間の先頭期間Phd1、Phd2、Phd3のそれぞれにおいて、積分部362の積分出力Vavr2と、エンベロープ信号Semvとを比較する。そして、その比較結果出力に応じて、図11(F)に示すように、積分時定数変更制御部365により、積分部362の第1時定数期間(先頭期間)の時定数を制御する。
すなわち、図11の例では、比較部364は、1番目の先頭期間Phd1では、積分出力Vavr2と、エンベロープ信号Semvとは等しいので、その旨の比較結果出力を積分時定数変更制御部365に供給する。すると、積分時定数変更制御部365は、このときには、積分部362の連続関連音区間の先頭期間における第1時定数(積分時定数)を、先頭期間の時定数としては大きい時定数、例えばN=120とする。
次に、2番目の先頭期間Phd2では、今回の平均レベルであるエンベロープ信号Semvのレベルの方が、前の連続関連音区間の平均レベルである積分出力Vavr2よりも小さいので、比較部364は、その旨の比較結果出力を積分時定数変更制御部365に供給する。すると、積分時定数変更制御部365は、このときには、積分部362の連続関連音区間の先頭期間における第1時定数(積分時定数)を、先頭期間の時定数としては、小さい時定数、例えばN=80とする。これにより、2番目の先頭期間Phd2では、より迅速に音声信号のレベルに追従するように積分部362での積分動作がなされる。つまり、小さい音を一定レベルまで上昇させるような音量制御がかかる。
また、3番目の先頭期間Phd3では、エンベロープ信号Semvのレベルが、積分出力Vavr2よりも大きくなっているので、比較部364は、その旨の比較結果出力を積分時定数変更制御部365に供給する。すると、積分時定数変更制御部365は、このときには、積分部362の連続関連音区間の先頭期間における第1時定数(積分時定数)を、先頭期間の時定数としては大きい時定数とする。これにより、大きくなった音声信号レベルを、レベル変化時点での音揺れを生じることなく、一定レベルに抑圧するような音量制御がかかる。
以上説明した第2の実施形態の音量補正装置によれば、前連続関連音区間とのレベル差を速やかに補正すると共に、音声信号のレベル変化に伴う揺れを抑えた音量補正が可能となる。
[第3の実施形態]
例えばテレビ放送や、記録メディアに記録されている映画コンテンツ等においては、その音声信号中には、人声、BGM(Background Music)、効果音といった多種類の音が含まれている。ユーザが、リモコン等を用いて手動でボリュームコントロールを行う場合、音声信号中の人声のレベルを基準にして、台詞が適切に聞こえるようにレベルの調整操作を行っていることが多い。
一方、上述した音量補正方式は、音声信号全体のレベルを監視して音量制御を行う方式である。例えば、音声信号全体の平均レベルを基準にして、AGC方式により音量制御を行った場合、音声信号全体としての音量制御がなされ、うるさい音を出さないようにしたり、聞こえなかった小さな音を聞こえるようにしたりすることができる。
しかしながら、人の声の大きさに着目して聞くと、当該人の声は必ずしも一定のレベルとはならず、台詞が聞き取りやすいとは言えない、という場合があった。
以下に説明する第3の実施形態では、このことにかんがみ、音声信号中の人声に注目して平均レベルを求めることで、台詞等を聞き取り易くするようにする。
図12に、この第3の実施形態における音量制御部18の構成例のブロック図を示す。この図12の例においては、上述した第1の実施形態と同一部分には、同一参照番号を付して、その詳細な説明は省略する。
この第3の実施形態では、図1に示した第1の実施形態の構成に加えて、声区間検出部37を設けると共に、第1の実施形態の連続関連音先頭期間検出部35に代えて、連続関連音先頭期間検出部38を設ける。更に、第1の実施形態の平均レベル生成部36に代えて、声平均レベル生成部39を設ける。
そして、アンプ32からの加算出力信号Smが、エンベロープ検出部33および連続関連音区間検出部34に供給されると共に、声区間検出部37にも供給される。また、左右2チャンネルの入力音声信号SiLおよびSiRが、この声区間検出部37に供給される。
後述するように、声区間検出部37では、アンプ32からの加算出力信号Sm中において、人声の音声信号が含まれる時間区間である声区間を検出する。また、この実施形態の声区間検出部37では、左右2チャンネルの入力音声信号SiLおよびSiRからも、人声の音声信号が含まれる時間区間である声区間を検出する。
この実施形態では、声区間検出部37では、人声信号の特徴量を用いて声区間を検出する。人声信号の特徴量は、複数種が存在する。この実施形態の声区間検出部37では、後述するように、人声信号の複数種の特徴量のそれぞれについて、声区間の検出を行い、その検出結果の論理積を取ることにより、検出した声区間の精度を高めるようにしている。
この声区間検出部37は、検出した声区間を示す声区間検出フラグVFLGを生成して出力する。そして、声区間検出部37は、声区間検出フラグVFLGを、連続関連音先頭期間検出部38に供給すると共に、声平均レベル生成部39に供給する。
声平均レベル生成部39には、更に、エンベロープ検出部33からのエンベロープ信号Semvと、連続関連音区間検出部34からの連続関連音区間検出フラグSFLGと、連続関連音先頭期間検出部35からの先頭期間検出フラグHDとが供給される。
声平均レベル生成部39では、基本的には、上述した第1の実施形態と同様の動作を行う。しかし、この第3の実施形態では、声平均レベル生成部39では、連続関連音区間においては、音声信号全体ではなく、声区間検出部37で検出された声区間の音声信号の平均レベルを検出する点が第1の実施形態とは異なる。そして、連続関連音区間の先頭の一定期間と、その後の期間とで、平均レベル検出時定数を変えるようにするのは、上述の第1の実施形態と同様である。
[声区間検出部37の構成例]
前述したように、声区間検出部37では、人声信号の特徴量に着目して、その入力音声信号Smから人声が含まれる時間区間である声区間を検出する。そして、この実施形態では、声区間検出部37では、人声信号の特徴量は複数種があることに着目して、当該複数種の特徴量のそれぞれについて、声区間の検出を行う。そして、その結果得られる複数個の検出結果の声区間に基づいて、声区間検出フラグVFLGを生成して出力することにより、検出した声区間の精度を高めるようにしている。
図13に、この実施形態における声区間検出部37の構成例のブロック図を示す。
この実施形態では、声区間検出部37は、声周期検出部40と、声帯域集中検出部50、センター定位検出部60、の3つの検出部を備える。この3つの検出部40,50,60は、それぞれ声区間を特定するための人声信号の特徴量の一つを検出する。そして、これら3つの検出部40,50,60の3つの検出出力の論理積をとることによって、声区間検出精度の向上を図るようにしている。以下、3つの検出部40,50,60のそれぞれについて説明する。
<声周期検出部40>
人声の信号は、複数の特徴的な周波数成分から構成されるが、ピッチと呼ばれる基本周波数成分のピークが強調された波形的特徴を有し、それが一母音期間継続する。また、基本周波数成分のピークは、一母音ごとに山なりのエンベロープを持って、同一周期で繰り返す。したがって、入力音声信号波形のピークを検出し、この検出したピークの周期の連続性を検出することによって、簡易的に、低負荷処理によって、声の存在する区間を特定することができる。つまり、人声の信号の同一ピーク周期の連続性を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。
前記ピークの周期は次第に上昇したり、下降したりといったスロープを持つが、隣接するピーク周期間の差はわずかである。したがって、ある程度の許容誤差範囲で隣り合うピーク周期の同一性を検出することによって、ピーク周期の変動の影響を回避して、人声が存在する声区間を検出することができる。
以上のことを踏まえて、この実施形態では、声周期検出部40は、ピーク周期検出部41と、連続同一周期検出部42と、頻度検出部43とで構成される。
ピーク周期検出部41は、入力音声信号Smのピークを検出し、その検出したピークの周期を検出する。
連続同一周期検出部42は、ピーク周期検出部41で検出されたピークの周期の隣り合うものの同一性を判断し、同一性があるときには、ピークの周期の同一性が連続しているとして検出する。この場合に、連続同一周期検出部42は、ピーク周期が声の帯域の周期範囲のみについて、ピーク周期の隣り合うものの同一性を判断するようにする。例えば、ピーク周期が、およそ1ミリ秒(1ms)から10ミリ秒(10ms)ほどの間にあるときに、前記ピーク周期の隣り合うものの同一性判断を行うようにする。
頻度検出部43は、連続同一周期検出部42の出力を、1ピーク周期ずつ遅延したものを3以上の複数個用意し、それら複数個の、例えば多数決を求めることにより、ピーク周期の変動による影響を除去するようにしている。すなわち、ピーク周期が変動した場合、当該変動時点の1〜複数周期分が、連続同一周期検出部42で、連続同一周期の声区間として検出しても良いのにも拘らず、連続同一周期として検出されなくなる場合がある。頻度検出部43では、このような変動による不連続として検出されてしまう1〜複数周期分をなくして、安定した連続同一周期の検出出力が得られるようにする。
図14は、声周期検出部40の、より詳細な構成例を示す図である。ピーク周期検出部41は、ピーク検出部411と周期計数カウンタ412とからなる。連続同一周期検出部42は、周期比較部421と、遅延部422とからなる。
頻度検出部43は、この例では、連続同一周期検出部42の出力信号を、それぞれ1ピーク周期分ずつ遅延する2個の遅延部431,432と、多数決論理部433とからなる。
この声周期検出部40の動作を、図15の音声波形図を参照しながら説明する。すなわち、図15(B)は、加算音声信号Smの一部である図15(A)のうちの、声区間の音声波形を示すものである。図15(A)で、等間隔の縦線を付した部分が人声区間であり、黒塗りで示した部分は、声以外区間である。
ピーク周期検出部41のピーク検出部411は、この図15(A)の入力音声信号Smの、この例では、正側のピーク位置を検出し、その検出時点(検出位置)を示すピーク検出出力Pkを出力する(図15(C)参照)。なお、ピーク検出部411は、例えば、所定のスレッショールド値を超えるピーク値を、ピーク位置として検出する。
このピーク検出部411からのピーク検出出力Pkは、周期計数カウンタ412に供給される。周期計数カウンタ412には、人声信号のピーク周期よりも十分に周波数が高いクロックCLKが供給されており、このクロックCLKを、隣り合うピーク検出出力Pkの間でカウントすることにより、ピーク周期を計数する。したがって、周期計測カウンタ412は、ピーク周期をクロックCLKの計数値として出力する。
この周期計測カウンタ412からのピーク周期検出出力としての計数値Tcは、連続同一周期検出部42に供給される。
連続同一周期検出部42においては、周期計測カウンタ412からのピーク周期検出出力としての計数値Tcは、そのまま周期比較部421に供給されると共に、遅延部422を通じて遅延された後、周期比較部412に供給される。
遅延部422は、この例では、ピーク検出出力Pkがクロックとして供給されるラッチ部として構成されており、周期計数カウンタ412からの計数値Tcを、1ピーク周期分遅延させて、周期比較部421に供給するようにする。
この例では、周期比較部421では、まず、周期計数カウンタ412からの計数値Tcが、1msから10msまでの間のピーク周期に対応する計数値であるかどうかチェックする。そして、計数値Tcが、1msから10msまでの間のピーク周期に対応する計数値でないときには、周期比較部421は、周期比較を行わずに、この例では、その出力CTをローレベル(「0」)とする。そして、計数値Tcが、1msから10msまでの間のピーク周期に対応する計数値であるときには、周期比較部421は、次のようにして、隣り合う前後のピーク周期の比較演算を行う。
すなわち、周期比較部421では、周期計測カウンタ412からの現時点でのピーク周期の計数値Tcpと、その1ピーク周期前のピーク周期の計数値Tcbとを比較し、両ピーク周期が同一であるかどうかを判定する。ここで、周期比較部421では、前後のピーク周期の計数値TcpとTcbとが全く同一である場合のみではなく、同一と見なせるほど両者の差が小さい許容範囲であるときには同一と判定される。同一と判定する差の大きさは、声区間を検出する精度の許容度に応じて予め設定されている。
周期比較部421は、この例では、前後のピーク周期の計数値TcpとTcbとが同一であると判定したときにはハイレベル(「1」)、同一ではないと判定されたときにローレベル(「0」)となる連続同一周期検出フラグCT(図15(D)参照)を出力する。
この連続同一周期検出フラグCTは、頻度検出部43に供給される。この頻度検出部43は、前述したように、この例では、2個の遅延部431,432と、多数決論理部433で構成される。
遅延部431,432は、この例では、ピーク検出出力Pkがクロックとして供給されるラッチ部として構成されており、その入力信号を、それぞれ1ピーク周期分遅延させる。
遅延部431は、連続同一周期検出部42からの連続同一周期検出フラグCTを入力信号として受け、この連続同一周期検出フラグCTを1ピーク周期分遅延させた信号CTd1(図15(E)参照)を出力する。
また、遅延部432は、遅延部431の出力信号CTd1を受け、この出力信号CTd1を、さらに、1ピーク周期分遅延させた信号CTd2(図15(F)参照)を出力する。
そして、連続同一周期検出フラグCTと、その1ピーク周期遅延信号CTd1と、その2ピーク周期遅延信号CTd2との3個の信号は、多数決論理部433に供給される。
多数決論理部433は、3個の信号CT、CTd1,CTd2のうち、2個の信号がハイレベル「1」となっているときには「1」、そうでないときには、ローレベル「0」として、声周期検出フラグFLGa(図15(G)参照)を生成して出力する。
この頻度検出部43によれば、連続同一周期検出部42で、ピーク周期の変動のために、声区間の一部のピーク周期区間を連続同一周期区間として検出できなかったときにも、その一部のピーク区間を含めた声周期検出フラグFLGaを出力することができる。
以上のようにして、声周期検出部40で検出されて得られた声周期検出フラグFLGaは、アンドゲート370に供給される。
なお、上述の例では、頻度検出部43では、2個の遅延部を用いて、1ピーク周期分ずつ異なる3個の信号の多数決をとるようにしたが、頻度検出部43では、3個以上の遅延部を用いて、その多数決をとるように構成しても良い。その場合に、多数決としては、単純な多数決ではなく、スレッショールド値を設定して、それを超えた多数決とするようにしても良い。例えば、4個の遅延部を用いて、1ピーク周期分ずつ異なる5個の信号の多数決をとる場合に、3個以上が「1」であるときではなく、4個以上が「1」であるときにのみ、声区間検出信号FLGaを「1」とするようにしても良い。
また、上述の例では、声周期検出部40では、音声波形の正側のピークを検出するようにしたが、負側のピークを検出するようにしても良い。また、正側と負側の両ピークを検出して、その両者の論理和(オア)を用いるようにしても良い。
<声帯域集中検出部50>
人声の信号の母音を構成する主成分の周波数帯は、主に100Hzから1kHzといった中域の周波数帯域に多く含まれる。したがって、この100Hzから1kHzという周波数帯域の信号成分が、それ以外の成分に対して大きいところを抽出することによって、人声の存在する区間を特定することができる。つまり、人声の信号の母音を構成する主成分の周波数帯を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。
また、暗騒音や炸裂音など、主に人声とは異なる周波数帯域成分を多く持つ信号を除外することができる。なお、この実施形態では、人声の周波数帯域としては、母音の帯域とし、子音部分は除外する。これは、人声の大きさとしては、母音のレベルが主体的に知覚されるためである。
この実施形態においては、声帯域集中検出部50は、図13に示すように、バンドパスフィルタ(BPF)51と、バンドエリミネーションフィルタ(BEF)52と、平均レベル検出部53,54と、アンプ55と、比較部56とからなる。
バンドパスフィルタ51は、図16(A)に示すように、この例では、100Hzから1kHzの間の人声が含まれる周波数帯域を通過帯域とする通過特性を備えるフィルタとされる。また、バンドエリミネーションフィルタ52は、図16(B)に示すように、100Hzから1kHzの間の人声が含まれる周波数帯域を非通過帯域とする通過特性を備えるフィルタとされる。つまり、バンドエリミネーションフィルタ52は、人声が含まれない周波数帯域を通過帯域とするフィルタである。
そして、アンプ32からの左右2チャンネルの入力音声信号SiL,SiRの加算出力信号Smが、バンドパスフィルタ51およびバンドエリミネーションフィルタ52に供給される。
バンドパスフィルタ51からは、加算出力信号Smから100Hz以上、1kHz以下の人声が含まれる周波数帯域の信号成分が抽出され、当該信号成分が平均レベル検出部53に供給される。平均レベル検出部53では、加算出力信号Smの100Hz以上、1kHz以下の周波数帯域の信号成分の平均レベルが検出され、その検出された平均レベル信号BPFavr(図17の実線で示す波形参照)が平均レベル検出部53から出力される。
また、バンドエリミネーションフィルタ52からは、加算出力信号Smのうち、100Hz以下、かつ、1kHz以上の人声が含まれない周波数帯域の信号成分が抽出され、当該信号成分が平均レベル検出部54に供給される。平均レベル検出部54では、加算信号Smの100Hz以上、1kHz以下の人声が含まれない周波数帯域の信号成分の平均レベルが検出され、その検出された平均レベル信号BEFavr(図17の一点鎖線で示す波形参照)が平均レベル検出部54から出力される。
そして、平均レベル検出部53からの平均レベル信号BPFavrがそのまま比較部56に供給されると共に、平均レベル検出部54からの平均レベル信号BEFavrは、アンプ55により重み付けされた後、比較部56に供給される。ここで、アンプ55による重み付けの値は、声区間の検出精度に関与するもので、この例では、アンプ55による重みが大きいほど声区間として検出される区間の長さは短くなる。なお、重み付けは、平均レベル検出部53の出力BPFavrに対して行っても良い。
比較部56では、主に声を含む周波数帯域の平均レベル信号BPFavrが、主に声を含まない周波数帯域の平均レベルBEFavrに重みづけしたレベルを上回った場合に、声帯域集中区間を検出したとして、声帯域集中検出フラグFLGbを立てる。この例では、図17に示すように、検出した声帯域集中区間においては、声帯域集中検出フラグFLGbをハイレベル(「1」)にする。
以上のようにして、声帯域集中検出部50で検出されて得られた声帯域集中検出フラグFLGbは、アンドゲート370に供給される。
なお、以上の説明では、バンドパスフィルタ51と、バンドエリミネーションフィルタ52を使用した。しかし、主に人声を含む周波数帯域の信号と、主に人声を含まない周波数帯域の信号を抽出する手段としては、これに限られるものではなく、ローパスフィルタやハイパスフィルタなどのフィルタを用いて帯域を切り分けてもよい。
また、比較部56では、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号と、入力信号自身とを、比較しても良い。または、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号と入力信号との差分と、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号とを比較しても良い。
<センター定位検出部60>
例えばラジオ放送やテレビ放送におけるステレオ放送のコンテンツなどにおいては、人の台詞をもっとも聞き取り易くするために、人の台詞の大半はセンターに定位させているため、人声のあるところでは、定位分布がセンターに集中している。
このため、ステレオ音声信号において、センターに定位する信号成分を含む区間を特定することによって、声の存在する区間を特定することができる。つまり、ステレオ音声信号におけるセンター定位成分を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。また、ステレオ音声信号におけるセンター定位成分を抽出することで、左右に広がる音楽信号部分など、センターに定位するボーカル以外の部分を除外できる。
センター定位検出部60は、図13に示すように、定位分布検出部61と、センター集中定位検出部62とからなる。そして、左右2チャンネルの入力音声信号SiLおよびSiRが定位分布検出部61に供給され、この定位分布検出部61で入力音声信号の時々刻々と変化する定位分布が検出される。
この定位分布検出部61で検出された定位分布の情報がセンター集中定位検出部62に供給され、このセンター集中定位検出部62で、センターに定位する成分が集中している時間区間を検出する。このセンター集中定位検出部62は、センターに定位する成分が集中している時間区間を示すセンター集中定位検出フラグFLGcを出力する。
定位分布検出部61は、図18に示すように、帯域制限フィルタ611,612と、定位方向検出部613と、定位方向分布計測部614とを備えて構成される。
センター定位分布検出部60に入力された左右2チャンネルの入力音声信号SiLおよびSiRは、それぞれ帯域制限フィルタ611,612において、例えば低域成分等、定位方向をあまり感じない周波数帯域の成分が除去される。
そして、帯域制限フィルタ611,612により帯域制限された2チャンネルの入力音声信号SiLおよびSiRは、定位方向検出部613に供給される。定位方向検出部613は、帯域制限された2チャンネルの入力音声信号SiLおよびSiRのそれぞれのレベルの大きさにより、所定の周期毎の定位方向の検出時点における2チャンネルの入力音声信号SiLおよびSiRが持つ定位方向を検出する。
すなわち、定位方向検出部613においては、所定のサンプリング周期で、帯域制限された2チャンネルの入力オーディオ信号SiLおよびSiRのそれぞれのレベル(振幅)をサンプリングする。そして、定位方向検出部613においては、この例では、最新サンプリング時点における定位方向を現時点における定位方向として検出するようにする。
この場合、定位方向検出部613は、当該最新サンプリング時点における定位方向を、入力音声信号SiLおよびSiRのそれぞれについての、当該最新サンプリング時点のレベルと、それよりも過去のサンプリング時点のレベルとを用いて検出する。
2チャンネルの入力音声信号SiLおよびSiRが、デジタルオーディオ信号であれば、前記サンプリング周期は、デジタルオーディオ信号のサンプル周期に等しくすることができる。もっとも、前記サンプリング周期を、デジタルオーディオ信号の1サンプル周期と等しくするのではなく、複数サンプル周期とするようにしてもよい。定位方向検出部613の入力音声信号がアナログ信号である場合には、この定位方向検出部613の入力段において、デジタルオーディオ信号に変換するようにしても良い。
この定位方向検出部613における定位方向の検出方法を、図19を参照しながら説明する。図19(A)および(B)は、左チャンネルの入力音声信号SiLの振幅をX軸にとり、右チャンネルの入力音声信号SiRの振幅をY軸にとった場合の座標空間を示している。
定位方向検出部613では、まず、各サンプリング周期毎の定位方向の検出時点において2チャンネルの入力音声信号SiLおよびSiRのそれぞれのレベルを取得して、それに対応する座標点を、図19(A),(B)の座標空間に、例えばP1,P2,P3,P4のように、プロットしてゆく。この例では、P4が最新の検出時点の座標点であるとする。
そして、定位方向検出部613では、y=k・x(kは定数)で表される直線(X軸とY軸との交点Zを通る直線)を、交点Zを中心として±90°回転させたときに、つまり、定数kを変化させたときに、プロットした座標点P1,P2,P3,P4が、どの定数kの直線(どの傾き角度の直線)の一番近くを移動してゆくかを算出する。つまり、定数kを変えた各直線からの各座標点P1,P2,P3,P4までの距離Da1,Da2,Da3,Da4あるいは距離Db1,Db2,Db3,Db4の総和が最も小さい直線の定数kを算出する。
そして、定位方向検出部613は、算出した直線の定数kに対応する傾き角度を、検出したい現時点における定位方向とする。図19の例では、X軸、つまり、左チャンネルの定位方向(左方向)の角度を0°として、このX軸に対する角度(以下、定位角度という)θを定位方向として検出することとする。
図19(A)の場合の座標点P1,P2,P3,P4の例では、定位角度はθaとして検出され、図19(B)の場合の座標点P1,P2,P3,P4の例では、定位角度はθbとして検出されるものである。
なお、この実施形態では、定位方向検出部613においては、現時点(最新サンプリング時点)の2チャンネル入力音声信号のレベルと、過去のサンプリング時点における2チャンネル入力音声信号のレベルとは等しい重みで用いてはいない。この実施形態では、定位方向検出部613においては、現時点に近いサンプリング時点の2チャンネル入力音声信号のレベルほど重みが大きいものとするようにしている。
このため、定位方向検出部613では、2チャンネル入力音声信号のレベルのサンプリング値に対して、図20に示すように、現時点(この例では最新サンプリング時点tn)に近いほど、重みが大きくなるように、指数関数曲線の特性を有する時間ウインドーWD1が用いられている。
なお、上述の説明では、処理対象信号時点となる現時点を最新サンプリング時点(最新サンプル時点)とした。しかし、入力音声信号SiL,SiRの入力端と、可変ゲインアンプ21Lおよび21Rとの間に所定時間τだけ遅延させる遅延回路を設けて、処理対象となる現時点を、入力音声信号SiL,SiRよりも前記τだけ遅延した時点とすることができる。
その場合には、定位方向検出部613では、処理対象信号時点となる現時点よりも後(未来)の2チャンネル入力音声信号SiL,SiRをも用いて、定位方向を検出するようにすることができる。例えば、図19の例で、処理対象信号時点となる現時点がP2やP3の場合とすることができる。
そして、その場合には、前述した時間ウインドーWD1の代わりに、図21に示すような指数関数曲線の特性の時間ウインドーWD2が用いられる。この時間ウインドーWD2は、処理対象信号時点となる現時点tpで最も重みが大きく、現時点tpから離れるにつれ、過去および未来の方向に重みが小さくなるような指数関数曲線の特性を有するものである。
なお、現時点の2チャンネル入力オーディオ信号のレベルを、過去および/または未来のサンプリング時点における2チャンネル入力音声信号SiL,SiRのレベルを重み付けせずに、そのままの値で用いても良い。
以上のようにして、定位方向検出部613では、現時点においては、2チャンネル入力音声信号SiL,SiRが、どの方向からの信号であるかを、定位角度θとして検出することができる。
しかしながら、検出した現時点における定位角度θは、1時点における入力オーディオ信号の定位方向を一方向に限定したもので、各方向ごとの信号の強さが反映されていない。そこで、この実施形態では、この点にかんがみ、定位方向検出部613で検出された現時点における2チャンネル入力音声信号SiL,SiRの定位方向の検出結果(定位角度θ)は、定位方向分布計測部614に供給される。
定位方向分布計測部614では、予め定められた所定時間区間dに渡って定位方向検出部613で検出された定位角度θの、全方位についての分布を求め、2チャンネル入力音声信号の定位方向が、どの角度方向にどのくらいの割合を持っているかを計測する。
この場合、所定時間区間dは、例えば数ミリ秒〜数百ミリ秒、この例では数十ミリ秒に選定されている。そして、この実施形態では、定位方向分布計測部614では、この所定時間区間dにおける定位方向検出部613で検出された定位角度θに対して、定位方向検出部613における重み係数の特性と同様に重み付けをするようにする。
すなわち、定位方向分布計測部614では、現時点tp(この例では、tp=tn(最新サンプリング時点))に近づくほど指数関数的に大きくなるような重み付けをする時間ウインドーWD3(図22参照)をかけて重み付けをするようにする。
なお、前述したように、入力オーディオ信号に対して遅延時間τを設けるようにして、定位方向検出部613での重み付けのための時間ウインドーを、図21のようにする場合には、定位方向分布計測部614における時間ウインドーも、図21と同様なものとなる。その場合の時間区間dは、現時点tpより未来と過去の両方を含む時間区間となるものである。なお、重み付けをせずに、そのままの値で用いてもよい。
図23は、この定位方向分布計測部614で求められた定位角度θの分布である定位方向分布P(θ)の一例を示すもので、横軸にはX軸(左チャンネル定位方向)を基準にした定位角度θをとり、縦軸には各定位角度の出現度(<1)をとったものである。ここで、この実施形態では、定位方向分布P(θ)をすべての定位角度θについて総和を求めたときに1、すなわち、
ΣP(θ)=1
となるように分布が生成される。
また、定位角度θと、音声信号の定位方向との関係は、図24に示すようなものとなる。なお、図24に示されている正面方向、左方向、右方向などは、リスナを基準にした方向名である。
以上のようにして、定位方向分布計測部614からは、現時点(現サンプリング時点あるいは現サンプル時点;処理対象信号時点)ごとに、図23に示すような定位方向分布P(θ)の情報が得られる。
この定位方向分布P(θ)の情報は、センター集中定位検出部62に供給される。センター集中定位検出部62では、定位分布検出部61によって算出された定位方向分布P(θ)に対して、主にセンター方向に重みを置いた重みづけをしたセンター定位分布信号を算出する。
左チャンネルの音声信号SiLおよび右チャンネルの音声信号SiRが、例えば図25の(A)および(B)に示すような信号であった場合を考える。この図25(A)および(B)において、等間隔の縦線を付した部分は、センター定位する人声成分が含まれている区間を示している。また、黒塗りの部分は、人声成分以外の区間を示している。
この図25の例の場合、センター集中定位検出部62で算出されるセンター定位分布信号は、図25(C)に示すようなものとなる。
センター集中定位検出部62では、算出したセンター定位分布信号の値と、予め設定した基準値REFとを比較して、センター定位分布信号の値が基準値REFを超えた区間を、センター定位検出区間として検出する。図25の例では、基準値REFは、0.8(80%)とされている。そして、センター集中定位検出部62は、検出したセンター定位検出区間を示すセンター定位検出フラグFLGcを出力する。
こうしてセンター定位検出部62から得られるセンター定位検出フラグFLGcは、アンドゲート370に供給される。
なお、センター集中定位成分を検出して、声区間を検出する手法としては、上述した定位分布検出部61とセンター集中定位検出部62とを用いる手法に限られるものではない。例えば、簡易的には、2チャンネルの音声信号SiL、SiRの和としてセンター集中定位信号を抽出し、抽出したセンター集中定位信号が所定の基準値を超えた区間を声区間として検出するようにしても良い。
<声区間検出フラグVFLGの生成>
アンドゲート370は、声周期検出部40からの声周期検出フラグFLGaと、声帯域集中検出部50からの声帯域集中検出フラグFLGbと、センター定位検出部60からのセンター定位検出フラグFLGcの論理積として、声区間検出フラグVFLGを出力する。
声周期検出フラグFLGa、声帯域集中検出フラグFLGb、センター定位検出フラグFLGcは、それぞれ、声の区間を検出するための特徴量の存在を示したフラグである。アンドゲート370は、これら3つのフラグFLGa,FLGb,FLGcの論理積をとることによって、人声の区間の検出出力である声区間検出フラグVFLGを生成するので、声区間の検出精度を上げることができる。
[連続関連音先頭期間検出部38の構成例]
連続関連音先頭期間検出部38は、この実施形態では、図26に示すような構成を備えるものとされる。
連続関連音先頭期間検出部38は、カウンタ381と、比較部382と、基準カウント値発生部383と、アンドゲート384とからなる。カウンタ381と、比較部382と、基準カウント値発生部383とからなる構成部分は、図7に示した第1の実施形態の連続関連音先頭期間検出部35のカウンタ351と、比較部352と、基準カウント値発生部353とからなる構成部分と同一である。すなわち、第3の実施形態における連続関連音先頭期間検出部38は、図7に示した第1の実施形態の連続関連音先頭期間検出部35とは、アンドゲート384を備える点のみが異なる。
この第3の実施形態では、連続関連音区間検出フラグSFLGと声区間検出フラグVFLGとがアンドゲート384に供給されて、両フラグの論理積出力がアンドゲート384から得られる。このアンドゲート384の論理積出力が、カウンタ381のイネーブル端子ENに供給される。
したがって、この第3の実施形態では、カウンタ384は、連続関連音区間であり、かつ、声区間でのみ、クロック信号CLKをカウントする。このため、この第3の実施形態における先頭期間検出フラグHDで示される連続関連音区間の先頭期間は、第1の実施形態や第2の実施形態のように一定期間ではなく、連続関連音区間中の声区間に応じたものとなる。
例えば、アンプ32からの加算出力信号Smが、図28(A)に示すようなものであった場合を考える。図28(A)においても、等間隔の縦線を付した部分が人声区間であり、黒塗りで示した部分は、声以外区間である。
この場合、エンベロープ検出部33からのエンベロープ信号Semvは、図28(J)に示すようなものとなる。
図28(A)の加算出力信号Smにおいても、時間的に近接する音声信号有り区間が、連続関連音区間検出部34で検出されるので、図28(B)に示すような連続関連音区間検出フラグSFLGが得られる。
また、声区間検出部37で加算出力信号Sm中の声区間が検出されるので、声区間検出部37からは、図28(C)に示すような声区間検出フラグVFLGが得られる。
そして、連続関連音区間になると連続関連音先頭期間検出部38のカウンタ381がクロック信号CLKのカウントを開始し、そのカウント値CNTが図9(C)に示すように徐々に上昇する。
ただし、この第3の実施形態では、アンドゲート384の論理積出力がカウンタ381のイネーブル端子ENに供給されているので、連続関連音区間であって、かつ、声区間であるときにのみ、カウンタ381はクロック信号CLKのカウントを行う。したがって、カウンタ381のカウント値出力CNTは、図28(D)に示すようなものになる。
そして、連続関連音先頭期間検出部38では、連続関連音区間の先頭からカウント値CNTが閾値カウント値に到達するまでの期間を検出し、当該期間を示す先頭期間検出フラグHDを出力する。したがって、先頭期間検出フラグHDは、図28(E)に示すようなものとなる。
[声平均レベル生成部39の構成例]
声平均レベル生成部39は、この実施形態では、図27に示すような構成を備えるものとされる。この声平均レベル生成部39は、選択部391と、積分部392と、積分時定数変更制御部393と、アンドゲート394とからなる。
選択部391と、積分部392と、積分時定数変更制御部393からなる構成は、図8に示した第1の実施形態における平均レベル生成部36の選択部361と、積分部362と、積分時定数変更制御部363からなる構成と同様である。そして、それらの各部はそれぞれ同様の処理動作を行う。
この声平均レベル生成部39においては、図8の第1の実施形態の平均レベル生成部36とは、声区間検出フラグVFLGが、選択部391における選択動作に関与すると共に、積分時定数変更制御部393による積分時定数の変更制御にも関与する点が異なる。
すなわち、エンベロープ検出部33からのエンベロープ信号Semvが、選択部391の一方の入力端に供給されると共に、積分部392の出力信号が、選択部391の他方の入力端に供給される。そして、選択部391の出力が積分部392に供給される。
また、連続関連音区間検出フラグSLFGと、声区間検出フラグVFLGとがアンドゲート394に供給される。そして、このアンドゲート394の出力が、選択信号として選択部391に供給される。
さらに、積分時定数変更制御部393には、先頭期間検出フラグHDに加えて、声区間検出フラグVFLGが供給される。
選択部391は、アンドゲート394の出力により、連続関連音区間内の声区間では、エンベロープ検出部33からのエンベロープ信号Semvを選択して積分部392に供給する。また、選択部391は、連続関連音区間内の声区間以外では、積分部392の出力信号を選択して積分部392に供給する。
したがって、積分部392は、連続関連音区間内の声区間では、前述の実施形態と同様に、エンベロープ検出部33からのエンベロープ信号Semvを積分して平均化した信号を生成する。また、積分部392は、連続関連音区間内の声区間以外では、自積分部392の出力レベル信号を維持(ホールド)する。
すなわち、図28(F)で太線区間として示すように、連続関連音区間フラグSFLGが“0”である非連続関連音区間と、声検出フラグVFLGが“0”である声以外区間は、積分部362の積分出力がホールドされるホールド期間となる。
そして、積分部392の積分時定数が、積分時定数変更制御部393により、次のように変更される。
すなわち、積分時定数変更制御部393は、先頭期間検出フラグHDが“1”である連続関連音区間の先頭期間のうちの、声検出フラグVFLGが“1”である声区間では、積分部392の積分時定数を小さい値に設定する。例えば、積分時定数N=100に設定する。これは、図28の例においては、図28(G)で太線区間として示す第1時定数期間となる。
また、積分時定数変更制御部393は、連続関連音区間の先頭期間の後の期間では、声検出フラグVFLGが“1”である声区間で、積分部392の積分時定数を大きい値に設定する。例えば、積分時定数N=1000に設定する。これは、図28の例においては、図28(H)で太線区間として示す第2時定数期間となる。
そして、声平均レベル生成部39からは、図28(I)に示すような声平均レベル信号Vavr3が得られ、ゲイン制御信号生成部23に供給される。
そして、ゲイン制御信号生成部23で生成されたゲイン制御信号は可変ゲインアンプ21L,21Rに供給される。可変ゲインアンプ21L,21Rでは、このゲイン制御信号により、入力音声信号SiLおよびSiRの声平均レベルが、基準レベルとなるようにゲイン制御される。
図28の例においては、声平均レベル信号Vavr3は、図28(I)に示すようなものとなるので、この声平均レベル信号Vavr3が、基準レベルとなるようにゲイン制御される。その結果、可変ゲインアンプ21L,21Rからの出力音声信号SoLまたはSoRは、ほぼ一定となるようにゲイン制御されたものとなる。
以上説明したようにして、第3の実施形態によれば、入力音声信号のうち、声区間検出フラグVFLGにより示される声区間の平均レベルを求め、この平均レベルが基準レベルとなるようにゲイン制御する。したがって、入力音声信号に含まれる台詞など、人声のレベルは、常に一定になるように制御されるので、台詞などが聞き易くなる。
なお、上述の第3の実施形態では、声区間検出部37では、人声区間を検出するための3種の特徴量に基づく3つのフラグFLGa,FLGb,FLGcを生成し、その論理積をとることによって、人声の区間の検出出力である声区間検出フラグFLGを生成した。
しかし、処理を簡略化する場合には、上記3種の特徴量のいずれか一つに基づいて生成したフラグを、声区間検出フラグFLGとしても良い。また、3種の特徴量のうちの2つを組み合わせて、それら2種の特徴量に基づいて生成されるフラグの論理積をとることにより、声区間検出フラグFLGを生成するようにしてもよい。
そして、3種の特徴量のうちのいずれか一つまたは2つを組み合わせを用いる場合において、その選択のための選択操作手段を設けて、ユーザが当該選択操作手段を用いて手動で選択するようにすることができるようにしても、勿論よい。
また、声区間検出部37に、さらに、入力音声信号Smのうちの無音を検出する無音検出部を設け、この無音検出部で検出した無音の区間は、声区間検出フラグFLGをマスクして、当該無音区間は声区間としないようにすることもできる。この場合には、信号のない、または暗騒音部分を除外することができるので、声区間の検出精度を、さらに高めることができる。
なお、声区間を検出するための声信号についての特徴量としては、上述の3種に限られるものではなく、その他の特徴量を用いることもできることは言うまでもない。
[音量補正装置の第4の実施形態]
この第4の実施形態は、上述した第3の実施形態の変形例である。上述の第3の実施形態では、連続関連音区間の先頭期間における平均レベル検出時定数は、1種類のみとした。これに対して、この第4の実施形態では、前の連続関連音区間の平均レベルから、後の連続関連音区間の平均レベルが上昇したか、あるいは下降したかに応じて、連続関連音区間の先頭期間における平均レベル検出時定数を変えるようにする。
つまり、この第4の実施形態は、第3の実施形態に対して、前述した第1の実施形態の変形例である第2の実施形態に対応するものである。
この第4の実施形態は、第3の実施形態とは、声平均レベル生成部39の構成のみが異なる。この第4の実施形態の場合の声平均レベル生成部39の構成例を、図29に示す。第4の実施形態では、この声平均レベル生成部39以外の平均レベル検出部22のその他の部分の構成は、上述した第3の実施形態の場合と全く同様である。
この第4の実施形態における声平均レベル生成部39は、図29に示すように、選択部391と、積分部392と、アンドゲート394と、比較部395と、積分時定数変更制御部396とからなる。選択部391と、積分部392と、アンドゲート394とは、図27に示した第3の実施形態の場合におけるそれらと同一の構成を有するので、同一参照番号を付した。
この第4の実施形態では、エンベロープ信号Semvと、積分部392のこの例の積分出力である平均レベル出力Vavr4とが比較部395に供給される。積分部392の積分出力である平均レベル出力Vavr4は、一つ前の連続関連音区間の平均レベルを示していることになる。また、エンベロープ信号Semvは、今回の連続関連音区間の平均レベルに対応する信号である。
したがって、比較部395では、今回の連続関連音区間の音声信号の平均レベルが、前の連続関連音区間の音声信号の平均レベルよりも大きくなっているか、あるいは小さくなっているかを検出する。
そして、比較部395は、その比較結果出力を積分時定数変更制御部396に供給される。この積分時定数変更制御部396には、第3の実施形態と同様に、連続関連音先頭期間検出部35からの先頭期間検出フラグHDも供給されている。
この例では、積分時定数変更制御部396では、連続関連音区間の先頭期間において、比較部395からの比較結果出力が、今回の平均レベルが前回よりも大きいことを示しているときには、前記先頭期間での積分部392の積分時定数を大きい値とする。また、比較部364の比較結果出力が、今回の平均レベルが前回よりも低いことを示しているときには、前記先頭期間での積分部392の積分時定数を小さい値とする。
その他の処理は、第3の実施形態と全く同様となる。図30のタイミングチャートを参照しながら、この第4の実施形態における平均レベル検出部22での処理動作を説明する。
図30(A)〜(F)は、図28(A)〜(F)に示した第3の実施形態の各信号やフラグと全く同様となる。また、図30(H)に示すように、連続関連音区間の先頭期間以外の期間においては、先頭期間よりも大きい平均レベル検出時定数(この例では、大きい積分時定数)、例えばN=1000とするのは、第3の実施形態と同様(図28(H)参照)である。
この第4の実施形態では、比較部395は、図30(I)および(J)に示すように、連続関連音区間の先頭期間Phd1、Phd2、Phd3のそれぞれにおいて、積分部392の積分出力Vavr4と、エンベロープ信号Semvとを比較する。そして、その比較結果出力に応じて、図30(G)に示すように、積分時定数変更制御部396により、積分部392の第1時定数期間(先頭期間)の時定数を制御する。
すなわち、図30の例では、比較部395は、1番目の先頭期間Phd1では、積分出力Vavr4と、エンベロープ信号Semvとは等しいので、その旨の比較結果出力を積分時定数変更制御部396に供給する。すると、積分時定数変更制御部396は、このときには、積分部392の連続関連音区間の先頭期間における第1時定数(積分時定数)を、先頭期間の時定数としては大きい時定数、例えばN=120とする。
次に、2番目の先頭期間Phd2では、今回の平均レベルであるエンベロープ信号Semvのレベルの方が、前の連続関連音区間の平均レベルである積分出力Vavr4よりも小さいので、比較部395は、その旨の比較結果出力を積分時定数変更制御部396に供給する。すると、積分時定数変更制御部396は、このときには、積分部392の連続関連音区間の先頭期間における第1時定数(積分時定数)を、先頭期間の時定数としては、小さい時定数、例えばN=80とする。これにより、2番目の先頭期間Phd2では、より迅速に音声信号のレベルに追従するように積分部392での積分動作がなされる。つまり、小さい音を一定レベルまで上昇させるような音量制御がかかる。
また、3番目の先頭期間Phd3では、エンベロープ信号Semvのレベルが、積分出力Vavr4よりも大きくなっているので、比較部395は、その旨の比較結果出力を積分時定数変更制御部396に供給する。すると、積分時定数変更制御部396は、このときには、積分部392の連続関連音区間の先頭期間における第1時定数(積分時定数)を、先頭期間の時定数としては大きい時定数とする。これにより、大きくなった音声信号レベルを、レベル変化時点での音揺れを生じることなく、一定レベルに抑圧するような音量制御がかかる。
以上説明した第4の実施形態の音量補正装置によれば、第3の実施形態の効果を奏する上に、前連続関連音区間とのレベル差を速やかに補正すると共に、音声信号のレベル変化に伴う揺れを抑えた音量補正が可能となる。
[音量補正装置の第5の実施形態]
上述の第3および第4の実施形態では、人声信号の平均レベルが基準レベルとなるように入力音声信号をゲイン制御するので、人声信号の平均レベルが低い場合には、入力音声信号全体のゲインを大きくするように制御する。このため、人声以外の音声成分のレベルが、人声信号のレベルよりも大きく、かつ、両者の差が大きい場合には、人声以外の音声成分の音量が大きくなりすぎる場合がある。また、人声の無いコンテンツの場合にも、人声以外の音の音量が著しく大きくなってしまうことがある。
この第5の実施形態は、上記の問題点を改善した例である。以下に示す第5の実施形態は、第3および第4の実施形態と同様に、図2に示したテレビ放送受信機における音量補正部18に適用した場合である。
図31は、この第5の実施形態としての音量補正部18の全体の構成例を示すブロック図であり、上述の第3の実施形態に適用した場合である。この図31において、図12に示した第3の実施形態の音量補正部18の場合と同一部分には、同一符号を付すこととする。
この第5の実施形態においては、前述した第3の実施形態における声平均レベル生成部39の他に、声以外平均レベル生成部71を設けると共に、総合平均レベル生成部72を設ける。声以外平均レベル生成部71は、加算出力信号Sm中の声以外の信号区間の平均レベル信号NVavrを生成する。
この声以外平均レベル生成部71は、この実施形態では、ハードウエア構成的には、図27に示した声平均レベル生成部39と同様の構成を備える。
この声以外平均レベル生成部71には、声平均レベル生成部39と同様に、エンベロープ信号Semvと、連続関連音区間検出フラグSFLGと、先頭期間検出フラグHDが供給される。そして、この声以外平均レベル生成部71には、声区間検出部37からの声区間検出フラグVFLGが極性反転回路73を通じて極性判定された声区間以外検出フラグNVFLGが供給される。つまり、声以外平均レベル生成部71は、声区間以外検出フラグNVFLGが、声区間検出フラグVFLGに代わって供給される点以外は、声平均レベル生成部39と全く同様の構成となる。
そして、声以外平均レベル生成部71では、声区間以外検出フラグNVFLGが、声区間検出フラグVFLGに代わって供給される結果、連続関連音区間では、声以外区間の音声信号が積分されて、その平均レベルが検出生成されることになる。
そして、この声以外平均レベル生成部71の出力信号である声以外平均レベル信号NVavrと、声平均レベル生成部39の出力信号である声平均レベル信号Vavr3とが、総合平均レベル生成部72に供給される。
総合平均レベル生成部72は、声平均レベル信号Vavr3と声以外平均レベル信号NVavrとから、その合成レベル信号GVavrを生成する。
この実施形態では、総合平均レベル生成部72は、声平均レベル信号Vavr3よりも、声以外平均レベルNVavrが所定以上大きいか否か判別する。そして、総合平均レベル生成部72は、声平均レベル信号Vavr3よりも、声以外平均レベルNVavrが所定以上大きくはないと判別したときには、声平均レベル信号Vavr3を、合成レベル信号GVavrとして出力する。また、総合平均レベル生成部72は、声平均レベル信号Vavr3よりも、声以外平均レベルNVavrが所定以上大きいと判別したときには、声以外平均レベルNVavrを、合成レベル信号GVavrとして出力する。
そして、総合平均レベル生成部72は、生成した合成レベル信号GVavrをゲイン制御信号生成部23に供給する。
したがって、この第5の実施形態では、ゲイン制御信号生成部23は、総合平均レベル検出生成部72からの合成レベル信号のレベルが、基準レベルとなるようにするゲイン制御信号を生成して、可変ゲインアンプ21L,21Rに供給するようにする。
<総合平均レベル生成部72>
図32に、この実施形態における総合平均レベル生成部72の構成の一例を示す。
この実施形態の総合平均レベル生成部72は、選択部721と、重み付け用アンプ722と、レベル比較部723とからなる。選択部721の一方の入力端Aには、声平均レベル生成部39からの声平均レベル信号Vavr3が供給されると共に、選択部721の他方の入力端Bには、声以外平均レベル生成部71からの声以外平均レベル信号NVavrが供給される。
また、レベル比較部723には、声平均レベル生成部39からの声平均レベル信号Vavr3が重み付け用アンプ722を通じて重み付けされた信号と、声以外平均レベル生成部71からの声以外平均レベル信号NVavrが供給される。
アンプ722における重みは、人声以外の音声成分のレベルが、それ以上になると、ゲイン制御により音量が大きくなりすぎるとされるレベルに相当するレベルを設定するためのものであり、この例では、2倍(×2)とされる。
そして、レベル比較部723において両信号がレベル比較され、その比較結果出力CMPが、選択部721に、その選択制御信号として供給される。ここで、比較結果出力CMPは、声平均レベル信号Vavr3の2倍の閾値レベル値θthよりも、声以外平均レベル信号NVavrの値が小さいときには、選択部721から一方の入力端A側に入力されている声平均レベル信号Vavr3を出力する値、例えば「1」となる。
また、比較結果出力CMPは、声以外平均レベル信号NVavrの値が、声平均レベル信号Vavr3の2倍の閾値レベル値θth以上のときには、選択部721から他方の入力端B側に入力されている声以外平均レベル信号NVavrを出力する値、例えば「0」となる。
したがって、選択部721からは、声以外平均レベル信号NVavrが、声平均レベル信号Vavr3の2倍のレベル値を超えない範囲(NVavr<2Vavr3)では、声平均レベル信号Vavr3が選択されて、ゲイン制御信号生成部23に供給される。
これにより、前記範囲(NVavr<2Vavr3)では、第3の実施形態と同様にして、声平均レベル信号Vavr3が基準レベルとなるように、可変ゲインアンプ21L,21Rがゲイン制御され、常に、台詞など人声が聞き易い状態にレベル制御される。
また、声以外平均レベル信号NVavrが、声平均レベル信号Vavr3の2倍のレベル値を超える範囲(NVavr≧2Vavr3)では、選択部721からは、声以外平均レベル信号NVavrが選択されて、ゲイン制御信号生成部23に供給される。これにより、前記範囲(NVavr≧2Vavr3)では、声以外平均レベル信号NVavrが基準レベルとなるように、可変ゲインアンプ21L,21Rがゲイン制御され、声以外の音が異常に大きくなるのが防止される。
図33を参照して、この第5の実施形態における平均レベル検出部22の動作を説明する。
すなわち、この第5の実施形態においても、加算出力信号Smが図33(A)に示すようなものである場合、連続関連音区間検出フラグSFLGは、図33(B)に示すようなものとなり、また、声検出フラグVFLGは図33(C)に示すようなものとなる。更に、先頭期間検出フラグHDは、図33(D)に示すようなものとなる。
そして、この図33の例の場合には、声平均レベル信号Vavr3は、図33(E)に示すようなものとなると共に、声以外平均レベル信号NVavrは、図33(F)に示すようなものとなる。
したがって、総合平均レベル信号GVavrは、図33(G)に示すようなものとなる。すなわち、声以外平均レベル信号NVavrが、声平均レベル信号Vavr3の2倍の閾値レベルθthよりも小さいのときには、総合平均レベル生成部72からの総合平均レベル信号GVavrとしては、声平均レベル信号Vavr3が出力される。
また、声以外平均レベル信号NVavrのレベルが、声平均レベル信号Vavr3の2倍の閾値レベルθth以上のときには、総合平均レベル生成部72からの総合平均レベル信号GVavrとしては、声以外平均レベル信号NVavrが出力される。これにより、声以外の音が異常に大きくなるのが防止される。
[総合レベル生成部72の他の例]
図32においては、声以外平均レベル信号NVavrと、声平均レベル信号Vavr3を重み付けしたものとを比較し、その比較出力により、声以外平均レベル信号NVavrと、声平均レベル信号Vavr3とのいずれかをゲイン制御信号生成部23に供給するようにした。
しかし、図32の声平均レベル生成部39と、声以外平均レベル生成部71および総合平均レベル生成部72の構成部分は、図34のように構成することもできる。
図34の例においては、図31の例と同様に、声以外平均レベル生成部71が設けられる。また、図34の例においては、声平均レベル生成部39および総合平均レベル生成部72の代わりに、総合平均レベル生成部73が設けられる。
総合平均レベル生成部73は、図34に示すように、声平均レベル生成部39と同様に、選択部731と積分部732と、積分時定数変更制御部733と、アンドゲート734とを備える。また、総合平均レベル生成部73は、重み付け用アンプ735と、比較部736とを備える。
そして、選択部731の入力端Aには、積分部732の出力信号(総合平均レベル信号GVavr)が供給される。そして、選択部731の入力端Bには、エンベロープ検出部33からのエンベロープ信号Semvが供給される。また、この選択部731の選択制御端子SELには、アンドゲート734からの連続関連音区間検出フラグSFLGと声検出フラグVFLGとの論理積出力が供給される。
そして、選択部731で、アンドゲート734の論理積出力に応じて選択された出力信号が積分部732に供給される。また、積分部732の出力信号は、重み付け用アンプ735により、この例では、2倍のレベルとされた後、比較部736に供給される。比較部736には、声以外平均レベル生成部71の積分部712の出力信号である声以外平均レベル信号NVavrが供給される。
また、声以外平均レベル生成部71の積分部712の出力信号である声以外平均レベル信号NVavrが、積分部732に供給されると共に、比較部736の比較結果の出力信号CTLが積分部732に供給される。積分部732では、比較部736の出力信号CTLにより、後述する条件になったときに、保持する積分出力値を、声以外平均レベル生成部71からの声以外平均レベル信号NVavrに変更する処理をする。
この図34の例の処理動作について以下に説明する。
この図34の例においては、総合平均レベル生成部73と、声以外平均レベル生成部71とにおいては、それぞれエンベロープ検出部33からのエンベロープ信号Semvについて、前述したような積分動作を行う。
ただし、総合平均レベル生成部73においては、声区間検出フラグVFLGで示される声区間では、選択部731からエンベロープ信号Semvが出力され、積分部732で、総合平均レベルGVavrを初期値とする積分動作がなされる。そして、声区間以外では、選択部731から積分部732の出力信号が出力され、積分部732の出力としては、総合平均レベルGVavrの値が保持(前置ホールド)される。
一方、声以外平均レベル生成部71では、声以外検出フラグNVFLGで示される声以外区間では、選択部711からエンベロープ信号Semvが出力され、積分部712で、声以外平均レベル信号NVavrを初期値とする積分動作がなされる。そして、声区間では、選択部711から積分部712の出力信号が出力され、積分部712の出力としては、声以外平均レベル信号NVavrの値が保持(前置ホールド)される。
そして、比較部736は、アンプ735を通じた総合平均レベル生成部73からの総合平均レベル信号GVavrの2倍の値と、声以外平均レベル生成部71からの声以外平均レベル信号NVavrとを比較し、その比較出力CTLを積分部732に供給する。
積分部732は、この比較出力CTLを参照し、声以外平均レベル信号NVavrが、総合平均レベル信号GVavrの2倍のレベル値を超えない範囲(NVavr<2GVavr)か、超える範囲(NVavr≧2GVavr)であるかを判別する。
そして、積分部732は、超えない範囲(NVavr<2GVavr)であると判別すると、積分結果を保持する保持部の値は切り替えずに、第3の実施形態と同様に声平均レベル信号Vavr3を、総合平均レベル信号GVavrとして生成して出力する処理を行う。
すなわち、積分部732は、比較部736からのCTLが、NVavr<2GVavrであることを示す状態であるときには、声以外平均レベル生成部71からの声以外平均レベル信号NVavrは無視して、第3の実施形態と同様の処理を行う。
また、積分部732は、超える範囲(NVavr≧2GVavr)であると判別すると、積分結果を保持する保持部の値を、声以外平均レベル信号NVavrに変更する。したがって、前記超える範囲(NVavr≧2GVavr)では、声以外平均レベル信号NVavrが積分部732の出力とされる状態となる。
そして、前記超えない範囲(NVavr<2GVavr)に戻ると、積分部732は、比較出力CTLにより、積分結果を保持する保持部の値を、声以外平均レベル信号NVavrにする動作を停止して、選択部731からの出力を積分する処理状態に戻る。
この図34の例では、こうして積分部732から得られる出力信号を総合平均レベル信号GVavrとして、ゲイン制御信号生成部23に供給する。ゲイン制御信号生成部23では、この総合平均レベル信号GVavrが基準レベルとなるようなゲイン制御信号を生成する。
なお、上述した第5の実施形態は、第3の実施形態に適用した場合であるが、第4の実施形態に適用することもできることは言うまでもない。
[他の実施形態および変形例]
以上の実施形態は、入力音声信号について、リアルタイムで声平均レベルや声以外平均レベルを検出して、ゲイン制御するようにした場合である。しかし、この発明は、リアルタイム処理の場合のみに適用されるわけではない。
例えば記録媒体に記録された音声信号について、声平均レベルや声以外平均レベルを検出して、ゲイン制御信号を生成して、それを記録信号に対応付けて記録するようにすることもできる。その場合には、再生時には、当該記録されているゲイン制御信号を用いて、再生音声信号を音量制御するようにすることができる。
図35は、例えばハードディスクやDVD(Digital Versatile Disc)などの記録媒体に、テレビ放送信号を記録することができる記録再生装置に、この発明を適用した場合のブロック図である。
すなわち、この図35の例の記録再生装置80においては、放送記録系81と、再生系82と、レベル補正ゲイン生成部83と、制御部84と、操作部85とを備える。操作部85は、例えばリモコン送受信部からなる。制御部84は、例えばマイクロコンピュータを搭載して構成され、操作部85からの操作入力に応じた制御を、記録再生装置80の各部に対して行う。
レベル補正ゲイン生成部83は、上述した実施形態における平均レベル検出部22と、ゲイン制御信号生成部23とからなる。
操作部85を通じてユーザにより記録指示操作があると、制御部84は、放送記録系81を制御して、記録指示された放送番組の記録を実行する。
放送記録系81においては、放送受信部811で記録指示された放送番組の放送波信号を受信し、デコード部812に供給する。デコード部812では、この例では、受信信号から映像信号V1と、音声信号A1とがデコードされて出力される。ここで、音声信号A1は、例えば左右2チャンネル音声信号とされる。
このデコード部812からの映像信号V1および音声信号A1は、記録エンコード部813で記録エンコードされた後、書き込み部815を通じて記録媒体816に記録される。記録媒体816は、例えばハードディスク装置が用いられる。
操作部85には、この例では、記録媒体816に記録されている放送番組コンテンツを指定するためのキーおよびレベル補正ゲイン生成指示キーが設けられている。ユーザにより、記録されている放送番組コンテンツの指定がなされ、レベル補正ゲイン生成指示キーが操作されると、制御部84は、指定された放送番組コンテンツの音声信号についての再生音量を適正にするためのレベル補正ゲイン生成処理を実行するようにする。
すなわち、制御部84は、前記レベル補正ゲイン生成指示キーの操作入力に基づき、再生系の読み出し部821と、再生デコード部822と、レベル補正ゲイン生成部83および書き込み部815を動作状態に制御する。
そして、制御部84は、読み出し部821を制御して、記録媒体816から指定された放送番組の記録信号を読み出す。読み出し部821は、読み出した記録信号を再生デコード部822に供給する。再生デコード部822は、記録信号を再生デコードして、再生映像信号V2および再生音声信号A2を出力する。
この再生デコード部822からの再生音声信号A2は、レベル補正ゲイン生成部83に供給される。このレベル補正ゲイン生成部83では、上述の第1の実施形態または第2の実施形態で説明したようにして、ゲイン制御信号が生成される。
そして、レベル補正ゲイン生成部83は、生成したゲイン制御信号を書き込み部815に供給する。書き込み部815は、制御部84の制御を受けながら、レベル補正ゲイン生成部83からのゲイン制御信号を、再生中の記録信号に対応付けて記録媒体816に記録するようにする。
次に、操作部85を通じてユーザにより再生指示操作があると、制御部84は、再生系82を制御して、再生指示された放送番組の再生を実行する。
すなわち、制御部84は、読み出し部821を制御して、記録媒体816から指定された放送番組の記録信号と、対応付けられて記録されているゲイン制御信号とを読み出す。読み出し部821は、読み出した記録信号を再生デコード部822に供給すると共に、読み出したゲイン制御信号をゲイン制御信号再生部826に供給する。
再生デコード部822は、記録信号を再生デコードして、再生映像信号V2および再生音声信号A2を得る。そして、再生映像信号V2を映像信号処理部823を通じ、映像出力端827を通じて出力する。出力端827には、表示装置が接続され、その表示画面に、放送番組の再生映像が映出される。
また、再生デコード部822からの再生音声信号は、音声信号処理部824を通じて可変ゲインアンプ825に供給される。
一方、ゲイン制御信号再生部826では、読み出し部821からの信号から、ゲイン制御信号が再生される。そして、ゲイン制御信号再生部826は、再生したゲイン制御信号を可変ゲインアンプ825に供給して、そのゲインを制御するようにする。したがって、可変ゲインアンプ825から得られる音声信号は、上述した第1の実施形態および第2の実施形態と同様にして、人声が聞き易く、また、人声以外の音声が大きくなってしまうことが無いものとなる。
この可変ゲインアンプ825からの再生音声信号は、音声出力端828を通じて、スピーカに供給される。
なお、この図35の例においては、レベル補正ゲイン生成部83では、上述した実施形態と同様の構成としたが、この図35の例は、リアルタイム処理である必要は無いので、処理時間はかかるが、より高精度の構成とすることもできる。
例えば、連続関連音区間検出部34は、上述のような構成とするのではなく、FFT(Fast Fourier Transform)によるスペクトル包絡のケプストラム解析を行なうなどして、より、精密に、連続関連音区間+延長区間を検出することができる。
また、第3〜第5の実施形態を用いる場合において、記録再生装置80が、十分なバッファ容量および処理能力を持った構成である場合には、音声信号の自己相関をとりながら、ピッチ検出をして人声信号が含まれる声区間を検出するようにすることもできる。また、FFTによるスペクトル包絡のケプストラム解析を行なうなどして、より、精密に、人声信号が含まれる声区間を検出することもできる。
なお、以上の例では、音声信号は、左右2チャンネルの場合であったが、平均レベル検出部22で取り扱う対象信号が加算音声信号Smであることから、音量補正対象の音声信号は、モノーラル音声信号であっても良いことは言うまでもない。
また、最近は、音声信号は5.1チャンネルのサラウンド音声信号など、3チャンネル以上のマルチチャンネルの場合もある。このようなマルチチャンネルの場合においては、センターチャンネルに人声信号が主として含まれるので、第3〜第5の実施形態を用いる場合は、このセンターチャンネルの音声信号から、声区間を検出するようにすれば良い。
図36は、入力音声信号が5.1チャンネルのサラウンド音声信号である場合であって、第3〜第5の実施形態を用いる場合における音量補正装置の実施形態の概要を説明するための図である。
すなわち、この例においては、前方左右チャンネルの音声信号FLi,FRiは、可変ゲインアンプ921,922に供給される。また、後方左右チャンネルの音声信号RLi,RRiは、可変ゲインアンプ923,924に供給される。また、センターチャンネルの音声信号Ciは、可変ゲインアンプ925に供給される。さらに、低域専用チャンネルの音声信号LFE(Low Frequency Effect)は、可変ゲインアンプ926に供給される。
そして、センターチャンネルの音声信号Ciは、また、レベル補正ゲイン生成部91に供給される。このレベル補正ゲイン生成部91は、図35に示したレベル補正ゲイン生成部83と同様の構成を備える。ただし、このレベル補正ゲイン生成部91は、この例では、センターチャンネルの音声信号Ciを加算音声信号Smとして、上述した第3〜第5の実施形態の手法のいずれかにより、可変ゲインアンプ921〜926をゲイン制御するゲイン制御信号を生成する。
そして、可変ゲインアンプ921〜926のそれぞれから出力音声信号FLo、FRo、RLo、RRo、Co、LFoが得られ、それぞれ用のスピーカにより放音されるようにされる。
この図36の例によれば、5.1チャンネルの出力音声信号FLo、FRo、RLo、RRo、Co、LFoのそれぞれが、レベル補正ゲイン生成部91で生成されたゲイン制御信号より、ゲイン制御されたものであるので、人声が聞き易く、また、人声以外の音声が大きくなってしまうことが無いものとなる。
なお、3チャンネル以上のマルチチャンネルの音声信号が2チャンネルの音声信号にダウンミックスされて、2チャンネルの信号とされる場合には、ダウンミックス後の2チャンネルの音声信号に対してレベル補正ゲイン生成部を設ければよい。
図37は、入力音声信号が5.1チャンネルのサラウンド音声信号がダウンミックスされて2チャンネルとされる場合における音量補正装置の実施形態の概要を説明するための図である。
すなわち、図37の例においては、5.1チャンネルのサラウンド音声信号FLi、FRi、RLi、RRi、Ci、LFiのそれぞれが、ダウンミックス部93に供給されて、左右2チャンネルの音声信号Li,Riとされる。
このダウンミックス部93からの左右2チャンネルの音声信号Li,Riは、それぞれ可変ゲインアンプ951,952に供給されると共に、レベル補正ゲイン生成部94に供給される。
このレベル補正ゲイン生成部94は、図34に示したレベル補正ゲイン生成部83と同様の構成を備える。すなわち、このレベル補正ゲイン生成部94は、この例では、左右2チャンネルの音声信号Li,Riから、上述した実施形態の手法のいずれかにより、可変ゲインアンプ951,952のそれぞれをゲイン制御するゲイン制御信号を生成する。
この図37の例においても、上述と同様の作用効果を奏する。
[その他の変形例]
なお、上述の説明では、平均レベル検出部22は、デスクリートの回路部からなるハードウエア構成としたが、DSP(Digital Signal Processor)を用いた構成とすることができる。
また、平均レベル検出部22は、コンピュータのプログラムによるソフトウエア処理の構成とすることもできることは言うまでもない。その場合には、例えば図2の例においては、平均レベル検出部22は、制御部10がソフトウエア処理機能として備える。そして、図2において、点線で示したように、この制御部10からのゲイン制御信号により、音量補正部18が備える可変ゲインアンプをゲイン制御する。
なお、音声信号を、デジタル信号処理とするのであれば、可変ゲインアンプを含めた音量補正部18の全てをソフトウエア処理として構成することもできるものである。
なお、この発明による音量補正装置が適用される電子機器は、図2に示したテレビ放送受信装置に限られるものではないことは言うまでもない。
なお、上述の実施形態では、連続関連音区間は、入力音声信号のみから検出するようにした。しかし、テレビ放送番組信号のように映像信号が音声信号に関連して存在する場合に、音声有無検出結果と、映像信号の特徴量を用いて検出されるシーン変化点などの情報を合わせて用いることにより、連続関連音区間を検出するようにしてもよい。
21L,21R…可変ゲインアンプ、22…平均レベル検出処理部、23…ゲイン制御信号生成部、34…連続関連音区間検出部、35…連続関連音先頭期間検出部、36…平均レベル検出生成部、37…声区間検出部、39…声平均レベル生成部71…声以外平均レベル生成部72…総合平均レベル検出生成部

Claims (14)

  1. 入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
    前記入力音声信号中における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出手段と、
    前記連続関連音区間検出手段で検出された前記連続関連音区間の前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの区間よりも平均レベル検出時定数が小さくされた平均レベル検出手段と、
    前記平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
    を備える音量補正装置。
  2. 請求項1に記載の音量補正装置において、
    前記平均レベル検出手段は、
    前記連続関連音区間の先頭期間において、前記平均レベル検出手段で検出された前記平均レベルと前記入力音声信号の平均レベルとを比較し、その比較結果に応じて前記先頭期間における前記平均レベル検出時定数を変化させる
    音量補正装置。
  3. 入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
    前記入力音声信号中における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出手段と、
    前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
    前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段と、
    前記声平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
    を備える音量補正装置。
  4. 請求項3に記載の音量補正装置において、
    前記声平均レベル生成手段は、
    前記連続関連音区間の先頭期間において、前記声平均レベル検出手段で検出された前記平均レベルと前記入力音声信号の声区間の平均レベルとを比較し、その比較結果に応じて前記先頭期間における前記平均レベル検出時定数を変化させる
    音量補正装置。
  5. 入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
    前記入力音声信号における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出手段と、
    前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
    前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段と、
    前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段と、
    前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
    を備える音量補正装置。
  6. 請求項1〜請求項5のいずれかに記載の音量補正装置において、
    前記連続関連音区間検出手段は、
    前記入力音声信号の有無を検出する音声信号有無検出手段と、
    前記音声信号有無検出手段で検出した信号有りの区間を一定時間長だけ延長する延長手段と、
    からなる音量補正装置。
  7. 請求項6に記載の音量補正装置において、
    前記音声信号有無検出手段は、
    第1の平均レベル検出時定数で前記入力音声信号の平均レベルを検出して、第1平均レベル出力信号を出力する第1平均レベル検出手段と、
    前記第1の平均レベル検出時定数よりも大きい平均レベル検出時定数で前記入力音声信号の平均レベルを検出して、第2平均レベル出力信号を出力する第2平均レベル検出手段と、
    前記第2平均レベル検出手段からの前記第2平均レベル出力信号をレベル減衰させた信号を閾値として前記第1平均レベル出力信号と比較し、前記第1平均レベル出力信号が前記閾値よりも大きい区間の検出信号を、前記音声信号有無検出手段の信号有りの区間を示す信号として出力する比較手段と、
    を備える音量補正装置。
  8. 入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、連続関連音区間検出手段と、平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
    前記連続関連音区間検出手段が、前記入力音声信号における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出工程と、
    前記平均レベル検出手段が、前記連続関連音区間検出工程で検出された前記連続関連音区間の前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた平均レベル検出工程と、
    前記ゲイン制御信号生成手段が、前記平均レベル検出工程で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
    を有し、
    前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
  9. 入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、連続関連音区間検出手段と、声区間検出手段と、声平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
    前記連続関連音区間検出手段が、前記入力音声信号における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出工程と、
    前記声区間検出手段が、前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出工程と、
    前記声平均レベル検出手段が、前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出工程と、
    前記ゲイン制御信号生成手段が、前記声平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
    を有し、
    前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
  10. 入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、連続関連音区間検出手段と、声区間検出手段と、声平均レベル検出手段と、声以外平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
    前記連続関連音区間検出手段が、前記入力音声信号における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出工程と、
    前記声区間検出手段が、前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出工程と、
    前記声平均レベル検出手段が、前記声区間検出工程で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出工程と、
    声以外平均レベル検出手段が、前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出工程と、
    前記ゲイン制御信号生成手段が、前記声以外平均レベル検出工程で検出された声以外平均レベルが、前記声平均レベル検出工程で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出工程で検出された声以外平均レベルが、前記声平均レベル検出工程で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出工程で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
    を有し、
    前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
  11. 入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
    入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段、
    前記入力音声信号における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出手段、
    前記連続関連音区間検出手段で検出された前記連続関連音区間の前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた平均レベル検出手段、
    前記平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
    として機能させる音量補正プログラム。
  12. 入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
    入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段、
    前記入力音声信号における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出手段、
    前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段、
    前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段、
    前記声平均レベル検出手段で検出された前記平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
    として機能させる音量補正プログラム。
  13. 入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
    入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段、
    前記入力音声信号における、時間的に近接する1群の連続関連音区間を検出する連続関連音区間検出手段、
    前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段、
    前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出するものであって、前記連続関連音区間の先頭期間は、前記連続関連音区間の残りの期間よりも平均レベル検出時定数が小さくされた声平均レベル検出手段、
    前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段、
    前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
    として機能させる音量補正プログラム。
  14. 請求項1〜7のいずれかの音量補正装置を備える電子機器。
JP2009032272A 2009-02-16 2009-02-16 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器 Expired - Fee Related JP5120288B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2009032272A JP5120288B2 (ja) 2009-02-16 2009-02-16 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
US12/701,782 US8681998B2 (en) 2009-02-16 2010-02-08 Volume correction device, volume correction method, volume correction program, and electronic equipment
CN2010101074856A CN101807894B (zh) 2009-02-16 2010-02-09 音量校正装置,音量校正方法以及电子设备
EP10152994A EP2219371B1 (en) 2009-02-16 2010-02-09 Volume correction device, volume correction method, volume correction program, and electronic equipment
AT10152994T ATE552702T1 (de) 2009-02-16 2010-02-09 Lautstärkekorrekturvorrichtung, lautstärkekorrekturverfahren, lautstärkekorrekturprogramm und elektronisches gerät

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009032272A JP5120288B2 (ja) 2009-02-16 2009-02-16 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器

Publications (3)

Publication Number Publication Date
JP2010192954A JP2010192954A (ja) 2010-09-02
JP2010192954A5 JP2010192954A5 (ja) 2012-02-23
JP5120288B2 true JP5120288B2 (ja) 2013-01-16

Family

ID=42101638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009032272A Expired - Fee Related JP5120288B2 (ja) 2009-02-16 2009-02-16 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器

Country Status (5)

Country Link
US (1) US8681998B2 (ja)
EP (1) EP2219371B1 (ja)
JP (1) JP5120288B2 (ja)
CN (1) CN101807894B (ja)
AT (1) ATE552702T1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102591447B1 (ko) * 2017-07-18 2023-10-19 하만 베커 오토모티브 시스템즈 게엠베하 음성 신호 레벨링

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4538494B2 (ja) * 2007-12-27 2010-09-08 Okiセミコンダクタ株式会社 音響効果回路及び処理方法
JP4826625B2 (ja) * 2008-12-04 2011-11-30 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP4844622B2 (ja) * 2008-12-05 2011-12-28 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器、音響装置
US8976973B2 (en) * 2010-06-18 2015-03-10 Panasonic Intellectual Property Corporation Of America Sound control device, computer-readable recording medium, and sound control method
JP5716595B2 (ja) * 2011-01-28 2015-05-13 富士通株式会社 音声補正装置、音声補正方法及び音声補正プログラム
US9130683B2 (en) * 2011-03-07 2015-09-08 Texas Instruments Incorporated Silence based attenuation for enhanced idle-channel FM or other receiver co-existence with a coexisting radio and circuits, processes, and systems
US9685921B2 (en) 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
US10027303B2 (en) 2012-11-13 2018-07-17 Snell Advanced Media Limited Management of broadcast audio loudness
GB2510323B (en) * 2012-11-13 2020-02-26 Snell Advanced Media Ltd Management of broadcast audio loudness
JP6105929B2 (ja) 2012-12-27 2017-03-29 キヤノン株式会社 音声処理装置及びその制御方法
JP2014168228A (ja) * 2013-01-30 2014-09-11 Yamaha Corp 放音装置
CN104486668B (zh) * 2014-11-20 2018-06-19 深圳市金立通信设备有限公司 一种音量调节方法
CN104505106B (zh) * 2014-11-20 2018-06-19 深圳市金立通信设备有限公司 一种终端
JP6518957B2 (ja) * 2015-09-14 2019-05-29 パナソニックIpマネジメント株式会社 音声信号処理装置及びそれを用いた撮像装置
US9860644B1 (en) 2017-04-05 2018-01-02 Sonos, Inc. Limiter for bass enhancement
KR102510899B1 (ko) * 2018-01-07 2023-03-16 그레이스노트, 인코포레이티드 볼륨 조절을 위한 방법 및 장치
CN112333534B (zh) * 2020-09-17 2023-11-14 深圳Tcl新技术有限公司 杂音消除方法、装置、智能电视系统及可读存储介质

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4739514A (en) 1986-12-22 1988-04-19 Bose Corporation Automatic dynamic equalizing
DE3837538C2 (de) 1988-02-03 1996-10-17 Pioneer Electronic Corp Lautstärkesteuerschaltung mit Frequenzgangkompensation für ein Audiowiedergabegerät eines Kraftfahrzeugs
JPH01311709A (ja) 1988-06-10 1989-12-15 Hitachi Ltd 自動利得制御回路
JPH039700A (ja) 1989-06-06 1991-01-17 Clarion Co Ltd 3スピーカシステム
JPH04303900A (ja) 1991-03-29 1992-10-27 Nagano Japan Radio Co 音声検出装置
DE4314767A1 (de) 1993-05-05 1994-11-10 Philips Patentverwaltung Schaltungsanordnung zum Regeln der Amplitude eines Tonsignals
JP3573797B2 (ja) 1994-06-16 2004-10-06 三洋電機株式会社 ステレオ音声再生装置
JPH08222979A (ja) 1995-02-13 1996-08-30 Sony Corp オーディオ信号処理装置、およびオーディオ信号処理方法、並びにテレビジョン受像機
GB9505946D0 (en) 1995-03-23 1995-05-10 Rca Thomson Licensing Corp Automatic sound level control
JPH08292787A (ja) 1995-04-20 1996-11-05 Sanyo Electric Co Ltd 音声・非音声判別方法
AUPO842897A0 (en) 1997-08-06 1997-08-28 Imaging Technologies Pty Ltd Product vending
CA2328353A1 (en) 1998-04-14 1999-10-21 Hearing Enhancement Company, Llc User adjustable volume control that accommodates hearing
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6249757B1 (en) * 1999-02-16 2001-06-19 3Com Corporation System for detecting voice activity
CN1442029A (zh) 2000-07-17 2003-09-10 皇家菲利浦电子有限公司 用于衍生诸如定向和中心信号的辅助音频信号的立体声音频处理设备
JP2002101002A (ja) 2000-09-21 2002-04-05 Casio Comput Co Ltd 放送受信装置
JP2003084790A (ja) 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
US7257231B1 (en) 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
JP4321049B2 (ja) 2002-07-29 2009-08-26 パナソニック電工株式会社 自動利得制御装置
CN1507293A (zh) 2002-12-09 2004-06-23 Ӣҵ�O�ţ��Ϻ������Ӽ������޹�˾ 智能化调节移动通讯装置耳机音量的方法
US7251337B2 (en) 2003-04-24 2007-07-31 Dolby Laboratories Licensing Corporation Volume control in movie theaters
JP4013906B2 (ja) 2004-02-16 2007-11-28 ヤマハ株式会社 音量制御装置
JP2006171663A (ja) 2004-12-18 2006-06-29 Junichi Kakumoto 復調音響信号レベル判定方式
SG124306A1 (en) 2005-01-20 2006-08-30 St Microelectronics Asia A system and method for expanding multi-speaker playback
JP4479644B2 (ja) 2005-11-02 2010-06-09 ソニー株式会社 信号処理装置および信号処理方法
JP2007158873A (ja) 2005-12-07 2007-06-21 Funai Electric Co Ltd 音声補正装置
KR101061415B1 (ko) 2006-09-14 2011-09-01 엘지전자 주식회사 다이알로그 증폭 기술을 위한 컨트롤러 및 사용자 인터페이스
JP4946305B2 (ja) 2006-09-22 2012-06-06 ソニー株式会社 音響再生システム、音響再生装置および音響再生方法
JP4336364B2 (ja) 2006-11-17 2009-09-30 三菱電機株式会社 テレビジョン受像機
EP2092789A4 (en) 2006-12-12 2009-12-23 Thx Ltd DYNAMIC SURROUND CHANNEL VOLUME CONTROL
US20100046765A1 (en) * 2006-12-21 2010-02-25 Koninklijke Philips Electronics N.V. System for processing audio data
JP4580409B2 (ja) * 2007-06-11 2010-11-10 富士通株式会社 音量制御装置および方法
JP2008310901A (ja) 2007-06-15 2008-12-25 Canon Inc 記録再生装置及び記録再生方法
JP4763657B2 (ja) 2007-06-15 2011-08-31 日本航空電子工業株式会社 リングレーザジャイロ用信号処理回路及びリングレーザジャイロ装置
EP2168237B1 (en) * 2007-07-13 2010-10-27 Dolby Laboratories Licensing Corporation Time-varying audio-signal level using a time-varying estimated probability density of the level
JP4970174B2 (ja) 2007-07-18 2012-07-04 株式会社ダイマジック ナレーション音声制御装置
JP4826625B2 (ja) 2008-12-04 2011-11-30 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP4844622B2 (ja) 2008-12-05 2011-12-28 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器、音響装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102591447B1 (ko) * 2017-07-18 2023-10-19 하만 베커 오토모티브 시스템즈 게엠베하 음성 신호 레벨링

Also Published As

Publication number Publication date
US8681998B2 (en) 2014-03-25
EP2219371A3 (en) 2011-02-16
EP2219371A2 (en) 2010-08-18
CN101807894B (zh) 2013-02-06
US20100208918A1 (en) 2010-08-19
JP2010192954A (ja) 2010-09-02
ATE552702T1 (de) 2012-04-15
CN101807894A (zh) 2010-08-18
EP2219371B1 (en) 2012-04-04

Similar Documents

Publication Publication Date Title
JP5120288B2 (ja) 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP4826625B2 (ja) 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP7150939B2 (ja) ボリューム平準化器コントローラおよび制御方法
US11749243B2 (en) Network-based processing and distribution of multimedia content of a live musical performance
JP4844622B2 (ja) 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器、音響装置
US6195438B1 (en) Method and apparatus for leveling and equalizing the audio output of an audio or audio-visual system
US9571055B2 (en) Level adjustment device and method
US9071215B2 (en) Audio signal processing device, method, program, and recording medium for processing audio signal to be reproduced by plurality of speakers
US9219455B2 (en) Peak detection when adapting a signal gain based on signal loudness
JP5316560B2 (ja) 音量補正装置、音量補正方法および音量補正プログラム
JP2012169781A (ja) 音声処理装置および方法、並びにプログラム
JP5696828B2 (ja) 信号処理装置
JP2012027101A (ja) 音声再生装置、音声再生方法、プログラム、及び、記録媒体
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
JP2012100117A (ja) 音響処理装置及び方法
JP2013114242A (ja) 音響処理装置
GB2494894A (en) Dynamic range control

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120925

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121008

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees