JP2007053661A

JP2007053661A - 音量調整装置、音量調整方法

Info

Publication number: JP2007053661A
Application number: JP2005238550A
Authority: JP
Inventors: Naoki Tamura; 直樹田村; Shobai Park; 唱培朴
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-08-19
Filing date: 2005-08-19
Publication date: 2007-03-01

Abstract

【課題】音量調整のための検出出力が得られるタイミングと、検出出力に応じた音量調整のタイミングとについて、オーディオ信号の再生時間的に一致が図られるようにして、これまでよりも良好な自動音量調整効果を得る。
【解決手段】画像と再生時間が同期するようにして再生されるべきオーディオ信号について、同期のための信号遅延処理が実行される前の段階で音量調整のための検出を行う。この検出出力に応じた音量調整は、信号遅延処理後のオーディオ信号を対象として、検出時点から所定時間遅延させたタイミングで実行させる。これにより、音量調整のための検出出力が得られるタイミングと、検出出力に応じた音量調整のタイミングとについて、オーディオ信号の再生時間的な一致が図られるようにする。
【選択図】図２

Description

本発明は、音声情報を再生するにあたっての音量調整を行う装置と、その方法に関する。

特開平７−９９４１７号公報

音声の再生システムにおいては、例えば聴感的不快さの解消、周囲に迷惑をかけないなどの配慮で、一定以上の音量レベルによる音声出力を制限するようにした音量調整機能を与えることが知られている。
このような音量調整機能を実現するための構成例を図９に示す。
再生出力されるべきオーディオ信号（音声信号）は、音量調整部３１に入力される。音量調整部３１は、入力されたオーディオ信号について、音量調整としてのレベル、ゲイン可変を行って出力する。音量調整部３１から出力されるオーディオ信号は、ここでは図示していない後段の増幅回路などによって増幅された後、例えばスピーカ、ヘッドフォンなどから出力される。

音量比較部３２は、音量調整部３１から出力されたオーディオ信号を入力して、そのレベルを所定の閾値と比較する。ここでの閾値は、例えば、過大であるとしてみなされるオーディオ信号レベルに応じて設定される。音量比較部３２において、オーディオ信号レベルが閾値を越えたとされる状態は、音量調整部３１から出力されたオーディオ信号レベルが過大であることを示している。例えば、このようにして、音量比較部３２において、オーディオ信号レベルが閾値を越えたとの比較結果を得たとされると、音量比較部３２から音量調節部３１に対して、例えばその旨を通知するようにされる。通知を受けた音量調節部３１は、入力されるオーディオ信号についてレベルを低減させて出力する。
このようにして、図９の構成では、音量調整部３１の出力に基づいて音量調整部３１における音量が可変されるように制御する、フィードバックループによる音量可変制御を行うことで、過大な音量レベルが自動的に制限されるようにしている。

しかしながら、上記図９に示したような制御系では、現在時点のオーディオ信号のレベルを検知した後に、音量調整部３１における音量調整の動作を生じることになる。つまり、オーディオ信号の再生時間位置的にみた場合、実際に音量調整が行われる再生時間位置は、レベルを検知した再生時間位置よりも後ろになる。
このために、例えば、音量調整後のオーディオ信号を再生して得られる音質について良好性が保たれない場合が生じる。例えば、オーディオ信号に、スパイク信号的な急峻な変化を示す信号成分が含まれたようなときには、このクリッピングなどに起因する比較的著しい信号波形の歪みを生じ、聴感上不自然な音になったり、音質が劣化したりする可能性がある。
このことから、例えば音量制限などの自動音量調整を行うのにあたっては、オーディオ信号についてのレベル検出と、この検出結果に基づいたオーディオ信号のレベル調整とについて、オーディオ信号の同じ再生時間位置を対象として行われるべきことが好ましいということがいえる。

そこで、本発明は上記した課題を考慮して、音量調整装置として次のように構成する。
つまり、画像の再生時間に同期して再生出力すべき音声情報を入力して、画像の再生時間との同期を図るために、所定の遅延時間により遅延させたタイミングにより出力させる遅延手段と、この遅延手段から出力される音声情報のレベルを変更する音量変更手段と、遅延手段に入力される前の音声情報のレベルに基づいて、音量調整に利用する検出信号を出力する検出手段と、検出信号に応じた音量調整のために、検出信号が出力されたとするときから所要時間分を遅延させたタイミングで、音量変更手段におけるレベル変更が実行されるように制御するタイミング制御手段とを備えることとした。

上記構成では、音声情報は、画像の再生時間に同期するようにして再生出力されるべきものであることを前提としており、この画像の再生時間との同期を図るために、音声情報を所定時間分遅延させるための入出力経路である遅延手段を備えるようにされている。
そして、音量調整のための検出信号は、上記遅延手段に入力される前段階の音声情報から得るようにして、この検出信号に基づいた実際の音量調整のためのレベル変更は、遅延手段から出力された音声情報を対象として行うようにされている。この検出信号に基づいての音量調整のためのレベル変更タイミングとしては、検出信号が出力されたとするタイミングから、所要時間分を遅延させたものとしている。この遅延時間の設定により、検出信号を出力したときの音声信号の再生時間的な位置と、音量調整が行われる音声情報の再生時間的な位置とを一致させることが可能になる。

このようにして本願発明では、検出信号を出力したときの音声信号の時間位置と、音量調整が行われる音声情報の時間位置とが一致するようにされることで、これまでよりも良好な自動音量調整制御の動作が得られることとなる。これにより、例えば自動音量調整された再生音声の品質も向上する。

図１は、本願発明を実施するための最良の形態（実施の形態）としての、ビデオ／オーディオ再生システムの構成例を示している。このビデオ／オーディオ再生システムに、本願発明に基づく音量調整装置の構成が含まれる。また、この図に示す構成は、後述する第１〜第３の実施の形態としての音量調整の構成に対して共通となるものである。

本実施の形態のビデオ／オーディオ再生システムは、図示するようにして、ビデオ／オーディオデコーダ１、ビデオ処理部２、オーディオ処理部３、表示部４、スピーカ５を備えて成るものとされる。

本実施の形態のビデオ／オーディオ再生システムにより再生するビデオ／オーディオソースは、ビデオ信号（画像情報）をデジタル化したビデオデータと、オーディオ信号（音声情報）をデジタル化したオーディオデータとが再生時間的に同期して出力されるべきものとされる。現状における例としては、ＤＶＤ−Ｖｉｄｅｏなどのフォーマットの記録データとして規定される、Ｖｉｄｅｏ（ビデオデータ）と、このＶｉｄｅｏの再生時間に対して同期すべきものとされるＡｕｄｉｏ（オーディオデータ）が、本実施の形態のビデオ／オーディオソースに該当する。

このようなビデオ／オーディオソースのデータは、例えば、圧縮符号化が施されたうえで、パケットを利用してビデオデータとオーディオデータとを多重化したストリームデータとしての構造を有する。この場合のビデオ／オーディオデコーダ１では、上記したような構造のビデオ／オーディオソースのデータからビデオデータとオーディオデータを分離抽出する。そして、分離抽出されたビデオデータとオーディオデータについて、それぞれ、圧縮符号化に対する復号処理を行って、所定型式のビデオデータ、オーディオデータとして出力するようにされる。ビデオデータはビデオ処理部２に出力され、オーディオデータは、オーディオ処理部３に出力される。

ビデオ処理部２では、入力されたビデオデータについて所要の信号処理を実行したうえで、例えば最終的には表示用のビデオデータとして表示部４に出力する。表示部４は、所定の表示デバイスを備えて成り、入力されたビデオデータに基づいて表示駆動などの所要の動作を実行することで画像表示を行う。つまり、ビデオデータが画像として再生出力される。

また、この場合のオーディオ処理部３では、入力されたオーディオ信号について所要の信号処理、増幅などを行って、スピーカ駆動信号として出力する。このスピーカ駆動信号によりスピーカが駆動されることで、オーディオ信号が音声として再生出力されることになる。
ここで、前述もしたように、ビデオ／オーディオデコーダ１から出力されるビデオデータとオーディオデータは、再生時間的に同期して出力される必要がある。なお、このようにして、画像の再生出力に対して音声を同期させることは、１つの事例として、画像内の人物が喋っている口元と、再生される音声とのタイミングが合致している状態となることにちなみ、リップシンクともいわれる。

上記リップシンクを図るために、図1のビデオ／オーディオ再生システムでは、次のような構成を採ることとしている。
一般に、ビデオデータとオーディオデータとの比較として、同じ単位再生時間あたりのデータ量については、ビデオデータのほうがオーディオデータよりもはるかに多い。そして、これに伴い、同じ単位再生時間あたりのデータの処理に要する時間としても、ビデオデータのほうがオーディオデータよりも多くなる。
図１の構成との対応では、先ず、ビデオ／オーディオデコーダ１おける復号処理の段階で、ビデオデータのほうが、オーディオデータよりも多くの処理時間を要することになる。従って、例えば同じ再生時間のデータについてのビデオ／オーディオデコーダ１からの出力タイミングは、ビデオデータのほうが、オーディオデータよりも遅れることになる。
また、ビデオ処理部２におけるビデオデータについてのビデオ信号処理と、オーディオ処理部３におけるオーディオ信号処理とについて比較してみても、前者のほうが、後者よりも多くの時間を要することになる。このことから、ビデオデータとオーディオデータとについて単純に処理を実行していったとすると、再生時間的には、ビデオ処理部２の出力のほうが、オーディオ処理部３の出力に対して相当に遅延することになる。
そこで、図１の構成の下では、オーディオ処理部３において、オーディオデータについて所要時間分の遅延を与えたうえで出力させることとしている。このオーディオデータの遅延時間は、上記している、オーディオ処理部３の出力に対する、再生時間的なビデオ処理部２の出力の遅延がキャンセルされるようにすることを考慮して設定される。
このようにして、オーディオ処理部３において所定の遅延時間が与えられるようにしてオーディオデータが出力されることで、ビデオ信号処理部２のビデオ出力と、オーディオ処理部３のオーディオ出力との再生時間が一致することとなって、表示部４にて表示される画像と、スピーカ５から出力される音声とのリップシンクが図られることになる。なお、ここでは、説明の便宜上、ビデオ信号処理部２の出力に基づいて表示部４が画像を表示するのに要する時間と、オーディオ処理部３の出力によりスピーカ５から音声を出力するのに要する時間とは一致するものであることとしている。

図２は、第１の実施の形態としての音量調整の構成を含む、オーディオ処理部３の内部構成例を示している。この場合のオーディオ処理部３は、第１オーディオプロセッサ１１、メモリ１２、第２オーディオプロセッサ／増幅部１３、音量比較部１４、閾値設定部１５、遅延部１６を備えて成るものとされる。
第１オーディオプロセッサ１１は、オーディオデータを入力して、例えばデジタル信号処理により、所定の周波数帯域フィルタ処理、サラウンド対応のための信号処理、演算処理、ゲイン調整などをはじめとする所要の処理を実行する。なお、第１オーディオプロセッサ１１に入力されるオーディオデータは、例えばビデオ／オーディオデコーダ１から出力されたものとされてもよいし、オーディオ処理部３の構成によっては、オーディオ処理部３内における前段の回路の回路にて（ここでは図示せず）所定の処理が施された後のオーディオデータであってもよい。

また、この第１オーディオプロセッサ１１では、上記したリップシンクのためにオーディオデータを遅延させる処理も実行するようにされる。このために、第１オーディオプロセッサ１１では、所定の信号処理段階において、オーディオデータをメモリ１２に書き込んで、遅延時間に相当する時間分保持させた後、読み出しを行うようにされる。
第１オーディオプロセッサ１１から出力されたオーディオデータは、第２オーディオプロセッサ／増幅部１３に対して出力される。

第２オーディオプロセッサ／増幅部１３は、入力されたデータについて、例えばデジタル信号処理により、所定の周波数帯域フィルタ処理、ゲイン、レベル調整（音量調整）などの処理を実行したうえで、例えばアナログ信号に変換して増幅動作を行い、スピーカ5に対してスピーカ駆動信号を出力する。あるいは、Ｄ級増幅回路を備えることで、デジタルオーディオ信号からスピーカ駆動信号を生成するような構成を採ってもよい。
なお、第２オーディオプロセッサ／増幅部１３と第１オーディオプロセッサ１１とでは、例えばフィルタ処理など、同等の信号処理機能を重複して有するが、これは、信号処理過程において必要性があることに応じたものである。例えば同じ信号処理機能であっても、適用される信号処理段階が異なれば、信号処理により得られる効果等も異なってくる。

また、第１オーディオプロセッサ１１に入力されるべきオーディオデータは、音量比較部１４に対しても分岐して入力される。
音量比較部１４では、入力されたオーディオデータについて、先ず、そのレベルを検出したうえで、この検出されたオーディオデータのレベルと、閾値設定部１５により設定された閾値とを比較する。そして、本実施の形態としては、この比較結果が所定の条件を満たことの意義を持つ検出信号Sdtを出力するようにされる。
この検出信号Sdtは、遅延部１６にて所定の遅延時間Tdによる遅延が与えられた後、第２オーディオプロセッサ／増幅部１３に対して入力される。なお、この遅延時間Tdの設定については後述する。

この場合の第２オーディオプロセッサ／増幅部１３では、検出信号Sdtが入力されたタイミングで、その検出信号Sdtが示す意義に応じた、オーディオデータのレベル変更を行う。つまり、音量の自動調整を実行する。

図３は、上記図２により説明した構成のオーディオ処理部３における音量自動調整の動作を模式的に示すもので、縦軸にはオーディオ処理部３が入力するオーディオデータとしての信号レベル（オーディオ信号レベル）を示し、横軸には時間を示す。
本実施の形態としては、閾値設定部１５により、第１閾値th1と第２閾値th2の２つの閾値を設定することとしている。ここで、第１閾値th1は、音量として過大であるとされるオーディオ信号レベルに対応して設定され、第２閾値th2は、音量として過小であるとされるオーディオ信号レベルに対応して設定される。従って、第１閾値th1を越える（又は第１閾値th1以上の）オーディオ信号レベルは過大であるという扱いになり、閾値th2を越えない（又は第2閾値th2以下の）オーディオ信号レベルは過小であるという扱いになる。なお、ここでは、第１閾値th1、第２閾値th2の何れについても、予め設定された固定値であることとを前提とする。

ここで、図３に示すオーディオ信号レベルによるオーディオデータが、音量比較部１４に入力されてきたとする。音量比較部１４では、このオーディオデータの信号レベルについて、第１閾値th1との比較と、第２閾値th2との比較とを行うことになる。この比較処理の結果として、図３に示すようにして、先ず、時間ｔ１から時間ｔ２の期間においてオーディオ信号レベルが第１閾値th1を越える（又は第１閾値th1以上である）ことが検出される。また、この後において、時間ｔ３から時間ｔ４までの期間において、オーディオ信号レベルが第２閾値th2未満（又は第２閾値th2以下である）となったことが検出されることになる。

音量比較部１４は、時間ｔ１から時間ｔ２の期間にわたって、オーディオ信号レベルが第１閾値th1を越えたことを示す検出信号Sdtを出力することになる。この検出信号はSdt(A)とするまた、この後の時点３から時間ｔ４としての期間にわたって、オーディオ信号レベルが第２閾値th2未満となったことを示す検出信号Sdtを出力するようにされる。この検出信号はSdt(B)とする、これらの検出信号Sdt(A),Sdt(B)は、先の説明のように、遅延部１６にて遅延時間Td分の遅延が与えられたうえで、第２オーディオプロセッサ／増幅部１３に入力される。

ここで、遅延部１６の遅延時間Ｔdについては、次のようにして設定する。
第１オーディオプロセッサ１１のオーディオデータの入出力に要する時間をＴ1とする。確認のために、この時間Ｔ1は、第1オーディオプロセッサ１１が実行するとされるオーディオ信号処理に要する時間と、リップシンクのためにメモリ１２を利用してオーディオデータの出力タイミングを遅延させた分の時間を足し合わせたものとなる。
また、第１オーディオプロセッサ１１から第２オーディオプロセッサ／増幅部１３にオーディオデータが転送されてから、このオーディオデータが第２オーディオプロセッサ／増幅部１３において音量調整段階にまで伝達されるまでに要する時間をＴ2とする。
すると、遅延部１６の遅延時間Ｔdは、
Td＝T1＋T2
により表されるものとして考えられる。なお、本来、オーディオデータを対象とする信号処理はビデオデータと比較して非常に短時間であることから、簡易な考え方としては、第1オーディオプロセッサ１１、第２オーディオプロセッサ／増幅部１３におけるオーディオ信号処理時間は無視して、遅延時間Tdは、リップシンクのための遅延時間とほぼ同等であるとみなしてもよい。

第２オーディオプロセッサ／増幅部１３では、上記のようにして設定された遅延時間Tdにより遅延された検出信号Sdt(A),Sdt(B)を入力したタイミングで音量調整を実行することになるが、この実行タイミングは次のようになる。
先ず、検出信号Sdt(A)が第２オーディオプロセッサ／増幅部１３に入力されるのは、時間ｔ１に対して遅延時間Tdを加算した時間（t1＋Td）から、時間ｔ2に対して遅延時間Tdを加算した時間（t2＋Td）の期間となる。
また、検出信号Sdt(B)が第２オーディオプロセッサ／増幅部１３に入力されるのは、時間ｔ3に対して遅延時間Tdを加算した時間（t3＋Td）から、時間ｔ4に対して遅延時間Tdを加算した時間（t4＋Td）の期間となる。
先の説明より理解されるように、遅延時間Tdは、第１オーディオプロセッサ１１に入力されたオーディオデータが、第２オーディオプロセッサ／増幅部１３における音量調整処理の段階にまで伝達される時間に対応している。従って、時間（t1＋Td）から時間（t2＋Td）の期間において、第２オーディオプロセッサ／増幅部１３にて音量調整処理の対象となるのは、音量比較部が時点ｔ1から時点ｔ2の期間において検出したオーディオデータの信号区間と同じであることになる。
同様にして、時間（t3＋Td）から時間（t4＋Td）の期間において、第２オーディオプロセッサ／増幅部１３にて音量調整処理の対象となるのは、音量比較部が時点ｔ3から時点ｔ4の期間において検出したオーディオデータの信号区間と同じであることになる。
このようにして、本実施の形態では、オーディオデータの再生時間位置としてみた場合に、音量調整のための検出出力（検出信号）が得られた再生時間と、この検出出力に応じて音量調整が行われる再生時間とを一致させることができる。

そして、時間（t1＋Td）から時間（t2＋Td）の期間における音量調整処理としては、検出信号Sdt(A)が第１閾値th1を越えている（オーディオ信号レベルが過大である状態を示す）ことに対応して、所定の低減率、時間経過に応じた所定のレベル変更パターンなどにより、この区間のオーディオ信号レベルを低減させる。
また、時間（t3＋Td）から時間（t4＋Td）の期間における音量調整処理としては、検出信号Sdt(B)が第１閾値th2未満である（オーディオ信号レベルが過小である状態を示す）ことに対応して、所定の増加率、時間経過に応じた所定のレベル変更パターンなどにより、この区間のオーディオ信号レベルを増加させる。なお、このようにして、一定以下のレベルを引き上げることによっては、音が小さくて聴き取りにくいというような不都合を解消することができる。
また、上記している低減率／増加率、及びレベル変更パターンについては、音量調整後の再生音声が、聴感的に不自然に聞こえないようにすることなどを配慮して、任意に設定すればよい。

本実施の形態では、このようにして音量の自動調整が行われるのであるが、上記もしているように、オーディオデータの再生時間としてみた調整タイミングは、検出時点に対する遅延を与えることで、検出対象となったオーディオデータの再生時間と一致させることが可能になっている。換言すれば、例えば図９に示したフィードバック制御による音量調整のようにして、検出対象となる再生時間に対して実際に音量調整が実行される再生時間が遅延することはない。これにより、本実施の形態としては、自動音量調整が行われる音声についての再生品質を向上することができる。例えば、スパイク的な急峻な音量変化が生じたとしても、これに追随して、このスパイク部分の音量調整が確実に行えることになり、調整された音声が不自然になったりすることなどがなくなる。
また、検出タイミングと音量調整タイミングとについてオーディオデータの再生時間を一致させるためには、オーディオデータを遅延させる必要がある。このための構成として、本実施の形態では、再生時間同期のために再生システムにおいて既に備えられているメモリ１２を流用できるものであり、この点で、コストアップや回路規模の拡大などの問題に対して有利となる。

続いて、オーディオ処理部３における音量調整についての、第２の実施の形態としての構成について説明する。
図４は、第２の実施の形態としての音量調整動作を模式的に示している。この図においても、縦軸にはオーディオ処理部３が入力するオーディオデータとしての信号レベル（オーディオ信号レベル）が示され、横軸には時間が示される。
この第２の実施の形態としては、図示するようにして、第１閾値th1、第２閾値th2に加えて、無音閾値th3が設定される。この場合の無音閾値th3は、例えば第２閾値th2よりも小さいオーディオ信号レベルに対応した所定値が設定されている。本実施の形態では、この無音閾値th3未満（又は、無音閾値th3以下）とされるオーディオ信号レベルの状態は、例えば音声ソースとして意図的に録音されたような意味のある音は存在していないとする、無音状態であることとみなしている。そして、オーディオ信号のレベルが無音閾値th3未満となる、レベル範囲Lm1にあるとされるときには、オーディオ信号レベルを増加させないようにして、元のオーディオ信号レベルが維持されるように動作させる。つまり、オーディオ信号レベルが、第２閾値th2未満となる状態であっても、さらに無音閾値th3未満であるときには、特に音量調整は行わないようにする。

無音閾値th3未満となるレベルのオーディオ信号は、上記のようにして、音声ソースとして意味のある音は存在しないが、例えば定常的なノイズは残留しているような状態であると考えることができる。このような状態では、意味のある音が存在していないので、レベルを増加させることは有効ではないことになる。むしろ、ノイズの音量が増加してこれを目立たせる結果を招くこととなって好ましくない。
そこで、本実施の形態では、オーディオ信号のレベルが無音閾値th3未満であるときには、特に音量調整は行わないようにして、オーディオ信号レベルを増加させないようにしている。これによりノイズは目立たないようにされる。

図５は、第２の実施の形態に対応するオーディオ処理部３の構成例を示している。なお、この図において図２と同一部分には同一符号を付して説明を省略する。
この図に示されるオーディオ処理部３においては、無音検出部１７が備えられる。この無音検出部１７は、第１オーディオプロセッサ１１、音量比較部１４に入力されるオーディオデータをさらに分岐して入力し、その信号レベルと、無音閾値th3とを比較する。第２の実施の形態における閾値設定部１５は、第１閾値th1、第２閾値th2の他に、この無音閾値th3も設定し、無音閾値th3については、無音検出部１７に対してセットするようにされる。
そして、比較結果として、オーディオデータの信号レベルが無音閾値th3未満（又は以下）であることを検出したときに、無音検出部１７は、その検出信号を音量比較部１４に対して出力する。この検出信号の入力に応じて、音量比較部１４は検出信号Sdtの出力を停止するように動作する。このようにして、音量比較部１４からの検出信号Sdtの出力が停止されることで、オーディオデータの信号レベルが無音閾値th3未満であることが検出されたオーディオデータの再生時間の区間については、第２オーディオプロセッサ／増幅部１３における音量調整は行われないようにされる。
なお、確認のために述べておくと、無音検出部１７により、オーディオデータの信号レベルが無音閾値th3未満であることが検出されないときには、音量比較部１４は、第１の実施の形態と同様の動作となる。つまり、第１の実施の形態と同様の音量調整の制御動作が実行される。

続いて、オーディオ処理部３における音量調整についての、第３の実施の形態としての構成について説明する。
図６は、第３の実施の形態としての音量調整の動作を模式的に示している。この図においても、縦軸にはオーディオ処理部３が入力するオーディオデータとしての信号レベル（オーディオ信号レベル）が示され、横軸には時間が示される。なお、この図においては、説明を分かりやすいものとするために、第１閾値th1、第２閾値th2、及び第３閾値th3は示していない。しかしながら、第３の実施の形態の実際としては、少なくとも、第１閾値th1及び第２閾値th2を利用した音量調整が行われるものとされたうえで、次に説明する音量調整も行われるようにして構成されるものである。

映像音声ソースを再生して視聴しているときに、ユーザが音量を上げたいと思うような状況としては、人の声が小さくて聞き取りづらいような場合であることが多いと考えられる。そこで、第３の実施の形態としては、人の声が聴き取りにくくなるとされるオーディオ信号レベルの範囲として、図６に示すようにして、発話音声強調範囲Lm2を設定する。この場合には、発話音声強調範囲Lm2の上限レベルを上限閾値th4とし、下限レベルを下限閾値th5としている。
そして、オーディオ信号レベルについて、上記発話音声強調範囲Lm2に対応する上限閾値th4と下限閾値th5の範囲内にあることが検出されているときには、人の声に対応する周波数帯域のみのオーディオ信号を抜き出して、このオーディオ信号に対して音量調整のためのレベル変更を行うようにされる。これにより、例えば、人の声以外の音に埋もれることなく、人の声のみを強調して聴き取りやすくすることが可能になる。

次に、第３の実施の形態としてのオーディオ処理部３の構成について説明する。
先ず、オーディオ処理部３における音量比較検出の全体構成としては、第１の実施の形態として示した図１、あるいは第２の実施の形態として示した図５と同様でよいものとされる。
ただし、第３の実施の形態に対応する場合には、閾値設定部１５において、第１閾値th1、第２閾値th2のほかに、図６に示した上限閾値th4、下限閾値th5も設定して音量比較部１４にセットするようにされる。
音量比較部１４は、例えば先ず、第1，第２の実施の形態と同様にして、少なくとも、オーディオデータの信号レベルが第１閾値th1を越える場合と、第２閾値th2未満となる場合とで、それぞれの旨を示す検出信号Sdtを出力する。そのうえで、さらに音量比較部１４は、オーディオデータの信号レベルが上限閾値th4と下限閾値th5の間（発話音声強調範囲Lm2）にあるか否かについても検出するようにされ、オーディオデータのレベルが上限閾値th4と下限閾値th5の間にあれば、その旨を示す検出信号Sdtも出力するようにされる。従って、第３の実施の形態における検出信号Sdtとしては、オーディオデータの信号レベルについて、第１閾値th1を越えていることを示す信号と、第２閾値th2未満であることを示す信号と、発話音声強調範囲Lm2にあることを示す信号との３値をとるものとしてここでは扱われることになる。

図７は、第３の実施の形態に対応する構成として、第２オーディオプロセッサ／増幅部１３における、音量調整に関する部位を抜き出して示している。
この場合において音量調整の対象となるオーディオデータは、スイッチ２１の端子ａに供給されるようになっている。スイッチ２１は、端子ａが端子ｂ、端子ｃの何れかに対して接続されるようにして切り換えが行われる。この場合のスイッチ２１の端子ｂは音量調整部２３の入力に直接的に接続されるようになっているが、端子ｃは、バンドパスフィルタ２２を介して音量調整部２３の入力に接続されるようになっている。

スイッチ２１は、検出信号Sdtにより、下記のようにして接続の切り換えが行われる。つまり、検出信号Sdtが出力されていない場合、また、検出信号Sdtが第１閾値th1を越えていることを示すものである場合と、第２閾値th2未満であることを示すものである場合には、端子ａに対して端子ｂを接続するようにして切り換えが行われる。そして、発話音声強調範囲Lm2にあることを示す検出信号Sdtによっては、端子ａに対して端子ｃが接続されるようにしてスイッチ２１の切り換えが行われる。

この場合のバンドパスフィルタ２２は、人の声に対応して設定された周波数帯域（例えば４００Ｈｚ〜４０００Ｈｚ程度）のオーディオデータの帯域信号成分を通過させる特性を有するようにして構成される。
音量調整部２３は、検出信号Sdtに応じて、入力されたオーディオデータについてのレベル変更を行う。音量調整部２３から出力されたオーディオデータは、例えばここでは図示していない後段の増幅部に入力されて増幅等が行われる。
なお、確認のために述べておくと、スイッチ２１及び音量調整部２３に入力される検出信号Sdtは、音量比較部１４から遅延部１６を介して遅延された後のものとなる。

上記したスイッチ２１の切り換え動作によると、検出信号Sdtが出力されていない場合と、検出信号Sdtが第１閾値th1を越えていることを示すものである場合と、第２閾値th2未満であることを示すものである場合には、端子ａに対して端子ｂが接続される。この状態では、音量調整対象のオーディオデータは、バンドパスフィルタ２２を介さずに、直接的に音量調整部２３に入力されることになる。そして、音量調整部２３では、検出信号Sdtが出力されていないときには、特にオーディオデータのレベルを変更することなく出力する。また、検出信号Sdtが第１閾値th1を越えていることを示すものである場合には、所定の増加率、時間経過に応じた所定のレベル変更パターンなどによりレベルを増加させるようにして変化させる。また、検出信号が第２閾値th2未満であることを示すものである場合には、所定の低減率、時間経過に応じた所定のレベル変更パターンなどによりレベルを低減させるようにして変化させる。
そして、検出信号Sdtが発話音声強調範囲Lm2にあることを示しているときには、スイッチ２１の端子ａと端子ｃが接続されることで、音量調整対象のオーディオデータは、バンドパスフィルタ２２を通過して音量調整部２３に入力される。これにより、音量調整部２３に入力されるオーディオデータは、人の声に対応する周波数帯域のみが抜き出されたオーディオ信号成分によるものとなる。このとき、音量調整部２３は、所定の増加率、時間経過に応じた所定のレベル変更パターンなどによりレベルを増加させるようにして変化させる。これにより、再生音声としては、人の声が強調されるようにして音量が増加されたものとなる。

続いて、第４の実施の形態について説明する。第４の実施の形態は、閾値設定部１５における閾値設定に関する。
これまでの実施の形態の説明にあっては、閾値設置１５において設定される閾値は固定値であることとしていたが、第４の実施の形態としては、オーディオデータのレベルに適応させて可変設定されるようにするものである。
図８は、第４の実施の形態としての閾値設定として、第１閾値th1、第２閾値th2についての設定例を模式的に示している。
ここで、オーディオデータの信号レベルが、所定のサンプル時間間隔ごとに、ｂ１，ｂ２，ｂ３，ｂ４，ｂ５の値をとっていったとする。このオーディオデータの信号レベルを用いて、第１閾値th1としての実値a1，a2，a3は、それぞれ次のようにして求めるようにされる。
a1＝K×{(b1+b2+b3)/3}+M
a2＝K×{(b2+b3+b4)/3}+M
a3＝K×{(b3+b4+b5)/3}+M
つまり、ここでは、第１閾値th1に対応して設定した係数Kと重み付け数値Mを設定したうえで、連続する３つのオーディオデータのサンプルについての移動平均を求め、この移動平均値に対して係数Kを乗算し、重み付け数値Mを加算するものである。

また、第２閾値th2としての実値c1，c2，c3は、それぞれ次のようにして求めるようにされる。
c1＝L×{(b1+b2+b3)/3}+N
c2＝L×{(b2+b3+b4)/3}+N
c3＝L×{(b3+b4+b5)/3}+N

つまり、第２閾値th2についても、対応して設定した係数Lと重み付け数値Nを設定したうえで、連続する３つのオーディオデータのサンプルについての移動平均を求め、この移動平均値に対して係数Lを乗算し、重み付け数値Nを加算することで得るようにされる。
このようにして、例えば第１閾値th1、第２閾値th2を設定することで、これらの閾値は、検出対象のオーディオデータのレベル変化に追随するようにして変化することになる。これにより、例えば、オーディオデータのレベルの緩慢な変化には応答せず、急峻とされる音量の変化にのみ応答した音量調整が行われるようにすることができる。このような音量調整の動作であれば、音量調整された音声としては、より自然なものとすることが可能になる。

このような閾値設定のための演算は、閾値設定部１５において行われるようにすればよい。例えば図２の構成の下であれば、閾値設定部１５は、音量比較部１４が入力したオーディオデータを取り込んでそのレベル値をサンプルするようにされる。そして、このサンプルしたレベル値を利用して、例えば上記の演算を行って閾値を設定し、音量比較部１４にセットするようにされる。

なお、図８では、第１閾値th1及び第２閾値th2を例に挙げているが、第２の実施の形態において利用する無音閾値th3、また、第３の実施の形態において利用する上限閾値th4，下限閾値th5についても、オーディオデータのレベルに追随させた変化を与えてよいものである。
また、閾値をオーディオデータのレベルに追随させるための演算式としては、移動平均を採用する、しないに関わらず、上記したもの以外を考えることができる。

また、これまでの実施の形態として図示した音量調整に関連する構成は、あくまでも一例であり、また、その概念を示したものであるから、実際の音量調整関連のためのハードウェア構成、ソフトウェア構成としては、適宜変更されてかまわない。
また、本願発明は、例えばＭＰＥＧ形式に限定されることなく、画像と音声を再生時間的に同期させるようにして再生するシステム、装置、さらにはアプリケーションソフトウェアなどにも適用が可能である。このような機能を持つアプリケーションソフトウェアとしてのデータは、例えば所定の記録媒体に記憶させておくことで保存しておくことができる。

本発明の実施の形態としてのビデオ／オーディオ再生システムの構成を示す図である。第１の実施の形態に対応するオーディオ処理部の構成例を示す図である。第１の実施の形態に対応する音量調整の動作を説明するもので、オーディオデータの信号レベルと、第１閾値、第２閾値との関係を示す図である。第２の実施の形態に対応する音量調整の動作を説明するもので、オーディオデータの信号レベルと、第１閾値、第２閾値、及び無音閾値との関係を示す図である。第２の実施の形態に対応するオーディオ処理部の構成例を示す図である。第３の実施の形態に対応する音量調整の動作を説明するもので、オーディオデータの信号レベルと、発話音声強調範囲に対応する上限閾値、下限閾値との関係を示す図である。第３の実施の形態としての、第２オーディオプロセッサ／増幅部における音量調整に関連する部位の構成例を示す図である。第４の実施の形態としての、閾値の算出例を模式的に示す図である。従来としての音量調整のための構成例を示す図である。

符号の説明

１ビデオ／オーディオデコーダ、２ビデオ処理部、３オーディオ処理部、４表示部、５スピーカ、１１第１オーディオプロセッサ、１２メモリ、１３第２オーディオプロセッサ／増幅部、１４音量比較部、１５閾値設定部、１６遅延部、１７無音検出部、２１スイッチ、２２バンドパスフィルタ、２３音量調整部

Claims

画像の再生時間に同期して再生出力すべき音声情報を入力して、画像の再生時間との同期を図るために、所定の遅延時間により遅延させたタイミングにより出力させる遅延手段と、
上記遅延手段から出力される音声情報のレベルを変更する音量変更手段と、
上記遅延手段に入力される前の上記音声情報のレベルに基づいて、音量調整に利用する検出信号を出力する検出手段と、
上記検出信号に応じた音量調整のために、上記検出信号が出力されたとするときから所要時間分を遅延させたタイミングで、上記音量変更手段におけるレベル変更が実行されるように制御するタイミング制御手段と、
を備えることを特徴とする音量調整装置。
上記検出手段は、
上記遅延手段に入力される前の上記音声情報のレベルが閾値よりも高いことを検出したのに応じて上記検出信号を出力するようにされ、
上記音量変更手段は、上記検出信号に応じた音量調整として、音声情報のレベルを低下させるようにして変更する、
ことを特徴とする請求項１に記載の音量調整装置。
上記決定手段は、
上記遅延手段に入力される前の上記音声情報のレベルが閾値よりも低いことを検出したのに応じて上記検出信号を出力するようにされ、
上記音量変更手段は、上記検出信号に応じた音量調整として、音声情報のレベルを増加させるようにして変更する、
ことを特徴とする請求項１に記載の音量調整装置。
上記検出手段は、
上記遅延手段に入力される前の上記音声情報のレベルと、閾値とを比較した結果に基づいて、上記検出信号を出力するようにされるとともに、
上記遅延手段に入力される前の上記音声情報のレベルの移動平均値に基づいて上記閾値を設定する閾値設定手段をさらに備える、
ことを特徴とする請求項１に記載の音量調整装置。
上記遅延手段に入力される前の上記音声情報について、無音として扱われる所定以下のレベルであることを検出する無音検出手段と、
上記無音検出手段により、無音として扱われる所定以下のレベルであるとして検出された上記音声情報の再生時間位置については、上記音量変更手段におけるレベル変更が行われないように制御する実行制御手段とをさらに備える、
ことを特徴とする請求項１に記載の音量調整装置。
上記遅延手段に入力される前の上記音声情報が所定のレベル範囲にあることを検出するレベル範囲検出手段をさらに備え、
上記音量変更手段は、
上記レベル範囲検出手段により、上記所定のレベル範囲にあると検出された再生時間位置においては、音声情報における所定の周波数帯域のレベルを変更する、
ことを特徴とする請求項１に記載の音量調整装置。
画像の再生時間に同期して再生出力すべき音声情報を、画像の再生時間との同期を図るために、所定の遅延時間により遅延させる遅延手順と、
上記遅延手順により遅延された音声情報のレベルを変更する音量変更手順と、
上記遅延手順により遅延される前の上記音声情報のレベルに基づいて、音量調整に利用する検出信号を出力する検出手段と、
上記検出信号に応じた音量調整のために、上記検出信号が出力されたとするときから所要時間分を遅延させたタイミングで、上記音量変更手順におけるレベル変更が実行されるように制御するタイミング制御手順と、
を実行することを特徴とする音量調整方法。