JP2007053661A - 音量調整装置、音量調整方法 - Google Patents

音量調整装置、音量調整方法 Download PDF

Info

Publication number
JP2007053661A
JP2007053661A JP2005238550A JP2005238550A JP2007053661A JP 2007053661 A JP2007053661 A JP 2007053661A JP 2005238550 A JP2005238550 A JP 2005238550A JP 2005238550 A JP2005238550 A JP 2005238550A JP 2007053661 A JP2007053661 A JP 2007053661A
Authority
JP
Japan
Prior art keywords
level
audio
volume
time
detection signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005238550A
Other languages
English (en)
Inventor
Naoki Tamura
直樹 田村
Shobai Park
唱培 朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005238550A priority Critical patent/JP2007053661A/ja
Publication of JP2007053661A publication Critical patent/JP2007053661A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音量調整のための検出出力が得られるタイミングと、検出出力に応じた音量調整のタイミングとについて、オーディオ信号の再生時間的に一致が図られるようにして、これまでよりも良好な自動音量調整効果を得る。
【解決手段】画像と再生時間が同期するようにして再生されるべきオーディオ信号について、同期のための信号遅延処理が実行される前の段階で音量調整のための検出を行う。この検出出力に応じた音量調整は、信号遅延処理後のオーディオ信号を対象として、検出時点から所定時間遅延させたタイミングで実行させる。これにより、音量調整のための検出出力が得られるタイミングと、検出出力に応じた音量調整のタイミングとについて、オーディオ信号の再生時間的な一致が図られるようにする。
【選択図】図2

Description

本発明は、音声情報を再生するにあたっての音量調整を行う装置と、その方法に関する。
特開平7−99417号公報
音声の再生システムにおいては、例えば聴感的不快さの解消、周囲に迷惑をかけないなどの配慮で、一定以上の音量レベルによる音声出力を制限するようにした音量調整機能を与えることが知られている。
このような音量調整機能を実現するための構成例を図9に示す。
再生出力されるべきオーディオ信号(音声信号)は、音量調整部31に入力される。音量調整部31は、入力されたオーディオ信号について、音量調整としてのレベル、ゲイン可変を行って出力する。音量調整部31から出力されるオーディオ信号は、ここでは図示していない後段の増幅回路などによって増幅された後、例えばスピーカ、ヘッドフォンなどから出力される。
音量比較部32は、音量調整部31から出力されたオーディオ信号を入力して、そのレベルを所定の閾値と比較する。ここでの閾値は、例えば、過大であるとしてみなされるオーディオ信号レベルに応じて設定される。音量比較部32において、オーディオ信号レベルが閾値を越えたとされる状態は、音量調整部31から出力されたオーディオ信号レベルが過大であることを示している。例えば、このようにして、音量比較部32において、オーディオ信号レベルが閾値を越えたとの比較結果を得たとされると、音量比較部32から音量調節部31に対して、例えばその旨を通知するようにされる。通知を受けた音量調節部31は、入力されるオーディオ信号についてレベルを低減させて出力する。
このようにして、図9の構成では、音量調整部31の出力に基づいて音量調整部31における音量が可変されるように制御する、フィードバックループによる音量可変制御を行うことで、過大な音量レベルが自動的に制限されるようにしている。
しかしながら、上記図9に示したような制御系では、現在時点のオーディオ信号のレベルを検知した後に、音量調整部31における音量調整の動作を生じることになる。つまり、オーディオ信号の再生時間位置的にみた場合、実際に音量調整が行われる再生時間位置は、レベルを検知した再生時間位置よりも後ろになる。
このために、例えば、音量調整後のオーディオ信号を再生して得られる音質について良好性が保たれない場合が生じる。例えば、オーディオ信号に、スパイク信号的な急峻な変化を示す信号成分が含まれたようなときには、このクリッピングなどに起因する比較的著しい信号波形の歪みを生じ、聴感上不自然な音になったり、音質が劣化したりする可能性がある。
このことから、例えば音量制限などの自動音量調整を行うのにあたっては、オーディオ信号についてのレベル検出と、この検出結果に基づいたオーディオ信号のレベル調整とについて、オーディオ信号の同じ再生時間位置を対象として行われるべきことが好ましいということがいえる。
そこで、本発明は上記した課題を考慮して、音量調整装置として次のように構成する。
つまり、画像の再生時間に同期して再生出力すべき音声情報を入力して、画像の再生時間との同期を図るために、所定の遅延時間により遅延させたタイミングにより出力させる遅延手段と、この遅延手段から出力される音声情報のレベルを変更する音量変更手段と、遅延手段に入力される前の音声情報のレベルに基づいて、音量調整に利用する検出信号を出力する検出手段と、検出信号に応じた音量調整のために、検出信号が出力されたとするときから所要時間分を遅延させたタイミングで、音量変更手段におけるレベル変更が実行されるように制御するタイミング制御手段とを備えることとした。
上記構成では、音声情報は、画像の再生時間に同期するようにして再生出力されるべきものであることを前提としており、この画像の再生時間との同期を図るために、音声情報を所定時間分遅延させるための入出力経路である遅延手段を備えるようにされている。
そして、音量調整のための検出信号は、上記遅延手段に入力される前段階の音声情報から得るようにして、この検出信号に基づいた実際の音量調整のためのレベル変更は、遅延手段から出力された音声情報を対象として行うようにされている。この検出信号に基づいての音量調整のためのレベル変更タイミングとしては、検出信号が出力されたとするタイミングから、所要時間分を遅延させたものとしている。この遅延時間の設定により、検出信号を出力したときの音声信号の再生時間的な位置と、音量調整が行われる音声情報の再生時間的な位置とを一致させることが可能になる。
このようにして本願発明では、検出信号を出力したときの音声信号の時間位置と、音量調整が行われる音声情報の時間位置とが一致するようにされることで、これまでよりも良好な自動音量調整制御の動作が得られることとなる。これにより、例えば自動音量調整された再生音声の品質も向上する。
図1は、本願発明を実施するための最良の形態(実施の形態)としての、ビデオ/オーディオ再生システムの構成例を示している。このビデオ/オーディオ再生システムに、本願発明に基づく音量調整装置の構成が含まれる。また、この図に示す構成は、後述する第1〜第3の実施の形態としての音量調整の構成に対して共通となるものである。
本実施の形態のビデオ/オーディオ再生システムは、図示するようにして、ビデオ/オーディオデコーダ1、ビデオ処理部2、オーディオ処理部3、表示部4、スピーカ5を備えて成るものとされる。
本実施の形態のビデオ/オーディオ再生システムにより再生するビデオ/オーディオソースは、ビデオ信号(画像情報)をデジタル化したビデオデータと、オーディオ信号(音声情報)をデジタル化したオーディオデータとが再生時間的に同期して出力されるべきものとされる。現状における例としては、DVD−Videoなどのフォーマットの記録データとして規定される、Video(ビデオデータ)と、このVideoの再生時間に対して同期すべきものとされるAudio(オーディオデータ)が、本実施の形態のビデオ/オーディオソースに該当する。
このようなビデオ/オーディオソースのデータは、例えば、圧縮符号化が施されたうえで、パケットを利用してビデオデータとオーディオデータとを多重化したストリームデータとしての構造を有する。この場合のビデオ/オーディオデコーダ1では、上記したような構造のビデオ/オーディオソースのデータからビデオデータとオーディオデータを分離抽出する。そして、分離抽出されたビデオデータとオーディオデータについて、それぞれ、圧縮符号化に対する復号処理を行って、所定型式のビデオデータ、オーディオデータとして出力するようにされる。ビデオデータはビデオ処理部2に出力され、オーディオデータは、オーディオ処理部3に出力される。
ビデオ処理部2では、入力されたビデオデータについて所要の信号処理を実行したうえで、例えば最終的には表示用のビデオデータとして表示部4に出力する。表示部4は、所定の表示デバイスを備えて成り、入力されたビデオデータに基づいて表示駆動などの所要の動作を実行することで画像表示を行う。つまり、ビデオデータが画像として再生出力される。
また、この場合のオーディオ処理部3では、入力されたオーディオ信号について所要の信号処理、増幅などを行って、スピーカ駆動信号として出力する。このスピーカ駆動信号によりスピーカが駆動されることで、オーディオ信号が音声として再生出力されることになる。
ここで、前述もしたように、ビデオ/オーディオデコーダ1から出力されるビデオデータとオーディオデータは、再生時間的に同期して出力される必要がある。なお、このようにして、画像の再生出力に対して音声を同期させることは、1つの事例として、画像内の人物が喋っている口元と、再生される音声とのタイミングが合致している状態となることにちなみ、リップシンクともいわれる。
上記リップシンクを図るために、図1のビデオ/オーディオ再生システムでは、次のような構成を採ることとしている。
一般に、ビデオデータとオーディオデータとの比較として、同じ単位再生時間あたりのデータ量については、ビデオデータのほうがオーディオデータよりもはるかに多い。そして、これに伴い、同じ単位再生時間あたりのデータの処理に要する時間としても、ビデオデータのほうがオーディオデータよりも多くなる。
図1の構成との対応では、先ず、ビデオ/オーディオデコーダ1おける復号処理の段階で、ビデオデータのほうが、オーディオデータよりも多くの処理時間を要することになる。従って、例えば同じ再生時間のデータについてのビデオ/オーディオデコーダ1からの出力タイミングは、ビデオデータのほうが、オーディオデータよりも遅れることになる。
また、ビデオ処理部2におけるビデオデータについてのビデオ信号処理と、オーディオ処理部3におけるオーディオ信号処理とについて比較してみても、前者のほうが、後者よりも多くの時間を要することになる。このことから、ビデオデータとオーディオデータとについて単純に処理を実行していったとすると、再生時間的には、ビデオ処理部2の出力のほうが、オーディオ処理部3の出力に対して相当に遅延することになる。
そこで、図1の構成の下では、オーディオ処理部3において、オーディオデータについて所要時間分の遅延を与えたうえで出力させることとしている。このオーディオデータの遅延時間は、上記している、オーディオ処理部3の出力に対する、再生時間的なビデオ処理部2の出力の遅延がキャンセルされるようにすることを考慮して設定される。
このようにして、オーディオ処理部3において所定の遅延時間が与えられるようにしてオーディオデータが出力されることで、ビデオ信号処理部2のビデオ出力と、オーディオ処理部3のオーディオ出力との再生時間が一致することとなって、表示部4にて表示される画像と、スピーカ5から出力される音声とのリップシンクが図られることになる。なお、ここでは、説明の便宜上、ビデオ信号処理部2の出力に基づいて表示部4が画像を表示するのに要する時間と、オーディオ処理部3の出力によりスピーカ5から音声を出力するのに要する時間とは一致するものであることとしている。
図2は、第1の実施の形態としての音量調整の構成を含む、オーディオ処理部3の内部構成例を示している。この場合のオーディオ処理部3は、第1オーディオプロセッサ11、メモリ12、第2オーディオプロセッサ/増幅部13、音量比較部14、閾値設定部15、遅延部16を備えて成るものとされる。
第1オーディオプロセッサ11は、オーディオデータを入力して、例えばデジタル信号処理により、所定の周波数帯域フィルタ処理、サラウンド対応のための信号処理、演算処理、ゲイン調整などをはじめとする所要の処理を実行する。なお、第1オーディオプロセッサ11に入力されるオーディオデータは、例えばビデオ/オーディオデコーダ1から出力されたものとされてもよいし、オーディオ処理部3の構成によっては、オーディオ処理部3内における前段の回路の回路にて(ここでは図示せず)所定の処理が施された後のオーディオデータであってもよい。
また、この第1オーディオプロセッサ11では、上記したリップシンクのためにオーディオデータを遅延させる処理も実行するようにされる。このために、第1オーディオプロセッサ11では、所定の信号処理段階において、オーディオデータをメモリ12に書き込んで、遅延時間に相当する時間分保持させた後、読み出しを行うようにされる。
第1オーディオプロセッサ11から出力されたオーディオデータは、第2オーディオプロセッサ/増幅部13に対して出力される。
第2オーディオプロセッサ/増幅部13は、入力されたデータについて、例えばデジタル信号処理により、所定の周波数帯域フィルタ処理、ゲイン、レベル調整(音量調整)などの処理を実行したうえで、例えばアナログ信号に変換して増幅動作を行い、スピーカ5に対してスピーカ駆動信号を出力する。あるいは、D級増幅回路を備えることで、デジタルオーディオ信号からスピーカ駆動信号を生成するような構成を採ってもよい。
なお、第2オーディオプロセッサ/増幅部13と第1オーディオプロセッサ11とでは、例えばフィルタ処理など、同等の信号処理機能を重複して有するが、これは、信号処理過程において必要性があることに応じたものである。例えば同じ信号処理機能であっても、適用される信号処理段階が異なれば、信号処理により得られる効果等も異なってくる。
また、第1オーディオプロセッサ11に入力されるべきオーディオデータは、音量比較部14に対しても分岐して入力される。
音量比較部14では、入力されたオーディオデータについて、先ず、そのレベルを検出したうえで、この検出されたオーディオデータのレベルと、閾値設定部15により設定された閾値とを比較する。そして、本実施の形態としては、この比較結果が所定の条件を満たことの意義を持つ検出信号Sdtを出力するようにされる。
この検出信号Sdtは、遅延部16にて所定の遅延時間Tdによる遅延が与えられた後、第2オーディオプロセッサ/増幅部13に対して入力される。なお、この遅延時間Tdの設定については後述する。
この場合の第2オーディオプロセッサ/増幅部13では、検出信号Sdtが入力されたタイミングで、その検出信号Sdtが示す意義に応じた、オーディオデータのレベル変更を行う。つまり、音量の自動調整を実行する。
図3は、上記図2により説明した構成のオーディオ処理部3における音量自動調整の動作を模式的に示すもので、縦軸にはオーディオ処理部3が入力するオーディオデータとしての信号レベル(オーディオ信号レベル)を示し、横軸には時間を示す。
本実施の形態としては、閾値設定部15により、第1閾値th1と第2閾値th2の2つの閾値を設定することとしている。ここで、第1閾値th1は、音量として過大であるとされるオーディオ信号レベルに対応して設定され、第2閾値th2は、音量として過小であるとされるオーディオ信号レベルに対応して設定される。従って、第1閾値th1を越える(又は第1閾値th1以上の)オーディオ信号レベルは過大であるという扱いになり、閾値th2を越えない(又は第2閾値th2以下の)オーディオ信号レベルは過小であるという扱いになる。なお、ここでは、第1閾値th1、第2閾値th2の何れについても、予め設定された固定値であることとを前提とする。
ここで、図3に示すオーディオ信号レベルによるオーディオデータが、音量比較部14に入力されてきたとする。音量比較部14では、このオーディオデータの信号レベルについて、第1閾値th1との比較と、第2閾値th2との比較とを行うことになる。この比較処理の結果として、図3に示すようにして、先ず、時間t1から時間t2の期間においてオーディオ信号レベルが第1閾値th1を越える(又は第1閾値th1以上である)ことが検出される。また、この後において、時間t3から時間t4までの期間において、オーディオ信号レベルが第2閾値th2未満(又は第2閾値th2以下である)となったことが検出されることになる。
音量比較部14は、時間t1から時間t2の期間にわたって、オーディオ信号レベルが第1閾値th1を越えたことを示す検出信号Sdtを出力することになる。この検出信号はSdt(A)とするまた、この後の時点3から時間t4としての期間にわたって、オーディオ信号レベルが第2閾値th2未満となったことを示す検出信号Sdtを出力するようにされる。この検出信号はSdt(B)とする、これらの検出信号Sdt(A),Sdt(B)は、先の説明のように、遅延部16にて遅延時間Td分の遅延が与えられたうえで、第2オーディオプロセッサ/増幅部13に入力される。
ここで、遅延部16の遅延時間Tdについては、次のようにして設定する。
第1オーディオプロセッサ11のオーディオデータの入出力に要する時間をT1とする。確認のために、この時間T1は、第1オーディオプロセッサ11が実行するとされるオーディオ信号処理に要する時間と、リップシンクのためにメモリ12を利用してオーディオデータの出力タイミングを遅延させた分の時間を足し合わせたものとなる。
また、第1オーディオプロセッサ11から第2オーディオプロセッサ/増幅部13にオーディオデータが転送されてから、このオーディオデータが第2オーディオプロセッサ/増幅部13において音量調整段階にまで伝達されるまでに要する時間をT2とする。
すると、遅延部16の遅延時間Tdは、
Td=T1+T2
により表されるものとして考えられる。なお、本来、オーディオデータを対象とする信号処理はビデオデータと比較して非常に短時間であることから、簡易な考え方としては、第1オーディオプロセッサ11、第2オーディオプロセッサ/増幅部13におけるオーディオ信号処理時間は無視して、遅延時間Tdは、リップシンクのための遅延時間とほぼ同等であるとみなしてもよい。
第2オーディオプロセッサ/増幅部13では、上記のようにして設定された遅延時間Tdにより遅延された検出信号Sdt(A),Sdt(B)を入力したタイミングで音量調整を実行することになるが、この実行タイミングは次のようになる。
先ず、検出信号Sdt(A)が第2オーディオプロセッサ/増幅部13に入力されるのは、時間t1に対して遅延時間Tdを加算した時間(t1+Td)から、時間t2に対して遅延時間Tdを加算した時間(t2+Td)の期間となる。
また、検出信号Sdt(B)が第2オーディオプロセッサ/増幅部13に入力されるのは、時間t3に対して遅延時間Tdを加算した時間(t3+Td)から、時間t4に対して遅延時間Tdを加算した時間(t4+Td)の期間となる。
先の説明より理解されるように、遅延時間Tdは、第1オーディオプロセッサ11に入力されたオーディオデータが、第2オーディオプロセッサ/増幅部13における音量調整処理の段階にまで伝達される時間に対応している。従って、時間(t1+Td)から時間(t2+Td)の期間において、第2オーディオプロセッサ/増幅部13にて音量調整処理の対象となるのは、音量比較部が時点t1から時点t2の期間において検出したオーディオデータの信号区間と同じであることになる。
同様にして、時間(t3+Td)から時間(t4+Td)の期間において、第2オーディオプロセッサ/増幅部13にて音量調整処理の対象となるのは、音量比較部が時点t3から時点t4の期間において検出したオーディオデータの信号区間と同じであることになる。
このようにして、本実施の形態では、オーディオデータの再生時間位置としてみた場合に、音量調整のための検出出力(検出信号)が得られた再生時間と、この検出出力に応じて音量調整が行われる再生時間とを一致させることができる。
そして、時間(t1+Td)から時間(t2+Td)の期間における音量調整処理としては、検出信号Sdt(A)が第1閾値th1を越えている(オーディオ信号レベルが過大である状態を示す)ことに対応して、所定の低減率、時間経過に応じた所定のレベル変更パターンなどにより、この区間のオーディオ信号レベルを低減させる。
また、時間(t3+Td)から時間(t4+Td)の期間における音量調整処理としては、検出信号Sdt(B)が第1閾値th2未満である(オーディオ信号レベルが過小である状態を示す)ことに対応して、所定の増加率、時間経過に応じた所定のレベル変更パターンなどにより、この区間のオーディオ信号レベルを増加させる。なお、このようにして、一定以下のレベルを引き上げることによっては、音が小さくて聴き取りにくいというような不都合を解消することができる。
また、上記している低減率/増加率、及びレベル変更パターンについては、音量調整後の再生音声が、聴感的に不自然に聞こえないようにすることなどを配慮して、任意に設定すればよい。
本実施の形態では、このようにして音量の自動調整が行われるのであるが、上記もしているように、オーディオデータの再生時間としてみた調整タイミングは、検出時点に対する遅延を与えることで、検出対象となったオーディオデータの再生時間と一致させることが可能になっている。換言すれば、例えば図9に示したフィードバック制御による音量調整のようにして、検出対象となる再生時間に対して実際に音量調整が実行される再生時間が遅延することはない。これにより、本実施の形態としては、自動音量調整が行われる音声についての再生品質を向上することができる。例えば、スパイク的な急峻な音量変化が生じたとしても、これに追随して、このスパイク部分の音量調整が確実に行えることになり、調整された音声が不自然になったりすることなどがなくなる。
また、検出タイミングと音量調整タイミングとについてオーディオデータの再生時間を一致させるためには、オーディオデータを遅延させる必要がある。このための構成として、本実施の形態では、再生時間同期のために再生システムにおいて既に備えられているメモリ12を流用できるものであり、この点で、コストアップや回路規模の拡大などの問題に対して有利となる。
続いて、オーディオ処理部3における音量調整についての、第2の実施の形態としての構成について説明する。
図4は、第2の実施の形態としての音量調整動作を模式的に示している。この図においても、縦軸にはオーディオ処理部3が入力するオーディオデータとしての信号レベル(オーディオ信号レベル)が示され、横軸には時間が示される。
この第2の実施の形態としては、図示するようにして、第1閾値th1、第2閾値th2に加えて、無音閾値th3が設定される。この場合の無音閾値th3は、例えば第2閾値th2よりも小さいオーディオ信号レベルに対応した所定値が設定されている。本実施の形態では、この無音閾値th3未満(又は、無音閾値th3以下)とされるオーディオ信号レベルの状態は、例えば音声ソースとして意図的に録音されたような意味のある音は存在していないとする、無音状態であることとみなしている。そして、オーディオ信号のレベルが無音閾値th3未満となる、レベル範囲Lm1にあるとされるときには、オーディオ信号レベルを増加させないようにして、元のオーディオ信号レベルが維持されるように動作させる。つまり、オーディオ信号レベルが、第2閾値th2未満となる状態であっても、さらに無音閾値th3未満であるときには、特に音量調整は行わないようにする。
無音閾値th3未満となるレベルのオーディオ信号は、上記のようにして、音声ソースとして意味のある音は存在しないが、例えば定常的なノイズは残留しているような状態であると考えることができる。このような状態では、意味のある音が存在していないので、レベルを増加させることは有効ではないことになる。むしろ、ノイズの音量が増加してこれを目立たせる結果を招くこととなって好ましくない。
そこで、本実施の形態では、オーディオ信号のレベルが無音閾値th3未満であるときには、特に音量調整は行わないようにして、オーディオ信号レベルを増加させないようにしている。これによりノイズは目立たないようにされる。
図5は、第2の実施の形態に対応するオーディオ処理部3の構成例を示している。なお、この図において図2と同一部分には同一符号を付して説明を省略する。
この図に示されるオーディオ処理部3においては、無音検出部17が備えられる。この無音検出部17は、第1オーディオプロセッサ11、音量比較部14に入力されるオーディオデータをさらに分岐して入力し、その信号レベルと、無音閾値th3とを比較する。第2の実施の形態における閾値設定部15は、第1閾値th1、第2閾値th2の他に、この無音閾値th3も設定し、無音閾値th3については、無音検出部17に対してセットするようにされる。
そして、比較結果として、オーディオデータの信号レベルが無音閾値th3未満(又は以下)であることを検出したときに、無音検出部17は、その検出信号を音量比較部14に対して出力する。この検出信号の入力に応じて、音量比較部14は検出信号Sdtの出力を停止するように動作する。このようにして、音量比較部14からの検出信号Sdtの出力が停止されることで、オーディオデータの信号レベルが無音閾値th3未満であることが検出されたオーディオデータの再生時間の区間については、第2オーディオプロセッサ/増幅部13における音量調整は行われないようにされる。
なお、確認のために述べておくと、無音検出部17により、オーディオデータの信号レベルが無音閾値th3未満であることが検出されないときには、音量比較部14は、第1の実施の形態と同様の動作となる。つまり、第1の実施の形態と同様の音量調整の制御動作が実行される。
続いて、オーディオ処理部3における音量調整についての、第3の実施の形態としての構成について説明する。
図6は、第3の実施の形態としての音量調整の動作を模式的に示している。この図においても、縦軸にはオーディオ処理部3が入力するオーディオデータとしての信号レベル(オーディオ信号レベル)が示され、横軸には時間が示される。なお、この図においては、説明を分かりやすいものとするために、第1閾値th1、第2閾値th2、及び第3閾値th3は示していない。しかしながら、第3の実施の形態の実際としては、少なくとも、第1閾値th1及び第2閾値th2を利用した音量調整が行われるものとされたうえで、次に説明する音量調整も行われるようにして構成されるものである。
映像音声ソースを再生して視聴しているときに、ユーザが音量を上げたいと思うような状況としては、人の声が小さくて聞き取りづらいような場合であることが多いと考えられる。そこで、第3の実施の形態としては、人の声が聴き取りにくくなるとされるオーディオ信号レベルの範囲として、図6に示すようにして、発話音声強調範囲Lm2を設定する。この場合には、発話音声強調範囲Lm2の上限レベルを上限閾値th4とし、下限レベルを下限閾値th5としている。
そして、オーディオ信号レベルについて、上記発話音声強調範囲Lm2に対応する上限閾値th4と下限閾値th5の範囲内にあることが検出されているときには、人の声に対応する周波数帯域のみのオーディオ信号を抜き出して、このオーディオ信号に対して音量調整のためのレベル変更を行うようにされる。これにより、例えば、人の声以外の音に埋もれることなく、人の声のみを強調して聴き取りやすくすることが可能になる。
次に、第3の実施の形態としてのオーディオ処理部3の構成について説明する。
先ず、オーディオ処理部3における音量比較検出の全体構成としては、第1の実施の形態として示した図1、あるいは第2の実施の形態として示した図5と同様でよいものとされる。
ただし、第3の実施の形態に対応する場合には、閾値設定部15において、第1閾値th1、第2閾値th2のほかに、図6に示した上限閾値th4、下限閾値th5も設定して音量比較部14にセットするようにされる。
音量比較部14は、例えば先ず、第1,第2の実施の形態と同様にして、少なくとも、オーディオデータの信号レベルが第1閾値th1を越える場合と、第2閾値th2未満となる場合とで、それぞれの旨を示す検出信号Sdtを出力する。そのうえで、さらに音量比較部14は、オーディオデータの信号レベルが上限閾値th4と下限閾値th5の間(発話音声強調範囲Lm2)にあるか否かについても検出するようにされ、オーディオデータのレベルが上限閾値th4と下限閾値th5の間にあれば、その旨を示す検出信号Sdtも出力するようにされる。従って、第3の実施の形態における検出信号Sdtとしては、オーディオデータの信号レベルについて、第1閾値th1を越えていることを示す信号と、第2閾値th2未満であることを示す信号と、発話音声強調範囲Lm2にあることを示す信号との3値をとるものとしてここでは扱われることになる。
図7は、第3の実施の形態に対応する構成として、第2オーディオプロセッサ/増幅部13における、音量調整に関する部位を抜き出して示している。
この場合において音量調整の対象となるオーディオデータは、スイッチ21の端子aに供給されるようになっている。スイッチ21は、端子aが端子b、端子cの何れかに対して接続されるようにして切り換えが行われる。この場合のスイッチ21の端子bは音量調整部23の入力に直接的に接続されるようになっているが、端子cは、バンドパスフィルタ22を介して音量調整部23の入力に接続されるようになっている。
スイッチ21は、検出信号Sdtにより、下記のようにして接続の切り換えが行われる。つまり、検出信号Sdtが出力されていない場合、また、検出信号Sdtが第1閾値th1を越えていることを示すものである場合と、第2閾値th2未満であることを示すものである場合には、端子aに対して端子bを接続するようにして切り換えが行われる。そして、発話音声強調範囲Lm2にあることを示す検出信号Sdtによっては、端子aに対して端子cが接続されるようにしてスイッチ21の切り換えが行われる。
この場合のバンドパスフィルタ22は、人の声に対応して設定された周波数帯域(例えば400Hz〜4000Hz程度)のオーディオデータの帯域信号成分を通過させる特性を有するようにして構成される。
音量調整部23は、検出信号Sdtに応じて、入力されたオーディオデータについてのレベル変更を行う。音量調整部23から出力されたオーディオデータは、例えばここでは図示していない後段の増幅部に入力されて増幅等が行われる。
なお、確認のために述べておくと、スイッチ21及び音量調整部23に入力される検出信号Sdtは、音量比較部14から遅延部16を介して遅延された後のものとなる。
上記したスイッチ21の切り換え動作によると、検出信号Sdtが出力されていない場合と、検出信号Sdtが第1閾値th1を越えていることを示すものである場合と、第2閾値th2未満であることを示すものである場合には、端子aに対して端子bが接続される。この状態では、音量調整対象のオーディオデータは、バンドパスフィルタ22を介さずに、直接的に音量調整部23に入力されることになる。そして、音量調整部23では、検出信号Sdtが出力されていないときには、特にオーディオデータのレベルを変更することなく出力する。また、検出信号Sdtが第1閾値th1を越えていることを示すものである場合には、所定の増加率、時間経過に応じた所定のレベル変更パターンなどによりレベルを増加させるようにして変化させる。また、検出信号が第2閾値th2未満であることを示すものである場合には、所定の低減率、時間経過に応じた所定のレベル変更パターンなどによりレベルを低減させるようにして変化させる。
そして、検出信号Sdtが発話音声強調範囲Lm2にあることを示しているときには、スイッチ21の端子aと端子cが接続されることで、音量調整対象のオーディオデータは、バンドパスフィルタ22を通過して音量調整部23に入力される。これにより、音量調整部23に入力されるオーディオデータは、人の声に対応する周波数帯域のみが抜き出されたオーディオ信号成分によるものとなる。このとき、音量調整部23は、所定の増加率、時間経過に応じた所定のレベル変更パターンなどによりレベルを増加させるようにして変化させる。これにより、再生音声としては、人の声が強調されるようにして音量が増加されたものとなる。
続いて、第4の実施の形態について説明する。第4の実施の形態は、閾値設定部15における閾値設定に関する。
これまでの実施の形態の説明にあっては、閾値設置15において設定される閾値は固定値であることとしていたが、第4の実施の形態としては、オーディオデータのレベルに適応させて可変設定されるようにするものである。
図8は、第4の実施の形態としての閾値設定として、第1閾値th1、第2閾値th2についての設定例を模式的に示している。
ここで、オーディオデータの信号レベルが、所定のサンプル時間間隔ごとに、b1,b2,b3,b4,b5の値をとっていったとする。このオーディオデータの信号レベルを用いて、第1閾値th1としての実値a1,a2,a3は、それぞれ次のようにして求めるようにされる。
a1=K×{(b1+b2+b3)/3}+M
a2=K×{(b2+b3+b4)/3}+M
a3=K×{(b3+b4+b5)/3}+M
つまり、ここでは、第1閾値th1に対応して設定した係数Kと重み付け数値Mを設定したうえで、連続する3つのオーディオデータのサンプルについての移動平均を求め、この移動平均値に対して係数Kを乗算し、重み付け数値Mを加算するものである。
また、第2閾値th2としての実値c1,c2,c3は、それぞれ次のようにして求めるようにされる。
c1=L×{(b1+b2+b3)/3}+N
c2=L×{(b2+b3+b4)/3}+N
c3=L×{(b3+b4+b5)/3}+N

つまり、第2閾値th2についても、対応して設定した係数Lと重み付け数値Nを設定したうえで、連続する3つのオーディオデータのサンプルについての移動平均を求め、この移動平均値に対して係数Lを乗算し、重み付け数値Nを加算することで得るようにされる。
このようにして、例えば第1閾値th1、第2閾値th2を設定することで、これらの閾値は、検出対象のオーディオデータのレベル変化に追随するようにして変化することになる。これにより、例えば、オーディオデータのレベルの緩慢な変化には応答せず、急峻とされる音量の変化にのみ応答した音量調整が行われるようにすることができる。このような音量調整の動作であれば、音量調整された音声としては、より自然なものとすることが可能になる。
このような閾値設定のための演算は、閾値設定部15において行われるようにすればよい。例えば図2の構成の下であれば、閾値設定部15は、音量比較部14が入力したオーディオデータを取り込んでそのレベル値をサンプルするようにされる。そして、このサンプルしたレベル値を利用して、例えば上記の演算を行って閾値を設定し、音量比較部14にセットするようにされる。
なお、図8では、第1閾値th1及び第2閾値th2を例に挙げているが、第2の実施の形態において利用する無音閾値th3、また、第3の実施の形態において利用する上限閾値th4,下限閾値th5についても、オーディオデータのレベルに追随させた変化を与えてよいものである。
また、閾値をオーディオデータのレベルに追随させるための演算式としては、移動平均を採用する、しないに関わらず、上記したもの以外を考えることができる。
また、これまでの実施の形態として図示した音量調整に関連する構成は、あくまでも一例であり、また、その概念を示したものであるから、実際の音量調整関連のためのハードウェア構成、ソフトウェア構成としては、適宜変更されてかまわない。
また、本願発明は、例えばMPEG形式に限定されることなく、画像と音声を再生時間的に同期させるようにして再生するシステム、装置、さらにはアプリケーションソフトウェアなどにも適用が可能である。このような機能を持つアプリケーションソフトウェアとしてのデータは、例えば所定の記録媒体に記憶させておくことで保存しておくことができる。
本発明の実施の形態としてのビデオ/オーディオ再生システムの構成を示す図である。 第1の実施の形態に対応するオーディオ処理部の構成例を示す図である。 第1の実施の形態に対応する音量調整の動作を説明するもので、オーディオデータの信号レベルと、第1閾値、第2閾値との関係を示す図である。 第2の実施の形態に対応する音量調整の動作を説明するもので、オーディオデータの信号レベルと、第1閾値、第2閾値、及び無音閾値との関係を示す図である。 第2の実施の形態に対応するオーディオ処理部の構成例を示す図である。 第3の実施の形態に対応する音量調整の動作を説明するもので、オーディオデータの信号レベルと、発話音声強調範囲に対応する上限閾値、下限閾値との関係を示す図である。 第3の実施の形態としての、第2オーディオプロセッサ/増幅部における音量調整に関連する部位の構成例を示す図である。 第4の実施の形態としての、閾値の算出例を模式的に示す図である。 従来としての音量調整のための構成例を示す図である。
符号の説明
1 ビデオ/オーディオデコーダ、2 ビデオ処理部、3 オーディオ処理部、4 表示部、5 スピーカ、11 第1オーディオプロセッサ、12 メモリ、13 第2オーディオプロセッサ/増幅部、14 音量比較部、15 閾値設定部、16 遅延部、17 無音検出部、21 スイッチ、22 バンドパスフィルタ、23 音量調整部

Claims (7)

  1. 画像の再生時間に同期して再生出力すべき音声情報を入力して、画像の再生時間との同期を図るために、所定の遅延時間により遅延させたタイミングにより出力させる遅延手段と、
    上記遅延手段から出力される音声情報のレベルを変更する音量変更手段と、
    上記遅延手段に入力される前の上記音声情報のレベルに基づいて、音量調整に利用する検出信号を出力する検出手段と、
    上記検出信号に応じた音量調整のために、上記検出信号が出力されたとするときから所要時間分を遅延させたタイミングで、上記音量変更手段におけるレベル変更が実行されるように制御するタイミング制御手段と、
    を備えることを特徴とする音量調整装置。
  2. 上記検出手段は、
    上記遅延手段に入力される前の上記音声情報のレベルが閾値よりも高いことを検出したのに応じて上記検出信号を出力するようにされ、
    上記音量変更手段は、上記検出信号に応じた音量調整として、音声情報のレベルを低下させるようにして変更する、
    ことを特徴とする請求項1に記載の音量調整装置。
  3. 上記決定手段は、
    上記遅延手段に入力される前の上記音声情報のレベルが閾値よりも低いことを検出したのに応じて上記検出信号を出力するようにされ、
    上記音量変更手段は、上記検出信号に応じた音量調整として、音声情報のレベルを増加させるようにして変更する、
    ことを特徴とする請求項1に記載の音量調整装置。
  4. 上記検出手段は、
    上記遅延手段に入力される前の上記音声情報のレベルと、閾値とを比較した結果に基づいて、上記検出信号を出力するようにされるとともに、
    上記遅延手段に入力される前の上記音声情報のレベルの移動平均値に基づいて上記閾値を設定する閾値設定手段をさらに備える、
    ことを特徴とする請求項1に記載の音量調整装置。
  5. 上記遅延手段に入力される前の上記音声情報について、無音として扱われる所定以下のレベルであることを検出する無音検出手段と、
    上記無音検出手段により、無音として扱われる所定以下のレベルであるとして検出された上記音声情報の再生時間位置については、上記音量変更手段におけるレベル変更が行われないように制御する実行制御手段とをさらに備える、
    ことを特徴とする請求項1に記載の音量調整装置。
  6. 上記遅延手段に入力される前の上記音声情報が所定のレベル範囲にあることを検出するレベル範囲検出手段をさらに備え、
    上記音量変更手段は、
    上記レベル範囲検出手段により、上記所定のレベル範囲にあると検出された再生時間位置においては、音声情報における所定の周波数帯域のレベルを変更する、
    ことを特徴とする請求項1に記載の音量調整装置。
  7. 画像の再生時間に同期して再生出力すべき音声情報を、画像の再生時間との同期を図るために、所定の遅延時間により遅延させる遅延手順と、
    上記遅延手順により遅延された音声情報のレベルを変更する音量変更手順と、
    上記遅延手順により遅延される前の上記音声情報のレベルに基づいて、音量調整に利用する検出信号を出力する検出手段と、
    上記検出信号に応じた音量調整のために、上記検出信号が出力されたとするときから所要時間分を遅延させたタイミングで、上記音量変更手順におけるレベル変更が実行されるように制御するタイミング制御手順と、
    を実行することを特徴とする音量調整方法。
JP2005238550A 2005-08-19 2005-08-19 音量調整装置、音量調整方法 Pending JP2007053661A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005238550A JP2007053661A (ja) 2005-08-19 2005-08-19 音量調整装置、音量調整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005238550A JP2007053661A (ja) 2005-08-19 2005-08-19 音量調整装置、音量調整方法

Publications (1)

Publication Number Publication Date
JP2007053661A true JP2007053661A (ja) 2007-03-01

Family

ID=37917794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005238550A Pending JP2007053661A (ja) 2005-08-19 2005-08-19 音量調整装置、音量調整方法

Country Status (1)

Country Link
JP (1) JP2007053661A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101324577B1 (ko) * 2007-07-16 2013-11-04 삼성전자주식회사 지연된 신호에 avc를 적용하는 신호 처리장치 및 방법
CN112119455A (zh) * 2018-06-08 2020-12-22 松下知识产权经营株式会社 声音处理装置以及翻译装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101324577B1 (ko) * 2007-07-16 2013-11-04 삼성전자주식회사 지연된 신호에 avc를 적용하는 신호 처리장치 및 방법
US8665369B2 (en) 2007-07-16 2014-03-04 Samsung Electronics Co., Ltd. Signal processing apparatus for applying AVC to delayed signals and a method thereof
CN112119455A (zh) * 2018-06-08 2020-12-22 松下知识产权经营株式会社 声音处理装置以及翻译装置

Similar Documents

Publication Publication Date Title
KR101279276B1 (ko) 자동 이득 제어
JP4895418B2 (ja) 音声再生方法および音声再生装置
JP2010244602A (ja) 信号処理装置及び方法、並びにプログラム
US10510361B2 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
JPH0764598A (ja) 音声信号弁別装置及びオーディオ装置
JP4910765B2 (ja) サウンドマスキングシステム及びマスキングサウンド生成装置
US8600078B2 (en) Audio signal amplitude adjusting device and method
JPWO2006057131A1 (ja) 音響再生装置、音響再生システム
US8391509B2 (en) Audio-separating apparatus and operation method thereof
JP4983694B2 (ja) 音声再生装置
JP3630609B2 (ja) 音声情報再生方法ならびに装置
EP1805740A1 (en) A system for monitoring a person
JP2011254400A (ja) 画像音声記録装置
JP2007053661A (ja) 音量調整装置、音量調整方法
JP4086019B2 (ja) 音量制御装置
JP2007158526A (ja) 発話抑制装置、発話抑制方法および発話抑制装置のプログラム
JP2010252255A (ja) 自動音量制御出力装置
JP4127155B2 (ja) 聴覚補助装置
JP2007183410A (ja) 情報再生装置および方法
JP4381108B2 (ja) 話速変換装置における時報処理装置
JP4134844B2 (ja) 聴覚補助装置
JP3420831B2 (ja) 骨伝導音声のノイズ除去装置
JP2019161334A (ja) 音声処理装置
JP2005114890A (ja) オーディオ信号圧縮装置
JP2019091988A (ja) 音声処理装置および音声処理方法