JP5267115B2 - 信号処理装置、その処理方法およびプログラム - Google Patents

信号処理装置、その処理方法およびプログラム Download PDF

Info

Publication number
JP5267115B2
JP5267115B2 JP2008332031A JP2008332031A JP5267115B2 JP 5267115 B2 JP5267115 B2 JP 5267115B2 JP 2008332031 A JP2008332031 A JP 2008332031A JP 2008332031 A JP2008332031 A JP 2008332031A JP 5267115 B2 JP5267115 B2 JP 5267115B2
Authority
JP
Japan
Prior art keywords
sound
signal
unit
audio
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008332031A
Other languages
English (en)
Other versions
JP2010154388A (ja
Inventor
秀明 渡辺
式曜 藤田
淳 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008332031A priority Critical patent/JP5267115B2/ja
Priority to EP09252574.0A priority patent/EP2202881B1/en
Priority to US12/645,257 priority patent/US20100166225A1/en
Priority to CN200910261123A priority patent/CN101771392A/zh
Publication of JP2010154388A publication Critical patent/JP2010154388A/ja
Application granted granted Critical
Publication of JP5267115B2 publication Critical patent/JP5267115B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、信号処理装置に関し、特に音声信号の音量を自動的に制御する信号処理装置、および、その処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。
近年、テレビ放送の多チャンネル化やDVD(Digital Versatile Disk)の普及などにより、多様なAV(Audio Visual)コンテンツが記録再生装置において再生される状況にある。このような状況においては、コンテンツごとの音声信号のレベルにばらつきが多いため、視聴者は、コンテンツごとに音声信号の出力レベルを手動により調整する必要がある。このため、コンテンツごとの音声の出力レベルが均一になるよう調整する手法が考案されている。例えば、コンテンツに含まれるシーンの種別を検出することによって、シーンごとの音量差を自動的に調整する記録再生装置が提案されている(例えば、特許文献1参照。)。
一方、視聴者の視聴環境において騒音ノイズが変動する場合もある。このような場合にも、視聴者は、その騒音ノイズの変動に応じて、手動により記録再生装置から出力される音声の音量を調整しなければならない。このため、マイクにより集音された信号からノイズレベルを検出して、その検出されたノイズレベルに基づいて出力音声の音量を調整する音声出力装置が提案されている(例えば、特許文献2参照。)。
特開2007−53510号公報(図1) 特許第3286981号(図1)
上述の2つの従来技術において、前者では、コンテンツに含まれるシーンの種別を判別することによって、出力音声の音量を自動的に調整することができる。しかしながら、このときには、視聴者の視聴環境における騒音ノイズが変動する場合には、その変動に応じて、その都度手動による音声調整が必要となる。一方、後者では、視聴環境における騒音レベルに応じて出力音声の音量を調整することができる。しかしながら、コンテンツの音声信号レベルにばらつきがある場合には、コンテンツごとに手動による音声調整が必要となる。
このように、従来技術では、騒音ノイズの変動またはコンテンツごとの音量レベルの違いによって、手動による音声調整が必要となってしまう。
本発明はこのような状況に鑑みてなされたものであり、音声信号を最適な出力レベルに調整することを目的とする。
本発明は、上記課題を解決するためになされたものであり、その第1の側面は、コンテンツにおける音声信号に基づいて第1の音声調整情報を生成する第1の音声調整情報生成部と、音声入力部により入力された騒音信号のうち音声出力部により出力された上記音声信号と他の騒音信号とを分離する音声分離部と、上記音声分離部により分離された上記他の騒音信号に基づいて第2の音声調整情報を生成する第2の音声調整情報生成部と、上記音声出力部に出力される上記音声信号の音量を上記第1および第2の音声調整情報に基づいて調整する音声調整部とを具備する信号処理装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、音声信号に基づいて生成される第1の音声調整情報と、他の騒音信号に基づいて生成される第2の音声調整情報とに基づいて音声信号の音量を調整させるという作用をもたらす。
また、この第1の側面において、上記第1の音声調整情報生成部は、上記音声信号の周波数特性と人間の聴覚特性とに基づいて上記第1の音声調整情報を生成し、上記第2の音声調整情報生成部は、上記他の騒音信号の信号レベルに基づいて上記第2の音声調整情報を生成し、上記音声調整部は、上記第1の音声調整情報が大きいほど上記音声信号の音量を小さくし、上記第2の音声調整情報が大きいほど上記音声信号の音量を大きくするようにしてもよい。これにより、音声調整部は、音声信号の周波数特性と人間の聴覚特性とに基づいて生成された第1の音声調整情報が大きいほど音声信号の音量を小さくさせ、他の騒音信号の信号レベルに基づいて生成された第2の音声調整情報が大きいほど音声信号の音量を大きくさせるという作用をもたらす。この場合において、上記第1の音声調整情報生成部は、上記音声信号の周期性と上記音声信号の信号レベルとに基づいて上記音声信号が有声音であるか無声音であるかを判定する音声判定部を備え、上記音声調整部は、上記音声判定部により有声音と判定された場合には上記音声判定部により無声音と判定されたときに比べて上記音声信号の音量を大きくするようにしてもよい。これにより、音声調整部は、音声信号の周期性および音声信号の信号レベルとに基づいて音声信号が有音声であるか否かが判定され、有声音であると判定された場合には無声音と判定されたときに比べて音声信号の音量を大きくさせるという作用をもたらす。
また、上記第1の音声調整情報生成部は、上記音声信号の周波数特性と人間の聴覚特性とに基づいて上記第1の音声調整情報を生成し、上記第2の音声調整情報生成部は、上記他の騒音信号の信号レベルに基づいて上記第2の音声調整情報を生成し、上記音声調整部は、上記第1の音声調整情報が大きいほど上記音声信号の音量を小さくし、上記第2の音声調整情報が大きいほど上記音声信号の音量を大きくする場合において、上記第1の音声調整情報生成部は、上記音声信号の信号レベルに基づいて上記音声信号が無音であるか否かを判定する無音判定部をさらに備え、上記音声調整部は、上記無音判定部により無音であると判定された場合には上記音声信号の音量を大きくしないようにしてもよい。これにより、音声信号の信号レベルに基づいて音声信号が無音であると判定された場合には音声信号の音量を大きくさせないという作用をもたらす。
また、この第1の側面において、上記音声分離部は、上記音声信号と上記騒音信号に含まれる音声信号との類似度を上記音声信号に基づいて算出して上記算出された類似度に基づいて上記他の騒音信号を推定するようにしてもよい。これにより、音声分離部は、音声信号に基づいて推定される騒音信号に含まれる音声信号を騒音信号から除去させるという作用をもたらす。この場合において、上記音声分離部は、エコーキャンセラーを備えるようにしてもよい。これにより、音声分離部は、エコーキャンセラーを備えることによって騒音信号のうち騒音信号に含まれる音声信号を除去させるという作用をもたらす。
本発明によれば、音声信号を最適な出力レベルに調整させるという優れた効果を奏し得る。
以下、本発明を実施するための最良の形態(以下、実施の形態と称する)について説明する。説明は以下の順序により行う。
1.第1の実施の形態(音声信号の音量制御:記録再生装置の構成例)
2.第2の実施の形態(音声信号の音量制御:制御情報のデータ形式の例)
3.第3の実施の形態(音声信号の音量制御:利得算出手法の例)
4.第4の実施の形態(音声信号の音量制御:音量制御手順の例)
<1.第1の実施の形態>
[記録再生装置の構成例]
図1は、本発明の第1の実施の形態における記録再生装置の一構成例を示すブロック図である。記録再生装置100は、アンテナ110と、チューナ部120と、コンテンツ記録部130と、コンテンツ再生部140と、コンテンツ解析情報生成部150と、スピーカ160とを備える。また、記録再生装置100は、マイク170と、環境騒音分離部180と、環境騒音解析情報生成部190と、音声調整部200とを備える。
アンテナ110は、放送信号を受信するために用いられるものである。このアンテナ110は、例えば、地上波放送、BS放送やCS放送などの放送信号を受信する。
チューナ部120は、アンテナ110により受信された信号を復調するものである。このチューナ部120は、その復調された受信データであるコンテンツデータをコンテンツ再生部140に供給する。ここにいうコンテンツデータには、例えば、地上波放送、BS放送、CS放送などの放送コンテンツや放送コンテンツに付随するEPGなどのメタデータが含まれる。
コンテンツ記録部130は、チューナ部120から供給されるコンテンツデータを所定のフォーマットに変換して記録するものである。また、このコンテンツ記録部130は、コンテンツ記録部130において記録されているコンテンツデータをコンテンツ再生部140に供給する。ここでは、チューナ部120からのコンテンツデータを記録する例について説明したが、記録再生装置100にAV入力端子を設けて外部装置から供給されるコンテンツデータを記録するようにしてもよい。
コンテンツ再生部140は、チューナ部120から供給されるコンテンツデータまたはコンテンツ記録部130から供給されるコンテンツデータを再生するものである。このコンテンツ再生部140は、例えば、チューナ部120から供給される音声データを復号することによって音声信号を生成する。また、このコンテンツ再生部140は、コンテンツ記録部130からのAVコンテンツデータに含まれる画像データと、これに対応する音声データとを復号することによって画像信号および音声信号を生成する。
また、コンテンツ再生部140は、信号線149および201を介してコンテンツ解析情報生成部150および音声調整部200に復号された音声信号をそれぞれ供給する。このコンテンツ再生部140は、例えば、復号された音声信号に加えて、画像データやメタデータなどを供給する。また、コンテンツ再生部140は、チューナ部120から供給されたコンテンツデータを復号してコンテンツ記録部130に供給する。
コンテンツ解析情報生成部150は、コンテンツ再生部140から供給されるコンテンツデータを解析することによって、コンテンツ再生部140において再生される音声信号に関するコンテンツ解析情報を生成するものである。このコンテンツ解析情報生成部150は、コンテンツ再生部140から供給される音声信号に基づいて、フレームごとにコンテンツ解析情報を生成する。ここにいうフレームとは、音声信号における標本化された一定数のサンプルのことをいう。このコンテンツ解析情報生成部150は、例えば、コンテンツ再生部140から供給された音声信号の周波数特性に基づいてコンテンツ解析情報を生成する。
また、このコンテンツ解析情報生成部150は、例えば、コンテンツにおけるシーンの種別(CM(Commercial Message)/ニュース番組など)を判定して、その判定結果をコンテンツ解析情報として音声調整部200に供給する。この例において、コンテンツ解析情報生成部150は、コンテンツにおける映像信号の輝度情報などの時間的変化からシーンを検出する。そして、コンテンツ解析情報生成部150は、その検出結果とEPG(Electric Program Guide)データなどの情報とを組み合わせてシーンの種別を判定する。
また、コンテンツ解析情報生成部150は、生成されたコンテンツ解析情報を音声調整部200に供給する。なお、コンテンツ解析情報生成部150は、特許請求の範囲に記載の第1の音声調整情報生成部の一例である。また、コンテンツ解析情報は、特許請求の範囲の第1の音声調整情報の一例である。
スピーカ160は、音声調整部200から供給される音声信号を出力音声として出力する拡音器である。なお、スピーカ160は、特許請求の範囲に記載の音声出力部の一例である。
マイク170は、記録再生装置100の周辺の環境音を集音するマイクロフォンである。このマイク170は、その集音された環境音を電気信号に変換して、騒音信号として環境騒音分離部180に供給する。この騒音信号には、スピーカ160から出力された出力音声と、それ以外の環境騒音とが含まれる。なお、マイク170は、特許請求の範囲に記載の音声入力部の一例である。
環境騒音分離部180は、マイク170から供給される騒音信号と、音声調整部200から供給される音声信号とに基づいて、騒音信号に含まれるスピーカ160からの出力音声を除去するものである。すなわち、環境騒音分離部180は、マイク170からの騒音信号のうち、スピーカ160から出力された音声信号の成分と、他の騒音信号である環境騒音信号の成分とを分離する。
この環境騒音分離部180は、音声調整部200から供給される音声信号と、騒音信号に含まれる出力音声との類似度を音声調整部200からの音声信号に基づいて算出して、その算出された類似度に基づいて環境騒音信号を推定する。この環境騒音分離部180は、例えば、エコーキャンセラーにより実現される。また、環境騒音分離部180は、分離された環境騒音信号を、信号線189を介して環境騒音解析情報生成部190に供給する。なお、環境騒音分離部180は、特許請求の範囲に記載の音声分離部の一例である。
環境騒音解析情報生成部190は、環境騒音分離部180から供給される環境騒音信号を解析することによって、環境騒音信号に関する環境騒音解析情報を生成するものである。この環境騒音解析情報生成部190は、環境騒音分離部180から供給される環境騒音信号に基づいて環境騒音解析情報を生成する。この環境騒音解析情報生成部190は、例えば、環境騒音分離部180から供給される環境騒音信号の信号レベルに基づいて環境騒音解析情報を生成する。また、環境騒音解析情報生成部190は、その生成された環境騒音解析情報を音声調整部200に供給する。なお、環境騒音解析情報生成部190は、特許請求の範囲に記載の第2の音声調整情報生成部の一例である。また、環境騒音解析情報は、特許請求の範囲の第2の音声調整情報の一例である。
音声調整部200は、コンテンツ解析情報生成部150からのコンテンツ解析情報および環境騒音解析情報生成部190からの環境騒音解析情報に基づいて、コンテンツ再生部140から供給された音声信号の音量を調整するものである。この音声調整部200は、信号線209を介して、その調整された音声信号をスピーカ160および環境騒音分離部180に供給する。なお、音声調整部200は、特許請求の範囲に記載の音声調整部の一例である。
[コンテンツ解析情報生成部および環境騒音解析情報生成部の構成例]
図2は、本発明の第1の実施の形態におけるコンテンツ解析情報生成部150および環境騒音解析情報生成部190の一構成例を示すブロック図である。ここでは、音声調整部200は、図1と同一のものであるため、同一符号を付してここでの説明を省略する。
コンテンツ解析情報生成部150は、音声レベル算出部151と、無音判定部152と、ピッチゲイン算出部153と、音声判定部154と、パワースペクトル算出部155と、ラウドネスレベル算出部156とを備える。また、環境騒音解析情報生成部190は、騒音レベル算出部191およびパワースペクトル算出部192を備える。
音声レベル算出部151は、信号線149を介して供給される音声信号の信号レベルをフレームごとに算出するものである。この音声レベル算出部151は、音声信号の各フレームにおけるサンプル値の二乗平均平方根(パワー値)である信号レベルを音声レベルとして算出する。この音声レベル算出部151は、その算出された音声レベルを無音判定部152、音声判定部154および音声調整部200に供給する。
無音判定部152は、音声レベル算出部151から供給される音声信号の音声レベルに基づいて、その音声信号に関して無音であるか否かを判定するものである。この無音判定部152は、音声レベル算出部151からの音声レベルおよび予め定められた閾値Ts(音声レベル閾値)に基づいて音声信号が無音であるか否かを判定して、その判定結果に基づいて無音判定情報を生成する。この無音判定部152は、例えば、音声レベルが閾値未満である場合には無音である旨を示す無音判定情報(Silence Flag=True)を生成する。一方、この無音判定部152は、音声レベルが閾値以上である場合には無音でない旨を示す無音判定情報(Silence Flag=False)を生成する。また、この無音判定部152は、その生成された無音判定情報をコンテンツ解析情報として音声調整部200に供給する。なお、無音判定部152は、特許請求の範囲に記載の無音判定部の一例である。
ピッチゲイン算出部153は、信号線149を介して供給される音声信号を分析することによってピッチゲインを算出するものである。ここにいうピッチゲインとは、人間の発する音声の特徴を表わすピッチ成分の強度を示す指標である。このピッチゲイン算出部153は、信号線149から供給される音声信号の周期性に基づいてピッチゲインをフレームごとに算出する。このピッチゲイン算出部153は、その算出されたピッチゲインを音声判定部154に供給する。
音声判定部154は、音声レベル算出部151から供給される音声レベルと、ピッチゲイン算出部153から供給されるピッチゲインとに基づいて、コンテンツ再生部140からの音声信号が有音声であるか無音声であるかを判定するものである。すなわち、音声判定部154は、時間領域における音声信号の周期性と音声信号の信号レベルとに基づいて有音声であるか否かを判定する。そして、この音声判定部154は、その判定結果に基づいて音声判定情報を生成する。
この音声判定部154は、例えば、音声レベルが上述の閾値Ts(音声レベル閾値)以上であり、かつ、ピッチゲインが一定の閾値Tp(ピッチゲイン閾値)以上である場合には有音声である旨を示す音声判定情報を生成する。それ以外の場合には、音声判定部154は、無音声である旨を示す音声判定情報を生成する。また、この音声判定部154は、例えば、音声レベルおよびピッチゲインに対応付けられた音声信号の特徴量を予め保持しておき、音声レベル算出部151からの音声レベルおよびピッチゲイン算出部153からのピッチゲインに対応する音声信号の特徴量を取得する。そして、この音声判定部154は、その音声信号の特徴量が予め定められた閾値Tf(特徴量閾値)より大きい場合には有音声である旨を示す音声判定情報を生成し、特徴量が閾値未満である場合には無音声である旨を示す音声判定情報を生成する。また、音声判定部154は、その生成された音声判定情報をコンテンツ解析情報として音声調整部200に供給する。なお、音声判定部154は、特許請求の範囲に記載の音声判定部の一例である。
パワースペクトル算出部155は、信号線149を介して供給される音声信号の周波数特性に基づいて、その音声信号のパワースペクトルを算出するものである。このパワースペクトル算出部155は、その算出されたパワースペクトルをラウドネスレベル算出部156に供給する。
ラウドネスレベル算出部156は、パワースペクトル算出部155から供給されるパワースペクトルに基づいてラウドネスレベルを算出するものである。ここにいうラウドネスレベルとは、人間の聴覚特性を考慮した音の大きさを示す指標のことをいう。すなわち、このラウドネスレベル算出部156は、音声信号の周波数特性と人間の聴覚特性とに基づいてラウドネスレベルを算出する。
このラウドネスレベル算出部156は、例えば、ISO(International Organization for Standardization)532Bの規定に基づいてラウドネスレベルを算出する。この例において、ラウドネスレベル算出部156は、臨界帯域ごとの音声信号におけるパワーに対するマスキングカーブをそれぞれ生成する。そして、ラウドネスレベル算出部156は、その生成された複数のマスキングカーブが重ね合わせられた領域の面積を算出することによって、ラウドネスレベルを算出する。また、ラウドネスレベル算出部156は、その算出されたラウドネスレベルをコンテンツ解析情報として音声調整部200に供給する。なお、ラウドネスレベル算出部156は、特許請求の範囲に記載の第1の音声調整情報生成部の一例である。
騒音レベル算出部191は、信号線189を介して供給される環境騒音信号の信号レベルをフレームごとに算出するものである。この騒音レベル算出部191は、環境騒音信号の各フレームにおけるサンプル値の二乗平均平方根(パワー値)である信号レベルを騒音レベルとして算出する。この騒音レベル算出部191は、その算出された騒音レベルを環境騒音解析情報として音声調整部200に供給する。なお、騒音レベル算出部191は、特許請求の範囲に記載の第2の音声調整情報生成部の一例である。
パワースペクトル算出部192は、信号線189を介して供給される環境騒音信号の周波数特性に基づいて、当該環境騒音信号のパワースペクトルを算出するものである。このパワースペクトル算出部192は、その算出されたパワースペクトルを環境騒音解析情報として音声調整部200に供給する。
[音声調整部の構成例]
図3は、本発明の第1の実施の形態における音声調整部200の一構成例を示すブロック図である。
音声調整部200は、ゲイン特性決定部210と、目標利得算出部220と、調整利得算出部230と、利得設定部240と、コンプレッサ処理部251と、イコライジング処理部252と、全体音量増幅部253と、調整帯域設定部260とを備える。
ゲイン特性決定部210は、コンテンツ解析情報および環境騒音解析情報に基づいて、音声信号の音量の増加量を算出するためのゲイン特性を決定するものである。このゲイン特性決定部210は、ラウドネスレベル算出部156からのラウドネスレベルと、音声判定部154からの音声判定情報と、騒音レベル算出部191からの騒音レベルとに基づいてゲイン特性を決定する。ゲイン特性決定部210は、最大利得テーブル211と、最大利得取得部212と、ゲイン特性傾き決定部213と、最小騒音レベル抽出部214とを備える。
最大利得テーブル211は、音声信号のラウドネスレベルおよび騒音レベルに対応付けられたゲイン特性における最大利得を保持するものである。このゲイン特性における最大利得は、ゲイン特性における上限値であり、音声信号を過剰に増幅させることを防止するために設けられている。また、最大利得テーブル211は、最大利得取得部212からの音声信号のラウドネスレベルおよび騒音レベルに基づいて対応付けられた最大利得を最大利得取得部212に出力する。
この最大利得テーブル211は、音声信号のラウドネスレベルが大きい程、視聴者にとって聞き取り易い音声であるため、小さい値の最大利得を出力し、ラウドネスレベルが小さい程、聞き取り難い音声であるため、大きい値の最大利得を出力する。一方、この最大利得テーブル211は、騒音レベルが大きい程、環境騒音が大きいため、大きい値の最大利得を出力し、騒音レベルが小さい程、環境騒音が小さいため、小さい値の最大利得を出力する。すなわち、この最大利得テーブル211は、音声信号のラウドネスレベルが大きい程、小さい値の最大利得を出力し、騒音レベルが大きい程、大きい値の最大利得を出力する。
最大利得取得部212は、ラウドネスレベル算出部156から供給されるラウドネスレベルと、騒音レベル算出部191から供給される騒音レベルとに基づいてゲイン特性における最大利得を取得するものである。この最大利得取得部212は、ラウドネスレベル算出部156からのラウドネスレベルおよび騒音レベル算出部191からの騒音レベルをフレームごとに最大利得テーブル211に供給する。そして、この最大利得取得部212は、ラウドネスレベル算出部156からのラウドネスレベル、および、騒音レベル算出部191からの騒音レベルに対応付けられた最大利得を最大利得テーブル211から取得する。また、この最大利得取得部212は、その取得された最大利得を目標利得算出部220に供給する。なお、最大利得取得部212は、特許請求の範囲に記載の音声調整部の一例である。
なお、ここでは、音声信号のラウドネスレベルに基づいて最大利得を取得する例について説明したが、音声信号のラウドネスレベルに代えて音声信号の音声レベルを用いるようにしてもよい。また、環境騒音信号の騒音レベルに基づいて最大利得を取得する例について説明したが、騒音レベルに代えて環境騒音信号のラウドネスレベルを環境騒音解析情報生成部190において生成し、その生成されたラウドネスレベルを用いるようにしてもよい。
ゲイン特性傾き決定部213は、音声判定部154から供給される音声判定情報に基づいてゲイン特性における傾きを決定するものである。このゲイン特性傾き決定部213は、音声判定情報が有音声である旨を示す場合には、音声判定情報が無音声である旨を示すときに比べてゲイン特性の傾きを大きくする。
このゲイン特性傾き決定部213は、例えば、ゲイン特性の傾きを予め保持しておき、音声判定情報が有音声を示す場合には、音声判定情報が無音声を示すときに比べて大きい値のゲイン特性の傾き選択する。一方、このゲイン特性傾き決定部213は、音声判定情報が無音声を示す場合には、音声判定情報が有音声を示すときに比べて小さい値のゲイン特性の傾き選択する。また、ゲイン特性傾き決定部213は、選択されたゲイン特性における傾きを目標利得算出部220に供給する。なお、ゲイン特性傾き決定部213は、特許請求の範囲に記載の音声調整部の一例である。また、ここでは、音声判定情報に基づいてゲイン特性の傾きを決定する例について説明したが、再生されるコンテンツにおけるシーンの種別に応じてゲイン特性の傾きを決定するようにしてもよい。
最小騒音レベル抽出部214は、騒音レベル算出部191から供給されるフレームごとの騒音レベルのうち最小の騒音レベルを抽出するものである。この最小騒音レベル抽出部214は、例えば、一定期間において最も小さい騒音レベルである最小騒音レベルを抽出して、その抽出された最小騒音レベルが過去の最小騒音レベルより小さい場合には、その最小騒音レベルを新たな最小騒音レベルとして保持する。また、最小騒音レベル抽出部214は、その抽出された最小騒音レベルを暗騒音レベルとして目標利得算出部220に供給する。
目標利得算出部220は、ゲイン特性決定部210から供給されるゲイン特性における最大利得、傾きおよび暗騒音レベルを用いることによって、騒音レベル算出部191からの騒音レベルに基づいて目標利得を算出するものである。この目標利得算出部220は、最大利得取得部212からの最大利得と、ゲイン特性傾き決定部213からの傾きと、最小騒音レベル抽出部214からの暗騒音レベルとを用いてゲイン特性を生成する。そして、この目標利得算出部220は、その生成されたゲイン特性において、騒音レベル算出部191からの騒音レベルに対応する目標利得を算出する。また、目標利得算出部220は、その算出された目標利得を調整利得算出部230に供給する。
調整利得算出部230は、音声信号に対する不自然な音量の増減を抑制するために、目標利得に基づいて調整利得を算出するものである。この調整利得算出部230は、目標利得算出部220から供給される目標利得と、無音判定部152から供給される無音判定情報とに基づいて調整利得を算出する。調整利得算出部230は、例えば、無音判定情報が無音でない旨を示し、かつ、目標利得(target_gain[m])が前のフレームの調整利得(eq_gain[m−1])より大きい場合には式1に基づいて調整利得(eq_gain[m])を算出する。それ以外の場合には、調整利得算出部230は、式2に基づいて調整利得(eq_gain[m])を算出する。
Figure 0005267115
ここで、t1およびt2は定数である。また、t1は「0.0」より大きく設定され、t2は「1.0」未満に設定される。
式1により、現在のフレームの音声信号が無音状態でなく、かつ、1つ前のフレームの音声信号の音量からさらに音量を増加させる場合には、1つ前のフレームの音量からの急激な音量増加を抑制することができる。また、式2により、現在のフレームの音声信号が無音と判定された場合には、目標利得に関係なく、1つ前のフレームの音量に基づいて音量調整するため、無音状態における不自然な音量増加を防止することができる。また、1つ前のフレームの音量から低下させる場合にも、急激な音量低下を抑制することができる。また、調整利得算出部230は、その算出された調整利得を利得設定部240に供給する。なお、調整利得算出部230は、特許請求の範囲に記載の音声調整部の一例である。
利得設定部240は、調整利得算出部230から供給された調整利得に基づいて、コンプレッサ処理部251、イコライジング処理部252および全体音量増幅部253の利得をそれぞれ設定するものである。
この利得設定部240は、例えば、調整利得算出部230から供給される調整利得が一定の閾値Ta(コンプレッサ処理閾値)以下である場合には、コンプレッサ処理部251のみに音声信号を増幅させるように利得を設定する。また、この利得設定部240は、調整利得が閾値Taより大きく、かつ、一定の閾値Tb(イコライジング処理閾値)以下である場合には、コンプレッサ処理部251およびイコライジング処理部252によって音声信号を増幅させるように利得を設定する。この利得設定部240は、調整利得が閾値Tbより大きい場合には、コンプレッサ処理部251、イコライジング処理部252および全体音量増幅部253によって音声信号を増幅させるように利得を設定する。
コンプレッサ処理部251は、音声レベル算出部151から供給される音声レベルに応じて、音声信号の音圧を補正するものである。このコンプレッサ処理部251は、利得設定部240により設定される利得と、音声レベル算出部151から供給される音声レベルとに基づいて、信号線201を介して供給される音声信号を増幅させる。このコンプレッサ処理部251は、例えば、音声レベル算出部151から供給される音声レベルに応じて、音声信号の音量の増幅率を変更する。また、このコンプレッサ処理部251は、その増幅された音声信号をイコライジング処理部252に供給する。
イコライジング処理部252は、環境騒音信号の周波数帯域に基づいて音声信号における周波数成分を増幅させるものである。このイコライジング処理部252は、利得設定部240により設定される利得と、調整帯域設定部260により設定される最大周波数とに基づいて、コンプレッサ処理部251によって増幅された音声信号をさらに増幅する。また、イコライジング処理部252は、増幅された音声信号を全体音量増幅部253に供給する。
全体音量増幅部253は、利得設定部240により設定された利得に基づいて、イコライジング処理部252により増幅された音声信号をさらに増幅するものである。この全体音量増幅部253は、その増幅された音声信号を信号線209に供給する。
調整帯域設定部260は、パワースペクトル算出部192から供給される環境騒音信号のパワースペクトルに基づいて、イコライジング処理部252において音量調整すべき音声信号の周波数帯域を設定するものである。この調整帯域設定部260は、例えば、パワースペクトルに基づいてスペクトルセントロイドを算出する。そして、この調整帯域設定部260は、その算出されたスペクトルセントロイドに、予め定められた値を乗算することによって、音声信号を増幅させる帯域の上限である最大周波数を算出する。ここにいうスペクトルセントロイドとは、環境騒音信号におけるパワースペクトルの重心に相当する周波数である。また、調整帯域設定部260は、その設定された最大周波数をイコライジング処理部252に設定する。
このように、最大利得取得部212を設けることによって、音声信号のラウドネスレベルと環境騒音信号の騒音レベルとに基づいて最大利得を設定することができる。また、ゲイン特性傾き決定部213を設けることによって音声判定情報に基づいてゲイン特性の傾きの大きさを設定することができる。また、調整利得算出部230を設けることによって、無音状態における不自然な音量増加を防止することができるとともに、急激な音量の増減を抑制することができる。また、最小騒音レベル抽出部214を設けることによって、暗騒音レベルの異なる環境に応じた適切なゲイン特性を生成することができる。
[環境騒音分離部の構成例]
図4は、本発明の第1の実施の形態における環境騒音分離部180の一構成例を示すブロック図である。ここでは、スピーカ160と、マイク170と、環境騒音分離部180とが示されている。また、ここでは、信号線209から供給される再生音声のうちの1つのサンプル値をx[n]とし、スピーカ160から出力されたサンプル値x[n]の出力音声をy'[n]とし、出力音声y'[n]以外の環境騒音をs[n]とする。これにより、マイク170から供給される騒音信号はy'[n]+s[n]となる。なお、スピーカ160およびマイク170は、図1に示したものと同様であるため、同一符号を付してここでの説明を省略する。
環境騒音分離部180は、適応フィルタ181および減算器182を備える。適応フィルタ181は、信号線209からの再生音声x[n]に基づいて、マイク170からの騒音信号に含まれる出力音声成分y[n]を推定するものである。この適応フィルタ181は、減算器182からフィードバックされた信号に基づいて推定される室内伝達系のインパルス応答を再生音声x[n]に畳み込むことによって出力音声成分y[n]を推定する。
減算器182は、マイク170から供給される騒音信号(y'[n]+s[n])と、適応フィルタ181により推定される出力音声成分y[n]との差分を算出する減算器である。この減算器182が、マイク170から供給される騒音信号(y'[n]+s[n])に対して適応フィルタ181により推定された出力音声成分y[n]を減算することにより、環境騒音信号e[n]を生成する。この減算器182は、その生成された環境騒音信号e[n]を、適応フィルタ181に供給するとともに、信号線189を介して環境騒音解析情報生成部190に供給する。
このように、適応フィルタ181および減算器182を設けることによって、マイク170から供給された騒音信号に含まれる出力音声成分を除去して、環境騒音信号e[n]を抽出することができる。
<2.第2の実施の形態>
[コンテンツ解析情報のデータ形式例]
図5は、本発明の第2の実施の形態におけるコンテンツ解析情報生成部150により生成されるコンテンツ解析情報のデータ形式を例示する図である。ここでは、再生音声信号310およびコンテンツ解析情報320のデータ形式が示されている。ここでは、横軸を時間軸としている。
再生音声信号310は、コンテンツ再生部140により再生された音声信号における振幅の変動を示している。この再生音声信号310は、標本化されたサンプルのうち連続するN個のサンプルを1フレームとして構成される。この再生音声信号310は、1フレームごとにコンテンツ解析情報生成部150によって解析される。また、再生音声x[n]は、1フレームにおける1サンプルの振幅の値である。
コンテンツ解析情報320は、コンテンツ解析情報生成部150においてフレームごとに生成される再生音声信号310に対するコンテンツ解析情報のデータ形式を示す概念図である。このコンテンツ解析情報320には、フレーム番号321、音声レベル322、無音判定情報323、ラウドネスレベル324および音声判定情報325が含まれる。
フレーム番号321には、再生音声信号310のフレームを識別するための番号が格納される。音声レベル322には、音声レベル算出部151において算出される再生音声信号310の1フレームにおける二乗平均平方根の値(RMS[m])が格納される。
無音判定情報323には、無音判定部152において、再生音声信号310が無音であるか否かが判定されて、その判定結果(Silence Flag[m])が格納される。この無音判定情報323には、例えば、無音判定部152により無音であると判定された場合には"True"が格納され、無音でないと判定された場合には"False"が格納される。
ラウドネスレベル324には、ラウドネスレベル算出部156において算出されたラウドネスレベルの値(L[m])が格納される。このラウドネスレベル324は、人間の聴覚特性を考慮した音の大きさを表わすものである。そのため、視聴者には、ラウドネスレベル324の値が大きい程、スピーカ160から出力される再生音声信号310は聞こえ易く、ラウドネスレベル324の値が小さい程、スピーカ160から出力される再生音声信号310は聞こえ難い。
音声判定情報325には、音声判定部154において、再生音声信号310が有音声であるか無音声であるかが判定され、その判定結果(Speech Flag[m])が格納される。
このように、コンテンツ解析情報生成部150により生成されたコンテンツ解析情報320が音声調整部200に供給される。
[環境騒音解析情報のデータ形式例]
図6は、本発明の第の実施の形態における環境騒音解析情報生成部190により生成される環境騒音情報のデータ形式を例示する図である。ここでは、環境騒音信号410および環境騒音解析情報420のデータ形式が示されている。ここでは、横軸を時間軸としている。
環境騒音信号410は、環境騒音分離部180により分離された環境騒音信号における振幅の変動を示している。この環境騒音信号410は、標本化されたNサンプルを1フレームとして構成される。この環境騒音信号410は、1フレームごとに環境騒音解析情報生成部190により解析される。また、環境騒音信号e[n]は、1フレームにおける1サンプルの振幅の値である。
環境騒音解析情報420は、環境騒音解析情報生成部190においてフレームごとに生成される環境騒音信号410に対する環境騒音解析情報のデータ形式を示す概念図である。この環境騒音解析情報420には、フレーム番号421、騒音レベル422およびパワースペクトル423が含まれる。
フレーム番号421には、環境騒音信号410のフレームを識別するための番号が格納される。騒音レベル422には、騒音レベル算出部191において算出される環境騒音信号410の二乗平均平方根の値(RMS_e[m])が格納される。パワースペクトル423には、パワースペクトル算出部192において算出されたk個のパワースペクトルの値(sp_e[m][1]〜[m][k])が格納される。なお、kは、Nサンプルの半分の値である。
このように、環境騒音解析情報生成部190により生成された環境騒音解析情報420が音声調整部200に供給される。次に、環境騒音解析情報およびコンテンツ解析情報に基づいて算出される目標利得の算出手法について図面を参照して説明する。
<3.第3の実施の形態>
[目標利得の算出手法の例]
図7は、本発明の第3の実施の形態の音声調整部200における目標利得の算出手法を例示する図である。ここでは、ゲイン特性510および520が示されている。また、ここでは、縦軸を音声信号に対する音量の利得とし、横軸を騒音レベルとする。
最大利得(gain_sup)は、最大利得取得部212において取得されたゲイン特性における最大利得である。この最大利得(gain_sup)は、最大利得取得部212おいて音声信号のラウドネスレベル(L)と環境騒音信号の騒音レベル(RMS_e)とに基づいて決定される。この最大利得(gain_sup)は、騒音レベル(RMS_e)が大きいほど最大利得が大きくなり、騒音レベル(RMS_e)が小さいほど小さくなる。一方、音声信号に対するラウドネスレベル(L)が大きいほど、視聴者にとって聞き取り易い音であるため、最大利得(gain_sup)は小さくなる。これに対し、ラウドネスレベル(L)が小さいほど、視聴者にとって聞き取り難い音であるため、最大利得(gain_sup)は大きくなる。
暗騒音レベル(RMS__inf)は、最小騒音レベル抽出部214により抽出された最小の騒音レベルである。この暗騒音レベル(RMS__inf)は、最小騒音レベル抽出部214において各フレームにおける騒音レベル(RMS_e)のうち、最小の騒音レベルを抽出することによって設定される。これにより、暗騒音レベル(RMS__inf)の異なる環境に応じたゲイン特性が生成される。
ゲイン特性510および520の傾きは、ゲイン特性傾き決定部213により音声判定情報(Speech Flag)に基づいて、予め定められたゲイン特性における傾きが決定される。
このように、最大利得(gain_sup)、暗騒音レベル(RMS__inf)およびゲイン特性510および520の傾きを定めることによって、ゲイン特性510および520が決定される。
ゲイン特性510は、音声判定情報(Speech Flag)が有音声を示す場合におけるゲイン特性である。このゲイン特性510は、ゲイン特性520に比べて傾きの大きい特性を示す。これにより、音声信号が有音声である場合には、視聴者に対して音声信号を聞き取り易くすることができる。
ゲイン特性520は、音声判定情報(Speech Flag)が無音声を示す場合におけるゲイン特性である。例えば、音声判定情報(Speech Flag)が無音声を示す場合には、ゲイン特性520に基づいて、騒音レベル(RMS_e)に対応する目標利得(target_gain)が算出される。
このように、音声信号のラウドネスレベル(L)および環境騒音信号の騒音レベル(RMS_e)に基づいて最大利得が決定されるため、目標利得は、ラウドネスレベル(L)が大きいほど小さくなり、騒音レベル(RMS_e)が大きいほど大きくなる。すなわち、記録再生装置100は、スピーカ160から出力される音声信号が聞き取り易い特性であれば出力音声レベルの増加量を抑え、マイク170からの環境騒音が大きければ出力音声レベルの増加量を大きくする。
また、音声判定情報に基づいてゲイン特性の傾き選択するため、目標利得は、音声判定情報が有音声である旨を示す場合には大きくなり、無音声である旨を示す場合には小さくなる。すなわち、記録再生装置100は、スピーカ160から出力される音声信号が有音声である場合には、その音声信号を視聴者に対して聞き取り易くするために、出力音声レベルを無音声である場合に比べて大きくする。
[コンプレッサ処理部による音量調整手法の例]
図8は、本発明の第の実施の形態におけるコンプレッサ処理部251による音量調整手法の例に関する図である。ここでは、利得補正特性610が示されている。また、ここでは、横軸をコンテンツ解析情報生成部150により算出される音声レベル(RMS)とし、縦軸をコンプレッサ処理部251によって増幅された音声信号の音声出力レベルとする。
利得補正特性610は、コンテンツ解析情報生成部150によって算出された音声レベル(RMS)に応じて、コンテンツ再生部140により再生された音声信号の音量の増加率を補正するための利得特性の一例である。この利得補正特性610は、区間1乃至3の区間ごとに増加率が異なっている。
この場合において、コンプレッサ処理部251では、音声信号の音声レベル(RMS)が閾値Th_comp1(増加率増大閾値)未満(区間1)である場合には、音声レベル(RMS)が微小であるため、利得の補正を行わない。また、音声レベル(RMS)が閾値Th_comp1以上であり、かつ、閾値Th_comp2(増加率抑制閾値)未満(区間2)である場合には、音声信号の音圧を効果的に増加させるために、区間1に比べて音声信号の音量の増加率を大きくする。さらに、音声レベル(RMS)が閾値Th_comp2以上である場合(区間3)には、音声信号における振幅の増加を抑制するため、区間1に比べて音声信号の音量の増加率を小さくする。
このように、利得補正特性610を用いることによって、音声信号の最大振幅を抑制しつつ、音声信号の音圧を効果的に増加させることができる。次に、コンプレッサ処理部251により増幅された音声信号を、イコライジング処理部252においてさらに増幅する場合における音量調整手法について次図を参照して説明する。
[イコライジング処理部による音声調整手法の例]
図9は、本発明の第の実施の形態におけるイコライジング処理部252による音量調整手法の例に関する概念図である。ここでは、スペクトルセントロイドC1およびC2と、これらに対応する音量調整領域711および712が示されている。ここでは、横軸を周波数とし、縦軸を音声信号の音量の利得とする。
スペクトルセントロイドC1およびC2は、調整帯域設定部260において環境騒音信号のパワースペクトル(sp_e)に基づいて算出されたスペクトル重心周波数である。このスペクトルセントロイドC1およびC2を算出することにより、環境騒音信号におけるレベルの高い周波数成分を特定することができる。この例では、スペクトルセントロイドC1は、環境騒音信号における1番目のフレームに対するスペクトル重心周波数であり、スペクトルセントロイドC2は、2番目のフレームに対するスペクトル重心周波数である。
音量調整周波数f1およびf2は、イコライジング処理部252によって増幅させる音声信号の最大周波数である。この音量調整周波数f1およびf2は、スペクトルセントロイドC1およびC2に一定の値をそれぞれ乗算することによって求められる最大周波数である。
設定利得eq_gain1'およびeq_gain2'は、利得設定部240により設定された利得である。設定利得eq_gain1'は、音声信号における1番目のフレームに対する設定利得であり、設定利得eq_gain2'は、2番目のフレームに対する設定利得である。
音量調整領域711および712は、イコライジング処理部252において音声信号を増幅させる領域を示す概念図である。音量調整領域711は、音声信号における1番目のフレームに対する音量の増幅領域である。音量調整領域712は、音声信号における2番目のフレームに対する音量の増幅領域である。
このように、イコライジング処理部252により音声信号を増幅させる周波数帯域を、環境騒音信号の周波数特性に基づいて算出することによって、適切な音質調整を行うことができる。
<4.第4の実施の形態>
[記録再生装置の動作例]
次に本発明の第4の実施の形態における記録再生装置100の動作について図面を参照して説明する。
図10は、本発明の第4の実施の形態における記録再生装置100の音声調整方法の処理手順例を示すフローチャートである。
まず、コンテンツ再生部140により、コンテンツデータが再生されることによって、音声信号が生成される(ステップS910)。次に、コンテンツ解析情報生成部150により、コンテンツ再生部140からの音声信号に基づいてコンテンツ解析情報が生成される(ステップS920)。なお、ステップS920は、特許請求の範囲に記載の第1の音声調整情報生成手順の一例である。
次に、環境騒音分離部180により、音声調整部200から供給される音声信号に基づいて、マイク170から供給された騒音信号のうち、スピーカ160により出力された音声信号と環境騒音信号とが分離される(ステップS930)。なお、ステップS930は、特許請求の範囲に記載の音声分離手順の一例である。次に、環境騒音解析情報生成部190により、環境騒音分離部180において分離された環境騒音信号に基づいて環境騒音解析情報が生成される(ステップS940)。なお、ステップS940は、特許請求の範囲に記載の第2の音声調整情報生成手順の一例である。
そして、音声調整部200において、コンテンツ解析情報および環境騒音解析情報に基づいて音声信号の音量を調整する音声調整処理が実行される(ステップS950)。なお、ステップS950は、特許請求の範囲に記載の音声調整手順の一例である。次に、スピーカ160により、音声調整部200において増幅された音声信号が出力される(ステップS960)。次に、次の音声信号のフレームがあるか否かが判断される(ステップS970)。次のフレームがあれば、最後のフレームまで音声処理を繰り返し、次のフレームが無ければ音声処理を終了する。
[音声調整部の動作例]
図11は、本発明の第4の実施の形態における音声調整部200の音声調整処理(ステップS950)の処理手順例を示すフローチャートである。
まず、コンテンツ解析情報生成部150からのコンテンツ解析情報と、環境騒音解析情報生成部190からの環境騒音解析情報とが取得される(ステップS951)。次に、最大利得取得部212により、ラウドネスレベル算出部156からの音声信号のラウドネスレベル(L)、および、騒音レベル算出部191からの騒音レベル(RMS_e)に対応する最大利得(gain_sup)が取得される。それとともに、ゲイン特性傾き決定部213により、音声判定情報(Speech Flag)に基づいてゲイン特性の傾きが決定される。さらに、最小騒音レベル抽出部214により、現在のフレームまでの騒音レベル(RMS_e)のうち最小の騒音レベルである暗騒音レベル(RMS_e_inf)が抽出される(ステップS952)。これにより、目標利得(target_gain)を算出するためのゲイン特性が生成される。


次に、目標利得算出部220により、ゲイン特性における最大利得、傾きおよび暗騒音レベルを用いることによって、現在のフレームにおける騒音レベル(RMS_e)に基づいて目標利得(target_gain)が算出される(ステップS953)。そして、調整利得算出部230により、目標利得(target_gain)および無音判定情報(Silence Flag)に基づいて調整利得(eq_gain)が算出される(ステップS954)。
次に、利得設定部240により、調整利得(eq_gain)に基づいてコンプレッサ処理部251に利得が設定されるとともに、音声レベル算出部151により、音声レベル(RMS)がコンプレッサ処理部251に供給される。そして、コンプレッサ処理部251により、利得設定部240によって設定された利得と、音声レベル算出部151からの音声レベルとに基づいて、コンテンツ再生部140からの音声信号が増幅される(ステップS955)。
次に、利得設定部240により、調整利得(eq_gain)が閾値Th_gain1以下であるか否かが判断される(ステップS956)。そして、調整利得(eq_gain)が閾値Th_gain1以下である場合には、音声調整処理が終了する。一方、調整利得(eq_gain)が閾値Th_gain1より大きい場合には、利得設定部240により、調整利得(eq_gain)に基づいてイコライジング処理部252に利得が設定される。それとともに、調整帯域設定部260により、環境騒音信号のパワースペクトルに基づいて音声信号を増幅させる周波数帯域が算出される。そして、イコライジング処理部252により、利得設定部240によって設定された利得と、調整帯域設定部260によって算出された周波数帯域とに基づいて、コンプレッサ処理部251からの音声信号が増幅される(ステップS957)。
次に、利得設定部240により、調整利得(eq_gain)が閾値Th_gain2以下であるか否かが判断される(ステップS958)。そして、調整利得(eq_gain)が閾値Th_gain2以下である場合には、音声調整処理が終了する。一方、調整利得(eq_gain)が閾値Th_gain2より大きい場合には、利得設定部240により、調整利得(eq_gain)に基づいて全体音量増幅部253に利得が設定される。そして、全体音量増幅部253により、利得設定部240によって設定された利得に基づいて、イコライジング処理部252からの音声信号が増幅され(ステップS959)、音声調整処理が終了し、ステップS960の処理に進む。
このように、本発明の実施の形態によれば、再生されるコンテンツに基づいて生成されるコンテンツ解析情報と、環境騒音信号に基づいて生成される環境騒音解析情報とに基づいて、再生されるコンテンツの音声信号を適切に調整することができる。
また、最大利得取得部212を設けることによって、音声信号のラウドネスレベルが大きい程、最大利得が小さくなり、目標利得も小さくなることから、音声信号の音量を小さくすることができる。さらに、騒音レベルが大きい程、最大利得が大きくなり、目標利得も小さくなることから、音声信号の音量を大きくすることができる。
また、ゲイン特性傾き決定部213を設けることによって、音声信号が有音声と判定された場合には、ゲイン特性の傾きが大きくなるため、目標利得が大きくなることから、出力音声を大きくすることができる。これにより、有音声と判定された音声信号の音量を大きくすることにより、出力音声を聞き取り易くすることができる。
なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、上述のように特許請求の範囲における発明特定事項とそれぞれ対応関係を有する。ただし、本発明は実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。
また、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、CD(Compact Disc)、MD(MiniDisc)、DVD、メモリカード、ブルーレイディスク(Blu-ray Disc(登録商標))等を用いることができる。
本発明の第1の実施の形態における記録再生装置の一構成例を示すブロック図である。 本発明の第1の実施の形態におけるコンテンツ解析情報生成部150および環境騒音解析情報生成部190の一構成例を示すブロック図である。 本発明の第1の実施の形態における音声調整部200の一構成例を示すブロック図である。 本発明の第1の実施の形態における環境騒音分離部180の一構成例を示すブロック図である。 本発明の第2の実施の形態におけるコンテンツ解析情報生成部150により生成されるコンテンツ解析情報のデータ形式を例示する図である。 本発明の第2の実施の形態における環境騒音解析情報生成部190により生成される環境騒音情報のデータ形式を例示する図である。 本発明の第3の実施の形態の音声調整部200における目標利得の算出手法を例示する図である。 本発明の第3の実施の形態におけるコンプレッサ処理部251による音量調整手法の例に関する図である。 本発明の第3の実施の形態におけるイコライジング処理部252による音量調整手法の例に関する概念図である。 本発明の第4の実施の形態における記録再生装置100の音声調整方法の処理手順例を示すフローチャートである。 本発明の第4の実施の形態における音声調整部200の音声調整処理(ステップS950)の処理手順例を示すフローチャートである。
符号の説明
100 記録再生装置
110 アンテナ
120 チューナ部
130 コンテンツ記録部
140 コンテンツ再生部
149、189、201、209 信号線
150 コンテンツ解析情報生成部
151 音声レベル算出部
152 無音判定部
153 ピッチゲイン算出部
154 音声判定部
155 パワースペクトル算出部
156 ラウドネスレベル算出部
160 スピーカ
170 マイク
180 環境騒音分離部
181 適応フィルタ
182 減算器
190 環境騒音解析情報生成部
191 騒音レベル算出部
192 パワースペクトル算出部
200 音声調整部
210 ゲイン特性決定部
211 最大利得テーブル
212 最大利得取得部
213 ゲイン特性傾き決定部
214 最小騒音レベル抽出部
220 目標利得算出部
230 調整利得算出部
240 利得設定部
251 コンプレッサ処理部
252 イコライジング処理部
253 全体音量増幅部
260 調整帯域設定部

Claims (6)

  1. コンテンツにおける音声信号の周波数特性と人間の聴覚特性とに基づいて第1の音声調整情報を生成する第1の音声調整情報生成部と、
    音声入力部により入力された騒音信号のうち音声出力部により出力された前記音声信号と他の騒音信号とを分離する音声分離部と、
    前記音声分離部により分離された前記他の騒音信号の信号レベルに基づいて第2の音声調整情報を生成する第2の音声調整情報生成部と、
    前記音声出力部に出力される前記音声信号の音量を前記第1および第2の音声調整情報に基づいて前記第1の音声調整情報が大きいほど前記音声信号の音量を小さくし、前記第2の音声調整情報が大きいほど前記音声信号の音量を大きくするように調整する音声調整部と
    を具備し、
    前記第1の音声調整情報生成部は、前記音声信号の周期性と前記音声信号の信号レベルとに基づいて前記音声信号が有声音であるか無声音であるかを判定する音声判定部を備え、
    前記音声調整部は、前記音声判定部により有声音と判定された場合には前記音声判定部により無声音と判定されたときに比べて前記音声信号の音量を大きくする
    信号処理装置。
  2. 前記第1の音声調整情報生成部は、前記音声信号の信号レベルに基づいて前記音声信号が無音であるか否かを判定する無音判定部をさらに備え、
    前記音声調整部は、前記無音判定部により無音であると判定された場合には前記音声信号の音量を大きくしない
    請求項記載の信号処理装置。
  3. 前記音声分離部は、前記音声信号と前記騒音信号に含まれる音声信号との類似度を前記音声信号に基づいて算出して前記算出された類似度に基づいて前記他の騒音信号を推定する請求項1記載の信号処理装置。
  4. 前記音声分離部は、エコーキャンセラーを備える請求項記載の信号処理装置。
  5. 騒音信号を集音する音声入力部と、コンテンツにおける音声信号を出力する音声出力部とを備える信号処理装置における音量調整方法であって、
    前記音声信号の周波数特性と人間の聴覚特性とに基づいて第1の音声調整情報を生成する第1の音声調整情報生成手順と、
    前記音声入力部により入力された騒音信号のうち前記音声出力部により出力された前記音声信号と他の騒音信号とを分離する音声分離手順と、
    前記音声分離手順により分離された前記他の騒音信号の信号レベルに基づいて第2の音声調整情報を生成する第2の音声調整情報生手順と、
    前記音声出力部に出力される前記音声信号の音量を前記第1および第2の音声調整情報に基づいて前記第1の音声調整情報が大きいほど前記音声信号の音量を小さくし、前記第2の音声調整情報が大きいほど前記音声信号の音量を大きくするように調整する音声調整手順と
    を具備し、
    前記第1の音声調整情報生成手順において、前記音声信号の周期性と前記音声信号の信号レベルとに基づいて前記音声信号が有声音であるか無声音であるかを判定する音声判定手順を備え、
    前記音声調整手順において、前記音声判定手順により有声音と判定された場合には前記音声判定手順により無声音と判定されたときに比べて前記音声信号の音量を大きくする
    音量調整方法。
  6. 騒音信号を集音する音声入力部と、コンテンツにおける音声信号を出力する音声出力部とを備える信号処理装置において、
    前記音声信号の周波数特性と人間の聴覚特性とに基づいて第1の音声調整情報を生成する第1の音声調整情報生成手順と、
    前記音声入力部により入力された騒音信号のうち前記音声出力部により出力された前記音声信号と他の騒音信号とを分離する音声分離手順と、
    前記音声分離手順により分離された前記他の騒音信号の信号レベルに基づいて第2の音声調整情報を生成する第2の音声調整情報生手順と、
    前記音声出力部に出力される前記音声信号の音量を前記第1および第2の音声調整情報に基づいて前記第1の音声調整情報が大きいほど前記音声信号の音量を小さくし、前記第2の音声調整情報が大きいほど前記音声信号の音量を大きくするように調整する音声調整手順と
    をコンピュータに実行させるプログラムであって、
    前記第1の音声調整情報生成手順において、前記音声信号の周期性と前記音声信号の信号レベルとに基づいて前記音声信号が有声音であるか無声音であるかを判定する音声判定手順を備え、
    前記音声調整手順において、前記音声判定手順により有声音と判定された場合には前記音声判定手順により無声音と判定されたときに比べて前記音声信号の音量を大きくする
    プログラム
JP2008332031A 2008-12-26 2008-12-26 信号処理装置、その処理方法およびプログラム Expired - Fee Related JP5267115B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2008332031A JP5267115B2 (ja) 2008-12-26 2008-12-26 信号処理装置、その処理方法およびプログラム
EP09252574.0A EP2202881B1 (en) 2008-12-26 2009-11-06 Signal processing apparatus, signal processing method and program
US12/645,257 US20100166225A1 (en) 2008-12-26 2009-12-22 Signal processing apparatus, signal processing method and program
CN200910261123A CN101771392A (zh) 2008-12-26 2009-12-28 信号处理装置、信号处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008332031A JP5267115B2 (ja) 2008-12-26 2008-12-26 信号処理装置、その処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2010154388A JP2010154388A (ja) 2010-07-08
JP5267115B2 true JP5267115B2 (ja) 2013-08-21

Family

ID=41426912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008332031A Expired - Fee Related JP5267115B2 (ja) 2008-12-26 2008-12-26 信号処理装置、その処理方法およびプログラム

Country Status (4)

Country Link
US (1) US20100166225A1 (ja)
EP (1) EP2202881B1 (ja)
JP (1) JP5267115B2 (ja)
CN (1) CN101771392A (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7995775B2 (en) * 2006-07-14 2011-08-09 Broadcom Corporation Automatic volume control for audio signals
JP6012621B2 (ja) * 2010-12-15 2016-10-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. リモートノイズ検知器を使用したノイズ削減システム
JP5695896B2 (ja) * 2010-12-22 2015-04-08 株式会社東芝 音質制御装置、音質制御方法及び音質制御用プログラム
JP5085769B1 (ja) * 2011-06-24 2012-11-28 株式会社東芝 音響制御装置、音響補正装置、及び音響補正方法
JP4982617B1 (ja) * 2011-06-24 2012-07-25 株式会社東芝 音響制御装置、音響補正装置、及び音響補正方法
JP5910846B2 (ja) * 2011-07-26 2016-04-27 ソニー株式会社 制御装置、制御方法、及び、プログラム
JP2013106197A (ja) * 2011-11-14 2013-05-30 Toshiba Corp 音質制御装置、音質制御方法及び音質制御用プログラム
JP5909100B2 (ja) * 2012-01-26 2016-04-26 日本放送協会 ラウドネスレンジ制御システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム
US9020623B2 (en) 2012-06-19 2015-04-28 Sonos, Inc Methods and apparatus to provide an infrared signal
RU2678657C1 (ru) 2012-11-05 2019-01-30 Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка Устройство кодирования речи-аудио, устройство декодирования речи-аудио, способ кодирования речи-аудио и способ декодирования речи-аудио
US10027303B2 (en) * 2012-11-13 2018-07-17 Snell Advanced Media Limited Management of broadcast audio loudness
CN112652316B (zh) * 2013-01-21 2023-09-15 杜比实验室特许公司 利用响度处理状态元数据的音频编码器和解码器
ES2843744T3 (es) 2013-01-21 2021-07-20 Dolby Laboratories Licensing Corp Decodificación de trenes de bits de audio codificados con un contenedor de metadatos situado en un espacio de datos reservado
US9148721B2 (en) * 2013-03-14 2015-09-29 Dunlop Manufacturing, Inc. System, method and apparatus for silent true bypass switching
JP6204681B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置
CN104468930B (zh) * 2013-09-17 2018-08-31 南京中兴软件有限责任公司 一种放音响度调整方法及装置
US9713728B2 (en) * 2013-10-29 2017-07-25 Physio-Control, Inc. Variable sound system for medical devices
GB201406574D0 (en) * 2014-04-11 2014-05-28 Microsoft Corp Audio Signal Processing
CN110808723B (zh) 2014-05-26 2024-09-17 杜比实验室特许公司 音频信号响度控制
CN105720937A (zh) * 2014-12-01 2016-06-29 宏达国际电子股份有限公司 电子装置和声音信号的分析与播放方法
US9678707B2 (en) 2015-04-10 2017-06-13 Sonos, Inc. Identification of audio content facilitated by playback device
US10425768B2 (en) * 2015-09-30 2019-09-24 Lenovo (Singapore) Pte. Ltd. Adjusting audio output volume based on a detected presence of another device
CN105262452A (zh) * 2015-10-29 2016-01-20 小米科技有限责任公司 音量调整方法、装置及终端
US10636406B2 (en) * 2017-06-13 2020-04-28 Crestron Electronics, Inc. Automated room audio equipment monitoring system
CN110171754B (zh) * 2019-05-13 2021-03-09 浙江新再灵科技股份有限公司 一种电梯广告屏智能音量调节方法及系统
CN110418233A (zh) * 2019-07-26 2019-11-05 歌尔股份有限公司 一种耳机降噪方法、装置、耳机及可读存储介质
US11817114B2 (en) 2019-12-09 2023-11-14 Dolby Laboratories Licensing Corporation Content and environmentally aware environmental noise compensation
JP7427531B2 (ja) * 2020-06-04 2024-02-05 フォルシアクラリオン・エレクトロニクス株式会社 音響信号処理装置及び音響信号処理プログラム
CN113055786A (zh) * 2021-03-30 2021-06-29 联想(北京)有限公司 一种音量控制方法、装置和电子设备
CN113190207B (zh) * 2021-04-26 2024-11-22 北京小米移动软件有限公司 信息处理方法、装置、电子设备及存储介质
CN113539287B (zh) * 2021-06-28 2024-08-06 瑞芯微电子股份有限公司 一种回声消除的方法及存储介质
US20240364289A1 (en) * 2023-04-28 2024-10-31 Apple Inc. Method and system for audio compression for contextual volume control

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3306600B2 (ja) * 1992-08-05 2002-07-24 三菱電機株式会社 自動音量調整装置
US5473666A (en) * 1992-09-11 1995-12-05 Reliance Comm/Tec Corporation Method and apparatus for digitally controlling gain in a talking path
US5854845A (en) * 1992-12-31 1998-12-29 Intervoice Limited Partnership Method and circuit for voice automatic gain control
JP3182470B2 (ja) * 1993-05-10 2001-07-03 三菱自動車工業株式会社 車両用オーディオ装置
JPH11239310A (ja) * 1998-02-20 1999-08-31 Matsushita Electric Ind Co Ltd リモートコントロール装置,テレビ受像機及び異常報知受信器
GB2366109B (en) * 2000-06-08 2002-08-28 Alticast Corp System for authoring contents of digital television and method therefor
DE10052104A1 (de) * 2000-10-20 2002-05-02 Volkswagen Ag Verfahren und Einrichtung zur automatisch geregelten Beeinflussung der Lautstärke
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
AU2005299410B2 (en) * 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
WO2006103633A1 (en) * 2005-03-31 2006-10-05 Koninklijke Philips Electronics, N.V. Synthesis of composite news stories
JP2007053510A (ja) * 2005-08-17 2007-03-01 Sony Corp 記録再生装置、再生装置、音量自動調整方法および音量自動調整プログラム
US8103008B2 (en) * 2007-04-26 2012-01-24 Microsoft Corporation Loudness-based compensation for background noise

Also Published As

Publication number Publication date
EP2202881A1 (en) 2010-06-30
JP2010154388A (ja) 2010-07-08
CN101771392A (zh) 2010-07-07
EP2202881B1 (en) 2013-04-24
US20100166225A1 (en) 2010-07-01

Similar Documents

Publication Publication Date Title
JP5267115B2 (ja) 信号処理装置、その処理方法およびプログラム
US9865279B2 (en) Method and electronic device
US10176825B2 (en) Electronic apparatus, control method, and computer program
JP4439579B1 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
US8600072B2 (en) Audio data processing apparatus and method to reduce wind noise
CN102077464B (zh) 声学处理装置
JP2011065093A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
EP2538559B1 (en) Audio controlling apparatus, audio correction apparatus, and audio correction method
US8457954B2 (en) Sound quality control apparatus and sound quality control method
US20100142729A1 (en) Sound volume correcting device, sound volume correcting method, sound volume correcting program and electronic apparatus
US8099276B2 (en) Sound quality control device and sound quality control method
US9905245B2 (en) Electronic device and control method
EP2739067A2 (en) Audio processing device and method
JP5012859B2 (ja) 音量調整装置
JP4982617B1 (ja) 音響制御装置、音響補正装置、及び音響補正方法
JP2015012374A (ja) 映像再生装置、映像再生装置の制御方法及び制御プログラム
JP5692255B2 (ja) コンテンツ再生装置およびコンテンツ処理方法
JP2005318225A (ja) 記録再生装置
JP2010055694A (ja) テレビジョン受像機
JP2006093918A (ja) デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体
JP4886907B2 (ja) オーディオ信号補正装置及びオーディオ信号補正方法
JP2007158873A (ja) 音声補正装置
JP2024130629A (ja) 画像処理装置および画像処理方法
JP4552064B2 (ja) 音声レベル自動補正装置
JP2012244319A (ja) デジタル放送受信機

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130422

LAPS Cancellation because of no payment of annual fees