JP5267115B2

JP5267115B2 - 信号処理装置、その処理方法およびプログラム

Info

Publication number: JP5267115B2
Application number: JP2008332031A
Authority: JP
Inventors: 秀明渡辺; 式曜藤田; 淳松本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-12-26
Filing date: 2008-12-26
Publication date: 2013-08-21
Anticipated expiration: 2028-12-26
Also published as: EP2202881A1; JP2010154388A; CN101771392A; EP2202881B1; US20100166225A1

Description

本発明は、信号処理装置に関し、特に音声信号の音量を自動的に制御する信号処理装置、および、その処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。

近年、テレビ放送の多チャンネル化やＤＶＤ（Digital Versatile Disk）の普及などにより、多様なＡＶ（Audio Visual）コンテンツが記録再生装置において再生される状況にある。このような状況においては、コンテンツごとの音声信号のレベルにばらつきが多いため、視聴者は、コンテンツごとに音声信号の出力レベルを手動により調整する必要がある。このため、コンテンツごとの音声の出力レベルが均一になるよう調整する手法が考案されている。例えば、コンテンツに含まれるシーンの種別を検出することによって、シーンごとの音量差を自動的に調整する記録再生装置が提案されている（例えば、特許文献１参照。）。

一方、視聴者の視聴環境において騒音ノイズが変動する場合もある。このような場合にも、視聴者は、その騒音ノイズの変動に応じて、手動により記録再生装置から出力される音声の音量を調整しなければならない。このため、マイクにより集音された信号からノイズレベルを検出して、その検出されたノイズレベルに基づいて出力音声の音量を調整する音声出力装置が提案されている（例えば、特許文献２参照。）。
特開２００７−５３５１０号公報（図１）特許第３２８６９８１号（図１）

上述の２つの従来技術において、前者では、コンテンツに含まれるシーンの種別を判別することによって、出力音声の音量を自動的に調整することができる。しかしながら、このときには、視聴者の視聴環境における騒音ノイズが変動する場合には、その変動に応じて、その都度手動による音声調整が必要となる。一方、後者では、視聴環境における騒音レベルに応じて出力音声の音量を調整することができる。しかしながら、コンテンツの音声信号レベルにばらつきがある場合には、コンテンツごとに手動による音声調整が必要となる。

このように、従来技術では、騒音ノイズの変動またはコンテンツごとの音量レベルの違いによって、手動による音声調整が必要となってしまう。

本発明はこのような状況に鑑みてなされたものであり、音声信号を最適な出力レベルに調整することを目的とする。

本発明は、上記課題を解決するためになされたものであり、その第１の側面は、コンテンツにおける音声信号に基づいて第１の音声調整情報を生成する第１の音声調整情報生成部と、音声入力部により入力された騒音信号のうち音声出力部により出力された上記音声信号と他の騒音信号とを分離する音声分離部と、上記音声分離部により分離された上記他の騒音信号に基づいて第２の音声調整情報を生成する第２の音声調整情報生成部と、上記音声出力部に出力される上記音声信号の音量を上記第１および第２の音声調整情報に基づいて調整する音声調整部とを具備する信号処理装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、音声信号に基づいて生成される第１の音声調整情報と、他の騒音信号に基づいて生成される第２の音声調整情報とに基づいて音声信号の音量を調整させるという作用をもたらす。

また、この第１の側面において、上記第１の音声調整情報生成部は、上記音声信号の周波数特性と人間の聴覚特性とに基づいて上記第１の音声調整情報を生成し、上記第２の音声調整情報生成部は、上記他の騒音信号の信号レベルに基づいて上記第２の音声調整情報を生成し、上記音声調整部は、上記第１の音声調整情報が大きいほど上記音声信号の音量を小さくし、上記第２の音声調整情報が大きいほど上記音声信号の音量を大きくするようにしてもよい。これにより、音声調整部は、音声信号の周波数特性と人間の聴覚特性とに基づいて生成された第１の音声調整情報が大きいほど音声信号の音量を小さくさせ、他の騒音信号の信号レベルに基づいて生成された第２の音声調整情報が大きいほど音声信号の音量を大きくさせるという作用をもたらす。この場合において、上記第１の音声調整情報生成部は、上記音声信号の周期性と上記音声信号の信号レベルとに基づいて上記音声信号が有声音であるか無声音であるかを判定する音声判定部を備え、上記音声調整部は、上記音声判定部により有声音と判定された場合には上記音声判定部により無声音と判定されたときに比べて上記音声信号の音量を大きくするようにしてもよい。これにより、音声調整部は、音声信号の周期性および音声信号の信号レベルとに基づいて音声信号が有音声であるか否かが判定され、有声音であると判定された場合には無声音と判定されたときに比べて音声信号の音量を大きくさせるという作用をもたらす。

また、上記第１の音声調整情報生成部は、上記音声信号の周波数特性と人間の聴覚特性とに基づいて上記第１の音声調整情報を生成し、上記第２の音声調整情報生成部は、上記他の騒音信号の信号レベルに基づいて上記第２の音声調整情報を生成し、上記音声調整部は、上記第１の音声調整情報が大きいほど上記音声信号の音量を小さくし、上記第２の音声調整情報が大きいほど上記音声信号の音量を大きくする場合において、上記第１の音声調整情報生成部は、上記音声信号の信号レベルに基づいて上記音声信号が無音であるか否かを判定する無音判定部をさらに備え、上記音声調整部は、上記無音判定部により無音であると判定された場合には上記音声信号の音量を大きくしないようにしてもよい。これにより、音声信号の信号レベルに基づいて音声信号が無音であると判定された場合には音声信号の音量を大きくさせないという作用をもたらす。

また、この第１の側面において、上記音声分離部は、上記音声信号と上記騒音信号に含まれる音声信号との類似度を上記音声信号に基づいて算出して上記算出された類似度に基づいて上記他の騒音信号を推定するようにしてもよい。これにより、音声分離部は、音声信号に基づいて推定される騒音信号に含まれる音声信号を騒音信号から除去させるという作用をもたらす。この場合において、上記音声分離部は、エコーキャンセラーを備えるようにしてもよい。これにより、音声分離部は、エコーキャンセラーを備えることによって騒音信号のうち騒音信号に含まれる音声信号を除去させるという作用をもたらす。

本発明によれば、音声信号を最適な出力レベルに調整させるという優れた効果を奏し得る。

以下、本発明を実施するための最良の形態（以下、実施の形態と称する）について説明する。説明は以下の順序により行う。
１．第１の実施の形態（音声信号の音量制御：記録再生装置の構成例）
２．第２の実施の形態（音声信号の音量制御：制御情報のデータ形式の例）
３．第３の実施の形態（音声信号の音量制御：利得算出手法の例）
４．第４の実施の形態（音声信号の音量制御：音量制御手順の例）

＜１．第１の実施の形態＞
［記録再生装置の構成例］
図１は、本発明の第１の実施の形態における記録再生装置の一構成例を示すブロック図である。記録再生装置１００は、アンテナ１１０と、チューナ部１２０と、コンテンツ記録部１３０と、コンテンツ再生部１４０と、コンテンツ解析情報生成部１５０と、スピーカ１６０とを備える。また、記録再生装置１００は、マイク１７０と、環境騒音分離部１８０と、環境騒音解析情報生成部１９０と、音声調整部２００とを備える。

アンテナ１１０は、放送信号を受信するために用いられるものである。このアンテナ１１０は、例えば、地上波放送、ＢＳ放送やＣＳ放送などの放送信号を受信する。

チューナ部１２０は、アンテナ１１０により受信された信号を復調するものである。このチューナ部１２０は、その復調された受信データであるコンテンツデータをコンテンツ再生部１４０に供給する。ここにいうコンテンツデータには、例えば、地上波放送、ＢＳ放送、ＣＳ放送などの放送コンテンツや放送コンテンツに付随するＥＰＧなどのメタデータが含まれる。

コンテンツ記録部１３０は、チューナ部１２０から供給されるコンテンツデータを所定のフォーマットに変換して記録するものである。また、このコンテンツ記録部１３０は、コンテンツ記録部１３０において記録されているコンテンツデータをコンテンツ再生部１４０に供給する。ここでは、チューナ部１２０からのコンテンツデータを記録する例について説明したが、記録再生装置１００にＡＶ入力端子を設けて外部装置から供給されるコンテンツデータを記録するようにしてもよい。

コンテンツ再生部１４０は、チューナ部１２０から供給されるコンテンツデータまたはコンテンツ記録部１３０から供給されるコンテンツデータを再生するものである。このコンテンツ再生部１４０は、例えば、チューナ部１２０から供給される音声データを復号することによって音声信号を生成する。また、このコンテンツ再生部１４０は、コンテンツ記録部１３０からのＡＶコンテンツデータに含まれる画像データと、これに対応する音声データとを復号することによって画像信号および音声信号を生成する。

また、コンテンツ再生部１４０は、信号線１４９および２０１を介してコンテンツ解析情報生成部１５０および音声調整部２００に復号された音声信号をそれぞれ供給する。このコンテンツ再生部１４０は、例えば、復号された音声信号に加えて、画像データやメタデータなどを供給する。また、コンテンツ再生部１４０は、チューナ部１２０から供給されたコンテンツデータを復号してコンテンツ記録部１３０に供給する。

コンテンツ解析情報生成部１５０は、コンテンツ再生部１４０から供給されるコンテンツデータを解析することによって、コンテンツ再生部１４０において再生される音声信号に関するコンテンツ解析情報を生成するものである。このコンテンツ解析情報生成部１５０は、コンテンツ再生部１４０から供給される音声信号に基づいて、フレームごとにコンテンツ解析情報を生成する。ここにいうフレームとは、音声信号における標本化された一定数のサンプルのことをいう。このコンテンツ解析情報生成部１５０は、例えば、コンテンツ再生部１４０から供給された音声信号の周波数特性に基づいてコンテンツ解析情報を生成する。

また、このコンテンツ解析情報生成部１５０は、例えば、コンテンツにおけるシーンの種別（ＣＭ（Commercial Message）／ニュース番組など）を判定して、その判定結果をコンテンツ解析情報として音声調整部２００に供給する。この例において、コンテンツ解析情報生成部１５０は、コンテンツにおける映像信号の輝度情報などの時間的変化からシーンを検出する。そして、コンテンツ解析情報生成部１５０は、その検出結果とＥＰＧ（Electric Program Guide）データなどの情報とを組み合わせてシーンの種別を判定する。

また、コンテンツ解析情報生成部１５０は、生成されたコンテンツ解析情報を音声調整部２００に供給する。なお、コンテンツ解析情報生成部１５０は、特許請求の範囲に記載の第１の音声調整情報生成部の一例である。また、コンテンツ解析情報は、特許請求の範囲の第１の音声調整情報の一例である。

スピーカ１６０は、音声調整部２００から供給される音声信号を出力音声として出力する拡音器である。なお、スピーカ１６０は、特許請求の範囲に記載の音声出力部の一例である。

マイク１７０は、記録再生装置１００の周辺の環境音を集音するマイクロフォンである。このマイク１７０は、その集音された環境音を電気信号に変換して、騒音信号として環境騒音分離部１８０に供給する。この騒音信号には、スピーカ１６０から出力された出力音声と、それ以外の環境騒音とが含まれる。なお、マイク１７０は、特許請求の範囲に記載の音声入力部の一例である。

環境騒音分離部１８０は、マイク１７０から供給される騒音信号と、音声調整部２００から供給される音声信号とに基づいて、騒音信号に含まれるスピーカ１６０からの出力音声を除去するものである。すなわち、環境騒音分離部１８０は、マイク１７０からの騒音信号のうち、スピーカ１６０から出力された音声信号の成分と、他の騒音信号である環境騒音信号の成分とを分離する。

この環境騒音分離部１８０は、音声調整部２００から供給される音声信号と、騒音信号に含まれる出力音声との類似度を音声調整部２００からの音声信号に基づいて算出して、その算出された類似度に基づいて環境騒音信号を推定する。この環境騒音分離部１８０は、例えば、エコーキャンセラーにより実現される。また、環境騒音分離部１８０は、分離された環境騒音信号を、信号線１８９を介して環境騒音解析情報生成部１９０に供給する。なお、環境騒音分離部１８０は、特許請求の範囲に記載の音声分離部の一例である。

環境騒音解析情報生成部１９０は、環境騒音分離部１８０から供給される環境騒音信号を解析することによって、環境騒音信号に関する環境騒音解析情報を生成するものである。この環境騒音解析情報生成部１９０は、環境騒音分離部１８０から供給される環境騒音信号に基づいて環境騒音解析情報を生成する。この環境騒音解析情報生成部１９０は、例えば、環境騒音分離部１８０から供給される環境騒音信号の信号レベルに基づいて環境騒音解析情報を生成する。また、環境騒音解析情報生成部１９０は、その生成された環境騒音解析情報を音声調整部２００に供給する。なお、環境騒音解析情報生成部１９０は、特許請求の範囲に記載の第２の音声調整情報生成部の一例である。また、環境騒音解析情報は、特許請求の範囲の第２の音声調整情報の一例である。

音声調整部２００は、コンテンツ解析情報生成部１５０からのコンテンツ解析情報および環境騒音解析情報生成部１９０からの環境騒音解析情報に基づいて、コンテンツ再生部１４０から供給された音声信号の音量を調整するものである。この音声調整部２００は、信号線２０９を介して、その調整された音声信号をスピーカ１６０および環境騒音分離部１８０に供給する。なお、音声調整部２００は、特許請求の範囲に記載の音声調整部の一例である。

［コンテンツ解析情報生成部および環境騒音解析情報生成部の構成例］
図２は、本発明の第１の実施の形態におけるコンテンツ解析情報生成部１５０および環境騒音解析情報生成部１９０の一構成例を示すブロック図である。ここでは、音声調整部２００は、図１と同一のものであるため、同一符号を付してここでの説明を省略する。

コンテンツ解析情報生成部１５０は、音声レベル算出部１５１と、無音判定部１５２と、ピッチゲイン算出部１５３と、音声判定部１５４と、パワースペクトル算出部１５５と、ラウドネスレベル算出部１５６とを備える。また、環境騒音解析情報生成部１９０は、騒音レベル算出部１９１およびパワースペクトル算出部１９２を備える。

音声レベル算出部１５１は、信号線１４９を介して供給される音声信号の信号レベルをフレームごとに算出するものである。この音声レベル算出部１５１は、音声信号の各フレームにおけるサンプル値の二乗平均平方根（パワー値）である信号レベルを音声レベルとして算出する。この音声レベル算出部１５１は、その算出された音声レベルを無音判定部１５２、音声判定部１５４および音声調整部２００に供給する。

無音判定部１５２は、音声レベル算出部１５１から供給される音声信号の音声レベルに基づいて、その音声信号に関して無音であるか否かを判定するものである。この無音判定部１５２は、音声レベル算出部１５１からの音声レベルおよび予め定められた閾値Ｔｓ（音声レベル閾値）に基づいて音声信号が無音であるか否かを判定して、その判定結果に基づいて無音判定情報を生成する。この無音判定部１５２は、例えば、音声レベルが閾値未満である場合には無音である旨を示す無音判定情報（ＳｉｌｅｎｃｅＦｌａｇ＝Ｔｒｕｅ）を生成する。一方、この無音判定部１５２は、音声レベルが閾値以上である場合には無音でない旨を示す無音判定情報（ＳｉｌｅｎｃｅＦｌａｇ＝Ｆａｌｓｅ）を生成する。また、この無音判定部１５２は、その生成された無音判定情報をコンテンツ解析情報として音声調整部２００に供給する。なお、無音判定部１５２は、特許請求の範囲に記載の無音判定部の一例である。

ピッチゲイン算出部１５３は、信号線１４９を介して供給される音声信号を分析することによってピッチゲインを算出するものである。ここにいうピッチゲインとは、人間の発する音声の特徴を表わすピッチ成分の強度を示す指標である。このピッチゲイン算出部１５３は、信号線１４９から供給される音声信号の周期性に基づいてピッチゲインをフレームごとに算出する。このピッチゲイン算出部１５３は、その算出されたピッチゲインを音声判定部１５４に供給する。

音声判定部１５４は、音声レベル算出部１５１から供給される音声レベルと、ピッチゲイン算出部１５３から供給されるピッチゲインとに基づいて、コンテンツ再生部１４０からの音声信号が有音声であるか無音声であるかを判定するものである。すなわち、音声判定部１５４は、時間領域における音声信号の周期性と音声信号の信号レベルとに基づいて有音声であるか否かを判定する。そして、この音声判定部１５４は、その判定結果に基づいて音声判定情報を生成する。

この音声判定部１５４は、例えば、音声レベルが上述の閾値Ｔｓ（音声レベル閾値）以上であり、かつ、ピッチゲインが一定の閾値Ｔｐ（ピッチゲイン閾値）以上である場合には有音声である旨を示す音声判定情報を生成する。それ以外の場合には、音声判定部１５４は、無音声である旨を示す音声判定情報を生成する。また、この音声判定部１５４は、例えば、音声レベルおよびピッチゲインに対応付けられた音声信号の特徴量を予め保持しておき、音声レベル算出部１５１からの音声レベルおよびピッチゲイン算出部１５３からのピッチゲインに対応する音声信号の特徴量を取得する。そして、この音声判定部１５４は、その音声信号の特徴量が予め定められた閾値Ｔｆ（特徴量閾値）より大きい場合には有音声である旨を示す音声判定情報を生成し、特徴量が閾値未満である場合には無音声である旨を示す音声判定情報を生成する。また、音声判定部１５４は、その生成された音声判定情報をコンテンツ解析情報として音声調整部２００に供給する。なお、音声判定部１５４は、特許請求の範囲に記載の音声判定部の一例である。

パワースペクトル算出部１５５は、信号線１４９を介して供給される音声信号の周波数特性に基づいて、その音声信号のパワースペクトルを算出するものである。このパワースペクトル算出部１５５は、その算出されたパワースペクトルをラウドネスレベル算出部１５６に供給する。

ラウドネスレベル算出部１５６は、パワースペクトル算出部１５５から供給されるパワースペクトルに基づいてラウドネスレベルを算出するものである。ここにいうラウドネスレベルとは、人間の聴覚特性を考慮した音の大きさを示す指標のことをいう。すなわち、このラウドネスレベル算出部１５６は、音声信号の周波数特性と人間の聴覚特性とに基づいてラウドネスレベルを算出する。

このラウドネスレベル算出部１５６は、例えば、ＩＳＯ（International Organization for Standardization）５３２Ｂの規定に基づいてラウドネスレベルを算出する。この例において、ラウドネスレベル算出部１５６は、臨界帯域ごとの音声信号におけるパワーに対するマスキングカーブをそれぞれ生成する。そして、ラウドネスレベル算出部１５６は、その生成された複数のマスキングカーブが重ね合わせられた領域の面積を算出することによって、ラウドネスレベルを算出する。また、ラウドネスレベル算出部１５６は、その算出されたラウドネスレベルをコンテンツ解析情報として音声調整部２００に供給する。なお、ラウドネスレベル算出部１５６は、特許請求の範囲に記載の第１の音声調整情報生成部の一例である。

騒音レベル算出部１９１は、信号線１８９を介して供給される環境騒音信号の信号レベルをフレームごとに算出するものである。この騒音レベル算出部１９１は、環境騒音信号の各フレームにおけるサンプル値の二乗平均平方根（パワー値）である信号レベルを騒音レベルとして算出する。この騒音レベル算出部１９１は、その算出された騒音レベルを環境騒音解析情報として音声調整部２００に供給する。なお、騒音レベル算出部１９１は、特許請求の範囲に記載の第２の音声調整情報生成部の一例である。

パワースペクトル算出部１９２は、信号線１８９を介して供給される環境騒音信号の周波数特性に基づいて、当該環境騒音信号のパワースペクトルを算出するものである。このパワースペクトル算出部１９２は、その算出されたパワースペクトルを環境騒音解析情報として音声調整部２００に供給する。

［音声調整部の構成例］
図３は、本発明の第１の実施の形態における音声調整部２００の一構成例を示すブロック図である。

音声調整部２００は、ゲイン特性決定部２１０と、目標利得算出部２２０と、調整利得算出部２３０と、利得設定部２４０と、コンプレッサ処理部２５１と、イコライジング処理部２５２と、全体音量増幅部２５３と、調整帯域設定部２６０とを備える。

ゲイン特性決定部２１０は、コンテンツ解析情報および環境騒音解析情報に基づいて、音声信号の音量の増加量を算出するためのゲイン特性を決定するものである。このゲイン特性決定部２１０は、ラウドネスレベル算出部１５６からのラウドネスレベルと、音声判定部１５４からの音声判定情報と、騒音レベル算出部１９１からの騒音レベルとに基づいてゲイン特性を決定する。ゲイン特性決定部２１０は、最大利得テーブル２１１と、最大利得取得部２１２と、ゲイン特性傾き決定部２１３と、最小騒音レベル抽出部２１４とを備える。

最大利得テーブル２１１は、音声信号のラウドネスレベルおよび騒音レベルに対応付けられたゲイン特性における最大利得を保持するものである。このゲイン特性における最大利得は、ゲイン特性における上限値であり、音声信号を過剰に増幅させることを防止するために設けられている。また、最大利得テーブル２１１は、最大利得取得部２１２からの音声信号のラウドネスレベルおよび騒音レベルに基づいて対応付けられた最大利得を最大利得取得部２１２に出力する。

この最大利得テーブル２１１は、音声信号のラウドネスレベルが大きい程、視聴者にとって聞き取り易い音声であるため、小さい値の最大利得を出力し、ラウドネスレベルが小さい程、聞き取り難い音声であるため、大きい値の最大利得を出力する。一方、この最大利得テーブル２１１は、騒音レベルが大きい程、環境騒音が大きいため、大きい値の最大利得を出力し、騒音レベルが小さい程、環境騒音が小さいため、小さい値の最大利得を出力する。すなわち、この最大利得テーブル２１１は、音声信号のラウドネスレベルが大きい程、小さい値の最大利得を出力し、騒音レベルが大きい程、大きい値の最大利得を出力する。

最大利得取得部２１２は、ラウドネスレベル算出部１５６から供給されるラウドネスレベルと、騒音レベル算出部１９１から供給される騒音レベルとに基づいてゲイン特性における最大利得を取得するものである。この最大利得取得部２１２は、ラウドネスレベル算出部１５６からのラウドネスレベルおよび騒音レベル算出部１９１からの騒音レベルをフレームごとに最大利得テーブル２１１に供給する。そして、この最大利得取得部２１２は、ラウドネスレベル算出部１５６からのラウドネスレベル、および、騒音レベル算出部１９１からの騒音レベルに対応付けられた最大利得を最大利得テーブル２１１から取得する。また、この最大利得取得部２１２は、その取得された最大利得を目標利得算出部２２０に供給する。なお、最大利得取得部２１２は、特許請求の範囲に記載の音声調整部の一例である。

なお、ここでは、音声信号のラウドネスレベルに基づいて最大利得を取得する例について説明したが、音声信号のラウドネスレベルに代えて音声信号の音声レベルを用いるようにしてもよい。また、環境騒音信号の騒音レベルに基づいて最大利得を取得する例について説明したが、騒音レベルに代えて環境騒音信号のラウドネスレベルを環境騒音解析情報生成部１９０において生成し、その生成されたラウドネスレベルを用いるようにしてもよい。

ゲイン特性傾き決定部２１３は、音声判定部１５４から供給される音声判定情報に基づいてゲイン特性における傾きを決定するものである。このゲイン特性傾き決定部２１３は、音声判定情報が有音声である旨を示す場合には、音声判定情報が無音声である旨を示すときに比べてゲイン特性の傾きを大きくする。

このゲイン特性傾き決定部２１３は、例えば、ゲイン特性の傾きを予め保持しておき、音声判定情報が有音声を示す場合には、音声判定情報が無音声を示すときに比べて大きい値のゲイン特性の傾き選択する。一方、このゲイン特性傾き決定部２１３は、音声判定情報が無音声を示す場合には、音声判定情報が有音声を示すときに比べて小さい値のゲイン特性の傾き選択する。また、ゲイン特性傾き決定部２１３は、選択されたゲイン特性における傾きを目標利得算出部２２０に供給する。なお、ゲイン特性傾き決定部２１３は、特許請求の範囲に記載の音声調整部の一例である。また、ここでは、音声判定情報に基づいてゲイン特性の傾きを決定する例について説明したが、再生されるコンテンツにおけるシーンの種別に応じてゲイン特性の傾きを決定するようにしてもよい。

最小騒音レベル抽出部２１４は、騒音レベル算出部１９１から供給されるフレームごとの騒音レベルのうち最小の騒音レベルを抽出するものである。この最小騒音レベル抽出部２１４は、例えば、一定期間において最も小さい騒音レベルである最小騒音レベルを抽出して、その抽出された最小騒音レベルが過去の最小騒音レベルより小さい場合には、その最小騒音レベルを新たな最小騒音レベルとして保持する。また、最小騒音レベル抽出部２１４は、その抽出された最小騒音レベルを暗騒音レベルとして目標利得算出部２２０に供給する。

目標利得算出部２２０は、ゲイン特性決定部２１０から供給されるゲイン特性における最大利得、傾きおよび暗騒音レベルを用いることによって、騒音レベル算出部１９１からの騒音レベルに基づいて目標利得を算出するものである。この目標利得算出部２２０は、最大利得取得部２１２からの最大利得と、ゲイン特性傾き決定部２１３からの傾きと、最小騒音レベル抽出部２１４からの暗騒音レベルとを用いてゲイン特性を生成する。そして、この目標利得算出部２２０は、その生成されたゲイン特性において、騒音レベル算出部１９１からの騒音レベルに対応する目標利得を算出する。また、目標利得算出部２２０は、その算出された目標利得を調整利得算出部２３０に供給する。

調整利得算出部２３０は、音声信号に対する不自然な音量の増減を抑制するために、目標利得に基づいて調整利得を算出するものである。この調整利得算出部２３０は、目標利得算出部２２０から供給される目標利得と、無音判定部１５２から供給される無音判定情報とに基づいて調整利得を算出する。調整利得算出部２３０は、例えば、無音判定情報が無音でない旨を示し、かつ、目標利得（ｔａｒｇｅｔ＿ｇａｉｎ［ｍ］）が前のフレームの調整利得（ｅｑ＿ｇａｉｎ［ｍ−１］）より大きい場合には式１に基づいて調整利得（ｅｑ＿ｇａｉｎ［ｍ］）を算出する。それ以外の場合には、調整利得算出部２３０は、式２に基づいて調整利得（ｅｑ＿ｇａｉｎ［ｍ］）を算出する。

ここで、ｔ１およびｔ２は定数である。また、ｔ１は「０．０」より大きく設定され、ｔ２は「１．０」未満に設定される。

式１により、現在のフレームの音声信号が無音状態でなく、かつ、１つ前のフレームの音声信号の音量からさらに音量を増加させる場合には、１つ前のフレームの音量からの急激な音量増加を抑制することができる。また、式２により、現在のフレームの音声信号が無音と判定された場合には、目標利得に関係なく、１つ前のフレームの音量に基づいて音量調整するため、無音状態における不自然な音量増加を防止することができる。また、１つ前のフレームの音量から低下させる場合にも、急激な音量低下を抑制することができる。また、調整利得算出部２３０は、その算出された調整利得を利得設定部２４０に供給する。なお、調整利得算出部２３０は、特許請求の範囲に記載の音声調整部の一例である。

利得設定部２４０は、調整利得算出部２３０から供給された調整利得に基づいて、コンプレッサ処理部２５１、イコライジング処理部２５２および全体音量増幅部２５３の利得をそれぞれ設定するものである。

この利得設定部２４０は、例えば、調整利得算出部２３０から供給される調整利得が一定の閾値Ｔａ（コンプレッサ処理閾値）以下である場合には、コンプレッサ処理部２５１のみに音声信号を増幅させるように利得を設定する。また、この利得設定部２４０は、調整利得が閾値Ｔａより大きく、かつ、一定の閾値Ｔｂ（イコライジング処理閾値）以下である場合には、コンプレッサ処理部２５１およびイコライジング処理部２５２によって音声信号を増幅させるように利得を設定する。この利得設定部２４０は、調整利得が閾値Ｔｂより大きい場合には、コンプレッサ処理部２５１、イコライジング処理部２５２および全体音量増幅部２５３によって音声信号を増幅させるように利得を設定する。

コンプレッサ処理部２５１は、音声レベル算出部１５１から供給される音声レベルに応じて、音声信号の音圧を補正するものである。このコンプレッサ処理部２５１は、利得設定部２４０により設定される利得と、音声レベル算出部１５１から供給される音声レベルとに基づいて、信号線２０１を介して供給される音声信号を増幅させる。このコンプレッサ処理部２５１は、例えば、音声レベル算出部１５１から供給される音声レベルに応じて、音声信号の音量の増幅率を変更する。また、このコンプレッサ処理部２５１は、その増幅された音声信号をイコライジング処理部２５２に供給する。

イコライジング処理部２５２は、環境騒音信号の周波数帯域に基づいて音声信号における周波数成分を増幅させるものである。このイコライジング処理部２５２は、利得設定部２４０により設定される利得と、調整帯域設定部２６０により設定される最大周波数とに基づいて、コンプレッサ処理部２５１によって増幅された音声信号をさらに増幅する。また、イコライジング処理部２５２は、増幅された音声信号を全体音量増幅部２５３に供給する。

全体音量増幅部２５３は、利得設定部２４０により設定された利得に基づいて、イコライジング処理部２５２により増幅された音声信号をさらに増幅するものである。この全体音量増幅部２５３は、その増幅された音声信号を信号線２０９に供給する。

調整帯域設定部２６０は、パワースペクトル算出部１９２から供給される環境騒音信号のパワースペクトルに基づいて、イコライジング処理部２５２において音量調整すべき音声信号の周波数帯域を設定するものである。この調整帯域設定部２６０は、例えば、パワースペクトルに基づいてスペクトルセントロイドを算出する。そして、この調整帯域設定部２６０は、その算出されたスペクトルセントロイドに、予め定められた値を乗算することによって、音声信号を増幅させる帯域の上限である最大周波数を算出する。ここにいうスペクトルセントロイドとは、環境騒音信号におけるパワースペクトルの重心に相当する周波数である。また、調整帯域設定部２６０は、その設定された最大周波数をイコライジング処理部２５２に設定する。

このように、最大利得取得部２１２を設けることによって、音声信号のラウドネスレベルと環境騒音信号の騒音レベルとに基づいて最大利得を設定することができる。また、ゲイン特性傾き決定部２１３を設けることによって音声判定情報に基づいてゲイン特性の傾きの大きさを設定することができる。また、調整利得算出部２３０を設けることによって、無音状態における不自然な音量増加を防止することができるとともに、急激な音量の増減を抑制することができる。また、最小騒音レベル抽出部２１４を設けることによって、暗騒音レベルの異なる環境に応じた適切なゲイン特性を生成することができる。

［環境騒音分離部の構成例］
図４は、本発明の第１の実施の形態における環境騒音分離部１８０の一構成例を示すブロック図である。ここでは、スピーカ１６０と、マイク１７０と、環境騒音分離部１８０とが示されている。また、ここでは、信号線２０９から供給される再生音声のうちの１つのサンプル値をｘ［ｎ］とし、スピーカ１６０から出力されたサンプル値ｘ［ｎ］の出力音声をｙ'［ｎ］とし、出力音声ｙ'［ｎ］以外の環境騒音をｓ［ｎ］とする。これにより、マイク１７０から供給される騒音信号はｙ'［ｎ］＋ｓ［ｎ］となる。なお、スピーカ１６０およびマイク１７０は、図１に示したものと同様であるため、同一符号を付してここでの説明を省略する。

環境騒音分離部１８０は、適応フィルタ１８１および減算器１８２を備える。適応フィルタ１８１は、信号線２０９からの再生音声ｘ［ｎ］に基づいて、マイク１７０からの騒音信号に含まれる出力音声成分ｙ［ｎ］を推定するものである。この適応フィルタ１８１は、減算器１８２からフィードバックされた信号に基づいて推定される室内伝達系のインパルス応答を再生音声ｘ［ｎ］に畳み込むことによって出力音声成分ｙ［ｎ］を推定する。

減算器１８２は、マイク１７０から供給される騒音信号（ｙ'［ｎ］＋ｓ［ｎ］）と、適応フィルタ１８１により推定される出力音声成分ｙ［ｎ］との差分を算出する減算器である。この減算器１８２が、マイク１７０から供給される騒音信号（ｙ'［ｎ］＋ｓ［ｎ］）に対して適応フィルタ１８１により推定された出力音声成分ｙ［ｎ］を減算することにより、環境騒音信号ｅ［ｎ］を生成する。この減算器１８２は、その生成された環境騒音信号ｅ［ｎ］を、適応フィルタ１８１に供給するとともに、信号線１８９を介して環境騒音解析情報生成部１９０に供給する。

このように、適応フィルタ１８１および減算器１８２を設けることによって、マイク１７０から供給された騒音信号に含まれる出力音声成分を除去して、環境騒音信号ｅ［ｎ］を抽出することができる。

＜２．第２の実施の形態＞
［コンテンツ解析情報のデータ形式例］
図５は、本発明の第２の実施の形態におけるコンテンツ解析情報生成部１５０により生成されるコンテンツ解析情報のデータ形式を例示する図である。ここでは、再生音声信号３１０およびコンテンツ解析情報３２０のデータ形式が示されている。ここでは、横軸を時間軸としている。

再生音声信号３１０は、コンテンツ再生部１４０により再生された音声信号における振幅の変動を示している。この再生音声信号３１０は、標本化されたサンプルのうち連続するＮ個のサンプルを１フレームとして構成される。この再生音声信号３１０は、１フレームごとにコンテンツ解析情報生成部１５０によって解析される。また、再生音声ｘ［ｎ］は、１フレームにおける１サンプルの振幅の値である。

コンテンツ解析情報３２０は、コンテンツ解析情報生成部１５０においてフレームごとに生成される再生音声信号３１０に対するコンテンツ解析情報のデータ形式を示す概念図である。このコンテンツ解析情報３２０には、フレーム番号３２１、音声レベル３２２、無音判定情報３２３、ラウドネスレベル３２４および音声判定情報３２５が含まれる。

フレーム番号３２１には、再生音声信号３１０のフレームを識別するための番号が格納される。音声レベル３２２には、音声レベル算出部１５１において算出される再生音声信号３１０の１フレームにおける二乗平均平方根の値（ＲＭＳ［ｍ］）が格納される。

無音判定情報３２３には、無音判定部１５２において、再生音声信号３１０が無音であるか否かが判定されて、その判定結果（ＳｉｌｅｎｃｅＦｌａｇ［ｍ］）が格納される。この無音判定情報３２３には、例えば、無音判定部１５２により無音であると判定された場合には"Ｔｒｕｅ"が格納され、無音でないと判定された場合には"Ｆａｌｓｅ"が格納される。

ラウドネスレベル３２４には、ラウドネスレベル算出部１５６において算出されたラウドネスレベルの値（Ｌ［ｍ］）が格納される。このラウドネスレベル３２４は、人間の聴覚特性を考慮した音の大きさを表わすものである。そのため、視聴者には、ラウドネスレベル３２４の値が大きい程、スピーカ１６０から出力される再生音声信号３１０は聞こえ易く、ラウドネスレベル３２４の値が小さい程、スピーカ１６０から出力される再生音声信号３１０は聞こえ難い。

音声判定情報３２５には、音声判定部１５４において、再生音声信号３１０が有音声であるか無音声であるかが判定され、その判定結果（ＳｐｅｅｃｈＦｌａｇ［ｍ］）が格納される。

このように、コンテンツ解析情報生成部１５０により生成されたコンテンツ解析情報３２０が音声調整部２００に供給される。

［環境騒音解析情報のデータ形式例］
図６は、本発明の第２の実施の形態における環境騒音解析情報生成部１９０により生成される環境騒音情報のデータ形式を例示する図である。ここでは、環境騒音信号４１０および環境騒音解析情報４２０のデータ形式が示されている。ここでは、横軸を時間軸としている。

環境騒音信号４１０は、環境騒音分離部１８０により分離された環境騒音信号における振幅の変動を示している。この環境騒音信号４１０は、標本化されたＮサンプルを１フレームとして構成される。この環境騒音信号４１０は、１フレームごとに環境騒音解析情報生成部１９０により解析される。また、環境騒音信号ｅ［ｎ］は、１フレームにおける１サンプルの振幅の値である。

環境騒音解析情報４２０は、環境騒音解析情報生成部１９０においてフレームごとに生成される環境騒音信号４１０に対する環境騒音解析情報のデータ形式を示す概念図である。この環境騒音解析情報４２０には、フレーム番号４２１、騒音レベル４２２およびパワースペクトル４２３が含まれる。

フレーム番号４２１には、環境騒音信号４１０のフレームを識別するための番号が格納される。騒音レベル４２２には、騒音レベル算出部１９１において算出される環境騒音信号４１０の二乗平均平方根の値（ＲＭＳ＿ｅ［ｍ］）が格納される。パワースペクトル４２３には、パワースペクトル算出部１９２において算出されたｋ個のパワースペクトルの値（ｓｐ＿ｅ［ｍ］［１］〜［ｍ］［ｋ］）が格納される。なお、ｋは、Ｎサンプルの半分の値である。

このように、環境騒音解析情報生成部１９０により生成された環境騒音解析情報４２０が音声調整部２００に供給される。次に、環境騒音解析情報およびコンテンツ解析情報に基づいて算出される目標利得の算出手法について図面を参照して説明する。

＜３．第３の実施の形態＞
［目標利得の算出手法の例］
図７は、本発明の第３の実施の形態の音声調整部２００における目標利得の算出手法を例示する図である。ここでは、ゲイン特性５１０および５２０が示されている。また、ここでは、縦軸を音声信号に対する音量の利得とし、横軸を騒音レベルとする。

最大利得（ｇａｉｎ＿ｓｕｐ）は、最大利得取得部２１２において取得されたゲイン特性における最大利得である。この最大利得（ｇａｉｎ＿ｓｕｐ）は、最大利得取得部２１２おいて音声信号のラウドネスレベル（Ｌ）と環境騒音信号の騒音レベル（ＲＭＳ＿ｅ）とに基づいて決定される。この最大利得（ｇａｉｎ＿ｓｕｐ）は、騒音レベル（ＲＭＳ＿ｅ）が大きいほど最大利得が大きくなり、騒音レベル（ＲＭＳ＿ｅ）が小さいほど小さくなる。一方、音声信号に対するラウドネスレベル（Ｌ）が大きいほど、視聴者にとって聞き取り易い音であるため、最大利得（ｇａｉｎ＿ｓｕｐ）は小さくなる。これに対し、ラウドネスレベル（Ｌ）が小さいほど、視聴者にとって聞き取り難い音であるため、最大利得（ｇａｉｎ＿ｓｕｐ）は大きくなる。

暗騒音レベル（ＲＭＳ＿ｅ＿ｉｎｆ）は、最小騒音レベル抽出部２１４により抽出された最小の騒音レベルである。この暗騒音レベル（ＲＭＳ＿ｅ＿ｉｎｆ）は、最小騒音レベル抽出部２１４において各フレームにおける騒音レベル（ＲＭＳ＿ｅ）のうち、最小の騒音レベルを抽出することによって設定される。これにより、暗騒音レベル（ＲＭＳ＿ｅ＿ｉｎｆ）の異なる環境に応じたゲイン特性が生成される。

ゲイン特性５１０および５２０の傾きは、ゲイン特性傾き決定部２１３により音声判定情報（ＳｐｅｅｃｈＦｌａｇ）に基づいて、予め定められたゲイン特性における傾きが決定される。

このように、最大利得（ｇａｉｎ＿ｓｕｐ）、暗騒音レベル（ＲＭＳ＿ｅ＿ｉｎｆ）およびゲイン特性５１０および５２０の傾きを定めることによって、ゲイン特性５１０および５２０が決定される。

ゲイン特性５１０は、音声判定情報（ＳｐｅｅｃｈＦｌａｇ）が有音声を示す場合におけるゲイン特性である。このゲイン特性５１０は、ゲイン特性５２０に比べて傾きの大きい特性を示す。これにより、音声信号が有音声である場合には、視聴者に対して音声信号を聞き取り易くすることができる。

ゲイン特性５２０は、音声判定情報（ＳｐｅｅｃｈＦｌａｇ）が無音声を示す場合におけるゲイン特性である。例えば、音声判定情報（ＳｐｅｅｃｈＦｌａｇ）が無音声を示す場合には、ゲイン特性５２０に基づいて、騒音レベル（ＲＭＳ＿ｅ）に対応する目標利得（ｔａｒｇｅｔ＿ｇａｉｎ）が算出される。

このように、音声信号のラウドネスレベル（Ｌ）および環境騒音信号の騒音レベル（ＲＭＳ＿ｅ）に基づいて最大利得が決定されるため、目標利得は、ラウドネスレベル（Ｌ）が大きいほど小さくなり、騒音レベル（ＲＭＳ＿ｅ）が大きいほど大きくなる。すなわち、記録再生装置１００は、スピーカ１６０から出力される音声信号が聞き取り易い特性であれば出力音声レベルの増加量を抑え、マイク１７０からの環境騒音が大きければ出力音声レベルの増加量を大きくする。

また、音声判定情報に基づいてゲイン特性の傾き選択するため、目標利得は、音声判定情報が有音声である旨を示す場合には大きくなり、無音声である旨を示す場合には小さくなる。すなわち、記録再生装置１００は、スピーカ１６０から出力される音声信号が有音声である場合には、その音声信号を視聴者に対して聞き取り易くするために、出力音声レベルを無音声である場合に比べて大きくする。

［コンプレッサ処理部による音量調整手法の例］
図８は、本発明の第３の実施の形態におけるコンプレッサ処理部２５１による音量調整手法の例に関する図である。ここでは、利得補正特性６１０が示されている。また、ここでは、横軸をコンテンツ解析情報生成部１５０により算出される音声レベル（ＲＭＳ）とし、縦軸をコンプレッサ処理部２５１によって増幅された音声信号の音声出力レベルとする。

利得補正特性６１０は、コンテンツ解析情報生成部１５０によって算出された音声レベル（ＲＭＳ）に応じて、コンテンツ再生部１４０により再生された音声信号の音量の増加率を補正するための利得特性の一例である。この利得補正特性６１０は、区間１乃至３の区間ごとに増加率が異なっている。

この場合において、コンプレッサ処理部２５１では、音声信号の音声レベル（ＲＭＳ）が閾値Ｔｈ＿ｃｏｍｐ１（増加率増大閾値）未満（区間１）である場合には、音声レベル（ＲＭＳ）が微小であるため、利得の補正を行わない。また、音声レベル（ＲＭＳ）が閾値Ｔｈ＿ｃｏｍｐ１以上であり、かつ、閾値Ｔｈ＿ｃｏｍｐ２（増加率抑制閾値）未満（区間２）である場合には、音声信号の音圧を効果的に増加させるために、区間１に比べて音声信号の音量の増加率を大きくする。さらに、音声レベル（ＲＭＳ）が閾値Ｔｈ＿ｃｏｍｐ２以上である場合（区間３）には、音声信号における振幅の増加を抑制するため、区間１に比べて音声信号の音量の増加率を小さくする。

このように、利得補正特性６１０を用いることによって、音声信号の最大振幅を抑制しつつ、音声信号の音圧を効果的に増加させることができる。次に、コンプレッサ処理部２５１により増幅された音声信号を、イコライジング処理部２５２においてさらに増幅する場合における音量調整手法について次図を参照して説明する。

［イコライジング処理部による音声調整手法の例］
図９は、本発明の第３の実施の形態におけるイコライジング処理部２５２による音量調整手法の例に関する概念図である。ここでは、スペクトルセントロイドＣ１およびＣ２と、これらに対応する音量調整領域７１１および７１２が示されている。ここでは、横軸を周波数とし、縦軸を音声信号の音量の利得とする。

スペクトルセントロイドＣ１およびＣ２は、調整帯域設定部２６０において環境騒音信号のパワースペクトル（ｓｐ＿ｅ）に基づいて算出されたスペクトル重心周波数である。このスペクトルセントロイドＣ１およびＣ２を算出することにより、環境騒音信号におけるレベルの高い周波数成分を特定することができる。この例では、スペクトルセントロイドＣ１は、環境騒音信号における１番目のフレームに対するスペクトル重心周波数であり、スペクトルセントロイドＣ２は、２番目のフレームに対するスペクトル重心周波数である。

音量調整周波数ｆ１およびｆ２は、イコライジング処理部２５２によって増幅させる音声信号の最大周波数である。この音量調整周波数ｆ１およびｆ２は、スペクトルセントロイドＣ１およびＣ２に一定の値をそれぞれ乗算することによって求められる最大周波数である。

設定利得ｅｑ＿ｇａｉｎ１'およびｅｑ＿ｇａｉｎ２'は、利得設定部２４０により設定された利得である。設定利得ｅｑ＿ｇａｉｎ１'は、音声信号における１番目のフレームに対する設定利得であり、設定利得ｅｑ＿ｇａｉｎ２'は、２番目のフレームに対する設定利得である。

音量調整領域７１１および７１２は、イコライジング処理部２５２において音声信号を増幅させる領域を示す概念図である。音量調整領域７１１は、音声信号における１番目のフレームに対する音量の増幅領域である。音量調整領域７１２は、音声信号における２番目のフレームに対する音量の増幅領域である。

このように、イコライジング処理部２５２により音声信号を増幅させる周波数帯域を、環境騒音信号の周波数特性に基づいて算出することによって、適切な音質調整を行うことができる。

＜４．第４の実施の形態＞
［記録再生装置の動作例］
次に本発明の第４の実施の形態における記録再生装置１００の動作について図面を参照して説明する。

図１０は、本発明の第４の実施の形態における記録再生装置１００の音声調整方法の処理手順例を示すフローチャートである。

まず、コンテンツ再生部１４０により、コンテンツデータが再生されることによって、音声信号が生成される（ステップＳ９１０）。次に、コンテンツ解析情報生成部１５０により、コンテンツ再生部１４０からの音声信号に基づいてコンテンツ解析情報が生成される（ステップＳ９２０）。なお、ステップＳ９２０は、特許請求の範囲に記載の第１の音声調整情報生成手順の一例である。

次に、環境騒音分離部１８０により、音声調整部２００から供給される音声信号に基づいて、マイク１７０から供給された騒音信号のうち、スピーカ１６０により出力された音声信号と環境騒音信号とが分離される（ステップＳ９３０）。なお、ステップＳ９３０は、特許請求の範囲に記載の音声分離手順の一例である。次に、環境騒音解析情報生成部１９０により、環境騒音分離部１８０において分離された環境騒音信号に基づいて環境騒音解析情報が生成される（ステップＳ９４０）。なお、ステップＳ９４０は、特許請求の範囲に記載の第２の音声調整情報生成手順の一例である。

そして、音声調整部２００において、コンテンツ解析情報および環境騒音解析情報に基づいて音声信号の音量を調整する音声調整処理が実行される（ステップＳ９５０）。なお、ステップＳ９５０は、特許請求の範囲に記載の音声調整手順の一例である。次に、スピーカ１６０により、音声調整部２００において増幅された音声信号が出力される（ステップＳ９６０）。次に、次の音声信号のフレームがあるか否かが判断される（ステップＳ９７０）。次のフレームがあれば、最後のフレームまで音声処理を繰り返し、次のフレームが無ければ音声処理を終了する。

［音声調整部の動作例］
図１１は、本発明の第４の実施の形態における音声調整部２００の音声調整処理（ステップＳ９５０）の処理手順例を示すフローチャートである。

まず、コンテンツ解析情報生成部１５０からのコンテンツ解析情報と、環境騒音解析情報生成部１９０からの環境騒音解析情報とが取得される（ステップＳ９５１）。次に、最大利得取得部２１２により、ラウドネスレベル算出部１５６からの音声信号のラウドネスレベル（Ｌ）、および、騒音レベル算出部１９１からの騒音レベル（ＲＭＳ＿ｅ）に対応する最大利得（ｇａｉｎ＿ｓｕｐ）が取得される。それとともに、ゲイン特性傾き決定部２１３により、音声判定情報（ＳｐｅｅｃｈＦｌａｇ）に基づいてゲイン特性の傾きが決定される。さらに、最小騒音レベル抽出部２１４により、現在のフレームまでの騒音レベル（ＲＭＳ＿ｅ）のうち最小の騒音レベルである暗騒音レベル（ＲＭＳ＿ｅ＿ｉｎｆ）が抽出される（ステップＳ９５２）。これにより、目標利得（ｔａｒｇｅｔ＿ｇａｉｎ）を算出するためのゲイン特性が生成される。

次に、目標利得算出部２２０により、ゲイン特性における最大利得、傾きおよび暗騒音レベルを用いることによって、現在のフレームにおける騒音レベル（ＲＭＳ＿ｅ）に基づいて目標利得（ｔａｒｇｅｔ＿ｇａｉｎ）が算出される（ステップＳ９５３）。そして、調整利得算出部２３０により、目標利得（ｔａｒｇｅｔ＿ｇａｉｎ）および無音判定情報（ＳｉｌｅｎｃｅＦｌａｇ）に基づいて調整利得（ｅｑ＿ｇａｉｎ）が算出される（ステップＳ９５４）。

次に、利得設定部２４０により、調整利得（ｅｑ＿ｇａｉｎ）に基づいてコンプレッサ処理部２５１に利得が設定されるとともに、音声レベル算出部１５１により、音声レベル（ＲＭＳ）がコンプレッサ処理部２５１に供給される。そして、コンプレッサ処理部２５１により、利得設定部２４０によって設定された利得と、音声レベル算出部１５１からの音声レベルとに基づいて、コンテンツ再生部１４０からの音声信号が増幅される（ステップＳ９５５）。

次に、利得設定部２４０により、調整利得（ｅｑ＿ｇａｉｎ）が閾値Ｔｈ＿ｇａｉｎ１以下であるか否かが判断される（ステップＳ９５６）。そして、調整利得（ｅｑ＿ｇａｉｎ）が閾値Ｔｈ＿ｇａｉｎ１以下である場合には、音声調整処理が終了する。一方、調整利得（ｅｑ＿ｇａｉｎ）が閾値Ｔｈ＿ｇａｉｎ１より大きい場合には、利得設定部２４０により、調整利得（ｅｑ＿ｇａｉｎ）に基づいてイコライジング処理部２５２に利得が設定される。それとともに、調整帯域設定部２６０により、環境騒音信号のパワースペクトルに基づいて音声信号を増幅させる周波数帯域が算出される。そして、イコライジング処理部２５２により、利得設定部２４０によって設定された利得と、調整帯域設定部２６０によって算出された周波数帯域とに基づいて、コンプレッサ処理部２５１からの音声信号が増幅される（ステップＳ９５７）。

次に、利得設定部２４０により、調整利得（ｅｑ＿ｇａｉｎ）が閾値Ｔｈ＿ｇａｉｎ２以下であるか否かが判断される（ステップＳ９５８）。そして、調整利得（ｅｑ＿ｇａｉｎ）が閾値Ｔｈ＿ｇａｉｎ２以下である場合には、音声調整処理が終了する。一方、調整利得（ｅｑ＿ｇａｉｎ）が閾値Ｔｈ＿ｇａｉｎ２より大きい場合には、利得設定部２４０により、調整利得（ｅｑ＿ｇａｉｎ）に基づいて全体音量増幅部２５３に利得が設定される。そして、全体音量増幅部２５３により、利得設定部２４０によって設定された利得に基づいて、イコライジング処理部２５２からの音声信号が増幅され（ステップＳ９５９）、音声調整処理が終了し、ステップＳ９６０の処理に進む。

このように、本発明の実施の形態によれば、再生されるコンテンツに基づいて生成されるコンテンツ解析情報と、環境騒音信号に基づいて生成される環境騒音解析情報とに基づいて、再生されるコンテンツの音声信号を適切に調整することができる。

また、最大利得取得部２１２を設けることによって、音声信号のラウドネスレベルが大きい程、最大利得が小さくなり、目標利得も小さくなることから、音声信号の音量を小さくすることができる。さらに、騒音レベルが大きい程、最大利得が大きくなり、目標利得も小さくなることから、音声信号の音量を大きくすることができる。

また、ゲイン特性傾き決定部２１３を設けることによって、音声信号が有音声と判定された場合には、ゲイン特性の傾きが大きくなるため、目標利得が大きくなることから、出力音声を大きくすることができる。これにより、有音声と判定された音声信号の音量を大きくすることにより、出力音声を聞き取り易くすることができる。

なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、上述のように特許請求の範囲における発明特定事項とそれぞれ対応関係を有する。ただし、本発明は実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。

また、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、ＣＤ（Compact Disc）、ＭＤ（MiniDisc）、ＤＶＤ、メモリカード、ブルーレイディスク（Blu-ray Disc（登録商標））等を用いることができる。

本発明の第１の実施の形態における記録再生装置の一構成例を示すブロック図である。本発明の第１の実施の形態におけるコンテンツ解析情報生成部１５０および環境騒音解析情報生成部１９０の一構成例を示すブロック図である。本発明の第１の実施の形態における音声調整部２００の一構成例を示すブロック図である。本発明の第１の実施の形態における環境騒音分離部１８０の一構成例を示すブロック図である。本発明の第２の実施の形態におけるコンテンツ解析情報生成部１５０により生成されるコンテンツ解析情報のデータ形式を例示する図である。本発明の第２の実施の形態における環境騒音解析情報生成部１９０により生成される環境騒音情報のデータ形式を例示する図である。本発明の第３の実施の形態の音声調整部２００における目標利得の算出手法を例示する図である。本発明の第３の実施の形態におけるコンプレッサ処理部２５１による音量調整手法の例に関する図である。本発明の第３の実施の形態におけるイコライジング処理部２５２による音量調整手法の例に関する概念図である。本発明の第４の実施の形態における記録再生装置１００の音声調整方法の処理手順例を示すフローチャートである。本発明の第４の実施の形態における音声調整部２００の音声調整処理（ステップＳ９５０）の処理手順例を示すフローチャートである。

符号の説明

１００記録再生装置
１１０アンテナ
１２０チューナ部
１３０コンテンツ記録部
１４０コンテンツ再生部
１４９、１８９、２０１、２０９信号線
１５０コンテンツ解析情報生成部
１５１音声レベル算出部
１５２無音判定部
１５３ピッチゲイン算出部
１５４音声判定部
１５５パワースペクトル算出部
１５６ラウドネスレベル算出部
１６０スピーカ
１７０マイク
１８０環境騒音分離部
１８１適応フィルタ
１８２減算器
１９０環境騒音解析情報生成部
１９１騒音レベル算出部
１９２パワースペクトル算出部
２００音声調整部
２１０ゲイン特性決定部
２１１最大利得テーブル
２１２最大利得取得部
２１３ゲイン特性傾き決定部
２１４最小騒音レベル抽出部
２２０目標利得算出部
２３０調整利得算出部
２４０利得設定部
２５１コンプレッサ処理部
２５２イコライジング処理部
２５３全体音量増幅部
２６０調整帯域設定部

Claims

コンテンツにおける音声信号の周波数特性と人間の聴覚特性とに基づいて第１の音声調整情報を生成する第１の音声調整情報生成部と、
音声入力部により入力された騒音信号のうち音声出力部により出力された前記音声信号と他の騒音信号とを分離する音声分離部と、
前記音声分離部により分離された前記他の騒音信号の信号レベルに基づいて第２の音声調整情報を生成する第２の音声調整情報生成部と、
前記音声出力部に出力される前記音声信号の音量を前記第１および第２の音声調整情報に基づいて前記第１の音声調整情報が大きいほど前記音声信号の音量を小さくし、前記第２の音声調整情報が大きいほど前記音声信号の音量を大きくするように調整する音声調整部と
を具備し、
前記第１の音声調整情報生成部は、前記音声信号の周期性と前記音声信号の信号レベルとに基づいて前記音声信号が有声音であるか無声音であるかを判定する音声判定部を備え、
前記音声調整部は、前記音声判定部により有声音と判定された場合には前記音声判定部により無声音と判定されたときに比べて前記音声信号の音量を大きくする
信号処理装置。
前記第１の音声調整情報生成部は、前記音声信号の信号レベルに基づいて前記音声信号が無音であるか否かを判定する無音判定部をさらに備え、
前記音声調整部は、前記無音判定部により無音であると判定された場合には前記音声信号の音量を大きくしない
請求項１記載の信号処理装置。
前記音声分離部は、前記音声信号と前記騒音信号に含まれる音声信号との類似度を前記音声信号に基づいて算出して前記算出された類似度に基づいて前記他の騒音信号を推定する請求項１記載の信号処理装置。
前記音声分離部は、エコーキャンセラーを備える請求項３記載の信号処理装置。
騒音信号を集音する音声入力部と、コンテンツにおける音声信号を出力する音声出力部とを備える信号処理装置における音量調整方法であって、
前記音声信号の周波数特性と人間の聴覚特性とに基づいて第１の音声調整情報を生成する第１の音声調整情報生成手順と、
前記音声入力部により入力された騒音信号のうち前記音声出力部により出力された前記音声信号と他の騒音信号とを分離する音声分離手順と、
前記音声分離手順により分離された前記他の騒音信号の信号レベルに基づいて第２の音声調整情報を生成する第２の音声調整情報生手順と、
前記音声出力部に出力される前記音声信号の音量を前記第１および第２の音声調整情報に基づいて前記第１の音声調整情報が大きいほど前記音声信号の音量を小さくし、前記第２の音声調整情報が大きいほど前記音声信号の音量を大きくするように調整する音声調整手順と
を具備し、
前記第１の音声調整情報生成手順において、前記音声信号の周期性と前記音声信号の信号レベルとに基づいて前記音声信号が有声音であるか無声音であるかを判定する音声判定手順を備え、
前記音声調整手順において、前記音声判定手順により有声音と判定された場合には前記音声判定手順により無声音と判定されたときに比べて前記音声信号の音量を大きくする
音量調整方法。
騒音信号を集音する音声入力部と、コンテンツにおける音声信号を出力する音声出力部とを備える信号処理装置において、
前記音声信号の周波数特性と人間の聴覚特性とに基づいて第１の音声調整情報を生成する第１の音声調整情報生成手順と、
前記音声入力部により入力された騒音信号のうち前記音声出力部により出力された前記音声信号と他の騒音信号とを分離する音声分離手順と、
前記音声分離手順により分離された前記他の騒音信号の信号レベルに基づいて第２の音声調整情報を生成する第２の音声調整情報生手順と、
前記音声出力部に出力される前記音声信号の音量を前記第１および第２の音声調整情報に基づいて前記第１の音声調整情報が大きいほど前記音声信号の音量を小さくし、前記第２の音声調整情報が大きいほど前記音声信号の音量を大きくするように調整する音声調整手順と
をコンピュータに実行させるプログラムであって、
前記第１の音声調整情報生成手順において、前記音声信号の周期性と前記音声信号の信号レベルとに基づいて前記音声信号が有声音であるか無声音であるかを判定する音声判定手順を備え、
前記音声調整手順において、前記音声判定手順により有声音と判定された場合には前記音声判定手順により無声音と判定されたときに比べて前記音声信号の音量を大きくする
プログラム。