JP2005348216A - 音質補正伝送システム、送信装置、受信装置 - Google Patents

音質補正伝送システム、送信装置、受信装置 Download PDF

Info

Publication number
JP2005348216A
JP2005348216A JP2004167087A JP2004167087A JP2005348216A JP 2005348216 A JP2005348216 A JP 2005348216A JP 2004167087 A JP2004167087 A JP 2004167087A JP 2004167087 A JP2004167087 A JP 2004167087A JP 2005348216 A JP2005348216 A JP 2005348216A
Authority
JP
Japan
Prior art keywords
sound quality
quality correction
data
sound
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004167087A
Other languages
English (en)
Other versions
JP4381892B2 (ja
Inventor
Kaoru Watanabe
馨 渡辺
Yasushige Nakayama
靖茂 中山
Tomoyasu Komori
智康 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2004167087A priority Critical patent/JP4381892B2/ja
Publication of JP2005348216A publication Critical patent/JP2005348216A/ja
Application granted granted Critical
Publication of JP4381892B2 publication Critical patent/JP4381892B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Transmitters (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

【課題】 各個人に適した音質補正を行う。
【解決手段】 番組信号の送信を行う送信装置と、該送信装置から送信された番組信号を受信し、補正して出力する受信装置とからなる音質補正伝送システムにおいて、前記送信装置は、番組の音声からオーディオ特徴データを生成する特徴データ生成手段と、前記受信装置側で音質補正を行わせるための音質補正用データを生成する音質補正用データ生成手段とを有し、前記受信装置は、前記送信装置から得られる音質補正用データに基づいて、視聴者情報を取得する視聴者情報取得手段と、前記視聴者情報取得手段により得られる取得データから音質補正データを生成する音質補正データ生成手段と、前記音質補正データ生成手段により得られる補正データと、前記オーディオ特徴データとに基づいて、前記音声の補正を行う補正手段とを有することにより、上記課題を解決する。
【選択図】 図1

Description

本発明は、音質補正伝送システム、送信装置、受信装置に係り、特に、各個人に適した音質補正を行い高精度な音声を提供するための音質補正伝送システム、送信装置、受信装置に関する。
従来、番組においては放送番組中のナレーション音と共にBGM等の背景音(効果音)を重ねることにより効果的な演出を実現している。このような番組中の音声は、ある所定の混合比により混合されて符号化されたオーディオ信号が視聴者に提供される。このため、視聴者は、受信機等により復号されたオーディオ信号を補正せずに再生するか、又は予め設定された音質補正特性を使用した再生を行っている。このため、番組のオーディオ信号毎の特徴を考慮した高精度な補正や、個人の嗜好に適した自動的な音質補正を行うことは困難であった。
そこで、従来の技術として、番組制作にあたり、ナレーション音や背景音等との音の聴感的なバランスを測定し、これを制御信号としてミキシングを制御する手段がある(例えば、特許文献1参照。)。
また、視聴者が「声」と、「声」以外の音楽や効果音との音声バランスを自分に適したバランスにして聴取する手法がある(例えば、特許文献2参照。)。なお、特許文献2では、通常の音声信号と人の声以外の音声信号を異なるチャンネルに割当てて多重化している。
特開2001−76460号公報 特開平10−327386号公報
しかしながら、上述した特許文献1に示されている手法の場合は、放送局側で予め制作された音声の中から自分の好ましいものを選択することができるが、放送局側で制作された音声が必ずしも各個人に最適な音でない場合もある。
また、特許文献2に示されている手法の場合は、人の声の電気信号と、人の声以外の電気信号とのミキシングバランスが異なる2種類の信号を受信してミキシングバランスを視聴者に応じてある程度の調整することができるが、この場合も全ての人(視聴者)にとっては最適な音でない場合もある。
本発明は、上述した問題点に鑑みなされたものであり、各個人(各視聴者)に適した音質補正を行い高精度な音声を提供するための音質補正伝送システム、送信装置、受信装置を提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、映像及び音声からなる番組信号の送信を行う送信装置と、該送信装置から送信された番組信号を受信し、受信した番組信号に含まれる音声を視聴者毎に補正して出力する受信装置とからなる音質補正伝送システムにおいて、前記送信装置は、番組の音声からオーディオ特徴データを生成する特徴データ生成手段と、前記受信装置側で音質補正を行わせるための音質補正用データを生成する音質補正用データ生成手段とを有し、前記受信装置は、前記送信装置から得られる音質補正用データに基づいて、視聴者情報を取得する視聴者情報取得手段と、前記視聴者情報取得手段により得られる取得データから音質補正データを生成する音質補正データ生成手段と、前記音質補正データ生成手段により得られる補正データと、前記オーディオ特徴データとに基づいて、前記音声の補正を行う補正手段とを有することを特徴とする。
請求項1記載の発明によれば、受信装置で音質補正を行わせるための音質補正用データを送信装置でオーディオ特徴データに対応させて生成し、また送信装置は、その音質補正用データに対応した音質補正データを生成することで、効率的に高精度な音質補正を実現できる。これにより、各個人に適した音質補正を行い高精度な音声を提供することができる。
請求項2に記載された発明は、映像及び音声からなる番組信号の送信を行う送信装置において、音声からオーディオ特徴データを生成する特徴データ生成手段と、受信側に音質補正を行わせるための音質補正用データを生成する音質補正用データ生成手段とを有することを特徴とする。
請求項2記載の発明によれば、受信側で音質補正を行わせるための音質補正用データをオーディオ特徴データに対応させて生成することで、受信側で効率的に高精度な音質補正を実現できる。これにより、各個人に適した音質補正を行い高精度な音声を提供することができる。
請求項3に記載された発明は、前記音声は、少なくとも2つのオーディオ信号を有し、前記特徴データ生成手段は、前記オーディオ信号を周波数変換し、変換された周波数帯域を結合して得られる最大値を特徴データとして生成することを特徴とする。
請求項3記載の発明によれば、オーディオ特徴データを効率的で高精度に生成することができる。
請求項4に記載された発明は、前記音質補正用データ生成手段は、前記視聴者に対する質問情報、及び該質問情報に対応付けられた音声情報から音質補正用データを生成することを特徴とする。
請求項4記載の発明によれば、効率的に音質補正用データを生成することができる。また、質問情報、及び該質問情報に対応付けられた音声情報を用いて、受信側での視聴者による設定を容易に実現することができる。
請求項5に記載された発明は、前記オーディオ信号は、ナレーション音及び背景音を有することを特徴とする。
請求項5記載の発明によれば、混合して出力されるナレーション音及び背景音について、お互いの音声を補正することにより、より効果的な演出を実現することができる。
請求項6に記載された発明は、送信側から送信された番組信号を受信し、受信した番組の音声を視聴者毎に補正して出力する受信装置において、前記送信側から送信される音質補正用データに基づいて、視聴者情報を取得する視聴者情報取得手段と、前記視聴者情報取得手段により得られる取得データから音質補正データを生成する音質補正データ生成手段と、音質補正データ生成手段により得られる補正データと、前記番組信号に含まれるオーディオ特徴データとに基づいて、前記音声の補正を行う補正手段とを有することを特徴とする。
請求項6記載の発明によれば、音質補正を行うための音質補正用データにより予め補正データを生成しておくことで、オーディオ特徴データに対して効率的に高精度な音質補正を実現することができる。これにより、各個人に適した音質補正を行い高精度な音声を提供することができる。
請求項7に記載された発明は、前記視聴者情報取得手段は、前記音質補正用データに含まれる視聴者に対する質問情報、及び該質問情報に対応付けられた音声情報から、視聴者により入力される回答結果及び聴覚測定データを視聴者情報として取得することを特徴とする。
請求項7記載の発明によれば、視聴者に対する質問情報、及び該質問情報に対応付けられた音声情報を用いて容易に視聴者情報を取得することができる。
請求項8に記載された発明は、前記音質補正データ生成手段は、前記視聴者情報取得手段により得られる回答結果及び各視聴者の聴覚測定データと、前記オーディオ特徴データに基づいて、視聴者毎の音声補正データを生成することを特徴とする。
請求項8記載の発明によれば、視聴者により入力された視聴者情報を用いることにより、高精度に音質補正データを生成することができる。
請求項9に記載された発明は、前記音質補正データ生成手段は、複数のオーディオ信号の混合比及び音量を補正するデータを生成することを特徴とする。
請求項9記載の発明によれば、各個人毎に複数のオーディオ信号の混合比と、音量とを補正するデータを生成することにより、効率的に高精度な音質の補正を実現することができる。
請求項10に記載された発明は、前記補正手段は、受信した番組信号に含まれる複数のオーディオ信号と、前記音質補正データ生成手段により得られる補正データとに基づいて、前記複数のオーディオ信号の混合比及び音量を補正することを特徴とする。
請求項10記載の発明によれば、効率的に高精度な音質の補正を実現することができる。
本発明によれば、各個人に適した音質補正を行い高精度な音声を提供することができる。
<本発明の概要>
本発明は、各個人に適した音質補正を行うために、インターネット等の通信ネットワークを使用した送受信手段やCD−ROM等の記録媒体等により、音の聞き易さに関するアンケートと、アンケートに付随したオーディオ信号を受信装置側で取得し、取得した情報に合わせて音質補正を行うことにより、パーソナルな音質補正データを各視聴者に提供することができる。
更に具体的に説明すると、例えばデジタル放送又はインターネット配信により、オーディオ信号とオーディオ信号の特徴データが付随したデジタルオーディオ符号化ストリーム信号を受信し、この受信したストリーム信号を復号し、復号したデジタルオーディオ信号に含まれる特徴データを用いて音質補正を行う機能を有する装置において、本装置で取得した個人のパーソナルな音質補正データとオーディオ信号の特徴データとを組み合わせることにより、各個人に適した音質補正を行ったオーディオ信号を出力する。
<実施形態>
以下に、本発明を適用した実施形態について図を用いて説明する。図1は、本発明における音質補正伝送システムの一構成例を示す図である。
図1に示す音質補正伝送システム10は、送信装置11と、受信装置12とを有するよう構成されている。また、送信装置11と受信装置12とは、インターネット等の通信ネットワーク13を介してデータの送受信が可能な状態で接続されている。また、送信装置11は、放送衛星14を介して放送番組を受信装置12へ提供する。
ここで、図1に示す送信装置11は、各視聴者が自宅等に設置された受信装置12等にて視聴可能な映像や音声等からなる番組等を提供する提供事業体等からなる送信装置であり、例えば、放送局やコンテンツを提供するコンテンツプロバイダ等である。また、本実施形態において、送信装置11と受信装置12の数には限定されない。
更に、送信装置11は、CD−ROM等の記録媒体15により、視聴者情報を取得するためのアンケートやテスト音声データ等の音質補正用データを記録し、受信装置12に視聴者端末12に提供することができる。
送信装置11は、制作した放送番組を、放送衛星14を介して受信装置12に提供する。また、送信装置11は、受信装置12に音声を補正させるため視聴者に対するンケートや、視聴能力や嗜好の音を測定するためのテスト音声データ等からなる音質補正用データを、通信ネットワーク13を介して受信装置12に送信する。なお、上述した音質補正用データは、CD−ROM等の記録媒体15に蓄積して、郵送等により視聴者に提供することもできる。
一方、受信装置12は、送信装置11からのアンケート等の質問情報、音質補正用データ等を用いて各個人毎に設定を行い、そのアンケートの回答や測定結果等の情報から音質補正データを生成し、生成した音質補正データを蓄積して番組中に含まれる音声の補正を行う。
次に、送信装置11及び受信装置12の各機能構成について、図を用いて説明する。
<送信装置11>
図2は、本実施形態における送信装置の機能構成の一例を示す図である。図2に示す送信装置11は、オーディオ特徴データ生成手段21と、番組制作手段22と、音質補正用データ生成手段23と、第1送信手段24と、第2送信手段25とを有するよう構成されている。
オーディオ特徴データ生成手段21は、ナレーションの音声データと、BGM等の背景音の音声データを入力し、放送番組のジャンル情報又は番組毎のオーディオ信号に基づいて、オーディオ特徴データを生成する。また、オーディオ特徴データ生成手段21は、生成したオーディオ特徴データを番組制作手段22に出力する。なお、オーディオ特徴データ生成についての詳細な説明は後述する。
番組制作手段22は、映像データ及びオーディオ特徴データ生成手段21より得られるオーディオ特徴データを入力して番組を制作する。また、番組制作手段22は、制作された番組信号を第1送信手段24に出力する。
また、音質補正用データ生成手段23は、受信装置12により音質補正データを生成し音質補正を行わせるため、アンケート等の視聴者に対する質問情報、及び質問情報に対応付けられた音声情報(テスト音声データ)から音質補正用データを生成する。音質補正用データ生成手段23は、生成した音質補正用データを第2送信手段25に出力する。なお、音質補正用データ生成手段23は、CD―ROM等の記録媒体15等に生成した音質補正用データを蓄積することができ、これにより、郵送等でも音質補正用データを受信装置12へ送ることができる。
ここで、質問情報とは、例えば視聴者に対して音の聞きやすさに関するアンケートや各種質問に関するデータであり、テスト音声データとは、例えばアンケートに付随した個人の聴力を測定するためのオーディオ信号である。また、ナレーション音や背景音のサンプルデータ等も含まれる。
第1送信手段24は、番組制作手段22から得られる番組信号を放送衛星14により受信装置12に出力する。また、第2送信手段25は、音声補正用データ生成部23から得られる音質補正用データを通信ネットワーク13等により受信装置12に出力する。
ここで、第1送信手段24から送信される信号は、番組制作手段22により生成される番組毎に送信されるのに対し、第2送信手段25から送信される信号は、音声補正用データ生成部23により生成される音質補正用データを用いて受信装置12側に補正を行わせるとき、例えば一度だけ送信を行う。
<オーディオ特徴データ生成手段21:オーディオ特徴データ生成例>
次に、オーディオ特徴データ生成手段21におけるオーディオ特徴データの生成例について図を用いて説明する。図3は、オーディオ特徴データの生成例を説明するための図である。また、具体的には、ナレーション音からのオーディオ特徴データを生成する生成処理ブロックの一例を示している。
ここでは、例えばニュース等の情報提供番組において、ナレーション音と背景音に関して、ナレーション音を明瞭で聞きやすくするためのオーディオ特徴データの生成例について示す。なお、本実施形態にて用いられるオーディオ音についてはこの限りではなく、また、2つのオーディオ信号(ナレーション音、背景音)に限定されない。
更に、ここでは、ナレーション音から抽出したMPEG―2AAC(MPEG:Moving Picture Experts Group / AAC:Advanced Audio Coding)符号化による49個の聴覚的な周波数帯域(Scalefactor Bands)に対応した特徴データを生成するものとする。
図3に示すオーディオ特徴データ生成手段21は、ミキシング手段31と、MDCT(Modified Discrete Cosine Transform)手段32と、MPEG―2AAC手段33と、スケールファクタバンド結合手段34と、スケールファクタバンド最大値検出手段35と、符号化手段36と、多重化手段37とを有するよう構成されている。
ここで通常、送信装置11においてはナレーション音と背景音は別々に入力され、これをミキシング手段31により適切なレベル比で混合して放送音声が生成される。図3では、このうちナレーション音のみを用いてオーディオ特徴データを生成する。
まず、ナレーション音声をMDCT手段32に入力し、またMPEG−2AAC符号化手段33で音声を符号化したMDCT窓情報を入力して、時間信号をMDCT周波数データに変換する。
図4は、周波数帯域とMDCT周波数データの範囲を示す図である。図4では、サンプルレートfsを44.1kHz又は48KHzとし、49個の聴覚的な周波数帯域(num_swb_long_window)の0〜48の各スケールファクタバンド(swb)におけるMDCT周波数データの範囲(swb_offset_long_window)を示している。
ここで、例えば、多重化するナレーション音のオーディオ特徴データとして、変換されたMDCT周波数データのうち、図4に示すスケールファクタバンド(swb)のうち35番目(swb=35)までのデータを用いるものとする。
つまり、MDCT手段32により周波数変換されたデータをスケールファクタバンド結合手段34により結合し、図4に示すスケールファクタバンド内のMDCT周波数データの総エネルギーを計算する。また、スケールファクタバンド結合手段34は、例えば、34番目まで結合した信号をスケールファクタバンド最大値検出手段35に出力する。スケールファクタバンド最大値検出手段36は、入力された信号において、MDCT周波数データの総エネルギーの最大値をスケールファクタバンドの特徴データとして符号化手段36に出力する。
符号化手段36は、入力された特徴データの符号化を行い、多重化手段37に出力する。多重化手段37は、デジタルオーディオストリームとオーディオ特徴データを多重化して出力する。なお、ナレーション音が十分大きいと判定された場合には特徴データの多重を行うが、ナレーション音が無音に近いと判定された場合には特徴データの多重は行う必要はない。次に、多重化方法の例について、具体的に説明する。
<オーディオストリームへの特徴データの多重例>
ここで、オーディオ特徴データ生成手段21によるオーディオストリームへの特徴データの多重方法の例について図を用いて説明する。ここでは、MPEG−2AAC符号化を例に、デジタルオーディオ符号化ストリームに付随したオーディオ特徴データの多重方法の例を示す。
図5は、raw_data_blockシンタックスのシンタックス例を示す図である。図5に示すように、MPEG−2AACのデジタルオーディオ符号化ストリームの音声データは、図5に示すようなraw_data_blockシンタックスの形式で多重化される。このシンタックス中にfill_element領域やdata_stream_element領域が定義されている。ここで、上述の各領域について説明する。
図6は、fill_element領域のシンタックス例を示す図であり、図7は、data_stream_element領域のシンタックス例を示す図である。更に、図8は、図6に示すfill_element領域に含まれるextension_payload領域のシンタックス例を示す図である。
オーディオ特徴データは、図6に示すように、fill_element領域に含まれる図8のextension_payloadシンタックスに示す音響特徴_extension_data()として多重化させたり、又は図7に示すdata_stream_element領域に示す音響特徴_extension_data _byteとして多重化させることができる。
なお、extension_payloadシンタックスの音響特徴_extension_data()として多重するためには、MPEG等の規格により承認される必要であると思われるが、data_stream_element領域で示す音響特徴_extension_data _byteとして多重する場合には、MPEG等により承認される必要がないため、容易に多重化が実現可能となる。なお、本発明における特徴データの多重化例については、この限りではない。
<受信装置12>
次に、受信装置12の具体的な機能構成について図を用いて説明する。図9は、本実施形態における受信装置の機能構成の一例を示す図である。図9に示す受信装置12は、受信手段41と、音質補正データ生成手段42と、音質補正データ蓄積手段43と、映像音声分離手段44と、音質補正手段45と、視聴者情報手段46と、表示手段47と、音声出力手段48と、入力手段49とを有するよう構成されている。
受信手段41は、放送衛星14からの番組信号を受信し、映像音声分離手段44に出力する。また、受信手段41は、通信ネットワーク13を介して送信装置11から送信された音質補正用データの各種情報を取得する。ここで、取得される各種情報は、上述した視聴者に対する音声を補正するための質問情報やテスト音声情報である。受信手段41は取得した音質補正用データを視聴者情報取得手段46に出力する。
音質補正データ生成手段42は、視聴者情報取得手段46が取得したアンケート等に回答結果及び各個人の聴覚測定データを用いて、デジタルオーディオストリームに含まれるオーディオ特徴データに対応して音質補正を行うことができる音声補正変換テーブルを生成する。また、音質補正データ生成手段42は、生成した変換テーブルを音質補正データ蓄積手段43に出力する。音質補正データ蓄積手段43は、入力された音声補正変換テーブルを視聴者(個人)毎に蓄積する。
また、映像音声分離手段44は、入力した番組信号を映像信号と音声信号とに分離し、分離した映像信号を表示手段47に出力し、分離した音声信号を音質補正手段45に出力する。
音質補正手段45は、復号したデジタルオーディオ信号に含まれる特徴データと、音質補正データ蓄積手段43に蓄積された各視聴者の音質補正変換テーブルを用いて、番組に合わせて個人に最適な音質補正を行ったオーディオ信号を生成し、音声出力手段48に出力する。この出力は、例えばナレーション音が強調されたオーディオ信号となる。なお、音質補正の詳細については後述する。
視聴者情報取得手段46は、受信手段41から得られる音質補正の各種情報を入力する。なお、これらの情報は、上述したように、視聴者に対する音声を補正するための質問情報やテスト音声情報であり、記録媒体15等からも取得することができる。
視聴者情報取得装置46は、入力された質問情報を表示手段47に出力する。また、テスト音声情報を音声出力手段47に出力する。また、視聴者情報取得装置46は、視聴者がキーボードやマウス、又はリモコン等の入力手段49により表示手段47に出力された質問の回答や各個人の聴覚測定データ、音量等の設定情報等を取得する。更に、視聴者情報取得装置46は、その取得データを音質補正データ生成手段42に出力する。
表示手段47は、モニタ等からなり、音声分離手段44から得られる映像を出力する。また、視聴者情報取得手段46から入力される視聴者に音声補正に関するアンケート等の内容を表示する。
また、音声出力手段48は、スピーカ等からなり音質補正手段45により視聴者の嗜好に合った音声信号を出力する。また、視聴者情報取得手段46より入力されるテスト音声データを出力する。
入力手段49は、キーボードやマウス、リモコン等からなり、視聴者は入力手段49により、1台の受信装置で複数の視聴者の音質補正データを蓄積可能とするため、視聴者毎に音質補正データを識別するための個人種別情報を入力する。更に、質問情報やテスト音声データを試聴して、その回答を入力する。例えば、テスト音声データのオーディオ信号が聞こえているか、又は聞き取りやすいか等の質問に対して回答を行う。
また、入力手段49は、映像や番組等を視聴する際に、上述の質問情報やテスト音声データにより新たに補正データを生成したい場合には視聴者情報取得手段46に視聴者情報取得に関する処理を行うよう指示することができる。
<視聴者情報取得例>
ここで、視聴者情報を取得するための具体的な音声の設定例について説明する。
まず、音声出力手段48により、あるサイン波音(例えば500Hz)を所定の出力レベルで再生する。視聴者は、再生音が聞こえていれば「Yes」を、再生音が聞こえていなければ「No」を入力手段49により回答する。この回答結果を視聴者情報取得手段46により取得する。
次に、回答結果により再生音が聞こえていれば出力レベルを下げ、再生音が聞こえていなければ出力レベルを上げて、再度再生を行う。上述の処理を繰り返し行い、あるレベル以下では聞こえず、所定のレベル以上で聞こえるという閾値を、回答者個人のあるサイン波音に対する聴覚データとして取得する。
次に、上述のサイン波音とは別のサイン波音(例えば1000Hz)を用いて、上述と同様に回答者個人のあるサイン波音に対する聴覚データとして取得する。このように、複数の測定すべきサイン波音全てに対して上述した処理を繰り返し行う。
次に、ある放送番組を模擬した番組音(Ref)と、ナレーション音と効果音をある比率に設定した番組音(Tst)を音声出力手段48から再生する。音声出力手段48によりRefよりもTstが好みならば「Yes」を、TstよりもRefが好みならば「NO」を回答し、この回答結果を視聴者情報取得手段46により取得する。
次に、回答結果によりRefよりもTstが好みならば背景音の比率を下げ、TstよりもRefが好みならば背景音の比率を上げて再度再生を行う。上述の処理を繰り返し行い、ある比率以下ではRefよりもTstが好みで、ある比率以上ではTstよりもRefが好みとなる閾値を、ある番組音に対する好みの聴覚データとして取得する。また、上述の処理を複数の測定すべき番組音全てに対して繰り返し行う。
<音質補正データ生成手段42>
次に、音質補正データ生成手段42におけるテーブル生成の具体例について説明する。上述した視聴者情報取得例において、視聴者情報取得手段46により取得された取得データにより所定数のデータが取得できた場合、取得したデータからテーブルを生成する。
具体的には、収集した個人の周波数毎の聴力レベル(個人毎に聞こえる最も小さいレベル)と、周波数毎のナレーションと背景音間における好みの混合比率のデータとを、音質補正変換テーブルとして使用する。または、音声ボリューム毎に周波数毎の聴力レベルと、ナレーションと背景音間における好みの混合比率のデータを作成し音質補正変換テーブルを生成する。なお、テーブルの生成例については、本発明においては限定されず、その他の方法を用いてもよい。
ここで、更に具体的な変換テーブルについて説明する。ここでは、取得したサイン波音に対する聴覚データからゲイン変換テーブルを作成する例について説明する。
図10は、ゲイン変換テーブルの一例を示す図である。図10では、ゲイン変換テーブルとして、上述したオーディオ特徴データ生成例と同様にスケールファクタバンド番号(sfb番号)毎に、MPEG−2AACにおいて、スケールファクタ値(sfb値)として0〜255の値があるので、sfb番号及びsfb値の2次元配列に対して、所定のゲイン値(A〜ZZ48)を設定したゲイン変換テーブルを生成する。
また、図11は、補正前と補正後のデータ推移の一例を示す図である。ここで、図10に示すゲイン変換テーブルにおける所定のゲイン値は、図11に示すゲイン補正前とゲイン補正後の差分値とすることができる。このように、図10により、各スケールファクタバンド毎に異なるゲイン値を記載することができる。
ここで、図11に示すように、視聴者から収集された聴覚データについてある入力の音量よりも小さい音は聞きづらい場合、所定の範囲(50〜100)は一定の音量となるように補正したり、ある所定量を超える音量について(図11では、200以上)は、入力に対する出力の傾きが半分になるような補正を行う。
つまり、上述のような補正を行うことにより、例えば全ての受信装置に放送される番組(ニュース等の情報提供番組等)の番組音に対して、補正データにより他の受信装置で放送された放送音よりもナレーションが大きい音を容易に出力することができる。
また、聴覚測定データから番組音に対する所望の混合比率を生成する場合は、まず、上述したサイン波音に対する聴覚測定データにより、視聴者が所望の音質の閾値を設定されているため、これにより、例えば、最も小さい音と最も大きい音の音量差(ダイナミックレンジ)を放送音よりも小さくするためのテーブル等を生成することができる。
また、ナレーション音と効果音等の背景音の混合比率を放送音から変更するための混合比率テーブルを生成することができる。この混合比率テーブルは、デジタルオーディオ符号化ストリームにオーディオ特徴データが含まれており、更にニュース等の情報提供番組において、ナレーション音を明瞭で聞きやすくするためにナレーション音に関するオーディオ特徴データが伝送される場合に用いられる。
混合比率テーブルは、図10に示すように、上述したオーディオ特徴データ生成例と同様にスケールファクタバンド番号(sfb番号)毎に、MPEG−2AACにおいて、スケールファクタ値(sfb値)として0〜255の値があるので、sfb番号及びsfb値の2次元配列に対して、所定のゲイン値(A〜ZZ48)を設定した混合比率を設定することができる。
ここで、例えば収集した聴覚データがニュース等情報提供番組の単一の値である場合、sfb値に係わらず一定の混合比率とすることができる。また、ニュース等情報提供番組に用いる場合、sfb番号35までの混合比率は収集した聴覚データに対応して補正し、35以上のミックスレベル比は通常音声と同じ混合比率となるように設定することもできる。
<音質補正手段45>
次に、音質補正手段45について、具体的に説明する。音質補正手段45は、個人の音質補正変換テーブルを利用して、取得した個人のパーソナルな音質補正データと放送番組のジャンル情報又は番組毎にオーディオ信号に含まれて送信される特徴データを組み合わせて、番組毎に視聴者に適したオーディオ信号になるよう音質補正を行う。
図12は、音質補正手段における補正処理ブロックの一例を示す図である。なお、図12は、ナレーション音を明瞭で聞きやすくするためのブロック構成例である。図12は、分離手段61と、デジタルオーディオストリーム復号手段62と、ナレーション復号手段63と、MDCT手段64と、ナレーションミックス比変換手段65と、ダイナミックレンジ変換手段66と、逆MDCT手段67とを有するよう構成されている。
なお、図12に示すブロック図は、いったんデジタルオーディオ信号を復号し、復号信号に音質補正を行う場合を示しているが、構成をより簡潔にするためデジタルオーディオストリーム復号時にこの機能を組み込むことも可能である。
分離手段61は、入力されるMPEG−2AACデジタルオーディオストリームとナレーション特徴データを分離する。また、分離手段61は、分離されたデジタルオーディオストリームをデジタルオーディオストリーム復号手段62に出力し、ナレーション特徴データをナレーション特徴データ復号手段63に出力する。
デジタルオーディオストリーム復号手段62は、分離手段61により得られるデジタルオーディオストリームをデジタルオーディオ信号に復号する。また、デジタルオーディオストリーム復号手段62は、復号されたデジタルオーディオ信号をMDCT手段64に出力する。また、ナレーション特徴データ復号手段63は、ナレーション特徴データを復号する。また、ナレーション特徴データ復号手段63は、復号されたナレーション特徴データをMDCT手段64に出力する。
MDCT手段64は、MPEG−2AACデジタルオーディオストリームのフレームと同じMDCT窓情報を用いて再度時間信号をMDCT周波数データに変換する。
具体的には、MDCT手段64により得られるMDCT周波数データにナレーション特徴データをスケールファクタバンド毎に乗算することによりナレーション音のMDCT周波数データを再現し、再現したナレーション音のMDCT周波数データをナレーションミックス比変換手段65に出力する。
ナレーションミックス比変換手段65は、元の放送音(ナレーション音と背景音とが混合されたもの)のMDCT周波数データを、音質補正データ蓄積手段43から得られる音質補正テーブル(混合比率テーブル)のデータにしたがって視聴者に適切な混合比で乗算又は加減算することにより音質補正を行う。
また、ナレーションミックス比変換手段65は、音質補正した音声をダイナミックレンジ変換手段66に出力する。ダイナミックレンジ変換手段66は、ゲイン変換テーブルにしたがって、入力した信号に音質補正データ蓄積手段43から得られる音質補正テーブル(ゲイン変換テーブル)のデータを乗算又は加減算することにより、音量の大きさが視聴者に適切な範囲内となる音質補正済み信号を作成する。ダイナミックレンジ変換手段66は、その信号を逆MDCT手段67に出力する。
逆MDCT手段67は、ダイナミックレンジ変換手段66により得られる信号に逆MDCTを行い音質補正済み信号を出力する。これにより、各個人に適した音質補正を行い高精度な音声を提供することができる。
上述したように、各個人に適した音質補正を行い高精度な音声を提供することができる。
本発明により、不特定多数が同時に試聴する放送等の形態において、送信側では特徴データを有する同一の番組を複数の受信側に送信し、受信側で個人毎(視聴者毎)に最適な音質で聞きたい使用者は、事前に入手した音の聞きやすさに関するアンケート等の質問情報及びその質問情報に付随したテスト音声データからなる音質補正用データに基づいて回答することにより音質補正データを生成し、生成した音質補正データとデジタル放送波又はインターネット音のデジタルオーディオ符号化ストリーム信号に含まれるオーディオ特徴データとを組み合わせることにより、各個人に適した音質補正を行い高精度な音声を提供することができる。
例えば、放送番組にはニュース番組やニュース解説等の情報番組、スポーツ中継、音楽番組等の各種のジャンルがある。このうち、ニュース等の情報提供番組では、ナレーション音声が明瞭で聞きやすく、内容が正確に把握できることが望まれる。一方、音楽番組では、番組音の雰囲気を保つことが大切である。また、個人毎の聴力や嗜好が異なっており、個人毎に適切な音質補正することが必要である。本発明は、番組にあわせて個人に最適な音質補正を行ったオーディオ信号を提供することができる。本発明を適用することにより、特に高齢者等に聞き取りにくかった番組等の台詞、アナウンス、ナレーションを聞き取りやすくさせることができる。
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明における音質補正伝送システムの一構成例を示す図である。 本実施形態における送信装置の機能構成の一例を示す図である。 オーディオ特徴データの生成例を説明するための図である。 Scalefactor bandsとMDCT周波数データの範囲を示す図である。 raw_data_blockシンタックスのシンタックス例を示す図である。 fill_element領域のシンタックス例を示す図である。 data_stream_element領域のシンタックス例を示す図である。 fill_element領域に含まれるextension_payload領域のシンタックス例を示す図である。 本実施形態における受信装置の機能構成の一例を示す図である。 ゲイン変換テーブルの一例を示す図である。 補正前と補正後のデータ推移の一例を示す図である。 音質補正手段における補正処理ブロックの一例を示す図である。
符号の説明
10 音質補正伝送システム
11 送信装置
12 受信装置
13 通信ネットワーク
14 放送衛星
15 記録媒体
21 オーディオ特徴データ生成手段
22 番組制作手段
23 音質補正用データ生成手段
24 第1送信手段
25 第2送信手段
31 ミキシング手段
32 MDCT手段
33 MPEG−2 AAC符号化手段
34 スケールファクタバンド結合手段
35 スケールファクタバンド最大値検出手段
36 符号化手段
37 多重化手段
41 送信手段
42 音質補正データ生成手段
43 音質補正蓄積手段
44 映像音声分離手段
45 音質補正手段
46 視聴者情報取得手段
47 表示手段
48 音声出力手段
49 入力手段
61 分離手段
62 デジタルオーディオストリーム復号手段
63 ナレーション特徴データ復号手段
64 MDCT手段
65 ナレーションミックス比変換手段
66 ダイナミックレンジ変換手段
67 逆MDCT手段

Claims (10)

  1. 映像及び音声からなる番組信号の送信を行う送信装置と、該送信装置から送信された番組信号を受信し、受信した番組信号に含まれる音声を視聴者毎に補正して出力する受信装置とからなる音質補正伝送システムにおいて、
    前記送信装置は、番組の音声からオーディオ特徴データを生成する特徴データ生成手段と、前記受信装置側で音質補正を行わせるための音質補正用データを生成する音質補正用データ生成手段とを有し、
    前記受信装置は、前記送信装置から得られる音質補正用データに基づいて、視聴者情報を取得する視聴者情報取得手段と、前記視聴者情報取得手段により得られる取得データから音質補正データを生成する音質補正データ生成手段と、前記音質補正データ生成手段により得られる補正データと、前記オーディオ特徴データとに基づいて、前記音声の補正を行う補正手段とを有することを特徴とする音質補正伝送システム。
  2. 映像及び音声からなる番組信号の送信を行う送信装置において、
    音声からオーディオ特徴データを生成する特徴データ生成手段と、
    受信側に音質補正を行わせるための音質補正用データを生成する音質補正用データ生成手段とを有することを特徴とする送信装置。
  3. 前記音声は、少なくとも2つのオーディオ信号を有し、
    前記特徴データ生成手段は、
    前記オーディオ信号を周波数変換し、変換された周波数帯域を結合して得られる最大値を特徴データとして生成することを特徴とする請求項2に記載の送信装置。
  4. 前記音質補正用データ生成手段は、
    前記視聴者に対する質問情報、及び該質問情報に対応付けられた音声情報から音質補正用データを生成することを特徴とする請求項2に記載の送信装置。
  5. 前記オーディオ信号は、
    ナレーション音及び背景音を有することを特徴とする請求項3に記載の送信装置。
  6. 送信側から送信された番組信号を受信し、受信した番組の音声を視聴者毎に補正して出力する受信装置において、
    前記送信側から送信される音質補正用データに基づいて、視聴者情報を取得する視聴者情報取得手段と、
    前記視聴者情報取得手段により得られる取得データから音質補正データを生成する音質補正データ生成手段と、
    音質補正データ生成手段により得られる補正データと、前記番組信号に含まれるオーディオ特徴データとに基づいて、前記音声の補正を行う補正手段とを有することを特徴とする受信装置。
  7. 前記視聴者情報取得手段は、
    前記音質補正用データに含まれる視聴者に対する質問情報、及び該質問情報に対応付けられた音声情報から、視聴者により入力される回答結果及び聴覚測定データを視聴者情報として取得することを特徴とする請求項6に記載の受信装置。
  8. 前記音質補正データ生成手段は、
    前記視聴者情報取得手段により得られる回答結果及び各視聴者の聴覚測定データと、前記オーディオ特徴データに基づいて、視聴者毎の音声補正データを生成することを特徴とする請求項6又は7に記載の受信装置。
  9. 前記音質補正データ生成手段は、
    複数のオーディオ信号の混合比及び音量を補正するデータを生成することを特徴とする請求項6乃至8の何れか1項に記載の受信装置。
  10. 前記補正手段は、
    受信した番組信号に含まれる複数のオーディオ信号と、前記音質補正データ生成手段により得られる補正データとに基づいて、前記複数のオーディオ信号の混合比及び音量を補正することを特徴とする請求項6乃至9の何れか1項に記載の受信装置。
JP2004167087A 2004-06-04 2004-06-04 音質補正伝送における送信装置、及び受信装置 Expired - Fee Related JP4381892B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004167087A JP4381892B2 (ja) 2004-06-04 2004-06-04 音質補正伝送における送信装置、及び受信装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004167087A JP4381892B2 (ja) 2004-06-04 2004-06-04 音質補正伝送における送信装置、及び受信装置

Publications (2)

Publication Number Publication Date
JP2005348216A true JP2005348216A (ja) 2005-12-15
JP4381892B2 JP4381892B2 (ja) 2009-12-09

Family

ID=35500149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004167087A Expired - Fee Related JP4381892B2 (ja) 2004-06-04 2004-06-04 音質補正伝送における送信装置、及び受信装置

Country Status (1)

Country Link
JP (1) JP4381892B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009118115A (ja) * 2007-11-06 2009-05-28 Nippon Telegr & Teleph Corp <Ntt> 位相自動補正機能付き複数チャンネル音声転送システム、方法、プログラム、および位相ずれ自動調整方法
JP2011015067A (ja) * 2009-06-30 2011-01-20 Toshiba Corp 音質補正装置、音質補正方法及び音質補正用プログラム
CN108432130A (zh) * 2015-10-28 2018-08-21 Dts(英属维尔京群岛)有限公司 基于对象的音频信号平衡

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009118115A (ja) * 2007-11-06 2009-05-28 Nippon Telegr & Teleph Corp <Ntt> 位相自動補正機能付き複数チャンネル音声転送システム、方法、プログラム、および位相ずれ自動調整方法
JP2011015067A (ja) * 2009-06-30 2011-01-20 Toshiba Corp 音質補正装置、音質補正方法及び音質補正用プログラム
JP4621792B2 (ja) * 2009-06-30 2011-01-26 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
US7957966B2 (en) 2009-06-30 2011-06-07 Kabushiki Kaisha Toshiba Apparatus, method, and program for sound quality correction based on identification of a speech signal and a music signal from an input audio signal
CN108432130A (zh) * 2015-10-28 2018-08-21 Dts(英属维尔京群岛)有限公司 基于对象的音频信号平衡
JP2019501563A (ja) * 2015-10-28 2019-01-17 ジャン−マルク ジョット オブジェクトベースのオーディオ信号バランシング法
JP7001588B2 (ja) 2015-10-28 2022-01-19 ジャン-マルク ジョット オブジェクトベースのオーディオ信号バランシング法
CN108432130B (zh) * 2015-10-28 2022-04-01 Dts(英属维尔京群岛)有限公司 基于对象的音频信号平衡

Also Published As

Publication number Publication date
JP4381892B2 (ja) 2009-12-09

Similar Documents

Publication Publication Date Title
Brandenburg MP3 and AAC explained
KR101249239B1 (ko) 오디오 레벨 제어
KR101538623B1 (ko) 두 개의 입력 오디오 신호 믹싱 방법, 및 이를 실행하기 위한 디코더 및 컴퓨터 판독가능한 매체, 및 입력 오디오 신호 믹싱 디바이스
JP5658506B2 (ja) 音響信号変換装置及び音響信号変換プログラム
CN1930914B (zh) 对多声道音频信号进行编码和合成的方法和装置
RU2002123586A (ru) Прикладное использование системы голос/звуковое сопровождение (г/зс)
CN103155030A (zh) 用于处理多声道音频信号的方法及设备
Hoeg et al. Dynamic Range Control (DRC) and music/speech control (MSC)
Gilski DAB vs DAB+ radio broadcasting: a subjective comparative study
Jot et al. Dialog control and enhancement in object-based audio systems
JP5909100B2 (ja) ラウドネスレンジ制御システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム
Shirley et al. Intelligibility versus comprehension: understanding quality of accessible next-generation audio broadcast
JP4381892B2 (ja) 音質補正伝送における送信装置、及び受信装置
Simon et al. MPEG-H Audio for Improving Accessibility in Broadcasting and Streaming
Brachmanski et al. Quality evaluation of sound broadcasted via DAB+ system based on a single frequency network
Shirley Improving television sound for people with hearing impairments
Lund Control of Loudness in Digital TV
JP4167346B2 (ja) ディジタル放送用聴覚補償方法およびそれに用いる受信装置
Shirley et al. Personalization of object-based audio for accessibility using narrative importance
JP2003244081A (ja) シルバー音声サービス方法および受信機
Kin et al. Quality assessment of musical and speech signals broadcasted via Single Frequency Network DAB+
JP2001078117A (ja) ディジタル放送用受信装置
KR100290846B1 (ko) 디지털티브이(tv)시스템에서의외부잡음보정장치
Zyka The Influence of the Bitrate Level on the Subjective Sound Quality Perception of the Concatenated Non-Entropic Audio Coding Algorithms in the Digital Broadcasting Chain.
JP2000244424A (ja) ディジタル放送送受システム及びディジタル放送受信装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090825

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090916

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131002

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141002

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees