JP6099250B2

JP6099250B2 - 放送送出装置、及び受信機

Info

Publication number: JP6099250B2
Application number: JP2012279503A
Authority: JP
Inventors: 岳大杉本; 世木　寛之; 寛之世木; 今井　篤; 篤今井; 大竹　剛; 剛大竹; 靖茂中山
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2017-03-22
Anticipated expiration: 2032-12-21
Also published as: JP2014123884A

Description

本発明は、放送送出装置、及び受信機に関する。

近年、放送と通信を融合させる取り組みが、世界的に進められている（例えば、非特許文献１参照。）。このような放送通信連携システムの特長は、放送と通信で異なる情報を送り、受信機側で精確に同期させて自由に合成・加工できる点にある。

「Hybridcastの技術仕様概説」、［online］、２０１１年、日本放送協会放送技術研究所、インターネット＜URL:http://www.nhk.or.jp/strl/hybridcast/HCsummary.pdf＞

放送番組の音声に対する要望は、多言語放送や解説音声放送の充実、話速変換、さらにはダイアログ音声レベルの受信機での調整など様々である。ところが、放送によって伝送できる音声チャネルを多くすることは困難であり、これらの要望に対応した音声を全て放送で伝送することはできない。そこで、放送通信連携システムを利用して視聴者の要望に応じた音声を通信により伝送し、受信機側でその音声と放送番組を同期・合成させて出力することが考えられる。

通常、番組制作においては、アナウンサーコメント、ヴォーカル等のダイアログ音声と、音楽、効果音などその他の複数の素材音声をミキシング（合成）して放送番組の音声（以下、「放送番組の音声」を「番組音声」と記載する。）を生成する。しかし、番組制作が完了した後に、音楽や効果音などの背景音を変化させずにダイアログ音声のみ要望にあわせて作成するというように、個別の素材音声だけを変更・加工することは一般的に困難である。そのため、個々の要望に応じたダイアログ音声のみを通信で伝送し、受信機側で番組音声と合成することが考えられるが、通信で伝送されたダイアログ音声をそのまま番組音声に合成してしまうと、番組音声に含まれる元のダイアログ音声と重なって聞きにくくなってしまう。一方、番組音声の音声レベルを下げて、通信で伝送されたダイアログ音声を合成すると、背景音が聞きにくくなるために視聴者が受け取る音の情報が減少し得る。このようなことから、通信で伝送されたダイアログ音声と合成する前に、番組音声から元のダイアログ音声のみを除去することが望ましい。しかし、非特許文献１には、番組音声からダイアログ音声を除去するなど、番組音声に含まれる特定の素材音声のみ音声レベルを変更することについては記載されていない。

本発明は、このような事情を考慮してなされたもので、放送された番組音声に含まれる特定の素材音声のみの音声レベルを変更することができる放送送出装置、及び受信機を提供する。

［１］本発明の一態様は、複数の素材音声からなる番組音声の音声データを受信し、受信した前記番組音声の音声データを符号化して符号化番組音声データを生成する番組音声符号化部と、前記番組音声符号化部が符号化の際に適用する動作条件を出力する動作条件出力部と、前記番組音声に含まれる前記素材音声の音声データを受信し、受信した前記素材音声の音声データを前記動作条件出力部から出力された前記動作条件に従って前記番組音声符号化部と同じ符号化方法により符号化して符号化素材音声データを生成する素材音声符号化部と、前記番組音声符号化部により生成された前記符号化番組音声データを放送する放送送出部と、前記符号化素材音声データを前記放送送出部による放送とは異なる伝送路により伝送する送信部と、を備えることを特徴とする放送送出装置である。
この態様によれば、放送送出装置のエンコーダは、ダイアログ音声、音楽、ビデオからの音声、効果音などの複数の素材音声が合成された番組音声の音声データを符号化する。さらに、放送送出装置は、番組音声の音声データを符号化したエンコーダと同じ符号化方式のエンコーダによって、番組音声の音声データを符号化したときと同じ動作条件によって番組音声に含まれる特定の素材音声の音声データを符号化する。放送送出装置は、符号化した番組音声の音声データを放送により、符号化した素材音声の音声データを通信により伝送する。
これにより、放送送出装置は、符号化番組音声データを復号して得られる番組音声に含まれる特定の素材音声と、符号化素材音声データを復号して得られるその特定の素材音声との特性差を低減することができる。従って、受信機において、放送で受信した符号化番組音声データを復号して得た番組音声に、通信で受信した符号化素材音声データを復号して得たダイアログ音声を逆位相化して重畳することによって、番組音声からダイアログ音声を除去し、背景音だけの番組音声を得ることができる。また、受信機において、符号化番組音声データを復号して得た番組音声に、符号化素材音声データを復号して得たダイアログ音声を同位相のまま重畳することによって、ダイアログ音声のみ音声レベルを大きくした番組音声を得ることができる。

［２］本発明の一態様は、上述した放送送出装置であって、前記動作条件出力部は、前記番組音声符号化部が前記番組音声の音声データから逐次判断した動作条件を出力し、前記素材音声符号化部は、前記動作条件出力部から逐次出力される前記動作条件に従って前記素材音声の音声データを符号化する、ことを特徴とする。
この態様によれば、放送送出装置は、番組音声の音声データからエンコーダの動作条件を逐次判断して符号化を行い、この逐次判断された動作条件に従って、素材音声の音声データを符号化する。
これにより、放送送出装置は、符号化番組音声データを復号して得られる番組音声に含まれる特定の素材音声と、符号化素材音声データを復号して得られる特定の素材音声との特性差を精度よく低減することができる。

［３］本発明の一態様は、上述した放送送出装置であって、前記動作条件出力部は、前記番組音声符号化部に予め設定されている動作条件を出力する、ことを特徴とする。
この態様によれば、放送送出装置は、運用設定として保持しているエンコーダの動作条件に従って、番組音声の音声データと素材音声の音声データを符号化する。
これにより、番組音声中で音声レベルの変更対象である特定の素材音声以外の音が小さい場合、放送送出装置は、予め設定された動作条件に従って番組音声の音声データと素材音声の音声データを符号化することで、復号後の番組音声に含まれる特定の素材音声と、単独の素材音声との特性差を精度よく低減することができる。

［４］本発明の一態様は、複数の素材音声からなる番組音声の音声データを符号化した符号化番組音声データを放送により受信する放送受信部と、前記放送受信部により受信した前記符号化番組音声データを復号する第１復号部と、前記番組音声に含まれる前記素材音声の音声データを符号化した符号化素材音声データを放送とは異なる伝送路により受信する受信部と、前記受信部により受信した前記符号化素材音声データを復号する第２復号部と、前記番組音声における前記素材音声の音声レベルを減少させるか増大させるかに応じて前記第２復号部が復号により得た前記素材音声の音声データの位相を調整する位相調整部と、前記第１復号部が復号により得た前記番組音声の音声データと、前記位相調整部が位相を調整した前記素材音声の音声データとを重畳して音声データを生成する重畳部と、を備えることを特徴とする受信機である。
この態様によれば、受信機は、放送された符号化番組音声データを復号し、通信で送信された符号化素材音声データを復号する。受信機は、復号により得られた素材音声データの位相を調整した後、復号により得られた番組音声データと重畳して音声データを生成する。
これにより、受信機は、符号化番組音声データを復号して番組音声を得るとともに、符号化素材音声データを復号してダイアログ音声を得る。受信機は、復号により得られた番組音声に、位相が調整されたダイアログ音声を重畳することによって、ダイアログ音声を除去した番組音声、あるいは、ダイアログ音声のみ音声レベルを大きくした番組音声を得ることができる。

［５］本発明の一態様は、上述した受信機であって、前記位相調整部は、前記番組音声から前記素材音声を除去する場合、前記第２復号部が復号により得た前記素材音声の音声データを逆位相とする、ことを特徴とする。
この態様によれば、受信機は、番組音声から特定の素材音声を除去したい場合、素材音声の音声データを逆位相化する。
これにより、受信機は、番組音声からダイアログ音声を精度よく除去し、背景音だけの番組音声を得ることができる。

［６］本発明の一態様は、上述した受信機であって、前記位相調整部が逆位相にした前記素材音声の音声データの音声レベルを、前記重畳部が重畳により得た前記音声データのパワーが最も低くなるように調整するレベル調整部をさらに備え、前記重畳部は、前記第１復号部が復号により得た前記番組音声の音声データと、前記レベル調整部が音声レベルを調整した前記素材音声の音声データとを重畳して音声データを生成する、ことを特徴とする。
この態様によれば、受信機は、素材音声の音声レベルを変えながら番組音声と重畳し、重畳した結果得られた音声データのパワーが最も低いときの音声レベルに素材音声を調整する。
これにより、受信機は、番組音声中のダイアログ音声の音声レベルが変化する場合でも、ダイアログ音声を精度よく除去して背景音だけの番組音声を得ることができる。

本発明によれば、放送された番組音声に含まれる特定の素材音声のみの音声レベルを変更することが可能となる。

本発明の一実施形態による放送音声調整システムの構成を示すブロック図である。同実施形態による放送音声調整システムが備える放送送出装置の処理フローを示す図である。同実施形態による放送音声調整システムが備える受信機の処理フローを示す図である。同実施形態による放送音声調整システムを適用した放送通信連携システムの構成を示すブロック図である。同実施形態による放送音声調整システムを適用した放送通信連携システムが備える受信機の処理フローを示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

図１は、本発明の一実施形態による放送音声調整システムの構成を示すブロック図であり、本実施形態に関係する機能ブロックのみを抽出して示してある。同図に示すように、放送音声調整システムは、放送局の番組音声生成装置１及び放送送出装置３と、視聴者の受信機５を備えて構成される。

番組音声生成装置１は、例えば、スタジオに設置された音声卓であり、素材音声入力部１１−１〜１１−ｎ（ｎは２以上の整数）、操作部１２、番組音声生成部１３、番組音声出力部１４、及び素材音声出力部１５を備えて構成される。

素材音声入力部１１−１〜１１−ｎは、それぞれ異なる素材音声の音声データ（以下、「素材音声データ」と記載する。）の入力を受け、番組音声生成部１３に出力する。例えば、素材音声入力部１１−１は、アナウンサーの声、歌手のヴォーカル等のダイアログ音声の素材音声データの入力を受け、素材音声入力部１１−２は、音楽の素材音声データの入力を受け、素材音声入力部１１−ｎは、ビデオからの素材音声データの入力を受ける。

操作部１２は、ユーザインタフェースであり、各素材音声に対する音声レベルの指示の入力を受ける。番組音声生成部１３は、ミキサーであり、操作部１２により入力された指示に従って、素材音声入力部１１−１〜１１−ｎから入力された各素材音声データの音声レベルを調整し、音声レベルが調整された素材音声データを合成して番組音声データを生成する。番組音声出力部１４は、番組音声生成部１３が生成した番組音声データを放送送出装置３に出力する。素材音声出力部１５は、番組音声に含まれる中で音声レベルを調整したい素材音声の素材音声データを放送送出装置３へ出力する。本実施形態では、音声レベルを調整したい素材音声を、素材音声入力部１１−１に入力されるダイアログ音声とする。

放送送出装置３は、デジタル放送用の放送設備であり、番組音声符号化部３１、動作条件出力部３２、素材音声符号化部３３、放送信号生成部３４、放送送出部３５、及び通信送信部３６（送信部）を備えて構成される。

番組音声符号化部３１は、オーディオ信号である番組音声データを符号化（エンコード）して符号化番組音声データを生成するエンコーダである。本実施形態では、符号化方式（符号化方法）としてＭＰＥＧ２（Moving Picture Experts Group phase 2）−ＡＡＣ（Advanced Audio Coding；オーディオの高圧縮率符号化技術）を用いる場合を例に説明するが、他の符号化方式を用いてもよい。番組音声符号化部３１は、生成した符号化番組音声データを適切なデータ長に区切って提示時刻情報を設定したヘッダを付加し、放送信号生成部３４に出力する。番組音声符号化部３１は、動作制御部３１１、符号化ツール部３１２−１〜３１２−ｍ（ｍは１以上の整数）、及び多重化部３１３を備えて構成される。以下、符号化ツール部３１２−１〜３１２−ｍを総称して符号化ツール部３１２と記載する。

動作制御部３１１は、符号化の対象とする周波数帯域など符号化ツール部３１２の動作設定や、使用可能な符号化ツール部３１２を示す動作条件を運用設定として記憶している。番組音声符号化部３１が符号化を行う際、動作制御部３１１は、番組音声データが示す周波数特性等に基づいて、運用設定により使用可能と設定されている符号化ツール部３１２のうちいずれを動作させるかを逐次的に判断する。これは、全ての符号化ツール部３１２を動作させると音質は向上するものの、符号化処理に負荷がかかってしまうことから、必要な符号化ツール部３１２のみを動作させるためである。例えば、動作制御部３１１は、心理聴覚モデル等に基づいて番組音声から次にどのような音がくるかを予測し、大きな音がくることが予測される場合には、大きな音の発生の後に生じるノイズを抑えるために動作させる符号化ツール部３１２を選択する。動作制御部３１１は、判断結果に従って各符号化ツール部３１２を動作させるか否かを指示するとともに、各符号化ツール部３１２を動作させるか否かの判断結果を示す符号化パラメータを逐次的な動作条件として動作条件出力部３２に出力する。

符号化ツール部３１２は、動作設定に従って、動作制御部３１１の指示により動作する。ＭＰＥＧ２−ＡＡＣの場合、符号化ツール部３１２として、例えば、入力音声の利得を制御する符号化ツールを実行するもの、入力音声を周波数成分へ変換する符号化ツールを実行するもの、大きな音が発生した後に生じるノイズを抑える符号化ツールを実行するもの、音声を効率よく符号化する符号化ツールを実行するものなどがある。
多重化部３１３は、実行が指示された各符号化ツール部３１２を番組音声データに適用した結果を多重化して符号化番組音声データを生成する。

動作条件出力部３２は、動作制御部３１１が記憶する運用設定や、動作制御部３１１が逐次出力する符号化パラメータを動作条件として素材音声符号化部３３に出力する。

素材音声符号化部３３は、エンコーダであり、素材音声出力部１５から出力されたオーディオ信号である素材音声データを符号化し、番組音声符号化部３１と同じ符号化方式、及び動作条件により符号化素材音声データを生成する。素材音声符号化部３３は、生成した符号化素材音声データを適切なデータ長に区切って提示時刻情報を設定したヘッダを付加し、通信送信部３６に出力する。

ＭＰＥＧ２−ＡＡＣなどの不可逆圧縮方式を用いると、音声信号の周波数特性やレベルは逐次的に変化することになる。そのため、例えば、ＰＣＭ（Pulse Code Modulation；パルス符号変調）など、符号化番組音声データとは異なる符号化方式により符号化素材音声データを生成してしまうと、符号化番組音声データを復号して得られた番組音声に含まれるダイアログ音声と、符号化素材音声データを復号して得られたダイアログ音声との間に特性差が生じてしまう。また、ＭＰＥＧ２−ＡＡＣによる符号化では人間の聴覚特性を利用し、音声特徴によってマスキングなどの逐次使用する符号化ツールを決めている。そのため、ダイアログ音声の音声特徴から動作させるべき符号化ツールを決めてしまうと、背景音が含まれる番組音声の音声特徴から動作させると判断した符号化ツールと異なってしまう。その結果、番組音声符号化部３１、素材音声符号化部３３ともにＭＰＥＧ２−ＡＡＣを用いた場合でも、符号化番組音声データを復号して得られた番組音声に含まれるダイアログ音声と、符号化素材音声データを復号して得られたダイアログ音声とに特性差が生じてしまう。そこで、素材音声符号化部３３は、番組音声符号化部３１が番組音声を符号化した際の動作条件を用いてダイアログ音声を符号化し、番組音声中のダイアログ音声が受ける変化と等しい変化をダイアログ音声単独の信号にも与える。

素材音声符号化部３３は、動作制御部３３１、符号化ツール部３３２−１〜３３２−ｍ、及び多重化部３３３を備えて構成される。以下、符号化ツール部３３２−１〜３３２−ｍを総称して符号化ツール部３３２とも記載する。
動作制御部３３１は、動作条件出力部３２から入力される動作条件に従って各符号化ツール部３１２を動作させるか否かを指示する。符号化ツール部３３２−１〜３３２−ｍはそれぞれ、符号化ツール部３１２−１〜３１２−ｍと同様の処理を行う。符号化ツール部３３２は、動作条件が示す運用設定に従って、動作制御部３３１の指示により動作する。多重化部３３３は、実行が指示された各符号化ツール部３３２を素材音声データに適用した結果を多重化して符号化素材音声データを生成する。

なお、番組音声符号化部３１が備える符号化ツール部３１２と素材音声符号化部３３が備える符号化ツール部３３２とは必ずしも同じでなくともよいが、素材音声符号化部３３は、番組音声符号化部３１の運用設定で使用可能としている符号化ツール部３３２を少なくとも備える。

放送信号生成部３４は、放送番組の映像データを符号化した符号化映像データや番組音声符号化部３１から出力された符号化番組音声データなどを含んだ放送信号を生成する。この放送信号は、現用の放送設備によって放送されている従来のデジタル放送の放送信号と同一であり、ＡＲＩＢ（Association of Radio Industries and Broadcast；社団法人電波産業会）標準規格で規定される。放送送出部３５は、放送信号生成部３４が生成した放送信号を伝送する。通信送信部３６は、素材音声符号化部３３が生成した符号化素材音声データを、放送送出部３５が伝送に使用する放送とは異なる伝送路である通信網を介して受信機５に送信する。

受信機５は、テレビ受像機、セットトップボックス、パーソナルコンピュータ、携帯端末等のデバイスである。受信機５は、放送受信部５１、分離部５２、第１復号部５３、通信受信部５４（受信部）、第２復号部５５、位相調整部５６、レベル調整部５７、重畳部５８、映像再生部５９、映像表示部６０、音声再生部６１、及び音声出力部６２を備えて構成される。なお、受信機５がセットトップボックスなどの場合、映像表示部６０及び音声出力部６２は、受信機５と接続される外部装置とする。

放送受信部５１は、放送信号を受信するチューナである。分離部５２は、デマルチプレクサであり、放送信号から符号化映像データ及び符号化番組音声データを分離する。第１復号部５３は、現在時刻に対応した提示時刻情報が付加されている符号化映像データ、及び符号化番組音声データを復号（デコード）し、映像データ及び番組音声データを得る。

通信受信部５４は、通信網を介した通信によりデータを受信する。通信受信部５４は、受信した符号化素材音声データを第２復号部５５に出力する。第２復号部５５は、現在時刻に対応した提示時刻情報が付加されている符号化素材音声データを復号し、素材音声データを得る。

位相調整部５６は、番組音声における素材音声の音声レベルを減少させるか増大させるかに応じて、素材音声データの位相を調整する。例えば、番組音声から素材音声を除去したい場合には素材音声データを逆位相化し、素材音声のみ大きくしたい場合には同位相のままとし、位相を変更しない。

レベル調整部５７は、位相が調整された素材音声データの音声レベルを調整して重畳部５８に出力する。重畳部５８は、番組音声データと素材音声データとを重畳して音声データを生成する。

映像再生部５９は、デコードされた映像データを映像表示部６０に表示させる。映像表示部６０は、一般的なディスプレイであり、放送画面を表示する。音声再生部６１は、音声データを音声出力部６２から出力させる。音声出力部６２は、一般的なスピーカー等であり、音声を出力する。

次に、放送音声調整システムの動作について説明する。ここでは、番組音声からダイアログ音声を除去する場合について説明する。

まず、放送送出装置３の動作条件出力部３２は、番組音声符号化部３１の動作制御部３１１の運用設定が登録または変更されたときに、あるいは所定の時間に、番組音声符号化部３１が記憶している現在の運用設定を素材音声符号化部３３に出力する。素材音声符号化部３３の動作制御部３３１は、現在の運用設定を、動作条件出力部３２から入力された運用設定により更新する。

番組音声生成装置１の操作部１２は、番組制作者から各素材音声に対する音声レベルの指示を入力する。番組音声生成部１３は、素材音声入力部１１−１〜１１−ｎから入力された各素材音声データの音声レベルを操作部１２による入力に従って調整した後に合成し、番組音声データを生成する。番組音声出力部１４が、番組音声データを出力するのとほぼ同時に、素材音声出力部１５は、素材音声入力部１１−１に入力されたダイアログ音声の素材音声データを出力する。

図２は、本実施形態による放送送出装置３の動作フローを示す図である。
放送送出装置３の番組音声符号化部３１は、番組音声生成装置１の番組音声出力部１４から番組音声データの入力を受ける（ステップＳ１０５）。番組音声符号化部３１は、入力された番組音声データをエンコードして符号化番組音声データを生成する。具体的には、動作制御部３１１は、番組音声データが示す音声特徴に基づいて、運用設定により使用が設定されている中から動作させる符号化ツール部３１２を逐次判断する（ステップＳ１１０）。動作制御部３１１は、判断結果に従って各符号化ツール部３１２に動作あるいは停止を指示するとともに、各符号化ツール部３１２を動作あるいは停止させるかの判断結果を示す符号化パラメータを逐次、動作条件出力部３２に出力する。動作条件出力部３２は、符号化パラメータを素材音声符号化部３３に出力する（ステップＳ１１５）。

動作が指示された符号化ツール部３１２は、運用設定により予め設定されている動作条件に基づいて、入力された番組音声データに処理を行って次の符号化ツール部３１２に出力し、停止が指示された符号化ツール部３１２は、入力された番組音声データをそのまま次の符号化ツール部３１２に出力する。多重化部３１３は、動作が指示された各符号化ツール部３１２を番組音声データに適用した結果を多重化して符号化番組音声データを生成する（ステップＳ１２０）。番組音声符号化部３１は、符号化番組音声データを適切なデータ長に区切ると、区切ったデータブロック毎に提示時刻情報を設定したヘッダを付加して放送信号生成部３４に出力する（ステップＳ１２５）。放送信号生成部３４は、符号化映像データや符号化番組音声データなどから放送信号を生成し（ステップＳ１３０）、放送送出部３５は、放送信号生成部３４が生成した放送信号を伝送する（ステップＳ１３５）。

一方、素材音声符号化部３３には、番組音声データとほぼ同時に素材音声データが入力される（ステップＳ２０５）。素材音声符号化部３３は、逐次動作条件出力部３２から出力される符号化パラメータの入力を受け（ステップＳ２１０）、運用設定及び符号化パラメータに従って素材音声データをエンコードして符号化素材音声データを生成する（ステップＳ２１５）。

具体的には、動作制御部３３１は、符号化パラメータが入力されるたびに、その符号化パラメータにより動作対象として示される符号化ツール部３３２に動作を指示し、停止対象として示される符号化ツール部３３２に停止を指示する。動作が指示された符号化ツール部３３２は、運用設定により予め設定されている動作条件に基づいて、入力された素材音声データに処理を行って次の符号化ツール部３３２に出力し、停止が指示された符号化ツール部３３２は、入力された素材音声データをそのまま次の符号化ツール部３３２に出力する。多重化部３３３は、動作が指示された各符号化ツール部３３２を素材音声データに適用した結果を多重化して符号化素材音声データを生成する。素材音声符号化部３３は、符号化素材音声データを適切なデータ長に区切ると、区切ったデータブロック毎に提示時刻情報を設定したヘッダを付加して通信送信部３６に出力する（ステップＳ２２０）。通信送信部３６は、素材音声符号化部３３が生成した符号化素材音声データを、通信網を介して受信機５に送信する（ステップＳ２２５）。

図３は、本実施形態による受信機５の動作フローを示す図である。
受信機５の放送受信部５１は放送信号を受信し、分離部５２に出力する（ステップＳ３０５）。分離部５２は、放送受信部５１から入力された放送信号から符号化映像データ及び符号化番組音声データを分離し、第１復号部５３に出力する。第１復号部５３は、現在時刻に対応した提示時刻情報が付加されている符号化映像データ、及び符号化番組音声データをデコードし、映像データ及び番組音声データを得る（ステップＳ３１０）。第１復号部５３は、映像データを映像再生部５９に出力し、番組音声データを重畳部５８に出力する。

一方、通信受信部５４は、通信網を介して符号化素材音声データを受信し、第２復号部５５に出力する（ステップＳ３１５）。第２復号部５５は、現在時刻に対応した提示時刻情報が付加されている符号化素材音声データを復号し、復号により得られた素材音声データを位相調整部５６に出力する（ステップＳ３２０）。位相調整部５６は、第２復号部５５から入力された素材音声データを逆位相に変換する（ステップＳ３２５）。

番組音声に含まれるダイアログ音声の音声レベルは、番組の制作の過程で時刻とともに変化している。そのため、番組音声から最適にダイアログ音声を除去するためには、時刻とともに適切にダイアログ音声の音声レベルを制御する必要がある。そこで、レベル調整部５７は、逆位相に変換された素材音声データの音声レベルを段階的に変えながら重畳部５８に出力する（ステップＳ３３０）。重畳部５８は、第１復号部５３から入力された番組音声データと、レベル調整部５７から入力された素材音声データそれぞれとを重畳した音声データを生成する（ステップＳ３３５）。レベル調整部５７は、重畳部５８が生成した音声データのパワーを算出する。ダイアログ音声が最もよく除去されたとき、音声のパワーは最も低くなる。そこで、レベル調整部５７は、最もパワーが低い音声データとなったときの音声レベルを取得し、その音声レベルに調整した素材音声データを用いて重畳したときの音声データ（以下、「ダイアログ音声除去番組音声データ」と記載する）を出力するよう重畳部５８に指示する。重畳部５８は、生成したダイアログ音声除去番組音声データを音声再生部６１に出力する。

なお、音声のレベルは短い時間では急激に変化しないため、レベル調整部５７は、一定時間、素材音声データを、取得した音声レベルに調整して重畳部５８に出力する。重畳部５８は、第１復号部５３から入力された番組音声データと、レベル調整部５７から入力された素材音声データとを重畳して生成したダイアログ音声除去番組音声データを音声再生部６１に出力する。一定時間が経過すると、レベル調整部５７は、逆位相に変換された素材音声データの音声レベルを再び段階的に変えながら重畳部５８に出力し、番組音声データと重畳したときに最も音声データのパワーが低くなったときの音声レベルを取得し、その音声レベルを一定時間適用することを繰り返す。

映像再生部５９は、第１復号部５３から入力された映像データを映像表示部６０に表示させ、音声再生部６１は、重畳部５８から入力されたダイアログ音声除去番組音声データを音声出力部６２から出力させる（ステップＳ３４０）。

次に、図１に示す放送音声調整システムを適用した放送通信連携システムについて説明する。放送通信連携システムは、放送音声調整システムと同様にして生成したダイアログ音声を除去した番組音声に、外国語のダイアログ音声や、話速変換したダイアログ音声など視聴者が選択したダイアログ音声を合成する。以下では、放送音声調整システムとの差分について説明する。

図４は、図１に示す放送音声調整システムを適用した放送通信連携システムの構成を示すブロック図であり、本実施形態に関係する機能ブロックのみを抽出して示してある。同図において、図１に示す放送音声調整システムと同一の部分には同一の符号を付し、その説明を省略する。同図に示すように、放送通信連携システムは、放送局等の番組音声生成装置１及び放送送出装置３ａと、視聴者の受信機５ａを備えて構成される。

放送送出装置３ａが図１に示す放送送出装置３と異なる点は、配信部３７をさらに備える点である。配信部３７は、所定の素材音声を除去した番組音声に合成すべき音声データを符号化した符号化音声データを、通信網を経由して受信機５ａに送信する。以下、所定の素材音声を除去した番組音声に合成すべき音声データをパーソナライズ音声データと記載し、パーソナライズ音声データの符号化音声データを符号化パーソナライズ音声データと記載する。パーソナライズ音声データは、例えば、外国語のダイアログ音声や、話速変換したダイアログ音声などの音声データである。なお、符号化パーソナライズ音声データは、符号化番組音声データとは異なる符号化方式で生成してもよい。また、配信部３７を放送局または放送局以外の事業者のサーバが備えるように構成してもよい。

受信機５ａが図１に示す受信機５と異なる点は、通信受信部５４に代えて通信受信部５４ａ（受信部）を備える点、第３復号部６３及び音声合成部６４をさらに備える点である。通信受信部５４ａは、通信網を経由して符号化素材音声データ及び符号化パーソナライズ音声データを受信し、符号化素材音声データを第２復号部５５に出力し、符号化パーソナライズ音声データを第３復号部６３に出力する。第３復号部６３は、符号化パーソナライズ音声データを復号して得たパーソナライズ音声データを音声合成部６４に出力する。音声合成部６４は、重畳部５８から出力されたダイアログ音声除去番組音声データと、第３復号部６３から出力されたパーソナライズ音声データを合成して音声再生部６１に出力する

続いて、放送通信連携システムの動作を説明する。
放送送出装置３ａは、図２に示す放送音声調整システムの放送送出装置３と同様の処理を行う。さらに、放送送出装置３ａの配信部３７は、符号化パーソナライズ音声データを、通信網を経由して受信機５ａに送信する。

図５は、受信機５ａの処理フローを示す図である。同図において、図３に示す受信機５の処理と同一の処理には同一の符号を付し、その詳細な説明を省略する。
受信機５ａは、受信機５と同様に、放送信号を受信して符号化映像データ及び符号化番組音声データを分離し、提示時刻情報に基づいて符号化映像データ、及び符号化番組音声データをデコードして映像データ及び番組音声データを得る（ステップＳ３０５〜Ｓ３１０）。

一方、通信受信部５４は、通信網を介して受信した符号化素材音声データを第２復号部５５に出力し、符号化パーソナライズ音声データを第３復号部６３に出力する（ステップＳ３１５ａ）。第２復号部５５は、現在時刻に対応した提示時刻情報が付加されている符号化素材音声データを復号し、位相調整部５６に出力する。第３復号部６３は、現在時刻に対応した提示時刻情報が付加されている符号化パーソナライズ音声データを復号し、音声合成部６４に出力する（ステップＳ３２０ａ）。位相調整部５６は、素材音声データを逆位相に変換し（ステップＳ３２５）、レベル調整部５７は、逆位相に変換された素材音声データの音声レベルを調整して重畳部５８に出力する（ステップＳ３３０）。

重畳部５８は、第１復号部５３から入力された番組音声データと、レベル調整部５７から入力された素材音声データを重畳してダイアログ音声除去番組音声データを生成し、音声合成部６４に出力する（ステップＳ３３５）。音声合成部６４は、重畳部５８から出力されたダイアログ音声除去番組音声データと、第３復号部６３から出力されたパーソナライズ音声データを合成し、合成された音声データを音声再生部６１に出力する（ステップＳ３３７）。映像再生部５９は、第１復号部５３から入力された映像データを映像表示部６０に表示させ、音声再生部６１は、音声合成部６４から入力された音声データを音声出力部６２から出力させる（ステップＳ３４０）。

なお、通信で伝送するパーソナライズ音声データの種類や数には制限はなく、受信機５側で視聴者が必要とするパーソナライズ音声データを選択することができる。

なお、背景音の音声レベルがダイアログ音声の音声レベルよりも低く、番組音声とダイアログ音声の音声特徴に大きな差がない場合、番組音声から判断される符号化ツールの動作条件と、ダイアログ音声から判断される符号化ツールの動作条件はほぼ一致する。従って、このような場合、動作制御部３３１は、素材音声データが示す音声特徴に基づいて、動作条件出力部３２から受信した運用設定により使用が設定されている中から動作させる符号化ツール部３３２を逐次判断してもよい。

上記実施形態によれば、放送音声調整システムは、放送された番組音声からダイアログ音声など特定の素材音声の音を除去し、例えば背景音だけの番組音声を生成することができる。よって、放送音声調整システムは、視聴者が選択した種類のダイアログ音声を背景音だけの番組音声と合成できるようにし、視聴者にとって便利かつ聞きやすい番組音声を高い自由度で提供することが可能になる。例えば、従来の二ヶ国語放送では、外国語音声を重畳する度に番組音声の音声レベルを全て下げる必要があり聴取上不自然であったが、上記実施形態の放送音声調整システムを適用した放送通信連携システムを用いることで、背景音のレベル変動のない外国語放送が可能になる。また、放送音声調整システムは、ダイアログ音声など特定の素材音声のみの音声レベルを上げた番組音声を生成することもできる。

上述した番組音声生成装置１、放送送出装置３、３ａ、受信機５、５ａの各部は、専用のハードウェアにより実現される。なお、放送送出装置３、３ａの番組音声符号化部３１、動作条件出力部３２、素材音声符号化部３３、及び放送信号生成部３４、放送送出装置３ａの配信部３７、受信機５、５ａの第１復号部５３、第２復号部５５、位相調整部５６、レベル調整部５７、重畳部５８、映像再生部５９、及び音声再生部６１、ならびに受信機５ａの第３復号部６３、及び音声合成部６４は、コンピュータ装置で実現することもできる。この場合、放送送出装置３、３ａの番組音声符号化部３１、動作条件出力部３２、素材音声符号化部３３、及び放送信号生成部３４、放送送出装置３ａの配信部３７、受信機５、５ａの第１復号部５３、第２復号部５５、位相調整部５６、レベル調整部５７、重畳部５８、映像再生部５９、及び音声再生部６１、ならびに受信機５ａの第３復号部６３、及び音声合成部６４は、メモリおよびＣＰＵ（中央処理装置）等により構成され、上述した処理過程を実現するためのプログラム（図示せず）を、これを記録している不揮発性のメモリ、磁気ディスク等から、上記メモリにロードして実行することによりその機能が実現されるものとする。

１番組音声生成装置
３、３ａ放送送出装置
５、５ａ受信機
１１−１、１１−２、１１−ｎ素材音声入力部
１２操作部
１３番組音声生成部
１４番組音声出力部
１５素材音声出力部
３１番組音声符号化部
３２動作条件出力部
３３素材音声符号化部
３４放送信号生成部
３５放送送出部
３６通信送信部（送信部）
３７配信部
５１放送受信部
５２分離部
５３第１復号部
５４、５４ａ通信受信部（受信部）
５５第２復号部
５６位相調整部
５７レベル調整部
５８重畳部
５９映像再生部
６０映像表示部
６１音声再生部
６２音声出力部
６３第３復号部
６４音声合成部
３１１、３３１動作制御部
３１２−１、３１２−２、３１２−ｍ、３３２−１、３３２−２、３３２−ｍ符号化ツール部
３１３、３３３多重化部

Claims

複数の素材音声からなる番組音声の音声データを受信し、受信した前記番組音声の音声データを符号化して符号化番組音声データを生成する番組音声符号化部と、
前記番組音声符号化部が符号化の際に適用する動作条件を出力する動作条件出力部と、
前記番組音声に含まれる前記素材音声の音声データを受信し、受信した前記素材音声の音声データを前記動作条件出力部から出力された前記動作条件に従って前記番組音声符号化部と同じ符号化方法により符号化して符号化素材音声データを生成する素材音声符号化部と、
前記番組音声符号化部により生成された前記符号化番組音声データを放送する放送送出部と、
前記符号化素材音声データを前記放送送出部による放送とは異なる伝送路により伝送する送信部と、
を備えることを特徴とする放送送出装置。
前記動作条件出力部は、前記番組音声符号化部が前記番組音声の音声データから逐次判断した動作条件を出力し、
前記素材音声符号化部は、前記動作条件出力部から逐次出力される前記動作条件に従って前記素材音声の音声データを符号化する、
ことを特徴とする請求項１に記載の放送送出装置。
前記動作条件出力部は、前記番組音声符号化部に予め設定されている動作条件を出力する、
ことを特徴とする請求項１または請求項２に記載の放送送出装置。
複数の素材音声からなる番組音声の音声データを符号化した符号化番組音声データを放送により受信する放送受信部と、
前記放送受信部により受信した前記符号化番組音声データを復号する第１復号部と、
前記番組音声に含まれる前記素材音声の音声データを符号化した符号化素材音声データを放送とは異なる伝送路により受信する受信部と、
前記受信部により受信した前記符号化素材音声データを復号する第２復号部と、
前記番組音声における前記素材音声の音声レベルを減少させるか増大させるかに応じて前記第２復号部が復号により得た前記素材音声の音声データの位相を調整する位相調整部と、
前記第１復号部が復号により得た前記番組音声の音声データと、前記位相調整部が位相を調整した前記素材音声の音声データとを重畳して音声データを生成する重畳部と、
を備えることを特徴とする受信機。
前記位相調整部は、前記番組音声から前記素材音声を除去する場合、前記第２復号部が復号により得た前記素材音声の音声データを逆位相とする、
ことを特徴とする請求項４に記載の受信機。
前記位相調整部が逆位相にした前記素材音声の音声データの音声レベルを、前記重畳部が重畳により得た前記音声データのパワーが最も低くなるように調整するレベル調整部をさらに備え、
前記重畳部は、前記第１復号部が復号により得た前記番組音声の音声データと、前記レベル調整部が音声レベルを調整した前記素材音声の音声データとを重畳して音声データを生成する、
ことを特徴とする請求項５に記載の受信機。