JP2014206559A

JP2014206559A - 受信装置及びプログラム

Info

Publication number: JP2014206559A
Application number: JP2013082330A
Authority: JP
Inventors: 靖茂中山; Yasushige Nakayama; 岳大杉本; Takehiro Sugimoto; 今井　篤; Atsushi Imai; 篤今井; 大竹　剛; Takeshi Otake; 剛大竹
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2013-04-10
Filing date: 2013-04-10
Publication date: 2014-10-30
Anticipated expiration: 2033-04-10
Also published as: JP6231762B2

Abstract

【課題】受信した放送信号に含まれるダイアログ音声のみのレベルを調整できる受信装置及びプログラムを提供する。
【解決手段】本発明にかかる受信装置１は、放送された番組音声を受信する第１受信部３と、インターネット通信により番組音声のダイアログ音声を受信する第２受信部５と、番組音声及びダイアログ音声に基づいて、各フレームの有効性を判断する判断部７と、判断部７で有効と判断されたフレームの番組音声及びダイアログ音声に基づいて、番組音声に含まれるダイアログ音声のゲイン量Ｇを推定する推定部９と、ゲイン量Ｇに基づいてダイアログ音声を調整する調整部１１と、調整部１１で調整されたダイアログ音声と番組音声との合成を行う合成部１３と、を備える。
【選択図】図１

Description

本発明は、受信装置及びプログラムに関するものであり、特に、放送された情報及びインターネット通信において送信された情報の双方を受信できる受信装置及びプログラムに関するものである。

放送番組の音声に対する要望は、多言語放送や解説放送の充実化、さらに聞き取りやすいダイアログ音声レベルの設定など様々である。中でも、聞き取りやすい音声を求める要望は大きく、放送局は、例えば、番組制作にラウドネスメータを導入することにより、聞き取りやすい番組音声実現に向けた取り組みを始めている。しかし、音声が聞きとりやすいように番組制作が行われても、音声の聞き取りやすさは、放送信号の受信側の環境や聴取者（聴取者の聴覚能力）によっても変化してしまうものである。

そのため、既に放送局側で制作された番組音声から所望の音声のみを抽出することは困難であるものの、聞き取りやすさを追求するためには、ダイアログ音声のレベルを受信装置側で調整できることが望まれる。従来、受信装置が、チャンネル間の相関を利用して、ダイアログ音声（例えば、ナレーション音声）とそれ以外の音声（例えば、背景音や効果音）との音量差を制御する手法が提案されている（例えば、特許文献１参照）。特許文献１に記載の手法では、受信装置が、まず、放送信号に含まれる２チャンネルの音声信号中から、相関が高い同相成分であるダイアログ音声信号を抽出し、このダイアログ音声信号に対して増幅・減衰・フィルタ処理などの処理を施す。そして、受信装置が、同相成分値を抽出した２チャンネルの音声信号に対して、処理済みのダイアログ音声信号を加算する。これにより、音声信号中のダイアログ音声信号に対して、種々の処理が施されることになる。

特許第４９７０１７４号公報

しかし、ダイアログ音声信号の相関のみが高いとは限らず、特許文献１に記載の従来手法では、例えば、背景音などのモノ信号は、相関が高いとみなされ、ダイアログ音声信号と共に抽出されてしまう。この場合、受信装置は、ダイアログ音声信号のみを増幅したり、減衰したりできなくなる。

また、従来手法は、単に、ダイアログ音声を強調したり、弱めたりすることを目的にするものであり、受信装置側でダイアログ音声の差し替えを可能にするものではない。つまり、従来の受信装置は、放送信号以外を受信するものではないため、ダイアログ音声に対して処理が施された放送信号に、放送信号以外の別の信号を合成することはできない。そのため、従来手法では、放送信号中の元のダイアログ音声（例えば、日本語）を別のダイアログ音声（例えば、英語）に置き換えるために、元のダイアログ音声を削除する、つまり元のダイアログ音声のレベルをゼロにすることについては何ら想定されていない。仮に、従来手法によってダイアログ音声の削除が試されても、上記理由により、相関値の利用ではダイアログ音声のみの削除は困難であり、効果が不十分である。

従って、上記のような問題点に鑑みてなされた本発明の目的は、受信した放送信号に含まれるダイアログ音声のみのレベルを調整できる受信装置及びプログラムを提供することにある。

上記課題を解決するために、本発明に係る受信装置は、
放送された番組音声を受信する第１受信部と、
インターネット通信により前記番組音声のダイアログ音声を受信する第２受信部と、
前記番組音声及び前記ダイアログ音声に基づいて、各フレームの有効性を判断する判断部と、
前記判断部で有効と判断されたフレームの前記番組音声及び前記ダイアログ音声に基づいて、前記番組音声に含まれるダイアログ音声のゲイン量を推定する推定部と、
前記ゲイン量に基づいて前記ダイアログ音声を調整する調整部と、
前記調整部で調整された前記ダイアログ音声と前記番組音声との合成を行う合成部と、
を備える。

また、本発明に係る受信装置は、
前記判断部が、前記ダイアログ音声のフレームエネルギー、及び前記番組音声と前記ダイアログ音声との類似性に基づいて、前記各フレームの有効性を判断する。

また、本発明に係る受信装置は、
前記判断部が、前記番組音声及び前記ダイアログ音声の帯域を複数に分割して、少なくとも１つの帯域で類似性を有するフレームを有効と判断する。

また、本発明に係る受信装置は、
前記推定部が、有効と判断されなかったフレームの前記ゲイン量を、１つ前のフレームのゲイン量と同一とする。

また、本発明に係る受信装置は、
前記調整部が、前記ダイアログ音声を逆位相化して前記ゲイン量を乗算することにより、前記ダイアログ音声を調整する。

また本発明に係る受信装置は、
前記合成部で合成した結果と、前記ダイアログ音声とを更に合成する第２合成部を備える。

また、本発明に係るプログラムは、
受信装置のコンピュータに、
放送された番組音声を取得するステップと、
インターネット通信により前記番組音声のダイアログ音声を取得するステップと、
前記番組音声と前記ダイアログ音声に基づいて、フレームの有効性を判断するステップと、
有効と判断されたフレームの前記番組音声及び前記ダイアログ音声に基づいて、前記番組音声に含まれるダイアログ音声のゲイン量を推定するステップと、
前記ゲイン量に基づいて前記ダイアログ音声を調整するステップと、
前記調整部で調整された前記ダイアログ音声及び前記番組音声の合成を行うステップと、を実行させる。

本発明によれば、受信した放送信号に含まれるダイアログ音声のみのレベルを調整できる受信装置及びプログラムを提供することができる。

図１は、本発明の第１実施形態に係る受信装置の概略構成を示す機能ブロック図である。図２は、本発明の第１実施形態に係る受信装置の処理を示すフローチャートである。図３は、本発明の第２実施形態に係る受信装置の概略構成を示す機能ブロック図である。図４は、本発明の第２実施形態に係る受信装置の処理を示すフローチャートである。

以下、本発明の実施形態に係る受信装置について、図面を参照して説明する。受信装置は、放送信号を受信できるものであり、例えば、テレビ受像機等の放送受信端末である。受信装置は、以下に説明される計算処理を行うコンピュータを含むものである。なお、受信装置は、放送信号を受信できればよく、受信された放送信号の情報を表示する表示部（ディスプレイ）の有無に限定されるものではない。そのため、受信装置には、チューナ搭載のレコーダ、単体チューナなどが含まれる。

放送とは、放送局から公衆（不特定多数）に向けた放送信号の送信であり、例えば、テレビジョン放送である。放送信号は、放送局が提供する番組の映像（番組映像）と音声（番組音声）の２つの信号が合成されたものである。番組音声には、人声に関するナレーション、アナウンサーコメント、ヴォーカルなどのダイアログ音声と、それ以外の音声（背景音や効果音など）とが含まれる。また、番組音声に含まれるダイアログ音声は、番組の制作の過程でレベル変化処理されることにより、時刻とともにそのレベルが変化するものとなっている。

そして、本受信装置は、放送信号だけでなく、インターネットを介した通信信号を放送局から受信するものである。そのため、受信装置と放送局とは、有線接続又は無線接続されている。このような放送信号と通信信号の双方を受信する受信装置は、例えば、放送通信連携サービスの基盤システムであるHybridcast（ハイブリッドキャスト）（登録商標）における受信装置である。

（第１実施形態）
図１は、本発明の第１実施形態に係る受信装置１の概略構成を示す機能ブロック図である。本実施形態の受信装置１は、第１受信部３と、第２受信部５と、判断部７と、推定部９と、調整部１１と、合成部１３とを備える。第１受信部３は、判断部７と合成部１３とに接続され、第２受信部５は判断部７と調整部１１に接続されている。なお、図示は省略するが、受信装置１は、各機能を実現する処理内容を記述したプログラムを実行する制御部、例えば、ＣＰＵ（中央処理装置）やＤＳＰ（デジタルシグナルプロセッサ）等を備えることができる。また、受信装置１は、各機能を実現する処理内容を記述したプログラムや各種情報を記憶し、また、バッファとしても機能可能な記憶部、例えば、ＲＡＭ（Random Access Memory）等の揮発性の記憶媒体やＲＯＭ（Read Only Memory）等の不揮発性の記憶媒体等を備えることができる。

第１受信部３は、放送局によって放送された放送信号を受信し、放送信号を構成する番組映像と番組音声とを分離する。そして、第１受信部３は、番組音声をフレームごとに判断部７及び合成部１３に送る。

第２受信部５は、放送局からインターネットを介して通信信号を受信するものである。本実施形態において通信信号は、レベル変化処理される前のダイアログ音声である。すなわち、上記の第１受信部３を介した番組音声に含まれるダイアログ音声と、第２受信部５を介したダイアログ音声とは、レベルが異なるものであり、また、レベルの差が時刻とともに変化する。なお、上記の第１受信部３から取得した番組音声に含まれるダイアログ音声と、第２受信部５から取得したダイアログ音声とは、レベルを除いては、時間軸上で同期する。第２受信部５は、受信したダイアログ音声をフレームごとに判断部７及び調整部１１に送る。

判断部７は、番組音声及びダイアログ音声用の２つの入力を有し、それぞれ第１受信部３と第２受信部５とに接続されている。また、判断部７は番組音声及びダイアログ音声用の２つの出力を有し、それぞれ推定部９に接続されている。

判断部７が、第１受信部３から取得した番組音声及び第２受信部５から取得したダイアログ音声に基づいて、各フレームの有効性を判断するための処理について、以下に説明する。なお、本実施形態において、番組音声及びダイアログ音声はデジタル信号として扱い、それらの信号は時間軸において適切なサンプリング周波数で標本化（サンプリング）されているものとする。また、以下の処理は、すべて所定の単位時間における、所定の周波数サンプル数を塊としたフレーム処理を前提とする。また、本実施形態において、番組音声を１chのモノ信号として説明するが、これに限られず、番組音声が２ch以上の場合にも、本発明は適用可能である。

判断部７は、第２受信部５から取得したダイアログ音声のフレームエネルギーＥｄを算出する。ダイアログ音声のフレームエネルギーＥｄ[dB]は、例えば以下の式により与えられる。

ここで、d(n)はダイアログ音声の時間表現であり、abs()は絶対値、maxは最大値をとる関数である。またｍは、log(0)を防ぐための、ｄ(ｎ)に比べて非常に小さな値である。フレームエネルギーＥｄは、フレーム内のダイアログ音声のエネルギーの最大値を表し、判断部７は、Ｅｄの値が所定の値よりも大きいフレームを、有意なエネルギーを有するフレームと判断する。本実施形態では、Ｅｄ＞−２０[dB]を満たしたフレームを、有意なエネルギーを有すると判断する。これにより、ダイアログ音声に含まれ得る、無音の時間（“ま”）からなるフレーム又は十分なエネルギーを有しないフレームを用いてゲイン量が推定されることを防ぐことができる。

さらに判断部７は、同一フレームの番組音声とダイアログ音声との類似性を求める。本実施形態において、判断部７は、フィルターバンクとして、離散フーリエ変換（ＦＦＴ）を用いて番組音声及びダイアログ音声それぞれの振幅周波数特性を求める。ダイアログ音声の振幅周波数特性Ｄ(k)及び番組音声の振幅周波数特性Ｂ(k)は、以下の式により与えられる。

ここで、ｄ(n)はダイアログ音声の時間表現、ｂ(n)は番組音声の時間表現であり、ｋは周波数上のサンプリングインデックスを表す。またFFT()は離散フーリエ変換を表し、abs()は絶対値をとる関数である。

さらに、本実施形態において、判断部７は、番組音声の振幅周波数特性Ｂ(k)及びダイアログ音声の振幅周波数特性Ｄ(k)をそれぞれ複数の帯域に分割して、それぞれ同じ帯域成分同士の相関係数を計算する。なお、ダイアログ音声は、一般の音声信号と比較して、低い帯域にエネルギーが集中しているため、本実施形態においては、伝送された番組音声における一部の帯域のみを計算する。ここで、各フレームのサンプル数を2048とすると、離散フーリエ変換により周波数表現されたものは1024サンプルで表現することが可能である。本実施形態においては、時間サンプリング周波数を48kHzとし、簡易化のために計算の上限を5kHzと設定することにより、各フレームの1024周波数サンプルのうち、およそ200周波数サンプルについて計算する。また、本実施形態においては、200周波数サンプル以下の帯域を４分割する例を示すが、これに限られず、４分割よりも多い分割数又は少ない分割数で分割してもよく、また、帯域を分割せずに計算することも可能である。ダイアログ音声の振幅周波数特性Ｄ(k)及び番組音声の振幅周波数特性Ｂ(k)は、以下の式により帯域ごとに４分割される。

さらに判断部７は、Ｄ(k)及びＢ(k)の帯域成分ごとの相関関数の最大値ＭＣを以下の式により求める。

上式（５）のＭＣが１に近いほど、番組音声の帯域成分はダイアログ音声の同じ帯域成分と類似していることを示す。本実施形態においては、ＭＣ＞0.9を満たしたフレームを類似度が高いと判断する。

判断部７は、ダイアログ音声のフレームエネルギーＥｄ、ならびに番組音声とダイアログ音声との類似性に基づいて、各フレームの有効性を判断する。すなわち、判断部７は、上述したフレームエネルギーＥｄ[dB]が、Ｅｄ＞−２０を満たし、且つ、帯域成分ごとの相関関数の最大値ＭＣが、ＭＣ＞0.9を満たすフレームを有効と判断する。そして、判断部７は、有効と判断されたフレームの番組音声及びダイアログ音声を推定部９に送る。

なお、本実施形態においては、判断部７での処理を、番組音声及びダイアログ音声の時間表現ｂ(n)、ｄ(n)を用いて行っているが、第１受信部３及び第２受信部５でデコードされる前の番組音声及びダイアログ音声が、周波数領域で表現されている場合には、そのまま周波数領域で表現された番組音声及びダイアログ音声を用いて判断部７での処理を行うことも可能である。

推定部９は、判断部７で有効と判断されたフレームの番組音声及びダイアログ音声に基づいて、番組音声に含まれるダイアログ音声のゲイン量Ｇを推定する。ここで、ゲイン量Ｇとは、あるフレームのダイアログ音声にゲイン量Ｇを乗算することで、当該フレームの番組音声に含まれるダイアログ音声と同一のレベルが得られる値である。番組音声に含まれるダイアログ音声のゲイン量Ｇは、以下の式により与えられる。

また、推定部９は、判断部７で有効と判断されなかったフレームのゲイン量Ｇを、１つ前のフレームのゲイン量Ｇと同一とする。なお、本実施形態において推定部９は、判断部７で最初のフレームが有効と判断されなかった場合には、当該フレームのゲイン量Ｇを１とする。推定部９は、各フレームのゲイン量Ｇを、調整部１１に送る。

調整部１１は、推定部９から取得したゲイン量Ｇに基づいて、第２受信部５から取得したダイアログ音声を調整する。すなわち、本実施形態において調整部１１は、第２受信部５から取得したダイアログ音声を逆位相化するとともにゲイン量Ｇを乗算することにより、ダイアログ音声のレベルを調整する。したがって、本実施形態において、調整部１１で調整されたダイアログ音声は、番組音声に含まれるダイアログ音声の逆位相信号となる。調整部１１は、調整されたダイアログ音声を、合成部１３に送る。

合成部１３は、調整部１１から取得した調整されたダイアログ音声と、第１受信部３から取得した番組音声とを合成する。本実施形態では、調整部１１で調整されたダイアログ音声が、番組音声に含まれるダイアログ音声の逆位相信号であるため、合成部１３の処理により、調整されたダイアログ音声と、番組音声に含まれるダイアログ音声とは打ち消しあうことになる。よって、合成部１３は、番組音声からダイアログ音声が除去されたダイアログ音声除去番組音声（つまり、ダイアログ音声以外の音声）を、例えば音出力部（図示せず）に出力することができる。なお、番組音声が2ch以上の場合には、それぞれのチャンネルで上記手法を適用することによりダイアログ音声を取り去ることが可能である。

続いて、図２を用いて、受信装置１の処理について説明する。図２は、本発明の第１実施形態に係る受信装置１の処理を示すフローチャートである。

まず、第１受信部３は、放送局により放送された放送信号を受信し、放送信号から番組音声を取り出し、フレームごとに判断部７及び合成部１３に送る（ステップＳ１０１）。そして、第２受信部５は、インターネット通信により、番組音声に含まれるダイアログ音声（通信信号）を放送局から受信し、フレームごとに判断部７及び調整部１１に送る（ステップＳ１０２）。

そして、判断部７は、番組音声及びダイアログ音声の各フレームの有効性を、ダイアログ音声のフレームエネルギー、ならびに番組音声とダイアログ音声との類似性に基づいて判断し、有効と判断されたフレームの番組音声及びダイアログ音声を推定部９に送る（ステップＳ１０３）。

そして、推定部９は、有効と判断されたフレームの番組音声及びダイアログ音声に基づいて、番組音声に含まれるダイアログ音声のゲイン量Ｇを推定し、有効と判断されなかったフレームのゲイン量Ｇは、１つ前のフレームのゲイン量Ｇと同一として、各フレームのゲイン量Ｇを調整部１１に送る（ステップＳ１０４）。

そして、調整部１１は、第２受信部５から取得したダイアログ音声を逆位相化するとともにゲイン量Ｇを乗算して、ダイアログ音声を調整し、合成部１３に送る（ステップＳ１０５）。

そして、合成部１３は、第１受信部３から取得した番組音声と、調整部１１から取得した調整されたダイアログ音声とを合成する（ステップＳ１０６）。合成部１３は、ダイアログ音声除去番組音声を出力することになる。

このように本実施形態では、判断部７は、番組音声及びダイアログ音声に基づいて、各フレームの有効性を判断し、推定部９は、有効と判断されたフレームの番組音声及びダイアログ音声に基づいて、番組音声に含まれるダイアログ音声のゲイン量Ｇを推定する。つまり、本実施形態における受信装置１は、有効なフレームに限定してゲイン量Ｇの推定を行うため、信頼性の高いゲイン量Ｇを得ることができる。その結果、受信した放送信号に含まれるダイアログ音声のみのレベルを調整することが可能となる。

また、本実施形態における受信装置１は、判断部７が、ダイアログ音声のフレームエネルギー、及び番組音声とダイアログ音声との類似性に基づいて、各フレームの有効性を判断する。つまり、レベル調整の対象であるダイアログ音声のうち、無音又は微小レベルの音声のフレームに対してはゲイン量Ｇの推定を行わず、ダイアログ音声が十分なエネルギーを有し、番組音声とダイアログ音声とが十分に類似したフレームに限定して、ゲイン量Ｇの推定を行うため、より信頼性の高いゲイン量Ｇを得ることができ、放送信号の番組音声に含まれるダイアログ音声のレベルを、より厳密に調整することが可能となる。また、本実施形態における受信装置１は、番組音声及びダイアログ音声の帯域を複数に分割して、少なくとも１つの帯域で類似性を有するフレームを有効と判断することにより、より信頼性の高いゲイン量Ｇを得ることができ、放送信号の番組音声に含まれるダイアログ音声のレベルを、より厳密に調整することが可能となる。また、本実施形態における受信装置１は、推定部１０９が、有効と判断されなかったフレームのゲイン量Ｇを、１つ前のフレームのゲイン量Ｇと同一とすることで、より信頼性の高いゲイン量Ｇを用いてダイアログ音声のレベルを調整することが可能となる。さらに、本実施形態における受信装置１は、調整部１１がダイアログ音声を逆位相化してゲイン量Ｇを乗算することによりダイアログ音声を調整し、合成部１３が調整したダイアログ音声と番組音声とを合成することにより、時刻とともにレベルが変化する番組音声に含まれるダイアログ音声のみを適切に消去することが可能となる。

（第２実施形態）
第１実施形態では、受信装置１の出力信号の１つとしてダイアログ音声除去番組音声を出力する場合について説明したが、第２実施形態では、ダイアログ音声除去番組音声に更なる信号を付加する場合について説明する。

図３は、本発明の第２実施形態に係る受信装置１０１の概略構成を示す機能ブロック図である。本実施形態の受信装置１０１は、第１受信部１０３と、第２受信部１０５と、判断部１０７と、推定部１０９と、第１調整部１１１と、第１合成部１１３と、第２調整部１１２と、第２合成部１１４とを備える。第１受信部１０３、判断部１０７、推定部１０９、第１調整部１１１、及び第１合成部１１３の機能は、それぞれ対応する第１実施形態の第１受信部３、判断部７、推定部９、調整部１１、及び合成部１３の機能と同一であるため、説明は省略する。

本実施形態における第２受信部１０５は、放送局からインターネットを介して通信信号を受信し、受信したダイアログ音声を判断部１０７、第１調整部１１１、及び第２調整部１１２に送る。

第２調整部１１２は、第２受信部１０５から取得したダイアログ音声に所定の値を乗算して調整し、調整されたダイアログ音声を第２合成部１１４に送る。

第２合成部１１４は、第２調整部１１２から取得した調整されたダイアログ音声と、第１合成部１１３から取得したダイアログ音声除去番組音声とを合成する。これにより、番組音声に含まれるレベル変化処理されたダイアログ音声を、第２調整部１１２で適切に調整されたダイアログ音声に置き換えた番組音声を出力することができる。なお、第２調整部１１２においてダイアログ音声に乗算する所定の値は、予め受信装置１０１で設定された値としてもよいし、あるいは、例えば受信装置１０１がボリューム用つまみ等の入力部を備え、当該入力部の操作によりユーザが適宜入力した値とすることもできる。

続いて、図４を用いて、受信装置１０１の処理について説明する。図４は、本発明の第２実施形態に係る受信装置１０１の処理を示すフローチャートである。

まず、第１実施形態におけるステップＳ１０１と同様、第１受信部１０３は、放送局により放送された放送信号を受信し、放送信号から番組音声を取り出し、フレームごとに判断部１０７及び第１合成部１１３に送る（ステップＳ２０１）。そして、第２受信部１０５は、インターネット通信により、番組音声に含まれるダイアログ音声（通信信号）を放送局から受信し、フレームごとに判断部１０７、第１調整部１１１、及び第２調整部１０２に送る（ステップＳ２０２）。

そして、判断部１０７は、第１実施形態におけるステップＳ１０３と同様、番組音声及びダイアログ音声の各フレームの有効性を、ダイアログ音声のフレームエネルギーＥｄ、ならびに番組音声とダイアログ音声との類似性に基づいてから判断し、番組音声及びダイアログ音声の有効と判断されたフレームを推定部１０９に送る（ステップＳ２０３）。

そして、推定部１０９は、第１実施形態におけるステップＳ１０４と同様、有効と判断されたフレームの番組音声及びダイアログ音声に基づいて、番組音声に含まれるダイアログ音声のゲイン量Ｇを推定し、有効と判断されなかったフレームのゲイン量Ｇは、１つ前のフレームのゲイン量Ｇと同一として、各フレームのゲイン量Ｇを第１調整部１１１に送る（ステップＳ２０４）。

そして、第１調整部１１１は、第１実施形態におけるステップＳ１０５と同様、ダイアログ音声を逆位相化するとともにゲイン量Ｇを乗算することによりダイアログ音声を調整し、第１合成部１１３に送る（ステップＳ２０５）。

そして、第１合成部１１３は、第１実施形態におけるステップＳ１０６と同様、第１受信部１０３から取得した番組音声と、第１調整部１１１から取得した調整されたダイアログ音声とを合成する（ステップＳ２０６）。

そして、第２調整部１１２は、ダイアログ音声に所定の値を乗算して、ダイアログ音声を調整し、第２合成部１１４に送る（ステップＳ２０７）。

そして、第２合成部１１４は、第１合成部１１３で合成された、ダイアログ音声除去番組音声と、第２調整部１１２から取得した調整されたダイアログ音声とを合成する（ステップＳ２０８）。第２合成部１１４は、番組音声に含まれたレベル変化処理されたダイアログ音声を、第２調整部１１２で適切に調整されたダイアログ音声に置き換えた番組音声を出力することになる。

このように本実施形態における受信装置１０１は、受信した放送信号に含まれるダイアログ音声を消去し、さらに第２調整部１１２で適切に調整されたダイアログ音声を合成することにより、所望のレベルのダイアログ音声を含む番組音声を出力することが可能となる。

かくして本発明によって、受信した放送信号に含まれるダイアログ音声のみのレベルを調整できる受信装置及びプログラムを提供することが可能となった。

１、１０１受信装置
３、１０３第１受信部
５、１０５第２受信部
７、１０７判断部
９、１０９推定部
１１、１１１調整部（第１調整部）
１３、１１３合成部（第１合成部）
１１２第２調整部
１１４第２合成部

Claims

放送された番組音声を受信する第１受信部と、
インターネット通信により前記番組音声のダイアログ音声を受信する第２受信部と、
前記番組音声及び前記ダイアログ音声に基づいて、各フレームの有効性を判断する判断部と、
前記判断部で有効と判断されたフレームの前記番組音声及び前記ダイアログ音声に基づいて、前記番組音声に含まれるダイアログ音声のゲイン量を推定する推定部と、
前記ゲイン量に基づいて前記ダイアログ音声を調整する調整部と、
前記調整部で調整された前記ダイアログ音声と前記番組音声との合成を行う合成部と、
を備える受信装置。
前記判断部が、前記ダイアログ音声のフレームエネルギー、及び前記番組音声と前記ダイアログ音声との類似性に基づいて、前記各フレームの有効性を判断する、請求項１に記載の受信装置。
前記判断部が、前記番組音声及び前記ダイアログ音声の帯域を複数に分割して、少なくとも１つの帯域で類似性を有するフレームを有効と判断する、請求項２に記載の受信装置。
前記推定部が、有効と判断されなかったフレームの前記ゲイン量を、１つ前のフレームのゲイン量と同一とする、請求項１〜３の何れか一項に記載の受信装置。
前記調整部が、前記ダイアログ音声を逆位相化して前記ゲイン量を乗算することにより、前記ダイアログ音声を調整する、請求項１〜４の何れか一項に記載の受信装置。
前記合成部で合成した結果と、前記ダイアログ音声とを更に合成する第２合成部を備える、請求項１〜５の何れか一項に記載の受信装置。
受信装置のコンピュータに、
放送された番組音声を取得するステップと、
インターネット通信により前記番組音声のダイアログ音声を取得するステップと、
前記番組音声と前記ダイアログ音声に基づいて、各フレームの有効性を判断するステップと、
有効と判断されたフレームの前記番組音声及び前記ダイアログ音声に基づいて、前記番組音声に含まれるダイアログ音声のゲイン量を推定するステップと、
前記ゲイン量に基づいて前記ダイアログ音声を調整するステップと、
前記調整部で調整された前記ダイアログ音声及び前記番組音声の合成を行うステップと、を実行させるためのプログラム。