JP6253671B2

JP6253671B2 - 電子機器、制御方法およびプログラム

Info

Publication number: JP6253671B2
Application number: JP2015554418A
Authority: JP
Inventors: 進介増田
Original assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Current assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2017-12-27
Anticipated expiration: 2033-12-26
Also published as: WO2015097831A1; JPWO2015097831A1; US10176825B2; US20160180861A1

Description

本発明の実施形態は、電子機器、制御方法およびプログラムに関する。

近年、映像音声に対して、異なる属性をもつ音源別に音声信号を分離して、各音源別の音声信号に適切な音声補正を行った後、各音源別の音声信号を合成して出力する音源分離技術が提案されている。

このような音源分離技術では、一般的には、音声信号を、人間の声である声成分と、人間の声以外の背景成分に分離する。そして、声成分と背景音成分と個別に音量等の強調制御を行い、人間の声を聞きやすくしたり、あるいは人間の声を抑制する等の効果を得ることができる。

特開２０１１−６９９４８号公報

主に人間の声を聞き易くする等の目的で、音源分離の機能を、テレビジョン装置やＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット端末等の電子機器に搭載する場合がある。このような場合において、適切な状況で、ユーザの負担なく、最適な音源分離の効果が得られることが望まれている。

実施形態の電子機器は、音源分離処理部と、音声制御部とを備える。音源分離処理部は、入力される音声信号を、声信号と背景音信号とに分離して、声信号または背景音信号のいずれかを強調する音源分離機能を実行する。音声制御部は、映像に含まれるシーンに関するシーン情報に基づいて、シーンを表示する際における音源分離機能の実行を制御するとともに、声信号または背景音信号の強調または抑制に関するパラメータを含むパラメータ指令を音源分離処理部に出力する。音源分離処理部は、音源分離部と、声補正フィルタと、背景音補正フィルタと、加算部と、を有する。音源分離部は、音声信号を声信号と背景音信号とに分離する。声補正フィルタは、声信号をパラメータ指令に基づいて補正して、補正後の声信号を出力する。背景音補正フィルタは、背景音信号をパラメータ指令に基づいて補正して、補正後の背景音信号を出力する。加算部は、補正後の声信号にパラメータ指令に基づいたゲインを乗算したものと、補正後の背景音信号にパラメータ指令に基づいたゲインを乗算しものと、を加算して合成信号を出力する。

図１は、実施形態１にかかるテレビジョン装置の構成の一例を示すブロック図である。図２は、実施形態１の制御部の機能的構成の一例を示すブロック図である。図３は、実施形態１の音声処理部の構成の一例を示す図である。図４は、実施形態１にかかる音声制御処理の手順の一例を示すフローチャートである。図５は、実施形態２にかかる制御部の機能的構成の一例を示すブロック図である。図６は、実施形態２にかかる嗜好設定画面の一例を示す図である。図７は、実施形態２にかかる音声制御処理の手順の一例を示すフローチャートである。図８は、実施形態３にかかる音声制御処理の手順の一例を示すフローチャートである。

以下に示す実施形態は、電子機器を適用したテレビジョン装置の例について説明する。しかしながら、本実施形態は、電子機器をテレビジョン装置に制限するものではなく、例えば、ＰＣやタブレット端末等の音声を出力可能な装置であれば任意の装置に適用することができる。

（実施形態１）
本実施形態のテレビジョン装置１００は、図１に示すように、デジタル放送の放送波を受信し、受信した放送波から取り出した映像信号を用いて番組の映像を表示する据置型の映像表示装置であり、録画再生機能も備えている。

テレビジョン装置１００は、図１に示すように、アンテナ１１２、入力端子１１３、チューナ１１４および復調器１１５を有している。アンテナ１１２は、デジタル放送の放送波を捕らえ、その放送波の放送信号を、入力端子１１３を介してチューナ１１４に供給する。

チューナ１１４は、入力されたデジタル放送の放送信号から所望のチャンネルの放送信号を選局する。そして、チューナ１１４から出力された放送信号は復調器１１５に供給される。復調器１１５は、放送信号に復調処理を施し、デジタル映像信号および音声信号を復調して、後述するセレクタ１１６に供給する。

また、テレビジョン装置１００は入力端子１２１，１２３、Ａ／Ｄ変換部１２２、信号処理部１２４、スピーカ１２５および映像表示パネル１０２を有している。

入力端子１２１は外部からアナログの映像信号および音声信号が入力され、入力端子１２３は外部からデジタルの映像信号および音声信号が入力される。Ａ／Ｄ変換部１２２は入力端子１２１から供給されるアナログの映像信号および音声信号をデジタル信号に変換し、セレクタ１１６に供給する。

セレクタ１１６は、復調器１１５、Ａ／Ｄ変換部１２２および入力端子１２３から供給されるデジタルの映像信号及び音声信号から１つを選択して、信号処理部１２４に供給する。

また、テレビジョン装置１００は、少なくともＴＳデマルチプレクサおよびＭＰＥＧデコーダを有している。信号処理部１２４は、ＭＰＥＧデコーダによってデコードされた後の信号を入力する。さらに、信号処理部１２４は、ＨＤＤ１３０や、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ等の外部記憶媒体に記録されている番組録画データや動画データがデコードされた後の信号も入力する。

信号処理部１２４は、音声処理部１２４１と映像処理部１２４２とを備えている。映像処理部１２４２は、入力される映像信号について、所定の信号処理やスケーリング処理等を施し、処理後の映像信号を映像表示パネル１０２に供給する。さらに、映像処理部１２４２は、映像表示パネル１０２に表示させるためのＯＳＤ（ＯｎＳｃｒｅｅｎｄｉｓｐｌａｙ）信号も生成している。

音声処理部１２４１は、セレクタ１１６から入力されたデジタル音声信号に所定の信号処理を施し、アナログ音声信号に変換してスピーカ１２５に出力する。音声処理部１２４１の詳細については、後述する。スピーカ１２５は、信号処理部１２４から供給される音声信号を入力し、その音声信号を用いて音声を出力する。本実施形態の音声処理部１２４１は、音源分離機能を有している。音声処理部１２４１の詳細については後述する。

映像表示パネル１０２は、液晶ディスプレイやプラズマディスプレイ等のフラットパネルディスプレイから構成される。映像表示パネル１０２は、信号処理部１２４から供給される映像信号を用いて映像を表示する。

さらに、テレビジョン装置１００は制御部１２７、操作部１２８、受光部１２９、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１３０、メモリ１３１、及び通信Ｉ／Ｆ１３２を有している。

制御部１２７は、テレビジョン装置１００における種々の動作を統括的に制御する。制御部１２７は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等を内蔵したマイクロプロセッサであり、操作部１２８からの操作情報を入力する一方、リモートコントローラ１５０から送信された操作情報を、受光部１２９を介して入力し、それらの操作情報にしたがい各部をそれぞれ制御する。本実施形態の受光部１２９は、リモートコントローラ１５０からの赤外線を受光する。

この場合、制御部１２７は、メモリ１３１を使用している。メモリ１３１は、主として、制御部１２７に内蔵されているＣＰＵが実行する制御プログラムを格納したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）と、ＣＰＵに作業エリアを提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）と、各種の設定情報及び制御情報等が格納される不揮発性メモリとを有している。

ＨＤＤ１３０は、セレクタ１１６で選択されたデジタルの映像信号及び音声信号を記録する記憶部としての機能を有している。テレビジョン装置１００はＨＤＤ１３０を有するため、セレクタ１１６で選択されたデジタルの映像信号及び音声信号を録画データとしてＨＤＤ１３０により記録することができる。さらに、テレビジョン装置１００は、ＨＤＤ１３０に記録されたデジタルの映像信号及び音声信号を用いて映像および音声を再生することもできる。

通信Ｉ／Ｆ１３２は、公衆ネットワーク１６０を介して様々な通信装置（例えばサーバ）と接続されており、テレビジョン装置１００で利用可能なプログラムやサービスを受信するほか、様々な情報を送信することができる。

次に、制御部１２７により実行される機能的構成について説明する。本実施形態の制御部１２７は、図２に示すように、入力制御部２０１と、シーン検出部２０２と、設定部２０３として機能する。

入力制御部２０１は、ユーザからのリモートコントローラ１５０による操作入力を受光部１２９を介して受け付けるとともに、操作部１２８による操作入力を受け付ける。本実施形態では、ユーザから、音源分離機能を使用するか否かなどの設定入力および音源分離機能を使用する場合における声と背景音の音量（強調度）の設定入力を受け付ける。

ここで、音声信号は、人間の声の成分の信号と音楽等の声以外の背景音の成分の信号とから構成される。なお、これ以降、声成分の信号を声信号と称し、背景音成分の信号を背景音信号と称する。音源分離機能は、音声信号を、声信号と背景音信号とに分離して、声信号または背景音信号のいずれかを強調する機能であり、音声処理部１２４１で実行される。

シーン検出部２０２は、放送映像や録画映像等の動画データの映像信号と音声信号を解析し、動画データに含まれるシーンの切替わりであるシーンチェンジを検出し、その検出結果としてシーン情報を出力する。

具体的には、シーン検出部２０２は、主として、動画データの音声信号を解析して、音声信号の無音部分を検出し、動画データ中の番組の本編シーンとＣＭシーンの境目を検出したり、音声信号を解析して、動画データの歌のシーンと歌以外のシーンの境目を検出する。そして、シーン検出部２０２は、シーン検出結果として、検出したシーンのシーン種別と開始時刻および終了時刻とを記録したシーン情報を出力する。シーン種別とは、本編シーン、ＣＭシーン、歌シーン、歌以外のシーン等を示すものである。

シーン検出部２０２によるシーン検出は、放送映像の表示や録画映像の再生と、並行して動的に行ったり、録画映像の再生前に予め行って、シーン情報をＨＤＤ１３０に保存しておくことができる。シーン検出部２０２は、動的にシーン検出を行う場合には、シーン情報が出力されるたびに、シーン情報を音声処理部１２４１に送出する。

設定部２０３は、ユーザからの各種設定を行い、設定内容をＨＤＤ１３０等に保存する。本実施形態では、入力制御部２０１が受け付けた音源分離機能を使用するか否かなどの設定および声と背景音の音量（強調の度合い）の設定をＨＤＤ１３０に保存する。

次に、信号処理部１２４の音声処理部１２４１の詳細について説明する。本実施形態の音声処理部１２４１は、図３に示すように、音声制御部３０１と、音源分離処理部３０２と、音響効果処理部３０３と、を備えている。

音声制御部３０１は、ＨＤＤ１３０に保存されているシーン情報または制御部１２７のシーン検出部２０２から出力されるシーン情報を制御情報として入力し、シーン情報に基づいて、シーンを表示する際における音源分離処理部３０２による音源分離機能の実行を制御する。

具体的には、音声制御部３０１は、シーン情報において声が主体でないＣＭシーンのような第１シーンが含まれている場合には、第１シーンの表示中に、声信号の強調を行わないように音源分離処理部３０２を制御する。また、音声制御部３０１は、シーン情報において声が主体である本編シーン等のような第２シーンが含まれている場合には、第２シーンの表示中に、声信号の強調を行うように前記音源分離処理部を制御する。ここで、音声制御部３０１は、第１シーン、第２シーンの表示中か否かを、シーン情報に登録されているシーンの開始時刻と終了時刻から判断する。

第１シーンとしては、ＣＭシーンに限定されるものではなく、声が主体でないシーンであればよい。例えば、歌以外のシーン等が第１シーンに該当するが、これに限定されるものではない。第２シーンとしては、本編シーンに限定されるものではなく、声が主体であるシーンであればよい。例えば、歌のシーン等が第２シーンに該当するが、これに限定されるものではない。

音声制御部３０１は、入力される音声信号を、音源分離処理部３０２を介さずに、音響効果処理部３０３に出力することにより、音源分離機能の無効化を行って、これにより音声信号の強調を行わないように音源分離処理部３０２を制御する。

また、音声制御部３０１は、入力される音声信号を、音源分離処理部３０２に出力することにより、音源分離機能の有効化を行って、これにより音声信号の強調を行うように音源分離処理部３０２を制御する。

音声制御部３０１は、音源分離機能の有効化を行う場合、音声信号とともにパラメータ指令を音源分離処理部３０２に出力する。このパラメータ指令は、声の強調や抑制を行ったり、背景音の強調や抑制を行う場合のパラメータである。

音源分離処理部３０２は、音声信号Ｘを、声信号と背景音信号とに分離して、声信号または背景音信号を強調または抑制する音源分離機能を実行する。音源分離処理部３０２は、図３に示すように、音源分離部４０１と、声補正フィルタ４０３と、背景音補正フィルタ４０４と、ゲインＧｖ４０５と、ゲインＧｂ４０６と、加算部４０７とを備えている。

音源分離部４０１は、入力される音声信号を声成分Ｖ（声信号Ｖ）と背景音成分Ｂ（背景音信号Ｂ）に分離する。音源分離部４０１による音声信号の分離手法は、任意の手法を用いることができる。音源分離部４０１は、音声信号の分離手法として、例えば、特開２０１３−３７１５２号公報に開示されている手法を用いることができるが、これに限定されるものではない。

声補正フィルタ４０３は、声信号Ｖの特性をパラメータ指令に基づいて補正して、補正後の声信号Ｖ’を出力する。背景音補正フィルタ４０４は、背景音信号Ｂの特性をパラメータ指令に基づいて補正して、補正後の背景音信号Ｂ’を出力する。

このような補正フィルタ４０３、４０４としては、定数値（利得調整のみ）からサラウンド等のチャネル間の相関を利用するもの等種々のものがある。例えば、声補正フィルタ４０３に、声信号Ｖに補聴器などで用いられている声の周波数特性を強調するフィルタを用いることで背景成分に影響を与えず声だけを聞こえやすくすることができる。また、背景音補正フィルタ４０４に、音源分離処理によって過剰に抑圧された周波数帯域を強めるフィルタや、音楽プレーヤ等に附属しているイコライザと同様な手法で聴覚的な効果を加えるフィルタなどを用いたり、背景音信号がステレオ信号である場合にはいわゆる疑似サラウンドの技術を用いたフィルタを適用することもできる。

声補正フィルタ４０３による補正後の声信号Ｖ’にはゲインＧｖ４０５が乗算され、背景音補正フィルタ４０４による補正後の背景音信号Ｂ’にはゲインＧｂ４０６が乗算される。

ここで、本実施形態の音声処理部１２４１は、音声制御部３０１からパラメータ指令を入力し、声補正フィルタ４０３、背景音補正フィルタ４０４の補正の強度をパラメータ指令に応じて変化させるとともに、ゲインＧｖ４０５とＧｂ４０６をパラメータ指令により変化させている。これにより、声補正フィルタ４０３およびゲインＧｖ４０５によるパラメータ指令による声の強調または抑制が行われ、背景音補正フィルタ４０４およびゲインＧｂ４０６によるパラメータ指令による背景音の強調または抑制が行われる。

加算部４０７はゲインＧｖ４０５が乗算された声信号とゲインＧｂ４０６が乗算された背景音信号とを加算することにより合成して、合成信号Ｙを出力する。

音響効果処理部３０３は、合成信号Ｙに対して、ユーザの設定による種々の音響効果を施して、音声信号を出力する。ここで、音響効果としては、例えば、サラウンド効果、グラフィックイコライザ等があげられるが、これに限定されるものではない。

次に、以上のように構成された本実施形態のテレビジョン装置１００による音声制御処理について図４を用いて説明する。

まず、音声制御部３０１は、映像表示パネル１０２に表示する動画のシーン検出結果であるシーン情報を、ＨＤＤ１３０またはシーン検出部２０２から取得する（ステップＳ１１）。そして、音声制御部３０１は、シーン情報の内容を解析し、現在時刻が開始時刻となり、これから映像表示パネル１０２に表示されるシーン、すなわち、これから放映または再生されるシーンがＣＭシーンであるか否かを、シーン情報において、上記開始時刻となるシーンのシーン種別により判断する（ステップＳ１２）。

これから放映または再生されるシーンがＣＭシーンである場合には（ステップＳ１２：Ｙｅｓ）、音声制御部３０１は、音源分離機能の無効化を行う（ステップＳ１３）。すなわち、音声制御部３０１は、音声信号を、音源分離処理部３０２を介さずに音響効果処理部３０３に出力する。そして、処理は終了する。

一方、これから放映または再生されるシーンがＣＭシーンでない場合には（ステップＳ１２：Ｎｏ）、音声制御部３０１は、当該シーンが本編シーンであるか否かを判断する（ステップＳ１４）。

これから放映または再生されるシーンが本編シーンである場合には（ステップＳ１４：Ｙｅｓ）、音声制御部３０１は、音源分離機能の有効化を行う（ステップＳ１５）。すなわち、音声制御部３０１は、音声信号を音源分離処理部３０２に出力するとともに、声信号を強調するための声補正フィルタ４０３およびゲインＧｖ４０５に対するパラメータ指令を、音源分離処理部３０２に出力する。そして、処理は終了する。

ステップＳ１４において、これから放映または再生されるシーンが本編シーンでない場合には（ステップＳ１４：Ｎｏ）、処理は終了する。

音源分離機能をテレビジョン装置１００に搭載することで、ユーザはニュース番組で音声を聞きとりやすくしたり、あるいは歌番組で歌っているシーンで人の声を抑制してカラオケのような状態にすることが可能となる。しかしながら、一般に音源分離機能は、ユーザの操作によってその有効と無効を切り替える必要がある。ニュース番組で人の声を強調させる設定をしていても、ＣＭに入った場合、音源分離機能が有効の設定は意味を無さなくなる。本来、ユーザは、音源分離機能を番組の本編シーンに対して適用したい場合が多く、ＣＭシーンに適用する意図は少ないと考えられる。

また、音源分離機能を有効にして、歌番組でカラオケの設定をしていた場合でも、歌っていない合間のシーンでは、人の声が聞きとりにくくなるため、音源分離機能をユーザの操作で解除する必要がある。

本実施形態では、シーン情報により、これから放映または再生されるシーンがＣＭシーンのような声を主体としないシーンである場合には、音声制御部３０１は、音源分離機能を無効化して声を強調しないように音源分離処理部３０２を制御する。また、本実施形態では、これから放映または再生されるシーンが本編シーンのような声を主体とするシーンである場合には、音声制御部３０１は、音源分離機能を有効化して声を強調するように音源分離処理部３０２を制御している。このため、本実施形態により、ユーザは意図せず適用された音源分離機能によって、ＣＭシーンから情報を取り損ねたり、機能を手動で変更することなく、自然な視聴を行うことができる。

従って、本実施形態によれば、シーンに応じて適切に音源分離機能による声成分の強調を行うことができ、音源分離機能をテレビジョン装置１００等の電子機器に搭載した場合に、適切な状況で、ユーザの負担なく、最適な音源分離の効果を得ることができる。

本実施形態では、音声制御部３０１は、音源分離機能の有効化と無効化、すなわち、入力される音声信号が音源分離処理部３０２に出力するか出力しないかにより、音声信号の強調を行うか行わないかを制御していたが、音声信号の強調の制御は、音源分離機能の有効化、無効化に限定されるものではない。

例えば、声信号の強調を行わない場合には、音声信号を音源分離処理部３０２に出力して音源分離機能を有効化するとともに、声補正フィルタ４０３の強度を変更せず、ゲインＧｖ４０５を１とするパラメータ指令を、音源分離処理部３０２に出力するように音声制御部３０１を構成することができる。

この場合、声信号の強調を行う場合には、上記と同様に、音声信号を音源分離処理部３０２に出力することで音源分離機能を有効化するとともに、声信号を強調するための声補正フィルタ４０３の強度やゲインＧｖ４０５を増加させるパラメータ指令を音源分離処理部３０２に出力するように音声制御部３０１を構成する。

（実施形態２）
実施形態２では、テレビジョン装置１００は、実施形態１の機能に加え、ユーザの嗜好、番組情報、字幕情報に基づいて、音源分離機能の制御を行っている。

実施形態２にかかるテレビジョン装置１００の構成、音声処理部１２４１の構成は実施形態１と同様である。

本実施形態の制御部１２７は、図５に示すように、入力制御部２０１と、シーン検出部２０２と、情報取得部５０１と、設定部２０３とを備えている。ここで、シーン検出部２０２の機能については実施形態１と同様である。

なお、本実施形態では、ＨＤＤ１３０やＤＶＤ、Ｂｌｕ−ｒａｙ（登録商標）に録画された番組映像の動画データを再生する場合を例にあげて説明する。

本実施形態では、入力制御部２０１は、ユーザから、嗜好性の高い人物であるお気に入りの人物（第１人物）と、嗜好性の低い人物であるお気に入りでない（第２人物）との設定の入力を受け付ける。具体的には、信号処理部１２４の映像処理部１２４２が嗜好設定画面を、ＯＳＤとして映像表示パネル１０２に表示する。

嗜好設定画面には、図６に示すように、ユーザが、お気に入りの人物とお気に入りでない人物をそれぞれ複数設定することができるようなっている。入力制御部２０１は、この嗜好設定画面での入力を受け付ける。

設定部２０３は、入力制御部２０１で受け付けた、お気に入りの人物とお気に入りでない人物とを、嗜好設定情報としてＨＤＤ１３０に保存する。

情報取得部５０１は、これから再生する録画映像等の番組情報と字幕情報を取得する。番組情報と字幕情報は、ネットワーク上のサーバや放送局等から受信して取得する他、ＨＤＤ１３０やＤＶＤ、Ｂｌｕ−ｒａｙ（登録商標）等の記憶媒体から取得する。情報取得部５０１は、取得した番組情報と字幕情報を、音声処理部１２４１の音声制御部３０１に送出する。

本実施形態の音声処理部１２４１の音声制御部３０１は、音声信号を入力するとともに、制御部１２７の情報取得部５０１から、映像表示パネル１０２に表示する動画データの番組情報と字幕情報とを、制御情報として入力する。

番組情報には、番組の詳細内容や出演者、ナレータ、配役等が登録されている。字幕情報には、台詞ごとに発話者名や発話者を区別するための識別情報（色による区別）等が登録されている。

音声制御部３０１は、番組映像における番組情報の出演者、ナレータ、配役等の情報から、嗜好設定情報としてＨＤＤ１３０に登録された、お気に入りの人物とお気に入りでない人物の出演の有無を判断する。また、音声制御部３０１は、字幕情報の発話者やその識別情報から、番組映像におけるお気に入りの人物とお気に入りでない人物の発話を抽出および特定する。

音声制御部３０１は、再生中の番組映像において、お気に入りの人物の発話中には声信号の強調を行い、お気に入りでない人物の発話中には声信号の強調を行わないように音源分離処理部３０２を制御する。

具体的には、音声制御部３０１は、特定された話者ごとに嗜好性を示すスコアを算出する。例えば、音声制御部３０１は、お気に入りの人物の話者のスコアを９０とし、お気に入りでない人物の話者のスコアを１０とする。一方、嗜好設定情報にお気に入りの人物およびお気に入りでない人物のいずれにも登録されていない話者についてはスコアを５０とする。そして、一例として、第１閾値を７０、第２閾値を３０とし、音声制御部３０１は、スコアが第１閾値より高いスコアの話者の声信号を強調し、第２閾値より低いスコアの話者の声信号を抑制するように、音源分離処理部３０２を制御する。ここで、これらのスコアの値は一例であり、これらに限定されるものではない。

音声制御部３０１は、声信号を強調する場合には、音声信号を音源分離処理部３０２に出力するとともに、声信号を強調するための声補正フィルタ４０３およびゲインＧｖ４０５に対するパラメータ指令を音源分離処理部３０２に出力する。音声制御部３０１は、声信号を抑制する場合には、音声信号を音源分離処理部３０２に出力するとともに、声信号を抑制するための声補正フィルタ４０３およびゲインＧｖ４０５に対するパラメータ指令を音源分離処理部３０２に出力する。

次に、以上のように構成された本実施形態のテレビジョン装置１００による音声制御処理について図７を用いて説明する。

まず、音声制御部３０１は、これから再生する動画データの番組の番組情報と字幕情報とを、制御部１２７の情報取得部５０１から取得する（ステップＳ３１）。そして、音声制御部３０１は、ＨＤＤ１３０からユーザの嗜好設定情報を取得する（ステップＳ３２）。

次に、音声制御部３０１は、嗜好設定情報に登録されたお気に入りの人物およびお気に入りでない人物と、番組情報と、字幕情報とから上述のように話者を抽出する（ステップＳ３３）。そして、音声制御部３０１は、特定された話者ごとに、上述のとおり、スコアを算出する（ステップＳ３４）。

そして、番組の再生が開始され、発話が検出されたら（ステップＳ３５：Ｙｅｓ）、音声制御部３０１は、字幕情報を参照して話者名や話者の識別情報から話者を特定する（ステップＳ３６）。そして、音声制御部３０１は、ステップＳ３４で算出された話者のスコアが第１閾値以上であるか否かを判断する（ステップＳ３７）。そして、スコアが第１閾値以上である場合には（ステップＳ３７：Ｙｅｓ）、音声制御部３０１は、話者の声を強調するように音源分離処理部３０２を制御する（ステップＳ３８）。

ステップＳ３７でスコアが第１閾値未満である場合には（ステップＳ３７：Ｎｏ）、音声制御部３０１は、話者のスコアが第２閾値以下であるか否かを判断する（ステップＳ３９）。そして、スコアが第２閾値以下である場合には（ステップＳ３９：Ｙｅｓ）、音声制御部３０１は、話者の声を抑制するように音源分離処理部３０２を制御する（ステップＳ４０）。

ステップＳ３９でスコアが第２閾値より大きい場合には（ステップＳ３９：Ｎｏ）、音声制御部３０１は、声の強調、抑制の制御は行わない。

上記ステップＳ３５からＳ４１までの処理は、番組が終了するまで（ステップＳ４１：Ｎｏ）、発話があるごとに繰り返し実行される。番組が終了すると（ステップＳ４１：Ｙｅｓ）、処理は終了する。

このように本実施形態では、テレビジョン装置１００は、ユーザの嗜好、番組情報、字幕情報に基づいて、音源分離機能の制御を行っているので、番組映像の表示中に、ユーザの嗜好に合わない出演者の声を抑制したり、嗜好に合う（好きな）出演者の声を強調することが可能となる。このため、本実施形態によれば、音源分離機能をテレビジョン装置１００等の電子機器に搭載した場合に、適切な状況で、ユーザの負担なく、最適な音源分離の効果を得ることができる。

本実施形態では、ユーザにお気に入りの人物、お気に入りでない人物をそれぞれ複数設定させて、音声制御部３０１は、ユーザにお気に入りの人物のスコアを第１閾値以上の同一スコアに設定して一律に声を強調させ、お気に入りでない人物のスコアを第２閾値以下の同一スコアに設定して一律に声を抑制しているが、これに限定されるものではない。

例えば、嗜好設定画面における複数の人物に順位付けをし、順位が高い程、高いスコアに設定するように音声制御部３０１を構成してもよい。そして、この場合、スコアの値が高い程、声の強調の度合いを高くしたり、スコアの値が低い程、声の抑制の度合いを低くするように音声制御部３０１を構成することができる。また、この場合、第１閾値、第２閾値を設けないように音声制御部３０１を構成してもよい。

さらに、本実施形態では、音声制御部３０１は、お気に入りの人物とお気に入りでない人物のいずれにも登録されていない話者には、一律に、第１閾値未満で第２閾値より大きいスコアを設定していたが、これに限定されるものではない。

例えば、お気に入りの人物とお気に入りでない人物のいずれにも登録されていない話者の場合には、番組情報における人物の配役や、出演者かナレータか、司会者か芸人か等の番組情報の詳細情報により、スコアに高低を付けて設定するように音声制御部３０１を構成することができる。この場合には、第１閾値、第２閾値を設けずに、お気に入りの人物とお気に入りでない人物のいずれにも登録されていない話者に対しても、スコアに応じた度合いで声の強調や抑制を行うように音声制御部３０１を構成してもよい。

また、本実施形態では、記憶媒体に録画された番組映像の動画データを再生する場合を例にあげて説明したが、リアルタイムに受信される放送映像に対して、話者毎の声の強調、抑制の処理を行うようにテレビジョン装置１００を構成してもよい。この場合には、テレビジョン装置１００には、実際の放送映像とは、微少な時間で遅れて再生するいわゆる追っかけモードと同等のモードとして音源分離モードを設ける。

そして、信号処理部１２４は、当該音源分離モードで放送映像をタイミングを微少時間ずらして再生し、上記音源分離機能による話者ごとの声信号の強調および抑制処理を行うように構成する。また、この場合の字幕情報としては、リアルタイムに放送局等で作成されて送信される、いわゆる生字幕の情報を用いることができる。このような手法により、リアルタイムな放送映像に対しても、適切な状況で、ユーザの負担なく、最適な音源分離の効果を得ることができる。

（実施形態３）
実施形態３では、テレビジョン装置１００は、実施形態１の機能に加え、ユーザによる字幕表示機能の設定に応じて音源分離機能の実行を制御している。

実施形態３にかかるテレビジョン装置１００の構成、制御部１２７の機能的構成、および音声処理部１２４１の構成は実施形態１と同様である。

本実施形態では、制御部１２７の入力制御部２０１は、ユーザから、字幕表示機能の設定の指示を受け付ける。この字幕表示機能の設定には、字幕表示機能を使用する旨を示す字幕表示機能オンの設定と、字幕機能を使用しない旨を示す字幕表示機能オフの設定がある。設定部２０３は、入力制御部２０１で受け付けた字幕表示機能の設定を、ＨＤＤ１３０に保存する。

本実施形態の音声処理部１２４１の音声制御部３０１は、ＨＤＤ１３０に保存された字幕表示機能の設定を制御情報として取得し、字幕表示機能の設定の指示に基づいて、音源分離機能の実行を制御する。

本実施形態の音声制御部３０１による音声制御処理の詳細について図８を用いて説明する。まず、音声制御部３０１は、字幕表示機能がオンの設定であるか否かを判断する（ステップＳ５１）。そして、字幕表示機能がオンの設定である場合には（ステップＳ５１：Ｙｅｓ）、音声制御部３０１は、音源分離機能の有効化を行い、音声信号を音源分離処理部３０２に出力し（ステップＳ５２）、パラメータ指令により声信号の抑制を行うように音源分離処理部３０２を制御する（ステップＳ５３）。

一方、ステップＳ５１で、字幕表示機能がオンではない場合には（ステップＳ５１：Ｎｏ）、音声制御部３０１は、字幕表示機能がオフの設定であるか否かを判断する（ステップＳ５４）。そして、字幕表示機能がオフの設定である場合には（ステップＳ５４：Ｙｅｓ）、音声制御部３０１は、声信号の強調を行わないように音源分離処理部３０２を制御する。すなわち、音声制御部３０１は、音源分離機能の無効化を行い、音声信号を音源分離処理部３０２を介さずに音響効果処理部３０３に出力する（ステップＳ５５）。これにより、声信号の抑制は行われない。

番組の視聴中に、ユーザが人間の声を抑制したい場合でも、解説などの情報を取得したい場合がある。本実施形態では、テレビジョン装置１００は、ユーザによる字幕表示機能の設定に応じて音源分離機能の実行を制御している。すなわち、音声制御部３０１は、ユーザによる指示で字幕表示機能がオンである場合には、声信号の抑制を行うように音源分離処理部３０２を制御し、字幕表示機能がオフである場合には、声信号の抑制を行わないように音源分離処理部３０２を制御している。

このため、本実施形態では、ユーザが字幕表示機能の設定の操作と音源分離機能の両方の操作を行う手間を省き、操作を簡易にすることができる。この結果、本実施形態では、音源分離機能をテレビジョン装置１００等の電子機器に搭載した場合に、適切な状況で、ユーザの負担なく、最適な音源分離の効果を得ることができる。

なお、本実施形態では、音声制御部３０１は、字幕表示機能がオフに設定されている場合に、音源分離機能の無効化を行って、声信号の抑制を行わないように制御していたが、声信号の抑制を行わない手法としてはこれに限定されるものではない。例えば、音声信号を音源分離処理部３０２に出力することで音源分離機能の有効化を行うとともに、声信号の抑制を行わないために声補正フィルタ４０３の強度を変化させず、ゲインＧｖ４０５を１にするパラメータ指令を音源分離処理部３０２に出力することにより、声信号の抑制を行わないように音源分離処理部３０２を制御するように、音声制御部３０１を構成してもよい。

実施形態２および３では、実施形態１のシーン情報に基づく音源分離機能の制御の機能も有するものとして説明していたが、実施の形態２および３において、かかる実施形態１の機能を有さない構成としてもよい。

なお、上記実施形態のテレビジョン装置１００で実行される音声制御プログラムは、メモリ１３１のＲＯＭ等に予め組み込まれてコンピュータプログラムプロダクトとして提供される。

上記実施形態のテレビジョン装置１００で実行される音声制御プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供するように構成してもよい。

さらに、上記実施形態のテレビジョン装置１００で実行される音声制御プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることによりコンピュータプログラムプロダクトとして提供するように構成しても良い。また、上記実施形態のテレビジョン装置１００で実行される音声制御プログラムをコンピュータプログラムプロダクトとしてインターネット等のネットワーク経由で提供または配布するように構成しても良い。

上記実施形態のテレビジョン装置１００で実行される音声制御プログラムは、上述した各部（入力制御部２０１、シーン検出部２０２、設定部２０３、情報取得部５０１、音声制御部３０１、音源分離処理部３０２）を含むモジュール構成となっており、ＣＰＵが上記ＲＯＭから音声制御プログラムを読み出して実行することにより上記各部がメモリ１３１のＲＡＭ上にロードされ、各部がＲＡＭ上に生成されるようになっている。

さらに、ここに記述されたシステムの種々のモジュールは、ソフトウェア・アプリケーション、ハードウェアおよび／またはソフトウェア・モジュール、あるいはサーバのような1台以上のコンピュータ上のコンポーネントとしてインプリメントすることができる。種々のモジュールは、別々に説明されているが、それらは同じ根本的なロジックかコードのうちのいくつかあるいはすべてを共有してもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

入力される音声信号を、声信号と背景音信号とに分離して、前記声信号または前記背景音信号のいずれかを強調する音源分離機能を実行する音源分離処理部と、
映像に含まれるシーンに関するシーン情報に基づいて、前記シーンを表示する際における前記音源分離機能の実行を制御するとともに、前記声信号または前記背景音信号の強調または抑制に関するパラメータを含むパラメータ指令を前記音源分離処理部に出力する音声制御部と、
を備え、
前記音源分離処理部は、
前記音声信号を前記声信号と前記背景音信号とに分離する音源分離部と、
前記声信号を前記パラメータ指令に基づいて補正して、補正後の声信号を出力する声補正フィルタと、
前記背景音信号を前記パラメータ指令に基づいて補正して、補正後の背景音信号を出力する背景音補正フィルタと、
前記補正後の声信号に前記パラメータ指令に基づいたゲインを乗算したものと、前記補正後の背景音信号に前記パラメータ指令に基づいたゲインを乗算しものと、を加算して合成信号を出力する加算部と、
を有する電子機器。
前記音声制御部は、前記シーン情報において声が主体でない第１シーンが含まれている場合には、前記第１シーンの表示中に、前記声信号の強調を行わないように前記音源分離処理部を制御する、
請求項１に記載の電子機器。
前記音声制御部は、前記シーン情報において声が主体である第２シーンが含まれている場合には、前記第２シーンの表示中に、前記声信号の強調を行うように前記音源分離処理部を制御する、
請求項１に記載の電子機器。
前記音声制御部は、前記声信号の強調および抑制を行わない場合に、前記音源分離機能を実行しないように前記音源分離処理部を制御する、
請求項１〜３のいずれか一つに記載の電子機器。
前記音声制御部は、前記パラメータを調整することにより、前記声信号の強調および抑制を制御する、
請求項１〜３のいずれか一つに記載の電子機器。
入力される音声信号を、声信号と背景音信号とに分離して、前記声信号または前記背景音信号のいずれかを強調する音源分離機能を実行する音源分離工程と、
映像に含まれるシーンに関するシーン情報に基づいて制御する制御工程と、
を含み、
前記音源分離工程は、
入力される音声信号を、声信号と背景音信号とに分離する工程と、
前記声信号または前記背景音信号の強調または抑制に関するパラメータを含むパラメータ指令に基づいて、前記声信号を補正して、補正後の声信号を出力する工程と、
前記パラメータ指令に基づいて、前記背景音信号を補正して、補正後の背景音信号を出力する工程と、
前記補正後の声信号に前記パラメータ指令に基づいたゲインを乗算したものと、前記補正後の背景音信号に前記パラメータ指令に基づいたゲインを乗算しものと、を加算して合成信号を出力する工程と、
を含む制御方法。
入力される音声信号を、声信号と背景音信号とに分離して、前記声信号または前記背景音信号のいずれかを強調する音源分離機能を実行する音源分離手順と、
映像に含まれるシーンに関するシーン情報に基づいて制御する制御手順と、
をコンピュータに実行させ、
前記音源分離手順では、
入力される音声信号を、声信号と背景音信号とに分離する手順と、
前記声信号または前記背景音信号の強調または抑制に関するパラメータを含むパラメータ指令に基づいて、前記声信号を補正して、補正後の声信号を出力する手順と、
前記パラメータ指令に基づいて、前記背景音信号を補正して、補正後の背景音信号を出力する手順と、
前記補正後の声信号に前記パラメータ指令に基づいたゲインを乗算したものと、前記補正後の背景音信号に前記パラメータ指令に基づいたゲインを乗算しものと、を加算して合成信号を出力する手順と、
を含むプログラム。