JP2019029981A - 映像音声信号処理装置、その方法とプログラム - Google Patents

映像音声信号処理装置、その方法とプログラム Download PDF

Info

Publication number
JP2019029981A
JP2019029981A JP2017151323A JP2017151323A JP2019029981A JP 2019029981 A JP2019029981 A JP 2019029981A JP 2017151323 A JP2017151323 A JP 2017151323A JP 2017151323 A JP2017151323 A JP 2017151323A JP 2019029981 A JP2019029981 A JP 2019029981A
Authority
JP
Japan
Prior art keywords
target object
real space
video
position information
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017151323A
Other languages
English (en)
Other versions
JP6966165B2 (ja
Inventor
佐藤 誠
Makoto Sato
佐藤  誠
貴之 篠田
Takayuki Shinoda
貴之 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Television Network Corp
Original Assignee
Nippon Television Network Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Television Network Corp filed Critical Nippon Television Network Corp
Priority to JP2017151323A priority Critical patent/JP6966165B2/ja
Publication of JP2019029981A publication Critical patent/JP2019029981A/ja
Application granted granted Critical
Publication of JP6966165B2 publication Critical patent/JP6966165B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】映像中を移動する対象物の周囲の音声を自動的に取得する技術を提供する。【解決手段】実空間に対応する映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定する指定部と、実空間対応映像中の移動するターゲットオブジェクトを画像認識し、ターゲットオブジェクトを追尾し、所定期間毎のターゲットオブジェクトの実空間対応映像上の位置情報を算出し、実空間対応映像上の位置情報から実空間上のターゲットオブジェクトの位置情報を算出する位置情報算出部と、収音手段で収音された実空間上の音声の音声信号に対して、実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する音声信号処理部とを有する映像音声信号処理装置である。【選択図】図6

Description

本発明は、映像音声信号処理装置、その方法とプログラムに関する。
複数のマイクから取得した音源の位相差から、音声信号処理により、特定の方向の音を抽出する技術が特許文献1に記載されている。
特許文献1の技術は、実空間に対応する画像である実空間対応画像を表示する表示手段と、実空間対応画像に、操作者の操作により指定される少なくとも1つの指定範囲を指定可能とする入力手段と、実空間で収音された音のうち、指定範囲に対応する実空間上の範囲に存在する音と、それ以外の範囲に存在する音とを感度特性を異ならせて受聴可能とする音響信号処理手段とを含む収音システムである。
特開2015-198413号公報
しかし、対象物が動体となった際には、人手による操作が複雑であり、自動的に対象物の周囲の音声を取得できなかった。
そこで、本発明の課題は、映像中を移動する対象物の周囲の音声を自動的に取得する映像音声信号処理装置、その方法とプログラムを提供することである。
本発明の一態様は、実空間に対応する映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定する指定部と、前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの前記実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出する位置情報算出部と、収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する音声信号処理部とを有する映像音声信号処理装置である。
本発明の一態様は、実空間に対応する所定の解像度の映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定する指定部と、前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出する位置情報算出部と、前記ターゲットオブジェクトの映像上の位置情報に基づいて、前記実空間対応映像から前記ターゲットオブジェクトを含む所定の領域の映像であり、前記所定の解像度よりも低い解像度のターゲットオブジェクト映像を切り出す映像切り出し部と、収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する音声信号処理部とを有する映像音声信号処理装置である。
本発明の一態様は、実空間に対応する映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定し、前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出し、収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する映像音声信号処理方法である。
本発明の一態様は、実空間に対応する所定の解像度の映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定し、前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出し、前記ターゲットオブジェクトの映像上の位置情報に基づいて、前記実空間対応映像から前記ターゲットオブジェクトを含む所定の領域の映像であり、前記所定の解像度よりも低い解像度のターゲットオブジェクト映像を切り出し、収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する映像音声信号処理方法である。
本発明の一態様は、実空間に対応する映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定する処理と、前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出する処理と、収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する処理とをコンピュータに実行させるプログラムである。
本発明の一態様は、実空間に対応する所定の解像度の映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定する処理と、前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出する処理と、前記ターゲットオブジェクトの映像上の位置情報に基づいて、前記実空間対応映像から前記ターゲットオブジェクトを含む所定の領域の映像であり、前記所定の解像度よりも低い解像度のターゲットオブジェクト映像を切り出す処理と、収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する処理とをコンピュータに実行させるプログラムである。
本発明は、映像中を移動する対象物の周囲の音声を自動的に取得することができる。
図1は第1の実施の形態の映像音声信号処理装置1のブロック図である。 図2は第1の実施の形態の映像音声信号処理装置1の動作を説明するための図である。 図3は第1の実施の形態の映像音声信号処理装置1の動作を説明するための図である。 図4は第2の実施の形態の映像音声信号処理装置1の動作を説明するための図である。 図5は第2の実施の形態の映像音声信号処理装置1の動作を説明するための図である。 図6は第3の実施の形態の映像音声信号処理装置20のブロック図である。 図7は第3の実施の形態の映像音声信号処理装置20の動作を説明するための図である。
本発明の実施の形態を、図面を参照しながら説明する。
<第1の実施の形態>
本発明の第1の実施の形態を説明する。
図1は第1の実施の形態の映像音声信号処理装置1のブロック図である。
図1中、1は映像音声信号処理装置であり、2はカメラ、3は収音部である。
映像音声信号処理装置1には、カメラ2から、実空間を撮影し、実空間に対応する映像である実空間対応映像が入力される。また、収音部3から実空間上の音声の音声信号が入力される。尚、収音部3は複数のマイクを有し、複数のチャンネルの音声信号を取得することができるものであれば、その種類は問わない。
以下の説明では、実空間対応映像はカメラ2から入力され、音声信号は収音部3から入力される例を説明するが、これに限られない。例えば、実空間対応映像及び音声信号は、既に撮影又は録音されて記録媒体に格納されており、映像音声信号処理装置1は、その記録媒体から実空間対応映像及び音声信号を入力するように構成しても良い。
映像音声信号処理装置1は、ターゲットオブジェクト指定部11と、ターゲットオブジェクト位置情報算出部12と、音声信号処理部13とを備える。
ターゲットオブジェクト指定部11は、実空間対応映像中のオブジェクトのうち、ユーザが希望するオブジェクト(以下、ターゲットオブジェクトと記載する)を指定するものである。
指定方法としては、ディスプレイに実空間対応映像が表示されている状態において、図2に示す如く、実空間対応映像にターゲットカーソルを表示し、そのターゲットカーソルをキーボード、マウス、タッチパネル、視線検出等により、ターゲットオブジェクト上に移動させ、ターゲットオブジェクトを指定する。そして、ターゲットカーソルを含む一定の範囲のオブジェクトをターゲットオブジェクトとして認識する方法がある。
他の方法としては、ターゲットオブジェクトとする対象物の画像特徴を予め登録しておき、その画像特徴を持つ対象物が実空間対応映像に現れた場合、自動的にその対象物をターゲットオブジェクトとして指定する方法である。例えば、サッカーボールや、選手の背番号(例えば、背番号10等)等の画像特徴を予め登録しておき、その画像特徴を持つ実空間対応映像のサッカーボール、背番号の選手を、ターゲットオブジェクトとして自動的に指定する方法である。
ターゲットオブジェクト位置情報算出部12は、実空間対応映像中の移動するターゲットオブジェクトを画像認識によりトラッキング(追尾)し、所定期間毎のターゲットオブジェクトの実空間対応映像上の位置情報を算出し、実空間対応映像上のターゲットオブジェクトの位置情報から実空間上のターゲットオブジェクトの位置情報を算出する。
ターゲットオブジェクト位置情報算出部12のターゲットオブジェクトのトラッキング及び実空間対応映像中の位置情報の算出方法は、例えば、以下のような方法がある。
カメラ2が固定されたカメラである場合、カメラ2で撮影された映像(入力映像)の所定フレームの映像から、指定されたターゲットオブジェクトの画像特徴を抽出する。続いて、トラッキング開始後の時間的に近接する1枚のフレームの映像から同一又は類似する画像特徴を持つターゲットオブジェクトを特定する。そして、特定されたターゲットオブジェクトの映像中の二次元の位置情報を算出する。これを所定のフレーム毎、すなわち、所定の期間毎に行う。
次に、実空間対応映像上の位置情報から、実空間上のターゲットオブジェクトの位置情報を算出する方法であるが、実空間対応映像の中で移動することないオブジェクトの映像中の位置とターゲットオブジェクトの映像中の位置との関係から、実空間上のターゲットオブジェクトの位置情報を算出する方法がある。例えば、サッカーの試合などでは、フィールドのラインやフィールドに設置された看板等は移動することはない。そこで、予めこれらのライン等の実空間対応映像上の位置と実空間上の位置との関係を求めておく。そして、ライン等の実空間対応映像上の位置とライン等の実空間上の位置との関係と、ライン等の実空間対応映像上の位置とターゲットオブジェクトの実空間対応映像上の位置との関係とから、ターゲットオブジェクの実空間対応映像上の位置情報からターゲットオブジェクトの実空間上の位置情報を算出する。
上述したターゲットオブジェクト位置情報算出部12の算出例は一例であり、他の既知の技術を用いても良いことはいうまでもない。
音声信号処理部13は、収音部3から音声信号を受信し、実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声(以下、ターゲットオブジェクトの周辺音と記載する場合がある)を出力する。尚、例えば、ターゲットオブジェクトが映っていない実空間対応映像である場合等、ターゲットオブジェクト位置情報算出部12から位置情報を得られない場合には、信号処理を中止しても良い。
音声信号処理部13は、収音部3の複数のマイクの実空間上の方向及び位置が記憶されており、その複数のマイクの実空間上の方向及び位置と、算出された実空間上のターゲットオブジェクトの位置情報とに基づいて、収音部3の各マイクの音声信号に対して、既知のビームフォーミング等の手法を用いて信号処理を行い、実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する。上述した音声信号処理部13の処理例は一例であり、他の既知の技術を用いても良いことはいうまでもない。
尚、ターゲットオブジェクトと収音部3との距離によって、収音部3のマイクに届く周波数が異なる場合がある。例えば、ターゲットオブジェクトと収音部3との距離が大きくなると、収音部3のマイクに届く周波数成分のうち低周波成分の割合が小さくなるため、違和感のある音になる。
そこで、音声信号処理部13は、実空間上のターゲットオブジェクトの位置情報から、ターゲットオブジェクトと収音部3との距離を算出し、その距離に応じて、収音部3のマイクが集音した音声信号の周波数特性を変化させる処理を行っても良い。これにより、出力されるターゲットオブジェクトの周辺音が聞き取りやすい音となる。
次に、第1の実施の形態の動作を説明する。
まず、ユーザは、ターゲットオブジェクト指定部11より、ターゲットオブジェクトとなる対象を指定する。ここでは、図2に示すように、実空間対応映像とターゲットとをディスプレイに表示し、マウスやキーボート等でターゲットをターゲットオブジェクトとなるサッカーボール上まで移動させ、サッカーボールを指定することにより、サッカーボールをターゲットオブジェクトとして指定する。
ターゲットオブジェクト位置情報算出部12は、実空間対応映像中の移動するサッカーボールを画像認識して追尾し、所定期間毎のサッカーボールの映像上の位置情報を算出する。ここで、図3に示すように、所定時間経過後に、実空間対応映像中でサッカーボールが移動した場合、その所定時間経過後のサッカーボールの実空間対応映像上の位置情報を算出する。
次に、ターゲットオブジェクト位置情報算出部12は、サッカーボールの実空間対応映像上の位置情報を元に、実空間対応映像の中で移動することないフィールドのライン位置を元に、実空間上のサッカーボールの位置情報を算出する。
音声信号処理部13は、収音部3から音声信号を受信し、実空間上のサッカーボールの位置情報に基づいて収音部3から音声信号に対して信号処理を行い、空間上のサッカーボールを中心とする所定の範囲の音声を出力する。
第1の実施の形態は、ターゲットオブジェクトを指定すれば、自動的に移動するターゲットオブジェクトの周辺の音声を抽出することができる。
尚、第1の実施の形態の応用例として、360度の全天周映像等をVRヘッドマウントディスプレイ等で視聴する場合にも適用することができる。この場合、360度の全天周映像等の一部の映像が、ユーザが装着しているヘッドマウントディスプレイ等に表示されることになる。
ターゲットオブジェクト位置情報算出部12は、360度の全天周映像等の映像でターゲットオブジェクトを追尾し、全天周映像中のターゲットオブジェクトの位置情報を算出するようにする。しかし、ターゲットオブジェクト位置情報算出部12は、ターゲットオブジェクトの位置情報からユーザが装着しているヘッドマウントディスプレイ等にターゲットオブジェクトを含まない映像が表示されていると判断する場合には、位置情報を音声信号処理部13に出力せず、音声信号処理部13に信号処理を中止させるように構成する。
このように構成することにより、ヘッドマウントディスプレイ等にターゲットオブジェクトが表示されている場合にのみ、音声を出力することができ、ユーザに違和感のない音声を提供することができる。
(第2の実施の形態)
第2の実施の形態を説明する。
第2の実施の形態では、所定期間におけるターゲットオブジェクトの位置情報の変化に着目し、その変化に応じてターゲットオブジェクトの音声信号を強調又は抑制する例を説明する。尚、音声信号の強調又は抑制は、音量を大きくする又は小さくする方法が一例としてあるが、これに限られず、他の方法でもよい。
第2の実施の形態では、ターゲットオブジェクト位置情報算出部12は、第1の実施の形態の動作に加えて、所定期間におけるターゲットオブジェクトの実空間対応映像上の位置情報の変化を算出する。ここで、実空間対応映像上の位置情報の変化とは、ある時刻から所定期間経過後に、ターゲットオブジェクトがどのような位置に変化したかを示す情報である。例えば、図4に示したように、映像の左下を原点とした場合、Y座標が小さい程、映像の下側に表示されることとなる。映像を視聴する視聴者から見ると、ターゲットオブジェクトが映像の下側にあるほど、視聴者から近い位置に、ターゲットオブジェクトが存在するものと認識される。そこで、ターゲットオブジェクト位置情報算出部12は、前回のターゲットオブジェクトの位置情報のY座標に対して、所定期間経過後のターゲットオブジェクトの位置情報のY座標がどのように変化したかを算出する。本例では、前回のターゲットオブジェクトの位置情報のY座標に対して、所定期間経過後のターゲットオブジェクトの位置情報のY座標が小さくなる場合、ターゲットオブジェクトが映像の下側に移動していることがわかる。また、前回のターゲットオブジェクトの位置情報のY座標に対して、所定期間経過後のターゲットオブジェクトの位置情報のY座標との差分が大きい程、移動が大きいと考えられる。ターゲットオブジェクト位置情報算出部12は、上下の移動方向とその移動量(差分)とを変化情報として算出する。
音声信号処理部13は、収音部3から音声信号を受信し、実空間上のサッカーボールの位置情報に基づいて収音部3から音声信号に対して信号処理を行い、空間上のサッカーボールを中心とする所定の範囲の音声を抽出する処理に加え、抽出した音声に対して強調又は抑圧する処理を行う。
上述の例では、ターゲットオブジェクト位置情報算出部12から与えられる変化情報が、ターゲットオブジェクトの移動方向が下側であることを示す場合、抽出した音声に対して強調する処理を行う。そして、強調量は、移動量(差分)に比例するように行う。一方、ターゲットオブジェクト位置情報算出部12から与えられる変化情報が、ターゲットオブジェクトの移動方向が上側を示す場合、抽出した音声に対して抑圧する処理を行う。そして、抑圧する大きさは、移動量(差分)に比例するように行う。
このような処理を行うことにより、ターゲットオブジェクトが映像の下側にあるほど、出力されるターゲットオブジェクトの周辺音は大きくなり、ターゲットオブジェクトが映像の上側にあるほど、出力されるターゲットオブジェクトの周辺音は小さくなる。従って、映像を視聴する視聴者から見ると、ターゲットオブジェクトが自分にとって近い位置に存在するときはターゲットオブジェクトの周辺音が大きく聞こえ、ターゲットオブジェクトが自分から離れている位置に存在するときはターゲットオブジェクトの周辺音が小さく聞こえるので、臨場感のある音声信号処理を行える。
上述した例では、視聴する視聴者から見ると、ターゲットオブジェクトが映像の下側にあるほど、視聴者から近い位置にターゲットオブジェクトが存在するものと認識される場合の例を説明したが、これに限られない。ターゲットオブジェクトとカメラの位置関係によって、その移動方向と強調又は抑圧との関係を決定すれば良い。
例えば、ターゲットオブジェクトとカメラの位置関係によっては、ターゲットオブジェクトが映像の上側にあるほど、視聴者から近い位置にターゲットオブジェクトが存在するものと認識される場合(ボールがカメラの上を、前から後ろに通過する場合など)もある。その場合には、上述した例とは逆に、ターゲットオブジェクト位置情報算出部12から与えられる変化情報が、ターゲットオブジェクトの移動方向が上側であることを示す場合、抽出した音声に対して強調する処理を行う。そして、強調量は、移動量(差分)に比例するように行う。一方、ターゲットオブジェクト位置情報算出部12から与えられる変化情報が、ターゲットオブジェクトの移動方向が下側を示す場合、抽出した音声に対して抑圧する処理を行う。そして、抑圧する大きさは、移動量(差分)に比例するように行う。
このような処理を行うことにより、上述の例と同様に、臨場感のある音声信号処理を行える。
更に、所定期間のターゲットオブジェクトの映像上の大きさの変化に着目して、抽出したターゲットオブジェクトの周辺音に対して強調又は抑圧する処理を行うようにしても良い。所定時間が経過し、撮影画角等の変化により、実空間対応映像上のターゲットオブジェクトの大きさが変化した場合、映像を視聴する視聴者から見ると、ターゲットオブジェクトの遠近感が異なる。例えば、図5に示すように、ある時刻の映像がターゲットオブジェクトとなるサッカーボールが小さい映像である場合、映像を視聴する視聴者から見ると、サッカーボールは遠い位置にある感覚となる。しかし、その時刻から所定時間経過後に、図5の下図のように、ターゲットオブジェクトとなるサッカーボールが大きい映像となった場合、映像を視聴する視聴者から見ると、サッカーボールは近い位置にある感覚となる。
そこで、ターゲットオブジェクト位置情報算出部12は、第1の実施の形態の動作に加えて、所定期間におけるターゲットオブジェクトの実空間対応映像上の大きさの変化情報を算出する。
音声信号処理部13は、収音部3から音声信号を受信し、実空間上のサッカーボールの位置情報に基づいて収音部3から音声信号に対して信号処理を行い、空間上のサッカーボールを中心とする所定の範囲の音声を抽出する処理に加え、抽出した音声に対して強調又は抑圧する処理を行う。
ターゲットオブジェクト位置情報算出部12から与えられる大きさの変化情報がターゲットオブジェクトの大きさが大きくなったことを示す場合、抽出した音声に対して強調する処理を行う。そして、強調量は、大きさの変化量に比例するように行う。一方、ターゲットオブジェクト位置情報算出部12から与えられる大きさの変化情報がターゲットオブジェクトの大きさが小さくなったことを示す場合、抽出した音声に対して抑圧する処理を行う。そして、抑圧量は、大きさの変化量に比例するように行う。尚、強調量又は抑圧量は、かならずしも変化量に比例する必要はなく、所定の大きさの変化量毎に予め強調量又は抑圧量を定めておいても良い。
例えば、図5の例では、図5の上図の時よりも、下図の時の音声の方が強調された音声となるようにする。
このような処理を行うことにより、上述の例と同様に、映像を視聴する視聴者から見ると、ターゲットオブジェクトが自分にとって近い位置に存在するときはターゲットオブジェクトの周辺音が大きく聞こえ、ターゲットオブジェクトが自分から離れている位置に存在するときはターゲットオブジェクトの周辺音が小さく聞こえるので、臨場感のある音声信号処理を行える。
第2の実施の形態によれば、映像を視聴する視聴者に、臨場感のある音声を提供することができる。また、映像を編集する側にとっても、音声の処理を自動化できるという利点もある。
(第3の実施の形態)
第3の実施の形態を説明する。
図6は第3の実施の形態のブロック図である。尚、第1の実施の形態と同様な構成のものについては、同じ付番を付する。
第3の実施の形態では、カメラ2で撮影された映像が映像記録部30に記録され、収音部3で収音された音声が音声記録部40に記録されている。カメラ2で撮影される映像は、4Kや8Kといった高画質映像である。また、収音部3で収音された音声は、定点に設置された収音部3の複数のマイクから得たられた複数のチャンネルの音声である。
映像音声信号処理装置20は、映像記録部30から映像信号が入力され、音声記録部40から音声信号が入力され、指定されたターゲットオブジェクトを中心とする所定の範囲の音声を出力すると共に、ターゲットオブジェクトを含む所定範囲の映像を、映像記録部30の映像から切り出して出力する機能を有する。切り出される映像は、映像記録部30に記録されている高画質映像に対して低画質の映像(例えば、HD画質)である。
映像音声信号処理装置20は、ターゲットオブジェクト指定部11と、ターゲットオブジェクト位置情報算出部12と、音声信号処理部13とを備え、更に、映像切り出し部21を備える。
ターゲットオブジェクト指定部11と、ターゲットオブジェクト位置情報算出部12と、音声信号処理部13との構成は、第1の実施の形態と同様な構成である。
映像切り出し部21は、ターゲットオブジェクト位置情報算出部12からのターゲットオブジェクトの映像中の二次元の位置情報を入力する。入力されたターゲットオブジェクトの映像中の位置情報から、映像記録部30に記録されている映像のうち、ターゲットオブジェクトを含む所定の範囲の映像を切り出す。尚、切り出す範囲、ターゲットオブジェクトの位置は、予め設定しておく。最も簡単な方法として、ターゲットオブジェクトの映像中の位置情報を中心として、HD画質の映像の範囲を切り出す方法がある。
次に、第3の実施の形態の動作を説明する。
まず、映像記録部30に記録されている高画質の映像上で、ユーザは、ターゲットオブジェクト指定部11より、ターゲットオブジェクトとなる対象を指定する。ここでは、サッカーボールを指定することにより、サッカーボールをターゲットオブジェクトとして指定する。
ターゲットオブジェクト位置情報算出部12は、実空間対応映像中の移動するサッカーボールを画像認識して追尾し、所定期間毎のサッカーボールの映像上の位置情報を算出する。ここで、所定時間経過後に、実空間対応映像中でサッカーボールが移動した場合、その所定時間経過後のサッカーボールの実空間対応映像上の位置情報を算出する。一方、ターゲットオブジェクト位置情報算出部12は、算出した所定期間毎のサッカーボールの映像上の位置情報を、映像切り出し部21に出力する。
映像切り出し部21は、サッカーボールの映像上の位置情報を中心とする所定の範囲の領域の映像(HD:1920×1080画素)を、映像記録部30の映像(4K:3840×2160画素)から切り出して出力する。本例では、サッカーボールの映像上の位置情報を中心とする1920×1080画素範囲の領域の画像を切り出す。
一方、音声信号処理部13は、収音部3から音声信号を受信し、実空間上のサッカーボールの位置情報に基づいて収音部3から音声信号に対して信号処理を行い、空間上のサッカーボールを中心とする所定の範囲の音声を出力する。
第3の実施の形態では、高画質映像上のターゲットオブジェクトを自動追尾し、そのターゲットオブジェクトを含む所定の範囲の領域の画像を高画質映像から切り出して出力すると共に、そのターゲットオブジェクトの周辺音も出力される。これにより、ターゲットオブジェクトに注目した映像及び音声を自動的に取得することができる。
尚、上述した例では、ターゲットオブジェクトの位置を中心に映像を切り出したが、これに限られず、切り出す映像上のターゲットオブジェクトの位置(例えば、右上や左上等)を予め決定しておき、そのターゲットオブジェクトを含むように映像を切り出しても良い。
更に、映像は高画質又は低画質な映像等の種類に限られず、例えば、切り出す映像よりも広い範囲を映している映像でも良い。例えば、映像記録部30に格納されている映像が360度の全天周映像であり、切り出す映像が360度の全天周映像の一部の範囲の映像である場合等である。このような場合、360度の全天周映像中のターゲットオブジェクトを追尾し、そのターゲットオブジェクトを含む一部の範囲の映像を切り出すようにする。
以上好ましい実施の形態をあげて本発明を説明したが、全ての実施の形態の構成を備える必要はなく、適時組合せて実施することができるばかりでなく、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
1 映像音声信号処理装置
2 カメラ
3 収音部
11 ターゲットオブジェクト指定部
12 ターゲットオブジェクト位置情報算出部
13 音声信号処理部
20 映像音声信号処理装置
21 映像切り出し部
30 映像記録部
40 音声記録部

Claims (10)

  1. 実空間に対応する映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定する指定部と、
    前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの前記実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出する位置情報算出部と、
    収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する音声信号処理部と
    を有する映像音声信号処理装置。
  2. 前記位置情報算出部は、前記所定期間における前記ターゲットオブジェクトの実空間対応映像上の位置情報の変化を算出し、
    前記音声信号処理部は、前記位置情報の変化に基づいて、前記音声信号を強調又は抑制する処理を行う
    請求項1に記載の映像音声信号処理装置。
  3. 前記位置情報算出部は、前記所定期間における前記ターゲットオブジェクトの実空間対応映像中の大きさの変化を算出し、
    前記音声信号処理部は、前記大きさの変化に基づいて、前記音声信号を強調又は抑制する処理を行う
    請求項1又は請求項2に記載の映像音声信号処理装置。
  4. 前記実空間対応映像のうち映像出力手段に表示されている映像中に、前記ターゲットオブジェクトが存在するかを検出するターゲットオブジェクト検出部を有し、
    前記音声信号処理部は、前記ターゲットオブジェクト検出部が前記ターゲットオブジェクトを検出した場合、前記ターゲットオブジェクトの音声信号の処理を行う
    請求項1から請求項3のいずれかに記載の映像音声信号処理装置。
  5. 前記実空間対応映像が全天周映像である
    請求項1から請求項4のいずれかに記載の映像音声信号処理装置。
  6. 実空間に対応する所定の解像度の映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定する指定部と、
    前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出する位置情報算出部と、
    前記ターゲットオブジェクトの映像上の位置情報に基づいて、前記実空間対応映像から前記ターゲットオブジェクトを含む所定の領域の映像であり、前記所定の解像度よりも低い解像度のターゲットオブジェクト映像を切り出す映像切り出し部と、
    収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する音声信号処理部と
    を有する映像音声信号処理装置。
  7. 実空間に対応する映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定し、
    前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出し、
    収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する
    映像音声信号処理方法。
  8. 実空間に対応する所定の解像度の映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定し、
    前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出し、
    前記ターゲットオブジェクトの映像上の位置情報に基づいて、前記実空間対応映像から前記ターゲットオブジェクトを含む所定の領域の映像であり、前記所定の解像度よりも低い解像度のターゲットオブジェクト映像を切り出し、
    収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する
    映像音声信号処理方法。
  9. 実空間に対応する映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定する処理と、
    前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出する処理と、
    収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する処理と
    をコンピュータに実行させるプログラム。
  10. 実空間に対応する所定の解像度の映像である実空間対応映像からターゲットとなるターゲットオブジェクトを指定する処理と、
    前記実空間対応映像中の移動する前記ターゲットオブジェクトを画像認識し、前記ターゲットオブジェクトを追尾し、所定期間毎の前記ターゲットオブジェクトの実空間対応映像上の位置情報を算出し、前記実空間対応映像上の位置情報から前記実空間上のターゲットオブジェクトの位置情報を算出する処理と、
    前記ターゲットオブジェクトの映像上の位置情報に基づいて、前記実空間対応映像から前記ターゲットオブジェクトを含む所定の領域の映像であり、前記所定の解像度よりも低い解像度のターゲットオブジェクト映像を切り出す処理と、
    収音手段で収音された前記実空間上の音声の音声信号に対して、前記実空間上のターゲットオブジェクトの位置情報に基づいて信号処理を行い、前記実空間上に存在するターゲットオブジェクトを中心とする所定の範囲の音声を出力する処理と
    をコンピュータに実行させるプログラム。
JP2017151323A 2017-08-04 2017-08-04 映像音声信号処理装置、その方法とプログラム Active JP6966165B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017151323A JP6966165B2 (ja) 2017-08-04 2017-08-04 映像音声信号処理装置、その方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017151323A JP6966165B2 (ja) 2017-08-04 2017-08-04 映像音声信号処理装置、その方法とプログラム

Publications (2)

Publication Number Publication Date
JP2019029981A true JP2019029981A (ja) 2019-02-21
JP6966165B2 JP6966165B2 (ja) 2021-11-10

Family

ID=65479006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017151323A Active JP6966165B2 (ja) 2017-08-04 2017-08-04 映像音声信号処理装置、その方法とプログラム

Country Status (1)

Country Link
JP (1) JP6966165B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009147727A (ja) * 2007-12-14 2009-07-02 Sanyo Electric Co Ltd 撮像装置及び画像再生装置
JP2010200084A (ja) * 2009-02-26 2010-09-09 Nikon Corp 撮像装置
JP2013114236A (ja) * 2011-12-01 2013-06-10 Nec Corp 画像編集装置、画像編集方法および画像編集プログラム
WO2015068587A1 (ja) * 2013-11-05 2015-05-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2017034502A (ja) * 2015-08-03 2017-02-09 株式会社リコー 通信装置、通信方法、プログラムおよび通信システム
US20170215005A1 (en) * 2016-01-22 2017-07-27 Mediatek Inc. Audio refocusing methods and electronic devices utilizing the same

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009147727A (ja) * 2007-12-14 2009-07-02 Sanyo Electric Co Ltd 撮像装置及び画像再生装置
JP2010200084A (ja) * 2009-02-26 2010-09-09 Nikon Corp 撮像装置
JP2013114236A (ja) * 2011-12-01 2013-06-10 Nec Corp 画像編集装置、画像編集方法および画像編集プログラム
WO2015068587A1 (ja) * 2013-11-05 2015-05-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2017034502A (ja) * 2015-08-03 2017-02-09 株式会社リコー 通信装置、通信方法、プログラムおよび通信システム
US20170215005A1 (en) * 2016-01-22 2017-07-27 Mediatek Inc. Audio refocusing methods and electronic devices utilizing the same

Also Published As

Publication number Publication date
JP6966165B2 (ja) 2021-11-10

Similar Documents

Publication Publication Date Title
US10855967B2 (en) Image processing apparatus, image processing method, and storage medium
US20170364752A1 (en) Sound and video object tracking
WO2015144020A1 (zh) 增强录音的拍摄方法和摄像装置
US20100254543A1 (en) Conference microphone system
CN107820037B (zh) 音频信号、图像处理的方法、装置和系统
US10664128B2 (en) Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
CN110808048A (zh) 语音处理方法、装置、系统及存储介质
CN111432115A (zh) 基于声音辅助定位的人脸追踪方法、终端及存储装置
JP2018520595A (ja) 多因子画像特徴登録及び追尾のための方法、回路、装置、システム、及び、関連するコンピュータで実行可能なコード
CN113596240B (zh) 录音方法、装置、电子设备及计算机可读介质
JP6410769B2 (ja) 情報処理システム及びその制御方法、コンピュータプログラム
JP2020520576A5 (ja)
US20140086551A1 (en) Information processing apparatus and information processing method
US11513762B2 (en) Controlling sounds of individual objects in a video
CN113676592A (zh) 录音方法、装置、电子设备及计算机可读介质
CN113853529A (zh) 用于空间音频捕获的装置和相关方法
US9756421B2 (en) Audio refocusing methods and electronic devices utilizing the same
CN113014844A (zh) 一种音频处理方法、装置、存储介质及电子设备
US11587202B2 (en) Method, apparatus or computer program for controlling image processing of a captured image of a scene to adapt the captured image
GB2546589A (en) Virtual training system
US11109151B2 (en) Recording and rendering sound spaces
JP6966165B2 (ja) 映像音声信号処理装置、その方法とプログラム
JP6456171B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10200606B2 (en) Image processing apparatus and control method of the same
JP2016109971A (ja) 信号処理装置および信号処理装置の制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210324

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211020

R150 Certificate of patent or registration of utility model

Ref document number: 6966165

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250