JP2015097318A - 音声信号処理システム - Google Patents

音声信号処理システム Download PDF

Info

Publication number
JP2015097318A
JP2015097318A JP2013236745A JP2013236745A JP2015097318A JP 2015097318 A JP2015097318 A JP 2015097318A JP 2013236745 A JP2013236745 A JP 2013236745A JP 2013236745 A JP2013236745 A JP 2013236745A JP 2015097318 A JP2015097318 A JP 2015097318A
Authority
JP
Japan
Prior art keywords
sound
audience
spectator
audio signal
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013236745A
Other languages
English (en)
Inventor
文裕 梶村
Fumihiro Kajimura
文裕 梶村
晃一 鷲巣
Koichi Washisu
晃一 鷲巣
宮脇 誠
Makoto Miyawaki
宮脇  誠
山本 泰史
Yasushi Yamamoto
泰史 山本
木村 正史
Masashi Kimura
正史 木村
光洋 泉
Mitsuhiro Izumi
光洋 泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013236745A priority Critical patent/JP2015097318A/ja
Publication of JP2015097318A publication Critical patent/JP2015097318A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】複数の録音装置で録音を行い、各音声信号を合成することで特定方向に指向性を持たせた場合でも、会場内の特定方向以外からの拍手や歓声を高品質に録再現できる音声信号処理システムを提供することを目的とする。【解決手段】少なくとも二つ以上である複数の音声取得手段と、前記音声取得手段の複数の音声信号を合成して特定方向に指向性を制御する指向性制御手段と、特定方向以外に存在する観客音を検出する観客音検出手段と、予め複数の観客音を記録している観客音データベースと、観客音検出手段結果を前記観客音データベースと照合し前記観客音データベースから観客音を選択する観客音選択手段と、前記指向性制御手段結果の音声信号と前記観客音を合成する観客音合成手段と、を有することを特徴とする。【選択図】図1

Description

本発明は、複数の録音装置で録音した音声に対して信号処理を行う音声信号処理システムに関するものである。
複数の録音装置を有する撮影装置により、複数の音声信号を合成して操作者が意図する方向に指向性を向ける技術がある。
特許文献1ではマイクアレイの各信号の相互相関に基づいて特定音源からの遅延量を求めることで、各信号の遅延器の遅延量を制御する手法が開示されている。これにより、マイクアレイの各マイクの位置が不定であっても特定方向に指向性を向けることができる。このような技術を用いると、音楽会会場などで複数の観客が録音装置付きの撮影装置で音楽会の様子を撮影した時、各撮影装置の音声信号を合成することで舞台方向に指向性を持った音声を生成することが可能である。
しかしながら、上述の特許文献に開示された従来技術では次のような課題がある。音楽会の会場で撮影を行う場合、観客が拍手をしたり歓声をあげた時でも音声信号の指向性は舞台上を向いているため、拍手音・歓声などの観客側の音声があまり録音されず、会場の臨場感があまり感じられない。
また、特許文献2で開示されている拍手検出を行い、拍手を救出した場合は、指向性を観客側の方向に向けることも考えられる。
特開2009−141560号公報 特開2000−315094号公報
しかし、拍手や歓声のあがる位置は様々であり、指向性を一方向に絞ることはできず、合成すると拍手音や歓声が打ち消されたり残響のある不快な音声になってしまうことがある。
そこで本発明では、複数の録音装置で録音を行い、各音声信号を合成することで特定方向に指向性を持たせた場合でも、会場内の特定方向以外からの拍手や歓声を高品質に再現できる音声信号処理システムを提供することを目的とする。
少なくとも二つ以上である複数の音声取得手段と、前記音声取得手段の複数の音声信号を合成して特定方向に指向性を制御する指向性制御手段と、特定方向以外に存在する観客音を検出する観客音検出手段と、予め複数の観客音を記録している観客音データベースと
観客音検出手段結果を前記観客音データベースと照合し前記観客音データベースから観客音を選択する観客音選択手段と、前記指向性制御手段結果の音声信号と前記観客音を合成する観客音合成手段を有することを特徴とする音声信号処理システム。
本発明によれば、複数の録音装置で録音を行い、各音声信号を合成することで特定方向に指向性を持たせた場合でも、会場内の観客音を高品質かつ臨場感のある音声として再現することができる。
音声信号処理システムのブロック図 撮影装置のブロック図 複数の撮影装置による会場での撮影を表した模式図 撮影装置の撮影動作を示すフローチャート 音声信号処理動作を示すフローチャート 指向性音声処理動作を示すサブルーチンのフローチャート 複数の撮影装置が取得した音声信号の模式図 指向性音声の模式図
以下に、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。
[実施例1]
以下、図1から図8を参照して、本発明の第1の実施例による、音声信号処理システムについて説明する。
図1は音声信号処理システムを示すブロック図である。100は録音装置を有する撮影装置を示しており、各撮影装置には撮影した動画情報を送信する通信手段を有している。各撮影装置は様々なユーザーが所有するビデオカメラにあたり、それぞれの機種や機能が異なっていても良い。また、撮影装置100は100a,b,cの3つしか記述していが、さらに複数台あってもよいし、1台又は2台でもよい。クラウドシステム200は、撮影装置100からの動画情報を撮影装置信号受信部202で受信する。
動画情報の画像信号については画像信号処理部212で処理されるが、本実施例は主に音声信号に関する技術であるため詳細については省略する。音声信号については音声処理制御部201により制御される。音声処理系は観客音検出部204、観客音選択部205、観客音データベース206、会場音響特性検索部207、音響特性制御部208、音声合成部209から構成され、音声処理制御部201により制御される。音声処理制御部201及び画像処理部210で処理された動画情報はクラウド記録部211に記録される。動画情報はユーザー通信部203からユーザー端末300に送信され、再生装置302で動画が再生される。また、ユーザー通信部203はユーザー指示部301からのユーザーの要求指示を受信し音声信号処理部201及び画像処理部212に指示を伝送する。
図2は音声処理システム200に動画情報を送信する撮影装置100であるデジタルビデオカメラを示すブロック図である。撮影装置100は撮影装置制御部101により制御されている。撮影者により操作部109から不図示の録画ボタンが押されると録画が開始される。とまず光学系102を介して撮像部103の撮像面に結像した光学像が撮影画像処理部104により画像情報として出力される。光学系103である撮影レンズは不図示のフォーカスレンズ駆動部、ズームレンズ駆動部、ブレ補正駆動部、絞り駆動部などを有し、撮影装置制御部101により撮影環境及び撮影者の操作に応じて光学系が制御される。
一方、音声取得部105では撮影時の音声が取得される。取得された音声は音声処理部106により音声信号に変換され、ゲイン調整、LPF処理、HPF処理等の音声処理が施され出力される。撮像画像処理部104及び音声処理部106の出力は撮影装置記録部107に同期して記録される。表示部108には録画中の画像、撮影装置記録部107に記録された画像の再生、撮影装置100の設定メニュー等が表示される。また、撮影装置100は位置情報取得部111であるGPSを有しており、撮影装置100の現在の位置を取得することができ、動画情報に撮影時の位置情報を付随して記録する。
また、動画情報には不図示の内部タイマーによって撮影時の撮影時間情報が付随し記録される。そして、撮影装置通信部110は画像情報、音声情報、位置情報、及び撮影時間情報を含む動画情報を外部の装置に対して送信することができる。
次に、図3〜5を参照して実際の撮影動作及び音声信号処理システムの動作について述べる。図3は撮影の様子を模式的にあらわしたものであり、音楽会や学芸会などの屋内会場で行われるイベントを示している。会場10は主に舞台11と客席12で構成されている。図3では舞台11上に主被写体13が存在する。客席12から、撮影者は撮影装置100により主被写体13を撮影する。100a、b、cは客席12の様々な位置から撮影する様子を示している。
図4は撮影装置100の撮影動作を示すフローチャートである。撮影が開始されるとステップS1001において動画情報である画像情報及び音声情報が撮影装置記録部107に記録される。その際、位置情報及び時間情報も同時に記録される。ステップS1002において、操作部109から撮影終了の指示がなされると撮影を終了する。撮影終了の指示をされるまでステップS1001に戻って動画記録が続けられる。ステップS1003において、記録された動画情報が撮影装置通信部110を介しクラウドシステム200に対し送信され撮影動作を終了する。クラウドシステム200側では、受信した動画情報を一旦システム記録部211に記録する。同様に、同じ会場で同時期に他の撮影装置100で撮影された動画情報も、クラウドシステム200に送信されている。
次に図5のフローチャートを用いてクラウドシステム200での音声信号処理の動作を説明する。ステップS1101においてユーザー端末300のユーザー指示部301よりユーザーからの会場音声のリクエストの指示を受ける。ユーザー指示部301の指示はクラウドシステ200のユーザー通信部203を介し音声制御部201に伝わる。
ステップS1102では、クラウドシステム200上のクラウド記録部1102に、同じ会場で同時期に撮影された動画情報が複数あるかを判断する。例えば、会場10で撮影動作を行う撮影装置100が一台しかなかった場合は、システム記録部211には動画情報が一つしか記録されていない為ステップS1112に進む。そして、ステップS1112では読込んだ音声信号に対し合成などの音声信号処理を特に行わず、そのままの音声信号をユーザー通信部203に出力しステップS1111システムに進む。クラウド記録部211に複数の撮影装置100で撮影された動画情報があればステップS1103に進む。ステップS1103ではクラウド記録部211より複数の動画情報を読込む。
次に、ステップS1104ではステップS1103読込んだ動画情報の複数の音声信号を合成処理することで、主被写体方向に指向性をもつ指向性音声を作成する。指向性音声の作成の詳細については後ほど述べる。
次に、ステップS1105では観客音検出部204において指向性音声前の元の音声信号に観客音が含まれているかを検出される。検出の手法としては、一定時間の音声信号に対しスペクトル解析を行い、拍手音や笑い声、歓声等の予め用意された音声のスペクトルと比較を行い、類似性が見られた場合は観客音として判断することが挙げられる。また、誤検出を避けるために、1つの撮影装置100で取得された音声信号だけでなく、その他の複数の撮影装置で取得された音声信号から観客音が検出された時のみ、観客音が実際に含まれていると判断することが考えられる。
また、複数の撮影装置100の仕様が異なる場合は、仕様が最も高機能な撮影装置を選択して、その音声信号のみを観客音検出に用いても良い。例えば、サンプリングレートが各撮影装置100で異なる場合は、最もサンプリングレートが高い撮影装置の音声信号を用いる。
ステップS1105において観客音が検出されない場合は、ステップS1113に進み、ステップS1104で作成した指向性音声をそのままユーザー通信部203に出力し、ステップS1111に進む。一方、観客音が検出された場合は観客音が発生している時間を抽出しステップS1106に進む。
ステップS1106では、観客音選択部205によって、ステップS1105で検出された観客音に対応する音声を観客音データベース206から選択する。観客音データベース206には例えば、拍手音、笑い声、歓声などを再現した音声信号が予め用意されている。ステップS1106で観客音データベース206から選択された選択観客音信号は、観客音検出部204で抽出された観客音の時間長に調整され、音響特性制御部208に出力される。
一方、ステップS1107では、会場音響特性検索部207により観客音を撮影会場の音響特性に変換するための音響特性が検索される。まず、動画情報に付随した撮影時の撮影装置100の位置情報から、撮影が行われた会場を特定する。そして、撮影会場の構造、広さに基づき、撮影会場での反響などを含む音響特性を推定し取得する。ここで述べる音響特性とは、入力音声信号に対しエコーなどの音声の変化を再現するデジタルフィルタのことを指す。また、撮影会場の構造、広さから音響特性を推定すると前述したが、予め様々な会場の音響特性が記録されている会場音響データベースが存在するならば、特定した会場の音響特性を会場音響データベースから取得しても良い。
次にステップS1108では、音響特性制御部208において観客音選択部205からの選択観客音に対しステップS1107で取得した会場音響特性を用いて変換される。具体的には、選択観客音信号に対し会場音響特性検索部207から得られたデジタルフィルタを掛ける。その結果、撮影された会場の音響特性を考慮した臨場感のある観客音が作成される。
次にステップS1109では指向性制御部203で作成された指向性音声信号の観客音が検出された時間範囲に、音響特性制御部208の変換観客音信号が合成され、ステップ1110で合成音声がユーザー通信部203に出力される。
ステップS1111では、ユーザー通信部を介し出力された音声信号とそれに同期した映像信号をユーザー端末300に対し送信しフローを終了する。
ユーザー端末300側では、受信した動画情報を再生装置302で再生し、ユーザーに提供する。
次に、図6を用いてステップS1104の指向性音声の作成について詳細を述べる。図6はステップS1104のサブルーチン内を示したフローチャートである。フローが開始すると、ステップS1201では読込んだ各動画情報内の時間情報に基づいて相関値を算出する区間を規定する。録画が行われている同時刻の音声信号の一定時間を相関値算出区間と規定される。音速は約340m/secなので会場の広さを考慮して、お互いの撮影装置100の音声信号の遅延量を最大0.5sec程度と想定すると、相関値算出区間は2sec程度の音声信号があればよい。
また、相関値算出区間は主被写体音が主に入っている時間である必要があるので、観客音検出部204で観客音が検出されなかった音声信号区間とする。図7は撮影装置100a、b、cの同時刻に撮影したそれぞれの音声信号を模式的にあらわしたものであり、図7(a)、(b)、(c)はそれぞれ撮影装置100a、b、cの音声信号に対応している。
横軸に時間を、縦軸に音声信号レベルを示している。401は主被写体音声であり、主被写体と各撮影装置が異なる距離にある為、それぞれ遅延が生じ、さらに音声レベルも異なる。403は観客席からの拍手音の区間であり、それぞれの図で大きさのレベルは異なるがほぼ同じタイミングで取得されている。撮影装置100aの主被写体音区間401の一定区間402aを相関値算出区間と規定する。相関値算出区間402b及び402cは402aと同時刻である。
ステップS1202では、相関値算出区間の各音声信号により撮影装置お互いの距離と主被写体からの各遅延量を高精度に検出する。相関値による遅延量の算出方法は、参考文献1に示されているので詳細については省略する。取得した音声信号すべての区間について相関値を算出することは計算負荷が大きい為、ステップS1201において短時間の相関値算出区間402を規定し相関値を算出することで演算量の低減を図っている。
図7では相関値算出区間を一箇所しか示していないが、主被写体や撮影者が移動することを考慮して、一定時間ごとに相関値算出を行い、遅延量の再算出をしても良い。その場合、前述と同様に相関値算出区間は観客音検出204の結果より、観客音が検出されていない区間に設定することが必要である。
ステップS1203では、ステップS1202で算出した遅延量に基づき各撮影装置の音声信号を合成し、指向性音声を作成する。図8は作成された指向性音声信号の模式図である。主被写体音からの遅延量を考慮して合成することで合成後被写体音404は、合成前のそれぞれ図8(a)、(b)、(c)の被写体音に比べて音声レベルが大きくなっている。
また、合成後拍手音405は、それぞれの音声信号合成時に打ち消し合い音声レベルが小さくなっている。ステップS1203で指向性音声が作成されるとフローを終了する。
以上説明したように、本発明では複数の録音装置で録音を行い、各音声信号を合成することで特定方向に指向性を持たせる音声信号処理システムにおいて、会場内の観客音を検出し、予め用意した観客音を合成することを特徴としている。指向性を持たせたことにより打ち消されてしまっている観客音を、会場の音響特性を考慮して合成することにより、高品質かつ臨場感のある音声を提供することができる。
100.撮影装置
101.撮影装置制御部
105.音声取得部
107.撮影装置記録部
110.撮影装置通信部
111.位置情報取得部
200.クラウドシステム
201.音声処理制御部
202.撮影装置信号受信部
204.観客音検出部
207.会場音声特性検索部
208.音響特性制御部
209.音声合成部
210.指向性制御部
300.ユーザー端末

Claims (12)

  1. 少なくとも二つ以上である複数の音声取得手段と
    前記音声取得手段の複数の音声信号を合成して特定方向に指向性を制御する指向性制御手段と
    特定方向以外に存在する観客音を検出する観客音検出手段と
    予め複数の観客音を記録している観客音データベースと
    観客音検出手段結果を前記観客音データベースと照合し前記観客音データベースから観客音を選択する観客音選択手段
    前記指向性制御手段結果の音声信号と前記観客音を合成する観客音合成手段
    を有することを特徴とする音声信号処理システム。
  2. 撮影会場の反響の音響特性情報により前記観客音を制御する音響特性制御手段
    を有することを特徴とする請求項1に記載の音声信号処理システム。
  3. 撮影時の位置情報を取得する位置情報取得手段と
    前記位置情報取得手段結果より音響特性を推定する音響特性検索手段
    を有することを特徴とする請求項2に記載の音声信号処理システム。
  4. 前記音響特性検索手段が前記位置情報よりネットワーク上から会場の音響特性情報を検索し取得することを特徴とする請求項3に記載の音声信号処理システム。
  5. 前記音響特性検索手段が前記位置情報よりネットワーク上から会場の構造情報を検索しし取得された構造情報から音響特性情報を推定し取得することを特徴とする請求項3に記載の音声信号処理システム
  6. 前記観客音検出手段が音声信号のスペクトル分析手段を有し
    前記スペクトル分析結果に基づき観客音を検出することを特徴とする請求項1乃至請求項5の何れか1項に記載の音声信号処理システム。
  7. 前記観客音検出手段が観客音を判断する際に複数の音声信号から観客音が検出された時のみ観客音が含まれると判断することを特徴とする請求項1乃至請求項6の何れか1項に記載の音声信号処理システム。
  8. 前記観客音検出手段が前記音声取得手段のサンプリングレートが各音声手段で異なる場合最もサンプリングレートが大きい音声取得手段の音声信号を用いて観客音を検出することを特徴とする請求項1乃至請求項7の何れか1項に記載の音声信号処理システム。
  9. 少なくとも2つ以上である複数の撮影装置が前記音声取得手段をそれぞれ1つずつ有することを特徴とする請求項1乃至請求項8の何れか1項に記載の音声信号処理システム。
  10. ・音声取得手段と
    ・位置情報取得手段と
    ・音声信号と位置情報を送信する送信手段と
    で構成される少なくとも2つ以上である複数の録音装置と、
    ・前記送信手段からの情報を受信する受信手段と、
    ・複数の音声信号を合成して特定方向に指向性を制御する指向性制御手段と
    ・特定方向以外に存在する観客音を検出する観客音検出手段と
    ・予め複数の観客音を記録している観客音データベースと
    ・観客音検出手段結果を前記観客音データベースと照合し前記観客音データベースから観客音を選択する観客音選択手段
    ・前記指向性制御手段結果の音声信号と前記観客音を合成する観客音合成手段
    で構成されるクラウドシステムと
    を有することを特徴とする音声信号処理システム。
  11. 撮影会場の反響の音響特性情報により前記観客音を制御する音響特性制御手段を有することを特徴とする請求項10に記載の音声信号処理システム。
  12. 少なくとも2つ以上である複数の撮影装置が前記音声取得手段をそれぞれ1つずつ有することを特徴とする請求項10又は請求項11に記載の音声信号処理システム。
JP2013236745A 2013-11-15 2013-11-15 音声信号処理システム Pending JP2015097318A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013236745A JP2015097318A (ja) 2013-11-15 2013-11-15 音声信号処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013236745A JP2015097318A (ja) 2013-11-15 2013-11-15 音声信号処理システム

Publications (1)

Publication Number Publication Date
JP2015097318A true JP2015097318A (ja) 2015-05-21

Family

ID=53374434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013236745A Pending JP2015097318A (ja) 2013-11-15 2013-11-15 音声信号処理システム

Country Status (1)

Country Link
JP (1) JP2015097318A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022163137A1 (ja) * 2021-01-27 2022-08-04 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022163137A1 (ja) * 2021-01-27 2022-08-04 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP6289121B2 (ja) 音響信号処理装置、動画撮影装置およびそれらの制御方法
JP6882057B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
JP2009156888A (ja) 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP7428763B2 (ja) 情報取得システム
JP2012100216A (ja) カメラおよび動画撮影プログラム
JP4638183B2 (ja) 複数のカメラ出力の編集装置及びその編集方法
JP5155092B2 (ja) カメラ、再生装置、および再生方法
JP2008193561A (ja) 画像同期システム及び画像同期方法
JP2009065587A (ja) 音声記録装置及び音声再生装置
JP2010528546A (ja) パノラマ式音像の生成及び再生方法並びにパノラマ式音像の再生装置
JP5538918B2 (ja) 音声信号処理装置、音声信号処理システム
JP2008048374A (ja) ビデオカメラ装置
JP2007089186A (ja) 動画撮影機能付き移動通信端末機及びその動作方法
JP2015097318A (ja) 音声信号処理システム
JP6835205B2 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
KR101391942B1 (ko) 오디오 스티어링 동영상 시스템 및 그 제공방법
JP2005277845A (ja) 撮影制御装置
JP6582024B2 (ja) ショーのための情報支援システム
JP7111202B2 (ja) 収音制御システム及び収音制御システムの制御方法
JP2011130134A (ja) 撮像装置、撮像システム
WO2013045533A1 (en) Multimodal mobile video telephony
JP2011215221A (ja) カラオケ歌唱者映像及び歌唱音声記録システム
JP2012165219A (ja) 撮像装置
JP2011215222A (ja) カラオケ歌唱者映像及び歌唱音声記録システム