JP2015097317A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2015097317A
JP2015097317A JP2013236744A JP2013236744A JP2015097317A JP 2015097317 A JP2015097317 A JP 2015097317A JP 2013236744 A JP2013236744 A JP 2013236744A JP 2013236744 A JP2013236744 A JP 2013236744A JP 2015097317 A JP2015097317 A JP 2015097317A
Authority
JP
Japan
Prior art keywords
camera
processing apparatus
sound
state
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013236744A
Other languages
English (en)
Inventor
光洋 泉
Mitsuhiro Izumi
光洋 泉
晃一 鷲巣
Koichi Washisu
晃一 鷲巣
木村 正史
Masashi Kimura
正史 木村
文裕 梶村
Fumihiro Kajimura
文裕 梶村
山本 泰史
Yasushi Yamamoto
泰史 山本
宮脇 誠
Makoto Miyawaki
宮脇  誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013236744A priority Critical patent/JP2015097317A/ja
Publication of JP2015097317A publication Critical patent/JP2015097317A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】指向性マイクロホンなどを使わずに、安価な構成で、高音質な音声を得る。
【解決手段】他のカメラの状態情報を入手し、その状態から録音に使用するカメラを選択する。録音した複数の音声の遅延量を調整して合成することを特徴とする。
【選択図】図1

Description

本発明は、音声を記録する音声処理装置に関する。
子供の学芸会の会場などでビデオ撮影する場面などにおいては、自席からの撮影となり、撮影場所を自由に選ぶことができない場合が多い。ステージから遠い席での撮影となった場合には、映像に関してはズーム機能を使用することで自分の子供など特定の人物を注視することができる。しかし音声に関しては、周囲の話し声などの雑音を拾ってしまい、ステージからの音声をきれいに取得することが難しい。従来より、指向性マイクロホンを備えたカメラが知られている。また、1台のカメラだけによらず、位置が特定されていない複数のマイクによる音声信号を合成することで、被写体の音声を際立たせる技術が提案されている(特許文献1)。
特開2009−141560号公報
しかし、指向性マイクロホンを搭載するとなると、構成が複雑となり高価なカメラとなってしまう。また、特許文献1では、複数のマイクによる音声が確実に存在している状態を想定しているが、実際の学芸会の会場などにおいては、すべてのカメラが同時に撮影をしているとは限らない。本発明は、安価な構成で、高音質な音声を得ることを目的とする。
上記の課題を解決するために、本発明では他のカメラの状態情報を入手し、その状態から録音に使用するカメラを選択する。他のカメラで録音した複数の音声の遅延量を調整して合成する。
本発明によれば、他のカメラの状態情報からカメラを選択して音声データを合成することで、安価な構成で周囲の雑音を低減した高音質な音声を得ることが可能となった。
撮影装置のブロック図 第1の実施例の動作を示すフローチャート 撮影装置の状態情報を説明する図 撮影装置の選択の動作を示すフローチャート 第1の実施例の撮影状況の例を示す図 音声の合成処理の詳細を説明する図 遅延処理を実施した波形の例を示す図 第2の実施例の撮影状況の例を示す図 第2の実施例の動作を示すフローチャート
以下は、本発明の実施形態を添付の図面に基づいて説明する。ただし本発明はこれらの実施例に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
[実施例1]
以下、図1から図7を参照して、本発明の第1の実施例による音声入力装置について説明する。
(構成)
本発明の第1の実施例における構成について図1を用いて詳細に説明する。図1は、本実施例における音声入力装置を搭載した撮影装置の電気的な構成を示すブロック図である。撮影装置であるカメラ1には、不図示のレンズを通過した光束を受光し光電変換を行う撮像素子を含む撮像手段である撮像部5、周囲の音声を収集する音声入力手段であるマイク2が含まれている。撮影した静止画や動画は、システム制御部4にて、適切な画像処理や音声処理が施された後に、メモリーカードなどで構成される記録部8に記録される。また撮影後に画像の確認を行うことができる液晶ディスプレイや音声を再生できるスピーカーなどで構成される表示部7を有し、記録部8に記録済みの静止画や動画を呼び出して表示部7で再生することが可能である。
カメラ1はNiCd電池やNiMH電池、Li電池等の2次電池や外部バッテリやACアダプタなどにより構成される電源部9から電源の供給を受けている。また撮影データやカメラの状態データなど符号化して周囲の撮影装置やネットワークと通信することが可能な通信部6を備えている。
(撮影の手順)
ステップS21は、周囲の撮影装置に対して、状態情報の送信を指示するステップである。ここでいう周囲の撮影装置とは、同じ会場などで撮影しようとしており、同様の音声が収集できる他の撮影装置のことを指している。カメラ1の通信部6を通じて直接無線通信を行ってもよいし、携帯電話等を介し通信してもよい。また状態情報について図3を用いて説明する。状態情報とは個々の撮影装置がどのような状態にあるかを把握するための情報であり、例えば図3のような項目が挙げられる。まず撮影装置の撮影状態とは、その撮影装置がスタンバイ中であるのか、静止画を撮影するモードになっているのか、もしくは動画を撮影中であるかなどの情報である。
音声入力レベルとは、ある一定期間の間にマイクにされる音声の生信号から音声の絶対レベルを判定するものである。具体的な方法としては、S21の送信指示をトリガにして、数秒間などの一定期間の音声を周囲の撮影装置でほぼ同時に収集し、マイク入力された生信号の絶対レベルを測定するなどの方法が考えられる。同じ会場内において音声の絶対レベルを比較することで、主音源となる舞台からの音声を比較し主音源に近いか遠いかを判断することも可能である。また音声の周波数特性を考慮に入れることで、雑音の影響を受けにくい処理とすることも可能である。次にバッテリの状態は、バッテリの残量状態などを表すものである。撮影装置の振動状態とは、例えば手ブレ補正機能などを搭載した撮影装置では、ジャイロなどの振動計を搭載していることが多い。
そのようなセンサにより撮影装置の振動状態を測定する。その結果から振動が極端に小さい場合には三脚に固定されている可能性があるなどの判断も可能である。また振動が大きい場合には移動中である可能性も高い。次のステップS22では、上記のような状態情報を、状態受信手段を有するシステム制御部4にて、周囲の撮影装置から受信する。ステップS23では、上記の状態情報を元に同時に音声を収集する撮影装置の選択を行うステップである。ここでは後に複数の音声を合成することを想定し、状態に応じて必要な台数分の撮影装置を選択することになる。カメラ選択手段を有するシステム制御部4にて実行されるが、詳細は後述する。
ステップS24では、収音指示手段を有するシステム制御部4が、ステップS23で選択した撮影装置に対して通信部6を通じて音声の収集を指示する。ステップS25で動画撮影を開始する。ここまでで、動画の撮影において、複数の所要の台数の音声を同時に収集しながら、動画の撮影ができていることになる。ステップ26で撮影を終了すると、S24で収音を指示した撮影装置に対して、撮影の終了を通知する。次のステップS27では、収音を指示した撮影装置から音声データ受信手段を有するシステム制御部4にて、記録された音声データを受信する。撮影装置によっては、まだ撮影中であるなど処理の負荷が高いと音声データを送信できないタイミングであることもありうる。
その場合には、負荷が低減し処理が再開できる状態まで待ってから音声データを送信することも可能である。ステップS24で収音を指示した撮影装置からの音声データの受信をすべて完了するとステップS28へ進む。ステップS28では、収集した複数の音声データの遅延量などを適切に処理した上で合成を行いカメラ1で撮影した映像と合わせて動画とする。ステップS28は、音声合成手段を有するシステム制御部4にて実行されるが、詳細な処理は後述する。
図4、5を用いて撮影装置の選択のフローチャートの詳細を説明する。ステップS41では、音声を合成するに当たって必要な撮影装置の台数を決定する。比較的雑音の少ない場所での撮影であれば、処理負荷を低減するために少ない台数とすることもありうる。また雑音が多い場合や、主音源から遠く離れていて十分な音声入力レベルが確保できない場合には台数を増やして、より音質の向上を狙うことも可能である。次にステップS42からは具体的に撮影装置の選択を行う。S42では、図2のステップS22で受信した状態情報を元に撮影装置の選択を行うが、まず既に動画撮影を開始している条件で撮影装置を選ぶ。
さらに追加条件として音声入力レベルが高い撮影装置があれば、それらを選択することとする。S42では上記2つの条件を元に撮影装置を選択する。これは既に撮影中の撮影装置であれば、同時に音声を取得中であることを意味するので、改めて収音の動作を追加する必要がないため選択しやすいという点が挙げられる。また、ここでいう音声入力レベルの高低に関しては、レベルの絶対値を評価して、所定値以上とすることも可能であるし、自分の入力レベルに対する相対的に高い撮影装置とすることも可能である。いずれにしても音声入力レベルが高いということはより主音源の音声を高音質で捉える可能性高まると考えられる。
図5では、撮影のために各カメラはステージ51方向へ向いているはずであるが、カメラであることを明示するために、便宜上ステージとは反対を向いて描いている。図5において、自分の撮影装置がカメラ1であるとすると、撮影装置52は、ステージ51に近いところに位置している。このような場合には、撮影装置52の方がカメラ1よりステージ51からの主音声を収集しやすいと考えられる。
つまり音声入力レベルが高くなる可能性が高い。ステップS43では、ステップS42までで必要な撮影装置の台数を確保できたかどうかを判定する。十分な台数が確保できていれば、撮影装置の選択のフローチャートは終了する。逆に台数が確保できていなければ、次のステップS44へ進む。ステップS44では、最初に音声入力レベルが高いことを条件に撮影装置を選ぶ、さらなる追加条件として、バッテリの残量が十分に残っていることと振動が少ないことを条件としている。ステップS44の条件としては、音声入力レベルが十分に高いが、現在は動画撮影をしていない撮影装置が対象となる。したがって、収音を指示するにあたっては、追加の動作となるためバッテリの残量が十分である必要がある。また、振動レベルが小さいと三脚に固定されており、撮影の準備が済んでいる可能性が高い。
図5において、撮影装置53にように三脚に固定されていると、安定して音声を収集することが期待できる。ステップS45では、ステップS44までで必要な撮影装置の台数を確保できたかどうかを判定する。十分な台数が確保できていれば、撮影装置の選択のフローチャートは終了する。逆に台数が確保できていなければ、次のステップS46へ進む。ステップS46では、既に動画撮影中であることを条件に撮影装置を選択する。改めて収音の動作を追加する必要がないため選択しやすいというものである。ステップS47では、ステップS46までで必要な撮影装置の台数を確保できたかどうかを判定する。十分な台数が確保できていれば、撮影装置の選択のフローチャートは終了する。
逆に台数が確保できていなければ、次のステップS48へ進む。ステップS48では、バッテリの残量が十分に残っていることと振動が少ないことを条件として撮影装置を選択する。本実施例においては、ステップS48までで十分な撮影装置の台数が選択できてなかった場合でも撮影装置の選択を終了する。その他の変形例として、音声入力レベル、バッテリ残量、振動量などを複数のレベルで判定しさまざまなステップを設けることも可能である。撮影装置の選択に際しては、音声を合成するにあたり、音質の改善に有利な条件の撮影装置を選択することを主旨としている。その主旨に沿っていれば、具体的な選択条件は様々な設定が可能である。
次に図6、7を用いて、音声の合成をする処理の詳細について説明する。図6には、音声データの流れが示してある。各音声データ61−0〜nは、遅延器62−0〜nを通過した後に、加算器63−1〜nですべての音声が加算されて最終的な合成音声66として出力される。ここで、61−0はマイク2で収集した音声データであり、61−1〜nは、他端末から受信した音声データである。上記合成処理と同時に各音声データは相関計算器64−1〜nに入力される。
図7には、音声データの相関計算処理の一例を示す。図7(a)は処理前の状態を示している。71がマイク2により収集した音声データであり、72aは他端末で収集した音声データである。処理前の状態では、音声の発生タイミングがΔTだけ異なっていることが分かる。音声データ71を基準として、音声データ72を少しずつ時間方向にずらして両者の相関計算を行う。その結果、もっとも相関が高まった状態が図7(b)で示した状態となる。音声データ72bは、音声データ72aをΔTだけずらした状態である。このことから、相関計算器64から遅延量ΔTが出力されることとなる。同様に音声データ61−1〜nを処理することで、すべての音声データの遅延量を求めることができ、各音声データごとの遅延量を遅延量調整器65へ入力する。
遅延量調整器65は、各遅延器62−0〜nに対して、遅延量の調整を行う。一連の処理を繰り返し行うことで、各音声データ間でお互いの相関が高まるように遅延量が調整された音声データ同志を合成することができる。合成音声66は、異なる場所で収音された音声データを合成しているため、単一のマイクに入力される雑音の影響などを低減することが可能である。
以上のように、本実施例においては、自分自身のマイクによる音声のみならず、他のカメラの音声を遅延調整して合成することで、周囲の雑音の影響等を低減し、より高音質な音声信号を得ることが可能である。また他のカメラの状態に応じて音声の合成に使用するカメラを選択することで、より音質が高く、安定した音声データを得ることが可能となった。
[実施例2]
図8、9を用いて、本発明の第2の実施例による音声処理装置について説明する。撮影装置の構成については、第1の実施例と同様なので説明を割愛する。
図8は、撮影状況を表す図である。81は各撮影装置と通信可能なネットワークを示す。撮影装置1は、通信83のように双方向に通信を行うことができる。端末82は、自宅のパーソナルコンピュータなどのネットワーク81と通信可能な端末であり、ネットワーク81から撮影した動画や合成した音声などを通信することができる。
図9は第2の実施例におけるフローチャートを示している。ここでは第1の実施例におけるフローチャートである図2と重複する部分が多いので、図2と動作が異なる部分だけを説明する。ステップS91では、ネットワーク81が各撮影装置に対して、状態情報の送信を指示するステップである。ここでいる各撮影装置とは、同じ会場などで撮影しようとしており、同様の音声を収集できる環境にある撮影装置を指している。予め登録しておいた撮影装置としてもよいし、GPS情報などを用いて対象となる撮影装置を決定することも可能である。次にステップS92では、ネットワーク81が各撮影装置から状態情報を受信する。
ステップS93では、上記の受信した状態情報を元に同時に音声を収集する撮影装置をネットワーク81が選択するステップである。撮影装置の選択の詳細に関しては、図4と同様であるので説明を割愛する。ステップS94では、撮影装置の選択で選ばれた撮影装置に対して、ネットワーク81が収音の指示を行う。ここまでで撮影の準備が完了している。次のステップS25、S26はカメラ1の動作で第1の実施例と同様であるので説明を割愛する。ステップS97においては、ステップS94へ収音を指示した撮影装置から、ネットワーク81が音声データを受信するステップである。ステップS98では、受信した各音声データを合成するステップである。処理はネットワーク81上で行われるが、処理内容は第1の実施例と同様であるので説明を割愛する。
以上のように、ネットワーク上で集中処理することにより、各撮影装置は音声合成などの特殊な処理を行う必要がなく、安価な構成で、高音質な音声を得ることが可能となった。
1 ・・・カメラ
2 ・・・マイク
4 ・・・システム制御部
5 ・・・撮像部
6 ・・・通信部
81 ・・・ネットワーク

Claims (11)

  1. 映像を取得する撮像手段、
    音声を取得する音声入力手段、
    他のカメラの状態を受信する状態受信手段、
    前記状態に基づいて1つ以上のカメラを選択するカメラ選択手段、
    前記カメラ選択手段により選択したカメラから音声データを受信する音声データ受信手段、
    前記1つ以上の音声データと自ら取得した音声データ間で遅延量を調整して合成する音声合成手段
    とで構成される音声処理装置。
  2. 前記カメラ選択手段により選択したカメラに対して収音を指示する収音指示手段を有することを特徴とする請求項1に記載の音声処理装置。
  3. 前記1つ以上の音声データと自ら取得した音声データ間の相関値に基づいて遅延量を算出することを特徴とする請求項1に記載の音声処理装置。
  4. 前記他のカメラの状態として、撮影中かどうかを含むことを特徴とする請求項1に記載の音声処理装置。
  5. 前記他のカメラの状態として、入力音声のレベルを含むことを特徴とする請求項1に記載の音声処理装置。
  6. 前記他のカメラの状態として、バッテリーの残量を含むことを特徴とする請求項1に記載の音声処理装置。
  7. 前記他のカメラの状態として、カメラの振動状態を含むことを特徴とする請求項1に記載の音声処理装置。
  8. 前記収音指示手段により収音を指示されたカメラは、映像の取得を終了しても、音声の取得は継続することを特徴とする請求項2に記載の音声処理装置。
  9. 前記収音指示手段により収音を指示されたカメラは、指示されたことをユーザに対して表示する表示手段を有することを特徴とする請求項2に記載の音声処理装置。
  10. 前記カメラ選択手段をネットワーク上に有することを特徴とする音声処理装置。
  11. 前記音声合成手段をネットワーク上に有することを特徴とする音声処理装置。
JP2013236744A 2013-11-15 2013-11-15 音声処理装置 Pending JP2015097317A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013236744A JP2015097317A (ja) 2013-11-15 2013-11-15 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013236744A JP2015097317A (ja) 2013-11-15 2013-11-15 音声処理装置

Publications (1)

Publication Number Publication Date
JP2015097317A true JP2015097317A (ja) 2015-05-21

Family

ID=53374433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013236744A Pending JP2015097317A (ja) 2013-11-15 2013-11-15 音声処理装置

Country Status (1)

Country Link
JP (1) JP2015097317A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020072311A (ja) * 2018-10-29 2020-05-07 オリンパス株式会社 情報取得装置、情報取得方法、情報取得プログラム及び情報取得システム
WO2023068904A1 (ko) * 2021-10-22 2023-04-27 삼성전자 주식회사 전자 장치 및 전자 장치의 동작 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020072311A (ja) * 2018-10-29 2020-05-07 オリンパス株式会社 情報取得装置、情報取得方法、情報取得プログラム及び情報取得システム
JP7219049B2 (ja) 2018-10-29 2023-02-07 Omデジタルソリューションズ株式会社 情報取得装置及び情報取得方法
WO2023068904A1 (ko) * 2021-10-22 2023-04-27 삼성전자 주식회사 전자 장치 및 전자 장치의 동작 방법

Similar Documents

Publication Publication Date Title
US9007464B2 (en) Photographing apparatus, photographing system, photographing method, and program stored in non-transitory medium in photographing apparatus
US10349010B2 (en) Imaging apparatus, electronic device and imaging system
JP2005010627A (ja) 撮影モードの設定情報転送システム、撮像装置、撮影モードの設定情報転送システム用情報処理装置及びプログラム
JP5838852B2 (ja) 撮像システム、撮像装置、撮像方法及びプログラム
CN105916097A (zh) 信息终端装置、信息取得装置和信息援助方法
JP2010171625A (ja) 撮像装置、録音装置、および動画撮影システム
JP2022184863A (ja) 情報取得システム及び情報取得システムの制御方法
JP7110406B2 (ja) 撮像装置、撮像方法、及びプログラム
CN111800581B (zh) 图像生成方法、图像生成装置、存储介质与电子设备
US10397462B2 (en) Imaging control apparatus and imaging apparatus for synchronous shooting
JP2015097317A (ja) 音声処理装置
JP2005073077A (ja) 固体撮像装置
JP2017005322A (ja) ウェアラブル端末を利用したカメラ撮影のレポート機能
KR100629442B1 (ko) 카메라를 장착한 다수의 이동통신 단말기를 이용한 와이드화상 촬영 방법 및 장치
JP2013187826A (ja) 撮像装置、撮像システム、及び撮像方法
JP4562789B2 (ja) 撮影システム
JP2020136865A (ja) 電子機器、その制御方法、およびそのプログラム
JP5359797B2 (ja) 撮像素子一体型交換レンズ式のカメラシステムとその動画生成方法
JP5332497B2 (ja) 撮像装置及び画像転送方法
JP2011130134A (ja) 撮像装置、撮像システム
KR20080091952A (ko) 플로우 모션 영상 촬영 방법 및 시스템
JP2005080117A (ja) 撮像装置
JP2007323516A (ja) 撮像装置及び撮像システム
JP2020092381A (ja) 音声取得装置、音声取得方法及び音声取得プログラム
JP5676714B2 (ja) ネットワークシステム、携帯端末の制御方法、プログラム及び携帯端末