JP2023035599A

JP2023035599A - 撮像装置、制御方法、およびプログラム

Info

Publication number: JP2023035599A
Application number: JP2021142588A
Authority: JP
Inventors: 規久夫風間; Kikuo Kazama
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2023-03-13

Abstract

【課題】被写体の状態が変化した場合にも、被写体からの音声の音量変化を抑制して録音できる技術を提供する。【解決手段】本発明の撮像装置は、被写体を撮像する撮像手段と、外部マイクと接続する接続手段と、前記撮像手段によって撮像された画角内における前記被写体の所定のパーツの向きに基づいて、前記外部マイクから入力された第１の音声信号のゲインを調整する調整手段とを有することを特徴とする。【選択図】図２

Description

本発明は、外部マイクと接続可能な撮像装置に関するものである。

映像コンテンツの作成において、撮影時に、複数のマイク（マイクロフォン）を用いて主被写体の音声と、その周囲の環境音とを録音し、撮影後に、撮影画像に合うよう（例えば撮影現場の臨場感が表現されるよう）各種音声を調整することがある。しかし、音声を調整する作業は複雑で時間がかかってしまう。

特許文献１には、複数のマイクを内蔵するカメラが、無線マイクの音声信号と合成するマイクを決定し、無線マイクがある音源までの距離および方向に基づいて音声信号の合成音量を調整する技術が開示されている。

特開２００６－３１４０７８号公報

被写体からの音声は、被写体の状態（顔の向き、体の向きなど）が変わることで、カメラの内蔵マイクおよび無線マイクに入る音量が変化してしまう場合がある。そして、被写体までの距離および方向に基づいて合成音量を調整しても、被写体の状態の変化による音量の変化は調整されない。しかし、被写体からの音声は、被写体の顔の向きなどによらずに、一定音量で録音されることが望ましい。

本発明は、被写体の状態が変化した場合にも、被写体からの音声の音量変化を抑制して録音できるようにすることを目的とする。

本発明の撮像装置は、被写体を撮像する撮像手段と、外部マイクと接続する接続手段と、前記撮像手段によって撮像された画角内における前記被写体の所定のパーツの向きに基づいて、前記外部マイクから入力された第１の音声信号のゲインを調整する調整手段とを有することを特徴とする。

本発明によれば、被写体の状態が変化した場合にも、被写体からの音声の音量変化を抑制して録音することができる。

第一の実施形態に係るカメラの構成例を示すブロック図である。第一の実施形態に係るカメラの動作例を示すフローチャートである。顔の向きの変化による音量の変化を説明する図である。顔および体の向きの変化による音量の変化を説明する図である。胸部の外部マイクに入力される音量の変化を説明する図である。頭部の外部マイクに入力される音量の変化を説明する図である。被写体の状態が変化した場合の録音音量の調整について説明する図である。第二の実施形態に係るカメラの記録動作例を示すフローチャートである。第二の実施形態に係るカメラの再生動作例を示すフローチャートである。

［第一の実施形態］
以下に、本発明の第一の実施形態を説明する。図１は、本実施形態に係る撮像装置の一例であるカメラ１００の構成例を示すブロック図である。

レンズ１０２は、ズームユニットや、絞り・シャッタユニット、フォーカスユニットなどを含むレンズユニットであり、撮影光学系を含む。撮像部１０４は、ＣＭＯＳセンサやＣＣＤセンサなどの撮像素子を含む。撮像部１０４は、撮影光学系（各レンズ群）によって結像された光学像の光電変換を行い、光電変換によって得られた電気信号（アナログ信号）を撮像処理部１０５に出力する。レンズアクチュエータ制御部１０３は、モータドライバＩＣを含み、レンズ１０２のズームユニットや、絞り・シャッタユニット、フォーカスユニットなどに含まれた各種アクチュエータを駆動する。レンズアクチュエータ制御部１０３は、ＣＰＵ１０１からの指示に従って各種アクチュエータを駆動する。

ＣＰＵ１０１は、カメラ１００の全体を制御する中央制御部である。撮像処理部１０５は、撮像部１０４から入力されたアナログ信号のＡ／Ｄ変換などを行い、Ａ／Ｄ変換によって得られた電気信号（デジタル信号）を画像処理部１０６に出力する。以後、撮像処理部１０５から出力される電気信号を「画像信号」と記載する。画像信号は「画像データ」と呼んでもよい。

画像処理部１０６は、撮像処理部１０５から入力された画像信号を用いた処理を適宜行う。例えば、画像処理部１０６は、入力された画像信号にトリミング処理や回転処理などの画像処理を施し、画像処理後の画像信号をＣＰＵ１０１に出力してもよい。トリミング処理や回転処理などは、例えば撮像された画角の揺れを低減するために行われる。画像処理部１０６は、入力された画像信号をＣＰＵ１０１に出力してもよい。画像処理部１０６は、入力された画像信号に基づいて、撮像部１０４によって撮像された画角内における被写体（例えば主被写体）の所定のパーツを検出してもよい。例えば、画像処理部１０６は、入力された画像信号に基づく画像から所定のパーツの領域を検出する。被写体と所定のパーツは特に限定されないが、例えば、被写体は人物であり、所定のパーツは顔および体である。また、画像処理部１０６は、被写体が装着している外部マイク２００の位置を検出する。画像処理部１０６は、撮像された画角内における所定のパーツのサイズ（画角に対する相対的なサイズ）を計算してもよい。例えば、画像処理部１０６は、入力された画像信号に基づく画像の全画素数に対する所定のパーツの画素数の割合を計算してもよい。そして、画像処理部１０６は、所定のパーツの検出結果や、所定のパーツのサイズの計算結果などを、ＣＰＵ１０１に出力してもよい。

操作部１１１は、ユーザーがカメラ１００を操作するためのボタンやスイッチなどを含む。記憶部１１２は、画像信号（画像データ）や音声信号（音声データ）などを記憶可能な記録媒体である。例えば、ＣＰＵ１０１は、画像処理部１０６から入力された画像信号や、当該画像信号と同等のタイミングで得られた音声信号（音声処理部１０７から入力された音声信号）などを、互いに関連付けて記憶部１１２に記録する。図１では記憶部１１２がカメラ１００に内蔵されているが、記憶部１１２はカメラ１００とは別体の外部装置であってもよい。

表示部１１３は、ＬＣＤ（液晶ディスプレイ）などのディスプレイを備え、ＣＰＵ１０１からの指示に応じて画像を表示する。例えば、ＣＰＵ１０１は、画像処理部１０６から入力された画像信号に基づく画像を表示部１１３に表示したり、記憶部１１２に格納された画像信号に基づく画像を表示部１１３に表示（再生）したりする。外部端子１１４は、
カメラ１００を外部装置に接続するための端子である。電源部１１５は、カメラ１００の各部に供給する電力を蓄えたバッテリーである。電源部１１５は、カメラ１００の各部に供給する電力をＡＣ電源から得るためのＡＣアダプターなどであってもよい。電源制御部１１６は、カメラ１００の各部に必要な電力が供給されるように電源部１１５を制御する。

内蔵マイク１０８は、カメラ１００に内蔵されたマイク（マイクロフォン）である。内蔵マイク１０８は、内蔵マイク１０８に入力された音声を電気信号（デジタル信号）に変換し、音声処理部１０７に出力する。以後、内蔵マイク１０８から出力される電気信号を「音声信号」と記載する。音声信号は「音声データ」と呼んでもよい。カメラ１００は、１つまたは複数の内蔵マイク１０８を内蔵する。カメラ１００に１つの内蔵マイク１０８が内蔵されている場合にはモノラル録音が可能となり、カメラ１００に複数の内蔵マイク１０８が内蔵されている場合にはモノラル録音とステレオ録音が可能となる。

無線部１０９は、外部装置との間で、ＷｉｆｉやＢＬＥなどの無線規格に準拠した無線通信を行うことができる。本実施形態では、無線部１０９は、外部マイク２００と無線で接続される。

外部マイク２００は、例えばワイヤレスマイクである。外部マイク２００は、外部マイク２００に入力された音声を電気信号（デジタル信号）に変換し、無線で出力（送信）する。以後、外部マイク２００から出力される電気信号も「音声信号」と記載する。外部マイク２００から送信された音声信号は、無線部１０９で受信される。無線部１０９は、受信した音声信号を音声処理部１０７で処理可能な音声信号に変換し、音声処理部１０７に出力する。なお、音声処理部１０７で処理可能な音声信号への変換はＣＰＵ１０１で行われてもよい。

なお、カメラ１００がマイクジャックを有する場合には、外部マイク２００は、フォーンプラグでマイクジャックに接続可能な有線ケーブルマイクであってもよい。そのような外部マイク２００は、外部マイク２００に入力された音声を電気信号（アナログ信号）に変換し、音声処理部１０７に出力する。その場合には、音声処理部１０７は、外部マイク２００から入力された音声信号（アナログ信号）をデジタル信号に変換する。

音声処理部１０７は、内蔵マイク１０８から入力された音声信号と、外部マイク２００から（無線部１０９を介して）入力された音声信号とに対して音声処理を行い、音声処理後の音声信号をＣＰＵ１０１と音声出力部１１０に出力する。ＣＰＵ１０１は、音声信号を記憶部１１２から読み出して音声処理部１０７に出力してもよく、音声処理部１０７は、ＣＰＵ１０１から入力された音声信号に対して音声処理を行い、音声処理後の音声信号を音声出力部１１０に出力してもよい。そうすることで、記憶部１１２に格納された音声信号に基づく音声を音声出力部１１０から出力（再生）することができる。音声出力部１１０はスピーカーを備え、音声処理部１０７から入力された音声信号に基づいて音声を出力する。

図２は、カメラ１００の動作例を示すフローチャートである。図２に示す処理は、例えば、ユーザーからの動画記録開始の指示により開始される。ユーザーは、例えば、操作部１１１に含まれた動画記録開始ボタンを押下することによって、動画記録開始を指示する。各ステップの処理は、ＣＰＵ１０１が図１で説明した各機能ブロックを制御することにより実行される。

ステップＳ２０１では、ＣＰＵ１０１は、ユーザーから動画記録開始の指示を受け付けて動画記録を開始する。ＣＰＵ１０１は、動画記録を開始すると、レンズ１０２から入光
した被写体像を、撮像部１０４において光電変換により電気信号に変換する。ＣＰＵ１０１は、光電変換された電気信号を、撮像処理部１０５で画像信号に変換する。撮像処理部１０５から出力された画像信号は、画像処理部１０６に入力され、用途に応じて加工される。

ステップＳ２０２では、ＣＰＵ１０１は、画像信号の中から主な撮像対象の人物である主被写体を検出するように、画像処理部１０６を制御する。画像処理部１０６は、入力された画像信号に基づく撮像画像の中から画像認識処理によって被写体（例えば、人物）を抽出する。画像処理部１０６は、複数の被写体が抽出された場合、主被写体となる人物を選択するためのパラメータである被写体パラメータに基づいて主被写体を検出する。

被写体パラメータは、例えば、被写体とカメラ１００との距離、カメラ１００に対する被写体の向き、撮影画角の中心に対する被写体の顔の位置といった項目を含む。

ＣＰＵ１０１は、例えば、被写体の顔のサイズ（画角に対する相対的なサイズ）によって、被写体とカメラ１００との距離を判断することができる。具体的には、画像処理部１０６は、入力された画像信号に基づく画像の全画素数に対して顔が占める領域の画素数の割合を、顔のサイズとして計算してもよい。ＣＰＵ１０１は、被写体の顔のサイズが他の被写体の顔のサイズよりも大きければ、カメラ１００からの距離が他の被写体よりも近いと判断することができる。ＣＰＵ１０１は、被写体とカメラ１００との距離が近いほど、距離についての被写体パラメータの値を大きい値に設定する。

また、ＣＰＵ１０１は、例えば、被写体の目の数、位置、向きから、被写体のカメラ１００に対する向きを判断することができる。なお、被写体の向きは、体の向き、足先の向きなどに基づいて判断してもよい。ＣＰＵ１０１は、被写体の向きと、カメラ１００の光軸方向との角度の差が小さいほど、向きについての被写体パラメータの値を大きい値に設定する。

また、ＣＰＵ１０１は、例えば、撮影画角の中心を基準とする被写体の顔の中心の座標から、被写体の顔の位置を判断することができる。ＣＰＵ１０１は、被写体の顔の位置が、撮影画角の中心に近いほど、位置についての被写体パラメータの値を大きい値に設定する。

ＣＰＵ１０１は、各被写体パラメータの重みづけをしてもよく、あらかじめパラメータごとの重みづけの情報を保持しておく。各被写体パラメータの重みづけは、例えば、カメラ１００と撮影対象との距離、撮影対象範囲、撮影対象の人数などに応じてあらかじめ設定される。ＣＰＵ１０１は、撮像画像に複数の被写体がいる場合にも、上述した複数種類の被写体パラメータの値の合計が最も大きい被写体を主被写体として抽出することができる。

なお、主被写体は、複数種類の被写体パラメータのうちの少なくともいずれか１つの値に基づいて決定されてもよい。また、上記の被写体パラメータによって決定される場合に限られず、主被写体は、外部マイク２００を装着している被写体、あらかじめ認証用の画像が登録されている被写体など、各種方法により決定されてもよい。

ステップＳ２０３では、ＣＰＵ１０１は、カメラ１００から主被写体（人物）までの距離に関する距離情報を取得する。例えば、ＣＰＵ１０１は、レンズアクチュエータ制御部１０３を制御して、主被写体に合焦するよう、レンズ１０２の有する複数の光学レンズを光軸方向にそれぞれ前後させる。そして、ＣＰＵ１０１は、主被写体に合焦した状態での焦点距離に基づいて、カメラ１００から主被写体までの距離を判断する。なお、距離情報
の取得方法は特に限定されず、例えば、ＣＰＵ１０１は、各種測距センサを用いて距離情報を取得してもよい。

ステップＳ２０４では、ＣＰＵ１０１は、画像処理部１０６により主被写体の顔を抽出し、主被写体の顔の向きを判別する。具体的には画像処理部１０６は、抽出した主被写体の顔から、目、鼻、耳、口などの特徴部分を抽出し、それぞれの数量を取得する。また、画像処理部１０６は、主被写体の顔のサイズに対する目、鼻、耳、口などのサイズの比率を取得する。画像処理部１０６は、目、鼻、耳、口の数量およびサイズの比率などに基づいて、主被写体の顔の向きを判別する。

画像処理部１０６は、主被写体の顔の向きがカメラ１００に対して正面向きか、右向きか、左向きかを判別する場合、抽出した目または耳の数が２つであれば、主被写体の顔の向きは、カメラ１００に対して正面向きであると判別する。なお、画像処理部１０６は、目の数が２つであっても、主被写体の顔のサイズに対する片方の目のサイズの比率が、他方の目のサイズの比率よりも小さい場合、主被写体の顔の向きは、比率が小さい目がある向きに向いていると判別してもよい。画像処理部１０６は、目または耳の数が１つの場合、主被写体の顔は、鼻または口がある側に向いていると判別することができる。

ステップＳ２０５では、ＣＰＵ１０１は、画像処理部１０６により主被写体の体を抽出し、主被写体の体の向きを判別する。具体的には画像処理部１０６は、抽出した主被写体から、手（腕）、足などの特徴部分を抽出して、それぞれの数量を取得する。また、画像処理部１０６は、主被写体の顔のサイズに対する体のサイズの比率を取得する。画像処理部１０６は、手、足の数量および顔のサイズに対する体のサイズの比率などに基づいて、主被写体の体の向きを判別する。

画像処理部１０６は、主被写体の体の向きがカメラ１００に対して正面向きか、右向きか、左向きかを判別する場合、抽出した手または足の数が２本であれば、主被写体の体の向きは、カメラ１００に対して正面向きであると判別する。また、画像処理部１０６は、顔のサイズに対する体のサイズの比率が所定の閾値よりも小さい場合には、右向きまたは左向きであると判別してもよい。この場合、画像処理部１０６は、足先の向きに基づいて、右向きか左向きかを判別することができる。

ステップＳ２０６では、ＣＰＵ１０１は、画像処理部１０６により、主被写体が装着する外部マイク２００の位置を判別する。画像処理部１０６は、ステップＳ２０２で検出した主被写体の周辺に存在する外部マイク２００を撮像画像から抽出する。画像処理部１０６は、判別した外部マイク２００の位置から、外部マイク２００が頭部に装着されているか、胸部など頭部以外に装着されているかを判別する。

カメラ１００に接続される外部マイク２００があらかじめ決まっている場合には、外部マイク２００の形状が、例えば外部マイク２００を撮像した画像によって、あらかじめ記憶部１１２に記憶されるようにしてもよい。画像処理部１０６は、記憶部１１２に記憶されている外部マイク２００の形状に合致または類似するマイクを撮像画像から抽出し、抽出したマイクの位置を主被写体が装着する外部マイク２００の位置と判別することができる。

また、外部マイク２００が発光部を有する場合には、発光部の発光色および発光タイミングの情報があらかじめ記憶部１１２に記憶されるようにしてもよい。画像処理部１０６は、記憶部１１２に記憶されている外部マイク２００の発光色および発光タイミングに合致または類似するマイクを撮像画像から抽出し、抽出したマイクの位置を主被写体が装着する外部マイク２００の位置と判別することができる。

カメラ１００に接続される外部マイク２００が決まっていない場合には、複数のマイクの形状、発光色、および発光タイミングがあらかじめ記憶部１１２に記憶されるようにしてもよい。画像処理部１０６は、記憶部１１２に記憶されているいずれかのマイクの形状、発光色、発光タイミングに合致または類似し、主被写体の近傍に存在するマイクを撮像画像から抽出し、抽出したマイクの位置を外部マイク２００の位置と判別することができる。

ここで、図３から図６参照して、内蔵マイク１０８および外部マイク２００に入力される主被写体の声の音量の変化について説明する。内蔵マイク１０８および外部マイク２００に入力される主被写体の声の音量は、カメラ１００までの距離、顔の向き、体の向き、外部マイク２００の装着位置といった被写体の状態により変化する。

図３（Ａ）および図３（Ｂ）は、主被写体の顔の向きの変化による音量の変化を説明する図である。主被写体に装着された外部マイク２００に入力される音量は、主被写体の顔の向きによって変化する。

図３（Ａ）は、主被写体である人物３０１がカメラ１００の正面におり、人物３０１の顔および体がカメラ１００に対して正面向きの状態を示す。図３（Ｂ）は、主被写体である人物３０１がカメラ１００の正面におり、人物３０１の顔がカメラ１００に対して横向きで、体がカメラ１００に対して正面向きの状態を示す。

図３（Ａ）および図３（Ｂ）に示すカメラ１００は、内蔵マイク１０８および無線部１０９を備える。内蔵マイク１０８は、主にカメラ１００の周囲の環境音を収音するために使用される。人物３０１は、外部マイク２００を胸部に装着している。

外部マイク２００は、ピンマイクであり、人物３０１が着用している服などにピン止めされている。外部マイク２００は、主に装着している人物３０１の声を収音する。外部マイク２００からカメラ１００に送信される音声信号は、無線通信によってカメラ１００内部の無線部１０９にデジタル信号として送信される。

図３（Ａ）の状態と、図３（Ｂ）の状態とで、内蔵マイク１０８および外部マイク２００に入力される主被写体の声の音量は、主被写体である人物３０１の顔の向きに応じて変化する。図３（Ａ）の状態では、人物３０１は、カメラ１００に対して顔を正面に向けて話している。この場合、例えば、人物３０１の声は、内蔵マイク１０８には－７０ｄＢの音量で入力され、外部マイク２００には－５０ｄＢの音量で入力されたものとする。

図３（Ａ）から図３（Ｂ）の状態に変化した場合、主被写体である人物３０１の顔の向きがカメラ１００対して正面向きから横向きに変化し、人物３０１の顔の向きは、体の向きと異なる。人物３０１の顔が横向きになることで、内蔵マイク１０８および外部マイク２００に入力される声の音量はそれぞれ減少する。例えば、内蔵マイク１０８に入力される音量が５ｄＢ減少し、外部マイク２００に入力される音量が１０ｄＢ減少した場合、人物３０１の声は、内蔵マイク１０８では－７５ｄＢ、外部マイク２００では－６０ｄＢの音量で入力される。このように、主被写体の顔の向きの変化によって、内蔵マイク１０８および外部マイク２００に入力される主被写体の声の音量は変化する。

図４（Ａ）および図４（Ｂ）は、主被写体の顔および体の向きの変化による音量の変化を説明する図である。図４（Ａ）は、主被写体である人物４０１がカメラ１００の正面におり、人物４０１の顔および体がカメラ１００に対して正面向きの状態を示す。図４（Ｂ）は、主被写体である人物４０１がカメラ１００の正面におり、人物４０１の顔および体
がカメラ１００に対して横向きの状態を示す。

図４（Ａ）から図４（Ｂ）の状態に変化した場合、主被写体である人物４０１の顔および体の向きは、カメラ１００対して正面向きから横向きに変化している。人物４０１の顔が横向きになることで、内蔵マイク１０８に入力される声の音量は減少する。一方で、人物４０１の顔の向きが体の向きと同じであるため、外部マイク２００に入力される声の音量は変化しない。

図４（Ａ）の状態では、人物４０１は、カメラ１００に対して顔および体を正面に向けて話している。例えば、人物４０１の声は、内蔵マイク１０８には－７０ｄＢの音量で入力され、外部マイク２００には－５０ｄＢの音量で入力されたものとする。

図４（Ａ）から図４（Ｂ）の状態に変化した場合、主被写体である人物４０１の顔および体の向きは、カメラ１００に対して正面向きから横向きに変化している。人物４０１の顔が横向きになることで、内蔵マイク１０８に入力される声の音量は減少する。一方、人物４０１の顔の向きが体の向きと同じであるため、外部マイク２００に入力される声の音量は変化しない。例えば内蔵マイク１０８に記録される音量が５ｄＢ減少し、外部マイク２００に入力される音量が変化しない場合には、人物４０１の声は、内蔵マイク１０８では－７５ｄＢ、外部マイク２００では－５０ｄＢの音量で入力される。

このように、主被写体の顔および体の向きの変化によって、内蔵マイク１０８および外部マイク２００に入力される主被写体の声の音量は、変化する場合と、変化しない場合とがある。内蔵マイク１０８および外部マイク２００に入力される音量は、カメラ１００に対する主被写体の顔の向き、体の向き、および顔の向きと体の向きとの関係などによって変化する。

図５（Ａ）および図５（Ｂ）は、胸部の外部マイク２００に入力される音量の変化を説明する図である。外部マイク２００は、主被写体である人物５０１の胸部に取り付けられている。図５（Ａ）は、主被写体である人物５０１が胸部に外部マイク２００を装着し、カメラ１００に対して顔および体を正面に向けている状態を示す。図５（Ｂ）は、主被写体である人物５０１が胸部に外部マイク２００を装着し、カメラ１００に対して体を正面に向け、顔を横に向けている状態を示す。

図５（Ａ）から図５（Ｂ）の状態に変化した場合、主被写体である人物５０１の顔の向きは、カメラ１００対して正面向きから横向きに変化している。一方で、人物５０１の体の向きは、カメラ１００対して正面向きのまま変化していない。人物５０１の顔が横向きになることで、外部マイク２００に入力される声の音量は減少する。

図５（Ａ）の状態では、人物５０１は、胸部に外部マイク２００を装着し、カメラ１００に対して正面を向いて話している。例えば、人物５０１の声は、外部マイク２００には－５０ｄＢの音量で入力されたものとする。

図５（Ａ）から図５（Ｂ）の状態に変化した場合、主被写体である人物５０１の顔の向きがカメラに対して正面向きから横向きに変化し、人物５０１の顔の向きは、体の向きと異なる。人物５０１の顔が横向きになることで、外部マイク２００に入力される声の音量は減少する。例えば、外部マイク２００に入力される声の音量が１０ｄＢ減少した場合には、人物５０１の声は、外部マイク２００には－６０ｄＢの音量で入力される。このように、主被写体が胸部に外部マイク２００を装着している場合、主被写体の顔の向きの変化によって、外部マイク２００に入力される声の音量は変化する。

図６（Ａ）および図６（Ｂ）は、頭部の外部マイク２００に入力される音量の変化を説明する図である。外部マイク２００は、主被写体である人物６０１の頭部に取り付けられている。図６（Ａ）は、主被写体である人物６０１が頭部に外部マイク２００を装着し、カメラ１００に対して顔および体を正面に向けている状態を示す。図６（Ｂ）は、主被写体である人物６０１が頭部に外部マイク２００を装着し、カメラ１００に対して体を正面に向け、顔を横に向けている状態を示す。

図６（Ａ）から図６（Ｂ）の状態に変化した場合、主被写体である人物６０１の顔の向きは、カメラ１００対して正面向きから横向きに変化している。一方で、人物５０１の体の向きは、カメラ１００対して正面向きのまま変化していない。人物６０１の顔が横向きになっても、頭部に装着された外部マイク２００は、顔の向きに合わせて向きを変えるため、人物６０１の口と外部マイク２００との位置関係は変化しない。外部マイク２００が頭部に装着されている場合には、人物６０１の顔の向きが変化しても、外部マイク２００に入力される声の音量は変化しない。

図６（Ａ）の状態では、人物６０１は、頭部に外部マイク２００を装着し、カメラ１００に対して正面を向いて話している。例えば、人物６０１の声は、外部マイク２００には－５０ｄＢの音量で入力されたものとする。

図６（Ａ）から図６（Ｂ）の状態に変化した場合、主被写体である人物６０１の顔の向きは、正面向きから横向きに変化している。人物６０１の顔が横向きになっても、外部マイク２００に入力される声の音量は変化せず、人物６０１の声は－５０ｄＢの音量で入力される。このように、主被写体が頭部に外部マイク２００を装着している場合、主被写体の顔の向きが変化しても、外部マイク２００に入力される声の音量は変化しない。

図３から図６で説明したように、主被写体の顔の向き、主被写体の体の向き、外部マイク２００の主被写体への装着位置などの条件によって内蔵マイク１０８および外部マイク２００に入力される音量は変化する。

図２に戻り、ステップＳ２０７では、ＣＰＵ１０１は、内蔵マイク１０８および外部マイク２００で収音した主被写体の声を記憶部１１２に記録する録音音量を調整する。具体的には、ＣＰＵ１０１は、ステップＳ２０４からステップＳ２０６で判別した顔の向き、体の向き、外部マイク２００の位置などの被写体の状態に基づいて、内蔵マイク１０８および外部マイク２００に入力される主被写体の声の音量変化量を予測する。

音量変化量は、被写体の状態がどのように変化したかに応じて、あらかじめ記憶部１１２に記憶される。ＣＰＵ１０１は、記憶部１１２を参照して、被写体の状態の変化に対応する音量変化量を予測することができる。例えば、主被写体の体の向きが正面向きの状態で、顔の向きが正面向きから横向きに変化した場合（図３（Ａ）から図３（Ｂ）の状態に変化した場合）、外部マイク２００の音量変化量は－１０ｄＢとして、記憶部１１２に記憶される。また、内蔵マイク１０８の音量変化量は－５ｄＢとして、記憶部１１２に記憶される。

ＣＰＵ１０１は、予測した主被写体の声の音量変化量に基づいて、内蔵マイク１０８および外部マイク２００で収音された音声信号を、記憶部１１２に記録する際の録音音量のゲインを調整する。ＣＰＵ１０１は、内蔵マイク１０８および外部マイク２００の調整後の音声信号を合成し、画像処理部１０６から入力された画像信号と関連付けて記憶部１１２に記録する。

ここで、図７を参照して、被写体の状態が変化した場合の録音音量の調整について説明
する。被写体の状態は、例えば、カメラ１００までの距離、顔の向き、体の向き、外部マイク２００の装着位置である。ＣＰＵ１０１は、被写体の状態に基づいて、音量変化量を予測し、内蔵マイク１０８および外部マイク２００の録音音量（ゲイン）を調整する。ＣＰＵ１０１は、図７に示す表に従って、録音音量を調整するか否かを判断することができる。

図７の例では、ＣＰＵ１０１は、主被写体からカメラ１００までの距離が、所定距離未満か所定距離以上かを判別する。所定距離は、あらかじめ設定された距離であり、記憶部１１２に記憶されている。

またＣＰＵ１０１は、カメラ１００に対する主被写体の顔の向きが、正面向きか横向きかを判別する。なお、ＣＰＵ１０１は、正面向きと横向きの２分類に限られず、顔の向きを正面向き、斜向き、横向きの３つに分類し、各分類に合わせて内蔵マイク１０８および外部マイク２００のゲインを調整してもよい。また、ＣＰＵ１０１は、主被写体の両目の位置などに基づいてカメラ１００の光軸に対する顔の角度を取得し、取得した角度に応じてゲインを調整してもよい。

またＣＰＵ１０１は、カメラ１００に対する主被写体の体の向きが、正面向きか横向きかを判別する。なお、ＣＰＵ１０１は、正面向きか横向きかの２分類に限られず、体の向きを正面向き、斜向き、横向きの３つに分類し、各分類に合わせて内蔵マイク１０８および外部マイク２００のゲインを調整してもよい。また、ＣＰＵ１０１は、主被写体の足先の向きなどに基づいてカメラ１００の光軸に対する体の角度を取得し、取得した角度に応じてゲインを調整してもよい。

またＣＰＵ１０１は、外部マイク２００が装着されている位置が、頭部か胸部かを判別する。なお、ＣＰＵ１０１は、頭部か胸部かの２分類に限られず、外部マイク２００の位置が、頭部、右胸部、左胸部、右腕部、左腕部のように分類し、各分類に合わせて内蔵マイク１０８および外部マイク２００のゲインを調整してもよい。

図７では、例えば、カメラ１００までの距離が所定距離よりも短く、顔が正面向き、体が横向きで、外部マイク２００を胸部に装着している場合、外部マイク２００のゲインを大きくする。一方、顔の向きがカメラ１００に対して正面向きであるため、内蔵マイク１０８のゲインは、調整されず標準のままである。このように、内蔵マイク１０８および外部マイク２００のゲインは、被写体の状態に応じて、あらかじめ定義されたテーブルに従って調整される。

また、内蔵マイク１０８または外部マイク２００のゲインを大きくする場合の増加量は、例えば、被写体の状態を変えた場合の音量の変化量を実測したデータに基づいて、あらかじめ記憶部１１２に記憶させてもよい。この場合、図７に示すように、ゲインを標準とするか大きくするかを定義するのではなく、ゲインの調整量を定義するテーブルが記憶部１１２に格納されればよい。

ＣＰＵ１０１は、主被写体の顔の向き、および体の向きなどが変わった場合、主被写体の状態に基づいて、内蔵マイク１０８および外部マイク２００に入力される声の音量変化量を予測し、予測した音量変化量に基づいて音声信号のゲインを調整する。したがって、ＣＰＵ１０１は、主被写体の状態が変化しても、主被写体の声の音量変化を抑制して記憶部１１２に記録することができる。

なお、カメラ１００から主被写体までの距離が所定距離よりも短くない場合には、カメラ１００内部の内蔵マイク１０８に入力される主被写体の声は、収音されないか、わずか
な音量でしか収音されない。この場合に、内蔵マイク１０８から入力された音声信号のゲインを大きくすると、カメラ１００の周囲の環境音が大きくなり、録音品質は低下するおそれがある。したがって、カメラ１００から主被写体までの距離が所定距離よりも短くない場合、ＣＰＵ１０１は、内蔵マイク１０８の録音音量を調整しないように制御する。ここでの所定距離は、メーカーやユーザーなどがあらかじめ設定した距離とすることができる。

図２に戻り、ステップＳ２０８では、ＣＰＵ１０１は、ユーザーから動画記録停止が指示されたか否かを判断する。ユーザーは、例えば、操作部１１１に含まれた動画記録停止ボタンを押下することによって、動画記録停止を指示する。ＣＰＵ１０１が、ユーザーから動画記録停止が指示されたと判断した場合、動画記録処理は終了する。ＣＰＵ１０１が、ユーザーから動画記録停止が指示されていないと判断した場合、ステップＳ２０９の処理が実行される。

ステップＳ２０９では、ＣＰＵ１０１は、主被写体の状態（カメラ１００までの距離、顔の向き、体の向き、外部マイク２００の装着位置）のいずれかが変化したか否かを判断する。ＣＰＵ１０１が、主被写体の状態のいずれかが変化したと判断した場合、ステップＳ２０２の処理に戻る。ＣＰＵ１０１が、主被写体の状態のいずれも変化していないと判断した場合、ステップＳ２０８の処理に戻る。

以上説明したように、本実施形態によれば、撮像部１０４によって撮像された画角内における被写体の所定のパーツの向きに基づいて、外部マイク２００から入力された音声信号のゲインが調整される。これにより、所定のパーツの向きが変化した場合にも、被写体からの音声の音量変化を抑制して記憶部１１２に録音することができる。また、本実施形態によれば、カメラ１００から被写体までの距離、外部マイク２００の装着位置が変わった場合にも、被写体からの音声の音量変化を抑制して記憶部１１２に録音することができる。

［第二の実施形態］
以下に、本発明の第二の実施形態を説明する。なお、以下では、第一の実施形態と同じ点（処理や構成など）についての説明は省略し、第一の実施形態と異なる点について説明する。第一の実施形態では、音声信号を記憶部１１２に録音する際に、主被写体の状態に基づいてゲインを調整する例を説明した。第二の実施形態では、ゲインは調整せずに、音声信号、および主被写体の状態を記憶部１１２に記録し、記録した音声信号に基づく音声を再生する際に、記録した主被写体の状態に基づいてゲインを調整する。音声の再生は、編集のための再生であってもよい。

図８は、カメラの記録動作例を示すフローチャートである。図８に示す処理は、例えば、ユーザーからの動画記録開始の指示により開始される。ステップＳ８０１～Ｓ８０６、Ｓ８０８、Ｓ８０９の処理は、図２（第一の実施形態）のステップＳ２０１～Ｓ２０６、Ｓ２０８、Ｓ２０９の処理と同じである。

本実施形態では、図２（第一の実施形態）のステップＳ２０７の処理の代わりに、ステップＳ８０７の処理が行われる。ステップ８０７では、ＣＰＵ１０１は、主被写体の状態をタイムコードに関連付けて記憶部１１２に記録する。また、動画記録中、ＣＰＵ１０１は、画像処理部１０６から入力された画像信号、内蔵マイク１０８から入力された音声信号、外部マイク２００から入力された音声信号などを、タイムコードに関連付けて記憶部１１２に記録する。記録するタイムコードはＣＰＵ１０１によって順次更新される。これにより、被写体の状態と、画像信号および音声信号とは、互いに関連付けられて記憶部１１２に記録される。

図３から図６で説明したように、主被写体の顔の向き、主被写体の体の向き、外部マイク２００の主被写体への装着位置などの被写体の状態によって内蔵マイク１０８および外部マイク２００に入力される主被写体の声の音量は変化する。本実施形態では、被写体の状態をタイムコードに関連付けて記憶部１１２に記録しておくことで、ＣＰＵ１０１は、記録した動画を再生する場合に、タイムコードに関連付けて記録された被写体の状態に基づいて、再生音量を調整することができる。

図９は、カメラの再生動作例を示すフローチャートである。図９に示す処理は、例えば、ユーザーからの動画再生開始の指示により開始される。ユーザーは、例えば、操作部１１１に含まれた動画再生開始ボタンを押下することによって、動画記録再生開始を指示する。各ステップの処理は、ＣＰＵ１０１が図１で説明した各機能ブロックを制御することにより実行される。

ステップＳ９０１では、ＣＰＵ１０１は、図８のステップＳ８０７の処理で記録した、主被写体の顔の向き、主被写体の体の向き、外部マイク２００の主被写体への装着位置などの被写体の状態と、被写体の状態に関連付けられたタイムコードとを読み出す。また、ＣＰＵ１０１は、再生する画像信号および音声信号も記憶部１１２から読み出す。

ステップＳ９０２では、ＣＰＵ１０１は、ステップＳ９０１で読み出した被写体の状態に基づいて、記憶部１１２から読み出された内蔵マイク１０８および外部マイク２００の音声信号の再生音量（ゲイン）を調整する。

ステップＳ９０３では、ＣＰＵ１０１は、調整した内蔵マイク１０８の音声信号と外部マイク２００の音声信号とを合成して画像信号とともに再生する。なお、ＣＰＵ１０１は、内蔵マイク１０８および外部マイク２００に入力された音声信号を、それぞれ被写体の状態に基づいてゲインを調整してから個別に記憶部１１２に記録し、再生時に合成して再生してもよい。

ステップＳ９０４では、ＣＰＵ１０１は、ユーザーから動画再生停止が指示されたか否かを判断する。ユーザーは、例えば、操作部１１１に含まれた動画再生停止ボタンを押下することによって、動画再生停止を指示する。ＣＰＵ１０１が、ユーザーから動画再生停止が指示されたと判断した場合、動画再生処理は終了する。ＣＰＵ１０１が、ユーザーから動画再生停止が指示されていないと判断した場合、ステップＳ９０１の処理に戻る。

以上説明したように、本実施形態によれば、被写体の状態と、画像信号および音声信号とは、互いに関連付けられて記憶部１１２に記録される。そして、記録された画像信号に基づく画像と、記録された音声信号に基づく音声との再生時に、被写体の状態に基づいてゲインが調整される。これにより、再生時において第一の実施形態と同様の効果を得ることができる。具体的には、被写体の状態が変化した場合にも、被写体からの音声の音量変化を抑制して再生することができる。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形および変更が可能である。また、第一の実施形態で説明した処理と、第二の実施形態で説明した処理とを適宜組み合せることも可能である。本発明を適用した撮像装置としてカメラを例に挙げたが、本発明は、被写体を撮像することのできる様々な装置に適用可能である。また、被写体（主被写体）として人物を例に挙げたが、鳴き声を発する動物や、音を発する物体など、様々な被写体を撮像する場合に本発明は適用可能である。また、動画撮影を行う場合の例を説明したが、静止画とともに音声を記録する静止画撮影を行う場合にも、本発明は適用可能である。また、主被写体
の顔や体の向きが変わった場合に、録音音量を調整する例を説明したが、環境音の変化を抑制するため、音声帯域（３００Ｈｚ～３．４ＫＨｚ程度）の録音音量のみを変更する場合にも、本発明は適用可能である。また、マイクに届きにくくなる低周波数帯域の録音音量のみを制御する場合にも、本発明は適用可能である。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００：カメラ、１０１：ＣＰＵ、１０４：撮像部、１０６：画像処理部、１０９：無線部、２００：外部マイク

Claims

被写体を撮像する撮像手段と、
外部マイクと接続する接続手段と、
前記撮像手段によって撮像された画角内における前記被写体の所定のパーツの向きに基づいて、前記外部マイクから入力された第１の音声信号のゲインを調整する調整手段と
を有することを特徴とする撮像装置。
前記調整手段は、前記所定のパーツの向きと、前記外部マイクが前記被写体に装着されている位置とに基づいて、前記第１の音声信号のゲインを調整する
ことを特徴とする請求項１に記載の撮像装置。
内蔵マイクをさらに有し、
前記調整手段は、前記所定のパーツの向きおよび前記撮像装置から前記被写体までの距離のうち少なくともいずれかに基づいて、前記内蔵マイクから入力された第２の音声信号のゲインも、さらに調整する
ことを特徴とする請求項１または２に記載の撮像装置。
前記調整手段は、前記外部マイクが前記被写体の頭部に装着されている場合、前記第１の音声信号のゲインを調整しない
ことを特徴とする請求項３に記載の撮像装置。
前記所定のパーツは、前記被写体の顔であり、
前記調整手段は、前記外部マイクが前記被写体の頭部に装着され、前記撮像装置から前記被写体までの距離が所定距離よりも短い場合に、
前記撮像装置から見た前記被写体の顔の向きが正面向きであれば、前記第２の音声信号のゲインを調整せず、
前記撮像装置から見た前記被写体の顔の向きが横向きであれば、前記第２の音声信号のゲインを大きくする
ことを特徴とする請求項４に記載の撮像装置。
前記調整手段は、前記外部マイクが前記被写体の頭部に装着され、前記撮像装置から前記被写体までの距離が所定距離よりも短くない場合、前記第２の音声信号のゲインを調整しない
ことを特徴とする請求項４または５に記載の撮像装置。
前記所定のパーツは、前記被写体の顔および体であり、
前記調整手段は、前記外部マイクが前記被写体の胸部に装着され、前記撮像装置から前記被写体までの距離が所定距離よりも短い場合に、
前記撮像装置から見た前記被写体の顔の向きが正面向きであれば、前記第２の音声信号のゲインを調整せず、
前記撮像装置から見た前記被写体の顔の向きが横向きであれば、前記第２の音声信号のゲインを大きくする
ことを特徴とする請求項３に記載の撮像装置。
前記調整手段は、前記外部マイクが前記被写体の胸部に装着され、前記撮像装置から前記被写体までの距離が所定距離よりも短くない場合、前記第２の音声信号のゲインを調整しない
ことを特徴とする請求項３に記載の撮像装置。
前記調整手段は、前記外部マイクが前記被写体の胸部に装着されている場合に、
前記被写体の顔の向きが体の向きと同じ場合は、前記第１の音声信号のゲインを調整せず、
前記被写体の顔の向きが体の向きと異なる場合は、前記第１の音声信号のゲインを大きくする
ことを特徴とする請求項７または８に記載の撮像装置。
前記撮像手段から入力された画像信号と、前記調整手段によって調整された前記第１の音声信号および前記第２の音声信号を合成した音声信号と、を記録媒体に記録する記録手段を、さらに有する
ことを特徴とする請求項３～９のいずれか１項に記載の撮像装置。
前記撮像手段によって撮像された画角内における複数の人物のうち、前記撮像装置との距離、前記撮像装置に対する向き、撮影画角の中心に対する顔の位置のうち少なくともいずれかに基づいて抽出した人物を、前記被写体として検出する画像処理手段を、さらに有する
ことを特徴とする請求項１～１０のいずれか１項に記載の撮像装置。
被写体を撮像する撮像手段と、
外部マイクと接続する接続手段と、
前記撮像手段から入力された画像信号、前記外部マイクから入力された第１の音声信号、および、前記撮像手段によって撮像された画角内における前記被写体の所定のパーツの向きに関する情報を、互いに関連付けて記録媒体に記録する記録手段と
を有することを特徴とする撮像装置。
前記記録媒体に記録された前記画像信号に基づき画像を再生するとともに、前記記録媒体に記録された前記第１の音声信号に基づき音声を再生する再生手段と、
前記再生手段が前記音声を再生する際に、前記記録媒体に記録された前記所定のパーツの向きに関する情報に基づいて、前記第１の音声信号のゲインを調整する調整手段と
をさらに有する
ことを特徴とする請求項１２に記載の撮像装置。
前記調整手段は、前記所定のパーツの向きと、前記外部マイクが前記被写体に装着されている位置とに基づいて、前記第１の音声信号のゲインを調整する
ことを特徴とする請求項１３に記載の撮像装置。
内蔵マイクをさらに有し、
前記記録手段は、前記画像信号、前記第１の音声信号、前記所定のパーツの向きに関する情報、前記撮像装置から前記被写体までの距離、および、前記内蔵マイクから入力された第２の音声信号を、互いに関連付けて前記記録媒体に記録し、
前記再生手段は、前記画像を再生するとともに、前記記録媒体に記録された前記第１の音声信号と前記第２の音声信号とに基づき前記音声を再生し、
前記調整手段は、前記所定のパーツの向きおよび前記撮像装置から前記被写体までの距離のうち少なくともいずれかに基づいて、前記内蔵マイクから入力された第２の音声信号のゲインも、さらに調整する
ことを特徴とする請求項１３または１４に記載の撮像装置。
前記調整手段は、前記第１の音声信号の低周波数帯域のゲインまたは音声帯域のゲインを調整する
ことを特徴とする請求項１～１１、１３～１５のいずれか１項に記載の撮像装置。
前記調整手段は、前記第２の音声信号の低周波数帯域のゲインまたは音声帯域のゲインを調整する
ことを特徴とする請求項３～１０、１５のいずれか１項に記載の撮像装置。
被写体を撮像するステップと、
外部マイクと接続するステップと、
撮像された画角内における前記被写体の所定のパーツの向きに基づいて、前記外部マイクから入力された音声信号のゲインを調整するステップと
を有することを特徴とする撮像装置の制御方法。
コンピュータを、請求項１～１７のいずれか１項に記載の撮像装置の各手段として機能させるためのプログラム。