JP2023009567A

JP2023009567A - 撮像装置、制御方法、およびプログラム

Info

Publication number: JP2023009567A
Application number: JP2021112964A
Authority: JP
Inventors: 宏樹太田; Hiroki Ota; 修原田; Osamu Harada
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2023-01-20

Abstract

【課題】撮影者のイメージに沿った動画および音声を記録する。【解決手段】動画から被写体を検出する検出手段と、前記動画から検出された被写体から主被写体を選定する選定手段と、前記動画から被写体の音声を決定する決定手段と、前記検出手段によって検出された前記被写体と前記決定手段によって抽出された音声とを関連付ける関連付け手段と、前記選定手段によって選定された主被写体と関連する被写体を判断する判断手段と、前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とを、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対して音声処理する音声処理手段とを有することを特徴とする音声処理装置。【選択図】図２

Description

本発明は、人物の音声に対して音声処理を行う音声処理装置に関するものである。

撮像装置における動画撮影では、撮影時の状況を撮影者のイメージ通りに残すことが重要であり、それは映像だけでなく音声についても同様である。

特許文献１では、被写体の音声を抽出し、その抽出した音声信号を被写体の位置に応じて個別に調整することで、臨場感やステレオ感をもった音響空間を実現することが開示されている。

特開２０１２－１３８９３０号公報

しかし、人間が会話を聴取するとき、正確に再現された音響空間が人間のイメージ通りであるとは必ずしも限らない。例えば、人間はたくさんの人がそれぞれに雑談しているなかでも、自分が興味のある人の会話や、自分の名前などは、自然と聞き取ることができる。また、人間は音声情報だけでなく視覚的情報も使用しているともいわれており、話し手を視覚的に確認することのよって、その人物の口の動きやしぐさなどから得る情報も用いて聞こえ方を補っていると言われている。つまり、動画に記録される音声についても、人の記憶（イメージ）に残る会話音声と同じになるように、記録することも重要である。

しかし、特許文献１では、人（音源）の位置関係に基づいて、声の音響空間を正確に再現することが目的であるため、撮影者のイメージとは異なる動画となっているおそれがあった。

そこで、本発明は、撮影者のイメージに沿った動画および音声を記録することを目的とする。

本発明の撮像装置は、動画から被写体を検出する検出手段と、前記動画から検出された被写体から主被写体を選定する選定手段と、前記動画から被写体の音声を決定する決定手段と、前記検出手段によって検出された前記被写体と前記決定手段によって抽出された音声とを関連付ける関連付け手段と、前記選定手段によって選定された主被写体と関連する被写体を判断する判断手段と、前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とに対する音声処理を、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対する音声処理と異ならせる音声処理手段とを有することを特徴とする。

本発明によれば、撮影者のイメージに沿った動画および音声を記録することができる。

第一の実施形態の撮像装置のブロック図を示す図である。第一の実施形態の撮像処理部と音声処理部のブロック図（記録時）を示す図である。第一の実施形態の撮像処理部と音声処理部のブロック図（後処理時）を示す図である。第一の実施形態の主対象選定方法を示す図である。第一の実施形態の動画記録シーケンスの動作フローを示す図である。第一の実施形態の想定シーンを説明する図である。第一の実施形態の音声処理の内容を説明する図である。第二の実施形態の撮像処理部と音声処理部のブロック図を示す図である。第二の実施形態の録画記録シーケンスの動作フローを示す図である。第二の実施形態の課題を説明するための図である。第二の実施形態の課題となるシーンを説明した図である。

以下に、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。

［第一の実施形態］
本実施形態では、撮像装置に含まれる音声処理装置ついて図１から図３を用いて説明する。

図１は第一の実施形態の撮像装置１００の構成を示すブロック図である。

撮像部１０１は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、画像処理部１０２によってアナログデジタル変換、画像調整処理などを行い、画像データを生成する。撮影光学レンズは、内蔵型の光学レンズであっても、着脱式の光学レンズであっても良い。また、撮像素子は、ＣＣＤ、ＣＭＯＳ等に代表される光電変換素子であればよい。音声入力部１０３は、内蔵または音声端子を介して接続されたマイクにより、撮像装置１００の周辺の音声を集音し、アナログデジタル変換されたものを、音声処理部１０４にて各種音声処理を行い、音声データを生成する。マイクは、指向性、無指向性を問わない。メモリ１０５は、撮像部１０１、画像処理部１０２により得られた画像データや、音声入力部１０３、音声処理部１０４により得られた音声データを一時的に記憶する。表示制御部１０６は、画像処理部１０２により得られた画像データに係る映像や、撮像装置１００の操作画面、メニュー画面等を表示部１０７や、不図示の映像端子を介して外部のディスプレイに表示させる。表示部１０７はタッチパネル機能を有し、撮影者が操作することでメニューや被写体の選択などが可能である。

符号化処理部１０８は、メモリ１０５に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。また、音声データに関しては圧縮しないようにしてもよい。圧縮画像データは、例えば、ＭＰＥＧ２やＨ．２６４／ＭＰＥＧ４－ＡＶＣなど、どのような圧縮方式で圧縮されたものであってもよい。また、圧縮音声データも、ＡＣ３（Ａ）ＡＣ、ＡＴＲＡＣ、ＡＤＰＣＭなどのような圧縮方式で圧縮されたものであってもよい。記録再生部１０９は、記録媒体１１０に対して、符号化処理部１０８で生成された圧縮画像データ、圧縮音声データまたは音声データ、各種データを記録したり、記録媒体１１０から読出したりする。ここで、記録媒体１１０は、画像データ、音声データ、等を記録することができれば、磁気ディスク、光学式ディスク、半導体メモリなどのあらゆる方式の記録媒体を含む。

制御部１１１は、撮像装置１００、撮像部１０１の各ブロックに制御信号を送信することで撮像装置１００の各ブロックを制御することができ、各種制御を実行するためのＣＰＵやメモリなどからなる。制御部１１１で使用するメモリ１０５は、各種制御プログラムを格納するＲＯＭ、演算処理のためのＲＡＭ等であり、制御部１１１外付けのメモリも含む。操作部１１２は、ボタンやダイヤルなどからなり、ユーザの操作に応じて、指示信号を制御部１１１に送信する。本実施形態の撮像装置では、動画記録開始、終了を指示するための撮影ボタン、光学的もしくは電子的に画像に対してズーム動作する指示するためのズームレバー、各種調整をするための十字キー、決定キーなどからなる。音声出力部１１３は、記録再生部１０９により再生された音声データや圧縮音声データ、または制御部１１１により出力される音声データをスピーカ１１４や音声端子などに出力する。外部出力部１１５は、記録再生部１０９により再生された圧縮映像データや圧縮音声データ、音声データなどを外部機器に出力する。データバス１１６は、音声データや画像データ等の各種データ、各種制御信号を撮像装置１００の各ブロックに供給する。

ここで、本実施形態の撮像装置１００の通常の動作について説明する。

本実施形態の撮像装置１００は、ユーザが操作部１１２を操作して電源を投入する指示が出されたことに応じて、不図示の電源供給部から、撮像装置の各ブロックに電源を供給する。

電源が供給されると、制御部１１１は、操作部１１２のモード切り換えスイッチが、例えば、撮影モード、再生モード等のどのモードであるかを操作部１１２からの指示信号により確認する。動画記録モードでは、撮像部１０１、画像処理部１０２により得られた画像データ（映像データ）と音声入力部１０３、音声処理部１０４により得られた音声データとを動画ファイルとして保存する。再生モードでは、記録媒体１１０に記録された圧縮画像データを記録再生部１０９により再生して表示部１０７に表示させる。

動画記録モードでは、まず、制御部１１１は、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送信し、以下のような動作をさせる。撮像部１０１は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、画像処理部１０２で画像調整処理などを行い、画像データを生成する。そして、得られた画像データを表示制御部１０６に送信し、表示部１０７に表示させる。ユーザはこの様にして表示された画面を見ながら撮影の準備を行う。

音声入力部１０３は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、得られた複数のデジタル音声信号を処理して、マルチチャンネルの音声データを生成する。そして、得られた音声データを音声出力部１１３に送信し、接続されたスピーカ１１４や不図示のイヤホンから音声として出力させる。ユーザは、この様にして出力された音声を聞きながら記録音量を決定するためのマニュアルボリュームの調整をすることもできる。

次に、ユーザが操作部１１２の記録ボタンを操作することにより撮影開始の指示信号が制御部１１１に送信されると、制御部１１１は、撮像装置１００の各ブロックに撮影開始の指示信号を送信し、以下のような動作をさせる。

撮像部１０１は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、画像処理部１０２にて画像調整処理などを行い、画像データを生成する。そして、得られた画像データを表示制御部１０６に送信し、表示部１０７に表示させる。また、得られた画像データをメモリ１０５へ送信する。

音声入力部１０３は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、音声処理部１０４にて得られた複数のデジタル音声信号を処理して、マルチチャンネルの音声データを生成する。そして、得られた音声データをメモリ１０５に送信する。また、マイクが一つの場合には、得られたアナログ音声信号をデジタル変換し音声データを生成し、音声データをメモリ１０５に送信する。

符号化処理部１０８は、メモリ１０５に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。

そして、制御部１１１は、これらの圧縮画像データ、圧縮音声データを合成し、データストリームを形成し、記録再生部１０９に出力する。音声データを圧縮しない場合には、制御部１１１は、メモリ１０５に格納された音声データと圧縮画像データとを合成し、データストリームを形成して記録再生部１０９に出力する。記録再生部１０９は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１１０に書き込んでいく。以上の動作を撮影中は継続する。

そして、ユーザが操作部１１２の記録ボタンを操作することにより撮影終了の指示信号が制御部１１１に送信されると、制御部１１１は、撮像装置１００の各ブロックに撮影終了の指示信号を送信し、以下のような動作をさせる。

撮像部１０１、画像処理部１０２、音声入力部１０３、音声処理部１０４は、それぞれ画像データ、音声データの生成を停止する。符号化処理部１０８は、メモリに記憶されている残りの画像データと音声データとを読出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成し終えたら動作を停止する。音声データを圧縮しない場合には、当然、圧縮画像データの生成が終わったら動作を停止する。

そして、制御部１１１は、これらの最後の圧縮画像データと、圧縮音声データまたは音声データとを合成し、データストリームを形成し、記録再生部１０９に出力する。記録再生部１０９は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１１０に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて、記録動作を停止させる。制御部１１１は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送信して、撮影待機状態に戻る。

次に、再生モードでは、制御部１１１は、再生状態に移行させるように制御信号を撮像装置１００の各ブロックに送信し、以下のような動作をさせる。記録媒体１１０に記録された圧縮画像データと圧縮音声データとからなる動画ファイルを記録再生部１０９が読出して、読出された圧縮画像データ、圧縮音声データは、符号化処理部１０８に送る。

符号化処理部１０８は、圧縮画像データ、圧縮音声データを復号してそれぞれ、表示制御部１０６、音声出力部１１３に送信する。表示制御部１０６は、復号された画像データを表示部１０７に表示させる。音声出力部１１３は、復号された音声データを内蔵または、取付けられた外部スピーカから出力させる。

本実施形態の撮像装置１００は以上のように、画像、音声の記録再生を行うことができる。

本実施形態では、音声入力部１０３、音声処理部１０４において、音声信号を得る際に、マイクにより得られた音声信号のレベル調整処理等の処理をしている。この処理は、装置が起動してから常に行われてもよいし、撮影モードが選択されてから行われてもよい、または、音声の記録に関連するモードが選択されてから行われても良い。また、音声の記録に関連するモードにおいて、音声の記録が開始したことに応じて上記の処理を行ってもよい。本実施形態では、動画像撮影の開始されたタイミングで上記の処理を行うようにしたものとする。

図２は本実施形態の撮像装置１００の撮像部１０１、画像処理部１０２、音声入力部１０３、音声処理部１０４の詳細な構成の一例を示すブロック図である。

撮像部１０１は、被写体の光学像を取り込む光学レンズ２０１等の光学系、光学レンズ２０１により取り込まれた被写体の光学像を電気信号（画像信号）に変換させる撮像素子２０２を有している。さらに、光学レンズ２０１を移動させるための位置センサ、モータ等の公知の駆動メカニズムを有する光学レンズ制御部２０３を有している。本実施形態では撮像部１０１に光学レンズ２０１、光学レンズ制御部２０３が内蔵されているように記載しているが、これらは着脱可能な交換光学レンズであっても良い。例えば、ズーム動作、フォーカス調整などの指示を、ユーザが操作部１１２を操作して入力すると、制御部１１１は、光学レンズ制御部２０３に光学レンズを移動させる制御信号（駆動信号）を送信する。光学レンズ制御部２０３は、この制御信号に応じて、位置センサで光学レンズ２０１の位置を確認し、モータ等で光学レンズ２０１の移動を行う。

画像処理部１０２は、撮像素子２０２により変換された画像信号に対して、画像調整部２２１にて各種画質調整処理をして画像データを形成し、データバス１１６を介してメモリ１０５に送信する。ここで形成された画像データをもとに、制御部１１１はフォーカス調整や光量調整などの各種調整を行う。

さらに本実施形態では、画像処理部１０２は各種検出機能を有する。人物検出部２２２は画像調整部２２１にて形成された画像データから、目や鼻や口などの人物の顔の特徴点を抽出し、それに画像データにおける人物の位置や顔の大きさなどを検出する。そして、それら特徴点の情報をメモリ１０５に記憶することで、その情報に基づいて被写体人物を個別に認識することも可能である。また、人物検出部２２２は、唇や頭の動きを検出する人物動作検出部２２３と、それによりその人物が発話しているか否かを判定する人物発話検出部２２４とを有している。また、画像処理部１０２には、人物検出部２２２にて検出された人物のうち、どの人物を音声処理の主となる被写体（以下、主被写体、主対象ともいう）とするかを選定する主対象選定部２２５を有する。主対象選定部２２５は、制御部１１１によって定められた条件をもとに主対象を選定する。主対象選定部２２５による、主対象の選定条件については後述する
さらに、画像処理部１０２は会話グループ検出部２２６を有する。会話グループ検出部２２６は、人物検出部２２２において検出された人物のうちから、主対象選定部２２５にて選定された人物と会話している人物を検出する。その検出は、人物同士の位置関係や、顔の向き、動作などによって判断されるものである。例えば、会話グループ検出部２２６は、主対象である被写体に最も距離が近い被写体を、主対象と会話している人物（関連する人物）であると判断する。また、例えば、会話グループ検出部２２６は、主対象の体や顔、視線等の向きに対向する被写体を、主対象と会話している人物であると判断する。また、会話グループ検出部２２６は、主対象が動いている場合、その動いている方向の先にいる被写体を、主対象と会話している人物であると判断する。なぜなら、このような被写体は、近い将来に主対象と会話すると考えられるからである。

なお、会話グループ検出部２２６は、主対象と会話している人物が、所定時間より長く主対象と会話していないと判断した場合、その人物を主対象と会話していない（関連しない）人物とする。言い換えれば、主対象と会話している人物が、所定時間以内であれば、主対象と会話していないと判断されても、主対象と会話している人物と判断される。

次に、音声入力部１０３、音声処理部１０４について説明する。音声入力部１０３は音声振動を電気信号に変換し、音声信号として出力するマイク２１１。本実施形態ではマイク２１１は左右のＬｃｈ／Ｒｃｈの２チャンネルで構成されたステレオ方式とするが、１チャンネルのモノラル方式でも、２チャンネル以上の複数のマイクを保持する構成でも構わない。Ａ／Ｄ変換部２１２は、マイク２１１により得られたアナログ音声信号をデジタル音声信号に変換する手段である。

音声処理部１０４は音声入力部１０３によって変換された音声信号に各種音声処理を行うブロックである。本実施形態では、音声処理部１０４に音声抽出部２１３、音声調整部２１５、音声合成部２１７を有する。音声抽出部２１３では、人物の音声とそれ以外の音声（以後、「非人物音声」という）とに抽出（決定）することが可能である。さらに、人物音声抽出部２１４では、人物検出部２２２の情報をもとに、人物の音声をひとりひとりの個々の音声に抽出することが可能である。例えば、人物音声抽出部２１４は、音声の周波数、大きさ、および抑揚に基づいて個々の音声に抽出する。さらに、第一の実施形態では、制御部１１１は、人物音声抽出部２１４によって抽出された音声と、画像処理部１０２によって検出された被写体の動作とに基づいて、被写体と音声とを関連付けることができる。例えば、被写体の動作は、発話の頻度、発声のタイミング、口の動きである。

また、音声調整部２１５では音声抽出部２１３によって抽出された音声に対して、レベル調整やイコライザ等による周波数帯域別の音声処理を個別に実施することができる。特に会話音声調整部２１６では、会話グループ検出部２２６の情報に基づいて調整を実施し、抽出された音声対して聞こえやすく強調したり、聞こえにくく控えめにしたりする。その調整内容については後述する。さらに、音声合成部２１７では音声調整部２１５にて個々に調整された音声を合成し、再度ひとつの音声信号に戻す。そして、合成された音声信号はオートレベルコントローラによって振幅を所定のレベルに調整される（以後、ＡＬＣ２１９）。以上の構成を備え、音声処理部１０４は音声信号に所定の処理を行い、音声データを形成しメモリ１０５へ送信する。

図３は本実施形態の撮像装置１００の画像処理部１０２および音声処理部１０４の、他の構成の一例を示すブロック図である。図３と図２との相違点は、画像データおよび音声データの入力ソースが違う点である。図２では、画像信号は撮像部１０１、音声信号は音声入力部１０３からの信号を使用する。一方、図３では画像および音声の入力ソースはメモリ１０５に保存されているデータを入力する。このようにメモリ１０５に一旦保存された（保持された）データを用いることで、撮影時の処理だけでなく、記録後の後処理として本提案の手法を用いることが可能となる。また、主対象選定部２２５においても、一連の動画データから音声処理の対象人物を選定することが可能となる。

ここで、主対象選定部２２５による主対象の選定方法の例について図４を用いて説明する。本実施形態では主対象を、撮影者が着目すると考えられる人物として説明する。例えば、図４（ａ）の場合、合焦マーク４０２は撮像装置１００がフォーカスを合わせている対象を示すマークである。図４（ａ）では主対象４０１と合焦マーク４０２とが一致していることから、撮像装置１００は主対象４０１を主となる被写体と認識し、主対象４０１にフォーカスを合わせていることとなる。主対象選定部２２５は、この主対象４０１を主対象として判断する。このように主被写体と認識している人物を主対象として選定することができる。

また、図４（ｂ）では登録された顔画像を用いる方法を示している。登録顔画像４０３はメモリ１０５に事前に登録された被写体の画像である。主対象選定部２２５はその画像の顔と一致すると判断された人物を主対象と選定する。

また、図４（ｃ）では撮影者の意思によって主対象を決める方法を示す。表示部１０７に表示されている人物に対して、撮影者が表示部１０７のタッチパネルに対してタッチすることで主対象となる被写体を選択する。主対象選定部２２５は、撮影者によって選択された被写体を主対象として判断する。

また、図４（ｄ）では記録済みの動画データを用いる方法を示している。例えば、記録済みの動画データ４０４がメモリ１０５に記録されている場合、主対象選定部２２５は、動画データ４０４の中で最も登場頻度の高い人物４０５を主対象として判断する。ほかにも、例えば、主対象選定部２２５は、フォーカス合焦頻度の高い人物を選択してもよい。

なお、主対象選定部２２５は、例えばフォーカスが合わせられている被写体を主対象とする場合、その主対象に対するフォーカスが外れても、所定時間内にその被写体にフォーカスが戻れば主対象として維持する。言い換えれば、主対象選定部２２５は、主対象からフォーカスが所定時間より長く外れた場合、新たに主対象となる被写体を選定する。

続いて、本実施形態の撮像装置１００の動作について図５～図７を用いて説明する。

図５は撮像装置１００の一連の録画記録シーケンスの一例を示すフローチャートである。この撮像装置１００の処理は、ＲＯＭ（不図示）に記録されたソフトウェアをメモリ１０５に展開してＣＰＵが実行することで実現する。また、本フローチャートの処理は、撮像装置１００が電源オンされたことをトリガに開始される。

ステップＳ５０１では、制御部１１１は、ユーザによる操作部１１２の操作により動画記録を開始するための指示を受け付ける。

ステップＳ５０２では、制御部１１１は、音声録音するための音声のパスを接続する。

ステップＳ５０３では、制御部１１１は、音声パスが確立した後、本実施形態で説明する制御を含めた信号処理の初期設定をおこない、動画記録のための信号処理を開始する。以降、録音シーケンスについて焦点を当てて説明する。動画記録のための信号処理が終了するまで、制御部１１１は動画に記録される映像を記録している。

ステップＳ５０４では、画像処理部１０２の人物検出部２２２は被写体を検出する。

ステップＳ５０５では、画像処理部１０２の主対象選定部２２５は、ステップＳ５０４において検出された被写体から、主対象を選定（判断）する。

ステップＳ５０６では、画像処理部１０２の会話グループ検出部２２６は、ステップＳ５０５において選定された主対象と会話している人物（被写体）を判断する。

ステップＳ５０７では、音声処理部１０４の音声抽出部２１３は、人物音声の抽出を行う。

音声処理部１０４の音声調整部２１５は、ステップＳ５０７において抽出された音声に対して調整処理を行う。ステップＳ５０７において抽出された音声の被写体（人物）が主対象の会話グループに属する被写体（人物）か否かで音声調整処理の内容を異ならせる。音声調整処理の詳細については、図６、図７を用いて後述するが、本フローチャートでは簡易的に説明する。

ステップＳ５０８では、音声処理部１０４の音声調整部２１５は、ステップＳ５０７において抽出された音声の人物が主対象の会話グループに属する被写体か否かを判断する。抽出された音声の人物が主対象の会話グループに属する被写体である場合、ステップＳ５０９の処理が実行される。抽出された音声の人物が主対象の会話グループに属する被写体ではない場合、ステップＳ５１０の処理が実行される。

ステップＳ５０９では、音声処理部１０４の音声調整部２１５は、抽出された音声の音量が大きくなるようにレベル調整する。

ステップＳ５１０では、音声処理部１０４の音声調整部２１５は、抽出された音声の音量が小さくなるようにレベル調整する。ステップＳ５１１では、音声処理部１０４の音声調整部２１５は、抽出された音声に対して、音量以外の調整処理を行う。

ステップＳ５１２では、音声処理部１０４の音声合成部２１７は、個別に音声調整された抽出音声を合成し、ひとつの音声データを生成する。

ステップＳ５１３では、制御部１１１は、動画記録を終了するか否かを判断する。例えば、制御部１１１は、ユーザによる操作部１１２の操作によって動画記録の終了を指示された場合や、記録媒体１１０の残り容量が少ないと判断された場合に、動画記録を終了すると判断する。動画記録を終了しないと判断された場合、ステップＳ５０４の処理に戻り、録音シーケンス処理が継続される。動画記録を終了すると判断された場合、ステップＳ５１４の処理が実行される。

ここで、動画記録を終了しないと判断された場合、ステップＳ５０４の処理に戻る。すなわち、動画記録中は、繰り返し主対象および、主対象と会話している人物が判断される。これにより、例えば、主対象である被写体が画角外に消えた場合やフォーカスが外れた場合でも、制御部１１１は別の被写体を主対象として決定できる。また、主対象と会話している人物の人数が増減した場合でも、制御部１１１はそれに合わせて主対象と会話している人物を決定することができる。

ステップＳ５１４では、制御部１１１は、音声パスを切断し、信号処理を終了する。

ここで、図６および図７を用いて、音声調整処理について説明する。

図６は音声調整処理の想定シーンを示す図である。いま、人物６０２～人物６０５の４人の被写体（人物）が画角６０１の中に存在し、人物６０２は人物６０３と、人物６０４は人物６０５とそれぞれ会話（発声）をしているものとする。このとき、主対象選定部２２５が選定する、音声処理の主対象が人物６０２であった場合、人物６０２と人物６０３とは、画像データから会話グループ検出部２２６によって会話グループ６１０として検出される。この場合、人物６０２、人物６０３の音声は注目すべき音声として強調するように音声調整され、人物６０４と人物６０５の音声は強調対象ではない不要な音声として音声調整される。

図７（ａ）～（ｃ）は音声調整処理を示す図である。図７では、図６における人物６０２、人物６０３、人物６０４をそれぞれ人物Ａ、Ｂ、Ｃとして表記している（人物６０５は不図示）。

図７（ａ）は人物音声抽出部２１４にて抽出された、人物Ａ～Ｃのそれぞれの音声信号を示している。つまり、信号７０１は人物Ａ、信号７０２は人物Ｂ、信号７０３は人物Ｃのそれぞれ抽出された音声信号を示している。そして、それぞれの信号において、振幅の大きな区間は、それぞれの人物が発話（発声）している期間（有声タイミング）を示しており、振幅の小さな区間は発話していない期間（無声タイミング）を示している。例えば、信号７０４と信号７０５とを比較してみると、人物Ａと人物Ｂとは会話しているため、有声タイミングと無声タイミングとがほぼ交互に現れている。一方、人物Ｃは人物ＡおよびＢの会話の相手ではないため、信号７０６は信号７０４と信号７０５とは有声タイミングと無声タイミングが交互に現れることは少ない。

図７（ｂ）は、それぞれの人物に対しての音声の補正係数を示している。本実施形態においては補正係数が１．０のときはレベル調整（ゲイン調整）が行われないことを示す。また、補正係数が１．０よりも大きい場合の処理は、その音声を強調して聞き取りやすくする（より大きい音量にする）ための音声調整処理であり、係数が１．０よりも小さい場合の処理は、音声を聞こえにくくする（より小さい音量にする）ための処理である。

例えば、会話グループ検出部２２６によって、期間７１０の間は人物Ａと人物Ｂが会話していると判定された場合を例に説明する。この場合、人物Ａは主対象であることから、会話音声調整部２１６は、人物Ａと人物Ｂのそれぞれの音声を強調する対象として認識し、それぞれの音声に対する補正係数を大きい値にする（係数７１４、係数７１５）。本実施形態では、人物Ａと人物Ｂとの音声に対する補正係数を同じ値にする。これは、撮影者であるユーザはどちらの音声も等しく聞いていることが想定されるからである。一方、会話音声調整部２１６は、人物Ａと会話していないと判断された人物Ｃの音声に対する補正係数を小さく設定し、人物Ｃの音声を比較的聞き取りにくくなるようにする（係数７１６）。このように、会話音声調整部２１６は、主対象の人物Ａおよびその会話相手である人物Ｂの音声が強調し、それ以外の音声が小さくする。例えば、会話音声調整部２１６は、主対象の人物Ａおよびその会話相手である人物Ｂの音声に対するゲインやレベルを、それ以外の音声に対するものより大きくする。これにより、映像および音声が撮影者であるユーザのイメージに沿った動画データとなる。

そして、図７（ｃ）は、前述の図７（ｂ）の補正係数に基づいて調整処理された音声信号を示している。例えば、会話音声調整部２１６のよる音声調整をゲイン調整によって実現した場合、期間７１０の間は、会話判定された人物Ａと人物Ｂの音声（信号７２４、信号７２５）は補正係数が１．０よりも大きいため、音量が大きくなりユーザにとって聞こえやすくなる。また、会話判定されなかった人物Ｃの音声（信号７２６）は、補正係数が１．０よりも小さため、音量が小さくなり聞こえづらくなる。このように個別調整された抽出音声が音声合成部２１７にて合成されることで、結果として注目対象として判定された会話のみが聞き取りやすい音声データとして生成される。

なお、本実施形態では、主被写体に関する音声を強調（大きくなるよう補正）し、主被写体と関係のない音声を聞こえにくくした（小さくなるように補正した）が、どちらか一方にだけ調整を適用しても構わない。すなわち、主対象となる被写体（人物）およびその会話対象である被写体（人物）の補正係数が、その他の被写体の補正係数よりも大きければよい。

また、会話音声調整部２１６による強調手法も、前述のようなゲイン全体の調整に限らず、イコライザなどにより人物音声の周波数帯域において周波数別に調整しても構わない。

［第二の実施形態］
第一の実施形態では、主対象を選定後、主対象と会話している人物を主対象との位置関係や人物の動作により会話グループを検出し、会話グループの音声を強調し、もしくは不要である他の音声は抑え、注目すべき会話が聞き取りやすい音声データを取得している。

第一の実施形態では、会話グループの検出方法は、人物検出部２２２において検出された人物のうちから、主対象選定部２２５にて選定された人物と会話している人物同士の、位置関係や、顔の向き、動作などによって判断されている。このように、第一の実施形態では、会話グループ検出部２２６の検出は、撮像装置１００の画角６０１内に存在する人物によって行われている。

いま、図１０（ａ）のように主対象６０２である人物Ａと、画角６０１内の人物Ｂ、人物Ｄ（６０３、６０６）が会話グループとして検出されたとする。撮影者によるズーム操作やパンニング操作により人物Ｂが画角からはずれてしまった場合、人物Ａ、人物Ｂ、人物Ｄの会話は継続されていても、次の会話グループの検出では人物Ｂは図１０（ｂ）のように会話グループから外れてしまう。その結果、人物Ｂが会話に参加していても、会話グループ検出部２２６は、人物Ｂを会話グループと判断しないため、人物Ｂの音声だけが強調されず聞き取りづらい会話となってしまうおそれがある。

第二の実施形態は、画角内にいた会話グループの少なくとも１人が画角からはずれても、画角からずれた人の会話が継続していると判断した時には、会話グループを画角からはずれる前の状態で維持し、聞き取りやすい音声を取得し続けることを目的とする。

以下、第二の実施形態について、添付の図面に基づいて詳細に説明する。尚、図１の撮像装置１００の構成は、第一の実施形態と同じため説明を省略する。

図８は本実施形態の撮像装置１００の撮像部１０１、画像処理部１０２、音声入力部１０３、音声処理部１０４の詳細な構成を示すブロック図である。尚、図２と同じ機能を持つブロックは同じ番号を割付し、説明を省略する。

特徴抽出部８０１は、人物音声抽出部２１４より抽出された音声とその音声に対応する人物とを関連付ける。例えば、特徴抽出部８０１は、音声の特徴と画角内の被写体の動作とに基づいて、抽出された音声と対応する人物とを関連付ける。例えば、上記音声の特徴は、周波数、大きさ、および抑揚である。例えば、被写体の動作は、発話の頻度、発声のタイミング、口の動きである。このような関連付けにより、話者の特定を行うための確度を向上させることができる。これにより、制御部１１１は、会話グループの人物が画角から外れても音声から話者を特定できる。

会話グループ修正部８０２は、特徴抽出部８０１で取得した人物と関連付けされた音声の特徴から、画角からはずれた人物が会話を継続しているかを判断する。制御部１１１は、この結果と会話グループ検出部２２６の検出結果から画角から外れた人物を考慮した会話グループになるよう修正する。

なお、第二の実施形態では特徴抽出部８０１、会話グループ修正部８０２を図２に示すブロック図に追加した形態で説明したが、会話グループ修正部８０２を図３に示すブロック図に追加した形態でも動作内容は同じである。

次に第二の実施形態の撮像装置１００の動作について図９、１１を用いて説明する。

図９は撮像装置１００の一連の記録動作を説明したフローチャートである。図９では、図５と同じ動作をするブロックには図５と同じステップ番号を付与している。ここで、先に図９の動作での想定シーン例を図１１を用いて説明する。

図１１（ａ）では、撮影者により記録釦が押下された時点における場面が示されている。図１１（ａ）に示す場面（以降、初期撮影シーンという）では、画角内に人物Ａ、人物Ｂ、および人物Ｄ（６０２、６０３、６０６）が存在する。主対象を人物Ａとし、主対象を含む会話グループは、人物Ａ、人物Ｂ、人物Ｄの３名が検出される。そして、会話グループの少なくとも１人が画角から外れた場合のシーンを説明する。

会話グループに含まれる人物が画角から外れた場合のシーンの例を、図１１（ｂ）～（ｅ）に示す。図１１（ｂ）～（ｄ）は人物Ｂ（６０３）が画角６０１から外れた場合のシーンである。図１１（ｅ）は撮影者による撮像装置１００のパンニング動作により会話グループの全員が画角から外れた場合のシーンである。また各図中の人物の口付近に表記されている横向きの「ハ」の字は、それぞれの人物からの発声状態を表しており、その線の太さで声量や会話への参加頻度の程度を表現している。また図１１の各シーンを、図１１（ａ）は初期撮影シーン、図１１（ｂ）はシーンｂ、図１１（ｃ）はシーンｃ、図１１（ｄ）はシーンｄ、図１１（ｅ）はシーンｅと記述する。また、各図に登場する人物６０２を人物Ａ、人物６０３を人物Ｂ、人物６０６を人物Ｄと記述する。また、各シーンの主対象を人物Ａとする。また、各図の画角６０１を撮像装置１００の撮影画角、会話グループ６１０は会話グループを示す。

図１１（ａ）～（ｅ）各シーンの想定は、以下のとおりである。

シーンｂでは、初期撮影シーンに対し、人物Ｂが画角からは外れているが、画角内にいるときと同様に会話を継続しているシーンが示されている。

シーンｃでは、初期撮影シーンに対し、人物Ｂが画角から外れており、かつ会話をしていないシーンが示されている。なお、シーンｃでは、人物Ａ、人物Ｄともに人物Ｂの方を向いていない状態である。

シーンｄでは、シーンｂのシーンに対し、人物Ｂが遠方へ移動しているが会話は継続しているシーンが示されている。なお、シーンｄでは、人物Ｂの音声は撮像装置１００に入力されている。また、画角内にいる人物Ａの顔の向きが、人物Ｂのいる方向を向いており、発声量が大きくなっている。

シーンｅでは、初期撮影シーンに対し、人物Ａ、人物Ｂ、および人物Ｄが画角から外れたシーンが示されている。なお、シーンｅでは、人物Ａ、人物Ｂ、および人物Ｄは会話を継続している。

以上、図９の動作での想定シーン例を図１１を用いて説明した。以降、図９のフローチャートを用いて撮像装置１００の動作を説明する。本実施形態の説明では、主にステップＳ９０１～ステップＳ９０４について行う。

まず、ステップＳ５０１からステップＳ５０７までの処理によって、画角内の人物検出、主対象の特定、主対象と会話している人物の検出、および音声の抽出が実施される。

ステップＳ９０１では、制御部１１１は、ステップＳ５０６検出された主対象と会話している人数と、特徴抽出部８０１および会話グループ修正部８０２によって関連付けられた会話グループの人数と一致するか否かを判断する。例えば、制御部１１１は、ステップＳ５０６で検出された会話グループの人数に対する現時点の会話グループの人数との差分をとることで判断する。人数が減少したと判断された場合、特徴抽出部８０１および会話グループ修正部８０２によって関連付けられた会話グループの人物のうち、画角から外れた人物が存在することになる。人数が一致すると判断された場合、ステップＳ９０４の処理が実行される。人数が一致しないと判断された場合、ステップＳ９０２の処理が実行される。

ステップＳ９０２では、会話グループ修正部８０２は、画角から外れている人物と、画角内の人物との会話が継続しているか否かを判断する。画角から外れている人物と画角内の人物との会話が継続してないと判断された場合、制御部１１１は、現在の会話グループはステップＳ５０６での検出結果として、ステップＳ９０４以降の処理を行う。会話が継続していると判断された場合、ステップＳ９０３の処理が実行される。

ステップＳ９０３では、制御部１１１は、画角から外れた人物が画角内の会話グループに含まれるように、ステップＳ５０６での検出された主対象と会話している人物（被写体）を修正する。

ステップＳ９０４では、特徴抽出部８０１は、人物音声抽出部２１４より抽出された被写体（人物）毎に抽出された音声に基づいて、音声とその音声に対応する人物との関連付けを行う。

ここで、上述のシーンを用いて、ステップＳ９０２における、人物Ｂが人物Ａ、人物Ｄとの会話を継続しているか否かの判断の一例を説明する。

シーンｂでは、図９のステップＳ５０５およびステップＳ５０６で、主対象である人物Ａと会話している人物として人物Ｄが特定される。しかし、図９のステップＳ９０１で、初期撮影シーンでは会話グループに属していた人物Ｂが、画角から外れたことがわかる。そして、図９のステップＳ９０２で、会話グループ修正部８０２によって人物部が人物Ａ、および人物Ｄとの会話を継続していることが判断される。そのため、図９ステップ９０３で、制御部１１１は、主対象である人物Ａと会話している被写体（人物）に人物Ｂを追加する。すなわち、シーンｂでは、初期撮影シーンと同様の会話グループを維持することになる。

ここで、人物Ｂが人物Ａ、Ｄとの会話が続いているか否かの判断の一例を説明する。会話グループ修正部８０２は、特徴抽出部８０１の情報より、人物Ｂの声の大きさや抑揚に変化がなく、人物Ａ、Ｄとの会話時の発話タイミングが合っているような場合、会話が継続していると判断する。この場合、制御部１１１は、主対象である人物Ａと会話している人物（被写体）に人物Ｂを追加する。また、会話グループ修正部８０２は、画像処理部１０２が被写体の画角から外れた方向と被写体の顔の向きとが判断できる場合、さらに画角内の人物Ａまたは人物Ｄの顔の向きと人物Ｂの画角から外れた方向とに基づいて会話が継続しているか否かを判断する。すなわち、上述の声の大きさや浴用、発話タイミングで会話が継続していると判断しても、画角内の人物Ａまたは人物Ｄの顔の向きが人物Ｂが画角から外れた方向と一致していない場合、会話グループ修正部８０２は、会話が継続していないと判断する。

シーンｃでは、シーンｂに対し、人物Ｂの音声が検出されていない場合である。このような場合、人物Ｂは人物Ａおよび人物Ｄの会話に参加していないと判断され、制御部１１１は、主対象である人物Ａと会話している被写体を人物Ｄのまま、修正は行わない。

シーンｄでは、シーンｂの状況から人物Ｂが移動し、人物Ａ、Ｄから遠ざかるも会話は継続しているシーンである。このシーンでは、人物Ｂの声は小さくなっているが、人物Ａおよび人物Ｄとの会話時の発話タイミングは合っている。また、人物Ｂの声は小さくなったが、人物Ａの声はこれに反し大きくなっている。これらの情報から、会話グループ修正部８０２は、人物Ａおよび人物Ｂは会話をしていると判断する。これに応じて、制御部１１１は、主被写体である人物Ａと会話している被写体として人物Ｂを追加する。

シーンｅでは、撮影者が撮像方向を人物Ａ、人物Ｂ、および人物Ｄのいる方向から打ち上げ花火に向けて変更したシーンである。すなわち、人物Ａ、人物Ｂ、および人物Ｄは会話を継続しているが、主対象である人物Ａも画角から消えた状態である。しかし、特徴抽出部８０１の情報より、取得した音声に人物Ａの音声が含まれているため、この場合では、制御部１１１は人物Ａを主対象であると判断する。加えて、特徴抽出部８０１の情報より、人物Ｂおよび人物Ｄの音声も検出され続けているため、制御部１１１は、主対象である人物Ａと会話している被写体として人物Ｂおよび人物Ｄを追加する。このように、シーンｅのようなシーンでは人物は誰も画角内にいないが、会話グループの音声が強調されて記録される。なお、制御部１１１は、図１１（ｆ）に示すように会話の内容をテキスト変換し、吹き出し状などの形態で表示するよう制御してもよい。

以上、第二の実施形態における撮像装置１００の動作について説明した。

なお、ステップＳ５０６で検出される主対象である被写体と会話している人物の人数は画角内のステップＳ５０４での人物検出に基づくものなので、初期撮影シーン（図１１（ａ））では人物Ｂ、人物Ｄの２名、図１１（ｂ）では人物Ｄの１名である。

なお、第二の実施形態における音声抽出は、動画記録開始から所定時間が経過するまでは人物検出部２２２の検出結果、その後は人物検出２２３の結果と特徴抽出部８０１の情報に基づいて実行される。

以上のように第二の実施形態によれば、会話グループに属する人物が画角から外れた場合でも、会話が継続している場合では適切な会話グループに修正することできる。

第二の実施形態の図１１（ｂ）、（ｃ）、（ｄ）での会話継続の判定について、会話グループに属する人物が画角からはずれた要因について考慮しない前提で説明したが、これを考慮してもよい。例えば、撮影者がレンズ２０１のズーム操作により会話グループに属する人物が画角から外れた場合、その人物が自身の意思とは関係なく画角から外れたため、制御部１１１は、特徴抽出部８０１の情報を使うことなく会話が継続されていると判断してもよい。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

Claims

動画から被写体を検出する検出手段と、
前記動画から検出された被写体から主被写体を選定する選定手段と、
前記動画から被写体の音声を決定する決定手段と、
前記検出手段によって検出された前記被写体と前記決定手段によって抽出された音声とを関連付ける関連付け手段と、
前記選定手段によって選定された主被写体と関連する被写体を判断する判断手段と、
前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とに対する音声処理を、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対する音声処理と異ならせる音声処理手段と
を有することを特徴とする音声処理装置。
前記音声処理手段は、前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とに対するレベル調整と、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対するレベル調整とを異ならせることを特徴とする請求項１に記載の音声処理装置。
前記音声処理手段は、前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とに対する補正係数を、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対する補正係数よりも大きくすることを特徴とする請求項１または２に記載の音声処理装置。
前記音声処理手段は、前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とに対するゲインを、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対するゲインよりも大きくすることを特徴とする請求項１または２に記載の音声処理装置。
前記選定手段は、前記動画において合焦されている被写体を主被写体として選定することを特徴とする請求項１から４のいずれか１項に記載の音声処理装置。
前記選定手段は、主被写体として記録されている画像に基づいて、前記動画から主被写体を選定することを特徴とする請求項１から４のいずれか１項に記載の音声処理装置。
前記選定手段は、前記動画に撮像されている被写体のうち、最も登場頻度の高い被写体を主被写体として選定することを特徴とする請求項１から４のいずれか１項に記載の音声処理装置。
前記判断手段は、前記主被写体との距離に基づいて、前記主被写体と関連する被写体を判断することを特徴とする請求項１から７のいずれか１項に記載の音声処理装置。
前記判断手段は、前記主被写体と最も距離が近い被写体を前記主被写体と関連する被写体と判断することを特徴とする請求項１から８のいずれか１項に記載の音声処理装置。
前記判断手段は、前記主被写体と対向する被写体を前記主被写体と関連する被写体と判断することを特徴とする請求項１から７のいずれか１項に記載の音声処理装置。
前記判断手段は、前記主被写体の動作に基づいて前記主被写体と関連する被写体を判断することを特徴とする請求項１から７のいずれか１項に記載の音声処理装置。
画像処理手段をさらに有し、
前記関連付け手段は、前記決定手段によって抽出された音声と、前記画像処理手段によって検出された被写体の動作とに基づいて、前記検出手段によって検出された前記被写体と前記決定手段によって抽出された音声とを関連付けることを特徴とする請求項１から１１のいずれか１項に記載の音声処理装置。
前記画像処理手段は、前記被写体の発話の頻度、発声のタイミング、または口の動きを検出することを特徴とする請求項１２に記載の音声処理装置。
前記決定手段は、音声の周波数、大きさ、および抑揚に基づいて被写体の音声を抽出することを特徴とする請求項１から１３のいずれか１項に記載の音声処理装置。
前記動画を撮像する撮像手段をさらに有することを特徴とする請求項１から１４のいずれか１項に記載の音声処理装置。
動画から被写体を検出する検出ステップと、
前記動画から検出された被写体から主被写体を選定する選定ステップと、
前記動画から被写体の音声を抽出する抽出ステップと、
前記検出ステップにおいて検出された前記被写体と前記抽出ステップにおいて抽出された音声とを関連付ける関連付けステップと、
前記選定ステップにおいて選定された主被写体と関連する被写体を判断する判断ステップと、
前記主被写体に関連付けられた音声と前記判断ステップにおいて前記主被写体と関連すると判断された被写体の音声とを、前記判断ステップにおいて前記主被写体と関連すると判断されなかった被写体の音声に対して音声処理する音声処理ステップと
を有することを特徴とする音声処理装置。
コンピュータを請求項１から１５のいずれか１項に記載の音声処理装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。