JP2023009567A - 撮像装置、制御方法、およびプログラム - Google Patents

撮像装置、制御方法、およびプログラム Download PDF

Info

Publication number
JP2023009567A
JP2023009567A JP2021112964A JP2021112964A JP2023009567A JP 2023009567 A JP2023009567 A JP 2023009567A JP 2021112964 A JP2021112964 A JP 2021112964A JP 2021112964 A JP2021112964 A JP 2021112964A JP 2023009567 A JP2023009567 A JP 2023009567A
Authority
JP
Japan
Prior art keywords
subject
audio
main subject
person
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021112964A
Other languages
English (en)
Inventor
宏樹 太田
Hiroki Ota
修 原田
Osamu Harada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021112964A priority Critical patent/JP2023009567A/ja
Publication of JP2023009567A publication Critical patent/JP2023009567A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 撮影者のイメージに沿った動画および音声を記録する。【解決手段】 動画から被写体を検出する検出手段と、前記動画から検出された被写体から主被写体を選定する選定手段と、前記動画から被写体の音声を決定する決定手段と、前記検出手段によって検出された前記被写体と前記決定手段によって抽出された音声とを関連付ける関連付け手段と、前記選定手段によって選定された主被写体と関連する被写体を判断する判断手段と、前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とを、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対して音声処理する音声処理手段とを有することを特徴とする音声処理装置。【選択図】 図2

Description

本発明は、人物の音声に対して音声処理を行う音声処理装置に関するものである。
撮像装置における動画撮影では、撮影時の状況を撮影者のイメージ通りに残すことが重要であり、それは映像だけでなく音声についても同様である。
特許文献1では、被写体の音声を抽出し、その抽出した音声信号を被写体の位置に応じて個別に調整することで、臨場感やステレオ感をもった音響空間を実現することが開示されている。
特開2012-138930号公報
しかし、人間が会話を聴取するとき、正確に再現された音響空間が人間のイメージ通りであるとは必ずしも限らない。例えば、人間はたくさんの人がそれぞれに雑談しているなかでも、自分が興味のある人の会話や、自分の名前などは、自然と聞き取ることができる。また、人間は音声情報だけでなく視覚的情報も使用しているともいわれており、話し手を視覚的に確認することのよって、その人物の口の動きやしぐさなどから得る情報も用いて聞こえ方を補っていると言われている。つまり、動画に記録される音声についても、人の記憶(イメージ)に残る会話音声と同じになるように、記録することも重要である。
しかし、特許文献1では、人(音源)の位置関係に基づいて、声の音響空間を正確に再現することが目的であるため、撮影者のイメージとは異なる動画となっているおそれがあった。
そこで、本発明は、撮影者のイメージに沿った動画および音声を記録することを目的とする。
本発明の撮像装置は、動画から被写体を検出する検出手段と、前記動画から検出された被写体から主被写体を選定する選定手段と、前記動画から被写体の音声を決定する決定手段と、前記検出手段によって検出された前記被写体と前記決定手段によって抽出された音声とを関連付ける関連付け手段と、前記選定手段によって選定された主被写体と関連する被写体を判断する判断手段と、前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とに対する音声処理を、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対する音声処理と異ならせる音声処理手段とを有することを特徴とする。
本発明によれば、撮影者のイメージに沿った動画および音声を記録することができる。
第一の実施形態の撮像装置のブロック図を示す図である。 第一の実施形態の撮像処理部と音声処理部のブロック図(記録時)を示す図である。 第一の実施形態の撮像処理部と音声処理部のブロック図(後処理時)を示す図である。 第一の実施形態の主対象選定方法を示す図である。 第一の実施形態の動画記録シーケンスの動作フローを示す図である。 第一の実施形態の想定シーンを説明する図である。 第一の実施形態の音声処理の内容を説明する図である。 第二の実施形態の撮像処理部と音声処理部のブロック図を示す図である。 第二の実施形態の録画記録シーケンスの動作フローを示す図である。 第二の実施形態の課題を説明するための図である。 第二の実施形態の課題となるシーンを説明した図である。
以下に、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。
[第一の実施形態]
本実施形態では、撮像装置に含まれる音声処理装置ついて図1から図3を用いて説明する。
図1は第一の実施形態の撮像装置100の構成を示すブロック図である。
撮像部101は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、画像処理部102によってアナログデジタル変換、画像調整処理などを行い、画像データを生成する。撮影光学レンズは、内蔵型の光学レンズであっても、着脱式の光学レンズであっても良い。また、撮像素子は、CCD、CMOS等に代表される光電変換素子であればよい。音声入力部103は、内蔵または音声端子を介して接続されたマイクにより、撮像装置100の周辺の音声を集音し、アナログデジタル変換されたものを、音声処理部104にて各種音声処理を行い、音声データを生成する。マイクは、指向性、無指向性を問わない。メモリ105は、撮像部101、画像処理部102により得られた画像データや、音声入力部103、音声処理部104により得られた音声データを一時的に記憶する。表示制御部106は、画像処理部102により得られた画像データに係る映像や、撮像装置100の操作画面、メニュー画面等を表示部107や、不図示の映像端子を介して外部のディスプレイに表示させる。表示部107はタッチパネル機能を有し、撮影者が操作することでメニューや被写体の選択などが可能である。
符号化処理部108は、メモリ105に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。また、音声データに関しては圧縮しないようにしてもよい。圧縮画像データは、例えば、MPEG2やH.264/MPEG4-AVCなど、どのような圧縮方式で圧縮されたものであってもよい。また、圧縮音声データも、AC3(A)AC、ATRAC、ADPCMなどのような圧縮方式で圧縮されたものであってもよい。記録再生部109は、記録媒体110に対して、符号化処理部108で生成された圧縮画像データ、圧縮音声データまたは音声データ、各種データを記録したり、記録媒体110から読出したりする。ここで、記録媒体110は、画像データ、音声データ、等を記録することができれば、磁気ディスク、光学式ディスク、半導体メモリなどのあらゆる方式の記録媒体を含む。
制御部111は、撮像装置100、撮像部101の各ブロックに制御信号を送信することで撮像装置100の各ブロックを制御することができ、各種制御を実行するためのCPUやメモリなどからなる。制御部111で使用するメモリ105は、各種制御プログラムを格納するROM、演算処理のためのRAM等であり、制御部111外付けのメモリも含む。操作部112は、ボタンやダイヤルなどからなり、ユーザの操作に応じて、指示信号を制御部111に送信する。本実施形態の撮像装置では、動画記録開始、終了を指示するための撮影ボタン、光学的もしくは電子的に画像に対してズーム動作する指示するためのズームレバー、各種調整をするための十字キー、決定キーなどからなる。音声出力部113は、記録再生部109により再生された音声データや圧縮音声データ、または制御部111により出力される音声データをスピーカ114や音声端子などに出力する。外部出力部115は、記録再生部109により再生された圧縮映像データや圧縮音声データ、音声データなどを外部機器に出力する。データバス116は、音声データや画像データ等の各種データ、各種制御信号を撮像装置100の各ブロックに供給する。
ここで、本実施形態の撮像装置100の通常の動作について説明する。
本実施形態の撮像装置100は、ユーザが操作部112を操作して電源を投入する指示が出されたことに応じて、不図示の電源供給部から、撮像装置の各ブロックに電源を供給する。
電源が供給されると、制御部111は、操作部112のモード切り換えスイッチが、例えば、撮影モード、再生モード等のどのモードであるかを操作部112からの指示信号により確認する。動画記録モードでは、撮像部101、画像処理部102により得られた画像データ(映像データ)と音声入力部103、音声処理部104により得られた音声データとを動画ファイルとして保存する。再生モードでは、記録媒体110に記録された圧縮画像データを記録再生部109により再生して表示部107に表示させる。
動画記録モードでは、まず、制御部111は、撮影待機状態に移行させるように制御信号を撮像装置100の各ブロックに送信し、以下のような動作をさせる。撮像部101は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、画像処理部102で画像調整処理などを行い、画像データを生成する。そして、得られた画像データを表示制御部106に送信し、表示部107に表示させる。ユーザはこの様にして表示された画面を見ながら撮影の準備を行う。
音声入力部103は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、得られた複数のデジタル音声信号を処理して、マルチチャンネルの音声データを生成する。そして、得られた音声データを音声出力部113に送信し、接続されたスピーカ114や不図示のイヤホンから音声として出力させる。ユーザは、この様にして出力された音声を聞きながら記録音量を決定するためのマニュアルボリュームの調整をすることもできる。
次に、ユーザが操作部112の記録ボタンを操作することにより撮影開始の指示信号が制御部111に送信されると、制御部111は、撮像装置100の各ブロックに撮影開始の指示信号を送信し、以下のような動作をさせる。
撮像部101は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、画像処理部102にて画像調整処理などを行い、画像データを生成する。そして、得られた画像データを表示制御部106に送信し、表示部107に表示させる。また、得られた画像データをメモリ105へ送信する。
音声入力部103は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、音声処理部104にて得られた複数のデジタル音声信号を処理して、マルチチャンネルの音声データを生成する。そして、得られた音声データをメモリ105に送信する。また、マイクが一つの場合には、得られたアナログ音声信号をデジタル変換し音声データを生成し、音声データをメモリ105に送信する。
符号化処理部108は、メモリ105に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。
そして、制御部111は、これらの圧縮画像データ、圧縮音声データを合成し、データストリームを形成し、記録再生部109に出力する。音声データを圧縮しない場合には、制御部111は、メモリ105に格納された音声データと圧縮画像データとを合成し、データストリームを形成して記録再生部109に出力する。記録再生部109は、UDF、FAT等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体110に書き込んでいく。以上の動作を撮影中は継続する。
そして、ユーザが操作部112の記録ボタンを操作することにより撮影終了の指示信号が制御部111に送信されると、制御部111は、撮像装置100の各ブロックに撮影終了の指示信号を送信し、以下のような動作をさせる。
撮像部101、画像処理部102、音声入力部103、音声処理部104は、それぞれ画像データ、音声データの生成を停止する。符号化処理部108は、メモリに記憶されている残りの画像データと音声データとを読出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成し終えたら動作を停止する。音声データを圧縮しない場合には、当然、圧縮画像データの生成が終わったら動作を停止する。
そして、制御部111は、これらの最後の圧縮画像データと、圧縮音声データまたは音声データとを合成し、データストリームを形成し、記録再生部109に出力する。記録再生部109は、UDF、FAT等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体110に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて、記録動作を停止させる。制御部111は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置100の各ブロックに送信して、撮影待機状態に戻る。
次に、再生モードでは、制御部111は、再生状態に移行させるように制御信号を撮像装置100の各ブロックに送信し、以下のような動作をさせる。記録媒体110に記録された圧縮画像データと圧縮音声データとからなる動画ファイルを記録再生部109が読出して、読出された圧縮画像データ、圧縮音声データは、符号化処理部108に送る。
符号化処理部108は、圧縮画像データ、圧縮音声データを復号してそれぞれ、表示制御部106、音声出力部113に送信する。表示制御部106は、復号された画像データを表示部107に表示させる。音声出力部113は、復号された音声データを内蔵または、取付けられた外部スピーカから出力させる。
本実施形態の撮像装置100は以上のように、画像、音声の記録再生を行うことができる。
本実施形態では、音声入力部103、音声処理部104において、音声信号を得る際に、マイクにより得られた音声信号のレベル調整処理等の処理をしている。この処理は、装置が起動してから常に行われてもよいし、撮影モードが選択されてから行われてもよい、または、音声の記録に関連するモードが選択されてから行われても良い。また、音声の記録に関連するモードにおいて、音声の記録が開始したことに応じて上記の処理を行ってもよい。本実施形態では、動画像撮影の開始されたタイミングで上記の処理を行うようにしたものとする。
図2は本実施形態の撮像装置100の撮像部101、画像処理部102、音声入力部103、音声処理部104の詳細な構成の一例を示すブロック図である。
撮像部101は、被写体の光学像を取り込む光学レンズ201等の光学系、光学レンズ201により取り込まれた被写体の光学像を電気信号(画像信号)に変換させる撮像素子202を有している。さらに、光学レンズ201を移動させるための位置センサ、モータ等の公知の駆動メカニズムを有する光学レンズ制御部203を有している。本実施形態では撮像部101に光学レンズ201、光学レンズ制御部203が内蔵されているように記載しているが、これらは着脱可能な交換光学レンズであっても良い。例えば、ズーム動作、フォーカス調整などの指示を、ユーザが操作部112を操作して入力すると、制御部111は、光学レンズ制御部203に光学レンズを移動させる制御信号(駆動信号)を送信する。光学レンズ制御部203は、この制御信号に応じて、位置センサで光学レンズ201の位置を確認し、モータ等で光学レンズ201の移動を行う。
画像処理部102は、撮像素子202により変換された画像信号に対して、画像調整部221にて各種画質調整処理をして画像データを形成し、データバス116を介してメモリ105に送信する。ここで形成された画像データをもとに、制御部111はフォーカス調整や光量調整などの各種調整を行う。
さらに本実施形態では、画像処理部102は各種検出機能を有する。人物検出部222は画像調整部221にて形成された画像データから、目や鼻や口などの人物の顔の特徴点を抽出し、それに画像データにおける人物の位置や顔の大きさなどを検出する。そして、それら特徴点の情報をメモリ105に記憶することで、その情報に基づいて被写体人物を個別に認識することも可能である。また、人物検出部222は、唇や頭の動きを検出する人物動作検出部223と、それによりその人物が発話しているか否かを判定する人物発話検出部224とを有している。また、画像処理部102には、人物検出部222にて検出された人物のうち、どの人物を音声処理の主となる被写体(以下、主被写体、主対象ともいう)とするかを選定する主対象選定部225を有する。主対象選定部225は、制御部111によって定められた条件をもとに主対象を選定する。主対象選定部225による、主対象の選定条件については後述する
さらに、画像処理部102は会話グループ検出部226を有する。会話グループ検出部226は、人物検出部222において検出された人物のうちから、主対象選定部225にて選定された人物と会話している人物を検出する。その検出は、人物同士の位置関係や、顔の向き、動作などによって判断されるものである。例えば、会話グループ検出部226は、主対象である被写体に最も距離が近い被写体を、主対象と会話している人物(関連する人物)であると判断する。また、例えば、会話グループ検出部226は、主対象の体や顔、視線等の向きに対向する被写体を、主対象と会話している人物であると判断する。また、会話グループ検出部226は、主対象が動いている場合、その動いている方向の先にいる被写体を、主対象と会話している人物であると判断する。なぜなら、このような被写体は、近い将来に主対象と会話すると考えられるからである。
なお、会話グループ検出部226は、主対象と会話している人物が、所定時間より長く主対象と会話していないと判断した場合、その人物を主対象と会話していない(関連しない)人物とする。言い換えれば、主対象と会話している人物が、所定時間以内であれば、主対象と会話していないと判断されても、主対象と会話している人物と判断される。
次に、音声入力部103、音声処理部104について説明する。音声入力部103は音声振動を電気信号に変換し、音声信号として出力するマイク211。本実施形態ではマイク211は左右のLch/Rchの2チャンネルで構成されたステレオ方式とするが、1チャンネルのモノラル方式でも、2チャンネル以上の複数のマイクを保持する構成でも構わない。A/D変換部212は、マイク211により得られたアナログ音声信号をデジタル音声信号に変換する手段である。
音声処理部104は音声入力部103によって変換された音声信号に各種音声処理を行うブロックである。本実施形態では、音声処理部104に音声抽出部213、音声調整部215、音声合成部217を有する。音声抽出部213では、人物の音声とそれ以外の音声(以後、「非人物音声」という)とに抽出(決定)することが可能である。さらに、人物音声抽出部214では、人物検出部222の情報をもとに、人物の音声をひとりひとりの個々の音声に抽出することが可能である。例えば、人物音声抽出部214は、音声の周波数、大きさ、および抑揚に基づいて個々の音声に抽出する。さらに、第一の実施形態では、制御部111は、人物音声抽出部214によって抽出された音声と、画像処理部102によって検出された被写体の動作とに基づいて、被写体と音声とを関連付けることができる。例えば、被写体の動作は、発話の頻度、発声のタイミング、口の動きである。
また、音声調整部215では音声抽出部213によって抽出された音声に対して、レベル調整やイコライザ等による周波数帯域別の音声処理を個別に実施することができる。特に会話音声調整部216では、会話グループ検出部226の情報に基づいて調整を実施し、抽出された音声対して聞こえやすく強調したり、聞こえにくく控えめにしたりする。その調整内容については後述する。さらに、音声合成部217では音声調整部215にて個々に調整された音声を合成し、再度ひとつの音声信号に戻す。そして、合成された音声信号はオートレベルコントローラによって振幅を所定のレベルに調整される(以後、ALC219)。以上の構成を備え、音声処理部104は音声信号に所定の処理を行い、音声データを形成しメモリ105へ送信する。
図3は本実施形態の撮像装置100の画像処理部102および音声処理部104の、他の構成の一例を示すブロック図である。図3と図2との相違点は、画像データおよび音声データの入力ソースが違う点である。図2では、画像信号は撮像部101、音声信号は音声入力部103からの信号を使用する。一方、図3では画像および音声の入力ソースはメモリ105に保存されているデータを入力する。このようにメモリ105に一旦保存された(保持された)データを用いることで、撮影時の処理だけでなく、記録後の後処理として本提案の手法を用いることが可能となる。また、主対象選定部225においても、一連の動画データから音声処理の対象人物を選定することが可能となる。
ここで、主対象選定部225による主対象の選定方法の例について図4を用いて説明する。本実施形態では主対象を、撮影者が着目すると考えられる人物として説明する。例えば、図4(a)の場合、合焦マーク402は撮像装置100がフォーカスを合わせている対象を示すマークである。図4(a)では主対象401と合焦マーク402とが一致していることから、撮像装置100は主対象401を主となる被写体と認識し、主対象401にフォーカスを合わせていることとなる。主対象選定部225は、この主対象401を主対象として判断する。このように主被写体と認識している人物を主対象として選定することができる。
また、図4(b)では登録された顔画像を用いる方法を示している。登録顔画像403はメモリ105に事前に登録された被写体の画像である。主対象選定部225はその画像の顔と一致すると判断された人物を主対象と選定する。
また、図4(c)では撮影者の意思によって主対象を決める方法を示す。表示部107に表示されている人物に対して、撮影者が表示部107のタッチパネルに対してタッチすることで主対象となる被写体を選択する。主対象選定部225は、撮影者によって選択された被写体を主対象として判断する。
また、図4(d)では記録済みの動画データを用いる方法を示している。例えば、記録済みの動画データ404がメモリ105に記録されている場合、主対象選定部225は、動画データ404の中で最も登場頻度の高い人物405を主対象として判断する。ほかにも、例えば、主対象選定部225は、フォーカス合焦頻度の高い人物を選択してもよい。
なお、主対象選定部225は、例えばフォーカスが合わせられている被写体を主対象とする場合、その主対象に対するフォーカスが外れても、所定時間内にその被写体にフォーカスが戻れば主対象として維持する。言い換えれば、主対象選定部225は、主対象からフォーカスが所定時間より長く外れた場合、新たに主対象となる被写体を選定する。
続いて、本実施形態の撮像装置100の動作について図5~図7を用いて説明する。
図5は撮像装置100の一連の録画記録シーケンスの一例を示すフローチャートである。この撮像装置100の処理は、ROM(不図示)に記録されたソフトウェアをメモリ105に展開してCPUが実行することで実現する。また、本フローチャートの処理は、撮像装置100が電源オンされたことをトリガに開始される。
ステップS501では、制御部111は、ユーザによる操作部112の操作により動画記録を開始するための指示を受け付ける。
ステップS502では、制御部111は、音声録音するための音声のパスを接続する。
ステップS503では、制御部111は、音声パスが確立した後、本実施形態で説明する制御を含めた信号処理の初期設定をおこない、動画記録のための信号処理を開始する。以降、録音シーケンスについて焦点を当てて説明する。動画記録のための信号処理が終了するまで、制御部111は動画に記録される映像を記録している。
ステップS504では、画像処理部102の人物検出部222は被写体を検出する。
ステップS505では、画像処理部102の主対象選定部225は、ステップS504において検出された被写体から、主対象を選定(判断)する。
ステップS506では、画像処理部102の会話グループ検出部226は、ステップS505において選定された主対象と会話している人物(被写体)を判断する。
ステップS507では、音声処理部104の音声抽出部213は、人物音声の抽出を行う。
音声処理部104の音声調整部215は、ステップS507において抽出された音声に対して調整処理を行う。ステップS507において抽出された音声の被写体(人物)が主対象の会話グループに属する被写体(人物)か否かで音声調整処理の内容を異ならせる。音声調整処理の詳細については、図6、図7を用いて後述するが、本フローチャートでは簡易的に説明する。
ステップS508では、音声処理部104の音声調整部215は、ステップS507において抽出された音声の人物が主対象の会話グループに属する被写体か否かを判断する。抽出された音声の人物が主対象の会話グループに属する被写体である場合、ステップS509の処理が実行される。抽出された音声の人物が主対象の会話グループに属する被写体ではない場合、ステップS510の処理が実行される。
ステップS509では、音声処理部104の音声調整部215は、抽出された音声の音量が大きくなるようにレベル調整する。
ステップS510では、音声処理部104の音声調整部215は、抽出された音声の音量が小さくなるようにレベル調整する。ステップS511では、音声処理部104の音声調整部215は、抽出された音声に対して、音量以外の調整処理を行う。
ステップS512では、音声処理部104の音声合成部217は、個別に音声調整された抽出音声を合成し、ひとつの音声データを生成する。
ステップS513では、制御部111は、動画記録を終了するか否かを判断する。例えば、制御部111は、ユーザによる操作部112の操作によって動画記録の終了を指示された場合や、記録媒体110の残り容量が少ないと判断された場合に、動画記録を終了すると判断する。動画記録を終了しないと判断された場合、ステップS504の処理に戻り、録音シーケンス処理が継続される。動画記録を終了すると判断された場合、ステップS514の処理が実行される。
ここで、動画記録を終了しないと判断された場合、ステップS504の処理に戻る。すなわち、動画記録中は、繰り返し主対象および、主対象と会話している人物が判断される。これにより、例えば、主対象である被写体が画角外に消えた場合やフォーカスが外れた場合でも、制御部111は別の被写体を主対象として決定できる。また、主対象と会話している人物の人数が増減した場合でも、制御部111はそれに合わせて主対象と会話している人物を決定することができる。
ステップS514では、制御部111は、音声パスを切断し、信号処理を終了する。
ここで、図6および図7を用いて、音声調整処理について説明する。
図6は音声調整処理の想定シーンを示す図である。いま、人物602~人物605の4人の被写体(人物)が画角601の中に存在し、人物602は人物603と、人物604は人物605とそれぞれ会話(発声)をしているものとする。このとき、主対象選定部225が選定する、音声処理の主対象が人物602であった場合、人物602と人物603とは、画像データから会話グループ検出部226によって会話グループ610として検出される。この場合、人物602、人物603の音声は注目すべき音声として強調するように音声調整され、人物604と人物605の音声は強調対象ではない不要な音声として音声調整される。
図7(a)~(c)は音声調整処理を示す図である。図7では、図6における人物602、人物603、人物604をそれぞれ人物A、B、Cとして表記している(人物605は不図示)。
図7(a)は人物音声抽出部214にて抽出された、人物A~Cのそれぞれの音声信号を示している。つまり、信号701は人物A、信号702は人物B、信号703は人物Cのそれぞれ抽出された音声信号を示している。そして、それぞれの信号において、振幅の大きな区間は、それぞれの人物が発話(発声)している期間(有声タイミング)を示しており、振幅の小さな区間は発話していない期間(無声タイミング)を示している。例えば、信号704と信号705とを比較してみると、人物Aと人物Bとは会話しているため、有声タイミングと無声タイミングとがほぼ交互に現れている。一方、人物Cは人物AおよびBの会話の相手ではないため、信号706は信号704と信号705とは有声タイミングと無声タイミングが交互に現れることは少ない。
図7(b)は、それぞれの人物に対しての音声の補正係数を示している。本実施形態においては補正係数が1.0のときはレベル調整(ゲイン調整)が行われないことを示す。また、補正係数が1.0よりも大きい場合の処理は、その音声を強調して聞き取りやすくする(より大きい音量にする)ための音声調整処理であり、係数が1.0よりも小さい場合の処理は、音声を聞こえにくくする(より小さい音量にする)ための処理である。
例えば、会話グループ検出部226によって、期間710の間は人物Aと人物Bが会話していると判定された場合を例に説明する。この場合、人物Aは主対象であることから、会話音声調整部216は、人物Aと人物Bのそれぞれの音声を強調する対象として認識し、それぞれの音声に対する補正係数を大きい値にする(係数714、係数715)。本実施形態では、人物Aと人物Bとの音声に対する補正係数を同じ値にする。これは、撮影者であるユーザはどちらの音声も等しく聞いていることが想定されるからである。一方、会話音声調整部216は、人物Aと会話していないと判断された人物Cの音声に対する補正係数を小さく設定し、人物Cの音声を比較的聞き取りにくくなるようにする(係数716)。このように、会話音声調整部216は、主対象の人物Aおよびその会話相手である人物Bの音声が強調し、それ以外の音声が小さくする。例えば、会話音声調整部216は、主対象の人物Aおよびその会話相手である人物Bの音声に対するゲインやレベルを、それ以外の音声に対するものより大きくする。これにより、映像および音声が撮影者であるユーザのイメージに沿った動画データとなる。
そして、図7(c)は、前述の図7(b)の補正係数に基づいて調整処理された音声信号を示している。例えば、会話音声調整部216のよる音声調整をゲイン調整によって実現した場合、期間710の間は、会話判定された人物Aと人物Bの音声(信号724、信号725)は補正係数が1.0よりも大きいため、音量が大きくなりユーザにとって聞こえやすくなる。また、会話判定されなかった人物Cの音声(信号726)は、補正係数が1.0よりも小さため、音量が小さくなり聞こえづらくなる。このように個別調整された抽出音声が音声合成部217にて合成されることで、結果として注目対象として判定された会話のみが聞き取りやすい音声データとして生成される。
なお、本実施形態では、主被写体に関する音声を強調(大きくなるよう補正)し、主被写体と関係のない音声を聞こえにくくした(小さくなるように補正した)が、どちらか一方にだけ調整を適用しても構わない。すなわち、主対象となる被写体(人物)およびその会話対象である被写体(人物)の補正係数が、その他の被写体の補正係数よりも大きければよい。
また、会話音声調整部216による強調手法も、前述のようなゲイン全体の調整に限らず、イコライザなどにより人物音声の周波数帯域において周波数別に調整しても構わない。
[第二の実施形態]
第一の実施形態では、主対象を選定後、主対象と会話している人物を主対象との位置関係や人物の動作により会話グループを検出し、会話グループの音声を強調し、もしくは不要である他の音声は抑え、注目すべき会話が聞き取りやすい音声データを取得している。
第一の実施形態では、会話グループの検出方法は、人物検出部222において検出された人物のうちから、主対象選定部225にて選定された人物と会話している人物同士の、位置関係や、顔の向き、動作などによって判断されている。このように、第一の実施形態では、会話グループ検出部226の検出は、撮像装置100の画角601内に存在する人物によって行われている。
いま、図10(a)のように主対象602である人物Aと、画角601内の人物B、人物D(603、606)が会話グループとして検出されたとする。撮影者によるズーム操作やパンニング操作により人物Bが画角からはずれてしまった場合、人物A、人物B、人物Dの会話は継続されていても、次の会話グループの検出では人物Bは図10(b)のように会話グループから外れてしまう。その結果、人物Bが会話に参加していても、会話グループ検出部226は、人物Bを会話グループと判断しないため、人物Bの音声だけが強調されず聞き取りづらい会話となってしまうおそれがある。
第二の実施形態は、画角内にいた会話グループの少なくとも1人が画角からはずれても、画角からずれた人の会話が継続していると判断した時には、会話グループを画角からはずれる前の状態で維持し、聞き取りやすい音声を取得し続けることを目的とする。
以下、第二の実施形態について、添付の図面に基づいて詳細に説明する。尚、図1の撮像装置100の構成は、第一の実施形態と同じため説明を省略する。
図8は本実施形態の撮像装置100の撮像部101、画像処理部102、音声入力部103、音声処理部104の詳細な構成を示すブロック図である。尚、図2と同じ機能を持つブロックは同じ番号を割付し、説明を省略する。
特徴抽出部801は、人物音声抽出部214より抽出された音声とその音声に対応する人物とを関連付ける。例えば、特徴抽出部801は、音声の特徴と画角内の被写体の動作とに基づいて、抽出された音声と対応する人物とを関連付ける。例えば、上記音声の特徴は、周波数、大きさ、および抑揚である。例えば、被写体の動作は、発話の頻度、発声のタイミング、口の動きである。このような関連付けにより、話者の特定を行うための確度を向上させることができる。これにより、制御部111は、会話グループの人物が画角から外れても音声から話者を特定できる。
会話グループ修正部802は、特徴抽出部801で取得した人物と関連付けされた音声の特徴から、画角からはずれた人物が会話を継続しているかを判断する。制御部111は、この結果と会話グループ検出部226の検出結果から画角から外れた人物を考慮した会話グループになるよう修正する。
なお、第二の実施形態では特徴抽出部801、会話グループ修正部802を図2に示すブロック図に追加した形態で説明したが、会話グループ修正部802を図3に示すブロック図に追加した形態でも動作内容は同じである。
次に第二の実施形態の撮像装置100の動作について図9、11を用いて説明する。
図9は撮像装置100の一連の記録動作を説明したフローチャートである。図9では、図5と同じ動作をするブロックには図5と同じステップ番号を付与している。ここで、先に図9の動作での想定シーン例を図11を用いて説明する。
図11(a)では、撮影者により記録釦が押下された時点における場面が示されている。図11(a)に示す場面(以降、初期撮影シーンという)では、画角内に人物A、人物B、および人物D(602、603、606)が存在する。主対象を人物Aとし、主対象を含む会話グループは、人物A、人物B、人物Dの3名が検出される。そして、会話グループの少なくとも1人が画角から外れた場合のシーンを説明する。
会話グループに含まれる人物が画角から外れた場合のシーンの例を、図11(b)~(e)に示す。図11(b)~(d)は人物B(603)が画角601から外れた場合のシーンである。図11(e)は撮影者による撮像装置100のパンニング動作により会話グループの全員が画角から外れた場合のシーンである。また各図中の人物の口付近に表記されている横向きの「ハ」の字は、それぞれの人物からの発声状態を表しており、その線の太さで声量や会話への参加頻度の程度を表現している。また図11の各シーンを、図11(a)は初期撮影シーン、図11(b)はシーンb、図11(c)はシーンc、図11(d)はシーンd、図11(e)はシーンeと記述する。また、各図に登場する人物602を人物A、人物603を人物B、人物606を人物Dと記述する。また、各シーンの主対象を人物Aとする。また、各図の画角601を撮像装置100の撮影画角、会話グループ610は会話グループを示す。
図11(a)~(e)各シーンの想定は、以下のとおりである。
シーンbでは、初期撮影シーンに対し、人物Bが画角からは外れているが、画角内にいるときと同様に会話を継続しているシーンが示されている。
シーンcでは、初期撮影シーンに対し、人物Bが画角から外れており、かつ会話をしていないシーンが示されている。なお、シーンcでは、人物A、人物Dともに人物Bの方を向いていない状態である。
シーンdでは、シーンbのシーンに対し、人物Bが遠方へ移動しているが会話は継続しているシーンが示されている。なお、シーンdでは、人物Bの音声は撮像装置100に入力されている。また、画角内にいる人物Aの顔の向きが、人物Bのいる方向を向いており、発声量が大きくなっている。
シーンeでは、初期撮影シーンに対し、人物A、人物B、および人物Dが画角から外れたシーンが示されている。なお、シーンeでは、人物A、人物B、および人物Dは会話を継続している。
以上、図9の動作での想定シーン例を図11を用いて説明した。以降、図9のフローチャートを用いて撮像装置100の動作を説明する。本実施形態の説明では、主にステップS901~ステップS904について行う。
まず、ステップS501からステップS507までの処理によって、画角内の人物検出、主対象の特定、主対象と会話している人物の検出、および音声の抽出が実施される。
ステップS901では、制御部111は、ステップS506検出された主対象と会話している人数と、特徴抽出部801および会話グループ修正部802によって関連付けられた会話グループの人数と一致するか否かを判断する。例えば、制御部111は、ステップS506で検出された会話グループの人数に対する現時点の会話グループの人数との差分をとることで判断する。人数が減少したと判断された場合、特徴抽出部801および会話グループ修正部802によって関連付けられた会話グループの人物のうち、画角から外れた人物が存在することになる。人数が一致すると判断された場合、ステップS904の処理が実行される。人数が一致しないと判断された場合、ステップS902の処理が実行される。
ステップS902では、会話グループ修正部802は、画角から外れている人物と、画角内の人物との会話が継続しているか否かを判断する。画角から外れている人物と画角内の人物との会話が継続してないと判断された場合、制御部111は、現在の会話グループはステップS506での検出結果として、ステップS904以降の処理を行う。会話が継続していると判断された場合、ステップS903の処理が実行される。
ステップS903では、制御部111は、画角から外れた人物が画角内の会話グループに含まれるように、ステップS506での検出された主対象と会話している人物(被写体)を修正する。
ステップS904では、特徴抽出部801は、人物音声抽出部214より抽出された被写体(人物)毎に抽出された音声に基づいて、音声とその音声に対応する人物との関連付けを行う。
ここで、上述のシーンを用いて、ステップS902における、人物Bが人物A、人物Dとの会話を継続しているか否かの判断の一例を説明する。
シーンbでは、図9のステップS505およびステップS506で、主対象である人物Aと会話している人物として人物Dが特定される。しかし、図9のステップS901で、初期撮影シーンでは会話グループに属していた人物Bが、画角から外れたことがわかる。そして、図9のステップS902で、会話グループ修正部802によって人物部が人物A、および人物Dとの会話を継続していることが判断される。そのため、図9ステップ903で、制御部111は、主対象である人物Aと会話している被写体(人物)に人物Bを追加する。すなわち、シーンbでは、初期撮影シーンと同様の会話グループを維持することになる。
ここで、人物Bが人物A、Dとの会話が続いているか否かの判断の一例を説明する。会話グループ修正部802は、特徴抽出部801の情報より、人物Bの声の大きさや抑揚に変化がなく、人物A、Dとの会話時の発話タイミングが合っているような場合、会話が継続していると判断する。この場合、制御部111は、主対象である人物Aと会話している人物(被写体)に人物Bを追加する。また、会話グループ修正部802は、画像処理部102が被写体の画角から外れた方向と被写体の顔の向きとが判断できる場合、さらに画角内の人物Aまたは人物Dの顔の向きと人物Bの画角から外れた方向とに基づいて会話が継続しているか否かを判断する。すなわち、上述の声の大きさや浴用、発話タイミングで会話が継続していると判断しても、画角内の人物Aまたは人物Dの顔の向きが人物Bが画角から外れた方向と一致していない場合、会話グループ修正部802は、会話が継続していないと判断する。
シーンcでは、シーンbに対し、人物Bの音声が検出されていない場合である。このような場合、人物Bは人物Aおよび人物Dの会話に参加していないと判断され、制御部111は、主対象である人物Aと会話している被写体を人物Dのまま、修正は行わない。
シーンdでは、シーンbの状況から人物Bが移動し、人物A、Dから遠ざかるも会話は継続しているシーンである。このシーンでは、人物Bの声は小さくなっているが、人物Aおよび人物Dとの会話時の発話タイミングは合っている。また、人物Bの声は小さくなったが、人物Aの声はこれに反し大きくなっている。これらの情報から、会話グループ修正部802は、人物Aおよび人物Bは会話をしていると判断する。これに応じて、制御部111は、主被写体である人物Aと会話している被写体として人物Bを追加する。
シーンeでは、撮影者が撮像方向を人物A、人物B、および人物Dのいる方向から打ち上げ花火に向けて変更したシーンである。すなわち、人物A、人物B、および人物Dは会話を継続しているが、主対象である人物Aも画角から消えた状態である。しかし、特徴抽出部801の情報より、取得した音声に人物Aの音声が含まれているため、この場合では、制御部111は人物Aを主対象であると判断する。加えて、特徴抽出部801の情報より、人物Bおよび人物Dの音声も検出され続けているため、制御部111は、主対象である人物Aと会話している被写体として人物Bおよび人物Dを追加する。このように、シーンeのようなシーンでは人物は誰も画角内にいないが、会話グループの音声が強調されて記録される。なお、制御部111は、図11(f)に示すように会話の内容をテキスト変換し、吹き出し状などの形態で表示するよう制御してもよい。
以上、第二の実施形態における撮像装置100の動作について説明した。
なお、ステップS506で検出される主対象である被写体と会話している人物の人数は画角内のステップS504での人物検出に基づくものなので、初期撮影シーン(図11(a))では人物B、人物Dの2名、図11(b)では人物Dの1名である。
なお、第二の実施形態における音声抽出は、動画記録開始から所定時間が経過するまでは人物検出部222の検出結果、その後は人物検出223の結果と特徴抽出部801の情報に基づいて実行される。
以上のように第二の実施形態によれば、会話グループに属する人物が画角から外れた場合でも、会話が継続している場合では適切な会話グループに修正することできる。
第二の実施形態の図11(b)、(c)、(d)での会話継続の判定について、会話グループに属する人物が画角からはずれた要因について考慮しない前提で説明したが、これを考慮してもよい。例えば、撮影者がレンズ201のズーム操作により会話グループに属する人物が画角から外れた場合、その人物が自身の意思とは関係なく画角から外れたため、制御部111は、特徴抽出部801の情報を使うことなく会話が継続されていると判断してもよい。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
[その他の実施形態]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

Claims (17)

  1. 動画から被写体を検出する検出手段と、
    前記動画から検出された被写体から主被写体を選定する選定手段と、
    前記動画から被写体の音声を決定する決定手段と、
    前記検出手段によって検出された前記被写体と前記決定手段によって抽出された音声とを関連付ける関連付け手段と、
    前記選定手段によって選定された主被写体と関連する被写体を判断する判断手段と、
    前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とに対する音声処理を、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対する音声処理と異ならせる音声処理手段と
    を有することを特徴とする音声処理装置。
  2. 前記音声処理手段は、前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とに対するレベル調整と、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対するレベル調整とを異ならせることを特徴とする請求項1に記載の音声処理装置。
  3. 前記音声処理手段は、前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とに対する補正係数を、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対する補正係数よりも大きくすることを特徴とする請求項1または2に記載の音声処理装置。
  4. 前記音声処理手段は、前記主被写体に関連付けられた音声と前記判断手段によって前記主被写体と関連すると判断された被写体の音声とに対するゲインを、前記判断手段によって前記主被写体と関連すると判断されなかった被写体の音声に対するゲインよりも大きくすることを特徴とする請求項1または2に記載の音声処理装置。
  5. 前記選定手段は、前記動画において合焦されている被写体を主被写体として選定することを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
  6. 前記選定手段は、主被写体として記録されている画像に基づいて、前記動画から主被写体を選定することを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
  7. 前記選定手段は、前記動画に撮像されている被写体のうち、最も登場頻度の高い被写体を主被写体として選定することを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
  8. 前記判断手段は、前記主被写体との距離に基づいて、前記主被写体と関連する被写体を判断することを特徴とする請求項1から7のいずれか1項に記載の音声処理装置。
  9. 前記判断手段は、前記主被写体と最も距離が近い被写体を前記主被写体と関連する被写体と判断することを特徴とする請求項1から8のいずれか1項に記載の音声処理装置。
  10. 前記判断手段は、前記主被写体と対向する被写体を前記主被写体と関連する被写体と判断することを特徴とする請求項1から7のいずれか1項に記載の音声処理装置。
  11. 前記判断手段は、前記主被写体の動作に基づいて前記主被写体と関連する被写体を判断することを特徴とする請求項1から7のいずれか1項に記載の音声処理装置。
  12. 画像処理手段をさらに有し、
    前記関連付け手段は、前記決定手段によって抽出された音声と、前記画像処理手段によって検出された被写体の動作とに基づいて、前記検出手段によって検出された前記被写体と前記決定手段によって抽出された音声とを関連付けることを特徴とする請求項1から11のいずれか1項に記載の音声処理装置。
  13. 前記画像処理手段は、前記被写体の発話の頻度、発声のタイミング、または口の動きを検出することを特徴とする請求項12に記載の音声処理装置。
  14. 前記決定手段は、音声の周波数、大きさ、および抑揚に基づいて被写体の音声を抽出することを特徴とする請求項1から13のいずれか1項に記載の音声処理装置。
  15. 前記動画を撮像する撮像手段をさらに有することを特徴とする請求項1から14のいずれか1項に記載の音声処理装置。
  16. 動画から被写体を検出する検出ステップと、
    前記動画から検出された被写体から主被写体を選定する選定ステップと、
    前記動画から被写体の音声を抽出する抽出ステップと、
    前記検出ステップにおいて検出された前記被写体と前記抽出ステップにおいて抽出された音声とを関連付ける関連付けステップと、
    前記選定ステップにおいて選定された主被写体と関連する被写体を判断する判断ステップと、
    前記主被写体に関連付けられた音声と前記判断ステップにおいて前記主被写体と関連すると判断された被写体の音声とを、前記判断ステップにおいて前記主被写体と関連すると判断されなかった被写体の音声に対して音声処理する音声処理ステップと
    を有することを特徴とする音声処理装置。
  17. コンピュータを請求項1から15のいずれか1項に記載の音声処理装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。
JP2021112964A 2021-07-07 2021-07-07 撮像装置、制御方法、およびプログラム Pending JP2023009567A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021112964A JP2023009567A (ja) 2021-07-07 2021-07-07 撮像装置、制御方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021112964A JP2023009567A (ja) 2021-07-07 2021-07-07 撮像装置、制御方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2023009567A true JP2023009567A (ja) 2023-01-20

Family

ID=85118436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021112964A Pending JP2023009567A (ja) 2021-07-07 2021-07-07 撮像装置、制御方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2023009567A (ja)

Similar Documents

Publication Publication Date Title
JP6651989B2 (ja) 映像処理装置、映像処理方法、及び映像処理システム
JP5146503B2 (ja) 動画処理装置、動画再生装置、動画処理方法、動画再生方法及びプログラム
JP2009156888A (ja) 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP2007266793A (ja) 画像加工装置
JP2009065587A (ja) 音声記録装置及び音声再生装置
JP2012100216A (ja) カメラおよび動画撮影プログラム
JP5155092B2 (ja) カメラ、再生装置、および再生方法
JP2011250340A (ja) 撮像装置およびその制御方法
JP7428763B2 (ja) 情報取得システム
JP2011254400A (ja) 画像音声記録装置
JP5214394B2 (ja) カメラ
JP5510559B2 (ja) 音声制御装置および撮像装置
JP5111343B2 (ja) 再生装置
JP4402644B2 (ja) 発話抑制装置、発話抑制方法および発話抑制装置のプログラム
JP2023009567A (ja) 撮像装置、制御方法、およびプログラム
JP2009218900A (ja) 撮像装置、動画記録再生方法、および、プログラム
JP2023034121A (ja) 撮像装置、制御方法、およびプログラム
JP5750668B2 (ja) カメラ、再生装置、および再生方法
JP2013183280A (ja) 情報処理装置、撮像装置、及びプログラム
JP2011130134A (ja) 撮像装置、撮像システム
JP2016208200A (ja) 撮像装置
JP2007266661A (ja) 撮像装置、情報処理装置、撮像表示システム
JP2022135674A (ja) 電子機器、情報処理装置、制御方法、学習方法、プログラム
JP4515005B2 (ja) 電子カメラ
JP2012253692A (ja) 撮像装置、再生装置、データ構造、撮像装置の制御方法および撮像装置用プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20231213