JP2016208200A - 撮像装置 - Google Patents

撮像装置 Download PDF

Info

Publication number
JP2016208200A
JP2016208200A JP2015086328A JP2015086328A JP2016208200A JP 2016208200 A JP2016208200 A JP 2016208200A JP 2015086328 A JP2015086328 A JP 2015086328A JP 2015086328 A JP2015086328 A JP 2015086328A JP 2016208200 A JP2016208200 A JP 2016208200A
Authority
JP
Japan
Prior art keywords
photographer
moving image
voice
unit
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015086328A
Other languages
English (en)
Inventor
裕子 山内
Hiroko Yamauchi
裕子 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015086328A priority Critical patent/JP2016208200A/ja
Publication of JP2016208200A publication Critical patent/JP2016208200A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Abstract

【課題】撮影者の声を認識し、その期間の音量を視聴者の意図に合わせて調節する撮像装置を提供する。【解決手段】音声信号を入力する音声入力手段113と、被写体を撮像して第一の動画ファイルを出力する第一の撮像光学系101と、第一の撮像光学系を操作する人物を撮像して第二の動画ファイルを出力する第二の撮像光学系102と、第二の撮像光学系から人物の口唇領域を検出し、第一の撮像光学系を操作する人物が声を発しているかを認識する撮影者発声認識手段を具備する。撮影者発声認識手段により撮影者が声を発していると認識した期間は、音声入力手段に入力される音声信号を調節する音声信号調節手段を備える。【選択図】図1(a)

Description

本発明は、通常の撮像装置にさらに撮影者も撮影可能な撮像系を有する撮像装置に関し、特に被写体から発せられる音声と撮影者から発せられる音声のバランスを自由に調節できる撮影モードを提供する技術に関する。
従来から、カムコーダ等で撮影された動画において、BGM(Background Music)や効果音等を付加する編集作業が行われている。またその際に、撮影時に録音された音声を残すべく、音声信号より人の声を認識し録音された音声やBGMの音量を調節する編集作業が行われている。
特許文献1には、撮影時の画像と録音された音声信号から人の顔と声を認識し、それぞれが認識された区間の音量を調節する技術が開示されている。
特開2010−10780号公報
上述の特許文献に開示された従来技術では、画像に人の顔が映っているか、音声信号に人の声が入っているかという情報を用いているのみであるため、誰が声を発しているかまで判断することはできない。例えば、人物を撮影しながら撮影者がなにか声を発した場合でも、それが被写体の声なのか、撮影者の声なのかは判断できない。
そのため音量の調節も一律で行われるが、被写体に対し撮影者の方がカメラ近くおり、その分大きな音量で録音されることになる。このとき、被写体と撮影者が会話をしていた場合にはバランスが低下するし、撮影者の声の方をはっきり聞きたいもしくは被写体の声の方をはっきり聞きたいと言った要望には応えることができない。
そこで、本発明の目的は、人の声でも特に撮影者の声を認識し、その期間の音量を視聴者の意図に合わせて調節することを可能にした撮像装置及びその制御方法を提供することにある。
上記の目的を達成するために、本発明の撮像装置は、音声信号を入力する音声入力手段と、被写体を撮像して第一の動画ファイルを出力する第一の撮像光学系と、前記第一の撮像光学系を操作する人物を撮像して第二の動画ファイルを出力する撮像光学系と、前記第二の撮像光学系から人物の口唇領域を検出し、前記第一の撮像光学系を操作する人物が声を発しているかを認識する撮影者発声認識手段を具備し、前記撮影者発声認識手段により撮影者が声を発していると認識した期間は、前記音声入力手段に入力される音声信号を調節する音声信号調節手段を備えることを特徴とする。
本発明によれば、撮影者の声が含まれる動画において、視聴者の用途に合わせて音量を調節する撮像装置を提供することができる。
本発明の実施形態に係る撮像装置の全体構成を示すブロック図である。 本発明の実施形態に係る撮像装置の全体構成を示すブロック図である。 本発明に係る人物の口唇画像から、声を発しているかの判断を行う手段について説明する図である。 本発明に係る撮影者の声と考えられる周波数帯の音量を調節する手段について説明する図である。 本発明に係る撮影者の声の周波数を決定する手段について説明する図である。 本発明に係る撮影者の声の周波数を決定する手段について説明する図である。 本発明に係る撮影者の声の周波数を決定する手段について説明する図である。 本発明に係る撮影者の声の周波数を決定する手段について説明する図である。 本発明の第1の実施形態における動画撮影時に撮影者の画像から録音レベルを調節する処理の一例を示すフローチャートである。 本発明の第1の実施形態における動画撮影時に撮影者の画像から録音レベルを調節する処理の一例を示すフローチャートである。 本発明の第1の実施形態における動画撮影時に撮影者の画像から録音レベルを調節する処理の一例を示すフローチャートである。 本発明の第2の実施形態における動画再生時に撮影者の画像から再生音レベルを調節する処理の一例を示すフローチャートである。 本発明の第2の実施形態における動画再生時に撮影者の画像から再生音レベルを調節する処理の一例を示すフローチャートである。 本発明の第3の実施形態における動画撮影時もしくは動画再生時での画面表示の例である。
以下に、本発明の好ましい実施の形態を、添付図面に基づいて詳細に説明する。
図1(a)、(b)は本発明の実施形態にかかわる撮像装置の構成例を示す図である。
図1に示す撮像装置は、複数の撮像光学系である第1の撮像光学系101、第2の撮像光学系102と、制御部103と、映像信号処理部104と、表示部105と、撮影者発声認識部106と、外部入出力端子部107と、ズームスイッチ108と、シャッタレリーズスイッチ109と、記憶部110と、電源部111と、音量信号処理部112と、マイク113とスピーカ114を備える。
第1の撮像光学系101と第2の撮像光学系102とは、同じ構成を有する。具体的には、第1の撮像光学系101は、光学ユニット115、撮像素子116、撮像信号処理部117を備える。また第2の撮像光学系102は、光学ユニット118、撮像素子119、撮像信号処理部120を備える。
第1の撮像系101は主に被写体の撮影を行うため、画像データを撮像する画像撮像手段としての機能を有する。第1の撮像系101が備える光学系は3群構成である。第1の撮像系101が有する光学ユニット115は、対物レンズ121、ズームレンズ122、シャッタ・絞りユニット123、シフトレンズ124、フォーカスレンズ125、ズーム駆動制御部126、シャッタ・絞り駆動制御部127、シフトレンズ駆動制御部128、フォーカス駆動制御部129からなる。
図1(b)を用い説明する。対物レンズ121は、被写体に焦点を合わせるためのものである。ズームレンズ122は、ズーム制御に関与する1群レンズである。シフトレンズ123は振れ補正を実行する2群レンズである。フォーカスレンズ124は、焦点調節処理を実行する3群レンズである。ズームレンズ122は、光軸方向に沿って位置を変更可能に構成されており、倍率変更を行う。ズーム駆動制御部126は、ズームレンズ122を駆動する。ズームレンズ122の後段に配置されているシャッタ・絞りユニット123は、露光量を調節する。
シャッタ・絞り駆動制御部127は、シャッタ・絞りユニット123を駆動制御して、露光量の調節すなわち露出調節処理を行う露出調節手段である。シフトレンズ124は、光軸に対して略垂直な平面内での位置を変更することが可能に配置されており、振れ補正光学系を構成する。シフトレンズ駆動制御部128は、シフトレンズ124を駆動制御する。フォーカスレンズ125は、ピント調節用レンズである。フォーカスレンズ125は光軸方向に沿って位置を変更可能に構成されている。フォーカス駆動制御部229は、フォーカスレンズ125を駆動制御して、焦点調節処理を実行する焦点調節手段としての機能を有する。
第2の撮像系102は、第1の撮像系101と同一の光軸上を逆向きに配置することで主に撮影者の撮影を行い、撮影者が声を発しているかを認識するための処理機能を有する。第2の撮像系102が備える光学ユニット118は、第1の撮像系101と同様に3群構成としても良いが、ここでは対物レンズのみとする。
撮像素子116および119は、光学ユニット115および118を通ってきた光像を受光して、受光した光像を電気信号に変換する。ここで、第1の撮像光学系101で用いられている撮像素子119は本発明の撮像手段であり、映像信号生成手段に相当する。また第2の撮像光学系102で用いられている撮像素子118は撮影者が発声しているかどうかを認識するための画像を撮像する撮像素子である。撮像信号処理部117および120は、撮像素子116および119がそれぞれ出力した電気信号を映像信号に変換し、変換した映像信号を画像データとして出力する。
撮像信号処理部117および120が出力した画像データに対して、映像信号処理部104は所定の処理を施して表示部105に表示可能な画像信号とし、該画像信号を出力する。撮影者発声認識部106は、撮像信号処理部120から得られた発話者の口唇部分の映像から、当該発話者が発話した発話内容を識別し、その情報を制御部103に伝えるもので、画像処理部130と、動作測定部131を備えている。
画像処理部130は、撮像信号処理部120で撮影された口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出するものである。ここで、図2を参照して、抽出する特徴点について説明する。図2に示すように、口唇部分の特徴点は、口唇部分の上端A点、下端B点、左端C点、右端D点の4点である。なお、各点は、口唇部分を示す赤色の画素値を有する画素と、顔面部分を示す肌色の画素値を有する画素との画素値の差が最大となる画素(境界となる画素)、つまり、口唇上部(上唇)及び口唇下部(下唇)の最端座標に位置する画素が対象となっている。
また、この実施形態では、画像処理部130は、図2に示したように4点を特徴点として抽出しているが、これに限定されるものではなく、任意個数(4点未満でもよいし、5点以上でもよい)の点を特徴点として抽出してもよい。例えば、口唇部分の映像として、発話者の顔面下部が撮影されている場合、下顎の頂点を特徴点として抽出してもよい。この場合、顎部の肌色の画素値を有する画素と首部の肌色の画素値を有する画素との画素値の差(輝度の差)が最大となる画素で、且つ、最下端に位置する画素を抽出すればよい。
そして、この画像処理部130は、撮像系102から映像が継続して入力される限り、各画像について、特徴点を抽出し続ける。つまり、画像処理部130は、1つの画像について、4点を抽出し、映像を構成する複数の画像ごとに抽出していき、抽出した特徴点を、口唇部分の映像を撮影していた時刻に沿った時系列データとして、出力することとなる。
動作測定部131は、画像処理部130で抽出された特徴点の位置について、当該特徴点の位置の変化を、口唇動作の履歴である動作履歴として測定するものである。そして、この動作測定部131では、画像処理部130で抽出された4点(又は5点)の特徴点それぞれについて、特徴点それぞれの変化について、動作履歴を測定する。なお、画像処理部130に口唇部分の映像が継続して入力され、特徴点が抽出された際に、一定時間、特徴点の変化が無い場合、つまり、口唇部分の映像には変化がない(動きがない)場合、この動作測定部5によって、発話者は発話していないと判定される。
制御部103はシステム全体を制御する。具体的には、制御部103は、各々の撮像光学系が備えるズーム駆動制御部126、シャッタ・絞り駆動制御部127、シフトレンズ駆動制御部128、フォーカス駆動制御部129、撮像素子116および119、撮像信号処理部117および120、映像信号処理部104、撮影者発声認識部106の処理を制御する。また、制御部103は、表示部105、外部入出力端子部10、記憶部118、音声信号処理部120を制御する。制御部103は、図示を省略するCPU(Central Processing Unit)等により解釈及び実行されるプログラムに従って処理を実行する。
本実施形態に特有の動作として、制御部103は、前述した撮影者発声認識部106の認識結果に基づいて、音声信号処理部112に指令を出す。また、制御部103は、表示部105に指示して、映像信号処理部104が出力した画像信号を表示画面上に画面表示させる。表示部105は、撮像光学系毎に画像信号を画面表示する。表示部105は、制御部103の指示に従った画面表示処理を実行する。
ズームスイッチ108は、ズームレンズ103を操作する操作手段である。ズームスイッチ08は、ユーザの操作入力に応じて、操作信号を入力し、入力した操作信号を制御部103に送信する。
外部入出力端子部117は、図示を省略する外部装置との間の通信を媒介する。具体的には、外部入出力端子部117には、映像信号及び音声信号が入力される。また、映像信号及び音声信号が外部入出力端子部117から出力される。
シャッタレリーズスイッチ109は、押し込み量に応じて、第1スイッチ( 以下「SW1」と記述)及び第2スイッチ(以下「SW2」と記述)が順にオン状態となるように構成されている。具体的には、ユーザがシャッタレリーズボタン109を約半分押し込んだ場合に、SW1がオン状態となる。ユーザが、更に、シャッタレリーズボタン109を最後まで深く押し込んだ場合に、SW2がオン状態となる。そして、SW1、SW2がオン状態となったことを示す信号が制御部103に送信される。
記憶部110には、撮像信号処理部117および120が出力した画像データ、映像信号処理部104が出力した画像信号等が記憶される。なお、記憶部110には、制御部103によって解釈されて実行される、本実施形態の撮像装置の制御プログラムを記憶するためのメモリ装置も含まれる。
電源部111は、図1に示す撮像装置の各構成部に対して、必要に応じて電源電圧を供給する。
マイク113は音声信号入力部であり、外部の音を録音する際に用いられる。スピーカ114は音声信号出力部であり、動画再生時など外部に音声を出力する際に用いられる。マイク113およびスピーカ114はそれぞれ、音声処理部112に接続される。音声処理部112は、マイク113など外部から入力された音声信号に、デジタル変換処理やエンコード処理等の種々の信号処理を施し、デジタル音声信号として制御部103へ入力する。また、制御部103より音声出力ために音声信号が送られてきた場合には、アナログ変換等の種々の信号処理を施し、当該音声信号をスピーカ114などに出力する。
また音声出力の際、音声処理部112は制御部103からの指示に従い音量を調節しながら出力する。特に撮影者が声を発したとされる期間に関しては、動画撮影もしくは再生を行いながら随時調節を行う。単純にその期間の音量を上げ下げして調節しても良いし、撮影者の声と考えられる周波数帯のみを調節しても良い。後者の方法をとれば、仮に被写体と撮影者が同時に声を発した場合でも、撮影者の声のみを調節することができる。
前述撮影者声と考えられる周波数帯のみを調節する方法について、図3を用いて説明する。301は撮像光学系102により撮影された撮影者の顔画像である。顔画像301はa、b、c、d、eとフレームが進むとする。ここで、撮影者の顔画像301の中から、301cから301dの期間で撮影者が発声していると判断されたとする。このとき、発声したとされるフレーム301cとその直前のフレーム301bの音を周波数であらわしたものが302bと302cである。この302bと302cを比較し、差異のある周波数帯を調節する。ここでは差異が見られる周波数帯Aを調節する。また、このとき一般的に人の声の周波数帯であるとされる100Hzから700Hzのみの差異を見ると限定しても良い。直前のフレームも撮影者が声を発していたと認識されていた場合には、直前のフレームにて決定した周波数帯を継続して調節対象とする。
ただし、この方法では撮影者と被写体が同時に発声した場合に、被写体の声までも調節対象となってしまう。被写体の声でなくとも、周りの音声等も撮影者の声と認識されてしまうことが考えられる。
図4(a)は撮影者と被写体が同時に発声したときの音を周波数で表した一例である。300Hzと600Hzにそれぞれピークがあるとする。そこで、撮影者が声を発していないと認識されたフレーム、声を発したと認識されたフレームそれぞれから平均値を算出し、その差分から撮影者の声であると考えられる周波数を決定する。図4(b)は撮影者が声を発していないと認識されたフレームの平均、図4(c)は声を発したと認識されたフレームの平均である。また図4(d)は、図4(b)と図4(c)の差分をとったものである。これより、最も値の大きい周波数Cが撮影者の声であると判断し、図4(a)の例でも周波数Cに近いと考えられる600Hzの方のピークを調節する。またここで説明した差分から撮影者の声の周波数を求める方法は撮影時に随時行っても良いし、動画記録終了後に声を発したと認識されたフレームを見直し、撮影者の声の周波数と比較して逸脱するものがあったら声を発していないと情報を修正する処理にも利用できる。
本実施形態の撮像装置の制御方法は、図1に示す撮像装置が備える各処理部によって実現される。また、図1に示す撮像装置の機能は、CPUとその上で実行されるコンピュータプログラムにより実現される。このコンピュータプログラムは、コンピュータが読み取り可能な記録媒体に格納することができ、この記録媒体に記録して提供され、又は、通信インタフェースを介してネットワークを利用した送受信により提供される。
次に、図1に示す撮像装置による、自動焦点調節(AF)処理、自動露出(AE)処理、及び、ズーム駆動制御処理について説明する。上述したように、シャッタレリーズスイッチ109の押し込み量に応じて、SW1及びSW2が順にオン状態となる。シャッタレリーズスイッチ109のSW1がオン状態となったことを示す信号が制御部103に入力されると、制御部103が、フォーカス駆動制御部129に指示して、制御部103が決定した指標を対象としてAF処理を実行させる。制御部103から指示を受けたフォーカス駆動制御部129は、フォーカスレンズを駆動することによって、上記指標を対象としたAF処理を実行する。また、制御部203が、シャッタ・絞り駆動制御部127に指示して、制御部103が決定した指標を対象として、AE処理を実行させる。具体的には、シャッタ・絞り駆動制御部127が、シャッタ・絞りユニット123を駆動して、露光量を適正な値に設定する。
SW2がオン状態となり、SW2がオン状態となったことを示す信号が制御部103に入力されると、制御部103が、撮像素子116および119に指示して、撮像素子116および119が受光した光像を電気信号に変換させる。撮像信号処理部117および120が、上記電気信号に基づいて画像データを出力する。映像信号処理部104が、撮像信号処理部117および120から得られる画像データに基づいて、表示部105に表示する画像信号を出力する。制御部103は、撮像信号処理部117および120が出力した画像データ、映像信号処理部104が出力した画像信号を記憶部110に記憶する。
ユーザがズームスイッチ108を操作すると、その操作信号が制御部103に入力され、制御部103がズーム駆動制御部126に指示を与える。ズーム駆動制御部126は、制御部103によって指示されたズーム位置へズームレンズ122を移動させる。これによって、ズーム駆動制御処理が実行される。
以下、図5を参照して、本発明の第1の実施例による、動画撮影時に録音レベルの調節を行う方法について説明する。
図5は撮像装置の動作処理について説明するフローチャートである。なお図中の「YES」は肯定的な判断結果を示し、「NO」は否定的な判断結果を示す。
図5(a)は本発明の実施形態にかかわる撮像装置における動画撮影時に録音レベルの調節を行う処理例を示すフローチャートであり、撮影者発声認識処理と、撮影者発声Flag補正処理を含む。当該撮影者発声認識の処理例については図5(b)に示す。つまり図5(b)は得られた撮影者の画像から撮影者が声を発しているかを認識する処理を例示したフローチャートである。当該撮影者発声Flag補正処理については図5(c)に示す。つまり図5(c)は、撮影者発声認識処理に撮影者発声Flagが1とされたフレームに対し、認識に誤りがないかを判断し、誤りがある場合には補正する処理を示したフローチャートである。
まず、図1に示す撮像装置の制御部103が、ユーザの操作入力に従って撮影モードに設定されたことを確認し、撮影処理を開始する。
先ず、ステップS501では、撮影者の声を大きく録音するか、小さく録音するか、またどの程度調節するか等の音量調節の仕方を選択する。
ステップS502では、本発明の撮像手段である撮像光学系101の撮像素子116の駆動を開始する。
続くステップS503では、シャッタレリーズスイッチ109のSW1がオン状態になったか否かを制御部103が判断する。その結果、SW1のオン状態が検知された場合(S503でYESの場合)には、ステップS504に進み、またSW1のオフ状態が検知された場合(S503でNOの場合)には、S503での判定が繰り返される。
ステップS504において、焦点調節やシャッタースピードの決定等の撮影準備をAE及びAFにて行い、ステップS505において、撮影者発声Flagを0に初期化し、ステップS506において、撮影者発声認識処理を行う撮像光学系102の撮像素子119の駆動を開始する。
ステップS507において、制御部103がシャッタレリーズスイッチ109のSW2がオン状態になったかを判断する。制御部103が、SW2がオン状態になったと判断した場合(S507でYESの場合)には、ステップS508に進み動画の記録を開始する。制御部103が、SW2がオン状態でない、すなわち、オフ状態であると判断した場合(S507でNOの場合)には、上記ステップS507に戻り、SW2がON状態であるかを判断する。
ステップS508において、撮影者発声認識部106が撮影者が声を発したかの認識処理を行い、続くステップS509において、撮影者発声Flagの補正処理を行い、ステップS510において、音声信号処理部112がマイク113から入力される音の録音レベルを調節する。撮影者発声認識処理の具体的内容については、図5(b)を用いて後で詳細に説明する。撮影者発声Flag補正処理の具体的内容については、図5(c)を用いて後で詳細に説明する。
ステップS511において、撮影者発声Flagの値を見る。撮影者発声Flagが0である、すなわち画像フレームにて撮影者が声を発していないと判断された場合(S511でNOの場合)には、動画撮影を継続し、ステップS509に戻り撮影者発声認識処理を行う。撮影者発声Flagが1である、すなわち画像フレームにて撮影者が声を発していると判断された場合(S511でYESの場合)には、ステップS514に進み、動画撮影を終了し、ステップS515において、記憶部110に画像を保存し、撮影を終了する。
図5(b)は図5(a)のステップS509における撮影者発声認識処理の一例を示す。
先ず、ステップS516において、撮影者発声認識部106は画像処理部130によって、撮像信号処理部120から得られた口唇部分の映像から特徴点を抽出する。続くステップS517において、撮影者発声認識部106は、動作測定部131によって、画像処理部130で抽出された特徴点の変化を、動作履歴(動作履歴グラフ)として測定する。
ステップS518では、動作履歴から一定時間内に変化があるかどうかを判断する。一定時間内に変化があった場合(S102でYESの場合)、制御部103は撮影者が声を発したと判断し、続くステップS519において撮影者発声Flagを1にして、処理を終了する。逆に一定時間内に特徴点の変化が無い場合、つまり、口唇部分の映像には変化がない(動きがない)場合、制御部103は撮影者が声を発していないと判断し、続くステップS520において、撮影者発声Flagを0にして、処理を終了する。
図5(c)は図5(a)のステップS510における撮影者発声Flag補正処理の一例を示す。
先ず、ステップS521において、制御部103が撮影者発声Flagを確認する。制御部103が、撮影者発声Flagが1ではない、すなわち撮影者が声を発してないと判断した場合(S521でNOの場合)には、そのまま処理を終了する。制御部103が、撮影者発声Flagが1である、すなわち撮影者が声を発したと判定した場合(S521でYESの場合)には、続くステップS522にて、制御部103が調節対象の周波数帯を決定する。決定の方法は前述のとおりである。
ステップS523において、撮影した動画ファイルの先頭から直前までの撮影者発声Flagが0のフレームの音声信号の平均を、ステップS524にて撮影者発声Flagが1のフレームの音声信号の平均を算出し、続くステップS525において、その差分を算出する。その結果に基づき、ステップS526において、撮影者の声と考えられる周波数を決定する。
ステップS527において、ステップS522で求めた調節対象の周波数帯と、ステップS526において求めた撮影者の声の周波数に乖離があるかを判断する。この判断は、調節対象の周波数帯の中のピーク値と、撮影者の声と考えられる周波数がどれくらいずれているかを見て行う方法があるし、それ以外の方法を用いても良い。調節対象の周波数帯と撮影者の声の周波数に乖離がないと判断された場合(S527でNOの場合)には、そのまま処理を終了するが、乖離があると判断された場合(S527でYESの場合)には、ステップS528にて撮影者発声Flagを0にし、処理を終了する。
以下、図6を参照して、本発明の第2の実施例による、動画撮影時に録音レベルの調節を行う方法について説明する。なお図中の「YES」は肯定的な判断結果を示し、「NO」は否定的な判断結果を示す。動画再生の際には、撮影者発声Flagを見て、再生音レベルを調節する。また動画撮影の際、撮影者発声Flagは撮影者が声を発していると認識したフレームに都度付与しても良いし、声を発したタイミングもしくはフレームを記憶部110に記憶しておき、動画記録の際に管理ファイルとして一緒に記録しても良い。
図6(a)は本発明の実施形態にかかわる撮像装置における動画再生時に再生音レベルの調節を行う処理例を示すフローチャートであり、撮影処理と、撮影者発声認識処理と、撮影者発声Flag補正処理を含む。当該撮影処理については図6(b)に示す。つまり図6(b)は撮像装置が撮影モードに設定されたときの処理動作を例示したフローチャートである。当該撮影者発声認識処理および当該撮影者発声Flag補正処理については、実施例1で説明した通りである。
先ず、ステップS601において、図1に示す撮像装置の制御部103がユーザの操作入力に従って再生モードに設定されているかを確認する。制御部103が再生モードであると判断した場合(S601でYESの場合)には、ステップS602に続く。制御部103が再生モードでない、すなわち撮影モードであると判断した場合(S601でNOの場合)には、ステップ603において撮影処理を行う。なお具体的内容については図6(b)を用いて後で詳細に説明する。
ステップS602では、撮影者の声を大きく再生するか、小さく再生するか、またどの程度調節するか等の音量調節の仕方を選択する。このステップでなくとも、動画再生しながら随時変更しても良い。
ステップS604では、記憶部110に保存されている動画の再生を開始する。続くステップS605では、制御部103が再生中の動画が音調節モードで撮影されたものであるかを判断する。制御部103が音調節モードではないと判断した場合(S605でNOの場合)には、ステップS608に進む。制御部103が音調節モードであると判断した場合(ステップS605においてYESの場合)には、続くステップS606において制御部103は、再生中のフレームの撮影者発声Flagを確認する。撮影者発声Flagが1である、すなわち撮影者が声を発していると判断した場合(S606でYESの場合)は、そのフレームでは撮影者の発した声が録音されているため、続くステップS607において、再生者の用途に応じて再生音レベルを調節する処理を行う。撮影者発声Flagが0である、すなわち撮影者が声を発していないと判断した場合(S606でNOの場合)は、ステップS608に進む。調節の仕方に関してはステップS602の処理に従う。
続くステップS608では、制御部103が再生中の動画が終了したかどうかを判断する。制御部103が動画が終了したと判断した場合(S608でYESの場合)には、そこで処理を終了する。制御部103が動画がまだ続くと判断した場合(S608でNOの場合)には、ステップS605の処理に戻る。
図6(b)は図6(a)のステップS603における撮影処理の一例を示す。
先ず、ステップS609では、本発明の撮像手段である撮像光学系101の撮像素子116の駆動を開始する。
続くステップS610では、シャッタレリーズスイッチ109のSW1がオン状態になったか否かを制御部103が判断する。その結果、SW1のオン状態が検知された場合(S610でYESの場合)には、ステップS611進み、またSW1のオフ状態が検知された場合(S610でNOの場合)には、S610での判定が繰り返される。
ステップ611において、焦点調節やシャッタースピードの決定等の撮影準備をAE及びAFにて行い、ステップ612において、撮影者発声Flagを0に初期化し、ステップS613において、撮影者発声認識を行う撮像光学系102の撮像素子119の駆動を開始する。
ステップS614において、制御部103がシャッタレリーズスイッチ109のSW2がオン状態になったかを判断する。制御部103が、SW2がオン状態になったと判断した場合(S614でYESの場合)には、ステップS615に進み動画の記録を開始する。制御部103が、SW2がオン状態でない、すなわち、オフ状態であると判断した場合(S614でNOの場合)には、上記ステップS614に戻り、SW2がON状態であるかを判断する。
ステップS616において、撮影者発声認識部106が撮影者が声を発したかの認識処理を行い、続くステップS617において、撮影者発声Flagの補正処理を行う。撮影者発声認識処理および撮影者発声Flag補正処理の具体的内容については、実施例1で説明した通りである。
ステップ618において、再び、制御部103がシャッタレリーズスイッチ109のSW2がオン状態になったかを判断する。制御部103が、SW2がオン状態になったと判断した場合(S618でYESの場合)には、ステップ619に進み、動画撮影を終了し、ステップ620において、記憶部110に画像を保存し、撮影処理を終了する。制御部103が、SW2がオン状態でない、すなわち、オフ状態であると判断した場合(S618でNOの場合)には、動画記録を続け、撮影者発声認識処理を行う。
以下、図7を参照して、本発明の第3の実施例による、画面表示の方法について説明する。
これまでにも説明した通り、撮影者発声認識処理は撮影者の顔画像を撮影したそのデータを元に行う。このとき動画データには撮像光学系102で撮影した撮影者の顔データを付与しても良いし、付与しなくとも良い。また、撮影者の顔データを付与する場合には、撮影者発声認識部106が撮影者が声を発したと認識したタイミングで前記撮影者の顔データに効果をつけても良いし、もしくは撮影者が見て分かるようなアイコンを表示させても良い。
撮影者の顔データを付与する場合の画面表示例について、図7を用いて説明する。図7は撮像装置における再生画面表示の例である。図に示す701は本発明における撮像装置である。702は、撮影者を撮影するための撮像光学系102である。703は表示部105であり、通常撮像光学系101により撮影された画像を表示する。704は撮像光学系102により撮影された画像である。705は撮影者が発声したと認識したタイミングで表示するアイコンである。
撮影者が声を発していないと認識された場合(撮影者発声Flagが0の場合)の画面表示例が701aである。撮影者が声を発したと認識された場合(撮影者発声Flagが1の場合)の画面表示例が701bである。この例では、撮影者が声を発したと認識すると、撮影者の画像704を大きく表示し、かつアイコン705を表示させている。他にも、撮影者の画像704を点滅させるなどの効果を付与しても良い。また、効果をつける際には、撮影者の声のトーンや、大きさから効果を変化させても良い。
実施例3により、再生時にどのタイミングで撮影者が声を発したと認識されたかが視覚的にも分かるようになる。そこで、もし視聴者が意図しないタイミングで撮影者が声を発したと認識されていた場合には、撮像装置701の操作からも撮影者発声Flagの修正や音調節の設定ができるようにしても良い。例えば、動画再生中にシャッタレリーズスイッチ109が押された場合、そのシーンの撮影者発声Flagを1にする。ズームスイッチ108が操作された場合、撮影者発声Flagが1のフレームの音量を調節できる。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
101 撮像光学系1、102 撮像光学系2、103 制御部、
104 映像信号処理部、105 表示部、106 撮影者発声認識部、
107 外部入出力端子部、108 ズームスイッチ、
109 シャッタレリーズスイッチ、110 記憶部、111 電源部、
112 音声信号処理部、113 マイク、114 スピーカ、
115 撮像光学系1に含まれる光学ユニット1、
116 撮像光学系1に含まれる撮像素子1、
117 撮像光学系1に含まれる撮像信号処理部1、
118 撮像光学系2に含まれる光学ユニット2、
119 撮像光学系1に含まれる撮像素子2、
120 撮像光学系1に含まれる撮像信号処理部2、
130 画像処理部、131 動作測定部

Claims (13)

  1. 第一の動画像を撮影する第一の撮影手段と、
    第二の動画像を撮影する第二の撮影手段と、
    前記第二の撮影手段は前記第一の撮影手段を操作する人物を撮影し、
    前記第二の動画像から人物の口唇領域を検出し、撮影者が声を発しているかを認識する撮影者発声認識手段と、
    音声信号を入力する音声入力手段と、
    前記音声入力手段により入力された音声を処理する音声処理手段と、
    前記音声信号を前記第一の動画像に記録する音声記録手段を具備し、
    前記撮影者発声認識手段により撮影者が声を発していると認識した期間は、前記音声入力手段に入力される音声信号を調節する音声信号調節手段を備えることを特徴とする撮像装置。
  2. 第一の動画像を撮影する第一の撮影手段と、
    第二の動画像を撮影する第二の撮影手段と、
    前記第二の撮影手段は前記第一の撮影手段を操作する人物を撮影し、
    前記第二の動画像から人物の口唇領域を検出し、撮影者が声を発しているかを認識する撮影者発声認識手段と、
    音声信号を入力する音声入力手段と、
    前記音声入力手段により入力された音声を処理する音声処理手段と、
    前記音声信号を前記第一の動画像に記録する音声記録手段を具備し、
    前記撮影者発声認識手段により撮影者が声を発していると認識した期間は、声を発したという情報を付与する撮影者発声情報付与手段を備えることを特徴とする撮像装置。
  3. 前記撮影者発声情報付与手段は前記撮影者発声認識手段により撮影者が声を発していると認識した画像フレームに付与することを特徴とする請求項2に記載の撮像装置。
  4. 前記第一の動画像に撮影時の詳細情報を記録できる管理ファイルを具備し、
    前記撮影者発声情報付与手段は前記撮影者発声認識手段により撮影者が声を発していると認識した期間を特定し、前記管理ファイルに付与することを特徴とする請求項2に記載の撮像装置。
  5. 前記撮影手段により撮影された動画像を表示する表示手段と
    前記第一の動画像を再生する際に前記撮影者発声情報を元に前記音声出力手段から出力される音声信号を調節する音声信号調節手段を持つこと特徴とする再生装置。
  6. 前記表示手段は前記撮影者発声認識手段により撮影者が声を発していると認識した期間前記第一の動画像に前記第二の動画像を組み込み表示することを特徴とする請求項1又は請求項2に記載の撮像装置。
  7. 前記撮影手段により撮影された動画像を表示する表示手段を具備し、
    前記表示手段は前記第一の動画像に前記第二の動画像を組み込み第三の動画像を表示する動画像組込手段を有することを特徴とする請求項1又は請求項2に記載の撮像装置。
  8. 前記動画組込手段は前記音声入力手段に入力された音声の大きさに応じて第二の動画像の大きさを変える、動画組込変更手段を有することを特徴とする請求項1又は請求項2に記載の撮像装置。
  9. 前記表示手段は、前記撮影者発声認識手段により撮影者が声を発していないと認識した期間は前記第一の動画像を表示し、前記撮影者発声認識手段により撮影者が声を発していると認識した期間は前記第三の動画像を表示することを特徴とする請求項8に記載の撮像装置。
  10. 前記撮影した動画像を記録する記録手段を具備し、
    前記記録手段は前記第一の動画像と前記第二の動画像をそれぞれ記録することを特徴とする請求項1又は請求項2に記載の撮像装置。
  11. 前記撮影した動画像を記録する記録手段を具備し、
    前記記録手段は前記表示手段により表示された動画像と同様に前記第一の動画像に前記第二の動画像を組み込み記録することを特徴とする請求項1又は請求項2に記載の撮像装置。
  12. 前記撮影者発声認識手段により撮影者が声を発していると認識した期間、それを撮影者に知らせる撮影者発声認識通知手段を具備することを特徴とする請求項1又は請求項2に記載の撮像装置。
  13. 前記撮影者発声認識通知手段は前記表示手段により通知することを特徴とする請求項12に記載の撮像装置。
JP2015086328A 2015-04-21 2015-04-21 撮像装置 Pending JP2016208200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015086328A JP2016208200A (ja) 2015-04-21 2015-04-21 撮像装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015086328A JP2016208200A (ja) 2015-04-21 2015-04-21 撮像装置

Publications (1)

Publication Number Publication Date
JP2016208200A true JP2016208200A (ja) 2016-12-08

Family

ID=57487967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015086328A Pending JP2016208200A (ja) 2015-04-21 2015-04-21 撮像装置

Country Status (1)

Country Link
JP (1) JP2016208200A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022518520A (ja) * 2019-01-25 2022-03-15 北京字節跳動網絡技術有限公司 画像変形の制御方法、装置およびハードウェア装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022518520A (ja) * 2019-01-25 2022-03-15 北京字節跳動網絡技術有限公司 画像変形の制御方法、装置およびハードウェア装置
JP7209851B2 (ja) 2019-01-25 2023-01-20 北京字節跳動網絡技術有限公司 画像変形の制御方法、装置およびハードウェア装置

Similar Documents

Publication Publication Date Title
US20230115929A1 (en) Audio Processing Method and Device
JP2009156888A (ja) 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
KR20100095232A (ko) 화이트 밸런스 조정 방법, 상기 방법을 기록한 기록 매체, 화이트 밸런스 조정 장치
KR101710626B1 (ko) 디지털 촬영 장치 및 이의 제어 방법
JP2009065587A (ja) 音声記録装置及び音声再生装置
JP2012100216A (ja) カメラおよび動画撮影プログラム
JP7428763B2 (ja) 情報取得システム
KR101760345B1 (ko) 동영상 촬영 방법 및 동영상 촬영 장치
JP5510559B2 (ja) 音声制御装置および撮像装置
US20140253763A1 (en) Electronic device
US20130063621A1 (en) Imaging device
JP2014122978A (ja) 撮像装置、音声認識方法、及びプログラム
JP2010093603A (ja) カメラ、再生装置、および再生方法
JP2016208200A (ja) 撮像装置
JP5230164B2 (ja) 音声記録装置
US11665391B2 (en) Signal processing device and signal processing system
JP2007266661A (ja) 撮像装置、情報処理装置、撮像表示システム
JP2011205527A (ja) 撮像装置及び方法、並びにプログラム
JP5235644B2 (ja) 撮像装置、画像処理方法、及び撮像装置の制御方法
JP2010124039A (ja) 撮像装置
JP2023009567A (ja) 撮像装置、制御方法、およびプログラム
JP2023034121A (ja) 撮像装置、制御方法、およびプログラム
JP2013176049A (ja) カメラ、再生装置、および再生方法
JP2018191023A (ja) 撮像システム
JP2013207472A (ja) デジタルカメラ