JP2019062448A - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP2019062448A
JP2019062448A JP2017186627A JP2017186627A JP2019062448A JP 2019062448 A JP2019062448 A JP 2019062448A JP 2017186627 A JP2017186627 A JP 2017186627A JP 2017186627 A JP2017186627 A JP 2017186627A JP 2019062448 A JP2019062448 A JP 2019062448A
Authority
JP
Japan
Prior art keywords
image
area
voice
image processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017186627A
Other languages
English (en)
Inventor
北村 和久
Kazuhisa Kitamura
和久 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2017186627A priority Critical patent/JP2019062448A/ja
Priority to US16/132,007 priority patent/US10805557B2/en
Priority to CN201811104628.0A priority patent/CN109561250A/zh
Publication of JP2019062448A publication Critical patent/JP2019062448A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B13/00Optical objectives specially designed for the purposes specified below
    • G02B13/06Panoramic objectives; So-called "sky lenses" including panoramic objectives having reflecting surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • G06T3/047Fisheye or wide-angle transformations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/60Noise processing, e.g. detecting, correcting, reducing or removing noise
    • H04N25/61Noise processing, e.g. detecting, correcting, reducing or removing noise the noise originating only from the lens unit, e.g. flare, shading, vignetting or "cos4"
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Optics & Photonics (AREA)
  • Theoretical Computer Science (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】画像内の一部の領域と、その領域に対応する音声との関係を明確にしてユーザに提供できるようにする。
【解決手段】 制御部21は、記憶部23に記憶されている画像(例えば、魚眼動画像)と、この画像に対応する音声を記憶部23から取得した後、取得した画像全体のうち、その平面上の一部の領域を特定すると共に、取得した音声全体のうち特定した一部の領域に対応する方向からの音声を取得し、この特定した音声をスピーカ部27から出力させる。
【選択図】 図2

Description

本発明は、音声付の画像を処理する画像処理装置、画像処理方法及びプログラムに関する。
一般に、広角レンズ(魚眼レンズ)は、例えば、画角が略180゜という広範囲な撮影が可能であり、このような魚眼レンズを用いて撮影された魚眼画像を利用する技術としては、例えば、会議中において、その各参加者の顔を含む歪曲円形画像(魚眼画像)が撮影されると、その撮影された魚眼画像の中から各参加者の顔を認識して個々の参加者の発話時間と共に、各参加者の画像(部分画像)を切り出して表示するようにした技術がある(特許文献1参照)。この特許文献1の技術にあっては、魚眼画像の中から各参加者の顔を認識して、その顔領域の画像を切り出し、その切り出した領域の画像(人物の顔画像)を表示すると共に、参加者の唇の近傍の変化(輝度、色)から発話状態を認識して、その発話時間を決定するようにしている。
特開2015−19162号公報
しかしながら、上述した特許文献の技術にあっては、マイクから入力された音声は撮影された魚眼画像における一部の領域がどの位置であるかとは関係なく出力されることになるので、魚眼画像におけるその一部の領域とその領域に対応する方向からの音声との関係を明確にした上でユーザに提供することができなかった。
本発明の課題は、画像内の一部の領域とそれに対応する音声との関係を明確にしてユーザに提供できるようにすることである。
上述した課題を解決するために本発明は、
画像を取得する画像取得手段と、
前記画像に対応する音声を取得する音声取得手段と、
前記画像取得手段により取得された画像全体のうち、その一部の領域を特定する領域特定手段と、
前記音声取得手段により取得された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する音声を取得する特定音声取得手段と、
を備えることを特徴とする画像処理装置である。
本発明によれば、画像内の一部の領域とそれに対応する音声との関係を明確にしてユーザに提供することができる。
画像処理装置として適用したセパレート型デジタルカメラの外観図で、(1)は、撮像装置10と本体装置20とを一体的に組み合わせた状態、(2)は、撮像装置10と本体装置20とを分離した状態を示した図。 (1)は、撮像装置10の構成を示したブロック図、(2)は、本体装置20の構成を示したブロック図。 (1)〜(3)は、撮像時における撮像装置10の姿勢を説明するための図。 撮像装置10の外側面に4個のマイクM1〜M4が配置されている状態を説明するための図。 (1)、(2)は、魚眼レンズ16Bで撮像された魚眼画像のライブビュー画面の表示例を示した図。 撮像装置10によって撮像された動画像データと集音された音声データとを対応付けて記憶するデータメモリ23C(例えば、SDカード)の内容を例示した図。 音声付魚眼動画像を再生する場合における本実施形態の特徴を説明するための図。 動画像撮像モードの動作(本実施形態での特徴的な動作)を示したフローチャート。 音声付動画像の再生が指示された際に実行開始される動作(本実施形態での特徴的な動作)を示したフローチャート。 図9に続く動作を示したフローチャート。 (1)〜(3)は、縦置き姿勢で撮像された動画像(魚眼画像)が再生画面(縦長画面)に表示されている場合を例示した図。 (1)〜(3)は、横置き姿勢で撮像された動画像(魚眼画像)が再生画面(縦長画面)に表示されている場合を例示した図。 (1)、(2)は、本実施形態の変形例として、複数のマイクの他の配置状態を説明するための図。
以下、図1〜図11を参照して本発明の実施形態を説明する。
本実施形態は、画像処理装置としてデジタルカメラに適用した場合を例示したもので、このデジタルカメラは、後述する撮像部を備える撮像装置10と、後述する表示部を備える本体装置20とに分離可能なセパレート型デジタルカメラである。図1(1)は、撮像装置10と本体装置20とを一体的に組み合わせた状態を示し、図1(2)は、撮像装置10と本体装置20とを分離した状態を示している。このセパレート型デジタルカメラを構成する撮像装置10と本体装置20とは、それぞれが利用可能な無線通信を用いてペアリング(無線接続認識)が可能なもので、無線通信としては、無線LAN(Wi−Fi)又はBluetooth(登録商標)を使用している。本体装置20は、撮像装置10側で撮像された画像を受信取得して、この撮像画像(ライブビュー画像)をモニタ画面(ライブビュー画面)に表示する。
図2(1)は、撮像装置10の構成を示したブロック図であり、図2(2)は、本体装置20の構成を示したブロック図である。
図2(1)において、撮像装置10は、制御部11、電源部12、記憶部13、通信部14、操作部15、撮像部16、姿勢検出部17、音声処理部18、4個のマイクM1、M2、M3、M4を備えている。制御部11は、電源部(二次電池)12からの電力供給によって動作し、記憶部13内の各種のプログラムに応じてこの撮像装置10の全体動作を制御するもので、この制御部11には図示しないCPU(中央演算処理装置)やメモリなどが設けられている。記憶部13は、例えば、ROM、フラッシュメモリなどを有する構成で、本実施形態を実現するためのプログラムや各種のアプリケーションなどが格納されている。通信部14は、撮像した画像などを本体装置20側に送信したり、本体装置20からの操作指示信号などを受信したりする通信インターフェイスである。操作部15は、電源スイッチなどの基本的な操作キー(ハードウェアキー)を備えている。
撮像部16は、被写体を高精細に静止画像や動画像を撮像可能なカメラ部を構成するもので、この撮像部16のレンズユニット16Aには、広角レンズ16B、撮像素子16Cなどが設けられている。この広角レンズ16Bは、画角が略180゜という広範囲な撮影が可能な魚眼レンズで、本実施形態では1枚の広角レンズ(魚眼レンズ)16Bを使用して半天球の撮影を行うようにしている。なお、魚眼画像(半天球画像)の全体は、歪曲歪によってその中心(光軸)からレンズ端(周辺部)に向かう程、大きく歪んだものとなる。
この魚眼レンズ16Bによる被写体像(光学像)が撮像素子(例えば、CMOS又はCCD)16Cに結像されると、この撮像素子16Cによって光電変換された画像信号(アナログ値の信号)は、図示省略のA/D変換部によってデジタル信号に変換された後に、本体装置20側に送信される。本体装置20側では、撮像された画像を取得し、広角レンズ16Bによる歪曲歪を補正する処理などを施してライブビュー画像としてモニタ表示させる。なお、この歪補正処理は、カメラにおいて一般的に用いられている技術であり、本実施形態ではその周知技術を利用するようにしているため、その具体的な説明については省略する。
姿勢検出部17は、撮像時における撮像装置10の姿勢を検出するもので、例えば、3軸タイプの加速度センサやジャイロセンタなどを有し、制御部11は、姿勢検出部17からのセンサ信号に基づいて撮像装置10の姿勢(撮像時の姿勢として縦置き姿勢、横置き姿勢)を検出する。すなわち、図3(1)は、魚眼レンズ16Bの光軸方向が重力方向に対して略直交する状態(縦置き状態)、つまり、撮像装置10が地面に対して略垂直となる状態で撮像する場合の姿勢(縦置き姿勢)を示し、姿勢検出部17は、撮像時の姿勢として縦置き姿勢を検出する。
図3(2)は、魚眼レンズ16Bの光軸方向を天頂に向けた状態(横置き状態)、つまり、魚眼レンズ16Bの光軸方向が重力方向に対して略逆方向となる状態で撮像する場合の姿勢(横置き姿勢)を示し、姿勢検出部17は、撮像時の姿勢として横置き姿勢を検出する。なお、図中、破線で示した半天球は、画角が略180゜という魚眼レンズ16Bの撮影範囲を示している。この姿勢検出部17によって検出された撮像時の姿勢は、本体装置20に送られるが、動画像の撮像時にはその撮像中に逐次検出された姿勢が本体装置20に逐次送られる。
図3(3)は、例えば、縦置き姿勢において、撮像装置10の外側面S1、S2、S3、S4の何れかが地面方向となるように縦置きした場合に、その縦置き姿勢での撮像装置10の向きを示している。制御部11は、撮像時における姿勢検出部17の検出結果に基づいて撮像装置10の姿勢として、縦置き姿勢や横置き姿勢を検出したり、縦置き姿勢又は横置き姿勢での撮像装置10の向きを検出したりする。これによって検出した姿勢情報は、撮像された魚眼画像を撮影画像として記憶する際に、つまり、撮像された魚眼画像に対して所定の画像処理(現像処理など)を施して撮影画像として記憶する際に、撮像時における撮像装置10の姿勢情報をその魚眼画像に対応付けて記憶するようにしている。
4個のマイクM1〜M4は、動画像の撮像時にその撮像に同期して周辺の音声を集音するもので、例えば、ビームフォーミングにも最適な超小型マイクロフォンとして、例えば、振動・衝撃や温度変化に強く、優れた音響特性と電気特性を実現したMEMS(Micro Elerctronics Mechanical System)マイクで、本実施形態では無指向性のマイクを使用するようにしているが、指向性マイクであってもよい。この4個のマイクM1〜M4は、図4に示すように撮像装置10の各外側面(四面)に配置固定されている。
すなわち、4個のマイクM1〜M4は、撮像装置10の外側面S1〜S4の中央部に1個ずつ配置されている。撮像装置10は、例えば、その筐体全体が箱型(正方体)をなし、その正面中央部に魚眼レンズ16Bを配置した構成で、図中、筐体の外側面には、4個のマイクM1〜M4が配置されている。すなわち、筐体の上側の外側面(上端面)S1には第1マイクM1、右側の外側面(右端面)S2には第2マイクM2、下側の外側面(下端面)S3には第3マイクM3、左側の外側面(左端面)S4には第4マイクM4が配置固定され、それらのマイク面の向きは、筐体の外側方向となっている。
このように撮像装置10に各マイクM1〜M4を配置すると、各マイクM1〜M4と撮像装置10の各外側面S1〜S4との位置関係は固定的なものとなり、更に、各マイクM1〜M4と撮像素子16Cの各端面との位置関係も固定的なものとなるため、この撮像素子16Cによって撮像された画像の各辺にはどのマイクが対応しているかの関係が明らかとなる。この各マイクM1〜M4によって動画像の撮像時に逐次集音された撮像時の音声は、本体装置20に逐次送られる。
図2(2)において、本体装置20は、撮影された画像を再生する再生機能を有し、制御部21、電源部22、記憶部23、通信部24、タッチ表示部25、姿勢検出部26、スピーカ部27を備えている。制御部21は、電源部(二次電池)22からの電力供給によって動作し、記憶部23内の各種のプログラムに応じてこの本体装置20の全体動作を制御するもので、この制御部21には図示しないCPU(中央演算処理装置)やメモリなどが設けられている。
記憶部23は、本実施形態を実現するためのプログラム(図8〜図10)や各種のアプリケーションなどが格納されているプログラムメモリ23A、この本体装置20が動作するために必要となる各種の情報(例えば、フラグなど)を一時的に記憶するワークメモリ23B、画像データ、音声データなど記憶するデータメモリ23Cを有している。なお、記憶部23は、例えば、SDカード、USBメモリなど、着脱自在な可搬型メモリ(記録メディア)を含む構成であってもよく、図示しないが、通信機能を介してネットワークに接続されている状態においては所定のサーバ装置側の記憶領域を含むものであってもよい。
通信部24は、撮像装置10との間で各種のデータの送受信を行う通信インターフェイスである。タッチ表示部25は、高精細液晶などのディスプレイ上にタッチパネルを積層配置した構成で、縦横比の異なる表示画面(長方形の画面)は、撮像されたライブビュー画像(魚眼画像)をリアルタイムに表示するモニタ画面(ライブビュー画面)となったり、撮影済み画像を再生する画面となったりする。姿勢検出部26は、本体装置20に加わる加速度を検出する3軸タイプの加速度センサなどであり、本体装置20の姿勢として、タッチ表示部25の画面向きに応じて縦長画面(縦向き)か、横長画面(横向き)かを検出して制御部21に与える。スピーカ部27は、撮像装置10のマイクM1〜M4によって集音された音声データなどを発生するもので、1つのスピーカに限らず、複数のスピーカを備えてもよい。
図5は、魚眼レンズ16Bで撮像された魚眼画像を例示した図である。
図5(1)は、屋外で食卓に座っている親子を正面から撮像した場合(光軸方向が略水平方向となる縦置き姿勢で母子を撮像した場合)の円形魚眼画像が横長画面(横向き)で表示されているライブビュー画面と、各マイクM1〜M4の向きとの関係を例示した図である。この例では、魚眼画像の上側が第1マイクM1の向き、下側が第3マイクM3の向き、右側が第3マイクM3の向き、左側が第4マイクM4の向きに対応付けられたものとなる。
図5(2)は、会議中の各参加者(例えば、人物x1〜x6)を撮像した場合(光軸方向が略天頂方向となる横置き姿勢で会議の場面を撮像した場合)の円形魚眼画像が横長画面(横向き)で表示されたライブビュー画面と、各マイクM1〜M4の向きとの関係を例示した図である。この例では、第3マイクM3、第4マイクM4は、図5(1)の場合と同様であるが、魚眼画像の上側が第3マイクM3の向き、下側が第1マイクM1の向きとなる。このように各マイクM1〜M4と円形魚眼画像との位置関係は、撮像時の姿勢に応じたものとなる。
図6は、撮像装置10によって撮像された動画像データと集音された音声データとを対応付けて記憶するデータメモリ23C(例えば、SDカード)の内容を例示した図である。
データメモリ23C(例えば、SDカード)は、撮影された各静止画像や各動画像を順次記憶するメモリで、図示の例は、音声付動画像、つまり、動画像(魚眼画像)を撮像して記憶すると共に、その撮像時に集音して記憶した場合のデータ構造を模式的に示したもので、動画像データファイルVGFに対応してマイク別の音声データファイルSDF1〜SDF4及び姿勢データファイルSTFを有している。
動画像データファイルVGFは、撮像装置10によって撮像された動画像(魚眼画像)を記憶するファイルである。以下、動画像(魚眼画像)を“魚眼動画像”と呼称する。マイク別の音声データファイルSDF1〜SDF4は、その魚眼動画像の撮像時に、対応する第1マイクM1〜M4によって集音された音声データを記憶するファイルである。姿勢データファイルSTFは、その魚眼動画像の撮像時における撮像装置10の姿勢を示すデータを記憶するファイルである。
図7は、音声付魚眼動画像を再生する場合における本実施形態の特徴を説明するための図である。
図中、四角形の破線で示した領域(矩形枠)は、再生対象である魚眼動画像の全体のうち、その平面上の一部の領域を特定した状態を例示したもので、平面上の一部の領域とは、魚眼動画像の時間軸上の一部ではなく、フレーム上(平面座標上)における一部の領域を示している。制御部21は、特定した一部の領域の画像をフレーム毎に逐次切り出すと共に、その切り出した画像を拡大してタッチ表示部25の再生画面に逐次表示させる。すなわち、画像全体のうち、その平面上の一部の領域を切り出し対象として特定して、その領域の画像を再生させるようにしている。以下、一部の領域を“切り出し領域”と呼称し、また、この切り出し領域の画像の再生を、“切り出し再生”と呼称する。
このような切出し再生が指示されると、制御部21は、この一部の領域(切り出し領域)に対応する方向の音源から集音した音声データを取得して再生する。この場合、再生対象の画像全体に対して、特定した一部の領域(切り出し領域)がその画像中央部に位置しているか、画像周辺部に位置しているのかを判別する。図示の例のように、画像中央部に一部の領域(切り出し領域)の略全体(例えば、80%以上)が含まれている場合には、切り出し領域は画像中央部に位置していると判別する。このように画像中央部に位置している場合には、4個のマイクM1〜M4から入力された音声を、切り出し領域に対応する方向からの音声として、各マイクM1〜M4対応の音声データを取得し、それらを混合・調整した信号に変換してスピーカ部27から出力させるようにしている。
一方、画像周辺部に切り出し領域の略全体(例えば、80%以上)が含まれている場合には、その切り出し領域が8方向(上下左右の4方向及び右上・右下・左上・左下の4方向)の何れの方向に略位置しているのか、つまり、切り出し領域がどの方向に偏っているかを判別する。そして、4個のマイクM1〜M4のうち、この判別した方向(偏り方向)に対応するマイクを選択し、音声データファイルSDF1〜SDF4のうち、選択マイク対応の音声データファイルから音声データを取得して再生する。例えば、切り出し領域が上方向に略位置している場合には、筐体の上端面S1に対応付けられている第1マイクM1のみを選択して、その音声データを再生するが、右上方向に略位置している場合には、筐体の上端面S1及び右端面に対応付けられている第1マイクM1及び第2マイクM2を選択して、その各マイク対応の音声データを混合・調整した信号に変換してから再生すようにしている。
すなわち、4個のマイクM1〜M4のうち、撮像素子16Cによって撮像された画像の各辺にはどのマイクが対応しているかの位置関係が明らかなため、切り出し領域が画像の周辺部に位置している場合には、その切り出し領域が位置している方向のマイクを選択して、その選択マイク対応の音声を再生する。このように切り出し領域に対応する方向からの音声を集音するマイクを選択して、その音声を再生するようにしているが、以下、切り出し領域に対応する方向からの音声を集音するマイクを、“切り出し領域対応のマイク”と呼称する。
次に、本実施形態における画像処理装置(セパレート型デジタルカメラ)の動作概念を図8〜図10に示すフローチャートを参照して説明する。ここで、これらのフローチャートに記述されている各機能は、読み取り可能なプログラムコードの形態で格納されており、このプログラムコードにしたがった動作が逐次実行される。また、ネットワークなどの伝送媒体を介して伝送されてきた上述のプログラムコードに従った動作を逐次実行することもできる。すなわち、記録媒体の他に、伝送媒体を介して外部供給されたプログラム/データを利用して本実施形態特有の動作を実行することもできる。なお、図8〜図10は、カメラの全体動作のうち、本実施形態の特徴部分の動作概要を示したフローチャートであり、この図8〜図10のフローから抜けた際には、全体動作のメインフロー(図示省略)に戻る。
図8は、音声付魚眼動画像を撮像する場合に切り替えられる撮像モードの動作(本実施形態での特徴的な動作)を示したフローチャートである。
先ず、本体装置20側の制御部21は、撮像装置10によって撮像された魚眼動画像を受信取得する(ステップA1)と共に、この取得した魚眼動画像をタッチ表示部25にライブビュー画像として表示させる(ステップA2)。このライブビュー画像の表示中において、魚眼動画像の撮影開始がユーザ操作によって指示されたかを調べ(ステップA3)、その撮影開始が指示されるまでライブビュー画像を逐次表示させる処理に戻るが(ステップA1、A2)、撮影開始が指示されると(ステップA3でYES)、撮像装置10に対して撮影開始を指示して、撮像装置10側の姿勢検出部17及び各マイクM1〜M4を起動させる(ステップA4)。
そして、制御部21は、この撮影開始に応答して、撮像装置10から取得した魚眼動画像に対して画像処理を施しながら動画像データファイルVGFに逐次記憶させる動作を開始(ステップA5)すると共に、姿勢検出部17によって検出された姿勢を取得して姿勢データファイルSTFに逐次記憶させる動作を開始し(ステップA6)、更には、各マイクM1〜M4から入力された音声を取得して、対応する音声データファイルSDF1〜SDF4に逐次記憶させる動作を開始する(ステップA7)。この魚眼動画像の撮影中において、その撮影終了がユーザ操作により指示されたかを調べ(ステップA8)、撮影終了が指示されるまで待ち状態となるが、撮影終了が指示されると(ステップA8でYES)、図8のフローから抜ける。
図9及び図10は、音声付動画像の再生が指示された際に実行開始される動作(本実施形態での特徴的な動作)を示したフローチャートである。
先ず、本体装置20側の制御部21は、撮影画像の再生モードに切り替えられた状態において、その再生対象として音声付動画像がユーザ操作によって選択されてその音声付動画像の再生が指示されると、図9のフローに移り、上述した切り出し再生がユーザ操作によって指示されたかを調べる(図9のステップB1)。
いま、切り出し再生が指示されなければ、(ステップB1でNO)、動画像データファイルVGFから魚眼動画像を取得して再生画面に逐次表示させる動作を開始(ステップB2)すると共に、各音声データファイルSDF1〜SDF4から音声データを逐次取得し、それらを混合・調整した音声信号に変換する処理を行った後、その音声信号をスピーカ部27から逐次出力させる動作を開始する(ステップB3)。このように複数のマイクM1〜M4から入力された音声を混合して出力することにより臨場感のある音声を得ることができる。この再生中に動画像の終了か(再生完了か)を調べたり(ステップB4)、動画再生の終了がユーザ操作によって指示されたかを調べたりする(ステップB5)。いま、動画像が終了(再生が完了)した際(ステップB4でYES)、又は再生終了がユーザ指示された際には(ステップA5でYES)、この図9のフローから抜ける。
一方、切り出し再生がユーザ指示されると(ステップB1でYES)、図10のフローに移り、動画像データファイルVGFから再生対象の魚眼動画像データを取得すると共に、対応する姿勢データファイルSTFから撮像時の姿勢データを取得する(ステップB6)。そして、制御部21は、取得した魚眼動画像の全体を再生画面に逐次表示させる動作を開始(ステップB7)すると共に、取得した撮像時の姿勢データを参照し、横置き姿勢で撮像されたのか、縦置き姿勢で撮像されたのかを判別し、この判別検結果に応じて魚眼動画像内の一部の領域を切り出し領域として特定して案内表示させる(ステップB8)。
図11(1)は、縦置き姿勢で撮像された魚眼動画像(図5(1)参照)が再生画面に表示された状態を示し、図示の例は、再生画面(縦長画面)の下半分の領域に円形魚眼動画像を表示させた場合である。この縦置き姿勢では、画像中央部の人物を含む領域が切り出し領域として特定されて案内表示される。すなわち、縦置き姿勢の場合には、画像中央部のうち、例えば、人物を含む領域、画像中央部に複数の人物がいる場合には大きく写っている人物を含む領域を最優先して、その領域を切り出し領域として特定して案内表示(矩形枠表示)させる。
図12(1)は、横置き姿勢で撮像された魚眼動画像が再生画面に表示された状態を示し、図示の例は、再生画面(縦長画面)の下半分の領域に円形魚眼動画像を表示させた場合である。この横置き姿勢では、画像周辺部のうち、例えば、人物を含む領域を最優先して、その領域を切り出し領域として特定するが、画像周辺部に複数の人物がいる場合には席順など優先順位の高い人物を含む領域を最優先して、その領域を切り出し領域として特定して案内表示(矩形枠表示)させる。
このようにして特定した切り出し領域内の画像をフレーム毎に逐次切り出しながら歪補正を施す動作を開始(ステップB9)すると共に、補正後の切り出し画像を再生画面に拡大して逐次表示させる動作を開始する(ステップB10)。図11(1)、図12(1)は、再生画面(縦長画面)の上半分の領域に切り出し画像(人物の顔画像)を拡大表示させた状態を示している。これによって再生画面には、魚眼動画像の全体と、切り出し画像(人物の顔画像)とが上下方向に並列表示される。なお、切り出し領域内の画像をフレーム毎に逐次切り出す場合に、その枠内の人物が移動した場合にはその移動に追従して切り出し領域を移動させるようにしてもよい。
次に、特定した切り出し領域の位置は、魚眼画像の中央部か周辺部かを判別すると共に、切り出し領域が画像周辺部であれば更にその方向(偏り方向)を判別する(ステップB11)。すなわち、画像の中央部に切り出し領域の略全体が含まれている場合には、切り出し領域は画像中央部に位置していると判別する。また、画像周辺部に切り出し領域の略全体が含まれている場合には、切り出し領域は画像周辺部に位置していると判別すると共に、更にその切り出し領域は8方向の何れの方向に略位置しているのかを判別する。
そして、4個のマイクM1〜M4のうち、ステップB11の判別結果に応じて切出し領域対応のマイクを選択して、その音声データを逐次取得する動作を開始(ステップB12)すると共に、取得した音声データを画像の再生動作の進行に応じてスピーカ部27から逐次出力させる動作を開始する(ステップB13)。すなわち、上述したように各マイクM1〜M4と撮像素子16Cの各端面との位置関係、つまり、各マイクM1〜M4と切り出し領域との位置関係から、その切り出し領域対応のマイクを選択して、その音声データを取得しながら画像の再生動作の進行に応じて逐次出力させる。
例えば、図11(1)に示すように、特定した切り出し領域が画像中央部に位置している場合には、全てのマイクM1〜M4より入力された音声データを、この切り出し領域に対応する方向からの音声として、対応する音声データファイルSDF1〜SDF4から取得し、それらを混合・調整した信号に変換してスピーカ部27から出力させる。また、図12(1)に示すように、特定した切り出し領域が画像周辺部の右下方向に位置している場合には、各マイクM1〜M4のうち、第3マイクM3より入力された音声データを、この切り出し領域に対応する方向からの音声として、対応する音声データファイルSDF3から取得し、その音声のみをスピーカ部27から出力させる。
そして、このような音声付魚眼画像の再生中において、任意の切り出し領域が指定するユーザ操作が行われたかを調べたり(ステップB14)、再生終了がユーザ操作によって指示されたかを調べたり(ステップB15)、動画終了(動画完了)かを調べたりする(ステップB16)。いま、再生中の動画が終了した場合には(ステップB15でYES)、上述のステップB7に戻り、以下、上述の動作を繰り返す。これによって再び魚眼動画像の再生を開始すると共に、撮像時の姿勢に応じて次に優先する切り出し領域を特定して案内表示させる。
例えば、図11(2)の場合は、画像周辺部に写っている人物(子供)を含む領域を次の切り出し領域として特定した場合で、この切り出し領域に対応するマイクとして、第2マイクM2が選択され、このマイクM2より入力された音声データを、この切り出し領域に対応する方向からの音声として、対応する音声データファイルSDF2より取得して、その音声のみを再生させる。図12(2)の場合は、画像周辺部において次の順位に写っている人物(x2)を含む領域を次の切り出し領域として特定した場合で、第2及び第3マイクM2、M3が選択され、このマイクM2、M3より入力された音声データを、この切り出し領域に対応する方向からの音声として、対応する音声データファイルSDF2、SDF3より取得して、それらを混合・調整した信号に変換して再生させる。
また、再生画面(タッチ画面)上でのタッチ操作(スライド操作など)によって切り出し領域が任意にユーザ指定された場合には(ステップB14でYES)、上述のステップB7に戻り、再び魚眼動画像の再生を開始する。そして、任意に指定された領域を切り出し領域として特定して魚眼動画像上に案内表示させる(ステップB8)。例えば、図11(3)は、親子を含む領域が切り出し領域として指定された場合を示している。図12(3)は、隣り合う人物x3及びx5を含む領域が切り出し領域として指定された場合を示している。
以下、上述の動作を繰り返す(ステップB9〜B13)。ここで、図11(3)の場合には、切り出し領域が画像の中央部及び周辺部に跨っているため、切り出し領域は周辺部に位置しているものと判別され、その切り出し領域の方向は右上と判別される。これによって第1マイクM1と第2マイクM2が選択されてそれらの混合音声が再生出力される。図12(3)の場合には、切り出し領域の方向は左上と判別されるため、第4マイクM4と第1マイクM1が選択されてそれらの混合音声が出力される。他方、再生終了がユーザ操作によって指示されると(ステップB15でYES)、図9及び図10のフローから抜ける。
以上のように、本実施形態においては、画像とそれに対応する音声を取得した後、取得した画像全体のうちその平面上の一部の領域を特定すると共に、取得した音声全体のうち特定した一部の領域に対応する音声を取得し、この取得した音声を出力するようにしたので、画像内の一部の領域とそれに対応する方向からの音声との関係を明確にしてユーザに提供することができる。
本体装置20側の制御部21は、複数のマイクM1〜M4から入力された音声全体のうち、画像内の一部の領域に対応する方向からの音声を集音するマイクを選択し、そのマイクから入力された音声を当該領域に対応する方向からの音声として取得するようにしたので、マイクを選択するだけで音声の取得が可能となる。
制御部21は、撮像記憶された画像を再生対象として取得し、この画像の撮像時にその撮像記憶に同期して集音記憶された音声を再生対象として取得するようにしたので、音声付画像の再生時に、その画像内の一部の領域とそれに対応する方向からの音声との関係が明確になる。
撮像記憶された画像は、魚眼レンズ16Bを使用して撮像された魚眼画像(半天球画像)であり、この撮像時に集音記憶された音声は、魚眼レンズ16Bの周辺部の異なる位置に配置された複数のマイクM1〜M4から入力された音声であるので、画像とマイクとの対応関係が明確となると共に、複数のマイクM1〜M4によって半天球の撮影範囲全体を集音可能域として網羅することが可能となる。
制御部21は、複数のマイク別に集音記憶された音声全体のうち、一部の領域(切り出し領域)に対応する音声を集音するマイク(切り出し領域対応のマイク)が2以上存在している場合には、その2以上のマイクを選択してそれらの音声を組み合わせることにより当該領域に対応する方向からの音声を取得するようにしたので、多数のマイクを設置しなくても、少ない数のマイクによって広範囲を集音対象として網羅することができる。
制御部21は、画像の撮像時の姿勢を取得し、この撮像時の姿勢に応じて、画像の平面上の一部の領域を特定するようにしたので、例えば、縦置き姿勢の場合には画像の中央部の一部の領域、横置き姿勢の場合には画像の周辺部の一部の領域を特定することができ、姿勢に合った適切な領域を特定することができる。
制御部21は、取得した画像全体のうち、ユーザ操作によって任意に指定された切り出し領域を一部の領域として特定するようにしたので、ユーザの意向に応じた領域特定が可能となる。
制御部21は、取得した画像を表示している状態において、特定した一部の領域の画像を再生画面に表示させるようにしたので、ユーザにあっては画像全体とその一部分との関係が明確なものとなる。
魚眼画像のうちその一部の領域の画像を表示させる場合に、その歪曲歪を補正した画像を表示するようにしたので、ユーザにあっては歪の無い画像を見ることができる。
制御部21は、特定した一部の領域の画像を表示すると共に、それに対応する音声を出力するようにしたので、画像と音声との対応関係が明確となる。
(変形例1)
なお、上述した実施形態においては、4個のマイクM1〜M4を撮像装置10の外側面S1〜S4の中央部に1個ずつ異なる向きに配置するようにしたが、複数のマイクの配置状態は、これに限らない。
図13(1)は、撮像装置10の正面(魚眼レンズ16B側の面)に4個のマイクM11〜M14を四角形状に配置した場合である。すなわち、撮像装置10の正面において、図中、第1マイクM11を左上角部、第2マイクM12を右上角部、第3マイクM13を左下角部、第4マイクM14を右下角部に配置した場合で、これら全てのマイクM11〜M14のマイク面(集音方向)を同一方向(光軸方向)とした場合である。このように複数のマイクを同じ方向に向けるようにしてもよい。また、複数のマイクは、4個に限らず、その数を多くてもよいが、少なくとも3個のマイクを配置するようにすればよい。このように複数のマイクの配置状態を任意とすることにより実装上の自由度を増すことができる。
(変形例2)
上述した実施形態においては、4個のマイクM1〜M4を二次元上に配置するようにしたが、三次元上に配置するようにしてもよい。
図13(2)は、5個のマイクを三次元上に配置した場合を例示したもので、図示の例は、上述した図13(1)の場合と同様に第1マイクM21〜第4マイクM24を撮像装置10の正面(魚眼レンズ16B側の面)に配置するが、第5マイクM25を撮像装置10の正面中心部に配置した場合である。すなわち、第1マイクM21、第2マイクM22をX軸の−側と+側に配置し、第3マイクM23、第4マイクM24をY軸の−側と+側に配置し、第5マイクM25をZ軸の−側に配置した場合である。このように複数のマイクを三次元上に配置することにより、各マイクから入力された音声を混合して出力することにより更に臨場感のある音声を得ることができると共に、音源が光軸方向の反対側(背後)であっても、その音声も集音して出力させることができる。
(変形例3)
上述した実施形態においては、4個のマイクM1〜M4と撮像素子16Cの各端面との位置関係から切り出し領域対応のマイクを選択するようにしたが、複数のマイクに対応する音声データを分析することによって、切り出し領域に対応する方向からの音声を取得して、切り出し領域対応のマイクを選択するようにしてもよい。例えば、複数のマイクへの音声到達時間のずれ、マイク間の距離、音量値比較などに基づいて音源の方向を特定して、その音源方向に対応するマイクを選択するようにしてもよい。このような音声データを分析によって切り出し領域対応のマイクを選択することができる。
(変形例4)
上述した実施形態においては、4個のマイクM1〜M4と撮像素子16Cの各端面との位置関係が固定的されているため、魚眼動画像内の一部の領域(切り出し領域)に基づいて切り出し領域対応のマイクを選択可能としたが、これに限らず、この切り出し領域対応のマイク(例えば、第1マイクM1)を除く他の第2マイクM2、第3マイクM3、第4マイクM4を出力対象から外す(出力禁止とする)ことにより切り出し領域対応のマイクからの音声データのみを出力させるようにしてもよい。これによって自由度を増すことができる。
(変形例5)
上述した実施形態においては、撮像時の姿勢に基づいて魚眼動画像上の所定の位置に切り出し領域を特定する場合に、人物を含む領域を切り出し領域として特定するようにしたが、人物に拘わらず、動物など主要被写体を特定してその主要被写体を含む領域を切り出し領域として特定したり、主要被写体の有無に拘わらず、魚眼動画像上の所定の位置、例えば、縦置き姿勢であれば、その画像の中央部所定位置、横置き姿勢であれば、その画像の周辺部所定位置を切り出し領域として特定したりするようにしてもよい。
(変形例6)
上述した実施形態においては、魚眼動画像上に特定した切り出し領域の画像(一部の領域)を拡大表示して再生するようにしたが、その一部の領域の画像を表示しなくてもよい。すなわち、魚眼動画像が再生されている状態において、その画像上に一部の領域を案内表示(例えば、枠表示)するだけで、その一部の領域の画像を表示しなくても、その切り出し領域対応のマイクを選択してそのマイクからの音声を再生するようにしてもよい。これによってユーザは、一部の領域の画像が表示されていなくても魚眼動画像の一部とそれに対応する音声との関係を確認することが可能となる。
(その他)
上述した実施形態においては、画角が略180゜という1枚の広角レンズ(魚眼レンズ)16Bを使用して半天球360°の撮影を行うようにしたが、全天球360°の撮影を、例えば、2枚の広角レンズ(魚眼レンズ)16Bを使用して行うようにしてもよい。この全天球360°の撮影画像に対しては、上述した三次元配置のマイクを使用するようにすればよい。
上述した実施形態においては、魚眼動画像を再生する場合を示したが、動画像に限らず、1枚の静止画像を再生する場合に、対応する音声を再生するようにしてもよい。また、静止画像は、短時間に複数枚を連続撮影(連写)した画像であってもよく、この連続画像に同期して対応する音声を再生するようにしてもよい。
上述した実施形態においては、撮像時における撮像装置10の姿勢として、縦置き状態と横置き状態を検出する場合を示したが、これに限らず、その他の色々な姿勢であってもよいことは勿論である。
なお、上述した実施形態においては、複数のマイク別に集音記憶された音声全体のうち、特定した一部の領域に対応する音声を集音するマイクを選択して、選択したマイクからの音声を一部の領域に対応する音声として出力するようにしているが、それに限らず、複数のマイク別に集音記憶された音声の全てを利用して、その複数のマイク別に入力された全音声を混合・調整して出力すると共に、一部の領域に対応する音声と、対応しない音声との音質、音量などを変えて、特定した一部の領域に対応する音声として出力するようにしてもよい。
また、上述した実施形態においては、特に言及しなかったが、音声を主体的に発生する被写体(例えば、人物、動物)が単一の場合であってもよい。また、例えば、被写体がいない領域を一部の領域として特定した場合には、音声を無音状態として出力するようにしてもよい。
また、上述した実施形態においては、特定した一部の領域を再生する際に、その一部の領域に対応する音声を出力するようにしたが、それに限らず、例えば、再生時には魚眼動画像を表示し、魚眼画像の中から一部の領域を特定するが、その一部の領域とそれに対応する音声とを出力せずに、その関係を記憶しておく。そして後程、その一部の領域に対応する音声を再生するような構成にしてもよい。また、撮影前に特定の領域を一部の領域として予め設定しておいて、撮影時にその特定領域に対応する音声を取得して、撮影終了時に当該特定領域とそれに対応する音声とを記憶する構成であってもよい。
また、上述した実施形態においては、画像処理装置としてカメラに適用した場合を示したが、画像再生機能付きのパーソナルコンピュータ・PDA(個人向け携帯型情報通信機器)・タブレット端末装置・スマートフォンなどの携帯電話機・電子時計・電子ゲーム・音楽プレイヤーなどに適用するようにしてもよい。
また、上述した実施形態において示した“装置”や“部”とは、機能別に複数の筐体に分離されていてもよく、単一の筐体に限らない。また、上述したフローチャートに記述した各ステップは、時系列的な処理に限らず、複数のステップを並列的に処理したり、別個独立して処理したりするようにしてもよい。
以上、この発明の実施形態について説明したが、この発明は、これに限定されるものではなく、特許請求の範囲に記載された発明とその均等の範囲を含むものである。
以下、本願出願の特許請求の範囲に記載された発明を付記する。
(付記)
(請求項1)
請求項1に記載の発明は、
画像を取得する画像取得手段と、
前記画像に対応する音声を取得する音声取得手段と、
前記画像取得手段により取得された画像全体のうち、その一部の領域を特定する領域特定手段と、
前記音声取得手段により取得された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する音声を取得する特定音声取得手段と、
を備えることを特徴とする画像処理装置。
(請求項2)
請求項2に記載の発明は、請求項1に記載の画像処理装置において、
前記特定音声取得手段は、複数のマイクから入力された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する方向からの音声を集音するマイクを選択して、そのマイクから入力された音声を当該領域に対応する方向からの音声として取得する、
ことを特徴とする。
(請求項3)
請求項3に記載の発明は、請求項1又は2に記載の画像処理装置において、
前記画像取得手段は、撮像記憶された画像を再生対象として取得し、
前記音声取得手段は、前記画像の撮像時にその撮像記憶に同期して集音記憶された音声を再生対象として取得する、
ことを特徴とする。
(請求項4)
請求項4に記載の発明は、請求項3に記載の画像処理装置において、
前記撮像記憶された画像は、魚眼レンズを使用して撮像された魚眼画像であり、
前記画像の撮像時にその撮像記憶に同期して集音記憶された音声は、前記魚眼レンズの周辺部の異なる位置に配置された複数のマイクから入力された音声である、
ことを特徴とする。
(請求項5)
請求項5に記載の発明は、請求項2又は4に記載の画像処理装置において、
前記特定音声取得手段は、前記複数のマイク別に集音記憶された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する音声を集音するマイクが2以上存在している場合には、その2以上のマイクを選択してそれらの音声を組み合わせることにより当該領域に対応する方向からの音声を取得する、
ことを特徴とする。
(請求項6)
請求項6に記載の発明は、請求項1又は乃至5の何れか1項に記載の画像処理装置において、
前記特定音声取得手段は、前記音声取得手段により取得された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する方向からの音声を除いた他の音声を出力対象から外すことにより当該領域に対応する方向からの音声を取得する、
ことを特徴とする。
(請求項7)
請求項7に記載の発明は、請求項1乃至6の何れか1項に記載の画像処理装置において、
前記画像の撮像時の姿勢を取得する姿勢取得手段を更に備え、
前記領域特定手段は、前記姿勢取得手段により取得された撮像時の姿勢に応じて、前記画像取得手段により取得された画像全体のうち、その平面上の一部の領域を特定する、
ことを特徴とする。
(請求項8)
請求項8に記載の発明は、請求項1乃至6の何れか1項に記載の画像処理装置において、
前記領域特定手段は、前記画像取得手段により取得された画像のうちユーザ操作によって任意に指定された切り出し領域を一部の領域として特定する、
ことを特徴とする。
(請求項9)
請求項9に記載の発明は、請求項1乃至8の何れか1項に記載の画像処理装置において、
前記画像取得手段により取得された画像を表示している状態において、前記領域特定手段により特定された一部の領域の画像を表示する表示手段を更に備える、
ことを特徴とする。
(請求項10)
請求項10に記載の発明は、請求項9に記載の画像処理装置において、
前記画像取得手段により取得された画像は、魚眼レンズで撮像された魚眼画像であり、
前記表示手段は、前記領域特定手段により特定された一部の領域の画像に対してその歪曲歪を補正した画像を表示する、
ことを特徴とする。
(請求項11)
請求項11に記載の発明は、請求項1乃至10の何れか1項に記載の画像処理装置において、
前記特定音声取得手段により特定された音声を出力する出力手段を備え、
前記出力手段は、前記領域特定手段により特定された一部の領域の画像を表示すると共に、前記特定音声取得手段により取得された音声を出力する、
ことを特徴とする。
(請求項12)
請求項12に記載の発明は、請求項1乃至11の何れか1項に記載の画像処理装置において、
前記特定音声取得手段により取得された音声と、前記領域特定手段により特定された一部の領域とを関連付けて記憶する記憶手段を備える、
ことを特徴とする。
(請求項13)
請求項13に記載の発明は、
画像処理装置における画像処理方法であって、
画像を取得する処理と、
前記画像に対応する音声を取得する処理と、
前記取得された画像全体のうち、その一部の領域を特定する処理と、
前記取得された音声全体のうち、前記特定された一部の領域に対応する音声を取得する処理と、
を含むことを特徴とする画像処理方法。
(請求項14)
請求項14に記載の発明は、
画像処理装置のコンピュータに対して、
画像を取得する機能と、
前記画像に対応する音声を取得する機能と、
前記取得された画像全体のうち、その一部の領域を特定する機能と、
前記取得された音声の中から前記特定された一部の領域に対応する音声を取得する機能と、
を実現させるためのプログラム。
10 撮像装置
11、21 制御部
13、23 記憶部
16 撮像部
17、26 姿勢検出部
18 音声処理部
20 本体装置
25 タッチ表示部
27 スピーカ部
M1〜M4 マイク
VGF 動画像データファイル
SDF1〜SDF4 音声データファイル
STF 姿勢データファイル

Claims (14)

  1. 画像を取得する画像取得手段と、
    前記画像に対応する音声を取得する音声取得手段と、
    前記画像取得手段により取得された画像全体のうち、その一部の領域を特定する領域特定手段と、
    前記音声取得手段により取得された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する音声を取得する特定音声取得手段と、

    を備えることを特徴とする画像処理装置。
  2. 前記特定音声取得手段は、複数のマイクから入力された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する方向からの音声を集音するマイクを選択して、そのマイクから入力された音声を当該領域に対応する方向からの音声として取得する、
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記画像取得手段は、撮像記憶された画像を再生対象として取得し、
    前記音声取得手段は、前記画像の撮像時にその撮像記憶に同期して集音記憶された音声を再生対象として取得する、
    ことを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記撮像記憶された画像は、魚眼レンズを使用して撮像された魚眼画像であり、
    前記画像の撮像時にその撮像記憶に同期して集音記憶された音声は、前記魚眼レンズの周辺部の異なる位置に配置された複数のマイクから入力された音声である、
    ことを特徴とする請求項3に記載の画像処理装置。
  5. 前記特定音声取得手段は、前記複数のマイク別に集音記憶された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する音声を集音するマイクが2以上存在している場合には、その2以上のマイクを選択してそれらの音声を組み合わせることにより当該領域に対応する方向からの音声を取得する、
    ことを特徴とする請求項2又は4に記載の画像処理装置。
  6. 前記特定音声取得手段は、前記音声取得手段により取得された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する方向からの音声を除いた他の音声を出力対象から外すことにより当該領域に対応する方向からの音声を取得する、
    ことを特徴とする請求項1又は乃至5の何れか1項に記載の画像処理装置。
  7. 前記画像の撮像時の姿勢を取得する姿勢取得手段を更に備え、
    前記領域特定手段は、前記姿勢取得手段により取得された撮像時の姿勢に応じて、前記画像取得手段により取得された画像全体のうち、その平面上の一部の領域を特定する、
    ことを特徴とする請求項1乃至6の何れか1項に記載の画像処理装置。
  8. 前記領域特定手段は、前記画像取得手段により取得された画像のうちユーザ操作によって任意に指定された切り出し領域を一部の領域として特定する、
    ことを特徴とする請求項1乃至6の何れか1項に記載の画像処理装置。
  9. 前記画像取得手段により取得された画像を表示している状態において、前記領域特定手段により特定された一部の領域の画像を表示する表示手段を更に備える、
    ことを特徴とする請求項1乃至8の何れか1項に記載の画像処理装置。
  10. 前記画像取得手段により取得された画像は、魚眼レンズで撮像された魚眼画像であり、
    前記表示手段は、前記領域特定手段により特定された一部の領域の画像に対してその歪曲歪を補正した画像を表示する、
    ことを特徴とする請求項9に記載の画像処理装置。
  11. 前記特定音声取得手段により取得された音声を出力する出力手段を備え、
    前記出力手段は、前記領域特定手段により特定された一部の領域の画像を表示すると共に、前記特定音声取得手段により取得された音声を出力する、
    ことを特徴とする請求項1乃至10の何れか1項に記載の画像処理装置。
  12. 前記特定音声取得手段により取得された音声と、前記領域特定手段により特定された一部の領域とを関連付けて記憶する記憶手段を備える、
    ことを特徴とする請求項1乃至11の何れか1項に記載の画像処理装置。
  13. 画像処理装置における画像処理方法であって、
    画像を取得する処理と、
    前記画像に対応する音声を取得する処理と、
    前記取得された画像全体のうち、その一部の領域を特定する処理と、
    前記取得された音声全体のうち、前記特定された一部の領域に対応する音声を取得する処理と、
    を含むことを特徴とする画像処理方法。
  14. 画像処理装置のコンピュータに対して、
    画像を取得する機能と、
    前記画像に対応する音声を取得する機能と、
    前記取得された画像全体のうち、その一部の領域を特定する機能と、
    前記取得された音声の中から前記特定された一部の領域に対応する音声を取得する機能と、
    を実現させるためのプログラム。
JP2017186627A 2017-09-27 2017-09-27 画像処理装置、画像処理方法及びプログラム Pending JP2019062448A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017186627A JP2019062448A (ja) 2017-09-27 2017-09-27 画像処理装置、画像処理方法及びプログラム
US16/132,007 US10805557B2 (en) 2017-09-27 2018-09-14 Image processing device, image processing method and storage medium correcting distortion in wide angle imaging
CN201811104628.0A CN109561250A (zh) 2017-09-27 2018-09-20 图像处理装置、图像处理方法以及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017186627A JP2019062448A (ja) 2017-09-27 2017-09-27 画像処理装置、画像処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2019062448A true JP2019062448A (ja) 2019-04-18

Family

ID=65808162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017186627A Pending JP2019062448A (ja) 2017-09-27 2017-09-27 画像処理装置、画像処理方法及びプログラム

Country Status (3)

Country Link
US (1) US10805557B2 (ja)
JP (1) JP2019062448A (ja)
CN (1) CN109561250A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012119803A (ja) * 2010-11-30 2012-06-21 Canon Inc 超広角映像の記録及び再生装置
JP2015019162A (ja) * 2013-07-09 2015-01-29 大日本印刷株式会社 会議支援システム
JP2017085372A (ja) * 2015-10-28 2017-05-18 株式会社リコー 通信システム、通信装置、通信方法およびプログラム
WO2017149124A1 (en) * 2016-03-03 2017-09-08 Centricam Technologies Limited A method, system and device for generating associated audio and visual signals in a wide angle image system
JP2017168882A (ja) * 2016-03-14 2017-09-21 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
JP2018005526A (ja) * 2016-06-30 2018-01-11 株式会社リコー 情報処理装置、及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5561359A (en) 1978-10-27 1980-05-09 Hitachi Ltd Continuous casting method
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US7428000B2 (en) * 2003-06-26 2008-09-23 Microsoft Corp. System and method for distributed meetings
JP2007295335A (ja) * 2006-04-26 2007-11-08 Opt Kk カメラ装置および画像記録再生方法
JP5111088B2 (ja) 2007-12-14 2012-12-26 三洋電機株式会社 撮像装置及び画像再生装置
JP2009163644A (ja) * 2008-01-09 2009-07-23 Sony Corp 映像検索装置、編集装置、映像検索方法およびプログラム
CN101820565B (zh) * 2009-02-27 2015-01-07 本田技研工业株式会社 音源位置的推断方法及其装置
JP5493551B2 (ja) 2009-07-30 2014-05-14 沖電気工業株式会社 情報処理システム、情報処理装置、及び情報処理方法
CN101951492A (zh) * 2010-09-15 2011-01-19 中兴通讯股份有限公司 视频通话中视频录制的方法及装置
US20150146078A1 (en) * 2013-11-27 2015-05-28 Cisco Technology, Inc. Shift camera focus based on speaker position
JP6125457B2 (ja) 2014-04-03 2017-05-10 日本電信電話株式会社 収音システム及び放音システム
WO2015170368A1 (ja) 2014-05-09 2015-11-12 パナソニックIpマネジメント株式会社 指向性制御装置、指向性制御方法、記憶媒体及び指向性制御システム
US10057542B2 (en) * 2014-08-15 2018-08-21 Thereo LLC System for immersive telepresence
CN105812969A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 一种拾取声音信号的方法、系统及装置
CN105407282A (zh) * 2015-11-16 2016-03-16 中科创达软件股份有限公司 一种照相和回放的实现方法
US9942518B1 (en) * 2017-02-28 2018-04-10 Cisco Technology, Inc. Group and conversational framing for speaker tracking in a video conference system
US10187579B1 (en) * 2017-06-30 2019-01-22 Polycom, Inc. People detection method for auto-framing and tracking in a video conference

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012119803A (ja) * 2010-11-30 2012-06-21 Canon Inc 超広角映像の記録及び再生装置
JP2015019162A (ja) * 2013-07-09 2015-01-29 大日本印刷株式会社 会議支援システム
JP2017085372A (ja) * 2015-10-28 2017-05-18 株式会社リコー 通信システム、通信装置、通信方法およびプログラム
WO2017149124A1 (en) * 2016-03-03 2017-09-08 Centricam Technologies Limited A method, system and device for generating associated audio and visual signals in a wide angle image system
JP2017168882A (ja) * 2016-03-14 2017-09-21 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
JP2018005526A (ja) * 2016-06-30 2018-01-11 株式会社リコー 情報処理装置、及びプログラム

Also Published As

Publication number Publication date
US10805557B2 (en) 2020-10-13
CN109561250A (zh) 2019-04-02
US20190098225A1 (en) 2019-03-28

Similar Documents

Publication Publication Date Title
US10237495B2 (en) Image processing apparatus, image processing method and storage medium
US10440307B2 (en) Image processing device, image processing method and medium
JP7100824B2 (ja) データ処理装置、データ処理方法及びプログラム
CN107018316B (zh) 图像处理装置、图像处理方法以及存储介质
JP6455474B2 (ja) 画像処理装置、画像処理方法及びプログラム
US10873824B2 (en) Apparatus, system, and method of processing data, and recording medium
JP7428763B2 (ja) 情報取得システム
WO2017149124A1 (en) A method, system and device for generating associated audio and visual signals in a wide angle image system
WO2015198964A1 (ja) 音声入出力機能付き撮像装置およびテレビ会議システム
JP2023026477A (ja) 撮像装置、撮像システム
JP2013123171A (ja) 画像処理装置、画像処理方法、画像処理システム及びプログラム
JP2019062448A (ja) 画像処理装置、画像処理方法及びプログラム
JP6450604B2 (ja) 画像取得装置及び画像取得方法
JP2013232830A (ja) 画像処理システム、画像処理装置、画像処理方法および画像処理プログラム
JP2013187841A (ja) 電子機器及び出力制御方法並びにプログラム
JP2018157314A (ja) 情報処理システム、情報処理方法及びプログラム
US11863871B2 (en) Communication terminal, image communication system, and method of displaying image
WO2022220306A1 (ja) 映像表示システム、情報処理装置、情報処理方法、及び、プログラム
WO2018003081A1 (ja) 全天球カメラ撮像画像表示システム、方法及びプログラム
JP2019169762A (ja) 情報処理装置
JP2021124526A (ja) 記録装置、記録システム、ファイル生成方法およびプログラム
JP2023178054A (ja) 会議デバイスユニット及び会議システム
JP2016181938A (ja) オペレータ端末、携帯端末、指示送信方法、オペレータ端末用プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210909

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220215