JP2024005948A - 撮像装置、その制御方法及びプログラム - Google Patents

撮像装置、その制御方法及びプログラム Download PDF

Info

Publication number
JP2024005948A
JP2024005948A JP2022106439A JP2022106439A JP2024005948A JP 2024005948 A JP2024005948 A JP 2024005948A JP 2022106439 A JP2022106439 A JP 2022106439A JP 2022106439 A JP2022106439 A JP 2022106439A JP 2024005948 A JP2024005948 A JP 2024005948A
Authority
JP
Japan
Prior art keywords
image
imaging device
specific person
external device
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022106439A
Other languages
English (en)
Inventor
明高 吉澤
Akitaka Yoshizawa
亜也加 木下
Ayaka Kinoshita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2022106439A priority Critical patent/JP2024005948A/ja
Priority to EP23178666.6A priority patent/EP4300288A1/en
Priority to KR1020230075898A priority patent/KR20240002919A/ko
Priority to US18/212,284 priority patent/US20240007742A1/en
Priority to CN202310789685.1A priority patent/CN117336596A/zh
Publication of JP2024005948A publication Critical patent/JP2024005948A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • H04N5/9202Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Studio Devices (AREA)
  • Indication In Cameras, And Counting Of Exposures (AREA)

Abstract

Figure 2024005948000001
【課題】所望の相手との画像の共有と画像の受け手の様子の共有とを容易に行うことが可能な技術を提供する。
【解決手段】本開示に係る撮像装置は、撮像装置の周囲で生じる発話の音声を取得する音声取得手段と、画像を撮影する撮像手段と、発話の音声に特定の人物を表す表現が含まれる場合、特定の人物を表す表現に関連付けられている外部装置に、撮影された画像のうち当該発話の音声の取得に関連する第1画像を送信するように、画像の送信を制御する制御手段と、外部装置で撮影された、第1画像の再生と関連する第2画像を、外部装置から受信する受信手段と、を含む。
【選択図】図1

Description

本発明は、撮像装置、その制御方法及びプログラムに関する。
近年、画像などのコンテンツを通信装置を用いて友人や親族に送信し、当該画像を見て楽しむことがある。このような場合、友人や親族に画像を送信しようとする際には、送信先を選択したり送信する画像を選択したりしたうえで、電子メール等に添付して送信する必要があり手間がかかることがある。
特許文献1では、入力された音声に音声認識を適用して相手先の略称を認識し、認識した略称に対応する宛先に通話を発信する技術を提案している。このような技術では、所望の相手先を選択する手間が軽減され得る。
特開2006-003411号公報
ところで、ユーザが撮影指示を与えることなく定期的および継続的に撮影を行うカメラが開発されている。例えば室内の任意の場所にカメラを設置し自動で撮影することで、日常の何気ない風景を画像として記録可能なライフログカメラが知られている。このようなカメラで記録された画像を友人や親族と共有する場合、画像の受け手の様子によって共有の喜びや楽しさが増大する場合がある。
本発明は、上記課題に鑑みてなされ、その目的は、所望の相手との画像の共有と画像の受け手の様子の共有とを容易に行うことが可能な技術を実現することである。
この課題を解決するため、例えば本発明の撮像装置は以下の構成を備える。すなわち、撮像装置であって、前記撮像装置の周囲で生じる発話の音声を取得する音声取得手段と、画像を撮影する撮像手段と、前記発話の音声に特定の人物を表す表現が含まれる場合、前記特定の人物を表す表現に関連付けられている外部装置に、撮影された画像のうち当該発話の音声の取得に関連する第1画像を送信するように、画像の送信を制御する制御手段と、前記外部装置で撮影された、前記第1画像の再生と関連する第2画像を、前記外部装置から受信する受信手段と、を含むことを特徴とする。
本発明によれば、所望の相手との画像の共有と画像の受け手の様子の共有とを容易に行うことが可能になる。
実施形態1における撮像システム1の構成例を示すブロック図 実施形態1における撮像装置100における動画の撮影及び送信に係る一連の動作を示すフローチャート 実施形態1における撮像装置200の動画再生から撮影動画の送信に係る一連の動作を示すフローチャート 実施形態1における撮像システム1の使用例を説明する図 実施形態2における撮像システム1の使用例を説明する図 実施形態2における撮像装置200の動画再生から撮影動画の送信に係る一連の動作を示すフローチャート 撮像システム1の他の例を説明する図
(実施形態1)
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
(撮像システムの構成例)
図1を参照して、実施形態1における撮像システム1について説明する。撮像システム1は、撮像装置100と200とを含む。なお、本実施形態の説明では、撮像装置100と撮像装置200との間で動画を送信し合う場合を例に説明するが、本実施形態は、撮像装置100と撮像装置200との間で画像(すなわち静止画或いは動画)を送信し合う場合にも適用可能である。また、一例として、撮像装置100及び撮像装置200が携帯可能なデジタルカメラである場合を例に説明する。
まず、撮像装置100の機能構成例について説明する。レンズ1001は、ズームレンズ及びフォーカスレンズを含むレンズ群である。レンズ1001は、交換レンズに含まれてもよい。レンズ制御部1002は、認識部1011によって抽出された被写体情報に基づいて、レンズ1001の焦点距離や絞りの状態を制御する機能を有する。
CPU1003は、例えば1つ以上のプロセッサを含み、例えば中央演算処理装置である。CPU1003は、例えば、記録部1016又は不図示の不揮発性メモリに記録されているプログラムを後述するRAM(Random Access Memory)1006に展開、実行することにより、撮像装置100全体の動作を制御する。また、CPU1003は、図2を参照して後述する撮像装置100の動作を実行する。CPUバス1004はCPU1003と各機能ブロックとの通信を制御する。なお、以下で説明する撮像装置100の各部の構成(例えば認識部1011、動画符号化部1013、人物抽出部1040など)は、CPU1003がプログラムを実行することにより実現されてもよい。
RAM制御部1007は、各機能ブロックからのRAMアクセス要求に基づき、RAM1006へアクセスする制御を行う。RAMバス1005は、RAM制御部1007と各機能ブロックとの通信を制御する。RAMバス1005は各機能ブロックからRAM1006へのアクセスを調停する機能も有する。
撮像部1008は、レンズ1001を介して入射した光を電気信号へ変換する撮像素子を含む。撮像素子が所定の間隔で順次画像信号を出力することにより動画データが構成される。撮像部1008は、得られた動画データに対してレンズ収差を補正する機能や、撮像センサの欠陥画素を補間する機能を含む。
現像部1009は、撮像部1008で生成した動画データに対し、デベイヤー処理を施して、輝度信号と色差信号から成る信号に変換し、各信号に含まれるノイズ除去、光学的な歪の補正、画像の適正化等の現像処理を行う。評価部1010は、撮像部1008で生成した動画データに基づいて、フォーカス状態や露出状態等の評価値を算出する評価値算出処理を行う。
認識部1011は、現像部1009で現像処理された動画データ内の被写体情報を検出及び認識し被写体情報を生成する認識処理を行う。例えば、認識部1011は、動画データ内の顔を検出する処理を実行し、顔を検出した場合には顔の位置を示す情報を出力する。認識部1011は、さらに顔などの特徴情報に基づいて特定の人物の認証などを行う。
表示制御部1012は、現像部1009で現像処理された動画データに所定の表示処理(例えば表示部1015の表示パネルの特性に応じた変換やグラフィックスの重畳など)を行った後、表示部1015に出力する。表示部1015は、例えば液晶パネルで構成され、再生された動画データを表示する。表示部1015は、例えば、撮像装置100に内蔵される。しかし、表示部1015は、撮像装置100の外部に配置され、撮像装置100と例えば有線を介して接続されるように構成されてもよい。
動画符号化部1013は、現像部1009で現像処理された動画データをMPEG4 Video等の所定の動画圧縮符号化方式を用いて圧縮符号化し、情報量が圧縮された動画ファイルに変換する処理を行う。動画符号化部1013は、動画データを圧縮して動画ファイルに変換する処理に加えて、通信部2022を介して外部から動画ファイルを受信した場合に当該動画ファイルを復号化する機能を兼ね備えてもよい。
記録制御部1014は、現像部1009で現像処理された動画データを記録部1016に記録する記録制御処理を行う。記録部1016は、例えば不揮発性の記憶媒体を含み、例えばメモリカードやハードディスクを含んでよい。記録部1016は、例えば、撮像装置100に内蔵される。しかし、記録部1016は撮像装置100に着脱可能に構成されてもよい。
マイク1017は、音声を音声信号に変換する。マイク1017は、例えば撮像装置100と着脱可能に構成されてよい。しかし、マイク1017は撮像装置100に内蔵されてもよい。マイク制御部1018は、マイク1017と接続し、マイク1017の制御、収音の開始及び停止や収音された音声データの取得などを行う。マイク1017の制御は例えば、ゲイン調整や、状態取得などである。
音声符号/復号化部1019は、マイク1017より入力された音声信号を取得して、MPEG4Audio AAC等の所定の符号化方式で符号化あるいは復号化する。スピーカ1020は、音声符号/復号化部1019により復号化された音声信号を再生する再生する。スピーカ1020は、例えば撮像装置100と着脱可能に構成されるが、撮像装置100に内蔵されてもよい。
人物抽出部1040は、マイク1017により収音した音声データから人物名を抽出する。例えば、人物抽出部1040は、撮像装置100の周囲で生じるユーザの発話の音声を音声データとして取得すると、例えば機械学習モデルを用いる公知の音声認識技術により、ユーザの発話の音声から人物を表す表現を抽出する。ここで抽出される人物を表す表現は、「A子」などの人物の名前のほか、「おばあちゃん」などの呼称やニックネームなどを含んでよい。
通信部1022は、有線又は無線によって撮像装置100と他の装置とを接続し、動画ファイル等を送受信する通信インタフェースであって、無線LAN(Local Area Network)やインターネット等のネットワークにも接続できる。通信部1022は撮像装置100で取得された動画ファイル並びに記録部1016に記録されている動画ファイルを外部装置に送信することができ、外部装置から動画ファイルおよび各種情報を受信できる。
操作部1023は、撮像装置100の各種設定を行うための、ユーザ(例えば撮像装置100の所有者)からの種々の操作を受け付ける。
所有者登録部1024は、動画ファイルの送信先(例えば撮像装置200などの外部装置の所有者)をRAM1006に登録する。所有者登録部1024は、外部装置の所有者の情報として、例えば、「おばあちゃん」などの特定の人物を表す表現を登録してもよい。また、所有者登録部1024は、動画を外部装置に送信するための送信先の情報を、特定の人物を表す表現と関連付けて登録する。なお、動画を外部装置に送信するための送信先の情報は、特定の人物に対応するメールアドレス、所定のサービスのアカウント、外部装置のIPアドレスなど、様々な情報であってよい。このような情報により、撮像装置100は、人物抽出部1040によって発話の音声から特定の人物を表す表現が抽出された場合に、抽出された特定の人物を表す表現(例えば「おばあちゃん」)に関連付けられている送信先に動画を送信することができる。
次に、撮像装置200について説明する。撮像装置200はレンズ2001~所有者登録部2024を備える。レンズ2001~所有者登録部2024は、それぞれ撮像装置100のレンズ1001~所有者登録部1024と同様である。
所有者検出部2050は、撮像装置200から所定の範囲内にいる特定の人物(例えば撮像装置200の所有者)を検出する。所有者検出部2050は、例えば、撮像手段2008を用いて画像を撮影し、撮影した画像から特定の人物を検出する。
(撮像装置100における動画の撮影及び送信に係る一連の動作)
次に、図2を参照して、撮像システム1の撮像装置100における動画の撮影及び送信に係る一連の動作(撮像装置100が動画を撮影してから撮像装置200へ撮影した動画を送信する動作)について説明する。なお、図2に示す一連の動作は、CPU1003が、例えば、記録部1016又は不図示の不揮発性メモリに記録されているプログラムをRAM1006に展開し、実行することにより実現される。また、当該一連の動作は、撮像装置100の不図示の電源スイッチがON状態であるときに実行される。
本一連の動作は、例えば、撮像装置100における動画の撮影の際に、撮像装置100のユーザ或いは所有者である「A子」が「おばあちゃんにも見せてあげたいね」などと発話した場合に適用される。このような場合に、撮像装置100は、例えば「B子」(A子の祖母であり「おばあちゃん」と呼ばれる)がユーザである或いは所有者である撮像装置200に、A子が発話した時点を含む所定の時間内に撮影された動画を送信することができる。
ステップS201では、CPU1003は、操作部1023に対するユーザ(例えば所有者)の撮影開始指示操作により動画の撮影と音声の取得を開始する。
ステップS202では、CPU1003は、動画記録処理および音声取得処理を開始する。動画記録処理では、設定されたフレームレートで撮像部1008により連続的に撮影を行い、取得した画像信号を動画符号化部1013により符号化し、動画データとしてRAMバス1005およびRAM制御部1007を介してRAM1006に記録する。また、CPU1003は、並行してマイク制御部1018によりマイク1017からの音声データの取得を行い、取得した音声データを音声符号/復号化部1019により符号化し、動画データに付随する音声データとしてRAM1006に記録する。CPU1003は、RAM1006に記録された動画データおよび音声データを、MPEG4等の1つの動画ファイルとして記録制御部1014を介して記録部1016に記録する。この一連の動画記録処理および音声取得処理は、撮像装置100のユーザ(例えば所有者)による撮影終了指示操作があるまで継続して実行される。CPU1003は、操作部1023に対するユーザ(例えば所有者)の動画撮影終了指示操作を受け付けると、ステップS202からステップS203へ処理を進める。
ステップS203では、CPU1003は、動画記録処理および音声取得処理を終了する。また、CPU1003は、動画の取得と音声の取得も終了する。ステップS204では、人物抽出部1040が音声に対する音声認識処理を実行して、当該音声に含まれる人物を表す表現(例えば人物名)を抽出する。ステップS205では、CPU1003は、ステップS204で抽出した人物を表す表現(例えば人物名)が、予め登録されている、特定の人物を表す表現(例えば「おばあちゃん」などの人物名)と一致するかを判定する。例えば、CPU1003は、所有者登録部1024によって動画ファイルの送信先して事前にRAM1006に登録されている特定の人物を表す表現と、抽出した人物を表す表現とが一致するかを判定する。CPU1003は、これらの抽出した情報と登録されている情報とが一致すると判定した場合にはステップS206に処理を進め、そうでない場合には、本一連の動作を終了する。
ステップS206では、動画ファイルを、撮像装置200に通信部1022を介して送信する。より具体的には、CPU1003は、所有者登録部1024で登録された情報を参照して、特定の人物を表す表現に関連付けられている送信先に、動画ファイルを送信する。このとき、CPU1003は、特定の人物を表す表現が抽出された時点を含む所定の時間内に撮影された動画を、発話の音声に関連する動画として撮像装置200に送信する。CPU1003は、当該所定の時間内に撮影された動画として、複数の動画を撮像装置200に送信してもよい。
このように、上記一連の動作では、撮像装置100の動画の撮影処理時には、発話の音声から特定の人物を表す表現が抽出された場合に撮像装置200へ動画ファイルを送信することができる。
なお、上述の一連の動作において、CPU1003は、撮像装置200に送信する前に、撮影した動画を撮像装置200に送信するか否かを、例えば表示や音声を介して撮像装置100のユーザに問い合わせてもよい。この場合、CPU1003は、撮影した動画を撮像装置200に送信することを示すユーザからの応答を受け付けたことに応じて、撮影した動画を撮像装置200に送信する。CPU1003は、当該ユーザからの応答を、操作部1023を介して受け付けても良いし、マイク1017を介して音声で受け付けても良い。CPU1003は、送信しないことを示すユーザからの応答を受け付けた場合、動画ファイルを送信せずに処理を終了してもよい。
(撮像装置200における動画再生から撮影動画の送信に係る一連の動作)
次に、図3を参照して、撮像システム1の撮像装置200における動画再生から撮影動画の送信に係る一連の動作(撮像装置100から動画ファイルを受信して再生し、さらに撮像装置100へ動画を送信する動作)について説明する。なお、図3に示す一連の動作は、CPU2003が、例えば、記録部2016又は不図示の不揮発性メモリに記録されているプログラムをRAM2006に展開し、実行することにより実現される。また、当該一連の動作は、撮像装置200の不図示の電源スイッチがON状態であるときに実行される。また、本一連の動作は、例えば、撮像装置200が、撮像装置100から受信した動画を再生したうえで、撮像装置200のユーザ或いは所有者である「B子」(「おばあちゃん」)の様子を撮影し、撮影した動画を撮像装置100に送信する場合に適用される。
ステップS301では、CPU2003は、撮像装置100から送信される動画ファイルを、通信部2022を介して受信する。ステップS302では、CPU2003は、ステップS301で受信した動画ファイルを再生し、表示部2015およびスピーカ2020に出力する。このとき、例えば、CPU2003の指示に応じて、撮像装置200の動画符号化部2013及び音声符号/復号化部2019により動作ファイルの動画データ及び音声データの復号化が行われる。
なお、CPU2003は、動画ファイルが再生されるように出力した場合に、当該動画ファイルが再生されたことを示す情報を、動画ファイルの送信元である撮像装置100に送信してもよい。撮像装置100のユーザは、送信した動画ファイルが、撮像装置200において再生されたことを認識することができる。
ステップS303では、CPU2003は、ステップS302の再生開始から所定時間が経過した後に撮像装置200において動画の撮影と音声の取得を開始する。このように撮像装置200において動画の撮影と音声の取得を行うことにより、撮像装置200のユーザ(例えば所有者)が画像内に含まれる動画を撮影することができ、ユーザが再生されている動画を視聴した際の様子を撮影することができる。
なお、動画の撮影と音声の取得の開始は、他のタイミングで行われても良い。例えば、CPU2003は、動画ファイルの再生終了から所定時間後に動画の撮影を開始してもよい。或いは、CPU2003は、撮像装置200から所定の範囲内にいる特定の人物(動画の送信先に関するユーザ)を所有者検出部2050に検出させ、ユーザが検出された場合に、動画を撮影するようにしてもよい。これにより、当該動画を視聴する人物の様子をより確実に撮影することができる。
また、CPU2003は、動画を撮影するか否かを、例えば表示や音声を介して問い合わせ、動画を撮影することを示すユーザからの応答を受け付けたことに応じて、動画を撮影するようにしてもよい。ユーザからの応答は、操作部2023を介した入力であってもよいし、音声による入力であってもよい。ユーザが撮影されることを望まない場合に、ユーザの様子が共有されることを防止することができる。CPU2003は、動画を撮影しないことを示すユーザからの応答を受け付けた場合、或いは、動画を撮影することを示すユーザからの応答を所定時間以内に受け付けない場合、動画の撮影を開始せずに終了してもよい。
ステップ304では、CPU2003は、動画記録処理および音声取得処理を開始する。この動画記録処理および音声取得処理は、撮像装置100の動作として上述したステップS202における動作と同様に行われてよい。これにより、CPU2003は、取得した動画及び音声を、MPEG4等の1つの動画ファイルとして記録制御部2014を介して記録部2016に記録する。なお、この一連の動画記録処理および音声取得処理は、撮像装置200のユーザ(例えば所有者)による撮影終了指示操作があるまで継続して実行される。CPU2003は、操作部2023に対するユーザ(例えば所有者)の動画撮影終了指示操作を受け付けると、ステップS304からステップS305へ処理を進める。ステップS305では、CPU2003は、動画の撮影および音声の取得を終了する。また、CPU2003は、動画記録処理および音声取得処理を終了する。
ステップS306では、CPU2003は、撮像装置100へ通信部2022を介して、動画ファイルを送信する。なお、ここに示す例では、CPU2003が、撮像装置100へ動画ファイルを送信する際に、無条件で送信するようにしているがこれに限らない。例えば、CPU2003は、撮影した動画を、撮像装置100(再生した動画の送信元の装置)に送信するかを問い合わせる。そして、CPU2003は、撮影した動画を送信することを示すユーザからの応答を受け付けたことに応じて、動画ファイルを撮像装置100へ送信するようにしてもよい。ユーザからの応答は、操作部2023を介した入力であってもよいし、音声による入力であってもよい。CPU2003は、送信しないことを示すユーザからの応答を受け付けた場合は動画ファイルを送信せずに終了する。
このように、撮像装置200は、撮像装置100から送信された動画ファイルを再生することに応じて動画の撮影を開始して、撮影した動画ファイルを撮像装置100へ送信する。このように、撮像装置200のユーザは、容易な操作により、当該ユーザ自身が撮像装置100で撮影された動画を見たときの様子を、撮像装置100のユーザに送信することができる。換言すれば、撮像装置200は、受信した動画に対する反応の動画を手間なく送信することができる。
なお、撮像装置200から動画ファイルが送信されると、撮像装置100は、撮像装置200から送信された動画ファイルを受信して、再生する。
図4は、本実施形態の撮像システム1の使用例を示している。図4に示す撮像システム1では、撮像装置100に対して人物110がユーザ(例えば所有者)として登録されており、撮像装置200に対して人物210がユーザ(例えば所有者)として登録されている。例えば、上述の「A子」と「おばあちゃん」の例では、例えば、人物110が「A子」に対応し、人物210が「おばあちゃん」に対応し得る。まず、撮像装置100で撮影された動画ファイルが撮像装置100から撮像装置200へ送信され、撮像装置200において再生される。このとき、撮像装置200では、動画の再生をもって動画の撮影を開始するため、「おばあちゃん」が動画を見る様子を撮影した動画を撮影することができる。撮影された動画は、その後、「A子」の撮像装置100に送信される。このため、「A子」は、自身が送信した動画を視聴する「おばあちゃん」の様子を見ることができる。こうすることで人物110と人物210は、撮像装置100と200を介して相互に動画を送り合うコミュニケーションを実現することができる。つまり、撮像装置100からの動画の共有と、当該動画の受け手の様子の共有(撮像装置200で撮影した動画の共有)とを容易に行うことができる。
(実施形態2)
実施形態1では表示部2015が撮像装置200の一部である場合を説明した。本実施形態では撮像装置200の外部に表示部500が存在する場合について説明する。撮像装置200の外部の表示部500は、例えば、テレビ、モニタなどの独立した表示装置であってもよい。以下の説明では、表示部500が有線又は無線通信の可能な装置である場合を例に説明する。なお、本実施形態に係る撮像装置100と撮像装置200の構成は、実施形態1と同様の構成とすることができる。従って、実施形態1で上述した構成と同一又は実質的に同一である構成については同一の参照番号を付してその説明を省略し、相違点について重点的に説明する。
図5を参照して、実施形態2における撮像システムについて説明する。図5に示すように、本実施形態の例では、表示部500は撮像装置200の外部に設置され、有線あるいは無線通信により撮像装置200から動画を受信して表示パネルに表示する。
(撮像装置200における動画再生から撮影動画の送信に係る一連の動作)
図6を参照して、撮像システム1の撮像装置200における動画再生から撮影動画の送信に係る一連の動作(撮像装置100から動画ファイルを受信して再生し、さらに撮像装置100へ動画を送信する動作)について説明する。なお、図3に示す一連の動作は、CPU2003が、例えば、記録部2016又は不図示の不揮発性メモリに記録されているプログラムをRAM2006に展開し、実行することにより実現される。
撮像装置200のCPU2003は、実施形態1と同様に、ステップS301を実行して、撮像装置100から送信された動画ファイルを受信する。
ステップS601では、CPU2003は、表示部500へ動画ファイルを送信する(出力する)。本実施形態では、例えば、動画ファイルは、表示部500側でデコードされて表示されてもよい。なお、CPU2003がS301で受信した動画ファイルを表示部500に送信する場合を例に説明しているが、撮像装置200側で動画ファイルをデコードし、デコード後の動画データを表示部500へ送信(出力)するようにしてもよい。
ステップS602では、CPU2003は、ステップS601における動画ファイルの送信から所定時間後に、撮像装置200における動画の撮影と音声の取得を開始する。
更に、CPU2003は、実施形態1と同様に、ステップS304~ステップS306の処理を実行して、撮像装置100へ撮影した動画ファイルを送信する。CPU2003は、その後、本一連の動作を終了する。
このようにしても、撮像装置200のユーザは、容易な操作により、当該ユーザ自身が撮像装置100で撮影された動画を見たときの様子を、撮像装置100のユーザに送信することができる。換言すれば、撮像装置200は、受信した動画に対する反応の動画を手間なく送信することができる。本実施形態では、撮像装置200のユーザは、より視聴に適した表示装置で動画を再生することができる。
なお、上述の実施形態では、撮像装置の例としてデジタルカメラを用いる場合を例に説明した。しかし、例えば、図7に示すように少なくとも一方がスマートフォン700のような形態であってもよい。また、これらの装置の少なくとも一方が据え置き型のカメラであってもよいし、スマートフォン、ゲーム機、パーソナルコンピュータ、タブレット端末、ディスプレイ機器などであってもよい。
また、上述の実施形態では、動画を記録する場合を例に説明したが、静止画を記録する場合においても同様の処理を行うことができる。静止画を処理する場合、図2のステップS202において取得する音声データは、例えば静止画の撮影前後の所定時間の音声データであってよい。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本明細書の開示は、以下の撮像装置、撮像装置の制御方法、及びプログラムを含む。
(項目1)
撮像装置であって、
前記撮像装置の周囲で生じる発話の音声を取得する音声取得手段と、
画像を撮影する撮像手段と、
前記発話の音声に特定の人物を表す表現が含まれる場合、前記特定の人物を表す表現に関連付けられている外部装置に、撮影された画像のうち当該発話の音声の取得に関連する第1画像を送信するように、画像の送信を制御する制御手段と、
前記外部装置で撮影された、前記第1画像の再生と関連する第2画像を、前記外部装置から受信する受信手段と、を含むことを特徴とする撮像装置。
(項目2)
前記特定の人物を表す表現と、画像を前記外部装置に送信するための送信先の情報とを関連付けて登録する登録手段と、
取得された前記発話の音声から人物を表す表現を抽出する抽出手段と、を更に含み、
前記制御手段は、前記抽出手段により前記発話の音声から前記特定の人物を表す表現が抽出された場合に、前記特定の人物を表す表現に関連付けられている前記送信先に前記第1画像を送信するように、画像の送信を制御する、ことを特徴とする項目1に記載の撮像装置。
(項目3)
前記制御手段は、前記第1画像を前記外部装置に送信するか否かを前記撮像装置のユーザに問い合わせ、前記第1画像を前記外部装置に送信することを示す前記ユーザからの応答を受け付けたことに応じて、前記第1画像を前記外部装置に送信するように画像の送信を制御する、ことを特徴とする項目1又は2に記載の撮像装置。
(項目4)
前記制御手段は、前記発話の音声に前記特定の人物を表す表現が含まれると判定した時点を含む所定の時間内に撮影された1以上の画像のうちの少なくとも1つを前記第1画像として前記外部装置に送信する、項目1から3のいずれか1項に記載の撮像装置。
(項目5)
前記第2画像は、前記特定の人物が画像内に含まれる動画を含む、ことを特徴とする項目1から4のいずれか1項に記載の撮像装置。
(項目6)
撮像装置であって、
特定の人物を表す表現に関連付けられている前記撮像装置に向けて外部装置から送信された第1画像であって、前記特定の人物を表す表現を含む発話の音声の取得に関連する画像である第1画像を受信する受信手段と、
前記第1画像が再生されるように前記第1画像を表示手段に出力する出力手段と、
前記第1画像が再生されることに応じて第2画像を撮影し、撮影した前記第2画像を前記外部装置に送信するように、画像の送信を制御する制御手段と、を含む撮像装置。
(項目7)
前記出力手段は、前記第1画像が前記撮像装置の外部の表示装置で表示されるように前記第1画像を前記表示装置に送信する、ことを特徴とする項目6に記載の撮像装置。
(項目8)
前記制御手段は、前記第1画像が再生されるように前記第1画像を出力した場合に、前記第1画像が再生されたことを示す情報を、前記第1画像を送信した前記外部装置に送信する、ことを特徴とする項目6に記載の撮像装置。
(項目9)
前記撮像装置から所定の範囲内にいる、前記特定の人物を検出する検出手段を更に含み、
前記制御手段は、前記特定の人物が検出された場合に、前記第2画像を撮影する、ことを特徴とする項目6から8のいずれか1項に記載の撮像装置。
(項目10)
前記制御手段は、前記第2画像を撮影するか否かを問い合わせ、前記第2画像を撮影することを示す前記特定の人物からの応答を受け付けたことに応じて、前記第2画像を撮影する、ことを特徴とする項目6から8のいずれか1項に記載の撮像装置。
(項目11)
前記制御手段は、前記第1画像の出力を開始した時点から所定時間後に前記第2画像を撮影する、ことを特徴とする項目6から8のいずれか1項に記載の撮像装置。
(項目12)
前記制御手段は、前記第1画像の出力を終了した時点から所定時間後に前記第2画像を撮影する、ことを特徴とする項目6から8のいずれか1項に記載の撮像装置。
(項目13)
撮影された前記第2画像を、前記第1画像を送信した前記外部装置に送信するかを問い合わせ、前記第2画像を送信することを示す前記特定の人物からの応答を受け付けたことに応じて、前記第2画像を前記外部装置へ送信する、ことを特徴とする項目6から8のいずれか1項に記載の撮像装置。
(項目14)
前記第2画像は、前記特定の人物が画像内に含まれる動画を含む、ことを特徴とする項目6から13のいずれか1項に記載の撮像装置。
(項目15)
撮像装置の制御方法であって、
前記撮像装置の周囲で生じる発話の音声を取得する音声取得工程と、
画像を撮影する撮像工程と、
前記発話の音声に特定の人物を表す表現が含まれる場合、前記特定の人物を表す表現に関連付けられている外部装置に、撮影された画像のうち当該発話の音声の取得に関連する第1画像を送信するように、画像の送信を制御する制御工程と、
前記外部装置で撮影された、前記第1画像の再生と関連する第2画像を、前記外部装置から受信する受信工程と、を含むことを特徴とする撮像装置の制御方法。
(項目16)
撮像装置の制御方法であって、
特定の人物を表す表現に関連付けられている前記撮像装置に向けて外部装置から送信された第1画像であって、前記特定の人物を表す表現を含む発話の音声の取得に関連する画像である第1画像を受信する受信工程と、
前記第1画像が再生されるように前記第1画像を表示手段に出力する出力工程と、
前記第1画像が再生されることに応じて第2画像を撮影し、撮影した前記第2画像を前記外部装置に送信するように、画像の送信を制御する制御工程と、を含む撮像装置の制御方法。
(項目17)
コンピュータを、項目1から14のいずれか1項に記載の撮像装置の各手段として機能させるためのプログラム。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100…撮像装置、1003…CPU、1008…撮像手段、1022…通信部、1024…所有者登録部、1040…人物抽出部、200…撮像装置、2008…撮像手段、2012…表示制御手段

Claims (17)

  1. 撮像装置であって、
    前記撮像装置の周囲で生じる発話の音声を取得する音声取得手段と、
    画像を撮影する撮像手段と、
    前記発話の音声に特定の人物を表す表現が含まれる場合、前記特定の人物を表す表現に関連付けられている外部装置に、撮影された画像のうち当該発話の音声の取得に関連する第1画像を送信するように、画像の送信を制御する制御手段と、
    前記外部装置で撮影された、前記第1画像の再生と関連する第2画像を、前記外部装置から受信する受信手段と、を含むことを特徴とする撮像装置。
  2. 前記特定の人物を表す表現と、画像を前記外部装置に送信するための送信先の情報とを関連付けて登録する登録手段と、
    取得された前記発話の音声から人物を表す表現を抽出する抽出手段と、を更に含み、
    前記制御手段は、前記抽出手段により前記発話の音声から前記特定の人物を表す表現が抽出された場合に、前記特定の人物を表す表現に関連付けられている前記送信先に前記第1画像を送信するように、画像の送信を制御する、ことを特徴とする請求項1に記載の撮像装置。
  3. 前記制御手段は、前記第1画像を前記外部装置に送信するか否かを前記撮像装置のユーザに問い合わせ、前記第1画像を前記外部装置に送信することを示す前記ユーザからの応答を受け付けたことに応じて、前記第1画像を前記外部装置に送信するように画像の送信を制御する、ことを特徴とする請求項1に記載の撮像装置。
  4. 前記制御手段は、前記発話の音声に前記特定の人物を表す表現が含まれると判定した時点を含む所定の時間内に撮影された1以上の画像のうちの少なくとも1つを前記第1画像として前記外部装置に送信する、請求項1に記載の撮像装置。
  5. 前記第2画像は、前記特定の人物が画像内に含まれる動画を含む、ことを特徴とする請求項1に記載の撮像装置。
  6. 撮像装置であって、
    特定の人物を表す表現に関連付けられている前記撮像装置に向けて外部装置から送信された第1画像であって、前記特定の人物を表す表現を含む発話の音声の取得に関連する画像である第1画像を受信する受信手段と、
    前記第1画像が再生されるように前記第1画像を表示手段に出力する出力手段と、
    前記第1画像が再生されることに応じて第2画像を撮影し、撮影した前記第2画像を前記外部装置に送信するように、画像の送信を制御する制御手段と、を含む撮像装置。
  7. 前記出力手段は、前記第1画像が前記撮像装置の外部の表示装置で表示されるように前記第1画像を前記表示装置に送信する、ことを特徴とする請求項6に記載の撮像装置。
  8. 前記制御手段は、前記第1画像が再生されるように前記第1画像を出力した場合に、前記第1画像が再生されたことを示す情報を、前記第1画像を送信した前記外部装置に送信する、ことを特徴とする請求項6に記載の撮像装置。
  9. 前記撮像装置から所定の範囲内にいる、前記特定の人物を検出する検出手段を更に含み、
    前記制御手段は、前記特定の人物が検出された場合に、前記第2画像を撮影する、ことを特徴とする請求項6に記載の撮像装置。
  10. 前記制御手段は、前記第2画像を撮影するか否かを問い合わせ、前記第2画像を撮影することを示す前記特定の人物からの応答を受け付けたことに応じて、前記第2画像を撮影する、ことを特徴とする請求項6に記載の撮像装置。
  11. 前記制御手段は、前記第1画像の出力を開始した時点から所定時間後に前記第2画像を撮影する、ことを特徴とする請求項6に記載の撮像装置。
  12. 前記制御手段は、前記第1画像の出力を終了した時点から所定時間後に前記第2画像を撮影する、ことを特徴とする請求項6に記載の撮像装置。
  13. 撮影された前記第2画像を、前記第1画像を送信した前記外部装置に送信するかを問い合わせ、前記第2画像を送信することを示す前記特定の人物からの応答を受け付けたことに応じて、前記第2画像を前記外部装置へ送信する、ことを特徴とする請求項6に記載の撮像装置。
  14. 前記第2画像は、前記特定の人物が画像内に含まれる動画を含む、ことを特徴とする請求項6に記載の撮像装置。
  15. 撮像装置の制御方法であって、
    前記撮像装置の周囲で生じる発話の音声を取得する音声取得工程と、
    画像を撮影する撮像工程と、
    前記発話の音声に特定の人物を表す表現が含まれる場合、前記特定の人物を表す表現に関連付けられている外部装置に、撮影された画像のうち当該発話の音声の取得に関連する第1画像を送信するように、画像の送信を制御する制御工程と、
    前記外部装置で撮影された、前記第1画像の再生と関連する第2画像を、前記外部装置から受信する受信工程と、を含むことを特徴とする撮像装置の制御方法。
  16. 撮像装置の制御方法であって、
    特定の人物を表す表現に関連付けられている前記撮像装置に向けて外部装置から送信された第1画像であって、前記特定の人物を表す表現を含む発話の音声の取得に関連する画像である第1画像を受信する受信工程と、
    前記第1画像が再生されるように前記第1画像を表示手段に出力する出力工程と、
    前記第1画像が再生されることに応じて第2画像を撮影し、撮影した前記第2画像を前記外部装置に送信するように、画像の送信を制御する制御工程と、を含む撮像装置の制御方法。
  17. コンピュータを、請求項1から14のいずれか1項に記載の撮像装置の各手段として機能させるためのプログラム。
JP2022106439A 2022-06-30 2022-06-30 撮像装置、その制御方法及びプログラム Pending JP2024005948A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2022106439A JP2024005948A (ja) 2022-06-30 2022-06-30 撮像装置、その制御方法及びプログラム
EP23178666.6A EP4300288A1 (en) 2022-06-30 2023-06-12 Image capturing apparatus, control method thereof, and program
KR1020230075898A KR20240002919A (ko) 2022-06-30 2023-06-14 촬상장치, 그 제어방법, 및 기억매체
US18/212,284 US20240007742A1 (en) 2022-06-30 2023-06-21 Image capturing apparatus, control method thereof, and storage medium
CN202310789685.1A CN117336596A (zh) 2022-06-30 2023-06-30 摄像设备及其控制方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022106439A JP2024005948A (ja) 2022-06-30 2022-06-30 撮像装置、その制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2024005948A true JP2024005948A (ja) 2024-01-17

Family

ID=86760292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022106439A Pending JP2024005948A (ja) 2022-06-30 2022-06-30 撮像装置、その制御方法及びプログラム

Country Status (5)

Country Link
US (1) US20240007742A1 (ja)
EP (1) EP4300288A1 (ja)
JP (1) JP2024005948A (ja)
KR (1) KR20240002919A (ja)
CN (1) CN117336596A (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003411A (ja) 2004-06-15 2006-01-05 Canon Inc 情報処理装置
US9311525B2 (en) * 2014-03-19 2016-04-12 Qualcomm Incorporated Method and apparatus for establishing connection between electronic devices
KR20170091913A (ko) * 2016-02-02 2017-08-10 삼성전자주식회사 영상 서비스 제공 방법 및 장치

Also Published As

Publication number Publication date
EP4300288A1 (en) 2024-01-03
US20240007742A1 (en) 2024-01-04
CN117336596A (zh) 2024-01-02
KR20240002919A (ko) 2024-01-08

Similar Documents

Publication Publication Date Title
JP6240642B2 (ja) イメージ撮影装置のイメージを提供する方法及びその装置
JP4978324B2 (ja) 画像記録装置、画像記録システム、画像再生方法
JP6319491B2 (ja) 撮像装置及び制御方法
JP5600405B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6583458B2 (ja) 撮像装置及び制御方法
JP2013183280A (ja) 情報処理装置、撮像装置、及びプログラム
JP2024005948A (ja) 撮像装置、その制御方法及びプログラム
JP2013118518A (ja) 撮像装置
JP5407651B2 (ja) 画像処理装置、画像処理プログラム
JP2006211570A (ja) 撮影装置
JP6583457B2 (ja) 撮像装置及び制御方法
JP5024331B2 (ja) ビデオカメラ及び情報送信方法
JP7525222B2 (ja) 遠隔会議システム、方法及びプログラム
JP6282136B2 (ja) 撮像装置及びその制御方法
JP5672330B2 (ja) 撮像装置、撮像装置制御プログラム及び撮像制御方法
KR20130101707A (ko) 촬영장치, 전자 장치, 동영상 생성 방법 및 썸네일 표시 방법
JP5245493B2 (ja) 撮像装置、撮像装置制御プログラム及び撮像制御方法
JP2023162709A (ja) 撮像装置
JP4465655B2 (ja) ビデオカメラ及び情報送信方法
JP5963921B2 (ja) デジタルカメラ及びカメラの合成画像表示方法
JP2006133433A (ja) 音声/文字変換システムならびに携帯型端末装置および変換サーバならびにそれらの制御方法
JP5774731B2 (ja) デジタルカメラ及びデジタルカメラの合成画像表示方法
JP6103803B2 (ja) 音声信号処理装置
JP5654148B2 (ja) デジタルカメラ及びデジタルカメラの合成画像表示方法
KR19980075655A (ko) 데크 분리형 캠코더