JP2009141555A - 音声入力機能付き撮像装置及びその音声記録方法 - Google Patents

音声入力機能付き撮像装置及びその音声記録方法 Download PDF

Info

Publication number
JP2009141555A
JP2009141555A JP2007314454A JP2007314454A JP2009141555A JP 2009141555 A JP2009141555 A JP 2009141555A JP 2007314454 A JP2007314454 A JP 2007314454A JP 2007314454 A JP2007314454 A JP 2007314454A JP 2009141555 A JP2009141555 A JP 2009141555A
Authority
JP
Japan
Prior art keywords
voice
image
registrant
speaker
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007314454A
Other languages
English (en)
Inventor
Toshibumi Akiyama
俊文 穐山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2007314454A priority Critical patent/JP2009141555A/ja
Publication of JP2009141555A publication Critical patent/JP2009141555A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Abstract

【課題】撮影後の編集によらなくても主要被写体の発する音声をテキストデータで被写体画像に合成する。
【解決手段】被写体画像を撮像する撮像手段12と、撮像手段12が被写体画像を撮像するとき同時に音声を取り込む音声入力手段31と、該音声をテキストデータ化する音声認識手段17と、該テキストデータを被写体画像に合成する画像合成手段18とを備える。
【選択図】図1

Description

本発明は、マイク等の音声入力機能を持った撮像装置及びその音声記録方法に関する。
特許文献1には、会議などにおける音声をマイクで拾い、この音声をテキスト化して記録する技術が開示されている。また、特許文献2には、デジタルカメラ等で映像の他に音声をマイクで拾い、撮影された画像及び音声を解析して、音声をテキスト化したデータを画像ファイルに関連付けて記録する技術が開示されている。
また、特許文献3には、撮影された動画像データを解析し、顔検出機能により顔の特徴量と位置とを検出し、音声識別機能によって音声の特徴量を検出し、これらを基に動画像データ中の特定話者の位置を特定すると共に特定話者の音声をテキストデータ化し、特定話者が喋った内容を字幕として動画像データ中に合成する技術が開示されている。
また、特許文献4は、画像上の人物と音声との対応付けの精度を向上させ、音声をテキストデータ化して話者に対応させて表示させる技術を開示している。特許文献5は、外部から送信されてきた画像データおよび音声データを受信し、音声をテキストデータ化して画面上に表示する技術を開示する。
特許文献6は、入力された音声をテキストデータ化し、カメラ部で撮影された画像に対応させて記録させると共に、所望の画像を対応のテキストデータで検索できる様にする技術を開示する。
特開2006−189626号公報 特開2006−133433号公報 特開2007−27990号公報 特開2004−56286号公報 特開平9−233442号公報 特開2005−20440号公報
上述した各特許文献に記載されている様に、マイクで拾った音声をテキストデータ化する技術が一般的となり、撮像された画像に対応付けて音声を字幕として、あるいは吹き出しとして、表示することが行われる様になってきている。
しかし、従来技術は、いずれも、撮影済みの画像を後でパソコン等を用いて解析して、話者を特定すると共に音声をテキストデータ化し、両者を対応付ける解析を行い、字幕表示や吹き出し表示を行うという、撮影後の編集処理であるため、面倒であるという問題がある。また、話者と音声との対応付けの精度が低く、撮影中の主要人物の音声を高精度に抽出して字幕表示や吹き出し表示を精度良く対応付けて行うことができないという問題がある。
本発明の目的は、撮影後の編集によらなくても主要被写体の発する音声をテキストデータで被写体画像に合成することができ、また、撮影中の主要人物の音声を高精度に対応つけて字幕表示や吹き出し表示することができる音声入力機能付き撮像装置及びその音声記録方法を提供することにある。
本発明の音声入力機能付き撮像装置は、被写体画像を撮像する撮像手段と、該撮像手段が前記被写体画像を撮像するとき同時に音声を取り込む音声入力手段と、該音声をテキストデータ化する音声認識手段と、該テキストデータを前記被写体画像に合成する画像合成手段とを備えることを特徴とする。
本発明の音声入力機能付き撮像装置は、前記音声の話者を特定する話者特定手段を備え、前記画像合成手段は、特定された前記話者が予め登録された登録者である場合のみ前記合成を行うことを特徴とする。
本発明の音声入力機能付き撮像装置は、前記話者が特定され該話者の音声データを前記テキストデータで合成するとき該話者を特定する名前を該テキストデータと一緒に合成することを特徴とする。
本発明の音声入力機能付き撮像装置は、前記被写体画像中に前記登録者の顔が写っているか否かを識別する顔認識手段を備え、前記画像合成手段は、前記登録者の顔が写っており且つ該登録者が前記話者のとき前記テキストデータを前記被写体画像中の前記登録者の顔画像からの吹き出し形状で合成することを特徴とする。
本発明の音声入力機能付き撮像装置の前記画像合成手段は、前記被写体画像中に複数の登録者が写っており前記音声が複数人の音声のときは各音声データに対応したテキストデータを各人の画像の近くに吹き出し形状で合成することを特徴とする。
本発明の音声入力機能付き撮像装置は、前記被写体画像中に前記登録者の顔が写っているか否かを識別する顔認識手段を備え、前記画像合成手段は、前記登録者の顔が写っておらず且つ該登録者が前記話者のとき前記テキストデータを字幕データとして合成することを特徴とする。
本発明の音声入力機能付き撮像装置は、前記登録者が前記被写体画像中に複数人写っている場合には該複数人の中の一人の登録者を指定する手段を備え、前記画像合成手段は、指定された登録者の音声を前記テキストデータで該被写体画像中に合成することを特徴とする。
本発明の音声入力機能付き撮像装置は、指向性を持つ前記音声入力手段の該指向性を前記被写体画像中の登録者の方向に制御する制御手段を備えることを特徴とする。
本発明の音声入力機能付き撮像装置の音声記録方法は、被写体画像を撮像する撮像手段と、該撮像手段が前記被写体画像を撮像するとき同時に音声を取り込む音声入力手段と、該音声をテキストデータ化する音声認識手段とを備える音声入力機能付き撮像装置の音声記録方法において、前記テキストデータを前記被写体画像に合成することで前記音声を記録すること特徴とする。
本発明の音声入力機能付き撮像装置の音声記録方法は、前記音声の話者を特定し、特定された前記話者が予め登録された登録者である場合のみ前記テキストデータの合成を行うことを特徴とする。
本発明の音声入力機能付き撮像装置の音声記録方法は、前記話者が特定され該話者の音声を前記テキストデータで合成するとき該話者を特定する名前を該テキストデータと一緒に合成することを特徴とする。
本発明の音声入力機能付き撮像装置の音声記録方法は、前記被写体画像中に前記登録者の顔が写っているか否かを識別し、前記登録者の顔が写っており且つ該登録者が前記話者のとき前記テキストデータを前記被写体画像中の前記登録者の顔画像からの吹き出し形状で合成することを特徴とする。
本発明の音声入力機能付き撮像装置の音声記録方法は、前記被写体画像中に複数の登録者が写っており前記音声が複数人の音声のときは各音声データに対応したテキストデータを各人の画像の近くに吹き出し形状で合成することを特徴とする。
本発明の音声入力機能付き撮像装置の音声記録方法は、前記被写体画像中に前記登録者の顔が写っているか否かを識別し、前記登録者の顔が写っておらず且つ該登録者が前記話者のとき前記テキストデータを字幕データとして合成することを特徴とする。
本発明の音声入力機能付き撮像装置の音声記録方法は、前記登録者が前記被写体画像中に複数人写っている場合に、該複数人の中の一人の登録者の指定操作に従って、指定された登録者の音声を前記テキストデータで該被写体画像中に合成することを特徴とする。
本発明によれば、撮像装置で被写体画像を撮影するときに撮影と同時に主要被写体の発する音声をテキストデータ化して被写体画像中に合成するため、使い勝手の優れた撮像装置を提供することが可能となる。また、登録者の場合にのみ音声をテキストデータで画像に合成するため、主要被写体と音声との対応付けの精度が向上する。
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本発明の第1実施形態に係る撮像装置の機能ブロック図である。この撮像装置10は、撮影レンズ11と、この撮影レンズ11を通して結像された光像に応じた電気信号を出力する撮像素子12と、撮像素子12のアナログの撮像画像信号をデジタル信号に変換するアナログデジタル変換回路13と、デジタルの撮像画像信号を取り込む画像入力インタフェース14と、画像入力インタフェース14から取り込まれた撮像画像信号を処理する画像処理手段15とを備える。
この撮像装置10は、更に、撮像装置10の全体を統括制御するシステム制御部(CPU)16と、音声認識手段17と、動画像生成手段18と、音声入力インタフェース19と、表示回路インタフェース20と、メモリインタフェース21と、メディアインタフェース22と、DMA(ダイレクトメモリアクセス)コントローラ23と、オーディオインタフェース24と、これらを相互接続するバス25とを備える。
音声認識手段17には、話者特定手段27と、この特定手段27に接続された音声データベース28とが接続され、音声入力インタフェース19には、アナログデジタル変換回路29を介して音声入力手段であるマイク31が接続される。
表示回路インタフェース20には撮像装置10の背面等に取り付けられる液晶等の表示回路32が接続され、メモリインタフェース21には撮像装置10のメインメモリとなるフレームメモリ33が接続され、メディアインタフェース22には、着脱自在の外部メモリ(記録メディア)34が接続され、オーディオインタフェース24にはスピーカ等のオーディオ出力手段35が接続される。
CPU16は、音声認識手段17が音声認識しテキストデータ化した字幕データや吹き出しデータを、動画生成手段18や表示回路インタフェース20に出力する様になっている。また、CPU16には、シャッタボタンなどの操作系36の信号が入力される。CPU16が音声認識手段17の機能を実行する構成としても良い。
図1に示す音声データベース28には、例えば、撮像装置10のユーザが良く撮る家族等の各人の音声が、各人の名前と対応付けて登録されている。
図2は、図1に示す撮像装置10が実行する処理手順を示すフローチャートである。動画像の記録が開始される(ステップS1)と、撮像素子12から被写体画像が取り込まれると共に、マイク31から音声が取り込まれる(ステップS2)。音声認識手段17はこの音声を解析すると共にデータベース28を参照し(ステップS3)、この音声がデータベース28に登録されている音声であるか否かを判定する(ステップS4)。
マイク31から取り込んだ音声が登録者の音声でないと判定した場合には、そのままステップS8に進む。登録者の音声であると判定した場合には、ステップS4からステップS5に進み、話者特定手段27は、データベース28から話者が誰であるかを特定し、次のステップS6で、音声認識手段17は、その音声をテキストデータに変換する。
そして、次のステップS7で、CPU16は、テキストデータ化された音声データを動画生成手段18と表示回路インタフェース20とに渡し、動画生成手段18は、図3に示す様に、動画像上に、特定された話者の名前“A”と、その音声データの字幕データとを合成して、記録メディア34に書き込み、ステップS8に進む。
尚、音声の字幕データを合成した画像データを記録メディア34に書き込むのではなく、無線で外部記憶手段に伝送する構成としても良い。これは以下の実施形態でも同様である。
ステップS8では、動画記録が終了したか否かを判定し、終了した場合にはこの図2の処理を終了し、動画記録が終了しない場合にはステップS2に戻り、ステップS1〜ステップS7の処理を繰り返す。
表示回路32には、動画像データが表示されるが、このとき、字幕データと話者の名前とが重ねて表示される。
尚、音声を字幕データとして記録する部分についてのみ説明したが、マイク31から取り込んだ音声のままのデータでも記録することはいうまでもない。音声のままのデータを記録する場合には、音声データベース上に登録されている話者であるか否かに関係なく全て記録する。これは以下の実施形態でも同様である。
図4は、本発明の第2実施形態に係る撮像装置の機能ブロック図である。この撮像装置40は、図1に示す撮像装置10と殆どの機能が重複し、静止画像撮像用である点のみ異なる。このため、重複する部分には同一符号を付してその説明は省略し、異なる部分についてのみ説明する。
本実施形態の撮像装置40は、静止画像撮像専用であり、図1に示した動画生成手段18が設けられておらず、CPU16は、字幕データを画像処理部15に渡す様になっている。
図5は、本実施形態に係る撮像装置が実行する処理手順を示すフローチャートである。先ず、2段シャッタボタンが半押し状態になっているか否かを判定する(ステップS11)。半押し状態になっていなければ繰り返しステップS11を実行し、半押し状態になっている場合には、音声をマイク31から取り込む(ステップS12)。次に、シャッタボタンが全押しになかったか否かを判定し(ステップS13)、全押しになっていない場合にはステップS12を繰り返し実行する。
シャッタボタンが全押しになった場合にはステップS13からステップS14に進み、マイク31から取り込んだ音声データを記録し、次に、音声データベース28を参照する(ステップS15)。また、シャッタボタンが全押しされた場合には、ステップS14以下の処理と並行して、被写体画像の撮像処理が行われる。
そして、音声認識手段17は、この音声がデータベース28に登録されている音声であるか否かを判定し(ステップS16)、マイク31から取り込んだ音声が登録者の音声でないと判定した場合には、この図5の処理を終了する。登録者の音声であると判定した場合には、ステップS16からステップS17に進み、話者特定手段27は、データベース28から話者が誰であるかを特定し、次のステップS18で、音声認識手段17は、その音声をテキストデータに変換する。
そして、次のステップS19で、CPU16は、テキストデータ化された音声データを画像処理部15と表示回路インタフェース20とに渡し、画像処理部15は、図3に示す様に、静止画像上に、特定された話者の名前“A”と、その音声データの字幕データとを合成して、記録メディア34に書き込み、図5の処理を終了する。表示回路32には、静止画像データが表示されるが、このとき、字幕データと話者の名前とが重ねて表示される。
図6は、本発明の第3実施形態に係る撮像装置50の機能ブロック図である。本実施形態の撮像装置50は、図1に示す撮像装置10と殆どの機能が重複するため、同一機能ブロックには同一符号を付してその説明は省略し、異なる部分についてのみ説明する。
本実施形態に係る撮像装置50は、画像処理部15の処理結果を受け取り撮像画像中に人間の「顔」が存在するか否かを検出すると共に、検出した「顔」が登録されている特定者の「顔」であるか否かを検出する顔検出/顔認識処理手段41と、この顔検出/顔認識処理手段41が人間の「顔」として検出するとき使用する顔検出用データ及び登録者(例えば家族等)の顔画像を登録者の名前と対応付けて格納した顔データベース42とを備える。顔検出/顔認識処理手段41はバス25に接続されている。
図7は、本実施形態に係る撮像装置が実行する処理手順を示すフローチャートである。動画像の記録が開始される(ステップS21)と、撮像素子12から被写体画像が取り込まれると共に、マイク31から音声が取り込まれる(ステップS22)。音声認識手段17はこの音声を解析すると共にデータベース28を参照し(ステップS23)、この音声がデータベース28に登録されている音声であるか否かを判定する(ステップS24)。
マイク31から取り込んだ音声が登録者の音声でないと判定した場合には、ステップS22に戻って次の音声入力を待機し、登録者の音声であると判定した場合には、ステップS24からステップS25に進み、話者特定手段27は、データベース28から話者が誰であるかを特定すると共に、音声認識手段17はその音声をテキストデータに変換する。
次に、顔検出/顔認識処理手段41は、撮像された画像の中に人間の「顔」が存在するか否かを解析し(ステップS26)、「顔」が検出されなかった場合には、ステップS25でテキストデータ化された音声データを図3に示す様に字幕として合成し(ステップS30)、ステップS31に進む。
人間の「顔」が検出された場合にはステップS26からステップS27に進んで顔データベース42を参照する。そして、次にステップS28では、検出された「顔」が登録者の「顔」であるか否か、及び、登録者である場合にはその登録者が、ステップS25でテキストデータ化した音声の特定話者であるか否かを判定する(ステップS28)。
登録者の顔で無い場合、あるいは特定話者と一致しない登録者の顔である場合には、上記のステップS30に進み、テキストデータ化された音声データを字幕として合成する。
ステップS28の判定の結果、登録者の顔であり、且つ特定話者と一致すると判定した場合には、次にステップS29に進み、テキストデータ化した音声データを、特定話者と一致する撮像画像中の登録者の顔画像の近くに、図8に示す様に、吹き出し形状で合成し、ステップS31に進む。
ステップS31では、動画記録が終了したか否かを判定し、終了した場合にはこの図7の処理を終了し、動画記録が終了しない場合にはステップS22に戻り、ステップS22〜ステップS30の処理を繰り返す。
吹き出し形状で音声のテキストデータを画像に合成し表示する場合、音声データが画像データと重なることになる。このため、下の画像が見づらくならないように、吹き出し位置,字の大きさ、透明度等を設定可能にするのが好ましい。
この様にすることで、動画記録時に画面上に複数人が撮影されている場合でも自動的に登録者,話者を特定して各人に対応した吹き出し合成を行うため、画像を見れば誰が喋った内容か直ぐ分かるようになる。
尚、図7では、音声による話者特定とテキストデータ化を先に行い、その後に顔検出,顔認識を行ったが、これを逆に行っても、また同時並行的に行っても良いことは言うまでもない。
図9は、本発明の第4実施形態に係る撮像装置60の機能ブロック図である。本実施形態の撮像装置60は、図6に示す撮像装置50と殆どの機能が重複するため、同一機能ブロックには同一符号を付してその説明は省略し、異なる部分についてのみ説明する。
本実施形態の撮像装置60は、マイク31が指向性を持ち、且つその指向性の制御(集音範囲,集音方向,集音距離(感度)等の制御)が可能なマイクであり、マイク制御手段43がマイク31をCPU16からの指示により制御する構成になっている。また、図6に示す話者特定手段27と音声データベース28とがこの撮像装置60には設けられていない。
図10は、本実施形態に係る撮像装置が実行する処理手順を示すフローチャートである。動画像の記録が開始される(ステップS41)と、撮像素子12から被写体画像が取り込まれる。次のステップS42では、撮像画像中に登録者の「顔」が存在するか否かを判定し、登録者の顔が検出されるまでステップS42を繰り返し実行する。
画面中に登録者の顔が検出された場合には、ステップS42からステップS43に進み、今度は1画面の中に複数の登録者の顔が存在するか否かを判定する。複数の登録者の顔が検出された場合には、ステップS43からステップS44に進み、ユーザの顔選択処理を行った後、ステップS45に進む。1画面の中に一人の登録者の顔しか検出されない場合にはステップS44を飛び越してステップS45に進む。
図11は、1画面の中に3人の人間が撮像されている状態を示しており、そのうちの二人の顔が名前“A”“B”の登録者であり、もう一人が登録者でない人の場合を示している。図9の顔検出/顔認識処理手段41は、検出した顔部分を矩形枠で示すため、図10のステップS44では、ユーザは、登録者A,Bのいずれか一方を操作系36のボタン操作により指定することになる。図11に示す例では、登録者Aが指定されたため矩形枠を二重枠で表示したところを示している。
ステップS45では、画面中の一人の登録者あるいはステップS44で指定された登録者に対して、マイク制御を行う。この登録者の撮像画像から撮像装置と登録者との間の距離,登録者が居る方向がズーム倍率等で判別できるため、この登録者が喋る音声を精度良く集音できるように、CPU16はマイク31の指向性制御を行う。
次のステップS46では、マイク31から集音した音声データを取り込み、ステップS47でこれをテキストデータ化し、ステップS48でテキストデータした字幕(勿論、吹き出しでも良い。)を図11に示す様に画像上に合成し、ステップS49に進む。
ステップS49では、動画記録が終了したか否かを判定し、終了した場合にはこの図10の処理を終了し、動画記録が終了していない場合にはステップS42に戻り、ステップS43〜ステップS48を繰り返し実行する。この繰り返し時には、ステップS44のユーザ指定は、何らかのユーザによるボタン操作が無い限り実行しない構成とすることで、指定した登録者をずっと追って集音することが可能となる。
尚、図10の実施形態では、ユーザによる顔選択処理(ステップS44)を動画記録時に行ったが、動画記録前に予め選択する構成としても良い。このステップS44における選択時に、図11に示したように、選択対象者の顔を二重枠で区別したり、人物名を画像中に表示することで、選択が容易且つ確実に行える様にするのが良い。
この様に、本実施形態によれば、ユーザが記録したい被写体の音声のみを取り込んで字幕化することが可能となる。
以上述べた様に、本発明の各実施形態によれば、画像の撮像中に、音声をテキストデータ化し、該当する被写体画像に対応付けて合成するため、話者と音声データ(テキストデータ)との対応付けの精度が向上すると共に、後で編集する手間が省け、デジタルカメラ等の撮像装置の使い勝手が向上する。
本発明に係る撮像装置は、話者と音声データとの対応付けの精度が向上し字幕や吹き出しとして音声のテキストデータを撮像中の画像に合成できるため、デジタルスチルカメラやビデオカメラ等に適用すると有用である。
本発明の第1実施形態に係る撮像装置の機能ブロック図である。 図1に示す撮像装置の処理手順を示すフローチャートである。 図2の処理手順により音声データが字幕表示された画像を示す図である。 本発明の第2実施形態に係る撮像装置の機能ブロック図である。 図4に示す撮像装置の処理手順を示すフローチャートである。 本発明の第3実施形態に係る撮像装置の機能ブロック図である。 図6に示す撮像装置の処理手順を示すフローチャートである。 図7に示す処理手順により音声データが吹き出し表示された画像を示す図である。 本発明の第4実施形態に係る撮像装置の機能ブロック図である。 図9に示す撮像装置の処理手順を示すフローチャートである。 図10に示す処理手順により音声データが字幕表示された画像を示す図である。
符号の説明
10,40,50,60 撮像装置
12 撮像素子
15 画像処理手段(画像合成手段)
16 CPU
17 音声認識手段
18 動画生成手段(画像合成手段)
27 話者特定手段
28 音声データベース
31 マイク(音声入力手段)
41 顔検出/顔認識処理手段
42 顔データベース
43 マイク制御手段

Claims (15)

  1. 被写体画像を撮像する撮像手段と、該撮像手段が前記被写体画像を撮像するとき同時に音声を取り込む音声入力手段と、該音声をテキストデータ化する音声認識手段と、該テキストデータを前記被写体画像に合成する画像合成手段とを備えることを特徴とする音声入力機能付き撮像装置。
  2. 前記音声の話者を特定する話者特定手段を備え、前記画像合成手段は、特定された前記話者が予め登録された登録者である場合のみ前記合成を行うことを特徴とする請求項1に記載の音声入力機能付き撮像装置。
  3. 前記話者が特定され該話者の音声データを前記テキストデータで合成するとき該話者を特定する名前を該テキストデータと一緒に合成することを特徴とする請求項2に記載の音声入力機能付き撮像装置。
  4. 前記被写体画像中に前記登録者の顔が写っているか否かを識別する顔認識手段を備え、前記画像合成手段は、前記登録者の顔が写っており且つ該登録者が前記話者のとき前記テキストデータを前記被写体画像中の前記登録者の顔画像からの吹き出し形状で合成することを特徴とする請求項1に記載の音声入力機能付き撮像装置。
  5. 前記画像合成手段は、前記被写体画像中に複数の登録者が写っており前記音声が複数人の音声のときは各音声データに対応したテキストデータを各人の画像の近くに吹き出し形状で合成することを特徴とする請求項4に記載の音声入力機能付き撮像装置。
  6. 前記被写体画像中に前記登録者の顔が写っているか否かを識別する顔認識手段を備え、前記画像合成手段は、前記登録者の顔が写っておらず且つ該登録者が前記話者のとき前記テキストデータを字幕データとして合成することを特徴とする請求項1に記載の音声入力機能付き撮像装置。
  7. 前記登録者が前記被写体画像中に複数人写っている場合には該複数人の中の一人の登録者を指定する手段を備え、前記画像合成手段は、指定された登録者の音声を前記テキストデータで該被写体画像中に合成することを特徴とする請求項1に記載の音声入力機能付き撮像装置。
  8. 指向性を持つ前記音声入力手段の該指向性を前記被写体画像中の登録者の方向に制御する制御手段を備えることを特徴とする請求項1に記載の音声入力機能付き撮像装置。
  9. 被写体画像を撮像する撮像手段と、該撮像手段が前記被写体画像を撮像するとき同時に音声を取り込む音声入力手段と、該音声をテキストデータ化する音声認識手段とを備える音声入力機能付き撮像装置の音声記録方法において、前記テキストデータを前記被写体画像に合成することで前記音声を記録すること特徴とする音声入力機能付き撮像装置の音声記録方法。
  10. 前記音声の話者を特定し、特定された前記話者が予め登録された登録者である場合のみ前記テキストデータの合成を行うことを特徴とする請求項9に記載の音声入力機能付き撮像装置の音声記録方法。
  11. 前記話者が特定され該話者の音声を前記テキストデータで合成するとき該話者を特定する名前を該テキストデータと一緒に合成することを特徴とする請求項10に記載の音声入力機能付き撮像装置の音声記録方法。
  12. 前記被写体画像中に前記登録者の顔が写っているか否かを識別し、前記登録者の顔が写っており且つ該登録者が前記話者のとき前記テキストデータを前記被写体画像中の前記登録者の顔画像からの吹き出し形状で合成することを特徴とする請求項9に記載の音声入力機能付き撮像装置の音声記録方法。
  13. 前記被写体画像中に複数の登録者が写っており前記音声が複数人の音声のときは各音声データに対応したテキストデータを各人の画像の近くに吹き出し形状で合成することを特徴とする請求項12に記載の音声入力機能付き撮像装置の音声記録方法。
  14. 前記被写体画像中に前記登録者の顔が写っているか否かを識別し、前記登録者の顔が写っておらず且つ該登録者が前記話者のとき前記テキストデータを字幕データとして合成することを特徴とする請求項9に記載の音声入力機能付き撮像装置の音声記録方法。
  15. 前記登録者が前記被写体画像中に複数人写っている場合に、該複数人の中の一人の登録者の指定操作に従って、指定された登録者の音声を前記テキストデータで該被写体画像中に合成することを特徴とする請求項9に記載の音声入力機能付き撮像装置の音声記録方法。
JP2007314454A 2007-12-05 2007-12-05 音声入力機能付き撮像装置及びその音声記録方法 Pending JP2009141555A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007314454A JP2009141555A (ja) 2007-12-05 2007-12-05 音声入力機能付き撮像装置及びその音声記録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007314454A JP2009141555A (ja) 2007-12-05 2007-12-05 音声入力機能付き撮像装置及びその音声記録方法

Publications (1)

Publication Number Publication Date
JP2009141555A true JP2009141555A (ja) 2009-06-25

Family

ID=40871754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007314454A Pending JP2009141555A (ja) 2007-12-05 2007-12-05 音声入力機能付き撮像装置及びその音声記録方法

Country Status (1)

Country Link
JP (1) JP2009141555A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011041096A (ja) * 2009-08-14 2011-02-24 Nec Corp 携帯端末、並びにこれに用いる集音制御方法及びプログラム
JP2011223240A (ja) * 2010-04-08 2011-11-04 Nec Corp 携帯情報端末、画像登録方法および画像分類整理方法
KR20120021983A (ko) * 2010-08-24 2012-03-09 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
JP2017033390A (ja) * 2015-08-04 2017-02-09 日本放送協会 画像解析装置及びプログラム
KR101727911B1 (ko) * 2010-11-02 2017-04-18 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
KR101742779B1 (ko) * 2015-05-12 2017-06-01 이석희 음성인식형 입체적 디지털영상 구현시스템
KR101753715B1 (ko) * 2010-12-13 2017-07-04 삼성전자주식회사 촬영장치 및 이를 이용한 촬영방법
WO2017159003A1 (ja) * 2016-03-17 2017-09-21 ソニー株式会社 画像処理装置と画像処理方法およびプログラム
JP2018001404A (ja) * 2016-07-07 2018-01-11 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 音声と仮想動作を同期させる方法、システムとロボット本体
JP2018110312A (ja) * 2016-12-28 2018-07-12 株式会社ミクシィ 情報処理装置,情報処理装置の制御方法及び制御プログラム
US10580188B2 (en) 2017-09-05 2020-03-03 Kakao Corp. Method of creating animated image based on key input, and user terminal for performing the method
US10979669B2 (en) * 2018-04-10 2021-04-13 Facebook, Inc. Automated cinematic decisions based on descriptive models

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011041096A (ja) * 2009-08-14 2011-02-24 Nec Corp 携帯端末、並びにこれに用いる集音制御方法及びプログラム
JP2011223240A (ja) * 2010-04-08 2011-11-04 Nec Corp 携帯情報端末、画像登録方法および画像分類整理方法
KR20120021983A (ko) * 2010-08-24 2012-03-09 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
KR101685340B1 (ko) * 2010-08-24 2016-12-16 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
KR101727911B1 (ko) * 2010-11-02 2017-04-18 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
KR101753715B1 (ko) * 2010-12-13 2017-07-04 삼성전자주식회사 촬영장치 및 이를 이용한 촬영방법
KR101742779B1 (ko) * 2015-05-12 2017-06-01 이석희 음성인식형 입체적 디지털영상 구현시스템
JP2017033390A (ja) * 2015-08-04 2017-02-09 日本放送協会 画像解析装置及びプログラム
WO2017159003A1 (ja) * 2016-03-17 2017-09-21 ソニー株式会社 画像処理装置と画像処理方法およびプログラム
JPWO2017159003A1 (ja) * 2016-03-17 2019-01-17 ソニー株式会社 画像処理装置と画像処理方法およびプログラム
US10853648B2 (en) 2016-03-17 2020-12-01 Sony Corporation Image processing apparatus and image processing method
JP2018001404A (ja) * 2016-07-07 2018-01-11 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 音声と仮想動作を同期させる方法、システムとロボット本体
JP2018110312A (ja) * 2016-12-28 2018-07-12 株式会社ミクシィ 情報処理装置,情報処理装置の制御方法及び制御プログラム
US10580188B2 (en) 2017-09-05 2020-03-03 Kakao Corp. Method of creating animated image based on key input, and user terminal for performing the method
US10979669B2 (en) * 2018-04-10 2021-04-13 Facebook, Inc. Automated cinematic decisions based on descriptive models

Similar Documents

Publication Publication Date Title
JP2009141555A (ja) 音声入力機能付き撮像装置及びその音声記録方法
JP4896838B2 (ja) 撮像装置、画像検出装置及びプログラム
US7639282B2 (en) Image sensing device that acquires a movie of a person or an object and senses a still image of the person or the object, and control method thereof
JP4775066B2 (ja) 画像加工装置
US8384794B2 (en) Image sensing device and camera
US8264583B2 (en) Information processing apparatus, method and computer program product
JP5623915B2 (ja) 撮像装置
KR101753715B1 (ko) 촬영장치 및 이를 이용한 촬영방법
JP4431547B2 (ja) 画像表示制御装置ならびにそれらの制御方法およびそれらの制御プログラム
JP2010237761A (ja) 電子機器
JP2006279894A (ja) 画像処理装置、画像処理方法、及びプログラム
JP4968346B2 (ja) 撮像装置、画像検出装置及びプログラム
JP2007148691A (ja) 画像処理装置
US8208042B2 (en) Method of controlling digital photographing apparatus, digital photographing apparatus, and medium having recorded thereon a program for executing the method
JP5120716B2 (ja) 撮像装置、撮像制御方法及びプログラム
JP4885792B2 (ja) ガイド装置及びガイド方法
JP5320913B2 (ja) 撮像装置およびキーワード作成プログラム
JP4595832B2 (ja) 撮像装置、プログラム、及び記憶媒体
JP2005346259A (ja) 情報処理装置及び情報処理方法
JP2008242714A (ja) 撮影装置、楽譜撮影方法、及び楽譜撮影プログラム
JP2010183253A (ja) 情報表示装置および情報表示プログラム
JP4636024B2 (ja) 撮像装置
JP6166070B2 (ja) 再生装置および再生方法
JP2009089083A (ja) 年齢推定撮影装置及び年齢推定撮影方法
JP2003348410A (ja) 音声入力可能なカメラ