JP2005039451A - Imaging device, imaging method and program - Google Patents
Imaging device, imaging method and program Download PDFInfo
- Publication number
- JP2005039451A JP2005039451A JP2003199071A JP2003199071A JP2005039451A JP 2005039451 A JP2005039451 A JP 2005039451A JP 2003199071 A JP2003199071 A JP 2003199071A JP 2003199071 A JP2003199071 A JP 2003199071A JP 2005039451 A JP2005039451 A JP 2005039451A
- Authority
- JP
- Japan
- Prior art keywords
- image
- imaging
- driving
- audio
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、例えばカメラ機能付きの携帯電話機等に好適な撮像装置、撮像方法及びプログラムに関する。
【0002】
【従来の技術】
近時、カメラ機能付きの携帯電話機が広く一般に普及するに連れて、カメラ部の撮影方向が回転できるようにしたもの、筐体の異なる方向に向けて2つのカメラ部を設けたもの、カメラ部が折り畳み式ケーシングのヒンジ部軸方向に形成されて光学ズーム機構を有したものなど、様々な機種が製品化されている。
【0003】
しかるに、2つのカメラ部を設けたものはいずれも、撮影対象に応じてその一方のみを選択的に出力するようになるもので、撮像素子を1つしか用いないものの、2つの撮影光路をプリズムやハーフミラー等の光学部材により選択的に切り換えることで、異なる方向の画像を撮影できるようにしたものも考えられている。(例えば、特許文献1参照。)
【0004】
【特許文献1】
特開2001−223924号公報
【0005】
【発明が解決しようとする課題】
しかしながら、上記2つのカメラ部、あるいは1つの撮影部に2つの撮影光路を持つものはいずれも、それらを撮影対象に応じて選択的に用いることで、1方向の画像を撮影するようにしたものであった。
【0006】
本発明は上記のような実情に鑑みてなされたもので、その目的とするところは、複数のカメラ部をより有効に活用して多彩な使用環境を実現することが可能な撮像装置、撮像方法及びプログラムを提供することにある。
【0007】
【課題を解決するための手段】
請求項1記載の発明は、複数の撮像手段と、これら複数の撮像手段それぞれに対応して設ける複数の音声入力手段と、上記複数の撮像手段及び複数の音声入力手段を同時駆動して動画を撮影する撮影駆動手段と、この撮影駆動手段で複数の音声入力手段の駆動により得た複数の音声信号を比較する比較手段と、この比較手段で得た比較結果に基づいて上記複数の撮像手段で得た画像信号を合成する画像合成手段と、この画像合成手段で得た画像信号を出力する出力手段とを具備したことを特徴とする。
【0008】
このような構成とすれば、例えばその時点で音声信号の音圧レベルに応じて対応する画像の大きさを変えて合成するなど、自然な形の合成画像を生成して出力することができる。
【0009】
請求項2記載の発明は、上記請求項1記載の発明において、複数の撮像手段と、これら複数の撮像手段それぞれに対応して設ける複数の音声入力手段と、上記複数の撮像手段及び複数の音声入力手段を同時駆動して動画を撮影する撮影駆動手段と、この撮影駆動手段で複数の音声入力手段の駆動により得た複数の音声信号を比較する比較手段と、この比較手段で得た比較結果に基づいて上記複数の撮像手段で得た画像信号から1つを選択する画像選択手段と、この画像選択手段で得た画像信号を出力する出力手段とを具備したことを特徴とする。
【0010】
このような構成とすれば、例えばその時点で音声信号の音圧レベルの大きい側に対応した画像を選択して出力することにより、複数の人物を撮影している状態でその中の発言者の画像をその時々に応じて切り換えるなど、自然な形の合成画像を生成して出力することができる。
【0011】
請求項3記載の発明は、複数の撮像手段と、これら複数の撮像手段それぞれに対応して設ける複数の音声入力手段と、上記複数の撮像手段及び複数の音声入力手段を同時駆動して動画を撮影する撮影駆動手段と、上記複数の撮像手段で得た画像信号を複数の撮像手段の位置関係を反映して合成する画像合成手段と、この画像合成手段で得た画像信号を出力する出力手段とを具備したことを特徴とする。
【0012】
このような構成とすれば、例えば複数の人物を撮影している状態でその位置関係に対応して各人物を並べた合成画像を生成して出力するなど、自然な形の合成画像を生成して出力することができる。
【0013】
請求項4記載の発明は、上記請求項1記載の発明において、上記合成手段は、より音圧レベルの高い音声信号に対応した画像中に、より音圧レベルの低い音声信号に対応した画像を嵌込み合成した画像信号を生成することを特徴とする。
【0014】
このような構成とすれば、上記請求項1記載の発明の作用に加えて、その時点で音声信号の音圧レベルの大きい側に対応した画像を大きく、音圧レベルの小さい側に対応した画像を小さくしたピクチャ・イン・ピクチャの合成画像を生成して出力することにより、複数の人物を撮影している状態でその中の発言者の画像を他より大きくように、自然な形の合成画像を生成して出力することができる。
【0015】
請求項5記載の発明は、上記請求項3記載の発明において、上記出力手段は、上記画像信号と共に上記複数の音声入力手段で得た複数の音声信号を、それぞれ対応する複数の撮像手段の位置関係を反映して分離した状態で出力することを特徴とする。
【0016】
このような構成とすれば、上記請求項3記載の発明の作用に加えて、複数の画像信号の位置関係に対応して音声信号もステレオ化して出力するなど、画像の合成に対応する音声も出力することで、より自然な動画撮影内容を出力することができる。
【0017】
請求項6記載の発明は、上記請求項1乃至3いずれかに記載の発明において、上記出力手段は、画像信号と共に上記複数の音声入力手段で得た複数の音声信号を出力することを特徴とする。
【0018】
このような構成とすれば、上記請求項1乃至3いずれか記載の発明の作用に加えて、音声も合わせたきわめて自然な動画データを生成して出力することができる。
【0019】
請求項7記載の発明は、上記請求項6記載の発明において、上記出力手段は、上記複数の音声信号をそれぞれ分離した状態で出力することを特徴とする。
【0020】
このような構成とすれば、上記請求項6記載の発明の作用に加えて、画像に対応したステレオ音声を出力できるため、音像の定位をも明確とした、きわめて自然で品位の高い動画データを生成して出力することができる。
【0021】
請求項8記載の発明は、請求項1または2記載の発明において、上記出力手段は、一定のタイムラグを考慮して時間的に遡った画像信号を出力することを特徴とする。
【0022】
このような構成とすれば、上記請求項1または2記載の発明の作用に加えて、複数の音声信号の比較に応じた画像の出力に際してタイムラグを考慮して一定の時間を遡った画像を出力することができるため、簡単な処理ながら例えば撮影対象となる人物の発言当初の画像をより自然に生成して出力することができる。
【0023】
請求項9記載の発明は、上記請求項1乃至8いずれかに記載の発明において、上記出力手段は、記録媒体に少なくとも画像信号を記録することを特徴とする。
【0024】
このような構成とすれば、上記請求項1乃至8いずれかに記載の発明の作用に加えて、撮影により得た画像を記録媒体に記録するため、該記録媒体を用いて後の再生処理などに活用できる。
【0025】
請求項10記載の発明は、上記請求項1乃至8いずれかに記載の発明において、上記出力手段は、通信媒体に少なくとも画像信号を送信することを特徴とする。
【0026】
このような構成とすれば、上記請求項1乃至8いずれかに記載の発明の作用に加えて、例えば画像を添付した電子メールの発信等に適用可能となるばかりでなく、同一機能を有する他の装置との通信によりテレビ電話などのようにリアルタイムで相互の画像を用いた通信にも適用することが可能となる。
【0027】
請求項11記載の発明は、複数の撮像部及びこれら複数の撮像部それぞれに対応して設けられた複数の音声入力部を同時駆動して動画を撮影する撮影駆動工程と、この撮影駆動工程で複数の音声入力部の駆動により得た複数の音声信号を比較する比較工程と、この比較工程で得た比較結果に基づいて上記複数の撮像部で得た画像信号を合成する画像合成工程と、この画像合成工程で得た画像信号を出力する出力工程とを有したことを特徴とする。
【0028】
このような方法とすれば、例えばその時点で音声信号の音圧レベルに応じて対応する画像の大きさを変えて合成するなど、自然な形の合成画像を生成して出力させることができる。
【0029】
請求項12記載の発明は、複数の撮像部及びこれら複数の撮像部それぞれに対応して設けられた複数の音声入力部を設けた撮像装置が内蔵するコンピュータが実行するプログラムであって、上記複数の撮像部及び複数の音声入力部を同時駆動して動画を撮影する撮影駆動ステップと、この撮影駆動ステップで複数の音声入力部の駆動により得た複数の音声信号を比較する比較ステップと、この比較ステップで得た比較結果に基づいて上記複数の撮像部で得た画像信号を合成する画像合成ステップと、この画像合成ステップで得た画像信号を出力する出力ステップとをコンピュータに実行させることを特徴とする。
【0030】
このようなプログラム内容とすれば、例えばその時点で音声信号の音圧レベルに応じて対応する画像の大きさを変えて合成するなど、自然な形の合成画像を生成して出力させることができる。
【0031】
【発明の実施の形態】
(第1の実施の形態)
以下本発明をカメラ機能付きのCDMA(Code Division Multiple Access:符号分割多元接続)方式の携帯電話機に適用した場合の第1の実施の形態について図面を参照して説明する。
【0032】
図1(A),(B)は、この第1の実施の形態に係る携帯電話機10の外観構成を示すもので、ヒンジ部11を介在して2つの筐体12,13が一体に構成された折りたたみ式となっており、図1(A)が最大限に開いた状態の内面を、図1(B)が折りたたんだ状態の主として上部筐体12の外面を示す。
【0033】
図1(A)に示すように上部筐体12の内面には、受話器となるスピーカ14、メイン表示部15、及び第1カメラ部16が備えられる。
【0034】
一方、下部筐体13の内面には、ダイヤルキー等を含む各種キー17及び送話器となる第1マイクロホン18が備えられる。
【0035】
また、図1(B)に示すように、上部筐体12の外面には、第2カメラ部19、第2マイクロホン20、高輝度LEDでなる撮影ライト21、及びサブ表示部22が備えられる。
【0036】
さらに、下部筐体13内にも延在されているアンテナ23がヒンジ部11外面側より突出形成される。
【0037】
なお、ここでは図示しないが、下部筐体13の外面側には、着信時のビープ音やメロディ等を拡声放音するための、上記スピーカ14より大型の外面スピーカ24を設ける。
【0038】
図2は、上記携帯電話機10の回路構成を示すものである。同図で、上記アンテナ23は最寄りの基地局とCDMA方式の通信を行ない、このアンテナ23にRF部31を接続している。
【0039】
このRF部31は、受信時にはアンテナ23から入力された信号をデュプレクサで周波数軸上から分離し、PLLシンセサイザから出力される所定周波数の局部発振信号と混合することによりIF信号に周波数変換し、さらに広帯域BPFで受信周波数チャネルのみを抽出し、AGC増幅器で希望受信波の信号レベルを一定にしてから次段の変復調部32へ出力する。
【0040】
一方、RF部31は送信時に、変復調部32から送られてくるOQPSK(Offset Quadri−Phase Shift Keying)の変調信号を、後述する制御部35からの制御に基づいてAGC増幅器で送信電力制御した後にPLLシンセサイザから出力される所定周波数の局部発振信号と混合してRF帯に周波数変換し、PA(Power Amplifier)で大電力に増幅して、上記デュプレクサを介してアンテナ23より輻射送信させる。
【0041】
変復調部32は、受信時にRF部31からのIF信号を直交検波器でベースバンドI・Q(In−phase・Quadrature−phase)信号に分離し、デジタル化してCDMA部33に出力する。
【0042】
一方、変復調部32は送信時に、CDMA部33から送られてくるデジタル値のI・Q信号をアナログ化した後に直交変調器でOQPSK変調してRF部31に送出する。
【0043】
CDMA部33は、受信時に変復調部32からのデジタル信号をPN(Pseudo Noise:擬似雑音)符号のタイミング抽出回路及びそのタイミング回路の指示に従って逆拡散・復調を行なう複数の復調回路に入力し、そこから出力される複数の復調シンボルの同期をとって合成器で合成して音声処理部34に出力する。
【0044】
一方、CDMA部33は送信時に、音声処理部34からの出力シンボルを拡散処理した後にデジタルフィルタで帯域制限をかけてI・Q信号とし、変復調部32に送出する。
【0045】
音声処理部34は、受信時にCDMA部33からの出力シンボルをデインタリーブし、それからビタビ復調器で誤り訂正処理を施した後に、音声処理DSP(Digital Signal Proccessor)で圧縮されたデジタル信号から通常のデジタル音声信号へと伸長し、これをアナログ化して上記スピーカ14または必要により上記外面スピーカ24を拡声駆動させる。
【0046】
一方、音声処理部34は送信時に、上記第1マイクロホン18及び第2マイクロホン20から入力されるアナログの音声信号をデジタル化した後に音声処理DSPでデータ量を圧縮し、それから畳込み符号器で誤り訂正符号化してからインタリーブし、その出力シンボルをCDMA部33へ送出する。
【0047】
しかして、上記RF部31、変復調部32、CDMA部33、及び音声処理部34に対して制御部35を接続し、この制御部35にGPSレシーバ36、画像撮影部37、動画処理部38、上記メイン表示部15、上記サブ表示部22、メモリカード39、バイブレータ部40、及びLED駆動部41を接続している。
【0048】
ここで制御部35は、CPUと後述する動画通信動作等を含むその動作プログラムを固定的に記憶したROM、及びワークメモリとして使用されるRAM等で構成され、この携帯電話機10全体の動作を制御する。
【0049】
GPSレシーバ36は、GPSアンテナ42が受信する複数のGPS衛星からの測位情報により現在位置の緯度、経度、及び高度と正確な現在時刻とを算出し、制御部35へ出力する。
【0050】
画像撮影部37は、制御部35の制御の下に、上記第1カメラ部16を構成する光学レンズ系43の撮影光軸後方に配置されたCCD44での撮影動作、及び上記第2カメラ部19を構成する光学レンズ系45の撮影光軸後方に配置されたCCD46での撮影動作を制御し、これらの撮影により得られる2つの画像データをデジタル化して出力する。
【0051】
動画処理部38は、画像撮影部37より得られる画像データと上記第1マイクロホン18及び第2マイクロホン20で得られる音声データとを例えばMPEG4(Moving Pictures coding Exrert Group 4)方式に基づいてデータ圧縮し、動画データを生成する一方で、受信した動画データのデータ圧縮を解いて伸長し、元のビットマップ状の画像データと音声データとを得る。
【0052】
メモリカード39は、この携帯電話機10に着脱自在に備えられるもので、自機で撮影した動画データや受信により得た動画データ等を記憶しておく。
【0053】
バイブレータ部40は、着信時等に予め設定された振動パターン及び振動強度で振動する。
【0054】
LED駆動部41は、上記撮影ライト21を構成する高輝度白色LEDとその駆動回路とでなるものであり、必要により第2カメラ部19の撮影対象となる被写体方向に向けて補助光を照射する。
【0055】
なお、上記メイン表示部15及びサブ表示部22は、いずれもバックライト付きの反射/透過型カラー液晶パネルで構成され、バックライトを点灯して透過型液晶としての表示が可能である一方、見やすさは多少落ちるものの、バックライトを消灯して外光を用いた反射型液晶としての表示も可能であるものとする。
【0056】
また、図示はしないが、上記ヒンジ部11には上部筐体12と下部筐体13の展開状態及び折りたたみ状態を検出するための機構を有するものとする。この検出機構からの情報により制御部35は、第1カメラ部16と第2カメラ部19により画像を撮影して通話しようとすべく各種キー17のカメラキー17aを操作して移行するテレビ電話モードにおいて、上記図1(A)に示したように上部筐体12と下部筐体13を開いた展開状態で、この携帯電話機10のユーザが第1カメラ部16により自分を、第2カメラ部19により他者を同時に撮影しようとしているものと判断し、サブ表示部22での表示を停止してメイン表示部15で第1カメラ部16と第2カメラ部19での撮影に基づくモニタ画像を表示させる。
【0057】
次に上記実施の形態の動作について説明する。
図3は、基本的に制御部35が予め固定記憶された動作プログラムに基づいて実行するテレビ電話モード時の通話処理内容を示すもので、同様の機能を有する通話相手先の携帯電話機から受信した動画データの再生に関しては本処理と平行して実行するものとして、ここではその説明を省略し、動画データの取得から送信に至る過程のみを述べるものとする。
【0058】
その当初には、第1マイクロホン18と第2マイクロホン20を用いて上部筐体12の内面と外面両方向の音声(図では「音声A,音声B」と称する)を録音しながら(ステップA01)、動画像を構成する個々の画像の撮影タイミングとなるのを待機する(ステップA02)。
【0059】
この場合、例えば動画のフレームレートが15[フレーム/秒]、解像度が横160ドット×縦120ドット、音声のサンプリング周波数が12[KHz]であるとすると、12[KHz]で音声信号のサンプリングを実行しながら、1/15[秒]毎に撮影タイミングとなってステップA02でこれを判断し、第1カメラ部16と第2カメラ部19による上部筐体12の内面と外面両方向の画像(図では「画像A,画像B」と称する)を撮影する(ステップA03)。
【0060】
これとともに、上記録音により得た2つの音声データの音圧レベルを比較し、そのいずれが大きいかを判断する(ステップA04)。
【0061】
第1マイクロホン18で得た音声データの音圧レベルの方が第2マイクロホン20で得た音声データの音圧レベル以上であった場合には、音声に対応する画像として第1カメラ部16で得た画像データ内の一部、例えば右下に第2カメラ部19で得た画像データを嵌め込んだピクチャ・イン・ピクチャの合成画像を作成する(ステップA05)。
【0062】
この合成画像としては、上述した如く第2カメラ部19で得た横160ドット×縦120ドットの解像度を有する画像データを縦横共に1ドット毎に間引いて横80ドット×縦60ドットの画像データを生成し、これを第1カメラ部16で得た横160ドット×縦120ドットの解像度を有する画像データの右下1/4に渡る範囲の部分に置換することで、容易に作成できる。
【0063】
また、上記ステップA04で第1マイクロホン18で得た音声データの音圧レベルに比して第2マイクロホン20で得た音声データの音圧レベルの方が大きいと判断した場合には、音声に対応する画像として第2カメラ部19で得た画像データ内の一部、例えば右下に第1カメラ部16で得た画像データを嵌め込んだピクチャ・イン・ピクチャの合成画像を作成する(ステップA06)。
【0064】
こうしてステップA05またはA06で得た合成画像データを用い、併せて前回の画像撮影から今回の画像撮影の間に取得していた1/15[秒]分の2つの音声データを重畳して所定のフォーマット化し(ステップA07)、通話相手先に送信して(ステップA08)、以上で画像データ単位の一連の処理を終了し、再び上記ステップA01からの処理に戻って、以後このテレビ電話モードでの通話が終わるまで上記処理を繰返し実行する。
【0065】
図4は、上記ステップA05での処理を経てステップA07で所定のフォーマット化した画像データと対応する音声データの概念を例示するものである。画像データとしては、第1カメラ部16で得た画像データ内の一部、例えば右下に第2カメラ部19で得た画像データを嵌め込んだピクチャ・イン・ピクチャの合成画像が配される一方で、音声データとしては第1マイクロホン18で得た音声データと第2マイクロホン20で得た音声データとが重畳された状態で配される。
【0066】
なお、実際に動画データを例えばMPEG4の規格に則ってデータ圧縮した後に送信するものとした場合には、動画処理部38で複数フレームの画像データに対するGOP(Group Of Pictures)、動き補償等の処理を施した後に送信することとなるので、上記図4に示した如く1フレームの画像データにその時間分の音声データが付加されたデータフォーマットとは概念が異なるものとなる。
【0067】
このように、例えばその時点で音声信号の音圧レベルの大きい側に対応した画像を大きく、音圧レベルの小さい側に対応した画像を小さくしたピクチャ・イン・ピクチャの合成画像を生成することにより、1台の携帯電話機10で二人の人物を同時に撮影している状態でそのうちの発言している側の画像を他より大きくするなど、自然な形の合成画像を生成することができる。
【0068】
(第2の実施の形態)
以下本発明をカメラ機能付きのCDMA方式の携帯電話機に適用した場合の第2の実施の形態について図面を参照して説明する。
【0069】
なお、その外観構成に関しては上記図1と、回路構成に関しては上記図2とそれぞれ基本的に同様であるので、同一部分には同一符号を用いるものとして、それらの図示及び説明は省略する。
【0070】
次に上記実施の形態の動作について説明する。
図5は、基本的に制御部35が予め固定記憶された動作プログラムに基づいて実行するテレビ電話モード時の通話処理内容を示すもので、同様の機能を有する通話相手先の携帯電話機から受信した動画データの再生に関しては本処理と平行して実行するものとして、ここではその説明を省略し、動画データの取得から送信に至る過程のみを述べるものとする。
【0071】
その当初には、第1マイクロホン18と第2マイクロホン20を用いて上部筐体12の内面と外面両方向の音声(図では「音声A,音声B」と称する)を録音しながら(ステップB01)、動画像を構成する個々の画像の撮影タイミングとなるのを待機する(ステップB02)。
【0072】
この場合、例えば動画のフレームレートが15[フレーム/秒]、解像度が横160ドット×縦120ドット、音声のサンプリング周波数が12[KHz]であるとすると、12[KHz]で音声信号のサンプリングを実行しながら、1/15[秒]毎に撮影タイミングとなってステップB02でこれを判断し、第1カメラ部16と第2カメラ部19による上部筐体12の内面と外面両方向の画像(図では「画像A,画像B」と称する)を撮影する(ステップB03)。
【0073】
これとともに、上記録音により得た2つの音声データの音圧レベルを比較し、そのいずれが大きいかを判断する(ステップB04)。
【0074】
第1マイクロホン18で得た音声データの音圧レベルの方が第2マイクロホン20で得た音声データの音圧レベル以上であった場合には、音声に対応する画像として第1カメラ部16で得た画像データを選択する(ステップB05)。
【0075】
この選択画像としては、上述した如く第1カメラ部16で得た横160ドット×縦120ドットの解像度を有する画像データをそのまま利用する。
【0076】
また、上記ステップB04で第1マイクロホン18で得た音声データの音圧レベルに比して第2マイクロホン20で得た音声データの音圧レベルの方が大きいと判断した場合には、音声に対応する画像として第2カメラ部19で得た画像データを選択する(ステップB06)。
【0077】
こうしてステップB05またはB06で選択した画像データを用い、併せて前回の画像撮影から今回の画像撮影の間に取得していた1/15[秒]分の2つの音声データを重畳して所定のフォーマット化し(ステップB07)、通話相手先に送信して(ステップB08)、以上で画像データ単位の一連の処理を終了し、再び上記ステップB01からの処理に戻って、以後このテレビ電話モードでの通話が終わるまで上記処理を繰返し実行する。
【0078】
図6は、上記ステップB05での処理を経てステップB07で所定のフォーマット化した画像データと対応する音声データの概念を例示するものである。画像データとしては、第1カメラ部16で得た画像データのみを用いている一方で、音声データとしては第1マイクロホン18で得た音声データと第2マイクロホン20で得た音声データとが重畳された状態で配される。
【0079】
なお、実際に動画データを例えばMPEG4の規格に則ってデータ圧縮した後に送信するものとした場合には、動画処理部38で複数フレームの画像データに対するGOP(Group Of Pictures)、動き補償等の処理を施した後に送信することとなるので、上記図6に示した如く1フレームの画像データにその時間分の音声データが付加されたデータフォーマットとは概念が異なるものとなる。
【0080】
このように、例えばその時点で音声信号の音圧レベルの大きい側に対応した画像の側を選択することにより、1台の携帯電話機10で二人の人物を同時に撮影している状態でそのうちの発言している側に切り換えるなど、自然な形の画像を生成することができる。
【0081】
(第3の実施の形態)
以下本発明をカメラ機能付きのCDMA方式の携帯電話機に適用した場合の第3の実施の形態について図面を参照して説明する。
【0082】
なお、その外観構成に関しては上記図1と、回路構成に関しては上記図2とそれぞれ基本的に同様であるので、同一部分には同一符号を用いるものとして、それらの図示及び説明は省略する。
【0083】
次に上記実施の形態の動作について説明する。
図7は、基本的に制御部35が予め固定記憶された動作プログラムに基づいて実行するテレビ電話モード時の通話処理内容を示すもので、同様の機能を有する通話相手先の携帯電話機から受信した動画データの再生に関しては本処理と平行して実行するものとして、ここではその説明を省略し、動画データの取得から送信に至る過程のみを述べるものとする。
【0084】
その当初には、第1マイクロホン18と第2マイクロホン20を用いて上部筐体12の内面と外面両方向の音声(図では「音声A,音声B」と称する)を録音しながら(ステップC01)、動画像を構成する個々の画像の撮影タイミングとなるのを待機する(ステップC02)。
【0085】
この場合、例えば動画のフレームレートが15[フレーム/秒]、解像度が横160ドット×縦120ドット、音声のサンプリング周波数が12[KHz]であるとすると、12[KHz]で音声信号のサンプリングを実行しながら、1/15[秒]毎に撮影タイミングとなってステップC02でこれを判断し、第1カメラ部16と第2カメラ部19による上部筐体12の内面と外面両方向の画像(図では「画像A,画像B」と称する)を撮影する(ステップC03)。
【0086】
そして、第1カメラ部16で得た画像データと第2カメラ部19で得た画像データとを用いてこれらを左右に配置した合成画像を作成する(ステップC04)。
【0087】
この合成画像としては、上述した如く第1カメラ部16及び第2カメラ部19で得た横160ドット×縦120ドットの解像度を有する画像データをそれぞれ横方向のみ1ドット毎に間引いて横80ドット×縦120ドットの画像データを生成し、第1カメラ部16で得た画像データを左、第2カメラ部19で得た画像データを右となるように2つの画像を単純に合成して横160ドット×縦120ドットの解像度を有する画像データとする。
【0088】
こうしてステップC04で得た合成画像データを用い、併せて前回の画像撮影から今回の画像撮影の間に取得していた1/15[秒]分の2つの音声データをそれぞれ左チャンネル(Lch)と右チャンネル(Rch)で分離した状態として所定のフォーマット化し(ステップC05)、通話相手先に送信して(ステップC06)、以上で画像データ単位の一連の処理を終了し、再び上記ステップC01からの処理に戻って、以後このテレビ電話モードでの通話が終わるまで上記処理を繰返し実行する。
【0089】
図8は、上記ステップC04での処理を経てステップC05で所定のフォーマット化した画像データと対応する音声データの概念を例示するものである。
【0090】
画像データとしては、第1カメラ部16で得た画像データが左側に、第2カメラ部19で得た画像データが右側に配置されて一枚の合成画像として配される一方で、これに対応して音声データとしては第1マイクロホン18で得た音声データが左チャンネル、第2マイクロホン20で得た音声データが右チャンネルとなるようにステレオ音声とした状態で配される。
【0091】
従って、通話相手先も同等の携帯電話機10を用いてこれを再生するものとすれば、メイン表示部15に上記二人の人物が写った合成画像が表示されると共に、例えば主として第1マイクロホン18で得た音声データが外面スピーカ24により、第2マイクロホン20で得た音声データが第1マイクロホン18により拡声放音される、というように、音声データを得た人物の位置関係に対応して、スピーカ14と外面スピーカ24を別々に駆動して異なる音声を拡声放音させることができる。
【0092】
なお、実際に動画データを例えばMPEG4の規格に則ってデータ圧縮した後に送信するものとした場合には、動画処理部38で複数フレームの画像データに対するGOP(Group Of Pictures)、動き補償等の処理を施した後に送信することとなるので、上記図8に示した如く1フレームの画像データにその時間分の音声データが付加されたデータフォーマットとは概念が異なるものとなる。
【0093】
このように、例えば複数の人物を撮影している状態でその位置関係に対応して各人物を並べた合成画像を生成することにより、自然な形の合成画像を生成することができる。
【0094】
加えて、第1マイクロホン18と第2マイクロホン20で得た音声データをステレオ信号として分離したままの状態で送信するものとしたため、相手先にも2つのスピーカが備えられていれば、各音声を別々に拡声放音することができ、発言する人物の違いを音声の出力位置からも類推できるような、音像の定位を明確と、きわめて自然で品位の高い動画の出力が可能となる。
【0095】
なお、上記第1及び第2の実施の形態では、2つの音声信号の音圧レベルの大小により即時画像の状態を切り換えるものとなるが、あえてその切換えに対しては前回に切換えてから経過した時間と、2つの音声信号の音圧レベルの差をも考慮して切り換えるものとしてもよい。
【0096】
その場合、前回の画像切換え直後には、ある一定以上の閾値を越えるような音圧レベルの差がないと画像の切換えを行なわず、且つ切換から時間が経過するに連れてその閾値の内容を段階的に減少させるようにする。
【0097】
こうすることで、不自然に短い周期で合成画像の内容が切換えられてしまい、見づらいものとなってしまうのを避けることができる。
【0098】
また、上記第1及び第2の実施の形態における合成画像の切換えに際しては、バッファメモリによりその時点で得られる画像をある程度の時間分保持しておき、切換時に音声との違和感を感じない程度の一定の時間タイムラグ分、例えば0.2[秒]だけ遡った画像を取出して出力に用いるものとしてもよい。
【0099】
これは、音声の状態の変化に伴う画像の切換えに際して、音声の状態の変化を検出したその時点ではなく、時間的に少し前に遡った画像を対応するものとして用いることにより、例えば新たに発言を開始した人物の、その発言を行なっている状態からではなく、発言をする直前の状態からの画像を出力することにより、視覚的にきわめて自然な画像を提供できるようにしたものである。
【0100】
また、上記第1乃至第3の実施の形態はいずれも、2つの画像信号及びこれに対応する2つの音声信号から生成した信号を通話相手に即時送信する場合について説明したが、テレビ電話モードでの通話で送信する場合に限らず、一旦メモリカード39等の記録媒体に記録し、後に編集や再生等の処理を施すものとしてもよく、さらには電子メールの添付ファイルとして使用するものとしてもよい。
【0101】
さらに、上記第1乃至第3の実施の形態はいずれも、本発明をカメラ機能付きの携帯電話機に適用した場合について説明したものであるが、本発明はこれに限らず、動画撮影が可能なデジタルカメラや、カメラ機能付きのPDA、ビデオカメラ装置、会議記録システム等にも多々適用可能となる。
【0102】
その他、本発明は上記実施の形態に限らず、その要旨を逸脱しない範囲内で種々変形して実施することが可能であるものとする。
【0103】
さらに、上記実施の形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組合わせにより種々の発明が抽出され得る。例えば、実施の形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題の少なくとも1つが解決でき、発明の効果の欄で述べられている効果の少なくとも1つが得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0104】
【発明の効果】
請求項1記載の発明によれば、例えばその時点で音声信号の音圧レベルに応じて対応する画像の大きさを変えて合成するなど、自然な形の合成画像を生成して出力することができる。
【0105】
請求項2記載の発明によれば、例えばその時点で音声信号の音圧レベルの大きい側に対応した画像を選択して出力することにより、複数の人物を撮影している状態でその中の発言者の画像をその時々に応じて切り換えるなど、自然な形の合成画像を生成して出力することができる。
【0106】
請求項3記載の発明によれば、例えば複数の人物を撮影している状態でその位置関係に対応して各人物を並べた合成画像を生成して出力するなど、自然な形の合成画像を生成して出力することができる。
【0107】
請求項4記載の発明によれば、上記請求項1記載の発明の効果に加えて、その時点で音声信号の音圧レベルの大きい側に対応した画像を大きく、音圧レベルの小さい側に対応した画像を小さくしたピクチャ・イン・ピクチャの合成画像を生成して出力することにより、複数の人物を撮影している状態でその中の発言者の画像を他より大きくように、自然な形の合成画像を生成して出力することができる。
【0108】
請求項5記載の発明によれば、上記請求項3記載の発明の効果に加えて、複数の画像信号の位置関係に対応して音声信号もステレオ化して出力するなど、画像の合成に対応する音声も出力することで、より自然な動画撮影内容を出力することができる。
【0109】
請求項6記載の発明によれば、上記請求項1乃至3いずれか記載の発明の効果に加えて、音声も合わせたきわめて自然な動画データを生成して出力することができる。
【0110】
請求項7記載の発明によれば、上記請求項6記載の発明の効果に加えて、画像に対応したステレオ音声を出力できるため、音像の定位をも明確とした、きわめて自然で品位の高い動画データを生成して出力することができる。
【0111】
請求項8記載の発明によれば、上記請求項1または2記載の発明の効果に加えて、複数の音声信号の比較に応じた画像の出力に際してタイムラグを考慮して一定の時間を遡った画像を出力することができるため、簡単な処理ながら例えば撮影対象となる人物の発言当初の画像をより自然に生成して出力することができる。
【0112】
請求項9記載の発明によれば、上記請求項1乃至8いずれかに記載の発明の効果に加えて、撮影により得た画像を記録媒体に記録するため、該記録媒体を用いて後の再生処理などに活用できる。
【0113】
請求項10記載の発明によれば、上記請求項1乃至8いずれかに記載の発明の効果に加えて、例えば画像を添付した電子メールの発信等に適用可能となるばかりでなく、同一機能を有する他の装置との通信によりテレビ電話などのようにリアルタイムで相互の画像を用いた通信にも適用することが可能となる。
【0114】
請求項11記載の発明によれば、例えばその時点で音声信号の音圧レベルに応じて対応する画像の大きさを変えて合成するなど、自然な形の合成画像を生成して出力させることができる。
【0115】
請求項12記載の発明によれば、例えばその時点で音声信号の音圧レベルに応じて対応する画像の大きさを変えて合成するなど、自然な形の合成画像を生成して出力させることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る携帯電話機の外観構成を示す図。
【図2】同実施の形態に係る携帯電話機の電子回路の機能構成を示すブロック図。
【図3】同実施の形態に係る動画データ取得時の処理内容を示すフローチャート。
【図4】同実施の形態に係る単位時間当たりに生成されるデータ構成を例示する図。
【図5】本発明の第2の実施の形態に係る動画データ取得時の処理内容を示すフローチャート。
【図6】同実施の形態に係る単位時間当たりに生成されるデータ構成を例示する図。
【図7】本発明の第3の実施の形態に係る動画データ取得時の処理内容を示すフローチャート。
【図8】同実施の形態に係る単位時間当たりに生成されるデータ構成を例示する図。
【符号の説明】
10…携帯電話機、11…ヒンジ部、12…上部筐体、13…下部筐体、14…スピーカ、15…メイン表示部、16…第1カメラ部、17…各種キー、18…第1マイクロホン、19…第2カメラ部、20…第2マイクロホン、21…撮影ライト、22…サブ表示部、23…アンテナ、24…外面スピーカ、31…RF部、32…変復調部、33…CDMA部、34…音声処理部、35…制御部、36…GPSレシーバ、37…画像撮影部、38…動画処理部、39…メモリカード、40…バイブレータ部、41…LED駆動部、42…GPSアンテナ、43…光学レンズ系、44…CCD、45…光学レンズ系、46…CCD。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an imaging apparatus, an imaging method, and a program suitable for a mobile phone with a camera function, for example.
[0002]
[Prior art]
Recently, as mobile phones with camera functions have become widespread, the camera unit's shooting direction can be rotated, two camera units provided in different directions of the housing, camera unit Various models have been commercialized, such as those having an optical zoom mechanism formed in the axial direction of the hinge portion of the folding casing.
[0003]
However, any one provided with two camera units can selectively output only one of them depending on the object to be photographed, and only one image sensor is used. It is also considered that images can be taken in different directions by selectively switching with an optical member such as a half mirror. (For example, see Patent Document 1.)
[0004]
[Patent Document 1]
JP 2001-223924 A
[0005]
[Problems to be solved by the invention]
However, any of the above two camera sections or one having two shooting optical paths in one shooting section can be used to selectively shoot an image in one direction according to the shooting target. Met.
[0006]
The present invention has been made in view of the above circumstances, and an object of the present invention is to provide an imaging apparatus and an imaging method capable of realizing various usage environments by more effectively using a plurality of camera units. And providing a program.
[0007]
[Means for Solving the Problems]
According to the first aspect of the present invention, a plurality of image pickup means, a plurality of sound input means provided corresponding to each of the plurality of image pickup means, and the plurality of image pickup means and the plurality of sound input means are simultaneously driven to generate a moving image. A photographing drive means for photographing, a comparing means for comparing a plurality of audio signals obtained by driving a plurality of sound input means by the photographing driving means, and a plurality of imaging means based on the comparison result obtained by the comparing means An image synthesizing means for synthesizing the obtained image signals and an output means for outputting the image signals obtained by the image synthesizing means are provided.
[0008]
With such a configuration, it is possible to generate and output a combined image in a natural form, for example, by changing the size of the corresponding image according to the sound pressure level of the audio signal at that time and combining the images.
[0009]
According to a second aspect of the present invention, in the first aspect of the present invention, a plurality of image pickup means, a plurality of sound input means provided corresponding to each of the plurality of image pickup means, the plurality of image pickup means, and a plurality of sound An imaging drive means for capturing a moving image by simultaneously driving the input means, a comparison means for comparing a plurality of audio signals obtained by driving a plurality of audio input means by the imaging drive means, and a comparison result obtained by the comparison means The image selecting means for selecting one of the image signals obtained by the plurality of imaging means based on the above and an output means for outputting the image signal obtained by the image selecting means.
[0010]
With such a configuration, for example, by selecting and outputting an image corresponding to the side with the higher sound pressure level of the audio signal at that time, a plurality of persons can be photographed while the plurality of persons are being photographed. It is possible to generate and output a synthetic image having a natural shape, such as switching images according to the time.
[0011]
According to a third aspect of the present invention, a plurality of image pickup means, a plurality of sound input means provided corresponding to each of the plurality of image pickup means, and the plurality of image pickup means and the plurality of sound input means are simultaneously driven to generate a moving image. An imaging drive unit for imaging, an image synthesis unit for synthesizing image signals obtained by the plurality of imaging units reflecting the positional relationship of the plurality of imaging units, and an output unit for outputting the image signals obtained by the image synthesis unit It was characterized by comprising.
[0012]
With such a configuration, for example, when a plurality of persons are photographed, a combined image in which each person is arranged corresponding to the positional relationship is generated and output. Can be output.
[0013]
According to a fourth aspect of the present invention, in the first aspect of the present invention, the synthesizing unit generates an image corresponding to an audio signal having a lower sound pressure level in an image corresponding to an audio signal having a higher sound pressure level. An image signal combined and synthesized is generated.
[0014]
With such a configuration, in addition to the operation of the invention described in claim 1 above, an image corresponding to the side where the sound pressure level of the audio signal is large at that time is large and an image corresponding to the side where the sound pressure level is small By generating and outputting a composite image of picture-in-picture with a reduced size, a composite image of a natural shape so that the image of the speaker in it is larger than the others while shooting multiple people Can be generated and output.
[0015]
According to a fifth aspect of the present invention, in the invention of the third aspect, the output means outputs a plurality of audio signals obtained by the plurality of audio input means together with the image signals to positions of a plurality of corresponding imaging means, respectively. It is characterized by being output in a separated state reflecting the relationship.
[0016]
With such a configuration, in addition to the operation of the invention described in
[0017]
The invention according to claim 6 is the invention according to any one of claims 1 to 3, wherein the output means outputs a plurality of sound signals obtained by the plurality of sound input means together with an image signal. To do.
[0018]
With such a configuration, in addition to the operation of the invention according to any one of the first to third aspects, it is possible to generate and output very natural moving image data combined with sound.
[0019]
A seventh aspect of the invention is characterized in that, in the sixth aspect of the invention, the output means outputs the plurality of audio signals in a separated state.
[0020]
With such a configuration, in addition to the operation of the invention described in claim 6 above, since stereo sound corresponding to the image can be output, very natural and high-quality moving image data in which the localization of the sound image is clear is obtained. Can be generated and output.
[0021]
The invention described in claim 8 is characterized in that, in the invention described in claim 1 or 2, the output means outputs an image signal that goes back in time in consideration of a fixed time lag.
[0022]
With such a configuration, in addition to the operation of the invention described in claim 1 or 2, an image that goes back a certain time is output in consideration of a time lag when outputting an image according to comparison of a plurality of audio signals. Therefore, it is possible to more naturally generate and output, for example, an original image of a person who is a subject to be photographed with simple processing.
[0023]
According to a ninth aspect of the present invention, in the invention according to any one of the first to eighth aspects, the output means records at least an image signal on a recording medium.
[0024]
With such a configuration, in addition to the operation of the invention according to any one of claims 1 to 8, in order to record an image obtained by photographing on a recording medium, a later reproduction process using the recording medium, etc. Can be used for
[0025]
According to a tenth aspect of the present invention, in the invention according to any one of the first to eighth aspects, the output means transmits at least an image signal to a communication medium.
[0026]
With such a configuration, in addition to the operation of the invention according to any one of the first to eighth aspects, not only can it be applied to, for example, transmission of an e-mail attached with an image, but also it has the same function. It is possible to apply to communication using a mutual image in real time, such as a video phone, by communicating with the apparatus.
[0027]
According to an eleventh aspect of the present invention, a plurality of imaging units and a plurality of audio input units provided corresponding to each of the plurality of imaging units are simultaneously driven to capture a moving image, and the imaging driving step A comparison step of comparing a plurality of audio signals obtained by driving a plurality of audio input units, an image synthesis step of synthesizing the image signals obtained by the plurality of imaging units based on the comparison results obtained in the comparison step, And an output process for outputting the image signal obtained in the image synthesis process.
[0028]
With such a method, it is possible to generate and output a synthesized image having a natural shape, for example, by changing the size of the corresponding image in accordance with the sound pressure level of the audio signal at that time.
[0029]
The invention according to
[0030]
With such program content, it is possible to generate and output a synthetic image in a natural form, for example, by changing the size of the corresponding image according to the sound pressure level of the audio signal at that time and synthesizing it. .
[0031]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
A first embodiment in the case where the present invention is applied to a CDMA (Code Division Multiple Access) mobile phone with a camera function will be described below with reference to the drawings.
[0032]
FIGS. 1A and 1B show an external configuration of the mobile phone 10 according to the first embodiment. Two
[0033]
As shown in FIG. 1A, a
[0034]
On the other hand,
[0035]
As shown in FIG. 1B, the outer surface of the
[0036]
Further, an
[0037]
Although not shown here, an
[0038]
FIG. 2 shows a circuit configuration of the mobile phone 10. In the figure, the
[0039]
The
[0040]
On the other hand, after transmitting the modulation power of OQPSK (Offset Quadri-Phase Shift Keying) sent from the modulation /
[0041]
The modulation /
[0042]
On the other hand, at the time of transmission, the
[0043]
The
[0044]
On the other hand, at the time of transmission, the
[0045]
The
[0046]
On the other hand, at the time of transmission, the
[0047]
Then, a
[0048]
Here, the
[0049]
The
[0050]
Under the control of the
[0051]
The moving
[0052]
The
[0053]
The
[0054]
The
[0055]
Each of the
[0056]
Although not shown, the
[0057]
Next, the operation of the above embodiment will be described.
FIG. 3 shows the contents of the call processing in the video phone mode that is basically executed by the
[0058]
Initially, the
[0059]
In this case, for example, assuming that the frame rate of a moving image is 15 [frames / second], the resolution is 160 dots wide × 120 dots long, and the audio sampling frequency is 12 [KHz], the audio signal is sampled at 12 [KHz]. During execution, the shooting timing is determined every 1/15 [seconds], and this is determined in step A02, and images of both the inner surface and the outer surface of the
[0060]
At the same time, the sound pressure levels of the two audio data obtained by the recording are compared to determine which is greater (step A04).
[0061]
If the sound pressure level of the sound data obtained by the
[0062]
As this composite image, the image data having the resolution of 160 dots horizontally × 120 dots vertically obtained by the
[0063]
If it is determined in step A04 that the sound pressure level of the sound data obtained by the
[0064]
In this way, the composite image data obtained in step A05 or A06 is used, and two audio data for 1/15 [seconds] acquired between the previous image shooting and the current image shooting are superimposed to obtain a predetermined value. The data is formatted (step A07), transmitted to the other party of the call (step A08), and the series of processing in units of image data is completed. Then, the processing returns to the processing from step A01. The above process is repeated until the call is finished.
[0065]
FIG. 4 illustrates the concept of audio data corresponding to the image data that has undergone the processing in step A05 and that has been formatted in a predetermined format in step A07. As the image data, a part of the image data obtained by the
[0066]
When the moving image data is actually transmitted after being compressed in accordance with, for example, the MPEG4 standard, the moving
[0067]
In this way, for example, by generating a picture-in-picture composite image in which the image corresponding to the side with the higher sound pressure level of the audio signal is enlarged and the image corresponding to the side with the lower sound pressure level is reduced. It is possible to generate a composite image in a natural form, for example, by enlarging an image on the speaking side of a single mobile phone 10 while simultaneously photographing two persons.
[0068]
(Second Embodiment)
A second embodiment when the present invention is applied to a CDMA mobile phone with a camera function will be described below with reference to the drawings.
[0069]
The external configuration is basically the same as that in FIG. 1 and the circuit configuration is the same as in FIG. 2, and therefore, the same reference numerals are used for the same parts, and illustration and description thereof are omitted.
[0070]
Next, the operation of the above embodiment will be described.
FIG. 5 shows the contents of the call processing in the video phone mode that is basically executed by the
[0071]
Initially, the
[0072]
In this case, for example, assuming that the frame rate of a moving image is 15 [frames / second], the resolution is 160 dots wide × 120 dots long, and the audio sampling frequency is 12 [KHz], the audio signal is sampled at 12 [KHz]. During execution, the shooting timing is determined every 1/15 [seconds], and this is determined in step B02, and images of both the inner surface and the outer surface of the
[0073]
At the same time, the sound pressure levels of the two audio data obtained by the recording are compared, and it is determined which one is greater (step B04).
[0074]
If the sound pressure level of the sound data obtained by the
[0075]
As this selected image, the image data having the resolution of 160 horizontal pixels × 120 vertical pixels obtained by the
[0076]
If it is determined in step B04 that the sound pressure level of the sound data obtained by the
[0077]
In this way, the image data selected in step B05 or B06 is used, and two audio data for 1/15 [seconds] acquired between the previous image shooting and the current image shooting are superimposed to form a predetermined format. (Step B07), transmitted to the other party (step B08), the series of processing in units of image data is completed, and the process returns to the processing from step B01. The above process is repeated until the end of.
[0078]
FIG. 6 exemplifies the concept of audio data corresponding to the image data that has undergone the processing in step B05 and that has been formatted in a predetermined format in step B07. As the image data, only the image data obtained by the
[0079]
When the moving image data is actually transmitted after being compressed in accordance with, for example, the MPEG4 standard, the moving
[0080]
In this way, for example, by selecting the image side corresponding to the side where the sound pressure level of the audio signal is large at that time, one mobile phone 10 is simultaneously shooting two persons. It is possible to generate a natural image such as switching to the speaking side.
[0081]
(Third embodiment)
A third embodiment when the present invention is applied to a CDMA mobile phone with a camera function will be described below with reference to the drawings.
[0082]
The external configuration is basically the same as that in FIG. 1 and the circuit configuration is the same as in FIG. 2, and therefore, the same reference numerals are used for the same parts, and illustration and description thereof are omitted.
[0083]
Next, the operation of the above embodiment will be described.
FIG. 7 shows the contents of the call processing in the videophone mode that is basically executed by the
[0084]
Initially, the
[0085]
In this case, for example, assuming that the frame rate of a moving image is 15 [frames / second], the resolution is 160 dots wide × 120 dots long, and the audio sampling frequency is 12 [KHz], the audio signal is sampled at 12 [KHz]. During execution, the shooting timing is determined every 1/15 [second], and this is determined in step C02, and images of the inner surface and the outer surface of the
[0086]
Then, using the image data obtained by the
[0087]
As the composite image, as described above, the image data having the resolution of horizontal 160 dots × vertical 120 dots obtained by the
[0088]
In this way, the composite image data obtained in step C04 is used, and two audio data for 1/15 [seconds] acquired between the previous image shooting and the current image shooting are used as the left channel (Lch) and The right channel (Rch) is separated into a predetermined format (step C05), transmitted to the other party (step C06), and the series of processing in units of image data is completed. Returning to the process, the above process is repeated until the telephone call in the videophone mode is finished.
[0089]
FIG. 8 illustrates the concept of audio data corresponding to the image data that has undergone the processing in step C04 and that has been formatted in a predetermined format in step C05.
[0090]
As image data, the image data obtained by the
[0091]
Therefore, if the other party of the call is also reproduced using the equivalent mobile phone 10, a composite image showing the two persons is displayed on the
[0092]
When the moving image data is actually transmitted after being compressed in accordance with, for example, the MPEG4 standard, the moving
[0093]
Thus, for example, by generating a composite image in which each person is arranged corresponding to the positional relationship in a state where a plurality of persons are photographed, a natural-shaped composite image can be generated.
[0094]
In addition, since the audio data obtained by the
[0095]
In the first and second embodiments, the state of the immediate image is switched depending on the level of the sound pressure level of the two audio signals. However, the switching has been made since the previous switching. Switching may be performed in consideration of time and the difference in sound pressure level between the two audio signals.
[0096]
In that case, immediately after the previous image switching, if there is no difference in sound pressure level exceeding a certain threshold value, the image is not switched, and the contents of the threshold are changed as time elapses from switching. Reduce in steps.
[0097]
By doing so, it can be avoided that the contents of the composite image are switched unnaturally in a short cycle and become difficult to see.
[0098]
Also, when switching the composite image in the first and second embodiments, the image obtained at that time is held for a certain amount of time by the buffer memory so that the user does not feel uncomfortable with the sound at the time of switching. An image that is traced back by a certain time lag, for example, 0.2 [seconds] may be extracted and used for output.
[0099]
This is because, for example, when an image is switched due to a change in the sound state, an image that is traced back in time is used instead of the point in time when the change in the sound state is detected. By outputting an image from the state immediately before the utterance of the person who started the speech, not from the state of the utterance, a visually very natural image can be provided.
[0100]
Further, in each of the first to third embodiments, the case where the signals generated from the two image signals and the two corresponding audio signals are immediately transmitted to the call partner has been described. However, it may be recorded once on a recording medium such as the
[0101]
Furthermore, the first to third embodiments described all describe the case where the present invention is applied to a mobile phone with a camera function. However, the present invention is not limited to this, and moving image shooting is possible. The present invention can be applied to a digital camera, a PDA with a camera function, a video camera device, a conference recording system, and the like.
[0102]
In addition, the present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the scope of the invention.
[0103]
Further, the above embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiment, at least one of the problems described in the column of the problem to be solved by the invention can be solved, and described in the column of the effect of the invention. In a case where at least one of the obtained effects can be obtained, a configuration in which this configuration requirement is deleted can be extracted as an invention.
[0104]
【The invention's effect】
According to the first aspect of the present invention, it is possible to generate and output a synthesized image in a natural form, for example, by changing the size of the corresponding image according to the sound pressure level of the audio signal at that time, and combining the images. it can.
[0105]
According to the second aspect of the present invention, for example, by selecting and outputting an image corresponding to the side with the higher sound pressure level of the audio signal at that time, a remark in the state where a plurality of persons are being photographed It is possible to generate and output a natural composite image, such as switching a person's image according to the situation.
[0106]
According to the third aspect of the present invention, for example, when a plurality of persons are photographed, a combined image in which each person is arranged corresponding to the positional relationship is generated and output. Can be generated and output.
[0107]
According to the invention described in claim 4, in addition to the effect of the invention described in claim 1, the image corresponding to the side where the sound pressure level of the audio signal is large at that time is enlarged and the image corresponding to the side where the sound pressure level is low is supported. By generating and outputting a composite image of a picture-in-picture with a reduced size, it is possible to create a natural image so that the image of the speaker within it is larger than the others while shooting multiple people. A composite image can be generated and output.
[0108]
According to the fifth aspect of the present invention, in addition to the effect of the third aspect of the present invention, in addition to the effects of the third aspect of the invention, the audio signal is also stereoized and output in accordance with the positional relationship of the plurality of image signals. By outputting sound, more natural video shooting content can be output.
[0109]
According to the invention described in claim 6, in addition to the effect of the invention described in any one of claims 1 to 3, it is possible to generate and output very natural moving image data combined with sound.
[0110]
According to the seventh aspect of the invention, in addition to the effect of the sixth aspect of the invention, since stereo sound corresponding to the image can be output, a very natural and high quality moving image with a clear localization of the sound image. Data can be generated and output.
[0111]
According to the invention described in claim 8, in addition to the effect of the invention described in claim 1 or 2, an image that goes back a certain time in consideration of a time lag when outputting an image according to comparison of a plurality of audio signals. Therefore, it is possible to more naturally generate and output, for example, an original image of a person who is a subject to be photographed with simple processing.
[0112]
According to the ninth aspect of the invention, in addition to the effects of the first to eighth aspects of the invention, an image obtained by photographing is recorded on the recording medium. It can be used for processing.
[0113]
According to the invention described in claim 10, in addition to the effect of the invention described in any one of claims 1 to 8, it can be applied not only to, for example, transmission of an e-mail attached with an image, but also to the same function. Communication with other devices can be applied to communication using mutual images in real time, such as a videophone.
[0114]
According to the eleventh aspect of the invention, it is possible to generate and output a synthesized image in a natural form, for example, by changing the size of the corresponding image in accordance with the sound pressure level of the audio signal at that time. it can.
[0115]
According to the twelfth aspect of the invention, it is possible to generate and output a synthetic image having a natural shape, for example, by changing the size of the corresponding image in accordance with the sound pressure level of the audio signal at that time. it can.
[Brief description of the drawings]
FIG. 1 is a diagram showing an external configuration of a mobile phone according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing a functional configuration of an electronic circuit of the mobile phone according to the embodiment;
FIG. 3 is a flowchart showing the processing content when acquiring moving image data according to the embodiment;
FIG. 4 is a diagram illustrating a data configuration generated per unit time according to the embodiment;
FIG. 5 is a flowchart showing the processing contents when moving image data is acquired according to the second embodiment of the present invention.
FIG. 6 is a diagram illustrating a data configuration generated per unit time according to the embodiment;
FIG. 7 is a flowchart showing the processing contents when acquiring moving image data according to the third embodiment of the present invention;
FIG. 8 is a diagram illustrating a data configuration generated per unit time according to the embodiment;
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 10 ... Mobile phone, 11 ... Hinge part, 12 ... Upper housing | casing, 13 ... Lower housing | casing, 14 ... Speaker, 15 ... Main display part, 16 ... 1st camera part, 17 ... Various keys, 18 ... 1st microphone, DESCRIPTION OF
Claims (12)
これら複数の撮像手段それぞれに対応して設ける複数の音声入力手段と、
上記複数の撮像手段及び複数の音声入力手段を同時駆動して動画を撮影する撮影駆動手段と、
この撮影駆動手段で複数の音声入力手段の駆動により得た複数の音声信号を比較する比較手段と、
この比較手段で得た比較結果に基づいて上記複数の撮像手段で得た画像信号を合成する画像合成手段と、
この画像合成手段で得た画像信号を出力する出力手段と
を具備したことを特徴とする撮像装置。A plurality of imaging means;
A plurality of voice input means provided corresponding to each of the plurality of imaging means;
Shooting driving means for simultaneously driving the plurality of imaging means and the plurality of audio input means to shoot a moving image;
Comparison means for comparing a plurality of sound signals obtained by driving a plurality of sound input means by the photographing driving means,
Image synthesizing means for synthesizing the image signals obtained by the plurality of imaging means based on the comparison result obtained by the comparing means;
An image pickup apparatus comprising: output means for outputting an image signal obtained by the image composition means.
これら複数の撮像手段それぞれに対応して設ける複数の音声入力手段と、
上記複数の撮像手段及び複数の音声入力手段を同時駆動して動画を撮影する撮影駆動手段と、
この撮影駆動手段で複数の音声入力手段の駆動により得た複数の音声信号を比較する比較手段と、
この比較手段で得た比較結果に基づいて上記複数の撮像手段で得た画像信号から1つを選択する画像選択手段と、
この画像選択手段で得た画像信号を出力する出力手段と
を具備したことを特徴とする撮像装置。A plurality of imaging means;
A plurality of voice input means provided corresponding to each of the plurality of imaging means;
Shooting driving means for simultaneously driving the plurality of imaging means and the plurality of audio input means to shoot a moving image;
Comparison means for comparing a plurality of sound signals obtained by driving a plurality of sound input means by the photographing driving means,
Image selecting means for selecting one of the image signals obtained by the plurality of imaging means based on the comparison result obtained by the comparing means;
An image pickup apparatus comprising: output means for outputting an image signal obtained by the image selection means.
これら複数の撮像手段それぞれに対応して設ける複数の音声入力手段と、
上記複数の撮像手段及び複数の音声入力手段を同時駆動して動画を撮影する撮影駆動手段と、
上記複数の撮像手段で得た画像信号を複数の撮像手段の位置関係を反映して合成する画像合成手段と、
この画像合成手段で得た画像信号を出力する出力手段と
を具備したことを特徴とする撮像装置。A plurality of imaging means;
A plurality of voice input means provided corresponding to each of the plurality of imaging means;
Shooting driving means for simultaneously driving the plurality of imaging means and the plurality of audio input means to shoot a moving image;
Image combining means for combining the image signals obtained by the plurality of imaging means to reflect the positional relationship of the plurality of imaging means;
An image pickup apparatus comprising: output means for outputting an image signal obtained by the image composition means.
この撮影駆動工程で複数の音声入力部の駆動により得た複数の音声信号を比較する比較工程と、
この比較工程で得た比較結果に基づいて上記複数の撮像部で得た画像信号を合成する画像合成工程と、
この画像合成工程で得た画像信号を出力する出力工程と
を有したことを特徴とする撮像方法。A shooting driving step of simultaneously driving a plurality of imaging units and a plurality of audio input units provided corresponding to each of the plurality of imaging units to shoot a moving image;
A comparison step of comparing a plurality of audio signals obtained by driving a plurality of audio input units in this photographing driving step;
An image synthesis step of synthesizing the image signals obtained by the plurality of imaging units based on the comparison result obtained in the comparison step;
And an output step of outputting an image signal obtained in the image composition step.
上記複数の撮像部及び複数の音声入力部を同時駆動して動画を撮影する撮影駆動ステップと、
この撮影駆動ステップで複数の音声入力部の駆動により得た複数の音声信号を比較する比較ステップと、
この比較ステップで得た比較結果に基づいて上記複数の撮像部で得た画像信号を合成する画像合成ステップと、
この画像合成ステップで得た画像信号を出力する出力ステップと
をコンピュータに実行させることを特徴とするプログラム。A program executed by a computer built in an imaging apparatus provided with a plurality of imaging units and a plurality of audio input units provided corresponding to each of the plurality of imaging units,
A shooting driving step of simultaneously driving the plurality of imaging units and the plurality of audio input units to shoot a moving image;
A comparison step for comparing a plurality of audio signals obtained by driving a plurality of audio input units in this photographing driving step;
An image synthesis step for synthesizing the image signals obtained by the plurality of imaging units based on the comparison result obtained in the comparison step;
A program for causing a computer to execute an output step of outputting an image signal obtained in the image synthesis step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003199071A JP4366481B2 (en) | 2003-07-18 | 2003-07-18 | Imaging apparatus and imaging method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003199071A JP4366481B2 (en) | 2003-07-18 | 2003-07-18 | Imaging apparatus and imaging method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005039451A true JP2005039451A (en) | 2005-02-10 |
JP4366481B2 JP4366481B2 (en) | 2009-11-18 |
Family
ID=34208639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003199071A Expired - Fee Related JP4366481B2 (en) | 2003-07-18 | 2003-07-18 | Imaging apparatus and imaging method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4366481B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007312039A (en) * | 2006-05-17 | 2007-11-29 | Nec Saitama Ltd | Mobile terminal with videophone function |
KR20140081020A (en) * | 2012-12-21 | 2014-07-01 | 삼성전자주식회사 | Method for recoding a video in the terminal having a dual camera and device thereof |
US9749494B2 (en) | 2013-07-23 | 2017-08-29 | Samsung Electronics Co., Ltd. | User terminal device for displaying an object image in which a feature part changes based on image metadata and the control method thereof |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106488108A (en) * | 2015-08-31 | 2017-03-08 | 中兴通讯股份有限公司 | The method and device of imaging |
-
2003
- 2003-07-18 JP JP2003199071A patent/JP4366481B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007312039A (en) * | 2006-05-17 | 2007-11-29 | Nec Saitama Ltd | Mobile terminal with videophone function |
KR20140081020A (en) * | 2012-12-21 | 2014-07-01 | 삼성전자주식회사 | Method for recoding a video in the terminal having a dual camera and device thereof |
KR102036054B1 (en) * | 2012-12-21 | 2019-11-26 | 삼성전자 주식회사 | Method for recoding a video in the terminal having a dual camera and device thereof |
US9749494B2 (en) | 2013-07-23 | 2017-08-29 | Samsung Electronics Co., Ltd. | User terminal device for displaying an object image in which a feature part changes based on image metadata and the control method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP4366481B2 (en) | 2009-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5348687B2 (en) | Terminal device and program | |
US20050264650A1 (en) | Apparatus and method for synthesizing captured images in a mobile terminal with a camera | |
JP2005094741A (en) | Image pickup device and image synthesizing method | |
JP2006262484A (en) | Method and apparatus for composing images during video communication | |
KR20070117284A (en) | Method for image composition in dual camera having mobile phone | |
KR100575924B1 (en) | Method for compositing picture with background scenes of device having camera | |
JP2005151450A (en) | Mobile terminal, video phone system, control program, and recording medium with program recorded thereon | |
JP2004289688A (en) | Television telephone apparatus | |
KR100819243B1 (en) | Method of taking and storing a picture image on digital-camera-enabled phone | |
JP3891147B2 (en) | Movie editing apparatus, movie editing method and program | |
JP4366481B2 (en) | Imaging apparatus and imaging method | |
JP4341407B2 (en) | Imaging projection device | |
KR100703290B1 (en) | Method for taking a picture of specific part | |
JP4288971B2 (en) | Portable electronic device and display control method thereof | |
KR101143408B1 (en) | System for Providing Service of Compositing Imageor Video | |
JP2005005791A (en) | Electronic camera | |
KR20070009888A (en) | Mobile communication terminal having function of measuring subject size | |
JP2000175166A (en) | Video telephone system, transmission reception method for video telephone system and storage medium | |
KR100620714B1 (en) | Mobile communication terminal for providing function of composing image | |
JP2008052286A (en) | Image pickup device and program | |
JP2005191978A (en) | Mobile electronic apparatus, photographing method, and program | |
JP2004304763A (en) | Image compositing apparatus, image compositing method and program | |
KR100664154B1 (en) | Method for displaying of picture move in wireless terminal | |
KR20040029751A (en) | Method of compounding background picture and taken picture in wireless telephone having camera | |
KR100769672B1 (en) | Mobile communication terminal having the function of video communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060523 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090604 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090714 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090727 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120904 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130904 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |