JP2013042356A

JP2013042356A - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP2013042356A
Application number: JP2011177831A
Authority: JP
Inventors: Nobuyuki Kihara; 信之木原; Yohei Sakuraba; 洋平櫻庭; Ken Yamaguchi; 健山口; Yasuhiko Kato; 靖彦加藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-08-16
Filing date: 2011-08-16
Publication date: 2013-02-28
Also published as: CN103155536A; US20140178049A1; WO2013024704A1

Abstract

【課題】動画像に対してより簡単に効果を付加することができるようにする。
【解決手段】携帯型端末装置では、動画像の撮影時に、周囲の環境音と、ユーザにより発話された音声とが異なる収音部により収音される。キーワード検出部は、ユーザにより発話された音声から予め定められたキーワードを検出し、効果生成部は、検出されたキーワードに対応付けられた効果画像と効果音を生成する。そして、効果付加部は、撮影された動画像に生成された効果画像を重畳するとともに、環境音に生成された効果音を合成することで、動画像に画像効果および音声効果を施す。携帯型端末装置によれば、動画像の撮影を行ないながらキーワードを発話するだけで、簡単に動画像に所望の効果を付加することができる。本発明は、携帯電話機に適用することができる。
【選択図】図３

Description

本技術は画像処理装置および方法、並びにプログラムに関し、特に、動画像に対してより簡単に効果を付加することができるようにした画像処理装置および方法、並びにプログラムに関する。

従来、動画像を撮影可能な機器として、携帯電話機やカムコーダ、デジタルカメラなどが知られている。例えば、動画像を撮影することのできる携帯電話機として、２つのマイクロホンにより収音された音声のうち、より音声レベルの高い音声を、動画像に付随する音声として動画像の撮影を行なうものが提案されている（例えば、特許文献１参照）。

特開２００４−２０１０１５号公報

ところで、動画像には効果音などの効果が付加されることがあるが、動画像に対する効果の付加は、通常、動画像の撮影後、例えば動画像の編集時に行なわれることが多い。

しかしながら、このような動画像への効果の付加を行なう作業は面倒であった。例えば、撮影後に効果を付加しようとすると、ユーザは動画像を再生させながら効果を付加するシーンを選択するとともに、付加しようとする効果を指定するなどの操作が必要であった。

また、近年の映像配信スタイルの変化により、撮影した動画像をリアルタイムで配信するという用途も増えてきている。そのため、撮影した動画像に対して、簡単かつ迅速に効果を付加するための技術が求められている。

本技術は、このような状況に鑑みてなされたものであり、動画像に対してより簡単に効果を付加することができるようにするものである。

本技術の一側面の画像処理装置は、動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出するキーワード検出部と、検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加する効果付加部とを備える。

画像処理装置には、検出された前記キーワードに基づいて効果音を生成する効果音生成部をさらに設け、前記効果付加部には、前記環境音に前記効果音を合成させることができる。

画像処理装置には、検出された前記キーワードに基づいて効果画像を生成する効果画像生成部をさらに設け、前記効果付加部には、前記動画像に前記効果画像を重畳させることができる。

画像処理装置には、前記動画像を撮影する撮影部と、前記環境音を収音する第１の収音部と、前記ユーザにより発話された音声を収音する第２の収音部とをさらに設けることができる。

画像処理装置には、前記動画像、前記環境音、および前記ユーザにより発話された音声を受信する受信部をさらに設けることができる。

本技術の一側面の画像処理方法またはプログラムは、動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出し、検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加するステップを含む。

本技術の一側面においては、動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードが検出され、検出された前記キーワードに対して定められた効果が、前記動画像または前記環境音に対して付加される。

本技術の一側面によれば、動画像に対してより簡単に効果を付加することができる。

本技術の概要を説明するための図である。動画像に対する効果の付加について説明する図である。携帯型端末装置の構成例を示す図である。効果付加処理について説明するフローチャートである。効果音対応テーブルの一例を示す図である。効果画像対応テーブルの一例を示す図である。配信システムの構成例を示す図である。撮影処理と効果付加処理について説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
［本技術の概要］
本技術は、例えば図１に示すように、携帯電話機やカムコーダ、デジタルカメラなどからなる携帯型端末装置１１が撮影する動画像に対して、音声効果や画像効果を施すものである。

図１の例では、携帯型端末装置１１を操作するユーザ１２は、矢印Ａ１１に示すように水泳競技を行なっている選手を被写体として、動画像を撮影する。すなわち、携帯型端末装置１１は、ユーザ１２の操作に応じて被写体の動画像（映像）を撮影するとともに、周囲の音声（以下、環境音と称する）を動画像に付随する音声として収音する。

また、動画像の撮影時において、ユーザ１２は動画像と環境音からなるコンテンツに対して効果を付加したいときには、付加しようとする効果に対して予め定められた単語やフレーズ等（以下、キーワードと称する）を発話し、キーワードを音声入力する。

このようにしてユーザ１２により発せられたキーワードは、携帯型端末装置１１により収音される。なお、ユーザ１２が発するキーワードと、動画像に付随する環境音とは、互いに異なる収音部により収音されるようになされている。例えば、環境音を収音する収音部と、キーワードを収音する収音部とは、携帯型端末装置１１の互いに対向する面に設けられている。

携帯型端末装置１１は、動画像の撮影中に、キーワード検出用の収音部で得られた音声からキーワードが検出されると、そのキーワードにより特定される画像効果や音声効果を撮影により得られた動画像や環境音に対して付加する。

具体的には、例えば水泳競技の開始時の様子を撮影したときに、図２に示すように環境音として、音声Ｍ１１「Take your mark」、音声Ｍ１２「ピッ」、音声Ｍ１３「ちゃぽん」、および音声Ｍ１４「バシャバシャバシャバシャ」が収音されたとする。

なお、図２において、横方向は時間方向を示しており、時間方向の各位置には各時刻の環境音、キーワード、効果音、および効果付加後の環境音が示されている。

例えば、音声Ｍ１１および音声Ｍ１２は競技を開始する旨の音声と笛の音であり、音声Ｍ１３および音声Ｍ１４は選手がプールに飛び込んだときの音、および選手が泳ぎ始めたときの音である。また、図２の例では、競技開始の笛の音声Ｍ１２の収音直後に、ユーザにより発せられたキーワードＫ１１「ビヨーン」が収音され、選手が入水したときの音声Ｍ１３の収音とほぼ同時に、ユーザにより発せられたキーワードＫ１２「ザッブーン」が収音されている。

さらに、キーワードＫ１１に対して、被写体が飛び上がる様子を想起させる効果音Ｅ１１「ビヨーン」が予め対応付けられており、キーワードＫ１２に対して、水しぶきが上がる様子を想起させる効果音Ｅ１２「ザッブーン」が予め対応付けられているとする。

そのような場合、携帯型端末装置１１は、収音された音声Ｍ１１乃至音声Ｍ１４からなる環境音に対して、キーワードＫ１１およびキーワードＫ１２のそれぞれが入力されたタイミングで効果音Ｅ１１および効果音Ｅ１２を合成し、効果付加後の環境音とする。したがって、最終的に得られた効果付加後の環境音の再生時には、音声Ｍ１１、音声Ｍ１２、効果音Ｅ１１、音声Ｍ１３および効果音Ｅ１２、並びに音声Ｍ１４が順番に再生されることになる。

なお、キーワードに対して、画像効果を施すための画像（以下、効果画像と称する）が予め対応付けられている場合には、撮影により得られた動画像に対して、検出されたキーワードに対応付けられている効果画像が合成される。

［携帯型端末装置の構成例］
次に、撮影された動画像に対して効果を施す携帯型端末装置１１の具体的な構成について説明する。図３は、携帯型端末装置１１の構成例を示す図である。

携帯型端末装置１１は、撮影部２１、収音部２２、収音部２３、分離部２４、キーワード検出部２５、効果生成部２６、効果付加部２７、および送信部２８から構成される。

撮影部２１は、ユーザの操作に応じて、携帯型端末装置１１の周囲の被写体を撮影し、その結果得られた動画像の画像データを効果生成部２６に供給する。収音部２２は、例えばマイクロホンなどからなり、動画像の撮影時に携帯型端末装置１１の周囲の音声を環境音として収音し、その結果得られた音声データを分離部２４に供給する。

収音部２３は、例えばマイクロホンなどからなり、動画像の撮影時に携帯型端末装置１１を操作するユーザにより発せられた音声（キーワード）を収音し、その結果得られた音声データを分離部２４に供給する。

なお、収音部２２と収音部２３は、例えば携帯型端末装置１１の互いに異なる面に設けられているが、収音部２２には環境音だけでなく、ユーザが発話した音声も到達し、収音部２３にはユーザの発話した音声だけでなく、環境音も到達する。したがって、より詳細には、収音部２２で得られた音声には、環境音だけでなく、ユーザが発したキーワードの音声もわずかに含まれており、同様に収音部２３で得られた音声には、キーワードの音声だけでなく、環境音もわずかに含まれている。

分離部２４は、収音部２２から供給された音声データと、収音部２３から供給された音声データとに基づいて、環境音と、ユーザが発した音声とを分離する。

すなわち、分離部２４は、収音部２３からの音声データを用いて、収音部２２からの音声データから、環境音の音声データを抽出し、環境音の音声データを効果生成部２６に供給する。また、分離部２４は、収音部２２からの音声データを用いて、収音部２３からの音声データから、ユーザが発した音声の音声データを抽出し、ユーザが発した音声の音声データをキーワード検出部２５に供給する。

キーワード検出部２５は、分離部２４から供給された音声データに基づく音声からキーワードを検出し、その検出結果を効果生成部２６に供給する。

効果生成部２６は、撮影部２１からの動画像の画像データと、分離部２４からの環境音の音声データを効果付加部２７に供給するとともに、キーワード検出部２５からのキーワードの検出結果に基づいて動画像に付加する効果を生成し、効果付加部２７に供給する。

効果生成部２６は、遅延部４１、効果画像生成部４２、遅延部４３、および効果音生成部４４を備えている。

遅延部４１は、撮影部２１から供給された動画像の画像データを一時的に保持して遅延させ、効果付加部２７に供給する。効果画像生成部４２は、キーワード検出部２５から供給された検出結果に基づいて、画像効果を施すための効果画像の画像データを生成し、効果付加部２７に供給する。

遅延部４３は、分離部２４から供給された環境音の音声データを一時的に保持して遅延させ、効果付加部２７に供給する。効果音生成部４４は、キーワード検出部２５から供給された検出結果に基づいて、音声効果を施すための効果音の音声データを生成し、効果付加部２７に供給する。

効果付加部２７は、効果生成部２６から供給された動画像および環境音と、効果画像および効果音とに基づいて、動画像および環境音に効果を付加し、送信部２８に供給する。効果付加部２７は、効果画像重畳部５１および効果音合成部５２を備えている。

効果画像重畳部５１は、遅延部４１から供給された動画像の画像データに、効果画像生成部４２から供給された効果画像の画像データを重畳し、送信部２８に供給する。効果音合成部５２は、遅延部４３から供給された環境音の音声データに、効果音生成部４４から供給された効果音の音声データを合成して送信部２８に供給する。

送信部２８は、効果画像重畳部５１から供給された画像データと、効果音合成部５２から供給された音声データとを、映像と音声からなる１つのコンテンツとして、外部の装置に送信する。

［効果付加処理の説明］
ところで、ユーザが携帯型端末装置１１を操作して、動画像の撮影開始を指示すると、携帯型端末装置１１は、動画像を撮影するとともに、ユーザから発せられたキーワードに応じて撮影により得られた動画像に効果を付加する効果付加処理を行う。以下、図４のフローチャートを参照して、携帯型端末装置１１による効果付加処理について説明する。

ステップＳ１１において、撮影部２１は動画像の撮影を開始し、撮影により得られた画像データを遅延部４１に供給して保持させる。

また、動画像の撮影が開始されると、収音部２２および収音部２３も周囲の音声の収音を開始し、得られた音声データを分離部２４に供給する。すなわち、収音部２２は動画像に付随する音声として環境音を収音し、収音部２３はユーザにより発話されたキーワード（音声）を収音する。

さらに、分離部２４は、音声の音圧差などを利用して、収音部２３からの音声データに基づき、収音部２２からの音声データからユーザが発話した音声（キーワード）の成分を除去し、その結果得られた環境音の音声データを遅延部４３に供給して保持させる。同様に、分離部２４は、収音部２２からの音声データを用いて、収音部２３からの音声データから環境音の成分を除去し、その結果得られたユーザが発した音声（キーワード）の音声データをキーワード検出部２５に供給する。これらの処理により、環境音とキーワードが分離される。

ステップＳ１２において、キーワード検出部２５は、分離部２４から供給された音声データに対して音声認識処理等を行うことで、ユーザが発話した音声からキーワードを検出する。例えば、図２に示したキーワードＫ１１やキーワードＫ１２など、予め定められたキーワードが、ユーザの発話音声から検出される。

ステップＳ１３において、キーワード検出部２５は、キーワードが検出されたか否かを判定する。ステップＳ１３において、キーワードが検出されたと判定された場合、キーワード検出部２５は、検出されたキーワードを特定する情報を効果画像生成部４２および効果音生成部４４に供給し、処理はステップＳ１４に進む。

ステップＳ１４において、効果音生成部４４は、キーワード検出部２５から供給された情報に基づいて効果音を生成し、効果音合成部５２に供給する。

例えば、効果音生成部４４は図５に示すように、予め定められたキーワードと、そのキーワードにより特定される効果音とが対応付けられた効果音対応テーブルを記録している。図５の例では、キーワード「ビヨーン」に対して効果音「効果音Ａ」が対応付けられており、キーワード「ザッブーン」に対して効果音「効果音Ｂ」が対応付けられている。

効果音生成部４４は、効果音対応テーブルを参照することで、キーワード検出部２５から供給された情報により示されるキーワードに対応する効果音を特定し、予め記録している複数の効果音のうち、特定された効果音を読み出して効果音合成部５２に供給する。したがって、例えばキーワード検出部２５でキーワード「ビヨーン」が検出された場合、効果音生成部４４は、「ビヨーン」に対応する「効果音Ａ」の音声データを効果音合成部５２に供給する。

ステップＳ１５において、効果画像生成部４２は、キーワード検出部２５から供給された情報に基づいて効果画像を生成し、効果画像重畳部５１に供給する。

例えば、効果画像生成部４２は図６に示すように、予め定められたキーワードと、そのキーワードにより特定される効果画像とが対応付けられた効果画像対応テーブルを記録している。

図６の例では、キーワード「ビヨーン」に対して効果画像「効果画像Ａ」が対応付けられており、キーワード「ザッブーン」に対して効果画像「効果画像Ｂ」が対応付けられている。例えば、これらの効果画像は、キーワードを示す文字を含む画像や、キーワードに関連するアニメーション画像などとされる。

効果画像生成部４２は、効果画像対応テーブルを参照することで、キーワード検出部２５から供給された情報により示されるキーワードに対応する効果画像を特定し、予め記録している複数の効果画像のうち、特定された効果画像を読み出して効果画像重畳部５１に供給する。

なお、効果音生成部４４と効果画像生成部４２において、キーワードにより特定される効果音と効果画像が読み出される場合を例として説明したが、効果音や効果画像が、検出されたキーワードと、予め記録されているデータとに基づいて生成されるようにしてもよい。

また、各キーワードに対して、効果音と効果画像の両方が対応付けられているようにしてもよいし、効果音と効果画像の何れか一方のみが対応付けられているようにしてもよい。例えば、所定のキーワードに対して、効果音のみが対応付けられている場合には、そのキーワードが検出されても、効果画像生成部４２では効果画像の生成が行なわれず、動画像と環境音のうち、環境音に対してのみ効果が施されることになる。

図４のフローチャートの説明に戻り、ステップＳ１６において、効果音合成部５２は、遅延部４３から環境音の音声データを取得して、取得した音声データと、効果音生成部４４から供給された効果音の音声データとを合成して送信部２８に供給する。

このとき、効果音合成部５２は、効果音合成後の環境音の再生時において、動画像の撮影時にユーザからキーワードが発せられたタイミング（再生時刻）で効果音が再生されるように、環境音の音声データと効果音の音声データとを同期させながら合成処理を行なう。このような合成処理により、環境音と効果音が再生される音声データが得られる。つまり、動画像の撮影時における周囲の音声のうちの、ユーザにより発せられたキーワードが効果音に置き換えられた音声が得られることになる。

ステップＳ１７において、効果画像重畳部５１は、遅延部４１から動画像の画像データを取得して、取得した画像データに効果画像生成部４２から供給された効果画像の画像データを重畳し、送信部２８に供給する。

このとき、効果画像重畳部５１は、効果画像合成後の動画像の再生時において、動画像の撮影時にユーザからキーワードが発せられたタイミングで効果画像が表示されるように、動画像の画像データと効果画像の画像データとを同期させながら重畳処理を行なう。このような重畳処理により、撮影された被写体とともに、キーワードを示す文字「ビヨーン」などの効果画像が表示される動画像の画像データが得られる。

なお、撮影された動画像に対する画像効果は効果画像の重畳に限らず、動画像に対するフェード効果やフラッシュ効果など、どのようなものであってもよい。例えば、所定のキーワードに対し、フェード効果が画像効果として対応付けられている場合には、効果画像生成部４２は、動画像にフェード効果を施す旨の情報を効果画像重畳部５１に供給する。すると、効果画像重畳部５１は、効果画像生成部４２から供給された情報に基づいて、遅延部４１からの動画像にフェード効果を施す画像処理を行なう。

以上のようにして、撮影された動画像と環境音に効果が施されると、処理はステップＳ１７からステップＳ１８へと進む。

また、ステップＳ１３において、キーワードが検出されなかったと判定された場合、効果画像や効果音の付加は行なわれないので、ステップＳ１４乃至ステップＳ１７の処理は行なわれず、処理はステップＳ１８に進む。このとき、効果画像重畳部５１は遅延部４１から動画像を取得して、そのまま送信部２８に供給し、効果音合成部５２は遅延部４３から環境音を取得して、そのまま送信部２８に供給する。

ステップＳ１３においてキーワードが検出されなかったと判定されたか、またはステップＳ１７において効果画像が重畳されると、ステップＳ１８において、送信部２８は、効果画像重畳部５１からの動画像と、効果音合成部５２からの環境音とを送信する。

すなわち、送信部２８は、効果画像重畳部５１からの動画像の画像データと、効果音合成部５２からの環境音の音声データとを多重化して、１つのコンテンツのデータとする。そして、送信部２８は得られたデータを、ネットワークを介して接続されている複数の端末装置に配信したり、コンテンツを配信するサーバにアップロードしたりする。

ステップＳ１９において、携帯型端末装置１１は、動画像に対して効果を付加する処理を終了するか否かを判定する。例えば、ユーザにより携帯型端末装置１１が操作され、動画像の撮影終了が指示された場合、処理を終了すると判定される。

ステップＳ１９において、まだ処理を終了しないと判定された場合、処理はステップＳ１２に戻り、上述した処理が繰り返される。すなわち、新たに撮影，収音された動画像と環境音に対して、画像効果や音声効果を施す処理が行なわれる。

これに対して、ステップＳ１９において、処理を終了すると判定された場合、携帯型端末装置１１の各部は行なっている処理を停止して効果付加処理は終了する。

以上のようにして携帯型端末装置１１は、動画像の撮影時にユーザから発せられるキーワードを収音し、キーワードに対応する効果を、撮影された動画像や収音された環境音に対して付加する。これにより、ユーザは、動画像の撮影時に、所望の効果に対応するキーワードを発するだけで、簡単かつ迅速に効果の付加を行なうことができる。

このように、キーワードを音声入力する場合には、ユーザは、撮影後に動画像を再生して効果の付加箇所や、付加する効果を指定する必要もない。例えば、多くのボタン等に効果を登録し、動画像の再生中に付加したい効果に対応するボタンを押すなど、面倒な操作が不要であるので、効率よく動画像に効果を付加することができる。また、各ボタンに対して効果を登録する場合には、ボタン数により登録可能な効果の数が制限されてしまうが、キーワードに効果を対応付けておけば、より多くの効果を登録しておくことができる。

さらに、携帯型端末装置１１では、動画像の撮影と同時に、動画像に対する効果の付加を行なうことができるので、効果が付加された動画像をリアルタイムで配信することが可能である。

〈第２の実施の形態〉
［配信システムの構成例］
なお、以上においては、動画像を撮影する携帯型端末装置において、動画像に対する効果の付加が行なわれる場合について説明したが、撮影により得られた動画像、環境音、およびキーワードの音声がサーバに送信され、サーバ側で効果の付加が行なわれてもよい。

そのような場合、動画像を撮影する携帯型端末装置と、動画像に効果を付加するサーバとからなる動画像の配信システムは、例えば図７に示すように構成される。なお、図７において、図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図７に示す配信システムは、携帯型端末装置８１およびサーバ８２から構成され、携帯型端末装置８１とサーバ８２とは、インターネットなどからなる通信網を介して相互に接続されている。

携帯型端末装置８１は、撮影部２１、収音部２２、収音部２３、分離部２４、および送信部９１から構成される。送信部９１は、撮影部２１から供給された動画像の画像データと、分離部２４から供給された環境音の音声データおよびユーザにより発話された音声の音声データとを、サーバ８２に送信する。

また、サーバ８２は、受信部１０１、キーワード検出部２５、効果生成部２６、効果付加部２７、および送信部２８から構成される。

なお、サーバ８２の効果生成部２６および効果付加部２７の構成は、図３の携帯型端末装置１１の効果生成部２６および効果付加部２７と同じ構成となっている。すなわち、サーバ８２の効果生成部２６には、遅延部４１、効果画像生成部４２、遅延部４３、および効果音生成部４４が設けられており、サーバ８２の効果付加部２７には、効果画像重畳部５１および効果音合成部５２が設けられている。

受信部１０１は、携帯型端末装置８１から送信されてきた動画像の画像データ、環境音の音声データ、およびユーザにより発話された音声の音声データを受信して、受信したそれらのデータを遅延部４１、遅延部４３、およびキーワード検出部２５に供給する。

［撮影処理と効果付加処理の説明］
次に、図８のフローチャートを参照して、携帯型端末装置８１による撮影処理と、サーバ８２による効果付加処理について説明する。

ステップＳ４１において、撮影部２１は、ユーザの操作に応じて動画像の撮影を開始して、撮影により得られた動画像の画像データを送信部９１に供給する。

また、動画像の撮影が開始されると、収音部２２および収音部２３も周囲の音声の収音を開始し、得られた音声データを分離部２４に供給する。さらに、分離部２４は、収音部２２および収音部２３から供給された音声データに基づいて、環境音の音声データ、およびユーザが発した音声（キーワード）の音声データを抽出し、送信部９１に供給する。

より詳細には、分離部２４は、環境音の音声データに対して、環境音の音声データである旨の特定情報を付加するとともに、ユーザが発した音声の音声データに対して、キーワードの音声データである旨の特定情報を付加する。そして、これらの特定情報が付加された音声データが送信部９１に供給される。

ステップＳ４２において、送信部９１は、撮影された動画像をサーバ８２に送信する。すなわち、送信部９１は、撮影部２１から供給された動画像の画像データと、分離部２４から供給された環境音の音声データおよびユーザにより発話された音声の音声データとを必要に応じてパケット等に格納し、サーバ８２に送信する。

ステップＳ４３において、携帯型端末装置８１は、動画像をサーバ８２に送信する処理を終了するか否かを判定する。例えば、ユーザにより動画像の撮影終了が指示された場合、処理を終了すると判定される。

ステップＳ４３において、処理を終了しないと判定された場合、処理はステップＳ４２に戻り、上述した処理が繰り返される。すなわち、新たに撮影，収音された動画像や環境音等がサーバ８２に送信される。

これに対して、ステップＳ４３において、処理を終了すると判定された場合、送信部９１は、動画像の送信が完了した旨の情報をサーバ８２に送信し、撮影処理は終了する。

また、ステップＳ４２において、画像データと音声データがサーバ８２に送信されると、これに対応して、サーバ８２により効果付加処理が行なわれる。

すなわち、ステップＳ５１において、受信部１０１は、携帯型端末装置８１の送信部９１から送信されてきた動画像の画像データと、環境音の音声データおよびユーザにより発話された音声の音声データとを受信する。

そして、受信部１０１は、受信した動画像の画像データを遅延部４１に供給して保持させるとともに、受信した環境音の音声データを遅延部４３に供給して保持させる。また、受信部１０１は、受信した、ユーザにより発話された音声の音声データをキーワード検出部２５に供給する。

なお、環境音の音声データやユーザにより発話された音声の音声データは、それらの音声データに付加されている特定情報により特定される。

動画像が受信されると、その後、ステップＳ５２乃至ステップＳ５８の処理が行なわれて動画像や環境音に効果が付加されるが、これらの処理は図４のステップＳ１２乃至ステップＳ１８と同様であるので、その説明は省略する。

ステップＳ５９において、サーバ８２は、動画像に対して効果を付加する処理を終了するか否かを判定する。例えば、受信部１０１により、動画像の送信が完了した旨の情報が受信された場合、処理を終了すると判定される。

ステップＳ５９において、まだ処理を終了しないと判定された場合、処理はステップＳ５１に戻り、上述した処理が繰り返される。すなわち、携帯型端末装置８１から送信されてきた新たな動画像が受信され、動画像に対して効果が付加される。

これに対して、ステップＳ５９において、処理を終了すると判定された場合、サーバ８２の各部は行なっている処理を停止して効果付加処理は終了する。なお、効果が付加された動画像が、そのままサーバ８２に記録されたり、携帯型端末装置８１に送信されたりするようにしてもよい。

以上のようにして携帯型端末装置８１は、動画像を撮影するとともに、周囲の音声を収音し、得られた画像データと音声データをサーバ８２に送信する。また、サーバ８２は、携帯型端末装置８１から送信されてきた画像データと音声データを受信し、音声に含まれるキーワードに応じて動画像や環境音に対して効果を付加する。

このように、動画像等をサーバ８２が受信する場合においても、ユーザは、動画像の撮影時に、付加したい効果に対応するキーワードを発するだけで、簡単かつ迅速に効果の付加を行なうことができる。

なお、第２の実施の形態では、画像データと、２つの音声データがサーバ８２に送信されて処理される例について説明したが、携帯型端末装置８１にキーワード検出部２５が設けられ、携帯型端末装置８１側でキーワード検出が行なわれるようにしてもよい。

そのような場合、キーワード検出部２５は、分離部２４で抽出された、ユーザが発した音声の音声データに基づいてキーワード検出を行い、検出されたキーワードを示す情報、例えばキーワードを特定するコードなどを送信部９１に供給する。すると送信部９１は、撮影部２１からの動画像、キーワード検出部２５から供給されたキーワードを示す情報、および分離部２４からの環境音をサーバ８２に送信する。

また、動画像、キーワードを示す情報、および環境音を受信したサーバ８２では、受信した情報により特定されるキーワードに基づいて、動画像や環境音に効果が付加される。

さらに、サーバ８２に分離部２４が設けられるようにし、サーバ８２側で環境音とユーザが発話した音声との分離が行なわれるようにしてもよい。

そのような場合、携帯型端末装置８１の送信部９１は、撮影部２１で得られた動画像の画像データ、収音部２２で得られた音声データ、および収音部２３で得られた音声データをサーバ８２に送信する。

このとき、送信部９１は、各音声データに、どの収音部で収音された音声の音声データであるかを特定する特定情報を付加する。例えば、収音部２２で得られた音声データには、環境音収音用の収音部２２を示す特定情報が付加される。これにより、サーバ８２側の分離部２４では、受信部１０１により受信された音声データが、環境音収音用の収音部２２と、キーワード収音用の収音部２３の何れで収音された音声の音声データであるかを特定することが可能となる。

サーバ８２側の分離部２４において、受信部１０１で受信された音声データに基づき音声の分離が行なわれると、分離部２４は、その結果得られた環境音の音声データを遅延部４３に供給するとともに、ユーザが発話した音声の音声データをキーワード検出部２５に供給する。

さらに、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インターフェース３０５が接続されている。入出力インターフェース３０５には、キーボード、マウス、マイクロホン、カメラなどよりなる入力部３０６、ディスプレイ、スピーカなどよりなる出力部３０７、ハードディスクや不揮発性のメモリなどよりなる記録部３０８、ネットワークインターフェースなどよりなる通信部３０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア３１１を駆動するドライブ３１０が接続されている。

以上のように構成されるコンピュータでは、CPU３０１が、例えば、記録部３０８に記録されているプログラムを、入出力インターフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU３０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア３１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インターフェース３０５を介して、記録部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記録部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記録部３０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

さらに、本技術は、以下の構成とすることも可能である。

［１］
動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出するキーワード検出部と、
検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加する効果付加部と
を備える画像処理装置。
［２］
検出された前記キーワードに基づいて効果音を生成する効果音生成部をさらに備え、
前記効果付加部は、前記環境音に前記効果音を合成する
［１］に記載の画像処理装置。
［３］
検出された前記キーワードに基づいて効果画像を生成する効果画像生成部をさらに備え、
前記効果付加部は、前記動画像に前記効果画像を重畳する
［１］または［２］に記載の画像処理装置。
［４］
前記動画像を撮影する撮影部と、
前記環境音を収音する第１の収音部と、
前記ユーザにより発話された音声を収音する第２の収音部と
をさらに備える［１］乃至［３］の何れかに記載の画像処理装置。
［５］
前記動画像、前記環境音、および前記ユーザにより発話された音声を受信する受信部をさらに備える
［１］乃至［３］の何れかに記載の画像処理装置。

１１携帯型端末装置，２１撮影部，２２収音部，２３収音部，２５キーワード検出部，２６効果生成部，２７効果付加部，２８送信部，４２効果画像生成部，４４効果音生成部，５１効果画像重畳部，５２効果音合成部，８２サーバ，１０１受信部

Claims

動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出するキーワード検出部と、
検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加する効果付加部と
を備える画像処理装置。
検出された前記キーワードに基づいて効果音を生成する効果音生成部をさらに備え、
前記効果付加部は、前記環境音に前記効果音を合成する
請求項１に記載の画像処理装置。
検出された前記キーワードに基づいて効果画像を生成する効果画像生成部をさらに備え、
前記効果付加部は、前記動画像に前記効果画像を重畳する
請求項２に記載の画像処理装置。
前記動画像を撮影する撮影部と、
前記環境音を収音する第１の収音部と、
前記ユーザにより発話された音声を収音する第２の収音部と
をさらに備える請求項３に記載の画像処理装置。
前記動画像、前記環境音、および前記ユーザにより発話された音声を受信する受信部をさらに備える
請求項３に記載の画像処理装置。
動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出するキーワード検出部と、
検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加する効果付加部と
を備える画像処理装置の画像処理方法であって、
前記キーワード検出部が前記キーワードを検出し、
前記効果付加部が前記動画像または前記環境音に効果を付加する
ステップを含む画像処理方法。
動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出し、
検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加する
ステップを含む処理をコンピュータに実行させるプログラム。