JP2013042356A - 画像処理装置および方法、並びにプログラム - Google Patents

画像処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2013042356A
JP2013042356A JP2011177831A JP2011177831A JP2013042356A JP 2013042356 A JP2013042356 A JP 2013042356A JP 2011177831 A JP2011177831 A JP 2011177831A JP 2011177831 A JP2011177831 A JP 2011177831A JP 2013042356 A JP2013042356 A JP 2013042356A
Authority
JP
Japan
Prior art keywords
sound
effect
unit
moving image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2011177831A
Other languages
English (en)
Inventor
Nobuyuki Kihara
信之 木原
Yohei Sakuraba
洋平 櫻庭
Ken Yamaguchi
健 山口
Yasuhiko Kato
靖彦 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011177831A priority Critical patent/JP2013042356A/ja
Priority to US13/823,177 priority patent/US20140178049A1/en
Priority to CN201280003268XA priority patent/CN103155536A/zh
Priority to PCT/JP2012/069614 priority patent/WO2013024704A1/ja
Publication of JP2013042356A publication Critical patent/JP2013042356A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/74Circuits for processing colour signals for obtaining special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B31/00Associated working of cameras or projectors with sound-recording or sound-reproducing means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Studio Devices (AREA)

Abstract

【課題】動画像に対してより簡単に効果を付加することができるようにする。
【解決手段】携帯型端末装置では、動画像の撮影時に、周囲の環境音と、ユーザにより発話された音声とが異なる収音部により収音される。キーワード検出部は、ユーザにより発話された音声から予め定められたキーワードを検出し、効果生成部は、検出されたキーワードに対応付けられた効果画像と効果音を生成する。そして、効果付加部は、撮影された動画像に生成された効果画像を重畳するとともに、環境音に生成された効果音を合成することで、動画像に画像効果および音声効果を施す。携帯型端末装置によれば、動画像の撮影を行ないながらキーワードを発話するだけで、簡単に動画像に所望の効果を付加することができる。本発明は、携帯電話機に適用することができる。
【選択図】図3

Description

本技術は画像処理装置および方法、並びにプログラムに関し、特に、動画像に対してより簡単に効果を付加することができるようにした画像処理装置および方法、並びにプログラムに関する。
従来、動画像を撮影可能な機器として、携帯電話機やカムコーダ、デジタルカメラなどが知られている。例えば、動画像を撮影することのできる携帯電話機として、2つのマイクロホンにより収音された音声のうち、より音声レベルの高い音声を、動画像に付随する音声として動画像の撮影を行なうものが提案されている(例えば、特許文献1参照)。
特開2004−201015号公報
ところで、動画像には効果音などの効果が付加されることがあるが、動画像に対する効果の付加は、通常、動画像の撮影後、例えば動画像の編集時に行なわれることが多い。
しかしながら、このような動画像への効果の付加を行なう作業は面倒であった。例えば、撮影後に効果を付加しようとすると、ユーザは動画像を再生させながら効果を付加するシーンを選択するとともに、付加しようとする効果を指定するなどの操作が必要であった。
また、近年の映像配信スタイルの変化により、撮影した動画像をリアルタイムで配信するという用途も増えてきている。そのため、撮影した動画像に対して、簡単かつ迅速に効果を付加するための技術が求められている。
本技術は、このような状況に鑑みてなされたものであり、動画像に対してより簡単に効果を付加することができるようにするものである。
本技術の一側面の画像処理装置は、動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出するキーワード検出部と、検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加する効果付加部とを備える。
画像処理装置には、検出された前記キーワードに基づいて効果音を生成する効果音生成部をさらに設け、前記効果付加部には、前記環境音に前記効果音を合成させることができる。
画像処理装置には、検出された前記キーワードに基づいて効果画像を生成する効果画像生成部をさらに設け、前記効果付加部には、前記動画像に前記効果画像を重畳させることができる。
画像処理装置には、前記動画像を撮影する撮影部と、前記環境音を収音する第1の収音部と、前記ユーザにより発話された音声を収音する第2の収音部とをさらに設けることができる。
画像処理装置には、前記動画像、前記環境音、および前記ユーザにより発話された音声を受信する受信部をさらに設けることができる。
本技術の一側面の画像処理方法またはプログラムは、動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出し、検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加するステップを含む。
本技術の一側面においては、動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードが検出され、検出された前記キーワードに対して定められた効果が、前記動画像または前記環境音に対して付加される。
本技術の一側面によれば、動画像に対してより簡単に効果を付加することができる。
本技術の概要を説明するための図である。 動画像に対する効果の付加について説明する図である。 携帯型端末装置の構成例を示す図である。 効果付加処理について説明するフローチャートである。 効果音対応テーブルの一例を示す図である。 効果画像対応テーブルの一例を示す図である。 配信システムの構成例を示す図である。 撮影処理と効果付加処理について説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
[本技術の概要]
本技術は、例えば図1に示すように、携帯電話機やカムコーダ、デジタルカメラなどからなる携帯型端末装置11が撮影する動画像に対して、音声効果や画像効果を施すものである。
図1の例では、携帯型端末装置11を操作するユーザ12は、矢印A11に示すように水泳競技を行なっている選手を被写体として、動画像を撮影する。すなわち、携帯型端末装置11は、ユーザ12の操作に応じて被写体の動画像(映像)を撮影するとともに、周囲の音声(以下、環境音と称する)を動画像に付随する音声として収音する。
また、動画像の撮影時において、ユーザ12は動画像と環境音からなるコンテンツに対して効果を付加したいときには、付加しようとする効果に対して予め定められた単語やフレーズ等(以下、キーワードと称する)を発話し、キーワードを音声入力する。
このようにしてユーザ12により発せられたキーワードは、携帯型端末装置11により収音される。なお、ユーザ12が発するキーワードと、動画像に付随する環境音とは、互いに異なる収音部により収音されるようになされている。例えば、環境音を収音する収音部と、キーワードを収音する収音部とは、携帯型端末装置11の互いに対向する面に設けられている。
携帯型端末装置11は、動画像の撮影中に、キーワード検出用の収音部で得られた音声からキーワードが検出されると、そのキーワードにより特定される画像効果や音声効果を撮影により得られた動画像や環境音に対して付加する。
具体的には、例えば水泳競技の開始時の様子を撮影したときに、図2に示すように環境音として、音声M11「Take your mark」、音声M12「ピッ」、音声M13「ちゃぽん」、および音声M14「バシャバシャバシャバシャ」が収音されたとする。
なお、図2において、横方向は時間方向を示しており、時間方向の各位置には各時刻の環境音、キーワード、効果音、および効果付加後の環境音が示されている。
例えば、音声M11および音声M12は競技を開始する旨の音声と笛の音であり、音声M13および音声M14は選手がプールに飛び込んだときの音、および選手が泳ぎ始めたときの音である。また、図2の例では、競技開始の笛の音声M12の収音直後に、ユーザにより発せられたキーワードK11「ビヨーン」が収音され、選手が入水したときの音声M13の収音とほぼ同時に、ユーザにより発せられたキーワードK12「ザッブーン」が収音されている。
さらに、キーワードK11に対して、被写体が飛び上がる様子を想起させる効果音E11「ビヨーン」が予め対応付けられており、キーワードK12に対して、水しぶきが上がる様子を想起させる効果音E12「ザッブーン」が予め対応付けられているとする。
そのような場合、携帯型端末装置11は、収音された音声M11乃至音声M14からなる環境音に対して、キーワードK11およびキーワードK12のそれぞれが入力されたタイミングで効果音E11および効果音E12を合成し、効果付加後の環境音とする。したがって、最終的に得られた効果付加後の環境音の再生時には、音声M11、音声M12、効果音E11、音声M13および効果音E12、並びに音声M14が順番に再生されることになる。
なお、キーワードに対して、画像効果を施すための画像(以下、効果画像と称する)が予め対応付けられている場合には、撮影により得られた動画像に対して、検出されたキーワードに対応付けられている効果画像が合成される。
[携帯型端末装置の構成例]
次に、撮影された動画像に対して効果を施す携帯型端末装置11の具体的な構成について説明する。図3は、携帯型端末装置11の構成例を示す図である。
携帯型端末装置11は、撮影部21、収音部22、収音部23、分離部24、キーワード検出部25、効果生成部26、効果付加部27、および送信部28から構成される。
撮影部21は、ユーザの操作に応じて、携帯型端末装置11の周囲の被写体を撮影し、その結果得られた動画像の画像データを効果生成部26に供給する。収音部22は、例えばマイクロホンなどからなり、動画像の撮影時に携帯型端末装置11の周囲の音声を環境音として収音し、その結果得られた音声データを分離部24に供給する。
収音部23は、例えばマイクロホンなどからなり、動画像の撮影時に携帯型端末装置11を操作するユーザにより発せられた音声(キーワード)を収音し、その結果得られた音声データを分離部24に供給する。
なお、収音部22と収音部23は、例えば携帯型端末装置11の互いに異なる面に設けられているが、収音部22には環境音だけでなく、ユーザが発話した音声も到達し、収音部23にはユーザの発話した音声だけでなく、環境音も到達する。したがって、より詳細には、収音部22で得られた音声には、環境音だけでなく、ユーザが発したキーワードの音声もわずかに含まれており、同様に収音部23で得られた音声には、キーワードの音声だけでなく、環境音もわずかに含まれている。
分離部24は、収音部22から供給された音声データと、収音部23から供給された音声データとに基づいて、環境音と、ユーザが発した音声とを分離する。
すなわち、分離部24は、収音部23からの音声データを用いて、収音部22からの音声データから、環境音の音声データを抽出し、環境音の音声データを効果生成部26に供給する。また、分離部24は、収音部22からの音声データを用いて、収音部23からの音声データから、ユーザが発した音声の音声データを抽出し、ユーザが発した音声の音声データをキーワード検出部25に供給する。
キーワード検出部25は、分離部24から供給された音声データに基づく音声からキーワードを検出し、その検出結果を効果生成部26に供給する。
効果生成部26は、撮影部21からの動画像の画像データと、分離部24からの環境音の音声データを効果付加部27に供給するとともに、キーワード検出部25からのキーワードの検出結果に基づいて動画像に付加する効果を生成し、効果付加部27に供給する。
効果生成部26は、遅延部41、効果画像生成部42、遅延部43、および効果音生成部44を備えている。
遅延部41は、撮影部21から供給された動画像の画像データを一時的に保持して遅延させ、効果付加部27に供給する。効果画像生成部42は、キーワード検出部25から供給された検出結果に基づいて、画像効果を施すための効果画像の画像データを生成し、効果付加部27に供給する。
遅延部43は、分離部24から供給された環境音の音声データを一時的に保持して遅延させ、効果付加部27に供給する。効果音生成部44は、キーワード検出部25から供給された検出結果に基づいて、音声効果を施すための効果音の音声データを生成し、効果付加部27に供給する。
効果付加部27は、効果生成部26から供給された動画像および環境音と、効果画像および効果音とに基づいて、動画像および環境音に効果を付加し、送信部28に供給する。効果付加部27は、効果画像重畳部51および効果音合成部52を備えている。
効果画像重畳部51は、遅延部41から供給された動画像の画像データに、効果画像生成部42から供給された効果画像の画像データを重畳し、送信部28に供給する。効果音合成部52は、遅延部43から供給された環境音の音声データに、効果音生成部44から供給された効果音の音声データを合成して送信部28に供給する。
送信部28は、効果画像重畳部51から供給された画像データと、効果音合成部52から供給された音声データとを、映像と音声からなる1つのコンテンツとして、外部の装置に送信する。
[効果付加処理の説明]
ところで、ユーザが携帯型端末装置11を操作して、動画像の撮影開始を指示すると、携帯型端末装置11は、動画像を撮影するとともに、ユーザから発せられたキーワードに応じて撮影により得られた動画像に効果を付加する効果付加処理を行う。以下、図4のフローチャートを参照して、携帯型端末装置11による効果付加処理について説明する。
ステップS11において、撮影部21は動画像の撮影を開始し、撮影により得られた画像データを遅延部41に供給して保持させる。
また、動画像の撮影が開始されると、収音部22および収音部23も周囲の音声の収音を開始し、得られた音声データを分離部24に供給する。すなわち、収音部22は動画像に付随する音声として環境音を収音し、収音部23はユーザにより発話されたキーワード(音声)を収音する。
さらに、分離部24は、音声の音圧差などを利用して、収音部23からの音声データに基づき、収音部22からの音声データからユーザが発話した音声(キーワード)の成分を除去し、その結果得られた環境音の音声データを遅延部43に供給して保持させる。同様に、分離部24は、収音部22からの音声データを用いて、収音部23からの音声データから環境音の成分を除去し、その結果得られたユーザが発した音声(キーワード)の音声データをキーワード検出部25に供給する。これらの処理により、環境音とキーワードが分離される。
ステップS12において、キーワード検出部25は、分離部24から供給された音声データに対して音声認識処理等を行うことで、ユーザが発話した音声からキーワードを検出する。例えば、図2に示したキーワードK11やキーワードK12など、予め定められたキーワードが、ユーザの発話音声から検出される。
ステップS13において、キーワード検出部25は、キーワードが検出されたか否かを判定する。ステップS13において、キーワードが検出されたと判定された場合、キーワード検出部25は、検出されたキーワードを特定する情報を効果画像生成部42および効果音生成部44に供給し、処理はステップS14に進む。
ステップS14において、効果音生成部44は、キーワード検出部25から供給された情報に基づいて効果音を生成し、効果音合成部52に供給する。
例えば、効果音生成部44は図5に示すように、予め定められたキーワードと、そのキーワードにより特定される効果音とが対応付けられた効果音対応テーブルを記録している。図5の例では、キーワード「ビヨーン」に対して効果音「効果音A」が対応付けられており、キーワード「ザッブーン」に対して効果音「効果音B」が対応付けられている。
効果音生成部44は、効果音対応テーブルを参照することで、キーワード検出部25から供給された情報により示されるキーワードに対応する効果音を特定し、予め記録している複数の効果音のうち、特定された効果音を読み出して効果音合成部52に供給する。したがって、例えばキーワード検出部25でキーワード「ビヨーン」が検出された場合、効果音生成部44は、「ビヨーン」に対応する「効果音A」の音声データを効果音合成部52に供給する。
ステップS15において、効果画像生成部42は、キーワード検出部25から供給された情報に基づいて効果画像を生成し、効果画像重畳部51に供給する。
例えば、効果画像生成部42は図6に示すように、予め定められたキーワードと、そのキーワードにより特定される効果画像とが対応付けられた効果画像対応テーブルを記録している。
図6の例では、キーワード「ビヨーン」に対して効果画像「効果画像A」が対応付けられており、キーワード「ザッブーン」に対して効果画像「効果画像B」が対応付けられている。例えば、これらの効果画像は、キーワードを示す文字を含む画像や、キーワードに関連するアニメーション画像などとされる。
効果画像生成部42は、効果画像対応テーブルを参照することで、キーワード検出部25から供給された情報により示されるキーワードに対応する効果画像を特定し、予め記録している複数の効果画像のうち、特定された効果画像を読み出して効果画像重畳部51に供給する。
なお、効果音生成部44と効果画像生成部42において、キーワードにより特定される効果音と効果画像が読み出される場合を例として説明したが、効果音や効果画像が、検出されたキーワードと、予め記録されているデータとに基づいて生成されるようにしてもよい。
また、各キーワードに対して、効果音と効果画像の両方が対応付けられているようにしてもよいし、効果音と効果画像の何れか一方のみが対応付けられているようにしてもよい。例えば、所定のキーワードに対して、効果音のみが対応付けられている場合には、そのキーワードが検出されても、効果画像生成部42では効果画像の生成が行なわれず、動画像と環境音のうち、環境音に対してのみ効果が施されることになる。
図4のフローチャートの説明に戻り、ステップS16において、効果音合成部52は、遅延部43から環境音の音声データを取得して、取得した音声データと、効果音生成部44から供給された効果音の音声データとを合成して送信部28に供給する。
このとき、効果音合成部52は、効果音合成後の環境音の再生時において、動画像の撮影時にユーザからキーワードが発せられたタイミング(再生時刻)で効果音が再生されるように、環境音の音声データと効果音の音声データとを同期させながら合成処理を行なう。このような合成処理により、環境音と効果音が再生される音声データが得られる。つまり、動画像の撮影時における周囲の音声のうちの、ユーザにより発せられたキーワードが効果音に置き換えられた音声が得られることになる。
ステップS17において、効果画像重畳部51は、遅延部41から動画像の画像データを取得して、取得した画像データに効果画像生成部42から供給された効果画像の画像データを重畳し、送信部28に供給する。
このとき、効果画像重畳部51は、効果画像合成後の動画像の再生時において、動画像の撮影時にユーザからキーワードが発せられたタイミングで効果画像が表示されるように、動画像の画像データと効果画像の画像データとを同期させながら重畳処理を行なう。このような重畳処理により、撮影された被写体とともに、キーワードを示す文字「ビヨーン」などの効果画像が表示される動画像の画像データが得られる。
なお、撮影された動画像に対する画像効果は効果画像の重畳に限らず、動画像に対するフェード効果やフラッシュ効果など、どのようなものであってもよい。例えば、所定のキーワードに対し、フェード効果が画像効果として対応付けられている場合には、効果画像生成部42は、動画像にフェード効果を施す旨の情報を効果画像重畳部51に供給する。すると、効果画像重畳部51は、効果画像生成部42から供給された情報に基づいて、遅延部41からの動画像にフェード効果を施す画像処理を行なう。
以上のようにして、撮影された動画像と環境音に効果が施されると、処理はステップS17からステップS18へと進む。
また、ステップS13において、キーワードが検出されなかったと判定された場合、効果画像や効果音の付加は行なわれないので、ステップS14乃至ステップS17の処理は行なわれず、処理はステップS18に進む。このとき、効果画像重畳部51は遅延部41から動画像を取得して、そのまま送信部28に供給し、効果音合成部52は遅延部43から環境音を取得して、そのまま送信部28に供給する。
ステップS13においてキーワードが検出されなかったと判定されたか、またはステップS17において効果画像が重畳されると、ステップS18において、送信部28は、効果画像重畳部51からの動画像と、効果音合成部52からの環境音とを送信する。
すなわち、送信部28は、効果画像重畳部51からの動画像の画像データと、効果音合成部52からの環境音の音声データとを多重化して、1つのコンテンツのデータとする。そして、送信部28は得られたデータを、ネットワークを介して接続されている複数の端末装置に配信したり、コンテンツを配信するサーバにアップロードしたりする。
ステップS19において、携帯型端末装置11は、動画像に対して効果を付加する処理を終了するか否かを判定する。例えば、ユーザにより携帯型端末装置11が操作され、動画像の撮影終了が指示された場合、処理を終了すると判定される。
ステップS19において、まだ処理を終了しないと判定された場合、処理はステップS12に戻り、上述した処理が繰り返される。すなわち、新たに撮影,収音された動画像と環境音に対して、画像効果や音声効果を施す処理が行なわれる。
これに対して、ステップS19において、処理を終了すると判定された場合、携帯型端末装置11の各部は行なっている処理を停止して効果付加処理は終了する。
以上のようにして携帯型端末装置11は、動画像の撮影時にユーザから発せられるキーワードを収音し、キーワードに対応する効果を、撮影された動画像や収音された環境音に対して付加する。これにより、ユーザは、動画像の撮影時に、所望の効果に対応するキーワードを発するだけで、簡単かつ迅速に効果の付加を行なうことができる。
このように、キーワードを音声入力する場合には、ユーザは、撮影後に動画像を再生して効果の付加箇所や、付加する効果を指定する必要もない。例えば、多くのボタン等に効果を登録し、動画像の再生中に付加したい効果に対応するボタンを押すなど、面倒な操作が不要であるので、効率よく動画像に効果を付加することができる。また、各ボタンに対して効果を登録する場合には、ボタン数により登録可能な効果の数が制限されてしまうが、キーワードに効果を対応付けておけば、より多くの効果を登録しておくことができる。
さらに、携帯型端末装置11では、動画像の撮影と同時に、動画像に対する効果の付加を行なうことができるので、効果が付加された動画像をリアルタイムで配信することが可能である。
〈第2の実施の形態〉
[配信システムの構成例]
なお、以上においては、動画像を撮影する携帯型端末装置において、動画像に対する効果の付加が行なわれる場合について説明したが、撮影により得られた動画像、環境音、およびキーワードの音声がサーバに送信され、サーバ側で効果の付加が行なわれてもよい。
そのような場合、動画像を撮影する携帯型端末装置と、動画像に効果を付加するサーバとからなる動画像の配信システムは、例えば図7に示すように構成される。なお、図7において、図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図7に示す配信システムは、携帯型端末装置81およびサーバ82から構成され、携帯型端末装置81とサーバ82とは、インターネットなどからなる通信網を介して相互に接続されている。
携帯型端末装置81は、撮影部21、収音部22、収音部23、分離部24、および送信部91から構成される。送信部91は、撮影部21から供給された動画像の画像データと、分離部24から供給された環境音の音声データおよびユーザにより発話された音声の音声データとを、サーバ82に送信する。
また、サーバ82は、受信部101、キーワード検出部25、効果生成部26、効果付加部27、および送信部28から構成される。
なお、サーバ82の効果生成部26および効果付加部27の構成は、図3の携帯型端末装置11の効果生成部26および効果付加部27と同じ構成となっている。すなわち、サーバ82の効果生成部26には、遅延部41、効果画像生成部42、遅延部43、および効果音生成部44が設けられており、サーバ82の効果付加部27には、効果画像重畳部51および効果音合成部52が設けられている。
受信部101は、携帯型端末装置81から送信されてきた動画像の画像データ、環境音の音声データ、およびユーザにより発話された音声の音声データを受信して、受信したそれらのデータを遅延部41、遅延部43、およびキーワード検出部25に供給する。
[撮影処理と効果付加処理の説明]
次に、図8のフローチャートを参照して、携帯型端末装置81による撮影処理と、サーバ82による効果付加処理について説明する。
ステップS41において、撮影部21は、ユーザの操作に応じて動画像の撮影を開始して、撮影により得られた動画像の画像データを送信部91に供給する。
また、動画像の撮影が開始されると、収音部22および収音部23も周囲の音声の収音を開始し、得られた音声データを分離部24に供給する。さらに、分離部24は、収音部22および収音部23から供給された音声データに基づいて、環境音の音声データ、およびユーザが発した音声(キーワード)の音声データを抽出し、送信部91に供給する。
より詳細には、分離部24は、環境音の音声データに対して、環境音の音声データである旨の特定情報を付加するとともに、ユーザが発した音声の音声データに対して、キーワードの音声データである旨の特定情報を付加する。そして、これらの特定情報が付加された音声データが送信部91に供給される。
ステップS42において、送信部91は、撮影された動画像をサーバ82に送信する。すなわち、送信部91は、撮影部21から供給された動画像の画像データと、分離部24から供給された環境音の音声データおよびユーザにより発話された音声の音声データとを必要に応じてパケット等に格納し、サーバ82に送信する。
ステップS43において、携帯型端末装置81は、動画像をサーバ82に送信する処理を終了するか否かを判定する。例えば、ユーザにより動画像の撮影終了が指示された場合、処理を終了すると判定される。
ステップS43において、処理を終了しないと判定された場合、処理はステップS42に戻り、上述した処理が繰り返される。すなわち、新たに撮影,収音された動画像や環境音等がサーバ82に送信される。
これに対して、ステップS43において、処理を終了すると判定された場合、送信部91は、動画像の送信が完了した旨の情報をサーバ82に送信し、撮影処理は終了する。
また、ステップS42において、画像データと音声データがサーバ82に送信されると、これに対応して、サーバ82により効果付加処理が行なわれる。
すなわち、ステップS51において、受信部101は、携帯型端末装置81の送信部91から送信されてきた動画像の画像データと、環境音の音声データおよびユーザにより発話された音声の音声データとを受信する。
そして、受信部101は、受信した動画像の画像データを遅延部41に供給して保持させるとともに、受信した環境音の音声データを遅延部43に供給して保持させる。また、受信部101は、受信した、ユーザにより発話された音声の音声データをキーワード検出部25に供給する。
なお、環境音の音声データやユーザにより発話された音声の音声データは、それらの音声データに付加されている特定情報により特定される。
動画像が受信されると、その後、ステップS52乃至ステップS58の処理が行なわれて動画像や環境音に効果が付加されるが、これらの処理は図4のステップS12乃至ステップS18と同様であるので、その説明は省略する。
ステップS59において、サーバ82は、動画像に対して効果を付加する処理を終了するか否かを判定する。例えば、受信部101により、動画像の送信が完了した旨の情報が受信された場合、処理を終了すると判定される。
ステップS59において、まだ処理を終了しないと判定された場合、処理はステップS51に戻り、上述した処理が繰り返される。すなわち、携帯型端末装置81から送信されてきた新たな動画像が受信され、動画像に対して効果が付加される。
これに対して、ステップS59において、処理を終了すると判定された場合、サーバ82の各部は行なっている処理を停止して効果付加処理は終了する。なお、効果が付加された動画像が、そのままサーバ82に記録されたり、携帯型端末装置81に送信されたりするようにしてもよい。
以上のようにして携帯型端末装置81は、動画像を撮影するとともに、周囲の音声を収音し、得られた画像データと音声データをサーバ82に送信する。また、サーバ82は、携帯型端末装置81から送信されてきた画像データと音声データを受信し、音声に含まれるキーワードに応じて動画像や環境音に対して効果を付加する。
このように、動画像等をサーバ82が受信する場合においても、ユーザは、動画像の撮影時に、付加したい効果に対応するキーワードを発するだけで、簡単かつ迅速に効果の付加を行なうことができる。
なお、第2の実施の形態では、画像データと、2つの音声データがサーバ82に送信されて処理される例について説明したが、携帯型端末装置81にキーワード検出部25が設けられ、携帯型端末装置81側でキーワード検出が行なわれるようにしてもよい。
そのような場合、キーワード検出部25は、分離部24で抽出された、ユーザが発した音声の音声データに基づいてキーワード検出を行い、検出されたキーワードを示す情報、例えばキーワードを特定するコードなどを送信部91に供給する。すると送信部91は、撮影部21からの動画像、キーワード検出部25から供給されたキーワードを示す情報、および分離部24からの環境音をサーバ82に送信する。
また、動画像、キーワードを示す情報、および環境音を受信したサーバ82では、受信した情報により特定されるキーワードに基づいて、動画像や環境音に効果が付加される。
さらに、サーバ82に分離部24が設けられるようにし、サーバ82側で環境音とユーザが発話した音声との分離が行なわれるようにしてもよい。
そのような場合、携帯型端末装置81の送信部91は、撮影部21で得られた動画像の画像データ、収音部22で得られた音声データ、および収音部23で得られた音声データをサーバ82に送信する。
このとき、送信部91は、各音声データに、どの収音部で収音された音声の音声データであるかを特定する特定情報を付加する。例えば、収音部22で得られた音声データには、環境音収音用の収音部22を示す特定情報が付加される。これにより、サーバ82側の分離部24では、受信部101により受信された音声データが、環境音収音用の収音部22と、キーワード収音用の収音部23の何れで収音された音声の音声データであるかを特定することが可能となる。
サーバ82側の分離部24において、受信部101で受信された音声データに基づき音声の分離が行なわれると、分離部24は、その結果得られた環境音の音声データを遅延部43に供給するとともに、ユーザが発話した音声の音声データをキーワード検出部25に供給する。
さらに、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図9は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
バス304には、さらに、入出力インターフェース305が接続されている。入出力インターフェース305には、キーボード、マウス、マイクロホン、カメラなどよりなる入力部306、ディスプレイ、スピーカなどよりなる出力部307、ハードディスクや不揮発性のメモリなどよりなる記録部308、ネットワークインターフェースなどよりなる通信部309、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア311を駆動するドライブ310が接続されている。
以上のように構成されるコンピュータでは、CPU301が、例えば、記録部308に記録されているプログラムを、入出力インターフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU301)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア311に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インターフェース305を介して、記録部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記録部308にインストールすることができる。その他、プログラムは、ROM302や記録部308に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
さらに、本技術は、以下の構成とすることも可能である。
[1]
動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出するキーワード検出部と、
検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加する効果付加部と
を備える画像処理装置。
[2]
検出された前記キーワードに基づいて効果音を生成する効果音生成部をさらに備え、
前記効果付加部は、前記環境音に前記効果音を合成する
[1]に記載の画像処理装置。
[3]
検出された前記キーワードに基づいて効果画像を生成する効果画像生成部をさらに備え、
前記効果付加部は、前記動画像に前記効果画像を重畳する
[1]または[2]に記載の画像処理装置。
[4]
前記動画像を撮影する撮影部と、
前記環境音を収音する第1の収音部と、
前記ユーザにより発話された音声を収音する第2の収音部と
をさらに備える[1]乃至[3]の何れかに記載の画像処理装置。
[5]
前記動画像、前記環境音、および前記ユーザにより発話された音声を受信する受信部をさらに備える
[1]乃至[3]の何れかに記載の画像処理装置。
11 携帯型端末装置, 21 撮影部, 22 収音部, 23 収音部, 25 キーワード検出部, 26 効果生成部, 27 効果付加部, 28 送信部, 42 効果画像生成部, 44 効果音生成部, 51 効果画像重畳部, 52 効果音合成部, 82 サーバ, 101 受信部

Claims (7)

  1. 動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出するキーワード検出部と、
    検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加する効果付加部と
    を備える画像処理装置。
  2. 検出された前記キーワードに基づいて効果音を生成する効果音生成部をさらに備え、
    前記効果付加部は、前記環境音に前記効果音を合成する
    請求項1に記載の画像処理装置。
  3. 検出された前記キーワードに基づいて効果画像を生成する効果画像生成部をさらに備え、
    前記効果付加部は、前記動画像に前記効果画像を重畳する
    請求項2に記載の画像処理装置。
  4. 前記動画像を撮影する撮影部と、
    前記環境音を収音する第1の収音部と、
    前記ユーザにより発話された音声を収音する第2の収音部と
    をさらに備える請求項3に記載の画像処理装置。
  5. 前記動画像、前記環境音、および前記ユーザにより発話された音声を受信する受信部をさらに備える
    請求項3に記載の画像処理装置。
  6. 動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出するキーワード検出部と、
    検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加する効果付加部と
    を備える画像処理装置の画像処理方法であって、
    前記キーワード検出部が前記キーワードを検出し、
    前記効果付加部が前記動画像または前記環境音に効果を付加する
    ステップを含む画像処理方法。
  7. 動画像の撮影時に、前記動画像に付随する音声である環境音を収音する収音部とは異なる収音部により収音された、ユーザにより発話された音声から、予め定められたキーワードを検出し、
    検出された前記キーワードに対して定められた効果を、前記動画像または前記環境音に対して付加する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2011177831A 2011-08-16 2011-08-16 画像処理装置および方法、並びにプログラム Abandoned JP2013042356A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2011177831A JP2013042356A (ja) 2011-08-16 2011-08-16 画像処理装置および方法、並びにプログラム
US13/823,177 US20140178049A1 (en) 2011-08-16 2012-08-01 Image processing apparatus, image processing method, and program
CN201280003268XA CN103155536A (zh) 2011-08-16 2012-08-01 图像处理装置、图像处理方法和程序
PCT/JP2012/069614 WO2013024704A1 (ja) 2011-08-16 2012-08-01 画像処理装置および方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011177831A JP2013042356A (ja) 2011-08-16 2011-08-16 画像処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2013042356A true JP2013042356A (ja) 2013-02-28

Family

ID=47715026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011177831A Abandoned JP2013042356A (ja) 2011-08-16 2011-08-16 画像処理装置および方法、並びにプログラム

Country Status (4)

Country Link
US (1) US20140178049A1 (ja)
JP (1) JP2013042356A (ja)
CN (1) CN103155536A (ja)
WO (1) WO2013024704A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103338330A (zh) * 2013-06-18 2013-10-02 腾讯科技(深圳)有限公司 一种图像处理方法、装置和终端
CN106664362B (zh) * 2014-07-02 2019-08-27 索尼公司 图像处理装置、图像处理方法和计算机可读介质
US10123090B2 (en) * 2016-08-24 2018-11-06 International Business Machines Corporation Visually representing speech and motion
CN106331503A (zh) * 2016-09-28 2017-01-11 维沃移动通信有限公司 一种动态照片的生成方法及移动终端
US20200075000A1 (en) * 2018-08-31 2020-03-05 Halloo Incorporated System and method for broadcasting from a group of speakers to a group of listeners
EP3915005A4 (en) * 2019-01-25 2022-08-31 Microsoft Technology Licensing, LLC AUTOMATICALLY ADD SOUND EFFECTS IN AUDIO FILES
US10999608B2 (en) * 2019-03-29 2021-05-04 Danxiao Information Technology Ltd. Interactive online entertainment system and method for adding face effects to live video
CN111770375B (zh) * 2020-06-05 2022-08-23 百度在线网络技术(北京)有限公司 视频处理方法、装置、电子设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2687712B2 (ja) * 1990-07-26 1997-12-08 三菱電機株式会社 一体型ビデオカメラ
JPH06324691A (ja) * 1993-05-14 1994-11-25 Sharp Corp マイクロホン付音響機器
JP2001036789A (ja) * 1999-07-22 2001-02-09 Fuji Photo Film Co Ltd 画像管理装置、撮像装置、撮像システム及び処理装置
JP2004193809A (ja) * 2002-12-10 2004-07-08 Matsushita Electric Ind Co Ltd 通信装置
JP3808432B2 (ja) 2002-12-18 2006-08-09 Necアクセステクニカ株式会社 複数マイク付き携帯電話機および携帯電話機の音声取込み方法
JP2004289254A (ja) * 2003-03-19 2004-10-14 Matsushita Electric Ind Co Ltd テレビ電話端末
US20060092291A1 (en) * 2004-10-28 2006-05-04 Bodie Jeffrey C Digital imaging system
US7644000B1 (en) * 2005-12-29 2010-01-05 Tellme Networks, Inc. Adding audio effects to spoken utterance
JP2007251581A (ja) * 2006-03-16 2007-09-27 Megachips Lsi Solutions Inc 音声送信端末および音声再生端末
JP4919993B2 (ja) * 2008-03-12 2012-04-18 株式会社日立製作所 情報記録装置
JP5117280B2 (ja) * 2008-05-22 2013-01-16 富士フイルム株式会社 撮像装置、撮像方法、再生装置および再生方法
JP2010124039A (ja) * 2008-11-17 2010-06-03 Hoya Corp 撮像装置
JP2010219692A (ja) * 2009-03-13 2010-09-30 Olympus Imaging Corp 撮像装置及びカメラ
US8451312B2 (en) * 2010-01-06 2013-05-28 Apple Inc. Automatic video stream selection
CN102231272A (zh) * 2011-01-21 2011-11-02 辜进荣 网络视频音频合成方法及装置

Also Published As

Publication number Publication date
CN103155536A (zh) 2013-06-12
US20140178049A1 (en) 2014-06-26
WO2013024704A1 (ja) 2013-02-21

Similar Documents

Publication Publication Date Title
WO2013024704A1 (ja) 画像処理装置および方法、並びにプログラム
JP6984596B2 (ja) 映像音響処理装置および方法、並びにプログラム
WO2019000721A1 (zh) 视频文件录制方法、音频文件录制方法及移动终端
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
JP2013500544A (ja) 改善された音声/映像の方法及びシステム
JP6882057B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP7428763B2 (ja) 情報取得システム
JP2012100216A (ja) カメラおよび動画撮影プログラム
JP5155092B2 (ja) カメラ、再生装置、および再生方法
JP2010021638A (ja) タグ情報付加装置、タグ情報付加方法及びコンピュータプログラム
WO2013008869A1 (ja) 電子機器及びデータ生成方法
JP2010093603A (ja) カメラ、再生装置、および再生方法
US11184184B2 (en) Computer system, method for assisting in web conference speech, and program
JP2017059121A (ja) 画像管理装置、画像管理方法及びプログラム
JP2019176375A (ja) 動画出力装置、動画出力方法および動画出力プログラム
JP5310682B2 (ja) カラオケ装置
CN111696566B (zh) 语音处理方法、装置和介质
JP2013183280A (ja) 情報処理装置、撮像装置、及びプログラム
JP2012105234A (ja) 字幕生成配信システム、字幕生成配信方法およびプログラム
JP2017164030A (ja) ショーのための情報支援システム
JP4256250B2 (ja) データ記録システム、データ記録装置、データ送信装置、データ記録方法、並びに、記録プログラムおよびそれを記録した記録媒体
JP2008108298A (ja) 再生装置および再生方法、並びにプログラム
CN111696565B (zh) 语音处理方法、装置和介质
JP2013176049A (ja) カメラ、再生装置、および再生方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140723

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20150402