JP4488091B2 - 電子機器、映像コンテンツ編集方法及びプログラム - Google Patents

電子機器、映像コンテンツ編集方法及びプログラム Download PDF

Info

Publication number
JP4488091B2
JP4488091B2 JP2008164652A JP2008164652A JP4488091B2 JP 4488091 B2 JP4488091 B2 JP 4488091B2 JP 2008164652 A JP2008164652 A JP 2008164652A JP 2008164652 A JP2008164652 A JP 2008164652A JP 4488091 B2 JP4488091 B2 JP 4488091B2
Authority
JP
Japan
Prior art keywords
voice
evaluation value
face
audio signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008164652A
Other languages
English (en)
Other versions
JP2010010780A (ja
Inventor
昇 村林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008164652A priority Critical patent/JP4488091B2/ja
Priority to KR1020090033176A priority patent/KR101590186B1/ko
Priority to US12/456,825 priority patent/US8494338B2/en
Priority to CN2009101499726A priority patent/CN101615389B/zh
Publication of JP2010010780A publication Critical patent/JP2010010780A/ja
Application granted granted Critical
Publication of JP4488091B2 publication Critical patent/JP4488091B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

本発明は、映像コンテンツを編集可能な電子機器、当該電子機器における映像コンテンツ編集方法及びそのプログラムに関する。
従来から、カムコーダ等で撮影された映像コンテンツに、BGM(Background Music)や効果音等を付加する編集作業が行われている。例えば、下記特許文献1には、編集対象映像の特徴(記録時間や画像枚数)を抽出し、予め定めたユーザが与える指示に基づいて、編集対象映像に最適な音楽を自動的に生成して編集対象映像に付加する映像信号編集装置が開示されている。
特開2001−202082号公報(段落[0024]、[0031]、図2等)
しかしながら、上記特許文献1に記載のような技術においては、編集対象映像に音楽が付加されることで、元の編集対象映像に記録されている元の音声信号が消去されてしまう。したがって、シーンによっては、音楽を付加するよりもむしろ元の音声信号を残した方が編集対象映像をより印象深いものにすることができる場合があるが、上記特許文献1の技術を用いる場合はそれができないため、ユーザの利便性を欠くこととなる。また、一般的に、編集対象映像のどの区間に音楽を付加し、どの区間を元の音声信号のままにしておくかをユーザが手動で選択して編集することも考えられるが、その作業は非常に煩雑で面倒である。
以上のような事情に鑑み、本発明の目的は、シーンに応じて、元の映像コンテンツ中の音声信号を効果的に残しながら他の音声信号を付加することが可能な電子機器、映像コンテンツ編集方法及びプログラムを提供することにある。
上述の課題を解決するため、本発明の一の形態に係る電子機器は、第1の入力手段と、第2の入力手段と、第1の算出手段と、第2の算出手段と、設定手段と、生成手段とを有する。
上記第1の入力手段は、第1の映像コンテンツを構成する画像信号及び第1の音声信号を入力する。
上記第2の入力手段は、上記第1の音声信号とは異なる第2の音声信号を入力する。
上記第1の算出手段は、上記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出する。
上記第2の算出手段は、上記入力された第1の音声信号から、上記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出する。
上記設定手段は、上記算出された顔評価値及び声評価値を基に、上記画像信号毎に、上記第1の音声信号の重みを示す第1の重み係数及び上記第2の音声信号の重みを示す第2の重み係数を設定する。
上記生成手段は、上記設定された第1及び第2の重み係数を基に、上記第1及び第2の音声信号を混合した第3の音声信号を生成し、当該第3の音声信号及び上記画像信号により構成される第2の映像コンテンツを生成する。
ここで電子機器とは、例えばPC(Personal Computer)、HDD(Hard Disk Drive)/DVD/BD(Blu-ray Disc)等の記録媒体を用いた記録再生装置、デジタルビデオカメラ、携帯型AV機器、携帯電話機、ゲーム機器等の電化製品等である。第1の映像コンテンツとは、例えばカムコーダ等の機器により記録された映像コンテンツや、ネットワークを介して受信された映像コンテンツ等である。第2の音声信号とは、例えばBGMや効果音用の音声信号である。
この構成により、電子機器は、第1の映像コンテンツ中に含まれる顔画像と声とを基に、第1及び第2の音声信号の重みを可変して、第1の映像コンテンツから第2の映像コンテンツを生成することができる。したがって、第1の映像コンテンツに単に別の音声を挿入するような場合に比べて、シーンに応じて、人物の声をそのまま残したり、別の音声を挿入したりすることで、編集効果を高めて、より印象的な第2の映像コンテンツを生成することができる。
上記設定手段は、上記顔評価値が第1の閾値以上であり、かつ、上記声評価値が第2の閾値以上である場合に、上記第1の重み係数を上記第2の重み係数よりも大きい第1の値に設定してもよい。
顔評価値と声評価値とが共に大きい場合には、第1の映像コンテンツに現れる人物が話している可能性が高いと考えられる。したがって、そのような場合には第1の重み係数を第2の重み係数よりも極力大きくして当該人物の声を強調することで、当該人物をより印象付けることができる。ここで、上記第1の値は1に設定されてもよい。
上記設定手段は、上記顔評価値が上記第1の閾値未満であり、かつ、上記声評価値が上記第2の閾値未満である場合に、上記第1の重み係数を上記第2の重み係数よりも小さい第2の値に設定してもよい。
顔評価値と声評価値とが共に小さい場合には、第1の映像コンテンツには人物が現れない可能性が高いと考えられる。したがって、そのような場合には第1の重み係数を第2の重み係数よりも極力小さくして、第2の音声信号を強調することで、第1の映像コンテンツの平凡なシーンをより魅力的なものに編集することができる。ここで、第2の値は0に設定されてもよい。
上記設定手段は、上記顔評価値が上記第1の閾値以上であり、かつ、上記声評価値が上記第2の閾値未満である場合に、上記顔評価値及び上記声評価値に応じて、上記第1の重み係数を上記第2の重み係数よりも大きく設定してもよい。
顔評価値が大きく、声評価値が小さい場合には、第1の映像コンテンツ中に人物の顔が表れているため、声は小さくとも、その人物が何らかの声を発していると考えられる。したがって、そのような場合には、第2の音声信号を付加しつつも、第1の音声信号の重みを大きくすることで、第1の音声信号を強調しながら第2の音声信号の効果を付加することができる。
上記設定手段は、上記顔評価値が上記第1の閾値未満であり、かつ、上記声評価値が上記第2の閾値以上である場合に、上記顔評価値及び上記声評価値に応じて、上記第1の重み係数を上記第2の重み係数よりも小さく設定してもよい。
顔評価値が小さく、声評価値が大きい場合には、第1の映像コンテンツに人物がほとんど映っていないため、人物の声が含まれていても、その声は画像とはあまり関係ない人物の声であると考えられる。したがって、そのような場合には、第1の音声信号を残しつつも、第2の音声信号の重みを大きくすることで、第1の音声信号の効果を残しながら第2の音声信号の効果を高めることができる。
上記電子機器は、特定の人物の顔の特徴を示す顔特徴データを記憶する記憶手段を更に具備してもよい。
この場合、上記第1の算出手段は、上記記憶された顔特徴データを基に、上記特定の人物の顔が表れた顔画像領域を検出可能であってもよい。
これにより、映像コンテンツ中に複数の人物の顔が現れる場合でも、特定の人物の顔を他の人物の顔と区別して検出することができる。したがって、特定の人物に特化して、第1及び第2の音声信号の重み係数設定処理をより効果的に実行することができる。
上記電子機器は、特定の人物の声の特徴を示す声特徴データを記憶する記憶手段を更に具備してもよい。
この場合、上記第2の算出手段は、上記記憶された声特徴データを基に、上記特定の人物の声を検出可能であってもよい。
これにより、映像コンテンツ中に複数の人物の声が含まれる場合でも、特定の人物の声を他の人物の声と区別して検出することができる。したがって、特定の人物に特化して、第1及び第2の音声信号の重み係数設定処理をより効果的に実行することができる。
本発明の別の形態に係る映像コンテンツ編集方法は、第1の映像コンテンツを構成する画像信号及び第1の音声信号を入力すること及び上記第1の音声信号とは異なる第2の音声信号を入力することを含む。
上記入力された画像信号からは、人物の顔が表れた顔画像領域を検出され、当該検出された顔画像領域の確からしさを評価する顔評価値を算出される。
上記入力された第1の音声信号からは、上記人物の声を検出され、当該検出された声の大きさを評価する声評価値を算出される。
上記算出された顔評価値及び声評価値を基に、上記画像信号毎に、上記第1の音声信号の重みを示す第1の重み係数及び上記第2の音声信号の重みを示す第2の重み係数が設定される。
上記設定された第1及び第2の重み係数を基に、上記第1及び第2の音声信号が混合された第3の音声信号が生成され、当該第3の音声信号及び上記画像信号により構成される第2の映像コンテンツが生成される。
この構成により、第1の映像コンテンツに単に別の音声を挿入するような場合に比べて、シーンに応じて、人物の声をそのまま残したり、別の音声を挿入したりすることで、編集効果を高めて、より印象的な第2の映像コンテンツを生成することができる。
本発明のまた別の形態に係るプログラムは、電子機器に、第1の入力ステップと、第2の入力ステップと、第1の算出ステップと、第2の算出ステップと、設定ステップと、生成ステップとを実行させるためのものである。
上記第1の入力ステップは、第1の映像コンテンツを構成する画像信号及び第1の音声信号を入力する。
上記第2の入力ステップは、上記第1の音声信号とは異なる第2の音声信号を入力する。
上記第1の算出ステップは、上記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出する。
上記第2の算出ステップは、上記入力された第1の音声信号から、上記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出する。
上記設定ステップは、上記算出された顔評価値及び声評価値を基に、上記画像信号毎に、上記第1の音声信号の重みを示す第1の重み係数及び上記第2の音声信号の重みを示す第2の重み係数を設定する。
上記生成ステップは、上記設定された第1及び第2の重み係数を基に、上記第1及び第2の音声信号を混合した第3の音声信号を生成し、当該第3の音声信号及び上記画像信号により構成される第2の映像コンテンツを生成する。
以上のように、本発明によれば、シーンに応じて、元の映像コンテンツ中の音声信号を効果的に残しながら他の音声信号を付加することができる。
以下、本発明の実施の形態を図面に基づき説明する。
図1は、本発明の一実施形態に係る記録再生装置の構成を示すブロック図である。
同図に示すように、本実施形態に係る記録再生装置100は、画像信号入力部1及び3、音声信号入力部2及び4、入力画像処理部5、入力音声処理部6、画像特徴検出部7、音声特徴検出部8、記録部9、記録媒体10を有する。記録再生装置100はまた、再生部11、出力画像処理部12、出力音声処理部13、ユーザインタフェース部14、CPU(Central Processing Unit)15及びRAM(Random Access Memory)16を有する。
画像信号入力部1及び3は、各種有線通信用端子や無線通信用ユニットである。有線通信用端子としては、例えばS端子、RCA端子、DVI(Digital Visual Interface)端子、HDMI(High-Definition Multimedia Interface)端子、Ethernet(登録商標)端子等の有線通信用端子、USB(Universal Serial Bus)端子、IEEE 1394端子等が挙げられる。無線通信用ユニットとしては、例えば無線LAN、Bluetooth(登録商標)、無線USB、無線HDMI等の各無線ユニットが挙げられる。しかし、有線通信用端子、無線通信用端子は、これらに限られるものではない。画像信号入力部1及び3は、各種ケーブルや無線ネットワークを介して、映像コンテンツの画像信号を記録再生装置100内に入力し、入力画像処理部5へ供給する。ここで映像コンテンツとは、例えばカムコーダ等で撮影されたコンテンツやインターネット上のコンテンツである。
音声信号入力部2及び4も、各種有線通信用端子や無線通信用ユニットであり、S端子及びDVI端子を除いて上記各端子及び各ユニットとほぼ同様である。音声信号入力部2及び4は、上記各種ケーブルや無線ネットワークを介して、映像コンテンツの音声信号を記録再生装置100内に入力し、入力音声処理部6へ供給する。
また、上記画像信号入力部1及び3、音声信号入力部2及び4は、図示しないアンテナを介して、デジタル放送信号に含まれる画像信号及び音声信号を記録再生装置100内に入力するアンテナ入力端子及びチューナ等であってもよい。
入力画像処理部5は、入力された画像信号に、デジタル変換処理やエンコード処理等の種々の信号処理を施し、デジタル画像信号として画像特徴検出部7及び記録部9へ出力する。
入力音声処理部6は、入力された音声信号に、デジタル変換処理やエンコード処理等の種々の信号処理を施し、デジタル音声信号として音声特徴検出部8及び記録部9へ出力する。
画像特徴検出部7は、入力画像処理部5から供給された画像信号中から、人の顔が表れた顔画像(顔画像の領域)を検出して、当該顔画像領域の確からしさを評価する顔評価値を算出する。
音声特徴検出部8は、入力音声処理部6から供給された音声信号中から、人の声を検出し、当該検出された声の大きさを評価する声評価値を算出する。
記録部9は、入力画像処理部5から供給された画像信号及び入力音声処理部6から供給された音声信号を多重化して、記録媒体10へ記録する。
記録媒体10としては、例えばHDD、フラッシュメモリ等の内蔵型の記録媒体や、光ディスク、メモリカード等の可般性の記録媒体が挙げられる。光ディスクとしては、BD、DVD、CD等が挙げられる。記録媒体10は、種々の映像コンテンツ、各種プログラム及びデータ等を記憶する。記録媒体10が内蔵型の記録媒体である場合、記録媒体10は、OSや、上記顔画像の検出処理、声の検出処理、それら検出処理の学習処理、映像コンテンツの音声編集処理等を実行するための各種プログラム及びデータを記憶する。記録媒体10が可般性の記録媒体である場合、記録再生装置100には、上記各種プログラムやデータを記録するための図示しない内蔵型の記録媒体が別途設けられる。
再生部11は、記録媒体10に記録された多重化された画像信号及び音声信号を読み出して分離し、分離された画像信号及び音声信号をデコードして、画像信号を出力画像処理部12へ、音声信号を出力音声処理部13へ供給する。映像信号及び音声信号の圧縮形式としては、例えばMPEG(Moving Picture Expert Group)−2やMPEG−4等が挙げられる。
出力画像処理部12は、アナログ変換処理やOSD(On Screen Display)処理等の種々の信号処理を施し、当該画像信号を例えば記録再生装置100に接続された液晶ディスプレイ等の外部機器や、記録再生装置100に内蔵された液晶ディスプレイへ出力する。
出力音声処理部13は、アナログ変換処理等の種々の信号処理を施し、当該音声信号を上記外部機器や内蔵液晶ディスプレイへ出力する。
ユーザインタフェース部14は、例えばリモートコントローラの赤外線信号受光部や、操作ボタン、スイッチ、マウス、キーボード等であり、ユーザの操作による各種指令を入力してCPU15へ出力する。
CPU15は、必要に応じてRAM16等に適宜アクセスし、記録再生装置100の各ブロックを統括的に制御する。RAM16は、CPU15の作業用領域等として用いられ、OS(Operating System)やプログラム、処理データ等を一時的に保持する。
外部音声ソース17は、例えばPCや各種AV機器等の外部機器であり、映像コンテンツに挿入するためのBGM(または効果音)の音声信号(以下、BGM音声と称する)を記憶し、各種インタフェースを介してCPU15へ当該音声信号を入力する。しかし、外部音声ソース17は、上記記録媒体10等、記録再生装置100に内蔵または装着された記録媒体であってもよい。
次に、以上のように構成された記録再生装置100の動作について説明する。
本実施形態において、記録再生装置100は、映像コンテンツを編集して、当該映像コンテンツに上記外部音声ソース17に記憶されたBGM音声を挿入することが可能である。このBGM音声の挿入にあたり、記録再生装置100は、上述したように、映像コンテンツの画像信号から顔画像を検出し、音声信号から声を検出して、それに応じてBGM音声の挿入の適否を判断する。このうち顔画像の検出のために、記録再生装置100は、前処理として、学習処理を実行する。以下、この学習処理について説明する。
図2は、顔画像検出のための学習処理について概念的に示した図である。
同図に示すように、記録再生装置100の上記記録媒体10には、様々な人物の顔画像のサンプルを表す顔画像サンプルデータと、非顔画像のサンプルを表す非顔画像サンプルデータとがそれぞれ学習用データとしてデータベース化され記憶されている。
記録再生装置100の画像特徴検出部7は、この顔画像サンプルデータベース及び非顔画像サンプルデータベースに記憶された各サンプル画像データを、特徴フィルターにかけ、個々の顔特徴を抽出し、特徴ベクトル(特徴データ)を検出する。
特徴フィルターは、同図に示すように、例えば画像中の長方形のある部分は検出し、ある部分はマスクするようなフィルターである。この特徴フィルターにより、顔画像サンプルデータからは、顔の目、眉毛、鼻、頬等の位置関係が顔特徴として検出され、非顔画像サンプルデータからは、顔以外の物体の形、その物体の各構成要素の位置関係等が非顔特徴として検出される。特徴フィルターとしては、長方形のフィルター以外にも、例えば円形の特徴を検出する分離度フィルターや、特定方位のエッジにより顔の各パーツの位置関係を検出するGaborフィルター等が用いられても構わない。また、顔特徴の検出には、特徴フィルター以外にも、例えば輝度分布情報や肌色情報等が用いられても構わない。
ここで、画像特徴検出部7は、サンプル画像データからは、顔領域の大きさ及び位置を認識できない。したがって、画像特徴検出部7は、上記特徴フィルターの枠の大きさを変えて特徴フィルターにかけた場合に、最も確からしい検出値が得られたときの特徴フィルターの大きさを、顔領域の大きさと認識して顔特徴の抽出を行う。また、画像特徴検出部7は、サンプル画像データの全ての領域を特徴フィルターでスキャンした場合に、最も確からしい検出値が得られたときの特徴フィルターの位置を、顔領域の位置と認識して顔特徴の抽出を行う。
画像特徴検出部7は、この顔画像サンプルデータ及び非顔画像サンプルデータから抽出された各特徴から、多次元の特徴ベクトルを生成する。そして、画像特徴検出部7は、この特徴ベクトルを、多次元ベクトル空間で表現し、統計的機械学習により判別関数を生成する。生成された判別関数は、例えば記録媒体10等に記憶され、編集対象の映像コンテンツから顔画像を検出する際に用いられる。
また、判別関数を用いた判別分析処理の代わりに、例えばサポートベクターマシン(SMV)、Ada-boost、ニューラルネットワーク等の機械学習的な手法を用いた判別分析処理が実行されてもよい。この場合、判別関数の代わりに、その判別処理を実行する処理モジュールが記録再生装置100に組み込まれる。これは、以下の説明において判別関数が関係する処理についても同様である。
次に、本実施形態において、記録再生装置100が映像コンテンツを編集して映像コンテンツにBGMデータを挿入する処理について説明する。
図3は、記録再生装置100の、映像コンテンツへのBGM挿入処理の流れを示したフローチャートである。
同図に示すように、まず、編集対象の映像コンテンツが、記録媒体10から読み出され、または画像信号入力部1または3及び音声信号入力部2または4から入力される。続いてCPU15は、当該映像コンテンツから、所定区間(所定数の連続フレーム)の画像信号及び音声信号を抽出する(ステップ31)。抽出された所定区間の画像信号は、上記画像特徴検出部7へ供給され、所定区間の音声信号は、上記音声特徴検出部8へ供給される。
続いて、画像特徴検出部7は、上記判別関数を用いて、上記所定区間の画像信号から、顔画像領域を検出する(ステップ32)。図4は、顔画像領域の検出処理について概念的に示した図である。同図に示すように、画像特徴検出部7は、所定区間の画像信号を上記特徴フィルターにかけ、顔特徴を抽出して、多次元の特徴ベクトルを生成する。そして、画像特徴検出部7は、当該特徴ベクトルの各次元の値を判別関数の各次元の変数に導入して、判別関数の出力が正負のいずれであるかにより、当該画像信号に顔画像領域が含まれるか否かを判定する。
そして、画像特徴検出部7は、この判別関数の出力値を基に、顔画像の検出の確からしさを評価する顔評価値Tfを算出する(ステップ32)。この顔評価値は、例えば、所定の明確な顔画像データを基に特徴ベクトルを生成してこれを判別関数に入力した場合における、判別関数の出力値を百分率で表した値とされる。
続いて、音声特徴検出部8は、所定区間の音声信号から、人の声が含まれる区間を検出する(ステップ34)。図5は、声の検出処理について概念的に示した図である。同図においては、上記所定区間の音声信号のパワーが示されている。同図の波形Aは、人の声を示しており、同図の波形Bは、人の声以外の音声を示している。
同図に示すように、音声特徴検出部8はまず、ノイズの影響を除去するために、音声パワーに関する閾値Athを設定する。そして、音声特徴検出部8は、所定区間における平均パワーがAthよりも大きい場合には、その区間は音声区間であると判定し、Athよりも小さい場合には、その区間は非音声区間であると判定する。すなわち、同図においては、波形A及びB以外の音声信号は非音声区間とされる。
音声区間のうち、人の声には、子音、母音、息継ぎ等が含まれるため、音楽等の声以外の音声と比べて、所定パワー以上の継続区間が短いという特徴がある。この特徴を利用して、音声特徴検出部8は、時間に関する閾値Tthを設定し、所定パワー以上の平均継続時間長がTthよりも小さい場合には、その区間は声区間とし、Tthよりも大きい場合には、その区間は非声区間であると判定する。
続いて、音声特徴検出部8は、検出された声の大きさ(パワーレベル、振幅)を基に、声評価値Tvを算出する(ステップ35)この声評価値は、例えば検出可能な声の最大パワーレベルを1として、声のパワーレベルを百分率で表した値とされる。
続いて、CPU15は、上記顔評価値Tfが、所定の閾値Tfs以上であるか否かを判断する(ステップ36)。CPU15は、顔評価値Tfが閾値Tfs以上である場合(Yes)、上記声評価値Tvが所定の閾値Tvs以上であるか否かを判断する(ステップ37)。
CPU15は、声評価値Tvが閾値Tvs以上である場合(Yes)には、BGM音声の重み係数kを、0.5よりも小さい所定の重みk1に設定し、映像コンテンツの音声信号の重み計数mを1−k1に設定する。k1は例えば0に設定されるが、0でない場合でも、極力0に近い値となるように設定される。
CPU15は、上記ステップ37において、声評価値Tvが閾値Tvs未満である場合(No)には、顔評価値Tf及び声評価値Tvに応じて上記重み係数k及びmを設定する(ステップ39)。すなわち、重み係数k及びmのいずれも0または1ではないが、重み係数kは、重み係数mよりも小さく設定される。
CPU15は、上記ステップ36において、顔評価値Tfが閾値Tfs未満である場合(No)、上記声評価値Tvが所定の閾値Tvs以上であるか否かを判断する(ステップ40)。CPU15は、上記声評価値Tvが閾値Tvs以上である場合(Yes)には、顔評価値Tf及び声評価値Tvに応じて上記重み係数k及びmを設定する(ステップ41)。すなわち、重み係数k及びmのいずれも0または1ではないが、重み係数kは、重み係数mよりも大きく設定される。
CPU15は、上記ステップ40において、声評価値Tvが閾値Tvs未満である場合(No)には、重み係数kを、0.5よりも大きい所定の重みk2に設定し、重み計数mを1−k2に設定する。k2は例えば1に設定されるが、1でない場合でも、極力1に近い値となるように設定される。
CPU15は、このように設定された重み係数k及びmに基づいて、映像コンテンツの所定区間毎(フレーム毎)に、映像コンテンツを編集して、外部音声ソース17から入力されたBGM音声を挿入していく(ステップ43)。
CPU15は、以上の処理を、映像コンテンツの全ての所定区間に対して実行するまで、または、ユーザ等から処理の中止が命令されるまで実行する(ステップ44、45)。CPU15は、編集後の映像コンテンツを、最終的に元の画像信号と多重化して、新たな映像コンテンツとして記録媒体10に記録する。
図6は、以上説明した重み係数k及びmの設定処理を示した表である。同図に示すように、顔評価値及び声評価値が各閾値Tfs及びTvs以上であるか否かに応じて、4つのパターンの重み係数が設定される。
図7は、上記顔評価値及び声評価値、重み係数k及びm及び映像コンテンツの各フレーム画像との関係を示したグラフである。同図に示されるフレームf1〜f6は、一例として、カムコーダ等で学校の運動会の様子が収録された映像コンテンツの一部のフレームを示している。
同図に示すように、映像コンテンツのフレームf1及びf2では、顔が小さすぎて、上記画像特徴検出部7により顔画像領域が検出されないため、顔評価値は低い(閾値Tfs未満)。また、このフレームf1及びf2の区間では、遠くから撮影されており、人の声もほとんど集音されないため、声評価値も低い(閾値Tvs未満)。そのため、この区間では、BGM音声の重み係数kが高く、コンテンツの音声信号の重み係数mが低く設定されている。これにより、平凡なシーンをより魅力的なものに編集することができる。
フレームf3及びf4では、人がややアップで撮影され、集音される声もやや大きくなっているため、この区間では、顔評価値及び声評価値に応じて重み係数k及びmが設定される。これにより、人の音声も残しながら、同時にBGM挿入による効果も得ることができる。すなわち、画像特徴検出部7は、顔評価値が閾値Tfs以上で声評価値が閾値Tvs未満の場合には、BGM音声の重みを低くすることで、画像に現れる人物の声を強調することができる。また、画像特徴検出部7は、顔評価値が閾値Tfs未満で声評価値が閾値Tvs以上の場合には、BGM音声の重みを高くすることで、画像と無関係な人物の声よりも、BGMの効果を高めることができる。
フレームf5及びf6では、顔がはっきり検出できる程度に人がアップで撮影されているため、顔評価値は高い(閾値Tfs以上)。また検出される声のパワーレベルも大きいため、声評価値も高い(閾値Tvs未満)。そのため、この区間では、重み係数kは低く、重み係数mは高く設定されている。これにより、人の声を強調することで、その人をより印象付けることができる。
以上のように、本実施形態によれば、顔評価値及び声評価値に基づいて映像コンテンツにBGM音声を挿入することとしたため、シーンに応じて、元の映像コンテンツ中の音声信号を効果的に残しながら、BGM音声を挿入することができる。これにより、単に一律にBGM音声を挿入する場合に比べて、映像コンテンツをより印象的な、思い出深いものとすることできる。
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
上述の実施形態において、画像特徴検出部7は、人の顔画像のみならず、動物の顔画像を検出してもよい。また音声特徴検出部8は、人の声のみならず、動物の声を検出してもよい。
上述の実施形態において、画像特徴検出部7は、単に顔画像を検出するのみならず、特定の人物の顔画像を認識してもよい。この顔認識処理は、上記判別関数による顔検出処理の後に実行される。この顔認識処理には、エッジ強度画像、周波数強度画像、高次自己相関、カラー変換画像等を用いることができる。
図8は、エッジ強度画像を用いた顔認識処理を概念的に示した図である。
同図に示すように、記録媒体10等には、顔認識したい人の特徴データ(辞書パターン)として、濃淡画像と、エッジ強度画像とが記憶されている。画像特徴検出部7は、検出された顔画像から、特徴データとして、濃淡画像及びエッジ強度画像を抽出する。そして、画像特徴検出部7は、この抽出した濃淡画像及びエッジ強度画像と、上記記憶された、顔認識したい人の濃淡画像及びエッジ強度画像とをパターンマッチングにより比較処理することで、特定の人の顔画像を認識することができる。この場合、画像特徴検出部7は、顔画像の認識率(マッチング率)を百分率で表して、顔評価値とすればよい。画像特徴検出部7は、目や鼻等の顔特徴点の情報が得られる場合には、上記エッジ強度画像等に加えてそれらの情報を併用することもできる。
この処理により、例えば上記図7の例では、多数の子供の中から、ユーザの子供の顔のみを検出及び認識する等、特定の人の顔の認識率に応じて、映像コンテンツにBGMを挿入することができる。これにより、編集後の映像コンテンツをより印象深いものとすることができる。
上述の実施形態において、音声特徴検出部8は、単に声を検出するのみならず、特定の人物の声を認識してもよい。この声認識処理は、例えば、音声特徴検出部8が、認識したい人の声信号を周波数解析して、スペクトル特性を検出して上記記録媒体10等に記憶しておき、検出された声のスペクトル特性と比較処理(パターンマッチング)することで実行される。スペクトル特性としては、子音部分及び母音部分のスペクトルピーク周波数、スペクトル間隔等が用いられる。また、息継ぎの間隔等も個人によって異なるため、音声特徴検出部8は、息継ぎの間隔に関する情報を上記スペクトル特性と併用しても構わない。この場合、音声特徴検出部8は、声認識率(マッチング率)を百分率で表して、声評価値とすればよい。
この処理により、特定の人の声の認識率に応じて、映像コンテンツにBGMを挿入することができるため、編集後の映像コンテンツをより印象深いものとすることができる。
上述の実施形態においては、画像特徴検出部7は、顔評価値が閾値Tfs未満で声評価値が閾値Tvs以上の場合には、BGM音声の重みを高く設定した。しかし、この場合、画像特徴検出部7は、逆にBGM音声の重みを低く設定してもよい。これにより、撮影対象人物と、撮影者の両方の声を残すことが可能となる。また、上記声の認識が可能な場合、撮影者の声を認識し、顔評価値が閾値Tfs未満でも、撮影者の声の声評価値が閾値Tvs以上の場合には、BGM音声の重みを低く設定してもよい。これにより、撮影者の音声をより確実に効果的に残すことができる。
上述の実施形態においては、記録再生装置100は、声の検出処理については学習処理を実行しないが、もちろん、学習処理を実行しても構わない。
上述の実施形態においては、本発明を記録再生装置に適用した例を示したが、本発明を、PC、デジタルビデオカメラ、携帯型AV機器、携帯電話機、ゲーム機器等の他の電子機器に適用することももちろん可能である。
本発明の一実施形態に係る記録再生装置の構成を示すブロック図である。 本発明の一実施形態における顔画像検出のための学習処理について概念的に示した図である。 本発明の一実施形態に係る記録再生装置の、映像コンテンツへのBGM挿入処理の流れを示したフローチャートである。 本発明の一実施形態における顔画像領域の検出処理について概念的に示した図である。 本発明の一実施形態における声の検出処理について概念的に示した図である。 本発明の一実施形態における重み係数k及びmの設定処理を示した表である。 本発明の一実施形態における上記顔評価値及び声評価値、重み係数k及びm及び映像コンテンツの各フレーム画像との関係を示したグラフである。 本発明の他の実施形態における、エッジ強度画像を用いた顔認識処理を概念的に示した図である。
符号の説明
1、3…画像信号入力部
2、4…音声信号入力部
5…入力画像処理部
6…入力音声処理部
7…画像特徴検出部
8…音声特徴検出部
9…記録部
10…記録媒体
11…再生部
12…出力画像処理部
13…出力音声処理部
14…ユーザインタフェース部
15…CPU
16…RAM
17…外部音声ソース
100…記録再生装置

Claims (9)

  1. 第1の映像コンテンツを構成する画像信号及び第1の音声信号を入力する第1の入力手段と、
    前記第1の音声信号とは異なる第2の音声信号を入力する第2の入力手段と、
    前記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出する第1の算出手段と、
    前記入力された第1の音声信号から、前記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出する第2の算出手段と、
    前記算出された顔評価値及び声評価値を基に、前記画像信号毎に、前記第1の音声信号の重みを示す第1の重み係数及び前記第2の音声信号の重みを示す第2の重み係数を設定する設定手段と、
    前記設定された第1及び第2の重み係数を基に、前記第1及び第2の音声信号を混合した第3の音声信号を生成し、当該第3の音声信号及び前記画像信号により構成される第2の映像コンテンツを生成する生成手段と
    を具備する電子機器。
  2. 請求項1に記載の電子機器であって、
    前記設定手段は、前記顔評価値が第1の閾値以上であり、かつ、前記声評価値が第2の閾値以上である場合に、前記第1の重み係数を前記第2の重み係数よりも大きい第1の値に設定する
    電子機器。
  3. 請求項2に記載の電子機器であって、
    前記設定手段は、前記顔評価値が前記第1の閾値未満であり、かつ、前記声評価値が前記第2の閾値未満である場合に、前記第1の重み係数を前記第2の重み係数よりも小さい第2の値に設定する
    電子機器。
  4. 請求項3に記載の電子機器であって、
    前記設定手段は、前記顔評価値が前記第1の閾値以上であり、かつ、前記声評価値が前記第2の閾値未満である場合に、前記顔評価値及び前記声評価値に応じて、前記第1の重み係数を前記第2の重み係数よりも大きく設定する
    電子機器。
  5. 請求項3に記載の電子機器であって、
    前記設定手段は、前記顔評価値が前記第1の閾値未満であり、かつ、前記声評価値が前記第2の閾値以上である場合に、前記顔評価値及び前記声評価値に応じて、前記第1の重み係数を前記第2の重み係数よりも小さく設定する
    電子機器。
  6. 請求項3に記載の電子機器であって、
    特定の人物の顔の特徴を示す顔特徴データを記憶する記憶手段を更に具備し、
    前記第1の算出手段は、前記記憶された顔特徴データを基に、前記特定の人物の顔が表れた顔画像領域を検出可能である
    電子機器。
  7. 請求項3に記載の電子機器であって、
    特定の人物の声の特徴を示す声特徴データを記憶する記憶手段を更に具備し、
    前記第2の算出手段は、前記記憶された声特徴データを基に、前記特定の人物の声を検出可能である
    電子機器。
  8. 第1の映像コンテンツを構成する画像信号及び第1の音声信号を入力し、
    前記第1の音声信号とは異なる第2の音声信号を入力し、
    前記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出し、
    前記入力された第1の音声信号から、前記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出し、
    前記算出された顔評価値及び声評価値を基に、前記画像信号毎に、前記第1の音声信号の重みを示す第1の重み係数及び前記第2の音声信号の重みを示す第2の重み係数を設定し、
    前記設定された第1及び第2の重み係数を基に、前記第1及び第2の音声信号を混合した第3の音声信号を生成し、当該第3の音声信号及び前記画像信号により構成される第2の映像コンテンツを生成する
    映像コンテンツ編集方法。
  9. 電子機器に、
    第1の映像コンテンツを構成する画像信号及び第1の音声信号を入力するステップと、
    前記第1の音声信号とは異なる第2の音声信号を入力するステップと、
    前記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出するステップと、
    前記入力された第1の音声信号から、前記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出するステップと、
    前記算出された顔評価値及び声評価値を基に、前記画像信号毎に、前記第1の音声信号の重みを示す第1の重み係数及び前記第2の音声信号の重みを示す第2の重み係数を設定するステップと、
    前記設定された第1及び第2の重み係数を基に、前記第1及び第2の音声信号を混合した第3の音声信号を生成し、当該第3の音声信号及び前記画像信号により構成される第2の映像コンテンツを生成するステップと
    を実行させるためのプログラム。
JP2008164652A 2008-06-24 2008-06-24 電子機器、映像コンテンツ編集方法及びプログラム Expired - Fee Related JP4488091B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2008164652A JP4488091B2 (ja) 2008-06-24 2008-06-24 電子機器、映像コンテンツ編集方法及びプログラム
KR1020090033176A KR101590186B1 (ko) 2008-06-24 2009-04-16 전자 기기, 영상 콘텐츠 편집 방법 및 프로그램이 기록된 기록매체
US12/456,825 US8494338B2 (en) 2008-06-24 2009-06-23 Electronic apparatus, video content editing method, and program
CN2009101499726A CN101615389B (zh) 2008-06-24 2009-06-24 电子设备和视频内容编辑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008164652A JP4488091B2 (ja) 2008-06-24 2008-06-24 電子機器、映像コンテンツ編集方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010010780A JP2010010780A (ja) 2010-01-14
JP4488091B2 true JP4488091B2 (ja) 2010-06-23

Family

ID=41495001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008164652A Expired - Fee Related JP4488091B2 (ja) 2008-06-24 2008-06-24 電子機器、映像コンテンツ編集方法及びプログラム

Country Status (4)

Country Link
US (1) US8494338B2 (ja)
JP (1) JP4488091B2 (ja)
KR (1) KR101590186B1 (ja)
CN (1) CN101615389B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5427622B2 (ja) * 2010-01-22 2014-02-26 Necパーソナルコンピュータ株式会社 音声変更装置、音声変更方法、プログラム及び記録媒体
JP5353835B2 (ja) * 2010-06-28 2013-11-27 ブラザー工業株式会社 情報処理プログラムおよび情報処理装置
US8879804B1 (en) * 2010-12-18 2014-11-04 Alexey Konoplev System and method for automatic detection and recognition of facial features
US20130162752A1 (en) * 2011-12-22 2013-06-27 Advanced Micro Devices, Inc. Audio and Video Teleconferencing Using Voiceprints and Face Prints
CN102760444B (zh) * 2012-04-25 2014-06-11 清华大学 基于支撑向量机的基带时域音频信号分类方法
JP6253671B2 (ja) 2013-12-26 2017-12-27 株式会社東芝 電子機器、制御方法およびプログラム
CN104065977B (zh) * 2014-06-06 2018-05-15 北京音之邦文化科技有限公司 音/视频文件的处理方法及装置
KR102282704B1 (ko) 2015-02-16 2021-07-29 삼성전자주식회사 영상 데이터를 재생하는 전자 장치 및 방법
US20170092089A1 (en) * 2015-09-30 2017-03-30 Tianjin Hualai Technology Co., Ltd. Security monitoring apparatus, camera having the same and security monitoring method
CN107027053A (zh) * 2017-05-08 2017-08-08 深圳Tcl数字技术有限公司 音频播放方法、终端及计算机可读存储介质
US10825480B2 (en) * 2017-05-31 2020-11-03 Apple Inc. Automatic processing of double-system recording
US10719692B2 (en) 2017-09-09 2020-07-21 Apple Inc. Vein matching for difficult biometric authentication cases
US10949715B1 (en) 2019-08-19 2021-03-16 Neon Evolution Inc. Methods and systems for image and voice processing
US10671838B1 (en) 2019-08-19 2020-06-02 Neon Evolution Inc. Methods and systems for image and voice processing
US10803646B1 (en) 2019-08-19 2020-10-13 Neon Evolution Inc. Methods and systems for image and voice processing
US10658005B1 (en) * 2019-08-19 2020-05-19 Neon Evolution Inc. Methods and systems for image and voice processing
KR102349180B1 (ko) * 2020-01-06 2022-01-07 이상훈 사운드 재구성을 통한 멀티미디어 콘텐츠 생성 방법 및 콘텐츠 관리 서버
US11308657B1 (en) 2021-08-11 2022-04-19 Neon Evolution Inc. Methods and systems for image processing using a learning engine
CN116095564B (zh) * 2023-04-10 2023-06-23 深圳市嘉润原新显科技有限公司 显示器混音电路及显示器

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2323421C (en) * 1998-03-11 2008-09-23 Entropic, Inc. Face synthesis system and methodology
DE19983916B4 (de) * 1999-01-28 2010-02-18 Intel Corporation, Santa Clara Verfahren und Einrichtung zum Bearbeiten einer Videoaufzeichnung mit einer Audio-Auswahl
JP2001202082A (ja) 2000-01-17 2001-07-27 Matsushita Electric Ind Co Ltd 映像信号編集装置および方法
US6778252B2 (en) * 2000-12-22 2004-08-17 Film Language Film language
JP2002374494A (ja) * 2001-06-14 2002-12-26 Fuji Electric Co Ltd ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。
JP2003051797A (ja) * 2001-08-07 2003-02-21 Star Collaboration Kk デジタルコンテンツの配信方法、配信装置、再生装置、コンピュータプログラム
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
JP4712812B2 (ja) * 2005-10-21 2011-06-29 パナソニック株式会社 記録再生装置
CN101202876A (zh) * 2006-12-15 2008-06-18 天津三星电子有限公司 在dvr中利用音视频复合通道实现声音与图像同步的方法
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals

Also Published As

Publication number Publication date
CN101615389B (zh) 2012-08-22
US20100008641A1 (en) 2010-01-14
CN101615389A (zh) 2009-12-30
KR20100002090A (ko) 2010-01-06
JP2010010780A (ja) 2010-01-14
KR101590186B1 (ko) 2016-01-29
US8494338B2 (en) 2013-07-23

Similar Documents

Publication Publication Date Title
JP4488091B2 (ja) 電子機器、映像コンテンツ編集方法及びプログラム
Anina et al. Ouluvs2: A multi-view audiovisual database for non-rigid mouth motion analysis
US10847185B2 (en) Information processing method and image processing apparatus
US8582804B2 (en) Method of facial image reproduction and related device
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US9749684B2 (en) Multimedia processing method and multimedia apparatus
US8326623B2 (en) Electronic apparatus and display process method
CN109168067A (zh) 视频时序矫正方法、矫正终端及计算机可读存储介质
JP4641389B2 (ja) 情報処理方法、情報処理装置
US11871084B2 (en) Systems and methods for displaying subjects of a video portion of content
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
Galatas et al. Audio-visual speech recognition using depth information from the Kinect in noisy video conditions
US8437611B2 (en) Reproduction control apparatus, reproduction control method, and program
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
Petridis et al. Audiovisual laughter detection based on temporal features
EP3223516A1 (en) Information processing method, video processing device, and program
JP2003109022A (ja) 図書製作システムと図書製作方法
KR101985669B1 (ko) 동영상을 이용한 카툰 생성장치 및 방법
JP2022015167A (ja) 画像処理装置および画像処理方法
JP6838739B2 (ja) 近時記憶支援装置
JP2006154531A (ja) 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
Friedland et al. Using artistic markers and speaker identification for narrative-theme navigation of seinfeld episodes
CN118590714A (zh) 视觉媒体数据处理方法、程序产品、存储介质及电子设备
CN118158453A (zh) 多人对话视频生成方法、装置、电子设备和存储介质
EP3794592A2 (en) Systems and methods for displaying subjects of a portion of content

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100322

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4488091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140409

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees