JP2010066844A - Method and device for processing video content, and program for processing video content - Google Patents
Method and device for processing video content, and program for processing video content Download PDFInfo
- Publication number
- JP2010066844A JP2010066844A JP2008230442A JP2008230442A JP2010066844A JP 2010066844 A JP2010066844 A JP 2010066844A JP 2008230442 A JP2008230442 A JP 2008230442A JP 2008230442 A JP2008230442 A JP 2008230442A JP 2010066844 A JP2010066844 A JP 2010066844A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- emotion
- face
- voice
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
本発明は、写っている人物の感情に基づいて動画コンテンツを加工する動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラムに関する。 The present invention relates to a moving image content processing method and apparatus for processing moving image content based on the emotion of a photographed person, and a moving image content processing program.
インターネット上には、動画コンテンツの配信サービスを提供するYouTube(登録商標)、ニコニコ動画(登録商標)、Yahoo!(登録商標)動画などといった配信サイトが存在する。最近の動画コンテンツの配信サイトでは、ユーザーからのコメントや装飾画像を合成した動画コンテンツを提供することでサービスの付加価値を高めている。 On the Internet, there are distribution sites such as YouTube (registered trademark), Nico Nico Douga (registered trademark), Yahoo! Recent video content distribution sites increase the added value of services by providing video content that combines user comments and decorative images.
動画コンテンツの加工技術としては、写っている人物の顔付きから感情を判定し、判定した感情に対応する装飾画像を合成するものがある(例えば、特許文献1、2参照)。
ところで、総じて大人は、人前において顔に感情を出すことを我慢することがある。例えば、怒りを抑えて笑うこともあり、このような顔付き(顔の表情)からは感情を判定することが難しい。すなわち、顔付きだけから感情を判定する特許文献1、2の発明では、感情を的確に判定できず、動画コンテンツに相応しい装飾画像を合成することができないおそれがある。
By the way, as a whole, adults may endure feelings on their faces in public. For example, there is a case of laughing while suppressing anger, and it is difficult to judge an emotion from such a face (facial expression). That is, in the inventions of
本発明は、上記課題を鑑みてなされたものであり、写っている人物の感情を的確に判定し、判定した感情に基づいて動画コンテンツを加工する動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラムを提供することを目的とする。 The present invention has been made in view of the above-described problems, and a moving image content processing method and apparatus that accurately determines the emotion of a person being photographed and processes the moving image content based on the determined emotion, and the moving image content The purpose is to provide a machining program.
上記目的を達成するために、本発明の動画コンテンツの加工装置は、動画コンテンツから顔を検出する顔検出部と、前記顔検出部で検出された顔の表情を認識する表情認識部と、動画コンテンツから、前記顔検出部で顔が検出された人物の動きを検知する動き検知部と、動画コンテンツから、前記顔検出部で顔が検出された人物の声を抽出する声抽出部と、前記表情認識部で認識された表情、前記動き検知部で検知された人物の動き、及び前記声抽出部で抽出された声から、前記顔検出部で顔が検出された人物の感情を判定する感情判定部と、前記感情判定部で判定された感情に基づいて動画コンテンツを加工する加工処理部とを備えている。 In order to achieve the above object, a moving image content processing apparatus according to the present invention includes a face detection unit that detects a face from moving image content, a facial expression recognition unit that recognizes a facial expression detected by the face detection unit, and a moving image. A motion detection unit that detects a motion of a person whose face is detected by the face detection unit from a content; a voice extraction unit that extracts a voice of a person whose face is detected by the face detection unit from video content; Emotion that determines the emotion of the person whose face is detected by the face detection unit from the facial expression recognized by the facial expression recognition unit, the movement of the person detected by the motion detection unit, and the voice extracted by the voice extraction unit A determination unit; and a processing unit that processes the moving image content based on the emotion determined by the emotion determination unit.
請求項2に記載の発明では、前記声抽出部で抽出された声から音声感情を認識する音声感情認識部と、顔から認識される表情、人物の動き、及び音声感情の組合せと、感情とを対応させて記憶した感情テーブルを格納した感情データベースとを備え、前記感情判定部は、前記感情テーブルを用いて、前記表情認識部で認識された表情、前記動き検知部で検知された人物の動き、及び前記音声感情認識部で認識された音声感情の組合せに対応する感情を、前記顔検出部で顔が検出された人物の感情であると判定する。
In the invention according to
請求項3に記載の発明では、動画コンテンツに装飾する装飾コンテンツを、感情と対応させて記憶した装飾コンテンツデータベースと、前記感情判定部で判定された感情に対応する前記装飾コンテンツを前記装飾コンテンツデータベースから取得する装飾コンテンツ取得部とを備え、前記加工処理部は、前記装飾コンテンツ取得部で取得された前記装飾コンテンツを動画コンテンツに合成する合成処理部である。 According to a third aspect of the present invention, there is provided a decoration content database in which decoration content to be decorated to the moving image content is stored in correspondence with emotion, and the decoration content corresponding to the emotion determined by the emotion determination unit is stored in the decoration content database. The processing unit is a composition processing unit that combines the decoration content acquired by the decoration content acquisition unit with the moving image content.
請求項4に記載の発明では、前記装飾コンテンツデータベースに感情と対応して記憶された前記装飾コンテンツは複数種類であり、前記装飾コンテンツ取得部は、入力された種類の前記装飾コンテンツを取得する。 According to a fourth aspect of the present invention, there are a plurality of types of decorative content stored in the decorative content database in association with emotions, and the decorative content acquisition unit acquires the input type of decorative content.
請求項5に記載の発明では、前記顔検出部で検出された顔、及び前記声抽出部で抽出された声から、前記顔検出部で顔が検出された人物の性別を推定する性別推定部を備え、前記加工処理部は、前記性別判別部で推定された性別に基づいて動画コンテンツを加工する。 In the invention according to claim 5, a gender estimating unit that estimates the gender of the person whose face is detected by the face detecting unit from the face detected by the face detecting unit and the voice extracted by the voice extracting unit. The processing unit processes the moving image content based on the gender estimated by the gender determination unit.
請求項6に記載の発明では、前記顔検出部で検出された顔、及び前記声抽出部で抽出された声から、前記顔検出部で顔が検出された人物の年齢を推定する年齢推定部を備え、前記加工処理部は、前記年齢判別部で推定された年齢に基づいて動画コンテンツを加工する。 In the invention according to claim 6, an age estimation unit that estimates the age of a person whose face is detected by the face detection unit from the face detected by the face detection unit and the voice extracted by the voice extraction unit The processing unit processes video content based on the age estimated by the age determination unit.
本発明の動画コンテンツの加工方法は、顔検出部において、動画コンテンツから顔を検出する顔検出ステップと、前記顔検出ステップで検出された顔から表情を表情認識部で認識する表情認識ステップと、動画コンテンツから、前記顔検出ステップで顔が検出された人物の動きを動き検知部で検知する動き検知ステップと、動画コンテンツから、前記顔検出ステップで顔が検出された人物の声を声抽出部で抽出する声抽出ステップと、前記表情認識ステップで認識された表情、前記動き検知ステップで検知された人物の動き、及び前記声抽出ステップで抽出された声から、前記顔検出ステップで顔が検出された人物の感情を感情判定部で判定する感情判定ステップと、前記感情判定ステップで判定された感情に基づいて動画コンテンツを加工処理部で加工する加工ステップとを備えている。 In the moving image content processing method of the present invention, in the face detection unit, a face detection step of detecting a face from the moving image content, a facial expression recognition step of recognizing a facial expression from the face detected in the face detection step, A motion detection step for detecting a motion of the person whose face is detected in the face detection step from the moving image content by a motion detection unit, and a voice extraction unit for the voice of the person whose face is detected in the face detection step from the video content The face is detected in the face detection step from the voice extraction step extracted in step S, the facial expression recognized in the facial expression recognition step, the movement of the person detected in the motion detection step, and the voice extracted in the voice extraction step. The emotion determination step of determining the emotion of the person who has been performed by the emotion determination unit, and processing the video content based on the emotion determined in the emotion determination step And a processing step of processing by the processing section.
本発明の動画コンテンツの加工プログラムは、動画コンテンツから顔を検出する顔検出ステップと、前記顔検出ステップで検出された顔から表情を認識する表情認識ステップと、動画コンテンツから、前記顔検出ステップで顔が検出された人物の動きを検知する動き検知ステップと、動画コンテンツから、前記顔検出ステップで顔が検出された人物の声を抽出する声抽出ステップと、前記表情認識ステップで認識された表情、前記動き検知ステップで検知された人物の動き、及び前記声抽出ステップで抽出された声から、前記顔検出ステップで顔が検出された人物の感情を判定する感情判定ステップと、前記感情判定ステップで判定された感情に基づいて動画コンテンツを加工する加工ステップとをコンピュータに実行させる。 The moving image content processing program of the present invention includes a face detecting step for detecting a face from the moving image content, a facial expression recognition step for recognizing an expression from the face detected in the face detecting step, a moving image content, and the face detecting step. A motion detection step for detecting the motion of the person whose face is detected, a voice extraction step for extracting the voice of the person whose face is detected in the face detection step from the video content, and the facial expression recognized in the facial expression recognition step An emotion determination step for determining the emotion of the person whose face is detected in the face detection step from the movement of the person detected in the motion detection step and the voice extracted in the voice extraction step; and the emotion determination step The computer is caused to execute a processing step for processing the moving image content based on the emotion determined in (1).
本発明の動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラムによれば、写っている人物の感情を的確に判定し、判定した感情に基づいて動画コンテンツを加工することができる。 According to the moving image content processing method and apparatus and the moving image content processing program of the present invention, it is possible to accurately determine the emotion of the person in the image and process the moving image content based on the determined emotion.
[第1実施形態]
図1において、第1実施形態における動画コンテンツの加工装置は、動画コンテンツの加工プログラム44(図3参照)のインストールによってサーバ11に構築される形式で実現される。動画コンテンツの加工装置は、写っている人物の感情に基づいて動画コンテンツを加工する。本明細書において動画コンテンツとは、音声を伴う動画のことを意味する。なお、本実施形態では、動画コンテンツを構成する静止画のフレームに装飾画像を合成することによって動画コンテンツを加工する場合を例に説明するが、音声その他のコンテンツを合成することによって動画コンテンツを加工するようにしてもよい。
[First Embodiment]
In FIG. 1, the moving image content processing apparatus according to the first embodiment is realized in a format constructed in the
サーバ11は、インターネット12を介して接続されたクライアント端末13とともに、ネットワークシステム14を構成する。クライアント端末13は、例えば周知のパーソナルコンピュータやワークステーションであり、各種操作画面などを表示するモニタ15と、操作信号を出力するマウス16及びキーボード17からなる操作部18とを備えている。
The
クライアント端末13には、デジタルカメラ19で撮影して得られた動画コンテンツや、メモリカードやCD−Rなどの記録媒体20に記録された動画コンテンツが送信され、あるいは、インターネット12を経由して動画コンテンツが転送される。
The client terminal 13 receives moving image content captured by the
デジタルカメラ19は、例えば、IEEE1394、USB(Universal Serial Bus)などに準拠した通信ケーブルや、無線LANなどによりクライアント端末13に接続され、クライアント端末13とのデータの相互通信が可能となっている。また、記録媒体20も同様に、専用のドライバを介してクライアント端末13とのデータの遣り取りが可能となっている。
The
図2に示すように、クライアント端末13を構成するCPU21は、操作部18から入力される操作信号などに従ってクライアント端末13全体を統括的に制御する。CPU21には、操作部18の他に、データバス22を介して、RAM23、ハードディスクドライブ(HDD)24、通信インターフェース(通信I/F)25、及びモニタ15が接続されている。
As shown in FIG. 2, the
RAM23は、CPU21が処理を実行するための作業用メモリである。HDD24には、クライアント端末13を動作させるための各種プログラムやデータが記憶されている他に、デジタルカメラ19、記録媒体20、あるいは、インターネット12から取り込まれた動画コンテンツが記憶される。CPU21は、HDD24からプログラムを読み出してRAM23に展開し、読み出したプログラムを逐次処理する。
The
通信I/F25は、例えばモデムやルータであり、インターネット12に適合した通信プロトコルの制御を行い、インターネット12を経由したデータの遣り取りをする。また、通信I/F25は、デジタルカメラ19や記録媒体20などの外部機器とのデータ通信も行う。
The communication I /
図3に示すように、サーバ11を構成するCPU31は、インターネット12を経由してクライアント端末13から入力される操作信号に従ってサーバ11全体を統括的に制御する。CPU31には、データバス32を介して、RAM33、ハードディスクドライブ(HDD)34、通信インターフェース(通信I/F)35、顔検出部36、表情認識部37、動き検知部38、声抽出部39、音声感情認識部40、感情判定部41、装飾画像取得部42、及び合成処理部(加工処理部)43が接続されている。
As shown in FIG. 3, the
RAM33は、CPU31が処理を実行するための作業用メモリである。HDD34には、サーバ11を動作させるための各種プログラムやデータが記憶されている。また、HDD34には、動画コンテンツの加工プログラム44が記憶されている。CPU31は、HDD34からプログラムを読み出してRAM33に展開し、読み出したプログラムを逐次処理する。
The
HDD34には、感情データベース(感情DB)45と、装飾画像データベース(装飾画像DB)46とが設けられている。感情DB45には、図4に示す感情テーブル51が格納されている。 The HDD 34 is provided with an emotion database (emotion DB) 45 and a decoration image database (decoration image DB) 46. The emotion DB 45 stores an emotion table 51 shown in FIG.
感情テーブル51は、顔の表情、人物の動き、及び音声感情の組合せと、この組合せから観念される感情とを対応させて記憶している。音声感情とは、声から認識される感情のことを意味するが、以下では、感情の強弱を示す要素である場合を例に説明する。顔の表情が「無表情」、「笑顔」、「怒り顔」、「悲しみ顔」の四つであり、人物の動きが「なし」、「小」、「中」、「大」の四段階であり、音声感情が「無音」、「なし」、「小」、「中」、「大」の五段階であれば、80(=4×4×5)通りの組合せそれぞれに対応した感情が記憶されていることになる。例えば図4に示すように、顔の表情が「笑顔」であり、人物の動きが「なし」であり、音声感情が「無音」である組合せに対応して、感情として「愛想笑い」が記憶されている。 The emotion table 51 stores a combination of a facial expression, a person's movement, and a voice emotion in association with an emotion that is conceived from this combination. The voice emotion means an emotion recognized from the voice, but in the following, a case where the emotion is an element indicating the strength of the emotion will be described as an example. There are four facial expressions: “no expression”, “smile”, “anger face”, “sad face”, and the movement of the person is “None”, “Small”, “Medium”, “Large” If the voice emotions are five levels of “silence”, “none”, “small”, “medium”, “large”, emotions corresponding to 80 (= 4 × 4 × 5) combinations are provided. It will be remembered. For example, as shown in FIG. 4, “loving laughter” is stored as an emotion corresponding to a combination in which the facial expression is “smile”, the person's movement is “none”, and the voice emotion is “silent”. Has been.
装飾画像DB46には、複数種類の装飾画像が、感情と対応させて記憶されている。例えば図5に示すように、感情「愛想笑い」に対応して、三種類の装飾画像が記憶されている。一種類目は、心の内を示す吹出しとして「早く帰りたいな〜。」が記憶され、二種類目は、擬音及び漫符として「たら〜/汗マーク」が記憶され、三種類目は、台詞の吹出しとして「。。。」が記憶されている。漫符とは、感情や感覚を視覚化した符号のことをいう。デフォルトでは、一種類目の心の内を示す吹出しの装飾画像が選択される。クライアント端末13からの操作指示に基づいて、選択される装飾画像は切り替わる。具体的には、二種類目の擬音及び漫符の装飾画像、若しくは三種類目の台詞の吹出しの装飾画像が選択されたり、複数種類の装飾画像が選択されたり、又はランダムに選択されたりするように切り替わる。
In the
通信I/F35は、例えばモデムやルータであり、インターネット12に適合した通信プロトコルの制御を行い、インターネット12を経由したデータの遣り取りをする。通信I/F35を介して入力されたデータは、RAM33に一時的に記憶される。
The communication I /
顔検出部36は、動画コンテンツがサーバ11に入力されると、その動画コンテンツを構成する静止画の各フレームから顔を検出したり、時系列的変化や動きを検出したりする。顔の検出には、特開2005−267512号公報で開示されている赤目検出を用いた方法などを利用する。詳しい説明は、特開2005−267512号公報などを参照されたい。なお、顔の検出には、パターンマッチングや、肌色検出などを用いた技術を利用してもよい。
When the moving image content is input to the
表情認識部37は、顔検出部36で検出された顔の表情を認識する。顔の表情の認識には、特開平10−255043号公報で開示されている隠れマルコフモデル(HMM)を用いた技術などを利用する。なお、詳しい説明は、特開平10−255043号公報などを参照されたい。
The facial
動き検知部38は、顔検出部36で顔が検出された人物の動きを検知する。人物の動きの検知には、特開平09−251542号公報で開示されている統計的データを用いた技術などを利用する。なお、詳しい説明は、特開09−251542号公報などを参照されたい。また、顔検出部36で検出された顔の位置をフレーム間で比較することによって、人物の動きを検知してもよい。
The
声抽出部39は、サーバ11に入力された動画コンテンツを構成する音声から、人物の声を抽出する。そして、抽出された声が、顔検出部36で顔が検出された人物の声であるか否かを判定する。声の抽出にはバンドパスフィルタなどを、上記の判定には特開平09−127975号公報、あるいは特開平11−119791号公報などで開示されている技術をそれぞれ利用する。上記の判定についての詳しい説明は、特開平09−127975号公報、特開平11−119791号公報などを参照されたい。なお、上記の判定には、口角の変化、すなわち口角の動きを検知して判定をする技術を利用してもよい。
The
音声感情認識部40は、声抽出部39で抽出された声を元に、顔検出部36で顔が検出された人物の音声感情を認識する。音声感情の認識には、特開平09−127975号公報、特開平10−049188号公報あるいは特開平11−119791号公報などで開示されている技術を利用する。なお、詳しい説明は、特開平09−127975号公報、特開平10−049188号公報、特開平11−119791号公報などを参照されたい。
The voice
感情判定部41は、感情DB45にアクセスし、図4に示す感情テーブル51を用いて、顔検出部36で顔が検出された人物の感情を、所定のスパン(例えば5秒のスパン)毎に判定する。具体的には、顔検出部36で顔が検出された人物毎に、表情認識部37で認識された顔の表情、動き検知部38で検知された人物の動き、及び音声感情認識部40で認識された音声感情の組合せに対応する感情を、当該人物の感情であると判定する。
The
例えば、顔検出部36で顔が検出された人物について、表情認識部37で顔の表情が「笑顔」であると認識され、動き検知部38で人物の動きが「なし」であると検知され、且つ、音声感情認識部40で音声感情が「無音」であると認識された場合、感情判定部41は、当該人物の感情が「愛想笑い」と判定する(図4の上から3段目の欄参照)。なお、所定のスパンの中で、表情認識部37で認識された顔の表情、又は音声感情認識部40で認識された音声感情が変化している場合には、感情判定部41は、変化前の顔の表情、又は音声感情を用いて上記の判定を行う。
For example, for a person whose face is detected by the
装飾画像取得部42は、装飾画像DB46にアクセスし、感情判定部41で判定された感情に対応する装飾画像を取得する。例えば、感情判定部41で感情が「愛想笑い」と判定された場合、デフォルトでは、心の内を示す吹出しの装飾画像である「早く帰りたいな〜。」を取得する。クライアント端末13からの操作指示があった場合には、その操作指示に基づいて、擬音及び漫符の装飾画像である「たら〜/汗マーク」、又は台詞の吹出しの装飾画像である「。。。」を取得したりする。
The decoration
合成処理部43は、装飾画像取得部42が取得した装飾画像を、動画コンテンツを構成する静止画の各フレームに合成する。図6を参照しながら、顔検出部36で三つの顔が検出された場合を例に説明する。顔の表情が「笑顔」で、人物の動きが「なし」で、且つ、音声感情が「無音」であるフレーム上方に写る人物は、感情が「愛想笑い」と判定され、デフォルトでは、装飾画像取得部42で一種類目の心の内を示す吹出しの装飾画像である「早く帰りたいな〜。」が取得されている。合成処理部43は、装飾画像取得部42で取得された装飾画像である「早く帰りたいな〜。」を、フレーム上方に写る人物の周囲に配置するように、動画コンテンツを構成する静止画のフレームに合成する。
The
顔の表情が「笑顔」で、人物の動きが「小」で、且つ、音声感情が「小」であるフレーム左方に写る人物は、感情が「ややふざけている」と判定され、デフォルトでは、装飾画像取得部42で一種類目の心の内を示す吹出しの装飾画像である「うふふふ。ワタシ写ってる?」が取得されている。合成処理部43は、装飾画像取得部42で取得された装飾画像である「うふふふ。ワタシ写ってる?」を、フレーム左方に写る人物の周囲に配置するように、動画コンテンツを構成する静止画のフレームに合成する。
A person who appears to the left of the frame with a facial expression of “smiling”, a person's movement of “small”, and a voice emotion of “small” is judged as “slightly joke” by default. The decoration
顔の表情が「笑顔」で、人物の動きが「大」で、且つ、音声感情が「大」であるフレーム右方に写る人物は、感情が「とても楽しい」と判定され、デフォルトでは、装飾画像取得部42で一種類目の心の内を示す吹出しの装飾画像である「すごく楽しいな♪」が取得されている。合成処理部43は、装飾画像取得部42で取得された装飾画像である「すごく楽しいな♪」を、フレーム右方に写る人物の周囲に配置するように、動画コンテンツを構成する静止画のフレームに合成する。
A person who appears to the right of the frame with a facial expression of “smiling”, a human movement of “large”, and a voice emotion of “large” is judged to be “very fun”. The
また、図7に示すように、フレーム上方に写る人物について、二種類目の擬音及び漫符の装飾画像である「たら〜/汗マーク」が取得されている場合には、合成処理部43は、取得されている装飾画像である「たら〜/汗マーク」を、フレーム上方に写る人物の周囲に配置するように、動画コンテンツを構成する静止画のフレームに合成する。
Also, as shown in FIG. 7, when the “Tara ~ / sweat mark”, which is a decorative image of the second type of onomatopoeia and comics, has been acquired for the person shown above the frame, the
フレーム左方に写る人物について、二種類目の擬音及び漫符の装飾画像である「ニヤニヤ」が取得されている場合には、合成処理部43は、取得されている装飾画像である「ニヤニヤ」を、フレーム左方に写る人物の周囲に配置するように、動画コンテンツを構成する静止画のフレームに合成する。
In the case where “Niyanya”, which is a decoration image of the second type of onomatopoeia and comics, has been acquired for the person appearing on the left side of the frame, the
フレーム右方に写る人物について、二種類目の擬音及び漫符の装飾画像である「あはは(笑)」が取得されている場合には、合成処理部43は、取得されている装飾画像である「あはは(笑)」を、フレーム右方に写る人物の周囲に配置するように、動画コンテンツを構成する静止画のフレームに合成する。
When “Ahaha (laughs)”, which is a decorative image of the second type of onomatopoeia and comics, has been acquired for the person shown on the right side of the frame, the
同様に、図8に示すように、フレーム上方に写る人物について、三種類目の台詞の吹出しの装飾画像である「。。。」が取得されている場合には、合成処理部34は、取得されている装飾画像である「。。。」を、フレーム上方に写る人物の周囲に配置するように、動画コンテンツを構成する静止画のフレームに合成する。
Similarly, as illustrated in FIG. 8, when “..”, which is a third-type speech balloon decoration image, has been acquired for the person shown above the frame, the
フレーム左方に写る人物について、三種類目の台詞の吹出しの装飾画像である「現金ですかぁ!!」が取得されている場合には、合成処理部43は、取得されている装飾画像である「現金ですかぁ!!」を、フレーム左方に写る人物の周囲に配置するように、動画コンテンツを構成する静止画のフレームに合成する。
In the case where “Cash is a cash!”, Which is a decoration image of the third type of speech, is acquired for the person shown on the left side of the frame, the
フレーム右方に写る人物について、三種類目の台詞の吹出しの装飾画像である「元気ですかぁ!!」が取得されている場合には、合成処理部43は、取得されている装飾画像である「元気ですかぁ!!」を、フレーム右方に写る人物の周囲に配置するように、動画コンテンツを構成する静止画の各フレームに合成する。
For the person appearing on the right side of the frame, when the decoration image of the third type of speech is acquired, “How are you !!”, the
次に、上記構成のサーバ11(図1及び図3参照)が動画コンテンツの加工装置として機能したときの処理手順について、図9のフローチャートを参照しながら説明する。ユーザーは、クライアント端末13の操作部18を操作して、サーバ11に動画コンテンツを入力する。サーバ11に入力された動画コンテンツは、RAM33に記憶される。
Next, a processing procedure when the server 11 (see FIGS. 1 and 3) configured as described above functions as a moving image content processing device will be described with reference to the flowchart of FIG. The user operates the
サーバ11に入力された動画コンテンツは、所定のスパン(例えば5秒のスパン(150フレーム))毎にリアルタイムで加工処理が施される。動画コンテンツは、まず、RAM33から顔検出部36、動き検知部38、声抽出部39にそれぞれ読み出される。顔検出部36では、動画コンテンツを構成する静止画の各フレームから顔が検出されたり、時系列的変化や動きが検出されたりする。検出された顔や、時系列的変化及び動きは、RAM33に記憶される。
The moving image content input to the
顔検出部36で検出された顔や、時系列的変化及び動きは、RAM33から表情認識部37に読み出される。表情認識部37では、顔検出部36で検出された顔の表情が認識される。認識された顔の表情は、RAM33に記憶される。
The face detected by the
表情認識部37で認識された顔の表情は、RAM33から動き検知部38に読み出される。動き検知部38では、顔検出部36で顔が検出された人物の動きが検知される。検知された人物の動きは、RAM33に記憶される。
The facial expression recognized by the facial
声抽出部39では、動画コンテンツを構成する音声から、顔検出部36で顔が検出された人物の声が抽出される。抽出された人物の声は、RAM33に記憶される。
In the
声抽出部39で抽出された人物の声は、RAM33から音声感情認識部40に読み出される。音声感情認識部40では、顔検出部36で顔が検出された人物の音声感情が認識される。認識された人物の音声感情は、RAM33に記憶される。
The voice of the person extracted by the
表情認識部37で認識された顔の表情、動き検知部38で検知された人物の動き、及び音声感情認識部40で認識された音声感情は、RAM33から感情判定部41に読み出される。感情判定部41では、感情DB45に格納された感情テーブル51(図4参照)が参照されながら、顔検出部36で顔が検出された人物の感情が判定される。判定された感情は、RAM33に記憶される。
The facial expression recognized by the facial
感情判定部41で判定された感情は、RAM33から装飾画像取得部42に読み出される。装飾画像取得部42では、感情判定部41で判定された感情に対応する装飾画像(図5参照)が、装飾画像DB46から取得される。取得された装飾画像は、RAM33に記憶される。
The emotion determined by the
装飾画像取得部42で取得された装飾画像は、RAM33から合成処理部43に読み出される。合成処理部43では、装飾画像取得部42で取得された装飾画像が、動画コンテンツを構成する静止画のフレームに合成される。装飾画像が合成された動画コンテンツは、RAM33に記憶される。
The decoration image acquired by the decoration
合成処理部43で装飾画像が合成された動画コンテンツは、顔検出→表情認識→動き検知→声抽出→音声感情認識→感情判定→性別判定→年齢判定→装飾画像取得→画像合成の一連の処理が終了した所定のスパン毎に、RAM33から読み出される。
The moving image content in which the decoration image is synthesized by the
RAM33から読み出された動画コンテンツは、インターネット12を介してクライアント端末13に送信される。クライアント端末13に送信された動画コンテンツは、RAM23に記憶される。
The moving image content read from the
クライアント端末13に送信された動画コンテンツは、RAM23から読み出され、リアルタイムでモニタ15に表示される。
The moving image content transmitted to the client terminal 13 is read from the
以上説明したように、顔の表情だけでなく、人物の動き、及び音声感情を用いて総合的に感情を判定し、判定した感情に対応する装飾画像を合成したから、動画コンテンツに相応しい装飾画像を合成することができる。また、感情に関連性のない装飾画像を当該感情に対応させて装飾画像DB46に記憶させておくことで、意外性のある新しいストーリーを有した動画コンテンツを加工することができる(図8参照)。
As described above, not only facial expressions but also human movements and voice emotions are used to comprehensively determine emotions, and a decorative image corresponding to the determined emotions is synthesized, so a decorative image suitable for video content Can be synthesized. In addition, by storing a decoration image that is not related to emotions in the
[第2実施形態]
上記第1実施形態の動画コンテンツの加工装置では、写っている人物の性別・年齢と関連性のない装飾画像を合成するから、例えば、女児が写っている動画コンテンツに対して老父の台詞の吹出しの装飾画像を合成した場合、女児が老父の台詞を発していることになり、当該動画コンテンツを見た人に違和感を与えてしまう。確かに、男性が写っている動画コンテンツに対して女性の台詞の吹出しの装飾画像を合成した場合、男性が女性の台詞を発していることになるから、その動画コンテンツを見た人にその男性がニューハーフであると感じさせるなど、意外性を楽しませることも可能である。しかし、全ての人物について性別・年齢と関連性のない装飾画像を合成することは、違和感を与えるだけであり好ましいことではない。そこで、次に説明する第2実施形態の動画コンテンツの加工装置では、写っている人物の性別・年齢と関連性のある装飾画像を合成し、動画コンテンツを見た人に違和感を与えないようにする。
[Second Embodiment]
In the moving image content processing apparatus according to the first embodiment, a decoration image that is not related to the gender / age of the person being photographed is synthesized. If the decorative image is synthesized, the girl child is uttering the words of the old father, which gives a strange feeling to the person who viewed the moving image content. Certainly, when a decorative image of a female speech balloon is combined with a video content showing a male, the male is speaking a female speech. It is also possible to entertain unexpectedness, such as making you feel that she is a shemale. However, synthesizing decorative images that are not related to gender and age for all persons only gives a sense of incongruity and is not preferable. Therefore, in the moving image content processing apparatus according to the second embodiment, which will be described next, a decorative image that is related to the gender and age of the person being photographed is synthesized so as not to give a sense of incongruity to the person who viewed the moving image content. To do.
図10において、第2実施形態における動画コンテンツの加工装置は、動画コンテンツの加工プログラム44のインストールによってサーバ61に構築される形式で実現される。CPU31には、データバス32を介して、性別推定部62、及び年齢推定部63などが接続されている。
In FIG. 10, the moving image content processing apparatus according to the second embodiment is realized in a format constructed in the server 61 by installing the moving image
装飾画像DB46には、複数種類の装飾画像が、感情、性別、及び年齢の組合せと対応させて記憶されている。
In the
性別推定部62は、顔検出部36で顔が検出された人物の性別を推定する。具体的には、顔検出部36で検出された顔、表情認識部37で認識された顔の表情、声抽出部39で抽出された人物の声、及び音声感情認識部40で認識された音声感情を元に、人物の性別を推定する。性別の推定には、特開2007−080057号公報などで開示されている技術を利用する。なお、詳しい説明は、特開2007−080057号公報などを参照されたい。
The
年齢推定部63は、顔検出部36で顔が検出された人物の年齢を推定する。具体的には、顔検出部36で検出された顔、表情認識部37で認識された顔の表情、声抽出部39で抽出された人物の声、及び音声感情認識部40で認識された音声感情を元に、人物の年齢を推定する。年齢の推定には、特開2007−080057号公報などで開示されている技術を利用する。なお、詳しい説明は、特開2007−080057号公報などを参照されたい。
The
装飾画像取得部42は、装飾画像DB46にアクセスし、感情判定部41で判定された感情、性別推定部62で推定された性別、及び年齢推定部63で推定された年齢の組合せに対応する装飾画像を取得する。なお、上記第1実施形態と同様の構成については、その説明を省略する。
The decoration
次に、上記構成のサーバ61(図10参照)が動画コンテンツの加工装置として機能したときの処理手順について、図11のフローチャートを参照しながら説明する。なお、上記第1実施形態と同様の処理手順については、その説明を省略する。 Next, a processing procedure when the server 61 (see FIG. 10) configured as described above functions as a moving image content processing apparatus will be described with reference to the flowchart of FIG. Note that a description of processing procedures similar to those in the first embodiment is omitted.
顔検出部36で検出された顔、表情認識部37で認識された顔の表情、声抽出部39で抽出された人物の声、及び音声感情認識部40で認識された音声感情は、RAM33から性別推定部62、及び年齢推定部63のそれぞれに読み出される。性別推定部62では、顔検出部36で顔が検出された人物の性別が推定される。推定された性別は、RAM33に記憶される。なお、顔検出部36で顔が検出された人物の性別が一旦推定された場合、該当する人物については、性別推定部62による処理を省略してもよい。
The face detected by the
年齢推定部63では、顔検出部36で顔が検出された人物の性別が推定される。推定さえた年齢は、RAM33に記憶される。なお、顔検出部36で顔が検出された人物の年齢が一旦推定された場合、該当する人物については、年齢推定部63による処理を省略してもよい。
The
感情判定部41で判定された感情、性別推定部62で推定された性別、及び年齢推定部63で推定された年齢は、RAM33から装飾画像取得部42に読み出される。装飾画像取得部42では、感情判定部41で判定された感情、性別推定部62で推定された性別、及び年齢推定部63で推定された年齢の組合せに対応する装飾画像が、装飾画像DB46から取得される。
The emotion determined by the
合成処理部43で装飾画像が合成された動画コンテンツは、顔検出→表情認識→動き検知→声抽出→音声感情認識→感情判定→性別推定→年齢推定→装飾画像取得→画像合成の一連の処理が終了した所定のスパン毎に、RAM33から読み出される。
The moving image content in which the decoration image is synthesized by the
以上説明したように、写っている人物の性別・年齢と関連性のある装飾画像を合成するようにしたから、例えば、女児が老父の台詞を発しているような動画コンテンツになることはなく、動画コンテンツを見た人に違和感を与えることはない。 As explained above, since the decoration image that is related to the gender and age of the person in the picture is synthesized, for example, it will not become a video content that the girl is uttering the words of the old father, It does not give a sense of incongruity to those who have seen video content.
なお、上記各実施形態では、インターネット12に接続されたサーバ11に動画コンテンツの加工装置が構築され、万人がアクセス可能である場合を例に説明したが、これに限定されるものではない。例えば、個人が使用するパーソナルコンピュータに動画コンテンツの加工装置が構築されるようにしてもよい。また、動画撮影可能なデジタルカメラに、動画コンテンツの加工機能を備えるようにしてもよい。
In each of the above embodiments, a case has been described in which a moving image content processing apparatus is constructed in the
また、上記各実施形態では、所定のスパンに区切られた全てに対して加工処理が施されたが、感情が変化した時にだけ加工処理が施されるようにしてもよい。この場合、装飾画像取得部42及び合成処理部43は、感情判定部41で判定された感情が変化した時にだけ処理を実行することになる。
Further, in each of the above embodiments, the processing is performed on all of the sections divided into the predetermined spans, but the processing may be performed only when the emotion changes. In this case, the decoration
また、上記各実施形態では、心の内を示す吹出し、擬音及び漫符、及び台詞の吹出しの装飾画像の場合を例に説明したが、この場合に限定されることはない。また、旅行、結婚式、入学式、誕生日などの場面に応じた装飾画像を用いてもよい。 Further, in each of the above embodiments, the case of the decoration image of the balloon showing the inside of the heart, the onomatopoeia and the comics, and the balloon of the dialogue is described as an example, but the present invention is not limited to this case. In addition, decorative images corresponding to scenes such as travel, wedding ceremony, entrance ceremony, and birthday may be used.
また、上記各実施形態では、ユーザーがクライアント端末13で選択した種類の装飾画像が合成される場合を例に説明したが、動画コンテンツの加工装置がランダムに選択した種類の装飾画像が合成されるようにしてもよい。 Further, in each of the above embodiments, the case where the type of decoration image selected by the user on the client terminal 13 is combined has been described as an example. However, the type of decoration image randomly selected by the moving image content processing apparatus is combined. You may do it.
また、上記各実施形態では、静止画である装飾画像を合成する場合を例に説明したが、動画、音声、その他のコンテンツを合成するようにしてもよい。 In each of the above-described embodiments, the case where a decorative image that is a still image is combined has been described as an example. However, a moving image, audio, or other content may be combined.
また、上記各実施形態で示した動画コンテンツの加工装置は一例にすぎず、本発明の趣旨を逸脱しなければ、如何様な態様にも適宜変更することができる。 Further, the moving image content processing apparatus shown in each of the above embodiments is merely an example, and can be appropriately changed to any mode without departing from the gist of the present invention.
11、61 サーバ(動画コンテンツの加工装置)
36 顔検出部
37 表情認識部
38 動き検知部
39 声抽出部
40 音声感情認識部
41 感情判定部
42 装飾画像取得部
43 合成処理部
44 動画コンテンツの加工プログラム
45 感情データベース(感情DB)
46 装飾画像データベース(装飾画像DB)
51 感情テーブル
62 性別推定部
63 年齢推定部
11, 61 server (video content processing device)
36
46 Decorative Image Database (Decorative Image DB)
51 Emotion Table 62
Claims (8)
前記顔検出部で検出された顔の表情を認識する表情認識部と、
動画コンテンツから、前記顔検出部で顔が検出された人物の動きを検知する動き検知部と、
動画コンテンツから、前記顔検出部で顔が検出された人物の声を抽出する声抽出部と、
前記表情認識部で認識された顔の表情、前記動き検知部で検知された人物の動き、及び前記声抽出部で抽出された声から、前記顔検出部で顔が検出された人物の感情を判定する感情判定部と、
前記感情判定部で判定された感情に基づいて動画コンテンツを加工する加工処理部とを備えたことを特徴とする動画コンテンツの加工装置。 A face detection unit that detects faces from video content;
A facial expression recognition unit that recognizes facial expressions detected by the face detection unit;
A motion detection unit that detects a motion of a person whose face is detected by the face detection unit from video content;
A voice extraction unit that extracts a voice of a person whose face is detected by the face detection unit from video content;
From the facial expression recognized by the facial expression recognition unit, the movement of the person detected by the motion detection unit, and the voice extracted by the voice extraction unit, the emotion of the person whose face is detected by the face detection unit An emotion determination unit for determining;
A video content processing apparatus comprising: a processing unit that processes video content based on the emotion determined by the emotion determination unit.
顔の表情、人物の動き、及び音声感情の組合せと、感情とを対応させて記憶した感情テーブルを格納した感情データベースとを備え、
前記感情判定部は、前記感情テーブルを用いて、前記表情認識部で認識された顔の表情、前記動き検知部で検知された人物の動き、及び前記音声感情認識部で認識された音声感情の組合せに対応する感情を、前記顔検出部で顔が検出された人物の感情であると判定することを特徴とする請求項1に記載の動画コンテンツの加工装置。 A voice emotion recognition unit that recognizes voice emotions from the voice extracted by the voice extraction unit;
An emotion database storing an emotion table that stores a combination of facial expressions, human movements, and voice emotions, and the emotions stored in correspondence with each other;
The emotion determination unit uses the emotion table to determine the facial expression recognized by the facial expression recognition unit, the movement of the person detected by the motion detection unit, and the voice emotion recognized by the voice emotion recognition unit. The moving image content processing apparatus according to claim 1, wherein an emotion corresponding to the combination is determined to be an emotion of a person whose face is detected by the face detection unit.
前記感情判定部で判定された感情に対応する前記装飾コンテンツを前記装飾コンテンツデータベースから取得する装飾コンテンツ取得部とを備え、
前記加工処理部は、前記装飾コンテンツ取得部で取得された前記装飾コンテンツを動画コンテンツに合成する合成処理部であることを特徴とする請求項1又は2に記載の動画コンテンツの加工装置。 A decoration content database that stores decoration content to be decorated in video content in correspondence with emotions;
A decoration content acquisition unit that acquires the decoration content corresponding to the emotion determined by the emotion determination unit from the decoration content database;
The moving image content processing apparatus according to claim 1, wherein the processing unit is a composition processing unit that combines the decorative content acquired by the decorative content acquisition unit with the moving image content.
前記装飾コンテンツ取得部は、入力された種類の前記装飾コンテンツを取得することを特徴とする請求項3に記載の動画コンテンツの加工装置。 The decorative content stored in the decorative content database corresponding to emotions is a plurality of types,
The video content processing apparatus according to claim 3, wherein the decoration content acquisition unit acquires the input type of the decoration content.
前記加工処理部は、前記性別判別部で推定された性別に基づいて動画コンテンツを加工することを特徴とする請求項1〜4のいずれかに記載の動画コンテンツの加工装置。 A gender estimating unit that estimates the gender of the person whose face is detected by the face detecting unit from the face detected by the face detecting unit and the voice extracted by the voice extracting unit;
5. The moving image content processing apparatus according to claim 1, wherein the processing unit processes the moving image content based on the gender estimated by the gender determination unit.
前記加工処理部は、前記年齢判別部で推定された年齢に基づいて動画コンテンツを加工することを特徴とする請求項1〜5のいずれかに記載の動画コンテンツの加工装置。 An age estimation unit for estimating the age of a person whose face is detected by the face detection unit from the face detected by the face detection unit and the voice extracted by the voice extraction unit;
The moving image content processing apparatus according to claim 1, wherein the processing unit processes the moving image content based on the age estimated by the age determination unit.
前記顔検出ステップで検出された顔の表情を表情認識部で認識する表情認識ステップと、
動画コンテンツから、前記顔検出ステップで顔が検出された人物の動きを動き検知部で検知する動き検知ステップと、
動画コンテンツから、前記顔検出ステップで顔が検出された人物の声を声抽出部で抽出する声抽出ステップと、
前記表情認識ステップで認識された顔の表情、前記動き検知ステップで検知された人物の動き、及び前記声抽出ステップで抽出された声から、前記顔検出ステップで顔が検出された人物の感情を感情判定部で判定する感情判定ステップと、
前記感情判定ステップで判定された感情に基づいて動画コンテンツを加工処理部で加工する加工ステップとを備えたことを特徴とする動画コンテンツの加工方法。 A face detection step of detecting a face from the video content in the face detection unit;
A facial expression recognition step for recognizing the facial expression detected in the face detection step by a facial expression recognition unit;
A motion detection step in which a motion detection unit detects a motion of a person whose face is detected in the face detection step from video content;
A voice extraction step of extracting a voice of a person whose face is detected in the face detection step by a voice extraction unit from video content;
From the facial expression recognized in the facial expression recognition step, the movement of the person detected in the motion detection step, and the voice extracted in the voice extraction step, the emotion of the person whose face was detected in the face detection step is represented. An emotion determination step for determination by the emotion determination unit;
A processing method for moving image content, comprising: a processing step for processing the moving image content by a processing processing unit based on the emotion determined in the emotion determination step.
前記顔検出ステップで検出された顔の表情を認識する表情認識ステップと、
動画コンテンツから、前記顔検出ステップで顔が検出された人物の動きを検知する動き検知ステップと、
動画コンテンツから、前記顔検出ステップで顔が検出された人物の声を抽出する声抽出ステップと、
前記表情認識ステップで認識された顔の表情、前記動き検知ステップで検知された人物の動き、及び前記声抽出ステップで抽出された声から、前記顔検出ステップで顔が検出された人物の感情を判定する感情判定ステップと、
前記感情判定ステップで判定された感情に基づいて動画コンテンツを加工する加工ステップとをコンピュータに実行させることを特徴とする動画コンテンツの加工プログラム。 A face detection step for detecting a face from video content;
A facial expression recognition step for recognizing facial expressions detected in the face detection step;
A motion detection step for detecting a motion of a person whose face is detected in the face detection step from video content;
A voice extraction step of extracting the voice of the person whose face was detected in the face detection step from the video content;
From the facial expression recognized in the facial expression recognition step, the movement of the person detected in the motion detection step, and the voice extracted in the voice extraction step, the emotion of the person whose face was detected in the face detection step is represented. An emotion determination step for determining;
A video content processing program that causes a computer to execute a processing step of processing video content based on the emotion determined in the emotion determination step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008230442A JP2010066844A (en) | 2008-09-09 | 2008-09-09 | Method and device for processing video content, and program for processing video content |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008230442A JP2010066844A (en) | 2008-09-09 | 2008-09-09 | Method and device for processing video content, and program for processing video content |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010066844A true JP2010066844A (en) | 2010-03-25 |
Family
ID=42192404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008230442A Pending JP2010066844A (en) | 2008-09-09 | 2008-09-09 | Method and device for processing video content, and program for processing video content |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010066844A (en) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100329505A1 (en) * | 2009-06-30 | 2010-12-30 | Kabushiki Kaisha Toshiba | Image processing apparatus and method for processing image |
JP2011139329A (en) * | 2009-12-28 | 2011-07-14 | Casio Computer Co Ltd | Image processing apparatus, and image modification program |
WO2012070429A1 (en) * | 2010-11-24 | 2012-05-31 | 日本電気株式会社 | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
WO2012070430A1 (en) * | 2010-11-24 | 2012-05-31 | 日本電気株式会社 | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
WO2012070428A1 (en) * | 2010-11-24 | 2012-05-31 | 日本電気株式会社 | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
JP2013069185A (en) * | 2011-09-26 | 2013-04-18 | Dainippon Printing Co Ltd | Text input support system, text insertion method, server and program |
KR20130125367A (en) * | 2010-11-12 | 2013-11-18 | 마이크로소프트 코포레이션 | Audience-based presentation and customization of content |
EP2793167A2 (en) | 2013-04-15 | 2014-10-22 | Omron Corporation | Expression estimation device, control method, control program, and recording medium |
CN105791692A (en) * | 2016-03-14 | 2016-07-20 | 腾讯科技(深圳)有限公司 | Information processing method and terminal |
WO2016174784A1 (en) * | 2015-04-28 | 2016-11-03 | シャープ株式会社 | Control device and display device |
JP2017054241A (en) * | 2015-09-08 | 2017-03-16 | 株式会社東芝 | Display control device, method, and program |
CN107943279A (en) * | 2017-10-27 | 2018-04-20 | 捷开通讯(深圳)有限公司 | Intelligent wearable device and method of work, the device with store function |
CN109688451A (en) * | 2017-10-18 | 2019-04-26 | 纳宝株式会社 | The providing method and system of video camera effect |
JP2019537298A (en) * | 2016-10-01 | 2019-12-19 | フェイスブック,インク. | Arrangement for augmenting video data obtained by a client device with one or more effects during rendering |
US10580188B2 (en) | 2017-09-05 | 2020-03-03 | Kakao Corp. | Method of creating animated image based on key input, and user terminal for performing the method |
WO2020138546A1 (en) * | 2018-12-27 | 2020-07-02 | 주식회사 사이 | User preference-based trailer image generation system |
WO2020138545A1 (en) * | 2018-12-27 | 2020-07-02 | 주식회사 사이 | System for generating trailer image on basis of user query |
WO2020153785A1 (en) * | 2019-01-24 | 2020-07-30 | 삼성전자 주식회사 | Electronic device and method for providing graphic object corresponding to emotion information by using same |
KR102192010B1 (en) * | 2019-12-27 | 2020-12-16 | 쿨클라우드(주) | Method for providing contents based on inference engine and deploying engine and electronic device using the same |
JP2021064067A (en) * | 2019-10-10 | 2021-04-22 | 沖電気工業株式会社 | Apparatus, information processing method, program, information processing system, and method of information processing system |
WO2022249241A1 (en) * | 2021-05-24 | 2022-12-01 | 日本電信電話株式会社 | Training device, training method, and training program |
-
2008
- 2008-09-09 JP JP2008230442A patent/JP2010066844A/en active Pending
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8391544B2 (en) * | 2009-06-30 | 2013-03-05 | Kabushiki Kaisha Toshiba | Image processing apparatus and method for processing image |
JP2011013384A (en) * | 2009-06-30 | 2011-01-20 | Toshiba Corp | Image processing device and image processing method |
JP4660611B2 (en) * | 2009-06-30 | 2011-03-30 | 株式会社東芝 | Image processing apparatus and image processing method |
US20100329505A1 (en) * | 2009-06-30 | 2010-12-30 | Kabushiki Kaisha Toshiba | Image processing apparatus and method for processing image |
JP2011139329A (en) * | 2009-12-28 | 2011-07-14 | Casio Computer Co Ltd | Image processing apparatus, and image modification program |
KR101871526B1 (en) * | 2010-11-12 | 2018-06-26 | 지구 홀딩스 리미티드 | Audience-based presentation and customization of content |
KR20130125367A (en) * | 2010-11-12 | 2013-11-18 | 마이크로소프트 코포레이션 | Audience-based presentation and customization of content |
US20130279747A1 (en) * | 2010-11-24 | 2013-10-24 | Nec Corporation | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
US9196042B2 (en) | 2010-11-24 | 2015-11-24 | Nec Corporation | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
US20130188835A1 (en) * | 2010-11-24 | 2013-07-25 | Nec Corporation | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
WO2012070429A1 (en) * | 2010-11-24 | 2012-05-31 | 日本電気株式会社 | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
WO2012070428A1 (en) * | 2010-11-24 | 2012-05-31 | 日本電気株式会社 | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
WO2012070430A1 (en) * | 2010-11-24 | 2012-05-31 | 日本電気株式会社 | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
US9183632B2 (en) | 2010-11-24 | 2015-11-10 | Nec Corporation | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
US9224033B2 (en) | 2010-11-24 | 2015-12-29 | Nec Corporation | Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program |
JP2013069185A (en) * | 2011-09-26 | 2013-04-18 | Dainippon Printing Co Ltd | Text input support system, text insertion method, server and program |
US9256953B2 (en) | 2013-04-15 | 2016-02-09 | Omron Corporation | Expression estimation device, control method, control program, and recording medium |
EP2793167A2 (en) | 2013-04-15 | 2014-10-22 | Omron Corporation | Expression estimation device, control method, control program, and recording medium |
WO2016174784A1 (en) * | 2015-04-28 | 2016-11-03 | シャープ株式会社 | Control device and display device |
JPWO2016174784A1 (en) * | 2015-04-28 | 2018-02-22 | シャープ株式会社 | Control device and display device |
JP2017054241A (en) * | 2015-09-08 | 2017-03-16 | 株式会社東芝 | Display control device, method, and program |
KR102135215B1 (en) * | 2016-03-14 | 2020-07-17 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | Information processing method and terminal |
US11140436B2 (en) | 2016-03-14 | 2021-10-05 | Tencent Technology (Shenzhen) Company Limited | Information processing method and terminal |
WO2017157272A1 (en) * | 2016-03-14 | 2017-09-21 | 腾讯科技(深圳)有限公司 | Information processing method and terminal |
KR20180112848A (en) * | 2016-03-14 | 2018-10-12 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | Information processing method and terminal |
JP2019504532A (en) * | 2016-03-14 | 2019-02-14 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | Information processing method and terminal |
CN105791692A (en) * | 2016-03-14 | 2016-07-20 | 腾讯科技(深圳)有限公司 | Information processing method and terminal |
CN105791692B (en) * | 2016-03-14 | 2020-04-07 | 腾讯科技(深圳)有限公司 | Information processing method, terminal and storage medium |
JP2019537298A (en) * | 2016-10-01 | 2019-12-19 | フェイスブック,インク. | Arrangement for augmenting video data obtained by a client device with one or more effects during rendering |
US10977847B2 (en) | 2016-10-01 | 2021-04-13 | Facebook, Inc. | Architecture for augmenting video data obtained by a client device with one or more effects during rendering |
US10580188B2 (en) | 2017-09-05 | 2020-03-03 | Kakao Corp. | Method of creating animated image based on key input, and user terminal for performing the method |
JP2019075124A (en) * | 2017-10-18 | 2019-05-16 | ネイバー コーポレーションNAVER Corporation | Method and system for providing camera effect |
CN109688451B (en) * | 2017-10-18 | 2021-04-02 | 纳宝株式会社 | Method and system for providing camera effect |
CN109688451A (en) * | 2017-10-18 | 2019-04-26 | 纳宝株式会社 | The providing method and system of video camera effect |
US10742900B2 (en) | 2017-10-18 | 2020-08-11 | Naver Corporation | Method and system for providing camera effect |
CN107943279A (en) * | 2017-10-27 | 2018-04-20 | 捷开通讯(深圳)有限公司 | Intelligent wearable device and method of work, the device with store function |
WO2020138545A1 (en) * | 2018-12-27 | 2020-07-02 | 주식회사 사이 | System for generating trailer image on basis of user query |
WO2020138546A1 (en) * | 2018-12-27 | 2020-07-02 | 주식회사 사이 | User preference-based trailer image generation system |
WO2020153785A1 (en) * | 2019-01-24 | 2020-07-30 | 삼성전자 주식회사 | Electronic device and method for providing graphic object corresponding to emotion information by using same |
JP2021064067A (en) * | 2019-10-10 | 2021-04-22 | 沖電気工業株式会社 | Apparatus, information processing method, program, information processing system, and method of information processing system |
JP7392377B2 (en) | 2019-10-10 | 2023-12-06 | 沖電気工業株式会社 | Equipment, information processing methods, programs, information processing systems, and information processing system methods |
KR102192027B1 (en) * | 2019-12-27 | 2020-12-16 | 쿨클라우드(주) | Method for providing contents based on inference engine and electronic device using the same |
KR102192010B1 (en) * | 2019-12-27 | 2020-12-16 | 쿨클라우드(주) | Method for providing contents based on inference engine and deploying engine and electronic device using the same |
WO2022249241A1 (en) * | 2021-05-24 | 2022-12-01 | 日本電信電話株式会社 | Training device, training method, and training program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010066844A (en) | Method and device for processing video content, and program for processing video content | |
JP4310916B2 (en) | Video display device | |
Chen et al. | What comprises a good talking-head video generation?: A survey and benchmark | |
JP6369462B2 (en) | Client device, control method, system, and program | |
Chou et al. | NNIME: The NTHU-NTUA Chinese interactive multimodal emotion corpus | |
US20160134840A1 (en) | Avatar-Mediated Telepresence Systems with Enhanced Filtering | |
WO2023011221A1 (en) | Blend shape value output method, storage medium and electronic apparatus | |
JP2009533786A (en) | Self-realistic talking head creation system and method | |
JP6656447B1 (en) | Video output system | |
US8958686B2 (en) | Information processing device, synchronization method, and program | |
JP4641389B2 (en) | Information processing method and information processing apparatus | |
JPH11219446A (en) | Video/sound reproducing system | |
WO2017061149A1 (en) | Information processing device, information processing method and program | |
CN107825429A (en) | Interface and method | |
US20180027090A1 (en) | Information processing device, information processing method, and program | |
JP6711044B2 (en) | Image processing device, display device, animation generation method, and program | |
JP2007101945A (en) | Apparatus, method, and program for processing video data with audio | |
KR101913811B1 (en) | A method for analysing face information, and an appratus for analysing face information to present faces, identify mental status or compensate it | |
CN113395569B (en) | Video generation method and device | |
KR20140065762A (en) | System for providing character video and method thereof | |
JP2017064853A (en) | Robot, content deciding device, content deciding method, and program | |
JP2010251841A (en) | Image extraction program and image extraction device | |
JP7206741B2 (en) | HEALTH CONDITION DETERMINATION SYSTEM, HEALTH CONDITION DETERMINATION DEVICE, SERVER, HEALTH CONDITION DETERMINATION METHOD, AND PROGRAM | |
CN111160051B (en) | Data processing method, device, electronic equipment and storage medium | |
JP2008186075A (en) | Interactive image display device |