JP6783479B1 - 動画生成プログラム、動画生成装置及び動画生成方法 - Google Patents

動画生成プログラム、動画生成装置及び動画生成方法 Download PDF

Info

Publication number
JP6783479B1
JP6783479B1 JP2019157270A JP2019157270A JP6783479B1 JP 6783479 B1 JP6783479 B1 JP 6783479B1 JP 2019157270 A JP2019157270 A JP 2019157270A JP 2019157270 A JP2019157270 A JP 2019157270A JP 6783479 B1 JP6783479 B1 JP 6783479B1
Authority
JP
Japan
Prior art keywords
moving image
still
category
generation model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2019157270A
Other languages
English (en)
Other versions
JP2021033961A (ja
Inventor
鈴木 康介
康介 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzuko Co Ltd
Original Assignee
Suzuko Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzuko Co Ltd filed Critical Suzuko Co Ltd
Priority to JP2019157270A priority Critical patent/JP6783479B1/ja
Priority to PCT/JP2020/031391 priority patent/WO2021039561A1/ja
Application granted granted Critical
Publication of JP6783479B1 publication Critical patent/JP6783479B1/ja
Publication of JP2021033961A publication Critical patent/JP2021033961A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】テキスト及び静止画像から動画像を出力することができる動画生成プログラム、動画生成装置及び動画生成方法を提供する。【解決手段】動画生成プログラムは、静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、テキスト及び静止画像を含むコンテンツを受け付け、受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、決定されたカテゴリーに対応する前記動画生成モデルを選択し、選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成する処理を実行させる。【選択図】図9

Description

本発明は、テキスト及び静止画像から動画像データを出力する動画生成プログラム、動画生成装置及び動画生成方法に関する。
撮影された複数の静止画像を、アニメーション的な動きを与えて変形させながらスライド上映のように切り替えて表示するアルバム動画像を作成する方法が種々提案されている。特許文献1には、連続撮影画像及び撮影間隔が短い画像を短い間隔で切り替えてパラパラ漫画のような効果で演出させた動画像を作成する方法が開示されている。
特開2008−118481号公報
静止画像に対してアニメーション的な動きを与えることは、矩形の静止画像の変形等によって実現されるが、静止画像に写っている被写体は静止画像に対して静止したままか、又は、前後に撮影された静止画像に写っている同一被写体を用いて少し動くように演出される程度である。
昨今では、ユーザは文章を読んで文字によって情報を入力するよりも、各々のユーザが好きなタイミングで動画を観てニュース、ストーリー、広告等のコンテンツを把握することが可能になった。しかしながら全ての題材について動画像を撮影しておくことは困難である。テキスト又は静止画像が存在するが、動画像が存在しないコンテンツもある。
本発明は、テキスト及び静止画像から動画像を出力することができる動画生成プログラム、動画生成装置及び動画生成方法を提供することを目的とする。
本開示の一実施形態の動画生成プログラムは、静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、テキスト及び静止画像を含むコンテンツを受け付け、受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、決定されたカテゴリーに対応する前記動画生成モデルを選択し、選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成する処理を実行させる。
本開示の一実施形態の動画生成装置は、静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に複数記憶する記憶部と、テキスト及び静止画像を含むコンテンツを受け付ける受付部と、受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定する決定部と、決定されたカテゴリーに対応する前記動画生成モデルを選択する選択部と、選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成する生成部とを備える。
本開示の一実施形態の動画生成方法は、静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に複数記憶しておき、テキスト及び静止画像を含むコンテンツを受け付け、受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、決定されたカテゴリーに対応する前記動画生成モデルを選択し、選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成する処理を含む。
本開示では、コンテンツに含まれるテキスト及び静止画像の内のいずれかに応じたカテゴリーの動画生成モデルを用いて動画像データが生成される。
本開示によれば、テキスト及び静止画像を含むコンテンツから、カテゴリーに応じた、スライド上映のような動画像とは異なる動きを持たせた動画像を出力することができる。
実施の形態1における動画生成装置の構成を示すブロック図である。 実施の形態1における動画生成装置の機能ブロック図である。 動画生成モデルの概要図である。 アップサンプリングネットワークの一例を示す説明図である。 動画生成モデルの学習方法の概要図である。 動画生成モデルの学習処理手順の一例を示すフローチャートである。 実施の形態1における分類モデルの概要図である。 動画像データの生成処理手順の一例を示すフローチャートである。 動画生成装置によって生成される動画像の概要図である。 動画生成装置によって生成される動画像の一表示例である。 実施の形態2における動画像データの生成処理手順の一例を示すフローチャートである。 実施の形態2における動画生成処理手順の他の一例を示すフローチャートである。 実施の形態2における動画生成処理手順の他の一例を示すフローチャートである。 実施の形態3における動画生成処理手順の一例を示すフローチャートである。 実施の形態4における動画生成装置の構成を示すブロック図である。 実施の形態4における動画生成装置の機能ブロック図である。 音声出力モデルの概要図である。 実施の形態4における動画生成処理手順の一例を示すフローチャートである。 実施の形態4における動画生成処理手順の他の一例を示すフローチャートである。 実施の形態5における動画生成装置の処理手順の一例を示すフローチャートである。 実施の形態6における動画生成装置の構成を示すブロック図である。 実施の形態6における動画生成装置の機能ブロック図である。 テキスト生成モデルを用いたテキスト生成の概要図である。 実施の形態6における動画生成処理手順の一例を示すフローチャートである。 実施の形態6における動画生成処理手順の一例を示すフローチャートである。
以下、本願に係る動画生成プログラム、動画生成装置及び動画生成方法について、実施の形態を示す図面を参照しつつ説明する。
(実施の形態1)
図1は、実施の形態1における動画生成装置1の構成を示すブロック図であり、図2は、動画生成装置1の機能ブロック図である。動画生成装置1は、制御部10、画像処理部11、記憶部12、表示部13、操作部14、通信部15及び読取部16を備える。なお動画生成装置1の動作について以下では、1台のコンピュータによる動作として説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
制御部10は、CPU(Central Processing Unit )及び/又はGPU(Graphics Processing Unit)のプロセッサ及びメモリ等を用い、動画生成プログラム1Pに基づいて装置の構成部を制御する。画像処理部11は、GPU又は専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行する。なお、制御部10及び画像処理部11は、一体のハードウェアであってもよい。また制御部10及び画像処理部11は、CPU、GPU等のプロセッサ、メモリ、更には記憶部12及び通信部15を集積した1つのハードウェア(SoC:System On a Chip)として構成されていてもよい。
記憶部12は、ハードディスク又はフラッシュメモリを用いる。記憶部12には、動画生成プログラム1Pが記憶されている。記憶部12には、動画生成モデル1Mの定義及び動画生成モデル1Mにおける重み係数等のパラメータを含む動画生成モデルデータが記憶される。動画生成モデル1Mのモデルデータは、異なるカテゴリー別に、カテゴリーを識別するカテゴリーIDと対応付けて記憶されている。カテゴリーは実施の形態1では「人物」、「動物(自然物)」、及び「移動体(乗り物)」であり、カテゴリーIDは夫々「01」、「02」、及び「03」である。画像処理部11が、動画生成モデル1Mのモデルデータに含まれる定義情報及び学習済みパラメータに基づいて、静止画像データが入力された場合に、静止画像データに基づく動画像を生成して出力する動画生成モデル1Mとして機能する。
記憶部12には、音声合成モジュールプログラム12Pが記憶されている。制御部10は、音声合成モジュールプログラム12Pによって、テキストから音声データを生成する音声生成部104として機能する。
記憶部12には、分類モデル2Mの定義及び分類モデル2Mにおける重み係数等のパラメータを含むデータが記憶される。制御部10は、分類モデル2Mの定義及び学習済みパラメータを含むデータに基づいて、静止画像データが入力された場合に、静止画像に写っている被写体のカテゴリーへ分類し、分類結果を出力する分類モデル2Mとして機能する。
表示部13は、液晶パネル又は有機EL(Electro Luminescence)ディスプレイ等を用いる。表示部13は、制御部10の指示による画像処理部11での処理によって画像を表示することが可能である。
操作部14は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。操作部14は、表示部13に表示されるソフトウェアボタン等であってもよい。操作部14は、ユーザによる操作情報を制御部10へ通知する。
通信部15は、インターネットに接続するための通信デバイスである。制御部10は、通信部15を介してインターネット上で取得可能なコンテンツを取得する。
読取部16は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体3に記憶してある動画生成プログラム31P、音声合成モジュールプログラム32Pを読み取ることが可能である。読取部16は、記録媒体3に記憶してある動画生成モデルのモデルデータ、分類モデルのモデルデータを読み取ることが可能である。記憶部12に記憶してある動画生成プログラム1P、音声合成モジュールプログラム12P、動画生成モデル1Mのモデルデータ、分類モデル2Mのモデルデータは、記録媒体3から読取部16が読み取った動画生成プログラム31P、音声合成モジュールプログラム32P、動画生成モデルデータ、分類モデルデータを制御部10が記憶部12に複製したものであってもよい。
図2に示すように、動画生成装置1の制御部10及び画像処理部11は、記憶部12に記憶してある動画生成プログラム1Pに基づき、受付部101、カテゴリー決定部102、モデル選択部103、音声生成部104、及び動画生成部105として機能する。
受付部101は、表示部13及び操作部14を介したユーザの操作に基づき、生成する動画の基となるコンテンツを受け付ける。コンテンツは記憶部12に予め記憶されている。動画生成装置1が通信部を備え、受付部101は、外部から通信によってコンテンツを受け付けてもよいし、動画生成装置1がカメラを内蔵する場合、カメラによって撮像されたコンテンツを受け付けてもよい。
カテゴリー決定部102は、受付部101が受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定する。実施の形態1では、カテゴリー決定部102は、静止画像が入力された場合に、静止画像に写っている被写体のカテゴリーを出力するように学習されている分類モデル2Mを用いる。カテゴリーは実施の形態1では例えば、上述のように「人物」、「動物(自然物)」、及び「移動体(乗り物)」である。分類モデル2Mは、各々のカテゴリーのカテゴリーID「01」〜「03」夫々の確度を出力する。カテゴリー決定部102は、受け付けられたコンテンツに含まれる静止画像を分類モデル2Mへ入力し、分類モデル2Mから出力されるカテゴリーID毎の確度に基づき、最も高い確度のカテゴリーを決定する。
モデル選択部103は、カテゴリー決定部102によって決定されたカテゴリーに対応する動画生成モデル1Mを選択する。
音声生成部104は、与えられたテキストから音声データを生成する。
動画生成部105は、与えられた静止画像を、モデル選択部103によって選択された動画生成モデル1Mへ入力し、出力される動画像データを取得する。動画生成部105は、取得した動画像データに、音声生成部104によって生成された音声データを同期させた音声付き動画像を、画像処理部11を用いて生成し、メモリに出力する。
記憶部12に記憶してある動画生成モデル1M及び分類モデル2M、即ちそれらの定義及びパラメータを含むデータは、予め、他の学習装置又は動画生成装置1自体で生成され、カテゴリー別に学習済みである。図3〜図7を参照して、動画生成モデル1M及び分類モデル2Mの学習方法について説明する。
図3は、動画生成モデル1Mの概要図である。動画生成モデル1Mは、エンコードネットワークと、アップサンプリングネットワークとを含み、入力された静止画像から動画像データを出力するように構成されている。エンコードネットワークは、複数段の畳み込み層を含んで入力静止画像から、動画生成の種となるコードを出力する。アップサンプリングネットワークは、エンコードネットワークから出力されるコードから空間的及び時間的にアップサンプリングする転置畳み込み層、畳み込み層、アップサンプリング層等のネットワークを適宜複数段階で組み合わせたネットワークである。
図4は、アップサンプリングネットワークの一例を示す説明図である。図4は、Carl Vondrick らの“Generating Videos with Scene Dynamics”(2016年12月5日)によって提案されている動画生成モデルを採用した一例である。アップサンプリングネットワークは、入力されたコードに基づいて、動きを含む三次元的前景(foreground)と、動かない二次元的背景(background)とに分け、各々において時系列の画像群(時間及び空間からなる画素の三次元行列Space-Time Cuboid)とマスクとを夫々生成し、合成して動画像データとして出力することが可能である。
図3及び図4に示した動画生成モデル1Mは、GAN(Generative Adversarial Networks)によって学習される。図5は、動画生成モデル1Mの学習方法の概要図である。図5に示すように、動画生成モデル1Mは、識別モデル12Mと共に学習される。識別モデル12Mは、動画像データが入力された場合に、動画生成モデル1Mによって生成されて出力された動画像データ(動画生成モデル1M由来の動画像データ)と、それ以外の元々動画像として撮影された動画像データ、又は、動画像として生成された動画像データとを識別するように定義されている。
図6は、動画生成モデル1Mの学習処理手順の一例を示すフローチャートである。動画生成モデル1Mを生成する学習装置は、動画生成モデル1Mの定義データ、及び識別モデル12Mの定義データに基づいて、動画生成モデル1Mのネットワーク及び識別モデル12Mのネットワークを作成する(ステップS101)。
学習装置は、教師データである動画像データから得られるフレーム画像である静止画像データを、動画生成モデル1Mへ入力し、動画生成モデル1Mから動画像データを出力させる(ステップS102)。教師データである複数の動画像データはいずれも、シーンチェンジを含まないように切り取られており、同一の時間長を有するとよい。
学習装置は、ステップS102で出力された動画像データに、動画生成モデル1Mで生成された動画像データであることを示すラベルを付与する(ステップS103)。
学習装置は、動画生成モデル1M由来でない動画像データの教師データとして、ステップS102でフレーム画像として抽出される元の動画像データを用い、これらの動画像データに、動画生成モデル1M由来でない画像データであることを示すラベルを付与する(ステップS104)。
学習装置は、ステップS103及びステップS104により得られるラベル付きの動画像データ群を、識別モデル12Mに入力し(ステップS105)、識別モデル12Mの損失関数を算出して学習させる(ステップS106)。
続いて学習装置は、ステップS106の学習後の識別モデル12Mを含むネットワーク(図5に示すネットワーク)における動画生成モデル1Mに、種となる静止画像を入力する(ステップS107)。ステップS107において動画生成モデル1Mに入力される静止画像は、教師データである動画像データに含まれるフレーム画像であってよい。
学習装置は、ステップS107によって動画生成モデル1Mから出力される画像データ群に基づいて動画生成モデル1Mにおける損失関数を算出して学習させる(ステップS108)。このとき学習装置は、識別モデル12Mの重み係数は固定とし、識別モデル12Mからの出力(動画生成モデル1M由来の動画像データであるか否かのラベル)から、動画生成モデル1Mのパラメータを更新する。動画像データに含まれているフレーム画像を入力して学習するので、動画生成モデル1Mからの出力と、元の動画像データとを識別モデル12Mへ入力した場合の差分によって、動画生成モデル1Mのパラメータを更新するとよい。
識別モデル12Mの学習時は、動画生成モデル1Mの学習は行なわず、動画生成モデル1Mの学習の際には識別モデル12Mの重み等のパラメータは固定させて実行する。なお、識別モデル12Mの学習と動画生成モデル1Mの学習とを同時に行なうように、定義データを作成して実行してもよい。
学習装置は、学習が所定の基準を満たすか否かを判断する(ステップS109)。所定の基準は例えば、識別モデル12Mにおける識別精度が半分、即ち動画生成モデル1Mの動画像データであることを正確に分類できなくなったか否かである。所定の基準は、学習の回数であってもよい。
ステップS109で所定の基準を満たしていないと判断された場合(S109:NO)、学習装置は処理をステップS102へ戻して学習を進行し、所定の基準を満たすと判断された場合(S109:YES)、学習装置は学習を終了する。
図5に示したネットワークに対して図6のフローチャートに示した処理手順が、カテゴリー別に実行されることによって、動画生成モデル1Mは、入力された静止画像に基づいて動画像データを出力するように生成される。例えば「人物」用の動画生成モデル1M、「動物」用の動画生成モデル1M、及び「移動体」用の動画生成モデル1Mが生成される。更には「風景」用の動画生成モデル1M等が生成されてもよい。動画生成モデル1Mのネットワーク定義及び学習方法はこれに限られない。
図7は、実施の形態1における分類モデル2Mの概要図である。分類モデル2Mは、静止画像が入力された場合に、静止画像に写っている人物、動物、又は移動体を、画像内の位置と併せて検出するように学習される。分類モデル2Mはこの場合、SSD(Single Shot MultiBox Detector )として学習される。
図7に示すように、分類モデル2Mは、入力された静止画像を複数チャネルに分解し、畳み込みまたはプーリング処理の後、複数のスケールの特徴マップを段階的に出力する。分類モデル2Mは、複数段階ごとに出力された特徴マップに対して検出範囲を候補と確度とを出力し、段階ごとに出力された検出範囲の候補に対して重複したものを除外しながら、検出範囲候補を集合させ、検出枠のおよび対応する確度(score)を出力する。
分類モデル2Mを学習するための教師データは、インターネットを介して得られる静止画像内の人物、動物、又は移動体を含む被写体の範囲を示す枠の位置、幅および高さも含む。被写体の位置も出力する分類モデル2Mは、SSDに限られずR−CNN、YOLO等に基づくモデルであってよい。
動画生成モデル1Mは、分類モデル2Mで検出された被写体以外を背景とし、オブジェクトを前景として扱って学習を進めるように、分類モデル2Mを用いてもよい。
このように学習によって生成されている動画生成モデル1M及び分類モデル2Mを用いることによって、動画生成装置1は、以下のように動画像データを生成することが可能である。図8は、動画像データの生成処理手順の一例を示すフローチャートである。
カテゴリー別の動画生成モデル1M及び分類モデル2Mを記憶部12に記憶してある動画生成装置1の制御部10は、受付部101として、テキスト及び静止画像を含むコンテンツを受け付ける(ステップS1)。コンテンツは例えば写真又はイラスト画像を含むニュース記事である。コンテンツは、小説、伝記等の書籍の一部であってもよい。書籍の一部としては、数十秒の動画像データに対応する文字数が抽出されたものであるとよい。コンテンツは、静止画像を含むSNS(Social Network Service)上の投稿であってもよい。コンテンツは、パンフレット内の記事であってもよい。コンテンツは、広告記事であってもよい。
ステップS1によって受け付けられるコンテンツは、例えばユーザが、ユーザ自身が作成したコンテンツ、又はインターネットを介して得られるコンテンツの中から選択したコンテンツである。動画生成装置1の制御部10は受付部101として、表示部13にコンテンツ選択画面を表示し、操作部14によってコンテンツ選択画面に含まれるコンテンツを指定するためのファイル名、又はインターネット上のアドレス(URL)の入力を受け付けてよい。
ステップS1によって受け付けられるコンテンツは、ユーザが動画生成装置1に備えられるカメラで撮影したコンテンツであってもよい。動画生成装置1の制御部10は受付部101として、表示部13にカメラによって撮影されるモニタ画面を表示し、モニタ画面に写り込んでいる特定の画像が認識された場合にこれを受け付ける。特定の画像とは、カテゴリー決定部102による決定の対象となる「人物」、「動物」又は「移動体」の画像である。
制御部10は、カテゴリー決定部102として、受け付けたコンテンツに含まれる静止画像を、分類モデル2Mへ入力することによってカテゴリーを決定する(ステップS2)。ステップS2において制御部10は、コンテンツに含まれる静止画像を分類モデル2Mへ入力し、「人物」が写っているのか、「動物」が写っているのか、又は「移動体(乗り物)」が写っているかで決定される。なおステップS2では、静止画像が写真画像でなくイラスト、漫画であっても、「人物」が描かれている場合は人物が写っているとしてカテゴリーが「人物」に決定される。
制御部10は、モデル選択部103として、ステップS2で決定されたカテゴリーに対応する動画生成モデル1Mを選択する(ステップS3)。ステップS3において制御部10は、カテゴリー別に記憶部12に記憶してある動画生成モデル1Mの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部11に読み出させる。
制御部10は、動画生成部105として、ステップS1で受け付けたコンテンツに含まれる静止画像を、選択された動画生成モデル1Mへ入力する(ステップS4)。
画像処理部11は、動画生成モデル1Mとして機能し、入力された静止画像に基づく動画像データを出力する(ステップS5)。
制御部10は、動画生成モデル1Mから出力された動画像データを記憶部12に記憶する(ステップS6)。
制御部10は、音声生成部104として、音声合成モジュールプログラム12Pに基づき、ステップS1で受け付けたコンテンツに含まれるテキストから音声データを生成する(ステップS7)。ステップS7において制御部10は音声生成部104として、テキストを読み上げた音声データを生成する。読み上げる音声の種類は、カテゴリー別に記憶されていてもよい。
制御部10は、ステップS7で生成した音声データを、ステップS6で記憶した動画像データに同期させて音声付き動画像を生成し(ステップS8)、生成された音声付き動画像を記憶部12に記憶し(ステップS9)、処理を終了する。
ステップS8における音声データの動画像データへの同期は、リップシンクまで実現されなくてよい。
制御部10によって記憶部12に記憶された音声付き動画像は、動画投稿SNS上に自動的に投稿されてもよい。
図9は、動画生成装置1によって生成される動画像の概要図である。コンテンツに含まれる静止画像を基に、1〜数秒分の時系列のフレーム画像が生成される。図9の例では、カテゴリーとして人物が決定されており、動画生成モデル1Mによって、静止画像に写っている人物が話すような動画像と、コンテンツ中のテキストを特定の音声で読み上げる音声とが組み合わせられた音声付き動画像が生成される。
動画生成装置1は、図8のフローチャートに示した処理手順によって、動画像ではないコンテンツを動画化させ、躍動感を生じさせた動画コンテンツとすることができる。ユーザは、コンテンツに含まれるテキストを読む前に、コンテンツの概要を、動画像によってたやすく把握することができる。なお、音声の同期は必須ではなく、図8のフローチャートに示した処理手順の内のステップS7及びステップS8は省略してもよい。
カテゴリー決定部102が決定するカテゴリーは、「人物」、「動物(自然物)」、及び「移動体(乗り物)」に限られない。「人物」であっても、「米国大統領」、「日本国首相」、「女性アナウンサー」、「老年男性」、「若年男性」といった職業、性別、年齢層等の属性別に細かくカテゴリーを分別して決定するようにしてもよい。またカテゴリーは、キャラクターグッズにおけるキャラクターであってもよい。そしてこれらのカテゴリーに分類される場合、動画生成モデル1Mも細かなカテゴリー別に生成され学習される。
制御部10は、生成した音声付き又は音声無し動画像を、AR(Augmented Reality )画像、又はMR(Mixed Reality )画像として表示部13に表示させてもよい。制御部10は、表示部13に表示中の内蔵カメラのモニタ画面上に、生成した動画像を表示させ、現実にカメラによって撮影されている画像上で生成された動画像を再生させてもよい。
図10は、動画生成装置1によって生成される動画像の一表示例である。図10には、図9で示した動画像の例が、コンテンツを写しているモニタ画面上に表示されている。このようにAR画像、MR画像として、現実に撮影される画像に重畳表示することも容易に可能である。
動画生成モデル1Mは、入力された静止画像から、右目用及び左目用夫々の動画像データを出力するように構成されてもよい。この場合、出力される動画像データを左右に表示してVR用の動画像データを作成することができる。
(実施の形態2)
実施の形態2では、静止画像を含まないコンテンツから動画像データを生成する。実施の形態2における動画生成装置1の構成は、具体的な処理手順以外は、実施の形態1における動画生成装置1と同様であるから、共通する構成については同一の符号を付して詳細な説明を省略する。
図11は、実施の形態2における動画像データの生成処理手順の一例を示すフローチャートである。図11のフローチャートに示す処理手順の内、実施の形態1における図8のフローチャートと共通する手順については同一のステップ番号を付して詳細な説明を省略する。以下の処理手順において制御部10は、テキストのみのコンテンツも受け付け可能である。
制御部10は、カテゴリー決定部102として、ステップS1で受け付けたコンテンツに含まれるテキストから、カテゴリーを決定する(S201)。静止画像が含まれない場合には分類モデル2Mが使用できないので、ステップS201において制御部10は、ステップS1で受け付けたコンテンツに含まれるテキストからキーワードを抽出し、抽出したキーワードに基づいて最も頻度が高いキーワードに基づいてカテゴリーを決定するとよい。
制御部10は、ステップS201で決定したカテゴリーを示すテキスト、又は抽出されたキーワードを用いて、決定されたカテゴリーに対応する静止画像を、通信部15を介して、又は記憶部12に記憶してある他の静止画像から取得する(ステップS202)。
制御部10は、ステップS201で決定されたカテゴリーに対応する動画生成モデル1Mを選択し(S3)、動画生成部105として、ステップS202で取得した静止画像を、選択された動画生成モデル1Mへ入力する(ステップS204)。
画像処理部11は、動画生成モデル1Mとして、入力された静止画像に基づく動画像データを出力する(S5)。
制御部10は、動画生成部105として、動画生成モデル1Mから出力された動画像データを記憶部12に記憶し(S6)、コンテンツに含まれるテキストから音声データを生成し(S7)、音声付き動画像を生成し(S8)、記憶し(S9)、処理を終了する。
図11のフローチャートに示した処理手順によって、テキストのみのコンテンツから動画像データが生成可能である。なお制御部10は、ステップS202の処理を省略してもよい。この場合、制御部10は、カテゴリー別にアバター画像を記憶しておき、ステップS204において、アバターの静止画像を、動画生成モデル1Mへ入力する。
図11のフローチャートに基づく処理手順によって生成された動画像データは、実施の形態1で示した手順によって生成された動画像データと結合されてもよい。図12及び図13は、実施の形態2における動画生成処理手順の他の一例を示すフローチャートである。
制御部10は、図8のフローチャートのステップS1−S7までの処理を実行し、ステップS8で生成した音声付き動画像を、第1の音声付き動画像のデータとして記憶する(ステップS301)。制御部10は続けて、受け付けたコンテンツに含まれるテキストから、カテゴリーを決定し(ステップS302)、決定されたカテゴリーに基づく静止画像を、コンテンツ外から取得する(ステップS303)。制御部10は、ステップS302で決定されたカテゴリーに対応する動画生成モデル1Mを選択し(S3)、動画生成部105として、取得した静止画像を、選択された動画生成モデル1Mへ入力する(ステップS304)。
制御部10は、動画生成部105として、ステップS5で動画生成モデル1Mから出力された動画像データを記憶部12に記憶し(S6)、コンテンツに含まれるテキストから音声データを生成し(S7)、音声動画像を生成し(S8)、第2の音声付き動画像のデータとして記憶部12に記憶する(ステップS305)。
制御部10は、画像処理部11へ、記憶部12に記憶してある第1の音声付き動画像のデータと第2の音声付き動画像のデータとを与えて結合させ(ステップS306)、結合後の音声付き動画像のデータを記憶部12に記憶し(ステップS307)、処理を終了する。
画像処理部11が動画生成部105として実行する結合処理は、2つ以上の音声付き動画像データを単に連続再生されるように結合するのみならず、サムネイルとなる静止画像の変形等を伴うアニメーション的な動きを与えた動画を挟み込む、前後に付け足す等、従来の演出動画を追加する処理を含んでよい。
動画生成装置1は、図11−図13のフローチャートに示した処理手順によって、動画像ではないコンテンツを動画化させ、躍動感を生じさせた動画コンテンツとすることができる。ユーザは、テキストのみを含むコンテンツについても、コンテンツの概要を、動画像によってたやすく把握することができる。異なる要素を含むコンテンツを、テキストから得られる動画像と、静止画像から得られる動画像とを結合した動画像データとすることも可能である。
動画生成装置1は、図11のフローチャートに示した処理手順を使用して、小説、伝記等の書籍から、少しずつコンテンツを抽出し、抽出したコンテンツ夫々に含まれるテキストから音声付き動画像を生成してもよい。動画生成装置1は少しずつ抽出したコンテンツから夫々生成した動画像を繋げるようにして長編動画像を生成することも可能である。
実施の形態1又は2で開示した動画生成装置1は、生成した音声付き動画像を元に、動画像を構成する複数のフレーム画像の内のいずれかを抽出してコマに割り当てた漫画を生成するようにしてもよい。この場合、各々のコマには、そのフレーム画像に対応する音声のテキストをセリフとして付加する。これにより、一部の記事から動画を生成するのみならず、コンテンツの内容を漫画的に紹介する新たなコンテンツを生成することも可能である。
(実施の形態3)
実施の形態3における動画生成装置1は、1つのコンテンツから複数の静止画像を抽出して動画像データを生成する。実施の形態3における動画生成装置1の構成は、具体的な処理手順以外は、実施の形態1における動画生成装置1と同様であるから、共通する構成については同一の符号を付して詳細な説明を省略する。
図14は、実施の形態3における動画生成処理手順の一例を示すフローチャートである。図14のフローチャートに示す処理手順の内、実施の形態1における図8のフローチャートと共通する手順については同一のステップ番号を付して詳細な説明を省略する。
制御部10は、受付部101としてコンテンツを受け付けると(S1)、コンテンツから複数の静止画像を抽出する(ステップS401)。制御部10は、抽出された複数の静止画像から1つの静止画像を選択し(ステップS402)、カテゴリー決定部102として、選択された静止画像を分類モデル2Mへ入力することによってカテゴリーを決定する(ステップS303)。
制御部10は、モデル選択部103として、ステップS403で決定されたカテゴリーに対応する動画生成モデル1Mを選択し(ステップS404)、選択された動画生成モデル1Mへ、選択した静止画像を入力する(ステップS405)。
画像処理部11は、動画生成モデル1Mとして機能し、入力された静止画像に基づく動画像データを出力する(ステップS5)。
制御部10は、動画生成モデル1Mから出力された動画像データを記憶部12に記憶する(ステップS6)。
制御部10は、抽出された全ての静止画像を選択したか否かを判断し(ステップS406)、選択していないと判断された場合(S406:NO)、処理をステップS402へ戻して次の静止画像に対して処理を実行する。
ステップS406で全ての静止画像を選択したと判断された場合(S406:YES)、制御部10は、動画生成部105として、全ての静止画像について夫々記憶された動画像データを結合し(ステップS407)、結合後の動画像データを記憶部12に記憶する(ステップS408)。
制御部10は、音声生成部104として、音声合成モジュールプログラム12Pに基づき、ステップS1で受け付けたコンテンツに含まれるテキストから音声データを生成する(ステップS7)。ステップS7において制御部10は音声生成部104として、テキストを読み上げた音声データを生成する。読み上げる音声の種類は、カテゴリー別に記憶されていてもよい。
制御部10は、ステップS7で生成した音声データを、ステップS408で記憶した動画像データに同期させて音声付き動画像を生成し(ステップS8)、生成された音声付き動画像を記憶部12に記憶し(ステップS9)、処理を終了する。
音声データについても、複数箇所のテキストを抽出して音声化し、結合させてもよい。
動画生成装置1は、図14のフローチャートに示した処理手順によって、異なる要素を含むコンテンツに応じて、複数の動画像を結合した動画像データとすることも可能である。
(実施の形態4)
実施の形態4における動画生成装置1は、コンテンツとして漫画又はイラストから動画像データを生成する。図15は、実施の形態4における動画生成装置1の構成を示すブロック図であり、図16は、実施の形態4における動画生成装置1の機能ブロック図である。実施の形態4における動画生成装置1の構成は、音声出力モデル4M及び具体的な処理手順以外は、実施の形態1における動画生成装置1と同様であるから、共通する構成については同一の符号を付して詳細な説明を省略する。
実施の形態4における動画生成装置1の記憶部12には、音声合成モジュールプログラム12Pの代わりに、音声出力モデル4Mの定義及び音声出力モデル4Mにおける重み係数等のパラメータを含む音声出力モデルデータが記憶されている。モデルデータは、異なるカテゴリー別に、カテゴリーを識別するカテゴリーIDと対応付けて記憶されている。そして制御部10は音声生成部104として機能する場合、画像処理部11のプロセッサを利用した音声出力モデル4Mとしての機能を用いる。
実施の形態4における動画生成装置1にて記憶してある動画生成モデル1Mは、漫画の1コマから、数秒から数十秒の動画像データを生成するように学習されてある。教師データとして、漫画の1コマに対応するアニメーションの動画像データを用いてもよいし、1コマから複数の連続するフレーム画像を描画作成したものを用いてもよい。コンテンツが漫画である場合も、動画生成モデル1Mは、図3又は図4で示したように、背景と前景とを分けないネットワークでもよいし、背景と前景とを分け、前景のみが動く動画像を出力するネットワークで定義されてもよい。
実施の形態4においても動画生成モデル1Mは、カテゴリー別に生成される。動画生成モデル1Mは、「バトル」、「スポーツ」、「ラブストーリー」、「ギャグ」、「群像劇」等のカテゴリー別に生成されて記憶されている。
実施の形態4では、音声も学習された音声出力モデル4Mを用いて生成する。図17は、音声出力モデル4Mの概要図である。音声出力モデル4Mは、テキストが入力された場合にテキストに対する自然な音声を出力するよう学習されている。音声出力モデル4Mは、入力されるテキストの解析ネットワーク41と、解析部から出力された発音の特徴量から音声の時間波形を出力する波形出力ネットワーク42とを含む。解析ネットワーク41は、入力されるテキストに対するcharacter embeddingを実施する層と、複数の畳み込み層と、複数のLTSM層等とを含み、スペクトログラムを出力するRNN-seq2seqネットワークである。波形出力ネットワーク42は、スペクトログラムを入力して音声データへ変換するネットワークである。音声出力モデル4Mは、既存の図16に示したような Tacotron2,Wavenet 等、テキストから自然な音声波形を出力するモデルを用いてよい。
図18は、実施の形態4における動画生成処理手順の一例を示すフローチャートである。
カテゴリー別の動画生成モデル1M及び分類モデル2Mを記憶部12に記憶してある動画生成装置1の制御部10は、受付部101として、画像及びセリフを含む漫画を受け付ける(ステップS501)。図18のフローチャートに示す処理手順では、受け付けられる漫画は、1コマ単位であることが好ましい。
ステップS501で受け付けられるコンテンツは、例えばユーザが、ユーザ自身が作成した漫画のコマ、又はインターネットを介して得られる漫画のデジタル画像である。動画生成装置1の制御部10は受付部101として、表示部13にコンテンツ選択画面を表示し、操作部14によってコンテンツ選択画面に含まれるコンテンツを指定するためのファイル名、又はインターネット上のアドレス(URL)の入力を受け付けてよい。
制御部10は、カテゴリー決定部102として、受け付けた漫画のセリフ又は絵に基づいてカテゴリーを決定する(ステップS502)。ステップS502において制御部10は、ステップS501で受け付けられたコンテンツのセリフ及び絵から、「マンガ」というカテゴリーを決定してもよい。ステップS502において制御部10は、漫画の絵の部分を分類モデル2Mへ入力してカテゴリーを決定してもよい。カテゴリーの決定は、受付部101にてユーザによる選択を受け付けてもよい。
制御部10は、モデル選択部103として、ステップS502で決定されたカテゴリーに対応する動画生成モデル1M及び音声出力モデル4Mを選択する(ステップS503)。ステップS503において制御部10は、カテゴリー別に記憶部12に記憶してある動画生成モデル1Mの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部11に読み出させる。制御部10は、同様にしてカテゴリー別に記憶部12に記憶してある音声出力モデル4Mの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部11に読み出させる。
制御部10は、動画生成部105として、ステップS501で受け付けた漫画の1コマの絵部分(吹き出し部分にマスクをかけたもの)のデジタル画像を、選択された動画生成モデル1Mへ入力する(ステップS504)。
画像処理部11は、動画生成モデル1Mとして機能し、入力された絵部分に基づく動画像データを出力する(ステップS505)。
制御部10は、動画生成モデル1Mから出力された動画像データを記憶部12に記憶する(ステップS506)。
制御部10は、音声生成部104として、ステップS501で受け付けた漫画の1コマのセリフに対応するテキストを、ステップS502で決定されたカテゴリーに対応する音声出力モデル4Mへ入力する(ステップS507)。
画像処理部11は、音声出力モデル4Mとして機能し、入力されたテキストを読み上げた音声データを生成し出力する(ステップS508)。
制御部10は、音声出力モデル4Mから出力された音声データを、ステップS506で記憶した動画像データに同期させて音声付き動画像を生成し(ステップS509)、生成された音声付き動画像を記憶部12に記憶し(ステップS510)、処理を終了する。
動画生成装置1は、図18のフローチャートに示した処理手順によって、漫画の1コマを動画化させ、動画コンテンツとすることができる。ユーザは、漫画の1コマから、セリフを音声で聴き、動きのある絵を観ることができる。
漫画は複数のコマから構成されていることが多い。複数のコマを含む漫画、例えば4コマ漫画に対しては、動画生成装置1は、以下の図19のフローチャートに示す処理手順を実行する。図19は、実施の形態4における動画生成処理手順の他の一例を示すフローチャートである。図19のフローチャートに示す処理手順の内、図18のフローチャートと共通する手順には同一のステップ番号を付して詳細な説明を省略する。
制御部10は、受付部101として漫画を受け付けると(S501)、漫画から複数のコマを抽出する(ステップS522)。ステップS502において制御部10は例えば、多数のコマを含む漫画から2〜5つのコマを抽出する。抽出するコマ数(結合する動画像の数)は、記憶部12に記憶しておく。
制御部10は、抽出された複数のコマから1つのコマを選択する(ステップS523)。制御部10は、選択された1コマに対し、カテゴリー決定部102として、選択したコマのカテゴリーを決定し(S502)、動画生成モデル1M及び音声出力モデル4Mを選択する(S503)。
制御部10は、選択した1コマの絵部分を、選択した動画生成モデル1Mへ入力する(S504)。ステップS505にて画像処理部11によって動画生成モデル1Mから出力される動画像データを、制御部10は、記憶部12に記憶する(S506)。
制御部10は、音声生成部104として、選択中の1コマのセリフに対応するテキストを、決定されたカテゴリーに対応する音声出力モデル4Mへ入力する(S507)。
制御部10は、ステップS508にて画像処理部11によって音声出力モデル4Mから出力された音声データを、ステップS506で記憶した動画像データに同期させて音声付き動画像を生成し(S509)、記憶する(S510)。
制御部10は、抽出された全てのコマを選択したか否かを判断し(ステップS524)、選択していないと判断された場合(S524:NO)、処理をステップS523へ戻して次の1コマを選択して処理を実行する。
ステップS524で全てのコマを選択したと判断された場合(S524:YES)、制御部10は、動画生成部105として、全てのコマに対して夫々記憶された音声付き動画像を順に結合し(ステップS525)、結合後の音声付き動画像のデータを記憶部12に記憶し(ステップS526)、処理を終了する。
実施の形態4の動画生成装置1の処理により、漫画の1コマを夫々動画化させ、動画コンテンツとすることができる。ユーザは、漫画の1コマから、セリフを音声で聴き、動きのある絵を観ることができる。
(実施の形態5)
実施の形態5では、動画生成装置1は、生成した動画像のデータを、第三者から評価が可能なネットワーク、例えばSNS上にアップロードし、評価を受け付ける。実施の形態5における動画生成装置1の構成は、詳細な処理手順以外は実施の形態1の動画生成装置1と同様であるから、共通する構成については同一の符号を付して詳細な説明を省略する。
図20は、実施の形態5における動画生成装置1の処理手順の一例を示すフローチャートである。図20のフローチャートに示す処理手順の内、実施の形態1の図8のフローチャートに示した処理手順と共通する手順については同一のステップ番号を付して詳細な説明を省略する。
動画生成装置1の制御部10は、音声付き動画像を生成して記憶すると(S8,S9)、通信部15を介して生成した音声付き動画像(又は音声無しの動画像)を自動的にアップロードする(ステップS601)。
制御部10は、アップロードした音声付き動画像に対する評価を受け付ける(ステップS602)。評価の受付は、アップロード先のWebサイト、又は特定のアプリケーションプログラム(SNSアプリケーションプログラム)に基づいて閲覧可能なサイトにて受け付けられる評価を取得することで実現される。
制御部10は、受け付けた評価を、生成した音声付き動画像に対応付けて記憶部12に記憶し(ステップS603)、処理を終了する。
動画生成装置1又は他の装置にて、各音声付き動画像に対して受け付けられた評価の最頻値、平均値、等に基づいて、音声付き動画像の元の動画像データを出力した動画生成モデル1Mを、再学習させるようにしてもよい。例えば制御部10が、評価の平均値が所定の評価指標の値以下である場合に、元の動画生成モデル1Mを低評価にして再学習させるか、他の学習装置へ再学習を依頼してもよい。
(実施の形態6)
実施の形態6では、動画生成装置1は、受け付けるコンテンツに含まれるテキストに基づいて、該テキストよりも長いテキストを読み上げる音声を含む音声付き動画像を生成する。図21は、実施の形態6における動画生成装置1の構成を示すブロック図であり、図22は、実施の形態6における動画生成装置1の機能ブロック図である。実施の形態6における動画生成装置1の構成は、テキスト生成モデル5M及びこれに関する手順以外は、実施の形態1から実施の形態4における動画生成装置1と同様であるから、共通する構成については同一の符号を付して詳細な説明を省略する。
実施の形態6における動画生成装置1の記憶部12には、動画生成プログラム1P、動画生成モデル1Mのモデルデータ、分類モデル2Mのモデルデータ、及び音声出力モデル4Mのモデルデータの他に、テキスト生成モデル5Mのモデルデータが記憶されている。テキスト生成モデル5Mのモデルデータは、モデルのネットワーク定義及び重み係数等のパラメータを含む。モデルデータは、カテゴリー別に、カテゴリーを識別するカテゴリーIDと対応付けて記憶されている。
実施の形態6における動画生成装置1の制御部10は、音声生成部104及び動画生成部105として機能する場合、画像処理部11のプロセッサを利用して動画生成モデル1M、音声出力モデル4Mとして機能する。制御部10は、音声出力モデル4Mを用いて音声を生成する前段階として、画像処理部11のプロセッサを利用したテキスト生成モデル5Mを用いて音声化するべきテキストを生成する。
実施の形態6におけるテキスト生成モデル5Mは、表題、1行目、又は、概要を表す一文が入力された場合に、日本語で500〜700文字程度の、数分で読み終わる程度の文字数のテキストデータを生成するように学習されてある。教師データとして、インターネットで不特定多数に開示されているニュース記事群か、特定のコーパスが用いられるとよい。
実施の形態6におけるテキスト生成モデル5Mの概要図である。テキスト生成モデル5Mは、一文に該当するテキストが入力された場合に、該一文の詳細に対応する長文テキストを出力するように学習されている。テキスト生成モデル5Mは例えば、Transformer構造を応用した言語モデルであるGPT−2を用い、冒頭の一文を入力として文章全体を出力するように学習されたモデルである。その他の自動文章作成を達成する既知の技術、例えばBERT等を用いてもよい。テキスト生成モデル5Mは、「ニュース」、「紹介文」、「物語」といったカテゴリー別に学習されていてもよい。
図23は、テキスト生成モデル5Mを用いたテキスト生成の概要図である。テキスト生成モデル5Mは、一文のテキストデータが入力された場合に、テキストデータを解析し、類似語、文脈等の異なるタスクで、拡張変換し長い文章を出力するようにしてある。動画生成装置1の制御部10は、入力したコンテンツに含まれるテキストの中の一文をテキスト生成モデル5Mへ入力することによって出力されたテキストを、音声出力モデル4Mを用いて自然な音声を出力する。制御部10は、テキスト生成モデル5Mに入力した一文のテキスト、又はテキスト生成モデル5Mから出力されたテキスト中の注目語(名詞)を用いてコンテンツ外から静止画像を取得し、動画生成モデル1Mへ入力して動画像データを生成する。制御部10は、音声出力モデル4Mから出力された音声を、動画生成モデル1Mから出力された動画像データと同期させて音声付き動画像を生成する。
図24及び図25は、実施の形態6における動画生成処理手順の一例を示すフローチャートである。動画生成装置1の制御部10は、受付部101として、少なくとも一文のテキストを含むコンテンツを受け付ける(ステップS701)。
制御部10は、カテゴリー決定部102として、受け付けたコンテンツのカテゴリーを決定する(ステップS702)。ステップS702において制御部10は、受付部101にてユーザによる選択を受け付けてもよい。
制御部10は、モデル選択部103として、ステップS702で決定されたカテゴリーに対応する動画生成モデル1M、テキスト生成モデル5M、音声出力モデル4Mを選択する(ステップS703)。ステップS703において制御部10は、カテゴリー別に記憶部12に記憶してある動画生成モデル1Mの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部11に読み出させる。制御部10は、同様にしてカテゴリー別に記憶部12に記憶してある音声出力モデル4Mの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部11に読み出させる。制御部10は、同様にしてカテゴリー別に記憶部12に記憶してあるテキスト生成モデル5Mの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部11に読み出させる。
制御部10は、音声生成部104として、ステップS701で受け付けたコンテンツの内のテキスト一文を、選択されたカテゴリーのテキスト生成モデル5Mへ入力する(ステップS704)。
画像処理部11は、テキスト生成モデル5Mとして機能し、入力されたテキストに基づくテキストデータを出力する(ステップS705)。
制御部10は、テキスト生成モデル5Mから出力された長文のテキストデータを記憶部12に記憶する(ステップS706)。
制御部10は、音声生成部104として、ステップS706で記憶したテキストデータを決定されたカテゴリーに対応する音声出力モデル4Mへ入力し(ステップS707)、ステップS708にて画像処理部11によって音声出力モデル4Mから出力される音声データを記憶部12に記憶する(ステップS709)。
制御部10は、動画生成部105として、ステップS701で受け付けたコンテンツに含まれるテキストに基づいて、決定されたカテゴリーに対応する静止画像を、通信部15を介して、又は記憶部12に記憶してある他の静止画像から取得する(ステップS710)。ステップS710において制御部10は、生成されるテキストの分量に応じて、取得する静止画像の数を決定するとよい。
制御部10は、ステップS710で取得した静止画像を、選択した動画生成モデル1Mへ入力する(ステップS711)。ステップS712にて画像処理部11によって動画生成モデル1Mから出力される動画像データを、制御部10は、記憶部12に記憶する(ステップS713)。ステップS710で複数の静止画像を取得している場合、制御部10は、複数の静止画像夫々に応じて出力された動画像データを結合して記憶するとよい。
制御部10は、動画生成モデル1Mから出力された動画像データに、ステップS709で記憶した音声データを同期させて音声付き動画像を生成し(ステップS714)、記憶し(ステップS715)、処理を終了する。
実施の形態6の動画生成装置1の処理により、入力されたコンテンツの一文から長編動画像のデータが生成される。
実施の形態6では、テキスト生成モデル5Mを用いて、コンテンツに含まれるテキストを元のテキストよりも長いテキストとし、これに合わせてより長い動画を生成した。テキストに限られない。例えば、4コマ漫画等の、短編漫画を入力して長編マンガを生成し、生成した長編マンガのコマ夫々から音声付き動画像を生成し、生成した動画像を結合して長編アニメーションのような動画像を生成するようにしてもよい。
上述のように開示された実施の形態は全ての点で例示であって、制限的なものではない。本発明の範囲は、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれる。
1 動画生成装置
10 制御部
101 受付部
102 カテゴリー決定部
103 モデル選択部
104 音声生成部
105 動画生成部
11 画像処理部
12 記憶部
1P,31P 動画生成プログラム
1M,3M 動画生成モデル
12M 識別モデル
2M 分類モデル
4M 音声出力モデル
3 記録媒体
5M テキスト生成モデル

Claims (10)

  1. 静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
    テキスト及び静止画像を含むコンテンツを受け付け、
    受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、
    決定されたカテゴリーに対応する前記動画生成モデルを選択し、
    選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成し、
    受け付けた前記コンテンツに含まれるテキストから音声データを生成し、
    生成された音声データを、生成された動画像へ同期させた音声つき動画像を生成する
    処理を実行させる動画生成プログラム。
  2. 静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
    テキスト及び静止画像を含むコンテンツを受け付け、
    受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、
    決定されたカテゴリーに対応する前記動画生成モデルを選択し、
    選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成させ、
    前記動画生成モデルは、静止画像が入力された場合に動画像を生成するように定義された畳み込みニューラルネットワークを含む動画生成モデルに対し、動画像が入力された場合に、前記動画生成モデルから出力される動画像であるか、又は前記動画生成モデルによって生成されたものでない基準動画像であるかを識別するように定義されたニューラルネットワークを含む識別モデルを用い、
    所定の基準を満たすまで前記動画生成モデル及び識別モデル夫々の前記ニューラルネットワークのパラメータを相互に更新することによって、カテゴリー別に学習済みである
    動画生成プログラム。
  3. 静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
    テキスト及び静止画像を含むコンテンツを受け付け、
    受け付けたコンテンツ中の静止画像を前記動画生成モデルへ入力して生成された第1動画像を記憶部に記憶し、
    前記コンテンツ中のテキストに基づいてカテゴリーを決定し、
    決定されたカテゴリーに対応する第2静止画像を前記コンテンツ外から取得し、
    決定されたカテゴリーに対応する前記動画生成モデルを選択し、
    選択された前記動画生成モデルへ、前記第2静止画像を入力して第2動画像を生成し、
    前記第1動画像と前記第2動画像とを結合する
    処理を実行させる動画生成プログラム。
  4. 静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
    テキスト及び静止画像を含むコンテンツを受け付け、
    受け付けた前記コンテンツから複数の静止画像を抽出し、
    抽出された複数の静止画像毎に、該静止画像に基づくカテゴリーを決定し、
    決定されたカテゴリー夫々に対応する前記動画生成モデルを選択し、
    選択された前記動画生成モデル夫々に、前記複数の静止画像の内の対応する静止画像を入力することによって複数の動画像を生成し、
    生成された複数の動画像を結合する
    処理を実行させる動画生成プログラム。
  5. 前記テキストは、前記コンテンツに含まれる前記静止画像に対応するセリフ、記事、又はSNSに投稿された文章である
    請求項1から請求項4のいずれか1項に記載の動画生成プログラム。
  6. 静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
    テキスト及び静止画像を含む漫画であるコンテンツを受け付け、
    受け付けた漫画に含まれるセリフ又は静止画像に基づいてカテゴリーを決定し、
    決定されたカテゴリーに対応する前記動画生成モデルを選択し、
    選択された前記動画生成モデルへ、前記漫画の静止画像を入力して動画像を生成し、
    漫画のセリフを入力した場合に前記セリフに対する音声を出力するよう学習された音声出力モデルを、異なるカテゴリー別に記憶しておき、
    受け付けた漫画のセリフを、決定されたカテゴリーに対応する音声出力モデルへ入力して音声を生成し、
    生成された音声を、生成された動画像に同期させた音声つき動画像を生成する
    処理を実行させる記載の動画生成プログラム。
  7. 静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
    テキスト及び静止画像を含む漫画であるコンテンツを受け付け、
    漫画のセリフを入力した場合に前記セリフに対する音声を出力するよう学習された音声出力モデルを、異なるカテゴリー別に記憶しておき、
    受け付けた漫画に含まれる第1コマの第1セリフ又は第1静止画像に基づいて第1カテゴリーを決定し、
    決定された第1カテゴリーに対応する前記動画生成モデルへ、前記第1静止画像を入力して第1動画像を生成し、
    前記第1コマに連続する第2コマの第2セリフ又は第2静止画像に基づいて第2カテゴリーを決定し、
    決定された第2カテゴリーに対応する前記動画生成モデルへ、前記第2静止画像を入力して第2動画像を生成し、
    前記第1セリフを、前記第1カテゴリーに対応する前記音声出力モデルへ入力して第1音声を生成し、
    前記第2セリフを、前記第2カテゴリーに対応する前記音声出力モデルへ入力して第2音声を生成し、
    生成された前記第1音声を前記第1動画像へ同期させた第1の音声付き動画像と、前記第2音声を前記第2動画像へ同期させた第2の音声付き動画像とを結合させる
    処理を実行させる記載の動画生成プログラム。
  8. 前記コンピュータに、
    静止画像が入力された場合に、前記静止画像に写っている人物、動物又は移動体を含む被写体によってカテゴリーを分類するように学習された分類モデルへ、受け付けられた前記コンテンツに含まれる静止画像を入力することによってカテゴリーを決定する
    処理を実行させる請求項1から請求項7のいずれか1項に記載の動画生成プログラム。
  9. 静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に複数記憶する記憶部と、
    テキスト及び静止画像を含むコンテンツを受け付ける受付部と、
    受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定する決定部と、
    決定されたカテゴリーに対応する前記動画生成モデルを選択する選択部と、
    選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成する動画像生成部と
    受け付けた前記コンテンツに含まれるテキストから音声データを生成する音声生成部と、
    生成された音声データを、生成された動画像へ同期させた音声つき動画像を生成する生成部と
    を備える動画生成装置。
  10. 静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に複数記憶しておき、
    テキスト及び静止画像を含むコンテンツを受け付け、
    受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、
    決定されたカテゴリーに対応する前記動画生成モデルを選択し、
    選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成し、
    受け付けた前記コンテンツに含まれるテキストから音声データを生成し、
    生成された音声データを、生成された動画像へ同期させた音声つき動画像を生成する
    処理を含む動画生成方法。
JP2019157270A 2019-08-29 2019-08-29 動画生成プログラム、動画生成装置及び動画生成方法 Expired - Fee Related JP6783479B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019157270A JP6783479B1 (ja) 2019-08-29 2019-08-29 動画生成プログラム、動画生成装置及び動画生成方法
PCT/JP2020/031391 WO2021039561A1 (ja) 2019-08-29 2020-08-20 動画生成方法、動画生成装置及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019157270A JP6783479B1 (ja) 2019-08-29 2019-08-29 動画生成プログラム、動画生成装置及び動画生成方法

Publications (2)

Publication Number Publication Date
JP6783479B1 true JP6783479B1 (ja) 2020-11-11
JP2021033961A JP2021033961A (ja) 2021-03-01

Family

ID=73043515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019157270A Expired - Fee Related JP6783479B1 (ja) 2019-08-29 2019-08-29 動画生成プログラム、動画生成装置及び動画生成方法

Country Status (2)

Country Link
JP (1) JP6783479B1 (ja)
WO (1) WO2021039561A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062829A1 (ja) * 2021-10-15 2023-04-20 三菱電機株式会社 状態検知システム、状態検知方法および状態検知プログラム
WO2023214826A1 (ko) * 2022-05-05 2023-11-09 유한회사 닥터다비드 집단 지성을 이용한 정보 처리 시스템 및 그 방법
JP7431373B1 (ja) 2023-05-18 2024-02-14 株式会社メディアドゥ デジタルコンテンツ提供方法、デジタルコンテンツ提供システム及びプログラム
JP7329293B1 (ja) * 2023-06-09 2023-08-18 Snafty株式会社 情報処理装置、方法、プログラム、およびシステム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008118481A (ja) * 2006-11-06 2008-05-22 Canon Inc 画像記録装置、画像記録方法、プログラム及び記憶媒体
JP6711044B2 (ja) * 2016-03-16 2020-06-17 カシオ計算機株式会社 画像処理装置、表示装置、アニメーション生成方法及びプログラム
JP2019204476A (ja) * 2018-05-17 2019-11-28 株式会社Preferred Networks 画像生成装置、画像生成方法及びプログラム

Also Published As

Publication number Publication date
WO2021039561A1 (ja) 2021-03-04
JP2021033961A (ja) 2021-03-01

Similar Documents

Publication Publication Date Title
JP6783479B1 (ja) 動画生成プログラム、動画生成装置及び動画生成方法
Habibie et al. Learning speech-driven 3d conversational gestures from video
CN111382352B (zh) 数据推荐方法、装置、计算机设备以及存储介质
CN110782900B (zh) 协作ai讲故事
CN102207950B (zh) 电子装置和图像处理方法
US11514634B2 (en) Personalized speech-to-video with three-dimensional (3D) skeleton regularization and expressive body poses
CN113569088B (zh) 一种音乐推荐方法、装置以及可读存储介质
KR102119868B1 (ko) 홍보용 미디어 콘텐츠 제작 시스템 및 그 방법
CN109688463A (zh) 一种剪辑视频生成方法、装置、终端设备及存储介质
CN111243626A (zh) 一种说话视频生成方法及系统
JP2011215964A (ja) サーバ装置、クライアント装置、コンテンツ推薦方法及びプログラム
CN114390217B (zh) 视频合成方法、装置、计算机设备和存储介质
CN105989067B (zh) 从图片生成文本摘要的方法、用户设备及训练服务器
US9525841B2 (en) Imaging device for associating image data with shooting condition information
JP2015148701A (ja) ロボット制御装置、ロボット制御方法及びロボット制御プログラム
TW202042172A (zh) 智慧教學顧問生成方法、系統、設備及儲存介質
JP2016177483A (ja) コミュニケーション支援装置、コミュニケーション支援方法及びプログラム
KR20220017068A (ko) 인공지능 콘텐츠 자동 생성 및 변형 방법
CN117178271A (zh) 从时刻内容项的自动记忆创建和检索
KR101913811B1 (ko) 얼굴 표현 및 심리 상태 파악과 보상을 위한 얼굴 정보 분석 방법 및 얼굴 정보 분석 장치
Rastgoo et al. All you need in sign language production
Shen et al. Boosting consistency in story visualization with rich-contextual conditional diffusion models
KR101902553B1 (ko) 스토리텔링 콘텐츠 툴 제공 단말기 및 스토리텔링 콘텐츠 제공 방법
CN114928755B (zh) 一种视频制作方法、电子设备及计算机可读存储介质
CN111311713A (zh) 漫画处理方法、显示方法、装置、终端及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190829

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190829

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200814

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200814

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20200825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200821

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200910

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20200915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201015

R150 Certificate of patent or registration of utility model

Ref document number: 6783479

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees