JP6783479B1

JP6783479B1 - 動画生成プログラム、動画生成装置及び動画生成方法

Info

Publication number: JP6783479B1
Application number: JP2019157270A
Authority: JP
Inventors: 鈴木　康介; 康介鈴木
Original assignee: Suzuko Co Ltd
Current assignee: Suzuko Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2020-11-11
Anticipated expiration: 2039-08-29
Also published as: WO2021039561A1; JP2021033961A

Abstract

【課題】テキスト及び静止画像から動画像を出力することができる動画生成プログラム、動画生成装置及び動画生成方法を提供する。【解決手段】動画生成プログラムは、静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、テキスト及び静止画像を含むコンテンツを受け付け、受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、決定されたカテゴリーに対応する前記動画生成モデルを選択し、選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成する処理を実行させる。【選択図】図９

Description

本発明は、テキスト及び静止画像から動画像データを出力する動画生成プログラム、動画生成装置及び動画生成方法に関する。

撮影された複数の静止画像を、アニメーション的な動きを与えて変形させながらスライド上映のように切り替えて表示するアルバム動画像を作成する方法が種々提案されている。特許文献１には、連続撮影画像及び撮影間隔が短い画像を短い間隔で切り替えてパラパラ漫画のような効果で演出させた動画像を作成する方法が開示されている。

特開２００８−１１８４８１号公報

静止画像に対してアニメーション的な動きを与えることは、矩形の静止画像の変形等によって実現されるが、静止画像に写っている被写体は静止画像に対して静止したままか、又は、前後に撮影された静止画像に写っている同一被写体を用いて少し動くように演出される程度である。

昨今では、ユーザは文章を読んで文字によって情報を入力するよりも、各々のユーザが好きなタイミングで動画を観てニュース、ストーリー、広告等のコンテンツを把握することが可能になった。しかしながら全ての題材について動画像を撮影しておくことは困難である。テキスト又は静止画像が存在するが、動画像が存在しないコンテンツもある。

本発明は、テキスト及び静止画像から動画像を出力することができる動画生成プログラム、動画生成装置及び動画生成方法を提供することを目的とする。

本開示の一実施形態の動画生成プログラムは、静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、テキスト及び静止画像を含むコンテンツを受け付け、受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、決定されたカテゴリーに対応する前記動画生成モデルを選択し、選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成する処理を実行させる。

本開示の一実施形態の動画生成装置は、静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に複数記憶する記憶部と、テキスト及び静止画像を含むコンテンツを受け付ける受付部と、受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定する決定部と、決定されたカテゴリーに対応する前記動画生成モデルを選択する選択部と、選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成する生成部とを備える。

本開示の一実施形態の動画生成方法は、静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に複数記憶しておき、テキスト及び静止画像を含むコンテンツを受け付け、受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、決定されたカテゴリーに対応する前記動画生成モデルを選択し、選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成する処理を含む。

本開示では、コンテンツに含まれるテキスト及び静止画像の内のいずれかに応じたカテゴリーの動画生成モデルを用いて動画像データが生成される。

本開示によれば、テキスト及び静止画像を含むコンテンツから、カテゴリーに応じた、スライド上映のような動画像とは異なる動きを持たせた動画像を出力することができる。

実施の形態１における動画生成装置の構成を示すブロック図である。実施の形態１における動画生成装置の機能ブロック図である。動画生成モデルの概要図である。アップサンプリングネットワークの一例を示す説明図である。動画生成モデルの学習方法の概要図である。動画生成モデルの学習処理手順の一例を示すフローチャートである。実施の形態１における分類モデルの概要図である。動画像データの生成処理手順の一例を示すフローチャートである。動画生成装置によって生成される動画像の概要図である。動画生成装置によって生成される動画像の一表示例である。実施の形態２における動画像データの生成処理手順の一例を示すフローチャートである。実施の形態２における動画生成処理手順の他の一例を示すフローチャートである。実施の形態２における動画生成処理手順の他の一例を示すフローチャートである。実施の形態３における動画生成処理手順の一例を示すフローチャートである。実施の形態４における動画生成装置の構成を示すブロック図である。実施の形態４における動画生成装置の機能ブロック図である。音声出力モデルの概要図である。実施の形態４における動画生成処理手順の一例を示すフローチャートである。実施の形態４における動画生成処理手順の他の一例を示すフローチャートである。実施の形態５における動画生成装置の処理手順の一例を示すフローチャートである。実施の形態６における動画生成装置の構成を示すブロック図である。実施の形態６における動画生成装置の機能ブロック図である。テキスト生成モデルを用いたテキスト生成の概要図である。実施の形態６における動画生成処理手順の一例を示すフローチャートである。実施の形態６における動画生成処理手順の一例を示すフローチャートである。

以下、本願に係る動画生成プログラム、動画生成装置及び動画生成方法について、実施の形態を示す図面を参照しつつ説明する。

（実施の形態１）
図１は、実施の形態１における動画生成装置１の構成を示すブロック図であり、図２は、動画生成装置１の機能ブロック図である。動画生成装置１は、制御部１０、画像処理部１１、記憶部１２、表示部１３、操作部１４、通信部１５及び読取部１６を備える。なお動画生成装置１の動作について以下では、１台のコンピュータによる動作として説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。

制御部１０は、ＣＰＵ（Central Processing Unit ）及び／又はＧＰＵ（Graphics Processing Unit）のプロセッサ及びメモリ等を用い、動画生成プログラム１Ｐに基づいて装置の構成部を制御する。画像処理部１１は、ＧＰＵ又は専用回路等のプロセッサ及びメモリを用い、制御部１０からの制御指示に応じて画像処理を実行する。なお、制御部１０及び画像処理部１１は、一体のハードウェアであってもよい。また制御部１０及び画像処理部１１は、ＣＰＵ、ＧＰＵ等のプロセッサ、メモリ、更には記憶部１２及び通信部１５を集積した１つのハードウェア（ＳｏＣ：System On a Chip）として構成されていてもよい。

記憶部１２は、ハードディスク又はフラッシュメモリを用いる。記憶部１２には、動画生成プログラム１Ｐが記憶されている。記憶部１２には、動画生成モデル１Ｍの定義及び動画生成モデル１Ｍにおける重み係数等のパラメータを含む動画生成モデルデータが記憶される。動画生成モデル１Ｍのモデルデータは、異なるカテゴリー別に、カテゴリーを識別するカテゴリーＩＤと対応付けて記憶されている。カテゴリーは実施の形態１では「人物」、「動物（自然物）」、及び「移動体（乗り物）」であり、カテゴリーＩＤは夫々「０１」、「０２」、及び「０３」である。画像処理部１１が、動画生成モデル１Ｍのモデルデータに含まれる定義情報及び学習済みパラメータに基づいて、静止画像データが入力された場合に、静止画像データに基づく動画像を生成して出力する動画生成モデル１Ｍとして機能する。

記憶部１２には、音声合成モジュールプログラム１２Ｐが記憶されている。制御部１０は、音声合成モジュールプログラム１２Ｐによって、テキストから音声データを生成する音声生成部１０４として機能する。

記憶部１２には、分類モデル２Ｍの定義及び分類モデル２Ｍにおける重み係数等のパラメータを含むデータが記憶される。制御部１０は、分類モデル２Ｍの定義及び学習済みパラメータを含むデータに基づいて、静止画像データが入力された場合に、静止画像に写っている被写体のカテゴリーへ分類し、分類結果を出力する分類モデル２Ｍとして機能する。

表示部１３は、液晶パネル又は有機ＥＬ（Electro Luminescence）ディスプレイ等を用いる。表示部１３は、制御部１０の指示による画像処理部１１での処理によって画像を表示することが可能である。

操作部１４は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。操作部１４は、表示部１３に表示されるソフトウェアボタン等であってもよい。操作部１４は、ユーザによる操作情報を制御部１０へ通知する。

通信部１５は、インターネットに接続するための通信デバイスである。制御部１０は、通信部１５を介してインターネット上で取得可能なコンテンツを取得する。

読取部１６は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体３に記憶してある動画生成プログラム３１Ｐ、音声合成モジュールプログラム３２Ｐを読み取ることが可能である。読取部１６は、記録媒体３に記憶してある動画生成モデルのモデルデータ、分類モデルのモデルデータを読み取ることが可能である。記憶部１２に記憶してある動画生成プログラム１Ｐ、音声合成モジュールプログラム１２Ｐ、動画生成モデル１Ｍのモデルデータ、分類モデル２Ｍのモデルデータは、記録媒体３から読取部１６が読み取った動画生成プログラム３１Ｐ、音声合成モジュールプログラム３２Ｐ、動画生成モデルデータ、分類モデルデータを制御部１０が記憶部１２に複製したものであってもよい。

図２に示すように、動画生成装置１の制御部１０及び画像処理部１１は、記憶部１２に記憶してある動画生成プログラム１Ｐに基づき、受付部１０１、カテゴリー決定部１０２、モデル選択部１０３、音声生成部１０４、及び動画生成部１０５として機能する。

受付部１０１は、表示部１３及び操作部１４を介したユーザの操作に基づき、生成する動画の基となるコンテンツを受け付ける。コンテンツは記憶部１２に予め記憶されている。動画生成装置１が通信部を備え、受付部１０１は、外部から通信によってコンテンツを受け付けてもよいし、動画生成装置１がカメラを内蔵する場合、カメラによって撮像されたコンテンツを受け付けてもよい。

カテゴリー決定部１０２は、受付部１０１が受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定する。実施の形態１では、カテゴリー決定部１０２は、静止画像が入力された場合に、静止画像に写っている被写体のカテゴリーを出力するように学習されている分類モデル２Ｍを用いる。カテゴリーは実施の形態１では例えば、上述のように「人物」、「動物（自然物）」、及び「移動体（乗り物）」である。分類モデル２Ｍは、各々のカテゴリーのカテゴリーＩＤ「０１」〜「０３」夫々の確度を出力する。カテゴリー決定部１０２は、受け付けられたコンテンツに含まれる静止画像を分類モデル２Ｍへ入力し、分類モデル２Ｍから出力されるカテゴリーＩＤ毎の確度に基づき、最も高い確度のカテゴリーを決定する。

モデル選択部１０３は、カテゴリー決定部１０２によって決定されたカテゴリーに対応する動画生成モデル１Ｍを選択する。

音声生成部１０４は、与えられたテキストから音声データを生成する。

動画生成部１０５は、与えられた静止画像を、モデル選択部１０３によって選択された動画生成モデル１Ｍへ入力し、出力される動画像データを取得する。動画生成部１０５は、取得した動画像データに、音声生成部１０４によって生成された音声データを同期させた音声付き動画像を、画像処理部１１を用いて生成し、メモリに出力する。

記憶部１２に記憶してある動画生成モデル１Ｍ及び分類モデル２Ｍ、即ちそれらの定義及びパラメータを含むデータは、予め、他の学習装置又は動画生成装置１自体で生成され、カテゴリー別に学習済みである。図３〜図７を参照して、動画生成モデル１Ｍ及び分類モデル２Ｍの学習方法について説明する。

図３は、動画生成モデル１Ｍの概要図である。動画生成モデル１Ｍは、エンコードネットワークと、アップサンプリングネットワークとを含み、入力された静止画像から動画像データを出力するように構成されている。エンコードネットワークは、複数段の畳み込み層を含んで入力静止画像から、動画生成の種となるコードを出力する。アップサンプリングネットワークは、エンコードネットワークから出力されるコードから空間的及び時間的にアップサンプリングする転置畳み込み層、畳み込み層、アップサンプリング層等のネットワークを適宜複数段階で組み合わせたネットワークである。

図４は、アップサンプリングネットワークの一例を示す説明図である。図４は、Carl Vondrick らの“Generating Videos with Scene Dynamics”（２０１６年１２月５日）によって提案されている動画生成モデルを採用した一例である。アップサンプリングネットワークは、入力されたコードに基づいて、動きを含む三次元的前景（foreground）と、動かない二次元的背景（background）とに分け、各々において時系列の画像群（時間及び空間からなる画素の三次元行列Space-Time Cuboid）とマスクとを夫々生成し、合成して動画像データとして出力することが可能である。

図３及び図４に示した動画生成モデル１Ｍは、ＧＡＮ（Generative Adversarial Networks）によって学習される。図５は、動画生成モデル１Ｍの学習方法の概要図である。図５に示すように、動画生成モデル１Ｍは、識別モデル１２Ｍと共に学習される。識別モデル１２Ｍは、動画像データが入力された場合に、動画生成モデル１Ｍによって生成されて出力された動画像データ（動画生成モデル１Ｍ由来の動画像データ）と、それ以外の元々動画像として撮影された動画像データ、又は、動画像として生成された動画像データとを識別するように定義されている。

図６は、動画生成モデル１Ｍの学習処理手順の一例を示すフローチャートである。動画生成モデル１Ｍを生成する学習装置は、動画生成モデル１Ｍの定義データ、及び識別モデル１２Ｍの定義データに基づいて、動画生成モデル１Ｍのネットワーク及び識別モデル１２Ｍのネットワークを作成する（ステップＳ１０１）。

学習装置は、教師データである動画像データから得られるフレーム画像である静止画像データを、動画生成モデル１Ｍへ入力し、動画生成モデル１Ｍから動画像データを出力させる（ステップＳ１０２）。教師データである複数の動画像データはいずれも、シーンチェンジを含まないように切り取られており、同一の時間長を有するとよい。

学習装置は、ステップＳ１０２で出力された動画像データに、動画生成モデル１Ｍで生成された動画像データであることを示すラベルを付与する（ステップＳ１０３）。

学習装置は、動画生成モデル１Ｍ由来でない動画像データの教師データとして、ステップＳ１０２でフレーム画像として抽出される元の動画像データを用い、これらの動画像データに、動画生成モデル１Ｍ由来でない画像データであることを示すラベルを付与する（ステップＳ１０４）。

学習装置は、ステップＳ１０３及びステップＳ１０４により得られるラベル付きの動画像データ群を、識別モデル１２Ｍに入力し（ステップＳ１０５）、識別モデル１２Ｍの損失関数を算出して学習させる（ステップＳ１０６）。

続いて学習装置は、ステップＳ１０６の学習後の識別モデル１２Ｍを含むネットワーク（図５に示すネットワーク）における動画生成モデル１Ｍに、種となる静止画像を入力する（ステップＳ１０７）。ステップＳ１０７において動画生成モデル１Ｍに入力される静止画像は、教師データである動画像データに含まれるフレーム画像であってよい。

学習装置は、ステップＳ１０７によって動画生成モデル１Ｍから出力される画像データ群に基づいて動画生成モデル１Ｍにおける損失関数を算出して学習させる（ステップＳ１０８）。このとき学習装置は、識別モデル１２Ｍの重み係数は固定とし、識別モデル１２Ｍからの出力（動画生成モデル１Ｍ由来の動画像データであるか否かのラベル）から、動画生成モデル１Ｍのパラメータを更新する。動画像データに含まれているフレーム画像を入力して学習するので、動画生成モデル１Ｍからの出力と、元の動画像データとを識別モデル１２Ｍへ入力した場合の差分によって、動画生成モデル１Ｍのパラメータを更新するとよい。

識別モデル１２Ｍの学習時は、動画生成モデル１Ｍの学習は行なわず、動画生成モデル１Ｍの学習の際には識別モデル１２Ｍの重み等のパラメータは固定させて実行する。なお、識別モデル１２Ｍの学習と動画生成モデル１Ｍの学習とを同時に行なうように、定義データを作成して実行してもよい。

学習装置は、学習が所定の基準を満たすか否かを判断する（ステップＳ１０９）。所定の基準は例えば、識別モデル１２Ｍにおける識別精度が半分、即ち動画生成モデル１Ｍの動画像データであることを正確に分類できなくなったか否かである。所定の基準は、学習の回数であってもよい。

ステップＳ１０９で所定の基準を満たしていないと判断された場合（Ｓ１０９：ＮＯ）、学習装置は処理をステップＳ１０２へ戻して学習を進行し、所定の基準を満たすと判断された場合（Ｓ１０９：ＹＥＳ）、学習装置は学習を終了する。

図５に示したネットワークに対して図６のフローチャートに示した処理手順が、カテゴリー別に実行されることによって、動画生成モデル１Ｍは、入力された静止画像に基づいて動画像データを出力するように生成される。例えば「人物」用の動画生成モデル１Ｍ、「動物」用の動画生成モデル１Ｍ、及び「移動体」用の動画生成モデル１Ｍが生成される。更には「風景」用の動画生成モデル１Ｍ等が生成されてもよい。動画生成モデル１Ｍのネットワーク定義及び学習方法はこれに限られない。

図７は、実施の形態１における分類モデル２Ｍの概要図である。分類モデル２Ｍは、静止画像が入力された場合に、静止画像に写っている人物、動物、又は移動体を、画像内の位置と併せて検出するように学習される。分類モデル２Ｍはこの場合、ＳＳＤ（Single Shot MultiBox Detector ）として学習される。

図７に示すように、分類モデル２Ｍは、入力された静止画像を複数チャネルに分解し、畳み込みまたはプーリング処理の後、複数のスケールの特徴マップを段階的に出力する。分類モデル２Ｍは、複数段階ごとに出力された特徴マップに対して検出範囲を候補と確度とを出力し、段階ごとに出力された検出範囲の候補に対して重複したものを除外しながら、検出範囲候補を集合させ、検出枠のおよび対応する確度（score）を出力する。

分類モデル２Ｍを学習するための教師データは、インターネットを介して得られる静止画像内の人物、動物、又は移動体を含む被写体の範囲を示す枠の位置、幅および高さも含む。被写体の位置も出力する分類モデル２Ｍは、ＳＳＤに限られずＲ−ＣＮＮ、ＹＯＬＯ等に基づくモデルであってよい。

動画生成モデル１Ｍは、分類モデル２Ｍで検出された被写体以外を背景とし、オブジェクトを前景として扱って学習を進めるように、分類モデル２Ｍを用いてもよい。

このように学習によって生成されている動画生成モデル１Ｍ及び分類モデル２Ｍを用いることによって、動画生成装置１は、以下のように動画像データを生成することが可能である。図８は、動画像データの生成処理手順の一例を示すフローチャートである。

カテゴリー別の動画生成モデル１Ｍ及び分類モデル２Ｍを記憶部１２に記憶してある動画生成装置１の制御部１０は、受付部１０１として、テキスト及び静止画像を含むコンテンツを受け付ける（ステップＳ１）。コンテンツは例えば写真又はイラスト画像を含むニュース記事である。コンテンツは、小説、伝記等の書籍の一部であってもよい。書籍の一部としては、数十秒の動画像データに対応する文字数が抽出されたものであるとよい。コンテンツは、静止画像を含むＳＮＳ（Social Network Service）上の投稿であってもよい。コンテンツは、パンフレット内の記事であってもよい。コンテンツは、広告記事であってもよい。

ステップＳ１によって受け付けられるコンテンツは、例えばユーザが、ユーザ自身が作成したコンテンツ、又はインターネットを介して得られるコンテンツの中から選択したコンテンツである。動画生成装置１の制御部１０は受付部１０１として、表示部１３にコンテンツ選択画面を表示し、操作部１４によってコンテンツ選択画面に含まれるコンテンツを指定するためのファイル名、又はインターネット上のアドレス（ＵＲＬ）の入力を受け付けてよい。

ステップＳ１によって受け付けられるコンテンツは、ユーザが動画生成装置１に備えられるカメラで撮影したコンテンツであってもよい。動画生成装置１の制御部１０は受付部１０１として、表示部１３にカメラによって撮影されるモニタ画面を表示し、モニタ画面に写り込んでいる特定の画像が認識された場合にこれを受け付ける。特定の画像とは、カテゴリー決定部１０２による決定の対象となる「人物」、「動物」又は「移動体」の画像である。

制御部１０は、カテゴリー決定部１０２として、受け付けたコンテンツに含まれる静止画像を、分類モデル２Ｍへ入力することによってカテゴリーを決定する（ステップＳ２）。ステップＳ２において制御部１０は、コンテンツに含まれる静止画像を分類モデル２Ｍへ入力し、「人物」が写っているのか、「動物」が写っているのか、又は「移動体（乗り物）」が写っているかで決定される。なおステップＳ２では、静止画像が写真画像でなくイラスト、漫画であっても、「人物」が描かれている場合は人物が写っているとしてカテゴリーが「人物」に決定される。

制御部１０は、モデル選択部１０３として、ステップＳ２で決定されたカテゴリーに対応する動画生成モデル１Ｍを選択する（ステップＳ３）。ステップＳ３において制御部１０は、カテゴリー別に記憶部１２に記憶してある動画生成モデル１Ｍの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部１１に読み出させる。

制御部１０は、動画生成部１０５として、ステップＳ１で受け付けたコンテンツに含まれる静止画像を、選択された動画生成モデル１Ｍへ入力する（ステップＳ４）。

画像処理部１１は、動画生成モデル１Ｍとして機能し、入力された静止画像に基づく動画像データを出力する（ステップＳ５）。

制御部１０は、動画生成モデル１Ｍから出力された動画像データを記憶部１２に記憶する（ステップＳ６）。

制御部１０は、音声生成部１０４として、音声合成モジュールプログラム１２Ｐに基づき、ステップＳ１で受け付けたコンテンツに含まれるテキストから音声データを生成する（ステップＳ７）。ステップＳ７において制御部１０は音声生成部１０４として、テキストを読み上げた音声データを生成する。読み上げる音声の種類は、カテゴリー別に記憶されていてもよい。

制御部１０は、ステップＳ７で生成した音声データを、ステップＳ６で記憶した動画像データに同期させて音声付き動画像を生成し（ステップＳ８）、生成された音声付き動画像を記憶部１２に記憶し（ステップＳ９）、処理を終了する。

ステップＳ８における音声データの動画像データへの同期は、リップシンクまで実現されなくてよい。

制御部１０によって記憶部１２に記憶された音声付き動画像は、動画投稿ＳＮＳ上に自動的に投稿されてもよい。

図９は、動画生成装置１によって生成される動画像の概要図である。コンテンツに含まれる静止画像を基に、１〜数秒分の時系列のフレーム画像が生成される。図９の例では、カテゴリーとして人物が決定されており、動画生成モデル１Ｍによって、静止画像に写っている人物が話すような動画像と、コンテンツ中のテキストを特定の音声で読み上げる音声とが組み合わせられた音声付き動画像が生成される。

動画生成装置１は、図８のフローチャートに示した処理手順によって、動画像ではないコンテンツを動画化させ、躍動感を生じさせた動画コンテンツとすることができる。ユーザは、コンテンツに含まれるテキストを読む前に、コンテンツの概要を、動画像によってたやすく把握することができる。なお、音声の同期は必須ではなく、図８のフローチャートに示した処理手順の内のステップＳ７及びステップＳ８は省略してもよい。

カテゴリー決定部１０２が決定するカテゴリーは、「人物」、「動物（自然物）」、及び「移動体（乗り物）」に限られない。「人物」であっても、「米国大統領」、「日本国首相」、「女性アナウンサー」、「老年男性」、「若年男性」といった職業、性別、年齢層等の属性別に細かくカテゴリーを分別して決定するようにしてもよい。またカテゴリーは、キャラクターグッズにおけるキャラクターであってもよい。そしてこれらのカテゴリーに分類される場合、動画生成モデル１Ｍも細かなカテゴリー別に生成され学習される。

制御部１０は、生成した音声付き又は音声無し動画像を、ＡＲ（Augmented Reality ）画像、又はＭＲ（Mixed Reality ）画像として表示部１３に表示させてもよい。制御部１０は、表示部１３に表示中の内蔵カメラのモニタ画面上に、生成した動画像を表示させ、現実にカメラによって撮影されている画像上で生成された動画像を再生させてもよい。

図１０は、動画生成装置１によって生成される動画像の一表示例である。図１０には、図９で示した動画像の例が、コンテンツを写しているモニタ画面上に表示されている。このようにＡＲ画像、ＭＲ画像として、現実に撮影される画像に重畳表示することも容易に可能である。

動画生成モデル１Ｍは、入力された静止画像から、右目用及び左目用夫々の動画像データを出力するように構成されてもよい。この場合、出力される動画像データを左右に表示してＶＲ用の動画像データを作成することができる。

（実施の形態２）
実施の形態２では、静止画像を含まないコンテンツから動画像データを生成する。実施の形態２における動画生成装置１の構成は、具体的な処理手順以外は、実施の形態１における動画生成装置１と同様であるから、共通する構成については同一の符号を付して詳細な説明を省略する。

図１１は、実施の形態２における動画像データの生成処理手順の一例を示すフローチャートである。図１１のフローチャートに示す処理手順の内、実施の形態１における図８のフローチャートと共通する手順については同一のステップ番号を付して詳細な説明を省略する。以下の処理手順において制御部１０は、テキストのみのコンテンツも受け付け可能である。

制御部１０は、カテゴリー決定部１０２として、ステップＳ１で受け付けたコンテンツに含まれるテキストから、カテゴリーを決定する（Ｓ２０１）。静止画像が含まれない場合には分類モデル２Ｍが使用できないので、ステップＳ２０１において制御部１０は、ステップＳ１で受け付けたコンテンツに含まれるテキストからキーワードを抽出し、抽出したキーワードに基づいて最も頻度が高いキーワードに基づいてカテゴリーを決定するとよい。

制御部１０は、ステップＳ２０１で決定したカテゴリーを示すテキスト、又は抽出されたキーワードを用いて、決定されたカテゴリーに対応する静止画像を、通信部１５を介して、又は記憶部１２に記憶してある他の静止画像から取得する（ステップＳ２０２）。

制御部１０は、ステップＳ２０１で決定されたカテゴリーに対応する動画生成モデル１Ｍを選択し（Ｓ３）、動画生成部１０５として、ステップＳ２０２で取得した静止画像を、選択された動画生成モデル１Ｍへ入力する（ステップＳ２０４）。

画像処理部１１は、動画生成モデル１Ｍとして、入力された静止画像に基づく動画像データを出力する（Ｓ５）。

制御部１０は、動画生成部１０５として、動画生成モデル１Ｍから出力された動画像データを記憶部１２に記憶し（Ｓ６）、コンテンツに含まれるテキストから音声データを生成し（Ｓ７）、音声付き動画像を生成し（Ｓ８）、記憶し（Ｓ９）、処理を終了する。

図１１のフローチャートに示した処理手順によって、テキストのみのコンテンツから動画像データが生成可能である。なお制御部１０は、ステップＳ２０２の処理を省略してもよい。この場合、制御部１０は、カテゴリー別にアバター画像を記憶しておき、ステップＳ２０４において、アバターの静止画像を、動画生成モデル１Ｍへ入力する。

図１１のフローチャートに基づく処理手順によって生成された動画像データは、実施の形態１で示した手順によって生成された動画像データと結合されてもよい。図１２及び図１３は、実施の形態２における動画生成処理手順の他の一例を示すフローチャートである。

制御部１０は、図８のフローチャートのステップＳ１−Ｓ７までの処理を実行し、ステップＳ８で生成した音声付き動画像を、第１の音声付き動画像のデータとして記憶する（ステップＳ３０１）。制御部１０は続けて、受け付けたコンテンツに含まれるテキストから、カテゴリーを決定し（ステップＳ３０２）、決定されたカテゴリーに基づく静止画像を、コンテンツ外から取得する（ステップＳ３０３）。制御部１０は、ステップＳ３０２で決定されたカテゴリーに対応する動画生成モデル１Ｍを選択し（Ｓ３）、動画生成部１０５として、取得した静止画像を、選択された動画生成モデル１Ｍへ入力する（ステップＳ３０４）。

制御部１０は、動画生成部１０５として、ステップＳ５で動画生成モデル１Ｍから出力された動画像データを記憶部１２に記憶し（Ｓ６）、コンテンツに含まれるテキストから音声データを生成し（Ｓ７）、音声動画像を生成し（Ｓ８）、第２の音声付き動画像のデータとして記憶部１２に記憶する（ステップＳ３０５）。

制御部１０は、画像処理部１１へ、記憶部１２に記憶してある第１の音声付き動画像のデータと第２の音声付き動画像のデータとを与えて結合させ（ステップＳ３０６）、結合後の音声付き動画像のデータを記憶部１２に記憶し（ステップＳ３０７）、処理を終了する。

画像処理部１１が動画生成部１０５として実行する結合処理は、２つ以上の音声付き動画像データを単に連続再生されるように結合するのみならず、サムネイルとなる静止画像の変形等を伴うアニメーション的な動きを与えた動画を挟み込む、前後に付け足す等、従来の演出動画を追加する処理を含んでよい。

動画生成装置１は、図１１−図１３のフローチャートに示した処理手順によって、動画像ではないコンテンツを動画化させ、躍動感を生じさせた動画コンテンツとすることができる。ユーザは、テキストのみを含むコンテンツについても、コンテンツの概要を、動画像によってたやすく把握することができる。異なる要素を含むコンテンツを、テキストから得られる動画像と、静止画像から得られる動画像とを結合した動画像データとすることも可能である。

動画生成装置１は、図１１のフローチャートに示した処理手順を使用して、小説、伝記等の書籍から、少しずつコンテンツを抽出し、抽出したコンテンツ夫々に含まれるテキストから音声付き動画像を生成してもよい。動画生成装置１は少しずつ抽出したコンテンツから夫々生成した動画像を繋げるようにして長編動画像を生成することも可能である。

実施の形態１又は２で開示した動画生成装置１は、生成した音声付き動画像を元に、動画像を構成する複数のフレーム画像の内のいずれかを抽出してコマに割り当てた漫画を生成するようにしてもよい。この場合、各々のコマには、そのフレーム画像に対応する音声のテキストをセリフとして付加する。これにより、一部の記事から動画を生成するのみならず、コンテンツの内容を漫画的に紹介する新たなコンテンツを生成することも可能である。

（実施の形態３）
実施の形態３における動画生成装置１は、１つのコンテンツから複数の静止画像を抽出して動画像データを生成する。実施の形態３における動画生成装置１の構成は、具体的な処理手順以外は、実施の形態１における動画生成装置１と同様であるから、共通する構成については同一の符号を付して詳細な説明を省略する。

図１４は、実施の形態３における動画生成処理手順の一例を示すフローチャートである。図１４のフローチャートに示す処理手順の内、実施の形態１における図８のフローチャートと共通する手順については同一のステップ番号を付して詳細な説明を省略する。

制御部１０は、受付部１０１としてコンテンツを受け付けると（Ｓ１）、コンテンツから複数の静止画像を抽出する（ステップＳ４０１）。制御部１０は、抽出された複数の静止画像から１つの静止画像を選択し（ステップＳ４０２）、カテゴリー決定部１０２として、選択された静止画像を分類モデル２Ｍへ入力することによってカテゴリーを決定する（ステップＳ３０３）。

制御部１０は、モデル選択部１０３として、ステップＳ４０３で決定されたカテゴリーに対応する動画生成モデル１Ｍを選択し（ステップＳ４０４）、選択された動画生成モデル１Ｍへ、選択した静止画像を入力する（ステップＳ４０５）。

制御部１０は、抽出された全ての静止画像を選択したか否かを判断し（ステップＳ４０６）、選択していないと判断された場合（Ｓ４０６：ＮＯ）、処理をステップＳ４０２へ戻して次の静止画像に対して処理を実行する。

ステップＳ４０６で全ての静止画像を選択したと判断された場合（Ｓ４０６：ＹＥＳ）、制御部１０は、動画生成部１０５として、全ての静止画像について夫々記憶された動画像データを結合し（ステップＳ４０７）、結合後の動画像データを記憶部１２に記憶する（ステップＳ４０８）。

制御部１０は、ステップＳ７で生成した音声データを、ステップＳ４０８で記憶した動画像データに同期させて音声付き動画像を生成し（ステップＳ８）、生成された音声付き動画像を記憶部１２に記憶し（ステップＳ９）、処理を終了する。

音声データについても、複数箇所のテキストを抽出して音声化し、結合させてもよい。

動画生成装置１は、図１４のフローチャートに示した処理手順によって、異なる要素を含むコンテンツに応じて、複数の動画像を結合した動画像データとすることも可能である。

（実施の形態４）
実施の形態４における動画生成装置１は、コンテンツとして漫画又はイラストから動画像データを生成する。図１５は、実施の形態４における動画生成装置１の構成を示すブロック図であり、図１６は、実施の形態４における動画生成装置１の機能ブロック図である。実施の形態４における動画生成装置１の構成は、音声出力モデル４Ｍ及び具体的な処理手順以外は、実施の形態１における動画生成装置１と同様であるから、共通する構成については同一の符号を付して詳細な説明を省略する。

実施の形態４における動画生成装置１の記憶部１２には、音声合成モジュールプログラム１２Ｐの代わりに、音声出力モデル４Ｍの定義及び音声出力モデル４Ｍにおける重み係数等のパラメータを含む音声出力モデルデータが記憶されている。モデルデータは、異なるカテゴリー別に、カテゴリーを識別するカテゴリーＩＤと対応付けて記憶されている。そして制御部１０は音声生成部１０４として機能する場合、画像処理部１１のプロセッサを利用した音声出力モデル４Ｍとしての機能を用いる。

実施の形態４における動画生成装置１にて記憶してある動画生成モデル１Ｍは、漫画の１コマから、数秒から数十秒の動画像データを生成するように学習されてある。教師データとして、漫画の１コマに対応するアニメーションの動画像データを用いてもよいし、１コマから複数の連続するフレーム画像を描画作成したものを用いてもよい。コンテンツが漫画である場合も、動画生成モデル１Ｍは、図３又は図４で示したように、背景と前景とを分けないネットワークでもよいし、背景と前景とを分け、前景のみが動く動画像を出力するネットワークで定義されてもよい。

実施の形態４においても動画生成モデル１Ｍは、カテゴリー別に生成される。動画生成モデル１Ｍは、「バトル」、「スポーツ」、「ラブストーリー」、「ギャグ」、「群像劇」等のカテゴリー別に生成されて記憶されている。

実施の形態４では、音声も学習された音声出力モデル４Ｍを用いて生成する。図１７は、音声出力モデル４Ｍの概要図である。音声出力モデル４Ｍは、テキストが入力された場合にテキストに対する自然な音声を出力するよう学習されている。音声出力モデル４Ｍは、入力されるテキストの解析ネットワーク４１と、解析部から出力された発音の特徴量から音声の時間波形を出力する波形出力ネットワーク４２とを含む。解析ネットワーク４１は、入力されるテキストに対するcharacter embeddingを実施する層と、複数の畳み込み層と、複数のＬＴＳＭ層等とを含み、スペクトログラムを出力するRNN-seq2seqネットワークである。波形出力ネットワーク４２は、スペクトログラムを入力して音声データへ変換するネットワークである。音声出力モデル４Ｍは、既存の図１６に示したような Tacotron2，Wavenet 等、テキストから自然な音声波形を出力するモデルを用いてよい。

図１８は、実施の形態４における動画生成処理手順の一例を示すフローチャートである。

カテゴリー別の動画生成モデル１Ｍ及び分類モデル２Ｍを記憶部１２に記憶してある動画生成装置１の制御部１０は、受付部１０１として、画像及びセリフを含む漫画を受け付ける（ステップＳ５０１）。図１８のフローチャートに示す処理手順では、受け付けられる漫画は、１コマ単位であることが好ましい。

ステップＳ５０１で受け付けられるコンテンツは、例えばユーザが、ユーザ自身が作成した漫画のコマ、又はインターネットを介して得られる漫画のデジタル画像である。動画生成装置１の制御部１０は受付部１０１として、表示部１３にコンテンツ選択画面を表示し、操作部１４によってコンテンツ選択画面に含まれるコンテンツを指定するためのファイル名、又はインターネット上のアドレス（ＵＲＬ）の入力を受け付けてよい。

制御部１０は、カテゴリー決定部１０２として、受け付けた漫画のセリフ又は絵に基づいてカテゴリーを決定する（ステップＳ５０２）。ステップＳ５０２において制御部１０は、ステップＳ５０１で受け付けられたコンテンツのセリフ及び絵から、「マンガ」というカテゴリーを決定してもよい。ステップＳ５０２において制御部１０は、漫画の絵の部分を分類モデル２Ｍへ入力してカテゴリーを決定してもよい。カテゴリーの決定は、受付部１０１にてユーザによる選択を受け付けてもよい。

制御部１０は、モデル選択部１０３として、ステップＳ５０２で決定されたカテゴリーに対応する動画生成モデル１Ｍ及び音声出力モデル４Ｍを選択する（ステップＳ５０３）。ステップＳ５０３において制御部１０は、カテゴリー別に記憶部１２に記憶してある動画生成モデル１Ｍの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部１１に読み出させる。制御部１０は、同様にしてカテゴリー別に記憶部１２に記憶してある音声出力モデル４Ｍの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部１１に読み出させる。

制御部１０は、動画生成部１０５として、ステップＳ５０１で受け付けた漫画の１コマの絵部分（吹き出し部分にマスクをかけたもの）のデジタル画像を、選択された動画生成モデル１Ｍへ入力する（ステップＳ５０４）。

画像処理部１１は、動画生成モデル１Ｍとして機能し、入力された絵部分に基づく動画像データを出力する（ステップＳ５０５）。

制御部１０は、動画生成モデル１Ｍから出力された動画像データを記憶部１２に記憶する（ステップＳ５０６）。

制御部１０は、音声生成部１０４として、ステップＳ５０１で受け付けた漫画の１コマのセリフに対応するテキストを、ステップＳ５０２で決定されたカテゴリーに対応する音声出力モデル４Ｍへ入力する（ステップＳ５０７）。

画像処理部１１は、音声出力モデル４Ｍとして機能し、入力されたテキストを読み上げた音声データを生成し出力する（ステップＳ５０８）。

制御部１０は、音声出力モデル４Ｍから出力された音声データを、ステップＳ５０６で記憶した動画像データに同期させて音声付き動画像を生成し（ステップＳ５０９）、生成された音声付き動画像を記憶部１２に記憶し（ステップＳ５１０）、処理を終了する。

動画生成装置１は、図１８のフローチャートに示した処理手順によって、漫画の１コマを動画化させ、動画コンテンツとすることができる。ユーザは、漫画の１コマから、セリフを音声で聴き、動きのある絵を観ることができる。

漫画は複数のコマから構成されていることが多い。複数のコマを含む漫画、例えば４コマ漫画に対しては、動画生成装置１は、以下の図１９のフローチャートに示す処理手順を実行する。図１９は、実施の形態４における動画生成処理手順の他の一例を示すフローチャートである。図１９のフローチャートに示す処理手順の内、図１８のフローチャートと共通する手順には同一のステップ番号を付して詳細な説明を省略する。

制御部１０は、受付部１０１として漫画を受け付けると（Ｓ５０１）、漫画から複数のコマを抽出する（ステップＳ５２２）。ステップＳ５０２において制御部１０は例えば、多数のコマを含む漫画から２〜５つのコマを抽出する。抽出するコマ数（結合する動画像の数）は、記憶部１２に記憶しておく。

制御部１０は、抽出された複数のコマから１つのコマを選択する（ステップＳ５２３）。制御部１０は、選択された１コマに対し、カテゴリー決定部１０２として、選択したコマのカテゴリーを決定し（Ｓ５０２）、動画生成モデル１Ｍ及び音声出力モデル４Ｍを選択する（Ｓ５０３）。

制御部１０は、選択した１コマの絵部分を、選択した動画生成モデル１Ｍへ入力する（Ｓ５０４）。ステップＳ５０５にて画像処理部１１によって動画生成モデル１Ｍから出力される動画像データを、制御部１０は、記憶部１２に記憶する（Ｓ５０６）。

制御部１０は、音声生成部１０４として、選択中の１コマのセリフに対応するテキストを、決定されたカテゴリーに対応する音声出力モデル４Ｍへ入力する（Ｓ５０７）。

制御部１０は、ステップＳ５０８にて画像処理部１１によって音声出力モデル４Ｍから出力された音声データを、ステップＳ５０６で記憶した動画像データに同期させて音声付き動画像を生成し（Ｓ５０９）、記憶する（Ｓ５１０）。

制御部１０は、抽出された全てのコマを選択したか否かを判断し（ステップＳ５２４）、選択していないと判断された場合（Ｓ５２４：ＮＯ）、処理をステップＳ５２３へ戻して次の１コマを選択して処理を実行する。

ステップＳ５２４で全てのコマを選択したと判断された場合（Ｓ５２４：ＹＥＳ）、制御部１０は、動画生成部１０５として、全てのコマに対して夫々記憶された音声付き動画像を順に結合し（ステップＳ５２５）、結合後の音声付き動画像のデータを記憶部１２に記憶し（ステップＳ５２６）、処理を終了する。

実施の形態４の動画生成装置１の処理により、漫画の１コマを夫々動画化させ、動画コンテンツとすることができる。ユーザは、漫画の１コマから、セリフを音声で聴き、動きのある絵を観ることができる。

（実施の形態５）
実施の形態５では、動画生成装置１は、生成した動画像のデータを、第三者から評価が可能なネットワーク、例えばＳＮＳ上にアップロードし、評価を受け付ける。実施の形態５における動画生成装置１の構成は、詳細な処理手順以外は実施の形態１の動画生成装置１と同様であるから、共通する構成については同一の符号を付して詳細な説明を省略する。

図２０は、実施の形態５における動画生成装置１の処理手順の一例を示すフローチャートである。図２０のフローチャートに示す処理手順の内、実施の形態１の図８のフローチャートに示した処理手順と共通する手順については同一のステップ番号を付して詳細な説明を省略する。

動画生成装置１の制御部１０は、音声付き動画像を生成して記憶すると（Ｓ８，Ｓ９）、通信部１５を介して生成した音声付き動画像（又は音声無しの動画像）を自動的にアップロードする（ステップＳ６０１）。

制御部１０は、アップロードした音声付き動画像に対する評価を受け付ける（ステップＳ６０２）。評価の受付は、アップロード先のＷｅｂサイト、又は特定のアプリケーションプログラム（ＳＮＳアプリケーションプログラム）に基づいて閲覧可能なサイトにて受け付けられる評価を取得することで実現される。

制御部１０は、受け付けた評価を、生成した音声付き動画像に対応付けて記憶部１２に記憶し（ステップＳ６０３）、処理を終了する。

動画生成装置１又は他の装置にて、各音声付き動画像に対して受け付けられた評価の最頻値、平均値、等に基づいて、音声付き動画像の元の動画像データを出力した動画生成モデル１Ｍを、再学習させるようにしてもよい。例えば制御部１０が、評価の平均値が所定の評価指標の値以下である場合に、元の動画生成モデル１Ｍを低評価にして再学習させるか、他の学習装置へ再学習を依頼してもよい。

（実施の形態６）
実施の形態６では、動画生成装置１は、受け付けるコンテンツに含まれるテキストに基づいて、該テキストよりも長いテキストを読み上げる音声を含む音声付き動画像を生成する。図２１は、実施の形態６における動画生成装置１の構成を示すブロック図であり、図２２は、実施の形態６における動画生成装置１の機能ブロック図である。実施の形態６における動画生成装置１の構成は、テキスト生成モデル５Ｍ及びこれに関する手順以外は、実施の形態１から実施の形態４における動画生成装置１と同様であるから、共通する構成については同一の符号を付して詳細な説明を省略する。

実施の形態６における動画生成装置１の記憶部１２には、動画生成プログラム１Ｐ、動画生成モデル１Ｍのモデルデータ、分類モデル２Ｍのモデルデータ、及び音声出力モデル４Ｍのモデルデータの他に、テキスト生成モデル５Ｍのモデルデータが記憶されている。テキスト生成モデル５Ｍのモデルデータは、モデルのネットワーク定義及び重み係数等のパラメータを含む。モデルデータは、カテゴリー別に、カテゴリーを識別するカテゴリーＩＤと対応付けて記憶されている。

実施の形態６における動画生成装置１の制御部１０は、音声生成部１０４及び動画生成部１０５として機能する場合、画像処理部１１のプロセッサを利用して動画生成モデル１Ｍ、音声出力モデル４Ｍとして機能する。制御部１０は、音声出力モデル４Ｍを用いて音声を生成する前段階として、画像処理部１１のプロセッサを利用したテキスト生成モデル５Ｍを用いて音声化するべきテキストを生成する。

実施の形態６におけるテキスト生成モデル５Ｍは、表題、１行目、又は、概要を表す一文が入力された場合に、日本語で５００〜７００文字程度の、数分で読み終わる程度の文字数のテキストデータを生成するように学習されてある。教師データとして、インターネットで不特定多数に開示されているニュース記事群か、特定のコーパスが用いられるとよい。

実施の形態６におけるテキスト生成モデル５Ｍの概要図である。テキスト生成モデル５Ｍは、一文に該当するテキストが入力された場合に、該一文の詳細に対応する長文テキストを出力するように学習されている。テキスト生成モデル５Ｍは例えば、Transformer構造を応用した言語モデルであるＧＰＴ−２を用い、冒頭の一文を入力として文章全体を出力するように学習されたモデルである。その他の自動文章作成を達成する既知の技術、例えばBERT等を用いてもよい。テキスト生成モデル５Ｍは、「ニュース」、「紹介文」、「物語」といったカテゴリー別に学習されていてもよい。

図２３は、テキスト生成モデル５Ｍを用いたテキスト生成の概要図である。テキスト生成モデル５Ｍは、一文のテキストデータが入力された場合に、テキストデータを解析し、類似語、文脈等の異なるタスクで、拡張変換し長い文章を出力するようにしてある。動画生成装置１の制御部１０は、入力したコンテンツに含まれるテキストの中の一文をテキスト生成モデル５Ｍへ入力することによって出力されたテキストを、音声出力モデル４Ｍを用いて自然な音声を出力する。制御部１０は、テキスト生成モデル５Ｍに入力した一文のテキスト、又はテキスト生成モデル５Ｍから出力されたテキスト中の注目語（名詞）を用いてコンテンツ外から静止画像を取得し、動画生成モデル１Ｍへ入力して動画像データを生成する。制御部１０は、音声出力モデル４Ｍから出力された音声を、動画生成モデル１Ｍから出力された動画像データと同期させて音声付き動画像を生成する。

図２４及び図２５は、実施の形態６における動画生成処理手順の一例を示すフローチャートである。動画生成装置１の制御部１０は、受付部１０１として、少なくとも一文のテキストを含むコンテンツを受け付ける（ステップＳ７０１）。

制御部１０は、カテゴリー決定部１０２として、受け付けたコンテンツのカテゴリーを決定する（ステップＳ７０２）。ステップＳ７０２において制御部１０は、受付部１０１にてユーザによる選択を受け付けてもよい。

制御部１０は、モデル選択部１０３として、ステップＳ７０２で決定されたカテゴリーに対応する動画生成モデル１Ｍ、テキスト生成モデル５Ｍ、音声出力モデル４Ｍを選択する（ステップＳ７０３）。ステップＳ７０３において制御部１０は、カテゴリー別に記憶部１２に記憶してある動画生成モデル１Ｍの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部１１に読み出させる。制御部１０は、同様にしてカテゴリー別に記憶部１２に記憶してある音声出力モデル４Ｍの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部１１に読み出させる。制御部１０は、同様にしてカテゴリー別に記憶部１２に記憶してあるテキスト生成モデル５Ｍの定義及びパラメータを含むモデルデータの内、決定されたカテゴリーに対応するモデルデータを指定して画像処理部１１に読み出させる。

制御部１０は、音声生成部１０４として、ステップＳ７０１で受け付けたコンテンツの内のテキスト一文を、選択されたカテゴリーのテキスト生成モデル５Ｍへ入力する（ステップＳ７０４）。

画像処理部１１は、テキスト生成モデル５Ｍとして機能し、入力されたテキストに基づくテキストデータを出力する（ステップＳ７０５）。

制御部１０は、テキスト生成モデル５Ｍから出力された長文のテキストデータを記憶部１２に記憶する（ステップＳ７０６）。

制御部１０は、音声生成部１０４として、ステップＳ７０６で記憶したテキストデータを決定されたカテゴリーに対応する音声出力モデル４Ｍへ入力し（ステップＳ７０７）、ステップＳ７０８にて画像処理部１１によって音声出力モデル４Ｍから出力される音声データを記憶部１２に記憶する（ステップＳ７０９）。

制御部１０は、動画生成部１０５として、ステップＳ７０１で受け付けたコンテンツに含まれるテキストに基づいて、決定されたカテゴリーに対応する静止画像を、通信部１５を介して、又は記憶部１２に記憶してある他の静止画像から取得する（ステップＳ７１０）。ステップＳ７１０において制御部１０は、生成されるテキストの分量に応じて、取得する静止画像の数を決定するとよい。

制御部１０は、ステップＳ７１０で取得した静止画像を、選択した動画生成モデル１Ｍへ入力する（ステップＳ７１１）。ステップＳ７１２にて画像処理部１１によって動画生成モデル１Ｍから出力される動画像データを、制御部１０は、記憶部１２に記憶する（ステップＳ７１３）。ステップＳ７１０で複数の静止画像を取得している場合、制御部１０は、複数の静止画像夫々に応じて出力された動画像データを結合して記憶するとよい。

制御部１０は、動画生成モデル１Ｍから出力された動画像データに、ステップＳ７０９で記憶した音声データを同期させて音声付き動画像を生成し（ステップＳ７１４）、記憶し（ステップＳ７１５）、処理を終了する。

実施の形態６の動画生成装置１の処理により、入力されたコンテンツの一文から長編動画像のデータが生成される。

実施の形態６では、テキスト生成モデル５Ｍを用いて、コンテンツに含まれるテキストを元のテキストよりも長いテキストとし、これに合わせてより長い動画を生成した。テキストに限られない。例えば、４コマ漫画等の、短編漫画を入力して長編マンガを生成し、生成した長編マンガのコマ夫々から音声付き動画像を生成し、生成した動画像を結合して長編アニメーションのような動画像を生成するようにしてもよい。

上述のように開示された実施の形態は全ての点で例示であって、制限的なものではない。本発明の範囲は、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれる。

１動画生成装置
１０制御部
１０１受付部
１０２カテゴリー決定部
１０３モデル選択部
１０４音声生成部
１０５動画生成部
１１画像処理部
１２記憶部
１Ｐ，３１Ｐ動画生成プログラム
１Ｍ，３Ｍ動画生成モデル
１２Ｍ識別モデル
２Ｍ分類モデル
４Ｍ音声出力モデル
３記録媒体
５Ｍテキスト生成モデル

Claims

静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
テキスト及び静止画像を含むコンテンツを受け付け、
受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、
決定されたカテゴリーに対応する前記動画生成モデルを選択し、
選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成し、
受け付けた前記コンテンツに含まれるテキストから音声データを生成し、
生成された音声データを、生成された動画像へ同期させた音声つき動画像を生成する
処理を実行させる動画生成プログラム。
静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
テキスト及び静止画像を含むコンテンツを受け付け、
受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、
決定されたカテゴリーに対応する前記動画生成モデルを選択し、
選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成させ、
前記動画生成モデルは、静止画像が入力された場合に動画像を生成するように定義された畳み込みニューラルネットワークを含む動画生成モデルに対し、動画像が入力された場合に、前記動画生成モデルから出力される動画像であるか、又は前記動画生成モデルによって生成されたものでない基準動画像であるかを識別するように定義されたニューラルネットワークを含む識別モデルを用い、
所定の基準を満たすまで前記動画生成モデル及び識別モデル夫々の前記ニューラルネットワークのパラメータを相互に更新することによって、カテゴリー別に学習済みである
動画生成プログラム。
静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
テキスト及び静止画像を含むコンテンツを受け付け、
受け付けたコンテンツ中の静止画像を前記動画生成モデルへ入力して生成された第１動画像を記憶部に記憶し、
前記コンテンツ中のテキストに基づいてカテゴリーを決定し、
決定されたカテゴリーに対応する第２静止画像を前記コンテンツ外から取得し、
決定されたカテゴリーに対応する前記動画生成モデルを選択し、
選択された前記動画生成モデルへ、前記第２静止画像を入力して第２動画像を生成し、
前記第１動画像と前記第２動画像とを結合する
処理を実行させる動画生成プログラム。
静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
テキスト及び静止画像を含むコンテンツを受け付け、
受け付けた前記コンテンツから複数の静止画像を抽出し、
抽出された複数の静止画像毎に、該静止画像に基づくカテゴリーを決定し、
決定されたカテゴリー夫々に対応する前記動画生成モデルを選択し、
選択された前記動画生成モデル夫々に、前記複数の静止画像の内の対応する静止画像を入力することによって複数の動画像を生成し、
生成された複数の動画像を結合する
処理を実行させる動画生成プログラム。
前記テキストは、前記コンテンツに含まれる前記静止画像に対応するセリフ、記事、又はＳＮＳに投稿された文章である
請求項１から請求項４のいずれか１項に記載の動画生成プログラム。
静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
テキスト及び静止画像を含む漫画であるコンテンツを受け付け、
受け付けた漫画に含まれるセリフ又は静止画像に基づいてカテゴリーを決定し、
決定されたカテゴリーに対応する前記動画生成モデルを選択し、
選択された前記動画生成モデルへ、前記漫画の静止画像を入力して動画像を生成し、
漫画のセリフを入力した場合に前記セリフに対する音声を出力するよう学習された音声出力モデルを、異なるカテゴリー別に記憶しておき、
受け付けた漫画のセリフを、決定されたカテゴリーに対応する音声出力モデルへ入力して音声を生成し、
生成された音声を、生成された動画像に同期させた音声つき動画像を生成する
処理を実行させる記載の動画生成プログラム。
静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に記憶してあるコンピュータに、
テキスト及び静止画像を含む漫画であるコンテンツを受け付け、
漫画のセリフを入力した場合に前記セリフに対する音声を出力するよう学習された音声出力モデルを、異なるカテゴリー別に記憶しておき、
受け付けた漫画に含まれる第１コマの第１セリフ又は第１静止画像に基づいて第１カテゴリーを決定し、
決定された第１カテゴリーに対応する前記動画生成モデルへ、前記第１静止画像を入力して第１動画像を生成し、
前記第１コマに連続する第２コマの第２セリフ又は第２静止画像に基づいて第２カテゴリーを決定し、
決定された第２カテゴリーに対応する前記動画生成モデルへ、前記第２静止画像を入力して第２動画像を生成し、
前記第１セリフを、前記第１カテゴリーに対応する前記音声出力モデルへ入力して第１音声を生成し、
前記第２セリフを、前記第２カテゴリーに対応する前記音声出力モデルへ入力して第２音声を生成し、
生成された前記第１音声を前記第１動画像へ同期させた第１の音声付き動画像と、前記第２音声を前記第２動画像へ同期させた第２の音声付き動画像とを結合させる
処理を実行させる記載の動画生成プログラム。
前記コンピュータに、
静止画像が入力された場合に、前記静止画像に写っている人物、動物又は移動体を含む被写体によってカテゴリーを分類するように学習された分類モデルへ、受け付けられた前記コンテンツに含まれる静止画像を入力することによってカテゴリーを決定する
処理を実行させる請求項１から請求項７のいずれか１項に記載の動画生成プログラム。
静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に複数記憶する記憶部と、
テキスト及び静止画像を含むコンテンツを受け付ける受付部と、
受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定する決定部と、
決定されたカテゴリーに対応する前記動画生成モデルを選択する選択部と、
選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成する動画像生成部と、
受け付けた前記コンテンツに含まれるテキストから音声データを生成する音声生成部と、
生成された音声データを、生成された動画像へ同期させた音声つき動画像を生成する生成部と
を備える動画生成装置。
静止画像が入力された場合に、前記静止画像に基づく動画像を生成して出力するように学習された動画生成モデルを、異なるカテゴリー別に複数記憶しておき、
テキスト及び静止画像を含むコンテンツを受け付け、
受け付けたコンテンツに含まれるテキスト又は静止画像に基づいてカテゴリーを決定し、
決定されたカテゴリーに対応する前記動画生成モデルを選択し、
選択された前記動画生成モデルへ、前記コンテンツ中の静止画像を入力して動画像を生成し、
受け付けた前記コンテンツに含まれるテキストから音声データを生成し、
生成された音声データを、生成された動画像へ同期させた音声つき動画像を生成する
処理を含む動画生成方法。