JP2020140326A

JP2020140326A - コンテンツ生成システム、及びコンテンツ生成方法

Info

Publication number: JP2020140326A
Application number: JP2019033926A
Authority: JP
Inventors: 鈴木　智也; Tomoya Suzuki; 智也鈴木
Original assignee: Mintoru Co Ltd
Current assignee: Mintoru Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2020-09-03
Anticipated expiration: 2039-02-27
Also published as: JP6641045B1

Abstract

【課題】発話音声に基づいてコンテンツを生成する。【解決手段】コンテンツ生成システムは、発話者の音声情報を取得する音声取得部と、前記音声情報をテキスト情報に変換する変換部と、前記テキスト情報を解析する解析部と、前記テキスト情報の解析結果に基づいてシナリオ情報を生成するシナリオ情報生成部と、素材画像が格納された素材画像データベースと、前記シナリオ情報を所定の編集単位毎に区分し、前記編集単位に前記素材画像データベースに格納された前記素材画像を対応付けて対応情報を生成する対応付け部と、前記編集単位毎に対応付けられた前記素材画像を連結して動画像を生成する動画像生成部と、を備えることを特徴とする。【選択図】図３

Description

本発明は、例えば、発話音声に基づいてコンテンツを生成できるようにしたコンテンツ生成システム、及びコンテンツ生成方法に関する。

従来、動画像（アニメーションを含む）、漫画等のコンテンツを容易に生成するための様々方法が提案されている。

例えば、特許文献１には、任意の動画データが指定されると動画データに含まれる複数の画像の中から重要なシーンの画像を自動的に抽出し、抽出した画像を漫画的に配置変換して表示し、画像には吹き出しなどの画面効果等を自動的に配置する、こと等が記載されている。

また例えば、特許文献２には、入力された映像信号及びそれに対応する音声信号に基づき、映像信号から映像内容の切り替わりの特徴となる映像フレームを、漫画の構成単位であるコマ画像として抽出し、前記コマ画像に登場する人物の人物領域を検出し、前記音声信号から音声認識された前記人物の台詞を文字列情報として生成し、前記文字列情報を前記人物の台詞内容として挿入した吹き出しを、前記人物領域に基づいて前記コマ画像に重畳する、こと等が記載されている。

特開２０１４−６９１２号公報特開２００３−８５５７２号公報

上述したように、動画像から画像を抽出して漫画を生成する技術は存在する。しかしながら、発話音声に基づいて動画像、漫画等のコンテンツを生成することはできない。

本発明は、このような状況に鑑みてなされたものであり、発話音声に基づいてコンテンツを生成できるようにすることを目的とする。

本発明は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。

上記課題を解決すべく、本発明の一態様に係るコンテンツ生成システムは、発話者の音声情報を取得する音声取得部と、前記音声情報をテキスト情報に変換する変換部と、前記テキスト情報を解析する解析部と、前記テキスト情報の解析結果に基づいてシナリオ情報を生成するシナリオ情報生成部と、素材画像が格納された素材画像データベースと、前記シナリオ情報を所定の編集単位に区分し、前記編集単位毎に前記素材画像データベースに格納された前記素材画像を対応付けて対応情報を生成する対応付け部と、前記編集単位毎に対応付けられた前記素材画像を連結して動画像を生成する動画像生成部と、を備えることを特徴とする。

前記解析部は、前記テキスト情報の前記解析結果として、コンテンツにおける５Ｗ１Ｈを特定することができる。

前記解析部は、コンテンツにおける登場人物の感情を特定することができる。

前記解析部は、前記音声情報に基づいて前記コンテンツにおける登場人物の感情を特定することができる。

前記解析部は、前記音声情報に基づいて前記発話者のメタデータを特定することができる。

前記対応付け部は、前記発話者の前記メタデータに基づき、前記編集単位毎に前記素材画像データベースに格納された前記素材画像を対応付けて前記対応情報を生成することができる。

前記対応付け部は、前記編集単位毎に前記素材画像データベースに格納された、所定の作風の前記素材画像を対応付けて前記対応情報を生成することができる。

前記シナリオ情報生成部は、前記テキスト情報の解析結果に基づいて、コンテンツにおける登場人物に関する少なくとも発言、挙動、状況、及び感情のうちの一つを時系列に配置した前記シナリオ情報を生成することができる。

前記コンテンツ生成システムは、ユーザからの操作入力を受け付ける操作部と、前記ユーザからの操作入力に基づき、前記シナリオ情報及び前記対応情報の少なくとも一方を修正する修正部と、を備えることができる。

前記修正部は、前記シナリオ情報及び前記対応情報の少なくとも一方に対する修正結果を学習し、学習結果に基づいて前記素材画像データベースを更新することができる。

前記修正部は、前記ユーザから入力された前記素材画像を前記シナリオ情報の前記編集単位に対応付けることによって前記対応情報を修正することができる。

前記コンテンツ生成システムは、フリー素材としての画像データを収集し、前記素材画像として前記素材画像データベースに登録する収集部を、備えることができる。

本発明の他の態様に係るコンテンツ生成方法は、発話者の音声情報を取得する音声取得ステップと、前記音声情報をテキスト情報に変換する変換ステップと、前記テキスト情報を解析する解析ステップと、前記テキスト情報の解析結果に基づいてシナリオ情報を生成するシナリオ情報生成ステップと、前記シナリオ情報を所定の編集単位に区分し、前記編集単位毎に素材画像データベースに格納された素材画像を対応付けて対応情報を生成する対応付けステップと、前記編集単位毎に対応付けられた前記素材画像を連結して動画像を生成する動画生成ステップと、を含むことを特徴とする。

本発明の一態様によれば、発話音声に基づいてコンテンツを生成することが可能となる。

上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

図1は、本発明の一実施の形態に係るコンテンツ生成システムの構成例を示す図である。図２は、端末装置を構成する機能ブロックの構成例を示すブロック図である。図３は、サーバ装置を構成する機能ブロックの構成例を示すブロック図である。図４は、シナリオ情報のデータ構造の一例を示す図である。図５は、素材画像ＤＢのデータ構造の一例を示す図である。図６は、対応情報のデータ構造の一例を示す図である。図７は、コンテンツ生成処理の一例を説明するフローチャートである。図８は、修正処理の一例を説明するフローチャートである。図９は、コンテンツ表示画面の表示例を示す図である。図１０は、コンピュータの構成例を示すブロック図である。

以下、本発明に係る一実施の形態を図面に基づいて説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。また、「Ａからなる」、「Ａよりなる」、「Ａを有する」、「Ａを含む」と言うときは、特にその要素のみである旨明示した場合等を除き、それ以外の要素を排除するものでないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。

＜本発明の一実施形態に係るコンテンツ生成システムの概要＞
本発明の一実施形態に係るコンテンツ生成システムは、発話者による発話音声を入力として、それに対応する動画像、漫画等のコンテンツを生成するものである。

発話者は、例えば、物語、ゲームプラン、体験、思い出等を話したり、小説等の書籍を朗読したりして音声を発話するものとする。発話者は、一人でもよいし、複数でもよい。

図１は、本発明の一実施形態に係るコンテンツ生成システム１０の構成例を示している。

コンテンツ生成システム１０は、ネットワーク１１を介して接続される端末装置２０及びサーバ装置３０を備える。

ネットワーク１１は、ＬＡＮ(Local Area Network)、ＷＡＮ(Wide Area Network)、インターネット、公衆電話通信網等からなる。

端末装置２０は、例えば、スマートフォン、タブレット型コンピュータ等の一般的なコンピュータから成る。

端末装置２０は、コンテンツの基となる発話音声を取得し、音声情報としてネットワーク１１を介してサーバ装置３０に送信する。また、端末装置２０は、サーバ装置３０からネットワーク１１を介して送信されるコンテンツを受信、再生して表示する。

サーバ装置３０は、所謂クラウドネットワーク上に配置される。サーバ装置３０は、サーバコンピュータ等の一般的なコンピュータから成る。サーバ装置３０は、端末装置２０から送信される発話音声に基づいてコンテンツを生成する。

＜端末装置２０を構成する機能ブロックの構成例＞
次に、図２は、端末装置２０を構成する機能ブロックの構成例を示している。端末装置２０は、制御部２１、通信部２２、音声取得部２３、音声出力部２４、操作部２５、及び表示部２６の各機能ブロックを備える。

制御部２１は、例えば、コンピュータ等が内蔵するＣＰＵ(Central Processing Unit)が所定のプログラムを実行することによって実現される。制御部２１は、端末装置２０の全体の動作を制御する。

通信部２２は、例えば、コンピュータ等が内蔵する通信装置によって実現される。通信部２２は、ネットワーク１１を介してサーバ装置３０に接続し、各種の情報を通信する。例えば、通信部２２は、音声取得部２３が取得した発話者の音声情報をサーバ装置３０に送信する。また例えば、通信部２２は、サーバ装置３０から送信される、コンテンツ（動画像や漫画）を受信する。

音声取得部２３は、例えば、コンピュータ等が内蔵する出力装置に含まれるマイクロフォンによって実現される。音声取得部２３は、発話者の音声を取得し、その結果得られる音声情報を通信部２２に出力する。なお、音声取得部２３によって取得した発話者の音声を録音し、発話後にサーバ装置３０に送信してもよい。また、端末装置２０に対して外部から発話者の音声を予め録音した音声情報を入力し、サーバ装置３０に送信するようにしてもよい。

音声出力部２４は、例えば、コンピュータ等が内蔵する出力装置に含まれるスピーカによって実現される。音声出力部２４は、例えば、サーバ装置３０から送信されるコンテンツの音声を出力する。

表示部２６は、例えば、コンピュータ等が内蔵する出力装置に含まれるディスプレイによって実現される。表示部２６は、サーバ装置３０から供給されるコンテンツの画面を表示する。また、表示部２６は、サーバ装置３０から供給される画面情報に基づき、シナリオ情報３３１（図４）や対応情報３３３（図６）を修正するための修正画面を表示する。

＜サーバ装置３０を構成する機能ブロックの構成例＞
次に、図３は、サーバ装置３０を構成する機能ブロックの構成例を示している。サーバ装置３０は、制御部３１、通信部３２、及び記憶部３３の各機能ブロックを備える。

制御部３１は、例えば、サーバコンピュータが内蔵するＣＰＵが所定のプログラムを実行することにより実現される。制御部３１は、サーバ装置３０の全体を制御する。制御部３１は、変換部３１１、解析部３１２、シナリオ情報生成部３１３、対応付け部３１４、動画像生成部３１５、修正部３１６、収集部３１７、漫画生成部３１８、及び表示制御部３１９の各機能ブロックを有する。なお、制御部３１の各機能ブロックの少なくとも一部は、例えば機械学習や深層学習により得られた学習モデルを用いて実現してもよい。

変換部３１１は、端末装置２０から送信される音声情報をテキスト情報に変換する。

解析部３１２は、音声情報及びテキスト情報を解析し、解析結果を記憶する。具体的には例えば、解析部３１２は、音声情報から発話者の発話音声のニュアンス（抑揚、強弱、トーン、スピード等）を検出したり、テキスト情報に自然言語処理を行ったりする。なお、テキスト情報の解析は、自然言語処理に限らず、任意の方法を適用できる。そして、解析部３１２は、解析結果としてコンテンツの５Ｗ１Ｈを特定する。

具体的には例えば、発話音声のニュアンス、及びテキスト情報の自然言語処理の結果の少なくとも一方に基づき、コンテンツのタイトル、登場人物（語り手を含む）の感情（喜怒哀楽等）、発言（台詞）、状況（日時、季節、時代、場所等）、挙動、メタデータ（年代、性別、出身国（使用言語）、出身地方（使用言語の訛）等）を特定する。

さらに、解析部３１２は、発話音声のニュアンスに基づき、発話者のメタデータを特定する。なお、解析部３１２によって特定されたコンテンツのタイトル、登場人物、発話者のメタデータについては、ユーザが入力できるようにしてもよい。

シナリオ情報生成部３１３は、解析部３１２による解析結果に基づき、サーバ装置３０にて生成されるコンテンツの脚本に相当するシナリオ情報３３１を生成し、記憶部３３に格納する。

図４は、シナリオ情報３３１のデータ構造の一例を示している。同図の場合、シナリオ情報３３１には、タイトルが付与され、時系列０番として、発話者のメタデータが配置される。また、シナリオ情報３３１には、コンテンツの進行に対して時系列順（時系列１番以降）に登場人物の発言（台詞）及び挙動の少なくとも一方が配置される。さらに、シナリオ情報３３１には、登場人物が発言や挙動に行ったときの状況、及び感情が対応付けられている。さらに、シナリオ情報３３１には、登場人物のメタデータが配置される。なお、シナリオ情報３３１には、登場人物に関する少なくとも発言、挙動、状況、及び感情のうちの一つを時系列に配置すればよい。

図３に戻る。対応付け部３１４は、生成されたシナリオ情報３３１を、その内容に応じて、登場人物（語り手を含む）の発言及び挙動を少なくとも１以上含むように所定の編集単位毎（例えば、シーン毎等）に区分する。さらに、対応付け部３１４は、素材画像ＤＢ（データベース）３３２に格納されている素材画像のうち、シナリオ情報３３１の編集単位毎に、登場人物の感情、状況、挙動、メタデータに一致するもの（完全に一致するものに限らず、類似しているものを含む）を検索する。そして、対応付け部３１４は、各編集単位に素材画像を対応付けた対応情報３３３を生成し、記憶部３３に格納する。

なお、素材画像の検索に際しては、発話者のメタデータに、素材画像における登場人物のメタデータが一致するものを検索するようにしてもよい。具体的には例えば、発話者の出身国が日本である場合、登場人物には日本人が登場し、日本語を話している素材画像を検出するようにする。また、発話者のメタデータに、素材画像の作風が一致するものを検索するようにしてもよい。具体的には例えば、発話者の女性である場合、作風が女性向けである素材画像を検出するようにする。なお、ユーザが、検索する素材画像の作風を選択できるようにしてもよい。そして、複数の素材画像が検索された場合、その中からシナリオ情報３３１の各編集単位に対応付けるものを対応付け部３１４が選択してもよいし、ユーザに選択させてもよい。

図５は、素材画像ＤＢ３３２のデータ構造の一例を示している。素材画像ＤＢ３３２は予め生成されており、記憶部３３に格納されている。素材画像ＤＢ３３２には、素材ＩＤに対応付けて、素材画像データ、素材内容、パラメータ、メタデータ、及び作風が記録されている。素材ＩＤは、素材画像を特定するための識別子である。素材画像データは、例えば、３Ｄモーションデータや２Ｄモーションデータの動画像であり、そのデータ形式は任意である。また、素材画像データは、静止画像であり、そのデータ形式は任意である。素材内容には、素材画像データの内容（登場人物とその挙動等）が記録されている。パラメータには、素材画像データにおける登場人物の感情（喜怒哀楽等）、状況（時刻、季節、時代、場所）等が数値化されて記録されている。メタデータには、素材画像データにおける登場人物の年代、性別、出身国（使用言語）、出身地方（使用言語の訛）等のメタデータが記録されている。作風には、素材画像データの作風（万人向け、男性向け、女性向け、子供向け、成人向け、時代劇、西洋風、東洋風、実写、アニメーション等）が記録されている。

図６は、対応情報３３３のデータ構造の一例を示している。対応情報３３３には、シナリオ情報３３１の各編集単位の時系列番号（図６の場合、シーン番号）に対応付けて素材ＩＤが記録される。

図３に戻る。動画像生成部３１５は、生成された対応情報３３３に基づき、素材ＩＤに対応する素材画像データを素材画像ＤＢ３３２から取得して時系列順に連結する。さらに、動画像生成部３１５は、シナリオ情報３３１を参照し、登場人物の発話（台詞）を、連結した素材画像データに字幕として重畳したり、あるいは発話に対応する音声を合成したりして、字幕または合成音声を含むコンテンツとしての動画像を生成して記憶部３３に格納する。

修正部３１６は、端末装置２０から送信されるユーザからの修正指示に基づき、シナリオ情報３３１を修正、補完する。また、修正部３１６は、端末装置２０から送信されるユーザからの修正指示に基づき、対応情報３３３を修正する。なお、ユーザが対応情報３３３を修正する場合、ユーザが任意の素材画像データ（動画像または静止画像のどちらでもよい）を素材画像ＤＢ３３２に追加登録して、シナリオ情報３３１の任意の編集単位に対応付けるようにしてもよい。さらに、修正部３１６は、シナリオ情報３３１や対応情報３３３に対する修正結果を学習し、学習結果に基づいて素材画像ＤＢ３３２における素材内容やパラメータを更新する。

収集部３１７は、インターネットにて、所謂、フリー素材として公開されている画像データ（動画像データ、及び静止画像データ）を収集し、収集した画像データを解析して、その素材内容、パラメータ、メタデータ、及び作風を設定し、素材画像データとして素材画像ＤＢ３３２に登録する。

漫画生成部３１８は、動画像生成部３１５によって生成された動画像に基づき、コンテンツとしての漫画を生成して記憶部３３に格納する。具体的には例えば、動画像の各シーンから代表画像を抽出し、代表画像に登場人物の発話（台詞）を吹き出しとして重畳することにより、コンテンツとしての漫画を生成する。

表示制御部３１９は、端末装置２０からの要求に応じ、生成されたコンテンツを端末装置２０に供給して再生、表示させる。また、表示制御部３１９は、端末装置２０からの要求に応じ、シナリオ情報３３１や対応情報３３３をユーザが修正可能な修正画面を表示するための画面情報を生成する。生成された画面情報は、通信部３２によって端末装置２０に送信される。

通信部３２は、例えば、サーバコンピュータが内蔵する通信装置により実現される。通信部３２は、ネットワーク１１を介して接続してきた端末装置２０と各種の情報を通信する。例えば、通信部３２は、端末装置２０から送信される音声情報を受信する。また、例えば、通信部３２は、ネットワーク１１を介し、端末装置２０にコンテンツ（動画像や漫画）や画面情報を送信する。

記憶部３３は、例えばサーバコンピュータが内蔵する記憶装置によって実現される。記憶部３３には、シナリオ情報３３１、素材画像ＤＢ３３２、対応情報３３３、及びコンテンツ３３４が格納される。記憶部３３に格納されたコンテンツ３３４は、コンテンツ３３４の基となった発話音声を送信してきた端末装置２０の他、所定の端末装置等に供給するようにしてもよい。

なお、図３に示されたサーバ装置３０の機能ブロックの一部または全てを端末装置２０に設けるようにしてもよい。

＜コンテンツ生成システム１０によるコンテンツ生成処理＞
次に、コンテンツ生成システム１０によるコンテンツ生成処理について説明する。図７は、コンテンツ生成システム１０によるコンテンツ生成処理の一例を説明するフローチャートである。

該コンテンツ作成処理は、例えば、端末装置２０に対するユーザ（発話者等）からの所定の開始操作に応じて開始される。

はじめに、端末装置２０は、音声取得部２３により、発話者の発話音声を取得し、その結果得られる音声情報を通信部２２に出力し、通信部２２により、音声取得部２３からの音声情報を、ネットワーク１１を介してサーバ装置３０に送信する。サーバ装置３０は、通信部３２により、端末装置２０からの音声情報を制御部３１に出力する（ステップＳ１）。

次に、制御部３１は、変換部３１１により、発話者の音声情報をテキスト情報に変換する（ステップＳ２）。

次に、制御部３１は、解析部３１２により、音声情報及びテキスト情報を解析する（ステップＳ３）。次に、制御部３１は、シナリオ情報生成部３１３により、解析部３１２による解析結果に基づいてシナリオ情報３３１を生成し、記憶部３３に格納する（ステップＳ４）。

次に、制御部３１は、対応付け部３１４により、シナリオ情報３３１を所定の編集単位毎に区分し（ステップＳ５）、素材画像ＤＢ３３２を参照し、シナリオ情報３３１の編集単位毎に素材画像を対応付けた対応情報３３３を生成し、記憶部３３に格納する（ステップＳ６）。

次に、制御部３１は、動画像生成部３１５により、対応情報３３３に基づき、素材ＩＤに対応する素材画像データを素材画像ＤＢ３３２から取得して時系列順に連結する。さらに、動画像生成部３１５は、シナリオ情報３３１を参照し、登場人物の発話（台詞）を、連結した素材画像データに字幕として重畳したり、あるいは発話に対応する音声を合成したりして、字幕または合成音声を含む動画像を生成し、コンテンツ３３４として記憶部３３に格納する（ステップＳ７）。

次に、制御部３１は、漫画生成部３１８により、動画像に基づいて漫画を生成し、コンテンツ３３４として記憶部３３に格納する（ステップＳ８）。

以上で、コンテンツ生成システム１０によるコンテンツ生成処理は終了される。なお、生成されたコンテンツ３３４は、端末装置２０等からの要求に応じて要求元に供給されて再生される。

以上に説明したコンテンツ生成処理によれば、発話者による発話音声に基づいてコンテンツとして動画像及び漫画を生成することが可能となる。

＜コンテンツ生成システム１０による修正処理＞
次に、コンテンツ生成システム１０による修正処理について説明する。図８は、コンテンツ生成システム１０による修正処理の一例を説明するフローチャートである。

該修正処理は、端末装置２０に対してユーザから修正要求が入力され、該修正要求がサーバ装置３０に送信されて制御部３１に入力されたときに開始される。

はじめに、制御部３１は、修正部３１６により、ユーザからの修正要求がシナリオ情報３３１の修正を要求するものであるか否かを判定する（ステップＳ１１）。

ここで、修正部３１６がシナリオ情報３３１の修正を要求するものであると判定した場合（ステップＳ１１でＹＥＳ）、処理はステップＳ１２に進められる。次に、制御部３１は、表示制御部３１９により、シナリオ情報３３１を修正するための修正画面の画面情報を生成し、通信部３２が、生成された画面情報を端末装置２０に送信する。端末装置２０では、送信された画面情報に基づいてシナリオ情報３３１を修正するための画面が表示され、該画面に対し、操作部２５を用いてユーザが修正指示を入力すると、通信部２２が該修正指示をサーバ装置３０に送信する。そして、サーバ装置３０にて、制御部３１は、修正部３１６により、ユーザからの修正指示に応じて、記憶部３３に格納されているシナリオ情報３３１を修正、補完する（ステップＳ１２）。

なお、修正部３１６がシナリオ情報３３１の修正を要求するものではないと判定した場合（ステップＳ１１でＮＯ）、ステップＳ１２はスキップされ、処理はステップＳ１３に進められる。

次に、制御部３１は、修正部３１６により、ユーザからの修正要求が対応情報３３３の修正を要求するものであるか否かを判定する（ステップＳ１３）。

ここで、修正部３１６が対応情報３３３の修正を要求するものであると判定した場合（ステップＳ１３でＹＥＳ）、処理はステップＳ１４に進められる。次に、制御部３１は、表示制御部３１９により、対応情報３３３を修正するための修正画面の画面情報を生成し、通信部３２が、生成された画面情報を端末装置２０に送信する。端末装置２０では、送信された画面情報に基づいて対応情報３３３を修正するための画面が表示され、該画面に対し、操作部２５を用いてユーザが修正指示を入力すると、通信部２２が該修正指示をサーバ装置３０に送信する。そして、サーバ装置３０にて、制御部３１は、修正部３１６により、ユーザからの修正指示に応じて、記憶部３３に格納されている対応情報３３３を修正する（ステップＳ１４）。

なお、修正部３１６が対応情報３３３の修正を要求するものではないと判定した場合（ステップＳ１３でＮＯ）、ステップＳ１４はスキップされる。

次に、制御部３１は、動画像生成部３１５により、修正されたシナリオ情報３３１及び対応情報３３３に基づいてコンテンツとしての動画像を再生成して記憶部３３に格納するとともに、漫画生成部３１８により、再生成された動画像に基づいて、コンテンツとしての漫画を再生成して記憶部３３に格納する（ステップＳ１５）。

次に、制御部３１は、修正部３１６により、シナリオ情報３３１や対応情報３３３に対する修正結果を学習し、学習結果に基づいて素材画像ＤＢ３３２における素材内容やパラメータを更新する（ステップＳ１６）。なお、シナリオ情報生成部３１３や対応付け部３１４においても、シナリオ情報３３１や対応情報３３３に対する修正結果を学習し、以降の処理に適用するようにしてもよい。以上で、コンテンツ生成システム１０による修正処理は終了される。

コンテンツ生成システム１０による修正処理によれば、ユーザはシナリオ情報３３１や対応情報３３３を修正し、修正結果を反映させたコンテンツを得ることができる。さらに、ユーザからの修正指示に基づく修正結果が学習されて素材画像ＤＢ３３２に反映されるので、これ以降、より適切な素材画像が検索されてコンテンツが生成されるようになる。

＜コンテンツ表示画面について＞
次に、図９は、端末装置２０等におけるコンテンツ表示画面５０の表示例を示している。

コンテンツ表示画面５０には、コンテンツが表示されるコンテンツ再生領域５１が設けられている。コンテンツ再生領域５１には、字幕５３を表示させることができる。コンテンツ再生領域５１の上側にはコンテンツのタイトル５２が表示される。コンテンツ再生領域５１の下側には、ユーザがコンテンツの再生開始を指示するための操作ボタン５４、コンテンツの早戻しを指示するための操作ボタン５５、及びコンテンツの早送りを指示するための操作ボタン５６が設けられている。なお、タイトル５２、字幕５３、及び操作ボタン５４〜５６の表示位置は、図示した例に限られず任意である。

コンテンツ再生領域５１の右側には、コンテンツの現在の作風を表すとともに、ユーザがコンテンツの作風の変更を指示することができる作風ボタン６１〜６５が設けられている。同図の場合、作風ボタン６１〜６５のうち、作風（女性向け）ボタン６２が強調表示されており、コンテンツの現在の作風が女性向けであることを表している。

この状態において、例えば、ユーザが作風（子供向け）ボタン６３を選択した場合、上述したコンテンツ生成処理（図７）のステップＳ６〜Ｓ８が再度実行されて、子供向けの素材画像データを用いてコンテンツが再生成され、コンテンツ再生領域５１に表示される。

なお、作風ボタン６１〜６５の表示位置や数は、図示した例に限られず任意である。また、作風ボタンを１つだけ表示し、該作風ボタンが操作された場合、作風の選択肢がポップアップ表示されるようにしてもよい。

＜一般的なコンピュータの構成例＞
上述したように、端末装置２０、及びサーバ装置３０は、一般的なコンピュータによって実現することができる。

図１０は、端末装置２０、及びサーバ装置３０を実現する一般的なコンピュータの構成例を示している。

該コンピュータ１００において、ＣＰＵ１０１，ＲＯＭ（Read Only Memory）１０２，ＲＡＭ（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インターフェース１０５が接続されている。入出力インターフェース１０５には、入力装置１０６、出力装置１０７、記憶装置１０８、通信装置１０９、およびドライブ装置１１０が接続されている。

入力装置１０６は、キーボード、マウス、タッチパネル、マイクロフォン等よりなり、例えば、端末装置２０の音声取得部２３及び操作部２５（図２）として機能する。出力装置１０７は、ディスプレイ、スピーカ等よりなり、例えば、端末装置２０の音声出力部２４及び表示部２６（図２）として機能する。

記憶装置１０８は、ＨＤＤ(hard Disk Drive)、ＳＳＤ(solid State Drive)などからなり、例えば、サーバ装置３０の記憶部３３（図３）として機能する。通信装置１０９は、ＬＡＮインターフェースやＷｉ−Ｆｉインターフェースからなり、例えば、端末装置２０の通信部２２（図２）、及びサーバ装置３０の通信部３２（図３）として機能する。ドライブ装置１１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブルメディア１１１を駆動する。

以上のように構成されるコンピュータ１００では、ＣＰＵ１０１が、例えば、記憶装置１０８に記憶されているプログラムを、入出力インターフェース１０５およびバス１０４を介して、ＲＡＭ１０３にロードして実行することにより、例えば、端末装置２０の制御部２１（図２）、及びサーバ装置３０の制御部３１（図３）が実現される。

コンピュータ１００（ＣＰＵ１０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータ１００では、プログラムは、リムーバブルメディア１１１をドライブ装置１１０に装着することにより、入出力インターフェース１０５を介して、記憶装置１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信装置１０９で受信し、記憶装置１０８にインストールすることができる。その他、プログラムは、ＲＯＭ１０２や記憶装置１０８に、あらかじめインストールしておくことができる。

なお、コンピュータ１００が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

本発明は、上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した各実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、本発明が、必ずしも説明した全ての構成要素を備えるものに限定されるものではない。また、ある実施形態の構成の一部を、他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に、他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現されてもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、半導体メモリ、ＨＤＤ、ＳＳＤ等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１０・・・コンテンツ生成システム、１１・・・ネットワーク、２０・・・端末装置、２１・・・制御部、２２・・・通信部、２３・・・音声取得部、２４・・・音声出力部、２５・・・操作部、２６・・・表示部、３０・・・サーバ装置、３１・・・制御部、３２・・・通信部、３３・・・記憶部、５０・・・コンテンツ表示画面、５１・・・コンテンツ再生領域、５２・・・タイトル、５３・・・字幕、５４〜５６・・・操作ボタン、６１〜６５・・・作風ボタン、１００・・・コンピュータ、１０１・・・ＣＰＵ、１０２・・・ＲＯＭ、１０３・・・ＲＡＭ、１０４・・・バス、１０５・・・入出力インターフェース、１０６・・・入力装置、１０７・・・出力装置、１０８・・・記憶装置、１０９・・・通信装置、１１０・・・ドライブ装置、１１１・・・リムーバブルメディア、３１１・・・変換部、３１２・・・解析部、３１３・・・シナリオ情報生成部、３１４・・・対応付け部、３１５・・・動画像生成部、３１６・・・修正部、３１７・・・収集部、３１８・・・漫画生成部、３１９・・・表示制御部、３３１・・・シナリオ情報、３３２・・・素材画像ＤＢ、３３３・・・対応情報、３３４・・・コンテンツ

Claims

発話者の音声情報を取得する音声取得部と、
前記音声情報をテキスト情報に変換する変換部と、
前記テキスト情報を解析する解析部と、
前記テキスト情報の解析結果に基づいてシナリオ情報を生成するシナリオ情報生成部と、
素材画像が格納された素材画像データベースと、
前記シナリオ情報を所定の編集単位に区分し、前記編集単位毎に前記素材画像データベースに格納された前記素材画像を対応付けて対応情報を生成する対応付け部と、
前記編集単位毎に対応付けられた前記素材画像を連結して動画像を生成する動画像生成部と、
を備えることを特徴とするコンテンツ生成システム。
請求項１に記載のコンテンツ生成システムであって、
前記解析部は、前記テキスト情報の前記解析結果として、コンテンツにおける５Ｗ１Ｈを特定する
ことを特徴とするコンテンツ生成システム。
請求項１または２に記載のコンテンツ生成システムであって、
前記解析部は、コンテンツにおける登場人物の感情を特定する
ことを特徴とするコンテンツ生成システム。
請求項３に記載のコンテンツ生成システムであって、
前記解析部は、前記音声情報に基づいて前記コンテンツにおける登場人物の感情を特定する
ことを特徴とするコンテンツ生成システム。
請求項１〜４のいずれか一項に記載のコンテンツ生成システムであって、
前記解析部は、前記音声情報に基づいて前記発話者のメタデータを特定する
ことを特徴とするコンテンツ生成システム。
請求項５に記載のコンテンツ生成システムであって、
前記対応付け部は、前記発話者の前記メタデータに基づき、前記編集単位毎に前記素材画像データベースに格納された前記素材画像を対応付けて前記対応情報を生成する
ことを特徴とするコンテンツ生成システム。
請求項６に記載のコンテンツ生成システムであって、
前記対応付け部は、前記編集単位毎に前記素材画像データベースに格納された、所定の作風の前記素材画像を対応付けて前記対応情報を生成する
ことを特徴とするコンテンツ生成システム。
請求項１〜７のいずれか一項に記載のコンテンツ生成システムであって、
前記シナリオ情報生成部は、前記テキスト情報の解析結果に基づいて、コンテンツにおける登場人物に関する少なくとも発言、挙動、状況、及び感情のうちの一つを時系列に配置した前記シナリオ情報を生成する
ことを特徴とするコンテンツ生成システム。
請求項１〜８のいずれか一項に記載のコンテンツ生成システムであって、
ユーザからの操作入力を受け付ける操作部と、
前記ユーザからの操作入力に基づき、前記シナリオ情報及び前記対応情報の少なくとも一方を修正する修正部と、
を備えることを特徴とするコンテンツ生成システム。
請求項９に記載のコンテンツ生成システムであって、
前記修正部は、前記シナリオ情報及び前記対応情報の少なくとも一方に対する修正結果を学習し、学習結果に基づいて前記素材画像データベースを更新する
ことを特徴とするコンテンツ生成システム。
請求項９に記載のコンテンツ生成システムであって、
前記修正部は、前記ユーザから入力された前記素材画像を前記シナリオ情報の前記編集単位に対応付けることによって前記対応情報を修正する
ことを特徴とするコンテンツ生成システム。
請求項１〜１１のいずれか一項に記載のコンテンツ生成システムであって、
フリー素材としての画像データを収集し、前記素材画像として前記素材画像データベースに登録する収集部を、
備えることを特徴とするコンテンツ生成システム。
コンテンツ生成システムによるコンテンツ生成方法であって、
発話者の音声情報を取得する音声取得ステップと、
前記音声情報をテキスト情報に変換する変換ステップと、
前記テキスト情報を解析する解析ステップと、
前記テキスト情報の解析結果に基づいてシナリオ情報を生成するシナリオ情報生成ステップと、
前記シナリオ情報を所定の編集単位に区分し、前記編集単位毎に素材画像データベースに格納された素材画像を対応付けて対応情報を生成する対応付けステップと、
前記編集単位毎に対応付けられた前記素材画像を連結して動画像を生成する動画生成ステップと、
を含むことを特徴とするコンテンツ生成方法。