JP2020140326A - コンテンツ生成システム、及びコンテンツ生成方法 - Google Patents

コンテンツ生成システム、及びコンテンツ生成方法 Download PDF

Info

Publication number
JP2020140326A
JP2020140326A JP2019033926A JP2019033926A JP2020140326A JP 2020140326 A JP2020140326 A JP 2020140326A JP 2019033926 A JP2019033926 A JP 2019033926A JP 2019033926 A JP2019033926 A JP 2019033926A JP 2020140326 A JP2020140326 A JP 2020140326A
Authority
JP
Japan
Prior art keywords
unit
information
generation system
content generation
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019033926A
Other languages
English (en)
Other versions
JP6641045B1 (ja
Inventor
鈴木 智也
Tomoya Suzuki
智也 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mintoru Co Ltd
Original Assignee
Mintoru Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mintoru Co Ltd filed Critical Mintoru Co Ltd
Priority to JP2019033926A priority Critical patent/JP6641045B1/ja
Application granted granted Critical
Publication of JP6641045B1 publication Critical patent/JP6641045B1/ja
Publication of JP2020140326A publication Critical patent/JP2020140326A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】発話音声に基づいてコンテンツを生成する。【解決手段】コンテンツ生成システムは、発話者の音声情報を取得する音声取得部と、前記音声情報をテキスト情報に変換する変換部と、前記テキスト情報を解析する解析部と、前記テキスト情報の解析結果に基づいてシナリオ情報を生成するシナリオ情報生成部と、素材画像が格納された素材画像データベースと、前記シナリオ情報を所定の編集単位毎に区分し、前記編集単位に前記素材画像データベースに格納された前記素材画像を対応付けて対応情報を生成する対応付け部と、前記編集単位毎に対応付けられた前記素材画像を連結して動画像を生成する動画像生成部と、を備えることを特徴とする。【選択図】図3

Description

本発明は、例えば、発話音声に基づいてコンテンツを生成できるようにしたコンテンツ生成システム、及びコンテンツ生成方法に関する。
従来、動画像(アニメーションを含む)、漫画等のコンテンツを容易に生成するための様々方法が提案されている。
例えば、特許文献1には、任意の動画データが指定されると動画データに含まれる複数の画像の中から重要なシーンの画像を自動的に抽出し、抽出した画像を漫画的に配置変換して表示し、画像には吹き出しなどの画面効果等を自動的に配置する、こと等が記載されている。
また例えば、特許文献2には、入力された映像信号及びそれに対応する音声信号に基づき、映像信号から映像内容の切り替わりの特徴となる映像フレームを、漫画の構成単位であるコマ画像として抽出し、前記コマ画像に登場する人物の人物領域を検出し、前記音声信号から音声認識された前記人物の台詞を文字列情報として生成し、前記文字列情報を前記人物の台詞内容として挿入した吹き出しを、前記人物領域に基づいて前記コマ画像に重畳する、こと等が記載されている。
特開2014−6912号公報 特開2003−85572号公報
上述したように、動画像から画像を抽出して漫画を生成する技術は存在する。しかしながら、発話音声に基づいて動画像、漫画等のコンテンツを生成することはできない。
本発明は、このような状況に鑑みてなされたものであり、発話音声に基づいてコンテンツを生成できるようにすることを目的とする。
本発明は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。
上記課題を解決すべく、本発明の一態様に係るコンテンツ生成システムは、発話者の音声情報を取得する音声取得部と、前記音声情報をテキスト情報に変換する変換部と、前記テキスト情報を解析する解析部と、前記テキスト情報の解析結果に基づいてシナリオ情報を生成するシナリオ情報生成部と、素材画像が格納された素材画像データベースと、前記シナリオ情報を所定の編集単位に区分し、前記編集単位毎に前記素材画像データベースに格納された前記素材画像を対応付けて対応情報を生成する対応付け部と、前記編集単位毎に対応付けられた前記素材画像を連結して動画像を生成する動画像生成部と、を備えることを特徴とする。
前記解析部は、前記テキスト情報の前記解析結果として、コンテンツにおける5W1Hを特定することができる。
前記解析部は、コンテンツにおける登場人物の感情を特定することができる。
前記解析部は、前記音声情報に基づいて前記コンテンツにおける登場人物の感情を特定することができる。
前記解析部は、前記音声情報に基づいて前記発話者のメタデータを特定することができる。
前記対応付け部は、前記発話者の前記メタデータに基づき、前記編集単位毎に前記素材画像データベースに格納された前記素材画像を対応付けて前記対応情報を生成することができる。
前記対応付け部は、前記編集単位毎に前記素材画像データベースに格納された、所定の作風の前記素材画像を対応付けて前記対応情報を生成することができる。
前記シナリオ情報生成部は、前記テキスト情報の解析結果に基づいて、コンテンツにおける登場人物に関する少なくとも発言、挙動、状況、及び感情のうちの一つを時系列に配置した前記シナリオ情報を生成することができる。
前記コンテンツ生成システムは、ユーザからの操作入力を受け付ける操作部と、前記ユーザからの操作入力に基づき、前記シナリオ情報及び前記対応情報の少なくとも一方を修正する修正部と、を備えることができる。
前記修正部は、前記シナリオ情報及び前記対応情報の少なくとも一方に対する修正結果を学習し、学習結果に基づいて前記素材画像データベースを更新することができる。
前記修正部は、前記ユーザから入力された前記素材画像を前記シナリオ情報の前記編集単位に対応付けることによって前記対応情報を修正することができる。
前記コンテンツ生成システムは、フリー素材としての画像データを収集し、前記素材画像として前記素材画像データベースに登録する収集部を、備えることができる。
本発明の他の態様に係るコンテンツ生成方法は、発話者の音声情報を取得する音声取得ステップと、前記音声情報をテキスト情報に変換する変換ステップと、前記テキスト情報を解析する解析ステップと、前記テキスト情報の解析結果に基づいてシナリオ情報を生成するシナリオ情報生成ステップと、前記シナリオ情報を所定の編集単位に区分し、前記編集単位毎に素材画像データベースに格納された素材画像を対応付けて対応情報を生成する対応付けステップと、前記編集単位毎に対応付けられた前記素材画像を連結して動画像を生成する動画生成ステップと、を含むことを特徴とする。
本発明の一態様によれば、発話音声に基づいてコンテンツを生成することが可能となる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
図1は、本発明の一実施の形態に係るコンテンツ生成システムの構成例を示す図である。 図2は、端末装置を構成する機能ブロックの構成例を示すブロック図である。 図3は、サーバ装置を構成する機能ブロックの構成例を示すブロック図である。 図4は、シナリオ情報のデータ構造の一例を示す図である。 図5は、素材画像DBのデータ構造の一例を示す図である。 図6は、対応情報のデータ構造の一例を示す図である。 図7は、コンテンツ生成処理の一例を説明するフローチャートである。 図8は、修正処理の一例を説明するフローチャートである。 図9は、コンテンツ表示画面の表示例を示す図である。 図10は、コンピュータの構成例を示すブロック図である。
以下、本発明に係る一実施の形態を図面に基づいて説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。また、「Aからなる」、「Aよりなる」、「Aを有する」、「Aを含む」と言うときは、特にその要素のみである旨明示した場合等を除き、それ以外の要素を排除するものでないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。
<本発明の一実施形態に係るコンテンツ生成システムの概要>
本発明の一実施形態に係るコンテンツ生成システムは、発話者による発話音声を入力として、それに対応する動画像、漫画等のコンテンツを生成するものである。
発話者は、例えば、物語、ゲームプラン、体験、思い出等を話したり、小説等の書籍を朗読したりして音声を発話するものとする。発話者は、一人でもよいし、複数でもよい。
図1は、本発明の一実施形態に係るコンテンツ生成システム10の構成例を示している。
コンテンツ生成システム10は、ネットワーク11を介して接続される端末装置20及びサーバ装置30を備える。
ネットワーク11は、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、公衆電話通信網等からなる。
端末装置20は、例えば、スマートフォン、タブレット型コンピュータ等の一般的なコンピュータから成る。
端末装置20は、コンテンツの基となる発話音声を取得し、音声情報としてネットワーク11を介してサーバ装置30に送信する。また、端末装置20は、サーバ装置30からネットワーク11を介して送信されるコンテンツを受信、再生して表示する。
サーバ装置30は、所謂クラウドネットワーク上に配置される。サーバ装置30は、サーバコンピュータ等の一般的なコンピュータから成る。サーバ装置30は、端末装置20から送信される発話音声に基づいてコンテンツを生成する。
<端末装置20を構成する機能ブロックの構成例>
次に、図2は、端末装置20を構成する機能ブロックの構成例を示している。端末装置20は、制御部21、通信部22、音声取得部23、音声出力部24、操作部25、及び表示部26の各機能ブロックを備える。
制御部21は、例えば、コンピュータ等が内蔵するCPU(Central Processing Unit)が所定のプログラムを実行することによって実現される。制御部21は、端末装置20の全体の動作を制御する。
通信部22は、例えば、コンピュータ等が内蔵する通信装置によって実現される。通信部22は、ネットワーク11を介してサーバ装置30に接続し、各種の情報を通信する。例えば、通信部22は、音声取得部23が取得した発話者の音声情報をサーバ装置30に送信する。また例えば、通信部22は、サーバ装置30から送信される、コンテンツ(動画像や漫画)を受信する。
音声取得部23は、例えば、コンピュータ等が内蔵する出力装置に含まれるマイクロフォンによって実現される。音声取得部23は、発話者の音声を取得し、その結果得られる音声情報を通信部22に出力する。なお、音声取得部23によって取得した発話者の音声を録音し、発話後にサーバ装置30に送信してもよい。また、端末装置20に対して外部から発話者の音声を予め録音した音声情報を入力し、サーバ装置30に送信するようにしてもよい。
音声出力部24は、例えば、コンピュータ等が内蔵する出力装置に含まれるスピーカによって実現される。音声出力部24は、例えば、サーバ装置30から送信されるコンテンツの音声を出力する。
表示部26は、例えば、コンピュータ等が内蔵する出力装置に含まれるディスプレイによって実現される。表示部26は、サーバ装置30から供給されるコンテンツの画面を表示する。また、表示部26は、サーバ装置30から供給される画面情報に基づき、シナリオ情報331(図4)や対応情報333(図6)を修正するための修正画面を表示する。
<サーバ装置30を構成する機能ブロックの構成例>
次に、図3は、サーバ装置30を構成する機能ブロックの構成例を示している。サーバ装置30は、制御部31、通信部32、及び記憶部33の各機能ブロックを備える。
制御部31は、例えば、サーバコンピュータが内蔵するCPUが所定のプログラムを実行することにより実現される。制御部31は、サーバ装置30の全体を制御する。制御部31は、変換部311、解析部312、シナリオ情報生成部313、対応付け部314、動画像生成部315、修正部316、収集部317、漫画生成部318、及び表示制御部319の各機能ブロックを有する。なお、制御部31の各機能ブロックの少なくとも一部は、例えば機械学習や深層学習により得られた学習モデルを用いて実現してもよい。
変換部311は、端末装置20から送信される音声情報をテキスト情報に変換する。
解析部312は、音声情報及びテキスト情報を解析し、解析結果を記憶する。具体的には例えば、解析部312は、音声情報から発話者の発話音声のニュアンス(抑揚、強弱、トーン、スピード等)を検出したり、テキスト情報に自然言語処理を行ったりする。なお、テキスト情報の解析は、自然言語処理に限らず、任意の方法を適用できる。そして、解析部312は、解析結果としてコンテンツの5W1Hを特定する。
具体的には例えば、発話音声のニュアンス、及びテキスト情報の自然言語処理の結果の少なくとも一方に基づき、コンテンツのタイトル、登場人物(語り手を含む)の感情(喜怒哀楽等)、発言(台詞)、状況(日時、季節、時代、場所等)、挙動、メタデータ(年代、性別、出身国(使用言語)、出身地方(使用言語の訛)等)を特定する。
さらに、解析部312は、発話音声のニュアンスに基づき、発話者のメタデータを特定する。なお、解析部312によって特定されたコンテンツのタイトル、登場人物、発話者のメタデータについては、ユーザが入力できるようにしてもよい。
シナリオ情報生成部313は、解析部312による解析結果に基づき、サーバ装置30にて生成されるコンテンツの脚本に相当するシナリオ情報331を生成し、記憶部33に格納する。
図4は、シナリオ情報331のデータ構造の一例を示している。同図の場合、シナリオ情報331には、タイトルが付与され、時系列0番として、発話者のメタデータが配置される。また、シナリオ情報331には、コンテンツの進行に対して時系列順(時系列1番以降)に登場人物の発言(台詞)及び挙動の少なくとも一方が配置される。さらに、シナリオ情報331には、登場人物が発言や挙動に行ったときの状況、及び感情が対応付けられている。さらに、シナリオ情報331には、登場人物のメタデータが配置される。なお、シナリオ情報331には、登場人物に関する少なくとも発言、挙動、状況、及び感情のうちの一つを時系列に配置すればよい。
図3に戻る。対応付け部314は、生成されたシナリオ情報331を、その内容に応じて、登場人物(語り手を含む)の発言及び挙動を少なくとも1以上含むように所定の編集単位毎(例えば、シーン毎等)に区分する。さらに、対応付け部314は、素材画像DB(データベース)332に格納されている素材画像のうち、シナリオ情報331の編集単位毎に、登場人物の感情、状況、挙動、メタデータに一致するもの(完全に一致するものに限らず、類似しているものを含む)を検索する。そして、対応付け部314は、各編集単位に素材画像を対応付けた対応情報333を生成し、記憶部33に格納する。
なお、素材画像の検索に際しては、発話者のメタデータに、素材画像における登場人物のメタデータが一致するものを検索するようにしてもよい。具体的には例えば、発話者の出身国が日本である場合、登場人物には日本人が登場し、日本語を話している素材画像を検出するようにする。また、発話者のメタデータに、素材画像の作風が一致するものを検索するようにしてもよい。具体的には例えば、発話者の女性である場合、作風が女性向けである素材画像を検出するようにする。なお、ユーザが、検索する素材画像の作風を選択できるようにしてもよい。そして、複数の素材画像が検索された場合、その中からシナリオ情報331の各編集単位に対応付けるものを対応付け部314が選択してもよいし、ユーザに選択させてもよい。
図5は、素材画像DB332のデータ構造の一例を示している。素材画像DB332は予め生成されており、記憶部33に格納されている。素材画像DB332には、素材IDに対応付けて、素材画像データ、素材内容、パラメータ、メタデータ、及び作風が記録されている。素材IDは、素材画像を特定するための識別子である。素材画像データは、例えば、3Dモーションデータや2Dモーションデータの動画像であり、そのデータ形式は任意である。また、素材画像データは、静止画像であり、そのデータ形式は任意である。素材内容には、素材画像データの内容(登場人物とその挙動等)が記録されている。パラメータには、素材画像データにおける登場人物の感情(喜怒哀楽等)、状況(時刻、季節、時代、場所)等が数値化されて記録されている。メタデータには、素材画像データにおける登場人物の年代、性別、出身国(使用言語)、出身地方(使用言語の訛)等のメタデータが記録されている。作風には、素材画像データの作風(万人向け、男性向け、女性向け、子供向け、成人向け、時代劇、西洋風、東洋風、実写、アニメーション等)が記録されている。
図6は、対応情報333のデータ構造の一例を示している。対応情報333には、シナリオ情報331の各編集単位の時系列番号(図6の場合、シーン番号)に対応付けて素材IDが記録される。
図3に戻る。動画像生成部315は、生成された対応情報333に基づき、素材IDに対応する素材画像データを素材画像DB332から取得して時系列順に連結する。さらに、動画像生成部315は、シナリオ情報331を参照し、登場人物の発話(台詞)を、連結した素材画像データに字幕として重畳したり、あるいは発話に対応する音声を合成したりして、字幕または合成音声を含むコンテンツとしての動画像を生成して記憶部33に格納する。
修正部316は、端末装置20から送信されるユーザからの修正指示に基づき、シナリオ情報331を修正、補完する。また、修正部316は、端末装置20から送信されるユーザからの修正指示に基づき、対応情報333を修正する。なお、ユーザが対応情報333を修正する場合、ユーザが任意の素材画像データ(動画像または静止画像のどちらでもよい)を素材画像DB332に追加登録して、シナリオ情報331の任意の編集単位に対応付けるようにしてもよい。さらに、修正部316は、シナリオ情報331や対応情報333に対する修正結果を学習し、学習結果に基づいて素材画像DB332における素材内容やパラメータを更新する。
収集部317は、インターネットにて、所謂、フリー素材として公開されている画像データ(動画像データ、及び静止画像データ)を収集し、収集した画像データを解析して、その素材内容、パラメータ、メタデータ、及び作風を設定し、素材画像データとして素材画像DB332に登録する。
漫画生成部318は、動画像生成部315によって生成された動画像に基づき、コンテンツとしての漫画を生成して記憶部33に格納する。具体的には例えば、動画像の各シーンから代表画像を抽出し、代表画像に登場人物の発話(台詞)を吹き出しとして重畳することにより、コンテンツとしての漫画を生成する。
表示制御部319は、端末装置20からの要求に応じ、生成されたコンテンツを端末装置20に供給して再生、表示させる。また、表示制御部319は、端末装置20からの要求に応じ、シナリオ情報331や対応情報333をユーザが修正可能な修正画面を表示するための画面情報を生成する。生成された画面情報は、通信部32によって端末装置20に送信される。
通信部32は、例えば、サーバコンピュータが内蔵する通信装置により実現される。通信部32は、ネットワーク11を介して接続してきた端末装置20と各種の情報を通信する。例えば、通信部32は、端末装置20から送信される音声情報を受信する。また、例えば、通信部32は、ネットワーク11を介し、端末装置20にコンテンツ(動画像や漫画)や画面情報を送信する。
記憶部33は、例えばサーバコンピュータが内蔵する記憶装置によって実現される。記憶部33には、シナリオ情報331、素材画像DB332、対応情報333、及びコンテンツ334が格納される。記憶部33に格納されたコンテンツ334は、コンテンツ334の基となった発話音声を送信してきた端末装置20の他、所定の端末装置等に供給するようにしてもよい。
なお、図3に示されたサーバ装置30の機能ブロックの一部または全てを端末装置20に設けるようにしてもよい。
<コンテンツ生成システム10によるコンテンツ生成処理>
次に、コンテンツ生成システム10によるコンテンツ生成処理について説明する。図7は、コンテンツ生成システム10によるコンテンツ生成処理の一例を説明するフローチャートである。
該コンテンツ作成処理は、例えば、端末装置20に対するユーザ(発話者等)からの所定の開始操作に応じて開始される。
はじめに、端末装置20は、音声取得部23により、発話者の発話音声を取得し、その結果得られる音声情報を通信部22に出力し、通信部22により、音声取得部23からの音声情報を、ネットワーク11を介してサーバ装置30に送信する。サーバ装置30は、通信部32により、端末装置20からの音声情報を制御部31に出力する(ステップS1)。
次に、制御部31は、変換部311により、発話者の音声情報をテキスト情報に変換する(ステップS2)。
次に、制御部31は、解析部312により、音声情報及びテキスト情報を解析する(ステップS3)。次に、制御部31は、シナリオ情報生成部313により、解析部312による解析結果に基づいてシナリオ情報331を生成し、記憶部33に格納する(ステップS4)。
次に、制御部31は、対応付け部314により、シナリオ情報331を所定の編集単位毎に区分し(ステップS5)、素材画像DB332を参照し、シナリオ情報331の編集単位毎に素材画像を対応付けた対応情報333を生成し、記憶部33に格納する(ステップS6)。
次に、制御部31は、動画像生成部315により、対応情報333に基づき、素材IDに対応する素材画像データを素材画像DB332から取得して時系列順に連結する。さらに、動画像生成部315は、シナリオ情報331を参照し、登場人物の発話(台詞)を、連結した素材画像データに字幕として重畳したり、あるいは発話に対応する音声を合成したりして、字幕または合成音声を含む動画像を生成し、コンテンツ334として記憶部33に格納する(ステップS7)。
次に、制御部31は、漫画生成部318により、動画像に基づいて漫画を生成し、コンテンツ334として記憶部33に格納する(ステップS8)。
以上で、コンテンツ生成システム10によるコンテンツ生成処理は終了される。なお、生成されたコンテンツ334は、端末装置20等からの要求に応じて要求元に供給されて再生される。
以上に説明したコンテンツ生成処理によれば、発話者による発話音声に基づいてコンテンツとして動画像及び漫画を生成することが可能となる。
<コンテンツ生成システム10による修正処理>
次に、コンテンツ生成システム10による修正処理について説明する。図8は、コンテンツ生成システム10による修正処理の一例を説明するフローチャートである。
該修正処理は、端末装置20に対してユーザから修正要求が入力され、該修正要求がサーバ装置30に送信されて制御部31に入力されたときに開始される。
はじめに、制御部31は、修正部316により、ユーザからの修正要求がシナリオ情報331の修正を要求するものであるか否かを判定する(ステップS11)。
ここで、修正部316がシナリオ情報331の修正を要求するものであると判定した場合(ステップS11でYES)、処理はステップS12に進められる。次に、制御部31は、表示制御部319により、シナリオ情報331を修正するための修正画面の画面情報を生成し、通信部32が、生成された画面情報を端末装置20に送信する。端末装置20では、送信された画面情報に基づいてシナリオ情報331を修正するための画面が表示され、該画面に対し、操作部25を用いてユーザが修正指示を入力すると、通信部22が該修正指示をサーバ装置30に送信する。そして、サーバ装置30にて、制御部31は、修正部316により、ユーザからの修正指示に応じて、記憶部33に格納されているシナリオ情報331を修正、補完する(ステップS12)。
なお、修正部316がシナリオ情報331の修正を要求するものではないと判定した場合(ステップS11でNO)、ステップS12はスキップされ、処理はステップS13に進められる。
次に、制御部31は、修正部316により、ユーザからの修正要求が対応情報333の修正を要求するものであるか否かを判定する(ステップS13)。
ここで、修正部316が対応情報333の修正を要求するものであると判定した場合(ステップS13でYES)、処理はステップS14に進められる。次に、制御部31は、表示制御部319により、対応情報333を修正するための修正画面の画面情報を生成し、通信部32が、生成された画面情報を端末装置20に送信する。端末装置20では、送信された画面情報に基づいて対応情報333を修正するための画面が表示され、該画面に対し、操作部25を用いてユーザが修正指示を入力すると、通信部22が該修正指示をサーバ装置30に送信する。そして、サーバ装置30にて、制御部31は、修正部316により、ユーザからの修正指示に応じて、記憶部33に格納されている対応情報333を修正する(ステップS14)。
なお、修正部316が対応情報333の修正を要求するものではないと判定した場合(ステップS13でNO)、ステップS14はスキップされる。
次に、制御部31は、動画像生成部315により、修正されたシナリオ情報331及び対応情報333に基づいてコンテンツとしての動画像を再生成して記憶部33に格納するとともに、漫画生成部318により、再生成された動画像に基づいて、コンテンツとしての漫画を再生成して記憶部33に格納する(ステップS15)。
次に、制御部31は、修正部316により、シナリオ情報331や対応情報333に対する修正結果を学習し、学習結果に基づいて素材画像DB332における素材内容やパラメータを更新する(ステップS16)。なお、シナリオ情報生成部313や対応付け部314においても、シナリオ情報331や対応情報333に対する修正結果を学習し、以降の処理に適用するようにしてもよい。以上で、コンテンツ生成システム10による修正処理は終了される。
コンテンツ生成システム10による修正処理によれば、ユーザはシナリオ情報331や対応情報333を修正し、修正結果を反映させたコンテンツを得ることができる。さらに、ユーザからの修正指示に基づく修正結果が学習されて素材画像DB332に反映されるので、これ以降、より適切な素材画像が検索されてコンテンツが生成されるようになる。
<コンテンツ表示画面について>
次に、図9は、端末装置20等におけるコンテンツ表示画面50の表示例を示している。
コンテンツ表示画面50には、コンテンツが表示されるコンテンツ再生領域51が設けられている。コンテンツ再生領域51には、字幕53を表示させることができる。コンテンツ再生領域51の上側にはコンテンツのタイトル52が表示される。コンテンツ再生領域51の下側には、ユーザがコンテンツの再生開始を指示するための操作ボタン54、コンテンツの早戻しを指示するための操作ボタン55、及びコンテンツの早送りを指示するための操作ボタン56が設けられている。なお、タイトル52、字幕53、及び操作ボタン54〜56の表示位置は、図示した例に限られず任意である。
コンテンツ再生領域51の右側には、コンテンツの現在の作風を表すとともに、ユーザがコンテンツの作風の変更を指示することができる作風ボタン61〜65が設けられている。同図の場合、作風ボタン61〜65のうち、作風(女性向け)ボタン62が強調表示されており、コンテンツの現在の作風が女性向けであることを表している。
この状態において、例えば、ユーザが作風(子供向け)ボタン63を選択した場合、上述したコンテンツ生成処理(図7)のステップS6〜S8が再度実行されて、子供向けの素材画像データを用いてコンテンツが再生成され、コンテンツ再生領域51に表示される。
なお、作風ボタン61〜65の表示位置や数は、図示した例に限られず任意である。また、作風ボタンを1つだけ表示し、該作風ボタンが操作された場合、作風の選択肢がポップアップ表示されるようにしてもよい。
<一般的なコンピュータの構成例>
上述したように、端末装置20、及びサーバ装置30は、一般的なコンピュータによって実現することができる。
図10は、端末装置20、及びサーバ装置30を実現する一般的なコンピュータの構成例を示している。
該コンピュータ100において、CPU101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インターフェース105が接続されている。入出力インターフェース105には、入力装置106、出力装置107、記憶装置108、通信装置109、およびドライブ装置110が接続されている。
入力装置106は、キーボード、マウス、タッチパネル、マイクロフォン等よりなり、例えば、端末装置20の音声取得部23及び操作部25(図2)として機能する。出力装置107は、ディスプレイ、スピーカ等よりなり、例えば、端末装置20の音声出力部24及び表示部26(図2)として機能する。
記憶装置108は、HDD(hard Disk Drive)、SSD(solid State Drive)などからなり、例えば、サーバ装置30の記憶部33(図3)として機能する。通信装置109は、LANインターフェースやWi−Fiインターフェースからなり、例えば、端末装置20の通信部22(図2)、及びサーバ装置30の通信部32(図3)として機能する。ドライブ装置110は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブルメディア111を駆動する。
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶装置108に記憶されているプログラムを、入出力インターフェース105およびバス104を介して、RAM103にロードして実行することにより、例えば、端末装置20の制御部21(図2)、及びサーバ装置30の制御部31(図3)が実現される。
コンピュータ100(CPU101)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア111に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータ100では、プログラムは、リムーバブルメディア111をドライブ装置110に装着することにより、入出力インターフェース105を介して、記憶装置108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信装置109で受信し、記憶装置108にインストールすることができる。その他、プログラムは、ROM102や記憶装置108に、あらかじめインストールしておくことができる。
なお、コンピュータ100が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
本発明は、上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した各実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、本発明が、必ずしも説明した全ての構成要素を備えるものに限定されるものではない。また、ある実施形態の構成の一部を、他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に、他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現されてもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、半導体メモリ、HDD、SSD等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
10・・・コンテンツ生成システム、11・・・ネットワーク、20・・・端末装置、21・・・制御部、22・・・通信部、23・・・音声取得部、24・・・音声出力部、25・・・操作部、26・・・表示部、30・・・サーバ装置、31・・・制御部、32・・・通信部、33・・・記憶部、50・・・コンテンツ表示画面、51・・・コンテンツ再生領域、52・・・タイトル、53・・・字幕、54〜56・・・操作ボタン、61〜65・・・作風ボタン、100・・・コンピュータ、101・・・CPU、102・・・ROM、103・・・RAM、104・・・バス、105・・・入出力インターフェース、106・・・入力装置、107・・・出力装置、108・・・記憶装置、109・・・通信装置、110・・・ドライブ装置、111・・・リムーバブルメディア、311・・・変換部、312・・・解析部、313・・・シナリオ情報生成部、314・・・対応付け部、315・・・動画像生成部、316・・・修正部、317・・・収集部、318・・・漫画生成部、319・・・表示制御部、331・・・シナリオ情報、332・・・素材画像DB、333・・・対応情報、334・・・コンテンツ

Claims (13)

  1. 発話者の音声情報を取得する音声取得部と、
    前記音声情報をテキスト情報に変換する変換部と、
    前記テキスト情報を解析する解析部と、
    前記テキスト情報の解析結果に基づいてシナリオ情報を生成するシナリオ情報生成部と、
    素材画像が格納された素材画像データベースと、
    前記シナリオ情報を所定の編集単位に区分し、前記編集単位毎に前記素材画像データベースに格納された前記素材画像を対応付けて対応情報を生成する対応付け部と、
    前記編集単位毎に対応付けられた前記素材画像を連結して動画像を生成する動画像生成部と、
    を備えることを特徴とするコンテンツ生成システム。
  2. 請求項1に記載のコンテンツ生成システムであって、
    前記解析部は、前記テキスト情報の前記解析結果として、コンテンツにおける5W1Hを特定する
    ことを特徴とするコンテンツ生成システム。
  3. 請求項1または2に記載のコンテンツ生成システムであって、
    前記解析部は、コンテンツにおける登場人物の感情を特定する
    ことを特徴とするコンテンツ生成システム。
  4. 請求項3に記載のコンテンツ生成システムであって、
    前記解析部は、前記音声情報に基づいて前記コンテンツにおける登場人物の感情を特定する
    ことを特徴とするコンテンツ生成システム。
  5. 請求項1〜4のいずれか一項に記載のコンテンツ生成システムであって、
    前記解析部は、前記音声情報に基づいて前記発話者のメタデータを特定する
    ことを特徴とするコンテンツ生成システム。
  6. 請求項5に記載のコンテンツ生成システムであって、
    前記対応付け部は、前記発話者の前記メタデータに基づき、前記編集単位毎に前記素材画像データベースに格納された前記素材画像を対応付けて前記対応情報を生成する
    ことを特徴とするコンテンツ生成システム。
  7. 請求項6に記載のコンテンツ生成システムであって、
    前記対応付け部は、前記編集単位毎に前記素材画像データベースに格納された、所定の作風の前記素材画像を対応付けて前記対応情報を生成する
    ことを特徴とするコンテンツ生成システム。
  8. 請求項1〜7のいずれか一項に記載のコンテンツ生成システムであって、
    前記シナリオ情報生成部は、前記テキスト情報の解析結果に基づいて、コンテンツにおける登場人物に関する少なくとも発言、挙動、状況、及び感情のうちの一つを時系列に配置した前記シナリオ情報を生成する
    ことを特徴とするコンテンツ生成システム。
  9. 請求項1〜8のいずれか一項に記載のコンテンツ生成システムであって、
    ユーザからの操作入力を受け付ける操作部と、
    前記ユーザからの操作入力に基づき、前記シナリオ情報及び前記対応情報の少なくとも一方を修正する修正部と、
    を備えることを特徴とするコンテンツ生成システム。
  10. 請求項9に記載のコンテンツ生成システムであって、
    前記修正部は、前記シナリオ情報及び前記対応情報の少なくとも一方に対する修正結果を学習し、学習結果に基づいて前記素材画像データベースを更新する
    ことを特徴とするコンテンツ生成システム。
  11. 請求項9に記載のコンテンツ生成システムであって、
    前記修正部は、前記ユーザから入力された前記素材画像を前記シナリオ情報の前記編集単位に対応付けることによって前記対応情報を修正する
    ことを特徴とするコンテンツ生成システム。
  12. 請求項1〜11のいずれか一項に記載のコンテンツ生成システムであって、
    フリー素材としての画像データを収集し、前記素材画像として前記素材画像データベースに登録する収集部を、
    備えることを特徴とするコンテンツ生成システム。
  13. コンテンツ生成システムによるコンテンツ生成方法であって、
    発話者の音声情報を取得する音声取得ステップと、
    前記音声情報をテキスト情報に変換する変換ステップと、
    前記テキスト情報を解析する解析ステップと、
    前記テキスト情報の解析結果に基づいてシナリオ情報を生成するシナリオ情報生成ステップと、
    前記シナリオ情報を所定の編集単位に区分し、前記編集単位毎に素材画像データベースに格納された素材画像を対応付けて対応情報を生成する対応付けステップと、
    前記編集単位毎に対応付けられた前記素材画像を連結して動画像を生成する動画生成ステップと、
    を含むことを特徴とするコンテンツ生成方法。
JP2019033926A 2019-02-27 2019-02-27 コンテンツ生成システム、及びコンテンツ生成方法 Active JP6641045B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019033926A JP6641045B1 (ja) 2019-02-27 2019-02-27 コンテンツ生成システム、及びコンテンツ生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019033926A JP6641045B1 (ja) 2019-02-27 2019-02-27 コンテンツ生成システム、及びコンテンツ生成方法

Publications (2)

Publication Number Publication Date
JP6641045B1 JP6641045B1 (ja) 2020-02-05
JP2020140326A true JP2020140326A (ja) 2020-09-03

Family

ID=69320956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019033926A Active JP6641045B1 (ja) 2019-02-27 2019-02-27 コンテンツ生成システム、及びコンテンツ生成方法

Country Status (1)

Country Link
JP (1) JP6641045B1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102389153B1 (ko) * 2021-06-21 2022-04-21 김영은 음성 반응형 전자책 제공 방법 및 디바이스
WO2022085970A1 (ko) * 2020-10-23 2022-04-28 주식회사 에이아이파크 사용자 데이터텍스트에 기반하여 영상을 생성하는 방법 및 그를 위한 전자 장치 및 텍스트에 기반하여 영상을 생성하는 방법
WO2024111803A1 (ko) * 2022-11-21 2024-05-30 네오사피엔스 주식회사 실시간 영상 콘텐츠 생성 방법 및 시스템
JP7538574B1 (ja) 2024-04-19 2024-08-22 史睦 川口 動画生成装置、動画生成方法、動画生成プログラムおよび動画生成システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001147752A (ja) * 1999-11-22 2001-05-29 Fujitsu Ltd アニメーション制御装置及び記録媒体
JP2002091482A (ja) * 2000-09-13 2002-03-27 Agi:Kk 感情検出方法及び感情検出装置ならびに記録媒体
WO2006059570A1 (ja) * 2004-11-30 2006-06-08 Matsushita Electric Industrial Co., Ltd. 場面修飾表現生成装置および場面修飾表現生成方法
US20060217979A1 (en) * 2005-03-22 2006-09-28 Microsoft Corporation NLP tool to dynamically create movies/animated scenes
WO2007138911A1 (ja) * 2006-05-30 2007-12-06 Panasonic Corporation キャラクタ服飾決定装置、キャラクタ服飾決定方法、およびキャラクタ服飾決定プログラム
JP2011002875A (ja) * 2009-06-16 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> 描画支援装置,描画支援方法および描画支援プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001147752A (ja) * 1999-11-22 2001-05-29 Fujitsu Ltd アニメーション制御装置及び記録媒体
JP2002091482A (ja) * 2000-09-13 2002-03-27 Agi:Kk 感情検出方法及び感情検出装置ならびに記録媒体
WO2006059570A1 (ja) * 2004-11-30 2006-06-08 Matsushita Electric Industrial Co., Ltd. 場面修飾表現生成装置および場面修飾表現生成方法
US20060217979A1 (en) * 2005-03-22 2006-09-28 Microsoft Corporation NLP tool to dynamically create movies/animated scenes
WO2007138911A1 (ja) * 2006-05-30 2007-12-06 Panasonic Corporation キャラクタ服飾決定装置、キャラクタ服飾決定方法、およびキャラクタ服飾決定プログラム
JP2011002875A (ja) * 2009-06-16 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> 描画支援装置,描画支援方法および描画支援プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022085970A1 (ko) * 2020-10-23 2022-04-28 주식회사 에이아이파크 사용자 데이터텍스트에 기반하여 영상을 생성하는 방법 및 그를 위한 전자 장치 및 텍스트에 기반하여 영상을 생성하는 방법
KR102389153B1 (ko) * 2021-06-21 2022-04-21 김영은 음성 반응형 전자책 제공 방법 및 디바이스
WO2024111803A1 (ko) * 2022-11-21 2024-05-30 네오사피엔스 주식회사 실시간 영상 콘텐츠 생성 방법 및 시스템
JP7538574B1 (ja) 2024-04-19 2024-08-22 史睦 川口 動画生成装置、動画生成方法、動画生成プログラムおよび動画生成システム

Also Published As

Publication number Publication date
JP6641045B1 (ja) 2020-02-05

Similar Documents

Publication Publication Date Title
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
US9552807B2 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
CN106716466B (zh) 会议信息储存装置以及方法
JP2019198074A (ja) シーンメタ情報生成装置およびシーンメタ情報生成方法
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
CN106688035B (zh) 声音合成装置及声音合成方法
CN110867177A (zh) 音色可选的人声播放系统、其播放方法及可读记录介质
JP2011239141A (ja) 情報処理方法、情報処理装置、情景メタデータ抽出装置、欠損補完情報生成装置及びプログラム
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
US9666211B2 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
CN105590627A (zh) 图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质
KR20200045852A (ko) 음성 합성 또는 영상 편집을 통한 멀티미디어 컨텐츠 내 광고 서비스 플랫폼 및 음성 합성 서비스와 영상 편집 서비스를 제공하는 방법
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2018078402A (ja) コンテンツ制作装置、及び音声付コンテンツ制作システム
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
KR20110100649A (ko) 음성을 합성하기 위한 방법 및 장치
US8553855B2 (en) Conference support apparatus and conference support method
US11417315B2 (en) Information processing apparatus and information processing method and computer-readable storage medium
EP4345814A1 (en) Video-generation system
WO2023218268A1 (en) Generation of closed captions based on various visual and non-visual elements in content
KR102541008B1 (ko) 화면해설 컨텐츠를 제작하는 방법 및 장치
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
US11182417B1 (en) Method and system for facilitating conversion of content based on user preferences
KR102636708B1 (ko) 프레젠테이션 문서에 대한 수어 발표 영상을 제작할 수 있는 전자 단말 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190320

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190320

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190725

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191226

R150 Certificate of patent or registration of utility model

Ref document number: 6641045

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250