JP7289756B2

JP7289756B2 - 生成装置、生成方法および生成プログラム

Info

Publication number: JP7289756B2
Application number: JP2019149020A
Authority: JP
Inventors: 義宗田渕; 隼人小林; 一真村尾; 毅司増山; 太一谷塚; 立日暮; 健小林
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2023-06-12
Anticipated expiration: 2039-08-15
Also published as: JP2021033367A

Description

本発明は、生成装置、生成方法および生成プログラムに関する。

従来、記事からキーワードを抽出し、抽出したキーワードに対応する画像をこの記事に付与すべき画像として選択する技術が知られている。例えば、特許文献１には、配信記事に含まれるキーワードと適合するキーワードが対応付けられている画像を候補画像として選択し、画像関心度に基づいて、候補画像の中から配信記事に添付する画像を決定する技術が開示されている。

特開２０１８－２００５６５号公報

しかしながら、上記の従来技術では、文章の内容を容易かつ正確に理解させることができるとは限らない。例えば、読み手は記事を読むよりも先に画像を見て記事の内容を確認することが多いが、上記の従来技術のように、単に記事のキーワードに対応する画像が抽出されるだけでは、例えば、記事の文章が長く複雑な場合等、読み手は記事の内容を正確に理解することができない。また、画像だけでは記事の内容を理解できないことから、読み手は、結局、記事も読む必要がでてきて手間であるから、記事の内容を容易に理解することもできない。

本願は、上記に鑑みてなされたものであって、文章の内容を容易かつ正確に理解させることができる生成装置、生成方法および生成プログラムを提供することを目的とする。

本願にかかる生成装置は、処理対象のコンテンツから、当該コンテンツに対応するコンテキストに関する情報を抽出する抽出部と、前記抽出部により抽出されたコンテキストを示す動画像を生成する生成部とを有することを特徴とする。

実施形態の一態様によれば、文章の内容を容易かつ正確に理解させることができるといった効果を奏する。

図１は、実施形態にかかる生成処理の一例を示す図である。図２は、実施形態にかかる生成処理を概念的に示す図である。図３は、実施形態にかかるコンテンツ提供の一例を示す図である。図４は、実施形態にかかる生成システムの構成例を示す図である。図５は、実施形態にかかる生成装置の構成例を示す図である。図６は、実施形態にかかるユーザ情報記憶部の一例を示す図である。図７は、実施形態にかかる前処理の手順を示すフローチャートである。図８は、実施形態にかかる本処理の手順を示すフローチャートである。図９は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願にかかる生成装置、生成方法および生成プログラムを実施するための形態（以下、「実施形態」という）について図面を参照しつつ説明する。なお、この実施形態により本願にかかる生成装置、生成方法および生成プログラムが限定されるものではない。また、以下の実施形態において、同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．生成処理の概要〕
図１～図３を用いて、実施形態にかかる生成処理の一例について説明する。以下では、実施形態にかかる生成処理を前処理、および、本処理に分けて説明する。また、実施形態にかかる生成処理は、図１に示す生成装置１００によって行われる。図１～図３を用いて実施形態にかかる生成処理の一例を説明する前に、まずは、実施形態にかかる生成処理の概要を示すことにする。

実施形態にかかる生成処理の概要として、まず、図４を用いて、実施形態にかかる生成システムについて説明する。図４は、実施形態にかかる生成システム１の構成例を示す図である。実施形態にかかる生成システム１は、図４に示すように、端末装置１０と、生成装置１００とを含む。端末装置１０、生成装置１００は、ネットワークＮを介して有線または無線により通信可能に接続される。なお、図４に示す生成システム１には、複数台の端末装置１０や、複数台の生成装置１００が含まれてよい。

端末装置１０は、ユーザによって利用される情報処理端末である。端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等である。端末装置１０は、各種のコンテンツを表示画面に表示する。例えば、端末装置１０は、ユーザ操作に応じて、コンテンツの配信要求を生成装置１００に送信することで、生成装置１００によって生成された動画像を含むコンテンツを受信する。そして、端末装置１０は、受信したコンテンツを表示画面に表示させる。

ここで、実施形態にかかる生成処理が行われるにあたっての前提について説明する。処理対象のコンテンツをニュース記事が表示されるコンテンツ（ニュースコンテンツ）とすると、このようなコンテンツは、ニュース記事（テキスト情報）のみ、あるいは、記事と画像で構成されていることが多い。ここで、例えば、ニュース記事の内容が、事故・事件・スポーツ（もちろんこれらに限定されない）等である場合、読み手（ユーザ）は事故・事件が実際に起こった場所やスポーツを行った場所である現場の状況を詳しく知りたいと考える。しかしながら、画像があったとしても、読み手は必ずしも現場の状況を理解することができるとは限らない。例えば、記事が長かったり、複雑であったり、難解な文章で構成されている場合、読み手は、先に画像を見ることで現場の状況を理解しようとするが、現場の状況がわかり易く示された画像でないことも多く、仮に、画像があったとしても、読み手は現場の状況を理解するのは困難なことがある。また、画像ではなく動画であったとしても、このような動画は、ニュース記事の重要な箇所をピックアップして生成されたものであるとも限らず、やはり読み手は現場の状況を理解するのは困難であることが多い。

ここで、テキストから映像を生成する技術が一般に知られているが、このような技術の多くは、読み手（ユーザ）の興味をいかに引き寄せるかを考慮して映像を生成することに主眼が置かれており、ニュース記事で示される現場の状況を端的かつわかり易く伝える映像といった実用的な映像生成には対応していない。

実施形態にかかる生成処理は、上記のような前提（課題）を解決するためのものであり、処理対象のコンテンツが示すコンテキスト（ニュース記事の内容、すなわちニュース記事が示す現場の状況）を読み手が容易に認識することができるような、わかり易い動画像を生成するための処理である。具体的には、生成装置１００は、処理対象のコンテンツから、当該コンテンツが示すコンテキストに関する情報を抽出し、抽出したコンテキストに関する情報に基づいて、当該コンテキストを示す動画像を生成する。例えば、生成装置１００は、処理対象のコンテンツに含まれるテキスト情報（例えば、ニュース記事）によって示されるコンテキストに関する情報を抽出する。このコンテキストに関する情報として、生成装置１００は、例えば、テキスト情報によって示されるコンテキストの特徴を示す文字列である対象文字列を抽出し、対象文字列に基づいて、このコンテキストを示す動画像を生成する。

例えば、生成装置１００は、任意のコンテンツに基づく定型文（テンプレート文章）によって示されるコンテキスト応じた画像情報を抽出し、抽出した定型文によって示されるコンテキスト応じた画像情報に含まれる各オブジェクトを示す画像であって、動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像を生成し、生成した部分画像と前記定型文とを組み合わせて（紐付けて）おくという前処理を行う。そして、このような状態において、生成装置１００は、前処理で用意した組合せのうち、処理対象のコンテンツの対象文字列に対応する定型文を含む組合せに対して対応付けられている部分画像を抽出し、処理対象のコンテンツが示すコンテキストとなるように部分画像を組み合わせることで、このコンテキストを示す動画像を生成する。例えば、生成装置１００は、部分画像として、３次元情報に基づく画像情報を組み合わせることで、コンテキストを示す動画像を生成する。

なお、生成装置１００は、前処理なしに動画像を生成したり、機械学習によるモデルを用いて動画像を生成することもできる。この点については、実施形態にかかる情報処理のバリーえーションとして後述することにする。

〔２．実施形態にかかる生成処理（前処理）の一例〕
さて、ここからは、図１を用いて、実施形態にかかる生成処理について説明する。図１は、実施形態にかかる生成処理の一例を示す図である。また、本実施形態では、処理対象のコンテンツは、ニュース記事（テキスト情報）、および、このニュース記事に基づき生成装置１００により生成された動画像が含まれる（表示される）コンテンツであるものとする。さらに、処理対象のコンテンツは、ここに含まれる上記ニュース記事をニュースの詳細内容を示す詳細情報として、対応する見出し情報が選択された場合に、選択元のユーザに提供（配信）されるコンテンツであるものとする。また、ニュース記事は、所定の入稿元により適宜入稿される。また、本実施形態では、ニュース記事（あるいは、ニュース記事としてのテキスト情報）自体を処理対象のコンテンツと言い換えることができるものとする。

また、ニュース記事というのはあくまで一例であり、実施形態にかかる生成処理は、あらゆる分野の文章を対象とすることができる。例えば、実施形態にかかる生成処理は、各種の書籍の文章や、学術論文の文章を対象に動画像を生成することができる。

まず、実施形態にかかる生成処理のうち前処理について説明する。生成装置１００は、最終的に生成される動画像のベースとなる画像情報（すなわち元画像）を取得し、画像情報記憶部１２１に格納する（ステップＳ１１）。ここで取得される画像情報は、例えば、入稿元によりニュース記事とともに入稿される等によりニュース記事に対して紐づけられた画像情報であってもよいし、ニュース記事とは無関係な画像情報であってもよい。また、生成装置１００は、所定の外部装置から画像情報を取得することもできるし、自装置に入稿されてきた画像情報を取得することもできる。また、生成装置１００は、画像情報ではなく動画像（動画像情報）を取得してもよい。

ここで、実施形態にかかる画像情報記憶部１２１について説明する。画像情報記憶部１２１は、動画像のベースとなる画像情報（元画像）を記憶する。図１の例では、画像情報記憶部１２１は、「カテゴリ」、「画像情報」、「タグ」といった項目を有する。「カテゴリ」は、画像情報が属するカテゴリを示す。例えば、画像情報が交通事故の状況を示す画像情報、あるいは、交通事故に関する記事に用いられた画像情報である場合には、この画像情報は、カテゴリ「交通事故」に属される。「画像情報」は、動画像のベースとなる画像のデータそのものである。

「タグ」は、「画像情報」に付与されている（タグ付けされている）キーワードであって、「画像情報」の内容がどのようなものであるかその特徴を端的に示すキーワードである。例えば、「画像情報」が自転車と乗用車との間で起こった事故の現場を示す画像、あるいは、このような事故を仮想的に示すような画像である場合には、タグとして「自転車事故」、「自動車事故」、「事故現場」等のキーワードが付与される。また、「タグ」は、生成装置１００が「画像情報」を解析することにより動的に生成されてもよいし、人手で判断されたものであってもよい。また、１つの「画像情報」に対して付与されるタグの数は限定されない。

すなわち、図１に示す画像情報記憶部１２１の例では、画像情報ＧＦ１１は、カテゴリ「交通事故」に属する画像情報であり、タグとして「ＴＧ１１１」および「ＴＧ１１２」が付与されている例を示す。また、図１に示す画像情報記憶部１２１の例では、タグが「ＴＧ１１１」等と概念的に示されているが、実際には、リアルなキーワードが用いられる。

次に、生成装置１００は、テンプレ文章（テンプレート文章）を取得し、取得したテンプレ情報をテンプレ情報記憶部１２２に格納する（ステップＳ１２）。テンプレ文章について説明する。例えば、自動車事故に関する異なる複数のニュース記事を例に挙げると、この記事の中で用いられる文章の一部は共通してくることが多い（もちろんこのような傾向は、自動車事故に関するニュース記事以外の記事にも共通していえることである）。一例を示すと、「加害者が運転する乗用車は信号無視して・・・」といった文章や、「カーブするトラックの内輪に巻き込まれて・・・」といった文章は、自動車事故に関する多くのニュース記事で用いられる文章である。したがって、生成装置１００は、このようにニュース記事で用いられることの多い文章をテンプレ文章として取得する。

生成装置１００は、カテゴリ毎に人手で生成されたテンプレ文章を取得してもよいし、任意の手法により動的にテンプレ文章を生成（取得）してもよい。例えば、生成装置１００は、特定のカテゴリ（例えば、交通事故）に属するニュース記事の集合を正解データとして、特定のカテゴリに属するニュース記事ではどのような文章を用いられる傾向にあるかを学習することで、傾向が得られた文章をテンプレ文章として取得することができる。なお、ここでいう特定のカテゴリに属するニュース記事は「任意のコンテンツ」の一例であり、テンプレ文章は「任意のコンテンツに基づく定型文」の一例である。

ここで、実施形態にかかるテンプレ情報記憶部１２２について説明する。テンプレ情報記憶部１２２は、テンプレ文章に関する情報を記憶する。図１の例では、テンプレ情報記憶部１２２は、「カテゴリ」、「テンプレ文章」、「パーツ画像」といった項目を有する。「カテゴリ」は、テンプレ文章が属するカテゴリを示す。例えば、テンプレ文章によって示されるコンテキストが交通事故の状況を示すものである場合には、このテンプレ文章は、カテゴリ「交通事故」に属される。「テンプレ文章」は、テンプレ文章に対応するテキスト情報である。「パーツ画像」については後述する。

すなわち、図１に示すテンプレ情報記憶部１２２は、生成装置１００が、カテゴリ「交通事故」に関するテンプレ文章として、「自転車二人乗りによる交通事故」（テンプレ文章ＴＰ１０－１）、「乗用車の運転手は前方人物の急な飛び出しに対応しきれず前方人物に衝突」（テンプレ文章ＴＰ１０－２）、「大型車両に気を取られあわや大惨事」（テンプレ文章ＴＰ１０－３）といったテンプレ文章を取得した例を示す。

次に、生成装置１００は、テンプレ情報記憶部１２２に記憶されるテンプレ文章によって示されるコンテキストの特徴を示すキーワード（特徴ワード）を、当該テンプレ文章から抽出する（ステップＳ１３）。ここでいうコンテキストとは、テンプレ文章の内容、あるいは、テンプレ文章の内容によって示される現場の状況を指し示す。したがって、コンテキストの特徴を示すキーワード（特徴ワード）とは、内容や状況を最も効果的に表す文字列（例えば、単語）である。例えば、生成装置１００は、テンプレ文章のコンテキストを解析し、解析によって検出したコンテキストに基づいて、当該コンテキスの特徴を示す特徴ワードをテンプレ文章から抽出する。生成装置１００は、任意の従来技術を用いてコンテキスト解析、および、特徴ワード抽出を行うことができる。

図１の例では、生成装置１００は、テンプレ文章ＴＰ１０－１からは特徴ワード「自転車二人乗り」「交通事故」を抽出したとする。また、図１の例では、生成装置１００は、テンプレ文章ＴＰ１０－２からは特徴ワード「乗用車」「飛び出し」「衝突」を抽出したとする。また、図１の例では、生成装置１００は、テンプレ文章ＴＰ１０－３からは特徴ワード「大型車両」「大惨事」を抽出したとする。なお、図１に示すテンプレ情報記憶部１２２では不図示であるが、抽出された特徴ワードも対応付けて記憶してもよい。

次に、生成装置１００は、特徴ワードに関連する（一致または類似する）キーワードがタグ付けされている画像情報を画像情報記憶部１２１の中から検索（抽出）し、検索によって得られた画像情報に含まれる各オブジェクトを示すパーツ画像を生成し、生成したパーツ画像をテンプレ情報記憶部１２２に格納する（ステップＳ１４）。ここで、検索によって得られた画像情報は「任意のコンテンツに基づく定型文によって示されるコンテキスト応じた画像情報」の一例である。また、パーツ画像は「定型文によって示されるコンテキスト応じた画像情報に含まれる各オブジェクトを示す画像であって、動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像」の一例である。また、オブジェクトは、画像情報に含まれる人物やその他物体である。

テンプレ文章ＴＰ１０－１に対応する特徴ワード「自転車二人乗り」「交通事故」の例では、生成装置１００は、特徴ワード「自転車二人乗り」または「交通事故」の少なくともいずれか一方を「タグ」として付された画像情報を抽出する。ここで抽出された画像情報には、例えば、自転車二人乗り（オブジェクトの一例）を示す画像が含まれる。そこで、生成装置１００は、自転車二人乗りを示す画像に基づいて、自転車二人乗りを示す３次元画像ＰＧＦ１０－１を生成する。生成装置１００は、任意の従来技術を用いて、２次元画像から３次元画像を生成することができる。そして、生成装置１００は、テンプレ文章ＴＰ１０－１と、テンプレ文章ＴＰ１０－１に基づき生成した３次元画像ＰＧＦ１０－１とを紐付ける形で、３次元画像ＰＧＦ１０－１をテンプレ情報記憶部１２２に格納する。図１に示すテンプレ情報記憶部１２２には、この例が示されている。

また、テンプレ文章ＴＰ１０－２に対応する特徴ワード「乗用車」「飛び出し」「衝突」の例では、生成装置１００は、特徴ワード「乗用車」、「飛び出し」、「衝突」の少なくともいずれか１つを「タグ」として付された画像情報を抽出する。ここで抽出された画像情報には、例えば、事故に関する乗用車を示す画像が含まれる。そこで、生成装置１００は、乗用車を示す画像に基づいて、乗用車を示す３次元画像ＰＧＦ１０－２を生成する。そして、生成装置１００は、テンプレ文章ＴＰ１０－２と、テンプレ文章ＴＰ１０－２に基づき生成した３次元画像ＰＧＦ１０－２とを紐付ける形で、３次元画像ＰＧＦ１０－２をテンプレ情報記憶部１２２に格納する。図１に示すテンプレ情報記憶部１２２には、この例も示されている。

また、テンプレ文章ＴＰ１０－３に対応する特徴ワード「大型車両」「大惨事」の例では、生成装置１００は、特徴ワード「大型車両」または「大惨事」の少なくともいずれか一方を「タグ」として付された画像情報を抽出する。ここで抽出された画像情報には、例えば、事故に関する大型車両を示す画像が含まれる。そこで、生成装置１００は、大型車両を示す画像に基づいて、大型車両を示す３次元画像ＰＧＦ１０－３を生成する。そして、生成装置１００は、テンプレ文章ＴＰ１０－３と、テンプレ文章ＴＰ１０－３に基づき生成した３次元画像ＰＧＦ１０－３とを紐付ける形で、３次元画像ＰＧＦ１０－３をテンプレ情報記憶部１２２に格納する。図１に示すテンプレ情報記憶部１２２には、この例も示されている。

さて、このようにテンプレ文章と、テンプレ文書が示すコンテキストに関する３次元画像との対応付けを行うところまでが実施形態にかかる前処理となる。以下では、引き続き図１を用いて、実施形態にかかる本処理の一例について説明する。

〔３．実施形態にかかる生成処理（本処理）の一例〕
本処理の説明に先立って、まず、生成装置１００が有するコンテンツ情報記憶部１２３について説明する。コンテンツ情報記憶部１２３は、処理対象のコンテンツに関する情報を記憶する。処理対象のコンテンツとは、それが示すコンテキストに基づき動画像が生成される対象のコンテンツである。また、処理対象のコンテンツは、対応する見出し情報が選択された場合に、選択元のユーザに提供（配信）されるコンテンツである。また、上記の通り、処理対象のコンテンツは、見出し情報に対する詳細を示すニュース記事であるものとする。

図１の例では、コンテンツ情報記憶部１２３は、「カテゴリ」、「コンテンツＩＤ」、「テキスト情報」、「動画像データ」といった項目を有する。「カテゴリ」は、処理対象のコンテンツが属するカテゴリを示す。例えば、処理対象のコンテンツとしての「テキスト情報」によって示されるコンテキストが交通事故の状況を示すものである場合には、この処理対象のコンテンツはカテゴリ「交通事故」に属される。図１に示すコンテンツ情報記憶部１２３の例では、テキスト情報ＴＸ１１が交通事故に関するものであるため、テキスト情報ＴＸ１１およびこれを識別するコンテンツＩＤに対して、カテゴリ「交通事故」が対応付けられている。

「コンテンツＩＤ」は、処理対象のコンテンツ、すなわち、実質、処理対象のコンテンツに対応する「テキスト情報」を識別する識別情報を示す。「テキスト情報」は、処理対象のコンテンツとして表示されるテキスト情報（例えば、ニュース記事）である。また、「テキスト情報」は、処理対象のコンテンツに含まれるテキスト情報ともいえる。「テキスト情報」は、任意のタイミングで入稿される。したがって、生成装置１００は、入稿元から「テキスト情報」の入稿を受け付ける度に、受け付けた「テキスト情報」をコンテンツ情報記憶部１２３に格納する。なお、「テキスト情報」は、生成装置１００以外の他の外部装置に入稿されてもよく、この場合、生成装置１００は、適宜、外部装置から「テキスト情報」を取得する。「動画像データ」については後述する。

ここから本処理の説明に入る。まず、生成装置１００は、処理対象のコンテンツに含まれるテキスト情報によって示されるコンテキストの特徴を示す文字列（対象文字列）を、当該テキスト情報から抽出する（ステップＳ２１）。ここでいうコンテキストとは、テキスト情報の内容、テキスト情報の内容によって示される現場の状況を指し示す。したがって、コンテキストの特徴を示す文字列（対象文字列）とは、内容や状況を最も効果的に表す文字列（例えば、単語）である。例えば、生成装置１００は、テキスト情報のコンテキストを解析し、解析によって検出したコンテキストに基づいて、当該コンテキスの特徴を示す対象文字列をテキスト情報から抽出する。生成装置１００は、任意の従来技術を用いてコンテキスト解析、および、対象文字列抽出を行うことができる。図１の例では、生成装置１００は、対象文字列として、処理対象のコンテンツに含まれるテキスト情報によって示されるコンテキストの特徴を示すキーワード（単語）を抽出するものとする。

この点について、処理対象のコンテンツＣ１１（コンテンツＩＤ「Ｃ１１」で識別されるコンテンツ）に対応するテキスト情報ＴＸ１１を例に説明する。また、以下では、処理対象のコンテンツＣ１１に焦点を当てて説明するが、全ての処理対象のコンテンツについて同様の処理が行われる。

図１に示すコンテンツ情報記憶部１２３の例では、テキスト情報ＴＸ１１は「自転車二人乗りによるスピード出し過ぎのため、前方の大型トラックを避けるのに気を取られ後方確認を怠った結果、急な飛び出しにより後方を走行していた車両にぶつかりました。幸い大惨事には至りませんでした。」という交通事故に関するニュース記事である。かかる例では、生成装置１００は、対象文字列として、「自転車二人乗り／飛び出し」「前方／大型トラック」「後方走行／車両」といった対象文字列の組をそれぞれ抽出したものとする。

このような状態において、生成装置１００は、テンプレ情報記憶部１２２において紐づけられたテンプレ文章およびパーツ画像の組合せのうち、対象文字列に関連する特徴ワードを有するテンプレ文章を含む組合せを特定し、特定した各組合せに対して紐付けられるパーツ画像を抽出する（ステップＳ２２）。

対象文字列の組「自転車二人乗り／飛び出し」について説明する。対象文字列の組「自転車二人乗り／飛び出し」が抽出されたテキスト情報ＴＸ１１は、カテゴリ「交通事故」に属するため、生成装置１００は、テンプレ情報記憶部１２２においてカテゴリ「交通事故」に属するテンプレ情報のうち、対象文字列の組「自転車二人乗り／飛び出し」に関連する特徴ワードを有するテンプレ文章を含む組合せを特定する。図１に示すテンプレ情報記憶部１２２の例では、テンプレ文章ＴＰ１０－１から特徴ワード「自転車二人乗り」「交通事故」が抽出されている。したがって、生成装置１００は、対象文字列の組「自転車二人乗り／飛び出し」に関連する特徴ワードを有するテンプレ文章はテンプレ文章ＴＰ１０－１と判断し、この結果、テンプレ文章ＴＰ１０－１／パーツ画像ＰＧＦ１０－１という組合せを特定する。よって、かかる例では、生成装置１００は、対象文字列の組「自転車二人乗り／飛び出し」について、パーツ画像ＰＧＦ１０－１を抽出する。また、この場合、テンプレ文章ＴＰ１０－１は「対象文字列に対応する定型文」の一例といえる。また、パーツ画像ＰＧＦ１０－１は「対象文字列に対応する定型文を含む組合せに対して対応付けられている部分画像」の一例といえる。

また、対象文字列の組「前方／大型トラック」について説明する。対象文字列の組「前方／大型トラック」が抽出されたテキスト情報ＴＸ１１は、カテゴリ「交通事故」に属するため、生成装置１００は、テンプレ情報記憶部１２２においてカテゴリ「交通事故」に属するテンプレ情報のうち、対象文字列の組「前方／大型トラック」に関連する特徴ワードを有するテンプレ文章を含む組合せを特定する。図１に示すテンプレ情報記憶部１２２の例では、テンプレ文章ＴＰ１０－３から特徴ワード「大型車両」「大惨事」が抽出されている。したがって、生成装置１００は、対象文字列の組「前方／大型トラック」に関連する特徴ワードを有するテンプレ文章はテンプレ文章ＴＰ１０－３と判断し、この結果、テンプレ文章ＴＰ１０－３／パーツ画像ＰＧＦ１０－３という組合せを特定する。よって、かかる例では、生成装置１００は、対象文字列の組「前方／大型トラック」について、パーツ画像ＰＧＦ１０－３を抽出する。また、この場合、テンプレ文章ＴＰ１０－３は「対象文字列に対応する定型文」の一例といえる。また、パーツ画像ＰＧＦ１０－３は「対象文字列に対応する定型文を含む組合せに対して対応付けられている部分画像」の一例といえる。

また、対象文字列の組「後方走行／車両」について説明する。対象文字列の組「後方走行／車両」が抽出されたテキスト情報ＴＸ１１は、カテゴリ「交通事故」に属するため、生成装置１００は、テンプレ情報記憶部１２２においてカテゴリ「交通事故」に属するテンプレ情報のうち、対象文字列の組「後方走行／車両」に関連する特徴ワードを有するテンプレ文章を含む組合せを特定する。図１に示すテンプレ情報記憶部１２２の例では、テンプレ文章ＴＰ１０－２から特徴ワード「乗用車」「飛び出し」「衝突」が抽出されている。したがって、生成装置１００は、対象文字列の組「後方走行／車両」に関連する特徴ワードを有するテンプレ文章はテンプレ文章ＴＰ１０－２と判断し、この結果、テンプレ文章ＴＰ１０－２／パーツ画像ＰＧＦ１０－２という組合せを特定する。よって、かかる例では、生成装置１００は、対象文字列の組「後方走行／車両」について、パーツ画像ＰＧＦ１０－２を抽出する。また、この場合、テンプレ文章ＴＰ１０－２は「対象文字列に対応する定型文」の一例といえる。また、パーツ画像ＰＧＦ１０－２は「対象文字列に対応する定型文を含む組合せに対して対応付けられている部分画像」の一例といえる。

なお、ステップＳ２２の例は、いわゆるキーワードでのマッチングによる抽出であるが、生成装置１００は、コンテキストでのマッチングによるパーツ画像の抽出を行ってもよい。具体的には、生成装置１００は、テキスト情報ＴＸ１１が示すコンテキストにマッチするコンテキストを示すテンプレ文章を特定することで、特定したテンプレ文章に紐づけられるパーツ画像を抽出してもよい。

次に、生成装置１００は、処理対象のコンテンツに含まれるテキスト情報に基づいて、当該テキスト情報によって示されるコンテキストを解析する（ステップＳ２３）。例えば、生成装置１００は、処理対象のコンテンツＣ１１に対応するテキスト情報ＴＸ１１を解析し、テキスト情報ＴＸ１１によって示されるコンテキストを検出する。

次に、生成装置１００は、解析によって検出したコンテキストを示すようにパーツ画像を組み合わせたうえで、当該コンテキストを示すように各パーツ画像に動き（アニメーション）を付けることで当該コンテキストを再現する動画像を生成する（ステップＳ２４）。ステップＳ２２の例では、生成装置１００は、テキスト情報ＴＸ１１から抽出された各対象文字列に合ったパーツ画像として、パーツ画像ＰＧＦ１０－１、パーツ画像ＰＧＦ１０－２、パーツ画像ＰＧＦ１０－３（パーツ画像１０－１～１０－３）を抽出している。したがって、生成装置１００は、かかる例では、テキスト情報ＴＸ１１から検出したコンテキストを示すようにパーツ画像１０－１～１０－３を組み合わせる。そして、生成装置１００は、テキスト情報ＴＸ１１から検出したコンテキストを示すようにパーツ画像１０－１～１０－３に動き（アニメーション）を付けることで当該コンテキストを再現する動画像を生成する。この点について、図２を用いて説明する。

図２は、実施形態にかかる生成処理を概念的に示す図である。図２に示す生成処理は、処理対象のコンテンツＣ１１を用いてこれまで説明してきた一例に対応するものである。したがって、図２に示すように、パーツ画像ＰＧＦ１０－１は、自転車二人乗りを示す３次元画像である。また、パーツ画像ＰＧＦ１０－２は、乗用車を示す３次元画像である。また、パーツ画像ＰＧＦ１０－３は、大型車両（トラック）を示す３次元画像である。図２の例では、生成装置１００は、パーツ画像１０－１～１０－３を組み合わせ、そして、に動き（アニメーション）を付けることで、テキスト情報ＴＸ１１から検出したコンテキストを再現する動画像ＭＩＧ１１を生成している。

また、生成装置１００は、図２の例のように、道路を示す画像、背景画像、衝突時の模様を印象付けるアクション画像等をさらに組み合わせることで、より忠実にコンテキストを再現するようにしてもよい。また、動画像の再生時間を所定の長さにすることが予め決められている場合には、生成装置１００は、この所定の長さ以内の再生時間の動画像を生成する。そして、生成装置１００は、生成した動画像をコンテンツ情報記憶部１２３に格納する。これまでの例によると、生成装置１００は、図１に示すコンテンツ情報記憶部１２３のように、コンテンツＩＤ「Ｃ１１」に対応する「動画像データ」として動画像ＭＩＧ１１を格納する。

さて、これまで説明してきたように、実施形態にかかる生成装置１００は、処理対象のコンテンツから、当該コンテンツが示すコンテキストに関する情報を抽出し、抽出したコンテキストに関する情報に基づいて、コンテキストを示す動画像を生成する。例えば、生成装置１００は、前処理でテンプレ文章とパーツ画像との紐付けを行っておく。このような状態で、生成装置１００は、処理対象のコンテンツに対応するテキスト情報によって示されるコンテキストとテンプレ文章とのマッチングを行うことで、このコンテキストに合ったパーツ画像を抽出する。そして、生成装置１００は、抽出したパーツ画像を組み合わせて動きを付けることでコンテキストを再現する動画像を生成する。

このようなことから、生成装置１００は、テキスト情報と動画像とによって構成される処理対象のコンテンツを提供することがえきるようになるため、ユーザに対してテキスト情報（例えば、ニュース記事）の内容を容易かつ正確に理解させることができる。

ここからは、テキスト情報と動画像とによって構成される処理対象のコンテンツを提供する点についても図１を用いて説明する。例えば、生成装置１００は、実施形態にかかる生成処理により動画像をコンテンツ情報記憶部１２３に有している。このような状態において、生成装置１００は、処理対象のコンテンツの配信要求を端末装置１０から受け付ける。図１の例では、生成装置１００は、ユーザＵ１の所有する端末装置１０から配信要求を受け付けたと判定したとする。かかる場合、生成装置１００は、配信要求で識別されるコンテンツに紐付けられる動画像（動画像データ）をコンテンツ情報記憶部１２３から取得し、取得した動画像が配信要求で識別されるコンテンツとともに表示されるよう配信制御する（ステップＳ２５）。この点について、図３を用いて説明する。

図３は、実施形態にかかるコンテンツ提供の一例を示す図である。図３の例では、端末装置の表示画面Ｄに、各ニュース記事の見出し情報が一覧表示される一覧コンテンツＣｘが表示されている。このような状態において、ユーザＵ１が、処理対象のコンテンツＣ１１に対応する見出し情報ＨＤ１１を選択したとする。そうすると、端末装置１０は、コンテンツＩＤ「Ｃ１１」を含む配信要求を生成装置１００に送信する。生成装置１００は、テンツＩＤ「Ｃ１１」を含む配信要求を受け付けると、コンテンツ情報記憶部１２３において、コンテンツＩＤ「Ｃ１１」に対応付けられるテキスト情報Ｔ１１および動画像ＭＩＧ１１を取得する。そして、生成装置１００は、テキスト情報Ｔ１１とともに動画像ＭＩＧが表示されるコンテンツＣ１１を生成する。図３の例では、生成装置１００は、再生領域ＡＲ１に動画像ＭＩＧ１１が表示されるようなコンテンツＣ１１を生成する。ユーザＵ１は、再生領域ＡＲ１に表示される再生ボタンＢＴ１を押下することで動画像ＭＩＧ１１を視聴することもできるし、生成装置１００は、端末装置１０の表示画面Ｄに表示された段階で自動で動画像ＭＩＧ１１の再生が開始されるようなコンテンツＣ１１を生成してもよい。また、生成装置１００は、このように生成したコンテンツＣ１１をユーザＵ１に提供する。すなわち、生成装置１００は、コンテンツＣ１１をユーザＵ１の端末装置１０に配信する。これにより、生成装置１００は、動画像ＭＩＧ１１を用いて、ユーザＵ１に対してテキスト情報ＴＸ１１の内容を容易かつ正確に理解させることができる。

〔４．生成装置の構成〕
次に、図５を用いて、実施形態にかかる生成装置１００について説明する。図５は、実施形態にかかる生成装置１００の構成例を示す図である。図５に示すように、生成装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。例えば、生成装置１００は、図１～図３で説明した生成処理を行うサーバ装置である。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークＮと有線または無線で接続され、例えば、端末装置１０との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、画像情報記憶部１２１と、テンプレ情報記憶部１２２と、コンテンツ情報記憶部１２３、ユーザ情報記憶部１２４とを有する。画像情報記憶部１２１、テンプレ情報記憶部１２２、コンテンツ情報記憶部１２３については、図１で説明済みのため省略する。

（ユーザ情報記憶部１２４について）
ユーザ情報記憶部１２４は、ユーザに関する情報を記憶する。例えば、ユーザ情報記憶部１２４は、ユーザに関する属性情報や履歴情報を記憶する。ここで、図６ではこの最も単純な例を示す。図６に実施形態にかかるユーザ情報記憶部１２４の一例を示す。図６の例では、「ユーザＩＤ」、「属性情報」、「履歴情報」といった項目を有する。

「ユーザＩＤ」は、ユーザまたはユーザの端末装置１０を識別する識別情報を示す。「属性情報」は、「ユーザＩＤ」で識別されるユーザの各種属性情報を示す。図６の例では、属性情報として概念的な記号を用いているが、実際には属性情報は、例えば、性別・年齢・現住所・出身地・職業・家族構成、「履歴情報」から判別された嗜好性等である。「履歴情報」は、「ユーザＩＤ」で識別されるユーザの各種履歴情報を示す。図６の例では、履歴情報として概念的な記号を用いているが、実際には履歴情報は、例えば、インターネット上あるいはリアルでの行動履歴である。履歴情報の一例としては、検索履歴、閲覧履歴、購買履歴、移動履歴が挙げられる。

ユーザ情報記憶部１２４に記憶される属性情報や履歴情報は、動画像の態様を制御する際に用いられる。

（制御部１３０について）
制御部１３０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、生成装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図５に示すように、制御部１３０は、取得部１３１と、抽出部１３２と、生成部１３３と、解析部１３４と、提供部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図５に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図５に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３１について）
取得部１３１は、実施形態にかかる生成処置に必要な情報を取得する。例えば、取得部１３１は、図１で説明した前処理において、最終的に生成される動画像のベースとなる画像情報（すなわち元画像）を取得し、画像情報記憶部１２１に格納する。例えば、取得部１３１は、所定の外部装置から画像情報を取得してもよいし、自装置に入稿されてきた画像情報を取得してもよい。また、取得部１３１は、画像情報ではなく動画像（動画像情報）を取得してもよい。また、取得部１３１は、テンプレ文章を取得し、取得したテンプレ情報をテンプレ情報記憶部１２２に格納する。

また、取得部１３１は、各処理部によって処理が行われる際に、その処理に必要な情報を記憶部から取得し、対象の処理部に出力する。具体的には、取得部１３１は、画像情報記憶部１２１、テンプレ情報記憶部１２２、コンテンツ情報記憶部１２３、ユーザ情報記憶部１２４から適宜情報を取得し、対象の処理部に出力する。

（抽出部１３２について）
抽出部１３２は、処理対象のコンテンツから、当該コンテンツが示すコンテキストに関する情報を抽出する。例えば、抽出部１３２は、コンテキストとして、処理対象のコンテンツに含まれるテキスト情報によって示されるコンテキストに関する情報を抽出する。例えば、抽出部１３２は、コンテキストに関する情報として、コンテキストの特徴を示す文字列である対象文字列を抽出する。

また、図１で説明した前処理に関して、抽出部１３２は、任意のコンテンツに基づく定型文によって示されるコンテキストに応じた画像情報をさらに抽出する。この場合、後述する生成部１３３は、定型文によって示されるコンテキストに応じた画像情報に含まれる各オブジェクトを示す画像であって、動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像を生成し、生成した部分画像と定型文とを組み合わせた組合せのうち、対象文字列に対応する組合せに基づいて、当該コンテキストを示す動画像を生成する。

このような状態において、図１で説明した本処理に関して、抽出部１３２は、組合せのうち、対象文字列に対応する定型文を含む組合せに対して対応付けられている部分画像を抽出する。そうすると、後述する生成部１３３は、コンテキストを示すように部分画像を組み合わせることで、コンテキストを示す動画像を生成する。

（生成部１３３について）
生成部１３３は、抽出部１３２により抽出されたコンテキストに関する情報に基づいて、コンテキストを示す動画像を生成する。例えば、コンテキストに関する情報として、コンテキストの特徴を示す文字列である対象文字列を抽出された場合には、生成部１３３は、対象文字列に基づいて、コンテキストを示す動画像を生成する。

また、図１で説明した前処理に関して、任意のコンテンツに基づく定型文によって示されるコンテキストに応じた画像情報が抽出された場合には、生成部１３３は、定型文によって示されるコンテキスト応じた画像情報に含まれる各オブジェクトを示す画像であって、動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像を生成し、生成した部分画像と定型文とを組み合わせた組合せのうち、対象文字列に対応する組合せに基づいて、当該コンテキストを示す動画像を生成する。

また、図１で説明した本処理に関して、組合せのうち、対象文字列に対応する定型文を含む組合せに対して対応付けられている部分画像が抽出されると、生成部１３３は、コンテキストを示すように部分画像を組み合わせることで、コンテキストを示す動画像を生成する。

また、生成部１３３は、部分画像として、３次元情報に基づく画像情報を組み合わせることで、コンテキストを示す動画像を生成する。

（解析部１３４について）
解析部１３４は、コンテキストの解析の解析を行うことによりコンテキストを検出する。具合的には、解析部１３４は、処理対象のコンテンツに含まれるテキスト情報に基づいて、当該テキスト情報によって示されるコンテキストを解析することにより、該テキスト情報によって示されるコンテキストを検出する。

ここで、図１の例を用いて、抽出部１３２、生成部１３３、解析部１３４それぞれによって行われる処理の一例を示す。まず、前処理として、抽出部１３２は、テンプレ情報記憶部１２２に記憶されるテンプレ文章によって示されるコンテキストの特徴を示すキーワード（特徴ワード）を、当該テンプレ文章から抽出する。また、抽出部１３２は、特徴ワードに関連する（一致または類似する）キーワードがタグ付けされている画像情報を画像情報記憶部１２１の中から検索（抽出）し、抽出した画像情報を生成部１３３に出力する。生成部１３３は、抽出部１３２から取得した画像情報に含まれる各オブジェクトを示すパーツ画像を生成し、生成したパーツ画像をテンプレ情報記憶部１２２に格納する。具体的には、生成部１３３は、テンプレ文章と、当該テンプレ文章に対応する特徴ワードを用いて抽出（検索）された画像情報から生成したパーツ画像とを紐付けて、テンプレ情報記憶部１２２に格納する。

次に、本処理として、抽出部１３２は、処理対象のコンテンツに含まれるテキスト情報によって示されるコンテキストの特徴を示す文字列（対象文字列）を、当該テキスト情報から抽出する。このときコンテキストの解析は、解析部１３４によって行われる。また、抽出部１３２は、テンプレ情報記憶部１２２において紐付けられたテンプレ文章およびパーツ画像の組合せのうち、対象文字列に関連する特徴ワードを有するテンプレ文章を含む組合せを特定し、特定した各組合せに対して紐付けられるパーツ画像を抽出する。また、抽出部１３２は、抽出したパーツ画像を生成部１３３に出力する。

生成部１３３は、処理対象のコンテンツに含まれるテキスト情報によって示されるコンテキストを示すようにパーツ画像を組み合わせる。そして、生成部１３３は、当該コンテキストを示すように各パーツ画像に動き（アニメーション）を付けることで当該コンテキストを再現する動画像を生成する。

（提供部１３５について）
提供部１３５は、処理対象のコンテンツとともに、生成部１３３により生成された動画像をユーザに提供する。例えば、提供部１３５は、処理対象のコンテンツに関する見出しが選択された場合に、処理対象のコンテンツとともに、動画像を提供する。この点について、例えば、図３で説明したように、一覧コンテンツＣｘにおいて表示される見出し情報のうち、処理対象のコンテンツＣ１１に対応する見出し情報ＨＤ１１が選択されたとする。かかる場合、提供部１３５は、領域ＡＲ１に動画像ＭＩＧ１１が表示されるようなコンテンツＣ１１を生成する。そして、提供部１３５は、コンテンツＣ１１が端末装置１０に表示されるよう配信制御する。

〔５．処理手順（１）〕
次に、図７を用いて、実施形態にかかる生成処理のうち、前処理の手順について説明する。図７は、実施形態にかかる前処理の手順を示すフローチャートである。

まず、取得部１３１は、最終的に生成される動画像のベースとなる画像情報（すなわち元画像）を取得し、画像情報記憶部１２１に格納する（ステップＳ１０１）。また、取得部１３１は、テンプレ文章を取得し、取得したテンプレ情報をテンプレ情報記憶部１２２に格納する。なお、取得部１３１は、ステップＳ１０１およびＳ１０２を順不同で行ってよい。

次に、抽出部１３２は、テンプレ情報記憶部１２２に記憶される各テンプレ文章について、当該テンプレ文章によって示されるコンテキストの特徴を示すキーワード（特徴ワード）を当該テンプレ文章から抽出する（ステップＳ１０３）。また、抽出部１３２は、各特徴ワードに関連する（一致または類似する）キーワードがタグ付けされている画像情報を画像情報記憶部１２１の中から抽出する（ステップＳ１０４）。

次に、生成部１３３は、抽出部１３２から取得した画像情報に含まれる各オブジェクトを示すパーツ画像を生成する。また、生成部１３３は、テンプレ文章と、当該テンプレ文章に対応する特徴ワードを用いて抽出された画像情報（ステップＳ１０４より）から生成したパーツ画像とを紐付けて、テンプレ情報記憶部１２２に格納する。

〔６．処理手順（２）〕
次に、図８を用いて、実施形態にかかる生成処理のうち、本処理の手順について説明する。図８は、実施形態にかかる本処理の手順を示すフローチャートである。

まず、抽出部１３２は、処理対象のコンテンツに含まれるテキスト情報（コンテンツ情報記憶部１２３に格納されるテキスト情報）によって示されるコンテキストの特徴を示す文字列（対象文字列）を、当該テキスト情報から抽出する（ステップＳ２０１）。また、抽出部１３２は、テンプレ情報記憶部１２２において紐付けられたテンプレ文章およびパーツ画像の組合せのうち、対象文字列に関連する特徴ワードを有するテンプレ文章を含む組合せを特定し、特定した各組合せに対して紐付けられるパーツ画像を抽出する（ステップＳ２０２）。

解析部１３４は、処理対象のコンテンツに含まれるテキスト情報に基づいて、当該テキスト情報によって示されるコンテキストを解析することにより、当該テキスト情報によって示されるコンテキストを検出する（ステップＳ２０３）。

次に、生成部１３３は、処理対象のコンテンツに含まれるテキスト情報によって示されるコンテキストを示すようにパーツ画像を組み合わせる。そして、生成部１３３は、当該コンテキストを示すように各パーツ画像に動き（アニメーション）を付けることで当該コンテキストを再現する動画像を生成する（ステップＳ２０４）。なお、ここで用いられるパーツ画像は、処理対象となっているテキスト情報から抽出された対象文字列に関連する特徴ワードを有するテンプレ文章に対して紐付けられるパーツ画像である。また、生成部１３３は、処理対象となっているテキスト情報と、このテキスト情報について生成した動画像（動画像データ）とを対応付けてコンテンツ情報記憶部１２３に格納しておく。

このような状態において、提供部１３５は、コンテンツの配信要求を受信したか否かを判定する（ステップＳ２０５）。例えば、提供部１３５は、見出し情報に対応する詳細情報（詳細記事）が表示されるコンテンツの配信要求を受信したか否かを判定する。提供部１３５は、配信要求を受信していないと判定した場合には（ステップＳ２０５；Ｎｏ）、配信要求を受信するまで待機する。

一方、提供部１３５は、配信要求を受信したと判定した場合には（ステップＳ２０５；Ｙｅｓ）、配信要求で識別されるコンテンツに対応するテキスト情報、および、動画像に基いて、このテキスト情報を詳細記事とする配信対象のコンテンツを生成する（ステップＳ２０６）。例えば、提供部１３５は、図３で示されるように、テキスト情報および動画像が組み合わされたコンテンツを生成する。そして、提供部１３５は、生成したコンテンツを配信要求元のユーザに提供する（ステップＳ２０７）。

〔７．生成処理のバリエーションについて〕
上記実施形態にかかる生成装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、生成装置１００の他の実施形態について説明する。

〔７－１．前処理無しの生成処理〕
上記実施形態では、例えば図１のステップＳ１４で説明したように、抽出部１３２が、任意のコンテンツに基づく定型文（テンプレ文章）によって示されるコンテキスト応じた画像情報を抽出し、生成部１３３が、この画像情報に含まれる各オブジェクトを示す画像であって、動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像（パーツ画像）を生成し、生成した部分画像と定型文とを対応付ける形でテンプレ情報記憶部１２２に格納しておくという前処理を行う例を示した。また、このように前処理を行っておいたうえで、抽出部１３２が、テンプレ情報記憶部１２２に格納される組合せのうち、対象文字列に対応する定型文を含む組合せに対して対応付けられている部分画像を抽出し、生成部１３３が、処理対象のコンテンツのコンテキストを示すように部分画像を組み合わせることで、このコンテキストを示す動画像を生成する例を示した。

しかしながら、生成装置１００は、定型文と部分画像を対応付ける前処理を行わず、直接部分画像を抽出し、処理対象のコンテンツのコンテキストを示すように部分画像を組み合わせることで、このコンテキストを示す動画像を生成してもよい。具体的には、抽出部１３２は、処理対象のコンテンツに含まれるテキスト情報によって示されるコンテキストに関する情報として、コンテキストの特徴を示す文字列である対象文字列を抽出する。また、抽出部１３２は、抽出した対象文字列に関連する画像情報をさらに抽出し、生成部１３３は、対象文字列に関連する画像情報に含まれる各オブジェクトを示す画像であって、動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像を生成し、生成した部分画像それぞれをコンテキストを示すように組み合わせることで、コンテキストを示す動画像を生成する。

この点について、図１の例を用いて説明する。かかる例の場合、生成装置１００は、例えば、テンプレ情報記憶部１２２を有しない。このような状態において、抽出部１３２は、処理対象のコンテンツＣ１１に含まれるテキスト情報によって示されるコンテキストの特徴を示す文字列（対象文字列）を、当該テキスト情報から抽出する。図１のステップＳ２１で説明したように、抽出部１３２は、対象文字列として、「自転車二人乗り／飛び出し」「前方／大型トラック」「後方走行／車両」といった対象文字列の組をそれぞれ抽出したものとする。

次に、抽出部１３２は、各対象文字列の組に関連する（一致または類似する）キーワードがタグ付けされている画像情報を画像情報記憶部１２１の中から検索（抽出）する。そうすると、生成部１３３は、抽出された画像情報に含まれる各オブジェクトを示すパーツ画像を生成する。

対象文字列「自転車二人乗り／飛び出し」の例では、抽出部１３２は、対象文字列「自転車二人乗り／飛び出し」を「タグ」として付された画像情報を抽出する。ここで抽出された画像情報には、例えば、自転車二人乗り（オブジェクトの一例）を示す画像が含まれる。そこで、生成部１３３は、自転車二人乗りを示す画像に基づいて、自転車二人乗りを示す３次元画像ＰＧＦ１０－１を生成する。

また、対象文字列「後方走行／車両」の例では、抽出部１３２は、対象文字列「後方走行／車両」を「タグ」として付された画像情報を抽出する。ここで抽出された画像情報には、例えば、事故に関する乗用車を示す画像が含まれる。そこで、生成部１３３は、乗用車を示す画像に基づいて、乗用車を示す３次元画像ＰＧＦ１０－２を生成する。

また、対象文字列「前方／大型トラック」の例では、抽出部１３２は、「前方／大型トラック」を「タグ」として付された画像情報を抽出する。ここで抽出された画像情報には、例えば、事故に関する大型車両を示す画像が含まれる。そこで、生成部１３３は、大型車両を示す画像に基づいて、大型車両を示す３次元画像ＰＧＦ１０－３を生成する。

そして、生成部１３３は、テキスト情報ＴＸ１１から検出したコンテキストを示すようにパーツ画像１０－１～１０－３を組み合わせる。そして、生成部１３３は、テキスト情報ＴＸ１１から検出したコンテキストを示すようにパーツ画像１０－１～１０－３に動き（アニメーション）を付けることで当該コンテキストを再現する動画像を生成する。

このように、定型文と部分画像を対応付ける前処理を行う場合と、行わない場合とではそれぞれ利点がある。前者の場合、生成装置１００は、テンプレ情報記憶部１２２において予めパーツ画像を有していることになるため、後はパーツ画像を組み合わせるだけで動画像を生成することができる。このため、生成装置１００は、例えば、ユーザから配信要求を受け付けたそのタイミング、すなわちリアルタイムでも高速に動画像を生成することができる。また、後者では、生成装置１００は、実質、処理対象のコンテンツのコンテキストと、画像情報記憶部１２１に記憶される画像情報とのマッチングを行うことになるため、よりコンテキストに合った動画像を抽出することができる。この結果、生成装置１００は、処理対象のコンテンツのコンテキストに合った動画像を精度よく生成することができる。

〔７－２．学習モデルを用いた生成処理〕
また、生成装置１００は、機械学習モデルを用いて動画像を生成することができる。具体的には、生成部１３３は、任意のテキスト情報によって示されるコンテキストと、当該コンテキストを示す動画像との関係性を学習したモデルに基づいて、処理対象のコンテンツに対応するコンテキストを示す動画像を生成する。例えば、生成部１３３は、コンテキストを示す情報と、当該コンテキストを示す動画像との組合せを正例として、コンテキストと動画像との関係性を学習したモデルを生成する。そして、生成部１３３は、生成したモデルを用いて、処理対象のコンテンツに対応するコンテキストを示す動画像を生成する。例えば、生成部１３３は、処理対象のコンテンツに含まれるテキスト情報を入力として、このテキスト情報によって示されるコンテキストに応じた動画像を出力するモデルを生成することができる。また、このようなモデルを用いることで、生成装置１００は、より早く動画像を生成することができる。なお、モデルの生成（学習）は、生成部１３３以外の処理部によって行われてもよい。例えば、生成装置１００は、学習部を有してもよい。

〔７－３．動画像をパーソナライズ化（１）〕
また、生成部１３３は、提供先のユーザ（図１の例では、詳細コンテンツの配信要求を送信した要求元ユーザ）に応じた態様で動画像が表示されるよう動画像の表示態様を制御してもよい。具体的には、生成部１３３は、抽出部１３２により抽出されたコンテキストに関する情報に基づいて、コンテキストを示す動画像を生成する。そして、生成部１３３は、このように生成した動画像について、処理対象のコンテンツが提供される提供先のユーザに関する所定の情報に基づいて、当該ユーザに応じた態様で表示されるよう動画像の表示態様を制御する。

動画像の表示態様を制御する一例として、生成部１３３は、所定の情報として、提供先のユーザの属性情報または履歴情報に基づいて、当該ユーザに応じた態様で動画像が表示されるよう動画像の表示態様を制御する。例えば、生成部１３３は、図６に示したユーザ情報記憶部１２４を参照し、ユーザＵ１（提供先のユーザの一例）の属性情報や履歴情報からユーザの興味の対象あるいは嗜好性を特定する。かかる例では、生成部１３３は、ユーザＵ１が「著名人ＡＰ」のファンであることを特定したとする。このような状態において、ユーザＵ１からの配信要求に応じて生成された動画像の元となったコンテキストが「著名人ＡＰ」に関するコンテキストであったとする。かかる場合、生成部１３３は、ユーザＵ１からの配信要求に応じて生成された動画像に含まれるオブジェクト（パーツ画像）のうち、「著名人ＡＰ」に対応する人物オブジェクトの見た目を抽象的な人物画像から「著名人ＡＰ」であることがわかる見た目に制御（変更）する。

これにより、生成装置１００は、提供先のユーザに対する興味をより引き付け易いコンテンツを生成することができるため、ユーザ満足度の高いコンテンツ生成を実現することができる。

なお、図２に示すように、事故に遭遇している人物を示すパーツ画像ＰＧＦ１０－１の見た目が、提供先のユーザが好む著名人の見た目に変更された場合、ユーザは気分を害する恐れがある。したがって、生成部１３３は、例えば、コンテキストがポジティブな内容である場合に限り、上記のように見た目を変更する処理を行ってもよい。また、生成部１３３は、例えば、ユーザＵ１がカラフルな色合いを好むことを特定した場合には、動画像に含まれる各オブジェクトの色合いを単色から複数色に変更することで派手な見た目に変更することもできる。

〔７－４．動画像をパーソナライズ化（２）〕
動画像の表示態様を制御する他の一例として、生成部１３３は、所定の情報（ユーザの属性情報または履歴情報）に基づき特定されたユーザの嗜好性に応じて、動画像に含まれるオブジェクトのサイズ（縮小率、あるいは、拡大率）や配置位置を制御する。上記例と同様に、提供先のユーザをユーザＵ１とすると、ここで用いられる履歴情報は、生成装置１００によってこれまでに生成された動画像が表示される詳細コンテンツであって、ユーザＵ１がこれまでに閲覧した詳細コンテンツを示す履歴情報である。このような状態において、生成部１３３は、ユーザＵ１がどのようなサイズ（縮小率、あるいは、拡大率）、および（または）、どのような位置関係でオブジェクトが配置されている動画像を閲覧している傾向にあるかを分析する。なお、かかる分析処理は生成部１３３以外の処理部（例えば、分析部）によって行われてもよい。

単純な例として、生成部１３３は、例えば、ユーザＵ１について、「人物を示すオブジェクトを画面の中心に大きく見せ、かつ、背景となるオブジェクトを人物の両端に配置する」というサイズ感および位置関係を好む傾向にあることを特定したとする。かかる場合、生成部１３３は、今回のユーザＵ１からの配信要求に応じて提供される動画像について、かかる動画像に含まれる各オブジェクトの表示態様を、ユーザＵ１が好む傾向にあるサイズ感および位置関係に応じた表示態様に制御する。

〔８．ハードウェア構成〕
また、上記実施形態にかかる生成装置１００は、例えば図９に示すような構成のコンピュータ１０００によって実現される。図９は、生成装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、通信網５０を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網５０を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを、入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態にかかる生成装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを、記録媒体１８００から読み取って実行するが、他の例として、他の装置から、通信網５０を介してこれらのプログラムを取得してもよい。

〔９．その他〕
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１生成システム
１０端末装置
１００生成装置
１２０記憶部
１２１画像情報記憶部
１２２テンプレ情報記憶部
１２３コンテンツ情報記憶部
１２４ユーザ情報記憶部
１３０制御部
１３１取得部
１３２抽出部
１３３生成部
１３４解析部
１３５提供部

Claims

文字情報に係るコンテンツから、当該コンテンツが示すコンテキストに関する情報として、当該コンテキストの特徴を示す文字列である対象文字列を抽出し、画像情報に係るコンテンツから当該対象文字列に関連する画像情報を抽出し、任意のコンテンツに基づく定型文によって示されるコンテキストに応じた画像情報をさらに抽出する抽出部と、
前記定型文によって示されるコンテキストに応じた画像情報に含まれる各オブジェクトを示す画像であって、文字情報に係るコンテンツが示すコンテキストに従った動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像を生成し、生成した部分画像と前記定型文とを組み合わせた組合せのうち、前記対象文字列に関連する画像情報に含まれる各オブジェクトを示す画像であって、動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像を前記コンテキストに基づき組み合わせた組み合わせに基づいて、前記文字情報に係るコンテンツについて、前記コンテキストに従った動画像を生成する生成部と
を有することを特徴とする生成装置。
前記抽出部は、前記組合せのうち、前記対象文字列に対応する定型文を含む組合せに対して対応付けられている部分画像を抽出し、
前記生成部は、前記コンテキストに基づいて前記部分画像を組み合わせることで、前記コンテキストに従った動画像を生成する
ことを特徴とする請求項１に記載の生成装置。
前記生成部は、前記部分画像として、３次元情報に基づく画像情報を組み合わせることで、前記コンテキストに従った動画像を生成する
ことを特徴とする請求項１または２に記載の生成装置。
前記生成部は、任意の文字情報によって示されるコンテキストと、当該コンテキストを示す動画像との関係性を学習したモデルに基づいて、処理対象のコンテンツに対応するコンテキストに従った動画像を生成する
ことを特徴とする請求項１～３のいずれか１つに記載の生成装置。
前記生成部は、前記コンテキストを示す情報と、当該コンテキストを示す前記動画像との組合せを正例として前記関係性を学習したモデルに基づいて、処理対象のコンテンツに対応するコンテキストに従った動画像を生成する
ことを特徴とする請求項４に記載の生成装置。
前記生成部は、前記文字情報に係るコンテンツ及び前記画像情報に係るコンテンツが提供される提供先のユーザに関する所定の情報に基づいて、当該ユーザに応じた態様で前記動画像が表示されるよう前記動画像の態様を制御する
ことを特徴とする請求項１～５のいずれか１つに記載の生成装置。
前記生成部は、前記所定の情報として、前記ユーザの属性情報または履歴情報に基づいて、当該ユーザに応じた態様で前記動画像が表示されるよう前記動画像の態様を制御する
ことを特徴とする請求項６に記載の生成装置。
前記生成部は、前記所定の情報に基づき特定された前記ユーザの嗜好性に応じて、前記動画像に含まれるオブジェクトの態様、当該オブジェクトのサイズ、または、当該オブジェクトの配置位置を制御する
ことを特徴とする請求項６または７に記載の生成装置。
前記文字情報に係るコンテンツ及び前記画像情報に係るコンテンツとともに、前記生成部により生成された動画像をユーザに提供する提供部をさらに有する
ことを特徴とする請求項１～８のいずれか１つに記載の生成装置。
前記提供部は、前記文字情報に係るコンテンツ及び前記画像情報に係るコンテンツに関する見出しが選択された場合に、前記文字情報に係るコンテンツ及び前記画像情報に係るコンテンツとともに、前記動画像を提供する
ことを特徴とする請求項９に記載の生成装置。
生成装置が実行する生成方法であって、
文字情報に係るコンテンツから、当該コンテンツが示すコンテキストに関する情報として、当該コンテキストの特徴を示す文字列である対象文字列を抽出し、画像情報に係るコンテンツから当該対象文字列に関連する画像情報を抽出し、任意のコンテンツに基づく定型文によって示されるコンテキストに応じた画像情報をさらに抽出する抽出工程と、
前記定型文によって示されるコンテキストに応じた画像情報に含まれる各オブジェクトを示す画像であって、文字情報に係るコンテンツが示すコンテキストに従った動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像を生成し、生成した部分画像と前記定型文とを組み合わせた組合せのうち、前記対象文字列に関連する画像情報に含まれる各オブジェクトを示す画像であって、動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像を前記コンテキストに基づき組み合わせた組み合わせに基づいて、前記文字情報に係るコンテンツについて、前記コンテキストに従った動画像を生成する生成工程と
を含むことを特徴とする生成方法。
文字情報に係るコンテンツから、当該コンテンツが示すコンテキストに関する情報として、当該コンテキストの特徴を示す文字列である対象文字列を抽出し、画像情報に係るコンテンツから当該対象文字列に関連する画像情報を抽出し、任意のコンテンツに基づく定型文によって示されるコンテキストに応じた画像情報をさらに抽出する抽出手順と、
前記定型文によって示されるコンテキストに応じた画像情報に含まれる各オブジェクトを示す画像であって、文字情報に係るコンテンツが示すコンテキストに従った動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像を生成し、生成した部分画像と前記定型文とを組み合わせた組合せのうち、前記対象文字列に関連する画像情報に含まれる各オブジェクトを示す画像であって、動画像を生成する際に組み合わせて用いられる部分的な画像である部分画像を前記コンテキストに基づき組み合わせた組み合わせに基づいて、前記文字情報に係るコンテンツについて、前記コンテキストに従った動画像を生成する生成手順と
をコンピュータに実行させることを特徴とする生成プログラム。