JP5353835B2

JP5353835B2 - 情報処理プログラムおよび情報処理装置

Info

Publication number: JP5353835B2
Application number: JP2010146870A
Authority: JP
Inventors: 恵理子増谷
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2010-06-28
Filing date: 2010-06-28
Publication date: 2013-11-27
Anticipated expiration: 2030-06-28
Also published as: US8611724B2; US20110317984A1; JP2012008973A

Description

本発明は、情報処理プログラムおよび情報処理装置に関するものである。

従来から、動画の一場面を静止画として印刷する技術が知られている。例えば、特許文献１には、動画データを所定数の区間に分け、区間に属する所定のフレーム画像に基づいて取得された複数の静止画像データを表示し、表示された静止画像データからユーザにより選択された静止画像データの印刷を実行する印刷装置が記載されている。

特開２００６−６０６４８号公報

しかしながら、上記従来の技術では、例えば、ビデオカメラにより撮影された動画など、音声が付帯した動画の場合であっても、動画に含まれる音声が静止画に加味されず、動画の所定のタイミングにおける状況を、動画から取得された静止画で明確に表現することは難しかった。

本発明は、上述した問題点を解決するためになされたものであり、動画の所定のタイミングにおける状況をより明確に表現する画像を生成可能な情報処理プログラムおよび情報処理装置を提供することを目的とする。

この目的を達成するために、本発明の情報処理プログラムは、順次出力される複数の静止画を含む動画と、前記動画と同期して再生される音声とを処理するコンピュータにおいて実行される情報処理プログラムであって、前記動画の再生区間のうち、同期して再生される前記音声に声音が含まれる有声音区間を検出する音声検出手段と、前記動画の再生区間に含まれるいずれかの時点を、動画編集点として設定する動画編集点設定手段と、前記動画編集点設定手段により設定される前記動画編集点が、前記音声検出手段により検出される前記有声音区間に含まれるかを判断する動画編集点判断手段と、前記動画編集点判断手段により、前記動画編集点が前記有声音区間に含まれると判断される場合、前記音声検出手段により検出される前記有声音区間のうち、前記動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点を設定する音声編集点設定手段と、前記音声編集点設定手段により設定された前記音声編集点以降に再生される声音を、テキストに変換して抽出するテキスト抽出手段と、前記動画を構成する複数の静止画のうち、前記動画編集点設定手段により設定された前記動画編集点に出力される静止画を選択する静止画選択手段と、前記静止画選択手段により選択された前記静止画に、前記テキスト抽出手段により抽出されたテキストを合成する合成手段とを前記コンピュータに実行させ、前記音声編集点設定手段は、前記動画編集点が前記有声音区間内且つ該区間の開始時点よりも後にある場合、前記音声編集点を前記有声音区間の開始時点とするものである情報処理プログラム。

また、上記情報処理プログラムは、前記音声検出手段により検出される前記有声音区間に再生される前記声音の発話者を特定する発話者特定手段を前記コンピュータに実行させるものであり、前記合成手段は、前記発話者特定手段により特定される前記発話者に関連づけて、前記テキストを前記静止画に合成するものであっても良い。

なお、本発明は、情報処理装置、情報処理方法、情報処理プログラムを記録する記録媒体、情報処理装置と出力装置とを含む情報処理システム等の種々の態様で構成することができる。

請求項１記載の情報処理プログラムによれば、動画編集点が有声音区間に含まれると判断される場合には、該動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点が設定される。そして、テキスト抽出手段により、音声編集点以降に再生される声音がテキストに変換して抽出される。また、動画を構成する複数の静止画のうち、前記動画編集点に出力される静止画が、静止画選択手段により選択される。そして、合成手段により、前記テキスト抽出手段により抽出されたテキストが前記静止画選択手段により選択された静止画に合成される。よって、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。

請求項２記載の情報処理プログラムによれば、請求項１記載の情報処理プログラムの奏する効果に加え、発話者に関連づけて、前記テキストが前記静止画に合成されるので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。

請求項３記載の情報処理プログラムによれば、請求項２記載の情報処理プログラムの奏する効果に加え、発話者と同一人物であると判断される静止画内人物に、該静止画内人物に基づくテキストが関連づけて合成されるので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。

ここで、「静止画内人物に基づくテキスト」とは、「静止画内人物が発話した声音を変換することにより得られるテキスト」を意味している。

請求項４記載の情報処理プログラムによれば、請求項３記載の情報処理プログラムの奏する効果に加え、静止画内人物に関連づけたテキスト領域に、該テキスト領域に関連づけられた前記静止画内人物に基づくテキストが合成されるので、静止画内人物とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。

請求項５記載の情報処理プログラムによれば、請求項４記載の情報処理プログラムの奏する効果に加え、静止画内人物から吹き出す形状の吹き出しが、前記静止画内人物に関連づけたテキスト領域として設定されるので、静止画内人物とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。

請求項６記載の情報処理プログラムによれば、請求項５記載の情報処理プログラムの奏する効果に加え、静止画の縁から内側へ向けて吹き出す形状の吹き出しに、静止画内人物には含まれない発話者に基づくテキストが合成されるので、静止画内人物には含まれない発話者に基づくテキストであっても、発話者との関連が視覚的に分かりやすいように合成できるという効果がある。

請求項７記載の情報処理プログラムによれば、請求項４から６のいずれかに記載の情報処理プログラムの奏する効果に加え、発話者毎に分割された声音毎にテキスト領域が設定されるので、発話者とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。

請求項８記載の情報処理プログラムによれば、請求項４から７のいずれかに記載の情報処理プログラムの奏する効果に加え、前記音声検出手段により検出されない区間を境界として分割された声音毎にテキスト領域が設定されるので、テキストを発言毎に区切った態様で、静止画に合成できるという効果がある。

請求項９記載の情報処理プログラムによれば、請求項７または８に記載の情報処理プログラムの奏する効果に加え、発話者毎に前記テキスト領域の態様を異ならせるので、発話者とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。

請求項１０記載の情報処理プログラムによれば、請求項７から９のいずれかに記載の情報処理プログラムの奏する効果に加え、各声音を分析し、分析の結果に基づいて、分割した各声音を分類し、その分類毎に前記テキスト領域の態様を異ならせるので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。

請求項１１記載の情報処理プログラムによれば、請求項７から１０のいずれかに記載の情報処理プログラムの奏する効果に加え、テキストがそれぞれ所定の文字数以下となるように、各テキストの文字数が制限されるので、合成されるテキストによって静止画が見難くなることを抑制できるという効果がある。

請求項１２記載の情報処理プログラムによれば、請求項１から１１のいずれかに記載の情報処理プログラムの奏する効果に加え、前記音声編集点から所定時間を経過した所定時間経過時点が有声音区間に含まれる場合、前記所定時間経過時点を含む前記有声音区間の終了時点までの声音を、テキストに変換して抽出するので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。

請求項１３記載の情報処理装置によれば、請求項１記載の情報処理プログラムを実行するコンピュータと同様の作用効果を奏する。

本発明の実施形態であるプリンタドライバを搭載したＰＣと、当該ＰＣに接続されたプリンタとの電気的構成を示すブロック図である。（ａ）は、動画の再生区間を模式的に示す図であり、（ｂ）は、発言リストメモリに作成される発言リストのデータの構成を模式的に示す図である。ＰＣが作成する合成画像の一例を示す図である。ＰＣのＣＰＵによって実行される吹き出し合成画像作成処理を示すフローチャートである。（ａ）はＰＣのＣＰＵによって実行される音声取得処理を示すフローチャートであり、（ｂ）はＰＣのＣＰＵによって実行される静止画認識処理を示すフローチャートである。（ａ）はＰＣのＣＰＵによって実行される発言リスト作成処理を示すフローチャートであり、（ｂ）は、ＰＣのＣＰＵによって実行される文字数整形処理を示すフローチャートである。はＰＣのＣＰＵによって実行される吹き出しレイアウト処理を示すフローチャートである。

以下、本発明の好ましい実施形態について、添付図面を参照して説明する。図１は、本発明の情報処理プログラムの一実施形態であるプリンタドライバ１４ａを搭載したパーソナルコンピュータ１０（以下、ＰＣ１０と称する）と、ＰＣ１０に接続されたプリンタ２０の電気的な概略構成を示すブロック図である。

ＰＣ１０は、動画と、該動画と同期して再生される音声とを処理可能な装置である。本実施形態のプリンタドライバ１４ａは、動画の再生区間のうち、ユーザによって設定される動画編集点における状況をより明確に表現する画像を生成し、プリンタ２０に印刷させることができるように構成されている。

ＰＣ１０とプリンタ２０とは、ＬＡＮ回線４を介して接続されている。また、ＬＡＮ回線４は、ルータ（図示せず）を介してインターネット８に接続されている。

ＰＣ１０は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、ハードディスクドライブ１４（以下、ＨＤＤ１４と称す）、ＬＡＮインターフェイス１６（以下、ＬＡＮＩ／Ｆ１６）、入力装置１７、表示装置１８とを主に有し、これらはバスライン１９を介して互いに接続されている。

ＣＰＵ１１は、ＲＯＭ１２やＨＤＤ１４に記憶される固定値やプログラムに従って、バスライン１９により接続された各部を制御する。ＲＯＭ１２は、ＰＣ１０の動作を制御するためのプログラムなどが格納されたメモリであり、ＲＡＭ１３は、ＣＰＵ１１の処理に必要なデータなどを一時的に記憶するための読み書き可能なメモリである。

ＲＡＭ１３には、動画編集メモリ１３ａと、静止画保存メモリ１３ｂと、人物領域メモリ１３ｃと、顔領域メモリ１３ｄと、口部分メモリ１３ｅと、人物外領域メモリ１３ｆと、顔外領域メモリ１３ｇと、音声保存メモリ１３ｈと、発言リストメモリ１３ｉとが設けられる。

動画編集メモリ１３ａは、処理対象の動画ファイルを記憶するメモリである。ここで、動画ファイルとは、複数の静止画（フレーム画像）を順次出力することにより動画を再生するためのデータであり、例えばＭＰＦＧフォーマットなど所定の方式で符号化されている。また、動画ファイルには、動画出力用の映像データと、音声出力用の音声データと、動画と音声とを同期再生させるためのデータとが含まれている。なお、動画編集メモリ１３ａに記憶される動画ファイルは、ＨＤＤ１４から読み込むものであっても良いし、インターネット８から取得されるものであっても良い。

静止画保存メモリ１３ｂは、静止画データを保存するメモリである。静止画データは、動画の一場面を構成する静止画に対応したデータであり、動画編集メモリ１３ａに格納された動画ファイルから生成される。

人物領域メモリ１３ｃは、静止画に登場する人物（以下、静止画内人物と称する）が、静止画内で占める領域（人物領域）を記憶するメモリである。この人物領域メモリ１３ｃは、静止画保存メモリ１３ｂに記憶される静止画データに対応した静止画を構成する各画素について、人物領域を構成する画素であるか否かを示す値と、いずれの人物の人物領域であるかを示す値とを保持する。

顔領域メモリ１３ｄは、静止画内人物の顔が静止画内で占める領域（顔領域）を記憶するメモリである。この顔領域メモリ１３ｄは、静止画保存メモリ１３ｂに記憶される静止画データに対応した静止画を構成する各画素について、顔領域を構成する画素であるか否かを示す値と、いずれの人物の顔領域であるかを示す値とを保持する。

口部分メモリ１３ｅは、静止画内人物の口が静止画内で占める領域（口部分）を記憶するメモリである。口部分メモリ１３ｅは、静止画保存メモリ１３ｂに記憶される静止画データに対応した静止画を構成する各画素について、口部分を構成する画素であるか否かを示す値と、いずれの人物の口部分であるかを示す値とを保持する。

人物領域外メモリ１３ｆは、人物領域に含まれない静止画内の領域を記憶する。顔外領域メモリ１３ｇは、顔領域に含まれない静止画内の領域を記憶する。

音声保存メモリ１３ｈは、動画編集メモリ１３ａに記憶される動画ファイルから抽出される音声データを記憶するメモリである。発言リストメモリ１３ｉは、動画ファイルから抽出した音声データに基づいて作成される、発言リストを格納するメモリである。なお、発言リストについては、図２（ｂ）を参照して後述する。

ＨＤＤ１４は、ハードディスクドライブであり、プリンタドライバ１４ａが格納される。プリンタドライバ１４ａは、プリンタ２０を制御するためのプログラムである。ＣＰＵ１１は、プリンタドライバ１４ａを実行することにより、後述する吹き出し合成画像作成処理（図４）を実行する。

ＬＡＮＩ／Ｆ１６は、ＰＣ１０をＬＡＮ回線４に接続するものである。入力装置１７は、ＰＣ１０に指示や情報を入力するためのものである。表示装置１８は、動画編集メモリ１３ａに格納された動画ファイルによって再生される動画など各種の情報を表示する。

プリンタ２０は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、ＬＡＮインターフェイス２４（以下、ＬＡＮＩ／Ｆ２４）、操作キー２５、表示パネル２６、印刷部２７とを主に有し、これらはバスライン２８を介してお互いに接続されている。

ＣＰＵ２１は、ＲＯＭ２２に記憶されているプログラムに従って様々な処理を実行する。ＲＯＭ２２は、プリンタ２０の動作を制御するプログラムなどを格納するメモリである。ＲＡＭ２３は、ＣＰＵ２１の処理に必要なデータなどを一時的に記憶するための読み書き可能なメモリである。

操作キー２５は、プリンタ２０に指示や情報を入力するためのものである。表示パネル２６は、様々な情報を表示することができる表示装置である。プリンタ２０は、ＬＡＮＩ／Ｆ２４を介して入力される印刷データに基づいて印刷部２７を駆動し、印刷データに基づく画像を被記録媒体上に形成する。

なお、プリンタ２０としては、インクジェット方式、電子写真方式、熱転写方式など各種方式のプリンタを採用できる。

次に、ＰＣ１０が実行する吹き出し合成画像作成処理について説明する。吹き出し合成画像作成処理は、動画と同期して再生される音声に、人物が発した声音が含まれる場合、該声音をテキストに変換し、該テキストを、動画から選択される静止画（フレーム画像）に合成した合成画像を作成する処理である。

図２（ａ）を参照して、動画から選択される静止画と、該静止画に合成される声音の選択範囲との関係について説明する。図２（ａ）は、動画の再生区間３０を模式的に示す図である。ユーザは、動画の再生区間３０における任意の時点を、動画編集点３２として設定する。ＰＣ１０は、動画を構成する複数の静止画のうち、動画編集点３２において出力される静止画を、ユーザによって選択された静止画として動画から抽出する。

また、ＰＣ１０は、動画の再生区間３０に有声音区間３４を検出する。ここで、有声音区間３４とは、動画の再生区間３０のうち、同期して再生される音声に声音が含まれる区間である。なお、本明細書において、「音声」とは人間が発したものであるか否かに関わらず、動画と共に再生される音全てを含む用語として用いている。一方、「声音」とは「音声」のうち、特に人間が発声器官を通じて発したもの指す用語として用いている。また、本実施形態において、有声音区間３４とは、音声に含まれる声音を、声音が検出されない区間を境界として分割し、且つ、音声に含まれる声音を発話者毎に分割することにより得られる、発話者毎および発言毎に分割された区間を意味している。したがって、図２（ａ）に示すように、１の発話者による有声音区間３４と、他の発話者による有声音区間とが重なり合う場合もあり得る。

ユーザによって設定される動画編集点３２が有声音区間３４に含まれる場合、ＰＣ１０は、動画編集点３２を含む有声音区間３４の開始時点を、音声編集点３６として設定する。そして、音声編集点３６から所定時間（例えば１０秒）に含まれる範囲を、音声選択範囲３７として選択する。ただし、音声編集点３６から所定時間経過した時点（所定時間経過時点３８）が、有声音区間３４に含まれる場合には、図２（ａ）に示すように、所定時間経過時点３８を含む有声音区間３４の終了時点までを、音声選択範囲３７とする。

図２（ｂ）は、発言リストメモリ１３ｉに作成される発言リストのデータの構成を模式的に示す図である。発言リストは、図２（ａ）で説明した音声選択範囲３７に含まれる各有声音区間３４から抽出される声音を、テキスト化して管理するためのリストである。発言リストには、データ項目として、管理項目４０、開始時点項目４２、テキスト項目４４、発話者項目４６、面積項目４８が設けられる。

管理項目４０は、動画の再生区間３０（図２（ａ））に検出された各有声音区間３４に対応付けた管理番号を格納する。音声編集点３６に近い有声音区間３４ほど、小さい管理番号が付与される。開始時点項目４２は、管理番号に対応する有声音区間３４の開始時点を格納する。なお、この開始時点は、動画編集点３２の再生時間を基準の０秒にした場合に、各有声音区間３２の開始時点に当たる動画の再生時間を表している。テキスト項目４４は、管理番号に対応する有声音区間３４における声音を、公知の音声認識ルールを用いて変換することにより得られるテキストを格納する。発話者項目４６は、管理番号に対応する有声音区間３４に検出される声音の発話者を格納する。なお、各声音の発話者の特定方法については図６を参照して後述する。面積項目４８は、テキスト項目４４に格納されたテキストを静止画に合成する際に、静止画において各テキストが占める面積を示した値を格納する。具体的には、以下の計算式により面積を算出する。なお、以下の（１）式において、指定フォントとは、ユーザによって予め指定されたフォントのサイズを意味しており、各変数は画素数を単位としている。
面積＝指定フォントの文字の高さ＊（指定フォントの文字の幅＋文字間空白）＊テキスト項目４４に格納されたテキストの文字数・・・（１）

図３は、ＰＣ１０が作成する合成画像５０の一例を示す図である。合成画像５０は、動画編集点３２（図２（ａ））において出力される静止画５１と、発言リスト（図２（ｂ））に格納されたテキストとを合成して生成される画像である。なお、図３においては、図面を見やすくするために、一部の構成要素にのみ符号を付し、構成要素に付すべき符号が重複する場合には、その記載を省略する。また、図３においては、静止画内人物５２を模式的に図示している。

図３に示すように、合成画像５０には、静止画内人物５２の口部分５３から吹き出す形状の吹き出し５４が合成される。吹き出し５４は、テキストが配置される閉領域であって、発話者を指し示す吹き出し先端５４ａが設けられる。各吹き出し５４は、吹き出し先端５４ａによって、発話者に関連づけられる。

合成画像５０において、各テキストは、各テキストの元となった声音を発話した発話者に関連づけて合成される。具体的には、静止画内人物５２から吹き出す吹き出し５４に、該静止画内人物５２に基づくテキストを合成する。よって、静止画内人物５２とテキストとの関連が視覚的に分かりやすい画像を生成できる。

一方、静止画内人物５２には含まれない発話者に基づくテキストは、静止画の縁から内側へ向けて吹き出す形状の吹き出し５４（図３においては向かって右上に図示される吹き出し）に合成する。よって、静止画内人物５２には含まれない発話者に基づくテキストであっても、発話者との関連が視覚的に分かりやすいように合成できる。

このように、ＰＣ１０によれば、動画編集点３２を含む音声選択範囲３７の声音を変換して得られるテキストが、動画編集点３２において出力される静止画５１に合成されるので、動画編集点３２における状況を明確に表現する合成画像５０を生成することができる。

また、各テキストが吹き出し５４内に配置されるので、あたかも漫画のコマのようなエンターテイメント性の高い合成画像５０を生成することができる。また、合成画像５０によれば、動画に記録された会話を確認できるので、静止画のみの場合に比較して、ユーザの記憶を引き出すことができる。

さらに、図２（ａ）を参照して説明したように、ＰＣ１０によれば、動画編集点３２が有声音区間３４に含まれる場合には、その有声音区間３４の開始時点を音声編集点３６とするので、ユーザは、動画の再生区間３０中、有声音区間３４に含まれる時点であるか否か、または、有声音区間３４の開始時点であるか否かを気にせず自由に動画編集点３２を設定することができる。すなわち、ユーザがどの時点に動画編集点３２を設定しても、発言の先頭からテキストに変換して合成することができる。

なお、説明の都合上、図３には、合成画像５０には実際には描かれない要素である、人物領域５８、顔領域６０、吹き出し基準点６２、吹き出し中央点６４、補助線６６も図示している。人物領域５８は、静止画内人物５２を全て含む最小の矩形領域である。顔領域６０は、静止画内人物５２の顔を含む矩形領域である。吹き出し基準点６２は、静止画内人物５２の口部分５３に設定される点である。吹き出し中央点６４は、吹き出し５４の中央に位置する点である。

ＰＣ１０は、静止画保存メモリ１３ｂに保存される静止画データを公知の人物認識ツールを用いて解析することにより、静止画３２内の人物領域５８、顔領域６０、口部分５３を認識し、その領域または位置を、人物領域メモリ１３ｃ、顔領域メモリ１３ｄ、口部分メモリ１３ｅに記憶する。また、吹き出し基準点６２と吹き出し中央点６４とを結ぶ補助線６６に近づくように、吹き出し５４の吹き出し先端５４ａを設ける。これら各要素については、図７を参照して後述する。

図４は、ＰＣ１０のＣＰＵ１１によって実行される吹き出し合成画像作成処理を示すフローチャートである。この処理は、ユーザにより設定された動画編集点３２に基づいて合成画像５０（図３）を生成する処理である。なお、この処理の開始前には、処理対象の動画ファイルが動画編集メモリ１３ａに格納されているものとする。

まず、ＣＰＵ１１は、動画の再生区間３０のうち、ユーザによって指定された時点を、動画編集点３２（図２（ａ））として設定する（Ｓ４０１）。次に、ＣＰＵ１１は、動画を構成する複数の静止画のうち、動画編集点３２に出力される静止画を選択する。具体的には、動画ファイルから、動画編集点３２に出力される静止画に対応した静止画データを抽出し、静止画保存メモリ１３ｂ（図１）に保存する（Ｓ４０２）。

次に、ＣＰＵ１１は、音声取得処理を実行することにより（Ｓ４０４）、有声音区間３４を検出し、音声編集点３６（図２（ａ））を設定する。音声取得処理の詳細は、図５（ａ）を参照して後述する。

次に、ＣＰＵ１１は、静止画認識処理を実行することにより（Ｓ４０６）、静止画５１内における人物領域５８等を認識する。静止画認識処理の詳細は、図５（ｂ）を参照して後述する。

次に、ＣＰＵ１１は、発言リスト作成処理を実行することにより（Ｓ４０８）、発言リスト（図２（ｂ））を作成する。発言リスト作成処理の詳細は、図６（ａ）を参照して後述する。

次に、ＣＰＵ１１は、発言リストに格納されたテキストの総文字数に基づいて、吹き出し５４の使用面積を制限する基準値を決定する（Ｓ４１０）。具体的には、静止画５１の解像度と発言リストに格納されたテキストの総文字数とに基づいて、吹き出し５４の使用面積を制限する基準値Ｙpixelを決定する。ここで、テキストの総文字数とは、発言リストのテキスト項目４４に格納された各テキストの文字数を合計した値を意味している。

次に、ＣＰＵ１１は、文字数整形処理を実行することにより（Ｓ４１２）、決定した基準値Ｙpixelに基づいて、各テキストの文字数を制限する。文字数整形処理の詳細は、図６（ｂ）を参照して後述する。

次に、ＣＰＵ１１は、吹き出しレイアウト処理を実行することにより（Ｓ４１４）、吹き出し５４を設定する。吹き出しレイアウト処理の詳細は、図７を参照して後述する。

次に、ＣＰＵ１１は、静止画保存メモリ１３ｂに保存される静止画データと、文字数整形処理（Ｓ４１２）による文字数制限後のテキストと、吹き出しレイアウト処理（Ｓ４１４）により決定された各吹き出し５４の配置とに基づいて、合成画像５０の印刷データを作成する。そして、作成した印刷データをプリンタ２０へ出力し（Ｓ４１６）、処理を終了する。

一方、プリンタ２０は、ＰＣ１０から受信した印刷データに基づく印刷を実行することにより、合成画像５０を被記録媒体上に形成し、可視化する。

図５（ａ）は、ＰＣ１０のＣＰＵ１１によって実行される音声取得処理（Ｓ４０４）を示すフローチャートである。この処理は、動画編集点３２に基づいて音声編集点３６を設定する処理である。

まず、ＣＰＵ１１は、動画ファイルから音声データを抽出し、音声保存メモリ１３ｈに保存する（Ｓ５０１）。そして、ＣＰＵ１１は、音声データから雑音を除去し（Ｓ５０２）、次に、公知の音声解析ツールで音声データを解析することにより、動画の再生区間３０における有声音区間３４（図２（ａ））を検出する（Ｓ５０４）。具体的には、音声に含まれる声音を、声音が検出されない区間を境界として分割し、且つ、音声に含まれる声音を発話者毎に分割することにより、発話者毎および発言毎に分割された有声音区間３４を、動画の再生区間３０において検出する。なお、ＣＰＵ１１は、後の処理において利用するために、有声音区間３４毎に、対応する音声データを抽出し、例えば、ＲＡＭ１３に保存する。

次に、ＣＰＵ１１は、動画編集点３２が有声音区間３４に含まれるかを判断する（Ｓ５０６）。そして、動画編集点３２が有声音区間３４に含まれると判断される場合（Ｓ５０６：Ｙｅｓ）、ＣＰＵ１１は、有声音区間３４のうち、動画編集点３２を含む有声音区間３４の開始時点を音声編集点３６として設定する（Ｓ５０８）。

一方、動画編集点３２が有声音区間３４に含まれないと判断される場合（Ｓ５０６：Ｎｏ）、ＣＰＵ１１は、動画編集点３２以降で最初の有声音区間３４の開始時点を、音声編集点３６として設定する（Ｓ５１０）。

音声取得処理（Ｓ４０４）によれば、ユーザが自由に動画編集点３２を設定しても、有声音区間３４の開始時点に音声編集点３６を設定することができる。

図５（ｂ）は、ＰＣ１０のＣＰＵ１１によって実行される静止画認識処理（Ｓ４０６）を示すフローチャートである。この静止画認識処理は、静止画５１内における人物領域５８等を認識する処理である。

まず、ＣＰＵ１１は、静止画保存メモリ１３ｂに保存された静止画データを、公知の人物認識ツールを用いて解析することにより、静止画５１に登場する静止画内人物５２を認識する（Ｓ５２２）。次に、ＣＰＵ１１は、静止画内人物５２の各々について、人物領域５８、顔領域６０、口部分５３を特定し、人物領域メモリ１３ｃ、顔領域メモリ１３ｄ、口部分メモリ１３ｅに、それぞれ記憶する（Ｓ５２４）。

次に、ＣＰＵ１１は、人物領域５８を含まない静止画５１内の領域を、人物外領域として特定し、人物外領域メモリ１３ｆに記憶する（Ｓ５２６）。また、ＣＰＵ１１は、顔領域６０を含まない領域を顔外領域として特定し、顔外領域メモリ１３ｇに記憶する（Ｓ５２７）。次に、ＣＰＵ１１は、人物外領域および顔外領域のうち、所定面積以上の領域を、吹き出し配置可能領域として決定する（Ｓ５２８）。次に、ＣＰＵ１１は、吹き出し配置可能領域毎に、その面積を算出し（Ｓ５３０）、処理を終了する。

静止画認識処理によれば、静止画５１内における人物領域５８または顔領域６０を避けた領域に、吹き出し配置可能領域を決定することができる。

図６（ａ）は、ＰＣ１０のＣＰＵ１１によって実行される発言リスト作成処理（Ｓ４０８）を示すフローチャートである。この処理は、発言リスト（図２（ｂ））を作成する処理である。

まず、ＣＰＵ１１は、公知の人物認識ツールを用いて動画ファイルを解析することにより、動画に登場する人物（動画登場人物）を認識する（Ｓ６０２）。

次に、ＣＰＵ１１は、動画登場人物の各々について、静止画内人物５２の口部分５３を特定する（Ｓ６０４）。例えば、動画登場人物として、Ａ，Ｂ，Ｃ，Ｄの４名が認識されており、静止画５１には、静止画内人物として３名が含まれている場合、まず、各動画登場人物を静止画内人物５２と照合する。そして、例えば、動画登場人物であるＡに対応する静止画内人物５２を認識した場合、その静止画内人物５２の口部分５３を人物Ａの口部分５３として特定する。また、例えば、動画登場人物であるＤに対応する静止画内人物５２が特定されない場合、人物Ｄは、動画には登場するものの選択された静止画５１には登場しない人物であると判断される。よって、この場合、人物Ｄについては口部分５３を特定しない。

次に、ＣＰＵ１１は、ＲＡＭ１３から、一の有声音区間３４に対応する音声データを取得し、これを公知の音声認識ツールで変換することにより、有声音区間３４の声音をテキスト化し、有声音区間３４の管理番号に対応付けて発言リストのテキスト項目４４に格納する（Ｓ６０６）。

次に、ＣＰＵ１１は、処理対象の有声音区間３４の声音の発話者を特定し、有声音区間３４の管理番号に対応付けて発言リストの発話者項目４６に格納する（Ｓ６０８）。発話者の特定は、例えば、以下のようにして行われる。ＰＣ１０は、音声データを解析することにより、動画登場人物の各々の声紋を表す声紋データを予め取得することができる。よって、動画登場人物の各々について予め声紋データを取得している場合、ＣＰＵ１１は、処理対象の有声音区間３４の声音の声紋データと予め記憶している声紋データとを照合し、発話者を特定することができる。また、ＣＰＵ１１は、有声音区間３４の動画において口部分が動いている動画登場人物を、発話者として特定しても良い。

次に、ＣＰＵ１１は、特定された発話者と静止画内人物５２とを照合し（Ｓ６１０）、発話者が静止画内人物５２に含まれるか否か、すなわち、静止画内人物５２の声音であるか否かを判断する（Ｓ６１２）。Ｓ６１２の判断が肯定される場合（Ｓ６１２：Ｙｅｓ）、すなわち、発話者と同一人物であると判断される静止画内人物５２が存在する場合、ＣＰＵ１１は、該静止画内人物５２の口部分５３に、吹き出し基準点６２を設定する（Ｓ６１４）。なお、ＣＰＵ１１は、設定した吹き出し基準点６２をテキストと対応付けて、例えば、ＲＡＭ１３に保存する。

一方、Ｓ６１２の判断が否定される場合（Ｓ６１２：Ｎｏ）、すなわち発話者が静止画内人物５２には含まれないと判断される場合、ＣＰＵ１１は、テキストに対応付けてＲＡＭ１３等に保存する吹き出し基準点６２を、Ｎ／Ａに設定する（Ｓ６１６）。

次に、ＣＰＵ１１は、処理対象の有声音区間３４の終了時点が、音声編集点３６から所定時間以上経過しているか否かを判断する（Ｓ６１８）。Ｓ６１８の判断が否定される場合（Ｓ６１８：Ｎｏ）、ＣＰＵ１１は、次の有声音区間３４を処理対象として選択し、Ｓ６０６から処理を繰り返す。そして、処理を繰り返すうちに、Ｓ６１８の判断が肯定されると（Ｓ６１８：Ｙｅｓ）、ＣＰＵ１１は発言リスト作成処理を終了する。

発言リスト作成処理によれば、音声編集点３６以降に再生される声音を、テキストに変換して抽出することができる。また、音声編集点３６から所定時間を経過した所定時間経過時点３８（図２（ａ））が有声音区間３４に含まれる場合には、所定時間経過時点３８を含む有声音区間３４の終了時点までの声音を、テキストに変換して抽出できる。

図６（ｂ）は、ＰＣ１０のＣＰＵ１１によって実行される文字数整形処理（Ｓ４１２）を示すフローチャートである。この処理は、声音毎に抽出されたテキストが、それぞれ所定の文字数以下となるように、各テキストの文字数を制限する処理である。

まず、ＣＰＵ１１は、発言リストのテキスト項目４４に記憶された各テキストを文節毎に区切り、Ｓ４１０（図４）の処理で決定された基準値Ｙpixelを超える文節以降を切り捨てる（Ｓ６３２）。なお、テキストの文字数を制限したことを示す記号、例えば「・・・」を、文節切り捨て後のテキスト文末に付加しても良い。

次に、ＣＰＵ１１は、上記（１）式に基づいて、各テキストが静止画５１内において占める面積を画素数で表した値を算出し、管理番号毎に発言リストの面積項目４８に格納する（Ｓ６３４）。このとき発言リストの面積項目４８に格納される値は、各テキストについて吹き出し５４に必要な面積に相当する。

次に、ＣＰＵ１１は、吹き出し５４の総面積と人物外領域の面積とを比較する（Ｓ６３６）。ここで、吹き出し５４の総面積とは、面積項目４８に格納された値の合計値として算出される。そして、ＣＰＵ１１は、吹き出し５４の面積占有率が人物外領域における第１の所定割合を超えるか否かを判断する（Ｓ６３８）。例えば、吹き出し５４の面積占有率が人物外領域の７０％を超えるか否かを判断する。Ｓ６３８の判断が否定される場合（Ｓ６３８：Ｎｏ）、ＣＰＵ１１は、文字数整形処理を終了する。

一方、Ｓ６３８の判断が肯定される場合（Ｓ６３８：Ｙｅｓ）、ＣＰＵ１１は、吹き出し５４の総面積と顔外領域の面積を比較する（Ｓ６４０）。そして、ＣＰＵ１１は、吹き出し５４の面積占有率が顔外領域における第２の所定割合を超えるかを判断する（Ｓ６４２）。例えば、吹き出し５４の面積占有率が顔外領域の５０％を超えるかを判断する。Ｓ６４２の判断が否定される場合（Ｓ６４２：Ｎｏ）、ＣＰＵ１１は、文字数整形処理を終了する。

一方、Ｓ６４２の判断が肯定される場合（Ｓ６４２：Ｙｅｓ）、次に、ＣＰＵ１１は、吹き出し５４の占有率が顔外領域における第２の所定割合以下となるまで、吹き出し５４の数を後ろから削除する（Ｓ６４４）。例えば、吹き出し５４の占有率が顔外領域の５０％以下となるまで、吹き出し５４の数を後ろから削除する。具体的には、発言リストに格納された有声音区間３４毎の情報のうち、管理番号の大きい順から情報を削除する。すなわち、再生時間が遅い順から、発言リストに格納された情報を削除する。このようにすれば、動画編集点３２により近い声音に対応するテキストは優先的に残すことができる。

そして、ＣＰＵ１１は、文字数整形処理を終了する。この文字数整形処理によれば、各テキストの文字数を制限されるので、静止画５１には文字数が制限されたテキストが合成されることとなる。よって、冗長なテキストによって静止画が見難くなることを抑制できる。また、吹き出し５４の占有率が所定値以下になるまで、吹き出しの数を制限することができるので、吹き出しによって、静止画内人物５２が隠れてしまうことを抑制できる。

図７は、ＰＣ１０のＣＰＵ１１によって実行される吹き出しレイアウト処理（Ｓ４１４）を示すフローチャートである。この吹き出しレイアウト処理は、吹き出し５４を設定する処理である。

まず、ＣＰＵ１１は、発言リストに格納された各テキストの中から、処理対象のテキストを選択する（Ｓ７０２）。次に、処理対象のテキストについて、吹き出し基準点６２が設定されているか否かを判断する（Ｓ７０４）。上述したように、処理対象のテキストの発話者が静止画内人物５２と同一人物である場合、該静止画内人物５２の口部分５３に、処理対象テキストの吹き出し基準点６２が設定されている。なお、処理対象のテキストについて設定された吹き出し基準点６２は、上述した発言リスト作成処理（図６（ａ））によって、ＲＡＭ１３などに予め保存されている。

よって、処理対象のテキストについて、吹き出し基準点６２が設定されている場合（Ｓ７０４：Ｙｅｓ）、まず、ＣＰＵ１１は、吹き出し基準点６２に出来るだけ近い人物外領域に、吹き出し５４の配置を仮決定する（Ｓ７０６）。具体的には、Ｓ５２８（図５（ｂ））の処理で決定された吹き出し配置可能領域であって、その吹き出し配置可能領域の面積が処理対象のテキストが占める面積（すなわち面積項目４８に記憶された面積）以上であって、且つ、吹き出し基準点６２に出来るだけ近い吹き出し配置可能領域に、吹き出し５４の配置を仮決定する。

次に、ＣＰＵ１１は、その仮決定した吹き出し５４が、他の吹き出し５４内のテキストに重なる場合は、その仮決定した位置を調整する（Ｓ７０８）。次に、ＣＰＵ１１は、吹出しの縦横比を調整する（Ｓ７１０）。具体的には、吹き出し５４の幅が該吹き出し５４の高さの２倍以上となるように、吹き出し５４の縦横比を調整する。なお、吹き出し５４の幅を高さの２倍以上とすることができない場合は、別の吹き出し配置可能領域に吹き出し５４の配置を仮決定する。

次に、ＣＰＵ１１は、テキストが文節の途中で改行されることがないよう、吹き出し５４を整形する（Ｓ７１２）。そして、Ｓ７０６からＳ７１２の処理により、人物外領域に吹き出し５４を配置できなかった場合には、顔外領域に吹き出し５４を配置する（Ｓ７１４）。ただし、Ｓ７０６からＳ７１２の処理により、人物外領域に吹き出し５４を配置できた場合には、ＣＰＵ１１は、Ｓ７１４の処理をスキップしてＳ７１８の処理へ移行する。すなわち、人物外領域に吹き出し５４を配置する。なお、顔外領域に吹き出し５４を配置する場合にも、Ｓ７０６からＳ７１２の処理で述べたのと同様に、吹き出し基準点６２に出来るだけ近い吹き出し配置可能領域に吹き出し５４の配置を仮決定し、その仮決定した吹き出し５４が、他の吹き出し５４内のテキストに重なる場合は、その仮決定した位置を調整し、吹き出しの幅が高さの２倍以上となるように、吹き出し５４の縦横比を調整し、テキストが文節の途中で改行されることがないよう、吹き出し５４を整形するが、図示および詳細な説明は省略する。

一方、処理対象のテキストについて、吹き出し基準点６２が設定されていない場合（Ｓ７０４：Ｎｏ）、ＣＰＵ１１は、静止画５１の中心から出来るだけ離れるように、吹き出し５４の配置を仮決定する（Ｓ７１６）。具体的には、Ｓ５２８（図５（ｂ））の処理で決定された吹き出し配置可能領域であって、その吹き出し配置可能領域の面積が処理対象のテキストが占める面積（すなわち面積項目４８に記憶された面積）以上であって、且つ、静止画５１の中心から出来るだけ離れた吹き出し配置可能領域に、吹き出し５４の配置を仮決定する。次に、ＣＰＵ１１は、吹き出し基準点６２が設定されていないテキストについても、同様に、Ｓ７０８〜Ｓ７１４の処理を実行し、吹き出し５４の配置を決定する。

次に、ＣＰＵ１１は、処理対象のテキストについて、吹き出し基準点６２が設定されているか否かを判断する（Ｓ７１８）。Ｓ７１８の判断が肯定される場合（Ｓ７１８：Ｙｅｓ）、ＣＰＵ１１は、吹き出し基準点６２から吹き出し中央点６４（すなわち、Ｓ７０６からＳ７１６で決定された吹き出し５４の配置の中央に位置する点）とを結ぶ補助線６６（図３）に、吹き出し先端５４ａの頂点が一致するように、吹き出し先端５４ａを付加する（Ｓ７２０）。

一方、Ｓ７１８の判断が否定される場合（Ｓ７１８：Ｎｏ）、ＣＰＵ１１は、吹き出し５４から最も近い静止画５１の縁へ向かう吹き出し先端５４ａを付加する（Ｓ７２２）。すなわち、静止画５１の縁から内側へ向けて吹き出す形状の吹き出し５４を設定する。

次に、発言リスト内の全テキストについて処理を終了したか否かを判断する（Ｓ７２４）。Ｓ７２４の判断が否定される場合（Ｓ７２４：Ｎｏ）、ＣＰＵ１１は、Ｓ７０２から処理を繰り返す。一方、Ｓ７２４の判断が肯定される場合（Ｓ７２４：Ｙｅｓ）、ＣＰＵ１１は、吹き出しレイアウト処理を終了する。

図３を参照して説明したように、ＣＰＵ１１は、各テキストが、該テキストについて決定した吹き出し５４に合成されるように印刷データを作成し、プリンタ２０へ出力する（Ｓ４１６）。

したがって、本実施形態の吹き出し合成画像作成処理を実行することにより、ＰＣ１０は、静止画内人物５２に基づくテキストは、該静止画内人物５２から吹き出す形状の吹き出し５４に合成することができる。一方、静止画内人物５２に含まれない発話者に基づくテキストは、静止画５１の縁から内側へ向けて吹き出す形状の吹き出し５４に合成することができる。その結果、発話者とテキストとの関連が視覚的に分かりやすい合成画像５０を生成できる。また、各テキストの文字数が制限されるので、合成されるテキストによって静止画が見難くなることを抑制できる。

また、各テキストは、発話者毎および発言毎に異なる吹き出し５４に合成されるので、発話者毎および発言毎に区切った態様でテキストを合成でき、ユーザにとって読みやすい。

上記実施形態において、ＰＣ１０がコンピュータおよび情報処理装置の一例に相当し、プリンタドライバ１４ａが情報処理プログラムの一例に相当する。また、上記実施形態では、図４に示す吹き出し合成画像作成処理を実行するＣＰＵ１１が合成手段の一例に相当する。Ｓ４０１の処理を実行するＣＰＵ１１が動画編集点設定手段の一例に相当する。Ｓ４０２の処理を実行するＣＰＵ１１が静止画選択手段の一例に相当する。Ｓ４１２の処理を実行するＣＰＵ１１が文字数制限手段の一例に相当する。Ｓ４１４の処理を実行するＣＰＵがテキスト領域設定手段の一例に相当する。Ｓ５０４の処理を実行するＣＰＵ１１が音声検出手段、第１分割手段、第２分割手段の一例に相当する。Ｓ５０６の処理を実行するＣＰＵ１１が動画編集点判断手段の一例に相当する。Ｓ５０８，Ｓ５１０の処理を設定するＣＰＵ１１が音声編集点設定手段の一例に相当する。Ｓ５２２の処理を実行するＣＰＵ１１が静止画内人物認識手段の一例に相当する。Ｓ６０６の処理を実行するＣＰＵ１１がテキスト抽出手段の一例に相当する。Ｓ６０８の処理を実行するＣＰＵ１１が発話者特定手段の一例に相当する。Ｓ６１０の処理を実行するＣＰＵ１１が照合手段の一例に相当する。

以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能であることは容易に推察できるものである。

例えば、上記実施形態では、ＰＣ１０がコンピュータまたは情報処理装置の一例であり、プリンタドライバ１４ａが情報処理プログラムの一例であった。しかしながら、プリンタ２０が動画ファイルを処理可能に構成されている場合には、プリンタ２０のＣＰＵ２１をコンピュータおよび情報処理装置の一例とし、プリンタ２０に搭載された制御プログラムを情報処理プログラムの一例として本発明を適用しても良い。

また、上記実施形態では、コンピュータまたは情報処理装置の一例として、ＰＣ１０を説明したが、例えば携帯電話機、電子ゲーム機、デジタルカメラなど各種装置がコンピュータまたは情報処理装置の一例となり得る。

また、上記実施形態では、ＰＣ１０は合成画像５０を生成し、プリンタ２０に印刷出力させることにより可視化していたが、表示装置１８に表示出力することにより合成画像５０を可視化する場合にも本発明は適用可能である。また、生成した合成画像５０を可視化することなく、他の装置へ送信する場合にも本発明を適用可能である。

また、上記実施形態では、有声音区間３４毎に、声音をテキストに変換していた。これに代えて、動画から抽出した音声を一旦テキストに変換し、その変換後のテキストから有声音区間３４毎にテキストを抽出し、発言リストに格納するように構成しても良い。

また、上記実施形態において、発話者毎に、吹き出し５４の態様（例えば、色や形状）を異ならせても良い。このようにすれば、発話者とテキストとの関連が視覚的に分かりやすい合成画像５０を生成できる。

また、上記実施形態において、有声音区間３４毎に声音を分析し、分析の結果に基づいて、各声音を分類する処理をＣＰＵ１１（分類手段の一例）に実行させ、その分類毎に、吹き出し５４の態様（例えば、色や形状）を異ならせても良い。例えば、大声で発せられた声音に基づくテキストは、ぎざぎざの輪郭形状の吹き出し５４に合成する一方、小声で発せされた声音に基づくテキストは、相対的に小さい吹き出し５４に合成するようにしても良い。また、各声音を分析することにより発話者の感情を推定できる場合には、分析の結果に基づいて、各声音を発話者の感情に基づいて分類し、該分類毎に吹き出し５４の態様を異ならせても良い。このようにすれば、動画の所定のタイミングにおける状況をより明確に表現する合成画像５０を生成できる。

また、静止画内人物５２の表情から感情を推定し、該感情毎に吹き出し５４の態様を異ならせても良い。

さらに、発話者毎および発話者の感情毎に、各声音を分類し、該分類毎に吹き出し５４の態様を異ならせても良い。

また、上記実施形態において、有声音区間３４とは、発話者毎および発言毎に分割された区間を意味していた。これに代えて、声音の有無を検出し、１名以上の声音が存在する区間であれば有声音区間とし、声音が存在しない区間であれば無声音区間として検出し、無声音区間を境界として音声を分割するように構成しても良い。

また、上記実施形態においては、吹き出し５４により発話者とテキストとが関連づけられていたが、例えば、テキストに発話者の名前を付加したものを静止画５１に合成することにより、合成画像５０において、発話者とテキストとを関連づける態様であっても良い。

また、上記実施形態において、吹き出し５４の使用面積を制限する基準値Ｙpixelは、発言リストに格納されたテキストの総文字数に基づいて決定されていたが、予め定められた固定値であっても良い。

また、上記実施形態では、動画の再生区間３０に１点の動画編集点３２を設定する場合について説明したが、動画の再生区間３０に複数の動画編集点３２が設定される場合にも本発明を適用可能である。その場合、設定された動画編集点３２毎に上記実施形態の方法で合成画像５０を生成することにより、複数のコマからなる漫画のように、時間的な変化を表現した複数の合成画像５０を生成できる。

また、上記実施形態では、有声音区間３４の開始時点を音声編集点３６として設定していたが、例えば、有声音区間３４の開始時点よりも所定時間前の時点を、音声編集点３６として設定するように構成しても良い。
＜その他＞
＜手段＞
技術的思想１：順次出力される複数の静止画を含む動画と、前記動画と同期して再生される音声とを処理するコンピュータにおいて実行される情報処理プログラムであって、前記動画の再生区間のうち、同期して再生される前記音声に声音が含まれる有声音区間を検出する音声検出手段と、前記動画の再生区間に含まれるいずれかの時点を、動画編集点として設定する動画編集点設定手段と、前記動画編集点設定手段により設定される前記動画編集点が、前記音声検出手段により検出される前記有声音区間に含まれるかを判断する動画編集点判断手段と、前記動画編集点判断手段により、前記動画編集点が前記有声音区間に含まれると判断される場合、前記音声検出手段により検出される前記有声音区間のうち、前記動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点を設定する音声編集点設定手段と、前記音声編集点設定手段により設定された前記音声編集点以降に再生される声音を、テキストに変換して抽出するテキスト抽出手段と、前記動画を構成する複数の静止画のうち、前記動画編集点設定手段により設定された前記動画編集点に出力される静止画を選択する静止画選択手段と、前記静止画選択手段により選択された前記静止画に、前記テキスト抽出手段により抽出されたテキストを合成する合成手段とを前記コンピュータに実行させる情報処理プログラム。
技術的思想２：前記音声検出手段により検出される前記有声音区間に再生される前記声音の発話者を特定する発話者特定手段を前記コンピュータに実行させるものであり、前記合成手段は、前記発話者特定手段により特定される前記発話者に関連づけて、前記テキストを前記静止画に合成するものである技術的思想１記載の情報処理プログラム。
技術的思想３：前記静止画選択手段により選択された前記静止画に登場する静止画内人物を認識する静止画内人物認識手段と、前記静止画内人物認識手段により認識される前記静止画内人物と、前記発話者特定手段により特定される前記発話者とを照合する照合手段とを前記コンピュータに実行させるものであり、前記合成手段は、前記照合手段により、前記発話者特定手段により特定される前記発話者と同一人物であると判断される前記静止画内人物に、該静止画内人物に基づくテキストを関連づけて合成するものである技術的思想２記載の情報処理プログラム。
技術的思想４：前記静止画内人物に関連づけたテキスト領域を、前記静止画内に設定するテキスト領域設定手段を、前記コンピュータに実行させるものであり、前記合成手段は、前記テキスト領域設定手段により設定された前記テキスト領域に、該テキスト領域に関連づけられた前記静止画内人物に基づくテキストを合成するものである技術的思想３記載の情報処理プログラム。
技術的思想５：前記テキスト領域設定手段は、前記静止画内人物から吹き出す形状の吹き出しを、前記静止画内人物に関連づけたテキスト領域として設定するものである技術的思想４記載の情報処理プログラム。
技術的思想６：前記テキスト領域設定手段は、前記照合手段により、前記発話者特定手段により特定される前記発話者が前記静止画内人物に含まれないと判断される場合、前記静止画の縁から内側へ向けて吹き出す形状の吹き出しを、前記テキスト領域として設定するものであり、前記合成手段は、前記静止画の縁から内側へ向けて吹き出す形状の前記吹き出しに、前記静止画内人物には含まれない発話者に基づくテキストを合成するものである技術的思想５記載の情報処理プログラム。
技術的思想７：前記音声に含まれる前記声音を発話者毎に分割する第１分割手段を前記コンピュータに実行させるものであり、前記テキスト領域設定手段は、前記第１分割手段により分割された前記声音の各々について、前記テキスト領域を設定するものである技術的思想４から６のいずれかに記載の情報処理プログラム。
技術的思想８：前記動画の再生区間のうち、前記音声検出手段により検出されない区間を境界として、前記音声に含まれる前記声音を分割する第２分割手段を備え、前記テキスト領域設定手段は、前記第２分割手段により分割された前記声音の各々について、前記テキスト領域を設定するものである技術的思想４から７のいずれかに記載の情報処理プログラム。
技術的思想９：前記発話者特定手段は，前記第１分割手段または前記第２分割手段により分割された前記声音毎に、前記発話者を特定するものであり、前記テキスト領域設定手段は、前記発話者特定手段により特定される発話者毎に、前記テキスト領域の態様を異ならせるものである技術的思想７または８に記載の情報処理プログラム。
技術的思想１０：前記第１分割手段または前記第２分割手段により分割された各声音を分析し、分析の結果に基づいて、前記第１分割手段または前記第２分割手段により分割された各声音を分類する分類手段として前記コンピュータを機能させるものであり、前記テキスト領域設定手段は、前記分類手段による分類毎に、前記テキスト領域の態様を異ならせるものである技術的思想７から９のいずれかに記載の情報処理プログラム。
技術的思想１１：前記テキスト抽出手段は、前記第１分割手段または前記第２分割手段により分割された声音毎に、該声音をテキストに変換するものであって、前記テキスト抽出手段により変換された前記声音毎のテキストが、それぞれ所定の文字数以下となるように、各テキストの文字数を制限する文字数制限手段を前記コンピュータに実行させるものであり、前記合成手段は、前記文字数制限手段により文字数が制限された前記テキストを、前記静止画に合成するものである技術的思想７から１０のいずれかに記載の情報処理プログラム。
技術的思想１２：前記テキスト抽出手段は、前記音声編集点設定手段により設定された前記音声編集点から所定時間を経過した所定時間経過時点が、前記音声検出手段により検出される前記有声音区間に含まれる場合、前記所定時間経過時点を含む前記有声音区間の終了時点までの声音を、テキストに変換して抽出するものである技術的思想１から１１のいずれかに記載の情報処理プログラム。
技術的思想１３：順次出力される複数の静止画を含む動画と、前記動画と同期して再生される音声とを処理する情報処理装置であって、前記動画の再生区間のうち、同期して再生される前記音声に声音が含まれる有声音区間を検出する音声検出手段と、前記動画の再生区間に含まれるいずれかの時点を、動画編集点として設定する動画編集点設定手段と、前記動画編集点設定手段により設定される前記動画編集点が、前記音声検出手段により検出される前記有声音区間に含まれるかを判断する動画編集点判断手段と、前記動画編集点判断手段により、前記動画編集点が前記有声音区間に含まれると判断される場合、前記音声検出手段により検出される前記有声音区間のうち、前記動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点を設定する音声編集点設定手段と、前記音声編集点設定手段により設定された前記音声編集点以降に再生される声音を、テキストに変換して抽出するテキスト抽出手段と、前記動画を構成する複数の静止画のうち、前記動画編集点設定手段により設定された前記動画編集点に出力される静止画を選択する静止画選択手段と、前記静止画選択手段により選択された前記静止画に、前記テキスト抽出手段により抽出されたテキストを合成する合成手段とを備える情報処理装置。
＜効果＞
技術的思想１記載の情報処理プログラムによれば、動画編集点が有声音区間に含まれると判断される場合には、該動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点が設定される。そして、テキスト抽出手段により、音声編集点以降に再生される声音がテキストに変換して抽出される。また、動画を構成する複数の静止画のうち、前記動画編集点に出力される静止画が、静止画選択手段により選択される。そして、合成手段により、前記テキスト抽出手段により抽出されたテキストが前記静止画選択手段により選択された静止画に合成される。よって、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。
技術的思想２記載の情報処理プログラムによれば、技術的思想１記載の情報処理プログラムの奏する効果に加え、発話者に関連づけて、前記テキストが前記静止画に合成されるので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。
技術的思想３記載の情報処理プログラムによれば、技術的思想２記載の情報処理プログラムの奏する効果に加え、発話者と同一人物であると判断される静止画内人物に、該静止画内人物に基づくテキストが関連づけて合成されるので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。
ここで、「静止画内人物に基づくテキスト」とは、「静止画内人物が発話した声音を変換することにより得られるテキスト」を意味している。
技術的思想４記載の情報処理プログラムによれば、技術的思想３記載の情報処理プログラムの奏する効果に加え、静止画内人物に関連づけたテキスト領域に、該テキスト領域に関連づけられた前記静止画内人物に基づくテキストが合成されるので、静止画内人物とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。
技術的思想５記載の情報処理プログラムによれば、技術的思想４記載の情報処理プログラムの奏する効果に加え、静止画内人物から吹き出す形状の吹き出しが、前記静止画内人物に関連づけたテキスト領域として設定されるので、静止画内人物とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。
技術的思想６記載の情報処理プログラムによれば、技術的思想５記載の情報処理プログラムの奏する効果に加え、静止画の縁から内側へ向けて吹き出す形状の吹き出しに、静止画内人物には含まれない発話者に基づくテキストが合成されるので、静止画内人物には含まれない発話者に基づくテキストであっても、発話者との関連が視覚的に分かりやすいように合成できるという効果がある。
技術的思想７記載の情報処理プログラムによれば、技術的思想４から６のいずれかに記載の情報処理プログラムの奏する効果に加え、発話者毎に分割された声音毎にテキスト領域が設定されるので、発話者とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。
技術的思想８記載の情報処理プログラムによれば、技術的思想４から７のいずれかに記載の情報処理プログラムの奏する効果に加え、前記音声検出手段により検出されない区間を境界として分割された声音毎にテキスト領域が設定されるので、テキストを発言毎に区切った態様で、静止画に合成できるという効果がある。
技術的思想９記載の情報処理プログラムによれば、技術的思想７または８に記載の情報処理プログラムの奏する効果に加え、発話者毎に前記テキスト領域の態様を異ならせるので、発話者とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。
技術的思想１０記載の情報処理プログラムによれば、技術的思想７から９のいずれかに記載の情報処理プログラムの奏する効果に加え、各声音を分析し、分析の結果に基づいて、分割した各声音を分類し、その分類毎に前記テキスト領域の態様を異ならせるので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。
技術的思想１１記載の情報処理プログラムによれば、技術的思想７から１０のいずれかに記載の情報処理プログラムの奏する効果に加え、テキストがそれぞれ所定の文字数以下となるように、各テキストの文字数が制限されるので、合成されるテキストによって静止画が見難くなることを抑制できるという効果がある。
技術的思想１２記載の情報処理プログラムによれば、技術的思想１から１１のいずれかに記載の情報処理プログラムの奏する効果に加え、前記音声編集点から所定時間を経過した所定時間経過時点が有声音区間に含まれる場合、前記所定時間経過時点を含む前記有声音区間の終了時点までの声音を、テキストに変換して抽出するので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。
技術的思想１３記載の情報処理装置によれば、技術的思想１記載の情報処理プログラムを実行するコンピュータと同様の作用効果を奏する。

１０ＰＣ（コンピュータおよび情報処理装置の一例）
１４ａプリンタドライバ（情報処理プログラムの一例）
３０動画の再生区間
３２動画編集点
３４有声音区間
３６音声編集点
３８所定時間経過時点
５１静止画
５２静止画内人物
５４吹き出し（テキスト領域の一例）

Claims

順次出力される複数の静止画を含む動画と、前記動画と同期して再生される音声とを処理するコンピュータにおいて実行される情報処理プログラムであって、
前記動画の再生区間のうち、同期して再生される前記音声に声音が含まれる有声音区間を検出する音声検出手段と、
前記動画の再生区間に含まれるいずれかの時点を、動画編集点として設定する動画編集点設定手段と、
前記動画編集点設定手段により設定される前記動画編集点が、前記音声検出手段により検出される前記有声音区間に含まれるかを判断する動画編集点判断手段と、
前記動画編集点判断手段により、前記動画編集点が前記有声音区間に含まれると判断される場合、前記音声検出手段により検出される前記有声音区間のうち、前記動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点を設定する音声編集点設定手段と、
前記音声編集点設定手段により設定された前記音声編集点以降に再生される声音を、テキストに変換して抽出するテキスト抽出手段と、
前記動画を構成する複数の静止画のうち、前記動画編集点設定手段により設定された前記動画編集点に出力される静止画を選択する静止画選択手段と、
前記静止画選択手段により選択された前記静止画に、前記テキスト抽出手段により抽出されたテキストを合成する合成手段とを前記コンピュータに実行させ、
前記音声編集点設定手段は、前記動画編集点が前記有声音区間内且つ該区間の開始時点よりも後にある場合、前記音声編集点を前記有声音区間の開始時点とするものである情報処理プログラム。
前記音声検出手段により検出される前記有声音区間に再生される前記声音の発話者を特定する発話者特定手段を前記コンピュータに実行させるものであり、
前記合成手段は、前記発話者特定手段により特定される前記発話者に関連づけて、前記テキストを前記静止画に合成するものである請求項１記載の情報処理プログラム。
前記静止画選択手段により選択された前記静止画に登場する静止画内人物を認識する静止画内人物認識手段と、
前記静止画内人物認識手段により認識される前記静止画内人物と、前記発話者特定手段により特定される前記発話者とを照合する照合手段とを前記コンピュータに実行させるものであり、
前記合成手段は、前記照合手段により、前記発話者特定手段により特定される前記発話者と同一人物であると判断される前記静止画内人物に、該静止画内人物に基づくテキストを関連づけて合成するものである請求項２記載の情報処理プログラム。
前記静止画内人物に関連づけたテキスト領域を、前記静止画内に設定するテキスト領域設定手段を、前記コンピュータに実行させるものであり、
前記合成手段は、前記テキスト領域設定手段により設定された前記テキスト領域に、該テキスト領域に関連づけられた前記静止画内人物に基づくテキストを合成するものである請求項３記載の情報処理プログラム。
前記テキスト領域設定手段は、前記静止画内人物から吹き出す形状の吹き出しを、前記静止画内人物に関連づけたテキスト領域として設定するものである請求項４記載の情報処理プログラム。
前記テキスト領域設定手段は、前記照合手段により、前記発話者特定手段により特定される前記発話者が前記静止画内人物に含まれないと判断される場合、前記静止画の縁から内側へ向けて吹き出す形状の吹き出しを、前記テキスト領域として設定するものであり、
前記合成手段は、前記静止画の縁から内側へ向けて吹き出す形状の前記吹き出しに、前記静止画内人物には含まれない発話者に基づくテキストを合成するものである請求項５記載の情報処理プログラム。
前記音声に含まれる前記声音を発話者毎に分割する第１分割手段を前記コンピュータに実行させるものであり、
前記テキスト領域設定手段は、前記第１分割手段により分割された前記声音の各々について、前記テキスト領域を設定するものである請求項４から６のいずれかに記載の情報処理プログラム。
前記動画の再生区間のうち、前記音声検出手段により検出されない区間を境界として、前記音声に含まれる前記声音を分割する第２分割手段を備え、
前記テキスト領域設定手段は、前記第２分割手段により分割された前記声音の各々について、前記テキスト領域を設定するものである請求項４から７のいずれかに記載の情報処理プログラム。
前記発話者特定手段は，前記第１分割手段または前記第２分割手段により分割された前記声音毎に、前記発話者を特定するものであり、
前記テキスト領域設定手段は、前記発話者特定手段により特定される発話者毎に、前記テキスト領域の態様を異ならせるものである請求項７または８に記載の情報処理プログラム。
前記第１分割手段または前記第２分割手段により分割された各声音を分析し、分析の結果に基づいて、前記第１分割手段または前記第２分割手段により分割された各声音を分類する分類手段として前記コンピュータを機能させるものであり、
前記テキスト領域設定手段は、前記分類手段による分類毎に、前記テキスト領域の態様を異ならせるものである請求項７から９のいずれかに記載の情報処理プログラム。
前記テキスト抽出手段は、前記第１分割手段または前記第２分割手段により分割された声音毎に、該声音をテキストに変換するものであって、
前記テキスト抽出手段により変換された前記声音毎のテキストが、それぞれ所定の文字数以下となるように、各テキストの文字数を制限する文字数制限手段を前記コンピュータに実行させるものであり、
前記合成手段は、前記文字数制限手段により文字数が制限された前記テキストを、前記静止画に合成するものである請求項７から１０のいずれかに記載の情報処理プログラム。
前記テキスト抽出手段は、
前記音声編集点設定手段により設定された前記音声編集点から所定時間を経過した所定時間経過時点が、前記音声検出手段により検出される前記有声音区間に含まれる場合、前記所定時間経過時点を含む前記有声音区間の終了時点までの声音を、テキストに変換して抽出するものである請求項１から１１のいずれかに記載の情報処理プログラム。
順次出力される複数の静止画を含む動画と、前記動画と同期して再生される音声とを処理する情報処理装置であって、
前記動画の再生区間のうち、同期して再生される前記音声に声音が含まれる有声音区間を検出する音声検出手段と、
前記動画の再生区間に含まれるいずれかの時点を、動画編集点として設定する動画編集点設定手段と、
前記動画編集点設定手段により設定される前記動画編集点が、前記音声検出手段により検出される前記有声音区間に含まれるかを判断する動画編集点判断手段と、
前記動画編集点判断手段により、前記動画編集点が前記有声音区間に含まれると判断される場合、前記音声検出手段により検出される前記有声音区間のうち、前記動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点を設定する音声編集点設定手段と、
前記音声編集点設定手段により設定された前記音声編集点以降に再生される声音を、テキストに変換して抽出するテキスト抽出手段と、
前記動画を構成する複数の静止画のうち、前記動画編集点設定手段により設定された前記動画編集点に出力される静止画を選択する静止画選択手段と、
前記静止画選択手段により選択された前記静止画に、前記テキスト抽出手段により抽出されたテキストを合成する合成手段とを備え、
前記音声編集点設定手段は、前記動画編集点が前記有声音区間内且つ該区間の開始時点よりも後にある場合、前記音声編集点を前記有声音区間の開始時点とするものである情報処理装置。