JP7277635B2

JP7277635B2 - イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム

Info

Publication number: JP7277635B2
Application number: JP2022039998A
Authority: JP
Inventors: ジェミンキム; スミイ; ジュヒョンイ; ソヒョンパク; ヘインチョン; ジョンミンソン; ソジョンファン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2021-03-17
Filing date: 2022-03-15
Publication date: 2023-05-19
Anticipated expiration: 2042-03-15
Also published as: KR102465870B1; JP2022145617A; KR20220129868A

Description

以下の説明は、イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステムに関する。

イメージを含む資料に音源（音声合成（ＴｅｘｔＴｏＳｐｅｅｃｈ：ＴＴＳ）含む）を適用しようとするとき、一例として、パワーポイントで形成された資料の場合には、各スライドにそれぞれ１つの音源を追加しなければならないという面倒な作業が求められた。このとき、各スライドには１つの音源しか追加することができないという制約があり、再生開始時間を自由に編集することができないというも問題もあった。

このように、映像コンテンツの製作と消費のニーズが高まった現在の市場における音声合成を利用した従来の映像製作技術は、面倒で制限的な形態しか提供することができないという問題を抱えている。

韓国公開特許第１０－２０１４－０１４７４０１号公報（公開日：２０１４年１２月３０）

多数のイメージに対してユーザが希望する音声合成をリアルタイムで生成してユーザが希望する再生開始時間にダビングすることができ、生成された音声合成がダビングされた多数のイメージによって映像コンテンツを生成および提供することができる、映像コンテンツ生成方法およびシステムを提供する。

少なくとも１つのプロセッサを含むコンピュータ装置の映像コンテンツ生成方法であって、前記少なくとも１つのプロセッサにより、コンテンツ編集ツールにアップロードされたイメージのスナップショットを抽出する段階、前記少なくとも１つのプロセッサにより、前記抽出されたスナップショットを前記コンテンツ編集ツールでタイムラインに沿って表示する段階、前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールに前記表示されたスナップショットの長さを調節する長さ調節機能を提供する段階、前記少なくとも１つのプロセッサにより、前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節する段階、および前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールに入力されるテキストに対する音声合成を生成して前記タイムラインの選択された時点に追加する段階を含むことを特徴とする映像コンテンツ生成方法を提供する。

一側面によると、前記表示されたスナップショットの長さは、前記表示されたスナップショットに対応するイメージが前記タイムライン上で占有する時間である前記ランニングタイムに比例し、前記タイムラインに沿って表示する段階は、前記抽出されたスナップショットをデフォルトランニングタイムに比例する長さで前記コンテンツ編集ツールに表示することを特徴としてよい。

他の側面によると、前記長さ調節機能を提供する段階は、前記表示されたスナップショットのうちの第１スナップショットに対して、予め設定された左側領域または右側領域に対するユーザのタッチ＆ドラッグまたはクリック＆ドラッグによって前記第１スナップショットの長さを増加または減少させる機能を提供することを特徴としてよい。

また他の側面によると、前記長さ調節機能を提供する段階は、前記第１スナップショットの前記左側領域または前記右側領域に対するユーザのタッチまたはクリックが維持される間、前記第１スナップショットの左側終端部分または右側終端部分に対する前記タイムライン上の時点を表示することを特徴としてよい。

また他の側面によると、前記ランニングタイムを前記調節された長さによって調節する段階は、前記長さが調節されたスナップショットに対応するイメージが前記タイムライン上で占有する時間である前記ランニングタイムを前記長さが調節された程度に比例するように増加または減少させることを特徴としてよい。

また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記コンテンツ編集ツールで選択された音声タイプによって前記テキストに対する音声合成を生成することを特徴としてよい。

また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記タイムライン上で特定の時点を示すタイムインジケータの移動によって選択された前記タイムラインの特定の時点に、前記生成された音声合成を追加することを特徴としてよい。

また他の側面によると、前記映像コンテンツ生成方法は、前記少なくとも１つのプロセッサにより、ユーザの入力に基づいて、前記タイムラインに追加された前記音声合成の前記タイムライン上の位置を移動させる段階をさらに含んでよい。

また他の側面によると、前記映像コンテンツ生成方法は、前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールで提供された複数の効果音のうちから１つの効果音が選択される段階、および前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階をさらに含んでよい。

また他の側面によると、前記映像コンテンツ生成方法は、前記少なくとも１つのプロセッサにより、前記表示されたスナップショットの順序を変更するための機能を提供する段階をさらに含んでよい。

また他の側面によると、前記イメージは、イメージ化が可能な複数のページを含むファイルの形態でアップロードされることを特徴としてよい。

また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記タイムラインに追加しようとする第１音声合成が前記タイムラインに既に追加された第２音声合成とランニングタイムの少なくとも一部が重なる場合、前記第１音声合成を前記第２音声合成とは異なる音声チャンネルとして前記タイムラインに追加することを特徴としてよい。

また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記タイムラインの選択された時点に追加された音声合成に対するインジケータを前記コンテンツ編集ツールに表示することを特徴としてよい。

また他の側面によると、前記インジケータによって前記テキストの少なくとも一部が表示されることを特徴としてよい。

また他の側面によると、前記インジケータの長さは、前記音声合成の長さに比例することを特徴としてよい。

また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記インジケータに対するユーザ入力に基づいて、前記音声合成の生成に利用された音声タイプに関する情報、前記音声合成の長さに関する情報、および前記テキストのうちの少なくとも１つを表示することを特徴としてよい。

前記方法をコンピュータ装置に実行させるためのコンピュータプログラムを提供する。

前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。

コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサにより、コンテンツ編集ツールにアップロードされたイメージのスナップショットを抽出し、前記抽出されたスナップショットを前記コンテンツ編集ツールでタイムラインに沿って表示し、前記コンテンツ編集ツールに前記表示されたスナップショットの長さを調節する長さ調節機能を提供し、前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節し、前記コンテンツ編集ツールに入力されるテキストに対する音声合成を生成して前記タイムラインの選択された時点に追加することを特徴とする、コンピュータ装置を提供する。

多数のイメージに対してユーザが希望する音声合成をリアルタイムで生成してユーザが希望する再生開始時間にダビングすることができ、生成された音声合成がダビングされた多数のイメージを利用して映像コンテンツを生成および提供することができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。本発明の一実施形態における、映像コンテンツ生成システムの例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。本発明の一実施形態における、映像コンテンツ生成方法の例を示したフローチャートである。

以下、実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態に係るコンテンツ生成システムは、少なくとも１つのコンピュータ装置によって実現されてよく、本発明の実施形態に係るコンテンツ生成方法は、コンテンツ生成システムを実現する少なくとも１つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されたコンピュータプログラムの制御にしたがって本発明の実施形態に係るコンテンツ生成方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合してコンテンツ生成方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。また、図１のネットワーク環境は、本実施形態に適用可能な環境を説明するための一例に過ぎず、本実施形態に適用可能な環境が図１のネットワーク環境に限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することのできる多様な物理的なコンピュータ装置のうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０それぞれは、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０にサービス（一例として、コンテンツ提供サービス、グループ通話サービス（または、音声会議サービス）、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど）を提供するシステムであってよい。

図２は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器１１０、１２０、１３０、１４０それぞれやサーバ１５０、１６０それぞれは、図２に示したコンピュータ装置２００によって実現されてよい。

このようなコンピュータ装置２００は、図２に示すように、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータ装置２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１７０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置２００のメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース２３０は、ネットワーク１７０を介してコンピュータ装置２００が他の装置（一例として、上述した記録装置）と互いに通信するための機能を提供してよい。一例として、コンピュータ装置２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御にしたがってネットワーク１７０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１７０を経てコンピュータ装置２００の通信インタフェース２３０を通じてコンピュータ装置２００に受信されてよい。通信インタフェース２３０を通じて受信された信号や命令、データなどはプロセッサ２２０やメモリ２１０に伝達されてよく、ファイルなどはコンピュータ装置２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、少なくとも１つのコンピュータ装置２００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータ装置２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。

図３は、本発明の一実施形態における、映像コンテンツ生成システムの例を示した図である。図３は、コンテンツ生成サーバ３００、複数のユーザ３１０、およびコンテンツ編集ツール３２０を示している。

コンテンツ生成サーバ３００は、少なくとも１つのコンピュータ装置２００で実現されてよく、複数のユーザ３１０にコンテンツ編集ツール３２０を提供し、複数のユーザ３１０がコンテンツ編集ツール３２０を利用しながら複数のユーザ３１０それぞれがイメージに音声合成をダビングして映像コンテンツを生成することをサポートしてよい。

ここで、「イメージ」は、個別の複数のイメージ、イメージの束、またはイメージの束と少なくとも１つの個別のイメージを含んでよい。また、イメージの束は、ＰＤＦファイルのように１つのファイルに含まれたページをイメージ化したものを含んでよい。

複数のユーザ３１０は、コンテンツ生成サーバ３００からコンテンツ編集ツール３２０の提供を受けてイメージから映像コンテンツを生成してよい。このとき、複数のユーザ３１０それぞれは、実質的に、ネットワーク１７０を介してコンテンツ生成サーバ３００にアクセスしてコンテンツ編集ツール３２０の提供を受ける物理的な電子機器であってよい。このような物理的な電子機器もそれぞれ、図２を参照しながら説明したコンピュータ装置２００で実現されてよい。

コンテンツ編集ツール３２０は、ウェブ方式またはアプリ方式で複数のユーザ３１０に提供されてよい。ウェブ方式とは、複数のユーザ３１０が、コンテンツ編集ツール３２０の機能が実現されていてコンテンツ生成サーバ３００から提供されるウェブページを訪問し、該当のウェブページを通じて映像コンテンツの生成のための機能の提供を受ける方式を意味してよい。アプリ方式とは、複数のユーザ３１０に対応する物理的な電子機器それぞれにおいてインストールされて実行されるアプリケーションを通じてコンテンツ生成サーバ３００に接続して、映像コンテンツの生成のための機能の提供を受ける方式を意味してよい。実施形態によって、映像コンテンツの生成のための機能が含まれたアプリケーションを利用して、複数のユーザ３１０に対応する物理的な電子機器それぞれが自律的に映像コンテンツの生成を処理してもよい。

一実施形態において、コンテンツ生成サーバ３００は、ユーザがコンテンツ編集ツール３２０にアップロードしたイメージのサムネイルをタイムラインに沿ってコンテンツ編集ツール３２０に表示してよい。ユーザが複数のページで形成されたファイルをアップロードする場合、コンテンツ生成サーバ３００は、複数のページをイメージ化し、イメージ化されたページのサムネイルをタイムラインに沿ってコンテンツ編集ツール３２０に表示してよい。

このとき、コンテンツ編集ツール３２０は、ユーザがタイムライン上のイメージの順序を調節するための機能を提供してよい。ユーザは、該当の機能を利用して、自身がアップロードしたイメージの順序を決定してよい。タイムライン上のイメージの順序は、最終的に生成される映像コンテンツにおいてイメージが登場する順序に対応してよい。

また、コンテンツ編集ツール３２０は、ユーザがタイムライン上のイメージのうちで希望するイメージを削除するための機能を提供してよい。言い換えれば、ユーザは、該当の機能を利用して、自身がアップロードしたイメージのうちで不要なイメージを削除することができる。

また、コンテンツ編集ツール３２０は、ユーザがタイムライン上で各イメージが占有する時間（または、区間）を調節するための機能を提供してよい。調節された時間は、最終的に生成される映像コンテンツにおいてイメージが登場する時間（または、区間）に対応してよい。例えば、コンテンツ編集ツール３２０に表示されるサムネイルの横の長さ（または、縦の長さ）は、イメージがタイムライン上で占有する時間（または、区間）に対応してよい。一例として、コンテンツ編集ツール３２０は、初めは４秒の時間（または、区間）に対応する長さでサムネイルを表示してよい。このとき、コンテンツ編集ツール３２０は、サムネイルの左側および／または右側終端部分をユーザがクリックあるいはタッチした後にドラッグすることによってサムネイルの長さを増減するための機能を提供してよい。この場合、調節されたサムネイルの長さにしたがい、タイムライン上でイメージが占有する時間が増減されてよい。

また、コンテンツ編集ツール３２０は、ユーザがタイムライン上で希望する時点や区間を選択するための機能を提供してよく、選択された時点や区間に対してユーザが希望する任意のテキストを連係させるためのユーザインタフェースを提供してよい。選択された時点や区間に対して任意のテキストが連係されれば、コンテンツ生成サーバ３００は、連係されたテキストを自動で音声に変換し、選択された時点や区間に変換された音声を追加することにより、ユーザが希望する内容の音声を簡単かつ便利にイメージにダビングできるようにサポートすることができる。

図４～１９は、本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。

図４は、図３を参照しながら説明したコンテンツ編集ツール３２０の第１画面例４００を示している。本実施形態に係るコンテンツ編集ツール３２０の構成は一例に過ぎず、前記構成は実施形態によって多様に変更されてよい。

ユーザは、自身の電子機器を利用してコンテンツ編集ツール３２０にアクセスしてよく、コンテンツ編集ツール３２０は、ユーザがイメージをアップロードするための機能４１０を提供してよい。図４の第１画面例４００では、動画やＰＤＦファイルをアップロードする例について説明しているが、コンテンツ編集ツール３２０は、個別の複数のイメージや複数のイメージが含まれた１つのファイル、または１つのファイルと複数のイメージの組み合わせをアップロードするための機能を提供してもよい。このとき、ユーザがアップロードするイメージは、ユーザがコンテンツ編集ツール３２０にアクセスするために使用した電子機器のローカル保存場所に保存されたイメージを含んでよい。実施形態によって、ユーザがアップロードするイメージは、電子機器のローカル保存場所ではなく、ウェブ上に位置するイメージであってもよい。

また、コンテンツ編集ツール３２０は、イメージにダビングを追加するための機能４２０を提供してよい。一例として、機能４２０は、音声選択機能４２１およびテキスト入力機能４２２を含んでよい。音声選択機能４２１は、多様な種類の予め定義された音声タイプのうちから１つを選択するための機能であってよく、テキスト入力機能４２２は、音声合成（ＴｅｘｔＴｏＳｐｅｅｃｈ：ＴＴＳ）を生成するためのテキストを入力するための機能であってよい。一例として、ユーザが、音声選択機能４２１で音声タイプ「音声１」を選択し、テキスト入力機能４２２にテキスト「こんにちは」を入力したとする。このとき、試し聞きボタン４２３やダビング追加ボタン４２４を選択（一例として、ＰＣ環境におけるクリックまたはタッチスクリーン環境におけるタッチによって選択）する場合、入力されたテキスト「こんにちは」と選択された音声タイプ「音声１」の識別子がコンテンツ編集ツール３２０からコンテンツ生成サーバ３００に伝達されてよい。この場合、コンテンツ生成サーバ３００は、音声タイプ「音声１」を使用してテキスト「こんにちは」に対する音声合成を生成してよく、生成された音声合成をコンテンツ編集ツール３２０からユーザの電子機器に伝達してよい。このとき、試し聞きボタン４２３の選択に応答して電子機器のスピーカから音声合成が出力されてよく、ダビング追加ボタン４２４の選択に応答して、機能４１０によってアップロードされたイメージと関連して音声合成がタイムラインに追加されてよい。より具体的に、コンテンツ編集ツール３２０は、最終的に生成される映像コンテンツに対するタイムラインを可視的に表現するためのタイムライン表示機能４４０を含んでよい。このとき、音声合成がタイムラインのどこに追加されるのかについては、以下でさらに詳しく説明する。

実施形態によって、音声選択機能４２１は、ユーザがお気に入り登録をした音声タイプのうちから１つを選択するように実現されてよい。このとき、全体の音声タイプのうちの特定の音声タイプをお気に入り登録するためのユーザインタフェースがユーザに提供されてよい。一例として、ユーザがダビング追加機能４２０に示された「全体表示」を選択する場合、ユーザに全体の音声タイプを表示するためのユーザインタフェースが提供されてよく、ユーザは、提供されたユーザインタフェースから、全体の音声タイプのうちの希望する少なくとも１つの音声タイプをお気に入り登録してよい。この場合、音声選択機能４２１は、ユーザがお気に入り登録した音声のうちの１つを選択するように実現されてよい。

また、コンテンツ編集ツール３２０は、予め製作されている効果音をイメージと関連させてタイムラインに追加するための効果音追加機能４３０を提供してよい。効果音追加機能４３０は、予め製作されている多数の効果音のリストを表示し、効果音に対する試し聞きを実行するか、効果音をタイムラインの特定の時間に追加したりするための機能を含んでよい。必要によっては、ユーザが希望する効果音を外部ファイルから追加するか、直接生成したりしてもよい。

また、コンテンツ編集ツール３２０は、タイムラインの特定の時点を示すタイムインジケータ４５０を表示してよい。図４では、タイムインジケータ４５０がデフォルトである００：００．００の時点にある例を示している。

また、図４のコンテンツ編集ツール３２０に示された保存ボタン４６０は、現在のプロジェクトの編集を保存するための機能を提供してよく、ダウンロードボタン４７０は、映像コンテンツを生成してユーザの電子機器にダウンロードするための機能を提供してよい。

図５は、コンテンツ編集ツール３２０の第２画面例５００を示している。図５の第２画面例５００では、図４で説明した機能４１０によってイメージがアップロードされることにより、アップロードされたイメージのサムネイルのうちの一部がタイムライン表示機能４４０によって表示された例を示している。このとき、各サムネイルは、予め設定された時間間隔（図５の実施形態では４秒の時間間隔）に対応するようにタイムライン表示機能４４０に表示されている。また、タイムライン表示機能４４０の領域に対するクリック＆ドラッグ（または、タッチスクリーン環境のためのタッチ＆ドラッグやスワイプジェスチャ）によってタイムラインとサムネイルの探索が可能となる。

図６は、コンテンツ編集ツール３２０の第３画面例６００として、タイムライン表示機能４４０の領域に対するクリック＆ドラッグによってタイムライン表示機能４４０の他の領域が表示される例を示している。第３画面例６００では、最後のサムネイルであるサムネイル１０により、ユーザが１０枚のイメージをアップロードしたことが分かる。上述したように、１０枚のイメージは、個別のイメージまたは１０枚のイメージにイメージ化が可能なページを含む１つのファイルの形態でアップロードされてもよいし、ｎ枚のイメージにイメージ化が可能なページを含むファイルとｍ枚の個別のイメージ（ここで、ｎとｍは自然数であり、ｎ＋ｍ＝１０）が結合された形態でアップロードされてもよい。２つ以上のファイルと個別イメージの組み合わせが使用可能であることは、容易に理解できるであろう。

図７は、コンテンツ編集ツール３２０の第４画面例７００として、サムネイルの時間間隔を調節した例を示している。例えば、図７の第４画面例７００において、タイムライン表示機能４４０の領域に表示されるサムネイルの横の長さは、イメージがタイムライン上で占有する時間（または、区間）に対応してよい。このとき、第４画面例７００では、ユーザがサムネイル２の右側終端部分をクリックした後に右側方向にドラッグしながらサムネイルの長さを伸ばした例を示している。この場合、伸びたサムネイル２の長さにしたがい、サムネイル２に対応するイメージがタイムライン上で占有する時間（以下、ランニングタイム）が増えてよい。このとき、第４画面例７００では、ユーザがサムネイル２の右側終端部分をクリックしている間、サムネイル２の右側終端部分に対応するタイムライン上の時点（９．９秒の時点）が表示されるユーザインタフェース７１０が示されている。したがって、ユーザは、このようなユーザインタフェース７１０に表示される時間に基づいてサムネイル２の長さを調節してよい。一方、サムネイル２の長さが増えた分だけ、サムネイル２の後ろのサムネイル（一例として、サムネイル３～１０）の開始時点が変更されてよい。図７の実施形態では、サムネイル２の長さを調節してサムネイルに対応するイメージのランニングタイムを調節する例について説明したが、このような説明がタイムライン表示機能４４０の各サムネイルにも同じように適用可能であることは、容易に理解できるであろう。

図８は、コンテンツ編集ツール３２０の第５画面例８００として、サムネイル４の時間間隔が減少した例を示している。第５画面例８００では、ユーザがサムネイル４の右側終端部分をクリックした後に左側方向にドラッグしてサムネイルの長さを縮めた例を示している。このとき、縮まったサムネイル４の長さにしたがい、サムネイル４に対応するイメージのランニングタイムが減ってよい。この場合、第５画面例８００では、ユーザがサムネイル４の右側終端部分をクリックしている間、サムネイル４の右側終端部分に対応するタイムライン上の時点（１７秒の時点）が表示されるユーザインタフェース８１０が示されている。一方、サムネイル４の長さが減った分だけ、サムネイル４の後ろのサムネイル（一例として、サムネイル５～１０）の開始時点が変更されてよい。

図７および図８の実施形態では、ユーザがサムネイルの右側終端部分をクリックした後に左右方向にドラッグしながらサムネイルの長さを増減することにより、サムネイルに対応するイメージのランニングタイムを増減する実施形態について説明した。このような説明により、実施形態によっては、コンテンツ編集ツール３２０がサムネイルの左側終端部分をクリックした後に左右方向にドラッグしてサムネイルの長さを増減することにより、サムネイルに対応するイメージのランニングタイムを増減する機能を提供することも可能であることは、容易に理解できるであろう。

図９は、コンテンツ編集ツール３２０の第６画面例９００として、サムネイルの順序が変更された例を示している。コンテンツ編集ツール３２０は、ユーザが特定のサムネイルをクリック後、ドラッグ（タッチスクリーン環境ではタッチ後にドラッグ）することによってサムネイルの順序を変更するための機能を提供してよい。一例として、ユーザは、第５画面例８００で、サムネイル１をクリックした後に右側方向にドラッグすることにより、サムネイル１とサムネイル２の順序を変更してよい。第６画面例９００は、サムネイル１とサムネイル２の順序が変更された様子を示している。

図１０は、コンテンツ編集ツール３２０の第７画面例１０００として、特定のサムネイルが削除された例を示している。コンテンツ編集ツール３２０は、ユーザが特定のサムネイルを選択した後に削除するための機能を提供してよい。一例として、ユーザが特定のサムネイルに対してマウスオーバーイベントを発生させることによって該当のサムネイルを削除するためのユーザインタフェースが表示されてよく、ユーザは、表示されたユーザインタフェースを利用して該当のサムネイルを削除してよい。このようなサムネイル削除のための方法が多様に提供可能であることは、容易に理解できるであろう。一例として、ユーザは、特定のサムネイルをマウスでクリックして選択した後にキーボード上の「Ｄｅｌ」キーを押すことにより、選択されたサムネイルを削除してもよい。

図１１および図１２は、コンテンツ編集ツール３２０の第８画面例１１００および第９画面例１２００として、ダビングを追加する例を示している。上述したように、タイムインジケータ４５０は、タイムラインの特定の時点を示すものである。例えば、ユーザは、タイムインジケータ４５０をドラッグするか希望するタイムラインの位置をクリックする方式によってタイムインジケータ４５０を移動させてよい。第８画面例１１００で、タイムインジケータ４５０と関連して表示された時刻「００：０６．００」は、タイムラインで現在タイムインジケータ４５０が指示する時点を示してよい。

また、第８画面例１１００には、ダビング追加機能４２０のテキスト入力機能４２２によってテキスト「こんにちは、私はＡＡＡです。」が入力された例を示している。このとき、ユーザがダビング追加ボタン４２４を選択する場合、第９画面例１２００のように、テキスト「こんにちは、私はＡＡＡです。」に対応する第１音声合成のための音声合成インジケータ１２１０がタイムライン表示機能４４０の領域にサムネイルと関連して表示されてよい。このとき、第１音声合成は、上述したように、コンテンツ生成サーバ３００で生成されてコンテンツ編集ツール３２０に伝達されてよい。一方、音声合成インジケータ１２１０には、対応するテキスト「こんにちは、私はＡＡＡです。」の少なくとも一部（第９画面例１２００の「こんにちは、私」）と、第１音声合成の生成に使用された音声タイプの識別子（一例として、音声タイプ「音声１」の識別子（１）１２２０）が表示されてよい。

音声合成インジケータ１２１０の長さは、第１音声合成の長さに対応してよく、このような音声合成インジケータ１２１０の長さによって表示されるテキストの分量が異なってよい。このとき、第８画面例１１００に示されたタイムインジケータ４５０の時刻は「００：０６．００」であり、第９画面例１２００に示されたタイムインジケータ４５０の時刻は「００：０９．５６」である。言い換えれば、第１音声合成のための音声合成インジケータ１２１０の長さは、３．５６秒（００：０９．５６－００：０６．００＝００：０３．５６）であることが分かる。

一方、ユーザが第８画面例１１００で試し聞きボタン４２３を選択する場合、テキスト「こんにちは、私はＡＡＡです。」に対応する第１音声合成がユーザの電子機器のスピーカから出力されてよい。言い換えれば、電子機器は、コンテンツ編集ツール３２０の制御にしたがい、第１音声合成をスピーカから出力してよい。

図１３は、コンテンツ編集ツール３２０の第１０画面例１３００として、ユーザが音声合成インジケータ１２１０上にマウスオーバーのような入力を発生させる場合、マウスポインタの位置（タッチスクリーン環境では、音声合成インジケータ１２１０の位置をタッチしてタッチを位置させる間のタッチの位置）と関連して音声合成情報１３１０が表示される例を示している。音声合成情報１３１０は、音声合成の生成に利用された音声タイプ（音声１）、音声合成の長さ（３．５６秒（００：０３．５６））、入力されたテキスト（こんにちは、私はＡＡＡです。）を含んでよい。

図１４は、コンテンツ編集ツール３２０の第１１画面例１４００として、ユーザがサムネイル３の長さをタイムインジケータ４５０に合うように減らした場合の例を示している。この場合、サムネイル３の長さは、第１音声合成の長さが１．５６であり、映像コンテンツのためのタイムラインでサムネイル３に対応するイメージのランニングタイムが１．５６秒になることが分かる。

図１５は、コンテンツ編集ツール３２０の第１２画面例１５００として、ユーザが第１音声合成の開始時点を変更する例を示している。言い換えれば、第１２画面例１５００では、第１１画面例１４００と比べて音声合成インジケータ１２１０の位置が変更していることが分かる。一例として、ユーザは、コンテンツ編集ツール３２０で音声合成インジケータ１２１０をクリックした状態で左側または右側にドラッグすることによって音声合成インジケータ１２１０の位置を変更してよく、このような音声合成インジケータ１２１０の位置変更によって第１音声合成の開始時点が変更されてよい。一方、音声合成インジケータ１２１０の位置の変更は、該当の音声合成インジケータ１２１０が選択（一例として、クリック）された状態でキーボードの方向キー入力によってなされてもよい。このような位置の変更は、音声合成インジケータ１２１０だけでなく、コンテンツ編集ツール３２０で提供される多様なインジケータそれぞれに対しても共通の方法で適用することが可能である。また、多数のインジケータは、１つのグループから選択されてもよい。一例として、キーボードの「Ｓｈｉｆｔ」キーを押した状態で多数のインジケータを順に選択（一例として、クリック）することにより、多数のインジケータが１つのグループとして選択されてよい。この場合、ユーザは、ドラッグやキーボードの方向キーの入力などにより、該当のグループに属する多数のインジケータの位置を一度に変更してもよい。

図１６および図１７は、コンテンツ編集ツール３２０の第１３画面例１６００および第１４画面例１７００として、ダビングをさらに追加する例を示している。

第１３画面例１６００は、ユーザがタイムインジケータ４５０を「００：０５．７８」の位置に移動させた後、音声選択機能４２１によって音声タイプ「音声２」を選択し、テキスト入力機能４２２によってテキスト「はじめまして。」を入力した例を示している。このとき、ユーザがダビング追加ボタン４２４を選択する場合、第１４画面例１７００のように、テキスト「はじめまして。」に対応する第２音声合成のための音声合成インジケータ１７１０がタイムライン表示機能４４０の領域にサムネイルと関連して表示されてよい。上述したように、音声合成インジケータ１７１０には、対応するテキスト「はじめまして」の少なくとも一部（第１４画面例１７００の「はじめ」）と、第２音声合成の生成に使用された音声タイプの識別子（一例として、音声タイプ「音声２」の識別子（２）１７２０）が表示されてよい。

音声合成インジケータ１７１０の長さは、第２音声合成の長さに対応してよく、このような音声合成インジケータ１７１０の長さによって表示されるテキストの分量が異なってよい。このとき、第１３画面例１６００に示されたタイムインジケータ４５０の時刻は「００：０６．００」であり、第１４画面例１７００に示されたタイムインジケータ４５０の時刻は「００：０８．２４」である。言い換えれば、第２音声合成のための音声合成インジケータ１７１０の長さは、２．２４秒（００：０８．２４－００：０６．００＝００：０２．２４）であることが分かる。

一方、ユーザが第１３画面例１６００で試し聞きボタン４２３を選択する場合、テキスト「はじめまして」に対応する第２音声合成がユーザの電子機器のスピーカから出力されてよい。言い換えれば、電子機器は、コンテンツ編集ツール３２０の制御にしたがって第２音声合成をスピーカから出力してよい。

図１８は、コンテンツ編集ツール３２０の第１５画面例１８００として、効果音を追加する例を示している。第１５画面例１８００では、ユーザが効果音追加機能４３０によって効果音２を選択（一例として、点線枠１８１０内のプラスボタンをクリック）することにより、現在のタイムインジケータ４５０の時点を開始時点として効果音２のインジケータ１８２０が追加される例を示している。このとき、効果音２のインジケータ１８２０の長さは、点線枠１８１０に示したように２．４６秒であってよい。このようなインジケータ１８２０も、ユーザがクリック＆ドラッグによって他の時点に移動させることが可能である。

以上の実施形態では、サムネイルのための１つのチャンネルと音声合成のための１つのチャンネル、さらに効果音のための１つのチャンネルという合計３つのチャンネルによって、映像コンテンツを生成するための情報をタイムラインに沿って羅列する例について説明した。しかし、実施形態によっては、音声合成のための２つ以上のチャンネルおよび／または効果音のための２つ以上のチャンネルが使用されてもよい。

図１９は、コンテンツ編集ツール３２０の第１６画面例１９００として、音声合成のための２つ以上のチャンネルを使用する例を示している。第１６画面例１９００では、２つの音声合成インジケータ１２１０、１７１０の一部分が重なって表示された例を示している。これは、少なくとも一部のタイムラインで２つの音声合成が同時に出力されることも可能であることを示している。図１９の実施形態では、音声合成のための２つのチャンネルが使用されることを示しているが、３つ以上のチャンネルも使用可能であることは容易に理解できるであろう。また、効果音のための２つ以上のチャンネルが使用可能であることも容易に理解できるであろう。

図２０は、本発明の一実施形態における、映像コンテンツ生成方法の例を示したフローチャートである。本実施形態に係る映像コンテンツ生成方法は、コンテンツ編集ツール３２０によってコンテンツ編集支援のためのサービスを提供するコンピュータ装置２００で実行されてよい。このとき、コンピュータ装置２００のプロセッサ２２０は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのコンピュータプログラムのコードとによる制御命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、プロセッサ２２０は、コンピュータ装置２００に記録されたコードが提供する制御命令にしたがってコンピュータ装置２００が図２０の方法に含まれる段階２０１０～２０９０を実行するようにコンピュータ装置２００を制御してよい。

段階２０１０で、コンピュータ装置２００は、コンテンツ編集ツールにアップロードされたイメージのスナップショットを抽出してよい。上述したように、イメージは、個別の複数のイメージや複数のイメージが含まれた１つのファイル、または１つのファイルと複数のイメージの組み合わせの形態でアップロードされてよい。特定の実施形態において、イメージは、イメージ化が可能な複数のページを含むファイルの形態でアップロードされてよい。一例として、ＰＤＦファイルがアップロードされる場合、コンピュータ装置２００は、ＰＤＦファイルからイメージを抽出して複数のイメージファイルとして保存してよく、複数のイメージファイルそれぞれに対するスナップショットを抽出してよい。

段階２０２０で、コンピュータ装置２００は、抽出されたスナップショットをコンテンツ編集ツールでタイムラインに沿って表示してよい。ここで、表示されたスナップショットの長さは、表示されたスナップショットに対応するイメージが前記タイムライン上で占有する時間のランニングタイムに比例してよい。このとき、コンピュータ装置２００は、抽出されたスナップショットをデフォルトランニングタイムに比例する長さでコンテンツ編集ツールに表示してよい。図５では、４秒のデフォルトランニングタイムに比例する長さでスナップショットを表示する例について説明した。

段階２０３０で、コンピュータ装置２００は、表示されたスナップショットの順序を変更するための機能を提供してよい。一例として、図８および図９では、サムネイル１とサムネイル２の位置を変更する例について説明した。実施形態によって、コンピュータ装置２００は、特定のサムネイルを削除するための機能をさらに提供してもよい。

段階２０４０で、コンピュータ装置２００は、コンテンツ編集ツールに表示されたスナップショットの長さを調節する長さ調節機能を提供してよい。一例として、コンピュータ装置２００は、表示されたスナップショットのうちの第１スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ＆ドラッグまたはクリック＆ドラッグによって第１スナップショットの長さを増減させる機能を提供してよい。また、コンピュータ装置２００は、第１スナップショットの左側領域または右側領域に対するユーザのタッチまたはクリックが維持される間、第１スナップショットの左側終端部分または右側終端部分に対するタイムライン上の時点を表示してよい。一例として、図７および図８では、サムネイルの長さを増減することと、このときにタイムライン上の時点が該当のスナップショットの右側終端部分に表示される例について説明した。

段階２０５０で、コンピュータ装置２００は、長さ調節機能によって長さが調節されたスナップショットのランニングタイムを調節された長さによって調節してよい。一例として、コンピュータ装置２００は、長さが調節されたスナップショットに対応するイメージが、タイムライン上で占有する時間の前記ランニングタイムがスナップショットの長さが調節された程度に比例するように増減してよい。

段階２０６０で、コンピュータ装置２００は、コンテンツ編集ツールに入力されるテキストに対する音声合成を生成してタイムラインの選択された時点に追加してよい。このとき、コンピュータ装置２００は、コンテンツ編集ツールで選択された音声タイプによってテキストに対する音声合成を生成してよい。年齢、性別、言語（韓国語、英語、中国語、日本語、スペイン語など）、感情（喜び、悲しみなど）などに応じて多数の音声タイプが予め生成されたものがコンテンツ編集ツールでユーザに提供されてよく、ユーザは、コンテンツ編集ツールから音声合成に利用するための特定の音声タイプを選択してよい。また、コンピュータ装置２００は、タイムライン上で特定の時点を示すタイムインジケータの移動によって選択されたタイムラインの特定の時点に、生成された音声合成を追加してよい。図１１および図１２、図１６および図１７では、タイムインジケータ４５０によって選択された時点に音声合成を追加する例について説明した。

実施形態によって、コンピュータ装置２００は、タイムラインに追加しようとする第１音声合成がタイムラインに既に追加された第２音声合成とランニングタイムの少なくとも一部が重なる場合、第１音声合成を第２音声合成とは異なる音声チャンネルとしてタイムラインに追加してよい。言い換えれば、生成される映像コンテンツにおいて２つ以上の音声合成が同時に出力されるようにダビングがなされてよい。図１９では、２つの音声合成が互いに異なるチャンネルとしてタイムラインに追加される例について説明した。

また、コンピュータ装置２００は、タイムラインの選択された時点に追加された音声合成に対するインジケータをコンテンツ編集ツールで表示してよい。実施形態によっては、インジケータによってテキストの少なくとも一部が表示されてよく、インジケータの長さは音声合成の長さに比例してよい。ここで、音声合成の長さとは、音声合成が出力される時間を意味してよい。

さらに、コンピュータ装置２００は、インジケータに対するユーザ入力に基づいて、音声合成の生成に利用された音声タイプに関する情報、音声合成の長さに関する情報、およびテキストのうちの少なくとも１つを含む音声合成情報を出力してよい。音声合成情報は、インジケータに対するユーザ入力が発生する位置と関連して表示されてよい。一例として、図１３では、音声合成インジケータ１２１０に関する音声合成情報１３１０を表示する例について説明した。

段階２０７０で、コンピュータ装置２００は、ユーザの入力に基づいて、タイムラインに追加された音声合成のタイムライン上の位置を移動させてよい。一例として、図１４および図１５では、ユーザのクリック＆ドラッグまたはタッチ＆ドラッグのような入力によって音声合成の位置を移動させる例について説明した。

段階２０８０で、コンピュータ装置２００は、コンテンツ編集ツールで提供された複数の効果音のうちから１つの効果音の選択を受けてよい。一例として、図１８では、効果音追加機能４３０によってユーザに複数の効果音を提供し、ユーザが複数の効果音のうちから１つを選択することについて説明した。

段階２０９０で、コンピュータ装置２００は、コンテンツ編集ツールでタイムラインに対して選択された時点に、選択された効果音を追加してよい。一例として、図１８では、タイムインジケータ４５０によって選択された時点に効果音２を追加する例について説明した。

このとき、実施形態によって、段階２０１０～２０９０のうちの少なくとも一部が並列的に実行されてよい。一例として、段階２０４０と段階２０５０は、長さ調節のためのユーザの入力によってトリガーされてよく、段階２０６０と段階２０７０は、音声合成の追加のためのユーザの入力によってトリガーされてよく、段階２０８０と段階２０９０は、効果音の追加のためのユーザの入力によってトリガーされてよい。したがって、段階２０４０～２０９０の順序は、ユーザの入力によって変更されてもよい。

この後、ユーザが映像コンテンツの生成を要請する場合、コンピュータ装置２００は、イメージを映像コンテンツに合わせたサイズに平準化した後、動画を生成してよい。実施形態によって、コンピュータ装置２００は、映像コンテンツにウォーターマークおよび／または字幕を挿入してよい。この後、コンピュータ装置２００は、タイムラインに合うように動画に音声合成および／または効果音を挿入して最終映像コンテンツを生成してよい。

このように、本発明の実施形態によると、多数のイメージに対してユーザが希望する音声合成をリアルタイムで生成してユーザが希望する再生開始時間にダビングすることができ、生成された音声合成がダビングされた多数のイメージによって映像コンテンツを生成および提供することができる。

上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体も挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

３００：コンテンツ生成サーバ
３１０：ユーザ
３２０：コンテンツ編集ツール

Claims

少なくとも１つのプロセッサを含むコンピュータ装置の映像コンテンツ生成方法であって、
前記少なくとも１つのプロセッサにより、コンテンツ編集ツールを通じてアップロードされたイメージのスナップショットを抽出する段階、
前記少なくとも１つのプロセッサにより、前記抽出されたスナップショットを、前記コンテンツ編集ツールを通じてタイムラインに沿って表示する段階、
前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールを通じて前記表示されたスナップショットの長さを調節する長さ調節機能を提供する段階、
前記少なくとも１つのプロセッサにより、前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節する段階、および
前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールを通じて入力されるテキストに対する音声合成を生成して、前記タイムラインの選択された時点に追加する段階
を含むことを特徴とする、映像コンテンツ生成方法。
前記表示されたスナップショットの長さは、前記表示されたスナップショットに対応するイメージが前記タイムライン上で占有する時間の前記ランニングタイムに比例し、
前記タイムラインに沿って表示する段階は、
前記抽出されたスナップショットをデフォルトランニングタイムに比例する長さで前記コンテンツ編集ツールを通じて表示すること
を特徴とする、請求項１に記載の映像コンテンツ生成方法。
前記長さ調節機能を提供する段階は、
前記表示されたスナップショットのうちの第１スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ＆ドラッグまたはクリック＆ドラッグによって前記第１スナップショットの長さを増加または減少させる機能を提供することを特徴とする、請求項１または２に記載の映像コンテンツ生成方法。
前記長さ調節機能を提供する段階は、
前記第１スナップショットの前記左側領域または前記右側領域に対するユーザのタッチまたはクリックが維持される間、前記第１スナップショットの左側終端部分または右側終端部分に対する前記タイムライン上の時点を表示することを特徴とする、請求項３に記載の映像コンテンツ生成方法。
前記ランニングタイムを前記調節された長さによって調節する段階は、
前記長さが調節されたスナップショットに対応するイメージが前記タイムライン上で占有する時間の前記ランニングタイムを、前記長さが調節された程度に比例するように増加または減少させることを特徴とする、請求項１～４のうちのいずれか一項に記載の映像コンテンツ生成方法。
前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
前記コンテンツ編集ツールを通じて選択された音声タイプによって前記テキストに対する音声合成を生成することを特徴とする、請求項１～５のうちのいずれか一項に記載の映像コンテンツ生成方法。
前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
前記タイムライン上で特定の時点を現わすタイムインジケータの移動によって選択された前記タイムラインの特定の時点に、前記生成された音声合成を追加することを特徴とする、請求項１～５のうちのいずれか一項に記載の映像コンテンツ生成方法。
前記少なくとも１つのプロセッサにより、ユーザの入力に基づいて、前記タイムラインに追加された前記音声合成の前記タイムライン上の位置を移動させる段階
をさらに含む、請求項１～７のうちのいずれか一項に記載の映像コンテンツ生成方法。
前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールを通じて提供された複数の効果音のうちから１つの効果音が選択される段階、および
前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階
をさらに含む、請求項１～８のうちのいずれか一項に記載の映像コンテンツ生成方法。
前記少なくとも１つのプロセッサにより、前記表示されたスナップショットの順序を変更するための機能を提供する段階
をさらに含むことを特徴とする、請求項１～９のうちのいずれか一項に記載の映像コンテンツ生成方法。
前記イメージは、イメージ化が可能な複数のページを含むファイルの形態でアップロードされることを特徴とする、請求項１～１０のうちのいずれか一項に記載の映像コンテンツ生成方法。
前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
前記タイムラインに追加しようとする第１音声合成が前記タイムラインに既に追加された第２音声合成とランニングタイムの少なくとも一部が重なる場合、前記第１音声合成を前記第２音声合成とは異なる音声チャンネルとして前記タイムラインに追加することを特徴とする、請求項１～５のうちのいずれか一項に記載の映像コンテンツ生成方法。
前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
前記タイムラインの選択された時点に追加された音声合成に対するインジケータを、前記コンテンツ編集ツールを通じて表示することを特徴とする、請求項１～５のうちのいずれか一項に記載の映像コンテンツ生成方法。
前記インジケータによって前記テキストの少なくとも一部が表示されることを特徴とする、請求項１３に記載の映像コンテンツ生成方法。
前記インジケータの長さは、前記音声合成の長さに比例することを特徴とする、請求項１３に記載の映像コンテンツ生成方法。
前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
前記インジケータに対するユーザ入力に基づいて、前記音声合成の生成に利用された音声タイプの情報、前記音声合成の長さの情報、および前記テキストのうちの少なくとも１つを表示することを特徴とする、請求項１３に記載の映像コンテンツ生成方法。
請求項１～１６のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラム。
コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサにより、
コンテンツ編集ツールを通じてアップロードされたイメージのスナップショットを抽出し、
前記抽出されたスナップショットを、前記コンテンツ編集ツールを通じてタイムラインに沿って表示し、
前記コンテンツ編集ツールを通じて前記表示されたスナップショットの長さを調節する長さ調節機能を提供し、
前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節し、
前記コンテンツ編集ツールを通じて入力されるテキストに対する音声合成を生成して前記タイムラインの選択された時点に追加すること
を特徴とする、コンピュータ装置。
前記長さ調節機能を提供するために、前記少なくとも１つのプロセッサにより、
前記表示されたスナップショットのうちの第１スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ＆ドラッグまたはクリック＆ドラッグによって前記第１スナップショットの長さを増加または減少させる機能を提供すること
を特徴とする、請求項１８に記載のコンピュータ装置。