JP7128222B2

JP7128222B2 - 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム

Info

Publication number: JP7128222B2
Application number: JP2020024004A
Authority: JP
Inventors: ▲そ▼▲ひょん▼ 朴; 珠賢李; 在▲ミン▼ 金; 根宋; 紹靖黄
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-10-28
Filing date: 2020-02-17
Publication date: 2022-08-30
Anticipated expiration: 2040-02-17
Also published as: JP2021067922A; JP2022163217A; KR20210157458A; KR102488623B1

Description

以下の説明は、映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステムに関する。

映像コンテンツ編集に関する多様な技術が存在する。例えば、特許文献１は、動画字幕編集方法に関するものであって、ＤＶＤレコーダで光ディスクに記録された動画ファイルを再生しながら、この動画と関連する字幕ファイルの字幕部分をリアルタイムで編集できるようにする動画字幕編集方法を開示している。

しかし、映像コンテンツが既に保有している映像や字幕、オーディオなどを編集することは相対的に容易であることに比べ、映像コンテンツに、ユーザが所望する内容、特に、特定の音声や効果音などの合成音を新たに追加することは、ユーザが合成音を取得することも容易でないことに加え、取得した合成音を映像コンテンツの所望する部分に追加することも容易ではないことが現状である。

韓国公開特許第１０－２００７－００１３１２２号公報

ユーザが所望する合成音をリアルタイムで生成して映像コンテンツの所望する部分に追加することができる、コンテンツ編集支援方法およびシステムを提供する。

少なくとも１つのプロセッサを含むコンピュータ装置のコンテンツ編集支援方法であって、前記少なくとも１つのプロセッサにより、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出する段階、前記少なくとも１つのプロセッサにより、前記抽出された複数のスナップショットを前記コンテンツ編集ツールでタイムラインに従って表示する段階、前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールに入力されたテキストおよび前記コンテンツ編集ツールで選択された音声タイプに基づき、前記入力されたテキストを前記選択された音声タイプの音声に変換する段階、および前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記変換された音声を追加する段階を含む、コンテンツ編集支援方法を提供する。

一側によると、前記変換された音声を追加する段階は、前記タイムライン上で特定の時点を示すタイムインジケータをドラッグすることによって選択された時点に、前記変換された音声を追加してよい。

他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも１つのプロセッサにより、前記追加された音声のコピーまたは切り取り機能を提供する段階、および前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記機能によってコピーまたは切り取られた音声を追加する段階をさらに含んでよい。

また他の側面によると、前記選択された音声タイプは、声および感情の調和によって予め定義され、前記コンテンツ編集ツールで提供される多数の音声タイプのうちから選択されてよい。

また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも１つのプロセッサにより、コンテンツ編集ツールでユーザの音声タイプを生成する機能を提供する段階をさらに含み、前記機能は、予め定義された音声タイプの発話速度および発話ボリュームのうちの少なくとも１つを調節して新たな音声タイプを生成する機能を含んでよい。

また他の側面によると、前記追加された音声に対応するテキストの内容のうちの少なくとも一部は、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点と連携して表示されてよい。

また他の側面によると、前記少なくとも一部の内容が表示された領域に対するユーザの入力によって前記追加された音声に対応するテキストの内容、前記追加された音声に対応する音声タイプ、および前記追加された音声の開始時間のうちの少なくとも１つを編集するための機能が提供されてよい。

また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールで提供される複数の効果音のうちの１つが選択される段階、および前記少なくとも１つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階をさらに含んでよい。

また他の側面によると、前記追加された効果音に関する情報は、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点と連携して表示され、前記情報が表示された領域に対するユーザの入力によって前記追加された効果音の種類および開始時間のうちの少なくとも１つを編集するための機能が提供されてよい。

また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも１つのプロセッサにより、前記映像コンテンツを分析することで、前記変換された音声を追加する前記タイムライン上の時点を推薦する段階をさらに含んでよい。

また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも１つのプロセッサにより、前記映像コンテンツで前記タイムラインに対して選択された時点の映像を分析することで、前記選択された時点のための音声タイプおよび効果音のうちの少なくとも１つを推薦する段階をさらに含んでよい。

また他の側面によると、前記変換する段階は、前記タイムラインに対して選択された時点を基準に、タイムラインで前記変換された音声を追加することのできる区間の長さを確認する段階、および前記確認された区間の長さに応じて前記入力されるテキストの長さを制限するか、前記変換される音声の発話速度を調節する段階を含んでよい。

また他の側面によると、前記変換する段階は、前記映像コンテンツで前記タイムラインに対して選択された時点に対するバックグラウンドサウンドのボリュームを確認する段階、および前記確認されたバックグラウンドサウンドのボリュームに応じて前記変換される音声の発話ボリュームを調節する段階を含んでよい。

また他の側面によると、前記変換された音声を追加する段階は、前記映像コンテンツで前記タイムラインに対して選択された時点に対する話し手の音声を除去した後、前記変換された音声を追加してよい。

また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも１つのプロセッサにより、前記映像コンテンツから音声を抽出してテキストに変換する段階、前記少なくとも１つのプロセッサにより、前記変換されたテキストを前記コンテンツ編集ツールで選択された音声タイプの音声に変換する段階、および前記少なくとも１つのプロセッサにより、前記変換された音声を前記映像コンテンツで音声が抽出された区間に追加する段階をさらに含んでよい。

また他の側面によると、前記変換する段階は、前記入力されたテキストを校正する第１機能および前記入力されたテキストを他の言語の文字に翻訳する第２機能のうちの少なくとも１つの機能を提供する段階、および前記第１機能によって校正されるか前記第２機能によって翻訳されたテキストを前記選択された音声タイプの音声に変換する段階を含んでよい。

さらに他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも１つのプロセッサにより、前記タイムライン上でタイムインジケータが指示する時点に対応するサムネイルおよび前記タイムインジケータが指示する時点に対応する音節単位の音声に関するテキスト情報のうちの少なくとも１つを提供する段階をさらに含んでよい。

コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録された、コンピュータプログラムを提供する。

前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。

コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサにより、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出し、前記抽出された複数のスナップショットを前記コンテンツ編集ツールでタイムラインに従って表示し、前記コンテンツ編集ツールに入力されたテキストおよび前記コンテンツ編集ツールで選択された音声タイプに基づいて前記入力されたテキストを前記選択された音声タイプの音声に変換し、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記変換された音声を追加する、コンピュータ装置を提供する。

ユーザが所望する合成音をリアルタイムで生成して映像コンテンツの所望する部分に追加することができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。本発明の一実施形態における、コンテンツ編集支援環境の例を示した図である。本発明の一実施形態における、コンテンツ編集ツールの画面例を示した図である。本発明の一実施形態における、効果音編集機能の例を示した図である。本発明の一実施形態における、音声編集機能の例を示した図である。本発明の一実施形態における、音声リストを編集する機能の例を示した図である。本発明の一実施形態における、音声タイプを編集する機能の例を示した図である。本発明の一実施形態における、ユーザ自身の音声タイプを生成する機能の例を示した図である。本発明の一実施形態における、コンテンツ編集支援方法の例を示したフローチャートである。本発明の一実施形態における、タイムインジケータが指示する時点に関する情報を提供する例を示した図である。

以下、実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態に係るコンテンツ編集支援システムは、少なくとも１つのコンピュータ装置によって実現されてよく、本発明の実施形態に係るコンテンツ編集支援方法は、コンテンツ編集支援システムに含まれる少なくとも１つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールおよび実行されてよく、コンピュータ装置は、実行されるコンピュータプログラムの制御に従って本発明の実施形態に係るコンテンツ編集支援方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合してコンテンツ編集支援方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。また、図１のネットワーク環境は、本実施形態に適用可能な環境のうちの１つの例を説明したものに過ぎず、本実施形態に適用可能な環境が図１のネットワーク環境に限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することのできる多様な物理的なコンピュータ装置のうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０それぞれは、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０にサービス（一例として、コンテンツ提供サービス、グループ通話サービス（または、音声カンファレンスサービス）、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど）を提供するシステムであってよい。

図２は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器１１０、１２０、１３０、１４０それぞれやサーバ１５０、１６０それぞれは、図２に示すコンピュータ装置２００によって実現されてよい。

このようなコンピュータ装置２００は、図２に示すように、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータ装置２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１７０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置２００のメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードに従って受信される命令を実行するように構成されてよい。

通信インタフェース２３０は、ネットワーク１７０を介してコンピュータ装置２００が他の装置（一例として、上述した記録装置）と互いに通信するための機能を提供してよい。一例として、コンピュータ装置２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードに従って生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御に従ってネットワーク１７０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１７０を経てコンピュータ装置２００の通信インタフェース２３０を通じてコンピュータ装置２００に受信されてよい。通信インタフェース２３０を通じて受信された信号や命令、データなどは、プロセッサ２２０やメモリ２１１に伝達されてよく、ファイルなどは、コンピュータ装置２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、コンピュータ装置２００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータ装置２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。

図３は、本発明の一実施形態における、コンテンツ編集支援環境の例を示した図である。図３は、コンテンツ編集支援サーバ３００、複数のユーザ３１０、およびコンテンツ編集ツール３２０を示している。

コンテンツ編集支援サーバ３００は、少なくとも１つのコンピュータ装置２００によって実現されてよく、複数のユーザ３１０にコンテンツ編集ツール３２０を提供し、複数のユーザ３１０がコンテンツ編集ツール３２０を利用することで複数のユーザ３１０自身の映像コンテンツの編集を支援できるようにしてよい。

複数のユーザ３１０は、コンテンツ編集支援サーバ３００からコンテンツ編集ツール３２０の提供を受け、自身の映像コンテンツを編集してよい。このとき、複数のユーザ３１０それぞれは、実質的には、ネットワーク１７０を介してコンテンツ編集支援サーバ３００にアクセスしてコンテンツ編集ツール３２０の提供を受ける物理的な電子機器であってよい。このような物理的な電子機器それぞれも、図２を参照しながら説明したコンピュータ装置２００によって実現されてよい。

コンテンツ編集ツール３２０は、ウェブ方式またはアプリ方式によって複数のユーザ３１０に提供されてよい。ウェブ方式とは、複数のユーザ３１０が、コンテンツ編集ツール３２０の機能が実現されていてコンテンツ編集支援サーバ３００によって提供されるウェブページを訪問し、該当のウェブページを介してコンテンツ編集のための機能の提供を受ける方式を意味してよい。アプリ方式とは、複数のユーザ３１０に対応する物理的な電子機器それぞれにおいてインストールおよび実行されるアプリケーションを介してコンテンツ編集支援サーバ３００に接続して、コンテンツ編集のための機能の提供を受ける方式を意味してよい。実施形態によっては、コンテンツ編集のための機能が含まれたアプリケーションを利用することにより、複数のユーザ３１０に対応する物理的な電子機器それぞれで自主的にコンテンツ編集を処理することも可能である。

本実施形態に係るコンテンツ編集ツール３２０は、ユーザによって選択された映像コンテンツからスナップショットを抽出し、抽出されたスナップショットをタイムラインに従って表示する機能を含んでよい。このとき、コンテンツ編集ツール３２０は、ユーザが所望する時点や区間をタイムライン上で選択することのできる機能を提供してよく、選択された時点や区間に対してユーザが所望する任意のテキストを連携させることのできるユーザインタフェースを提供してよい。選択された時点や区間に対して任意のテキストが連携されると、コンテンツ編集ツール３２０は、連携されたテキストを自動で音声に変換し、選択された時点や区間に変換された音声を追加することにより、ユーザが所望する内容の音声を映像コンテンツに容易にダビングできるようにすることが可能となる。

図４は、本発明の一実施形態における、コンテンツ編集ツールの画面例を示した図である。図４は、図３で説明したコンテンツ編集ツール３２０の画面例４００を示している。本実施形態に係るコンテンツ編集ツール３２０の構成は一例に過ぎず、その構成は実施形態に応じて多様に異なってよい。

ユーザは、自身の電子機器を利用してコンテンツ編集ツール３２０にアクセスしてよく、コンテンツ編集ツール３２０は、ユーザによって選択された映像コンテンツを再生するためのコンテンツ再生機能４１０、および選択された映像コンテンツを他の映像コンテンツに変更するためのコンテンツ変更機能４１１を含んでよい。このとき、ユーザによって選択された映像コンテンツは、ユーザがコンテンツ編集ツール３２０にアクセスするために利用した電子機器のローカル格納場所に格納されている映像コンテンツを含んでよい。実施形態によっては、ユーザによって選択された映像コンテンツは、電子機器のローカル格納場所ではなくウェブ上に位置する映像コンテンツであってもよい。

また、コンテンツ編集ツール３２０は、テキストを音声（ボイス）に変換して映像コンテンツに対するタイムラインに追加するためのテキスト－音声変換機能４２０を含んでよい。テキスト－音声変換機能４２０は、ユーザからテキストの入力を受けるためのテキスト入力機能４２１、および入力されたテキストを変換する音声タイプを選択する音声タイプ選択機能４２２を含んでよい。音声タイプは、特定の声（一例として、予め定義されたキャラクタ「Ｋ１」の声）と感情（一例として、基本感情、悲しい、嬉しいなど）との組み合わせによって識別されてよい。図４では、感情の例として、「基本」、「悲しい」、「嬉しい」だけが示されているが、実施形態によっては、より多様な感情（一例として、「怒り」、「失望」など）が活用されてもよい。実施形態によっては、音声タイプは、発話の速度とボリュームによって異なるように識別されてもよい。言い換えれば、同じ声の同じ感情である音声タイプであったとしても、発話速度やボリュームが互いに異なる音声タイプは、互いに異なる音声タイプとして識別されてよい。実際に、テキスト－音声変換は、ＴＴＳ（Ｔｅｘｔ－Ｔｏ－Ｓｐｅｅｃｈ）のような文字－音声自動変換技術によって行われてよい。さらに、テキスト－音声変換機能４２０は、入力されたテキストを選択された音声タイプの音声に変換したものを予め聞くことのできる視聴機能４２３、および入力されたテキストを選択された音声タイプの音声に変換して映像コンテンツに対するタイムラインに追加するための音声追加機能４２４をさらに含んでよい。例えば、音声追加機能４２４がユーザによって選択（一例として、ＰＣ環境においてユーザが音声追加機能４２４に対応する領域をマウスでクリック、またはタッチスクリーン環境においてユーザが音声追加機能４２４に対応する領域を指でタッチ）した場合、コンテンツ編集ツール３２０は、ユーザがテキスト入力機能４２１によって入力したテキストを、音声タイプ選択機能４２２によって選択された音声タイプの音声に変換した後、映像コンテンツに対するタイムラインに追加してよい。該当の音声がタイムラインのどこに追加されるかについては、以下でさらに詳しく説明する。

また、コンテンツ編集ツール３２０は、予め製作された効果音を映像コンテンツに対するタイムラインに追加するための効果音追加機能４３０を含んでよい。効果音追加機能４３０は、予め製作された多数の効果音のリストを表示し、効果音の視聴を実行するための機能や、効果音をタイムラインの特定の時間に追加するための機能を含んでよい。必要によっては、ユーザが所望する効果音を外部ファイルから追加してもよいし、直接生成してもよい。

また、コンテンツ編集ツール３２０は、映像コンテンツに対するタイムラインを可視的に表現するためのタイムライン表示機能４４０を含んでよい。タイムライン表示機能４４０は、ユーザによって選択された映像コンテンツから抽出されたサムネイルを時間に従って表示するための機能を含んでよい。タイムラインに適用される時間は、映像コンテンツの時間に対応してよく、実施形態によっては、予め定義された時間（一例として、５分）に制限されてもよい。例えば、コンテンツ編集ツール３２０は、映像コンテンツの５分間の分量のフレームのうちからサムネイルを抽出し、タイムライン表示機能４４０によって時間に従って表示してよい。このとき、ユーザは、タイムライン表示機能４４０のサムネイルを目で確認しながら、所望する時点や区間に音声や効果音のような合成音を追加してよい。例えば、ユーザが所望する時点は、タイムインジケータ４５０によって設定されてよい。ユーザは、タイムインジケータ４５０をドラッグするか、所望するタイムラインの位置をクリックする方式により、タイムラインで所望する時点を設定してよい。図４において、タイムインジケータ４５０と関連して表示された時刻「０２：１６．４６」は、タイムラインでタイムインジケータ４５０が指示する時点を示してよい。

ユーザがテキスト－音声変換機能４２０に含まれる音声追加機能４２４を選択すると、テキスト入力機能４２１によって入力されたテキストは、音声タイプ選択機能４２２によって選択された音声タイプの音声に変換されてよく、このとき、変換された音声は、タイムインジケータ４５０が指示する時点に追加されてよい。

また他の実施形態として、ユーザが音声追加機能４２４を選択すると、テキスト入力機能４２１によって入力されたテストおよび音声タイプ選択機能４２２によって選択された音声タイプは、タイムインジケータ４５０が指示する時点に対応して保存されてよい。このような情報を利用しながら、必要な場合（例えば、視聴または動画生成の要求時など）に、入力されたテキストを選択された音声タイプの音声に変換して提供してよい。

また、コンテンツ編集ツール３２０は、タイムラインで音声や効果音のような合成音が追加された区間を表示してよい。例えば、点線枠４６０にはタイムラインに追加された音声に対する区間を、点線枠４７０にはタイムラインに追加された効果音に対する区間をそれぞれ示してよい。例えば、点線枠４６０で「テキスト１」に対応する区間は、ユーザがテキスト入力機能４２１によって入力したテキスト１によって変換された音声が追加された区間を意味してよい。該当の区間の位置には、実際には「テキスト１」の内容のうちの少なくとも一部が表示されることにより、ユーザが追加された音声の内容を容易に確認することができるように支援する。

このように、ユーザは、コンテンツ編集ツール３２０を利用して音声をリアルタイムで生成したり、予め生成された効果音などを活用したりすることで、自身が所望する合成音を映像コンテンツに容易に追加することができ、これにより、映像コンテンツが既に含んでいる情報を編集するのではなく、新たな合成音を追加するなどのコンテンツ編集を容易に処理することが可能となる。

さらに、コンテンツ編集ツール３２０は、合成音が追加された映像コンテンツを保存するための保存機能４８０、および合成音が追加された映像コンテンツをユーザの電子機器にダウンロードするためのダウンロード機能４９０をさらに含んでよい。

以下、コンテンツ編集ツール３２０が提供することのできる、より多様な機能について説明する。

図５は、本発明の一実施形態における、効果音編集機能の例を示した図である。図５は、図４を参照しながら説明した画面例４００の一部分５００を示している。ユーザがコンテンツ編集ツール３２０でタイムラインと関連して表示された効果音を選択すると、選択された効果音に対する効果音編集機能が提供されてよい。図５の実施形態は、ユーザが効果音２（５１０）を選択することにより、点線枠５２０のように効果音編集機能が提供された例を示している。例えば、ＰＣ環境のユーザが、効果音２（５１０）が表示された領域をマウスオーバーした場合、点線枠５２０のように効果音編集機能が提供されてよい。効果音編集機能は、効果音２（５１０）のタイムライン上における開始時点を変更するための時点変更機能５２１、および効果音２（５１０）をコピー、切り取り、および／または削除するための編集機能５２２を含んでよい。コピーあるいは切り取られた効果音は、タイムラインの他の時点に貼り付けられてよい。例えば、コピーあるいは切り取られた効果音２（５１０）は、ユーザの入力により、図４で説明したタイムインジケータ４５０が指示する時点に貼り付けられてよい。

図６は、本発明の一実施形態における、音声編集機能の例を示した図である。図６は、図４を参照しながら説明した画面例４００の一部分６００を示している。ユーザがコンテンツ編集ツール３２０でタイムラインと関連して表示された音声を選択すると、選択された音声に対する効果音編集機能が提供されてよい。図６の実施形態は、ユーザがテキスト３（６１０）を選択することにより、点線枠６２０のように音声編集機能が提供される例を示している。実質的に、ユーザは、テキスト３（６１０）の内容を編集することによって音声を編集してよい。例えば、ユーザがテキスト３（６１０）の内容を変更すると、コンテンツ編集ツール３２０は、変更されたテキストの内容を予め選択された音声タイプの音声に再変換することによって既存の音声と代替してよい。

他の例として、テキストに対する音声への変換は、音声提供が必要な場合（例えば、視聴または動画生成の要求時など）まで遅延されてよい。この場合、特定の時点に対応するテキストおよび音声タイプをアップデートすることにより、ユーザは自由にテキストの内容を変更してよい。

テキストの内容を編集する機能は、図４を参照しながら説明したテキスト－音声変換機能４２０のテキスト入力機能４２１によって行われてよく、または、以下で図７を参照しながら説明するように、個別の音声リストに基づいて行われてよい。

また、ユーザは、テキストの内容だけではなく、音声タイプを変更してもよい。実施形態によっては、テキストの内容を変更された音声タイプの内容に再変換することによって既存の音声と代替してもよいし、特定の時点に対応するテキストおよび音声タイプをアップデートして保存してもよい。

このような音声タイプの変更は、図４を参照しながら説明したテキスト－音声変換機能４２０の音声タイプ選択機能４２２によって行われてよく、または、図７を参照しながら説明するように、個別の音声リストに基づいて行われてよい。一例として、コンテンツ編集ツール３２０は、ユーザが音声タイプ選択機能４２２によって他の音声タイプを選択するか、図７で説明する音声リストから他の音声タイプを選択した場合、選択された他の音声タイプに従ってテキスト３（６１０）の内容を再変換してよく、再変換された音声を既存の音声と代替してよい。実施形態によっては、音声に対してコピー、切り取り、および／または削除するための機能が提供されてよい。

図７は、本発明の一実施形態における、音声リストを編集する機能の例を示した図である。図７は、コンテンツ編集ツール３２０が提供することのできる音声リストの編集機能の画面例７００を示している。第１点線枠７１０は、音声リストに含まれる個別の音声に対して設定された音声タイプ（一例として、図７のボイスフォント）を、第２点線枠７２０は、個別の音声のタイムラインにおける開始時間を、第３点線枠７３０は、個別の音声に対応するテキストの内容を、第４点線枠７４０は、個別の音声の長さをそれぞれ示している。このとき、コンテンツ編集ツール３２０は、第１点線枠７１０に示された個別の音声別の音声タイプを、他の音声タイプに変更するための機能を提供してよい。また、コンテンツ編集ツール３２０は、第３点線枠７３０に示されたテキストの内容を編集するための機能を提供してよい。また、第５点線枠７５０は、個別の音声に対する視聴のための機能を、第６点線枠７６０は、個別の音声を削除するための機能をそれぞれ示している。さらに、音声リストの編集機能は、新たな音声を生成するための機能を含んでもよい。第７点線枠７７０は、新たな音声の生成のために音声タイプ、開始時間、およびテキストの内容を設定するための機能を示している。

図８は、本発明の一実施形態における、音声タイプを編集する機能の例を示した図である。図８は、コンテンツ編集ツール３２０が提供することのできる音声タイプの編集機能の画面例８００を示している。音声タイプを編集する機能は、多様な音声タイプのうちから主に使用する音声タイプを選択するための機能、および特定の音声タイプの音声を聞くための機能を含んでよい。例えば、ユーザが音声タイプＫ１－嬉しい８１０を選択し、テキスト入力機能８２０によってテキストを入力した後に視聴ボタン８３０を押した場合、入力されたテキストを音声タイプＫ１－嬉しい８１０によって変換した音声を視聴することができる。

図７および図８は、音声リストを編集する機能と音声タイプを編集する機能をそれぞれ示しており、実施形態によっては、図７の音声リストを編集する機能と図８の音声タイプを編集する機能を１つのウィンドウやページで実現することにより、ユーザが個別の音声に対するテキストの内容や音声タイプなどをより簡単に編集できるようにしてもよい。

図９は、本発明の一実施形態における、ユーザ自身の音声タイプを生成する機能の例を示した図である。音声タイプを生成する機能は、生成しようとする音声タイプ名の入力を受ける機能９１０、予め定義された音声タイプのうちから所望の音声タイプを選択する機能９２０、発話の速度を調節する機能９３０、発話のボリュームを調節する機能９４０、および生成された音声タイプの音声を視聴するための機能９５０を含んでよい。生成された音声タイプは、該当のユーザと関連付けて保存されてよく、ユーザは、一例として、図８に示すような「マイボイスフォント」において自身が生成した音声タイプを確認および／または選択してよい。

図１０は、本発明の一実施形態における、コンテンツ編集支援方法の例を示したフローチャートである。本実施形態に係るコンテンツ編集支援方法は、コンテンツ編集ツール３２０を利用してコンテンツ編集支援のためのサービスを提供するコンピュータ装置２００によって実行されてよい。このとき、コンピュータ装置２００のプロセッサ２２０は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのコンピュータプログラムのコードとによる制御命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、プロセッサ２２０は、コンピュータ装置２００に記録されたコードが提供する制御命令に従ってコンピュータ装置２００が図１０の方法に含まれる段階１０１０～段階１０６０を実行するようにコンピュータ装置２００を制御してよい。

段階１０１０において、コンピュータ装置２００は、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出してよい。コンテンツ編集ツールは、図３を参照しながら説明したコンテンツ編集ツール３２０に対応してよい。ユーザがコンテンツ編集ツールで映像コンテンツを選択すると、コンピュータ装置２００は、映像コンテンツから複数のスナップショットを抽出してよい。例えば、コンピュータ装置２００は、複数のスナップショットとして、映像コンテンツから一定の間隔のフレームを抽出してもよいし、映像コンテンツを分析して登場人物が含まれているか特定のシーンやアクションが含まれているフレームを抽出してもよい。他の例として、コンピュータ装置２００は、映像コンテンツから、音声が変化する区間のフレームをスナップショットとして抽出してもよい。

段階１０２０において、コンピュータ装置２００は、抽出された複数のスナップショットをコンテンツ編集ツールでタイムラインに従って表示してよい。例えば、図４では、タイムライン表示機能４４０によってタイムラインに従って複数のスナップショットが表示される例について説明した。

段階１０３０において、コンピュータ装置２００は、コンテンツ編集ツールに入力されたテキストおよびコンテンツ編集ツールで選択された音声タイプに基づき、入力されたテキストを選択された音声タイプの音声に変換してよい。音声タイプは、音と感情との調和に基づいて予め定義され、コンテンツ編集ツールで提供される多数の音声タイプのうちから選択されてよい。例えば、ユーザがコンテンツ編集ツールに表示された多数の音声タイプのうちから１つを選択した場合、コンピュータ装置２００は、選択された音声タイプを確認してよい。テキストを音声に変換することは、上述したように、ＴＴＳのような文字音声自動変換技術によって行われてよい。

実施形態によっては、コンピュータ装置２００は、タイムラインに対して選択された時点を基準に、タイムラインで変換された音声を追加することのできる区間の長さを確認し、確認された区間の長さに応じて入力されるテキストの長さを制限するか、または変換される音声の発話速度を調節してよい。例えば、タイムラインに対して選択された時点に音声を追加するためにテキストを入力するとき、テキストが長すぎて、変換された音声の長さが追加可能な区間の長さを超えることがある。この場合、コンピュータ装置２００は、入力するテキストの長さを制限するか、または変換された音声の発話速度を相対的に速く調節することにより、変換された音声の長さが追加可能な区間の長さを超過しないように制御してよい。また、該当の区間に入力可能なテキストの長さおよび予想合成音声時間を予めユーザに提供してもよい。

他の実施形態において、コンピュータ装置２００は、映像コンテンツでタイムラインに対して選択された時点に対するバックグラウンドサウンドのボリュームを確認し、確認されたバックグラウンドサウンドのボリュームに応じて変換される音声の発話ボリュームを調節してよい。例えば、映像コンテンツでバックグラウンドサウンドのボリュームが極めて大きい場合、追加される音声の聞こえが悪くなるという事態が発生することがある。したがって、コンピュータ装置２００は、バックグラウンドサウンドが大きいほど追加される音声の発話ボリュームも大きくなるようにしてテキストを音声に変換してよい。

また他の実施形態において、コンピュータ装置２００は、入力されたテキストを校正する第１機能および入力されたテキストを他の言語の文字に翻訳する第２機能のうちの少なくとも１つの機能を提供してよく、第１機能によって校正されるか第２機能によって翻訳されたテキストを、選択された音声タイプの音声に変換してよい。言い換えれば、コンピュータ装置２００は、テキストを音声に変換する前に、コンテンツ編集ツールでテキストを校正するか、または他の言語に変換するための機能をユーザに提供してよい。入力されたテキストを校正する第１機能の場合、入力されたテキストの綴字または文法的な間違いの校正、音声合成により有利な形態の入力（例えば、必要な部分に分かち書きを追加、または合成が適切に行われない単語を発音記号そのままで表記する方法など）によって修正するか、悪口や卑属語などの禁則語が入力された場合には、これを認識して合成をできなくするように除去する機能などを含んでよい。

段階１０４０において、コンピュータ装置２００は、コンテンツ編集ツールでタイムラインに対して選択された時点に、変換された音声を追加してよい。例えば、コンピュータ装置２００は、タイムライン上で特定の時点を示すタイムインジケータをドラッグすることによって選択された時点に、変換された音声を追加してよい。タイムインジケータは、図４を参照しながら説明したタイムインジケータ４５０に対応してよい。

一方、追加された音声に対応するテキストの内容のうちの少なくとも一部が、コンテンツ編集ツールでタイムラインに対して選択された時点と連携して表示されてよい。例えば、図４では、点線枠４６０により、テキストの内容のうちの少なくとも一部が、タイムラインに対して該当のテキストに対して選択された時点と連携して表示される例を示している。このとき、少なくとも一部の内容が表示された領域に対するユーザの入力により、追加された音声に対応するテキストの内容、追加された音声に対応する音声タイプ、および追加された音声の開始時間のうちの少なくとも１つを編集するための機能が提供されてよい。一例として、図６では、少なくとも一部の内容が表示された領域に対するマウスオーバー入力によって音声編集機能が提供される例について説明した。

また、他の実施形態において、コンピュータ装置２００は、映像コンテンツでタイムラインに対して選択された時点に対する話し手の音声を除去した後、変換された音声を追加してよい。言い換えれば、映像コンテンツでの話し手の音声を変換された音声と代替してよい。

段階１０５０において、コンピュータ装置２００は、コンテンツ編集ツールで提供される複数の効果音のうちの少なくとも１つの効果音の選択を受けてよい。例えば、図４では、効果音追加機能４３０によって予め制作された多数の効果音のリストを表示し、効果音に対する視聴を実行するか、効果音をタイムラインの特定の時間に追加するための機能を含んでよい。

段階１０６０において、コンピュータ装置２００は、コンテンツ編集ツールでタイムラインに対して選択された時点に、選択された効果音を追加してよい。実施形態によっては、このような段階１０５０および段階１０６０は、上述した段階１０３０および段階１０４０と並列的に実行されてもよいし、省略されてもよい。あるいは、段階１０３０および段階１０４０は省略されてもよい。

また、実施形態によっては、コンピュータ装置２００は、追加された音声に対するコピーまたは切り取り機能を提供してよく、コンテンツ編集ツールでタイムラインに対して選択された時点に、その機能を利用してコピーまたは切り取られた音声を追加してもよい。

他の実施形態において、コンピュータ装置２００は、コンテンツ編集ツールでユーザの音声タイプを生成する機能を提供してよい。このとき、その機能は、予め定義された音声タイプの発話速度および発話ボリュームのうちの少なくとも１つを調節して新たな音声タイプを生成する機能を含んでよい。

また他の実施形態において、コンピュータ装置２００は、映像コンテンツを分析することで、変換された音声を追加するタイムライン上の時点を推薦してよい。例えば、コンピュータ装置２００は、映像コンテンツを分析することにより、登場人物が登場する時点や特定のシーン、またはアクションが登場する時点、または音声特徴が変わる区間などを探索してよい。このように分析された情報を利用することにより、音声や効果音を追加する時点としてユーザに推薦したり、特定のキーワード（例えば、登場人物名、検索しようとする場面の内容など）に対する検索結果として提供したり、コンテンツを挿入するインジケータの移動時に該当の時点を基準に容易に移動したりするようにできる。

また他の実施形態において、コンピュータ装置２００は、映像コンテンツでタイムラインに対して選択された時点の映像を分析することで、選択された時点のための音声タイプおよび効果音のうちの少なくとも１つを推薦してよい。例えば、ユーザがタイムインジケータによって特定の時点を選択すると、コンピュータ装置２００は、選択された時点の映像を分析し、該当の時点に追加する音声に対する音声タイプまたは該当の時点に追加する効果音をユーザに推薦してよい。より具体的な例として、コンピュータ装置２００は、映像から分析される登場人物の性別、年代、体形や容姿などに応じて音声タイプを推薦したり、映像から分析される特定のシーンや場所などに応じて適切な効果音を推薦したりしてよい。

また他の実施形態において、コンピュータ装置２００は、映像コンテンツから音声を抽出してテキストに変換し、変換されたテキストをコンテンツ編集ツールで選択された音声タイプの音声に変換してよい。この後、コンピュータ装置２００は、変換された音声を、映像コンテンツから音声が抽出された区間に追加してよい。言い換えれば、コンピュータ装置２００は、映像コンテンツに含まれる音声の声および／または感情を他の声および／または他の感情に代替することのできる機能を提供してよい。このとき、他の声および／または他の感情は、コンテンツ編集ツールで選択される音声タイプ、またはコンピュータ装置２００が自主的に選択した音声タイプによって決定されてよい。

さらに他の実施形態において、コンピュータ装置２００は、タイムインジケータが指示する時点に対応する音節単位の音声に関するテキスト情報、およびその時点に対応するサムネイルのうちの少なくとも１つを提供してよい。

図１１は、本発明の一実施形態における、タイムインジケータが指示する時点に関する情報を提供する例を示した図である。図１１は、図４を参照しながら説明した画面例４００の一部分１１００を示している。上述したように、ユーザは、タイムインジケータ４５０をドラッグするかタイムラインの特定の時点（位置）を選択することにより、タイムラインから特定の時点を選択してよい。

一例として、ＰＣ環境では、ユーザがマウスでタイムインジケータ４５０をクリックした状態からドラッグすることによってタイムインジケータ４５０を移動させてよく、タッチスクリーン環境では、ユーザが指やペンなどでタイムインジケータ４５０をタッチした状態からドラッグすることによって、タイムインジケータ４５０を移動させてよい。このとき、タイムインジケータ４５０がクリックされた状態またはタッチされた状態の場合、コンテンツ編集ツール３２０は、タイムインジケータ４５０が指示する時点に対応するサムネイル１１１０および該当の時点に対応する音節単位の音声に関するテキスト情報１１２０を提供してよい。図４で説明する点線枠４６０でも対応するテキストの少なくとも一部が表示されてもよいが、これは、ユーザが該当の区間に追加された音声の内容を容易に確認できるようにするためのものである。

一方、本実施形態において、タイムインジケータ４５０が指示する時点に対応して提供される音節単位の音声に関するテキスト情報１１２０は、実際にタイムインジケータ４５０が指示する時点に出力される音節単位の音声に対するテキスト内容を含んでよい。図１１の実施形態では、ユーザによって選択（一例として、クリックまたはタッチ）されたタイムインジケータ４５０が指示している「０１：１７．１２」の時点に該当するサムネイル１１１０と、該当の時点に実際に追加される音節単位の音声に対するテキスト「こんにちは」が表示される例を示している。タイムインジケータ４５０がユーザによって選択された状態で他の時点にドラッグされた場合、他の時点に該当するサムネイルと他の時点に実際に追加される音節単位の音声に対するテキストが表示されることは、上述した説明から容易に理解することができるであろう。この場合、ユーザは、タイムインジケータ４５０をドラッグしながら、多様な時点に対するサムネイルおよび／または該当の時点に追加される音節単位の音声に対するテキストを簡単に確認することができるようになる。

このように、本発明の実施形態によると、ユーザが所望する合成音をリアルタイムで生成して映像コンテンツの所望する部分に追加することができる。

上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例は、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけでなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

３１０：複数のユーザ
３２０：コンテンツ編集ツール
３００：コンテンツ編集支援サーバ

Claims

少なくとも１つのプロセッサを含むコンピュータ装置のコンテンツ編集支援方法であって、
前記少なくとも１つのプロセッサが、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出する段階、
前記少なくとも１つのプロセッサが、前記抽出された複数のスナップショットを前記コンテンツ編集ツールでタイムラインに従って表示する段階、
前記少なくとも１つのプロセッサが、前記コンテンツ編集ツールに入力されたテキストを音声に変換する段階、および
前記少なくとも１つのプロセッサが、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記変換された音声を追加する段階
を含み、
前記少なくとも１つのプロセッサが、前記映像コンテンツから音声を抽出してテキストに変換する段階、
前記少なくとも１つのプロセッサが、前記変換されたテキストを前記コンテンツ編集ツールで選択された音声タイプの音声に変換する段階、および
前記少なくとも１つのプロセッサが、前記変換されたテキストから変換された音声を前記映像コンテンツで音声が抽出された区間に追加する段階
をさらに含む、
コンテンツ編集支援方法。
前記変換する段階は、
前記映像コンテンツで前記タイムラインに対して選択された時点に対するバックグラウンドサウンドのボリュームを確認する段階、および
前記確認されたバックグラウンドサウンドのボリュームに応じて前記変換される音声の発話ボリュームを調節する段階
を含む、請求項１に記載のコンテンツ編集支援方法。
前記少なくとも１つのプロセッサが、前記追加された音声に対するコピーまたは切り取り機能を提供する段階、および
前記少なくとも１つのプロセッサが、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記機能によってコピーまたは切り取られた音声を追加する段階
をさらに含む、請求項１または２に記載のコンテンツ編集支援方法。
前記少なくとも１つのプロセッサが、コンテンツ編集ツールでユーザの音声タイプを生成する機能を提供する段階
をさらに含み、
前記機能は予め定義された音声タイプの発話速度および発話ボリュームのうちの少なくとも１つを調節して新たな音声タイプを生成する機能を含む、
請求項１または２に記載のコンテンツ編集支援方法。
前記追加された音声に対応するテキストの内容のうちの少なくとも一部が、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点と連携して表示される、
請求項１または２に記載のコンテンツ編集支援方法。
前記少なくとも一部の内容が表示された領域に対するユーザの入力によって前記追加された音声に対応するテキストの内容、前記追加された音声に対応する音声タイプ、および前記追加された音声の開始時間のうちの少なくとも１つを編集するための機能が提供される、
請求項５に記載のコンテンツ編集支援方法。
前記少なくとも１つのプロセッサが、前記コンテンツ編集ツールで提供された複数の効果音のうちの少なくとも１つの効果音の選択を受ける段階、および
前記少なくとも１つのプロセッサが、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階
をさらに含む、請求項１または２に記載のコンテンツ編集支援方法。
前記追加された効果音に関する情報が、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点と連携して表示され、
前記情報が表示された領域に対するユーザの入力によって前記追加された効果音の種類および開始時間のうちの少なくとも１つを編集するための機能が提供される、
請求項７に記載のコンテンツ編集支援方法。
前記少なくとも１つのプロセッサが、前記映像コンテンツを分析することで、前記変換された音声を追加する前記タイムライン上の時点を推薦する段階
をさらに含む、請求項１または２に記載のコンテンツ編集支援方法。
前記少なくとも１つのプロセッサが、前記映像コンテンツで前記タイムラインに対して選択された時点の映像を分析することで、前記選択された時点のための音声タイプおよび効果音のうちの少なくとも１つを推薦する段階
をさらに含む、請求項１または２に記載のコンテンツ編集支援方法。
前記変換する段階は、
前記タイムラインに対して選択された時点を基準に、前記タイムラインで前記変換された音声を追加することのできる区間の長さを確認する段階、および
前記確認された区間の長さに応じて前記入力されるテキストの長さを制限するか、または前記変換される音声の発話速度を調節する段階
を含む、請求項１または２に記載のコンテンツ編集支援方法。
前記変換された音声を追加する段階は、
前記映像コンテンツから前記タイムラインに対して選択された時点に対する話し手の音声を除去した後、前記変換された音声を追加する、
請求項１または２に記載のコンテンツ編集支援方法。
前記変換する段階は、
前記入力されたテキストを校正する第１機能および前記入力されたテキストを他の言語の文字に翻訳する第２機能のうちの少なくとも１つの機能を提供する段階、および
前記第１機能によって校正されるか前記第２機能によって翻訳されたテキストを、前記選択された音声タイプの音声に変換する段階
を含む、請求項１に記載のコンテンツ編集支援方法。
前記少なくとも１つのプロセッサが、前記タイムライン上でタイムインジケータが指示する時点に対応するサムネイル、および前記タイムインジケータが指示する時点に対応する音節単位の音声に対するテキスト情報のうちの少なくとも１つを提供する段階
をさらに含む、請求項１に記載のコンテンツ編集支援方法。
コンピュータ装置と結合して請求項１乃至１４のうちのいずれか一項に記載の方法をコンピュータ装置に実行させる、コンピュータプログラム。
請求項１乃至１４のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサが、
コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出し、
前記抽出された複数のスナップショットを前記コンテンツ編集ツールでタイムラインに従って表示し、
前記コンテンツ編集ツールに入力されたテキストを音声に変換し、
前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記変換された音声を追加し、さらに、
前記映像コンテンツから音声を抽出してテキストに変換し、
前記変換されたテキストを前記コンテンツ編集ツールで選択された音声タイプの音声に変換し、かつ、
前記変換されたテキストから変換された音声を前記映像コンテンツで音声が抽出された区間に追加する、
コンピュータ装置。