JP7277635B2 - イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム - Google Patents

イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム Download PDF

Info

Publication number
JP7277635B2
JP7277635B2 JP2022039998A JP2022039998A JP7277635B2 JP 7277635 B2 JP7277635 B2 JP 7277635B2 JP 2022039998 A JP2022039998 A JP 2022039998A JP 2022039998 A JP2022039998 A JP 2022039998A JP 7277635 B2 JP7277635 B2 JP 7277635B2
Authority
JP
Japan
Prior art keywords
timeline
length
speech synthesis
time
editing tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022039998A
Other languages
English (en)
Other versions
JP2022145617A (ja
Inventor
ジェミン キム
スミ イ
ジュヒョン イ
ソヒョン パク
ヘイン チョン
ジョンミン ソン
ソジョン ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022145617A publication Critical patent/JP2022145617A/ja
Application granted granted Critical
Publication of JP7277635B2 publication Critical patent/JP7277635B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Systems (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • User Interface Of Digital Computer (AREA)

Description

以下の説明は、イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステムに関する。
イメージを含む資料に音源(音声合成(Text To Speech:TTS)含む)を適用しようとするとき、一例として、パワーポイントで形成された資料の場合には、各スライドにそれぞれ1つの音源を追加しなければならないという面倒な作業が求められた。このとき、各スライドには1つの音源しか追加することができないという制約があり、再生開始時間を自由に編集することができないというも問題もあった。
このように、映像コンテンツの製作と消費のニーズが高まった現在の市場における音声合成を利用した従来の映像製作技術は、面倒で制限的な形態しか提供することができないという問題を抱えている。
韓国公開特許第10-2014-0147401号公報(公開日:2014年12月30)
多数のイメージに対してユーザが希望する音声合成をリアルタイムで生成してユーザが希望する再生開始時間にダビングすることができ、生成された音声合成がダビングされた多数のイメージによって映像コンテンツを生成および提供することができる、映像コンテンツ生成方法およびシステムを提供する。
少なくとも1つのプロセッサを含むコンピュータ装置の映像コンテンツ生成方法であって、前記少なくとも1つのプロセッサにより、コンテンツ編集ツールにアップロードされたイメージのスナップショットを抽出する段階、前記少なくとも1つのプロセッサにより、前記抽出されたスナップショットを前記コンテンツ編集ツールでタイムラインに沿って表示する段階、前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールに前記表示されたスナップショットの長さを調節する長さ調節機能を提供する段階、前記少なくとも1つのプロセッサにより、前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節する段階、および前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールに入力されるテキストに対する音声合成を生成して前記タイムラインの選択された時点に追加する段階を含むことを特徴とする映像コンテンツ生成方法を提供する。
一側面によると、前記表示されたスナップショットの長さは、前記表示されたスナップショットに対応するイメージが前記タイムライン上で占有する時間である前記ランニングタイムに比例し、前記タイムラインに沿って表示する段階は、前記抽出されたスナップショットをデフォルトランニングタイムに比例する長さで前記コンテンツ編集ツールに表示することを特徴としてよい。
他の側面によると、前記長さ調節機能を提供する段階は、前記表示されたスナップショットのうちの第1スナップショットに対して、予め設定された左側領域または右側領域に対するユーザのタッチ&ドラッグまたはクリック&ドラッグによって前記第1スナップショットの長さを増加または減少させる機能を提供することを特徴としてよい。
また他の側面によると、前記長さ調節機能を提供する段階は、前記第1スナップショットの前記左側領域または前記右側領域に対するユーザのタッチまたはクリックが維持される間、前記第1スナップショットの左側終端部分または右側終端部分に対する前記タイムライン上の時点を表示することを特徴としてよい。
また他の側面によると、前記ランニングタイムを前記調節された長さによって調節する段階は、前記長さが調節されたスナップショットに対応するイメージが前記タイムライン上で占有する時間である前記ランニングタイムを前記長さが調節された程度に比例するように増加または減少させることを特徴としてよい。
また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記コンテンツ編集ツールで選択された音声タイプによって前記テキストに対する音声合成を生成することを特徴としてよい。
また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記タイムライン上で特定の時点を示すタイムインジケータの移動によって選択された前記タイムラインの特定の時点に、前記生成された音声合成を追加することを特徴としてよい。
また他の側面によると、前記映像コンテンツ生成方法は、前記少なくとも1つのプロセッサにより、ユーザの入力に基づいて、前記タイムラインに追加された前記音声合成の前記タイムライン上の位置を移動させる段階をさらに含んでよい。
また他の側面によると、前記映像コンテンツ生成方法は、前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで提供された複数の効果音のうちから1つの効果音が選択される段階、および前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階をさらに含んでよい。
また他の側面によると、前記映像コンテンツ生成方法は、前記少なくとも1つのプロセッサにより、前記表示されたスナップショットの順序を変更するための機能を提供する段階をさらに含んでよい。
また他の側面によると、前記イメージは、イメージ化が可能な複数のページを含むファイルの形態でアップロードされることを特徴としてよい。
また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記タイムラインに追加しようとする第1音声合成が前記タイムラインに既に追加された第2音声合成とランニングタイムの少なくとも一部が重なる場合、前記第1音声合成を前記第2音声合成とは異なる音声チャンネルとして前記タイムラインに追加することを特徴としてよい。
また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記タイムラインの選択された時点に追加された音声合成に対するインジケータを前記コンテンツ編集ツールに表示することを特徴としてよい。
また他の側面によると、前記インジケータによって前記テキストの少なくとも一部が表示されることを特徴としてよい。
また他の側面によると、前記インジケータの長さは、前記音声合成の長さに比例することを特徴としてよい。
また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記インジケータに対するユーザ入力に基づいて、前記音声合成の生成に利用された音声タイプに関する情報、前記音声合成の長さに関する情報、および前記テキストのうちの少なくとも1つを表示することを特徴としてよい。
前記方法をコンピュータ装置に実行させるためのコンピュータプログラムを提供する。
前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサにより、コンテンツ編集ツールにアップロードされたイメージのスナップショットを抽出し、前記抽出されたスナップショットを前記コンテンツ編集ツールでタイムラインに沿って表示し、前記コンテンツ編集ツールに前記表示されたスナップショットの長さを調節する長さ調節機能を提供し、前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節し、前記コンテンツ編集ツールに入力されるテキストに対する音声合成を生成して前記タイムラインの選択された時点に追加することを特徴とする、コンピュータ装置を提供する。
多数のイメージに対してユーザが希望する音声合成をリアルタイムで生成してユーザが希望する再生開始時間にダビングすることができ、生成された音声合成がダビングされた多数のイメージを利用して映像コンテンツを生成および提供することができる。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。 本発明の一実施形態における、映像コンテンツ生成システムの例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 本発明の一実施形態における、映像コンテンツ生成方法の例を示したフローチャートである。
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態に係るコンテンツ生成システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係るコンテンツ生成方法は、コンテンツ生成システムを実現する少なくとも1つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されたコンピュータプログラムの制御にしたがって本発明の実施形態に係るコンテンツ生成方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合してコンテンツ生成方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境を説明するための一例に過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、コンテンツ提供サービス、グループ通話サービス(または、音声会議サービス)、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど)を提供するシステムであってよい。
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示したコンピュータ装置200によって実現されてよい。
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどはプロセッサ220やメモリ210に伝達されてよく、ファイルなどはコンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、少なくとも1つのコンピュータ装置200と1つの装置で構成されてもよい。
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
図3は、本発明の一実施形態における、映像コンテンツ生成システムの例を示した図である。図3は、コンテンツ生成サーバ300、複数のユーザ310、およびコンテンツ編集ツール320を示している。
コンテンツ生成サーバ300は、少なくとも1つのコンピュータ装置200で実現されてよく、複数のユーザ310にコンテンツ編集ツール320を提供し、複数のユーザ310がコンテンツ編集ツール320を利用しながら複数のユーザ310それぞれがイメージに音声合成をダビングして映像コンテンツを生成することをサポートしてよい。
ここで、「イメージ」は、個別の複数のイメージ、イメージの束、またはイメージの束と少なくとも1つの個別のイメージを含んでよい。また、イメージの束は、PDFファイルのように1つのファイルに含まれたページをイメージ化したものを含んでよい。
複数のユーザ310は、コンテンツ生成サーバ300からコンテンツ編集ツール320の提供を受けてイメージから映像コンテンツを生成してよい。このとき、複数のユーザ310それぞれは、実質的に、ネットワーク170を介してコンテンツ生成サーバ300にアクセスしてコンテンツ編集ツール320の提供を受ける物理的な電子機器であってよい。このような物理的な電子機器もそれぞれ、図2を参照しながら説明したコンピュータ装置200で実現されてよい。
コンテンツ編集ツール320は、ウェブ方式またはアプリ方式で複数のユーザ310に提供されてよい。ウェブ方式とは、複数のユーザ310が、コンテンツ編集ツール320の機能が実現されていてコンテンツ生成サーバ300から提供されるウェブページを訪問し、該当のウェブページを通じて映像コンテンツの生成のための機能の提供を受ける方式を意味してよい。アプリ方式とは、複数のユーザ310に対応する物理的な電子機器それぞれにおいてインストールされて実行されるアプリケーションを通じてコンテンツ生成サーバ300に接続して、映像コンテンツの生成のための機能の提供を受ける方式を意味してよい。実施形態によって、映像コンテンツの生成のための機能が含まれたアプリケーションを利用して、複数のユーザ310に対応する物理的な電子機器それぞれが自律的に映像コンテンツの生成を処理してもよい。
一実施形態において、コンテンツ生成サーバ300は、ユーザがコンテンツ編集ツール320にアップロードしたイメージのサムネイルをタイムラインに沿ってコンテンツ編集ツール320に表示してよい。ユーザが複数のページで形成されたファイルをアップロードする場合、コンテンツ生成サーバ300は、複数のページをイメージ化し、イメージ化されたページのサムネイルをタイムラインに沿ってコンテンツ編集ツール320に表示してよい。
このとき、コンテンツ編集ツール320は、ユーザがタイムライン上のイメージの順序を調節するための機能を提供してよい。ユーザは、該当の機能を利用して、自身がアップロードしたイメージの順序を決定してよい。タイムライン上のイメージの順序は、最終的に生成される映像コンテンツにおいてイメージが登場する順序に対応してよい。
また、コンテンツ編集ツール320は、ユーザがタイムライン上のイメージのうちで希望するイメージを削除するための機能を提供してよい。言い換えれば、ユーザは、該当の機能を利用して、自身がアップロードしたイメージのうちで不要なイメージを削除することができる。
また、コンテンツ編集ツール320は、ユーザがタイムライン上で各イメージが占有する時間(または、区間)を調節するための機能を提供してよい。調節された時間は、最終的に生成される映像コンテンツにおいてイメージが登場する時間(または、区間)に対応してよい。例えば、コンテンツ編集ツール320に表示されるサムネイルの横の長さ(または、縦の長さ)は、イメージがタイムライン上で占有する時間(または、区間)に対応してよい。一例として、コンテンツ編集ツール320は、初めは4秒の時間(または、区間)に対応する長さでサムネイルを表示してよい。このとき、コンテンツ編集ツール320は、サムネイルの左側および/または右側終端部分をユーザがクリックあるいはタッチした後にドラッグすることによってサムネイルの長さを増減するための機能を提供してよい。この場合、調節されたサムネイルの長さにしたがい、タイムライン上でイメージが占有する時間が増減されてよい。
また、コンテンツ編集ツール320は、ユーザがタイムライン上で希望する時点や区間を選択するための機能を提供してよく、選択された時点や区間に対してユーザが希望する任意のテキストを連係させるためのユーザインタフェースを提供してよい。選択された時点や区間に対して任意のテキストが連係されれば、コンテンツ生成サーバ300は、連係されたテキストを自動で音声に変換し、選択された時点や区間に変換された音声を追加することにより、ユーザが希望する内容の音声を簡単かつ便利にイメージにダビングできるようにサポートすることができる。
図4~19は、本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。
図4は、図3を参照しながら説明したコンテンツ編集ツール320の第1画面例400を示している。本実施形態に係るコンテンツ編集ツール320の構成は一例に過ぎず、前記構成は実施形態によって多様に変更されてよい。
ユーザは、自身の電子機器を利用してコンテンツ編集ツール320にアクセスしてよく、コンテンツ編集ツール320は、ユーザがイメージをアップロードするための機能410を提供してよい。図4の第1画面例400では、動画やPDFファイルをアップロードする例について説明しているが、コンテンツ編集ツール320は、個別の複数のイメージや複数のイメージが含まれた1つのファイル、または1つのファイルと複数のイメージの組み合わせをアップロードするための機能を提供してもよい。このとき、ユーザがアップロードするイメージは、ユーザがコンテンツ編集ツール320にアクセスするために使用した電子機器のローカル保存場所に保存されたイメージを含んでよい。実施形態によって、ユーザがアップロードするイメージは、電子機器のローカル保存場所ではなく、ウェブ上に位置するイメージであってもよい。
また、コンテンツ編集ツール320は、イメージにダビングを追加するための機能420を提供してよい。一例として、機能420は、音声選択機能421およびテキスト入力機能422を含んでよい。音声選択機能421は、多様な種類の予め定義された音声タイプのうちから1つを選択するための機能であってよく、テキスト入力機能422は、音声合成(Text To Speech:TTS)を生成するためのテキストを入力するための機能であってよい。一例として、ユーザが、音声選択機能421で音声タイプ「音声1」を選択し、テキスト入力機能422にテキスト「こんにちは」を入力したとする。このとき、試し聞きボタン423やダビング追加ボタン424を選択(一例として、PC環境におけるクリックまたはタッチスクリーン環境におけるタッチによって選択)する場合、入力されたテキスト「こんにちは」と選択された音声タイプ「音声1」の識別子がコンテンツ編集ツール320からコンテンツ生成サーバ300に伝達されてよい。この場合、コンテンツ生成サーバ300は、音声タイプ「音声1」を使用してテキスト「こんにちは」に対する音声合成を生成してよく、生成された音声合成をコンテンツ編集ツール320からユーザの電子機器に伝達してよい。このとき、試し聞きボタン423の選択に応答して電子機器のスピーカから音声合成が出力されてよく、ダビング追加ボタン424の選択に応答して、機能410によってアップロードされたイメージと関連して音声合成がタイムラインに追加されてよい。より具体的に、コンテンツ編集ツール320は、最終的に生成される映像コンテンツに対するタイムラインを可視的に表現するためのタイムライン表示機能440を含んでよい。このとき、音声合成がタイムラインのどこに追加されるのかについては、以下でさらに詳しく説明する。
実施形態によって、音声選択機能421は、ユーザがお気に入り登録をした音声タイプのうちから1つを選択するように実現されてよい。このとき、全体の音声タイプのうちの特定の音声タイプをお気に入り登録するためのユーザインタフェースがユーザに提供されてよい。一例として、ユーザがダビング追加機能420に示された「全体表示」を選択する場合、ユーザに全体の音声タイプを表示するためのユーザインタフェースが提供されてよく、ユーザは、提供されたユーザインタフェースから、全体の音声タイプのうちの希望する少なくとも1つの音声タイプをお気に入り登録してよい。この場合、音声選択機能421は、ユーザがお気に入り登録した音声のうちの1つを選択するように実現されてよい。
また、コンテンツ編集ツール320は、予め製作されている効果音をイメージと関連させてタイムラインに追加するための効果音追加機能430を提供してよい。効果音追加機能430は、予め製作されている多数の効果音のリストを表示し、効果音に対する試し聞きを実行するか、効果音をタイムラインの特定の時間に追加したりするための機能を含んでよい。必要によっては、ユーザが希望する効果音を外部ファイルから追加するか、直接生成したりしてもよい。
また、コンテンツ編集ツール320は、タイムラインの特定の時点を示すタイムインジケータ450を表示してよい。図4では、タイムインジケータ450がデフォルトである00:00.00の時点にある例を示している。
また、図4のコンテンツ編集ツール320に示された保存ボタン460は、現在のプロジェクトの編集を保存するための機能を提供してよく、ダウンロードボタン470は、映像コンテンツを生成してユーザの電子機器にダウンロードするための機能を提供してよい。
図5は、コンテンツ編集ツール320の第2画面例500を示している。図5の第2画面例500では、図4で説明した機能410によってイメージがアップロードされることにより、アップロードされたイメージのサムネイルのうちの一部がタイムライン表示機能440によって表示された例を示している。このとき、各サムネイルは、予め設定された時間間隔(図5の実施形態では4秒の時間間隔)に対応するようにタイムライン表示機能440に表示されている。また、タイムライン表示機能440の領域に対するクリック&ドラッグ(または、タッチスクリーン環境のためのタッチ&ドラッグやスワイプジェスチャ)によってタイムラインとサムネイルの探索が可能となる。
図6は、コンテンツ編集ツール320の第3画面例600として、タイムライン表示機能440の領域に対するクリック&ドラッグによってタイムライン表示機能440の他の領域が表示される例を示している。第3画面例600では、最後のサムネイルであるサムネイル10により、ユーザが10枚のイメージをアップロードしたことが分かる。上述したように、10枚のイメージは、個別のイメージまたは10枚のイメージにイメージ化が可能なページを含む1つのファイルの形態でアップロードされてもよいし、n枚のイメージにイメージ化が可能なページを含むファイルとm枚の個別のイメージ(ここで、nとmは自然数であり、n+m=10)が結合された形態でアップロードされてもよい。2つ以上のファイルと個別イメージの組み合わせが使用可能であることは、容易に理解できるであろう。
図7は、コンテンツ編集ツール320の第4画面例700として、サムネイルの時間間隔を調節した例を示している。例えば、図7の第4画面例700において、タイムライン表示機能440の領域に表示されるサムネイルの横の長さは、イメージがタイムライン上で占有する時間(または、区間)に対応してよい。このとき、第4画面例700では、ユーザがサムネイル2の右側終端部分をクリックした後に右側方向にドラッグしながらサムネイルの長さを伸ばした例を示している。この場合、伸びたサムネイル2の長さにしたがい、サムネイル2に対応するイメージがタイムライン上で占有する時間(以下、ランニングタイム)が増えてよい。このとき、第4画面例700では、ユーザがサムネイル2の右側終端部分をクリックしている間、サムネイル2の右側終端部分に対応するタイムライン上の時点(9.9秒の時点)が表示されるユーザインタフェース710が示されている。したがって、ユーザは、このようなユーザインタフェース710に表示される時間に基づいてサムネイル2の長さを調節してよい。一方、サムネイル2の長さが増えた分だけ、サムネイル2の後ろのサムネイル(一例として、サムネイル3~10)の開始時点が変更されてよい。図7の実施形態では、サムネイル2の長さを調節してサムネイルに対応するイメージのランニングタイムを調節する例について説明したが、このような説明がタイムライン表示機能440の各サムネイルにも同じように適用可能であることは、容易に理解できるであろう。
図8は、コンテンツ編集ツール320の第5画面例800として、サムネイル4の時間間隔が減少した例を示している。第5画面例800では、ユーザがサムネイル4の右側終端部分をクリックした後に左側方向にドラッグしてサムネイルの長さを縮めた例を示している。このとき、縮まったサムネイル4の長さにしたがい、サムネイル4に対応するイメージのランニングタイムが減ってよい。この場合、第5画面例800では、ユーザがサムネイル4の右側終端部分をクリックしている間、サムネイル4の右側終端部分に対応するタイムライン上の時点(17秒の時点)が表示されるユーザインタフェース810が示されている。一方、サムネイル4の長さが減った分だけ、サムネイル4の後ろのサムネイル(一例として、サムネイル5~10)の開始時点が変更されてよい。
図7および図8の実施形態では、ユーザがサムネイルの右側終端部分をクリックした後に左右方向にドラッグしながらサムネイルの長さを増減することにより、サムネイルに対応するイメージのランニングタイムを増減する実施形態について説明した。このような説明により、実施形態によっては、コンテンツ編集ツール320がサムネイルの左側終端部分をクリックした後に左右方向にドラッグしてサムネイルの長さを増減することにより、サムネイルに対応するイメージのランニングタイムを増減する機能を提供することも可能であることは、容易に理解できるであろう。
図9は、コンテンツ編集ツール320の第6画面例900として、サムネイルの順序が変更された例を示している。コンテンツ編集ツール320は、ユーザが特定のサムネイルをクリック後、ドラッグ(タッチスクリーン環境ではタッチ後にドラッグ)することによってサムネイルの順序を変更するための機能を提供してよい。一例として、ユーザは、第5画面例800で、サムネイル1をクリックした後に右側方向にドラッグすることにより、サムネイル1とサムネイル2の順序を変更してよい。第6画面例900は、サムネイル1とサムネイル2の順序が変更された様子を示している。
図10は、コンテンツ編集ツール320の第7画面例1000として、特定のサムネイルが削除された例を示している。コンテンツ編集ツール320は、ユーザが特定のサムネイルを選択した後に削除するための機能を提供してよい。一例として、ユーザが特定のサムネイルに対してマウスオーバーイベントを発生させることによって該当のサムネイルを削除するためのユーザインタフェースが表示されてよく、ユーザは、表示されたユーザインタフェースを利用して該当のサムネイルを削除してよい。このようなサムネイル削除のための方法が多様に提供可能であることは、容易に理解できるであろう。一例として、ユーザは、特定のサムネイルをマウスでクリックして選択した後にキーボード上の「Del」キーを押すことにより、選択されたサムネイルを削除してもよい。
図11および図12は、コンテンツ編集ツール320の第8画面例1100および第9画面例1200として、ダビングを追加する例を示している。上述したように、タイムインジケータ450は、タイムラインの特定の時点を示すものである。例えば、ユーザは、タイムインジケータ450をドラッグするか希望するタイムラインの位置をクリックする方式によってタイムインジケータ450を移動させてよい。第8画面例1100で、タイムインジケータ450と関連して表示された時刻「00:06.00」は、タイムラインで現在タイムインジケータ450が指示する時点を示してよい。
また、第8画面例1100には、ダビング追加機能420のテキスト入力機能422によってテキスト「こんにちは、私はAAAです。」が入力された例を示している。このとき、ユーザがダビング追加ボタン424を選択する場合、第9画面例1200のように、テキスト「こんにちは、私はAAAです。」に対応する第1音声合成のための音声合成インジケータ1210がタイムライン表示機能440の領域にサムネイルと関連して表示されてよい。このとき、第1音声合成は、上述したように、コンテンツ生成サーバ300で生成されてコンテンツ編集ツール320に伝達されてよい。一方、音声合成インジケータ1210には、対応するテキスト「こんにちは、私はAAAです。」の少なくとも一部(第9画面例1200の「こんにちは、私」)と、第1音声合成の生成に使用された音声タイプの識別子(一例として、音声タイプ「音声1」の識別子(1)1220)が表示されてよい。
音声合成インジケータ1210の長さは、第1音声合成の長さに対応してよく、このような音声合成インジケータ1210の長さによって表示されるテキストの分量が異なってよい。このとき、第8画面例1100に示されたタイムインジケータ450の時刻は「00:06.00」であり、第9画面例1200に示されたタイムインジケータ450の時刻は「00:09.56」である。言い換えれば、第1音声合成のための音声合成インジケータ1210の長さは、3.56秒(00:09.56-00:06.00=00:03.56)であることが分かる。
一方、ユーザが第8画面例1100で試し聞きボタン423を選択する場合、テキスト「こんにちは、私はAAAです。」に対応する第1音声合成がユーザの電子機器のスピーカから出力されてよい。言い換えれば、電子機器は、コンテンツ編集ツール320の制御にしたがい、第1音声合成をスピーカから出力してよい。
図13は、コンテンツ編集ツール320の第10画面例1300として、ユーザが音声合成インジケータ1210上にマウスオーバーのような入力を発生させる場合、マウスポインタの位置(タッチスクリーン環境では、音声合成インジケータ1210の位置をタッチしてタッチを位置させる間のタッチの位置)と関連して音声合成情報1310が表示される例を示している。音声合成情報1310は、音声合成の生成に利用された音声タイプ(音声1)、音声合成の長さ(3.56秒(00:03.56))、入力されたテキスト(こんにちは、私はAAAです。)を含んでよい。
図14は、コンテンツ編集ツール320の第11画面例1400として、ユーザがサムネイル3の長さをタイムインジケータ450に合うように減らした場合の例を示している。この場合、サムネイル3の長さは、第1音声合成の長さが1.56であり、映像コンテンツのためのタイムラインでサムネイル3に対応するイメージのランニングタイムが1.56秒になることが分かる。
図15は、コンテンツ編集ツール320の第12画面例1500として、ユーザが第1音声合成の開始時点を変更する例を示している。言い換えれば、第12画面例1500では、第11画面例1400と比べて音声合成インジケータ1210の位置が変更していることが分かる。一例として、ユーザは、コンテンツ編集ツール320で音声合成インジケータ1210をクリックした状態で左側または右側にドラッグすることによって音声合成インジケータ1210の位置を変更してよく、このような音声合成インジケータ1210の位置変更によって第1音声合成の開始時点が変更されてよい。一方、音声合成インジケータ1210の位置の変更は、該当の音声合成インジケータ1210が選択(一例として、クリック)された状態でキーボードの方向キー入力によってなされてもよい。このような位置の変更は、音声合成インジケータ1210だけでなく、コンテンツ編集ツール320で提供される多様なインジケータそれぞれに対しても共通の方法で適用することが可能である。また、多数のインジケータは、1つのグループから選択されてもよい。一例として、キーボードの「Shift」キーを押した状態で多数のインジケータを順に選択(一例として、クリック)することにより、多数のインジケータが1つのグループとして選択されてよい。この場合、ユーザは、ドラッグやキーボードの方向キーの入力などにより、該当のグループに属する多数のインジケータの位置を一度に変更してもよい。
図16および図17は、コンテンツ編集ツール320の第13画面例1600および第14画面例1700として、ダビングをさらに追加する例を示している。
第13画面例1600は、ユーザがタイムインジケータ450を「00:05.78」の位置に移動させた後、音声選択機能421によって音声タイプ「音声2」を選択し、テキスト入力機能422によってテキスト「はじめまして。」を入力した例を示している。このとき、ユーザがダビング追加ボタン424を選択する場合、第14画面例1700のように、テキスト「はじめまして。」に対応する第2音声合成のための音声合成インジケータ1710がタイムライン表示機能440の領域にサムネイルと関連して表示されてよい。上述したように、音声合成インジケータ1710には、対応するテキスト「はじめまして」の少なくとも一部(第14画面例1700の「はじめ」)と、第2音声合成の生成に使用された音声タイプの識別子(一例として、音声タイプ「音声2」の識別子(2)1720)が表示されてよい。
音声合成インジケータ1710の長さは、第2音声合成の長さに対応してよく、このような音声合成インジケータ1710の長さによって表示されるテキストの分量が異なってよい。このとき、第13画面例1600に示されたタイムインジケータ450の時刻は「00:06.00」であり、第14画面例1700に示されたタイムインジケータ450の時刻は「00:08.24」である。言い換えれば、第2音声合成のための音声合成インジケータ1710の長さは、2.24秒(00:08.24-00:06.00=00:02.24)であることが分かる。
一方、ユーザが第13画面例1600で試し聞きボタン423を選択する場合、テキスト「はじめまして」に対応する第2音声合成がユーザの電子機器のスピーカから出力されてよい。言い換えれば、電子機器は、コンテンツ編集ツール320の制御にしたがって第2音声合成をスピーカから出力してよい。
図18は、コンテンツ編集ツール320の第15画面例1800として、効果音を追加する例を示している。第15画面例1800では、ユーザが効果音追加機能430によって効果音2を選択(一例として、点線枠1810内のプラスボタンをクリック)することにより、現在のタイムインジケータ450の時点を開始時点として効果音2のインジケータ1820が追加される例を示している。このとき、効果音2のインジケータ1820の長さは、点線枠1810に示したように2.46秒であってよい。このようなインジケータ1820も、ユーザがクリック&ドラッグによって他の時点に移動させることが可能である。
以上の実施形態では、サムネイルのための1つのチャンネルと音声合成のための1つのチャンネル、さらに効果音のための1つのチャンネルという合計3つのチャンネルによって、映像コンテンツを生成するための情報をタイムラインに沿って羅列する例について説明した。しかし、実施形態によっては、音声合成のための2つ以上のチャンネルおよび/または効果音のための2つ以上のチャンネルが使用されてもよい。
図19は、コンテンツ編集ツール320の第16画面例1900として、音声合成のための2つ以上のチャンネルを使用する例を示している。第16画面例1900では、2つの音声合成インジケータ1210、1710の一部分が重なって表示された例を示している。これは、少なくとも一部のタイムラインで2つの音声合成が同時に出力されることも可能であることを示している。図19の実施形態では、音声合成のための2つのチャンネルが使用されることを示しているが、3つ以上のチャンネルも使用可能であることは容易に理解できるであろう。また、効果音のための2つ以上のチャンネルが使用可能であることも容易に理解できるであろう。
図20は、本発明の一実施形態における、映像コンテンツ生成方法の例を示したフローチャートである。本実施形態に係る映像コンテンツ生成方法は、コンテンツ編集ツール320によってコンテンツ編集支援のためのサービスを提供するコンピュータ装置200で実行されてよい。このとき、コンピュータ装置200のプロセッサ220は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのコンピュータプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に記録されたコードが提供する制御命令にしたがってコンピュータ装置200が図20の方法に含まれる段階2010~2090を実行するようにコンピュータ装置200を制御してよい。
段階2010で、コンピュータ装置200は、コンテンツ編集ツールにアップロードされたイメージのスナップショットを抽出してよい。上述したように、イメージは、個別の複数のイメージや複数のイメージが含まれた1つのファイル、または1つのファイルと複数のイメージの組み合わせの形態でアップロードされてよい。特定の実施形態において、イメージは、イメージ化が可能な複数のページを含むファイルの形態でアップロードされてよい。一例として、PDFファイルがアップロードされる場合、コンピュータ装置200は、PDFファイルからイメージを抽出して複数のイメージファイルとして保存してよく、複数のイメージファイルそれぞれに対するスナップショットを抽出してよい。
段階2020で、コンピュータ装置200は、抽出されたスナップショットをコンテンツ編集ツールでタイムラインに沿って表示してよい。ここで、表示されたスナップショットの長さは、表示されたスナップショットに対応するイメージが前記タイムライン上で占有する時間のランニングタイムに比例してよい。このとき、コンピュータ装置200は、抽出されたスナップショットをデフォルトランニングタイムに比例する長さでコンテンツ編集ツールに表示してよい。図5では、4秒のデフォルトランニングタイムに比例する長さでスナップショットを表示する例について説明した。
段階2030で、コンピュータ装置200は、表示されたスナップショットの順序を変更するための機能を提供してよい。一例として、図8および図9では、サムネイル1とサムネイル2の位置を変更する例について説明した。実施形態によって、コンピュータ装置200は、特定のサムネイルを削除するための機能をさらに提供してもよい。
段階2040で、コンピュータ装置200は、コンテンツ編集ツールに表示されたスナップショットの長さを調節する長さ調節機能を提供してよい。一例として、コンピュータ装置200は、表示されたスナップショットのうちの第1スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ&ドラッグまたはクリック&ドラッグによって第1スナップショットの長さを増減させる機能を提供してよい。また、コンピュータ装置200は、第1スナップショットの左側領域または右側領域に対するユーザのタッチまたはクリックが維持される間、第1スナップショットの左側終端部分または右側終端部分に対するタイムライン上の時点を表示してよい。一例として、図7および図8では、サムネイルの長さを増減することと、このときにタイムライン上の時点が該当のスナップショットの右側終端部分に表示される例について説明した。
段階2050で、コンピュータ装置200は、長さ調節機能によって長さが調節されたスナップショットのランニングタイムを調節された長さによって調節してよい。一例として、コンピュータ装置200は、長さが調節されたスナップショットに対応するイメージが、タイムライン上で占有する時間の前記ランニングタイムがスナップショットの長さが調節された程度に比例するように増減してよい。
段階2060で、コンピュータ装置200は、コンテンツ編集ツールに入力されるテキストに対する音声合成を生成してタイムラインの選択された時点に追加してよい。このとき、コンピュータ装置200は、コンテンツ編集ツールで選択された音声タイプによってテキストに対する音声合成を生成してよい。年齢、性別、言語(韓国語、英語、中国語、日本語、スペイン語など)、感情(喜び、悲しみなど)などに応じて多数の音声タイプが予め生成されたものがコンテンツ編集ツールでユーザに提供されてよく、ユーザは、コンテンツ編集ツールから音声合成に利用するための特定の音声タイプを選択してよい。また、コンピュータ装置200は、タイムライン上で特定の時点を示すタイムインジケータの移動によって選択されたタイムラインの特定の時点に、生成された音声合成を追加してよい。図11および図12、図16および図17では、タイムインジケータ450によって選択された時点に音声合成を追加する例について説明した。
実施形態によって、コンピュータ装置200は、タイムラインに追加しようとする第1音声合成がタイムラインに既に追加された第2音声合成とランニングタイムの少なくとも一部が重なる場合、第1音声合成を第2音声合成とは異なる音声チャンネルとしてタイムラインに追加してよい。言い換えれば、生成される映像コンテンツにおいて2つ以上の音声合成が同時に出力されるようにダビングがなされてよい。図19では、2つの音声合成が互いに異なるチャンネルとしてタイムラインに追加される例について説明した。
また、コンピュータ装置200は、タイムラインの選択された時点に追加された音声合成に対するインジケータをコンテンツ編集ツールで表示してよい。実施形態によっては、インジケータによってテキストの少なくとも一部が表示されてよく、インジケータの長さは音声合成の長さに比例してよい。ここで、音声合成の長さとは、音声合成が出力される時間を意味してよい。
さらに、コンピュータ装置200は、インジケータに対するユーザ入力に基づいて、音声合成の生成に利用された音声タイプに関する情報、音声合成の長さに関する情報、およびテキストのうちの少なくとも1つを含む音声合成情報を出力してよい。音声合成情報は、インジケータに対するユーザ入力が発生する位置と関連して表示されてよい。一例として、図13では、音声合成インジケータ1210に関する音声合成情報1310を表示する例について説明した。
段階2070で、コンピュータ装置200は、ユーザの入力に基づいて、タイムラインに追加された音声合成のタイムライン上の位置を移動させてよい。一例として、図14および図15では、ユーザのクリック&ドラッグまたはタッチ&ドラッグのような入力によって音声合成の位置を移動させる例について説明した。
段階2080で、コンピュータ装置200は、コンテンツ編集ツールで提供された複数の効果音のうちから1つの効果音の選択を受けてよい。一例として、図18では、効果音追加機能430によってユーザに複数の効果音を提供し、ユーザが複数の効果音のうちから1つを選択することについて説明した。
段階2090で、コンピュータ装置200は、コンテンツ編集ツールでタイムラインに対して選択された時点に、選択された効果音を追加してよい。一例として、図18では、タイムインジケータ450によって選択された時点に効果音2を追加する例について説明した。
このとき、実施形態によって、段階2010~2090のうちの少なくとも一部が並列的に実行されてよい。一例として、段階2040と段階2050は、長さ調節のためのユーザの入力によってトリガーされてよく、段階2060と段階2070は、音声合成の追加のためのユーザの入力によってトリガーされてよく、段階2080と段階2090は、効果音の追加のためのユーザの入力によってトリガーされてよい。したがって、段階2040~2090の順序は、ユーザの入力によって変更されてもよい。
この後、ユーザが映像コンテンツの生成を要請する場合、コンピュータ装置200は、イメージを映像コンテンツに合わせたサイズに平準化した後、動画を生成してよい。実施形態によって、コンピュータ装置200は、映像コンテンツにウォーターマークおよび/または字幕を挿入してよい。この後、コンピュータ装置200は、タイムラインに合うように動画に音声合成および/または効果音を挿入して最終映像コンテンツを生成してよい。
このように、本発明の実施形態によると、多数のイメージに対してユーザが希望する音声合成をリアルタイムで生成してユーザが希望する再生開始時間にダビングすることができ、生成された音声合成がダビングされた多数のイメージによって映像コンテンツを生成および提供することができる。
上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体も挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
300:コンテンツ生成サーバ
310:ユーザ
320:コンテンツ編集ツール

Claims (19)

  1. 少なくとも1つのプロセッサを含むコンピュータ装置の映像コンテンツ生成方法であって、
    前記少なくとも1つのプロセッサにより、コンテンツ編集ツールを通じてアップロードされたイメージのスナップショットを抽出する段階、
    前記少なくとも1つのプロセッサにより、前記抽出されたスナップショットを、前記コンテンツ編集ツールを通じてタイムラインに沿って表示する段階、
    前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールを通じて前記表示されたスナップショットの長さを調節する長さ調節機能を提供する段階、
    前記少なくとも1つのプロセッサにより、前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節する段階、および
    前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールを通じて入力されるテキストに対する音声合成を生成して、前記タイムラインの選択された時点に追加する段階
    を含むことを特徴とする、映像コンテンツ生成方法。
  2. 前記表示されたスナップショットの長さは、前記表示されたスナップショットに対応するイメージが前記タイムライン上で占有する時間の前記ランニングタイムに比例し、
    前記タイムラインに沿って表示する段階は、
    前記抽出されたスナップショットをデフォルトランニングタイムに比例する長さで前記コンテンツ編集ツールを通じて表示すること
    を特徴とする、請求項1に記載の映像コンテンツ生成方法。
  3. 前記長さ調節機能を提供する段階は、
    前記表示されたスナップショットのうちの第1スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ&ドラッグまたはクリック&ドラッグによって前記第1スナップショットの長さを増加または減少させる機能を提供することを特徴とする、請求項1または2に記載の映像コンテンツ生成方法。
  4. 前記長さ調節機能を提供する段階は、
    前記第1スナップショットの前記左側領域または前記右側領域に対するユーザのタッチまたはクリックが維持される間、前記第1スナップショットの左側終端部分または右側終端部分に対する前記タイムライン上の時点を表示することを特徴とする、請求項3に記載の映像コンテンツ生成方法。
  5. 前記ランニングタイムを前記調節された長さによって調節する段階は、
    前記長さが調節されたスナップショットに対応するイメージが前記タイムライン上で占有する時間の前記ランニングタイムを、前記長さが調節された程度に比例するように増加または減少させることを特徴とする、請求項1~4のうちのいずれか一項に記載の映像コンテンツ生成方法。
  6. 前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
    前記コンテンツ編集ツールを通じて選択された音声タイプによって前記テキストに対する音声合成を生成することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。
  7. 前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
    前記タイムライン上で特定の時点を現わすタイムインジケータの移動によって選択された前記タイムラインの特定の時点に、前記生成された音声合成を追加することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。
  8. 前記少なくとも1つのプロセッサにより、ユーザの入力に基づいて、前記タイムラインに追加された前記音声合成の前記タイムライン上の位置を移動させる段階
    をさらに含む、請求項1~7のうちのいずれか一項に記載の映像コンテンツ生成方法。
  9. 前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールを通じて提供された複数の効果音のうちから1つの効果音が選択される段階、および
    前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階
    をさらに含む、請求項1~8のうちのいずれか一項に記載の映像コンテンツ生成方法。
  10. 前記少なくとも1つのプロセッサにより、前記表示されたスナップショットの順序を変更するための機能を提供する段階
    をさらに含むことを特徴とする、請求項1~9のうちのいずれか一項に記載の映像コンテンツ生成方法。
  11. 前記イメージは、イメージ化が可能な複数のページを含むファイルの形態でアップロードされることを特徴とする、請求項1~10のうちのいずれか一項に記載の映像コンテンツ生成方法。
  12. 前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
    前記タイムラインに追加しようとする第1音声合成が前記タイムラインに既に追加された第2音声合成とランニングタイムの少なくとも一部が重なる場合、前記第1音声合成を前記第2音声合成とは異なる音声チャンネルとして前記タイムラインに追加することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。
  13. 前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
    前記タイムラインの選択された時点に追加された音声合成に対するインジケータを、前記コンテンツ編集ツールを通じて表示することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。
  14. 前記インジケータによって前記テキストの少なくとも一部が表示されることを特徴とする、請求項13に記載の映像コンテンツ生成方法。
  15. 前記インジケータの長さは、前記音声合成の長さに比例することを特徴とする、請求項13に記載の映像コンテンツ生成方法。
  16. 前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
    前記インジケータに対するユーザ入力に基づいて、前記音声合成の生成に利用された音声タイプの情報、前記音声合成の長さの情報、および前記テキストのうちの少なくとも1つを表示することを特徴とする、請求項13に記載の映像コンテンツ生成方法。
  17. 請求項1~16のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラム。
  18. コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサにより、
    コンテンツ編集ツールを通じてアップロードされたイメージのスナップショットを抽出し、
    前記抽出されたスナップショットを、前記コンテンツ編集ツールを通じてタイムラインに沿って表示し、
    前記コンテンツ編集ツールを通じて前記表示されたスナップショットの長さを調節する長さ調節機能を提供し、
    前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節し、
    前記コンテンツ編集ツールを通じて入力されるテキストに対する音声合成を生成して前記タイムラインの選択された時点に追加すること
    を特徴とする、コンピュータ装置。
  19. 前記長さ調節機能を提供するために、前記少なくとも1つのプロセッサにより、
    前記表示されたスナップショットのうちの第1スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ&ドラッグまたはクリック&ドラッグによって前記第1スナップショットの長さを増加または減少させる機能を提供すること
    を特徴とする、請求項18に記載のコンピュータ装置。
JP2022039998A 2021-03-17 2022-03-15 イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム Active JP7277635B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0034735 2021-03-17
KR1020210034735A KR102465870B1 (ko) 2021-03-17 2021-03-17 이미지에 대한 음성합성에 기반하여 영상 컨텐츠를 생성하는 방법 및 시스템

Publications (2)

Publication Number Publication Date
JP2022145617A JP2022145617A (ja) 2022-10-04
JP7277635B2 true JP7277635B2 (ja) 2023-05-19

Family

ID=83452401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022039998A Active JP7277635B2 (ja) 2021-03-17 2022-03-15 イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム

Country Status (2)

Country Link
JP (1) JP7277635B2 (ja)
KR (1) KR102465870B1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007235253A (ja) 2006-02-27 2007-09-13 Ricoh Co Ltd 編集ツール、及び編集および操作方法
JP2011082789A (ja) 2009-10-07 2011-04-21 Exlink Co Ltd 音声付き動画制作・配信サービスシステム
JP2011244361A (ja) 2010-05-21 2011-12-01 Tepco Systems Corp コンテンツクリップ吸着機能を有するコンテンツ編集生成システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3938015B2 (ja) * 2002-11-19 2007-06-27 ヤマハ株式会社 音声再生装置
KR101005588B1 (ko) * 2009-04-27 2011-01-05 쏠스펙트럼(주) 멀티영상 편집장치 및 재생장치
JP5482042B2 (ja) * 2009-09-10 2014-04-23 富士通株式会社 合成音声テキスト入力装置及びプログラム
JP2018078402A (ja) * 2016-11-08 2018-05-17 株式会社シフトワン コンテンツ制作装置、及び音声付コンテンツ制作システム
KR102657519B1 (ko) * 2019-02-08 2024-04-15 삼성전자주식회사 음성을 기반으로 그래픽 데이터를 제공하는 전자 장치 및 그의 동작 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007235253A (ja) 2006-02-27 2007-09-13 Ricoh Co Ltd 編集ツール、及び編集および操作方法
JP2011082789A (ja) 2009-10-07 2011-04-21 Exlink Co Ltd 音声付き動画制作・配信サービスシステム
JP2011244361A (ja) 2010-05-21 2011-12-01 Tepco Systems Corp コンテンツクリップ吸着機能を有するコンテンツ編集生成システム

Also Published As

Publication number Publication date
KR102465870B1 (ko) 2022-11-10
JP2022145617A (ja) 2022-10-04
KR20220129868A (ko) 2022-09-26

Similar Documents

Publication Publication Date Title
US11132118B2 (en) User interface editor
KR102005315B1 (ko) 클라우드 서비스 지원 방법과 시스템 및 이를 지원하는 단말기
US9361942B2 (en) Playlist configuration and preview
WO2022143924A1 (zh) 视频生成方法、装置、电子设备和存储介质
KR20230042523A (ko) 멀티미디어 데이터의 처리 방법, 생성 방법 및 관련 기기
US11670339B2 (en) Video acquisition method and device, terminal and medium
US20140123006A1 (en) User interface for streaming media stations with flexible station creation
US10061493B2 (en) Method and device for creating and editing object-inserted images
JP2005209196A (ja) メディアプレゼンテーションを制作するためのシステム、方法、インターフェース装置、および統合システム
JP2005209196A5 (ja)
US9843823B2 (en) Systems and methods involving creation of information modules, including server, media searching, user interface and/or other features
JP7293338B2 (ja) ビデオ処理方法、装置、デバイスおよびコンピュータプログラム
CN109474855A (zh) 视频编辑方法、装置、计算机设备和可读存储介质
US10824313B2 (en) Method and device for creating and editing object-inserted images
JP2004126637A (ja) コンテンツ作成システム及びコンテンツ作成方法
JP7277635B2 (ja) イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム
US20230282240A1 (en) Media Editing Using Storyboard Templates
JP7254842B2 (ja) アプリとウェブサイトの連動によって音声ファイルに対するメモを作成する方法、システム、およびコンピュータ読み取り可能な記録媒体
KR102353797B1 (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
CN110209870A (zh) 音乐日志生成方法、装置、介质和计算设备
JP2006048465A (ja) コンテンツ生成システム、プログラム及び記録媒体
WO2022252916A1 (zh) 特效配置文件的生成方法、装置、设备及介质
KR20200022995A (ko) 콘텐츠 제작 시스템
JP7166373B2 (ja) 音声ファイルに対するテキスト変換記録とメモをともに管理する方法、システム、およびコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7277635

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350