JP7128222B2 - 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム - Google Patents

映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム Download PDF

Info

Publication number
JP7128222B2
JP7128222B2 JP2020024004A JP2020024004A JP7128222B2 JP 7128222 B2 JP7128222 B2 JP 7128222B2 JP 2020024004 A JP2020024004 A JP 2020024004A JP 2020024004 A JP2020024004 A JP 2020024004A JP 7128222 B2 JP7128222 B2 JP 7128222B2
Authority
JP
Japan
Prior art keywords
content
audio
content editing
text
timeline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020024004A
Other languages
English (en)
Other versions
JP2021067922A (ja
Inventor
▲そ▼▲ひょん▼ 朴
珠賢 李
在▲ミン▼ 金
根 宋
紹靖 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190164647A external-priority patent/KR102353797B1/ko
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2021067922A publication Critical patent/JP2021067922A/ja
Priority to JP2022130579A priority Critical patent/JP2022163217A/ja
Application granted granted Critical
Publication of JP7128222B2 publication Critical patent/JP7128222B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Description

以下の説明は、映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステムに関する。
映像コンテンツ編集に関する多様な技術が存在する。例えば、特許文献1は、動画字幕編集方法に関するものであって、DVDレコーダで光ディスクに記録された動画ファイルを再生しながら、この動画と関連する字幕ファイルの字幕部分をリアルタイムで編集できるようにする動画字幕編集方法を開示している。
しかし、映像コンテンツが既に保有している映像や字幕、オーディオなどを編集することは相対的に容易であることに比べ、映像コンテンツに、ユーザが所望する内容、特に、特定の音声や効果音などの合成音を新たに追加することは、ユーザが合成音を取得することも容易でないことに加え、取得した合成音を映像コンテンツの所望する部分に追加することも容易ではないことが現状である。
韓国公開特許第10-2007-0013122号公報
ユーザが所望する合成音をリアルタイムで生成して映像コンテンツの所望する部分に追加することができる、コンテンツ編集支援方法およびシステムを提供する。
少なくとも1つのプロセッサを含むコンピュータ装置のコンテンツ編集支援方法であって、前記少なくとも1つのプロセッサにより、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出する段階、前記少なくとも1つのプロセッサにより、前記抽出された複数のスナップショットを前記コンテンツ編集ツールでタイムラインに従って表示する段階、前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールに入力されたテキストおよび前記コンテンツ編集ツールで選択された音声タイプに基づき、前記入力されたテキストを前記選択された音声タイプの音声に変換する段階、および前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記変換された音声を追加する段階を含む、コンテンツ編集支援方法を提供する。
一側によると、前記変換された音声を追加する段階は、前記タイムライン上で特定の時点を示すタイムインジケータをドラッグすることによって選択された時点に、前記変換された音声を追加してよい。
他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記追加された音声のコピーまたは切り取り機能を提供する段階、および前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記機能によってコピーまたは切り取られた音声を追加する段階をさらに含んでよい。
また他の側面によると、前記選択された音声タイプは、声および感情の調和によって予め定義され、前記コンテンツ編集ツールで提供される多数の音声タイプのうちから選択されてよい。
また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、コンテンツ編集ツールでユーザの音声タイプを生成する機能を提供する段階をさらに含み、前記機能は、予め定義された音声タイプの発話速度および発話ボリュームのうちの少なくとも1つを調節して新たな音声タイプを生成する機能を含んでよい。
また他の側面によると、前記追加された音声に対応するテキストの内容のうちの少なくとも一部は、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点と連携して表示されてよい。
また他の側面によると、前記少なくとも一部の内容が表示された領域に対するユーザの入力によって前記追加された音声に対応するテキストの内容、前記追加された音声に対応する音声タイプ、および前記追加された音声の開始時間のうちの少なくとも1つを編集するための機能が提供されてよい。
また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで提供される複数の効果音のうちの1つが選択される段階、および前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階をさらに含んでよい。
また他の側面によると、前記追加された効果音に関する情報は、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点と連携して表示され、前記情報が表示された領域に対するユーザの入力によって前記追加された効果音の種類および開始時間のうちの少なくとも1つを編集するための機能が提供されてよい。
また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記映像コンテンツを分析することで、前記変換された音声を追加する前記タイムライン上の時点を推薦する段階をさらに含んでよい。
また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記映像コンテンツで前記タイムラインに対して選択された時点の映像を分析することで、前記選択された時点のための音声タイプおよび効果音のうちの少なくとも1つを推薦する段階をさらに含んでよい。
また他の側面によると、前記変換する段階は、前記タイムラインに対して選択された時点を基準に、タイムラインで前記変換された音声を追加することのできる区間の長さを確認する段階、および前記確認された区間の長さに応じて前記入力されるテキストの長さを制限するか、前記変換される音声の発話速度を調節する段階を含んでよい。
また他の側面によると、前記変換する段階は、前記映像コンテンツで前記タイムラインに対して選択された時点に対するバックグラウンドサウンドのボリュームを確認する段階、および前記確認されたバックグラウンドサウンドのボリュームに応じて前記変換される音声の発話ボリュームを調節する段階を含んでよい。
また他の側面によると、前記変換された音声を追加する段階は、前記映像コンテンツで前記タイムラインに対して選択された時点に対する話し手の音声を除去した後、前記変換された音声を追加してよい。
また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記映像コンテンツから音声を抽出してテキストに変換する段階、前記少なくとも1つのプロセッサにより、前記変換されたテキストを前記コンテンツ編集ツールで選択された音声タイプの音声に変換する段階、および前記少なくとも1つのプロセッサにより、前記変換された音声を前記映像コンテンツで音声が抽出された区間に追加する段階をさらに含んでよい。
また他の側面によると、前記変換する段階は、前記入力されたテキストを校正する第1機能および前記入力されたテキストを他の言語の文字に翻訳する第2機能のうちの少なくとも1つの機能を提供する段階、および前記第1機能によって校正されるか前記第2機能によって翻訳されたテキストを前記選択された音声タイプの音声に変換する段階を含んでよい。
さらに他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記タイムライン上でタイムインジケータが指示する時点に対応するサムネイルおよび前記タイムインジケータが指示する時点に対応する音節単位の音声に関するテキスト情報のうちの少なくとも1つを提供する段階をさらに含んでよい。
コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録された、コンピュータプログラムを提供する。
前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサにより、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出し、前記抽出された複数のスナップショットを前記コンテンツ編集ツールでタイムラインに従って表示し、前記コンテンツ編集ツールに入力されたテキストおよび前記コンテンツ編集ツールで選択された音声タイプに基づいて前記入力されたテキストを前記選択された音声タイプの音声に変換し、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記変換された音声を追加する、コンピュータ装置を提供する。
ユーザが所望する合成音をリアルタイムで生成して映像コンテンツの所望する部分に追加することができる。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。 本発明の一実施形態における、コンテンツ編集支援環境の例を示した図である。 本発明の一実施形態における、コンテンツ編集ツールの画面例を示した図である。 本発明の一実施形態における、効果音編集機能の例を示した図である。 本発明の一実施形態における、音声編集機能の例を示した図である。 本発明の一実施形態における、音声リストを編集する機能の例を示した図である。 本発明の一実施形態における、音声タイプを編集する機能の例を示した図である。 本発明の一実施形態における、ユーザ自身の音声タイプを生成する機能の例を示した図である。 本発明の一実施形態における、コンテンツ編集支援方法の例を示したフローチャートである。 本発明の一実施形態における、タイムインジケータが指示する時点に関する情報を提供する例を示した図である。
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態に係るコンテンツ編集支援システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係るコンテンツ編集支援方法は、コンテンツ編集支援システムに含まれる少なくとも1つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールおよび実行されてよく、コンピュータ装置は、実行されるコンピュータプログラムの制御に従って本発明の実施形態に係るコンテンツ編集支援方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合してコンテンツ編集支援方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境のうちの1つの例を説明したものに過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、コンテンツ提供サービス、グループ通話サービス(または、音声カンファレンスサービス)、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど)を提供するシステムであってよい。
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示すコンピュータ装置200によって実現されてよい。
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードに従って受信される命令を実行するように構成されてよい。
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードに従って生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御に従ってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ211に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置で構成されてもよい。
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
図3は、本発明の一実施形態における、コンテンツ編集支援環境の例を示した図である。図3は、コンテンツ編集支援サーバ300、複数のユーザ310、およびコンテンツ編集ツール320を示している。
コンテンツ編集支援サーバ300は、少なくとも1つのコンピュータ装置200によって実現されてよく、複数のユーザ310にコンテンツ編集ツール320を提供し、複数のユーザ310がコンテンツ編集ツール320を利用することで複数のユーザ310自身の映像コンテンツの編集を支援できるようにしてよい。
複数のユーザ310は、コンテンツ編集支援サーバ300からコンテンツ編集ツール320の提供を受け、自身の映像コンテンツを編集してよい。このとき、複数のユーザ310それぞれは、実質的には、ネットワーク170を介してコンテンツ編集支援サーバ300にアクセスしてコンテンツ編集ツール320の提供を受ける物理的な電子機器であってよい。このような物理的な電子機器それぞれも、図2を参照しながら説明したコンピュータ装置200によって実現されてよい。
コンテンツ編集ツール320は、ウェブ方式またはアプリ方式によって複数のユーザ310に提供されてよい。ウェブ方式とは、複数のユーザ310が、コンテンツ編集ツール320の機能が実現されていてコンテンツ編集支援サーバ300によって提供されるウェブページを訪問し、該当のウェブページを介してコンテンツ編集のための機能の提供を受ける方式を意味してよい。アプリ方式とは、複数のユーザ310に対応する物理的な電子機器それぞれにおいてインストールおよび実行されるアプリケーションを介してコンテンツ編集支援サーバ300に接続して、コンテンツ編集のための機能の提供を受ける方式を意味してよい。実施形態によっては、コンテンツ編集のための機能が含まれたアプリケーションを利用することにより、複数のユーザ310に対応する物理的な電子機器それぞれで自主的にコンテンツ編集を処理することも可能である。
本実施形態に係るコンテンツ編集ツール320は、ユーザによって選択された映像コンテンツからスナップショットを抽出し、抽出されたスナップショットをタイムラインに従って表示する機能を含んでよい。このとき、コンテンツ編集ツール320は、ユーザが所望する時点や区間をタイムライン上で選択することのできる機能を提供してよく、選択された時点や区間に対してユーザが所望する任意のテキストを連携させることのできるユーザインタフェースを提供してよい。選択された時点や区間に対して任意のテキストが連携されると、コンテンツ編集ツール320は、連携されたテキストを自動で音声に変換し、選択された時点や区間に変換された音声を追加することにより、ユーザが所望する内容の音声を映像コンテンツに容易にダビングできるようにすることが可能となる。
図4は、本発明の一実施形態における、コンテンツ編集ツールの画面例を示した図である。図4は、図3で説明したコンテンツ編集ツール320の画面例400を示している。本実施形態に係るコンテンツ編集ツール320の構成は一例に過ぎず、その構成は実施形態に応じて多様に異なってよい。
ユーザは、自身の電子機器を利用してコンテンツ編集ツール320にアクセスしてよく、コンテンツ編集ツール320は、ユーザによって選択された映像コンテンツを再生するためのコンテンツ再生機能410、および選択された映像コンテンツを他の映像コンテンツに変更するためのコンテンツ変更機能411を含んでよい。このとき、ユーザによって選択された映像コンテンツは、ユーザがコンテンツ編集ツール320にアクセスするために利用した電子機器のローカル格納場所に格納されている映像コンテンツを含んでよい。実施形態によっては、ユーザによって選択された映像コンテンツは、電子機器のローカル格納場所ではなくウェブ上に位置する映像コンテンツであってもよい。
また、コンテンツ編集ツール320は、テキストを音声(ボイス)に変換して映像コンテンツに対するタイムラインに追加するためのテキスト-音声変換機能420を含んでよい。テキスト-音声変換機能420は、ユーザからテキストの入力を受けるためのテキスト入力機能421、および入力されたテキストを変換する音声タイプを選択する音声タイプ選択機能422を含んでよい。音声タイプは、特定の声(一例として、予め定義されたキャラクタ「K1」の声)と感情(一例として、基本感情、悲しい、嬉しいなど)との組み合わせによって識別されてよい。図4では、感情の例として、「基本」、「悲しい」、「嬉しい」だけが示されているが、実施形態によっては、より多様な感情(一例として、「怒り」、「失望」など)が活用されてもよい。実施形態によっては、音声タイプは、発話の速度とボリュームによって異なるように識別されてもよい。言い換えれば、同じ声の同じ感情である音声タイプであったとしても、発話速度やボリュームが互いに異なる音声タイプは、互いに異なる音声タイプとして識別されてよい。実際に、テキスト-音声変換は、TTS(Text-To-Speech)のような文字-音声自動変換技術によって行われてよい。さらに、テキスト-音声変換機能420は、入力されたテキストを選択された音声タイプの音声に変換したものを予め聞くことのできる視聴機能423、および入力されたテキストを選択された音声タイプの音声に変換して映像コンテンツに対するタイムラインに追加するための音声追加機能424をさらに含んでよい。例えば、音声追加機能424がユーザによって選択(一例として、PC環境においてユーザが音声追加機能424に対応する領域をマウスでクリック、またはタッチスクリーン環境においてユーザが音声追加機能424に対応する領域を指でタッチ)した場合、コンテンツ編集ツール320は、ユーザがテキスト入力機能421によって入力したテキストを、音声タイプ選択機能422によって選択された音声タイプの音声に変換した後、映像コンテンツに対するタイムラインに追加してよい。該当の音声がタイムラインのどこに追加されるかについては、以下でさらに詳しく説明する。
また、コンテンツ編集ツール320は、予め製作された効果音を映像コンテンツに対するタイムラインに追加するための効果音追加機能430を含んでよい。効果音追加機能430は、予め製作された多数の効果音のリストを表示し、効果音の視聴を実行するための機能や、効果音をタイムラインの特定の時間に追加するための機能を含んでよい。必要によっては、ユーザが所望する効果音を外部ファイルから追加してもよいし、直接生成してもよい。
また、コンテンツ編集ツール320は、映像コンテンツに対するタイムラインを可視的に表現するためのタイムライン表示機能440を含んでよい。タイムライン表示機能440は、ユーザによって選択された映像コンテンツから抽出されたサムネイルを時間に従って表示するための機能を含んでよい。タイムラインに適用される時間は、映像コンテンツの時間に対応してよく、実施形態によっては、予め定義された時間(一例として、5分)に制限されてもよい。例えば、コンテンツ編集ツール320は、映像コンテンツの5分間の分量のフレームのうちからサムネイルを抽出し、タイムライン表示機能440によって時間に従って表示してよい。このとき、ユーザは、タイムライン表示機能440のサムネイルを目で確認しながら、所望する時点や区間に音声や効果音のような合成音を追加してよい。例えば、ユーザが所望する時点は、タイムインジケータ450によって設定されてよい。ユーザは、タイムインジケータ450をドラッグするか、所望するタイムラインの位置をクリックする方式により、タイムラインで所望する時点を設定してよい。図4において、タイムインジケータ450と関連して表示された時刻「02:16.46」は、タイムラインでタイムインジケータ450が指示する時点を示してよい。
ユーザがテキスト-音声変換機能420に含まれる音声追加機能424を選択すると、テキスト入力機能421によって入力されたテキストは、音声タイプ選択機能422によって選択された音声タイプの音声に変換されてよく、このとき、変換された音声は、タイムインジケータ450が指示する時点に追加されてよい。
また他の実施形態として、ユーザが音声追加機能424を選択すると、テキスト入力機能421によって入力されたテストおよび音声タイプ選択機能422によって選択された音声タイプは、タイムインジケータ450が指示する時点に対応して保存されてよい。このような情報を利用しながら、必要な場合(例えば、視聴または動画生成の要求時など)に、入力されたテキストを選択された音声タイプの音声に変換して提供してよい。
また、コンテンツ編集ツール320は、タイムラインで音声や効果音のような合成音が追加された区間を表示してよい。例えば、点線枠460にはタイムラインに追加された音声に対する区間を、点線枠470にはタイムラインに追加された効果音に対する区間をそれぞれ示してよい。例えば、点線枠460で「テキスト1」に対応する区間は、ユーザがテキスト入力機能421によって入力したテキスト1によって変換された音声が追加された区間を意味してよい。該当の区間の位置には、実際には「テキスト1」の内容のうちの少なくとも一部が表示されることにより、ユーザが追加された音声の内容を容易に確認することができるように支援する。
このように、ユーザは、コンテンツ編集ツール320を利用して音声をリアルタイムで生成したり、予め生成された効果音などを活用したりすることで、自身が所望する合成音を映像コンテンツに容易に追加することができ、これにより、映像コンテンツが既に含んでいる情報を編集するのではなく、新たな合成音を追加するなどのコンテンツ編集を容易に処理することが可能となる。
さらに、コンテンツ編集ツール320は、合成音が追加された映像コンテンツを保存するための保存機能480、および合成音が追加された映像コンテンツをユーザの電子機器にダウンロードするためのダウンロード機能490をさらに含んでよい。
以下、コンテンツ編集ツール320が提供することのできる、より多様な機能について説明する。
図5は、本発明の一実施形態における、効果音編集機能の例を示した図である。図5は、図4を参照しながら説明した画面例400の一部分500を示している。ユーザがコンテンツ編集ツール320でタイムラインと関連して表示された効果音を選択すると、選択された効果音に対する効果音編集機能が提供されてよい。図5の実施形態は、ユーザが効果音2(510)を選択することにより、点線枠520のように効果音編集機能が提供された例を示している。例えば、PC環境のユーザが、効果音2(510)が表示された領域をマウスオーバーした場合、点線枠520のように効果音編集機能が提供されてよい。効果音編集機能は、効果音2(510)のタイムライン上における開始時点を変更するための時点変更機能521、および効果音2(510)をコピー、切り取り、および/または削除するための編集機能522を含んでよい。コピーあるいは切り取られた効果音は、タイムラインの他の時点に貼り付けられてよい。例えば、コピーあるいは切り取られた効果音2(510)は、ユーザの入力により、図4で説明したタイムインジケータ450が指示する時点に貼り付けられてよい。
図6は、本発明の一実施形態における、音声編集機能の例を示した図である。図6は、図4を参照しながら説明した画面例400の一部分600を示している。ユーザがコンテンツ編集ツール320でタイムラインと関連して表示された音声を選択すると、選択された音声に対する効果音編集機能が提供されてよい。図6の実施形態は、ユーザがテキスト3(610)を選択することにより、点線枠620のように音声編集機能が提供される例を示している。実質的に、ユーザは、テキスト3(610)の内容を編集することによって音声を編集してよい。例えば、ユーザがテキスト3(610)の内容を変更すると、コンテンツ編集ツール320は、変更されたテキストの内容を予め選択された音声タイプの音声に再変換することによって既存の音声と代替してよい。
他の例として、テキストに対する音声への変換は、音声提供が必要な場合(例えば、視聴または動画生成の要求時など)まで遅延されてよい。この場合、特定の時点に対応するテキストおよび音声タイプをアップデートすることにより、ユーザは自由にテキストの内容を変更してよい。
テキストの内容を編集する機能は、図4を参照しながら説明したテキスト-音声変換機能420のテキスト入力機能421によって行われてよく、または、以下で図7を参照しながら説明するように、個別の音声リストに基づいて行われてよい。
また、ユーザは、テキストの内容だけではなく、音声タイプを変更してもよい。実施形態によっては、テキストの内容を変更された音声タイプの内容に再変換することによって既存の音声と代替してもよいし、特定の時点に対応するテキストおよび音声タイプをアップデートして保存してもよい。
このような音声タイプの変更は、図4を参照しながら説明したテキスト-音声変換機能420の音声タイプ選択機能422によって行われてよく、または、図7を参照しながら説明するように、個別の音声リストに基づいて行われてよい。一例として、コンテンツ編集ツール320は、ユーザが音声タイプ選択機能422によって他の音声タイプを選択するか、図7で説明する音声リストから他の音声タイプを選択した場合、選択された他の音声タイプに従ってテキスト3(610)の内容を再変換してよく、再変換された音声を既存の音声と代替してよい。実施形態によっては、音声に対してコピー、切り取り、および/または削除するための機能が提供されてよい。
図7は、本発明の一実施形態における、音声リストを編集する機能の例を示した図である。図7は、コンテンツ編集ツール320が提供することのできる音声リストの編集機能の画面例700を示している。第1点線枠710は、音声リストに含まれる個別の音声に対して設定された音声タイプ(一例として、図7のボイスフォント)を、第2点線枠720は、個別の音声のタイムラインにおける開始時間を、第3点線枠730は、個別の音声に対応するテキストの内容を、第4点線枠740は、個別の音声の長さをそれぞれ示している。このとき、コンテンツ編集ツール320は、第1点線枠710に示された個別の音声別の音声タイプを、他の音声タイプに変更するための機能を提供してよい。また、コンテンツ編集ツール320は、第3点線枠730に示されたテキストの内容を編集するための機能を提供してよい。また、第5点線枠750は、個別の音声に対する視聴のための機能を、第6点線枠760は、個別の音声を削除するための機能をそれぞれ示している。さらに、音声リストの編集機能は、新たな音声を生成するための機能を含んでもよい。第7点線枠770は、新たな音声の生成のために音声タイプ、開始時間、およびテキストの内容を設定するための機能を示している。
図8は、本発明の一実施形態における、音声タイプを編集する機能の例を示した図である。図8は、コンテンツ編集ツール320が提供することのできる音声タイプの編集機能の画面例800を示している。音声タイプを編集する機能は、多様な音声タイプのうちから主に使用する音声タイプを選択するための機能、および特定の音声タイプの音声を聞くための機能を含んでよい。例えば、ユーザが音声タイプK1-嬉しい810を選択し、テキスト入力機能820によってテキストを入力した後に視聴ボタン830を押した場合、入力されたテキストを音声タイプK1-嬉しい810によって変換した音声を視聴することができる。
図7および図8は、音声リストを編集する機能と音声タイプを編集する機能をそれぞれ示しており、実施形態によっては、図7の音声リストを編集する機能と図8の音声タイプを編集する機能を1つのウィンドウやページで実現することにより、ユーザが個別の音声に対するテキストの内容や音声タイプなどをより簡単に編集できるようにしてもよい。
図9は、本発明の一実施形態における、ユーザ自身の音声タイプを生成する機能の例を示した図である。音声タイプを生成する機能は、生成しようとする音声タイプ名の入力を受ける機能910、予め定義された音声タイプのうちから所望の音声タイプを選択する機能920、発話の速度を調節する機能930、発話のボリュームを調節する機能940、および生成された音声タイプの音声を視聴するための機能950を含んでよい。生成された音声タイプは、該当のユーザと関連付けて保存されてよく、ユーザは、一例として、図8に示すような「マイボイスフォント」において自身が生成した音声タイプを確認および/または選択してよい。
図10は、本発明の一実施形態における、コンテンツ編集支援方法の例を示したフローチャートである。本実施形態に係るコンテンツ編集支援方法は、コンテンツ編集ツール320を利用してコンテンツ編集支援のためのサービスを提供するコンピュータ装置200によって実行されてよい。このとき、コンピュータ装置200のプロセッサ220は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのコンピュータプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に記録されたコードが提供する制御命令に従ってコンピュータ装置200が図10の方法に含まれる段階1010~段階1060を実行するようにコンピュータ装置200を制御してよい。
段階1010において、コンピュータ装置200は、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出してよい。コンテンツ編集ツールは、図3を参照しながら説明したコンテンツ編集ツール320に対応してよい。ユーザがコンテンツ編集ツールで映像コンテンツを選択すると、コンピュータ装置200は、映像コンテンツから複数のスナップショットを抽出してよい。例えば、コンピュータ装置200は、複数のスナップショットとして、映像コンテンツから一定の間隔のフレームを抽出してもよいし、映像コンテンツを分析して登場人物が含まれているか特定のシーンやアクションが含まれているフレームを抽出してもよい。他の例として、コンピュータ装置200は、映像コンテンツから、音声が変化する区間のフレームをスナップショットとして抽出してもよい。
段階1020において、コンピュータ装置200は、抽出された複数のスナップショットをコンテンツ編集ツールでタイムラインに従って表示してよい。例えば、図4では、タイムライン表示機能440によってタイムラインに従って複数のスナップショットが表示される例について説明した。
段階1030において、コンピュータ装置200は、コンテンツ編集ツールに入力されたテキストおよびコンテンツ編集ツールで選択された音声タイプに基づき、入力されたテキストを選択された音声タイプの音声に変換してよい。音声タイプは、音と感情との調和に基づいて予め定義され、コンテンツ編集ツールで提供される多数の音声タイプのうちから選択されてよい。例えば、ユーザがコンテンツ編集ツールに表示された多数の音声タイプのうちから1つを選択した場合、コンピュータ装置200は、選択された音声タイプを確認してよい。テキストを音声に変換することは、上述したように、TTSのような文字音声自動変換技術によって行われてよい。
実施形態によっては、コンピュータ装置200は、タイムラインに対して選択された時点を基準に、タイムラインで変換された音声を追加することのできる区間の長さを確認し、確認された区間の長さに応じて入力されるテキストの長さを制限するか、または変換される音声の発話速度を調節してよい。例えば、タイムラインに対して選択された時点に音声を追加するためにテキストを入力するとき、テキストが長すぎて、変換された音声の長さが追加可能な区間の長さを超えることがある。この場合、コンピュータ装置200は、入力するテキストの長さを制限するか、または変換された音声の発話速度を相対的に速く調節することにより、変換された音声の長さが追加可能な区間の長さを超過しないように制御してよい。また、該当の区間に入力可能なテキストの長さおよび予想合成音声時間を予めユーザに提供してもよい。
他の実施形態において、コンピュータ装置200は、映像コンテンツでタイムラインに対して選択された時点に対するバックグラウンドサウンドのボリュームを確認し、確認されたバックグラウンドサウンドのボリュームに応じて変換される音声の発話ボリュームを調節してよい。例えば、映像コンテンツでバックグラウンドサウンドのボリュームが極めて大きい場合、追加される音声の聞こえが悪くなるという事態が発生することがある。したがって、コンピュータ装置200は、バックグラウンドサウンドが大きいほど追加される音声の発話ボリュームも大きくなるようにしてテキストを音声に変換してよい。
また他の実施形態において、コンピュータ装置200は、入力されたテキストを校正する第1機能および入力されたテキストを他の言語の文字に翻訳する第2機能のうちの少なくとも1つの機能を提供してよく、第1機能によって校正されるか第2機能によって翻訳されたテキストを、選択された音声タイプの音声に変換してよい。言い換えれば、コンピュータ装置200は、テキストを音声に変換する前に、コンテンツ編集ツールでテキストを校正するか、または他の言語に変換するための機能をユーザに提供してよい。入力されたテキストを校正する第1機能の場合、入力されたテキストの綴字または文法的な間違いの校正、音声合成により有利な形態の入力(例えば、必要な部分に分かち書きを追加、または合成が適切に行われない単語を発音記号そのままで表記する方法など)によって修正するか、悪口や卑属語などの禁則語が入力された場合には、これを認識して合成をできなくするように除去する機能などを含んでよい。
段階1040において、コンピュータ装置200は、コンテンツ編集ツールでタイムラインに対して選択された時点に、変換された音声を追加してよい。例えば、コンピュータ装置200は、タイムライン上で特定の時点を示すタイムインジケータをドラッグすることによって選択された時点に、変換された音声を追加してよい。タイムインジケータは、図4を参照しながら説明したタイムインジケータ450に対応してよい。
一方、追加された音声に対応するテキストの内容のうちの少なくとも一部が、コンテンツ編集ツールでタイムラインに対して選択された時点と連携して表示されてよい。例えば、図4では、点線枠460により、テキストの内容のうちの少なくとも一部が、タイムラインに対して該当のテキストに対して選択された時点と連携して表示される例を示している。このとき、少なくとも一部の内容が表示された領域に対するユーザの入力により、追加された音声に対応するテキストの内容、追加された音声に対応する音声タイプ、および追加された音声の開始時間のうちの少なくとも1つを編集するための機能が提供されてよい。一例として、図6では、少なくとも一部の内容が表示された領域に対するマウスオーバー入力によって音声編集機能が提供される例について説明した。
また、他の実施形態において、コンピュータ装置200は、映像コンテンツでタイムラインに対して選択された時点に対する話し手の音声を除去した後、変換された音声を追加してよい。言い換えれば、映像コンテンツでの話し手の音声を変換された音声と代替してよい。
段階1050において、コンピュータ装置200は、コンテンツ編集ツールで提供される複数の効果音のうちの少なくとも1つの効果音の選択を受けてよい。例えば、図4では、効果音追加機能430によって予め制作された多数の効果音のリストを表示し、効果音に対する視聴を実行するか、効果音をタイムラインの特定の時間に追加するための機能を含んでよい。
段階1060において、コンピュータ装置200は、コンテンツ編集ツールでタイムラインに対して選択された時点に、選択された効果音を追加してよい。実施形態によっては、このような段階1050および段階1060は、上述した段階1030および段階1040と並列的に実行されてもよいし、省略されてもよい。あるいは、段階1030および段階1040は省略されてもよい。
また、実施形態によっては、コンピュータ装置200は、追加された音声に対するコピーまたは切り取り機能を提供してよく、コンテンツ編集ツールでタイムラインに対して選択された時点に、その機能を利用してコピーまたは切り取られた音声を追加してもよい。
他の実施形態において、コンピュータ装置200は、コンテンツ編集ツールでユーザの音声タイプを生成する機能を提供してよい。このとき、その機能は、予め定義された音声タイプの発話速度および発話ボリュームのうちの少なくとも1つを調節して新たな音声タイプを生成する機能を含んでよい。
また他の実施形態において、コンピュータ装置200は、映像コンテンツを分析することで、変換された音声を追加するタイムライン上の時点を推薦してよい。例えば、コンピュータ装置200は、映像コンテンツを分析することにより、登場人物が登場する時点や特定のシーン、またはアクションが登場する時点、または音声特徴が変わる区間などを探索してよい。このように分析された情報を利用することにより、音声や効果音を追加する時点としてユーザに推薦したり、特定のキーワード(例えば、登場人物名、検索しようとする場面の内容など)に対する検索結果として提供したり、コンテンツを挿入するインジケータの移動時に該当の時点を基準に容易に移動したりするようにできる。
また他の実施形態において、コンピュータ装置200は、映像コンテンツでタイムラインに対して選択された時点の映像を分析することで、選択された時点のための音声タイプおよび効果音のうちの少なくとも1つを推薦してよい。例えば、ユーザがタイムインジケータによって特定の時点を選択すると、コンピュータ装置200は、選択された時点の映像を分析し、該当の時点に追加する音声に対する音声タイプまたは該当の時点に追加する効果音をユーザに推薦してよい。より具体的な例として、コンピュータ装置200は、映像から分析される登場人物の性別、年代、体形や容姿などに応じて音声タイプを推薦したり、映像から分析される特定のシーンや場所などに応じて適切な効果音を推薦したりしてよい。
また他の実施形態において、コンピュータ装置200は、映像コンテンツから音声を抽出してテキストに変換し、変換されたテキストをコンテンツ編集ツールで選択された音声タイプの音声に変換してよい。この後、コンピュータ装置200は、変換された音声を、映像コンテンツから音声が抽出された区間に追加してよい。言い換えれば、コンピュータ装置200は、映像コンテンツに含まれる音声の声および/または感情を他の声および/または他の感情に代替することのできる機能を提供してよい。このとき、他の声および/または他の感情は、コンテンツ編集ツールで選択される音声タイプ、またはコンピュータ装置200が自主的に選択した音声タイプによって決定されてよい。
さらに他の実施形態において、コンピュータ装置200は、タイムインジケータが指示する時点に対応する音節単位の音声に関するテキスト情報、およびその時点に対応するサムネイルのうちの少なくとも1つを提供してよい。
図11は、本発明の一実施形態における、タイムインジケータが指示する時点に関する情報を提供する例を示した図である。図11は、図4を参照しながら説明した画面例400の一部分1100を示している。上述したように、ユーザは、タイムインジケータ450をドラッグするかタイムラインの特定の時点(位置)を選択することにより、タイムラインから特定の時点を選択してよい。
一例として、PC環境では、ユーザがマウスでタイムインジケータ450をクリックした状態からドラッグすることによってタイムインジケータ450を移動させてよく、タッチスクリーン環境では、ユーザが指やペンなどでタイムインジケータ450をタッチした状態からドラッグすることによって、タイムインジケータ450を移動させてよい。このとき、タイムインジケータ450がクリックされた状態またはタッチされた状態の場合、コンテンツ編集ツール320は、タイムインジケータ450が指示する時点に対応するサムネイル1110および該当の時点に対応する音節単位の音声に関するテキスト情報1120を提供してよい。図4で説明する点線枠460でも対応するテキストの少なくとも一部が表示されてもよいが、これは、ユーザが該当の区間に追加された音声の内容を容易に確認できるようにするためのものである。
一方、本実施形態において、タイムインジケータ450が指示する時点に対応して提供される音節単位の音声に関するテキスト情報1120は、実際にタイムインジケータ450が指示する時点に出力される音節単位の音声に対するテキスト内容を含んでよい。図11の実施形態では、ユーザによって選択(一例として、クリックまたはタッチ)されたタイムインジケータ450が指示している「01:17.12」の時点に該当するサムネイル1110と、該当の時点に実際に追加される音節単位の音声に対するテキスト「こんにちは」が表示される例を示している。タイムインジケータ450がユーザによって選択された状態で他の時点にドラッグされた場合、他の時点に該当するサムネイルと他の時点に実際に追加される音節単位の音声に対するテキストが表示されることは、上述した説明から容易に理解することができるであろう。この場合、ユーザは、タイムインジケータ450をドラッグしながら、多様な時点に対するサムネイルおよび/または該当の時点に追加される音節単位の音声に対するテキストを簡単に確認することができるようになる。
このように、本発明の実施形態によると、ユーザが所望する合成音をリアルタイムで生成して映像コンテンツの所望する部分に追加することができる。
上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例は、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけでなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
310:複数のユーザ
320:コンテンツ編集ツール
300:コンテンツ編集支援サーバ

Claims (17)

  1. 少なくとも1つのプロセッサを含むコンピュータ装置のコンテンツ編集支援方法であって、
    前記少なくとも1つのプロセッサが、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出する段階、
    前記少なくとも1つのプロセッサが、前記抽出された複数のスナップショットを前記コンテンツ編集ツールでタイムラインに従って表示する段階、
    前記少なくとも1つのプロセッサが、前記コンテンツ編集ツールに入力されたテキストを音声に変換する段階、および
    前記少なくとも1つのプロセッサが、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記変換された音声を追加する段階
    を含み、
    前記少なくとも1つのプロセッサが、前記映像コンテンツから音声を抽出してテキストに変換する段階、
    前記少なくとも1つのプロセッサが、前記変換されたテキストを前記コンテンツ編集ツールで選択された音声タイプの音声に変換する段階、および
    前記少なくとも1つのプロセッサが、前記変換されたテキストから変換された音声を前記映像コンテンツで音声が抽出された区間に追加する段階
    をさらに含む、
    コンテンツ編集支援方法。
  2. 前記変換する段階は、
    前記映像コンテンツで前記タイムラインに対して選択された時点に対するバックグラウンドサウンドのボリュームを確認する段階、および
    前記確認されたバックグラウンドサウンドのボリュームに応じて前記変換される音声の発話ボリュームを調節する段階
    を含む、請求項1に記載のコンテンツ編集支援方法。
  3. 前記少なくとも1つのプロセッサが、前記追加された音声に対するコピーまたは切り取り機能を提供する段階、および
    前記少なくとも1つのプロセッサが、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記機能によってコピーまたは切り取られた音声を追加する段階
    をさらに含む、請求項1または2に記載のコンテンツ編集支援方法。
  4. 前記少なくとも1つのプロセッサが、コンテンツ編集ツールでユーザの音声タイプを生成する機能を提供する段階
    をさらに含み、
    前記機能は予め定義された音声タイプの発話速度および発話ボリュームのうちの少なくとも1つを調節して新たな音声タイプを生成する機能を含む、
    請求項1または2に記載のコンテンツ編集支援方法。
  5. 前記追加された音声に対応するテキストの内容のうちの少なくとも一部が、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点と連携して表示される、
    請求項1または2に記載のコンテンツ編集支援方法。
  6. 前記少なくとも一部の内容が表示された領域に対するユーザの入力によって前記追加された音声に対応するテキストの内容、前記追加された音声に対応する音声タイプ、および前記追加された音声の開始時間のうちの少なくとも1つを編集するための機能が提供される、
    請求項に記載のコンテンツ編集支援方法。
  7. 前記少なくとも1つのプロセッサが、前記コンテンツ編集ツールで提供された複数の効果音のうちの少なくとも1つの効果音の選択を受ける段階、および
    前記少なくとも1つのプロセッサが、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階
    をさらに含む、請求項1または2に記載のコンテンツ編集支援方法。
  8. 前記追加された効果音に関する情報が、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点と連携して表示され、
    前記情報が表示された領域に対するユーザの入力によって前記追加された効果音の種類および開始時間のうちの少なくとも1つを編集するための機能が提供される、
    請求項に記載のコンテンツ編集支援方法。
  9. 前記少なくとも1つのプロセッサが、前記映像コンテンツを分析することで、前記変換された音声を追加する前記タイムライン上の時点を推薦する段階
    をさらに含む、請求項1または2に記載のコンテンツ編集支援方法。
  10. 前記少なくとも1つのプロセッサが、前記映像コンテンツで前記タイムラインに対して選択された時点の映像を分析することで、前記選択された時点のための音声タイプおよび効果音のうちの少なくとも1つを推薦する段階
    をさらに含む、請求項1または2に記載のコンテンツ編集支援方法。
  11. 前記変換する段階は、
    前記タイムラインに対して選択された時点を基準に、前記タイムラインで前記変換された音声を追加することのできる区間の長さを確認する段階、および
    前記確認された区間の長さに応じて前記入力されるテキストの長さを制限するか、または前記変換される音声の発話速度を調節する段階
    を含む、請求項1または2に記載のコンテンツ編集支援方法。
  12. 前記変換された音声を追加する段階は、
    前記映像コンテンツから前記タイムラインに対して選択された時点に対する話し手の音声を除去した後、前記変換された音声を追加する、
    請求項1または2に記載のコンテンツ編集支援方法。
  13. 前記変換する段階は、
    前記入力されたテキストを校正する第1機能および前記入力されたテキストを他の言語の文字に翻訳する第2機能のうちの少なくとも1つの機能を提供する段階、および
    前記第1機能によって校正されるか前記第2機能によって翻訳されたテキストを、前記選択された音声タイプの音声に変換する段階
    を含む、請求項1に記載のコンテンツ編集支援方法。
  14. 前記少なくとも1つのプロセッサが、前記タイムライン上でタイムインジケータが指示する時点に対応するサムネイル、および前記タイムインジケータが指示する時点に対応する音節単位の音声に対するテキスト情報のうちの少なくとも1つを提供する段階
    をさらに含む、請求項1に記載のコンテンツ編集支援方法。
  15. コンピュータ装置と結合して請求項1乃至14のうちのいずれか一項に記載の方法をコンピュータ装置に実行させる、コンピュータプログラム。
  16. 請求項1乃至14のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
  17. コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサが、
    コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出し、
    前記抽出された複数のスナップショットを前記コンテンツ編集ツールでタイムラインに従って表示し、
    前記コンテンツ編集ツールに入力されたテキストを音声に変換し、
    前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記変換された音声を追加し、さらに、
    前記映像コンテンツから音声を抽出してテキストに変換し、
    前記変換されたテキストを前記コンテンツ編集ツールで選択された音声タイプの音声に変換し、かつ、
    前記変換されたテキストから変換された音声を前記映像コンテンツで音声が抽出された区間に追加する、
    コンピュータ装置。
JP2020024004A 2019-10-28 2020-02-17 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム Active JP7128222B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022130579A JP2022163217A (ja) 2019-10-28 2022-08-18 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2019-0134240 2019-10-28
KR20190134240 2019-10-28
KR10-2019-0164647 2019-12-11
KR1020190164647A KR102353797B1 (ko) 2019-10-28 2019-12-11 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022130579A Division JP2022163217A (ja) 2019-10-28 2022-08-18 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム

Publications (2)

Publication Number Publication Date
JP2021067922A JP2021067922A (ja) 2021-04-30
JP7128222B2 true JP7128222B2 (ja) 2022-08-30

Family

ID=75638422

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020024004A Active JP7128222B2 (ja) 2019-10-28 2020-02-17 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
JP2022130579A Pending JP2022163217A (ja) 2019-10-28 2022-08-18 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022130579A Pending JP2022163217A (ja) 2019-10-28 2022-08-18 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム

Country Status (2)

Country Link
JP (2) JP7128222B2 (ja)
KR (1) KR102488623B1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007091475A1 (ja) 2006-02-08 2007-08-16 Nec Corporation 音声合成装置、音声合成方法及びプログラム
JP2011059412A (ja) 2009-09-10 2011-03-24 Fujitsu Ltd 合成音声テキスト入力装置及びプログラム
US20130085748A1 (en) 2011-09-29 2013-04-04 France Telecom Method and device for modifying a compounded voice message

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100572683B1 (ko) * 2003-09-30 2006-04-19 주식회사유진로보틱스 지능형 로봇의 컨텐츠 제작용 저작툴 및 이를 이용한지능형 로봇의 컨텐츠 제작 방법
JP4654947B2 (ja) * 2006-03-10 2011-03-23 カシオ計算機株式会社 動画処理装置及びそのプログラム
KR20070098362A (ko) * 2006-03-31 2007-10-05 (주)엔브이엘소프트 배경 음악을 동영상에 합성시키는 음성 합성 장치 및 방법
JP2018078402A (ja) * 2016-11-08 2018-05-17 株式会社シフトワン コンテンツ制作装置、及び音声付コンテンツ制作システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007091475A1 (ja) 2006-02-08 2007-08-16 Nec Corporation 音声合成装置、音声合成方法及びプログラム
JP2011059412A (ja) 2009-09-10 2011-03-24 Fujitsu Ltd 合成音声テキスト入力装置及びプログラム
US20130085748A1 (en) 2011-09-29 2013-04-04 France Telecom Method and device for modifying a compounded voice message

Also Published As

Publication number Publication date
JP2021067922A (ja) 2021-04-30
JP2022163217A (ja) 2022-10-25
KR20210157458A (ko) 2021-12-28
KR102488623B1 (ko) 2023-01-17

Similar Documents

Publication Publication Date Title
US20220374192A1 (en) Platform for producing and delivering media content
US8972265B1 (en) Multiple voices in audio content
US20110112835A1 (en) Comment recording apparatus, method, program, and storage medium
JP2015517684A (ja) コンテンツのカスタマイズ
US20120177345A1 (en) Automated Video Creation Techniques
KR20220000953A (ko) 터치스크린 상에 표시되는 조치 가능한 콘텐츠
US20220208155A1 (en) Systems and methods for transforming digital audio content
TWI807428B (zh) 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
JP2014222290A (ja) 議事録記録装置、議事録記録方法及びプログラム
US10547582B1 (en) Methods and systems for enhancing viewer engagement with content portions
CN114023301A (zh) 音频编辑方法、电子设备及存储介质
WO2018175235A1 (en) Media message creation with automatic titling
US20170004859A1 (en) User created textbook
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
JP7254842B2 (ja) アプリとウェブサイトの連動によって音声ファイルに対するメモを作成する方法、システム、およびコンピュータ読み取り可能な記録媒体
KR102353797B1 (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
US11119727B1 (en) Digital tutorial generation system
CN108255917A (zh) 图像管理方法、设备及电子设备
JP2023530970A (ja) 人のスピーチの豊富な転写についての音声・ツー・テキスト・タグ付けのためのシステム
JP7166370B2 (ja) 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体
JP7166373B2 (ja) 音声ファイルに対するテキスト変換記録とメモをともに管理する方法、システム、およびコンピュータ読み取り可能な記録媒体
WO2020023070A1 (en) Text-to-speech interface featuring visual content supplemental to audio playback of text documents
JP7277635B2 (ja) イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム
JP7183316B2 (ja) 音声記録検索方法、コンピュータ装置およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220818

R150 Certificate of patent or registration of utility model

Ref document number: 7128222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350