JP2022145617A - Method and system for generating video content based on voice synthesis for image - Google Patents
Method and system for generating video content based on voice synthesis for image Download PDFInfo
- Publication number
- JP2022145617A JP2022145617A JP2022039998A JP2022039998A JP2022145617A JP 2022145617 A JP2022145617 A JP 2022145617A JP 2022039998 A JP2022039998 A JP 2022039998A JP 2022039998 A JP2022039998 A JP 2022039998A JP 2022145617 A JP2022145617 A JP 2022145617A
- Authority
- JP
- Japan
- Prior art keywords
- timeline
- length
- time
- speech synthesis
- editing tool
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 117
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000000694 effects Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 description 40
- 238000010586 diagram Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 12
- 238000003860 storage Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 230000007423 decrease Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000012905 input function Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Abstract
Description
以下の説明は、イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステムに関する。 The following description relates to methods and systems for generating video content based on speech synthesis to images.
イメージを含む資料に音源(音声合成(Text To Speech:TTS)含む)を適用しようとするとき、一例として、パワーポイントで形成された資料の場合には、各スライドにそれぞれ1つの音源を追加しなければならないという面倒な作業が求められた。このとき、各スライドには1つの音源しか追加することができないという制約があり、再生開始時間を自由に編集することができないというも問題もあった。 When applying a sound source (including text-to-speech (TTS)) to a material containing images, for example, in the case of a PowerPoint-based material, one sound source must be added to each slide. The troublesome work that must be done was required. At this time, there is a restriction that only one sound source can be added to each slide, and there is also the problem that the playback start time cannot be freely edited.
このように、映像コンテンツの製作と消費のニーズが高まった現在の市場における音声合成を利用した従来の映像製作技術は、面倒で制限的な形態しか提供することができないという問題を抱えている。 As such, the conventional video production technology using voice synthesis in the current market where the needs for production and consumption of video content have increased has the problem that it can only be provided in a cumbersome and limited form.
多数のイメージに対してユーザが希望する音声合成をリアルタイムで生成してユーザが希望する再生開始時間にダビングすることができ、生成された音声合成がダビングされた多数のイメージによって映像コンテンツを生成および提供することができる、映像コンテンツ生成方法およびシステムを提供する。 A voice synthesis desired by the user can be generated in real time for a number of images and dubbed at a reproduction start time desired by the user, and the generated voice synthesis can be dubbed to generate and reproduce video contents. A method and system for generating video content is provided.
少なくとも1つのプロセッサを含むコンピュータ装置の映像コンテンツ生成方法であって、前記少なくとも1つのプロセッサにより、コンテンツ編集ツールにアップロードされたイメージのスナップショットを抽出する段階、前記少なくとも1つのプロセッサにより、前記抽出されたスナップショットを前記コンテンツ編集ツールでタイムラインに沿って表示する段階、前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールに前記表示されたスナップショットの長さを調節する長さ調節機能を提供する段階、前記少なくとも1つのプロセッサにより、前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節する段階、および前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールに入力されるテキストに対する音声合成を生成して前記タイムラインの選択された時点に追加する段階を含むことを特徴とする映像コンテンツ生成方法を提供する。 1. A method of generating video content for a computing device comprising at least one processor, comprising: extracting, by said at least one processor, a snapshot of an image uploaded to a content editing tool; displaying the displayed snapshot along a timeline with the content editing tool; and providing, by the at least one processor, a length adjustment function to the content editing tool to adjust the length of the displayed snapshot. adjusting, by the at least one processor, the running time of the snapshot whose length has been adjusted by the length adjustment function by the adjusted length; and, by the at least one processor, providing the content editing tool with A video content generation method is provided, comprising generating a speech synthesis for an input text and adding it to the selected time point of the timeline.
一側面によると、前記表示されたスナップショットの長さは、前記表示されたスナップショットに対応するイメージが前記タイムライン上で占有する時間である前記ランニングタイムに比例し、前記タイムラインに沿って表示する段階は、前記抽出されたスナップショットをデフォルトランニングタイムに比例する長さで前記コンテンツ編集ツールに表示することを特徴としてよい。 According to one aspect, the length of the displayed snapshot is proportional to the running time, which is the time occupied on the timeline by the image corresponding to the displayed snapshot, along the timeline. The displaying step may be characterized by displaying the extracted snapshot in the content editing tool for a length proportional to a default running time.
他の側面によると、前記長さ調節機能を提供する段階は、前記表示されたスナップショットのうちの第1スナップショットに対して、予め設定された左側領域または右側領域に対するユーザのタッチ&ドラッグまたはクリック&ドラッグによって前記第1スナップショットの長さを増加または減少させる機能を提供することを特徴としてよい。 According to another aspect, the step of providing the length adjustment function includes a user's touch-and-drag or It may be characterized by providing the ability to increase or decrease the length of the first snapshot by clicking and dragging.
また他の側面によると、前記長さ調節機能を提供する段階は、前記第1スナップショットの前記左側領域または前記右側領域に対するユーザのタッチまたはクリックが維持される間、前記第1スナップショットの左側終端部分または右側終端部分に対する前記タイムライン上の時点を表示することを特徴としてよい。 According to yet another aspect, the step of providing the length adjustability comprises adjusting the left side of the first snapshot while a user's touch or click on the left side region or the right side region of the first snapshot is maintained. It may be characterized by displaying the point in time on the timeline for the end portion or the right end portion.
また他の側面によると、前記ランニングタイムを前記調節された長さによって調節する段階は、前記長さが調節されたスナップショットに対応するイメージが前記タイムライン上で占有する時間である前記ランニングタイムを前記長さが調節された程度に比例するように増加または減少させることを特徴としてよい。 According to another aspect, the step of adjusting the running time according to the adjusted length is the time occupied on the timeline by an image corresponding to the length-adjusted snapshot. is increased or decreased proportionally to the extent to which said length is adjusted.
また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記コンテンツ編集ツールで選択された音声タイプによって前記テキストに対する音声合成を生成することを特徴としてよい。 According to yet another aspect, generating the speech synthesis and adding to the timeline at the selected time includes generating speech synthesis for the text according to a speech type selected in the content editing tool. may be
また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記タイムライン上で特定の時点を示すタイムインジケータの移動によって選択された前記タイムラインの特定の時点に、前記生成された音声合成を追加することを特徴としてよい。 According to yet another aspect, the step of generating and adding the speech synthesis to the selected point in time on the timeline includes: It may be characterized by adding the generated speech synthesis at a specific point in time.
また他の側面によると、前記映像コンテンツ生成方法は、前記少なくとも1つのプロセッサにより、ユーザの入力に基づいて、前記タイムラインに追加された前記音声合成の前記タイムライン上の位置を移動させる段階をさらに含んでよい。 According to yet another aspect, the method for generating video content includes, by the at least one processor, moving a position on the timeline of the speech synthesis added to the timeline based on user input. May contain more.
また他の側面によると、前記映像コンテンツ生成方法は、前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで提供された複数の効果音のうちから1つの効果音が選択される段階、および前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階をさらに含んでよい。 According to yet another aspect, the method for generating video content includes selecting, by the at least one processor, one sound effect from among a plurality of sound effects provided by the content editing tool; adding the selected sound effect to the timeline at the selected time point with the content editing tool, by a single processor.
また他の側面によると、前記映像コンテンツ生成方法は、前記少なくとも1つのプロセッサにより、前記表示されたスナップショットの順序を変更するための機能を提供する段階をさらに含んでよい。 According to yet another aspect, the video content generation method may further include providing, by the at least one processor, functionality for reordering the displayed snapshots.
また他の側面によると、前記イメージは、イメージ化が可能な複数のページを含むファイルの形態でアップロードされることを特徴としてよい。 According to another aspect, the image may be uploaded in the form of a file containing a plurality of pages that can be imaged.
また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記タイムラインに追加しようとする第1音声合成が前記タイムラインに既に追加された第2音声合成とランニングタイムの少なくとも一部が重なる場合、前記第1音声合成を前記第2音声合成とは異なる音声チャンネルとして前記タイムラインに追加することを特徴としてよい。 According to yet another aspect, the step of generating and adding the speech synthesis to the timeline at the selected point in time includes adding a first speech synthesis to be added to the timeline to a first speech synthesis that has already been added to the timeline. The first speech synthesis may be added to the timeline as an audio channel different from the second speech synthesis when at least part of the running time overlaps with the second speech synthesis.
また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記タイムラインの選択された時点に追加された音声合成に対するインジケータを前記コンテンツ編集ツールに表示することを特徴としてよい。 According to yet another aspect, generating and adding the speech synthesis to the timeline at the selected point includes providing an indicator to the speech synthesis added at the timeline at the selected point to the content editing tool. It may be characterized by displaying.
また他の側面によると、前記インジケータによって前記テキストの少なくとも一部が表示されることを特徴としてよい。 In still another aspect, the indicator may display at least a portion of the text.
また他の側面によると、前記インジケータの長さは、前記音声合成の長さに比例することを特徴としてよい。 In still another aspect, the length of the indicator may be proportional to the length of the speech synthesis.
また他の側面によると、前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、前記インジケータに対するユーザ入力に基づいて、前記音声合成の生成に利用された音声タイプに関する情報、前記音声合成の長さに関する情報、および前記テキストのうちの少なくとも1つを表示することを特徴としてよい。 According to yet another aspect, generating the speech synthesis and adding it to the timeline at the selected point includes information about the speech type used to generate the speech synthesis based on user input to the indicator. , information about the length of said speech synthesis, and said text.
前記方法をコンピュータ装置に実行させるためのコンピュータプログラムを提供する。 A computer program is provided for causing a computer device to perform the method.
前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。 A computer-readable recording medium is provided in which a program for causing a computer device to execute the method is recorded.
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサにより、コンテンツ編集ツールにアップロードされたイメージのスナップショットを抽出し、前記抽出されたスナップショットを前記コンテンツ編集ツールでタイムラインに沿って表示し、前記コンテンツ編集ツールに前記表示されたスナップショットの長さを調節する長さ調節機能を提供し、前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節し、前記コンテンツ編集ツールに入力されるテキストに対する音声合成を生成して前記タイムラインの選択された時点に追加することを特徴とする、コンピュータ装置を提供する。 at least one processor implemented to execute computer readable instructions, said at least one processor extracting a snapshot of an image uploaded to a content editing tool; displaying along a timeline in a content editing tool, providing a length adjustment function for adjusting the length of the displayed snapshot in the content editing tool, and a snap whose length is adjusted by the length adjustment function; A computer device that adjusts the running time of a shot according to the adjusted length, generates speech synthesis for the text input to the content editing tool, and adds it to the selected time point on the timeline. I will provide a.
多数のイメージに対してユーザが希望する音声合成をリアルタイムで生成してユーザが希望する再生開始時間にダビングすることができ、生成された音声合成がダビングされた多数のイメージを利用して映像コンテンツを生成および提供することができる。 A voice synthesis desired by a user can be generated in real time for a plurality of images and dubbed at a reproduction start time desired by the user, and the generated voice synthesis is used for video contents using a plurality of dubbed images. can be generated and provided.
以下、実施形態について、添付の図面を参照しながら詳しく説明する。 Embodiments will be described in detail below with reference to the accompanying drawings.
本発明の実施形態に係るコンテンツ生成システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係るコンテンツ生成方法は、コンテンツ生成システムを実現する少なくとも1つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されたコンピュータプログラムの制御にしたがって本発明の実施形態に係るコンテンツ生成方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合してコンテンツ生成方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。 A content generation system according to embodiments of the present invention may be implemented by at least one computer device, and a content generation method according to an embodiment of the present invention may be implemented by at least one computer device that implements the content generation system. good. A computer program according to an embodiment of the present invention may be installed and executed in a computer device, and the computer device executes a content generation method according to an embodiment of the present invention under control of the executed computer program. you can The computer program described above may be recorded in a computer-readable recording medium in order to combine with a computer device and cause the computer device to execute the content generation method.
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境を説明するための一例に過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
FIG. 1 is a diagram showing an example of a network environment in one embodiment of the present invention. The network environment of FIG. 1 illustrates an example including multiple
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
The plurality of
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
The communication method is not limited, and not only the communication method using the communication network that can be included in the network 170 (eg, mobile communication network, wired Internet, wireless Internet, broadcast network, satellite network, etc.), but also the device It may also include short-range wireless communication between For example, the
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、コンテンツ提供サービス、グループ通話サービス(または、音声会議サービス)、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど)を提供するシステムであってよい。
Each of
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示したコンピュータ装置200によって実現されてよい。
FIG. 2 is a block diagram illustrating an example computing device, in accordance with one embodiment of the present invention. Each of the plurality of
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
Such a
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどはプロセッサ220やメモリ210に伝達されてよく、ファイルなどはコンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、少なくとも1つのコンピュータ装置200と1つの装置で構成されてもよい。
Input/
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
Also, in other embodiments,
図3は、本発明の一実施形態における、映像コンテンツ生成システムの例を示した図である。図3は、コンテンツ生成サーバ300、複数のユーザ310、およびコンテンツ編集ツール320を示している。
FIG. 3 is a diagram showing an example of a video content generation system in one embodiment of the present invention. FIG. 3 shows a
コンテンツ生成サーバ300は、少なくとも1つのコンピュータ装置200で実現されてよく、複数のユーザ310にコンテンツ編集ツール320を提供し、複数のユーザ310がコンテンツ編集ツール320を利用しながら複数のユーザ310それぞれがイメージに音声合成をダビングして映像コンテンツを生成することをサポートしてよい。
The
ここで、「イメージ」は、個別の複数のイメージ、イメージの束、またはイメージの束と少なくとも1つの個別のイメージを含んでよい。また、イメージの束は、PDFファイルのように1つのファイルに含まれたページをイメージ化したものを含んでよい。 Here, "image" may include a plurality of individual images, a batch of images, or a batch of images and at least one individual image. A bundle of images may also include images of pages contained in a single file, such as a PDF file.
複数のユーザ310は、コンテンツ生成サーバ300からコンテンツ編集ツール320の提供を受けてイメージから映像コンテンツを生成してよい。このとき、複数のユーザ310それぞれは、実質的に、ネットワーク170を介してコンテンツ生成サーバ300にアクセスしてコンテンツ編集ツール320の提供を受ける物理的な電子機器であってよい。このような物理的な電子機器もそれぞれ、図2を参照しながら説明したコンピュータ装置200で実現されてよい。
A plurality of
コンテンツ編集ツール320は、ウェブ方式またはアプリ方式で複数のユーザ310に提供されてよい。ウェブ方式とは、複数のユーザ310が、コンテンツ編集ツール320の機能が実現されていてコンテンツ生成サーバ300から提供されるウェブページを訪問し、該当のウェブページを通じて映像コンテンツの生成のための機能の提供を受ける方式を意味してよい。アプリ方式とは、複数のユーザ310に対応する物理的な電子機器それぞれにおいてインストールされて実行されるアプリケーションを通じてコンテンツ生成サーバ300に接続して、映像コンテンツの生成のための機能の提供を受ける方式を意味してよい。実施形態によって、映像コンテンツの生成のための機能が含まれたアプリケーションを利用して、複数のユーザ310に対応する物理的な電子機器それぞれが自律的に映像コンテンツの生成を処理してもよい。
The
一実施形態において、コンテンツ生成サーバ300は、ユーザがコンテンツ編集ツール320にアップロードしたイメージのサムネイルをタイムラインに沿ってコンテンツ編集ツール320に表示してよい。ユーザが複数のページで形成されたファイルをアップロードする場合、コンテンツ生成サーバ300は、複数のページをイメージ化し、イメージ化されたページのサムネイルをタイムラインに沿ってコンテンツ編集ツール320に表示してよい。
In one embodiment, the
このとき、コンテンツ編集ツール320は、ユーザがタイムライン上のイメージの順序を調節するための機能を提供してよい。ユーザは、該当の機能を利用して、自身がアップロードしたイメージの順序を決定してよい。タイムライン上のイメージの順序は、最終的に生成される映像コンテンツにおいてイメージが登場する順序に対応してよい。
At this time, the
また、コンテンツ編集ツール320は、ユーザがタイムライン上のイメージのうちで希望するイメージを削除するための機能を提供してよい。言い換えれば、ユーザは、該当の機能を利用して、自身がアップロードしたイメージのうちで不要なイメージを削除することができる。
Also, the
また、コンテンツ編集ツール320は、ユーザがタイムライン上で各イメージが占有する時間(または、区間)を調節するための機能を提供してよい。調節された時間は、最終的に生成される映像コンテンツにおいてイメージが登場する時間(または、区間)に対応してよい。例えば、コンテンツ編集ツール320に表示されるサムネイルの横の長さ(または、縦の長さ)は、イメージがタイムライン上で占有する時間(または、区間)に対応してよい。一例として、コンテンツ編集ツール320は、初めは4秒の時間(または、区間)に対応する長さでサムネイルを表示してよい。このとき、コンテンツ編集ツール320は、サムネイルの左側および/または右側終端部分をユーザがクリックあるいはタッチした後にドラッグすることによってサムネイルの長さを増減するための機能を提供してよい。この場合、調節されたサムネイルの長さにしたがい、タイムライン上でイメージが占有する時間が増減されてよい。
Also, the
また、コンテンツ編集ツール320は、ユーザがタイムライン上で希望する時点や区間を選択するための機能を提供してよく、選択された時点や区間に対してユーザが希望する任意のテキストを連係させるためのユーザインタフェースを提供してよい。選択された時点や区間に対して任意のテキストが連係されれば、コンテンツ生成サーバ300は、連係されたテキストを自動で音声に変換し、選択された時点や区間に変換された音声を追加することにより、ユーザが希望する内容の音声を簡単かつ便利にイメージにダビングできるようにサポートすることができる。
In addition, the
図4~19は、本発明の一実施形態における、コンテンツ編集ツールの画面の例を示した図である。 4 to 19 are diagrams showing examples of content editing tool screens in one embodiment of the present invention.
図4は、図3を参照しながら説明したコンテンツ編集ツール320の第1画面例400を示している。本実施形態に係るコンテンツ編集ツール320の構成は一例に過ぎず、前記構成は実施形態によって多様に変更されてよい。
FIG. 4 shows an example
ユーザは、自身の電子機器を利用してコンテンツ編集ツール320にアクセスしてよく、コンテンツ編集ツール320は、ユーザがイメージをアップロードするための機能410を提供してよい。図4の第1画面例400では、動画やPDFファイルをアップロードする例について説明しているが、コンテンツ編集ツール320は、個別の複数のイメージや複数のイメージが含まれた1つのファイル、または1つのファイルと複数のイメージの組み合わせをアップロードするための機能を提供してもよい。このとき、ユーザがアップロードするイメージは、ユーザがコンテンツ編集ツール320にアクセスするために使用した電子機器のローカル保存場所に保存されたイメージを含んでよい。実施形態によって、ユーザがアップロードするイメージは、電子機器のローカル保存場所ではなく、ウェブ上に位置するイメージであってもよい。
A user may access the
また、コンテンツ編集ツール320は、イメージにダビングを追加するための機能420を提供してよい。一例として、機能420は、音声選択機能421およびテキスト入力機能422を含んでよい。音声選択機能421は、多様な種類の予め定義された音声タイプのうちから1つを選択するための機能であってよく、テキスト入力機能422は、音声合成(Text To Speech:TTS)を生成するためのテキストを入力するための機能であってよい。一例として、ユーザが、音声選択機能421で音声タイプ「音声1」を選択し、テキスト入力機能422にテキスト「こんにちは」を入力したとする。このとき、試し聞きボタン423やダビング追加ボタン424を選択(一例として、PC環境におけるクリックまたはタッチスクリーン環境におけるタッチによって選択)する場合、入力されたテキスト「こんにちは」と選択された音声タイプ「音声1」の識別子がコンテンツ編集ツール320からコンテンツ生成サーバ300に伝達されてよい。この場合、コンテンツ生成サーバ300は、音声タイプ「音声1」を使用してテキスト「こんにちは」に対する音声合成を生成してよく、生成された音声合成をコンテンツ編集ツール320からユーザの電子機器に伝達してよい。このとき、試し聞きボタン423の選択に応答して電子機器のスピーカから音声合成が出力されてよく、ダビング追加ボタン424の選択に応答して、機能410によってアップロードされたイメージと関連して音声合成がタイムラインに追加されてよい。より具体的に、コンテンツ編集ツール320は、最終的に生成される映像コンテンツに対するタイムラインを可視的に表現するためのタイムライン表示機能440を含んでよい。このとき、音声合成がタイムラインのどこに追加されるのかについては、以下でさらに詳しく説明する。
実施形態によって、音声選択機能421は、ユーザがお気に入り登録をした音声タイプのうちから1つを選択するように実現されてよい。このとき、全体の音声タイプのうちの特定の音声タイプをお気に入り登録するためのユーザインタフェースがユーザに提供されてよい。一例として、ユーザがダビング追加機能420に示された「全体表示」を選択する場合、ユーザに全体の音声タイプを表示するためのユーザインタフェースが提供されてよく、ユーザは、提供されたユーザインタフェースから、全体の音声タイプのうちの希望する少なくとも1つの音声タイプをお気に入り登録してよい。この場合、音声選択機能421は、ユーザがお気に入り登録した音声のうちの1つを選択するように実現されてよい。
Depending on the embodiment, the
また、コンテンツ編集ツール320は、予め製作されている効果音をイメージと関連させてタイムラインに追加するための効果音追加機能430を提供してよい。効果音追加機能430は、予め製作されている多数の効果音のリストを表示し、効果音に対する試し聞きを実行するか、効果音をタイムラインの特定の時間に追加したりするための機能を含んでよい。必要によっては、ユーザが希望する効果音を外部ファイルから追加するか、直接生成したりしてもよい。
The
また、コンテンツ編集ツール320は、タイムラインの特定の時点を示すタイムインジケータ450を表示してよい。図4では、タイムインジケータ450がデフォルトである00:00.00の時点にある例を示している。
また、図4のコンテンツ編集ツール320に示された保存ボタン460は、現在のプロジェクトの編集を保存するための機能を提供してよく、ダウンロードボタン470は、映像コンテンツを生成してユーザの電子機器にダウンロードするための機能を提供してよい。
Also, a save button 460 shown in the
図5は、コンテンツ編集ツール320の第2画面例500を示している。図5の第2画面例500では、図4で説明した機能410によってイメージがアップロードされることにより、アップロードされたイメージのサムネイルのうちの一部がタイムライン表示機能440によって表示された例を示している。このとき、各サムネイルは、予め設定された時間間隔(図5の実施形態では4秒の時間間隔)に対応するようにタイムライン表示機能440に表示されている。また、タイムライン表示機能440の領域に対するクリック&ドラッグ(または、タッチスクリーン環境のためのタッチ&ドラッグやスワイプジェスチャ)によってタイムラインとサムネイルの探索が可能となる。
FIG. 5 shows an example
図6は、コンテンツ編集ツール320の第3画面例600として、タイムライン表示機能440の領域に対するクリック&ドラッグによってタイムライン表示機能440の他の領域が表示される例を示している。第3画面例600では、最後のサムネイルであるサムネイル10により、ユーザが10枚のイメージをアップロードしたことが分かる。上述したように、10枚のイメージは、個別のイメージまたは10枚のイメージにイメージ化が可能なページを含む1つのファイルの形態でアップロードされてもよいし、n枚のイメージにイメージ化が可能なページを含むファイルとm枚の個別のイメージ(ここで、nとmは自然数であり、n+m=10)が結合された形態でアップロードされてもよい。2つ以上のファイルと個別イメージの組み合わせが使用可能であることは、容易に理解できるであろう。
FIG. 6 shows an example of displaying another area of the
図7は、コンテンツ編集ツール320の第4画面例700として、サムネイルの時間間隔を調節した例を示している。例えば、図7の第4画面例700において、タイムライン表示機能440の領域に表示されるサムネイルの横の長さは、イメージがタイムライン上で占有する時間(または、区間)に対応してよい。このとき、第4画面例700では、ユーザがサムネイル2の右側終端部分をクリックした後に右側方向にドラッグしながらサムネイルの長さを伸ばした例を示している。この場合、伸びたサムネイル2の長さにしたがい、サムネイル2に対応するイメージがタイムライン上で占有する時間(以下、ランニングタイム)が増えてよい。このとき、第4画面例700では、ユーザがサムネイル2の右側終端部分をクリックしている間、サムネイル2の右側終端部分に対応するタイムライン上の時点(9.9秒の時点)が表示されるユーザインタフェース710が示されている。したがって、ユーザは、このようなユーザインタフェース710に表示される時間に基づいてサムネイル2の長さを調節してよい。一方、サムネイル2の長さが増えた分だけ、サムネイル2の後ろのサムネイル(一例として、サムネイル3~10)の開始時点が変更されてよい。図7の実施形態では、サムネイル2の長さを調節してサムネイルに対応するイメージのランニングタイムを調節する例について説明したが、このような説明がタイムライン表示機能440の各サムネイルにも同じように適用可能であることは、容易に理解できるであろう。
FIG. 7 shows an example in which the time interval between thumbnails is adjusted as a fourth screen example 700 of the
図8は、コンテンツ編集ツール320の第5画面例800として、サムネイル4の時間間隔が減少した例を示している。第5画面例800では、ユーザがサムネイル4の右側終端部分をクリックした後に左側方向にドラッグしてサムネイルの長さを縮めた例を示している。このとき、縮まったサムネイル4の長さにしたがい、サムネイル4に対応するイメージのランニングタイムが減ってよい。この場合、第5画面例800では、ユーザがサムネイル4の右側終端部分をクリックしている間、サムネイル4の右側終端部分に対応するタイムライン上の時点(17秒の時点)が表示されるユーザインタフェース810が示されている。一方、サムネイル4の長さが減った分だけ、サムネイル4の後ろのサムネイル(一例として、サムネイル5~10)の開始時点が変更されてよい。
FIG. 8 shows an example of a fifth screen example 800 of the
図7および図8の実施形態では、ユーザがサムネイルの右側終端部分をクリックした後に左右方向にドラッグしながらサムネイルの長さを増減することにより、サムネイルに対応するイメージのランニングタイムを増減する実施形態について説明した。このような説明により、実施形態によっては、コンテンツ編集ツール320がサムネイルの左側終端部分をクリックした後に左右方向にドラッグしてサムネイルの長さを増減することにより、サムネイルに対応するイメージのランニングタイムを増減する機能を提供することも可能であることは、容易に理解できるであろう。
In the embodiments of FIGS. 7 and 8, the running time of the image corresponding to the thumbnail is increased or decreased by increasing or decreasing the length of the thumbnail while the user clicks on the right end portion of the thumbnail and then drags left or right. explained. With this explanation, in some embodiments, the
図9は、コンテンツ編集ツール320の第6画面例900として、サムネイルの順序が変更された例を示している。コンテンツ編集ツール320は、ユーザが特定のサムネイルをクリック後、ドラッグ(タッチスクリーン環境ではタッチ後にドラッグ)することによってサムネイルの順序を変更するための機能を提供してよい。一例として、ユーザは、第5画面例800で、サムネイル1をクリックした後に右側方向にドラッグすることにより、サムネイル1とサムネイル2の順序を変更してよい。第6画面例900は、サムネイル1とサムネイル2の順序が変更された様子を示している。
FIG. 9 shows an example in which the thumbnail order is changed as a sixth screen example 900 of the
図10は、コンテンツ編集ツール320の第7画面例1000として、特定のサムネイルが削除された例を示している。コンテンツ編集ツール320は、ユーザが特定のサムネイルを選択した後に削除するための機能を提供してよい。一例として、ユーザが特定のサムネイルに対してマウスオーバーイベントを発生させることによって該当のサムネイルを削除するためのユーザインタフェースが表示されてよく、ユーザは、表示されたユーザインタフェースを利用して該当のサムネイルを削除してよい。このようなサムネイル削除のための方法が多様に提供可能であることは、容易に理解できるであろう。一例として、ユーザは、特定のサムネイルをマウスでクリックして選択した後にキーボード上の「Del」キーを押すことにより、選択されたサムネイルを削除してもよい。
FIG. 10 shows an example in which a specific thumbnail is deleted as a seventh screen example 1000 of the
図11および図12は、コンテンツ編集ツール320の第8画面例1100および第9画面例1200として、ダビングを追加する例を示している。上述したように、タイムインジケータ450は、タイムラインの特定の時点を示すものである。例えば、ユーザは、タイムインジケータ450をドラッグするか希望するタイムラインの位置をクリックする方式によってタイムインジケータ450を移動させてよい。第8画面例1100で、タイムインジケータ450と関連して表示された時刻「00:06.00」は、タイムラインで現在タイムインジケータ450が指示する時点を示してよい。
11 and 12 show examples of adding dubbing as an eighth screen example 1100 and a ninth screen example 1200 of the
また、第8画面例1100には、ダビング追加機能420のテキスト入力機能422によってテキスト「こんにちは、私はAAAです。」が入力された例を示している。このとき、ユーザがダビング追加ボタン424を選択する場合、第9画面例1200のように、テキスト「こんにちは、私はAAAです。」に対応する第1音声合成のための音声合成インジケータ1210がタイムライン表示機能440の領域にサムネイルと関連して表示されてよい。このとき、第1音声合成は、上述したように、コンテンツ生成サーバ300で生成されてコンテンツ編集ツール320に伝達されてよい。一方、音声合成インジケータ1210には、対応するテキスト「こんにちは、私はAAAです。」の少なくとも一部(第9画面例1200の「こんにちは、私」)と、第1音声合成の生成に使用された音声タイプの識別子(一例として、音声タイプ「音声1」の識別子(1)1220)が表示されてよい。
Further, the eighth screen example 1100 shows an example in which the text "Hello, I am AAA." At this time, if the user selects the
音声合成インジケータ1210の長さは、第1音声合成の長さに対応してよく、このような音声合成インジケータ1210の長さによって表示されるテキストの分量が異なってよい。このとき、第8画面例1100に示されたタイムインジケータ450の時刻は「00:06.00」であり、第9画面例1200に示されたタイムインジケータ450の時刻は「00:09.56」である。言い換えれば、第1音声合成のための音声合成インジケータ1210の長さは、3.56秒(00:09.56-00:06.00=00:03.56)であることが分かる。
The length of the
一方、ユーザが第8画面例1100で試し聞きボタン423を選択する場合、テキスト「こんにちは、私はAAAです。」に対応する第1音声合成がユーザの電子機器のスピーカから出力されてよい。言い換えれば、電子機器は、コンテンツ編集ツール320の制御にしたがい、第1音声合成をスピーカから出力してよい。
On the other hand, if the user selects listen
図13は、コンテンツ編集ツール320の第10画面例1300として、ユーザが音声合成インジケータ1210上にマウスオーバーのような入力を発生させる場合、マウスポインタの位置(タッチスクリーン環境では、音声合成インジケータ1210の位置をタッチしてタッチを位置させる間のタッチの位置)と関連して音声合成情報1310が表示される例を示している。音声合成情報1310は、音声合成の生成に利用された音声タイプ(音声1)、音声合成の長さ(3.56秒(00:03.56))、入力されたテキスト(こんにちは、私はAAAです。)を含んでよい。
FIG. 13 shows, as a tenth screen example 1300 of the
図14は、コンテンツ編集ツール320の第11画面例1400として、ユーザがサムネイル3の長さをタイムインジケータ450に合うように減らした場合の例を示している。この場合、サムネイル3の長さは、第1音声合成の長さが1.56であり、映像コンテンツのためのタイムラインでサムネイル3に対応するイメージのランニングタイムが1.56秒になることが分かる。
FIG. 14 shows an eleventh screen example 1400 of the
図15は、コンテンツ編集ツール320の第12画面例1500として、ユーザが第1音声合成の開始時点を変更する例を示している。言い換えれば、第12画面例1500では、第11画面例1400と比べて音声合成インジケータ1210の位置が変更していることが分かる。一例として、ユーザは、コンテンツ編集ツール320で音声合成インジケータ1210をクリックした状態で左側または右側にドラッグすることによって音声合成インジケータ1210の位置を変更してよく、このような音声合成インジケータ1210の位置変更によって第1音声合成の開始時点が変更されてよい。一方、音声合成インジケータ1210の位置の変更は、該当の音声合成インジケータ1210が選択(一例として、クリック)された状態でキーボードの方向キー入力によってなされてもよい。このような位置の変更は、音声合成インジケータ1210だけでなく、コンテンツ編集ツール320で提供される多様なインジケータそれぞれに対しても共通の方法で適用することが可能である。また、多数のインジケータは、1つのグループから選択されてもよい。一例として、キーボードの「Shift」キーを押した状態で多数のインジケータを順に選択(一例として、クリック)することにより、多数のインジケータが1つのグループとして選択されてよい。この場合、ユーザは、ドラッグやキーボードの方向キーの入力などにより、該当のグループに属する多数のインジケータの位置を一度に変更してもよい。
FIG. 15 shows an example of a twelfth screen example 1500 of the
図16および図17は、コンテンツ編集ツール320の第13画面例1600および第14画面例1700として、ダビングをさらに追加する例を示している。
16 and 17 show examples of adding dubbing as a thirteenth screen example 1600 and a fourteenth screen example 1700 of the
第13画面例1600は、ユーザがタイムインジケータ450を「00:05.78」の位置に移動させた後、音声選択機能421によって音声タイプ「音声2」を選択し、テキスト入力機能422によってテキスト「はじめまして。」を入力した例を示している。このとき、ユーザがダビング追加ボタン424を選択する場合、第14画面例1700のように、テキスト「はじめまして。」に対応する第2音声合成のための音声合成インジケータ1710がタイムライン表示機能440の領域にサムネイルと関連して表示されてよい。上述したように、音声合成インジケータ1710には、対応するテキスト「はじめまして」の少なくとも一部(第14画面例1700の「はじめ」)と、第2音声合成の生成に使用された音声タイプの識別子(一例として、音声タイプ「音声2」の識別子(2)1720)が表示されてよい。
In the thirteenth screen example 1600, after the user moves the
音声合成インジケータ1710の長さは、第2音声合成の長さに対応してよく、このような音声合成インジケータ1710の長さによって表示されるテキストの分量が異なってよい。このとき、第13画面例1600に示されたタイムインジケータ450の時刻は「00:06.00」であり、第14画面例1700に示されたタイムインジケータ450の時刻は「00:08.24」である。言い換えれば、第2音声合成のための音声合成インジケータ1710の長さは、2.24秒(00:08.24-00:06.00=00:02.24)であることが分かる。
The length of the
一方、ユーザが第13画面例1600で試し聞きボタン423を選択する場合、テキスト「はじめまして」に対応する第2音声合成がユーザの電子機器のスピーカから出力されてよい。言い換えれば、電子機器は、コンテンツ編集ツール320の制御にしたがって第2音声合成をスピーカから出力してよい。
On the other hand, if the user selects the
図18は、コンテンツ編集ツール320の第15画面例1800として、効果音を追加する例を示している。第15画面例1800では、ユーザが効果音追加機能430によって効果音2を選択(一例として、点線枠1810内のプラスボタンをクリック)することにより、現在のタイムインジケータ450の時点を開始時点として効果音2のインジケータ1820が追加される例を示している。このとき、効果音2のインジケータ1820の長さは、点線枠1810に示したように2.46秒であってよい。このようなインジケータ1820も、ユーザがクリック&ドラッグによって他の時点に移動させることが可能である。
FIG. 18 shows an example of adding a sound effect as a fifteenth screen example 1800 of the
以上の実施形態では、サムネイルのための1つのチャンネルと音声合成のための1つのチャンネル、さらに効果音のための1つのチャンネルという合計3つのチャンネルによって、映像コンテンツを生成するための情報をタイムラインに沿って羅列する例について説明した。しかし、実施形態によっては、音声合成のための2つ以上のチャンネルおよび/または効果音のための2つ以上のチャンネルが使用されてもよい。 In the above embodiment, information for generating video content is displayed on the timeline using a total of three channels: one channel for thumbnails, one channel for voice synthesis, and one channel for sound effects. An example of enumerating along is explained. However, in some embodiments, more than one channel for speech synthesis and/or more than one channel for sound effects may be used.
図19は、コンテンツ編集ツール320の第16画面例1900として、音声合成のための2つ以上のチャンネルを使用する例を示している。第16画面例1900では、2つの音声合成インジケータ1210、1710の一部分が重なって表示された例を示している。これは、少なくとも一部のタイムラインで2つの音声合成が同時に出力されることも可能であることを示している。図19の実施形態では、音声合成のための2つのチャンネルが使用されることを示しているが、3つ以上のチャンネルも使用可能であることは容易に理解できるであろう。また、効果音のための2つ以上のチャンネルが使用可能であることも容易に理解できるであろう。
FIG. 19 shows an
図20は、本発明の一実施形態における、映像コンテンツ生成方法の例を示したフローチャートである。本実施形態に係る映像コンテンツ生成方法は、コンテンツ編集ツール320によってコンテンツ編集支援のためのサービスを提供するコンピュータ装置200で実行されてよい。このとき、コンピュータ装置200のプロセッサ220は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのコンピュータプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に記録されたコードが提供する制御命令にしたがってコンピュータ装置200が図20の方法に含まれる段階2010~2090を実行するようにコンピュータ装置200を制御してよい。
FIG. 20 is a flow chart illustrating an example of a video content generation method in one embodiment of the present invention. The video content generation method according to the present embodiment may be performed by the
段階2010で、コンピュータ装置200は、コンテンツ編集ツールにアップロードされたイメージのスナップショットを抽出してよい。上述したように、イメージは、個別の複数のイメージや複数のイメージが含まれた1つのファイル、または1つのファイルと複数のイメージの組み合わせの形態でアップロードされてよい。特定の実施形態において、イメージは、イメージ化が可能な複数のページを含むファイルの形態でアップロードされてよい。一例として、PDFファイルがアップロードされる場合、コンピュータ装置200は、PDFファイルからイメージを抽出して複数のイメージファイルとして保存してよく、複数のイメージファイルそれぞれに対するスナップショットを抽出してよい。
At
段階2020で、コンピュータ装置200は、抽出されたスナップショットをコンテンツ編集ツールでタイムラインに沿って表示してよい。ここで、表示されたスナップショットの長さは、表示されたスナップショットに対応するイメージが前記タイムライン上で占有する時間のランニングタイムに比例してよい。このとき、コンピュータ装置200は、抽出されたスナップショットをデフォルトランニングタイムに比例する長さでコンテンツ編集ツールに表示してよい。図5では、4秒のデフォルトランニングタイムに比例する長さでスナップショットを表示する例について説明した。
At
段階2030で、コンピュータ装置200は、表示されたスナップショットの順序を変更するための機能を提供してよい。一例として、図8および図9では、サムネイル1とサムネイル2の位置を変更する例について説明した。実施形態によって、コンピュータ装置200は、特定のサムネイルを削除するための機能をさらに提供してもよい。
At
段階2040で、コンピュータ装置200は、コンテンツ編集ツールに表示されたスナップショットの長さを調節する長さ調節機能を提供してよい。一例として、コンピュータ装置200は、表示されたスナップショットのうちの第1スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ&ドラッグまたはクリック&ドラッグによって第1スナップショットの長さを増減させる機能を提供してよい。また、コンピュータ装置200は、第1スナップショットの左側領域または右側領域に対するユーザのタッチまたはクリックが維持される間、第1スナップショットの左側終端部分または右側終端部分に対するタイムライン上の時点を表示してよい。一例として、図7および図8では、サムネイルの長さを増減することと、このときにタイムライン上の時点が該当のスナップショットの右側終端部分に表示される例について説明した。
At
段階2050で、コンピュータ装置200は、長さ調節機能によって長さが調節されたスナップショットのランニングタイムを調節された長さによって調節してよい。一例として、コンピュータ装置200は、長さが調節されたスナップショットに対応するイメージが、タイムライン上で占有する時間の前記ランニングタイムがスナップショットの長さが調節された程度に比例するように増減してよい。
At
段階2060で、コンピュータ装置200は、コンテンツ編集ツールに入力されるテキストに対する音声合成を生成してタイムラインの選択された時点に追加してよい。このとき、コンピュータ装置200は、コンテンツ編集ツールで選択された音声タイプによってテキストに対する音声合成を生成してよい。年齢、性別、言語(韓国語、英語、中国語、日本語、スペイン語など)、感情(喜び、悲しみなど)などに応じて多数の音声タイプが予め生成されたものがコンテンツ編集ツールでユーザに提供されてよく、ユーザは、コンテンツ編集ツールから音声合成に利用するための特定の音声タイプを選択してよい。また、コンピュータ装置200は、タイムライン上で特定の時点を示すタイムインジケータの移動によって選択されたタイムラインの特定の時点に、生成された音声合成を追加してよい。図11および図12、図16および図17では、タイムインジケータ450によって選択された時点に音声合成を追加する例について説明した。
At
実施形態によって、コンピュータ装置200は、タイムラインに追加しようとする第1音声合成がタイムラインに既に追加された第2音声合成とランニングタイムの少なくとも一部が重なる場合、第1音声合成を第2音声合成とは異なる音声チャンネルとしてタイムラインに追加してよい。言い換えれば、生成される映像コンテンツにおいて2つ以上の音声合成が同時に出力されるようにダビングがなされてよい。図19では、2つの音声合成が互いに異なるチャンネルとしてタイムラインに追加される例について説明した。
According to an embodiment, if the first speech synthesis to be added to the timeline overlaps at least part of the running time of the second speech synthesis that has already been added to the timeline, the
また、コンピュータ装置200は、タイムラインの選択された時点に追加された音声合成に対するインジケータをコンテンツ編集ツールで表示してよい。実施形態によっては、インジケータによってテキストの少なくとも一部が表示されてよく、インジケータの長さは音声合成の長さに比例してよい。ここで、音声合成の長さとは、音声合成が出力される時間を意味してよい。
さらに、コンピュータ装置200は、インジケータに対するユーザ入力に基づいて、音声合成の生成に利用された音声タイプに関する情報、音声合成の長さに関する情報、およびテキストのうちの少なくとも1つを含む音声合成情報を出力してよい。音声合成情報は、インジケータに対するユーザ入力が発生する位置と関連して表示されてよい。一例として、図13では、音声合成インジケータ1210に関する音声合成情報1310を表示する例について説明した。
Additionally,
段階2070で、コンピュータ装置200は、ユーザの入力に基づいて、タイムラインに追加された音声合成のタイムライン上の位置を移動させてよい。一例として、図14および図15では、ユーザのクリック&ドラッグまたはタッチ&ドラッグのような入力によって音声合成の位置を移動させる例について説明した。
At
段階2080で、コンピュータ装置200は、コンテンツ編集ツールで提供された複数の効果音のうちから1つの効果音の選択を受けてよい。一例として、図18では、効果音追加機能430によってユーザに複数の効果音を提供し、ユーザが複数の効果音のうちから1つを選択することについて説明した。
At
段階2090で、コンピュータ装置200は、コンテンツ編集ツールでタイムラインに対して選択された時点に、選択された効果音を追加してよい。一例として、図18では、タイムインジケータ450によって選択された時点に効果音2を追加する例について説明した。
At
このとき、実施形態によって、段階2010~2090のうちの少なくとも一部が並列的に実行されてよい。一例として、段階2040と段階2050は、長さ調節のためのユーザの入力によってトリガーされてよく、段階2060と段階2070は、音声合成の追加のためのユーザの入力によってトリガーされてよく、段階2080と段階2090は、効果音の追加のためのユーザの入力によってトリガーされてよい。したがって、段階2040~2090の順序は、ユーザの入力によって変更されてもよい。
At this time, depending on the embodiment, at least some of steps 2010-2090 may be performed in parallel. As an example, steps 2040 and 2050 may be triggered by user input for length adjustment,
この後、ユーザが映像コンテンツの生成を要請する場合、コンピュータ装置200は、イメージを映像コンテンツに合わせたサイズに平準化した後、動画を生成してよい。実施形態によって、コンピュータ装置200は、映像コンテンツにウォーターマークおよび/または字幕を挿入してよい。この後、コンピュータ装置200は、タイムラインに合うように動画に音声合成および/または効果音を挿入して最終映像コンテンツを生成してよい。
Thereafter, when the user requests the generation of video content, the
このように、本発明の実施形態によると、多数のイメージに対してユーザが希望する音声合成をリアルタイムで生成してユーザが希望する再生開始時間にダビングすることができ、生成された音声合成がダビングされた多数のイメージによって映像コンテンツを生成および提供することができる。 As described above, according to the embodiment of the present invention, it is possible to generate a speech synthesis desired by the user for a number of images in real time and dub at a playback start time desired by the user, and the generated speech synthesis is Video content can be generated and provided by multiple dubbed images.
上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。 The systems or devices described above may be realized by hardware components or a combination of hardware and software components. For example, the devices and components described in the embodiments may include, for example, processors, controllers, ALUs (arithmetic logic units), digital signal processors, microcomputers, FPGAs (field programmable gate arrays), PLUs (programmable logic units), microcontrollers, It may be implemented using one or more general purpose or special purpose computers, such as a processor or various devices capable of executing instructions and responding to instructions. The processing unit may run an operating system (OS) and one or more software applications that run on the OS. The processor may also access, record, manipulate, process, and generate data in response to executing software. For convenience of understanding, one processing device may be described as being used, but those skilled in the art will appreciate that a processing device may include multiple processing elements and/or multiple types of processing elements. You can understand that. For example, a processing unit may include multiple processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。 Software may include computer programs, code, instructions, or a combination of one or more of these, to configure a processor to operate at its discretion or to independently or collectively instruct a processor. You can Software and/or data may be embodied in any kind of machine, component, physical device, virtual device, computer storage medium or device for interpretation on or for providing instructions or data to a processing device. may be changed. The software may be stored and executed in a distributed fashion over computer systems linked by a network. Software and data may be recorded on one or more computer-readable recording media.
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体も挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。 The method according to the embodiments may be embodied in the form of program instructions executable by various computer means and recorded on a computer-readable medium. The computer-readable media may include program instructions, data files, data structures, etc. singly or in combination. The medium may be a continuous recording of the computer-executable program or a temporary recording for execution or download. In addition, the medium may be various recording means or storage means in the form of a combination of single or multiple hardware, and is not limited to a medium that is directly connected to a computer system, but is distributed over a network. It may exist in Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, and ROM, RAM, flash memory, etc., and may be configured to store program instructions. Other examples of media include recording media or storage media managed by application stores that distribute applications, sites that supply or distribute various software, and servers. Examples of program instructions include high-level language code that is executed by a computer, such as using an interpreter, as well as machine language code, such as that generated by a compiler.
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。 As described above, the embodiments have been described based on the limited embodiments and drawings, but those skilled in the art will be able to make various modifications and variations based on the above description. For example, the techniques described may be performed in a different order than in the manner described and/or components such as systems, structures, devices, circuits, etc. described may be performed in a manner different from the manner described. Appropriate results may be achieved when combined or combined, opposed or substituted by other elements or equivalents.
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。 Accordingly, different embodiments that are equivalent to the claims should still fall within the scope of the appended claims.
300:コンテンツ生成サーバ
310:ユーザ
320:コンテンツ編集ツール
300: Content Generation Server 310: User 320: Content Editing Tool
Claims (19)
前記少なくとも1つのプロセッサにより、コンテンツ編集ツールを通じてアップロードされたイメージのスナップショットを抽出する段階、
前記少なくとも1つのプロセッサにより、前記抽出されたスナップショットを、前記コンテンツ編集ツールを通じてタイムラインに沿って表示する段階、
前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールを通じて前記表示されたスナップショットの長さを調節する長さ調節機能を提供する段階、
前記少なくとも1つのプロセッサにより、前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節する段階、および
前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールを通じて入力されるテキストに対する音声合成を生成して、前記タイムラインの選択された時点に追加する段階
を含むことを特徴とする、映像コンテンツ生成方法。 A method of generating video content for a computing device comprising at least one processor, comprising:
extracting, by the at least one processor, a snapshot of an image uploaded through a content editing tool;
displaying, by the at least one processor, the extracted snapshots along a timeline through the content editing tool;
providing, by the at least one processor, a length adjustment function to adjust the length of the displayed snapshot through the content editing tool;
adjusting, by the at least one processor, a running time of the snapshot whose length has been adjusted by the length adjusting function by the adjusted length; and inputting by the at least one processor through the content editing tool. generating a speech synthesis for the text to be generated and adding it to the selected time point of the timeline.
前記タイムラインに沿って表示する段階は、
前記抽出されたスナップショットをデフォルトランニングタイムに比例する長さで前記コンテンツ編集ツールを通じて表示すること
を特徴とする、請求項1に記載の映像コンテンツ生成方法。 the length of the displayed snapshot is proportional to the running time of the time occupied on the timeline by the image corresponding to the displayed snapshot;
The step of displaying along the timeline includes:
2. The video content generation method of claim 1, wherein the extracted snapshot is displayed through the content editing tool for a length proportional to a default running time.
前記表示されたスナップショットのうちの第1スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ&ドラッグまたはクリック&ドラッグによって前記第1スナップショットの長さを増加または減少させる機能を提供することを特徴とする、請求項1または2に記載の映像コンテンツ生成方法。 The step of providing the length adjustability comprises:
A function of increasing or decreasing the length of the first snapshot among the displayed snapshots by a user's touch-and-drag or click-and-drag on a preset left area or right area. 3. A video content generation method according to claim 1 or 2, characterized in that it provides .
前記第1スナップショットの前記左側領域または前記右側領域に対するユーザのタッチまたはクリックが維持される間、前記第1スナップショットの左側終端部分または右側終端部分に対する前記タイムライン上の時点を表示することを特徴とする、請求項3に記載の映像コンテンツ生成方法。 The step of providing the length adjustability comprises:
displaying a point in time on the timeline for the left end portion or the right end portion of the first snapshot while a user's touch or click on the left side region or the right side region of the first snapshot is maintained. 4. A video content generation method as claimed in claim 3.
前記長さが調節されたスナップショットに対応するイメージが前記タイムライン上で占有する時間の前記ランニングタイムを、前記長さが調節された程度に比例するように増加または減少させることを特徴とする、請求項1~4のうちのいずれか一項に記載の映像コンテンツ生成方法。 Adjusting the running time according to the adjusted length includes:
The running time of the time occupied by the image corresponding to the length-adjusted snapshot on the timeline is increased or decreased in proportion to the extent to which the length is adjusted. The video content generation method according to any one of claims 1 to 4.
前記コンテンツ編集ツールを通じて選択された音声タイプによって前記テキストに対する音声合成を生成することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。 generating the speech synthesis and adding it to the timeline at the selected point in time;
The video content generation method according to any one of claims 1 to 5, wherein speech synthesis is generated for the text according to the audio type selected through the content editing tool.
前記タイムライン上で特定の時点を現わすタイムインジケータの移動によって選択された前記タイムラインの特定の時点に、前記生成された音声合成を追加することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。 generating the speech synthesis and adding it to the timeline at the selected point in time;
wherein said generated speech synthesis is added at a specific point in time on said timeline selected by moving a time indicator representing a specific point in time on said timeline. The video content generation method according to any one of .
をさらに含む、請求項1~7のうちのいずれか一項に記載の映像コンテンツ生成方法。 further comprising, by the at least one processor, moving a position on the timeline of the speech synthesis added to the timeline based on user input. The video content generation method according to the item.
前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階
をさらに含む、請求項1~8のうちのいずれか一項に記載の映像コンテンツ生成方法。 selecting, by the at least one processor, one sound effect from among a plurality of sound effects provided through the content editing tool; and 9. The video content generation method according to any one of claims 1 to 8, further comprising: adding the selected sound effect at a point in time selected by .
をさらに含むことを特徴とする、請求項1~9のうちのいずれか一項に記載の映像コンテンツ生成方法。 10. The video of any one of claims 1 to 9, further comprising: providing, by said at least one processor, functionality for changing the order of said displayed snapshots. Content generation method.
前記タイムラインに追加しようとする第1音声合成が前記タイムラインに既に追加された第2音声合成とランニングタイムの少なくとも一部が重なる場合、前記第1音声合成を前記第2音声合成とは異なる音声チャンネルとして前記タイムラインに追加することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。 generating the speech synthesis and adding it to the timeline at the selected point in time;
If the first speech synthesis to be added to the timeline overlaps at least a part of the running time of the second speech synthesis already added to the timeline, the first speech synthesis is different from the second speech synthesis. A video content generation method according to any one of claims 1 to 5, characterized in that it is added to said timeline as an audio channel.
前記タイムラインの選択された時点に追加された音声合成に対するインジケータを、前記コンテンツ編集ツールを通じて表示することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。 generating the speech synthesis and adding it to the timeline at the selected point in time;
The video content generation method according to any one of claims 1 to 5, characterized in that an indicator for speech synthesis added at the selected time point of the timeline is displayed through the content editing tool. .
前記インジケータに対するユーザ入力に基づいて、前記音声合成の生成に利用された音声タイプの情報、前記音声合成の長さの情報、および前記テキストのうちの少なくとも1つを表示することを特徴とする、請求項13に記載の映像コンテンツ生成方法。 generating the speech synthesis and adding it to the timeline at the selected point in time;
displaying at least one of information of the speech type used to generate the speech synthesis, information of the length of the speech synthesis, and the text, based on user input to the indicator; 14. The video content generation method according to claim 13.
を含み、
前記少なくとも1つのプロセッサにより、
コンテンツ編集ツールを通じてアップロードされたイメージのスナップショットを抽出し、
前記抽出されたスナップショットを、前記コンテンツ編集ツールを通じてタイムラインに沿って表示し、
前記コンテンツ編集ツールを通じて前記表示されたスナップショットの長さを調節する長さ調節機能を提供し、
前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節し、
前記コンテンツ編集ツールを通じて入力されるテキストに対する音声合成を生成して前記タイムラインの選択された時点に追加すること
を特徴とする、コンピュータ装置。 at least one processor implemented to execute computer readable instructions;
by the at least one processor;
Extract snapshots of images uploaded through content editing tools,
displaying the extracted snapshot along a timeline through the content editing tool;
providing a length adjustment function for adjusting the length of the displayed snapshot through the content editing tool;
adjusting the running time of the snapshot whose length has been adjusted by the length adjustment function according to the adjusted length;
A computer device that generates a speech synthesis for text input through the content editing tool and adds it to the timeline at selected points.
前記表示されたスナップショットのうちの第1スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ&ドラッグまたはクリック&ドラッグによって前記第1スナップショットの長さを増加または減少させる機能を提供すること
を特徴とする、請求項18に記載のコンピュータ装置。 to provide the length adjustment functionality, by the at least one processor:
A function of increasing or decreasing the length of the first snapshot among the displayed snapshots by a user's touch-and-drag or click-and-drag on a preset left area or right area. 19. A computing device as claimed in claim 18, characterized in that it provides:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0034735 | 2021-03-17 | ||
KR1020210034735A KR102465870B1 (en) | 2021-03-17 | 2021-03-17 | Method and system for generating video content based on text to speech for image |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022145617A true JP2022145617A (en) | 2022-10-04 |
JP7277635B2 JP7277635B2 (en) | 2023-05-19 |
Family
ID=83452401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022039998A Active JP7277635B2 (en) | 2021-03-17 | 2022-03-15 | Method and system for generating video content based on image-to-speech synthesis |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7277635B2 (en) |
KR (1) | KR102465870B1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007235253A (en) * | 2006-02-27 | 2007-09-13 | Ricoh Co Ltd | Edition tool, and edition and operation method |
JP2011059412A (en) * | 2009-09-10 | 2011-03-24 | Fujitsu Ltd | Synthetic speech text inputting device and program |
JP2011082789A (en) * | 2009-10-07 | 2011-04-21 | Exlink Co Ltd | Voice-attached animation production/distribution service system |
JP2011244361A (en) * | 2010-05-21 | 2011-12-01 | Tepco Systems Corp | Content editing and generating system with content clip absorption function |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3938015B2 (en) * | 2002-11-19 | 2007-06-27 | ヤマハ株式会社 | Audio playback device |
KR101005588B1 (en) * | 2009-04-27 | 2011-01-05 | 쏠스펙트럼(주) | Apparatus for editing multi-picture and apparatus for displaying multi-picture |
JP2018078402A (en) * | 2016-11-08 | 2018-05-17 | 株式会社シフトワン | Content production device, and content production system with sound |
-
2021
- 2021-03-17 KR KR1020210034735A patent/KR102465870B1/en active IP Right Grant
-
2022
- 2022-03-15 JP JP2022039998A patent/JP7277635B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007235253A (en) * | 2006-02-27 | 2007-09-13 | Ricoh Co Ltd | Edition tool, and edition and operation method |
JP2011059412A (en) * | 2009-09-10 | 2011-03-24 | Fujitsu Ltd | Synthetic speech text inputting device and program |
JP2011082789A (en) * | 2009-10-07 | 2011-04-21 | Exlink Co Ltd | Voice-attached animation production/distribution service system |
JP2011244361A (en) * | 2010-05-21 | 2011-12-01 | Tepco Systems Corp | Content editing and generating system with content clip absorption function |
Also Published As
Publication number | Publication date |
---|---|
JP7277635B2 (en) | 2023-05-19 |
KR102465870B1 (en) | 2022-11-10 |
KR20220129868A (en) | 2022-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11132118B2 (en) | User interface editor | |
US20220413798A1 (en) | Playlist configuration and preview | |
KR102005315B1 (en) | Support System And Method For Cloud Service | |
WO2022143924A1 (en) | Video generation method and apparatus, electronic device, and storage medium | |
JP7157177B2 (en) | Video Acquisition Method, Apparatus, Terminal and Medium | |
KR20230042523A (en) | Multimedia data processing method, generation method and related device | |
US20140123006A1 (en) | User interface for streaming media stations with flexible station creation | |
US10061493B2 (en) | Method and device for creating and editing object-inserted images | |
KR20140139859A (en) | Method and apparatus for user interface for multimedia content search | |
AU2014250635A1 (en) | Apparatus and method for editing synchronous media | |
CN109474855A (en) | Video editing method, device, computer equipment and readable storage medium storing program for executing | |
US20180188926A1 (en) | Method and device for creating and editing object-inserted images | |
JP7277635B2 (en) | Method and system for generating video content based on image-to-speech synthesis | |
US20230282240A1 (en) | Media Editing Using Storyboard Templates | |
JP7254842B2 (en) | A method, system, and computer-readable recording medium for creating notes for audio files through interaction between an app and a website | |
KR102117452B1 (en) | Electronic Device and the Method for Producing Contents | |
KR102353797B1 (en) | Method and system for suppoting content editing based on real time generation of synthesized sound for video content | |
JP7128222B2 (en) | Content editing support method and system based on real-time generation of synthesized sound for video content | |
CN110209870A (en) | Music log generation method, device, medium and calculating equipment | |
JP7166373B2 (en) | METHOD, SYSTEM, AND COMPUTER-READABLE RECORDING MEDIUM FOR MANAGING TEXT TRANSFORMATION RECORD AND MEMO TO VOICE FILE | |
WO2022252916A1 (en) | Method and apparatus for generating special effect configuration file, device and medium | |
US20240005364A1 (en) | Method and device for editing advertisement content | |
WO2023217122A1 (en) | Video clipping template search method and apparatus, and electronic device and storage medium | |
KR20160094915A (en) | Contents package creatiing method using thouchscreen | |
KR101766527B1 (en) | Method and system for providing post |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7277635 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |