JP7277635B2 - イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム - Google Patents
イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム Download PDFInfo
- Publication number
- JP7277635B2 JP7277635B2 JP2022039998A JP2022039998A JP7277635B2 JP 7277635 B2 JP7277635 B2 JP 7277635B2 JP 2022039998 A JP2022039998 A JP 2022039998A JP 2022039998 A JP2022039998 A JP 2022039998A JP 7277635 B2 JP7277635 B2 JP 7277635B2
- Authority
- JP
- Japan
- Prior art keywords
- timeline
- length
- speech synthesis
- time
- editing tool
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003786 synthesis reaction Methods 0.000 title claims description 116
- 230000015572 biosynthetic process Effects 0.000 title claims description 113
- 238000000034 method Methods 0.000 title claims description 46
- 230000000694 effects Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 description 40
- 238000010586 diagram Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 12
- 238000003860 storage Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 230000007423 decrease Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000012905 input function Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Systems (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- User Interface Of Digital Computer (AREA)
Description
310:ユーザ
320:コンテンツ編集ツール
Claims (19)
- 少なくとも1つのプロセッサを含むコンピュータ装置の映像コンテンツ生成方法であって、
前記少なくとも1つのプロセッサにより、コンテンツ編集ツールを通じてアップロードされたイメージのスナップショットを抽出する段階、
前記少なくとも1つのプロセッサにより、前記抽出されたスナップショットを、前記コンテンツ編集ツールを通じてタイムラインに沿って表示する段階、
前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールを通じて前記表示されたスナップショットの長さを調節する長さ調節機能を提供する段階、
前記少なくとも1つのプロセッサにより、前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節する段階、および
前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールを通じて入力されるテキストに対する音声合成を生成して、前記タイムラインの選択された時点に追加する段階
を含むことを特徴とする、映像コンテンツ生成方法。 - 前記表示されたスナップショットの長さは、前記表示されたスナップショットに対応するイメージが前記タイムライン上で占有する時間の前記ランニングタイムに比例し、
前記タイムラインに沿って表示する段階は、
前記抽出されたスナップショットをデフォルトランニングタイムに比例する長さで前記コンテンツ編集ツールを通じて表示すること
を特徴とする、請求項1に記載の映像コンテンツ生成方法。 - 前記長さ調節機能を提供する段階は、
前記表示されたスナップショットのうちの第1スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ&ドラッグまたはクリック&ドラッグによって前記第1スナップショットの長さを増加または減少させる機能を提供することを特徴とする、請求項1または2に記載の映像コンテンツ生成方法。 - 前記長さ調節機能を提供する段階は、
前記第1スナップショットの前記左側領域または前記右側領域に対するユーザのタッチまたはクリックが維持される間、前記第1スナップショットの左側終端部分または右側終端部分に対する前記タイムライン上の時点を表示することを特徴とする、請求項3に記載の映像コンテンツ生成方法。 - 前記ランニングタイムを前記調節された長さによって調節する段階は、
前記長さが調節されたスナップショットに対応するイメージが前記タイムライン上で占有する時間の前記ランニングタイムを、前記長さが調節された程度に比例するように増加または減少させることを特徴とする、請求項1~4のうちのいずれか一項に記載の映像コンテンツ生成方法。 - 前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
前記コンテンツ編集ツールを通じて選択された音声タイプによって前記テキストに対する音声合成を生成することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。 - 前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
前記タイムライン上で特定の時点を現わすタイムインジケータの移動によって選択された前記タイムラインの特定の時点に、前記生成された音声合成を追加することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。 - 前記少なくとも1つのプロセッサにより、ユーザの入力に基づいて、前記タイムラインに追加された前記音声合成の前記タイムライン上の位置を移動させる段階
をさらに含む、請求項1~7のうちのいずれか一項に記載の映像コンテンツ生成方法。 - 前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールを通じて提供された複数の効果音のうちから1つの効果音が選択される段階、および
前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階
をさらに含む、請求項1~8のうちのいずれか一項に記載の映像コンテンツ生成方法。 - 前記少なくとも1つのプロセッサにより、前記表示されたスナップショットの順序を変更するための機能を提供する段階
をさらに含むことを特徴とする、請求項1~9のうちのいずれか一項に記載の映像コンテンツ生成方法。 - 前記イメージは、イメージ化が可能な複数のページを含むファイルの形態でアップロードされることを特徴とする、請求項1~10のうちのいずれか一項に記載の映像コンテンツ生成方法。
- 前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
前記タイムラインに追加しようとする第1音声合成が前記タイムラインに既に追加された第2音声合成とランニングタイムの少なくとも一部が重なる場合、前記第1音声合成を前記第2音声合成とは異なる音声チャンネルとして前記タイムラインに追加することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。 - 前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
前記タイムラインの選択された時点に追加された音声合成に対するインジケータを、前記コンテンツ編集ツールを通じて表示することを特徴とする、請求項1~5のうちのいずれか一項に記載の映像コンテンツ生成方法。 - 前記インジケータによって前記テキストの少なくとも一部が表示されることを特徴とする、請求項13に記載の映像コンテンツ生成方法。
- 前記インジケータの長さは、前記音声合成の長さに比例することを特徴とする、請求項13に記載の映像コンテンツ生成方法。
- 前記音声合成を生成して前記タイムラインの選択された時点に追加する段階は、
前記インジケータに対するユーザ入力に基づいて、前記音声合成の生成に利用された音声タイプの情報、前記音声合成の長さの情報、および前記テキストのうちの少なくとも1つを表示することを特徴とする、請求項13に記載の映像コンテンツ生成方法。 - 請求項1~16のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラム。
- コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサにより、
コンテンツ編集ツールを通じてアップロードされたイメージのスナップショットを抽出し、
前記抽出されたスナップショットを、前記コンテンツ編集ツールを通じてタイムラインに沿って表示し、
前記コンテンツ編集ツールを通じて前記表示されたスナップショットの長さを調節する長さ調節機能を提供し、
前記長さ調節機能によって長さが調節されたスナップショットのランニングタイムを前記調節された長さによって調節し、
前記コンテンツ編集ツールを通じて入力されるテキストに対する音声合成を生成して前記タイムラインの選択された時点に追加すること
を特徴とする、コンピュータ装置。 - 前記長さ調節機能を提供するために、前記少なくとも1つのプロセッサにより、
前記表示されたスナップショットのうちの第1スナップショットに対し、予め設定された左側領域または右側領域に対するユーザのタッチ&ドラッグまたはクリック&ドラッグによって前記第1スナップショットの長さを増加または減少させる機能を提供すること
を特徴とする、請求項18に記載のコンピュータ装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0034735 | 2021-03-17 | ||
KR1020210034735A KR102465870B1 (ko) | 2021-03-17 | 2021-03-17 | 이미지에 대한 음성합성에 기반하여 영상 컨텐츠를 생성하는 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022145617A JP2022145617A (ja) | 2022-10-04 |
JP7277635B2 true JP7277635B2 (ja) | 2023-05-19 |
Family
ID=83452401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022039998A Active JP7277635B2 (ja) | 2021-03-17 | 2022-03-15 | イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7277635B2 (ja) |
KR (1) | KR102465870B1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007235253A (ja) | 2006-02-27 | 2007-09-13 | Ricoh Co Ltd | 編集ツール、及び編集および操作方法 |
JP2011082789A (ja) | 2009-10-07 | 2011-04-21 | Exlink Co Ltd | 音声付き動画制作・配信サービスシステム |
JP2011244361A (ja) | 2010-05-21 | 2011-12-01 | Tepco Systems Corp | コンテンツクリップ吸着機能を有するコンテンツ編集生成システム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3938015B2 (ja) * | 2002-11-19 | 2007-06-27 | ヤマハ株式会社 | 音声再生装置 |
KR101005588B1 (ko) * | 2009-04-27 | 2011-01-05 | 쏠스펙트럼(주) | 멀티영상 편집장치 및 재생장치 |
JP5482042B2 (ja) * | 2009-09-10 | 2014-04-23 | 富士通株式会社 | 合成音声テキスト入力装置及びプログラム |
JP2018078402A (ja) * | 2016-11-08 | 2018-05-17 | 株式会社シフトワン | コンテンツ制作装置、及び音声付コンテンツ制作システム |
KR102657519B1 (ko) * | 2019-02-08 | 2024-04-15 | 삼성전자주식회사 | 음성을 기반으로 그래픽 데이터를 제공하는 전자 장치 및 그의 동작 방법 |
-
2021
- 2021-03-17 KR KR1020210034735A patent/KR102465870B1/ko active IP Right Grant
-
2022
- 2022-03-15 JP JP2022039998A patent/JP7277635B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007235253A (ja) | 2006-02-27 | 2007-09-13 | Ricoh Co Ltd | 編集ツール、及び編集および操作方法 |
JP2011082789A (ja) | 2009-10-07 | 2011-04-21 | Exlink Co Ltd | 音声付き動画制作・配信サービスシステム |
JP2011244361A (ja) | 2010-05-21 | 2011-12-01 | Tepco Systems Corp | コンテンツクリップ吸着機能を有するコンテンツ編集生成システム |
Also Published As
Publication number | Publication date |
---|---|
KR102465870B1 (ko) | 2022-11-10 |
JP2022145617A (ja) | 2022-10-04 |
KR20220129868A (ko) | 2022-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11132118B2 (en) | User interface editor | |
KR102005315B1 (ko) | 클라우드 서비스 지원 방법과 시스템 및 이를 지원하는 단말기 | |
US9361942B2 (en) | Playlist configuration and preview | |
WO2022143924A1 (zh) | 视频生成方法、装置、电子设备和存储介质 | |
KR20230042523A (ko) | 멀티미디어 데이터의 처리 방법, 생성 방법 및 관련 기기 | |
US11670339B2 (en) | Video acquisition method and device, terminal and medium | |
US20140123006A1 (en) | User interface for streaming media stations with flexible station creation | |
US10061493B2 (en) | Method and device for creating and editing object-inserted images | |
JP2005209196A (ja) | メディアプレゼンテーションを制作するためのシステム、方法、インターフェース装置、および統合システム | |
JP2005209196A5 (ja) | ||
US9843823B2 (en) | Systems and methods involving creation of information modules, including server, media searching, user interface and/or other features | |
JP7293338B2 (ja) | ビデオ処理方法、装置、デバイスおよびコンピュータプログラム | |
CN109474855A (zh) | 视频编辑方法、装置、计算机设备和可读存储介质 | |
US10824313B2 (en) | Method and device for creating and editing object-inserted images | |
JP2004126637A (ja) | コンテンツ作成システム及びコンテンツ作成方法 | |
JP7277635B2 (ja) | イメージに対する音声合成に基づいて映像コンテンツを生成する方法およびシステム | |
US20230282240A1 (en) | Media Editing Using Storyboard Templates | |
JP7254842B2 (ja) | アプリとウェブサイトの連動によって音声ファイルに対するメモを作成する方法、システム、およびコンピュータ読み取り可能な記録媒体 | |
KR102353797B1 (ko) | 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템 | |
JP7128222B2 (ja) | 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム | |
CN110209870A (zh) | 音乐日志生成方法、装置、介质和计算设备 | |
JP2006048465A (ja) | コンテンツ生成システム、プログラム及び記録媒体 | |
WO2022252916A1 (zh) | 特效配置文件的生成方法、装置、设备及介质 | |
KR20200022995A (ko) | 콘텐츠 제작 시스템 | |
JP7166373B2 (ja) | 音声ファイルに対するテキスト変換記録とメモをともに管理する方法、システム、およびコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7277635 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |