JP2023511309A - クラウド基盤の音声結合を用いた注文型動画製作サービス提供システム - Google Patents

クラウド基盤の音声結合を用いた注文型動画製作サービス提供システム Download PDF

Info

Publication number
JP2023511309A
JP2023511309A JP2022543457A JP2022543457A JP2023511309A JP 2023511309 A JP2023511309 A JP 2023511309A JP 2022543457 A JP2022543457 A JP 2022543457A JP 2022543457 A JP2022543457 A JP 2022543457A JP 2023511309 A JP2023511309 A JP 2023511309A
Authority
JP
Japan
Prior art keywords
custom
data
user terminal
voice
background music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022543457A
Other languages
English (en)
Inventor
スン ジャン,ヒョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2023511309A publication Critical patent/JP2023511309A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0276Advertisement creation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0621Item configuration or customization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/222Secondary servers, e.g. proxy server, cable television Head-end
    • H04N21/2223Secondary servers, e.g. proxy server, cable television Head-end being a public access point, e.g. for downloading to or uploading from clients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/274Storing end-user multimedia data in response to end-user request, e.g. network recorder
    • H04N21/2743Video hosting of uploaded data from client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Human Computer Interaction (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】クラウド基盤の音声結合を用いた注文型動画製作サービス提供システムが提供される。【解決手段】使用者の発話を音声として入力されてアップロードし、少なくとも1種のカテゴリーのうちのいずれか一つのカテゴリーを選択してイメージまたは動画を含むコンテンツを選択し、字幕または背景音楽を選択し、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を再生する使用者端末と、少なくとも1種のカテゴリー別テキスト、イメージ、動画、及び背景音楽を分類及び保存するデータベース化部、前記使用者端末からアップロードされた使用者の発話に対応する音声データをアップロードされるアップロード部、前記アップロードされた音声データをSTT(Speech to Text)によってテキストデータに変換して保存する変換部、前記使用者端末で少なくとも1種のカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、前記選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を前記使用者端末に提供する提供部、及び前記使用者端末で字幕または背景音楽を選択し、字幕データを受信するか背景音楽が選択される場合、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成する生成部を含む注文型動画製作サービス提供サーバーとを含む。【選択図】 図1

Description

本発明はクラウド基盤の音声結合を用いた注文型動画製作サービス提供システムに関し、発話された音声データをクラウドにアップロードし、音声として検索された録音ファイルを用いて動画を製作することができるプラットホームを提供する。
近年、インターネット技術の進化及び急速な普及、多様なメディア著作道具の登場によって直接動画を製作して配布する環境が早く造成されている。インターネット環境を介して動画の実時間ストリーミングが可能になり、モバイル機器の急速な普及によっていつでもどこでも動画に近付くことができるインフラが備わったこともこのような環境変化の主な動力である。これからは、一般使用者が各自の能力及び意志があればコンテンツを直接生産して配布することができる環境になっていると思うことができる。しかし、関連インフラの発展にもかかわらず、それぞれの目的に適した高品質の動画を生成して配布することは依然として難しいことが事実である。マルチメディアコンテンツを容易に製作することができる力強くて多様な編集道具とサービスを用いることができるが、道具を上手に活用するためには、依然として長年の忍耐心が要求される習得過程が必要であり、関連の道具を取り揃えるための費用も少なくない。
これにより、写真を用いて動画を製作することができる方法が研究及び開発された。これに関連して、先行技術である韓国公開特許第2014-0052167号公報(2014年05月07日公開)には、製作端末から動画製作の要請を受信すれば、製作端末に動画の背景音楽として選択可能な背景音楽リストを伝送し、その応答として背景音楽選択情報を受信し、既に保存されている音楽ファイルのうちで選択された背景音楽の音源を検出して製作端末に伝達し、背景音楽の再生中に露出させようとする写真をその再生時間とマッピングさせたマッピング情報を受信して保存し、マッピング情報に基づいて各写真を露出させるために使用者が写真の露出方法及び方向を決定したシナリオを動画製作端末から受信して動画を生成する構成が開示されている。
上述した構成を用いると言っても、写真と背景音楽とを合わせて動画を製作することは基礎段階の動画製作のみを支援するだけであり、使用者の音声を動画内に組み込むためには使用者の録音過程及び整合過程が再び要求されるので、個人または小規模事業主が直接メディアコンテンツを製作するのには専門的知識の不足、追加費用の消費などによる負担が依然として大きい。また、録音ファイルはファイル名として保存されるので、どの録音であるかをファイル名を見て確認するかまたは直接再生して聞いてみなければならないので、録音ファイルを用いた動画生成過程がもっと複雑になる原因になる。よって、使用者が発話した音声を自動で分類して保存し、音声で検索することができながらも、録音ファイルを用いて手軽く動画を製作することができるプラットホームの研究及び開発が要求される。
韓国公開特許第2014-0052167号公報
本発明の一実施例は、使用者端末に保存された録音ファイルのうち使用者の音声発話が含まれた録音ファイルを自動で分類及び抽出してバックグラウンドモードでクラウドプラットホームにアップロードし、使用者端末で注文型動画を製作しようとするとき、既保存の少なくとも一つのカテゴリー別コンテンツを提供することにより、編集プログラムを購入またはダウンロードしなくても、一般人であっても直観的に字幕、背景音楽、及び録音ファイルを整合させて使用者注文型動画を製作することができるようにし、既設定のアップロードサーバーにアップロードさせるときにはアップロードサーバーで要求するフォーマットに合うように自動でトランスコーディングし、使用者端末に保存するときにも使用者端末で再生可能なフォーマットにトランスコーディングすることによって使用者の便宜性を極大化することができる、クラウド基盤の音声結合を用いた注文型動画製作サービス提供方法を提供することができる。ただ、本実施例が達成しようとする技術的課題は前述したような技術的課題に限定されず、他の技術的課題が存在することができる。
上述した技術的課題を達成するための技術的手段として、本発明の一実施例は、使用者の発話を音声として入力されてアップロードし、少なくとも1種のカテゴリーのうちのいずれか一つのカテゴリーを選択してイメージまたは動画を含むコンテンツを選択し、字幕または背景音楽を選択し、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を再生する使用者端末と、少なくとも1種のカテゴリー別テキスト、イメージ、動画、及び背景音楽を分類及び保存するデータベース化部、前記使用者端末からアップロードされた使用者の発話に対応する音声データをアップロードされるアップロード部、前記アップロードされた音声データをSTT(Speech to Text)によってテキストデータに変換して保存する変換部、前記使用者端末で少なくとも1種のカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、前記選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を前記使用者端末に提供する提供部、及び前記使用者端末で字幕または背景音楽を選択し、字幕データを受信するか背景音楽が選択される場合、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成する生成部を含む注文型動画製作サービス提供サーバーとを含む。
前述した本発明の課題解決手段のうちの一つによれば、使用者端末に保存された録音ファイルのうち使用者の音声発話が含まれた録音ファイルを自動で分類及び抽出してバックグラウンドモードでクラウドプラットホームにアップロードし、使用者端末で注文型動画を製作しようとするとき、既保存の少なくとも一つのカテゴリー別コンテンツを提供することにより、編集プログラムを購入またはダウンロードしなくても、一般人であっても直観的に字幕、背景音楽、及び録音ファイルを整合させて使用者注文型動画を製作することができるようにし、既設定のアップロードサーバーにアップロードさせるときにはアップロードサーバーで要求するフォーマットに合うように自動でトランスコーディングし、使用者端末に保存するときにも使用者端末で再生可能なフォーマットにトランスコーディングすることによって使用者の便宜性を極大化することができる。
本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供システムを説明するための図である。 図1のシステムに含まれた注文型動画製作サービス提供サーバーを説明するためのブロック構成図である。 本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービスを具現する一実施例を説明するための図である。 本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービスを具現する一実施例を説明するための図である。 本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法を説明するためのフローチャートである。
クラウド基盤の音声結合を用いた注文型動画製作サービス提供システムであり、使用者の発話を音声として入力されてアップロードし、少なくとも1種のカテゴリーのうちのいずれか一つのカテゴリーを選択してイメージまたは動画を含むコンテンツを選択し、字幕または背景音楽を選択し、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を再生する使用者端末と、少なくとも1種のカテゴリー別テキスト、イメージ、動画、及び背景音楽を分類及び保存するデータベース化部、前記使用者端末からアップロードされた使用者の発話に対応する音声データをアップロードされるアップロード部、前記アップロードされた音声データをSTT(Speech to Text)によってテキストデータに変換して保存する変換部、前記使用者端末で少なくとも1種のカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、前記選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を前記使用者端末に提供する提供部、及び前記使用者端末で字幕または背景音楽を選択し、字幕データを受信するか背景音楽が選択される場合、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成する生成部を含む注文型動画製作サービス提供サーバーとを含む。
以下では、添付図面に基づき、本発明が属する技術分野で通常の知識を有する者が容易に実施することができるように本発明の実施例を詳細に説明する。しかし、本発明は様々な相異なる形態に具現されることができ、ここで説明する実施例に限定されない。そして、図面において、本発明を明確に説明するために説明と関係ない部分は省略し、明細書全般にわたって類似の部分に対しては類似の図面符号を付けた。
明細書全般にわたり、ある部分が他の部分と「連結」されていると言うとき、これは「直接的に連結」されている場合だけでなく、その中間に他の素子を挟んで「電気的に連結」されている場合も含む。また、ある部分がある構成要素を「含む」と言うとき、これは、特に反対する記載がない限り、他の構成要素を排除するものではなくて他の構成要素をさらに含むことができることを意味し、一つ又はそれ以上の他の特徴、数字、段階、動作、構成要素、部分品又はこれらの組合せなどの存在又は付加の可能性を予め排除しないものと理解しなければならない。
明細書全般にわたって使われる、程度を示す用語「約」、「実質的に」などは言及された意味に固有の製造及び物質許容誤差が提示されるとき、その数値で又はその数値に近接した意味として使われ、本発明の理解を助けるために正確であるか絶対的な数値が言及された開示内容を非良心的な侵害者が不当に用いることを防止するために使われる。本発明の明細書全般にわたって使われる用語「~(する)段階」又は「~の段階」は「~のための段階」を意味しない。
本明細書において、「部」とは、ハードウェアによって実現されるユニット(unit)、ソフトウェアによって実現されるユニット、及び両者を用いて実現されるユニットを含む。また、一つのユニットが二つ以上のハードウェアを用いて実現されても良く、二つ以上のユニットが一つのハードウェアによって実現されても良い。
本明細書において、端末、装置又はデバイスが行うものとして記述された動作又は機能の一部は当該端末、装置又はデバイスと連結されたサーバーが代わって行うこともできる。これと同様に、サーバーが行うものとして記述された動作又は機能の一部も当該サーバーと連結された端末、装置又はデバイスで行うこともできる。
本明細書において、端末とのマッピング(Mapping)又はマッチング(Matching)として記述された動作又は機能の一部は、端末の識別情報(Identifying Data)である端末機の固有番号又は個人の識別情報をマッピング又はマッチングすると言う意味と解釈することができる。
以下、添付図面に基づいて本発明を詳細に説明する。
図1は本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供システムを説明するための図である。図1を参照すると、クラウド基盤の音声結合を用いた注文型動画製作サービス提供システム1は、少なくとも一つの使用者端末100、注文型動画製作サービス提供サーバー300、少なくとも一つのコンテンツ提供端末400、及び少なくとも一つのアップロードサーバー500を含むことができる。しかし、このような図1のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム1は本発明の一実施例に過ぎないので、図1に本発明が限定されて解釈されるものではない。
ここで、図1の各構成要素は一般的にネットワーク(network)200を介して連結される。例えば、図1に示すように、少なくとも一つの使用者端末100はネットワーク200を介して注文型動画製作サービス提供サーバー300と連結されることができる。そして、注文型動画製作サービス提供サーバー300は、ネットワーク200を介して少なくとも一つの使用者端末100、少なくとも一つのコンテンツ提供端末400、及び少なくとも一つのアップロードサーバー500と連結されることができる。また、少なくとも一つのコンテンツ提供端末400は、ネットワーク200を介して注文型動画製作サービス提供サーバー300と連結されることができる。そして、少なくとも一つのアップロードサーバー500は、ネットワーク200を介して少なくとも一つの使用者端末100、注文型動画製作サービス提供サーバー300、及び少なくとも一つのコンテンツ提供端末400と連結されることができる。
ここで、ネットワークは複数の端末及びサーバーのようなそれぞれのノードの間に情報交換が可能な連結構造を意味するものであり、このようなネットワークの一例には、RF、3GPP(登録商標)(3rd Generation Partnership Project)ネットワーク、LTE(Long Term Evolution)ネットワーク、5GPP(5th Generation Partnership Project)ネットワーク、WIMAX(World Interoperability for Microwave Access)ネットワーク、インターネット(Internet)、LAN(Local Area Network)、Wireless LAN(Wireless Local Area Network)、WAN(Wide Area Network)、PAN(Personal Area Network)、ブルートゥース(登録商標)(Bluetooth)ネットワーク、NFCネットワーク、衛星放送ネットワーク、アナログ放送ネットワーク、DMB(Digital Multimedia Broadcasting)ネットワークなどが含まれるが、これらに限定されない。
以下で、少なくとも一つという用語は単数及び複数を含む用語と定義され、少なくとも一つという用語が存在しないとしても各構成要素が単数または複数で存在することができ、単数または複数を意味することができるというのは明らかであると言える。また、各構成要素が単数または複数で備わることは、実施例によって変更可能であると言える。
少なくとも一つの使用者端末100は、クラウド基盤の音声結合を用いた注文型動画製作サービス関連のウェブページ、アプリケーションページ、プログラムまたはアプリケーションを用いて使用者注文型動画を製作する端末であることができる。ここで、少なくとも一つの使用者端末100は使用者の音声発話を録音する端末であることができ、録音された音声データをバックグラウンドモード(Background Mode)で注文型動画製作サービス提供サーバー300に伝送する端末であることができる。また、使用者端末100は、注文型動画製作サービス提供サーバー300から提供するページに接続して少なくとも一つのカテゴリーを選択することができ、カテゴリーに既にマッピングされて保存された背景音楽、キャラクター、イメージ、動画などを選択することができる端末であることができる。また、使用者端末100はバックグラウンドでアップロードされた音声データを選択して注文型動画に挿入する端末であることができ、字幕テキストを入力して注文型動画製作サービス提供サーバー300に伝送する端末であることができる。そして、使用者端末100は、注文型動画製作サービス提供サーバー300で生成された注文型動画を再生するかストリーミングを受ける端末であることができ、編集を遂行するか修正などを遂行することができる端末であることができる。ここで、動画は注文型動画製作サービス提供サーバー300で既設定のカテゴリーにマッピングされて保存されたマルチメディアであり、注文型動画は使用者によって選択された多様な種類の構成要素がトランスコーディング(Transcoding)されて作られたマルチメディアと定義する。そして、使用者端末100は、使用者端末100内に保存するかまたはアップロードサーバー500にアップロードするために決済を遂行する端末であることができる。
ここで、少なくとも一つの使用者端末100は、ネットワークを介して遠隔地のサーバーや端末に接続することができるコンピュータによって具現されることができる。ここで、コンピュータは、例えば、ナビゲーション、ウェブブラウザー(WEB Browser)が搭載されたノートブック型PC、デスクトップ型PC(Desktop)、ラップトップ型PC(Laptop)などを含むことができる。ここで、少なくとも一つの使用者端末100は、ネットワークを介して遠隔地のサーバーや端末に接続することができる端末によって具現されることができる。少なくとも一つの使用者端末100は、例えば、携帯性及び移動性が保障される無線通信装置であり、ナビゲーション、PCS(Personal Communication System)、GSM(Global System for Mobile communications)、PDC(Personal Digital Cellular)、PHS(Personal Handyphone System)、PDA(Personal Digital Assistant)、IMT(International Mobile Telecommunication)-2000、CDMA(Code Division Multiple Access)-2000、W-CDMA(W-Code Division Multiple Access)、Wibro(Wireless Broadband Internet)端末、スマートフォン(smartphone)、スマートパッド(smartpad)、タブレット型PC(Tablet PC)などのようなあらゆる種類のハンドヘルド(Handheld)基盤の無線通信装置を含むことができる。
注文型動画製作サービス提供サーバー300は、クラウド基盤の音声結合を用いた注文型動画製作サービスのウェブページ、アプリケーションページ、プログラム、またはアプリケーションを提供するサーバーであることができる。そして、注文型動画製作サービス提供サーバー300は、少なくとも一つのコンテンツ提供端末400からキャラクター、イメージ、動画、背景音楽などを収集してビッグデータを構築するサーバーであることができる。また、注文型動画製作サービス提供サーバー300は、既設定のカテゴリーに対応するようにビッグデータ内のデータをタギングして分類し、既設定のカテゴリーとマッピングして保存するサーバーであることができる。そして、注文型動画製作サービス提供サーバー300は、使用者端末100に保存された少なくとも一つの録音データのうち使用者を識別及び区分して使用者の音声データを抽出し、バックグラウンドモードでアップロードされるサーバーであることができる。また、注文型動画製作サービス提供サーバー300は、使用者端末100で注文型動画を製作するとき、少なくとも一つのカテゴリーを選択して受け、選択されたカテゴリーに既にマッピングされたデータを使用者端末100に伝送して選択するようにするサーバーであることができる。ここで、注文型動画製作サービス提供サーバー300は、使用者端末100で音声データを検索する場合、検索語に対応する音声データを類似度に基づいて整列して使用者端末100に伝送するサーバーであることができる。また、注文型動画製作サービス提供サーバー300は、使用者端末100ですべての選択を完了した後、注文型動画生成を要請する場合、注文型動画を生成した後、使用者端末100にストリーミングさせるサーバーであることができる。そして、注文型動画製作サービス提供サーバー300は、使用者端末100で決済を遂行する場合、使用者端末100または少なくとも一つのアップロードサーバー500の要求フォーマットを把握した後、把握されたフォーマットの通りにトランスコーディングして伝送またはアップロードするサーバーであることができる。
ここで、注文型動画製作サービス提供サーバー300は、ネットワークを介して遠隔地のサーバーや端末に接続することができるコンピュータによって具現されることができる。ここで、コンピュータは、例えば、ナビゲーション、ウェブブラウザー(WEB Browser)が搭載されたノートブック型PC、デスクトップ型PC(Desktop)、ラップトップ型PC(Laptop)などを含むことができる。
少なくとも一つのコンテンツ提供端末400は、クラウド基盤の音声結合を用いた注文型動画製作サービス関連のウェブページ、アプリケーションページ、プログラムまたはアプリケーションを用いる著作権者、職員、企画社、所属社などの端末であることができる。ここで、少なくとも一つのコンテンツ提供端末400は、イメージ、動画、キャラクター、背景音楽などを注文型動画製作サービス提供サーバー300に伝送し、著作権契約に基づいて手数料の精算を受ける端末であるか精算してくれる職員の端末であることができる。そして、少なくとも一つのコンテンツ提供端末400が職員の端末の場合、既設定のカテゴリーに対応するように少なくとも一つのデータを分類及びタギングする端末であることができる。もちろん、データの分類及びタギングは、初期のビッグデータ構築作業に教師あり学習(Supervised Learning)の一環としてコンテンツ提供端末400が介入することができるが、分類のための人工知能アルゴリズムの学習が完了した後には、コンテンツ提供端末400は、それ以上に介入せずに教師なし学習(Unsupervised Learning)に転換してエラーのみを検査する端末であることができる。
ここで、少なくとも一つのコンテンツ提供端末400は、ネットワークを介して遠隔地のサーバーや端末に接続することができるコンピュータによって具現されることができる。ここで、コンピュータは、例えば、ナビゲーション、ウェブブラウザー(WEB Browser)が搭載されたノートブック型PC、デスクトップ型PC(Desktop)、ラップトップ型PC(Laptop)などを含むことができる。ここで、少なくとも一つのコンテンツ提供端末400は、ネットワークを介して遠隔地のサーバーや端末に接続することができる端末によって具現されることができる。少なくとも一つのコンテンツ提供端末400は、例えば、携帯性及び移動性が保障される無線通信装置であり、ナビゲーション、PCS(Personal Communication System)、GSM(Global System for Mobile communications)、PDC(Personal Digital Cellular)、PHS(Personal Handyphone System)、PDA(Personal Digital Assistant)、IMT(International Mobile Telecommunication)-2000、CDMA(Code Division Multiple Access)-2000、W-CDMA(W-Code Division Multiple Access)、Wibro(Wireless Broadband Internet)端末、スマートフォン(smartphone)、スマートパッド(smartpad)、タブレット型PC(Tablet PC)などのようなあらゆる種類のハンドヘルド(Handheld)基盤の無線通信装置を含むことができる。
少なくとも一つのアップロードサーバー500は、クラウド基盤の音声結合を用いた注文型動画製作サービス関連のウェブページ、アプリケーションページ、プログラムまたはアプリケーションを用いるか用いずに注文型動画製作サービス提供サーバー300からアップロードされた注文型動画をアップロードするサーバーであることができる。ここで、少なくとも一つのアップロードサーバー500は、ネットワークを介して遠隔地のサーバーや端末に接続することができるコンピュータによって具現されることができる。ここで、コンピュータは、例えば、ナビゲーション、ウェブブラウザー(WEB Browser)が搭載されたノートブック型PC、デスクトップ型PC(Desktop)、ラップトップ型PC(Laptop)などを含むことができる。
図2は図1のシステムに含まれた注文型動画製作サービス提供サーバーを説明するためのブロック構成図であり、図3及び図4は本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービスを具現する一実施例を説明するための図である。
図2を参照すると、注文型動画製作サービス提供サーバー300は、データベース化部310、アップロード部320、変換部330、提供部340、生成部350、検索部360、調整部370、及び決済部380を含むことができる。
本発明の一実施例による注文型動画製作サービス提供サーバー300またはこれに連動して動作する他のサーバー(図示せず)が少なくとも一つの使用者端末100、少なくとも一つのコンテンツ提供端末400、及び少なくとも一つのアップロードサーバー500にクラウド基盤の音声結合を用いた注文型動画製作サービスのアプリケーション、プログラム、アプリケーションページ、ウェブページなどを伝送する場合、少なくとも一つの使用者端末100、少なくとも一つのコンテンツ提供端末400、及び少なくとも一つのアップロードサーバー500は、クラウド基盤の音声結合を用いた注文型動画製作サービスのアプリケーション、プログラム、アプリケーションページ、ウェブページなどを組み込むか開けることができる。また、ウェブブラウザーで実行されるスクリプトを用いてサービスプログラムを少なくとも一つの使用者端末100、少なくとも一つのコンテンツ提供端末400、及び少なくとも一つのアップロードサーバー500で駆動することもできる。ここで、ウェブブラウザーはウェブ(WWW:world wide web)サービスを用いることができるようにするプログラムであり、HTML(hyper text mark-up language)で敍述されたハイパーテキストを受けて示すプログラムを意味し、例えば、ネットスケープ(Netscape)、エクスプローラ(Explorer)、クロム(chrome)などを含む。また、アプリケーションは端末上の応用プログラム(application)を意味し、例えば、モバイル端末(スマートフォン)で実行されるアプリケーション(app)を含む。
図2を参照すると、データベース化部310は、少なくとも1種のカテゴリー別のテキスト、イメージ、動画、及び背景音楽を分類及び保存することができる。ここで、少なくとも一つのカテゴリー別のテキスト、イメージ、動画及び背景音楽は、構造化程度によって構造化(structured)データ、半構造化(semi-structured)データ、及び非構造化(unstructured)データに分類することができる。構造化データは種類や形式が決まっている規格を有するデータであり、固定されたフィールドに所定の形式(数値、日付など)の値として書き込むか項目で選択する類型のデータであるか、または各種の資料のメタデータである。半構造化データは大部分がテキスト形態であり、フィールドが固定されてはいないが、資料の特性によってテキスト内に含まれる内容を定義することができるデータ類である。非構造化データは形態が不規則であって定義しにくい項目であり、一般的にテキスト、イメージなどが相当する。大部分のテキストデータは半構造化に分析することができるので、映像またはイメージデータのみを非構造化と考慮することができる。非構造化データには、多様な種類の動画データ及びイメージデータが含まれる。このような非構造化データも、キーワード、タグまたはメタデータとして学習されて分類及びパターン化され、その後、新しい非構造化データの分類が要求されたとき、データがレコード形式に加工されて連関データとともに提供されることができる。
データベース化部310は、上述したローデータ(Raw Data)を並列分散し、保存されたローデータ内に含まれた非構造化(Unstructed)データ、構造化(Structured)データ、及び半構造化データ(Semi-structured)を精製し、メタデータへの分類を含む前処理を実施することができ、前処理されたデータをデータマイニング(Data Mining)を含む分析を実施することができる。そして、データベース化部310は、分析されたデータを視覚化して出力することができる。ここで、データマイニングは、前処理されたデータの間に内在された関係を探索し、クラスが知られた訓練データセットを学習させて新しいデータのクラスを予測する分類(Classification)またはクラス情報なしに類似性を基準にデータをグループ化する群集化(Clustering)を遂行することができる。もちろん、その他にも多様なマイニング法が存在することができ、収集及び保存されるビッグデータの種類または以後に要請されるクエリー(Query)の種類によって異なるようにマイニングされることもできる。このように構築されたビッグデータは、人工神経網ディープラーニングまたはマシンラーニングなどによって検証過程を受けることもできる。ここで、人工神経網ディープラーニングは、映像資料を分析するときに有用であり得る。
ここで、人工神経網はCNN(Convolutional neural network)構造を用いることができる。CNNはコンボリューション層を用いたネットワーク構造であり、イメージ処理に適しており、イメージデータを入力してイメージ内の特徴に基づいてイメージを分類することができるからである。また、テキストマイニング(Text Mining)は非構造化/半構造化テキストデータから自然語処理技術によって有用な情報を抽出及び加工することを目的とする技術である。テキストマイニング技術によって膨大なテキスト塊から意味ある情報を抽出し、他の情報との関連性を把握し、テキストが有するカテゴリーを捜し出すかまたは単純な情報検索以上の結果を得ることができる。これを用いて、本発明の一実施例による注文型動画製作サービスでは、クエリーとして入力される識別子や自然語を分析し、そのうちに隠された情報を掘り出すために、大容量の言語資源と統計的及び規則的アルゴリズムを使うことができる。また、クラスター分析(Cluster Analysis)は、類似している特性を有する客体を合わせながら最終的に類似特性のグループを掘り出すのに使うことができ、群集の特性を把握して以後の新規クエリー(Query)である新規のテキスト、イメージ、背景音楽などが収集された場合、新規客体を分類し出すことができる。
アップロード部320は、使用者端末100からアップロードされた使用者の発話に対応する音声データをアップロードされることができる。また、アップロード部320は、使用者端末100から音声データ、テキストデータ、イメージデータ及び動画データのうちのいずれか一つまたは少なくとも一つの組合せを手動でまたは自動でアップロードされることができる。すなわち、使用者端末100で手動でファイルを指定してアップロードすることはもちろんのこと、自動でファイルをアップロードすることを含む。また、音声データだけでなく、文字のようなテキストデータやイメージまたは動画をアップロードすることができることを含む。上述した構成のうち、音声データをアップロードする場合、手動で使用者が指定してアップロードすることもでき、さらにアップロード部320は、使用者端末100で録音される録音データのうち使用者の発話に対応する音声を区分し、選択的に音声データをバックグラウンドモード(Background Mode)でアップロードされることができる。このために、使用者端末100は、使用者の発話を音声として入力されてアップロードすることができる。ここで、使用者端末100では多様な音を録音することができる。クライアント訪問が多い使用者の場合、クライアントの音声またはクライアントとの会議が記録された録取録が存在することもでき、記者であれば取材対象の音声が録音された録音ファイルが存在することもできる。このうち、アップロード部320は、注文型動画のための使用者の発話を識別し、話し手を分離してアップロードしなければならない。このために、神経回路網を用いる。
神経回路網を用いた音声認識では、神経回路網の学習過程によって、入力層から中問層にあるいは中問層から出力層に向かうニューロンを互いに連結する加重値を変更して誤差を最小化することにより、新しい入力データに対して分類することができるように音声認識過程を遂行することができる。また、神経回路網を用いて多くの人が発声した音声を入力してそれぞれの個人が有している話し手の特徴を抽出した後、この特徴入力データを神経回路網の入力値とする。神経回路網を誤差がほとんどなくなく一定期間の間に学習させた後、神経回路網の学習データとは異なる新しい話し手の音声を神経回路網に入力する場合、どの人が発声した音声であるかを判断して認識することができる。仮に、使用者の発話ではない他人の発話が必要な使用者であれば、すべての音声データをアップロードした後、識別によるタグをタギングさせ、以後に必要な人の音声のみを抽出するようにする。ここで、音声の内容を分類することは以後に検索部360で遂行されるので、上述した話し手の分離や識別とは違う。
上述した話し手の識別及び分離のためには、アップロード部320は、まず分離された各フレームのサンプル値をハミング窓に通過させる。その後、有声音区間及び無声音区間を分類する。まず、無声音区間に対しては線形予測分析による線形予測係数(LPC:Linear Predictive Coefficient)ケプストラム係数及び高速フーリエ変換(FFT:Fast Fourier Transform)電力スペクトラムを求める。そして、有声音区間に対しては、低域部分の直流成分を含むFFTケプストラム係数及びFFT電力スペクトラムを求める。その後、それぞれの有声音区間及び無声音区間に対してケプストラム平均引算法(Cepstral Mean Subtraction)によるケプストラム正規化過程によって各フレームで話し手認識のための特徴データが神経回路網の入力層に入力されてそれぞれの話し手を分類するようになる。この引算法では、歪んでいない音声のケプストラムの平均を0(Zero)と仮定し、全区間の音声ケプストラムの平均を求める。その後、これを差し引いたケプストラムを学習及び認識に使うことができる。もちろん、上述した方法の他にも多様な話し手の識別及び分離方法が存在することができ、上述した方法にのみ限定されるものではないのは言うまでもない。
変換部330は、アップロードされた音声データをSTT(Speech to Text)によってテキストデータに変換して保存することができる。これは、上述した内容識別、すなわち後述する検索部360で検索語による検索を遂行するように内容をテキスト化する作業である。テキスト内で重要なキーワードを抽出してタギングしておくことにより、以後に検索語がクエリーとして入力されたとき、類似度に基づいて検出することができる。このために、変換部330は、テキストの変換及び保存だけでなく、さらに検索語として出ることができるキーワードを抽出することができる。キーワードは他の文書と区分して該当文書を代表することができる単語であり、情報検索、文書分類、要約などに使うことができる。このために、TF-IDF(Term Frequency-Inverse Document Frequency)によってキーワードを抽出することができる。もしくは、FastTextを用いることもできる。これは、単語の前後文脈を反映して単語埋め込みを演算する。この場合、カテゴリー単語との類似度が高い単語を求めることができる。もしくは、CNN(Convolutional Neural Networks)の加重値を用いて文脈に加重値を与え、カテゴリー情報を反映することにより分類問題に役立つキーワードから構成された辞書を生成することもできる。
CNNで、コンボリューションレイヤー(Convolutional Layer)は入力文章の資質に対して加重値を計算する。その後、最大プーリング(Max-Pooling)によって各フィルターで最高の加重値を有する資質のみを選択してカテゴリーを分類する。モデルは、予測カテゴリーと実際カテゴリーとの間の差を逆伝播(Back-Propagation)によって各レイヤーに伝達して加重値をアップデートする。この過程で、コンボリューションレイヤーは、各文章でカテゴリーを分類するにあたり、重要な資質に高い加重値を付与するように学習するようになる。ここで、コンボリューションレイヤーの加重値が分類に対する資質の重要度を示すという点を用いれば、加重値の高い単語をキーワードと見なして抽出することができる。この際、発話エラー(発音が明確でなくてテキストが誤記として表記されるかまたは誤った単語を発話した場合)のような文書内のエラーに柔軟に対処することができるように、CNNを音節単位で学習して該当文書に対する各音節の加重値を求めた後、単語を成す音節の加重値を組み合せて最終の重要度を求めることができる。
提供部340は、使用者端末100から少なくとも一つのカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を使用者端末100に提供することができる。ここで、カテゴリーとイメージは、上述したように、ビッグデータ分類によって、初期には人間の介入を前提として、以後には教師なし学習によってマッピングされている。同様に、イメージだけでなく、動画、テキストまたはキャラクターも分類されているので、使用者端末100でいずれか一つのカテゴリーを選択した場合、これに対応するキャラクター、イメージ、テキスト、動画などが出力されることができる。例えば、オントロジー基盤のイメージタギング技法を用いる場合、イメージの相関関係を用いる。ここで、下段によってイメージの低次元特徴が選択され、この特徴は中間段でセマンティックにキーワードとマッピングされ、このキーワードは上段でスキーマとオントロジーによって連結される。さらに、イメージのセマンティック意味を習得するために、イメージはコンテンツによって分解され、イメージの結果分類は構造的に定義構造の最もルートに位置することになる。キーワードのシーケンスはイメージをタギングするために使われ、低次元特徴抽出段階で作られた学習例題が入力として使われる。
人間の介入を完全に排除するためには、自動イメージタギング技法を用いることができる。ここではイメージ分割アルゴリズムが使われる。イメージタギングのために全域的特徴を使う。このモデリングフレームワークはカネールスムージング(Kernel Smoothing)という非母数密度判断法に基づくことができる。この際、イメージの学習データセット(Data Set)が自動タギングのために使われ、イメージを描写するために語彙が使われる。トレーニングデータセットに属するイメージの助けによってタグ生成において具体的なイメージの予測が可能である。これにより、抽象的な「愛」という単語にも、初期にイメージとタギング単語との間の人間の介入による学習が存在し、エラーをフィードバックとして与えて学習及びトレーニングさせた場合には、以後に「愛」を示す音楽、イメージ、動画などが入力されると言っても、上述した方法によって分類されることができ、よってシステム上でそれ以上の人力の介入がなくても新たにアップロードされる資料に対する自動タギング及び分類が可能になり、使用者も新しいコンテンツを分類及び整列されたままで用いることができるようになる。
生成部350は、使用者端末100で字幕または背景音楽を選択して字幕データを受信するかまたは背景音楽が選択される場合、コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成することができる。ここで、生成部350は、クラウドを介せずにすぐ作業する場合には、使用者端末100から入力された音声、テキスト、文字、イメージなどを用いてすぐ作業を遂行するようにすることもできる。これにより、使用者端末100は、少なくとも1種のカテゴリーのうちのいずれか一つのカテゴリーを選択してイメージまたは動画を含むコンテンツを選択し、字幕または背景音楽を選択して、コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を再生することができる。ここで、動画をレンダリングするために、ビデオコラージュ方式またはテンプレート(Template)方式を用いることができる。前者は、写真と映像をいっぺんに選択し、所望の雰囲気を選択すれば、入力されたコンテンツを一つに組み合せて動画を生成する方式である。後者は前もってデザインされたテンプレートを選択し、所望のメディアを代替及び挿入する方式で映像製作が遂行される。完成度の高いテンプレートを一旦作っておけば、写真または動画のみを代替して何回も再活用することができる。
また、本発明の一実施例では、注文型動画を製作するために、各種のメタ情報、写真、動画のようなリソースを入力され、これを戦略メタ情報によって選別し、最終的にビデオを出力する構成を用いることもできる。前述した二通りの方法との相違点は、メタ情報を用いて制限されたテンプレートを分類し、推薦することにより、意図するコンテンツを製作することができるようにすることである。ここで、メタ情報は構造化した形態であるか決まった形態がない一般的なテキスト文字列フォーマットを仮定する。
上述したレンダリングのために、MLT(Media Lovin’ Toolkit)マルチメディアフレームワークを用いることができる。これは、多様なメディアソースを時間によって配置し、転換及びフィルター効果、2次元及び3次元グラフィック効果を付け加えて実際映像を作るように支援する。MLTは公開ソースマルチメディアプロジェクトであり、放送用コンテンツを含めた多様なビデオコンテンツの創作のために開発されている。外部プログラムとの連動のためのAPIが提供されることにより、多様なプログラミング言語で接近することができ、放送コンテンツ、ビデオ編集機、メディア再生機、変換符号化器、ビデオストリーミングのような多くの応用に活用可能である。機能の側面では、マルチメディアコンテンツを容易に組み合せて表示する必須機能を提供し、プラグイン構造を導入して持続的な機能の拡張が可能である。もちろん、レンダリング機能を提供するものであれば、上述したブランドの他にも多様なツールキットまたはプログラムを用いることができ、上述した構成のみが満たされれば、どの方法も可能であると言える。
上述した戦略メタ情報を用いた一例を挙げれば、使用者が空気浄化植物を販売する販売者であり、空気浄化植物を販売するための広報映像を製作すると仮定する。ここで、ビデマッシュアップのためには、使用者情報、使用者意図情報、テキスト形態のメタ情報で記述される戦略メタ情報がシステムに前もって確保されていると仮定する。戦略メタ情報は多様な経路及び方法で収集することができるが、広告用ビデマッシュアップであると仮定すれば、業種情報、マーケティング戦略、位置情報、雰囲気情報、使用者意図情報、広報時間帯情報にまとめることができる。例えば、業種は「苗販売業」、マーケティング戦略は「30代女性が好む広報物を正午に配布すること」、使用者意図は「空気浄化植物を重点的に広告したい」のような戦略メタ情報を提示することができる。その後、メタ情報を示す文字列から主に辞書(Dictionary)に定義された名詞(noun)としてのキーワードを抽出し、主題モデリング方法を用いれば、場面組合せのための類似度の計算に使うことができる。ストーリーボード、すなわち広報映像がどのように展開されて行くかは、使用者端末100で使用者インターフェースを介して所望の雰囲気やテーマを有するストーリーボードを予め選択したと仮定する。このようなストーリーボードの表現のために、複数の場面がストーリーボードを成すと仮定し、場面によって場面番号、場面スケッチ、正規タグ、非正規タグをJSON(JavaScript Object Notation)フォーマットで記述して上位水準の話し構造を作ることができる。ストーリーボードによって、場面テンプレート(Scene Template)、リソース(Resource)、背景音楽(Background Music)、フィルター効果(Filter Effect)、マスク効果(Mask Effect)を選択する過程を遂行して最終的にビデオを出力することができる。
このために、ストーリーボードと場面構成要素との間にメタ情報基盤の連結インターフェースを定義し、互いに連結させることができるアルゴリズムが予め設定されなければならない。一つのストーリーボードは複数の場面(Scene)から構成され、場面テンプレート、リソース、各種の効果などの場面要素がそれぞれ複数ずつ備えられる場合、ストーリーボードを構成するそれぞれの場面(Storyboard Scene)と場面要素(Scene Element)はそれぞれ正規メタタグ(Regular Tags)と非正規メタタグ(Irregular Tags)とを含む。ここで、正規メタタグは前もってストーリーボードと場面要素を連結するために定義した全体メタタグ集合の部分集合であり、プロットまたはストーリー構造に合うように場面要素を抽出するために使用する。非正規メタタグは前もって定義されずに動的に更新される辞書(Dictionary)に含まれた単語の集合である。非正規メタタグに基づいて主題モデリング方法を使ってストーリーボードの場面と場面要素との間の類似性を計算することができ、類似度は潜在的維持分析(LSA:Latent Sematic Analysis/Indexing)を用い、コサイン類似度またはユークリッド距離を用いることができる。
LSAは、入力された文書をベクター空間(Vector Space)に表現し、特異値分解(SVD:Singular Value Decomposition)を遂行して主題(Topic)を捜し、これによりベクター空間で文書を表現する次元を減らすか、類似度を分析して主題別に分類及び推薦する機能を提供する。主題モデリングが完了した状態で各種の戦略メタ情報によって場面テンプレートを推薦するためには類似度分析が必要である。二つのベクターの間の類似度(Similarity)を計算するためにはコサイン類似度(Cosine Similarity)公式を用いるが、これに限定されない。仮に、コサイン類似度を使えば、類似度が1の場合は完全に違うと、0の場合は相関度ないと表示されることができ、その間の数字の大きさによって類似度及び相関度が変わる。
連関方式によってストーリーボードが与えられたとき、ストーリーボードのそれぞれの場面に合う場面要素を選択することにより、抽象的なストーリーボードが動画合成のための具体的なプロジェクトファイルに変換されることができる。例えば、ストーリーボードの正規メタタグが「イントロ」と記載されていれば、場面要素の正規メタタグを検査して「イントロ」が全体的にまたは部分的に検索される場合、候補場面要素として抽出されることができる。このように抽出された候補場面要素に対して主題モデリング方式で類似度計算を遂行して一番近似している場面要素を選定することができる。例えば、前もって備えられた特定の場面要素の全集合(Entire Set of Specific Scene Elements)から正規メタタグの検索によって部分集合が選択され、最後に非正規メタタグによって類似度計算が完了した最終場面要素の部分集合を抽出すれば、正規メタタグの場合は単純単語検索によって簡単に抽出することができるが、非正規メタタグの場合は多くの単語の加重値を総合的に反映することができるようにするために、上述したLSAを使うことができる。ストーリーボードに含まれた特定の場面を決定するために、場面要素のうちで場面テンプレートとして正規メタタグと非正規メタタグを選定し、その後、該当場面に入るリソース、背景音楽、フィルター効果、マスク効果を同一方法で選定することができる。場面要素のうち、背景音楽、フィルター効果、マスク効果は動画雰囲気の一貫性のために動画が再生される全体時間に対して全域的に反映されるように構成することができる。
検索部360は、使用者端末100からアップロードされた音声を検索するときに音声基盤の検索語を入力する場合、STTを用いて音声に対応するようにテキストを出力した後、出力したテキストと既保存の音声内に含まれたテキストとの間の類似度に基づいて検索結果を出力することができる。また、検索部360は、テキスト基盤の検索語が入力される場合、入力されたテキスト基盤の検索語と既保存の音声内に含まれたテキストとの間の類似度に基づいて検索結果を出力することができる。そして、検索部360は、検索結果を類似度の高い順にリストアップ(Listup)して提供し、検索結果としては、音声が録音された時間及び位置が音声が録音されたファイルとともに出力されることができる。
調整部370は、使用者端末100からアップロードされた音声を選択した後、背景音楽を選択した場合、背景音楽のボリュームをアップロードされた音声の大きさに反比例するように増減させることができる。この際、調整部370は、スペクトログラム(Spectrogram)を用いて音の周波数及び振幅をイメージとして出力し、出力されたイメージをCNNで分析することにより、音の増減を把握し、背景音楽の音を下げるか上げることができる。例えば、使用者の音声が小さく録音された場合には音声のボリュームを上げることもできるが、背景音楽を下げることもできる。その逆も同様である。もちろん、上述した過程の後にも、音出力の均一性のために、音の大きさを注文型動画の全体に対して合わせる作業もさらに遂行することができる。
決済部380は、生成部で生成した注文型動画の購買及び決済要請が使用者端末100から出力される場合、決済完了の後、注文型動画を使用者端末100で駆動可能なフォーマットにトランスコーディング(Transcoding)して使用者端末100に伝送するか、または使用者端末100で指定した少なくとも一つのサイトの既設定のフォーマットにトランスコーディングしてアップロードすることができる。ここで、トランスコーディングとは、学習者のような使用者がさまざまなプログラムやアクティブエックスなどを組み込まなくても、使用者端末100に適したフォーマットに原本動画を変換する技術である。トランスコーディングは圧縮率または圧縮方法によってネットワーキング資源及びコンピュータ資源が急激に変わるが、単一のサーバー基盤では十分なネットワーキング資源やコンピュータ資源が需給されない。ここで、本発明において、GPUはCPUより単位面積当たり多くのデータを処理することができるので、適応的にQoS維持が可能になるという点を用いる。まず、デュアルトランスコーディング方法は、トランスコーディング要請を処理するに先立ち、決済部380でワークロード(Workload)を予測して当該要請に対するQoS維持が可能であるかを判断することができる。ここで、トランスコーディング要請に対するワークロード予測のために線形回帰分析法を用いることができるが、これに限定されるものではない。QoS維持が可能であると判断されれば、CPUまたはGPUトランスコーダーのうちより適したタイプの装置に作業を割り当てることにより、演算資源の効率性を高めることができる。結果的に、単一のサーバーがより多い使用者の要請をQoS維持の下で提供することができる。
注文型動画製作サービス提供サーバー300は、Saas(Software as a Service)、Iaas(Infrastructure as a Service)、Saas(Software as a Service)、及びPaas(Platform as a Service)のうちのいずれか一つまたは少なくとも一つの組合せに基づくクラウドサーバーであることができる。Iaas(Infrastructure as a Service)によって、サーバー運営に必要なサーバー資源、IP、ネットワーク(Network)、ストレージ(Storage)、電力などの多くのインフラ資源を弾力的で早く提供することができる。Iaasは資源を容易に追加するか除去することができ、運営体制を提供するので、親しい環境を提供することができる。Paas(Platform as a Service)によってサービスを提供することができ、これは、安定的な環境とその環境を用いる応用プログラムを開発することができるAPIまで提供するサービスである。Paasは簡便に原始コードをビルド及び配布することができ、使用量によって容易に調整することができる。Saas(Software as a Service)はクラウド環境で動作する応用プログラムを使用者に提供するサービスである。Saasはインターネットを介してどこでも容易に用いることができ、ウェブブラウザーのみあればどこでも接近することができる。
もちろん、クラウドを介しない環境、例えば使用者端末100で直接録音することができ、録音された音声データをすぐ注文型動画に製作する場合には、上述したクラウドを用いないこともでき、クラウドプラットホームの構成が削除された形式に具現及び構成されることもできる。また、例えば、使用者端末100が複数の場合には、マイクが別に内蔵されなかった使用者端末100では注文型動画製作を遂行し、マイクが内蔵された使用者端末100では録音を遂行することにより、クラウドにアップロードする方向に実施例が具現されることもできる。少なくとも一つの構成及び段階が複数の使用者端末100に分離されるように具現されることもでき、反対に複数の構成及び段階が単一の使用者端末100に統合されることもできる。
以下、上述した図2の注文型動画製作サービス提供サーバーの構成による動作過程を図3及び図4に基づいて詳細に説明する。ただ、この実施例は本発明の多様な実施例のうちの一つであるだけで、本発明がこの実施例に限定されないというのは明らかである。
図3を参照すると、(a)注文型動画製作サービス提供サーバー300は、少なくとも一つのコンテンツ提供端末400から背景音楽、キャラクター、カテゴリー、コンテンツなどのアップロードを受けてカテゴリー別に分類し、ビッグデータを構築する。そして、(b)注文型動画製作サービス提供サーバー300は、使用者端末100で注文型動画生成のためのカテゴリーを選択すれば、これに既にマッピングされて保存された背景音楽、キャラクター、コンテンツなどを提供する。ここで、カテゴリーは、愛、悲しみ/慰労、友情、激励、離別、節日挨拶、孝行、記念日、喜び/祝い、広報挨拶、弔意、開業挨拶、仏生日、クリスマス、後記、お知らせ/公知、季節、自然、誕生日祝い、旅行などのように多様であり得るが、列挙したものに限定されない。
ここで、使用者端末100で「愛」のカテゴリーを選択した場合、「愛」に関連したイメージ、背景音楽、動画、テキスト、キャラクターなどが出力されることができ、使用者がキャラクターを選定した後、字幕、背景音楽、音声録音などを遂行する場合、ランダムにまたは順次それぞれの選択作業を遂行することができる。これにより、使用者端末100の画面には(c)A~Fのような「愛」というタグまたはメタデータでマッピングされたコンテンツが出力され、使用者がAを選択した後、(d)背景音楽を選択する場合、同様に「愛」とマッピングされた背景音楽がリストアップされることができる。このとき、使用者は当該カテゴリー内の背景音楽の他にも多様な背景音楽を使いたいことがあるので、カテゴリーを外れるか他の背景音楽を検索及び入力することも可能である。背景音楽の全体カテゴリーは、例えば、ユーモア、恐怖、猟奇、悲しみ、感動、平和、希望、激烈、純粋、静寂、荘厳、真剣、ビート、楽しみ、合成必須ギャラリー、か弱さ、深刻、活気、雄壮、かすかさ、夢幻、余裕、哀切、楽しさ、寂しさ、童心、憂鬱、挫折、神秘、緊迫、静かさ、陽気、日常、古典、溌剌、クラブ、緊張、悲壮、浅ましさ、焦燥、和やかさ、可愛さ、甘さ、幸せ、自作曲、堂々、軽快、思い出、暖かさのように、音楽ジャンルだけでなく、形容詞や抽象語のような単語に分類されることができる。カテゴリー別に推薦音楽を提供することもでき、1分プレリスニングを提供することもでき、選択する場合、当該背景音楽が注文型動画の背景音楽として挿入される。
このように、使用者端末100で背景音楽を選択する場合、図4の(a)のように、その次の段階(またはランダムな段階)で使用者端末100で録音したファイルの読み取り、すなわち音声データを検索して挿入することができる。(b)音声データはやはり音声で検索することができ、(c)のように検索することができる。そして、挿入された音声データ、背景音楽、コンテンツなどのレンダリング結果の組合せが気に入る場合、使用者端末100は保存またはアップロードのための決済を遂行することができる。
このような図2~図4のクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法について説明しなかった事項は先に図1でクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法について説明した内容と同一であるかその説明した内容から容易に類推することができるので、以下で説明を省略する。
図5は本発明の一実施例による図1のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システムに含まれたそれぞれの構成の間にデータが送受信される過程を示す図である。以下、図5に基づいてそれぞれの構成の間にデータが送受信される過程の一例を説明するが、このような実施例に本発明が限定されて解釈されるものではなく、前述した多様な実施例によって図5に示すデータの送受信過程が変更されることができるというのは当該技術分野に属する当業者に明らかである。
図5を参照すると、注文型動画製作サービス提供サーバーは、少なくとも1種のカテゴリー別テキスト、イメージ、動画、及び背景音楽を分類及び保存し(S5100)、使用者端末からアップロードされた使用者の発話に対応する音声データをアップロードされる(S5200)。
また、注文型動画製作サービス提供サーバーは、アップロードされた音声データをSTT(Speech to Text)によってテキストデータに変換して保存し(S5300)、使用者端末から少なくとも1種のカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を使用者端末に提供する(S5400)。
最後に、注文型動画製作サービス提供サーバーは、使用者端末で字幕または背景音楽を選択して字幕データを受信するか、背景音楽が選択される場合、コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成する(S5500)。
上述した段階(S5100~S5500)の順序は例示であるだけで、これに本発明が限定されない。すなわち、上述した段階(S5100~S5500)の順序は互いに変わることができ、これらの段階のうちの一部段階は同時に実行するか省略することもできる。
このような図5のクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法について説明しなかった事項は先に図1~図4に基づいてクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法について説明した内容と同一であるか説明した内容から容易に類推することができるので、以下では説明を省略する。
図5に基づいて説明した一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法は、コンピュータによって実行されるアプリケーション又はプログラムモジュールのようなコンピュータによって実行可能な命令語を含む記録媒体の形態にも具現可能である。コンピュータ可読の媒体はコンピュータによってアクセス可能な任意の可用媒体であってもよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれも含む。また、コンピュータ可読の媒体はコンピュータ記憶媒体を全て含むことができる。コンピュータ記憶媒体は、コンピュータ可読の命令語、データ構造、プログラムモジュール又はその他のデータのような情報の記憶のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型媒体のいずれも含む。
前述した本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法、端末機に基本的に組み込まれたアプリケーション(これは端末機に基本的に搭載されたプラットホーム又はオペレーティングシステムなどに含まれたプログラムを含むことができる)によって実行可能であり、使用者がアプリケーションストアサーバー、アプリケーション又は該当サービスに関連したウェブサーバーなどのアプリケーション提供サーバーを介してマスター端末機に直接組み込まれたアプリケーション(すなわち、プログラム)によって実行されることもできる。このような意味で、前述した本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法は端末機に基本的に組み込まれるか使用者によって直接組み込まれたアプリケーション(すなわち、プログラム)として具現され、端末機などのコンピュータで読める記録媒体に記録されることができる。
前述した本発明の説明は例示のためのものであり、本発明が属する当該技術分野の通常の知識を有する者であれば本発明の技術的思想又は必須の特徴を変更せずに他の具体的な形態に易しく変形することができることが理解可能であろう。したがって、以上で記述した実施例は全ての面で例示的なものであり、限定的なものではないことを理解しなければならない。例えば、単一型として説明した各構成要素は分散されて実施されることもでき、同様に分散されたものとして説明した構成要素も結合された形態に実施されることができる。
本発明の範囲は前記詳細な説明よりは後述する特許請求範囲によって決定され、特許請求範囲の意味及び範囲そしてその均等な概念から導出される全ての変更又は変形の形態も本発明の範囲に属するものと解釈されなければならない。
本発明によれば、使用者端末に保存された録音ファイルのうち使用者の音声発話が含まれた録音ファイルを自動で分類及び抽出してバックグラウンドモードでクラウドプラットホームにアップロードし、使用者端末で注文型動画を製作しようとするとき、既保存の少なくとも一つのカテゴリー別コンテンツを提供することにより、編集プログラムを購入またはダウンロードしなくても、一般人であっても直観的に字幕、背景音楽、及び録音ファイルを整合させて使用者注文型動画を製作することができるようにし、既設定のアップロードサーバーにアップロードさせるときにはアップロードサーバーで要求するフォーマットに合うように自動でトランスコーディングさせ、使用者端末に保存するときにも使用者端末で再生可能なフォーマットにトランスコーディングすることによって使用者の便宜性を極大化することができる。

Claims (8)

  1. 使用者の発話を音声として入力されてアップロードし、少なくとも1種のカテゴリーのうちのいずれか一つのカテゴリーを選択してイメージまたは動画を含むコンテンツを選択し、字幕または背景音楽を選択し、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を再生する使用者端末と、
    少なくとも1種のカテゴリー別テキスト、イメージ、動画、及び背景音楽を分類及び保存するデータベース化部、前記使用者端末からアップロードされた使用者の発話に対応する音声データをアップロードされるアップロード部、前記アップロードされた音声データをSTT(Speech to Text)によってテキストデータに変換して保存する変換部、前記使用者端末で少なくとも1種のカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、前記選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を前記使用者端末に提供する提供部、及び前記使用者端末で字幕または背景音楽を選択し、字幕データを受信するか背景音楽が選択される場合、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成する生成部を含む注文型動画製作サービス提供サーバーと、を含む、クラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
  2. 前記アップロード部は、前記使用者端末から音声データ、テキストデータ、イメージデータ及び動画データのうちのいずれか一つまたは少なくとも一つの組合せを手動でまたは自動でアップロードされることを特徴とする、請求項1に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
  3. 前記アップロード部は、前記使用者端末で録音される録音データのうち前記使用者の発話に対応する音声を区分し、選択的に前記音声データをバックグラウンドモード(Background Mode)でアップロードされることを特徴とする、請求項1に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
  4. 前記注文型動画製作サービス提供サーバーは、Saas(Software as a Service)、Iaas(Infrastructure as a Service)、Saas(Software as a Service)、及びPaas(Platform as a Service)のうちのいずれか一つまたは少なくとも一つの組合せに基づくクラウドサーバーであることを特徴とする、請求項1に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
  5. 前記注文型動画製作サービス提供サーバーは、前記使用者端末からアップロードされた前記音声を検索するとき、音声基盤の検索語を入力する場合、前記STTによって音声に対応するようにテキストを出力した後、前記出力したテキストと既保存の音声内に含まれたテキストとの間の類似度に基づいて検索結果を出力する検索部をさらに含み、
    前記検索部は、テキスト基盤の検索語が入力される場合、前記入力されたテキスト基盤の検索語と既保存の音声内に含まれたテキストとの間の類似度に基づいて検索結果を出力することを特徴とする、請求項1に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
  6. 前記検索部は、前記検索結果を前記類似度の高い順にリストアップ(Listup)して提供し、前記検索結果は前記音声が録音された時間及び位置が前記音声が録音されたファイルとともに出力されることを特徴とする、請求項5に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
  7. 前記注文型動画製作サービス提供サーバーは、前記使用者端末からアップロードされた前記音声を選択した後、前記背景音楽を選択した場合、前記背景音楽のボリュームを前記アップロードされた音声の大きさに反比例するように増減する調整部をさらに含むことを特徴とする、請求項1に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
  8. 前記注文型動画製作サービス提供サーバーは、前記生成部で生成した注文型動画の購買及び決済要請が前記使用者端末から出力される場合、決済完了の後、前記注文型動画を前記使用者端末で駆動可能なフォーマットにトランスコーディング(Transcoding)して前記使用者端末に伝送するかまたは前記使用者端末で指定した少なくとも一つのサイトの既設定のフォーマットにトランスコーディングしてアップロードする決済部をさらに含むことを特徴とする、請求項1に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
JP2022543457A 2020-01-23 2020-12-23 クラウド基盤の音声結合を用いた注文型動画製作サービス提供システム Pending JP2023511309A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020200009345A KR102177768B1 (ko) 2020-01-23 2020-01-23 클라우드 기반 음성결합을 이용한 맞춤형 동영상 제작 서비스 제공 시스템
KR10-2020-0009345 2020-01-23
PCT/KR2020/019044 WO2021149929A1 (ko) 2020-01-23 2020-12-23 클라우드 기반 음성결합을 이용한 맞춤형 동영상 제작 서비스 제공 시스템

Publications (1)

Publication Number Publication Date
JP2023511309A true JP2023511309A (ja) 2023-03-17

Family

ID=73451652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022543457A Pending JP2023511309A (ja) 2020-01-23 2020-12-23 クラウド基盤の音声結合を用いた注文型動画製作サービス提供システム

Country Status (6)

Country Link
US (1) US20220415362A1 (ja)
EP (1) EP4096231A4 (ja)
JP (1) JP2023511309A (ja)
KR (1) KR102177768B1 (ja)
CN (1) CN114946193A (ja)
WO (1) WO2021149929A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102177768B1 (ko) * 2020-01-23 2020-11-11 장형순 클라우드 기반 음성결합을 이용한 맞춤형 동영상 제작 서비스 제공 시스템
KR102347228B1 (ko) * 2021-03-19 2022-01-04 주식회사 웨인힐스벤처스 음성 정보로부터 변환된 텍스트의 영상 리소스 매칭을 이용한 멀티미디어 변환 콘텐츠 제작 서비스 제공 방법 및 그 장치
CN115297323B (zh) * 2022-08-16 2023-07-28 广东省信息网络有限公司 一种rpa流程自动化方法和系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7394969B2 (en) * 2002-12-11 2008-07-01 Eastman Kodak Company System and method to compose a slide show
KR100748060B1 (ko) * 2005-08-05 2007-08-09 주식회사 오아시스미디어 실시간 다층 동영상 합성 시스템을 이용한 인터넷 방송시스템 및 이를 이용한 인터넷 방송 제공방법
WO2009026159A1 (en) * 2007-08-17 2009-02-26 Avi Oron A system and method for automatically creating a media compilation
KR101489211B1 (ko) 2012-10-22 2015-03-04 주식회사 이모션 사진을 이용한 동영상 제작 방법 및 그 장치
KR101515977B1 (ko) * 2012-10-24 2015-05-06 주식회사 케이티 Ip 카메라를 이용하는 클라우드 환경의 영상 감시 시스템 및 영상 감시 방법
US10356022B2 (en) * 2014-07-06 2019-07-16 Movy Co. Systems and methods for manipulating and/or concatenating videos
CN104244081B (zh) * 2014-09-26 2018-10-16 可牛网络技术(北京)有限公司 视频的提供方法及装置
CN104735468B (zh) * 2015-04-03 2018-08-31 北京威扬科技有限公司 一种基于语义分析将图像合成新视频的方法及系统
KR20180067977A (ko) * 2016-12-13 2018-06-21 천종필 동영상 콘텐츠 기반의 소셜 서비스를 제공하는 소셜 서비스 시스템 및 방법
US10977299B2 (en) * 2018-05-30 2021-04-13 Baidu Usa Llc Systems and methods for consolidating recorded content
KR102080315B1 (ko) * 2018-06-01 2020-02-24 네이버 주식회사 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버
KR102177768B1 (ko) * 2020-01-23 2020-11-11 장형순 클라우드 기반 음성결합을 이용한 맞춤형 동영상 제작 서비스 제공 시스템

Also Published As

Publication number Publication date
EP4096231A1 (en) 2022-11-30
KR102177768B1 (ko) 2020-11-11
EP4096231A4 (en) 2023-05-31
CN114946193A (zh) 2022-08-26
WO2021149929A1 (ko) 2021-07-29
US20220415362A1 (en) 2022-12-29

Similar Documents

Publication Publication Date Title
US10891928B2 (en) Automatic song generation
US10902841B2 (en) Personalized custom synthetic speech
CN108806655B (zh) 歌曲的自动生成
US8392414B2 (en) Hybrid audio-visual categorization system and method
JP2023511309A (ja) クラウド基盤の音声結合を用いた注文型動画製作サービス提供システム
JPWO2007043679A1 (ja) 情報処理装置およびプログラム
Cornelis et al. Access to ethnic music: Advances and perspectives in content-based music information retrieval
CN112418011A (zh) 视频内容的完整度识别方法、装置、设备及存储介质
WO2022184055A1 (zh) 文章的语音播放方法、装置、设备、存储介质及程序产品
US11876986B2 (en) Hierarchical video encoders
CN109920409A (zh) 一种声音检索方法、装置、系统及存储介质
Kalender et al. Videolization: knowledge graph based automated video generation from web content
CN112669815B (zh) 歌曲定制生成方法及其相应的装置、设备、介质
KR102261539B1 (ko) 지능형 한국 문화 플랫폼 서비스 제공 시스템
Skågeby Dismantling the guitar hero? A case of prodused parody and disarmed subversion
US9412395B1 (en) Narrator selection by comparison to preferred recording features
CN113407779A (zh) 一种视频检测方法、设备及计算机可读存储介质
KR102623459B1 (ko) 사용자의 보컬 평가에 기반한 오디션 이벤트 서비스 제공 방법, 장치 및 시스템
KR102623449B1 (ko) 사용자 보컬 평가 결과 맞춤형 보컬 트레이닝 서비스 제공 방법, 장치 및 시스템
Zhao et al. Computational music: Analysis of music forms
Kolozali et al. A framework for automatic ontology generation based on semantic audio analysis
Simonetta Music interpretation analysis. A multimodal approach to score-informed resynthesis of piano recordings
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법
Concialdi Ainur: Enhancing Vocal Quality through Lyrics-Audio Embeddings in Multimodal Deep Music Generation
Ma Temporal Sentiment Mapping System for Time-Synchronized Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231225