JP2023511309A

JP2023511309A - クラウド基盤の音声結合を用いた注文型動画製作サービス提供システム

Info

Publication number: JP2023511309A
Application number: JP2022543457A
Authority: JP
Inventors: スンジャン，ヒョン
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-01-23
Filing date: 2020-12-23
Publication date: 2023-03-17
Also published as: EP4096231A1; KR102177768B1; EP4096231A4; CN114946193A; WO2021149929A1; US20220415362A1

Abstract

【課題】クラウド基盤の音声結合を用いた注文型動画製作サービス提供システムが提供される。【解決手段】使用者の発話を音声として入力されてアップロードし、少なくとも１種のカテゴリーのうちのいずれか一つのカテゴリーを選択してイメージまたは動画を含むコンテンツを選択し、字幕または背景音楽を選択し、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を再生する使用者端末と、少なくとも１種のカテゴリー別テキスト、イメージ、動画、及び背景音楽を分類及び保存するデータベース化部、前記使用者端末からアップロードされた使用者の発話に対応する音声データをアップロードされるアップロード部、前記アップロードされた音声データをＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）によってテキストデータに変換して保存する変換部、前記使用者端末で少なくとも１種のカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、前記選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を前記使用者端末に提供する提供部、及び前記使用者端末で字幕または背景音楽を選択し、字幕データを受信するか背景音楽が選択される場合、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成する生成部を含む注文型動画製作サービス提供サーバーとを含む。【選択図】図１

Description

本発明はクラウド基盤の音声結合を用いた注文型動画製作サービス提供システムに関し、発話された音声データをクラウドにアップロードし、音声として検索された録音ファイルを用いて動画を製作することができるプラットホームを提供する。

近年、インターネット技術の進化及び急速な普及、多様なメディア著作道具の登場によって直接動画を製作して配布する環境が早く造成されている。インターネット環境を介して動画の実時間ストリーミングが可能になり、モバイル機器の急速な普及によっていつでもどこでも動画に近付くことができるインフラが備わったこともこのような環境変化の主な動力である。これからは、一般使用者が各自の能力及び意志があればコンテンツを直接生産して配布することができる環境になっていると思うことができる。しかし、関連インフラの発展にもかかわらず、それぞれの目的に適した高品質の動画を生成して配布することは依然として難しいことが事実である。マルチメディアコンテンツを容易に製作することができる力強くて多様な編集道具とサービスを用いることができるが、道具を上手に活用するためには、依然として長年の忍耐心が要求される習得過程が必要であり、関連の道具を取り揃えるための費用も少なくない。

これにより、写真を用いて動画を製作することができる方法が研究及び開発された。これに関連して、先行技術である韓国公開特許第２０１４－００５２１６７号公報（２０１４年０５月０７日公開）には、製作端末から動画製作の要請を受信すれば、製作端末に動画の背景音楽として選択可能な背景音楽リストを伝送し、その応答として背景音楽選択情報を受信し、既に保存されている音楽ファイルのうちで選択された背景音楽の音源を検出して製作端末に伝達し、背景音楽の再生中に露出させようとする写真をその再生時間とマッピングさせたマッピング情報を受信して保存し、マッピング情報に基づいて各写真を露出させるために使用者が写真の露出方法及び方向を決定したシナリオを動画製作端末から受信して動画を生成する構成が開示されている。

上述した構成を用いると言っても、写真と背景音楽とを合わせて動画を製作することは基礎段階の動画製作のみを支援するだけであり、使用者の音声を動画内に組み込むためには使用者の録音過程及び整合過程が再び要求されるので、個人または小規模事業主が直接メディアコンテンツを製作するのには専門的知識の不足、追加費用の消費などによる負担が依然として大きい。また、録音ファイルはファイル名として保存されるので、どの録音であるかをファイル名を見て確認するかまたは直接再生して聞いてみなければならないので、録音ファイルを用いた動画生成過程がもっと複雑になる原因になる。よって、使用者が発話した音声を自動で分類して保存し、音声で検索することができながらも、録音ファイルを用いて手軽く動画を製作することができるプラットホームの研究及び開発が要求される。

韓国公開特許第２０１４－００５２１６７号公報

本発明の一実施例は、使用者端末に保存された録音ファイルのうち使用者の音声発話が含まれた録音ファイルを自動で分類及び抽出してバックグラウンドモードでクラウドプラットホームにアップロードし、使用者端末で注文型動画を製作しようとするとき、既保存の少なくとも一つのカテゴリー別コンテンツを提供することにより、編集プログラムを購入またはダウンロードしなくても、一般人であっても直観的に字幕、背景音楽、及び録音ファイルを整合させて使用者注文型動画を製作することができるようにし、既設定のアップロードサーバーにアップロードさせるときにはアップロードサーバーで要求するフォーマットに合うように自動でトランスコーディングし、使用者端末に保存するときにも使用者端末で再生可能なフォーマットにトランスコーディングすることによって使用者の便宜性を極大化することができる、クラウド基盤の音声結合を用いた注文型動画製作サービス提供方法を提供することができる。ただ、本実施例が達成しようとする技術的課題は前述したような技術的課題に限定されず、他の技術的課題が存在することができる。

上述した技術的課題を達成するための技術的手段として、本発明の一実施例は、使用者の発話を音声として入力されてアップロードし、少なくとも１種のカテゴリーのうちのいずれか一つのカテゴリーを選択してイメージまたは動画を含むコンテンツを選択し、字幕または背景音楽を選択し、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を再生する使用者端末と、少なくとも１種のカテゴリー別テキスト、イメージ、動画、及び背景音楽を分類及び保存するデータベース化部、前記使用者端末からアップロードされた使用者の発話に対応する音声データをアップロードされるアップロード部、前記アップロードされた音声データをＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）によってテキストデータに変換して保存する変換部、前記使用者端末で少なくとも１種のカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、前記選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を前記使用者端末に提供する提供部、及び前記使用者端末で字幕または背景音楽を選択し、字幕データを受信するか背景音楽が選択される場合、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成する生成部を含む注文型動画製作サービス提供サーバーとを含む。

前述した本発明の課題解決手段のうちの一つによれば、使用者端末に保存された録音ファイルのうち使用者の音声発話が含まれた録音ファイルを自動で分類及び抽出してバックグラウンドモードでクラウドプラットホームにアップロードし、使用者端末で注文型動画を製作しようとするとき、既保存の少なくとも一つのカテゴリー別コンテンツを提供することにより、編集プログラムを購入またはダウンロードしなくても、一般人であっても直観的に字幕、背景音楽、及び録音ファイルを整合させて使用者注文型動画を製作することができるようにし、既設定のアップロードサーバーにアップロードさせるときにはアップロードサーバーで要求するフォーマットに合うように自動でトランスコーディングし、使用者端末に保存するときにも使用者端末で再生可能なフォーマットにトランスコーディングすることによって使用者の便宜性を極大化することができる。

本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供システムを説明するための図である。図１のシステムに含まれた注文型動画製作サービス提供サーバーを説明するためのブロック構成図である。本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービスを具現する一実施例を説明するための図である。本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービスを具現する一実施例を説明するための図である。本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法を説明するためのフローチャートである。

クラウド基盤の音声結合を用いた注文型動画製作サービス提供システムであり、使用者の発話を音声として入力されてアップロードし、少なくとも１種のカテゴリーのうちのいずれか一つのカテゴリーを選択してイメージまたは動画を含むコンテンツを選択し、字幕または背景音楽を選択し、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を再生する使用者端末と、少なくとも１種のカテゴリー別テキスト、イメージ、動画、及び背景音楽を分類及び保存するデータベース化部、前記使用者端末からアップロードされた使用者の発話に対応する音声データをアップロードされるアップロード部、前記アップロードされた音声データをＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）によってテキストデータに変換して保存する変換部、前記使用者端末で少なくとも１種のカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、前記選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を前記使用者端末に提供する提供部、及び前記使用者端末で字幕または背景音楽を選択し、字幕データを受信するか背景音楽が選択される場合、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成する生成部を含む注文型動画製作サービス提供サーバーとを含む。

以下では、添付図面に基づき、本発明が属する技術分野で通常の知識を有する者が容易に実施することができるように本発明の実施例を詳細に説明する。しかし、本発明は様々な相異なる形態に具現されることができ、ここで説明する実施例に限定されない。そして、図面において、本発明を明確に説明するために説明と関係ない部分は省略し、明細書全般にわたって類似の部分に対しては類似の図面符号を付けた。

明細書全般にわたり、ある部分が他の部分と「連結」されていると言うとき、これは「直接的に連結」されている場合だけでなく、その中間に他の素子を挟んで「電気的に連結」されている場合も含む。また、ある部分がある構成要素を「含む」と言うとき、これは、特に反対する記載がない限り、他の構成要素を排除するものではなくて他の構成要素をさらに含むことができることを意味し、一つ又はそれ以上の他の特徴、数字、段階、動作、構成要素、部分品又はこれらの組合せなどの存在又は付加の可能性を予め排除しないものと理解しなければならない。

明細書全般にわたって使われる、程度を示す用語「約」、「実質的に」などは言及された意味に固有の製造及び物質許容誤差が提示されるとき、その数値で又はその数値に近接した意味として使われ、本発明の理解を助けるために正確であるか絶対的な数値が言及された開示内容を非良心的な侵害者が不当に用いることを防止するために使われる。本発明の明細書全般にわたって使われる用語「～（する）段階」又は「～の段階」は「～のための段階」を意味しない。

本明細書において、「部」とは、ハードウェアによって実現されるユニット（ｕｎｉｔ）、ソフトウェアによって実現されるユニット、及び両者を用いて実現されるユニットを含む。また、一つのユニットが二つ以上のハードウェアを用いて実現されても良く、二つ以上のユニットが一つのハードウェアによって実現されても良い。

本明細書において、端末、装置又はデバイスが行うものとして記述された動作又は機能の一部は当該端末、装置又はデバイスと連結されたサーバーが代わって行うこともできる。これと同様に、サーバーが行うものとして記述された動作又は機能の一部も当該サーバーと連結された端末、装置又はデバイスで行うこともできる。

本明細書において、端末とのマッピング（Ｍａｐｐｉｎｇ）又はマッチング（Ｍａｔｃｈｉｎｇ）として記述された動作又は機能の一部は、端末の識別情報（ＩｄｅｎｔｉｆｙｉｎｇＤａｔａ）である端末機の固有番号又は個人の識別情報をマッピング又はマッチングすると言う意味と解釈することができる。

以下、添付図面に基づいて本発明を詳細に説明する。

図１は本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供システムを説明するための図である。図１を参照すると、クラウド基盤の音声結合を用いた注文型動画製作サービス提供システム１は、少なくとも一つの使用者端末１００、注文型動画製作サービス提供サーバー３００、少なくとも一つのコンテンツ提供端末４００、及び少なくとも一つのアップロードサーバー５００を含むことができる。しかし、このような図１のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム１は本発明の一実施例に過ぎないので、図１に本発明が限定されて解釈されるものではない。

ここで、図１の各構成要素は一般的にネットワーク（ｎｅｔｗｏｒｋ）２００を介して連結される。例えば、図１に示すように、少なくとも一つの使用者端末１００はネットワーク２００を介して注文型動画製作サービス提供サーバー３００と連結されることができる。そして、注文型動画製作サービス提供サーバー３００は、ネットワーク２００を介して少なくとも一つの使用者端末１００、少なくとも一つのコンテンツ提供端末４００、及び少なくとも一つのアップロードサーバー５００と連結されることができる。また、少なくとも一つのコンテンツ提供端末４００は、ネットワーク２００を介して注文型動画製作サービス提供サーバー３００と連結されることができる。そして、少なくとも一つのアップロードサーバー５００は、ネットワーク２００を介して少なくとも一つの使用者端末１００、注文型動画製作サービス提供サーバー３００、及び少なくとも一つのコンテンツ提供端末４００と連結されることができる。

ここで、ネットワークは複数の端末及びサーバーのようなそれぞれのノードの間に情報交換が可能な連結構造を意味するものであり、このようなネットワークの一例には、ＲＦ、３ＧＰＰ（登録商標）（３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）ネットワーク、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）ネットワーク、５ＧＰＰ（５ｔｈＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）ネットワーク、ＷＩＭＡＸ（ＷｏｒｌｄＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）ネットワーク、インターネット（Ｉｎｔｅｒｎｅｔ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷｉｒｅｌｅｓｓＬＡＮ（ＷｉｒｅｌｅｓｓＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＰＡＮ（ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）ネットワーク、ＮＦＣネットワーク、衛星放送ネットワーク、アナログ放送ネットワーク、ＤＭＢ（ＤｉｇｉｔａｌＭｕｌｔｉｍｅｄｉａＢｒｏａｄｃａｓｔｉｎｇ）ネットワークなどが含まれるが、これらに限定されない。

以下で、少なくとも一つという用語は単数及び複数を含む用語と定義され、少なくとも一つという用語が存在しないとしても各構成要素が単数または複数で存在することができ、単数または複数を意味することができるというのは明らかであると言える。また、各構成要素が単数または複数で備わることは、実施例によって変更可能であると言える。

少なくとも一つの使用者端末１００は、クラウド基盤の音声結合を用いた注文型動画製作サービス関連のウェブページ、アプリケーションページ、プログラムまたはアプリケーションを用いて使用者注文型動画を製作する端末であることができる。ここで、少なくとも一つの使用者端末１００は使用者の音声発話を録音する端末であることができ、録音された音声データをバックグラウンドモード（ＢａｃｋｇｒｏｕｎｄＭｏｄｅ）で注文型動画製作サービス提供サーバー３００に伝送する端末であることができる。また、使用者端末１００は、注文型動画製作サービス提供サーバー３００から提供するページに接続して少なくとも一つのカテゴリーを選択することができ、カテゴリーに既にマッピングされて保存された背景音楽、キャラクター、イメージ、動画などを選択することができる端末であることができる。また、使用者端末１００はバックグラウンドでアップロードされた音声データを選択して注文型動画に挿入する端末であることができ、字幕テキストを入力して注文型動画製作サービス提供サーバー３００に伝送する端末であることができる。そして、使用者端末１００は、注文型動画製作サービス提供サーバー３００で生成された注文型動画を再生するかストリーミングを受ける端末であることができ、編集を遂行するか修正などを遂行することができる端末であることができる。ここで、動画は注文型動画製作サービス提供サーバー３００で既設定のカテゴリーにマッピングされて保存されたマルチメディアであり、注文型動画は使用者によって選択された多様な種類の構成要素がトランスコーディング（Ｔｒａｎｓｃｏｄｉｎｇ）されて作られたマルチメディアと定義する。そして、使用者端末１００は、使用者端末１００内に保存するかまたはアップロードサーバー５００にアップロードするために決済を遂行する端末であることができる。

ここで、少なくとも一つの使用者端末１００は、ネットワークを介して遠隔地のサーバーや端末に接続することができるコンピュータによって具現されることができる。ここで、コンピュータは、例えば、ナビゲーション、ウェブブラウザー（ＷＥＢＢｒｏｗｓｅｒ）が搭載されたノートブック型ＰＣ、デスクトップ型ＰＣ（Ｄｅｓｋｔｏｐ）、ラップトップ型ＰＣ（Ｌａｐｔｏｐ）などを含むことができる。ここで、少なくとも一つの使用者端末１００は、ネットワークを介して遠隔地のサーバーや端末に接続することができる端末によって具現されることができる。少なくとも一つの使用者端末１００は、例えば、携帯性及び移動性が保障される無線通信装置であり、ナビゲーション、ＰＣＳ（ＰｅｒｓｏｎａｌＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍ）、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ）、ＰＤＣ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＣｅｌｌｕｌａｒ）、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙｐｈｏｎｅＳｙｓｔｅｍ）、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＩＭＴ（ＩｎｔｅｒｎａｔｉｏｎａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）－２０００、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）－２０００、Ｗ－ＣＤＭＡ（Ｗ－ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、Ｗｉｂｒｏ（ＷｉｒｅｌｅｓｓＢｒｏａｄｂａｎｄＩｎｔｅｒｎｅｔ）端末、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、スマートパッド（ｓｍａｒｔｐａｄ）、タブレット型ＰＣ（ＴａｂｌｅｔＰＣ）などのようなあらゆる種類のハンドヘルド（Ｈａｎｄｈｅｌｄ）基盤の無線通信装置を含むことができる。

注文型動画製作サービス提供サーバー３００は、クラウド基盤の音声結合を用いた注文型動画製作サービスのウェブページ、アプリケーションページ、プログラム、またはアプリケーションを提供するサーバーであることができる。そして、注文型動画製作サービス提供サーバー３００は、少なくとも一つのコンテンツ提供端末４００からキャラクター、イメージ、動画、背景音楽などを収集してビッグデータを構築するサーバーであることができる。また、注文型動画製作サービス提供サーバー３００は、既設定のカテゴリーに対応するようにビッグデータ内のデータをタギングして分類し、既設定のカテゴリーとマッピングして保存するサーバーであることができる。そして、注文型動画製作サービス提供サーバー３００は、使用者端末１００に保存された少なくとも一つの録音データのうち使用者を識別及び区分して使用者の音声データを抽出し、バックグラウンドモードでアップロードされるサーバーであることができる。また、注文型動画製作サービス提供サーバー３００は、使用者端末１００で注文型動画を製作するとき、少なくとも一つのカテゴリーを選択して受け、選択されたカテゴリーに既にマッピングされたデータを使用者端末１００に伝送して選択するようにするサーバーであることができる。ここで、注文型動画製作サービス提供サーバー３００は、使用者端末１００で音声データを検索する場合、検索語に対応する音声データを類似度に基づいて整列して使用者端末１００に伝送するサーバーであることができる。また、注文型動画製作サービス提供サーバー３００は、使用者端末１００ですべての選択を完了した後、注文型動画生成を要請する場合、注文型動画を生成した後、使用者端末１００にストリーミングさせるサーバーであることができる。そして、注文型動画製作サービス提供サーバー３００は、使用者端末１００で決済を遂行する場合、使用者端末１００または少なくとも一つのアップロードサーバー５００の要求フォーマットを把握した後、把握されたフォーマットの通りにトランスコーディングして伝送またはアップロードするサーバーであることができる。

ここで、注文型動画製作サービス提供サーバー３００は、ネットワークを介して遠隔地のサーバーや端末に接続することができるコンピュータによって具現されることができる。ここで、コンピュータは、例えば、ナビゲーション、ウェブブラウザー（ＷＥＢＢｒｏｗｓｅｒ）が搭載されたノートブック型ＰＣ、デスクトップ型ＰＣ（Ｄｅｓｋｔｏｐ）、ラップトップ型ＰＣ（Ｌａｐｔｏｐ）などを含むことができる。

少なくとも一つのコンテンツ提供端末４００は、クラウド基盤の音声結合を用いた注文型動画製作サービス関連のウェブページ、アプリケーションページ、プログラムまたはアプリケーションを用いる著作権者、職員、企画社、所属社などの端末であることができる。ここで、少なくとも一つのコンテンツ提供端末４００は、イメージ、動画、キャラクター、背景音楽などを注文型動画製作サービス提供サーバー３００に伝送し、著作権契約に基づいて手数料の精算を受ける端末であるか精算してくれる職員の端末であることができる。そして、少なくとも一つのコンテンツ提供端末４００が職員の端末の場合、既設定のカテゴリーに対応するように少なくとも一つのデータを分類及びタギングする端末であることができる。もちろん、データの分類及びタギングは、初期のビッグデータ構築作業に教師あり学習（ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ）の一環としてコンテンツ提供端末４００が介入することができるが、分類のための人工知能アルゴリズムの学習が完了した後には、コンテンツ提供端末４００は、それ以上に介入せずに教師なし学習（ＵｎｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ）に転換してエラーのみを検査する端末であることができる。

ここで、少なくとも一つのコンテンツ提供端末４００は、ネットワークを介して遠隔地のサーバーや端末に接続することができるコンピュータによって具現されることができる。ここで、コンピュータは、例えば、ナビゲーション、ウェブブラウザー（ＷＥＢＢｒｏｗｓｅｒ）が搭載されたノートブック型ＰＣ、デスクトップ型ＰＣ（Ｄｅｓｋｔｏｐ）、ラップトップ型ＰＣ（Ｌａｐｔｏｐ）などを含むことができる。ここで、少なくとも一つのコンテンツ提供端末４００は、ネットワークを介して遠隔地のサーバーや端末に接続することができる端末によって具現されることができる。少なくとも一つのコンテンツ提供端末４００は、例えば、携帯性及び移動性が保障される無線通信装置であり、ナビゲーション、ＰＣＳ（ＰｅｒｓｏｎａｌＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍ）、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ）、ＰＤＣ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＣｅｌｌｕｌａｒ）、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙｐｈｏｎｅＳｙｓｔｅｍ）、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＩＭＴ（ＩｎｔｅｒｎａｔｉｏｎａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）－２０００、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）－２０００、Ｗ－ＣＤＭＡ（Ｗ－ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、Ｗｉｂｒｏ（ＷｉｒｅｌｅｓｓＢｒｏａｄｂａｎｄＩｎｔｅｒｎｅｔ）端末、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、スマートパッド（ｓｍａｒｔｐａｄ）、タブレット型ＰＣ（ＴａｂｌｅｔＰＣ）などのようなあらゆる種類のハンドヘルド（Ｈａｎｄｈｅｌｄ）基盤の無線通信装置を含むことができる。

少なくとも一つのアップロードサーバー５００は、クラウド基盤の音声結合を用いた注文型動画製作サービス関連のウェブページ、アプリケーションページ、プログラムまたはアプリケーションを用いるか用いずに注文型動画製作サービス提供サーバー３００からアップロードされた注文型動画をアップロードするサーバーであることができる。ここで、少なくとも一つのアップロードサーバー５００は、ネットワークを介して遠隔地のサーバーや端末に接続することができるコンピュータによって具現されることができる。ここで、コンピュータは、例えば、ナビゲーション、ウェブブラウザー（ＷＥＢＢｒｏｗｓｅｒ）が搭載されたノートブック型ＰＣ、デスクトップ型ＰＣ（Ｄｅｓｋｔｏｐ）、ラップトップ型ＰＣ（Ｌａｐｔｏｐ）などを含むことができる。

図２は図１のシステムに含まれた注文型動画製作サービス提供サーバーを説明するためのブロック構成図であり、図３及び図４は本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービスを具現する一実施例を説明するための図である。
図２を参照すると、注文型動画製作サービス提供サーバー３００は、データベース化部３１０、アップロード部３２０、変換部３３０、提供部３４０、生成部３５０、検索部３６０、調整部３７０、及び決済部３８０を含むことができる。

本発明の一実施例による注文型動画製作サービス提供サーバー３００またはこれに連動して動作する他のサーバー（図示せず）が少なくとも一つの使用者端末１００、少なくとも一つのコンテンツ提供端末４００、及び少なくとも一つのアップロードサーバー５００にクラウド基盤の音声結合を用いた注文型動画製作サービスのアプリケーション、プログラム、アプリケーションページ、ウェブページなどを伝送する場合、少なくとも一つの使用者端末１００、少なくとも一つのコンテンツ提供端末４００、及び少なくとも一つのアップロードサーバー５００は、クラウド基盤の音声結合を用いた注文型動画製作サービスのアプリケーション、プログラム、アプリケーションページ、ウェブページなどを組み込むか開けることができる。また、ウェブブラウザーで実行されるスクリプトを用いてサービスプログラムを少なくとも一つの使用者端末１００、少なくとも一つのコンテンツ提供端末４００、及び少なくとも一つのアップロードサーバー５００で駆動することもできる。ここで、ウェブブラウザーはウェブ（ＷＷＷ：ｗｏｒｌｄｗｉｄｅｗｅｂ）サービスを用いることができるようにするプログラムであり、ＨＴＭＬ（ｈｙｐｅｒｔｅｘｔｍａｒｋ－ｕｐｌａｎｇｕａｇｅ）で敍述されたハイパーテキストを受けて示すプログラムを意味し、例えば、ネットスケープ（Ｎｅｔｓｃａｐｅ）、エクスプローラ（Ｅｘｐｌｏｒｅｒ）、クロム（ｃｈｒｏｍｅ）などを含む。また、アプリケーションは端末上の応用プログラム（ａｐｐｌｉｃａｔｉｏｎ）を意味し、例えば、モバイル端末（スマートフォン）で実行されるアプリケーション（ａｐｐ）を含む。

図２を参照すると、データベース化部３１０は、少なくとも１種のカテゴリー別のテキスト、イメージ、動画、及び背景音楽を分類及び保存することができる。ここで、少なくとも一つのカテゴリー別のテキスト、イメージ、動画及び背景音楽は、構造化程度によって構造化（ｓｔｒｕｃｔｕｒｅｄ）データ、半構造化（ｓｅｍｉ－ｓｔｒｕｃｔｕｒｅｄ）データ、及び非構造化（ｕｎｓｔｒｕｃｔｕｒｅｄ）データに分類することができる。構造化データは種類や形式が決まっている規格を有するデータであり、固定されたフィールドに所定の形式（数値、日付など）の値として書き込むか項目で選択する類型のデータであるか、または各種の資料のメタデータである。半構造化データは大部分がテキスト形態であり、フィールドが固定されてはいないが、資料の特性によってテキスト内に含まれる内容を定義することができるデータ類である。非構造化データは形態が不規則であって定義しにくい項目であり、一般的にテキスト、イメージなどが相当する。大部分のテキストデータは半構造化に分析することができるので、映像またはイメージデータのみを非構造化と考慮することができる。非構造化データには、多様な種類の動画データ及びイメージデータが含まれる。このような非構造化データも、キーワード、タグまたはメタデータとして学習されて分類及びパターン化され、その後、新しい非構造化データの分類が要求されたとき、データがレコード形式に加工されて連関データとともに提供されることができる。

データベース化部３１０は、上述したローデータ（ＲａｗＤａｔａ）を並列分散し、保存されたローデータ内に含まれた非構造化（Ｕｎｓｔｒｕｃｔｅｄ）データ、構造化（Ｓｔｒｕｃｔｕｒｅｄ）データ、及び半構造化データ（Ｓｅｍｉ－ｓｔｒｕｃｔｕｒｅｄ）を精製し、メタデータへの分類を含む前処理を実施することができ、前処理されたデータをデータマイニング（ＤａｔａＭｉｎｉｎｇ）を含む分析を実施することができる。そして、データベース化部３１０は、分析されたデータを視覚化して出力することができる。ここで、データマイニングは、前処理されたデータの間に内在された関係を探索し、クラスが知られた訓練データセットを学習させて新しいデータのクラスを予測する分類（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）またはクラス情報なしに類似性を基準にデータをグループ化する群集化（Ｃｌｕｓｔｅｒｉｎｇ）を遂行することができる。もちろん、その他にも多様なマイニング法が存在することができ、収集及び保存されるビッグデータの種類または以後に要請されるクエリー（Ｑｕｅｒｙ）の種類によって異なるようにマイニングされることもできる。このように構築されたビッグデータは、人工神経網ディープラーニングまたはマシンラーニングなどによって検証過程を受けることもできる。ここで、人工神経網ディープラーニングは、映像資料を分析するときに有用であり得る。

ここで、人工神経網はＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）構造を用いることができる。ＣＮＮはコンボリューション層を用いたネットワーク構造であり、イメージ処理に適しており、イメージデータを入力してイメージ内の特徴に基づいてイメージを分類することができるからである。また、テキストマイニング（ＴｅｘｔＭｉｎｉｎｇ）は非構造化／半構造化テキストデータから自然語処理技術によって有用な情報を抽出及び加工することを目的とする技術である。テキストマイニング技術によって膨大なテキスト塊から意味ある情報を抽出し、他の情報との関連性を把握し、テキストが有するカテゴリーを捜し出すかまたは単純な情報検索以上の結果を得ることができる。これを用いて、本発明の一実施例による注文型動画製作サービスでは、クエリーとして入力される識別子や自然語を分析し、そのうちに隠された情報を掘り出すために、大容量の言語資源と統計的及び規則的アルゴリズムを使うことができる。また、クラスター分析（ＣｌｕｓｔｅｒＡｎａｌｙｓｉｓ）は、類似している特性を有する客体を合わせながら最終的に類似特性のグループを掘り出すのに使うことができ、群集の特性を把握して以後の新規クエリー（Ｑｕｅｒｙ）である新規のテキスト、イメージ、背景音楽などが収集された場合、新規客体を分類し出すことができる。

アップロード部３２０は、使用者端末１００からアップロードされた使用者の発話に対応する音声データをアップロードされることができる。また、アップロード部３２０は、使用者端末１００から音声データ、テキストデータ、イメージデータ及び動画データのうちのいずれか一つまたは少なくとも一つの組合せを手動でまたは自動でアップロードされることができる。すなわち、使用者端末１００で手動でファイルを指定してアップロードすることはもちろんのこと、自動でファイルをアップロードすることを含む。また、音声データだけでなく、文字のようなテキストデータやイメージまたは動画をアップロードすることができることを含む。上述した構成のうち、音声データをアップロードする場合、手動で使用者が指定してアップロードすることもでき、さらにアップロード部３２０は、使用者端末１００で録音される録音データのうち使用者の発話に対応する音声を区分し、選択的に音声データをバックグラウンドモード（ＢａｃｋｇｒｏｕｎｄＭｏｄｅ）でアップロードされることができる。このために、使用者端末１００は、使用者の発話を音声として入力されてアップロードすることができる。ここで、使用者端末１００では多様な音を録音することができる。クライアント訪問が多い使用者の場合、クライアントの音声またはクライアントとの会議が記録された録取録が存在することもでき、記者であれば取材対象の音声が録音された録音ファイルが存在することもできる。このうち、アップロード部３２０は、注文型動画のための使用者の発話を識別し、話し手を分離してアップロードしなければならない。このために、神経回路網を用いる。

神経回路網を用いた音声認識では、神経回路網の学習過程によって、入力層から中問層にあるいは中問層から出力層に向かうニューロンを互いに連結する加重値を変更して誤差を最小化することにより、新しい入力データに対して分類することができるように音声認識過程を遂行することができる。また、神経回路網を用いて多くの人が発声した音声を入力してそれぞれの個人が有している話し手の特徴を抽出した後、この特徴入力データを神経回路網の入力値とする。神経回路網を誤差がほとんどなくなく一定期間の間に学習させた後、神経回路網の学習データとは異なる新しい話し手の音声を神経回路網に入力する場合、どの人が発声した音声であるかを判断して認識することができる。仮に、使用者の発話ではない他人の発話が必要な使用者であれば、すべての音声データをアップロードした後、識別によるタグをタギングさせ、以後に必要な人の音声のみを抽出するようにする。ここで、音声の内容を分類することは以後に検索部３６０で遂行されるので、上述した話し手の分離や識別とは違う。

上述した話し手の識別及び分離のためには、アップロード部３２０は、まず分離された各フレームのサンプル値をハミング窓に通過させる。その後、有声音区間及び無声音区間を分類する。まず、無声音区間に対しては線形予測分析による線形予測係数（ＬＰＣ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｅｆｆｉｃｉｅｎｔ）ケプストラム係数及び高速フーリエ変換（ＦＦＴ：ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）電力スペクトラムを求める。そして、有声音区間に対しては、低域部分の直流成分を含むＦＦＴケプストラム係数及びＦＦＴ電力スペクトラムを求める。その後、それぞれの有声音区間及び無声音区間に対してケプストラム平均引算法（ＣｅｐｓｔｒａｌＭｅａｎＳｕｂｔｒａｃｔｉｏｎ）によるケプストラム正規化過程によって各フレームで話し手認識のための特徴データが神経回路網の入力層に入力されてそれぞれの話し手を分類するようになる。この引算法では、歪んでいない音声のケプストラムの平均を０（Ｚｅｒｏ）と仮定し、全区間の音声ケプストラムの平均を求める。その後、これを差し引いたケプストラムを学習及び認識に使うことができる。もちろん、上述した方法の他にも多様な話し手の識別及び分離方法が存在することができ、上述した方法にのみ限定されるものではないのは言うまでもない。

変換部３３０は、アップロードされた音声データをＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）によってテキストデータに変換して保存することができる。これは、上述した内容識別、すなわち後述する検索部３６０で検索語による検索を遂行するように内容をテキスト化する作業である。テキスト内で重要なキーワードを抽出してタギングしておくことにより、以後に検索語がクエリーとして入力されたとき、類似度に基づいて検出することができる。このために、変換部３３０は、テキストの変換及び保存だけでなく、さらに検索語として出ることができるキーワードを抽出することができる。キーワードは他の文書と区分して該当文書を代表することができる単語であり、情報検索、文書分類、要約などに使うことができる。このために、ＴＦ－ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ－ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）によってキーワードを抽出することができる。もしくは、ＦａｓｔＴｅｘｔを用いることもできる。これは、単語の前後文脈を反映して単語埋め込みを演算する。この場合、カテゴリー単語との類似度が高い単語を求めることができる。もしくは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）の加重値を用いて文脈に加重値を与え、カテゴリー情報を反映することにより分類問題に役立つキーワードから構成された辞書を生成することもできる。

ＣＮＮで、コンボリューションレイヤー（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）は入力文章の資質に対して加重値を計算する。その後、最大プーリング（Ｍａｘ－Ｐｏｏｌｉｎｇ）によって各フィルターで最高の加重値を有する資質のみを選択してカテゴリーを分類する。モデルは、予測カテゴリーと実際カテゴリーとの間の差を逆伝播（Ｂａｃｋ－Ｐｒｏｐａｇａｔｉｏｎ）によって各レイヤーに伝達して加重値をアップデートする。この過程で、コンボリューションレイヤーは、各文章でカテゴリーを分類するにあたり、重要な資質に高い加重値を付与するように学習するようになる。ここで、コンボリューションレイヤーの加重値が分類に対する資質の重要度を示すという点を用いれば、加重値の高い単語をキーワードと見なして抽出することができる。この際、発話エラー（発音が明確でなくてテキストが誤記として表記されるかまたは誤った単語を発話した場合）のような文書内のエラーに柔軟に対処することができるように、ＣＮＮを音節単位で学習して該当文書に対する各音節の加重値を求めた後、単語を成す音節の加重値を組み合せて最終の重要度を求めることができる。

提供部３４０は、使用者端末１００から少なくとも一つのカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を使用者端末１００に提供することができる。ここで、カテゴリーとイメージは、上述したように、ビッグデータ分類によって、初期には人間の介入を前提として、以後には教師なし学習によってマッピングされている。同様に、イメージだけでなく、動画、テキストまたはキャラクターも分類されているので、使用者端末１００でいずれか一つのカテゴリーを選択した場合、これに対応するキャラクター、イメージ、テキスト、動画などが出力されることができる。例えば、オントロジー基盤のイメージタギング技法を用いる場合、イメージの相関関係を用いる。ここで、下段によってイメージの低次元特徴が選択され、この特徴は中間段でセマンティックにキーワードとマッピングされ、このキーワードは上段でスキーマとオントロジーによって連結される。さらに、イメージのセマンティック意味を習得するために、イメージはコンテンツによって分解され、イメージの結果分類は構造的に定義構造の最もルートに位置することになる。キーワードのシーケンスはイメージをタギングするために使われ、低次元特徴抽出段階で作られた学習例題が入力として使われる。

人間の介入を完全に排除するためには、自動イメージタギング技法を用いることができる。ここではイメージ分割アルゴリズムが使われる。イメージタギングのために全域的特徴を使う。このモデリングフレームワークはカネールスムージング（ＫｅｒｎｅｌＳｍｏｏｔｈｉｎｇ）という非母数密度判断法に基づくことができる。この際、イメージの学習データセット（ＤａｔａＳｅｔ）が自動タギングのために使われ、イメージを描写するために語彙が使われる。トレーニングデータセットに属するイメージの助けによってタグ生成において具体的なイメージの予測が可能である。これにより、抽象的な「愛」という単語にも、初期にイメージとタギング単語との間の人間の介入による学習が存在し、エラーをフィードバックとして与えて学習及びトレーニングさせた場合には、以後に「愛」を示す音楽、イメージ、動画などが入力されると言っても、上述した方法によって分類されることができ、よってシステム上でそれ以上の人力の介入がなくても新たにアップロードされる資料に対する自動タギング及び分類が可能になり、使用者も新しいコンテンツを分類及び整列されたままで用いることができるようになる。

生成部３５０は、使用者端末１００で字幕または背景音楽を選択して字幕データを受信するかまたは背景音楽が選択される場合、コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成することができる。ここで、生成部３５０は、クラウドを介せずにすぐ作業する場合には、使用者端末１００から入力された音声、テキスト、文字、イメージなどを用いてすぐ作業を遂行するようにすることもできる。これにより、使用者端末１００は、少なくとも１種のカテゴリーのうちのいずれか一つのカテゴリーを選択してイメージまたは動画を含むコンテンツを選択し、字幕または背景音楽を選択して、コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を再生することができる。ここで、動画をレンダリングするために、ビデオコラージュ方式またはテンプレート（Ｔｅｍｐｌａｔｅ）方式を用いることができる。前者は、写真と映像をいっぺんに選択し、所望の雰囲気を選択すれば、入力されたコンテンツを一つに組み合せて動画を生成する方式である。後者は前もってデザインされたテンプレートを選択し、所望のメディアを代替及び挿入する方式で映像製作が遂行される。完成度の高いテンプレートを一旦作っておけば、写真または動画のみを代替して何回も再活用することができる。

また、本発明の一実施例では、注文型動画を製作するために、各種のメタ情報、写真、動画のようなリソースを入力され、これを戦略メタ情報によって選別し、最終的にビデオを出力する構成を用いることもできる。前述した二通りの方法との相違点は、メタ情報を用いて制限されたテンプレートを分類し、推薦することにより、意図するコンテンツを製作することができるようにすることである。ここで、メタ情報は構造化した形態であるか決まった形態がない一般的なテキスト文字列フォーマットを仮定する。

上述したレンダリングのために、ＭＬＴ（ＭｅｄｉａＬｏｖｉｎ’ Ｔｏｏｌｋｉｔ）マルチメディアフレームワークを用いることができる。これは、多様なメディアソースを時間によって配置し、転換及びフィルター効果、２次元及び３次元グラフィック効果を付け加えて実際映像を作るように支援する。ＭＬＴは公開ソースマルチメディアプロジェクトであり、放送用コンテンツを含めた多様なビデオコンテンツの創作のために開発されている。外部プログラムとの連動のためのＡＰＩが提供されることにより、多様なプログラミング言語で接近することができ、放送コンテンツ、ビデオ編集機、メディア再生機、変換符号化器、ビデオストリーミングのような多くの応用に活用可能である。機能の側面では、マルチメディアコンテンツを容易に組み合せて表示する必須機能を提供し、プラグイン構造を導入して持続的な機能の拡張が可能である。もちろん、レンダリング機能を提供するものであれば、上述したブランドの他にも多様なツールキットまたはプログラムを用いることができ、上述した構成のみが満たされれば、どの方法も可能であると言える。

上述した戦略メタ情報を用いた一例を挙げれば、使用者が空気浄化植物を販売する販売者であり、空気浄化植物を販売するための広報映像を製作すると仮定する。ここで、ビデマッシュアップのためには、使用者情報、使用者意図情報、テキスト形態のメタ情報で記述される戦略メタ情報がシステムに前もって確保されていると仮定する。戦略メタ情報は多様な経路及び方法で収集することができるが、広告用ビデマッシュアップであると仮定すれば、業種情報、マーケティング戦略、位置情報、雰囲気情報、使用者意図情報、広報時間帯情報にまとめることができる。例えば、業種は「苗販売業」、マーケティング戦略は「３０代女性が好む広報物を正午に配布すること」、使用者意図は「空気浄化植物を重点的に広告したい」のような戦略メタ情報を提示することができる。その後、メタ情報を示す文字列から主に辞書（Ｄｉｃｔｉｏｎａｒｙ）に定義された名詞（ｎｏｕｎ）としてのキーワードを抽出し、主題モデリング方法を用いれば、場面組合せのための類似度の計算に使うことができる。ストーリーボード、すなわち広報映像がどのように展開されて行くかは、使用者端末１００で使用者インターフェースを介して所望の雰囲気やテーマを有するストーリーボードを予め選択したと仮定する。このようなストーリーボードの表現のために、複数の場面がストーリーボードを成すと仮定し、場面によって場面番号、場面スケッチ、正規タグ、非正規タグをＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）フォーマットで記述して上位水準の話し構造を作ることができる。ストーリーボードによって、場面テンプレート（ＳｃｅｎｅＴｅｍｐｌａｔｅ）、リソース（Ｒｅｓｏｕｒｃｅ）、背景音楽（ＢａｃｋｇｒｏｕｎｄＭｕｓｉｃ）、フィルター効果（ＦｉｌｔｅｒＥｆｆｅｃｔ）、マスク効果（ＭａｓｋＥｆｆｅｃｔ）を選択する過程を遂行して最終的にビデオを出力することができる。

このために、ストーリーボードと場面構成要素との間にメタ情報基盤の連結インターフェースを定義し、互いに連結させることができるアルゴリズムが予め設定されなければならない。一つのストーリーボードは複数の場面（Ｓｃｅｎｅ）から構成され、場面テンプレート、リソース、各種の効果などの場面要素がそれぞれ複数ずつ備えられる場合、ストーリーボードを構成するそれぞれの場面（ＳｔｏｒｙｂｏａｒｄＳｃｅｎｅ）と場面要素（ＳｃｅｎｅＥｌｅｍｅｎｔ）はそれぞれ正規メタタグ（ＲｅｇｕｌａｒＴａｇｓ）と非正規メタタグ（ＩｒｒｅｇｕｌａｒＴａｇｓ）とを含む。ここで、正規メタタグは前もってストーリーボードと場面要素を連結するために定義した全体メタタグ集合の部分集合であり、プロットまたはストーリー構造に合うように場面要素を抽出するために使用する。非正規メタタグは前もって定義されずに動的に更新される辞書（Ｄｉｃｔｉｏｎａｒｙ）に含まれた単語の集合である。非正規メタタグに基づいて主題モデリング方法を使ってストーリーボードの場面と場面要素との間の類似性を計算することができ、類似度は潜在的維持分析（ＬＳＡ：ＬａｔｅｎｔＳｅｍａｔｉｃＡｎａｌｙｓｉｓ／Ｉｎｄｅｘｉｎｇ）を用い、コサイン類似度またはユークリッド距離を用いることができる。

ＬＳＡは、入力された文書をベクター空間（ＶｅｃｔｏｒＳｐａｃｅ）に表現し、特異値分解（ＳＶＤ：ＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ）を遂行して主題（Ｔｏｐｉｃ）を捜し、これによりベクター空間で文書を表現する次元を減らすか、類似度を分析して主題別に分類及び推薦する機能を提供する。主題モデリングが完了した状態で各種の戦略メタ情報によって場面テンプレートを推薦するためには類似度分析が必要である。二つのベクターの間の類似度（Ｓｉｍｉｌａｒｉｔｙ）を計算するためにはコサイン類似度（ＣｏｓｉｎｅＳｉｍｉｌａｒｉｔｙ）公式を用いるが、これに限定されない。仮に、コサイン類似度を使えば、類似度が１の場合は完全に違うと、０の場合は相関度ないと表示されることができ、その間の数字の大きさによって類似度及び相関度が変わる。

連関方式によってストーリーボードが与えられたとき、ストーリーボードのそれぞれの場面に合う場面要素を選択することにより、抽象的なストーリーボードが動画合成のための具体的なプロジェクトファイルに変換されることができる。例えば、ストーリーボードの正規メタタグが「イントロ」と記載されていれば、場面要素の正規メタタグを検査して「イントロ」が全体的にまたは部分的に検索される場合、候補場面要素として抽出されることができる。このように抽出された候補場面要素に対して主題モデリング方式で類似度計算を遂行して一番近似している場面要素を選定することができる。例えば、前もって備えられた特定の場面要素の全集合（ＥｎｔｉｒｅＳｅｔｏｆＳｐｅｃｉｆｉｃＳｃｅｎｅＥｌｅｍｅｎｔｓ）から正規メタタグの検索によって部分集合が選択され、最後に非正規メタタグによって類似度計算が完了した最終場面要素の部分集合を抽出すれば、正規メタタグの場合は単純単語検索によって簡単に抽出することができるが、非正規メタタグの場合は多くの単語の加重値を総合的に反映することができるようにするために、上述したＬＳＡを使うことができる。ストーリーボードに含まれた特定の場面を決定するために、場面要素のうちで場面テンプレートとして正規メタタグと非正規メタタグを選定し、その後、該当場面に入るリソース、背景音楽、フィルター効果、マスク効果を同一方法で選定することができる。場面要素のうち、背景音楽、フィルター効果、マスク効果は動画雰囲気の一貫性のために動画が再生される全体時間に対して全域的に反映されるように構成することができる。

検索部３６０は、使用者端末１００からアップロードされた音声を検索するときに音声基盤の検索語を入力する場合、ＳＴＴを用いて音声に対応するようにテキストを出力した後、出力したテキストと既保存の音声内に含まれたテキストとの間の類似度に基づいて検索結果を出力することができる。また、検索部３６０は、テキスト基盤の検索語が入力される場合、入力されたテキスト基盤の検索語と既保存の音声内に含まれたテキストとの間の類似度に基づいて検索結果を出力することができる。そして、検索部３６０は、検索結果を類似度の高い順にリストアップ（Ｌｉｓｔｕｐ）して提供し、検索結果としては、音声が録音された時間及び位置が音声が録音されたファイルとともに出力されることができる。

調整部３７０は、使用者端末１００からアップロードされた音声を選択した後、背景音楽を選択した場合、背景音楽のボリュームをアップロードされた音声の大きさに反比例するように増減させることができる。この際、調整部３７０は、スペクトログラム（Ｓｐｅｃｔｒｏｇｒａｍ）を用いて音の周波数及び振幅をイメージとして出力し、出力されたイメージをＣＮＮで分析することにより、音の増減を把握し、背景音楽の音を下げるか上げることができる。例えば、使用者の音声が小さく録音された場合には音声のボリュームを上げることもできるが、背景音楽を下げることもできる。その逆も同様である。もちろん、上述した過程の後にも、音出力の均一性のために、音の大きさを注文型動画の全体に対して合わせる作業もさらに遂行することができる。

決済部３８０は、生成部で生成した注文型動画の購買及び決済要請が使用者端末１００から出力される場合、決済完了の後、注文型動画を使用者端末１００で駆動可能なフォーマットにトランスコーディング（Ｔｒａｎｓｃｏｄｉｎｇ）して使用者端末１００に伝送するか、または使用者端末１００で指定した少なくとも一つのサイトの既設定のフォーマットにトランスコーディングしてアップロードすることができる。ここで、トランスコーディングとは、学習者のような使用者がさまざまなプログラムやアクティブエックスなどを組み込まなくても、使用者端末１００に適したフォーマットに原本動画を変換する技術である。トランスコーディングは圧縮率または圧縮方法によってネットワーキング資源及びコンピュータ資源が急激に変わるが、単一のサーバー基盤では十分なネットワーキング資源やコンピュータ資源が需給されない。ここで、本発明において、ＧＰＵはＣＰＵより単位面積当たり多くのデータを処理することができるので、適応的にＱｏＳ維持が可能になるという点を用いる。まず、デュアルトランスコーディング方法は、トランスコーディング要請を処理するに先立ち、決済部３８０でワークロード（Ｗｏｒｋｌｏａｄ）を予測して当該要請に対するＱｏＳ維持が可能であるかを判断することができる。ここで、トランスコーディング要請に対するワークロード予測のために線形回帰分析法を用いることができるが、これに限定されるものではない。ＱｏＳ維持が可能であると判断されれば、ＣＰＵまたはＧＰＵトランスコーダーのうちより適したタイプの装置に作業を割り当てることにより、演算資源の効率性を高めることができる。結果的に、単一のサーバーがより多い使用者の要請をＱｏＳ維持の下で提供することができる。

注文型動画製作サービス提供サーバー３００は、Ｓａａｓ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）、Ｉａａｓ（ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ）、Ｓａａｓ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）、及びＰａａｓ（ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ）のうちのいずれか一つまたは少なくとも一つの組合せに基づくクラウドサーバーであることができる。Ｉａａｓ（ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ）によって、サーバー運営に必要なサーバー資源、ＩＰ、ネットワーク（Ｎｅｔｗｏｒｋ）、ストレージ（Ｓｔｏｒａｇｅ）、電力などの多くのインフラ資源を弾力的で早く提供することができる。Ｉａａｓは資源を容易に追加するか除去することができ、運営体制を提供するので、親しい環境を提供することができる。Ｐａａｓ（ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ）によってサービスを提供することができ、これは、安定的な環境とその環境を用いる応用プログラムを開発することができるＡＰＩまで提供するサービスである。Ｐａａｓは簡便に原始コードをビルド及び配布することができ、使用量によって容易に調整することができる。Ｓａａｓ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）はクラウド環境で動作する応用プログラムを使用者に提供するサービスである。Ｓａａｓはインターネットを介してどこでも容易に用いることができ、ウェブブラウザーのみあればどこでも接近することができる。

もちろん、クラウドを介しない環境、例えば使用者端末１００で直接録音することができ、録音された音声データをすぐ注文型動画に製作する場合には、上述したクラウドを用いないこともでき、クラウドプラットホームの構成が削除された形式に具現及び構成されることもできる。また、例えば、使用者端末１００が複数の場合には、マイクが別に内蔵されなかった使用者端末１００では注文型動画製作を遂行し、マイクが内蔵された使用者端末１００では録音を遂行することにより、クラウドにアップロードする方向に実施例が具現されることもできる。少なくとも一つの構成及び段階が複数の使用者端末１００に分離されるように具現されることもでき、反対に複数の構成及び段階が単一の使用者端末１００に統合されることもできる。

以下、上述した図２の注文型動画製作サービス提供サーバーの構成による動作過程を図３及び図４に基づいて詳細に説明する。ただ、この実施例は本発明の多様な実施例のうちの一つであるだけで、本発明がこの実施例に限定されないというのは明らかである。

図３を参照すると、（ａ）注文型動画製作サービス提供サーバー３００は、少なくとも一つのコンテンツ提供端末４００から背景音楽、キャラクター、カテゴリー、コンテンツなどのアップロードを受けてカテゴリー別に分類し、ビッグデータを構築する。そして、（ｂ）注文型動画製作サービス提供サーバー３００は、使用者端末１００で注文型動画生成のためのカテゴリーを選択すれば、これに既にマッピングされて保存された背景音楽、キャラクター、コンテンツなどを提供する。ここで、カテゴリーは、愛、悲しみ／慰労、友情、激励、離別、節日挨拶、孝行、記念日、喜び／祝い、広報挨拶、弔意、開業挨拶、仏生日、クリスマス、後記、お知らせ／公知、季節、自然、誕生日祝い、旅行などのように多様であり得るが、列挙したものに限定されない。

ここで、使用者端末１００で「愛」のカテゴリーを選択した場合、「愛」に関連したイメージ、背景音楽、動画、テキスト、キャラクターなどが出力されることができ、使用者がキャラクターを選定した後、字幕、背景音楽、音声録音などを遂行する場合、ランダムにまたは順次それぞれの選択作業を遂行することができる。これにより、使用者端末１００の画面には（ｃ）Ａ～Ｆのような「愛」というタグまたはメタデータでマッピングされたコンテンツが出力され、使用者がＡを選択した後、（ｄ）背景音楽を選択する場合、同様に「愛」とマッピングされた背景音楽がリストアップされることができる。このとき、使用者は当該カテゴリー内の背景音楽の他にも多様な背景音楽を使いたいことがあるので、カテゴリーを外れるか他の背景音楽を検索及び入力することも可能である。背景音楽の全体カテゴリーは、例えば、ユーモア、恐怖、猟奇、悲しみ、感動、平和、希望、激烈、純粋、静寂、荘厳、真剣、ビート、楽しみ、合成必須ギャラリー、か弱さ、深刻、活気、雄壮、かすかさ、夢幻、余裕、哀切、楽しさ、寂しさ、童心、憂鬱、挫折、神秘、緊迫、静かさ、陽気、日常、古典、溌剌、クラブ、緊張、悲壮、浅ましさ、焦燥、和やかさ、可愛さ、甘さ、幸せ、自作曲、堂々、軽快、思い出、暖かさのように、音楽ジャンルだけでなく、形容詞や抽象語のような単語に分類されることができる。カテゴリー別に推薦音楽を提供することもでき、１分プレリスニングを提供することもでき、選択する場合、当該背景音楽が注文型動画の背景音楽として挿入される。

このように、使用者端末１００で背景音楽を選択する場合、図４の（ａ）のように、その次の段階（またはランダムな段階）で使用者端末１００で録音したファイルの読み取り、すなわち音声データを検索して挿入することができる。（ｂ）音声データはやはり音声で検索することができ、（ｃ）のように検索することができる。そして、挿入された音声データ、背景音楽、コンテンツなどのレンダリング結果の組合せが気に入る場合、使用者端末１００は保存またはアップロードのための決済を遂行することができる。

このような図２～図４のクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法について説明しなかった事項は先に図１でクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法について説明した内容と同一であるかその説明した内容から容易に類推することができるので、以下で説明を省略する。

図５は本発明の一実施例による図１のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システムに含まれたそれぞれの構成の間にデータが送受信される過程を示す図である。以下、図５に基づいてそれぞれの構成の間にデータが送受信される過程の一例を説明するが、このような実施例に本発明が限定されて解釈されるものではなく、前述した多様な実施例によって図５に示すデータの送受信過程が変更されることができるというのは当該技術分野に属する当業者に明らかである。

図５を参照すると、注文型動画製作サービス提供サーバーは、少なくとも１種のカテゴリー別テキスト、イメージ、動画、及び背景音楽を分類及び保存し（Ｓ５１００）、使用者端末からアップロードされた使用者の発話に対応する音声データをアップロードされる（Ｓ５２００）。

また、注文型動画製作サービス提供サーバーは、アップロードされた音声データをＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）によってテキストデータに変換して保存し（Ｓ５３００）、使用者端末から少なくとも１種のカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を使用者端末に提供する（Ｓ５４００）。

最後に、注文型動画製作サービス提供サーバーは、使用者端末で字幕または背景音楽を選択して字幕データを受信するか、背景音楽が選択される場合、コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成する（Ｓ５５００）。

上述した段階（Ｓ５１００～Ｓ５５００）の順序は例示であるだけで、これに本発明が限定されない。すなわち、上述した段階（Ｓ５１００～Ｓ５５００）の順序は互いに変わることができ、これらの段階のうちの一部段階は同時に実行するか省略することもできる。

このような図５のクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法について説明しなかった事項は先に図１～図４に基づいてクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法について説明した内容と同一であるか説明した内容から容易に類推することができるので、以下では説明を省略する。

図５に基づいて説明した一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法は、コンピュータによって実行されるアプリケーション又はプログラムモジュールのようなコンピュータによって実行可能な命令語を含む記録媒体の形態にも具現可能である。コンピュータ可読の媒体はコンピュータによってアクセス可能な任意の可用媒体であってもよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれも含む。また、コンピュータ可読の媒体はコンピュータ記憶媒体を全て含むことができる。コンピュータ記憶媒体は、コンピュータ可読の命令語、データ構造、プログラムモジュール又はその他のデータのような情報の記憶のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型媒体のいずれも含む。

前述した本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法、端末機に基本的に組み込まれたアプリケーション（これは端末機に基本的に搭載されたプラットホーム又はオペレーティングシステムなどに含まれたプログラムを含むことができる）によって実行可能であり、使用者がアプリケーションストアサーバー、アプリケーション又は該当サービスに関連したウェブサーバーなどのアプリケーション提供サーバーを介してマスター端末機に直接組み込まれたアプリケーション（すなわち、プログラム）によって実行されることもできる。このような意味で、前述した本発明の一実施例によるクラウド基盤の音声結合を用いた注文型動画製作サービス提供方法は端末機に基本的に組み込まれるか使用者によって直接組み込まれたアプリケーション（すなわち、プログラム）として具現され、端末機などのコンピュータで読める記録媒体に記録されることができる。

前述した本発明の説明は例示のためのものであり、本発明が属する当該技術分野の通常の知識を有する者であれば本発明の技術的思想又は必須の特徴を変更せずに他の具体的な形態に易しく変形することができることが理解可能であろう。したがって、以上で記述した実施例は全ての面で例示的なものであり、限定的なものではないことを理解しなければならない。例えば、単一型として説明した各構成要素は分散されて実施されることもでき、同様に分散されたものとして説明した構成要素も結合された形態に実施されることができる。

本発明の範囲は前記詳細な説明よりは後述する特許請求範囲によって決定され、特許請求範囲の意味及び範囲そしてその均等な概念から導出される全ての変更又は変形の形態も本発明の範囲に属するものと解釈されなければならない。

本発明によれば、使用者端末に保存された録音ファイルのうち使用者の音声発話が含まれた録音ファイルを自動で分類及び抽出してバックグラウンドモードでクラウドプラットホームにアップロードし、使用者端末で注文型動画を製作しようとするとき、既保存の少なくとも一つのカテゴリー別コンテンツを提供することにより、編集プログラムを購入またはダウンロードしなくても、一般人であっても直観的に字幕、背景音楽、及び録音ファイルを整合させて使用者注文型動画を製作することができるようにし、既設定のアップロードサーバーにアップロードさせるときにはアップロードサーバーで要求するフォーマットに合うように自動でトランスコーディングさせ、使用者端末に保存するときにも使用者端末で再生可能なフォーマットにトランスコーディングすることによって使用者の便宜性を極大化することができる。

Claims

使用者の発話を音声として入力されてアップロードし、少なくとも１種のカテゴリーのうちのいずれか一つのカテゴリーを選択してイメージまたは動画を含むコンテンツを選択し、字幕または背景音楽を選択し、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を再生する使用者端末と、
少なくとも１種のカテゴリー別テキスト、イメージ、動画、及び背景音楽を分類及び保存するデータベース化部、前記使用者端末からアップロードされた使用者の発話に対応する音声データをアップロードされるアップロード部、前記アップロードされた音声データをＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）によってテキストデータに変換して保存する変換部、前記使用者端末で少なくとも１種のカテゴリーのうちのいずれか一つのカテゴリーが選択された場合、前記選択されたカテゴリーに既にマッピングされて保存されたイメージまたは動画を前記使用者端末に提供する提供部、及び前記使用者端末で字幕または背景音楽を選択し、字幕データを受信するか背景音楽が選択される場合、前記コンテンツ及びアップロードされた音声と、字幕または背景音楽とが含まれた注文型動画を生成する生成部を含む注文型動画製作サービス提供サーバーと、を含む、クラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
前記アップロード部は、前記使用者端末から音声データ、テキストデータ、イメージデータ及び動画データのうちのいずれか一つまたは少なくとも一つの組合せを手動でまたは自動でアップロードされることを特徴とする、請求項１に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
前記アップロード部は、前記使用者端末で録音される録音データのうち前記使用者の発話に対応する音声を区分し、選択的に前記音声データをバックグラウンドモード（ＢａｃｋｇｒｏｕｎｄＭｏｄｅ）でアップロードされることを特徴とする、請求項１に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
前記注文型動画製作サービス提供サーバーは、Ｓａａｓ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）、Ｉａａｓ（ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ）、Ｓａａｓ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）、及びＰａａｓ（ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ）のうちのいずれか一つまたは少なくとも一つの組合せに基づくクラウドサーバーであることを特徴とする、請求項１に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
前記注文型動画製作サービス提供サーバーは、前記使用者端末からアップロードされた前記音声を検索するとき、音声基盤の検索語を入力する場合、前記ＳＴＴによって音声に対応するようにテキストを出力した後、前記出力したテキストと既保存の音声内に含まれたテキストとの間の類似度に基づいて検索結果を出力する検索部をさらに含み、
前記検索部は、テキスト基盤の検索語が入力される場合、前記入力されたテキスト基盤の検索語と既保存の音声内に含まれたテキストとの間の類似度に基づいて検索結果を出力することを特徴とする、請求項１に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
前記検索部は、前記検索結果を前記類似度の高い順にリストアップ（Ｌｉｓｔｕｐ）して提供し、前記検索結果は前記音声が録音された時間及び位置が前記音声が録音されたファイルとともに出力されることを特徴とする、請求項５に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
前記注文型動画製作サービス提供サーバーは、前記使用者端末からアップロードされた前記音声を選択した後、前記背景音楽を選択した場合、前記背景音楽のボリュームを前記アップロードされた音声の大きさに反比例するように増減する調整部をさらに含むことを特徴とする、請求項１に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。
前記注文型動画製作サービス提供サーバーは、前記生成部で生成した注文型動画の購買及び決済要請が前記使用者端末から出力される場合、決済完了の後、前記注文型動画を前記使用者端末で駆動可能なフォーマットにトランスコーディング（Ｔｒａｎｓｃｏｄｉｎｇ）して前記使用者端末に伝送するかまたは前記使用者端末で指定した少なくとも一つのサイトの既設定のフォーマットにトランスコーディングしてアップロードする決済部をさらに含むことを特徴とする、請求項１に記載のクラウド基盤の音声結合を用いた注文型動画製作サービス提供システム。