JP2014501941A

JP2014501941A - クライアント端末機を用いた音楽コンテンツ製作システム

Info

Publication number: JP2014501941A
Application number: JP2013539785A
Authority: JP
Inventors: ハクヨム，ジョン; モカン，ウォン
Original assignee: チジェンスカンパニーリミテッド
Priority date: 2011-04-28
Filing date: 2012-04-17
Publication date: 2014-01-23
Also published as: KR20120122295A; WO2012148112A2; CN103503015A; KR101274961B1; EP2704092A2; EP2704092A4; US20140046667A1; WO2012148112A3; WO2012148112A9

Abstract

本発明は、クライアント端末機を用いた音楽コンテンツ製作システムに関し、より詳細には、コンピューター音声合成技術を用いて音楽ボーカルコンテンツを生成する技術でオンライン又はクラウドコンピューター、エンベデッド端末機などのクライアント端末機において任意の歌詞、音階、音長、唱法などの多様な音楽情報を入力すると、音階による韻律を示す音声を該当の音長で発声して行う音声に合成してクライアント端末機に伝達するクライアント端末機を用いた音楽コンテンツ製作システムに関する。
【選択図】図１

Description

本発明は、クライアント端末機を用いた音楽コンテンツ製作システムに関し、より詳細には、コンピューター音声合成技術を用いて音楽ボーカルコンテンツを生成する技術でオンライン又はクラウドコンピューター、エンベデッド端末機などのクライアント端末機において任意の歌詞、音階、音長、唱法などの多様な音楽情報を入力すると、音階による韻律を示す音声を該当の音長で発声して行う音声に合成してクライアント端末機に伝達するクライアント端末機を用いた音楽コンテンツ製作システムに関する。

従来の音声合成技術は、単純に入力されたテキスト文字を対話体形態の音声に出力し、ＡＲＳ（自動応答サービス）、音声案内、ナビゲーション音声案内などの単純情報伝達機能に限定して使用されていた。

したがって、単純情報伝達機能以外に人間の全ての声機能を再現できる技術を活用して歌、作曲、ドラマ声優、知能型ロボットなどの多様なサービスに適用できる文字音声合成技術が要求されている。

そして、既存の音楽用音声合成技術においては、ＰＣ環境では歌詞編集と音声合成などの音楽生成のための一連の過程が一つのシステムで行われる。

しかし、携帯電話或いはスマートフォン環境、オンライン及びクラウドコンピューター環境では、ＣＰＵ性能の制約、メモリの限界などにより、音声合成に必要な大容量のＤＢを迅速に処理するのに問題があり、多重接続による性能に制約が伴うしかなかった。

このような問題を解決するために、本発明では、クライアント―サーバー構造の音楽用音声合成システムを提案する。

したがって、本発明は、前記のような従来技術の問題を勘案して提案されたもので、本発明の目的は、オンライン、携帯電話、ＰＤＡ、スマートフォンなどの多様なエンベデッド端末機のクライアント環境で歌詞の文字音声合成（ＴＴＳ：ｔｅｘｔｔｏｓｐｅｅｃｈ）を用いて任意の歌詞、音階、音長によって合成された歌を出力したり、背景音楽と歌詞に該当する歌を合成してクライアント環境に伝送することにある。

本発明の他の目的は、任意の歌詞、音階、音長、音楽効果、背景音楽の設定、ビート／テンポなどの音楽に必要な要素を加工してデジタルコンテンツ形態に製作することができ、各種言語の特性に応じて歌詞に該当するテキストを分析し、歌詞と音声を合成して各種の音楽的効果を示すことができる音楽用音声合成方法を提供することにある。

本発明の更に他の目的は、音声合成伝送サーバーを別途に構成し、音声合成サーバーで音楽用音声合成情報をクライアント端末機に迅速に伝達することによって性能低下の問題を解決することにある。

本発明が解決しようとする課題を達成するために、
本発明の一実施例に係るクライアント端末機を用いた音楽コンテンツ製作システムは、
歌詞及び音源を編集し、ピアノの鍵盤位置に沿った音を再生させ、ボーカルエフェクトを編集したり、ボーカルに該当する歌手音源及びトラックを編集した音楽情報を音声合成サーバーに送出し、音声合成サーバーで合成及び加工された音楽を再生させるクライアント端末機と；
前記クライアント端末機から送出された音楽情報を獲得し、歌詞に該当する音源を抽出して合成及び加工する音声合成サーバーと；
前記音声合成サーバーから生成された音楽をクライアント端末機に送出する音声合成伝送サーバーと；を含んで構成される。

以上の構成及び作用を有する本発明に係るクライアント端末機を用いた音楽コンテンツ製作システムは、誰もが容易に音楽コンテンツをモバイル環境で編集できれば、音楽コンテンツを音楽用音声に合成して再びユーザーに提供することによって、個人が創作したコンテンツをオンライン、オフラインで流通することができ、携帯電話においてベル音、呼び出し音（ＲＢＴ、ＲｉｎｇＢａｃｋＴｏｎｅ）などの音楽コンテンツ応用付加サービスに用いることができ、多様な形態の携帯用機器において音楽再生、音声案内に用いることができ、ＡＲＳ（自動応答システム）、ナビゲーション（地図案内装置）において人と似たイントネーションで音声案内サービスを提供することができ、人工知能ロボット装置において人と似たイントネーションで話し歌うようにするという効果を提供する。

また、ドラマやアニメーションコンテンツ製作において、声優に取って代わる自然な人のイントネーションを表現できるより良い効果を提供する。

また、音声合成伝送サーバーを別途に構成し、音声合成サーバーで音楽用音声合成情報をクライアント端末機に迅速に伝達することによって性能低下の問題を解決し、多数の顧客達に音源サービスを迅速に提供できるという効果を提供する。

本発明の一実施例に係るクライアント端末機を用いた音楽コンテンツ製作システムの全体構成図である。本発明の一実施例に係るクライアント端末機を用いた音楽コンテンツ製作システムのクライアント端末機のブロック図である。本発明の一実施例に係るクライアント端末機を用いた音楽コンテンツ製作システムの音声合成サーバーのブロック図である。本発明の一実施例に係るクライアント端末機を用いた音楽コンテンツ製作システムの音声合成伝送サーバーのブロック図である。本発明の一実施例に係るクライアント端末機を用いた音楽コンテンツ製作システムのクライアント端末機に出力される製作プログラムを示した画面である。

前記課題を達成するための本発明に係るクライアント端末機を用いた音楽コンテンツ製作システムは、
クライアント端末機を用いた音楽コンテンツ製作システムにおいて、
歌詞及び音源を編集し、ピアノの鍵盤位置に沿った音を再生させ、ボーカルエフェクトを編集したり、ボーカルに該当する歌手音源及びトラックを編集した音楽情報を音声合成サーバーに送出し、音声合成サーバーで合成及び加工された音楽を再生させるクライアント端末機と；
前記クライアント端末機から送出された音楽情報を獲得し、歌詞に該当する音源を抽出して合成及び加工する音声合成サーバーと；
前記音声合成サーバーから生成された音楽をクライアント端末機に送出する音声合成伝送サーバーと；を含んで構成されることを特徴とする。

このとき、前記クライアント端末機は、
歌詞を編集する歌詞編集部と、
音源を編集する音源編集部と、
ボーカルエフェクトを編集するボーカルエフェクト編集部と、
ボーカルに該当する歌手音源を選択し、多くのトラックを編集する歌手及びトラック編集部と、
音声合成伝送サーバーから音声合成サーバーで合成された信号を受けて再生させる再生部とを含んで構成されることを特徴とする。

このとき、他の様相に係る前記クライアント端末機は、
歌詞を編集する歌詞編集部と、
音源を編集する音源編集部と、
ピアノの鍵盤位置に沿った音を再生する仮想ピアノ楽器部と、
ボーカルエフェクトを編集するボーカルエフェクト編集部と、
ボーカルに該当する歌手音源を選択し、多くのトラックを編集する歌手及びトラック編集部と、
音声合成伝送サーバーから音声合成サーバーで合成された信号を受けて再生させる再生部とを含んで構成されることを特徴とする。

このとき、前記音声合成サーバーは、
クライアント端末機から送出された歌詞、歌手、トラック、音階、音長、ビート、テンポ、音楽効果を獲得する音楽情報獲得部と、
前記音楽情報獲得部によって獲得された歌詞の文章を分析し、これを言語的特性に応じて定義された形態に変換する構文分析部と、
前記構文分析部によって分析されたデータを音素基盤に変換する発音変換部と、
前記構文分析部及び発音変換部によって分析された歌詞に該当する最適音素を事前に定義された規則に従って選択する最適音素選択部と、
前記音楽情報獲得部によって獲得された歌手情報を獲得し、前記最適音素選択部を通して選択された音素に該当する音源を音源データベースから選択することによって、前記の獲得された歌手情報の音源を選択する音源選択部と、
歌詞の文章特性に応じて前記最適音素選択部によって選択された最適の音素を獲得し、最適の各音素をつなぎ合わせて合成するときに長さとピッチを制御する韻律制御部と、
前記韻律制御部によって合成された歌詞の文章を獲得し、前記音楽情報獲得部によって獲得された音階、音長、ビート、テンポによって再生されるように獲得された歌詞の文章をマッチングさせる音声変換部と、
前記音声変換部によって変換された音声を獲得し、前記音楽情報獲得部によって獲得された音楽効果によって再生されるように前記の変換された音声に音色をマッチングさせる音色変換部と、
前記音楽情報獲得部によって獲得された背景音楽情報と前記音色変換部によって最終的に変換された音色を合成する歌及び背景音楽合成部とを含んで構成されることを特徴とする。

このとき、前記音楽情報獲得部は、
歌詞情報を獲得する歌詞情報獲得部と、
音源データベースに格納された背景音楽音源から選ばれた背景音楽音源情報を獲得する背景音楽情報獲得部と、
ユーザーによって調節されたボーカルエフェクト情報を獲得するボーカルエフェクト獲得部と、
歌手情報を獲得する歌手情報獲得部とを含んで構成されることを特徴とする。

また、仮想ピアノ楽器でユーザーによって選択されたピアノの鍵盤位置情報を獲得するピアノ鍵盤位置獲得部をさらに含んで構成されることを特徴とする。

このとき、前記音声合成伝送サーバーは、
多数のクライアント端末機が同時に音声合成サーバーに接続して音声合成を要請できるように、クライアント端末機の音楽合成要請を順次的或いは並列的に管理するクライアント多重接続管理部と、
制約されたネットワーク環境で効率的な音楽データを伝送するために音楽データを圧縮する音楽データ圧縮処理部と、
クライアント端末機の音楽合成要請に応じて合成された音楽情報をクライアントに伝送する音楽データ伝送部と、
移動通信社のベル音サービス、呼び出し音サービスに音声合成基盤の音楽コンテンツを提供するために音楽コンテンツを外部システムに伝達する付加サービスインターフェース処理部とを含んで構成されることを特徴とする。

以下、本発明に係るクライアント端末機を用いた音楽コンテンツ製作システムの実施例を詳細に説明する。

図１は、本発明の一実施例に係るクライアント端末機を用いた音楽コンテンツ製作システムの全体構成図である。

図１に示したように、本発明に係るクライアント端末機を用いた音楽コンテンツ製作システムは、大きく、クライアント端末機、音声合成サーバー、音声合成伝送サーバー及びこれをネットワークで連結するネットワーク網を含んで構成される。

前記クライアント端末機は、歌詞及び音源を編集し、ピアノの鍵盤の位置に沿った音を再生させ、ボーカルエフェクトを編集したり、ボーカルに該当する歌手音源及びトラックを編集した音楽情報を音声合成サーバーに送出し、音声合成サーバーで合成及び加工された音楽を再生させる。前記音声合成サーバーは、クライアント端末機から送出された音楽情報を獲得し、歌詞に該当する音源を抽出して合成及び加工する。前記音声合成伝送サーバーは、音声合成サーバーから生成された音楽をクライアント端末機に送出する。

図２は、本発明の一実施例に係るクライアント端末機を用いた音楽コンテンツ製作システムのクライアント端末機のブロック図である。

図２に示したように、クライアント端末機２００は、
歌詞を編集する歌詞編集部２１０と、
音源を編集する音源編集部２２０と、
ボーカルエフェクトを編集するボーカルエフェクト編集部２４０と、
ボーカルに該当する歌手音源を選択し、多くのトラックを編集する歌手及びトラック編集部２５０と、
音声合成伝送サーバーから音声合成サーバーで合成された信号を受けて再生させる再生部２６０とを含んで構成される。

また、付加的な様相によって、ピアノの鍵盤位置に沿った音を再生する仮想ピアノ楽器部２３０をさらに含んで構成することもできる。

前記編集機能を行うために、ユーザーのクライアント端末機には、図５に示したように、本発明のシステムを活用するための製作プログラムが搭載される。

このとき、前記製作プログラムには、ユーザーが歌詞を編集できる歌詞編集領域４１０、背景音楽を編集できる背景音楽編集領域４２０、ユーザーがピアノの鍵盤を操作できる仮想ピアノ楽器領域４３０、ユーザーがボーカルエフェクトを編集できるボーカルエフェクト編集領域４４０、歌手或いはトラックを編集できる歌手設定領域４５０、ユーザーがファイル、編集、オーディオ、表示、作業、トラック、歌詞、設定、唱法、ヘルプなどを選択できる設定領域４６０が含まれ、これらが画面に出力されると、ユーザーは所望の編集を行えるようになる。

前記歌詞編集領域４１０は、言語の最小単位（音節）を入力することができ、各音節の音を表示し、発音記号を表示する。

また、前記歌詞編集領域４１０は、各音節に該当する音階（Ｐｉｔｃｈ）、音長（Ｌｅｎｇｔｈ）の属性を有する。

前記背景音楽編集領域４２０は、ＷＡＶ、ＭＰ３などの従来の音源を入力して編集することができる。

前記仮想ピアノ楽器領域４３０は、ピアノ楽器に該当する機能を提供するもので、各ピアノの鍵盤位置に沿った音を再生することができる。

前記歌手設定領域４５０は、ボーカルに該当する歌手音源を選択することができ、多様なトラックを編集できる機能を提供し、多くの歌手を設定できる機能を行う。

前記設定領域４６０は、多様な歌の技法を設定できる唱法設定、編集基本単位音符、編集画面オプションなどを設定することができる。

前記各領域は、歌詞を編集する歌詞編集部２１０と、音源を編集する音源編集部２２０と、ボーカルエフェクトを編集するボーカルエフェクト編集部２４０と、ボーカルに該当する歌手音源を選択し、多くのトラックを編集する歌手及びトラック編集部２５０を通して提供され、前記編集部で編集された情報を中央制御部（図示せず）で獲得して音声合成伝送サーバーに送出する。

このとき、前記音声合成伝送サーバー３００は、
多数のクライアント端末機が同時に音声合成サーバーに接続して音声合成を要請できるように、クライアント端末機の音楽合成要請を順次的或いは並列的に管理するクライアント多重接続管理部３１０と、
制約されたネットワーク環境で効率的な音楽データを伝送するために音楽データを圧縮する音楽データ圧縮処理部３２０と、
クライアント端末機の音楽合成要請に応じて合成された音楽情報をクライアントに伝送する音楽データ伝送部３３０と、
移動通信社のベル音サービス、呼び出し音サービスに音声合成基盤の音楽コンテンツを提供するために音楽コンテンツを外部システムに伝達する付加サービスインターフェース処理部３４０とを含んで構成される。

前記クライアント多重接続管理部３１０は、多数のクライアント端末機が同時に音声合成サーバーに接続して音声合成を要請できるように、クライアント端末機の音楽合成要請を順次的或いは並列的に管理する機能を行う。

すなわち、前記クライアント多重接続管理部３１０は、クライアント端末機で接続される時間によって順次処理するための順序を管理する。

前記音楽データ圧縮処理部３２０は、制約されたネットワーク環境で効率的な音楽データを伝送するために音楽データを圧縮するためのもので、前記クライアント端末機で音楽合成要請データを受けて圧縮を行い、音声合成サーバーに圧縮を解くための復号化部が存在することは当然である。

以後、音楽データ伝送部３３０では、クライアント端末機の音楽合成要請に応じて合成された音楽情報をクライアントに伝送する。

また、音声合成サーバーで合成された音楽情報を再びクライアント端末機に送出するときにも、前記音楽データ伝送部を用いることは当然である。

一方、付加サービスインターフェース処理部３４０は、移動通信社のベル音サービス、呼び出し音サービスに音声合成基盤の音楽コンテンツを提供するために音楽コンテンツを外部システムに伝達する機能を行うが、各クライアントが創作した音楽コンテンツをオンラインで流通する役割をする。

前記外部システムは、本発明の音声合成サーバーで提供される音楽コンテンツを受けるためのシステムであって、例えば、ベル音サービスを提供する移動通信社サーバー、呼び出し音サービスを提供する移動通信社サーバーなどを意味する。

図３は、本発明の一実施例に係るクライアント端末機を用いた音楽コンテンツ製作システムの音声合成サーバーのブロック図である。

図３に示したように、本発明の音声合成サーバー１００は、
クライアント端末機から送出された歌詞、歌手、トラック、音階、音長、ビート、テンポ、音楽効果を獲得する音楽情報獲得部１１０と、
前記音楽情報獲得部によって獲得された歌詞の文章を分析し、これを言語的特性に応じて定義された形態に変換する構文分析部１２０と、
前記構文分析部によって分析されたデータを音素基盤に変換する発音変換部１３０と、
前記構文分析部及び発音変換部によって分析された歌詞に該当する最適音素を事前に定義された規則に従って選択する最適音素選択部１４０と、
前記音楽情報獲得部によって獲得された歌手情報を獲得し、前記最適音素選択部を通して選択された音素に該当する音源を音源データベースから選択することによって、前記の獲得された歌手情報の音源を選択する音源選択部１５０と、
歌詞の文章特性に応じて前記最適音素選択部によって選択された最適の音素を獲得し、最適の各音素をつなぎ合わせて合成するときに長さとピッチを制御する韻律制御部１６０と、
前記韻律制御部によって合成された歌詞の文章を獲得し、前記音楽情報獲得部によって獲得された音階、音長、ビート、テンポによって再生されるように獲得された歌詞の文章をマッチングさせる音声変換部１７０と、
前記音声変換部によって変換された音声を獲得し、前記音楽情報獲得部によって獲得された音楽効果によって再生されるように前記の変換された音声に音色をマッチングさせる音色変換部１８０と、
前記音楽情報獲得部によって獲得された背景音楽情報と前記音色変換部によって最終的に変換された音色を合成する歌及び背景音楽合成部１９０とを含んで構成される。

前記音楽情報獲得部１１０は、音楽再生のためにクライアント端末機から送出された歌詞、歌手、トラック、音階、音長、ビート、テンポ、音楽効果を獲得する。

すなわち、図５に示した文字音声合成を用いて音楽コンテンツを作業者が行えるように、音楽コンテンツ製作プログラムを本発明のクライアント端末機に搭載して画面に出力する。

前記歌詞、歌手、トラック、音階、音長、ビート、テンポ、音楽効果の情報などを音楽情報データベース１９５に格納して管理し、前記クライアントが選択した音楽再生に必要な情報を参照して音楽情報獲得部で音楽情報データベースに格納された該当の情報を獲得する。

音楽コンテンツの製作に必要な各種動作モードをユーザーが選択できるように製作プログラムをユーザーの端末機画面に出力し、ユーザーがこれを見て音楽再生のために入力された歌詞、歌手、トラック、音階、音長、ビート、テンポ、音楽効果、唱法などを選択すると、該当の選択された情報が音声合成サーバーに送出されて音楽情報獲得部１１０で獲得される。

このとき、前記音楽情報獲得部によって獲得された歌詞の文章を構文分析部１２０を通して分析し、これを言語的特性に応じて定義された形態に変換する。

前記言語的特性とは、韓国語の場合、構文が主語、目的語、動詞、助詞、副詞などからなり、羅列する順序があるが、これを言語的特性と定義しており、英語や日本語などの全ての言語がこのような特性を有している。

前記の定義された形態は言語の形態素で区分することを意味し、形態素は、言語において意味を有する最小の単位である。

例えば、‘ドンヘムルグァベクドゥサンイ（東海水と白頭山が）’という文章は、‘ドンヘムル（東海水）’＋‘グァ（と）’＋‘ベクドゥサン（白頭山）’＋‘イ（が）’のような形態素で区分される。

前記形態素で区分した後、文章成分を分析するが、例えば、‘ドンヘムル（東海水）’＝名詞、‘グァ（と）’＝助詞、‘ベクドゥサン（白頭山）’＝名詞、‘イ（が）’＝助詞などのように、名詞、助詞、副詞、形容詞、動詞などに文章成分を分析する。

すなわち、選択された歌詞が韓国語であれば、韓国語の特性に応じて定義された形態に変換する。

前記構文分析部によって分析されたデータを発音変換部１３０から受けて音素基盤に変換し、最適音素選択部１４０を通して前記構文分析部及び発音変換部によって分析された歌詞に該当する最適音素を事前に定義された規則に従って選択する。

前記発音変換部は音素基盤に変換し、構文分析された文章をハングル読み規則に従って発音形態に変換する。

例えば、‘ドンヘムルグァベクドゥサンイ（東海水と白頭山が）’は、‘ドンヘムルガベクトゥサニ’のように表現され、これを音素基盤に区分すると、‘ドンヘムルグァ（東海水と）’は、‘ド＋オン＋Ｏヘ＋ウム＋ムル＋ウルガ’のように変換される。

分析された歌詞が‘ドンヘムル（東海水）’である場合、最適音素は、例えば、ド、オン、Ｏヘ、エム、ムル、ウルガなどになり、前記最適音素選択部１４０がこれを選択する。

前記音源選択部１５０は、音楽情報獲得部によって獲得された歌手情報を獲得し、前記最適音素選択部を通して選択された音素に該当する音源を音源データベース１９６から選択することによって、前記の獲得された歌手情報の音源を選択する。

すなわち、歌手として‘ソニョシデ（少女時代）’を選択すると、‘ソニョシデ（少女時代）’に該当する音源を音源ＤＢから選択する。

歌手情報以外にトラック情報を提供することもできるので、ユーザーが歌手以外にトラックを選択した場合、該当のトラック情報提供も可能である。

前記韻律制御部１６０は、歌詞の文章特性に応じて前記最適音素選択部によって選択された最適の音素を獲得し、自然な発声を出せるように最適の各音素をつなぎ合わせて合成するときに長さとピッチを制御する。

前記文章特性は、連音法則、口蓋音化などの文章を発音に変換するときに適用される法則、すなわち、文字で表現する表現記号と発音記号が変わる言語規則を意味する。

前記長さは、歌詞に該当する音長、すなわち、１、２、３拍子の長さを意味し、ピッチは、歌詞の音階、すなわち、‘ドレミファソラシド'などの音楽で定義した音の高さを意味する。

すなわち、前記韻律制御部１６０は、文章の特性に応じて自然な発声を出せるように音素をつなぎ合わせて合成するときに長さとピッチを制御する役割をする。

前記音声変換部１７０は、韻律制御部によって合成された歌詞の文章を獲得し、前記音楽情報獲得部によって獲得された音階、音長、ビート、テンポによって再生されるように獲得された歌詞の文章をマッチングさせる役割をする。

すなわち、前記音声変換部１７０は、歌詞に該当する音源を音階、音長、ビート、テンポによって音声に変換する機能を行うが、例えば、‘ドン'に該当する音源を‘ソ'という音階（ピッチ）、１拍子の音長、４／４拍子のビート、１２０のテンポで再生する。

前記音階（Ｐｉｔｃｈ）は、音の高さを意味し、音の高さをユーザーが容易に指定できるように、本発明では仮想ピアノ楽器機能を提供している。

前記音長は音の長さを意味し、音楽の楽譜のように音符を提供して音長の編集を容易にする。

基本的に提供する音符は、１分音符（１）、２分音符（１／２）、４分音符（１／４）、８分音符（１／８）、１６分音符（１／１６）、３２分音符（１／３２）、６４分音符（１／６４）である。

前記ビート（Ｂｅａｔ）は音楽での拍子の単位で、１／２拍子、１／４拍子、１／８拍子などがある。

分母に該当する数字は（１，２，４，８，１６，３２，６４）で、分子に該当する数字は（１〜２５６）である。

前記テンポ（Ｔｅｍｐｏ）は、音楽の楽曲進行速度を意味し、通常（２０〜３００）数字を提供し、数字が小さいほど遅い速度を意味し、数字が大きいほど速い速度を意味する。

通常、一拍子の長さの速度を１２０とする。

前記音色変換部１８０は、音声変換部によって変換された音声を獲得し、前記音楽情報獲得部によって獲得された音楽効果（ｖｏｃａｌｅｆｆｅｃｔ）或いは唱法によって再生されるように前記の変換された音声に音色をマッチングさせる役割をする。

例えば、‘ドン’という音源にバイブレーション、アタックなどの音楽効果を与えて音色に変化を与える。

前記音楽効果及び唱法は、音楽的効果を極大化させる機能を提供するためのもので、音楽効果は、人の自然な発声法を支援するための機能として次のように音色を変換させる。

図５に示したように、製作プログラムにおいては、ＶＥＬ（ｖｅｌｏｃｉｔｙ）、ＤＹＮ（ｄｙｎａｍｉｃｓ）、ＢＲＥ（Ｂｒｅａｔｈｉｎｅｓｓ）、ＢＲＩ（Ｂｒｉｇｈｔｎｅｓｓ）、ＣＬＥ（Ｃｌｅａｒｎｅｓｓ）、ＯＰＥ（Ｏｐｅｎｉｎｇ）、ＧＥＮ（ＧｅｎｄｅｒＦａｃｔｏｒ）、ＰＯＲ（ＰｏｒｔａｍｅｎｔｏＴｉｍｉｎｇ）、ＰＩＴ（ＰｉｔｃｈＢｅｎｄ）、ＰＢＳ（ＰｉｔｃｈＢｅｎｄＳｅｎｓｉｔｉｖｉｔｙ）、ＶＩＢ（Ｖｉｂｒａｔｉｏｎ）などをクライアント端末機に提供する。

前記ＶＥＬ（ｖｅｌｏｃｉｔｙ）は、アタックであって、値を高くすると子音が短くなり、アタック感が強くなる。前記ＤＹＮ（ｄｙｎａｍｉｃｓ）は、強弱であり歌手のダイナミックス（音の大きさ、柔らかさ）を制御する。

前記ＢＲＥ（Ｂｒｅａｔｈｉｎｅｓｓ）は、値が高いと息づかいが加えられることを意味し、ＢＲＩ（Ｂｒｉｇｈｔｎｅｓｓ）は、音が高い周波数成分を増減させるもので、値が高いと明るい音を提供し、値が低いと暗く且つ穏やかな音を提供する。

前記ＣＬＥ（Ｃｌｅａｒｎｅｓｓ）は、ＢＲＩと類似するが、原理が異なるもので、値が高いとシャープで且つ清い音を提供し、値が低いと低く且つ重い音を提供する。

前記ＯＰＥ（Ｏｐｅｎｉｎｇ）は、口を開く状態によってトーンが変わる様子をシミュレートするもので、値が高いと鮮明な特性を提供し、値が低いと清らかでない特性を提供する。

前記ＧＥＮ（ＧｅｎｄｅｒＦａｃｔｏｒ）は、歌手のキャラクターを広範囲に変形するもので、値が高いと男性的な感じを提供し、値が低いと女性的な感じを提供する。

前記ＰＯＲ（ＰｏｒｔａｍｅｎｔｏＴｉｍｉｎｇ）は、ピッチが変わるポイントを調整するもので、前記ＰＩＴ（ＰｉｔｃｈＢｅｎｄ）は、ピッチに対するＥＱバンドを調整するもので、前記ＰＢＳ（ＰｉｔｃｈＢｅｎｄＳｅｎｓｉｔｉｖｉｔｙ）は、ピッチ調整に対する感度や感性の調整を行い、前記ＶＩＢ（Ｖｉｂｒａｔｉｏｎ）は音の震えを調整する機能を行う。

唱法は、人の歌う方法を意味し、ボーカルの音源をボーカル音楽効果などの技法で加工して多様な唱法を具現する。

例えば、唱法は、女性の声、男性の声、子供の声、ロボットの声、ポップ、クラシック、トロット（韓国の大衆歌謡の一つ）などの歌の技法を提供する。

また、音楽情報獲得部によって獲得された背景音楽情報と前記音色変換部によって最終的に変換された音色を合成する歌及び背景音楽合成部１９０を含んで構成される。

例えば、‘ドンヘムルグァベクドゥサンイ（東海水と白頭山が）’という音源を再生させるとき、該当の歌の背景音楽（通常、楽器で演奏される音楽）を合成する。

すなわち、前記の変換された最終音色に背景音楽を合成し、完成した形態の音楽を出力する。

前記のような音楽情報を獲得するための音楽情報獲得部１１０は、
歌詞情報を獲得する歌詞情報獲得部（図示せず）と、
音源データベースに格納された背景音楽音源から選ばれた背景音楽音源情報を獲得する背景音楽情報獲得部（図示せず）と、
ユーザーによって調節されたボーカルエフェクト情報を獲得するボーカルエフェクト獲得部（図示せず）と、
歌手情報を獲得する歌手情報獲得部（図示せず）とを含んで構成される。

また、付加的な様相によって、画面に出力された仮想ピアノ楽器でユーザーによって選択されたピアノの鍵盤位置情報を獲得するピアノ鍵盤位置獲得部（図示せず）をさらに含んで構成することもできる。

前記のピアノの鍵盤位置情報は、ピアノ楽器に該当する各鍵盤の音の高さ（ピッチ）に該当する周波数を予め定義して提供する。

前記のような構成及び動作を通して誰もが容易に音楽コンテンツをモバイル環境で編集できれば、音楽コンテンツを音楽用音声に合成して再びユーザーに提供することによって、個人が創作したコンテンツをオンライン、オフラインで流通することができ、携帯電話でベル音、呼び出し音（ＲＢＴ、ＲｉｎｇＢａｃｋＴｏｎｅ）などの音楽コンテンツ応用付加サービスに用いることができ、多様な形態の携帯用機器で音楽再生、音声案内に用いることができ、ＡＲＳ（自動応答システム）、ナビゲーション（地図案内装置）で人と似たイントネーションで音声案内サービスを提供することができ、人工知能ロボット装置で人と似たイントネーションで話し歌うことができるという効果を提供する。

以上説明した内容の本発明の属する技術分野の当業者は、本発明の技術的思想や必須特徴を変更せずとも他の具体的な形態で実施可能であることを理解できるだろう。従って、以上で記述した各実施例は、全ての面で例示的なものであって、限定的なものではないと理解しなければならない。

本発明の範囲は、前記詳細な説明よりは、後述する特許請求の範囲によって示されており、特許請求の範囲の意味及び範囲、そして、その等価概念から導出される全ての変更又は変形された形態が本発明の範囲に含まれると解釈しなければならない。

本発明は、誰もが容易に音楽コンテンツをモバイル環境で編集できれば、音楽コンテンツを音楽用音声に合成して再びユーザーに提供することによって、個人が創作したコンテンツをオンライン、オフラインで流通することができ、携帯電話でベル音、呼び出し音（ＲＢＴ、ＲｉｎｇＢａｃｋＴｏｎｅ）などの音楽コンテンツ応用付加サービスに用いることができ、音楽コンテンツ製作分野で広く活用することができる。

１００：音声合成サーバー、２００：クライアント端末機、３００：音声合成伝送サーバー

Claims

クライアント端末機を用いた音楽コンテンツ製作システムにおいて、
歌詞及び音源を編集し、ピアノの鍵盤位置に沿った音を再生させ、ボーカルエフェクトを編集したり、ボーカルに該当する歌手音源及びトラックを編集した音楽情報を音声合成サーバーに送出し、音声合成サーバーで合成及び加工された音楽を再生させるクライアント端末機と；
前記クライアント端末機から送出された音楽情報を獲得し、歌詞に該当する音源を抽出して合成及び加工する音声合成サーバーと；
前記音声合成サーバーから生成された音楽をクライアント端末機に送出する音声合成伝送サーバーと；
を含んで構成されることを特徴とするクライアント端末機を用いた音楽コンテンツ製作システム。
前記クライアント端末機は、
歌詞を編集する歌詞編集部と、
音源を編集する音源編集部と、
ボーカルエフェクトを編集するボーカルエフェクト編集部と、
ボーカルに該当する歌手音源を選択し、多くのトラックを編集する歌手及びトラック編集部と、
音声合成伝送サーバーから音声合成サーバーで合成された信号を受けて再生させる再生部と、を含んで構成されることを特徴とする、請求項１に記載のクライアント端末機を用いた音楽コンテンツ製作システム。
前記クライアント端末機は、
歌詞を編集する歌詞編集部と、
音源を編集する音源編集部と、
ピアノの鍵盤位置に沿った音を再生する仮想ピアノ楽器部と、
ボーカルエフェクトを編集するボーカルエフェクト編集部と、
ボーカルに該当する歌手音源を選択し、多くのトラックを編集する歌手及びトラック編集部と、
音声合成伝送サーバーから音声合成サーバーで合成された信号を受けて再生させる再生部と、を含んで構成されることを特徴とする、請求項１に記載のクライアント端末機を用いた音楽コンテンツ製作システム。
前記音声合成サーバーは、
クライアント端末機から送出された歌詞、歌手、トラック、音階、音長、ビート、テンポ、音楽効果を獲得する音楽情報獲得部と、
前記音楽情報獲得部によって獲得された歌詞の文章を分析し、これを言語的特性に応じて定義された形態に変換する構文分析部と、
前記構文分析部によって分析されたデータを音素基盤に変換する発音変換部と、
前記構文分析部及び発音変換部によって分析された歌詞に該当する最適音素を事前に定義された規則に従って選択する最適音素選択部と、
前記音楽情報獲得部によって獲得された歌手情報を獲得し、前記最適音素選択部を通して選択された音素に該当する音源を音源データベースから選択することによって、前記の獲得された歌手情報の音源を選択する音源選択部と、
歌詞の文章特性に応じて前記最適音素選択部によって選択された最適の音素を獲得し、最適の各音素をつなぎ合わせて合成するときに長さとピッチを制御する韻律制御部と、
前記韻律制御部によって合成された歌詞の文章を獲得し、前記音楽情報獲得部によって獲得された音階、音長、ビート、テンポによって再生されるように獲得された歌詞の文章をマッチングさせる音声変換部と、
前記音声変換部によって変換された音声を獲得し、前記音楽情報獲得部によって獲得された音楽効果によって再生されるように前記の変換された音声に音色をマッチングさせる音色変換部と、
前記音楽情報獲得部によって獲得された背景音楽情報と前記音色変換部によって最終的に変換された音色を合成する歌及び背景音楽合成部と、を含んで構成されることを特徴とする、請求項１に記載のクライアント端末機を用いた音楽コンテンツ製作システム。
前記音楽情報獲得部は、
歌詞情報を獲得する歌詞情報獲得部と、
音源データベースに格納された背景音楽音源から選ばれた背景音楽音源情報を獲得する背景音楽情報獲得部と、
ユーザーによって調節されたボーカルエフェクト情報を獲得するボーカルエフェクト獲得部と、
歌手情報を獲得する歌手情報獲得部と、を含んで構成されることを特徴とする、請求項４に記載のクライアント端末機を用いた音楽コンテンツ製作システム。
仮想ピアノ楽器でユーザーによって選択されたピアノの鍵盤位置情報を獲得するピアノ鍵盤位置獲得部をさらに含んで構成されることを特徴とする、請求項４に記載のクライアント端末機を用いた音楽コンテンツ製作システム。
前記音声合成伝送サーバーは、
多数のクライアント端末機が同時に音声合成サーバーに接続して音声合成を要請できるように、クライアント端末機の音楽合成要請を順次的或いは並列的に管理するクライアント多重接続管理部と、
制約されたネットワーク環境で効率的な音楽データを伝送するために音楽データを圧縮する音楽データ圧縮処理部と、
クライアント端末機の音楽合成要請に応じて合成された音楽情報をクライアントに伝送する音楽データ伝送部と、
移動通信社のベル音サービス、呼び出し音サービスに音声合成基盤の音楽コンテンツを提供するために音楽コンテンツを外部システムに伝達する付加サービスインターフェース処理部と、を含んで構成されることを特徴とする、請求項１に記載のクライアント端末機を用いた音楽コンテンツ製作システム。