JP2017156495A

JP2017156495A - 歌詞生成装置および歌詞生成方法

Info

Publication number: JP2017156495A
Application number: JP2016038787A
Authority: JP
Inventors: 山本　和彦; Kazuhiko Yamamoto; 山本　　和彦
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-03-01
Filing date: 2016-03-01
Publication date: 2017-09-07
Anticipated expiration: 2036-03-01
Also published as: JP6693176B2

Abstract

【課題】意味の有る歌詞を表す歌詞データを短時間で生成することが可能な歌詞生成装置および歌詞生成方法を提供する。【解決手段】参照部３１は、複数の歌詞断片を表す歌詞断片データ群、ならびに複数の歌詞断片に対応する音高変化およびリズムの少なくとも一方を音楽要素として表す音楽要素データ群を含む歌詞生成データベースを参照する。メロディ受付部３２は、メロディデータの入力を受け付ける。生成部３は、参照された歌詞生成データベースに基づいて、入力されたユーザメロディデータに対応するように歌詞生成データベースから複数の歌詞断片データを抽出することにより歌詞データを生成する。【選択図】図２

Description

本発明は、歌詞を生成する歌詞生成装置および歌詞生成方法に関する。

音声合成技術により歌唱音を合成する装置およびアプリケーションソフトが広く用いられている。非特許文献１記載のポケットミク（登録商標）においては、模擬的に設けられた鍵盤にスタイラスを接触させることによって音高を指定することができる。また、ボタンの操作によって「あ」、「い」、「う」、「え」および「お」のうち１つの文字を指定することができる。指定された音高および文字に基づいて歌唱音が合成され、その歌唱音が出力される。

"歌うキーボードポケット・ミク｜大人の科学.net"、［online］、株式会社学研プラス、［平成２８年２月２３日検索］、インターネット＜ＵＲＬ：http://otonanokagaku.net/nsx39/＞

上記のような歌唱音の合成を行う場合、ユーザは、歌のメロディ（旋律）を表すメロディデータを即興的に入力することは可能である。一方、意味の有る歌詞を表す歌詞データを即興的に入力することは容易でない。上記のポケットミクでは、入力可能な文字が制限されており、意味の有る歌詞を入力することはできない。意味の有る歌詞を有する歌唱音を出力する場合、通常では、予め用意された歌詞データに基づいて歌唱音が合成される。

本発明の目的は、意味の有る歌詞を表す歌詞データを短時間で生成することが可能な歌詞生成装置および歌詞生成方法を提供することである。

本発明に係る歌詞生成装置は、時系列的に配置された複数の音の高さおよび長さを表すメロディデータの入力を受け付けるメロディ受付手段と、複数の歌詞断片を表す歌詞断片データ群、ならびに複数の歌詞断片に対応する音高変化およびリズムの少なくとも一方を音楽要素として表す音楽要素データ群を含むデータベースを参照する参照手段と、参照されるデータベースに基づいて、入力されたメロディデータに対応するようにデータベースから複数の歌詞断片データを抽出することにより歌詞データを生成する生成手段とを備える。

この歌詞生成装置においては、データベース内の歌詞断片データ群から複数の歌詞断片データが抽出されることにより、入力されたメロディデータに対応する歌詞データが生成される。この場合、生成される歌詞はデータベース内の歌詞断片の組み合わせからなるので、歌詞に意味が付与される。また、データベースにおいて各歌詞断片データに音楽要素が対応付けられているので、その音楽要素に基づいて、入力されたメロディデータに適合する歌詞断片データをデータベースから抽出することができる。さらに、ユーザがキーボード等を操作して歌詞データを入力する必要がないので、歌詞データの生成に要する時間を大幅に短縮することができる。したがって、意味の有る歌詞を表す歌詞データを短時間で生成することができる。

データベースは、歌詞断片データ群における各歌詞断片から他の歌詞断片への遷移確率を表す遷移情報をさらに含んでもよい。この場合、各歌詞断片から他の歌詞断片への遷移確率に基づいて歌詞断片データが抽出されるので、複数の歌詞断片のつながりに一定の規則性が生じる。それにより、これらの歌詞断片によって構成される歌詞に文章的な意味を付与することができる。

メロディ受付手段は、一定区間のメロディデータの入力を受け付け、生成手段は、入力されたメロディデータに基づいて歌詞データを更新し、歌詞生成装置は、入力されたメロディデータおよび生成された歌詞データに基づいて一定区間の歌唱音データを繰り返し合成する歌唱音データ合成手段と、合成された歌唱音データに基づいて一定区間の歌唱音を繰り返し出力する出力手段とをさらに備えてもよい。この場合、入力されたメロディデータに対応する歌唱音が繰り返し出力される。メロディデータが変更されると、変更後のメロディデータに基づいて歌詞データおよび歌唱音データが更新される。これにより、ユーザは、入力したメロディデータに対応する歌唱音を略リアルタイムで聴くことができ、直感的かつ即興的な楽曲創作を楽しむことができる。

本発明に係る歌詞生成方法は、時系列的に配置された複数の音の高さおよび長さを表すメロディデータの入力を受け付けるステップと、複数の歌詞断片を表す歌詞断片データ群、ならびに複数の歌詞断片に対応する音高変化およびリズムの少なくとも一方を音楽要素として表す音楽要素データ群を含むデータベースを参照するステップと、参照されるデータベースに基づいて、入力されたメロディデータに対応するようにデータベースから複数の歌詞断片データを抽出することにより歌詞データを生成するステップとを備える。

歌詞生成プログラムは、時系列的に配置された複数の音の高さおよび長さを表すメロディデータの入力を受け付けるステップと、複数の歌詞断片を表す歌詞断片データ群、ならびに複数の歌詞断片に対応する音高変化およびリズムの少なくとも一方を音楽要素として表す音楽要素データ群を含むデータベースを参照するステップと、参照されるデータベースに基づいて、入力されたメロディデータに対応するようにデータベースから複数の歌詞断片データを抽出することにより歌詞データを生成するステップとを、コンピュータに実行させる。

この歌詞生成方法および歌詞生成プログラムによれば、生成される歌詞はデータベース内の歌詞断片の組み合わせからなるので、歌詞に意味が付与される。また、ユーザがキーボード等を操作して歌詞データを入力する必要がないので、歌詞データの生成に要する時間を大幅に短縮することができる。したがって、意味の有る歌詞を表す歌詞データを短時間で生成することができる。

本発明によれば、意味の有る歌詞を表す歌詞データを短時間で生成することが可能となる。

本発明の実施の形態に係る歌詞生成装置を含む電子音楽装置の構成を示すブロック図である。歌詞生成装置の機能的な構成を示すブロック図である。歌詞生成データベースについて説明するための図である。歌詞データの生成例について説明するための図である。ユーザメロディデータの入力と生成される歌詞データとの関係について説明するための図である。歌詞生成処理の一例を示すフローチャートである。

以下、本発明の実施の形態に係る歌詞生成装置および歌詞生成方法について図面を用いて詳細に説明する。

（１）電子音楽装置の構成
図１は本発明の実施の形態に係る歌詞生成装置を含む電子音楽装置の構成を示すブロック図である。図１の電子音楽装置１は、演奏操作子２、設定操作子４および表示部６を備える。演奏操作子２、設定操作子４および表示部６はバス１９に接続される。演奏操作子２は、例えば、キーパッドまたは鍵盤等からなる。ユーザが演奏操作子２を操作することにより、メロディデータが入力される。メロディデータは、時系列的に配置された複数の音の高さ（音高）および長さ（音価）を表し、例えばＭＩＤＩ（Musical Instrument Digital Interface）データからなる。以下、ユーザにより入力されるメロディデータをユーザメロディデータと呼ぶ。設定操作子４は、例えばオンオフ操作されるスイッチからなり、各種設定を行うために用いられる。表示部６は、例えば液晶ディスプレイを含み、演奏または設定等に関する各種情報を表示する。表示部６がタッチパネルディスプレイにより構成されてもよい。

電子音楽装置１は、ＲＡＭ（ランダムアクセスメモリ）９、ＲＯＭ（リードオンリメモリ）１０、ＣＰＵ（中央演算処理装置）１１、タイマ１２、記憶装置１３、通信Ｉ／Ｆ（インタフェース）１４および音声出力部１６をさらに備える。ＲＡＭ９、ＲＯＭ１０、ＣＰＵ１１、記憶装置１３および音声出力部１６はバス１９に接続され、タイマ１２はＣＰＵ１１に接続される。外部記憶装置１５等の外部機器が通信Ｉ／Ｆ１４を介してバス１９に接続されてもよい。ＲＡＭ９、ＲＯＭ１０、ＣＰＵ１１およびタイマ１２がコンピュータを構成する。

ＲＡＭ９は、例えば揮発性メモリからなり、ＣＰＵ１１の作業領域として用いられるとともに、各種データを一時的に記憶する。ＲＯＭ１０は、例えば不揮発性メモリからなり、システムプログラム、歌詞生成プログラム等のコンピュータプログラムを記憶する。ＣＰＵ１１は、ＲＯＭ１０に記憶された歌詞生成プログラムをＲＡＭ９上で実行することにより後述する歌詞生成処理を行う。また、ＣＰＵ１１は、音声合成技術により歌唱音データを生成する。タイマ１２は、時間情報をＣＰＵ１１に与える。

記憶装置１３は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含む。記憶装置１３には、ユーザメロディデータが記憶されるとともに、歌唱音の合成に用いられる音声素片データ群が記憶される。音声素片データ群は、種々の音声素片のサンプリング波形を表す複数の音声素片データを含む。上記の歌詞生成プログラムが記憶装置１３に記憶されてもよい。外部記憶装置１５は、記憶装置１３と同様に、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含む。ユーザメロディデータ、音声素片データ群および歌詞生成プログラムが外部記憶装置１５に記憶されてもよい。

通信Ｉ／Ｆ１４は、通信網（インターネット）ＩＮＴに接続される。通信網ＩＮＴには、歌詞生成データベースを記憶するサーバ５０が接続されている。後述のように、ＣＰＵ１１は、通信網ＩＮＴを介してサーバ５０に記憶された歌詞生成データベースを参照する。歌詞生成データベースの詳細については後述する。

歌詞生成プログラムは、コンピュータが読み取り可能な記録媒体に格納された形態で提供され、ＲＯＭ１０または記憶装置１３にインストールされてもよい。また、通信網ＩＮＴに接続されたサーバ（サーバ５０または他のサーバ）から配信された歌詞生成プログラムが記憶装置１３にインストールされてもよい。同様に、音声素片データ群が、記憶媒体から取得されてもよく、通信網ＩＮＴに接続されたサーバから取得されてもよい。

音声出力部１６は、デジタルアナログ（Ｄ／Ａ）変換回路、増幅器およびスピーカを含み、合成された歌唱音データに基づく歌唱音を出力する。電子音楽装置１において、主として演奏操作子２、ＲＡＭ９、ＲＯＭ１０およびＣＰＵ１１が歌詞生成装置１００を構成する。

（２）電子音楽装置の機能的な構成
図２は歌詞生成装置１００の機能的な構成を示すブロック図である。図２に示すように、歌詞生成装置１００は、参照部３１、メロディ受付部３２、生成部３３、歌唱音データ合成部３４および出力制御部３５を含む。参照部３１は、後述の歌詞生成データベースを参照する。メロディ受付部３２は、図１の演奏操作子２によるユーザメロディデータの入力を受け付ける。生成部３３は、参照された歌詞生成データベースに基づいて、入力されたユーザメロディデータに対応するように歌詞生成データベースから複数の歌詞断片データを順に抽出することにより歌詞データを生成する。

歌唱音データ合成部３４は、ユーザメロディデータおよび生成された歌詞データに基づいて、音声合成技術により歌唱音データを合成する。具体的には、音声素片データ群から歌詞データに対応する複数の音声素片データが抽出され、ユーザメロディデータに対応するように各音声素片データの音高および時間長が調整される。それらの複数の音声素片データが連結されることにより、歌唱音データが合成される。出力制御部３８は、合成された歌唱音データに基づく歌唱音の出力を制御する。

図１のＣＰＵ１１がＲＯＭ１０または記憶装置１３に記憶された歌詞生成プログラムを実行することにより、参照部３１、メロディ受付部３２、生成部３３、歌唱音データ合成部３４、および出力制御部３５が実現される。これらの機能部は、電子回路等のハードウエアにより実現されてもよい。

（３）歌詞生成データベース
図３は、歌詞生成データベースについて説明するための図である。本例において、歌詞生成データベースＤＢは、複数の楽曲Ｍの歌詞データＭａおよびメロディデータＭｂから生成される。歌詞データＭａは楽曲の歌詞を表す。メロディデータＭｂは楽曲の歌唱パートのメロディを表し、例えばＭＩＤＩデータからなる。

例えば、各歌詞データＭａにより表される各楽曲の歌詞が複数の断片（以下、歌詞断片と呼ぶ。）に分割される。歌詞断片は、例えば形態素である。形態素は、言語上で意味をなす最小の単位であり、形態素解析によって求められる。また、各メロディデータＭｂにより表される各楽曲のメロディが、複数の歌詞断片にそれぞれ対応する複数の断片（以下、メロディ断片と呼ぶ。）に分割される。各メロディ断片のテンポは正規化される。正規化後のメロディ断片は、対応する歌詞断片の発音の音高変化（イントネーション）およびリズムとみなされる。

歌詞生成データベースＤＢは、歌詞断片データ群Ｇ１、メロディ断片データ群Ｇ２および遷移情報ＴＤを含む。歌詞断片データ群Ｇ１は、複数の歌詞断片を表す複数の歌詞断片データＷＦを含む。メロディ断片データ群Ｇ２は、正規化後の複数のメロディ断片を表す複数のメロディ断片データＭＦを含む。各歌詞断片を表す歌詞断片データＷＦは、その歌詞断片のメロディを表すメロディ断片データＭＦと対応している。また、各歌詞断片データＷＦには、対応するメロディ断片データＭＦから抽出されるメロディの特徴が音楽要素として対応付けられる。音楽要素は、音高変化およびリズムの少なくとも一方を含む。音楽要素として、音量変化等の他の音楽的な要素が用いられてもよい。また、楽曲における各歌詞断片の位置が、位置情報ＰＤとして各歌詞断片データＷＦと関連付けられる。位置情報ＰＤは、例えば、楽曲のフレーズの先頭、中間または最後等を表す。

各歌詞断片データＷＦに対応する音楽要素は、メロディ断片データＭＦから抽出されるのではなく、別途用意されてもよい。この場合、歌詞断片の発音のリズムの定義として、例えば、形態素に含まれる複数の有声音がそれぞれ拍とみなされ、複数の有声音のうちアクセントとなる有声音が強拍、その他の有声音が弱拍とみなされる。例えば、「ｖｏｃａｌｏｉｄ」（登録商標）という歌詞要素は、６つの有声音を有し、１つ目の有声音および４つ目の有声音がアクセントとなるので、強拍、弱拍、弱拍、強拍、弱拍および弱拍からなる６拍のリズムで表される。

遷移情報ＴＤは、歌詞断片データ群Ｇ１における各歌詞断片から他の歌詞断片への遷移確率を表す。遷移情報ＴＤとしては、例えば、音楽要素を観測変数とし、各歌詞要素および位置情報を潜在変数とした隠れマルコフモデルが用いられる。この場合、同じ歌詞断片は、同じ潜在変数として用いられる。また、隠れマルコフモデルの代わりに、ニューラルネットワーク等の他のモデルが用いられてもよい。

（４）歌詞生成
上記の歌詞生成データベースＤＢを参照して歌詞データが生成される。図４は、歌詞データの生成例について説明するための図である。図４の上部には、ユーザメロディデータの一例が示される。図４の上部において、横軸は時間位置を示し、縦軸は音高を示す。

ユーザメロディデータは、順に配置された音符（ノート）Ｎ１，Ｎ２，・・・，Ｎ１０を含む。ユーザメロディデータは、複数の音符列に分割される。例えば、隣り合う２つの音符の間隔（休符の長さ）が一定値以上である場合、その２つの音符の間に音符列の境界が設定される。図４のユーザメロディデータは、音符Ｎ１〜Ｎ４を含む音符列Ｄ１、音符Ｎ５〜Ｎ７を含む音符列Ｄ２および音符Ｎ８〜Ｎ１０を含む音符列Ｄ３に分割される。

まず、図３の歌詞生成データベースＤＢ内の歌詞断片データ群Ｇ１から、最初の音符列Ｄ１に割り当てられるべき歌詞断片データＷＦが歌詞断片データＷＦ１として抽出される。具体的には、音符列Ｄ１の音楽要素が抽出され、抽出された音楽要素と一致または類似する音楽要素に対応する歌詞断片データＷＦが歌詞断片データ群Ｇ１内で検索される。この場合、音楽要素として、音高変化、リズムおよび音量変化のうちいずれか１つのみが用いられてもよく、これらのうち２つまたは３つが組み合わされて用いられてもよい。検索により得られた歌詞断片データＷＦのうち、音符列Ｄ１の音楽要素との一致度が最も高い音楽要素に対応する歌詞断片データＷＦが、歌詞断片データＷＦ１として歌詞断片データ群Ｇ１から抽出される。

また、位置情報ＰＤを参照して、音符列Ｄ１と共通の位置（例えば、フレーズの先頭）にある複数の歌詞断片データＷＦが予め候補として特定され、特定された複数の歌詞断片データＷＦのうち、音符列Ｄ１の音楽要素との一致度が最も高い音楽要素に対応する歌詞断片データＷＦが歌詞断片データＷＦ１として抽出されてもよい。あるいは、複数の歌詞断片データＷＦが候補としてユーザに提示され、それら複数の歌詞断片データＷＦのうち、音符列Ｄ１に割り当てられるべき１つの歌詞断片データＷＦが歌詞断片データＷＦ１としてユーザにより選択されてもよい。この場合、候補の歌詞断片データＷＦには、例えば、音符列Ｄ１の音楽要素と一定以上の類似性を有する音楽要素に対応する歌詞断片データＷＦが該当する。

続いて、遷移情報ＴＤに基づいて、歌詞生成データベースＤＢ内の歌詞断片データ群Ｇ１から次の音符列Ｄ２に割り当てられるべき歌詞断片データＷＦが歌詞断片データＷＦ２として抽出される。具体的には、音符列Ｄ２の音楽要素が抽出され、抽出された音楽要素と一致または類似する音楽要素に対応する歌詞断片データＷＦが歌詞断片データ群Ｇ１内で検索される。検索により得られた歌詞断片データＷＦのうち、音符列Ｄ２の音楽要素との一致度および歌詞断片データＷＦ１からの遷移確率に基づいて、１つの歌詞断片データＷＦが選択される。例えば、検索により得られた歌詞断片データＷＦのうち、歌詞断片データＷＦ１からの遷移確率が最も高い歌詞断片データＷＦが選択される。あるいは、検索により得られた各歌詞断片データＷＦに関して、音楽要素の一致度および遷移確率の各々に対する評価値が算出され、算出された評価値の合計が最も高い歌詞断片データＷＦが選択されてもよい。選択された歌詞断片データＷＦが歌詞断片データＷＦ２として歌詞断片データ群Ｇ１から抽出される。

同様にして、遷移情報ＴＤに基づいて、歌詞生成データベースＤＢ内の歌詞断片データ群Ｇ１から次の音符列Ｄ３に割り当てられるべき歌詞断片データＷＦが歌詞断片データＷＦ３として抽出される。具体的には、音符列Ｄ３の音楽要素が抽出され、抽出された音楽要素と一致または類似する音楽要素に対応する歌詞断片データＷＦが歌詞断片データ群Ｇ１内で検索される。検索により得られた歌詞断片データＷＦのうち、音符列Ｄ３の音楽要素との一致度および歌詞断片データＷＦ２からの遷移確率に基づいて、１つの歌詞断片データＷＦが選択される。選択された歌詞断片データＷＦが歌詞断片データＷＦ３として歌詞断片データ群Ｇ１から抽出される。

音符列Ｄ２，Ｄ３に割り当てられるべき歌詞断片データＷＦ２，ＷＦ３の抽出の際にも、候補として複数の歌詞断片データＷＦがユーザに提示され、そのうちの１つの歌詞断片データＷＦがユーザにより選択されてもよい。また、位置情報ＰＤを参照して、対象の音符列と共通の位置にある歌詞断片データＷＦが予め候補として特定されてもよい。このようにして、ユーザメロディデータの各音符列に割り当てられる歌詞断片データＷＦ１〜ＷＦ３が、歌詞生成データベースＤＢから順次抽出される。抽出された複数の歌詞断片データＷＦ１〜ＷＦ３が連結されることにより、ユーザメロディデータに対応する歌詞データが生成される。生成された歌詞データにより表される歌詞が図１の表示部６により表示されてもよい。また、入力されたユーザメロディデータにより表されるメロディ（音符）が歌詞とともに表示されてもよい。

（５）リアルタイム入力
本例では、ユーザが、制作すべき楽曲の少なくとも一部の区間を指定する。以下、指定された区間を指定区間と呼ぶ。指定区間は、例えば１または複数の小節である。指定区間のメロディデータの入力がリアルタイムで繰り返し受け付けられる。具体的には、指定区間の長さ（例えば小節数）およびユーザにより指定されたテンポに基づいて、１回の受付期間の長さ（時間長）が決まる。ユーザが所定の操作（例えばスタートボタンの押下）を行うことにより最初の受付期間が開始され、１回の受付期間が終了すると、次の受付期間が開始される。受付期間にユーザが図２の演奏操作子２を操作して演奏を行うと、その演奏内容がユーザメロディデータとして入力される。１回の受付期間の終了毎に、ユーザメロディデータに基づいて、歌詞データの生成および歌唱音データの合成が行われる。合成された歌唱音データに基づいて、次の受付期間に歌唱音が出力される。受付期間には、ドラム音またはメトロノーム音等のビートを表す音（以下、ビート音と呼ぶ。）が出力されてもよい。また、予めコードが入力され、そのコードに基づいて自動生成された伴奏音が出力されてもよい。

図５は、ユーザメロディデータの入力と生成される歌詞データとの関係について説明するための図である。図５には、３回の受付期間Ｌ１，Ｌ２，Ｌ３における歌唱音、歌詞断片データおよびユーザメロディデータが示される。図５において、横軸は時間を表し、ユーザメロディデータの縦軸は音高を表す。最初の受付期間Ｌ１においては、歌詞データおよび歌唱音データが生成されていないので、歌唱音が出力されない。

受付期間Ｌ１に、ユーザメロディデータとして、音符Ｎ１１，Ｎ１２，・・・，Ｎ１９が入力される。受付期間Ｌ１が終了すると、音符Ｎ１１〜Ｎ１３、音符Ｎ１４〜Ｎ１６、および音符Ｎ１７〜Ｎ１９にそれぞれ割り当てられるべき歌詞断片データＷＦ１１，ＷＦ１２，ＷＦ１３が抽出される。抽出された歌詞断片データＷＦ１１〜ＷＦ１３から歌詞データが生成され、ユーザメロディデータ（音符Ｎ１１〜Ｎ１９）および生成された歌詞データに基づいて歌唱音データが合成される。

受付期間Ｌ２には、受付期間Ｌ１の終了時点で合成された歌唱音データに基づいて歌唱音ＶＰ１が出力される。また、受付期間Ｌ２において、ユーザメロディデータとして、音符Ｎ１６と音符Ｎ１７との間に音符Ｎ２０が追加される。受付期間Ｌ２が終了すると、ユーザメロディデータに基づいて歌詞断片データが再度抽出され、歌詞データが更新される。具体的には、音符Ｎ１１〜Ｎ１３、音符Ｎ１４，Ｎ１５、音符Ｎ１６，Ｎ２０，Ｎ１７および音符Ｎ１８，Ｎ１９にそれぞれ割り当てられるべき歌詞断片データＷＦ１１，ＷＦ１４，ＷＦ１５，ＷＦ１６が抽出される。この場合、ユーザメロディデータが変更されているため、受付期間Ｌ１の終了時点とは部分的に異なる歌詞断片データが抽出される。抽出された歌詞断片データＷＦ１１，ＷＦ１４〜ＷＦ１６から歌詞データが生成され、ユーザメロディデータ（音符Ｎ１１〜Ｎ２０）および生成された歌詞データに基づいて歌唱音データが合成される。

受付期間Ｌ３には、受付期間Ｌ２の終了時点で合成された歌唱音データに基づいて歌唱音ＶＰ２が出力される。また、受付期間Ｌ３において、メロディデータとして、音符Ｎ１７の音高が変更される。受付期間Ｌ３が終了すると、ユーザメロディデータの変更に応じて、音符Ｎ１１〜Ｎ１３、音符Ｎ１４，Ｎ１５および音符Ｎ１６，Ｎ２０，Ｎ１７〜Ｎ２０に割り当てられるべき歌詞断片データＷＦ１１，ＷＦ１４，ＷＦ１７がそれぞれ抽出される。抽出された歌詞断片データＷＦ１１，ＷＦ１４，ＷＦ１７から歌詞データが生成され、ユーザメロディデータ（音符Ｎ１１〜Ｎ２０）および生成された歌詞データに基づいて歌唱音データが合成される。

このように、ユーザメロディデータが変更されると、それに伴い歌詞データおよび歌唱音データも変更され、変更後の歌唱音データに基づく歌唱音が略リアルタイムで出力される。これにより、ユーザは、直感的かつ即興的な楽曲制作を楽しむことができる。

なお、本例のように、指定区間の歌唱音が繰り返し出力されるループ出力が行われる場合には、指定区間の最初の音符列に割り当てられるべき歌詞断片データは、指定区間の最後の音符列に割り当てられるべき歌詞断片データからの遷移確率に基づいて決定されてもよい。具体的には、受付期間Ｌ１の終了時点において、歌詞断片データＷＦ１１が、歌詞断片データＷＦ１３からの遷移確率に基づいて決定されてもよい。

（６）歌詞生成処理
図６は、図２の各機能部による歌詞生成処理の一例を示すフローチャートである。図６の歌詞生成処理は、図１のＣＰＵ１１がＲＯＭ１０または記憶装置１３に記憶された歌詞生成プログラムを実行することに行われる。

まず、メロディ受付部３２は、開始操作が行われたか否かを判定する（ステップＳ１）。例えば、図１の設定操作子４としてスタートボタンおよびストップボタンが設けられる。ユーザは、開始操作としてスタートボタンを操作し、停止操作としてストップボタンを操作する。開始操作が行われるまで、メロディ受付部３２はステップＳ１を繰り返す。開始操作が行われると、メロディ受付部３２は、図１のタイマ１２を起動するとともに（ステップＳ２）、ユーザメロディデータの受付を開始する（ステップＳ３）。また、本例では、出力制御部３５がビート音の出力を開始する（ステップＳ４）。

次に、メロディ受付部３２は、停止操作が行われたか否かを判定する（ステップＳ５）。停止操作が行われていない場合、メロディ受付部３２が、タイマ１２からの時間情報に基づいて、現在の受付期間の終了時点（指定区間の終了時点）が到来したか否かを判定する（ステップＳ６）。受付期間の終了時点が到来していない場合、メロディ受付部３２はステップＳ５に戻る。受付期間の終了時点が到来すると、タイマ１２がリセットされるとともに、参照部３１が、図１の通信網ＩＮＴを介して歌詞生成データベースＤＢを参照する（ステップＳ７）。次に、生成部３３が、ユーザメロディデータの各音符列に割り当てられるべき歌詞断片データＷＦを歌詞生成データベースＤＢから抽出する（ステップＳ８）。具体的には、図４の例のように、各音符列の音楽要素が抽出され、抽出された音楽要素と一致または類似する音楽要素に対応する歌詞断片データＷＦが歌詞生成データベースＤＢの歌詞断片データ群Ｇ１内で検索される。検索の結果に基づいて、ユーザメロディデータに適合する歌詞断片データＷＦが歌詞断片データ群Ｇ１から抽出される。生成部３３は、抽出された歌詞断片データＷＦを連結することにより歌詞データを生成する（ステップＳ９）。

次に、歌唱音データ合成部３４が、ユーザメロディデータおよび生成された歌詞データに基づいて歌唱音データを合成する（ステップＳ１０）。次に、出力制御部３５が、合成された歌唱音データに基づく歌唱音の出力を開始し（ステップＳ１１）、ステップＳ５に戻る。なお、ステップＳ７〜Ｓ１１の処理は、受付期間の終了時点で開始されるのではなく、受付期間の終了時点よりも一定時間前の時点で開始されてもよい。この場合、歌唱音データの合成に遅延が生じても、歌唱音の出力が途切れることが防止され、次の受付期間に歌唱音を適切に出力することができる。

ステップＳ５で停止操作が行われると、メロディ受付部３２は、タイマ１２を停止するとともに（ステップＳ１２）、メロディデータの受付を停止する（ステップＳ１３）。また、出力制御部３５が、ビート音および歌唱音の出力を停止する（ステップＳ１４）。これにより、歌詞生成処理が終了する。

（７）実施の形態の効果
本実施の形態に係る歌詞生成装置１００においては、歌詞生成データベースＤＢ内の歌詞断片データ群Ｇ１から複数の歌詞断片データＷＦが順に抽出されることにより、入力されたメロディデータに対応する歌詞データが生成される。この場合、生成される歌詞は、歌詞生成データベースＤＢ内の歌詞断片の組み合わせからなるので、歌詞に意味が付与される。また、歌詞生成データベースＤＢにおいて各歌詞断片データＷＦに音楽要素が対応付けられているので、その音楽要素に基づいて、入力されたメロディデータに適合する歌詞断片データＷＦを歌詞生成データベースＤＢから抽出することができる。さらに、ユーザがキーボード等を操作して歌詞データを入力する必要がないので、歌詞データの生成に要する時間を大幅に短縮することができる。したがって、意味の有る歌詞を表す歌詞データを短時間で生成することができる。

また、本実施の形態では、各歌詞断片から他の歌詞断片への遷移確率に基づいて歌詞断片データＷＦが抽出される。これにより、複数の歌詞断片のつながりに一定の規則性が生じる。それにより、これらの複数の歌詞断片によって構成される歌詞に文章的な意味を付与することができる。

また、本実施の形態では、メロディデータの一の音符列に割り当てられる歌詞断片が決定されると、その音符列からの遷移確率に基づいて次の音符列に割り当てられる歌詞断片が選択される。これにより、互いに近接した複数の音符の集合である音符列毎に歌詞断片が割り当てられるので、歌詞断片の途中でメロディが途切れる等の不自然な歌詞断片の割り当てが生じない。したがって、メロディデータと歌詞データとの適合性を高めることができる。

また、本実施の形態では、複数の楽曲の歌詞データおよびメロディデータから歌詞断片データ群Ｇ１およびメロディ断片データ群Ｇ２が生成される。この場合、既存の歌詞データおよびメロディデータを用いて歌詞データを生成することができ、効率良く質の高い歌詞データを生成することができる。

また、本実施の形態では、一定区間のメロディデータの入力が繰り返し受け付けられるとともに、入力されたメロディデータに基づいて歌詞データおよび歌唱音データが随時更新される。これにより、ユーザは、入力したメロディデータに対応する歌唱音を略リアルタイムで聴くことができる。したがって、効率良くメロディデータおよび歌詞データを生成することができるとともに、直感的かつ即興的な楽曲制作を楽しむことができる。

（８）他の実施の形態
（ａ）過去に生成された歌詞データにおける歌詞断片間の遷移確率が、過去情報として記憶されてもよい。例えば、歌詞データが更新される毎に、過去情報が更新される。この場合、歌詞生成データベースＤＢから歌詞断片データＷＦが抽出される際に、遷移情報に加えて過去情報が参照される。これにより、過去に生成された歌詞データと今後生成される歌詞データとの相関性を高めることができる。それにより、１つの曲を複数の区間に分けて歌詞データを生成する場合に、その複数の区間の全体にわたって文章的につながりの有る歌詞データを生成することができる。

（ｂ）上記実施の形態では、外部装置であるサーバ５０に記憶された歌詞生成データベースＤＢが参照されるが、歌詞生成データベースＤＢが記憶装置１３または外部記憶装置１５に記憶されてもよい。また、上記実施の形態では、入力されたユーザメロディデータおよび生成された歌詞データから歌唱音データが合成されるが、歌唱音データが合成されることなく、歌詞データが単独で出力されてもよい。

（ｃ）遷移確率が用いられることなく、ユーザメロディデータの音楽要素と一致または類似する音楽要素に対応する歌詞断片データが組み合わされることにより、歌詞データが生成されてもよい。この場合、複数の歌詞断片間のつながりに意外性が生じることがあり、歌詞に面白みが付与される。

（ｄ）図１の音声出力部１６は、歌詞生成装置１００に搭載されてもよく、歌詞生成装置１００の外部装置として設けられてもよい。歌詞生成装置１００は、電子音楽装置１に限らず、パーソナルコンピュータ、スマートデバイス（smart device）、ゲーム機器等の電子機器に適用されてもよい。

（９）請求項の各構成要素と実施の形態の各部との対応
以下、請求項の各構成要素と実施の形態の各部との対応の例について説明するが、本発明は下記の例に限定されない。請求項の各構成要素として、請求項に記載されている構成または機能を有する他の種々の要素を用いることができる。

上記実施の形態では、歌詞生成装置１００が歌詞生成装置の例であり、メロディ受付部３２がメロディ受付手段の例であり、参照部３１が参照手段の例であり、歌詞生成データベースＤＢがデータベースの例であり、生成部３３が生成手段の例であり、歌唱音データ合成部３４が歌唱音データ合成手段の例であり、出力制御部３８が出力手段の例である。

本発明は、歌詞の生成に用いられる種々の装置に有効に利用可能である。

１…電子音楽装置，２…演奏操作子，４…設定操作子，６…表示部，９…ＲＡＭ，１０…ＲＯＭ，１１…ＣＰＵ，１２…タイマ，１３…記憶装置，１６…音声出力部，１９…バス，５０…サーバ，３１…参照部，３２…メロディ受付部，３３…生成部，３４…歌唱音データ合成部，３５…出力制御部，１００…歌詞生成装置，ＩＮＴ…通信網

Claims

時系列的に配置された複数の音の高さおよび長さを表すメロディデータの入力を受け付けるメロディ受付手段と、
複数の歌詞断片を表す歌詞断片データ群、ならびに前記複数の歌詞断片に対応する音高変化およびリズムの少なくとも一方を音楽要素として表す音楽要素データ群を含むデータベースを参照する参照手段と、
参照されるデータベースに基づいて、入力されたメロディデータに対応するようにデータベースから複数の歌詞断片データを抽出することにより歌詞データを生成する生成手段とを備える、歌詞生成装置。
前記データベースは、前記歌詞断片データ群における各歌詞断片から他の歌詞断片への遷移確率を表す遷移情報をさらに含む、請求項１記載の歌詞生成装置。
前記メロディ受付手段は、一定区間のメロディデータの入力を受け付け、
前記生成手段は、入力されたメロディデータに基づいて歌詞データを更新し、
入力されたメロディデータおよび生成された歌詞データに基づいて前記一定区間の歌唱音データを繰り返し合成する歌唱音データ合成手段と、
合成された歌唱音データに基づいて前記一定区間の歌唱音を繰り返し出力する出力手段とをさらに備える、請求項１または２記載の歌詞生成装置。
時系列的に配置された複数の音の高さおよび長さを表すメロディデータの入力を受け付けるステップと、
複数の歌詞断片を表す歌詞断片データ群、ならびに前記複数の歌詞断片に対応する音高変化およびリズムの少なくとも一方を音楽要素として表す音楽要素データ群を含むデータベースを参照するステップと、
参照されるデータベースに基づいて、入力されたメロディデータに対応するようにデータベースから複数の歌詞断片データを抽出することにより歌詞データを生成するステップとを備える、歌詞生成方法。