JP6003115B2 - 歌唱合成用シーケンスデータ編集装置および歌唱合成用シーケンスデータ編集方法 - Google Patents

歌唱合成用シーケンスデータ編集装置および歌唱合成用シーケンスデータ編集方法 Download PDF

Info

Publication number
JP6003115B2
JP6003115B2 JP2012056633A JP2012056633A JP6003115B2 JP 6003115 B2 JP6003115 B2 JP 6003115B2 JP 2012056633 A JP2012056633 A JP 2012056633A JP 2012056633 A JP2012056633 A JP 2012056633A JP 6003115 B2 JP6003115 B2 JP 6003115B2
Authority
JP
Japan
Prior art keywords
lyrics
input
data
sequence
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012056633A
Other languages
English (en)
Other versions
JP2013190595A (ja
Inventor
英治 赤澤
英治 赤澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012056633A priority Critical patent/JP6003115B2/ja
Publication of JP2013190595A publication Critical patent/JP2013190595A/ja
Application granted granted Critical
Publication of JP6003115B2 publication Critical patent/JP6003115B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

この発明は、歌唱合成における歌詞の入力技術に関する。
歌唱音声を電気的に合成する歌唱合成技術において、合成対象の曲の歌詞をユーザに一括入力させ、楽曲のメロディを構成する一連の音符に割り当てることで、逐一音符に対応付けて歌詞を入力する手間を省く技術が提案されている(例えば、特許文献1参照)。
特開2002−82665号公報 特開2006−251451号公報 特開2008−233930号公報 特開2007−272242号公報
ところで、合成された歌唱音声の面白みや味わいを増すために、本来とは異なる発音で歌詞を発音させる場合がある。例えば、「おはよお」といった歌詞を「あはよお」と発音させる、といった具合である。しかし、歌詞の一括入力を行った場合にこのようなことを実現するには、本来の音とは異なる発音をさせる歌詞を探し出し、本来とは異なる発音を表す発音記号を直接指定するなどの編集作業を事後的に行わねばならず、甚だ面倒である。また、従来は、パーソナルコンピュータなどを用いて歌唱合成を行うことが一般的であったが、近年では、携帯型情報端末やプログラム実行機能を備えた携帯電話機の高性能化に伴い、これら携帯型コンピュータ装置を用いて歌唱合成を行うことも一般的になりつつある。しかし、この種の携帯型コンピュータ装置では、ユーザインタフェースに対する制約が大きく、発音記号の事後的な編集を行うための編集機能が設けられていない場合も多い。
本発明は以上に説明した課題に鑑みて為されたものであり、発音記号を逐一編集し直すといった事後的な編集作業を行うことなく、本来とは異なる発音で歌詞を発音させることが可能な歌唱合成技術を提供することを目的とする。
上記課題を解決するために本発明は、入力された歌詞を、音の並び(例えば、音符の並びにより表される音の並び)に割り当てて発音する音素の列に変換する手段であって、歌詞とともに発音記号が入力された場合、または歌詞に換えて発音記号が入力された場合に、当該発音記号を音素の列に変換する変換手段と、前記変換手段により得られた音素を、曲を構成する音の並びに割り当てて歌唱合成用のシーケンスデータを生成するシーケンスデータ生成手段と、を有することを特徴とする歌唱合成用シーケンスデータ編集装置、を提供する。なお、音素とは、単一の音、単一の音から他の単一の音への遷移部分の音、或いは無音からある単一の音(或いはその逆)の遷移部分の音など歌唱音声の素材となる音の単位のことを言う。
このような歌唱合成用シーケンスデータ編集装置によれば、歌詞を表す歌詞データ(例えば、日本語で歌詞が記述された楽曲であれば、平仮名や片仮名などの表音文字を表すデータ、英語で歌詞が記述された楽曲であれば、歌詞を構成する各単語の綴り(複数の音声に分割される単語であれば、ハイフンなどの区切り文字で音節単位に分割された綴り)を表すデータ)とともに(或いは、歌詞データに換えて)、当該歌詞データを対応付ける1つの音の発音態様を規定する文字列である発音記号を入力することで、当該歌詞をその発音記号により表される発音態様で発音させることが可能になる。このため、音の並びに割り当てる歌詞を一括入力する際に、本来とは異なる発音をさせることを所望する歌詞についてその発音態様を規定する発音記号を歌詞データとともに(或いは歌詞データに換えて)入力するようにすれば、事後的な編集を逐一行わなくても、本来とは異なる発音で歌詞を発音することを表す歌唱合成用シーケンスデータを生成することが可能になる。
なお、特許文献2には英語で歌詞が記述された楽曲について、複数の音節に分割される単語の綴りを、ハイフンを用いて音節単位に分割して入力することが記載されているが、当該綴りとともに(或いは綴りに換えて)発音記号を入力することでその発音態様の制御を行うことは記載も示唆もされておらず、本願発明とは全く異なる技術である。また、特許文献3には、歌詞に含まれる漢字または記号の読み仮名(或いはルビ)に括弧で囲むなどの修飾を付与して入力し、当該読み仮名(或いはルビ)にしたがって音声合成することが記載(特許文献3:段落0051)されている。しかし、特許文献3における読み仮名(或いはルビ)を構成する表音文字は、一文字ずつ一つの音(例えば、一つの音符により表される音)に対応するものではなく、本願発明における発音記号とは異なる。したがって、特許文献3に記載の技術も本願発明とは異なる技術である。
本発明に係る歌唱合成用シーケンスデータ編集装置に生成させる歌唱合成用シーケンスデータは、所謂歌唱合成用スコア(すなわち、楽曲を構成する各音符の音高(ピッチ)が各音符の発音順にマッピングされるピッチデータトラックと、ピッチデータトラックと時間軸を共有し各音符において発音する歌詞を構成する音素の列がマッピングされる音韻データトラックとからなるデータ)であっても良く、また、楽曲を構成する音符毎に、その音符の表す音に関する情報(すなわち、発音時刻、音符の長さ、ピッチ、音量およびベロシティ)と、当該音符に合わせて発音する歌詞(或いは、発音記号)とを対にして記述した構造化文書データ(例えば、XMLデータ)であっても良い。なお、ピッチデータトラックにマッピングされるピッチは、所謂12半音の何れかに限定される訳ではなく、自由なピッチ(ピッチカーブ)であっても良く、同様に歌詞を割り当てる音の並びも、音符により表される音(上記12半音の何れか音)の並びに限定されるものではない。
本発明に係る歌唱合成用シーケンスデータ編集装置に対して歌詞データとともに(或いは歌詞データに換えて)入力する発音記号としては、言語学等における一般的なものを用いても良く、一般ユーザにも判り易いように独自に定めたものを用いても良い。なお、本発明の別の態様としては、コンピュータを上記各手段として機能させるプログラムを提供する態様が考えられ、その提供態様としては、CD−ROM(Compact Disk-Read Only Memory)などのコンピュータ読み取り可能な記録媒体に書き込んで配布する態様や、インターネットなどの電気通信回線経由のダウンロードにより配布する態様が考えられる。
ここで、1つの音に対して歌詞データと発音記号の何れか一方が入力されたのか、それとも歌詞データと発音記号の両方が入力されたのかを上記変換手段に画一的に判別させることを実現するための態様としては種々の態様が考えられる。例えば、発音記号を表す文字列に対しては所定の区切り文字(例えば、括弧や引用符など)で区画する(囲む)などの修飾を付与して入力する態様や、歌詞データについては全角文字で表記する一方、発音記号については半角文字で表記するなど歌詞データと発音記号とで文字コードを異ならせる態様が考えられる。
また、所定の区切り文字で区画するといった修飾の付与で発音記号であることを明示する態様においては、カーソルを表示し、音の並びに対応付ける歌詞の一括入力を支援する入力支援手段を設け、前記変換手段には、所定の区切り文字により文字列が区画されている場合に当該文字列に前記所定の修飾が付与されていると判定させ、前記入力支援手段には、歌詞の一括入力の途中で歌詞の割当先となる音のうちの何れかが指定された場合には、当該指定された音に割り当てる歌詞の直後に前記所定の区切り文字を挿入し、さらに当該区切り文字の直後に前記カーソルを位置付ける処理を実行させるようにしても良い。このような態様によれば、歌詞の一括入力を行う際に区切り文字を入力する手間が省かれ、歌詞の一括入力作業の効率が向上する。
より好ましい態様としては、歌詞の割当先の音うち、歌詞に換えて発音記号が入力された音については、当該発音記号により発音が表される文字を当該音に割り当てる歌詞として表示する態様が考えられる。このような態様によれば、本発明の歌唱合成用シーケンスデータ編集装置により生成された歌唱合成用シーケンスデータをピアノロール形式のユーザインタフェース画面に表示させる際に、歌詞に換えて発音記号が入力された音についても歌詞の表示が行われる。
また、別の好ましい態様としては、歌詞と発音記号の少なくとも一方とともに音響効果の付与を指示する指示データが入力された場合には、当該指示データを入力された音に当該指示データの示す音響効果を付与して発音することを示すシーケンスデータを生成する処理をシーケンスデータ生成手段に実行させる態様が考えられる。例えば、歌詞を割り当てる音の並びを音符の並びにより表す場合、音響効果の付与を指示する指示データを入力された音符については、音に関する情報(例えば、ピッチ、音量およびベロシティの少なくとも1つ)を当該音響効果の内容に応じて調整しつつ歌唱合成用シーケンスデータをシーケンスデータ生成手段に生成させるのである。このような態様によれば、事後的な編集作業を行うことなく本来とは異なる発音で歌詞を発音させることが可能になることに加え、アクセントやビブラートの付与等の音響効果の付与のための編集作業を事後的に行う手間を省くことが可能になる。なお、特許文献4には、長い音符に割り付けられる歌詞部分に自動的にビブラートを付与して歌唱音声を合成する技術が記載されているが、ビブラートを付与する区間およびその長さをユーザが自由に指定することはできず、この点で本願発明とは全く異なる技術である。
この発明の一実施形態の歌唱合成用シーケンスデータ編集装置10を含む歌唱合成システム1の構成例を示す図である。 同歌唱合成用シーケンスデータ編集装置10が生成するシーケンスデータの一例を示す図である。 同歌唱合成用シーケンスデータ編集装置10の構成例を示す図である。 同歌唱合成用シーケンスデータ編集装置10の制御部110がユーザインタフェース部120の表示装置に表示させるユーザインタフェース画面の一例を示す図である。 同制御部110がユーザインタフェース部120の表示装置に表示させる歌詞一括入力画面の一例を示す図である。 本実施形態における歌詞の入力態様の一例を示す図である。
以下、図面を参照しつつ本発明の実施形態について説明する。
図1は本発明の一実施形態の歌唱合成用シーケンスデータ編集装置10を含む歌唱合成システム1の構成例を示すブロック図である。図1に示すように、この歌唱合成システム1は、歌唱合成用シーケンスデータ編集装置10の他に、歌唱合成エンジン20と歌手ライブラリ30とを含んでいる。歌唱合成用シーケンスデータ編集装置10は、所謂スコアエディタとして機能する装置である。歌唱合成用シーケンスデータ編集装置10は、歌唱音声の合成対象の曲を構成する音の並びを表すデータ(当該音の並びを音符の並びにより表現した場合には、各音符の発音時刻、音符の長さ、および音高(ピッチ)などを表す音符データ:なお、音符データには、これらの他に音量やベロシティが含まれていても良い)と、上記音の並びを構成する各音に合わせて発音する歌詞を表す歌詞データとを受け取り、上記音の並びを構成する各音の音高(ピッチ)と当該音に割り当てる歌詞を構成する1または複数の音素(以下、音素の列)とを音毎(音の並びを音符の並びにより表す場合には、音符毎)に対応付けて歌唱合成用のシーケンスデータ(以下、歌唱合成用シーケンスデータ)を生成し、歌唱合成エンジン20に与える。
本実施形態の歌唱合成用シーケンスデータ編集装置10は、上記歌唱合成用シーケンスデータとして、所謂歌唱合成用スコアを表すデータ(以下、当該データのことも歌唱合成用スコアと呼ぶ)を生成する。図2(A)は、歌唱合成用スコアのデータ構造の一例を示す図である。図2(A)に示すように、歌唱合成用スコアには、ピッチデータトラックと音韻データトラックとが含まれる。ピッチデータトラックと音韻データトラックは時間軸を同じくする時系列データである。ピッチデータトラックには、歌唱音声の合成対象の曲を構成する音の並びにおける各音のピッチがマッピングされる。例えば、上記音の並びが音符の並びにより表現されている場合には、歌唱合成用シーケンスデータ編集装置10は、各音符のピッチを当該音符の発音時刻および音符長に応じてピッチデータトラックにマッピングする。一方、音韻データトラックには歌詞データの示す歌詞を構成する音素の列がマッピングされる。より詳細に説明すると、歌唱合成用シーケンスデータ編集装置10は、各歌詞を構成する音素の列を当該歌詞に対応する音符の発音時刻および音符長に応じて音韻データトラックにマッピングする。これにより、楽曲を構成する音の並びを構成する各音に対して、当該音に合わせて発音する歌詞を構成する音素の列が割り当てられる。
歌唱合成エンジン20は、歌唱合成用スコアに含まれるピッチデータトラックと音韻データトラックとを同期再生して歌唱音声を表す歌唱合成データ(例えば、歌唱音声の音波形を表す波形データ)を生成する。より詳細に説明すると、歌唱合成エンジン20には歌手ライブラリ30が接続されており、歌手ライブラリ30には様々な声質の歌手の音声から切り出した様々な音素を表す素片データが多数格納されている。歌唱合成エンジン20は、歌唱合成用スコアの音韻データトラックにマッピングされた音素の各々に対応し、かつユーザにより指定された声質の音素を表す素片データを歌手ライブラリ30から読み出す素片選択処理、および素片選択処理により読み出した素片データに対してピッチデータトラックにて指定されたピッチとなるようにピッチ変換を施して周波数領域において結合する素片接続処理を実行して上記歌唱合成データを生成する。
本実施形態では、歌唱合成エンジン20に歌唱合成データを生成させるための歌唱合成用シーケンスデータとして図2(A)に示すデータ構造を有する歌唱合成用スコアを用いるが、図2(B)に示すように、楽曲を構成する音の並びを表す各音符の発音時刻、音符の長さ、音高、音量およびベロシティと、当該音符に合わせて発音する歌詞を構成する1または複数の音素と、を対にして記述したXML形式のデータを用いても勿論良い。図2(B)に示すXML形式のシーケンスデータでは、タグ<note>とタグ</note>により区画されたデータが1つの音符に対応する。タグ<note>とタグ</note>により区画されたデータのうち、タグ<posTick>とタグ</posTick>により区画されたデータは音符の発音時刻を、タグ<durTick>とタグ</durTick>により区画されたデータは音符の長さを、タグ<noteNum>とタグ</noteNum>により区画されたデータは音符の音高を各々表す。さらに、タグ<Lyric>とタグ</Lyric>により区画されたデータは音符に合わせて発音する歌詞を、タグ<phnms>とタグ</phnms>により区画されたデータは当該歌詞に対応する音素を各々表す。図2(A)に示す歌唱合成用スコアに換えて図2(B)に示すXMLデータを歌唱合成用シーケンスデータ編集装置10に生成させる場合には、歌唱合成エンジン20には当該XMLデータにしたがって歌唱合成データを生成する処理(或いは、XMLデータを歌唱合成用スコアに変換し、この歌唱合成用スコアにしたがって歌唱合成データを生成する処理)を実行させるようにすれば良い。
図1に示す歌唱合成システム1において、歌唱合成エンジン20と歌手ライブラリ30については従来の歌唱合成技術におけるものと特段に変るところはない。一方、歌唱合成用シーケンスデータ編集装置10は、前述した歌詞一括入力機能(すなわち、連続する複数の音符に対応付ける歌詞を一括して入力する機能)を備えていることに加えて、一括入力された歌詞に対して発音記号を編集し直すなどの事後的な編集作業を行わなくとも、本来とは異なる発音で歌詞を発音させることができるように構成されている。以下では、歌唱合成用シーケンスデータ編集装置10を中心に説明する。
図3は、歌唱合成用シーケンスデータ編集装置10の構成例を示す図である。図3に示すように、歌唱合成用シーケンスデータ編集装置10は、制御部110、ユーザインタフェース部120、外部機器インタフェース部130、記憶部140、およびこれら構成要素間のデータ授受を仲介するバス150を含んでいる。
制御部110は、例えばCPU(Central Processing Unit)である。この制御部110は、記憶部140に記憶されているシーケンスデータ編集プログラムを実行し、歌唱合成用シーケンスデータ編集装置10の制御中枢として機能する。シーケンスデータ編集プログラムにしたがって制御部110が実行する処理については後に明らかにする。
ユーザインタフェース部120は、歌唱合成用シーケンスデータ編集装置10をユーザに利用させるための各種ユーザインタフェースを提供する。このユーザインタフェース部120には、各種画面を表示するための表示部と、各種データや指示をユーザに入力させるための操作部とが含まれる。表示部は、液晶ディスプレイとその駆動回路により構成され、制御部110による制御の下、各種画面を表す画像を表示する。操作部は、テンキーやカーソルキーなどの多数の操作子を備えたキーボードと、マウスなどのポインティングデバイスとを含んでいる。操作部に対して何らかの操作が行われると、操作部はその操作内容を表すデータをバス150を介して制御部110に与える。これにより、ユーザの操作内容が制御部110に伝達される。
外部機器インタフェース部130は、USB(Universal Serial Bus)インタフェースやNIC(Network
Interface Card)などの各種入出力インタフェースの集合体であり、各種外部機器はそれら入出力インタフェースのうちの好適なものに接続される。例えば、歌唱合成用シーケンスデータ編集装置10に接続される外部機器がUSBメモリであれば当該USBメモリはUSBインタフェースに接続される、といった具合である。前述した歌唱合成エンジン20も、外部機器インタフェース部130に含まれる入出力インタフェースのうちの好適なものに接続される。例えば、LAN(Local Area Network)やインターネットなどの通信ネットワークに歌唱合成用シーケンスデータ編集装置10および歌唱合成エンジン20を接続して歌唱合成システム1を構成する場合には、当該通信ネットワークに接続されるNICが歌唱合成エンジン20とのデータの授受を行うための入出力インタフェースの役割を果たす。また、USBケーブルを用いて歌唱合成用シーケンスデータ編集装置10と歌唱合成エンジン20とを接続して歌唱合成システム1を構成する場合には、USBインタフェースが当該入出力インタフェースの役割を果たす。
記憶部140は、揮発性記憶部142と不揮発性記憶部144とを含んでいる。揮発性記憶部142は、例えばRAM(Random Access Memory)により構成されている。この揮発性記憶部142は、シーケンスデータ編集プログラムを実行する際のワークエリアとして制御部110によって利用される。また、シーケンスデータ編集プログラムにしたがって編集中の歌唱合成用スコアも揮発性記憶部142に格納される。不揮発性記憶部144は、例えばハードディスクやフラッシュメモリなどの不揮発性メモリにより構成されている。この不揮発性記憶部144には、シーケンスデータ編集プログラムを含む各種プログラムや、それらプログラムの実行過程で適宜参照(或いは更新)されるデータが格納されている。例えば、シーケンスデータ編集プログラムの実行過程で参照されるデータの一例としては、ピアノロール形式のユーザインタフェース画面を規定する画面フォーマットデータや、歌詞を表すものとして入力された歌詞データをその発音を表す発音記号に変換し、さらに当該発音記号を音素の列に変換するための変換辞書データが挙げられる(図3では、何れも図示略)。
不揮発性記憶部144に記憶されているシーケンスデータ編集プログラムは、歌唱音声の合成対象の楽曲を構成する音符およびその歌詞を表すデータの入力を促す入力支援処理SA100、変換処理SA110、およびシーケンスデータ生成処理SA120の各処理を制御部110に実行させるためのプログラムである。換言すれば、制御部110は、シーケンスデータ編集プログラムにしたがって作動することにより、入力支援処理SA100を実行する入力支援手段、変換処理SA110を実行する変換手段、およびシーケンスデータ生成処理SA120を実行するシーケンスデータ生成手段として機能する。
入力支援処理SA100とシーケンスデータ生成処理SA120は、従来の歌唱合成システムにおけるものと特段に変るところはない。具体的には、この入力支援処理SA100では、制御部110は、図4に示すピアノロール形式のユーザインタフェース画面をユーザインタフェース部120の表示部に表示させ、歌唱音声の合成対象の楽曲を構成する音符、および各音符に合わせて発音する歌詞を表すデータの入力を促す。図4に示すユーザインタフェース画面を視認したユーザは、ユーザインタフェース部120の操作部を操作してピッチ軸と時間軸の交差に対応する矩形領域を選択することで音符を入力することができる。また、ユーザは、このようにして入力した音符(図4では、ハッチングにより音符を明示)に対して、当該音符に対応付ける歌詞を表すデータを入力することもできる。シーケンスデータ生成処理SA120は、ユーザにより入力された各音符のピッチをピッチデータトラックにマッピングするとともに、歌詞を表すデータに基づいて変換処理SA110において発生させた音素の列を音韻データトラックにマッピングして歌唱合成用スコアを生成する処理である。
また、本実施形態の入力支援処理SA100では、連続する複数の音符(本実施形態では、4個の音符)をマウスクリック等によりユーザに指定させ、各音符に対応付ける歌詞を表すデータを一括して入力させるユーザインタフェースも提供される。ここで、連続する複数の音符の指定の仕方については種々の態様が考えられる。例えば、マウスのクリックアンドドラッグ等による範囲選択により連続する複数の音符を指定する態様(すなわち、選択された範囲に属する音符を一括入力する歌詞の対応付け先とみなす態様)が考えられる。また、本実施形態のように、歌詞の一括入力が可能な音符の数が予め決められている場合には、一括入力する歌詞を対応付ける一連の音符のうちの先頭のものをマウスクリックにより指定させる態様であっても良い。
歌詞一括入力の実行を指示された制御部110は、図5に示す歌詞一括入力画面を表示部に表示させ、歌詞を表すデータの一括入力を促す。図5に示す歌詞一括入力画面を視認したユーザは、ユーザインタフェース部120の操作部を操作することで各音符に対応付ける歌詞を表す文字列を入力領域A1に書き連ね、入力ボタンB1をマウスクリック等することでそれらの歌詞を一括入力することができる。なお、図5においてカーソルC1は歌詞を表す文字列の入力開始位置を示す。また、ユーザはキャンセルボタンB2をマウスクリックすることにより歌詞一括入力をキャンセルすることもできる。本実施形態では、連続する4個の音符に対応づける歌詞を一括入力する場合について説明するが、2または3個の連続する音符に対応付ける歌詞を一括入力してもよく、また、5個以上(例えば1コーラス分や1曲分など)の音符に対応付ける歌詞を一括入力しても良い。
本実施形態では、歌詞を表すデータとして、当該歌詞を表音文字(本実施形態では、平仮名)で表記した歌詞データと、当該歌詞データおよび当該歌詞データの表す歌詞の発音を規定する発音制御データ(本実施形態では、括弧などの所定の区切り文字により囲まれた発音記号)の組み合わせの何れかを用いることができる。なお、発音制御データを構成する発音記号に対して所定の区切り文字で囲うといった修飾を付与するのは、発音記号であるのかそれとも歌詞データであるのかを制御部110が一意に判別できるようにするためである。
変換処理SA110は、ピアノロール形式の入力画面或いは歌詞一括入力画面を介して入力された各歌詞を、音符に合わせて発音する音素の列に変換する処理である。より詳細に説明すると、この変換処理SA110では、制御部110は、歌詞を表すデータとして歌詞データのみが入力された歌詞については、前述した変換辞書データを用いて当該歌詞データを発音記号に変換し、さらに当該発音記号を音素の列に変換する。これに対して、歌詞を表す歌詞データとともに発音制御データを入力された歌詞については、当該発音制御データに含まれる発音記号を音素の列に変換する。
例えば、図4の音符S1〜S4が対応付け先の音符として指定され、図6(A)に示すように、歌詞を表すデータとして「おはよお」といった歌詞データのみからなるデータ列が一括入力された場合には、制御部110は、音符S1には歌詞データ「お」を、音符S2には歌詞データ「は」を、音符S3には歌詞データ「よ」を、音符S4には歌詞データ「お」を対応付ける。図6(A)に示す例では、各音符に対応付ける歌詞が歌詞データのみで表されているため、制御部110は、各音符に対応付けた歌詞データの表す表音文字を変換辞書データにしたがって発音記号(図6(A)に示す例では、当該発音記号を丸括弧で明示)に変換し、さらに当該発音記号を音素の列に変換する。
これに対して、図6(B)に示すように、「お[a]はよお」といった具合に歌詞データと発音制御データとの組を含むデータ列が一括入力された場合には、制御部110は、音符S1には歌詞データと発音制御データの組「お[a]」を対応付け、以降、音符S2には歌詞データ「は」を、音符S3には歌詞データ「よ」を、音符S4には歌詞データ「お」を対応付ける。そして、制御部110は、音符S1に合わせて発音する歌詞については当該歌詞を表すデータに発音制御データ(すなわち、発音記号)が含まれているため、当該発音記号に基づいて音素の列を発生させる。一方、音符S2〜S4については図6(A)に示した場合と同様に、制御部110は当該音符に対応する歌詞データに基づいて音素の列を発生させる。
つまり、本実施形態の歌唱合成用シーケンスデータ編集装置10によれば、図6(B)に示すように、歌詞を表すデータ列として「お[a]はよお」が一括入力されると、本来の歌詞とは異なる「あはよう」という発音の歌唱音声を歌唱合成エンジン20に生成させる歌唱合成用スコアが生成される。以上説明したように本実施形態によれば、本来の発音を表す表音文字とともに所望の発音態様を表す発音制御データを付与しつつ入力することで、事後的な編集作業を行わなくても、本来とは異なる発音で歌詞を発音させることが可能になる。
また、歌唱合成においては、歌詞から音素への変換の際に誤変換が発生することを回避する目的で、歌詞入力の際に歌唱合成特有の置き換えが行われることが多い。このような歌唱合成特有の置き換えの一例としては、主語を意味する格助詞「は」を「わ」に置き換えて入力する(具体的には、「ぼくは」と入力すべきところを「ぼくわ」と入力する)ことが挙げられる。本実施形態によれば、このような置き換えを行う必要もなくなる。具体的には、上記の例であれば、「ぼくは[wa]」と入力すれば良い。また、本実施形態によれば、事後的な編集作業を行わなくても、本来とは異なる発音で歌詞を発音させることが可能になるため、ユーザインタフェースの制約等により発音記号を事後的に編集する機能を設けにくい携帯型コンピュータ装置への適用にも好適である。
以上本発明の一実施形態について説明したが、この実施形態に以下の変形を加えても勿論良い。
(1)上記実施形態では、歌詞データに後続させてその歌詞の発音態様を表す発音制御データを入力する場合について説明したが、両者の記述順序を入れ替えても勿論良い。ただし、発音制御データがそれに先行する歌詞データに対応しているのか、それとも後続する歌詞データに対応しているのかを明確にするため、両態様を混在させないようにすることが好ましい。また、歌詞データに換えて発音制御データを入力するようにしても良い。例えば、「おはよう」という歌詞を「あはよう」と発音させる場合に、「[a]はよう」といった具合に入力させるのである。そして、歌詞データに換えて発音制御データを入力する場合には、歌唱合成用スコアのピアノロール表示を行う際に、当該発音制御データに含まれる発音記号に対応する文字を表示用歌詞として補って表示する(例えば、上記の入力例では発音記号aに対応する文字「A」或いは「あ」を補って、「A[a]はよう」或いは「あ[a]はよう」と表示する)ようにしても良い。なお、発音記号単独での入力を許容する場合には、ブレス音(空気を吸うような音)の挿入を意味する発音記号(例えば、「¥」など)の入力も許容し、当該発音記号が割り当てられる音符においてブレス音を発生させるようにシーケンスデータを編集しても良い。
また、歌詞データとともに発音制御データを入力する場合と発音制御データのみを入力する場合とで区切り文字を異ならせる(例えば、前者の場合には括弧を使用し、後者の場合は引用符を使用するなど)ようにすれば、歌詞データに後続する発音制御データが単独で入力されたものであるのか、それとも先行する歌詞データと対にして入力されたものであるのかを制御部110に画一的に判別させることが可能になり、両態様を混在させて使用することが可能になる。
(2)上記実施形態では、歌詞を表す歌詞データとして平仮名を用いたが片仮名やローマ字など他の種類の表音文字を用いても勿論良い。また、英語により歌詞を表記する場合には、音節の区切りを表す文字(例えば、ハイフン)により音節単位に区切った単語を歌詞データとして用いれば良い。例えば、「apple」という歌詞を入力する場合には、「ap-ple」と入力させるようにすれば良く、[ap]の部分を本来とは異なる発音(例えば、[e])と発音させる場合には、「ap[e]-ple」と入力させれば良い。また、上記実施形態では、発音制御データであることを明示するための区切り文字として括弧を用いたが、引用符(シングルコーテーションやダブルコーテーション)を用いても良く、また、タブや¥などの所謂制御文字を用いても良い。要は、一般に歌詞を表記する文字として使用される頻度が少ない文字を上記区切り文字として用いるようにすれば良い。また、歌詞データの記述には全角文字などのマルチバイト文字を用い、発音記号の記述には半角文字などのシングルバイト文字を用いる(或いはその逆)といった具合に、歌詞データと発音記号とで各々異なる文字コードを用いて表記しても良い。このような態様であれば、文字コードに基づいて発音記号であるのか歌詞データであるのかを判別することができるため、発音記号に対して所定の区切り文字で囲むなどの修飾を付与する必要はない。
(3)上記実施形態では、音符に合わせて発音する歌詞の発音態様を規定する発音制御データを歌詞データとともに用いることで歌詞を本来とは異なる発音態様で発音させることを実現した。しかし、ビブラートやアクセントの付与などの音響効果の付与を指示する指示データを発音制御データに含ませても勿論良い。アクセントを付与することを示す指示データとしては「^」(ハット)を用い、ビブラートの付与を示す指示データとしては「~」(チルダ)を用いることが考えられる。そして、音符に対応付けられた発音制御データに音響効果の付与を指示するデータが含まれている場合には、シーケンスデータ生成処理では、当該音符に当該音響効果が付与されるように音に関する情報(例えば、ピッチ、音量、およびベロシティの少なくとも1つ)を調整しつつ歌唱合成用シーケンスデータを生成するようにすれば良い。
例えば、「おはよう」という歌詞の「お」を「あ」と発音させつつアクセントを付与する場合には、「お[a^]はよう」と発音制御データを入力すれば良い。また、発音記号と音響効果の付与を指示するデータとで異なる区切り記号による修飾を付与し、両者を別個独立に指定できるようにしても良い。例えば、発音記号については括弧による修飾を付与し、音響効果の付与を指示するデータについては引用符による修飾を付与して「お[a]は’^’よう」と入力するといった具合である。なお、「^」(ハット)や「~」(チルダ)が歌詞に用いられることはほぼ無いと考えられる場合(例えば、日本語や英語で歌詞を表記する場合など)には、音響効果の付与を指示する指示データを修飾する区切り記号を省略しても良い。区切り記号による修飾を付与せずに「^」(ハット)や「~」(チルダ)を単独で用いたとしても、音響効果の付与を指示する指示データであると一意に判別することができるからである。具体的には、「おはよう」という歌詞の「お」を「あ」と発音させつつアクセントを付与する場合には、「お[a]^はよう」と発音制御データを入力すれば良い。また、「おはよう」という歌詞の「お」を「あ」と発音させつつ「よ」にアクセントを付与する場合には、「お[a]はよ^う」と発音制御データを入力すれば良い。
また、ビブラートについては複数の歌詞に亘って付与することが一般的であるから、ビブラートを付与する範囲を明示できるようにしても良い。具体的には、[~n](nは自然数)と入力された場合には、[~n]の左隣の文字を先頭とするn文字にビブラートを付与するとルールを定めておくのである。この場合、「おはよう」の先頭3文字にビブラートを付与する場合には、「お[~3]はよう」と入力すれば良く、「おはよう」の末尾2文字にビブラートを付与する場合には「おはよ[~2]う」と入力するといった具合である。なお、本変形例では指示データ[^]によりアクセントの付与を指示し、指示データ[~]或いは[~n]によりビブラートの付与を指示したが、指示データ[<]によりクレッシェンドの付与を指示し、指示データ[>]によりデクレッシェンドの付与を指示しても良く、また、[<n](或いは[>n])と入力することで、クレッシェンド(或いはデクレッシェンド)を付与する範囲を明示できるようにしても良い。また、指示データ「$」によりポルタメント(ある音から別の音に移る際に、滑らかに徐々に音程を変え行く演奏(或いは歌唱)方法)の実行を指示しても良く、指示データ「br-in」によりブレス音(空気を吸う音)を伴って歌唱することや、指示データ「br-out」によりブレス音(空気を吐く音)を伴って歌唱することを指示しても良い。
(4)上記実施形態では、連続する複数の音符に対応付ける歌詞の一括入力を支援するための歌詞一括入力画面(図5参照)を歌唱合成用シーケンスデータ編集装置10に表示させた。ここで、上記実施形態のように、所定の区切り文字(上記実施形態では、括弧)を前後に付与するといった修飾を施して発音記号を明示する態様においては、歌詞の一括入力の途中で発音記号により発音態様を制御する音符が指定された場合に、当該音符に対応する歌詞の直後に上記所定の区切り文字を挿入し、さらに、当該区切り文字の直後にカーソルC1を位置付ける処理を入力支援処理SA100において実行するようにしても良い。
例えば、図5に示すように、「おはよお」といった具合に歌詞の一括入力が行われる過程で図4に示すピアノロール形式の入力画面へ対話権が切り換えられ、音符S3がマウスクリック等により指定された場合には、当該音符S3に対応する歌詞(図5に示す例では、「よ」)の直後に発音記号の開始を意味する区切り文字(すなわち、開括弧)を挿入し、当該区切り文字の直後にカーソルC1を位置付けた後に歌詞一括入力画面に対話権を切り換える処理を歌唱合成用シーケンスデータ編集装置10に実行させるのである。また、上記の例において、マウスクリック等により指定された音符に対応する歌詞の直後に発音記号を区画するための2種類の区切り文字(すなわち、開括弧と閉括弧)を挿入し、これら区切り文字の間にカーソルC1を位置付けるようにしても良い。このような態様によれば、発音記号を適宜付与しつつ歌詞の一括入力を行う作業の作業効率を向上させることができると期待される。
また、歌詞の一括入力および音符への割り当てを完了し、歌詞一括入力画面(図5参照)を閉じた後は、ピアノロール形式の編集画面において音符を指定して発音記号の編集(追加や削除、書き換えなど)や、音響効果の付与を指示する指示データの編集を行えることは言うまでも無い。例えば、図6(A)に示す画面において、ダブルクリック等により音符S2の編集が指定され、音符S2の「は(ha)」を「は(ha)[〜3]」と変更する編集が確定された場合には、音符S2、S3およびS4にビブラートが付与されるよう歌唱合成用シーケンスデータの更新が実行される、といった具合である。
(5)上記実施形態では、本発明の特徴を顕著に示す変換処理SA110を制御部110に実行させるためのシーケンスデータ編集プログラムが不揮発性記憶部144に予め記憶されていた。しかし、変換処理SA110をコンピュータに実行させるプログラムをCD−ROMなどのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布されるプログラムにしたがって一般的なコンピュータを作動させることにより、そのコンピュータを本発明の歌唱合成用シーケンスデータ編集装置として機能させる(すなわち、変換処理SA110を実行させる)ことが可能になるからである。
(6)上記実施形態では、入力支援処理SA100、変換処理SA110およびシーケンスデータ生成処理SA120の各種処理をソフトウェアモジュールとして実現したが、これら各処理を実行する手段をハードウェアモジュールとして(すなわち、各種電子回路の組み合わせにより)実現しても勿論良い。また、上記実施形態では、各々別個のハードウェアである歌唱合成エンジンおよび歌手ライブラリ30とともに歌唱合成システム1を構成する歌唱合成用シーケンスデータ編集装置への本発明の適用例を説明した。しかし、歌手ライブラリを記憶し、かつスコアエディタおよび歌唱合成エンジンとして機能するコンピュータ装置(所謂歌唱合成装置)に本発明を適用しても勿論良い。
1…歌唱合成システム、10…歌唱合成用シーケンスデータ編集装置、20…歌唱合成エンジン、30…歌手ライブラリ、110…制御部、120…ユーザインタフェース部、130…外部機器インタフェース部、140…記憶部、142…揮発性記憶部、144…不揮発性記憶部、150…バス。

Claims (6)

  1. 入力された歌詞を、音の並びに割り当てて発音する音素の列に変換する手段であって、歌詞とともに発音記号が入力された場合、または歌詞に換えて発音記号が入力された場合に、当該発音記号を音素の列に変換する変換手段と、
    前記変換手段により得られた音素を、曲を構成する音の並びに割り当てて歌唱合成用のシーケンスデータを生成するシーケンスデータ生成手段と、
    カーソルを表示し、音の並びに対応付ける歌詞の一括入力を支援する入力支援手段と、を有し、
    前記変換手段は、歌詞を表すものとして入力された文字列に所定の区切り文字により区画された文字列が含まれている場合に当該区切り文字により区画された文字列を発音記号であると判定し、
    前記入力支援手段は、歌詞の一括入力の途中で歌詞の割当先となる音のうちの何れかが指定された場合には、当該指定された音に割り当てる歌詞の直後に前記所定の区切り文字を挿入し、さらに当該区切り文字の直後に前記カーソルを位置付ける
    とを特徴とする歌唱合成用シーケンスデータ編集装置。
  2. 歌詞の割当先となる音のうち、歌詞に換えて発音記号が入力された音については、当該発音記号により発音が表される文字を当該音に割り当てる歌詞として表示することを特徴とする請求項1に記載の歌唱合成用シーケンスデータ編集装置。
  3. 入力された歌詞を、音の並びに割り当てて発音する音素の列に変換する手段であって、歌詞とともに発音記号が入力された場合、または歌詞に換えて発音記号が入力された場合に、当該発音記号を音素の列に変換する変換手段と、
    前記変換手段により得られた音素を、曲を構成する音の並びに割り当てて歌唱合成用のシーケンスデータを生成するシーケンスデータ生成手段と、を有し、
    歌詞の割当先となる音のうち、歌詞に換えて発音記号が入力された音については、当該発音記号により発音が表される文字を当該音に割り当てる歌詞として表示する
    ことを特徴とする歌唱合成用シーケンスデータ編集装置。
  4. 前記シーケンスデータ生成手段は、歌詞と発音記号の少なくとも一方とともに音響効果の付与を指示する指示データが入力された場合には、当該指示データを入力された音に当該指示データの示す音響効果を付与して発音することを示す前記シーケンスデータを生成することを特徴とする請求項1〜3の何れか1項に記載の歌唱合成用シーケンスデータ編集装置。
  5. 入力された歌詞を、音の並びに割り当てて発音する音素の列に変換するステップであって、歌詞とともに発音記号が入力された場合、または歌詞に換えて発音記号が入力された場合に、当該発音記号を音素の列に変換する変換ステップと、
    前記変換ステップにより得られた音素を、曲を構成する音の並びに割り当てて歌唱合成用のシーケンスデータを生成するシーケンスデータ生成ステップと、
    カーソルを表示し、音の並びに対応付ける歌詞の一括入力を支援する入力支援ステップと、を含み、
    前記変換ステップでは、歌詞を表すものとして入力された文字列に所定の区切り文字により区画された文字列が含まれている場合に当該区切り文字により区画された文字列を発音記号であると判定し、
    前記入力支援ステップでは、歌詞の一括入力の途中で歌詞の割当先となる音のうちの何れかが指定された場合には、当該指定された音に割り当てる歌詞の直後に前記所定の区切り文字を挿入し、さらに当該区切り文字の直後に前記カーソルを位置付ける
    ことを特徴とする歌唱合成用シーケンスデータ編集方法。
  6. 入力された歌詞を、音の並びに割り当てて発音する音素の列に変換するステップであって、歌詞とともに発音記号が入力された場合、または歌詞に換えて発音記号が入力された場合に、当該発音記号を音素の列に変換する変換ステップと、
    前記変換ステップにより得られた音素を、曲を構成する音の並びに割り当てて歌唱合成用のシーケンスデータを生成するシーケンスデータ生成ステップと、を含み、
    歌詞の割当先となる音のうち、歌詞に換えて発音記号が入力された音については、当該発音記号により発音が表される文字を当該音に割り当てる歌詞として表示する
    ことを特徴とする歌唱合成用シーケンスデータ編集方法。
JP2012056633A 2012-03-14 2012-03-14 歌唱合成用シーケンスデータ編集装置および歌唱合成用シーケンスデータ編集方法 Active JP6003115B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012056633A JP6003115B2 (ja) 2012-03-14 2012-03-14 歌唱合成用シーケンスデータ編集装置および歌唱合成用シーケンスデータ編集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012056633A JP6003115B2 (ja) 2012-03-14 2012-03-14 歌唱合成用シーケンスデータ編集装置および歌唱合成用シーケンスデータ編集方法

Publications (2)

Publication Number Publication Date
JP2013190595A JP2013190595A (ja) 2013-09-26
JP6003115B2 true JP6003115B2 (ja) 2016-10-05

Family

ID=49390917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012056633A Active JP6003115B2 (ja) 2012-03-14 2012-03-14 歌唱合成用シーケンスデータ編集装置および歌唱合成用シーケンスデータ編集方法

Country Status (1)

Country Link
JP (1) JP6003115B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法
WO2019240042A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 表示制御方法、表示制御装置およびプログラム
JP7320976B2 (ja) * 2019-04-18 2023-08-04 株式会社河合楽器製作所 歌詞編集装置及び歌詞編集プログラム
CN114550690A (zh) * 2020-11-11 2022-05-27 上海哔哩哔哩科技有限公司 歌曲合成方法及装置
CN112786025B (zh) * 2020-12-28 2023-11-14 腾讯音乐娱乐科技(深圳)有限公司 确定歌词时间戳信息的方法和声学模型的训练方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05189194A (ja) * 1992-01-10 1993-07-30 Toshiba Corp 文書読み上げ装置
JPH11265195A (ja) * 1998-01-14 1999-09-28 Sony Corp 情報配信システム、情報送信装置、情報受信装置、情報配信方法
EP1221692A1 (en) * 2001-01-09 2002-07-10 Robert Bosch Gmbh Method for upgrading a data stream of multimedia data
JP2003208191A (ja) * 2002-01-15 2003-07-25 Hitachi Ulsi Systems Co Ltd 音声合成システム
JP3938015B2 (ja) * 2002-11-19 2007-06-27 ヤマハ株式会社 音声再生装置
JP2004294639A (ja) * 2003-03-26 2004-10-21 Omron Corp 音声合成用テキスト解析装置および音声合成装置
JP4415573B2 (ja) * 2003-06-13 2010-02-17 ソニー株式会社 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置
JP5019807B2 (ja) * 2006-07-07 2012-09-05 シャープ株式会社 音声合成装置、音声合成方法および音声合成方法を実現するためのプログラム
JP2008040372A (ja) * 2006-08-10 2008-02-21 Hitachi Ltd 音声合成装置
JP4821801B2 (ja) * 2008-05-22 2011-11-24 ヤマハ株式会社 音声データ処理装置及びプログラムを記録した媒体

Also Published As

Publication number Publication date
JP2013190595A (ja) 2013-09-26

Similar Documents

Publication Publication Date Title
CN109584910B (zh) 歌唱音频的编辑辅助方法以及歌唱音频的编辑辅助装置
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5471858B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP6070010B2 (ja) 音楽データ表示装置および音楽データ表示方法
US20080195391A1 (en) Hybrid Speech Synthesizer, Method and Use
US9355634B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
JP6003115B2 (ja) 歌唱合成用シーケンスデータ編集装置および歌唱合成用シーケンスデータ編集方法
WO2007078261A1 (en) Method and system for text-editing and playing back a score
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP5176981B2 (ja) 音声合成装置、およびプログラム
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP3843953B2 (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP4026512B2 (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP5975033B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2580565B2 (ja) 音声情報辞書作成装置
JP2006349787A (ja) 音声合成方法および装置
JP7243418B2 (ja) 歌詞入力方法およびプログラム
WO2022196087A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP4192994B2 (ja) 歌唱合成用データ入力プログラム
JP2023015640A (ja) 音声合成システム、音声合成方法、及びプログラム
JP2009271209A (ja) 音声メッセージ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法
JP2584236B2 (ja) 規則音声合成装置
WO2019239972A1 (ja) 情報処理方法、情報処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160822

R151 Written notification of patent or utility model registration

Ref document number: 6003115

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151