JP2014098800A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2014098800A
JP2014098800A JP2012250436A JP2012250436A JP2014098800A JP 2014098800 A JP2014098800 A JP 2014098800A JP 2012250436 A JP2012250436 A JP 2012250436A JP 2012250436 A JP2012250436 A JP 2012250436A JP 2014098800 A JP2014098800 A JP 2014098800A
Authority
JP
Japan
Prior art keywords
information
input
synthesis
sound
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012250436A
Other languages
English (en)
Other versions
JP6044284B2 (ja
Inventor
Hiroshi Kayama
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012250436A priority Critical patent/JP6044284B2/ja
Publication of JP2014098800A publication Critical patent/JP2014098800A/ja
Application granted granted Critical
Publication of JP6044284B2 publication Critical patent/JP6044284B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】リアルタイム音声合成において音声合成に用いる複数種類の合成情報の入力の自由度が低くなることを回避しつつ、各合成情報の入力タイミングに時間差があっても、最先の入力タイミングから遅滞なく音を出力することを可能にする。
【解決手段】音符の音高および持続時間を表す音符情報と音符に合わせて発音する歌詞の音韻を表す音韻情報とを受け取って歌唱音声をリアルタイム方式で合成する歌唱合成装置に、音符情報と音韻情報のうち先に入力された方の入力時点から、それら情報に基づいて合成した歌唱音声の出力を開始するまでの間、所定のダミー音を出力させる。
【選択図】図2

Description

この発明は、音声合成技術に関し、特に、リアルタイム音声合成技術に関する。
音声ガイダンスにおける案内音声や文芸作品の朗読音声、或いは歌唱曲の歌唱音声などを表す音声信号を、複数種類の合成情報を用いて電気的な信号処理により合成する音声合成技術が普及している。例えば、歌唱音声の合成の場合は、歌唱音声の合成対象の歌唱曲における韻律変化を示す韻律情報(例えば、当該歌唱曲のメロディを構成する各音符の音高や継続長を表す音符情報)と当該歌唱曲の歌詞の音韻列を表す情報などの音楽表現情報が上記合成情報として用いられる。音声ガイダンスにおける案内音声や文芸作品の朗読音声の音声信号を合成する場合は、案内文や文芸作品の文章の音韻列を表す情報が発話内容を表す合成情報として用いられ、イントネーションやアクセントなどの韻律変化を示す韻律情報が発話態様を示す合成情報として用いられる。これらに加えて、音の強さを指定する情報が合成情報として用いられる場合もある。従来、この種の音声合成は、合成対象の音声全体に亙る各種合成情報を予め音声合成装置に全て入力しておき、合成対象の音声全体の音波形を表す音声信号をそれら合成情報に基づいて一括して生成する所謂バッチ処理方式が一般的であった。しかし、近年ではリアルタイム方式の音声合成技術も提案されている(例えば、特許文献1参照)。
リアルタイム方式の音声合成の一例としては、楽曲全体の歌詞を表す情報を歌唱合成装置に予め入力しておき、ピアノ鍵盤を模したキーボードで各歌詞を発音する際の音高等を随時指定することで歌唱合成を進める技術が挙げられる。また、近年では、歌詞の音韻を表す子音および母音を入力するための操作子を配列した音韻情報入力部と、ピアノ鍵盤を模した音符情報入力部とを左右に並べた歌唱合成用キーボードを用いて、音韻情報と音符情報の両者をリアルタイムでユーザに逐次入力させて歌唱合成を行うことも提案されている。
特許3879402号
歌唱合成用キーボードを用いてリアルタイム方式の歌唱合成を行う場合、必須の合成情報(すなわち、音韻情報と韻律情報)のみを用いる場合であっても、ユーザは一方の手で音韻情報入力部を操作して音韻情報を入力するとともに他方の手で音符情報入力部を操作して韻律情報を入力しなければならず、両者の入力タイミングには若干のズレが生じる。一方、歌唱合成装置では、音韻情報と韻律情報の両者が揃わないと歌唱合成処理が開始されない。このため、音韻情報と韻律情報の両者の入力タイミングにズレがあると、先に入力された方の入力タイミング(すなわち、歌唱音声出力のための最初の意思表示のタイミング)から遅れて合成歌唱音声が出力されることになり、この遅延がユーザに違和感を抱かせることがある。この点は、案内音声や文芸作品の朗読音声をリアルタイム方式で合成する音声合成においても同様である。また、複数種類の合成情報の入力順が予め定められている場合には、各合成情報を予め定められた順に入力しなければならず、入力の自由度が低いといった問題もある。
本発明は上記課題に鑑みて為されたものであり、リアルタイム音声合成において音声合成に用いる複数種類の合成情報の入力の自由度が低くなることを回避しつつ、各合成情報の入力タイミングに時間差があっても、最先の入力タイミングから遅滞なく音を出力することを可能にする技術を提供することを目的とする。
上記課題を解決するために本発明は、音声信号の合成に用いる複数種類の合成情報であって、合成対象の音声の音韻を示す音韻情報と当該音声における韻律変化を示す韻律情報とを含む複数種類の合成情報を入力するための入力手段と、前記複数種類の合成情報のうちの最先のものが前記入力手段へ入力されてから少なくとも前記音韻情報と前記韻律情報が揃うまでの間に前記入力手段を介して入力された合成情報を用いて音声信号を合成して出力するとともに、当該最先の合成情報が入力されてから当該音声信号の出力が開始されるまでの間、ダミー音を表すダミー音信号を出力する音声合成手段とを有することを特徴とする音声合成装置、を提供する。なお、音声信号の合成に用いる複数種類の合成情報のうち、音韻情報および韻律情報以外の合成情報の一例としては、音の強さを示す情報やビブラートの付与を示す情報、合成音声の声質を指定する情報などが挙げられる。ただし、音韻情報および韻律情報以外の合成情報は、音声信号の合成において必ずしも必須ではない。
このような音声合成装置によれば、複数種類の合成情報のうち最先に前記入力手段へ入力されたものの入力時点から少なくとも必須の合成情報である音韻情報と韻律情報とが揃うまでの間に入力された合成情報に基づいて音声信号の合成が行われるとともに、最先の合成情報の入力から当該音声信号の出力が開始されるまでの間、ダミー音が出力される。このため、ユーザが音声合成のための意思を最初に表明した時点(すなわち、複数種類の合成情報のうち最先のものの入力時点)から音が出力され、ユーザに無用な違和感を抱かせないようにすることが可能になる。また、本発明の音声合成装置においては、複数種類の合成情報の入力順は問われないため、それら合成情報を入力する際の自由度が低くなることはない。
ダミー音としてどのようなものを用いるのかについては種々の態様が考えられる。例えば、第1の態様としては、最先の合成情報に応じた音をダミー音として用いる態様が考えられる。また、第2の態様としては、ノイズ音やブレス音、鼻音、予め定められた音素を予め定められた音高で出力した音、或いは所定の音高の周期音(音波形が正弦波により表される音)など、継続可能な音であって最先の合成情報とは無関係な音、をダミー音として用いる態様が考えられる。例えばリアルタイム方式の歌唱合成に本発明を適用し、さらに複数種類の合成情報として必須の合成情報のみを用いる場合の上記第1の態様の具体例としては、音韻情報が先に入力され、かつその音韻情報の示す音韻の先頭が継続可能な音素である場合には、当該先頭の音素を所定の音高で出力した音をダミー音として用いる一方、韻律情報の役割を果たす音符情報が先に入力された場合には継続可能な所定の音素を当該音符情報の示す音高で出力した音や当該音符情報の示す音高を有する周期音をダミー音として用いることが考えられる。ここで、継続可能な音素とは、母音または摩擦音や鼻音など継続可能な子音のことをいう。なお、音韻情報が先に入力され、かつその音韻情報の示す音韻の先頭が継続可能な音素ではない場合には、ノイズ音などの所定の継続可能な音をダミー音として用いるようにすれば良い。
より好ましい態様としては、入力手段に入力された合成情報を用いて合成された音声信号の表す音声とダミー音とが滑らかにつながるようにダミー音信号を調整して(または上記音声信号とダミー音信号の両者の信号レベルを調整しつつ)出力する処理を音声合成手段に実行させる態様が考えられる。このような態様によれば、ダミー音から合成音声へ滑らかに移り変わるため、音が不連続に切り替わることによる違和感をユーザに与えないようにすることが可能になる。また、ダミー音の音量が徐々に大きくなるように、信号レベルを予め定められた値まで徐々に上昇させつつダミー音信号を出力する処理を音声合成手段に実行させることで、無用な違和感をユーザに与えないようにする態様も考えられる。さらに別の態様としては、複数種類の合成情報のうち最先のものが入力されてから少なくとも必須の合成情報が揃うまでに入力された合成情報を用いて合成された音声の出力が開始されるまでの間、複数種のダミー音が順次出力されるようにダミー音信号を切り替える処理を音声合成手段に実行させる態様も考えられる。
また、別の好ましい態様としては、複数種類の合成情報のうちの最先のものが入力されてから所定の待ち時間が経過するまでに音韻情報と韻律情報が揃わなかった場合には、音声合成手段にダミー音信号の出力を停止させるようにしても良い。このような態様によれば、音韻情報は入力されたものの音符情報が入力されない(或いは、その逆)など必須の合成情報の一部が入力されず音声合成を行えない場合であっても、ダミー音が出力され続けるといった不具合が生じないようにすることができる。また、ダミー音信号の出力停止をユーザに指示させる停止指示手段(上記入力手段として歌唱合成用キーボードを用いる場合には、当該出力停止をユーザに指示させるための操作子)を設け、ダミー音信号の出力停止の指示を与えられたことを契機としてダミー音信号の出力を停止する処理を音声合成手段に実行させるようにしても良い。このような態様によれば、合成情報の誤入力を契機としてダミー音の出力が開始された場合であっても、上記所定時間に亙ってダミー音が出力され続けることを回避することが可能になる。
また、本発明の別の態様としては、音声信号の合成に用いる複数種類の合成情報であって、合成対象の音声の音韻を示す音韻情報と当該音声における韻律変化を示す韻律情報とを含む複数種類の合成情報のうちの最先のものが入力されてから少なくとも音韻情報と韻律情報が揃うまでの間に入力された合成情報を用いて音声信号を合成して出力する第1の処理と、当該最先の合成情報が入力されてから当該音声信号の出力が開始されるまでの間、ダミー音を表すダミー音信号を出力する第2の処理とをコンピュータに実行させるためのプログラムを提供する態様が考えられる。ここで、当該プログラムの具体的な提供態様としては、CD−ROM(Compact Disk-Read Only Memory)などのコンピュータ読み取り可能な記録媒体に書き込んで配布する態様やインターネットなどの電気通信回線経由のダウンロードにより配布する態様が考えられる。
この発明の第1実施形態の歌唱合成装置1の構成例を示す図である。 同歌唱合成装置1の動作を説明するための図である。 第2実施形態のダミー音出力処理を説明するための図である。 第3実施形態のダミー音出力処理を説明するための図である。 第4実施形態のダミー音出力処理を説明するための図である。
以下、図面を参照しつつ、本発明の実施形態について説明する。
(A:第1実施形態)
図1は、本発明の音声合成装置の一実施形態の歌唱合成装置1の構成例を示すブロック図である。この歌唱合成装置1は、複数種類の合成情報(本実施形態では、歌唱合成を行う際の必須の合成情報である音韻情報と韻律情報の2種類)を音符毎に逐次ユーザに入力させ、リアルタイム方式の歌唱合成を行う装置である。図1に示すように、歌唱合成装置1は、制御部110、操作部120、表示部130、音声出力部140、外部機器インタフェース(以下、「I/F」と略記)部150、記憶部160、および、これら構成要素間のデータ授受を仲介するバス170を含んでいる。
制御部110は、例えばCPU(Central Processing Unit)である。制御部110は、記憶部160に記憶されている歌唱合成プログラムにしたがって作動することにより、歌唱合成装置1の制御中枢として機能する。この歌唱合成プログラムにしたがって制御部110が実行する処理の詳細については後に明らかにする。本実施形態では制御部110としてCPUを用いるがDSP(Digital Signal Processor)を用いても勿論良い。
操作部120は、前述した歌唱合成用キーボードである。歌唱合成装置1のユーザは、操作部120を操作することによって、歌唱音声の合成対象の曲のメロディを構成する音符と音符に合わせて歌唱する歌詞の音韻とを指定することができる。例えば、歌詞の音韻として「さ」を指定する場合には、子音「s」に対応した操作子と母音「a」に対応した操作子を順次押下すれば良く、当該歌詞に対応する音符の音高として「C4」を指定する場合には当該音高に応じた鍵を押下してその発音開始を指示し、当該鍵から指を離すことで発音終了を指示すれば良い。つまり、当該鍵を押下している時間の長さが当該音符の持続時間となる。操作部120は、音韻を指定する操作が為された場合には当該音韻を示す音韻情報を制御部110に与える。また。操作部120は、発音開始を指示する押鍵操作が為された場合には、押下された鍵に応じたノートオンイベント(MIDI(Musical Instrument Digital Interface)イベント)を発音開始を指示する音符情報として制御部110に与え、押鍵が解除されたことを契機として当該鍵に応じたノートオフイベント(MIDIイベント)を発音終了を指示する音符情報として制御部110に与える。このように音符情報入力部の操作子に対する操作により入力される音符情報は、歌唱音声における韻律変化を示す韻律情報の役割を果たす。つまり、操作部120は、歌唱音声の合成に用いる複数種類の合成情報を入力するための入力手段の役割を果たす。
表示部130は、例えば液晶ディスプレイとその駆動回路であり、制御部110による制御の下、歌唱合成装置1の使用を促すメニュー画像などの各種画像を表示する。音声出力部140は、図1に示すように、D/A変換器142、増幅器144、およびスピーカ
146を含んでいる。D/A変換器142は、制御部110から与えられるデジタル形式の音声データにD/A変換を施し、変換結果のアナログ音声信号を増幅器144に与える。増幅器144は、D/A変換器142から与えられる音声信号の信号レベル(すなわち、音量)をスピーカ駆動に適したレベルまで増幅してスピーカ146に与える。スピーカ146は、増幅器144から与えられる音声信号を音として出力する。
外部機器I/F部150は、例えばUSB(Universal Serial Buss)インタフェースやオーディオインタフェースなど、歌唱合成装置1に他の外部機器を接続するためのインタフェースの集合体である。本実施形態では、歌唱合成用キーボード(操作部120)や音声出力部140が歌唱合成装置1の構成要素である場合について説明するが、歌唱合成用キーボードや音声出力部140を、外部機器I/F部150に接続される外部機器としても勿論良い。
記憶部160は、不揮発性記憶部162と揮発性記憶部164とを含んでいる。揮発性記憶部164は例えばRAM(Random Access Memory)などの揮発性メモリにより構成されている。揮発性記憶部164は各種プログラムを実行する際のワークエリアとして制御部110によって利用される。一方、不揮発性記憶部162は、例えばROM(Read Only Memory)やフラッシュメモリ或いはハードディスクなどの不揮発性メモリにより構成されている。不揮発性記憶部162には、図1に示すように、歌唱合成用ライブラリ162aと、歌唱合成プログラム162bと、ダミー音ライブラリ162cとが予め格納されている。
歌唱合成用ライブラリ162aとは、様々な音素(モノフォン)やダイフォン(音素から異なる音素(無音を含む)への遷移)などの音声波形を表す素片データを格納したデータベースである。なお、歌唱合成用ライブラリ162aは、モノフォンやダイフォンの他にトライフォンの素片データを格納したデータベースであっても良く、また、音声波形の音素の定常部や他の音素への遷移部(過渡部)が格納されたデータベースであっても良い。歌唱合成プログラム162bは、歌唱合成用ライブラリ162aを利用した歌唱合成を制御部110に実行させるためのプログラムである。歌唱合成プログラム162bにしたがって作動している制御部110は歌唱合成処理およびダミー音出力処理の2種類の処理を実行する。
歌唱合成処理とは、音韻情報と音符情報とに基づいて歌唱音声の音波形を表す音声データを合成して出力する処理である。この歌唱合成処理では、制御部110は音韻情報の表す音素またはダイフォンに対応する素片データを歌唱合成用ライブラリ162aから読み出し、周波数領域のデータに変換した後に音符情報の示す音高となるようにピッチ変換を施しつつ結合し、その後、時間領域のデータに戻すことで歌唱音声の音波形を表す音声データを合成する。このように、歌唱合成処理の実行は、歌唱音声の歌詞を表す音韻情報と音高を表す音符情報とが揃っていることが前提となるため、これら情報が揃ったことを契機として実行される。より詳細に説明すると、本実施形態の歌唱合成処理は、音韻情報と音符情報のうち先に入力された方の入力時点から所定の待ち時間TWが経過するまでに他方が入力された場合に後者の入力を契機として実行される。この待ち時間TWの長さについては適宜実験を行って予め好適な長さに定めておいても良く、また、ユーザの好みに応じて設定させても良い。なお、本実施形態では、歌唱合成アルゴリズムとして、上記素片接続方式のアルゴリズムが採用されていたが、他のアルゴリズムを採用しても良く、他のアルゴリズムを採用した場合には当該アルゴリズムに合わせて歌唱合成用ライブラリ162aを構成すれば良い。
ダミー音出力処理は、音韻情報と音符情報のうち先に入力された方の入力時点から、歌唱合成処理により合成された音声データの表す音声(すなわち、合成歌唱音声)の出力が開始されるまでの間、ダミー音を音声出力部140に出力させる処理である。本実施形態のダミー音出力処理は、音韻情報と音符情報のうち先に入力された方の入力を契機として実行が開始される。このダミー音出力処理では、音素と音高の両者を指定する必要のない所定の音(例えば、ブレス音やノイズ音或いは鼻音、所定の継続可能な音素を所定の音高で出力し続ける音、または所定の音高を有する周期的な音)がダミー音として出力される。前述したダミー音ライブラリ162cは、ブレス音やノイズ音或いは鼻音、所定の継続可能な音素を所定の音高で出力し続ける音、または所定の音高を有する周期的な音などの各種ダミー音の音波形を表す波形データを格納したデータベースである。ダミー音出力処理では、制御部110は、ダミー音として定められた音の波形データをダミー音ライブラリ162cから読み出し、当該波形データを音声出力部140に与えてダミー音を出力させる。ここで、ダミー音として何れの音を用いるかについては予め定めておいても良く、ユーザに選択させても良い。本実施形態ではダミー音としてブレス音(以下、ブレス音の音素記号としてbrを用いる)が用いられる。なお、本実施形態では、歌唱合成用ライブラリ162aとダミー音ライブラリ162cを各々別個のデータベースとしたが、両者を一体化しても(例えば、ダミー音ライブラリ162cを歌唱合成用ライブラリ162aに含ませるなど)良い。
ダミー音出力処理では、制御部110は、音韻情報と音符情報の両者(すなわち、歌唱合成に用いる合成情報の全て)が揃ったか否かを判定する処理を、両者が揃うかまたは上記待ち時間TWが経過するまで継続して実行する。そして、制御部110は、上記待ち時間TWが経過するまでに歌唱合成に用いる合成情報の全てが揃わなかった場合には、当該待ち時間TWの経過の時点でダミー音出力処理を停止する。つまり、本実施形態では、音韻情報と音符情報のうちの何れか一方が入力され、その入力から所定の待ち時間TWが経過するまでに他方が入力されない場合には、制御部110は当該待ち時間TWの経過の時点でダミー音出力処理の実行を中止し、ダミー音の出力を停止する。これに対して、音韻情報と音符情報のうちの何れか一方の入力から上記待ち時間TWが経過するまでに他方が入力されると当該他方の入力を契機として歌唱合成処理の実行が開始され、合成歌唱音声の出力が開始されるまでダミー音出力処理は継続して実行される。なお、音韻情報が子音と母音などの音素毎に入力される場合には、先頭の音素の音韻情報の入力タイミングを基準に上記判定を行うようにすれば良い。以下、「さ」という歌詞を音高「C4」で発音する歌唱音を歌唱合成装置1に合成させるために、音韻情報として子音「s」および母音「a」の各々を示す情報が入力され、音符情報として音高「C4」の音の発音開始および停止を示す情報が入力された場合を例にとってダミー音出力処理の処理内容を説明する。
例えば、図2(a)では、時刻TA1において子音「s」を示す音韻情報が入力された後、時刻TA2において母音「a」を示す音韻情報が入力され、さらに時刻TA3(ただし、TA3−TA1>TW)において音高「C4」の音の発音開始を示す音符情報が入力された場合について例示されている。この場合、最先の合成情報(すなわち、先頭の音素についての音韻情報)の入力タイミングから待ち時間TWが経過するまでに音符情報が入力されていないため、子音「s」を示す音韻情報の入力タイミングから待ち時間TWが経過した時点でダミー音の出力が停止され、歌唱合成処理も実行されない。これに対して、図2(b)に示すように、時刻TA1において子音「s」を示す音韻情報が入力された後、時刻TA2において母音「a」を示す音韻情報が入力され、さらに時刻TA3´(ただし、TA3´−TA1≦TW)において音高「C4」の音の発音開始を示す音符情報が入力された場合には、合成歌唱音声の出力が開始されるまでダミー音が出力され続ける。なお、図2(b)に示す例では、ダミー音として、無音(図2(b)では#により表記)からブレス音に遷移し、再度、無音へと遷移するといった複数の音素片(図2(b)に示す例では、[#−br],[br]および[br−#])により構成される音を用い、無音状態から合成歌唱音声の出力を開始する場合について例示されている。これは、ダミー音と合成歌唱音声とが滑らかにつながるようにするためである。しかし、ダミー音と合成歌唱音声のつなぎめの滑らかさが問題とならない場合には、ダミー音として1つの音素片(例えば、[#−br])により構成される音を用いても良い。また、図2(b)における[br−#]を省略するとともに、同図2(b)における[#−s]に換えて[br−s]を用いる、或いは図2(b)における[br−#]に換えて[br−s]を用い、[#−s]を省略するなどしてダミー音から合成歌唱音声へ直接遷移させ、両者がより滑らかにつながるようにしても良い。
図2(c)および図2(d)は、音符情報が先に入力された場合の動作を示す図である。この場合も、最先の合成情報(音高「C4」の発音開始を示す音符情報)の入力タイミングから待ち時間TWが経過するまでに先頭の音素の音韻情報が入力されなかった場合には、音符情報の入力タイミングから待ち時間TWが経過した時点でダミー音の出力が停止され、歌唱合成処理は実行されない(図2(c)参照)。逆に、図2(d)に示すように、音高「C4」の音の発音開始を示す音符情報の入力タイミングから待ち時間TWが経過するまでに先頭の音素の音韻情報が入力された場合には、前述した図2(b)の場合と同様に、合成歌唱音声の出力が開始されるまでダミー音の出力が継続される。なお、音符情報と音韻情報のうち音符情報が先に入力された場合には、その音符情報の示すベロシティの大きさに応じて、ダミー音における無音からブレス音への遷移部分(すなわち、[#−br])の時間長を調整するようにしても良い。
以上説明したように本実施形態の歌唱合成装置1においては、歌唱音声のメロディを構成する音符を表す音符情報と当該音符に合わせて発音する歌詞の音韻を表す音韻情報の両者が揃ったことを契機として歌唱合成が開始されることは従来のリアルタイム方式の歌唱合成技術と変わりはないものの、音韻情報と音符情報のうち先に入力された方(すなわち、歌唱合成に用いる複数種類の合成情報のうち最先に入力されたもの)の入力時点から合成音声の出力が開始されるまでの間、ダミー音が出力される。このため、歌唱合成のための意思表示を行った時点から音が出力され、ユーザに無用な違和感を抱かせることはない。また、本実施形態によれば、音韻情報と音符情報の何れを先に入力しても良く、これら情報の入力順に制約はない。
なお、本実施形態では、最先の合成情報の入力タイミングから待ち時間TWが経過するまでに全ての合成情報が揃わなかった場合には歌唱合成処理を実行しない場合について説明した。しかし、待ち時間TWの経過の時点でダミー音の出力を停止させるものの、後続の合成情報の入力は待ち時間TWの経過とは無関係に待ち受けを継続し、全ての合成情報が揃った時点で歌唱合成処理を実行するようにしても勿論良い。また、より自然な聴感を演出するために、ダミー音出力処理においては、音量が徐々に大きくなるように音量制御を行う処理(ダミー音信号の信号レベルを所定の値まで徐々に大きくする処理)を制御部110に実行させても良い。また、ダミー音の生成態様によってダミー音と合成歌唱音声のつなぎめを滑らかにするのではなく、ダミー音と歌唱合成音とがクロスフェードするようにダミー音信号と合成音声信号の信号レベルを調整する処理を制御部110に実行させても良い。具体的には、図2(b)における音素片[br−#]の出力終了時刻が音素片[#−s]の出力開始時刻よりも後になるようにしつつ、前者の信号レベルを無音まで徐々に引き下げ、かつ後者の信号レベルを無音から徐々に引き上げるようにすれば良い。
また、ダミー音の出力停止をユーザに指示させるための操作子を操作部120に設け、当該操作子が操作されたことを契機として所定の制御信号を操作部120に出力させる一方、制御部110には、上記待ち時間TWの間に当該制御信号を受け取った場合にはその時点でダミー音出力処理の実行を中止させても良い。このような態様によれば、操作部120に対するミスタッチなどにより音韻情報または音符情報が誤入力され、ダミー音の出力が開始された場合であっても、上記操作子の操作によってダミー音の出力を停止させることができ、誤入力の発生から待ち時間TWが経過するまでダミー音が出力され続けることを回避することができる。
また、本実施形態では、音韻情報と音符情報の入力順を問わず、先に入力された方の入力を契機としてダミー音出力処理を制御部110に実行させ、他方の入力を契機として歌唱合成処理を制御部110に実行させた。しかし、歌唱合成装置の動作モードとして歌唱音声の合成を行う歌唱合成演奏モードと、歌唱合成を行わずに音符情報の示す音高の楽器音を出力する楽器音演奏モードの2種類を用意しておき、音韻情報と音符情報の何れが先に入力されたのかに応じて動作モードの切り替えを行うようにしても良い。例えば、歌唱合成演奏モードで動作している状態において音韻情報が先に入力された場合にはダミー音出力処理を制御部110に実行させ、音符情報が先に入力された場合には即座に(或いは待ち時間TWが経過するまでに音韻情報が入力されなかった場合に)動作モードを楽器音演奏モードに切り替える処理を制御部110に実行させるのである。同様に、楽器音演奏モードにおいて音韻情報が先に入力された場合には即座に(或いは待ち時間TWが経過するまでに音符情報が入力されなかった場合に)動作モードを歌唱合成演奏モードに切り替える処理を制御部110に実行させ、音符情報が先に入力された場合にはダミー音出力処理を制御部110に実行させるのである。このような態様によれば、歌唱合成演奏と楽器音演奏とを操作部120に対する操作によってシームレスに切り替えながらユーザに実施させることができる、といった効果が奏される。
(B:第2実施形態)
上記第1実施形態では、ノイズ音やブレス音、鼻音、または、継続可能な所定の音素を所定の音高で出力した音などユーザにより入力される音韻情報や音符情報とは無関係な音であって、継続可能な音をダミー音として用いる場合について説明した。これに対して、本実施形態では、最先の合成情報(すなわち、音韻情報と音符情報のうち先に入力された方)に応じたダミー音を出力する点が上記第1実施形態と異なる。本実施形態の歌唱合成装置のハードウェア構成は上記第1実施形態と同一であるため詳細な説明を省略し(第3および第4実施形態も同様)、以下では、音韻情報が先に入力された場合と音符情報が先に入力された場合に分けて本実施形態のダミー音出力処理を説明する。
(B−1:音韻情報を先に受け取った場合)
この場合、制御部110は、音韻情報の示す先頭の音素が継続可能な音素であるかを判定し、その判定結果が“Yes”である場合には、当該先頭の音素を予め定められた所定の音高で出力し続ける音をダミー音として出力する。逆に、上記判定結果が“No”である場合には、制御部110は、前述した第1実施形態と同様に、ノイズ音やブレス音、鼻音、所定の継続可能な音素を所定の音高で出力し続ける音或いは所定の音高を有する周期音をダミー音として出力する。
(B−2:音符情報を先に受け取った場合)
この場合、制御部110は、音符情報の示す音高を有する周期音(または所定の継続可能な音素を当該音高で出力し続ける音)をダミー音として出力する。
以上に説明したことをまとめると、最先の合成情報(音韻情報と音符情報のうち先に入力された方)に応じたダミー音を出力する場合におけるダミー音は、図3に示すようにカテゴリ分けすることができる。本実施形態によっても、歌唱合成に用いる複数種類の合成情報の各々の入力タイミングに時間差があっても、最先の合成情報の入力時点から遅滞なく音が出力され、ユーザに違和感を抱かせないようにすることができる。なお、待ち時間TWの長さを図3に示すカテゴリ毎に異ならせても良く、待ち時間TWの長さを音韻の種別毎にユーザが設定できるようにしても良い。また、本実施形態によれば、最先の合成情報に応じたダミー音が出力されるため、当該情報とは無関係な音をダミー音として用いる場合に比較してダミー音から合成歌唱音声への遷移が滑らかになり、より自然な聴感を演出できると期待される。
(C:第3実施形態)
上記第1および第2実施形態では、最先の合成情報の入力時点から合成歌唱音声の出力が開始されるまでの間、ダミー音を出力する場合について説明した。これに対して、本実施形態では、最先の合成情報の入力時点から合成歌唱音声の出力が開始されるまでの間に出力されるダミー音を順次切り替える点に特徴がある。具体的には、本実施形態の歌唱合成装置の制御部110は、図4(a)に示すように、音韻情報と音符情報のうち先に入力された方の入力時点からダミー音D1の出力を開始し、他方の入力を契機としてダミー音D1の出力を停止するとともにダミー音D1とは異なるダミー音D2の出力を開始し、合成歌唱音声の出力が開始されるまでダミー音D2の出力を継続するのである。
例えば、図4(a)では、音韻情報が先に入力された場合について例示されている。この場合、音韻情報に応じた音をダミー音D1として出力し、その後、音符情報が入力されたことを契機としてダミー音D1の出力を停止するとともに、当該音符情報に応じた音をダミー音D2として出力する態様が考えられる。また、ダミー音D2として、ダミー音D1の音高を音符情報の示す音高となるようにピッチ変換した音を用いるようにしても良い。このように、音韻情報と音符情報のうち後に入力される方の入力を契機としてダミー音を切り替える態様においては、ダミー音D1とダミー音D2とをクロスフェードさせても良く、さらに、ダミー音D2と合成音声とをクロスフェードさせても良い。
なお、音韻情報として「sa」と入力すべきところ、「t」が誤入力され、その後、「sa」と入力された場合には、図4(b)に示すように、「t」の入力を契機としてダミー音D10を出力し、「s」の入力を契機としてダミー音D20を出力し、音符情報の入力を契機としてダミー音D30を出力する処理を制御部110に実行させるようにすれば良い。この場合、図3に示すカテゴリ分類にしたがって、「t」は継続不能であるためダミー音D10としてブレス音等を用い、「s」は継続可能であるためダミー音D20として当該音素(すなわち、「s」)を所定の音高で出力した音を用い、ダミー音D30として「s」を音符情報の示す音高で出力した音を用いるようにすれば良い。
本実施形態によっても、歌唱合成に用いる複数種類の合成情報の各々の入力タイミングに時間差があっても、最先の合成情報の入力時点から遅滞なく音が出力され、ユーザに無用な違和感を抱かせることはない。また、ダミー音D1として音符情報と音韻情報のうち先に入力された方に応じた音を用い、ダミー音D2として音符情報と音韻情報の両者に応じた音を用いるようにすれば、上記第2実施形態における場合よりもさらに滑らかにダミー音と合成歌唱音声とがつながり、さらに自然な聴感を演出できると期待される。なお、本実施形態では、他の種類の合成情報の入力を契機としてダミー音を切り替える場合について説明したが、ダミー音D1の出力を開始してから所定時間が経過した時点でダミー音D2に切り替えるようにしても良い。また、最先の合成情報の入力時点から合成歌唱音声の出力が開始されるまでの間にダミー音の切り替えを複数回行っても勿論良い。要は、複数種類の合成情報のうち最先のものが入力されてから合成歌唱音声の出力が開始されるまでの間、複数種のダミー音が順次出力されるようにダミー音信号を切り替える態様であれば良い。
(D:第4実施形態)
上記第1〜第3実施形態では、最先の合成情報(音符情報と音韻情報のうちの先に入力された方)の入力を契機としてダミー音出力処理を開始した。これに対して、本実施形態では、図5に示すように、最先の合成情報の入力時点を起算点として所定時間TMが経過した時点からダミー音の出力を開始する点が異なる。そして、本実施形態では、上記所定時間TMが経過するまでに音符情報と音韻情報のうちの他方が入力され、音韻情報の示す先頭の音素が継続可能な音素である場合には、それら音符情報と音韻情報の両者に応じた音(例えば、当該音素を音符情報の示す音高で出力し続ける音)をダミー音として出力し、その他の場合は先に入力された方の情報に応じた音或いはブレス音等をダミー音として出力する。このような態様によっても、合成歌唱音声に先行してダミー音が出力されるため、ユーザの違和感を軽減することができる。なお、入力操作から実際に合成歌唱音声の出力が開始されるまでの遅延をどの程度許容できるかについては個人差があるので、上記時間TMの長さについてはユーザの所望に応じて適宜調整できることが好ましい。
(E:変形)
以上本発明の各実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
(1)上記各実施形態では、歌唱合成に用いる複数種類の合成情報の具体例として、音韻情報と音符情報(韻律情報)を説明したが、音韻情報および音符情報(韻律情報)に加えてベロシティや音符制御情報をダミー音信号の出力制御に利用しても勿論良い。ベロシティとは音の強さを示す情報であり、MIDIにおいては、音高を示す音高情報とともに音符情報を形成する。このようなベロシティの利用方法としては、1つ前の音符についての音符情報に含まれていたベロシティに応じてダミー音の出始めの音量を制御する(ベロシティが大きいほど音量を大きくする)態様が考えられる。また、音符制御情報の一例としてはビブラートやコントロールデータとしてのアタックやリリースが挙げられる。ビブラートを示す音符制御情報が与えられた場合にはダミー音にビブラートを付与し、コントロールデータとしてのアタックの大きさに応じてダミー音の立ち上がりの音量を変化させるようにすれば良い。
ベロシティを合成情報として用いる場合、ベロシティは音高情報とともに音符情報を構成する。このため、韻律情報の役割を果たす音符情報の取得によりベロシティも取得される。しかし、ビブラートの付与を示す情報については、必須の合成情報の何れかと同時に取得されるとは限らない。その一方、必須の合成情報が揃っているにも関わらずダミー音が出力され続けることは好ましくない。そこで、音韻情報と韻律情報の他に、ビブラートの付与を示す情報など必ずしも必須ではない情報を合成情報として用いる場合には、複数種類の合成情報のうちの最先のものの入力から必須の合成情報が揃うまでの間に入力された合成情報を用いて歌唱音声の合成を行うようにすれば良い。例えば、最先の合成情報が音韻情報である場合には、音韻情報の次に音符情報が入力された場合にはその時点で歌唱音声の合成を開始する一方、音韻情報の次にビブラートの付与を示す情報が入力された場合にはさらに音符情報の入力を待ってビブラートを付与した歌唱音声を合成するのである。なお、音韻情報の入力を契機として当該音韻情報の示す先頭の音韻を所定の音高で出力するダミー音の出力を開始する場合には、ビブラートの付与を示す情報の入力を契機として当該ダミー音に当該音高を基準とするビブラートを付与しても良い。また、最先の合成情報が音韻情報ではなく、韻律情報でもない場合は、前述した第1実施形態と同様にノイズ音やブレス音等の所定の音をダミー音として出力するようにすれば良い。
(2)上記各実施形態では、歌唱合成に用いる複数種類の合成情報を入力するための操作部120と、合成歌唱音声を出力するための音声出力部140が歌唱合成装置1に内蔵されていた。しかし、操作部120および音声出力部140の何れか一方或いは両方を歌唱合成装置1の外部機器I/F部150に接続する態様であっても良い。操作部120および音声出力部140の両者を外部機器I/F部150に接続する態様の一例としては、外部機器I/F部150としてイーサネット(登録商標)インタフェースを用い、この外部機器I/F部150にLAN(Local Area Network)やインターネットなどの電気通信回線を接続するとともに、この電気通信回線に操作部120および音声出力部140を接続する態様が挙げられる。このような態様によれば、所謂クラウドコンピューティング形式の歌唱合成サービスを提供することが可能になる。具体的には、操作部120の操作により入力された音韻情報および音符情報を電気通信回線を介して歌唱合成装置に与え、歌唱合成装置には、電気通信回線を介して与えられた音韻情報および音符情報に基づいて歌唱合成処理を実行させる。そして、歌唱合成装置により合成された合成歌唱音声の音声データは電気通信回線を介して音声出力部140に与えられ、音声出力部140は当該音声データに応じた音を出力する。
(3)上記各実施形態では、歌唱合成装置に複数種類の合成情報を入力するための入力手段(操作部120)として歌唱合成用キーボードを用いたが、テンキーやカーソルキー、アルファベットの各文字に対応したキーなどを配列した一般的なキーボードと、所謂MIDIキーボードの組み合わせを上記入力手段としても良い。一般的なキーボードとMIDIキーボードの組み合わせを上記入力手段として用いる場合には、MIDIキーボードに音符情報入力部の役割を担わせ、一般的なキーボードに音韻情報入力部の役割を担わせれば良い。また、GUIとマウスなどのポインティングデバイスとの組み合わせにより音符情報入力部或いは音韻情報入力部を実現しても良い。GUIとマウスなどのポインティングデバイスとの組み合わせにより音符情報入力部を実現する場合には、音韻情報入力部の役割を担う一般的なキーボードと当該音符情報入力部との組み合わせにより上記入力手段を実現することができる。また、GUIとマウスなどのポインティングデバイスとの組み合わせにより音韻情報入力部を実現する場合には、音符情報入力部の役割を担うMIDIキーボードと当該音韻情報入力部との組み合わせにより上記入力手段を実現することができる。
(4)上記各実施形態では、歌唱合成処理とダミー音出力処理とを制御部110に実行させる歌唱合成プログラム162bが歌唱合成装置1の不揮発性記憶部162に予め格納されていた。しかし、この歌唱合成プログラム162bをCD−ROMなどのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布されるプログラムをパーソナルコンピュータなどの一般的なコンピュータに実行させることによって、そのコンピュータを上記実施形態の歌唱合成装置1として機能させることが可能になるからである。また、リアルタイム方式の歌唱合成処理を一部に含むゲームのゲームプログラムに本発明を適用しても勿論良い。具体的には、当該ゲームプログラムに含まれている歌唱合成プログラムを歌唱合成プログラム162bに差し替えても良い。ゲームにおいても、最先の合成情報の入力タイミングと合成音声の出力タイミングの時間差を小さくすることが好ましいことには変わりはないからである。
(5)上記各実施形態では、リアルタイム方式の歌唱合成装置への本発明の適用例を説明した。しかし、本発明の適用対象はリアルタイム方式の歌唱合成装置に限定されるものではない。例えば、音声ガイダンスにおける案内音声をリアルタイム方式で合成する音声合成装置、或いは小説や詩などの文芸作品の朗読音声をリアルタイム方式で合成する音声合成装置に本発明を適用しても良い。これらの音声合成装置においても、発話内容を表す音韻情報と発話態様を示す韻律情報が揃ったことを契機として音声合成処理が実行されることは、上記各実施形態の歌唱合成装置と変わりはないからである。また、本発明の適用対象は歌唱合成機能や音声合成機能を有する玩具(歌唱合成装置や音声合成装置を内蔵した玩具)であっても良い。
1…歌唱合成装置、110…制御部、120…操作部、130…表示部、140…音声出力部、142…D/A変換器、144…増幅器、146…スピーカ、150…外部機器I/F、160…記憶部、162…不揮発性記憶部、162a…歌唱合成ライブラリ、162b…歌唱合成プログラム、162c…ダミー音ライブラリ、164…揮発性記憶部、170…バス。

Claims (5)

  1. 音声信号の合成に用いる複数種類の合成情報であって、合成対象の音声の音韻を示す音韻情報と当該音声における韻律変化を示す韻律情報とを含む複数種類の合成情報を入力するための入力手段と、
    前記複数種類の合成情報のうちの最先のものが前記入力手段へ入力されてから少なくとも前記音韻情報と前記韻律情報が揃うまでの間に前記入力手段を介して入力された合成情報を用いて音声信号を合成して出力するとともに、当該最先の合成情報が入力されてから当該音声信号の出力が開始されるまでの間、ダミー音を表すダミー音信号を出力する音声合成手段と、
    を有することを特徴とする音声合成装置。
  2. 前記音声合成手段は、前記入力手段へ入力された合成情報を用いて合成された音声信号の表す音声と前記ダミー音とが滑らかにつながるように、ダミー音信号を生成して、または当該音声信号とダミー音信号の両者の信号レベルを調整して、出力することを特徴とする請求項1に記載の音声合成装置。
  3. 前記音声合成手段は、ダミー音の音量が徐々に大きくなるように信号レベルを調整しつつダミー音信号を出力することを特徴とする請求項1または2に記載の音声合成装置。
  4. 前記音声合成手段は、前記複数種類の合成情報のうち最先のものが入力されてから、前記入力手段へ入力された合成情報を用いて合成された音声信号の出力が開始されるまでの間、複数種のダミー音が順次出力されるようにダミー音信号を切り替えることを特徴とする請求項1〜3の何れか1項に記載の音声合成装置。
  5. 前記音声合成手段は、前記複数種類の合成情報のうちの最先のものが入力されてから所定の待ち時間が経過するまでに少なくとも前記音韻情報と前記韻律情報が揃わなかった場合には、前記ダミー音信号の出力を停止することを特徴とする請求項1〜3の何れか1項に記載の音声合成装置。
JP2012250436A 2012-11-14 2012-11-14 音声合成装置 Active JP6044284B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012250436A JP6044284B2 (ja) 2012-11-14 2012-11-14 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012250436A JP6044284B2 (ja) 2012-11-14 2012-11-14 音声合成装置

Publications (2)

Publication Number Publication Date
JP2014098800A true JP2014098800A (ja) 2014-05-29
JP6044284B2 JP6044284B2 (ja) 2016-12-14

Family

ID=50940853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012250436A Active JP6044284B2 (ja) 2012-11-14 2012-11-14 音声合成装置

Country Status (1)

Country Link
JP (1) JP6044284B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156417A (ja) * 2017-03-17 2018-10-04 ヤマハ株式会社 入力装置及び音声合成装置
WO2019003349A1 (ja) * 2017-06-28 2019-01-03 ヤマハ株式会社 音発生装置及び方法
WO2019240042A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 表示制御方法、表示制御装置およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004144814A (ja) * 2002-10-22 2004-05-20 Yamaha Corp ブレス音合成方法、ブレス音合成装置およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004144814A (ja) * 2002-10-22 2004-05-20 Yamaha Corp ブレス音合成方法、ブレス音合成装置およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156417A (ja) * 2017-03-17 2018-10-04 ヤマハ株式会社 入力装置及び音声合成装置
WO2019003349A1 (ja) * 2017-06-28 2019-01-03 ヤマハ株式会社 音発生装置及び方法
JPWO2019003349A1 (ja) * 2017-06-28 2020-01-16 ヤマハ株式会社 音発生装置及び方法
CN110720122A (zh) * 2017-06-28 2020-01-21 雅马哈株式会社 音发生装置及方法
CN110720122B (zh) * 2017-06-28 2023-06-27 雅马哈株式会社 音发生装置及方法
WO2019240042A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 表示制御方法、表示制御装置およびプログラム
US20210096808A1 (en) * 2018-06-15 2021-04-01 Yamaha Corporation Display control method, display control device, and program
JPWO2019240042A1 (ja) * 2018-06-15 2021-07-08 ヤマハ株式会社 表示制御方法、表示制御装置およびプログラム
US11893304B2 (en) * 2018-06-15 2024-02-06 Yamaha Corporation Display control method, display control device, and program

Also Published As

Publication number Publication date
JP6044284B2 (ja) 2016-12-14

Similar Documents

Publication Publication Date Title
JP5821824B2 (ja) 音声合成装置
CN110634464A (zh) 电子乐器、电子乐器的控制方法以及存储介质
US9355634B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
JP2011048335A (ja) 歌声合成システム、歌声合成方法及び歌声合成装置
JP6728754B2 (ja) 発音装置、発音方法および発音プログラム
US20210295819A1 (en) Electronic musical instrument and control method for electronic musical instrument
US20230034572A1 (en) Voice synthesis method, voice synthesis apparatus, and recording medium
US20220076651A1 (en) Electronic musical instrument, method, and storage medium
US20220076658A1 (en) Electronic musical instrument, method, and storage medium
US20210193098A1 (en) Electronic musical instruments, method and storage media
CN111696498A (zh) 键盘乐器以及键盘乐器的计算机执行的方法
JP6044284B2 (ja) 音声合成装置
JP6060520B2 (ja) 音声合成装置
JP6167503B2 (ja) 音声合成装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP2020003762A (ja) 簡易操作声質変換システム
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP5176981B2 (ja) 音声合成装置、およびプログラム
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP2001042879A (ja) カラオケ装置
Howard The vocal tract organ and the vox humana organ stop
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP2002182675A (ja) 音声合成装置、ボーカルデータ生成装置および歌唱装置
JP6191094B2 (ja) 音声素片切出装置
WO2022190502A1 (ja) 音生成装置およびその制御方法、プログラム、電子楽器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161031

R151 Written notification of patent or utility model registration

Ref document number: 6044284

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151