JP2013238662A - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP2013238662A JP2013238662A JP2012109822A JP2012109822A JP2013238662A JP 2013238662 A JP2013238662 A JP 2013238662A JP 2012109822 A JP2012109822 A JP 2012109822A JP 2012109822 A JP2012109822 A JP 2012109822A JP 2013238662 A JP2013238662 A JP 2013238662A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- data
- phoneme
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
【解決手段】デコード済データ記憶領域231には、予め定められた音素から無音への遷移部分の音声波形を表すデータが予めデコードされたデコード済データが記憶される。MIDIメッセージ受信処理部212がノートオンメッセージを受信すると、デコード部217が受信されたノートオンメッセージに対応する音素の音声素片データをデコードし、音声合成部218がデコードされた音声素片データを用いて合成音声データを生成する。その後、ノートオフメッセージが受信されると、音声合成部218は、受信されたノートオフメッセージに対応するデコード済データをデコード済データ記憶領域231から読み出し、読み出したデコード済データを用いて音声合成データを生成する。
【選択図】図4
Description
本発明は上述の背景に鑑みてなされたものであり、ユーザによって自由に行われる演奏に合わせて合成音声を生成する装置において、消音のための演奏操作がなされてから合成音声が消音されるまでの遅延を軽減することのできる技術を提供することを目的とする。
また、本発明の更に好ましい態様において、前記記憶部は、前記デコード済データを、前記音声合成部による音声合成処理が終了するまでの期間に渡って記憶してもよい。
図1は、この発明の一実施形態である歌唱合成システムの構成を示すブロック図である。この歌唱合成システムは、演奏データ発生装置100と、音声合成装置200とをMIDIケーブル等の通信ケーブル300により接続してなるものである。この歌唱合成システムにおいて、演奏データ発生装置100は、ユーザの演奏操作に応じて演奏データたるMIDIメッセージを発生する装置であり、例えばMIDI鍵盤楽器である。音声合成装置200は、合成音声を生成する装置であり、例えばパーソナルコンピューターや携帯通信端末等の装置である。音声合成装置200は、演奏データ発生装置100からMIDIメッセージが順次与えられるのに応じて、予め記憶した歌詞データを歌唱位置を変えつつ順次利用し、MIDIメッセージにより定まるピッチおよび発音期間を持った歌唱音声をリアルタイムに合成する。
次に、本実施形態の動作を説明する。
ユーザは、音声合成装置200に歌唱合成を行わせるに当たり、必要なアプリケーションの立ち上げを行う。すなわち、操作部230の操作により、歌詞データを入力するためのアプリケーション(以下「歌詞データ入力アプリケーション」という)や歌唱合成アプリケーションの起動を制御部210に指示する。また、ユーザは、操作部130の操作により、MIDIメッセージを発生させるためのアプリケーションの起動を制御部110に指示する。
次いで、音声合成装置200が行う音声合成動作について説明する。上述のようにして歌唱合成の準備が完了すると、ユーザは、演奏データ発生装置100の鍵盤部160を用いて鍵盤演奏を行い、必要に応じて操作部130を操作する。演奏データ発生装置100では、鍵盤部160や操作部130の操作イベントが制御部110に引き渡される。制御部110は、操作イベントに対応したMIDIメッセージを生成し、生成したMIDIメッセージをインターフェース部150内のMIDIインターフェースを介して音声合成装置200に送信する。
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。
音声素片データの態様は上記実施形態に示したものに限られない。例えば、各音声素片のフレームFごとのスペクトル包絡(スペクトルエンベロープ)を示すデータを音声素片データとしてもよいし、各音声素片の時間軸上における波形を示すデータを音声素片データとしてもよい。また、音声素片の波形をSMS(Spectral Modeling Synthesis)技術によって調和成分(Deterministic Component)と非調和成分(Stochastic Component)とに区分し、この各成分を示すデータを音声素片データとしてもよい。この場合には、調和成分と非調和成分の双方について音声合成部218による処理が実行されるとともに、この処理後の調和成分と非調和成分とが音声合成部218の後段の加算部によって加算されることになる。また、各音声素片をフレームFに区分したうえで各フレームFのスペクトル包絡に関する複数の特徴量(例えばスペクトル包絡のピークの周波数やゲイン、またはスペクトル包絡の全体の傾きなど)を抽出しておき、これらの特徴量を表す複数のパラメータのセットを音声素片データとしてもよい。このように、本発明において音声素片を保持する形態の如何は不問である。
上記実施形態においては、歌唱音声を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明を適用できることはもちろんである。例えば、各種の文書を示す文書データ(例えばテキストファイル)に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。すなわち、テキストファイルに含まれる文字コードに基づいて素片取得部215が音声素片データを音声素片データベースDB1から読み出し、この音声素片データに基づいて音声が合成される構成としてもよい。この場合は、装置の制御部が、各音素の発音開始タイミングや発音終了タイミングを示す発音指示を、ユーザによる操作に応じた操作信号を出力する操作部や、また、通信ケーブル等を介して接続された他の装置から取得する構成としてもよい。
また、上述の実施形態では、演奏データ発生装置100として鍵盤を備えたMIDI鍵盤楽器を例示したが、演奏データ発生装置はMIDI鍵盤楽器に限らず、MIDIメッセージを出力するパーソナルコンピューター等の他の装置であってもよい。また、演奏データ発生装置100が出力するメッセージはMIDIメッセージに限定されるものではなく、音素の発音開始タイミングや発音終了タイミングを示す発音指示を出力する装置であればどのような装置であってもよい。
音声合成装置200のハードウェア構成は、図1で説明したものに限定されない。図4に示される機能を実装できるものであれば、音声合成装置200はどのようなハードウェア構成であってもよい。例えば、音声合成装置200は、図4に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。また、例えば、図4に示す変換処理部216が、DSPなどの音声処理に専用されるハードウェアによって実現されてもよい。
上述の実施形態では、歌唱合成処理を行う前にユーザが歌詞データを予め入力する構成としたが、歌詞データが入力されるタイミングはこれに限らず、歌詞データをリアルタイムに入力される構成であってもよい。すなわち、MIDIメッセージが音声合成装置200に入力されるのと並行して歌詞データが入力される構成であってもよい。また、例えば、MIDIメッセージに歌詞(音素)を表すデータを含める構成としてもよい。
上述の実施形態では、初期設定部211が、歌唱合成アプリケーションが起動されたときに、予め定められた音素から無音への遷移部分の音声波形を表す音声素片データをデコードし、デコード済データ記憶領域231に記憶する構成とした。無音遷移データをデコードするタイミングは上述の実施形態で示したタイミングに限らない。例えば、予め定められた音素(母音又は鼻音)に対応するノートオンメッセージが受信されたタイミングで、無音遷移データのデコード処理を行う(図5に点線で示す時間T2−16)ようにしてもよい。この場合、例えば、素片選択部215は、歌唱位置更新部213によって現在の歌唱位置であると特定された表音文字が母音である場合には、この母音に対応する音声素片データを音声素片データベースDB1から読み出すに加えて、この母音から無音への遷移部分の音声波形を表す音声素片データを音声素片データベースDB1から読み出して変換処理部216に引き渡す。具体的には、例えば、歌唱位置更新部213によって「あ」の表音文字が特定された場合には、素片選択部215は、[a]の音声素片データを音声素片データベースDB1から読み出すとともに、[a−#]の音声素片データを音声素片データベースDB1から読み出し、変換処理部216のデコード部217に供給する。
上述の実施形態では、デコード済データ記憶領域231には、歌唱音声の合成処理が終了するまでの期間に渡って、デコードされた無音遷移データが記憶される構成としたが、記憶エリアが開放されるタイミングは上述の実施形態で示したものに限らない。例えば、予め定められた音素に対応するノートオンメッセージが受信されたタイミングで無音遷移データのデコード処理を行ってデコード済データ記憶領域231にデコード済の無音遷移データを格納し、この無音遷移データについての発音処理が終了したタイミングでこのデコード済の無音遷移データが格納された記憶エリアを開放する構成としてもよい。
上述の実施形態において、どの音素についての無音遷移データを予めデコードしておくかを、ユーザが操作部230を用いて選定できるようにしてもよい。この場合、初期設定部211は、ユーザによって操作される操作部230から出力される情報に従って1又は複数の音素を選定し、選定した音素に対応する無音遷移データをデコードしてデコード済データを生成し、生成したデコード済データをデコード済データ記憶領域231に記憶する構成としてもよい。
上述の実施形態では、変換処理部216は、MIDIメッセージ受信処理部212からノートオフメッセージが引き渡され、かつ、このノートオフメッセージが引き渡されてから予め定められた時間T3内に次の音素のノートオンメッセージが引き渡されなかったときに、無音遷移データをデコード済データ記憶領域231から読み出し、読み出したデコード済の無音遷移データを用いて音声合成処理を行った。これに代えて、変換処理部126が、MIDIメッセージ受信処理部212からノートオフメッセージが引き渡された場合に、(予め定められた時間T3だけ待機することなく)無音遷移データをデコード済データ記憶領域231から読み出し、読み出したデコード済の無音遷移データを用いて音声合成処理を行ってもよい。具体的には、例えば、歌詞データとして「今日は、」や、「…でした。」のように文節区切れがある場合には、次の音素のノートオンメッセージの受信の有無を判断することなく、デコード済の無音遷移データを用いて音声合成処理を行ってもよい。
本発明は、音声合成装置以外にも、これらを実現するための方法や、コンピュータに音声合成機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。
Claims (5)
- 音素の発音開始指示又は発音終了指示を示す発音指示を取得する発音指示取得部と、
前記発音指示取得部が前記発音指示を取得した場合に、取得された発音指示に対応する音素を特定する音素特定部と、
音素毎及び音素連鎖毎の音声波形を表すデータが予め定められた規則に従ってエンコードされた音声素片データの集合である音声素片データベースから、前記音素特定部により特定された音素に対応する音声素片データを取得する音声素片データ取得部と、
前記音声素片データ取得部により取得された音声素片データをデコードするデコード部と、
前記デコード部によりデコードされた音声素片データを用いて合成音声を表す合成音声データを生成し、生成した合成音声データを出力するとともに、前記発音指示取得部が前記発音終了指示を取得した場合に、前記音声素片データベースに登録された音声素片データであって予め定められた音素から無音への遷移部分の音声波形を表す音声素片データがデコードされたデコード済データを記憶する記憶部から、該取得された発音終了指示に対応する音素として前記音素特定部により特定された音素から無音への遷移部分の音声波形に対応するデコード済データを読み出し、読み出したデコード済データを用いて合成音声データを生成し、生成した合成音声データを出力する音声合成部と
を具備することを特徴とする音声合成装置。 - 前記発音指示取得部が前記発音終了指示を取得する前のタイミングにおいて、予め定められた条件を満たす音素から無音への遷移部分の音声波形を表す音声素片データをデコードしてデコード済データを生成し、生成したデコード済データを前記記憶部に記憶するデコード済データ記憶制御部
を具備することを特徴とする請求項1に記載の音声合成装置。 - 前記デコード済データ記憶制御部は、前記発音指示取得部が前記発音開始指示を取得した場合に、該発音開始指示に対応する音素として前記音素特定部により特定された音素から無音への遷移部分の音声波形を表す音声素片データをデコードしてデコード済データを生成し、生成したデコード済データを前記記憶部に記憶する
ことを特徴とする請求項2に記載の音声合成装置。 - 前記デコード済データ記憶制御部は、利用者によって操作される操作部から出力される情報に従って1又は複数の音素を選定し、選定した音素から無音への遷移部分の音声波形を表す音声素片データをデコードしてデコード済データを生成し、生成したデコード済データを前記記憶部に記憶する
ことを特徴とする請求項2に記載の音声合成装置。 - 前記音声合成部は、前記発音指示取得部が前記発音開始指示を取得し、かつ、該取得された発音開始指示に対応する音素に対応するデコード済データが前記記憶部に記憶されている場合に、ユーザに報知を行うための情報を出力する
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012109822A JP6060520B2 (ja) | 2012-05-11 | 2012-05-11 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012109822A JP6060520B2 (ja) | 2012-05-11 | 2012-05-11 | 音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013238662A true JP2013238662A (ja) | 2013-11-28 |
JP6060520B2 JP6060520B2 (ja) | 2017-01-18 |
Family
ID=49763745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012109822A Expired - Fee Related JP6060520B2 (ja) | 2012-05-11 | 2012-05-11 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6060520B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105529024A (zh) * | 2014-10-15 | 2016-04-27 | 雅马哈株式会社 | 音韵信息合成装置、语音合成装置以及音韵信息合成方法 |
CN105957515A (zh) * | 2015-03-05 | 2016-09-21 | 雅马哈株式会社 | 声音合成方法、声音合成装置和存储声音合成程序的介质 |
WO2016152708A1 (ja) * | 2015-03-20 | 2016-09-29 | ヤマハ株式会社 | 音制御装置、音制御方法、および音制御プログラム |
JPWO2020217801A1 (ja) * | 2019-04-26 | 2020-10-29 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169564A (ja) * | 2000-12-04 | 2002-06-14 | Yamaha Corp | 音源システム |
JP2008170592A (ja) * | 2007-01-10 | 2008-07-24 | Yamaha Corp | 歌唱合成のための装置およびプログラム |
-
2012
- 2012-05-11 JP JP2012109822A patent/JP6060520B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169564A (ja) * | 2000-12-04 | 2002-06-14 | Yamaha Corp | 音源システム |
JP2008170592A (ja) * | 2007-01-10 | 2008-07-24 | Yamaha Corp | 歌唱合成のための装置およびプログラム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105529024A (zh) * | 2014-10-15 | 2016-04-27 | 雅马哈株式会社 | 音韵信息合成装置、语音合成装置以及音韵信息合成方法 |
CN105957515A (zh) * | 2015-03-05 | 2016-09-21 | 雅马哈株式会社 | 声音合成方法、声音合成装置和存储声音合成程序的介质 |
CN105957515B (zh) * | 2015-03-05 | 2019-10-22 | 雅马哈株式会社 | 声音合成方法、声音合成装置和存储声音合成程序的介质 |
WO2016152708A1 (ja) * | 2015-03-20 | 2016-09-29 | ヤマハ株式会社 | 音制御装置、音制御方法、および音制御プログラム |
JP2016177277A (ja) * | 2015-03-20 | 2016-10-06 | ヤマハ株式会社 | 発音装置、発音方法および発音プログラム |
JPWO2020217801A1 (ja) * | 2019-04-26 | 2020-10-29 | ||
WO2020217801A1 (ja) * | 2019-04-26 | 2020-10-29 | ヤマハ株式会社 | オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム |
JP7226532B2 (ja) | 2019-04-26 | 2023-02-21 | ヤマハ株式会社 | オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6060520B2 (ja) | 2017-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20110231193A1 (en) | Synthesized singing voice waveform generator | |
JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
JP2008545995A (ja) | ハイブリッド音声合成装置、方法および用途 | |
JP2008170592A (ja) | 歌唱合成のための装置およびプログラム | |
US20180130462A1 (en) | Voice interaction method and voice interaction device | |
JP7036141B2 (ja) | 電子楽器、方法及びプログラム | |
US9552806B2 (en) | Sound synthesizing apparatus | |
US8103505B1 (en) | Method and apparatus for speech synthesis using paralinguistic variation | |
JP2006030575A (ja) | 音声合成装置およびプログラム | |
US11854521B2 (en) | Electronic musical instruments, method and storage media | |
JP6060520B2 (ja) | 音声合成装置 | |
JP2016090916A (ja) | 音声合成装置 | |
JP2018004870A (ja) | 音声合成装置および音声合成方法 | |
US7280969B2 (en) | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer | |
JP6044284B2 (ja) | 音声合成装置 | |
WO2007030233A2 (en) | Speech dialog method and device | |
JP2014098802A (ja) | 音声合成装置 | |
JP6191094B2 (ja) | 音声素片切出装置 | |
JP2010169889A (ja) | 音声合成装置、およびプログラム | |
JP3233036B2 (ja) | 歌唱音合成装置 | |
JP2004061753A (ja) | 歌唱音声を合成する方法および装置 | |
JP2002304186A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6056190B2 (ja) | 音声合成装置 | |
WO2023171522A1 (ja) | 音響生成方法、音響生成システムおよびプログラム | |
JP5982942B2 (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150421 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161128 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6060520 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |