JP2003255998A - 歌唱合成方法と装置及び記録媒体 - Google Patents

歌唱合成方法と装置及び記録媒体

Info

Publication number
JP2003255998A
JP2003255998A JP2002052006A JP2002052006A JP2003255998A JP 2003255998 A JP2003255998 A JP 2003255998A JP 2002052006 A JP2002052006 A JP 2002052006A JP 2002052006 A JP2002052006 A JP 2002052006A JP 2003255998 A JP2003255998 A JP 2003255998A
Authority
JP
Japan
Prior art keywords
spectrum
data
voice
amplitude
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002052006A
Other languages
English (en)
Other versions
JP3815347B2 (ja
Inventor
Hidenori Kenmochi
秀紀 劔持
Bonada Jordi
ボナダ ジョルディ
Rosukosu Alex
ロスコス アレックス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2002052006A priority Critical patent/JP3815347B2/ja
Priority to US10/375,420 priority patent/US6992245B2/en
Publication of JP2003255998A publication Critical patent/JP2003255998A/ja
Application granted granted Critical
Publication of JP3815347B2 publication Critical patent/JP3815347B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/002Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/056MIDI or other note-oriented file format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
    • G10H2240/281Protocol or standard connector for transmission of analog or digital data to or from an electrophonic musical instrument
    • G10H2240/311MIDI transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】 【課題】 自然な歌唱音声又は高品質の歌唱音声を合成
する。 【解決手段】 音素又は音素連鎖からなる音声素片に対
応する音声波形を周波数分析して周波数スペクトル
(A)を検出する。周波数スペクトル(A)上でP
の局所的ピークを検知し、これらのピークを含むR
のスペクトル分布領域を指定する。各スペクトル分布領
域毎に、振幅スペクトル分布を周波数軸に関して表わす
振幅スペクトルデータと、位相スペクトル分布を周波数
軸に関して表わす位相スペクトルデータとを生成する。
各スペクトル分布領域の振幅スペクトル分布を入力音符
ピッチに応じて周波数軸上で(B)の様に移動すべく振
幅スペクトルデータを修正し、この修正に対応して位相
スペクトルデータを修正する。所望の音色に対応するス
ペクトル包絡に沿うようにスペクトル強度を調整する。
修正された振幅及び位相スペクトルデータを時間領域の
合成音声信号に変換する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、フェーズボコー
ダ技術を用いて歌唱音声を合成する方法と装置及び記録
媒体に関するものである。
【0002】
【従来の技術】従来、歌唱合成技術としては、米国特許
第5029509号明細書等により公知のSMS(Spec
tral Modeling Synthesis)技術を用いて歌唱合成を
行なうものが知られている(例えば、特許第29069
70号参照)。
【0003】図21は、特許2906970号に示され
る技術を採用した歌唱合成装置を示すものである。ステ
ップS1では、歌唱音声信号を入力し、ステップS2で
は、入力された歌唱音声信号にSMS分析処理及び区間
切出し処理を施す。
【0004】SMS分析処理では、入力音声信号を一連
の時間フレームに区分し、各フレーム毎にFFT(Fast
Fourier Transform)等により1組の強度(マグニチ
ュード)スペクトルデータを生成し、各フレーム毎に1
組の強度スペクトルデータから複数のピークに対応する
線スペクトルを抽出する。これらの線スペクトルの振幅
値及び周波数を表わすデータを調和成分(Deterministi
c Component)のデータと称する。次に、入力音声波形
のスペクトルから調和成分のスペクトルを差引いて残差
スペクトルを得る。この残差スペクトルを非調和成分
(Stochastic Component)と称する。
【0005】区間切出し処理では、SMS分析処理で得
られた調和成分のデータ及び非調和成分のデータを音声
素片に対応して区分する。音声素片とは、歌詞の構成要
素であり、例えば[a],[i]のような単一の音素
(又は音韻:Phoneme)又は例えば「a i」,[a
p]のような音素連鎖(複数音素の連鎖)からなるもの
である。
【0006】音声素片データベースDBには、音声素片
毎に調和成分のデータ及び非調和成分のデータが記憶さ
れる。
【0007】歌唱合成に際しては、ステップS3で歌詞
データ及びメロディデータを入力する。そして、ステッ
プS4では、歌詞データが表わす音素列に音素列/音声
素片変換処理を施して音素列を音声素片に区分し、音声
素片毎にそれに対応する調和成分のデータ及び非調和成
分のデータを音声素片データとしてデータベースDBか
ら読出す。
【0008】ステップS5では、データベースDBから
読出された音声素片データ(調和成分のデータ及び非調
和成分のデータ)に音声素片接続処理を施して音声素片
データ同士を発音順に接続する。ステップS6では、音
声素片毎に調和成分のデータと入力メロディデータの示
す音符ピッチとに基づいて該音符ピッチに適合した新た
な調和成分のデータを生成する。このとき、新たな調和
成分のデータでは、ステップS5の処理を受けた調和成
分のデータが表わすスペクトル包絡の形状をそのまま引
継ぐようにスペクトル強度を調整すると、ステップS1
で入力した音声信号の音色を再現することができる。
【0009】ステップS7では、ステップS6で生成し
た調和成分のデータとステップS5の処理を受けた非調
和成分のデータとを音声素片毎に加算する。そして、ス
テップS8では、ステップS7で加算処理を受けたデー
タを音声素片毎に逆FFT等により時間領域の合成音声
信号に変換する。
【0010】一例として、「サイタ」(saita)と
いう歌唱音声を合成するには、データベースDBから音
声素片「#s」、「s a」、「a」、「a i」、
「i」、「i t」、「t a」、「a」、「a#」(#
は無音を表わす)にそれぞれ対応する音声素片データを
読出してステップS5で接続する。そして、ステップS
6で音声素片毎に入力音符ピッチに対応するピッチを有
する調和成分のデータを生成し、ステップS7の加算処
理及びステップS8の変換処理を経ると、「サイタ」の
歌唱合成音信号が得られる。
【0011】
【発明が解決しようとする課題】上記した従来技術によ
ると、調和成分と非調和成分の一体感が十分でないとい
う問題点がある。すなわち、ステップS1で入力した音
声信号のピッチをステップS6で入力音符ピッチに対応
して変更し、変更したピッチを有する調和成分のデータ
にステップS7で非調和成分のデータを加算するため、
例えば、「サイタ」の歌唱における「i」のような伸ば
し音の区間で非調和成分が分離して響き、人工的な音声
として聴こえるという問題点がある。
【0012】このような問題点に対処するため、非調和
成分のデータが表わす低域の振幅スペクトル分布を入力
音符ピッチに応じて修正することを本願出願人は先に提
案した(特願2000−401041参照)。しかし、
このように非調和成分のデータを修正しても、非調和成
分が分離して響くのを完全に抑えるのは容易でない。
【0013】また、SMS技術にあっては、有音の摩擦
音や破裂音等の分析が難しく、合成音が非常に人工的な
音になってしまうという問題点もある。SMS技術は、
音声信号が調和成分と非調和成分とから成り立っている
ことを前提にしているものであり、音声信号を調和成分
と非調和成分とに完全に分離できないことは、SMS技
術にとって根本的な問題といえる。
【0014】一方、フェーズボコーダ技術は、米国特許
第3360610号明細書に示されている。フェーズボ
コーダ技術では、古くはフィルタバンクとして、新しく
は入力信号のFFT結果として周波数領域で信号を表現
する。最近では、フェーズボコーダ技術が楽音の時間軸
圧伸(ピッチをそのままにして時間だけ圧縮又は伸張す
る)やピッチ変換(時間長はそのままにしてピッチだけ
変化させる)などに広く利用されている。この種のピッ
チ変換技術としては、入力信号のFFT結果をそのまま
用いるのではなく、FFTスペクトルを局所的ピークを
中心とした複数のスペクトル分布領域に分割し、各スペ
クトル分布領域毎にスペクトル分布を周波数軸上で移動
することによりピッチ変換を行なうものが知られている
(例えば、J.Laroche and M.Dolson,“New Pha
se−Vocoder Techniques forReal−Time Pitch Shi
fting,Chorusing,Harmonizing,and Other ExoticA
udio Modifications”J.Audio Eng.Soc.,Vol.
47,No.11,1999 November 参照)。しか
し、このようなピッチ変換技術と歌唱合成技術との関連
性については明らかにされていない。
【0015】この発明の目的は、フェーズボコーダ技術
を用いて自然で高品質の音声合成を可能にした新規な歌
唱合成方法と装置及び記録媒体を提供することにある。
【0016】
【課題を解決するための手段】この発明に係る第1の歌
唱合成方法は、合成すべき音声の音声素片に対応する音
声波形を周波数分析して周波数スペクトルを検出するス
テップと、前記周波数スペクトル上でスペクトル強度の
局所的ピークを複数検知するステップと、各局所的ピー
ク毎に該局所的ピークとその前後のスペクトルとを含む
スペクトル分布領域を前記周波数スペクトル上で指定
し、各スペクトル分布領域毎に振幅スペクトル分布を周
波数軸に関して表わす振幅スペクトルデータを生成する
ステップと、各スペクトル分布領域毎に位相スペクトル
分布を周波数軸に関して表わす位相スペクトルデータを
生成するステップと、前記合成すべき音声についてピッ
チを指定するステップと、各スペクトル分布領域毎に前
記振幅スペクトルデータが表わす振幅スペクトル分布を
前記ピッチに応じて周波数軸上で移動するように前記振
幅スペクトルデータを修正するステップと、各スペクト
ル分布領域毎に前記位相スペクトルデータが表わす位相
スペクトル分布を前記振幅スペクトルデータの修正に対
応して修正するステップと、前記修正に係る振幅スペク
トルデータ及び前記修正に係る位相スペクトルデータを
時間領域の合成音声信号に変換するステップとを含むも
のである。
【0017】第1の歌唱合成方法によれば、音声素片
(音素又は音素連鎖)に対応する音声波形が周波数分析
されて周波数スペクトルが検出される。そして、周波数
スペクトルに基づいて振幅スペクトルデータと、位相ス
ペクトルデータとが生成される。所望のピッチが指定さ
れると、指定のピッチに応じて振幅スペクトルデータ及
び位相スペクトルデータが修正され、修正に係る振幅ス
ペクトルデータ及び位相スペクトルデータに基づいて時
間領域の合成音声信号が発生される。このように音声波
形の周波数分析結果を調和成分と非調和成分とに分離し
ないで音声合成を行なうため、非調和成分が分離して響
くことがなく、自然な合成音を得ることができる。ま
た、有声の摩擦音や破裂音であっても自然な合成音が得
られる。
【0018】この発明に係る第2の歌唱合成方法は、合
成すべき音声の音声素片に対応する振幅スペクトルデー
タ及び位相スペクトルデータを取得するステップであっ
て、前記振幅スペクトルデータとしては、前記音声素片
の音声波形を周波数分析して得た周波数スペクトルにお
いてスペクトル強度の複数の局所的ピークのうちの各局
所的ピーク毎に該局所的ピークとその前後のスペクトル
とを含むスペクトル分布領域における振幅スペクトル分
布を周波数軸に関して表わすデータを取得し、前記位相
スペクトルデータとしては、各スペクトル分布領域毎に
位相スペクトル分布を周波数軸に関して表わすデータを
取得するものと、前記合成すべき音声についてピッチを
指定するステップと、各スペクトル分布領域毎に前記振
幅スペクトルデータが表わす振幅スペクトル分布を前記
ピッチに応じて周波数軸上で移動するように前記振幅ス
ペクトルデータを修正するステップと、各スペクトル分
布領域毎に前記位相スペクトルデータが表わす位相スペ
クトル分布を前記振幅スペクトルデータの修正に対応し
て修正するステップと、前記修正に係る振幅スペクトル
データ及び前記修正に係る位相スペクトルデータを時間
領域の合成音声信号に変換するステップとを含むもので
ある。
【0019】第2の歌唱合成方法は、第1の歌唱合成方
法において、位相スペクトルデータを生成するステップ
までの処理を予め実行して振幅スペクトルデータ及び位
相スペクトルデータを音声素片毎にデータベースに記憶
しておいた場合、又は位相スペクトルデータを生成する
ステップまでの処理を他の機器で実行する場合に相当す
る。すなわち、第2の歌唱合成方法において、取得する
ステップでは、他の機器又はデータベースから合成すべ
き音声の音声素片に対応する振幅スペクトルデータ及び
位相スペクトルデータを取得し、ピッチを指定するステ
ップ以降の処理を第1の歌唱合成方法と同様に実行す
る。従って、第2の歌唱合成方法によれば、第1の歌唱
合成方法と同様に自然な合成音が得られる。
【0020】第1又は第2の歌唱合成方法において、前
記ピッチを指定するステップでは、経時的なピッチ変化
を示すピッチゆらぎデータに従って前記ピッチを指定す
るようにしてもよい。このようにすると、合成音のピッ
チを経時的に変化させることができ、例えばピッチベン
ド、ビブラート等を付加することができる。また、前記
ピッチゆらぎデータとしては、前記合成すべき音声につ
いて音楽的表情を制御するための制御パラメータに対応
したピッチゆらぎデータを用いるようにしてもよい。こ
のようにすると、例えば音色、ダイナミクス等の制御パ
ラメータに応じて経時的なピッチ変化態様を異ならせる
ことができる。
【0021】第1又は第2の歌唱合成方法において、前
記振幅スペクトルデータを修正するステップでは、修正
前の複数の局所的ピークを結ぶ線に対応するスペクトル
包絡に沿わない局所的ピークについてスペクトル強度を
該スペクトル包絡に沿うように修正するようにしてもよ
い。このようにすると、元の音声波形の音色を再現する
ことができる。また、前記振幅スペクトルデータを修正
するステップでは、予め定めたスペクトル包絡に沿わな
い局所的ピークについてスペクトル強度を該スペクトル
包絡に沿うように修正するようにしてもよい。このよう
にすると、元の音声波形とは音色を異ならせることがで
きる。
【0022】上記のようにスペクトル強度をスペクトル
包絡に沿うように修正する場合において、前記振幅スペ
クトルデータを修正するステップでは、一連の時間フレ
ームについて経時的なスペクトル包絡の変化を示すスペ
クトル包絡ゆらぎデータに従ってスペクトル強度を調整
することにより経時的に変化するスペクトル包絡を設定
するようにしてもよい。このようにすると、合成音の音
色を経時的に変化させることができ、例えばトーンベン
ド等を付加することができる。また、前記スペクトル包
絡ゆらぎデータとしては、前記合成すべき音声について
音楽的表情を制御するための制御パラメータに対応した
スペクトル包絡ゆらぎデータを用いるようにしてもよ
い。このようにすると、例えば音色、ダイナミクス等の
制御パラメータに応じて経時的な音色変化態様を異なら
せることができる。
【0023】この発明に係る第1の歌唱合成装置は、合
成すべき音声について音声素片及びピッチを指定する指
定手段と、音声素片データベースから音声素片データと
して前記音声素片に対応する音声波形を表わす音声波形
データを読出す読出手段と、前記音声波形データが表わ
す音声波形を周波数分析して周波数スペクトルを検出す
る検出手段と、前記音声波形に対応する周波数スペクト
ル上でスペクトル強度の局所的ピークを複数検知する検
知手段と、各局所的ピーク毎に該局所的ピークとその前
後のスペクトルとを含むスペクトル分布領域を前記周波
数スペクトル上で指定し、各スペクトル分布領域毎に振
幅スペクトル分布を周波数軸に関して表わす振幅スペク
トルデータを生成する第1の生成手段と、各スペクトル
分布領域毎に位相スペクトル分布を周波数軸に関して表
わす位相スペクトルデータを生成する第2の生成手段
と、各スペクトル分布領域毎に前記振幅スペクトルデー
タが表わす振幅スペクトル分布を前記ピッチに応じて周
波数軸上で移動するように前記振幅スペクトルデータを
修正する第1の修正手段と、各スペクトル分布領域毎に
前記位相スペクトルデータが表わす位相スペクトル分布
を前記振幅スペクトルデータの修正に対応して修正する
第2の修正手段と、前記修正に係る振幅スペクトルデー
タ及び前記修正に係る位相スペクトルデータを時間領域
の合成音声信号に変換する変換手段とを備えたものであ
る。
【0024】また、この発明に係る第2の歌唱合成装置
は、合成すべき音声について音声素片及びピッチを指定
する指定手段と、音声素片データベースから音声素片デ
ータとして前記音声素片に対応する振幅スペクトルデー
タ及び位相スペクトルデータを読出す読出手段であっ
て、前記振幅スペクトルデータとしては、前記音声素片
の音声波形を周波数分析して得た周波数スペクトルにお
いてスペクトル強度の複数の局所的ピークのうちの各局
所的ピーク毎に該局所的ピークとその前後のスペクトル
とを含むスペクトル分布領域における振幅スペクトル分
布を周波数軸に関して表わすデータを読出し、前記位相
スペクトルデータとしては、各スペクトル分布領域毎に
位相スペクトル分布を周波数軸に関して表わすデータを
読出すものと、各スペクトル分布領域毎に前記振幅スペ
クトルデータが表わす振幅スペクトル分布を前記ピッチ
に応じて周波数軸上で移動するように前記振幅スペクト
ルデータを修正する第1の修正手段と、各スペクトル分
布領域毎に前記位相スペクトルデータが表わす位相スペ
クトル分布を前記振幅スペクトルデータの修正に対応し
て修正する第2の修正手段と、前記修正に係る振幅スペ
クトルデータ及び前記修正に係る位相スペクトルデータ
を時間領域の合成音声信号に変換する変換手段とを備え
たものである。
【0025】第1又は第2の歌唱合成装置は、音声素片
データベースを用いて前述の第1又は第2の歌唱合成方
法を実施するものであり、自然な歌唱合成音を得ること
ができる。
【0026】第1又は第2の歌唱合成装置において、前
記指定手段は、前記合成すべき音声について音楽的表情
を制御するための制御パラメータを指定し、前記読出手
段は、前記音声素片及び前記制御パラメータに対応する
音声素片データを読出すようにしてもよい。このように
すると、例えば音色、ダイナミクス等の制御パラメータ
に最適の音声素片データを用いて歌唱合成を行なうこと
ができる。
【0027】第1又は第2の歌唱合成装置において、前
記指定手段は、前記合成すべき音声について音符長及び
/又はテンポを指定し、前記読出手段は、前記音声素片
データを読出す際に前記音声素片データの一部を省略す
るか又は前記音声素片データの一部もしくは全部を繰返
すかして前記音符長及び/又はテンポに対応する時間の
あいだ前記音声素片データの読出しを継続するようにし
てもよい。このようにすると、音符長及び/又はテンポ
に最適の発音継続時間を得ることができる。
【0028】この発明に係る第3の歌唱合成装置は、順
次に合成すべき音声のうちの各音声毎に音声素片及びピ
ッチを指定する指定手段と、音声素片データベースから
前記指定手段での指定に係る各音声素片に対応する音声
波形を読出す読出手段と、各音声素片に対応する音声波
形を周波数分析して周波数スペクトルを検出する検出手
段と、各音声素片に対応する周波数スペクトル上でスペ
クトル強度の局所的ピークを複数検知する検知手段と、
各音声素片について各局所的ピーク毎に該局所的ピーク
とその前後のスペクトルとを含むスペクトル分布領域を
該音声素片に対応する周波数スペクトル上で指定し、各
音声素片について各スペクトル分布領域毎に振幅スペク
トル分布を周波数軸に関して表わす振幅スペクトルデー
タを生成する第1の生成手段と、各音声素片について各
スペクトル分布領域毎に位相スペクトル分布を周波数軸
に関して表わす位相スペクトルデータを生成する第2の
生成手段と、各音声素片について各スペクトル分布領域
毎に前記振幅スペクトルデータが表わす振幅スペクトル
分布を該音声素片に対応するピッチに応じて周波数軸上
で移動するように前記振幅スペクトルデータを修正する
第1の修正手段と、各音声素片について各スペクトル分
布領域毎に前記位相スペクトルデータが表わす位相スペ
クトル分布を前記振幅スペクトルデータの修正に対応し
て修正する第2の修正手段と、前記順次に合成すべき音
声にそれぞれ対応する順次の音声素片が発音順につなが
るように前記修正に係る振幅スペクトルデータを接続す
る第1の接続手段であって、前記順次の音声素片のつな
がり部においてスペクトル強度を一致又は近似させるべ
く調整するものと、前記順次に合成すべき音声にそれぞ
れ対応する順次の音声素片が発音順につながるように前
記修正に係る位相スペクトルデータを接続する第2の接
続手段であって、前記順次の音声素片のつながり部にお
いて位相を一致又は近似させるべく調整するものと、前
記接続に係る振幅スペクトルデータ及び前記接続に係る
位相スペクトルデータを時間領域の合成音声信号に変換
する変換手段とを備えたものである。
【0029】また、この発明に係る第4の歌唱合成装置
は、順次に合成すべき音声のうちの各音声毎に音声素片
及びピッチを指定する指定手段と、音声素片データベー
スから前記指定手段での指定に係る各音声素片に対応す
る振幅スペクトルデータ及び位相スペクトルデータを読
出す読出手段であって、前記振幅スペクトルデータとし
ては、対応する音声素片の音声波形を周波数分析して得
た周波数スペクトルにおいてスペクトル強度の複数の局
所的ピークのうちの各局所的ピーク毎に該局所的ピーク
とその前後のスペクトルとを含むスペクトル分布領域に
おける振幅スペクトル分布を周波数軸に関して表わすデ
ータを読出し、前記位相スペクトルデータとしては、各
スペクトル分布領域毎に位相スペクトル分布を周波数軸
に関して表わすデータを読出すものと、各音声素片につ
いて各スペクトル分布領域毎に前記振幅スペクトルデー
タが表わす振幅スペクトル分布を該音声素片に対応する
ピッチに応じて周波数軸上で移動するように前記振幅ス
ペクトルデータを修正する第1の修正手段と、各音声素
片について各スペクトル分布領域毎に前記位相スペクト
ルデータが表わす位相スペクトル分布を前記振幅スペク
トルデータの修正に対応して修正する第2の修正手段
と、前記順次に合成すべき音声にそれぞれ対応する順次
の音声素片が発音順につながるように前記修正に係る振
幅スペクトルデータを接続する第1の接続手段であっ
て、前記順次の音声素片のつながり部においてスペクト
ル強度を一致又は近似させるべく調整するものと、前記
順次に合成すべき音声にそれぞれ対応する順次の音声素
片が発音順につながるように前記修正に係る位相スペク
トルデータを接続する第2の接続手段であって、前記順
次の音声素片のつながり部において位相を一致又は近似
させるべく調整するものと、前記接続に係る振幅スペク
トルデータ及び前記接続に係る位相スペクトルデータを
時間領域の合成音声信号に変換する変換手段とを備えた
ものである。
【0030】第3又は第4の歌唱合成装置は、音声素片
データベースを用いて前述の第1又は第2の歌唱合成方
法を実施するものであり、自然な歌唱合成音を得ること
ができる。その上、順次の音声素片が発音順につながる
ように修正に係る振幅スペクトルデータ同士、修正に係
る位相スペクトルデータ同士をそれぞれ接続する際に順
次の音声素片のつながり部においてスペクトル強度、位
相をそれぞれ一致又は近似させるべく調整するようにし
たので、合成音の発生時にノイズが発生するのを防止す
ることができる。
【0031】
【発明の実施の形態】図1は、この発明の一実施形態に
係る歌唱合成装置の回路構成を示すものである。この歌
唱合成装置は、小型コンピュータ10によって動作が制
御される構成になっている。
【0032】バス11には、CPU(中央処理装置)1
2、ROM(リード・オンリィ・メモリ)14、RAM
(ランダム・アクセス・メモリ)16、歌唱入力部1
7、歌詞・メロディ入力部18、制御パラメータ入力部
20、外部記憶装置22、表示部24、タイマ26、D
/A(ディジタル/アナログ)変換部28、MIDI
(Musical Instrument Digital Interface)インタ
ーフェース30、通信インターフェース32等が接続さ
れている。
【0033】CPU12は、ROM14にストアされた
プログラムに従って歌唱合成等に関する各種処理を実行
するもので、歌唱合成に関する処理については図2〜7
等を参照して後述する。
【0034】RAM16は、CPU12の各種処理に際
してワーキングエリアとして使用される種々の記憶部を
含むものである。この発明の実施に関係する記憶部とし
ては、例えば入力部17,18,20にそれぞれ対応す
る入力データ記憶領域等が存在するが、詳細については
後述する。
【0035】歌唱入力部17は、歌唱音声信号を入力す
るためのマイクロホン、音声入力端子等を有するもの
で、入力した歌唱音声信号をディジタル波形データに変
換するA/D(アナログ/ディジタル)変換器を備えて
いる。入力に係るディジタル波形データは、RAM16
内の所定領域に記憶される。
【0036】歌詞・メロディ入力部18は、文字、数字
等を入力可能なキーボード、楽譜読取り可能な読取器等
を備えたもので、所望の歌唱曲について歌詞を構成する
音素列を表わす歌詞データとメロディを構成する音符列
(休符も含む)を表わすメロディデータを入力可能であ
る。入力に係る歌詞データ及びメロディデータは、RA
M16内の所定の領域に記憶される。
【0037】制御パラメータ入力部20は、スイッチ、
ボリューム等のパラメータ設定器を備えたもので、歌唱
合成音について音楽的表情を制御するための制御パラメ
ータを設定可能である。制御パラメータとしては、音
色、ピッチ区分(高、中、低等)、ピッチのゆらぎ(ピ
ッチベンド、ビブラート等)、ダイナミクス区分(音量
レベルの大、中、小等)、テンポ区分(テンポの速い、
中位、遅い等)などを設定可能である。設定に係る制御
パラメータを表わす制御パラメータデータは、RAM1
6内の所定領域に記憶される。
【0038】外部記憶装置22は、HD(ハードディス
ク)、FD(フレキシブルディスク)、CD(コンパク
トディスク)、DVD(ディジタル多目的ディスク)、
MO(光磁気ディスク)等のうち1又は複数種類の記録
媒体を着脱可能なものである。外部記憶装置22に所望
の記録媒体を装着した状態では、記録媒体からRAM1
6へデータを転送可能である。また、装着した記録媒体
がHDやFDのように書込み可能なものであれば、RA
M16のデータを記録媒体に転送可能である。
【0039】プログラム記録手段としては、ROM14
の代わりに外部記憶装置22の記録媒体を用いることが
できる。この場合、記録媒体に記録したプログラムは、
外部記憶装置22からRAM16へ転送する。そして、
RAM16に記憶したプログラムにしたがってCPU1
2を動作させる。このようにすると、プログラムの追加
やバージョンアップ等を容易に行なうことができる。
【0040】表示部24は、液晶表示器等の表示器を含
むもので、前述した歌詞データ及びメロディデータ、後
述する周波数分析結果等の種々の情報を表示可能であ
る。
【0041】タイマ26は、テンポデータTMの指示す
るテンポに対応した周期でテンポクロック信号TCLを
発生するもので、テンポクロック信号TCLは、CPU
12に供給される。CPU12は、テンポクロック信号
TCLに基づいてD/A変換部28への信号出力処理を
行なう。テンポデータTMの指示するテンポは、入力部
20内のテンポ設定器により可変設定することができ
る。
【0042】D/A変換部28は、合成されたディジタ
ル音声信号をアナログ音声信号に変換するものである。
D/A変換部28から送出されるアナログ音声信号は、
アンプ、スピーカ等を含むサウンドシステム34により
音響に変換される。
【0043】MIDIインターフェース30は、この歌
唱合成装置とは別体のMIDI機器36との間でMID
I通信を行なうために設けられたもので、この発明で
は、MIDI機器36から歌唱合成用のデータを受信す
るために用いられる。歌唱合成用のデータとしては、所
望の歌唱曲に関する歌詞データ及びメロディデータ、音
楽的表情を制御するための制御パラメータデータ等を受
信可能である。これらの歌唱合成用データは、いわゆる
MIDIフォーマットに従って作成されるものであり、
入力部18から入力される歌詞データ及びメロディデー
タや入力部20から入力される制御パラメータデータに
ついてもMIDIフォーマットを採用するのが好まし
い。
【0044】MIDIインターフェース30を介して受
信される歌詞データ、メロディデータ及び制御パラメー
タデータについては、他のデータより時間的に先送り可
能とするため、MIDIのシステムエクスクルーシブデ
ータ(メーカーで独自に定義可能なデータ)とするのが
好ましい。また、入力部20から入力される制御パラメ
ータデータ又はMIDIインターフェース30を介して
受信される制御パラメータデータのうちの1種類のデー
タとしては、後述するデータベースに歌手(音色)毎に
音声素片データを記憶した場合に歌手(音色)指定デー
タを用いるようにしてもよい。この場合、歌手(音色)
指定データとしては、MIDIのプログラムチェンジデ
ータを使用することができる。
【0045】通信インターフェース32は、通信ネット
ワーク(例えばLAN(ローカル・エリア・ネットワー
ク)、インターネット、電話回線等)37を介して他の
コンピュータ38と情報通信を行なうために設けられた
ものである。この発明の実施に必要なプログラムや各種
データ(例えば歌詞データ、メロディデータ、音声素片
データ等)は、コンピュータ38から通信ネットワーク
37及び通信インターフェース32を介してRAM16
または外部記憶装置22へダウンロード要求に応じて取
込むようにしてもよい。
【0046】次に、図2を参照して歌唱分析処理の一例
を説明する。ステップ40では、入力部17からマイク
ロホン又は音声入力端子を介して歌唱音声信号を入力し
てA/D変換し、入力信号の音声波形を表わすディジタ
ル波形データをRAM16に記憶させる。図8(A)に
は、入力音声波形の一例を示す。なお、図8(A)及び
その他の図において、「t」は時間を表わす。
【0047】ステップ42では、記憶に係るディジタル
波形データについて音声素片(音素又は音素連鎖)に対
応する区間毎に区間波形を切出す(ディジタル波形デー
タを分割する)。音声素片としては、母音の音素、母音
と子音又は子音と母音の音素連鎖、子音と子音の音素連
鎖、母音と母音の音素連鎖、無音と子音又は母音の音素
連鎖、母音又は子音と無音の音素連鎖等があり、母音の
音素としては、母音を伸ばして歌唱した伸ばし音の音素
もある。一例として、「サイタ」の歌唱については、音
声素片「#s」、「s a」、「a」、「a i」、
「i」、「i t」、「t a」、「a」、「a#」にそ
れぞれ対応する区間波形を切出す。
【0048】ステップ44では、区間波形毎に1又は複
数の時間フレームを定め、各フレーム毎にFFT等によ
り周波数分析を実行して周波数スペクトル(振幅スペク
トルと位相スペクトル)を検出する。そして、周波数ス
ペクトルを表わすデータをRAM16の所定領域に記憶
させる。フレーム長は、一定長であってもよく、あるい
は可変長であってもよい。フレーム長を可変長とするに
は、あるフレームを固定長として周波数分析した後、周
波数分析の結果からピッチを検出し、検出ピッチに応じ
たフレーム長を設定して再び該フレームの周波数分析を
行なう方法、あるいはあるフレームを固定長として周波
数分析した後、周波数分析の結果からピッチを検出し、
検出ピッチに応じて次のフレームの長さを設定し、該次
のフレームの周波数分析を行なう方法等を採用すること
ができる。フレーム数は、母音のみからなる単一の音素
については、1又は複数フレームとするが、音素連鎖に
ついては、複数フレームとする。図8(B)には、図8
(A)の音声波形をFFTにより周波数分析して得た周
波数スペクトルを示す。なお、図8(B)及びその他の
図において、「f」は周波数を表わす。
【0049】次に、ステップ46では、音声素片毎に振
幅スペクトルに基づいてピッチを検出し、検出ピッチを
表わすピッチデータを生成し、RAM16の所定領域に
記憶させる。ピッチ検出は、フレーム毎に求めたピッチ
を全フレームについて平均する方法等により行なうこと
ができる。
【0050】ステップ48では、フレーム毎に振幅スペ
クトル上でスペクトル強度(振幅)の局所的ピークを複
数検知する。局所的ピークを検知するには、近隣の複数
(例えば4つ)のピークについて振幅値が最大のピーク
を検知する方法等を用いることができる。図8(B)に
は、検知した複数の局所的ピークP,P,P…が
示されている。
【0051】ステップ50では、フレーム毎に振幅スペ
クトル上で各局所的ピークに対応するスペクトル分布領
域を指定し、該領域内の振幅スペクトル分布を周波数軸
に関して表わす振幅スペクトルデータを生成し、RAM
16の所定領域に記憶させる。スペクトル分布領域を指
定する方法としては、隣り合う2つの局所的ピーク間で
周波数軸を半分に切り、各半分を近い方の局所的ピーク
を含むスペクトル分布領域に割当てる方法、あるいは隣
り合う2つの局所的ピーク間で振幅値が最低の谷を見出
し、最低の振幅値に対応する周波数を隣り合うスペクト
ル分布領域間の境界とする方法等を採用することができ
る。図8(B)には、前者の方法により局所的ピークP
,P,P…をそれぞれ含むスペクトル分布領域R
,R,R…を指定した例を示す。
【0052】ステップ52では、フレーム毎に位相スペ
クトルに基づいて各スペクトル分布領域内の位相スペク
トル分布を周波数軸に関して表わす位相スペクトルデー
タを生成し、RAM16内の所定領域に記憶させる。図
10(A)には、あるフレームのあるスペクトル分布領
域における振幅スペクトル分布及び位相スペクトル分布
がそれぞれ曲線AM及びPHにより示されている。
【0053】ステップ54では、音声素片毎にピッチデ
ータ、振幅スペクトルデータ及び位相スペクトルデータ
を音声素片データベースに記憶させる。音声素片データ
ベースとしては、RAM16または外部記憶装置22を
使用することができる。
【0054】図3は、音声素片データベースDBSにお
ける記憶状況の一例を示すものである。データベースD
BSには、「a」、「i」…等の単一音素に対応する音
声素片データと、「a i」、「s a」…等の音素連鎖
に対応する音声素片データとが記憶される。ステップ5
4では、音声素片データとして、ピッチデータ、振幅ス
ペクトルデータ及び位相スペクトルデータが記憶され
る。
【0055】音声素片データの記憶に際しては、各音声
素片毎に歌手(音色)、ピッチ区分、ダイナミクス区
分、テンポ区分等を異にする音声素片データを記憶する
と、自然な(又は高品質)の歌唱音を合成可能になる。
例えば、[a]の音声素片について、歌手Aにピッチ区
分を低、中、高として、ダイナミクス区分を小、中、大
として、テンポ区分を遅い、中位、速いとして歌っても
らい、ピッチ区分「低」で且つダイナミクス区分「小」
であっても、テンポ区分「遅い」、「中位」、「速い」
にそれぞれ対応する音声素片データM1,M2,M3を
記憶し、同様にしてピッチ区分「中」、「高」やダイナ
ミクス区分「中」、「大」についても音声素片データを
記憶する。ステップ46で生成したピッチデータは、音
声素片データが「低」、「中」、「高」のいずれのピッ
チ区分に属するか判定する際に利用される。
【0056】また、歌手Aとは音色を異にする歌手Bに
ついても、歌手Aについて上記したと同様にピッチ区
分、ダイナミクス区分、テンポ区分等を異にする多数の
[a]の音声素片データをデータベースDBSに記憶さ
せる。[a]以外の他の音声素片についても、歌手A,
Bについて上記したと同様に多数の音声素片データをデ
ータベースDBSに記憶させる。
【0057】上記した例では、入力部17から入力した
歌唱音声信号に基づいて音声素片データを作成したが、
歌唱音声信号は、インターフェース30又は32を介し
て入力し、この入力音声信号に基づいて音声素片データ
を作成するようにしてもよい。また、データベースDB
Sとしては、RAM16や外部記憶装置22に限らず、
ROM14、MIDI機器36内の記憶装置、コンピュ
ータ38内の記憶装置等を用いてもよい。
【0058】図4は、歌唱合成処理の一例を示すもので
ある。ステップ60では、所望の歌唱曲に関して歌詞デ
ータ及びメロディデータを入力部18から入力し、RA
M16に記憶させる。歌詞データ及びメロディデータ
は、インターフェース30又は32を介して入力するこ
ともできる。
【0059】ステップ62では、入力に係る歌詞データ
が表わす音素列を個々の音声素片に変換する。そして、
ステップ64では、音声素片毎に対応する音声素片デー
タ(ピッチデータ、振幅スペクトルデータ及び位相スペ
クトルデータ)をデータベースDBSから読出す。ステ
ップ64では、入力部20から制御パラメータとして音
色、ピッチ区分、ダイナミクス区分、テンポ区分等のデ
ータを入力し、該データの指示する制御パラメータに対
応した音声素片データを読出してもよい。
【0060】ところで、音声素片の発音継続時間は、音
声素片データのフレーム数に対応する。すなわち、記憶
に係る音声素片データをそのまま用いて音声合成を行な
うと、該音声素片データのフレーム数に対応した発音継
続時間が得られる。しかし、入力される音符の音価(入
力音符長)や設定テンポ等によっては記憶に係る音声素
片データをそのまま用いたのでは発音継続時間が不適切
になることがあり、発音継続時間を変更することが必要
となる。このような必要に応えるためには、入力音符長
や設定テンポ等に応じて音声素片データの読出しフレー
ム数を制御すればよい。
【0061】例えば、音声素片の発音継続時間を短縮す
るには、音声素片データを読出す際に、一部のフレーム
を飛ばして読出す。また、音声素片の発音継続時間を伸
張するには、音声素片データを反復的に読出す。なお、
「a」のような単一音素の伸ばし音を合成する際には、
発音継続時間を変更することが多い。伸ばし音の合成に
ついては、図14〜16を参照して後述する。
【0062】ステップ66では、音声素片毎に対応する
入力音符のピッチに応じて各フレームの振幅スペクトル
データを修正する。すなわち、各スペクトル分布領域毎
に振幅スペクトルデータが表わす振幅スペクトル分布を
入力音符ピッチに相当するピッチになる様に周波数軸上
で移動する。
【0063】図10(A),(B)は、局所的ピークの
周波数がfであり且つ下限周波数及び上限周波数がそ
れぞれf及びfであるスペクトル分布領域について
ピッチを上昇させるためスペクトル分布AMをAM
のように周波数軸上で高音側に移動した例を示す。この
場合、スペクトル分布AMについては、局所的ピーク
の周波数がF=T・fであり、T=F/fをピ
ッチ変換比と称する。また、下限周波数F及び上限周
波数Fは、それぞれ周波数差(f−f)及び(f
−f)に対応して定める。
【0064】図9には、(A)に示すようなスペクトル
分布領域(図8(B)と同じもの)R,R,R
について局所的ピークP,P,P…をそれぞれ有
するスペクトル分布を(B)に示す様に周波数軸上で高
音側に移動した例を示す。図9(B)に示されるスペク
トル分布領域Rにおいて、局所的ピークPの周波
数、下限周波数f11及び上限周波数f12は、図10
に関して上記したと同様に定められる。このことは、他
のスペクトル分布領域についても同様である。
【0065】上記した例では、ピッチを上昇させるため
スペクトル分布を周波数軸上で高音側に移動したが、ピ
ッチを低下させるためスペクトル分布を周波数軸上で低
音側に移動することもできる。この場合、図11に示す
様に2つのスペクトル分布領域Ra,Rbに部分的な重
なりが生ずる。
【0066】図11の例では、局所的ピークPaと下限
周波数fa1と上限周波数fa2とを有するスペクトル
分布領域Raに対して、局所的ピークPbと下限周波数
(fb1<fa2)と上限周波数fb2(fb2
>fa2)とを有するスペクトル分布領域Rbが周波数
b1〜fa2の領域で重なっている。このような事態
を回避するため、一例として、fb1〜fa2の周波数
領域を中心周波数fで2分割し、領域Raの上限周波
数fa2をfより低い所定の周波数に変更すると共
に、領域Rbの下限周波数fb1をfより高い所定の
周波数に変更する。この結果、領域Raでは、fより
低い周波数領域でスペクトル分布AMaを利用可能とな
り、領域Rbでは、fより高い周波数領域でスペクト
ル分布AMbを利用可能となる。
【0067】上記のように局所的ピークを含むスペクト
ル分布を周波数軸上で移動する際、周波数の設定を変更
するだけではスペクトル包絡が伸び縮みすることにな
り、音色が入力音声波形のものとは異なる事態が生ず
る。そこで、入力音声波形の音色を再現するためには、
各フレーム毎に一連のスペクトル分布領域の局所的ピー
クを結ぶ線に相当するスペクトル包絡に沿うように1又
は複数のスペクトル分布領域の局所的ピークについてス
ペクトル強度を調整する必要がある。
【0068】図12は、スペクトル強度調整の一例を示
すもので、(A)は、ピッチ変換前の局所的ピークP
11〜P18に対応するスペクトル包絡EVを示す。入
力音符ピッチに応じてピッチを上昇させるため局所的ピ
ークP11〜P18をそれぞれ(B)のP21〜P28
に示すように周波数軸上で移動する際にスペクトル包絡
EVに沿わない局所的ピークについてはスペクトル包絡
EVに沿うようにスペクトル強度を増大又は減少させ
る。この結果、入力音声波形と同様の音色が得られる。
【0069】図12(A)において、Rfは、スペクト
ル包絡が欠如した周波数領域であり、ピッチを上昇させ
る場合には、図12(B)に示す様に周波数領域Rf内
にP 27,P28等の局所的ピークを移動する必要が生
ずることがある。このような事態に対処するには、図1
2(B)に示す様に周波数領域Rfについて補間法によ
りスペクトル包絡EVを求め、求めたスペクトル包絡E
Vに従って局所的ピークのスペクトル強度の調整を行な
えばよい。
【0070】上記した例では、入力音声波形の音色を再
現するようにしたが、入力音声波形とは異なる音色を合
成音声に付与するようにしてもよい。このためには、図
12に示したようなスペクトル包絡EVを変形したスペ
クトル包絡を用いるか又は全く新しいスペクトル包絡を
用いるかして上記したと同様に局所的ピークのスペクト
ル強度を調整すればよい。
【0071】スペクトル包絡を用いた処理を簡素化する
には、スペクトル包絡を曲線又は直線等で表現するのが
好ましい。図13には、2種類のスペクトル包線曲線E
,EVを示す。曲線EVは、局所的ピーク間を
直線で結ぶことによりスペクトル包絡を折れ線で簡単に
表現したものである。また、曲線EVは、スペクトル
包絡を3次のスプライン関数で表わしたものである。曲
線EVを用いると、補間をより正確に行なうことがで
きる。
【0072】次に、図4のステップ68では、音声素片
毎に各フレームの振幅スペクトルデータの修正に対応し
て位相スペクトルデータを修正する。すなわち、図10
(A)に示すようにあるフレームにおけるi番目の局所
的ピークを含むスペクトル分布領域では、位相スペクト
ル分布PHが振幅スペクトル分布AMに対応したも
のであり、ステップ66で振幅スペクトル分布AM
AMのように移動したときは、振幅スペクトル分布A
に対応して位相スペクトル分布PHを調整する必
要がある。これは、移動先の局所的ピークの周波数で正
弦波になるようにするためである。
【0073】i番目の局所的ピークを含むスペクトル分
布領域に関する位相の補正量Δψは、フレーム間の時
間間隔をΔt、局所的ピークの周波数をf、ピッチ変
換比をTとすると、次の数1の式で与えられる。
【0074】
【数1】Δψ=2πf(T−1)Δt 数1の式で求められた補正量Δψは、図10(B)に
示す様に周波数F〜Fの領域内の各位相スペクトル
の位相に加算され、局所的ピークの周波数Fでは位相
がψ+Δψとなる。
【0075】上記のような位相の補正は、各スペクトル
分布領域毎に行なわれる。例えば、あるフレームにおい
て、局所的ピークの周波数が完全に調和関係にある(倍
音の周波数が基音の周波数の完全な整数倍になってい
る)場合には、入力音声の基音周波数(すなわち音声素
片データ内のピッチデータが示すピッチ)をfとし、
スペクトル分布領域の番号をk=1,2,3…とする
と、位相補正量Δψは、次の数2の式で与えられる。
【0076】
【数2】Δψ=2πfk(T−1)Δt ステップ70では、音声素片毎に設定テンポ等に応じて
発音開始時刻を決定する。発音開始時刻は、設定テンポ
や入力音符長等に依存し、テンポクロック信号TCLの
クロック数で表わすことができる。一例として、「サイ
タ」の歌唱の場合、「s a」の音声素片の発音開始時
刻は、入力音符長及び設定テンポで決まるノートオン時
刻に「s」ではなく「a」の発音が開始されるように設
定する。ステップ60でリアルタイムで歌詞データ及び
メロディを入力してリアルタイムで歌唱合成を行なうと
きは、子音及び母音の音素連鎖について上記のような発
音開始時刻の設定が可能になるようにノートオン時刻よ
り前に歌詞データ及びメロディデータを入力する。
【0077】ステップ72では、音声素片間でスペクト
ル強度のレベルを調整する。このレベル調整処理は、振
幅スペクトルデータ及び位相スペクトルデータのいずれ
についても行なわれるもので、次のステップ74でのデ
ータ接続に伴って合成音発生時にノイズが発生するのを
回避するために行なわれる。レベル調整処理としては、
スムージング処理、レベル整合処理等があるが、これら
の処理については図17〜20を参照して後述する。
【0078】ステップ74では、音声素片の発音順に振
幅スペクトルデータ同士、位相スペクトルデータ同士を
それぞれ接続する。そして、ステップ76では、音声素
片毎に振幅スペクトルデータ及び位相スペクトルデータ
を時間領域の合成音声信号(ディジタル波形データ)に
変換する。
【0079】図5は、ステップ76の変換処理の一例を
示すもので、ステップ76aでは、周波数領域のフレー
ムデータ(振幅スペクトルデータ及び位相スペクトルデ
ータ)に逆FFT処理を施して時間領域の合成音声信号
を得る。そして、ステップ76bでは、時間領域の合成
音声信号に窓掛け処理を施す。この処理は、時間領域の
合成音声信号に時間窓関数を乗算するものである。ステ
ップ76cでは、時間領域の合成音声信号にオーバーラ
ップ処理を施す。この処理は、順次の音声素片について
波形をオーバーラップさせながら時間領域の合成音声信
号を接続するものである。
【0080】ステップ78では、ステップ70で決定し
た発音開始時刻を参照して音声素片毎に合成音声信号を
D/A変換部28に出力する。この結果、サウンドシス
テム34から合成に係る歌唱音声が発生される。
【0081】図6は、歌唱分析処理の他の例を示すもの
である。ステップ80では、ステップ40に関して前述
したと同様にして歌唱音声信号を入力し、入力信号の音
声波形を表すディジタル波形データをRAM16に記憶
させる。歌唱音声信号は、インターフェース30又は3
2を介して入力してもよい。
【0082】ステップ82では、ステップ42に関して
前述したと同様にして記憶に係るディジタル波形データ
について音声素片に対応する区間ごとに区間波形を切出
す。
【0083】ステップ84では、音声素片毎に区間波形
を表わす区間波形データ(音声素片データ)を音声素片
データベースに記憶させる。音声素片データベースとし
ては、RAM16や外部記憶装置22を用いることがで
き、所望によりROM14、MIDI機器36内の記憶
装置、コンピュータ38内の記憶装置等を用いてもよ
い。音声素片データの記憶に際しては、図3に関して前
述したと同様に各音声素片毎に歌手(音色)、ピッチ区
分、ダイナミクス区分、テンポ区分等を異にする区間波
形データm1,m2,m3…を音声素片データベースD
BSに記憶させることができる。
【0084】次に、図7を参照して歌唱合成処理の他の
例を説明する。ステップ90では、ステップ60に関し
て前述したと同様にして所望の歌唱曲に関して歌詞デー
タ及びメロディデータを入力する。
【0085】ステップ92では、ステップ62に関して
前述したと同様にして歌詞データが表わす音素列を個々
の音声素片に変換する。そして、ステップ94では、ス
テップ84で記憶処理したデータベースから音声素片毎
に対応する区間波形データ(音声素片データ)を読出
す。この場合、入力部20から制御パラメータとして音
色、ピッチ区分、ダイナミクス区分、テンポ区分等のデ
ータを入力し、該データの指示する制御パラメータに対
応した区間波形データを読出すようにしてもよい。ま
た、ステップ64に関して前述したと同様に入力音符長
や設定テンポ等に応じて音声素片の発音継続時間を変更
するようにしてもよい。このためには、音声波形を読出
す際に音声波形の一部を省略するか又は音声波形の一部
あるいは全部を繰返すかして所望の発音継続時間だけ音
声波形の読出しを継続すればよい。
【0086】ステップ96では、読出しに係る区間波形
データ毎に区間波形について1又は複数の時間フレーム
を定め、各フレーム毎にFFT等により周波数分析を実
行して周波数スペクトル(振幅スペクトルと位相スペク
トル)を検出する。そして,周波数スペクトルを表わす
データをRAM16の所定領域に記憶させる。
【0087】ステップ98では、図2のステップ46〜
52と同様の処理を実行して音声素片毎にピッチデー
タ、振幅スペクトルデータ及び位相スペクトルデータを
生成する。そして、ステップ100では、図4のステッ
プ66〜78と同様の処理を実行して歌唱音声を合成
し、発音させる。
【0088】図7の歌唱合成処理を図4の歌唱合成処理
と対比すると、図4の歌唱合成処理では、データベース
から音声素片毎にピッチデータ、振幅スペクトルデータ
及び位相スペクトルデータを取得して歌唱合成を行なう
のに対し、図7の歌唱合成処理では、データベースから
音声素片毎に区間波形データを取得して歌唱合成を行な
っている点で両者が異なるものの、歌唱合成の手順は、
両者で実質的に同一である。図4又は図7の歌唱合成処
理によれば、入力音声波形の周波数分析結果を調和成分
と非調和成分とに分離しないので、非調和成分が分離し
て響くことがなく、自然な(又は高品質の)合成音が得
られる。また、有声の摩擦音や破裂音についても自然な
合成音が得られる。
【0089】図14は、例えば「a」のような単一音素
の伸ばし音に関するピッチ変換処理及び音色調整処理
(図4のステップ66に対応)を示すものである。この
場合、伸ばし音の音声素片データSDとして、図3に示
したようなピッチデータ、振幅スペクトルデータ及び位
相スペクトルデータのデータ組(又は区間波形データ)
をデータベース内に用意する。また、伸ばし音毎に歌手
(音色)、ピッチ区分、ダイナミクス区分、テンポ区分
等を異にする音声素片データをデータベースに記憶して
おき、入力部20で所望の歌手(音色)、ピッチ区分、
ダイナミクス区分、テンポ区分等の制御パラメータを指
定すると、指定に係る制御パラメータに対応する音声素
片データを読出すようにする。
【0090】ステップ110では、伸ばし音の音声素片
データSDに由来する振幅スペクトルデータFSPにス
テップ66で述べたと同様のピッチ変換処理を施す。す
なわち、振幅スペクトルデータFSPに関して各フレー
ムの各スペクトル分布領域毎にスペクトル分布を入力音
符ピッチデータPTの示す入力音符ピッチに相当するピ
ッチになるように周波数軸上で移動する。
【0091】音声素片データSDの時間長より長い発音
継続時間の伸ばし音が要求される場合には、音声素片デ
ータSDを最後まで読出した後最初に戻って再び読出
し、必要に応じてこのような時間的に順方向の読出しを
繰返す方法を採用することができる。別の方法として
は、音声素片データSDを最後まで読出した後最初に向
かって読出し、必要に応じてこのような時間的に順方向
の読出しと時間的に逆方向の読出しとを繰返す方法を採
用してもよい。この方法では、時間的に逆方向に読出す
際の読出開始点をランダムに設定するようにしてもよ
い。
【0092】ステップ110のピッチ変換処理では、図
3に示したデータベースDBSにおいて、例えば「a」
のような伸ばし音声素片データM1(又はm1),M2
(又はm2),M3(又はm3)…にそれぞれ対応して
経時的なピッチ変化を表わすピッチゆらぎデータを記憶
しておき、入力部20で音色、ピッチ区分、ダイナミク
ス区分、テンポ区分等の制御パラメータを指定するのに
応答して指定に係る制御パラメータに対応するピッチゆ
らぎデータを読出すようにしてもよい。この場合、ステ
ップ112では、読出しに係るピッチゆらぎデータVP
を入力音符ピッチデータPTに加算し、加算結果として
のピッチ制御データに応じてステップ110でのピッチ
変換を制御する。このようにすると、合成音にピッチの
ゆらぎ(例えばピッチベンド、ビブラート等)を付加す
ることができ、自然な合成音が得られる。また、音色、
ピッチ区分、ダイナミクス区分、テンポ区分等の制御パ
ラメータに応じてピッチのゆらぎ態様を異ならせること
ができるので、自然感が一層向上する。なお、ピッチゆ
らぎデータは、音声素片に対応する1又は複数のピッチ
ゆらぎデータを音色等の制御パラメータに応じて補間等
により改変して使うようにしてもよい。
【0093】ステップ114では、ステップ110でピ
ッチ変換処理を受けた振幅スペクトルデータFSP’に
音色調整処理を施す。この処理は、図12に関して前述
したように各フレーム毎にスペクトル包絡に従ってスペ
クトル強度を調整して合成音の音色を設定するものであ
る。
【0094】図15は、ステップ114の音色調整処理
の一例を示すものである。この例では、図3に示したデ
ータベースDBSにおいて、例えば「a」の伸ばし音の
音声素片に対応して代表的な1つのスペクトル包絡を表
わすスペクトル包絡データを記憶する。
【0095】ステップ116では、伸ばし音の音声素片
に対応するスペクトル包絡データをデータベースDBS
から読出す。そして、ステップ118では、読出しに係
るスペクトル包絡データに基づいてスペクトル包絡設定
処理を行なう。すなわち、伸ばし音のフレーム群FRに
おける複数n個のフレームの振幅スペクトルデータFR
〜FRのうちの各フレームの振幅スペクトルデータ
毎に、読出しに係るスペクトル包絡データの示すスペク
トル包絡に沿うようにスペクトル強度を調整することに
よりスペクトル包絡を設定する。この結果、伸ばし音に
適切な音色を付与することができる。
【0096】ステップ118のスペクトル包絡設定処理
では、図3に示したデータベースDBSにおいて、例え
ば「a」のような伸ばし音声素片データM1(又はm
1),M2(又はm2),M3(又はm3)…にそれぞ
れ対応して経時的なスペクトル包絡変化を表わすスペク
トル包絡ゆらぎデータを記憶しておき、入力部20で音
色、ピッチ区分、ダイナミクス区分、テンポ区分等の制
御パラメータを指定するのに応答して指定に係る制御パ
ラメータに対応するスペクトル包絡ゆらぎデータを読出
すようにしてもよい。この場合、ステップ118では、
各フレーム毎にステップ116での読出しに係るスペク
トル包絡データに読出しに係るスペクトル包絡ゆらぎデ
ータVEを加算し、加算結果としてのスペクトル包絡制
御データに応じてステップ118でのスペクトル包絡設
定を制御する。このようにすると、合成音に音色のゆら
ぎ(例えばトーンベンド等)を付加することができ、自
然な合成音が得られる。また、音色、ピッチ区分、ダイ
ナミクス区分、テンポ区分等の制御パラメータに応じて
ピッチのゆらぎ態様を異ならせることができるので、自
然感が一層向上する。なお、ピッチゆらぎデータは、音
声素片に対応する1又は複数のピッチゆらぎデータを音
色等の制御パラメータに応じて補間等により改変して使
うようにしてもよい。
【0097】図16は、ステップ114の音色調整処理
の他の例を示すものである。歌唱合成では、前述した
「サイタ」の歌唱例の様に音素連鎖(例えば「s
a」)−単一音素(例えば「a」)−音素連鎖(例えば
「a i」)の歌唱合成が典型的な例であり、このよう
な歌唱合成例に適したのが図16の例である。図16に
おいて、前音の最終フレームの振幅スペクトルデータP
FRにおける前音とは、例えば「s a」の音素連鎖に
対応し、伸ばし音のn個のフレームの振幅スペクトルデ
ータFR〜FRにおける伸ばし音とは、例えば
「a」の単一音素に対応し、後音の先頭フレームの振幅
スペクトルデータNFRにおける後音とは、例えば「a
i」の音素連鎖に対応する。
【0098】ステップ120では、前音の最終フレーム
の振幅スペクトルデータPFRからスペクトル包絡を抽
出すると共に、後音の先頭フレームの振幅スペクトルデ
ータNFRからスペクトル包絡を抽出する。そして、抽
出に係る2つのスペクトル包絡を時間的に補間して伸ば
し音用のスペクトル包絡を表わすスペクトル包絡データ
を作成する。
【0099】ステップ122では、n個のフレームの振
幅スペクトルデータFR〜FRのうちの各フレーム
の振幅スペクトルデータ毎に、ステップ120での作成
に係るスペクトル包絡データの示すスペクトル包絡に沿
うようにスペクトル強度を調整することによりスペクト
ル包絡を設定する。この結果、音素連鎖間の伸ばし音に
適切な音色を付与することができる。
【0100】ステップ122においても、ステップ11
8に関して前述したと同様にしてデータベースDBSか
ら音色等の制御パラメータに応じてスペクトル包絡ゆら
ぎデータVEを読出すなどしてスペクトル包絡の設定を
制御することができる。このようにすると、自然な合成
音が得られる。
【0101】次に、図17〜19を参照してスムージン
グ処理(ステップ72に対応)の一例を説明する。この
例では、データを扱いやすくして計算を簡単にするため
に、音声素片の各フレームのスペクトル包絡を図17に
示すように直線(あるいは指数関数)で表現した傾き成
分と指数関数などで表現した1又は複数の共鳴部分とに
分解する。すなわち、共鳴部分の強度は、傾き成分を基
準に計算し、傾き成分と共鳴成分を足し合わせてスペク
トル包絡を表わす。また、傾き成分を0Hzまで延長し
た値を傾き成分のゲインと称する。
【0102】一例として、図18に示すような2つの音
声素片「a i」と「i a」とを接続するものとする。
これらの音声素片は、もともと別の録音から採取したも
のであるため、接続部のiの音色とレベルにミスマッチ
があり、図18に示すように接続部分で波形の段差が発
生し、ノイズとして聴こえる。2つの音声素片について
接続部を中心として前後に何フレームかかけて、傾き成
分のパラメータ同士、共鳴成分のパラメータ同士をそれ
ぞれクロスフェードしてやれば、接続部分での段差が消
え去り、ノイズの発生を防止することができる。
【0103】例えば、共鳴成分のパラメータをクロスフ
ェードするためには、図19に示すように、接続部分で
0.5となるような関数(クロスフェードパラメータ)
を両音声素片の共鳴成分のパラメータに掛けて足し合わ
せてやればよい。図19に示す例では、「a i」,
「i a」の音声素片における第1の共鳴成分の(傾き
成分を基準とした)強度の時間的変化を示す波形に対し
てそれぞれクロスフェードパラメータを掛けて加算する
ことによりクロスフェードを行なった例を示している。
【0104】他の共鳴成分、傾き成分等のパタメータに
ついても、上記したと同様にクロスフェードを行なうこ
とができる。
【0105】図20は、レベル整合処理(ステップ72
に対応)の一例を示すものである。この例では、上記と
同様に「a i」と「i a」を接続して合成する場合に
ついて、レベル整合処理を説明する。
【0106】この場合、上記のようにクロスフェードす
る代りに、音声素片の接続部分で前後の振幅がほぼ同じ
になる様にレベル整合を行なう。レベル整合は、音声素
片の振幅に対し、一定あるいは時変の係数を掛けること
により行なうことができる。
【0107】この例では、2つの音声素片について傾き
成分のゲインを合わせる処理について説明する。まず、
図20(a),(b)に示すように、「a i」と「i
a」の各音声素片について、その最初のフレームと最終
フレームの間の傾き成分のゲインを直線補間したパラメ
ータ(図中の破線)を求め、各パラメータを基準に、実
際の傾き成分のゲインとの差分を求める。
【0108】次に、[a],[i]の各音韻の代表的な
サンプル(傾き成分及び共鳴成分の各パラメータ)を求
める。これは、例えば、「a i」の最初のフレームと
最終フレームの振幅スペクトルデータを用いて求めても
よい。
【0109】[a],[i]の代表的なサンプルをもと
に、まず、図20(c)に破線で示すように[a],
[i]の間の傾き成分のゲインを直線補間したパラメー
タを求めると共に、[i]と[a]の間の傾き成分のゲ
インを直線補間したパラメータを求める。次いで、図2
0(a),(b)で求めた差分を直線補間に係るパラメ
ータにそれぞれ足し込んでいけば、図20(c)に示す
ように、境界では必ず直線補間に係るパラメータが一致
するため、傾き成分のゲインの不連続は発生しない。共
鳴成分のパラメータなど他のパラメータについても、同
様に不連続を防止することができる。
【0110】前述したステップ72では、振幅スペクト
ルデータのみならず位相スペクトルデータについても、
上記のようなスムージング処理又はレベル整合処理を準
用して位相の調整を行なう。この結果、ノイズ発生を回
避することができ、高品質の歌唱合成が可能となる。な
お、スムージング処理又はレベル整合処理において、接
続部では、スペクトル強度を一致させたが近似させるだ
けでよいこともある。
【0111】
【発明の効果】以上のように、この発明によれば、音声
素片に対応する音声波形を周波数分析した結果に基づい
て振幅スペクトルデータ及び位相スペクトルデータを生
成し、指定のピッチに応じて振幅スペクトルデータ及び
位相スペクトルデータを修正し、修正に係る振幅スペク
トルデータ及び位相スペクトルデータに基づいて時間領
域の合成音声信号を発生させるようにしたので、周波数
分析結果を調和成分と非調和成分とに分離した従来例の
ように非調和成分が分離して響くといった事態は原理的
に発生しなくなり、自然な歌唱音声又は高品質の歌唱音
声を合成可能となる効果が得られる。
【図面の簡単な説明】
【図1】 この発明の一実施形態に係る歌唱合成装置の
回路構成を示すブロック図である。
【図2】 歌唱分析処理の一例を示すフローチャートで
ある。
【図3】 音声素片データベース内の記憶状況を示す図
である。
【図4】 歌唱合成処理の一例を示すフローチャートで
ある。
【図5】 図4のステップ76の変換処理の一例を示す
フローチャートである。
【図6】 歌唱分析処理の他の例を示すフローチャート
である。
【図7】 歌唱合成処理の他の例を示すフローチャート
である。
【図8】 (A)は、分析対象としての入力音声信号を
示す波形図、(B)は、(A)の波形の周波数分析結果
を示すスペクトル図である。
【図9】 (A)は、ピッチ変換前のスペクトル分布領
域配置を示すスペクトル図、(B)は、ピッチ変換後の
スペクトル分布領域配置を示すスペクトル図である。
【図10】 (A)は、ピッチ変換前の振幅スペクトル
分布及び位相スペクトル分布を示すグラフ、(B)は、
ピッチ変換後の振幅スペクトル分布及び位相スペクトル
分布を示すグラフである。
【図11】 ピッチを低下させた場合のスペクトル分布
領域の指定処理を説明するためのグラフである。
【図12】 (A)は、ピッチ変換前の局所的ピーク配
置及びスペクトル包絡を示すグラフ、(B)は、ピッチ
変換後の局所的ピーク配置及びスペクトル包絡を示すグ
ラフである。
【図13】 スペクトル包絡曲線を例示するグラフであ
る。
【図14】 伸ばし音に関するピッチ変換処理及び音色
調整処理を示すブロック図である。
【図15】 伸ばし音に関する音色調整処理の一例を示
すブロック図である。
【図16】 伸ばし音に関する音色調整処理の他の例を
示すブロック図である。
【図17】 スペクトル包絡のモデル化を説明するため
のグラフである。
【図18】 音声素片の接続時に生ずるレベル及び音色
のミスマッチを説明するためのグラフである。
【図19】 スムージング処理を説明するためのグラフ
である。
【図20】 レベル整合処理を説明するためのグラフで
ある。
【図21】 歌唱合成処理の従来例を示すブロック図で
ある。
【符号の説明】 10:小型コンピュータ、11:バス、12:CPU、
14:ROM、16:RAM、17:歌唱入力部、1
8:歌詞・メロディ入力部、20:制御パラメータ入力
部、22:外部記憶装置、24:表示部、26:タイ
マ、28:D/A変換部、30:MIDIインターフェ
ース、32:通信インターフェース、34:サウンドシ
ステム、36:MIDI機器、37:通信ネットワー
ク、38:他のコンピュータ、DBS:音声素片データ
ベース。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アレックス ロスコス パセイ デ シルコンバル−ラシオ、8. 08003 バルセロナ Fターム(参考) 5D045 AA07 BA10

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】合成すべき音声の音声素片に対応する音声
    波形を周波数分析して周波数スペクトルを検出するステ
    ップと、 前記周波数スペクトル上でスペクトル強度の局所的ピー
    クを複数検知するステップと、 各局所的ピーク毎に該局所的ピークとその前後のスペク
    トルとを含むスペクトル分布領域を前記周波数スペクト
    ル上で指定し、各スペクトル分布領域毎に振幅スペクト
    ル分布を周波数軸に関して表わす振幅スペクトルデータ
    を生成するステップと、 各スペクトル分布領域毎に位相スペクトル分布を周波数
    軸に関して表わす位相スペクトルデータを生成するステ
    ップと、 前記合成すべき音声についてピッチを指定するステップ
    と、 各スペクトル分布領域毎に前記振幅スペクトルデータが
    表わす振幅スペクトル分布を前記ピッチに応じて周波数
    軸上で移動するように前記振幅スペクトルデータを修正
    するステップと、 各スペクトル分布領域毎に前記位相スペクトルデータが
    表わす位相スペクトル分布を前記振幅スペクトルデータ
    の修正に対応して修正するステップと、 前記修正に係る振幅スペクトルデータ及び前記修正に係
    る位相スペクトルデータを時間領域の合成音声信号に変
    換するステップとを含む歌唱合成方法。
  2. 【請求項2】合成すべき音声の音声素片に対応する振幅
    スペクトルデータ及び位相スペクトルデータを取得する
    ステップであって、前記振幅スペクトルデータとして
    は、前記音声素片の音声波形を周波数分析して得た周波
    数スペクトルにおいてスペクトル強度の複数の局所的ピ
    ークのうちの各局所的ピーク毎に該局所的ピークとその
    前後のスペクトルとを含むスペクトル分布領域における
    振幅スペクトル分布を周波数軸に関して表わすデータを
    取得し、前記位相スペクトルデータとしては、各スペク
    トル分布領域毎に位相スペクトル分布を周波数軸に関し
    て表わすデータを取得するものと、 前記合成すべき音声についてピッチを指定するステップ
    と、 各スペクトル分布領域毎に前記振幅スペクトルデータが
    表わす振幅スペクトル分布を前記ピッチに応じて周波数
    軸上で移動するように前記振幅スペクトルデータを修正
    するステップと、 各スペクトル分布領域毎に前記位相スペクトルデータが
    表わす位相スペクトル分布を前記振幅スペクトルデータ
    の修正に対応して修正するステップと、 前記修正に係る振幅スペクトルデータ及び前記修正に係
    る位相スペクトルデータを時間領域の合成音声信号に変
    換するステップとを含む歌唱合成方法。
  3. 【請求項3】 前記ピッチを指定するステップでは、経
    時的なピッチ変化を示すピッチゆらぎデータに従って前
    記ピッチを指定する請求項1又は2記載の歌唱合成方
    法。
  4. 【請求項4】 前記ピッチゆらぎデータとしては、前記
    合成すべき音声について音楽的表情を制御するための制
    御パラメータに対応したピッチゆらぎデータを用いる請
    求項3記載の歌唱合成方法。
  5. 【請求項5】 前記振幅スペクトルデータを修正するス
    テップでは、修正前の複数の局所的ピークを結ぶ線に対
    応するスペクトル包絡に沿わない局所的ピークについて
    スペクトル強度を該スペクトル包絡に沿うように修正す
    る請求項1又は2記載の歌唱合成方法。
  6. 【請求項6】 前記振幅スペクトルデータを修正するス
    テップでは、予め定めたスペクトル包絡に沿わない局所
    的ピークについてスペクトル強度を該スペクトル包絡に
    沿うように修正する請求項1又は2記載の歌唱合成方
    法。
  7. 【請求項7】 前記振幅スペクトルデータを修正するス
    テップでは、一連の時間フレームについて経時的なスペ
    クトル包絡の変化を示すスペクトル包絡ゆらぎデータに
    従ってスペクトル強度を調整することにより経時的に変
    化するスペクトル包絡を設定する請求項5又は6記載の
    歌唱合成方法。
  8. 【請求項8】 前記スペクトル包絡ゆらぎデータとして
    は、前記合成すべき音声について音楽的表情を制御する
    ための制御パラメータに対応したスペクトル包絡ゆらぎ
    データを用いる請求項7記載の歌唱合成方法。
  9. 【請求項9】合成すべき音声について音声素片及びピッ
    チを指定する指定手段と、 音声素片データベースから音声素片データとして前記音
    声素片に対応する音声波形を表わす音声波形データを読
    出す読出手段と、 前記音声波形データが表わす音声波形を周波数分析して
    周波数スペクトルを検出する検出手段と、 前記音声波形に対応する周波数スペクトル上でスペクト
    ル強度の局所的ピークを複数検知する検知手段と、 各局所的ピーク毎に該局所的ピークとその前後のスペク
    トルとを含むスペクトル分布領域を前記周波数スペクト
    ル上で指定し、各スペクトル分布領域毎に振幅スペクト
    ル分布を周波数軸に関して表わす振幅スペクトルデータ
    を生成する第1の生成手段と、 各スペクトル分布領域毎に位相スペクトル分布を周波数
    軸に関して表わす位相スペクトルデータを生成する第2
    の生成手段と、 各スペクトル分布領域毎に前記振幅スペクトルデータが
    表わす振幅スペクトル分布を前記ピッチに応じて周波数
    軸上で移動するように前記振幅スペクトルデータを修正
    する第1の修正手段と、 各スペクトル分布領域毎に前記位相スペクトルデータが
    表わす位相スペクトル分布を前記振幅スペクトルデータ
    の修正に対応して修正する第2の修正手段と、 前記修正に係る振幅スペクトルデータ及び前記修正に係
    る位相スペクトルデータを時間領域の合成音声信号に変
    換する変換手段とを備えた歌唱合成装置。
  10. 【請求項10】合成すべき音声について音声素片及びピ
    ッチを指定する指定手段と、 音声素片データベースから音声素片データとして前記音
    声素片に対応する振幅スペクトルデータ及び位相スペク
    トルデータを読出す読出手段であって、前記振幅スペク
    トルデータとしては、前記音声素片の音声波形を周波数
    分析して得た周波数スペクトルにおいてスペクトル強度
    の複数の局所的ピークのうちの各局所的ピーク毎に該局
    所的ピークとその前後のスペクトルとを含むスペクトル
    分布領域における振幅スペクトル分布を周波数軸に関し
    て表わすデータを読出し、前記位相スペクトルデータと
    しては、各スペクトル分布領域毎に位相スペクトル分布
    を周波数軸に関して表わすデータを読出すものと、 各スペクトル分布領域毎に前記振幅スペクトルデータが
    表わす振幅スペクトル分布を前記ピッチに応じて周波数
    軸上で移動するように前記振幅スペクトルデータを修正
    する第1の修正手段と、 各スペクトル分布領域毎に前記位相スペクトルデータが
    表わす位相スペクトル分布を前記振幅スペクトルデータ
    の修正に対応して修正する第2の修正手段と、 前記修正に係る振幅スペクトルデータ及び前記修正に係
    る位相スペクトルデータを時間領域の合成音声信号に変
    換する変換手段とを備えた歌唱合成装置。
  11. 【請求項11】 前記指定手段は、前記合成すべき音声
    について音楽的表情を制御するための制御パラメータを
    指定し、前記読出手段は、前記音声素片及び前記制御パ
    ラメータに対応する音声素片データを読出す請求項9又
    は10記載の歌唱合成装置。
  12. 【請求項12】 前記指定手段は、前記合成すべき音声
    について音符長及び/又はテンポを指定し、前記読出手
    段は、前記音声素片データを読出す際に前記音声素片デ
    ータの一部を省略するか又は前記音声素片データの一部
    もしくは全部を繰返すかして前記音符長及び/又はテン
    ポに対応する時間のあいだ前記音声素片データの読出し
    を継続する請求項9又は10記載の歌唱合成装置。
  13. 【請求項13】順次に合成すべき音声のうちの各音声毎
    に音声素片及びピッチを指定する指定手段と、 音声素片データベースから前記指定手段での指定に係る
    各音声素片に対応する音声波形を読出す読出手段と、 各音声素片に対応する音声波形を周波数分析して周波数
    スペクトルを検出する検出手段と、 各音声素片に対応する周波数スペクトル上でスペクトル
    強度の局所的ピークを複数検知する検知手段と、 各音声素片について各局所的ピーク毎に該局所的ピーク
    とその前後のスペクトルとを含むスペクトル分布領域を
    該音声素片に対応する周波数スペクトル上で指定し、各
    音声素片について各スペクトル分布領域毎に振幅スペク
    トル分布を周波数軸に関して表わす振幅スペクトルデー
    タを生成する第1の生成手段と、 各音声素片について各スペクトル分布領域毎に位相スペ
    クトル分布を周波数軸に関して表わす位相スペクトルデ
    ータを生成する第2の生成手段と、 各音声素片について各スペクトル分布領域毎に前記振幅
    スペクトルデータが表わす振幅スペクトル分布を該音声
    素片に対応するピッチに応じて周波数軸上で移動するよ
    うに前記振幅スペクトルデータを修正する第1の修正手
    段と、 各音声素片について各スペクトル分布領域毎に前記位相
    スペクトルデータが表わす位相スペクトル分布を前記振
    幅スペクトルデータの修正に対応して修正する第2の修
    正手段と、 前記順次に合成すべき音声にそれぞれ対応する順次の音
    声素片が発音順につながるように前記修正に係る振幅ス
    ペクトルデータを接続する第1の接続手段であって、前
    記順次の音声素片のつながり部においてスペクトル強度
    を一致又は近似させるべく調整するものと、 前記順次に合成すべき音声にそれぞれ対応する順次の音
    声素片が発音順につながるように前記修正に係る位相ス
    ペクトルデータを接続する第2の接続手段であって、前
    記順次の音声素片のつながり部において位相を一致又は
    近似させるべく調整するものと、 前記接続に係る振幅スペクトルデータ及び前記接続に係
    る位相スペクトルデータを時間領域の合成音声信号に変
    換する変換手段とを備えた歌唱合成装置。
  14. 【請求項14】順次に合成すべき音声のうちの各音声毎
    に音声素片及びピッチを指定する指定手段と、 音声素片データベースから前記指定手段での指定に係る
    各音声素片に対応する振幅スペクトルデータ及び位相ス
    ペクトルデータを読出す読出手段であって、前記振幅ス
    ペクトルデータとしては、対応する音声素片の音声波形
    を周波数分析して得た周波数スペクトルにおいてスペク
    トル強度の複数の局所的ピークのうちの各局所的ピーク
    毎に該局所的ピークとその前後のスペクトルとを含むス
    ペクトル分布領域における振幅スペクトル分布を周波数
    軸に関して表わすデータを読出し、前記位相スペクトル
    データとしては、各スペクトル分布領域毎に位相スペク
    トル分布を周波数軸に関して表わすデータを読出すもの
    と、 各音声素片について各スペクトル分布領域毎に前記振幅
    スペクトルデータが表わす振幅スペクトル分布を該音声
    素片に対応するピッチに応じて周波数軸上で移動するよ
    うに前記振幅スペクトルデータを修正する第1の修正手
    段と、 各音声素片について各スペクトル分布領域毎に前記位相
    スペクトルデータが表わす位相スペクトル分布を前記振
    幅スペクトルデータの修正に対応して修正する第2の修
    正手段と、 前記順次に合成すべき音声にそれぞれ対応する順次の音
    声素片が発音順につながるように前記修正に係る振幅ス
    ペクトルデータを接続する第1の接続手段であって、前
    記順次の音声素片のつながり部においてスペクトル強度
    を一致又は近似させるべく調整するものと、 前記順次に合成すべき音声にそれぞれ対応する順次の音
    声素片が発音順につながるように前記修正に係る位相ス
    ペクトルデータを接続する第2の接続手段であって、前
    記順次の音声素片のつながり部において位相を一致又は
    近似させるべく調整するものと、 前記接続に係る振幅スペクトルデータ及び前記接続に係
    る位相スペクトルデータを時間領域の合成音声信号に変
    換する変換手段とを備えた歌唱合成装置。
  15. 【請求項15】 歌唱合成装置において使用される記録
    媒体であって、 合成すべき音声の音声素片に対応する音声波形を周波数
    分析して周波数スペクトルを検出するステップと、 前記周波数スペクトル上でスペクトル強度の局所的ピー
    クを複数検知するステップと、 各局所的ピーク毎に該局所的ピークとその前後のスペク
    トルとを含むスペクトル分布領域を前記周波数スペクト
    ル上で指定し、各スペクトル分布領域毎に振幅スペクト
    ル分布を周波数軸に関して表わす振幅スペクトルデータ
    を生成するステップと、 各スペクトル分布領域毎に位相スペクトル分布を周波数
    軸に関して表わす位相スペクトルデータを生成するステ
    ップと、 前記合成すべき音声についてピッチを指定するステップ
    と、 各スペクトル分布領域毎に前記振幅スペクトルデータが
    表わす振幅スペクトル分布を前記ピッチに応じて周波数
    軸上で移動するように前記振幅スペクトルデータを修正
    するステップと、 各スペクトル分布領域毎に前記位相スペクトルデータが
    表わす位相スペクトル分布を前記振幅スペクトルデータ
    の修正に対応して修正するステップと、 前記修正に係る振幅スペクトルデータ及び前記修正に係
    る位相スペクトルデータを時間領域の合成音声信号に変
    換するステップとを含むプログラムを記録した記録媒
    体。
  16. 【請求項16】 歌唱合成装置において使用される記録
    媒体であって、 合成すべき音声の音声素片に対応する振幅スペクトルデ
    ータ及び位相スペクトルデータを取得するステップであ
    って、前記振幅スペクトルデータとしては、前記音声素
    片の音声波形を周波数分析して得た周波数スペクトルに
    おいてスペクトル強度の複数の局所的ピークのうちの各
    局所的ピーク毎に該局所的ピークとその前後のスペクト
    ルとを含むスペクトル分布領域における振幅スペクトル
    分布を周波数軸に関して表わすデータを取得し、前記位
    相スペクトルデータとしては、各スペクトル分布領域毎
    に位相スペクトル分布を周波数軸に関して表わすデータ
    を取得するものと、 前記合成すべき音声についてピッチを指定するステップ
    と、 各スペクトル分布領域毎に前記振幅スペクトルデータが
    表わす振幅スペクトル分布を前記ピッチに応じて周波数
    軸上で移動するように前記振幅スペクトルデータを修正
    するステップと、 各スペクトル分布領域毎に前記位相スペクトルデータが
    表わす位相スペクトル分布を前記振幅スペクトルデータ
    の修正に対応して修正するステップと、 前記修正に係る振幅スペクトルデータ及び前記修正に係
    る位相スペクトルデータを時間領域の合成音声信号に変
    換するステップとを含むプログラムを記録した記録媒
    体。
  17. 【請求項17】 歌唱合成装置において使用される記録
    媒体であって、音声素片毎に音声合成用の振幅スペクト
    ルデータ及び位相スペクトルデータが記録されており、
    各振幅スペクトルデータとしては、対応する音声素片の
    音声波形を周波数分析して得た周波数スペクトルにおい
    てスペクトル強度の複数の局所的ピークのうちの各局所
    的ピーク毎に該局所的ピークとその前後のスペクトルと
    を含むスペクトル分布領域における振幅スペクトル分布
    を周波数軸に関して表わすデータが記録されており、各
    位相スペクトルデータとしては、各スペクトル分布領域
    毎に位相スペクトル分布を周波数軸に関して表わすデー
    タが記録されている記録媒体。
JP2002052006A 2002-02-27 2002-02-27 歌唱合成方法と装置及び記録媒体 Expired - Fee Related JP3815347B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002052006A JP3815347B2 (ja) 2002-02-27 2002-02-27 歌唱合成方法と装置及び記録媒体
US10/375,420 US6992245B2 (en) 2002-02-27 2003-02-27 Singing voice synthesizing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002052006A JP3815347B2 (ja) 2002-02-27 2002-02-27 歌唱合成方法と装置及び記録媒体

Publications (2)

Publication Number Publication Date
JP2003255998A true JP2003255998A (ja) 2003-09-10
JP3815347B2 JP3815347B2 (ja) 2006-08-30

Family

ID=28663836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002052006A Expired - Fee Related JP3815347B2 (ja) 2002-02-27 2002-02-27 歌唱合成方法と装置及び記録媒体

Country Status (2)

Country Link
US (1) US6992245B2 (ja)
JP (1) JP3815347B2 (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006010906A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP2006010908A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP2006017946A (ja) * 2004-06-30 2006-01-19 Yamaha Corp 音声処理装置およびプログラム
WO2006046761A1 (ja) * 2004-10-27 2006-05-04 Yamaha Corporation ピッチ変換装置
JP2006215204A (ja) * 2005-02-02 2006-08-17 Yamaha Corp 音声合成装置およびプログラム
JP2007240564A (ja) * 2006-03-04 2007-09-20 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
WO2008010413A1 (fr) * 2006-07-21 2008-01-24 Nec Corporation Dispositif, procédé et programme de synthèse audio
JP2008542844A (ja) * 2005-06-02 2008-11-27 アラン スティーヴン ハワース 固有調波周波数への周波数スペクトル変換プロセス
EP2133865A2 (en) 2008-06-11 2009-12-16 Yamaha Corporation Sound synthesizer
JP2010191042A (ja) * 2009-02-17 2010-09-02 Yamaha Corp 音声処理装置およびプログラム
JP2010217543A (ja) * 2009-03-17 2010-09-30 Yamaha Corp 音処理装置およびプログラム
JP2010217408A (ja) * 2009-03-16 2010-09-30 Yamaha Corp 音波形抽出装置、およびプログラム
EP2431967A2 (en) 2010-09-15 2012-03-21 Yamaha Corporation Voice conversion device and method
JP2013186606A (ja) * 2012-03-07 2013-09-19 Yamaha Corp 伝達関数演算装置、およびプログラム
JP2014178512A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声合成装置
JP2015172706A (ja) * 2014-03-12 2015-10-01 沖電気工業株式会社 音声復号化装置及びプログラム
JPWO2015098564A1 (ja) * 2013-12-27 2017-03-23 ソニー株式会社 復号化装置および方法、並びにプログラム
US10381018B2 (en) 2010-04-13 2019-08-13 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
CN112037757A (zh) * 2020-09-04 2020-12-04 腾讯音乐娱乐科技(深圳)有限公司 一种歌声合成方法、设备及计算机可读存储介质

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7521623B2 (en) 2004-11-24 2009-04-21 Apple Inc. Music synchronization arrangement
TWI227010B (en) * 2003-05-23 2005-01-21 Mediatek Inc Wavetable audio synthesis system
JP4448378B2 (ja) * 2003-07-30 2010-04-07 ヤマハ株式会社 電子管楽器
JP2005049439A (ja) * 2003-07-30 2005-02-24 Yamaha Corp 電子楽器
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
JP4218624B2 (ja) * 2004-10-18 2009-02-04 ヤマハ株式会社 楽音データ生成方法及び装置
JP4701684B2 (ja) * 2004-11-19 2011-06-15 ヤマハ株式会社 音声処理装置およびプログラム
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム
JP4645337B2 (ja) * 2005-07-19 2011-03-09 カシオ計算機株式会社 波形データ補間装置
KR100658869B1 (ko) * 2005-12-21 2006-12-15 엘지전자 주식회사 음악생성장치 및 그 운용방법
US9159325B2 (en) * 2007-12-31 2015-10-13 Adobe Systems Incorporated Pitch shifting frequencies
US7977562B2 (en) * 2008-06-20 2011-07-12 Microsoft Corporation Synthesized singing voice waveform generator
JP4209461B1 (ja) * 2008-07-11 2009-01-14 株式会社オトデザイナーズ 合成音声作成方法および装置
US7977560B2 (en) * 2008-12-29 2011-07-12 International Business Machines Corporation Automated generation of a song for process learning
EP2429405B1 (en) 2009-05-13 2018-07-18 Koninklijke Philips N.V. Ultrasonic blood flow doppler audio with pitch shifting
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US20110219940A1 (en) * 2010-03-11 2011-09-15 Hubin Jiang System and method for generating custom songs
FR2958068B1 (fr) * 2010-03-24 2012-05-25 Etienne Edmond Jacques Thuillier Procede et dispositif de synthese d'un signal audio selon un phrase melodique imparti sur un organe vibrant
US8716586B2 (en) 2010-04-05 2014-05-06 Etienne Edmond Jacques Thuillier Process and device for synthesis of an audio signal according to the playing of an instrumentalist that is carried out on a vibrating body
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
US9185225B1 (en) * 2011-06-08 2015-11-10 Cellco Partnership Method and apparatus for modifying digital messages containing at least audio
JP5057535B1 (ja) * 2011-08-31 2012-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
US8847056B2 (en) 2012-10-19 2014-09-30 Sing Trix Llc Vocal processing with accompaniment music input
KR101541606B1 (ko) * 2013-11-21 2015-08-04 연세대학교 산학협력단 초음파 신호의 포락선 검출 방법 및 그 장치
US9123315B1 (en) * 2014-06-30 2015-09-01 William R Bachand Systems and methods for transcoding music notation
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP6728754B2 (ja) * 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム
WO2018084305A1 (ja) * 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法
CN106652997B (zh) * 2016-12-29 2020-07-28 腾讯音乐娱乐(深圳)有限公司 一种音频合成的方法及终端
JP6497404B2 (ja) * 2017-03-23 2019-04-10 カシオ計算機株式会社 電子楽器、その電子楽器の制御方法及びその電子楽器用のプログラム
JP6569712B2 (ja) * 2017-09-27 2019-09-04 カシオ計算機株式会社 電子楽器、電子楽器の楽音発生方法、及びプログラム
JP7000782B2 (ja) * 2017-09-29 2022-01-19 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
WO2019203124A1 (ja) * 2018-04-17 2019-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング方法、及びミキシングプログラム
CN109147757B (zh) * 2018-09-11 2021-07-02 广州酷狗计算机科技有限公司 歌声合成方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
US5712437A (en) * 1995-02-13 1998-01-27 Yamaha Corporation Audio signal processor selectively deriving harmony part from polyphonic parts
WO1997017692A1 (en) * 1995-11-07 1997-05-15 Euphonics, Incorporated Parametric signal modeling musical synthesizer
JP3102335B2 (ja) * 1996-01-18 2000-10-23 ヤマハ株式会社 フォルマント変換装置およびカラオケ装置
US6101469A (en) * 1998-03-02 2000-08-08 Lucent Technologies Inc. Formant shift-compensated sound synthesizer and method of operation thereof
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4649888B2 (ja) * 2004-06-24 2011-03-16 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
JP2006010908A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP4654616B2 (ja) * 2004-06-24 2011-03-23 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
JP2006010906A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP2006017946A (ja) * 2004-06-30 2006-01-19 Yamaha Corp 音声処理装置およびプログラム
JP4654621B2 (ja) * 2004-06-30 2011-03-23 ヤマハ株式会社 音声処理装置およびプログラム
WO2006046761A1 (ja) * 2004-10-27 2006-05-04 Yamaha Corporation ピッチ変換装置
JP4840141B2 (ja) * 2004-10-27 2011-12-21 ヤマハ株式会社 ピッチ変換装置
US7490035B2 (en) 2004-10-27 2009-02-10 Yamaha Corporation Pitch shifting apparatus
JP2006215204A (ja) * 2005-02-02 2006-08-17 Yamaha Corp 音声合成装置およびプログラム
JP2008542844A (ja) * 2005-06-02 2008-11-27 アラン スティーヴン ハワース 固有調波周波数への周波数スペクトル変換プロセス
JP2007240564A (ja) * 2006-03-04 2007-09-20 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
JP5093108B2 (ja) * 2006-07-21 2012-12-05 日本電気株式会社 音声合成装置、方法、およびプログラム
WO2008010413A1 (fr) * 2006-07-21 2008-01-24 Nec Corporation Dispositif, procédé et programme de synthèse audio
US8271284B2 (en) 2006-07-21 2012-09-18 Nec Corporation Speech synthesis device, method, and program
EP2133865A2 (en) 2008-06-11 2009-12-16 Yamaha Corporation Sound synthesizer
US7999169B2 (en) 2008-06-11 2011-08-16 Yamaha Corporation Sound synthesizer
JP2010191042A (ja) * 2009-02-17 2010-09-02 Yamaha Corp 音声処理装置およびプログラム
JP2010217408A (ja) * 2009-03-16 2010-09-30 Yamaha Corp 音波形抽出装置、およびプログラム
JP2010217543A (ja) * 2009-03-17 2010-09-30 Yamaha Corp 音処理装置およびプログラム
US10546594B2 (en) 2010-04-13 2020-01-28 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US10381018B2 (en) 2010-04-13 2019-08-13 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
EP2431967A2 (en) 2010-09-15 2012-03-21 Yamaha Corporation Voice conversion device and method
JP2013186606A (ja) * 2012-03-07 2013-09-19 Yamaha Corp 伝達関数演算装置、およびプログラム
JP2014178512A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声合成装置
JPWO2015098564A1 (ja) * 2013-12-27 2017-03-23 ソニー株式会社 復号化装置および方法、並びにプログラム
US10692511B2 (en) 2013-12-27 2020-06-23 Sony Corporation Decoding apparatus and method, and program
US11705140B2 (en) 2013-12-27 2023-07-18 Sony Corporation Decoding apparatus and method, and program
JP2015172706A (ja) * 2014-03-12 2015-10-01 沖電気工業株式会社 音声復号化装置及びプログラム
CN112037757A (zh) * 2020-09-04 2020-12-04 腾讯音乐娱乐科技(深圳)有限公司 一种歌声合成方法、设备及计算机可读存储介质
CN112037757B (zh) * 2020-09-04 2024-03-15 腾讯音乐娱乐科技(深圳)有限公司 一种歌声合成方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
US6992245B2 (en) 2006-01-31
JP3815347B2 (ja) 2006-08-30
US20030221542A1 (en) 2003-12-04

Similar Documents

Publication Publication Date Title
JP3815347B2 (ja) 歌唱合成方法と装置及び記録媒体
JP4067762B2 (ja) 歌唱合成装置
JP3333022B2 (ja) 歌声合成装置
US5703311A (en) Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
JP4839891B2 (ja) 歌唱合成装置および歌唱合成プログラム
JP4207902B2 (ja) 音声合成装置およびプログラム
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
JP2002268658A (ja) 音声分析及び合成装置、方法、プログラム
JP3966074B2 (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
JP3511360B2 (ja) 音楽音響信号分離方法、その装置およびそのプログラム記録媒体
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
CN100524456C (zh) 歌唱声音合成方法和装置
JP4304934B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP2004021027A (ja) 演奏音制御方法及び装置
Dutilleux et al. Time‐segment Processing
TWI377557B (en) Apparatus and method for correcting a singing voice
TW201027514A (en) Singing synthesis systems and related synthesis methods
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
EP1505570B1 (en) Singing voice synthesizing method
JP5573529B2 (ja) 音声処理装置およびプログラム
JP4468506B2 (ja) 音声データ作成装置および声質変換方法
JP4565846B2 (ja) ピッチ変換装置
Bonada et al. Sample-based singing voice synthesizer using spectral models and source-filter decomposition
JP3979213B2 (ja) 歌唱合成装置、歌唱合成方法並びに歌唱合成用プログラム
JP2001312300A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060529

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3815347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100616

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100616

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110616

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120616

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120616

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130616

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140616

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees