JP2006215204A - 音声合成装置およびプログラム - Google Patents

音声合成装置およびプログラム Download PDF

Info

Publication number
JP2006215204A
JP2006215204A JP2005026855A JP2005026855A JP2006215204A JP 2006215204 A JP2006215204 A JP 2006215204A JP 2005026855 A JP2005026855 A JP 2005026855A JP 2005026855 A JP2005026855 A JP 2005026855A JP 2006215204 A JP2006215204 A JP 2006215204A
Authority
JP
Japan
Prior art keywords
spectrum
conversion
envelope
data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005026855A
Other languages
English (en)
Other versions
JP4207902B2 (ja
Inventor
Hidenori Kenmochi
秀紀 劔持
Bonada Jordi
ボナダ ジョルディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2005026855A priority Critical patent/JP4207902B2/ja
Priority to US11/345,023 priority patent/US7613612B2/en
Priority to DE602006016879T priority patent/DE602006016879D1/de
Priority to EP06101138A priority patent/EP1688912B1/en
Publication of JP2006215204A publication Critical patent/JP2006215204A/ja
Application granted granted Critical
Publication of JP4207902B2 publication Critical patent/JP4207902B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】 複数の音声からなる出力音声を簡易な構成によって合成する。
【解決手段】 データ取得手段5は、音韻を指定する音韻データを順次に取得する。エンベロープ取得手段10は、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープEV0を取得する。スペクトル取得手段30は、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルSPtを取得する。エンベロープ調整部22は、スペクトル取得手段30が取得した変換用スペクトルSPtのスペクトルエンベロープを、エンベロープ取得手段10が取得したスペクトルエンベロープEV0と略一致するように調整する。音声生成手段40は、エンベロープ調整部22による調整後の変換用スペクトルSPnewから出力音声信号Vnewを生成する。
【選択図】 図1

Description

本発明は、様々な特性の音声を合成する技術に関する。
音声に様々な効果を付与するための技術が従来から提案されている。例えば特許文献1には、素材となる音声(以下「原音声」という)のピッチを変換することによって生成された協和音(原音声と和音を構成する音声)を原音声と加算して出力する技術が開示されている。この構成によれば、原音声がひとりの発声者によって発声された音声であっても、恰も複数人にて別個の旋律を合唱しているかのような音声を出力することができる。また、例えば原音声を楽器の演奏音とすれば、複数の楽器によって合奏しているかのような音声が生成される。
特開平10−78776号公報(段落0013および図1参照)。
ところで、合唱や合奏の形態としては、各歌唱者や演奏者が別個の旋律を歌唱または演奏する形態(いわゆるコーラス)のほか、複数の歌唱者や演奏者が同一の旋律を歌唱または演奏するユニゾンと呼ばれる形態がある。特許文献1に記載された構成においては、原音声のピッチを変換することによって協和音が生成されるため、複数人が別個の旋律を歌唱ないし演奏したときの音声を生成することはできるものの、複数人が共通の旋律を歌唱または演奏するユニゾンの効果を原音声に付与することはできない。なお、特許文献1に記載された構成においても、例えば原音声のピッチを変更せずに音響的な特性(声質)のみを変換した音声を原音声とともに出力すれば、複数人が共通の旋律を歌唱または演奏しているかのような効果を付与することも一応は可能である。しかしながら、この場合には、ユニゾンを構成する音声ごとに原音声の特性を変換するための仕組みを用意することが不可欠となる。したがって、多人数によるユニゾンを実現しようとすれば、DSP(Digital Signal Processor)などのハードウェアによって原音声の特性が変換される構成においてはその回路規模が肥大化し、この変換がソフトウェアによって実現される構成においては演算装置の処理負荷が過大になるといった問題がある。本発明は、このような事情に鑑みてなされたものであり、複数の音声からなる出力音声を簡易な構成によって合成することを目的としている。
この課題を解決するために、本発明に係る音声合成装置は、音韻を指定する音韻データ(例えば実施形態における歌詞データ)を順次に取得するデータ取得手段と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得手段と、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得手段と、スペクトル取得手段が取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得手段が取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整手段と、エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段とを具備する。なお、本発明にいう「音声」には、人間が発声した音声や楽器の演奏音といった種々の音響が含まれる。
この構成によれば、並列に発声した複数の音声を含む変換用音声のスペクトルエンベロープが、音声素片として採取された原音声のスペクトルエンベロープと略一致するように調整されるから、その音声素片の音韻をもった複数の音声(すなわち合唱音や合奏音)の出力音声信号を生成することができる。しかも、この出力音声信号が示す出力音声に含まれる複数の音声の各々について音声素片の特性を変換するための要素を設けることは原理的に不要であるから、音声合成装置の構成は特許文献1の構成と比較して大幅に簡素化される。換言すると、音声合成装置の構成を複雑化することなく、極めて多数の音声からなる出力音声を合成することができる。
本発明における音声素片とは、音声(典型的には人間の肉声)を聴覚上において区別し得る最小の単位に区分してなる音素(phoneme)と、複数の音素を連結した音素連鎖の双方を包含する概念である。音素は子音(例えば[s])と母音(例えば[a])とに区別される。一方、音素連鎖は、子音とこれに続く母音との組合せ(例えば[s_a])、母音とこれに続く子音との組合せ(例えば[i_t])、母音とこれに続く母音との組合せ(例えば[a_i])といった具合に、母音または子音に相当する複数の音素を時間軸上において相互に連結したものである。この音声素片の形態は任意である。例えば、音声素片は、時間領域(時間軸)における波形としての形態にて利用されてもよいし、周波数領域(周波数軸)におけるスペクトルとしての形態にて利用されてもよい。
また、音声素片のスペクトルエンベロープと変換用スペクトルのスペクトルエンベロープとが「略一致する」とは、エンベロープ調整手段による調整後の周波数スペクトルから生成された出力音声信号に基づいて実際に音声が放音されたときに、その音声の音韻が聴感上において音声素片の音韻と同一であると知覚される程度に近似(理想的には一致)していることを意味する。したがって、音声素片のスペクトルエンベロープとエンベロープ調整手段による調整後のスペクトルエンベロープとは厳密な意味で完全に一致している必要は必ずしもない。
本発明に係る音声合成装置において、音声生成手段が生成した出力音声信号は、例えばスピーカやイヤホンなどの放音機器に供給されて出力音声として出力される。ただし、この出力音声信号が利用される態様は任意である。例えば、出力音声信号が記録媒体に記憶されたうえで、当該記憶手段を再生する他の装置にて出力音声が出力される態様としてもよいし、出力音声信号が通信回線を介して他の装置に送信されて当該装置にて音声として再生される態様としてもよい。
本発明に係る音声合成装置において、エンベロープ取得手段が音声素片のスペクトルエンベロープを取得するための方法は任意である。例えば、複数の音声素片の各々についてスペクトルエンベロープを記憶する記憶手段が設けられた構成において、エンベロープ取得手段は、音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを記憶手段から読み出す(第1実施形態)。この構成によれば、音声素片のスペクトルエンベロープを取得する処理が簡素化されるという利点がある。また、複数の音声素片の各々について周波数スペクトルを記憶する記憶手段が設けられた構成において、エンベロープ取得手段は、音韻データによって指定される音韻に対応した音声素片の周波数スペクトルを記憶手段から読み出し、この周波数スペクトルからスペクトルエンベロープを抽出する(図10参照)。この構成によれば、記憶手段に記憶された周波数スペクトルを、単一の音声からなる出力音声を生成するためにも流用することができるという利点がある。また、時間軸上における音声素片の波形を示す信号(原音声信号)が記憶手段に記憶された構成において、エンベロープ取得手段は、この原音声信号から音声素片のスペクトルエンベロープを取得する。
本発明の望ましい態様において、スペクトル取得手段は、各々が異なる音韻にて発声された複数の変換用音声のうち音韻データによって指定される音韻に対応した変換用音声の変換用スペクトルを取得する。この態様によれば、出力音声信号の生成の基礎となる変換用音声が複数の音韻の変換用音声のなかから音韻データに応じて選択されるから、ひとつの音韻の変換用音声から出力音声信号が生成される構成と比較して自然な出力音声を生成することができる。
本発明の他の態様においては、ピッチを指定するピッチデータ(例えば実施形態における音符データ)を取得するデータ取得手段と、スペクトル取得手段が取得した変換用スペクトルに含まれる各ピークの周波数をピッチデータによって指定されるピッチに応じて変化させるピッチ変換手段とが更に設けられ、エンベロープ調整手段は、ピッチ変換手段による処理後の変換用スペクトルのスペクトルエンベロープを調整する。この態様によれば、出力音声信号のピッチをピッチデータに応じて適宜に設定することができる。変換用スペクトルに含まれる各ピークの周波数を変化させる方法(つまり変換用音声のピッチを変化させる方法)は任意である。例えば、ピッチ変換手段は、ピッチデータによって指定されるピッチに応じて変換用スペクトルを周波数軸の方向に伸長または縮小する。この態様によれば、変換用スペクトルの各周波数に対して所望のピッチに応じた数値を乗算するという簡易な処理によって変換用スペクトルのピッチを調整することができる。また、他の態様において、ピッチ変換手段は、変換用スペクトルにおける各ピークの周波数を含むスペクトル分布領域の各々をピッチデータによって指定されるピッチに応じて周波数軸の方向に移動させる(図12参照)。この態様によれば、変換用スペクトルの各ピークの周波数を所期の周波数に精度よく合致させることができるから、変換用スペクトルのピッチを精緻に調整することができる。
もっとも、出力音声のピッチを変化させるための構成は任意である。例えば、ピッチを指定するピッチデータを取得するデータ取得手段が設けられた構成においては、スペクトル取得手段が、各々のピッチが相違する複数の変換用音声のうちピッチデータによって指定されるピッチに近似(理想的には一致)するピッチの変換用音声の変換用スペクトルを取得する構成としてもよい(図8参照)。この態様によれば、変換用スペクトルのピッチを変換するための構成を不要とすることができる。ただし、変換用スペクトルのピッチを変換する構成と、各々のピッチが異なる複数の変換用音声の何れかを選択する構成とを組み合わせてもよい。例えば、各々が異なるピッチに対応する複数の変換用スペクトルのうち入力音声のピッチに近似するピッチに対応した変換用スペクトルをスペクトル取得手段が取得し、この選択した変換用スペクトルのピッチをピッチ変換手段がピッチデータに応じて変換する構成も採用される。
本発明の望ましい態様において、エンベロープ取得手段は、音声素片を時間軸上にて区分したフレームごとにスペクトルエンベロープを取得し、ひとつの音声素片の最後のフレームにおけるスペクトルエンベロープと当該音声素片に続く他の音声素片の最初のフレームにおけるスペクトルエンベロープとを補間することによって両フレームの間隙の音声のスペクトルエンベロープを生成する。この態様によれば、任意の時間長の出力音声を生成することができる。
ところで、複数の歌唱者や演奏者から略同一のピッチにて同時に(並列に)発せられた音声の周波数スペクトルは、その各ピークの帯域幅(例えば図4に示される帯域幅W2)が、単一の歌唱者や演奏者から発せられた音声の周波数スペクトルにおける各ピークの帯域幅(例えば図3に示される帯域幅W1)よりも広い場合が多い。いわゆるユニゾンにおいては、各歌唱者や各演奏者の音声のピッチが厳密には一致していないからである。このような観点から、本発明に係る音声合成装置は、音韻を指定する音韻データを順次に取得するデータ取得手段と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得手段と、変換用音声の周波数スペクトルである第1変換用スペクトル、および、第1変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり第1変換用スペクトルよりも各ピークの帯域幅が広い第2変換用スペクトルの何れかを取得するスペクトル取得手段と、スペクトル取得手段が取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得手段が取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整手段と、エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段とを具備する構成としても特定される。なお、この構成の具体例は第2実施形態(図7)として後述される。
この構成によれば、出力音声信号を生成するための周波数スペクトルとして第1変換用スペクトルおよび第2変換用スペクトルの何れかが選択されるから、第1変換用スペクトルに応じた特性の出力音声信号と第2変換用スペクトルに応じた特性の出力音声信号とを選択的に生成することができる。例えば、第1変換用スペクトルが選択された場合には単一の歌唱者または演奏者から発せられた出力音声を生成することができ、第2変換用スペクトルが選択された場合には複数の歌唱者や演奏者から発せられた出力音声を生成することができる。なお、ここでは第1変換用スペクトルと第2変換用スペクトルとが特定されているが、更に他の変換用スペクトルが選択手段による選択の対象とされる構成としてもよい。例えば、ピークの帯域幅が相違する3種類以上の変換用スペクトルを記憶手段に記憶させておき、このうちの何れかをスペクトル取得手段が選択して出力音声信号の生成に利用するといった構成も採用される。
本発明に係る音声合成装置は、音声の合成に専用されるDSPなどのハードウェアによって実現されるほか、パーソナルコンピュータなどのコンピュータとプログラムとの協働によっても実現される。このプログラムは、音韻を指定する音韻データを順次に取得するデータ取得処理と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得処理と、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得処理と、スペクトル取得処理にて取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得処理にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整処理と、エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理とをコンピュータに実行させる内容となる。
また、他の態様に係るプログラムは、音韻を指定する音韻データを順次に取得するデータ取得処理と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得処理と、変換用音声の周波数スペクトルである第1変換用スペクトル、および、第1変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり第1変換用スペクトルよりも各ピークの帯域幅が広い第2変換用スペクトルの何れかを取得するスペクトル取得処理と、スペクトル取得処理にて取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得処理にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整処理と、エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理とをコンピュータに実行させる内容となる。これらのプログラムは、コンピュータが読み取り可能な記録媒体(例えばCD−ROM)に格納された態様にて利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態にてサーバ装置から提供されてコンピュータにインストールされる。
また、本発明は、音声を合成するための方法としても特定される。この方法は、音韻を指定する音韻データを順次に取得するデータ取得過程と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得過程と、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得過程と、スペクトル取得過程にて取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得過程にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整過程と、エンベロープ調整過程における調整後の変換用スペクトルから出力音声信号を生成する音声生成過程とを有する。
他の観点に基づく音声合成方法は、音韻を指定する音韻データを順次に取得するデータ取得過程と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得過程と、変換用音声の周波数スペクトルである第1変換用スペクトル、および、第1変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり第1変換用スペクトルよりも各ピークの帯域幅が広い第2変換用スペクトルの何れかを取得するスペクトル取得過程と、スペクトル取得過程にて取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得過程にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整過程と、エンベロープ調整過程における調整後の変換用スペクトルから出力音声信号を生成する音声生成過程とを有する。
以上のように、本発明によれば、複数の音声からなる出力音声を簡易な構成によって合成することができる。
<A:第1実施形態>
まず、楽曲の歌唱音を合成するための装置に本発明を適用した形態について説明する。図1は、本実施形態に係る音声合成装置の構成を示すブロック図である。同図に示されるように、音声合成装置D1は、データ取得手段5と、エンベロープ取得手段10と、スペクトル変換手段20と、スペクトル取得手段30と、音声生成手段40と、記憶手段50および55と、音声出力部60とを有する。このうちデータ取得手段5、エンベロープ取得手段10、スペクトル変換手段20、スペクトル取得手段30および音声生成手段40は、例えばCPU(Central Processing Unit)などの演算処理装置がプログラムを実行することによって実現されてもよいし、音声の処理に専用されるDSPなどのハードウェアによって実現されてもよい。記憶手段50および55は各種のデータを記憶する手段である。例えば、磁気ディスクを内蔵したハードディスク装置や可搬型の記録媒体を駆動する装置など各種の記憶装置が記憶手段50または55として採用される。なお、記憶手段50および55は、ひとつの記憶装置に確保された別個の記憶領域であってもよいし、各々が別個の記憶装置であってもよい。
図1に示されるデータ取得手段5は、楽曲の演奏に関するデータを取得する手段である。具体的には、データ取得手段5は、歌詞データと音符データとを取得する。歌詞データは、楽曲の歌詞の音韻(文字列)を指定するデータである。一方、音符データは、楽曲のうちメインメロディ(例えばボーカルパート)を構成する各楽音のピッチ(音高)P0と、その楽音が継続されるべき時間長(音符長)T0とを指定するデータである。歌詞データおよび音符データは、例えばMIDI(Musical Instrument Digital Interface)規格に準拠したデータ構造を有する。したがって、歌詞データおよび音符データを図示しない記憶装置から読み出す手段や、外部に設置されたMIDI機器から歌詞データおよび音符データを受信するMIDIインタフェースがデータ取得手段5として採用される。
記憶手段55は、音声素片ごとにエンベロープデータDevを記憶する。エンベロープデータDevは、予め原音声から採取された音声素片のスペクトルエンベロープ(スペクトル包絡)を示すデータである。このようなエンベロープデータDevは、例えば図2に示されるデータ作成装置D2によって作成される。なお、データ作成装置D2は、音声合成装置D1とは別個の装置であってもよいし音声合成装置D1に内蔵された装置であってもよい。
図2に示されるように、データ作成装置D2は、音素区分部91とFFT部92と特徴抽出部93とを有する。このうち音素区分部91には原音声信号V0が入力される。この原音声信号V0は、特定の発声者が所望の音韻を略一定のピッチにて発声したときの音声(以下「原音声」という)の時間軸上における波形を表わす信号であり、例えばマイクロホンなどの収音機器から供給される。音素区分部91は、原音声信号V0のうち所望の音声素片に相当する区間を切り出す手段である。この区間の始点および終点は、例えば、エンベロープデータDevの作成者が原音声信号V0の波形を表示装置にて視認しながら操作子を適宜に操作して当該区間の端部を指定することによって決定される。
FFT部92は、原音声信号V0を区分した音声素片を所定の時間長(例えば5msないし10ms)のフレームに切り出し、各フレームの原音声信号V0に対してFFT処理を含む周波数分析を実行して周波数スペクトルSP0を検出する。原音声信号V0の各フレームは時間軸上において相互に重なり合うように選定される。本実施形態においては、ひとりの発声者から発せられた音声が原音声とされた場合を想定する。図3に示されるように、このような原音声の周波数スペクトルSP0は、基音および倍音に相当する各周波数においてスペクトル強度Mの局所的なピークが極めて狭い帯域幅W1に現れる。
図2に示される特徴抽出部93は、原音声信号V0の特徴量を抽出するための手段である。本実施形態における特徴抽出部93は原音声のスペクトルエンベロープEV0を抽出する。このスペクトルエンベロープEV0は、図3に示されるように、周波数スペクトルSP0のピークpを連結した包絡線である。このスペクトルエンベロープEV0を検出する方法としては、例えば、周波数スペクトルSP0のうち周波数軸上において相互に隣接するピークpの間隙を直線的に補間することによってスペクトルエンベロープEV0を折線として近似する方法や、各ピークpを通過する曲線を3次のスプライン補間など各種の補間処理によりスペクトルエンベロープEV0として抽出する方法などが採用される。特徴抽出部93は、こうして抽出したスペクトルエンベロープEV0を示すエンベロープデータDevを生成する。図3に示されるように、エンベロープデータDevは複数の単位データUevを含む。各単位データUevは、周波数軸上に所定の間隔ごとに選定された複数の周波数F0(F01,F02,……)の各々と当該周波数F0におけるスペクトルエンベロープEV0のスペクトル強度Mev(Mev1,Mev2,……)とが組み合わされたデータ構造となっている。以上の構成および手順にて作成されたエンベロープデータDevが音韻ごと(音声素片ごと)に記憶手段55に記憶される。したがって、複数のフレームの各々に対応するエンベロープデータDevが音韻ごとに記憶手段55に格納されることになる。
次に、図1に示されるエンベロープ取得手段10は、原音声のスペクトルエンベロープEV0を取得する手段であり、素片選択部11と補間部12とを有する。データ取得手段5によって取得された歌詞データは素片選択部11に供給される。この素片選択部11は、記憶手段55に音韻ごとに記憶された複数のエンベロープデータDevのうち歌詞データが示す音韻に対応するエンベロープデータDevを選択する手段である。例えば、歌詞データによって「さいた(saita)」という文字列が指定される場合には、音声素片[#_s]、[s_a]、[a_i]、[i_t]、[t_a]および[a_#]に対応するエンベロープデータDevが記憶手段55から順次に読み出される。一方、補間部12は、ひとつの音声素片の最後のフレームのスペクトルエンベロープEV0とこれに続く音声素片の最初のフレームのスペクトルエンベロープEV0とを補間することによって両フレームの間隙の音声のスペクトルエンベロープEV0を生成する手段である(詳細については後述する)。
図1に示されるスペクトル変換手段20は、出力音声の周波数スペクトル(以下「出力スペクトル」という)SPnewを示すデータ(以下「新規スペクトルデータ」という)Dnewを生成する手段である。本実施形態におけるスペクトル変換手段20は、予め用意された特定の音声(以下「変換用音声」という)の周波数スペクトル(以下「変換用スペクトル」という)SPtと原音声のスペクトルエンベロープEV0とに基づいて出力音声の周波数スペクトルSPnewを特定する。なお、周波数スペクトルSPnewを生成する手順については後述する。
一方、スペクトル取得手段30は、変換用スペクトルSPtを取得するための手段であり、FFT部31とピーク検出部32とデータ生成部33とを有する。このうちFFT部31には、記憶手段50から読み出された変換用音声信号Vtが供給される。この変換用音声信号Vtは、変換用音声の波形を特定の区間にわたって表わす時間領域の信号であり、予め記憶手段50に格納されている。FFT部31は、図2に示したFFT部92と同様に、記憶手段50から読み出される変換用音声信号Vtを所定の時間長のフレームに切り出し、各フレームの変換用音声信号Vtに対してFFT処理を含む周波数分析を実行することによって変換用スペクトルSPtを検出する。一方、ピーク検出部32は、FFT部31によって特定された変換用スペクトルSPtのピークptを検出してその周波数を特定する。ピークptを検出する方法としては、例えば、周波数軸上において近接する所定数のピークのうちスペクトル強度が最大となるものをピークptとして検出する方法が採用される。
本実施形態においては、多数の発声者が略同一のピッチPtにて発声した音声(すなわち合唱や合奏といったユニゾンの音声)をマイクロホンなどの収音機器によって収音した信号が変換用音声信号Vtとして記憶手段50に記憶されている場合を想定する。このような変換用音声信号VtにFFT処理を施して得られる変換用スペクトルSPtは、図4に示されるように、変換用音声のピッチPtに応じた基音および倍音に相当する各周波数においてスペクトル強度Mの局所的なピークptが現れる点で図3の周波数スペクトルSP0と共通するが、各ピークptの帯域幅W2が周波数スペクトルSP0の各ピークpの帯域幅W1よりも広いという特性を有する。このようにピークptの帯域幅W2が広いのは、多数の発声者によって発声された各音声のピッチが完全には一致しないからである。
図1に示されるデータ生成部33は、変換用スペクトルSPtを示すデータ(以下「変換用スペクトルデータ」という)Dtを生成するための手段である。変換用スペクトルデータDtは、図4に示されるように、複数の単位データUtと指示子Aとを含む。各単位データUtは、エンベロープデータDevと同様に、周波数軸上に所定の間隔ごとに選定された複数の周波数Ft(Ft1,Ft2,……)の各々と当該周波数Ftにおける変換用スペクトルSPtのスペクトル強度Mt(Mt1,Mt2,……)とが組み合わされたデータ構造となっている。一方、指示子Aは、変換用スペクトルSPtのピークptを指示するためのデータ(例えばフラグ)であり、変換用スペクトルデータDtに含まれる総ての単位データUtのうちピーク検出部32によって検出されたピークptに対応する単位データUtに対して選択的に付加される。例えば、ピーク検出部32が周波数Ft3にピークptを検出した場合、図4に示されるように、周波数Ft3を含む単位データUtに指示子Aが付加され、これ以外の単位データUt(つまりピークpt以外の周波数に対応する単位データUt)に指示子Aは付加されない。
次に、スペクトル変換手段20の構成および動作について説明する。図1に示されるように、スペクトル変換手段20は、ピッチ変換部21とエンベロープ調整部22とを有する。ピッチ変換部21には、スペクトル取得手段30から出力された変換用スペクトルデータDtとデータ取得手段5が取得した音符データとが入力される。このピッチ変換部21は、変換用スペクトルデータDtによって示される変換用音声のピッチPtを音符データが示すピッチP0に応じて変化させる手段である。本実施形態におけるピッチ変換部21は、変換用スペクトルデータDtのピッチPtが音符データによって指定されるピッチP0と略一致するように変換用スペクトルSPtを変形する。この変形の具体的な手順について図5を参照して説明する。
図5の部分(a)には、図4に示した変換用スペクトルSPtが図示されている。ピッチ変換部21は、この変換用スペクトルSPtを周波数軸の方向に伸長または縮小することによって、当該変換用スペクトルSPtの各ピークptの周波数をピッチP0に応じた周波数に変更する。更に詳述すると、ピッチ変換部21は、音符データが示すピッチP0と変換用音声のピッチPtとの比「P0/Pt」を算定し、変換用スペクトルデータDtを構成する各単位データUtの周波数Ft(Ft1,Ft2,……)に対して当該比を乗算する。なお、変換用音声のピッチPtは、例えば、変換用スペクトルSPtの多数のピークptのうち基音に相当するピークpt(すなわち周波数が最小であるピークpt)の周波数として特定される。この処理により、図5の部分(b)に示されるように、変換用スペクトルSPtの各ピークptはピッチP0に対応する周波数まで移動し、この結果として変換用音声のピッチPtはピッチP0に略一致することになる。ピッチ変換部21は、こうしてピッチを変換した変換用スペクトルSPtを示す変換用スペクトルデータDtをエンベロープ調整部22に出力する。
図1に示されるエンベロープ調整部22は、この変換用スペクトルデータDtが示す変換用スペクトルSPtのスペクトル強度M(換言すればスペクトルエンベロープEVt)を調整することによって新規スペクトルSPnewを生成する手段である。更に詳述すると、エンベロープ調整部22は、図5の部分(c)に示されるように、新規スペクトルSPnewのスペクトルエンベロープが、エンベロープ取得手段10によって取得されたスペクトルエンベロープEV0と略一致するように、変換用スペクトルSPtのスペクトル強度Mを調整する。スペクトル強度Mを調整する方法の具体例は以下の通りである。
エンベロープ調整部22は、まず、変換用スペクトルデータDtのうち指示子Aが付加されたひとつの単位データUtを選定する。この単位データUtは、変換用スペクトルSPtの何れかのピークpt(以下では特に「注目ピークpt」という)の周波数Ftおよびスペクトル強度Mtを含む(図4参照)。次いで、エンベロープ調整部22は、エンベロープ取得手段10から供給されるエンベロープデータDevのうち注目ピークptの周波数Ftに近似または一致する周波数F0を含む単位データUevを選定する。そして、エンベロープ調整部22は、この選定した単位データUevに含まれるスペクトル強度Mevと注目ピークptのスペクトル強度Mtとの比「Mev/Mt」を算定し、注目ピークptを中心とした所定の帯域に属する変換用スペクトルSPtの各単位データUtのスペクトル強度Mtに対して当該比を乗算する。この一連の処理を変換用スペクトルSPtの総てのピークptについて繰り返すことにより、新規スペクトルSPnewは、図5の部分(c)に示されるように、各ピークの頂点がスペクトルエンベロープEV0上に位置する形状となる。エンベロープ調整部22は、この新規スペクトルSPnewを示す新規スペクトルデータDnewを出力する。
ピッチ変換部21やエンベロープ調整部22による処理は原音声信号V0および変換用音声信号Vtを区分したフレームごとに実施される。ここで、変換用音声の総フレーム数は記憶手段50に記憶された変換用音声信号Vtの時間長に応じて制約されるのに対し、音符データが示す時間長T0は楽曲の内容に応じて変化するため、変換用音声の総フレーム数と音符データが示す時間長T0とは一致しない場合が多い。そこで、変換用音声の総フレーム数が時間長T0よりも短い場合、スペクトル取得手段30は、総てのフレームに対応する変換用スペクトルデータDtをスペクトル変換手段20に出力し終えると、今度は変換用音声信号Vtの最初のフレームに対応した変換用スペクトルデータDtをスペクトル変換手段20に出力するといった具合に変換用音声信号Vtの各フレームをループさせながら使用する。なお、変換用音声信号Vtの総フレーム数が時間長T0よりも長い場合には、余ったフレームに対応する変換用スペクトルデータDtを破棄すれば足りる。
このようなフレーム数の不一致は原音声についても生じ得る。すなわち、原音声の総フレーム数(すなわちひとつの音韻に対応するエンベロープデータDevの総数)はスペクトルエンベロープEV0を作成したときに選定した固定値となるのに対し、音符データが示す時間長T0は楽曲の内容に応じて変化するため、ひとつの音韻に対応する原音声の総フレーム数だけでは音符データが示す時間長T0に足りない場合が生じ得る。そこで、本実施形態においては、ひとつの音声素片の総フレーム数とこれに続く音声素片の総フレーム数とに対応する時間長が音符データによって示される時間長T0よりも短い場合に双方の音声素片の間隙の音声が補間によって生成されるようになっている。この補間を実行するのが図1の補間部12である。
いま、図6に示されるように、例えば音声素片[a_i]と音声素片[i_t]とが連結される場合を想定する、音声素片[a_i]の総フレーム数「n」と音声素片[i_t]の総フレーム数「m」との合計値に相当する時間長が音符データによって示される時間長T0よりも短い場合、補間部12は、図6に示されるように、音声素片[a_i]の最後のフレームのエンベロープデータDev_nと音声素片[i_t]の最初のフレームのエンベロープデータDev_1とに基づいて補間処理を実行することにより、これらのフレームの間隙に挿入される音声のスペクトルエンベロープを示すエンベロープデータDev’を生成する。このエンベロープデータDev’の総数は、音声素片[a_i]の始点から音声素片[i_t]の終点までの長さが時間長T0と略等しくなるように選定される。この補間処理によって生成されるエンベロープデータDev’が示すスペクトルエンベロープは、音声素片[a_i]の最後のエンベロープデータDev_nが示すスペクトルエンベロープEV0と音声素片[i_t]の最初のエンベロープデータDev_1が示すスペクトルエンベロープEV0とが滑らかに連結するように各々の形状が決定される。こうして補間部12による補間処理を経たエンベロープデータDev(補間によるエンベロープデータDev’を含む)がスペクトル変換手段20のエンベロープ調整部22に出力されるのである。
次に、図1に示される音声生成手段40は、新規スペクトルSPnewに基づいて時間領域の出力音声信号Vnewを生成する手段であり、逆FFT部41と出力処理部42とを有する。このうち逆FFT部41は、エンベロープ調整部22からフレームごとに出力される新規スペクトルデータDnewに対して逆FFT処理を施して時間領域の出力音声信号Vnew0を生成する。出力処理部42は、こうして生成されたフレームごとの出力音声信号Vnew0に時間窓関数を乗算し、これらを時間軸上において相互に重なり合うように連結して出力音声信号Vnewを生成する。この出力音声信号Vnewは音声出力部60に供給される。音声出力部60は、出力音声信号Vnewをアナログの電気信号に変換するD/A変換器と、このD/A変換器からの出力信号に基づいて放音する放音機器(例えばスピーカやヘッドフォン)とを有する。
以上に説明したように、本実施形態においては、多数の発声者によって並列に発せられた複数の音声を含む変換用音声のスペクトルエンベロープEVtが原音声のスペクトルエンベロープEV0と略一致するように調整されるから、原音声と同様の音韻をもった複数の音声(すなわち合唱音や合奏音)を示す出力音声信号Vnewを生成することができる。したがって、ひとりの発声者や演奏者による音声が原音声とされた場合であっても、恰も多数の発声者や演奏者によって合唱や合奏が行なわれているかのような出力音声を音声出力部60から出力することができる。しかも、出力音声に含まれる複数の音声の各々を生成するための独立した要素は原理的に不要であるから、音声合成装置D1の構成は特許文献1の構成と比較して大幅に簡素化される。さらに、本実施形態においては、音符データに応じて変換用スペクトルSPtのピッチPtが変換されるから、任意のピッチの合唱音や合奏音を生成することができる。また、このピッチの変換が、変換用スペクトルSPtを周波数軸の方向に伸長するという簡素な処理(乗算処理)によって実現されるという利点もある。
<B:第2実施形態>
次に、本発明の第2実施形態に係る音声合成装置について説明する。なお、本実施形態のうち第1実施形態と同様の要素については共通の符号を付してその説明を適宜に省略する。
図7は、本実施形態に係る音声合成装置D1の構成を示すブロック図である。同図に示されるように、この音声合成装置D1は、記憶手段50の記憶内容およびスペクトル取得手段30の構成が第1実施形態の音声合成装置D1とは相違するが、他の要素は同様の構成である。本実施形態においては、第1変換用音声信号Vt1と第2変換用音声信号Vt2とが記憶手段50に記憶される。第1変換用音声信号Vt1と第2変換用音声信号Vt2とは、互いに略同一のピッチPtにて発せられた変換用音声を収音した信号である。ただし、第1変換用音声信号Vt1は、図2に示した原音声信号V0と同様に、単一の音声(ひとりの発声者からの音声やひとつの楽器からの演奏音)の波形を示す信号であるのに対し、第2変換用音声信号Vt2は、第1実施形態の変換用音声信号Vtと同様に、各々が並列に発せられた複数の音声(多数の発声者からの音声や多数の楽器からの演奏音)からなる変換用音声を収音した信号である。したがって、第2変換用音声信号Vt 2から特定される変換用スペクトルSPtの各ピークの帯域幅(図4に示す帯域幅W2)は、第1変換用音声信号Vt1から特定される変換用スペクトルSPtの各ピークの帯域幅(図3に示す帯域幅W1)よりも広い。
また、本実施形態におけるスペクトル取得手段30はFFT部31の前段に選択部34を有する。この選択部34は、外部から供給される選択信号に基づいて、第1変換用音声信号Vt1および第2変換用音声信号Vt2の何れかを選択して記憶手段50から読み出す手段である。選択信号は、例えば、入力機器67に対する操作に応じて供給される。この選択部34によって読み出された変換用音声信号VtがFFT部31に供給される。これ以後の構成および動作は第1実施形態と同様である。
このように、本実施形態においては、第1変換用音声信号Vt1および第2変換用音声信号Vt2の何れかが選択的に新規スペクトルSPnewの生成に利用される。そして、第1変換用音声信号Vt1が選択された場合には、原音声の音韻と変換用音声の周波数特性とを兼ね備えた単一の出力音声が出力される一方、第2変換用音声信号Vt2が選択された場合には、第1実施形態と同様に、原音声の音韻を維持した多数の音声からなる出力音声が出力される。すなわち、本実施形態においては、出力音声を単一の音声とするか複数の音声とするかを利用者が任意に選択することができる。
なお、本実施形態においては入力機器67への操作に応じて変換用音声信号Vtが選択される構成を例示したが、この選択の基準となる要素は任意に変更される。例えば、所定の時間間隔にて発生するタイマ割込を契機として第1変換用音声信号Vt1および第2変換用音声信号Vt2の一方から他方に切り替える構成としてもよい。さらに、本実施形態に係る音声合成装置D1を歌唱合成装置に適用した場合には、演奏される楽曲の進行に同期して第1変換用音声信号Vt1および第2変換用音声信号Vt2の一方から他方に切り替える構成も採用される。また、本実施形態においては、単一の音声を示す第1変換用音声信号Vt1と複数の音声を示す第2変換用音声信号Vt2とが記憶手段50に記憶された構成を例示したが、各変換用音声信号Vtが示す音声数はこれに限られない。例えば、各々が並列に発せられた所定数の音声からなる変換用音声を示す第1変換用音声信号Vt 1と、これよりも多数の音声からなる変換用音声を示す第2変換用音声信号Vt2とを利用してもよい。
<C:変形例>
各実施形態に対しては種々の変形が加えられる。具体的な変形の態様は以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
(1)各実施形態においてはひとつのピッチPtの変換用音声信号Vt(またはVt1やVt2)が記憶手段50に記憶された構成を例示したが、図8に示されるように、各々のピッチPt(Pt1,Pt2,……)が相違する複数の変換用音声信号Vtを記憶手段50に記憶させた構成も採用される。各変換用音声信号Vtは、並列に発生した多数の音声を含む変換用音声を収音したものである。図8の構成においては、データ取得手段5によって取得された音符データがスペクトル取得手段30の選択部34にも供給されるようになっている。この選択部34は、音符データによって指定されるピッチP0に近似または一致するピッチPtの変換用音声信号Vtを選択して記憶手段50から読み出す。この構成によれば、新規スペクトルSPnewの生成に利用される変換用音声信号VtのピッチPtを音符データが示すピッチP0に近づけることができるから、ピッチ変換部21による処理にて変換用スペクトルSPtの各ピークptの周波数を変化させる量が低減される。したがって、自然な形状の新規スペクトルSPnewを生成することができるという利点がある。なお、ここでは変換用音声信号Vtの選択に加えてピッチ変換部21による処理も実行する構成としたが、多数のピッチPtの変換用音声信号Vtが記憶手段50に記憶されていれば変換用音声信号Vtの選択のみによって所望のピッチの出力音声を生成することができるから、ピッチ変換部21は必ずしも必要ではない。
(2)各実施形態においてはひとつの音韻にて発声された変換用音声を示す変換用音声信号Vtが記憶手段50に記憶された構成を例示したが、図9に示されるように、各々が別個の音韻にて発声された複数の変換用音声の各々について変換用音声信号Vtを記憶手段50に記憶させた構成も採用される。同図においては、音声素片[#_s]の音韻にて発声された変換用音声の変換用音声信号Vtと音声素片[s_a]の音韻にて発声された変換用音声の変換用音声信号Vtとが図示されている。図9の構成においては、データ取得手段5によって取得された歌詞データがスペクトル取得手段30の選択部34にも供給されるようになっている。この選択部34は、複数の変換用音声信号Vtのうち歌詞データによって指定される音韻の変換用音声信号Vtを選択して記憶手段50から読み出す。この構成によれば、変換用スペクトルSPtのスペクトルエンベロープEVtをエンベロープ取得手段10が取得したスペクトルエンベロープEV0に近づけることができるから、エンベロープ調整部22において変換用スペクトルSPtのスペクトル強度Mを変化させる量が低減される。したがって、スペクトル形状の歪みが少ない自然な形状の新規スペクトルSPnewを生成することができるという利点がある。
(3)各実施形態においては、原音声のスペクトルエンベロープEV0を示すエンベロープデータDevが記憶手段55に記憶される構成を例示したが、これ以外のデータが記憶手段55に記憶された構成も採用される。例えば、図10に示されるように、原音声の周波数スペクトルSP0(図3参照)を示すデータDspが音韻ごとに記憶手段55に記憶された構成も採用される。このデータDspは、各実施形態におけるエンベロープデータDevや変換用スペクトルデータDtと同様に複数の単位データを含む。各単位データは、周波数軸上に所定の間隔ごとに選定された複数の周波数Fと当該周波数Fにおける周波数スペクトルSP0のスペクトル強度Mとが組み合わされたデータである。これらのデータDspのうち歌詞データが示す音韻に対応するデータDspが素片選択部11によって読み出される。一方、本変形例におけるエンベロープ取得手段10は、素片選択部11と補間部12との間に特徴抽出部13が介挿される。この特徴抽出部13は、図2に示した特徴抽出部93と同様の機能を有する。すなわち、特徴抽出部13は、素片選択部11が読み出したデータDspから周波数スペクトルSP0のスペクトルエンベロープEV0を特定し、これを表わすエンベロープデータDevを補間部12に出力する。この構成によっても、各実施形態と同様の作用および効果が奏される。
また、原音声信号V0そのものが音韻ごとに記憶手段55に記憶された構成としてもよい。この構成においては、図10に示した特徴抽出部13は、第1に、素片選択部11によって選択された原音声信号V0にFFT処理を含む周波数分析を実施して周波数スペクトルSP0を算定し、第2に、この周波数スペクトルSP0からスペクトルエンベロープEV0を特定してエンベロープデータDevを出力する。この処理は出力音声の生成に先立って実行されてもよいし、出力音声の生成に並行して実行されてもよい。以上のように、エンベロープ取得手段10が原音声のスペクトルエンベロープEV0を取得するための方法は任意である。
(4)各実施形態においては、変換用スペクトルデータDtの各単位データUtに含まれる周波数Ftに特定の数値(P0/Pt)を乗算することによって変換用スペクトルSPtを周波数軸の方向に伸長または縮小する構成を例示したが、変換用スペクトルSPtのピッチPtを変換する方法は任意に変更される。例えば、各実施形態に示した方法においては、変換用スペクトルSPtが全帯域にわたって同率に伸長または縮小されるため、各ピークptの帯域幅が元のピークptの帯域幅よりも著しく広がってしまう場合が生じ得る。例えば、図11の部分(a)に示される変換用スペクトルSPtのピッチPtを第1実施形態の方法によって2倍のピッチに変換した場合、図11の部分(b)に示されるように各ピークptの帯域幅は略2倍となる。このように各ピークptのスペクトル形状が大幅に変化すると変換用音声の特性とは著しく相違する出力音声が生成されることになる。このような問題を解消するために、ピッチ変換部21が、特定の数値(P0/Pt)を乗算して得られた変換用スペクトルSPt(図11の部分(b)に示される周波数スペクトル)の各ピークptについて、図11の部分(c)に矢印Bにて示されるように、当該ピークptの帯域幅をピッチ変換前のピークptの帯域幅まで狭めるための演算処理を各単位データUtの周波数Ftに施してもよい。この構成によれば、変換用音声の特性を忠実に再現した出力音声を生成することができる。
また、ここでは各単位データUtの周波数Ftに対する乗算処理によってピッチPtを変換する場合を例示したが、図12の部分(a)に示されるように、変換用スペクトルSPtを周波数軸上にて複数の帯域(以下「スペクトル分布領域」という)Rに区分し、各スペクトル分布領域Rを周波数軸の方向に移動させることによってピッチPtを変化させてもよい。各スペクトル分布領域Rは、ひとつのピークptとその前後の帯域とを含むように選定される。ピッチ変換部21は、図12の部分(b)に示されるように、各スペクトル分布領域Rに属するピークptの周波数が、音符データによって示されるピッチP0に対応する周波数と一致するように、各スペクトル分布領域Rを周波数軸の方向に移動させる。なお、図12の部分(b)に示されるように、相互に隣接するスペクトル分布領域Rの間隙には周波数スペクトルが存在しない帯域が生じ得るが、この帯域についてはスペクトル強度Mを所定値(例えばゼロ)に選定すればよい。この処理によれば、変換用スペクトルSPtの各ピークptの周波数を確実に原音声のピークptの周波数に一致させることができるから、所望のピッチの出力音声を精度よく生成することができるという利点がある。
(5)各実施形態においては、記憶手段50に記憶された変換用音声信号Vtから変換用スペクトルSPtが特定される構成を例示したが、変換用スペクトルSPtを示す変換用スペクトルデータDtが予めフレームごとに記憶手段50に記憶された構成も採用される。この構成におけるスペクトル取得手段30は、記憶手段50から変換用スペクトルデータDtを読み出してスペクトル変換手段20に出力する構成であれば足り、FFT部31やピーク検出部32やデータ生成部33を備えている必要はない。また、ここでは記憶手段50に変換用スペクトルデータDtが記憶された構成を例示したが、スペクトル取得手段30は、例えば通信回線を介して接続された通信装置から変換用スペクトルデータDtを取得する手段であってもよい。このように、本発明におけるスペクトル取得手段30は、変換用スペクトルSPtを取得する手段であれば足り、その取得の方法や取得先の如何は不問である。
(6)各実施形態においては変換用音声のピッチPtを音符データが示すピッチP0に一致させる構成を例示したが、変換用音声のピッチPtをこれ以外のピッチに変換してもよい。例えば、ピッチ変換部21が、ピッチP0と協和音を構成するピッチとなるように変換用音声のピッチPtを変換する構成も採用される。この構成によれば、メインメロディと協和音を構成するコーラス音を出力音声として生成することができる。このように、ピッチ変換部21を備えた態様においては、このピッチ変換部21が変換用音声のピッチPtを音符データに応じて(すなわちピッチP0の変化に伴なって変換用音声のピッチPtが変化するように)変化させる構成であれば足りる。
(7)各実施形態においては、楽曲の歌唱音や演奏音を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明は適用される。例えば、各種の文書を示す文書データ(例えばテキストファイル)に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。即ち、テキストファイルを構成する文字コードが示す文字に対応した音韻のエンベロープデータDevを素片選択部11が選択して記憶手段50から読み出し、このエンベロープデータDevを新規スペクトルSPnewの生成に利用する構成としてもよい。本発明における「音韻データ」とは、各実施形態における歌詞データや本変形例における文字コードなど出力音声の音韻を指定する総てのデータを含む概念である。なお、本変形例の構成においても、ピッチP0を指定するピッチデータをデータ取得手段5が取得する構成とすれば、所望のピッチの出力音声を生成することができる。このピッチデータは、例えば利用者から指示されたピッチP0を示すデータであってもよいし、予め文書データに対応付けられたデータであってもよい。本発明における「ピッチデータ」とは、各実施形態における音符データや本変形例におけるピッチデータなど出力音声のピッチを指定する総てのデータを含む概念である。
第1実施形態に係る音声合成装置の構成を示すブロック図である。 エンベロープデータを生成するための構成および手順を示すブロック図である。 原音声信号に関する処理を説明するための図である。 変換用音声信号に関する処理を説明するための図である。 スペクトル変換手段による処理の内容を説明するための図である。 エンベロープデータの補間処理を説明するための図である。 第2実施形態に係る音声合成装置の構成を示すブロック図である。 変形例に係る音声合成装置の構成を示すブロック図である。 変形例に係る音声合成装置の構成を示すブロック図である。 変形例に係る音声合成装置の構成を示すブロック図である。 変形例に係るピッチ変換について説明するための図である。 変形例に係るピッチ変換について説明するための図である。
符号の説明
D1……音声合成装置、5……データ取得手段、10……エンベロープ取得手段、11……素片選択部、12……補間部、13……特徴抽出部、20……スペクトル変換手段、21……ピッチ変換部、22……エンベロープ調整部、30……スペクトル取得手段、31……FFT部、32……ピーク検出部、33……データ生成部、34……選択部、40……音声生成手段、41……逆FFT部、42……出力処理部、50,55……記憶手段、60……音声出力部、67……入力機器、D2……データ作成装置、91……音素区分部、92……FFT部、93……特徴抽出部、V0……原音声信号、Vt,Vt1,Vt2……変換用音声信号、Vnew……出力音声信号、SP0……原音声の周波数スペクトル、SPt……変換用スペクトル、SPnew……新規スペクトル、EV0……スペクトルエンベロープ、D0……原音声スペクトルデータ、Dt……変換用スペクトルデータ、Dnew……新規スペクトルデータ、Dev……エンベロープデータ、R……スペクトル分布領域。

Claims (5)

  1. 音韻を指定する音韻データを順次に取得するデータ取得手段と、
    各々の音韻が異なる複数の音声素片のうち前記音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得手段と、
    並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得手段と、
    前記スペクトル取得手段が取得した変換用スペクトルのスペクトルエンベロープを前記エンベロープ取得手段が取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整手段と、
    前記エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段と
    を具備する音声合成装置。
  2. ピッチを指定するピッチデータを取得するデータ取得手段と、
    前記スペクトル取得手段が取得した変換用スペクトルに含まれる各ピークの周波数を前記ピッチデータによって指定されるピッチに応じて変化させるピッチ変換手段と
    を具備し、
    前記エンベロープ調整手段は、前記ピッチ変換手段による処理後の変換用スペクトルのスペクトルエンベロープを調整する
    請求項1に記載の音声合成装置。
  3. 音韻を指定する音韻データを順次に取得するデータ取得手段と、
    各々の音韻が異なる複数の音声素片のうち前記音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得手段と、
    変換用音声の周波数スペクトルである第1変換用スペクトル、および、前記第1変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり前記第1変換用スペクトルよりも各ピークの帯域幅が広い第2変換用スペクトルの何れかを取得するスペクトル取得手段と、
    前記スペクトル取得手段が取得した変換用スペクトルのスペクトルエンベロープを前記エンベロープ取得手段が取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整手段と、
    前記エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段と
    を具備する音声合成装置。
  4. コンピュータに、
    音韻を指定する音韻データを順次に取得するデータ取得処理と、
    各々の音韻が異なる複数の音声素片のうち前記音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得処理と、
    並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得処理と、
    前記スペクトル取得処理にて取得した変換用スペクトルのスペクトルエンベロープを前記エンベロープ取得処理にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整処理と、
    前記エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理と
    を実行させるためのプログラム。
  5. コンピュータに、
    音韻を指定する音韻データを順次に取得するデータ取得処理と、
    各々の音韻が異なる複数の音声素片のうち前記音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得処理と、
    変換用音声の周波数スペクトルである第1変換用スペクトル、および、前記第1変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり前記第1変換用スペクトルよりも各ピークの帯域幅が広い第2変換用スペクトルの何れかを取得するスペクトル取得処理と、
    前記スペクトル取得処理にて取得した変換用スペクトルのスペクトルエンベロープを前記エンベロープ取得処理にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整処理と、
    前記エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理と
    を実行させるためのプログラム。
JP2005026855A 2005-02-02 2005-02-02 音声合成装置およびプログラム Expired - Fee Related JP4207902B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2005026855A JP4207902B2 (ja) 2005-02-02 2005-02-02 音声合成装置およびプログラム
US11/345,023 US7613612B2 (en) 2005-02-02 2006-01-31 Voice synthesizer of multi sounds
DE602006016879T DE602006016879D1 (de) 2005-02-02 2006-02-01 Sprachsynthetisator mit multiplen Lauten
EP06101138A EP1688912B1 (en) 2005-02-02 2006-02-01 Voice synthesizer of multi sounds

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005026855A JP4207902B2 (ja) 2005-02-02 2005-02-02 音声合成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2006215204A true JP2006215204A (ja) 2006-08-17
JP4207902B2 JP4207902B2 (ja) 2009-01-14

Family

ID=36121295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005026855A Expired - Fee Related JP4207902B2 (ja) 2005-02-02 2005-02-02 音声合成装置およびプログラム

Country Status (4)

Country Link
US (1) US7613612B2 (ja)
EP (1) EP1688912B1 (ja)
JP (1) JP4207902B2 (ja)
DE (1) DE602006016879D1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム
JP2008537600A (ja) * 2005-03-14 2008-09-18 ボクソニック, インコーポレイテッド 音声変換のための自動的ドナーランキングおよび選択システムおよび方法
KR100658869B1 (ko) * 2005-12-21 2006-12-15 엘지전자 주식회사 음악생성장치 및 그 운용방법
US9159325B2 (en) * 2007-12-31 2015-10-13 Adobe Systems Incorporated Pitch shifting frequencies
US7977560B2 (en) * 2008-12-29 2011-07-12 International Business Machines Corporation Automated generation of a song for process learning
US8731943B2 (en) * 2010-02-05 2014-05-20 Little Wing World LLC Systems, methods and automated technologies for translating words into music and creating music pieces
AR092642A1 (es) * 2012-09-24 2015-04-29 Hitlab Inc Metodo y sistema para evaluar usuarios de karaoke
JP5821824B2 (ja) * 2012-11-14 2015-11-24 ヤマハ株式会社 音声合成装置
JP6225818B2 (ja) * 2014-04-30 2017-11-08 ヤマハ株式会社 ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP6821970B2 (ja) * 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法
CN112652037A (zh) * 2017-03-05 2021-04-13 杭州小影创新科技股份有限公司 一种实时音乐频谱矢量图形的绘制方法
JP6610714B1 (ja) * 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6610715B1 (ja) 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP7059972B2 (ja) * 2019-03-14 2022-04-26 カシオ計算機株式会社 電子楽器、鍵盤楽器、方法、プログラム
JP7181173B2 (ja) * 2019-09-13 2022-11-30 株式会社スクウェア・エニックス プログラム、情報処理装置、情報処理システム及び方法
CN112037758A (zh) * 2020-06-19 2020-12-04 四川长虹电器股份有限公司 一种语音合成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328573A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd カラオケ装置及び音声再生装置及びこれに使用する記録媒体
JPH11282483A (ja) * 1999-02-08 1999-10-15 Yamaha Corp カラオケ装置
JP2003255998A (ja) * 2002-02-27 2003-09-10 Yamaha Corp 歌唱合成方法と装置及び記録媒体
JP2004077608A (ja) * 2002-08-12 2004-03-11 Yamaha Corp 合唱合成装置、合唱合成方法およびプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783805A (en) * 1984-12-05 1988-11-08 Victor Company Of Japan, Ltd. System for converting a voice signal to a pitch signal
US5210366A (en) * 1991-06-10 1993-05-11 Sykes Jr Richard O Method and device for detecting and separating voices in a complex musical composition
JP3333022B2 (ja) 1993-11-26 2002-10-07 富士通株式会社 歌声合成装置
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
US5930755A (en) * 1994-03-11 1999-07-27 Apple Computer, Inc. Utilization of a recorded sound sample as a voice source in a speech synthesizer
JP3102335B2 (ja) * 1996-01-18 2000-10-23 ヤマハ株式会社 フォルマント変換装置およびカラオケ装置
JP3414150B2 (ja) 1996-09-03 2003-06-09 ヤマハ株式会社 コーラス効果付与装置
US5870704A (en) * 1996-11-07 1999-02-09 Creative Technology Ltd. Frequency-domain spectral envelope estimation for monophonic and polyphonic signals
JP3349905B2 (ja) * 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
US6073100A (en) * 1997-03-31 2000-06-06 Goodridge, Jr.; Alan G Method and apparatus for synthesizing signals using transform-domain match-output extension
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
US6111181A (en) * 1997-05-05 2000-08-29 Texas Instruments Incorporated Synthesis of percussion musical instrument sounds
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6029133A (en) * 1997-09-15 2000-02-22 Tritech Microelectronics, Ltd. Pitch synchronized sinusoidal synthesizer
US6397175B1 (en) * 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP3941611B2 (ja) * 2002-07-08 2007-07-04 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328573A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd カラオケ装置及び音声再生装置及びこれに使用する記録媒体
JPH11282483A (ja) * 1999-02-08 1999-10-15 Yamaha Corp カラオケ装置
JP2003255998A (ja) * 2002-02-27 2003-09-10 Yamaha Corp 歌唱合成方法と装置及び記録媒体
JP2004077608A (ja) * 2002-08-12 2004-03-11 Yamaha Corp 合唱合成装置、合唱合成方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
溝口匡人 他: "総合プロデュース活動の取り組み", NTT技術ジャーナル, vol. 17, JPN6008032919, 1 March 2005 (2005-03-01), pages 10 - 13, ISSN: 0001146413 *

Also Published As

Publication number Publication date
US7613612B2 (en) 2009-11-03
EP1688912A3 (en) 2008-06-25
EP1688912B1 (en) 2010-09-15
EP1688912A2 (en) 2006-08-09
DE602006016879D1 (de) 2010-10-28
US20060173676A1 (en) 2006-08-03
JP4207902B2 (ja) 2009-01-14

Similar Documents

Publication Publication Date Title
JP4207902B2 (ja) 音声合成装置およびプログラム
JP4645241B2 (ja) 音声処理装置およびプログラム
JP4067762B2 (ja) 歌唱合成装置
JP2004038071A (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP2006030575A (ja) 音声合成装置およびプログラム
WO2020171033A1 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP6737320B2 (ja) 音響処理方法、音響処理システムおよびプログラム
JP4304934B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
TW201027514A (en) Singing synthesis systems and related synthesis methods
JP4757971B2 (ja) ハーモニー音付加装置
JP4433734B2 (ja) 音声分析合成装置、音声分析装置、及びプログラム
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP2010002937A (ja) 音声分析合成装置、音声分析装置、音声合成装置、及びプログラム
JP2009237590A (ja) 音声効果付与装置
JP2011180194A (ja) 音素符号変換装置、音素符号データベース、および音声合成装置
JP5211437B2 (ja) 音声処理装置およびプログラム
JP3540609B2 (ja) 音声変換装置及び音声変換方法
JP3744247B2 (ja) 波形圧縮方法及び波形生成方法
JP4168391B2 (ja) カラオケ装置、音声処理方法及びプログラム
JP3788096B2 (ja) 波形圧縮方法及び波形生成方法
JP4910764B2 (ja) 音声処理装置
JP3907838B2 (ja) 音声変換装置及び音声変換方法
JP2004287350A (ja) 音声変換装置、音声効果付与装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080930

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081013

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131031

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees