JP4265501B2 - 音声合成装置およびプログラム - Google Patents

音声合成装置およびプログラム Download PDF

Info

Publication number
JP4265501B2
JP4265501B2 JP2004209033A JP2004209033A JP4265501B2 JP 4265501 B2 JP4265501 B2 JP 4265501B2 JP 2004209033 A JP2004209033 A JP 2004209033A JP 2004209033 A JP2004209033 A JP 2004209033A JP 4265501 B2 JP4265501 B2 JP 4265501B2
Authority
JP
Japan
Prior art keywords
speech
unit
phoneme
boundary
vowel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004209033A
Other languages
English (en)
Other versions
JP2006030575A (ja
Inventor
秀紀 劔持
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2004209033A priority Critical patent/JP4265501B2/ja
Priority to EP05106399A priority patent/EP1617408A3/en
Priority to US11/180,108 priority patent/US7552052B2/en
Publication of JP2006030575A publication Critical patent/JP2006030575A/ja
Application granted granted Critical
Publication of JP4265501B2 publication Critical patent/JP4265501B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声を合成する技術に関する。
人間の肉声を模した音声を合成するための種々の技術が従来から提案されている。例えば特許文献1には、人間の肉声(以下「入力音声」という)を音素ごとに切り出して音声素片を採取しておき、これらの音声素片を相互に連結することによって任意の音声を合成する技術が開示されている。各音声素片(特に母音などの有声音を含む音声素片)は、入力音声のうち波形の振幅が略一定となる時点を境界として切り出される。例えば、図8は、子音の音素[s]と母音の音素[a]とを組み合わせた音声素片[s_a]が入力音声から切り出される様子を示している。同図に示されるように、時点t1から時点t2までの区間Tsが音素[s]として選定されるとともに、これに続く時点t2から時点t3までの区間Taが音素[a]として選定されることによって音声素片[s_a]が入力音声から切り出される。このとき、音素[a]の終点である時点t3は、入力音声の振幅が略一定となる時点(以下「定常点」という)t0よりも後の時点に指定される。そして、例えば人間が「さ」と発声したときの音声は、音声素片[s_a]の終点t3に音声素片[a]の始点を連結することによって合成される。
特開2003−255974号公報(段落0028および図8)
しかしながら、音声素片[s_a]は定常点t0よりも後の時点が終点t3として選定されるため、必ずしも自然な音声を合成することができないという問題がある。ここで、定常点t0は、人間が発声のために口を徐々に開いていって完全に開き切った時点に相当するため、この定常点t0を含んだ全区間にわたる音声素片を利用して合成された音声は、必然的に、人間が口を完全に開いて発声したときの音声を模したものとなる。しかしながら、実際に人間が発声する場合には、必ずしも口を完全に開き切って発声するわけではない。例えば、テンポが速い楽曲を歌唱するときには、ひとつの歌詞の発声に際して口を完全に開き切る前に次の歌詞を発声しなければならない場合がある。あるいは、歌唱上の表現のために、楽曲の演奏が開始された直後の段階では口を充分に開かずに歌唱するとともに曲調が盛り上がるにつれて口の開き具合を増加させていく場合もある。このような事情にも拘わらず、従来の技術のもとでは、人間が口を開き切った段階の音声素片が固定的に利用されて音声が合成されるため、口が充分に開かれていないときの音声のような微妙な音声を合成することができないのである。
なお、口の開き具合が相違する各音声から複数の音声素片を採取しておき、このうちの何れかを選択的に利用することによって音声を合成すれば口の開き具合に応じた音声を合成することも一応は可能である。しかしながら、この場合には極めて多数の音声素片を用意しなければならないから、音声素片の作成に多大な労力が必要となり、さらには音声素片を保持するために多大な記憶容量の記憶装置が必要となるという問題が生じ得る。本発明は、このような事情に鑑みてなされたものであり、その目的は、音声素片を増加させることなく多様な音声を合成することにある。
この課題を解決するために、本発明に係る音声合成装置は、母音の音素を含む音声素片を取得する素片取得手段と、素片取得手段が取得した音声素片に含まれる母音の音素のうち始点から終点までの途中の時点に境界(後述する各実施形態における「音素セグメンテーション境界Bseg」に対応する)を指定する境界指定手段と、素片取得手段が取得した音声素片に含まれる母音の音素のうち境界指定手段が指定した境界よりも前の区間、または当該母音の音素のうち境界指定手段が指定した境界よりも後の区間に基づいて音声を合成する音声合成手段と具備する。この構成においては、音声素片に含まれる母音の音素の途中の時点に境界が指定され、この境界よりも前の区間または後の区間に基づいて音声が合成されるから、音声素片の全区間のみに基づいて音声が合成される従来の技術と比較して多様で自然な音声を合成することができる。例えば、音声素片に含まれる母音の音素のうち波形が定常的な状態となる前の区間に基づいて音声を合成すれば、人間が口を充分に開かずに発声したときの音声を模した音声が合成される。また、ひとつの音声素片について音声の合成に利用される区間が可変的に選定されるから、互いに区間が相違する多数の音声素片を用意する必要はない。なお、多数の音声素片を用意する必要がないとは言っても、例えば共通の音素について相互にピッチやダイナミクスが相違する複数の音声素片を用意する構成(例えば特開2002−202790号公報に開示された構成)を本発明の範囲から排除する趣旨ではない。
本発明における音声素片とは、音声(典型的には人間の肉声)を聴覚上において区別し得る最小の単位に区分してなる音素(音韻:phoneme)と、複数の音素を連結した音素連鎖の双方を包含する概念である。音素は子音(例えば[s])と母音(例えば[a])とに区別される。一方、音素連鎖は、子音とこれに続く母音との組合せ(例えば[s_a])、母音とこれに続く子音との組合せ(例えば[i_t])、母音とこれに続く母音との組合せ(例えば[a_i])といった具合に、母音または子音に相当する複数の音素を時間軸上において相互に連結したものである。この音声素片の形態は任意である。例えば、音声素片は、時間領域(時間軸)における波形としての形態にて利用されてもよいし、周波数領域(周波数軸)におけるスペクトルとしての形態にて利用されてもよい。
なお、本発明において素片取得手段が音声素片を取得する方法やその取得先は任意である。より具体的には、記憶手段に記憶された音声素片を読み出す手段が素片取得手段として採用される。例えば、楽曲の歌唱音声の合成のために本発明を適用した場合には、複数の音声素片を記憶する記憶手段と、楽曲の歌詞を指定する歌詞データを取得する歌詞データ取得手段(後述する各実施形態の「データ取得手段10」に対応する)とを具備する構成において、素片取得手段は、記憶手段に記憶された複数の音声素片のうち歌詞データ取得手段が取得した歌詞データに対応した音声素片を取得する。また、本発明の素片取得手段としては、他の通信端末によって保持された音声素片を通信により取得する手段や、利用者によって入力された音声を区分することによって音声素片を取得する手段も採用され得る。一方、境界指定手段は、母音の音素の始点から終点までの途中の時点に境界を指定する手段であるが、さらにはこの境界によって区分される範囲(例えば母音の音素のうち始点あるいは終点と境界とに挟まれた区間)を特定する手段としても把握される。
終点を含む区間が母音の音素である音声素片(例えば、[a]など母音の音素のみからなる音声素片や、[s_a]、[a_i]など最後の音素が母音である音素連鎖)は、その母音の音声波形が定常的な状態となった時点が終点となるように音声素片の範囲が画定される。このような音声素片を素片取得手段が取得した場合、音声合成手段は、この音声素片のうち境界指定手段が指定した境界よりも前の区間に基づいて音声を合成する。この態様によれば、人間が母音を発生するために口を徐々に開いていって完全に開き切る前の音声を合成することができる。一方、始点を含む区間が母音の音素である音声素片(例えば、[a]など母音の音素のみからなる音声素片や、[a_s]、[i_a]など最初の音素が母音である音素連鎖)は、その母音の音声波形が定常的な状態となった時点が始点となるように音声素片の範囲が画定される。このような音声素片を素片取得手段が取得した場合、音声合成手段は、この音声素片のうち境界指定手段が指定した境界よりも後の区間に基づいて音声を合成する。この態様によれば、人間が口を途中まで開いた状態から徐々に閉じていくときの音声を合成することができる。
これらの態様を組み合わせてもよい。すなわち、本発明の別の態様において、素片取得手段は、終点を含む区間が母音の音素である第1の音声素片(例えば図2に示される音声素片[s_a])と、始点を含む区間が母音の音素である第2の音声素片(例えば図2に示される音声素片[a_#])とを取得し、境界指定手段は、第1および第2の音声素片の各々について母音の音素に境界を指定し、音声合成手段は、第1の音声素片のうち境界指定手段が指定した境界よりも前の区間と、第2の音声素片のうち境界指定手段が指定した境界よりも後の区間とに基づいて音声を合成する。この態様によれば、第1の音声素片のうち境界よりも前の区間と、第2の音声素片のうち境界よりも後の区間とに基づいて音声が合成されるから、第1の音声素片と第2の音声素片とを滑らかに連結して自然な音声を得ることができる。なお、第1の音声素片と第2の音声素片とを連結しただけでは充分な時間長をもった音声を合成できない場合がある。このような場合には、第1の音声素片と第2の音声素片との間隙の音声を適宜に補間する構成が採用される。例えば、素片取得手段が、複数のフレームに区分された音声素片を取得し、音声合成手段が、第1の音声素片のうち境界指定手段が指定した境界の直前のフレームと第2の音声素片のうち境界指定手段が指定した境界の直後のフレームとを補間することによって両フレームの間隙の音声を生成する。この構成によれば、第1の音声素片と第2の音声素片との間隙が滑らかに補間された自然な音声を所望の時間長にわたって合成することができる。さらに詳述すると、素片取得手段は、音声素片を区分した複数のフレームの各々について周波数スペクトルを取得し、音声合成手段は、第1の音声素片のうち境界指定手段が指定した境界の直前のフレームの周波数スペクトルと第2の音声素片のうち境界指定手段が指定した境界の直後のフレームの周波数スペクトルとを補間することによって両フレームの間隙の音声の周波数スペクトルを生成する。この態様によれば、周波数領域における簡易な処理によって音声を合成することができるという利点がある。なお、ここでは周波数スペクトルを補間する構成を例示したが、これに代えて、周波数スペクトルやスペクトル包絡の特徴的な形状(例えば周波数スペクトルのピークの周波数やゲイン、またはゲインやスペクトル包絡の全体の傾きなど)をパラメータによって表現しておき、各フレームのパラメータに基づいて両フレームの間隙の音声を補間する構成としてもよい。
音声素片のうち音声合成手段による合成に使用される区間の時間長は、ここで合成される音声が継続する時間長に応じて選定されることが望ましい。そこで、本発明の別の態様においては、音声を継続する時間長を指定する時間データを取得する時間データ取得手段(後述する各実施形態における「データ取得手段10」に対応する)がさらに設けられ、境界指定手段は、音声素片に含まれる母音の音素のうち時間データによって指定される時間長に応じた時点に境界を指定する。楽曲の歌唱音声を合成するために本発明を適用した場合、時間データ取得手段は、楽曲を構成する音符が継続される時間長(音符長)を示すデータを時間データ(後述する実施形態における音符データに対応する)として取得する。この態様によれば、音声が継続する時間長に応じた自然な音声を合成することができる。より具体的な態様において、終点を含む区間が母音の音素である音声素片を素片取得手段が取得した場合に、境界指定手段は、時間データによって指定される時間長が長いほど、当該音声素片に含まれる母音の音素のうち終点に近い時点を境界に指定し、音声合成手段は、この音声素片に含まれる母音の音素のうち境界指定手段が指定した境界よりも前の区間に基づいて音声を合成する。また、始点を含む区間が母音の音素である音声素片を素片取得手段が取得した場合に、境界指定手段は、時間データによって指定される時間長が長いほど、当該音声素片に含まれる母音の音素のうち始点に近い時点を境界に指定し、音声合成手段は、この音声素片に含まれる母音の音素のうち境界指定手段が指定した境界よりも後の区間に基づいて音声を合成する
ただし、本発明において母音の音素に境界を指定する方法は任意である。例えば、他の態様においては、パラメータの入力を受け付ける入力手段が設けられ、境界指定手段は、素片取得手段が取得した音声素片に含まれる母音の音素のうち入力手段に入力されたパラメータに応じた時点を境界に指定する。この態様によれば、例えば利用者によって入力手段に入力されたパラメータに応じて、音声素片のうち音声合成に使用される区間が選定されるから、利用者の意図を精緻に反映させた多様な音声を合成することができる。また、楽曲の歌唱音声を合成するために本発明を適用した場合には、楽曲のテンポに応じた時点を境界に指定することが望ましい。例えば、終点を含む区間が母音の音素である音声素片を素片取得手段が取得した場合、境界指定手段は、楽曲のテンポが遅いほど、当該音声素片に含まれる母音の音素のうち終点に近い時点を境界に指定し、音声合成手段は、この音声素片に含まれる母音の音素のうち境界指定手段が指定した境界よりも前の区間に基づいて音声を合成する。あるいは、始点を含む区間が母音の音素である音声素片を素片取得手段が取得した場合に、境界指定手段は、楽曲のテンポが遅いほど、当該音声素片に含まれる母音の音素のうち始点に近い時点を境界に指定し、音声合成手段は、この音声素片に含まれる母音の音素のうち境界指定手段が指定した境界よりも後の区間に基づいて音声を合成する。
本発明に係る音声合成装置は、音声の合成に専用されるDSP(Digital Signal Processor)などのハードウェアによって実現されるほか、パーソナルコンピュータなどのコンピュータとプログラムとの協働によっても実現される。このプログラムは、コンピュータに、母音の音素を含む音声素片を取得する素片取得処理と、素片取得処理によって取得した音声素片に含まれる母音の音素のうち始点から終点までの途中の時点に境界を指定する境界指定処理と、素片取得処理によって取得した音声素片に含まれる母音の音素のうち境界指定処理にて指定した境界よりも前の区間、または当該母音の音素のうち境界指定処理にて指定した境界よりも後の区間に基づいて音声を合成する音声合成処理とを実行させる。このプログラムによっても、本発明の音声合成装置について上述したのと同様の作用および効果が得られる。なお、本発明に係るプログラムは、CD−ROMなど可搬型の記録媒体に格納された形態にて利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態にてサーバ装置から提供されてコンピュータにインストールされる。
また、本発明は、音声を合成する方法としても特定される。すなわち、この方法(音声合成方法)は、母音の音素を含む音声素片を取得する素片取得段階と、素片取得段階にて取得した音声素片に含まれる母音の音素のうち始点から終点までの途中の時点に境界を指定する境界指定段階と、素片取得段階にて取得した音声素片に含まれる母音の音素のうち境界指定段階にて指定した境界よりも前の区間、または当該母音の音素のうち境界指定段階にて指定した境界よりも後の区間に基づいて音声を合成する音声合成段階とを有する。この方法によっても、本発明の音声合成装置について上述したのと同様の作用および効果が得られる。
図面を参照しながら本発明の実施の形態を説明する。以下に示す各実施形態は、楽曲の歌唱音声を合成するために本発明を適用した態様である。
<A−1:第1実施形態の構成>
まず、図1を参照して、本発明の第1実施形態に係る音声合成装置の構成を説明する。同図に示されるように、音声合成装置Dは、データ取得手段10と、記憶手段20と、音声処理手段30と、出力処理手段41と、出力手段43とを具備する。このうちデータ取得手段10、音声処理手段30および出力処理手段41は、例えばCPU(Central Processing Unit)などの演算処理装置がプログラムを実行することによって実現されてもよいし、DSPなど音声処理に専用されるハードウェアによって実現されてもよい(後述する第2実施形態についても同様)。
図1に示されるデータ取得手段10は、楽曲の演奏に関するデータを取得する手段である。具体的には、データ取得手段10は、歌詞データと音符データとを取得する。歌詞データは、楽曲の歌詞の文字列を指定するデータである。一方、音符データは、楽曲のうちメインメロディ(例えばボーカルパート)を構成する各楽音のピッチ(音高)と、その楽音が継続されるべき時間長(以下「音符長」という)とを指定するデータである。歌詞データおよび音符データは、例えばMIDI(Musical Instrument Digital Interface)規格に準拠したデータである。したがって、歌詞データや音符データを図示しない記憶装置から読み出す手段のほか、外部に設置されたMIDI機器から歌詞データや音符データを受信するMIDIインタフェースがデータ取得手段10として採用される。
記憶手段20は、音声素片を示すデータ(以下「音声素片データ」という)を記憶する手段である。磁気ディスクを内蔵したハードディスク装置や、CD−ROMに代表される可搬型の記録媒体を駆動する装置など各種の記憶装置が記憶手段20として採用される。本実施形態における音声素片データは、音声素片の周波数スペクトルを示すデータである。このような音声素片データを作成する手順について図2を参照しながら説明する。
図2の部分(a1)には、終点を含む区間が母音の音素とされた音声素片(すなわち最後の音素が母音の音素である音声素片)の時間軸上における波形が図示されている。ここでは特に、子音の音素[s]とこれに続く母音の音素[a]とを組み合わせた音素連鎖を例示する。同図に示されるように、音声素片データの作成に際しては、まず、特定の発声者によって発声された入力音声のうち所望の音声素片に相当する区間が切り出される。この区間の端部(境界)は、例えば、音声素片データの作成者が入力音声の波形を表示装置にて視認しながら操作子を適宜に操作して当該区間の端部を指定することによって選定される。図2の部分(a1)においては、時点Ta1が音素[s]の始点として指定されるとともに時点Ta3が音素[a]の終点として指定され、さらに時点Ta2が音素[s]と音素[a]との境界として指定された場合が想定されている。図2の部分(a1)に示されるように、音素[a]の波形は、その発声のために口を開いていく発声者の動作に対応するように時点Ta2から徐々に振幅が増大していき、発声者が口を開き切った時点Ta0を越えると振幅が略一定に維持される形状となる。音素[a]の終点Ta3としては、音素[a]の波形が定常的な状態に遷移した後の時点(すなわち図2の部分(a1)に示される時点Ta0以降の時点)が選定される。なお、以下では、音素の波形が定常的な状態となる領域(振幅が略一定に維持される領域)と非定常的な状態となる領域(振幅が経時的に変化する領域)との境界を「定常点」と表記する。図2の部分(a1)においては時点Ta0が定常点である。
一方、図2の部分(b1)には、始点を含む区間が母音の音素とされた音声素片(すなわち最初の音素が母音の音素である音声素片)の波形が図示されている。ここでは特に、母音の音素[a]を含む音声素片[a_#]を例示する。「#」は無音を表わす記号である。この音素素片[a_#]に含まれる音素[a]の波形は、発声者が口を開き切った状態にて発声してから徐々に口を閉じていって最後には完全に口が閉じられるという発声の動作に対応した形状となる。すなわち、音素[a]の波形は、初めに振幅が略一定に維持され、発声者が口を閉じる動作を開始する時点(定常点)Tb0から振幅が徐々に減少していく。このような音声素片の始点Tb1は、音素[a]の波形が定常的な状態に維持されている期間内の時点(すなわち定常点Tb0よりも前の時点)として選定される。
以上の手順を経て時間軸上における範囲が画定された音声素片は所定の時間長(例えば5msないし10ms)のフレームFに区分される。図2の部分(a1)に示されるように、各フレームFは時間軸上において相互に重なり合うように選定される。これらのフレームFは簡易的には同一の時間長の区間とされるが、例えば音声素片のピッチに応じて各フレームFの時間長を変化させてもよい。こうして区分された各フレームFの波形にFFT(Fast Fourier Transform)処理を含む周波数分析が実施されることによって周波数スペクトルが特定され、これらの周波数スペクトルを示すデータが音声素片データとして記憶手段20に記憶される。したがって、図2の部分(a2)および部分(b2)に示されるように、各音声素片の音声素片データは、各々が別個のフレームFの周波数スペクトルを示す複数の単位データD(D1、D2、……)を含む。以上が音声素片データを作成するための手順である。なお、以下では、複数の音素からなる音素連鎖のうち最初の音素を「前音素」と表記し、最後の音素を「後音素」と表記する。例えば、音声素片[s_a]については音素[s]が前音素であり、音素[a]が後音素である。
図1に示されるように、音声処理手段30は、素片取得手段31と境界指定手段33と音声合成手段35とを有する。データ取得手段10によって取得された歌詞データは素片取得手段31に供給され、同じくデータ取得手段10によって取得された音符データは境界指定手段33および音声合成手段35に供給される。素片取得手段31は、記憶手段20に記憶された音声素片データを取得するための手段である。本実施形態における素片取得手段31は、記憶手段20に記憶された複数の音声素片データの何れかを歌詞データに基づいて順次に選択し、この選択した音声素片データを読み出して境界指定手段33に出力する。より具体的には、素片取得手段31は、歌詞データによって指定される文字に対応した音声素片データを記憶手段20から読み出す。例えば、歌詞データによって「さいた(saita)」という文字列が指定された場合には、音声素片[#s]、[s_a]、[a_i]、[i_t]、[t_a]および[a#]の各々に対応する音声素片データが記憶手段20から読み出される。
一方、境界指定手段33は、素片取得手段31が取得した音声素片に境界(以下「音素セグメンテーション境界」という)Bsegを指定する手段である。本実施形態における境界指定手段33は、図2の部分(a1)および部分(a2)や同図の部分(b1)および部分(b2)に示されるように、音声素片データが示す音声素片における母音の音素の始点(Ta2、Tb1)から終点(Ta3、Tb2)までの区間のうち音符データによって指定される音符長に応じた時点をそれぞれ音素セグメンテーション境界Bseg(Bseg1、Bseg2)として指定する。すなわち、音素セグメンテーション境界Bsegの位置は音符長に応じて変化する。また、複数の母音が組み合わされた音声素片(例えば[a_i])については、図3に示されるように、母音の音素の各々について音素セグメンテーション境界Bseg(Bseg1、Bseg2)が指定される。こうして音素セグメンテーション境界Bsegを特定すると、境界指定手段33は、素片取得手段31から供給された音声素片データに対して音素セグメンテーション境界Bsegの位置を示すデータ(以下「マーカ」という)を付加したうえで音声合成手段35に出力する。なお、この境界指定手段33の具体的な動作については後述する。
図1に示される音声合成手段35は、複数の音声素片を相互に連結する手段である。本実施形態においては、境界指定手段33によって順次に供給される各音声素片データから単位データDが部分的に抽出され(以下ではひとつの音声素片データから抽出された単位データDの集合を「対象データ群」という)、相前後する各音声素片データの対象データ群が相互に連結されることによって音声が合成される。音声素片データのうち対象データ群とそれ以外の単位データDとを区分する境界となるのが音素セグメンテーション境界Bsegである。すなわち、図2の部分(a2)および部分(b2)に示されるように、音声合成手段35は、音声素片データを構成する複数の単位データDのうち音素セグメンテーション境界Bsegによって区分された区間に属する各単位データDを対象データ群として抽出する。
ところで、単に複数の音声素片を連結しただけでは所期の音符長が得られない場合がある。また、互いに音色が相違する音声素片を連結した場合にはその連結部分において耳障りなノイズが発生する可能性がある。これらの問題を解消するために、本実施形態の音声合成手段35は補間手段351を有する。この補間手段351は、各音声素片の間隙Cfを補間するための手段である。例えば、補間手段351は、図2の部分(c)に示されるように、音声素片[s_a]の音声素片データに含まれる単位データDiと音声素片[a_#]の音声素片データに含まれる単位データDj+1とに基づいて補間単位データDf(Df1、Df2、……Dfl)を生成する。補間単位データDfの総数は音符データが示す音符長Lに応じて選定される。すなわち、音符長が長ければ多数の補間単位データDfが生成され、音符長が短ければ相対的に少数の補間単位データDfが生成されることになる。こうして生成された補間単位データDfが各音声素片の対象データ群の間隙Cfに補充されることによって合成音声の音符長が所期の時間長Lに調整され、さらには各音声素片の間隙Cfが滑らかに連結されることによって連結部分のノイズが低減される。さらに、音声合成手段35は、補間単位データDfを挟んで連結された各対象データ群が示す音声のピッチを、音符データによって指定されるピッチに調整する。以下では、音声合成手段35による各処理(連結・補間→ピッチ変換)を経て生成されたデータを「合成音声データ」という。この合成音声データは、図2の部分(c)に示されるように、各音声素片から抽出された対象データ群とその間隙に補充された補間単位データDfとからなるデータ列である。
次に、図1に示される出力処理手段41は、音声合成手段35から出力された合成音声データを構成するフレームFごとの単位データD(補間単位データDfを含む)に逆FFT処理を施して時間領域の信号を生成する。さらに、出力処理手段41は、こうして生成されたフレームFごとの信号に時間窓関数を乗算し、これらを時間軸上において相互に重なり合うように接続して出力音声信号を生成する。一方、出力手段43は、出力音声信号に応じた合成音声を出力する手段である。より具体的には、出力手段43は、出力処理手段41から供給される出力音声信号をアナログの電気信号に変換するD/A変換器と、このD/A変換器からの出力信号に基づいて放音する機器(例えばスピーカやヘッドフォン)とを具備する。
<A−2:第1実施形態の動作>
次に、本実施形態に係る音声合成装置Dの動作を説明する。
まず、音声処理手段30の素片取得手段31は、データ取得手段10から供給される歌詞データに対応した音声素片データを記憶手段20から順次に読み出して境界指定手段33に出力する。ここでは、歌詞データによって文字「さ(sa)」が指定された場合を想定する。この場合、素片取得手段31は、音声素片[#_s]、[s_a]および[a_#]の各々に対応する音声素片データを記憶手段20から読み出してこの順番にて境界指定手段33に出力する。
次いで、境界指定手段33は、素片取得手段31から順次に供給される音声素片データについて音素セグメンテーション境界Bsegを指定する。図4は、このときの境界指定手段33の動作を示すフローチャートである。同図に示される処理は素片取得手段31から音声素片データが供給されるたびに実行される。図4に示されるように、音声処理手段30はまず、素片取得手段31から供給された音声素片データが示す音声素片に母音の音素が含まれるか否かを判定する(ステップS1)。母音の音素の有無を判定するための方法は任意であるが、例えば、記憶手段20に記憶された音声素片データに母音の音素の有無を示すフラグを予め付加しておき、境界指定手段33がこのフラグに基づいて母音の有無を判定する構成が採用される。このステップS1において音声素片に母音の音素が含まれていないと判定した場合、音声処理手段30は、その音声素片の終点を音素セグメンテーション境界Bsegに指定する(ステップS2)。例えば、音声素片[#_s]の音声素片データが素片取得手段31から供給されると、境界指定手段33はその音声素片の終点を音素セグメンテーション境界Bsegに指定する。したがって、音声素片[#_s]については、音声素片データを構成する総ての単位データDが音声合成手段35によって対象データ群として選定されることになる。
これに対し、ステップS1において音声素片に母音の音素が含まれていると判定した場合、境界指定手段33は、音声素片データにより示される音声素片の前音素が母音であるか否かを判定する(ステップS3)。ここで前音素が母音であると判定した場合、境界指定手段33は、この音声素片のうち前音素たる母音の音素の終点から音素セグメンテーション境界Bsegまでの時間長が音符データによって示される音符長に応じた時間長となるように音素セグメンテーション境界Bsegを指定する(ステップS4)。例えば、「さ」の音声を合成するための音声素片[a_#]は前音素が母音であるから、この音声素片を示す音声素片データが素片取得手段31から供給されると、境界指定手段33はステップS4の処理によって音素セグメンテーション境界Bsegを指定する。具体的には、図2の部分(b1)および部分(b2)に示されるように、音符長が長いほど時間軸上における前(すなわち前音素[a]の終点Tb2から離れる方向)の時点が音素セグメンテーション境界Bsegとして指定される。ステップS3において前音素が母音でないと判定した場合、境界指定手段33は、ステップS4を経ることなくステップS5に処理を移行させる。
ここで、図5は、音符データが示す音符長tと音素セグメンテーション境界Bsegの位置との関係を示す表である。同図に示されるように、音符データによって示される音符長tが50msを下回る場合には、母音である前音素の終点(図2の部分(b1)に示される時点Tb2)から5msだけ遡った時点が音素セグメンテーション境界Bsegとして指定される。このように前音素の終点から音素セグメンテーション境界Bsegまでの時間長に下限を設けているのは、母音の音素の時間長が余りに短い(例えば5ms未満)と当該音素が合成音声にほとんど反映されなくなってしまうからである。一方、図5に示されるように、音符データによって示される音符長tが50msを越える場合には、音声素片のうち前音素である母音の音素の終点から{(t−40)/2}msだけ遡った時点が音素セグメンテーション境界Bsegとして指定される。したがって、音符長tが50msを越える場合には、この音符長tが長いほど音素セグメンテーション境界Bsegが時間軸上における前の時点となる(換言すると、音符長tが短いほど音素セグメンテーション境界Bsegが時間軸上における後の時点となる)。図2の部分(b1)および部分(b2)には、音声素片[a_#]の前音素[a]のうち定常点Tb0よりも時間軸上において後の時点が音素セグメンテーション境界Bsegとして指定された場合が例示されている。なお、図5の内容に基づいて特定される音素セグメンテーション境界Bsegが前音素の始点Tb1よりも前の時点となる場合には、その始点Tb1が音素セグメンテーション境界Bsegとされる。
次に、境界指定手段33は、音声素片データによって示される音声素片の後音素が母音であるか否かを判定する(ステップS5)。ここで後音素が母音でないと判定した場合、境界指定手段33は、ステップS6を経ることなくステップS7に処理を移行させる。これに対し、後音素が母音であると判定した場合、境界指定手段33は、この音声素片のうち後音素たる母音の始点から音素セグメンテーション境界Bsegまでの時間長が音符データによって示される音符長に応じた時間長となるように音素セグメンテーション境界Bsegを指定する(ステップS6)。例えば、「さ」の音声を合成するための音声素片[s_a]は後音素が母音であるから、この音声素片を示す音声素片データが素片取得手段31から供給されると、境界指定手段33はステップS6の処理によって音素セグメンテーション境界Bsegを指定する。より具体的には、図2の部分(a1)および部分(a2)に示されるように、音符長が長いほど時間軸上における後(すなわち後音素[a]の始点Ta2から離れる方向)の時点が音素セグメンテーション境界Bsegとして指定される。この場合の音素セグメンテーション境界Bsegの位置も図5の表に基づいて選定される。すなわち、同図に示されるように、音符データによって示される時間長tが50msを下回る場合には、母音たる後音素の始点(図2の部分(a1)における時点Ta2)から5msだけ経過した時点が音素セグメンテーション境界Bsegとして指定される。一方、図5に示されるように、音符データによって示される音符長tが50msを越える場合には、母音たる後音素の始点から{(t−40)/2}msだけ経過した時点が音素セグメンテーション境界Bsegとして指定される。したがって、音符長tが50msを越える場合には、この音符長tが長いほど音素セグメンテーション境界Bsegが時間軸上における後の時点となる(すなわち音符長tが短いほど音素セグメンテーション境界Bsegが時間軸上における前の時点となる)。図2の部分(a1)および部分(a2)には、音声素片[s_a]の後音素[a]のうち定常点Ta0よりも時間軸上において前の時点が音素セグメンテーション境界Bsegとして指定された場合が例示されている。なお、図5の表に基づいて特定される音素セグメンテーション境界Bsegが後音素の終点Ta3よりも後の時点となる場合には、その終点Ta3が音素セグメンテーション境界Bsegとされる。
以上の手順により音素セグメンテーション境界Bsegを指定すると、境界指定手段33は、この音素セグメンテーション境界Bsegを示すマーカを音声素片データに付加したうえで音声合成手段35に出力する(ステップS7)。なお、前音素および後音素の双方が母音である音声素片(例えば[a_i])については、ステップS4およびステップS6の双方の処理が実行される。したがって、この種の音声素片については、図3に示されるように前音素および後音素の各々について音素セグメンテーション境界Bseg(Bseg1、Bseg2)が指定される。以上が境界指定手段33による処理の内容である。
次に、音声合成手段35は、以下の手順によって複数の音声素片を相互に連結して合成音声データを生成する。すなわち、音声合成手段35は、まず、境界指定手段33から供給された音声素片データから対象データ群を選定する。この対象データ群の選定の方法について、母音を含まない音声素片の音声素片データが供給された場合と、前音素が母音である音声素片の音声素片データが供給された場合と、後音素が母音である音声素片の音声素片データが供給された場合とに分けて説明する。
母音を含まない音声素片については図4のステップS2にて当該音声素片の終点が音素セグメンテーション境界Bsegとして選定されている。この種の音声素片の音声素片データが供給された場合、音声合成手段35は、これに含まれる総ての単位データDを対象データ群として選定する。母音を含む音声素片であっても、音素セグメンテーション境界Bsegとして各音素の端部(始点または終点)が指定されている場合には、これと同様に総ての単位データDが対象データ群として選定される。これに対し、母音を含む音声素片について当該母音の音素の途中の時点が音素セグメンテーション境界Bsegとして選定されている場合には、音声素片データに含まれる単位データDが部分的に対象データ群として選定される。
すなわち、後音素が母音である音声素片の音声素片データがマーカとともに供給されると、音声合成手段35は、このマーカが示す音素セグメンテーション境界Bsegよりも前の区間に属する単位データDを対象データ群として抽出する。例えばいま、図2の部分(a2)に示されるように、前音素[s]に対応する単位データD1ないしDlと後音素[a](母音の音素)に対応する単位データD1ないしDmとを含む音声素片データが供給された場合を想定する。この場合、音声合成手段35は、後音素[a]の単位データD1ないしDmのうち音素セグメンテーション境界Bseg1の直前のフレームFに対応した単位データDiを特定したうえで、図2の部分(a2)に示されるように、この音声素片[s_a]の最初の単位データD1(すなわち音素[s]の最初のフレームFに対応する単位データ)から単位データDiまでを対象データ群として抽出する。一方、音素セグメンテーション境界Bseg1から音声素片の終点までの区間に属する単位データDi+1ないしDmは破棄される。このような動作の結果、図2の部分(a1)に示される音声素片[s_a]の全区間にわたる波形のうち音素セグメンテーション境界Bseg1よりも前の区間の波形を表わす各単位データが対象データ群として抽出されることになる。図2の部分(a1)のように、音素[a]のうち定常点Ta0よりも前の時点に音素セグメンテーション境界Bseg1が指定されているとすれば、音声合成手段35によって音声の合成に供される波形は、後音素[a]の波形が定常的な状態に到達する前の波形となる。換言すると、後音素[a]のうち定常的な状態に遷移した区間の波形は音声の合成に供されない。
一方、前音素が母音である音声素片の音声素片データがマーカとともに供給されると、音声合成手段35は、このマーカが示す音素セグメンテーション境界Bsegよりも後の区間に属する単位データDを対象データ群として抽出する。例えばいま、図2の部分(b2)に示されるように、音声素片[a_#]の前音素[a]に対応する単位データD1ないしDnを含む音声素片データが供給された場合を想定する。この場合、音声合成手段35は、前音素[a]の単位データD1ないしDnのうち音素セグメンテーション境界Bseg2の直後のフレームFに対応した単位データDj+1を特定したうえで、図2の部分(b2)に示されるように、この単位データDj+1から前音素[a]の最後の単位データDnまでを対象データ群として抽出する。これに対し、音声素片の始点(すなわち第1素片[a]の始点)から音素セグメンテーション境界Bseg2までの区間に属する単位データD1ないしDjは破棄される。このような動作の結果、図2の部分(b1)に示される音声素片[a_#]の全区間にわたる波形のうち音素セグメンテーション境界Bseg2よりも後の区間の波形を表わす対象データ群が抽出されることになる。この場合、音声合成手段35によって音声の合成に供される波形は、音素[a]が定常的な状態から非定常的な状態に遷移した後の波形となる。すなわち、前音素[a]のうち定常的な状態が維持される区間の波形は音声の合成に供されない。
なお、前音素および後音素の双方が母音である音声素片については、前音素について指定された音素セグメンテーション境界Bsegからその前音素の終点までの区間と、後音素の始点からその音素について指定された音素セグメンテーション境界Bsegまでの区間とに属する単位データDが対象データ群として抽出される。例えば、図3に例示されるように、ともに母音である前音素[a]と後音素[i]とが組み合わされた音声素片[a_i]については、前音素[a]について指定された音素セグメンテーション境界Bseg1から後音素[i]について指定された音素セグメンテーション境界Bseg2までの区間に属する単位データD(Di+1ないしDmおよびD1ないしDj)が対象データ群として抽出され、それ以外の単位データDは破棄される。
さて、以上の手順にて各音声素片の対象データ群が選定されると、音声合成手段35の補間手段351は、各音声素片の間隙Cfを補間するための補間単位データDfを生成する。さらに詳述すると、補間手段351は、先行する音声素片の対象データ群のうち最後の単位データDと、これに後続する音声素片の対象データ群のうち最初の単位データDとを利用した直線補間によって補間単位データDfを生成する。図2に示されるように音声素片[s_a]と音声素片[a_#]とが連結される場合を想定すると、音声素片[s_a]について抽出された対象データ群の最後の単位データDiと音声素片[a_#]について抽出された対象データ群の最初の単位データDj+1とに基づいて補間単位データDf1ないしDflが生成される。図6は、音声素片[s_a]の対象データ群のうち最後の単位データDiによって示される周波数スペクトルSP1と、音声素片[a_#]の対象データ群のうち最初の単位データDj+1によって示される周波数スペクトルSP2とを時間軸上に配列した図である。同図に示されるように、補間単位データDfが示す周波数スペクトルSPfは、周波数軸(f軸)上に予め定められた複数の周波数の各々における周波数スペクトルSP1上の各点P1と、これらの周波数における周波数スペクトルSP2上の各点P2とを結ぶ直線上の各点Pfを相互に連結した形状となる。また、ここではひとつの補間単位データDfのみを例示したが、音符データが示す音符長に応じた個数の補間単位データDf(Df1、Df2、……、Dfl)が同様の手順にて順次に作成される。以上の補間処理により、図2の部分(c)に示されるように、音声素片[s_a]の対象データ群と音声素片[a_#]の対象データ群とが各補間単位データDfを挟んで連結され、音声素片[s_a]の最初の単位データD1から音声素片[a_#]の最後の単位データDnまでの時間長Lが音符長に応じた長さに調整される。
次いで、音声合成手段35は、この補間処理によって生成された各単位データD(補間単位データDfを含む)に所定の処理を施すことによって合成音声データを生成する。ここで実行される処理は、各単位データDが示す音声のピッチを、音符データによって指定されるピッチに調整するための処理を含む。このようにピッチを調整するための方法としては公知である各種の方法が採用される。例えば、各単位データDが示す周波数スペクトルを、音符データが示すピッチに応じた分だけ周波数軸上において移動させることによってピッチを調整することができる。また、音声合成手段35が、合成音声データによって示される音声に対して各種の効果を付与するための処理を実行する構成としてもよい。例えば、音符長が長い場合には、音声合成データが示す音声に対して微小な揺らぎやビブラートを付加してもよい。以上の手順によって生成された合成音声データは出力処理手段41に出力される。出力処理手段41は、この合成音声データを時間領域の信号である出力音声信号に変換したうえで出力する。そして、この出力音声信号に応じた合成音声が出力手段43から出力される。
以上に説明したように、本実施形態においては、音声素片のうち音声の合成に供される区間を画定する音素セグメンテーション境界Bsegの位置を変化させることができるから、音声素片の全区間のみに基づいて音声が合成される従来の構成と比較して多様で自然な音声を合成することができる。例えば、音声素片に含まれる母音の音素のうち波形が定常的な状態となる前の時点が音素セグメンテーション境界Bsegとして指定された場合には、人間が口を充分に開かずに発生したときの音声を合成することができる。しかも、ひとつの音声素片について音素セグメンテーション境界Bsegが可変的に選定されるから、互いに区間が相違する多数の音声素片データ(例えば発声者の口の開き具合が異なる多数の音声素片データ)を用意する必要はない。
ところで、各楽音の音符長が短い楽曲については歌詞が速いペースで変化する場合が多い。このような楽曲の歌唱者は、ある歌詞を発声するために充分に口を開く前に次の歌詞を発声するといった具合に早口で歌唱する必要がある。このような傾向に基づいて、本実施形態においては、楽曲を構成する各楽音の音符長に応じて音素セグメンテーション境界Bsegが選定されるようになっている。この構成によれば、各楽音の音符長が短い場合には、各音声素片のうち波形が定常的な状態となる前までの区間を利用して合成音声が生成されるから、歌唱者が口を充分に開かずに早口で歌唱したときの音声を合成することができる。一方、各楽音の音符長が長い場合には、各音声素片のうち波形が定常的な状態となる区間まで利用して合成音声が生成されるから、歌唱者が充分に口を開いて歌唱したときの音声を合成することができる。このように本実施形態によれば、楽曲に応じた自然な歌唱音声を合成することができる。
さらに、本実施形態においては、後音素が母音である音声素片のうち当該母音の途中までの区間と、前音素が母音である音声素片のうち当該母音の途中からの区間とに基づいて音声が合成される。この構成によれば、何れか一方の音声素片についてのみ音素セグメンテーションBsegが指定される構成と比較して、先行する音声素片の終点近傍の特性と後続する音声素片の始点近傍の特性との相違が低減されるから、各音声素片を滑らかに連結して自然な音声を合成することができる。
<B:第2実施形態>
次に、図7を参照して、本発明の第2実施形態に係る音声合成装置Dについて説明する。上記第1実施形態においては、楽曲を構成する各楽音の音符長に応じて音素セグメンテーション境界Bsegの位置が制御される構成を例示した。これに対し、本実施形態に係る音声合成装置Dにおいては、利用者が入力したパラメータに応じて音素セグメンテーション境界Bsegの位置が選定されるようになっている。なお、本実施形態に係る音声合成装置Dのうち上記第1実施形態と同様の要素については共通の符号を付してその説明を適宜に省略する。
図7に示されるように、本実施形態に係る音声合成装置Dは、上記第1実施形態の各要素に加えて入力手段38を備えている。この入力手段38は、利用者によるパラメータの入力を受け付ける手段である。この入力手段38に入力されたパラメータは境界指定手段33に供給される。利用者によって操作される複数の操作子を備えた各種の入力機器が入力手段38として採用される。一方、データ取得手段10から出力された音符データは音声合成手段35のみに供給され、境界指定手段33には供給されない。
以上の構成のもと、素片取得手段31から音声素片データが供給されると、境界指定手段33は、これが示す音声素片の母音の音素のうち入力手段38から入力されたパラメータに応じた時点を音素セグメンテーション境界Bsegとして指定する。さらに詳述すると、境界指定手段33は、図4のステップS4において、前音素の終点(Tb2)からパラメータに応じた時間長だけ遡った時点を音素セグメンテーション境界Bsegとして指定する。例えば、利用者によって入力されたパラメータが大きいほど時間軸上における前(前音素の終点(Tb2)から離れる方向)の時点が音素セグメンテーション境界Bsegとされる。一方、境界指定手段33は、図4のステップS6において、後音素の始点(Ta2)からパラメータに応じた時間長だけ経過した時点を音素セグメンテーション境界Bsegとして指定する。例えば、利用者によって入力されたパラメータが大きいほど時間軸上における後(後音素の始点Ta2から離れる方向)の時点が音素セグメンテーション境界Bsegとされる。これ以外の動作は上記第1実施形態と同様である。
このように、本実施形態においても音素セグメンテーション境界Bsegの位置が可変であるから、音声素片の増加を要することなく多様な音声を合成することができるという上記第1実施形態と同様の効果が得られる。さらに、利用者によって入力されたパラメータに応じて音素セグメンテーション境界Bsegの位置が制御されるから、利用者の意図を精緻に反映させた多様な音声を合成することができる。例えば、楽曲の演奏が開始された直後の段階では口を充分に開かずに歌唱し、曲調が盛り上がるにつれて口の開き具合を増加させていくといった歌唱上の表現がある。本実施形態によれば、楽曲の演奏が進行するにつれてパラメータを変化させていくことにより、このような歌唱の方法を再現することができる。
<C:変形例>
上記各実施形態には種々の変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。以下に示す各態様を適宜に組み合わせてもよい。
(1)上記第1実施形態と第2実施形態とを組み合わせた構成も採用される。すなわち、音符データによって指定される音符長と入力手段38から入力されるパラメータとの双方に応じて音素セグメンテーション境界Bsegの位置を制御する構成としてもよい。もっとも、音素セグメンテーション境界Bsegの位置を制御するための方法は任意である。例えば、楽曲のテンポに応じて音素セグメンテーション境界Bsegの位置を制御してもよい。すなわち、前音素が母音である音声素片については、楽曲のテンポが速いほど時間軸上における後の時点が音素セグメンテーション境界Bsegとして指定され、後音素が母音である音声素片については、楽曲のテンポが速いほど時間軸上における前の時点が音素セグメンテーション境界Bsegとして指定されるといった具合である。また、音素セグメンテーション境界Bsegの位置を示すデータを楽曲の各楽音ごとに予め用意しておき、境界指定手段33がこのデータに基づいて音素セグメンテーション境界Bsegを指定する構成としてもよい。このように、本発明においては、母音の音素に指定される境界(音素セグメンテーション境界Bseg)の位置が可変であれば足り、その位置を指定するための方法の如何は不問である。
(2)上記各実施形態においては境界指定手段33が音声素片データにマーカを付加したうえで音声合成手段35に出力するとともに音声合成手段35が対象データ群以外の単位データDを破棄する構成を例示したが、境界指定手段33が対象データ群以外の単位データDを破棄する構成としてもよい。すなわち、境界指定手段33は、音素セグメンテーション境界Bsegに基づいて音声素片データから対象データ群を抽出し、この対象データ群を音声合成手段35に供給するとともに対象データ群以外の単位データDを破棄する。この構成によれば、音声素片データに対するマーカの付加を不要とすることができる。
(3)音声素片データの態様は上記各実施形態に示したものに限られない。例えば、各音声素片のフレームFごとのスペクトル包絡(スペクトルエンベロープ)を示すデータを音声素片データとしてもよいし、各音声素片の時間軸上における波形を示すデータを音声素片データとしてもよい。また、音声素片の波形をSMS(Spectral Modeling Synthesis)技術によって調和成分(Deterministic Component)と非調和成分(Stochastic Component)とに区分し、この各成分を示すデータを音声素片データとしてもよい。この場合には、調和成分と非調和成分の双方について境界指定手段33および音声合成手段35による処理が実行されるとともに、この処理後の調和成分と非調和成分とが音声合成手段35の後段の加算手段によって加算されることになる。また、各音声素片をフレームFに区分したうえで各フレームFのスペクトル包絡に関する複数の特徴量(例えばスペクトル包絡のピークの周波数やゲイン、またはスペクトル包絡の全体の傾きなど)を抽出しておき、これらの特徴量を表わす複数のパラメータのセットを音声素片データとしてもよい。このように、本発明において音声素片を保持する形態の如何は不問である。
(4)上記各実施形態においては、各音声素片の間隙Cfを補間する補間手段351が設けられた構成を例示したが、この補間は必ずしも必要ではない。例えば、音声素片[s_a]と音声素片[a_#]との間に介挿される音声素片[a]を用意しておき、この音声素片[a]の時間長を音符長に応じて調整することによって合成音声を調整する構成も採用される。さらに、上記各実施形態においては各音声素片の間隙Cfが直線補間される構成を例示したが、補間の方法がこれに限られないことはもちろんである。例えば、補間手段がスプライン補間などの曲線補間を実行する構成も採用され得る。また、各音声素片のスペクトル包絡の形状を示すパラメータ(例えばスペクトル包絡や傾きを示すパラメータ)を抽出しておき、このパラメータを補間する構成としてもよい。
(5)上記第1実施形態においては、図5に示したように、前音素が母音である音声素片と後音素が母音である音声素片とについて共通の算定式({(t−40)/2})に基づいて音素セグメンテーション境界Bsegを指定する構成を例示したが、音素セグメンテーション境界Bsegを指定する方法が双方の音声素片について相違していてもよい。
(6)上記各実施形態においては、歌唱音声を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明を適用できることはもちろんである。例えば、各種の文書を示す文書データ(例えばテキストファイル)に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。すなわち、テキストファイルに含まれる文字コードに基づいて素片取得手段31が音声素片データを記憶手段20から読み出し、この音声素片データに基づいて音声が合成される構成としてもよい。この種の装置においては、楽曲の歌唱音声を合成する場合とは異なり、音素セグメンテーション境界Bsegを指定するために音符長という要素を利用することができないが、各文字の発声を継続する時間長を指定するデータを文書データに対応付けて予め用意しておけば、上記第1実施形態と同様に、このデータが示す時間長に応じて音素セグメンテーション境界Bsegを制御することができる。本発明における「時間データ」とは、楽曲を構成する各楽音の音符長を指定するデータ(上記第1実施形態における音符データ)だけでなく、本変形例に示した各文字の発声時間を指定するデータなど、音声を継続する時間長を指定するための総てのデータを含む概念である。なお、本変形例に示したように文書を読み上げる装置においても、上記第2実施形態と同様に、利用者が入力したパラメータに基づいて音素セグメンテーション境界Bsegの位置を制御する構成が採用される。
本発明の第1実施形態に係る音声合成装置の構成を示すブロック図である。 同音声合成装置の動作を説明するための図である。 同音声合成装置の動作を説明するための図である。 同音声合成装置のうち境界指定手段の動作を示すフローチャートである。 音符長と音素セグメンテーション境界との関係を示す表である。 補間手段による補間処理を説明するための図である。 本発明の第2実施形態に係る音声合成装置の構成を示すブロック図である。 従来の音声合成装置の動作を説明するためのタイミングチャートである。
符号の説明
D……音声合成装置、10……データ取得手段、20……記憶手段、30……音声処理手段、31……素片取得手段、33……境界指定手段、35……音声合成手段、351……補間手段、38……入力手段、41……出力処理手段、43……出力手段。

Claims (4)

  1. 母音の音素を含む音声素片を取得する素片取得手段と、
    音声を継続する時間長を指定する時間データを取得する時間データ取得手段と、
    前記素片取得手段が取得した音声素片の後音素が母音である場合に、当該母音の音素のうち始点から終点までの途中の時点であって当該音素の始点から前記時間データに応じた時間長経過した時点に境界を指定し、前記素片取得手段が取得した音声素片の前音素が母音である場合に、当該母音の音素のうち始点から終点までの途中の時点であって当該音素の終点から前記時間データに応じた時間長遡った時点に境界を指定する境界指定手段と、
    前記素片取得手段が取得した音声素片の後音素が母音である場合に、当該音声素片に含まれる母音の音素のうち前記境界指定手段が指定した境界よりも前の区間であって当該音声素片の始点を含む区間に基づいて音声を合成し、または、前記素片取得手段が取得した音声素片の前音素が母音である場合に、当該母音の音素のうち前記境界指定手段が指定した境界よりも後の区間であって当該音声素片の終点を含む区間に基づいて音声を合成する音声合成手段と
    を具備する音声合成装置。
  2. 前記境界指定手段は、終点を含む区間が母音の音素である音声素片を前記素片取得手段が取得した場合に、前記時間データによって指定される時間長が長いほど、当該音声素片に含まれる母音の音素のうち前記終点に近い時点を境界に指定し、
    前記音声合成手段は、この音声素片に含まれる母音の音素のうち前記境界指定手段が指定した境界よりも前の区間に基づいて音声を合成する
    請求項に記載の音声合成装置。
  3. 前記境界指定手段は、始点を含む区間が母音の音素である音声素片を前記素片取得手段が取得した場合に、前記時間データによって指定される時間長が長いほど、当該音声素片に含まれる母音の音素のうち前記始点に近い時点を境界に指定し、
    前記音声合成手段は、この音声素片に含まれる母音の音素のうち前記境界指定手段が指定した境界よりも後の区間に基づいて音声を合成する
    請求項またはに記載の音声合成装置。
  4. コンピュータに、
    母音の音素を含む音声素片を取得する素片取得処理と、
    音声を継続する時間長を指定する時間データを取得する時間データ取得処理と、
    前記素片取得処理によって取得した音声素片の後音素が母音である場合に、当該母音の音素のうち始点から終点までの途中の時点であって当該音素の始点から前記時間データに応じた時間長経過した時点に境界を指定し、前記素片取得処理によって取得した音声素片の前音素が母音である場合に、当該母音の音素のうち始点から終点までの途中の時点であって当該音素の終点から前記時間データに応じた時間長遡った時点に境界を指定する境界指定処理と、
    前記素片取得処理によって取得した音声素片の後音素が母音である場合に、当該音声素片に含まれる母音の音素のうち前記境界指定処理にて指定した境界よりも前の区間であって当該音声素片の始点を含む区間に基づいて音声を合成し、または、前記素片取得処理によって取得した音声素片の前音素が母音である場合に、当該音声素片に含まれる母音の音素のうち前記境界指定処理にて指定した境界よりも後の区間であって当該音声素片の終点を含む区間に基づいて音声を合成する音声合成処理と
    を実行させるためのプログラム。
JP2004209033A 2004-07-15 2004-07-15 音声合成装置およびプログラム Expired - Fee Related JP4265501B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004209033A JP4265501B2 (ja) 2004-07-15 2004-07-15 音声合成装置およびプログラム
EP05106399A EP1617408A3 (en) 2004-07-15 2005-07-13 Voice synthesis apparatus and method
US11/180,108 US7552052B2 (en) 2004-07-15 2005-07-13 Voice synthesis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004209033A JP4265501B2 (ja) 2004-07-15 2004-07-15 音声合成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2006030575A JP2006030575A (ja) 2006-02-02
JP4265501B2 true JP4265501B2 (ja) 2009-05-20

Family

ID=34940296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004209033A Expired - Fee Related JP4265501B2 (ja) 2004-07-15 2004-07-15 音声合成装置およびプログラム

Country Status (3)

Country Link
US (1) US7552052B2 (ja)
EP (1) EP1617408A3 (ja)
JP (1) JP4265501B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2645363A1 (en) 2012-03-28 2013-10-02 Yamaha Corporation Sound synthesizing apparatus

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4548424B2 (ja) * 2007-01-09 2010-09-22 ヤマハ株式会社 楽音処理装置およびプログラム
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
US7977562B2 (en) * 2008-06-20 2011-07-12 Microsoft Corporation Synthesized singing voice waveform generator
JP5233737B2 (ja) * 2009-02-24 2013-07-10 大日本印刷株式会社 音素符号補正装置、音素符号データベース、および音声合成装置
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
TWI394142B (zh) * 2009-08-25 2013-04-21 Inst Information Industry 歌聲合成系統、方法、以及裝置
JP2011215358A (ja) * 2010-03-31 2011-10-27 Sony Corp 情報処理装置、情報処理方法及びプログラム
WO2011151956A1 (ja) * 2010-06-04 2011-12-08 パナソニック株式会社 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム
JP5914996B2 (ja) * 2011-06-07 2016-05-11 ヤマハ株式会社 音声合成装置およびプログラム
JP6047952B2 (ja) * 2011-07-29 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP5935545B2 (ja) * 2011-07-29 2016-06-15 ヤマハ株式会社 音声合成装置
CN103403797A (zh) * 2011-08-01 2013-11-20 松下电器产业株式会社 语音合成装置以及语音合成方法
JP5817854B2 (ja) * 2013-02-22 2015-11-18 ヤマハ株式会社 音声合成装置およびプログラム
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法
US10769210B2 (en) 2017-09-29 2020-09-08 Rovi Guides, Inc. Recommending results in multiple languages for search queries based on user profile
US10747817B2 (en) * 2017-09-29 2020-08-18 Rovi Guides, Inc. Recommending language models for search queries based on user profile
JP6547878B1 (ja) * 2018-06-21 2019-07-24 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6610714B1 (ja) * 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6610715B1 (ja) * 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP7059972B2 (ja) 2019-03-14 2022-04-26 カシオ計算機株式会社 電子楽器、鍵盤楽器、方法、プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BG24190A1 (en) * 1976-09-08 1978-01-10 Antonov Method of synthesis of speech and device for effecting same
JPH0642158B2 (ja) 1983-11-01 1994-06-01 日本電気株式会社 音声合成装置
US6332123B1 (en) * 1989-03-08 2001-12-18 Kokusai Denshin Denwa Kabushiki Kaisha Mouth shape synthesizing
DE19610019C2 (de) 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP3718116B2 (ja) 2000-08-31 2005-11-16 コナミ株式会社 音声合成装置、音声合成方法及び情報記憶媒体
JP3879402B2 (ja) 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4067762B2 (ja) 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP3711880B2 (ja) 2001-03-09 2005-11-02 ヤマハ株式会社 音声分析及び合成装置、方法、プログラム
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
JP3815347B2 (ja) 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4153220B2 (ja) 2002-02-28 2008-09-24 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2645363A1 (en) 2012-03-28 2013-10-02 Yamaha Corporation Sound synthesizing apparatus
US9552806B2 (en) 2012-03-28 2017-01-24 Yamaha Corporation Sound synthesizing apparatus

Also Published As

Publication number Publication date
US20060015344A1 (en) 2006-01-19
EP1617408A3 (en) 2007-06-20
US7552052B2 (en) 2009-06-23
JP2006030575A (ja) 2006-02-02
EP1617408A2 (en) 2006-01-18

Similar Documents

Publication Publication Date Title
JP4265501B2 (ja) 音声合成装置およびプログラム
JP3985814B2 (ja) 歌唱合成装置
JP6171711B2 (ja) 音声解析装置および音声解析方法
JP4839891B2 (ja) 歌唱合成装置および歌唱合成プログラム
EP0979503B1 (en) Targeted vocal transformation
JP4207902B2 (ja) 音声合成装置およびプログラム
Cano et al. Voice Morphing System for Impersonating in Karaoke Applications.
JP6561499B2 (ja) 音声合成装置および音声合成方法
JP2012083722A (ja) 音声処理装置
CN109416911B (zh) 声音合成装置及声音合成方法
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP6756151B2 (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP2013238662A (ja) 音声合成装置
JP2904279B2 (ja) 音声合成方法および装置
JP2009075611A (ja) 合唱合成装置、合唱合成方法およびプログラム
JP4430174B2 (ja) 音声変換装置及び音声変換方法
Bonada et al. Spectral approach to the modeling of the singing voice
JP5573529B2 (ja) 音声処理装置およびプログラム
JP6191094B2 (ja) 音声素片切出装置
Bonada et al. Sample-based singing voice synthesizer using spectral models and source-filter decomposition
JP2004061753A (ja) 歌唱音声を合成する方法および装置
Bonada et al. Improvements to a sample-concatenation based singing voice synthesizer
Masuda-Katsuse < PAPERS and REPORTS> KARAOKE SYSTEM AUTOMATICALLY MANIPULATING A SINGING VOICE
JP6056190B2 (ja) 音声合成装置
JPH11352997A (ja) 音声合成装置およびその制御方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090209

R150 Certificate of patent or registration of utility model

Ref document number: 4265501

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140227

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees