JP5322793B2 - 音声合成装置及び音声合成方法 - Google Patents

音声合成装置及び音声合成方法 Download PDF

Info

Publication number
JP5322793B2
JP5322793B2 JP2009143326A JP2009143326A JP5322793B2 JP 5322793 B2 JP5322793 B2 JP 5322793B2 JP 2009143326 A JP2009143326 A JP 2009143326A JP 2009143326 A JP2009143326 A JP 2009143326A JP 5322793 B2 JP5322793 B2 JP 5322793B2
Authority
JP
Japan
Prior art keywords
speech
waveform
compressed
section
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009143326A
Other languages
English (en)
Other versions
JP2011002501A (ja
Inventor
正 山浦
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2009143326A priority Critical patent/JP5322793B2/ja
Publication of JP2011002501A publication Critical patent/JP2011002501A/ja
Application granted granted Critical
Publication of JP5322793B2 publication Critical patent/JP5322793B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、任意の文章から人工的に音声信号を生成する音声合成装置及び音声合成方法に関するものである。
従来、任意の文章から人工的に音声信号を作り出すテキスト音声合成技術では、入力テキストに対して言語解析処理及び韻律生成処理を実施することにより得られる音韻記号及び韻律情報(例えば、ピッチ、音韻継続時間長)を入力とし、その音韻記号及び韻律情報から音声信号を生成するようにしている。
即ち、テキスト音声合成技術では、音声合成装置が、母音を「V」、子音を「C」で表して、「CV」、「CVC」、「VCV」等の基本となる小さな単位の特徴パラメータを音声素片として予め記憶している。この音声合成装置に、テキストから得られた音韻記号及び韻律情報が入力されると、その音韻記号に対応する音声素片を選択的に読み出し、読み出した音声素片のピッチや音韻継続時間長を韻律情報に従って制御して順次接続することにより、テキストに対応した音声を合成するようにしている。
このような音声合成装置では、音声素片を少ない記憶容量で保持するために、圧縮して保持するようにしている。ただし、圧縮率が高い圧縮方法で音声素片を圧縮すると、記憶容量を低減することができるが、各音声区間の先頭での歪みが大きくなり、音声素片全体としての歪みも大きくなる傾向がある。このような歪みは、合成音声の品質低下につながるので、音声素片の圧縮率をあまり高くすることができない問題点があった。
そこで、音声素片の音声波形を圧縮する際には、その音声素片に先行する音声区間の音声波形を含めて圧縮するようにし、一方、圧縮された音声素片の音声波形を伸張する際には、その音声素片に先行する音声区間の音声波形を先に伸張して読み捨てることにより、その音声素片の区間での歪みを緩和する技術が開発されている(例えば、特許文献1を参照)。
なお、特許文献1に開示されている音声合成装置では、音声波形の圧縮に、固定長フレームで履歴を有し、かつ、圧縮結果が固定長である圧縮方式を使用している。ここで、「履歴を有する」とは、あるフレームを圧縮する際に、時間的にその前のフレームの情報を使用することである。このような圧縮方式としては、CELP(Code Excited Linear Prediction)、VSELP(Vector Sum Excited Linear Prediction)等が知られている。
特開2002−287784号公報
従来の音声合成装置は以上のように構成されているので、音声素片と共にその先行区間も伸張することにより音声素片先頭において履歴がないことによる悪影響を緩和して音声素片全体での歪みを緩和することはできるが、そのためには音声素片と共にその先行区間の音声波形も含めて圧縮結果を保持し、音声合成時に伸張する必要がある。このため、その伸張処理に要する処理量、及び圧縮結果を保持するための記憶容量に応じてハードウエアリソースのコストが増大するという課題があった。
この発明は、上記のような課題を解決するためになされたものであり、少ない処理量、少ない記憶容量で、高い品質の音声を生成することができる音声合成装置及び音声合成方法を得ることを目的とする。
この発明に係る音声合成装置は、圧縮音声波形読み出し手段により読み出された圧縮音声波形を、音声波形の音源信号を圧縮した第1の部分圧縮音声波形と当該音声波形のスペクトルを圧縮した第2の部分圧縮音声波形とに分離する圧縮音声波形分離手段と、第1の部分圧縮音声波形のうち、音声素片区間と当該音声素片区間に先行する第1の先行区間とを伸張して第1の伸張データを得る第1の伸張手段と、第2の部分圧縮音声波形のうち、音声素片区間と音声素片区間に先行する第2の先行区間とを伸張して第2の伸張データを得る第2の伸張手段と、第1の伸張データと第2の伸張データとを、第3の先行区間と音声素片区間とに渡って合成して音声波形を得る合成手段とを有し、第1の先行区間、第2の先行区間、及び第3の先行区間のうちの少なくとも一つの区間長が他の区間長と異なるようにしたものである。
この発明に係る音声合成装置は、音声素片の音声波形と、当該音声素片に先行する区間の音声波形とを含めて圧縮した圧縮音声波形を、当該音声素片区間と当該音声素片区間に先行する第1の先行区間とを含む音声波形の音源信号を圧縮した第1の部分圧縮音声波形と、当該音声素片区間と当該音声素片区間に先行し第1の先行区間と異なる区間長の第2の先行区間とを含む音声波形のスペクトルを圧縮した第2の部分圧縮音声波形とに分離して格納している音声素片辞書と、音声素片辞書に格納されている第1の部分圧縮音声波形の中から、入力テキストから得られる音韻記号に対応する音声素片とその第1の先行区間とを含む第1の部分圧縮音声波形を読み出す第1の部分圧縮音声波形読み出し手段と、音声素片辞書に格納されている第2の部分圧縮音声波形の中から、音韻記号に対応する音声素片とその第2の先行区間とを含む第2の部分圧縮音声波形を読み出す第2の部分圧縮音声波形読み出し手段と、第1の部分圧縮音声波形読み出し手段により読み出された第1の部分圧縮音声波形と、第2の部分圧縮音声波形読み出し手段により読み出された第2の部分圧縮音声波形とを用いて、音声波形を得る音声波形伸張手段と、音声波形伸張手段により得た音声波形から音声素片の音声波形を抽出する音声波形抽出手段と、音声波形抽出手段により抽出された音声素片の音声波形を順次接続して合成音声を生成する音声生成手段とを備えるようにしたものである。
この発明に係る音声合成方法は、圧縮音声波形読み出しステップにより読み出された圧縮音声波形を、音声波形の音源信号を圧縮した第1の部分圧縮音声波形と当該音声波形のスペクトルを圧縮した第2の部分圧縮音声波形とに分離する圧縮音声波形分離ステップと、第1の部分圧縮音声波形のうち、音声素片区間と当該音声素片区間に先行する第1の先行区間とを伸張して第1の伸張データを得る第1の伸張ステップと、第2の部分圧縮音声波形のうち、音声素片区間と音声素片区間に先行する第2の先行区間とを伸張して第2の伸張データを得る第2の伸張ステップと、第1の伸張データと第2の伸張データとを、第3の先行区間と音声素片区間とに渡って合成して音声波形を得る合成ステップとを有し、第1の先行区間、第2の先行区間、及び第3の先行区間のうちの少なくとも一つの区間長が他の区間長と異なるようにしたものである。
この発明に係る音声合成方法は、音声素片の音声波形と、当該音声素片に先行する区間の音声波形とを含めて圧縮した圧縮音声波形を、当該音声素片区間と当該音声素片区間に先行する第1の先行区間とを含む音声波形の音源信号を圧縮した第1の部分圧縮音声波形と、当該音声素片区間と当該音声素片区間に先行し第1の先行区間と異なる区間長の第2の先行区間とを含む音声波形のスペクトルを圧縮した第2の部分圧縮音声波形とに分離して格納している音声素片辞書から、入力テキストから得られる音韻記号に対応する音声素片とその第1の先行区間とを含む第1の部分圧縮音声波形を読み出す第1の部分圧縮音声波形読み出しステップと、音声素片辞書から、音韻記号に対応する音声素片とその第2の先行区間とを含む第2の部分圧縮音声波形を読み出す第2の部分圧縮音声波形読み出しステップと、第1の部分圧縮音声波形読み出しステップにより読み出された第1の部分圧縮音声波形と、第2の部分圧縮音声波形読み出しステップにより読み出された第2の部分圧縮音声波形とを用いて、音声波形を得る音声波形伸張ステップと、音声波形伸張ステップにより得た音声波形から音声素片の音声波形を抽出する音声波形抽出ステップと、音声波形抽出ステップにより抽出された音声素片の音声波形を順次接続して合成音声を生成する音声生成ステップとを備えるようにしたものである。
この発明によれば、音声素片辞書から音声素片の音声波形とその先行区間の音声波形とを含む圧縮音声波形を読み出して、音声波形の音源信号を圧縮した第1の部分圧縮音声波形と当該音声波形のスペクトルを圧縮した第2の部分圧縮音声波形とに分離して、第1の部分圧縮音声波形から音声素片区間と当該音声素片区間に先行する第1の先行区間とを伸張して第1の伸張データを得ると共に第2の部分圧縮音声波形から音声素片区間と当該音声素片区間に先行する第2の先行区間とを伸張して第2の伸張データを得て、これら第1及び第2の伸張データを第3の先行区間と音声素片区間とに渡って合成するようにしたので、少ない処理量で、高い品質の音声を生成することができる音声合成装置及び音声合成方法を得ることができる。
この発明によれば、音声素片辞書から音声素片区間と当該音声素片区間に先行する第1の先行区間とを含む音声波形の音源信号を圧縮した第1の部分圧縮音声波形と、当該音声素片区間と当該音声素片区間に先行し第1の先行区間と異なる区間長の音声波形のスペクトルを圧縮した第2の先行区間とを含む第2の部分圧縮音声波形とを読み出して、これら第1及び第2の部分圧縮音声波形を用いて音声波形を得るようにしたので、少ない処理量と、少ない記憶容量で、高い品質の音声を生成することができる音声合成装置及び音声合成方法を得ることができる。
この発明の実施の形態1に係る音声合成装置の構成を示すブロック図である。 実施の形態1に係る音声素片辞書が格納する音声素片を説明するための図である。 実施の形態1に係る音声波形伸張部の内部構成を示すブロック図である。 実施の形態1に係る音声合成装置の動作を示すフローチャートである。 実施の形態1に係る音声波形伸張部の詳細動作を示すフローチャートである。 実施の形態2に係る音声素片辞書が格納する音声素片を説明するための図である。 実施の形態3に係る音声合成装置の構成を示すブロック図である。 実施の形態3に係る音声素片辞書が格納する音声素片を説明するための図である。 実施の形態3に係る音声波形伸張部の詳細構成を示すブロック図である。 実施の形態3に係る音声合成装置の動作を示すフローチャートである。 実施の形態3に係る音声波形伸張部の詳細動作を示すフローチャートである。
実施の形態1.
図1は、この発明の実施の形態1による音声合成装置の構成を示すブロック図である。この音声合成装置は、入力テキストに応じた合成音声を生成するものであり、入力テキストに対して言語解析処理及び韻律生成処理を実施することにより得られる音韻記号及び韻律情報を入力として用いる。なお、韻律情報としては、ピッチ、音韻継続時間長、パワー等の情報がある。
図1において、音声素片辞書1は、音声素片の音声波形として、予め人間が発声した単音、単語、単文等の音声波形が圧縮された圧縮音声波形を格納している。単語、単文中の一部分を音声素片として用いる場合には、その音声素片区間に先行する区間を含めた音声波形が圧縮されて、格納される。
図2は、音声素片辞書1が格納する音声素片を説明するための図である。図2に示すように、例えば「あたまが」という発声された音声波形を圧縮した圧縮音声波形のうち、CV素片「ta」を音声素片として用いる場合には、音声素片「ta」に先行する区間も含めた音声素片として音声素片辞書1に格納される。また、音声素片「ta」と一部重複する音声素片「am」を音声素片として用いる場合には、音声素片「ta」,「am」と各先行区間とを含む一連の音声素片として音声素片辞書1に格納してもよい。この場合には、音声素片辞書1に格納すべき情報量(メモリ量)を削減する効果がある。
圧縮音声波形読み出し部2は、音声素片辞書1に格納されている圧縮音声波形の中から、入力テキストから得られる音韻記号に対応する音声素片の音声波形を含む圧縮音声波形を読み出す処理を実施する。読み出した圧縮音声波形には、音韻記号に対応する音声素片の音声波形と、その音声波形の前方に付加されている所定区間長(即ち、上述した先行区間)の音声波形とが含まれる。なお、圧縮音声波形読み出し部2は圧縮音声波形読み出し手段を構成している。
音声波形伸張部3は、圧縮音声波形読み出し部2により読み出された圧縮音声波形を伸張して音声波形にする。なお、音声波形伸張部3は音声波形伸張手段を構成している。
図3は、音声波形伸張部3の内部構成を示すブロック図である。図3において、圧縮音声波形分離部6は、圧縮音声波形読み出し部2により読み出された圧縮音声波形を、圧縮音源信号(第1の部分圧縮音声波形)と圧縮スペクトル(第2の部分圧縮音声波形)とに分離する処理を実施する。なお、圧縮音声波形分離部6は圧縮音声波形分離手段を構成している。
音源信号伸張部7は、圧縮音声波形分離部6により分離された圧縮音源信号を伸張して音源信号(第1の伸張データ)にする。なお、音源信号伸張部7は第1の伸張手段を構成している。
スペクトル伸張部8は、圧縮音声波形分離部6により分離された圧縮スペクトルを伸張してスペクトル(第2の伸張データ)にする。なお、スペクトル伸張部8は第2の伸張手段を構成している。
合成部9は、音源信号伸張部7で伸張された音源信号と、スペクトル伸張部8で伸張されたスペクトルとを合成して音声波形を生成する処理を実施する。なお、合成部9は合成手段を構成している。
図1において、音声波形抽出部4は、音声波形伸張部3で伸張された音声波形から、音声素片の音声波形を抽出する処理を実施する。なお、音声波形抽出部4は音声波形抽出手段を構成している。
音声生成部5は、音声波形抽出部4により抽出された音声素片の音声波形を、入力テキストから得られる韻律情報に従ってピッチ及び音韻継続時間長を変形しながら、順次接続して、合成音声を生成する処理を実施する。なお、音声生成部5は音声生成手段を構成している。
次に、音声合成装置の動作を説明する。図4は、実施の形態1による音声合成装置の動作を示すフローチャートである。
音声合成装置には、入力テキストから得られる複数の音韻記号及び韻律情報が順次入力される。また、この音声合成装置の音声素片辞書1には、音声素片の音声波形が格納されているが、記憶容量を低減するために、CELP、VSELP等の圧縮方式により音声素片の音声波形が圧縮され、圧縮音声波形として格納されている。単語、単文中の一部分を音声素片として用いる場合には、その音声素片区間に先行する区間を含めた圧縮音声波形が格納されていることは上述のとおりである。
先ず、圧縮音声波形読み出し部2は、音声素片辞書1に格納されている圧縮音声波形の中から、入力テキストから得られる音韻記号に対応する音声素片の音声波形を含み、その音声素片区間に先行する区間の音声波形が付加されている場合にはその付加された音声波形も含めた圧縮音声波形を読み出す処理を実施する(ステップST1)。
例えば、入力テキストから得られる音韻記号に対応する音声素片が「ta」であれば、音声素片辞書1に格納されている圧縮音声波形のうち、音声素片「ta」の音声波形を含み、かつ、その音声波形の前方の所定の先行区間を含んだ圧縮音声波形を読み出すようにする。
なお、上記では読み出す対象の音声素片を、入力テキストから得られる音韻記号に基づき決定しているが、これに代え、入力テキストから得られる音韻記号と韻律情報とに基づき決定することも当然可能である。また、読み出す対象の音声素片が接続することとなる直前の音声素片又は前後の音声素片との接続性の良さを示す指標を用いて、読み出す対象の音声素片を決定してもよい。
音声波形伸張部3は、圧縮音声波形読み出し部2が圧縮音声波形を読み出すと、その圧縮音声波形から、先行区間と音声素片区間とからなる一連の圧縮音声波形を伸張する(ステップST2)。ステップST2の詳細については後述する。
続いて、音声波形抽出部4は、音声波形伸張部3が出力した伸張後の音声波形から、音声素片区間の音声波形を抽出する(ステップST3)。
音声生成部5は、音声波形抽出部4が音声素片の音声波形を抽出すると、入力テキストから得られる韻律情報に従ってピッチ及び音韻継続時間長を変形しながら、その音声素片の波形を順次接続して、合成音声を生成する(ステップST4)。
なお、上記では音声素片の波形を、ピッチ及び音韻継続時間長を変形して用いているが、これに代え、ピッチ若しくは音韻継続時間長のどちらか一方、又は両方を変形せずに用いることも当然可能である。
入力された音韻記号及び韻律情報の全てに対して合成音声が生成されていれば処理は終了とし(ステップST5“Yes”)、音韻記号及び韻律情報が残っているか入力が終了していなければ全て終了するまでステップST1〜ST4の処理が繰り返し実施される(ステップST5“No”)。
次に、音声波形伸張部3の詳細動作を説明する。図5は、音声波形伸張部3の詳細動作を示すフローチャートである。
先ず、圧縮音声波形分離部6は、圧縮音声波形読み出し部2が読み出した圧縮音声波形を、圧縮音源信号と圧縮スペクトルとに分離する処理を実施する(ステップST11)。そして、圧縮音声波形分離部6は圧縮音源信号を音源信号伸張部7に、圧縮スペクトルをスペクトル伸張部8に、それぞれ出力する。
音源信号伸張部7は、圧縮音声波形分離部6が圧縮音源信号を分離すると、第1の先行区間と音声素片区間の一連の圧縮音源信号を伸張する(ステップST12)。
ここで、音源信号の圧縮に履歴を有する圧縮方式を使用しているため、第1の先行区間は、この履歴を考慮して、例えば音源信号を伸張する際に音声素片の区間での歪みが十分に小さくなるように設定されているものとする。
スペクトル伸張部8は、圧縮音声波形分離部6が圧縮スペクトルを分離すると、第2の先行区間と音声素片区間の一連の圧縮スペクトルを伸張する(ステップST13)。
ここで、スペクトルの圧縮に履歴を有する圧縮方式を使用しているため、第2の先行区間は、この履歴を考慮して、例えばスペクトルを伸張する際に音声素片の区間での歪みが十分に小さくなるように設定されているものとする。
スペクトル伸張部8は、第3の先行区間と、音声素片区間の一連の伸張後の音源信号とスペクトルとを合成し、音声波形を生成する(ステップST14)。
ここで、音声波形の生成には履歴を有する生成方式を使用しているため、第3の先行区間は、例えば音声波形を生成する際に音声素片の区間での歪みが十分に小さくなるように設定されているものとする。又は、ユーザが合成音声を受聴する際の劣化感が十分に小さくなるように設定されているものとする。
なお、音源信号とスペクトルとの合成には、音源信号及びスペクトルの両者が必要であるので、第3の先行区間の区間長は、第1の先行区間の区間長と第2の先行区間の区間長の、どちらか短い方以下に設定する必要がある。逆にいえば、第1の先行区間の区間長と第2の先行区間の区間長は、第3の先行区間の区間長以上に設定する必要がある。
ただし、第1の先行区間の区間長と第2の先行区間の区間長は、それぞれ任意に設定してよい。CELP又はVSELP等の圧縮方式では、音源信号の圧縮として自己回帰モデルを利用した圧縮方式を用い、他方、スペクトルの圧縮としては移動平均モデルを利用した圧縮方式を用いるというように、圧縮方式がそれぞれで異なる。音源信号の圧縮に用いる自己回帰モデルは、無限の過去の情報も使用することに相当するため、第1の先行区間は比較的長い区間を設定する必要がある。一方、スペクトルの圧縮に用いる移動平均モデルは、移動平均に用いる所定の区間長の情報のみを使用することから、第2の先行区間は比較的短い区間を設定すればよい。
また、CELP又はVSELP等の圧縮方式における音源信号とスペクトルとの合成処理ではIIR(Infinite Impulse Response)フィルタを用いるため、合成処理にも履歴を有する。しかし、音声信号の特徴により、このIIRフィルタのフィルタ応答は比較的短時間に収束することから、第3の先行区間は短い区間を設定可能である。なお、音声素片の先行区間の区間長(図2に示す先行区間)は、少なくとも第1〜第3の先行区間の区間長より長ければよく、さらにいえば、第1〜第3の先行区間のうち最も長い区間長を音声素片の先行区間の区間長とすれば足りる。
このように、音声波形伸張部3では、第1の先行区間と、第2の先行区間と、第3の先行区間とをそれぞれ個別に設定しているので、従来のように第1〜第3の先行区間のうち、最長の区間長に合わせて音源信号の伸張処理、スペクトルの伸張処理、及び音源信号とスペクトルの合成処理を全て行っていた場合に比較して、処理量を削減することができる。
以上より、実施の形態1によれば、音声素片の音声波形と、この音声素片に先行する区間の音声波形とを含めて圧縮した圧縮音声波形を格納している音声素片辞書1と、音声素片辞書1に格納されている圧縮音声波形の中から、入力テキストから得られる音韻記号に対応する音声素片の音声波形とその先行区間の音声波形とを含む圧縮音声波形を読み出す圧縮音声波形読み出し部2と、この圧縮音声波形を伸張して音声波形を得る音声波形伸張部3と、この音声波形から音声素片の音声波形を抽出する音声波形抽出部4と、この音声素片の音声波形を順次接続して合成音声を生成する音声生成部5とを備え、音声波形伸張部3は、圧縮音声波形読み出し部2が読み出した圧縮音声波形を圧縮音源信号と圧縮スペクトルとに分離する圧縮音声波形分離部6と、圧縮音源信号のうちの第1の先行区間と音声素片区間とを伸張して音源信号を得る音源信号伸張部7と、圧縮スペクトルのうちの第2の先行区間と音声素片区間とを伸張してスペクトルを得るスペクトル伸張部8と、これら音源信号とスペクトルとを第3の先行区間と音声素片区間に渡って合成して音声波形を得る合成部9とを有するように構成した。このため、少ない処理量で、高い品質の合成音声を生成することができる。
実施の形態2.
上記実施の形態1では、音声素片辞書1が音声素片の先行区間の圧縮音声波形を保持する構成としたが、本実施の形態2では、圧縮音声波形のうち、伸張処理に不要な先行区間の圧縮音源波形又は圧縮スペクトルを削除する構成にする。なお、本実施の形態2の音声合成装置は、図1及び図3に示す音声合成装置と図面上では同様の構成であるため、以下では図1及び図3を援用して説明する。
図6は、実施の形態2に係る音声素片辞書1が格納する音声素片を説明するための図である。例えば、CV素片「ta」を音声素片として用いる場合には、音声素片「ta」に先行する第1の先行区間の圧縮音源信号と、第1の先行区間に相当する区間長の圧縮スペクトルから不要な区間を削除して第2の先行区間の区間長にした圧縮スペクトルとを含めた音声素片として音声素片辞書1に格納する。なお、音声素片「ta」と一部重複する音声素片「am」を音声素片として用いる場合には、音声素片「am」に先行する第1及び第2の先行区間が音声素片「ta」に重複しているので伸張処理に不要な区間の圧縮スペクトルも含む一連の音声素片として音声素片辞書1に格納する。この場合には、音声素片辞書1に格納すべき情報量(メモリ量)を削減する効果がある。
以上より、実施の形態2によれば、音声素片辞書1が、音声素片に先行する区間の音声波形のうち、音源信号伸張部7又はスペクトル伸張部8の伸張処理に不要な区間の圧縮音源信号又は圧縮スペクトルを削除した圧縮音声波形を格納するように構成した。
このため、合成音声の品質に影響を与えることなく音声素片辞書1に保持すべき情報を削減でき、この結果、少ない記憶容量で、高い品質の合成音声を生成することができる。
さらに、圧縮音声波形読み出し部2では読み出すべき情報が削減されるので、読み出す処理に要する処理量を削減することができ、この結果、少ない処理量で、高い品質の合成音声を生成することができる。
実施の形態3.
図7は、この発明の実施の形態3による音声合成装置の構成を示すブロック図である。この音声合成装置は、入力テキストに応じた合成音声を生成するものであり、入力テキストに対して言語解析処理及び韻律生成処理を実施することにより得られる音韻記号及び韻律情報を入力として用いる。なお、韻律情報としては、ピッチ、音韻継続時間長、パワー等の情報がある。
図7において、音声素片辞書10は、音声素片の音声波形として、予め人間が発声した単音、単語、単文等の音声波形が圧縮された圧縮音声波形を、圧縮音源信号と圧縮スペクトルとに分離して格納している。単語、単文中の一部分を音声素片として用いる場合には、その音声素片区間に先行する区間を含めて音源信号とスペクトルとが圧縮されて、格納される。
図8は、音声素片辞書10が格納する音声素片を説明するための図である。図8に示すように、例えば「あたまが」という発声された音声波形を圧縮した圧縮音声波形のうち、CV素片「ta」を音声素片として用いる場合には、音声素片「ta」に先行する第1の先行区間の圧縮音源信号と、第2の先行区間の圧縮スペクトルとを含めた音声素片として音声素片辞書10に格納する。
圧縮音源信号読み出し部11は、音声素片辞書10に格納されている圧縮音源信号の中から、入力テキストから得られる音韻記号に対応する音声素片の音源信号を含み、その音源信号の前方に所定の区間長(第1の先行区間)の音源信号が付加されている圧縮音源信号を読み出す処理を実施する。なお、圧縮音源信号読み出し部11は第1の部分圧縮音声波形読み出し手段を構成している。
圧縮スペクトル読み出し部12は、音声素片辞書10に格納されている圧縮スペクトルの中から、入力テキストから得られる音韻記号に対応する音声素片のスペクトルを含み、そのスペクトルの前方に所定の区間長(第2の先行区間)のスペクトルが付加されている圧縮スペクトルを読み出す処理を実施する。なお、圧縮スペクトル読み出し部12は第2の部分圧縮音声波形読み出し手段を構成している。
音声波形伸張部13は、圧縮音源信号読み出し部11により読み出された圧縮音源信号と、圧縮スペクトル読み出し部12により読み出された圧縮スペクトルとから音声波形を伸張する。なお、音声波形伸張部13は音声波形伸張手段を構成している。
図9は、音声波形伸張部13の内部構成を示すブロック図である。図9において、音源信号伸張部7は、圧縮音源信号読み出し部11により読み出された圧縮音源信号を伸張して音源信号にする。なお、音源信号伸張部7は第1の伸張手段を構成している。
スペクトル伸張部8は、圧縮スペクトル読み出し部12により読み出された圧縮スペクトルを伸張してスペクトルにする。なお、スペクトル伸張部8は第2の伸張手段を構成している。
合成部9は、音源信号伸張部7で伸張された音源信号と、スペクトル伸張部8で伸張されたスペクトルとを合成して音声波形を生成する処理を実施する。なお、合成部9は合成手段を構成している。
図7において、音声波形抽出部4は、音声波形伸張部13で伸張された音声波形から、音声素片の音声波形を抽出する処理を実施する。なお、音声波形抽出部4は音声波形抽出手段を構成している。
音声生成部5は、音声波形抽出部4により抽出された音声素片の音声波形を、入力テキストから得られる韻律情報に従ってピッチ及び音韻継続時間長を変形しながら、順次接続して、合成音声を生成する処理を実施する。なお、音声生成部5は音声生成手段を構成している。
次に、音声合成装置の動作を説明する。図10は、実施の形態3による音声合成装置の動作を示すフローチャートである。
音声合成装置には、入力テキストから得られる複数の音韻記号及び韻律情報が順次入力される。また、この音声合成装置の音声素片辞書10には、音声素片の音声波形が格納されているが、記憶容量を低減するために、CELP、VSELP等の圧縮方式により音声素片の音声波形が圧縮され、圧縮音源信号と圧縮スペクトルとに分離して格納されている。単語、単文中の一部分を音声素片として用いる場合には、その音声素片区間に先行する区間を含めた圧縮音源信号及び圧縮スペクトルが格納されていることは上述のとおりである。また、音声素片に先行する区間が、圧縮音源信号では第1の先行区間、圧縮スペクトルでは第2の先行区間に相当することも上述のとおりである。
先ず、圧縮音源信号読み出し部11は、音声素片辞書10に格納されている圧縮音源信号の中から、入力テキストから得られる音韻記号に対応する音声素片の音源信号を含み、その音源信号区間に先行する所定の区間長(第1の先行区間)の音源信号が付加されている場合にはその付加された音源信号も含めた圧縮音源信号を読み出す処理を実施する(ステップST21)。
例えば、入力テキストから得られる音韻記号に対応する音声素片が「ta」であれば、音声素片辞書10に格納されている圧縮音源信号のうち、音声素片「ta」の音源信号を含み、かつ、その音源信号の前方の第1の先行区間を含んだ圧縮音源信号を読み出すようにする。
圧縮スペクトル読み出し部12は、音声素片辞書10に格納されている圧縮スペクトルの中から、入力テキストから得られる音韻記号に対応する音声素片のスペクトルを含み、そのスペクトル区間に先行する所定の区間長(第2の先行区間)のスペクトルが付加されている場合にはその付加されたスペクトルも含めた圧縮スペクトルを読み出す処理を実施する(ステップST22)。
例えば、入力テキストから得られる音韻記号に対応する音声素片が「ta」であれば、音声素片辞書10に格納されている圧縮スペクトルのうち、音声素片「ta」のスペクトルを含み、かつ、そのスペクトルの前方の第2の先行区間を含んだ圧縮スペクトルを読み出すようにする。
なお、上記では読み出す対象の音声素片を、入力テキストから得られる音韻記号に基づき決定しているが、これに代え、入力テキストから得られる音韻記号と韻律情報とに基づき決定することも当然可能である。また、読み出す対象の音声素片が接続することとなる直前の音声素片又は前後の音声素片との接続性の良さを示す指標を用いて、読み出す対象の音声素片を決定してもよい。
音声波形伸張部13は、圧縮音源信号読み出し部11が圧縮音源信号を読み出し、圧縮スペクトル読み出し部12が圧縮スペクトルを読み出すと、それら圧縮音源信号と圧縮スペクトルとを用いて、先行区間と音声素片区間とからなる一連の圧縮された音声波形を伸張する(ステップST23)。ステップST23の詳細については後述する。
続いて、音声波形抽出部4は、音声波形伸張部13が出力した伸張後の音声波形から、音声素片区間の音声波形を抽出する(ステップST24)。
音声生成部5は、音声波形抽出部4が音声素片の音声波形を抽出すると、入力テキストから得られる韻律情報に従ってピッチ及び音韻継続時間長を変形しながら、その音声素片の波形を順次接続して、合成音声を生成する(ステップST25)。
なお、上記では音声素片の波形を、ピッチ及び音韻継続時間長を変形して用いているが、これに代え、ピッチ若しくは音韻継続時間長のどちらか一方、又は両方を変形せずに用いることも当然可能である。
入力された音韻記号及び韻律情報の全てに対して合成音声が生成されていれば処理は終了とし(ステップST26“Yes”)、音韻記号及び韻律情報が残っているか入力が終了していなければ全て終了するまでステップST21〜ST25の処理が繰り返し実施される(ステップST26“No”)。
次に、音声波形伸張部13の詳細動作を説明する。図11は、音声波形伸張部13の詳細動作を示すフローチャートである。音声波形伸張部13に入力される圧縮音源信号及び圧縮スペクトルは、CELP又はVSELP等の圧縮方式により圧縮されたものである。
先ず、音源信号伸張部7は、圧縮音源信号読み出し部11から圧縮音源信号が入力されると、第1の先行区間と音声素片区間の一連の圧縮音源信号を伸張する(ステップST31)。
ここで、音源信号の圧縮には履歴を有する圧縮方式を使用しているため、第1の先行区間は、この履歴を考慮して、例えば音源信号を伸張する際に音声素片の区間での歪みが十分に小さくなるように設定されているものとする。又は、ユーザが合成音声を受聴する際の劣化感が十分に小さくなるように設定されているものとする。
スペクトル伸張部8は、圧縮スペクトル読み出し部12から圧縮スペクトルが入力されると、第2の先行区間と音声素片区間の一連の圧縮スペクトルを伸張する(ステップST32)。
ここで、スペクトルの圧縮には履歴を有する圧縮方式を使用しているため、第2の先行区間は、この履歴を考慮して、例えばスペクトルを伸張する際に音声素片の区間での歪みが十分に小さくなるように設定されているものとする。又は、ユーザが合成音声を受聴する際の劣化感が十分に小さくなるように設定されているものとする。
続いて、合成部9は、第3の先行区間と音声素片区間の一連の伸張後の音源信号とスペクトルとを合成し、音声波形を生成する(ステップST33)。
ここで、音声波形の生成には履歴を有する生成方式を使用しているため、第3の先行区間は、例えば音声波形を生成する際に音声素片の区間での歪みが十分に小さくなるように設定されているものとする。又は、ユーザが合成音声を受聴する際の劣化感が十分に小さくなるように設定されているものとする。
なお、音源信号とスペクトルとの合成には、音源信号及びスペクトルの両者が必要であるので、第3の先行区間の区間長は、第1の先行区間の区間長と第2の先行区間の区間長の、どちらか短い方以下に設定する必要がある。逆にいえば、第1の先行区間の区間長と第2の先行区間の区間長は、第3の先行区間の区間長以上に設定する必要がある。
ただし、第1の先行区間の区間長と第2の先行区間の区間長は、それぞれ任意に設定してよい。CELP又はVSELP等の圧縮方式では、音源信号の圧縮として自己回帰モデルを利用した圧縮方式を用い、他方、スペクトルの圧縮としては移動平均モデルを利用した圧縮方式を用いるというように、圧縮方式がそれぞれで異なる。音源信号の圧縮に用いる自己回帰モデルは、無限の過去の情報も使用することに相当するため、第1の先行区間は比較的長い区間を設定する必要がある。一方、スペクトルの圧縮に用いる移動平均モデルは、移動平均に用いる所定の区間長の情報のみを使用することから、第2の先行区間は比較的短い区間を設定すればよい。
また、CELP又はVSELP等の圧縮方式における音源信号とスペクトルとの合成処理ではIIRフィルタを用いるため、合成処理にも履歴を有する。しかし、音声信号の特徴により、このIIRフィルタのフィルタ応答は比較的短時間に収束することから、第3の先行区間は短い区間を設定可能である。
このように、音声波形伸張部13では、第1の先行区間と、第2の先行区間と、第3の先行区間とをそれぞれ個別に設定しているので、従来のように第1〜第3の先行区間のうち、最長の区間長に合わせて音源信号の伸張処理、スペクトルの伸張処理、及び音源信号とスペクトルの合成処理を全て行っていた場合に比較して、処理量を削減することができる。
また、音声素片辞書10では、音声素片の先行区間の圧縮音声波形を全て保持するのではなく、音源信号伸張に必要な第1の先行区間の圧縮音源信号と、スペクトル伸張に必要な第2の先行区間の圧縮スペクトルのみを保持しているので、合成音声の品質に影響を与えることなく音声素片辞書10に要する記憶容量を削減することができる。
さらに、圧縮音源信号読み出し部11では第1の先行区間と音声素片区間のみの圧縮音源信号を、圧縮スペクトル読み出し部12では第2の先行区間と音声素片区間のみの圧縮スペクトルを読み出しているので、先行区間の圧縮音声波形を全て読み出していた場合に比較して、読み出しに要する処理量を削減することができる。
さらに、音声素片辞書10では、圧縮音声波形を予め圧縮音源信号と圧縮スペクトルとに分離して格納しているので、音声波形伸張時に圧縮音源信号を分離する処理を不要とすることができ、処理量を削減することができる。
以上より、実施の形態3によれば、音声素片の音声波形と、この音声素片に先行する区間の音声波形とを含めて圧縮した圧縮音声波形を、第1の先行区間と音声素片区間とを含む圧縮音源信号と、第2の先行区間と音声素片区間とを含む圧縮スペクトルとに分離して格納している音声素片辞書10と、音声素片辞書10の中から、入力テキストから得られる音韻記号に対応する音声素片とその第1の先行区間とを含む圧縮音源信号を読み出す圧縮音源信号読み出し部11と、音声素片辞書10の中から、音韻記号に対応する音声素片とその第2の先行区間とを含む圧縮スペクトルを読み出す圧縮スペクトル読み出し部12と、これら圧縮音源信号と圧縮スペクトルとを用いて音声波形を得る音声波形伸張部13と、この音声波形から音声素片の音声波形を抽出する音声波形抽出部4と、この音声素片の音声波形を順次接続して合成音声を生成する音声生成部5とを備え、音声波形伸張部13は、圧縮音源信号読み出し部11が読み出した圧縮音源信号を伸張して音源信号を得る音源信号伸張部7と、圧縮スペクトル読み出し部12が読み出した圧縮スペクトルを伸張してスペクトルを得るスペクトル伸張部8と、これら音源信号とスペクトルとを第3の先行区間と音声素片区間とに渡って合成して音声波形を得る合成部9とを有するように構成した。このため、少ない記憶容量と、少ない処理量で、高い品質の合成音声を生成することができる。
なお、上記実施の形態1〜3において、圧縮音声波形を生成する圧縮方式は、上述したCELP又はVSELP等に限定されるものではなく、MBE(Multi Band Excitation)、AAC(Advanced Audio Coding)等、音声波形又は音響波形を圧縮する任意の圧縮方式を用いることができることは言うまでもない。
また、上記実施の形態1〜3において、圧縮音声波形の分離及び伸張は、上述した圧縮音源信号と圧縮スペクトルに対して行う構成に限定されるものではなく、適用する圧縮方式に応じて、スペクトル包絡の圧縮結果と調波成分の振幅の圧縮結果、低域成分の圧縮結果と高域成分の圧縮結果等、圧縮音声波形に含まれ分離可能な任意の圧縮結果に分離してそれぞれの圧縮結果に適した第1の先行区間及び第2の先行区間を定めて伸張する構成とすることができることは言うまでもない。
また、上記実施の形態1〜3において、第1の先行区間、第2の先行区間、及び第3の先行区間の各区間長は全て正の値をとる(履歴を有する)ものに限定されるものではなく、少なくとも一つの区間の区間長が正であり、他の区間の区間長を0(履歴を有しない)とする構成にすることができることは言うまでもない。
なお、音声合成装置をコンピュータで構成する場合、音声素片辞書1,10をメモリ等の記憶媒体で構成すると共に、圧縮音声波形読み出し部2、音声波形伸張部3、音声波形抽出部4、音声生成部5、圧縮音声波形分離部6、音源信号伸張部7、スペクトル伸張部8、合成部9、圧縮音源信号読み出し部11、圧縮スペクトル読み出し部12、音声波形伸張部13、の処理内容を記述しているプログラムをコンピュータのメモリに格納し、コンピュータのCPUがメモリに格納されているプログラムを実行するようにしてもよい。
以上のように、この発明に係る音声合成装置は、カーナビゲーションシステム、携帯電話機等に実装されて、任意の文章から人工的に音声信号を生成する製品に適用され、これら製品の処理量、記憶容量の削減が図れる。
1,10 音声素片辞書、2 圧縮音声波形読み出し部、3 音声波形伸張部、4 音声波形抽出部、5 音声生成部、6 圧縮音声波形分離部、7 音源信号伸張部、8 スペクトル伸張部、9 合成部、11 圧縮音源信号読み出し部、12 圧縮スペクトル読み出し部、13 音声波形伸張部。

Claims (10)

  1. 音声素片の音声波形と、当該音声素片に先行する区間の音声波形とを含めて圧縮した圧縮音声波形を格納している音声素片辞書と、
    上記音声素片辞書に格納されている圧縮音声波形の中から、入力テキストから得られる音韻記号に対応する音声素片の音声波形とその先行区間の音声波形とを含む圧縮音声波形を読み出す圧縮音声波形読み出し手段と、
    上記圧縮音声波形読み出し手段により読み出された圧縮音声波形を伸張して音声波形を得る音声波形伸張手段と、
    上記音声波形伸張手段により得た音声波形から音声素片の音声波形を抽出する音声波形抽出手段と、
    上記音声波形抽出手段により抽出された音声素片の音声波形を順次接続して合成音声を生成する音声生成手段とを備えた音声合成装置において、
    上記音声波形伸張手段は、
    上記圧縮音声波形読み出し手段により読み出された圧縮音声波形を、音声波形の音源信号を圧縮した第1の部分圧縮音声波形と当該音声波形のスペクトルを圧縮した第2の部分圧縮音声波形とに分離する圧縮音声波形分離手段と、
    上記第1の部分圧縮音声波形のうち、音声素片区間と当該音声素片区間に先行する第1の先行区間とを伸張して第1の伸張データを得る第1の伸張手段と、
    上記第2の部分圧縮音声波形のうち、上記音声素片区間と上記音声素片区間に先行する第2の先行区間とを伸張して第2の伸張データを得る第2の伸張手段と、
    上記第1の伸張データと上記第2の伸張データとを、第3の先行区間と上記音声素片区間とに渡って合成して音声波形を得る合成手段とを有し、
    上記第1の先行区間、上記第2の先行区間、及び上記第3の先行区間のうちの少なくとも一つの区間長が他の区間長と異なることを特徴とする音声合成装置。
  2. 音声素片辞書は、音声素片に先行する区間の音声波形のうち、第1の伸張手段又は第2の伸張手段に不要な区間の第1の部分圧縮音声波形又は第2の部分圧縮音声波形を削除した圧縮音声波形を格納していることを特徴とする請求項1記載の音声合成装置。
  3. 音声素片の音声波形と、当該音声素片に先行する区間の音声波形とを含めて圧縮した圧縮音声波形を、当該音声素片区間と当該音声素片区間に先行する第1の先行区間とを含む音声波形の音源信号を圧縮した第1の部分圧縮音声波形と、当該音声素片区間と当該音声素片区間に先行し上記第1の先行区間と異なる区間長の第2の先行区間とを含む音声波形のスペクトルを圧縮した第2の部分圧縮音声波形とに分離して格納している音声素片辞書と、
    上記音声素片辞書に格納されている第1の部分圧縮音声波形の中から、入力テキストから得られる音韻記号に対応する音声素片とその第1の先行区間とを含む第1の部分圧縮音声波形を読み出す第1の部分圧縮音声波形読み出し手段と、
    上記音声素片辞書に格納されている第2の部分圧縮音声波形の中から、上記音韻記号に対応する音声素片とその第2の先行区間とを含む第2の部分圧縮音声波形を読み出す第2の部分圧縮音声波形読み出し手段と、
    上記第1の部分圧縮音声波形読み出し手段により読み出された第1の部分圧縮音声波形と、上記第2の部分圧縮音声波形読み出し手段により読み出された第2の部分圧縮音声波形とを用いて、音声波形を得る音声波形伸張手段と、
    上記音声波形伸張手段により得た音声波形から音声素片の音声波形を抽出する音声波形抽出手段と、
    上記音声波形抽出手段により抽出された音声素片の音声波形を順次接続して合成音声を生成する音声生成手段とを備えた音声合成装置。
  4. 音声波形伸張手段は、
    第1の部分圧縮音声波形を伸張して第1の伸張データを得る第1の伸張手段と、
    第2の部分圧縮音声波形を伸張して第2の伸張データを得る第2の伸張手段と、
    上記第1の伸張データと上記第2の伸張データとを、第3の先行区間と音声素片区間とに渡って合成して音声波形を得る合成手段とを有することを特徴とする請求項3記載の音声合成装置。
  5. 第1の部分圧縮音声波形に含まれる第1の先行区間の区間長は、第2の部分圧縮音声波形に含まれる第2の先行区間の区間長より長いことを特徴とする請求項1から請求項4のうちのいずれか1項記載の音声合成装置。
  6. 音声素片の音声波形と、当該音声素片に先行する区間の音声波形とを含めて圧縮した圧縮音声波形を格納している音声素片辞書から、入力テキストから得られる音韻記号に対応する音声素片の音声波形とその先行区間の音声波形とを含む圧縮音声波形を読み出す圧縮音声波形読み出しステップと、
    上記圧縮音声波形読み出しステップにより読み出された圧縮音声波形を伸張して音声波形を得る音声波形伸張ステップと、
    上記音声波形伸張ステップにより得た音声波形から音声素片の音声波形を抽出する音声波形抽出ステップと、
    上記音声波形抽出ステップにより抽出された音声素片の音声波形を順次接続して合成音声を生成する音声生成ステップとを備えた音声合成方法において、
    上記音声波形伸張ステップは、
    上記圧縮音声波形読み出しステップにより読み出された圧縮音声波形を、音声波形の音源信号を圧縮した第1の部分圧縮音声波形と当該音声波形のスペクトルを圧縮した第2の部分圧縮音声波形とに分離する圧縮音声波形分離ステップと、
    上記第1の部分圧縮音声波形のうち、音声素片区間と当該音声素片区間に先行する第1の先行区間とを伸張して第1の伸張データを得る第1の伸張ステップと、
    上記第2の部分圧縮音声波形のうち、上記音声素片区間と上記音声素片区間に先行する第2の先行区間とを伸張して第2の伸張データを得る第2の伸張ステップと、
    上記第1の伸張データと上記第2の伸張データとを、第3の先行区間と上記音声素片区間とに渡って合成して音声波形を得る合成ステップとを有し、
    上記第1の先行区間、上記第2の先行区間、及び上記第3の先行区間のうちの少なくとも一つの区間長が他の区間長と異なることを特徴とする音声合成方法。
  7. 音声素片辞書は、音声素片に先行する区間の音声波形のうち、第1の伸張ステップ又は第2の伸張ステップに不要な区間の第1の部分圧縮音声波形又は第2の部分圧縮音声波形を削除した圧縮音声波形を格納していることを特徴とする請求項6記載の音声合成方法。
  8. 音声素片の音声波形と、当該音声素片に先行する区間の音声波形とを含めて圧縮した圧縮音声波形を、当該音声素片区間と当該音声素片区間に先行する第1の先行区間とを含む音声波形の音源信号を圧縮した第1の部分圧縮音声波形と、当該音声素片区間と当該音声素片区間に先行し上記第1の先行区間と異なる区間長の第2の先行区間とを含む音声波形のスペクトルを圧縮した第2の部分圧縮音声波形とに分離して格納している音声素片辞書から、入力テキストから得られる音韻記号に対応する音声素片とその第1の先行区間とを含む第1の部分圧縮音声波形を読み出す第1の部分圧縮音声波形読み出しステップと、
    上記音声素片辞書から、上記音韻記号に対応する音声素片とその第2の先行区間とを含む第2の部分圧縮音声波形を読み出す第2の部分圧縮音声波形読み出しステップと、
    上記第1の部分圧縮音声波形読み出しステップにより読み出された第1の部分圧縮音声波形と、上記第2の部分圧縮音声波形読み出しステップにより読み出された第2の部分圧縮音声波形とを用いて、音声波形を得る音声波形伸張ステップと、
    上記音声波形伸張ステップにより得た音声波形から音声素片の音声波形を抽出する音声波形抽出ステップと、
    上記音声波形抽出ステップにより抽出された音声素片の音声波形を順次接続して合成音声を生成する音声生成ステップとを備えた音声合成方法。
  9. 音声波形伸張ステップは、
    第1の部分圧縮音声波形を伸張して第1の伸張データを得る第1の伸張ステップと、
    第2の部分圧縮音声波形を伸張して第2の伸張データを得る第2の伸張ステップと、
    上記第1の伸張データと上記第2の伸張データとを、第3の先行区間と音声素片区間とに渡って合成して音声波形を得る合成ステップとを有することを特徴とする請求項8記載の音声合成方法。
  10. 第1の部分圧縮音声波形に含まれる第1の先行区間の区間長は、第2の部分圧縮音声波形に含まれる第2の先行区間の区間長より長いことを特徴とする請求項6から請求項9のうちのいずれか1項記載の音声合成方法。
JP2009143326A 2009-06-16 2009-06-16 音声合成装置及び音声合成方法 Active JP5322793B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009143326A JP5322793B2 (ja) 2009-06-16 2009-06-16 音声合成装置及び音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009143326A JP5322793B2 (ja) 2009-06-16 2009-06-16 音声合成装置及び音声合成方法

Publications (2)

Publication Number Publication Date
JP2011002501A JP2011002501A (ja) 2011-01-06
JP5322793B2 true JP5322793B2 (ja) 2013-10-23

Family

ID=43560526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009143326A Active JP5322793B2 (ja) 2009-06-16 2009-06-16 音声合成装置及び音声合成方法

Country Status (1)

Country Link
JP (1) JP5322793B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053356A (zh) * 2019-12-27 2021-06-29 科大讯飞股份有限公司 语音波形生成方法、装置、服务器及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4367808B2 (ja) * 1999-12-03 2009-11-18 富士通株式会社 音声データ圧縮・解凍装置及び方法
JP4867076B2 (ja) * 2001-03-28 2012-02-01 日本電気株式会社 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法
JP2003248495A (ja) * 2002-02-25 2003-09-05 Toshiba Corp 音声合成方法と装置及びプログラム

Also Published As

Publication number Publication date
JP2011002501A (ja) 2011-01-06

Similar Documents

Publication Publication Date Title
CN108899009B (zh) 一种基于音素的中文语音合成系统
US7647226B2 (en) Apparatus and method for creating pitch wave signals, apparatus and method for compressing, expanding, and synthesizing speech signals using these pitch wave signals and text-to-speech conversion using unit pitch wave signals
US20070106513A1 (en) Method for facilitating text to speech synthesis using a differential vocoder
US7120584B2 (en) Method and system for real time audio synthesis
JPH0573100A (ja) 音声合成方法及びその装置
Bhardwaj et al. Usage of Prosody Modification and Acoustic Adaptation for Robust Automatic Speech Recognition (ASR) System.
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
JP5322793B2 (ja) 音声合成装置及び音声合成方法
JP4867076B2 (ja) 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法
JP5089473B2 (ja) 音声合成装置及び音声合成方法
JP2000122679A (ja) 音声帯域拡張方法及び装置、音声合成方法及び装置
WO2004109660A1 (ja) 音声データを選択するための装置、方法およびプログラム
JP3515406B2 (ja) 音声合成方法及び装置
JP3554513B2 (ja) 音声合成装置とその方法及び音声合成プログラムを記録した記録媒体
JP2007047422A (ja) 音声分析合成装置および音声分析合成方法
Dong-jian Two stage concatenation speech synthesis for embedded devices
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JP3853923B2 (ja) 音声合成装置
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JP2001350500A (ja) 話速変更装置
JP2003066983A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
TW526466B (en) Encoding and voice integration method of phoneme
JP4839058B2 (ja) 音声合成装置および音声合成プログラム
JP2942260B2 (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130716

R150 Certificate of patent or registration of utility model

Ref document number: 5322793

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250