JP4241762B2 - 音声合成装置、その方法、及びプログラム - Google Patents

音声合成装置、その方法、及びプログラム Download PDF

Info

Publication number
JP4241762B2
JP4241762B2 JP2006139587A JP2006139587A JP4241762B2 JP 4241762 B2 JP4241762 B2 JP 4241762B2 JP 2006139587 A JP2006139587 A JP 2006139587A JP 2006139587 A JP2006139587 A JP 2006139587A JP 4241762 B2 JP4241762 B2 JP 4241762B2
Authority
JP
Japan
Prior art keywords
speech
unit
speech unit
waveform
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006139587A
Other languages
English (en)
Other versions
JP2007310176A (ja
Inventor
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006139587A priority Critical patent/JP4241762B2/ja
Priority to US11/745,785 priority patent/US8468020B2/en
Priority to EP07009833A priority patent/EP1857924A1/en
Priority to CNA2007101046178A priority patent/CN101075432A/zh
Publication of JP2007310176A publication Critical patent/JP2007310176A/ja
Application granted granted Critical
Publication of JP4241762B2 publication Critical patent/JP4241762B2/ja
Priority to US13/860,319 priority patent/US8731933B2/en
Priority to US14/191,082 priority patent/US9666179B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/16Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声合成装置に係わり、特に、ハードディスク(HDD)などの大容量記憶媒体に記憶された大量の音声素片データから、必要な音声素片データを検索して取得し、接続することによって音声を合成する素片選択型の音声合成装置に関する。
従来から、任意の文章(テキスト)から人工的に音声信号を作り出すテキスト音声合成の技術が提案されている(例えば、特許文献1参照)。このようなテキスト音声合成を実現する音声合成装置は、一般に言語処理部、韻律処理部及び音声合成部の3つの要素によって構成される。
この音声合成装置では、まず言語処理部において、入力されたテキストの形態素解析や構文解析などが行われる。次に、韻律処理部においてアクセントやイントネーションの処理が行われ、音韻系列、基本周波数及び音韻継続時間長などの情報が算出される。そして最後に、音声合成部において、予め合成音声を生成する際の音声の接続単位である合成単位(例えば、音素や音節など)ごとに記憶されている音声素片データと呼ばれる特徴パラメータや音声波形を、韻律処理部で算出された基本周波数や音韻継続時間長などに基づいて接続することで合成音声が生成される。
高品質な音声を合成する方法として、予め大量の音声素片データを記憶しておき、この中から入力されたテキストの韻律や音韻環境に応じて適切な音声素片データを選択して、これを変形して接続することで合成音声を生成する方法が開示されている(例えば、特許文献2参照)。この方法では、音声素片を変形、接続して合成音声を生成した場合の合成音声の音質の劣化の度合いを推定するコスト関数を予め定義しておき、このコスト関数が小さくなるような音声素片を大量の音声素片の中から選択して用いることで高品質な合成音声の生成を実現している。
上記した音声合成方法では、大量の音声素片データを記憶する媒体としてRAMなどの高価な半導体メモリを用いるとコストが高くなるため、HDDなどの大容量記憶媒体が用いられる場合が多い。しかしながら、HDDに音声素片データを記憶した場合、データの読み出しにかかる時間が長いため、処理時間が長くなり、リアルタイム処理が難しくなるという問題点がある。
この問題点を解決する方法として、例えば特許文献3には、HDD上の音声素片データの一部の複製をメモリ上に配置し、メモリ上の音声素片データが選択されやすくなるような基準で素片選択を行うことによりHDDアクセスを減少させ、処理時間を抑制する方法が開示されている。このような素片選択は、HDD上の素片データが選択された場合ペナルティを与えてコスト関数の値が大きくなるようにコスト関数を設計することにより、実現することができる。
特開平8−254993号公報(第4頁、図1) 特開2001−282278公報(第3頁、図2) 特開2005−266010公報
上記した従来技術は、HDD上の素片データにペナルティを与えて選ばれにくくし、HDDアクセス回数を減少させるものであるため、音質の点では最適な素片がHDD上にあっても、メモリ上の素片を選択する場合があり、ペナルティを与えない場合と比較して音質が劣化するという問題点がある。
また、素片データの一部の複製を記憶するためのメモリが必要になるため、ハードウェアのコストが増加するという問題点がある。
そこで、本発明は、上記問題点に鑑み、音質を劣化させること無く、またメモリを追加すること無く、HDD、又は、NAND型フラッシュメモリのアクセス回数を減少させ、音声合成の処理速度を短縮できる音声合成装置及びその方法を提供する。
本発明は、入力した音韻系列に対応した音声を合成する音声合成装置において、音声素片波形を予め格納したハードディスク、又は、NAND型フラッシュメモリである音声素片波形記憶手段と、前記音声素片波形記憶手段に格納された各音声素片波形の格納位置情報を格納する音声素片位置記憶手段と、前記入力音韻系列に従って、前記入力音韻系列の音声を合成することが可能な音声素片系列を選択する素片選択手段と、前記音声素片系列に対応する音声素片波形を前記音声素片波形記憶手段から前記格納位置情報を参照して取得するものであって、バッファに一度に読み込み可能なデータ量の、前記音声素片系列に含まれる複数の音声素片の音声素片波形を含むデータを、前記音声素片波形記憶手段の連続した格納領域から1度に取得して、前記バッファにコピーする音声素片波形取得手段と、前記バッファにコピーされた前記音声素片波形を接続することにより合成音声を生成する素片接続手段と、を有することを特徴とする音声合成装置である。
本発明によれば、音質を劣化させること無く、またメモリを追加すること無く、HDD、又は、NAND型フラッシュメモリのアクセス回数を減少させ、音声合成の処理速度を短縮できる。
以下、本発明の一実施形態の音声合成装置について説明する。
(1)音声合成装置の構成
図1に基づいて音声合成装置の構成について説明する。なお、図1は、音声合成装置を示すブロック図である。
音声合成装置は、テキストを入力するテキスト入力部101と、テキスト入力部101で入力されたテキストの形態素解析及び構文解析を行う言語処理部102と、言語処理部102で得られる言語解析結果から入力されたテキストの音韻系列及び目標素片環境を取得する韻律処理部103と、韻律処理部103で得られるテキストの音韻系列及び目標素片環境を用いて、予め記憶されている複数の音声素片から合成単位毎に音声素片を選択し、選択された音声素片を接続して合成音声を生成する音声合成部104と、音声合成部104で生成された合成音声を出力する合成音声出力部105とを備えている。
また、合成音声部104は、予め合成単位に対応する複数の音声素片波形が記憶されている音声素片波形記憶部104aと、音声素片波形記憶部104aに記憶されている音声素片にそれぞれ対応する音声素片情報を記憶する音声素片情報記憶部104cと、音声素片を接続して合成音声を生成したときに生じる歪を、音声素片情報を参照して算出し、その歪に基づいて合成単位毎に音声素片を選択する音声素片選択部104bと、音声素片選択部104bで選択された音声素片の波形を音声素片波形記憶部104aから読み出して、それらの音声素片波形を変形、接続することで合成音声を生成する音声素片接続部104dとから構成されている。
なお、この音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、言語処理部102、韻律処理部103、音声合成部104は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、テキスト入力部101は、上記コンピュータ装置に内臓あるいは外付けされたキーボードなどを適宜利用して実現することができる。また、音声素片記憶部104aは、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、HDDもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。また、合成音声出力部105は、上記コンピュータ装置に内臓あるいは外付けされたスピーカやヘッドホンなどを適宜利用して実現することができる。
(2)音声合成装置の動作
次に、図1及び図2を用いて、音声合成装置の動作について説明する。なお、図2は、音声合成装置の動作を示すフローチャートである。
(2−1)テキスト入力部101
まず、合成音声を生成すべきテキストが、テキスト入力部101にユーザによって入力される(ステップS101)。テキストの入力は、例えば、ユーザがキーボードなどを用いてテキストデータを入力することによって行ってもよく、既にテキストデータのファイルを図示しない格納領域に格納しているのであれば、そのファイルをユーザが選択・指定することによって行ってもよい。テキスト入力部101で入力されたテキストは、言語処理部102に送られる。
(2−2)言語処理部102
次に、言語処理部102では、テキスト入力部101で入力されたテキストの形態素解析及び構文解析が行なわれる(ステップS102)。言語処理部102における形態素解析及び構文解析の結果は、形態素列、各形態素の品詞や読み情報、アクセント位置情報などとして、韻律処理部103に送られる。
次に、韻律処理部103では、言語処理部102におけるテキストの形態素解析及び構文解析の結果に基づいて、テキスト入力部101において入力されたテキストの音韻系列及び目標素片環境を取得する(ステップS103)。
ここで「音韻系列」とは、テキストを音素や音節などの音声の構成単位の並びで表現した系列をいう。なお、本実施形態では、音韻系列は、音素の系列であるとして説明する。図3に、入力されたテキストが「こんにちは」である場合の音韻系列(音素系列)の例を示す。ここでは、「k」「o」「x」などが音素を表している。
また、「目標素片環境」とは、入力されたテキストから得られる目標とする音声素片に関する環境的な属性(素片環境)をいう。ここで素片環境には、例えば、基本周波数、音韻継続時間長、パワーなどの韻律情報のほか、音素名、先行する音素名、後続する音素名、後続する音素に後続する音素名、音声素片境界のケプストラム、ストレスの有無、アクセント核から距離、息継ぎからの時間、発声速度、発声時の感情などが含まれるが、ここでは、目標素片環境は、基本周波数及び音韻継続時間長であるとして説明する。
(2−3)韻律処理部103
韻律処理部103で得られた音韻系列及び目標素片環境(基本周波数及び音韻継続時間長)は、図4に示すように、音韻系列に含まれる音素毎に、基本周波数及び音韻継続時間長と関連付けられて音声合成部104に送られる。なお、無声子音である/k/については基本周波数が存在しないため、図4では基本周波数を「0.0」としている。
(2−4)音声合成部104
次に、音声合成部104では、まず音声素片選択部104bにおいて、韻律処理部103から送られる音韻系列及び目標素片環境に基づいて、音声素片情報記憶部104cに記憶された音声素片情報を参照して、合成単位毎に音声素片が選択され、音声素片系列が出力される(ステップS104)。
なお、「合成単位」とは、合成音声を生成する際の音声の接続単位であり、合成単位としては、例えば、半音素、音素、ダイフォン、トライフォン、音節などを用いることができる。また、合成単位は、これらの半音素、音素、ダイフォン、トライフォン、音節などが混在するものであってもよい。なお、本実施形態では、合成単位は音素であるとして説明する。
図5に合成単位を音素とした場合の合成単位の例を示す。
また、図8に、入力テキストとそれに対応する音韻系列及び選択された音声素片系列の例を示す。同一音素の音声素片が複数個存在するため、音素を表す記号と音素毎の音声素片の番号との組で音声素片名を表している。例えば``o4”の音声素片は、音韻/o/の4番目の音声素片を表している。
次に、音声素片選択部104bで合成単位毎に求められた音声素片系列は、音声素片接続部104dに送られる。
音声素片接続部104dでは、音声素片選択部104bから送られた音声素片系列に基づき、音声素片情報記憶部104cに記憶されている素片波形位置情報を参照して、各音声素片の波形を音声素片波形記憶部104aから読み出し、韻律処理部103で得られた目標素片環境に基づいて変形、接続して合成音声を生成する(ステップS105)。
(2−5)合成音声出力部105
合成音声出力部105では、音声合成部104から送られる合成音声を出力する(ステップS106)。
合成音声の出力は、例えば、スピーカやヘッドホンなどを用いて行えばよい。また、スピーカやヘッドホンなどを用いて音声として出力する代わりに、電子データとして半導体メモリやHDDなどの記憶媒体上にファイルとして出力してもよい。
(3)音声素片情報記憶部104cと音声素片波形記憶部104a
音声素片情報記憶部104cと音声素片波形記憶部104aには、複数の音声素片について、音声素片情報と音声素片波形がそれぞれ対応付けられて記憶されている。
「音声素片情報」は、素片波形位置情報と素片環境情報などから構成される。図6に音声素片情報の例を示す。
「素片波形位置情報」は、音声素片波形記憶部104aに記憶されている当該音声素片の波形データの位置と大きさを示すもので、例えば全ての音声素片の波形データ全体の格納領域の先頭から数えた当該素片波形データ先頭の位置(バイト数)や、当該素片波形データのサイズを素片波形位置情報として素片毎に記憶すればよい。さらに、音声素片波形記憶部104aに記憶されている順番を表す通し番号(素片番号)を記憶するようにしてもよい。
「素片環境情報」としては、音素名、基本周波数、音韻継続時間長及び音声素片境界のケプストラムが音声素片情報記憶部104cに記憶されているものとする。
音声素片波形記憶部104aに記憶される音声素片波形は、音声波形そのものであってもよく、音声波形をケプストラムなどのスペクトルパラメータに変換したり、μlaw,ADPCM,CELPなどの手法で圧縮符号化したものであってもよい。なお、本実施形態では、音声素片記憶部104aに記憶される音声素片波形は、音声波形そのものであるとして説明する。図6の音声素片情報に対応する音声素片波形の例を図10に示す。
このような音声素片波形記憶部104aは、例えば、予め収録された発声データについて、図7に示すように音素単位でラベリングを行い、音素毎に音声波形を切り出して、これを音声素片波形として記憶媒体に記憶することによって得ることができる。また、このとき、その音声素片が属する音素名、基本周波数、音韻継続時間長、音声素片境界のケプストラムも抽出し、各素片波形データのサイズと位置を計算して、音声素片情報記憶部104cに記憶する。
音声素片情報記憶部104cや音声素片波形記憶部104aとして用いる記憶媒体には、例えば、RAM・ROM・フラッシュメモリなどの半導体メモリ、HDD、CD−R、CD−RW、DVD−R、DVD−RAM、DVD−RWなどが適用できる。但し、音声素片情報記憶部104cに記憶するデータ量は比較的小さく、また頻繁にアクセスが必要なため、アクセス速度の速いRAMやROMなどの半導体メモリが用いることが好ましい。
音声素片波形記憶部104aは、大容量の波形データを記憶する必要があるため、バイト当たりの単価が比較的安価で容量の大きいHDDやNAND型フラッシュメモリなどを用いることが好ましい。なお、本実施形態では、音声素片波形記憶部104aに用いる記憶媒体は、HDDであるとして、また、音声素片情報記憶部104cとして用いる記憶媒体は、RAMであるとして説明する。
(4)音声素片選択部104bの動作
次に、音声素片選択部104bの動作について説明する。
まず、音声素片選択部104bは、韻律処理部103から送られる音韻系列を、音声素片を選択する単位となる合成単位で区切る。なお、以下では音韻系列を合成単位で区切ったときの各区分をセグメントと呼ぶ。
次に、音声素片選択部104bは、音声素片波形記憶部104aに記憶されている音声素片波形を、韻律処理部103から送られる音韻系列にしたがって接続して合成される合成音声の歪を、音声素片情報記憶部104cを参照して算出し、この歪が最小となる音声素片の系列(最適音声素片系列)を探索する。
ここで、音声素片波形記憶部104aに記憶されている音声素片を接続して合成音声を生成した場合の合成音声の歪は、音声素片情報記憶部104cに記憶された音声素片の素片環境と韻律処理部103から送られる目標素片環境(基本周波数及び音韻継続時間長)との違いに基づく歪である目標コストと、接続する音声素片間の素片環境(音声素片境界のケプストラム)の違いに基づく歪である接続コストの重み付け和として求められる。すなわち、目標コストとは、音声素片波形記憶部104aに記憶されている音声素片を入力されたテキストの目標素片環境(基本周波数及び音韻継続時間長)のもとで使用することによって生じる歪であり、接続コストとは、接続する音声素片間の素片環境が不連続であることによって生じる歪である。
本実施形態では、目標コストとしては、韻律処理部103から送られる目標素片環境である基本周波数及び音韻継続時間長と、音声素片情報記憶部104cに記憶されている音声素片の素片環境である基本周波数及び音韻継続時間長との違いに基づく基本周波数コスト及び音韻継続時間長コストを用いる。
また、接続コストとしては、接続する音声素片間における音声素片情報記憶部104cに記憶されている音声素片境界のケプストラムの違いに基づくスペクトル接続コストを用いる。
(5)コストを求める方法
次に、図9を用いて、基本周波数コスト、音韻継続時間長コスト及びスペクトル接続コストを求める方法について説明する。
図9(a)には、「こんにちは」というテキストに対して韻律処理部103で得られた音韻系列(音素系列)及び目標素片環境(基本周波数及び音韻継続時間長)を示している。上述したように、本実施形態では、合成単位を音素としているので、セグメント毎に音素及び目標素片環境である基本周波数(fTi)及び音韻継続時間長(dTi)が定まる。
図9(b)には、図9(a)に示す各セグメントに対して、音声素片波形記憶部104aから音声素片uを選択して用いる場合の音声素片の系列の例を示している。なお、音声素片uは、セグメントiの音素を素片環境として持つ音声素片の中から選択する。そして、図9(b)には、音声素片情報記憶部104cに記憶されている音声素片uに対する基本周波数fui、音韻継続時間長dui及び素片境界のケプストラムpui、quiもあわせて表している。なお、素片境界のケプストラムについては、先行する音声素片との境界についてのケプストラムをpui、後続する音声素片との境界についてのケプストラムをquiとしている。
この場合、各セグメントにおける基本周波数コストC(i,u)、音韻継続時間長コストC(i,u)及びスペクトル接続コストC(i,u)は、それぞれ(1)式、(2)式及び(3)式によって求めることができる。

(i,u)={log(fui)−log(fTi)} (1)

(i,u)=(dui−dTi (2)

(i,u)=||qu(i−1)−pui|| (3)

ここで||x||は、ベクトルxのノルムを表す。
各セグメントのコストCSG(i,u)は、これらのコストの重み付け和として(4)式によって求めることができる。

SG(i,u
=w(i,u)+w(i,u)+w(i,u) (4)

ここで、w、w及びwは予め適切に定められた重み係数である。
したがって、入力されたテキストに対して図9(b)に示すような音声素片{u,u,・・・}を接続することによって合成音声を生成したときに生じる歪Cは、(5)式のように算出することができる。
Figure 0004241762
ここで、Nは入力されたテキストから得られる音韻系列(音素系列)を合成単位で区切ることにより得られるセグメントの数である。
以上が、韻律処理部103から送られる音韻系列にしたがって音声素片波形記憶部104aに記憶されている音声素片を接続した場合の合成音声の歪を、音声素片情報記憶部104cを参照して算出する方法である。そして、上述した(5)式に基づいて、歪Cが最小となる音声素片系列(最適音声素片系列)が求められる。なお、最適音声素片系列は、例えば、韻律処理部103から送られる音韻系列にしたがって、すべての音声素片の組合せについて歪Cを求めることによって探索してもよいが、動的計画法(Dynamic Programing/DP)を用いることで効率的に探索することが可能である。
(6)音声素片接続部104d
次に、音声素片接続部104dでは、音声素片選択部104bから送られた音声素片系列に基づき、音声素片情報記憶部104cに記憶されている素片波形位置情報を参照して、各音声素片の波形を音声素片波形記憶部104aから読み出し、韻律処理部103で得られた目標素片環境に基づいて変形、接続して合成音声を生成する。
(6−1)音声素片接続部104dの動作
本実施形態で特徴的な音声素片接続部104dの動作を、図11を用いて詳細に説明する。
まず、音声素片選択部104bからN個の音声素片の系列u,(i=1,・・・,N)が入力される(S301)。
次に、対象とする音声素片の位置を表すインデックスiの値を1に初期化する(S302)。
次に、音声素片uの音声素片波形がHDDで構成される音声素片波形記憶部104aから既に読み出されているかをチェックする(S303)。既に読み出されていて、音声素片接続部104d内に用意されたバッファに音声素片波形がコピーされていれば、音声素片波形の読み出し処理をスキップして、後述する合成音声の生成処理であるS307に移る。
一方、まだ読み出されていなければ、音声素片系列内の音声素片uに後続する音声素片の中に、所定の条件を満たす音声素片uが存在するかどうかをチェックする(S304)。この所定の条件は、音声素片u及び音声素片uの、音声素片系列内での位置関係や、これらの音声素片の音声素片波形のHDD上での位置関係に関する条件であり、詳細は後述する。
ここで、この条件を満たしていると判断された場合には、音声素片u及びuの音声素片波形を含むHDD上の連続した格納領域を1回のアクセスで、HDDから読み出してバッファにコピーする(S305)。
一方、この条件を満たさない場合は、音声素片uの音声素片波形をHDDから読み出してバッファにコピーする(S306)。
次に、バッファにコピーされたuの音声素片波形を用いて合成音声を生成する(S307)。この合成方法については後述する。
次に、当該音声素片が音声素片系列の最後の素片であるかをチェックし(S308)、そうであれば合成音声の波形を出力(S310)して処理を終了し、そうでなければインデックスを1つ増やして(S309)、後続する音声素片から合成音声を生成するため、S303に戻る。
(6−2)S304における条件の判定
ここで、上述したS304における条件の判定について、図14を用いて詳細に説明する。
本判定方法では、音声素片uに後続するW個の音声素片のいずれか1個であるuと、音声素片uとの組合せの中で、uとuの音声素片波形を含むHDD上の連続した領域のデータ量(以下では、Ds(u,u)と表す)がバッファサイズ以下となるようなkが存在するかどうかを判定している。
まず、音声素片系列内で当該音声素片に後続する音声素片のインデックスを表すi+1にインデックスkを初期化する(S401)。
ここで、kがNより大きいか、もしくはkがi+Wより大きい場合は、条件の判定結果は「No」となり、判定を終了する(S402)。ここでWは正の整数で、任意に設定可能な定数である。
次に、音声素片u及びuの音声素片波形を含むHDD上の連続した領域のデータ量Ds(u,u)を計算し、このデータ量が、音声素片波形を読み出してコピーするために用意されたバッファのサイズ以下であるかどうかをチェックする(S403)。Ds(u,u)の値は、音声素片情報記憶部104cを参照して、uとu及び、波形番号がこれら2つの音声素片の間にある全ての音声素片の音声素片波形のサイズを合計することで求められる。
Ds(u,u)がバッファサイズ以下であれば、条件の判定結果は「Yes」となり、判定を終了する。一方、バッファサイズより大きい場合は、インデックスkを1つ進めてS402に戻る(S404)。
上述した判定により、結果が「Yes」となる場合には、uとuの音声素片波形を1回のHDDアクセスで読込んで、バッファにコピーすることが可能である。
上述したS403では、Ds(u,u)とバッファサイズを比較したが、これ以前の処理でバッファに読込まれた音声素片波形が残っている場合には、残っている音声素片波形のサイズをバッファサイズから差し引いたサイズとDs(u,u)とを比較するようにしても良い。あるいは、バッファに音声素片波形が残っている場合には、無条件に判定結果を「No」とするようにしてもよい。
また、S403において、音声素片u及びuの音声素片波形を含むHDD上の連続した領域に記憶されている音声素片数Dn(u,u)を計算し、この値が予め設定した素片数の最大値Dnmax以下であるかどうかをチェックするようにしても良い。音声素片波形のサイズの最大値が既知であれば、音声素片の個数のみで、バッファに読み込み可能かどうかを判定することが可能である。例えば、Dnmax=2、W=2とした場合の条件判定は、「音声素片系列内で連続する音声素片uとui+1の音声素片波形が、HDD上で隣接して記憶されていること」に相当する。
図13に、本実施形態における音声素片波形読み出しの例を示す。
この例では、W=3とし、Dn(u,u)が3以下(Dnmax=3)の条件で判定を行うものとした。音声素片系列には、9個の音声素片が含まれるが、o(4)とx(2),n(6)とch(1),i(2)とw(5)は、それぞれ1回のアクセスで読み出すことができるため、全体で6回のHDDアクセスで必要な音声素片波形を全て読み出して音声を合成することが可能である。
(6−3)S307における合成音声の生成方法
ここで、図12を用いて、S307における合成音声の生成方法について説明する。
まず、図12(a)に示すように、有声音については、音声素片波形からピッチ波形を抽出し、このピッチ波形の基本周波数を韻律処理部103で得られた基本周波数となるように変形し、これを韻律処理部103で得られた音韻継続時間長にしたがって適切な数だけ重畳する。
なお、音声素片波形からピッチ波形を抽出する方法としては、例えば、基本周期(ピッチ)同期窓を用いる方法や、ケプストラム分析やPSE分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪が小さくなるようなピッチ波形を求める方法などを用いることができる。あるいは、予めピッチ波形の抽出を行って、ピッチ波形の系列を音声素片波形として音声素片波形記憶部104aに記憶するようにしてもよい。
一方、無声音は非周期的であるため、ピッチ波形は存在しないので、音声素片波形の音韻継続時間長のみを韻律処理部103で得られた音韻継続時間長にしたがって変形する。例えば、無声破裂音や無声破擦音は、音が発せられる前に調音器官を閉じ呼気を止める区間(閉鎖区間)が存在するので、図12(b)に示すように、閉鎖区間中の適当な区間をコピーして閉鎖区間の伸長を行うことによって、音声素片が適切な音韻継続時間長となるように変形すればよい。また、無声摩擦音については、音声素片を短くする場合には、例えば、音声素片の中心付近の適当な長さの区間の波形を切り落とし、音声素片を長くする場合には、音声素片の中心付近の適当な長さの区間の波形を繰り返すことによって、音声素片が適切な音韻継続時間長となるように変形すればよい。このとき、波形の接続付近で平滑化処理を行えば、波形を切り落としたり、接続したりすることによる合成音声の不連続感を低減させることができる。
そして、このようにして基本周波数や継続時間長が変形された音声素片波形を、先行する音声素片波形から生成された合成音声と接続することで、合成音声が生成される。
このように音声素片接続部104dで生成された合成音声は、次に、合成音声出力部105に送られる。
(7)HDD上の音声素片の並び順の最適化
上述した実施形態の音声合成装置では、2つの音声素片波形を1アクセスで読込む「まとめ読み」の頻度が高いほど処理時間短縮の効果が高い。この「まとめ読み」の頻度は、HDD上に記憶されている音声素片の並び順の影響を受けることから、この並び順を最適化することにより、処理時間短縮の効果を高めることが可能である。
以下では、HDD上の音声素片の並び順を最適化する方法について説明する。
音声合成装置において「まとめ読み」が行われるための条件が、「音声素片系列内で連続する音声素片uとui+1の音声素片波形が、HDD上で隣接して記憶されていること」である場合について、HDD上の音声素片の並び順の最適化法を説明する。
まず、大量のテキストを訓練データとして用意し、音声合成装置に入力して音声素片の選択までを実行し、音声素片系列を生成して出力しておく。
次に、2つの音声素片の組合せが、生成した音声素片系列内で連続して現れる頻度を求める。HDDに記憶される音声素片波形の個数をNallとし、頻度をH(p,q),(1=<p<q=<Nall)と表すものとする。但し、p,qは、全ての音声素片に一意に付与された番号であるとする。また、最適化のプロセスにおいて、各音声素片波形に隣接して配置可能な素片の数をC(p),(1=<p=<Nall)で表すものとする。全ての音声素片波形の配置が決まっていない初期状態では、全てのpについてC(p)=2に初期化されているものとし、音声素片波形pの前または後ろのいずれかに隣接する音声素片波形が決定した状態ではC(p)=1となり、前後両方が決定した状態ではC(p)=0となるものとする。
(7−1)最適化の詳細
次に、最適化の詳細について図15を参照して説明する。
まず、全てのC(p)を2で初期化する(S501)。
次に、C(p)>0かつC(q)>0であるp,qの中で、頻度H(p,q)が最大となる組合せ(p’,q’)を求める(S502)。
この頻度の最大値H(p’,q’)が0より大きい場合は(S503)、音声素片波形p’と音声素片波形q’が隣接するように接続して、部分素片波形列を生成する(S504)。
この操作は、
1)2つの音声素片波形を接続して新たな部分素片波形列を生成する、
2)既存の部分素片波形列の前端または後端に音声素片波形を接続する、
3)既存の2つの部分素片波形列を接続して1つの部分素片波形列とする、
のいずれかとなる。
但し、p’とq’が既存の同じ部分素片波形列の前端と後端である場合は、部分素片波形列が循環するのを防ぐため、接続しないものとする。
次に、H(p’,q’)=0とし、C(p’)とC(q’)からそれぞれ1を引いて(S505)、S502に戻り、S503でH(p’,q’)が0となるまで処理を繰り返す。H(p’,q’)が0というのは、出現頻度が1以上でかつ接続可能な素片の組合せが無くなったことを意味するため、最後に、まだ接続されていない全ての音声素片波形と、全ての部分素片波形列とを適当に接続し、1つの音声素片波形列を生成する。
(7−2)最適化の効果
以上述べたような方法で生成された音声素片波形列に従ってHDD上に音声素片波形を配置して記憶させることにより、連続して選択されやすい音声素片がHDD上でも隣接している頻度が高くなるため、「まとめ読み」の頻度が高くなり、処理時間がより短縮されるという効果がある。
また、選択される頻度の高い音声素片については、音声素片波形を複製して、同一の音声素片波形を複数個HDD上に記憶させることにより、さらに「まとめ読み」の頻度を高めることが可能である。例えば素片pをx個に複製した場合は、S501においてC(p)=2xで初期化することにより、上述した方法で配置の最適化が可能である。
(8)効果
以上説明したように、本実施形態における音声合成装置では、音声素片系列に含まれる2つの音声素片が所定の条件を満たす場合に、これら2つの音声素片波形を1回のHDDアクセスで読み出すことができる。
これによりHDDアクセスの回数が減少し、音声素片波形を読み出すために要する時間が短縮されるため、音声合成全体の処理時間も短縮されるという効果がある。
HDDに記憶された音声素片波形を読み出すのに要する時間は、実際に波形のデータを読み出している時間(取得時間)の他に、読み出すまでの準備の時間(準備時間)が必要である。HDDにおける準備時間は、データを読み出すためのヘッドを移動する時間や、回転する磁気ディスク上で音声素片波形が記憶されている領域がヘッドに到達するまでの待ち時間などが含まれる。そのため、音声素片波形程度のデータ量を読み出す場合は、取得時間よりも準備時間が長くなる場合が多いため、アクセス回数を減らして準備時間を短縮することが、処理時間の短縮に効果的である。このように、HDDだけでなく、データの取得のために準備時間が必要な記憶媒体を、音声素片波形記憶部104aとして利用する場合には、本実施形態によって処理時間が短縮されるという効果がある。
(11)変更例
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
本実施形態では、2つの音声素片波形を1回のHDDアクセスで読み出す場合について説明したが、3つ以上の音声素片波形を1回のアクセスで読み出すことが可能なように構成してもよい。これにより、さらにHDDアクセス回数を減少させることが期待できるため、処理時間をより短縮することができる。
本発明の一実施形態に係る音声合成装置を示すブロック図である。 音声合成装置の動作を示すフローチャートである。 入力されたテキストが「こんにちは」である場合の音韻系列(音素系列)の例を示す図である。 音声合成部104に送られる音韻系列に含まれる音素毎の基本周波数及び音韻継続時間長のデータの図である。 合成単位を音素とした場合の合成単位の例を示す図である。 音声素片情報104cの例を示す図である。 音素単位でラベリングを行って音素毎に音声波形を切り出した音声素片波形の図である。 入力テキストとそれに対応する音韻系列及び選択された音声素片系列の例を示す図である。 基本周波数コスト、音韻継続時間長コスト及びスペクトル接続コストを説明する図である。 図6の音声素片情報に対応する音声素片波形の例の図である。 音声素片接続部104dの動作のフローチャートである。 S307における合成音声の生成方法について説明する図である。 音声素片波形読み出しの例を示す図である。 S304における条件の判定のフローチャートである。 最適化の詳細のフローチャートである。
符号の説明
101 テキスト入力部
102 言語処理部
103 韻律処理部
104 音声合成部
105 合成音声出力部

Claims (9)

  1. 入力した音韻系列に対応した音声を合成する音声合成装置において、
    音声素片波形を予め格納したハードディスク、又は、NAND型フラッシュメモリである音声素片波形記憶手段と、
    前記音声素片波形記憶手段に格納された各音声素片波形の格納位置情報を格納する音声素片位置記憶手段と、
    前記入力音韻系列に従って、前記入力音韻系列の音声を合成することが可能な音声素片系列を選択する素片選択手段と、
    前記音声素片系列に対応する音声素片波形を前記音声素片波形記憶手段から前記格納位置情報を参照して取得するものであって、バッファに一度に読み込み可能なデータ量の、前記音声素片系列に含まれる複数の音声素片の音声素片波形を含むデータを、前記音声素片波形記憶手段の連続した格納領域から1度に取得して、前記バッファにコピーする音声素片波形取得手段と、
    前記バッファにコピーされた前記音声素片波形を接続することにより合成音声を生成する素片接続手段と、
    を有することを特徴とする音声合成装置。
  2. 前記音声素片波形取得手段は、前記連続した格納領域のデータの大きさが、所定の大きさより小さい場合に、前記連続した格納領域から1度に取得する
    ことを特徴とする請求項1記載の音声合成装置。
  3. 前記音声素片波形取得手段は、前記連続した格納領域のデータに含まれる音声素片波形の数が、所定の数より小さい場合に、前記連続した格納領域から1度に取得する
    ことを特徴とする請求項1記載の音声合成装置。
  4. 前記音声素片波形取得手段は、前記音声素片系列に含まれる前記複数の音声素片を含む連続した部分音声素片系列の音声素片数が、所定の数より小さい場合に、前記複数の音声素片の音声素片波形を含むデータを前記連続した格納領域から1度に取得する
    ことを特徴とする請求項1記載の音声合成装置。
  5. 前記素片接続手段は、前記音声素片系列に含まれる連続する複数の音声素片の音声素片波形が、前記音声素片記憶手段に隣接して格納されている場合に、前記複数の音声素片の音声素片波形を1度に取得する
    ことを特徴とする請求項1記載の音声合成装置。
  6. 前記音声素片記憶手段は、同一の音声素片波形を複数個格納し、かつ、前記各音声素片波形を異なる位置に格納している
    ことを特徴とする請求項1記載の音声合成装置。
  7. 前記音声素片波形記憶手段に格納されている前記音声素片波形の順序は、
    前記順序を決定するための訓練データである入力音韻系列に従って、前記訓練データの入力音韻系列の音声を合成することが可能なように選択された音声素片系列に基づいて決定されている
    ことを特徴とする請求項1記載の音声合成装置。
  8. 入力した音韻系列に対応した音声を合成する音声合成方法において、
    音声素片波形を予め格納したハードディスク、又は、NAND型フラッシュメモリである音声素片波形記憶手段に格納された各音声素片波形の格納位置情報を格納する音声素片位置記憶ステップと、
    前記入力音韻系列に従って、前記入力音韻系列の音声を合成することが可能な音声素片系列を選択する素片選択ステップと、
    前記音声素片系列に対応する音声素片波形を前記音声素片波形記憶手段から前記格納位置情報を参照して取得するものであって、バッファに一度に読み込み可能なデータ量の、前記音声素片系列に含まれる複数の音声素片の音声素片波形を含むデータを、前記音声素片波形記憶手段の連続した格納領域から1度に取得して、前記バッファにコピーする音声素片波形取得ステップと、
    前記バッファにコピーされた前記音声素片波形を接続することにより合成音声を生成する素片接続ステップと
    有することを特徴とする音声合成方法。
  9. 入力した音韻系列に対応した音声をコンピュータによって合成する音声合成プログラムにおいて、
    前記コンピュータに、
    音声素片波形を予め格納したハードディスク、又は、NAND型フラッシュメモリである音声素片波形記憶手段に格納された各音声素片波形の格納位置情報を格納する音声素片位置記憶機能と、
    前記入力音韻系列に従って、前記入力音韻系列の音声を合成することが可能な音声素片系列を選択する素片選択機能と、
    前記音声素片系列に対応する音声素片波形を前記音声素片波形記憶手段から前記格納位置情報を参照して取得するものであって、バッファに一度に読み込み可能なデータ量の、前記音声素片系列に含まれる複数の音声素片の音声素片波形を含むデータを、前記音声素片波形記憶手段の連続した格納領域から1度に取得して、前記バッファにコピーする音声素片波形取得機能と、
    前記バッファにコピーされた前記音声素片波形を接続することにより合成音声を生成する素片接続機能と、
    実現させるための音声合成プログラム。
JP2006139587A 2006-05-18 2006-05-18 音声合成装置、その方法、及びプログラム Active JP4241762B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2006139587A JP4241762B2 (ja) 2006-05-18 2006-05-18 音声合成装置、その方法、及びプログラム
US11/745,785 US8468020B2 (en) 2006-05-18 2007-05-08 Speech synthesis apparatus and method wherein more than one speech unit is acquired from continuous memory region by one access
EP07009833A EP1857924A1 (en) 2006-05-18 2007-05-16 Speech synthesis apparatus and method
CNA2007101046178A CN101075432A (zh) 2006-05-18 2007-05-18 语音合成装置和方法
US13/860,319 US8731933B2 (en) 2006-05-18 2013-04-10 Speech synthesis apparatus and method utilizing acquisition of at least two speech unit waveforms acquired from a continuous memory region by one access
US14/191,082 US9666179B2 (en) 2006-05-18 2014-02-26 Speech synthesis apparatus and method utilizing acquisition of at least two speech unit waveforms acquired from a continuous memory region by one access

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006139587A JP4241762B2 (ja) 2006-05-18 2006-05-18 音声合成装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2007310176A JP2007310176A (ja) 2007-11-29
JP4241762B2 true JP4241762B2 (ja) 2009-03-18

Family

ID=38171290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006139587A Active JP4241762B2 (ja) 2006-05-18 2006-05-18 音声合成装置、その方法、及びプログラム

Country Status (4)

Country Link
US (3) US8468020B2 (ja)
EP (1) EP1857924A1 (ja)
JP (1) JP4241762B2 (ja)
CN (1) CN101075432A (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4241762B2 (ja) * 2006-05-18 2009-03-18 株式会社東芝 音声合成装置、その方法、及びプログラム
JPWO2010010646A1 (ja) * 2008-07-24 2012-01-05 パナソニック株式会社 アクセスモジュール、記憶モジュール、楽音生成システム、及びデータ書き込みモジュール
US8798998B2 (en) * 2010-04-05 2014-08-05 Microsoft Corporation Pre-saved data compression for TTS concatenation cost
JP5914996B2 (ja) * 2011-06-07 2016-05-11 ヤマハ株式会社 音声合成装置およびプログラム
JP5930738B2 (ja) * 2012-01-31 2016-06-08 三菱電機株式会社 音声合成装置及び音声合成方法
JP6413263B2 (ja) * 2014-03-06 2018-10-31 株式会社デンソー 報知装置
US9997154B2 (en) * 2014-05-12 2018-06-12 At&T Intellectual Property I, L.P. System and method for prosodically modified unit selection databases
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
JP6520108B2 (ja) * 2014-12-22 2019-05-29 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置
CN108597498B (zh) * 2018-04-10 2020-09-01 广州势必可赢网络科技有限公司 一种多麦克风语音采集方法及装置
US11227579B2 (en) * 2019-08-08 2022-01-18 International Business Machines Corporation Data augmentation by frame insertion for speech data
CN110648652B (zh) * 2019-11-07 2021-10-01 浙江如意实业有限公司 一种智能互动玩具
CN111210803B (zh) * 2020-04-21 2021-08-03 南京硅基智能科技有限公司 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
JPH08254993A (ja) 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
JP2000075878A (ja) * 1998-08-31 2000-03-14 Canon Inc 音声合成装置およびその方法ならびに記憶媒体
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
US6697780B1 (en) 1999-04-30 2004-02-24 At&T Corp. Method and apparatus for rapid acoustic unit selection from a large speech corpus
US7039588B2 (en) 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP2001282278A (ja) 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP4080989B2 (ja) 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
JP4424024B2 (ja) 2004-03-16 2010-03-03 株式会社国際電気通信基礎技術研究所 素片接続型音声合成装置及び方法
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
JP4241762B2 (ja) * 2006-05-18 2009-03-18 株式会社東芝 音声合成装置、その方法、及びプログラム

Also Published As

Publication number Publication date
EP1857924A1 (en) 2007-11-21
US9666179B2 (en) 2017-05-30
US8731933B2 (en) 2014-05-20
US8468020B2 (en) 2013-06-18
US20140180681A1 (en) 2014-06-26
JP2007310176A (ja) 2007-11-29
US20130226584A1 (en) 2013-08-29
US20070271099A1 (en) 2007-11-22
CN101075432A (zh) 2007-11-21

Similar Documents

Publication Publication Date Title
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
EP2140447B1 (en) System and method for hybrid speech synthesis
JP4469883B2 (ja) 音声合成方法及びその装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2007264503A (ja) 音声合成装置及びその方法
JP4639932B2 (ja) 音声合成装置
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP2009133890A (ja) 音声合成装置及びその方法
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP2006337476A (ja) 音声合成方法および装置
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4353174B2 (ja) 音声合成装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2013117638A (ja) 音声合成装置および音声合成プログラム
JP6479637B2 (ja) 文章セット生成装置、文章セット生成方法、プログラム
JPH1097268A (ja) 音声合成装置
JP2006133559A (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
JP2005091551A (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
JP5366919B2 (ja) 音声合成方法、装置、及びプログラム
JP2015068863A (ja) 音声合成装置、音声合成方法及び音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4241762

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140109

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350