JP4619469B2 - Speech synthesis apparatus, speech synthesis method, and recording medium recording speech synthesis program - Google Patents

Speech synthesis apparatus, speech synthesis method, and recording medium recording speech synthesis program Download PDF

Info

Publication number
JP4619469B2
JP4619469B2 JP28232499A JP28232499A JP4619469B2 JP 4619469 B2 JP4619469 B2 JP 4619469B2 JP 28232499 A JP28232499 A JP 28232499A JP 28232499 A JP28232499 A JP 28232499A JP 4619469 B2 JP4619469 B2 JP 4619469B2
Authority
JP
Japan
Prior art keywords
speech
unit
phoneme
frequency characteristic
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP28232499A
Other languages
Japanese (ja)
Other versions
JP2001109485A (en
Inventor
洋一郎 八幡
俊夫 赤羽
智一 森尾
耕市 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP28232499A priority Critical patent/JP4619469B2/en
Publication of JP2001109485A publication Critical patent/JP2001109485A/en
Application granted granted Critical
Publication of JP4619469B2 publication Critical patent/JP4619469B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To prevent the distortion of a spectral shape and the deterioration of tone in synthesized voice at the time of connecting speech element when the voice element pieces are connected based on phoneme sign string and voice is synthesized. SOLUTION: A voice synthesis device connecting voice element pieces based on a phoneme sign string and synthesizing voice has a frequency characteristic change part changing the frequency characteristic of the voice element pieces based on the phoneme of the phoneme sign string.

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成装置及び音声合成方法に関し、特にテキスト音声合成に適した音声合成装置及び音声合成方法に関する。
【0002】
【従来の技術】
任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、音韻処理部および音声合成部の3つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に音韻処理部においてアクセントやイントネーションの処理が行われて、音韻記号列、ピッチ、音韻継続時間長などの情報が出力される。最後に、音声合成部で音韻記号列、ピッチ、音韻継続時間長などの情報から合成音声が生成される。
【0003】
このようなテキスト音声合成に用いる音声合成方法は、任意の音韻記号列を任意の韻律で音声合成することが可能な方法でなければならない。任意の音韻記号列を音声として合成することができる音声合成方式の一つに、ホルマント合成方式がある。ホルマント合成方式は、音声の発声機構、即ち声道の動きを理解し、その知識を規則にして制御する方式である。しかし、この方式は、子音などのように発声メカニズムが複雑な音声は合成規則を表現しきれないため、自然な音声の子音生成が困難であった。
【0004】
そこで、子音などのように発声メカニズムが複雑な音声を自然に生成する方法として、予め音声の素片を多数用意して入力に応じて適した素片を接続する方法が提案されている。この方法の一つとして、例えば特開平11−95796号公報に開示されているように、音声素片を残差信号とLPC係数のようなスペクトルパラメータの形で表現し、残差信号をスペクトルパラメータに従って構成される合成フィルタに通すことにより音声素片を作成し、この音声素片に対して韻律制御を行い、韻律制御後の音声素片を接続して合成音声を生成する方法がある。ここで、音声素片の単位は、一般にCV(子音+母音)やVCV(母音+子音+母音)が用いられているが、CVの場合は母音から子音への接続において、VCVの場合は母音の接続においてスペクトル形状の歪が生じるため音質が劣化していた。
【0005】
そこで、音声素片の接続によるスペクトル形状の歪を低減する方法の一つとして、例えば特開平11−95796号公報に開示されているように、接続点前後を補完し、更に声道フィルタのフィルタ係数として用いられる音声のスペクトルパラメータに従ってフィルタ係数が決定されるホルマント強調フィルタを設け、このフィルタにより合成音声信号のホルマントを強調する方法が提案された。
【0006】
【発明が解決しようとする課題】
しかしながら、前記記載の音声合成方法は、スペクトル情報のみに依存してホルマント強調を施しているため、本来強調するべきでない部分にもホルマント強調を施してしまう場合があり、音質を劣化させてしまうという問題があった。
【0007】
本発明は、上記の問題を解決すべくなされたものであり、音声素片の接続によるスペクトル形状の歪を確実に低減することが可能な音声合成方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明は上記課題を解決するために、
音韻記号列に基づいて音声素片を接続して音声を合成する音声合成装置において、
前記音韻記号列の音韻に基づいて前記音声素片の周波数特性を変更する周波数特性変更部を備え、
前記音声素片には、端部の音韻が有声音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片の音韻波形が有声音であるか無声音であるかを判別する有声音・無声音判別部と、
前記有声音・無声音判別部によって有声音であると判別された前記音声素片中の音韻波形に対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う有声音用フィルタ処理部と、
前記有声音・無声音判別部によって無声音であると判別された前記音声素片中の音韻波形に対して、前記第2フィルタを用いて、実質的に周波数特性変更を行わない無声音用フィルタ処理部と
を含むと共に、
前記音声素片の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記有声音用フィルタ処理部および前記無声音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置を提供する。
【0009】
本発明によれば、入力された音韻記号列の音韻波形が有声音であるか又は無声音であるかを判定し、その結果に基づいて音声素片の周波数特性変更を施すことにより、音声素片接続時のスペクトル形状の歪を抑えることができる。
【0010】
また本発明は、
音韻記号列に基づいて音声素片を接続して音声を合成する音声合成装置において、
前記音韻記号列の音韻に基づいて前記音声素片の周波数特性を変更する周波数特性変更部を備え、
前記音声素片には、端部の音韻が母音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片の音韻波形が母音であるか子音であるかを判別する母音・子音判別部と、
前記母音・子音判別部によって母音であると判別された前記音声素片中の音韻波形に対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う母音用フィルタ処理部と、
前記母音・子音判別部によって子音であると判別された前記音声素片中の音韻波形に対して、前記第2フィルタを用いて実質的に周波数特性変更を行わない子音用フィルタ処理部と
を含むと共に、
前記音声素片の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記母音用フィルタ処理部および前記子音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置を提供する。
【0011】
本発明によれば、入力された音韻記号列の音韻波形が母音であるか又は子音であるかを判定し、その結果に基づいて音声素片の周波数特性変更を施すことにより、音声素片接続時のスペクトル形状の歪を抑えることができる。
【0012】
また本発明は、
前記周波数特性変更部における前記有声音・無声音判別部あるいは母音・子音判別部は、音声素片に付加された音韻記号情報に基づいて前記判別を行うことを特徴とする音声合成装置を提供する。
【0013】
本発明によれば、入力された音韻記号列に対応する音韻記号情報を音声素片に付加し、前記音韻記号情報に基づいて前記音声素片の周波数特性を変更することにより、音声素片選択時のみ入力音韻記号列を参照すればよく処理を低減することができる。
【0014】
また本発明は、
音声素片のスペクトルパラメータおよび残差信号を格納する音声素片格納部と、
入力された音韻記号列に従って、前記音声素片格納部から入力音韻のスペクトルパラメータおよび残差信号を選択する選択部と、
前記選択された残差信号の音韻に基づいて前記残差信号の周波数特性を変更する周波数特性変更部と、
前記選択されたスペクトルパラメータと前記周波数特性が変更された残差信号とに基づいて音声素片を生成すると共に、生成された各音声素片を接続して合成音声を生成する接続部と
を備え、
前記音声素片には、端部の音韻が有声音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片中の音韻残差信号が有声音であるか無声音であるかを判別する有声音・無声音判別部と、
前記有声音・無声音判別部によって有声音であると判別された前音声素片中の音韻残差信号に対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う有声音用フィルタ処理部と、
前記有声音・無声音判別部によって無声音であると判別された前音声素片中の音韻残差信号に対して、前記第2フィルタを用いて、実質的に周波数特性変更を行わない無声音用フィルタ処理部と
を含むと共に、
前記残差信号の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記有声音用フィルタ処理部および前記無声音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置を提供する。
【0015】
本発明によれば、音声素片をスペクトルパラメータと残差信号とから生成することにより、音声素片を表現するためのデータ量を削減することができる。
【0016】
また本発明は、
音声素片のスペクトルパラメータおよび残差信号を格納する音声素片格納部と、
入力された音韻記号列に従って、前記音声素片格納部から入力音韻のスペクトルパラメータおよび残差信号を選択する選択部と、
前記選択された残差信号の音韻に基づいて前記残差信号の周波数特性を変更する周波数特性変更部と、
前記選択されたスペクトルパラメータと前記周波数特性が変更された残差信号とに基づいて音声素片を生成すると共に、生成された各音声素片を接続して合成音声を生成する接続部と
を備え、
前記音声素片には、端部の音韻が母音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片中の音韻残差信号が母音であるか子音であるかを判別する母音・子音判別部と、
前記母音・子音判別部によって母音であると判別された前音声素片中の音韻残差信号に対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う母音用フィルタ処理部と、
前記母音・子音判別部によって子音であると判別された前音声素片中の音韻残差信号に対して、前記第2フィルタを用いて実質的に周波数特性変更を行わない子音用フィルタ処理部と
を含むと共に、
前記残差信号の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記母音用フィルタ処理部および前記子音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置を提供する。
【0017】
本発明によれば、音声素片をスペクトルパラメータと残差信号とから生成することにより、音声素片を表現するためのデータ量を削減することができる。
【0018】
また本発明は、
音声素片のスペクトルパラメータおよび残差信号を格納する音声素片格納部と、
入力された音韻記号列に従って、前記音声素片格納部から入力音韻のスペクトルパラメータおよび残差信号を選択する選択部と、
前記選択されたスペクトルパラメータの音韻に基づいて前記スペクトルパラメータの周波数特性を変更する周波数特性変更部と、
前記周波数特性が変更されたスペクトルパラメータと前記選択された残差信号とに基づいて音声素片を生成すると共に、生成された各音声素片を接続して合成音声を生成する接続部と
を備え、
前記音声素片には、端部の音韻が有声音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片中の音韻スペクトルパラメータが有声音であるか無声音であるかを判別する有声音・無声音判別部と、
前記有声音・無声音判別部によって有声音であると判別された前音声素片中の音韻スペクトルパラメータに対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う有声音用フィルタ処理部と、
前記有声音・無声音判別部によって無声音であると判別された前音声素片中の音韻スペクトルパラメータに対して、前記第2フィルタを用いて、実質的に周波数特性変更を行わない無声音用フィルタ処理部と
を含むと共に、
前記スペクトルパラメータの周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記有声音用フィルタ処理部および前記無声音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置を提供する。
【0019】
本発明によれば、音声素片をスペクトルパラメータと残差信号とから生成することにより、音声素片を表現するためのデータ量を削減することができる。
【0020】
また本発明は、
音声素片のスペクトルパラメータおよび残差信号を格納する音声素片格納部と、
入力された音韻記号列に従って、前記音声素片格納部から入力音韻のスペクトルパラメータおよび残差信号を選択する選択部と、
前記選択されたスペクトルパラメータの音韻に基づいて前記スペクトルパラメータの周波数特性を変更する周波数特性変更部と、
前記周波数特性が変更されたスペクトルパラメータと前記選択された残差信号とに基づいて音声素片を生成すると共に、生成された各音声素片を接続して合成音声を生成する接続部と
を備え、
前記音声素片には、端部の音韻が母音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片中の音韻スペクトルパラメータが母音であるか子音であるかを判別する母音・子音判別部と、
前記母音・子音判別部によって母音であると判別された前音声素片中の音韻スペクトルパラメータに対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う母音用フィルタ処理部と、
前記母音・子音判別部によって子音であると判別された前音声素片中の音韻スペクトルパラメータに対して、前記第2フィルタを用いて実質的に周波数特性変更を行わない子音用フィルタ処理部と
を含むと共に、
前記スペクトルパラメータの周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記母音用フィルタ処理部および前記子音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置を提供する。
【0021】
本発明によれば、音声素片をスペクトルパラメータと残差信号とから生成することにより、音声素片を表現するためのデータ量を削減することができる。
【0022】
また本発明は、
音韻記号列に基づいて音声素片を接続して音声を合成する音声合成方法において、
前記音韻記号列の音韻に基づいて前記音声素片の周波数特性を変更する周波数特性変更ステップを備え、
前記音声素片には、端部の音韻が有声音である音声素片が含まれており、
前記周波数特性変更ステップは、
前記音声素片の音韻波形が有声音であるか無声音であるかを判別する有声音・無声音判別ステップと、
有声音であると判別された前記音声素片中の音韻波形に対して、高域周波数成分を減衰させる周波数特性を有する第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う有声音用フィルタ処理ステップと、
無声音であると判別された前記音声素片中の音韻波形に対して、全ての周波数成分を変更させない周波数特性を有する第2フィルタを用いて、実質的に周波数特性変更を行わない無声音用フィルタ処理ステップと
を含むと共に、
前記音声素片の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更し、
前記有声音用フィルタ処理ステップおよび前記無声音用フィルタ処理ステップで処理された前記音声素片を、前記音声合成用の音声素片として用い
ことを特徴とする音声合成方法を提供する。
【0023】
また本発明は、
音韻記号列に基づいて音声素片を接続して音声を合成する音声合成方法において、
前記音韻記号列の音韻に基づいて前記音声素片の周波数特性を変更する周波数特性変更ステップを備え、
前記音声素片には、端部の音韻が母音である音声素片が含まれており、
前記周波数特性変更ステップは、
前記音声素片の音韻波形が母音であるか子音であるかを判別する母音・子音判別ステップと、
母音であると判別された前記音声素片中の音韻波形に対して、高域周波数成分を減衰させる周波数特性を有する第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う母音用フィルタ処理ステップと、
子音であると判別された前記音声素片中の音韻波形に対して、全ての周波数成分を変更させない周波数特性を有する第2フィルタを用いて実質的に周波数特性変更を行わない子音用フィルタ処理ステップと
を含むと共に、
前記音声素片の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更し、
前記母音用フィルタ処理ステップおよび前記子音用フィルタ処理ステップで処理された前記音声素片を、前記音声合成用の音声素片として用い
ことを特徴とする音声合成方法を提供する。
【0024】
また本発明は、
コンピュータに、
請求項8あるいは請求項9に記載の各ステップを実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
【0025】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【0026】
図1は、本発明による音声合成装置の一実施形態を示すブロック図である。図1において、1は予め用意した音声素片を格納する音声素片格納部であり、半導体メモリ、磁気メモリなどで構成する。音声素片格納部1に格納する音声素片の作成方法については後述する。2は入力された音韻記号列に従って音声素片格納部1に格納されている音声素片から最適な音声素片を選択する選択部であり、ゲート、スイッチ素子などで構成される。4は周波数特性変更部であり、選択部2で選択された音声素片に対し入力された音韻記号列に従って周波数特性変更を施すことを特徴とし、専用のLSI素子などによって構成される。3は周波数特性変更部4で周波数特性変更を施された音声素片を接続して合成音声を生成する接続部であり、専用のLSI素子などによって構成される。
【0027】
なお、本発明による各手段及び格納部を構成する素子、メモリなどは、一つあるいは複数が複合されたものであっても本発明に影響はなく、また、本発明による各手段及び格納部はCPU又はその周辺機器で代用してもよい。
【0028】
さらに、本発明の音声合成プログラムは、磁気ディスク又はCD−ROM等コンピュータ読取り可能な記録媒体によって提供され、該プログラムはコンピュータによって実行される。また、該プログラムは、他のコンピュータにより通信回線を経由してコンピュータに供給されても良い。
【0029】
図2は、本発明による音声合成装置の別実施形態を示すブロック図である。図2において、音声素片格納部1、選択部2、周波数特性変更部4は図1と同様であり、説明は省略する。接続部3は、入力された韻律情報に従って周波数特性変更部4で周波数特性変更を施された音声素片の韻律を制御し、韻律を制御された音声素片を接続して合成音声を生成するものであり、専用のLSI素子又はCPUなどで構成される。
【0030】
ここで、図1又は図2において入力として扱う音韻記号列及び韻律情報は、例えば本発明の音声合成をテキスト音声合成に適用した場合、テキスト入力に対して言語処理部(図示せず)において形態素解析や構文解析などを行い、音韻処理部(図示せず)においてアクセントやイントネーションの処理を行った結果得られるものである。なお、本発明において入力として扱う音韻記号列及び韻律情報は、その生成方法は本発明に影響はなく、音韻記号列及び韻律情報の生成方法を限定するものではない。
【0031】
図3は、図1記載の音声合成装置の実施形態における処理手順を示すフローチャートである。以下、図1及び図3を参照して処理の流れを説明する。音声素片表記(CV、VCVなど)に対応する形式で音韻記号列が選択部2に入力され(ステップS11)、対応する音声素片が音韻記号列に従って音声素片格納部1に格納されている音声素片から選択され(ステップS12)、周波数特性変更部4に出力される(ステップ13)。さらにステップS13では、選択部2で選択された音声素片に対し入力された音韻記号列に従って周波数特性変更を施し、接続部3に出力する。次に、引き続き音韻記号列の入力が有るか無いかを判定し(ステップS14)、入力が無い場合は周波数特性変更を施された音声素片を接続して合成音声を生成し出力し(ステップS15)、入力が有る場合はステップS11に戻る。また図3において、ステップS15をステップS13とステップS14の間に配置し、全音韻記号列の入力終了を待たずに適宜音声素片を接続して合成音声を生成出力する処理手順としてもよい。
【0032】
図4は、図2記載の音声合成装置の実施形態における処理手順を示すフローチャートである。図4において、図3記載のフローチャートと異なる点は、周波数特性変更を施された音声素片に対し入力された韻律情報に従って韻律を制御するステップS24が追加されているところである。図4において、ステップS13とステップS24の処理順序は逆であってもよい。また、図3と同様にステップS15をステップS24とステップS14の間に配置し、全音韻記号列の入力終了を待たずに適宜音声素片を接続して合成音声を生成出力する処理手順としてもよい。
【0033】
図5は、図2記載の音声合成装置において音声素片格納部1に音声素片を波形として格納する場合の一実施形態の詳細を示すブロック図である。図5において、11は素片波形格納部であり、予め用意した音声素片波形(以下「素片波形」という)を格納する。21は素片波形選択部であり、入力された音韻記号列に従って素片波形格納部11に格納されている素片波形から最適な素片波形を選択する。41はフィルタ部であり、素片波形選択部21で選択された素片波形に対し入力された音韻記号列に従って周波数特性変更を施す。31は韻律制御部であり、フィルタ部41で周波数特性変更を施された音声素片波形に対し入力された韻律情報に従って韻律を制御する。32は素片波形接続部であり、韻律制御部31で韻律を制御された素片波形を接続して合成音声を生成する。図5において、フィルタ部41と韻律制御部31の構成順序は逆であってもよい。また、韻律制御部31を除いた構成も可能であり、この場合は図1記載の音声合成装置において音声素片格納部1に音声素片を波形として格納する場合の実施の形態に相当する。
【0034】
図6は、図5記載の音声合成装置の実施形態における処理手順を示すフローチャートである。図6において、図4記載のフローチャートと異なる点は、音声素片を選択するステップS12に代えて素片波形を選択するステップS102を採用する点と、音声素片の周波数特性を変更するステップS13に代えて素片波形に対するフィルタ処理を行うステップS103を採用する点と、音声素片の韻律を制御するステップS24に代えて素片波形に対する韻律を制御するステップS104を採用する点と、音声素片を接続して合成音声を出力するステップS15に代えて素片波形を接続して合成音声を出力するステップS106を採用する点である。
【0035】
図7は、図6記載のステップS103における詳細な処理手順の一実施形態を示すフローチャートである。図7において、素片波形が入力されると(ステップS1101)、素片波形から素片音韻中の先頭音韻に対応する波形区間を抽出し(ステップS1102)、次に現在の音韻波形が有声音であるか又は無声音であるかを判定する(ステップS1103)。現在の音韻波形が有声音の場合は有声音用フィルタ処理を行い(ステップS1104)、無声音の場合は無声音用フィルタ処理を行う(ステップS1105)。有声音用フィルタ及び無声音用フィルタの具体例については後述するが、フィルタの作成方法については本発明に影響はなく、その作成方法を限定するものではない。フィルタ処理が行われた音韻波形が出力されると(ステップS1106)、次に現在の音韻が素片音韻中のどの位置に存在するかを判定し(ステップS1107)、現在の音韻が素片音韻中の最終位置である場合は処理を終了し、最終位置以外の場合は次音韻に対応する波形区間を抽出後(ステップS1108)、ステップS1103に戻る。
【0036】
図8は、図7記載のステップS1105における無声音用フィルタの周波数特性の一実施形態を示す図である。図8において、横軸は周波数[kHz]、縦軸はゲイン[dB]を表し、また、各軸に付与した目盛りはこれに限定するものではなく、波形のサンプリング周波数やパワーに応じて変更してもよい(以下に示す周波数特性の図についても同様とする)。また、無声音用周波数特性としてフラットな特性を例として示したが、聴感上の好みにより高域周波数成分を減衰するような周波数特性を与えてもよい。さらに、図8に示すように無声音用周波数特性としてフラットな特性の場合は、図7におけるステップS1105を省略することができる。
【0037】
図9は、図7記載のステップS1104における有声音用フィルタの周波数特性の一実施形態を示す図である。図から明らかなように高域周波数成分を減衰させる特性になっている。また、高域周波数成分が減衰している特性であれば、周波数特性は図示した減衰曲線に限定するものではない。
【0038】
図8又は図9において、無声音に対してフラットな周波数特性、有声音に対して高域周波数成分が減衰する周波数特性を示しているが、これは無声音には高域周波数成分にも音韻性を示す重要な情報が含まれていることが多く、また、有声音には母音における第1・第2ホルマントなど中低域に音韻性を示す重要な情報が含まれていることが多いことに基づいている。これらにより、無声音については音韻性を劣化させることなく、また、有声音については高域周波数成分を減衰することによりスペクトル形状の歪や変形に基づく音質劣化に対する知覚を低減している。
【0039】
図10は、図6記載のステップS103における詳細な処理手順の別実施形態を示すフローチャートである。図10において、図7記載のフローチャートと異なる点は、現在の音韻波形が有声音であるか又は無声音であるかを判定するステップS1103に代えて現在の音韻波形が母音であるか又は子音であるかを判定するステップS1203を採用する点、有声音用フィルタ処理を行うステップS1104に代えて母音用フィルタ処理を行うステップS1204を採用する点、無声音用フィルタ処理を行うステップS1105に代えて子音用フィルタ処理を行うステップS1205を採用する点である。また、図10のステップS1203において現在の音韻波形が撥音の場合は、母音として扱うことにしているが、本発明はこれに限定されるものではない。
【0040】
図11は、図10記載のステップS1204における母音用フィルタ処理の詳細な処理手順の一実施形態を示すフローチャートである。図11において、母音波形が入力されると(ステップS1301)、先行音韻と母音との境界点から母音定常点までに対応する波形区間を抽出し(ステップS1302)、次に波形が抽出されたかどうかを判定する(ステップS1303)。波形が抽出された場合は先行音韻が子音であるか又は母音であるかを判定し(ステップS1304)、波形が抽出されなかった場合はステップ1307(処理内容は後述する)に進む。ステップS1304において先行音韻が子音と判定された場合は子音−母音用フィルタ処理を行い波形を出力後(ステップS1305)、ステップS1307に進み、先行音韻が母音と判定された場合は母音用フィルタ処理を行い波形を出力後(ステップS1306)、ステップS1307に進む。また、ステップS1304において先行音韻が無音であった場合は本例では子音であると判定するが、母音であると判定しても本発明にとって影響はない。ステップS1306における母音用フィルタは高域周波数成分を減衰する特性のもので図9と同様であり、また、ステップS1305における子音−母音用フィルタの特性については後述する。ステップS1307は母音定常点から母音と後続音韻との境界点までに対応する波形区間を抽出し(ステップS1307)、次に波形が抽出されたかどうかを判定する(ステップS1308)。波形が抽出された場合は後続音韻が子音であるか又は母音であるかを判定し(ステップS1309)、波形が抽出されなかった場合は処理を終了する。ステップS1309において後続音韻が子音と判定された場合は母音−子音用フィルタ処理を行い波形を出力後(ステップS1310)処理を終了し、先行音韻が母音と判定された場合は母音用フィルタ処理を行い波形を出力後(ステップS1311)処理を終了する。ステップS1311における母音用フィルタは高域周波数成分を減衰する特性のもので図9と同様であり、また、ステップS1310における母音−子音用フィルタの特性については後述する。
【0041】
図12は、図11記載のステップS1305における子音−母音用フィルタの周波数特性の一実施形態を示す図である。F11は先行子音と母音との境界点における子音−母音用フィルタの周波数特性を示しおり、F12、F13、…は先行子音から母音定常点に向かって徐々に高域周波数成分の減衰率が大きくなる特性であることを示しており、F1nは母音定常点における周波数特性を示している。また、周波数特性は高域周波数成分が減衰している特性であれば、図示した減衰曲線に限定するものではない。
【0042】
図13は、図11記載のステップS1310における母音−子音用フィルタの周波数特性の一実施形態を示す図である。F21は母音定常点における母音−子音用フィルタの周波数特性を示しており、F22、F23、…は母音定常点から後続子音に向かって徐々に高域周波数成分の減衰率が小さくなる特性であることを示しており、F2nは母音と後続子音との境界点における周波数特性を示している。また、高域周波数成分が減衰している特性であれば、周波数特性は図示した減衰曲線に限定するものではないことは、図12の場合と同じである。
【0043】
図8又は図9又は図12又は図13において、子音に対してフラットな周波数特性、母音に対して高周波成分が減衰する周波数特性を与えることにより、前記の無声音・有声音の場合と同様にスペクトル形状の歪や変形に基づく音質劣化に対する知覚を低減している。さらに、先行子音から定常母音に向かう間、あるいは定常母音から後続子音に向かう間の周波数特性について、高域周波数成分の減衰率を徐々に大きく、あるいは小さくしていくことにより、さらに大きな効果を奏することを可能としている。
【0044】
図14は、図10記載のステップS1204における母音用フィルタ処理の詳細な処理手順の別の実施形態を示すフローチャートである。図14において、図11記載のフローチャートと異なる点は、ステップS1304、S1306、S1309、S1311が存在しない点である。他の処理は、図11記載の処理と同様である。本実施形態によれば、母音前後の音韻が子音、母音、無音の何れであるかに関わらず、母音に対して一様な周波数特性処理を施すことになる。すなわち、音韻境界点から母音定常点、及び母音定常点から音韻境界点の区間に対して、図12及び図13記載の周波数特性F11、F12、F13、…、F1n、F21、F22、F23、…、F2nのような順番で異なる周波数特性を与えるという処理をすべての母音に対して一様に施す。これにより、処理のステップ数を減らすことができる。
【0045】
図15は、図5記載の素片波形格納部11に格納する音声素片作成装置の一実施形態を示すブロック図である。図15において、5は音声素片作成部であり、音声素片格納部1に格納する音声素片を作成する。51は素片波形候補格納部であり、多量の音声波形を素片単位(CV、VCVなど)に切り出したものを格納する。また、これら音声素片波形は素片波形候補格納部51において素片単位に切り出す代りに単語などの発声波形に対して素片単位のインデックスを付与することにより後の工程において素片単位に切り出すことも可能である。52は平均スペクトルパラメータ格納部であり、接続時のスペクトル歪の少ない音声素片波形を選択するために各音韻毎の平均的なスペクトルパラメータを格納しておく。スペクトルパラメータは、例えばLPCケプストラム又はLSPなどを用いればよい。53はフィルタ部であり、素片波形候補格納部51に格納されている音声素片波形候補に対し付与されている音韻記号に従って周波数特性変更を施す。54はスペクトルパラメータ調整部であり、平均スペクトルパラメータ格納部52に格納されている平均スペクトルパラメータに対し音韻記号に従って周波数特性変更を施す。55はスペクトル歪算出部であり、フィルタ部53及びスペクトルパラメータ調整部54で周波数特性変更を施された音声素片波形候補と平均スペクトルパラメータの間のスペクトル歪を算出する。56は素片波形選択部であり、スペクトル歪算出部55で算出されたスペクトル歪が最も小さい音声素片波形候補を音声素片波形として選択し、素片波形格納部11に格納する。フィルタ部53で施す処理及びスペクトルパラメータ調整部54は本発明による音声合成方法適用時の周波数特性変更処理と同様の処理を施すことにより、本発明による音声合成装置との相性が良くなる。図15記載の音声素片作成装置は音声素片作成方法の一例として示したが、音声合成に利用可能な音声素片の作成方法であれば、その方法を限定するものではない。ただし、本発明の効果をより向上させるためには、図15記載の音声素片作成方法で示したように、本発明による音韻に応じた周波数特性変更を音声合成時に施すことを考慮して素片を選択することが好ましい。
【0046】
図16は、図15記載の音声素片作成装置の実施形態における処理手順を示すフローチャートである。実際に音声素片作成の際には、以下に示すフローチャートの処理を各素片音韻記号列に対して繰り返し行う。まず、素片波形候補格納部51に格納されている音声素片波形候補から現在の素片音韻記号列に対応する音声素片波形候補を選択してフィルタ部53に出力後(ステップS31)、予め付与されている音韻記号に従って周波数特性を変更するフィルタ処理を施し、スペクトル歪算出部55に出力する(ステップS32)。一方、平均スペクトルパラメータ格納部52に格納されている平均スペクトルパラメータから現在の素片音韻記号列に対応する平均スペクトルパラメータを選択してスペクトルパラメータ調整部54に出力後、素片音韻記号列に従って周波数特性を変更するためにスペクトルパラメータを調整し、スペクトル歪算出部55に出力する(ステップS33)。次に、スペクトル歪算出部55において、ステップS32で周波数特性変更を施された音声素片波形候補から接続部のスペクトルパラメータを抽出し、ステップS33で周波数特性変更を施された平均スペクトルパラメータとの間のスペクトル歪を算出して保存する(ステップS34)。次の素片波形候補の入力が有るかどうかを判定し(ステップS35)、有る場合は次の素片波形候補(現在の素片音韻記号列に対応するまだ選択されていない音声素片波形候補)を選択してステップS32に戻り(ステップS36)、無い場合は、ステップS34で保存したスペクトル歪の中で最小の値を示す素片波形候補を選択し素片波形格納部11に格納する(ステップS37)。ステップS37において選択及び格納する場合に、一つの素片音韻記号列に対応する音声素片波形は複数であってもよく、その場合、スペクトル歪が小さいものから必要な数だけ順に選択し格納する。また、スペクトル歪に閾値を設け、スペクトル歪が閾値以下の音声素片波形候補を音声素片波形として選択し格納してもよい。また、図16において、ステップS32とステップS33の処理順序は逆であってもよい。さらに、ステップS33においてパラメータを選択してから周波数特性を変更しているが、平均スペクトルパラメータ格納部52に格納されている平均スペクトルパラメータに対し予め周波数特性変更を施しておき、ステップS33ではパラメータ選択のみを行う処理手順としてもよい。
【0047】
図17は、図2記載の音声合成装置において音声素片格納部1に音声素片をスペクトルパラメータと残差信号として格納する場合の一実施形態の詳細を示すブロック図である。図17において、12はスペクトルパラメータ格納部であり、予め用意した音声素片のスペクトルパラメータを格納する。13は残差信号格納部であり、予め用意した音声素片の残差信号を格納する。22はスペクトルパラメータ選択部であり、入力された音韻記号列に従ってスペクトルパラメータ格納部12に格納されているスペクトルパラメータから最適なスペクトルパラメータを選択する。23は残差信号選択部であり、入力された音韻記号列に従って残差信号格納部13に格納されている残差信号から最適な残差信号を選択する。24は素片波形生成部であり、スペクトルパラメータ選択部22で選択されたスペクトルパラメータと残差信号選択部23で選択された残差信号を用いて音声素片波形を生成する。41はフィルタ部であり、素片波形生成部24で生成された音声素片波形に対し入力された音韻記号列に従って前述の周波数特性変更を施す。韻律制御部31、素片波形接続部32は図5と同様であり、説明を省略する。図17において、フィルタ部41と韻律制御部31の構成順序は逆であってもよい。また、韻律制御部31を除いた構成も可能である。
【0048】
図18は、図17記載の音声合成装置の実施形態における処理手順を示すフローチャートである。図18において、図6記載のフローチャートと異なる点は、素片波形を選択するステップS102に代えてスペクトルパラメータ及び残差信号を選択するステップS202及び素片波形を生成するステップS203を採用する点である。ステップS202は、ステップS11で入力された音韻記号列に従って対応するスペクトルパラメータ及び残差信号を、スペクトルパラメータ格納部12に格納されているスペクトルパラメータ及び残差信号格納部13に格納されている残差信号から選択する。ステップS203は、ステップS202で選択されたスペクトルパラメータと残差信号を用いて音声素片波形を生成する。他の処理は図6記載の処理と同様であり説明を省略する。
【0049】
図19は、図2記載の音声合成装置において音声素片格納部1に音声素片をスペクトルパラメータと残差信号として格納する場合の別実施形態の詳細を示すブロック図である。図19において、スペクトルパラメータ格納部12、残差信号格納部13、スペクトルパラメータ選択部22、残差信号選択部23は図17と同様であり、説明を省略する。41はフィルタ部であり、残差信号選択部23で選択された残差信号に対し入力された音韻記号列に従って前述の周波数特性変更を施す。33は素片波形生成部であり、スペクトルパラメータ選択部22で選択されたスペクトルパラメータと、フィルタ部41で周波数特性変更を施された残差信号を用いて音声素片波形を生成する。31は韻律制御部であり、素片波形生成部33で生成された音声素片波形に対し入力された韻律情報に従って韻律を制御する。素片波形接続部32は図5と同様であり、説明を省略する。図19において、韻律制御部31を残差信号選択部23とフィルタ部41の間、又はフィルタ部41と素片波形生成部33の間に配置する構成としてもよい。また、韻律制御部31を除いた構成も可能である。
【0050】
図20は、図19記載の音声合成装置の実施形態における処理手順を示すフローチャートである。図20において、図18記載のフローチャートと異なる点は、素片波形を生成するステップS203及び素片波形生成後の素片波形に対してフィルタ処理を行うステップS103に代えて、残差信号に対するフィルタ処理を行うステップS303及びフィルタ処理後に素片波形を生成するステップS304を採用する点である。ステップS303は、ステップS202で選択された残差信号に対しステップS11で入力された音韻記号列に従って周波数特性を変更するフィルタ処理を施し、それらから素片波形を生成する(ステップS304)。他の処理は図18記載の処理と同様であり説明を省略する。
【0051】
図21は、図20記載のステップS303における詳細な処理手順の一実施形態を示すフローチャートである。図21において、図7記載のフローチャートと異なる点は、図7で音声波形を対象としている処理に代えて図21では残差信号を対象としている点である(ステップS2101乃至S2108)。残差信号は波形であるため音声波形と同様に扱うことができる。従って他の処理は、図7記載の処理と同様に扱うことができるので説明を省略する。
【0052】
図22は、図20記載のステップS303における詳細な処理手順の別実施形態を示すフローチャートである。図22において、図10記載のフローチャートと異なる点は、図10で音声波形を対象としている処理に代えて図22では残差信号を対象としている点である(ステップS2201乃至S2208)。その他の処理は、図10記載の処理と同様であり説明を省略する。
【0053】
図23は、図22記載のフィルタ処理のステップS2204における詳細な処理手順の一実施形態を示すフローチャートである。図23において、図11記載のフローチャートと異なる点は、図11で音声波形を対象としている処理に代えて図23では残差信号を対象としている点である(ステップS2301乃至S2311)。その他の処理は、図11記載の処理と同様であり説明を省略する。
【0054】
図24は、図22記載のフィルタ処理のステップS2204における詳細な処理手順の別実施形態を示すフローチャートである。図24において、図14記載のフローチャートと異なる点は、図14で音声波形を対象としている処理に代えて図24では残差信号を対象としている点である(ステップS2401乃至S2407)。その他の処理は、図14記載の処理と同様であり説明を省略する。
【0055】
図25は、図2記載の音声合成装置において音声素片格納部1に音声素片をスペクトルパラメータと残差信号として格納する場合の別実施形態の詳細を示すブロック図である。図25において、スペクトルパラメータ格納部12、残差信号格納部13、スペクトルパラメータ選択部22、残差信号選択部23は図17と同様であり、説明を省略する。42はスペクトルパラメータ調整部であり、スペクトルパラメータ選択部22で選択されたスペクトルパラメータに対し入力された音韻記号列に従って周波数特性変更を施す。33は素片波形生成部であり、スペクトルパラメータ調整部42で周波数特性変更を施されたスペクトルパラメータと、残差信号選択部23で選択された残差信号を用いて音声素片波形を生成する。韻律制御部31は図19と同様であり、素片波形接続部32は図5と同様であり、説明を省略する。図25において、韻律制御部31を残差信号選択部23と素片波形生成部33の間に配置する構成としてもよい。また、韻律制御部31を除いた構成も可能である。
【0056】
図26は、図25記載の音声合成装置の実施形態における処理手順を示すフローチャートである。図26において、図20記載のフローチャートと異なる点は、素片波形生成前に残差信号に対するフィルタ処理を行うステップS303に代えてスペクトルパラメータの調整を行うステップS403を採用する点である。ステップS403は、ステップS202で選択されたスペクトルパラメータに対しステップS11で入力された音韻記号列に従って周波数特性を変更するためのスペクトルパラメータ調整処理を行う。他の処理は、図20記載の処理と同様であり説明を省略する。
【0057】
図27は、図26記載のステップS403における詳細な処理手順の一実施形態を示すフローチャートである。図27において、図7記載のフローチャートと異なる点は、図7で音声波形を対象としている処理に代えて図27ではスペクトルパラメータを対象としている点である(ステップS3101乃至S3108)。他の処理は、図7記載の処理と同様である。また、スペクトルパラメータを対象としている処理についても、高域周波数成分の減衰など、変更する周波数特性の与え方は同様であり、周波数特性変更の具体的な方法として、波形の場合は、信号処理フィルタにより実現したが、スペクトルパラメータの場合は、パラメータを周波数軸上のスペクトル情報として表現し、所望の周波数特性に基づくゲインを与えることにより実現できる(以下、図28乃至図30において同じ)。
【0058】
図28は、図26記載のステップS403における詳細な処理手順の別実施形態を示すフローチャートである。図28において、図10記載のフローチャートと異なる点は、図10で音声波形を対象としている処理に代えて図28ではスペクトルパラメータを対象としている点である(ステップS3201乃至S3208)。他の処理は、図10記載の処理と同様である。
【0059】
図29は、図28記載のパラメータ調整処理のステップS3204における詳細な処理手順の一実施形態を示すフローチャートである。図29において、図11記載のフローチャートと異なる点は、図11で音声波形を対象としている処理に代えて図29ではスペクトルパラメータを対象としている点である(ステップS3301乃至S3311)。他の処理は、図11記載の処理と同様である。
【0060】
図30は、図28記載のパラメータ調整処理のステップS3204における詳細な処理手順の別実施形態を示すフローチャートである。図30において、図14記載のフローチャートと異なる点は、図14で音声波形を対象としている処理に代えて図30ではスペクトルパラメータを対象としている点である(ステップS3401乃至S3407)。他の処理は、図14記載の処理と同様である。
【0061】
図31は、図2記載の音声合成装置において音声素片格納部1に音声素片をスペクトルパラメータと残差信号として格納する場合の別実施形態の詳細を示すブロック図である。図31において、スペクトルパラメータ格納部12、残差信号格納部13、スペクトルパラメータ選択部22、残差信号選択部23は図17と同様であり、フィルタ部41は図19と同様であり、説明を省略する。31は韻律制御部であり、フィルタ部41で周波数特性変更を施された残差信号及びスペクトルパラメータ選択部22で選択されたスペクトルパラメータに対し入力された韻律情報に従って韻律を制御する。34は波形生成部であり、韻律制御部31で韻律を制御されたスペクトルパラメータと残差信号を用いて合成音声波形を生成する。図31において、韻律制御部31を残差信号選択部23とフィルタ部41の間に配置する構成としてもよい。また、韻律制御部31を除いた構成も可能である。
【0062】
図32は、図31記載の音声合成装置の実施形態における処理手順を示すフローチャートである。図32において、図20記載のフローチャートと異なる点は、素片波形の生成及び素片波形に対する韻律制御を行うステップS304及びS104に代えてスペクトルパラメータ及び残差信号に対する韻律制御を行うステップS504を採用する点、素片波形を接続し出力するステップS106に代えて、波形を生成し出力するステップS506を採用する点である。ステップS504は、ステップS202で選択されたスペクトルパラメータと、ステップS303で周波数特性変更を施された残差信号に対し、入力された韻律情報に従って韻律を制御する。ステップS506は、ステップS504で韻律を制御されたスペクトルパラメータと残差信号を用いて合成音声波形を生成し出力する。他の処理は、図20記載の処理と同様であり説明を省略する。
【0063】
図33は、図2記載の音声合成装置において音声素片格納部1に音声素片をスペクトルパラメータと残差信号として格納する場合の別実施形態の詳細を示すブロック図である。図33において、スペクトルパラメータ格納部12、残差信号格納部13、スペクトルパラメータ選択部22、残差信号選択部23は図17と同様であり、スペクトルパラメータ調整部42は図25と同様であり、説明を省略する。31は韻律制御部であり、残差信号選択部23で選択された残差信号及びスペクトルパラメータ調整部42で周波数特性変更を施されたスペクトルパラメータに対し入力された韻律情報に従って韻律を制御する。波形生成部34は図31と同様であり、説明を省略する。図33において、韻律制御部31をスペクトルパラメータ選択部22とスペクトルパラメータ調整部42の間に配置する構成としてもよい。また、韻律制御部31を除いた構成も可能である。
【0064】
図34は、図33記載の音声合成装置の実施形態における処理手順を示すフローチャートである。図34において、図32記載のフローチャートと異なる点は、残差信号に対するフィルタ処理を行うステップS303に代えて、スペクトルパラメータを調整するステップS603を採用する点である。ステップS603は、ステップS202で選択されたスペクトルパラメータに対しステップS11で入力された音韻記号列に従って周波数特性を変更するためのスペクトルパラメータ調整処理をする。他の処理は、図32記載の処理と同様であり説明を省略する。
【0065】
以上、本発明の実施の形態を説明してきた。本発明において、素片波形格納部11に格納されている素片波形、又は、スペクトルパラメータ格納部12に格納されているスペクトルパラメータ及び残差信号格納部13に格納されている残差信号に対して、入力された音韻記号列に対応する「有声音/無声音」又は「母音/子音」といった区別を示す音韻記号情報を予め付与しておくことにより、フィルタ部41において音韻記号列に従って周波数特性変更を施すのではなく、前記音韻記号情報に従って周波数特性変更を施すことが可能なため、処理を軽減することができる。
【0066】
また本発明において、音声素片に予め音韻記号情報だけではなく、その弁別素性情報も付与しておき、音声素片に付与された弁別素性情報に従って周波数特性を変更することも可能である。弁別素性に関しては、「新美:“情報科学講座E・19・3 音声認識”、共立出版(1979)」を参照すればよい。この場合、図7又は図10等において「有声音/無声音」又は「母音/子音」のみの情報に従う切替え処理において、さらに「連続性/中断性」や「鼻音性/口音性」や「集約性/拡散性」などの情報をも加味して処理の切替えを行うことができる。また、音韻記号情報に従う場合においても、「有声音/無声音」や「母音/子音」といった区別ではなく、各音韻記号毎に切替え処理を用意することも可能である。さらに本発明において、音声素片をスペクトルパラメータと残差信号として扱う構成又は処理については、残差信号の代りにインパルスや白色雑音信号などの簡易な音源信号を用いてもよい。
【0067】
【発明の効果】
本発明によれば、入力された音韻記号列の音韻が有声音であるか若しくは無声音であるか又は母音であるか若しくは子音であるかに従って周波数特性を変更することにより、音声素片接続時のスペクトル形状歪を低減することができ、延いては音質を向上することができる。
【0068】
また、本発明によれば、音声素片に付与した音韻記号情報又は弁別素性情報に従って周波数特性を変更することにより、音声素片選択時のみ入力音韻記号列を参照すればよく処理を低減することができる。
【0069】
また、本発明によれば、音声素片をスペクトルパラメータと、残差信号又は音源信号の形で格納することにより、音声素片を表現するのに必要なデータ量を削減することができる。
【図面の簡単な説明】
【図1】本発明による音声合成装置の一実施形態を示すブロック図である。
【図2】本発明による音声合成装置の別実施形態を示すブロック図である。
【図3】図1記載の音声合成装置の実施形態における処理手順を示すフローチャートである。
【図4】図2記載の音声合成装置の実施形態における処理手順を示すフローチャートである。
【図5】図2記載の音声合成装置において音声素片格納部1に音声素片を波形として格納する場合の一実施形態の詳細を示すブロック図である。
【図6】図5記載の音声合成装置の実施形態における処理手順を示すフローチャートである。
【図7】図6記載のフィルタ処理のステップS103における詳細な処理手順の一実施形態を示すフローチャートである。
【図8】図7記載のフィルタ処理のステップS1105で用いる周波数特性の一実施形態を示す図である。
【図9】図7記載のフィルタ処理のステップS1104で用いる周波数特性の一実施形態を示す図である。
【図10】図6記載のフィルタ処理のステップS103における詳細な処理手順の別実施形態を示すフローチャートである。
【図11】図10記載のフィルタ処理のステップS1204における詳細な処理手順の一実施形態を示すフローチャートである。
【図12】図11記載のフィルタ処理のステップS1305で用いる周波数特性の一実施形態を示す図である。
【図13】図11記載のフィルタ処理のステップS1310で用いる周波数特性の一実施形態を示す図である。
【図14】図10記載のフィルタ処理のステップS1204における詳細な処理手順の別実施形態を示すフローチャートである。
【図15】図5記載の素片波形格納部11に格納する音声素片作成装置の一実施形態を示すブロック図である。
【図16】図15記載の音声素片作成装置の実施形態における処理手順を示すフローチャートである。
【図17】図2記載の音声合成装置において音声素片格納部1に音声素片をスペクトルパラメータと残差信号として格納する場合の一実施形態の詳細を示すブロック図である。
【図18】図17記載の音声合成装置の実施形態における処理手順を示すフローチャートである。
【図19】図2記載の音声合成装置において音声素片格納部1に音声素片をスペクトルパラメータと残差信号として格納する場合の別実施形態の詳細を示すブロック図である。
【図20】図19記載の音声合成装置の実施形態における処理手順を示すフローチャートである。
【図21】図20記載のフィルタ処理のステップS303における詳細な処理手順の一実施形態を示すフローチャートである。
【図22】図20記載のフィルタ処理のステップS303における詳細な処理手順の別実施形態を示すフローチャートである。
【図23】図22記載のフィルタ処理のステップS2204における詳細な処理手順の一実施形態を示すフローチャートである。
【図24】図22記載のフィルタ処理のステップS2204における詳細な処理手順の別実施形態を示すフローチャートである。
【図25】図2記載の音声合成装置において音声素片格納部1に音声素片をスペクトルパラメータと残差信号として格納する場合の別実施形態の詳細を示すブロック図である。
【図26】図25記載の音声合成装置の実施形態における処理手順を示すフローチャートである。
【図27】図26記載のパラメータ調整処理のステップS403における詳細な処理手順の一実施形態を示すフローチャートである。
【図28】図26記載のパラメータ調整処理のステップS403における詳細な処理手順の別実施形態を示すフローチャートである。
【図29】図28記載のパラメータ調整処理のステップS3204における詳細な処理手順の一実施形態を示すフローチャートである。
【図30】図28記載のパラメータ調整処理のステップS3204における詳細な処理手順の別実施形態を示すフローチャートである。
【図31】図2記載の音声合成装置において音声素片格納部1に音声素片をスペクトルパラメータと残差信号として格納する場合の別実施形態の詳細を示すブロック図である。
【図32】図31記載の音声合成装置の実施形態における処理手順を示すフローチャートである。
【図33】図2記載の音声合成装置において音声素片格納部1に音声素片をスペクトルパラメータと残差信号として格納する場合の別実施形態の詳細を示すブロック図である。
【図34】図33記載の音声合成装置の実施形態における処理手順を示すフローチャートである。
【符号の説明】
1 音声素片格納部
2 選択部
3 接続部
4 周波数特性変更部
5 音声素片作成部
11 素片波形格納部
12 スペクトルパラメータ格納部
13 残差信号格納部
21 素片波形選択部
22 スペクトルパラメータ選択部
23 残差信号選択部
24 素片波形生成部
31 韻律制御部
32 素片波形接続部
33 素片波形生成部
34 波形生成部
41 フィルタ部
42 スペクトルパラメータ調整部
51 素片波形候補格納部
52 平均スペクトルパラメータ格納部
53 フィルタ部
54 スペクトルパラメータ調整部
55 スペクトル歪算出部
56 素片波形選択部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech synthesizer and a speech synthesis method, and more particularly to a speech synthesizer and a speech synthesis method suitable for text speech synthesis.
[0002]
[Prior art]
  Synthesizing speech signals artificially from arbitrary sentences is called text-to-speech synthesis. Text-to-speech synthesis is generally performed in three stages: a language processing unit, a phoneme processing unit, and a speech synthesis unit. The input text is first subjected to morphological analysis and syntactic analysis in the language processing section, and then subjected to accent and intonation processing in the phonological processing section to obtain information such as phoneme symbol strings, pitches, and phoneme duration lengths. Is output. Finally, a synthesized speech is generated from information such as a phoneme symbol string, pitch, and phoneme duration time in the speech synthesis unit.
[0003]
  The speech synthesis method used for such text-to-speech synthesis must be a method that can synthesize an arbitrary phoneme symbol string with an arbitrary prosody. One form of speech synthesis that can synthesize any phoneme symbol string as speech is the formant synthesis method. The formant synthesis method is a method of understanding the voice utterance mechanism, that is, the movement of the vocal tract, and controlling the knowledge based on the rules. However, in this method, it is difficult to generate a consonant of a natural voice because a voice with a complicated utterance mechanism such as a consonant cannot express a synthesis rule.
[0004]
  Therefore, as a method of naturally generating speech with a complex utterance mechanism such as a consonant, a method has been proposed in which a large number of speech segments are prepared in advance and suitable segments are connected according to input. As one of the methods, for example, as disclosed in Japanese Patent Application Laid-Open No. 11-95796, a speech unit is expressed in the form of a residual signal and a spectral parameter such as an LPC coefficient, and the residual signal is expressed as a spectral parameter. There is a method of generating a speech unit by passing through a synthesis filter configured according to the above, performing prosody control on the speech unit, and connecting synthesized speech units to generate synthesized speech. Here, CV (consonant + vowel) or VCV (vowel + consonant + vowel) is generally used as the unit of the speech unit. In the case of CV, in the connection from the vowel to the consonant, in the case of VCV, the vowel Since the distortion of the spectrum shape occurs at the connection, the sound quality is deteriorated.
[0005]
  Therefore, as one of the methods for reducing the distortion of the spectrum shape due to the connection of speech segments, for example, as disclosed in Japanese Patent Application Laid-Open No. 11-95796, the front and back of the connection point are complemented, and further the filter of the vocal tract filter There has been proposed a method of providing a formant emphasis filter in which a filter coefficient is determined in accordance with a spectrum parameter of speech used as a coefficient, and emphasizing the formant of the synthesized speech signal by this filter.
[0006]
[Problems to be solved by the invention]
  However, since the speech synthesis method described above performs formant emphasis depending only on the spectral information, formant emphasis may also be applied to portions that should not be emphasized, resulting in degradation of sound quality. There was a problem.
[0007]
  The present invention has been made to solve the above problem, and an object of the present invention is to provide a speech synthesis method capable of reliably reducing distortion of a spectrum shape due to connection of speech segments.
[0008]
[Means for Solving the Problems]
  In order to solve the above problems, the present invention
  In a speech synthesizer that synthesizes speech by connecting speech units based on a phoneme symbol string,
  A frequency characteristic changing unit that changes a frequency characteristic of the speech unit based on a phoneme of the phoneme symbol string;
  The speech unit includes a speech unit whose end phoneme is a voiced sound,
  The frequency characteristic changing unit is
  A first filter having a frequency characteristic for attenuating high frequency components;
  A second filter having a frequency characteristic that does not change all frequency components;
  Said speech segmentDuring ~Phoneme ofWaveformA voiced / unvoiced sound discriminating section for discriminating whether the voice is a voiced sound or an unvoiced sound;
  The voiced / unvoiced sound discriminating unit discriminates it as voiced.BeforeSpeech segmentPhonological waveform insideOn the other hand, using the first filter, a filter processing unit for voiced sound that changes a frequency characteristic that attenuates a high frequency component,
  The voiced / unvoiced sound discriminating unit discriminates that it is an unvoiced sound.BeforeSpeech segmentPhonological waveform insideIn contrast, an unvoiced sound filter processing unit that does not substantially change the frequency characteristics using the second filter;
Including
  The frequency characteristics of the speech segments are changed so as to reduce the distortion of the spectral shape that occurs when connecting the speech segments.And
  The speech unit processed by the voiced sound filter processing unit and the unvoiced sound filter processing unit is used as a speech unit for speech synthesis.Have
A speech synthesizer is provided.
[0009]
  According to the present invention, the input phoneme symbol stringDuring ~Phoneme ofWaveformIs determined to be voiced sound or unvoiced sound, and the frequency characteristics of the speech unit are changed based on the result, thereby suppressing distortion of the spectrum shape when the speech unit is connected.
[0010]
  The present invention also provides
  In a speech synthesizer that synthesizes speech by connecting speech units based on a phoneme symbol string,
  A frequency characteristic changing unit that changes a frequency characteristic of the speech unit based on a phoneme of the phoneme symbol string;
  The speech unit includes a speech unit whose end phoneme is a vowel,
  The frequency characteristic changing unit is
  A first filter having a frequency characteristic for attenuating high frequency components;
  A second filter having a frequency characteristic that does not change all frequency components;
  Said speech segmentDuring ~Phoneme ofWaveformA vowel / consonant discriminating unit for discriminating whether the vowel is a vowel or a consonant;
  The vowel / consonant discriminating unit discriminates it as a vowel.BeforeSpeech segmentPhonological waveform insideOn the other hand, using the first filter, a vowel filter processing unit that changes frequency characteristics to attenuate high frequency components,
  The vowel / consonant discrimination unit discriminates it as a consonant.BeforeSpeech segmentPhonological waveform insideOn the other hand, a consonant filter processing unit that does not substantially change the frequency characteristics using the second filter;
Including
  The frequency characteristics of the speech segments are changed so as to reduce the distortion of the spectral shape that occurs when connecting the speech segments.And
  The speech unit processed by the vowel filter processing unit and the consonant filter processing unit is used as a speech unit for speech synthesis.Have
A speech synthesizer is provided.
[0011]
  According to the present invention, the input phoneme symbol stringDuring ~Phoneme ofWaveformIs a vowel or a consonant, and the frequency characteristic of the speech unit is changed based on the result, thereby suppressing distortion of the spectrum shape when the speech unit is connected.
[0012]
  The present invention also provides
  The voiced / unvoiced sound discriminating unit or the vowel / consonal sound discriminating unit in the frequency characteristic changing unit performs the discrimination based on phonological symbol information added to a speech segment.
[0013]
  According to the present invention, phoneme symbol information corresponding to an input phoneme symbol string is added to a phoneme unit, and the frequency characteristics of the phoneme unit is changed based on the phoneme symbol information, thereby selecting a phoneme unit. It is only necessary to refer to the input phoneme symbol string to reduce the processing.
[0014]
  The present invention also provides
  A speech unit storage unit for storing spectral parameters and residual signals of speech units;
  According to the input phoneme symbol string, a selection unit that selects a spectrum parameter and a residual signal of the input phoneme from the speech unit storage unit,
  A frequency characteristic changing unit that changes a frequency characteristic of the residual signal based on a phoneme of the selected residual signal;
  A connection unit that generates a speech unit based on the selected spectrum parameter and the residual signal whose frequency characteristic has been changed, and generates a synthesized speech by connecting the generated speech units;
With
  The speech unit includes a speech unit whose end phoneme is a voiced sound,
  The frequency characteristic changing unit is
  A first filter having a frequency characteristic for attenuating high frequency components;
  A second filter having a frequency characteristic that does not change all frequency components;
  SaidPhonemes in speech segmentsResidualIssueA voiced / unvoiced sound discriminating unit for determining whether the sound is voiced or unvoiced;
  The voiced / unvoiced sound discriminating unit discriminates it as voiced.BeforeRecordPhonemes in speech segmentsA filter processing unit for voiced sound that performs frequency characteristic change for attenuating a high frequency component using the first filter with respect to the residual signal;
  The voiced / unvoiced sound discriminating unit discriminates that it is an unvoiced sound.BeforeRecordPhonemes in speech segmentsAn unvoiced sound filter processing unit that does not substantially change the frequency characteristics of the residual signal using the second filter;
Including
  The frequency characteristic of the residual signal is changed so as to reduce the distortion of the spectrum shape that occurs when connecting each speech unit.And
  The speech unit processed by the voiced sound filter processing unit and the unvoiced sound filter processing unit is used as a speech unit for speech synthesis.Have
A speech synthesizer is provided.
[0015]
  According to the present invention, the amount of data for expressing a speech unit can be reduced by generating the speech unit from a spectrum parameter and a residual signal.
[0016]
  The present invention also provides
  A speech unit storage unit for storing spectral parameters and residual signals of speech units;
  A selection unit that selects a spectrum parameter and a residual signal of the input phoneme from the speech unit storage unit according to the input phoneme symbol string;
  A frequency characteristic changing unit that changes a frequency characteristic of the residual signal based on a phoneme of the selected residual signal;
  A connection unit that generates a speech unit based on the selected spectrum parameter and the residual signal in which the frequency characteristic is changed, and generates a synthesized speech by connecting the generated speech units;
With
  The speech unit includes a speech unit whose end phoneme is a vowel,
  The frequency characteristic changing unit is
  A first filter having a frequency characteristic for attenuating high frequency components;
  A second filter having a frequency characteristic that does not change all frequency components;
  SaidPhonemes in speech segmentsResidualIssueA vowel / consonant discrimination unit that discriminates whether it is a vowel or a consonant;
  The vowel / consonant discriminating unit discriminates it as a vowel.BeforeRecordPhonemes in speech segmentsA vowel filter processing unit that performs a frequency characteristic change for a residual signal using the first filter to attenuate a high frequency component;
  The vowel / consonant discrimination unit discriminates it as a consonant.BeforeRecordPhonemes in speech segmentsA consonant filter processing unit that does not substantially change the frequency characteristics of the residual signal using the second filter;
Including
  The frequency characteristic of the residual signal is changed so as to reduce the distortion of the spectrum shape that occurs when connecting each speech unit.And
  The speech unit processed by the vowel filter processing unit and the consonant filter processing unit is used as a speech unit for speech synthesis.Have
A speech synthesizer is provided.
[0017]
  According to the present invention, the amount of data for expressing a speech unit can be reduced by generating the speech unit from a spectrum parameter and a residual signal.
[0018]
  The present invention also provides
  A speech unit storage unit for storing spectral parameters and residual signals of speech units;
  A selection unit that selects a spectrum parameter and a residual signal of the input phoneme from the speech unit storage unit according to the input phoneme symbol string;
  A frequency characteristic changing unit that changes the frequency characteristic of the spectral parameter based on the phoneme of the selected spectral parameter;
  A connection unit that generates a speech unit based on the spectrum parameter whose frequency characteristic has been changed and the selected residual signal, and generates a synthesized speech by connecting the generated speech units;
With
  The speech unit includes a speech unit whose end phoneme is a voiced sound,
  The frequency characteristic changing unit is
  A first filter having a frequency characteristic for attenuating high frequency components;
  A second filter having a frequency characteristic that does not change all frequency components;
  SaidPhonemes in speech segmentsSpectral parametersTA voiced / unvoiced sound discriminating unit for determining whether the sound is voiced or unvoiced;
  The voiced / unvoiced sound discriminating unit discriminates it as voiced.BeforeRecordPhonemes in speech segmentsA voiced sound filter processing unit that changes frequency characteristics for attenuating high-frequency components using the first filter with respect to spectral parameters;
  The voiced / unvoiced sound discriminating unit discriminates that it is an unvoiced sound.BeforeRecordPhonemes in speech segmentsAn unvoiced sound filter processing unit that does not substantially change the frequency characteristic using the second filter with respect to the spectrum parameter;
Including
  The frequency characteristic of the spectrum parameter is changed so as to reduce the distortion of the spectrum shape that occurs when each speech unit is connected.And
  The speech unit processed by the voiced sound filter processing unit and the unvoiced sound filter processing unit is used as a speech unit for speech synthesis.Have
A speech synthesizer is provided.
[0019]
  According to the present invention, the amount of data for expressing a speech unit can be reduced by generating the speech unit from a spectrum parameter and a residual signal.
[0020]
  The present invention also provides
  A speech unit storage unit for storing spectral parameters and residual signals of speech units;
  A selection unit that selects a spectrum parameter and a residual signal of the input phoneme from the speech unit storage unit according to the input phoneme symbol string;
  A frequency characteristic changing unit that changes the frequency characteristic of the spectral parameter based on the phoneme of the selected spectral parameter;
  A connection unit that generates a speech unit based on the spectrum parameter whose frequency characteristic has been changed and the selected residual signal, and generates a synthesized speech by connecting the generated speech units;
With
  The speech unit includes a speech unit whose end phoneme is a vowel,
  The frequency characteristic changing unit is
  A first filter having a frequency characteristic for attenuating high frequency components;
  A second filter having a frequency characteristic that does not change all frequency components;
  SaidThe phoneme spectrum parameter in the speech segment isA vowel / consonant discrimination unit that discriminates whether it is a vowel or a consonant;
  The vowel / consonant discriminating unit discriminates it as a vowel.BeforeRecordPhonemes in speech segmentsA vowel filter processing unit that changes frequency characteristics for attenuating high-frequency components using the first filter with respect to spectral parameters;
  The vowel / consonant discrimination unit discriminates it as a consonant.BeforeRecordPhonemes in speech segmentsA consonant filter processing unit that does not substantially change the frequency characteristic using the second filter with respect to the spectrum parameter;
Including
  The frequency characteristic of the spectrum parameter is changed so as to reduce the distortion of the spectrum shape that occurs when each speech unit is connected.And
  The speech unit processed by the vowel filter processing unit and the consonant filter processing unit is used as a speech unit for speech synthesis.Have
A speech synthesizer is provided.
[0021]
  According to the present invention, the amount of data for expressing a speech unit can be reduced by generating the speech unit from a spectrum parameter and a residual signal.
[0022]
  The present invention also provides
  In a speech synthesis method for synthesizing speech by connecting speech units based on a phoneme symbol string,
  A frequency characteristic changing step of changing a frequency characteristic of the speech unit based on a phoneme of the phoneme symbol string;
  The speech unit includes a speech unit whose end phoneme is a voiced sound,
  The frequency characteristic changing step includes:
  Said speech segmentDuring ~Phoneme ofWaveformA voiced / unvoiced sound discrimination step for determining whether the sound is a voiced sound or an unvoiced sound;
  Identified as voicedBeforeSpeech segmentPhonological waveform insideOn the other hand, using a first filter having a frequency characteristic for attenuating high-frequency components, a voiced sound filter processing step for changing frequency characteristics for attenuating high-frequency components;
  Identified as unvoicedBeforeSpeech segmentPhonological waveform insideOn the other hand, using a second filter having a frequency characteristic that does not change all the frequency components, a filter processing step for unvoiced sound that does not substantially change the frequency characteristic;
Including
  Changed the frequency characteristics of the speech unit to reduce the distortion of the spectrum shape that occurs when connecting each speech unit.And
  The speech unit processed in the voiced sound filter processing step and the unvoiced sound filter processing step is used as a speech unit for speech synthesis.Ru
A speech synthesis method is provided.
[0023]
  The present invention also provides
  In a speech synthesis method for synthesizing speech by connecting speech units based on a phoneme symbol string,
  A frequency characteristic changing step of changing a frequency characteristic of the speech unit based on a phoneme of the phoneme symbol string;
  The speech unit includes a speech unit whose end phoneme is a vowel,
  The frequency characteristic changing step includes:
  Said speech segmentDuring ~Phoneme ofWaveformA vowel / consonant discrimination step for determining whether is a vowel or a consonant;
  Identified as a vowelBeforeSpeech segmentPhonological waveform insideOn the other hand, using a first filter having a frequency characteristic for attenuating high-frequency components, a vowel filter processing step for changing frequency characteristics to attenuate high-frequency components;
  Identified as a consonantBeforeSpeech segmentPhonological waveform insideOn the other hand, a consonant filter processing step that does not substantially change the frequency characteristic using the second filter having the frequency characteristic that does not change all the frequency components;
Including
  Changed the frequency characteristics of the speech unit to reduce the distortion of the spectrum shape that occurs when connecting each speech unit.And
  The speech unit processed in the vowel filter processing step and the consonant filter processing step is used as the speech unit for speech synthesis.Ru
A speech synthesis method is provided.
[0024]
  The present invention also provides
  On the computer,
  A computer-readable recording medium on which a program for executing each step according to claim 8 or 9 is recorded is provided.
[0025]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
[0026]
  FIG. 1 is a block diagram showing an embodiment of a speech synthesizer according to the present invention. In FIG. 1, reference numeral 1 denotes a speech unit storage unit that stores speech units prepared in advance, and includes a semiconductor memory, a magnetic memory, and the like. A method of creating a speech unit stored in the speech unit storage unit 1 will be described later. Reference numeral 2 denotes a selection unit that selects an optimal speech unit from speech units stored in the speech unit storage unit 1 in accordance with the input phoneme symbol string, and includes a gate, a switch element, and the like. Reference numeral 4 denotes a frequency characteristic changing unit which is characterized by changing the frequency characteristic according to the phoneme symbol string input to the speech unit selected by the selecting unit 2 and is configured by a dedicated LSI element or the like. Reference numeral 3 denotes a connection unit that generates a synthesized speech by connecting the speech elements whose frequency characteristics have been changed by the frequency characteristic changing unit 4, and is configured by a dedicated LSI element or the like.
[0027]
  It should be noted that elements, memories, etc. constituting each means and storage unit according to the present invention do not affect the present invention even if one or a plurality of elements are combined, and each means and storage unit according to the present invention is not A CPU or its peripheral device may be substituted.
[0028]
  Furthermore, the speech synthesis program of the present invention is provided by a computer-readable recording medium such as a magnetic disk or a CD-ROM, and the program is executed by a computer. The program may be supplied to the computer via a communication line by another computer.
[0029]
  FIG. 2 is a block diagram showing another embodiment of the speech synthesizer according to the present invention. In FIG. 2, the speech element storage unit 1, the selection unit 2, and the frequency characteristic changing unit 4 are the same as those in FIG. The connecting unit 3 controls the prosody of the speech unit whose frequency characteristic has been changed by the frequency characteristic changing unit 4 according to the input prosodic information, and generates a synthesized speech by connecting the speech unit whose prosody has been controlled. It is composed of a dedicated LSI element or CPU.
[0030]
  Here, the phoneme symbol string and prosody information handled as input in FIG. 1 or FIG. 2 are morphemes in a language processing unit (not shown) for text input when the speech synthesis of the present invention is applied to text speech synthesis. This is obtained as a result of performing analysis, syntax analysis, etc., and processing accents and intonations in a phoneme processing unit (not shown). It should be noted that the phoneme symbol string and prosody information handled as input in the present invention have no effect on the present invention, and does not limit the method of generating the phoneme symbol string and prosody information.
[0031]
  FIG. 3 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. Hereinafter, the flow of processing will be described with reference to FIGS. 1 and 3. A phoneme symbol string is input to the selection unit 2 in a format corresponding to phonetic unit notation (CV, VCV, etc.) (step S11), and the corresponding phoneme segment is stored in the phoneme unit storage unit 1 according to the phoneme symbol string. The selected speech unit is selected (step S12) and output to the frequency characteristic changing unit 4 (step 13). In step S 13, the frequency characteristics are changed according to the phoneme symbol string input to the speech unit selected by the selection unit 2 and output to the connection unit 3. Next, it is determined whether or not there is an input of a phoneme symbol string (step S14). If there is no input, a speech unit whose frequency characteristic has been changed is connected to generate and output a synthesized speech (step S14). S15) If there is an input, the process returns to step S11. Further, in FIG. 3, step S15 may be arranged between step S13 and step S14, and a processing procedure for generating and outputting synthesized speech by appropriately connecting speech units without waiting for completion of input of all phoneme symbol strings.
[0032]
  FIG. 4 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 4 is different from the flowchart shown in FIG. 3 in that step S24 for controlling the prosody according to the prosodic information input to the speech element whose frequency characteristics have been changed is added. In FIG. 4, the processing order of step S13 and step S24 may be reversed. Similarly to FIG. 3, step S15 is arranged between step S24 and step S14, and a speech sequence is appropriately connected without waiting for the completion of input of all phoneme symbol strings to generate and output synthesized speech. Good.
[0033]
  FIG. 5 is a block diagram showing details of an embodiment in the case where the speech unit is stored as a waveform in the speech unit storage unit 1 in the speech synthesizer shown in FIG. In FIG. 5, reference numeral 11 denotes a segment waveform storage unit, which stores a speech segment waveform prepared in advance (hereinafter referred to as “segment waveform”). Reference numeral 21 denotes a segment waveform selection unit, which selects an optimum segment waveform from the segment waveforms stored in the segment waveform storage unit 11 in accordance with the input phoneme symbol string. Reference numeral 41 denotes a filter unit, which changes the frequency characteristics according to the phoneme symbol string input to the segment waveform selected by the segment waveform selection unit 21. 31 is a prosody control unit, which controls the prosody according to the prosodic information input to the speech segment waveform whose frequency characteristics have been changed by the filter unit 41. Reference numeral 32 denotes a segment waveform connecting unit, which generates synthesized speech by connecting the segment waveforms whose prosody is controlled by the prosody control unit 31. In FIG. 5, the configuration order of the filter unit 41 and the prosody control unit 31 may be reversed. A configuration excluding the prosody control unit 31 is also possible, and this case corresponds to an embodiment in which a speech unit is stored as a waveform in the speech unit storage unit 1 in the speech synthesizer shown in FIG.
[0034]
  FIG. 6 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 6 differs from the flowchart shown in FIG. 4 in that step S102 for selecting a segment waveform is adopted instead of step S12 for selecting a speech unit, and step S13 for changing the frequency characteristics of the speech unit. Instead of using step S103 for filtering the segment waveform, adopting step S104 for controlling the prosody for the segment waveform instead of step S24 for controlling the prosody of the speech unit, Instead of step S15 for connecting the pieces and outputting the synthesized speech, step S106 for connecting the segment waveforms and outputting the synthesized speech is adopted.
[0035]
  FIG. 7 is a flowchart showing an embodiment of a detailed processing procedure in step S103 shown in FIG. In FIG. 7, when a segment waveform is input (step S1101), a waveform section corresponding to the first phoneme in the segment phoneme is extracted from the segment waveform (step S1102), and then the current phoneme waveform is a voiced sound. Or whether it is an unvoiced sound (step S1103). If the current phoneme waveform is a voiced sound, a voiced sound filter process is performed (step S1104), and if it is an unvoiced sound, an unvoiced sound filter process is performed (step S1105). Specific examples of the voiced sound filter and the unvoiced sound filter will be described later. However, the filter creation method does not affect the present invention, and the creation method is not limited. When the filtered phoneme waveform is output (step S1106), it is next determined in which position the current phoneme is in the segment phoneme (step S1107), and the current phoneme is the segment phoneme. If it is the final position in the middle, the process is terminated, and if it is not the final position, after extracting the waveform section corresponding to the next phoneme (step S1108), the process returns to step S1103.
[0036]
  FIG. 8 is a diagram showing an embodiment of the frequency characteristic of the unvoiced sound filter in step S1105 shown in FIG. In FIG. 8, the horizontal axis represents the frequency [kHz], the vertical axis represents the gain [dB], and the scale applied to each axis is not limited to this, and is changed according to the sampling frequency and power of the waveform. (The same applies to the frequency characteristics shown below). In addition, although a flat characteristic is shown as an example of the frequency characteristic for unvoiced sound, a frequency characteristic that attenuates a high frequency component may be given depending on listening preference. Furthermore, when the frequency characteristic for unvoiced sound is flat as shown in FIG. 8, step S1105 in FIG. 7 can be omitted.
[0037]
  FIG. 9 is a diagram showing an embodiment of frequency characteristics of the voiced sound filter in step S1104 shown in FIG. As is apparent from the figure, the high frequency component is attenuated. In addition, the frequency characteristic is not limited to the illustrated attenuation curve as long as the high frequency component is attenuated.
[0038]
  FIG. 8 or FIG. 9 shows a flat frequency characteristic for an unvoiced sound and a frequency characteristic for a high frequency component to be attenuated for a voiced sound. This is based on the fact that important information is often included, and voiced sounds often contain important information indicating phonological properties in the mid-low range, such as the first and second formants of vowels. ing. As a result, the perception of sound quality deterioration due to distortion and deformation of the spectrum shape is reduced by attenuating the high frequency component of voiced sound without degrading the phonological quality of unvoiced sound.
[0039]
  FIG. 10 is a flowchart showing another embodiment of the detailed processing procedure in step S103 shown in FIG. 10 is different from the flowchart shown in FIG. 7 in that the current phonological waveform is a vowel or a consonant instead of step S1103 for determining whether the current phonological waveform is a voiced sound or an unvoiced sound. A step S1203 for determining whether or not, a step S1204 for performing vowel filter processing instead of step S1104 for performing voiced filter processing, a step S1105 for performing unvoiced sound filter processing, and a consonant filter instead of step S1105 performing unvoiced sound filter processing. The point is that step S1205 for performing the processing is adopted. Further, when the current phoneme waveform is repellent in step S1203 of FIG. 10, it is treated as a vowel, but the present invention is not limited to this.
[0040]
  FIG. 11 is a flowchart showing an embodiment of a detailed processing procedure of the vowel filter processing in step S1204 shown in FIG. In FIG. 11, when a vowel waveform is input (step S1301), a waveform section corresponding to the boundary point between the preceding phoneme and the vowel to the vowel stationary point is extracted (step S1302), and then whether or not the waveform is extracted. Is determined (step S1303). If the waveform is extracted, it is determined whether the preceding phoneme is a consonant or a vowel (step S1304). If the waveform is not extracted, the process proceeds to step 1307 (the processing content will be described later). If the preceding phoneme is determined to be a consonant in step S1304, a consonant-vowel filter process is performed and a waveform is output (step S1305). Then, the process proceeds to step S1307, and if the preceding phoneme is determined to be a vowel, the vowel filter process is performed. After performing and outputting the waveform (step S1306), the process proceeds to step S1307. If the preceding phoneme is silent in step S1304, it is determined to be a consonant in this example, but even if it is determined to be a vowel, there is no effect on the present invention. The vowel filter in step S1306 has the characteristic of attenuating high frequency components and is the same as that in FIG. 9, and the characteristics of the consonant-vowel filter in step S1305 will be described later. In step S1307, a waveform section corresponding to the boundary point between the vowel stationary point and the boundary point between the vowel and the subsequent phoneme is extracted (step S1307), and then it is determined whether or not the waveform is extracted (step S1308). If the waveform is extracted, it is determined whether the subsequent phoneme is a consonant or a vowel (step S1309). If the waveform is not extracted, the process ends. If it is determined in step S1309 that the subsequent phoneme is a consonant, the vowel-consonant filter process is performed and the waveform is output (step S1310). Then, the process ends. If the preceding phoneme is determined to be a vowel, the vowel filter process is performed. After outputting the waveform (step S1311), the process is terminated. The vowel filter in step S1311 has the characteristic of attenuating high-frequency components and is the same as that shown in FIG. 9, and the characteristics of the vowel-consonant filter in step S1310 will be described later.
[0041]
  FIG. 12 is a diagram showing an embodiment of the frequency characteristics of the consonant-vowel filter in step S1305 shown in FIG. F11 indicates the frequency characteristics of the consonant-vowel filter at the boundary point between the preceding consonant and the vowel, and F12, F13,... Gradually increase the attenuation rate of the high frequency component from the preceding consonant toward the vowel steady point. F1n indicates a frequency characteristic at a vowel stationary point. Further, the frequency characteristic is not limited to the illustrated attenuation curve as long as the high frequency component is attenuated.
[0042]
  FIG. 13 is a diagram showing an embodiment of the frequency characteristics of the vowel-consonant filter in step S1310 shown in FIG. F21 indicates the frequency characteristics of the vowel-consonant filter at the vowel stationary point, and F22, F23,... Are characteristics in which the attenuation rate of the high frequency component gradually decreases from the vowel stationary point toward the subsequent consonant. F2n indicates the frequency characteristic at the boundary point between the vowel and the subsequent consonant. Further, as long as the high frequency component is attenuated, the frequency characteristic is not limited to the illustrated attenuation curve, as in the case of FIG.
[0043]
  In FIG. 8 or FIG. 9 or FIG. 12 or FIG. The perception of sound quality degradation based on shape distortion and deformation is reduced. Furthermore, the frequency characteristics during the period from the preceding consonant to the stationary vowel or from the stationary vowel to the subsequent consonant can be further enhanced by gradually increasing or decreasing the attenuation rate of the high frequency component. Making it possible.
[0044]
  FIG. 14 is a flowchart showing another embodiment of the detailed processing procedure of the vowel filter processing in step S1204 shown in FIG. 14 is different from the flowchart shown in FIG. 11 in that steps S1304, S1306, S1309, and S1311 do not exist. Other processes are the same as those shown in FIG. According to the present embodiment, uniform frequency characteristic processing is performed on vowels regardless of whether the phonemes before and after the vowel are consonants, vowels, or silences. That is, the frequency characteristics F11, F12, F13,..., F1n, F21, F22, F23,... Shown in FIGS. 12 and 13 are applied to the sections from the phoneme boundary point to the vowel stationary point and from the vowel stationary point to the phoneme boundary point. , F2n, and the like are applied uniformly to all vowels. Thereby, the number of processing steps can be reduced.
[0045]
  FIG. 15 is a block diagram showing an embodiment of a speech segment creation device stored in the segment waveform storage unit 11 shown in FIG. In FIG. 15, reference numeral 5 denotes a speech unit creation unit that creates speech units to be stored in the speech unit storage unit 1. Reference numeral 51 denotes a segment waveform candidate storage unit that stores a large amount of speech waveforms cut out in units of segments (CV, VCV, etc.). Further, these speech unit waveforms are cut out in units in a later step by assigning an index in unit of units to the utterance waveform of a word or the like instead of cutting out in units of units in the unit waveform candidate storage unit 51. It is also possible. An average spectrum parameter storage unit 52 stores an average spectrum parameter for each phoneme in order to select a speech segment waveform with little spectrum distortion at the time of connection. For example, an LPC cepstrum or LSP may be used as the spectrum parameter. Reference numeral 53 denotes a filter unit that changes the frequency characteristics in accordance with the phoneme symbols assigned to the speech unit waveform candidates stored in the unit waveform candidate storage unit 51. Reference numeral 54 denotes a spectrum parameter adjustment unit, which changes the frequency characteristics of the average spectrum parameter stored in the average spectrum parameter storage unit 52 according to the phoneme symbol. Reference numeral 55 denotes a spectral distortion calculation unit that calculates a spectral distortion between the speech segment waveform candidate whose frequency characteristics have been changed by the filter unit 53 and the spectral parameter adjustment unit 54 and the average spectral parameter. Reference numeral 56 denotes a unit waveform selection unit, which selects a speech unit waveform candidate having the smallest spectrum distortion calculated by the spectrum distortion calculation unit 55 as a speech unit waveform and stores it in the unit waveform storage unit 11. The processing performed by the filter unit 53 and the spectral parameter adjustment unit 54 perform the same processing as the frequency characteristic changing processing when the speech synthesis method according to the present invention is applied, thereby improving compatibility with the speech synthesizer according to the present invention. The speech unit creation device shown in FIG. 15 is shown as an example of a speech unit creation method, but the method is not limited as long as it is a speech unit creation method that can be used for speech synthesis. However, in order to further improve the effect of the present invention, as shown in the speech segment creation method shown in FIG. 15, the frequency characteristic change according to the phoneme according to the present invention is applied at the time of speech synthesis. It is preferable to select a piece.
[0046]
  FIG. 16 is a flowchart showing a processing procedure in the embodiment of the speech segment creation apparatus shown in FIG. When actually generating a speech unit, the processing of the flowchart shown below is repeated for each unit phoneme symbol string. First, after selecting a speech unit waveform candidate corresponding to the current unit phoneme symbol string from speech unit waveform candidates stored in the unit waveform candidate storage unit 51 and outputting it to the filter unit 53 (step S31), A filter process is performed to change the frequency characteristics in accordance with the phoneme symbols given in advance, and the result is output to the spectrum distortion calculation unit 55 (step S32). On the other hand, after selecting an average spectrum parameter corresponding to the current segment phoneme symbol string from the average spectrum parameters stored in the average spectrum parameter storage unit 52 and outputting it to the spectrum parameter adjustment unit 54, the frequency is determined according to the segment phoneme symbol string. In order to change the characteristics, the spectral parameters are adjusted and output to the spectral distortion calculation unit 55 (step S33). Next, the spectral distortion calculation unit 55 extracts the spectrum parameter of the connection unit from the speech segment waveform candidate subjected to the frequency characteristic change in step S32, and the average spectrum parameter subjected to the frequency characteristic change in step S33. Spectral distortion is calculated and stored (step S34). It is determined whether or not there is an input for the next unit waveform candidate (step S35). If there is, the next unit waveform candidate (a speech unit waveform candidate that has not yet been selected corresponding to the current unit phoneme symbol string). ) Is selected and the process returns to step S32 (step S36). If not, the segment waveform candidate indicating the minimum value among the spectral distortions stored in step S34 is selected and stored in the segment waveform storage unit 11 ( Step S37). When selecting and storing in step S37, there may be a plurality of speech unit waveforms corresponding to one unit phoneme symbol string. In this case, the necessary number is selected and stored in order from the one having the smallest spectral distortion. . Further, a threshold value may be provided for the spectral distortion, and a speech unit waveform candidate having a spectral distortion equal to or less than the threshold value may be selected and stored as a speech unit waveform. In FIG. 16, the processing order of step S32 and step S33 may be reversed. Further, the frequency characteristic is changed after the parameter is selected in step S33. However, the frequency characteristic is changed in advance for the average spectrum parameter stored in the average spectrum parameter storage unit 52, and the parameter selection is performed in step S33. It is good also as a processing procedure which performs only.
[0047]
  FIG. 17 is a block diagram showing details of an embodiment in the case where speech units are stored in the speech unit storage unit 1 as spectral parameters and residual signals in the speech synthesis apparatus shown in FIG. In FIG. 17, reference numeral 12 denotes a spectrum parameter storage unit, which stores spectrum parameters of speech segments prepared in advance. A residual signal storage unit 13 stores a residual signal of a speech unit prepared in advance. A spectral parameter selection unit 22 selects an optimal spectral parameter from the spectral parameters stored in the spectral parameter storage unit 12 according to the input phoneme symbol string. A residual signal selection unit 23 selects an optimal residual signal from the residual signals stored in the residual signal storage unit 13 according to the input phoneme symbol string. Reference numeral 24 denotes a segment waveform generator, which generates a speech segment waveform using the spectrum parameter selected by the spectrum parameter selector 22 and the residual signal selected by the residual signal selector 23. A filter unit 41 performs the above-described frequency characteristic change according to the phoneme symbol string input to the speech unit waveform generated by the unit waveform generation unit 24. The prosody control unit 31 and the segment waveform connection unit 32 are the same as those in FIG. In FIG. 17, the configuration order of the filter unit 41 and the prosody control unit 31 may be reversed. A configuration excluding the prosody control unit 31 is also possible.
[0048]
  FIG. 18 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 18 differs from the flowchart shown in FIG. 6 in that step S202 for selecting a spectral parameter and a residual signal and step S203 for generating a segment waveform are employed instead of step S102 for selecting a segment waveform. is there. In step S202, the corresponding spectral parameter and residual signal are stored in the spectral parameter and residual signal storage unit 13 in accordance with the phoneme symbol string input in step S11. Select from signals. In step S203, a speech unit waveform is generated using the spectrum parameter selected in step S202 and the residual signal. Other processes are the same as those shown in FIG.
[0049]
  FIG. 19 is a block diagram showing details of another embodiment when the speech unit is stored in the speech unit storage unit 1 as a spectral parameter and a residual signal in the speech synthesis apparatus shown in FIG. In FIG. 19, the spectrum parameter storage unit 12, the residual signal storage unit 13, the spectrum parameter selection unit 22, and the residual signal selection unit 23 are the same as those in FIG. A filter unit 41 performs the frequency characteristic change described above according to the phoneme symbol string input to the residual signal selected by the residual signal selection unit 23. Reference numeral 33 denotes a segment waveform generation unit that generates a speech segment waveform using the spectrum parameter selected by the spectrum parameter selection unit 22 and the residual signal whose frequency characteristic has been changed by the filter unit 41. 31 is a prosody control unit, which controls the prosody according to the prosodic information input to the speech segment waveform generated by the segment waveform generation unit 33. The segment waveform connecting portion 32 is the same as that shown in FIG. In FIG. 19, the prosody control unit 31 may be arranged between the residual signal selection unit 23 and the filter unit 41 or between the filter unit 41 and the segment waveform generation unit 33. A configuration excluding the prosody control unit 31 is also possible.
[0050]
  FIG. 20 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. In FIG. 20, the difference from the flowchart shown in FIG. 18 is that instead of step S203 for generating a segment waveform and step S103 for performing a filter process on the segment waveform after generating the segment waveform, a filter for the residual signal is performed. Step S303 in which processing is performed and step S304 in which an element waveform is generated after filter processing are employed. In step S303, the residual signal selected in step S202 is subjected to filter processing for changing frequency characteristics in accordance with the phoneme symbol string input in step S11, and a segment waveform is generated therefrom (step S304). Other processes are the same as those shown in FIG.
[0051]
  FIG. 21 is a flowchart showing an embodiment of a detailed processing procedure in step S303 shown in FIG. 21 is different from the flowchart shown in FIG. 7 in that, instead of the processing for the speech waveform in FIG. 7, the residual signal is targeted in FIG. 21 (steps S2101 to S2108). Since the residual signal is a waveform, it can be handled in the same manner as a speech waveform. Therefore, other processing can be handled in the same manner as the processing shown in FIG.
[0052]
  FIG. 22 is a flowchart showing another embodiment of the detailed processing procedure in step S303 shown in FIG. 22 is different from the flowchart shown in FIG. 10 in that, instead of the processing for the speech waveform in FIG. 10, the residual signal is targeted in FIG. 22 (steps S2201 to S2208). The other processes are the same as those shown in FIG.
[0053]
  FIG. 23 is a flowchart showing an embodiment of a detailed processing procedure in step S2204 of the filtering process shown in FIG. 23 differs from the flowchart shown in FIG. 11 in that the residual signal is targeted in FIG. 23 in place of the processing intended for the speech waveform in FIG. 11 (steps S2301 to S2311). The other processes are the same as those shown in FIG.
[0054]
  FIG. 24 is a flowchart showing another embodiment of the detailed processing procedure in step S2204 of the filtering process shown in FIG. 24 differs from the flowchart shown in FIG. 14 in that the residual signal in FIG. 24 is used instead of the processing in FIG. 14 (steps S2401 to S2407). The other processes are the same as those shown in FIG.
[0055]
  FIG. 25 is a block diagram showing details of another embodiment when the speech unit is stored in the speech unit storage unit 1 as a spectrum parameter and a residual signal in the speech synthesis apparatus shown in FIG. In FIG. 25, the spectrum parameter storage unit 12, the residual signal storage unit 13, the spectrum parameter selection unit 22, and the residual signal selection unit 23 are the same as those in FIG. Reference numeral 42 denotes a spectrum parameter adjustment unit, which changes the frequency characteristics according to the phoneme symbol string input to the spectrum parameter selected by the spectrum parameter selection unit 22. Reference numeral 33 denotes a segment waveform generation unit that generates a speech segment waveform using the spectrum parameter whose frequency characteristics have been changed by the spectrum parameter adjustment unit 42 and the residual signal selected by the residual signal selection unit 23. . The prosody control unit 31 is the same as that shown in FIG. 19, and the segment waveform connecting unit 32 is the same as that shown in FIG. In FIG. 25, the prosody control unit 31 may be arranged between the residual signal selection unit 23 and the segment waveform generation unit 33. A configuration excluding the prosody control unit 31 is also possible.
[0056]
  FIG. 26 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 26 differs from the flowchart shown in FIG. 20 in that step S403 for adjusting spectral parameters is adopted instead of step S303 for performing filtering on the residual signal before generating the segment waveform. A step S403 performs a spectral parameter adjustment process for changing the frequency characteristic according to the phoneme symbol string input in the step S11 with respect to the spectral parameter selected in the step S202. Other processes are the same as those shown in FIG.
[0057]
  FIG. 27 is a flowchart showing an embodiment of a detailed processing procedure in step S403 shown in FIG. 27 differs from the flowchart shown in FIG. 7 in that the spectral parameter is targeted in FIG. 27 instead of the processing targeted for the speech waveform in FIG. 7 (steps S3101 to S3108). Other processes are the same as the processes shown in FIG. In addition, the processing for spectral parameters is the same for the frequency characteristics to be changed, such as attenuation of high-frequency components, and a specific method for changing frequency characteristics is to use a signal processing filter for waveforms. However, in the case of a spectrum parameter, it can be realized by expressing the parameter as spectrum information on the frequency axis and giving a gain based on a desired frequency characteristic (the same applies to FIGS. 28 to 30 below).
[0058]
  FIG. 28 is a flowchart showing another embodiment of the detailed processing procedure in step S403 shown in FIG. 28 differs from the flowchart shown in FIG. 10 in that the spectral parameter in FIG. 28 is used instead of the processing in FIG. 10 (steps S3201 to S3208). Other processes are the same as those shown in FIG.
[0059]
  FIG. 29 is a flowchart showing an embodiment of a detailed processing procedure in step S3204 of the parameter adjustment processing shown in FIG. 29 differs from the flowchart shown in FIG. 11 in that the spectral parameter is targeted in FIG. 29 in place of the processing intended for the speech waveform in FIG. 11 (steps S3301 to S3311). Other processes are the same as those shown in FIG.
[0060]
  FIG. 30 is a flowchart showing another embodiment of the detailed processing procedure in step S3204 of the parameter adjustment processing shown in FIG. 30 is different from the flowchart shown in FIG. 14 in that the spectral parameter in FIG. 30 is used instead of the processing in FIG. 14 (steps S3401 to S3407). Other processes are the same as those shown in FIG.
[0061]
  FIG. 31 is a block diagram showing details of another embodiment in the case where the speech unit is stored in the speech unit storage unit 1 as a spectral parameter and a residual signal in the speech synthesis apparatus shown in FIG. In FIG. 31, the spectral parameter storage unit 12, the residual signal storage unit 13, the spectral parameter selection unit 22, and the residual signal selection unit 23 are the same as in FIG. 17, and the filter unit 41 is the same as in FIG. Omitted. A prosody control unit 31 controls the prosody according to the prosodic information input to the residual signal whose frequency characteristic has been changed by the filter unit 41 and the spectrum parameter selected by the spectrum parameter selection unit 22. Reference numeral 34 denotes a waveform generation unit that generates a synthesized speech waveform using the spectrum parameter and the residual signal whose prosody is controlled by the prosody control unit 31. In FIG. 31, the prosody control unit 31 may be arranged between the residual signal selection unit 23 and the filter unit 41. A configuration excluding the prosody control unit 31 is also possible.
[0062]
  FIG. 32 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 32 differs from the flowchart shown in FIG. 20 in that step S504 for performing prosody control for spectral parameters and residual signals is employed instead of steps S304 and S104 for generating segment waveforms and performing prosody control for the segment waveforms. However, instead of step S106 for connecting and outputting the segment waveform, step S506 for generating and outputting the waveform is adopted. In step S504, the prosody is controlled according to the input prosodic information for the spectrum parameter selected in step S202 and the residual signal whose frequency characteristics have been changed in step S303. In step S506, a synthesized speech waveform is generated and output using the spectrum parameter whose prosody was controlled in step S504 and the residual signal. Other processes are the same as those shown in FIG.
[0063]
  FIG. 33 is a block diagram showing details of another embodiment in the case where a speech unit is stored in the speech unit storage unit 1 as a spectral parameter and a residual signal in the speech synthesis apparatus shown in FIG. 33, the spectral parameter storage unit 12, the residual signal storage unit 13, the spectral parameter selection unit 22, and the residual signal selection unit 23 are the same as in FIG. 17, and the spectral parameter adjustment unit 42 is the same as in FIG. Description is omitted. A prosody control unit 31 controls the prosody according to the prosody information input to the residual signal selected by the residual signal selection unit 23 and the spectrum parameter whose frequency characteristics have been changed by the spectral parameter adjustment unit 42. The waveform generator 34 is the same as that shown in FIG. In FIG. 33, the prosody control unit 31 may be arranged between the spectrum parameter selection unit 22 and the spectrum parameter adjustment unit 42. A configuration excluding the prosody control unit 31 is also possible.
[0064]
  FIG. 34 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 34 differs from the flowchart shown in FIG. 32 in that step S603 for adjusting spectral parameters is employed instead of step S303 for performing filtering on the residual signal. In step S603, a spectral parameter adjustment process is performed for changing the frequency characteristic according to the phoneme symbol string input in step S11 with respect to the spectral parameter selected in step S202. Other processes are the same as those shown in FIG.
[0065]
  The embodiments of the present invention have been described above. In the present invention, the segment waveform stored in the segment waveform storage unit 11, or the spectrum parameter stored in the spectrum parameter storage unit 12 and the residual signal stored in the residual signal storage unit 13. Thus, by assigning in advance phonological symbol information indicating a distinction such as “voiced / unvoiced sound” or “vowel / consonant” corresponding to the input phonological symbol sequence, the filter unit 41 changes the frequency characteristics according to the phonological symbol sequence. However, the frequency characteristics can be changed according to the phoneme symbol information, so that the processing can be reduced.
[0066]
  In the present invention, not only the phoneme symbol information but also its discrimination feature information is given to the speech unit in advance, and the frequency characteristics can be changed according to the discrimination feature information given to the speech unit. Regarding the discrimination feature, “Niimi:“ Information Science Course E.19.3 Speech Recognition ”, Kyoritsu Shuppan (1979)” may be referred to. In this case, in the switching process according to the information of only “voiced / unvoiced sound” or “vowel / consonant” in FIG. 7 or FIG. 10, “continuity / interruptibility”, “nasal / mouth sound” and “aggregation” The processing can be switched in consideration of information such as “/ diffusibility”. Even in the case of following phonological symbol information, it is possible to prepare a switching process for each phonological symbol, instead of distinguishing between “voiced / unvoiced” and “vowel / consonant”. Furthermore, in the present invention, a simple sound source signal such as an impulse or a white noise signal may be used in place of the residual signal for the configuration or processing in which the speech unit is handled as the spectral parameter and the residual signal.
[0067]
【The invention's effect】
According to the present invention, by changing the frequency characteristics according to whether the phoneme of the input phoneme symbol string is a voiced sound, an unvoiced sound, a vowel or a consonant, Spectral shape distortion can be reduced, and thus sound quality can be improved.
[0068]
  Further, according to the present invention, the frequency characteristic is changed according to the phoneme symbol information or the discrimination feature information given to the phoneme unit, so that the processing can be reduced by referring to the input phoneme symbol string only when the phoneme unit is selected. Can do.
[0069]
  Further, according to the present invention, the amount of data necessary for expressing a speech unit can be reduced by storing the speech unit in the form of a spectrum parameter and a residual signal or a sound source signal.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an embodiment of a speech synthesizer according to the present invention.
FIG. 2 is a block diagram showing another embodiment of the speech synthesizer according to the present invention.
FIG. 3 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 1;
4 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 2;
FIG. 5 is a block diagram showing details of an embodiment when a speech unit is stored as a waveform in the speech unit storage unit 1 in the speech synthesizer shown in FIG. 2;
6 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 5. FIG.
7 is a flowchart showing an embodiment of a detailed processing procedure in step S103 of the filtering process shown in FIG.
FIG. 8 is a diagram showing an embodiment of frequency characteristics used in step S1105 of the filter processing shown in FIG.
FIG. 9 is a diagram showing an embodiment of frequency characteristics used in step S1104 of the filter processing shown in FIG.
FIG. 10 is a flowchart showing another embodiment of a detailed processing procedure in step S103 of the filter processing shown in FIG.
FIG. 11 is a flowchart showing an embodiment of a detailed processing procedure in step S1204 of the filtering process shown in FIG. 10;
12 is a diagram showing an embodiment of frequency characteristics used in step S1305 of the filter processing shown in FIG.
13 is a diagram showing an embodiment of frequency characteristics used in step S1310 of the filter processing shown in FIG.
14 is a flowchart showing another embodiment of a detailed processing procedure in step S1204 of the filtering process shown in FIG.
15 is a block diagram showing an embodiment of a speech segment creation device stored in the segment waveform storage section 11 shown in FIG. 5. FIG.
16 is a flowchart showing a processing procedure in the embodiment of the speech segment creation device shown in FIG. 15;
17 is a block diagram showing details of an embodiment in the case where a speech unit is stored as a spectrum parameter and a residual signal in the speech unit storage unit 1 in the speech synthesizer shown in FIG. 2. FIG.
FIG. 18 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 17;
FIG. 19 is a block diagram showing details of another embodiment in the case where speech units are stored as spectrum parameters and residual signals in the speech unit storage unit 1 in the speech synthesizer shown in FIG. 2;
20 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG.
FIG. 21 is a flowchart showing an embodiment of a detailed processing procedure in step S303 of the filtering process shown in FIG.
22 is a flowchart showing another embodiment of a detailed processing procedure in step S303 of the filtering process shown in FIG.
FIG. 23 is a flowchart showing an embodiment of a detailed processing procedure in step S2204 of the filtering process shown in FIG.
24 is a flowchart showing another embodiment of a detailed processing procedure in step S2204 of the filter processing shown in FIG.
FIG. 25 is a block diagram showing details of another embodiment when the speech unit is stored in the speech unit storage unit 1 as a spectral parameter and a residual signal in the speech synthesis apparatus shown in FIG. 2;
FIG. 26 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 25;
FIG. 27 is a flowchart showing an embodiment of a detailed processing procedure in step S403 of the parameter adjustment processing shown in FIG.
FIG. 28 is a flowchart showing another embodiment of a detailed processing procedure in step S403 of the parameter adjustment processing shown in FIG.
FIG. 29 is a flowchart showing an embodiment of a detailed processing procedure in step S3204 of the parameter adjustment processing shown in FIG.
30 is a flowchart showing another embodiment of a detailed processing procedure in step S3204 of the parameter adjustment processing shown in FIG. 28. FIG.
FIG. 31 is a block diagram showing details of another embodiment in the case where speech units are stored as spectrum parameters and residual signals in the speech unit storage unit 1 in the speech synthesizer shown in FIG. 2;
32 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 31. FIG.
33 is a block diagram showing details of another embodiment when the speech unit is stored in the speech unit storage unit 1 as a spectral parameter and a residual signal in the speech synthesis apparatus shown in FIG. 2; FIG.
34 is a flowchart showing a processing procedure in the embodiment of the speech synthesizer shown in FIG. 33. FIG.
[Explanation of symbols]
1 Speech unit storage
2 selection part
3 connections
4 Frequency characteristics change section
5 Speech segment generator
11 Fragment waveform storage
12 Spectrum parameter storage
13 Residual signal storage
21 Segment waveform selector
22 Spectral parameter selector
23 Residual signal selector
24 unit waveform generator
31 Prosody control section
32 unit waveform connection
33 Segment waveform generator
34 Waveform generator
41 Filter section
42 Spectral parameter adjustment unit
51 Unit waveform candidate storage
52 Average spectral parameter storage
53 Filter section
54 Spectral parameter adjustment unit
55 Spectral distortion calculator
56 Segment waveform selector

Claims (10)

音韻記号列に基づいて音声素片を接続して音声を合成する音声合成装置において、
前記音韻記号列の音韻に基づいて前記音声素片の周波数特性を変更する周波数特性変更部を備え、
前記音声素片には、端部の音韻が有声音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片の音韻波形が有声音であるか無声音であるかを判別する有声音・無声音判別部と、
前記有声音・無声音判別部によって有声音であると判別された前記音声素片中の音韻波形に対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う有声音用フィルタ処理部と、
前記有声音・無声音判別部によって無声音であると判別された前記音声素片中の音韻波形に対して、前記第2フィルタを用いて、実質的に周波数特性変更を行わない無声音用フィルタ処理部と
を含むと共に、
前記音声素片の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記有声音用フィルタ処理部および前記無声音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置。
In a speech synthesizer that synthesizes speech by connecting speech units based on a phoneme symbol string,
A frequency characteristic changing unit that changes a frequency characteristic of the speech unit based on a phoneme of the phoneme symbol string;
The speech unit includes a speech unit whose end phoneme is a voiced sound,
The frequency characteristic changing unit is
A first filter having a frequency characteristic for attenuating high frequency components;
A second filter having a frequency characteristic that does not change all frequency components;
A voiced / unvoiced sound discriminating unit for determining whether a phoneme waveform in the speech segment is a voiced sound or an unvoiced sound;
Yes that respect phoneme waveforms during pre Symbol speech units is determined to be voiced by said voiced-unvoiced discrimination unit, by using the first filter, the frequency characteristic changes to attenuate the high frequency components A voice sound filter processing unit;
Wherein the voiced-unvoiced discrimination unit against phoneme waveforms in prior Symbol speech units is determined to be unvoiced, using the second filter, substantially unvoiced filter processing unit does not change the frequency characteristic And including
The frequency characteristics of the speech units are changed so as to reduce the distortion of the spectral shape that occurs when connecting each speech unit ,
Speech synthesis apparatus characterized by there use the speech segments processed by said voiced sound filtering unit and the unvoiced filter processing section, a speech unit for the speech synthesis.
音韻記号列に基づいて音声素片を接続して音声を合成する音声合成装置において、
前記音韻記号列の音韻に基づいて前記音声素片の周波数特性を変更する周波数特性変更部を備え、
前記音声素片には、端部の音韻が母音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片の音韻波形が母音であるか子音であるかを判別する母音・子音判別部と、
前記母音・子音判別部によって母音であると判別された前記音声素片中の音韻波形に対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う母音用フィルタ処理部と、
前記母音・子音判別部によって子音であると判別された前記音声素片中の音韻波形に対して、前記第2フィルタを用いて実質的に周波数特性変更を行わない子音用フィルタ処理部と
を含むと共に、
前記音声素片の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記母音用フィルタ処理部および前記子音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置。
In a speech synthesizer that synthesizes speech by connecting speech units based on a phoneme symbol string,
A frequency characteristic changing unit that changes a frequency characteristic of the speech unit based on a phoneme of the phoneme symbol string;
The speech unit includes a speech unit whose end phoneme is a vowel,
The frequency characteristic changing unit is
A first filter having a frequency characteristic for attenuating high frequency components;
A second filter having a frequency characteristic that does not change all frequency components;
A vowel / consonant discriminating unit for discriminating whether a phoneme waveform in the speech segment is a vowel or a consonant;
Against phoneme waveforms during pre Symbol speech units wherein it is determined that vowel by vowel-consonant discrimination unit, the first using a filter, vowel filter for performing a frequency characteristic changes to attenuate the high frequency components A processing unit;
Against phoneme waveforms during pre Symbol speech segments it is determined that consonant by said vowel-consonant determination unit, and a consonant filter processing unit is not performed substantially frequency characteristic change by using the second filter Including
The frequency characteristics of the speech units are changed so as to reduce the distortion of the spectral shape that occurs when connecting each speech unit ,
Speech synthesis apparatus characterized by there use the speech segments is processed by the vowel filter processing unit and the consonant filter processing section, a speech unit for the speech synthesis.
前記周波数特性変更部における前記有声音・無声音判別部あるいは母音・子音判別部は、音声素片に付加された音韻記号情報に基づいて前記判別を行うことを特徴とする請求項1あるいは請求項2に記載の音声合成装置。  3. The voiced / unvoiced sound discriminating unit or vowel / consonal sound discriminating unit in the frequency characteristic changing unit performs the discrimination based on phonological symbol information added to a speech segment. The speech synthesizer described in 1. 音声素片のスペクトルパラメータおよび残差信号を格納する音声素片格納部と、
入力された音韻記号列に従って、前記音声素片格納部から入力音韻のスペクトルパラメータおよび残差信号を選択する選択部と、
前記選択された残差信号の音韻に基づいて前記残差信号の周波数特性を変更する周波数特性変更部と、
前記選択されたスペクトルパラメータと前記周波数特性が変更された残差信号とに基づいて音声素片を生成すると共に、生成された各音声素片を接続して合成音声を生成する接続部と
を備え、
前記音声素片には、端部の音韻が有声音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片中の音韻残差信号が有声音であるか無声音であるかを判別する有声音・無声音判別部と、
前記有声音・無声音判別部によって有声音であると判別された前音声素片中の音韻残差信号に対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う有声音用フィルタ処理部と、
前記有声音・無声音判別部によって無声音であると判別された前音声素片中の音韻残差信号に対して、前記第2フィルタを用いて、実質的に周波数特性変更を行わない無声音用フィルタ処理部と
を含むと共に、
前記残差信号の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記有声音用フィルタ処理部および前記無声音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置。
A speech unit storage unit for storing spectral parameters and residual signals of speech units;
According to the input phoneme symbol string, a selection unit that selects a spectrum parameter and a residual signal of the input phoneme from the speech unit storage unit,
A frequency characteristic changing unit that changes a frequency characteristic of the residual signal based on a phoneme of the selected residual signal;
A speech unit is generated based on the selected spectrum parameter and the residual signal whose frequency characteristics are changed, and a connection unit that generates a synthesized speech by connecting the generated speech units. ,
The speech unit includes a speech unit whose end phoneme is a voiced sound,
The frequency characteristic changing unit is
A first filter having a frequency characteristic for attenuating high frequency components;
A second filter having a frequency characteristic that does not change all frequency components;
And voiced-unvoiced discrimination unit that phonological Zansashin No. in the speech unit is determined whether the unvoiced either a voiced sound,
Against phoneme residual signal during a previous SL speech units it is determined to be voiced by said voiced-unvoiced discrimination unit, by using the first filter, the frequency characteristic changes to attenuate the high frequency components A voiced sound filter processing unit,
Against phoneme residual signal during a previous SL speech units it is determined to be unvoiced by said voiced-unvoiced discrimination unit, the second with a filter, unvoiced filter is not performed substantially frequency characteristic change And a processing unit,
The frequency characteristics of the residual signal are changed so as to reduce the distortion of the spectral shape that occurs when each speech unit is connected ,
Speech synthesis apparatus characterized by there use the speech segments processed by said voiced sound filtering unit and the unvoiced filter processing section, a speech unit for the speech synthesis.
音声素片のスペクトルパラメータおよび残差信号を格納する音声素片格納部と、
入力された音韻記号列に従って、前記音声素片格納部から入力音韻のスペクトルパラメータおよび残差信号を選択する選択部と、
前記選択された残差信号の音韻に基づいて前記残差信号の周波数特性を変更する周波数特性変更部と、
前記選択されたスペクトルパラメータと前記周波数特性が変更された残差信号とに基づいて音声素片を生成すると共に、生成された各音声素片を接続して合成音声を生成する接続部と
を備え、
前記音声素片には、端部の音韻が母音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片中の音韻残差信号が母音であるか子音であるかを判別する母音・子音判別部と、
前記母音・子音判別部によって母音であると判別された前音声素片中の音韻残差信号に対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う母音用フィルタ処理部と、
前記母音・子音判別部によって子音であると判別された前音声素片中の音韻残差信号に対して、前記第2フィルタを用いて実質的に周波数特性変更を行わない子音用フィルタ処理部と
を含むと共に、
前記残差信号の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記母音用フィルタ処理部および前記子音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置。
A speech unit storage unit for storing spectral parameters and residual signals of speech units;
According to the input phoneme symbol string, a selection unit that selects a spectrum parameter and a residual signal of the input phoneme from the speech unit storage unit,
A frequency characteristic changing unit that changes a frequency characteristic of the residual signal based on a phoneme of the selected residual signal;
A speech unit is generated based on the selected spectrum parameter and the residual signal whose frequency characteristics are changed, and a connection unit that generates a synthesized speech by connecting the generated speech units. ,
The speech unit includes a speech unit whose end phoneme is a vowel,
The frequency characteristic changing unit is
A first filter having a frequency characteristic for attenuating high frequency components;
A second filter having a frequency characteristic that does not change all frequency components;
And vowel-consonant discrimination unit phonological Zansashin No. in the speech unit is determined whether a consonant or a vowel,
Vowel against phoneme residual signal during a previous SL speech units is determined to be a vowel by the vowel-consonant determination unit, by using the first filter, the frequency characteristic changes to attenuate the high frequency components Filter processing unit,
The relative phoneme residual signal before Symbol in speech segments is determined that consonant by vowel-consonant discrimination unit, the second is not performed substantially frequency characteristic change using a filter consonant filter unit And including
The frequency characteristics of the residual signal are changed so as to reduce the distortion of the spectral shape that occurs when each speech unit is connected ,
Speech synthesis apparatus characterized by there use the speech segments is processed by the vowel filter processing unit and the consonant filter processing section, a speech unit for the speech synthesis.
音声素片のスペクトルパラメータおよび残差信号を格納する音声素片格納部と、
入力された音韻記号列に従って、前記音声素片格納部から入力音韻のスペクトルパラメータおよび残差信号を選択する選択部と、
前記選択されたスペクトルパラメータの音韻に基づいて前記スペクトルパラメータの周波数特性を変更する周波数特性変更部と、
前記周波数特性が変更されたスペクトルパラメータと前記選択された残差信号とに基づいて音声素片を生成すると共に、生成された各音声素片を接続して合成音声を生成する接続部と
を備え、
前記音声素片には、端部の音韻が有声音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片中の音韻スペクトルパラメータが有声音であるか無声音であるかを判別する有声音・無声音判別部と、
前記有声音・無声音判別部によって有声音であると判別された前音声素片中の音韻スペクトルパラメータに対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う有声音用フィルタ処理部と、
前記有声音・無声音判別部によって無声音であると判別された前音声素片中の音韻スペクトルパラメータに対して、前記第2フィルタを用いて、実質的に周波数特性変更を行わない無声音用フィルタ処理部と
を含むと共に、
前記スペクトルパラメータの周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記有声音用フィルタ処理部および前記無声音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置。
A speech unit storage unit for storing spectral parameters and residual signals of speech units;
According to the input phoneme symbol string, a selection unit that selects a spectrum parameter and a residual signal of the input phoneme from the speech unit storage unit,
A frequency characteristic changing unit that changes the frequency characteristic of the spectral parameter based on the phoneme of the selected spectral parameter;
A speech unit is generated based on the spectrum parameter whose frequency characteristic has been changed and the selected residual signal, and a connection unit that generates a synthesized speech by connecting the generated speech units. ,
The speech unit includes a speech unit whose end phoneme is a voiced sound,
The frequency characteristic changing unit is
A first filter having a frequency characteristic for attenuating high frequency components;
A second filter having a frequency characteristic that does not change all frequency components;
And voiced-unvoiced discrimination unit phoneme spectrum parameter in the speech unit is determined whether the unvoiced either a voiced sound,
Against phoneme spectrum parameter in previous SL speech units it is determined to be voiced by said voiced-unvoiced discrimination unit, by using the first filter, the frequency characteristic changes to attenuate the high frequency components A voiced sound filter processing unit;
Against phoneme spectrum parameter in previous SL speech units is determined to be unvoiced by said voiced-unvoiced discrimination unit, the second with a filter, substantially unvoiced filtering not changed frequency characteristics And include
The frequency characteristics of the spectrum parameters are changed so as to reduce the distortion of the spectrum shape that occurs when connecting each speech unit ,
Speech synthesis apparatus characterized by there use the speech segments processed by said voiced sound filtering unit and the unvoiced filter processing section, a speech unit for the speech synthesis.
音声素片のスペクトルパラメータおよび残差信号を格納する音声素片格納部と、
入力された音韻記号列に従って、前記音声素片格納部から入力音韻のスペクトルパラメータおよび残差信号を選択する選択部と、
前記選択されたスペクトルパラメータの音韻に基づいて前記スペクトルパラメータの周波数特性を変更する周波数特性変更部と、
前記周波数特性が変更されたスペクトルパラメータと前記選択された残差信号とに基づいて音声素片を生成すると共に、生成された各音声素片を接続して合成音声を生成する接続部と
を備え、
前記音声素片には、端部の音韻が母音である音声素片が含まれており、
前記周波数特性変更部は、
高域周波数成分を減衰させる周波数特性を有する第1フィルタと、
全ての周波数成分を変更させない周波数特性を有する第2フィルタと、
前記音声素片中の音韻スペクトルパラメータが母音であるか子音であるかを判別する母音・子音判別部と、
前記母音・子音判別部によって母音であると判別された前音声素片中の音韻スペクトルパラメータに対して、前記第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う母音用フィルタ処理部と、
前記母音・子音判別部によって子音であると判別された前音声素片中の音韻スペクトルパラメータに対して、前記第2フィルタを用いて実質的に周波数特性変更を行わない子音用フィルタ処理部と
を含むと共に、
前記スペクトルパラメータの周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更するようになっており、
前記母音用フィルタ処理部および前記子音用フィルタ処理部によって処理された前記音声素片を、前記音声合成用の音声素片として用いる
ことを特徴とする音声合成装置。
A speech unit storage unit for storing spectral parameters and residual signals of speech units;
According to the input phoneme symbol string, a selection unit that selects a spectrum parameter and a residual signal of the input phoneme from the speech unit storage unit,
A frequency characteristic changing unit that changes the frequency characteristic of the spectral parameter based on the phoneme of the selected spectral parameter;
A speech unit is generated based on the spectrum parameter whose frequency characteristic has been changed and the selected residual signal, and a connection unit that generates a synthesized speech by connecting the generated speech units. ,
The speech unit includes a speech unit whose end phoneme is a vowel,
The frequency characteristic changing unit is
A first filter having a frequency characteristic for attenuating high frequency components;
A second filter having a frequency characteristic that does not change all frequency components;
A vowel / consonant discriminating unit for discriminating whether a phoneme spectrum parameter in the speech unit is a vowel or a consonant;
Against phoneme spectrum parameter in previous SL speech units it is determined to be a vowel by the vowel-consonant determination unit, by using the first filter, for vowels that performs frequency characteristic changes to attenuate the high frequency components A filter processing unit;
Against phoneme spectrum parameter in previous SL speech segments it is determined that consonant by said vowel-consonant determination unit, and the consonant filter processing unit is not performed substantially frequency characteristic change by using the second filter Including
The frequency characteristics of the spectrum parameters are changed so as to reduce the distortion of the spectrum shape that occurs when connecting each speech unit ,
Speech synthesis apparatus characterized by there use the speech segments is processed by the vowel filter processing unit and the consonant filter processing section, a speech unit for the speech synthesis.
音韻記号列に基づいて音声素片を接続して音声を合成する音声合成方法において、
前記音韻記号列の音韻に基づいて前記音声素片の周波数特性を変更する周波数特性変更ステップを備え、
前記音声素片には、端部の音韻が有声音である音声素片が含まれており、
前記周波数特性変更ステップは、
前記音声素片の音韻波形が有声音であるか無声音であるかを判別する有声音・無声音判別ステップと、
有声音であると判別された前記音声素片中の音韻波形に対して、高域周波数成分を減衰させる周波数特性を有する第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う有声音用フィルタ処理ステップと、
無声音であると判別された前記音声素片中の音韻波形に対して、全ての周波数成分を変更させない周波数特性を有する第2フィルタを用いて、実質的に周波数特性変更を行わない無声音用フィルタ処理ステップと
を含むと共に、
前記音声素片の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更し、
前記有声音用フィルタ処理ステップおよび前記無声音用フィルタ処理ステップで処理された前記音声素片を、前記音声合成用の音声素片として用い
ことを特徴とする音声合成方法。
In a speech synthesis method for synthesizing speech by connecting speech units based on a phoneme symbol string,
A frequency characteristic changing step of changing a frequency characteristic of the speech unit based on a phoneme of the phoneme symbol string;
The speech unit includes a speech unit whose end phoneme is a voiced sound,
The frequency characteristic changing step includes:
A voiced / unvoiced sound discrimination step for determining whether a phoneme waveform in the speech segment is a voiced sound or an unvoiced sound;
Against phoneme waveform before Symbol in speech segments is determined as a voiced, using a first filter having a frequency characteristic which attenuates high frequency components, the frequency characteristic changes to attenuate the high frequency components Performing a voiced sound filtering step;
Against phoneme waveform before Symbol in speech units is determined to be unvoiced, using a second filter having a frequency characteristic which does not change all the frequency components, unvoiced filter is not performed substantially frequency characteristic change Processing steps, and
Change the frequency characteristics of the speech units so as to reduce the distortion of the spectral shape that occurs when connecting each speech unit ,
Speech synthesis method comprising Rukoto using the speech segments is processed by the voiced sound filtering step and the unvoiced sound filtering step, as speech units for the speech synthesis.
音韻記号列に基づいて音声素片を接続して音声を合成する音声合成方法において、
前記音韻記号列の音韻に基づいて前記音声素片の周波数特性を変更する周波数特性変更ステップを備え、
前記音声素片には、端部の音韻が母音である音声素片が含まれており、
前記周波数特性変更ステップは、
前記音声素片の音韻波形が母音であるか子音であるかを判別する母音・子音判別ステップと、
母音であると判別された前記音声素片中の音韻波形に対して、高域周波数成分を減衰させる周波数特性を有する第1フィルタを用いて、高域周波数成分を減衰させる周波数特性変更を行う母音用フィルタ処理ステップと、
子音であると判別された前記音声素片中の音韻波形に対して、全ての周波数成分を変更させない周波数特性を有する第2フィルタを用いて実質的に周波数特性変更を行わない子音用フィルタ処理ステップと
を含むと共に、
前記音声素片の周波数特性を、各音声素片を接続する際に生ずるスペクトル形状の歪みを低減するように変更し、
前記母音用フィルタ処理ステップおよび前記子音用フィルタ処理ステップで処理された前記音声素片を、前記音声合成用の音声素片として用い
ことを特徴とする音声合成方法。
In a speech synthesis method for synthesizing speech by connecting speech units based on a phoneme symbol string,
A frequency characteristic changing step of changing a frequency characteristic of the speech unit based on a phoneme of the phoneme symbol string;
The speech unit includes a speech unit whose end phoneme is a vowel,
The frequency characteristic changing step includes:
A vowel / consonant discrimination step for discriminating whether a phoneme waveform in the speech segment is a vowel or a consonant;
Against phoneme waveform before Symbol in speech segments is determined as a vowel, using a first filter having a frequency characteristic which attenuates high frequency components, the frequency characteristic changes to attenuate the high frequency components A vowel filtering step;
Against phoneme waveform before Symbol in speech segments is determined as a consonant, consonant filter processing is not performed substantially frequency characteristic change using a second filter having a frequency characteristic which does not change all the frequency components Including steps,
Change the frequency characteristics of the speech units so as to reduce the distortion of the spectral shape that occurs when connecting each speech unit ,
Speech synthesis method comprising Rukoto using the speech segments is processed by the vowel filter processing step and the consonant filter processing step, as speech units for the speech synthesis.
コンピュータに、
請求項8あるいは請求項9に記載の各ステップを実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
On the computer,
A computer-readable recording medium on which a program for executing each step according to claim 8 or 9 is recorded.
JP28232499A 1999-10-04 1999-10-04 Speech synthesis apparatus, speech synthesis method, and recording medium recording speech synthesis program Expired - Fee Related JP4619469B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28232499A JP4619469B2 (en) 1999-10-04 1999-10-04 Speech synthesis apparatus, speech synthesis method, and recording medium recording speech synthesis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28232499A JP4619469B2 (en) 1999-10-04 1999-10-04 Speech synthesis apparatus, speech synthesis method, and recording medium recording speech synthesis program

Publications (2)

Publication Number Publication Date
JP2001109485A JP2001109485A (en) 2001-04-20
JP4619469B2 true JP4619469B2 (en) 2011-01-26

Family

ID=17650940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28232499A Expired - Fee Related JP4619469B2 (en) 1999-10-04 1999-10-04 Speech synthesis apparatus, speech synthesis method, and recording medium recording speech synthesis program

Country Status (1)

Country Link
JP (1) JP4619469B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
JP6121606B1 (en) * 2016-08-25 2017-04-26 フロンティアマーケット株式会社 Hearing training apparatus, operating method of hearing training apparatus, and program

Also Published As

Publication number Publication date
JP2001109485A (en) 2001-04-20

Similar Documents

Publication Publication Date Title
JP3408477B2 (en) Semisyllable-coupled formant-based speech synthesizer with independent crossfading in filter parameters and source domain
EP1643486B1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
JP2787179B2 (en) Speech synthesis method for speech synthesis system
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
US20040073427A1 (en) Speech synthesis apparatus and method
JPH031200A (en) Regulation type voice synthesizing device
US6212501B1 (en) Speech synthesis apparatus and method
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
Karlsson Female voices in speech synthesis
O'Shaughnessy et al. Diphone speech synthesis
US7280969B2 (en) Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
JP2001109500A (en) Voice synthesis device and voice synthesis method
JP4619469B2 (en) Speech synthesis apparatus, speech synthesis method, and recording medium recording speech synthesis program
JP2904279B2 (en) Voice synthesis method and apparatus
JP4648878B2 (en) Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof
Mandal et al. Epoch synchronous non-overlap-add (ESNOLA) method-based concatenative speech synthesis system for Bangla.
JP3681111B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
JP2001034284A (en) Voice synthesizing method and voice synthesizer and recording medium recorded with text voice converting program
JP2001109488A (en) Phoneme generation device, phoneme generation method and recording medium recording phoneme generation program
JPH09179576A (en) Voice synthesizing method
WO2023182291A1 (en) Speech synthesis device, speech synthesis method, and program
JP4872690B2 (en) Speech synthesis method, speech synthesis program, speech synthesizer
JP2577372B2 (en) Speech synthesis apparatus and method
Karlsson Controlling voice quality of synthetic speech.
JPH11109992A (en) Phoneme database creating method, voice synthesis method, phoneme database, voice element piece database preparing device and voice synthesizer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051201

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20071205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090202

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100930

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101027

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees