JPH10254495A - 音声合成方法及び音声合成装置 - Google Patents

音声合成方法及び音声合成装置

Info

Publication number
JPH10254495A
JPH10254495A JP9057521A JP5752197A JPH10254495A JP H10254495 A JPH10254495 A JP H10254495A JP 9057521 A JP9057521 A JP 9057521A JP 5752197 A JP5752197 A JP 5752197A JP H10254495 A JPH10254495 A JP H10254495A
Authority
JP
Japan
Prior art keywords
audio signal
minimum point
speech synthesis
speech
synthesis unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9057521A
Other languages
English (en)
Other versions
JP3532059B2 (ja
Inventor
Yukio Tabei
幸雄 田部井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP05752197A priority Critical patent/JP3532059B2/ja
Publication of JPH10254495A publication Critical patent/JPH10254495A/ja
Application granted granted Critical
Publication of JP3532059B2 publication Critical patent/JP3532059B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】 【課題】 重畳中心点を容易に設定でき、音声合成処理
時の処理量を減少させると共に、位相変化を自動的に補
正することができるようにする。 【解決手段】 音声信号のピーク直前の極小点を検出す
る工程と、検出された極小点を中心にセンタリングして
前記音声信号を切り出す工程とにより音声合成素片を予
め作成しておき、前記音声合成素片中の極小点を重畳の
中心として、ピッチ周期分ずらしながら窓掛け重畳す
る。前記音声信号の切出し工程の次に、切り出された音
声信号にピッチ周期の定数倍の窓を掛ける工程を設け
る。また、前記極小点検出工程の前に、音声信号の正負
を適宜反転させて音声信号全体の正負を整合させる工程
を設ける。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、規則によって任意
の音声を合成する音声合成方法及び音声合成装置に関
し、特に、音声波形を接続して合成音声を得る音声合成
方法および音声合成装置に関する。
【0002】
【従来の技術】従来のテキスト音声変換装置、即ちテキ
スト文章を音声に変換して出力するテキスト音声変換装
置としては、テキスト解析部とパラメータ生成部と音声
合成部とから構成された装置が一般に知られている。テ
キスト解析部では、漢字かな混じり文が入力され、単語
辞書を参照して形態素解析がなされて、読み、アクセン
ト、イントネーションが決定され、韻律記号付き発音記
号(中間言語)が出力される。パラメータ生成部では、
ピッチ周波数パターンや音韻継続時間等の設定が行われ
る。音声合成部では、音声の合成処理が行われる。この
音声合成部での音声合成処理としては、以前は線形予測
法などが用いられていたが、これらの方法では情報が劣
化してしまう。即ち、本来相互関係がある声道情報と音
源情報を分離して扱っていたため、また、音声生成過程
のモデル化による制約のため、音質の劣化は避けられな
かった。このため、近年、声道情報と音源情報とを分離
せず、さらに原音声波形をそのまま利用して人工的なモ
デル化なしで、品質劣化の少ない高品質の合成音を得る
手法が用いられるようになってきた。
【0003】音声波形をそのまま利用する方法として
は、従来、文献:「“F.J. CHARPENTIER,M.G. STELL
A,DIPHONE SYNTHESIS USING AN OVERLAP-ADD TECHNIQU
E FOR SPEECH WAVEFORMS CONCATENATION”,Proc.Int.C
onf.ASSP,TOKYO,1986 PP2015-2018」に示されるものが
知られている。この方法は、予め音声波形にピッチマー
ク(基準点)を付けておき、そのピッチマークの位置を
中心に音声波形を切り出し、合成時に合成ピッチ周期に
合わせてピッチマーク位置をその周期ずつずらしながら
重ね合わせる合成方法で、PSOLA(Pitch-Synchronous O
verlap Add method)として知られている。
【0004】図2は前記文献から引用したもので、ピッ
チを変更しながら音声波形を重畳するPSOLA法を示す模
式図である。この模式図では、分析時(素片作成時)に
比べて、合成時のピッチ周期を大きくした(音程を低く
した)場合の例を示す。
【0005】このPSOLA法では、必要に応じてピッチを
変更できるため、テキスト音声変換における音声合成部
として広く用いられてきている。この場合、ピッチマー
クを音声波形の1ピッチ毎の特定位置に付けておく必要
があるが、このピッチマークの位置として下記のものが
提案されている。
【0006】(1)音声波形のピークをピッチマークの
設定位置とするものとして、例えば特開平4−3729
99号公報に記載の「音声ピッチ変換方法」がある。
【0007】この場合、音声波形のローカルピーク位置
はエネルギーが集中しているため、切り出し波形のスペ
クトルを保存するのに適していると考えられる。
【0008】(2)短時間パワーのピークをピッチマー
クの設定位置とするものとして、例えば「“波形素片接
続型音声合成システムの検討” 河井 恒、樋口 宜
男、清水徹、山本 誠一 信学技報SP93-9(1993-05)
社団法人 電子情報通信学会」がある。
【0009】この場合も、前記(1)の場合と同様に、
音声波形の短時間パワーのローカルピーク位置はエネル
ギーが集中しているため、切り出し波形のスペクトルを
保存するのに適していると考えられる。
【0010】(3)ピッチフィルタ後のピークをピッチ
マークの設定位置とするものとして、例えば特開平7−
72897号公報に記載の「音声合成方法および装置」
がある。
【0011】ピッチフィルタ後のピークは1ピッチの声
帯の駆動波形のピークであり、前記文献によれば、ピッ
チ間隔を良好に代表するものであると報告されている。
【0012】(4)インパルス駆動点の15%遅延点を
ピッチマークの設定位置とするものとして、例えば
「“ピッチ波形抽出位置の検討” 新居 康彦、西村
洋文、吉田博子、蓑輪 利光 信学技報SP95-8(1995-0
5) 社団法人 電子情報通信学会」がある。
【0013】この文献によると、スペクトル歪みが最小
になると報告されている。
【0014】(5)声門閉鎖点をピッチマークの設定位
置とするものとして、例えば「“波形重畳法を用いた日
本語テキスト音声合成システムについて” 阪本 正
治、斉藤隆、鈴木 和洋、橋本 泰秀、小林 メイ 信
学技報SP95-6(1995-05) 社団法人 電子情報通信学
会」がある。
【0015】この文献の声門閉鎖点とは、インパルス駆
動点(1ピッチ波形の励振点)と同様のものであると考
えられる。この声門閉鎖点を安定的に抽出するために、
Dynamic Wavelet変換が用いられている。
【0016】
【発明が解決しようとする課題】しかしながら、前述の
ような従来のピッチマーク位置では次のような問題点が
あった。
【0017】前記(3)のピッチフィルタ後のピークを
ピッチマークの設定位置とするものでは、本出願人の実
験によれば、波形のピーク位置との間にズレがあり、こ
のズレによるピッチの揺れが大きく、ゴロゴロした音声
になってしまう。(1)の音声波形のピークをピッチマ
ークの設定位置とする方が比較的良好な結果となった。
(2)の短時間のパワーのピークをピッチマークの設定
位置とするものでは、極大値と極小値が対等に評価され
るため、発声者によってはピッチの揺れを生じることが
ある。(4)のインパルス駆動点の15%遅延点をピッ
チマークの設定位置とするものでは、設定位置の特定等
のための処理量が多くなり、処理に遅延を生じ、また個
人や音韻の種類によっては、15%の遅延点が最良とは
限らない。(5)の声門閉鎖点をピッチマークの設定位
置とするものでは、この声門閉鎖点の抽出のために行う
Dynamic Wavelet変換は処理量が多く、前記(4)と同
様に、処理に遅延を生じる。
【0018】本発明は、前記問題点に鑑みてなされたも
ので、比較的簡単な処理でピッチの揺れが少ないピッチ
マークの設定を可能にして、高品質の音声合成方法及び
音声合成装置を実現することを目的とする。
【0019】
【課題を解決するための手段】前記課題を解決するため
に、第1の発明に係る音声合成方法は、音声信号のピー
ク直前の極小点を検出する工程と、検出された極小点を
中心にセンタリングして前記音声信号を切り出す工程と
により音声合成素片を予め作成しておき、前記音声合成
素片中の極小点を重畳の中心として、ピッチ周期分ずら
しながら窓掛け重畳することを特徴とする。
【0020】以上のように、音声信号のピーク直前の極
小点を、切り出す音声信号の中心点にしているので、重
畳する際の中心点を簡易な処理によって容易に設定する
ことができ、スペクトル歪みも小さくすることができ
る。この結果、聴感上ゴロゴロした音が減少した。
【0021】また、一定長さを単位として音声素片を扱
い、フレーム処理を行うことで、音声合成時において、
音声波形データを制御しやすくなる。
【0022】第2の発明に係る音声合成方法は、音声信
号のピッチ周期を検出する工程と、音声信号のピーク直
前の極小点を検出する工程と、検出された極小点を中心
にセンタリングして前記音声信号を切り出す工程と、切
り出された音声信号に前記ピッチ周期の定数倍の窓を掛
ける工程とにより音声合成素片を予め作成しておき、前
記音声合成素片中の極小点を重畳の中心として、ピッチ
周期分ずらしながら重畳することを特徴とする。
【0023】以上のように、求めたピッチ周期に基づい
て予め素片に窓掛けしておくので、音声合成時に窓掛け
処理をする必要がなくなる。この結果、音声合成処理時
の処理量を大幅に減少させることができ、処理装置の簡
素化、又は処理の高速化を図ることができる。
【0024】第3の発明に係る音声合成方法は、音声信
号の正負を適宜反転させて音声信号全体の正負を整合さ
せる工程と、音声信号のピーク直前の極小点を検出する
工程と、検出された極小点を中心にセンタリングして前
記音声信号を切り出す工程とにより音声合成素片を予め
作成しておき、前記音声合成素片中の極小点を重畳の中
心として、ピッチ周期分ずらしながら窓掛け重畳するこ
とを特徴とする。
【0025】以上の構成により、アナログ系の構成の変
化等による位相の変化をディジタル的に補正することが
できる。
【0026】第4の発明に係る音声合成方法は、音声信
号のピッチ周期を検出する工程と、音声信号の正負を適
宜反転させて音声信号全体の正負を整合させる工程と、
音声信号のピーク直前の極小点を検出する工程と、検出
された極小点を中心にセンタリングして前記音声信号を
切り出す工程と、切り出された音声信号に前記ピッチ周
期の定数倍の窓を掛ける工程とにより音声合成素片を予
め作成しておき、前記音声合成素片中の極小点を重畳の
中心として、ピッチ周期分ずらしながら重畳することを
特徴とする。
【0027】以上の構成により、予め素片に窓掛けして
おくので、音声合成処理時の処理量を大幅に減少させる
ことができる。
【0028】また、音声波形の正負を反転させる機能を
持たせたので、アナログ系の構成の変化等による位相の
変化をディジタル的に補正することができる。
【0029】第5の発明に係る音声合成装置は、音声信
号のピーク直前の極小点を検出する極小点検出手段と、
当該極小点検出手段で検出された極小点を中心にセンタ
リングして前記音声信号を切り出す音声信号切り出し手
段と、当該音声信号切り出し手段により切り出された音
声合成素片を記憶しておく音声合成素片記憶手段と、当
該音声合成素片記憶手段に記憶された音声合成素片をそ
の極小点を重畳の中心として、ピッチ周期分ずらしなが
ら窓掛け重畳する音声合成部とを備えたことを特徴とす
る。
【0030】以上のように、極小点検出手段で検出した
音声信号のピーク直前の極小点を、音声信号切り出し手
段で切り出す音声信号の中心点にしているので、音声合
成部で重畳する際の中心点を簡易な処理によって容易に
設定することができ、スペクトル歪みも小さくすること
ができる。この結果、聴感上ゴロゴロした音が減少し
た。また、一定長さを単位として音声素片を扱い、フレ
ーム処理を行うことで、音声合成時において、音声波形
データを制御しやすくなる。
【0031】第6の発明に係る音声合成装置は、音声信
号のピッチ周期を検出するピッチ周期検出手段と、音声
信号のピーク直前の極小点を検出する極小点検出手段
と、当該極小点検出手段で検出された極小点を中心にセ
ンタリングして前記音声信号を切り出す音声信号切り出
し手段と、当該音声信号切り出し手段で切り出された音
声信号に前記ピッチ周期の定数倍の窓を掛ける窓掛け手
段と、当該窓掛け手段により窓掛けされた音声合成素片
を記憶しておく音声合成素片記憶手段と、当該音声合成
素片記憶手段に記憶された音声合成素片をその極小点を
重畳の中心として、ピッチ周期分ずらしながら重畳する
音声合成部とを備えたことを特徴とする。
【0032】以上のように、ピッチ周期検出手段で求め
たピッチ周期に基づいて、窓掛け手段で予め素片に窓掛
けしておくので、音声合成時に窓掛け処理をする必要が
なくなる。この結果、音声合成処理時の処理量を大幅に
減少させることができ、処理装置の簡素化、又は処理の
高速化を図ることができる。
【0033】第7の発明に係る音声合成装置は、音声信
号の正負を適宜反転させて音声信号全体の正負を整合さ
せる音声信号反転手段と、音声信号のピーク直前の極小
点を検出する極小点検出手段と、当該極小点検出手段で
検出された極小点を中心にセンタリングして前記音声信
号を切り出す音声信号切り出し手段と、当該音声信号切
り出し手段により切り出された音声合成素片を記憶して
おく音声合成素片記憶手段と、当該音声合成素片記憶手
段に記憶された音声合成素片をその極小点を重畳の中心
として、ピッチ周期分ずらしながら窓掛け重畳する音声
合成部とを備えたことを特徴とする。
【0034】以上の構成により、音声信号反転手段で音
声信号の正負を適宜反転させて音声信号全体の正負を整
合させることで、アナログ系の構成の変化等による位相
の変化をディジタル的に補正することができる。
【0035】第8の発明に係る音声合成装置は、音声信
号のピッチ周期を検出するピッチ周期検出手段と、音声
信号の正負を適宜反転させて音声信号全体の正負を整合
させる音声信号反転手段と、音声信号のピーク直前の極
小点を検出する極小点検出手段と、当該極小点検出手段
で検出された極小点を中心にセンタリングして前記音声
信号を切り出す音声信号切り出し手段と、当該音声信号
切り出し手段で切り出された音声信号に前記ピッチ周期
の定数倍の窓を掛ける窓掛け手段と、当該窓掛け手段に
より窓掛けされた音声合成素片を記憶しておく音声合成
素片記憶手段と、当該音声合成素片記憶手段に記憶され
た音声合成素片をその極小点を重畳の中心として、ピッ
チ周期分ずらしながら重畳する音声合成部とを備えたこ
とを特徴とする。
【0036】以上の構成により、窓掛け手段で予め素片
に窓掛けしておくので、音声合成処理時の処理量を大幅
に減少させることができる。
【0037】また、音声波形の正負を適宜反転させて音
声信号全体の正負を整合させる音声信号反転手段を設け
たので、アナログ系の構成の変化等による位相の変化を
ディジタル的に補正することができる。
【0038】第9の発明に係る音声合成装置は、音声信
号を反転増幅させる反転増幅器と、音声信号を非反転増
幅させる非反転増幅器と、前記反転増幅器からの音声信
号と前記非反転増幅器からの音声信号とを選択するセレ
クタと、当該セレクタで選択された音声信号をディジタ
ル値に変換するAD変換器と、当該AD変換器でAD変
換されたデータを格納する記憶手段と、当該記憶手段に
記憶された音声信号を順次読み出す音声信号読み出し手
段と、当該音声信号読み出し手段で読み出した音声信号
のピーク直前の極小点を検出する極小点検出手段と、当
該極小点検出手段で検出された極小点を中心にセンタリ
ングして前記音声信号を切り出す音声信号切り出し手段
と、当該音声信号切り出し手段により切り出した音声合
成素片を記憶しておく音声合成素片記憶手段と、当該音
声合成素片記憶手段中から選択した音声合成素片の極小
点を重畳の中心として、ピッチ周期分ずらしながら窓掛
け重畳する素片接続合成部とを備えたことを特徴とす
る。
【0039】以上の構成により、反転増幅器又は非反転
増幅器とセレクタとで、反転増幅させた音声信号と非反
転増幅させた音声信号とを適宜選択して、音声波形の正
負を適宜反転させて音声信号全体の正負を整合させる。
これにより、アナログ系の構成の変化等による位相の変
化をディジタル的に補正することができる。
【0040】また、極小点検出手段で検出した音声信号
のピーク直前の極小点を、音声信号切り出し手段で切り
出す音声信号の中心点にしているので、重畳する際の中
心点を簡易な処理によって容易に設定することができ、
スペクトル歪みも小さくすることができる。この結果、
聴感上ゴロゴロした音が減少した。また、一定長さを単
位として音声素片を扱い、フレーム処理を行うことで、
音声合成時において、音声波形データを制御しやすくな
る。
【0041】第10の発明に係る音声合成装置は、音声
信号を反転増幅させる反転増幅器と、音声信号を非反転
増幅させる非反転増幅器と、前記反転増幅器からの音声
信号と前記非反転増幅器からの音声信号とを選択するセ
レクタと、当該セレクタで選択された音声信号をディジ
タル値に変換するAD変換器と、当該AD変換器でAD
変換されたデータを格納する記憶手段と、当該記憶手段
に記憶された音声信号を順次読み出す音声信号読み出し
手段と、当該音声信号読み出し手段で読み出した音声信
号のピッチ周期を検出するピッチ周期検出手段と、当該
ピッチ周期検出手段で検出したピッチ周期を定数倍する
窓長算出手段と、前記音声信号読み出し手段で読み出し
た音声信号のピーク直前の極小点を検出する極小点検出
手段と、当該極小点検出手段で検出された極小点を中心
にセンタリングして前記音声信号を切り出す音声信号切
り出し手段と、当該音声信号切り出し手段で切り出した
音声信号に前記窓長算出部で算出した窓長の窓掛けをす
る窓掛け手段と、当該窓掛け部により窓掛けがされた音
声合成素片を記憶しておく音声合成素片記憶手段と、当
該音声合成素片記憶手段中から選択した音声合成素片の
極小点を重畳の中心として、ピッチ周期分ずらしながら
重畳する素片接続合成部とを備えたことを特徴とする。
【0042】以上の構成により、アナログ系の構成の変
化等による位相の変化をディジタル的に補正することが
できると共に、ピッチ周期検出手段で求めたピッチ周期
に基づいて、窓掛け手段で予め素片に窓掛けしておくの
で、音声合成時に窓掛け処理をする必要がなくなる。こ
の結果、音声合成処理時の処理量を大幅に減少させるこ
とができ、処理装置の簡素化、又は処理の高速化を図る
ことができる。
【0043】
【発明の実施の形態】以下、本発明の実施形態を添付図
面に基づいて説明する。
【0044】[第1の実施形態]以下、第1の実施形態
に係る音声合成方法及び音声合成装置について説明す
る。図1は第1の実施形態に係る音声合成装置の構成を
示すブロック図である。
【0045】テキスト解析部101では、漢字かな混じ
り文が入力されると、単語辞書102を参照して形態素
解析を行い、漢字かな混じり文の読み、アクセント及び
イントネーションを決定し、韻律記号付き発音記号(中
間言語)を出力する。パラメータ生成部103では、ピ
ッチ周波数パターンや音韻継続時間等の設定を行う。こ
れらテキスト解析部101、単語辞書102及びパラメ
ータ生成部103は、従来のものとかわるところはな
い。
【0046】音声合成部104では音声合成処理を行
う。即ち、素片辞書105内の素片を選択し、窓掛け部
106にて、ピッチマークが中心となるように後述の時
間窓長Tp1の時間窓を前記素片に掛ける窓掛けを行い、P
SOLA法にて音声合成する。
【0047】ここで、時間窓長Tp1は、分析時のピッチ
周期をTpa、合成時のピッチ周期をTpsとした場合、 Tp1=C0×min(Tpa,Tps) のように設定する。なお、C0は2.0程度の値である。
【0048】素片辞書105は素片を書き込んだ辞書で
ある。素片は素片作成部107にて作成される。素片作
成部107は、本発明の主要部分であり、図3のフロー
チャートに示す処理機能を有する。
【0049】この素片作成部107での処理を図3に従
って説明する。データディスクなどを備えた音声信号入
力部108によって、音声信号が素片作成部107に入
力されると、まず、ステップS201で、入力された音
声信号データを分析フレームに分割する。この分析フレ
ームは一定長さの区間に区切られた音声信号データのこ
とで、本実施例では、1フレーム長が32m秒で、8m
秒ずらして次のフレームに移るように区切られている。
ここでは、総フレーム数をNとする。
【0050】ステップS202では、処理を行う分析フ
レームのフレーム番号iを初期化する。ステップS20
3では、第iフレームにおける、ピーク直前の極小値を
与える時間軸の座標xdを検出する。この座標xdの検出例
を図11に示す。なお、図11に示す音声波形は、ア
(/a/)と発声したときの音声波形で、マーク「*」
の位置が本実施形態に係るピッチマーク位置(ピーク直
前の極小値)である。このピッチマーク位置の検出は容
易に行うことができる。即ち、各分析フレーム中のピー
ク点は容易に特定でき、その直前の極小点も容易に特定
できる。この極小点がピッチマーク位置であるため、ピ
ッチマーク位置を容易に検出することができる。
【0051】次いで、図3中のステップS204で、座
標xdの前後にそれぞれL分の音声データを切り出し、座
標xdが中央に位置するようにセンタリングする。なお、
ここではL分を12m秒に設定した。これは、本発明者
の予備実験により、男性で最長のピッチ周期に余裕を持
たせた値である。
【0052】ステップS205では、第iフレームにお
ける素片として、ステップS204で切り出した音声デ
ータをデータディスク等の記憶媒体に、素片辞書105
として順次書き込みを行う。ステップS206では、全
分析フレームについて素片の書き込みが終了したか否か
の判定を行う。この書き込みが終了していなければ、ス
テップS207でフレーム番号を更新してステップS2
03に戻り、ステップS203からステップS205ま
での処理を継続する。ステップS206で全分析フレー
ムの処理が終了したと判定した場合は、素片辞書105
のデータディスクのクローズ処理等(図示せず)を行っ
て素片作成部107の動作を終了する。
【0053】以上の処理によって作成された素片が書き
込まれた素片辞書105内から、対象となる素片が適宜
選択され、窓掛け部106にて窓掛けが行われて、音声
合成部104で音声合成処理が行われる。
【0054】なお、ピーク直前の極小値検出は、音声信
号の有声部分に対してのみ行われるものとする。無声音
部分は、音声データをそのまま使用する。以下に述べる
他の実施形態においても同様である。
【0055】[効果]各分析フレーム中のピーク直前の
極小値をピッチマークとしているので、簡易な処理によ
ってピッチマークを設定することができ、スペクトル歪
みも小さくすることができる。この結果、本発明者の実
験によれば、聴感上ゴロゴロした音が減少した。
【0056】また、12m秒の固定長を単位として音声
素片を扱い、フレーム処理を行っているので、音声合成
時において、音声波形データを制御しやすいという効果
もある。
【0057】[第2の実施形態]次に、本発明の第2の
実施形態について説明する。
【0058】図4は第2の実施形態に係る音声合成装置
の構成を示すブロック図である。
【0059】本実施形態に係る音声合成装置において、
テキスト解析部101、単語辞書102、パラメータ生
成部103及び音声信号入力部108は、前記第1の実
施形態に係る音声合成装置と同様である。
【0060】本実施形態の音声合成方法は、ピッチマー
クを各分析フレーム中のピーク直前の極小点に設定する
点で前記第1の実施形態に係る音声合成方法と同様であ
る。そして、本実施形態の音声合成方法の特徴は、素片
作成部301において素片にあらかじめ窓掛けを行う点
にある。
【0061】素片作成部301は、ピッチマーク算出部
302と窓掛け部303により構成されている。この素
片作成部301は、図5に示す処理機能を備えている。
この素片作成部301での処理を以下に説明する。
【0062】音声信号入力部108から音声信号データ
が入力されると、まずステップS401で音声信号デー
タが分析フレームに分割される。この分析フレームは、
前記第1の実施形態と同様に、1フレーム長が32m秒
で、8m秒ずらして次のフレームに移るように設定され
ている。総フレーム数はNである。
【0063】ステップS402では、処理を行うフレー
ム番号iを初期化する。ステップS403では、第iフ
レームにおける音声のピッチ周期Tpを検出する。このピ
ッチ周期Tpを検出する方法には、簡易な手法として波形
のピーク間隔を検出する方法等が考えられるが、本実施
形態ではケプストラム法を用いている。これは、より精
密にピッチ周期を算出するためである。このケプストラ
ム法では、図6に示す処理工程でピッチ周期Tpを検出す
る。まず、ステップS501で時間波形を入力し、ステ
ップS502で窓掛けを行う。次いで、窓掛けを行った
時間波形に対してステップS503で離散フーリエ変換
(DFT)を施し、ステップS504でその実部と虚部
の二乗和の平方根を対数変換する。その後、ステップS
505で逆フーリエ変換(IDFT)を施し、ステップ
S506でケプストラム成分を得て出力する。このよう
に、ケプストラム法は、畳み込み演算を加法的な演算に
変換するものである。音声の有声音信号は音源成分を声
道情報で畳み込んだものであるため、ケプストラム法は
両者の分離に適している。入力信号が音声の有声音信号
の場合、ピッチ周期をT0とすれば、音源成分は高ケフレ
ンシイ(長時間領域)のT0の近傍として現れ、声道成分
は低ケフレンシイ(短時間領域)の成分として現れる。
ケプストラムからピッチ周期を求めるには、高ケフレン
シイ部のピークを求めて、時間原点からこのピークまで
の時間を測定すればよい。
【0064】次に、図5中のステップS404で、第i
フレームにおける、ピーク直前の極小値を与える時間軸
の座標xdを検出する。この座標xdの検出に関しては前記
第1の実施形態と同様である(図11参照)。ステップ
S405では、座標xdの前後それぞれL分の音声データ
を切り出し、座標xdが中央に位置するようにセンタリン
グする。L分の長さは、前記第1実施形態と同様であ
る。
【0065】次いで、ステップS406において、前記
ステップS403で求めたピッチ周期Tpを定数C1倍し、
ステップS407で極小点xdを中心に前後それぞれC1×
Tpの長さの時間窓を掛ける。この定数C1として本実施例
にいては、1.0程度の値を用いる。なお、定数C1として
は、本発明者の実験によれば、1.0より小さい値が望ま
しい。これは、定数C1が1.0より小さいことで、隣接す
るピッチの影響を抑制して、雑音を減少することができ
るためである。
【0066】次いで、ステップS408で、第iフレー
ムにおける素片として、窓掛けした音声データをデータ
ディスク等の記憶媒体に、素片辞書305として順次書
き込みを行う。次いでステップS409で、全フレーム
の処理を終了したか否かの判定を行い、終了していなけ
れば、ステップS410でフレーム番号を更新してステ
ップS403に戻り、前記ステップS403からステッ
プS408までの処理を継続する。ステップS409で
全フレームの処理が終了したと判定したときは、前記デ
ータディスク等の記憶媒体のクローズ処理等(図示せ
ず)を行って素片作成部301の動作を終了する。
【0067】以上の処理によって作成された素片が書き
込まれた素片辞書305内から、対象となる素片が適宜
選択され、音声合成部304で音声合成処理が行われ
る。
【0068】[効果]本実施形態では、素片作成部30
1において精度良くピッチ周期Tpを求め、それに基づい
て予め素片辞書305に書き込む素片に窓掛けしておく
ので、音声合成時に窓掛け処理をする必要がなくなる。
即ち、第1の実施形態において音声合成処理時に必要で
あった1ピッチ毎の窓掛け処理(乗算)が不要となり、
ただ重ね合わせを実行するだけで済むので、音声合成処
理時の処理量を大幅に減少させることができる。
【0069】この結果、本実施形態の音声合成方法を用
いた音声合成装置においては、DSP等の高度な演算プ
ロセッサを使用することなく、通常のCPUで実現する
ことが可能になる。また、同一の演算プロセッサを使用
する場合には、音声合成処理の大幅な高速化を図ること
ができる。
【0070】また、定数C1を1.0より小さい値にするこ
とで、隣接するピッチの影響を抑制することができ、雑
音を減少させることができる。
【0071】[第3の実施形態]次に、本発明の第3の
実施形態について説明する。
【0072】本実施形態の音声合成方法に用いる音声合
成装置の全体構成は、前記第1の実施形態の音声合成装
置とほぼ同様である。そして、本実施形態の特徴は、素
片作成部(107)での処理において音声波形の位相反
転を制御する機能を持たせた点と、反転制御部を設け
て、前記素片作成部で位相反転処理をさせるか否かを制
御できるようにした点になる。
【0073】まず、素片作成部の動作を図7(A)のフ
ローチャートに基づいて説明する。
【0074】音声信号データが入力されると、ステップ
S601で音声信号データが分析フレームに分割され、
ステップS602で処理を行うフレーム番号iが初期化
される。これらの処理は前記第1の実施形態と同様であ
る。
【0075】ステップS603では、共有メモリに格納
されている反転フラグを調べ、反転フラグが1であれ
ば、ステップS604で音声波形の正負を反転する。反
転フラグが0であれば、音声波形の反転は行わず、ステ
ップS605に飛ぶ。
【0076】次に、ステップS605で、第iフレーム
における、ピーク直前の極小値を与える時間軸の座標xd
を検出する。この座標xdの検出に関しては前記第1の実
施形態と同様である(図11参照)。ステップS606
では、座標xdの前後それぞれL分の音声データを切り出
し、座標xdが中央に位置するようにセンタリングする。
L分の長さは、前記第1実施形態と同様である。次い
で、ステップS607で、第iフレームにおける素片と
して、ステップS606で切り出した音声データを素片
辞書105に順次書き込む。
【0077】次いでステップS608で、全フレームの
処理を終了したか否かの判定を行い、終了していなけれ
ば、ステップS609でフレーム番号を更新してステッ
プS603に戻り、このステップS603からステップ
S607までの処理を継続する。ステップS608で全
フレームの処理が終了したと判定したときは、前記デー
タディスク等の記憶媒体のクローズ処理等(図示せず)
を行って素片作成部の動作を終了する。
【0078】以上の処理によって作成された素片が書き
込まれた素片辞書105内から、対象となる素片が適宜
選択され、音声合成部104で音声合成処理が行われ
る。
【0079】次に、反転制御部の動作を説明する。この
反転制御部は、キーボード等からの作業者による指示に
基づいて、前記素片作成部での音声波形の反転処理を制
御するもので、図7(B)のフローチャートに示す処理
機能を有している。この反転制御部での動作を以下に説
明する。
【0080】まず、ステップS610で、キーボード等
から入力された作業者の意思を確認する。即ち、作業者
が音声信号の位相の反転を指示しているか否かを判定す
る。反転指示の場合には、ステップS611により、前
記共有メモリ(前記素片作成部のステップS603で調
べる共有メモリ)上の反転フラグを1に設定する。非反
転指示の場合には、ステップS612により、共有メモ
リ上の反転フラグを0に設定する。
【0081】この共有メモリ上の反転フラグの設定に基
づいて、前記素片作成部のステップS603での判断が
なされる。
【0082】なお、反転制御部の実行は、アナログ系が
一定なら、最初に行っておくのが望ましい。音声信号を
収録した環境が、他と一部分相違するような場合には、
図1の音声信号入力部108と前記共有メモリ上に設定
する反転フラグとを対応させて表を作成し、これに基づ
いて反転フラグを共有メモリに記憶するように構成して
もよい。
【0083】[効果]マイクや、マイクで拾った音声信
号を増幅するアンプ等のアナログ系を変えた場合など、
アナログ系がもとの構成と違った場合には、位相が反転
してしまうことがある。この場合は、音声データの正負
が逆転してしまうので、極小値を検出したつもりが極大
値を検出してしまうことがある。
【0084】本実施形態によれば、このアナログ系の構
成の変化等による位相の変化をディジタル的に補正する
ことができるようになる。この結果、単一の音声合成装
置で、アナログ系の違いに対応することができるように
なる。
【0085】[第4の実施形態]次に、本発明の第4の
実施形態について説明する。
【0086】本実施形態の音声合成装置の全体構成は、
前記第2及び第3の実施形態に係る音声合成装置とほぼ
同様である。第2の実施形態との比較における本実施形
態の特徴は、素片作成部の処理において音声波形の位相
反転を制御する機能を持たせた点と、反転制御部を設け
て前記素片作成部で位相反転処理をさせるか否かを制御
できるようにした点になる。第3の実施形態との比較に
おける本実施形態の特徴は、素片作成部において素片に
あらかじめ窓掛けを行う点にある。
【0087】まず、素片作成部の動作を図8(A)のフ
ローチャートに基づいて説明する。
【0088】音声信号データが入力されると、ステップ
S701で音声信号データが分析フレームに分割され、
ステップS702で処理を行うフレーム番号iが初期化
される。これらの処理は前記第1の実施形態と同様であ
る。ステップS703では、第iフレームにおける音声
のピッチ周期Tpを検出する。このピッチ周期Tpを検出す
る方法としては、前記第2の実施形態と同様にケプスト
ラム法を用いる。
【0089】ステップS704では、共有メモリに格納
されている反転フラグを調べ、反転フラグが1であれ
ば、ステップS705で音声波形の正負を反転する。反
転フラグが0であれば、音声波形の反転は行わず、ステ
ップS706に飛ぶ。
【0090】次に、ステップS706で、第iフレーム
における、ピーク直前の極小値を与える時間軸の座標xd
を検出する。この座標xdの検出に関しては前記第1の実
施形態と同様である(図11参照)。ステップS707
では、座標xdの前後それぞれL分の音声データを切り出
し、座標xdが中央に位置するようにセンタリングする。
L分の長さは、前記第1実施形態と同様である。次い
で、ステップS708において、前記ステップS703
で求めたピッチ周期Tpを定数C1倍し、ステップS709
で極小点xdを中心に前後それぞれC1×Tpの長さの時間窓
を掛ける。
【0091】次いで、ステップS710で、第iフレー
ムにおける素片として、窓掛けした音声データをデータ
ディスク等の記憶媒体に、素片辞書(305)として順
次書き込みを行う。次いでステップS711で、全フレ
ームの処理を終了したか否かの判定を行い、終了してい
なければ、ステップS712でフレーム番号を更新して
ステップS703に戻り、前記ステップS703からス
テップS710までの処理を継続する。ステップS71
1で全フレームの処理が終了したと判定したときは、前
記データディスク等の記憶媒体のクローズ処理等(図示
せず)を行って素片作成部の動作を終了する。
【0092】以上の処理によって作成された素片が書き
込まれた素片辞書内から、対象となる素片が適宜選択さ
れ、音声合成部で音声合成処理が行われる。
【0093】次に、反転制御部の動作を説明する。この
反転制御部は、前記第3の実施形態における反転制御部
と同様であり、図8(B)のフローチャートに示す処理
機能を有している。この反転制御部での動作を以下に説
明する。
【0094】まず、ステップS720で、キーボード等
から入力された作業者の意思を確認する。即ち、作業者
が音声信号の位相の反転を指示しているか否かを判定す
る。反転指示の場合には、ステップS721により、前
記共有メモリ(前記素片作成部のステップS704で調
べる共有メモリ)上の反転フラグを1に設定する。非反
転指示の場合には、ステップS722により、共有メモ
リ上の反転フラグを0に設定する。この共有メモリ上の
反転フラグの設定に基づいて、前記素片作成部のステッ
プS704での判断がなされる。
【0095】なお、反転制御部の実行は、第3の実施形
態における反転制御部の場合と同様に、アナログ系が一
定なら、最初に行っておくのが望ましい。音声信号を収
録した環境が、他と一部分相違するような場合には、音
声信号入力部と前記共有メモリ上に設定する反転フラグ
とを対応させて表を作成し、これに基づいて反転フラグ
を共有メモリに記憶するように構成してもよい。
【0096】[効果]第4の実施形態によれば、素片作
成部において、ピッチ周期検出部を設けて、予め素片辞
書に書き込む素片に窓掛けしておくので、音声合成時に
窓掛け処理をする必要がなくなる。即ち、1ピッチ毎の
窓掛け処理(乗算)が不要となり、音声合成処理時の処
理量を大幅に減少させることができる。
【0097】また、音声波形の正負を反転させる機能を
持たせたので、アナログ系の構成の変化等による位相の
変化をディジタル的に補正することができるようにな
る。この結果、単一の音声合成装置で、アナログ系の違
いに対応することができるようになる。
【0098】[第5の実施形態]次に、本発明の第5の
実施形態について説明する。図9に第5の実施形態に係
る音声合成装置の構成を示す。
【0099】図中の音声入力端子800に入力された音
声信号は、1の経路として、反転増幅器802に入力さ
れて位相が反転され、セレクタ803に入力される。他
の経路は、非反転増幅器801を介して(音声信号の位
相を反転せずに)、セレクタ803に入力される。セレ
クタ803では、反転増幅器802を通した音声信号と
非反転増幅器801を通した音声信号のうち、一方が選
択されてAD変換器804に入力される。入力された音
声信号は、このAD変換器804でディジタル信号に変
換され、記憶媒体805に記憶される。
【0100】音声信号読み出し回路806では、記憶媒
体805中に記憶された音声データを読み出し、極小値
検出回路807で、ピーク直前の極小値を検出する。こ
の極小値検出回路807での極小値検出処理は、前記第
1の実施形態における素片作成部107のステップS2
03(図3参照)での極小値検出処理と同様である(図
11参照)。
【0101】音声切り出し回路808では、ピーク直前
の極小値の前後それぞれL分の音声データを切り出し、
この極小値が中央に位置するようセンタリングする。L
分は前記第1の実施形態と同様の12m秒とした。この
音声切り出し回路808での音声切り出し処理は、前記
第1の実施形態における素片作成部107のステップS
204(図3参照)での音声切り出し処理と同様であ
る。この音声切り出し回路808で切り出したデータを
素片ファイル809として、ディスク装置などに記憶す
る。
【0102】以上の処理動作は、入力された全ての音声
データについて行われる。
【0103】次に、音声合成処理時の動作について説明
する。
【0104】文字列人力端子810を介して文字音素記
号変換回路811に文字列が入力されると、この文字音
素記号変換回路811では、入力された文字列に対し
て、対応するアクセント記号付きの音素記号を出力す
る。韻律情報設定回路812では、文字音素記号変換回
路811からの音素記号に、イントネーションの強さ、
音韻の継続時間などの韻律情報を設定する。
【0105】素片選択回路813では、前記音素記号列
から音声に変換するのに必要な素片を、素片ファイル8
09中から選択して読み出し、窓掛け回路814に出力
する。この窓掛け回路814では、素片選択回路813
で読み出された素片のフレーム毎に、窓掛けを行い、素
片接続合成回路815に出力する。素片接続合成回路8
15では、前記窓掛け回路814で窓掛けしたフレーム
毎の素片を、合成ピッチ周期分だけずらして重ね合わせ
る。以上の音声合成時の動作により、音声の時間波形が
得られ、合成音声出力端子816より出力される。
【0106】[効果]マイクやアンプ等のアナログ系を
変えた場合など、アナログ系がもとの構成と違って音声
信号の位相が反転した場合でも、反転増幅器802、非
反転増幅器801及びセレクタ803によって、その位
相の変化をアナログ的に、かつ容易に補正することがで
きるようになる。この結果、単一の音声合成装置で、ア
ナログ系の位相の違いに対応することができるようにな
る。
【0107】[第6の実施形態]次に、本発明の第6の
実施形態について説明する。図10に第6の実施形態に
係る音声合成装置の構成を示す。なお、本実施形態に係
る音声合成装置の全体構成は前記第5の実施形態に係る
音声合成装置とほぼ同様であるため、同一の部分には同
一の符号を付して説明する。
【0108】図中の音声入力端子900に入力された音
声信号は、前記第5の実施形態と同様に、反転増幅器9
02を介した経路と非反転増幅器901を介した経路と
によってセレクタ903に入力される。セレクタ903
では、反転増幅器902を通した音声信号と非反転増幅
器901を通した音声信号のうち、一方が選択されてA
D変換器904に入力される。入力された音声信号は、
このAD変換器904でディジタル信号に変換され、記
憶媒体905に記憶される。
【0109】音声信号読み出し回路906では、記憶媒
体905中に記憶された音声データを読み出し、ピッチ
周期検出回路921に出力する。ピッチ周期検出回路9
21では音声データのピッチ周期を検出する。このピッ
チ周期検出処理は、前記第2の実施形態の素片作成部3
01のピッチ周期検出処理(ステップS403)と同様
である。ピッチ周期検出法としてはケプストラム法等を
用いる。ピッチ周期検出回路921での検出処理の後、
極小値検出回路907で、ピーク直前の極小値を検出す
る。
【0110】音声切り出し回路908では、ピーク直前
の極小値の前後それぞれL分(前記第1の実施形態と同
様の12m秒)の音声データを切り出し、この極小値が
中央に位置するようにセンタリングする。この音声切り
出し回路908で切り出されたデータは窓掛け回路92
3に出力される。この窓掛け回路903では、ピッチ周
期検出回路921からのピッチ周期に基づいて窓長算出
回路922で算出された時間窓長の時間窓を掛ける。窓
掛けが施された音声データは、素片ファイル909とし
て、ディスク装置などに記憶する。
【0111】以上の処理動作は、入力された全ての音声
データについて行われる。
【0112】次に、音声合成時の動作について説明す
る。
【0113】文字列入力端子910に入力された文字列
に対して、文字音素記号変換回路911は、対応するア
クセント記号付きの音素記号を出力する。韻律情報設定
回路912は、この音素記号に、イントネーションの強
さ、音韻の継続時間などの韻律情報を設定する。
【0114】素片選択回路913では、前記音素記号列
から音声に変換するのに必要な素片を、素片ファイル9
09から選択して読み出し、素片接続合成回路915に
出力する。
【0115】素片接続合成回路915では、素片をフレ
ーム毎に、合成ピッチ周期分だけずらして重ね合わせ
る。以上の音声合成時の動作により、音声の時間波形が
得られ、合成音声出力端子916より出力される。
【0116】[効果]本実施形態によれば、音声素片フ
ァイル作成時に窓掛けをしておくため、音声合成時に
は、窓掛けが不要となる。このため、音声合成部分の回
路構成が、乗算器を含まない簡易なものになる。
【0117】かつ、反転増幅器とセレクタを設けること
によって、アナログ的に、かつ容易に、音声データの位
相の反転を補正可能としたため、同一な音声合成装置を
適用することが可能になる効果がある。
【0118】[変形例]なお、前記第2、4、6の実施
形態では、ピッチ周期検出法としてケプストラム法を用
いたが、他の方法、例えば自己相関法や、線形予測残差
の自己相関である変形自己相関法などの他の方法を用い
るてもよい。
【0119】また、前記各実施形態の音声合成方法およ
び音声合成装置における素片作成部は、原音声のピッチ
を変化させ、声の高さを変更する、いわゆる音声ピッチ
変換装置でのピッチマーク設定等の、種々の音声出力装
置における処理に適応することが可能である。
【0120】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、次のような効果を奏することができる。
【0121】(1) 音声信号のピーク直前の極小点
を、切り出す音声信号の中心点にしているので、重畳す
る際の中心点を簡易な処理によって容易に設定すること
ができ、スペクトル歪みも小さくすることができる。こ
の結果、聴感上ゴロゴロした音が減少した。
【0122】(2) 一定長さを単位として音声素片を
扱い、フレーム処理を行うことで、音声合成時におい
て、音声波形データを制御しやすくなる。
【0123】(3) 求めたピッチ周期に基づいて予め
素片に窓掛けしておくことで、音声合成時に窓掛け処理
をする必要がなくなり、音声合成処理時の処理量を大幅
に減少させることができる。この結果、処理装置の簡素
化、又は処理の高速化を図ることができる。
【0124】(3) 音声波形の正負を反転させる機能
を持たせたので、アナログ系の構成の変化等による位相
の変化をディジタル的に補正することができる。
【0125】(4) 予め素片に窓掛けしておくので、
音声合成処理時の処理量を大幅に減少させることができ
る。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声合成装置の
構成を示すブロック図である。
【図2】ピッチを変更しながら音声波形を重畳するPSOL
A法を示す模式図である。
【図3】本発明の第1の実施形態に係る音声合成装置の
素片作成部での処理機能を示すフローチャートである。
【図4】本発明の第2の実施形態に係る音声合成装置の
構成を示すブロック図である。
【図5】本発明の第2の実施形態に係る音声合成装置の
素片作成部での処理機能を示すフローチャートである。
【図6】ケプストラム法を説明するフローチャートであ
る。
【図7】本発明の第3の実施形態に係る音声合成装置の
素片作成部及び反転制御部での処理機能を示すフローチ
ャートである。
【図8】本発明の第4の実施形態に係る音声合成装置の
素片作成部及び反転制御部での処理機能を示すフローチ
ャートである。
【図9】本発明の第5の実施形態に係る音声合成装置の
構成を示すブロック図である。
【図10】本発明の第6の実施形態に係る音声合成装置
の構成を示すブロック図である。
【図11】本発明の各実施形態における、有声音に対す
るピーク直前の極小値検出例を示す説明図である。
【符号の説明】
101:テキスト解析部、102:単語辞書、103:
パラメータ生成部、14:音声合成部、105:素片辞
書、106:窓掛け部、107:素片作成部、108:
音声信号入力部。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声信号のピーク直前の極小点を検出す
    る工程と、 検出された極小点を中心にセンタリングして前記音声信
    号を切り出す工程とにより音声合成素片を予め作成して
    おき、 前記音声合成素片中の極小点を重畳の中心として、ピッ
    チ周期分ずらしながら窓掛け重畳することを特徴とする
    音声合成方法。
  2. 【請求項2】 音声信号のピッチ周期を検出する工程
    と、 音声信号のピーク直前の極小点を検出する工程と、 検出された極小点を中心にセンタリングして前記音声信
    号を切り出す工程と、 切り出された音声信号に前記ピッチ周期の定数倍の窓を
    掛ける工程とにより音声合成素片を予め作成しておき、 前記音声合成素片中の極小点を重畳の中心として、ピッ
    チ周期分ずらしながら重畳することを特徴とする音声合
    成方法。
  3. 【請求項3】 音声信号の正負を適宜反転させて音声信
    号全体の正負を整合させる工程と、 音声信号のピーク直前の極小点を検出する工程と、 検出された極小点を中心にセンタリングして前記音声信
    号を切り出す工程とにより音声合成素片を予め作成して
    おき、 前記音声合成素片中の極小点を重畳の中心として、ピッ
    チ周期分ずらしながら窓掛け重畳することを特徴とする
    音声合成方法。
  4. 【請求項4】 音声信号のピッチ周期を検出する工程
    と、 音声信号の正負を適宜反転させて音声信号全体の正負を
    整合させる工程と、 音声信号のピーク直前の極小点を検出する工程と、 検出された極小点を中心にセンタリングして前記音声信
    号を切り出す工程と、 切り出された音声信号に前記ピッチ周期の定数倍の窓を
    掛ける工程とにより音声合成素片を予め作成しておき、 前記音声合成素片中の極小点を重畳の中心として、ピッ
    チ周期分ずらしながら重畳することを特徴とする音声合
    成方法。
  5. 【請求項5】 音声信号のピーク直前の極小点を検出す
    る極小点検出手段と、 当該極小点検出手段で検出された極小点を中心にセンタ
    リングして前記音声信号を切り出す音声信号切り出し手
    段と、 当該音声信号切り出し手段により切り出された音声合成
    素片を記憶しておく音声合成素片記憶手段と、 当該音声合成素片記憶手段に記憶された音声合成素片を
    その極小点を重畳の中心として、ピッチ周期分ずらしな
    がら窓掛け重畳する音声合成部とを備えたことを特徴と
    する音声合成装置。
  6. 【請求項6】 音声信号のピッチ周期を検出するピッチ
    周期検出手段と、 音声信号のピーク直前の極小点を検出する極小点検出手
    段と、 当該極小点検出手段で検出された極小点を中心にセンタ
    リングして前記音声信号を切り出す音声信号切り出し手
    段と、 当該音声信号切り出し手段で切り出された音声信号に前
    記ピッチ周期の定数倍の窓を掛ける窓掛け手段と、 当該窓掛け手段により窓掛けされた音声合成素片を記憶
    しておく音声合成素片記憶手段と、 当該音声合成素片記憶手段に記憶された音声合成素片を
    その極小点を重畳の中心として、ピッチ周期分ずらしな
    がら重畳する音声合成部とを備えたことを特徴とする音
    声合成装置。
  7. 【請求項7】 音声信号の正負を適宜反転させて音声信
    号全体の正負を整合させる音声信号反転手段と、 音声信号のピーク直前の極小点を検出する極小点検出手
    段と、 当該極小点検出手段で検出された極小点を中心にセンタ
    リングして前記音声信号を切り出す音声信号切り出し手
    段と、 当該音声信号切り出し手段により切り出された音声合成
    素片を記憶しておく音声合成素片記憶手段と、 当該音声合成素片記憶手段に記憶された音声合成素片を
    その極小点を重畳の中心として、ピッチ周期分ずらしな
    がら窓掛け重畳する音声合成部とを備えたことを特徴と
    する音声合成装置。
  8. 【請求項8】 音声信号のピッチ周期を検出するピッチ
    周期検出手段と、 音声信号の正負を適宜反転させて音声信号全体の正負を
    整合させる音声信号反転手段と、 音声信号のピーク直前の極小点を検出する極小点検出手
    段と、 当該極小点検出手段で検出された極小点を中心にセンタ
    リングして前記音声信号を切り出す音声信号切り出し手
    段と、 当該音声信号切り出し手段で切り出された音声信号に前
    記ピッチ周期の定数倍の窓を掛ける窓掛け手段と、 当該窓掛け手段により窓掛けされた音声合成素片を記憶
    しておく音声合成素片記憶手段と、 当該音声合成素片記憶手段に記憶された音声合成素片を
    その極小点を重畳の中心として、ピッチ周期分ずらしな
    がら重畳する音声合成部とを備えたことを特徴とする音
    声合成装置。
  9. 【請求項9】 音声信号を反転増幅させる反転増幅器
    と、 音声信号を非反転増幅させる非反転増幅器と、 前記反転増幅器からの音声信号と前記非反転増幅器から
    の音声信号とを選択するセレクタと、 当該セレクタで選択された音声信号をディジタル値に変
    換するAD変換器と、 当該AD変換器でAD変換されたデータを格納する記憶
    手段と、 当該記憶手段に記憶された音声信号を順次読み出す音声
    信号読み出し手段と、 当該音声信号読み出し手段で読み出した音声信号のピー
    ク直前の極小点を検出する極小点検出手段と、 当該極小点検出手段で検出された極小点を中心にセンタ
    リングして前記音声信号を切り出す音声信号切り出し手
    段と、 当該音声信号切り出し手段により切り出した音声合成素
    片を記憶しておく音声合成素片記憶手段と、 当該音声合成素片記憶手段中から選択した音声合成素片
    の極小点を重畳の中心として、ピッチ周期分ずらしなが
    ら窓掛け重畳する素片接続合成部とを備えたことを特徴
    とする音声合成装置。
  10. 【請求項10】 音声信号を反転増幅させる反転増幅器
    と、 音声信号を非反転増幅させる非反転増幅器と、 前記反転増幅器からの音声信号と前記非反転増幅器から
    の音声信号とを選択するセレクタと、 当該セレクタで選択された音声信号をディジタル値に変
    換するAD変換器と、 当該AD変換器でAD変換されたデータを格納する記憶
    手段と、 当該記憶手段に記憶された音声信号を順次読み出す音声
    信号読み出し手段と、 当該音声信号読み出し手段で読み出した音声信号のピッ
    チ周期を検出するピッチ周期検出手段と、 当該ピッチ周期検出手段で検出したピッチ周期を定数倍
    する窓長算出手段と、 前記音声信号読み出し手段で読み出した音声信号のピー
    ク直前の極小点を検出する極小点検出手段と、 当該極小点検出手段で検出された極小点を中心にセンタ
    リングして前記音声信号を切り出す音声信号切り出し手
    段と、 当該音声信号切り出し手段で切り出した音声信号に前記
    窓長算出部で算出した窓長の窓掛けをする窓掛け手段
    と、 当該窓掛け部により窓掛けがされた音声合成素片を記憶
    しておく音声合成素片記憶手段と、 当該音声合成素片記憶手段中から選択した音声合成素片
    の極小点を重畳の中心として、ピッチ周期分ずらしなが
    ら重畳する素片接続合成部とを備えたことを特徴とする
    音声合成装置。
JP05752197A 1997-03-12 1997-03-12 音声合成方法及び音声合成装置 Expired - Fee Related JP3532059B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05752197A JP3532059B2 (ja) 1997-03-12 1997-03-12 音声合成方法及び音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05752197A JP3532059B2 (ja) 1997-03-12 1997-03-12 音声合成方法及び音声合成装置

Publications (2)

Publication Number Publication Date
JPH10254495A true JPH10254495A (ja) 1998-09-25
JP3532059B2 JP3532059B2 (ja) 2004-05-31

Family

ID=13058049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05752197A Expired - Fee Related JP3532059B2 (ja) 1997-03-12 1997-03-12 音声合成方法及び音声合成装置

Country Status (1)

Country Link
JP (1) JP3532059B2 (ja)

Also Published As

Publication number Publication date
JP3532059B2 (ja) 2004-05-31

Similar Documents

Publication Publication Date Title
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JP3294604B2 (ja) 波形の加算重畳による音声合成のための処理装置
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
JPS62160495A (ja) 音声合成装置
JPH031200A (ja) 規則型音声合成装置
US6212501B1 (en) Speech synthesis apparatus and method
JPH0632020B2 (ja) 音声合成方法および装置
JP3450237B2 (ja) 音声合成装置および方法
JPH08335096A (ja) テキスト音声合成装置
JP4451665B2 (ja) 音声を合成する方法
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP3532059B2 (ja) 音声合成方法及び音声合成装置
JP2003208188A (ja) 日本語テキスト音声合成方法
JP3532064B2 (ja) 音声合成方法及び音声合成装置
EP1589524B1 (en) Method and device for speech synthesis
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP3883318B2 (ja) 音声素片作成方法及び装置
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
JPH09179576A (ja) 音声合成方法
JP3081300B2 (ja) 残差駆動型音声合成装置
JP4387822B2 (ja) 韻律正規化システム
JP2703253B2 (ja) 音声合成装置
JP2013195928A (ja) 音声素片切出装置
JP2001100777A (ja) 音声合成方法及び装置
JP3292218B2 (ja) 音声メッセージ作成装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040302

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080312

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120312

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees