JP3883318B2 - 音声素片作成方法及び装置 - Google Patents

音声素片作成方法及び装置 Download PDF

Info

Publication number
JP3883318B2
JP3883318B2 JP01722199A JP1722199A JP3883318B2 JP 3883318 B2 JP3883318 B2 JP 3883318B2 JP 01722199 A JP01722199 A JP 01722199A JP 1722199 A JP1722199 A JP 1722199A JP 3883318 B2 JP3883318 B2 JP 3883318B2
Authority
JP
Japan
Prior art keywords
maximum point
speech
pitch
pitch mark
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01722199A
Other languages
English (en)
Other versions
JP2000214877A (ja
Inventor
健 岩木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP01722199A priority Critical patent/JP3883318B2/ja
Publication of JP2000214877A publication Critical patent/JP2000214877A/ja
Application granted granted Critical
Publication of JP3883318B2 publication Critical patent/JP3883318B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、所定の規則に基づいて任意の音声を合成する音声合成装置に関し、特に、音声波形を接続することにより合成音声を得る装置に関するものである。また、当該装置で使用する音声波形の切り出しに適用する音声素片作成方法及び装置に関する。
【0002】
【従来の技術】
従来のテキスト音声変換装置、すなわちテキスト文章を音声に変換して出力するテキスト音声変換装置は、一般に、テキスト解析部と、パラメータ生成部と、音声合成部から構成されている。
【0003】
このうち、テキスト解析部は、入力された漢字かな混じり文を、単語辞書を参照して形態素解析することにより、読み、アクセント、イントネーションの決定を行い、解析結果を韻律記号付き発音記号(中間言語)として出力する手段として機能する。また、パラメータ生成部は、ピッチ周波数パターンや音韻継続時間等の設定を行う手段として機能する。また、音声合成部は、音声の合成処理を行うための手段として機能する。
【0004】
ところで、音声合成部における音声合成処理には、以前から線形予測法などが用いられている。線形予測法は、音声波形を、音源インパルスによって励起された声道調音等価フィルタの出力であると考え、この等価フィルタの特性を受動的かつ線形と仮定すれば、線形微分方程式の解として音声波形の予測が可能であり、音声スペクトル特性は線形予測係数として抽出可能であるとする予測方法である。
【0005】
なお、線形予測分析については、例えば、下記に挙げる文献等、古くから研究がなされており、多くの文献が存在するため、ここでの詳述は避ける。
(1)古井 貞 著,“ディジタル音声処理" pp.60-89, 東海大学出版
(2)新見 康永 著,“音声認識" pp.53-56, 共立出版
因みに、人間の聴覚は、一般にスペクトルの山(フォルトマント)に非常に敏感で、逆にスペクトルの谷(アンチフォルマント)には敏感ではないといわれている。前述の線形予測分析は、全極型スペクトルをもつという特徴から、音声生成モデルのパラメトリックな分析法として非常に有効であり、フォルマント周波数およびそのバンド幅を求めることができる。
【0006】
しかし、線形予測分析等のこれら方法では、本来相互関係がある声道情報と音源情報を分離して取り扱っていたため、また、音声生成過程のモデル化による制約のため、音質の劣化が避けられないという問題があった。
【0007】
そこで、近年、声道情報と音源情報とを明確には分離せず、さらに原音声波形をそのまま利用して、音声波形に含まれる細かい微妙な変動を人工的なモデル化なしで活用し、品質劣化の少ない高品質の合成音を得る手法が用いられるようになってきた。
【0008】
音声波形をそのまま利用する方法としては、例えば、下記の文献「F.J.Charpentier,M.G.Stella,"Diphone synthesis using an overlap-add technique for speech waveforms concatanation",Proc.Int.Conf.ASSP,2015-2018,Tokyo,1986」に示されるものが知られている。この方法は、予め音声波形にピッチマーク(重畳基準点)をつけておき、その位置を中心に切り出して、合成時には合成ピッチ周期にあわせて、ピッチマーク位置を合成ピッチ周期ずらしながら重ね合わせる合成方法で、PSOLA(Pitch-Syncronous OverLap Add method)(ピッチ同期波形重畳法)として知られている。
【0009】
図2に、上記文献から引用した、ピッチを変更しながら音声波形を重畳するPSOLA法の模式図を示す。これは、分析時(素片作成時)に比べて合成時にピッチ周期を大きくした(音程を低くした)場合の例について表したものである。このように、PSOLA法では、ピッチ周期の変更が可能なため、テキスト音声変換における音声合成部として広く用いられている。なお、ピッチマークは1ピッチごとに付けておく必要がある。このため、ピッチマーク位置の設定方法として、下記に示すような各種手法が提案されている。
(1)音声波形のピークをピッチマークの設定位置とする方法
この方法についての文献としては、例えば、特開平4−372999号公報に記載の「音声ピッチ変換方法」がある。この方法は、音声波形のローカルピーク位置にはエネルギーが集中するため、切り出し波形のスペクトルを保存するのに適していると考えられる。
【0010】
しかし、音声波形のピークでは、無声子音の前後の有声音や、破裂音または破擦音を含む有声音において、高周波(ホワイトノイズ)成分が大きくなり、合成時の単位(1フレーム)ごとにピッチマークのゆらぎが生じる。図3に、この様子を示す。1ピッチ波形の最初の山に2つのピークが存在している様な場合、図のように音韻中の途中のフレームから、ピッチマークとするピークが移動する場合が生じ、結果として接続の悪いゴロゴロした音になる。
(2)音声波形のローパスフィルタリング後の波形に現れる複数の極大値のうち励振後の最初の極大値をピッチマークの設定位置とする方法
この方法によれば、前述した(1)の方法の問題点を解決でき、安定なピッチマークの抽出が可能である。
【0011】
【発明が解決しようとする課題】
しかし、より高音質の音声合成を実現するには、ピッチマークの設定に際し、各発声者および各発声音韻ごとにその波形の特徴が異なることをも考慮する必要が望ましい。
【0012】
すなわち、前述の(2)の方法においても、個々の波形の形状に応じて、各発声者あるいは各音韻ごとに、そのピッチマーク抽出のパラメータ、探索範囲等の調整を波形レベルで行うことが、より音質の高い音声合成を実現する上で望まれる。
【0013】
このことを、図4を用いて説明する。図4の場合、強度閾値bが小さすぎるため、ピッチマークとして極大点aを誤抽出している。この例で示されるように極大点がそれぞれ十分に大きな波形の場合、ピッチマーク探索の基準となる探索始点(max)が、1ピッチ波形中のどの極大点に当たるのか不明であり、探索範囲を小さく絞り込むことができず、結果として目視によりパラメータをフレームごとに与えなければならなかった。
【0014】
本発明は、以上の問題点を考慮してなされたもので、比較的簡単な処理でありながら、発声者および発声音韻に依存せずにピッチマークの正確な抽出が可能な音声素片作成方法及び装置の提供を目的とする。また、これらを適用することにより、高品質の音声合成装置を提供することを目的とする。
【0015】
【課題を解決するための手段】
かかる課題を解決するため、本発明においては、(1) 各フレームごとに音声信号のフォルマント周波数を抽出するフォルマント周波数抽出工程(手段)と、(2) 該フレームの中央近傍に現れる音声信号波形の最大点を検出する最大点検出工程(手段)と、(3) 最大点を探索始点に定め、該探索始点に対し時間軸上手前に現れる音声信号波形の極大点を検出する極大点検出工程(手段)と、(4) 探索始点に対応する時刻と各極大点に対応する時刻との時間差を求める極大点間時間差検出工程(手段)と、(5) フォルマント周期の定数倍に前記時間差が一致する、時間軸上最も手前の極大点をピッチマークに設定するピッチマーク設定工程(手段)と、(6) 設定された前記ピッチマークを中心として、音声波形を切出す音声波形切出工程(手段)とを備えるようにする。
【0016】
かかる構成とすることにより、ピッチマークの探索の基準となる探索始点が1ピット波形中のどの位置の極大点であったとしても、本発明の場合には、フォルマント周期の定数倍に前記時間差が一致する、時間軸上最も手前の極大点を確実に見つけ出してピッチマークに設定することができる。
【0017】
この結果、発声者や発生音韻に応じて異なる音声波形の特質に依存しない音声素片の作成が可能となる。
【0018】
【発明の実施の形態】
以下、本発明に係る音声素片作成装置(方法)並びに当該装置を適用して構成される音声合成装置(方法)の実施形態例を説明する。
(A)第1の実施形態
図1に、音声合成装置(方法)の実施形態例を示す。なお、図1は、説明上、音声合成装置(方法)の構成要素を機能的に表したものであって、物理的な構成までも拘束するものでない。また、当該構成は、ハードウェア的に実現可能なだけでなく、ソフトウェア的にも実現可能である。
【0019】
音声合成装置は、合成音生成処理部10と素片作成処理部20からなる。このうち、合成音生成処理部10は、テキスト解析部11と、単語辞書12と、パラメータ生成部13と、窓掛け部14と、合成音声部15からなる。一方、素片作成処理部20は、音声信号入力部21と、素片作成部22と、素片辞書23からなる。
【0020】
ここで、テキスト解析部11は、漢字かな混じり文が入力されると、単語辞書12を参照して形態素解析を行い、漢字かな混じり文の読み、アクセント、イントネーションを決定し、韻律記号付き発音記号(中間言語)を出力するための手段である。パラメータ生成部13は、ピッチ周波数パターンや音韻継続時間等の設定を行うための手段である。音声合成部15は、素片辞書23にて選択され、窓掛け部14でピッチマークが中心となるように後述する時間窓長Tp1の時間窓が掛けられた素片を、PSOLA法にて音声合成するための手段である。
【0021】
なお、時間窓長Tp1は、分析時のピッチ周期をTpa、合成時のピッチ周期をTpsとする場合、次式
p1=Co×min(Tpa,Tps) …(1)
で与えるものとする。また、係数Co には、2.0 程度の値を用いるものとする。
【0022】
素片辞書23は、素片作成部22で作成された素片を書き込むための手段である。素片作成部22は、本発明の主要部であり、音声合成に必要な音声素片を作成するのに用いられる。なお、当該素片作成部22の処理動作を、図5にフローチャートとして示す。
【0023】
素片作成部22は、データディスクなど備えた音声信号入力部21から音声信号が入力されると、まず、ステップS1にて、音声信号データを分析フレームと称する区間に分割する。
【0024】
ここで、分析フレームは、一定長さの区間に区切られた音声信号データとして与えられる。本実施形態の場合、1フレーム長を32m秒とし、各フレームは、8m秒づつずれるように区切られているものとする。また、総フレーム数をNとし、波形データをX(l) 、i=1,…,N(フレーム)、l=1,…,W(ポイント)とする。なお、Wは、フレーム長とサンプリング周波数Fs で決まる1フレーム内の標本数であり、本実施形態の場合、W=32×Fs /1000である。
【0025】
素片作成部22は、ステップS1での分割処理が終了すると、ステップS2に移り、フレーム番号iの初期化を実行する。すなわち、フレーム番号iを0に設定する。なお、当該初期設定後のフレームX0(l) を始め、第iフレームXi(l)は、線形予測分析処理(ステップS3)及び低域ろ波処理(ステップS7)のそれぞれに与えられる。
【0026】
素片作成部22は、ステップS3に進むと、第iフレームXi(l) のデータを線形予測分析し、線形予測係数を求める。なお、当該処理で使用する線形予測分析法としては、従来より種々の方法が提案されているが、本実施形態においては、線形予測フィルタの安定性が満たされる偏自己相関(PARCOR)法を適用する。素片作成部22は、当該処理により、線形予測係数Aiと、その線形予測フィルタと入力信号との差である残差波形とを得る。
【0027】
この後、素片作成部22は、ステップS4及びS6の処理に移る。先に、ステップS6に移行した場合の処理を説明する。素片作成部22は、ステップS6に移行すると、ステップS3で得られた線形予測係数をもとにフォルマント周波数の抽出を行う。ここで、線形予測係数をA={am }で表すとすると、素片作成部22は、フォルマント周波数を、次式
Σam /zm =0 …(2)
を満たす解(根)のうち、音源による極を取り除いたものをとして求める。また、素片作成部22は、このフォルマント周波数と同定した解(根)をzm =γm /ej λ mで与えるとき、フォルマント周波数fm 及びその帯域幅bm をそれぞれ、次式
fm =λm /2πT …(3)
bm =−logγm /πT …(4)
として求める。なお、素片作成部22は、このようにして求めたフォルマント周波数fm をピッチマーク抽出処理(ステップS10)に与える。
【0028】
かかる処理に並行して、素片作成部22は、ステップS4−S5−S8−S9において、次の処理を実行する。
【0029】
まず、素片作成部22は、ステップS4に移行すると、ステップS3で得られた線形予測係数をもとに残差信号の抽出(計算)を行う。当該残差信号が得られると、素片作成部22は、ステップS5に進み、得られた残差信号の自己相関ピークを検出することにより、第iフレームに係る音声信号のピッチ周波数tp を求める。求められたピッチ周波数tp は、ステップS8の処理で用いられる。
【0030】
なお、本実施形態においては、線形予測残差波形の自己相関ピークを用いてピッチ周波数tp を検出することにしたが、簡易手法として、波形ピークの間隔や、ケプストラム法によるケフレンシー領域でのピッチ周期の抽出などにより、ピッチ周波数tp を検出することも考えられる。
【0031】
さて、ピッチ周波数tp が求められると、ステップS8に進み、フレーム中央近傍での最大点抽出処理に移行するが、この処理に先立って、ステップS7において以下の処理が行われる。すなわち、素片作成部22は、ステップS7において、第iフレームのデータX(l) に対し、フレームごとのピッチマークの細かい変動を除去するため、波形データに対してローパスフィルタを掛ける処理が行われる。
【0032】
なお、この出力に、ローパスフィルタでの遅延補正を施したデータを、以下、Y(l) とする。また、ここで用いるローパスフィルタには、後で波形に基づく処理を行うため、直線位相を保つ非巡回型(FIR)のディジタルフィルタが望ましい。因みに、FIRディジタルフィルタは公知であるため、その記述は省略する。また、ローパスフィルタ処理は、本実施形態では予め一括して行うように説明したが、フレーム毎に行うようにしても何ら差し支えなく、その効果も同一である。
【0033】
ステップS8の説明に戻る。素片作成部22は、ステップS8に進むと、各フレームの中央近傍について、信号波形の最大値(max)と、その時間座標tm とを求める。なお、当該最大値は、フレーム中央付近の最大値であって、必ずしも、全フレーム中の最大値とは限らない。通常、該最大値は、フレーム中央付近の極大値と一致する。
【0034】
素片作成部22は、最大値の探索範囲を与えるフレーム中央に対する近傍範囲は、ステップS5で求めたピッチ周期tp を用い、次のように定める。すなわち、本実施形態の場合、素片作成部22は、フレーム中央の前後0.6tp の範囲を探索範囲に採用する。すなわち、最大値(max)は、次式
max=maximum{yn(l)|l=W/2−0.6tp,…,W/2+0.6tp}
=yn(tm) …(5)
を満たす。
【0035】
かくして、最大値(max)とその時間座標tm とが求まると、素片作成部22は、ステップS9に進み、定数a(ただし、aは0<a<1の定数)で定まる区間[tm −tp ×a,tm ]内に現れる全ての極大値を検出し、その総数をMとする。なお、極大値をPk とし、その時間座標をtpk(k=1,2,…,M)とする。すなわち、Pk =yn(tpk)である。
【0036】
以上の並列処理により、極大値Pk 、その時間座標tpk、フォルマント周波数fm のそれぞれが求められたことになる。さて、これら各値が求められると、素片作成部22は、ステップS10に進み、ピッチマーク抽出処理を行う。このステップS10における処理は、本発明の核心部である。当該ステップS10の処理の詳細を、図6を用いて説明する。
【0037】
まず、素片作成部22は、ステップS101において、パラメータjを初期設定(j=1)する。また、素片作成部22は、ステップS105において、前述のステップS6で求めたフォルマント周波数fm を時間値(周期)に換算する。本実施形態では、第1フォルマント周期数(F1)のみを用いることにし、その逆数gを保持する。以上で初期設定が完了する。
【0038】
次に、素片作成部22は、ステップS102に進み、ピッチマーク候補Pj 、及びその時間座標tpjを定義する。ここでPj 及びtpjは、最大値maxのピークから時間軸上でj個手前にある極大値のピーク値及びその時間座標である。
【0039】
この後、素片作成部22は、ステップS103において、tpjとその後続の最大点tpmとの時間差sj を求める。なお、当該時間差sj は、絶対値として求める。
【0040】
次に、素片作成部22は、ステップS104に進み、極大点間の時間差sj と、第1フォルマント周波数の時間換算値gのj倍(g×j)との差εj を計算する。
【0041】
ここで、1ピッチ波形の最初の極大点(望ましいピッチマーク)からこの1ピッチ波形内の第j番目極大点までの時間間隔は、図7に示すように、第1フォルマント周波数の逆数(すなわち、第1フォルマント周期)gのj倍の関係にある。
【0042】
従って、極大点Pj に対して求まった誤差が、ある閾値よりも小さい場合は、この極大点が望ましいピッチマーク点か、又はピッチマーク点よりも後続の極大点であることになる(図7のS1 〜S3 )。
【0043】
これに対し、極大点Pj に対して求まった誤差がある閾値よりも大きい場合は、この極大点が望ましいピッチマーク点を通り越して1つ前の1ピッチ波形の最後の極大点まで遡っていることが分かる(図7のS4 )。
【0044】
そこで、素片作成部22は、ステップS106の判定の結果、誤差が閾値よりも小さかった場合(否定結果)には、もう1つ前の極大点をピッチマーク候補としてステップS102へ戻り、誤差が閾値よりも大きかった場合(肯定結果)には、望ましい極大点を通り越したとみなし、ステップS107に進み、1つ手前の極大点をピッチマークとする。
【0045】
なお、素片作成部22は、ステップS102〜ステップS109の計算中に、極大点が探索範囲外に出たときには(ステップS108で肯定結果)、ステップS110に移り、探索始点をピッチマークとする。因みに、ステップS108が成立するのは、例えば有声子音や母音(イ)などのように、第1フォルマント周波数がピッチ周期に近い場合であり、各極大点間隔がピッチ周期となっていることが考えられる。
【0046】
以上の処理が、前述のステップS10で実行され、ピッチマークKが求められる。図5の説明に戻る。
【0047】
素片作成部22は、このようにしてピッチマークKが求められると、ステップS11に進み、ピッチマーク前後の音声データを切り出し、ピッチマークがその中央に位置するようにセンタリングする。なお、予備実験の結果、本実施形態では、ここでの切出し長を、男性の最長ピッチ周期に余裕を持たせた12m秒とする。
【0048】
素片作成部22は、当該音声データを切り出すと、これを第iフレームについての素片として、ディスク状記憶媒体やメモリカード等の記憶媒体からなる素片辞書23に順次書き込む(ステップS12)。
【0049】
この後、素片作成部22は、ステップS13に進み、全フレームについての処理が終了したかを判定し、終了していなければ、ステップS14においてフレーム番号を更新し、ステップS3以降の処理を継続する。一方、素片作成部22は、ステップS13における判定において、全フレームの処理が終了していることが確かめられた場合、ディスクのクローズ処理等(図示せず)を行って素片作成処理部20の動作を終了する。
【0050】
以上の処理動作により、本実施形態に係る音声素片作成装置(方法)又は当該装置(方法)を採用する音声合成装置(方法)では、従来技術に比して、以下の効果が認められる。
【0051】
まず、従来技術では、ピッチマーク候補となる時間軸座標点の中から望ましいピッチマークを選出するのに、波形まで立ち返ってパラメータ又は探索範囲を設定する必要があった。言いかえれば、各発生音又は各発声音韻、さらには各フレームごとに、その波形に依存したパラメータを行う必要があり、効率的でなかった。
【0052】
これに対し、本実施形態に係る装置(方法)の場合には、音声波形のフォルマント周波数と波形ピークとの関係を考慮した上で、パラメータの設定処理を、従来のようにヒューリスティックな方法で与えず、その波形のもつ物理的な特徴に基づいて与えるようにしたことにより、発生者及び発生音韻に依存しない安定したピッチマークの特定を実現できる。
【0053】
以下、かかる効果を図8〜図10を用いて説明する。ここで、図8は、音声信号の例として、男声音声[e(エ)]のLPCスペクトル包絡図である。図9は、統計的なフォルマント周波数の平均値及び標準偏差を表した図である。なお、図10(A)は、本実施形態に基づくピッチマーク位置の特定例であり、図10(B)は、従来例によるピッチマーク位置の特定例である。
【0054】
図10(B)に示すように、従来方法では、ピッチマーク探索範囲が狭いため(ピーク点の直前に現れる極大点をピッチマーク位置とするため)、望ましいピッチマークまで時間軸にそって遡ることができず、結果として1ピッチ波形中央部の極大点をピッチマークと誤抽出している。このような誤抽出を訂正するためには素片作成後に目視による確認とパラメータの修正が必要となる。
【0055】
一方、本実施形態のピッチマーク抽出方法では、従来のように、個々の波形に合うように時間軸上のパラメータを目視で合わせるのではなく、音声信号の第1フォルマント周期を用いてピッチマークの抽出を行うので、1ピッチ波形の中央部又は1つ前の1ピッチ波形の極大点を抽出するなどといったピッチマークの誤抽出がなくなる。また、各発声者及び各フレームによるパラメータの変更が必要でなくなり、素片作成作業は格段に効率化できる。
【0056】
なお、以上の効果は、ピッチマーク点の抽出を、音声信号の有声部分に対してのみ行うものとした場合の効果である。因みに、無声部分については、音声データをそのまま使用する。
(B)他の実施形態
(1)上述の実施形態においては、簡単のため、ピッチマークの探索基準として、第1フォルマント周波数のみ(より正確には、その逆数で与えられる第1フォルマント周期gのみ。以下、同様。)を用いているが、これと同様に高次のフォルマント周波数までも用いてピッチマークの探索を行うことも可能である。
(2)上述の実施形態においては、音声合成処理の直前に窓掛け処理(窓掛け部14の処理)を実行する場合について述べたが、図11に示すように、素片作成部22において窓掛け処理を実行する(すなわち、素片辞書23に書き込む素片に窓掛けする)ようにしても良い。このようにすれば、音声合成処理時に必要であった1ピッチ毎の窓掛け処理(乗算)が不要となり、単に音声素片を重ね合わせるだけの処理で済むため、音声合成処理時における処理量を大幅に減少させることができる。
【0057】
さらに、この場合、DSPなどの高度な演算プロセッサを使用することなく、汎用のCPUを用いて同機能を実現することが可能となる。また、同一の処理能力を有する演算プロセッサを用いる場合には、音声合成処理の大幅な高速化を実現できる。
(3)また、上述の実施形態では、音声合成装置(方法)に本発明に係る素片作成部22を適用する場合について述べたが、原音声のピッチを変化させて声の高さを変更する、いわゆる、音声ピッチ変換装置のピッチマーク設定処理やその他の音声出力装置における処理に適応しても良い。
【0058】
【発明の効果】
上述のように、本発明によれば、探索始点に対応する時刻と各極大点に対応する時刻との時間差がフォルマント周期の定数倍に一致する、時間軸上最も手前の極大点をピッチマークに設定するようにしたことより、ピッチマークの探索基準となる探索始点が1ピット波形中のどの位置の極大点であったとしても、時間軸上最も手前の極大点を確実に見つけ出してピッチマークとすることができる。
【0059】
この結果、発声者や発生音韻に応じて異なる音声波形の特質に依存しない音声素片の作成を実現できる。
【図面の簡単な説明】
【図1】音声素片作成装置(方法)を機能の一部に有する音声合成装置の構成例を示す機能ブロック図である。
【図2】従来の音声合成法の説明に係る図である。
【図3】従来手法に基づくピークマーク抽出結果を示す図である。
【図4】従来例でピッチマークの抽出誤りが生じる場合の例を示す図である。
【図5】素片作成部における処理内容を示す図である。
【図6】ピッチマーク抽出処理内容を示す図である。
【図7】極大点と第1フォルマント周期との関係を示す図である。
【図8】線形予測法により求めたスペクトル包絡線例を示す図である。
【図9】統計的なフォルマント周波数の平均値及び標準偏差の例を示す図である。
【図10】実施形態例と従来例との違いの説明に係る図である。
【図11】他の実施形態例を示す図である。
【符号の説明】
10…合成音生成処理部、11…テキスト解析部、12…単語辞書、13…パラメータ生成部、14…窓掛け部、15…合成音声部、20…素片作成処理部、21…音声信号入力部、22…素片作成部、23…素片辞書。

Claims (2)

  1. 各フレームごとに音声信号のフォルマント周波数を抽出するフォルマント周波数抽出工程と、
    該フレームの中央近傍に現れる音声信号波形の最大点を検出する最大点検出工程と、
    前記最大点を探索始点に定め、該探索始点に対し時間軸上手前に現れる音声信号波形の極大点を検出する極大点検出工程と、
    前記探索始点に対応する時刻と各極大点に対応する時刻との時間差を求める極大点間時間差検出工程と、
    前記フォルマント周期の定数倍に前記時間差が一致する、時間軸上最も手前の極大点をピッチマークに設定するピッチマーク設定工程と、
    設定された前記ピッチマークを中心として、音声波形を切出す音声波形切出工程と
    を備えることを特徴とする音声素片作成方法。
  2. 各フレームごとに音声信号のフォルマント周波数を抽出するフォルマント周波数抽出手段と、
    該フレームの中央近傍に現れる音声信号波形の最大点を検出する最大点検出手段と、
    前記最大点を探索始点に定め、該探索始点に対し時間軸上手前に現れる音声信号波形の極大点を検出する極大点検出手段と、
    前記探索始点に対応する時刻と各極大点に対応する時刻との時間差を求める極大点間時間差検出手段と、
    前記フォルマント周期の定数倍に前記時間差が一致する、時間軸上最も手前の極大点をピッチマークに設定するピッチマーク設定手段と、
    設定された前記ピッチマークを中心として、音声波形を切出す音声波形切出手段と
    を備えることを特徴とする音声素片作成装置。
JP01722199A 1999-01-26 1999-01-26 音声素片作成方法及び装置 Expired - Fee Related JP3883318B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01722199A JP3883318B2 (ja) 1999-01-26 1999-01-26 音声素片作成方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01722199A JP3883318B2 (ja) 1999-01-26 1999-01-26 音声素片作成方法及び装置

Publications (2)

Publication Number Publication Date
JP2000214877A JP2000214877A (ja) 2000-08-04
JP3883318B2 true JP3883318B2 (ja) 2007-02-21

Family

ID=11937900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01722199A Expired - Fee Related JP3883318B2 (ja) 1999-01-26 1999-01-26 音声素片作成方法及び装置

Country Status (1)

Country Link
JP (1) JP3883318B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1224956C (zh) * 2001-08-31 2005-10-26 株式会社建伍 基音波形信号发生设备、基音波形信号发生方法及程序
US8271284B2 (en) 2006-07-21 2012-09-18 Nec Corporation Speech synthesis device, method, and program
JP5405206B2 (ja) * 2009-06-24 2014-02-05 ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2000214877A (ja) 2000-08-04

Similar Documents

Publication Publication Date Title
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
US7155390B2 (en) Speech information processing method and apparatus and storage medium using a segment pitch pattern model
US10692484B1 (en) Text-to-speech (TTS) processing
Govind et al. Expressive speech synthesis: a review
Shih et al. Issues in text-to-speech conversion for Mandarin
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
Kayte et al. A Marathi Hidden-Markov Model Based Speech Synthesis System
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
Mary et al. Automatic syllabification of speech signal using short time energy and vowel onset points
JP3883318B2 (ja) 音声素片作成方法及び装置
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Narendra et al. Time-domain deterministic plus noise model based hybrid source modeling for statistical parametric speech synthesis
Chettri et al. Nepali text to speech synthesis system using ESNOLA method of concatenation
Mandal et al. Epoch synchronous non-overlap-add (ESNOLA) method-based concatenative speech synthesis system for Bangla.
Ahmed et al. Text-to-speech synthesis using phoneme concatenation
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Saeed et al. A novel multi-speakers Urdu singing voices synthesizer using Wasserstein Generative Adversarial Network
Waghmare et al. Analysis of pitch and duration in speech synthesis using PSOLA
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
Gladston et al. Incorporation of Happiness in Neutral Speech by Modifying Time-Domain Parameters of Emotive-Keywords
Datta et al. Epoch Synchronous Overlap Add (ESOLA)
Khalifa et al. SMaTalk: Standard malay text to speech talk system
Reddy et al. Neutral to joyous happy emotion conversion
KR100608643B1 (ko) 음성 합성 시스템의 억양 모델링 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061114

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091124

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101124

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101124

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111124

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121124

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121124

Year of fee payment: 6

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121124

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121124

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131124

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees