JP2001282278A - 音声情報処理装置及びその方法と記憶媒体 - Google Patents

音声情報処理装置及びその方法と記憶媒体

Info

Publication number
JP2001282278A
JP2001282278A JP2000099533A JP2000099533A JP2001282278A JP 2001282278 A JP2001282278 A JP 2001282278A JP 2000099533 A JP2000099533 A JP 2000099533A JP 2000099533 A JP2000099533 A JP 2000099533A JP 2001282278 A JP2001282278 A JP 2001282278A
Authority
JP
Japan
Prior art keywords
distortion
unit
speech
information processing
deformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000099533A
Other languages
English (en)
Inventor
Yasuo Okuya
泰夫 奥谷
Yasuhiro Komori
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000099533A priority Critical patent/JP2001282278A/ja
Priority to US09/818,607 priority patent/US20010032079A1/en
Publication of JP2001282278A publication Critical patent/JP2001282278A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 接続歪と変形歪に基づく歪が小さくなるよう
に音声素片を選択して、音声合成の音質劣化を抑制す
る。 【解決手段】 所定の音韻環境に対応付けて複数の音声
素片を保持する音声素片保持部206から音韻環境に対
応する複数の音声素片を抽出し(S402)、それら抽
出された複数の音声素片のそれぞれの歪を算出し(S4
04)、音韻環境に基づいて決定される所定区間内で最
小歪を求め(S405)、最小歪経路となる音声素片列
を選択し(S406)、その音声素片を編集・接続して
音声合成を行なう。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声素片を編集、
接続して音声合成を行なう音声情報処理装置及びその方
法と、その方法を実現するプログラムを記憶した記憶媒
体に関するものである。
【0002】
【従来の技術】近年、テキストデータを入力し、そのテ
キストデータを言語解析してポーズ部分、無音時間の長
さ、アクセントの生成などを行なって韻律情報を生成
し、更に、その韻律情報に従って音声素片を記憶してい
る素片辞書を検索し、対応する音声素片を読み出して音
声合成する音声合成装置が知られている。
【0003】このような音声合成装置では、その読み出
した音声素片を1ピッチ波形単位で複製、削除しなが
ら、所望のピッチ間隔で貼り合わせて編集し(PSOLA:
ピッチ同期波形重畳法)、それらの音声素片を接続する
音声合成方式が主流となっている。
【0004】
【発明が解決しようとする課題】このような技術を利用
して合成された音声には、音声素片を編集(変形)する
ことによる歪(以下、変形歪)と、音声素片同士を接続
することによって生じる歪(以下、接続歪)とが含ま
れ、これら2つの歪が合成音声の品質劣化を引き起こす
大きな要因となっている。
【0005】本発明は上記従来例に鑑みてなされたもの
で、接続や変形に基づく歪の影響を小さくする音声情報
処理装置及びその方法と、その方法を実現するプログラ
ムを記憶した記憶媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理装置は以下のような構成を備え
る。即ち、音声素片を所定の韻律情報に基づいて編集す
ることによって生じる歪を求める歪出力手段と、前記歪
出力手段から出力された歪に基づいて、音声合成に使用
する音声素片を選択する選択手段と、前記選択手段によ
り選択された音声素片に基づいて、音声合成を行う音声
合成手段と、を有することを特徴とする。
【0007】上記目的を達成するために本発明の音声情
報処理方法は以下のような工程を備える。即ち、音声素
片を所定の韻律情報に基づいて編集することによって生
じる歪を求める歪出力工程と、前記歪出力工程で出力さ
れた歪に基づいて、音声合成に使用する音声素片を選択
する選択工程と、前記選択工程で選択された音声素片に
基づいて、音声合成を行う音声合成工程と、を有するこ
とを特徴とする。
【0008】
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。
【0009】[実施の形態1]図1は、本発明の実施の
形態に係る音声合成装置のハードウェア構成を示すブロ
ック図である。尚、本実施の形態では、一般的なパーソ
ナルコンピュータを音声合成装置として用いる場合につ
いて説明するが、本発明は専用の音声合成装置であって
も、また他の形態の装置であっても良い。
【0010】図1において、101は制御メモリ(RO
M)で、中央処理装置(CPU)102で使用される各
種制御データを記憶している。CPU102は、RAM
103に記憶された制御プログラムを実行して、この装
置全体の動作を制御している。103はメモリ(RA
M)で、CPU102による各種制御処理の実行時、ワ
ークエリアとして使用されて各種データを一時的に保存
するとともに、CPU102による各種処理の実行時、
外部記憶装置104から制御プログラムをロードして記
憶している。この外部記憶装置は、例えばハードディス
ク、CD−ROM等を含んでいる。105はD/A変換
器で、音声信号を示すデジタルデータが入力されると、
これをアナログ信号に変換してスピーカ109に出力し
て音声を再生する。106は入力部で、オペレータによ
り操作される、例えばキーボードや、マウス等のポイン
ティングデバイスを備えている。107は表示部で、例
えばCRTや液晶等の表示器を有している。108はバ
スで、これら各部を接続している。110は音声合成ユ
ニットである。
【0011】以上の構成において、本実施の形態の音声
合成ユニット110を制御するための制御プログラムは
外部記憶装置104からロードされてRAM103に記
憶され、その制御プログラムで用いる各種データは制御
メモリ101に記憶されている。これらのデータは、中
央処理装置102の制御の下にバス108を通じて適宜
メモリ103に取り込まれ、中央処理装置102による
制御処理で使用される。D/A変換器105は、制御プ
ログラムを実行することによって作成される音声波形デ
ータ(ディジタル信号)をアナログ信号に変換してスピ
ーカ109に出力する。
【0012】図2は、本実施の形態に係る音声合成ユニ
ット110の構成を示すブロック図である。
【0013】図2において、201は入力部106や外
部記憶装置104から任意のテキストデータを入力する
テキスト入力部、202は解析辞書、203は言語解析
部、204は韻律生成規則保持部、205は韻律生成
部、206は素片辞書である音声素片保持部、207は
音声素片選択部、208は音声素片編集・接続部、20
9は音声波形出力部である。
【0014】以上の構成において、言語解析部203
が、解析辞書202を参照して、テキスト入力部201
から入力されるテキストの言語解析を行なう。こうして
解析された結果が韻律生成部205に入力される。韻律
生成部205は、言語解析部203における解析結果
と、韻律生成規則保持部204に保持されている韻律生
成規則に関する情報とを基に音韻系列と韻律情報を生成
して音声素片選択部207及び音声素片編集・接続部2
08に出力する。続いて、音声素片選択部207は、韻
律生成部205から入力される韻律生成結果を用いて、
音声素片保持部206に保持されている音声素片から対
応する音声素片を選択する。音声素片編集・接続部20
8は、韻律生成部205から入力される韻律生成結果に
従って、音声素片選択部207から出力される音声素片
を編集及び接続して音声波形を生成する。こうして生成
された音声波形は、音声波形出力部209で出力され
る。
【0015】次に、上記構成を備えた本実施の形態の音
声合成処理について説明する。
【0016】図3は、本実施の形態に係る音声合成ユニ
ット110における音声合成処理の流れを示すフローチ
ャートである。
【0017】まずステップS301で、テキスト入力部
201は、文、文節、単語等の単位毎に、テキストデー
タを入力してステップS302に移る。ステップS30
2では、言語解析部203により当該テキストデータの
言語解析を行う。次にステップS303に進み、音韻生
成部205は、ステップS302で解析された結果と所
定の韻律規則とに基づいて、音韻系列と韻律情報を生成
する。次にステップS304に進み、各音韻毎に、ステ
ップS303で得られた韻律情報と所定の音韻環境とに
基づいて、音声素片選択部207が音声素片保持部20
6に登録されている音声素片を選択する。次にステップ
S305に進み、その選択された音声素片及びステップ
S303で生成された韻律情報とに基づいて、音声素片
編集・接続部208により音声素片の編集および接続を
行なってステップS306に進む。ステップS306で
は、音声素片編集・接続部208によって生成された音
声波形を、音声波形出力部209が音声信号として出力
する。このようにして、入力されたテキストに対応する
音声が出力されることになる。
【0018】図4は、図3のステップS304(音声素
片選択)の処理の詳細を示すフローチャートである。
【0019】このステップS304では、音声素片同士
の接続歪(後述する)と、音声素片の変形歪(後述す
る)とに基づいて決定される歪値(後述)に従って、動
的計画法により、入力テキストデータの全体に亙って歪
値が最小となる音声素片系列を決定する。つまり、韻律
生成部205が生成する音韻系列Pn(0≦n<N)の
先頭(n=0)から順に処理することになる。まず最初
のn=0にセットし、ステップS401で、音韻系列の
終端まで処理が終了していない場合、つまりn<Nの場
合はステップS402に進み、n番目の音韻における音
声素片の候補を音声素片保持部206から取り出し、そ
れら音声素片の候補の個数をMnとしてステップS40
3に進む。ステップS403では、まず最初にm=0に
セットし、上記n,mで特定される音声素片候補Pn,m
(0≦m<Mn)に着目し、n番目の音韻における音声
素片の候補の先頭(m=0)から順に処理すして、候補
の最後まで処理が終了していない場合、つまりm<Mn
の場合はステップS404に進むが、最後まで処理が終
了した場合は、次の音韻の処理に移行するためn=n+
1としてステップS401に戻る。ステップS404で
は、一つ前の音韻Pn-1の各音声素片候補Pn-1,k(0≦
k<Mn-1:Mn-1は一つ前の音韻Pn-1の音声素片候補
の数)と、候補Pn,mとの間の歪値Dk,mをそれぞれ計算
してステップS405に進む。ステップS405では、
候補Pn,mに至るまでの歪値の総和の最小値である総和
Sn,mを求める。この総和Sn,mは、次式で表現される。
【0020】 Sn,m = min(Sn-1,k + Dk,m ) :0≦k<Mn-1 この式において、min()は、kを“0”から“Mn-1”
まで変化させた場合の最小値を意味する。また、そのと
きのkの値をPREn,mとして保持しておく。このPR
En,mは、候補Pn,mに至るまでの歪値の総和が最小とな
る経路を示し、ステップS406において最小歪経路を
特定するために利用される。この候補Pn,mの総和Sn,m
とPREn,mが決定したら、次の音声素片候補に対する
処理を行なうためにm=m+1としてステップS403
に戻る。
【0021】こうしてステップS401で、最終である
N番目の音韻系列までの処理が終了するとステップS4
06に進み、総和SN-1,m(0≦m<Mn)が最小となる
候補PN-1,mを特定し、そこから順次PREn,mを辿るこ
とによって最小歪経路となる音声素片系列を特定する。
こうして音声素片系列が特定されたら図3のステップS
305に進んで、これら特定された音声素片の編集・接
続を実行する。
【0022】図5は、n番目の音韻(現在注目している
音韻)の音声素片候補Pn,1における総和Sn,1の算出を
模式的に示した図である。本実施の形態では、音韻の単
位としてdiphoneを採用した場合について記述する。
【0023】図中、一つの円が音声素片の1候補Pn,m
を示し、円内の数字が歪値の総和の最小値である総和S
n,mを示している。また矢印は、上述のPREn,mを指
す。また、四角で囲まれた数字は、音声素片候補Pn,m
の歪値Dk,mを表わしている。
【0024】次に、本実施の形態における歪値について
説明する。
【0025】ここでは、歪値Dk,mを接続歪Dcと変形歪
Dtの重み付き和として定義する。即ち、 D = w×Dc + (1−w)×Dt :(0≦w≦1) ここで、重み係数wは、予備実験など経験的に求める係
数で、w=0の場合は、歪値が変形歪Dtのみで説明さ
れ、w=1の場合は歪値が接続歪Dcのみに依存するこ
とになる。
【0026】図5では、音声素片候補Pn,1の一つ前の
音韻の音声素片候補Pn-1,250との間の歪値D2,1が
“3”であり、音声素片候補Pn-1,250に至るまでの
歪値の総和Sn-1,2が“8”であるため、経路51がP
REn,1として決定される。
【0027】図6は、本実施の形態における接続歪Dc
の求め方を説明する図である。
【0028】接続歪Dcは、一つ前の音声素片と現在の
音声素片との接続箇所において生じる歪で、本実施の形
態では、ケプストラム距離を用いて表す。ここでは、音
声素片境界が存在するフレーム60,61(フレーム長
5ミリ秒、分析窓幅25.6ミリ秒)と、それを挟む前
後それぞれの2フレームからなる計5フレームを接続歪
の算出対象とする。ケプストラムは、0次(パワー)〜
16次(パワー)までの計17次元とする。このケプス
トラムベクトルの各要素の差の絶対値の和を、現在注目
している音声素片における接続歪とする。一つ前の音声
素片における終端部のケプストラムベクトルの各要素を
Cp i,j(iはフレーム番号で、i=0が音声素片境界
があるフレームである。jはベクトルの要素番号を示
す)、当該音声素片における始端部のケプストラムベク
トルの各要素をCc i,jとすると、現在注目している音
声素片の接続歪Dcは、 Dc=ΣΣ|Cp i,j − Cc i,j| となる。ここで最初のΣはi=−2〜2の総和を示し、
次のΣはj=0〜16の総和を示している。
【0029】図7は、本実施の形態に係る変形歪Dcの
求め方を説明する図である。
【0030】ここでは、PSOLA法によりピッチ間隔を広
げる場合について図示している。矢印はピッチマーク、
点線は変形前と変形後のピッチ素片の対応関係を表わし
ている。本実施の形態では、各ピッチ素片(微細素片と
もいう)の変形前後のケプストラム距離に基づいて変形
歪を表す。具体的には、まず、変形後のあるピッチ素片
(例えば70で示す)のピッチマーク71を中心にハニ
ング窓72(窓長25.6ミリ秒)をかけ、そのピッチ
素片70を周辺のピッチ素片を含めて切り出す。こうし
て切り出したピッチ素片70をケプストラム分析する。
次に、ピッチマーク71に対応する変形前のピッチ素片
73のピッチマーク74を中心にして同じ窓長のハニン
グ窓75でピッチ素片を切り出し、変形後の場合と同様
にしてケプストラムを求める。このようにして求めたケ
プストラム同士の距離を、着目しているピッチ素片70
の変形歪として、変形後のピッチ素片とそれに対応する
変形前のピッチ素片間の変形歪の総和をPSOLAで採用さ
れるピッチ素片数Npで割った値を、その音声素片の変
形歪とする。こうして求められる変形歪を式で記述する
と以下のようになる。
【0031】 Dt = ΣΣ|Corg i,j − Ctar i,j|/Np ここで最初のΣは、i=1からNまでの総和を示し、次
のΣはj=0〜16までの総和を示している。またCta
r i,jは、変形後のi番目のピッチ素片のケプストラム
のj次元目の要素を表わし、同様に、Corg i,jは、変
形後に対応する変形前のピッチ素片のケプストラムのj
次元目の要素を表わしている。
【0032】このように本実施の形態1によれば、各音
声素片における接続歪及び変形歪を求め、これら歪を基
に重み付け計算を行なって各音声素片における歪値を求
め、この歪値の総和が最小となる音声素片系列を特定し
て音声合成することにより、良好な音声合成結果を得る
ことができるという効果がある。
【0033】[実施の形態2]前述の実施の形態1で
は、音韻の単位としてdiphoneを用いる場合について記
述したが、本発明はこれに限定されるものではなく、音
素や半diphoneなどを単位としてもよい。半diphoneと
は、diphoneを音素境界で2つに分割したもののことで
ある。
【0034】図8は、半diphoneを単位とした場合の概
念図である。この半diphoneを単位とした場合のメリッ
トについて簡単に説明する。任意のテキストを合成する
場合、素片辞書は、全種類のdiphoneを用意しておく必
要がある。これに対して、半diphoneを単位とした場合
は、足りない半diphoneを別の半diphoneで代替できる。
例えば、半diphoneの「/a.b.0/(diphone a.bの左
側)」の代わりに「/a.n.0/」を利用しても、音質の劣
化を少なくして良好に音声を再生できる。これにより、
素片辞書のサイズをより小さくできる。
【0035】[実施の形態3]前述の実施の形態1及び
2では、音韻の単位としてdiphoneや音素や半diphoneを
用いる場合について説明したが、本発明はこれに限定さ
れるものではなく、これらを混合して用いてもよい。例
えば、利用頻度が高い音韻については、diphoneを単位
として、利用頻度が低い音韻については、2つの半diph
oneを用いて表現するようにしても良い。
【0036】図9は、音声素片単位を混合した場合の一
例を示した図で、ここでは音韻「o.w」がdiphoneで表さ
れ、その前後の音韻は半diphoneで表されている。
【0037】[実施の形態4]実施の形態3において、
元のデータベース中で連続する場所から取り出されたか
どうかの情報を持ち、連続していた場合は、半diphone
の組を仮想的にdiphoneとして扱うようにしてもよい。
つまり、元のデータベース中で連続するということは接
続歪が“0”であるため、この場合には変形歪だけを考
慮すればよいことになり計算量を大幅に軽減できる。
【0038】図10は、この様子を表わした概念図であ
る。図中の線上の数字は接続歪を表している。
【0039】図10において、1100で示される半di
phoneの組は、元のデータベース中で連続する場所から
取り出されたものであり、その接続歪みは“0”に一義
的に決定されている。また1101で示された半diphon
eの組は、元のデータベース中で連続する場所から取り
出されたものではないため、それぞれに対して接続歪み
が計算される。
【0040】[実施の形態5]上述の実施の形態1で
は、動的計画法を、1単位のテキストデータから得られ
た音韻系列全体に対して適用する場合について説明した
が、本発明はこれに限定されるものではない。例えば、
ポーズや無音部分までを一つの区間として音韻系列を分
割し、各区間毎に動的計画法を実行してもよい。尚、こ
こで言う無音部分とは、p,t,kなどの無音部分のことで
ある。このようなポーズや無音部分では、接続歪が
“0”であると考えられるため、このような分割が有効
となる。これにより、区間ごとに適当な選択結果を得る
ことができるだけでなく、合成音声の生成に要する時間
が短縮できる。
【0041】[実施の形態6]前述の実施の形態1で
は、接続歪の計算にケプストラムを用いる場合について
説明したが、本発明はこれに限定されるものではなく
い。例えば、接続点の前後に亙る波形の差分の和を用い
て接続歪を求めてもよい。またスペクトル距離などを用
いて接続歪を求めてもよい。この場合、接続点はピッチ
マークに同期させるのが、より好ましい。
【0042】[実施の形態7]前述の実施の形態1で
は、接続歪の計算において、窓長、シフト長、ケプスト
ラムの次数、フレーム数などを具体的数字を使って説明
したが、本発明はこれに限定されるものではない。任意
の窓長、シフト長、次数、フレーム数を使って接続歪を
算出してもよい。
【0043】[実施の形態8]前述の実施の形態1で
は、接続歪の計算にケプストラムの次数ごとに差分を取
ったものの総和を用いる場合について説明したが、本発
明はこれに限定されるものではない。例えば、各次数を
統計的性質などを使って正規化(正規化係数rj)して
もよい。この場合の接続歪Dcは、 Dc=ΣΣ(rj×|Cpre i,j − Ccur i,j|) となる。ここで、最初のΣはi=−2〜2の総和を、次
のΣはj=0〜16までの総和を示す。
【0044】[実施の形態9]実施の形態1では、ケプ
ストラムの次数ごとの差分の絶対値をベースに接続歪の
算出を行なう場合について説明したが、本発明はこれに
限定されるものではない。例えば、差分の絶対値の累乗
(累数が偶数の場合は絶対値でなくてもよい)をベース
に接続歪の算出を行なってもよい。ここで累数をNとす
ると、接続歪Dcは、 Dc=ΣΣ|Cpre i,j − Ccur i,j|^N となる。ここで“^N”はN乗を示す。ここでNの値を大
きくすることは、大きな差分について敏感になることを
意味しているので、その結果、接続歪が平均的に小さく
なるように働くことになる。
【0045】[実施の形態10]前述の実施の形態1で
は、変形歪としてケプストラムを用いる場合について説
明したが、本発明はこれに限定されるものではない。例
えば、変形前後の一定区間の波形の差分の和を用いて変
形歪を求めてもよい。また、スペクトル距離などを用い
て変形歪としてもよい。
【0046】[実施の形態11]前述の実施の形態1で
は、変形歪を波形から得られる情報を基に算出する場合
について説明したが、本発明はこれに限定されるもので
はない。例えば、PSOLAによるピッチ素片の削除および
複製の回数などを変形歪を算出する要素としてもよい。
【0047】[実施の形態12]前述の実施の形態1で
は、音声合成時に音声素片を読み出す毎に接続歪を計算
する場合について説明したが、本発明はこれに限定され
るものではない。例えば、接続歪を予め計算しておき、
テーブルとして保持しておいてもよい。
【0048】図11は、diphone「/a.r/」とdiphone「/
r.i/」との間の接続歪を記憶したテーブルの一例を示す
図である。ここでは縦軸に「/a.r/」の音声素片、横軸
に「/r.i/」の音声素片をとっている。例えば、「/a.r
/」の「id3」の音声素片と「/r.i/」の「id2」の音声素
片との接続歪は“3.6”で表されている。このように
接続可能なdiphone間の接続歪を全てテーブル化して用
意することにより、音声素片同士の合成時の接続歪の算
出がテーブルの参照だけで済むため、その計算量を大幅
に軽減でき、算出時間を大幅に短縮できる。
【0049】[実施の形態13]前述の実施の形態1で
は、音声合成時に、音声素片編集する毎に変形歪を計算
する場合について説明したが、本発明はこれに限定され
るものではない。例えば、変形歪を予め計算しておき、
テーブルとして保持しておいてもよい。
【0050】図12は、あるdiphoneを基本周波数と音
韻時間長について変化させた場合の変形歪をテーブルで
表した図である。
【0051】図中、μは、そのdiphoneの統計的な平均
値を示し、σは標準偏差である。具体的な表の作成方法
としては、次のような作成方法が考えられる。まず、基
本周波数と音韻時間長に関して統計的に平均値と分散を
求める。次に、それらを基に(5×5=)25通りの基
本周波数と音韻時間長をターゲットとしてPSOLA法をそ
れぞれ適用し、テーブルの変形歪を一つずつ求めていけ
ばよい。合成時は、ターゲットの基本周波数と音韻時間
長が決まれば、テーブルの近傍の値で内挿(もしくは外
挿)することによって、変形歪を推定することが可能で
ある。
【0052】図13は、合成時に変形歪を推定するため
の具体例を示した図である。
【0053】図中、黒丸がターゲットの基本周波数と音
韻時間長であり、このとき、各格子点の変形歪がテーブ
ルからA,B,C,Dと求まっていると仮定すると、変
形歪Dtは、以下の式により求めることができる。 Dt={A・(1−y)+C・y}×(1−x)+{B・(1−
y)+D・y}×x
【0054】[実施の形態14]前述の実施の形態13
では、変形歪テーブルの格子点として、そのdiphoneの
統計的な平均値と標準偏差を基に5×5のテーブルを作
成したが、本発明はこれに限定されるものではなく、任
意の格子点を持つテーブルとしてもよい。また、格子点
を平均値などに依らず決定的に与えてもよいものとす
る。例えば、韻律推定で推定されうる範囲を等分割する
などもよいものとする。
【0055】[実施の形態15]前述の実施の形態1で
は、接続歪と変形歪の重み和で歪を定量化する場合につ
いて説明したが本発明はこれに限定されるものではな
く、接続歪と変形歪それぞれに閾値を設定しておき、ど
ちらか一方でもその閾値を越えた場合はその音声素片が
選択されないようにして、十分大きな歪の値を与えるよ
うにしてもよい。
【0056】上記実施の形態においては、各部を同一の
計算機上で構成する場合について説明したが本発明はこ
れに限定されるものではなく、例えばネットワーク上に
分散した計算機や処理装置などに分かれて各部を構成し
てもよい。
【0057】上記実施の形態においては、各部を同一の
計算機上で構成する場合について説明したが、これに限
定されるものではなく、ネットワーク上に分散した計算
機や処理装置などに分かれて各部を構成してもよい。
【0058】上記実施の形態においては、プログラムを
制御メモリ(ROM)に保持する場合について説明した
が、これに限定されるものではなく、外部記憶など任意
の記憶媒体を用いて実現してもよい。また、同様の動作
をする回路で実現してもよい。
【0059】なお本発明は、複数の機器から構成される
システムに適用しても、1つの機器からなる装置に適用
してもよい。前述した実施の形態の機能を実現するソフ
トウエアのプログラムコードを記録した記録媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ(またはCPUやMPU)が記録媒体に格
納されたプログラムコードを読み出し実行することによ
っても達成される。
【0060】この場合、記録媒体から読み出されたプロ
グラムコード自体が前述した実施の形態の機能を実現す
ることになり、そのプログラムコードを記録した記録媒
体は本発明を構成することになる。このようなプログラ
ムコードを供給するための記録媒体としては、例えば、
フロッピー(登録商標)ディスク、ハードディスク、光
ディスク、光磁気ディスク、CD−ROM、CD−R、
磁気テープ、不揮発性のメモリカード、ROMなどを用
いることができる。
【0061】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施の形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼働しているOSなど
が実際の処理の一部または全部を行ない、その処理によ
って前述した実施の形態の機能が実現される場合も含ま
れる。
【0062】更に、記録媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施の形態の機能が実現
される場合も含まれる。
【0063】以上説明したように本実施の形態によれ
ば、音声合成に際して、音声素片を選択する際に接続歪
と変形歪を基準とするようにしたため、音質の劣化を最
小限に抑えた音声素片系列を求めて音声合成できる。
【0064】
【発明の効果】以上説明したように本発明によれば、接
続や変形に基づく歪の影響を小さくした音声を合成する
ことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声合成装置のハー
ドウェア構成を示すブロック図である。
【図2】本発明の実施の形態1に係る音声合成装置の機
能構成を示すブロック図である。
【図3】本実施の形態に係る音声合成装置における処理
の流れを示すフローチャートである。
【図4】図3のステップS304の音素素片選択処理の
詳細を示すフローチャートである。
【図5】n番目の音韻の音声素片候補Pn,1における最
小歪の総和Sn,1の算出を模式的に示した図である。
【図6】本発明の実施の形態に係る音声素片の接続歪を
説明する図である。
【図7】本発明の実施の形態に係る音声素片の変形を説
明する図である。
【図8】半diphoneを単位とした場合の概念図である。
【図9】本発明の実施の形態3に係る音声素片の単位を
diphoneと半diphoneとで混合した場合を説明する図であ
る。
【図10】本発明の実施の形態4に係る音声素片の単位
を取り出した半diphoneによって混合した例を示した図
である。
【図11】本発明の実施の形態12に係るdiphoneの /
a.r/ と/r.i/間の接続歪を決定するテーブル構成例を示
す図である。
【図12】本発明の実施の形態13に係る変形歪を表わ
すテーブル例を示す図である。
【図13】本発明の実施の形態13に係る変形歪を推定
する具体例を示した図である。

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 音声素片を所定の韻律情報に基づいて編
    集することによって生じる歪を求める歪出力手段と、 前記歪出力手段から出力された歪に基づいて、音声合成
    に使用する音声素片を選択する選択手段と、 前記選択手段により選択された音声素片に基づいて、音
    声合成を行う音声合成手段と、を有することを特徴とす
    る音声情報処理装置。
  2. 【請求項2】 前記選択手段は、歪が最小となるように
    音声合成に使用する音声素片を選択することを特徴とす
    る請求項1に記載の音声情報処理装置。
  3. 【請求項3】 前記歪出力手段は、前記音素素片を他の
    音声素片と接続することによって生じる接続歪と前記音
    声素片を変形することによって生じる変形歪とに基づい
    て、前記歪を求めることを特徴とする請求項1又は2に
    記載の音声情報処理装置。
  4. 【請求項4】 前記歪出力手段は、前記接続歪と、前記
    変形歪との重み付き和として前記歪を算出することを特
    徴とする請求項3に記載の音声情報処理装置。
  5. 【請求項5】 前記歪出力手段は、ケプストラム距離を
    用いて前記接続歪を算出することを特徴とする請求項3
    又は4に記載の音声情報処理装置。
  6. 【請求項6】 前記歪出力手段は、ケプストラム距離を
    用いて前記変形歪を算出することを特徴とする請求項3
    又は4に記載の音声情報処理装置。
  7. 【請求項7】 前記歪出力手段は、前記変形歪を記憶し
    たテーブルを有し、当該テーブルを参照して前記変形歪
    を決定することを特徴とする請求項3又は4に記載の音
    声情報処理装置。
  8. 【請求項8】 前記歪出力手段は、前記接続歪を記憶し
    たテーブルを有し、当該テーブルを参照して前記接続歪
    を決定することを特徴とする請求項3又は4に記載の音
    声情報処理装置。
  9. 【請求項9】 テキストデータを入力する入力手段と、 前記テキストデータを言語解析する言語解析手段と、 前記言語解析手段により解析された結果に基づいて前記
    所定の韻律情報を生成する韻律情報生成手段と、を更に
    備えることを特徴とする請求項1乃至8のいずれか1項
    に記載の音声情報処理装置。
  10. 【請求項10】 音声素片を所定の韻律情報に基づいて
    編集することによって生じる歪を求める歪出力工程と、 前記歪出力工程で出力された歪に基づいて、音声合成に
    使用する音声素片を選択する選択工程と、 前記選択工程で選択された音声素片に基づいて、音声合
    成を行う音声合成工程と、を有することを特徴とする音
    声情報処理方法。
  11. 【請求項11】 前記選択工程では、前記歪が最小とな
    るように音声合成に使用する音声素片を選択することを
    特徴とする請求項10に記載の音声情報処理方法。
  12. 【請求項12】 前記歪出力工程では、前記音素素片を
    他の音声素片と接続することによって生じる接続歪と前
    記音声素片を変形することによって生じる変形歪とに基
    づいて、前記歪を求めることを特徴とする請求項10又
    は11に記載の音声情報処理方法。
  13. 【請求項13】 前記歪出力工程では、前記接続歪と、
    前記変形歪との重み付き和として前記歪を算出すること
    を特徴とする請求項12に記載の音声情報処理方法。
  14. 【請求項14】 前記歪出力工程では、ケプストラム距
    離を用いて前記接続歪を算出することを特徴とする請求
    項12又は13に記載の音声情報処理方法。
  15. 【請求項15】 前記歪出力工程では、ケプストラム距
    離を用いて前記変形歪を算出することを特徴とする請求
    項12又は13に記載の音声情報処理方法。
  16. 【請求項16】 前記歪出力工程では、前記変形歪を記
    憶したテーブルを有し、当該テーブルを参照して前記変
    形歪を決定することを特徴とする請求項12又は13に
    記載の音声情報処理方法。
  17. 【請求項17】 前記歪算出工程では、前記接続歪を記
    憶したテーブルを有し、当該テーブルを参照して前記接
    続歪を決定することを特徴とする請求項12又は13に
    記載の音声情報処理方法。
  18. 【請求項18】 テキストデータを入力する入力工程
    と、 前記テキストデータを言語解析する言語解析工程と、 前記言語解析工程で解析された結果に基づいて前記所定
    の韻律情報を生成する韻律情報生成工程と、を更に備え
    ることを特徴とする請求項10乃至17のいずれか1項
    に記載の音声情報処理方法。
  19. 【請求項19】 請求項10乃至18のいずれか1項に
    記載の方法を実行するプログラムを記憶したことを特徴
    とする、コンピュータにより読取り可能な記憶媒体。
JP2000099533A 2000-03-31 2000-03-31 音声情報処理装置及びその方法と記憶媒体 Withdrawn JP2001282278A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000099533A JP2001282278A (ja) 2000-03-31 2000-03-31 音声情報処理装置及びその方法と記憶媒体
US09/818,607 US20010032079A1 (en) 2000-03-31 2001-03-28 Speech signal processing apparatus and method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000099533A JP2001282278A (ja) 2000-03-31 2000-03-31 音声情報処理装置及びその方法と記憶媒体

Publications (1)

Publication Number Publication Date
JP2001282278A true JP2001282278A (ja) 2001-10-12

Family

ID=18613873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000099533A Withdrawn JP2001282278A (ja) 2000-03-31 2000-03-31 音声情報処理装置及びその方法と記憶媒体

Country Status (2)

Country Link
US (1) US20010032079A1 (ja)
JP (1) JP2001282278A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2007114236A (ja) * 2005-10-18 2007-05-10 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2008026452A (ja) * 2006-07-19 2008-02-07 Kddi Corp 音声合成装置、方法及びプログラム
JP2008203543A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 声質変換装置及び音声合成装置
US7668717B2 (en) 2003-11-28 2010-02-23 Kabushiki Kaisha Toshiba Speech synthesis method, speech synthesis system, and speech synthesis program
US7912719B2 (en) 2004-05-11 2011-03-22 Panasonic Corporation Speech synthesis device and speech synthesis method for changing a voice characteristic
US8108216B2 (en) 2007-03-29 2012-01-31 Kabushiki Kaisha Toshiba Speech synthesis system and speech synthesis method
US8195464B2 (en) 2008-01-09 2012-06-05 Kabushiki Kaisha Toshiba Speech processing apparatus and program
US8468020B2 (en) 2006-05-18 2013-06-18 Kabushiki Kaisha Toshiba Speech synthesis apparatus and method wherein more than one speech unit is acquired from continuous memory region by one access

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
US7200558B2 (en) * 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7546241B2 (en) * 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus
US7577568B2 (en) * 2003-06-10 2009-08-18 At&T Intellctual Property Ii, L.P. Methods and system for creating voice files using a VoiceXML application
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
JP2008058667A (ja) * 2006-08-31 2008-03-13 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム
US9997154B2 (en) * 2014-05-12 2018-06-12 At&T Intellectual Property I, L.P. System and method for prosodically modified unit selection databases

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5097508A (en) * 1989-08-31 1992-03-17 Codex Corporation Digital speech coder having improved long term lag parameter determination
US4980916A (en) * 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
JP3397372B2 (ja) * 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3530591B2 (ja) * 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
JP3581401B2 (ja) * 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
JP3453456B2 (ja) * 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JPH09258771A (ja) * 1996-03-25 1997-10-03 Canon Inc 音声処理方法及び装置
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JPH10187195A (ja) * 1996-12-26 1998-07-14 Canon Inc 音声合成方法および装置
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
JP3268750B2 (ja) * 1998-01-30 2002-03-25 株式会社東芝 音声合成方法及びシステム
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
WO2000030069A2 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP4532862B2 (ja) * 2002-09-25 2010-08-25 日本放送協会 音声合成方法、音声合成装置および音声合成プログラム
US7668717B2 (en) 2003-11-28 2010-02-23 Kabushiki Kaisha Toshiba Speech synthesis method, speech synthesis system, and speech synthesis program
US7856357B2 (en) 2003-11-28 2010-12-21 Kabushiki Kaisha Toshiba Speech synthesis method, speech synthesis system, and speech synthesis program
US7912719B2 (en) 2004-05-11 2011-03-22 Panasonic Corporation Speech synthesis device and speech synthesis method for changing a voice characteristic
JP2007114236A (ja) * 2005-10-18 2007-05-10 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
US8468020B2 (en) 2006-05-18 2013-06-18 Kabushiki Kaisha Toshiba Speech synthesis apparatus and method wherein more than one speech unit is acquired from continuous memory region by one access
US9666179B2 (en) 2006-05-18 2017-05-30 Kabushiki Kaisha Toshiba Speech synthesis apparatus and method utilizing acquisition of at least two speech unit waveforms acquired from a continuous memory region by one access
US8731933B2 (en) 2006-05-18 2014-05-20 Kabushiki Kaisha Toshiba Speech synthesis apparatus and method utilizing acquisition of at least two speech unit waveforms acquired from a continuous memory region by one access
JP2008026452A (ja) * 2006-07-19 2008-02-07 Kddi Corp 音声合成装置、方法及びプログラム
JP2008203543A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 声質変換装置及び音声合成装置
US8108216B2 (en) 2007-03-29 2012-01-31 Kabushiki Kaisha Toshiba Speech synthesis system and speech synthesis method
US8195464B2 (en) 2008-01-09 2012-06-05 Kabushiki Kaisha Toshiba Speech processing apparatus and program

Also Published As

Publication number Publication date
US20010032079A1 (en) 2001-10-18

Similar Documents

Publication Publication Date Title
JP3854713B2 (ja) 音声合成方法および装置および記憶媒体
US7277856B2 (en) System and method for speech synthesis using a smoothing filter
JP2782147B2 (ja) 波形編集型音声合成装置
US6778960B2 (en) Speech information processing method and apparatus and storage medium
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
Wouters et al. Control of spectral dynamics in concatenative speech synthesis
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
US20050071163A1 (en) Systems and methods for text-to-speech synthesis using spoken example
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JPS62160495A (ja) 音声合成装置
WO2005109399A1 (ja) 音声合成装置および方法
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP4639932B2 (ja) 音声合成装置
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
JP3912913B2 (ja) 音声合成方法及び装置
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4454780B2 (ja) 音声情報処理装置とその方法と記憶媒体
JP3109778B2 (ja) 音声規則合成装置
JP2004347653A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
EP1589524B1 (en) Method and device for speech synthesis
JP4414864B2 (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
JP4468506B2 (ja) 音声データ作成装置および声質変換方法
JPH11249676A (ja) 音声合成装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070605