JP2001282273A - 音声情報処理装置とその方法と記憶媒体 - Google Patents

音声情報処理装置とその方法と記憶媒体

Info

Publication number
JP2001282273A
JP2001282273A JP2000099420A JP2000099420A JP2001282273A JP 2001282273 A JP2001282273 A JP 2001282273A JP 2000099420 A JP2000099420 A JP 2000099420A JP 2000099420 A JP2000099420 A JP 2000099420A JP 2001282273 A JP2001282273 A JP 2001282273A
Authority
JP
Japan
Prior art keywords
distortion
unit
speech
information processing
deformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000099420A
Other languages
English (en)
Other versions
JP4454780B2 (ja
JP2001282273A5 (ja
Inventor
Yasuo Okuya
泰夫 奥谷
Yasuhiro Komori
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000099420A priority Critical patent/JP4454780B2/ja
Publication of JP2001282273A publication Critical patent/JP2001282273A/ja
Priority to US10/928,114 priority patent/US7039588B2/en
Priority to US11/295,653 priority patent/US20060085194A1/en
Publication of JP2001282273A5 publication Critical patent/JP2001282273A5/ja
Application granted granted Critical
Publication of JP4454780B2 publication Critical patent/JP4454780B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 素片辞書に登録する音声素片の数を少なく抑
えて、かつその素片辞書を用いて良好な音声を再生す
る。 【解決手段】 入力したテキストデータを言語解析して
韻律を生成し、その韻律に基づいて音声データベース2
10から音声素片を検索する。この検索された音声素片
の変形歪、及び一つ前の音韻の音声素片との接続による
接続歪を求め、歪決定部411により、変形歪と接続歪
の重み付け等を行なってトータルの歪を決定する。次に
Nbest決定部413により、A*(エースター)探索ア
ルゴリズムを用いて歪が最小となる上位N通りの最適パ
スを求め、登録素片決定部415は上位N通りの最適パ
スから、その頻度順に素片辞書206に登録する登録素
片を選び出し、それを素片辞書に登録する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成で使用さ
れる素片辞書を作成する音声情報処理装置及びその方法
と記憶媒体に関するものである。
【0002】
【従来の技術】近年、音声素片を1ピッチ波形単位で複
製及び、或いは削除しながら所望のピッチ間隔で貼り合
わせて編集し(PSOLA:ピッチ同期波形重畳法)、それ
らの音声素片を接続して音声合成する音声合成方法が主
流となっている。
【0003】
【発明が解決しようとする課題】このような技術を利用
して音声合成された音声には、音声素片を編集すること
による歪(以下、変形歪)と、音声素片を接続すること
による歪(以下、接続歪)とが含まれる。これら2つの
歪が、合成された音声の品質劣化を引き起こす大きな要
因となる。中でも、素片辞書に登録できる音声素片の数
が制限される状況下では、音声合成時に、このような歪
が小さくなるように音声素片を選択する余地がほとんど
残されていない場合がある。特に、一つの音韻環境につ
いて1つの音声素片しか素片辞書に登録できない場合に
は、歪が小さくなるように音声素片を選択する余地は全
くなく、このような素片辞書を用いると、変形歪や接続
歪による合成音声の品質劣化は避けられないものとな
る。
【0004】本発明は上記従来例に鑑みてなされたもの
で、接続歪や変形歪に基づき歪の影響を考慮して、素片
辞書に登録する音声素片を選択することによって音声合
成の音質劣化を抑制する音声情報処理装置及びその方法
と記憶媒体を提供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理装置は以下のような構成を備え
る。即ち、音素素片を所定の韻律情報に基づいて編集す
ることによって生じる歪を求める歪出力手段と、音声合
成に使用する素片辞書に登録する音声素片を、前記歪出
力手段から出力された歪に基づいて選択する素片登録手
段と、を有することを特徴とする。
【0006】また前記歪出力手段は、前記音声素片を他
の音声素片と接続することによって生じる接続歪と前記
音声素片を変形することによって生じる変形歪とに基づ
いて、前記歪を求めることを特徴とする。
【0007】上記目的を達成するために本発明の音声情
報処理方法は以下のような工程を備える。即ち、音素素
片を所定の韻律情報に基づいて編集することによって生
じる歪を求める歪出力工程と、音声合成に使用する素片
辞書に登録する音声素片を、前記歪出力工程で出力され
た歪に基づいて選択する素片登録工程と、を有すること
を特徴とする。
【0008】
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。
【0009】[実施の形態1]図1は、本発明の実施の
形態に係る音声情報処理装置のハードウェア構成を示す
ブロック図である。尚、本実施の形態では、一般的なパ
ーソナルコンピュータを音声合成装置として用いる場合
について説明するが、本発明は専用の音声情報処理装置
であっても、また他の形態の装置であっても良い。
【0010】図1において、101は制御メモリ(RO
M)で、中央処理装置(CPU)102で使用される各
種制御データを記憶している。CPU102は、RAM
103に記憶された制御プログラムを実行して、この装
置全体の動作を制御している。103はメモリ(RA
M)で、CPU102による各種制御処理の実行時、ワ
ークエリアとして使用されて各種データを一時的に保存
するとともに、CPU102による各種処理の実行時、
外部記憶装置104から制御プログラムをロードして記
憶している。この外部記憶装置は、例えばハードディス
ク、CD−ROM等を含んでいる。105はD/A変換
器で、音声信号を示すデジタルデータが入力されると、
これをアナログ信号に変換してスピーカ109に出力し
て音声を再生する。106は入力部で、オペレータによ
り操作される、例えばキーボードや、マウス等のポイン
ティングデバイスを備えている。107は表示部で、例
えばCRTや液晶等の表示器を有している。108はバ
スで、これら各部を接続している。110は音声合成ユ
ニットである。
【0011】以上の構成において、本実施の形態の音声
合成ユニット110を制御するための制御プログラムは
外部記憶装置104からロードされてRAM103に記
憶され、その制御プログラムで用いる各種データは、制
御メモリ101に記憶されている。これらのデータは、
中央処理装置102の制御の下にバス108を通じて適
宜メモリ103に取り込まれ、中央処理装置102によ
る制御処理で使用される。D/A変換器105は、制御
プログラムを実行することによって作成される音声波形
データ(ディジタル信号)をアナログ信号に変換してス
ピーカ109に出力する。
【0012】図2は、本実施の形態に係る音声合成ユニ
ット110のモジュール構成を示すブロック図で、この
音声合成ユニット110は、大きく分けて、素片辞書2
06に音声素片を登録するための処理を実行する素片辞
書作成モジュールと、テキストデータを入力し、そのテ
キストデータに対応する音声を合成して出力する処理を
行なう音声合成モジュールの2つのモジュールを有して
いる。
【0013】図2において、201は、入力部106又
は外部記憶装置104から任意のテキストデータを入力
するテキスト入力部、202は解析辞書、203は言語
解析部、204は韻律生成規則保持部、205は韻律生
成部、206は素片辞書、207は音声素片選択部、2
08は音声素片編集・接続部、209は音声波形出力
部、210は音声データベース、211は素片辞書作成
部、212はテキストコーパスである。このテキストコ
ーパス212には、入力部106などを介して種々の内
容のテキストを入力することができる。
【0014】まず、音声合成モジュールについて説明す
る。この音声合成モジュールでは、言語解析部203
が、解析辞書202を参照して、テキスト入力部201
から入力されるテキストの言語解析を行なう。こうして
解析された結果が韻律生成部205に入力される。韻律
生成部205は、言語解析部203における解析結果
と、韻律生成規則保持部204に保持されている韻律生
成規則に関する情報とを基に、音韻系列と韻律情報を生
成して音声素片選択部207及び音声素片編集・接続部
208に出力する。続いて、音声素片選択部207は、
韻律生成部205から入力される韻律生成結果を用い
て、素片辞書206に保持されている音声素片から対応
する音声素片を選択する。音声素片編集・接続部208
は、韻律生成部205から入力される韻律生成結果に従
って、音声素片選択部207から出力される音声素片を
編集及び接続して音声波形を生成する。こうして生成さ
れた音声波形は、音声波形出力部209で出力される。
【0015】次に、素片辞書作成モジュールについて説
明する。
【0016】このモジュールでは、素片辞書作成部21
1が、後述する手順に基づいて、音声データベース21
0の中から音声素片を選び出して素片辞書206に登録
する。
【0017】次に、上記構成を備えた本実施の形態の音
声合成処理について説明する。
【0018】図3は、図2の音声合成モジュールにおけ
る音声合成処理(オンライン処理)の流れを示すフロー
チャートである。
【0019】まずステップS301で、テキスト入力部
201は、文、文節、単語等の単位毎にテキストデータ
を入力してステップS302に移る。ステップS302
では、言語解析部203により当該テキストデータの言
語解析を行う。次にステップS303に進み、音韻生成
部205はステップS302で解析された結果と所定の
韻律規則とに基づいて、音韻系列と韻律情報を生成す
る。次にステップS304に進み、各音韻毎にステップ
S303で得られた韻律情報と所定の音韻環境とに基づ
いて、音声素片選択部207が素片辞書206に登録さ
れている音声素片を選択する。次にステップS305に
進み、その選択された音声素片及びステップS303で
生成された韻律情報とに基づいて、音声素片編集・接続
部208により音声素片の編集および接続を行なってス
テップS306に進む。ステップS306では、音声素
片編集・接続部208によって生成された音声波形を、
音声波形出力部209が音声信号として出力する。この
ようにして、入力されたテキストに対応する音声が出力
されることになる。
【0020】図4は、図2で示した素片辞書作成モジュ
ールの、より詳細な構成を示すブロック図で、前述の図
2と共通する部分は同じ番号で示し、かつ本実施の形態
の特徴である素片辞書作成部211の構成をより詳細に
示している。
【0021】図4において、401はテキスト入力部、
402は言語解析部、403は解析辞書、404は韻律
生成規則保持部、405は韻律生成部、406は音声素
片検索部、407は音声素片保持部、408は音声素片
編集部、409は変形歪決定部、410は接続歪決定
部、411は歪決定部、412は歪保持部、413はN
best決定部、414はNbest保持部、415は登録素片
決定部、416は登録素片保持部である。
【0022】以下、詳しく説明する。
【0023】テキスト入力部401は、テキストコーパ
ス212から、例えば文単位にテキストデータを取り出
して言語解析部402に出力する。言語解析部402
は、解析辞書403を参照してテキスト入力部401か
ら入力されたテキストデータを解析する。韻律生成部4
05は、言語解析部402で解析された解析結果に基づ
いて音韻系列を生成し、韻律生成規則保持部404が保
持する韻律生成規則(アクセントパターン、自然降下成
分、ピッチパターン等)を参照して韻律情報を生成す
る。音声素片検索部406は、韻律生成部405で生成
される韻律情報と音韻系列とに従って音声データベース
210から、各音韻毎に、所定の音韻環境を考慮した音
声素片を検索する。こうして検索された音声素片は一
旦、音声素片保持部407に保持される。音声素片編集
部408は、韻律生成部405で生成された韻律情報に
合わせて音声素片保持部407に保持されている音声素
片を編集する。この編集には、韻律情報に合わせて音声
素片同士を接続する処理や、またその音声素片同士の接
続に際して音声素片の一部を削除する等して変形する処
理などが含まれる。
【0024】変形歪決定部409は、各音声素片の変形
前と変形後の音響的特徴の変化から変形歪を決定する。
接続歪決定部410は、音韻系列において一つ前の音声
素片の終端付近の音響的特徴と当該音声素片の始端付近
の音響的特徴から、これら音声素片同士が接続された場
合の接続歪を決定する。歪決定部411は、変形歪決定
部409で決定された変形歪と、接続歪決定部410で
決定された接続歪とを考慮し、音韻系列ごとにトータル
の歪(歪値ともいう)を決定する。歪保持部412は、
歪決定部411で決定された各音声素片に至る歪の値を
保持する。Nbest決定部413は、A*(エースター)
探索アルゴリズムを用いて、音韻系列毎に歪が最小とな
る上位N通りの最適パスを求める。Nbest保持部414
は、Nbest決定部413で求めたN個の最適パスを入力
テキストごとに保持する。登録素片決定部415は、N
best保持部414に保持されている、各音韻ごとにNbe
stの結果から、その頻度順に、素片辞書206に登録す
る音声素片を選び出す。登録素片保持部416は、登録
素片決定部415により選ばれた音声素片を保持する。
【0025】図5は、図4で示す素片辞書作成モジュー
ルにおける処理の流れを示すフローチャートである。
【0026】まずステップS501で、テキスト入力部
401がテキストコーパス212から一文ずつテキスト
データを取り出す。取り出せるテキストデータが存在し
なくなると、最終的に登録する音声素片を決定するステ
ップS512に進む。テキストデータが存在する場合は
ステップS502に進み、言語解析部402において、
解析辞書403を使って、その入力されたテキストデー
タの言語解析を行なってステップS503に進む。ステ
ップS503では、韻律生成部405により、韻律生成
規則保持部404が保持する韻律生成規則と、ステップ
S502における言語解析結果とに基づいて韻律情報並
びに音韻系列を生成する。次にステップS504に進
み、ステップS503で生成された音韻系列内の各音韻
を順次処理する。このステップS504で未処理の音韻
が存在しない場合はステップS511に進むが、未処理
の音韻が存在する場合はステップS505に進む。ステ
ップS505において、音声素片検索部406は、各音
韻毎に音韻環境及び韻律規則を満足する音声素片を音声
データベース210から検索して音声素片保持部407
に保存する。
【0027】例えば具体例で説明すると、テキストデー
タとして「こんにちわ」が入力されると、それが言語解
析され、アクセントやイントネーション等を含む韻律情
報が生成される。そして、この「こんにちわ」は、例え
ばdiphoneを音韻の単位として用いた場合、以下
のような音韻系列に分解される。
【0028】 こ ん に ち わ /k k.o o.X X.n n.i i.t t.i i.w w.a a/ なお、ここで「X」は、音声「ん」を示し、「/」は無
声音を示す。
【0029】次にステップS506に進み、その検索さ
れた複数の音声素片について順次処理する。未処理の音
声素片が存在しない場合はステップS504に戻って次
の音韻の処理に進むが、存在する場合はステップS50
7に進んで、現在の音韻の音声素片を処理する。ステッ
プS507では、音声素片編集部408が、上述の音声
合成処理時と同じ手法を用いて音声素片の編集を行な
う。ここでいう音声素片の編集とは、例えばピッチ同期
波形重畳法(PSOLA)などの処理である。この音声素片
の編集には、その音声素片と韻律情報を用いる。音声素
片の編集が終了したらステップS508に進み、変形歪
決定部409により、現在の音声素片の変形前と変形後
における音響的特徴の変化を変形歪として算出する(こ
の詳細は後述する)。次にステップS509に進み、接
続歪決定部410により、現在の音声素片とその一つ前
の音韻の音声素片の全てとの接続歪を算出する(この処
理についても詳しく後述する)。次にステップS510
に進み、歪決定部411は、変形歪と接続歪から現在の
音声素片に至るパスの全てについて歪値を決定する(後
述する)。そして現在の音声素片に至るパスの歪値の上
位N個(N:求めたいNbestの個数)と、そのパスを表
わす一つ前の音韻の音声素片へのポインタを歪保持部4
12に保持してステップS506に戻り、現在の音韻に
おいて未処理の音声素片が存在するかどうかを調べる。
【0030】こうしてステップS506で、各音韻にお
ける全ての音声素片が処理され、更にステップS504
で全ての音韻が処理されるとステップS511に進む。
ステップS511において、Nbest決定部413は、A
*探索アルゴリズムを用いたNbest探索を行ない、上位
N位までの最適パス(音声素片系列ともいう)を求め、
これをNbest保持部414に保持してステップS501
に戻る。
【0031】こうして全テキストに対する処理が終了す
るとステップS501からステップS512に進み、登
録素片決定部415は、音韻ごとに全テキストのNbest
結果に基づいて所定の頻度の高い以上を選択して音声素
片を素片辞書206に登録する。尚、このNbestにおけ
るNの値は、予備実験などから経験的に与えておく。こ
うして決定された音声素片は、登録素片保持部416を
介して素片辞書206に登録される。
【0032】図6は、本実施の形態に係る図5のステッ
プS508における変形歪の求め方を説明する図であ
る。
【0033】ここでは、PSOLA法によりピッチ間隔を広
げる場合について図示している。矢印はピッチマーク、
点線は変形前と変形後のピッチ素片の対応関係を表わし
ている。本実施の形態では、各ピッチ素片(微細素片と
もいう)の変形前後のケプストラム距離に基づいて変形
歪を表わす。具体的には、まず変形後のあるピッチ素片
(例えば60で示す)のピッチマーク61を中心にハニ
ング窓62(窓長25.6ミリ秒)をかけ、そのピッチ
素片60を周辺のピッチ素片を含めて切り出す。こうし
て切り出したピッチ素片60をケプストラム分析する。
次に、ピッチマーク61に対応する変形前のピッチ素片
63のピッチマーク64を中心にして同じ窓長のハニン
グ窓65でピッチ素片を切り出し、変形後の場合と同様
にしてケプストラムを求める。このようにして求めたケ
プストラム同士の距離を、着目しているピッチ素片60
の変形歪として、変形後のピッチ素片とそれに対応する
変形前のピッチ素片間の変形歪の総和をPSOLAで採用さ
れるピッチ素片数Npで割った値を、その音声素片の変
形歪とする。こうして求められる変形歪を式で記述する
と以下のようになる。
【0034】 Dt = ΣΣ|Corg i,j − Ctar i,j|/Np ここで最初のΣは、i=1からNまでの総和を示し、次
のΣはj=0〜16までの総和を示している。またCta
r i,jは、変形後のi番目のピッチ素片のケプストラム
のj次元目の要素を表わし、同様に、Corg i,jは、変
形後に対応する変形前のピッチ素片のケプストラムのj
次元目の要素を表わしている。
【0035】図7は、本実施の形態における接続歪の求
め方を説明する図である。
【0036】この接続歪は、一つ前の音韻の音声素片と
現在の音声素片との接続箇所において生じる歪を示し、
ここではケプストラム距離を用いて表わす。具体的に
は、音声素片境界が存在するフレーム70,71(フレ
ーム長5ミリ秒、分析窓幅25.6ミリ秒)と、それを
挟む前後それぞれ2フレームからなる計5フレームを接
続歪の算出対象としている。ここでケプストラムは、0
次(パワー)〜16次(パワー)までの計17次元ベク
トルとする。そして、このケプストラムベクトルの各要
素の差の絶対値の和を、現在注目している音声素片にお
ける接続歪とする。即ち、図7の700で示すように、
一つ前の音韻の音声素片における終端部のケプストラム
ベクトルの各要素をCpre i,j(i:フレーム番号、フ
レーム番号の“0”が音声素片境界があるフレームを示
し、jがベクトルの要素番号を示す)とする。また、図
7の701で示すように、注目音声素片における始端部
のケプストラムベクトルの各要素をCcur i,jとする
と、現在注目している音声素片の接続歪Dcは、 Dc=ΣΣ|Cpre i,j − Ccur i,j| となる。ここで最初のΣはi=−2〜2の総和を、次の
Σはj=0〜16までの総和を示す。
【0037】図8は、本実施の形態に係る歪決定部41
1による、音声素片における歪の決定過程を図示したも
のである。本実施の形態において、音韻単位はdiphone
(ダイフォン)とする。
【0038】図中、一つの円がある音韻における1つの
音声素片を示し、円内の数字は、この音声素片に至る歪
値の総和の最小値を示している。また四角で囲まれた数
字は、一つ前の音韻の音声素片と現在注目している音韻
の音声素片との間の歪値を示している。また矢印は、現
在注目している音韻の音声素片と一つ前の音韻の音声素
片との関連を示している。ここでは説明のため、n番目
の音韻(現在注目している音韻)のm番目の音声素片を
Pn,mとする。この音声素片Pn,mの最も小さい歪値から
上位N個(N:求めたいNbestの数)までに対応する音
声素片を一つ前の音韻の中から取り出し、その中のk番
目の歪値をDn,m,kとし、その歪値に対応するの一つ前
の音韻の音声素片をPREn,m,kとすると、PREn,m,k
を介して音声素片Pn,mに至るパスにおける歪値の総和
Sn,m,kは、 Sn,m,k = Sn-1,x,0 + Dn,m,k (但し、x=P
REn,m,k) となる。
【0039】本実施の形態における歪値について説明す
る。本実施の形態では歪値Dtotal(上記説明における
Dn,m,kに相当する)を、上述の接続歪Dcと変形歪Dt
の重み付き和として定義する。
【0040】 Dtotal = w×Dc +(1−w)×Dt :(0≦w≦1) ここで重み係数wは、予備実験など経験的に求められる
係数で、w=0の場合は、歪値が変形歪Dtのみで説明
され、w=1の場合は、歪値が接続歪Dcのみに依存す
ることになる。
【0041】歪保持部412では、各音韻の音声素片P
n,m毎に、上位N個の歪値Dn,m,kと、それらに対応する
一つ前の音韻の音声素片PREn,m,kと、PREn,m,kを
介してDn,m,kに至るパスの歪値の総和Sn,m,kをそれぞ
れ保持する。
【0042】図8では、現在注目している音声素片Pn,
mに至るパスの総和の最小値が「222」となる例を示
す。この時の音声素片Pn,mの歪値は、Dn,m,1(k=1)で
あり、この歪値Dn,m,1に対応する一つ前の音韻の音声
素片は、PREn,m,1(図8のPn-1,m81に相当する)
である。80は、音声素片PREn,m,1と音声素片Pn,m
とを接続するパスである。
【0043】図9は、Nbestの決定過程を図示したもの
である。
【0044】ステップS510の終了時点で、各音声素
片において、上位N個の情報がそれぞれ求まっている
(フォワード探索)。Nbest決定部413では、音韻系
列の末尾の音声素片90から逆順に枝を伸ばしながらN
bestパスを求める(バックワード探索)。この枝を伸ば
すノードの選択は、予測値(線の横の数字)とそこに至
る総歪値の和(歪値は四角の中の数字で示される)が最
小となるものである。ここでいう予測値とは、音声素片
Pn,mにおけるフォワード探索結果の最小歪Sn,m,0に相
当する。この場合、予測値と実際に左端までに至る最小
パスの歪が等しいので、A*探索アルゴリズムの性質に
より最適パスが求まることが保証される。
【0045】図9は、第1位の最適パスが決定された状
態を示す図である。
【0046】図中、丸が音声素片を示し、その丸の中の
数字が歪み予測値、太い実線が第一位のパス、四角の中
の数字が歪値、線の横の数字が予測歪み値を示してい
る。次に第2位のパスを求めるために、二重丸のノード
の中で、予測値とそこに至る総歪値の和が最小となるノ
ードを選択し、それに繋がる一つ前の音韻の音声素片の
全て(最大N個)に枝を伸ばす。この伸ばした先のノー
ドが二重丸で表現されている。この操作を繰り返すこと
により、上位N個のパスが総歪値の順に決定される。こ
の図9は、N=2として枝を伸ばした場合の例を示す図
である。
【0047】このようにして本実施の形態1によれば、
歪の最も小さいパスを形成する音声素片を選択して、そ
れを素片辞書に登録することができる。
【0048】[実施の形態2]前述の実施の形態1で
は、音韻の単位としてdiphoneを用いる場合について記
述したが、本発明はこれに限定されるものではなく、音
素や半diphoneなどを単位としてもよい。半diphoneと
は、diphoneを音素境界で2つに分割したもののことで
ある。この半diphoneを単位とした場合のメリットにつ
いて簡単に説明する。任意のテキストを合成する場合、
素片辞書206は全種類のdiphoneを用意しておく必要
がある。これに対して、半diphoneを単位とした場合
は、足りない半diphoneを別の半diphoneで代替できる。
例えば、半diphoneの「/a.b.0/(diphonea.bの左側)」
の代わりに「/a.n.0/」を利用しても、音質の劣化を少
なくして良好に音声を再生できる。これにより、素片辞
書206のサイズをより小さくできる。
【0049】[実施の形態3]前述の実施の形態1、2
では、音韻の単位としてdiphoneや音素や半diphoneを用
いる場合について説明したが、本発明はこれに限定され
るものではなく、これらを混合して用いてもよい。例え
ば、利用頻度が高い音韻については、diphoneを単位と
し、利用頻度が低い音韻については、2つの半diphone
を用いて表現するようにしても良い。
【0050】図10は、音声素片単位を混合した場合の
一例を示した図で、ここでは音韻「o.w」がdiphoneで表
され、その前後の音韻は半diphoneで表されている。
【0051】[実施の形態4]実施の形態3において、
元のデータベース中で連続する場所から取り出されたか
どうかの情報を持ち、連続していた場合は、半diphone
の組を仮想的にdiphoneとして扱うようにしてもよい。
つまり、元のデータベース中で連続するということは接
続歪が“0”であるため、この場合には変形歪だけを考
慮すればよいことになり計算量を大幅に軽減できる。
【0052】図11は、この様子を表わした概念図であ
る。図中の線上の数字は接続歪を表している。
【0053】図11において、1100で示される半di
phoneの組は、元のデータベース中で連続する場所から
取り出されたものであり、その接続歪みは“0”に一義
的に決定されている。また1101で示された半diphon
eの組は、元のデータベース中で連続する場所から取り
出されたものではないため、それぞれに対して接続歪み
が計算される。
【0054】[実施の形態5]前述の実施の形態1で
は,1単位のテキストデータから得られた音韻系列全体
を歪計算の対象とする場合について説明したが、本発明
はこれに限定されるものでない。例えば、ポーズや無音
部分までを一つの区間として音韻系列を分割し、各区間
ごとに歪計算を行ってもよい。ここで言う無音部分と
は、例えばp,t,kなどの無音部分のことである。ポーズ
や無音部分では接続歪が“0”であると考えられるた
め、このような分割が有効となる。これにより、各区間
毎に最適な音声素片の選択が可能となる。
【0055】[実施の形態6]前述の実施の形態1で
は、接続歪の計算にケプストラムを用いる場合について
説明したが、本発明はこれに限定されるものではない。
例えば、接続点の前後に亙る波形の差分の和を用いて接
続歪を求めても良い。またスペクトル距離などを用いて
接続歪を求めてもよい。この場合、接続点はピッチマー
クに同期させるのが、より好ましい。
【0056】[実施の形態7]前述の実施の形態1で
は、接続歪の計算において、窓長、シフト長、ケプスト
ラムの次数、フレーム数などを具体的数字を使って説明
したが、本発明はこれに限定されるものではない。任意
の窓長、シフト長、次数、フレーム数を使って接続歪を
算出してもよい。
【0057】[実施の形態8]前述の実施の形態1で
は、接続歪の計算にケプストラムの次数ごとに差分を取
ったものの総和を用いる場合について説明したが、本発
明はこれに限定されるものではない。例えば、各次数を
統計的性質などを使って正規化(正規化係数rj)して
もよい。この場合の接続歪Dcは、 Dc=ΣΣ(rj×|Cpre i,j − Ccur i,j|) となる。ここで、最初のΣはi=−2〜2の総和を、次
のΣはj=0〜16までの総和を示す。
【0058】[実施の形態9]実施の形態1では、ケプ
ストラムの次数ごとの差分の絶対値をベースに接続歪の
算出を行なう場合について説明したが、本発明はこれに
限定されるものではない。例えば、差分の絶対値の累乗
(累数が偶数の場合は絶対値でなくてもよい)をベース
に接続歪の算出を行なってもよい。ここで累数をNとす
ると、接続歪Dcは、 Dc=ΣΣ|Cpre i,j − Ccur i,j|^N となる。ここで“^N”はNの累乗を示す。ここでNの値
を大きくすることは、大きな差分について敏感になるこ
とを意味しているので、その結果、接続歪が平均的に小
さくなるように働くことになる。
【0059】[実施の形態10]前述の実施の形態1で
は、変形歪としてケプストラムを用いる場合について説
明したが、本発明はこれに限定されるものではない。例
えば、変形前後の一定区間の波形の差分の和を用いて変
形歪を求めてもよい。また、スペクトル距離などを用い
て変形歪を求めてもよい。
【0060】[実施の形態11]前述の実施の形態1で
は、変形歪を波形から得られる情報を基に算出する場合
について説明したが、本発明はこれに限定されるもので
はない。例えば、PSOLAによるピッチ素片の削除および
複製の回数などを変形歪を算出する要素としても良い。
【0061】[実施の形態12]前述の実施の形態1で
は、音声素片を読み出すごとに接続歪を計算する場合に
ついて説明したが、本発明はこれに限定されるものでは
ない。例えば、接続歪を予め計算しておき、テーブル化
して保持してもよいものとする。
【0062】図12は、diphone「/a.r/」とdiphone「/
r.i/」との間の接続歪を記憶したテーブルの一例を示す
図である。ここでは縦軸に「/a.r/」の音声素片、横軸
に「/r.i/」の音声素片をとっている。例えば、「/a.r
/」の「id3」の音声素片と「/r.i/」の「id2」の音声素
片との接続歪は“3.6”で表されている。このように
接続可能なdiphone間の接続歪を全てテーブル化して用
意することにより、音声素片同士の合成時の接続歪の算
出がテーブルの参照だけで済むため、その計算量を大幅
に軽減でき、算出時間を大幅に短縮できる。
【0063】[実施の形態13]前述の実施の形態1で
は、音声素片を編集する毎に変形歪を計算する場合につ
いて説明したが、本発明はこれに限定されるものではな
い。例えば、変形歪を予め計算しておき、テーブルとし
て保持しておいても良い。
【0064】図13は、あるdiphoneを基本周波数と音
韻時間長について変化させた場合の変形歪をテーブルで
表した図である。
【0065】図中、μは、そのdiphoneの統計的な平均
値を示し、σは標準偏差である。具体的な表の作成方法
としては、次のような作成方法が考えられる。まず、基
本周波数と音韻時間長に関して統計的に平均値と分散を
求める。次に、それらを基に(5×5=)25通りの基
本周波数と音韻時間長をターゲットとしてPSOLA法をそ
れぞれ適用し、テーブルの変形歪を一つずつ求めていけ
ばよい。合成時は、ターゲットの基本周波数と音韻時間
長が決まれば、テーブルの近傍の値で内挿(もしくは外
挿)することによって、変形歪を推定することが可能で
ある。
【0066】図14は、合成時に変形歪を推定するため
の具体例を示した図である。
【0067】図中、黒丸がターゲットの基本周波数と音
韻時間長であり、このとき、各格子点の変形歪がテーブ
ルからA,B,C,Dと求まっていると仮定すると、変
形歪Dtは、以下の式により求めることができる。 Dt={A・(1−y)+C・y}×(1−x)+{B・(1−
y)+D・y}×x
【0068】[実施の形態14]前述の実施の形態13
では、変形歪テーブルの格子点として、そのdiphoneの
統計的な平均値と標準偏差を基に5×5のテーブルを作
成したが、本発明はこれに限定されるものではなく、任
意の格子点を持つテーブルとしてもよい。また、格子点
を平均値などに依らず決定的に与えてもよいものとす
る。例えば、韻律推定で推定されうる範囲を等分割する
などもよいものとする。
【0069】[実施の形態15]前述の実施の形態1で
は、接続歪と変形歪の重み和で歪を定量化する場合につ
いて説明したが本発明はこれに限定されるものではな
く、接続歪と変形歪それぞれに閾値を設定しておき、ど
ちらか一方でもその閾値を越えた場合はその音声素片が
選択されないようにして、十分大きな歪の値を与えるよ
うにしてもよい。
【0070】上記実施の形態においては、各部を同一の
計算機上で構成する場合について説明したが本発明はこ
れに限定されるものではなく、例えばネットワーク上に
分散した計算機や処理装置などに分かれて各部を構成し
てもよい。
【0071】上記実施の形態においては、プログラムを
制御メモリ(ROM)に保持する場合について説明した
が本発明はこれに限定されるものではなく、外部記憶な
ど任意の記憶媒体を用いて実現してもよい。また、同様
の動作をする回路で実現してもよい。
【0072】なお本発明は、複数の機器から構成される
システムに適用しても、1つの機器からなる装置に適用
してもよい。前述した実施の形態の機能を実現するソフ
トウエアのプログラムコードを記録した記録媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ(またはCPUやMPU)が記録媒体に格
納されたプログラムコードを読み出し実行することによ
っても達成される。
【0073】この場合、記録媒体から読み出されたプロ
グラムコード自体が前述した実施の形態の機能を実現す
ることになり、そのプログラムコードを記録した記録媒
体は本発明を構成することになる。プログラムコードを
供給するための記録媒体としては、例えば、フロッピー
(登録商標)ディスク、ハードディスク、光ディスク、
光磁気ディスク,CD−ROM,CD−R,磁気テー
プ、不揮発性のメモリカード、ROMなどを用いること
ができる。
【0074】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施の形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼働しているOSなど
が実際の処理の一部または全部を行ない、その処理によ
って前述した実施の形態の機能が実現される場合も含ま
れる。
【0075】更に、記録媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施の形態の機能が実現
される場合も含まれるものとする。
【0076】以上説明したように本実施の形態によれ
ば、接続歪と変形歪を考慮して素片辞書に登録する音声
素片を選択することにより、少数の音声素片を登録した
辞書を用いても、音質の劣化が少ない合成音声を生成で
きるという効果がある。
【0077】
【発明の効果】以上説明したように本発明によれば、接
続歪や変形歪に基づく歪の影響を考慮して素片辞書に登
録する音声素片を選択することによって、そのような素
片辞書を用いた合成音声の質を向上できるという効果が
ある。
【0078】また本発明によれば、素片辞書に登録する
音声素片の数を少なく抑えて、かつその素片辞書を用い
て良好な音声を再生できるという効果がある。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声情報処理装置の
ハードウェア構成を示すブロック図である。
【図2】本発明の実施の形態1に係る音声情報処理装置
のモジュール構成を示すブロック図である。
【図3】本実施の形態に係るオンラインモジュールにお
ける処理の流れを示すフローチャートである。
【図4】本実施の形態に係るオフラインモジュールの詳
細な構成を示すブロック図である。
【図5】本実施の形態1に係るオフラインモジュールに
おける処理の流れを示すフローチャートである。
【図6】本発明の実施の形態に係る音声素片の変形を説
明する図である。
【図7】本発明の実施の形態に係る音声素片の接続歪を
説明する図である。
【図8】音声素片における歪の決定過程を説明する図で
ある。
【図9】Nbestによる決定過程を説明する図である。
【図10】本発明の実施の形態3に係る音声素片の単位
をdiphoneと半diphoneとで混合した場合を説明する図で
ある。
【図11】本発明の実施の形態4に係る音声素片の単位
を取り出した半diphoneによって混合した例を示した図
である。
【図12】本発明の実施の形態12に係るdiphoneの /
a.r/ と/r.i/間の接続歪を決定するテーブル構成例を示
す図である。
【図13】本発明の実施の形態13に係る変形歪を表わ
すテーブル例を示す図である。
【図14】本発明の実施の形態13に係る変形歪を推定
する具体例を示した図である。

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 音素素片を所定の韻律情報に基づいて編
    集することによって生じる歪を求める歪出力手段と、 音声合成に使用する素片辞書に登録する音声素片を、前
    記歪出力手段から出力された歪に基づいて選択する素片
    登録手段と、を有することを特徴とする音声情報処理装
    置。
  2. 【請求項2】 前記歪出力手段は、前記音声素片を他の
    音声素片と接続することによって生じる接続歪と前記音
    声素片を変形することによって生じる変形歪とに基づい
    て、前記歪を求めることを特徴とする請求項1に記載の
    音声情報処理装置。
  3. 【請求項3】 テキストデータを入力するテキスト入力
    手段と、 前記入力されたテキストデータの言語解析を行なう言語
    解析手段と、 前記言語解析手段による解析結果に基づいて前記所定の
    韻律情報を生成する韻律生成手段を更に有することを特
    徴とする請求項1又は2に記載の音声情報処理装置。
  4. 【請求項4】 前記接続歪及び変形歪により決定される
    歪を基準として音声素片系列のNbest系列を求めるNbe
    st決定手段を更に有し、 前記素片登録手段は、前記音声素片系列のNbest系列を
    基に前記素片辞書に登録する音声素片を選択することを
    特徴とする請求項2又は3に記載の音声情報処理装置。
  5. 【請求項5】 前記素片登録手段は、前記接続歪と前記
    変形歪との重み付き加算に基づいて、前記素片辞書に登
    録する音声素片を選択することを特徴とする請求項2又
    は3に記載の音声情報処理装置。
  6. 【請求項6】 前記歪出力手段は、各音声素片のケプス
    トラム距離を用いて前記接続歪を決定することを特徴と
    する請求項2乃至5のいずれか1項に記載の音声情報処
    理装置。
  7. 【請求項7】 前記歪出力手段は、変形前の音声素片と
    変形後の音声素片におけるケプストラム距離を用いて前
    記変形歪を決定することを特徴とする請求項2乃至5の
    いずれか1項に記載の音声情報処理装置。
  8. 【請求項8】 前記歪出力手段は、前記変形歪を記憶し
    たテーブルを有し、当該テーブルを参照して前記変形歪
    を決定することを特徴とする請求項2乃至5のいずれか
    1項に記載の音声情報処理装置。
  9. 【請求項9】 前記歪出力手段は、前記接続歪を記憶し
    たテーブルを有し、当該テーブルを参照して前記接続歪
    を決定することを特徴とする請求項2乃至5のいずれか
    1項に記載の音声情報処理装置。
  10. 【請求項10】 前記素片辞書を用いてテキストデータ
    を音声合成する音声合成手段を更に有することを特徴と
    する1乃至9のいずれか1項に記載の音声情報処理装
    置。
  11. 【請求項11】 音素素片を所定の韻律情報に基づいて
    編集することによって生じる歪を求める歪出力工程と、 音声合成に使用する素片辞書に登録する音声素片を、前
    記歪出力工程で出力された歪に基づいて選択する素片登
    録工程と、を有することを特徴とする音声情報処理方
    法。
  12. 【請求項12】 前記歪出力工程は、前記音声素片を他
    の音声素片と接続することによって生じる接続歪と前記
    音声素片を変形することによって生じる変形歪とに基づ
    いて、前記歪を求めることを特徴とする請求項11に記
    載の音声情報処理方法。
  13. 【請求項13】 テキストデータを入力するテキスト入
    力工程と、 前記入力されたテキストデータの言語解析を行なう言語
    解析工程と、 前記言語解析工程による解析結果に基づいて前記所定の
    韻律情報を生成する韻律生成工程を更に有することを特
    徴とする請求項11又は12に記載の音声情報処理方
    法。
  14. 【請求項14】 前記接続歪及び変形歪により決定され
    る歪を基準として音声素片系列のNbest系列を求めるN
    best決定工程を更に有し、 前記素片登録工程では、前記Nbest系列を基に前記素片
    辞書に登録する音声素片を選択することを特徴とする請
    求項12又は13に記載の音声情報処理方法。
  15. 【請求項15】 前記素片登録工程では、前記接続歪と
    前記変形歪との重み付き加算に基づいて、前記素片辞書
    に登録する音声素片を選択することを特徴とする請求項
    12又は13に記載の音声情報処理方法。
  16. 【請求項16】 前記歪出力工程では、各音声素片のケ
    プストラム距離を用いて前記接続歪を決定することを特
    徴とする請求項12乃至15のいずれか1項に記載の音
    声情報処理方法。
  17. 【請求項17】 前記歪出力工程では、変形前の音声素
    片と変形後の音声素片におけるケプストラム距離として
    変形歪を定量化して決定することを特徴とする請求項1
    2乃至15のいずれか1項に記載の音声情報処理方法。
  18. 【請求項18】 前記歪出力工程では、前記変形歪を記
    憶したテーブルを有し、当該テーブルを参照して前記変
    形歪を決定することを特徴とする請求項12乃至15の
    いずれか1項に記載の音声情報処理方法。
  19. 【請求項19】 前記歪出力工程では、前記接続歪を示
    すテーブルを有し、当該テーブルを参照して前記接続歪
    を決定することを特徴とする請求項12乃至15のいず
    れか1項に記載の音声情報処理方法。
  20. 【請求項20】 前記素片辞書を用いてテキストデータ
    を音声合成する音声合成工程を更に有することを特徴と
    する11乃至19のいずれか1項に記載の音声情報処理
    方法。
  21. 【請求項21】 請求項11乃至20のいずれか1項に
    記載の方法を実行するプログラムを記憶したことを特徴
    とする、コンピュータにより読取り可能な記憶媒体。
JP2000099420A 2000-03-31 2000-03-31 音声情報処理装置とその方法と記憶媒体 Expired - Fee Related JP4454780B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000099420A JP4454780B2 (ja) 2000-03-31 2000-03-31 音声情報処理装置とその方法と記憶媒体
US10/928,114 US7039588B2 (en) 2000-03-31 2004-08-30 Synthesis unit selection apparatus and method, and storage medium
US11/295,653 US20060085194A1 (en) 2000-03-31 2005-12-07 Speech synthesis apparatus and method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000099420A JP4454780B2 (ja) 2000-03-31 2000-03-31 音声情報処理装置とその方法と記憶媒体

Publications (3)

Publication Number Publication Date
JP2001282273A true JP2001282273A (ja) 2001-10-12
JP2001282273A5 JP2001282273A5 (ja) 2007-05-24
JP4454780B2 JP4454780B2 (ja) 2010-04-21

Family

ID=18613780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000099420A Expired - Fee Related JP4454780B2 (ja) 2000-03-31 2000-03-31 音声情報処理装置とその方法と記憶媒体

Country Status (1)

Country Link
JP (1) JP4454780B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030060588A (ko) * 2002-01-10 2003-07-16 주식회사 현대오토넷 코퍼스 기반 음성 합성용 녹음 문장 선정을 위한 방법
JP2006189554A (ja) * 2005-01-05 2006-07-20 Mitsubishi Electric Corp テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010078808A (ja) * 2008-09-25 2010-04-08 Toshiba Corp 音声合成装置及び方法
JP2011221486A (ja) * 2010-03-26 2011-11-04 Toshiba Corp 音声編集方法、装置及び音声合成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030060588A (ko) * 2002-01-10 2003-07-16 주식회사 현대오토넷 코퍼스 기반 음성 합성용 녹음 문장 선정을 위한 방법
JP2006189554A (ja) * 2005-01-05 2006-07-20 Mitsubishi Electric Corp テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010078808A (ja) * 2008-09-25 2010-04-08 Toshiba Corp 音声合成装置及び方法
JP2011221486A (ja) * 2010-03-26 2011-11-04 Toshiba Corp 音声編集方法、装置及び音声合成方法

Also Published As

Publication number Publication date
JP4454780B2 (ja) 2010-04-21

Similar Documents

Publication Publication Date Title
US6980955B2 (en) Synthesis unit selection apparatus and method, and storage medium
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
US8738381B2 (en) Prosody generating devise, prosody generating method, and program
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
JP4551803B2 (ja) 音声合成装置及びそのプログラム
US20060085194A1 (en) Speech synthesis apparatus and method, and storage medium
WO2005109399A1 (ja) 音声合成装置および方法
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JPH0632020B2 (ja) 音声合成方法および装置
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP4454780B2 (ja) 音声情報処理装置とその方法と記憶媒体
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP3109778B2 (ja) 音声規則合成装置
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
EP1589524B1 (en) Method and device for speech synthesis
JP2004354644A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP3576792B2 (ja) 音声情報処理方法
JP2011191528A (ja) 韻律作成装置及び韻律作成方法
JP2004233774A (ja) 音声合成方法及び装置、並びに音声合成プログラム
JPH11249676A (ja) 音声合成装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070327

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070327

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100203

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees