JP2001282273A

JP2001282273A - 音声情報処理装置とその方法と記憶媒体

Info

Publication number: JP2001282273A
Application number: JP2000099420A
Authority: JP
Inventors: Yasuo Okuya; 泰夫奥谷; Yasuhiro Komori; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-03-31
Filing date: 2000-03-31
Publication date: 2001-10-12
Anticipated expiration: 2020-03-31
Also published as: JP4454780B2

Abstract

(57)【要約】【課題】素片辞書に登録する音声素片の数を少なく抑
えて、かつその素片辞書を用いて良好な音声を再生す
る。【解決手段】入力したテキストデータを言語解析して
韻律を生成し、その韻律に基づいて音声データベース２
１０から音声素片を検索する。この検索された音声素片
の変形歪、及び一つ前の音韻の音声素片との接続による
接続歪を求め、歪決定部４１１により、変形歪と接続歪
の重み付け等を行なってトータルの歪を決定する。次に
Ｎbest決定部４１３により、Ａ*（エースター）探索ア
ルゴリズムを用いて歪が最小となる上位Ｎ通りの最適パ
スを求め、登録素片決定部４１５は上位Ｎ通りの最適パ
スから、その頻度順に素片辞書２０６に登録する登録素
片を選び出し、それを素片辞書に登録する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成で使用さ
れる素片辞書を作成する音声情報処理装置及びその方法
と記憶媒体に関するものである。

【０００２】

【従来の技術】近年、音声素片を１ピッチ波形単位で複
製及び、或いは削除しながら所望のピッチ間隔で貼り合
わせて編集し（PSOLA：ピッチ同期波形重畳法）、それ
らの音声素片を接続して音声合成する音声合成方法が主
流となっている。

【０００３】

【発明が解決しようとする課題】このような技術を利用
して音声合成された音声には、音声素片を編集すること
による歪（以下、変形歪）と、音声素片を接続すること
による歪（以下、接続歪）とが含まれる。これら２つの
歪が、合成された音声の品質劣化を引き起こす大きな要
因となる。中でも、素片辞書に登録できる音声素片の数
が制限される状況下では、音声合成時に、このような歪
が小さくなるように音声素片を選択する余地がほとんど
残されていない場合がある。特に、一つの音韻環境につ
いて１つの音声素片しか素片辞書に登録できない場合に
は、歪が小さくなるように音声素片を選択する余地は全
くなく、このような素片辞書を用いると、変形歪や接続
歪による合成音声の品質劣化は避けられないものとな
る。

【０００４】本発明は上記従来例に鑑みてなされたもの
で、接続歪や変形歪に基づき歪の影響を考慮して、素片
辞書に登録する音声素片を選択することによって音声合
成の音質劣化を抑制する音声情報処理装置及びその方法
と記憶媒体を提供することを目的とする。

【０００５】

【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理装置は以下のような構成を備え
る。即ち、音素素片を所定の韻律情報に基づいて編集す
ることによって生じる歪を求める歪出力手段と、音声合
成に使用する素片辞書に登録する音声素片を、前記歪出
力手段から出力された歪に基づいて選択する素片登録手
段と、を有することを特徴とする。

【０００６】また前記歪出力手段は、前記音声素片を他
の音声素片と接続することによって生じる接続歪と前記
音声素片を変形することによって生じる変形歪とに基づ
いて、前記歪を求めることを特徴とする。

【０００７】上記目的を達成するために本発明の音声情
報処理方法は以下のような工程を備える。即ち、音素素
片を所定の韻律情報に基づいて編集することによって生
じる歪を求める歪出力工程と、音声合成に使用する素片
辞書に登録する音声素片を、前記歪出力工程で出力され
た歪に基づいて選択する素片登録工程と、を有すること
を特徴とする。

【０００８】

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。

【０００９】［実施の形態１］図１は、本発明の実施の
形態に係る音声情報処理装置のハードウェア構成を示す
ブロック図である。尚、本実施の形態では、一般的なパ
ーソナルコンピュータを音声合成装置として用いる場合
について説明するが、本発明は専用の音声情報処理装置
であっても、また他の形態の装置であっても良い。

【００１０】図１において、１０１は制御メモリ（ＲＯ
Ｍ）で、中央処理装置（ＣＰＵ）１０２で使用される各
種制御データを記憶している。ＣＰＵ１０２は、ＲＡＭ
１０３に記憶された制御プログラムを実行して、この装
置全体の動作を制御している。１０３はメモリ（ＲＡ
Ｍ）で、ＣＰＵ１０２による各種制御処理の実行時、ワ
ークエリアとして使用されて各種データを一時的に保存
するとともに、ＣＰＵ１０２による各種処理の実行時、
外部記憶装置１０４から制御プログラムをロードして記
憶している。この外部記憶装置は、例えばハードディス
ク、ＣＤ−ＲＯＭ等を含んでいる。１０５はＤ／Ａ変換
器で、音声信号を示すデジタルデータが入力されると、
これをアナログ信号に変換してスピーカ１０９に出力し
て音声を再生する。１０６は入力部で、オペレータによ
り操作される、例えばキーボードや、マウス等のポイン
ティングデバイスを備えている。１０７は表示部で、例
えばＣＲＴや液晶等の表示器を有している。１０８はバ
スで、これら各部を接続している。１１０は音声合成ユ
ニットである。

【００１１】以上の構成において、本実施の形態の音声
合成ユニット１１０を制御するための制御プログラムは
外部記憶装置１０４からロードされてＲＡＭ１０３に記
憶され、その制御プログラムで用いる各種データは、制
御メモリ１０１に記憶されている。これらのデータは、
中央処理装置１０２の制御の下にバス１０８を通じて適
宜メモリ１０３に取り込まれ、中央処理装置１０２によ
る制御処理で使用される。Ｄ／Ａ変換器１０５は、制御
プログラムを実行することによって作成される音声波形
データ（ディジタル信号）をアナログ信号に変換してス
ピーカ１０９に出力する。

【００１２】図２は、本実施の形態に係る音声合成ユニ
ット１１０のモジュール構成を示すブロック図で、この
音声合成ユニット１１０は、大きく分けて、素片辞書２
０６に音声素片を登録するための処理を実行する素片辞
書作成モジュールと、テキストデータを入力し、そのテ
キストデータに対応する音声を合成して出力する処理を
行なう音声合成モジュールの２つのモジュールを有して
いる。

【００１３】図２において、２０１は、入力部１０６又
は外部記憶装置１０４から任意のテキストデータを入力
するテキスト入力部、２０２は解析辞書、２０３は言語
解析部、２０４は韻律生成規則保持部、２０５は韻律生
成部、２０６は素片辞書、２０７は音声素片選択部、２
０８は音声素片編集・接続部、２０９は音声波形出力
部、２１０は音声データベース、２１１は素片辞書作成
部、２１２はテキストコーパスである。このテキストコ
ーパス２１２には、入力部１０６などを介して種々の内
容のテキストを入力することができる。

【００１４】まず、音声合成モジュールについて説明す
る。この音声合成モジュールでは、言語解析部２０３
が、解析辞書２０２を参照して、テキスト入力部２０１
から入力されるテキストの言語解析を行なう。こうして
解析された結果が韻律生成部２０５に入力される。韻律
生成部２０５は、言語解析部２０３における解析結果
と、韻律生成規則保持部２０４に保持されている韻律生
成規則に関する情報とを基に、音韻系列と韻律情報を生
成して音声素片選択部２０７及び音声素片編集・接続部
２０８に出力する。続いて、音声素片選択部２０７は、
韻律生成部２０５から入力される韻律生成結果を用い
て、素片辞書２０６に保持されている音声素片から対応
する音声素片を選択する。音声素片編集・接続部２０８
は、韻律生成部２０５から入力される韻律生成結果に従
って、音声素片選択部２０７から出力される音声素片を
編集及び接続して音声波形を生成する。こうして生成さ
れた音声波形は、音声波形出力部２０９で出力される。

【００１５】次に、素片辞書作成モジュールについて説
明する。

【００１６】このモジュールでは、素片辞書作成部２１
１が、後述する手順に基づいて、音声データベース２１
０の中から音声素片を選び出して素片辞書２０６に登録
する。

【００１７】次に、上記構成を備えた本実施の形態の音
声合成処理について説明する。

【００１８】図３は、図２の音声合成モジュールにおけ
る音声合成処理（オンライン処理）の流れを示すフロー
チャートである。

【００１９】まずステップＳ３０１で、テキスト入力部
２０１は、文、文節、単語等の単位毎にテキストデータ
を入力してステップＳ３０２に移る。ステップＳ３０２
では、言語解析部２０３により当該テキストデータの言
語解析を行う。次にステップＳ３０３に進み、音韻生成
部２０５はステップＳ３０２で解析された結果と所定の
韻律規則とに基づいて、音韻系列と韻律情報を生成す
る。次にステップＳ３０４に進み、各音韻毎にステップ
Ｓ３０３で得られた韻律情報と所定の音韻環境とに基づ
いて、音声素片選択部２０７が素片辞書２０６に登録さ
れている音声素片を選択する。次にステップＳ３０５に
進み、その選択された音声素片及びステップＳ３０３で
生成された韻律情報とに基づいて、音声素片編集・接続
部２０８により音声素片の編集および接続を行なってス
テップＳ３０６に進む。ステップＳ３０６では、音声素
片編集・接続部２０８によって生成された音声波形を、
音声波形出力部２０９が音声信号として出力する。この
ようにして、入力されたテキストに対応する音声が出力
されることになる。

【００２０】図４は、図２で示した素片辞書作成モジュ
ールの、より詳細な構成を示すブロック図で、前述の図
２と共通する部分は同じ番号で示し、かつ本実施の形態
の特徴である素片辞書作成部２１１の構成をより詳細に
示している。

【００２１】図４において、４０１はテキスト入力部、
４０２は言語解析部、４０３は解析辞書、４０４は韻律
生成規則保持部、４０５は韻律生成部、４０６は音声素
片検索部、４０７は音声素片保持部、４０８は音声素片
編集部、４０９は変形歪決定部、４１０は接続歪決定
部、４１１は歪決定部、４１２は歪保持部、４１３はＮ
best決定部、４１４はＮbest保持部、４１５は登録素片
決定部、４１６は登録素片保持部である。

【００２２】以下、詳しく説明する。

【００２３】テキスト入力部４０１は、テキストコーパ
ス２１２から、例えば文単位にテキストデータを取り出
して言語解析部４０２に出力する。言語解析部４０２
は、解析辞書４０３を参照してテキスト入力部４０１か
ら入力されたテキストデータを解析する。韻律生成部４
０５は、言語解析部４０２で解析された解析結果に基づ
いて音韻系列を生成し、韻律生成規則保持部４０４が保
持する韻律生成規則（アクセントパターン、自然降下成
分、ピッチパターン等）を参照して韻律情報を生成す
る。音声素片検索部４０６は、韻律生成部４０５で生成
される韻律情報と音韻系列とに従って音声データベース
２１０から、各音韻毎に、所定の音韻環境を考慮した音
声素片を検索する。こうして検索された音声素片は一
旦、音声素片保持部４０７に保持される。音声素片編集
部４０８は、韻律生成部４０５で生成された韻律情報に
合わせて音声素片保持部４０７に保持されている音声素
片を編集する。この編集には、韻律情報に合わせて音声
素片同士を接続する処理や、またその音声素片同士の接
続に際して音声素片の一部を削除する等して変形する処
理などが含まれる。

【００２４】変形歪決定部４０９は、各音声素片の変形
前と変形後の音響的特徴の変化から変形歪を決定する。
接続歪決定部４１０は、音韻系列において一つ前の音声
素片の終端付近の音響的特徴と当該音声素片の始端付近
の音響的特徴から、これら音声素片同士が接続された場
合の接続歪を決定する。歪決定部４１１は、変形歪決定
部４０９で決定された変形歪と、接続歪決定部４１０で
決定された接続歪とを考慮し、音韻系列ごとにトータル
の歪（歪値ともいう）を決定する。歪保持部４１２は、
歪決定部４１１で決定された各音声素片に至る歪の値を
保持する。Ｎbest決定部４１３は、Ａ*（エースター）
探索アルゴリズムを用いて、音韻系列毎に歪が最小とな
る上位Ｎ通りの最適パスを求める。Ｎbest保持部４１４
は、Ｎbest決定部４１３で求めたＮ個の最適パスを入力
テキストごとに保持する。登録素片決定部４１５は、Ｎ
best保持部４１４に保持されている、各音韻ごとにＮbe
stの結果から、その頻度順に、素片辞書２０６に登録す
る音声素片を選び出す。登録素片保持部４１６は、登録
素片決定部４１５により選ばれた音声素片を保持する。

【００２５】図５は、図４で示す素片辞書作成モジュー
ルにおける処理の流れを示すフローチャートである。

【００２６】まずステップＳ５０１で、テキスト入力部
４０１がテキストコーパス２１２から一文ずつテキスト
データを取り出す。取り出せるテキストデータが存在し
なくなると、最終的に登録する音声素片を決定するステ
ップＳ５１２に進む。テキストデータが存在する場合は
ステップＳ５０２に進み、言語解析部４０２において、
解析辞書４０３を使って、その入力されたテキストデー
タの言語解析を行なってステップＳ５０３に進む。ステ
ップＳ５０３では、韻律生成部４０５により、韻律生成
規則保持部４０４が保持する韻律生成規則と、ステップ
Ｓ５０２における言語解析結果とに基づいて韻律情報並
びに音韻系列を生成する。次にステップＳ５０４に進
み、ステップＳ５０３で生成された音韻系列内の各音韻
を順次処理する。このステップＳ５０４で未処理の音韻
が存在しない場合はステップＳ５１１に進むが、未処理
の音韻が存在する場合はステップＳ５０５に進む。ステ
ップＳ５０５において、音声素片検索部４０６は、各音
韻毎に音韻環境及び韻律規則を満足する音声素片を音声
データベース２１０から検索して音声素片保持部４０７
に保存する。

【００２７】例えば具体例で説明すると、テキストデー
タとして「こんにちわ」が入力されると、それが言語解
析され、アクセントやイントネーション等を含む韻律情
報が生成される。そして、この「こんにちわ」は、例え
ばｄｉｐｈｏｎｅを音韻の単位として用いた場合、以下
のような音韻系列に分解される。

【００２８】こんにちわ /k k.o o.X X.n n.i i.t t.i i.w w.a a/ なお、ここで「Ｘ」は、音声「ん」を示し、「/」は無
声音を示す。

【００２９】次にステップＳ５０６に進み、その検索さ
れた複数の音声素片について順次処理する。未処理の音
声素片が存在しない場合はステップＳ５０４に戻って次
の音韻の処理に進むが、存在する場合はステップＳ５０
７に進んで、現在の音韻の音声素片を処理する。ステッ
プＳ５０７では、音声素片編集部４０８が、上述の音声
合成処理時と同じ手法を用いて音声素片の編集を行な
う。ここでいう音声素片の編集とは、例えばピッチ同期
波形重畳法（PSOLA）などの処理である。この音声素片
の編集には、その音声素片と韻律情報を用いる。音声素
片の編集が終了したらステップＳ５０８に進み、変形歪
決定部４０９により、現在の音声素片の変形前と変形後
における音響的特徴の変化を変形歪として算出する（こ
の詳細は後述する）。次にステップＳ５０９に進み、接
続歪決定部４１０により、現在の音声素片とその一つ前
の音韻の音声素片の全てとの接続歪を算出する（この処
理についても詳しく後述する）。次にステップＳ５１０
に進み、歪決定部４１１は、変形歪と接続歪から現在の
音声素片に至るパスの全てについて歪値を決定する（後
述する）。そして現在の音声素片に至るパスの歪値の上
位Ｎ個（Ｎ：求めたいＮbestの個数）と、そのパスを表
わす一つ前の音韻の音声素片へのポインタを歪保持部４
１２に保持してステップＳ５０６に戻り、現在の音韻に
おいて未処理の音声素片が存在するかどうかを調べる。

【００３０】こうしてステップＳ５０６で、各音韻にお
ける全ての音声素片が処理され、更にステップＳ５０４
で全ての音韻が処理されるとステップＳ５１１に進む。
ステップＳ５１１において、Ｎbest決定部４１３は、Ａ
*探索アルゴリズムを用いたＮbest探索を行ない、上位
Ｎ位までの最適パス（音声素片系列ともいう）を求め、
これをＮbest保持部４１４に保持してステップＳ５０１
に戻る。

【００３１】こうして全テキストに対する処理が終了す
るとステップＳ５０１からステップＳ５１２に進み、登
録素片決定部４１５は、音韻ごとに全テキストのＮbest
結果に基づいて所定の頻度の高い以上を選択して音声素
片を素片辞書２０６に登録する。尚、このＮbestにおけ
るＮの値は、予備実験などから経験的に与えておく。こ
うして決定された音声素片は、登録素片保持部４１６を
介して素片辞書２０６に登録される。

【００３２】図６は、本実施の形態に係る図５のステッ
プＳ５０８における変形歪の求め方を説明する図であ
る。

【００３３】ここでは、PSOLA法によりピッチ間隔を広
げる場合について図示している。矢印はピッチマーク、
点線は変形前と変形後のピッチ素片の対応関係を表わし
ている。本実施の形態では、各ピッチ素片（微細素片と
もいう）の変形前後のケプストラム距離に基づいて変形
歪を表わす。具体的には、まず変形後のあるピッチ素片
（例えば６０で示す）のピッチマーク６１を中心にハニ
ング窓６２（窓長２５.６ミリ秒）をかけ、そのピッチ
素片６０を周辺のピッチ素片を含めて切り出す。こうし
て切り出したピッチ素片６０をケプストラム分析する。
次に、ピッチマーク６１に対応する変形前のピッチ素片
６３のピッチマーク６４を中心にして同じ窓長のハニン
グ窓６５でピッチ素片を切り出し、変形後の場合と同様
にしてケプストラムを求める。このようにして求めたケ
プストラム同士の距離を、着目しているピッチ素片６０
の変形歪として、変形後のピッチ素片とそれに対応する
変形前のピッチ素片間の変形歪の総和をPSOLAで採用さ
れるピッチ素片数Ｎpで割った値を、その音声素片の変
形歪とする。こうして求められる変形歪を式で記述する
と以下のようになる。

【００３４】Ｄt ＝ ΣΣ｜Ｃorg i,j − Ｃtar i,j｜／Ｎp ここで最初のΣは、ｉ＝１からＮまでの総和を示し、次
のΣはｊ＝０〜１６までの総和を示している。またＣta
r i,jは、変形後のｉ番目のピッチ素片のケプストラム
のｊ次元目の要素を表わし、同様に、Ｃorg i,jは、変
形後に対応する変形前のピッチ素片のケプストラムのｊ
次元目の要素を表わしている。

【００３５】図７は、本実施の形態における接続歪の求
め方を説明する図である。

【００３６】この接続歪は、一つ前の音韻の音声素片と
現在の音声素片との接続箇所において生じる歪を示し、
ここではケプストラム距離を用いて表わす。具体的に
は、音声素片境界が存在するフレーム７０，７１（フレ
ーム長５ミリ秒、分析窓幅２５.６ミリ秒）と、それを
挟む前後それぞれ２フレームからなる計５フレームを接
続歪の算出対象としている。ここでケプストラムは、０
次（パワー）〜１６次（パワー）までの計１７次元ベク
トルとする。そして、このケプストラムベクトルの各要
素の差の絶対値の和を、現在注目している音声素片にお
ける接続歪とする。即ち、図７の７００で示すように、
一つ前の音韻の音声素片における終端部のケプストラム
ベクトルの各要素をＣpre i,j（ｉ：フレーム番号、フ
レーム番号の“０”が音声素片境界があるフレームを示
し、ｊがベクトルの要素番号を示す）とする。また、図
７の７０１で示すように、注目音声素片における始端部
のケプストラムベクトルの各要素をＣcur i,jとする
と、現在注目している音声素片の接続歪Ｄcは、Ｄc＝ΣΣ｜Ｃpre i,j − Ｃcur i,j｜となる。ここで最初のΣはｉ＝−２〜２の総和を、次の
Σはｊ＝０〜１６までの総和を示す。

【００３７】図８は、本実施の形態に係る歪決定部４１
１による、音声素片における歪の決定過程を図示したも
のである。本実施の形態において、音韻単位はdiphone
（ダイフォン）とする。

【００３８】図中、一つの円がある音韻における１つの
音声素片を示し、円内の数字は、この音声素片に至る歪
値の総和の最小値を示している。また四角で囲まれた数
字は、一つ前の音韻の音声素片と現在注目している音韻
の音声素片との間の歪値を示している。また矢印は、現
在注目している音韻の音声素片と一つ前の音韻の音声素
片との関連を示している。ここでは説明のため、ｎ番目
の音韻（現在注目している音韻）のｍ番目の音声素片を
Ｐn,mとする。この音声素片Ｐn,mの最も小さい歪値から
上位Ｎ個（Ｎ：求めたいＮbestの数）までに対応する音
声素片を一つ前の音韻の中から取り出し、その中のｋ番
目の歪値をＤn,m,kとし、その歪値に対応するの一つ前
の音韻の音声素片をＰＲＥn,m,kとすると、ＰＲＥn,m,k
を介して音声素片Ｐn,mに至るパスにおける歪値の総和
Ｓn,m,kは、Ｓn,m,k ＝Ｓn-１,x,0 ＋Ｄn,m,k （但し、ｘ＝Ｐ
ＲＥn,m,k）となる。

【００３９】本実施の形態における歪値について説明す
る。本実施の形態では歪値Ｄtotal（上記説明における
Ｄn,m,kに相当する）を、上述の接続歪Ｄcと変形歪Ｄt
の重み付き和として定義する。

【００４０】Ｄtotal ＝ｗ×Ｄc ＋（１−ｗ）×Ｄt :（０≦ｗ≦１）ここで重み係数ｗは、予備実験など経験的に求められる
係数で、ｗ＝０の場合は、歪値が変形歪Ｄtのみで説明
され、ｗ＝１の場合は、歪値が接続歪Ｄcのみに依存す
ることになる。

【００４１】歪保持部４１２では、各音韻の音声素片Ｐ
n,m毎に、上位Ｎ個の歪値Ｄn,m,kと、それらに対応する
一つ前の音韻の音声素片ＰＲＥn,m,kと、ＰＲＥn,m,kを
介してＤn,m,kに至るパスの歪値の総和Ｓn,m,kをそれぞ
れ保持する。

【００４２】図８では、現在注目している音声素片Ｐn,
mに至るパスの総和の最小値が「２２２」となる例を示
す。この時の音声素片Ｐn,mの歪値は、Ｄn,m,1(k=1)で
あり、この歪値Ｄn,m,1に対応する一つ前の音韻の音声
素片は、ＰＲＥn,m,1（図８のＰn-1,m８１に相当する）
である。８０は、音声素片ＰＲＥn,m,1と音声素片Ｐn,m
とを接続するパスである。

【００４３】図９は、Ｎbestの決定過程を図示したもの
である。

【００４４】ステップＳ５１０の終了時点で、各音声素
片において、上位Ｎ個の情報がそれぞれ求まっている
（フォワード探索）。Ｎbest決定部４１３では、音韻系
列の末尾の音声素片９０から逆順に枝を伸ばしながらＮ
bestパスを求める（バックワード探索）。この枝を伸ば
すノードの選択は、予測値（線の横の数字）とそこに至
る総歪値の和（歪値は四角の中の数字で示される）が最
小となるものである。ここでいう予測値とは、音声素片
Ｐn,mにおけるフォワード探索結果の最小歪Ｓn,m,0に相
当する。この場合、予測値と実際に左端までに至る最小
パスの歪が等しいので、Ａ*探索アルゴリズムの性質に
より最適パスが求まることが保証される。

【００４５】図９は、第１位の最適パスが決定された状
態を示す図である。

【００４６】図中、丸が音声素片を示し、その丸の中の
数字が歪み予測値、太い実線が第一位のパス、四角の中
の数字が歪値、線の横の数字が予測歪み値を示してい
る。次に第２位のパスを求めるために、二重丸のノード
の中で、予測値とそこに至る総歪値の和が最小となるノ
ードを選択し、それに繋がる一つ前の音韻の音声素片の
全て（最大Ｎ個）に枝を伸ばす。この伸ばした先のノー
ドが二重丸で表現されている。この操作を繰り返すこと
により、上位Ｎ個のパスが総歪値の順に決定される。こ
の図９は、Ｎ＝２として枝を伸ばした場合の例を示す図
である。

【００４７】このようにして本実施の形態１によれば、
歪の最も小さいパスを形成する音声素片を選択して、そ
れを素片辞書に登録することができる。

【００４８】［実施の形態２］前述の実施の形態１で
は、音韻の単位としてdiphoneを用いる場合について記
述したが、本発明はこれに限定されるものではなく、音
素や半diphoneなどを単位としてもよい。半diphoneと
は、diphoneを音素境界で２つに分割したもののことで
ある。この半diphoneを単位とした場合のメリットにつ
いて簡単に説明する。任意のテキストを合成する場合、
素片辞書２０６は全種類のdiphoneを用意しておく必要
がある。これに対して、半diphoneを単位とした場合
は、足りない半diphoneを別の半diphoneで代替できる。
例えば、半diphoneの「/a.b.0/(diphonea.bの左側）」
の代わりに「/a.n.0/」を利用しても、音質の劣化を少
なくして良好に音声を再生できる。これにより、素片辞
書２０６のサイズをより小さくできる。

【００４９】［実施の形態３］前述の実施の形態１、２
では、音韻の単位としてdiphoneや音素や半diphoneを用
いる場合について説明したが、本発明はこれに限定され
るものではなく、これらを混合して用いてもよい。例え
ば、利用頻度が高い音韻については、diphoneを単位と
し、利用頻度が低い音韻については、２つの半diphone
を用いて表現するようにしても良い。

【００５０】図１０は、音声素片単位を混合した場合の
一例を示した図で、ここでは音韻「o.w」がdiphoneで表
され、その前後の音韻は半diphoneで表されている。

【００５１】［実施の形態４］実施の形態３において、
元のデータベース中で連続する場所から取り出されたか
どうかの情報を持ち、連続していた場合は、半diphone
の組を仮想的にdiphoneとして扱うようにしてもよい。
つまり、元のデータベース中で連続するということは接
続歪が“０”であるため、この場合には変形歪だけを考
慮すればよいことになり計算量を大幅に軽減できる。

【００５２】図１１は、この様子を表わした概念図であ
る。図中の線上の数字は接続歪を表している。

【００５３】図１１において、１１００で示される半di
phoneの組は、元のデータベース中で連続する場所から
取り出されたものであり、その接続歪みは“０”に一義
的に決定されている。また１１０１で示された半diphon
eの組は、元のデータベース中で連続する場所から取り
出されたものではないため、それぞれに対して接続歪み
が計算される。

【００５４】［実施の形態５］前述の実施の形態１で
は，１単位のテキストデータから得られた音韻系列全体
を歪計算の対象とする場合について説明したが、本発明
はこれに限定されるものでない。例えば、ポーズや無音
部分までを一つの区間として音韻系列を分割し、各区間
ごとに歪計算を行ってもよい。ここで言う無音部分と
は、例えばp,t,kなどの無音部分のことである。ポーズ
や無音部分では接続歪が“０”であると考えられるた
め、このような分割が有効となる。これにより、各区間
毎に最適な音声素片の選択が可能となる。

【００５５】［実施の形態６］前述の実施の形態１で
は、接続歪の計算にケプストラムを用いる場合について
説明したが、本発明はこれに限定されるものではない。
例えば、接続点の前後に亙る波形の差分の和を用いて接
続歪を求めても良い。またスペクトル距離などを用いて
接続歪を求めてもよい。この場合、接続点はピッチマー
クに同期させるのが、より好ましい。

【００５６】［実施の形態７］前述の実施の形態１で
は、接続歪の計算において、窓長、シフト長、ケプスト
ラムの次数、フレーム数などを具体的数字を使って説明
したが、本発明はこれに限定されるものではない。任意
の窓長、シフト長、次数、フレーム数を使って接続歪を
算出してもよい。

【００５７】［実施の形態８］前述の実施の形態１で
は、接続歪の計算にケプストラムの次数ごとに差分を取
ったものの総和を用いる場合について説明したが、本発
明はこれに限定されるものではない。例えば、各次数を
統計的性質などを使って正規化（正規化係数ｒj）して
もよい。この場合の接続歪Ｄcは、Ｄc＝ΣΣ（ｒj×｜Ｃpre i,j − Ｃcur i,j｜）となる。ここで、最初のΣはｉ＝−２〜２の総和を、次
のΣはｊ＝０〜１６までの総和を示す。

【００５８】［実施の形態９］実施の形態１では、ケプ
ストラムの次数ごとの差分の絶対値をベースに接続歪の
算出を行なう場合について説明したが、本発明はこれに
限定されるものではない。例えば、差分の絶対値の累乗
（累数が偶数の場合は絶対値でなくてもよい）をベース
に接続歪の算出を行なってもよい。ここで累数をＮとす
ると、接続歪Ｄcは、Ｄc＝ΣΣ｜Ｃpre i,j − Ｃcur i,j｜^N となる。ここで“^N”はＮの累乗を示す。ここでＮの値
を大きくすることは、大きな差分について敏感になるこ
とを意味しているので、その結果、接続歪が平均的に小
さくなるように働くことになる。

【００５９】［実施の形態１０］前述の実施の形態１で
は、変形歪としてケプストラムを用いる場合について説
明したが、本発明はこれに限定されるものではない。例
えば、変形前後の一定区間の波形の差分の和を用いて変
形歪を求めてもよい。また、スペクトル距離などを用い
て変形歪を求めてもよい。

【００６０】［実施の形態１１］前述の実施の形態１で
は、変形歪を波形から得られる情報を基に算出する場合
について説明したが、本発明はこれに限定されるもので
はない。例えば、PSOLAによるピッチ素片の削除および
複製の回数などを変形歪を算出する要素としても良い。

【００６１】［実施の形態１２］前述の実施の形態１で
は、音声素片を読み出すごとに接続歪を計算する場合に
ついて説明したが、本発明はこれに限定されるものでは
ない。例えば、接続歪を予め計算しておき、テーブル化
して保持してもよいものとする。

【００６２】図１２は、diphone「/a.r/」とdiphone「/
r.i/」との間の接続歪を記憶したテーブルの一例を示す
図である。ここでは縦軸に「/a.r/」の音声素片、横軸
に「/r.i/」の音声素片をとっている。例えば、「/a.r
/」の「id3」の音声素片と「/r.i/」の「id2」の音声素
片との接続歪は“３.６”で表されている。このように
接続可能なdiphone間の接続歪を全てテーブル化して用
意することにより、音声素片同士の合成時の接続歪の算
出がテーブルの参照だけで済むため、その計算量を大幅
に軽減でき、算出時間を大幅に短縮できる。

【００６３】［実施の形態１３］前述の実施の形態１で
は、音声素片を編集する毎に変形歪を計算する場合につ
いて説明したが、本発明はこれに限定されるものではな
い。例えば、変形歪を予め計算しておき、テーブルとし
て保持しておいても良い。

【００６４】図１３は、あるdiphoneを基本周波数と音
韻時間長について変化させた場合の変形歪をテーブルで
表した図である。

【００６５】図中、μは、そのdiphoneの統計的な平均
値を示し、σは標準偏差である。具体的な表の作成方法
としては、次のような作成方法が考えられる。まず、基
本周波数と音韻時間長に関して統計的に平均値と分散を
求める。次に、それらを基に（５×５＝）２５通りの基
本周波数と音韻時間長をターゲットとしてPSOLA法をそ
れぞれ適用し、テーブルの変形歪を一つずつ求めていけ
ばよい。合成時は、ターゲットの基本周波数と音韻時間
長が決まれば、テーブルの近傍の値で内挿（もしくは外
挿）することによって、変形歪を推定することが可能で
ある。

【００６６】図１４は、合成時に変形歪を推定するため
の具体例を示した図である。

【００６７】図中、黒丸がターゲットの基本周波数と音
韻時間長であり、このとき、各格子点の変形歪がテーブ
ルからＡ，Ｂ，Ｃ，Ｄと求まっていると仮定すると、変
形歪Ｄtは、以下の式により求めることができる。Ｄt＝{Ａ・(１−ｙ)＋Ｃ・ｙ}×(１−ｘ)＋｛Ｂ・(１−
ｙ)＋Ｄ・ｙ｝×ｘ

【００６８】［実施の形態１４］前述の実施の形態１３
では、変形歪テーブルの格子点として、そのdiphoneの
統計的な平均値と標準偏差を基に５×５のテーブルを作
成したが、本発明はこれに限定されるものではなく、任
意の格子点を持つテーブルとしてもよい。また、格子点
を平均値などに依らず決定的に与えてもよいものとす
る。例えば、韻律推定で推定されうる範囲を等分割する
などもよいものとする。

【００６９】［実施の形態１５］前述の実施の形態１で
は、接続歪と変形歪の重み和で歪を定量化する場合につ
いて説明したが本発明はこれに限定されるものではな
く、接続歪と変形歪それぞれに閾値を設定しておき、ど
ちらか一方でもその閾値を越えた場合はその音声素片が
選択されないようにして、十分大きな歪の値を与えるよ
うにしてもよい。

【００７０】上記実施の形態においては、各部を同一の
計算機上で構成する場合について説明したが本発明はこ
れに限定されるものではなく、例えばネットワーク上に
分散した計算機や処理装置などに分かれて各部を構成し
てもよい。

【００７１】上記実施の形態においては、プログラムを
制御メモリ（ＲＯＭ）に保持する場合について説明した
が本発明はこれに限定されるものではなく、外部記憶な
ど任意の記憶媒体を用いて実現してもよい。また、同様
の動作をする回路で実現してもよい。

【００７２】なお本発明は、複数の機器から構成される
システムに適用しても、１つの機器からなる装置に適用
してもよい。前述した実施の形態の機能を実現するソフ
トウエアのプログラムコードを記録した記録媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格
納されたプログラムコードを読み出し実行することによ
っても達成される。

【００７３】この場合、記録媒体から読み出されたプロ
グラムコード自体が前述した実施の形態の機能を実現す
ることになり、そのプログラムコードを記録した記録媒
体は本発明を構成することになる。プログラムコードを
供給するための記録媒体としては、例えば、フロッピー
（登録商標）ディスク、ハードディスク、光ディスク、
光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，磁気テー
プ、不揮発性のメモリカード、ＲＯＭなどを用いること
ができる。

【００７４】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施の形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼働しているＯＳなど
が実際の処理の一部または全部を行ない、その処理によ
って前述した実施の形態の機能が実現される場合も含ま
れる。

【００７５】更に、記録媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるＣＰＵなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施の形態の機能が実現
される場合も含まれるものとする。

【００７６】以上説明したように本実施の形態によれ
ば、接続歪と変形歪を考慮して素片辞書に登録する音声
素片を選択することにより、少数の音声素片を登録した
辞書を用いても、音質の劣化が少ない合成音声を生成で
きるという効果がある。

【００７７】

【発明の効果】以上説明したように本発明によれば、接
続歪や変形歪に基づく歪の影響を考慮して素片辞書に登
録する音声素片を選択することによって、そのような素
片辞書を用いた合成音声の質を向上できるという効果が
ある。

【００７８】また本発明によれば、素片辞書に登録する
音声素片の数を少なく抑えて、かつその素片辞書を用い
て良好な音声を再生できるという効果がある。

【図面の簡単な説明】

【図１】本発明の実施の形態に係る音声情報処理装置の
ハードウェア構成を示すブロック図である。

【図２】本発明の実施の形態１に係る音声情報処理装置
のモジュール構成を示すブロック図である。

【図３】本実施の形態に係るオンラインモジュールにお
ける処理の流れを示すフローチャートである。

【図４】本実施の形態に係るオフラインモジュールの詳
細な構成を示すブロック図である。

【図５】本実施の形態１に係るオフラインモジュールに
おける処理の流れを示すフローチャートである。

【図６】本発明の実施の形態に係る音声素片の変形を説
明する図である。

【図７】本発明の実施の形態に係る音声素片の接続歪を
説明する図である。

【図８】音声素片における歪の決定過程を説明する図で
ある。

【図９】Ｎbestによる決定過程を説明する図である。

【図１０】本発明の実施の形態３に係る音声素片の単位
をdiphoneと半diphoneとで混合した場合を説明する図で
ある。

【図１１】本発明の実施の形態４に係る音声素片の単位
を取り出した半diphoneによって混合した例を示した図
である。

【図１２】本発明の実施の形態１２に係るdiphoneの /
a.r/ と/r.i/間の接続歪を決定するテーブル構成例を示
す図である。

【図１３】本発明の実施の形態１３に係る変形歪を表わ
すテーブル例を示す図である。

【図１４】本発明の実施の形態１３に係る変形歪を推定
する具体例を示した図である。

Claims

【特許請求の範囲】

【請求項１】音素素片を所定の韻律情報に基づいて編
集することによって生じる歪を求める歪出力手段と、音声合成に使用する素片辞書に登録する音声素片を、前
記歪出力手段から出力された歪に基づいて選択する素片
登録手段と、を有することを特徴とする音声情報処理装
置。
【請求項２】前記歪出力手段は、前記音声素片を他の
音声素片と接続することによって生じる接続歪と前記音
声素片を変形することによって生じる変形歪とに基づい
て、前記歪を求めることを特徴とする請求項１に記載の
音声情報処理装置。
【請求項３】テキストデータを入力するテキスト入力
手段と、前記入力されたテキストデータの言語解析を行なう言語
解析手段と、前記言語解析手段による解析結果に基づいて前記所定の
韻律情報を生成する韻律生成手段を更に有することを特
徴とする請求項１又は２に記載の音声情報処理装置。
【請求項４】前記接続歪及び変形歪により決定される
歪を基準として音声素片系列のＮbest系列を求めるＮbe
st決定手段を更に有し、前記素片登録手段は、前記音声素片系列のＮbest系列を
基に前記素片辞書に登録する音声素片を選択することを
特徴とする請求項２又は３に記載の音声情報処理装置。
【請求項５】前記素片登録手段は、前記接続歪と前記
変形歪との重み付き加算に基づいて、前記素片辞書に登
録する音声素片を選択することを特徴とする請求項２又
は３に記載の音声情報処理装置。
【請求項６】前記歪出力手段は、各音声素片のケプス
トラム距離を用いて前記接続歪を決定することを特徴と
する請求項２乃至５のいずれか１項に記載の音声情報処
理装置。
【請求項７】前記歪出力手段は、変形前の音声素片と
変形後の音声素片におけるケプストラム距離を用いて前
記変形歪を決定することを特徴とする請求項２乃至５の
いずれか１項に記載の音声情報処理装置。
【請求項８】前記歪出力手段は、前記変形歪を記憶し
たテーブルを有し、当該テーブルを参照して前記変形歪
を決定することを特徴とする請求項２乃至５のいずれか
１項に記載の音声情報処理装置。
【請求項９】前記歪出力手段は、前記接続歪を記憶し
たテーブルを有し、当該テーブルを参照して前記接続歪
を決定することを特徴とする請求項２乃至５のいずれか
１項に記載の音声情報処理装置。
【請求項１０】前記素片辞書を用いてテキストデータ
を音声合成する音声合成手段を更に有することを特徴と
する１乃至９のいずれか１項に記載の音声情報処理装
置。
【請求項１１】音素素片を所定の韻律情報に基づいて
編集することによって生じる歪を求める歪出力工程と、音声合成に使用する素片辞書に登録する音声素片を、前
記歪出力工程で出力された歪に基づいて選択する素片登
録工程と、を有することを特徴とする音声情報処理方
法。
【請求項１２】前記歪出力工程は、前記音声素片を他
の音声素片と接続することによって生じる接続歪と前記
音声素片を変形することによって生じる変形歪とに基づ
いて、前記歪を求めることを特徴とする請求項１１に記
載の音声情報処理方法。
【請求項１３】テキストデータを入力するテキスト入
力工程と、前記入力されたテキストデータの言語解析を行なう言語
解析工程と、前記言語解析工程による解析結果に基づいて前記所定の
韻律情報を生成する韻律生成工程を更に有することを特
徴とする請求項１１又は１２に記載の音声情報処理方
法。
【請求項１４】前記接続歪及び変形歪により決定され
る歪を基準として音声素片系列のＮbest系列を求めるＮ
best決定工程を更に有し、前記素片登録工程では、前記Ｎbest系列を基に前記素片
辞書に登録する音声素片を選択することを特徴とする請
求項１２又は１３に記載の音声情報処理方法。
【請求項１５】前記素片登録工程では、前記接続歪と
前記変形歪との重み付き加算に基づいて、前記素片辞書
に登録する音声素片を選択することを特徴とする請求項
１２又は１３に記載の音声情報処理方法。
【請求項１６】前記歪出力工程では、各音声素片のケ
プストラム距離を用いて前記接続歪を決定することを特
徴とする請求項１２乃至１５のいずれか１項に記載の音
声情報処理方法。
【請求項１７】前記歪出力工程では、変形前の音声素
片と変形後の音声素片におけるケプストラム距離として
変形歪を定量化して決定することを特徴とする請求項１
２乃至１５のいずれか１項に記載の音声情報処理方法。
【請求項１８】前記歪出力工程では、前記変形歪を記
憶したテーブルを有し、当該テーブルを参照して前記変
形歪を決定することを特徴とする請求項１２乃至１５の
いずれか１項に記載の音声情報処理方法。
【請求項１９】前記歪出力工程では、前記接続歪を示
すテーブルを有し、当該テーブルを参照して前記接続歪
を決定することを特徴とする請求項１２乃至１５のいず
れか１項に記載の音声情報処理方法。
【請求項２０】前記素片辞書を用いてテキストデータ
を音声合成する音声合成工程を更に有することを特徴と
する１１乃至１９のいずれか１項に記載の音声情報処理
方法。
【請求項２１】請求項１１乃至２０のいずれか１項に
記載の方法を実行するプログラムを記憶したことを特徴
とする、コンピュータにより読取り可能な記憶媒体。