JP2001282277A

JP2001282277A - 音声情報処理装置及びその方法と記憶媒体

Info

Publication number: JP2001282277A
Application number: JP2000099532A
Authority: JP
Inventors: Yasuo Okuya; 泰夫奥谷; Yasuhiro Komori; 康弘小森; Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-03-31
Filing date: 2000-03-31
Publication date: 2001-10-12
Anticipated expiration: 2020-03-31
Also published as: US20050209855A1; JP4632384B2; US7054814B2; US20020051955A1

Abstract

(57)【要約】【課題】音声合成における音質の劣化を防止した素片
辞書を作成する。【解決手段】音声索引検索部４０１により、音韻環境
を満足する音声素片を音声データベース２１０から検索
し、その検索結果に基づいてＨＭＭ学習部４０３におい
て各音韻のＨＭＭモデルを算出する。素片認識部４０５
は、こうして算出された各音韻のＨＭＭモデルに基づい
て音声素片の素片認識を行ない、その素片認識結果が、
元の音声素片と等しい場合に素片辞書に登録する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成で使用さ
れる素片辞書を作成する音声情報処理装置及びその方法
と記憶媒体に関するものである。

【０００２】

【従来の技術】近年、音素やｄｉｐｈｏｎｅなどを単位
とした音声素片を素片辞書に登録しておき、音声合成に
際して、入力される表音テキストに従って素片辞書を検
索し、それら検索された音声素片を編集、接続して、そ
の表音テキストに対応する音声合成を行なって音声を出
力する音声合成方式が主流となっている。

【０００３】

【発明が解決しようとする課題】このような音声合成方
式においては、合成音声の基になる、素片辞書に登録さ
れている音声素片自体の精度が重要となる。従って、音
声素片の音韻環境にバラツキがあったり、或いは音声素
片が雑音を含んでいると、いくら優れた精度の音声合成
を行なっても、それら音声素片を用いて生成される合成
音声には異音や雑音が含まれてしまうことになる。

【０００４】本発明は上記従来例に鑑みてなされたもの
で、ＨＭＭを用いた素片認識を行ない、その認識結果に
応じて辞書に登録する音声情報処理装置及びその方法と
記憶媒体を提供することを目的とする。

【０００５】また本発明の目的は、音声合成における音
質の劣化を防止した素片辞書を作成する音声情報処理装
置及びその方法と記憶媒体を提供することにある。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理装置は以下のような構成を備え
る。即ち、音韻環境を満足する音声素片を音声データベ
ースから検索する音声素片検索手段と、前記音声素片検
索手段による検索結果に基づいて各音韻のＨＭＭモデル
を算出するＨＭＭ学習手段と、前記各音韻のＨＭＭモデ
ルに基づいて前記音声素片の素片認識を行なう素片認識
手段と、前記素片認識手段による素片認識結果に応じて
素片辞書に登録する音声素片を決定する登録素片決定手
段と、を有することを特徴とする。

【０００７】上記目的を達成するために本発明の音声情
報処理方法は以下のような工程を備える。即ち、音韻環
境を満足する音声素片を音声データベースから検索する
音声素片検索工程と、前記音声素片検索工程における検
索結果に基づいて各音韻のＨＭＭモデルを算出するＨＭ
Ｍ学習工程と、前記各音韻のＨＭＭモデルに基づいて前
記音声素片の素片認識を行なう素片認識工程と、前記素
片認識工程による素片認識結果に応じて素片辞書に登録
する音声素片を決定する登録素片決定工程と、を有する
ことを特徴とする。

【０００８】上記目的を達成するために本発明の音声情
報処理装置は以下のような構成を備える。即ち、請求項
８乃至１４のいずれか１項に記載の方法により音声素片
が登録された素片辞書と、入力されたテキストデータの
言語解析を行なう言語解析手段と、前記言語解析手段に
より解析された解析結果に基づいて韻律を生成する韻律
生成手段と、前記韻律生成手段により生成された韻律を
基に前記素片辞書を検索して対応する音声素片を選択す
る音声素片選択手段と、前記音声素片選択手段により選
択された音声素片を編集して接続する音声素片編集・接
続手段と、前記音声素片編集・接続手段により編集され
た結果に基づいて音声を再生する音声再生手段と、を有
することを特徴とする。また、本発明の音声情報処理装
置は以下のような構成を備える。即ち、所定の音韻環境
を満足する複数の音声素片を用いて、各音韻に対応する
ＨＭＭを学習するＨＭＭ学習手段と、前記各音韻に対応
するＨＭＭに基づいて、音声合成に使用する素片辞書に
登録する音声素片を選択する登録素片決定手段と、を有
することを特徴とする。

【０００９】

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。

【００１０】［実施の形態１］図１は、本発明の実施の
形態に係る音声合成装置のハードウェア構成を示すブロ
ック図である。尚、本実施の形態では、一般的なパーソ
ナルコンピュータを音声合成装置として用いる場合につ
いて説明するが、本発明は専用の音声合成装置であって
も、また他の形態の装置であっても良い。

【００１１】図１において、１０１は制御メモリ（ＲＯ
Ｍ）で、中央処理装置（ＣＰＵ）１０２で使用される各
種制御データを記憶している。ＣＰＵ１０２は、ＲＡＭ
１０３に記憶された制御プログラムを実行して、この装
置全体の動作を制御している。１０３はメモリ（ＲＡ
Ｍ）で、ＣＰＵ１０２による各種制御処理の実行時、ワ
ークエリアとして使用されて各種データを一時的に保存
するとともに、ＣＰＵ１０２による各種処理の実行時、
外部記憶装置１０４から制御プログラムをロードして記
憶している。この外部記憶装置は、例えばハードディス
ク、ＣＤ−ＲＯＭ等を含んでいる。１０５はＤ／Ａ変換
器で、音声信号を示すデジタルデータが入力されると、
これをアナログ信号に変換してスピーカ１０９に出力し
て音声を再生する。１０６は入力部で、オペレータによ
り操作される、例えばキーボードや、マウス等のポイン
ティングデバイスを備えている。１０７は表示部で、例
えばＣＲＴや液晶等の表示器を有している。１０８はバ
スで、これら各部を接続している。１１０は音声合成ユ
ニットである。

【００１２】以上の構成において、本実施の形態の音声
合成ユニット１１０を制御するための制御プログラムは
外部記憶装置１０４からロードされてＲＡＭ１０３に記
憶され、その制御プログラムで用いる各種データは制御
メモリ１０１に記憶されている。これらのデータは、中
央処理装置１０２の制御の下にバス１０８を通じて適宜
メモリ１０３に取り込まれ、中央処理装置１０２による
制御処理で使用される。Ｄ／Ａ変換器１０５は、制御プ
ログラムを実行することによって作成される音声波形デ
ータ(ディジタル信号)をアナログ信号に変換してスピー
カ１０９に出力する。

【００１３】図２は、本実施の形態に係る音声合成ユニ
ット１１０のモジュール構成を示すブロック図で、この
音声合成ユニット１１０は、大きく分けて、素片辞書２
０６に音声素片を登録するための処理を実行する素片辞
書作成モジュールと、テキストデータを入力し、そのテ
キストデータに対応する音声を合成して出力する処理を
行なう音声合成モジュールの２つのモジュールを有して
いる。

【００１４】図２において、２０１は、入力部１０６や
外部記憶装置１０４から任意のテキストデータを入力す
るテキスト入力部、２０２は解析辞書、２０３は言語解
析部、２０４は韻律生成規則保持部、２０５は韻律生成
部、２０６は素片辞書、２０７は音声素片選択部、２０
８はＰＳＯＬＡ法（ピッチ同期波形重畳法）を用いて音
声素片を編集する音声素片編集・接続部、２０９は音声
波形出力部、２１０は音声データベース、２１１は素片
辞書作成部である。

【００１５】まず音声合成モジュール処理について説明
する。音声合成モジュールでは、言語解析部２０３が、
解析辞書２０２を参照して、テキスト入力部２０１から
入力されるテキストの言語解析を行なう。こうして解析
された結果が韻律生成部２０５に入力される。韻律生成
部２０５は、言語解析部２０３における解析結果と、韻
律生成規則保持部２０４に保持されている韻律生成規則
に関する情報とを基に音韻系列と韻律情報とを生成して
音声素片選択部２０７及び音声素片編集・接続部２０８
に出力する。続いて、音声素片選択部２０７は、韻律生
成部２０５から入力される韻律生成結果を用いて、素片
辞書２０６に保持されている音声素片から対応する音声
素片を選択する。音声素片編集・接続部２０８は、韻律
生成部２０５から入力される韻律生成結果に従って、音
声素片選択部２０７から出力される音声素片を編集及び
接続して音声波形を生成する。こうして生成された音声
波形は、音声波形出力部２０９で出力される。

【００１６】次に、素片辞書作成モジュールについて説
明する。

【００１７】このモジュール処理では、素片辞書作成部
２１１が、後述する手順に基づいて音声データベース２
１０の中から音声素片を選び出して素片辞書２０６に登
録する。

【００１８】次に、上記構成を備えた本実施の形態の音
声合成処理について説明する。

【００１９】図３は、図２の音声合成モジュールにおけ
る音声合成処理(オンライン処理)の流れを示すフローチ
ャートである。

【００２０】まずステップＳ３０１で、テキスト入力部
２０１は、文、文節、単語などの単位毎にテキストデー
タを入力してステップＳ３０２に移る。ステップＳ３０
２では、言語解析部２０３により当該テキストデータの
言語解析を行う。次にステップＳ３０３に進み、音韻生
成部２０５は、ステップＳ３０２で解析された結果と所
定の韻律規則とに基づいて、音韻系列と韻律情報を生成
する。次にステップＳ３０４に進み、各音韻毎にステッ
プＳ３０３で得られた韻律情報と所定の音韻環境とに基
づいて、音声素片選択部２０７が素片辞書２０６に登録
されている音声素片を選択する。次にステップＳ３０５
に進み、その選択された音声素片及びステップＳ３０３
で生成された韻律情報とに基づいて、音声素片編集・接
続部２０８により音声素片の編集および接続を行なって
ステップＳ３０６に進む。ステップＳ３０６では、音声
素片編集・接続部２０８によって生成された音声波形
を、音声波形出力部２０９が音声信号として出力する。
このようにして、入力されたテキストに対応する音声が
出力されることになる。

【００２１】図４は、図２で示した素片辞書作成モジュ
ールのより詳細な構成を示すブロック図で、前述の図２
と共通する部分は同じ番号で示し、かつ本実施の形態の
特徴である素片辞書作成部２１１の構成をより詳細に示
している。

【００２２】図４において、４０１は音声素片検索部、
４０２は音声素片保持部、４０３はＨＭＭ学習部、４０
４はＨＭＭ保持部、４０５は素片認識部、４０６は認識
結果保持部、４０７は登録素片決定部、４０８は登録素
片保持部である。なお、２１０は図２で示した音声デー
タベースである。

【００２３】音声素片検索部４０１は、音声データベー
ス２１０から所定の音韻環境を満たす音声素片を検索す
る。ここでは複数の音声素片が検索される。音声素片保
持部４０２は、それら検索された音声素片を複数保持す
る。ＨＭＭ学習部４０３は、音声素片保持部４０２に保
持した各音声素片のケプストラムを、音声素片が有して
いる波形の周波数情報をフーリエ変換等により求め、そ
の結果に基づいて各音韻のＨＭＭを求めて出力する。Ｈ
ＭＭ保持部４０４は、その学習結果（ＨＭＭモデル）を
各音韻ごとに保持する。素片認識部４０５は、学習した
ＨＭＭを用いてＨＭＭの学習に使用した全ての音声素片
を素片認識し、尤度が最大となるＨＭＭ（最尤ＨＭＭ）
を求める。そして、現在注目している音声素片が最尤Ｈ
ＭＭの学習に使用した音声素片か否かを判断する。認識
結果保持部４０６は、その素片認識結果を保持する。登
録素片決定部４０７は、素片認識部４０５における認識
結果から、素片認識に成功した音声素片のみを登録素片
として採用する。登録素片保持部４０８は、登録素片決
定部４０７により素片辞書２０６に登録する音声素片の
みを保持する。

【００２４】図５は、本実施の形態に係る素片辞書作成
モジュールの動作を示すフローチャートである。

【００２５】ステップＳ５０１では、例えば、ｄｉｐｈ
ｏｎ（ダイフォン）を音韻単位とする全ての音韻につい
て処理を行なったかどうかを判定し、未処理の音韻が存
在する場合はステップＳ５０２に進むが、未処理の音韻
が存在しない場合はステップＳ５０４の素片認識処理に
進む。

【００２６】ステップＳ５０２では、音声素片検索部４
０１が、各音韻毎に、音声データベース２１０から所定
の音韻環境を満足する音声素片を検索し、その検索され
た複数の音声素片を音声素片保持部４０２に保持してス
テップＳ５０３に進む。ステップＳ５０３では、ＨＭＭ
学習部４０５が、検索された複数の音声素片を学習デー
タとして、ある音韻のＨＭＭの学習を行なう。具体的に
は、まず音声波形のサンプリングレート２２０５０Ｈｚ
から、ケプストラム１６次、デルタケプストラム１６
次、及びパワー、デルタパワーの計３４次元のベクトル
を、窓幅２５．６ｍ秒でフレーム幅２．５ｍ秒ごとに求
める。但し、ここではパワーとデルタパワーの値は、音
声データベース２１０の文ごとに“０”から“１”に正
規化されているものとする。次に、５状態１混合分布の
ＨＭＭ初期モデルを作成し、上記条件で得られるケプス
トラム・ベクトルを使ってＨＭＭの学習を行なう。この
学習の結果得られたある音韻のＨＭＭを、ＨＭＭ保持部
４０４に保持した後、次の音韻のＨＭＭを求めるため、
ステップＳ５０１に戻る。

【００２７】ステップＳ５０４では、素片認識部４０５
が、各音韻のＨＭＭを用いて、ステップＳ５０２で検索
された全ての音声素片に対して素片認識を行なう。つま
り、各音声素片毎に、音声素片と各音韻のＨＭＭとの尤
度を求める。次にステップＳ５０５に進み、音声素片毎
に、音声素片と最も尤度が高いＨＭＭを求め、その音声
素片が、そのＨＭＭの学習に用いた音声素片であるかど
うかを判定し、そうであれば素片認識が成功したとみな
してステップＳ５０６に進み、その音声素片を素片辞書
２０６に登録する。

【００２８】一方、ステップＳ５０５で、違うと判別さ
れた場合はステップＳ５０７に進み、素片辞書２０６に
登録しないと決定し、素片辞書２０６に登録することな
くステップＳ５０８に進む。こうしてステップＳ５０６
或いはＳ５０７の処理を実行した後ステップＳ５０８に
進み、ステップＳ５０４で、全ての音韻のＨＭＭの学習
に用いた全ての音声素片について判定処理が終了したか
を判定し、終了していなければステップＳ５０５に戻っ
て前述の処理を実行する。

【００２９】以上説明したように本実施の形態１によれ
ば、所定の音韻環境を満足する複数の音声素片を用いて
各音韻に対応するＨＭＭを学習し、学習したＨＭＭを用
いてＨＭＭの学習に使用した全ての音声素片を素片認識
し、最尤ＨＭＭの学習に使用した音声素片であると判定
された音声素片のみを素片辞書に登録する。

【００３０】このように構成することにより、異音や雑
音を含む音声素片を除去した素片辞書を生成することが
でき、合成音声の音質劣化を抑制することのできる素片
辞書を提供できる。またこのような手順に寄って生成さ
れた素片辞書２０６を用いて音声を合成することによ
り、合成音声の音質の劣化を抑制することができる。

【００３１】［実施の形態２］上述の実施の形態１にお
いては、ＨＭＭ学習部４０２が、各音韻毎にＨＭＭを作
成し、素片認識部４０５では、各ＨＭＭの学習に用いた
全ての音声素片を対象に尤度を求める場合を説明した
が、本発明はこれに限定されるものではない。例えば、
音韻としてｄｉｐｈｏｎｅを採用する場合は、各音韻を
ＣＣ型、ＣＶ型、ＶＣ型、ＶＶ型の４種類に分類して、
同じ分類に属する音声素片を対象に素片認識を行なって
も良い。ここで、Ｃは子音、Ｖは母音を表している。

【００３２】［実施の形態３］また、前述の実施の形態
１，２において、認識に失敗した音声素片を登録しない
場合で説明したが、本発明はこれに限定されるものでは
なく、例えば、許容できる認識誤りパターンを予め記述
したテーブルを用意しておき、認識に失敗した音声素片
であっても、そのテーブルに用意されている許容パター
ンに該当する場合は、登録素片決定部４０７において、
素片辞書２０６に登録しても良いと判定する。

【００３３】図６は、本実施の形態３に係る許容テーブ
ルの一例を示す図である。

【００３４】図６では、例えば、音韻としてｄｉｐｈｏ
ｎｅを採用した例を示す。この場合、ｄｉｐｈｏｎｅ
「ａ．ｙ」のＨＭＭの学習に用いた音声素片が「ａ．
ｉ」として認識された場合であっても、また、ｄｉｐｈ
ｏｎｅ「ａ．ｋ」のＨＭＭの学習に用いた音声素片が
「ａ．ｐ」或いは「ａ．ｔ」と認識された場合であって
も、許容できるものとして素片辞書２０６に登録する。

【００３５】この場合の処理を図７のフローチャートで
示す。この処理は、図５のステップＳ５０５において、
違うと判別された場合に実行され、まずステップＳ６０
１に進み、許容テーブル（登録素片決定部４０７に設け
られている）を検索して、その認識した結果が、そのテ
ーブルに登録されているかどうかをみる。登録されてい
るときは図５のステップＳ５０６に進んで、素片辞書２
０６に登録するが、一致しないときはステップＳ５０７
に進んで素片辞書２０６に登録しない。

【００３６】［実施の形態４］上述の実施の形態２にお
いて、音韻としてｄｉｐｈｏｎｅを採用する場合におい
て、認識に失敗した音声素片は登録しない場合について
説明したが、本発明はこれに限定されるものではなく、
認識に成功した素片数が閾値以下の音韻については、例
えばＶＣ型の場合は、Ｖ部分が一致していれば許容する
ようにしてもよい。

【００３７】［実施の形態５］上述の実施の形態１にお
いて、各音声素片につき、ステップＳ５０３で求めた全
ての音韻のＨＭＭとの尤度をそれぞれ求める場合につい
て説明したが、本発明はこれに限定されるものではな
い。ある音韻のＨＭＭとそのＨＭＭの学習に用いた音声
素片との尤度を求め、最も尤度の高い音声素片から上位
Ｎ個（Ｎは整数）を登録するか、或いは、所定の閾値以
上の尤度を持つ音声素片だけを登録するようにしてもよ
い。

【００３８】［実施の形態６］実施の形態１〜５におい
て、ステップＳ５０４で求めた尤度を正規化せずに比較
する場合について説明したが、本発明はこれに限定され
るものではない。各尤度を、その尤度に対応する音声素
片の時間長で正規化し、その正規化した尤度を用いて、
登録する音声素片を、上述の手順により選択しても良
い。

【００３９】上記実施の形態においては、各部を同一の
計算機上で構成する場合について説明したが、本発明は
これに限定されるものではなく、ネットワーク上に分散
した計算機や処理装置などに分かれて各部を構成しても
よい。

【００４０】また上記実施の形態においては、プログラ
ムを制御メモリ(ＲＯＭ)に保持する場合について説明し
たが、これに限定されるものではなく、外部記憶など任
意の記憶媒体を用いて実現してもよい。また、同様の動
作をする回路で実現してもよい。

【００４１】なお本発明は、複数の機器から構成される
システムに適用しても、１つの機器からなる装置に適用
してもよい。前述した実施の形態の機能を実現するソフ
トウエアのプログラムコードを記録した記録媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ(またはＣＰＵやＭＰＵ)が記録媒体に格納
されたプログラムコードを読み出し実行することによっ
ても達成される。

【００４２】この場合、記録媒体から読み出されたプロ
グラムコード自体が前述した実施の形態の機能を実現す
ることになり、そのプログラムコードを記録した記録媒
体は本発明を構成することになる。

【００４３】プログラムコードを供給するための記録媒
体としては、例えば、フロッピー（登録商標）ディス
ク、ハードディスク、光ディスク、光磁気ディスク、Ｃ
Ｄ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリ
カード、ＲＯＭなどを用いることができる。また、コン
ピュータが読み出したプログラムコードを実行すること
により、前述した実施の形態の機能が実現されるだけで
なく、そのプログラムコードの指示に基づき、コンピュ
ータ上で稼働しているＯＳなどが実際の処理の一部また
は全部を行ない、その処理によって前述した実施の形態
の機能が実現される場合も含まれる。

【００４４】更に、記録媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるＣＰＵなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施の形態の機能が実現
される場合も含まれる。

【００４５】以上説明したように本実施の形態によれ
ば、ＨＭＭを用いた素片認識結果を利用して素片辞書に
登録する音声素片を選択することによって、異音や雑音
を含む音声素片を除去でき、音質の劣化が少ない合成音
声を生成することを可能とする音声合成装置および方法
を提供することができる。

【００４６】

【発明の効果】以上説明したように本発明によれば、Ｈ
ＭＭを用いた素片認識を行ない、その認識結果に応じて
辞書に登録することにより、音声合成で再生される音声
の品質を向上できるという効果がある。

【００４７】また本発明によれば、音声合成における音
質の劣化を防止した素片辞書を作成できる。

【００４８】またこのような素片辞書を用いて音声合成
することにより、高品位に音声合成された音声を再生で
きる。

【図面の簡単な説明】

【図１】本発明の実施の形態に係る音声合成装置のハー
ドウェア構成を示すブロック図である。

【図２】本発明の実施の形態１に係る音声合成装置のモ
ジュール構成を示すブロック図である。

【図３】本実施の形態に係る音声合成モジュールにおけ
る処理の流れを示すフローチャートである。

【図４】本実施の形態に係る素片辞書作成モジュールの
詳細なモジュール構成を示すブロック図である。

【図５】本実施の形態１に係る素片辞書作成モジュール
における処理の流れを示すフローチャートである。

【図６】本発明の実施の形態３に係る誤認識許容パター
ンを記憶するテーブルの構成を示す図である。

【図７】本発明の実施の形態３に係る素片辞書作成モジ
ュールにおける処理の流れを示すフローチャートであ
る。

───────────────────────────────────────────────────── フロントページの続き (72)発明者深田俊明東京都大田区下丸子３丁目30番２号キヤノン株式会社内Ｆターム(参考） 5D015 GG01 GG04 KK04 5D045 AA20 AC10

Claims

【特許請求の範囲】

【請求項１】音韻環境を満足する音声素片を音声デー
タベースから検索する音声素片検索手段と、前記音声素片検索手段による検索結果に基づいて各音韻
のＨＭＭモデルを算出するＨＭＭ学習手段と、前記各音韻のＨＭＭモデルに基づいて前記音声素片の素
片認識を行なう素片認識手段と、前記素片認識手段による素片認識結果に応じて素片辞書
に登録する音声素片を決定する登録素片決定手段と、を
有することを特徴とする音声情報処理装置。
【請求項２】前記素片認識手段は、前記音韻の単位と
してダイフォンを採用し、音声素片をＣＣ型、ＣＶ型、
ＶＣ型、ＶＶ型の４種類に分離して（Ｃ:子音、Ｖ:母
音）、前記型のそれぞれにおいて素片認識を行なうこと
を特徴とする請求項１に記載の音声情報処理装置。
【請求項３】前記登録素片決定手段は、許容できる音声素片パターンを登録したパターン記憶手
段を有し、前記素片認識手段において素片認識に失敗した音声素片
に一致する音声素片パターンが前記パターン記憶手段に
登録されているか否かを判定し、登録されている場合に
前記音声素片を前記素片辞書に登録することを特徴とす
る請求項１又は２に記載の音声情報処理装置。
【請求項４】前記登録素片決定手段は、前記素片認識
手段により認識した音声素片の数が所定値以上である場
合に前記素片辞書に登録することを特徴とする請求項１
に記載の音声情報処理装置。
【請求項５】前記登録素片決定手段は、前記素片認識
手段により認識した音声素片の数が前記所定数以下であ
っても、少なくとも母音部分が正しく認識されていた場
合は前記素片辞書に登録することを特徴とする請求項４
に記載の音声情報処理装置。
【請求項６】前記素片認識手段は、音韻が同じ音声素
片を対象に尤度を求め、更に、前記登録素片決定手段は、前記尤度が上位のもの、或い
は、所定値以上の音声素片を前記素片辞書に登録するこ
とを特徴とする請求項１に記載の音声情報処理装置。
【請求項７】前記登録素片決定手段は、前記尤度を前
記音声素片の時間長で正規化した値が上位のもの、或い
は、所定値以上の音声素片を前記素片辞書に登録するこ
とを特徴とする請求項６に記載の音声情報処理装置。
【請求項８】音韻環境を満足する音声素片を音声デー
タベースから検索する音声素片検索工程と、前記音声素片検索工程における検索結果に基づいて各音
韻のＨＭＭモデルを算出するＨＭＭ学習工程と、前記各音韻のＨＭＭモデルに基づいて前記音声素片の素
片認識を行なう素片認識工程と、前記素片認識工程による素片認識結果に応じて素片辞書
に登録する音声素片を決定する登録素片決定工程と、を
有することを特徴とする音声情報処理方法。
【請求項９】前記素片認識工程は、前記音韻の単位と
してダイフォンを採用し、音声素片をＣＣ型、ＣＶ型、
ＶＣ型、ＶＶ型の４種類に分離して（Ｃ:子音、Ｖ:母
音）、前記型のそれぞれにおいて素片認識を行なうこと
を特徴とする請求項８に記載の音声情報処理方法。
【請求項１０】前記登録素片決定工程は、許容できる音声素片パターンを登録したパターン記憶工
程を有し、前記素片認識工程において素片認識に失敗した音声素片
に一致する音声素片パターンが前記パターン記憶工程に
登録されているか否かを判定し、登録されている場合に
前記音声素片を前記素片辞書に登録することを特徴とす
る請求項８又は９に記載の音声情報処理方法。
【請求項１１】前記登録素片決定工程では、前記素片
認識工程により認識した音声素片の数が所定値以上であ
る場合に前記素片辞書に登録することを特徴とする請求
項８に記載の音声情報処理方法。
【請求項１２】前記登録素片決定工程では、前記素片
認識工程により認識した音声素片の数が前記所定数以下
であっても、少なくとも母音部分が正しく認識されてい
た場合は前記素片辞書に登録することを特徴とする請求
項１１に記載の音声情報処理方法。
【請求項１３】前記素片認識工程では、音韻が同じ音
声素片を対象に尤度を求め、更に、前記登録素片決定工程では、前記尤度が上位のもの、或
いは、所定値以上の音声素片を前記素片辞書に登録する
ことを特徴とする請求項８に記載の音声情報処理方法。
【請求項１４】前記登録素片決定工程では、前記尤度
を前記音声素片の時間長で正規化した値が上位のもの、
或いは、所定値以上の音声素片を前記素片辞書に登録す
ることを特徴とする請求項１３に記載の音声情報処理方
法。
【請求項１５】請求項８乃至１４のいずれか１項に記
載の方法を実行するプログラムを記憶したことを特徴と
する、コンピュータにより読取り可能な記憶媒体。
【請求項１６】請求項８乃至１４のいずれか１項に記
載の方法により音声素片が登録された素片辞書と、入力されたテキストデータの言語解析を行なう言語解析
手段と、前記言語解析手段により解析された解析結果に基づいて
韻律を生成する韻律生成手段と、前記韻律生成手段により生成された韻律を基に前記素片
辞書を検索して対応する音声素片を選択する音声素片選
択手段と、前記音声素片選択手段により選択された音声素片を編集
して接続する音声素片編集・接続手段と、前記音声素片編集・接続手段により編集された結果に基
づいて音声を再生する音声再生手段と、を有することを
特徴とする音声情報処理装置。
【請求項１７】所定の音韻環境を満足する複数の音声
素片を用いて、各音韻に対応するＨＭＭを学習するＨＭ
Ｍ学習手段と、前記各音韻に対応するＨＭＭに基づいて、音声合成に使
用する素片辞書に登録する音声素片を選択する登録素片
決定手段と、を有することを特徴とする音声情報処理装
置。
【請求項１８】前記登録素片決定手段は、前記複数の
音声素片の一音声素片と最も尤度の高くなる最尤ＨＭＭ
を前記各音韻に対応するＨＭＭの中から求め、前記一音
声素片が前記最尤ＨＭＭの学習に使用した音声素片か否
かを判定し、前記最尤ＨＭＭの学習に使用した音声素片
である場合に前記一音声素片を選択することを特徴とす
る請求項１７に記載の音声情報処理装置。
【請求項１９】前記素片辞書を用いて音声を合成する
音声合成手段を更に有することを特徴とする請求項１７
又は１８に記載の音声情報処理装置。
【請求項２０】所定の音韻環境を満足する複数の音声
素片を用いて、各音韻に対応するＨＭＭを学習するＨＭ
Ｍ学習工程と、前記各音韻に対応するＨＭＭに基づいて、音声合成に使
用する素片辞書に登録する音声素片を選択する登録素片
決定工程と、を有することを特徴とする音声情報処理方
法。
【請求項２１】前記登録素片決定工程では、前記複数
の音声素片の一音声素片と最も尤度の高くなる最尤ＨＭ
Ｍを前記各音韻に対応するＨＭＭの中から求め、前記一
音声素片が前記最尤ＨＭＭの学習に使用した音声素片か
否かを判定し、前記最尤ＨＭＭの学習に使用した音声素
片である場合に前記一音声素片を選択することを特徴と
する請求項２０に記載の音声情報処理方法。
【請求項２２】前記素片辞書を用いて音声を合成する
音声合成工程を更に有することを特徴とする請求項２０
又は２１に記載の音声情報処理方法。
【請求項２３】請求項２０乃至２２のいずれか１項に
記載の方法を実行するプログラムを記憶したことを特徴
とする、コンピュータにより読取り可能な記憶媒体。