JP4632384B2

JP4632384B2 - 音声情報処理装置及びその方法と記憶媒体

Info

Publication number: JP4632384B2
Application number: JP2000099532A
Authority: JP
Inventors: 泰夫奥谷; 康弘小森; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-03-31
Filing date: 2000-03-31
Publication date: 2011-02-16
Anticipated expiration: 2020-03-31
Also published as: US7054814B2; JP2001282277A; US20050209855A1; US20020051955A1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成で使用される素片辞書を作成する音声情報処理装置及びその方法と記憶媒体に関するものである。
【０００２】
【従来の技術】
近年、音素やｄｉｐｈｏｎｅなどを単位とした音声素片を素片辞書に登録しておき、音声合成に際して、入力される表音テキストに従って素片辞書を検索し、それら検索された音声素片を編集、接続して、その表音テキストに対応する音声合成を行なって音声を出力する音声合成方式が主流となっている。
【０００３】
【発明が解決しようとする課題】
このような音声合成方式においては、合成音声の基になる、素片辞書に登録されている音声素片自体の精度が重要となる。従って、音声素片の音韻環境にバラツキがあったり、或いは音声素片が雑音を含んでいると、いくら優れた精度の音声合成を行なっても、それら音声素片を用いて生成される合成音声には異音や雑音が含まれてしまうことになる。
【０００４】
本発明は上記従来例に鑑みてなされたもので、ＨＭＭを用いた素片認識を行ない、その認識結果に応じて辞書に登録する音声情報処理装置及びその方法と記憶媒体を提供することを目的とする。
【０００５】
また本発明の目的は、音声合成における音質の劣化を防止した素片辞書を作成する音声情報処理装置及びその方法と記憶媒体を提供することにある。
【０００６】
【課題を解決するための手段】
上記目的を達成するために本発明の音声情報処理装置は以下のような構成を備える。即ち、
音韻環境を満足する音声素片を音声データベースから検索する音声素片検索手段と、
前記音声素片検索手段による検索結果に基づいて各音韻のＨＭＭモデルを算出するＨＭＭ学習手段と、
前記各音韻のＨＭＭモデルに基づいて前記音声素片の素片認識を行なう素片認識手段と、
前記素片認識手段による素片認識結果に応じて素片辞書に登録する音声素片を決定する登録素片決定手段と、
を有することを特徴とする。
【０００７】
上記目的を達成するために本発明の音声情報処理方法は以下のような工程を備える。即ち、
音韻環境を満足する音声素片を音声データベースから検索する音声素片検索工程と、
前記音声素片検索工程における検索結果に基づいて各音韻のＨＭＭモデルを算出するＨＭＭ学習工程と、
前記各音韻のＨＭＭモデルに基づいて前記音声素片の素片認識を行なう素片認識工程と、
前記素片認識工程による素片認識結果に応じて素片辞書に登録する音声素片を決定する登録素片決定工程と、
を有することを特徴とする。
【０００８】
上記目的を達成するために本発明の音声情報処理装置は以下のような構成を備える。即ち、
所定の音韻環境を満足する複数の音声素片を用いて、各音韻に対応するＨＭＭを学習するＨＭＭ学習手段と、
前記各音韻に対応するＨＭＭの尤度が最も高い音声素片を、音声合成に使用する素片辞書に登録する音声素片として決定する登録素片決定手段と、を有することを特徴とする。
また本発明の音声情報処理方法は以下のような工程を備える。即ち、
所定の音韻環境を満足する複数の音声素片を用いて、各音韻に対応するＨＭＭを学習するＨＭＭ学習工程と、
前記各音韻に対応するＨＭＭの尤度が最も高い音声素片を、音声合成に使用する素片辞書に登録する音声素片として決定する登録素片決定工程と、を有することを特徴とする。
【０００９】
【発明の実施の形態】
以下、添付図面を参照して本発明の好適な実施の形態を詳細に説明する。
【００１０】
［実施の形態１］
図１は、本発明の実施の形態に係る音声合成装置のハードウェア構成を示すブロック図である。尚、本実施の形態では、一般的なパーソナルコンピュータを音声合成装置として用いる場合について説明するが、本発明は専用の音声合成装置であっても、また他の形態の装置であっても良い。
【００１１】
図１において、１０１は制御メモリ（ＲＯＭ）で、中央処理装置（ＣＰＵ）１０２で使用される各種制御データを記憶している。ＣＰＵ１０２は、ＲＡＭ１０３に記憶された制御プログラムを実行して、この装置全体の動作を制御している。１０３はメモリ（ＲＡＭ）で、ＣＰＵ１０２による各種制御処理の実行時、ワークエリアとして使用されて各種データを一時的に保存するとともに、ＣＰＵ１０２による各種処理の実行時、外部記憶装置１０４から制御プログラムをロードして記憶している。この外部記憶装置は、例えばハードディスク、ＣＤ−ＲＯＭ等を含んでいる。１０５はＤ／Ａ変換器で、音声信号を示すデジタルデータが入力されると、これをアナログ信号に変換してスピーカ１０９に出力して音声を再生する。１０６は入力部で、オペレータにより操作される、例えばキーボードや、マウス等のポインティングデバイスを備えている。１０７は表示部で、例えばＣＲＴや液晶等の表示器を有している。１０８はバスで、これら各部を接続している。１１０は音声合成ユニットである。
【００１２】
以上の構成において、本実施の形態の音声合成ユニット１１０を制御するための制御プログラムは外部記憶装置１０４からロードされてＲＡＭ１０３に記憶され、その制御プログラムで用いる各種データは制御メモリ１０１に記憶されている。これらのデータは、中央処理装置１０２の制御の下にバス１０８を通じて適宜メモリ１０３に取り込まれ、中央処理装置１０２による制御処理で使用される。Ｄ／Ａ変換器１０５は、制御プログラムを実行することによって作成される音声波形データ(ディジタル信号)をアナログ信号に変換してスピーカ１０９に出力する。
【００１３】
図２は、本実施の形態に係る音声合成ユニット１１０のモジュール構成を示すブロック図で、この音声合成ユニット１１０は、大きく分けて、素片辞書２０６に音声素片を登録するための処理を実行する素片辞書作成モジュールと、テキストデータを入力し、そのテキストデータに対応する音声を合成して出力する処理を行なう音声合成モジュールの２つのモジュールを有している。
【００１４】
図２において、２０１は、入力部１０６や外部記憶装置１０４から任意のテキストデータを入力するテキスト入力部、２０２は解析辞書、２０３は言語解析部、２０４は韻律生成規則保持部、２０５は韻律生成部、２０６は素片辞書、２０７は音声素片選択部、２０８はＰＳＯＬＡ法（ピッチ同期波形重畳法）を用いて音声素片を編集する音声素片編集・接続部、２０９は音声波形出力部、２１０は音声データベース、２１１は素片辞書作成部である。
【００１５】
まず音声合成モジュール処理について説明する。音声合成モジュールでは、言語解析部２０３が、解析辞書２０２を参照して、テキスト入力部２０１から入力されるテキストの言語解析を行なう。こうして解析された結果が韻律生成部２０５に入力される。韻律生成部２０５は、言語解析部２０３における解析結果と、韻律生成規則保持部２０４に保持されている韻律生成規則に関する情報とを基に音韻系列と韻律情報とを生成して音声素片選択部２０７及び音声素片編集・接続部２０８に出力する。続いて、音声素片選択部２０７は、韻律生成部２０５から入力される韻律生成結果を用いて、素片辞書２０６に保持されている音声素片から対応する音声素片を選択する。音声素片編集・接続部２０８は、韻律生成部２０５から入力される韻律生成結果に従って、音声素片選択部２０７から出力される音声素片を編集及び接続して音声波形を生成する。こうして生成された音声波形は、音声波形出力部２０９で出力される。
【００１６】
次に、素片辞書作成モジュールについて説明する。
【００１７】
このモジュール処理では、素片辞書作成部２１１が、後述する手順に基づいて音声データベース２１０の中から音声素片を選び出して素片辞書２０６に登録する。
【００１８】
次に、上記構成を備えた本実施の形態の音声合成処理について説明する。
【００１９】
図３は、図２の音声合成モジュールにおける音声合成処理(オンライン処理)の流れを示すフローチャートである。
【００２０】
まずステップＳ３０１で、テキスト入力部２０１は、文、文節、単語などの単位毎にテキストデータを入力してステップＳ３０２に移る。ステップＳ３０２では、言語解析部２０３により当該テキストデータの言語解析を行う。次にステップＳ３０３に進み、音韻生成部２０５は、ステップＳ３０２で解析された結果と所定の韻律規則とに基づいて、音韻系列と韻律情報を生成する。次にステップＳ３０４に進み、各音韻毎にステップＳ３０３で得られた韻律情報と所定の音韻環境とに基づいて、音声素片選択部２０７が素片辞書２０６に登録されている音声素片を選択する。次にステップＳ３０５に進み、その選択された音声素片及びステップＳ３０３で生成された韻律情報とに基づいて、音声素片編集・接続部２０８により音声素片の編集および接続を行なってステップＳ３０６に進む。ステップＳ３０６では、音声素片編集・接続部２０８によって生成された音声波形を、音声波形出力部２０９が音声信号として出力する。このようにして、入力されたテキストに対応する音声が出力されることになる。
【００２１】
図４は、図２で示した素片辞書作成モジュールのより詳細な構成を示すブロック図で、前述の図２と共通する部分は同じ番号で示し、かつ本実施の形態の特徴である素片辞書作成部２１１の構成をより詳細に示している。
【００２２】
図４において、４０１は音声素片検索部、４０２は音声素片保持部、４０３はＨＭＭ学習部、４０４はＨＭＭ保持部、４０５は素片認識部、４０６は認識結果保持部、４０７は登録素片決定部、４０８は登録素片保持部である。なお、２１０は図２で示した音声データベースである。
【００２３】
音声素片検索部４０１は、音声データベース２１０から所定の音韻環境を満たす音声素片を検索する。ここでは複数の音声素片が検索される。音声素片保持部４０２は、それら検索された音声素片を複数保持する。ＨＭＭ学習部４０３は、音声素片保持部４０２に保持した各音声素片のケプストラムを、音声素片が有している波形の周波数情報をフーリエ変換等により求め、その結果に基づいて各音韻のＨＭＭを求めて出力する。ＨＭＭ保持部４０４は、その学習結果（ＨＭＭモデル）を各音韻ごとに保持する。素片認識部４０５は、学習したＨＭＭを用いてＨＭＭの学習に使用した全ての音声素片を素片認識し、尤度が最大となるＨＭＭ（最尤ＨＭＭ）を求める。そして、現在注目している音声素片が最尤ＨＭＭの学習に使用した音声素片か否かを判断する。認識結果保持部４０６は、その素片認識結果を保持する。登録素片決定部４０７は、素片認識部４０５における認識結果から、素片認識に成功した音声素片のみを登録素片として採用する。登録素片保持部４０８は、登録素片決定部４０７により素片辞書２０６に登録する音声素片のみを保持する。
【００２４】
図５は、本実施の形態に係る素片辞書作成モジュールの動作を示すフローチャートである。
【００２５】
ステップＳ５０１では、例えば、ｄｉｐｈｏｎ（ダイフォン）を音韻単位とする全ての音韻について処理を行なったかどうかを判定し、未処理の音韻が存在する場合はステップＳ５０２に進むが、未処理の音韻が存在しない場合はステップＳ５０４の素片認識処理に進む。
【００２６】
ステップＳ５０２では、音声素片検索部４０１が、各音韻毎に、音声データベース２１０から所定の音韻環境を満足する音声素片を検索し、その検索された複数の音声素片を音声素片保持部４０２に保持してステップＳ５０３に進む。ステップＳ５０３では、ＨＭＭ学習部４０５が、検索された複数の音声素片を学習データとして、ある音韻のＨＭＭの学習を行なう。具体的には、まず音声波形のサンプリングレート２２０５０Ｈｚから、ケプストラム１６次、デルタケプストラム１６次、及びパワー、デルタパワーの計３４次元のベクトルを、窓幅２５．６ｍ秒でフレーム幅２．５ｍ秒ごとに求める。但し、ここではパワーとデルタパワーの値は、音声データベース２１０の文ごとに“０”から“１”に正規化されているものとする。次に、５状態１混合分布のＨＭＭ初期モデルを作成し、上記条件で得られるケプストラム・ベクトルを使ってＨＭＭの学習を行なう。この学習の結果得られたある音韻のＨＭＭを、ＨＭＭ保持部４０４に保持した後、次の音韻のＨＭＭを求めるため、ステップＳ５０１に戻る。
【００２７】
ステップＳ５０４では、素片認識部４０５が、各音韻のＨＭＭを用いて、ステップＳ５０２で検索された全ての音声素片に対して素片認識を行なう。つまり、各音声素片毎に、音声素片と各音韻のＨＭＭとの尤度を求める。次にステップＳ５０５に進み、音声素片毎に、音声素片と最も尤度が高いＨＭＭを求め、その音声素片が、そのＨＭＭの学習に用いた音声素片であるかどうかを判定し、そうであれば素片認識が成功したとみなしてステップＳ５０６に進み、その音声素片を素片辞書２０６に登録する。
【００２８】
一方、ステップＳ５０５で、違うと判別された場合はステップＳ５０７に進み、素片辞書２０６に登録しないと決定し、素片辞書２０６に登録することなくステップＳ５０８に進む。こうしてステップＳ５０６或いはＳ５０７の処理を実行した後ステップＳ５０８に進み、ステップＳ５０４で、全ての音韻のＨＭＭの学習に用いた全ての音声素片について判定処理が終了したかを判定し、終了していなければステップＳ５０５に戻って前述の処理を実行する。
【００２９】
以上説明したように本実施の形態１によれば、所定の音韻環境を満足する複数の音声素片を用いて各音韻に対応するＨＭＭを学習し、学習したＨＭＭを用いてＨＭＭの学習に使用した全ての音声素片を素片認識し、最尤ＨＭＭの学習に使用した音声素片であると判定された音声素片のみを素片辞書に登録する。
【００３０】
このように構成することにより、異音や雑音を含む音声素片を除去した素片辞書を生成することができ、合成音声の音質劣化を抑制することのできる素片辞書を提供できる。またこのような手順によって生成された素片辞書２０６を用いて音声を合成することにより、合成音声の音質の劣化を抑制することができる。
【００３１】
［実施の形態２］
上述の実施の形態１においては、ＨＭＭ学習部４０２が、各音韻毎にＨＭＭを作成し、素片認識部４０５では、各ＨＭＭの学習に用いた全ての音声素片を対象に尤度を求める場合を説明したが、本発明はこれに限定されるものではない。例えば、音韻としてｄｉｐｈｏｎｅを採用する場合は、各音韻をＣＣ型、ＣＶ型、ＶＣ型、ＶＶ型の４種類に分類して、同じ分類に属する音声素片を対象に素片認識を行なっても良い。ここで、Ｃは子音、Ｖは母音を表している。
【００３２】
［実施の形態３］
また、前述の実施の形態１，２において、認識に失敗した音声素片を登録しない場合で説明したが、本発明はこれに限定されるものではなく、例えば、許容できる認識誤りパターンを予め記述したテーブルを用意しておき、認識に失敗した音声素片であっても、そのテーブルに用意されている許容パターンに該当する場合は、登録素片決定部４０７において、素片辞書２０６に登録しても良いと判定する。
【００３３】
図６は、本実施の形態３に係る許容テーブルの一例を示す図である。
【００３４】
図６では、例えば、音韻としてｄｉｐｈｏｎｅを採用した例を示す。この場合、ｄｉｐｈｏｎｅ「ａ．ｙ」のＨＭＭの学習に用いた音声素片が「ａ．ｉ」として認識された場合であっても、また、ｄｉｐｈｏｎｅ「ａ．ｋ」のＨＭＭの学習に用いた音声素片が「ａ．ｐ」或いは「ａ．ｔ」と認識された場合であっても、許容できるものとして素片辞書２０６に登録する。
【００３５】
この場合の処理を図７のフローチャートで示す。この処理は、図５のステップＳ５０５において、違うと判別された場合に実行され、まずステップＳ６０１に進み、許容テーブル（登録素片決定部４０７に設けられている）を検索して、その認識した結果が、そのテーブルに登録されているかどうかをみる。登録されているときは図５のステップＳ５０６に進んで、素片辞書２０６に登録するが、一致しないときはステップＳ５０７に進んで素片辞書２０６に登録しない。
【００３６】
［実施の形態４］
上述の実施の形態２において、音韻としてｄｉｐｈｏｎｅを採用する場合において、認識に失敗した音声素片は登録しない場合について説明したが、本発明はこれに限定されるものではなく、認識に成功した素片数が閾値以下の音韻については、例えばＶＣ型の場合は、Ｖ部分が一致していれば許容するようにしてもよい。
【００３７】
［実施の形態５］
上述の実施の形態１において、各音声素片につき、ステップＳ５０３で求めた全ての音韻のＨＭＭとの尤度をそれぞれ求める場合について説明したが、本発明はこれに限定されるものではない。ある音韻のＨＭＭとそのＨＭＭの学習に用いた音声素片との尤度を求め、最も尤度の高い音声素片から上位Ｎ個（Ｎは整数）を登録するか、或いは、所定の閾値以上の尤度を持つ音声素片だけを登録するようにしてもよい。
【００３８】
［実施の形態６］
実施の形態１〜５において、ステップＳ５０４で求めた尤度を正規化せずに比較する場合について説明したが、本発明はこれに限定されるものではない。各尤度を、その尤度に対応する音声素片の時間長で正規化し、その正規化した尤度を用いて、登録する音声素片を、上述の手順により選択しても良い。
【００３９】
上記実施の形態においては、各部を同一の計算機上で構成する場合について説明したが、本発明はこれに限定されるものではなく、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。
【００４０】
また上記実施の形態においては、プログラムを制御メモリ(ＲＯＭ)に保持する場合について説明したが、これに限定されるものではなく、外部記憶など任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【００４１】
なお本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。前述した実施の形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはＣＰＵやＭＰＵ)が記録媒体に格納されたプログラムコードを読み出し実行することによっても達成される。
【００４２】
この場合、記録媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【００４３】
プログラムコードを供給するための記録媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳなどが実際の処理の一部または全部を行ない、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
【００４４】
更に、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
【００４５】
以上説明したように本実施の形態によれば、ＨＭＭを用いた素片認識結果を利用して素片辞書に登録する音声素片を選択することによって、異音や雑音を含む音声素片を除去でき、音質の劣化が少ない合成音声を生成することを可能とする音声合成装置および方法を提供することができる。
【００４６】
【発明の効果】
以上説明したように本発明によれば、ＨＭＭを用いた素片認識を行ない、その認識結果に応じて辞書に登録することにより、音声合成で再生される音声の品質を向上できるという効果がある。
【００４７】
また本発明によれば、音声合成における音質の劣化を防止した素片辞書を作成できる。
【００４８】
またこのような素片辞書を用いて音声合成することにより、高品位に音声合成された音声を再生できる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る音声合成装置のハードウェア構成を示すブロック図である。
【図２】本発明の実施の形態１に係る音声合成装置のモジュール構成を示すブロック図である。
【図３】本実施の形態に係る音声合成モジュールにおける処理の流れを示すフローチャートである。
【図４】本実施の形態に係る素片辞書作成モジュールの詳細なモジュール構成を示すブロック図である。
【図５】本実施の形態１に係る素片辞書作成モジュールにおける処理の流れを示すフローチャートである。
【図６】本発明の実施の形態３に係る誤認識許容パターンを記憶するテーブルの構成を示す図である。
【図７】本発明の実施の形態３に係る素片辞書作成モジュールにおける処理の流れを示すフローチャートである。

Claims

音韻環境を満足する音声素片を音声データベースから検索する音声素片検索手段と、
前記音声素片検索手段による検索結果に基づいて各音韻のＨＭＭモデルを算出するＨＭＭ学習手段と、
前記各音韻のＨＭＭモデルに基づいて前記音声素片の素片認識を行なう素片認識手段と、
前記素片認識手段による素片認識結果に応じて素片辞書に登録する音声素片を決定する登録素片決定手段と、
を有することを特徴とする音声情報処理装置。
前記素片認識手段は、前記音韻の単位としてダイフォンを採用し、音声素片をＣＣ型、ＣＶ型、ＶＣ型、ＶＶ型の４種類に分離して（Ｃ:子音、Ｖ:母音）、前記型のそれぞれにおいて素片認識を行なうことを特徴とする請求項１に記載の音声情報処理装置。
前記登録素片決定手段は、
許容できる音声素片パターンを登録したパターン記憶手段を有し、
前記素片認識手段において素片認識に失敗した音声素片に一致する音声素片パターンが前記パターン記憶手段に登録されているか否かを判定し、登録されている場合に前記音声素片を前記素片辞書に登録すると決定することを特徴とする請求項１又は２に記載の音声情報処理装置。
前記登録素片決定手段は、前記素片認識手段により認識に成功した音声素片の数が所定数以下であっても、少なくとも母音部分が正しく認識されていた場合は、当該音声素片を前記素片辞書に登録すると決定することを特徴とする請求項２に記載の音声情報処理装置。
前記素片認識手段は、音韻が同じ音声素片を対象に尤度を求め、更に、
前記登録素片決定手段は、前記尤度が上位のもの、或いは、所定値以上の音声素片を前記素片辞書に登録すると決定することを特徴とする請求項１に記載の音声情報処理装置。
前記登録素片決定手段は、前記尤度を前記音声素片の時間長で正規化した値が上位のもの、或いは、所定値以上の音声素片を前記素片辞書に登録すると決定することを特徴とする請求項５に記載の音声情報処理装置。
音韻環境を満足する音声素片を音声データベースから検索する音声素片検索工程と、
前記音声素片検索工程における検索結果に基づいて各音韻のＨＭＭモデルを算出するＨＭＭ学習工程と、
前記各音韻のＨＭＭモデルに基づいて前記音声素片の素片認識を行なう素片認識工程と、
前記素片認識工程による素片認識結果に応じて素片辞書に登録する音声素片を決定する登録素片決定工程と、
を有することを特徴とする音声情報処理方法。
前記素片認識工程は、前記音韻の単位としてダイフォンを採用し、音声素片をＣＣ型、ＣＶ型、ＶＣ型、ＶＶ型の４種類に分離して（Ｃ:子音、Ｖ:母音）、前記型のそれぞれにおいて素片認識を行なうことを特徴とする請求項７に記載の音声情報処理方法。
前記登録素片決定工程は、
前記素片認識工程において素片認識に失敗した音声素片に一致する音声素片パターンが、許容できる音声素片パターンを登録したパターン記憶部に登録されているか否かを判定し、登録されている場合に前記音声素片を前記素片辞書に登録すると決定することを特徴とする請求項７又は８に記載の音声情報処理方法。
前記登録素片決定工程では、前記素片認識工程により認識に成功した音声素片の数が所定数以下であっても、少なくとも母音部分が正しく認識されていた場合は、当該音声素片を前記素片辞書に登録すると決定することを特徴とする請求項８に記載の音声情報処理方法。
前記素片認識工程では、音韻が同じ音声素片を対象に尤度を求め、更に、
前記登録素片決定工程では、前記尤度が上位のもの、或いは、所定値以上の音声素片を前記素片辞書に登録すると決定することを特徴とする請求項７に記載の音声情報処理方法。
前記登録素片決定工程では、前記尤度を前記音声素片の時間長で正規化した値が上位のもの、或いは、所定値以上の音声素片を前記素片辞書に登録すると決定することを特徴とする請求項１１に記載の音声情報処理方法。
所定の音韻環境を満足する複数の音声素片を用いて、各音韻に対応するＨＭＭを学習するＨＭＭ学習手段と、
前記各音韻に対応するＨＭＭの尤度が最も高い音声素片を、音声合成に使用する素片辞書に登録する音声素片として決定する登録素片決定手段と、
を有することを特徴とする音声情報処理装置。
前記登録素片決定手段は、前記複数の音声素片の一音声素片と最も尤度の高くなる最尤ＨＭＭを前記各音韻に対応するＨＭＭの中から求め、前記一音声素片が前記最尤ＨＭＭの学習に使用した音声素片か否かを判定し、前記最尤ＨＭＭの学習に使用した音声素片である場合に前記一音声素片を登録すると決定することを特徴とする請求項１３に記載の音声情報処理装置。
所定の音韻環境を満足する複数の音声素片を用いて、各音韻に対応するＨＭＭを学習するＨＭＭ学習工程と、
前記各音韻に対応するＨＭＭの尤度が最も高い音声素片を、音声合成に使用する素片辞書に登録する音声素片として決定する登録素片決定工程と、
を有することを特徴とする音声情報処理方法。
前記登録素片決定工程では、前記複数の音声素片の一音声素片と最も尤度の高くなる最尤ＨＭＭを前記各音韻に対応するＨＭＭの中から求め、前記一音声素片が前記最尤ＨＭＭの学習に使用した音声素片か否かを判定し、前記最尤ＨＭＭの学習に使用した音声素片である場合に前記一音声素片を登録すると決定することを特徴とする請求項１５に記載の音声情報処理方法。
請求項７乃至１２、１５及び１６のいずれか１項に記載の音声情報処理方法をコンピュータに実行させるためのプログラムを記憶したことを特徴とする、コンピュータにより読取り可能な記憶媒体。