JP2009139677A

JP2009139677A - 音声処理装置及びそのプログラム

Info

Publication number: JP2009139677A
Application number: JP2007316637A
Authority: JP
Inventors: Takehiko Kagoshima; 岳彦籠嶋; Noriko Yamanaka; 紀子山中; Masato Yajima; 真人矢島
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-12-07
Filing date: 2007-12-07
Publication date: 2009-06-25
Anticipated expiration: 2027-12-07
Also published as: JP5198046B2; US8170876B2; US20090150157A1

Abstract

【課題】文法的、音韻的、韻律的に言語らしさを保存しつつ意味が不明であるような合成音声を生成する。
【解決手段】単語を表記する文字列と、単語の読みを表す音韻列と、単語の品詞との組から構成される単語辞書を参照して、入力テキストを解析し、入力テキストを１つ以上の部分テキストに分割し、部分テキスト毎に音韻列と品詞列とを生成し、この部分テキストの品詞列と、品詞列のリストとを照合して、部分テキストの音韻の変換を行うかどうかを判定し、音韻の変換を行うと判定された部分テキストの音韻列の各音韻を変換する。
【選択図】図２

Description

本発明は、任意のテキストから音声を合成する音声合成装置に係わり、特に、ビデオゲームなどのエンターテインメント応用のための音声処理装置に関する。

従来から、任意の文章（テキスト）から人工的に音声信号を作り出すテキスト音声合成の技術が提案されている。このようなテキスト音声合成を実現する音声合成装置は、一般に言語処理部、韻律処理部及び音声合成部の３つの要素によって構成される。

この音声合成装置の動作は次の通りである。

まず、言語処理部において、入力されたテキストの形態素解析や構文解析などが行われ、テキストを形態素、単語、アクセント句などの単位に区切ると共に、各単位の音韻列や品詞列などを生成する。

次に、韻律処理部においてアクセントやイントネーションの処理が行われ、基本周波数及び音韻継続時間長などの情報が算出される。

最後に、音声合成部において、予め合成音声を生成する際の音声の接続単位である合成単位（例えば、音素や音節など）毎に記憶されている音声素片データと呼ばれる特徴パラメータや音声波形を、韻律処理部で算出された基本周波数や音韻継続時間長などに基づいて接続することで合成音声が生成される。

このようなテキスト音声合成技術は、ビデオゲームのキャラクタの音声メッセージ出力にも用いられている（例えば、特許文献１参照）。従来の録音音声の再生による音声メッセージ出力では、予め録音しておいた言葉しか発声することができなかったが、テキスト音声合成を用いることにより、プレイヤーが入力した名前など、事前の録音が不可能な言葉も発声することが可能となった。
特開２００１−３４２８２号公報

上記したように、ビデオゲームのキャラクタ、特に人間や人間型ロボットなどのキャラクタの音声メッセージには、テキスト音声合成を用いることができる。

しかしながら、ゲームに登場する様々なキャラクタの中には、人間と同じ言語（例えば日本語）を話すことが適当でない場合がある。例えば「知能の発達したエイリアン」のような設定のキャラクタの場合、言葉を話すことは合理的だが、それが日本語や他の実在する言語では真実味に欠けるという問題点がある。

このときに音声の代わりに、無意味な効果音で代用することも可能であるが、この場合は言語らしくなく真実味に欠けるという問題点がある。

そこで本発明は、意味は不明であるが、言語らしく真実味のある音声合成に用いることができる音韻列を生成する音声処理装置を提供する。

本発明は、テキストを入力する入力部と、単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書と、前記辞書に基づいて、前記テキストを１つ以上の部分テキストに分割し、分割した前記部分テキスト毎に音韻列を含む音声情報を生成する生成部と、前記部分テキストの音声情報と、予め記憶された音声情報のリストとを照合して、前記部分テキストの前記音韻列に属する音韻の変換を行うかどうかを判定する判定部と、（１）前記音韻の変換を行うと判定された前記部分テキストの前記音韻列の前記各音韻を予め記憶した変換規則に従って異なる音韻に変換して出力し、（２）前記音韻の変換を行わないと判定された前記部分テキストの前記音韻列は、無変換で出力する処理部と、を備える音声処理装置である。

また、本発明は、テキスト、及び、前記テキストにおける各音韻のそれぞれについて、異なる音韻へ変換を行う部分と変換を行わない部分を表す判別情報を入力する入力部と、単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書と、前記辞書と前記判別情報とに基づいて、前記テキストを１つ以上の部分テキストに分割し、分割した前記部分テキスト毎に、音韻列と前記変換の要否を表す属性とを生成する生成部と、（１）前記属性が変換が必要となっている前記部分テキストの前記音韻列の前記各音韻を、予め記憶した変換規則に基づいて、異なる音韻に変換して出力し、（２）前記属性が変換が不要となっている前記部分テキストの前記音韻列は、無変換で出力する処理部と、を備える音声処理装置である。

さらに、本発明は、テキストを入力する入力部と、音韻の変換を行う単語について、前記単語を表記する文字列と、前記単語の読みを表す音韻の組合せが任意の変換規則に基づいて異なる音韻の組合せに変換された変換音韻列と、前記単語の品詞との組とから構成される第１の辞書と、音韻の変換を行わない単語について、前記単語を表記する文字列と、前記単語の読みをそのまま表す無変換音韻列と、前記単語の品詞との組から構成される第２の辞書と、（１）前記第１の辞書と前記第２の辞書とに基づいて、前記テキストを１つ以上の部分テキストに分割し、（２）前記第１の辞書に含まれる前記部分テキストは、前記第１の辞書に基づいて前記変換音韻列を生成して出力し、（３）前記第２の辞書に含まれる前記部分テキストは、前記第２の辞書に基づいて前記無変換音韻列を生成して出力する処理部と、を備える音声処理装置である。

本発明によれば、文法的、音韻的、韻律的に言語らしさを保存しつつ意味が不明であるような合成音声を生成できる。

以下、本発明の一実施形態の音声合成装置について説明する。

（第１の実施形態）
第１の実施形態の音声合成装置について図１〜図７に基づいて説明する。

（１）音声合成装置の構成
本実施形態の音声合成装置の構成について図１に基づいて説明する。図１は、音声合成装置を示すブロック図である。

音声合成装置は、テキストを入力するテキスト入力部１０１と、テキスト入力部１０１で入力されたテキストから単語毎の音韻列や品詞を生成する音韻列生成部１０９と、それらの情報から各音韻の声の高さと継続時間長などの韻律情報を生成する韻律処理部１０３と、音韻列と韻律情報とから合成音声を生成する音声合成部１０４と、音声合成部１０４で生成された合成音声を出力する合成音声出力部１０５とを備えている。

なお、この音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音韻生成部１０９、韻律処理部１０３、音声合成部１０４は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、テキスト入力部１０１は、上記コンピュータ装置に内臓あるいは外付けされたキーボードなどを適宜利用して実現することができる。また、合成音声出力部１０５は、上記コンピュータ装置に内臓あるいは外付けされたスピーカやヘッドホンなどを適宜利用して実現することができる。

（２）韻律処理部１０３、音声合成部１０４
韻律処理部１０３及び音声合成部１０４は、従来からある公知の韻律処理手法及び音声合成手法をそれぞれ用いて実現することができる。

例えば、韻律処理における声の高さの生成には、典型的なアクセント句単位の声の高さの変化パターンを選択、接続して１文の声の高さの変化パターンを生成する方法、音韻の継続時間長の生成には、数量化１類による推定モデルを用いる方法などがある。

音声合成手法には、音素単位や音節単位の音声波形（音声素片）を音韻列にしたがって選択し、韻律情報にしたがって韻律を変形して接続する方法などがある。

（３）音韻列生成部１０９の構成
次に、音韻列生成部１０９について図１に基づいて説明する。

音韻列生成部１０９は、図１に示すように、言語処理部１０２、言語辞書記憶部１０７、音韻変換部１０６、無変換リスト記憶部１０８、変換規則記憶部１１０から構成されている。

言語辞書記憶部１０７は、多数の日本語の単語の情報を記憶しており、各単語の情報は、漢字かな混じりの表記（文字列）、読みを表す音韻列、品詞、活用、アクセント位置などから構成されている。

言語処理部１０２は、言語辞書記憶部１０７に記憶されている単語情報を参照して入力テキストを解析し、入力テキストを単語に区切ると共に、各単語の音韻列、品詞、アクセント位置などの音声情報を出力する。

音韻変換部１０６は、無変換リスト記憶部１０８に記憶されている音声情報のリストを参照して、前記単語の音韻列の変換を行うか否かを判定し、変換を行うと判定された場合には、変換規則記憶部１１０に記憶されている変換規則に従って前記単語の音韻列の変換を行い、変換された音韻列を出力する。

（４）音韻列生成部１０９の動作
次に、音韻生成部１０９の詳細な動作について図２〜図７に基づいて説明する。図２は、音韻生成部１０９の動作を示すフローチャートである。

（４−１）言語処理部１０２
言語処理部１０２では、テキスト入力部１０１で入力されたテキストの形態素解析が行なわれる（ステップＳ１０１）。例として「太郎さんお早う」というテキストの解析について説明する。

まず、言語辞書記憶部１０７の単語情報を参照して、入力テキストを単語列で表現する。単語列は１通りに決定されるとは限らず、例えば図３に表されるようなネットワークで表現される。この例では、単語「さん」に接尾と数詞の２通りがあるため、２通りの解析結果がありうることを表している。

次に、単語の品詞などを用いた、単語間の接続のし易さについてのルールを参照して、解析結果の候補（ネットワークのパス）に点数付けを行う。

最後に、各候補の点数を比較して、最も確からしいパスを選択し、各単語の文字列、音韻列、品詞を解析結果として出力する。この例では、固有名詞と接尾は接続し易いため、図４の結果が出力される。

（４−２）音韻変換部１０６
次に、音韻変換部１０６では、形態素解析の結果を参照して、各単語の音韻の変換を行うか否かを判定する（ステップＳ１０２）。

判定は、無変換リスト記憶部１０８に記憶されている音声情報リストに基づいて行われる。音声情報リストは、音声情報を要素とするリストである。また、音声情報とは入力テキストを単語に区切ると共に、単語情報を参照して解析した結果として単語毎に得られる情報であり、例えば、音韻列・文字列・品詞・アクセント位置などがある。いずれか１種類（例えば、文字列）のリストとしてもよいし、複数種類が混在したリスト（例えば文字列と品詞）としてもよい。あるいは、「文字列が『千葉』で品詞が『人名』」のように、複数種類の組合せを要素とするリストとしてもよい。音声情報リストが、文字列リストである場合の例を図５に示す。

入力された単語列の各単語の文字列を、文字列リストと照合し、一致するものがある場合は前記単語の音韻変換は行わず、一致するものが無い場合は音韻変換を行うものと判定する。この例では、単語「太郎」は文字列リストに存在するため変換は行わず、「さん」「お早う」は存在しないため変換を行うものと判定する。

次に、変換を行うと判定された単語について、変換規則１１０に記憶されている変換規則に従って音韻の変換を行う（ステップＳ１０３）。

音韻の変換とは、少なくとも入力された音韻と変換規則とに基づいて、入力音韻とは異なる音韻を出力する操作である。ここで、変換規則とは少なくとも入力された音韻を、入力された音韻とは異なる音韻に変換する際に用いるもので、ある入力された音韻を異なる音韻に変換する規則を表したものである。

本実施形態における音韻の変換は、単語内での音韻の位置を置換することによって実現する。変換規則の例を図６に示す。このテーブルは、入力の単語内の音韻の位置と、置換された出力での音韻の位置の関係を表しており、Ｎは単語の音韻の数である。この変換規則を用いて、単語「さん」及び「お早う」の音韻列を変換した出力を図７に示す。

（５）効果
本実施形態の音声合成装置では、「太郎さんお早う」というテキスト入力に対して、「タローンサハヨーオ」という音声が合成される。

このように、音韻や抑揚は日本語と同じ特徴を持つことから、意味不明でありながら「言葉らしさ」を備えた音声を合成することが可能で、ゲームのキャラクタの音声に利用することができる。

また、人名などは、言語が異なっても同じように発音されることから、プレイヤーが入力した名前など、特定の単語は変換しないようにすることで、より現実味が増すという効果がある。

また、用いる変換の方法によっては、変換前のテキストを類推することができ、ゲームのキャラクタのセリフの意味を推理するという娯楽性を提供することができる。

（６）変更例
本実施形態の音韻変換部１０６では、文字列リストを参照して変換するか否かを判定したが、判定方法はこれに限られるものではなく、音韻列リストや品詞リストを参照するようにしてもよい。

例えば、音韻列リストに「ヒロシ」という登録があれば、入力テキストの「博」「浩」「寛」などは、全て変換されずにそのままの音韻で合成される。

また、品詞リストに「固有名詞」という登録があれば、人名などの固有名詞は全て変換されない。ゲームの入力インターフェースで漢字入力ができず、仮名入力のみの場合は、音韻列で照合する方が実装が容易となる。

また、品詞で変換の判定を制御することにより、変換部分の割合を容易に制御することが可能で、例えば無変換リストの品詞を増やしていくことで、変換部分をだんだんと少なくし、「キャラクタが日本語を覚えてきた」という演出できる。

（第２の実施形態）
次に、本発明の第２の実施形態の音声合成装置について、図８〜図１２に基づいて説明する。

（１）音声合成装置の構成
図８は、音声合成装置を示すブロック図であり、図１と同様の機能を持つ構成要素には同一符号を付与して説明を省略する。

本実施形態の音声合成装置には、テキスト合成部２０１、変換文記憶部２０３、無変換文記憶部２０４が付加されている。

変換文記憶部２０３には、音韻の変換を行うテキストが記憶されており、無変換文記憶部１０４には、音韻の変換を行わないテキストが記憶されている。例えば、ゲームキャラクタのセリフのうち、既定の部分のテキストは予め変換文記憶部２０３に記憶されており、プレイヤーが入力した名前などが無変換文記憶部に登録される。

（２）音声合成装置の動作
次に、本実施形態の音声合成装置における音韻生成部２０９の詳細な動作について図９〜図１１に基づいて説明する図１１は、音韻生成部２０９の動作を示すフローチャートである。

（２−１）テキスト合成部２０１
テキスト合成部２０１は、変換文記憶部２０３と無変換文記憶部２０４の中の指定されたテキストを組み合わせて入力テキストを生成する（ステップＳ２０１）。

さらに、入力テキストの中で、音韻を変換する部分と変換しない部分を表す情報である判別情報を生成する（ステップＳ２０２）。

判別情報は、入力テキストにタグとして挿入したり、変換、無変換の境界位置と各区間の変換、無変換の別を表すデータを入力テキストとは別に出力したりするなどの実現方法がある。

例えば、図９で表されるようなテキストのリストが変換文記憶部２０３に記憶されており、図１０で表されるようなテキストのリストが無変換文記憶部１０４に記憶されている場合について説明する。

図９の［可変部分］に、図１０で指定されたテキストを挿入することにより、入力テキストを生成する。図９から「［可変部分］さんお早う」が、図１０から「太郎」が指定された場合は、これらを組み合わせた結果「＜無変換＞太郎＜／無変換＞さんお早う」という入力テキストが生成される。ここで、＜無変換＞及び＜／無変換＞は、入力テキストの中で音韻の変換を行わない区間の始めと終わりをそれぞれ表すタグである。無変換区間ではなく、変換区間を表すタグを用いても良い。

また、タグの代わりに、「１文字目から２文字の長さの区間が無変換区間」という情報を変換部分判定情報として出力するようにしても良い。

（２−２）言語処理部２０２
次に、言語処理部２０２では、第１の実施形態における形態素解析（ステップＳ１０２）と同様に、入力テキストを単語に分割し、各単語の文字列、音韻列、品詞を生成する。

さらに、変換部分判定情報を参照して、各単語に変換、無変換の属性を付与する。言語処理部２０２の出力の例を図１２に示す。

（２−３）音韻変換部２０６
次に、音韻変換部２０６では、言語処理部２０２の出力の変換、無変換の属性を参照して、音韻の変換を行う単語を決定する（ステップＳ２０４）。

次に、音韻の変換を行うと決定された単語に対して、変換規則１１０に記憶されている変換規則に従って音韻の変換を行う（ステップＳ２０５）。

音韻の変換は、第１の実施形態と同様に、単語内での音韻の位置を置換することによって実現する。入力テキストが、「＜無変換＞太郎＜／無変換＞さんお早う」である場合、生成された音韻列は「タローンサハヨーオ」となる。

さらに、この音韻列に基づいて韻律処理部１０３で韻律情報が生成され、音声合成部１０４で「タローンサハヨーオ」という合成音声が生成されて、合成音声出力部１０５から出力される。

（３）効果
本実施形態の音声合成装置でも、「太郎さんお早う」というテキストに対して、「タローンサハヨーオ」という音声が合成され、第１の実施形態と同様の効果がある。

（第３の実施形態）
次に、本発明の第３の実施形態の音声合成装置について、図１３〜図１６に基づいて説明する。

（１）音声合成装置の構成
本実施形態の音声合成装置の構成について図１３に基づいて説明する。図１３は、音声合成装置を示すブロック図であり、図１及び図８と同様の機能を持つ構成要素には同一符号を付与して説明を省略する。

本実施形態の音韻列生成部３０９は、言語処理部３０２、変換言語辞書記憶部３０７、無変換言語辞書記憶部３０８、音韻変換部３０６、変換規則記憶部１１０、言語辞書記憶部１０７から構成されている。

言語処理部３０２は、変換言語辞書記憶部３０７と無変換言語辞書記憶部３０８の２つの言語辞書を参照して動作する。変換言語辞書記憶部３０７に記憶されている単語の情報は、言語辞書記憶部１０７と同様であるが、音韻列情報は予め変換規則に基づいて変換されたものとなっている。

すなわち、音韻変換部３０６は、言語辞書記憶部１０７の全ての単語について、音韻列情報を変換規則記憶部１１０に記憶されている変換規則に基づいて変換し、変換した音韻列とそのほかの情報（文字列、品詞、活用、アクセント位置など）を変換言語辞書記憶部３０７に記憶する。

（２）音声合成装置の動作
次に、本実施形態の音声合成装置の動作について説明する。

言語辞書記憶部１０７に記憶されている単語情報の例を図１４（ａ）に示す。また、変換規則記憶部１１０には、図５で表される音韻入換えテーブルが記憶されている。

（２−１）音韻変換部３０６
音韻変換部３０６は、音韻入換えテーブルに基づいて言語辞書記憶部１０７の音韻列を変換して図１４（ｂ）で表される単語情報を生成し、変換言語辞書記憶部３０７に記憶する。

無変換言語辞書記憶部３０８には、図１４（ｃ）で表される単語情報が記憶されているものとする。

（２−２）言語処理部３０２
言語処理部３０２は、テキスト入力部１０１より「太郎さんお早う」というテキストが入力されたとすると、第１の実施形態の言語処理部１０２と同様に形態素解析処理を行って、各単語の文字列、音韻列、品詞列を解析結果として出力する。但し、本実施形態の言語処理部３０２は、変換言語辞書記憶部３０７と、無変換言語辞書記憶部３０８の２つの言語辞書を参照する。

もし、同一文字列の単語が２つの辞書の両方に存在した場合は、無変換言語辞書記憶部３０８の登録内容を優先して解析に用いるものとする。

その結果、図１５で表される解析結果が出力される。出力された音韻列は、「タローンサハヨーオ」となる。

（２−３）韻律処理部１０３
さらに、韻律処理部１０３では、この音韻列に基づいて韻律情報が生成され、音声合成部１０４で「タローンサハヨーオ」という合成音声が生成されて、合成音声出力部１０５から出力される。

（変更例）
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。

（１）変更例１
上記各実施形態では、音韻の変換は単語内の音韻の位置の置換によって実現するものとして説明したが、その他の変換規則を用いても良い。

例えば、図１６（ａ）で表されるような音韻の変換テーブルを用いても良い。これは、入力音韻を出力音韻に変換することを意味しており、音韻の対で構成されている。

また、音韻の置換、変換のいずれの場合においても、変換のテーブルは固定である必要は無く、例えば複数のテーブルを切り替えて用いるようにしてもよい。

また、これらのテーブルは、入力に対して出力が常に一意に決定される必要は無く、例えば図１６（ｂ）のテーブルのように、入力音韻１つに対して複数の出力音韻が対応し、出力が周期的に変化するようにしても良い。この例では、「あ」の入力に対しては、「い」と「お」が交互に出力されることになる。

また、必ずしも周期的に変化する必要は無く、図１６（ｃ）のテーブルのように、１つの入力音韻に対応する複数の出力音韻に出力確率が付与されており、確率的に出力が決定されるようにしてもよい。この例では、「あ」の入力に対しては、「い」と「お」がそれぞれ５０％の確率で出力されることを表している。

このように、音韻の変換の方法に応じて、変換された合成音声から、元のテキストを類推できる度合いが変化するため、ゲームのキャラクタの設定や進行状況に適した変換を行うことができるという効果がある。

（２）変更例２
また、上記各実施形態では、言語処理部１０２における処理の結果、単語の列が出力されるものとして説明したが、これに限られるものではなく、例えば形態素やアクセント句などの単位で出力するようにしても良い。

第１の実施形態において、単位をアクセント句とした例を図１７に示す。

無変換リストの登録は「太郎」であり、アクセント句の文字列「太郎さん」とは完全には一致しないが、この場合は無変換リストの登録単語を含んでいる場合に変換しないものと判定したため、アクセント句「太郎さん」全体を変換していない。

また、複数の単語から構成されるアクセント句の場合は、１アクセント句に複数の品詞が割り当てられる場合があるため、品詞の無変換リストによって判定する場合は、リストへの登録を品詞列（例えば「固有名詞＋接尾」）としてアクセント句の品詞列と一致するかどうかを判定しても良いし、文字列と同様に、リストへの登録は一つの品詞とし、アクセント句の品詞列に含まれるかどうかによって判定するようにしてもよい。

（３）変更例３
また、上記各実施形態では、音韻は音節であるとして説明したが、これに限定されるものではなく、例えば音韻としてモーラや音素などの単位を用いてもよい。

音素を単位とした場合、日本語では連続しない子音が変換によって連続する場合があり、外国語のような雰囲気を出すことができる。

本発明の第１の実施形態の音声合成装置を示すブロック図である。音韻生成部の動作を示すフローチャートである。単語列を表すネットワークである。各単語の文字列、音韻列、品詞の解析結果の例である。無変換リスト記憶部に記憶されている文字列リストの例である。変換規則の例である。音韻列を変換した出力の例である。第２の実施形態の音声合成装置を示すブロック図である。変換文記憶部に記憶されているテキストのリストである。無変換文記憶部に記憶されているテキストのリストである。音韻生成部の動作を示すフローチャートである。言語処理部の出力の例を示す図である。第３の実施形態の音声合成装置を示すブロック図である。（ａ）は言語辞書記憶部に記憶されている単語情報の例であり、（ｂ）は音韻変換部が音韻入換えテーブルに基づいて言語辞書記憶部の音韻列を変換した例であり、（ｃ）は無変換言語辞書記憶部に記憶されている単語情報の例である。解析結果の出力の例である。変更例１における変換テーブルである。変更例２における単位をアクセント句としたテーブルである。

符号の説明

１０１テキスト入力部
１０２言語処理部
１０３韻律処理部
１０４音声合成部
１０５合成音声出力部
１０７言語辞書記憶部
１０６音韻変換部
１０８無変換リスト記憶部
１０９音韻列生成部
１１０変換規則記憶部

Claims

テキストを入力する入力部と、
単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書と、
前記辞書に基づいて、前記テキストを１つ以上の部分テキストに分割し、分割した前記部分テキスト毎に音韻列を含む音声情報を生成する生成部と、
前記部分テキストの音声情報と、予め記憶された音声情報のリストとを照合して、前記部分テキストの前記音韻列に属する音韻の変換を行うかどうかを判定する判定部と、
（１）前記音韻の変換を行うと判定された前記部分テキストの前記音韻列の前記各音韻を予め記憶した変換規則に従って異なる音韻に変換して出力し、（２）前記音韻の変換を行わないと判定された前記部分テキストの前記音韻列は、無変換で出力する処理部と、
を備える音声処理装置。
テキスト、及び、前記テキストにおける各音韻のそれぞれについて、異なる音韻へ変換を行う部分と変換を行わない部分を表す判別情報を入力する入力部と、
単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書と、
前記辞書と前記判別情報とに基づいて、前記テキストを１つ以上の部分テキストに分割し、分割した前記部分テキスト毎に、音韻列と前記変換の要否を表す属性とを生成する生成部と、
（１）前記属性が変換が必要となっている前記部分テキストの前記音韻列の前記各音韻を、予め記憶した変換規則に基づいて、異なる音韻に変換して出力し、（２）前記属性が変換が不要となっている前記部分テキストの前記音韻列は、無変換で出力する処理部と、
を備える音声処理装置。
テキストを入力する入力部と、
音韻の変換を行う単語について、前記単語を表記する文字列と、前記単語の読みを表す音韻の組合せが任意の変換規則に基づいて異なる音韻の組合せに変換された変換音韻列と、前記単語の品詞との組とから構成される第１の辞書と、
音韻の変換を行わない単語について、前記単語を表記する文字列と、前記単語の読みをそのまま表す無変換音韻列と、前記単語の品詞との組から構成される第２の辞書と、
（１）前記第１の辞書と前記第２の辞書とに基づいて、前記テキストを１つ以上の部分テキストに分割し、（２）前記第１の辞書に含まれる前記部分テキストは、前記第１の辞書に基づいて前記変換音韻列を生成して出力し、（３）前記第２の辞書に含まれる前記部分テキストは、前記第２の辞書に基づいて前記無変換音韻列を生成して出力する処理部と、
を備える音声処理装置。
前記部分テキスト毎の音韻列に基づいて、前記音韻列の各音韻の継続時間及び声の高さで構成される韻律情報を生成する韻律生成部と、
前記部分テキスト毎の前記音韻列と前記韻律情報とから合成音声を生成する合成部と、
をさらに備える請求項１から３の少なくとも一項に記載の音声処理装置。
前記音声情報が、文字列、音韻列、または、品詞列であり、
前記判定部は、
前記部分テキストの文字列が、予め記憶した文字列リスト中の文字列を含むかどうか、
前記部分テキストの音韻列が、予め記憶した音韻列リスト中の音韻列を含むかどうか、
または、前記部分テキストの品詞列が、予め記憶した品詞列リスト中の品詞列を含むかどうかのいずれかに基づいて、
前記部分テキストの前記音韻の変換を行うかどうかを判定する、
請求項１記載の音声処理装置。
前記処理部は、
前記変換規則を、変換元の音韻と変換先の音韻との組で表される音韻交換テーブル、または、変換元の音韻列内での音韻の位置と、変換先の音韻列内での音韻の位置との組で表される音韻置換テーブルに記憶している、
請求項１または２記載の音声処理装置。
前記部分テキストは、単語単位、形態素単位、または、アクセント句単位である、
請求項１〜３の少なくとも一項に記載の音声処理装置。
前記音韻は、音節単位、モーラ単位、または、音素単位である、
請求項１〜３の少なくとも一項に記載の音声処理装置。
単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書を有し、
テキストが入力する入力機能と、
前記辞書に基づいて、前記テキストを１つ以上の部分テキストに分割し、分割した前記部分テキスト毎に音韻列を含む音声情報を生成する生成機能と、
前記部分テキストの音声情報と、予め記憶された音声情報のリストとを照合して、前記部分テキストの前記音韻列に属する音韻の変換を行うかどうかを判定する判定機能と、
（１）前記音韻の変換を行うと判定された前記部分テキストの前記音韻列の前記各音韻を予め記憶した変換規則に従って異なる音韻に変換して出力し、（２）前記音韻の変換を行わないと判定された前記部分テキストの前記音韻列は、無変換で出力する処理機能と、
をコンピュータによって実現する音声処理プログラム。
単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書を有し、
テキスト、及び、前記テキストにおける各音韻のそれぞれについて、異なる音韻へ変換を行う部分と変換を行わない部分を表す判別情報が入力する入力機能と、
前記辞書と前記判別情報とに基づいて、前記テキストを１つ以上の部分テキストに分割し、分割した前記部分テキスト毎に、音韻列と前記変換の要否を表す属性とを生成する生成機能と、
（１）前記属性が変換が必要となっている前記部分テキストの前記音韻列の前記各音韻を、予め記憶した変換規則に基づいて、異なる音韻に変換して出力し、（２）前記属性が変換が不要となっている前記部分テキストの前記音韻列は、無変換で出力する処理機能と、
をコンピュータによって実現する音声処理プログラム。
音韻の変換を行う単語について、前記単語を表記する文字列と、前記単語の読みを表す音韻の組合せが任意の変換規則に基づいて異なる音韻の組合せに変換された変換音韻列と、前記単語の品詞との組とから構成される第１の辞書と、
音韻の変換を行わない単語について、前記単語を表記する文字列と、前記単語の読みをそのまま表す無変換音韻列と、前記単語の品詞との組から構成される第２の辞書と、
を有し、
テキストを入力する入力機能と、
（１）前記第１の辞書と前記第２の辞書とに基づいて、前記テキストを１つ以上の部分テキストに分割し、（２）前記第１の辞書に含まれる前記部分テキストは、前記第１の辞書に基づいて前記変換音韻列を生成して出力し、（３）前記第２の辞書に含まれる前記部分テキストは、前記第２の辞書に基づいて前記無変換音韻列を生成して出力する処理機能と、
をコンピュータによって実現する音声処理プログラム。