JP4640063B2

JP4640063B2 - 音声合成方法，音声合成装置，およびコンピュータプログラム

Info

Publication number: JP4640063B2
Application number: JP2005265778A
Authority: JP
Inventors: 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2005-09-13
Filing date: 2005-09-13
Publication date: 2011-03-02
Anticipated expiration: 2025-09-13
Also published as: JP2007079019A

Description

本発明はテキスト本文を読み上げるための音声合成にかかり，特にキーワードを音質良く強調する音声合成装置，音声合成方法，およびコンピュータプログラムに関する。

予め録音された人の自然音声等を基にして，ＰＣ（パーソナルコンピュータ）に記憶されたテキスト文書を，音声に変換して読み上げる音声合成装置が一般的に知られている。上記音声合成装置は，品詞単位に分割可能な自然音声が記録されているコーパスに基づいて音声を合成する。

音声を合成するために，従来にかかる音声合成装置は，まず，入力されたテキストに対して，例えば，形態素解析，係り受け解析を実行し，音素記号，アクセント記号などに変換する。

次に，従来に係る音声合成装置は，音素記号，アクセント記号列，および形態素解析結果から得られる入力テキストの品詞情報を用いて，音素持続時間（声の長さ），基本周波数（声の高さ），母音中心のパワー（声の大きさ）等の推定を行う。

次に，従来に係る音声合成装置は，上記推定された音素持続時間，基本周波数，母音中心のパワーなどに最も近く，かつ波形辞書に蓄積されている合成単位（音素片）を接続したときの歪みが最も小さくなる合成単位の組合せを，動的計画法等を用いて選択する。なお，この際に行われる単位選択では，知覚的特徴に一致した尺度を用いる。

上記合成単位の組合せが選択されると，従来に係る音声合成装置は，当該選択された音素片の組合せに従って，音素片の接続を行うことにより音声を合成する。

また，従来に係る音声合成装置には，文書中の重要な個所，文書作成者が読み手に特に伝えたい個所を強調して読み上げることが可能な音声合成装置が存在する（例えば，特許文献１，参照）。

特開平１０−２７４９９９号公報

しかしながら，従来に係る音声合成装置では，入力したテキスト本文全体からコストを求め，キーワード部分の音声について話者，音量，ピッチ，または話速のいずれかを変更することで当該キーワードを強調していたが，それ以外を変更してキーワード部分を強調する音声合成装置は存在しなかった。

また，従来に係る音声合成装置では，入力したテキスト本文全体からコストを求め，キーワード部分の話者，音量，ピッチ，または話速のいずれかを変更し，キーワードを強調していたため，強調されたキーワード部分の音質を向上するのは困難であった。

本発明は，上記問題点に鑑みてなされたものであり，本発明の目的は，キーワード部分の音声について話者，音量，ピッチ，または話速以外を変更し，キーワード部分を強調することが可能な，新規かつ改良された音声合成装置，音声合成方法，およびコンピュータプログラムを提供することである。

上記課題を解決するため，本発明の第１の観点によれば，テキスト本文を解析し，該テキスト本文を構成する各記号（又は，各音韻記号）の特徴量を予測した韻律予測情報を生成する韻律予測情報生成部と；上記韻律予測情報とテキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで，該テキスト本文を構成する各記号の尺度を求める尺度算出部と；複数の音声が収録され，その音声を構成する音韻が格納された音韻データベースと；上記テキスト本文を構成する各記号ごとに，尺度算出部により求められた尺度に基づいて音韻データベースからテキスト音韻を選択する音韻選択部と；韻律予測情報とテキスト本文のうちキーワードを構成する各記号とを基にして上記観測可能な特徴量から上記知覚実験に基づいて定められる尺度にマッピングすることで，該キーワードを構成する各記号の尺度を求めるキーワード尺度算出部と；キーワードを構成する各記号ごとに，キーワード尺度算出部により求められたキーワードを構成する各記号の尺度に基づいて音韻データベースからキーワード音韻を選択するキーワード優先音韻選択部と；上記音韻選択部が選択したテキスト音韻のうちキーワード部分に該当する音韻をキーワード優先音韻選択部が選択したキーワード音韻に置き換える音韻置換部と；音韻を接続し，合成音声を生成する合成部と；を備えることを特徴とした音声合成装置が提供される。

本発明によれば，音声合成装置に備わる音韻選択部がテキスト音韻を選択し，キーワード優先音韻選択部がキーワード音韻を選択し，音韻置換部がテキスト音韻のうち該当する部分をキーワード音韻に置き換える。かかる構成によれば，音韻選択部がテキスト音韻を選択するのとは別途独立して，キーワード尺度算出部がキーワードを構成する各記号と韻律予測情報とを基に尺度を計算し，その尺度からキーワード優先音韻選択部がキーワード音韻を選択する。したがって，キーワード部分に対象範囲を限定して尺度が求められ音韻が選択されるためキーワード部分の合成音声の自然性が高まり，さらにキーワード部分の合成音声が明瞭となるため当該キーワード部分が強調される。

なお，上記テキスト音韻は，例えば，テキスト本文に構成する各記号ごとに選択された音韻である。上記キーワード音韻は，例えば，テキスト本文中のキーワードを構成する各記号ごとに選択された音韻である。

また，本発明にかかる尺度算出部と音韻選択部とは，別体として構成されるが，かかる例に限定されず，例えば，尺度算出部と音韻選択部とが一体として構成される場合でもよい。

また，本発明にかかるキーワード尺度算出部とキーワード優先音韻選択部と音韻置換部とは，別体として構成されるが，かかる例に限定されず，例えば，キーワード尺度算出部とキーワード優先音韻選択部と音韻置換部とが一体として構成される場合でもよい。

また，上記特徴量は，例えば，音響的な尺度，物理量，言語情報などであり，当該物理量は，例えば，スペクトル，メルケプストラム，ピッチ，音の長さ等であるが，かかる例に限定されない。上記知覚評価量（心理量）は，例えば，局所コスト（又は，局所的な尺度，サブコスト）であるが，かかる例に限定されない。上記特徴量から心理量へのマッピングは，例えば，コスト関数が用いられるが，かかる例に限定されない。

上記キーワードが上記テキスト本文中に２つ以上存在する場合，上記キーワード優先音韻選択部は，該テキスト本文の先頭からキーワードが出現する順に，該キーワード各々に優先順位を付与しその優先順に，または該キーワードに付与した重みを優先順位に変換しその優先順に，上記キーワード音韻を選択するように構成してもよい。

上記キーワードが上記テキスト本文中に２つ以上存在する場合，上記キーワード優先音韻選択部は，上記キーワードを構成する各記号ごとに，上記キーワード尺度算出部により求められた上記キーワードを構成する各記号の尺度と，上記キーワード単位に各々重み付けし該キーワードが出現する順に，該キーワードに重み付けされた値とを基にして上記キーワードを構成する各記号の尺度を求めるように構成してもよい。

上記音韻置換部は，上記キーワード優先音韻選択部により上記キーワード音韻が選択されると逐次，上記音韻選択部が選択した上記テキスト音韻のうち該キーワード部分に該当する音韻を該キーワード音韻に，置き換えるように構成してもよい。

上記音韻置換部は，上記キーワード優先音韻選択部により求められた尺度と上記音韻選択部により求められた尺度とを比較することにより，上記キーワード音韻に置き換えるか否かを判断するように構成してもよい。

上記音韻置換部は，上記キーワード優先音韻選択部により求められた尺度及び上記音韻選択部により求められた尺度の差分値と，所定の閾値とを大小比較することにより，上記キーワード音韻に置き換えるか否かを判断するようにしてもよい。

上記課題を解決するために，本発明の別の観点によれば，テキスト本文を解析し，該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成ステップと；上記韻律予測情報と上記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで，該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと；上記テキスト本文を構成する各記号ごとに，上記尺度算出ステップで求めた尺度に基づいて，収録された音声を構成する１又は２以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと；上記韻律予測情報と上記テキスト本文のうちキーワードを構成する各記号とを基にして上記観測可能な特徴量から上記知覚実験に基づいて定められる尺度にマッピングすることで，該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと；上記キーワードを構成する各記号ごとに，上記キーワード尺度算出ステップで求めた上記キーワードを構成する各記号の尺度に基づいて上記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと；上記音韻選択ステップで選択した上記テキスト音韻のうち上記キーワード部分に該当する音韻を上記キーワード優先音韻選択ステップで選択した上記キーワード音韻に置き換える音韻置換ステップと；上記音韻を接続し，合成音声を生成する合成音声生成ステップとを含むことを特徴とする，音声合成方法が提供される。

また，上記課題を解決するために，本発明の別の観点によれば，テキスト本文を解析し，該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成ステップと；上記韻律予測情報と上記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで，該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと；上記テキスト本文を構成する各記号ごとに，上記尺度算出ステップで求めた尺度に基づいて，収録された音声を構成する１又は２以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと；上記韻律予測情報と上記テキスト本文のうちキーワードを構成する各記号とを基にして上記観測可能な特徴量から上記知覚実験に基づいて定められる尺度にマッピングすることで，該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと；上記キーワードを構成する各記号ごとに，上記キーワード尺度算出ステップで求めた上記キーワードを構成する各記号の尺度に基づいて上記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと；上記音韻選択ステップで選択した上記テキスト音韻のうち上記キーワード部分に該当する音韻を上記キーワード優先音韻選択ステップで選択した上記キーワード音韻に置き換える音韻置換ステップと；上記音韻を接続し，合成音声を生成する合成音声生成ステップとを含んだ音声合成方法をコンピュータに実行させることを特徴とする，コンピュータプログラムが提供される。

上記課題を解決するために，本発明の別の観点によれば，漢字仮名文字で表現されたテキスト本文を韻律予測情報に変換し，上記韻律予測情報に応じて，各音韻単位で，最適な音韻の候補を，観測可能な特徴量から，心理量へマッピングを行ったコスト関数を用いた，コスト計算（又は，尺度計算）により，収録音声が保持されるコーパス（音韻データベース）から選択，決定し，選択した音韻に対応する波形セグメント（波形データ）を接続することで，合成波形を得る音声合成装置において，予め定めた特定語（キーワード）に対して，独立にコスト再計算を行うことで，最適な音韻の候補を再決定する，キーワード優先音韻選択部を備えた音声合成装置が提供される。

上記キーワード優先音韻選択部において，予め定めた特定語（キーワード）に対して，独立に行ったコスト再計算の結果，各特定語（キーワード）部分の，合成音の自然性の高さを示す，コスト値を比較することで，音韻候補の組合せを選択するように構成してもよい。

上記キーワード優先音韻選択部において，予め定めた特定語（キーワード）が２つ以上存在する際，テキスト本文の先頭から，特定語（キーワード）が出現する順に，キーワード優先音韻選択部を作用させる，あるいは，複数の特定語（キーワード）に優先順位を付与し，優先順に，キーワード優先音韻選択部を作用させる，あるいは，複数の特定語（キーワード）に重みを付与し，特定語（キーワード）が出現する順に，重み付きコスト再計算を行う，あるいは，複数の特定語（キーワード）に付与した重みを，優先順位に変換し，優先順に，キーワード優先音韻選択部を作用させるようにしてもよい。

上記キーワード優先音韻選択部において，初回に，漢字仮名文字で表現された，テキスト本文全体で選択した音韻候補の組合せの，特定語（キーワード）部分を，特定語（キーワード）が出現する順に，あるいは，優先順に，あるいは，重みを付与してコスト再計算したコスト値を比較した結果から生じる順に，各特定語（キーワード）に対して，キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに，置き換えるようにしてもよい。

上記キーワード優先音韻選択部において，初回に，漢字仮名文字で表現された，テキスト本文全体で選択した音韻候補の組合せの，特定語（キーワード）部分を，各特定語（キーワード）に対して，キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに，置き換えるかどうかを判断する手段を追加した，キーワード優先音韻選択部を備えるように構成してもよい。

上記初回に，漢字仮名文字で表現された，テキスト本文全体で選択した音韻候補の組合せの，特定語（キーワード）部分を，各特定語（キーワード）に対して，キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに，置き換えるかどうかを判断する手段を追加した，キーワード優先音韻選択部において，漢字仮名文字で表現された，テキスト本文中の特定語（キーワード）部分に対して，初回に，テキスト文全体の音韻候補を選択する際に求めた特定語（キーワード）部分のコスト（又は，尺度）を取得し，キーワード優先音韻選択部を作用させることで求めたコスト値との大小を判定し，置き換えの必要の際は，キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに，置き換えるように構成してもよい。

以上説明したように，本発明によれば，テキスト本文を構成する各記号の尺度を求めてテキスト音韻を選択するのとは独立して，テキスト本文内のキーワードを構成する各記号の尺度を別途に求めてキーワード音韻を選択し，上記テキスト音韻のキーワード部分の音韻をキーワード音韻に置換することで，キーワード部分を明瞭に強調することができる。

以下，本発明の好適な実施の形態について，添付図面を参照しながら詳細に説明する。なお，以下の説明及び添付図面において，略同一の機能及び構成を有する構成要素については，同一符号を付することにより，重複説明を省略する。

（音声合成装置について）
まず，図１を参照しながら，第１の実施の形態にかかる音声合成装置１００について説明する。なお，図１は，第１の実施の形態にかかる音声合成装置の概略的な構成を示すブロック図である。

図１に示すように，音声合成装置１００は，テキスト解析部１０１と，韻律予測部１０３と，音韻選択部１０４と，キーワード優先音韻選択部（又は，音韻置換部）１０７と，コーパス（又は，音韻データベース）１０９と，音韻接続部１１１とを備えている。

なお，本実施の形態にかかるテキスト解析部１０１と韻律予測部１０３とは別体である場合を例に挙げて説明するが，かかる例に限定されず，例えば，テキスト解析部１０１と韻律予測部１０３が，韻律予測情報生成部として一体に構成される場合等でも実施可能である。

上記テキスト解析部１０１は，図１に示すように，漢字仮名文字で表現されたテキスト本文を，音韻記号に変換する。なお，音韻とは，例えば，音素記号で表されるような分節可能な単位を示すが，かかる例に限定されない。

より具体的には，上記テキスト解析部１０１は，例えば，漢字仮名文字で表現されたテキスト本文に対して，形態素解析，係り受け解析を行い，アクセント記号列と，テキスト本文の品詞情報を表す形態素解析結果とを出力する。

上記韻律予測部１０３は，テキスト解析部１０１により変換されたテキスト本文の音韻記号と，テキスト解析部１０１から出力されるアクセント記号列と，上記テキスト解析部１０１による形態素解析結果から得られるテキスト本文の品詞情報とを用いて，ピッチ（声の高さ：基本周波数Ｆ_０）と，音韻継続時間長（声の長さ）と，波形の成分を表現するメルケプストラムとを予測する。また，メルケプストラム等の詳細については，例えば，特開２００３−２０８１８８に記載されている。

上記音韻選択部１０４は，韻律予測部１０３で予測した上記ピッチと上記音韻継続時間長とメルケプストラムとを，音韻選択処理のパラメータとして，コーパス１０９から音韻を選択する。なお，コーパス１０９は，例えば，話者やピッチ等が異なる音声を複数収録し，その収録された音声を構成する１又は２以上の音韻が少なくとも格納された音韻データベースであって，ハードディスクドライブ（ＨＤＤ）等の記憶手段に記憶されている。

上記音韻を選択する処理では，上記音韻選択部１０４は，知覚的特性に一致した尺度（以下，コスト）を使用する。また，観測可能な特徴量（物理量など）から，知覚実験に基づいて定められるコスト（又は，知覚評価量（心理量））にマッピングを行ったコスト関数は，例えば，韻律に関するサブコストと，ピッチの不連続に関するサブコストと，音韻環境代替に関するサブコストと，スペクトルの不連続に関するサブコストと，音韻の適合性に関するサブコストとの重み付けされた５つのサブコスト関数を足し合わせた，関数として構成される（なお，詳細については，例えば，特開２００３−２０８１８８，参照）。

なお，上記特徴量は，例えば，音響的な尺度，物理量，言語情報などであり，当該物理量は，例えば，スペクトル，メルケプストラム，ピッチ，音の長さ，リズム（音の高低など）等であるが，かかる例に限定されない。上記心理量は，例えば，局所コスト（又は，局所的な尺度，サブコスト）であるが，かかる例に限定されない。上記特徴量から心理量へのマッピングは，例えば，コスト関数が用いられる。なお，上記コスト関数から求まるコスト値が最小となればなるほど，合成音の自然性が高くなる傾向がある。

また，本実施形態に係るコスト関数は，聴覚上の印象を反映する必要があるため，知覚実験に基づいて定められる。上記知覚実験が行われるのは，物理量がどれくらい変化したら，音質が劣化するのか把握するのが困難なためである。知覚実験は，例えば，被験者がテキストを読み上げた合成音声を聞き，その自然性を５段階（例えば，１段階「不自然」〜５段階「自然音声と遜色なし」）で評価するが，かかる例に限定されない。

上記音韻選択部１０４は，テキスト本文の音韻に対して，音韻の適合性に関するサブコスト値と，音韻環境代替に関するサブコスト値と，韻律に関するサブコスト値とを，コーパス１０９を用いて取得し，上記３つのサブコスト値を足し合わせた，最小のサブコスト値（以下，ターゲットコスト値）から，ある程度の幅を持たせた値の範囲内に含まれる，音韻を候補としてターゲット選択する。

図４に示すように，音韻選択部１０４は，ターゲット選択で求めた音韻候補をもとに，テキスト本文の開始位置（例えば，図４に示す本文開始）から，テキスト本文の終了位置（例えば，図４に示す本文終了）まで，ターゲットコスト値と，ピッチの不連続に関するサブコスト値と，スペクトルの不連続に関するサブコスト値とを，足し合わせたコスト値が最小となる音韻候補の組合せを，動的計画法を用いて選択する。なお，図４は，本実施の形態にかかる音韻選択処理の概略の一例を示す説明図である。

図４に示すように，まず最上段に図示された本文開始から本文終了までの音韻記号（又は，記号）の列は，例えば，テキスト解析部１０１により出力された音韻記号の列であり，図４の最上段から一段下の段に図示された音韻記号の列は，例えば，音韻選択部１０４によりコストが求められコーパス１０９から選択された音韻（又は，テキスト音韻）の列であり，それから一段下の段に図示された列は，キーワード優先音韻選択部１０７によりキーワード部分についてコストが求められコーパス１０９から選択された音韻（又は，キーワード音韻）の列であり，図４の最下段の列は，例えば，音韻選択部１０４により選択された音韻（図４の最上段から２段目の音韻）のうちキーワード部分の音韻が，キーワード優先音韻選択部１０７により選択された音韻に置換された音韻の列である。

なお，従来にかかる音韻選択部では，例えば，特開２００１−１００７７５に記載されているように，音素ラベルに対応した音声波形信号の音声セグメントのデータからなる音声波形データベースを記憶しておき，音声波形信号の音声セグメントを連結することによって任意の音素列をつなぎ合わせて音声合成するに際して，音韻選択部は，音声波形データベースに含まれる１対の音素のリストを生成し，その音素リストに基づいて書く１対の音素のリストを生成し，その音素リストに基づいて書く１対の音素に対する韻律的特徴パラメータと音響的特徴パラメータとに関する類似度を計算し，その類似度が所定のしきい値以上であるとき，その各１対の音素のうちの一方の１対の音素に係る音声波形信号の音声セグメントのデータを音声波形データベースから削除して音声データ量を削減していた。

音声合成装置１００の特徴部分である上記キーワード優先音韻選択部１０７は，韻律予測部１０３で予測したピッチと，音韻継続時間長と，メルケプストラムとを，音韻選択処理のパラメータとして，コーパス１０９から音韻を選択する。

上記キーワード優先音韻選択部１０７による音韻を選択する処理では，知覚的特性に一致した尺度（又は，コスト）を使用する。観測可能な特徴量から，心理量にマッピングを行ったコスト関数は，韻律に関するサブコストと，ピッチの不連続に関するサブコストと，音韻環境代替に関するサブコストと，スペクトルの不連続に関するサブコストと，音韻の適合性に関するサブコストとの重み付けされた５つのサブコスト関数を足し合わせた，関数として構成される。なお，詳細については，例えば，特開２００３−２０８１８８等に記載されている。

上記キーワード優先音韻選択部１０７は，テキスト本文の音韻に対して，音韻の適合性に関するサブコスト値と，音韻環境代替に関するサブコスト値と，韻律に関するサブコスト値とを，コーパス１０９を用いて取得し，３つのサブコスト値を足し合わせた最小のサブコスト値（ターゲットコスト値）から，ある程度の幅を持たせた値の範囲内に含まれる，音韻を候補としてターゲット選択する。

図４に示すように，キーワード優先音韻選択部１０７は，ターゲット選択で求めた音韻候補をもとに，テキスト本文内の，ユーザが指定したキーワード開始位置（例えば，図４に示すキーワード開始）からキーワード終了位置（例えば，図４に示すキーワード終了）までの範囲における，ターゲットコスト値と，ピッチの不連続に関するサブコスト値と，スペクトルの不連続に関するサブコスト値とを，各々足し合わせたコスト値が最小となる音韻候補の組合せを，動的計画法を用いて選択する。

なお，上記キーワード開始位置と，キーワード終了位置は，例えば，テキスト本文の開始位置からの音韻数で指定する。例えば，図４に示すように，キーワード（又は，キーワード音韻列）を“ａｏｋｉ”とした場合，キーワード開始位置の“ａ”は，テキスト本文の開始位置“ｈ”からの音韻数で指定することができる。順に“ｏ”，“ｋ”，“ｉ”についても同様に音韻数を指定することができる。

また，キーワード位置の指定方法としては，テキスト本文中のキーワード部分に対してタグ付けする方法と，テキスト本文を一旦テキスト解析し，テキスト本文の音韻列をユーザに表示し，ユーザがキーワード部分をテキスト本文中から指定する方法と，複数のキーワードをあらかじめ保持し，ユーザが上記複数のキーワードの中からキーワードを選択し，選択したキーワードとテキスト本文中で一致する箇所を検索する方法とがある。

また，図４に示すように，キーワードが２つ以上存在する場合，キーワード優先音韻選択部１０７によるキーワード部分に関するコスト値の計算は，例えば，図４に示す本文開始から本文終了に向けて，キーワードの出現順に行われるが，かかる例に限定されず，例えば，上記キーワード部分に関するコスト値の計算は，複数のキーワードに優先順位を付与し，その優先順に従い，コスト値の計算を行う場合，あるいは，複数のキーワードに重みを付与し，キーワードが出現する順に，重み付きコスト再計算を行う場合，あるいは，複数のキーワードに付与した重みを，優先順位に変換し，優先順に従って，コスト値の計算を行う場合等でも実施可能である。

上記キーワード優先音韻選択部１０７は，テキスト本文全体で選択した音韻候補の組合せのうちのキーワード部分に対して，キーワードが出現する順に，優先順に，若しくはキーワードが出現する順に，重みとコスト値とを乗算した重み付きコスト値を求める。

次に，上記キーワード優先音韻選択部１０７は，上記求めた重み付きコスト値各々を比較し，重み付きコスト値の小さい順に，キーワード優先音韻選択した音韻候補の組合せに，置き換える。

上記音韻接続部（又は，合成部）１１１は，例えば，選択された音韻（又は，波形セグメント）を，テキスト本文の開始位置から順に，相互相関法と，補間法とを用いて接続し，合成音声（又は，合成波形）を生成する。当該合成音声が外部に出力されると，利用者はテキスト本文を耳で聞くことができる。

なお，音声合成装置１００は，テキスト本文とキーワードを基にして合成音声を出力することが可能な装置であって，その合成音声を出力することで，テキスト本文を音声にして読み上げることが可能な装置である。より具体的には，音声合成装置１００は，例えば，ＣＰＵ，メモリ，ＨＤＤ（ハードディスクドライブ），マウス等に相当する入力部（図示せず。），液晶ディスプレイ等に相当する表示部（図示せず。）などを備えたＰＣ等を例示することができるが，かかる例に限定されない。

なお，本実施の形態にかかる音声合成装置１００に備わる表示部は，ＣＰＵにより表示可能なように処理された表示画面データと音声データを出力する。また，表示部は，例えば，ＴＶ又は液晶ディスプレイ装置などが例示され，上記双方ともにスピーカーを備えて，静止画像のほか，音声，又は動画像などを出力することが可能である。

上記入力部は，例えば，使用者から操作指示を受けることが可能なマウス，トラックボール，トラックパッド，スタイラスペン，タッチパネル，またはジョイスティックなどのポインティングデバイスや，キーボード，ボタン，スイッチ，レバー等の操作手段と，入力信号を生成してＣＰＵに出力する入力制御回路などから構成されている。

音声合成装置１００のユーザは，この入力部を操作することにより，音声合成装置１００に対して各種のデータを入力したり，キーワードを選択したり，合成音声出力など各種の処理動作を指示したりすることができる。

なお，従来に係る音声合成装置は，例えば，特開平１０−０４９１９３に記載されているように，音声セグメントを記憶する手段と，韻律的特徴パラメータ等を抽出して出力する手段と，韻律的特徴パラメータ等を記憶する手段と，音響的特徴パラメータにおける寄与度を表す重み係数ベクトルを決定する手段と，重み係数ベクトルを記憶する手段と，入力される自然発話文の音素列に対して，目標コストと連結コストとを含むコストが最小となる音素候補の組合せを検索して索引情報を出力する音声単位選択手段と，入力された音声を合成して出力する手段とを備えていた。

また，従来に係る音声合成装置をさらに音質が良くなるように改良した従来に係る音声合成装置は，例えば，特開平２００３−２０８１８８に記載されているように，言語処理部と，韻律パターン生成部と，音素単位選択部と，波形辞書と，音声波形生成部とを備え，上記言語処理部では，形態素解析，係り受け解析が行われ，テキストから，音素記号，アクセント記号等に変換する。上記韻律パターン生成部では，音素記号，アクセント記号列および形態素解析結果から得られる入力テキストの品詞情報を用いて，音素持続時間（声の長さ），基本周波数（声の高さＦ_０），母音中心のパワー（声の大きさ）等の推定を行う。さらに上記音素単位選択部では，物理量と，知覚実験結果から直接求められる心理量とを用いた，コスト関数を使用する。コスト関数は，韻律に関するサブコストと，ピッチの不連続に関するサブコストと，音韻環境代替に関するサブコストと，スペクトルの不連続に関するサブコストと，音韻（又は，音素）の適合性に関するサブコストとの，５つのサブコスト関数から構成される。

また，従来にかかるテキストを読み上げる音声合成装置は，特開平１０−２７４９９９に記載されているように，例えば，テキスト全体からキーワードのコストを求め，音声の話者，音量，音程および話速のうちから任意選択された少なくとも１つを変えることにより，キーワード部分に対する出力音声とその他の部分に対する出力音声とが識別されるように音声信号を生成している。

（音声合成方法について）
図２に示すように，まず，利用者によって入力部が操作されると，例えば，強調させたい１又は２以上のキーワードを含んだテキスト本文と，その強調させたいキーワードの開始位置及びキーワードの終了位置とが入力される（Ｓ２０１）。なお，かかる例に限定されず，例えば，利用者は，キーワードの開始位置からキーワードの終了位置の範囲全てを指定しても良い。

なお，上記ステップＳ２０１において入力されるキーワードの開始位置とキーワードの終了位置とは，例えば，テキスト本文の開始位置からの音韻数に基づいて指定されるが，かかる例に限定されない。

上記ステップＳ２０１において，利用者により指定された強調させたい１又は２以上のキーワードを含んだテキスト本文は，図１に示すテキスト解析部１０１に入力する。

図２に示すように，テキスト解析部１０１は，例えば，漢字仮名文字で表現されたテキスト本文に対してテキスト解析し，音韻記号に変換する（Ｓ２０３）。

テキスト解析部１０１は，上記テキスト本文に対してテキスト解析を行うが，そのテキスト解析は，例えば，形態素解析，係り受け解析などを例示できる。テキスト解析部１０１は，上記テキスト本文に対し形態素解析，係り受け解析を行い，アクセント記号列と，テキスト本文の品詞情報を表す形態素解析結果とを出力する。

なお，第１の実施の形態にかかる音声合成方法では，テキスト本文に対して，テキスト本文から変換された音韻記号と，上記形態素解析結果との情報を持つ出力結果を，例えば，図２に示すように，テキスト本文中間言語とするが，かかる例に限定されない。

ここで，テキスト本文が変換された音韻記号５０１（図３Ａに示すテキスト本文音韻記号）は，例えば，図３Ａに示すように，「ｈａｊｉｍｅ…ｏｋｉ…」となる。

次に，テキスト解析部１０１により出力されたテキスト本文中間言語は，図１に示す韻律予測部１０３に入力する。

図２に示すように，韻律予測部１０３は，ピッチ（声の高さ，基本周波数Ｆ_０），音韻継続時間長（声の長さ）と，基本周波数（声の高さＦ_０）と，波形の成分を表現するメルケプストラムとを，予測する（Ｓ２０７）。

上記ステップＳ２０７で韻律予測部１０３によりピッチ，音韻継続時間長，基本周波数，メルケプストラムとが予測されると，それらの予測した情報を持つ韻律予測情報は，音韻選択部１０４に入力する。

なお，上記韻律予測情報は，例えば，上記ピッチ，音韻継続時間長，基本周波数，またはメルケプストラム等で各音韻記号の特徴量を予測する情報であるが，かかる例に限定されない。

ここで，上記韻律予測情報を説明するために，図３Ａを参照すると，韻律予測情報５０２は，音韻記号５０１毎（図３Ａに示す韻律予測情報５０２の縦方向に図示された“ｈａｊｉｍｅ…ｏｋｉ…”の音韻記号毎）に，音韻の開始時間を表す“ｓｔａｒｔ”と，音韻の継続時間長を表す“ｄｕｒａｔｉｏｎ”と，音韻の１又は２以上のピッチを表す“ｐｉｔｃｈ”と，音韻の１又は２以上のメルケプストラムを表す“Ｍｅｌｃｅｐ”とから少なくとも構成される。

図２に示すように，音韻選択部１０４は，テキスト本文の本文開始位置から，本文終了位置まで，コーパス１０９を用いて，最適な音韻を選択する（Ｓ２１４）。

より具体的にステップＳ２１４について説明すると，音韻選択部１０４は，テキスト本文の音韻に対して，音韻の適合性に関するサブコスト値と，音韻環境代替に関するサブコスト値と，韻律に関するサブコスト値とを，コーパス１０９を用いて取得し，上記３つのサブコスト値を足し合わせた，最小のサブコスト値（ターゲットコスト値）から，ある程度の幅を持たせた値の範囲内に含まれる音韻を候補としてターゲット選択する。

図４に示すように，音韻選択部１０４では，ターゲット選択で求めた音韻候補をもとに，テキスト本文の本文開始位置から，テキスト本文の本文終了位置まで，ターゲットコスト値と，ピッチの不連続に関するサブコスト値と，スペクトルの不連続に関するサブコスト値とを，足し合わせたコスト値が最小となる音韻候補の組合せを，動的計画法を用いて選択する。なお，コスト関数から求まるコスト値が最小となればなるほど，合成音の自然性が高いものとしているが，かかる例に限定されない。

上記音韻選択部１０４によりテキスト本文全体の音韻選択が完了すると（Ｓ２１４），次に，キーワード部分の最適な音韻を選択するために，キーワード優先音韻選択部１０７による処理に移行する（Ｓ２１６，Ｓ２１９）。

ここで，図３Ａを参照すると，図３Ａに示すテキスト本文全体の音韻候補の組合せ５０３には，テキスト本文音韻記号５０１（図３Ａで示す例では，“ｈａｊｉｍｅ…ｏｋｉ…”）の各音韻記号に対応する音韻が，コーパス１０９内に存在するどの音声ファイルで，先頭から何番目に位置する音韻であるかを示す情報が記述されている。テキスト本文全体の音韻候補の組合せ５０３に記述されている情報は，例えば，「音韻記号“ｈ”に対応する音韻は１音声ファイルの先頭から３番目の位置に存在する音韻である」，ことを示している。

さらに，図３Ｂに示すように，キーワード優先音韻選択処理部１０７には，韻律予測情報５０２と，音韻選択部１０４から出力されるテキスト本文全体の音韻候補の組合せ５０３と，ユーザが指定するキーワード位置とが，入力される。

図２に示すように，キーワード優先音韻選択部１０７は，まず，テキスト本文内の最後に出現するキーワードであるかどうかを判定する（Ｓ２１６）。なお，後述する図５に示すステップＳ５０１の処理と上記ステップＳ２１６の処理とは，実質的に同一である。

キーワード優先音韻選択部１０７は，テキスト本文の本文開始位置から出現するキーワードの順に，あるいは，テキスト本文のキーワードに付与された優先順位を基にして優先順に，あるいは，テキスト本文中の１又は２以上のキーワードに付与された重みを優先順位に変換し優先順に，キーワード優先音韻選択処理を行う。そのためには，最後のキーワードであるかどうか図２に示すステップＳ２１６で判定する必要がある。

上記ステップＳ２１６で判定した結果，最後のキーワードでない場合，図２に示すキーワード優先音韻選択処理が行われる。

一方，上記ステップＳ２１６で判定した結果，最後のキーワードである場合，キーワード部分の音韻選択が完了し，波形セグメントを得ることが可能な音韻候補の組合せが決定するので，図１に示す音韻接続部１１１に処理が移行する。

次に，図２に示すように，キーワード優先音韻選択部１０７は，テキスト本文内のキーワード部分から，コーパス１０９を用いて，最適な音韻を選択する（Ｓ２１９）。

ここで，図５を参照しながら，上記キーワード優先音韻選択部１０７によるキーワード優先音韻選択処理（Ｓ２１９）について説明する。図５は，第１の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。

図２に示すキーワード優先音韻選択処理（Ｓ２１９）は，図５に示すように，最後のキーワードか否かを確認する処理（Ｓ５０１）と，キーワードに対してターゲット選択を行う処理（Ｓ５０５）と，キーワードに対してコスト値が最小となる音韻候補の組合せを設定する処理（Ｓ５０９）と，テキスト本文全体の音韻候補の組合せの，キーワード箇所の音韻候補の組合せの置き換え処理（Ｓ５１３）とが含まれている。

上記キーワードに対してターゲット選択を行う処理（Ｓ５０５）では，キーワード部分の音韻に対して，音韻の適合性に関するサブコスト値と，音韻環境代替に関するサブコスト値と，韻律に関するサブコスト値とを，コーパス１０９を用いて取得し，上記３つのサブコスト値を足し合わせた，最小のサブコスト値（ターゲットコスト値）から，ある程度の幅を持たせた値の範囲内に含まれる，音韻を候補としてターゲット選択する。

上記キーワードに対してコスト値が最小となる音韻候補の組合せを設定する処理（Ｓ５０９）では，図４に示すように，ターゲット選択で求めた音韻候補をもとに，テキスト本文内の，ユーザが指定したキーワード開始位置から，キーワード終了位置まで，ターゲットコスト値と，ピッチの不連続に関するサブコスト値と，スペクトルの不連続に関するサブコスト値とを，足し合わせたコスト値が最小となる音韻候補の組合せを，動的計画法を用いて選択する。

キーワード開始位置，キーワード終了位置は，例えば，テキスト本文の本文開始位置からカウントした音韻数によって指定されるが，かかる例に限定されず，例えば，本文終了位置からカウントした音韻数によって指定される場合等でもよい。

上記キーワード位置の指定方法としては，例えば，テキスト本文中のキーワード部分に対してタグ付けする方法，テキスト本文を一旦テキスト解析しテキスト本文中の音韻列をユーザに表示しキーワード部分を指定する方法，または１又は２以上のキーワードをあらかじめ保持しユーザがキーワードを選択したキーワードとテキスト本文中で一致する箇所を検索する方法とがあるが，かかる例に限定されない。

図４に示すように，キーワード音韻候補が２つ以上存在する場合，キーワード部分に関するコスト値の計算は，例えば，テキスト本文の本文開始位置から本文終了位置に向けて，キーワードの出現順に行われる。

なお，本実施の形態にかかる上記キーワード部分に関するコスト値の計算は，本文開始位置から本文終了位置に向けてキーワードの出現順に行う場合に限定されず，例えば，キーワード部分に関するコスト値の計算は，複数のキーワードに優先順位を付与し，優先順に行われる場合等でも実施可能である。

図５に示すように，テキスト本文全体の音韻候補の組合せの，キーワード箇所の音韻候補の組合せの置き換え処理（Ｓ５１３）では，上記図３Ａのテキスト本文全体の音韻候補の組合せ５０３のように，テキスト本文全体で選択した音韻候補の組合せの，キーワード部分に対して，キーワードが出現する順で，あるいは，優先順で，キーワード優先音韻選択した音韻候補の組合せに，置き換える。なお，図５に示すようにステップＳ５１３は，図２に示すステップＳ２１４の音韻選択処理が行われる度に，逐次的に実行され，音韻の置換が行われる。

キーワード部分の音韻候補の組合せの置き換えが完了した後（Ｓ５１３），図２に示すステップＳ２１６と実質的に同一のステップＳ５０１に処理が移行し，最後のキーワードになるまで繰り返して処理が行われる（Ｓ５０５〜Ｓ５１３）。

さらに，図６を参照しながら，第１の実施の形態にかかるキーワード優先音韻選択処理の変形例について説明する。図６は，第１の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。

図６に示すように，キーワード優先音韻選択処理は，最後のキーワードであるか否かを判定する処理（Ｓ５０２）と，キーワードに対してターゲット選択を行う処理（Ｓ５０５）と，コスト値が最小となる音韻候補の組合せを設定し，重み付けコスト値を求める処理（Ｓ５１０）と，テキスト本文全体の音韻候補の組合せの，キーワード箇所の音韻候補の組合せの置き換え処理（Ｓ５２１）とを含んでいる。

図６に示すように，キーワードに対して，コスト値が最小となる音韻候補の組合せを設定し，コスト値と重みを乗算した重み付きコスト値を求める処理（Ｓ５１０）では，上記説明したようにキーワードに対してコスト値が最小となる音韻候補の組合せを設定する。さらに，キーワード部分に関するコスト値の計算（Ｓ５１０）では，１又は２以上のキーワードに重みを付与し，キーワードが出現する順に，重みとコスト値とを乗算する処理が行われる。あるいは，キーワード部分に関するコスト値の計算（Ｓ５１０）では，１又は２以上のキーワードに付与した重みを，優先順位に変換し，優先順に行われる。

次に，図６に示すように，最後のキーワードであるか否かを判定し，判定した結果最後のキーワードである場合（Ｓ５０２），図６の重み付きコスト値の小さい値をもつキーワード順に，テキスト本文全体の音韻候補の組合せの，キーワード箇所の音韻候補の組合せの置き換え処理（Ｓ５２１）に処理が移行する。

図６に示すように，テキスト本文全体の音韻候補の組合せの，キーワード箇所の音韻候補の組合せの置き換え処理（Ｓ５２１）では，テキスト本文全体で選択した音韻候補の組合せの，キーワードが出現する順に，重みとコスト値とを乗算した重み付きコスト値を求め，各々を比較し，重み付きコスト値の小さい順で，キーワード優先音韻選択した音韻候補の組合せに，置き換える。

キーワード部分の音韻候補の組合せの置き換えが完了した後（Ｓ５２１），図１に示す音韻接続部１１１が実行する処理に移行する。

再び図２に戻ると，図２に示すように，音韻接続部１１１によって実行される波形セグメントを接続する処理（Ｓ２２３）は，現在取り扱っている波形セグメントと，次の波形セグメントとを接続する。

音韻接続部１１１によって，全ての波形セグメントの接続が完了すると（Ｓ２２３），図２に示すように，音韻接続部１１１によって接続された波形セグメントは，合成音（又は，合成音声）として出力される（Ｓ２２５）。上記合成音がスピーカ等の出力部から出力されることによって，音声合成装置１００は，テキスト本文のうちキーワード部分を強調しながら読上げることができる。

以上で，第１の実施の形態にかかる音声合成装置１００による音声合成方法の一連の処理について説明を終了するが，かかる音声合成方法によって以下に示すような優れた効果が存在する。
（１）テキスト本文中の強調させたいキーワード位置を予め利用者（ユーザ）が音声合成装置１００に対して指定することで，音声合成装置１００はキーワード部分に対する読上げに関して自然性が高い読上げ（自然な読上げ）をすることができ，出力される合成音の音質が良い上，キーワードの読上げが強調される。

（第２の実施の形態について）
次に，図７を参照しながら，第２の実施の形態にかかる音声合成方法について説明する。なお，以下説明する第２の実施の形態にかかる音声合成方法では，上記説明した第１の実施の形態にかかる音声合成方法と相違する点について詳細に説明し，その他の点については略同一であるとして説明は省略する。

図７は，第２の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。第２の実施の形態にかかる音声合成方法では，図２に示す第１の実施の形態にかかる音声合成方法のうちのキーワード優先音韻選択処理が改良されている点で，異なる。以下，図７を参照しながら説明するが，図７に示す第２の実施の形態にかかるキーワード優先音韻選択処理では，ステップＳ５１１等に示すように，キーワードに対するコスト値をＣ_ｋｅｙとする。

図７のステップＳ５１５に示すように，テキスト本文中のキーワード部分に対して，音韻選択部１０４で求めた，音韻の適合性に関するサブコスト値と，音韻環境代替に関するサブコスト値と，韻律に関するサブコスト値とを，コーパス１０９を用いて取得し，上記３つのサブコスト値を足し合わせた，最小のサブコスト値（ターゲットコスト値）と，ピッチの不連続に関するサブコスト値と，スペクトルの不連続に関するサブコスト値とを，足し合わせたコスト値Ｃ_ｏｒｉｇを取得する。

図７に示すキーワード優先音韻選択処理では，ステップＳ５１７に示すように，キーワードに対するコスト値をＣ_ｋｅｙと，テキスト本文中のキーワード部分で，音韻選択部１０４で求めたコスト値Ｃ_ｏｒｉｇとの差分をとり，その差分値と閾値（Ｔｈｒｅｓｈｏｌｄ）に対する大小を判定する。なお，本実施の形態に係る閾値は音声合成方法の使用環境などに応じて適宜変更することが可能である。

（音声合成方法について）
図２に示すように，第２の実施の形態にかかる音声合成方法では，まず，第１の実施の形態にかかる音声合成方法と同様に，例えば，強調させたい１又は２以上のキーワードを含んだテキスト本文と，その強調させたいキーワードの開始位置と，キーワードの終了位置とを，利用者が入力する（Ｓ２０１）。なお，かかる例に限定されず，例えば，利用者は，キーワードの開始位置からキーワードの終了位置の範囲全てを指定しても良い。

次に，第２の実施の形態にかかる音声合成方法では，図２に示すようにテキスト解析部１０１は，例えば，漢字仮名文字で表現されたテキスト本文に対してテキスト解析し，音韻記号に変換する（Ｓ２０３）。

テキスト解析部１０１は，上記漢字仮名文字などで表現されたテキスト本文に対し，例えば，形態素解析，係り受け解析を行い，アクセント記号列と，テキスト本文の品詞情報を表す形態素解析結果とを出力する。

なお，第２の実施の形態にかかる音声合成方法では，テキスト本文に対して，テキスト本文から変換された音韻記号と，上記形態素解析結果との情報を持つ出力結果を，例えば，テキスト本文中間言語とするが，かかる例に限定されない。

ここで，第１の実施の形態にかかる音声合成方法においても説明したが，テキスト本文が変換された音韻記号５０１（図３Ａに示すテキスト本文音韻記号）は，例えば，図３Ａに示すように，「ｈａｊｉｍｅ…ｏｋｉ…」となる。

上記韻律予測部１０３により予測（Ｓ２０７）した情報（例えば，ピッチ，音韻継続時間長，基本周波数，メルケプストラム）を持つ韻律予測情報を，音韻選択部１０４に入力する。

ここで，第１の実施の形態にかかる音声合成方法でも説明したが，図３Ａを参照すると，韻律予測情報５０２は，音韻記号５０１の音韻記号毎（図３Ａに示す韻律予測情報５０２の縦方向に図示された“ｈａｊｉｍｅ…ｏｋｉ…”の音韻記号毎）に，音韻の開始時間を表す“ｓｔａｒｔ”と，音韻の継続時間長を表す“ｄｕｒａｔｉｏｎ”と，音韻の１又は２以上のピッチを表す“ｐｉｔｃｈ”と，音韻の１又は２以上のメルケプストラムを表す“Ｍｅｌｃｅｐ”とから少なくとも構成される。

上記ステップＳ２１４について，第１の実施形態でも説明したが，より具体的に説明すると，音韻選択部１０４は，テキスト本文の音韻に対して，音韻の適合性に関するサブコスト値と，音韻環境代替に関するサブコスト値と，韻律に関するサブコスト値とを，コーパス１０９を用いて取得し，上記３つのサブコスト値を足し合わせた，最小のサブコスト値（ターゲットコスト値）から，ある程度の幅を持たせた値の範囲内（例えば，ターゲットコスト値に±５を加算した値の範囲内）に含まれる，音韻を候補としてターゲット選択する。

図４に示すように，音韻選択部１０４では，ターゲット選択で求めた音韻候補をもとに，テキスト本文の本文開始位置からテキスト本文の本文終了位置までの範囲について，ターゲットコスト値と，ピッチの不連続に関するサブコスト値と，スペクトルの不連続に関するサブコスト値とを，足し合わせたコスト値が最小となる音韻候補の組合せを，動的計画法を用いて選択する。なお，コスト関数から求まるコスト値が最小となればなるほど，合成音の自然性が高くなる傾向がある。

上記テキスト本文全体の音韻選択が完了すると（Ｓ２１４），次に，キーワード部分の最適な音韻を選択するために，キーワード優先音韻選択部１０７による処理に移行する（Ｓ２１６，Ｓ２１９）。

図３Ａに示すように，テキスト本文全体の音韻候補の組合せ５０３には，テキスト本文音韻記号５０１（図３Ａで示す例では，“ｈａｊｉｍｅ…ｏｋｉ…”）の各音韻記号に対応する音韻が，コーパス１０９内に存在するどの音声ファイルで，先頭から何番目に位置する音韻であるかを示す情報が記述されている。

図２に示すように，キーワード優先音韻選択部１０７は，第１の実施の形態でも説明したが，テキスト本文内の最後に出現するキーワードであるかどうかを判定する（Ｓ２１６）。

キーワード優先音韻選択部１０７は，テキスト本文の本文開始位置から出現するキーワード順に処理を行う，あるいは，テキスト本文のキーワードに付与された優先順位をもとに優先順に処理を行う，あるいは，テキスト本文中の１又は２以上のキーワードに付与された重みを優先順位に変換し優先順に処理を行う必要がある。そのためには，最後のキーワードであるかどうか図２に示すステップＳ２１６で判定する必要がある。

次に，図２に示すように，キーワード優先音韻選択処理（Ｓ２１９）は，テキスト本文内のキーワード部分から，コーパス１０９を用いて，最適な音韻を選択する処理である。

ここで，図７を参照しながら，第２の実施の形態にかかるキーワード優先音韻処理（Ｓ２１９）について説明する。図７は，第２の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。

図７に示すように，キーワード優先音韻選択処理（Ｓ２１９）は，最後のキーワードか否かを確認する処理（Ｓ５０１）と，キーワードに対してターゲット選択を行う処理（Ｓ５０５）と，キーワードに対してコスト値Ｃ_ｋｅｙが最小となる音韻候補の組合せを設定する処理（Ｓ５１１）と，テキスト本文中のキーワード部分で音韻選択部１０４で求めたコスト値Ｃ_ｏｒｉｇを取得する処理（Ｓ５１５）と，Ｃ_ｋｅｙ−Ｃ_ｏｒｉｇ＞ｔｈｒｅｓｈｏｌｄの関係が成立するか否かを検証する処理（Ｓ５１７）と，テキスト本文全体の音韻候補の組合せのキーワード箇所の音韻候補の組合せの置き換える処理（Ｓ５１３）との処理が，行われる。なお，最後のキーワードか否かを確認する処理（Ｓ５０１）は，上記説明のステップＳ２１６と実質的に同一である。

図７に示すように，キーワードに対して，ターゲット選択を行う処理（Ｓ５０５）では，キーワード部分の音韻に対して，音韻の適合性に関するサブコスト値と，音韻環境代替に関するサブコスト値と，韻律に関するサブコスト値とを，コーパス１０９を用いて取得し，上記３つのサブコスト値を足し合わせた，最小のサブコスト値（ターゲットコスト値）から，ある程度の幅を持たせた値の範囲内に含まれる，音韻を候補としてターゲット選択する。

図７に示すキーワードに対してコスト値Ｃ_ｋｅｙが最小となる音韻候補の組合せを設定する処理（Ｓ５１１）では，図４に示すように，ターゲット選択で求めた音韻候補（又は，音韻選択）をもとに，テキスト本文内の，ユーザが指定したキーワード開始位置から，キーワード終了位置まで，ターゲットコスト値と，ピッチの不連続に関するサブコスト値と，スペクトルの不連続に関するサブコスト値とを，足し合わせたコスト値が最小となる音韻候補の組合せを，動的計画法を用いて選択する。

キーワード開始位置，キーワード終了位置は，例えば，テキスト本文の本文開始位置からカウントした音韻数によって，指定することができるが，かかる例に限定されず，例えば，本文終了位置からカウントした音韻数によって指定される場合等でもよい。

上記キーワード位置（キーワード開始位置〜キーワード終了位置）の指定方法としては，テキスト本文中のキーワード部分に対してタグ付けする方法と，テキスト本文を一旦テキスト解析しテキスト本文中の音韻列をユーザに表示しキーワード部分を指定する方法と，１又は２以上のキーワードをあらかじめ保持しユーザがキーワードを選択しその選択したキーワードとテキスト本文中で一致する箇所を検索する方法とがある。

図４に示すように，キーワード音韻候補が２つ以上存在する場合，キーワード部分に関するコスト値の計算は，例えば，テキスト本文の本文開始位置から本文終了位置に向けて，キーワードの出現順に行われる，あるいは，キーワード部分に関するコスト値の計算は，１又は２以上のキーワードに優先順位を付与し，優先順に行われる，あるいは，図８に示すように，キーワード部分に関するコスト値の計算は，１又は２以上のキーワードに重みを付与し，キーワードが出現する順に，重みとコスト値とを乗算する処理が行われる，あるいは，キーワード部分に関するコスト値の計算は，複数のキーワードに付与した重みを，優先順位に変換し，優先順に行われる。

図７に示すように，テキスト本文中のキーワード部分について音韻選択部１０４で求めたコスト値Ｃ_ｏｒｉｇを取得する処理（Ｓ５１５）では，テキスト本文中のキーワード部分に対して，音韻選択部１０４で求めた，音韻の適合性に関するサブコスト値と，音韻環境代替に関するサブコスト値と，韻律に関するサブコスト値とを，コーパス１０９を用いて取得し，上記３つのサブコスト値を足し合わせた，最小のサブコスト値（ターゲットコスト値）と，ピッチの不連続に関するサブコスト値と，スペクトルの不連続に関するサブコスト値とを，足し合わせたコスト値Ｃ_ｏｒｉｇを取得する。

上記コスト値Ｃ_ｏｒｉｇは，テキスト本文中のキーワード部分の範囲から求められたサブコスト値を基にして求められるコスト値であるのに対して，コスト値Ｃ_ｋｅｙは，テキスト本文の本文開始位置から本文終了位置までの範囲から求められたサブコスト値を基にして求められるキーワード部分のコスト値である。即ち，双方のコスト値Ｃ_ｏｒｉｇとコスト値Ｃ_ｋｅｙは，例えば，上記３つのサブコスト値を求めるための音韻の対象範囲が異なっている。上記コスト値Ｃ_ｏｒｉｇの方が，どちらかと言えばキーワード部分を構成する１又は２以上の音韻が本来兼ね備えている声質などの特質を直接的に数値に表現される傾向がある。

図７に示すように，Ｃ_ｋｅｙ−Ｃ_ｏｒｉｇ＞ｔｈｒｅｓｈｏｌｄの関係であるか判定する処理（Ｓ５１７）では，キーワードに対するコスト値をＣ_ｋｅｙと，テキスト本文中のキーワード部分で，音韻選択部１０４で求めたコスト値Ｃ_ｏｒｉｇとの差分をとり，ある閾値（Ｔｈｒｅｓｈｏｌｄ）に対して，大小を判定する。

上記大小判定した結果，差分値が，ある閾値（Ｔｈｒｅｓｈｏｌｄ）より大きい場合であって，上記不等式の関係を保つ場合，図７に示すテキスト本文全体の音韻候補の組合せの，キーワード箇所の音韻候補の組合せの置き換え（Ｓ５１３）に処理が移行する。

上記求めた差分値が，ある閾値（Ｔｈｒｅｓｈｏｌｄ）以下の場合，図７に示す最後のキーワードであるか否かを判定する処理が行われる（Ｓ５０１）。

図７に示すように，テキスト本文全体の音韻候補の組合せの，キーワード箇所の音韻候補の組合せの置き換え（Ｓ５１３）では，テキスト本文全体で選択した音韻候補の組合せの，キーワード部分に対して，キーワード優先音韻選択部１０７によりキーワード優先音韻選択した音韻候補の組合せに，置き換える。つまり，キーワード個所の音韻は，キーワード優先音韻選択部１０７によりキーワード優先音韻選択した音韻が採用され，その音韻が後述の合成音として出力されることとなる。

また，第２の実施の形態にかかる音声合成方法では，キーワード優先音韻選択部１０７により選択された音韻の方が合成音として出力した際により一層クリアに明快に読み上げられるように閾値（Ｔｈｒｅｓｈｏｌｄ）が定められ，置換処理（Ｓ５１３）が行われるようにする。

ここで，図８を参照しながら，第２の実施の形態にかかるキーワード優先音韻選択処理の変形例について説明する。図８は，第２の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。

図８に示すように，キーワード優先音韻選択処理（Ｓ２１９）は，最後のキーワードであるか否かを判定する処理（Ｓ５０１）と，キーワードに対して，ターゲット選択を行う処理（Ｓ５０９）と，キーワードに対してコスト値Ｃ_ｋｅｙが最小となる音韻候補の組合せを設定する処理（Ｓ５１１）と，テキスト本文中のキーワード部分で音韻選択部１０４が求めたコスト値に重みを乗算したＣ_ｏｒｉｇを取得する処理（Ｓ５１６）と，最後のキーワードか否かを判定する処理（Ｓ５０２）と，Ｃ_ｋｅｙ−Ｃ_ｏｒｉｇ＞ｔｈｒｅｓｈｏｌｄの関係であるか判定する処理（Ｓ５１７）と，テキスト本文全体の音韻候補の組合せを，キーワード箇所の音韻候補の組合せに置き換える処理（Ｓ５１３）とを含んでいる。

図８に示すように，第２の実施の形態にかかるキーワード優先音韻選択処理（Ｓ２１９）は，図７に示す第２の実施の形態にかかるキーワード優先音韻選択処理と比べて，上記ステップＳ５１５の代わりにステップＳ５１６を含む点，さらに上記ステップＳ５０２を含む点で異なる。

図８のステップＳ５１６では，テキスト本文中のキーワード部分に対して，音韻選択部１０４で求めた，音韻の適合性に関するサブコスト値と，音韻環境代替に関するサブコスト値と，韻律に関するサブコスト値とを，コーパス１０９を用いて取得し，上記３つのサブコスト値を足し合わせた，最小のサブコスト値（ターゲットコスト値）と，ピッチの不連続に関するサブコスト値と，スペクトルの不連続に関するサブコスト値とを，足し合わせたコスト値Ｃ_ｏｒｉｇを取得する。

また，図８のステップＳ５１６では，キーワードが出現する順に，重みと上記で求めたコスト値とを乗算した重み付きコスト値を求め，各々を比較し，重み付きコスト値を取得する。

また，図８に示すように，テキスト本文中のキーワード部分で，音韻選択部１０４で求めたコスト値に重みを乗算したＣ_ｏｒｉｇを取得する処理（Ｓ５１６）では，テキスト本文中のキーワード部分に対して，音韻選択部１０４で求めた，音韻の適合性に関するサブコスト値と，音韻環境代替に関するサブコスト値と，韻律に関するサブコスト値とを，コーパスを用いて取得し，３つのサブコスト値を足し合わせた，最小のサブコスト値（ターゲットコスト値）と，ピッチの不連続に関するサブコスト値と，スペクトルの不連続に関するサブコスト値とを，足し合わせたコスト値Ｃ_ｏｒｉｇを取得し，コスト値Ｃ_ｏｒｉｇと，複数のキーワードに付与された重みとを，キーワードが出現する順に乗算し，重み付きコスト値Ｃ_ｏｒｉｇを求める。

図８に示すように，最後のキーワードであるか否かを判定する処理（Ｓ５０２）では，例えば，各キーワードで求められた，重み付きコスト値Ｃ_ｏｒｉｇを比較し，小さい重み付きコスト値を保持しているキーワード順で，テキスト本文内の最後に出現するキーワードであるかどうかを判定する。

上記判定の結果（Ｓ５０２），最後のキーワードでない場合，図８に示す「Ｃ_ｋｅｙ−Ｃ_ｏｒｉｇ＞ｔｈｒｅｓｈｏｌｄ」の関係について検証する処理（Ｓ５１７）に移行する。

一方，上記判定の結果（Ｓ５０２），最後のキーワードである場合，キーワード部分の音韻選択が完了し，波形セグメントを得ることが可能な音韻候補の組合せが決定するので，音韻接続部１１１によって行われる処理に移行する。

第１の実施の形態にかかる音声合成方法にて説明したように，図２に示すように，音韻接続部１１１によって実行される波形セグメントを接続する処理（Ｓ２２３）は，現在取り扱っている波形セグメントと，次の波形セグメントとを接続する。

音韻接続部１１１によって，全ての波形セグメントの接続が完了すると（Ｓ２２３），図２に示すように，音韻接続部１１１によって接続された波形セグメントは，合成音（又は，合成音声）として出力される（Ｓ２２５）。上記合成音がスピーカ等の出力部から出力されることによって，音声合成装置１００は，テキスト本文のうちキーワードを強調しながら読上げることができる。

以上で，第２の実施の形態にかかる音声合成方法について説明を終了するが，かかる音声合成方法によって，以下に示すような優れた効果が存在する。
（１）テキスト本文中の強調させたいキーワードの部分を，何の評価もせずに，キーワード優先音韻選択部１０７で選択した音韻の候補に置き換えるのではなく，キーワード部分に対して，音韻選択部１０４で求めたコスト値Ｃ_ｋｅｙとキーワード優先音韻選択部１０７で求めたコスト値Ｃ_ｏｒｉｇとを比較し，置き換えの必要の際は，キーワード優先音韻部１０７が選択した音韻候補の組合せに置き換えることで，キーワード部分のより自然性が高い読上げを可能とし，音質がよく，キーワードの読上げを強調させることができる。

なお，上述した一連の処理は，専用のハードウェアにより行うこともできるし，ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には，そのソフトウェアを構成するプログラムが，汎用のコンピュータやマイクロコンピュータ等の情報処理装置にインストールされ，上記情報処理装置を音声合成装置１００として機能させる。

上記プログラムは，コンピュータに内蔵されている記録媒体としてのハードディスクドライブ（ＨＤＤ）やＲＯＭに予め記録しておくことができる。

あるいはまた，プログラムは，ハードディスクドライブに限らず，フレキシブルディスク，ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＭＯ（ＭａｇｎｅｔｏＯｐｔｉｃａｌ）ディスク，ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ），磁気ディスク，半導体メモリなどのリムーバブル記録媒体に，一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は，いわゆるパッケージソフトウエアとして提供することができる。

なお，プログラムは，上述したようなリムーバブル記録媒体からコンピュータにインストールする他，ダウンロードサイトから，ディジタル衛星放送用の人工衛星を介して，コンピュータに無線で転送したり，ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ），インターネットといったネットワークを介して，コンピュータに有線で転送し，コンピュータでは，そのようにして転送されてくるプログラムを受信し，内蔵するハードディスクドライブにインストールすることができる。

ここで，本明細書において，コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは，必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく，並列的あるいは個別に実行される処理（例えば，並列処理あるいはオブジェクトによる処理）も含むものである。

また，プログラムは，１のコンピュータにより処理されるものであっても良いし，複数のコンピュータによって分散処理されるものであっても良い。

以上，添付図面を参照しながら本発明の好適な実施形態について説明したが，本発明はかかる例に限定されない。当業者であれば，特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例を想定し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。

上記実施の形態においては，テキスト解析部１０１と韻律予測部１０３とは別体である場合を例に挙げて説明したが，本発明はかかる例に限定されない。例えば，テキスト解析部１０１と韻律予測部１０３とが，一体に構成される場合等でも実施可能である。

本発明は，テキスト本文を読み上げるための音声を合成することが可能な音声合成装置，音声合成方法，およびコンピュータプログラムに適用可能である。

第１の実施の形態にかかる音声合成装置の概略的な構成を示すブロック図である。第１の実施の形態にかかる音声合成装置による音声合成方法の概略を示すフローチャートである。本実施の形態にかかる音韻記号，韻律予測情報，およびテキスト本文全体の音韻候補の組合せの概略を示す説明図である。本実施の形態にかかる音声合成装置におけるデータの流れを概略的に示す説明図である。本実施の形態にかかる音韻を選択する処理の概略の一例を示す説明図である。第１の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。第１の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。第２の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。第２の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。

符号の説明

１００音声合成装置
１０１テキスト解析部
１０３韻律予測部
１０４音韻選択部
１０７キーワード優先音韻選択部
１０９コーパス
１１１音韻接続部

Claims

テキスト本文を解析し，該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成部と；
前記韻律予測情報と前記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで，該テキスト本文を構成する各記号の尺度を求める尺度算出部と；
収録された音声を構成する１又は２以上の音韻が格納された音韻データベースと；
前記テキスト本文を構成する各記号ごとに，前記尺度算出部により求められた尺度に基づいて前記音韻データベースからテキスト音韻を選択する音韻選択部と；
前記韻律予測情報と前記テキスト本文のうちキーワードを構成する各記号とを基にして前記観測可能な特徴量から前記知覚実験に基づいて定められる尺度にマッピングすることで，該キーワードを構成する各記号の尺度を求めるキーワード尺度算出部と；
前記キーワードを構成する各記号ごとに，前記キーワード尺度算出部により求められた前記キーワードを構成する各記号の尺度に基づいて前記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択部と；
前記音韻選択部が選択した前記テキスト音韻のうち前記キーワード部分に該当する音韻を前記キーワード優先音韻選択部が選択した前記キーワード音韻に置き換える音韻置換部と；
前記音韻を接続し，合成音声を生成する合成部と；
を備えることを特徴とする，音声合成装置。
前記キーワードが前記テキスト本文中に２つ以上存在する場合，前記キーワード優先音韻選択部は，該テキスト本文の先頭からキーワードが出現する順に，該キーワード各々に優先順位を付与しその優先順に，または該キーワードに付与した重みを優先順位に変換しその優先順に，前記キーワード音韻を選択することを特徴とする，請求項１に記載の音声合成装置。
前記キーワードが前記テキスト本文中に２つ以上存在する場合，前記キーワード優先音韻選択部は，前記キーワードを構成する各記号ごとに，前記キーワード尺度算出部により求められた前記キーワードを構成する各記号の尺度と，前記キーワード単位に各々重み付けし該キーワードが出現する順に，該キーワードに重み付けされた値とを基にして前記キーワードを構成する各記号の尺度を求めることを特徴とする，請求項１に記載の音声合成装置。
前記音韻置換部は，前記キーワード優先音韻選択部により前記キーワード音韻が選択されると逐次，前記音韻選択部が選択した前記テキスト音韻のうち該キーワード部分に該当する音韻を該キーワード音韻に，置き換えることを特徴とする，請求項１，２，または３項のいずれかに記載の音声合成装置。
前記音韻置換部は，前記キーワード優先音韻選択部により求められた尺度と前記音韻選択部により求められた尺度とを比較することにより，前記キーワード音韻に置き換えるか否かを判断することを特徴とする，請求項１又は４に記載の音声合成装置。
前記音韻置換部は，前記キーワード優先音韻選択部により求められた尺度及び前記音韻選択部により求められた尺度の差分値と，所定の閾値とを比較することにより，前記キーワード音韻に置き換えるか否かを判断することを特徴とする，請求項１，４，または５項のいずれかに記載の音声合成装置。
テキスト本文を解析し，該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成ステップと；
前記韻律予測情報と前記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで，該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと；
前記テキスト本文を構成する各記号ごとに，前記尺度算出ステップで求めた尺度に基づいて，収録された音声を構成する１又は２以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと；
前記韻律予測情報と前記テキスト本文のうちキーワードを構成する各記号とを基にして前記観測可能な特徴量から前記知覚実験に基づいて定められる尺度にマッピングすることで，該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと；
前記キーワードを構成する各記号ごとに，前記キーワード尺度算出ステップで求めた前記キーワードを構成する各記号の尺度に基づいて前記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと；
前記音韻選択ステップで選択した前記テキスト音韻のうち前記キーワード部分に該当する音韻を前記キーワード優先音韻選択ステップで選択した前記キーワード音韻に置き換える音韻置換ステップと；
前記音韻を接続し，合成音声を生成する合成音声生成ステップと；
を含むことを特徴とする，音声合成方法。
テキスト本文を解析し，該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成ステップと；
前記韻律予測情報と前記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで，該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと；
前記テキスト本文を構成する各記号ごとに，前記尺度算出ステップで求めた尺度に基づいて，収録された音声を構成する１又は２以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと；
前記韻律予測情報と前記テキスト本文のうちキーワードを構成する各記号とを基にして前記観測可能な特徴量から前記知覚実験に基づいて定められる尺度にマッピングすることで，該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと；
前記キーワードを構成する各記号ごとに，前記キーワード尺度算出ステップで求めた前記キーワードを構成する各記号の尺度に基づいて前記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと；
前記音韻選択ステップで選択した前記テキスト音韻のうち前記キーワード部分に該当する音韻を前記キーワード優先音韻選択ステップで選択した前記キーワード音韻に置き換える音韻置換ステップと；
前記音韻を接続し，合成音声を生成する合成音声生成ステップと；
を含んだ音声合成方法をコンピュータに実行させることを特徴とする，コンピュータプログラム。