JP4586615B2

JP4586615B2 - 音声合成装置，音声合成方法およびコンピュータプログラム

Info

Publication number: JP4586615B2
Application number: JP2005113806A
Authority: JP
Inventors: 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2005-04-11
Filing date: 2005-04-11
Publication date: 2010-11-24
Anticipated expiration: 2025-04-11
Also published as: JP2006293026A; US20060229874A1

Description

本発明は，音声合成装置，音声合成方法およびコンピュータプログラムに関する。

予め録音された人の自然音声から，所望の単語や文章を読み上げる音声を作成する音声合成装置が一般に知られている。そのような音声合成装置は，品詞単位に分割可能な自然音声が記録されている音声コーパスに基づいて合成音声の作成を行う。音声合成装置による音声合成処理の一例を説明する。まず，入力されたテキストについて形態素解析，係り受け解析を実行し，音素記号，アクセント記号等に変換する。次に，音素記号，アクセント記号列および形態素解析結果から得られる入力テキストの品詞情報を用いて，音素持続時間（声の長さ）基本周波数（声の高さ），母音中心のパワー（声の大きさ）等の推定を行う。推定された音素持続時間，基本周波数，母音中心のパワー等に最も近く，かつ波形辞書に蓄積されている合成単位（音素片）を接続したときの歪みが最も小さくなる合成単位の組み合わせを動的計画法を用いて選択する。なお，この際に行う単位選択では，知覚的特徴に一致した尺度（コスト値）を用いる。その後，選択された音素片の組み合わせに従って，ピッチを変換しつつ音素片の接続を行うことにより音声を生成する。

しかし，上記のような従来の音声合成装置では，読み上げ口調の文章の合成において十分な品質の合成音声を作成することは難しかった。そこで，読み上げ文章の合成を対象とし，より高品質な合成音声を作成できる音声合成装置が提案されている（例えば，特許文献１参照）。

特開２００３−２０８１８８号公報

しかし，上記文献に記載の音声合成装置を含め，従来の音声合成装置は，合成音声の元となる自然音声について，合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することはできなかった。

そこで，本発明は，このような問題に鑑みてなされたもので，その目的とするところは，合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することが可能な音声合成装置，音声合成方法およびコンピュータプログラムを提供することにある。

上記課題を解決するために，本発明のある観点によれば，予め録音された音声を用いて，文章を読み上げる音声を作成する音声合成装置において：複数の話者の音声を話者ごとに記憶する音声記憶部と；音声から特定される，話者の発話に関する特徴を示す話者特徴情報を，話者ごとに記憶する特徴情報記憶部と；文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定部と：読み上げ特徴指定部により指定された読み上げ特徴情報と，特徴情報記憶部に記憶されている話者特徴情報とに基づいて，読み上げ特徴指定部により指定された特徴に対する話者の発話に関する特徴の類似の程度を導出する照合部と；照合部により導出された類似の程度に基づいて，読み上げ特徴指定部により指定された特徴と類似する特徴をもつ話者の音声を音声記憶部から取得し，該音声に基づいて文章を読み上げる合成音声を作成する音声合成部と：を備える音声合成装置が提供される。

発話に関する特徴には，話し方に関する特徴，音声の特徴などが含まれる。文章読み上げ時は，音声合成装置において作成された合成音声によって，文章が読み上げられる時である。従って，文章読み上げ時の発話に関する特徴には，合成音声の特徴と，合成音声により文章が読み上げられる際の話し方が含まれる。

上記発明によれば，複数の話者の音声が話者ごとに音声記憶部に記憶されているため，音声合成部は，合成音声を作成する際に複数の話者の音声を用いることができる。音声合成部が採用する音声は，照合部の照合結果に基づいて決定される。照合部は，照合結果として，読み上げ特徴指定部が指定した特徴に対する話者の発話に関する特徴の類似の程度を導出する。つまり，音声合成部が採用する音声は，その音声の発話元である話者の発話に関する特徴が，文章読み上げ時の発話の特徴として指定された特徴と類似する程度に基づいて，決定される。その結果，上記発明によれば，読み上げ特徴情報の指定に応じて，合成音声の作成の際に採用される自然音声が変更される。従って，例えば読み上げ特徴情報の指定をユーザの入力に基づいて行えば，合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することができる。また，読み上げ特徴情報の指定を所定の条件に応じて行えば，同じ文章の読み上げに対しても状況に応じて異なる自然音声を用いて合成音声を作成することができる。

上記音声合成装置は，読み上げ特徴情報を複数記憶し，各々に識別情報が付与されている読み上げ情報記憶部と；識別情報を入力される読み上げ特徴入力部と；を備え，
読み上げ特徴指定部は，読み上げ特徴入力部に入力された識別情報に基づいて，該識別情報に対応する読み上げ特徴情報を読み上げ情報記憶部から取得するようにしてもよい。かかる構成によれば，読み上げ特徴情報の指定をユーザの入力に基づいて行うため，合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することができる。また，ユーザは，識別情報を入力すれば済むため，簡単に読み上げ特徴情報を指定することができる。

上記音声合成装置は，照合部により導出された類似の程度に基づいて，所定の条件を満たす複数の話者を選択する話者選択部を備えてもよい。その場合，音声合成部は，話者選択部によって選択された複数の話者の各々の音声に基づいて複数の合成音声を作成してもよい。そして，上記音声合成装置は，音声合成部によって作成された複数の合成音声から合成音声の自然性の程度を示す値に基づいて合成音声を選択する合成音声選択部を備えてもよい。かかる構成によれば，音声合成部は，音声選択部が選択した複数の話者の各々の音声を用いて複数の合成音声を作成し，作成された複数の合成音声から，合成音声の自然性を示す値に基づいて，１または２以上の合成音声が合成音声選択部により選択される。つまり，文章読み上げ時の発話に関する特徴との類似の程度と，実際に作成された合成音声の自然性とに基づいて，文章の読み上げに使用される合成音声が決定される。音声記憶部に記憶されている各話者の音声のデータ量や種類によって，同じ話者の音声を用いて合成音声を作成した場合でも読み上げる文章によっては合成音声の自然性等の品質が異なる可能性がある。そこで，読み上げる文章に応じて，合成音声作成時に採用する音声を変えることが好ましい。上記構成により，文章読み上げ時の発話に関する特徴をユーザが指定すれば，ユーザの希望に沿った（またはユーザの希望に近い）特徴を持つ合成音声であり，かつ，自然性が高く品質の良い合成音声を，文章の読み上げのために作成することができる。

上記音声合成装置は，読み上げ情報記憶部に記憶されている読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と，音声記憶部に記憶されている音声から特定される話者の発話に関する特徴と，の類似度を記憶する類似度記憶部と；読み上げ特徴指定部により指定された読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と，話者選択部により選択された複数の話者の発話に関する特徴との類似度を，類似度記憶部から取得する類似度取得部と；照合部により導出された類似の程度に基づいて，所定の条件を満たす複数の話者を選択する話者選択部と；を備えてもよい。その場合，音声合成部は，話者選択部によって選択された複数の話者の各々の音声に基づいて複数の合成音声を作成してもよい。そして，音声合成部によって作成された複数の合成音声から，合成音声の自然性の程度を示す値および類似度取得部により取得された類似度に基づいて合成音声を選択する合成音声選択部をさらに備えてもよい。かかる構成によれば，照合部により導出される，文章読み上げ特徴と各話者の特徴との類似の程度と，類似度記憶部に記憶されている類似度に基づいて，合成音声作成時に採用する音声が決定される。そのため，文章読み上げ時の特徴をユーザが指定した場合，作成される合成音声の特徴がユーザの希望に沿っている可能性を高めることができる。

上記合成音声選択部は，自然性の程度を示す値および類似度に重み付けをしてもよい。かかる構成により，作成する合成音声のユーザの希望との類似度と自然性とのバランスを調整することができる。

上記類似の程度は，話者特徴情報と読み上げ特徴情報との誤差を算出することによって導出され，上記所定の条件は，誤差が所定の値以下であるように構成されてもよい。

上記文章を入力する文章入力部を備えてもよい。かかる構成により，読み上げ対象の文章をユーザが指定することができる。

上記読み上げ特徴情報および話者特徴情報には，発話を特徴付ける複数の項目と，項目ごとに設定される特徴に応じた数値が含まれてもよく，上記音声合成装置は，発話を特徴づける複数の項目を表示画面に表示させ，各項目に対するユーザからの設定値を受け付ける読み上げ特徴入力部を備えてもよい。かかる構成により，文章読み上げ時の特徴をユーザが自由に指定することができる。

上記課題を解決するために，本発明の別の観点によれば，コンピュータに上記音声合成装置として機能させるコンピュータプログラムが提供される。また，上記音声合成装置により実現可能な音声合成方法も提供される。

以上説明したように本発明によれば，合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することが可能な音声合成装置，音声合成方法およびコンピュータプログラムを提供することができる。

以下に添付図面を参照しながら，本発明の好適な実施の形態について詳細に説明する。なお，本明細書及び図面において，実質的に同一の機能構成を有する構成要素については，同一の符号を付することにより重複説明を省略する。

（第１実施形態）
本発明の第１実施形態にかかる音声合成装置１０について説明する。音声合成装置１０は，ユーザから文章をテキスト入力されるとともに，その文章を読み上げる際の発話に関する特徴をユーザから指定されて，ユーザから指定された特徴に近い特徴を持ち，かつ，自然性が高く品質の良い合成音声によりユーザから入力された文章を読み上げる。音声合成装置１０は，ハードディスク，ＲＡＭ（ＲａｎｄａｍＡｃｃｅｓｓＭｅｍｏｒｙ），ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の記憶手段と，音声合成装置１０が行う処理を制御するＣＰＵ，ユーザからの入力を受け付ける入力手段，情報の出力を行う出力手段などを備える。また，外部のコンピュータと通信を行う通信手段を備えても良い。音声合成装置１０としては，パーソナルコンピュータ，電子辞書，カーナビゲーションシステム，携帯電話，音声を発するロボットなどを例示できる。

図１に基づいて，音声合成装置１０の機能構成について説明する。音声合成装置１０は，読み上げ特徴入力部１０２と，読み上げ特徴指定部１０４と，照合部１０６と，話者選択部１０８と，音声合成部１１０と，合成音声選択部１１２と，文章入力部１１４と，合成音声出力部１１６と，読み上げ情報記憶部１１８と，特徴情報記憶部１２０と，音声記憶部１２２などを備える。

音声記憶部１２２は，複数の話者の音声を話者ごとに記憶している。音声には，単語や文章を各話者が読み上げた時の音声が多数含まれている。換言すると，音声記憶部１２２には，いわゆる音声コーパスが複数話者分格納されている。音声記憶部１２２は，話者を識別する識別子と，その話者の音声コーパスとを関連付けて記憶している。なお，同一人物により発せられた音声であっても，話し方や音声の特徴が全く異なる場合には，各々別の話者として記憶されてもよい。

ＨＭＭ記憶部１２４は，韻律予測に用いる隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，以後，ＨＭＭと称する。）を，複数話者分記憶している。ＨＭＭ記憶部１２４は，話者を識別する識別子と，その話者のＨＭＭとを関連付けて記憶している。識別子は，音声記憶部１２２において各話者に付与されている識別子と対応しており，後述の音声合成部１１０は，識別子により対応付けられている音声コーパスとＨＭＭとを用いて合成音声の作成を行う。

特徴情報記憶部１２０は，音声記憶部１２２に記憶されている音声から特定される，話者の発話に関する特徴を示す話者特徴情報を話者ごとに記憶している。話者の発話に関する特徴には，話者の話し方の特徴や，話者から発せられる音声の特徴などが含まれる。話者の話し方の特徴としは，例えば，イントネーションや言い回し，話す早さ等が挙げられる。音声の特徴としては，例えば，声の高さや，音声から受ける印象等が挙げられる。特徴情報記憶部１２０の記憶内容について，図３を参照して具体的に説明する。

図３に示すように，特徴情報記憶部１２０に記憶されている項目としては，Ｉｎｄｅｘ１２００，話者１２０１，感情１２０２，読みの早さ１２０３，態度１２０４，性別１２０５，年齢１０２６，方言１２０７などを例示できる。Ｉｎｄｅｘ１２００には，話者を識別する識別子が格納される。この識別子は，音声記憶部１２２に記憶されている識別子と対応しており，音声記憶部１２２に記憶されている音声コーパスと話者特徴情報とを当該識別子によって紐付けることができる。話者１２０１には，話者を特定する情報が格納され，例えば，Ｉｎｄｅｘ１２００に格納された識別子と関連付けられている音声コーパスが，誰の音声であるのかがわかるように話者の名前を格納する。

感情１２０２から方言１２０７は，話者の発話に関する特徴を示す話者特徴情報の例である。各項目は複数のサブ項目をもち，サブ項目間のバランスにより，その項目における話者の特徴を表す。例えば，感情１２０２は，平常，喜び，怒り，悲しみの４つのサブ項目をもつ。「感情」は，音声記憶部１２２に記憶されている話者の音声から聞き手が受ける印象に基づき，推定される話者の発話時の感情を，話者の発話に関する特徴の１項目としたものである。話者の発話時の感情は，上記４つのサブ項目のバランスによって表現される。例えば，コーパス１に対応する音声は，その音声を聞いた聞き手が，この話者はある程度平常心で話しているけれども，少し喜びが入っており，かつ，その喜びよりも微妙に多く悲しみが混ざっているという印象を受けることを，サブ項目である平常，喜び，悲しみの各項目に振り分けられた数値（平常＝０．５，喜び＝０．２，悲しみ＝０．３）により示している。

読みの早さ１２０３は，早い，通常，遅いの３つのサブ項目をもつ。「読みの早さ」は，音声記憶部１２２に記憶されている話者の音声に基づき，その話者の読み上げの早さ，換言すると，話者の話す速度を，話者の発話に関する特徴の１項目としたものである。読みの早さは，上記３つのサブ項目のバランスによって表現される。例えば，コーパス２に対応する音声について，この音声（に対応する話者）によって文章が読み上げられる時の読み上げの早さはほぼ通常だけれども少し遅い場合もあるということを，サブ項目である通常，遅いの各項目に振り分けられた数値（通常＝０．８，遅い＝０．２）により示している。

態度１２０４は，温かい，冷たい，丁寧，謙虚の４つのサブ項目をもつ。「態度」は，音声記憶部１２２に記憶されている話者の音声から聞き手が受ける印象に基づいて，推定される話者の発話時の態度を，話者の発話に関する特徴の１項目としたものである。話者の発話時の態度は，上記４つのサブ項目のバランスによって表現される。例えば，コーパス１に対応する音声は，その音声を聞いた聞き手が，この話者の発話時の態度，具体的には例えば話し方は，温かく，丁寧で謙虚であるという印象を受けることを，サブ項目である温かい，丁寧，謙虚の各項目に振り分けられた数値（温かい＝０．４，丁寧＝０．３，謙虚＝０．３）により示している。

性別１２０５は，男性，女性の２つのサブ項目をもつ。「性別」は，音声記憶部１２２に記憶されている話者の音声から聞き手が受ける印象に基づいて，話者の話し方や声のトーンが男性寄りであるか，女性寄りであるかを，話者の発話に関する特徴の１項目としたものである。例えば，コーパス２に対応する音声は，その音声を聞いた聞き手が，この話者の声のトーンは男性だけれども，話し方が少し女性っぽいという印象を受けることを，サブ項目である男性，女性の各項目に振り分けられた数値（男性＝０．７，女性＝０．３）により示している。

年齢１２０６は，１０代，２０代，３０代，４０代の４つのサブ項目をもつ。「年齢」は，音声記憶部１２２に記憶されている話者の音声から聞き手が受ける印象に基づいて，推定される話者の年齢を，話者の発話に関する特徴の１項目としたものである。例えば，コーパス１に対応する音声は，その音声を聞いた聞き手が，この話者の話し方から推定すると話者は２０代だけれども，声質から推定すると１０代の可能性もあるという印象を受けることを，サブ項目である１０代，２０代の各項目に振り分けられた数値（１０代＝０．３，２０代＝０．７）により示している。

方言１２０７は，標準語，関西弁，東北弁の３つのサブ項目をもつ。「方言」は，音声記憶部１２２に記憶されている話者の音声，特にそのイントネーションや使用されている言葉の種類から，話者の方言を，話者の発話に関する特徴の１項目としたものである。例えば，コーパス３に対応する音声は，この音声（に対応する話者）によって文章が読み上げられる時のイントネーションなどは，概ね関西弁であるが完全な関西弁ではなく少し標準語が混じっているということを，サブ項目である標準語，関西弁の各項目に振り分けられた数値（標準語＝０．２，関西弁＝０．８）により示している。

上記の各項目，およびサブ項は一例に過ぎず，任意の項目やサブ項目を設定可能である。また，上記のように項目毎にサブ項目を設けて，サブ項目のバランスにより特徴を示すのではなく，例えば，項目毎に０〜１０のいずれかの数値を格納することにより特徴を示してもよい。具体的には例えば，項目として「読みの速度が早い」を設け，非常に早い場合に１０を，非常に遅い場合に０を格納し，その間の早さの程度を１〜９の数値を格納することにより，特徴を示すようにしてもよい。以上，特徴情報記憶部１２０について詳細に説明した。

図１に戻る。読み上げ情報記憶部１１８は，読み上げ特徴情報を複数記憶している。複数の読み上げ特徴情報の各々には識別子が付与されている。読み上げ特徴情報は，文章読み上げ時の発話に関する特徴を示す。上述の特徴情報記憶部１２０には，音声記憶部１２２に記憶されている話者の音声に対応する，各話者の発話に関する特徴の情報が記憶されている。それに対し，読み上げ情報記憶部１１８に記憶されている発話に関する特徴の情報は，合成音声出力部１１６により合成音声が出力される際に，その合成音声が備えていることが望まれる特徴の情報が格納される。読み上げ情報記憶部１１８の記憶内容を，図２を参照して説明する。

図２に示すように，読み上げ情報記憶部１１８に記憶されている項目としては，Ｉｎｄｅｘ１１８０，話者１１８１，感情１１８２，読みの早さ１１８３，態度１１８４，性別１１８５，年齢１１８６，方言１１８７などを例示できる。Ｉｎｄｅｘ１１８０には，読み上げ特徴情報を識別する識別子が格納される。読み上げ者１１８１には，読み上げ特徴情報を特定する情報が格納される。この情報は，読み上げ情報記憶部１１８に記憶されているいずれかの読み上げ特徴情報をユーザに指定させる場合に利用されてもよい。その場合，読み上げ者１１８１に，読み上げ特徴情報がどのようなものであるのかをユーザが容易に推定できるような名称を格納しておく。具体的には，例えばＩｎｄｅｘ＝０により識別される読み上げ特徴情報が，あるアニメの主人公の発話に関する特徴を示すものである場合，読み上げ者１１８１にはそのアニメの主人公の名前を格納する。そして，読み上げ特徴情報をユーザに指定させる際に，上記アニメの主人公の名前を指定可能にすれば，ユーザは文章読み上げ時の合成音声が概ねどのような特徴をもつのかを認識して読み上げ特徴情報を指定することができる。なお，読み上げ特徴情報をユーザに指定させる場合に，Ｉｎｄｅｘ１１８０に格納されている識別子を用いても構わない。

感情１１８２から方言１１８７は，読み上げ時の発話に関する特徴を示す読み上げ特徴情報の例である。各項目は複数のサブ項目をもち，サブ項目間のバランスにより，その項目における話者の特徴を表す。項目およびサブ項目の種類は，特徴情報記憶部１２０に記憶されているものと対応している。なお，全てが対応していなくても構わない。各項目やサブ項目の意味は，特徴情報記憶部１２０において説明したものと同様であるため，説明を省略する。以上，読み上げ情報記憶部１１８について詳細に説明した。

上記読み上げ情報記憶部１１８，特徴情報記憶部１２０および音声記憶部１２２は，音声合成装置１０が備える記憶手段に格納されている。

図１に戻り，音声合成装置１０の機能構成についての説明を続ける。読み上げ特徴入力部１０２は，ユーザにより読み上げ特徴情報を入力される。本実施形態では，読み上げ特徴情報として，読み上げ情報記憶部１１８に記憶されているいずれかの読み上げ特徴情報に対応する識別情報を入力される。識別情報は，上述のように読み上げ者の名称であってもよいし，Ｉｎｄｅｘ（識別子）であってもよい。読み上げ特徴入力部１０２は，入力された識別情報を読み上げ特徴指定部１０４に提供する。

読み上げ特徴指定部１０４は，読み上げ特徴入力部１０２から取得した識別情報に基づいて，その識別情報に対応する読み上げ特徴情報を読み上げ情報記憶部１１８から抽出する。その際に読み上げ特徴指定部１０４は，読み上げ特徴情報として，読み上げ情報記憶部１１８に記憶されている全ての項目（感情１１８２〜方言１１８７）を抽出してもよいし，一部（例えば，読みの早さ１１８３と方言１１８７のみ等）を抽出してもよい。抽出する項目をユーザが読み上げ特徴入力部１０２から指定できるようにしてもよい。読み上げ特徴指定部１０４は，抽出した読み上げ特徴情報を照合部１０６に提供する。

照合部１０６は，読み上げ特徴指定部１０４から読み上げ特徴情報を取得し，取得した読み上げ特徴情報と特徴情報記憶部１２０に記憶されている話者特徴情報との照合を行う。照合部１０６は，照合を行うことにより，読み上げ特徴情報と複数の話者特徴情報の各々との類似の程度を導出する。具体的には，特徴情報間の誤差を求めることにより，類似の程度を導出することができる。特徴情報間の誤差は，例えば下記のような最小２乗法の式で求めることができる。

読み上げ特徴情報の各サブ項目の値：Ｕ_平常，Ｕ_喜び，Ｕ_悲しみ，・・Ｕ_温かい，・・Ｕ_東北弁
話者特徴情報の各サブ項目の値：Ｃ_平常，Ｃ_喜び，Ｃ_悲しみ，・・Ｃ_温かい，・・Ｃ_東北弁
誤差＝（Ｕ_平常−Ｃ_平常）^２＋（Ｕ_喜び−Ｃ_喜び）^２＋（Ｕ_悲しみ−Ｃ_悲しみ）^２＋・・＋（Ｕ_温かい−Ｃ_温かい）^２＋・・＋（Ｕ_東北弁−Ｃ_東北弁）^２

また，類似の程度を重視する項目と，そうでない項目とを算出結果に反映させるため，上記式の各項目に重み付けを行ってもよい。照合部１０６は，導出した類似の程度，具体的には上記式により算出した結果を，話者特徴情報の識別子（Index１２００）とともに話者選択部１０８に提供する。なお，照合部１０６は，特徴情報記憶部１２０に記憶されている全ての話者の話者特徴情報について，読み上げ特徴情報との照合を行ってもよいし，性別や年齢によりフィルタリングするなどして，一部の話者の話者特徴情報について照合を行うようにしてもよい。

話者選択部１０８は，照合部１０６から取得した類似の程度に基づいて，複数の話者を選択する。具体的には，話者選択部１０８は，照合部１０６から，話者特徴情報の複数の識別子と，各識別子に対応する算出結果である誤差を取得し，所定の条件に基づいて，２以上の話者特徴情報を選択する。所定の条件は，例えば，誤差が所定の範囲内であること，とすることができる。また，誤差が小さい順に所定数まで，とすることもできる。話者選択部１０８は，選択した話者特徴情報の識別子を音声合成部１１０に提供する。

文章入力部１１４は，合成音声により読み上げさせる文章（一文のみや単語のみの場合も含む）を入力され，入力された文章を音声合成部１１０に提供する。文章は，キーボードなどの入力手段を介してユーザにより入力されてもよいし，他のコンピュータ等から通信手段を介して入力されてもよい。また，フレキシブルディスクやＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）などの外部記録媒体に記録されているテキスト文を読み取ることにより入力されてもよい。

音声合成部１１０は，話者選択部１０８によって選択された複数の話者の各々の音声に基づいて複数の合成音声を作成する。具体的には，音声合成部１１０は，話者選択部１０８から話者特徴情報の複数の識別子を取得し，取得した識別子に対応するＨＭＭに基づいて話者毎に韻律を生成し，生成した話者毎の韻律に対応する音韻波形を各話者の音声コーパスから選択し，接続することで，文章入力部１１４から取得した文章を読み上げる合成音声を作成する。より詳細には，音声合成部１１０は，以下の処理によって合成音声を作成する。

１．入力された文章に対して形態素解析，係り受け解析を行い，漢字仮名文字で表現された文章を，音韻記号とアクセント記号等に変換する。
２．音韻記号とアクセント記号列，および形態素解析結果から得られる文章の品詞情報に基づき，音声記憶部１２２に記憶されている音声から構築されたＨＭＭ記憶部１２４に記憶されている統計的に学習されたＨＭＭを用いて，特徴点である音韻継続時間長，基本周波数およびメルケプストラム等の推定を行う。
３．コスト関数により算出されたコスト値に基づいて，文章の先頭からコスト値が最小となる合成単位（音素片）の組み合わせを，動的計画法を用いて選択する。
４．上記で選択した音素片の組み合わせに従って，音素片の接続を行い，合成音声を作成する。

上記コスト関数は，韻律に関するサブコスト，ピッチの不連続に関するサブコスト，音韻環境代替に関するサブコスト，スペクトルの不連続に関するサブコスト，および音韻の適合性に関するサブコストの５つのサブコスト関数から構成され，合成音声の自然性の程度を求めるものである。コスト値は，上記５つのサブコスト関数から算出されるサブコスト値に重み係数を乗算して足し合わせた値であり，合成音声の自然性の程度を示す値の一例である。コスト値が小さいほど，合成音声の自然性が高い。なお，音声合成部１１０は，合成音声の自然性の程度を示す値が算出される方法であれば，上記とは異なる方法により合成音声を作成しても構わない。

音声合成部１１０は，作成した複数の合成音声と，各合成音声のコスト値を合成音声選択部１１２に提供する。

合成音声選択部１１２は，音声合成部１１０から取得した複数の合成音声から，合成音声の自然性の程度を示す値に基づいて，出力する合成音声を選択する。具体的には，合成音声部１１２は，音声合成部１１０から複数の合成音声と，各合成音声のコスト値を取得し，最小のコスト値をもつ合成音声を，出力する合成音声として選択し，選択した合成音声を合成音声出力部１１６に提供する。

合成音声出力部１１６は，合成音声選択部１１２から取得した合成音声を出力する。合成音声の出力により，文章入力部１１４に入力された文章が，合成音声により読み上げられる。

以上，音声合成装置１０の機能構成について説明した。なお，上記のように，全ての機能が１つのコンピュータに備えられて音声合成装置１０として動作してもよいし，各機能が複数のコンピュータに分散されて備えられ，全体で１つの音声合成装置１０として動作するようにしてもよい。

次に，図４に基づいて，音声合成装置１０により実行される音声合成処理の流れについて説明する。まず，読み上げ対象の文章が文章入力部１１４に入力され，読み上げ者（読み上げ特徴情報の識別情報）が読み上げ特徴入力部１０２を介して選択される（Ｓ１０２）。読み上げ特徴指定部１０４が，Ｓ１０２で選択された読み上げ者に対応する読み上げ特徴情報を読み上げ情報記憶部１１８から取得する（Ｓ１０４）。次に，照合部１０６が，読み上げ特徴情報と，特徴情報記憶部１２０に記憶されている話者特徴情報との照合を行う（Ｓ１０６）。次いで，話者選択部１０８が，Ｓ１０６の照合結果に基づいて複数の話者を選択する（Ｓ１０８）。次に，音声合成部１１０が，Ｓ１０８で選択された話者の音声コーパスとＨＭＭに基づいて，Ｓ１０２で入力された文章を読み上げる合成音声を作成する（Ｓ１１０）。そして，合成音声選択部１１２が，Ｓ１１０で作成された複数の合成音声からコスト値に基づいて１つの合成音声を選択する（Ｓ１１２）。最後に，合成音声出力部１１６が，Ｓ１１２で選択された合成音声を出力する（Ｓ１１４）。

以上，音声合成処理の流れについて説明した。本実施形態にかかる音声合成装置１０を上記構成にすることにより，合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することができる。また，読み上げる文章に応じて，合成音声作成時に採用する音声を変えることができる。その結果，ユーザの希望に沿った（またはユーザの希望に近い）特徴を持つ合成音声であり，かつ，自然性が高く品質の良い合成音声を，文章の読み上げのために作成することができる。

（第２実施形態）
本発明の第２実施形態にかかる音声合成装置２０について説明する。音声合成装置２０は，ユーザから文章をテキスト入力されるとともに，その文章を読み上げる際の発話に関する特徴をユーザから指定されて，ユーザから指定された特徴に近い特徴を持ち，かつ，自然性が高く品質の良い合成音声によりユーザから入力された文章を読み上げる。さらに音声合成装置２０は，より確実にユーザからの指定に近い特徴をもつ合成音声により文章を読み上げる。音声合成装置２０のハードウェア構成は，第１実施形態にかかる音声合成装置１０とほぼ同様であるため，説明を省略する。

図５に基づいて，音声合成装置２０の機能構成について説明する。音声合成装置２０は，読み上げ特徴入力部１０２と，読み上げ特徴指定部１０４と，照合部１０６と，話者選択部１０８と，類似度取得部２０２と，音声合成部１１０と，合成音声選択部２１２と，文章入力部１１４と，合成音声出力部１１６と，読み上げ情報記憶部１１８と，特徴情報記憶部１２０と，類似度記憶部２０４と，音声記憶部１２２などを備える。第１実施形態にかかる音声合成装置１０と同様の機能を有するものについては，同一の符号を振り，説明を省略する。

類似度記憶部２０４は，読み上げ情報記憶部１１８に記憶されている読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と，音声記憶部１２２に記憶されている音声から特定される話者の発話に関する特徴との類似度を記憶している。類似度記憶部２０４の記憶内容を，図６を参照して詳細に説明する。

図６に示すように，類似度記憶部２０４に記憶されている項目としては，話者２０４０，読み上げ者２０４１および類似度２０４２などを例示できる。話者２０４０には，特徴情報記憶部１２０内の項目である話者１２０１と同様に，話者を特定する情報が格納される。また，その話者を特徴情報記憶部１２０内で一意に識別している識別子（Ｉｎｄｅｘ１２００）も格納される。読み上げ者２０４１には，読み上げ情報記憶部１１８内の項目である読み上げ者１１８１と同様に，読み上げ特徴情報を特定する情報が格納される。また，その読み上げ者を読み上げ情報記憶部１１８内で一意に識別している識別子（Ｉｎｄｅｘ１１８０）も格納される。

類似度２０４２には，話者２０４０に格納されている識別情報に対応する話者（音声コーパス）の発話時の特徴と，読み上げ者２０４１に格納されている識別情報に対応する読み上げ者の読み上げ時の発話の特徴との類似度が格納される。図示のように，各話者に対して，読み上げ情報記憶部１１８内の全ての読み上げ者との類似度が格納されることが望ましい。類似度は，読み上げ情報記憶部１１８内の各読み上げ者のモデルとなっている話者（例えば，あるアニメの主人公など）の話し方や声と，音声記憶部１２２に記憶されている各話者の音声コーパスの音声とに基づいて，聞き手により予め判断された類似度であってよい。また，両者の音声を解析等することにより求められた類似度であってもよい。図示の例によれば，０．０〜１．０の数値により類似度を示しており，１．０が全く似ていない，０．０が非常に似ていることを表す。

図５に戻り，音声合成装置２０の機能構成についての説明を続ける。類似度取得部２０２は，読み上げ特徴指定部１０４により指定された読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と，話者選択部１０８により選択された複数の話者の発話に関する特徴との類似度を，類似度記憶部２０４から取得する。具体的には，類似度取得部２０２は，話者選択部１０８から，選択した話者の識別情報（Ｉｎｄｅｘ）を取得し，読み上げ特徴指定部１０４から読み上げ者の識別情報（Ｉｎｄｅｘ）を取得する。そして，取得した話者の識別情報と読み上げ者の識別情報とに基づいて類似度記憶部２０４を参照し，該当する類似度を取得する。類似度取得部２０２は，取得した類似度と，その類似度に対応する話者の識別情報とを合成音声選択部２１２に提供する。

合成音声選択部２１２は，音声合成部１１０から，音声合成部１１０により作成された複数の合成音声と，各合成音声の元となった音声コーパスを識別する識別情報（話者のＩｎｄｅｘ）と，各合成音声に対応するコスト値を取得し，類似度取得部２０２から，類似度取得部２０２によって類似度記憶部２０４から抽出された各話者の類似度を取得する。そして，合成音声選択部２１２は，取得したコスト値と類似度とに基づいて，複数の合成音声から１つの合成音声を選択する。本実施形態において，コスト値は小さいほど自然性が高く，類似度は数値が小さいほど類似度が高い。そこで，合成音声選択部２１２は，各話者について，コスト値の数値と類似度の数値とを足した値を求め，その値が最小となる話者の音声により作成された合成音声を，出力する合成音声として選択する。

また，合成音声選択部２１２は，コスト値と類似度とに重み付けを行った後に，重み付けされたコスト値の数値と類似度の数値とを足した値を求めてもよい。Ｉｎｄｅｘ＝１の話者のコスト値が０．１，類似度が０．６であり，Ｉｎｄｅｘ＝２の話者のコスト値が０．５，類似度が０．１である場合を例に挙げて説明する。コスト値と類似度を単に足した値が最小となる話者を選択する場合は，Ｉｎｄｅｘ＝１の話者の値は０．７であり，Ｉｎｄｅｘ＝２の話者の値は０．６であるため，Ｉｎｄｅｘ＝２の話者が選択される。一方，重み付けとして，コスト値に０．８の重み係数をつけ，類似度に０．２の重み係数をつけて，重み付け後のコスト値と類似度を足した値が最小となる話者を選択する場合には，Ｉｎｄｅｘ＝１の話者の値は０．２０となり，Ｉｎｄｅｘ＝２の話者の値は０．４２となって，Ｉｎｄｅｘ＝１の話者が選択される。合成音声選択部２１２が上記の如く重み付けを行うことにより，合成音声の自然性と類似度の各々をどの程度重視して合成音声を出力するのかを調節することができる。

以上，音声合成装置２０の機能構成について，第１実施形態と異なる部分を中心に説明した。次に，図７に基づいて，音声合成装置２０によって実行される音声合成処理の流れについて説明する。

音声合成処理の流れで，第１実施形態と同様の部分については説明を省略する。図７には，第１実施形態では実行されない処理について記載している。図７のＳ２１１にかかる処理は，第１実施形態における音声合成処理の流れを示した図４のＳ１１０の処理の後に行われる。図７のＳ２１２にかかる処理は，図４のＳ１１２にかかる処理に代わって実行される。

Ｓ２１１で，類似度取得部２０２が，Ｓ１０８において話者選択部１０８によって選択された各話者と読み上げ者との類似度を，類似度記憶部２０４から取得する（Ｓ２１１）。そして，合成音声選択部１１２が，Ｓ１１０において音声合成部１１０によって作成された複数の合成音声から，コスト値と類似度に基づいて１つの合成音声を選択する（Ｓ２１２）。

なお，Ｓ２１１にかかる処理は，図４のＳ１０８の後でＳ１１０の前に実行されても構わない。以上，音声合成装置２０によって実行される音声合成処理の流れについて説明した。

本実施形態にかかる音声合成装置２０を上記構成にすることにより，合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することができる。また，読み上げる文章に応じて，合成音声作成時に採用する音声を変えることができる。その結果，ユーザの希望に沿った（またはユーザの希望に近い）特徴を持つ合成音声であり，かつ，自然性が高く品質の良い合成音声を，文章の読み上げのために作成することができる。さらに，文章読み上げ特徴と各話者の特徴との類似の程度と，類似度記憶部に記憶されている類似度に基づいて，合成音声作成時に採用する音声が決定されるため，作成される合成音声の特徴がユーザの希望に沿っている可能性を高めることができる。

（第３実施形態）
本発明の第３実施形態にかかる音声合成装置について説明する。本実施形態にかかる音声合成装置は，ユーザから文章をテキスト入力されるとともに，その文章を読み上げる際の発話に関する特徴をユーザから指定されて，ユーザから指定された特徴に近い特徴を持ち，かつ，自然性が高く品質の良い合成音声によりユーザから入力された文章を読み上げる。さらに本実施形態にかかる音声合成装置は，ユーザによる自由な特徴情報の指定を可能にする。音声合成装置のハードウェア構成は，第１実施形態にかかる音声合成装置１０とほぼ同様であるため，説明を省略する。

音声合成装置の機能構成は，第１実施形態にかかる音声合成装置１０とほぼ同様であるが，読み上げ情報記憶部１１８を必要としない点と，読み上げ特徴入力部１０２に入力される読み上げ特徴情報が，読み上げ特徴情報に対応する識別情報ではない点が第１実施形態と異なる。以下，異なる部分についてのみ説明し，第１実施形態にかかる音声合成装置１０と同様の部分についての説明を省略する。第１実施形態では，読み上げ情報記憶部１１８に予め記憶されている読み上げ特徴情報をユーザに選択させたが，音声合成装置は，読み上げ特徴入力部３０２を介してユーザに自由に読み上げ特徴情報を指定させることができる。図８に基づいて，読み上げ特徴入力部３０２について説明する。

読み上げ特徴入力部３０２は，音声合成装置が備えるディスプレイ等の表示手段と，マウス等のポインティングデバイスやキーボードなどの入力手段を含んで構成される。表示手段に表示される読み上げ特徴情報入力のための画面の一例を図８に示した。画面には，特徴情報記憶部１２０に格納されている話者特徴情報の各項目に対応する項目と，そのサブ項目が表示される。各サブ項目には，その値を調節するためのスライダ３０２０が設けられており，ユーザは入力手段を介してスライダ３０２０を調節することにより，各サブ項目の値を調節し，読み上げ特徴情報を入力する。ＯＫボタン３０２１が押下されると，ユーザにより入力された読み上げ特徴情報が読み上げ特徴指定部１０４に提供される。なお，サブ項目の調節は，図示の例のようにスライダで行わせるようにしてもよいし，数値を入力させるようにしてもよい。

以上，第３実施形態にかかる音声合成装置について説明した。本実施形態にかかる音声合成装置を上記構成にすることにより，文章読み上げ時の発話に関する特徴をユーザに自由に指定させることができる。

以上，添付図面を参照しながら本発明の好適な実施形態について説明したが，本発明は係る例に限定されないことは言うまでもない。当業者であれば，特許請求の範囲に記載された範疇内において，各種の変更例または修正例に想到し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。

本発明は，予め録音された音声を用いて，文章を読み上げる音声を作成する音声合成装置に適用可能である。

本発明の第１実施形態にかかる音声合成装置の機能構成を示すブロック図である。同実施の形態における読み上げ情報記憶部の記憶内容を説明する図である。同実施の形態における特徴情報記憶部の記憶内容を説明する図である。同実施の形態における音声合成処理の流れを示すフローチャートである。本発明の第２実施形態にかかる音声合成装置の機能構成を示すブロック図である。同実施の形態における類似度記憶部の記憶内容を説明する図である。同実施の形態における音声合成処理の流れの一部を示すフローチャートである。本発明の第３実施形態にかかる音声合成装置の読み上げ特徴入力部を説明する図である。

符号の説明

１０，２０音声合成装置
１０２読み上げ特徴入力部
１０４読み上げ特徴指定部
１０６照合部
１０８話者選択部
１１０音声合成部
１１２，２１２合成音声選択部
１１４文章入力部
１１６合成音声出力部
１１８読み上げ情報記憶部
１２０特徴情報記憶部
１２２音声記憶部
１２４ＨＭＭ記憶部
２０２類似度取得部
２０４類似度記憶部

Claims

予め録音された音声を用いて，文章を読み上げる音声を作成する音声合成装置において：
複数の話者の音声を話者ごとに記憶する音声記憶部と；
前記音声から特定される，前記話者の発話に関する特徴を示す話者特徴情報を，前記話者ごとに記憶する特徴情報記憶部と；
文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定部と：
前記読み上げ特徴指定部により指定された読み上げ特徴情報と，前記特徴情報記憶部に記憶されている前記話者特徴情報との間の類似の程度を示す誤差を算出する照合部と；
前記照合部により導出された誤差に基づいて，該誤差が最も小さい値をもつ話者を選択する話者選択部と；
前記話者選択部の選択した話者の音声を前記音声記憶部から取得し、該音声に基づいて前記文章を読み上げる合成音声を作成する音声合成部と：
を備えることを特徴とする音声合成装置。
前記読み上げ特徴情報を複数記憶し，各々に識別情報が付与されている読み上げ情報記憶部と；
前記識別情報を入力される読み上げ特徴入力部と；を備え，
前記読み上げ特徴指定部は，前記読み上げ特徴入力部に入力された前記識別情報に基づいて，該識別情報に対応する前記読み上げ特徴情報を前記読み上げ情報記憶部から取得することを特徴とする，請求項１に記載の音声合成装置。
前記文章を入力する文章入力部を備えることを特徴とする，請求項１または２のいずれかに記載の音声合成装置。
前記読み上げ特徴情報および前記話者特徴情報には，発話を特徴付ける複数の項目と，前記項目ごとに設定される特徴に応じた数値が含まれることを特徴とする，請求項１〜３のいずれか１項に記載の音声合成装置。
前記発話を特徴づける複数の項目を表示手段に表示させ，各項目に対するユーザからの設定値を受け付ける読み上げ特徴入力部を備えることを特徴とする，請求項１〜４のいずれか１項に記載の音声合成装置。
予め録音された音声を用いて文章を読み上げる音声を作成する音声合成装置をして：
文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定処理と：
音声から特定される，話者の発話に関する特徴を示す話者特徴情報が前記話者ごとに記憶されている特徴情報記憶部内の前記話者特徴情報と，前記読み上げ特徴指定処理により指定された前記読み上げ特徴情報と，の間の類似の程度を示す誤差を算出する照合処理と：
前記照合処理により算出された誤差に基づいて，該誤差が最も小さい値をもつ話者を選択する話者選択処理と：
前記話者選択処理により選択された話者の音声を，複数の話者の音声が話者ごとに記憶されている音声記憶部から取得し，該音声に基づいて前記文章を読み上げる合成音声を作成する音声合成処理と：
を実行せしめることを特徴とするコンピュータプログラム。
予め録音された音声を用いて，文章を読み上げる音声を作成する音声合成方法において：
複数の話者の音声を話者ごとに記憶手段に記憶する音声記憶ステップと；
前記音声から特定される，前記話者の発話に関する特徴を示す話者特徴情報を，前記話者ごとに記憶手段に記憶する特徴情報記憶ステップと；
文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定ステップと：
前記読み上げ特徴指定ステップにより指定された読み上げ特徴情報と，前記記憶手段に記憶されている前記話者特徴情報との間の類似の程度を示す誤差を算出する照合ステップと；
前記照合ステップにより算出された誤差に基づいて，該誤差が最も小さい値をもつ話者を選択する話者選択ステップと；
前記話者選択ステップにより選択された話者の音声を，前記記憶手段から取得し，該音声に基づいて前記文章を読み上げる合成音声を作成する音声合成ステップと：
を含むことを特徴とする音声合成方法。
予め録音された音声を用いて，文章を読み上げる音声を作成する音声合成装置において：
複数の話者の音声を話者ごとに記憶する音声記憶部と；
前記音声から特定される，前記話者の発話に関する特徴を示す話者特徴情報を，前記話者ごとに記憶する特徴情報記憶部と；
文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定部と：
前記読み上げ特徴指定部により指定された読み上げ特徴情報と，前記特徴情報記憶部に記憶されている前記話者特徴情報とに基づいて，前記読み上げ特徴指定部により指定された特徴に対する前記話者の発話に関する特徴の類似の程度を導出する照合部と；
前記照合部により導出された類似の程度に基づいて，所定の条件を満たす複数の話者を選択する話者選択部と；
前記話者選択部によって選択された複数の話者の各々の音声に基づいて複数の合成音声を作成する音声合成部と；
前記音声合成部によって作成された複数の合成音声から，出力する合成音声を選択する合成音声選択部と；
を備えることを特徴とする音声合成装置。
前記合成音声選択部は，前記合成音声の自然性の程度を示す値に基づいて，前記出力する合成音声を選択することを特徴とする，請求項８に記載の音声合成装置。
前記読み上げ情報記憶部に記憶されている前記読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と，前記音声記憶部に記憶されている音声から特定される前記話者の発話に関する特徴と，の類似度を記憶する類似度記憶部と；
前記読み上げ特徴指定部により指定された前記読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と，前記話者選択部により選択された複数の話者の発話に関する特徴との類似度を，前記類似度記憶部から取得する類似度取得部と；
を備え，
前記合成音声選択部は，前記合成音声の自然性の程度を示す値および前記類似度取得部により取得された類似度に基づいて，出力する合成音声を選択することを特徴とする，請求項８に記載の音声合成装置。
前記合成音声選択部は，前記合成音声の自然性の程度を示す値および前記類似度に重み付けをすることを特徴とする，請求項１０に記載の音声合成装置。
前記類似の程度は，前記話者特徴情報と前記読み上げ特徴情報との誤差を算出することによって導出され，
前記所定の条件は，前記誤差が所定の値以下であることを特徴とする，請求項１０または１１のいずれかに記載の音声合成装置。