JP2005257747A

JP2005257747A - 音声合成装置、声質生成装置及びプログラム

Info

Publication number: JP2005257747A
Application number: JP2004065473A
Authority: JP
Inventors: Atsushi Wakao; 淳若尾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-03-09
Filing date: 2004-03-09
Publication date: 2005-09-22
Anticipated expiration: 2024-03-09
Also published as: JP4530134B2

Abstract

【課題】多彩な声質、発話スタイルを容易に実現する、音声合成装置、声質生成装置及びプログラムを提供する。
【解決手段】画像・声質記憶手段１は、画像とそれに対応した声質・発話スタイルデータを複数組記憶する。類似度計算手段２は、入力された画像と画像・声質記憶手段１に記憶されている複数の画像との類似度を計算する。声質決定手段３は、類似度計算手段２で計算された複数の画像の類似度、画像・声質記憶手段１に記憶され、類似度に対応する声質・発話スタイルデータを受け取り、それらを元に合成音声の声質・発話スタイルを決定する。音声合成手段４は声質・発話スタイルデータを用いて入力されたテキストを合成音声に変換する。
【選択図】図１

Description

本発明は音声合成装置、声質生成装置及びプログラムに関し、特にその声質、発話スタイル等を画像に応じて多彩に変更できる音声合成装置、声質生成装置及びプログラムに関する。

従来の音声合成装置は、図９に示すように、モデル生成手段６と、声質決定手段１３と、音声合成手段１４とから構成されている（特許文献１参照。）。

このような構成を有する従来の音声合成装置はつぎのように動作する。

すなわち、モデル生成手段６において、３Ｄデジタイザなどで測定した頭部の測定データに標準形状モデルをフィッティングすることで声質に関わる寸法データを取得し、声質決定手段１３において寸法データに該当する声質情報を選択し、音声合成手段１４において声質情報を用いて入力テキストを音声に変換する。

このような構成を取ることで、頭部を測定した生物に近い声質を音声合成において実現可能となる。

また、入力された文字情報から予め定められた規則に従って合成パラメータを生成し、音声信号に変換するテキスト音声変換装置において、合成パラメータ生成部で生成された第１の発話スタイルの韻律パターンを、異なる第２の発話スタイルの韻律パターンに変更する発話スタイル変更手段と、発話スタイル変更手段での変更の度合いを調節する手段とを備えるテキスト音声変換装置がある（特許文献２参照。）。

また、書籍を読み上げる有名人等の読み上げキャラクタ画像、この読み上げキャラクタ画像固有の音声データを外部の配信元からそれぞれ配信してもらい、この配信された書籍データおよび読み上げキャラクタ画像を表示部に表示しながら、同じく配信された読み上げキャラクタ画像固有の音声データに対応する音声で、同じく配信された書籍データに従って読み上げ再生する電子書籍装置がある（特許文献３参照。）。

また、複数の顔画像の間の類似度を計算する方法が開示されている（非特許文献１参照。）。
特開２００２−１５６９８９号公報特開平１０−１１０８３号公報特開２００３−１２２５５４号公報「個人顔認識のデータベースにおけるメタデータの提案」電子情報通信学会論文誌Vol.J86-D-II No.7 p.1005-1014の付録

従来の音声合成装置の第１の問題点は、３Ｄデジタイザ等の形状測定装置が大型で高価なため、携帯電話器等の小型端末では実現が難しいということである。

第２の問題点は、形状のみを測定しているため、声質のバリエーションが少ないことである。

本発明の目的は、多彩な声質、発話スタイルを容易に実現する、音声合成装置、声質生成装置及びプログラムを提供することにある。

本発明の音声合成装置は、
画像と画像に対応する声質・発話スタイルデータとを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、類似度計算を行った画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段と、声質・発話スタイルを元にテキストを合成音声に変換する音声合成手段とを備えている。

また、更に、声質決定手段により決定された声質・発話スタイルを記憶する声質記憶手段を備え、音声合成手段は、記憶された声質・発話スタイルを元にテキストを合成音声に変換してもよい。

また、声質決定手段は、類似度を元に最も入力画像に近い画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定してもよい。

また、声質決定手段は、類似度を元に入力画像に非常に近い画像を除外し、残った画像の中から類似度を元に最も入力画像に近い画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定してもよい。

また、声質決定手段は、類似度を元に入力画像に近い複数の画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、抽出した声質・発話スタイルをマージして合成音声の声質・発話スタイルを決定してもよい。

本発明の声質生成装置は、
画像と画像に対応する声質・発話スタイルを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、類似度計算を行った画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段とを備えている。

本発明のプログラムは、
コンピュータ又はマイクロプロセッサを上述の音声合成装置として機能させる。

本発明のプログラムは、
コンピュータ又はマイクロプロセッサを上述の声質生成装置として機能させる。

即ち、本発明の音声合成装置は、画像とそれに対応する声質・発話スタイルデータを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との間の類似度を計算する類似度計算手段と、類似度計算を行った画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度及び抽出した声質・発話スタイルデータから、合成音声の声質・発話スタイルを決定する声質決定手段と、声質・発話スタイルを元にテキストを合成音声に変換する音声合成手段とを備え、類似度計算手段では、画像中の物体の寸法・形状的な情報だけでなく色彩的な情報も加味して類似度が計算されるよう動作する。

このような構成を採用し、デジタルカメラ等から取得した画像を入力画像として用いることにより本発明の目的を達成することができる。

本発明には、以下の効果がある。

第１の効果は、容易に声質を変更できることにある。

その理由は、デジタルカメラ等の小型・安価な入力機器で作成可能で、インターネット上に多数存在する画像データを利用できるためである。

第２の効果は、多彩な声質を選択できることにある。

その理由は、画像を利用することで寸法・形状だけでなく色彩的な情報も利用できるためである。例えば、髪の毛の色等から年齢の情報を測定し、声質に反映することができる。即ち、色彩情報を含む画像を元に類似度を計算して声質を決定するように構成されているため、より正確な声質を設定可能である。なお、望ましい形態ではないが、色彩情報でなく濃淡情報しか持たない白黒画像であっても実現可能である。

即ち、音声合成装置において、多彩な声質を実現することができるので、特にカメラ付き携帯電話等において、予め送信者の顔画像を撮影、もしくは送信者が自身を撮影した顔画像を送信することで、電子メールをあたかも送信者が喋っているように読み上げることができる。

次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。

（発明の第１の実施の形態）
図１を参照すると、本発明の第１の実施の形態の音声合成装置は、画像・声質記憶手段１と、類似度計算手段２と、声質決定手段３と、音声合成手段４とを含む。画像・声質記憶手段１と、類似度計算手段２と、声質決定手段３は、まとめて、声質決定手段１０または声質決定装置としてもよい。これらの手段は、それぞれ概略つぎのように動作する。

画像・声質記憶手段１は、画像とそれに対応した声質・発話スタイルデータを複数組記憶する。ここで、画像はその特徴を抽出した状態、モデル化された状態でも構わない。また、画像の内容は人間の顔画像に限らず、風景等であっても構わない。

声質・発話スタイルデータは、ピッチ周波数、ホルマント周波数、発声速度等の声質を表すパラメータ、波形接続型音声合成装置で用いる素片波形辞書、声道長などの発声器官の物理的特長を表すパラメータ、入力テキストを解析する際のテキスト解析辞書、入力テキストを解析する際の動作モード、等のうち１ないし複数のデータを含む。

類似度計算手段２は、入力された画像と画像・声質記憶手段１に記憶されている複数の画像との類似度を計算する。

声質決定手段３は、類似度計算手段２で計算された複数の画像の類似度、画像・声質記憶手段１に記憶され前述の類似度に対応する声質・発話スタイルデータを受け取り、類似度を元に１ないし複数の声質・発話スタイルデータを選択する。

選択された声質・発話スタイルデータが一つの場合、その声質・発話スタイルデータが音声合成手段４に送られる。

選択された声質・発話スタイルデータが複数存在する場合、それらをマージしたものが音声合成手段４に送られる。

なお、マージの際、前述の類似度を重みとして用いることができる。

音声合成手段４は声質決定手段３から送られた声質・発話スタイルデータを用いて入力されたテキストを合成音声に変換する。

次に、図１及び図３のフローチャートを参照して本発明の第１の実施の形態の全体の動作について詳細に説明する。

まず、画像・声質記憶手段１から、画像を取得する（図３のステップＳ１）。

次に、取得した画像と入力画像の類似度を計算する（図３のステップＳ２）。

さらに、類似度を計算した画像に対応する声質・発話スタイルデータを画像・声質記憶手段１から取得する（図３のステップＳ３）。

ここで、画像・声質記憶手段１に未だ声質・発話スタイルデータを取得していない画像が存在するか確認する（図３のステップＳ４）。

存在する場合はＳ１に戻り、存在しない場合は次のＳ５に動作を移す。

そして、計算した類似度、取得した声質・発話スタイルデータから合成音声作成に用いる声質・発話スタイルデータを作成する（図３のステップ５）。

最後に、作成した声質・発話スタイルデータを用いてテキストを合成音声に変換する（図３のステップ６）。

（発明の第２の実施の形態）
図２を参照すると、本発明の第２の実施の形態の音声合成装置は、画像・声質記憶手段１と、類似度計算手段２と、声質決定手段３と、音声合成手段４と、声質記憶手段５とを含む。画像・声質記憶手段１と、類似度計算手段２と、声質決定手段３は、まとめて、声質決定手段１０または声質決定装置としてもよい。これらの手段は、それぞれ概略つぎのように動作する。

選択された声質・発話スタイルデータが一つの場合、その声質・発話スタイルデータが声質記憶手段５に送られる。

選択された声質・発話スタイルデータが複数存在する場合、それらをマージしたものが声質記憶手段５に送られる。

音声合成手段４はテキストが入力されると、声質記憶手段５に記憶された声質・発話スタイルデータを用いて合成音声を作成する。

次に、図２及び図４のフローチャートを参照して本発明の第２の実施の形態の全体の動作について詳細に説明する。

まず、画像・声質記憶手段１から、画像を取得する（図４のステップＳ１）。

次に、取得した画像と入力画像の類似度を計算する（図４のステップＳ２）。

さらに、類似度を計算した画像に対応する声質・発話スタイルデータを画像・声質記憶手段１から取得する（図４のステップＳ３）。

ここで、画像・声質記憶手段１に未だ声質・発話スタイルデータを取得していない画像が存在するか確認する（図４のステップＳ４）。

そして、計算した類似度、取得した声質・発話スタイルデータから合成音声作成に用いる声質・発話スタイルデータを作成する（図４のステップ５）。

作成した声質・発話スタイルデータを声質記憶手段５に記憶する（図４のステップ６）。

最後に、記憶した声質・発話スタイルデータを用いてテキストを合成音声に変換する（図４のステップ７）。

また、上述の本発明の実施の形態についての音声合成装置のプログラムにより、コンピュータ又はマイクロプロセッサを音声合成装置として機能させることができる。

また、上述の本発明の実施の形態についての声質生成装置のプログラムにより、コンピュータ又はマイクロプロセッサを声質生成装置として機能させることができる。

次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。

（第１の実施例）
第１の実施例では、声質を実現したい話者の顔画像が入力されると、類似度計算手段２は画像・声質記憶手段１に蓄えられた複数の顔画像との間の類似度を計算する。類似度の計算方法としては、例えば非特許文献１に記述されている方法等を用いる。

計算された類似度の例を図５に示す。

計算された類似度は、声質決定手段３に渡される。

声質決定手段３は、前述の類似度のうち、最も高い値４．６を選択する。

そして、類似度４．６に対応する声質データを画像・声質記憶手段１から取得する。

画像・声質記憶手段１に記憶される声質データの例を図６に示す。

ここでは、先の類似度４．６、画像Ｎｏ．２に対応した声質データである、ピッチ周波数２００、発話速度１２０、第一ホルマント周波数６００、第二ホルマント周波数１０００を画像・声質記憶手段１から取得する。取得した声質データは、音声合成手段４に渡す。

音声合成手段４は、テキストが入力されると、声質決定手段３から渡された声質データに従って合成音声を作成する。

（第２の実施例）
第２の実施例では、声質を実現したい話者の顔画像が入力されると、類似度計算手段２は画像・声質記憶手段１に蓄えられた複数の顔画像との間の類似度を計算する。類似度の計算方法としては、例えば非特許文献１に記述されている方法等を用いる。

計算された類似度の例を図５に示す。

計算された類似度は、声質決定手段３に渡される。

声質決定手段３は、前述の類似度のうち、上位２値４．６、３．４を選択する。

そして、類似度４．６、３．４に対応する声質・発話スタイルデータを画像・声質記憶手段１から取得する。

画像・声質記憶手段１に記憶される声質・発話スタイルデータの例を図７に示す。

ここでは、先の類似度３．４（画像Ｎｏ．１）、４．６（画像Ｎｏ．２）に対応した声質データである、ピッチ周波数「１００」、「２００」、単語辞書Ｎｏ．
「１，２」、「１，３」を画像・声質記憶手段１から取得する。

取得した声質データのうち、ピッチ周波数「１００」「２００」は類似度を重みとして平均をとる。

その結果、100＊3．4／(3．4＋4．6)＋200＊4．6／(3．4＋4．6)＝１５７．５が計算される。

一方、単語辞書Ｎｏ．「１，２」「１，３」は論理和を計算し、「１，２，３」となる。

計算結果であるピッチ周波数１５７．５、単語辞書Ｎｏ．「１，２，３」は声質記憶手段５に記憶される。

音声合成手段４は、テキストが入力されると、声質記憶手段５から記憶された声質・発話パラメータデータに従って合成音声を作成する。

具体的には、入力テキストを解析する際に、Ｎｏ．１，２，３の単語辞書を用いて解析し、最終的に出力される合成音声のピッチ周波数が１５７．５Ｈｚとなるように全体のピッチ周波数を調整する。

（第３の実施例）
第３の実施例では、声質を実現したい話者の顔画像が入力されると、類似度計算手段２は画像・声質記憶手段１に蓄えられた複数の顔画像との間の類似度を計算する。類似度の計算方法としては、例えば非特許文献１に記述されている方法等を用いる。

計算された類似度の例を図５に示す。

計算された類似度は、声質決定手段３に渡される。

声質決定手段３は、前述の類似度のうち、予め決められた閾値４．５を越える類似度４．６を破棄する。

そして、残った類似度のうち、最も高い類似度３．４を選択し、対応する声質データを画像・声質記憶手段１から取得する。

画像・声質記憶手段１に記憶される声質データの例を図８に示す。

ここでは、先の類似度３．４、画像Ｎｏ．１に対応した声質データである、波形辞書Ｎｏ．１を画像・声質記憶手段１から取得する。

取得した声質データは、電子メールによって音声合成手段４に送られる。

具体的には、波形辞書Ｎｏ．１から、入力テキストに合わせた適切な素片波形を選択し、それらをつなぎ合わせて合成音声を生成する。

第３の実施例のような実装を用いると、声紋を用いたセキュリティゲートなどを音声合成装置を使用して不正に通過することを防ぐことができる。

発明の第１の実施の形態の構成を示すブロック図である。発明の第２の実施の形態の構成を示すブロック図である。発明の第１の実施の形態の動作を示す流れ図である。発明の第２の実施の形態の動作を示す流れ図である。類似度計算手段による計算結果の例を示す図である。画像・声質記憶手段に記憶されている、声質・発話スタイルデータの例を示す図である。画像・声質記憶手段に記憶されている、声質・発話スタイルデータの例を示す図である。画像・声質記憶手段に記憶されている、声質・発話スタイルデータの例を示す図である。従来の音声合成装置を説明するためのブロック図である。

符号の説明

１画像・声質記憶手段
２類似度計算手段
３、１３声質決定手段
４、１４音声合成手段
５声質記憶手段
６モデル生成手段
１０声質生成手段

Claims

画像と該画像に対応する声質・発話スタイルデータとを記憶する画像・声質記憶手段と、
入力画像と前記画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、
類似度計算を行った画像に対応した声質・発話スタイルデータを前記画像・声質記憶手段から抽出し、前記類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段と、
前記声質・発話スタイルを元にテキストを合成音声に変換する音声合成手段とを備えたことを特徴とする音声合成装置。
更に、前記声質決定手段により決定された前記声質・発話スタイルを記憶する声質記憶手段を備え、
前記音声合成手段は、記憶された前記声質・発話スタイルを元にテキストを合成音声に変換することを特徴とする請求項１に記載の音声合成装置。
前記声質決定手段は、類似度を元に最も入力画像に近い画像に対応した声質・発話スタイルデータを前記画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定することを特徴とする請求項１または請求項２に記載の音声合成装置。
前記声質決定手段は、類似度を元に入力画像に非常に近い画像を除外し、残った画像の中から類似度を元に最も入力画像に近い画像に対応した声質・発話スタイルデータを前記画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定することを特徴とする請求項１または請求項２に記載の音声合成装置。
前記声質決定手段は、類似度を元に入力画像に近い複数の画像に対応した声質・発話スタイルデータを前記画像・声質取得手段から抽出し、抽出した声質・発話スタイルをマージして合成音声の声質・発話スタイルを決定することを特徴とする請求項１または請求項２に記載の音声合成装置。
画像と該画像に対応する声質・発話スタイルを記憶する画像・声質記憶手段と、
入力画像と前記画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、
類似度計算を行った画像に対応した声質・発話スタイルデータを前記画像・声質記憶手段から抽出し、前記類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段とを備えたことを特徴とする声質生成装置。
コンピュータ又はマイクロプロセッサを請求項１から請求項５のいずれか１項に記載の音声合成装置として機能させるためのプログラム。
コンピュータ又はマイクロプロセッサを請求項６に記載の声質生成装置として機能させるためのプログラム。