JP2014123072A

JP2014123072A - 音声合成システム及び音声合成方法

Info

Publication number: JP2014123072A
Application number: JP2012280101A
Authority: JP
Inventors: Toshiyuki Tada; 俊幸多田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2014-07-03

Abstract

【課題】発話者の話し方の特徴を的確に体現した翻訳音声を出力する音声合成システムと方法を提供する。
【解決手段】音声合成システム１１０は、音声を入力し、入力した音声をテキストデータに変換する音声認識手段１０１と、入力音声の話速度を求める話速度特定手段１０３と、音声認識手段１０１が生成したテキストデータに対応し、話速度特定手段１０３で特定した話速度に対応する話速度を有する音声の音声信号を合成する音声合成手段１０４と、を備える。
【選択図】図１

Description

本発明は、音声合成システム及び音声合成方法に関する。

話し言葉を他の言語に翻訳すること（以下、単に、音声翻訳と呼ぶ）を自動化した音声翻訳システムが存在する。音声翻訳システムは、一般に、発話者が発した音声を音声認識によりテキストデータ化し、これを、所定の他言語のテキストデータに翻訳し、音声合成して出力する。

音声合成の際、発話者の音声を利用して、発言者が話しているように出力する音声翻訳システムも存在する（例えば、特許文献１，特許文献２，特許文献３）。

特許文献１に記載の音声翻訳システムは、発話者の音声の平均パワー、平均ピッチ周波数、母音（フォルマント）情報を求め、母音情報を翻訳後の言語の母音情報に変換して、平均パワー、平均ピッチ周波数、翻訳後言語の母音情報を用いて、翻訳後の音声を合成する。

特許文献２に記載の音声翻訳システムは、発話者の音声データを用いて、音の高さと音色に関し、発話者自身の声に似た声を合成して出力する。

特許文献３に記載の音声翻訳システムは、翻訳先の言語の発音コードと発話者の発音音声とを対応付けて声紋メモリに記憶しておき、翻訳後のテキストデータの各発音コードに対応する発音音声を声紋メモリから読み出して出力する。

特許文献１〜３に開示された音声翻訳システムによれば、翻訳後の音声の音質（高さ・音色等）を、発話者の音声の音質に近づけることができる。

特開昭６３−０７３２９９号公報特開平０６−３１８１００号公報特開２００１−０１４３１４号公報

特許文献１〜３に記載の音声翻訳システムは、翻訳後のテキストデータを音声に変換して、翻訳音声を出力する。このため、音声の出力速度、文と文の間隔、抑揚等は一定になる。よって、翻訳テキストデータを淡々と読み上げるタイプの音声となってしまう。このような音声では、音質は類似しているとしても、発話者の話し方の特徴を翻訳後の音声で表現できず、発話者自身が翻訳音声を発しているような臨場感を与えることができない。
翻訳以外に、音声を変換して出力する場合にも同様の問題が存在する。

本発明は、上述の事情の下になされたもので、発話者の話し方の特徴をより的確に体現した合成音声を出力する音声合成システムと方法を提供することを目的とする。

上記目的を達成するため、本発明の音声合成システムは、
音声を変換して出力する音声合成システムであって、
音声を入力し、入力した音声を認識してテキストデータに変換する音声認識手段と、
入力した音声の話速度を求める話速度特定手段と、
前記音声認識手段で変換したテキストデータに対応し、前記話速度特定手段で特定した話速度に対応する話速度を有する音声の音声信号を合成する音声合成手段と、
を備える。

上記目的を達成するため、本発明の音声合成方法は、
音声をテキストデータに変換し、
音声の話速度を特定し、
前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する。

上記目的を達成するため、本発明のプログラムは、
コンピュータに、
音声をテキストデータに変換する処理と、
音声の話速度を特定する処理と、
前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する処理と、
を実行させる。

本願発明によれば、入力した音声の話速度に対応した話速度の音声を合成する。これにより、発話者の話し方の特徴を体現した合成音声を出力することができる。

（ａ）実施形態１に係る音声翻訳システムのブロック図であり、（ｂ）は、実施形態１に係る音声翻訳システムの応用例のブロック図である。（ａ）は、原語の入力例、（ｂ）は翻訳の例を示す図である。実施形態２に係る音声翻訳システムのブロック図である。音声情報ＤＢに格納される音声データの例を示す図である。実施形態２の音声合成部の構成を示すブロック図である。言語別の標準話速度と標準間の例を示す図である。（ａ）は原語入力の例、（ｂ）は翻訳の例を示す図である。実施形態４の音声翻訳システムのブロック図である。

以下、本発明の実施形態に係る音声翻訳システムを説明する。

（実施形態１）
実施形態１に係る音声翻訳システム１００は、音声を他言語の音声に変換して出力する音声翻訳システムであって、図１に示すように、音声認識部１０１と、翻訳部１０２と、話速度特定部１０３と、音声合成部１０４と、から構成される。

音声認識部１０１は、一の言語の音声を入力し、入力した音声を、音声認識技術により、テキストデータ（原語テキストデータ）に変換する。

翻訳部１０２は、翻訳辞書などを備え、原語テキストデータを翻訳し、他の言語のテキストデータを生成する。

話速度特定部１０３は、入力した音声の話速度を求める。話速度とは、言葉を話す速度であり、例えば、単位時間あたりの音節数、音素数等で表される。

音声合成部１０４は、翻訳部１０２が生成した他の言語のテキストデータに対応し、話速度特定部１０３で特定した話速度に対応する話速度を有する音声の音声信号を合成して出力する。この音声信号を例えば、スピーカを介して出力することにより、入力音声を他言語に翻訳した音声を得ることができる。

次に、上記構成を有する音声翻訳システム１００の動作を具体例に基づいて説明する。

以下の説明では、原語を日本語、翻訳言語を英語とする。
図２（ａ）に示すように、発話者が第１文「図１は、装置の外観を示しています。」を話速度Ｖi１で発話し、第２文「図１を参照して、この装置を説明します。」を話速度Ｖi2で発話したとする。

音声認識部１０１は、音声を認識し、原語テキストデータを生成する。

翻訳部１０２は、生成された原語テキストデータを、既知の翻訳技術を使用して、図２（ｂ）に示すように、第１文を「Fig. 1 shows the appearance of equipment.」に翻訳し、第２文を「This equipment is explained with reference to Fig. 1.」に翻訳し、翻訳テキストデータを生成する。

また、話速度特定部１０３は、原語第１文の話速度Ｖi1と原語第２文の話速度Ｖi2を求める。これは、各文の音節（又は音素）数／１文の時間から求めることができる。話速度特定部１０３は、求めた原語話速度を、原語と翻訳語との組み合わせ毎に予め設定しておいた関数ｆ（Ｖi）に代入し、翻訳第１文の話速度Ｖo1＝ｆ（Ｖi1）と翻訳第２文の話速度Ｖｏ2＝ｆ（Ｖi2）とを順次求め、音声合成部１０４に通知する。

音声合成部１０４は、翻訳テキストデータから、翻訳文の音声を合成する。音声合成部１０４は、発話者自身の声紋を使用して発話者の音声に類似する音声を合成すること、標準的な音声の音声信号を合成し、これを発話者の音声的特徴を従って変形すること等により、発話者の音声の特徴を有する音声（発話者の音声に類似する音声）を合成する。

さらに、音声合成部１０４は、各翻訳後の音声を、話速度特定部１０３が特定した話速度を有するように、合成する。例えば、音声合成部１０４は、翻訳第１文「Fig. 1 shows the appearance of equipment.」の話速度がＶo1で、翻訳第２文「This equipment is explained with reference to Fig. 1.」の話速度がＶo2となるように音声信号を合成する。

音声合成部１０４は、合成した音声信号を出力する。この音声信号を、スピーカ等を介して出力することにより、発話者と類似の音質で、第１文「Fig. 1 shows the appearance of equipment.」が速度Ｖo1で、第２文「This equipment is explained with reference to Fig. 1.」が速度Ｖo2でそれぞれ出力される。

以上説明したように、本実施形態にかかる音声翻訳システム１００によれば、音質を発話者に似せるだけでなく、話し方（話す速度）まで話者に似せた形態で翻訳音声を出力することができる。

なお、音声合成部１０４で生成する音声は、発話者の音声に類似する音声に限定されない。例えば、合成する音声は、発話者と全く無関係の人の音声でも良い。また、例えば、俳優、アニメのキャラクタ（声優）、友人の音声、動物の鳴き声等でもよい。

この発明は、図１（ｂ）に示すように、翻訳部１０２を取り除き、音声認識部１０１で生成したテキストデータに対応する音声を、音声合成部１０４で合成する最小の構成からなる音声合成システム１１０にも適用可能である。この場合、音声合成部１０４で合成する音声は、通常、発話者以外の音声、例えば、俳優、歌手、アニメのキャラクタ（声優）の音声、動物の鳴き声等となる。

さらに、音声合成部１０４に複数タイプ（キャラクタ）の音声データ（声紋）を記憶させておき、音声合成部１０４が、ユーザの操作・その他の条件により適宜選択して使用するようにしてもよい。

（実施形態２）
以下、実施形態１に係る音声翻訳システム１００をより具体化した実施形態２に係る音声翻訳システム２００ついて説明する。

本実施形態の音声翻訳システム２００は、音声の特徴と話速度だけでなく、話しの間、平均ピッチ、平均パワーについても、発話者の音声の特徴を有する翻訳音声を出力する。

音声翻訳システム２００は、コンピュータで構成され、図３に示すように、音声入力部２１１と、記憶部２１２と、音声分析部２１３と、音声認識部２１４と、翻訳部２１５と、音声合成部２１６と、音声出力部２１７と、音声情報ＤＢ２２１と、言語情報ＤＢ２２２とを備える。

音声入力部２１１は、マイク、Ａ／Ｄ（アナログ−デジタル）変換器等を備え、発話者の音声（原語音声）を入力し、原語音声を原語デジタル音声信号に変換して出力する。

記憶部２１２は、ＲＡＭ（Random Access Memory)等から構成され、音声入力部２１１から出力された原語デジタル音声信号を記憶する。記憶部２１２は、さらに、音声認識部２１４が生成した原語テキストデータ（原語デジタル音声信号を音声認識して生成したテキストデータ）、及び翻訳部２１５が生成した翻訳テキストデータ（翻訳部２１５が原語テキストデータを翻訳して生成したテキストデータ）を記憶する。

音声分析部２１３は、音声学習段階で、記憶部２１２に新たに記憶された学習用の原語デジタル音声信号を分析して、図４に示すように、音素と声紋とを対応付けた情報を生成し、音声情報ＤＢ２２１に格納する。

音声認識部２１４は、記憶部２１２に記憶された原語デジタル音声信号を、音声情報ＤＢ２２１に記憶されている音声情報を参照して認識し、入力音声を書き起こした原語テキストデータを生成する。音声認識部２１４は、生成した原語テキストデータを記憶部２１２に格納する。

翻訳部２１５は、記憶部２１２に記憶された原語テキストデータを、言語情報ＤＢ２２２に記憶されている言語情報を用いて、指示された言語のテキストデータ（翻訳テキストデータ）に翻訳する。

音声合成部２１６は、記憶部２１２に記憶されている翻訳テキストデータに対応する翻訳デジタル音声信号（翻訳音声信号）を生成して出力する。

音声合成部２１６は、図５に示すように、音声信号合成部２６１と、話速度推定部２６２と、間推定部２６３と、平均ピッチ計測部２６４と、平均パワー計測部２６５とを備える。

音声信号合成部２６１は、記憶部２１２に記憶されている翻訳テキストデータを読み出し、言語情報ＤＢ２２２に記憶されている言語情報等を用いて、形態素解析を行って、翻訳テキストデータを形態素に分割すると共に、品詞、読、アクセント型、などの情報を各形態素に付加する。音声信号合成部２６１は、これらの情報に基づいて、翻訳テキストデータを音素片の列に変換し、時間領域での韻律の変換を行い、音素片を接続することにより翻訳デジタル音声信号を合成する。

話速度推定部２６２は、記憶部２１２に格納されている原語デジタル音声信号を解析して話者が話す速度（話速度）を判別し、これに基づいて、翻訳音声の出力速度を推定し、音声信号合成部２６１に通知する。なお、話速度は、単位時間あたりの音素の平均数等から原語テキストデータの一文ごとに求める。音声信号合成部２６１は、出力される翻訳音声が、話速度推定部２６２で推定された話速度となるように翻訳デジタル音声信号を生成する。

より具体的に説明する。言語情報ＤＢ２２２は、図６に示すように、言語毎に標準的な話速度（単位時間あたりの音素数）Ｖｓを記憶している。話速度推定部２６２は、発話者の原語音声の話速度Ｖｉを求め、求めた原語音声の話速度Ｖｉと原語の標準話速度Ｖｓとの比の値Ｖｉ／Ｖｓを求め、これを、翻訳言語の標準話速度Ｖｓに乗算することにより、出力する翻訳音声の話速度Ｖｏを求める。例えば、原語を日本語、翻訳原語を英語とすると、話速度推定部２６２は、原語デジタル音声信号を解析して、原語音声の話速度Ｖｉを求め、これと、日本語の標準話速度Ｖｊｓの比の値Ｖｉ／Ｖｊｓを求め、これを、英語の標準話速度Ｖｅｓに乗算することにより、翻訳音声の話速度Ｖｏを求める。音声信号合成部２６１は、翻訳音声の話速度がＶｏになるように、翻訳デジタル音声信号を合成する。これにより、早口で話す人の翻訳音声は早口になり、ゆったり話す人の翻訳音声はゆったりしたものとなる。

間推定部２６３は、記憶部２１２に格納されている原語デジタル音声信号を解析して発話者が話す文と文との間（間隔：間合い）を判別し、これに基づいて、翻訳音声の文と文の間隔を推定し、音声信号合成部２６１に通知する。音声信号合成部２６１は、翻訳音声の間がＰｏになるように、翻訳デジタル音声信号を出力する。

より具体的に説明する。言語情報ＤＢ２２２は、図６に示すように、言語毎に標準的な間Ｐｓを記憶している。間推定部２６３は、原語音声の文と文との間Ｐｉを求め、求めた間Ｐｉと原語の標準的な間Ｐｓとの比の値Ｐｉ／Ｐｓを求め、これを、翻訳言語の標準的な間Ｐｓに乗算することにより、翻訳音声の間Ｐｏを求める。原語を日本語、翻訳原語を英語とすると、間推定部２６３は、原語音声の間Ｐｉを求め、これと、日本語の標準的な間Ｐｊｓとの比の値Ｐｉ／Ｐｊｓを求め、これを、英語の標準的な間Ｐｅｓに乗算することにより、翻訳音声の間Ｐｏ＝Ｐｉ・Ｐｅｓ／Ｐｊｓを求める。音声信号合成部２６１は、翻訳音声の間がＰｏになるように、翻訳デジタル音声信号を出力する。これにより、文と文とを間を取って話す人の翻訳音声の間は長くなり、間を取らずに話す人の翻訳音声の間は短くなる。

平均ピッチ計測部２６４は、記憶部２１２に格納されている原語デジタル音声信号を解析し、原語音声の平均ピッチＰＣを一文毎に求め、音声信号合成部２６１に通知する。音声信号合成部２６１は、翻訳音声の平均ピッチが原語音声の平均ピッチＰＣに一致するように、翻訳デジタル音声信号を生成する。

平均パワー計測部２６５は、記憶部２１２に格納されている原語デジタル音声信号を解析し、入力音声（＝原語音声）の平均パワーＰＷを一文毎に求め、音声信号合成部２６１に通知する。音声信号合成部２６１は、翻訳音声の平均パワーが入力音声の平均パワーＰＷに一致するように、翻訳デジタル音声信号を生成する。

音声情報ＤＢ２２１は、図４に示すように、音素と音素に対応する声紋を表す声紋情報とを対応付けて記憶する。

言語情報ＤＢ２２２は、ある言語のテキストデータを他の言語のテキストデータに翻訳するための、辞書などを含む翻訳情報が格納されている。
また、言語情報ＤＢ２２２は、翻訳に必要な種々の言語情報を記憶する。言語情報ＤＢ２２２は、さらに、図６に示すように、言語毎に、標準的な話速度Ｖｓと標準的な間Ｐｓとを記憶している。

次に、上記構成を有する音声翻訳システム２００の動作を説明する。
実際に翻訳を行う前に、ユーザ（発話者）は、音声情報ＤＢ２２１に自らの音声の情報を登録する。

この場合、ユーザは、音声入力部２１１から、予め定められた文章を読み上げる。音声入力部２１１は、音声を入力し、原語デジタル音声信号に変換して、記憶部２１２に格納する。音声分析部２１３は、記憶部２１２に格納された原語デジタル音声信号を音素に区切って声紋を分析し、図４に示すように、音素と対応付けて、声紋を音声情報ＤＢ２２１に登録する。

通常の音声翻訳時には、まず、ユーザは、原語と翻訳先の言語を指定する。
次に、ユーザは、音声入力部２１１から、任意の翻訳対象の音声を順次入力する。音声入力部２１１は、入力音声を原語デジタル音声信号に変換し、記憶部２１２に順次格納する。

音声認識部２１４は、音声情報ＤＢ２２１に格納されている音声情報を用いて、記憶部２１２に格納されている原語デジタル音声信号を順次解析し、音声に対応する各音素を特定する。音声認識部２１４は、特定した音素の列から、原語テキストデータを求め、記憶部２１２に格納する。

一方、翻訳部２１５は、順次生成される原語テキストデータを、言語情報ＤＢ２２２を参照して、指定された翻訳先言語のテキストデータ（翻訳テキストデータ）に順次翻訳し、記憶部２１２に記憶する。

音声合成部２１６は、記憶部２１２に記憶された翻訳テキストデータを順番読み出し、音声情報ＤＢ２２１に記憶されている声紋を用いて、音声データに変換する。さらに、音声合成部２１６は、合成対象の翻訳テキストデータに対応する原語デジタル音声信号を解析して、平均ピッチと平均パワーを求める。

話速度推定部２６２は、記憶部２１２に記憶されている原語デジタル音声信号を解析して、原語音声の話速度Ｖｉを文単位で求め、これと原語の標準話速度Ｖｓとの比Ｖｉ／Ｖｓを求め、これを翻訳言語の標準話速度Ｖｓに乗算することにより、翻訳音声の話速度Ｖｏを求める。話速度推定部２６２は、音声信号合成部２６１に求めた話速度Ｖｏを通知する。

間推定部２６３は、原語デジタル音声信号を解析し、原語音声の文と文の間Ｐｉを求め、これと原語の標準的な間Ｐｓとの比Ｐｉ／Ｐｓを求め、これを翻訳言語の標準的な間Ｐｓに乗算することにより、翻訳音声の間Ｐｏを求める。間推定部２６３は、音声信号合成部２６１に求めた間Ｐｏを通知する。

また、平均ピッチ計測部２６４は、記憶部２１２に格納されている原語デジタル音声信号を解析し、原語音声の平均ピッチＰＣを一文毎に求め、音声信号合成部２６１に通知する。

平均パワー計測部２６５は、記憶部２１２に格納されている原語デジタル音声信号を解析し、入力音声の平均パワーＰＷを一文毎に求め、音声信号合成部２６１に通知する。

音声信号合成部２６１は、記憶部２１２に記憶されている翻訳テキストデータを解析し、音声情報ＤＢ２２１が記憶している音声情報を用いて翻訳デジタル音声信号を合成する。音声信号合成部２６１は、翻訳デジタル音声信号を、翻訳音声が、話速度Ｖｏ、間Ｐo、平均ピッチＰＣ、平均パワーＰＷとを有するように、翻訳デジタル音声信号を合成し、音声出力部２１７に出力する。

音声出力部２１７は、翻訳デジタル音声信号をアナログ信号に変換し、スピーカを介して音声に変換して出力する。

この出力音声は、発話者が発した音声の翻訳であり、その音質は、発話者自身の音声の音質に等しく、その話速度と間と音量とは、原語音声の話速度と間と音量とに対応している。従って、発話者自身が翻訳音声を話している印象を、聞き手に与えることができる。

以上の動作を、図７に示す具体例に基づいて説明する。
まず、原語を日本語、翻訳語を英語とする。

図７（ａ）に示すように、発話者が、第１文「図１は、装置の外観を示しています。」を話速度Ｖi１で発話し、間Ｐi1を置いて、第２文「図１を参照して、この装置を説明します。」を話速度Ｖi2で発話し、間Ｐi2を置いて、第３文「この装置はマイクを備えています。」を話速度Ｖi3で発話したとする。

音声入力部２１１は、入力音声を原語デジタル音声信号に変換し、記憶部２１２に順次格納する。音声認識部２１４は、音声情報ＤＢ２２１に格納されている音声情報を用いて、記憶部２１２に記憶された原語デジタル音声データを順次解析し、原語テキストデータを求め、記憶部２１２に格納する。

翻訳部２１５は、生成された原語テキストデータを、言語情報ＤＢ２２２を参照して、図７（ｂ）に示すように、第１文を「Fig. 1 shows the appearance of equipment.」と、第２文を「 This equipment is explained with reference to Fig. 1.」と、第３文を「The equipment is equipped with a microphone.」と翻訳し、記憶部２１２に記憶する。

また、話速度推定部２６２は、日本語第１文の話速度Ｖi1から、英文第１文の話速度Ｖo1＝Ｖi1・Ｖes／Ｖjs（Ｖes：英語の標準話速度，Ｖjs日本語の標準話速度）を求め、日本語第２文の話速度Ｖi2から、英文第２文の話速度Ｖo2＝Ｖi2・Ｖes／Ｖjsを求め、日本語第３文の話速度Ｖi3から、英文第３文の話速度Ｖo3＝Ｖi3・Ｖes／Ｖjsを求める。

また、間推定部２６３は、日本語第１文と第２文の間Ｐi1から、英文第１文と第２文の間Ｐo1＝Ｐi1・Ｐes／Ｐjs（Ｐes：英語の標準間，Ｐjs日本語の標準間）を求め、日本語第２文と第３文の間Ｐi2から、英文第２文と第３文の間Ｐo2＝Ｐi2・Ｐes／Ｐjsを求める。

音声信号合成部２６１は、記憶部２１２に記憶されている翻訳テキストデータから、言語情報ＤＢ２２２に記憶されている発話者自身の声紋を用いて、翻訳文の第１文「Fig. 1 shows the appearance of equipment.」を話速度Ｖo1、平均ピッチＰＣ１，平均パワーPＷ1で発話し、間Ｐo1を置いて、翻訳第２文「This equipment is explained with reference to Fig. 1.」を話速度Ｖo2、平均ピッチＰＣ2，平均パワーＰＷ2で発話し、間Ｐo2を置いて、翻訳第３文「The equipment is equipped with a microphone.」を話速度Ｖo3、平均ピッチＰＣ3，平均パワーＰＷ3で発話するような翻訳デジタル音声信号を生成する。

音声出力部２１７は、合成された翻訳デジタル音声信号に従って、スピーカから、翻訳文の第１文「Fig. 1 shows the appearance of equipment.」を話速度Ｖo1、平均ピッチＰc１，平均パワーＰa1で放音し、間Ｐo1を置いて、第２文「This equipment is explained with reference to Fig. 1.」を話速度Ｖo2、平均ピッチＰc2，平均パワーＰa2で放音し、間Ｐo2を置いて、第３文「The equipment is equipped with a microphone.」を話速度Ｖo3、平均ピッチＰc3，平均パワーＰa3で放音する。

以上説明したように、本実施形態に係る音声翻訳システム２００によれば、音質を発話者の声に似せるだけでなく、話し方まで発話者に似せた形態で翻訳音声を出力することができる。

さらに、音声情報ＤＢ２２１に記憶している声紋を、発話者の声紋等ではなく、キャラクタの音声の声紋等とすれば、任意の音声で翻訳音声を出力することができる。

実施形態２では、記憶されている声紋を使用して翻訳文の音声を合成したが、音声を合成する手法は、任意である。例えば、話者の音声の特徴を予め求めておき、音声信号合成部１６１が、その特徴を有するように、音声を合成するようにしてもよい。

（実施形態３）
実施の形態２においては、入力音声の平均ピッチと出力音声の平均ピッチは、等しくなる。一方、例えば、日本語のパスバンドは、１２５Ｈｚ〜１．５ｋＨｚ、米語のパスバンドは７５０Ｈｚ〜６ｋＨｚ、ドイツ語のパスバンドは１２５Ｈｚ〜３ｋＨｚである。従って、例えば、原語である日本語の平均ピッチＰＣを、そのまま翻訳語である米語の平均ピッチに適用すると、翻訳音声として違和感を与えるおそれがある。

このような場合には、原語と翻訳後の組み合わせ毎に、原語の平均ピッチＰＣｉを翻訳語の平均ピッチＰＣｏに変換する関数ＰＣｏ＝ｇ（ＰＣｉ）を設定し、言語情報ＤＢ２２２に格納しておく。平均ピッチ計測部２６４が、原語の平均ピッチＰＣを関数ｇ（ＰＣｉ）に適用して翻訳語の平均ピッチＰＣｏを求め、これを翻訳後の平均ピッチとして、音声信号合成部２６１に通知する。

このようにすれば、音程的に違和感を与えない翻訳音声を出力することができる。

（実施の形態４）
実施の形態１〜３においては、ユーザ毎に専用の音声翻訳システムとなっている。この発明は、複数ユーザに共用の音声翻訳システムに適用することも可能である。

以下、このような実施の形態を説明する。
本実施の形態に係る音声翻訳システムの構成は、図３に示す構成と同一である。

ただし、音声情報ＤＢ２２１は、図８に示すように、発話者毎に、「識別情報」と、「特徴モデル」と、「声紋データ」とが関連づけられて一つのレコードとして複数組記憶している。これは、音声翻訳システム２００の稼働前に、学習段階で、予め、複数人の音声を予め学習することにより得られる。

「特徴モデル」は、音声の特徴を示す情報であり、声紋生成部２３１が生成した声紋に基づいて作成される。特徴モデルとしては、例えば、後述する類似度演算部２３３の照合に、ＶＱ法（Vector Quantization: ベクトル量子化）を用いる場合はコードブックと呼ばれる特徴モデルを、ＧＭＭ法（Gausian Mixture Model：混合ガウス分布モデル）等の統計的手法を用いる場合は、複数の多次元正規分布のパラメータを採用する。

音声分析部２１３は、声紋生成部２３１と特徴モデル生成部２３２と類似度演算部２３３とを備える。
声紋生成部２３１は、既知のテキストデータを読み上げた原語デジタル音声信号から、各音素の声紋を生成する。

特徴モデル生成部２３２は、声紋生成部２３１で生成された声紋又は記憶部２１２に記憶されている原語デジタル音声信号を解析して、発話者の音声の特徴モデルを生成する。

類似度演算部２３３は、特徴モデル生成部２３２が生成した特徴モデルと音声情報ＤＢ２２１に記憶されている特徴モデルとを照合し、その類似度を算出し、最も類似するものを、音声情報ＤＢ２２１に格納されている特徴モデルのうちから特定する。

次に、上記構成を有する音声翻訳システム２００の動作を説明する。
学習段階では、音声翻訳システム２００の利用予定者は、それぞれ、予め定められた文書を読み上げる。音声入力部２１１は、これを原語デジタル音声信号に変換し、記憶部２１２に格納する。

声紋生成部２３１は、原語デジタル音声信号と予め定められた文章とに基づいて、各音素の声紋を生成する。特徴モデル生成部２３２は、生成された声紋に基づいて特徴モデルを生成する。

音声情報ＤＢ２２１は、生成された声紋と特徴モデルと識別情報とを対応付けて記憶する。

翻訳段階では、ユーザが原語音声を入力すると、音声入力部２１１は、その音声をＡ／Ｄ変換して原語デジタル音声信号を生成し、記憶部２１２に記録する。

声紋生成部２３１は、記憶部２１２に記憶された原語デジタル音声信号を分析し、その声紋を生成する。特徴モデル生成部２３２は、声紋生成部２３１が生成した声紋から発話者の音声の特徴モデルを生成する。類似度演算部２３３は、特徴モデル生成部２３２が今回生成した特徴モデルと音声情報ＤＢ２２１に登録されている特徴モデルの類似度を求め、最も類似度の高いものを特定する。

類似度演算部２３３は、類似度が最も高いと特定した特徴モデルに対応付けられている識別情報を求め、音声合成部２１６に通知する。

音声信号合成部２１６は、通知された識別情報に対応付けられている声紋データを用いて、翻訳デジタル音声信号を合成する。

ここで、図７（ａ）に示す第１文をＡ氏が、第２文をＢ氏が、第３文をＣ氏が発したとする。
すると、第１文については、類似度演算部２３３は、特徴モデル生成部２３２が生成した特徴モデルと、音声情報ＤＢ２２２に登録されている特徴モデルとの類似度を求め、最も類似する特徴モデルを特定し、対応する識別情報を音声信号合成部２１６に通知する。この場合、Ａ氏の音声の特徴モデルに対応付けられている識別情報（識別情報１とする）が音声信号合成部２１６に通知される。同様にして、第２文については、Ｂ氏の音声の特徴モデルに対応付けられている識別情報（識別情報２とする）が音声信号合成部２１６に通知され、第３文については、Ｃ氏の音声の特徴モデルに対応付けられている識別情報（識別情報３とする）が音声信号合成部２１６に通知される。

音声合成部２１６は、通知に従って、図７（ｂ）に示す翻訳テキストデータの第１文については、通知された識別情報１に対応する声紋データを用いて音声信号を合成し、出力する。同様に、翻訳テキストデータの第２文については、識別情報２に対応する声紋データを用いて音声信号を合成し、翻訳テキストデータの第３文については、識別情報３に対応する声紋データを用いて音声信号を合成する。

従って、翻訳音声は、第１文はＡ氏の音声で再生され、第２文はＢ氏の音声で再生され、第３文はＣ氏の音声で再生される。

このように、実施の形態４によれば、複数ユーザが１台の音声翻訳システム２００を使用してそれぞれの音声で翻訳音声を出力することができる。

以上、本発明の実施形態について説明したが、本発明は上記実施形態によって限定されるものではない。

音声翻訳システム１００，２００の構成要素が、全て、１つのコンピュータ内に存在しても良いし、１以上の構成要素が別個のコンピュータに存在しても良い。また、１つの構成要素が複数のコンピュータで構成されるシステムで実現されても良い。構成要素が２以上のコンピュータに分かれて存在する場合は、コンピュータ間の通信により音声翻訳システム１００、２００を実現する。

音声翻訳システム１００、２００、音声合成システム１１０を、クラウドコンピューティングで実現するものとしても良い。例えば、クライアント側でマイクロホンから音声を入力し、音声翻訳システム１００、２００を実現するコンピュータに、ネットワークを介して入力音声を送信する。当該コンピュータで音声翻訳を実行して、出力音声をクライアントに送信する。出力音声を受信したクライアントは、音声を出力する。

このようにすれば、クライアントの処理負荷が小さいので、クライアントを携帯電話機等の小型の端末で実現可能であるし、ユーザは、どこからでも音声翻訳のサービスを受けることができる。
その他、前記のハードウェア構成やフローチャートは一例であり、任意に変更および修正が可能である。

なお、音声翻訳装置１００、２００、音声合成装置１１０の各機能を、ＯＳ（Operating System）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。また、アプリケーションプログラムを記録媒体に格納したり、通信ネットワークを介して配信してもよい。

本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施形態及び変形が可能とされるものである。また、上述した実施形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
音声を変換して出力する音声合成システムであって、
音声を入力し、入力した音声を認識してテキストデータに変換する音声認識手段と、
入力した音声の話速度を求める話速度特定手段と、
前記音声認識手段で変換したテキストデータに対応し、前記話速度特定手段で特定した話速度に対応する話速度を有する音声の音声信号を合成する音声合成手段と、
を備える音声合成システム。
（付記２）
前記音声合成システムは、音声を他言語の音声に変換して出力する音声翻訳システムであって、
前記音声認識手段は、一の言語の音声を入力し、入力した音声を原語テキストデータに変換し、
前記原語テキストデータを翻訳し、他の言語のテキストデータを生成する翻訳手段を備え、
前記音声合成手段は、前記翻訳手段で生成した他の言語のテキストデータに対応し、前記話速度特定手段で特定した話速度に対応する話速度を有する他言語の音声の音声信号を合成する、
ことを特徴とする付記１に記載の音声合成システム。
（付記３）
前記話速度特定手段で特定した話速度に対応する他の言語の話速度を求める他言語話速度特定手段を更に備え、
前記音声合成手段は、前記他言語話速度特定手段で特定した話速度を有する音声の音声信号を合成する、
ことを特徴とする付記２に記載の音声合成システム。
（付記４）
前記他言語話速度特定手段は、前記話速度特定手段で特定した話速度と一の言語の基準話速度との比の値に、他言語の基準話速度を乗算して、他言語の話速度を求める、
ことを特徴とする付記３に記載の音声合成システム。
（付記５）
入力した音声の間を特定する間特定手段を更に備え、
前記音声合成手段は、前記間特定手段により特定された間に対応する間を有する音声の音声信号を出力する、
ことを特徴とする付記１乃至４の何れかに記載の音声合成システム。
（付記６）
入力した音声のピッチを特定するピッチ特定手段を更に備え、
前記音声合成手段は、前記ピッチ特定手段により特定されたピッチに対応するピッチを有する音声信号を出力する、
ことを特徴とする付記１乃至５の何れかに記載の音声合成システム。
（付記７）
入力した音声の言語と翻訳言語とを指定する手段と、
入力した音声のピッチを特定するピッチ特定手段と、を備え、
前記音声合成手段は、前記ピッチ特定手段により特定されたピッチと、入力音声の言語と翻訳言語の組み合わせと、に基づいて翻訳音声のピッチを求め、求めたピッチ対応するピッチを有する音声の音声信号を合成する、
ことを特徴とする付記２、３又は４に記載の音声合成システム。
（付記８）
前記音声合成手段は、入力した音声の特徴又は指定された音声の特徴を有する音声の音声信号を合成する、
ことを特徴とする付記１乃至７の何れかに記載の音声合成システム。
（付記９）
音声をテキストデータに変換し、
音声の話速度を特定し、
前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する、
ことを特徴とする音声合成方法。
（付記１０）
コンピュータに、
音声をテキストデータに変換する処理と、
音声の話速度を特定する処理と、
前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する処理と、
を実行させるプログラム。

１００：音声翻訳システム
１０１：音声認識部
１０２：翻訳部
１０３：話速度特定部
１０４：音声合成部
１１０：音声合成システム
２００：音声翻訳システム
２１１：音声入力部
２１２：記憶部
２１３：音声分析部
２１４：音声認識部
２１５：翻訳部
２１６：音声合成部
２１７：音声出力部
２２１：音声情報データベース
２２２：言語情報データベース
２３１：声紋生成部
２３２：特徴モデル生成部
２３３：類似度演算部
２６１：音声信号合成部
２６２：話速度推定部
２６３：間推定部
２６４：平均ピッチ計測部
２６５：平均パワー計測部

Claims

音声を変換して出力する音声合成システムであって、
音声を入力し、入力した音声を認識してテキストデータに変換する音声認識手段と、
入力した音声の話速度を求める話速度特定手段と、
前記音声認識手段で変換したテキストデータに対応し、前記話速度特定手段で特定した話速度に対応する話速度を有する音声の音声信号を合成する音声合成手段と、
を備える音声合成システム。
前記音声合成システムは、音声を他言語の音声に変換して出力する音声翻訳システムであって、
前記音声認識手段は、一の言語の音声を入力し、入力した音声を原語テキストデータに変換し、
前記原語テキストデータを翻訳し、他の言語のテキストデータを生成する翻訳手段を備え、
前記音声合成手段は、前記翻訳手段で生成した他の言語のテキストデータに対応し、前記話速度特定手段で特定した話速度に対応する話速度を有する他言語の音声の音声信号を合成する、
ことを特徴とする請求項１に記載の音声合成システム。
前記話速度特定手段で特定した話速度に対応する他の言語の話速度を求める他言語話速度特定手段を更に備え、
前記音声合成手段は、前記他言語話速度特定手段で特定した話速度を有する音声の音声信号を合成する、
ことを特徴とする請求項２に記載の音声合成システム。
前記他言語話速度特定手段は、前記話速度特定手段で特定した話速度と一の言語の基準話速度との比の値に、他言語の基準話速度を乗算して、他言語の話速度を求める、
ことを特徴とする請求項３に記載の音声合成システム。
入力した音声の間を特定する間特定手段を更に備え、
前記音声合成手段は、前記間特定手段により特定された間に対応する間を有する音声の音声信号を出力する、
ことを特徴とする請求項１乃至４の何れか１項に記載の音声合成システム。
入力した音声のピッチを特定するピッチ特定手段を更に備え、
前記音声合成手段は、前記ピッチ特定手段により特定されたピッチに対応するピッチを有する音声信号を出力する、
ことを特徴とする請求項１乃至５の何れか１項に記載の音声合成システム。
入力した音声の言語と翻訳言語とを指定する手段と、
入力した音声のピッチを特定するピッチ特定手段と、を備え、
前記音声合成手段は、前記ピッチ特定手段により特定されたピッチと、入力音声の言語と翻訳言語の組み合わせと、に基づいて翻訳音声のピッチを求め、求めたピッチ対応するピッチを有する音声の音声信号を合成する、
ことを特徴とする請求項２、３又は４に記載の音声合成システム。
前記音声合成手段は、入力した音声の特徴又は指定された音声の特徴を有する音声の音声信号を合成する、
ことを特徴とする請求項１乃至７の何れか１項に記載の音声合成システム。
音声をテキストデータに変換し、
音声の話速度を特定し、
前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する、
ことを特徴とする音声合成方法。
コンピュータに、
音声をテキストデータに変換する処理と、
音声の話速度を特定する処理と、
前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する処理と、
を実行させるプログラム。