JP2014123072A - 音声合成システム及び音声合成方法 - Google Patents

音声合成システム及び音声合成方法 Download PDF

Info

Publication number
JP2014123072A
JP2014123072A JP2012280101A JP2012280101A JP2014123072A JP 2014123072 A JP2014123072 A JP 2014123072A JP 2012280101 A JP2012280101 A JP 2012280101A JP 2012280101 A JP2012280101 A JP 2012280101A JP 2014123072 A JP2014123072 A JP 2014123072A
Authority
JP
Japan
Prior art keywords
speech
voice
speed
language
speaking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012280101A
Other languages
English (en)
Inventor
Toshiyuki Tada
俊幸 多田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012280101A priority Critical patent/JP2014123072A/ja
Publication of JP2014123072A publication Critical patent/JP2014123072A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】発話者の話し方の特徴を的確に体現した翻訳音声を出力する音声合成システムと方法を提供する。
【解決手段】音声合成システム110は、音声を入力し、入力した音声をテキストデータに変換する音声認識手段101と、入力音声の話速度を求める話速度特定手段103と、音声認識手段101が生成したテキストデータに対応し、話速度特定手段103で特定した話速度に対応する話速度を有する音声の音声信号を合成する音声合成手段104と、を備える。
【選択図】図1

Description

本発明は、音声合成システム及び音声合成方法に関する。
話し言葉を他の言語に翻訳すること(以下、単に、音声翻訳と呼ぶ)を自動化した音声翻訳システムが存在する。音声翻訳システムは、一般に、発話者が発した音声を音声認識によりテキストデータ化し、これを、所定の他言語のテキストデータに翻訳し、音声合成して出力する。
音声合成の際、発話者の音声を利用して、発言者が話しているように出力する音声翻訳システムも存在する(例えば、特許文献1,特許文献2,特許文献3)。
特許文献1に記載の音声翻訳システムは、発話者の音声の平均パワー、平均ピッチ周波数、母音(フォルマント)情報を求め、母音情報を翻訳後の言語の母音情報に変換して、平均パワー、平均ピッチ周波数、翻訳後言語の母音情報を用いて、翻訳後の音声を合成する。
特許文献2に記載の音声翻訳システムは、発話者の音声データを用いて、音の高さと音色に関し、発話者自身の声に似た声を合成して出力する。
特許文献3に記載の音声翻訳システムは、翻訳先の言語の発音コードと発話者の発音音声とを対応付けて声紋メモリに記憶しておき、翻訳後のテキストデータの各発音コードに対応する発音音声を声紋メモリから読み出して出力する。
特許文献1〜3に開示された音声翻訳システムによれば、翻訳後の音声の音質(高さ・音色等)を、発話者の音声の音質に近づけることができる。
特開昭63−073299号公報 特開平06−318100号公報 特開2001−014314号公報
特許文献1〜3に記載の音声翻訳システムは、翻訳後のテキストデータを音声に変換して、翻訳音声を出力する。このため、音声の出力速度、文と文の間隔、抑揚等は一定になる。よって、翻訳テキストデータを淡々と読み上げるタイプの音声となってしまう。このような音声では、音質は類似しているとしても、発話者の話し方の特徴を翻訳後の音声で表現できず、発話者自身が翻訳音声を発しているような臨場感を与えることができない。
翻訳以外に、音声を変換して出力する場合にも同様の問題が存在する。
本発明は、上述の事情の下になされたもので、発話者の話し方の特徴をより的確に体現した合成音声を出力する音声合成システムと方法を提供することを目的とする。
上記目的を達成するため、本発明の音声合成システムは、
音声を変換して出力する音声合成システムであって、
音声を入力し、入力した音声を認識してテキストデータに変換する音声認識手段と、
入力した音声の話速度を求める話速度特定手段と、
前記音声認識手段で変換したテキストデータに対応し、前記話速度特定手段で特定した話速度に対応する話速度を有する音声の音声信号を合成する音声合成手段と、
を備える。
上記目的を達成するため、本発明の音声合成方法は、
音声をテキストデータに変換し、
音声の話速度を特定し、
前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する。
上記目的を達成するため、本発明のプログラムは、
コンピュータに、
音声をテキストデータに変換する処理と、
音声の話速度を特定する処理と、
前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する処理と、
を実行させる。
本願発明によれば、入力した音声の話速度に対応した話速度の音声を合成する。これにより、発話者の話し方の特徴を体現した合成音声を出力することができる。
(a)実施形態1に係る音声翻訳システムのブロック図であり、(b)は、実施形態1に係る音声翻訳システムの応用例のブロック図である。 (a)は、原語の入力例、(b)は翻訳の例を示す図である。 実施形態2に係る音声翻訳システムのブロック図である。 音声情報DBに格納される音声データの例を示す図である。 実施形態2の音声合成部の構成を示すブロック図である。 言語別の標準話速度と標準間の例を示す図である。 (a)は原語入力の例、(b)は翻訳の例を示す図である。 実施形態4の音声翻訳システムのブロック図である。
以下、本発明の実施形態に係る音声翻訳システムを説明する。
(実施形態1)
実施形態1に係る音声翻訳システム100は、音声を他言語の音声に変換して出力する音声翻訳システムであって、図1に示すように、音声認識部101と、翻訳部102と、話速度特定部103と、音声合成部104と、から構成される。
音声認識部101は、一の言語の音声を入力し、入力した音声を、音声認識技術により、テキストデータ(原語テキストデータ)に変換する。
翻訳部102は、翻訳辞書などを備え、原語テキストデータを翻訳し、他の言語のテキストデータを生成する。
話速度特定部103は、入力した音声の話速度を求める。話速度とは、言葉を話す速度であり、例えば、単位時間あたりの音節数、音素数等で表される。
音声合成部104は、翻訳部102が生成した他の言語のテキストデータに対応し、話速度特定部103で特定した話速度に対応する話速度を有する音声の音声信号を合成して出力する。この音声信号を例えば、スピーカを介して出力することにより、入力音声を他言語に翻訳した音声を得ることができる。
次に、上記構成を有する音声翻訳システム100の動作を具体例に基づいて説明する。
以下の説明では、原語を日本語、翻訳言語を英語とする。
図2(a)に示すように、発話者が第1文「図1は、装置の外観を示しています。」を話速度Vi1で発話し、第2文「図1を参照して、この装置を説明します。」を話速度Vi2で発話したとする。
音声認識部101は、音声を認識し、原語テキストデータを生成する。
翻訳部102は、生成された原語テキストデータを、既知の翻訳技術を使用して、図2(b)に示すように、第1文を「Fig. 1 shows the appearance of equipment.」に翻訳し、第2文を「This equipment is explained with reference to Fig. 1.」に翻訳し、翻訳テキストデータを生成する。
また、話速度特定部103は、原語第1文の話速度Vi1と原語第2文の話速度Vi2を求める。これは、各文の音節(又は音素)数/1文の時間から求めることができる。話速度特定部103は、求めた原語話速度を、原語と翻訳語との組み合わせ毎に予め設定しておいた関数f(Vi)に代入し、翻訳第1文の話速度Vo1=f(Vi1)と翻訳第2文の話速度Vo2=f(Vi2)とを順次求め、音声合成部104に通知する。
音声合成部104は、翻訳テキストデータから、翻訳文の音声を合成する。音声合成部104は、発話者自身の声紋を使用して発話者の音声に類似する音声を合成すること、標準的な音声の音声信号を合成し、これを発話者の音声的特徴を従って変形すること等により、発話者の音声の特徴を有する音声(発話者の音声に類似する音声)を合成する。
さらに、音声合成部104は、各翻訳後の音声を、話速度特定部103が特定した話速度を有するように、合成する。例えば、音声合成部104は、翻訳第1文「Fig. 1 shows the appearance of equipment.」の話速度がVo1で、翻訳第2文「This equipment is explained with reference to Fig. 1.」の話速度がVo2となるように音声信号を合成する。
音声合成部104は、合成した音声信号を出力する。この音声信号を、スピーカ等を介して出力することにより、発話者と類似の音質で、第1文「Fig. 1 shows the appearance of equipment.」が速度Vo1で、第2文「This equipment is explained with reference to Fig. 1.」が速度Vo2でそれぞれ出力される。
以上説明したように、本実施形態にかかる音声翻訳システム100によれば、音質を発話者に似せるだけでなく、話し方(話す速度)まで話者に似せた形態で翻訳音声を出力することができる。
なお、音声合成部104で生成する音声は、発話者の音声に類似する音声に限定されない。例えば、合成する音声は、発話者と全く無関係の人の音声でも良い。また、例えば、俳優、アニメのキャラクタ(声優)、友人の音声、動物の鳴き声等でもよい。
この発明は、図1(b)に示すように、翻訳部102を取り除き、音声認識部101で生成したテキストデータに対応する音声を、音声合成部104で合成する最小の構成からなる音声合成システム110にも適用可能である。この場合、音声合成部104で合成する音声は、通常、発話者以外の音声、例えば、俳優、歌手、アニメのキャラクタ(声優)の音声、動物の鳴き声等となる。
さらに、音声合成部104に複数タイプ(キャラクタ)の音声データ(声紋)を記憶させておき、音声合成部104が、ユーザの操作・その他の条件により適宜選択して使用するようにしてもよい。
(実施形態2)
以下、実施形態1に係る音声翻訳システム100をより具体化した実施形態2に係る音声翻訳システム200ついて説明する。
本実施形態の音声翻訳システム200は、音声の特徴と話速度だけでなく、話しの間、平均ピッチ、平均パワーについても、発話者の音声の特徴を有する翻訳音声を出力する。
音声翻訳システム200は、コンピュータで構成され、図3に示すように、音声入力部211と、記憶部212と、音声分析部213と、音声認識部214と、翻訳部215と、音声合成部216と、音声出力部217と、音声情報DB221と、言語情報DB222とを備える。
音声入力部211は、マイク、A/D(アナログ−デジタル)変換器等を備え、発話者の音声(原語音声)を入力し、原語音声を原語デジタル音声信号に変換して出力する。
記憶部212は、RAM(Random Access Memory)等から構成され、音声入力部211から出力された原語デジタル音声信号を記憶する。記憶部212は、さらに、音声認識部214が生成した原語テキストデータ(原語デジタル音声信号を音声認識して生成したテキストデータ)、及び翻訳部215が生成した翻訳テキストデータ(翻訳部215が原語テキストデータを翻訳して生成したテキストデータ)を記憶する。
音声分析部213は、音声学習段階で、記憶部212に新たに記憶された学習用の原語デジタル音声信号を分析して、図4に示すように、音素と声紋とを対応付けた情報を生成し、音声情報DB221に格納する。
音声認識部214は、記憶部212に記憶された原語デジタル音声信号を、音声情報DB221に記憶されている音声情報を参照して認識し、入力音声を書き起こした原語テキストデータを生成する。音声認識部214は、生成した原語テキストデータを記憶部212に格納する。
翻訳部215は、記憶部212に記憶された原語テキストデータを、言語情報DB222に記憶されている言語情報を用いて、指示された言語のテキストデータ(翻訳テキストデータ)に翻訳する。
音声合成部216は、記憶部212に記憶されている翻訳テキストデータに対応する翻訳デジタル音声信号(翻訳音声信号)を生成して出力する。
音声合成部216は、図5に示すように、音声信号合成部261と、話速度推定部262と、間推定部263と、平均ピッチ計測部264と、平均パワー計測部265とを備える。
音声信号合成部261は、記憶部212に記憶されている翻訳テキストデータを読み出し、言語情報DB222に記憶されている言語情報等を用いて、形態素解析を行って、翻訳テキストデータを形態素に分割すると共に、品詞、読、アクセント型、などの情報を各形態素に付加する。音声信号合成部261は、これらの情報に基づいて、翻訳テキストデータを音素片の列に変換し、時間領域での韻律の変換を行い、音素片を接続することにより翻訳デジタル音声信号を合成する。
話速度推定部262は、記憶部212に格納されている原語デジタル音声信号を解析して話者が話す速度(話速度)を判別し、これに基づいて、翻訳音声の出力速度を推定し、音声信号合成部261に通知する。なお、話速度は、単位時間あたりの音素の平均数等から原語テキストデータの一文ごとに求める。音声信号合成部261は、出力される翻訳音声が、話速度推定部262で推定された話速度となるように翻訳デジタル音声信号を生成する。
より具体的に説明する。言語情報DB222は、図6に示すように、言語毎に標準的な話速度(単位時間あたりの音素数)Vsを記憶している。話速度推定部262は、発話者の原語音声の話速度Viを求め、求めた原語音声の話速度Viと原語の標準話速度Vsとの比の値Vi/Vsを求め、これを、翻訳言語の標準話速度Vsに乗算することにより、出力する翻訳音声の話速度Voを求める。例えば、原語を日本語、翻訳原語を英語とすると、話速度推定部262は、原語デジタル音声信号を解析して、原語音声の話速度Viを求め、これと、日本語の標準話速度Vjsの比の値Vi/Vjsを求め、これを、英語の標準話速度Vesに乗算することにより、翻訳音声の話速度Voを求める。音声信号合成部261は、翻訳音声の話速度がVoになるように、翻訳デジタル音声信号を合成する。これにより、早口で話す人の翻訳音声は早口になり、ゆったり話す人の翻訳音声はゆったりしたものとなる。
間推定部263は、記憶部212に格納されている原語デジタル音声信号を解析して発話者が話す文と文との間(間隔:間合い)を判別し、これに基づいて、翻訳音声の文と文の間隔を推定し、音声信号合成部261に通知する。音声信号合成部261は、翻訳音声の間がPoになるように、翻訳デジタル音声信号を出力する。
より具体的に説明する。言語情報DB222は、図6に示すように、言語毎に標準的な間Psを記憶している。間推定部263は、原語音声の文と文との間Piを求め、求めた間Piと原語の標準的な間Psとの比の値Pi/Psを求め、これを、翻訳言語の標準的な間Psに乗算することにより、翻訳音声の間Poを求める。原語を日本語、翻訳原語を英語とすると、間推定部263は、原語音声の間Piを求め、これと、日本語の標準的な間Pjsとの比の値Pi/Pjsを求め、これを、英語の標準的な間Pesに乗算することにより、翻訳音声の間Po=Pi・Pes/Pjsを求める。音声信号合成部261は、翻訳音声の間がPoになるように、翻訳デジタル音声信号を出力する。これにより、文と文とを間を取って話す人の翻訳音声の間は長くなり、間を取らずに話す人の翻訳音声の間は短くなる。
平均ピッチ計測部264は、記憶部212に格納されている原語デジタル音声信号を解析し、原語音声の平均ピッチPCを一文毎に求め、音声信号合成部261に通知する。音声信号合成部261は、翻訳音声の平均ピッチが原語音声の平均ピッチPCに一致するように、翻訳デジタル音声信号を生成する。
平均パワー計測部265は、記憶部212に格納されている原語デジタル音声信号を解析し、入力音声(=原語音声)の平均パワーPWを一文毎に求め、音声信号合成部261に通知する。音声信号合成部261は、翻訳音声の平均パワーが入力音声の平均パワーPWに一致するように、翻訳デジタル音声信号を生成する。
音声情報DB221は、図4に示すように、音素と音素に対応する声紋を表す声紋情報とを対応付けて記憶する。
言語情報DB222は、ある言語のテキストデータを他の言語のテキストデータに翻訳するための、辞書などを含む翻訳情報が格納されている。
また、言語情報DB222は、翻訳に必要な種々の言語情報を記憶する。言語情報DB222は、さらに、図6に示すように、言語毎に、標準的な話速度Vsと標準的な間Psとを記憶している。
次に、上記構成を有する音声翻訳システム200の動作を説明する。
実際に翻訳を行う前に、ユーザ(発話者)は、音声情報DB221に自らの音声の情報を登録する。
この場合、ユーザは、音声入力部211から、予め定められた文章を読み上げる。音声入力部211は、音声を入力し、原語デジタル音声信号に変換して、記憶部212に格納する。音声分析部213は、記憶部212に格納された原語デジタル音声信号を音素に区切って声紋を分析し、図4に示すように、音素と対応付けて、声紋を音声情報DB221に登録する。
通常の音声翻訳時には、まず、ユーザは、原語と翻訳先の言語を指定する。
次に、ユーザは、音声入力部211から、任意の翻訳対象の音声を順次入力する。音声入力部211は、入力音声を原語デジタル音声信号に変換し、記憶部212に順次格納する。
音声認識部214は、音声情報DB221に格納されている音声情報を用いて、記憶部212に格納されている原語デジタル音声信号を順次解析し、音声に対応する各音素を特定する。音声認識部214は、特定した音素の列から、原語テキストデータを求め、記憶部212に格納する。
一方、翻訳部215は、順次生成される原語テキストデータを、言語情報DB222を参照して、指定された翻訳先言語のテキストデータ(翻訳テキストデータ)に順次翻訳し、記憶部212に記憶する。
音声合成部216は、記憶部212に記憶された翻訳テキストデータを順番読み出し、音声情報DB221に記憶されている声紋を用いて、音声データに変換する。さらに、音声合成部216は、合成対象の翻訳テキストデータに対応する原語デジタル音声信号を解析して、平均ピッチと平均パワーを求める。
話速度推定部262は、記憶部212に記憶されている原語デジタル音声信号を解析して、原語音声の話速度Viを文単位で求め、これと原語の標準話速度Vsとの比Vi/Vsを求め、これを翻訳言語の標準話速度Vsに乗算することにより、翻訳音声の話速度Voを求める。話速度推定部262は、音声信号合成部261に求めた話速度Voを通知する。
間推定部263は、原語デジタル音声信号を解析し、原語音声の文と文の間Piを求め、これと原語の標準的な間Psとの比Pi/Psを求め、これを翻訳言語の標準的な間Psに乗算することにより、翻訳音声の間Poを求める。間推定部263は、音声信号合成部261に求めた間Poを通知する。
また、平均ピッチ計測部264は、記憶部212に格納されている原語デジタル音声信号を解析し、原語音声の平均ピッチPCを一文毎に求め、音声信号合成部261に通知する。
平均パワー計測部265は、記憶部212に格納されている原語デジタル音声信号を解析し、入力音声の平均パワーPWを一文毎に求め、音声信号合成部261に通知する。
音声信号合成部261は、記憶部212に記憶されている翻訳テキストデータを解析し、音声情報DB221が記憶している音声情報を用いて翻訳デジタル音声信号を合成する。音声信号合成部261は、翻訳デジタル音声信号を、翻訳音声が、話速度Vo、間Po、平均ピッチPC、平均パワーPWとを有するように、翻訳デジタル音声信号を合成し、音声出力部217に出力する。
音声出力部217は、翻訳デジタル音声信号をアナログ信号に変換し、スピーカを介して音声に変換して出力する。
この出力音声は、発話者が発した音声の翻訳であり、その音質は、発話者自身の音声の音質に等しく、その話速度と間と音量とは、原語音声の話速度と間と音量とに対応している。従って、発話者自身が翻訳音声を話している印象を、聞き手に与えることができる。
以上の動作を、図7に示す具体例に基づいて説明する。
まず、原語を日本語、翻訳語を英語とする。
図7(a)に示すように、発話者が、第1文「図1は、装置の外観を示しています。」を話速度Vi1で発話し、間Pi1を置いて、第2文「図1を参照して、この装置を説明します。」を話速度Vi2で発話し、間Pi2を置いて、第3文「この装置はマイクを備えています。」を話速度Vi3で発話したとする。
音声入力部211は、入力音声を原語デジタル音声信号に変換し、記憶部212に順次格納する。音声認識部214は、音声情報DB221に格納されている音声情報を用いて、記憶部212に記憶された原語デジタル音声データを順次解析し、原語テキストデータを求め、記憶部212に格納する。
翻訳部215は、生成された原語テキストデータを、言語情報DB222を参照して、図7(b)に示すように、第1文を「Fig. 1 shows the appearance of equipment.」と、第2文を「 This equipment is explained with reference to Fig. 1.」と、第3文を「The equipment is equipped with a microphone.」と翻訳し、記憶部212に記憶する。
また、話速度推定部262は、日本語第1文の話速度Vi1から、英文第1文の話速度Vo1=Vi1・Ves/Vjs(Ves:英語の標準話速度,Vjs日本語の標準話速度)を求め、日本語第2文の話速度Vi2から、英文第2文の話速度Vo2=Vi2・Ves/Vjsを求め、日本語第3文の話速度Vi3から、英文第3文の話速度Vo3=Vi3・Ves/Vjsを求める。
また、間推定部263は、日本語第1文と第2文の間Pi1から、英文第1文と第2文の間Po1=Pi1・Pes/Pjs(Pes:英語の標準間,Pjs日本語の標準間)を求め、日本語第2文と第3文の間Pi2から、英文第2文と第3文の間Po2=Pi2・Pes/Pjsを求める。
音声信号合成部261は、記憶部212に記憶されている翻訳テキストデータから、言語情報DB222に記憶されている発話者自身の声紋を用いて、翻訳文の第1文「Fig. 1 shows the appearance of equipment.」を話速度Vo1、平均ピッチPC1,平均パワーPW1で発話し、間Po1を置いて、翻訳第2文「This equipment is explained with reference to Fig. 1.」を話速度Vo2、平均ピッチPC2,平均パワーPW2で発話し、間Po2を置いて、翻訳第3文「The equipment is equipped with a microphone.」を話速度Vo3、平均ピッチPC3,平均パワーPW3で発話するような翻訳デジタル音声信号を生成する。
音声出力部217は、合成された翻訳デジタル音声信号に従って、スピーカから、翻訳文の第1文「Fig. 1 shows the appearance of equipment.」を話速度Vo1、平均ピッチPc1,平均パワーPa1で放音し、間Po1を置いて、第2文「This equipment is explained with reference to Fig. 1.」を話速度Vo2、平均ピッチPc2,平均パワーPa2で放音し、間Po2を置いて、第3文「The equipment is equipped with a microphone.」を話速度Vo3、平均ピッチPc3,平均パワーPa3で放音する。
以上説明したように、本実施形態に係る音声翻訳システム200によれば、音質を発話者の声に似せるだけでなく、話し方まで発話者に似せた形態で翻訳音声を出力することができる。
さらに、音声情報DB221に記憶している声紋を、発話者の声紋等ではなく、キャラクタの音声の声紋等とすれば、任意の音声で翻訳音声を出力することができる。
実施形態2では、記憶されている声紋を使用して翻訳文の音声を合成したが、音声を合成する手法は、任意である。例えば、話者の音声の特徴を予め求めておき、音声信号合成部161が、その特徴を有するように、音声を合成するようにしてもよい。
(実施形態3)
実施の形態2においては、入力音声の平均ピッチと出力音声の平均ピッチは、等しくなる。一方、例えば、日本語のパスバンドは、125Hz〜1.5kHz、米語のパスバンドは750Hz〜6kHz、ドイツ語のパスバンドは125Hz〜3kHzである。従って、例えば、原語である日本語の平均ピッチPCを、そのまま翻訳語である米語の平均ピッチに適用すると、翻訳音声として違和感を与えるおそれがある。
このような場合には、原語と翻訳後の組み合わせ毎に、原語の平均ピッチPCiを翻訳語の平均ピッチPCoに変換する関数PCo=g(PCi)を設定し、言語情報DB222に格納しておく。平均ピッチ計測部264が、原語の平均ピッチPCを関数g(PCi)に適用して翻訳語の平均ピッチPCoを求め、これを翻訳後の平均ピッチとして、音声信号合成部261に通知する。
このようにすれば、音程的に違和感を与えない翻訳音声を出力することができる。
(実施の形態4)
実施の形態1〜3においては、ユーザ毎に専用の音声翻訳システムとなっている。この発明は、複数ユーザに共用の音声翻訳システムに適用することも可能である。
以下、このような実施の形態を説明する。
本実施の形態に係る音声翻訳システムの構成は、図3に示す構成と同一である。
ただし、音声情報DB221は、図8に示すように、発話者毎に、「識別情報」と、「特徴モデル」と、「声紋データ」とが関連づけられて一つのレコードとして複数組記憶している。これは、音声翻訳システム200の稼働前に、学習段階で、予め、複数人の音声を予め学習することにより得られる。
「特徴モデル」は、音声の特徴を示す情報であり、声紋生成部231が生成した声紋に基づいて作成される。特徴モデルとしては、例えば、後述する類似度演算部233の照合に、VQ法(Vector Quantization: ベクトル量子化)を用いる場合はコードブックと呼ばれる特徴モデルを、GMM法(Gausian Mixture Model: 混合ガウス分布モデル) 等の統計的手法を用いる場合は、複数の多次元正規分布のパラメータを採用する。
音声分析部213は、声紋生成部231と特徴モデル生成部232と類似度演算部233とを備える。
声紋生成部231は、既知のテキストデータを読み上げた原語デジタル音声信号から、各音素の声紋を生成する。
特徴モデル生成部232は、声紋生成部231で生成された声紋又は記憶部212に記憶されている原語デジタル音声信号を解析して、発話者の音声の特徴モデルを生成する。
類似度演算部233は、特徴モデル生成部232が生成した特徴モデルと音声情報DB221に記憶されている特徴モデルとを照合し、その類似度を算出し、最も類似するものを、音声情報DB221に格納されている特徴モデルのうちから特定する。
次に、上記構成を有する音声翻訳システム200の動作を説明する。
学習段階では、音声翻訳システム200の利用予定者は、それぞれ、予め定められた文書を読み上げる。音声入力部211は、これを原語デジタル音声信号に変換し、記憶部212に格納する。
声紋生成部231は、原語デジタル音声信号と予め定められた文章とに基づいて、各音素の声紋を生成する。特徴モデル生成部232は、生成された声紋に基づいて特徴モデルを生成する。
音声情報DB221は、生成された声紋と特徴モデルと識別情報とを対応付けて記憶する。
翻訳段階では、ユーザが原語音声を入力すると、音声入力部211は、その音声をA/D変換して原語デジタル音声信号を生成し、記憶部212に記録する。
声紋生成部231は、記憶部212に記憶された原語デジタル音声信号を分析し、その声紋を生成する。特徴モデル生成部232は、声紋生成部231が生成した声紋から発話者の音声の特徴モデルを生成する。類似度演算部233は、特徴モデル生成部232が今回生成した特徴モデルと音声情報DB221に登録されている特徴モデルの類似度を求め、最も類似度の高いものを特定する。
類似度演算部233は、類似度が最も高いと特定した特徴モデルに対応付けられている識別情報を求め、音声合成部216に通知する。
音声信号合成部216は、通知された識別情報に対応付けられている声紋データを用いて、翻訳デジタル音声信号を合成する。
ここで、図7(a)に示す第1文をA氏が、第2文をB氏が、第3文をC氏が発したとする。
すると、第1文については、類似度演算部233は、特徴モデル生成部232が生成した特徴モデルと、音声情報DB222に登録されている特徴モデルとの類似度を求め、最も類似する特徴モデルを特定し、対応する識別情報を音声信号合成部216に通知する。この場合、A氏の音声の特徴モデルに対応付けられている識別情報(識別情報1とする)が音声信号合成部216に通知される。同様にして、第2文については、B氏の音声の特徴モデルに対応付けられている識別情報(識別情報2とする)が音声信号合成部216に通知され、第3文については、C氏の音声の特徴モデルに対応付けられている識別情報(識別情報3とする)が音声信号合成部216に通知される。
音声合成部216は、通知に従って、図7(b)に示す翻訳テキストデータの第1文については、通知された識別情報1に対応する声紋データを用いて音声信号を合成し、出力する。同様に、翻訳テキストデータの第2文については、識別情報2に対応する声紋データを用いて音声信号を合成し、翻訳テキストデータの第3文については、識別情報3に対応する声紋データを用いて音声信号を合成する。
従って、翻訳音声は、第1文はA氏の音声で再生され、第2文はB氏の音声で再生され、第3文はC氏の音声で再生される。
このように、実施の形態4によれば、複数ユーザが1台の音声翻訳システム200を使用してそれぞれの音声で翻訳音声を出力することができる。
以上、本発明の実施形態について説明したが、本発明は上記実施形態によって限定されるものではない。
音声翻訳システム100,200の構成要素が、全て、1つのコンピュータ内に存在しても良いし、1以上の構成要素が別個のコンピュータに存在しても良い。また、1つの構成要素が複数のコンピュータで構成されるシステムで実現されても良い。構成要素が2以上のコンピュータに分かれて存在する場合は、コンピュータ間の通信により音声翻訳システム100、200を実現する。
音声翻訳システム100、200、音声合成システム110を、クラウドコンピューティングで実現するものとしても良い。例えば、クライアント側でマイクロホンから音声を入力し、音声翻訳システム100、200を実現するコンピュータに、ネットワークを介して入力音声を送信する。当該コンピュータで音声翻訳を実行して、出力音声をクライアントに送信する。出力音声を受信したクライアントは、音声を出力する。
このようにすれば、クライアントの処理負荷が小さいので、クライアントを携帯電話機等の小型の端末で実現可能であるし、ユーザは、どこからでも音声翻訳のサービスを受けることができる。
その他、前記のハードウェア構成やフローチャートは一例であり、任意に変更および修正が可能である。
なお、音声翻訳装置100、200、音声合成装置110の各機能を、OS(Operating System)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。また、アプリケーションプログラムを記録媒体に格納したり、通信ネットワークを介して配信してもよい。
本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施形態及び変形が可能とされるものである。また、上述した実施形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
音声を変換して出力する音声合成システムであって、
音声を入力し、入力した音声を認識してテキストデータに変換する音声認識手段と、
入力した音声の話速度を求める話速度特定手段と、
前記音声認識手段で変換したテキストデータに対応し、前記話速度特定手段で特定した話速度に対応する話速度を有する音声の音声信号を合成する音声合成手段と、
を備える音声合成システム。
(付記2)
前記音声合成システムは、音声を他言語の音声に変換して出力する音声翻訳システムであって、
前記音声認識手段は、一の言語の音声を入力し、入力した音声を原語テキストデータに変換し、
前記原語テキストデータを翻訳し、他の言語のテキストデータを生成する翻訳手段を備え、
前記音声合成手段は、前記翻訳手段で生成した他の言語のテキストデータに対応し、前記話速度特定手段で特定した話速度に対応する話速度を有する他言語の音声の音声信号を合成する、
ことを特徴とする付記1に記載の音声合成システム。
(付記3)
前記話速度特定手段で特定した話速度に対応する他の言語の話速度を求める他言語話速度特定手段を更に備え、
前記音声合成手段は、前記他言語話速度特定手段で特定した話速度を有する音声の音声信号を合成する、
ことを特徴とする付記2に記載の音声合成システム。
(付記4)
前記他言語話速度特定手段は、前記話速度特定手段で特定した話速度と一の言語の基準話速度との比の値に、他言語の基準話速度を乗算して、他言語の話速度を求める、
ことを特徴とする付記3に記載の音声合成システム。
(付記5)
入力した音声の間を特定する間特定手段を更に備え、
前記音声合成手段は、前記間特定手段により特定された間に対応する間を有する音声の音声信号を出力する、
ことを特徴とする付記1乃至4の何れかに記載の音声合成システム。
(付記6)
入力した音声のピッチを特定するピッチ特定手段を更に備え、
前記音声合成手段は、前記ピッチ特定手段により特定されたピッチに対応するピッチを有する音声信号を出力する、
ことを特徴とする付記1乃至5の何れかに記載の音声合成システム。
(付記7)
入力した音声の言語と翻訳言語とを指定する手段と、
入力した音声のピッチを特定するピッチ特定手段と、を備え、
前記音声合成手段は、前記ピッチ特定手段により特定されたピッチと、入力音声の言語と翻訳言語の組み合わせと、に基づいて翻訳音声のピッチを求め、求めたピッチ対応するピッチを有する音声の音声信号を合成する、
ことを特徴とする付記2、3又は4に記載の音声合成システム。
(付記8)
前記音声合成手段は、入力した音声の特徴又は指定された音声の特徴を有する音声の音声信号を合成する、
ことを特徴とする付記1乃至7の何れかに記載の音声合成システム。
(付記9)
音声をテキストデータに変換し、
音声の話速度を特定し、
前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する、
ことを特徴とする音声合成方法。
(付記10)
コンピュータに、
音声をテキストデータに変換する処理と、
音声の話速度を特定する処理と、
前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する処理と、
を実行させるプログラム。
100 :音声翻訳システム
101 :音声認識部
102 :翻訳部
103 :話速度特定部
104 :音声合成部
110 :音声合成システム
200 :音声翻訳システム
211 :音声入力部
212 :記憶部
213 :音声分析部
214 :音声認識部
215 :翻訳部
216 :音声合成部
217 :音声出力部
221 :音声情報データベース
222 :言語情報データベース
231 :声紋生成部
232 :特徴モデル生成部
233 :類似度演算部
261 :音声信号合成部
262 :話速度推定部
263 :間推定部
264 :平均ピッチ計測部
265 :平均パワー計測部

Claims (10)

  1. 音声を変換して出力する音声合成システムであって、
    音声を入力し、入力した音声を認識してテキストデータに変換する音声認識手段と、
    入力した音声の話速度を求める話速度特定手段と、
    前記音声認識手段で変換したテキストデータに対応し、前記話速度特定手段で特定した話速度に対応する話速度を有する音声の音声信号を合成する音声合成手段と、
    を備える音声合成システム。
  2. 前記音声合成システムは、音声を他言語の音声に変換して出力する音声翻訳システムであって、
    前記音声認識手段は、一の言語の音声を入力し、入力した音声を原語テキストデータに変換し、
    前記原語テキストデータを翻訳し、他の言語のテキストデータを生成する翻訳手段を備え、
    前記音声合成手段は、前記翻訳手段で生成した他の言語のテキストデータに対応し、前記話速度特定手段で特定した話速度に対応する話速度を有する他言語の音声の音声信号を合成する、
    ことを特徴とする請求項1に記載の音声合成システム。
  3. 前記話速度特定手段で特定した話速度に対応する他の言語の話速度を求める他言語話速度特定手段を更に備え、
    前記音声合成手段は、前記他言語話速度特定手段で特定した話速度を有する音声の音声信号を合成する、
    ことを特徴とする請求項2に記載の音声合成システム。
  4. 前記他言語話速度特定手段は、前記話速度特定手段で特定した話速度と一の言語の基準話速度との比の値に、他言語の基準話速度を乗算して、他言語の話速度を求める、
    ことを特徴とする請求項3に記載の音声合成システム。
  5. 入力した音声の間を特定する間特定手段を更に備え、
    前記音声合成手段は、前記間特定手段により特定された間に対応する間を有する音声の音声信号を出力する、
    ことを特徴とする請求項1乃至4の何れか1項に記載の音声合成システム。
  6. 入力した音声のピッチを特定するピッチ特定手段を更に備え、
    前記音声合成手段は、前記ピッチ特定手段により特定されたピッチに対応するピッチを有する音声信号を出力する、
    ことを特徴とする請求項1乃至5の何れか1項に記載の音声合成システム。
  7. 入力した音声の言語と翻訳言語とを指定する手段と、
    入力した音声のピッチを特定するピッチ特定手段と、を備え、
    前記音声合成手段は、前記ピッチ特定手段により特定されたピッチと、入力音声の言語と翻訳言語の組み合わせと、に基づいて翻訳音声のピッチを求め、求めたピッチ対応するピッチを有する音声の音声信号を合成する、
    ことを特徴とする請求項2、3又は4に記載の音声合成システム。
  8. 前記音声合成手段は、入力した音声の特徴又は指定された音声の特徴を有する音声の音声信号を合成する、
    ことを特徴とする請求項1乃至7の何れか1項に記載の音声合成システム。
  9. 音声をテキストデータに変換し、
    音声の話速度を特定し、
    前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する、
    ことを特徴とする音声合成方法。
  10. コンピュータに、
    音声をテキストデータに変換する処理と、
    音声の話速度を特定する処理と、
    前記テキストデータに対応し、特定した話速度に対応する話速度を有する音声の音声信号を合成する処理と、
    を実行させるプログラム。
JP2012280101A 2012-12-21 2012-12-21 音声合成システム及び音声合成方法 Pending JP2014123072A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012280101A JP2014123072A (ja) 2012-12-21 2012-12-21 音声合成システム及び音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012280101A JP2014123072A (ja) 2012-12-21 2012-12-21 音声合成システム及び音声合成方法

Publications (1)

Publication Number Publication Date
JP2014123072A true JP2014123072A (ja) 2014-07-03

Family

ID=51403587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012280101A Pending JP2014123072A (ja) 2012-12-21 2012-12-21 音声合成システム及び音声合成方法

Country Status (1)

Country Link
JP (1) JP2014123072A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015096140A (ja) * 2013-11-15 2015-05-21 国立大学法人佐賀大学 気分誘導装置および気分誘導プログラムならびに気分誘導方法
WO2017163509A1 (ja) * 2016-03-22 2017-09-28 ソニー株式会社 情報処理システムおよび情報処理方法
WO2018000160A1 (zh) * 2016-06-27 2018-01-04 李仁涛 交流式语音翻译装置
CN109389967A (zh) * 2018-09-04 2019-02-26 深圳壹账通智能科技有限公司 语音播报方法、装置、计算机设备及存储介质
CN109426669A (zh) * 2017-08-25 2019-03-05 松下电器(美国)知识产权公司 信息处理方法、信息处理装置以及记录有程序的记录介质
CN110930977A (zh) * 2019-11-12 2020-03-27 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
US10614170B2 (en) 2016-09-26 2020-04-07 Samsung Electronics Co., Ltd. Method of translating speech signal and electronic device employing the same
CN111161705A (zh) * 2019-12-19 2020-05-15 上海寒武纪信息科技有限公司 语音转换方法及装置
US11848004B2 (en) 2021-06-22 2023-12-19 Samsung Electronics Co., Ltd. Electronic device and method for controlling thereof
JP7498077B2 (ja) 2020-09-25 2024-06-11 エフサステクノロジーズ株式会社 表示制御装置、表示制御方法および表示制御プログラム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015096140A (ja) * 2013-11-15 2015-05-21 国立大学法人佐賀大学 気分誘導装置および気分誘導プログラムならびに気分誘導方法
JP7070638B2 (ja) 2016-03-22 2022-05-18 ソニーグループ株式会社 情報処理システムおよび情報処理方法
WO2017163509A1 (ja) * 2016-03-22 2017-09-28 ソニー株式会社 情報処理システムおよび情報処理方法
JPWO2017163509A1 (ja) * 2016-03-22 2019-01-31 ソニー株式会社 情報処理システムおよび情報処理方法
JP2021039370A (ja) * 2016-03-22 2021-03-11 ソニー株式会社 情報処理システムおよび情報処理方法
WO2018000160A1 (zh) * 2016-06-27 2018-01-04 李仁涛 交流式语音翻译装置
US10614170B2 (en) 2016-09-26 2020-04-07 Samsung Electronics Co., Ltd. Method of translating speech signal and electronic device employing the same
CN109426669A (zh) * 2017-08-25 2019-03-05 松下电器(美国)知识产权公司 信息处理方法、信息处理装置以及记录有程序的记录介质
JP2019040106A (ja) * 2017-08-25 2019-03-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理方法、情報処理装置およびプログラム
CN109426669B (zh) * 2017-08-25 2023-03-24 松下电器(美国)知识产权公司 信息处理方法、信息处理装置以及记录有程序的记录介质
JP7197259B2 (ja) 2017-08-25 2022-12-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置およびプログラム
CN109389967A (zh) * 2018-09-04 2019-02-26 深圳壹账通智能科技有限公司 语音播报方法、装置、计算机设备及存储介质
CN110930977A (zh) * 2019-11-12 2020-03-27 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN111161705B (zh) * 2019-12-19 2022-11-18 寒武纪(西安)集成电路有限公司 语音转换方法及装置
CN111161705A (zh) * 2019-12-19 2020-05-15 上海寒武纪信息科技有限公司 语音转换方法及装置
JP7498077B2 (ja) 2020-09-25 2024-06-11 エフサステクノロジーズ株式会社 表示制御装置、表示制御方法および表示制御プログラム
US11848004B2 (en) 2021-06-22 2023-12-19 Samsung Electronics Co., Ltd. Electronic device and method for controlling thereof

Similar Documents

Publication Publication Date Title
KR102581346B1 (ko) 다국어 음성 합성 및 언어간 음성 복제
JP2014123072A (ja) 音声合成システム及び音声合成方法
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
Ye et al. Quality-enhanced voice morphing using maximum likelihood transformations
Polzin et al. Detecting emotions in speech
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US20050114137A1 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
Liu et al. High quality voice conversion through phoneme-based linear mapping functions with straight for mandarin
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
KR20190062274A (ko) 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템
WO2019245916A1 (en) Method and system for parametric speech synthesis
US8170876B2 (en) Speech processing apparatus and program
CN112382270A (zh) 语音合成方法、装置、设备以及存储介质
Wu et al. Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations
JP2018084604A (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
Saito et al. Structure to speech conversion-speech generation based on infant-like vocal imitation.
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
TWI725608B (zh) 語音合成系統、方法及非暫態電腦可讀取媒體
JP2018205768A (ja) 発話リズム変換装置、方法及びプログラム
Liu et al. High quality voice conversion through combining modified GMM and formant mapping for Mandarin
Kuligowska et al. Managing Development of Speech Recognition Systems: Performance Issues
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data