JP5343293B2 - 音声編集合成装置及び音声編集合成方法 - Google Patents

音声編集合成装置及び音声編集合成方法 Download PDF

Info

Publication number
JP5343293B2
JP5343293B2 JP2011521765A JP2011521765A JP5343293B2 JP 5343293 B2 JP5343293 B2 JP 5343293B2 JP 2011521765 A JP2011521765 A JP 2011521765A JP 2011521765 A JP2011521765 A JP 2011521765A JP 5343293 B2 JP5343293 B2 JP 5343293B2
Authority
JP
Japan
Prior art keywords
word
speech
language
sentence
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011521765A
Other languages
English (en)
Other versions
JPWO2011004502A1 (ja
Inventor
慶華 孫
健司 永松
雄介 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2011004502A1 publication Critical patent/JPWO2011004502A1/ja
Application granted granted Critical
Publication of JP5343293B2 publication Critical patent/JP5343293B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Description

本発明は、音声を合成する技術に関し、特に、混合言語テキストから自然な音声を合成する技術に関する。
近年、生活の多くの場面で人工的に音声合成処理された音声を耳にする機会が増えている。波形接続方式の導入などによって、音質の改善がかなり進んでおり、車載用ナビゲーション装置、公共施設における自動放送装置、メールを読み上げ装置、及び自動通訳システムなど、音声を用いて自動的に情報を提供するサービスが広く普及している。
その一方、グローバル化が進む中、国と国との交流が深まっているため、多言語が混じる文章が多く使われている。二言語テキスト列に対する混合言語TTS(Text to Speech)において、テキストの大部分を構成する一つの主要な言語は通常、一次言語と呼ばれ、他の言語は二次言語と呼ばれる。例えば、テキストの大部分がテキストの作成者又は利用者の母国語によって構成され、残りの部分が外国語によって構成される場合、母国語が一次言語、外国語が二次言語に相当する。このようなテキストでは、特に人名、地名、固有名称、及び新生語などの外国語単語が、母国語に訳されずに、外国語の発音のままで使われることが多い。したがって、その様な多言語混合テキストから音声を合成するシステムが要求されている。
すでに、いくつかの多言語音声合成方法が提案されているが、それらは大きく二つに分類される。一つは、二次言語を発音列に解析したあと、一次言語の発音列に変換し、一次言語のみによる音声合成を行う方法である。
たとえば、日本語の場合は、外国の単語をカタカナに変換し、外来語として使ってきた歴史がある。そのため、日本語音声合成では、すべての外来語に対して、日本語発音に変換するルールを定義し、日本語発音で外国語単語を発音するような方法が一般的に使われている(特開2000−352990号公報参照)。
しかし、例えば日本人がアメリカで自動車を運転中に、車載用ナビゲーション装置を使用する場合を想定すると、日本語での音声案内が望ましいが、地名及び固有名詞などの部分は普段聞きなれているアメリカ発音のほうが、より伝わりやすい場合がある。特に、電子辞書などの場合は、外国語発音のままで読み上げられなければならないため、このような方法は使えない。
もう一つは、あらかじめ一次言語と二次言語の合成エンジンをそれぞれ用意し、言語ごとに切り替える方法である(特開2006−48056号公報及び特開2007−155833号公報参照)。
中国語の場合は、近年、中国語テキストの中の外来語を、外国語表記のままで表現することが多く、それを読み上げるときも外国語のままで発音するため、中国語音声合成システムだけでは、外来語の読み上げが実現できないのが現状である。したがって、このような方法は、多くの中国語音声合成システムに採用されている。
音声変換装置は、入力文章に対して言語的な解析を行い、文章中の各単語の読みを決定する言語処理部と、音素及びポーズの長さ、声の高さ、音の強さなどの韻律的特徴を予測する韻律予測部と、これらの情報を基にして実際の音声信号を合成する音響処理部と、の三つから構成されるのが一般的である。
言語処理部においては、一次言語と二次言語を含む単語辞書を利用することで、多言語を含むテキストの処理を簡単に解決できる。音響処理部においても、同じ話者から録音した一次言語と二次言語を含む音声データベースを用いることで、多言語を含むテキストの処理を簡単に解決できる。しかし、韻律予測部では、多言語を含むテキストを予測できる韻律モデルを作成することは極めて困難である。したがって、従来の多くのシステムは、テキストを、各々が単一言語しか含まない複数のユニットに分割してから、音声を合成し、それぞれの合成した音声をつなぎ合わせるような方法を用いる。このような方法によれば、ユニットごとに音声が合成されるため、ユニット間の不連続が生じやすい。そのため、合成した音声の音質が非常に悪い。二次言語単語の前後にポーズを挿入することによって、不連続を和らげるが、非常に自然性が悪くなり、違和感が生じる。
連結合成に基づくTTSシステムにおいては、言葉はいくつかの音声断片を互いに連結することによって合成される。連結音声合成は、実用的な混合言語TTSシステムを実現するための有望なアプローチと考えられているが、文全体を考慮した韻律予測、及び二つの言語の合成音声セグメント間における不連続性は、合成音声品質に大きな影響を及ぼす。しかし、現在の技術では、それらの問題を解決できていない。
本発明の代表的な一例を示せば次の通りである。すなわち、文を読み上げる音声を合成する音声編集合成装置であって、前記音声編集合成装置は、文のテキストの入力を受ける入力装置と、合成された音声を出力する出力装置と、前記入力装置及び前記出力装置に接続される制御装置と、前記制御装置に接続される記憶装置と、を備え、第1言語の第1単語及び第2言語の第2単語を含む第1文の入力を受け、前記第2単語を前記第1言語の第3単語によって置き換えることによって、複数の前記第1言語の単語を含み、前記第2言語の単語を含まない第2文を作成し、前記第2文を読み上げる音声を合成し、前記第2単語を含む、複数の前記第2言語の単語を含み、前記第1言語の単語を含まない第3文を取得し、前記第3文を読み上げる音声の音響特徴量の少なくとも一つが、前記第2文を読み上げる音声の音響特徴量の少なくとも一つと一致するように、前記第3文を読み上げる音声を合成し、前記第2文を読み上げる音声に含まれる、前記第3単語を読み上げる音声を、前記第3文を読み上げる音声に含まれる、前記第2単語を読み上げる音声で置き換えることによって、前記第1単語及び前記第2単語を含む前記第1文を読み上げる音声を合成することを特徴とする。
本発明の一実施形態によれば、混合言語テキストから、それぞれの言語の本来の発音を用いて、自然な音声を合成することができる。
第1図は、本発明の実施形態の音声編集合成装置の構成を示すブロック図である。
第2図Aは、本発明の実施形態の言語置換装置の動作を示すフローチャートの第1の部分である。
第2図Bは、本発明の実施形態の言語置換装置の動作を示すフローチャートの第2の部分である。
第3図は、本発明の実施形態の言語間特徴対応表の説明図である。
第4図は、本発明の実施形態のテキストデータベースの説明図である。
第5図Aは、本発明の実施形態の音声合成装置の動作を示すフローチャートの第1の部分である。
第5図Bは、本発明の実施形態の音声合成装置の動作を示すフローチャートの第2の部分である。
第6図は、本発明の実施形態の音声編集合成装置のハードウェア構成を示すブロック図である。
第1図は、本発明の実施形態の音声編集合成装置を示すブロック図である。
本実施形態の音声編集合成装置は、図示のとおり、テキスト入力装置100、言語置換装置110、音声合成装置120及び音声出力装置130を備えている。
テキスト入力装置100はテキストを取得する。例えば、テキスト入力装置100は、キーボードを用いて入力されたテキスト又はニュース配信サービスによって提供されたテキストなどを取得する。
言語置換装置110は、言語判別部111、言語特徴解析部112、特徴変換部113、検索部114及び置換部115によって構成される。
言語判別部111は、テキスト入力装置100から入力される多言語混在テキストを言語ごとにユニットに分割し、分割されたユニットに言語情報を付与し、一次言語及び二次言語を決定する。言語特徴解析部112は、言語判別部111から入力されたユニット列に含まれるすべての二次言語のユニットについて、二次言語のユニット特徴及び一次言語の環境特徴を分析する。特徴変換部113は、分析された二次言語のユニット特徴を一次言語のユニット特徴に、一次言語の環境特徴を二次言語の環境特徴に変換する。検索部114は、特徴変換部113から入力されたユニット特徴及び環境特徴を用いて、一次言語のユニット及び二次言語の文書を検索する。置換部115は、検索部114及び言語判別部111から入力されたユニット及び文書を置換し、単一言語のみを含む文書を作成する。
音声合成部装置120は、一次言語音声合成部121、二次言語音声合成部122及び音声編集部123によって構成される。一次言語音声合成部121は、言語置換装置110から入力された一次言語のみを含む文書から音声を合成する。二次言語音声合成部122は、一次言語音声合成部121から入力された音声を解析し、その解析の結果として得られた韻律特徴量及び音韻特徴量を用いて、入力された単一の二次言語のみを含む文書を合成する。音声編集部123は、合成した音声を編集し、音声出力装置130に出力する。
音声出力装置130は電気信号を音声に変換する装置であり、一般的に電気信号の増幅回路及びスピーカなどで構成されている。
第6図は、本発明の実施形態の音声編集合成装置のハードウェア構成を示すブロック図である。
本実施形態の音声編集合成装置は、相互に通信可能に接続された制御装置610、記憶装置620、テキスト入力装置100及び音声出力装置130を備える。
制御装置610は、本実施形態の音声編集合成装置の動作を制御する。制御装置610は、CPU611及びメモリ612を備える。CPU611は、メモリ612に格納されたプログラムを実行するプロセッサである。メモリ612は、例えば半導体記憶装置であり、CPU611によって実行されるプログラム及びCPU611によって参照されるデータを格納する。それらのプログラム及びデータは、記憶装置620に格納され、必要に応じて記憶装置620からメモリ612にコピーされてもよい。CPU611は、メモリ612に格納されたプログラムを実行することによって、記憶装置620、テキスト入力装置100及び音声出力装置130におけるデータの入出力、及び、本実施形態の音声合成等の処理を制御する。
記憶装置620は、CPU611によって実行されるプログラム及びCPU611によって参照されるデータを格納する。記憶装置620は、例えば、ハードディスクドライブ(HDD)のようなディスク装置又はフラッシュメモリのような半導体メモリであってもよい。本実施形態の記憶装置620には、言語判別部111、言語特徴解析部112、特徴変換部113、検索部114、置換部115、一次言語音声合成部121、二次言語音声合成部122及び音声編集部123が格納される。これらは、CPU611によって実行されるプログラムである。したがって、第1図に示す音声編集合成装置の各部の機能は、CPU611が上記のプログラムを実行することによって実現される。
なお、第6図には、第1図に示す言語置換装置110及び音声合成装置120が単一のハードウェアによって実現される例を示すが、これらの装置はそれぞれ独立した二つのハードウェアによって実現されてもよい。
さらに、記憶装置620には、テキストデータベース224及び言語間特徴対応表225が格納される。テキストデータベース224及び言語間特徴対応表225に格納されるデータの詳細については後述する(第3図及び第4図参照)。
テキスト入力装置100は、テキストの入力を受け付ける少なくとも一つのインターフェースを備える。例えば、第6図に示すテキスト入力装置は、キーボード631及び通信装置632を備える。キーボード631は、操作者によるテキストの入力を受け付け、入力されたテキストを制御装置610に送信する。通信装置632は、ネットワーク(図示省略)に接続され、ネットワークを介してテキスト(例えば、ニュース配信サービスによって提供されたテキストなど)の入力を受け付け、入力されたテキストを制御装置610に送信する。テキスト入力装置100は、テキストの入力を受け付ける上記以外の任意のインターフェースを備えてもよい。
音声出力装置130は、増幅回路642及びスピーカ641を備える。増幅回路642は、D/A変換器(図示省略)によってアナログ電気信号に変換された音声信号を増幅する。スピーカ641は、増幅回路642によって増幅されたアナログ電気信号を音声に変換する。
次に、第2図A、第2図B、第3図及び第4図を参照して、言語置換装置110の動作について説明する。
第2図A及び第2図Bは、本発明の実施形態の言語置換装置110の動作を示すフローチャートである。
まず、テキスト入力装置100からターゲットとする多言語混在テキスト200が言語判別部201に入力される。第2図Aに示す言語判別部201及びターゲット二次言語ユニット指定部210は、言語判別部111の一部(例えばサブプログラム)である。テキストは、Unicodeなど、事前に定義された言語情報を含むフォーマットによって記述される。本実施形態では、一例として、文字列「我在Google工作」が入力される。このテキストは中国語及び英語で構成され、「私はグーグルで仕事をしている」を意味する。なお、「Google」は登録商標である。この文字列を発音記号列に変換すると、{wo3 zai4/gu:gl/gong1 zuo4}のように表現できる。言語判別部201は、入力された文字列に含まれる各文字について、言語の種類を特定し、最も多くの連続した単一言語の文字が一つのユニットを構成するように、文字列をユニット列に分割する。そして、言語判別部201は、すべてのユニットに言語種類をラベリングし、最も多いユニットを有する言語を一次言語と判定する。ただし、最も多いユニットを有する言語が複数存在する場合、テキストの先頭から最初に現れた言語を一次言語と判定する。そして、一次言語以外の言語をすべて二次言語と判定する。二次言語は必ず一つ以上存在する。あるいは、一次言語及び二次言語は、ユーザによる指定に基づいて判定されてもよい。
なお、言語判別部201は、種々の基準に基づいて文字列をユニットに分割することができる。例えば、言語判別部201は、一つの単語が一つのユニットとなるように分割してもよいし、一つの韻律語が一つのユニットとなるように分割してもよいし、一つの韻律フレーズが一つのユニットとなるように分割してもよい。
例えば、「我在Google工作」が入力された場合、二つのユニットを有する中国語は一次言語と判定され、一つのユニットを有する英語は二次言語と判定される。そして、“「我在」(中国語)(一次言語)、「Google」(英語)(二次言語)、「工作」(中国語)(一次言語)”のようなフォーマットの言語ラベル付きユニット列202が生成され、ターゲット二次言語ユニット指定部210に入力される。
次に、ターゲット二次言語ユニット指定部210は、入力された言語ラベル付きユニット列202の先頭に最も近い二次言語ユニットをターゲットユニットと指定し、それぞれ所定のフォーマットで、ターゲットユニット及びユニット列をユニット特徴分析部211及び環境特徴解析部213に出力する。
例えば、ターゲット二次言語ユニット指定部210は、入力された“「我在」(中国語)(一次言語)、「Google」(英語)(二次言語)、「工作」(中国語)(一次言語)”から、“「Google」(英語)(二次言語)”をターゲットに指定し、“「Google」(英語)(二次言語)(ターゲット)”の形式で、ターゲットユニットをユニット特徴分析部211に出力し、さらに、“「我在」(中国語)(一次言語)、「Google」(英語)(二次言語)(ターゲット)、「工作」(中国語)(一次言語)”の形式で、ユニット列を環境特徴解析部213に出力する。
第2図Aに示すユニット特徴分析部211及び環境特徴解析部213は、第1図に示す言語特徴解析部112の一部(例えばサブプログラム)である。
ユニット特徴分析部211は、ターゲット二次言語ユニット指定部210から出力されたターゲットユニットのユニット特徴を分析し、その結果をユニット特徴ベクトル212として、ユニット特徴変換部に出力する。このとき、ユニット特徴分析手法として、一般的に使われているテキスト解析手法が用いられる。すなわち、ユニット特徴分析部211は、得られたターゲットユニットに関する読み情報及びコンテキスト情報から、事前に作成されたユニット特徴項目リスト215に基づいてユニット特徴項目を指定し、事前に決められたフォーマットのユニット特徴ベクトルを出力する。
ユニット特徴項目リスト215は、ユニット特徴ベクトルに含まれるべき項目を指定する情報を含む。具体的には、ユニット特徴項目リスト215は、テキスト解析で得られる情報のうち、韻律及び音韻特徴と高い相関を持っている、ターゲットユニット自身の特徴、例えば、ターゲットユニットの開始音素、終了音素及び長さなどを指定する情報を含んでいるのが一般的である。ここで、ユニット長さの単位は、英語の場合は母音の数、中国語の場合は音節の数、日本語の場合はモーラの数など、事前に言語ごとに定義されている。
以下、ユニット特徴項目リスト215がターゲットユニットの開始音素、終了音素及び長さを指定する情報を含む場合を例として説明する。しかし、ユニット特徴項目リスト215は、上記以外の特徴項目を指定する情報、例えば、ターゲットユニットの品詞を指定する情報、ターゲットユニットのアクセントの位置を指定する情報、ターゲットユニットのストレスの位置を指定する情報、及び、ターゲットユニットの声調を指定する情報の少なくとも一つを含んでもよい。
一般的に使われているテキスト解析手法としては、辞書参照、決定木など、ルールベース手法とデータベース手法とを統合した手法が使われている。簡単な例では、発音辞書からターゲットユニットの発音記号列を作成し、簡単なルールで発音記号の先頭の音素(すなわち開始音素)、終了音素及び母音の数を調べることで、ユニット特徴ベクトルを得られる。
例えば、ユニット特徴項目リスト215がターゲットユニットの開始音素、終了音素及び長さを指定する情報を含む場合、ユニット特徴分析部211は、入力された“「Google」(英語)(二次言語)(ターゲット)”を、発音記号列“/gu:gl/”に変換したあと、先頭の音素、終了音素及び母音の数を調べ、“「開始音素=g、終了音素=l、ユニット長さ=2母音」(英語)”のようなフォーマットのユニット特徴ベクトルを出力する。ただし、()の中はベクトルの属性を示している。例のベクトル属性は“英語”である。
以下、ユニット特徴項目リスト215がユニットの開始音素、終了音素及び長さを指定する情報を含む場合を例として説明する。しかし、ユニット特徴項目リスト215は、前述のように、上記以外の特徴項目を指定する情報を含んでもよい。例えばユニット特徴項目リスト215がターゲットユニットの品詞を指定する情報を含む場合、出力されるユニット特徴ベクトルは、さらに、「Google」の品詞を示す情報(例えば「名詞」又は「固有名詞」)を含む。
一方、ターゲット二次言語ユニット指定部210から出力されたユニット列は、環境特徴分析部213に入力され、環境特徴ベクトル214として出力される。この環境特徴分析部213は、ユニット特徴分析部211と同じく、一般的に使われているテキスト解析手法を用いて、得られたターゲットユニットに関する読み情報及びコンテキスト情報から、事前に作成された環境特徴項目リスト216に基づいて環境特徴項目を指定し、事前に決められたフォーマットの環境特徴ベクトルを出力する。
環境特徴項目リスト216は、環境特徴ベクトルに含まれるべき項目を指定する情報を含む。具体的には、環境特徴項目リスト216は、テキスト解析で得られる情報のうち、韻律及び音韻特徴と高い相関を持っている、ターゲット自身を含まない、周囲に関する特徴、例えば、先行音素、後続音素などを指定する情報を含んでいるのが一般的である。ここで、先行音素とは、ターゲットユニットの前に現れる音素(例えば、ターゲットユニットの直前の音素)を、後続音素とは、ターゲットユニットの後に現れる音素(例えば、ターゲットユニットの直後の音素)を意味する。
一般的に使われているテキスト解析手法としては、辞書参照、決定木など、ルールベース手法とデータベース手法とを統合した手法が使われている。簡単な例では、発音辞書からターゲットユニットの周囲の発音記号列を作成し、簡単なルールでターゲットユニットの直前音素及びターゲットユニットの直後音素などを調べることで、環境特徴ベクトルを得られる。
以下、環境特徴項目リスト216が先行音素及び後続音素を指定する情報を含む場合を例として説明する。しかし、環境特徴項目リスト216は、上記以外の特徴項目を指定する情報、例えば、ターゲットユニットを含む文においてターゲットユニットが占める位置を指定する情報、ターゲットユニットを含む文において、ターゲットユニットを含むフレーズが占める位置を指定する情報、ターゲットユニットにおいて、ターゲットユニットを含む韻律語が占める位置を指定する情報、ターゲットユニットを含む文の長さを指定する情報、及び、ターゲットユニットの品詞を指定する情報の少なくとも一つを含んでもよい。
例えば、環境特徴項目リスト216が先行音素及び後続音素を指定する情報を含む場合、環境特徴分析部213は、入力された“「我在」(中国語)(一次言語)、「Google」(英語)(二次言語)(ターゲット)、「工作」(中国語)(一次言語)”を、音素列/wo3zai4***gong1zuo4/に変換し(***はターゲットユニットを意味する)、簡単なルールでターゲットユニットの直前音素及びターゲットユニットの直後音素などを調べ、“「先行音素=ai、後続音素=g」(中国語)”のようなフォーマットの環境特徴ベクトルを出力する。ただし、()の中はベクトルの属性を示している。上記の例のベクトル属性は“中国語”である。
そして、言語間特徴変換部220は、ユニット特徴及び環境特徴(これらを合わせて言語的特徴と記載する)について、言語間特徴対応表225を定義し、変換するステップを実行する。第2図Bに示す言語間特徴変換部220は、第1図に示す特徴変換部113の一部(例えばサブプログラム)である。ユニット特徴分析部211から出力された二次言語ユニット特徴ベクトル212は、言語間特徴変換部220に入力され、一次言語のユニット特徴ベクトル221に変換される。一方、環境特徴分析部213から出力された一次言語環境特徴ベクトル214も、同じく、言語間特徴変換部220に入力され、二次言語の環境特徴ベクトル223に変換される。
言語間特徴対応表225は、音声合成のターゲットとなるすべての言語について、言語的特徴を、自分自身以外の言語に変換するために用いられる、言語間の対応関係を定義する情報を含む。
第3図は、本発明の実施形態の言語間特徴対応表225の説明図である。
具体的には、第3図は、言語間特徴対応表225の一部の例であり、言語的特徴を英語から日本語に変換するときの対応関係を示している。すなわち、第3図に示す“A言語”は英語を、“B言語”は日本語を示す。典型的な例として、英語の音素/l/は日本語の音素/r/に対応している。前記の言語間特徴対応表225は、観測した音声の基本周波数、パワー、音素継続長又はスペクトルなどの音韻特徴量を用いた統計的な手法(例えばクラスタリング等)、又は、専門家の知識に基づく発見的な手法などを用いて、作成することができる。
第3図には英語の言語的特徴を日本語の言語的特徴に変換するための対応関係を示すが、言語間特徴対応表225は、さらに他の言語に関する対応関係を含んでもよい。例えば、言語間特徴対応表225は、日本語の言語的特徴を英語の言語的特徴に変換するための対応関係、英語の言語的特徴を中国語の言語的特徴に変換するための対応関係、及び、中国語の言語的特徴を英語の言語的特徴に変換するための対応関係を含んでもよい。例えば、第3図では省略されているが、言語間特徴対応表225は、英語の音素/l/を中国語の音素/ou/に対応づける情報を含んでもよい。
例えば、ユニット特徴分析部211から入力された二次言語ユニット特徴ベクトル“「開始音素=g、終了音素=l、ユニット長さ=2母音」(英語)”は、言語間特徴変換部220によって、一次言語ユニット特徴ベクトル“「開始音素=g、終了音素=ou、ユニット長さ=2音節」(中国語)”に変換される。環境特徴分析部213から入力された“「先行音素=ai、後続音素=g」(中国語)”は、言語間特徴変換部220によって、二次言語環境特徴ベクトル“「先行音素=ai、後続音素=g」(英語)”に変換される。
次に、ユニット検索部230は、入力された一次言語のユニット特徴ベクトル221を検索キーとして、テキストデータベース224を検索する。具体的には、ユニット検索部230は、入力された一次言語のユニット特徴ベクトル221と、一次言語テキストデータベースに含まれるすべてのユニットのユニット特徴ベクトルとの距離を計算し、最も距離の小さいユニットを検索し、検索されたユニットの文字列を出力する。ただし、一番小さい距離を有するユニットが複数存在するとき、それらの中から一つが任意に選択される。なお、第2図Bに示すユニット検索部230及び文検索部232は、第1図に示す検索部114の一部(例えばサブプログラム)である。
第4図は、本発明の実施形態のテキストデータベース224の説明図である。
テキストデータベース224は、第4図に示すように、すべてのユニットについて、文字列411、所在文(すなわち、ユニットの文字列を含む文)の文字列412、ユニット特徴ベクトル413及び環境特徴ベクトル414などを含む。
第4図には、例として、ユニット1についてテキストデータベース224に格納されている情報を示す。ユニット1に関する文字列411及び所在文の文字列412として、それぞれ、“「google」”及び“「It’s supported by ** groups」”が格納されている。これらは、ユニット1が文字列「google」からなること、及び、この文字列が「It’s supported by google groups」という文の中に現れることを示す。
さらに、ユニット1に関するユニット特徴ベクトル413として、“「開始音素=g、終了音素=l、ユニット長さ=2音節」(英語)”が格納されている。これらは、文字列「google」の開始音素、終了音素及びユニット長さが、それぞれ、「g」、「l」及び「2音節」であることを示す。
ユニット特徴ベクトル413は、さらに、ユニットの文字列の品詞を示す情報、ユニットの文字列のアクセント(又はストレス)の位置を示す情報、及び、ユニットの文字列の声調を示す情報等を含んでもよい。
さらに、ユニット1に関する環境特徴ベクトル414として、“「先行音素=ai、後続音素=g」(英語)”が格納されている。これらは、文「It’s supported by google groups」における文字列「google」の先行音素(この例では、文字列「google」に先行する単語「by」の最後の音素)及び後続音素(この例では、文字列「google」の後に続く単語「groups」の先頭の音素)が、それぞれ、「ai」及び「g」であることを示す。
環境特徴ベクトル414は、さらに、所在文においてユニットの文字列が占める位置を示す情報、所在文においてユニットを含むフレーズが占める位置を示す情報、所在文においてユニットの文字列を含む韻律語が占める位置を示す情報、及び、所在文の長さを示す情報等を含んでもよい。
なお、実際には文字列「google」は種々の文に含まれ得る。このため、テキストデータベース224は、文字列411として「google」を、それに対応する所在文の文字列412として「It’s supported by ** groups」以外の文を含む情報をさらに含んでもよい。すなわち、第4図には、“google”を含む一つの文のみを例示したが、実際には、テキストデータベース224には、“google”を含む複数の文が格納される。後述する文検索部232は、それらの複数の文から、検索条件を満たす文を検索する。
さらに、第4図では省略されているが、テキストデータベース224には、“google”以外の英語のユニットに関する情報、及び、英語以外の言語のユニットに関する情報が格納されている。例えば、テキストデータベース224には、中国語のユニット“孤狗”に関する文字列411、ユニット特徴ベクトル413及び環境特徴ベクトル414として、それぞれ、“「孤狗」”、“「開始音素=g、終了音素=ou、ユニット長さ=2音節」(中国語)”及び“「先行音素=ai、後続音素=g」(中国語)”が格納されている。
二つのユニット特徴ベクトルの距離は、定義された計算式に基づいて計算される。一番簡単な計算は、二つのベクトルのすべてのファクターを比較し、比較結果を加算することである。ただし、ファクターが一致する場合は0、一致しない場合は1が加算される。
例えば、検索キーとして一次言語ユニット特徴ベクトル“「開始音素=g、終了音素=ou、ユニット長さ=2音節」(中国語)”が入力された場合、一次言語データベースから最もベクトル距離の近いユニット“孤狗”が選択され、文字列“孤狗”が出力される。“孤狗”の持つユニット特徴ベクトルは“「開始音素=g、終了音素=ou、ユニット長さ=2音節」(中国語)”である。この場合、二つのベクトルの開始音素、終了音素及びユニット長さのいずれも一致するため、計算された距離は0である。
検索キーとして入力される一次言語ユニット特徴ベクトルは、さらに多くのファクターを含んでもよい。例えば、検索キーとして“「開始音素=g、終了音素=ou、ユニット長さ=2音節、品詞=名詞」(中国語)”が入力された場合、それに含まれる各ファクターがテキストデータベースのユニット特徴ベクトル413の対応するファクターと比較され、距離が計算される。
なお、各ファクターに重要度が設定され、その重要度に基づいてベクトル間の距離が計算されてもよい。例えば、開始音素、終了音素及び品詞の各ファクターに高い重要度が設定され、その他のファクター(例えば品詞等)にはより低い重要度が設定されてもよい。具体的には、例えば、ベクトル間の距離を計算する際に、対応するファクターが一致するか否かを判定し、ファクターが一致する場合には(重要度にかかわらず)0、重要度が低いファクターが一致しない場合には1、重要度が高いファクターが一致しない場合には1より大きい数(例えば2)が加算されてもよい。その結果、例えば開始音素のみが一致する二つのベクトル間の距離は、品詞のみが一致する二つのベクトル間の距離より小さくなる。
なお、上記のような計算方法は一例に過ぎず、上記以外の方法によってベクトル間の距離が計算されてもよい。
一方、文検索部232は、入力された二次言語の環境特徴ベクトル223を検索キーとしてテキストデータベース224を検索する。具体的には、文検索部232は、入力された二次言語の環境特徴ベクトル223と、二次言語テキストデータベースに含まれるすべてのユニットの環境特徴ベクトルとの距離を計算し、最も距離の小さいユニットを検索し、そのユニットの所在文の文字列を出力する。ただし、一番小さい距離を有するユニットが複数存在する場合、それらの中から一つが任意に選択される。前記のテキストデータベースは、第4図で示した構造を持っていて、すべてのユニットに対して、文字列411、所在文の文字列412、ユニット特徴413及び環境特徴414などが記述されている。前記の環境特徴ベクトルの距離は、定義された計算式に基づいて計算される。一番簡単な計算は、二つのベクトルのすべてのファクターを比較し、比較結果を加算することである。ただし、ファクターが一致する場合は0、一致しない場合は1が加算される。
例えば、二次言語環境特徴ベクトル“「先行音素=ai、後続音素=g」(英語)”が入力された場合、文検索部232は、二次言語データベースから最もベクトル距離の近いユニット“google”を選択し、所在文の文字列“It’s supported by ** groups.”を出力する。ただし、**はユニットの文中に占める位置を示す。第4図の例において、“google”に関する環境特徴ベクトルは“「先行音素=ai、後続音素=g」(英語)”である。ターゲットユニットの文字列と選択されたユニットの文字列が同じであることが好ましいが、必須ではない。
検索キーとして入力される二次言語環境特徴ベクトルは、さらに多くのファクターを含んでもよい。例えば、検索キーとして“「先行音素=ai、後続音素=g、所在文の長さ=5」(英語)”が入力された場合、その検索キーに含まれる各ファクターがテキストデータベースの環境特徴ベクトル414の対応するファクターと比較され、距離が計算される。
なお、ユニット特徴ベクトルの検索の場合と同様、各ファクターに重要度が設定され、その重要度に基づいてベクトル間の距離が計算されてもよい。例えば、先行音素及び後続音素の各ファクターに高い重要度が設定され、その他のファクター(例えば所在文の長さ等)にはより低い重要度が設定されてもよい。
なお、上記のような計算方法は一例に過ぎず、上記以外の方法によってベクトル間の距離が計算されてもよい。
言語間特徴変換部220による変換は、上記のようなユニット検索部230及び文検索部232による適切な検索を可能にするために実行される。例えば、上記のようなユニット特徴ベクトルの変換が実行されない場合、「終了音素=l」というファクターを含むベクトルが検索キーとして入力される可能性がある。しかし、中国語に音素「l」が存在しない場合、「終了音素=l」と一致するファクターを含むユニット特徴ベクトルを検索によって発見することはできない。一方、音素「l」に対応する中国語の音素「ou」が検索キーとして入力されれば、その音素を終了音素として含む中国語のユニット「孤狗」を取得することができる。
ユニット置換部240は、入力されたテキストユニット列202のターゲット二次言語ユニットを、入力された一次言語ユニット231で置換し、置換された文字列を出力する。なお、第2図Bに示すユニット置換部240及び文置換部242は、第1図に示す置換部115の一部(例えばサブプログラム)である。
例えば、ユニット置換部240は、入力されたテキストユニット列の“「我在」(中国語)(一次言語)、「Google」(英語)(二次言語)(ターゲット)、「工作」(中国語)(一次言語)”にあるターゲット二次言語ユニット“Google”を、入力された“孤狗”で置き換え、文字列“我在孤狗工作”を出力する。
文置換部242は、入力されたテキストユニット列202のターゲット二次言語ユニット以外の部分を、入力された二次言語文233で置換し、置換された文字列を出力する。ただし、文置換部242は、ターゲット二次言語ユニットに一次言語のユニット情報231を付ける。
例えば、文置換部242は、入力されたテキストユニット列の“「我在」(中国語)(一次言語)、「Google」(英語)(二次言語)(ターゲット)、「工作」(中国語)(一次言語)”を、入力された“It’s supported by ** groups.”で置き換え、文字列“It’s supported by(google)(孤狗)groups.”を出力する。
最後に、置換部115は、ユニット置換によって得られた文字列(すなわちテキスト241)に二次言語がまだ存在するか否かをチェックし(ステップ244)、存在する場合は、上記の言語判別部111、言語特徴解析部112、特徴変換部113、検索部114及び置換部115の処理を順次実行する。具体的には、テキスト241に含まれる一つ以上の二次言語ユニットのうち先頭のユニットがターゲット二次言語ユニットに指定され、その文字列がテキストユニット列203として言語特徴解析部112に入力される。
上記の処理は、文字列から二次言語がなくなるまで繰り返される。すなわち、ステップ244において、テキスト241に二次言語が存在しないと判定された場合、そのテキスト241が出力され、第2図A及び第2図Bに示す言語置換プロセスが終了する。したがって、第2図A及び第2図Bに示す言語置換プロセスが終了するとき、二次言語ユニットの数と同じ数の第二言語の文書(すなわち二次言語のテキスト243)及び一文の一次言語の文書(すなわちテキスト241)が出力される。
例えば、ユニット置換部240から出力されたテキスト241が「我在孤狗工作」である場合、このテキスト241に一次言語しか存在しないので、言語置換が終了し、「我在孤狗工作」(テキスト241)及び「It’s supported by (google)(孤狗)groups.」(二次言語のテキスト243)が出力される。出力されたテキストは、音声合成装置120に入力される。
次に、第5図A及び第5図Bを参照して、音声合成の動作について説明する。
第5図A及び第5図Bは、本発明の実施形態の音声合成装置120の動作を示すフローチャートである。
まず、言語置換装置110から出力された一次言語テキスト501が一次言語合成部121に入力され、一次言語合成部121が一次言語テキスト501を読み上げる音声を合成する。一次言語テキスト501は、第2図Bにおいて出力されたテキスト241に相当する、一文の一次言語しか含まないテキストである。一次言語音声合成部121は、テキスト解析部510、言語韻律予測部511、単位選択部512、波形接続部513及び音声出力部514を含み、これらが現存の音声合成システムと同様の音声合成を実行する。すなわち、テキスト解析部510が言語モデル540を参照して言語解析し、言語韻律予測部511が韻律モデル541を参照して韻律予測し、単位選択部512が音声データベース542から音声素片を選択し、波形接続部513が音声素片を結合し、音声出力部514が合成した音声波形を一次言語の音声520として出力する。上記の処理は従来の技術によって実現できるため、詳細な説明は省略する。
例えば、テキスト「我在孤狗工作」が入力されると、一次言語音声合成部121は、「我在孤狗工作」の音声波形を合成して出力する。
なお、上記のテキスト解析部510から音声出力部514の各部は、一次言語音声合成部121の一部(例えばサブプログラム)である。言語モデル540、韻律モデル541及び音声データベース542は、記憶装置620に格納され、それらの少なくとも一部は必要に応じてメモリ612にコピーされてもよい。
一方、二次言語音声合成部122は、言語置換装置110から出力された二次言語テキスト502に含まれる複数文から、任意の一文を選択し、選択した一文を、それと同じ言語の二次言語のテキスト解析部522に入力する。なお、二次言語テキスト502は、第2図Bの処理において出力された二次言語のテキスト243に相当する。
さらに、二次言語音声合成部122の音声特徴解析部521は、一次言語合成部121から出力された音声520のうち、入力文に記述されたターゲット二次言語ユニットに対応する部分から、音響特徴量、具体的には、韻律特徴528及び音韻特徴529を抽出する。韻律特徴528は、少なくとも、ターゲット二次言語ユニットの音声開始点及び終了点の基本周波数を含む。音韻特徴529は、少なくとも、ターゲット二次言語ユニットの音声開始点及び終了点のスペクトルを含む。なお、音声開始点及び終了点のスペクトルとは、開始時刻及び終了時刻を含むフレーム(ある時間帯)にある波形を使って計算されたものである。
例えば、二次言語のテキスト243として「It’s supported by(google)(孤狗)groups.」が出力された場合、「It’s supported by google groups.」がテキスト解析部522に入力される。一方、合成された「我在孤狗工作」の音声波形のうち、「孤狗」の部分の開始点及び終了点の韻律特徴528及び音韻特徴529が抽出される。
なお、上記の音声特徴解析部521から音声出力部526の各部は、二次言語音声合成部122の一部(例えばサブプログラム)である。言語モデル530、韻律モデル531及び音声データベース532は、記憶装置620に格納され、それらの少なくとも一部は必要に応じてメモリ612にコピーされてもよい。
二次言語のテキスト解析部522は、二次言語の言語モデル530を参照して、テキストを合成最小単位に分割し、読み情報、コンテキスト情報、韻律構造情報などを分析し、分析の結果を二次言語の韻律予測部523に出力する。
二次言語の韻律予測部523は、二次言語の韻律モデル531を参照して、二次言語テキスト解析部522から入力された情報に基づいて、合成最小単位ごとに、韻律を予測する。ここで、韻律予測部523は、ターゲットユニットの最初の合成最小単位について予測された開始時周波数を、求められた韻律特徴528に含まれる開始点の基本周波数で置き換える。同様に、韻律予測部523は、ターゲットユニットの最後の合成最小単位について予測された終了時周波数を、求められた韻律特徴528に含まれる終了点の基本周波数で置き換える。このステップを実行した結果、合成された二次言語音声のターゲットユニットの開始点及び終了点の韻律特徴は、すでに合成した一次言語音声のターゲットユニットの、対応する部分の開始点及び終了点の韻律特徴に近づく。このため、一次言語のターゲットユニットの音声を二次言語のターゲットユニットの音声で置き換えるときに発生する韻律の不自然さが軽減される。
例えば、二次言語テキスト502として“It’s supported by google groups”が入力された場合、韻律予測部523は、そのテキストの韻律予測をした後、予測されたgoogleの開始音素/g/の開始基本周波数を、音声特徴解析部521から得られた“孤狗”部分の開始音素の開始基本周波数で置き換え、同様に、予測されたgoogleの終了音素/l/の終了基本周波数を、音声特徴解析部521から得られた“孤狗”部分の終了音素の終了基本周波数で置き換える。
二次言語の単位選択部524は、二次言語の音声データベース532に含まれる、テキスト解析部で得られた最小合成単位の、時系列に構成可能な音声素片系列のすべての組み合わせに対して、韻律予測部532で出力された韻律特徴との距離を表すターゲットコスト、及び、素片間不連続を表す接続コストの総和を計算し、それが最小になるような音声素片系列を出力する。ただし、単位選択部524は、ターゲットユニットとそれに接する音素との接続コストを計算するとき、ターゲットユニットに接する音素から抽出した音韻特徴量ではなく、音声特徴解析部521によって得られた音韻特徴529を用いる。このステップを実行した結果、合成された二次言語音声のターゲットユニットの開始点及び終了点の音韻特徴は、すでに合成した一次言語音声のターゲットユニットの、対応する部分の開始点及び終了点の音韻特徴に近づく。このため、一次言語のターゲットユニットの音声を二次言語のターゲットユニットの音声に入れ替えるときに発生する音韻の不自然さが軽減される。
例えば、二次言語テキスト502として“It’s supported by google groups”が入力された場合、単位選択部524は、“google”に隣接する“by”の終了音素/i/(すなわち“google”の先行音素)の終了点の音韻特徴として、実際に素片から観測したスペクトルではなく、音声特徴解析部521から得られた“孤狗”部分の開始点のスペクトルを用いる。同様に、単位選択部524は、“google”に隣接する“groups”の開始音素/g/(すなわち“google”の後続音素)の開始点の音韻特徴として、実際素片から観測したスペクトルではなく、音声特徴解析部521から得られた“孤狗”部分の終了点のスペクトルを用いる。
さらに、二次言語の波形合成部525は、単位選択部524から出力された音声素片系列を結合することによって音声波形を合成する。二次言語の音声出力部526は、合成された音声波形を音声編集部123に出力する。
音声編集部123は、二次言語の音声出力部526から入力された二次言語音声からターゲットユニット部分の音声波形を切り出し、一次言語の音声出力部514から入力された一次言語音声のターゲットユニットに対応する部分の音声波形と入れ替えることによって音声波形を再合成する。
例えば、音声編集部123は、二次言語音声の“It’s supported by google groups”からターゲットユニットである“google”部分の音声を切り出し、一次言語音声の“我在孤狗工作”の“孤狗”の部分と入れ替える。これによって再合成された音声は、“我在google工作”を読み上げる音声である。
二次言語合成部122及び音声編集部123の処理は、二次言語テキスト502に含まれるすべての二次言語文についての実行が終了するまで繰り返される。具体的には、音声編集部123の処理が終了した後、二次言語テキスト502に含まれるすべての二次言語文について二次言語合成部122及び音声編集部123の処理が終了したか否かが判定される(ステップ550)。全ての二次言語文について処理が終了していないと判定された場合、まだ処理されていない二次言語文の一つが選択され、それが二次言語のテキスト解析部522に入力される。ステップ550において全ての二次言語文について処理が終了したと判定された場合、音声編集部123から出力された音声波形は、音声出力装置130に入力される。
上記の“我在google工作”の例では、二次言語テキスト502に含まれるすべての二次言語文は一文のみであるため、音声編集部123で得られる“我在google工作”の音声波形が、最終結果として音声出力装置130に出力される。
音声出力装置130は、音声編集部123から出力された音声波形を増幅して、音声として出力する。
以上に説明した本発明の代表的な実施形態をまとめると、次の通りである。
本発明では、混合言語テキスト音声合成のための方法が提供される。この方法は、
少なくとも二つの言語の混合言語テキスト列を受信する手順と、
前記テキスト列内のテキストの言語構成を分析し、すべての二次言語のユニットを検出するテキスト解析手順と、
すべての二次言語のユニットを一次言語のユニットで置換する手順と、
二次言語のユニットごとに、そのユニット以外の部分を二次言語で置換する手順と、
得られた一次言語のみを含む文書及び二次言語のみを含む文書に基づいて、音声を合成する手順と、
合成した音声から、音声セグメントを切り出し、繋げ合わせる手順と、を含むことを特徴とする。
この構成によれば、二次言語と一次言語とが混在するテキストについて、それぞれの言語の本来の発音に一致する自然な連続発話音声を合成できる。
また、本発明のテキスト解析手順は、
言語の種類を特定し、単一言語のユニットに分割する手順と、
一次言語及び二次言語を決定する手順と、を含むことを特徴とする。
この構成によれば、使用するメインの言語(すなわち一次言語)が決定され、分割されたユニットは単一の言語のみを含む。
また、本発明の二次言語のユニットを一次言語のユニットで置換する手順は、二次言語のユニット特徴を解析する手順と、
二次言語のユニット特徴を、一次言語のユニット特徴に変換する手順と、
一次言語のテキストデータベースから、変換されたユニット特徴と最も近い特徴を持つユニットを検索する手順と、
検索された一次言語のユニットによって原文に対応する二次言語のユニットを置換する手順と、を含むことを特徴とする。
この構成によれば、すべての二次言語のユニットを一次言語のユニットで置換することで、一次言語のみを含む文書が得られる。
また、前記ユニット特徴は、ユニット開始音素、ユニット終了音素、ユニット長さ、ユニット品詞情報など、多くの言語的特徴を含むのが好ましい。
この構成によれば、最もユニットの特徴を適切に表現できる。
また、前記二次言語のユニット特徴を、一次言語のユニット特徴に変換する手順は、ユニット特徴の種類ごとに、対応テーブルを用意し、その対応テーブルに基づいて変換を実行することが好ましい。対応テーブルは、スペクトルなどの音声特徴量を用いたクラスタリングによる統計的手法、又は、専門家による経験を用いた発見的手法によって作成される。
この構成によれば、異なる言語間の特徴を変換することができる。
また、前記のユニットを検索する手順は、データベースに格納されたすべてのユニット(例えば単語、韻律語、韻律フレーズ、短文又は文など)に対して、事前に定義したベクトル距離計算式を用いて、最もターゲットユニットに近いユニットを得る手順を含むことを特徴とする。
この構成によれば、二次言語ユニットに最も近い韻律的特徴及び音韻的特徴を持つ一次言語のユニットが得られる。
また、前記の距離計算式において、すべての特徴量について、重要度が定義され、ユニット開始音素、ユニット終了音素及びユニットの長さに高い重要度が設定されることが好ましい。
この構成によれば、調音環境及び韻律特徴を再現できる。
また、前記二次言語のユニットごとに、そのユニット以外の部分を二次言語で置換する手順は、
二次言語の単語の前後の一次言語の環境特徴を解析する手順と、
一次言語の環境特徴を、二次言語の環境特徴に変換する手順と、
二次言語のテキストデータベースから、変換された文章特徴と最も近い特徴を持つ文書を検索する手順と、
検索された二次言語の文書によって原文に対応する一次言語の文書を置換する手順と、を含むことを特徴とする。
この構成によれば、すべての二次言語のユニットについて、元の文書と韻律及び音韻環境が最も近い二次言語のみを含む文書が得られる。
また、前記環境特徴は、すでに定義したユニット特徴に加えて、ユニット先行音素、ユニット後続音素、ユニットが文において占める位置、フレーズが文において占める位置、先行ポーズの有無、後続ポーズの有無、先行韻律境界の種類、後続韻律境界の種類など、多くの言語的特徴を含むのが好ましい。
この構成によれば、最もユニットの環境特徴を適切に表現できる。
また、前記二次言語の環境特徴を、一次言語の環境特徴に変換する手順は、ユニット特徴の種類ごとに、対応テーブルを用意し、その対応テーブルに基づいて変換を実行することが好ましい。対応テーブルは、スペクトルなどの音声特徴量を用いたクラスタリングによる統計的手法、又は、専門家による経験を用いた発見的手法によって作成できる。
この構成によれば、異なる言語間の環境特徴を変換することができる。
また、前記のユニットを検索する手法は、データベースにあるすべてのユニット(例えば単語、韻律語、韻律フレーズ、短文又は文など)に対して、事前に定義した環境距離計算式を用いて、最もターゲットユニットの環境特徴に近い文書を得る手順を含むことを特徴とする。
この構成によれば、二次言語ユニットの環境特徴に最も近い特徴を持つ一次言語の文書が得られる。
また、前記の距離計算式において、すべての特徴量について、重要度が定義され、ユニット特徴、ユニット先行音素及びユニット後続音素に高い重要度が設定されることが好ましい。
この構成によれば、調音環境及び韻律特徴を再現できる。
また、前記の二次言語の文書から、音声を合成する手順は、合成した一次言語の音声から、置換されたユニットの韻律特徴量及び音韻特徴量を抽出し、それらを対応する二次言語のユニットの目標特徴として音声を合成する手順を含むことを特徴とする。
この構成によれば、合成された二次言語のユニット韻律特徴量及び音韻特徴量は、置換された一次言語のユニットの韻律特徴量及び音韻特徴量と近くなる。
以上の構成によれば、複数の言語が混在するテキストの自然な読み上げ音声を合成することができる。

Claims (18)

  1. 文を読み上げる音声を合成する音声編集合成装置であって、
    前記音声編集合成装置は、
    文のテキストの入力を受ける入力装置と、合成された音声を出力する出力装置と、前記入力装置及び前記出力装置に接続される制御装置と、前記制御装置に接続される記憶装置と、を備え、
    第1言語の第1単語及び第2言語の第2単語を含む第1文の入力を受け、
    前記第2単語を前記第1言語の第3単語によって置き換えることによって、複数の前記第1言語の単語を含み、前記第2言語の単語を含まない第2文を作成し、
    前記第2文を読み上げる音声を合成し、
    前記第2単語を含む、複数の前記第2言語の単語を含み、前記第1言語の単語を含まない第3文を取得し、
    前記第3文を読み上げる音声の音響特徴量の少なくとも一つが、前記第2文を読み上げる音声の音響特徴量の少なくとも一つと一致するように、前記第3文を読み上げる音声を合成し、
    前記第2文を読み上げる音声に含まれる、前記第3単語を読み上げる音声を、前記第3文を読み上げる音声に含まれる、前記第2単語を読み上げる音声で置き換えることによって、前記第1単語及び前記第2単語を含む前記第1文を読み上げる音声を合成することを特徴とする音声編集合成装置。
  2. 前記音声編集合成装置は、
    前記第1言語の複数の単語の特徴を示す情報を含むテキスト情報を保持し、
    前記第1言語の特徴と、前記第2言語の特徴と、を対応付ける対応情報を保持し、
    前記対応情報に基づいて、前記第2単語の特徴に対応する前記第1言語の単語の特徴を特定し、
    前記特定された特徴を検索キーとして、前記テキスト情報に含まれる前記第1言語の単語を検索することによって、前記第3単語を取得することを特徴とする請求項1に記載の音声編集合成装置。
  3. 前記第2単語の特徴は、前記第2単語の開始音素及び前記第2単語の終了音素の少なくとも一つであることを特徴とする請求項2に記載の音声編集合成装置。
  4. 前記第2単語の特徴は、さらに、前記第2単語の品詞、前記第2単語の長さ、前記第2単語のアクセントの位置、前記第2単語のストレスの位置、及び、前記第2単語の声調の少なくとも一つを含むことを特徴とする請求項3に記載の音声編集合成装置。
  5. 前記テキスト情報は、さらに、前記第2単語を含む、前記第2言語の複数の単語を含む複数の文の特徴を示す情報を含み、
    前記音声編集合成装置は、
    前記対応情報に基づいて、前記第1文の特徴に対応する前記第2言語の文の特徴を特定し、
    前記特定された特徴を検索キーとして、前記テキスト情報に含まれる文を検索することによって、前記第3文を取得することを特徴とする請求項2に記載の音声編集合成装置。
  6. 前記第1文の特徴は、前記第1文における前記第2単語の直前の音素、及び、前記第1文における前記第2単語の直後の音素の少なくとも一つであることを特徴とする請求項5に記載の音声編集合成装置。
  7. 前記第1文の特徴は、さらに、前記第1文において前記第2単語が占める位置、前記第1文において前記第2単語を含むフレーズが占める位置、前記第1文において前記第2単語を含む韻律語が占める位置、前記第2単語の品詞、及び、前記第1文の長さの少なくとも一つを含むことを特徴とする請求項6に記載の音声編集合成装置。
  8. 前記音声編集合成装置は、前記第2単語の開始点及び終了点の音響特徴量が、それぞれ、合成された前記第2文を読み上げる音声における、前記第3単語の開始点及び終了点の音響特徴量と一致するように、前記第3文を読み上げる音声を合成することを特徴とする請求項5に記載の音声編集合成装置。
  9. 前記音響特徴量は、韻律特徴量及び音韻特徴量の少なくとも一方を含み、
    前記韻律特徴量は、少なくとも基本周波数を含み、
    前記音韻特徴量は、少なくともスペクトルを含むことを特徴とする請求項8に記載の音声編集合成装置。
  10. 文を読み上げる音声を合成する音声編集合成装置による音声編集合成方法であって、
    前記音声編集合成装置は、文のテキストの入力を受ける入力装置と、合成された音声を出力する出力装置と、前記入力装置及び前記出力装置に接続される制御装置と、前記制御装置に接続される記憶装置と、を備え、
    前記音声編集合成方法は、
    前記音声編集合成装置が、第1言語の第1単語及び第2言語の第2単語を含む第1文の入力を受ける第1手順と、
    前記音声編集合成装置が、前記第2単語を前記第1言語の第3単語によって置き換えることによって、複数の前記第1言語の単語を含み、前記第2言語の単語を含まない第2文を作成する第2手順と、
    前記音声編集合成装置が、前記第2文を読み上げる音声を合成する第3手順と、
    前記音声編集合成装置が、前記第2単語を含む、複数の前記第2言語の単語を含み、前記第1言語の単語を含まない第3文を取得する第4手順と、
    前記音声編集合成装置が、前記第3文を読み上げる音声の音響特徴量の少なくとも一つが前記第2文を読み上げる音声の音響特徴量の少なくとも一つと一致するように、前記第3文を読み上げる音声を合成する第5手順と、
    前記音声編集合成装置が、前記第2文を読み上げる音声に含まれる前記第3単語を読み上げる音声を、前記第3文を読み上げる音声に含まれる前記第2単語を読み上げる音声で置き換えることによって、前記第1単語及び前記第2単語を含む前記第1文を読み上げる音声を合成する第6手順と、を含むことを特徴とする音声編集合成方法。
  11. 前記音声編集合成装置は、
    前記第1言語の複数の単語の特徴を示す情報を含むテキスト情報を保持し、
    前記第1言語の特徴と、前記第2言語の特徴と、を対応付ける対応情報を保持し、
    前記音声編集合成方法は、さらに、
    前記音声編集合成装置が、前記対応情報に基づいて、前記第2単語の特徴に対応する前記第1言語の単語の特徴を特定する手順と、
    前記特定された特徴を検索キーとして、前記テキスト情報に含まれる前記第1言語の単語を検索することによって、前記第3単語を取得する手順を含むことを特徴とする請求項10に記載の音声編集合成方法。
  12. 前記第2単語の特徴は、前記第2単語の開始音素及び前記第2単語の終了音素の少なくとも一つであることを特徴とする請求項11に記載の音声編集合成方法。
  13. 前記第2単語の特徴は、さらに、前記第2単語の品詞、前記第2単語の長さ、前記第2単語のアクセントの位置、前記第2単語のストレスの位置、及び、前記第2単語の声調の少なくとも一つを含むことを特徴とする請求項12に記載の音声編集合成方法。
  14. 前記テキスト情報は、さらに、前記第2単語を含む、前記第2言語の複数の単語を含む複数の文の特徴を示す情報を含み、
    前記方法は、さらに、前記対応情報に基づいて、前記第1文の特徴に対応する前記第2言語の文の特徴を特定する手順を含み、
    前記第4手順は、前記音声編集合成装置が、前記特定された特徴を検索キーとして、前記テキスト情報に含まれる文を検索することによって、前記第3文を取得する手順を含むことを特徴とする請求項11に記載の音声編集合成方法。
  15. 前記第1文の特徴は、前記第1文における前記第2単語の直前の音素、及び、前記第1文における前記第2単語の直後の音素、の少なくとも一つであることを特徴とする請求項14に記載の音声編集合成方法。
  16. 前記第1文の特徴は、さらに、前記第1文において前記第2単語が占める位置、前記第1文において前記第2単語を含むフレーズが占める位置、前記第1文において前記第2単語を含む韻律語が占める位置、前記第2単語の品詞、及び、前記第1文の長さの少なくとも一つを含むことを特徴とする請求項15に記載の音声編集合成方法。
  17. 前記第5手順は、前記音声編集合成装置が、前記第2単語の開始点及び終了点の音響特徴量が、それぞれ、合成された前記第2文を読み上げる音声における前記第3単語の開始点及び終了点の音響特徴量と一致するように、前記第3文を読み上げる音声を合成する手順を含むことを特徴とする請求項14に記載の音声編集合成方法。
  18. 前記音響特徴量は、韻律特徴量及び音韻特徴量の少なくとも一方を含み、
    前記韻律特徴量は、少なくとも基本周波数を含み、
    前記音韻特徴量は、少なくともスペクトルを含むことを特徴とする請求項17に記載の音声編集合成方法。
JP2011521765A 2009-07-08 2009-07-08 音声編集合成装置及び音声編集合成方法 Expired - Fee Related JP5343293B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/062771 WO2011004502A1 (ja) 2009-07-08 2009-07-08 音声編集合成装置及び音声編集合成方法

Publications (2)

Publication Number Publication Date
JPWO2011004502A1 JPWO2011004502A1 (ja) 2012-12-13
JP5343293B2 true JP5343293B2 (ja) 2013-11-13

Family

ID=43428939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011521765A Expired - Fee Related JP5343293B2 (ja) 2009-07-08 2009-07-08 音声編集合成装置及び音声編集合成方法

Country Status (2)

Country Link
JP (1) JP5343293B2 (ja)
WO (1) WO2011004502A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112010005168B4 (de) * 2010-01-22 2018-12-13 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
JP5687611B2 (ja) * 2011-12-08 2015-03-18 日本電信電話株式会社 句末音調予測装置
JP6249760B2 (ja) * 2013-08-28 2017-12-20 シャープ株式会社 テキスト読み上げ装置
WO2020012813A1 (ja) * 2018-07-09 2020-01-16 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
EP3994683B1 (en) * 2019-07-02 2023-09-13 Microsoft Technology Licensing, LLC Multilingual neural text-to-speech synthesis

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196198A (ja) * 1989-12-26 1991-08-27 Matsushita Electric Ind Co Ltd 音声規則合成装置
JPH09244679A (ja) * 1996-03-12 1997-09-19 Sony Corp 音声合成方法および音声合成装置
JP2000352990A (ja) * 1999-06-14 2000-12-19 Nippon Telegr & Teleph Corp <Ntt> 外国語音声合成装置
JP2004287444A (ja) * 2003-03-24 2004-10-14 Microsoft Corp 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ
JP2006030384A (ja) * 2004-07-13 2006-02-02 Sony Corp テキスト音声合成装置及びテキスト音声合成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196198A (ja) * 1989-12-26 1991-08-27 Matsushita Electric Ind Co Ltd 音声規則合成装置
JPH09244679A (ja) * 1996-03-12 1997-09-19 Sony Corp 音声合成方法および音声合成装置
JP2000352990A (ja) * 1999-06-14 2000-12-19 Nippon Telegr & Teleph Corp <Ntt> 外国語音声合成装置
JP2004287444A (ja) * 2003-03-24 2004-10-14 Microsoft Corp 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ
JP2006030384A (ja) * 2004-07-13 2006-02-02 Sony Corp テキスト音声合成装置及びテキスト音声合成方法

Also Published As

Publication number Publication date
JPWO2011004502A1 (ja) 2012-12-13
WO2011004502A1 (ja) 2011-01-13

Similar Documents

Publication Publication Date Title
US7496498B2 (en) Front-end architecture for a multi-lingual text-to-speech system
US8566099B2 (en) Tabulating triphone sequences by 5-phoneme contexts for speech synthesis
US6505158B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US8352270B2 (en) Interactive TTS optimization tool
JP5343293B2 (ja) 音声編集合成装置及び音声編集合成方法
KR20060008330A (ko) 음성 합성 장치, 음성 합성 방법 및 프로그램
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP4639932B2 (ja) 音声合成装置
JP3270356B2 (ja) 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP3346671B2 (ja) 音声素片選択方法および音声合成装置
JP2005018037A (ja) 音声合成装置、音声合成方法及びプログラム
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JPH08335096A (ja) テキスト音声合成装置
JP3060276B2 (ja) 音声合成装置
JP4173404B2 (ja) 文セット自動生成装置、文セット自動生成プログラム、記憶媒体
JP3626398B2 (ja) テキスト音声合成装置、テキスト音声合成方法及びその方法を記録した記録媒体
JP4414864B2 (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
Demenko et al. Implementation of Polish speech synthesis for the BOSS system
JP3892691B2 (ja) 音声合成方法及びその装置並びに音声合成プログラム
JP2001343987A (ja) 音声合成方法、および音声合成装置
Wen et al. Improved Mandarin segmental duration prediction with automatically extracted syntax features
Heggtveit et al. Intonation Modelling with a Lexicon of Natural F0 Contours
Barra-Chicote et al. The GTH-CSTR Entries for the Speech Synthesis Albayzin 2010 Evaluation: HMM-based Speech Synthesis Systems considering morphosyntactic features and Speaker Adaptation Techniques
Chotimongkol et al. Dzongkha Text-to-Speech Synthesis System–Phase II

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130726

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees