JP3540984B2 - Speech synthesis apparatus, speech synthesis method, and storage medium storing speech synthesis program - Google Patents
Speech synthesis apparatus, speech synthesis method, and storage medium storing speech synthesis program Download PDFInfo
- Publication number
- JP3540984B2 JP3540984B2 JP2000190466A JP2000190466A JP3540984B2 JP 3540984 B2 JP3540984 B2 JP 3540984B2 JP 2000190466 A JP2000190466 A JP 2000190466A JP 2000190466 A JP2000190466 A JP 2000190466A JP 3540984 B2 JP3540984 B2 JP 3540984B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- time
- translation
- start time
- end time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、音声合成装置、音声合成方法および音声合成プログラムを記憶した記憶媒体に関し、特に、同時通訳において言語間に存在する語順の相違により生ずる無音区間を適切なポーズ時間に設定して原言語から翻訳された目的言語の合成音声の自然性を向上させるが如き、音声合成されるべき目的言語の文間の無音区間を適切なポーズ時間に設定して音声合成する音声合成装置、音声合成方法および音声合成プログラムを記憶した記憶媒体に関する。
【0002】
【従来の技術】
同時通訳音声が聞き手にとって、違和感なく自然で、内容が理解し易いものか否かを検証する方法およびこれを実施する装置は今のところ特に開発されていない。
同時通訳をした際に、意味のまとまりのある原言語の発話文を翻訳した翻訳音声が、長い無音区間により区切られていると、聞き手にとって違和感を感ずることがある。この現象は、原言語が1文発話された後に訳し始める逐次翻訳の場合に、原言語の1文が長いときに起こり得る。また、原言語が1文節発話される度毎に訳し始める漸進的翻訳の場合においても、例えば日英通訳の場合、日本語は英語とは語順が異なって、目的語が動詞に先行するところから、日本語で最後の動詞が発話されるまで、英語に翻訳することができず、発話タイミングが結局逐次翻訳と同等になる。この漸進的翻訳においても、日本語の目的語が長い場合に無音区間が長くなり、違和感を感ずることがある。この様な場合に、通訳者が人間であると、主語、目的語の最初の方の文節、或いは動詞に到る文脈から、動詞を予測して翻訳することがある。
【0003】
【発明が解決しようとする課題】
この発明は、同時通訳において言語間に存在する語順の相違により生ずる無音区間を適切なポーズ時間に設定して原言語から翻訳された目的言語の合成音声の自然性を向上させるが如き、音声合成されるべき目的言語の文間の無音区間を適切なポーズ時間に設定して音声合成する場合に使用される音声合成装置、音声合成方法および音声合成プログラムを記憶した記憶媒体を提供することを目的とするものである。
【0004】
【課題を解決するための手段】
請求項1:原言語の各発話文の発話開始時刻および発話終了時刻の情報を記憶した原言語データベース11を具備し、原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベース21を具備し、目的言語データベース21内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベース11から取得し、当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与する発話開始時刻付与部31を具備し、目的言語データベース21内の各翻訳文を発話開始時刻付与部31で得られた発話開始時刻に応答して動作せしめられる音声合成部51を具備する音声合成装置を構成した。
【0005】
そして、請求項2:原言語の各発話文の発話開始時刻および発話終了時刻の情報を記憶した原言語データベース11を具備し、原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベース21を具備し、目的言語データベース21内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベース11から取得し、当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与する発話開始時刻付与部31を具備し、目的言語データベース21内の各翻訳文の発話時間を算出し、当該発話時間と発話開始時刻付与部31で得られた発話開始時刻とから当該翻訳文の発話終了時刻を算出し、当該翻訳文に付与する発話終了時刻付与部32を具備し、目的言語データベース21内の各翻訳文を、発話開始時刻付与部31或は発話終了時刻付与部32で得られた発話開始時刻に応答して動作せしめられる音声合成部51を具備する音声合成装置を構成した。
【0006】
また、請求項3:請求項2に記載される音声合成装置において、発話終了時刻付与部32は直前の翻訳文の発話終了時刻と後の翻訳文の発話開始時刻の間の前後逆転に対応して後の翻訳文の発話開始時刻と発話終了時刻を遅延する遅延処理部を有するものである音声合成装置を構成した。
更に、請求項4:原言語の各発話文の発話開始時刻および発話終了時刻の情報を記憶した原言語データベース11を具備し、原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベース21を具備し、目的言語データベース21内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベース11から取得し、当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与する発話開始時刻付与部31を具備し、目的言語データベース21内の各翻訳文の発話時間を算出し、当該発話時間と発話開始時刻付与部31で得られた発話開始時刻とから当該翻訳文の発話終了時刻を算出し、当該翻訳文に付与する発話終了時刻付与部32を具備し、発話開始時刻付与部31と発話終了時刻付与部32で得られた時刻情報に基づいて目的言語データベース21内の各発話文間の無音区間の長さを算出し、その長さが或る値を超えている場合、後の翻訳文に対してその発話開始時刻および発話終了時刻をより前に修正した値を付与する修正発話時刻付与部41を具備し、目的言語データベース21内の各翻訳文を、発話開始時刻付与部31、発話終了時刻付与部32或いは修正発話時刻付与部41で得られた発話開始時刻に応答して動作せしめられる音声合成部51を具備する音声合成装置を構成した。
【0007】
また、請求項5:請求項4に記載される音声合成装置において、発話終了時刻付与部32は直前の翻訳文の発話終了時刻と後の翻訳文の発話開始時刻の間の前後逆転に対応して後の翻訳文の発話開始時刻と発話終了時刻を遅延する遅延処理部を有するものである音声合成装置を構成した。
ここで、請求項6:原言語の各発話文の発話開始時刻および発話終了時刻の情報を記憶した原言語データベース11と原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベース21を使用し、目的言語データベース21内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベース11から取得し当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与し、目的言語データベース21内の各翻訳文を得られた発話開始時刻から音声合成する音声合成方法を構成した。
【0008】
そして、請求項7:原言語の各発話文の発話開始時刻および発話終了時刻の情報を記憶した原言語データベース11と原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベース21を使用し、目的言語データベース21内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベース11から取得して当該発話終了時刻に或る時間を加算し得られた時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与し、目的言語データベース21内の各翻訳文の発話時間を算出し、当該発話時間と先に得られた発話開始時刻とから当該翻訳文の発話終了時刻を算出し、直前の翻訳文の発話終了時刻と後の翻訳文の発話開始時刻の間の前後逆転に対応して後の翻訳文の発話開始時刻と発話終了時刻を遅延せしめ、目的言語データベース21内の各翻訳文を、先に得られた発話開始時刻或いは遅延せしめられた発話開始時刻から音声合成する音声合成方法を構成した。
【0009】
また、請求項8:原言語の各発話文の発話開始時刻および発話終了時刻の情報を記憶した原言語データベース11と原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベース21を使用し、目的言語データベース21内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベース11から取得し、当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与し、目的言語データベース21内の各翻訳文の発話時間を算出し、当該発話時間と先に得られた発話開始時刻とから当該翻訳文の発話終了時刻を算出し、直前の翻訳文の発話終了時刻と後の翻訳文の発話開始時刻の間の前後逆転に対応して後の翻訳文の発話開始時刻と発話終了時刻を遅延せしめ、目的言語データベース21内の各発話文間の無音区間の長さを算出し、その長さが或る値を超えている場合、後の翻訳文に対してその発話開始時刻および発話終了時刻をより前に修正し、目的言語データベース21内の各翻訳文を、先に得られた発話開始時刻、遅延せしめられた発話開始時刻、或いはより前に修正せしめられた発話開始時刻から音声合成する音声合成方法を構成した。
【0010】
ここで、請求項9:原言語の各発話文の発話開始時刻および発話終了時刻の情報を記憶した原言語データベース11と、原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベース21と、目的言語データベース内の各翻訳文に対応する原言語の発話文の発話終了時刻に或る時間を加算して当該翻訳文の発話開始時刻を求めるプロセスと、目的言語データベース21内の各翻訳文の発話時間を算出するプロセスと、発話時間と当該翻訳文に付与された発話開始時刻に基づいて当該翻訳文の発話終了時刻を求めるプロセスと、求められた各翻訳文の発話開始時刻および発話終了時刻情報に基づいて目的言語データベース21内の各発話文間の無音区間の長さを算出するプロセスと、算出された無音区間の長さが或る値を超えている場合後の翻訳文に対してその発話開始時刻および発話終了時刻をより前に修正するプロセスと、目的言語データベース21内の各翻訳文を修正された発話開始時刻から音声合成するプロセスと、より成る音声合成プログラムを記憶した記憶媒体を構成した。
【0011】
【発明の実施の形態】
この発明の実施の形態を、先ず、図1および図2を参照して説明する。
図1の実施例において、11は原言語データベース、21は目的言語データベース、31は発話開始時刻付与部、32は発話終了時刻付与部、41は修正発話時刻付与部、51は音声合成部を示す。図2は原言語と目的言語との間の発話時刻の関係を示す図である。以下、図3ないし図5をも参照し具体的に説明する。
【0012】
原言語データベース11には、原言語の各発話文とその発話開始時刻および発話終了時刻の情報が記憶されている。図3は原言語データベース11の一例を示す図であり、原言語の発話文と、その発話開始時刻、発話終了時刻の情報が記憶されている。原言語の発話文は、テキストデータの場合もあれば、音声データの場合もある。
目的言語データベース21には、原言語の各発話文に対応する翻訳文とその発話開始時刻および発話終了時刻の情報とが記憶されている。図4は目的言語データベースの一例を示す図であり、翻訳文と、その発話開始時刻、発話終了時刻の情報が記憶されている。翻訳文は、テキストデータの場合もあれば、音声データの場合もある。目的言語データベース21には、翻訳文として、(a)直訳表現の翻訳文の他に(b)意訳等の修正処理を施した翻訳文を記憶しておき、また、(c)通常の口調で翻訳した音声データ、更に、(d)喜び、悲しみ、怒りなどの感情を込めた原言語の発話内容を反映した口調で翻訳した音声データを記憶しておくこともできる。
【0013】
発話開始時刻付与部31は、目的言語データベース21内の各翻訳文に対して対応する原言語の発話文の発話終了時刻を原言語データベース11から取得し、当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として付与する。図4においては、各翻訳文の発話開始時刻として対応する原言語の発話文の発話終了時刻に或る時間、一例として1msecを加算した値が表示されている。
【0014】
発話終了時刻付与部32は、目的言語データベース21内の各翻訳文の発話時間を算出し、当該発話時間と発話開始時刻付与部31で得られた発話開始時刻とから、当該翻訳文の発話終了時刻を算出して付与する。ところで、翻訳文の発話時間は、翻訳文がテキストデータの場合、翻訳文を音声合成部51により音声合成し、その音声の再生時間を測定することにより求めることができる。また、テキストデータの場合、音声合成部51において、テキストを音素に分解し、予め音声合成部51に記憶されている各音素長の情報を使用して音声を再生することなしに発話時間の推定値を算出することによっても得られる。翻訳文が音声データの場合、予め発話時間の情報が組み込まれていることがある。また、発話時間は、音声データを音声合成部51により再生して、この再生時間を測定することによっても求めることができる。図4においては、以上の通りにして算出した発話時間を発話開始時刻に加算することにより得られた値を、発話終了時刻として示している。
【0015】
ここで、発話終了時刻付与部32により発話終了時刻を付与する際に、或る翻訳文の発話終了時刻が、次の翻訳文の発話開始時刻よりも後になる場合が起こり得る。この場合、発話の重なりを認めて特に時刻の修正をしない方法と、発話の重なりを認めずに時刻を修正する方法とがある。以下の方法は、後の翻訳文の発話開始を前の翻訳文の発話終了の直後とするものである。即ち、発話終了時刻付与部32は、直前の翻訳文の発話終了時刻と後の翻訳文の発話開始時刻の間の前後逆転に対応して後の翻訳文の発話開始時刻と発話終了時刻を遅延する遅延処理部を有する。
【0016】
Nを文の総数としたとき、次のルーチンで発話時刻を修正する。
ルーチンの内容
(1)i=1とする。
(2)i<Nならば(3)に進む。i=Nならば終了する。
(3)(i+1)番目の翻訳文の発話開始時刻がfで、i番目の翻訳文の発話終了時刻が(f+e)(e>0)の場合、(i+1)番目の翻訳文の発話開始時刻と発話終了時刻をeだけ遅らせる。
(4)i=i+1とする。(2)に進む。
【0017】
図2を参照するに、修正発話時刻付与部41は、発話開始時刻付与部31と発話終了時刻付与部32で得られた時刻情報に基づいて、目的言語データベース21内の各翻訳文間の無音区間の長さを算出し、この長さが或る値を超えている場合、後の文に対してその発話開始時刻および発話終了時刻をより前に修正した値を付与する。実線は各文の発話区間を示しており、実線に添えられた番号iおよび(i+1)が対応する原言語文と目的言語文を示している。mは、発話開始時刻付与部31において原言語の発話文の発話終了時刻に加算する時間を表わす。但し、修正発話時刻付与部41において目的言語文の発話開始、終了時刻を修正した場合、このmの値は一定とは限らない。
【0018】
Nを文の総数としたとき、修正発話時刻付与部41における時刻修正は、以下のルーチンで行う。
ルーチンの内容
(1)i=1とする。
(2)i<Nならば(3)に進む。i=Nならば終了する。
(3)目的言語文i、(i+1)間の無音時間から原言語文i、(i+1)間の無音時間xを除いたyの長さが或る閾値k以上の場合、目的言語文(i+1)の発話開始、終了時刻を、yの値がkになる様に、同一時間だけ前方へずらす。但し、この結果、目的言語文(i+1)の発話開始時刻が原言語文(i+1)の発話開始時刻よりも前になれば、目的言語文(i+1)の発話開始時刻が原言語文(i+1)の発話開始時刻と等しくなる様に、目的言語文(i+1)の発話開始、終了時刻を同一時間だけ前方へずらす。
(4)i=i+1とする。(2)に進む。
【0019】
以上の通り、発話開始時刻付与部31と発話終了時刻付与部32で得られた時刻情報に基づいて、目的言語データベース21内の各発話文間の無音区間の長さを算出し、その長さが或る値を超えている場合、後の文に対してその発話開始時刻および発話終了時刻をより前に修正した値を付与する構成を具備することにより、音声合成されるべき目的言語の文間の無音区間を適切なポーズ時間に設定して音声合成することができる。
【0020】
図5は、目的言語データベース21において、発話開始時刻付与部31と発話終了時刻付与部32により付与された発話開始、終了時刻とは別に、修正発話時刻付与部41で付与された修正時刻を示している。4番目の原言語である日本語文は、目的語が長いところから、最後の動詞が発話されるに到るまで時間がかかる。従って、目的言語である英語文の3番目と4番目の間の無音区間が長くなるので、4番目の文の発話開始、終了時刻が前方に修正されている。この場合、x=5秒、y=40秒、k=10秒である。
【0021】
ここで、音声合成部51について説明するに、音声合成部51は目的言語データベース21内の各翻訳文を発話開始時刻付与部31或いは発話終了時刻付与部32で得られた発話開始時刻から音声合成し、或は修正発話時刻付与部41で得られた発話開始時刻から音声合成する構成を有する。音声合成部51は、また、原言語データベース11内の各発話文をその発話開始時刻から音声合成し、原言語文と目的言語文を同時に音声合成する構成を有するものとすることもできる。
【0022】
以上の音声合成部51は、目的言語データベース21内の各翻訳文を発話開始時刻付与部31或いは発話終了時刻付与部32で得られた発話開始時刻から音声合成することにより、逐次翻訳音声が得られる。そして、原言語のある一文が長かった場合、逐次翻訳によっては、その翻訳文とその一つ前の翻訳文との間の無音区間が長くなるので、その無音区間を短くした翻訳音声は予測翻訳を取り入れた漸進的翻訳と考えられる。従って、目的言語データベース21内の各文を、修正発話時刻付与部41で得られた発話開始時刻から音声合成させることにより、予測翻訳を取り入れた漸進的翻訳音声が得られる。
【0023】
ところで、この実施例の動作は、音声合成プログラムを記憶した記憶媒体を準備し、図示されている訳ではないが、CPUにより音声合成プログラムをこの記憶媒体からインストールし、原言語データベース11および目的言語データベース21を参照して実施する。この音声合成プログラムは、請求項9に規定される通り原言語の各発話文の発話開始時刻および発話終了時刻の情報を記憶した原言語データベース、原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベース、目的言語データベース内の各翻訳文に対応する原言語の発話文の発話終了時刻に或る時間を加算して当該翻訳文の発話開始時刻を求めるプロセス、目的言語データベース内の各翻訳文の発話時間を算出するプロセス、発話時間と当該翻訳文に付与された発話開始時刻に基づいて当該翻訳文の発話終了時刻を求めるプロセス、求められた各翻訳文の発話開始時刻および発話終了時刻情報に基づいて目的言語データベース内の各発話文間の無音区間の長さを算出するプロセス、算出された無音区間の長さが或る値を超えている場合後の翻訳文に対してその発話開始時刻および発話終了時刻をより前に修正するプロセス、目的言語データベース内の各翻訳文を修正された発話開始時刻から音声合成するプロセスより成るものである。
【0024】
ここで、原言語文の或る発話文が、「どうしてこういうギャップができたかと申しますと。」であったとする。これに対応する翻訳文として、目的言語データベース21内に、次に示す直訳表現の翻訳文と、意訳その他の修正処理を施した翻訳文を記憶しておく。
原言語の発話文 :どうしてこういうギャップができたかと申しますと。
直訳表現の翻訳文 :What is the reason of this gap ?
意訳等を施した翻訳文:How can we have this large gap between the foreigners and Japanese understanding ?
以上の意訳その他の処理を施した翻訳文は、それまでの発話内容の文脈に鑑みて翻訳したものである。以上の直訳表現の翻訳文と意訳その他の処理を施した翻訳文を音声合成部51により音声合成する。
【0025】
【発明の効果】
以上の通りであって、この発明は、逐次翻訳音声或いは漸進的翻訳音声を再生する構成を採用することにより、より自然な目的言語の音声合成をすることができる。そして、逐次翻訳音声と予測翻訳を取り入れた漸進的翻訳音声との間の違和感の違いを検証することができる。また、直訳表現の翻訳音声と意訳表現の翻訳音声の間の内容理解の容易性の違いを検証することができる。更に、この発明は、通訳者を志向する者が同時通訳の学習教材として使用することができる。また、同時通訳および機械翻訳の研究者が研究手段として使用することができる。
【図面の簡単な説明】
【図1】実施例を説明する図。
【図2】原言語と目的言語の発話時刻の相互関係を示す図。
【図3】原言語データベースの一例を示す図。
【図4】目的言語データベースの一例を示す図。
【図5】付与された修正時刻を示す図。
【符号の説明】
11 原言語データベース
21 目的言語データベース
31 発話開始時刻付与部
32 発話終了時刻付与部
41 修正発話時刻付与部
51 音声合成部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech synthesizer, a speech synthesis method, and a storage medium storing a speech synthesis program, and in particular, sets a silence section caused by a difference in word order between languages in simultaneous interpretation to an appropriate pause time. Synthesizing apparatus and method for synthesizing speech by setting an appropriate pause time between silent sentences between sentences of the target language to be speech-synthesized so as to improve the naturalness of synthesized speech of the target language translated from And a storage medium storing a speech synthesis program.
[0002]
[Prior art]
A method for verifying whether or not the simultaneous interpreted voice is natural for the listener without discomfort and easy to understand the content, and a device for performing the same have not been developed so far.
At the time of simultaneous interpretation, if the translated speech obtained by translating the utterance sentence of the original language having a coherent meaning is separated by a long silent section, the listener may feel uncomfortable. This phenomenon can occur when one sentence of the source language is long, in the case of sequential translation that starts translating after the source language is uttered. Also, in the case of a gradual translation, in which the source language starts to be translated each time a phrase is uttered, for example, in the case of a Japanese-English interpreter, Japanese has a different word order from English, and the object precedes the verb. Until the last verb is uttered in Japanese, it cannot be translated into English, and the utterance timing eventually becomes equivalent to the sequential translation. Also in this gradual translation, when the Japanese object is long, the silent section becomes long, and the user may feel uncomfortable. In such a case, if the interpreter is a human, the verb may be predicted and translated from the context of the subject, the first phrase of the object, or the verb.
[0003]
[Problems to be solved by the invention]
According to the present invention, speech synthesis is performed such that a silence section caused by a difference in word order existing between languages in simultaneous interpretation is set to an appropriate pause time to improve the naturalness of synthesized speech of a target language translated from a source language. An object of the present invention is to provide a speech synthesizer, a speech synthesis method, and a storage medium storing a speech synthesis program which are used when a silent section between sentences of a target language to be performed is set to an appropriate pause time to perform speech synthesis. It is assumed that.
[0004]
[Means for Solving the Problems]
Claim 1: A
[0005]
Claim 2: a
[0006]
Claim 3: In the voice synthesizing device according to
The
[0007]
Claim 5: In the voice synthesizing apparatus according to claim 4, the utterance end
Here, Claim 6: The
[0008]
Claim 7: The
[0009]
Claim 8: The
[0010]
Here, claim 9: a
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
An embodiment of the present invention will be described first with reference to FIGS.
In the embodiment of FIG. 1, 11 is a source language database, 21 is a target language database, 31 is an utterance start time giving unit, 32 is an utterance end time giving unit, 41 is a corrected utterance time giving unit, and 51 is a speech synthesis unit. . FIG. 2 is a diagram showing a relationship between utterance times between the source language and the target language. Hereinafter, a specific description will be given also with reference to FIGS.
[0012]
The
The
[0013]
The utterance start
[0014]
The utterance end
[0015]
Here, when giving the utterance end time by the utterance end
[0016]
When N is the total number of sentences, the utterance time is corrected by the following routine.
Routine contents (1) i = 1.
(2) If i <N, proceed to (3). If i = N, the process ends.
(3) If the utterance start time of the (i + 1) th translated sentence is f and the utterance end time of the ith translated sentence is (f + e) (e> 0), the utterance start time of the (i + 1) th translated sentence And the utterance end time is delayed by e.
(4) Set i = i + 1. Proceed to (2).
[0017]
Referring to FIG. 2, based on the time information obtained by the utterance start
[0018]
When N is the total number of sentences, the time correction in the corrected utterance time giving unit 41 is performed by the following routine.
Routine contents (1) i = 1.
(2) If i <N, proceed to (3). If i = N, the process ends.
(3) If the length of y obtained by subtracting the silence time x between the source language sentence i and (i + 1) from the silence time between the target language sentences i and (i + 1) is equal to or greater than a certain threshold k, the target language sentence (i + 1) The utterance start and end times are shifted forward by the same time so that the value of y becomes k. However, as a result, if the utterance start time of the target language sentence (i + 1) is earlier than the utterance start time of the source language sentence (i + 1), the utterance start time of the target language sentence (i + 1) becomes the source language sentence (i + 1). The utterance start and end times of the target language sentence (i + 1) are shifted forward by the same time so that the utterance start times are equal to the utterance start times.
(4) Set i = i + 1. Proceed to (2).
[0019]
As described above, based on the time information obtained by the utterance start
[0020]
FIG. 5 shows, in the
[0021]
Here, the
[0022]
The above-described
[0023]
By the way, in the operation of this embodiment, a storage medium storing a speech synthesis program is prepared, and although not shown, the speech synthesis program is installed from this storage medium by the CPU, and the
[0024]
Here, it is assumed that a certain utterance sentence in the source language sentence is "Why do you make such a gap?" As the corresponding translation, a translation of the following direct translation expression and a translation that has been subjected to a meaning translation and other correction processing are stored in the
Source language utterances: How did such a gap occur?
Translation of a literal translation: What is the reason of this gap?
Translated translations: How can we have this large gap between the foreigners and Japanese understanding?
The translated sentence subjected to the above-mentioned translation and other processing is translated in view of the context of the utterance contents up to that time. The
[0025]
【The invention's effect】
As described above, according to the present invention, by adopting the configuration for reproducing the sequential translation speech or the progressive translation speech, a more natural speech synthesis of the target language can be performed. Then, it is possible to verify a difference in discomfort between the sequentially translated speech and the progressively translated speech incorporating the predicted translation. In addition, it is possible to verify a difference in ease of content understanding between a translation speech of a direct translation expression and a translation speech of a linguistic expression. Further, the present invention can be used by a person who intends to be an interpreter as a learning material for simultaneous interpretation. It can also be used as a research tool by researchers in simultaneous translation and machine translation.
[Brief description of the drawings]
FIG. 1 illustrates an embodiment.
FIG. 2 is a diagram showing a mutual relationship between utterance times of a source language and a target language.
FIG. 3 is a diagram showing an example of a source language database.
FIG. 4 is a diagram showing an example of a target language database.
FIG. 5 is a diagram showing an assigned correction time.
[Explanation of symbols]
11
Claims (9)
原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベースを具備し、
目的言語データベース内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベースから取得し、当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与する発話開始時刻付与部を具備し、
目的言語データベース内の各翻訳文を、発話開始時刻付与部で得られた発話開始時刻に応答して動作せしめられる音声合成部を具備することを特徴とする音声合成装置。A source language database storing information on the utterance start time and utterance end time of each utterance sentence in the source language;
A target language database storing translations of each utterance sentence in the source language and information on the utterance start time and utterance end time of the translated sentence;
The utterance end time of the utterance of the source language corresponding to each translation in the target language database is obtained from the source language database, and the time obtained by adding a certain time to the utterance end time is the utterance start time of the translation. An utterance start time giving unit that gives the translation as the time to the translation,
A speech synthesizer comprising: a speech synthesis unit that operates each translated sentence in a target language database in response to an utterance start time obtained by an utterance start time providing unit.
原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベースを具備し、
目的言語データベース内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベースから取得し、当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与する発話開始時刻付与部を具備し、
目的言語データベース内の各翻訳文の発話時間を算出し、当該発話時間と発話開始時刻付与部で得られた発話開始時刻とから当該翻訳文の発話終了時刻を算出し、当該翻訳文に付与する発話終了時刻付与部を具備し、
目的言語データベース内の各翻訳文を、発話開始時刻付与部或いは発話終了時刻付与部で得られた発話開始時刻に応答して動作せしめられる音声合成部を具備することを特徴とする音声合成装置。A source language database storing information on the utterance start time and utterance end time of each utterance sentence in the source language;
A target language database storing translations of each utterance sentence in the source language and information on the utterance start time and utterance end time of the translated sentence;
The utterance end time of the utterance of the source language corresponding to each translation in the target language database is obtained from the source language database, and the time obtained by adding a certain time to the utterance end time is the utterance start time of the translation. An utterance start time giving unit that gives the translation as the time to the translation,
The utterance time of each translated sentence in the target language database is calculated, and the utterance end time of the translated sentence is calculated from the uttered time and the utterance start time obtained by the utterance start time assigning unit, and is attached to the translated sentence. An utterance end time providing unit,
A speech synthesizer comprising: a speech synthesis unit that operates each translated sentence in a target language database in response to an utterance start time obtained by an utterance start time giving unit or an utterance end time giving unit.
発話終了時刻付与部は直前の翻訳文の発話終了時刻と後の翻訳文の発話開始時刻の間の前後逆転に対応して後の翻訳文の発話開始時刻と発話終了時刻を遅延する遅延処理部を有するものであることを特徴とする音声合成装置。The speech synthesizer according to claim 2,
The utterance end time assigning unit delays the utterance start time and utterance end time of the subsequent translation in response to the reversal between the utterance end time of the immediately preceding translation and the utterance start time of the subsequent translation. A speech synthesizer characterized by having:
原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベースを具備し、
目的言語データベース内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベースから取得し、当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与する発話開始時刻付与部を具備し、
目的言語データベース内の各翻訳文の発話時間を算出し、当該発話時間と発話開始時刻付与部で得られた発話開始時刻とから当該翻訳文の発話終了時刻を算出し、当該翻訳文に付与する発話終了時刻付与部を具備し、
発話開始時刻付与部と発話終了時刻付与部で得られた時刻情報に基づいて目的言語データベース内の各発話文間の無音区間の長さを算出し、その長さが或る値を超えている場合、後の翻訳文に対してその発話開始時刻および発話終了時刻をより前に修正した値を付与する修正発話時刻付与部を具備し、
目的言語データベース内の各翻訳文を、発話開始時刻付与部、発話終了時刻付与部或いは修正発話時刻付与部で得られた発話開始時刻に応答して動作せしめられる音声合成部を具備することを特徴とする音声合成装置。A source language database storing information on the utterance start time and utterance end time of each utterance sentence in the source language;
A target language database storing translations of each utterance sentence in the source language and information on the utterance start time and utterance end time of the translated sentence;
The utterance end time of the utterance of the source language corresponding to each translation in the target language database is obtained from the source language database, and the time obtained by adding a certain time to the utterance end time is the utterance start time of the translation. An utterance start time giving unit that gives the translation as the time to the translation,
The utterance time of each translated sentence in the target language database is calculated, and the utterance end time of the translated sentence is calculated from the uttered time and the utterance start time obtained by the utterance start time assigning unit, and is attached to the translated sentence. An utterance end time providing unit,
Based on the time information obtained by the utterance start time provision unit and the utterance end time provision unit, the length of a silent section between each utterance sentence in the target language database is calculated, and the length exceeds a certain value. In the case, there is provided a corrected utterance time providing unit that adds a value obtained by correcting the utterance start time and the utterance end time earlier to a later translated sentence,
A speech synthesis unit is provided which operates each translated sentence in the target language database in response to the utterance start time obtained by the utterance start time giving unit, the utterance end time giving unit or the corrected utterance time giving unit. Speech synthesizer.
発話終了時刻付与部は直前の翻訳文の発話終了時刻と後の翻訳文の発話開始時刻の間の前後逆転に対応して後の翻訳文の発話開始時刻と発話終了時刻を遅延する遅延処理部を有するものであることを特徴とする音声合成装置。The speech synthesizer according to claim 4,
The utterance end time assigning unit delays the utterance start time and utterance end time of the subsequent translation in response to the reversal between the utterance end time of the immediately preceding translation and the utterance start time of the subsequent translation. A speech synthesizer characterized by having:
目的言語データベース内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベースから取得して当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与し、
目的言語データベース内の各翻訳文を得られた発話開始時刻から音声合成することを特徴とする音声合成方法。A source language database storing information on the utterance start time and utterance end time of each utterance in the source language, and a translation of each utterance in the source language and information on the utterance start time and utterance end time of the translated sentence are stored. Using the target language database,
The utterance end time of the source language utterance corresponding to each translation in the target language database is obtained from the source language database, and a time obtained by adding a certain time to the utterance end time is set as the start of the utterance of the translation. Time is assigned to the translation as
A speech synthesis method characterized by performing speech synthesis from each utterance start time at which each translated sentence in a target language database is obtained.
目的言語データベース内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベースから取得して当該発話終了時刻に或る時間を加算して得られた時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与し、
目的言語データベース内の各翻訳文の発話時間を算出し、当該発話時間と先に得られた発話開始時刻とから当該翻訳文の発話終了時刻を算出し、
直前の翻訳文の発話終了時刻と後の翻訳文の発話開始時刻の間の前後逆転に対応して後の翻訳文の発話開始時刻と発話終了時刻を遅延せしめ、
目的言語データベース内の各翻訳文を、先に得られた発話開始時刻或いは遅延せしめられた発話開始時刻から音声合成することを特徴とする音声合成方法。A source language database storing information on the utterance start time and utterance end time of each utterance in the source language, and a translation of each utterance in the source language and information on the utterance start time and utterance end time of the translated sentence are stored. Using the target language database,
The utterance end time of the source language utterance corresponding to each translation in the target language database is obtained from the source language database, and a time obtained by adding a certain time to the utterance end time is used as the utterance of the relevant translation. Assigned to the translation as a start time,
Calculate the utterance time of each translation in the target language database, calculate the utterance end time of the translation from the utterance time and the utterance start time obtained earlier,
The utterance start time and the utterance end time of the subsequent translation are delayed corresponding to the reversal of the utterance end time of the immediately preceding translation and the utterance start time of the subsequent translation,
A speech synthesis method comprising: synthesizing each translated sentence in a target language database from a speech start time obtained earlier or a speech start time delayed.
目的言語データベース内の各翻訳文に対応する原言語の発話文の発話終了時刻を原言語データベースから取得し、当該発話終了時刻に或る時間を加算して得られる時刻を当該翻訳文の発話開始時刻として当該翻訳文に付与し、
目的言語データベース内の各翻訳文の発話時間を算出し、当該発話時間と先に得られた発話開始時刻とから当該翻訳文の発話終了時刻を算出し、
直前の翻訳文の発話終了時刻と後の翻訳文の発話開始時刻の間の前後逆転に対応して後の翻訳文の発話開始時刻と発話終了時刻を遅延せしめ、
目的言語データベース内の各発話文間の無音区間の長さを算出し、その長さが或る値を超えている場合、後の翻訳文に対してその発話開始時刻および発話終了時刻をより前に修正し、
目的言語データベース内の各翻訳文を、先に得られた発話開始時刻、遅延せしめられた発話開始時刻、或いはより前に修正せしめられた発話開始時刻から音声合成することを特徴とする音声合成方法。A source language database storing information on the utterance start time and utterance end time of each utterance in the source language, and a translation of each utterance in the source language and information on the utterance start time and utterance end time of the translated sentence are stored. Using the target language database,
The utterance end time of the utterance of the source language corresponding to each translation in the target language database is obtained from the source language database, and the time obtained by adding a certain time to the utterance end time is the utterance start time of the translation. Time is assigned to the translation as
Calculate the utterance time of each translation in the target language database, calculate the utterance end time of the translation from the utterance time and the utterance start time obtained earlier,
The utterance start time and the utterance end time of the subsequent translation are delayed corresponding to the reversal of the utterance end time of the immediately preceding translation and the utterance start time of the subsequent translation,
Calculate the length of the silent section between each utterance in the target language database, and if the length exceeds a certain value, set the utterance start time and utterance end Modified to
A speech synthesis method comprising: synthesizing each translated sentence in a target language database from a speech start time obtained earlier, a speech start time delayed, or a speech start time corrected earlier. .
原言語の各発話文の翻訳文と翻訳文の発話開始時刻および発話終了時刻の情報とを記憶した目的言語データベースと、
目的言語データベース内の各翻訳文に対応する原言語の発話文の発話終了時刻に或る時間を加算し当該翻訳文の発話開始時刻を求めるプロセスと、
目的言語データベース内の各翻訳文の発話時間を算出するプロセスと、
発話時間と当該翻訳文に付与された発話開始時刻に基づいて当該翻訳文の発話終了時刻を求めるプロセスと、
求められた各翻訳文の発話開始時刻および発話終了時刻情報に基づいて目的言語データベース内の各発話文間の無音区間の長さを算出するプロセスと、
算出された無音区間の長さが或る値を超えている場合後の翻訳文に対してその発話開始時刻および発話終了時刻をより前に修正するプロセスと、
目的言語データベース内の各翻訳文を修正された発話開始時刻から音声合成するプロセスより成ることを特徴とする音声合成プログラムを記憶した記憶媒体。A source language database storing information on the utterance start time and utterance end time of each utterance sentence in the source language;
A target language database storing translations of each utterance in the source language and information on the utterance start time and utterance end time of the translation;
A process of adding a certain time to the utterance end time of the utterance sentence of the source language corresponding to each translation in the target language database to obtain an utterance start time of the translation;
A process of calculating the utterance time of each translated sentence in the target language database;
A process of obtaining the utterance end time of the translation based on the utterance time and the utterance start time given to the translation;
A process of calculating a length of a silent section between each utterance in the target language database based on the obtained utterance start time and utterance end time information of each translation;
A process of correcting the utterance start time and the utterance end time earlier for the later translated sentence if the length of the calculated silent section exceeds a certain value;
A storage medium storing a speech synthesis program, characterized by comprising a process of synthesizing a speech from a corrected utterance start time of each translated sentence in a target language database.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000190466A JP3540984B2 (en) | 2000-06-26 | 2000-06-26 | Speech synthesis apparatus, speech synthesis method, and storage medium storing speech synthesis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000190466A JP3540984B2 (en) | 2000-06-26 | 2000-06-26 | Speech synthesis apparatus, speech synthesis method, and storage medium storing speech synthesis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002006876A JP2002006876A (en) | 2002-01-11 |
JP3540984B2 true JP3540984B2 (en) | 2004-07-07 |
Family
ID=18689930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000190466A Expired - Fee Related JP3540984B2 (en) | 2000-06-26 | 2000-06-26 | Speech synthesis apparatus, speech synthesis method, and storage medium storing speech synthesis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3540984B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3955881B2 (en) * | 2004-12-28 | 2007-08-08 | 松下電器産業株式会社 | Speech synthesis method and information providing apparatus |
CN110970013A (en) * | 2019-12-23 | 2020-04-07 | 出门问问信息科技有限公司 | Speech synthesis method, device and computer readable storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3059398B2 (en) * | 1997-03-04 | 2000-07-04 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Automatic interpreter |
JP3009642B2 (en) * | 1997-10-22 | 2000-02-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Spoken language processing unit converter |
JP2001117920A (en) * | 1999-10-15 | 2001-04-27 | Sony Corp | Device and method for translation and recording medium |
-
2000
- 2000-06-26 JP JP2000190466A patent/JP3540984B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002006876A (en) | 2002-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3142803B2 (en) | A text-to-speech synthesizer | |
JP4473193B2 (en) | Mixed language text speech synthesis method and speech synthesizer | |
US6859778B1 (en) | Method and apparatus for translating natural-language speech using multiple output phrases | |
JPH0833744B2 (en) | Speech synthesizer | |
JP2002221980A (en) | Text voice converter | |
KR101153736B1 (en) | Apparatus and method for generating the vocal organs animation | |
JPH0335296A (en) | Text voice synthesizing device | |
JPH05165486A (en) | Text voice transforming device | |
Arai | A case study of spontaneous speech in Japanese | |
Huckvale et al. | Spoken language conversion with accent morphing | |
JP3540984B2 (en) | Speech synthesis apparatus, speech synthesis method, and storage medium storing speech synthesis program | |
JP2758851B2 (en) | Automatic translation device and automatic translation device | |
JPH0580791A (en) | Device and method for speech rule synthesis | |
JP4056647B2 (en) | Waveform connection type speech synthesis apparatus and method | |
JP4260071B2 (en) | Speech synthesis method, speech synthesis program, and speech synthesis apparatus | |
JP3603008B2 (en) | Speech synthesis processor | |
JP3357796B2 (en) | Speech synthesis apparatus and method for generating prosodic information in the apparatus | |
JP3034554B2 (en) | Japanese text-to-speech apparatus and method | |
JP3308402B2 (en) | Audio output device | |
JPH09160582A (en) | Voice synthesizer | |
JP2001350490A (en) | Device and method for converting text voice | |
JPH09292897A (en) | Voice synthesizing device | |
JPH11327594A (en) | Voice synthesis dictionary preparing system | |
Yanagisawa et al. | Accent morphing as a technique to improve the intelligibility of foreign-accented speech | |
JPH0323500A (en) | Text voice synthesizing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040302 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040326 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090402 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100402 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110402 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |