JP2002123282A

JP2002123282A - 翻訳装置および記録媒体

Info

Publication number: JP2002123282A
Application number: JP2000316043A
Authority: JP
Inventors: Hideaki Tejima; 英明手島; Masataka Yoshikawa; 昌隆吉川
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2000-10-17
Filing date: 2000-10-17
Publication date: 2002-04-26

Abstract

(57)【要約】【課題】翻訳結果に基づいて音声合成した音声の読上
げ時間と、原語の再生時間とのずれを小さくすることが
できる翻訳装置を実現する。【解決手段】翻訳テキストを音声合成により発声した
場合の発声時間の合計時間と、音声認識テキストの再生
時間との差分が所定値を超えている場合は（Ｓ３８：Ｎ
ｏ）、レベルＮ１以上の重み付けがなされている再翻訳
候補を選択し（Ｓ４６：Ｙｅｓ、Ｓ４８）、その再翻訳
候補に設定されている同義語のうち、同義語レベルの最
も高いものを選択する（Ｓ５０：Ｙｅｓ、Ｓ５２）。続
いて選択した同義語を前回の翻訳語と入替え、再度、発
声時間の合計時間を演算し、再生時間との差分が所定時
間以内であるかを判定する（Ｓ５４〜Ｓ５８）。つま
り、発声時間の合計時間と再生時間との差分が所定時間
以内になるまで原語との意味が大きく変わらない範囲で
再翻訳を所定回数繰り返す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声の認識結果
を所定の言語に翻訳し、その翻訳結果を音声合成する翻
訳装置に関する。

【０００２】

【従来の技術】従来、この種の技術として、たとえば、
音声の認識結果を翻訳し、その翻訳した言語を映像に同
期させて音声出力する技術が知られている（特許第２６
６４６７９号公報）。

【０００３】

【発明が解決しようとする課題】しかし、たとえば映像
と共に記録されている音声を自国語から他国語、あるい
は他国語から自国語に自動翻訳し、その翻訳結果を音声
合成により読上げる場合、同じ文章であっても、翻訳前
の原語による発声時間と、翻訳後の音声合成による読上
げ時間とが一致しない場合がある。したがって、前記従
来の技術を用いて、映像の動きに合わせて音声合成を行
っうと、合成された音声と映像との同期がずれるため、
不自然になるという問題がある。

【０００４】そこでこの発明は、上記問題を解決するた
めになされたものであり、翻訳結果に基づいて音声合成
した音声の読上げ時間と、原語の再生時間とのずれを小
さくすることができる翻訳装置を実現することを目的と
する。

【０００５】

【課題を解決するための手段】本発明は、上記目的を達
成するため、請求項１に記載の発明では、入力した音声
の所定区間の時間長を演算する第１の時間長演算手段
と、前記入力した前記所定区間の音声を認識する音声認
識手段と、この音声認識手段による認識結果を所定の言
語に翻訳する翻訳手段と、音声を合成する際の単位とな
る音声合成単位データと前記所定の言語とを対応付けて
記憶した記憶手段と、前記翻訳手段による翻訳結果に基
づいて前記記憶手段から音声合成単位データを読出すと
ともに、その読出した音声合成単位データを合成する音
声合成手段と、この音声合成手段による合成結果を所定
の音声出力手段により読上げた場合の時間長を演算する
第２の時間長演算手段と、前記第１の時間長演算手段に
よる演算結果と前記第２の時間長演算手段による演算結
果との間の差分を演算する差分演算手段とを備えてお
り、前記翻訳手段は、同義語と、前記音声合成手段によ
る前記同義語に対応する合成結果を前記所定の音声出力
手段により読上げた場合の時間長とを対応付けて記憶し
た翻訳用辞書を備えており、前記差分演算手段により演
算された差分が所定値を超えている場合は、前記差分を
小さくすることができる時間長と対応付けられた同義語
を前記翻訳用辞書から選択するという技術的手段を用い
る。

【０００６】入力した音声は、その所定区間の時間長が
第１の時間長演算手段により演算され、また、音声認識
手段により音声認識される。そして、その認識結果は、
翻訳手段により所定の言語に翻訳され、その翻訳結果に
対応する音声合成単位データが音声合成手段により記憶
手段から読出され、その読出した音声合成単位データが
合成される。そして、その合成結果を所定の音声出力手
段により読上げた場合の時間長が第２の時間長演算手段
により演算され、その演算結果と第１の時間長演算手段
による演算結果との差分が差分演算手段により演算され
る。そして、翻訳手段は、上記演算された差分が所定値
を超えている場合は、その差分を小さくすることができ
る時間長と対応付けられた同義語を翻訳用辞書から選択
する。

【０００７】つまり、入力した音声の所定区間を自動翻
訳し、その翻訳結果を音声合成により読上げる場合に、
入力した音声の時間長と音声合成により読上げる時間長
との差分が所定値を超えている場合は、その差分を小さ
くすることができる同義語を用いて翻訳することができ
るため、翻訳前の音声の終了タイミングと翻訳後の音声
の終了タイミングとを近づける、あるいは一致させるこ
とができる。したがって、映像に付随した音声を翻訳す
る場合は、翻訳により合成された音声と映像とを可能な
限り同期させて進行させることができるため、不自然さ
を感じることがない。

【０００８】請求項２に記載の発明では、入力した音声
の所定区間の時間長を演算する第１の時間長演算手段
と、前記入力した音声を認識する音声認識手段と、この
音声認識手段による認識結果を所定の言語に翻訳する翻
訳手段と、音声を合成する際の単位となる音声合成単位
データと前記所定の言語とを対応付けて記憶した記憶手
段と、前記翻訳手段による翻訳結果に基づいて前記記憶
手段から音声合成単位データを読出すとともに、その読
出した音声合成単位データを所定の読上げ速度パラメー
タと共に合成する音声合成手段と、この音声合成手段に
よる合成結果を所定の音声出力手段により読上げた場合
の時間長を演算する第２の時間長演算手段と、前記第１
の時間長演算手段による演算結果と前記第２の時間長演
算手段による演算結果との間の差分を演算する差分演算
手段とを備えており、前記音声合成手段は、前記差分演
算手段により演算された差分が所定値を超えている場合
は、前記差分が小さくなるように前記読上げ速度パラメ
ータを設定するという技術的手段を用いる。

【０００９】入力した音声は、その所定区間の時間長が
第１の時間長演算手段により演算され、また、音声認識
手段により音声認識される。そして、その認識結果は、
翻訳手段により所定の言語に翻訳され、その翻訳結果に
対応する音声合成単位データが音声合成手段により記憶
手段から読出され、その読出した音声合成単位データは
所定の読上げ速度パラメータと共に合成される。そし
て、その合成結果を所定の音声出力手段により読上げた
場合の時間長が第２の時間長演算手段により演算され、
その演算結果と第１の時間長演算手段による演算結果と
の差分が差分演算手段により演算される。そして、音声
合成手段は、上記演算された差分が所定値を超えている
場合は、その差分が小さくなるように前記読上げ速度パ
ラメータを設定する。

【００１０】つまり、入力した音声の所定区間を自動翻
訳し、その翻訳結果を音声合成により読上げる場合に、
入力した音声の時間長と音声合成により読上げる時間長
との差分が所定値を超えている場合は、その差分が小さ
くなるように読上げ速度パラメータを設定することがで
きるため、翻訳前の音声の終了タイミングと翻訳後の音
声の終了タイミングとを一致させる、あるいは近づける
ことができる。したがって、映像に付随した音声を翻訳
する場合は、翻訳により合成された音声と映像とを可能
な限り同期させて進行させることができるため、不自然
さを感じることがない。

【００１１】請求項３に記載の発明では、請求項１に記
載の翻訳装置において、前記翻訳用辞書には、再翻訳を
行う可能性の大きさに対応した重み付けが、翻訳の構成
単位ごとになされており、前記翻訳手段は、前記差分演
算手段により演算された差分が所定値を超えている場合
は、前記構成単位を前記重み付けに対応して前記翻訳用
辞書から選択し、その選択した構成単位に対応する同義
語のうち、前記差分を小さくすることができる時間長と
対応付けられた同義語を選択するという技術的手段を用
いる。

【００１２】再翻訳を行う可能性の大きさとは、最初に
翻訳した語句を同義語に再翻訳した場合に、最初に翻訳
した語句と意味が変わるレベルの大きさに対応したもの
であり、再翻訳を行っても意味が変わるレベルが小さい
語句ほど、再翻訳を行う可能性が大きい。たとえば、後
述する発明の実施の形態に記載するように、「私は船乗
りになることを望んでいます」という日本語の文章を英
語に翻訳する場合を例にして説明する。「船乗りに」に
対応する英語としては、「ａｓａｉｌｏｒ」が標準語
として設定されており、「ｔｈｅｃｒｅｗ」および
「ａｓｅａｍａｎ」が同義語として設定されているた
め、最初に翻訳した「ａｓａｉｌｏｒ」を上記２つの
同義語のいずれかに再翻訳しても意味が大きく変化しな
いため、再翻訳を行う可能性が大きく設定されている
（後述の翻訳用辞書記憶部１２の再翻訳候補レベル
８）。一方、「なることを」に対応する英語としては、
「ｔｏｂｅｃｏｍｅ」が標準語として設定されてお
り、「ｇｅｔ」が同義語として設定されているため、最
初に翻訳した「ｔｏｂｅｃｏｍｅ」を「ｇｅｔ」に再
翻訳すると、「ｔｏｂｅｃｏｍｅ」よりも強い意志を
表す意味になってしまうため、再翻訳を行う可能性が小
さく設定されている（後述の翻訳用辞書記憶部１２の再
翻訳候補レベル３）。つまり、同義語によって発声時間
が異なることを利用し、翻訳手段は、原語の発声時間
と、翻訳語の音声合成による読上げ時間との差分が大き
い場合には、再翻訳を行っても意味があまり変化しない
語句を選択し、その語句を同義語に再翻訳することによ
り、上記差分を小さくする。

【００１３】請求項４に記載の発明では、請求項１ない
し請求項３のいずれか１つに記載の翻訳装置において、
前記入力した音声は、映像に付随するものであり、前記
映像は、その映像を構成する各静止画ごとに映像中の時
間的位置を示す時間情報が付されており、前記第１の時
間長演算手段は、前記入力した音声に対応した静止画に
付された時間情報に基づいて前記第１の時間長を演算す
るという技術的手段を用いる。

【００１４】つまり、所定区間の映像に付随する音声の
前記所定区間の時間長を演算する場合、上記所定区間の
映像を構成する各静止画に付された時間情報のうち、所
定区間の最後の静止画に付された時間情報が示す時間か
ら、所定区間の最初の静止画に付された時間情報が示す
時間を減算すれば、上記所定区間における音声の第１の
時間長を求めることができる。

【００１５】請求項５に記載の発明では、入力した音声
の所定区間の時間長を演算する第１の時間長演算処理
と、前記入力した音声を認識する音声認識処理と、この
音声認識処理による認識結果を所定の言語に翻訳する翻
訳処理と、音声を合成する際の単位となる音声合成単位
データと前記所定の言語とを対応付けて記憶した記憶手
段から、前記翻訳処理による翻訳結果に対応した音声合
成単位データを読出すとともに、その読出した音声合成
単位データを合成する音声合成処理と、この音声合成処
理による合成結果を所定の音声出力手段により読上げた
場合の時間長を演算する第２の時間長演算処理と、前記
第１の時間長演算処理による演算結果と前記第２の時間
長演算処理による演算結果との間の差分を演算する差分
演算処理とを実行するためのコンピュータプログラムが
記録されており、前記翻訳処理は、前記差分演算手段に
より演算された差分が所定値を超えている場合は、同義
語と、前記音声合成処理による前記同義語に対応する合
成結果を前記所定の音声出力手段により読上げた場合の
時間長とを対応付けて記憶した翻訳用辞書から、前記差
分を小さくすることができる時間長と対応付けられた同
義語を選択する選択処理を含んでいる記録媒体という技
術的手段を用いる。

【００１６】つまり、たとえば、後述する発明の実施の
形態に記載するように、上記各処理は、翻訳装置に内蔵
されたＣＰＵにより実行されるため、そのＣＰＵが上記
各処理を実行するためのコンピュータプログラムが記録
された記録媒体を翻訳装置に設けることにより、請求項
１、請求項３および請求項４に記載の翻訳装置を実現で
きる。

【００１７】請求項６に記載の発明では、入力した音声
の所定区間の時間長を演算する第１の時間長演算処理
と、前記入力した音声を認識する音声認識処理と、この
音声認識処理による認識結果を所定の言語に翻訳する翻
訳処理と、音声を合成する際の単位となる音声合成単位
データと前記所定の言語とを対応付けて記憶した記憶手
段から、前記翻訳処理による翻訳結果に対応した音声合
成単位データを読出すとともに、その読出した音声合成
単位データを所定の読上げ速度パラメータと共に合成す
る音声合成処理と、この音声合成処理による合成結果を
所定の音声出力手段により読上げた場合の時間長を演算
する第２の時間長演算処理と、前記第１の時間長演算処
理による演算結果と前記第２の時間長演算処理による演
算結果との間の差分を演算する差分演算処理とを実行す
るためのコンピュータプログラムが記録されており、前
記音声合成処理は、前記差分演算処理により演算された
差分が所定値を超えている場合は、前記差分が小さくな
るように前記読上げ速度パラメータを設定する記録媒体
という技術的手段を用いる。

【００１８】つまり、たとえば、後述する発明の実施の
形態に記載するように、上記各処理は、翻訳装置に内蔵
されたＣＰＵにより実行されるため、そのＣＰＵが上記
各処理を実行するためのコンピュータプログラムが記録
された記録媒体を翻訳装置に設けることにより、請求項
２および請求項４に記載の翻訳装置を実現できる。

【００１９】

【発明の実施の形態】以下、この発明に係る翻訳装置の
実施形態について図を参照して説明する。なお、以下の
各実施形態では、ビデオ映像と共に記録された日本語の
音声を英語に翻訳し、その翻訳した音声を再生する場合
を例に挙げて説明する。［主要機能］最初に、この実施形態に係る翻訳装置の主
要機能について図１ないし図４を参照して説明する。図
１は、、翻訳装置の主要機能をブロックで示す説明図で
あり、図２ないし図４は、それぞれ図１の一部を取出し
て示す説明図である。翻訳装置５０は、自動翻訳部１０
および装置制御部２０から構成されている。自動翻訳部
１０は、音声認識部１４、音声認識用辞書記憶部１１、
翻訳部１５、翻訳用辞書記憶部１２、音声データ・辞書
記憶部１３および音声合成部１６から構成されている。
装置制御部２０は、ビデオ制御部２１、情報記憶部２２
および読上げ開始検出部２３から構成されている。な
お、翻訳装置５０は、たとえばコンピュータであり、音
声認識用辞書記憶部１１、翻訳用辞書記憶部１２、音声
データ・辞書記憶部１３および情報記憶部２２として
は、コンピュータに設けられたハードディスク記憶装置
やＲＯＭなどの記録媒体が適用され、記憶部以外のブロ
ックで示す部分は、コンピュータのＣＰＵが上記記録媒
体に記録されたコンピュータプログラムを実行すること
により実現される。

【００２０】（音声認識部１４）図２に示すように、音
声認識部１４は、ビデオデッキ１７から出力される音声
信号を入力し、音声認識を行う。音声認識の手法として
は、公知の種々の手法を用いることができる。たとえ
ば、次の手法を用いることができる。（１）音声信号を所定の周期（たとえば、４〜２０ｍｓ
ｅｃ）ごとに分析し、音声に含まれるスペクトルをバン
ドパスフィルタバンクによって抽出した特徴パラメータ
と、音声認識用辞書記憶部１１に記憶されている標準パ
ターン（たとえば、１０１個の単音節の特徴パラメータ
の標準的な型である標準パターン）とを個々に比較認識
し、その認識結果の中で最も近似している標準パターン
を選択して行う。（２）有音隠れマルコフモデルを用いる。隠れマルコフ
モデルとは、音声を統計的手法によって記述したモデル
であり、遷移確率・出力確率などのパラメータにより構
成されている。有音隠れマルコフモデルとは、学習デー
タの有音区間（識別対象の音声が存在する区間）の信号
を用いて各識別対象ごとに予め学習された隠れマルコフ
モデルを指し、これは各音節ごとに用意され、音声認識
用辞書記憶部１１に記憶される。また、音声認識部１４
は、音声認識した音声区間を検出し、その検出開始のタ
イミングおよび検出終了のタイミングをビデオ制御部２
１へ知らせる。さらに、音声認識部１４は、音声認識の
結果に対応したテキストデータ（以下、音声認識テキス
トと称する）を生成し、その音声認識テキストを情報記
憶部２２へ出力する。この音声認識結果から音声認識テ
キストを生成する手法としては、たとえば特許２６６４
６７９号公報に記載の種々の手法を用いることができ
る。

【００２１】（音声認識用辞書記憶部１１）音声認識用
辞書記憶部１１には、上述のように、音声認識に必要な
データ、たとえば標準パターンや有音隠れマルコフモデ
ルなどが記憶されている。また、音声認識用辞書記憶部
１１には、音声認識結果から音声認識テキストを生成す
る際に用いるテキストデータが記憶されている。（ビデオ制御部２１）ビデオ制御部２１は、ビデオデッ
キ１７により再生される映像を構成する各静止画に付さ
れたタイムコードを読込み、音声認識部１４から知らさ
れるタイミングと対応したタイムコードを情報記憶部２
２へ出力する。つまり、音声認識部１４から知らされる
検出開始タイミングと対応したタイムコードを開始点タ
イムコードとして、また、検出終了タイミングと対応し
たタイムコードを終了点タイムコードとしてそれぞれ出
力する。たとえば、図５は、「私は船乗りになることを
望んでいます」という音声を伴ったビデオ映像信号と、
音声信号と、タイムコードとの関係を示す説明図である
が、この例では、開始点タイムコードとして「００：１
０：００：１０」が、終了点タイムコードとして「０
０：１０：０２：２５」が、それぞれ出力される。ま
た、ビデオ制御部２１は、終了点タイムコードに表され
る時間から開始点タイムコードに表される時間を減算し
て再生時間を演算し、その演算された再生時間を情報記
憶部２２へ出力する。

【００２２】ここで、タイムコードとは、静止画の動画
中の時間的位置を特定するものであり、各静止画に連続
して振られている。タイムコードは、通常、時間および
フレーム数により表される。たとえば、０１：０２：０
３：０４のように４組の数字をコロンで区切って表記す
る。左から順に、時：分：秒：フレーム数を表す。そし
て、通常の時刻情報と同じように、秒、分はそれぞれ６
０進であり、上位の桁を繰り上げる。フレーム数に関し
ては、毎秒を表すフレーム数（フレームレート：ｆｐ
ｓ）に依存しており、ＮＴＳＣであれば３０進、つまり
０〜２９の値を持ち、３０になるときに秒を１繰り上げ
る。

【００２３】（翻訳用辞書記憶部１２）翻訳用辞書記憶
部１２には、日本語を英語に翻訳するために必要なデー
タが記憶されている。図７のに示すように、翻訳用辞
書記憶部１２は、日本語と英語とを対応付けて記憶して
おり、英語は、単語によっては複数の同義語が用意され
ている。また、各同義語には、音声合成により読上げた
場合の読上げ開始から読上げ終了までの発声時間（時間
長）と、日本語の意味に最も近似している順に重み付け
をしたレベルの大きさを示す同義語レベルとが対応付け
て記憶されている。また、各日本語には、再翻訳候補レ
ベルがそれぞれ設定されている。再翻訳候補レベルと
は、再翻訳を行う可能性の大きさを示すものであり、最
初に翻訳した語句を同義語に再翻訳した場合に、最初に
翻訳した語句と意味が変わるレベルの大きさに対応した
ものである。つまり、再翻訳を行っても意味が変わるレ
ベルが小さい語句ほど、再翻訳候補レベルが大きく設定
されている。

【００２４】たとえば、図７に示すように、「私は船乗
りになることを望んでいます」という日本語の文章を英
語に翻訳する場合、「船乗りに」に対応する英語として
は、「ａｓａｉｌｏｒ」が標準語として設定されてお
り、「ｔｈｅｃｒｅｗ」および「ａｓｅａｍａｎ」
が同義語として設定されているため、最初に翻訳した
「ａｓａｉｌｏｒ」を上記２つの同義語のいずれかに
再翻訳しても意味が大きく変化しないため、再翻訳を行
う可能性が大きく設定されている（図７の翻訳用辞書
記憶部１２に示す再翻訳候補レベル８）。一方、「なる
ことを」に対応する英語としては、「ｔｏｂｅｃｏｍ
ｅ」が標準語として設定されており、「ｇｅｔ」が同義
語として設定されているため、最初に翻訳した「ｔｏ
ｂｅｃｏｍｅ」を「ｇｅｔ」に再翻訳すると、「ｔｏ
ｂｅｃｏｍｅ」よりも強い意志を表す意味になってしま
うため、再翻訳を行う可能性が小さく設定されている
（図７の翻訳用辞書記憶部１２に示す再翻訳候補レベ
ル３）。なお、「私は」に対応する英語としては、
「Ｉ」に代わる同義語が存在しないため、「Ｉ」のみが
設定されており、再翻訳候補レベルが最小の「１」とな
っている。また、各翻訳語には、その翻訳語を標準的な
音声パラメータにより音声合成にて発声した場合の発声
時間が対応付けられている。

【００２５】（翻訳部１５）翻訳部１５は、情報記憶部
２２に記憶されている音声認識テキストを読出し、文章
を構成する品詞単位の語句に翻訳する。この翻訳では、
音声認識テキストの各品詞に対応する標準の語句をそれ
ぞれ情報記憶部２２から選択して行う。また、翻訳部１
５は、選択された各語句に対応する発声時間の合計を演
算するとともに、情報記憶部２２から上記音声認識テキ
ストに対応する再生時間を読出し、その再生時間と上記
発声時間の合計との差分を演算する。そして、その差分
が所定値を超える場合は、再翻訳候補レベルの高い語句
の順に再翻訳を行う。また、その再翻訳の対象となった
語句に対して同義語が複数存在する場合は、同義語レベ
ルの高いものから再翻訳候補として選択する。この再翻
訳は、上記差分が上記所定値以下になるまで行う。そし
て、その差分が所定値以下になったときに、翻訳された
テキスト（以下、翻訳テキストと称する）を情報記憶部
２２へ出力する。

【００２６】（情報記憶部２２）情報記憶部２２は、そ
の記憶内容を説明する図６に示すように、音声認識部１
４から出力された音声認識テキストと、翻訳部１５から
出力された翻訳テキストと、ビデオ制御部２１から出力
された開始点タイムコードと、終了点タイムコードと、
再生時間とを入力し、それぞれを対応付けて時系列に記
憶する。また、情報記憶部２２は、所定のタイミングに
なると、再生時間を示す再生時間情報を音声合成部１６
へ出力する。（音声データ・辞書記憶部１３）音声データ・辞書記憶
部１３には、合成の基本単位となる音声データと、単
語、単語の読み、アクセントおよび文法などから構成さ
れた辞書とが記憶されている。（音声合成部１６）音声合成部１６は、図４に示すよう
に、情報記憶部２２に記憶されている翻訳テキストを読
出し、その読出した翻訳テキストを構成する単語、単語
の読み、アクセントおよび文法などを解析する。また、
音声合成部１６は、情報記憶部２２から出力された再生
時間を入力し、その再生時間に基づいて発声速度を決定
するパラメータ（以下、発声速度パラメータと称する）
を設定する。そして、音声合成部１６は、翻訳テキスト
に対応する音声データを音声データ・辞書記憶部１３か
ら読出し、その読出した音声データを上記解析結果およ
び発声速度パラメータに基づいて合成する。

【００２７】（読上げ開始検出部２３）読上げ開始検出
部２３は、ビデオデッキ１７により再生される映像に付
されているタイムコードと、情報記憶部２２に記憶され
ている開始点タイムコードとが一致したときに、音声合
成部１６に対して音声合成データを音声再生装置１８へ
出力することを指示する。（音声再生装置１８）音声再生装置１８は、Ｄ／Ａ変換
部、増幅部、トーンコントロール部およびスピーカなど
から構成されており、音声合成部１６から取込んだ音声
合成データをアナログの音声信号に変換した後に増幅な
どを行い、スピーカから音声を出力する。

【００２８】［主な処理の流れ］次に、翻訳装置５０が
実行する主な処理の流れについて図７、図８ないし図１
０を参照して説明する。図７は、翻訳の過程を示す説明
図であり、図８ないし図１０は、翻訳装置５０が実行す
る主な処理の流れを示すフローチャートである。なお、
ここでは、「私は船乗りになることを望んでいます」と
いう音声を自動翻訳するとともに音声合成する場合を例
に挙げて説明する。ビデオデッキ１７によりビデオ映像
が再生されると（図８のステップ（以下、Ｓと略す）１
０）、音声認識部１４は、ビデオ映像と共に再生された
音声を検出する処理を行う（Ｓ１２）。音声認識部１４
は、音声を検出すると（Ｓ１４：Ｙｅｓ）、その検出タ
イミングに対応する映像の静止画に付されているタイム
コードを音声開始点タイムコードとして情報記憶部２２
へ出力して記憶する（Ｓ１６）。

【００２９】続いて音声認識部１４は、音声波形を分析
し（Ｓ１８）、音声が終了したか否かを判定する（Ｓ２
０）。続いて音声認識部１４は、音声終了を判定すると
（Ｓ２０：Ｙｅｓ）、その判定タイミングに対応する静
止画に付されているタイムコードを音声終了点タイムコ
ードとして情報記憶部２２へ出力して記憶する（Ｓ２
２）。続いて音声認識部１４は、音声終了点タイムコー
ドに表されている時間から音声開始点タイムコードに表
されている時間を減算して再生時間を算出し、その算出
値を情報記憶部２２へ出力して記憶する（Ｓ２４）。続
いて音声認識部１４は、Ｓ１８における分析結果に対応
するテキストデータを音声認識用辞書記憶部１１から読
出し、それを音声認識テキストとして情報記憶部２２へ
出力して記憶する（Ｓ２６）。続いて音声認識部１４
は、ビデオ映像信号の有無を判定し（Ｓ２８）、ビデオ
映像信号が有る場合は（Ｓ２８：Ｎｏ）、上記Ｓ１２〜
Ｓ２８を実行する。つまり、ビデオ映像信号が無くなる
まで、音声開始点タイムコード、音声終了点タイムコー
ド、再生時間および音声認識テキストを情報記憶部２２
に記憶する処理を繰り返す。

【００３０】そして、情報記憶部２２は、音声認識テキ
ストが記憶されたと判定すると（図９のＳ３０：Ｙｅ
ｓ）、記憶されている音声認識テキストおよび再生時間
を翻訳部１５へ出力する（Ｓ３２）。続いて翻訳部１５
は、入力した音声認識テキストを構成する各品詞に対応
する翻訳語を翻訳用辞書記憶部１２からそれぞれ選択す
る（Ｓ３４）。続いて翻訳部１５は、各選択した翻訳語
の発声時間を合計し（Ｓ３６）、その合計時間と前記入
力した再生時間とを比較し、その差分が所定時間差以内
か否かを判定する（Ｓ３８）。つまり、翻訳結果をその
まま音声合成した場合に、原語の再生時間との差が小さ
く、違和感が生じないか否かを判定する。そして、翻訳
部１５は、上記差分が所定時間以内である場合は（Ｓ３
８：Ｙｅｓ）、テキスト形式の翻訳文を生成し（Ｓ４
０）、その生成した翻訳文を翻訳テキストとして情報記
憶部２２に記憶する（Ｓ４２）。

【００３１】一方、翻訳部１５は、Ｓ３８において差分
が所定時間差を超えていると判定した場合は（Ｓ３８：
Ｎｏ）、翻訳用辞書記憶部１２に記憶されている翻訳対
象語句に対して設定されている再翻訳候補レベルおよび
同義語レベルの各設定値をそれぞれ読込む（Ｓ４４）。
ここで、Ｓ３８における判定は、たとえば、図７のに
示すように、「私は船乗りになることを望んでいます」
を通常翻訳した場合の「Ｉｗａｎｔｔｏｂｅｃｏ
ｍｅａｓａｉｌｏｒ」の発声時間の合計は、３，１
５０ｍｓとなる。また、図６に示すように、「私は船乗
りになることを望んでいます」の再生時間は、２．５秒
（２，５００ｍｓ）であるから、通常翻訳の発声時間と
の差分は、３，１５０ｍｓ−２，５００ｍｓ＝６５０ｍ
ｓとなる。また、上記所定時間をたとえば５００ｍｓと
すると、差分６５０ｍｓ＞所定時間５００ｍｓであるた
め、差分は所定時間以内ではないと判定する（Ｓ３８：
Ｎｏ）。続いて翻訳部１５は、レベルＮ１（たとえばＮ
１＝５）以上の再翻訳候補レベルが設定されている語句
が存在するか否かを判定し（Ｓ４６）、存在する場合は
（Ｓ４６：Ｙｅｓ）、その中でも最も再翻訳候補レベル
の高い語句を選択する（Ｓ４８）。たとえば、図７の
に示す例では、「船乗りに」に設定されている再翻訳候
補レベルが「８」で最も高いため、「船乗りに」を再翻
訳候補として選択する。続いて翻訳部１５は、選択した
語句に対して音声認識テキストの発声時間との差分を小
さくする同義語が設定されているか否かを判定し（Ｓ５
０）、設定されている場合は（Ｓ５０：Ｙｅｓ）、その
中でも最も同義語レベルの高い同義語を選択する（Ｓ５
２）。たとえば、図７のに示す例では、「船乗りに」
に設定されている同義語「ｔｈｅｃｒｅｗ」の発声時
間が標準より短いため、この同義語を選択した同義語翻
訳の発声時間の合計は、通常翻訳の発声時間の合計より
も短くなり、音声認識テキスト「私は船乗りになること
を望んでいます」の発声時間との差分が縮まる可能性が
あるため、Ｓ５０の判定がＹｅｓとなる。ここで同義語
「ａｓｅａｍａｎ」の発声時間は標準より大きく、上
記差分が大きくなってしまうため、Ｓ５２での選択対象
にはならない。よって、この例においては、Ｓ５２にお
いて同義語レベルを比較するまでもなく、同義語「ｔｈ
ｅｃｒｅｗ」を同義語として選択する。

【００３２】続いて翻訳部１５は、選択した同義語に対
応する発声時間を翻訳用辞書記憶部１２から入手し（Ｓ
５４）、各翻訳語に対応する発声時間の合計時間を算出
する（Ｓ５６）。続いて翻訳部１５は、上記合計時間と
前記入力した再生時間とを比較し、その差分がＳ３８に
おいて比較対象とした所定時間差以内か否かを判定する
（Ｓ５８）。ここで、翻訳部１５は、上記差分が上記所
定時間以内である場合は（Ｓ５８：Ｙｅｓ）、選択した
各語句によりテキスト形式の翻訳文を生成し（Ｓ４
０）、その生成した翻訳文を翻訳テキストとして情報記
憶部２２に記憶する（Ｓ４２）。一方、翻訳部１５は、
Ｓ５８において差分が所定時間を超えていると判定した
場合は（Ｓ５８：Ｎｏ）、Ｓ５２において選択した同義
語の次に高い同義語レベルの設定された同義語が存在す
るか否かを判定し（Ｓ６４）、存在する場合は（Ｓ６
４：Ｙｅｓ）、その同義語を選択する（Ｓ６６）。つま
り、再々翻訳を行う。

【００３３】続いて翻訳部１５は、前記Ｓ５４〜Ｓ５８
を実行し、Ｓ５８において差分が所定時間以内である場
合は（Ｓ５８：Ｙｅｓ）、その再々翻訳の結果を翻訳テ
キストとして情報記憶部２２に記憶する（Ｓ４０、Ｓ４
２）。一方、翻訳部１５は、再々翻訳をした結果、ま
だ、差分が所定時間を超えている場合は（Ｓ５８：Ｎ
ｏ）、音声認識テキストの発声時間との差分を小さくす
る別の同義語の有無を判定し（Ｓ６４）、有れば（Ｓ６
４：Ｙｅｓ）、同義語レベルが次に高い同義語を選択し
て３回目の翻訳を行うが（Ｓ６６→Ｓ５４〜Ｓ５８）、
Ｓ６４において、次の同義語が存在しない場合は（Ｓ６
４：Ｎｏ）、次の再翻訳候補としてレベルＮ２（たとえ
ばＮ２＝３）以上の再翻訳候補の語句が存在するか否か
を判定する（Ｓ６０）。続いて翻訳部１５は、レベルＮ
２以上の再翻訳候補の語句が存在する場合は（Ｓ６０：
Ｙｅｓ）、その再翻訳候補の語句を選択し（Ｓ６２）、
前述同様に、Ｓ５０〜Ｓ５８を実行し、差分が所定時間
以内の場合は（Ｓ５８：Ｙｅｓ）、翻訳テキストを生成
して情報記憶部２２に記憶する（Ｓ４０、Ｓ４２）。

【００３４】たとえば、図７のに示すように、「船乗
りに」を再翻訳した結果「ｔｈｅｃｒｅｗ」が選択さ
れ、「望んでいます」を再々翻訳した結果「ｈｏｐｅ」
が選択された場合の発声時間の合計時間は２，９４０ｍ
ｓとなる。したがって、再生時間との差分は、２，９４
０ｍｓ−２，５００ｍｓ＝４４０ｍｓとなり、前述した
所定時間の５００ｍｓ以内であるため、「Ｉｈｏｐｅ
ｔｏｂｅｃｏｍｅｔｈｅｃｒｅｗ」が、翻訳テキ
ストとして情報記憶部２２に記憶される。一方、Ｓ６０
において、レベルＮ２以上の再翻訳候補が存在しない場
合は（Ｓ６０：Ｎｏ）、前回の翻訳結果を翻訳テキスト
として生成し、情報記憶部２２に記憶する（Ｓ４０、Ｓ
４２）。つまり、翻訳部１５は、翻訳結果の発声時間と
原語の再生時間との差分が所定時間以内になるまで、再
翻訳を繰り返す。

【００３５】そして、情報記憶部２２は、記憶している
翻訳テキストを音声合成部１６へ出力し（図１０のＳ６
８）、読上げ開始検出部２３は、情報記憶部２２から音
声開始点タイムコードを読込む（Ｓ７０）。続いて情報
記憶部２２は、記憶されている再生時間情報を音声合成
部１６へ出力し（Ｓ７２）、音声合成部１６は、入力し
た再生時間情報に基づいて音声合成による読上げ速度パ
ラメータを決定する（Ｓ７４）。続いてビデオデッキ１
７によりビデオ映像を再生すると（Ｓ７６）、読上げ開
始検出部２３は、ビデオ映像の各静止画に付されている
タイムコードを読込み（Ｓ７８）、その読込んだタイム
コードがＳ７０において読込んだ音声開始点タイムコー
ドと一致したことを検出すると（Ｓ８０：Ｙｅｓ）、音
声合成部１６に対して音声出力開始要求を行う（Ｓ８
２）。これにより、音声合成部１６は、Ｓ６８において
入力した翻訳テキストをＳ７４において決定した読上げ
速度に基づいて音声合成を行い、その合成結果に対応し
た音声が音声再生装置１８により再生される。

【００３６】続いて情報記憶部２２は、次の翻訳テキス
トが記憶されている場合は（Ｓ８４：Ｙｅｓ）、その翻
訳テキストを音声合成部１６へ出力し（Ｓ８６）、読上
げ開始検出部２３は、次の音声開始点タイムコードを読
込み（Ｓ８８）、情報記憶部２２は、次の再生時間情報
を音声合成部１６へ出力し（Ｓ９０）、音声合成部１６
は、入力した再生時間情報に基づいて音声合成による読
上げ速度パラメータを決定する（Ｓ９２）。次に、再び
Ｓ７８〜Ｓ８２の処理を行う。つまり、情報記憶部２２
に次の翻訳テキストが記憶されている場合は、上記Ｓ８
６〜Ｓ９２〜Ｓ８２を繰り返し、次の翻訳テキストが無
くなった場合は（Ｓ８４：Ｎｏ）、処理を完了する。

【００３７】［実施形態の効果］（１）以上のように、この実施形態の翻訳装置５０を使
用すれば、入力した音声の再生時間（第１の時間長）と
音声合成による読上げ時間（第２の時間長）との差分が
所定時間を超えている場合は、その差分を小さくするこ
とができる同義語を用いて翻訳することができるため、
翻訳前の音声の終了タイミングと翻訳後の音声の終了タ
イミングとを近づける、あるいは一致させることができ
る。したがって、映像に付随した音声を翻訳する場合
に、翻訳により合成された音声と映像とを可能な限り同
期させて進行させることができるため、不自然さを感じ
ることがない。（２）しかも、上記差分が所定時間を超えている場合
は、その差分が小さくなるように読上げ速度パラメータ
を設定することができるため、翻訳前の音声の終了タイ
ミングと翻訳後の音声の終了タイミングとを一致させ
る、あるいは近づけることができる。したがって、映像
に付随した音声を翻訳する場合は、翻訳により合成され
た音声と映像とを可能な限り同期させて進行させること
ができる。（３）また、同義語を用いて再翻訳をした場合に、意味
が変わる程度に応じて各語句に対して重み付けがなされ
ているため、再翻訳を行った場合に意味があまり変わら
ないようにすることができる。つまり、原語と意味があ
まり変わらない範囲で上記差分を小さくすることができ
る。

【００３８】［各請求項と実施形態との対応関係］音声
認識部１４が請求項１に係る音声認識手段に対応し、翻
訳部１５が翻訳手段に対応する。また、情報記憶部２２
が記憶手段に対応し、翻訳用辞書記憶部１２が翻訳用辞
書に対応し、音声合成部１６が音声合成手段に対応す
る。さらに、再生時間が第１の時間長に対応し、発声時
間の合計時間が第２の時間長に対応する。また、前述の
コンピュータのＣＰＵが実行するコンピュータプログラ
ムが記録されたハードディスク記憶装置やＲＯＭなどの
記録媒体が請求項５または請求項６に係る記録媒体に対
応する。そして、図８のＳ２４が請求項１に係る第１の
時間長演算手段として機能するとともに、請求項５に係
る第１の時間長演算処理に対応し、Ｓ１８が音声認識手
段として機能するとともに、音声認識処理に対応する。
また、図９のＳ３０〜Ｓ６６のうち、Ｓ３６、Ｓ３８、
Ｓ５６およびＳ５８を除いた処理が翻訳手段として機能
するとともに、翻訳処理に対応し、Ｓ３６およびＳ５６
が第２の時間長演算手段として機能するとともに、第２
の時間長演算処理に対応する。さらに、Ｓ３８およびＳ
５８が差分演算手段として機能するとともに、差分演算
処理に対応する。

【図面の簡単な説明】

【図１】この発明の実施形態に係る翻訳装置の主要機能
をブロックで示す説明図である。

【図２】図１の一部を取出して示す説明図である。

【図３】図１の一部を取出して示す説明図である。

【図４】図１の一部を取出して示す説明図である。

【図５】「私は船乗りになることを望んでいます」とい
う音声を伴ったビデオ映像信号と、音声信号と、タイム
コードとの関係を示す説明図であるタイムコード対応テ
ーブル１３を示す説明図である。

【図６】情報記憶部２２の記憶内容を示す説明図であ
る。

【図７】翻訳の過程を示す説明図である。

【図８】翻訳装置５０が実行する主な処理の流れを示す
フローチャートである。

【図９】翻訳装置５０が実行する主な処理の流れを示す
フローチャートである。

【図１０】翻訳装置５０が実行する主な処理の流れを示
すフローチャートである。

【符号の説明】

１２翻訳用辞書記憶部（翻訳用辞書）１４音声認識部（音声認識手段）１５翻訳部（翻訳手段）１６音声合成部（音声合成手段）１７ビデオデッキ１８音声再生装置２２情報記憶部（記憶手段）２３読上げ開始検出部５０翻訳装置

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 5/928 Ｇ１０Ｌ 5/04 ＦＨ０４Ｎ 5/92 ＥＦターム(参考） 5B091 AA05 AB17 BA03 CB12 CB32 5C053 FA10 FA21 GB11 JA01 JA26 5D015 DD03 DD04 KK02 KK03 KK04 5D045 AA07 AA20 AB03

Claims

【特許請求の範囲】

【請求項１】入力した音声の所定区間の時間長を演算
する第１の時間長演算手段と、前記入力した前記所定区間の音声を認識する音声認識手
段と、この音声認識手段による認識結果を所定の言語に翻訳す
る翻訳手段と、音声を合成する際の単位となる音声合成単位データと前
記所定の言語とを対応付けて記憶した記憶手段と、前記翻訳手段による翻訳結果に基づいて前記記憶手段か
ら音声合成単位データを読出すとともに、その読出した
音声合成単位データを合成する音声合成手段と、この音声合成手段による合成結果を所定の音声出力手段
により読上げた場合の時間長を演算する第２の時間長演
算手段と、前記第１の時間長演算手段による演算結果と前記第２の
時間長演算手段による演算結果との間の差分を演算する
差分演算手段とを備えており、前記翻訳手段は、同義語と、前記音声合成手段による前記同義語に対応す
る合成結果を前記所定の音声出力手段により読上げた場
合の時間長とを対応付けて記憶した翻訳用辞書を備えて
おり、前記差分演算手段により演算された差分が所定値
を超えている場合は、前記差分を小さくすることができ
る時間長と対応付けられた同義語を前記翻訳用辞書から
選択することを特徴とする翻訳装置。
【請求項２】入力した音声の所定区間の時間長を演算
する第１の時間長演算手段と、前記入力した音声を認識する音声認識手段と、この音声認識手段による認識結果を所定の言語に翻訳す
る翻訳手段と、音声を合成する際の単位となる音声合成単位データと前
記所定の言語とを対応付けて記憶した記憶手段と、前記翻訳手段による翻訳結果に基づいて前記記憶手段か
ら音声合成単位データを読出すとともに、その読出した
音声合成単位データを所定の読上げ速度パラメータと共
に合成する音声合成手段と、この音声合成手段による合成結果を所定の音声出力手段
により読上げた場合の時間長を演算する第２の時間長演
算手段と、前記第１の時間長演算手段による演算結果と前記第２の
時間長演算手段による演算結果との間の差分を演算する
差分演算手段とを備えており、前記音声合成手段は、前記差分演算手段により演算された差分が所定値を超え
ている場合は、前記差分が小さくなるように前記読上げ
速度パラメータを設定することを特徴とする翻訳装置。
【請求項３】前記翻訳用辞書には、再翻訳を行う可能
性の大きさに対応した重み付けが、翻訳の構成単位ごと
になされており、前記翻訳手段は、前記差分演算手段により演算された差
分が所定値を超えている場合は、前記構成単位を前記重
み付けに対応して前記翻訳用辞書から選択し、その選択
した構成単位に対応する同義語のうち、前記差分を小さ
くすることができる時間長と対応付けられた同義語を選
択することを特徴とする請求項１に記載の翻訳装置。
【請求項４】前記入力した音声は、映像に付随するも
のであり、前記映像は、その映像を構成する各静止画ごとに映像中
の時間的位置を示す時間情報が付されており、前記第１の時間長演算手段は、前記入力した音声に対応
した静止画に付された時間情報に基づいて前記第１の時
間長を演算することを特徴とする請求項１ないし請求項
３のいずれか１つに記載の翻訳装置。
【請求項５】入力した音声の所定区間の時間長を演算
する第１の時間長演算処理と、前記入力した音声を認識する音声認識処理と、この音声認識処理による認識結果を所定の言語に翻訳す
る翻訳処理と、音声を合成する際の単位となる音声合成単位データと前
記所定の言語とを対応付けて記憶した記憶手段から、前
記翻訳処理による翻訳結果に対応した音声合成単位デー
タを読出すとともに、その読出した音声合成単位データ
を合成する音声合成処理と、この音声合成処理による合成結果を所定の音声出力手段
により読上げた場合の時間長を演算する第２の時間長演
算処理と、前記第１の時間長演算処理による演算結果と前記第２の
時間長演算処理による演算結果との間の差分を演算する
差分演算処理とを実行するためのコンピュータプログラ
ムが記録されており、前記翻訳処理は、前記差分演算手段により演算された差分が所定値を超え
ている場合は、同義語と、前記音声合成処理による前記
同義語に対応する合成結果を前記所定の音声出力手段に
より読上げた場合の時間長とを対応付けて記憶した翻訳
用辞書から、前記差分を小さくすることができる時間長
と対応付けられた同義語を選択する選択処理を含んでい
ることを特徴とする記録媒体。
【請求項６】入力した音声の所定区間の時間長を演算
する第１の時間長演算処理と、前記入力した音声を認識する音声認識処理と、この音声認識処理による認識結果を所定の言語に翻訳す
る翻訳処理と、音声を合成する際の単位となる音声合成単位データと前
記所定の言語とを対応付けて記憶した記憶手段から、前
記翻訳処理による翻訳結果に対応した音声合成単位デー
タを読出すとともに、その読出した音声合成単位データ
を所定の読上げ速度パラメータと共に合成する音声合成
処理と、この音声合成処理による合成結果を所定の音声出力手段
により読上げた場合の時間長を演算する第２の時間長演
算処理と、前記第１の時間長演算処理による演算結果と前記第２の
時間長演算処理による演算結果との間の差分を演算する
差分演算処理とを実行するためのコンピュータプログラ
ムが記録されており、前記音声合成処理は、前記差分演算処理により演算された差分が所定値を超え
ている場合は、前記差分が小さくなるように前記読上げ
速度パラメータを設定することを特徴とする記録媒体。