JP2002123282A - 翻訳装置および記録媒体 - Google Patents

翻訳装置および記録媒体

Info

Publication number
JP2002123282A
JP2002123282A JP2000316043A JP2000316043A JP2002123282A JP 2002123282 A JP2002123282 A JP 2002123282A JP 2000316043 A JP2000316043 A JP 2000316043A JP 2000316043 A JP2000316043 A JP 2000316043A JP 2002123282 A JP2002123282 A JP 2002123282A
Authority
JP
Japan
Prior art keywords
translation
time length
difference
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000316043A
Other languages
English (en)
Inventor
Hideaki Tejima
英明 手島
Masataka Yoshikawa
昌隆 吉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2000316043A priority Critical patent/JP2002123282A/ja
Publication of JP2002123282A publication Critical patent/JP2002123282A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 翻訳結果に基づいて音声合成した音声の読上
げ時間と、原語の再生時間とのずれを小さくすることが
できる翻訳装置を実現する。 【解決手段】 翻訳テキストを音声合成により発声した
場合の発声時間の合計時間と、音声認識テキストの再生
時間との差分が所定値を超えている場合は(S38:N
o)、レベルN1以上の重み付けがなされている再翻訳
候補を選択し(S46:Yes、S48)、その再翻訳
候補に設定されている同義語のうち、同義語レベルの最
も高いものを選択する(S50:Yes、S52)。続
いて選択した同義語を前回の翻訳語と入替え、再度、発
声時間の合計時間を演算し、再生時間との差分が所定時
間以内であるかを判定する(S54〜S58)。つま
り、発声時間の合計時間と再生時間との差分が所定時間
以内になるまで原語との意味が大きく変わらない範囲で
再翻訳を所定回数繰り返す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声の認識結果
を所定の言語に翻訳し、その翻訳結果を音声合成する翻
訳装置に関する。
【0002】
【従来の技術】従来、この種の技術として、たとえば、
音声の認識結果を翻訳し、その翻訳した言語を映像に同
期させて音声出力する技術が知られている(特許第26
64679号公報)。
【0003】
【発明が解決しようとする課題】しかし、たとえば映像
と共に記録されている音声を自国語から他国語、あるい
は他国語から自国語に自動翻訳し、その翻訳結果を音声
合成により読上げる場合、同じ文章であっても、翻訳前
の原語による発声時間と、翻訳後の音声合成による読上
げ時間とが一致しない場合がある。したがって、前記従
来の技術を用いて、映像の動きに合わせて音声合成を行
っうと、合成された音声と映像との同期がずれるため、
不自然になるという問題がある。
【0004】そこでこの発明は、上記問題を解決するた
めになされたものであり、翻訳結果に基づいて音声合成
した音声の読上げ時間と、原語の再生時間とのずれを小
さくすることができる翻訳装置を実現することを目的と
する。
【0005】
【課題を解決するための手段】本発明は、上記目的を達
成するため、請求項1に記載の発明では、入力した音声
の所定区間の時間長を演算する第1の時間長演算手段
と、前記入力した前記所定区間の音声を認識する音声認
識手段と、この音声認識手段による認識結果を所定の言
語に翻訳する翻訳手段と、音声を合成する際の単位とな
る音声合成単位データと前記所定の言語とを対応付けて
記憶した記憶手段と、前記翻訳手段による翻訳結果に基
づいて前記記憶手段から音声合成単位データを読出すと
ともに、その読出した音声合成単位データを合成する音
声合成手段と、この音声合成手段による合成結果を所定
の音声出力手段により読上げた場合の時間長を演算する
第2の時間長演算手段と、前記第1の時間長演算手段に
よる演算結果と前記第2の時間長演算手段による演算結
果との間の差分を演算する差分演算手段とを備えてお
り、前記翻訳手段は、同義語と、前記音声合成手段によ
る前記同義語に対応する合成結果を前記所定の音声出力
手段により読上げた場合の時間長とを対応付けて記憶し
た翻訳用辞書を備えており、前記差分演算手段により演
算された差分が所定値を超えている場合は、前記差分を
小さくすることができる時間長と対応付けられた同義語
を前記翻訳用辞書から選択するという技術的手段を用い
る。
【0006】入力した音声は、その所定区間の時間長が
第1の時間長演算手段により演算され、また、音声認識
手段により音声認識される。そして、その認識結果は、
翻訳手段により所定の言語に翻訳され、その翻訳結果に
対応する音声合成単位データが音声合成手段により記憶
手段から読出され、その読出した音声合成単位データが
合成される。そして、その合成結果を所定の音声出力手
段により読上げた場合の時間長が第2の時間長演算手段
により演算され、その演算結果と第1の時間長演算手段
による演算結果との差分が差分演算手段により演算され
る。そして、翻訳手段は、上記演算された差分が所定値
を超えている場合は、その差分を小さくすることができ
る時間長と対応付けられた同義語を翻訳用辞書から選択
する。
【0007】つまり、入力した音声の所定区間を自動翻
訳し、その翻訳結果を音声合成により読上げる場合に、
入力した音声の時間長と音声合成により読上げる時間長
との差分が所定値を超えている場合は、その差分を小さ
くすることができる同義語を用いて翻訳することができ
るため、翻訳前の音声の終了タイミングと翻訳後の音声
の終了タイミングとを近づける、あるいは一致させるこ
とができる。したがって、映像に付随した音声を翻訳す
る場合は、翻訳により合成された音声と映像とを可能な
限り同期させて進行させることができるため、不自然さ
を感じることがない。
【0008】請求項2に記載の発明では、入力した音声
の所定区間の時間長を演算する第1の時間長演算手段
と、前記入力した音声を認識する音声認識手段と、この
音声認識手段による認識結果を所定の言語に翻訳する翻
訳手段と、音声を合成する際の単位となる音声合成単位
データと前記所定の言語とを対応付けて記憶した記憶手
段と、前記翻訳手段による翻訳結果に基づいて前記記憶
手段から音声合成単位データを読出すとともに、その読
出した音声合成単位データを所定の読上げ速度パラメー
タと共に合成する音声合成手段と、この音声合成手段に
よる合成結果を所定の音声出力手段により読上げた場合
の時間長を演算する第2の時間長演算手段と、前記第1
の時間長演算手段による演算結果と前記第2の時間長演
算手段による演算結果との間の差分を演算する差分演算
手段とを備えており、前記音声合成手段は、前記差分演
算手段により演算された差分が所定値を超えている場合
は、前記差分が小さくなるように前記読上げ速度パラメ
ータを設定するという技術的手段を用いる。
【0009】入力した音声は、その所定区間の時間長が
第1の時間長演算手段により演算され、また、音声認識
手段により音声認識される。そして、その認識結果は、
翻訳手段により所定の言語に翻訳され、その翻訳結果に
対応する音声合成単位データが音声合成手段により記憶
手段から読出され、その読出した音声合成単位データは
所定の読上げ速度パラメータと共に合成される。そし
て、その合成結果を所定の音声出力手段により読上げた
場合の時間長が第2の時間長演算手段により演算され、
その演算結果と第1の時間長演算手段による演算結果と
の差分が差分演算手段により演算される。そして、音声
合成手段は、上記演算された差分が所定値を超えている
場合は、その差分が小さくなるように前記読上げ速度パ
ラメータを設定する。
【0010】つまり、入力した音声の所定区間を自動翻
訳し、その翻訳結果を音声合成により読上げる場合に、
入力した音声の時間長と音声合成により読上げる時間長
との差分が所定値を超えている場合は、その差分が小さ
くなるように読上げ速度パラメータを設定することがで
きるため、翻訳前の音声の終了タイミングと翻訳後の音
声の終了タイミングとを一致させる、あるいは近づける
ことができる。したがって、映像に付随した音声を翻訳
する場合は、翻訳により合成された音声と映像とを可能
な限り同期させて進行させることができるため、不自然
さを感じることがない。
【0011】請求項3に記載の発明では、請求項1に記
載の翻訳装置において、前記翻訳用辞書には、再翻訳を
行う可能性の大きさに対応した重み付けが、翻訳の構成
単位ごとになされており、前記翻訳手段は、前記差分演
算手段により演算された差分が所定値を超えている場合
は、前記構成単位を前記重み付けに対応して前記翻訳用
辞書から選択し、その選択した構成単位に対応する同義
語のうち、前記差分を小さくすることができる時間長と
対応付けられた同義語を選択するという技術的手段を用
いる。
【0012】再翻訳を行う可能性の大きさとは、最初に
翻訳した語句を同義語に再翻訳した場合に、最初に翻訳
した語句と意味が変わるレベルの大きさに対応したもの
であり、再翻訳を行っても意味が変わるレベルが小さい
語句ほど、再翻訳を行う可能性が大きい。たとえば、後
述する発明の実施の形態に記載するように、「私は船乗
りになることを望んでいます」という日本語の文章を英
語に翻訳する場合を例にして説明する。「船乗りに」に
対応する英語としては、「a sailor」が標準語
として設定されており、「the crew」および
「a seaman」が同義語として設定されているた
め、最初に翻訳した「a sailor」を上記2つの
同義語のいずれかに再翻訳しても意味が大きく変化しな
いため、再翻訳を行う可能性が大きく設定されている
(後述の翻訳用辞書記憶部12の再翻訳候補レベル
8)。一方、「なることを」に対応する英語としては、
「to become」が標準語として設定されてお
り、「get」が同義語として設定されているため、最
初に翻訳した「to become」を「get」に再
翻訳すると、「to become」よりも強い意志を
表す意味になってしまうため、再翻訳を行う可能性が小
さく設定されている(後述の翻訳用辞書記憶部12の再
翻訳候補レベル3)。つまり、同義語によって発声時間
が異なることを利用し、翻訳手段は、原語の発声時間
と、翻訳語の音声合成による読上げ時間との差分が大き
い場合には、再翻訳を行っても意味があまり変化しない
語句を選択し、その語句を同義語に再翻訳することによ
り、上記差分を小さくする。
【0013】請求項4に記載の発明では、請求項1ない
し請求項3のいずれか1つに記載の翻訳装置において、
前記入力した音声は、映像に付随するものであり、前記
映像は、その映像を構成する各静止画ごとに映像中の時
間的位置を示す時間情報が付されており、前記第1の時
間長演算手段は、前記入力した音声に対応した静止画に
付された時間情報に基づいて前記第1の時間長を演算す
るという技術的手段を用いる。
【0014】つまり、所定区間の映像に付随する音声の
前記所定区間の時間長を演算する場合、上記所定区間の
映像を構成する各静止画に付された時間情報のうち、所
定区間の最後の静止画に付された時間情報が示す時間か
ら、所定区間の最初の静止画に付された時間情報が示す
時間を減算すれば、上記所定区間における音声の第1の
時間長を求めることができる。
【0015】請求項5に記載の発明では、入力した音声
の所定区間の時間長を演算する第1の時間長演算処理
と、前記入力した音声を認識する音声認識処理と、この
音声認識処理による認識結果を所定の言語に翻訳する翻
訳処理と、音声を合成する際の単位となる音声合成単位
データと前記所定の言語とを対応付けて記憶した記憶手
段から、前記翻訳処理による翻訳結果に対応した音声合
成単位データを読出すとともに、その読出した音声合成
単位データを合成する音声合成処理と、この音声合成処
理による合成結果を所定の音声出力手段により読上げた
場合の時間長を演算する第2の時間長演算処理と、前記
第1の時間長演算処理による演算結果と前記第2の時間
長演算処理による演算結果との間の差分を演算する差分
演算処理とを実行するためのコンピュータプログラムが
記録されており、前記翻訳処理は、前記差分演算手段に
より演算された差分が所定値を超えている場合は、同義
語と、前記音声合成処理による前記同義語に対応する合
成結果を前記所定の音声出力手段により読上げた場合の
時間長とを対応付けて記憶した翻訳用辞書から、前記差
分を小さくすることができる時間長と対応付けられた同
義語を選択する選択処理を含んでいる記録媒体という技
術的手段を用いる。
【0016】つまり、たとえば、後述する発明の実施の
形態に記載するように、上記各処理は、翻訳装置に内蔵
されたCPUにより実行されるため、そのCPUが上記
各処理を実行するためのコンピュータプログラムが記録
された記録媒体を翻訳装置に設けることにより、請求項
1、請求項3および請求項4に記載の翻訳装置を実現で
きる。
【0017】請求項6に記載の発明では、入力した音声
の所定区間の時間長を演算する第1の時間長演算処理
と、前記入力した音声を認識する音声認識処理と、この
音声認識処理による認識結果を所定の言語に翻訳する翻
訳処理と、音声を合成する際の単位となる音声合成単位
データと前記所定の言語とを対応付けて記憶した記憶手
段から、前記翻訳処理による翻訳結果に対応した音声合
成単位データを読出すとともに、その読出した音声合成
単位データを所定の読上げ速度パラメータと共に合成す
る音声合成処理と、この音声合成処理による合成結果を
所定の音声出力手段により読上げた場合の時間長を演算
する第2の時間長演算処理と、前記第1の時間長演算処
理による演算結果と前記第2の時間長演算処理による演
算結果との間の差分を演算する差分演算処理とを実行す
るためのコンピュータプログラムが記録されており、前
記音声合成処理は、前記差分演算処理により演算された
差分が所定値を超えている場合は、前記差分が小さくな
るように前記読上げ速度パラメータを設定する記録媒体
という技術的手段を用いる。
【0018】つまり、たとえば、後述する発明の実施の
形態に記載するように、上記各処理は、翻訳装置に内蔵
されたCPUにより実行されるため、そのCPUが上記
各処理を実行するためのコンピュータプログラムが記録
された記録媒体を翻訳装置に設けることにより、請求項
2および請求項4に記載の翻訳装置を実現できる。
【0019】
【発明の実施の形態】以下、この発明に係る翻訳装置の
実施形態について図を参照して説明する。なお、以下の
各実施形態では、ビデオ映像と共に記録された日本語の
音声を英語に翻訳し、その翻訳した音声を再生する場合
を例に挙げて説明する。 [主要機能]最初に、この実施形態に係る翻訳装置の主
要機能について図1ないし図4を参照して説明する。図
1は、、翻訳装置の主要機能をブロックで示す説明図で
あり、図2ないし図4は、それぞれ図1の一部を取出し
て示す説明図である。翻訳装置50は、自動翻訳部10
および装置制御部20から構成されている。自動翻訳部
10は、音声認識部14、音声認識用辞書記憶部11、
翻訳部15、翻訳用辞書記憶部12、音声データ・辞書
記憶部13および音声合成部16から構成されている。
装置制御部20は、ビデオ制御部21、情報記憶部22
および読上げ開始検出部23から構成されている。な
お、翻訳装置50は、たとえばコンピュータであり、音
声認識用辞書記憶部11、翻訳用辞書記憶部12、音声
データ・辞書記憶部13および情報記憶部22として
は、コンピュータに設けられたハードディスク記憶装置
やROMなどの記録媒体が適用され、記憶部以外のブロ
ックで示す部分は、コンピュータのCPUが上記記録媒
体に記録されたコンピュータプログラムを実行すること
により実現される。
【0020】(音声認識部14)図2に示すように、音
声認識部14は、ビデオデッキ17から出力される音声
信号を入力し、音声認識を行う。音声認識の手法として
は、公知の種々の手法を用いることができる。たとえ
ば、次の手法を用いることができる。 (1)音声信号を所定の周期(たとえば、4〜20ms
ec)ごとに分析し、音声に含まれるスペクトルをバン
ドパスフィルタバンクによって抽出した特徴パラメータ
と、音声認識用辞書記憶部11に記憶されている標準パ
ターン(たとえば、101個の単音節の特徴パラメータ
の標準的な型である標準パターン)とを個々に比較認識
し、その認識結果の中で最も近似している標準パターン
を選択して行う。 (2)有音隠れマルコフモデルを用いる。隠れマルコフ
モデルとは、音声を統計的手法によって記述したモデル
であり、遷移確率・出力確率などのパラメータにより構
成されている。有音隠れマルコフモデルとは、学習デー
タの有音区間(識別対象の音声が存在する区間)の信号
を用いて各識別対象ごとに予め学習された隠れマルコフ
モデルを指し、これは各音節ごとに用意され、音声認識
用辞書記憶部11に記憶される。また、音声認識部14
は、音声認識した音声区間を検出し、その検出開始のタ
イミングおよび検出終了のタイミングをビデオ制御部2
1へ知らせる。さらに、音声認識部14は、音声認識の
結果に対応したテキストデータ(以下、音声認識テキス
トと称する)を生成し、その音声認識テキストを情報記
憶部22へ出力する。この音声認識結果から音声認識テ
キストを生成する手法としては、たとえば特許2664
679号公報に記載の種々の手法を用いることができ
る。
【0021】(音声認識用辞書記憶部11)音声認識用
辞書記憶部11には、上述のように、音声認識に必要な
データ、たとえば標準パターンや有音隠れマルコフモデ
ルなどが記憶されている。また、音声認識用辞書記憶部
11には、音声認識結果から音声認識テキストを生成す
る際に用いるテキストデータが記憶されている。 (ビデオ制御部21)ビデオ制御部21は、ビデオデッ
キ17により再生される映像を構成する各静止画に付さ
れたタイムコードを読込み、音声認識部14から知らさ
れるタイミングと対応したタイムコードを情報記憶部2
2へ出力する。つまり、音声認識部14から知らされる
検出開始タイミングと対応したタイムコードを開始点タ
イムコードとして、また、検出終了タイミングと対応し
たタイムコードを終了点タイムコードとしてそれぞれ出
力する。たとえば、図5は、「私は船乗りになることを
望んでいます」という音声を伴ったビデオ映像信号と、
音声信号と、タイムコードとの関係を示す説明図である
が、この例では、開始点タイムコードとして「00:1
0:00:10」が、終了点タイムコードとして「0
0:10:02:25」が、それぞれ出力される。ま
た、ビデオ制御部21は、終了点タイムコードに表され
る時間から開始点タイムコードに表される時間を減算し
て再生時間を演算し、その演算された再生時間を情報記
憶部22へ出力する。
【0022】ここで、タイムコードとは、静止画の動画
中の時間的位置を特定するものであり、各静止画に連続
して振られている。タイムコードは、通常、時間および
フレーム数により表される。たとえば、01:02:0
3:04のように4組の数字をコロンで区切って表記す
る。左から順に、時:分:秒:フレーム数を表す。そし
て、通常の時刻情報と同じように、秒、分はそれぞれ6
0進であり、上位の桁を繰り上げる。フレーム数に関し
ては、毎秒を表すフレーム数(フレームレート:fp
s)に依存しており、NTSCであれば30進、つまり
0〜29の値を持ち、30になるときに秒を1繰り上げ
る。
【0023】(翻訳用辞書記憶部12)翻訳用辞書記憶
部12には、日本語を英語に翻訳するために必要なデー
タが記憶されている。図7のに示すように、翻訳用辞
書記憶部12は、日本語と英語とを対応付けて記憶して
おり、英語は、単語によっては複数の同義語が用意され
ている。また、各同義語には、音声合成により読上げた
場合の読上げ開始から読上げ終了までの発声時間(時間
長)と、日本語の意味に最も近似している順に重み付け
をしたレベルの大きさを示す同義語レベルとが対応付け
て記憶されている。また、各日本語には、再翻訳候補レ
ベルがそれぞれ設定されている。再翻訳候補レベルと
は、再翻訳を行う可能性の大きさを示すものであり、最
初に翻訳した語句を同義語に再翻訳した場合に、最初に
翻訳した語句と意味が変わるレベルの大きさに対応した
ものである。つまり、再翻訳を行っても意味が変わるレ
ベルが小さい語句ほど、再翻訳候補レベルが大きく設定
されている。
【0024】たとえば、図7に示すように、「私は船乗
りになることを望んでいます」という日本語の文章を英
語に翻訳する場合、「船乗りに」に対応する英語として
は、「a sailor」が標準語として設定されてお
り、「the crew」および「a seaman」
が同義語として設定されているため、最初に翻訳した
「a sailor」を上記2つの同義語のいずれかに
再翻訳しても意味が大きく変化しないため、再翻訳を行
う可能性が大きく設定されている(図7の翻訳用辞書
記憶部12に示す再翻訳候補レベル8)。一方、「なる
ことを」に対応する英語としては、「to becom
e」が標準語として設定されており、「get」が同義
語として設定されているため、最初に翻訳した「to
become」を「get」に再翻訳すると、「to
become」よりも強い意志を表す意味になってしま
うため、再翻訳を行う可能性が小さく設定されている
(図7の翻訳用辞書記憶部12に示す再翻訳候補レベ
ル3)。なお、「私は」に対応する英語としては、
「I」に代わる同義語が存在しないため、「I」のみが
設定されており、再翻訳候補レベルが最小の「1」とな
っている。また、各翻訳語には、その翻訳語を標準的な
音声パラメータにより音声合成にて発声した場合の発声
時間が対応付けられている。
【0025】(翻訳部15)翻訳部15は、情報記憶部
22に記憶されている音声認識テキストを読出し、文章
を構成する品詞単位の語句に翻訳する。この翻訳では、
音声認識テキストの各品詞に対応する標準の語句をそれ
ぞれ情報記憶部22から選択して行う。また、翻訳部1
5は、選択された各語句に対応する発声時間の合計を演
算するとともに、情報記憶部22から上記音声認識テキ
ストに対応する再生時間を読出し、その再生時間と上記
発声時間の合計との差分を演算する。そして、その差分
が所定値を超える場合は、再翻訳候補レベルの高い語句
の順に再翻訳を行う。また、その再翻訳の対象となった
語句に対して同義語が複数存在する場合は、同義語レベ
ルの高いものから再翻訳候補として選択する。この再翻
訳は、上記差分が上記所定値以下になるまで行う。そし
て、その差分が所定値以下になったときに、翻訳された
テキスト(以下、翻訳テキストと称する)を情報記憶部
22へ出力する。
【0026】(情報記憶部22)情報記憶部22は、そ
の記憶内容を説明する図6に示すように、音声認識部1
4から出力された音声認識テキストと、翻訳部15から
出力された翻訳テキストと、ビデオ制御部21から出力
された開始点タイムコードと、終了点タイムコードと、
再生時間とを入力し、それぞれを対応付けて時系列に記
憶する。また、情報記憶部22は、所定のタイミングに
なると、再生時間を示す再生時間情報を音声合成部16
へ出力する。 (音声データ・辞書記憶部13)音声データ・辞書記憶
部13には、合成の基本単位となる音声データと、単
語、単語の読み、アクセントおよび文法などから構成さ
れた辞書とが記憶されている。 (音声合成部16)音声合成部16は、図4に示すよう
に、情報記憶部22に記憶されている翻訳テキストを読
出し、その読出した翻訳テキストを構成する単語、単語
の読み、アクセントおよび文法などを解析する。また、
音声合成部16は、情報記憶部22から出力された再生
時間を入力し、その再生時間に基づいて発声速度を決定
するパラメータ(以下、発声速度パラメータと称する)
を設定する。そして、音声合成部16は、翻訳テキスト
に対応する音声データを音声データ・辞書記憶部13か
ら読出し、その読出した音声データを上記解析結果およ
び発声速度パラメータに基づいて合成する。
【0027】(読上げ開始検出部23)読上げ開始検出
部23は、ビデオデッキ17により再生される映像に付
されているタイムコードと、情報記憶部22に記憶され
ている開始点タイムコードとが一致したときに、音声合
成部16に対して音声合成データを音声再生装置18へ
出力することを指示する。 (音声再生装置18)音声再生装置18は、D/A変換
部、増幅部、トーンコントロール部およびスピーカなど
から構成されており、音声合成部16から取込んだ音声
合成データをアナログの音声信号に変換した後に増幅な
どを行い、スピーカから音声を出力する。
【0028】[主な処理の流れ]次に、翻訳装置50が
実行する主な処理の流れについて図7、図8ないし図1
0を参照して説明する。図7は、翻訳の過程を示す説明
図であり、図8ないし図10は、翻訳装置50が実行す
る主な処理の流れを示すフローチャートである。なお、
ここでは、「私は船乗りになることを望んでいます」と
いう音声を自動翻訳するとともに音声合成する場合を例
に挙げて説明する。ビデオデッキ17によりビデオ映像
が再生されると(図8のステップ(以下、Sと略す)1
0)、音声認識部14は、ビデオ映像と共に再生された
音声を検出する処理を行う(S12)。音声認識部14
は、音声を検出すると(S14:Yes)、その検出タ
イミングに対応する映像の静止画に付されているタイム
コードを音声開始点タイムコードとして情報記憶部22
へ出力して記憶する(S16)。
【0029】続いて音声認識部14は、音声波形を分析
し(S18)、音声が終了したか否かを判定する(S2
0)。続いて音声認識部14は、音声終了を判定すると
(S20:Yes)、その判定タイミングに対応する静
止画に付されているタイムコードを音声終了点タイムコ
ードとして情報記憶部22へ出力して記憶する(S2
2)。続いて音声認識部14は、音声終了点タイムコー
ドに表されている時間から音声開始点タイムコードに表
されている時間を減算して再生時間を算出し、その算出
値を情報記憶部22へ出力して記憶する(S24)。続
いて音声認識部14は、S18における分析結果に対応
するテキストデータを音声認識用辞書記憶部11から読
出し、それを音声認識テキストとして情報記憶部22へ
出力して記憶する(S26)。続いて音声認識部14
は、ビデオ映像信号の有無を判定し(S28)、ビデオ
映像信号が有る場合は(S28:No)、上記S12〜
S28を実行する。つまり、ビデオ映像信号が無くなる
まで、音声開始点タイムコード、音声終了点タイムコー
ド、再生時間および音声認識テキストを情報記憶部22
に記憶する処理を繰り返す。
【0030】そして、情報記憶部22は、音声認識テキ
ストが記憶されたと判定すると(図9のS30:Ye
s)、記憶されている音声認識テキストおよび再生時間
を翻訳部15へ出力する(S32)。続いて翻訳部15
は、入力した音声認識テキストを構成する各品詞に対応
する翻訳語を翻訳用辞書記憶部12からそれぞれ選択す
る(S34)。続いて翻訳部15は、各選択した翻訳語
の発声時間を合計し(S36)、その合計時間と前記入
力した再生時間とを比較し、その差分が所定時間差以内
か否かを判定する(S38)。つまり、翻訳結果をその
まま音声合成した場合に、原語の再生時間との差が小さ
く、違和感が生じないか否かを判定する。そして、翻訳
部15は、上記差分が所定時間以内である場合は(S3
8:Yes)、テキスト形式の翻訳文を生成し(S4
0)、その生成した翻訳文を翻訳テキストとして情報記
憶部22に記憶する(S42)。
【0031】一方、翻訳部15は、S38において差分
が所定時間差を超えていると判定した場合は(S38:
No)、翻訳用辞書記憶部12に記憶されている翻訳対
象語句に対して設定されている再翻訳候補レベルおよび
同義語レベルの各設定値をそれぞれ読込む(S44)。
ここで、S38における判定は、たとえば、図7のに
示すように、「私は船乗りになることを望んでいます」
を通常翻訳した場合の「I want to beco
me a sailor」の発声時間の合計は、3,1
50msとなる。また、図6に示すように、「私は船乗
りになることを望んでいます」の再生時間は、2.5秒
(2,500ms)であるから、通常翻訳の発声時間と
の差分は、3,150ms−2,500ms=650m
sとなる。また、上記所定時間をたとえば500msと
すると、差分650ms>所定時間500msであるた
め、差分は所定時間以内ではないと判定する(S38:
No)。続いて翻訳部15は、レベルN1(たとえばN
1=5)以上の再翻訳候補レベルが設定されている語句
が存在するか否かを判定し(S46)、存在する場合は
(S46:Yes)、その中でも最も再翻訳候補レベル
の高い語句を選択する(S48)。たとえば、図7の
に示す例では、「船乗りに」に設定されている再翻訳候
補レベルが「8」で最も高いため、「船乗りに」を再翻
訳候補として選択する。続いて翻訳部15は、選択した
語句に対して音声認識テキストの発声時間との差分を小
さくする同義語が設定されているか否かを判定し(S5
0)、設定されている場合は(S50:Yes)、その
中でも最も同義語レベルの高い同義語を選択する(S5
2)。たとえば、図7のに示す例では、「船乗りに」
に設定されている同義語「the crew」の発声時
間が標準より短いため、この同義語を選択した同義語翻
訳の発声時間の合計は、通常翻訳の発声時間の合計より
も短くなり、音声認識テキスト「私は船乗りになること
を望んでいます」の発声時間との差分が縮まる可能性が
あるため、S50の判定がYesとなる。ここで同義語
「a seaman」の発声時間は標準より大きく、上
記差分が大きくなってしまうため、S52での選択対象
にはならない。よって、この例においては、S52にお
いて同義語レベルを比較するまでもなく、同義語「th
e crew」を同義語として選択する。
【0032】続いて翻訳部15は、選択した同義語に対
応する発声時間を翻訳用辞書記憶部12から入手し(S
54)、各翻訳語に対応する発声時間の合計時間を算出
する(S56)。続いて翻訳部15は、上記合計時間と
前記入力した再生時間とを比較し、その差分がS38に
おいて比較対象とした所定時間差以内か否かを判定する
(S58)。ここで、翻訳部15は、上記差分が上記所
定時間以内である場合は(S58:Yes)、選択した
各語句によりテキスト形式の翻訳文を生成し(S4
0)、その生成した翻訳文を翻訳テキストとして情報記
憶部22に記憶する(S42)。一方、翻訳部15は、
S58において差分が所定時間を超えていると判定した
場合は(S58:No)、S52において選択した同義
語の次に高い同義語レベルの設定された同義語が存在す
るか否かを判定し(S64)、存在する場合は(S6
4:Yes)、その同義語を選択する(S66)。つま
り、再々翻訳を行う。
【0033】続いて翻訳部15は、前記S54〜S58
を実行し、S58において差分が所定時間以内である場
合は(S58:Yes)、その再々翻訳の結果を翻訳テ
キストとして情報記憶部22に記憶する(S40、S4
2)。一方、翻訳部15は、再々翻訳をした結果、ま
だ、差分が所定時間を超えている場合は(S58:N
o)、音声認識テキストの発声時間との差分を小さくす
る別の同義語の有無を判定し(S64)、有れば(S6
4:Yes)、同義語レベルが次に高い同義語を選択し
て3回目の翻訳を行うが(S66→S54〜S58)、
S64において、次の同義語が存在しない場合は(S6
4:No)、次の再翻訳候補としてレベルN2(たとえ
ばN2=3)以上の再翻訳候補の語句が存在するか否か
を判定する(S60)。続いて翻訳部15は、レベルN
2以上の再翻訳候補の語句が存在する場合は(S60:
Yes)、その再翻訳候補の語句を選択し(S62)、
前述同様に、S50〜S58を実行し、差分が所定時間
以内の場合は(S58:Yes)、翻訳テキストを生成
して情報記憶部22に記憶する(S40、S42)。
【0034】たとえば、図7のに示すように、「船乗
りに」を再翻訳した結果「thecrew」が選択さ
れ、「望んでいます」を再々翻訳した結果「hope」
が選択された場合の発声時間の合計時間は2,940m
sとなる。したがって、再生時間との差分は、2,94
0ms−2,500ms=440msとなり、前述した
所定時間の500ms以内であるため、「I hope
to becomethe crew」が、翻訳テキ
ストとして情報記憶部22に記憶される。一方、S60
において、レベルN2以上の再翻訳候補が存在しない場
合は(S60:No)、前回の翻訳結果を翻訳テキスト
として生成し、情報記憶部22に記憶する(S40、S
42)。つまり、翻訳部15は、翻訳結果の発声時間と
原語の再生時間との差分が所定時間以内になるまで、再
翻訳を繰り返す。
【0035】そして、情報記憶部22は、記憶している
翻訳テキストを音声合成部16へ出力し(図10のS6
8)、読上げ開始検出部23は、情報記憶部22から音
声開始点タイムコードを読込む(S70)。続いて情報
記憶部22は、記憶されている再生時間情報を音声合成
部16へ出力し(S72)、音声合成部16は、入力し
た再生時間情報に基づいて音声合成による読上げ速度パ
ラメータを決定する(S74)。続いてビデオデッキ1
7によりビデオ映像を再生すると(S76)、読上げ開
始検出部23は、ビデオ映像の各静止画に付されている
タイムコードを読込み(S78)、その読込んだタイム
コードがS70において読込んだ音声開始点タイムコー
ドと一致したことを検出すると(S80:Yes)、音
声合成部16に対して音声出力開始要求を行う(S8
2)。これにより、音声合成部16は、S68において
入力した翻訳テキストをS74において決定した読上げ
速度に基づいて音声合成を行い、その合成結果に対応し
た音声が音声再生装置18により再生される。
【0036】続いて情報記憶部22は、次の翻訳テキス
トが記憶されている場合は(S84:Yes)、その翻
訳テキストを音声合成部16へ出力し(S86)、読上
げ開始検出部23は、次の音声開始点タイムコードを読
込み(S88)、情報記憶部22は、次の再生時間情報
を音声合成部16へ出力し(S90)、音声合成部16
は、入力した再生時間情報に基づいて音声合成による読
上げ速度パラメータを決定する(S92)。次に、再び
S78〜S82の処理を行う。つまり、情報記憶部22
に次の翻訳テキストが記憶されている場合は、上記S8
6〜S92〜S82を繰り返し、次の翻訳テキストが無
くなった場合は(S84:No)、処理を完了する。
【0037】[実施形態の効果] (1)以上のように、この実施形態の翻訳装置50を使
用すれば、入力した音声の再生時間(第1の時間長)と
音声合成による読上げ時間(第2の時間長)との差分が
所定時間を超えている場合は、その差分を小さくするこ
とができる同義語を用いて翻訳することができるため、
翻訳前の音声の終了タイミングと翻訳後の音声の終了タ
イミングとを近づける、あるいは一致させることができ
る。したがって、映像に付随した音声を翻訳する場合
に、翻訳により合成された音声と映像とを可能な限り同
期させて進行させることができるため、不自然さを感じ
ることがない。 (2)しかも、上記差分が所定時間を超えている場合
は、その差分が小さくなるように読上げ速度パラメータ
を設定することができるため、翻訳前の音声の終了タイ
ミングと翻訳後の音声の終了タイミングとを一致させ
る、あるいは近づけることができる。したがって、映像
に付随した音声を翻訳する場合は、翻訳により合成され
た音声と映像とを可能な限り同期させて進行させること
ができる。 (3)また、同義語を用いて再翻訳をした場合に、意味
が変わる程度に応じて各語句に対して重み付けがなされ
ているため、再翻訳を行った場合に意味があまり変わら
ないようにすることができる。つまり、原語と意味があ
まり変わらない範囲で上記差分を小さくすることができ
る。
【0038】[各請求項と実施形態との対応関係]音声
認識部14が請求項1に係る音声認識手段に対応し、翻
訳部15が翻訳手段に対応する。また、情報記憶部22
が記憶手段に対応し、翻訳用辞書記憶部12が翻訳用辞
書に対応し、音声合成部16が音声合成手段に対応す
る。さらに、再生時間が第1の時間長に対応し、発声時
間の合計時間が第2の時間長に対応する。また、前述の
コンピュータのCPUが実行するコンピュータプログラ
ムが記録されたハードディスク記憶装置やROMなどの
記録媒体が請求項5または請求項6に係る記録媒体に対
応する。そして、図8のS24が請求項1に係る第1の
時間長演算手段として機能するとともに、請求項5に係
る第1の時間長演算処理に対応し、S18が音声認識手
段として機能するとともに、音声認識処理に対応する。
また、図9のS30〜S66のうち、S36、S38、
S56およびS58を除いた処理が翻訳手段として機能
するとともに、翻訳処理に対応し、S36およびS56
が第2の時間長演算手段として機能するとともに、第2
の時間長演算処理に対応する。さらに、S38およびS
58が差分演算手段として機能するとともに、差分演算
処理に対応する。
【図面の簡単な説明】
【図1】この発明の実施形態に係る翻訳装置の主要機能
をブロックで示す説明図である。
【図2】図1の一部を取出して示す説明図である。
【図3】図1の一部を取出して示す説明図である。
【図4】図1の一部を取出して示す説明図である。
【図5】「私は船乗りになることを望んでいます」とい
う音声を伴ったビデオ映像信号と、音声信号と、タイム
コードとの関係を示す説明図であるタイムコード対応テ
ーブル13を示す説明図である。
【図6】情報記憶部22の記憶内容を示す説明図であ
る。
【図7】翻訳の過程を示す説明図である。
【図8】翻訳装置50が実行する主な処理の流れを示す
フローチャートである。
【図9】翻訳装置50が実行する主な処理の流れを示す
フローチャートである。
【図10】翻訳装置50が実行する主な処理の流れを示
すフローチャートである。
【符号の説明】
12 翻訳用辞書記憶部(翻訳用辞書) 14 音声認識部(音声認識手段) 15 翻訳部(翻訳手段) 16 音声合成部(音声合成手段) 17 ビデオデッキ 18 音声再生装置 22 情報記憶部(記憶手段) 23 読上げ開始検出部 50 翻訳装置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/928 G10L 5/04 F H04N 5/92 E Fターム(参考) 5B091 AA05 AB17 BA03 CB12 CB32 5C053 FA10 FA21 GB11 JA01 JA26 5D015 DD03 DD04 KK02 KK03 KK04 5D045 AA07 AA20 AB03

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力した音声の所定区間の時間長を演算
    する第1の時間長演算手段と、 前記入力した前記所定区間の音声を認識する音声認識手
    段と、 この音声認識手段による認識結果を所定の言語に翻訳す
    る翻訳手段と、 音声を合成する際の単位となる音声合成単位データと前
    記所定の言語とを対応付けて記憶した記憶手段と、 前記翻訳手段による翻訳結果に基づいて前記記憶手段か
    ら音声合成単位データを読出すとともに、その読出した
    音声合成単位データを合成する音声合成手段と、 この音声合成手段による合成結果を所定の音声出力手段
    により読上げた場合の時間長を演算する第2の時間長演
    算手段と、 前記第1の時間長演算手段による演算結果と前記第2の
    時間長演算手段による演算結果との間の差分を演算する
    差分演算手段とを備えており、 前記翻訳手段は、 同義語と、前記音声合成手段による前記同義語に対応す
    る合成結果を前記所定の音声出力手段により読上げた場
    合の時間長とを対応付けて記憶した翻訳用辞書を備えて
    おり、前記差分演算手段により演算された差分が所定値
    を超えている場合は、前記差分を小さくすることができ
    る時間長と対応付けられた同義語を前記翻訳用辞書から
    選択することを特徴とする翻訳装置。
  2. 【請求項2】 入力した音声の所定区間の時間長を演算
    する第1の時間長演算手段と、 前記入力した音声を認識する音声認識手段と、 この音声認識手段による認識結果を所定の言語に翻訳す
    る翻訳手段と、 音声を合成する際の単位となる音声合成単位データと前
    記所定の言語とを対応付けて記憶した記憶手段と、 前記翻訳手段による翻訳結果に基づいて前記記憶手段か
    ら音声合成単位データを読出すとともに、その読出した
    音声合成単位データを所定の読上げ速度パラメータと共
    に合成する音声合成手段と、 この音声合成手段による合成結果を所定の音声出力手段
    により読上げた場合の時間長を演算する第2の時間長演
    算手段と、 前記第1の時間長演算手段による演算結果と前記第2の
    時間長演算手段による演算結果との間の差分を演算する
    差分演算手段とを備えており、 前記音声合成手段は、 前記差分演算手段により演算された差分が所定値を超え
    ている場合は、前記差分が小さくなるように前記読上げ
    速度パラメータを設定することを特徴とする翻訳装置。
  3. 【請求項3】 前記翻訳用辞書には、再翻訳を行う可能
    性の大きさに対応した重み付けが、翻訳の構成単位ごと
    になされており、 前記翻訳手段は、前記差分演算手段により演算された差
    分が所定値を超えている場合は、前記構成単位を前記重
    み付けに対応して前記翻訳用辞書から選択し、その選択
    した構成単位に対応する同義語のうち、前記差分を小さ
    くすることができる時間長と対応付けられた同義語を選
    択することを特徴とする請求項1に記載の翻訳装置。
  4. 【請求項4】 前記入力した音声は、映像に付随するも
    のであり、 前記映像は、その映像を構成する各静止画ごとに映像中
    の時間的位置を示す時間情報が付されており、 前記第1の時間長演算手段は、前記入力した音声に対応
    した静止画に付された時間情報に基づいて前記第1の時
    間長を演算することを特徴とする請求項1ないし請求項
    3のいずれか1つに記載の翻訳装置。
  5. 【請求項5】 入力した音声の所定区間の時間長を演算
    する第1の時間長演算処理と、 前記入力した音声を認識する音声認識処理と、 この音声認識処理による認識結果を所定の言語に翻訳す
    る翻訳処理と、 音声を合成する際の単位となる音声合成単位データと前
    記所定の言語とを対応付けて記憶した記憶手段から、前
    記翻訳処理による翻訳結果に対応した音声合成単位デー
    タを読出すとともに、その読出した音声合成単位データ
    を合成する音声合成処理と、 この音声合成処理による合成結果を所定の音声出力手段
    により読上げた場合の時間長を演算する第2の時間長演
    算処理と、 前記第1の時間長演算処理による演算結果と前記第2の
    時間長演算処理による演算結果との間の差分を演算する
    差分演算処理とを実行するためのコンピュータプログラ
    ムが記録されており、 前記翻訳処理は、 前記差分演算手段により演算された差分が所定値を超え
    ている場合は、同義語と、前記音声合成処理による前記
    同義語に対応する合成結果を前記所定の音声出力手段に
    より読上げた場合の時間長とを対応付けて記憶した翻訳
    用辞書から、前記差分を小さくすることができる時間長
    と対応付けられた同義語を選択する選択処理を含んでい
    ることを特徴とする記録媒体。
  6. 【請求項6】 入力した音声の所定区間の時間長を演算
    する第1の時間長演算処理と、 前記入力した音声を認識する音声認識処理と、 この音声認識処理による認識結果を所定の言語に翻訳す
    る翻訳処理と、 音声を合成する際の単位となる音声合成単位データと前
    記所定の言語とを対応付けて記憶した記憶手段から、前
    記翻訳処理による翻訳結果に対応した音声合成単位デー
    タを読出すとともに、その読出した音声合成単位データ
    を所定の読上げ速度パラメータと共に合成する音声合成
    処理と、 この音声合成処理による合成結果を所定の音声出力手段
    により読上げた場合の時間長を演算する第2の時間長演
    算処理と、 前記第1の時間長演算処理による演算結果と前記第2の
    時間長演算処理による演算結果との間の差分を演算する
    差分演算処理とを実行するためのコンピュータプログラ
    ムが記録されており、 前記音声合成処理は、 前記差分演算処理により演算された差分が所定値を超え
    ている場合は、前記差分が小さくなるように前記読上げ
    速度パラメータを設定することを特徴とする記録媒体。
JP2000316043A 2000-10-17 2000-10-17 翻訳装置および記録媒体 Pending JP2002123282A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000316043A JP2002123282A (ja) 2000-10-17 2000-10-17 翻訳装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000316043A JP2002123282A (ja) 2000-10-17 2000-10-17 翻訳装置および記録媒体

Publications (1)

Publication Number Publication Date
JP2002123282A true JP2002123282A (ja) 2002-04-26

Family

ID=18795047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000316043A Pending JP2002123282A (ja) 2000-10-17 2000-10-17 翻訳装置および記録媒体

Country Status (1)

Country Link
JP (1) JP2002123282A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309173A (ja) * 2004-04-23 2005-11-04 Nippon Hoso Kyokai <Nhk> 音声合成制御装置、その方法、そのプログラムおよび音声合成用データ生成装置
WO2011007595A1 (ja) * 2009-07-16 2011-01-20 独立行政法人情報通信研究機構 音声翻訳システム、辞書サーバ装置、およびプログラム
CN102577617A (zh) * 2009-10-22 2012-07-11 住友化学株式会社 有机el装置用基板以及使用了其的有机el装置的制造方法
US9484017B2 (en) 2013-09-18 2016-11-01 Kabushiki Kaisha Toshiba Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
WO2017072915A1 (ja) * 2015-10-29 2017-05-04 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09292971A (ja) * 1996-04-26 1997-11-11 Sony Corp 翻訳装置
JP2000092460A (ja) * 1998-09-08 2000-03-31 Nec Corp 字幕・音声データ翻訳装置および字幕・音声データ翻訳方法
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2001224002A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09292971A (ja) * 1996-04-26 1997-11-11 Sony Corp 翻訳装置
JP2000092460A (ja) * 1998-09-08 2000-03-31 Nec Corp 字幕・音声データ翻訳装置および字幕・音声データ翻訳方法
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2001224002A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309173A (ja) * 2004-04-23 2005-11-04 Nippon Hoso Kyokai <Nhk> 音声合成制御装置、その方法、そのプログラムおよび音声合成用データ生成装置
WO2011007595A1 (ja) * 2009-07-16 2011-01-20 独立行政法人情報通信研究機構 音声翻訳システム、辞書サーバ装置、およびプログラム
US9442920B2 (en) 2009-07-16 2016-09-13 National Institute Of Information And Communications Technology Speech translation system, dictionary server, and program
CN102577617A (zh) * 2009-10-22 2012-07-11 住友化学株式会社 有机el装置用基板以及使用了其的有机el装置的制造方法
US9484017B2 (en) 2013-09-18 2016-11-01 Kabushiki Kaisha Toshiba Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
WO2017072915A1 (ja) * 2015-10-29 2017-05-04 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置
JPWO2017072915A1 (ja) * 2015-10-29 2018-07-12 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置
US10691898B2 (en) 2015-10-29 2020-06-23 Hitachi, Ltd. Synchronization method for visual information and auditory information and information processing device

Similar Documents

Publication Publication Date Title
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JP5482042B2 (ja) 合成音声テキスト入力装置及びプログラム
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2001215985A (ja) 視覚的音声のトランスリンガル合成
JP2009047920A (ja) ユーザと音声により対話する装置および方法
US8626510B2 (en) Speech synthesizing device, computer program product, and method
US5752228A (en) Speech synthesis apparatus and read out time calculating apparatus to finish reading out text
JP2012113087A (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
KR100636386B1 (ko) 실시간 비디오 음성 더빙 장치 및 그 방법
US10923106B2 (en) Method for audio synthesis adapted to video characteristics
CN113112575B (zh) 一种口型生成方法、装置、计算机设备及存储介质
KR20220134347A (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
JP2002123282A (ja) 翻訳装置および記録媒体
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP4011844B2 (ja) 翻訳装置、翻訳方法および媒体
CN112992116A (zh) 一种视频内容自动生成方法和系统
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JPH06337876A (ja) 文章読み上げ装置
JP6486582B2 (ja) 電子機器、音声制御方法、およびプログラム
JP3513030B2 (ja) データ再生装置
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JPS6184771A (ja) 音声入力装置
JPH10133678A (ja) 音声再生装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100316

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100803