JP2000322077A - テレビジョン装置 - Google Patents

テレビジョン装置

Info

Publication number
JP2000322077A
JP2000322077A JP11131648A JP13164899A JP2000322077A JP 2000322077 A JP2000322077 A JP 2000322077A JP 11131648 A JP11131648 A JP 11131648A JP 13164899 A JP13164899 A JP 13164899A JP 2000322077 A JP2000322077 A JP 2000322077A
Authority
JP
Japan
Prior art keywords
text
audio signal
signal
display
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11131648A
Other languages
English (en)
Inventor
Sumio Iwase
純夫 岩瀬
Fumio Nagumo
文男 名雲
Toshio Oe
敏生 大江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP11131648A priority Critical patent/JP2000322077A/ja
Publication of JP2000322077A publication Critical patent/JP2000322077A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 良好な任意の言語での字幕の表示や吹き替え
を行う。 【解決手段】 アンテナ1、2からの信号がフロントエ
ンド回路3を通じてデマルチプレクサ4に供給され、分
離された映像信号が画像デコーダ6、同期情報書き込み
回路8、遅延回路9、混合器10を通じて標準方式のエ
ンコーダ11に供給される。また、デマルチプレクサ4
で分離された音声信号が音声デコーダ7を通じてテキス
ト化回路14に供給され、テキスト化されたデータが表
示信号発生回路15、同期フィルタ16を通じて混合器
10に供給される。さらにテキスト化回路14で抽出さ
れる音声のスペクトラムパターンがスペクトラム解析回
路17に供給され、デコーダ6からの映像信号の口元画
像が画像認識回路18に供給されて、話者の交替の時点
が検出される。そしてこれらの検出信号が発声時間判定
回路19を通じて表示信号発生回路15に供給されて表
示時間が制御される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えばデジタル放
送されたテレビジョン信号の受信や、デジタル記録され
たテレビジョン信号の再生に使用して好適なテレビジョ
ン装置に関する。詳しくは、例えば外国語の音声の含ま
れたテレビジョン信号を視聴する際に使用され、そのテ
レビジョン信号に含まれる音声信号を認識して字幕の表
示や音声合成による吹き替えを行う場合に良好な装置を
提供するものである。
【0002】
【従来の技術】例えばデジタル放送の実現によってテレ
ビジョン放送の多チャンネル化が進むと、例えば需要の
少ないチャンネルでは外国で制作されたテレビジョン番
組等を字幕や吹き替え等の加工をせずに放送する場合が
生じてくる。また例えば外国で記録されたビデオテープ
等を再生する場合においても、字幕や吹き替え等のない
テレビジョン信号が再生されることになる。しかしなが
らこのような放送等は、当該外国語を知らない視聴者に
は内容が理解されず、無意味なものになってしまう恐れ
がある。
【0003】そこでこのようなテレビジョン信号の受信
や再生において、例えばテレビジョン信号中の音声信号
を任意の音声認識手段で認識してテキスト化する。そし
てこのテキストを翻訳し、この翻訳されたテキストをい
わゆる字幕にして画像信号に重畳表示したり、翻訳され
たテキストから音声信号を合成して吹き替えを行う装置
が提案(特開平5−176232号公報、特開平10−
234016号公報等参照)されている。
【0004】
【発明が解決しようとする課題】ところがこれらの装置
においては、例えば表示される字幕の形態に関しては何
ら考慮されておらず、例えば字幕は話者の発声の間だけ
表示されているものである。このため例えば話者がいわ
ゆる早口の場合には、表示される字幕が長くなって、発
声の間だけの表示では視聴者の読解の能力を越えてしま
う場合が生じる。またテキストを翻訳している場合に
は、言語間の表現の違いによっても表示される字幕が極
めて長くなってしまう場合がある。
【0005】また、翻訳されたテキストを音声合成して
吹き替えを行っている場合には、言語間の表現の違いに
よってテキストの長さが変化し、例えば合成された音声
信号が画像信号中の話者の口元の動きと一致しなくなっ
てしまう恐れがある。さらに一般的な音声合成では音声
信号の声色が一定であるために、例えば複数の話者が会
話している場合に、話者の区別ができず混乱を生じる恐
れがある。また、話者の発声の区切りを音声信号のみで
判別することが困難な場合もある。
【0006】この出願はこのような点に鑑みて成された
ものであって、解決しようとする問題点は、従来の装置
では、例えば話者の発声の速さや言語間の表現の違いに
よってテキストの長さが変化した場合に、それに対応し
た字幕の表示や吹き替えに対する考慮がなされておら
ず、良好な字幕の表示や吹き替えを行うことができない
場合があったというものである。
【0007】
【課題を解決するための手段】このため本発明において
は、音声信号中の話者の発声を認識したテキストの表
示、または翻訳されたテキストの表示、さらには音声合
成による吹き替えを行う場合に、テキストの表示時間や
合成された音声信号の発声の速さを、その表示の読解に
要する時間や、対応する認識の行われた音声信号の発声
時間に応じて制御するようにしたものであって、これに
よれば、話者の発声の速さや言語間の表現の違いなどに
よらず、常に良好な任意の言語での字幕の表示や吹き替
えを行うことができる。
【0008】
【発明の実施の形態】すなわち本発明の第1の実施の形
態は、テレビジョン装置であって、テレビジョン信号中
の画像信号及び音声信号を所定時間遅延する遅延手段
と、遅延前の音声信号を任意の音声認識手段で認識して
テキスト化するテキスト化手段と、このテキストを遅延
後の画像信号に重畳して表示する表示手段と、遅延後の
音声信号の認識の始端に対応する時点からテキストの表
示を開始すると共に、この表示時間を音声信号の継続時
間及びテキストの読了に要する標準的な読了時間に応じ
て制御する制御手段とを設けてなるものである。
【0009】また、本発明の第2の実施の形態は、テレ
ビジョン装置であって、テレビジョン信号中の画像信号
及び音声信号を所定時間遅延する遅延手段と、遅延前の
音声信号を任意の音声認識手段で認識してテキスト化す
るテキスト化手段と、このテキストを任意の言語に翻訳
する翻訳手段と、この翻訳されたテキストを遅延後の画
像信号に重畳して表示する表示手段と、遅延後の音声信
号の認識の始端に対応する時点から翻訳されたテキスト
の表示を開始すると共に、この表示時間を音声信号の継
続時間及び翻訳されたテキストの読了に要する標準的な
読了時間に応じて制御する制御手段とを設けてなるもの
である。
【0010】さらに本発明の第3の実施の形態は、テレ
ビジョン装置であって、テレビジョン信号中の画像信号
及び音声信号を所定時間遅延する遅延手段と、遅延前の
音声信号を任意の音声認識手段で認識してテキスト化す
るテキスト化手段と、このテキストを任意の言語に翻訳
する翻訳手段と、この翻訳されたテキストを音声信号に
変換する音声合成手段と、遅延後の音声信号の認識の始
端に対応する時点から合成された音声信号の発声を開始
すると共に、この合成された音声信号の発声の速さを音
声信号の継続時間及び翻訳されたテキストの長さに応じ
て制御する制御手段とを設けてなるものである。
【0011】以下、図面を参照して本発明を説明する
に、図1は本発明の第1の実施の形態を適用したテレビ
ジョン装置の一例の構成を示すブロック図である。
【0012】図1において、例えば地上波デジタル方式
のテレビジョン信号の受信アンテナ1と衛星波デジタル
方式のテレビジョン信号の受信アンテナ2とが設けられ
る。そしてこれらのアンテナ1、2からの信号がフロン
トエンド回路3に供給されて所望のデジタルテレビジョ
ン信号が受信される。さらにこのフロントエンド回路3
で受信されたデジタルテレビジョン信号がデマルチプレ
クサ4に供給されて、デジタル映像信号とデジタル音声
信号とが分離される。
【0013】また、デジタルビデオテープレコーダ等の
外部機器(図示せず)からのデジタル信号が、デジタル
インターフェース(I/F)回路5を通じてデマルチプ
レクサ4に供給される。そしてデマルチプレクサ4から
のデジタル映像信号が、例えばMPEG(Moving
Picture coding Experts Gr
oup)方式の画像デコーダ6に供給されてデジタル映
像信号がデコードされる。またデマルチプレクサ4から
のデジタル音声信号が任意の音声デコーダ7に供給され
てデジタル音声信号がデコードされる。
【0014】さらに画像デコーダ6でデコードされたデ
ジタル映像信号が同期情報書き込み回路8に供給され
て、例えば音声デコーダ7からの音声の始端を示す同期
情報が映像信号中の任意の箇所に書き込まれる。そして
この同期情報の書き込まれた映像信号が遅延回路9に供
給されて、後述する表示信号の形成に要する時間分の遅
延が行われる。さらに遅延された信号が後述する表示信
号の混合器10を通じてテレビジョンの標準方式のエン
コーダ11に供給され、例えばNTSC方式の輝度信号
(Y)とクロマ信号(C)及び複合映像信号が取り出さ
れる。
【0015】また、上述の音声デコーダ7でデコードさ
れたデジタル音声信号が、後述する表示信号の形成に要
する時間分の遅延回路12に供給される。そして遅延さ
れたデジタル音声信号がD/A変換回路13に供給され
て、例えばステレオ音声信号の左(L)及び右(R)の
アナログ音声信号が取り出される。あるいは、デジタル
音声信号が音声多重信号の場合には、D/A変換回路1
3からは主音声と副音声のアナログ音声信号が取り出さ
れる場合もある。
【0016】それと共に、音声デコーダ7でデコードさ
れたデジタル音声信号がテキスト化回路14に供給され
る。ここでこのテキスト化回路14では、例えば供給さ
れたデジタル音声信号が音声認識手段で認識され、この
認識の結果に基づいた文字コード列(テキスト)が形成
される。さらにこのテキストのデータが表示信号発生回
路15に供給される。そして発生された文字列の表示信
号が、上述のデジタル映像信号に書き込まれた音声の始
端の同期情報に合わせて表示を開始するための同期フィ
ルタ16を通じて上述の混合器10に供給される。
【0017】また、上述のテキスト化回路14で、例え
ば音声認識の際に抽出される音声の特徴を示すスペクト
ラムパターンが、スペクトラム解析回路17に供給され
てスペクトラムパターンに変化を生じた時点が検出され
る。さらに上述の画像デコーダ6でデコードされたデジ
タル映像信号が画像認識回路18に供給され、例えば画
面中の人物の口元の画像が認識され、この口元の画像が
変化しなくなった時点が検出される。そしてこれらの解
析回路17及び認識回路18からの検出信号が発声時間
判定回路19に供給される。
【0018】ここでこれらの音声特徴の解析及び口元画
像の認識から特定の人物の発声が継続されている時間を
判定する処理は、例えば図2に示すフローチャートのよ
うにして行われる。この図2において処理がスタートさ
れると、まずステップ〔1〕で画像の全位置データがコ
マ単位でバッファに記録される。次にステップ〔2〕で
口元の位置の画像(GM)が抽出される。さらにステッ
プ〔3〕で抽出された位置情報を保持して、上述の画像
(GM)の変化が監視される。
【0019】またステップ〔4〕で音声スペクトラムが
解析されてパターンテーブルが形成される。そしてステ
ップ〔5〕で形成されたパターンテーブルが現在の音声
スペクトラムと比較される。
【0020】さらにステップ〔6〕で比較された音声ス
ペクトラムが変化したか否か判別され、ステップ〔7〕
で上述の画像(GM)の変化が終了したか否か判別され
る。そしてこれらの判別のいずれかが(NO)のとき
は、上述の特定の人物の発声が継続中であると判断さ
れ、ステップ〔1〕に戻されて処理が繰り返される。ま
た上述の判断が共に(YES)のときは、上述の特定の
人物の発声が終了したと判断され、ステップ〔8〕で発
声時間が確定されて処理は終了される。
【0021】また、上述のステップ〔2〕での口元の画
像(GM)の抽出は、例えば図2の右側に示すようなサ
ブルーチンによって行われる。このサブルーチンにおい
て、処理がスタートされると、まずステップ〔11〕で
相対位置にある2群の白データ(白目位置)が抽出され
る。次にステップ〔12〕で白データの中にある黒など
の白以外のデータ(黒目)が確認される。さらにステッ
プ〔13〕で白データの上部にある同一色素による眉毛
データが確認される。
【0022】以上の処理によって例えば上述の特定の人
物の左右の目の位置が検出される。そしてステップ〔1
4〕で左右の白データを底辺とする逆正三角形の頂点が
算出される。さらにステップ〔15〕でこの頂点の位置
の周辺の画像を、上述の特定の人物の口元の画像データ
として抽出して、この抽出された口元画像のデータが主
処理のステップ〔2〕に戻される。このようにして口元
の画像(GM)の抽出が行われる。
【0023】このようにして、例えば音声信号のスペク
トラムパターンが変化したときは、発声している人物が
代わったことが判断される。また口元画像が変化しなく
なったときは、特定の人物の発声が終わったことが判断
される。これによって、例えば上述の解析回路17及び
認識回路18からの検出信号に従って、発声時間判定回
路19での特定の人物の発声の継続時間の判定が行われ
る。そしてこの判定結果が、上述の表示信号発生回路1
5に供給される。またこの判定結果は、上述のテキスト
化回路14での処理の区切りにも利用することができ
る。
【0024】なお上述の発声時間の判定は、音声特徴の
解析、あるいは口元画像の認識のいずれか一方のみでも
可能であるが、例えば音声特徴の解析だけでは似た声の
人物が続けて発声したときに区別が困難になることがあ
る。また、画像認識だけでは例えば画面外での発声や人
物がカメラを向いていないときに認識ができない。そこ
で上述のように音声特徴の解析と口元画像の認識とを併
用することによって、ほとんどの場合で発声時間の判定
を可能にすることができる。
【0025】そして上述の表示信号発生回路15では、
この発声時間判定回路19からの判定結果と、上述のテ
キスト化回路14で形成されたテキストのデータに基づ
いて表示信号の発生時間等の制御が行われる。すなわち
例えば図3に示すフローチャートにおいて処理がスター
トされると、まずステップ〔20〕で上述の判定された
話者の発声時間が値T1 として記録される。次にステッ
プ〔21〕で上述のテキストの長さが測定され、ステッ
プ〔22〕でこのテキストの読了に掛かる最低時間が値
T2 として算出される。
【0026】またステップ〔23〕で値T2 が値T1 を
大きく越えているか否か判別され、大きく越えていると
き(YES)はステップ〔24〕でテキストを別の短い
表現に変える処理が行われる。そしてステップ〔25〕
で直前の話者の表示時間が満了しているか否か判別さ
れ、満了しているとき(YES)はステップ〔26〕で
第1の表示位置がセットされ、満了していないとき(N
O)はステップ〔27〕で第2の表示位置がセットされ
る。
【0027】さらにステップ〔28〕で値T2 >値T1
が判断される。そして値T2 が大きいとき(YES)は
ステップ〔29〕で、上述のテキストが上述の表示位置
に値T2 の時間だけ表示される。また、値T1 が大きい
とき(NO)はステップ〔27〕で、上述のテキストが
上述の表示位置に値T1 の時間だけ表示される。そして
これらの表示が行われている間に、処理の流れはステッ
プ〔20〕に戻されて次の話者の発声の処理が行われ
る。
【0028】このようにして音声認識により形成された
テキストの表示が行われる。そしてこの場合に、表示さ
れる字幕の表示時間が、話者の発声時間と共にその読了
時間に応じて設定される。また、読了時間が大幅に長い
場合にはテキストの表現を短くする処理が行われる。さ
らに表示時時間が長く次の話者の発声に掛かる場合には
表示位置を変えて区別を付ける等の処理が行われること
によって、常に良好な字幕の表示を行うことができるも
のである。
【0029】従ってこの装置において、音声信号中の話
者の発声を認識したテキストの表示を行う場合に、テキ
ストの表示時間をその表示の読解に要する時間に応じて
制御するようにしたものであって、これによれば、話者
の発声の速さなどによらず、常に良好な字幕の表示や吹
き替えを行うことができる。
【0030】これによって、従来の装置では、例えば話
者の発声の速さやテキストの長さが変化した場合に、そ
れに対応した字幕の表示に対する考慮がなされておら
ず、良好な字幕の表示を行うことができない場合があっ
たものを、本発明によればこれらの問題点を容易に解消
することができるものである。
【0031】また図4は、テキストの表示時間をその表
示の読解に要する時間に応じて制御するようにした他の
例のフローチャートを示す。この図4において当該話者
の発声がスタートされると、まずステップ〔41〕でタ
イマーをスタートさせると共に、テキストの読了時間を
測定する。次にステップ〔42〕で発声信号の有無が判
別される。ここで発声信号が有る(YES)ときは、発
声信号が無くなるまでこのステップ〔42〕が繰り返さ
れる。
【0032】さらにステップ〔42〕で発声信号が無く
なる(NO)と、ステップ〔43〕で100〜500m
秒遅延されて、ステップ〔44〕で発声信号の有無が判
別される。ここで発声信号が有る(YES)ときはステ
ップ〔42〕に戻される。またステップ〔44〕で発声
信号が無い(NO)ときは、ステップ〔45〕でタイマ
ーの計測時間が読了時間を越えているか否か判断され、
越えていない(NO)ときはこのステップ〔45〕が繰
り返される。
【0033】そしてステップ〔45〕でタイマーの計測
時間が読了時間を越える(YES)と、ステップ〔4
6〕で表示がリセットされて処理が終了される。このよ
うにしても、テキストの表示時間をその表示の読解に要
する時間に応じて制御することができる。
【0034】また図5は、上述のテキストの表示時間の
決定に用いられる読了時間を、視聴者の読解の能力等に
応じて任意に調整できるようにする場合のフローチャー
トの例を示す。この図5において読了時間の調整の処理
がスタートされると、まずステップ〔51〕で元の読了
時間が読み込まれる。次にステップ〔52〕で調整を行
うための長短のパラメータが読み込まれる。そしてステ
ップ〔53〕で長短の調整後の読了時間が算出される。
【0035】さらにステップ〔54〕で算出された読了
時間が任意の最小表示時間より長いか否か判断され、長
いとき(YES)はステップ〔55〕で算出された読了
時間が調整後の読了時間とされて処理が終了される。ま
たステップ〔54〕で算出された読了時間が任意の最小
表示時間より短いとき(NO)はステップ〔56〕で上
述の最小表示時間が調整後の読了時間とされて処理が終
了される。このようにして上述のテキストの表示時間の
決定に用いられる読了時間を、視聴者の読解の能力等に
応じて任意に調整することができる。
【0036】また図6は、上述の読了時間が発声時間よ
り長い場合に、前の話者の表示と次の話者の表示を同時
に行う場合の他の例のフローチャートを示す。この図6
において処理がスタートされると、まずステップ〔6
1〕で既に表示があるか否か判断される。ここで表示が
あるとき(YES)はステップ〔62〕で当該既にある
表示の位置情報が取得され、ステップ〔63〕で当該既
にある表示の色情報が取得される。
【0037】さらにステップ〔64〕で既にある表示の
位置が通常位置であるか否か判断される。そして通常位
置であるとき(YES)はステップ〔65〕で通常色と
異なる表示色をセットし、ステップ〔66〕で第2の表
示位置に表示を行って処理が終了される。
【0038】これに対して、上述のステップ〔61〕で
表示がないとき(NO)と、ステップ〔64〕で通常位
置でないとき(NO)はステップ〔67〕で表示色に通
常色をセットし、ステップ〔68〕で通常の表示位置に
表示を行って処理が終了される。このようにして、前の
話者の表示と次の話者の表示を同時に行う場合に、次の
話者の表示を前の話者の表示と異なる表示すると共に、
その表示色を変えることによって、同時に行われる表示
の区別を付けることができる。
【0039】また図7は、上述の前の話者の表示と次の
話者の表示を同時に行う場合に、表示を圧縮する他の例
のフローチャートを示す。この図7において処理がスタ
ートされると、まずステップ〔71〕で通常の表示位置
と第2の表示位置が共に使用されているか否か判断され
る。そして使用されているとき(YES)はステップ
〔72〕で単位文章データがバッファに取り込まれ、ス
テップ〔73〕で例えばバッファ内のデータから主語の
データを削除してデータが圧縮される。
【0040】さらにステップ〔74〕で通常の表示位置
の表示データが削除され、ステップ〔75〕で通常の表
示位置に圧縮後のデータが表示されて処理が終了され
る。またステップ〔71〕で通常の表示位置と第2の表
示位置のいずれかが使用されていないとき(NO)はス
テップ〔76〕で圧縮されていないデータが、使用され
ていない通常の表示位置または第2の表示位置に表示さ
れて処理が終了される。このようにして上述の前の話者
の表示と次の話者の表示を同時に行う場合に、表示の圧
縮が行われる。
【0041】こうして上述のテレビジョン装置の第1の
実施の形態によれば、テレビジョン装置であって、テレ
ビジョン信号中の画像信号及び音声信号を所定時間遅延
する遅延手段と、遅延前の音声信号を任意の音声認識手
段で認識してテキスト化するテキスト化手段と、このテ
キストを遅延後の画像信号に重畳して表示する表示手段
と、遅延後の音声信号の認識の始端に対応する時点から
テキストの表示を開始すると共に、この表示時間を音声
信号の継続時間及びテキストの読了に要する標準的な読
了時間に応じて制御する制御手段とを設けることによ
り、話者の発声の速さなどによらず、常に良好な字幕の
表示を行うことができるものである。
【0042】また、図8は本発明の第2の実施の形態を
適用したテレビジョン装置の一例の構成を示すブロック
図である。
【0043】図8において、例えば地上波デジタル方式
のテレビジョン信号の受信アンテナ20と衛星波デジタ
ル方式のテレビジョン信号の受信アンテナ21とが設け
られる。そしてこれらのアンテナ20、21からの信号
がフロントエンド回路22に供給されて所望のデジタル
テレビジョン信号が受信される。さらにこのフロントエ
ンド回路22で受信されたデジタルテレビジョン信号が
デマルチプレクサ23に供給されて、デジタル映像信号
とデジタル音声信号とが分離される。
【0044】また、デジタルビデオテープレコーダ等の
外部機器(図示せず)からのデジタル信号が、デジタル
インターフェース(I/F)回路24を通じてデマルチ
プレクサ23に供給される。そしてデマルチプレクサ2
3からのデジタル映像信号が、例えばMPEG(Mov
ing Picture coding Expert
Group)方式の画像デコーダ25に供給されて
デジタル映像信号がデコードされる。またデマルチプレ
クサ23からのデジタル音声信号が任意の音声デコーダ
26に供給されてデジタル音声信号がデコードされる。
【0045】さらに画像デコーダ25でデコードされた
デジタル映像信号が同期情報書き込み回路27に供給さ
れて、例えば音声デコーダ26からの音声の始端を示す
同期情報が映像信号中の任意の箇所に書き込まれる。そ
してこの同期情報の書き込まれた映像信号が遅延回路2
8に供給されて、後述する表示信号の形成に要する時間
分の遅延が行われる。さらに遅延された信号が後述する
表示信号の混合器29を通じてテレビジョンの標準方式
のエンコーダ30に供給され、例えばNTSC方式の輝
度信号(Y)とクロマ信号(C)及び複合映像信号が取
り出される。
【0046】また、上述の音声デコーダ26でデコード
されたデジタル音声信号が、後述する表示信号の形成に
要する時間分の遅延回路31に供給される。そして遅延
されたデジタル音声信号がD/A変換回路32に供給さ
れて、例えばステレオ音声信号の左(L)及び右(R)
のアナログ音声信号が取り出される。あるいは、デジタ
ル音声信号が音声多重信号の場合には、D/A変換回路
32からは主音声と副音声のアナログ音声信号が取り出
される場合もある。
【0047】それと共に、音声デコーダ26でデコード
されたデジタル音声信号がテキスト化回路33に供給さ
れる。ここでこのテキスト化回路33では、例えば供給
されたデジタル音声信号が音声認識手段で認識され、こ
の認識の結果に基づいた文字コード列(テキスト)が形
成される。さらにこのテキストのデータが翻訳回路34
に供給されて認識されたテキストの言語が他の言語に翻
訳される。そしてこの翻訳されたテキストが表示信号発
生回路35に供給される。
【0048】そして発生された文字列の表示信号が、上
述のデジタル映像信号に書き込まれた音声の始端の同期
情報に合わせて表示を開始するための同期フィルタ36
を通じて上述の混合器29に供給される。
【0049】また、上述のテキスト化回路33で、例え
ば音声認識の際に抽出される音声の特徴を示すスペクト
ラムパターンが、スペクトラム解析回路37に供給され
てスペクトラムパターンに変化を生じた時点が検出され
る。さらに上述の画像デコーダ25でデコードされたデ
ジタル映像信号が画像認識回路38に供給され、例えば
画面中の人物の口元の画像が認識され、この口元の画像
が変化しなくなった時点が検出される。そしてこれらの
解析回路37及び認識回路38からの検出信号が発声時
間判定回路39に供給される。
【0050】そしてこの判定結果が、上述の表示信号発
生回路35に供給されて、上述の発声時間判定回路39
からの判定結果と、翻訳回路34で翻訳されたテキスト
のデータに基づいて表示信号の発生時間等の制御が行わ
れる。またこの判定結果は、上述のテキスト化回路33
での処理の区切りにも利用することができる。
【0051】こうして音声認識により形成されたテキス
トが翻訳され、この翻訳されたテキストの表示が行われ
る。そしてこの場合に、上述の第1の実施の形態で図2
〜図7に示したフローチャートの処理は、上述の翻訳さ
れたテキストについて全く同様に実施することができ
る。
【0052】これによって、上述の翻訳されたテキスト
について表示される字幕の表示時間が、話者の発声時間
と共にその読了時間に応じて設定される。また、読了時
間が大幅に長い場合にはテキストの表現を短くする処理
が行われる。さらに表示時時間が長く次の話者の発声に
掛かる場合には表示位置を変えて区別を付ける等の処理
が行われることによって、常に良好な字幕の表示を行う
ことができるものである。
【0053】従ってこの装置において、音声信号中の話
者の発声を認識したテキストから翻訳されたテキストの
表示を行う場合に、テキストの表示時間を、その表示の
読解に要する時間に応じて制御するようにしたものであ
って、これによれば、話者の発声の速さや言語間の表現
の違いなどによらず、常に良好な字幕の表示を行うこと
ができる。
【0054】これによって、従来の装置では、例えば話
者の発声の速さや言語間の表現の違いによってテキスト
の長さが変化した場合に、それに対応した字幕の表示に
対する考慮がなされておらず、良好な字幕の表示を行う
ことができない場合があったものを、本発明によればこ
れらの問題点を容易に解消することができるものであ
る。
【0055】こうして上述のテレビジョン装置の第2の
実施の形態によれば、テレビジョン装置であって、テレ
ビジョン信号中の画像信号及び音声信号を所定時間遅延
する遅延手段と、遅延前の音声信号を任意の音声認識手
段で認識してテキスト化するテキスト化手段と、このテ
キストを任意の言語に翻訳する翻訳手段と、この翻訳さ
れたテキストを遅延後の画像信号に重畳して表示する表
示手段と、遅延後の音声信号の認識の始端に対応する時
点から翻訳されたテキストの表示を開始すると共に、こ
の表示時間を音声信号の継続時間及び翻訳されたテキス
トの読了に要する標準的な読了時間に応じて制御する制
御手段とを設けることにより、話者の発声の速さや言語
間の表現の違いなどによらず、常に良好な任意の言語で
の字幕の表示を行うことができるものである。
【0056】さらに図9は本発明の第3の実施の形態を
適用したテレビジョン装置の一例の構成を示すブロック
図である。
【0057】図9において、例えば地上波デジタル方式
のテレビジョン信号の受信アンテナ40と衛星波デジタ
ル方式のテレビジョン信号の受信アンテナ41とが設け
られる。そしてこれらのアンテナ40、41からの信号
がフロントエンド回路42に供給されて所望のデジタル
テレビジョン信号が受信される。さらにこのフロントエ
ンド回路42で受信されたデジタルテレビジョン信号が
デマルチプレクサ43に供給されて、デジタル映像信号
とデジタル音声信号とが分離される。
【0058】また、デジタルビデオテープレコーダ等の
外部機器(図示せず)からのデジタル信号が、デジタル
インターフェース(I/F)回路44を通じてデマルチ
プレクサ43に供給される。そしてデマルチプレクサ4
3からのデジタル映像信号が、例えばMPEG(Mov
ing Picture coding Expert
Group)方式の画像デコーダ45に供給されて
デジタル映像信号がデコードされる。またデマルチプレ
クサ43からのデジタル音声信号が任意の音声デコーダ
46に供給されてデジタル音声信号がデコードされる。
【0059】さらに画像デコーダ45でデコードされた
デジタル映像信号が同期情報書き込み回路47に供給さ
れて、例えば音声デコーダ46からの音声の始端を示す
同期情報が映像信号中の任意の箇所に書き込まれる。こ
の同期情報の書き込まれた映像信号が遅延回路48に供
給されて、後述する表示信号の形成に要する時間分の遅
延が行われる。そして遅延された信号がテレビジョンの
標準方式のエンコーダ49に供給されて、例えばNTS
C方式の輝度信号(Y)とクロマ信号(C)及び複合映
像信号が取り出される。
【0060】また、上述の音声デコーダ46でデコード
されたデジタル音声信号が、後述する表示信号の形成に
要する時間分の遅延回路50に供給される。そして遅延
されたデジタル音声信号が後述する合成された音声信号
の混合器51を通じてD/A変換回路52に供給され
て、例えばステレオ音声信号の左(L)及び右(R)の
アナログ音声信号が取り出される。あるいは、デジタル
音声信号が音声多重信号の場合には、D/A変換回路5
2からは主音声と副音声のアナログ音声信号が取り出さ
れる場合もある。
【0061】それと共に、音声デコーダ46でデコード
されたデジタル音声信号がテキスト化回路53に供給さ
れる。ここでこのテキスト化回路53では、例えば供給
されたデジタル音声信号が音声認識手段で認識され、こ
の認識の結果に基づいた文字コード列(テキスト)が形
成される。さらにこのテキストのデータが翻訳回路54
に供給されて認識されたテキストの言語が他の言語に翻
訳される。そしてこの翻訳されたテキストが音声合成回
路55に供給される。
【0062】そして合成された音声信号が、上述のデジ
タル映像信号に書き込まれた音声の始端の同期情報に合
わせて発声を開始するための同期フィルタ56を通じて
上述の混合器51に供給される。ここで混合器51で
は、例えば合成された音声信号の期間のみ元の音声信号
のレベルを低減し、これに合成された音声信号を低減さ
れた以上のレベルで加算することによって、音声信号の
吹き替えが行われる。
【0063】また、上述のテキスト化回路53で、例え
ば音声認識の際に抽出される音声の特徴を示すスペクト
ラムパターンが、スペクトラム解析回路57に供給され
てスペクトラムパターンに変化を生じた時点が検出され
る。さらに上述の画像デコーダ45でデコードされたデ
ジタル映像信号が画像認識回路58に供給され、例えば
画面中の人物の口元の画像が認識され、この口元の画像
が変化しなくなった時点が検出される。そしてこれらの
解析回路57及び認識回路58からの検出信号が発声時
間判定回路59に供給される。
【0064】そしてこの判定結果が、上述の音声合成回
路55に供給されて、上述の発声時間判定回路59から
の判定結果と、翻訳回路54で翻訳されたテキストのデ
ータに基づいて音声合成信号の発声時間等の制御が行わ
れる。またこの判定結果は、上述のテキスト化回路53
での処理の区切りにも利用することができる。
【0065】こうして音声認識により形成されたテキス
トが翻訳され、この翻訳されたテキストが音声合成され
て元の音声信号に対する吹き替えが行われる。なお、こ
の場合に、上述の第1の実施の形態で図2〜図7に示し
たフローチャートの処理は、上述の翻訳されたテキスト
について全く同様に実施することができる。
【0066】ところで従来の音声合成では、常に一定の
音色で合成が行われていた。しかしながら音色が一定で
は、複数の話者の区別が付けられないと共に、特に男女
の話者の音色が同じであると違和感を感じる恐れがあ
る。そこでこの装置においては、上述のテキスト化回路
53で例えば音声認識の際に抽出される音声の特徴を示
すスペクトラムパターンが、上述の音声合成回路55に
供給されて合成される音声信号の声色が元の音声信号に
近づくように処理が行われる。
【0067】すなわち図10はそのための処理の一例の
フローチャートを示す。この図10において処理がスタ
ートされると、まずステップ〔81〕で当該話者の単語
データがメモリ1に記憶されると共にカウンタがリセッ
トされる。次にステップ〔82〕で同一の単語の標準話
者のデータがメモリ2に記憶される。さらにステップ
〔83〕でメモリ2のデータが標準のスペクトラムパラ
メータで合成される。そしてステップ〔84〕でこのメ
モリ2のデータの合成信号とメモリ1に記憶された当該
話者の単語データが比較される。
【0068】この比較差異データがステップ〔85〕で
メモリ3に記憶される。さらにステップ〔86〕で上述
の標準のスペクトラムパラメータが所定量変化される。
そしてステップ〔87〕でメモリ2のデータが変化され
た標準のスペクトラムパラメータで合成される。さらに
ステップ〔88〕でこのメモリ2のデータの合成信号と
メモリ1に記憶された当該話者の単語データが比較され
る。
【0069】この比較差異データがステップ〔89〕で
メモリ4に記憶される。またこれらのメモリ3、4に記
憶された比較差異データがステップ
〔90〕で比較され
る。さらにステップ〔91〕でメモリ4のデータがメモ
リ3のデータより近いか否か判断される。そしてメモリ
4のデータがメモリ3のデータより近いとき(YES)
は、ステップ〔92〕で上述の標準のスペクトラムパラ
メータの変化量が順方向にインクリメントされて、ステ
ップ〔87〕に戻される。
【0070】また、ステップ〔91〕でメモリ4のデー
タがメモリ3のデータより遠いとき(NO)は、ステッ
プ〔93〕で上述の標準のスペクトラムパラメータの変
化量が逆方向にインクリメントされる。さらにステップ
〔94〕で上述のインクリメントされる変化量が小さく
される。またステップ〔95〕でカウンタがインクリメ
ントされる。
【0071】そしてステップ〔96〕でカウンタのカウ
ント回数が所定回数に達したか否か判断され、達してい
ないとき(NO)はステップ〔87〕に戻される。また
ステップ〔96〕でカウンタのカウント回数が所定回数
に達していたとき(YES)は、ステップ〔97〕で形
成されたスペクトラムパラメータが使用パラメータにセ
ットされて処理が終了される。このようにして、合成さ
れる音声信号の声色が元の音声信号に近づくように処理
が行われる。
【0072】これによって、上述の翻訳されたテキスト
から合成される音声信号の発声時間が、例えば話者の発
声時間に応じて設定される。また、合成される音声信号
の発声時間が大幅に長い場合にはテキストの表現を短く
する処理が行われる。さらに合成される音声信号の声色
が元の音声信号に近づくように処理が行われることによ
って複数の話者の区別が付けられると共に、特に男女の
話者の音色が変わることで違和感を生じる事がなくなっ
て、常に良好な翻訳された音声信号による吹き替えを行
うことができるものである。
【0073】従ってこの装置において、音声信号中の話
者の発声を認識したテキストから翻訳されたテキストを
音声合成して吹き替えを行う場合に、合成された音声信
号の発声の速さを、対応する認識の行われた音声信号の
発声時間に応じて制御するようにしたものであって、こ
れによれば、話者の発声の速さや言語間の表現の違いな
どによらず、常に良好な任意の言語での吹き替えを行う
ことができる。
【0074】これによって、従来の装置では、例えば話
者の発声の速さや言語間の表現の違いによって翻訳され
たテキストの長さが変化した場合に、それに対応した吹
き替えに対する考慮がなされておらず、良好な吹き替え
を行うことができない場合があったものを、本発明によ
ればこれらの問題点を容易に解消することができるもの
である。
【0075】こうして上述のテレビジョン装置の第3の
実施の形態によれば、テレビジョン装置であって、テレ
ビジョン信号中の画像信号及び音声信号を所定時間遅延
する遅延手段と、遅延前の音声信号を任意の音声認識手
段で認識してテキスト化するテキスト化手段と、このテ
キストを任意の言語に翻訳する翻訳手段と、この翻訳さ
れたテキストを音声信号に変換する音声合成手段と、遅
延後の音声信号の認識の始端に対応する時点から合成さ
れた音声信号の発声を開始すると共に、この合成された
音声信号の発声の速さを音声信号の継続時間及び翻訳さ
れたテキストの長さに応じて制御する制御手段とを設け
ることにより、話者の発声の速さや言語間の表現の違い
などによらず、常に良好な任意の言語での吹き替えを行
うことができるものである。
【0076】なお本発明は、上述の説明した実施の形態
に限定されるものではなく、本発明の精神を逸脱するこ
となく種々の変形が可能とされるものである。
【0077】
【発明の効果】従って請求項1の発明によれば、音声信
号中の話者の発声を認識したテキストの表示を行う場合
に、テキストの表示時間をその表示の読解に要する時間
に応じて制御するようにしたものであって、これによれ
ば、話者の発声の速さなどによらず、常に良好な字幕の
表示や吹き替えを行うことができるものである。
【0078】これによって、従来の装置では、例えば話
者の発声の速さやテキストの長さが変化した場合に、そ
れに対応した字幕の表示に対する考慮がなされておら
ず、良好な字幕の表示を行うことができない場合があっ
たものを、本発明によればこれらの問題点を容易に解消
することができるものである。
【0079】さらに請求項2の発明によれば、テキスト
の表示時間を、音声信号の継続時間及びテキストの読了
に要する標準的な読了時間に応じて制御される標準の表
示時間より長くまたは短く調整する機能を制御手段に設
けたことによって、表示時間を視聴者の読解の能力等に
応じて任意に調整することができるものである。
【0080】さらに請求項3の発明によれば、テキスト
の表示時間の終端が遅延後の次の音声信号の始端に重な
るときに、次の音声信号のテキストの表示形態を前の音
声信号のテキストの表示形態と異ならせることによっ
て、同時に行われる表示の区別を容易に付けることがで
きるものである。
【0081】さらに請求項4の発明によれば、テキスト
の表示時間が対応する音声信号の継続時間より大幅に長
くなるときに、認識されたテキスト中の任意の単語をよ
り短い表現に置き換える機能をテキスト化手段に設けた
ことによって、話者の発声の速さなどによらず、常に良
好な字幕の表示を行うことができるものである。
【0082】さらに請求項5の発明によれば、音声信号
のスペクトラムパターンを解析する音声解析手段を設
け、スペクトラムパターンの変化を解析手段により識別
して任意の話者からの音声信号の継続時間を判定するこ
とによって、例えば発声している人物が代わったことを
判断して特定の話者の発声時間を正確に計測することが
できるものである。
【0083】さらに請求項6の発明によれば、画像信号
中の任意の話者の口元画像を認識する画像認識手段を設
け、口元画像の動き及び停止を認識手段により認識して
任意の話者からの音声信号の継続時間を判定することに
よって、例えば発声している人物が代わったことを判断
して特定の話者の発声時間を正確に計測することができ
るものである。
【0084】また、請求項7の発明によれば、音声信号
中の話者の発声を認識したテキストから翻訳されたテキ
ストの表示を行う場合に、テキストの表示時間を、その
表示の読解に要する時間に応じて制御するようにしたも
のであって、これによれば、話者の発声の速さや言語間
の表現の違いなどによらず、常に良好な字幕の表示を行
うことができるものである。
【0085】これによって、従来の装置では、例えば話
者の発声の速さや言語間の表現の違いによってテキスト
の長さが変化した場合に、それに対応した字幕の表示に
対する考慮がなされておらず、良好な字幕の表示を行う
ことができない場合があったものを、本発明によればこ
れらの問題点を容易に解消することができるものであ
る。
【0086】さらに請求項8の発明によれば、テキスト
の表示時間を、音声信号の継続時間及びテキストの読了
に要する標準的な読了時間に応じて制御される標準の表
示時間より長くまたは短く調整する機能を制御手段に設
けたことによって、表示時間を視聴者の読解の能力等に
応じて任意に調整することができるものである。
【0087】さらに請求項9の発明によれば、翻訳され
たテキストの表示時間の終端が遅延後の次の音声信号の
始端に重なるときに、次の音声信号の翻訳されたテキス
トの表示形態を前の音声信号のテキストの表示形態と異
ならせることによって、同時に行われる表示の区別を容
易に付けることができるものである。
【0088】さらに請求項10の発明によれば、翻訳さ
れたテキストの表示時間が対応する音声信号の継続時間
より大幅に長くなるときに、翻訳されたテキスト中の任
意の単語をより短い表現に置き換える機能をテキスト化
手段に設けたことによって、話者の発声の速さや言語間
の表現の違いなどによらず、常に良好な字幕の表示を行
うことができるものである。
【0089】さらに請求項11の発明によれば、音声信
号のスペクトラムパターンを解析する音声解析手段を設
け、スペクトラムパターンの変化を解析手段により識別
して任意の話者からの音声信号の継続時間を判定するこ
とによって、例えば発声している人物が代わったことを
判断して特定の話者の発声時間を正確に計測することが
できるものである。
【0090】さらに請求項12の発明によれば、画像信
号中の任意の話者の口元画像を認識する画像認識手段を
設け、口元画像の動き及び停止を認識手段により認識し
て任意の話者からの音声信号の継続時間を判定すること
によって、例えば発声している人物が代わったことを判
断して特定の話者の発声時間を正確に計測することがで
きるものである。
【0091】また、請求項13の発明によれば、音声信
号中の話者の発声を認識したテキストから翻訳されたテ
キストを音声合成して吹き替えを行う場合に、合成され
た音声信号の発声の速さを、対応する認識の行われた音
声信号の発声時間に応じて制御するようにしたものであ
って、これによれば、話者の発声の速さや言語間の表現
の違いなどによらず、常に良好な任意の言語での吹き替
えを行うことができるものである。
【0092】これによって、従来の装置では、例えば話
者の発声の速さや言語間の表現の違いによって翻訳され
たテキストの長さが変化した場合に、それに対応した吹
き替えに対する考慮がなされておらず、良好な吹き替え
を行うことができない場合があったものを、本発明によ
ればこれらの問題点を容易に解消することができるもの
である。
【0093】さらに請求項14の発明によれば、音声信
号のスペクトラムパターンを抽出する機能をテキスト化
手段に設け、この抽出されたスペクトラムパターンを用
いて音声合成手段で変換される音声信号の変調を行うこ
とによって、合成される音声信号の声色が元の音声信号
に近づけられ、複数の話者の区別が付けられると共に、
特に男女の話者の音色が変わることで違和感の無い良好
な吹き替えを行うことができるものである。
【0094】さらに請求項15の発明によれば、合成さ
れた音声信号の発声時間が対応する音声信号の継続時間
より大幅に長くなるときに、翻訳されたテキスト中の任
意の単語をより短い表現に置き換える機能をテキスト化
手段に設けたことによって、話者の発声の速さや言語間
の表現の違いなどによらず、常に良好な吹き替えを行う
ことができるものである。
【0095】さらに請求項16の発明によれば、音声信
号のスペクトラムパターンを解析する音声解析手段を設
け、スペクトラムパターンの変化を解析手段により識別
して任意の話者からの音声信号の継続時間を判定するこ
とによって、例えば発声している人物が代わったことを
判断して特定の話者の発声時間を正確に計測することが
できるものである。
【0096】さらに請求項17の発明によれば、画像信
号中の任意の話者の口元画像を認識する画像認識手段を
設け、口元画像の動き及び停止を認識手段により認識し
て任意の話者からの音声信号の継続時間を判定すること
によって、例えば発声している人物が代わったことを判
断して特定の話者の発声時間を正確に計測することがで
きるものである。
【図面の簡単な説明】
【図1】本発明の適用されるテレビジョン装置の第1の
一実施形態の構成図である。
【図2】その動作の説明のためのフローチャート図であ
る。
【図3】その動作の説明のためのフローチャート図であ
る。
【図4】その動作の説明のためのフローチャート図であ
る。
【図5】その動作の説明のためのフローチャート図であ
る。
【図6】その動作の説明のためのフローチャート図であ
る。
【図7】その動作の説明のためのフローチャート図であ
る。
【図8】本発明の適用されるテレビジョン装置の第2の
一実施形態の構成図である。
【図9】本発明の適用されるテレビジョン装置の第3の
一実施形態の構成図である。
【図10】その動作の説明のためのフローチャート図で
ある。
【符号の説明】
1…地上波の受信アンテナ、2…衛星波の受信アンテ
ナ、3…フロントエンド回路、4…デマルチプレクサ、
5…デジタルインターフェース回路、6…画像デコー
ダ、7…音声デコーダ、8…同期情報書き込み回路、
9,12…遅延回路、10…表示信号の混合器、11…
テレビジョンの標準方式のエンコーダ、13…D/A変
換回路、14…テキスト化回路、15…表示信号発生回
路、16…同期フィルタ、17…スペクトラム解析回
路、18…画像認識回路、19…発声時間判定回路
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/22 G10L 3/00 561C 15/24 571Q H04N 5/445 (72)発明者 大江 敏生 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5B091 AA03 BA03 CB12 CB24 CB32 CD01 CD13 5C025 AA29 AA30 BA28 CA06 CA09 CA18 DA01 DA04 5D015 AA01 BB01 DD04 KK04 LL05 LL07 LL09 5D045 AB03

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 テレビジョン信号中の画像信号及び音声
    信号を所定時間遅延する遅延手段と、 前記遅延前の前記音声信号を任意の音声認識手段で認識
    してテキスト化するテキスト化手段と、 このテキストを前記遅延後の前記画像信号に重畳して表
    示する表示手段と、 前記遅延後の前記音声信号の前記認識の始端に対応する
    時点から前記テキストの表示を開始すると共に、この表
    示時間を前記音声信号の継続時間及び前記テキストの読
    了に要する標準的な読了時間に応じて制御する制御手段
    と、 を設けたことを特徴とするテレビジョン装置。
  2. 【請求項2】 請求項1記載のテレビジョン装置におい
    て、 前記テキストの表示時間を、前記音声信号の継続時間及
    び前記テキストの読了に要する標準的な読了時間に応じ
    て制御される標準の表示時間より長くまたは短く調整す
    る機能を前記制御手段に設けたことを特徴とするテレビ
    ジョン装置。
  3. 【請求項3】 請求項1記載のテレビジョン装置におい
    て、 前記テキストの表示時間の終端が前記遅延後の次の音声
    信号の始端に重なるときに、該次の音声信号のテキスト
    の表示形態を前の音声信号のテキストの表示形態と異な
    らせることを特徴とするテレビジョン装置。
  4. 【請求項4】 請求項1記載のテレビジョン装置におい
    て、 前記テキストの表示時間が対応する前記音声信号の継続
    時間より大幅に長くなるときに、前記認識されたテキス
    ト中の任意の単語をより短い表現に置き換える機能を前
    記テキスト化手段に設けたことを特徴とするテレビジョ
    ン装置。
  5. 【請求項5】 請求項1記載のテレビジョン装置におい
    て、 前記音声信号のスペクトラムパターンを解析する音声解
    析手段を設け、 前記スペクトラムパターンの変化を前記解析手段により
    識別して任意の話者からの前記音声信号の継続時間を判
    定することを特徴とするテレビジョン装置。
  6. 【請求項6】 請求項1記載のテレビジョン装置におい
    て、 前記画像信号中の任意の話者の口元画像を認識する画像
    認識手段を設け、 前記口元画像の動き及び停止を前記認識手段により認識
    して前記任意の話者からの前記音声信号の継続時間を判
    定することを特徴とするテレビジョン装置。
  7. 【請求項7】 テレビジョン信号中の画像信号及び音声
    信号を所定時間遅延する遅延手段と、 前記遅延前の前記音声信号を任意の音声認識手段で認識
    してテキスト化するテキスト化手段と、 このテキストを任意の言語に翻訳する翻訳手段と、 この翻訳されたテキストを前記遅延後の前記画像信号に
    重畳して表示する表示手段と、 前記遅延後の前記音声信号の前記認識の始端に対応する
    時点から前記翻訳されたテキストの表示を開始すると共
    に、この表示時間を前記音声信号の継続時間及び前記翻
    訳されたテキストの読了に要する標準的な読了時間に応
    じて制御する制御手段と、 を設けたことを特徴とするテレビジョン装置。
  8. 【請求項8】 請求項7記載のテレビジョン装置におい
    て、 前記テキストの表示時間を、前記音声信号の継続時間及
    び前記翻訳されたテキストの読了に要する標準的な読了
    時間に応じて制御される標準の表示時間より長くまたは
    短く調整する機能を前記制御手段に設けたことを特徴と
    するテレビジョン装置。
  9. 【請求項9】 請求項7記載のテレビジョン装置におい
    て、 前記翻訳されたテキストの表示時間の終端が前記遅延後
    の次の音声信号の始端に重なるときに、該次の音声信号
    の翻訳されたテキストの表示形態を前の音声信号のテキ
    ストの表示形態と異ならせることを特徴とするテレビジ
    ョン装置。
  10. 【請求項10】 請求項7記載のテレビジョン装置にお
    いて、 前記翻訳されたテキストの表示時間が対応する前記音声
    信号の継続時間より大幅に長くなるときに、前記翻訳さ
    れたテキスト中の任意の単語をより短い表現に置き換え
    る機能を前記テキスト化手段に設けたことを特徴とする
    テレビジョン装置。
  11. 【請求項11】 請求項7記載のテレビジョン装置にお
    いて、 前記音声信号のスペクトラムパターンを解析する音声解
    析手段を設け、 前記スペクトラムパターンの変化を前記解析手段により
    識別して任意の話者からの前記音声信号の継続時間を判
    定することを特徴とするテレビジョン装置。
  12. 【請求項12】 請求項7記載のテレビジョン装置にお
    いて、 前記画像信号中の任意の話者の口元画像を認識する画像
    認識手段を設け、 前記口元画像の動き及び停止を前記認識手段により認識
    して前記任意の話者からの前記音声信号の継続時間を判
    定することを特徴とするテレビジョン装置。
  13. 【請求項13】 テレビジョン信号中の画像信号及び音
    声信号を所定時間遅延する遅延手段と、 前記遅延前の前記音声信号を任意の音声認識手段で認識
    してテキスト化するテキスト化手段と、 このテキストを任意の言語に翻訳する翻訳手段と、 この翻訳されたテキストを音声信号に変換する音声合成
    手段と、 前記遅延後の前記音声信号の前記認識の始端に対応する
    時点から前記合成された音声信号の発声を開始すると共
    に、この合成された音声信号の発声の速さを前記音声信
    号の継続時間及び前記翻訳されたテキストの長さに応じ
    て制御する制御手段と、 を設けたことを特徴とするテレビジョン装置。
  14. 【請求項14】 請求項13記載のテレビジョン装置に
    おいて、 前記音声信号のスペクトラムパターンを抽出する機能を
    前記テキスト化手段に設け、 この抽出された前記スペクトラムパターンを用いて前記
    音声合成手段で変換される音声信号の変調を行うことを
    特徴とするテレビジョン装置。
  15. 【請求項15】 請求項13記載のテレビジョン装置に
    おいて、 前記合成された音声信号の発声時間が対応する前記音声
    信号の継続時間より大幅に長くなるときに、前記翻訳さ
    れたテキスト中の任意の単語をより短い表現に置き換え
    る機能を前記テキスト化手段に設けたことを特徴とする
    テレビジョン装置。
  16. 【請求項16】 請求項13記載のテレビジョン装置に
    おいて、 前記音声信号のスペクトラムパターンを解析する音声解
    析手段を設け、 前記スペクトラムパターンの変化を前記解析手段により
    識別して任意の話者からの前記音声信号の継続時間を判
    定することを特徴とするテレビジョン装置。
  17. 【請求項17】 請求項13記載のテレビジョン装置に
    おいて、 前記画像信号中の任意の話者の口元画像を認識する画像
    認識手段を設け、 前記口元画像の動き及び停止を前記認識手段により認識
    して前記任意の話者からの前記音声信号の継続時間を判
    定することを特徴とするテレビジョン装置。
JP11131648A 1999-05-12 1999-05-12 テレビジョン装置 Pending JP2000322077A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11131648A JP2000322077A (ja) 1999-05-12 1999-05-12 テレビジョン装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11131648A JP2000322077A (ja) 1999-05-12 1999-05-12 テレビジョン装置

Publications (1)

Publication Number Publication Date
JP2000322077A true JP2000322077A (ja) 2000-11-24

Family

ID=15062981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11131648A Pending JP2000322077A (ja) 1999-05-12 1999-05-12 テレビジョン装置

Country Status (1)

Country Link
JP (1) JP2000322077A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123282A (ja) * 2000-10-17 2002-04-26 Brother Ind Ltd 翻訳装置および記録媒体
JP2004302196A (ja) * 2003-03-31 2004-10-28 Nec Corp 音声認識装置、音声認識方法及び音声認識プログラム
CN1333363C (zh) * 2004-01-14 2007-08-22 索尼株式会社 音频信号处理设备和音频信号处理方法
JP2008306659A (ja) * 2007-06-11 2008-12-18 Mitsubishi Electric Corp デジタル放送受信装置
US8035744B2 (en) 2009-09-28 2011-10-11 Kabushiki Kaisha Toshiba Television receiver and method of receiving television broadcasting
JP2012146302A (ja) * 2011-01-11 2012-08-02 Hon Hai Precision Industry Co Ltd 音声をテキストに変換する装置及び方法
JP2012181358A (ja) * 2011-03-01 2012-09-20 Nec Corp テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
WO2013176365A1 (en) * 2012-05-21 2013-11-28 Lg Electronics Inc. Method and electronic device for easily searching for voice record
KR101405935B1 (ko) * 2007-09-03 2014-06-27 엘지전자 주식회사 프로젝터
JP5619978B1 (ja) * 2013-09-20 2014-11-05 ヤフー株式会社 配信装置、配信方法、および配信プログラム
WO2014207874A1 (ja) * 2013-06-27 2014-12-31 株式会社東芝 電子機器、出力方法およびプログラム
US9600475B2 (en) 2014-09-18 2017-03-21 Kabushiki Kaisha Toshiba Speech translation apparatus and method
WO2018047275A1 (ja) * 2016-09-08 2018-03-15 楽天株式会社 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
CN113490058A (zh) * 2021-08-20 2021-10-08 云知声(上海)智能科技有限公司 一种应用于影视后期的智能字幕匹配系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123282A (ja) * 2000-10-17 2002-04-26 Brother Ind Ltd 翻訳装置および記録媒体
JP2004302196A (ja) * 2003-03-31 2004-10-28 Nec Corp 音声認識装置、音声認識方法及び音声認識プログラム
CN1333363C (zh) * 2004-01-14 2007-08-22 索尼株式会社 音频信号处理设备和音频信号处理方法
JP2008306659A (ja) * 2007-06-11 2008-12-18 Mitsubishi Electric Corp デジタル放送受信装置
KR101405935B1 (ko) * 2007-09-03 2014-06-27 엘지전자 주식회사 프로젝터
US8035744B2 (en) 2009-09-28 2011-10-11 Kabushiki Kaisha Toshiba Television receiver and method of receiving television broadcasting
JP2012146302A (ja) * 2011-01-11 2012-08-02 Hon Hai Precision Industry Co Ltd 音声をテキストに変換する装置及び方法
JP2012181358A (ja) * 2011-03-01 2012-09-20 Nec Corp テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
KR20130129749A (ko) * 2012-05-21 2013-11-29 엘지전자 주식회사 녹음된 음성의 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
WO2013176365A1 (en) * 2012-05-21 2013-11-28 Lg Electronics Inc. Method and electronic device for easily searching for voice record
US9224397B2 (en) 2012-05-21 2015-12-29 Lg Electronics Inc. Method and electronic device for easily searching for voice record
KR101897774B1 (ko) * 2012-05-21 2018-09-12 엘지전자 주식회사 녹음된 음성의 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
WO2014207874A1 (ja) * 2013-06-27 2014-12-31 株式会社東芝 電子機器、出力方法およびプログラム
JP5619978B1 (ja) * 2013-09-20 2014-11-05 ヤフー株式会社 配信装置、配信方法、および配信プログラム
US9600475B2 (en) 2014-09-18 2017-03-21 Kabushiki Kaisha Toshiba Speech translation apparatus and method
WO2018047275A1 (ja) * 2016-09-08 2018-03-15 楽天株式会社 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
JP6359229B1 (ja) * 2016-09-08 2018-07-18 楽天株式会社 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
CN113490058A (zh) * 2021-08-20 2021-10-08 云知声(上海)智能科技有限公司 一种应用于影视后期的智能字幕匹配系统

Similar Documents

Publication Publication Date Title
AU726866B2 (en) An apparatus for a synchronized playback of audio-video signals
US5677739A (en) System and method for providing described television services
JP4616274B2 (ja) 字幕付き静止画コンテンツ作成装置、字幕付き静止画コンテンツ作成プログラム及び字幕付き静止画コンテンツ作成システム
US8078034B2 (en) Method and apparatus for navigating through subtitles of an audio video data stream
JP2000322077A (ja) テレビジョン装置
KR100711328B1 (ko) 데이터 처리 장치 및 방법
EP1079610A2 (en) Moving-picture processing method, and apparatus therefor
WO2001016935A1 (fr) Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage
US20060106597A1 (en) System and method for low bit-rate compression of combined speech and music
JP2010081457A (ja) 情報記録再生装置およびビデオカメラ
WO2010125757A1 (ja) 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法
JP2005124169A (ja) 吹き出し字幕付き映像コンテンツ作成装置、送信装置、再生装置、提供システムならびにそれらで用いられるデータ構造および記録媒体
JP2008160232A (ja) 映像音声再生装置
US6285982B1 (en) Sound decompressing apparatus providing improved sound quality during special reproducing such as forward search reproducing and reverse search reproducing
JP2003244636A (ja) クローズドキャプション処理装置及び方法
JP2002010222A (ja) 文字多重放送受信装置
JP2002344871A (ja) 字幕放送記録装置および記録方法
KR100402832B1 (ko) 캡션 데이터, 비디오 데이터와 오디오 데이터를 기록,재생하는 방법
KR100324741B1 (ko) 디지털방송수신기의영상획득/재생방법
JP2000358202A (ja) 映像音声記録再生装置および同装置の副音声データ生成記録方法
JP2000092005A (ja) デジタル放送システムの番組送出システムと番組受信装置
JP4662228B2 (ja) マルチメディア記録装置および発言録作成装置
JPH08317306A (ja) テレビジョン信号再生装置
JP2007027880A (ja) デジタル放送蓄積・再生方法
JP4835044B2 (ja) 映像データ再生システム、音声出力装置、映像音声出力装置および同期調整方法