JP2000358202A - 映像音声記録再生装置および同装置の副音声データ生成記録方法 - Google Patents

映像音声記録再生装置および同装置の副音声データ生成記録方法

Info

Publication number
JP2000358202A
JP2000358202A JP11169745A JP16974599A JP2000358202A JP 2000358202 A JP2000358202 A JP 2000358202A JP 11169745 A JP11169745 A JP 11169745A JP 16974599 A JP16974599 A JP 16974599A JP 2000358202 A JP2000358202 A JP 2000358202A
Authority
JP
Japan
Prior art keywords
data
sub
generating
audio
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11169745A
Other languages
English (en)
Inventor
Junichi Tanaka
淳一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11169745A priority Critical patent/JP2000358202A/ja
Publication of JP2000358202A publication Critical patent/JP2000358202A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Television Receiver Circuits (AREA)

Abstract

(57)【要約】 【課題】副音声なしの番組を他言語の音声で再生するこ
とを可能とする映像音声記録再生装置を提供する。 【解決手段】まず、同期情報取得部21が、再生部12
が出力する音声データと映像データとの同期情報を取得
する。次に、音声認識部22が、再生部12より出力さ
れる音声データを音声認識し、機械翻訳部25が、この
音声認識結果を他言語に機械翻訳する。また、音声合成
部26が、機械翻訳結果を音声合成し、副音声生成部2
7が、この合成された音声を主音声と同じフォーマット
のデータに変換する。そして、副音声記録部28が、同
期情報取得部21により取得された同期情報に基づき、
この変換後のデータ(副音声データ)を記録メディア4
に記録する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、たとえばDVD
−RAMやHDDなどの大容量の記録媒体を用いてテレ
ビ番組などを録画し再生する映像音声記録再生装置およ
び同装置の副音声データ生成記録方法に係り、特に、副
音声なしの番組を他言語の音声で再生することを可能と
する映像音声記録再生装置および同装置の副音声データ
生成記録方法に関する。
【0002】
【従来の技術】近年の情報処理技術の向上に伴ない、映
像の解析や加工、あるいは音声の認識や合成などを行な
う機器が種々開発されてきている。たとえば、特開平1
0−149193号に記載された情報処理装置では、音
声データに対応するテキストデータを音声認識により作
成し、その作成したテキストデータを既存の翻訳アプリ
ケーションソフトウェアを用いて他言語のテキストデー
タに変換した後、その変換したテキストデータを映像デ
ータと合成させることにより、提供される音声データの
言語と異なる所望の言語の字幕を付すことを可能として
いる。
【0003】しかしながら、このような手法では、たと
えば提供される音声データの言語と異なる言語の音声で
番組を視聴したいユーザや目の不自由なユーザには恩恵
がもたらされないといった問題があった。
【0004】
【発明が解決しようとする課題】このように、従来より
音声データに対応するテキストデータを音声認識により
作成し、その作成したテキストデータを既存の翻訳アプ
リケーションソフトウェアを用いて他言語のテキストデ
ータに変換した後、その変換したテキストデータを映像
データと合成させることにより、提供される音声データ
の言語と異なる所望の言語の字幕を付すことを可能とし
ている機器も存在するが、このような手法では、たとえ
ば提供される音声データの言語と異なる言語の音声で番
組を視聴したいユーザや目の不自由なユーザには恩恵が
もたらされないといった問題があった。
【0005】この発明はこのような実情を考慮してなさ
れたものであり、副音声なしの番組を他言語の音声で再
生することを可能とする映像音声記録再生装置および同
装置の副音声データ生成記録方法を提供することを目的
とする。
【0006】
【課題を解決するための手段】前述した目的を達成する
ために、この発明の映像音声記録再生装置は、映像に付
随する音声を音声認識して所望の他言語に翻訳した後、
この翻訳結果を音声合成して副音声を生成し、映像およ
び主音声とともに記録媒体に記録するようにしたもので
あり、このために、映像データと主音声データとを受信
する受信手段と、前記受信手段により受信された映像デ
ータと主音声データとを同期させるための同期情報を取
得する同期情報取得手段と、前記受信手段により受信さ
れた音声データに対応するテキストデータを生成する音
声認識手段と、前記音声認識手段により生成されたテキ
ストデータを予め指定された他言語に翻訳して第2のテ
キストデータを生成する機械翻訳手段と、前記機械翻訳
手段により生成された第2のテキストデータに対応する
音声データを生成する音声合成手段と、前記音声合成手
段により生成された音声データを前記受信手段により受
信された主音声データと同一のフォーマットに変換して
副音声データを生成する副音声生成手段と、前記副音声
生成手段により生成された副音声データを前記同期情報
取得手段により取得された同期情報とともに前記受信手
段により受信された映像データと主音声データとが記録
された記録媒体に記録する副音声記録手段とを具備する
ものである。
【0007】この発明においては、副音声なしの番組を
主音声の言語と異なる所望の他言語の音声で再生するこ
とができるため、たとえば提供される音声データの言語
と異なる言語の音声で番組を視聴したいユーザや目の不
自由なユーザにも恩恵をもたらすことが可能となる。
【0008】また、この発明は、画像用の主映像に付随
する字幕用の副映像を文字認識して所望の他言語に翻訳
した後、この翻訳結果を音声合成して副音声を生成し、
主副映像および主音声とともに記録媒体に記録するよう
にしたものであり、このために、画像用の主映像データ
および字幕用の副映像データと主音声データとを受信す
る受信手段と、前記受信手段により受信された主映像デ
ータおよび副映像データと主音声データとを同期させる
ための同期情報を取得する同期情報取得手段と、前記受
信手段により受信された副映像データに対応するテキス
トデータを生成する文字認識手段と、前記文字認識手段
により生成されたテキストデータを予め指定された他言
語に翻訳して第2のテキストデータを生成する機械翻訳
手段と、前記機械翻訳手段により生成された第2のテキ
ストデータに対応する音声データを生成する音声合成手
段と、前記音声合成手段により生成された音声データを
前記受信手段により受信された主音声データと同一のフ
ォーマットに変換して副音声データを生成する副音声生
成手段と、前記副音声生成手段により生成された副音声
データを前記同期情報取得手段により取得された同期情
報とともに前記受信手段により受信された主映像データ
および副映像データと主音声データとが記録された記録
媒体に記録する副音声記録手段とを具備するものであ
る。
【0009】この発明においても、同様に、副音声なし
の番組を主音声の言語と異なる所望の他言語の音声で再
生することができるため、たとえば提供される音声デー
タの言語と異なる言語の音声で番組を視聴したいユーザ
や目の不自由なユーザにも恩恵をもたらすことが可能と
なる。
【0010】また、この発明は、画像用の主映像に付随
する音声を音声認識した結果と主映像に付随する字幕用
の副映像を文字認識した結果とを照合しながら所望の他
言語に翻訳した後、この翻訳結果を音声合成して副音声
を生成し、主副映像および主音声とともに記録媒体に記
録するようにしたものであり、このために、映像データ
と主音声データとを受信する受信手段と、前記受信手段
により受信された映像データと主音声データとを同期さ
せるための同期情報を取得する同期情報取得手段と、前
記受信手段により受信された音声データに対応する第1
のテキストデータを生成する音声認識手段と、前記受信
手段により受信された副映像データに対応する第2のテ
キストデータを生成する文字認識手段と、前記音声認識
手段により生成された第1テキストデータと文字認識手
段により生成された第2のテキストデータとを照合しな
がら予め指定された他言語に翻訳して第3のテキストデ
ータを生成する機械翻訳手段と、前記機械翻訳手段によ
り生成された第3のテキストデータに対応する音声デー
タを生成する音声合成手段と、前記音声合成手段により
生成された音声データを前記受信手段により受信された
主音声データと同一のフォーマットに変換して副音声デ
ータを生成する副音声生成手段と、前記副音声生成手段
により生成された副音声データを前記同期情報取得手段
により取得された同期情報とともに前記受信手段により
受信された主映像データおよび副映像データと主音声デ
ータとが記録された記録媒体に記録する副音声記録手段
とを具備するものである。
【0011】この発明においては、主音声および副映像
の2つの情報をもとに副音声を生成するため、生成され
る副音声の精度をより向上させることが可能となる。
【0012】また、この発明は、映像から話者の特徴を
抽出し、この抽出結果に基づいて音声合成を行なうこと
が好ましい。
【0013】この発明においては、たとえば登場人物ご
とに声質を変えることにより、聴覚のみで番組の内容を
理解することを支援することが可能となる。
【0014】
【発明の実施の形態】以下、図面を参照してこの発明の
一実施形態を説明する。
【0015】図1は、この発明の実施形態に係るDVD
−RAMプレーヤの主要な構成を示すブロック図であ
る。図1中、1は、映像音声記録再生装置の一つである
DVD−RAMプレーヤ、2は、装置本体である制御装
置、3は、表示装置、4は記録メディア、9は、放送局
である。
【0016】DVD−RAMプレーヤ1は、映像データ
および音声データの大容量の記録と記録された映像デー
タおよび音声データの再生が可能である。このDVD−
RAMプレーヤ1は、民生用DVD−RAMプレーヤの
形態を採ることもあり、パーソナルコンピュータ上で動
作するアプリケーションプログラムのような形態を採る
こともある。
【0017】情報受信部11は、放送局9から電波に乗
って提供される主映像や主音声などを受信する。再生部
12は、情報受信部11で受信した情報を表示装置3上
に出力する。また、記録メディア4に格納されている情
報を読み取り、表示装置3上に出力する。受信映像・音
声記録部13は、情報受信部11が受信した映像や音声
などの情報を、アナログの場合は符号化して記録メディ
ア4に記録するものである。
【0018】制御装置2は、同期情報取得部21、音声
認識部22、副映像認識部23、話者認識部24、機械
翻訳部25、音声合成部26、副音声生成部27、副音
声記録部28、同期情報バッファ2a、音声認識結果バ
ッファ2b、副映像認識結果バッファ2c、話者認識結
果バッファ2d、機械翻訳結果バッファ2e、音声合成
結果バッファ2fおよび副音声バッファ2gで構成され
るものであり、この制御装置2については後述する。
【0019】表示装置3は、再生部12が出力する映像
データを出力するとともに、音声データも出力できるも
のとする。TV装置がその一例である。
【0020】記録メディア4は、大容量のデータを記録
可能な記録媒体であり、ここではDVD−RAMディス
クを取り上げる。
【0021】ここで、制御装置2の構成について詳述す
る。
【0022】同期情報取得部21は、再生部12が出力
する音声データと映像データとの同期情報を取得し、こ
の同期情報を同期情報バッファ2aに格納する。
【0023】音声認識部22は、再生部12が出力した
データのうち、音声データに着目し、この音声データを
音声認識し、その結果と音声がいずれの国の言葉かを音
声認識結果バッファ2bに格納する。
【0024】副映像認識部23は、副映像、すなわちサ
ブピクチャとして字幕あるいはそれに類するものが用意
されている場合に、その情報がテキスト形式であればそ
のまま副映像認識結果バッファ2cに格納する。その情
報がテキストデータでなく画ならば、OCRなどの文字
認識を行ない、文字としての情報を得た後、その結果を
副映像認識結果バッファ2cに格納する。
【0025】話者認識部24は、再生部12が出力した
データのうち、映像データに着目し、この映像データを
画像認識により人物の性別や年齢などを判別したり、話
者の声の周波数帯や音素など、話者の区別が可能となる
ようなパラメータを入手し、その入手したパラメータを
話者認識結果バッファ2dに格納する。また、放送局9
が以上のようなパラメータを用意している場合には、そ
れらの情報を話者認識結果バッファ2dに格納する。
【0026】機械翻訳部25は、音声認識結果バッファ
2bあるいは副映像認識結果バッファ2cに格納されて
いるデータを他言語に機械翻訳し、その機械翻訳結果を
機械翻訳結果バッファ2eに格納する。このとき、機械
翻訳のエンジンによっては、複数の言語に翻訳すること
が可能であり、それらすべての翻訳結果も機械翻訳結果
バッファ2eに格納することが可能である。
【0027】音声合成部26は、機械翻訳結果バッファ
2eに格納されているテキストデータについて話者認識
結果バッファ2dに格納されているパラメータを用いて
音声合成を行なう。このとき音声合成した音声データ
は、音声合成結果バッファ2fに格納する。
【0028】副音声生成部27は、音声合成結果バッフ
ァ2fに格納されているデータを主音声と同じフォーマ
ットのデータに変換し、副音声バッファ2gに格納す
る。このとき同期情報バッファ2aに格納されている主
音声の開始時間および終了時間から音声の長さを調べ、
音声合資結果バッファ2fに格納されている合成された
音声の長さと比較し、ちょうどよい長さとなるよう合成
音声のスピードを調整した上で副音声バッファ2gに格
納する。
【0029】副音声記録部28は、副音声バッファ2g
に格納されている副音声データを記録メディア4、すな
わちDVD−RAMに同期情報2aと関連付け、さらに
アナログの場合は符号化して記録する。
【0030】以上のような構成により、ユーザは、DV
D−RAMに記録されているデータを再生する際、主音
声ではなく副音声で聞くことも可能となり、副音声が複
数種類ある場合には、副音声を切り替えることも可能と
なる。操作の手段としては、DVD−RAMプレーヤ1
本体のパネルやリモコン、パーソナルコンピュータ上で
はキーボード、マウスなどさまざまな方法が考えられ
る。
【0031】次に、図2に示すフローチャートを参照し
て、これら各処理部それぞれの動きを説明する。
【0032】アナログ放送のテレビ番組を録画する際、
情報受信部11が放送局9からの情報をアンテナを通じ
て入手し(ステップA1)、受信映像・音声記録部13
が記録メディア4に通常は主映像のほかに主音声のみを
符号化して記録する(ステップA2)。主音声が日本語
で、副音声としてたとえば英語も記録したいと考えたと
き(ステップA3のYes)、まず、同期情報取得部2
1が主音声と副音声との切り替えが可能となるように主
音声および主映像との同期情報を同期情報バッファ2a
に格納する(ステップA4)。
【0033】次に、主音声の内容を入手するため音声認
識部22が主音声を音声認識して音声認識した結果と主
音声がいずれの国の言葉か(この実施形態では日本語と
する)を音声認識結果バッファ2bに格納する(ステッ
プA5)。主音声はもちろん個人個人それぞれ違うが、
作成する副音声にも話者の区別をさせたいと考えたとき
(ステップA6のYES)、話者認識部24によって主
映像を画像認識し、話者の性別や年齢などの音声を合成
するときに必要となるパラメータを話者認識結果バッフ
ァ2dに格納する(ステップA7)。
【0034】次に、機械翻訳部25が音声認識結果バッ
ファ2bに格納されている音声認識結果のテキストデー
タに対し、翻訳(ここでは日英翻訳とする)を行ない、
翻訳した結果を機械翻訳結果バッファ2eに格納する
(ステップA8)。この後、音声合成部26が機械翻訳
結果バッファ2eに格納されているテキストデータをも
とに音声を合成するわけであるが、もしステップA6で
話者の区別をさせない場合はデフォルトの合成音で、区
別をさせる場合には話者認識結果バッファ2dに格納さ
れているパラメータから導き出される合成音で音声を合
成し、音声合成した結果を音声合成結果バッファ2fに
格納する(ステップA9)。音声合成結果バッファ2f
に格納されている合成された音声は、音声合成エンジン
ごとに異なるため、副音声生成部27が合成音のフォー
マットを主音声と同じフォーマットに変換し、さらに主
音声と同じように話し始め、かつ話し終わるようにスピ
ードを調整した結果を副音声バッファ2gに格納する
(ステップA10)。
【0035】そして、副音声記録部28が同期情報バッ
ファ2aに格納されている映像と音声の同期情報と副音
声バッファ2gに格納されている副音声のデータをリン
クさせ、符号化して記録メディア4に記録していく(ス
テップA11)。
【0036】以上の処理の流れを具体的な例をあげて説
明する。
【0037】まず、主音声で「これはペンです」と発声
されたとする。すると、同期情報取得部21が、この主
音声が発せられた時間を同期情報バッファ2a(たとえ
ば1時間16分31秒10フレーム目から1時間16分
33秒24フレーム目)と格納する。次に、その主音声
を音声認識部22が「これはペンです」と認識し、かつ
この言葉は日本語であると認識し、音声認識結果バッフ
ァ2bに「これはペンです:日本語」という情報を格納
する。このとき、話者の区別をつける際には話者認識部
24が、主映像を画像認識し、話者認識結果バッファ2
dに(性別:女性、年齢:30才前後)という情報を格
納する。
【0038】次に、機械翻訳部25が、音声認識結果バ
ッファ2bに格納されている「これはペンです」という
日本語を英語に翻訳し、その翻訳結果の「This i
sa pen」という情報を機械翻訳結果バッファ2e
に格納する。そして、音声合成部26が、話者認識結果
バッファ2dにある30才前後の女性の声で「でぃすい
ずあぺん」と音声合成を行ない、音声合成結果バッファ
2fに格納する。そして、副音声生成部27が音声合成
結果バッファ2fに格納されている情報を主音声のデー
タフォーマットに変換し、さらに同期情報バッファ2a
に格納されている1時間16分31秒10フレーム目か
ら1時間16分33秒24フレーム目に収まるスピード
で音声合成結果が発せられるように同期を取ったものを
副音声バッファ2gに格納する。
【0039】最後に、副音声記録部28が、副音声バッ
ファ2gに格納されている「でぃすいずあぺん」とその
合成した音声が主音声と同じ時間に発せられるように同
期情報バッファ2aに格納されている(1時間16分3
1秒10フレーム目から1時間16分33秒24フレー
ム目)とをリンクさせ、符号化して記録メディア4に記
録する。
【0040】なお、以上の説明では、主映像および主音
声の記録と平行して逐次記録していく例を示したが、こ
の発明の映像音声記録再生装置は、副音声を記録させず
に主映像および主音声のみで録画した番組に対しても、
再生部11が表示装置3に出力せずに内部的に再生の処
理を行ない、前述の図2のステップA4〜ステップA1
1の処理を行なうことにより一括生成させることも可能
である。
【0041】また、図2のステップA5で、主音声の内
容について音声認識部22を使用しているが、副映像が
ある場合には、副映像認識部23を利用して、副映像を
文字認識することにより主音声の内容をテキストデータ
で、さらに言語の種類についても入手することもでき
る。この場合、その文字認識結果を副映像認識結果バッ
ファ2cに格納し、ステップ8で機械翻訳部25は音声
認識結果バッファ2bに格納されている情報ではなく、
副映像認識結果バッファ2cに格納されているテキスト
データに対し機械翻訳すればよい。
【0042】また、主音声の内容をテキストデータ形式
で入手するには、音声認識部22と副映像認識部23と
をそれぞれ単独で使用する以外に、2つを組み合わせて
精度の高いテキストデータを入手することも可能であ
る。
【0043】また、図2のステップA7では、話者認識
部24は主映像を画像認識することによって、話者の性
別や年齢などの音声を合成するときに必要となるパラメ
ータを入手しているが、放送局がそれらのパラメータを
提供していれば画像認識をする必要はなくなる。
【0044】さらに、たとえば図2のステップA10で
は、データのフォーマット変換を行なってからスピード
の調整を行なっているが、この順序は逆でもよい。ま
た、機械翻訳のエンジンは日英翻訳だけでなく、逆の英
日翻訳エンジンを用意することも可能であり、日仏翻訳
エンジン、日独翻訳エンジンなど、さまざまな言語に対
して翻訳することも可能である。もちろん、複数の副音
声を記録し、ユーザがその都度選択し、音声を切り替え
ることは可能である。
【0045】また、同期情報について、この実施形態で
は、時間情報を同期に利用しているが、これに限定され
るものではなく、主映像の物理アドレスを利用するな
ど、種々の同期情報を利用することが可能である。要す
るに、この発明は、その要旨を逸脱しない範囲で種々変
更して用いることが可能である。
【0046】
【発明の効果】以上詳述したように、この発明によれ
ば、映像に付随する音声を音声認識して所望の他言語に
翻訳した後、この翻訳結果を音声合成して副音声を生成
し、映像および主音声とともに記録媒体に記録すること
から、副音声なしの番組を主音声の言語と異なる所望の
他言語の音声で再生することができるため、たとえば提
供される音声データの言語と異なる言語の音声で番組を
視聴したいユーザや目の不自由なユーザにも恩恵をもた
らすことが可能となる。
【0047】また、画像用の主映像に付随する字幕用の
副映像を文字認識して所望の他言語に翻訳した後、この
翻訳結果を音声合成して副音声を生成し、主副映像およ
び主音声とともに記録媒体に記録することから、同様
に、副音声なしの番組を主音声の言語と異なる所望の他
言語の音声で再生することができるため、たとえば提供
される音声データの言語と異なる言語の音声で番組を視
聴したいユーザや目の不自由なユーザにも恩恵をもたら
すことが可能となる。
【0048】また、画像用の主映像に付随する音声を音
声認識した結果と主映像に付随する字幕用の副映像を文
字認識した結果とを照合しながら所望の他言語に翻訳し
た後、この翻訳結果を音声合成して副音声を生成し、主
副映像および主音声とともに記録媒体に記録することか
ら、主音声および副映像の2つの情報をもとに副音声を
生成するため、生成される副音声の精度をより向上させ
ることが可能となる。
【図面の簡単な説明】
【図1】この発明の実施形態に係るDVD−RAMプレ
ーヤの主要な構成を示すブロック図。
【図2】同実施形態のDVD−RAMプレーヤの処理の
流れを示すフローチャート。
【符号の説明】
1…DVD−RAMプレーヤ 2…制御装置 3…表示装置 4…記録メディア(DVD−RAM) 9…放送局 11…情報受信部 12…再生部 13…受信映像・音声記録部 21…同期情報取得部 22…音声認識部 23…副映像認識部 24…話者認識部 25…機械翻訳部 26…音声合成部 27…副音声生成部 28…副音声記録部 2a…同期情報バッファ 2b…音声認識結果バッファ 2c…副映像認識結果バッファ 2d…話者認識結果バッファ 2e…機械翻訳結果バッファ 2f…音声合成結果バッファ 2g…副音声バッファ

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 映像データと主音声データとを受信する
    受信手段と、 前記受信手段により受信された映像データと主音声デー
    タとを同期させるための同期情報を取得する同期情報取
    得手段と、 前記受信手段により受信された音声データに対応するテ
    キストデータを生成する音声認識手段と、 前記音声認識手段により生成されたテキストデータを予
    め指定された他言語に翻訳して第2のテキストデータを
    生成する機械翻訳手段と、 前記機械翻訳手段により生成された第2のテキストデー
    タに対応する音声データを生成する音声合成手段と、 前記音声合成手段により生成された音声データを前記受
    信手段により受信された主音声データと同一のフォーマ
    ットに変換して副音声データを生成する副音声生成手段
    と、 前記副音声生成手段により生成された副音声データを前
    記同期情報取得手段により取得された同期情報とともに
    前記受信手段により受信された映像データと主音声デー
    タとが記録された記録媒体に記録する副音声記録手段
    と、 を具備することを特徴とする映像音声記録再生装置。
  2. 【請求項2】 前記受信手段により受信された映像デー
    タから話者の特徴を抽出して話者パラメータを生成する
    話者認識手段をさらに具備し、 前記音声合成手段は、前記話者認識手段により生成され
    た話者パラメータに基づいて前記第2のテキストデータ
    に対応する音声データを生成する手段を有することを特
    徴とする請求項1記載の動画像音声記録再生装置。
  3. 【請求項3】 画像用の主映像データおよび字幕用の副
    映像データと主音声データとを受信する受信手段と、 前記受信手段により受信された主映像データおよび副映
    像データと主音声データとを同期させるための同期情報
    を取得する同期情報取得手段と、 前記受信手段により受信された副映像データに対応する
    テキストデータを生成する文字認識手段と、 前記文字認識手段により生成されたテキストデータを予
    め指定された他言語に翻訳して第2のテキストデータを
    生成する機械翻訳手段と、 前記機械翻訳手段により生成された第2のテキストデー
    タに対応する音声データを生成する音声合成手段と、 前記音声合成手段により生成された音声データを前記受
    信手段により受信された主音声データと同一のフォーマ
    ットに変換して副音声データを生成する副音声生成手段
    と、 前記副音声生成手段により生成された副音声データを前
    記同期情報取得手段により取得された同期情報とともに
    前記受信手段により受信された主映像データおよび副映
    像データと主音声データとが記録された記録媒体に記録
    する副音声記録手段と、 を具備することを特徴とする映像音声記録再生装置。
  4. 【請求項4】 前記受信手段により受信された主映像デ
    ータから話者の特徴を抽出して話者パラメータを生成す
    る話者認識手段をさらに具備し、 前記音声合成手段は、前記話者認識手段により生成され
    た話者パラメータに基づいて前記第2のテキストデータ
    に対応する音声データを生成する手段を有することを特
    徴とする請求項3記載の動画像音声記録再生装置。
  5. 【請求項5】 前記受信手段は、話者の特徴を示す話者
    パラメータを受信する手段を有し、 前記音声合成手段は、前記受信手段により受信された話
    者パラメータに基づいて前記第2のテキストデータに対
    応する音声データを生成する手段を有することを特徴と
    する請求項1または3記載の動画像音声記録再生装置。
  6. 【請求項6】 映像データと主音声データとを受信する
    受信手段と、 前記受信手段により受信された映像データと主音声デー
    タとを同期させるための同期情報を取得する同期情報取
    得手段と、 前記受信手段により受信された音声データに対応する第
    1のテキストデータを生成する音声認識手段と、 前記受信手段により受信された副映像データに対応する
    第2のテキストデータを生成する文字認識手段と、 前記音声認識手段により生成された第1テキストデータ
    と文字認識手段により生成された第2のテキストデータ
    とを照合しながら予め指定された他言語に翻訳して第3
    のテキストデータを生成する機械翻訳手段と、 前記機械翻訳手段により生成された第3のテキストデー
    タに対応する音声データを生成する音声合成手段と、 前記音声合成手段により生成された音声データを前記受
    信手段により受信された主音声データと同一のフォーマ
    ットに変換して副音声データを生成する副音声生成手段
    と、 前記副音声生成手段により生成された副音声データを前
    記同期情報取得手段により取得された同期情報とともに
    前記受信手段により受信された主映像データおよび副映
    像データと主音声データとが記録された記録媒体に記録
    する副音声記録手段と、 を具備することを特徴とする映像音声記録再生装置。
  7. 【請求項7】 前記受信手段により受信された主映像デ
    ータから話者の特徴を抽出して話者パラメータを生成す
    る話者認識手段をさらに具備し、 前記音声合成手段は、前記話者認識手段により生成され
    た話者パラメータに基づいて前記第3のテキストデータ
    に対応する音声データを生成する手段を有することを特
    徴とする請求項6記載の動画像音声記録再生装置。
  8. 【請求項8】 前記受信手段は、話者の特徴を示す話者
    パラメータを受信する手段を有し、 前記音声合成手段は、前記受信手段により受信された話
    者パラメータに基づいて前記第3のテキストデータに対
    応する音声データを生成する手段を有することを特徴と
    する請求項6記載の動画像音声記録再生装置。
  9. 【請求項9】 前記副音声生成手段は、前記同期情報取
    得手段により取得された同期情報に基づき、前記受信手
    段により受信された主音声データの発声開始点および発
    声終了点と一致させるべく前記音声合成手段により生成
    された音声データの発声速度を調整する手段を有するこ
    とを特徴とする請求項1、2、3、4、5、6、7また
    は8記載の動画像音声記録再生装置。
  10. 【請求項10】 前記記録媒体に記録された情報から前
    記副音声データを生成し記録すべく動作する手段を有す
    ることを特徴とする請求項1、2、3、4、5、6、
    7、8または9記載の動画像音声記録再生装置。
  11. 【請求項11】 映像データと主音声データとを受信す
    るステップと、 前記受信した映像データと主音声データとを同期させる
    ための同期情報を取得するステップと、 前記受信した音声データに対応するテキストデータを生
    成するステップと、 前記生成したテキストデータを予め指定された他言語に
    翻訳して第2のテキストデータを生成するステップと、 前記生成した第2のテキストデータに対応する音声デー
    タを生成するステップと、 前記生成した音声データを前記受信した主音声データと
    同一のフォーマットに変換して副音声データを生成する
    ステップと、 前記生成した副音声データを前記取得した同期情報とと
    もに前記受信した映像データと主音声データとが記録さ
    れた記録媒体に記録するステップと、 を具備することを特徴とする副音声データ生成記録方
    法。
  12. 【請求項12】 前記受信手段により受信された映像デ
    ータから話者の特徴を抽出して話者パラメータを生成す
    るステップをさらに具備し、 前記音声データを生成するステップは、前記生成した話
    者パラメータに基づいて前記第2のテキストデータに対
    応する音声データを生成することを特徴とする請求項1
    1記載の副音声データ生成記録方法。
  13. 【請求項13】 画像用の主映像データおよび字幕用の
    副映像データと主音声データとを受信するステップと、 前記受信した主映像データおよび副映像データと主音声
    データとを同期させるための同期情報を取得するステッ
    プと、 前記受信した副映像データに対応するテキストデータを
    生成するステップと、 前記生成したテキストデータを予め指定された他言語に
    翻訳して第2のテキストデータを生成するステップと、 前記生成した第2のテキストデータに対応する音声デー
    タを生成するステップと、 前記生成した音声データを前記受信した主音声データと
    同一のフォーマットに変換して副音声データを生成する
    ステップと、 前記生成した副音声データを前記取得した同期情報とと
    もに前記受信した主映像データおよび副映像データと主
    音声データとが記録された記録媒体に記録するステップ
    と、 を具備することを特徴とする副音声データ生成記録方
    法。
  14. 【請求項14】 前記受信した主映像データから話者の
    特徴を抽出して話者パラメータを生成するステップをさ
    らに具備し、 前記音声データを生成するステップは、前記生成した話
    者パラメータに基づいて前記第2のテキストデータに対
    応する音声データを生成することを特徴とする請求項1
    3記載の動画像音声記録再生装置。
  15. 【請求項15】 前記映像データと主音声データとを受
    信するステップは、話者の特徴を示す話者パラメータを
    さらに受信し、 前記音声データを生成するステップは、前記受信した話
    者パラメータに基づいて前記第2のテキストデータに対
    応する音声データを生成することを特徴とする請求項1
    1または14記載の副音声データ生成記録方法。
  16. 【請求項16】 映像データと主音声データとを受信す
    るステップと、 前記受信した映像データと主音声データとを同期させる
    ための同期情報を取得するステップと、 前記受信した音声データに対応する第1のテキストデー
    タを生成するステップと、 前記受信した副映像データに対応する第2のテキストデ
    ータを生成するステップと、 前記生成した第1のテキストデータと第2のテキストデ
    ータとを照合しながら予め指定された他言語に翻訳して
    第3のテキストデータを生成するステップと、 前記生成した第3のテキストデータに対応する音声デー
    タを生成するステップと、 前記生成した音声データを前記受信した主音声データと
    同一のフォーマットに変換して副音声データを生成する
    ステップと、 前記生成した副音声データを前記取得した同期情報とと
    もに前記受信した主映像データおよび副映像データと主
    音声データとが記録された記録媒体に記録するステップ
    と、 を具備することを特徴とする副音声データ生成記録方
    法。
  17. 【請求項17】 前記受信した主映像データから話者の
    特徴を抽出して話者パラメータを生成するステップをさ
    らに具備し、 前記音声データを生成するステップは、前記生成した話
    者パラメータに基づいて前記第3のテキストデータに対
    応する音声データを生成することを特徴とする請求項1
    6記載の副音声データ生成記録方法。
  18. 【請求項18】 前記映像データと主音声データとを受
    信するステップは、話者の特徴を示す話者パラメータを
    さらに受信し、 前記音声データを生成するステップは、前記受信した話
    者パラメータに基づいて前記第3のテキストデータに対
    応する音声データを生成することを特徴とする請求項1
    6記載の副音声データ生成記録方法。
  19. 【請求項19】 前記音声データを生成するステップ
    は、前記取得した同期情報に基づき、前記受信した主音
    声データの発声開始点および発声終了点と一致させるべ
    く前記生成した音声データの発声速度を調整することを
    特徴とする請求項1、2、3、4、5、6、7または8
    記載の副音声データ生成記録方法。
  20. 【請求項20】 前記記録媒体に記録された情報から前
    記副音声データを生成し記録すべく動作することを特徴
    とする請求項11、12、13、14、15、16、1
    7、18または19記載の副音声データ生成記録方法。
JP11169745A 1999-06-16 1999-06-16 映像音声記録再生装置および同装置の副音声データ生成記録方法 Pending JP2000358202A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11169745A JP2000358202A (ja) 1999-06-16 1999-06-16 映像音声記録再生装置および同装置の副音声データ生成記録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11169745A JP2000358202A (ja) 1999-06-16 1999-06-16 映像音声記録再生装置および同装置の副音声データ生成記録方法

Publications (1)

Publication Number Publication Date
JP2000358202A true JP2000358202A (ja) 2000-12-26

Family

ID=15892069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11169745A Pending JP2000358202A (ja) 1999-06-16 1999-06-16 映像音声記録再生装置および同装置の副音声データ生成記録方法

Country Status (1)

Country Link
JP (1) JP2000358202A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004090746A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. System and method for performing automatic dubbing on an audio-visual stream
JP2010033351A (ja) * 2008-07-29 2010-02-12 Kyocera Corp コンテンツ出力装置
CN104252861A (zh) * 2014-09-11 2014-12-31 百度在线网络技术(北京)有限公司 视频语音转换方法、装置和服务器
CN107484016A (zh) * 2017-09-05 2017-12-15 深圳Tcl新技术有限公司 视频的配音切换方法、电视机及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004090746A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. System and method for performing automatic dubbing on an audio-visual stream
JP2010033351A (ja) * 2008-07-29 2010-02-12 Kyocera Corp コンテンツ出力装置
CN104252861A (zh) * 2014-09-11 2014-12-31 百度在线网络技术(北京)有限公司 视频语音转换方法、装置和服务器
WO2016037440A1 (zh) * 2014-09-11 2016-03-17 百度在线网络技术(北京)有限公司 视频语音转换方法、装置和服务器
CN107484016A (zh) * 2017-09-05 2017-12-15 深圳Tcl新技术有限公司 视频的配音切换方法、电视机及计算机可读存储介质

Similar Documents

Publication Publication Date Title
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20060136226A1 (en) System and method for creating artificial TV news programs
JP4113059B2 (ja) 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
JP3599549B2 (ja) 動映像と合成音を同期化するテキスト/音声変換器、および、動映像と合成音を同期化する方法
US20060285654A1 (en) System and method for performing automatic dubbing on an audio-visual stream
JP2008546016A (ja) マルチメディア信号で自動的なダビングを実行する方法及び装置
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
WO2020124754A1 (zh) 多媒体文件的翻译方法、装置及翻译播放设备
KR20180119101A (ko) 방송자막 제작 시스템 및 방법
JP4594908B2 (ja) 解説付加音声生成装置及び解説付加音声生成プログラム
KR100636386B1 (ko) 실시간 비디오 음성 더빙 장치 및 그 방법
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
KR102160117B1 (ko) 장애인을 위한 실시간 방송 컨텐츠 제작 시스템
JP2008160232A (ja) 映像音声再生装置
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2000358202A (ja) 映像音声記録再生装置および同装置の副音声データ生成記録方法
KR100686085B1 (ko) 학습기능을 갖는 영상기기 및 그 제어방법
JP2009152782A (ja) コンテンツ再生装置及びコンテンツ再生方法
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP4500957B2 (ja) 字幕制作システム
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
JP3970080B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
WO2021255831A1 (ja) 送信装置、コミュニケーション方法、及びプログラム
JP2006093918A (ja) デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体
JP2002197488A (ja) リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法