JP2000358202A

JP2000358202A - 映像音声記録再生装置および同装置の副音声データ生成記録方法

Info

Publication number: JP2000358202A
Application number: JP11169745A
Authority: JP
Inventors: Junichi Tanaka; 淳一田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-06-16
Filing date: 1999-06-16
Publication date: 2000-12-26

Abstract

(57)【要約】【課題】副音声なしの番組を他言語の音声で再生するこ
とを可能とする映像音声記録再生装置を提供する。【解決手段】まず、同期情報取得部２１が、再生部１２
が出力する音声データと映像データとの同期情報を取得
する。次に、音声認識部２２が、再生部１２より出力さ
れる音声データを音声認識し、機械翻訳部２５が、この
音声認識結果を他言語に機械翻訳する。また、音声合成
部２６が、機械翻訳結果を音声合成し、副音声生成部２
７が、この合成された音声を主音声と同じフォーマット
のデータに変換する。そして、副音声記録部２８が、同
期情報取得部２１により取得された同期情報に基づき、
この変換後のデータ（副音声データ）を記録メディア４
に記録する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、たとえばＤＶＤ
−ＲＡＭやＨＤＤなどの大容量の記録媒体を用いてテレ
ビ番組などを録画し再生する映像音声記録再生装置およ
び同装置の副音声データ生成記録方法に係り、特に、副
音声なしの番組を他言語の音声で再生することを可能と
する映像音声記録再生装置および同装置の副音声データ
生成記録方法に関する。

【０００２】

【従来の技術】近年の情報処理技術の向上に伴ない、映
像の解析や加工、あるいは音声の認識や合成などを行な
う機器が種々開発されてきている。たとえば、特開平１
０−１４９１９３号に記載された情報処理装置では、音
声データに対応するテキストデータを音声認識により作
成し、その作成したテキストデータを既存の翻訳アプリ
ケーションソフトウェアを用いて他言語のテキストデー
タに変換した後、その変換したテキストデータを映像デ
ータと合成させることにより、提供される音声データの
言語と異なる所望の言語の字幕を付すことを可能として
いる。

【０００３】しかしながら、このような手法では、たと
えば提供される音声データの言語と異なる言語の音声で
番組を視聴したいユーザや目の不自由なユーザには恩恵
がもたらされないといった問題があった。

【０００４】

【発明が解決しようとする課題】このように、従来より
音声データに対応するテキストデータを音声認識により
作成し、その作成したテキストデータを既存の翻訳アプ
リケーションソフトウェアを用いて他言語のテキストデ
ータに変換した後、その変換したテキストデータを映像
データと合成させることにより、提供される音声データ
の言語と異なる所望の言語の字幕を付すことを可能とし
ている機器も存在するが、このような手法では、たとえ
ば提供される音声データの言語と異なる言語の音声で番
組を視聴したいユーザや目の不自由なユーザには恩恵が
もたらされないといった問題があった。

【０００５】この発明はこのような実情を考慮してなさ
れたものであり、副音声なしの番組を他言語の音声で再
生することを可能とする映像音声記録再生装置および同
装置の副音声データ生成記録方法を提供することを目的
とする。

【０００６】

【課題を解決するための手段】前述した目的を達成する
ために、この発明の映像音声記録再生装置は、映像に付
随する音声を音声認識して所望の他言語に翻訳した後、
この翻訳結果を音声合成して副音声を生成し、映像およ
び主音声とともに記録媒体に記録するようにしたもので
あり、このために、映像データと主音声データとを受信
する受信手段と、前記受信手段により受信された映像デ
ータと主音声データとを同期させるための同期情報を取
得する同期情報取得手段と、前記受信手段により受信さ
れた音声データに対応するテキストデータを生成する音
声認識手段と、前記音声認識手段により生成されたテキ
ストデータを予め指定された他言語に翻訳して第２のテ
キストデータを生成する機械翻訳手段と、前記機械翻訳
手段により生成された第２のテキストデータに対応する
音声データを生成する音声合成手段と、前記音声合成手
段により生成された音声データを前記受信手段により受
信された主音声データと同一のフォーマットに変換して
副音声データを生成する副音声生成手段と、前記副音声
生成手段により生成された副音声データを前記同期情報
取得手段により取得された同期情報とともに前記受信手
段により受信された映像データと主音声データとが記録
された記録媒体に記録する副音声記録手段とを具備する
ものである。

【０００７】この発明においては、副音声なしの番組を
主音声の言語と異なる所望の他言語の音声で再生するこ
とができるため、たとえば提供される音声データの言語
と異なる言語の音声で番組を視聴したいユーザや目の不
自由なユーザにも恩恵をもたらすことが可能となる。

【０００８】また、この発明は、画像用の主映像に付随
する字幕用の副映像を文字認識して所望の他言語に翻訳
した後、この翻訳結果を音声合成して副音声を生成し、
主副映像および主音声とともに記録媒体に記録するよう
にしたものであり、このために、画像用の主映像データ
および字幕用の副映像データと主音声データとを受信す
る受信手段と、前記受信手段により受信された主映像デ
ータおよび副映像データと主音声データとを同期させる
ための同期情報を取得する同期情報取得手段と、前記受
信手段により受信された副映像データに対応するテキス
トデータを生成する文字認識手段と、前記文字認識手段
により生成されたテキストデータを予め指定された他言
語に翻訳して第２のテキストデータを生成する機械翻訳
手段と、前記機械翻訳手段により生成された第２のテキ
ストデータに対応する音声データを生成する音声合成手
段と、前記音声合成手段により生成された音声データを
前記受信手段により受信された主音声データと同一のフ
ォーマットに変換して副音声データを生成する副音声生
成手段と、前記副音声生成手段により生成された副音声
データを前記同期情報取得手段により取得された同期情
報とともに前記受信手段により受信された主映像データ
および副映像データと主音声データとが記録された記録
媒体に記録する副音声記録手段とを具備するものであ
る。

【０００９】この発明においても、同様に、副音声なし
の番組を主音声の言語と異なる所望の他言語の音声で再
生することができるため、たとえば提供される音声デー
タの言語と異なる言語の音声で番組を視聴したいユーザ
や目の不自由なユーザにも恩恵をもたらすことが可能と
なる。

【００１０】また、この発明は、画像用の主映像に付随
する音声を音声認識した結果と主映像に付随する字幕用
の副映像を文字認識した結果とを照合しながら所望の他
言語に翻訳した後、この翻訳結果を音声合成して副音声
を生成し、主副映像および主音声とともに記録媒体に記
録するようにしたものであり、このために、映像データ
と主音声データとを受信する受信手段と、前記受信手段
により受信された映像データと主音声データとを同期さ
せるための同期情報を取得する同期情報取得手段と、前
記受信手段により受信された音声データに対応する第１
のテキストデータを生成する音声認識手段と、前記受信
手段により受信された副映像データに対応する第２のテ
キストデータを生成する文字認識手段と、前記音声認識
手段により生成された第１テキストデータと文字認識手
段により生成された第２のテキストデータとを照合しな
がら予め指定された他言語に翻訳して第３のテキストデ
ータを生成する機械翻訳手段と、前記機械翻訳手段によ
り生成された第３のテキストデータに対応する音声デー
タを生成する音声合成手段と、前記音声合成手段により
生成された音声データを前記受信手段により受信された
主音声データと同一のフォーマットに変換して副音声デ
ータを生成する副音声生成手段と、前記副音声生成手段
により生成された副音声データを前記同期情報取得手段
により取得された同期情報とともに前記受信手段により
受信された主映像データおよび副映像データと主音声デ
ータとが記録された記録媒体に記録する副音声記録手段
とを具備するものである。

【００１１】この発明においては、主音声および副映像
の２つの情報をもとに副音声を生成するため、生成され
る副音声の精度をより向上させることが可能となる。

【００１２】また、この発明は、映像から話者の特徴を
抽出し、この抽出結果に基づいて音声合成を行なうこと
が好ましい。

【００１３】この発明においては、たとえば登場人物ご
とに声質を変えることにより、聴覚のみで番組の内容を
理解することを支援することが可能となる。

【００１４】

【発明の実施の形態】以下、図面を参照してこの発明の
一実施形態を説明する。

【００１５】図１は、この発明の実施形態に係るＤＶＤ
−ＲＡＭプレーヤの主要な構成を示すブロック図であ
る。図１中、１は、映像音声記録再生装置の一つである
ＤＶＤ−ＲＡＭプレーヤ、２は、装置本体である制御装
置、３は、表示装置、４は記録メディア、９は、放送局
である。

【００１６】ＤＶＤ−ＲＡＭプレーヤ１は、映像データ
および音声データの大容量の記録と記録された映像デー
タおよび音声データの再生が可能である。このＤＶＤ−
ＲＡＭプレーヤ１は、民生用ＤＶＤ−ＲＡＭプレーヤの
形態を採ることもあり、パーソナルコンピュータ上で動
作するアプリケーションプログラムのような形態を採る
こともある。

【００１７】情報受信部１１は、放送局９から電波に乗
って提供される主映像や主音声などを受信する。再生部
１２は、情報受信部１１で受信した情報を表示装置３上
に出力する。また、記録メディア４に格納されている情
報を読み取り、表示装置３上に出力する。受信映像・音
声記録部１３は、情報受信部１１が受信した映像や音声
などの情報を、アナログの場合は符号化して記録メディ
ア４に記録するものである。

【００１８】制御装置２は、同期情報取得部２１、音声
認識部２２、副映像認識部２３、話者認識部２４、機械
翻訳部２５、音声合成部２６、副音声生成部２７、副音
声記録部２８、同期情報バッファ２ａ、音声認識結果バ
ッファ２ｂ、副映像認識結果バッファ２ｃ、話者認識結
果バッファ２ｄ、機械翻訳結果バッファ２ｅ、音声合成
結果バッファ２ｆおよび副音声バッファ２ｇで構成され
るものであり、この制御装置２については後述する。

【００１９】表示装置３は、再生部１２が出力する映像
データを出力するとともに、音声データも出力できるも
のとする。ＴＶ装置がその一例である。

【００２０】記録メディア４は、大容量のデータを記録
可能な記録媒体であり、ここではＤＶＤ−ＲＡＭディス
クを取り上げる。

【００２１】ここで、制御装置２の構成について詳述す
る。

【００２２】同期情報取得部２１は、再生部１２が出力
する音声データと映像データとの同期情報を取得し、こ
の同期情報を同期情報バッファ２ａに格納する。

【００２３】音声認識部２２は、再生部１２が出力した
データのうち、音声データに着目し、この音声データを
音声認識し、その結果と音声がいずれの国の言葉かを音
声認識結果バッファ２ｂに格納する。

【００２４】副映像認識部２３は、副映像、すなわちサ
ブピクチャとして字幕あるいはそれに類するものが用意
されている場合に、その情報がテキスト形式であればそ
のまま副映像認識結果バッファ２ｃに格納する。その情
報がテキストデータでなく画ならば、ＯＣＲなどの文字
認識を行ない、文字としての情報を得た後、その結果を
副映像認識結果バッファ２ｃに格納する。

【００２５】話者認識部２４は、再生部１２が出力した
データのうち、映像データに着目し、この映像データを
画像認識により人物の性別や年齢などを判別したり、話
者の声の周波数帯や音素など、話者の区別が可能となる
ようなパラメータを入手し、その入手したパラメータを
話者認識結果バッファ２ｄに格納する。また、放送局９
が以上のようなパラメータを用意している場合には、そ
れらの情報を話者認識結果バッファ２ｄに格納する。

【００２６】機械翻訳部２５は、音声認識結果バッファ
２ｂあるいは副映像認識結果バッファ２ｃに格納されて
いるデータを他言語に機械翻訳し、その機械翻訳結果を
機械翻訳結果バッファ２ｅに格納する。このとき、機械
翻訳のエンジンによっては、複数の言語に翻訳すること
が可能であり、それらすべての翻訳結果も機械翻訳結果
バッファ２ｅに格納することが可能である。

【００２７】音声合成部２６は、機械翻訳結果バッファ
２ｅに格納されているテキストデータについて話者認識
結果バッファ２ｄに格納されているパラメータを用いて
音声合成を行なう。このとき音声合成した音声データ
は、音声合成結果バッファ２ｆに格納する。

【００２８】副音声生成部２７は、音声合成結果バッフ
ァ２ｆに格納されているデータを主音声と同じフォーマ
ットのデータに変換し、副音声バッファ２ｇに格納す
る。このとき同期情報バッファ２ａに格納されている主
音声の開始時間および終了時間から音声の長さを調べ、
音声合資結果バッファ２ｆに格納されている合成された
音声の長さと比較し、ちょうどよい長さとなるよう合成
音声のスピードを調整した上で副音声バッファ２ｇに格
納する。

【００２９】副音声記録部２８は、副音声バッファ２ｇ
に格納されている副音声データを記録メディア４、すな
わちＤＶＤ−ＲＡＭに同期情報２ａと関連付け、さらに
アナログの場合は符号化して記録する。

【００３０】以上のような構成により、ユーザは、ＤＶ
Ｄ−ＲＡＭに記録されているデータを再生する際、主音
声ではなく副音声で聞くことも可能となり、副音声が複
数種類ある場合には、副音声を切り替えることも可能と
なる。操作の手段としては、ＤＶＤ−ＲＡＭプレーヤ１
本体のパネルやリモコン、パーソナルコンピュータ上で
はキーボード、マウスなどさまざまな方法が考えられ
る。

【００３１】次に、図２に示すフローチャートを参照し
て、これら各処理部それぞれの動きを説明する。

【００３２】アナログ放送のテレビ番組を録画する際、
情報受信部１１が放送局９からの情報をアンテナを通じ
て入手し（ステップＡ１）、受信映像・音声記録部１３
が記録メディア４に通常は主映像のほかに主音声のみを
符号化して記録する（ステップＡ２）。主音声が日本語
で、副音声としてたとえば英語も記録したいと考えたと
き（ステップＡ３のＹｅｓ）、まず、同期情報取得部２
１が主音声と副音声との切り替えが可能となるように主
音声および主映像との同期情報を同期情報バッファ２ａ
に格納する（ステップＡ４）。

【００３３】次に、主音声の内容を入手するため音声認
識部２２が主音声を音声認識して音声認識した結果と主
音声がいずれの国の言葉か（この実施形態では日本語と
する）を音声認識結果バッファ２ｂに格納する（ステッ
プＡ５）。主音声はもちろん個人個人それぞれ違うが、
作成する副音声にも話者の区別をさせたいと考えたとき
（ステップＡ６のＹＥＳ）、話者認識部２４によって主
映像を画像認識し、話者の性別や年齢などの音声を合成
するときに必要となるパラメータを話者認識結果バッフ
ァ２ｄに格納する（ステップＡ７）。

【００３４】次に、機械翻訳部２５が音声認識結果バッ
ファ２ｂに格納されている音声認識結果のテキストデー
タに対し、翻訳（ここでは日英翻訳とする）を行ない、
翻訳した結果を機械翻訳結果バッファ２ｅに格納する
（ステップＡ８）。この後、音声合成部２６が機械翻訳
結果バッファ２ｅに格納されているテキストデータをも
とに音声を合成するわけであるが、もしステップＡ６で
話者の区別をさせない場合はデフォルトの合成音で、区
別をさせる場合には話者認識結果バッファ２ｄに格納さ
れているパラメータから導き出される合成音で音声を合
成し、音声合成した結果を音声合成結果バッファ２ｆに
格納する（ステップＡ９）。音声合成結果バッファ２ｆ
に格納されている合成された音声は、音声合成エンジン
ごとに異なるため、副音声生成部２７が合成音のフォー
マットを主音声と同じフォーマットに変換し、さらに主
音声と同じように話し始め、かつ話し終わるようにスピ
ードを調整した結果を副音声バッファ２ｇに格納する
（ステップＡ１０）。

【００３５】そして、副音声記録部２８が同期情報バッ
ファ２ａに格納されている映像と音声の同期情報と副音
声バッファ２ｇに格納されている副音声のデータをリン
クさせ、符号化して記録メディア４に記録していく（ス
テップＡ１１）。

【００３６】以上の処理の流れを具体的な例をあげて説
明する。

【００３７】まず、主音声で「これはペンです」と発声
されたとする。すると、同期情報取得部２１が、この主
音声が発せられた時間を同期情報バッファ２ａ（たとえ
ば１時間１６分３１秒１０フレーム目から１時間１６分
３３秒２４フレーム目）と格納する。次に、その主音声
を音声認識部２２が「これはペンです」と認識し、かつ
この言葉は日本語であると認識し、音声認識結果バッフ
ァ２ｂに「これはペンです：日本語」という情報を格納
する。このとき、話者の区別をつける際には話者認識部
２４が、主映像を画像認識し、話者認識結果バッファ２
ｄに（性別：女性、年齢：３０才前後）という情報を格
納する。

【００３８】次に、機械翻訳部２５が、音声認識結果バ
ッファ２ｂに格納されている「これはペンです」という
日本語を英語に翻訳し、その翻訳結果の「Ｔｈｉｓｉ
ｓａｐｅｎ」という情報を機械翻訳結果バッファ２ｅ
に格納する。そして、音声合成部２６が、話者認識結果
バッファ２ｄにある３０才前後の女性の声で「でぃすい
ずあぺん」と音声合成を行ない、音声合成結果バッファ
２ｆに格納する。そして、副音声生成部２７が音声合成
結果バッファ２ｆに格納されている情報を主音声のデー
タフォーマットに変換し、さらに同期情報バッファ２ａ
に格納されている１時間１６分３１秒１０フレーム目か
ら１時間１６分３３秒２４フレーム目に収まるスピード
で音声合成結果が発せられるように同期を取ったものを
副音声バッファ２ｇに格納する。

【００３９】最後に、副音声記録部２８が、副音声バッ
ファ２ｇに格納されている「でぃすいずあぺん」とその
合成した音声が主音声と同じ時間に発せられるように同
期情報バッファ２ａに格納されている（１時間１６分３
１秒１０フレーム目から１時間１６分３３秒２４フレー
ム目）とをリンクさせ、符号化して記録メディア４に記
録する。

【００４０】なお、以上の説明では、主映像および主音
声の記録と平行して逐次記録していく例を示したが、こ
の発明の映像音声記録再生装置は、副音声を記録させず
に主映像および主音声のみで録画した番組に対しても、
再生部１１が表示装置３に出力せずに内部的に再生の処
理を行ない、前述の図２のステップＡ４〜ステップＡ１
１の処理を行なうことにより一括生成させることも可能
である。

【００４１】また、図２のステップＡ５で、主音声の内
容について音声認識部２２を使用しているが、副映像が
ある場合には、副映像認識部２３を利用して、副映像を
文字認識することにより主音声の内容をテキストデータ
で、さらに言語の種類についても入手することもでき
る。この場合、その文字認識結果を副映像認識結果バッ
ファ２ｃに格納し、ステップ８で機械翻訳部２５は音声
認識結果バッファ２ｂに格納されている情報ではなく、
副映像認識結果バッファ２ｃに格納されているテキスト
データに対し機械翻訳すればよい。

【００４２】また、主音声の内容をテキストデータ形式
で入手するには、音声認識部２２と副映像認識部２３と
をそれぞれ単独で使用する以外に、２つを組み合わせて
精度の高いテキストデータを入手することも可能であ
る。

【００４３】また、図２のステップＡ７では、話者認識
部２４は主映像を画像認識することによって、話者の性
別や年齢などの音声を合成するときに必要となるパラメ
ータを入手しているが、放送局がそれらのパラメータを
提供していれば画像認識をする必要はなくなる。

【００４４】さらに、たとえば図２のステップＡ１０で
は、データのフォーマット変換を行なってからスピード
の調整を行なっているが、この順序は逆でもよい。ま
た、機械翻訳のエンジンは日英翻訳だけでなく、逆の英
日翻訳エンジンを用意することも可能であり、日仏翻訳
エンジン、日独翻訳エンジンなど、さまざまな言語に対
して翻訳することも可能である。もちろん、複数の副音
声を記録し、ユーザがその都度選択し、音声を切り替え
ることは可能である。

【００４５】また、同期情報について、この実施形態で
は、時間情報を同期に利用しているが、これに限定され
るものではなく、主映像の物理アドレスを利用するな
ど、種々の同期情報を利用することが可能である。要す
るに、この発明は、その要旨を逸脱しない範囲で種々変
更して用いることが可能である。

【００４６】

【発明の効果】以上詳述したように、この発明によれ
ば、映像に付随する音声を音声認識して所望の他言語に
翻訳した後、この翻訳結果を音声合成して副音声を生成
し、映像および主音声とともに記録媒体に記録すること
から、副音声なしの番組を主音声の言語と異なる所望の
他言語の音声で再生することができるため、たとえば提
供される音声データの言語と異なる言語の音声で番組を
視聴したいユーザや目の不自由なユーザにも恩恵をもた
らすことが可能となる。

【００４７】また、画像用の主映像に付随する字幕用の
副映像を文字認識して所望の他言語に翻訳した後、この
翻訳結果を音声合成して副音声を生成し、主副映像およ
び主音声とともに記録媒体に記録することから、同様
に、副音声なしの番組を主音声の言語と異なる所望の他
言語の音声で再生することができるため、たとえば提供
される音声データの言語と異なる言語の音声で番組を視
聴したいユーザや目の不自由なユーザにも恩恵をもたら
すことが可能となる。

【００４８】また、画像用の主映像に付随する音声を音
声認識した結果と主映像に付随する字幕用の副映像を文
字認識した結果とを照合しながら所望の他言語に翻訳し
た後、この翻訳結果を音声合成して副音声を生成し、主
副映像および主音声とともに記録媒体に記録することか
ら、主音声および副映像の２つの情報をもとに副音声を
生成するため、生成される副音声の精度をより向上させ
ることが可能となる。

【図面の簡単な説明】

【図１】この発明の実施形態に係るＤＶＤ−ＲＡＭプレ
ーヤの主要な構成を示すブロック図。

【図２】同実施形態のＤＶＤ−ＲＡＭプレーヤの処理の
流れを示すフローチャート。

【符号の説明】

１…ＤＶＤ−ＲＡＭプレーヤ２…制御装置３…表示装置４…記録メディア（ＤＶＤ−ＲＡＭ）９…放送局１１…情報受信部１２…再生部１３…受信映像・音声記録部２１…同期情報取得部２２…音声認識部２３…副映像認識部２４…話者認識部２５…機械翻訳部２６…音声合成部２７…副音声生成部２８…副音声記録部２ａ…同期情報バッファ２ｂ…音声認識結果バッファ２ｃ…副映像認識結果バッファ２ｄ…話者認識結果バッファ２ｅ…機械翻訳結果バッファ２ｆ…音声合成結果バッファ２ｇ…副音声バッファ

Claims

【特許請求の範囲】

【請求項１】映像データと主音声データとを受信する
受信手段と、前記受信手段により受信された映像データと主音声デー
タとを同期させるための同期情報を取得する同期情報取
得手段と、前記受信手段により受信された音声データに対応するテ
キストデータを生成する音声認識手段と、前記音声認識手段により生成されたテキストデータを予
め指定された他言語に翻訳して第２のテキストデータを
生成する機械翻訳手段と、前記機械翻訳手段により生成された第２のテキストデー
タに対応する音声データを生成する音声合成手段と、前記音声合成手段により生成された音声データを前記受
信手段により受信された主音声データと同一のフォーマ
ットに変換して副音声データを生成する副音声生成手段
と、前記副音声生成手段により生成された副音声データを前
記同期情報取得手段により取得された同期情報とともに
前記受信手段により受信された映像データと主音声デー
タとが記録された記録媒体に記録する副音声記録手段
と、を具備することを特徴とする映像音声記録再生装置。
【請求項２】前記受信手段により受信された映像デー
タから話者の特徴を抽出して話者パラメータを生成する
話者認識手段をさらに具備し、前記音声合成手段は、前記話者認識手段により生成され
た話者パラメータに基づいて前記第２のテキストデータ
に対応する音声データを生成する手段を有することを特
徴とする請求項１記載の動画像音声記録再生装置。
【請求項３】画像用の主映像データおよび字幕用の副
映像データと主音声データとを受信する受信手段と、前記受信手段により受信された主映像データおよび副映
像データと主音声データとを同期させるための同期情報
を取得する同期情報取得手段と、前記受信手段により受信された副映像データに対応する
テキストデータを生成する文字認識手段と、前記文字認識手段により生成されたテキストデータを予
め指定された他言語に翻訳して第２のテキストデータを
生成する機械翻訳手段と、前記機械翻訳手段により生成された第２のテキストデー
タに対応する音声データを生成する音声合成手段と、前記音声合成手段により生成された音声データを前記受
信手段により受信された主音声データと同一のフォーマ
ットに変換して副音声データを生成する副音声生成手段
と、前記副音声生成手段により生成された副音声データを前
記同期情報取得手段により取得された同期情報とともに
前記受信手段により受信された主映像データおよび副映
像データと主音声データとが記録された記録媒体に記録
する副音声記録手段と、を具備することを特徴とする映像音声記録再生装置。
【請求項４】前記受信手段により受信された主映像デ
ータから話者の特徴を抽出して話者パラメータを生成す
る話者認識手段をさらに具備し、前記音声合成手段は、前記話者認識手段により生成され
た話者パラメータに基づいて前記第２のテキストデータ
に対応する音声データを生成する手段を有することを特
徴とする請求項３記載の動画像音声記録再生装置。
【請求項５】前記受信手段は、話者の特徴を示す話者
パラメータを受信する手段を有し、前記音声合成手段は、前記受信手段により受信された話
者パラメータに基づいて前記第２のテキストデータに対
応する音声データを生成する手段を有することを特徴と
する請求項１または３記載の動画像音声記録再生装置。
【請求項６】映像データと主音声データとを受信する
受信手段と、前記受信手段により受信された映像データと主音声デー
タとを同期させるための同期情報を取得する同期情報取
得手段と、前記受信手段により受信された音声データに対応する第
１のテキストデータを生成する音声認識手段と、前記受信手段により受信された副映像データに対応する
第２のテキストデータを生成する文字認識手段と、前記音声認識手段により生成された第１テキストデータ
と文字認識手段により生成された第２のテキストデータ
とを照合しながら予め指定された他言語に翻訳して第３
のテキストデータを生成する機械翻訳手段と、前記機械翻訳手段により生成された第３のテキストデー
タに対応する音声データを生成する音声合成手段と、前記音声合成手段により生成された音声データを前記受
信手段により受信された主音声データと同一のフォーマ
ットに変換して副音声データを生成する副音声生成手段
と、前記副音声生成手段により生成された副音声データを前
記同期情報取得手段により取得された同期情報とともに
前記受信手段により受信された主映像データおよび副映
像データと主音声データとが記録された記録媒体に記録
する副音声記録手段と、を具備することを特徴とする映像音声記録再生装置。
【請求項７】前記受信手段により受信された主映像デ
ータから話者の特徴を抽出して話者パラメータを生成す
る話者認識手段をさらに具備し、前記音声合成手段は、前記話者認識手段により生成され
た話者パラメータに基づいて前記第３のテキストデータ
に対応する音声データを生成する手段を有することを特
徴とする請求項６記載の動画像音声記録再生装置。
【請求項８】前記受信手段は、話者の特徴を示す話者
パラメータを受信する手段を有し、前記音声合成手段は、前記受信手段により受信された話
者パラメータに基づいて前記第３のテキストデータに対
応する音声データを生成する手段を有することを特徴と
する請求項６記載の動画像音声記録再生装置。
【請求項９】前記副音声生成手段は、前記同期情報取
得手段により取得された同期情報に基づき、前記受信手
段により受信された主音声データの発声開始点および発
声終了点と一致させるべく前記音声合成手段により生成
された音声データの発声速度を調整する手段を有するこ
とを特徴とする請求項１、２、３、４、５、６、７また
は８記載の動画像音声記録再生装置。
【請求項１０】前記記録媒体に記録された情報から前
記副音声データを生成し記録すべく動作する手段を有す
ることを特徴とする請求項１、２、３、４、５、６、
７、８または９記載の動画像音声記録再生装置。
【請求項１１】映像データと主音声データとを受信す
るステップと、前記受信した映像データと主音声データとを同期させる
ための同期情報を取得するステップと、前記受信した音声データに対応するテキストデータを生
成するステップと、前記生成したテキストデータを予め指定された他言語に
翻訳して第２のテキストデータを生成するステップと、前記生成した第２のテキストデータに対応する音声デー
タを生成するステップと、前記生成した音声データを前記受信した主音声データと
同一のフォーマットに変換して副音声データを生成する
ステップと、前記生成した副音声データを前記取得した同期情報とと
もに前記受信した映像データと主音声データとが記録さ
れた記録媒体に記録するステップと、を具備することを特徴とする副音声データ生成記録方
法。
【請求項１２】前記受信手段により受信された映像デ
ータから話者の特徴を抽出して話者パラメータを生成す
るステップをさらに具備し、前記音声データを生成するステップは、前記生成した話
者パラメータに基づいて前記第２のテキストデータに対
応する音声データを生成することを特徴とする請求項１
１記載の副音声データ生成記録方法。
【請求項１３】画像用の主映像データおよび字幕用の
副映像データと主音声データとを受信するステップと、前記受信した主映像データおよび副映像データと主音声
データとを同期させるための同期情報を取得するステッ
プと、前記受信した副映像データに対応するテキストデータを
生成するステップと、前記生成したテキストデータを予め指定された他言語に
翻訳して第２のテキストデータを生成するステップと、前記生成した第２のテキストデータに対応する音声デー
タを生成するステップと、前記生成した音声データを前記受信した主音声データと
同一のフォーマットに変換して副音声データを生成する
ステップと、前記生成した副音声データを前記取得した同期情報とと
もに前記受信した主映像データおよび副映像データと主
音声データとが記録された記録媒体に記録するステップ
と、を具備することを特徴とする副音声データ生成記録方
法。
【請求項１４】前記受信した主映像データから話者の
特徴を抽出して話者パラメータを生成するステップをさ
らに具備し、前記音声データを生成するステップは、前記生成した話
者パラメータに基づいて前記第２のテキストデータに対
応する音声データを生成することを特徴とする請求項１
３記載の動画像音声記録再生装置。
【請求項１５】前記映像データと主音声データとを受
信するステップは、話者の特徴を示す話者パラメータを
さらに受信し、前記音声データを生成するステップは、前記受信した話
者パラメータに基づいて前記第２のテキストデータに対
応する音声データを生成することを特徴とする請求項１
１または１４記載の副音声データ生成記録方法。
【請求項１６】映像データと主音声データとを受信す
るステップと、前記受信した映像データと主音声データとを同期させる
ための同期情報を取得するステップと、前記受信した音声データに対応する第１のテキストデー
タを生成するステップと、前記受信した副映像データに対応する第２のテキストデ
ータを生成するステップと、前記生成した第１のテキストデータと第２のテキストデ
ータとを照合しながら予め指定された他言語に翻訳して
第３のテキストデータを生成するステップと、前記生成した第３のテキストデータに対応する音声デー
タを生成するステップと、前記生成した音声データを前記受信した主音声データと
同一のフォーマットに変換して副音声データを生成する
ステップと、前記生成した副音声データを前記取得した同期情報とと
もに前記受信した主映像データおよび副映像データと主
音声データとが記録された記録媒体に記録するステップ
と、を具備することを特徴とする副音声データ生成記録方
法。
【請求項１７】前記受信した主映像データから話者の
特徴を抽出して話者パラメータを生成するステップをさ
らに具備し、前記音声データを生成するステップは、前記生成した話
者パラメータに基づいて前記第３のテキストデータに対
応する音声データを生成することを特徴とする請求項１
６記載の副音声データ生成記録方法。
【請求項１８】前記映像データと主音声データとを受
信するステップは、話者の特徴を示す話者パラメータを
さらに受信し、前記音声データを生成するステップは、前記受信した話
者パラメータに基づいて前記第３のテキストデータに対
応する音声データを生成することを特徴とする請求項１
６記載の副音声データ生成記録方法。
【請求項１９】前記音声データを生成するステップ
は、前記取得した同期情報に基づき、前記受信した主音
声データの発声開始点および発声終了点と一致させるべ
く前記生成した音声データの発声速度を調整することを
特徴とする請求項１、２、３、４、５、６、７または８
記載の副音声データ生成記録方法。
【請求項２０】前記記録媒体に記録された情報から前
記副音声データを生成し記録すべく動作することを特徴
とする請求項１１、１２、１３、１４、１５、１６、１
７、１８または１９記載の副音声データ生成記録方法。