JP2002007396A

JP2002007396A - 音声多言語化装置および音声を多言語化するプログラムを記録した媒体

Info

Publication number: JP2002007396A
Application number: JP2000186473A
Authority: JP
Inventors: Yuichi Mochizuki; 祐一望月; Seiki Inoue; 誠喜井上; Hideki Sumiyoshi; 英樹住吉; Masaki Sano; 雅規佐野; Takako Ariyasu; 香子有安
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2000-06-21
Filing date: 2000-06-21
Publication date: 2002-01-11

Abstract

(57)【要約】【課題】従来、放送や通信により伝送され、あるいは
ＶＴＲやビデオディスクなどの記録装置に記録されたコ
ンテンツにおいて、当該コンテンツの音声を所望の言語
の音声により視聴者に提示する装置は存在しなかった。【解決手段】音声を表す文字情報を含めて伝送、記録
されたコンテンツをそれぞれ受信、再生する側に配置さ
れ、文字情報を所望の言語に自動翻訳する手段２と、コ
ンテンツの音声の音声解析を行い、音声合成パラメータ
を得る手段３と、上記自動翻訳する手段によって翻訳さ
れた所望の言語ごとに、上記得られた音声合成パラメー
タを使用してそれぞれの言語に対応する音声信号を合成
する音声合成手段５とを少なくとも具えて構成した。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、放送や通信により
伝送され、あるいはＶＴＲやビデオディスクなどの記録
装置に記録されたコンテンツにおいて、当該コンテンツ
の音声を所望の言語の音声により視聴者に提示する音声
多言語化装置および音声を多言語化するプログラムを記
録した媒体に関するものである。

【０００２】

【従来の技術】従来、多言語のコンテンツは存在しなか
った。そのため、視聴者がコンテンツを所望の言語の音
声で視聴することを望んでも、コンテンツに含まれてい
る言語の音声でしか享受することができなかった。

【０００３】

【発明が解決しようとする課題】多言語のコンテンツが
存在しなかった理由は、多言語のコンテンツを制作する
場合、特定の言語から他の言語に翻訳し、その翻訳され
た言語の音声をあらためて作成する必要があるため、番
組制作のコストの制約から限られた言語の音声でしか制
作されなかったためである。

【０００４】また、多言語で制作されたコンテンツにお
いても、伝送路や記録メディアの制約による音声チャン
ネル数の制限のため、その音声チャンネル数以下の言語
数でしか視聴することは許されなかった。

【０００５】例えば、地上のアナログテレビジョン放送
のように音声チャンネルが最大２チャンネルの場合、日
本語のほかには、英語などもうひとつの言語しか対応で
きない。従って、視聴者が所望の言語の音声でコンテン
ツの視聴を望んでも、放送されている言語の音声だけで
しか享受できなかった。

【０００６】本発明の目的は、コンテンツが音声を表す
文字情報を含んでいれば、そのコンテンツが多言語で制
作されたコンテンツでなくても、また、伝送路や記録メ
ディアの音声チャンネル数の制限を受けることなく、視
聴者側において、コンテンツを所望の言語の音声で享受
することを可能にする音声多言語化装置を提供すること
にある。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、本発明音声多言語化装置は、音声を表す文字情報を
含めて伝送、記録されたコンテンツをそれぞれ受信、再
生する側に配置される音声多言語化装置であって、前記
文字情報を所望の言語に自動翻訳する手段と、コンテン
ツの音声の音声解析を行い、音声合成パラメータを得る
手段と、前記自動翻訳する手段によって翻訳された前記
所望の言語ごとに、前記音声合成パラメータを得る手段
によって得られた音声合成パラメータを使用してそれぞ
れの言語に対応する音声信号を合成する音声合成手段と
を少なくとも具えてなることを特徴とするものである。

【０００８】また、本発明音声を多言語化するプログラ
ムを記録した媒体は、音声を表す文字情報を含めて伝
送、記録されたコンテンツをそれぞれ受信、再生する側
で、該受信、再生された音声を、コンピュータによって
多言語化するためのプログラムを記録した媒体であっ
て、該音声多言語化プログラムは、コンピュータに、前
記文字情報を入力し、該入力した文字情報を所望の言語
に自動翻訳させ、コンテンツの音声を入力し、該入力し
たコンテンツの音声の音声解析を行わせ、そして該音声
解析によって得られた音声合成パラメータを使用して、
前記自動翻訳によって翻訳された前記所望の言語ごとに
それぞれの言語に対応する音声信号を合成させることを
特徴とするものである。

【０００９】

【発明の実施の形態】以下に添付図面を参照し、発明の
実施の形態に基づいて本発明を詳細に説明する。図１
は、本発明音声多言語化装置の一実施形態をブロック図
にて示している。図１において、１は字幕データ処理
部、２は自動翻訳部、３は音声解析部、４は言語設定
部、５は合成音声生成部、および６は同期再生部であ
る。なお、本実施形態は、テレビジョン放送のコンテン
ツの字幕文を所望の言語の音声により提示し得るように
した場合である。

【００１０】動作につき説明する。まず、放送されたコ
ンテンツの字幕文の文字情報（コンテンツの字幕デー
タ）が字幕データ処理部１に入力される。この字幕デー
タ処理部１では、上記入力された字幕データの文字の
色、画面上における字幕文の位置、および字幕文で使用
されている音を表す文字以外の、例えば、記号を用い
て、字幕文を話者ごとに可能な限り分離し、話者分離字
幕文データを生成して自動翻訳部２に出力する。また、
字幕データ処理部１から話者分離字幕文データおよび字
幕提示タイミング情報を取得して、これを音声解析部３
に入力する。

【００１１】なお、上記において、字幕データの文字の
色、画面上における字幕文の位置、および字幕文で使用
されている記号に関しては、例えば、以下のようになっ
ている。聴覚障害者用字幕において、ドラマの主人公や
ドキュメンタリー番組のナレーターなどの主たる登場人
物の字幕文には黄色、主たる登場人物以外にはシアンを
使用している。また、字幕文は、同一画面上に複数の登
場人物が存在して複数の人物が話している場合、それぞ
れの人物に近い位置に、その登場人物の喋る字幕が提示
される。さらに、字幕文中で表音文字以外に記号を使用
し、その字幕文の種類別を表示している。例えば、・話者名を表すものとして（）を使用し、Ａさんがセ
リフを言う場合、（Ａさん）こんにちは・ナレーションを表すものとして＜＞を使用し、＜ナレーションの内容＞などである。

【００１２】自動翻訳部２では、話者分離字幕文データ
を、言語設定部４で設定した所望の言語に自動翻訳し、
その結果を翻訳字幕文データとして合成音声生成部５に
入力する。

【００１３】音声解析部３では、放送されたコンテンツ
の音声と、字幕データ処理部１からの話者分離字幕文デ
ータおよび字幕提示タイミング情報をもとに、該当する
セリフの音声を特定し、その音声の提示タイミングを探
索し、その探索した結果を音声提示タイミング情報とし
て同期再生部６に入力する。このとき字幕提示タイミン
グ情報は、元のコンテンツのセリフの音声を探索する際
の初期探索位置として使用し、話者分離字幕文データ
は、該当するセリフを探索する際の音声認識用の辞書と
して使用する。

【００１４】また、音声解析部３では、話者分離字幕文
データに該当するセリフの音声から、その話者の声道フ
ィルタのパラメータやピッチ周波数のパラメータなど、
音声合成に必要な各種パラメータを抽出し、音声合成パ
ラメータとして合成音声生成部５に入力する。なお、所
望の言語の音声を、元のコンテンツの登場人物の音声で
提示しない場合には、この処理（音声合成パラメータを
抽出し、合成音声生成部５に入力する処理）は行わな
い。

【００１５】合成音声生成部５では、自動翻訳部２から
入力された翻訳字幕文データに音声解析部３から入力さ
れた音声合成パラメータを使用して音声合成し、翻訳合
成音声を得て同期再生部６に入力する。合成音声生成部
５における音声合成の仕方については、文献、広瀬「音
声合成の研究の現状と将来」日本音響学会誌４８巻１号
pp.３９−４５等に紹介されているので、これらを参照
されたい。なお、上記のように、所望の言語の音声を、
元のコンテンツの登場人物の音声で提示しない場合に
は、音声解析部３からの音声合成パラメータでなく、あ
らかじめ登録された、あるいは別途外部から入力された
音声合成パラメータを使用する。

【００１６】さらに、放送されたコンテンツの映像も同
期再生部６に入力する。同期再生部６では、字幕提示タ
イミング情報に従って合成された翻訳合成音声を映像と
ともに同期再生し、その出力側に所望の言語による音声
の付加されたコンテンツを得る。

【００１７】以上は、テレビジョン放送の字幕文を所望
の言語の音声により提示し得るようにした実施形態につ
いて本発明を説明したが、本発明はこの実施形態に限ら
れるものでなく、各種に変形して実施しうるものであ
る。例えば、メディアは音声放送（ラジオ）でもよく、
要するに、本発明で対象とするコンテンツは、放送や通
信により伝送され、あるいはＶＴＲやビデオディスクな
どの記録装置に記録されたコンテンツの全てである。

【００１８】なお、本発明においては、最終目標とする
音声信号の合成までの処理過程のすべてをコンピュータ
によって行わせるようにすることもできる。これは、次
の音声を多言語化するプログラムを記録した媒体あるい
は伝送路によるプログラム信号の分配によって実現され
る。

【００１９】ここに、記録媒体に記録あるいは伝送路に
より分配されるプログラムとは、コンピュータに、文字
情報を入力し、その入力した文字情報を所望の言語に自
動翻訳させ、コンテンツの音声を入力し、その入力した
コンテンツの音声の音声解析を行わせ、そして音声解析
によって得られた音声合成パラメータを使用して、自動
翻訳によって翻訳された所望の言語ごとにそれぞれの言
語に対応する音声信号を合成させる内容のものである。

【００２０】

【発明の効果】本発明によれば、放送や通信により伝送
され、あるいはＶＴＲやビデオディスクなどの記録装置
に記録されたコンテンツを所望の言語の音声により視聴
者に提示したいときに、当該コンテンツにデータ多重、
あるいは当該コンテンツとは別に通信型サービスによる
伝送、あるいはフロッピー（登録商標）ディスクなどの
外部記憶メディアなどにより受け渡された当該コンテン
ツの字幕データなどの文字情報を所望の言語に自動翻訳
し、その翻訳された文字情報を使用して音声合成装置を
駆動して、当該言語の音声信号を作成して提示すること
により、番組制作コストの上昇やコンテンツ内の音声チ
ャンネル数を増加することなく、所望の言語の音声によ
りコンテンツを視聴することができる。

【図面の簡単な説明】

【図１】本発明音声多言語化装置の一実施形態をブロ
ック図にて示している。

【符号の説明】

１字幕データ処理部２自動翻訳部３音声解析部４言語設定部５合成音声生成部６同期再生部

───────────────────────────────────────────────────── フロントページの続き (72)発明者住吉英樹東京都世田谷区砧１丁目10番11号日本放送協会放送技術研究所内 (72)発明者佐野雅規東京都世田谷区砧１丁目10番11号日本放送協会放送技術研究所内 (72)発明者有安香子東京都世田谷区砧１丁目10番11号日本放送協会放送技術研究所内Ｆターム(参考） 5B091 AA01 BA03 CB32 CD03 5D045 AA20 AB03 AB26

Claims

【特許請求の範囲】

【請求項１】音声を表す文字情報を含めて伝送、記録
されたコンテンツをそれぞれ受信、再生する側に配置さ
れる音声多言語化装置であって、前記文字情報を所望の言語に自動翻訳する手段と、コンテンツの音声の音声解析を行い、音声合成パラメー
タを得る手段と、前記自動翻訳する手段によって翻訳された前記所望の言
語ごとに、前記音声合成パラメータを得る手段によって
得られた音声合成パラメータを使用してそれぞれの言語
に対応する音声信号を合成する音声合成手段とを少なく
とも具えてなることを特徴とする音声多言語化装置。
【請求項２】音声を表す文字情報を含めて伝送、記録
されたコンテンツをそれぞれ受信、再生する側で、該受
信、再生された音声を、コンピュータによって多言語化
するためのプログラムを記録した媒体であって、該音声
多言語化プログラムは、コンピュータに、前記文字情報を入力し、該入力した文字情報を所望の言
語に自動翻訳させ、コンテンツの音声を入力し、該入力したコンテンツの音
声の音声解析を行わせ、そして該音声解析によって得ら
れた音声合成パラメータを使用して、前記自動翻訳によ
って翻訳された前記所望の言語ごとにそれぞれの言語に
対応する音声信号を合成させることを特徴とする音声を
多言語化するプログラムを記録した媒体。