JP2002007396A - 音声多言語化装置および音声を多言語化するプログラムを記録した媒体 - Google Patents

音声多言語化装置および音声を多言語化するプログラムを記録した媒体

Info

Publication number
JP2002007396A
JP2002007396A JP2000186473A JP2000186473A JP2002007396A JP 2002007396 A JP2002007396 A JP 2002007396A JP 2000186473 A JP2000186473 A JP 2000186473A JP 2000186473 A JP2000186473 A JP 2000186473A JP 2002007396 A JP2002007396 A JP 2002007396A
Authority
JP
Japan
Prior art keywords
voice
speech
audio
language
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000186473A
Other languages
English (en)
Inventor
Yuichi Mochizuki
祐一 望月
Seiki Inoue
誠喜 井上
Hideki Sumiyoshi
英樹 住吉
Masaki Sano
雅規 佐野
Takako Ariyasu
香子 有安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2000186473A priority Critical patent/JP2002007396A/ja
Publication of JP2002007396A publication Critical patent/JP2002007396A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 従来、放送や通信により伝送され、あるいは
VTRやビデオディスクなどの記録装置に記録されたコ
ンテンツにおいて、当該コンテンツの音声を所望の言語
の音声により視聴者に提示する装置は存在しなかった。 【解決手段】 音声を表す文字情報を含めて伝送、記録
されたコンテンツをそれぞれ受信、再生する側に配置さ
れ、文字情報を所望の言語に自動翻訳する手段2と、コ
ンテンツの音声の音声解析を行い、音声合成パラメータ
を得る手段3と、上記自動翻訳する手段によって翻訳さ
れた所望の言語ごとに、上記得られた音声合成パラメー
タを使用してそれぞれの言語に対応する音声信号を合成
する音声合成手段5とを少なくとも具えて構成した。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、放送や通信により
伝送され、あるいはVTRやビデオディスクなどの記録
装置に記録されたコンテンツにおいて、当該コンテンツ
の音声を所望の言語の音声により視聴者に提示する音声
多言語化装置および音声を多言語化するプログラムを記
録した媒体に関するものである。
【0002】
【従来の技術】従来、多言語のコンテンツは存在しなか
った。そのため、視聴者がコンテンツを所望の言語の音
声で視聴することを望んでも、コンテンツに含まれてい
る言語の音声でしか享受することができなかった。
【0003】
【発明が解決しようとする課題】多言語のコンテンツが
存在しなかった理由は、多言語のコンテンツを制作する
場合、特定の言語から他の言語に翻訳し、その翻訳され
た言語の音声をあらためて作成する必要があるため、番
組制作のコストの制約から限られた言語の音声でしか制
作されなかったためである。
【0004】また、多言語で制作されたコンテンツにお
いても、伝送路や記録メディアの制約による音声チャン
ネル数の制限のため、その音声チャンネル数以下の言語
数でしか視聴することは許されなかった。
【0005】例えば、地上のアナログテレビジョン放送
のように音声チャンネルが最大2チャンネルの場合、日
本語のほかには、英語などもうひとつの言語しか対応で
きない。従って、視聴者が所望の言語の音声でコンテン
ツの視聴を望んでも、放送されている言語の音声だけで
しか享受できなかった。
【0006】本発明の目的は、コンテンツが音声を表す
文字情報を含んでいれば、そのコンテンツが多言語で制
作されたコンテンツでなくても、また、伝送路や記録メ
ディアの音声チャンネル数の制限を受けることなく、視
聴者側において、コンテンツを所望の言語の音声で享受
することを可能にする音声多言語化装置を提供すること
にある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明音声多言語化装置は、音声を表す文字情報を
含めて伝送、記録されたコンテンツをそれぞれ受信、再
生する側に配置される音声多言語化装置であって、前記
文字情報を所望の言語に自動翻訳する手段と、コンテン
ツの音声の音声解析を行い、音声合成パラメータを得る
手段と、前記自動翻訳する手段によって翻訳された前記
所望の言語ごとに、前記音声合成パラメータを得る手段
によって得られた音声合成パラメータを使用してそれぞ
れの言語に対応する音声信号を合成する音声合成手段と
を少なくとも具えてなることを特徴とするものである。
【0008】また、本発明音声を多言語化するプログラ
ムを記録した媒体は、音声を表す文字情報を含めて伝
送、記録されたコンテンツをそれぞれ受信、再生する側
で、該受信、再生された音声を、コンピュータによって
多言語化するためのプログラムを記録した媒体であっ
て、該音声多言語化プログラムは、コンピュータに、前
記文字情報を入力し、該入力した文字情報を所望の言語
に自動翻訳させ、コンテンツの音声を入力し、該入力し
たコンテンツの音声の音声解析を行わせ、そして該音声
解析によって得られた音声合成パラメータを使用して、
前記自動翻訳によって翻訳された前記所望の言語ごとに
それぞれの言語に対応する音声信号を合成させることを
特徴とするものである。
【0009】
【発明の実施の形態】以下に添付図面を参照し、発明の
実施の形態に基づいて本発明を詳細に説明する。図1
は、本発明音声多言語化装置の一実施形態をブロック図
にて示している。図1において、1は字幕データ処理
部、2は自動翻訳部、3は音声解析部、4は言語設定
部、5は合成音声生成部、および6は同期再生部であ
る。なお、本実施形態は、テレビジョン放送のコンテン
ツの字幕文を所望の言語の音声により提示し得るように
した場合である。
【0010】動作につき説明する。まず、放送されたコ
ンテンツの字幕文の文字情報(コンテンツの字幕デー
タ)が字幕データ処理部1に入力される。この字幕デー
タ処理部1では、上記入力された字幕データの文字の
色、画面上における字幕文の位置、および字幕文で使用
されている音を表す文字以外の、例えば、記号を用い
て、字幕文を話者ごとに可能な限り分離し、話者分離字
幕文データを生成して自動翻訳部2に出力する。また、
字幕データ処理部1から話者分離字幕文データおよび字
幕提示タイミング情報を取得して、これを音声解析部3
に入力する。
【0011】なお、上記において、字幕データの文字の
色、画面上における字幕文の位置、および字幕文で使用
されている記号に関しては、例えば、以下のようになっ
ている。聴覚障害者用字幕において、ドラマの主人公や
ドキュメンタリー番組のナレーターなどの主たる登場人
物の字幕文には黄色、主たる登場人物以外にはシアンを
使用している。また、字幕文は、同一画面上に複数の登
場人物が存在して複数の人物が話している場合、それぞ
れの人物に近い位置に、その登場人物の喋る字幕が提示
される。さらに、字幕文中で表音文字以外に記号を使用
し、その字幕文の種類別を表示している。例えば、 ・話者名を表すものとして( )を使用し、Aさんがセ
リフを言う場合、 (Aさん)こんにちは ・ナレーションを表すものとして< >を使用し、 <ナレーションの内容> などである。
【0012】自動翻訳部2では、話者分離字幕文データ
を、言語設定部4で設定した所望の言語に自動翻訳し、
その結果を翻訳字幕文データとして合成音声生成部5に
入力する。
【0013】音声解析部3では、放送されたコンテンツ
の音声と、字幕データ処理部1からの話者分離字幕文デ
ータおよび字幕提示タイミング情報をもとに、該当する
セリフの音声を特定し、その音声の提示タイミングを探
索し、その探索した結果を音声提示タイミング情報とし
て同期再生部6に入力する。このとき字幕提示タイミン
グ情報は、元のコンテンツのセリフの音声を探索する際
の初期探索位置として使用し、話者分離字幕文データ
は、該当するセリフを探索する際の音声認識用の辞書と
して使用する。
【0014】また、音声解析部3では、話者分離字幕文
データに該当するセリフの音声から、その話者の声道フ
ィルタのパラメータやピッチ周波数のパラメータなど、
音声合成に必要な各種パラメータを抽出し、音声合成パ
ラメータとして合成音声生成部5に入力する。なお、所
望の言語の音声を、元のコンテンツの登場人物の音声で
提示しない場合には、この処理(音声合成パラメータを
抽出し、合成音声生成部5に入力する処理)は行わな
い。
【0015】合成音声生成部5では、自動翻訳部2から
入力された翻訳字幕文データに音声解析部3から入力さ
れた音声合成パラメータを使用して音声合成し、翻訳合
成音声を得て同期再生部6に入力する。合成音声生成部
5における音声合成の仕方については、文献、広瀬「音
声合成の研究の現状と将来」日本音響学会誌48巻1号
pp.39−45等に紹介されているので、これらを参照
されたい。なお、上記のように、所望の言語の音声を、
元のコンテンツの登場人物の音声で提示しない場合に
は、音声解析部3からの音声合成パラメータでなく、あ
らかじめ登録された、あるいは別途外部から入力された
音声合成パラメータを使用する。
【0016】さらに、放送されたコンテンツの映像も同
期再生部6に入力する。同期再生部6では、字幕提示タ
イミング情報に従って合成された翻訳合成音声を映像と
ともに同期再生し、その出力側に所望の言語による音声
の付加されたコンテンツを得る。
【0017】以上は、テレビジョン放送の字幕文を所望
の言語の音声により提示し得るようにした実施形態につ
いて本発明を説明したが、本発明はこの実施形態に限ら
れるものでなく、各種に変形して実施しうるものであ
る。例えば、メディアは音声放送(ラジオ)でもよく、
要するに、本発明で対象とするコンテンツは、放送や通
信により伝送され、あるいはVTRやビデオディスクな
どの記録装置に記録されたコンテンツの全てである。
【0018】なお、本発明においては、最終目標とする
音声信号の合成までの処理過程のすべてをコンピュータ
によって行わせるようにすることもできる。これは、次
の音声を多言語化するプログラムを記録した媒体あるい
は伝送路によるプログラム信号の分配によって実現され
る。
【0019】ここに、記録媒体に記録あるいは伝送路に
より分配されるプログラムとは、コンピュータに、文字
情報を入力し、その入力した文字情報を所望の言語に自
動翻訳させ、コンテンツの音声を入力し、その入力した
コンテンツの音声の音声解析を行わせ、そして音声解析
によって得られた音声合成パラメータを使用して、自動
翻訳によって翻訳された所望の言語ごとにそれぞれの言
語に対応する音声信号を合成させる内容のものである。
【0020】
【発明の効果】本発明によれば、放送や通信により伝送
され、あるいはVTRやビデオディスクなどの記録装置
に記録されたコンテンツを所望の言語の音声により視聴
者に提示したいときに、当該コンテンツにデータ多重、
あるいは当該コンテンツとは別に通信型サービスによる
伝送、あるいはフロッピー(登録商標)ディスクなどの
外部記憶メディアなどにより受け渡された当該コンテン
ツの字幕データなどの文字情報を所望の言語に自動翻訳
し、その翻訳された文字情報を使用して音声合成装置を
駆動して、当該言語の音声信号を作成して提示すること
により、番組制作コストの上昇やコンテンツ内の音声チ
ャンネル数を増加することなく、所望の言語の音声によ
りコンテンツを視聴することができる。
【図面の簡単な説明】
【図1】 本発明音声多言語化装置の一実施形態をブロ
ック図にて示している。
【符号の説明】
1 字幕データ処理部 2 自動翻訳部 3 音声解析部 4 言語設定部 5 合成音声生成部 6 同期再生部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 住吉 英樹 東京都世田谷区砧1丁目10番11号 日本放 送協会 放送技術研究所内 (72)発明者 佐野 雅規 東京都世田谷区砧1丁目10番11号 日本放 送協会 放送技術研究所内 (72)発明者 有安 香子 東京都世田谷区砧1丁目10番11号 日本放 送協会 放送技術研究所内 Fターム(参考) 5B091 AA01 BA03 CB32 CD03 5D045 AA20 AB03 AB26

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声を表す文字情報を含めて伝送、記録
    されたコンテンツをそれぞれ受信、再生する側に配置さ
    れる音声多言語化装置であって、 前記文字情報を所望の言語に自動翻訳する手段と、 コンテンツの音声の音声解析を行い、音声合成パラメー
    タを得る手段と、 前記自動翻訳する手段によって翻訳された前記所望の言
    語ごとに、前記音声合成パラメータを得る手段によって
    得られた音声合成パラメータを使用してそれぞれの言語
    に対応する音声信号を合成する音声合成手段とを少なく
    とも具えてなることを特徴とする音声多言語化装置。
  2. 【請求項2】 音声を表す文字情報を含めて伝送、記録
    されたコンテンツをそれぞれ受信、再生する側で、該受
    信、再生された音声を、コンピュータによって多言語化
    するためのプログラムを記録した媒体であって、該音声
    多言語化プログラムは、コンピュータに、 前記文字情報を入力し、該入力した文字情報を所望の言
    語に自動翻訳させ、 コンテンツの音声を入力し、該入力したコンテンツの音
    声の音声解析を行わせ、そして該音声解析によって得ら
    れた音声合成パラメータを使用して、前記自動翻訳によ
    って翻訳された前記所望の言語ごとにそれぞれの言語に
    対応する音声信号を合成させることを特徴とする音声を
    多言語化するプログラムを記録した媒体。
JP2000186473A 2000-06-21 2000-06-21 音声多言語化装置および音声を多言語化するプログラムを記録した媒体 Pending JP2002007396A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000186473A JP2002007396A (ja) 2000-06-21 2000-06-21 音声多言語化装置および音声を多言語化するプログラムを記録した媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000186473A JP2002007396A (ja) 2000-06-21 2000-06-21 音声多言語化装置および音声を多言語化するプログラムを記録した媒体

Publications (1)

Publication Number Publication Date
JP2002007396A true JP2002007396A (ja) 2002-01-11

Family

ID=18686629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000186473A Pending JP2002007396A (ja) 2000-06-21 2000-06-21 音声多言語化装置および音声を多言語化するプログラムを記録した媒体

Country Status (1)

Country Link
JP (1) JP2002007396A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004090746A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. System and method for performing automatic dubbing on an audio-visual stream
JP2012512424A (ja) * 2008-12-15 2012-05-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成のための方法および装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004090746A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. System and method for performing automatic dubbing on an audio-visual stream
JP2012512424A (ja) * 2008-12-15 2012-05-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成のための方法および装置

Similar Documents

Publication Publication Date Title
US20060285654A1 (en) System and method for performing automatic dubbing on an audio-visual stream
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US9552807B2 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
JP3953886B2 (ja) 字幕抽出装置
TWI233026B (en) Multi-lingual transcription system
CN101189657A (zh) 一种用于对多媒体信号执行自动配音的方法和设备
US20130204605A1 (en) System for translating spoken language into sign language for the deaf
CN105679120B (zh) 基于tts技术制作标准普通话语音微课件的方法
CN101753915A (zh) 数据处理设备、数据处理方法及程序
JP2002374494A (ja) ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。
WO2020124754A1 (zh) 多媒体文件的翻译方法、装置及翻译播放设备
US9666211B2 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
US20110243447A1 (en) Method and apparatus for synthesizing speech
JP2002007396A (ja) 音声多言語化装置および音声を多言語化するプログラムを記録した媒体
JP2002056006A (ja) 映像・音声検索装置
JP2004134909A (ja) コンテンツ解説データ生成装置、その方法及びそのプログラム、並びに、コンテンツ解説データ提示装置、その方法及びそのプログラム
KR20140077730A (ko) 사용자 선호도 기반의 선택적 자막 표시 방법 및 장치
JP2005326811A (ja) 音声合成装置および音声合成方法
JP2009152782A (ja) コンテンツ再生装置及びコンテンツ再生方法
JP2000358202A (ja) 映像音声記録再生装置および同装置の副音声データ生成記録方法
JP4500957B2 (ja) 字幕制作システム
KR102446966B1 (ko) 웹브라우저 번역 시스템 및 이를 제공하는 방법
CN109977239B (zh) 一种信息处理方法和电子设备
JP2005341072A (ja) 翻訳テレビジョン装置
Walczak et al. Artificial voices