JP2008039845A - 解説付加音声生成装置及び解説付加音声生成プログラム - Google Patents

解説付加音声生成装置及び解説付加音声生成プログラム Download PDF

Info

Publication number
JP2008039845A
JP2008039845A JP2006210121A JP2006210121A JP2008039845A JP 2008039845 A JP2008039845 A JP 2008039845A JP 2006210121 A JP2006210121 A JP 2006210121A JP 2006210121 A JP2006210121 A JP 2006210121A JP 2008039845 A JP2008039845 A JP 2008039845A
Authority
JP
Japan
Prior art keywords
voice
video
audio
commentary
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006210121A
Other languages
English (en)
Other versions
JP4594908B2 (ja
Inventor
Toru Tsugi
徹 都木
Nobumasa Seiyama
信正 清山
Hiroyuki Segi
寛之 世木
Reiko Saito
礼子 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2006210121A priority Critical patent/JP4594908B2/ja
Publication of JP2008039845A publication Critical patent/JP2008039845A/ja
Application granted granted Critical
Publication of JP4594908B2 publication Critical patent/JP4594908B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】解説放送番組の音声を短時間で、かつ、低コストで制作できる解説付加音声生成装置を提供する。
【解決手段】解説放送番組生成装置(解説付加音声生成装置)1は、映像の内容に関連する解説原稿(テキストデータ)を音声合成して解説音声を生成する音声合成手段14と、当該映像の音声である映像音声から発声音の音声区間である喋り区間(発声音区間)、及び、無音あるいは背景音のみの音声区間であるポーズ区間を検出する音声分析手段(区間検出手段)13と、ポーズ区間の区間長に基づいて、解説音声を話速変換する話速変換手段15と、映像音声に、話速変換された解説音声を付加する音声接続手段(音声付加手段)16とを備えることを特徴とする。
【選択図】図1

Description

本発明は、映像に当該映像の内容を示す解説音声を付加する解説付加音声生成装置及び解説付加音声生成プログラムに関する。
従来、テレビ放送における解説放送番組の制作においては、通常の手順で番組を完成させた後に、番組の台本や脚本とは別に、視覚障害者のための情景描写や字幕の内容についての解説原稿を専門家が作成する。そして、スタジオにおいて、解説放送番組用のディレクタの指示のもと、映像音声における台詞やナレーションなどの発声音が含まれる音声の区間(喋り区間)に重ならないように、この喋り区間から次の喋り区間までの無音あるいは背景音のみの区間(ポーズ区間)にナレータが絶妙のタイミングで解説原稿を読み上げて解説音声を付加することで、解説放送番組が制作されていた。
この解説放送番組では、テレビ音声の「主音声」及び「副音声」モードを利用して、映像音声を「主音声」チャンネルに、映像音声に解説音声を付加した音声を「副音声」チャンネルに流している。アナログ放送では、主音声、副音声ともにモノラル音声となるが、デジタル放送においては、地上放送と衛星放送の両方において、主音声、副音声ともにステレオ音声が可能となる。
また、古典芸能や外国語の演劇などの舞台鑑賞において、観客に芸能や演劇の背景や、難しい台詞の補足等を無線イヤホンレシーバを利用して行う解説放送がある。この解説放送の作業を支援するための技術が開示されている(特許文献1及び特許文献2参照)。この技術では、解説の音声を予め録音し、解説単位ごとに識別番号を付与して、この識別番号に基づいて再生順序や再生のタイミングを予め設定、あるいは、操作者によって指示することで、舞台の進行に合わせて解説放送を行うものである。
特開2002−26830号公報(段落番号0011〜0042) 特開2002−26840号公報(段落番号0010〜0033)
しかしながら、従来のテレビ放送における解説放送番組の制作では、解説音声の原稿作成者(シナリオライタ)には、ポーズ区間の限られた時間内に挿入する効果的で、かつ、番組の雰囲気を壊さない用語の選択など、知識と熟練度が必要であった。また、解説音声の録音においては、専門のナレータが必要なだけでなく、録音するスタジオも確保する必要があった。更に、解説音声の録音時には、発声開始のタイミングや発声速度を調整しなければならず、リハーサルなどを含めて多くの時間と費用が必要であった。そのため、解説放送番組の普及率は高くなく、平成17年8月の総務省の報道資料によれば、平成16年度の総放送時間に占める解説放送の割合は、NHK(総合)では3.2%、NHK(教育)では7.9%、民放キー5局では0.5%に留まっている。
また、特許文献1に記載の技術は、舞台の上演に関わる作業や劇場の環境に特化したものであり、時間の限られたポーズ区間において喋り区間に重ならないように解説音声を付加しなければならないテレビ放送などの解説放送には適用できない。
本発明は、前記従来技術の問題を解決するために成されたもので、解説放送番組の音声を短時間で、かつ、低コストで制作できる解説付加音声生成装置及び解説付加音声生成プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の解説付加音声生成装置は、映像の音声である映像音声と、当該映像の内容に関連するテキストデータとを外部から入力し、前記映像音声に、前記テキストデータを音声に変換した解説音声を付加した解説付加音声を生成する解説付加音声生成装置であって、音声合成手段と、区間検出手段と、話速変換手段と、音声付加手段とを備える構成とした。
かかる構成によれば、解説付加音声生成装置は、音声合成手段によって、テキストデータから音声合成して解説音声を生成し、区間検出手段によって、映像音声から、当該映像音声の再生時間の時間軸上において、発声音の音声区間である発声音区間、及び、無音あるいは背景音のみの音声区間であるポーズ区間を検出する。そして、解説付加音声生成装置は、話速変換手段によって、ポーズ区間の区間長に基づいて、解説音声を話速変換し、音声付加手段によって、映像音声に、話速変換手段で話速変換された解説音声を付加して解説付加音声を生成する。
これによって、解説付加音声生成装置は、テキストデータから解説音声を生成し、映像音声のポーズ区間に付加して、解説付加音声を生成することができる。
また、請求項2に記載の解説付加音声生成装置は、請求項1に記載の解説付加音声生成装置において、前記話速変換手段が、前記発声音区間に対応する前記映像音声を話速変換するとともに、この話速変換によって当該発声音区間が伸縮した長さと、前記ポーズ区間の区間長とに基づいて前記解説音声を話速変換し、前記音声付加手段が、前記話速変換手段によって話速変換された映像音声に、前記話速変換手段によって話速変換された解説音声を付加する構成とした。
これによって、解説付加音声生成装置は、発声音区間の映像音声と解説音声との両方を話速変換して映像音声に解説音声を付加し、解説付加音声を生成することができる。
また、請求項3に記載の解説付加音声生成装置は、請求項2に記載の解説付加音声生成装置において、前記話速変換手段によって話速変換された前記映像音声の発声音区間における、話速変換による伸縮を示す情報に基づいて、外部から入力された前記映像の前記発声音区間に対応する区間の区間長を伸縮する映像速度変換手段を備える構成とした。
これによって、解説付加音声生成装置は、話速変換による映像音声の伸縮に合わせて当該映像音声に対応する映像を伸縮させることで、解説付加音声とともに当該解説付加音声に同期した映像を生成することができる。
また、請求項4に記載の解説付加音声生成プログラムは、映像の音声である映像音声と、当該映像の内容に関連するテキストデータとを外部から入力し、前記映像音声に、前記テキストデータを音声に変換した解説音声を付加した解説付加音声を生成するためにコンピュータを、音声合成手段、区間検出手段、話速変換手段、音声付加手段として機能させることとした。
かかる構成によれば、解説付加音声生成プログラムは、音声合成手段によって、テキストデータから音声合成によって解説音声を生成し、区間検出手段によって、映像音声から、当該映像音声の再生時間の時間軸上において、発声音の音声区間である発声音区間、及び、無音あるいは背景音のみの音声区間であるポーズ区間を検出する。そして、解説付加音声生成プログラムは、話速変換手段によって、ポーズ区間の区間長に基づいて、解説音声を話速変換し、音声付加手段によって、映像音声に、話速変換手段で話速変換された解説音声を付加して解説付加音声を生成する。
これによって、解説付加音声生成プログラムは、テキストデータから解説音声を生成し、映像音声のポーズ区間に付加して、解説付加音声を生成することができる。
本発明に係る解説付加音声生成装置及び解説付加音声生成プログラムでは、以下のような優れた効果を奏する。請求項1及び請求項4に記載の発明によれば、テキストデータから音声合成により解説音声を生成するため、専門のナレータや録音するスタジオや録音のリハーサル等が不要となり、コスト削減や制作時間の短縮ができる。
また、ポーズ区間の区間長に合わせて解説音声を話速変換して時間尺を調整するため、冗長な文章であってもポーズ区間の区間長に合わせた解説音声にでき、原稿の作成に従来のような熟練度を要しないとともに、音声合成により生成された解説音声を用いて解説付加音声を生成することが可能になる。更に、原稿の作成が容易になりシナリオライタの人材確保が容易になるとともに、解説付加音声の制作のコスト削減や制作時間の短縮が可能になることで、解説放送番組の制作を促し、解説放送の普及拡大に寄与することができる。
請求項2に記載の発明によれば、ポーズ区間の区間長が解説音声に対して短くても、映像音声も話速変換してポーズ区間を長くすることで、解説音声の話速が極端に早くなるのを防ぐことができるとともに、映像音声の話速と解説音声の話速の両方を調整することができるため、2つの話速をほぼそろえることで、全体的に話速のバランスがそろい、聞き取りやすい解説付加音声を生成することができる。
請求項3に記載の発明によれば、解説付加音声に同期した映像を生成することができるため、視覚障害者だけでなく弱視者や晴眼者に対しても利用可能な解説放送番組を生成することができる。
以下、本発明の実施の形態について図面を参照して説明する。
[解説放送番組生成装置の構成]
まず、図1を参照して、本発明における解説放送番組生成装置1の構成について説明する。図1は、本発明における解説放送番組生成装置の構成を模式的に示した模式図である。
解説放送番組生成装置(解説付加音声生成装置)1は、映像と、この映像の音声である映像音声と、この映像の各場面の内容を解説したテキストデータである解説原稿とを入力し、この映像音声において無音あるいは背景音のみの区間であるポーズ区間に、解説原稿を音声合成した解説音声を付加した副音声(解説付加音声)と、当該副音声に対応する映像である副音声同期映像とを生成するものである。ここで、解説放送番組生成装置1は、解説原稿入力手段11と、映像速度変換手段12と、音声分析手段13と、音声合成手段14と、話速変換手段15と、音声接続手段16と、映像・音声出力手段17と、原映像出力手段18と、副音声同期映像出力手段19と、主音声出力手段20と、副音声出力手段21とを備える。
ここで、解説放送番組生成装置1には、外部に番組映像蓄積装置3と、解説放送番組蓄積装置7とが接続されている。番組映像蓄積装置3は、複数のテレビ番組の映像及びこれら映像の映像音声を蓄積するもので、ハードディスク等の一般的な記憶手段によって構成される。この番組映像蓄積装置3には、例えば、通常の方法によって制作されたテレビ番組の映像及び映像音声が記録されたVTR(Video Tape Recorder)や光ディスク等(図示せず)から図示しない入力手段によって映像及び映像音声が入力される。この際、映像と映像音声とが混合されて圧縮符号化されている場合には、映像と映像音声とを分離した後に番組映像蓄積装置3に蓄積する。なお、ここでは番組映像蓄積装置3はテレビ番組の映像と映像音声とを蓄積することとしたが、テレビ番組以外の映像と映像音声とを蓄積することとしてもよい。
また、解説放送番組蓄積装置7は、映像(原映像)と映像音声(主音声)と、副音声と、副音声同期映像とを蓄積するもので、ハードディスク等の一般的な記憶手段によって構成される。そして、解説放送番組生成装置1は、番組映像蓄積装置3から映像と映像音声とを入力し、副音声と副音声同期映像を生成して、番組映像蓄積装置3から読み出した映像(原映像)及び映像音声(主音声)とともに解説放送番組蓄積装置7に蓄積する。この解説放送番組蓄積装置7に記憶された原映像、主音声、副音声及び副音声同期映像は、作業者によって必要な組み合わせが選択され、例えば、VTRや光ディスク等(図示せず)に解説放送番組として記録される。
更に、解説放送番組生成装置1には、外部に出力装置5が接続されている。この出力装置5は、解説放送番組生成装置1から出力された画像あるいは映像を表示し、また、音声を出力するものであって、例えば、液晶表示パネルのようなディスプレイとスピーカとから構成される。以下、解説放送番組生成装置1の構成について詳細に説明する。
解説原稿入力手段11は、番組映像蓄積装置3から入力される映像音声に付加する解説音声の原稿である解説原稿を外部から入力するものである。ここで入力された解説原稿は、音声合成手段14に出力される。なお、ここで入力される解説原稿の文章は、例えば、タイムコードによって、挿入される映像音声の各々のポーズ区間に予め対応付けられていることとする。ここで、例えば、解説放送を制作する作業者が、後記する音声分析手段13によって分析された映像音声の喋り区間(発声音区間)とポーズ区間との検出結果を出力装置5を介して参照しながら、キーボードや自動音声認識装置(図示せず)を介して解説原稿を入力することとしてもよい。なお、ここで、解説音声を喋りなれた作業者によって発声した解説音声を入力し、この音声を、後記する音声合成手段14によって生成される解説音声の代わりに用いることとしてもよい。
映像速度変換手段12は、後記する話速変換手段15から入力される映像音声及び解説音声の伸縮の情報に基づいて、番組映像蓄積装置3から入力された映像を伸縮するものである。ここで、映像速度変換手段12には、話速変換手段15によって映像音声及び解説音声が話速変換された場合の喋り区間及びポーズ区間の区間長の伸縮の情報が入力され、映像速度変換手段12は、この区間長の伸縮に合わせて、この喋り区間およびポーズ区間に対応する区間の映像についてフレーム単位で間引いたり繰り返したりすることで映像を伸縮する。このように映像を伸縮することで、映像速度変換手段12は、音声接続手段16によって生成された副音声に同期した映像(副音声同期映像)を生成することができる。ここで生成された副音声同期映像は、映像・音声出力手段17及び副音声同期映像出力手段19に出力される。なお、映像音声及び解説音声の伸縮の情報とは、例えば、話速変換された喋り区間やポーズ区間を、映像及び映像音声の再生時間に対応させたときの開始時間と終了時間もしくはタイムコードの情報、及び、この区間の区間長の伸縮率を示す情報などである。
音声分析手段(区間検出手段)13は、番組映像蓄積装置3から入力された映像音声を分析し、台詞やナレーションなどの区間である喋り区間と、無音あるいは背景音のみの区間であるポーズ区間とを検出するものである。この音声分析手段13は、例えば、特許第3160228号公報に記載されるような様々な音声分析技術によって実現することができる。ここでは、音声分析手段13は、映像音声を当該映像音声の再生時間に対応させて、検出した各区間の開始時間と終了時間とを記録することとした。ここで音声分析された区間の情報と映像音声は、話速変換手段15及び映像・音声出力手段17に出力される。
音声合成手段14は、解説原稿入力手段11から入力された解説原稿を音声合成して、解説音声を生成するものである。ここで音声合成された解説音声は、話速変換手段15及び映像・音声出力手段17に出力される。
ここで、作業者は、後記する映像・音声出力手段17を介して出力装置5から出力された解説音声を聞くことができる。そして、ここでは、音声合成手段14は、読みやアクセントの修正機能を有し、図示しない入力手段を介して作業者によって入力された指令に基づいて、解説音声に含まれる読みやアクセントの誤りを修正することができる。更に、ここでは、音声合成手段14は、図示しない入力手段を介して作業者によって入力された指令に基づいて、男女含めた複数の話者の声質で音声を合成することができ、また、声の高さの調整や、イントネーションを強調あるいは抑制する機能も有することとした。そして、作業者が映像にふさわしい声質を選択したり、映像の場面に応じて声の高さや抑揚の設定をしたり、映像の途中で話者を変えたりする指令を入力することで、音声合成手段14は、それらの指令に応じた解説音声を音声合成することができる。なお、この音声合成手段14は、例えば、特開2004−139033号公報に記載されるような様々な音声合成技術によって実現することができる。
話速変換手段15は、音声分析手段13から入力された映像音声と、音声合成手段14から入力された解説音声との話速変換を行うものである。ここで、話速変換とは、声の高さや質は保ったまま、音声の時間長を伸縮することである。この話速変換手段15は、例えば、特許第2955247号公報や特許第3220043号公報に記載されるような様々な話速変換技術によって実現することができる。ここでは、話速変換手段15は、図示しない入力手段から入力された作業者からの指令に基づいて、解説音声のみ、あるいは、映像音声と解説音声との両方について話速変換を行う。ここで話速変換された映像音声及び解説音声は、音声接続手段16に出力される。また、当該話速変換手段15の話速変換による映像音声及び解説音声の伸縮の情報は、映像速度変換手段12及び映像・音声出力手段17に出力される。
ここで、話速変換手段15による話速変換について、図2を参照(適宜図1参照)して具体例を用いて説明する。図2は、話速変換手段による話速変換を説明するための説明図、(a)は、音声分析手段によって検出された喋り区間とポーズ区間の例を模式的に示した模式図、(b)は、話速変換手段による話速変換のパターンの例を模式的に示した模式図、(c)は、話速変換手段による話速変換の他のパターンの例を模式的に示した模式図、(d)は、話速変換手段による話速変換の他のパターンの例を模式的に示した模式図である。なお、図2において、破線は喋り区間A1、A2、A3、…及びポーズ区間B1、B2、…の開始時間及び終了時間を、一点鎖線は喋り区間A1、A2、A3、…及びポーズ区間B1、B2、…の中心の時間を模式的に示す。
ここで、図2(a)に示すように、音声分析手段13によって、喋り区間A1、A2、A3、…と、ポーズ区間B1、B2、…とが検出されたとする。なお、図2(a)では、検出された区間のうちの一部の区間(喋り区間A1、A2、A3及びポーズ区間B1、B2)を示した。そして、話速変換手段15は、ひとつの映像全体に対応する映像音声の時間尺と、変換後の映像音声と解説音声と時間尺の和が一致するように、解説音声のみ、あるいは、映像音声と解説音声との両方について話速変換する。ここでは、話速変換手段15には、図2(b)〜(d)に示すパターン1からパターン3までの3つの変換のパターンが予め設定されていることとする。
ここで、話速変換手段15に設定されたパターンの例について説明する。図2(b)に示すパターン1では、話速変換手段15は、喋り区間A1、A2、A3、…の映像音声C1、C2、C3、…は話速変換せず、ポーズ区間B1、B2、…の区間長に合わせて音声合成手段14から入力された解説音声を話速変換して、解説音声D1、D2、…とする。このとき、ポーズ区間長より200ミリ秒程度短い区間長に解説音声D1、D2、…が収まるように話速変換することで、後記する音声接続手段16によって前後の喋り区間との間にわずかな区間を残してポーズ区間に解説音声D1、D2、…をはめ込むことができ、視聴者にとって聞きやすい副音声を生成することができる。
なお、視覚障害者は、晴眼者に比べて2〜3倍の早口(かなで1分間に800〜1200文字程度の話速)の音声であっても十分理解できるという報告があり(「視覚障害者への音声提示における最適・最高速度」、ヒューマンインターフェース学会論文誌、Vol.7、No.1、pp.105−111、2005参照)、ポーズ区間B1、B2、…の区間長が短く解説音声D1、D2、…が早口になってしまっても視覚障害者は聞き取ることができる。そして、このパターン1では、映像音声は話速変換しないので、後記する音声接続手段16によって生成された副音声は、喋り区間の音声が映像と一致したものとなり、弱視者や晴眼者が視聴しても映像との間にずれの生じない副音声となる。ここで、ポーズ区間B1、B2、…の区間長が、話速変換前の解説音声より長い場合には、話速変換手段15は音声合成手段14から入力された解説音声を話速変換しない。
また、図2(c)に示すパターン2では、話速変換手段15は、各々の喋り区間A1、A2、A3、…の映像音声の開始時間は変更せず、映像音声と解説音声との話速を同程度に設定して音声分析手段13から入力された映像音声と、音声合成手段14から入力された解説音声とを話速変換し、映像音声C1’、C2’、C3’、…と解説音声D1’、D2’、…とする。このパターン2では、映像音声C1’、C2’、C3’、…と、解説音声D1’、D2’、…とで話速がそろうため、後記する音声接続手段16によって生成された副音声は、話速が異なる音声が組み合わされたものより聞き取りやすいものとなる。また、映像内の番組出演者の喋りはじめと、映像音声C1’、C2’、C3’、…の開始時間とが一致するため、映像と副音声とを弱視者や晴眼者が視聴する場合における映像内の番組出演者の唇の動きと副音声のずれによる違和感は軽減される。
更に、図2(d)に示すパターン3では、話速変換手段15は、各々の喋り区間A1、A2、A3、…及びポーズ区間B1、B2、…の中心の時間が、話速変換後の映像音声C1”、C2”、C3”、…と、解説音声D1”、D2”、…の中心の時間と一致するように、映像音声と解説音声との話速を同程度に設定して、映像音声と解説音声とを話速変換する。このパターン3では、パターン2と同様に映像音声C1”、C2”、C3”、…と、解説音声D1”、D2”、…とで話速がそろうため、後記する音声接続手段16によって生成された副音声は、話速が異なる音声が組み合わされたものより聞き取りやすいものとなる。また、喋り区間A1、A2、A3、…に解説音声D1”、D2”、…の区間が重複する時間が、パターン2に比べて少なくなるため、映像内において喋っている番組出演者の顔が出ることの少ない、ナレーションによる説明が中心の番組に適している。
そして、話速変換手段15は、音声分析手段13から入力された区間の情報に基づいて、設定されたパターン1からパターン3のそれぞれについて、各喋り区間とポーズ区間とに対応する映像音声と解説音声との区間の伸縮及び話速を設定する。更に、話速変換手段15は、これらのパターン1からパターン3の映像音声及び解説音声の伸縮を示す情報を、後記する映像・音声出力手段17に出力する。この情報は更に出力装置5に出力され、出力装置5を介してこの情報を参照した作業者によってパターンを指定する指令が入力されると、話速変換手段15は、この指令に基づいて解説音声のみ、あるいは、映像音声と解説音声との両方について話速変換を行い、話速変換された映像音声及び解説音声を音声接続手段16に出力する。また、話速変換手段15は、ここで話速変換された映像音声及び解説音声の伸縮の情報を映像速度変換手段12に出力する。
なお、話速変換のパターンは前記の例に限定されない。また、ここで説明した話速変換のパターンは予め設定されていることとしたが、作業者が適宜、話速変換手段15の話速変換のパターンの修正や追加を行うこととしてもよい。
図1に戻って説明を続ける。音声接続手段(音声付加手段)16は、話速変換手段15によって話速変換された映像音声と解説音声とを接続して、副音声を生成するものである。ここで生成された副音声は、映像・音声出力手段17及び副音声出力手段21に出力される。
映像・音声出力手段17は、音声分析手段13から入力された映像音声と、音声合成手段14から入力された解説音声と、番組映像蓄積装置3から入力された映像と、映像速度変換手段12から入力された副音声同期映像を、図示しない入力手段から入力された作業者からの指令に基づいて、出力可能な形式に変換して出力装置5に出力するものである。また、映像・音声出力手段17は、音声分析手段13から入力された喋り区間とポーズ区間の検出結果と、話速変換手段15から入力された話速変換のパターンとを、図示しない入力手段から入力された作業者からの指令に基づいて、表示可能な出力形式に変換して出力装置5に出力するものでもある。更に、映像・音声出力手段17は、図示しない入力手段から入力された作業者からの指令に基づいて、音声接続手段16から入力された副音声を表示可能な出力形式に変換して出力装置5に出力するものでもある。
ここで、図3を参照(適宜図1参照)して、映像・音声出力手段17によって生成され、出力装置5の表示画面に表示される画像の例について説明する。図3は、映像・音声出力手段によって生成される画像の一例を示す模式図である。
図3に示すように、画像Wは、音声分析結果提示領域E0と、パターン提示領域E1、E2、…と、映像再生領域Fと、解説原稿提示領域Gとで主に構成されている。
音声分析結果提示領域E0は、映像の再生時間の時間軸上に、映像音声の区間を視覚化して提示する領域である。ここで、映像・音声出力手段17は、音声分析手段13から入力された喋り区間とポーズ区間の情報に基づいて、音声分析結果提示領域E0に喋り区間A1、A2、…とポーズ区間B1、B2、…とを提示する。
パターン提示領域E1、E2、…は、映像音声及び解説音声の話速変換のパターンを提示する領域である。ここで、映像・音声出力手段17は、話速変換手段15から入力された映像音声と解説音声の伸縮を示す情報に基づいて、パターン提示領域E1、E2、…の各々に、映像の再生時間の時間軸上に、話速変換の各パターンの映像音声と解説音声との区間を視覚化して提示する。例えば、パターン提示領域E1では、音声分析結果提示領域E0に提示された喋り区間A1、A2、…と同じ区間に映像音声C1、C2、…が、ポーズ区間B1、B2、…と同じ区間に解説音声D1、D2、…が提示されている。
映像再生領域Fは、図示しない入力手段によって作業者から入力された指令に基づいて映像を提示する領域である。ここで、作業者が図示しないマウス等によって音声分析結果提示領域E0及びパターン提示領域E1、E2、…内の任意の領域をドラッグして選択すると、映像・音声出力手段17は、その範囲の映像及び副音声同期映像を映像再生領域Fに提示する。このとき同時に、映像・音声出力手段17は、選択された範囲の映像音声及び解説音声を出力装置5が備える図示しないスピーカ等に出力する。これによって、作業者はパターン提示領域E1、E2、…に示される話速変換のパターンのうちから最も適切なものを選択することができる。
解説原稿提示領域Gは、ポーズ区間B1、B2、…に対応する解説原稿を入力及び提示する領域である。ここで、解説原稿提示領域Gは、解説原稿入力領域G1を有し、作業者が図示しない入力手段によってポーズ区間を指定し、解説原稿のテキストを入力すると、映像・音声出力手段17は、当該解説原稿入力領域G1に解説原稿を表示する。そして、作業者がこの解説原稿を確定することで、解説放送番組生成装置1は、各ポーズ区間B1、B2、…に対応する解説原稿を解説原稿入力手段11から入力することができる。また、作業者が図示しない入力手段によって、解説原稿がすでに入力されているポーズ区間を指定して再生することで、映像・音声出力手段17は、音声合成手段14によって音声合成された当該ポーズ区間に対応する解説音声を出力装置5が備える図示しないスピーカ等に出力する。
図1に戻って説明を続ける。原映像出力手段18は、番組映像蓄積装置3から入力された映像(原映像)を出力するものである。この原映像は、番組映像蓄積装置3に蓄積され、制作者によって制作された映像である。ここで出力された原映像は、解説放送番組蓄積装置7に蓄積される。
副音声同期映像出力手段19は、映像速度変換手段12から入力された副音声同期映像を出力するものである。ここで出力された副音声同期映像は、原映像出力手段18から出力された原映像に対応付けられて解説放送番組蓄積装置7に蓄積される。
主音声出力手段20は、番組映像蓄積装置3から入力された映像音声(主音声)を出力するものである。この主音声は、番組映像蓄積装置3に蓄積され、制作者によって制作された映像の音声である。ここで出力された主音声は、原映像出力手段18から出力された原映像に対応付けられて解説放送番組蓄積装置7に蓄積される。
副音声出力手段21は、音声接続手段16から入力された副音声を出力するものである。ここで出力された副音声は、副音声同期映像出力手段19から出力された副音声同期映像に対応付けられて解説放送番組蓄積装置7に蓄積される。
なお、解説放送番組生成装置1は、コンピュータにおいて各手段を各機能プログラムとして実現することも可能であり、各機能プログラムを結合して、解説放送番組生成プログラム(解説付加音声生成プログラム)として動作させることも可能である。
[解説放送番組生成装置の動作]
次に、図4を参照して、解説放送番組生成装置1の動作について説明する。図4は、解説放送番組生成装置が、解説放送番組を生成する動作を示したフローチャートである。
解説放送番組生成装置1は、音声分析手段13によって、外部に接続された番組映像蓄積装置3に記憶された映像音声を音声分析し、喋り区間とポーズ区間とを検出する(ステップS11)。そして、ここでは、解説放送番組生成装置1は、映像・音声出力手段17によって、外部に接続された出力装置5に音声分析の結果を出力することとした。
そして、解説放送番組生成装置1は、解説原稿入力手段11によって、作業者が作成した解説原稿を入力する(ステップS12)。ここで入力される解説原稿は、作業者によって、ステップS11において検出されたポーズ区間の各々に予め対応付けられている。更に、解説放送番組生成装置1は、音声合成手段14によって、ステップS12において入力された解説原稿を音声合成して解説音声を生成する(ステップS13)。
続いて、解説放送番組生成装置1は、話速変換手段15によって、映像音声と解説音声との区間の伸縮及び話速を設定する(ステップS14)。ここでは、複数の話速変換のパターンが予め設定されており、解説放送番組生成装置1は、話速変換手段15によって、各パターンについて映像音声と解説音声との区間の伸縮及び話速を設定して、映像・音声出力手段17によって、外部に接続された出力装置5に映像音声及び解説音声の伸縮を示す画像を出力することとした。
そして、解説放送番組生成装置1は、話速変換手段15によって、ステップS14において設定された話速に、映像音声及び解説音声を変換する(ステップS15)。ここでは、解説放送番組生成装置1は、外部から入力された作業者の話速変換のパターンを指定する指令に基づいて、映像音声及び解説音声を指定されたパターンの話速に変換する。
更に、解説放送番組生成装置1は、音声接続手段16によって、ステップS15において話速変換された映像音声及び解説音声を接続して副音声を生成する(ステップS16)。そして、解説放送番組生成装置1は、映像速度変換手段12によって、ステップS15において話速変換した映像音声及び解説音声の伸縮に合わせて、番組映像蓄積装置3に記憶された、当該映像音声に対応する映像を伸縮して副音声同期映像を生成する(ステップS17)。
更に、解説放送番組生成装置1は、番組映像蓄積装置3から入力された映像を原映像として原映像出力手段18から解説放送番組蓄積装置7に出力し、副音声同期映像出力手段19によってステップS17において生成された副音声同期映像を解説放送番組蓄積装置7に出力する。また、解説放送番組生成装置1は、主音声出力手段20によって、映像音声を番組映像蓄積装置3から入力して主音声として解説放送番組蓄積装置7に出力し、副音声出力手段21によって、ステップS16において生成された副音声を解説放送番組蓄積装置7に出力して(ステップS18)、動作を終了する。ここで出力された原映像、副音声同期映像、主音声及び副音声はそれぞれ関連付けられて解説放送番組蓄積装置7に蓄積される。
以上の動作によって、解説放送番組生成装置1は、番組映像蓄積装置3に記憶された複数の映像の副音声と副音声同期映像とを生成して、原映像及び主音声とともに解説放送番組蓄積装置7に蓄積することができる。そして、作業者は、必要な映像と副音声をDVD(Digital Versatile Disc)のような光ディスクやVTRに記憶することができる。
本発明における解説放送番組生成装置の構成を模式的に示した模式図である。 本発明における解説放送番組生成装置の話速変換手段による話速変換を説明するための説明図、(a)は、音声分析手段によって検出された喋り区間とポーズ区間の例を模式的に示した模式図、(b)は、話速変換手段による話速変換のパターンの例を模式的に示した模式図、(c)は、話速変換手段による話速変換の他のパターンの例を模式的に示した模式図、(d)は、話速変換手段による話速変換の他のパターンの例を模式的に示した模式図である。 本発明における解説放送番組生成装置の映像・音声出力手段によって生成される画像の一例を示す模式図である。 本発明における解説放送番組生成装置が、解説放送番組を生成する動作を示したフローチャートである。
符号の説明
1 解説放送番組生成装置(解説付加音声生成装置)
12 映像速度変換手段
13 音声分析手段(区間検出手段)
14 音声合成手段
15 話速変換手段
16 音声接続手段(音声付加手段)
3 番組映像蓄積装置
5 出力装置
7 解説放送番組蓄積装置

Claims (4)

  1. 映像の音声である映像音声と、当該映像の内容に関連するテキストデータとを外部から入力し、前記映像音声に、前記テキストデータを音声に変換した解説音声を付加した解説付加音声を生成する解説付加音声生成装置であって、
    前記テキストデータから音声合成によって前記解説音声を生成する音声合成手段と、
    前記映像音声から、当該映像音声の再生時間の時間軸上において、発声音の音声区間である発声音区間、及び、無音あるいは背景音のみの音声区間であるポーズ区間を検出する区間検出手段と、
    前記ポーズ区間の区間長に基づいて、前記解説音声を話速変換する話速変換手段と、
    前記映像音声に、前記話速変換手段によって話速変換された解説音声を付加して前記解説付加音声を生成する音声付加手段と、
    を備えることを特徴とする解説付加音声生成装置。
  2. 前記話速変換手段が、前記発声音区間に対応する前記映像音声を話速変換するとともに、この話速変換によって当該発声音区間が伸縮した長さと、前記ポーズ区間の区間長とに基づいて前記解説音声を話速変換し、
    前記音声付加手段が、前記話速変換手段によって話速変換された映像音声に、前記話速変換手段によって話速変換された解説音声を付加することを特徴とする請求項1に記載の解説付加音声生成装置。
  3. 前記話速変換手段によって話速変換された前記映像音声の発声音区間における、話速変換による伸縮を示す情報に基づいて、外部から入力された前記映像の前記発声音区間に対応する区間の区間長を伸縮する映像速度変換手段を備えることを特徴とする請求項2に記載の解説付加音声生成装置。
  4. 映像の音声である映像音声と、当該映像の内容に関連するテキストデータとを外部から入力し、前記映像音声に、前記テキストデータを音声に変換した解説音声を付加した解説付加音声を生成するためにコンピュータを、
    前記テキストデータから音声合成によって前記解説音声を生成する音声合成手段、
    前記映像音声から、当該映像音声の再生時間の時間軸上において、発声音の音声区間である発声音区間、及び、無音あるいは背景音のみの音声区間であるポーズ区間を検出する区間検出手段、
    前記ポーズ区間の区間長に基づいて、前記解説音声を話速変換する話速変換手段、
    前記映像音声に、前記話速変換手段によって話速変換された解説音声を付加して前記解説付加音声を生成する音声付加手段、
    として機能させることを特徴とする解説付加音声生成プログラム。
JP2006210121A 2006-08-01 2006-08-01 解説付加音声生成装置及び解説付加音声生成プログラム Active JP4594908B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006210121A JP4594908B2 (ja) 2006-08-01 2006-08-01 解説付加音声生成装置及び解説付加音声生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006210121A JP4594908B2 (ja) 2006-08-01 2006-08-01 解説付加音声生成装置及び解説付加音声生成プログラム

Publications (2)

Publication Number Publication Date
JP2008039845A true JP2008039845A (ja) 2008-02-21
JP4594908B2 JP4594908B2 (ja) 2010-12-08

Family

ID=39174972

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006210121A Active JP4594908B2 (ja) 2006-08-01 2006-08-01 解説付加音声生成装置及び解説付加音声生成プログラム

Country Status (1)

Country Link
JP (1) JP4594908B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012039280A (ja) * 2010-08-05 2012-02-23 Nippon Hoso Kyokai <Nhk> 解説放送文作成支援装置及びプログラム
JP2012038009A (ja) * 2010-08-05 2012-02-23 Nippon Hoso Kyokai <Nhk> タイムコード付与装置及びプログラム
KR20140147401A (ko) * 2013-06-19 2014-12-30 한국전자통신연구원 Tts를 이용한 화면해설방송 제작 방법 및 장치
JP2017203827A (ja) * 2016-05-10 2017-11-16 日本放送協会 解説音声再生装置及びそのプログラム
JP2018028626A (ja) * 2016-08-19 2018-02-22 日本放送協会 対話型解説付き音声提示装置およびそのプログラム
JP2020174339A (ja) * 2019-04-08 2020-10-22 バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム
JP2020174342A (ja) * 2019-04-08 2020-10-22 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC 映像を生成するための方法、装置、サーバ、コンピュータ可読記憶媒体およびコンピュータプログラム
CN116884390A (zh) * 2023-09-06 2023-10-13 四川蜀天信息技术有限公司 一种提高用户交互流畅度的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034281A (ja) * 1999-07-26 2001-02-09 Fujitsu Ten Ltd 音声合成システム
JP2001224002A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004191620A (ja) * 2002-12-11 2004-07-08 Pentax Corp 記録媒体、再生装置、及び記録媒体の再生方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034281A (ja) * 1999-07-26 2001-02-09 Fujitsu Ten Ltd 音声合成システム
JP2001224002A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004191620A (ja) * 2002-12-11 2004-07-08 Pentax Corp 記録媒体、再生装置、及び記録媒体の再生方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012039280A (ja) * 2010-08-05 2012-02-23 Nippon Hoso Kyokai <Nhk> 解説放送文作成支援装置及びプログラム
JP2012038009A (ja) * 2010-08-05 2012-02-23 Nippon Hoso Kyokai <Nhk> タイムコード付与装置及びプログラム
KR20140147401A (ko) * 2013-06-19 2014-12-30 한국전자통신연구원 Tts를 이용한 화면해설방송 제작 방법 및 장치
KR101907957B1 (ko) * 2013-06-19 2018-10-16 한국전자통신연구원 Tts를 이용한 화면해설방송 제작 방법 및 장치
JP2017203827A (ja) * 2016-05-10 2017-11-16 日本放送協会 解説音声再生装置及びそのプログラム
JP2018028626A (ja) * 2016-08-19 2018-02-22 日本放送協会 対話型解説付き音声提示装置およびそのプログラム
JP2020174339A (ja) * 2019-04-08 2020-10-22 バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム
JP2020174342A (ja) * 2019-04-08 2020-10-22 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC 映像を生成するための方法、装置、サーバ、コンピュータ可読記憶媒体およびコンピュータプログラム
US11758088B2 (en) 2019-04-08 2023-09-12 Baidu.Com Times Technology (Beijing) Co., Ltd. Method and apparatus for aligning paragraph and video
CN116884390A (zh) * 2023-09-06 2023-10-13 四川蜀天信息技术有限公司 一种提高用户交互流畅度的方法和装置
CN116884390B (zh) * 2023-09-06 2024-01-26 四川蜀天信息技术有限公司 一种提高用户交互流畅度的方法和装置

Also Published As

Publication number Publication date
JP4594908B2 (ja) 2010-12-08

Similar Documents

Publication Publication Date Title
JP4594908B2 (ja) 解説付加音声生成装置及び解説付加音声生成プログラム
US20060285654A1 (en) System and method for performing automatic dubbing on an audio-visual stream
US6500006B2 (en) Learning and entertainment device, method and system and storage media thereof
ES2761915T3 (es) Método y procedimiento para descripciones auxiliares de programa basadas en texto para televisión
US20060136226A1 (en) System and method for creating artificial TV news programs
US20050180462A1 (en) Apparatus and method for reproducing ancillary data in synchronization with an audio signal
EP3224834B1 (en) Apparatus and method for generating visual content from an audio signal
US11729475B2 (en) System and method for providing descriptive video
KR101944365B1 (ko) 콘텐츠 싱크 생성 방법, 그 장치 및 이를 위한 인터페이스 모듈
JP6268131B2 (ja) 字幕制作装置および字幕制作方法
US20120148208A1 (en) Video-audio processing apparatus and video-audio processing method
JP6485977B2 (ja) 字幕制作装置および字幕制作方法
JP2006339817A (ja) 情報処理装置およびその表示方法
JPH0944070A (ja) 信号記録・再生装置および信号記録・再生方法
JP2003223199A (ja) 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム
JP2003216200A (ja) 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4086886B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP2002229440A (ja) Dvdビデオを使用した外国語学習用システム
JP2000358202A (ja) 映像音声記録再生装置および同装置の副音声データ生成記録方法
JP2009081539A (ja) 映像音声再生装置、及び映像音声再生方法
JPH11212438A (ja) 学習装置、発音練習装置、その方法および記録媒体
Walczak et al. Artificial voices
KR20220142723A (ko) 음성 인식을 기반으로 영상이 재생되는 화면에 자막을 출력하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100917

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4594908

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140924

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250