JP3811751B2 - Synthetic timing adjustment system - Google Patents

Synthetic timing adjustment system Download PDF

Info

Publication number
JP3811751B2
JP3811751B2 JP2003000526A JP2003000526A JP3811751B2 JP 3811751 B2 JP3811751 B2 JP 3811751B2 JP 2003000526 A JP2003000526 A JP 2003000526A JP 2003000526 A JP2003000526 A JP 2003000526A JP 3811751 B2 JP3811751 B2 JP 3811751B2
Authority
JP
Japan
Prior art keywords
data
output
time
audio
caption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003000526A
Other languages
Japanese (ja)
Other versions
JP2004215033A (en
Inventor
秀彦 菊地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Television Network Corp
Original Assignee
Nippon Television Network Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Television Network Corp filed Critical Nippon Television Network Corp
Priority to JP2003000526A priority Critical patent/JP3811751B2/en
Publication of JP2004215033A publication Critical patent/JP2004215033A/en
Application granted granted Critical
Publication of JP3811751B2 publication Critical patent/JP3811751B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Studio Circuits (AREA)
  • Television Systems (AREA)

Description

【0001】
【発明が属する技術分野】
本発明は、放送局側において、字幕放送の映像と字幕とを合成するタイミングを調整する技術に関し、特に、字幕編集に時間をかけることのできない字幕放送において、受信機で映像と字幕とが適切なタイミングで表示されるよう映像と字幕との合成タイミングを調整する技術に関する。
【0002】
【従来の技術】
テレビ放送の中には字幕放送があり、この字幕放送は、受信機の画面上に1行当たり約15文字として1行から3行の範囲内で字幕を表示させる放送である。そして、受信機の画面に表示される字幕は人間が読取れる時間を考慮して5〜6秒程度表示された後、この1行から3行分を総入れ替えして新たな字幕を受信機の画面に表示させる。このように、受信機の画面上に字幕を表示させる為には、放送局側において、放送する番組の音声に対応する字幕データを作成し、この作成した字幕データを文字放送方式で視聴者に伝送し、専用の文字放送デコーダにて映像データに合成する。
【0003】
ところで、字幕付き番組では、通常、字幕編集に1週間程度かかる。例えば、ドラマ番組等の字幕編集に時間のかけられる番組では、まず、録画された映像や音声に基づいてワープロ等で字幕データを作成する。そして、受信機の画面に表示される字幕が視聴者にとって自然に感じられる(音声の出力される前(約0.5秒前)に字幕が表示される)ように、テレビジョンデータと字幕データとを合成する。
【0004】
ところが、番組の放送当日に字幕編集を行なわなければならないような場合には、字幕編集に時間をかけることができない。その為、放送局側では、テレビジョンデータに基づいて字幕データを作成しながら、この字幕データをテレビジョンデータに合成して放送しなければならない。この場合において、字幕データを作成する方法として、音声認識プログラムを用いてテレビジョンデータの音声データを字幕データに変換する方法と、オペレータが音声を聴きながらワープロ装置を用いて字幕データを作成する方法とが考えられる。
【0005】
そして、音声認識プログラムを用いて字幕データに変換する方法は、音声データから字幕データへの変換時間は一定であるが、現在の音声認識プログラムの音声認識能力が約90%程度である為、変換された字幕データに誤りが混入することがある。
【0006】
一方、オペレータにより字幕データを作成する方法は、音声データから字幕データへの変換時間に変動をきたすが、テレビジョンデータの音声データから作成された字幕データに誤りが混入することが少ない。
【0007】
この結果、正確性の求められる字幕データは、オペレータにより作成された字幕データが用いられる。
【0008】
更に、字幕付き放送では、視聴者に違和感を与えないように、受信機に映し出される字幕が音声の出力タイミングと合うようテレビジョンデータと字幕データとを適切に合成しなければならない。このようにテレビジョンデータと字幕データとを適切に合成する方法として、字幕データへの変換タイミングに合わせてテレビジョンデータの出力を調整し、字幕データとテレビジョンデータとを合成する方法と、オペレータの字幕変換時間を考慮して放送時間より前にテレビジョンデータをオペレータに与え、このテレビジョンデータを基に字幕データに変換し、字幕データとテレビジョンデータとを合成する方法とが考えられる。
【0009】
【発明が解決しようとする課題】
しかしながら、前者の方法では、テレビジョンデータの出力が変動する為、受信機で放映される映像に揺らぎが生じて視聴者に違和感を与えてしまう。つまり、テレビジョンデータの出力は一定にしなければならない。
【0010】
そこで、本発明では、オペレータの字幕変換時間を考慮し、事前にテレビジョンデータを適切なタイミングでオペレータに与え、字幕データに変換させることで、字幕データとテレビジョンデータとが適切に合成されるよう調整する技術を提供することである。
【0011】
【課題を解決するための手段】
上記の課題を解決する第1の発明は、音声データと映像データとから成るテレビジョンデータに、字幕データを合成するタイミングを調整するシステムであって、
テレビジョンデータが記憶されている記憶手段と、
前記記憶手段に記憶されている放送用のテレビジョンデータとテレビジョンデータの音声データとを出力する出力手段と、
前記出力手段から出力された音声データから音声を再生し、この再生された音声に基づいて、オペレータの入力により字幕データを生成する生成手段と、
前記出力手段から出力される放送用のテレビジョンデータの音声データを、音声認識により一定の変換速度で字幕データに変換する変換手段と、
前記出力手段から出力された放送用のテレビジョンデータと前記生成手段で生成された字幕データとを合成する合成手段と、
前記生成手段で生成された字幕データのうち、任意の字幕データと同一の字幕データを前記変換手段で変換された字幕データから検索し、前記検索した字幕データの前記変換手段における変換終了時の時間から前記任意の字幕データの前記生成手段における生成終了時の時間及び前記変換手段の変換速度を基に算出した変換時間を減算して、前記合成手段における合成タイミングのずれ時間を算出する計算手段と、
前記計算手段で算出したずれ時間に基づいて、前記出力手段から出力する音声データを制御することによって、前記生成手段において再生される音声の速度を調整する制御手段とを有することを特徴とする。
【0012】
上記の課題を解決する第2の発明は、第1の発明において、
前記制御手段は、前記計算手段で算出したずれ時間に基づいて、前記出力手段から出力される音声データのサンプル数を増減させることによって、前記生成手段で再生される音声の速度を調整するよう構成されていることを特徴とする
【0013】
上記の課題を解決する第3の発明は、上記第1又は第2の発明において、前記制御手段は、前記計算手段で算出された時間を基に、前記合成手段におけるテレビジョンデータと字幕データとの合成タイミングのずれを判断し、字幕データの合成されたタイミングが適切な合成タイミングより遅れている場合、前記出力手段から出力する音声データのサンプル数を減少させて前記生成手段で再生される音声の速度を加速させ、字幕データが前記合成タイミングより進んでいる場合、前記出力手段から出力する音声データのサンプル数を増加させて前記再生される音声の速度を減速させることを特徴とする。
【0014】
上記の課題を解決する第4の発明は、上記第2の発明において、前記制御手段は、現在の音声データのサンプル数を段階的に減少又は増加させて目的の音声データのサンプル数に近づけて前記生成手段で再生される音声の速度を段階的に減速又は加速するように制御することを特徴とする。
【0015】
上記の課題を解決する第5の発明は、上記第1又は第2の発明において、合成タイミング調整システムは、
前記生成手段で生成された字幕データを蓄積する第1の蓄積手段と、
前記変換手段で変換された字幕データを蓄積する第2の蓄積手段とを有し、
前記計算手段は、前記第1の蓄積手段に蓄積されている字幕データから選択した所定の連続の文字と同一の連続の文字が、前記第2の蓄積手段に蓄積されている字幕データに含まれているか否かを判別し、前記同一の連続の文字が含まれている場合、ずれ時間の計算を行うように構成されていることを特徴とする。
【0016】
上記の課題を解決する第6の発明は、音声データと映像データとから成るテレビジョンデータに、字幕データを合成するタイミングを調整するシステムであって、
テレビジョンデータが記憶されている記憶手段と、
前記記憶手段に記憶されている放送用のテレビジョンデータとテレビジョンデータの音声データとを出力する出力手段と、
前記出力手段から出力された音声データから音声を再生し、この再生された音声に基づいて、オペレータの入力により字幕データを生成する生成手段と、
前記出力手段から出力された放送用のテレビジョンデータの音声データを音声認識により一定の変換速度で字幕データに変換する変換手段と、
前記生成手段で生成された字幕データと前記出力手段から出力された放送用のテレビジョンデータとを合成する合成手段と、
前記生成手段で生成された字幕データが蓄積される第1の蓄積手段と、
前記変換手段で変換された字幕データが蓄積される第2の蓄積手段と、
前記生成手段で生成された字幕データの文字と、この文字が第1の蓄積手段に蓄積された時点の時間とが関連付けて記憶される第1のテーブルと、
前記変換手段で変換された字幕データの文字と、この文字が第2の蓄積手段に蓄積された時点の時間とが関連付けて記憶される第2のテーブルと、
前記生成手段で生成された字幕データの各文字が前記第1の蓄積手段に蓄積された時点の時間、及び前記変換手段で変換された字幕データの各文字が第2の蓄積手段に蓄積された時点の時間を監視し、字幕データの各文字と該各文字が第1の蓄積手段又は第2の蓄積手段に蓄積された時点の時間とを関連付けて第1のテーブル又は第2のテーブルに記憶させる手段と、
前記第1の蓄積手段に蓄積されている字幕データから選択した所定の連続の文字と同一の連続の文字が前記第2の蓄積手段に蓄積されている字幕データに含まれているか否かを判別する判別手段と、
前記判別手段で同一の連続の文字が含まれていると判別された場合、この文字と同一の文字を前記第1のテーブル及び第2のテーブルから検索し、検索した文字に関連付けられている時間を第1のテーブル及び第2のテーブルから読み出す読出手段と、
前記第2のテーブルより読み出した時間から前記第1のテーブルより読み出した時間及び前記変換手段の変換速度を基に算出した変換時間を減算して、前記合成手段における合成タイミングのずれ時間を算出する計算手段と、
前記計算手段で算出したずれ時間に基づいて、前記出力手段から出力される音声データのサンプル数を増減させることによって前記生成手段で再生される音声の速度を調整する制御手段とを有することを特徴とする。
【0017】
上記の課題を解決する第7の発明は、上記第6の発明において、前記制御手段は、前記計算手段で算出された時間を基に、前記合成手段におけるテレビジョンデータと字幕データとの合成タイミングのずれを判断し、字幕データの合成されたタイミングが適切な合成タイミングより遅れている場合、前記出力手段から出力する音声データのサンプル数を減少させて前記生成手段で再生される音声の速度を加速させ、字幕データが前記合成タイミングより進んでいる場合、前記出力手段から出力する音声データのサンプル数を増加させて前記再生される音声の速度を減速させることを特徴とする。
【0018】
上記の課題を解決する第8の発明は、上記第6の発明において、前記制御手段は、現在の音声データのサンプル数を段階的に減少又は増加させて目的の音声データのサンプル数に近づけて前記生成手段で再生される音声の速度を段階的に減速又は加速するように制御することを特徴とする。
【0020】
まず、本実施の形態の構成について説明する。
【0021】
図1は合成タイミング調整システムのブロック図である。図2は誤差時間を説明する為の図である。
【0022】
本実施の形態の合成タイミング調整システムは、サーバ10と、音声認識装置20と、字幕作成装置30と、比較装置40と、インサータ50とから構成されている。
【0023】
サーバ10は、記憶部11、タイマー12、出力部13、及び出力調整部14を有する。
【0024】
音声認識装置20は、記憶部21、及び制御部22を有する。
【0025】
更に、字幕作成装置30は、スピーカ31、入力部32、及び制御部33を有する。
【0026】
比較装置40は、バッファ41、42、タイマー43、記憶部44及び制御部45を有する。
【0027】
以下、各構成について説明する。
【0028】
サーバ10の記憶部11は、放送用のテレビジョンデータが記憶されている。
【0029】
サーバ10のタイマー12は、現在の時刻(時間)を計時するものである。
【0030】
サーバ10の出力部13は、タイマー12を監視し、タイマー12の時間が予め設定されている放送時間になると、出力調整部14から出力されたテレビジョンデータと同一のテレビジョンデータを記憶部11から読み出し、この読み出したテレビジョンデータを放送の為のテレビジョンデータとしてインサータ50に出力するものである。
【0031】
サーバ10の出力調整部14には、放送時間と先行時間とが設定されている。尚、先行時間は、字幕生成装置30で音声データから字幕データを作成するのに要する大まかな時間であり、経験値である。
【0032】
また、サーバ10の出力調整部14は、タイマー12を監視し、タイマー12の時間が放送時間から先行時間を差し引いた時間になると、記憶部11に記憶されているテレビジョンデータを読み出し、この読み出したテレビジョンデータを字幕データ作成の為のテレビジョンデータとして字幕作成装置30に向けて出力するものである。例えば、放送時間が(10h00m00s、ここで、hは時間、mは分、sは秒を表す)であり、先行時間が5sである場合、出力調整部14は、タイマー12の時間が(10h00m00s−5s=9h59m55s)になると、記憶部11に記憶されているテレビジョンデータを字幕作成装置30で向けて出力する。
【0033】
また、出力調整部14は、比較装置40から送信されて来る誤差時間(ずれ時間)を受信する。尚、誤差時間は、インサータ50において、字幕作成装置20からの字幕データと、サーバ10から出力された放送の為のテレビジョンデータとが適切に合成できるタイミングからどの程度の時間ずれているかを示す時間である。例えば、誤差時間が”0s”である場合、字幕データとテレビジョンデータとが適切に合成されていることを示す。
【0034】
また、出力調整部14は、受信した誤差時間を調べる。誤差時間が”0s”である場合、出力調整部14は現状を維持する。一方、誤差時間が”0s”以外である場合、出力調整部14は、記憶部11から読み出したテレビジョンデータの音声データのサンプル数を増減させ、このサンプル数を増減させた音声データを新たな音声データとする。
【0035】
ところで、サーバ10から出力する音声データの転送レートは固定されている。この結果、オペレータ(人間)に聞こえる音声スピードを変化させる為には、字幕作成装置30で再生する音声の総データ量を増減させなければならない。すなわち、サンプル数を増減させた音声データを、固定された転送レートでサーバ10から出力しなければならない。例えば、現在の音声データの単位時間当たりのサンプル数がX sampleであり、字幕作成装置30のオペレータに聞こえる音声スピードをα倍にする場合、出力調整部14は、音声データのサンプル数が”X/α”sampleになるように増減し、単位時間当たりXsampleで出力する。尚、現在の音声データのサンプル数を増減して新たな音声データを作成する技術は、既存の技術であることから詳細な説明は省略する。
【0036】
更に、出力調整部14は、どの位の時間(継続時間)、増減させたデータ量の音声データを字幕作成装置30に送信し続けるかを判断する為、受信した誤差時間を基に継続時間を算出する。例えば、誤差時間をT、字幕作成装置30のオペレータに聞こえる音声スピードが通常の音声スピードのα倍である場合、出力調整部14は、受信した誤差時間から|T/(α−1)|(s)の計算をして継続時間を求める。
【0037】
そして、出力調整部14は、算出した継続時間、音声データのサンプル数を増減させたテレビジョンデータを字幕作成装置30に送信し続けた後、音声データのサンプル数を元にしたテレビジョンデータを字幕作成装置30に送信する。
【0038】
このように、誤差時間を基に算出した継続時間、音声データのサンプル数を増減させたテレビジョンデータを出力調整部14から出力し続けることで、その間、オペレータに聞こえる音声スピードが変化する。この結果、オペレータは音声スピードの変化に応じて字幕の文字入力のスピードを変化させる。この為、字幕作成装置30での字幕データの作成スピードが変化し、インサータ50で字幕データとテレビジョンデータとが適切に合成される。
【0039】
音声認識装置20の記憶部21は、テレビジョンデータの音声データから字幕データを作成する音声認識プログラムが記憶されている。尚、音声認識プログラムによる音声データから字幕データへの変換は既知の技術である為、詳細な説明は省略する。
【0040】
【発明の実施の形態】
音声認識装置20の制御部22は、サーバ10からテレビジョンデータを受信すると、音声認識プログラに従って、受信したテレビジョンデータの音声データを字幕データに変換するものである。尚、音声認識装置20は、ほぼ一定の変換速度で音声データを字幕データに変換する。例えば、音声認識装置20は、5(文字/s)の変換速度で字幕データ変換する。この変換速度は予め判っているものとする。
【0041】
字幕生成装置30の制御部33は、サーバ10からのテレビジョンデータを受信すると、この受信したテレビジョンデータの音声データを音声としてスピーカ31から出力させる。この音声を聞き取ったオペレータが入力部32から字幕の文字を入力すると、制御部33は入力された文字に基づいて字幕データを生成して比較装置40に送信する。
【0042】
ところで、通常、オペレータによる字幕の文字の入力作業は、比較的余裕がある。この結果、オペレータに聞こえる音声スピードが上がった場合でも、オペレータは字幕の文字を入力することができる。
【0043】
比較装置40のバッファ41は、FIFO型のバッファであり、受信機(図示されず)の画面に表示させる字幕の文字数分、音声認識装置20からの字幕データを蓄積するものである。
【0044】
比較装置40のバッファ42は、FIFO型のバッファであり、バッファ41と同様に受信機の画面に表示させる字幕の文字数分、字幕作成装置30からの字幕データを蓄積するものである。
【0045】
比較装置40のタイマー43は、合成タイミング調整システムが動作してからの時間を計時するものである。
【0046】
比較装置40の記憶部44は、テーブルA、及びテーブルBが記憶されている。
【0047】
テーブルAには、音声認識装置20からの字幕データの各文字と、この各文字がバッファ41に蓄積された時点の時間とが関連付けられている。
【0048】
テーブルBには、字幕作成装置30からの字幕データの各文字と、この各文字がバッファ42に蓄積された時点の時間とが関連付けられている。
【0049】
比較装置40の制御部45は、音声認識装置20から送信されて来る字幕データをバッファ41に蓄積すると共に、この字幕データの各文字をバッファ41に蓄積した時点の時間をタイマー43から取得し、字幕データの各文字と取得した時間とを関連付けてテーブルAに記憶させる。同様に、字幕作成装置30から送信されて来る字幕データをバッファ42に蓄積すると共に、この字幕データの各文字をバッファ42に蓄積した時点の時間をタイマー43から取得し、字幕データの各文字と取得した時間とを関連付けてテーブルBに記憶させる。
【0050】
また、制御部45は、一定の周期(例えば、10秒周期)で誤差時間を計算する。具体的には、まず、バッファ42に蓄積されている字幕データの先頭から連続した2文字の漢字を検索し、この検索した2文字の漢字と同一の2文字の漢字をバッファ41に蓄積されている字幕データの先頭から検索する。そして、同一の2文字の漢字が検索できるか否かを判別する。この結果、同一の2文字の漢字が検索できた場合、この検索した2文字の漢字と同一の漢字をテーブルAから検索し、この検索した2文字の漢字のうち、先頭の一文字の漢字と関連付けられている時間をテーブルAから読み出す。同様に、先に検索した2文字の漢字と同一の漢字をテーブルBから検索し、この検索した2文字の漢字のうち、先頭の一文字の漢字と関連付けられている時間をテーブルBから読み出す。
【0051】
更に、図2に示す如く、テーブルAより読み出した時間(K)からテーブルBより読み出した時間(H)を減算し、この減算結果から音声認識装置20の変換速度から算出した変換時間(d)を減算して誤差時間(T)とする。すなわち、制御部45は、T=K−H−dの計算を行なう。このようにして求めた時間を誤差時間(T)としてサーバ10に送信する。
【0052】
インサータ50は、サーバ10から送信されて来たテレビジョンデータと字幕生成装置30から送信されて来た字幕データとを合成するものである。
【0053】
続いて、上記構成における動作について説明する。
【0054】
図3は字幕データの各文字がバッファ41に蓄積された時点の時間の取得について説明する為の図である。図4はテーブルAを説明する為の図である。図5は字幕データの各文字がバッファ42に蓄積された時点の時間の取得について説明する為の図である。図6はテーブルBを説明する為の図である。
【0055】
尚、オペレータが聞き取れる音声スピードは、通常の音声スピードの0.75倍〜1.5倍程度である。そこで、本実施の形態では、誤差時間の値がマイナスの値である場合(字幕作成装置30での音声スピードを加速する必要がある場合)、サーバ10の出力調整部14から出力するテレビジョンデータの音声データおけるサンプル数が1/1.5倍になるようにし、誤差時間の値がプラスの値である場合(字幕作成装置30での音声スピードを減速する必要がある場合)、出力調整部14から出力するテレビジョンデータの音声データにおけるサンプル数が1/0.75倍になるようにするものとして説明する。
【0056】
合成タイミング調整システムが動作し出すと、サーバ10の出力調整部14は、タイマー12で計時されている時間の監視を開始する。そして、出力調整部14は、タイマー12の時間が放送時間から先行時間を差し引いた時間になると、記憶部11に記憶されているテレビジョンデータを読み出し、この読み出したテレビジョンデータを字幕データ作成の為のテレビジョンデータとして字幕作成装置30に送信する。
【0057】
一方、サーバ10の出力部13でもタイマー12の時間を監視しており、タイマー12の時間が放送時間になると、出力調整部14から出力されたテレビジョンデータと同一のテレビジョンデータを記憶部11から読み出し、この読み出したテレビジョンデータを放送の為のテレビジョンデータとしてインサータ50に送信する。
【0058】
ところで、サーバ10からテレビジョンデータを受信した字幕作成装置30では、制御部33がテレビジョンデータの音声データを音声としてスピーカ31から出力する。この出力された音声を聞き取ったオペレータは、入力部32から字幕の文字を入力する。そして、制御部33は、入力部32から入力された文字に基づいて、字幕データを生成して通信部31を介してインサータ50及び比較装置40に送信する。
【0059】
そして、インサータ50は、サーバ10からテレビジョンデータを受信すると、受信したテレビジョンデータと字幕作成装置30からの字幕データとを合成する。
【0060】
一方、サーバ10からテレビジョンデータを受信した音声認識装置20では、制御部22が記憶部21の音声認識プログラムを実行し、音声認識プログラムに従って、受信したテレビジョンデータの音声データを字幕データに変換する。この変換した字幕データを比較装置40に送信する。
【0061】
そして、比較装置40の制御部45は、音声認識装置20から字幕データを受信すると、受信した字幕データをバッファ41に蓄積すると共に、この字幕データの各文字をバッファ41に蓄積した時点の時間をタイマー43から取得し、字幕データの各文字と取得した時間とを関連付けてテーブルAに記憶させる。例えば、図3に示す如く、音声認識装置20から送信されて来た字幕データの順序が”今日は晴れでしたが、明日わ西日本空手んきがくずれて来るで賞。・・・”の順序であり、この送信されて来た順序でバッファ41に蓄積され、字幕データ”今”がバッファ41に蓄積された時点の時間が10.51s、字幕データ”日”がバッファ41に蓄積された時点の時間が10.56s、字幕データ”は”がバッファ41に蓄積された時点の時間が10.61s・・・・である場合、制御部45は、字幕データ”今”がバッファ41に蓄積された時点の時間(10.51s)を取得し、字幕データ”日”がバッファ41に蓄積された時点の時間(10.56s)を取得し、字幕データ”は”がバッファ41に蓄積された時点の時間(10.61s)を取得し、・・・を取得する。更に、図4に示す如く、制御部45は、字幕データ”今”と取得した時間”10.51s”とを関連付け、字幕データ”日”と取得した時間”10.56s”とを関連付け、字幕データ”は”と取得した時間”10.61s”とを関連付け、・・・てテーブルAに記憶させる。
【0062】
同様に、比較装置40の制御部45は、字幕生成装置30から字幕データを受信すると、受信した字幕データをバッファ42に蓄積すると共に、字幕データの各文字をバッファ42に蓄積した時点の時間をタイマー43から取得し、字幕データの各文字と取得した時間とを関連付けてテーブルBに記憶させる。例えば、図5に示す如く、字幕作成装置30から送信されて来た字幕データが”晴れでしたが、明日は西日本から天気がくずれてくるでしょう。・・・”の順序であり、この送信されて来た順序でバッファ42に蓄積され、字幕データの各文字がバッファ42に蓄積された時点の時間が順に、6.01s、6.06s、6.11s、・・・である場合、制御部45は、字幕データの各文字がバッファ42に蓄積された時点の時間(6.01s、6.06s、6.11s、・・・)を取得する。更に、図6に示す如く、制御部45は、字幕データ”晴”と取得した時間”6.01s”とを関連付け、字幕データ”れ”と取得した時間”6.06s”とを関連付け、字幕データ”で”と取得した時間”6.11s”とを関連付け、・・・てテーブルBに記憶させる。
【0063】
次に、比較装置40の制御部45は、バッファ42に蓄積されている字幕データから連続した2文字の漢字をバッファ42の先頭から順に検索する。この検索した2文字の漢字と同一の2文字の漢字が、バッファ41に蓄積されている字幕データから検索できるか否かを判別する。例えば、バッファ42に字幕データ”晴れでしたが、明日は西日本から天気がくずれてくるでしょう。”が蓄積され、バッファ41に蓄積されている字幕データが” 今日は晴れでしたが、明日わ西日本空手んきがくずれて来るで賞。”が蓄積されている場合、制御部45は、連続した2文字の漢字をバッファ42に蓄積されている字幕データの先頭から検索し、”明日”を検索する。更に、制御部45は、検索した字幕データ”明日”と同一の2文字の漢字をバッファ41に蓄積されている字幕データの先頭から検索し、同一の2文字の漢字が検索できるか否かを判別する。
【0064】
この結果、同一の2文字の漢字が検索できないと判別した場合、制御部45は、次の2文字の漢字をバッファ42に蓄積されている字幕データから検索し、この検索した2文字の漢字と同一の漢字がバッファ41に蓄積されている字幕データから検索できるか否かを判別する。このような動作を繰り返し、バッファ42に蓄積されている字幕データと、バッファ41に蓄積されている字幕データとから同じ2文字の漢字が検索できない場合、更なる字幕データがバッファ41及びバッファ42に蓄積されるまで待機する。
【0065】
一方、同一の2文字の漢字が検索できたと判別した場合、制御部45は、バッファ41から検索した2文字の漢字のうち、先頭の一文字の漢字と関連付けられている時間をテーブルAから検索し、この検索した時間をテーブルAから読み出す。また、制御部45は、バッファ42から検索した2文字の漢字のうち、先頭の一文字の漢字と関連付けられている時間をテーブルBから検索し、この検索した時間をテーブルBから読み出す。例えば、上述の例において、バッファ41及びバッファ42には、”明日”の字幕データが蓄積されていることから、この字幕データ”明日”と同一の2文字の漢字をテーブルAから検索し、この検索した2文字の漢字のうち、先頭の一文字の漢字”明”と関連付けられている時間”11.01s”をテーブルAから読み出す。同様に、制御部45は、先に検索した2文字の漢字”明日”と同一の2文字の漢字”明日”をテーブルBから検索し、この検索した2文字の漢字のうち、先頭の一文字の漢字”明”と関連付けられている時間”6.36s”をテーブルBから読み出す。
【0066】
そして、制御部45は、テーブルAより読み出した時間からテーブルBより読み出した時間を減算する。すなわち、制御部45は、(11.01s−6.36s=4.65s)の計算を行なう。更に、制御部45は、計算した時間(4.65s)から音声認識装置20の変換速度を基に算出した変換時間(5s)を減算し、これにより算出された時間(4.65s−5s=−0.35s)を誤差時間としてサーバ10に送信する。
【0067】
比較装置40から誤差時間を受信したサーバ10の出力調整部14は、受信した誤差時間を調べる。
【0068】
誤差時間が”0s”である場合、出力調整部14は現状を維持する。
【0069】
一方、誤差時間の値がマイナスの値である場合、出力調整部14は、記憶部11から読み出したテレビジョンデータの音声データにおけるサンプル数が減少するようにする。例えば、誤差時間(T)が”−1s”であり、現在の音声データの単位時間当たりのサンプル数が48 k sampleである場合、出力調整部14は、音声データのサンプル数が”48/1.5=32 k sample”になるように変換し、単位時間当たり48k sampleで出力する。これにより、字幕作成装置30のオペレータに聞こえる音声スピードが上がる。
【0070】
また、誤差時間の値がプラスの値である場合、出力調整部14は、記憶部11から読み出したテレビジョンデータの音声データのサンプル数を増加させる。例えば、誤差時間(T)が”+1s”である場合、出力調整部14は、音声データのサンプル数が”48/0.75=64 k sample”になるように変換し、単位時間当たり48k sampleで出力する。これにより、字幕作成装置30のオペレータに聞こえる音声スピードが下がる。
【0071】
更に、出力制御部14は、受信した誤差時間を基に継続時間を算出する。例えば、誤差時間(T)が”−1s”である場合、出力制御部14は、誤差時間から”|−1/(1.5−1)|=2.0s”を計算する。
【0072】
そして、出力制御部14は、算出した継続時間、音声データのサンプル数を増減させたテレビジョンデータを字幕作成装置30に送信し続ける。
【0073】
継続時間経過後、出力調整部14は増減させた音声データのサンプル数が元のサンプル数(48 k sample)になるようにして字幕作成装置30に送信する。
【0074】
このように、出力調整部14が音声データのサンプル数を増減させることにより、字幕作成装置30のオペレータに聞こえる音声スピードが変化する。この結果、字幕作成装置30での字幕データの作成スピードが変化し、インサータ50で字幕データとテレビジョンデータとを適切に合成させることができる。
【0075】
尚、バッファ41、43に蓄積される字幕データの文字数を受信機の画面に表示させる字幕の文字数として説明したが、この場合に限るものではない。例えば、受信機の画面に表示される字幕の文字数より多い文字数分又は少ない文字数分の字幕データを蓄積するようにしても良い。
【0076】
また、本実施の形態では、連続した2文字の漢字をバッファ41及びバッファ42に蓄積されている字幕データから検索する場合について説明したが、この場合に限るものではない。例えば、連続した3文字の平仮名でも良い。
【0077】
また、サーバ10から字幕作成装置20に送信するテレビジョンデータを、映像データと音声データとから成るテレビジョンデータとしたが、この場合に限るものではない。例えば、サーバ10から字幕作成装置20に送信するデータを音声データのみとしても良い。
【0078】
また、本実施の形態では、サーバ10から出力するテレビジョンデータの制御を出力部13及び出力調整部14によって実現する場合について説明したが、この場合に限るものではない。例えば、出力部13及び出力調整部14をディジタル信号処理プロセッサで実現するようにしても良い。
【0079】
また、本実施の形態では、音声データのサンプル数を1/1.5倍又は1/0.75倍にする場合について説明したが、この場合に限るものではない。この倍率は任意に可変できるようにしても良い。
【0080】
第2の実施の形態について説明する。
【0081】
第1の実施の形態では、サーバから出力する音声データのサンプル数が(1/0.75)倍又(1/1.5)倍になるようにする場合、すなわち、字幕生成装置のオペレータに聞こえる音声スピードを急激に0.75倍又は1.5倍に変化させる場合について説明した。
【0082】
しかしながら、音声スピードを急激に変化させると、その変化にオペレータが対応できない場合が生じる。
【0083】
そこで、第2の実施の形態では、サーバから出力するテレビジョンデータの音声データにおけるサンプル数を段階的に減少又は増加させて、字幕生成装置のオペレータに聞こえる音声スピードを段階的に上げ又は下げることを特徴とする。
【0084】
以下、第2の実施の形態を詳細に説明する。
【0085】
サーバ10の出力調整部14には、第1の実施の形態で説明した放送時間及び先行時間に加え、更新情報が設定されている。
【0086】
ここで、更新情報は、出力調整部14から出力するテレビジョンデータの音声データにける単位時間当たりのサンプル数を、どの程度段階的に増加又は減少させて、目的の単位時間当たりのサンプル数に近づけていくかを示す情報である。
【0087】
また、出力調整部14は、第1の実施の形態で説明した機能に加え、設定されている更新情報に従って、音声データのサンプル数を段階的に増加又は減少させて、目的の音声データのサンプル数に近づけていくものである。
【0088】
続いて、上記構成における動作について説明する。
【0089】
尚、比較装置40で算出した誤差時間に従って、サーバ10から出力するテレビジョンデータの音声データのサンプル数を増減させるまでの動作は、第1の実施の形態で説明した動作と同様であることから、本実施の形態では省略する。
【0090】
出力調整部14は、音声データのサンプル数を増減させる場合、設定されている更新情報に従って、現在の音声データのサンプル数を、段階的に増加又は減少させて、目的の音声データのサンプル数に近づけていく。例えば、現在の音声データの単位時間当たりのサンプル数が”48 k sample”、目的の音声データのサンプル数が”48/0.75=64 k sample”であり、更新情報が0.5s毎に10%づつ単位時間当たりのサンプル数を段階的に減少又は増加させて目的の音声データのサンプル数に近づけていくよう指示する情報である場合、出力調整部14は、最初の0.5秒後に音声データのサンプル数”48 k sample”が”52.8 k sample”になるよう更新し、更に0.5秒後に音声データのサンプル数”52.8 k sample”が”57.6 k sample”になるように更新し、・・・・最後に”59.2 k sample”が”64 k sample”になるようにする。
【0091】
このように、出力調整部14が音声データのサンプル数を段階的に減少又は増加させることで、字幕作成装置30のオペレータが聞き取る音声スピードが段階的に上がり又は下がる為、オペレータは音声スピードの変化に対応することができる。
【0092】
尚、第1及び第2の実施の形態では、字幕と音声とが同時に受信機から出力される場合について説明したが、この場合に限るものではない。例えば、字幕付き放送を視聴している視聴者は、音声の出力される僅か前に字幕が受信機の画面に表示される(例えば、音声が出力される0.5秒前に字幕が受信機の画面に表示される)と、字幕を違和感なく読むことができる。このように字幕を違和感なく読むことができるよう誤算時間を考慮しても良い。すなわち、誤差時間が”+0.5s”のとき、第1の実施の形態で説明した誤差時間”0s”に相当するものとする。
【0107】
【発明の効果】
本発明によれば、字幕編集に時間がかけられない場合でも、字幕が適切なタイミングで受信機の画面に表示されるようテレビジョンデータと字幕データとの合成タイミングを調整することができるという優れた効果を奏する。
【0108】
本発明によれば、サーバから出力するテレビジョンデータの音声データのサンプル数を段階的に減少又は増加させて目的のサンプル数にする為、オペレータに聞こえる音声スピードが段階的の変化し、その変化にオペレータが追従することができるという優れた効果を奏する。
【図面の簡単な説明】
【図1】合成タイミング調整システムのブロック図である。
【図2】誤差時間を説明する為の図である。
【図3】字幕データの各文字がバッファ41に蓄積される時点の時間の取得について説明する為の図である。
【図4】テーブルAを説明する為の図である。
【図5】字幕データの各文字がバッファ42に蓄積される時点の時間の取得について説明する為の図である。
【図6】テーブルBを説明する為の図である。
【図7】合成タイミング調整システムのブロック図である。
【符号の説明】
10 サーバ
20 音声認識装置
30 字幕作成装置
40 比較装置
50 インサータ
[0001]
[Technical field to which the invention belongs]
The present invention relates to a technique for adjusting the timing of synthesizing subtitle broadcast video and subtitles on the broadcast station side, and in particular, in subtitle broadcast where subtitle editing cannot take time, video and subtitles are appropriately received by a receiver. The present invention relates to a technique for adjusting the synthesis timing of video and subtitles so that they are displayed at a proper timing.
[0002]
[Prior art]
Among television broadcasts, there is a caption broadcast, which is a broadcast that displays captions within a range of 1 to 3 lines as about 15 characters per line on the receiver screen. The subtitles displayed on the receiver screen are displayed for about 5 to 6 seconds in consideration of the time that humans can read, and then the new subtitles of the receiver are replaced by totally replacing the first three lines. Display on the screen. Thus, in order to display subtitles on the receiver screen, the substation data corresponding to the audio of the program to be broadcast is created on the broadcast station side, and the created subtitle data is transmitted to the viewer by the text broadcasting method. It is transmitted and synthesized with video data by a dedicated teletext decoder.
[0003]
By the way, in a program with subtitles, it usually takes about one week to edit subtitles. For example, in a program such as a drama program that takes time to edit captions, first, caption data is created by a word processor or the like based on recorded video and audio. Then, the television data and the caption data are displayed so that the caption displayed on the receiver screen feels natural to the viewer (the caption is displayed before the audio is output (approximately 0.5 seconds before)). And synthesize.
[0004]
However, when subtitle editing must be performed on the day of the program broadcast, it is not possible to spend time on subtitle editing. For this reason, the broadcasting station must synthesize the caption data with the television data and broadcast it while creating the caption data based on the television data. In this case, as a method of creating caption data, a method of converting audio data of television data into caption data using a speech recognition program, and a method of creating caption data using a word processor while an operator listens to sound You could think so.
[0005]
And the method of converting to subtitle data using the voice recognition program has a constant conversion time from the voice data to the subtitle data, but the current voice recognition program has a voice recognition capability of about 90%. An error may be mixed in the subtitle data.
[0006]
On the other hand, the method of creating caption data by the operator varies in the conversion time from the audio data to the caption data, but errors are rarely mixed in the caption data created from the audio data of the television data.
[0007]
As a result, caption data created by an operator is used as caption data for which accuracy is required.
[0008]
Furthermore, in the broadcast with subtitles, it is necessary to appropriately combine the television data and the subtitle data so that the subtitles displayed on the receiver match the audio output timing so as not to give the viewer a sense of incongruity. As described above, as a method of appropriately combining the television data and the caption data, a method of adjusting the output of the television data in accordance with the conversion timing to the caption data and combining the caption data and the television data, and an operator In consideration of the subtitle conversion time, television data is given to the operator before the broadcast time, and the television data is converted into subtitle data based on the television data, and the subtitle data and the television data are combined.
[0009]
[Problems to be solved by the invention]
However, in the former method, since the output of the television data fluctuates, the video broadcast by the receiver is fluctuated, giving the viewer a sense of incongruity. That is, the output of television data must be constant.
[0010]
Therefore, in the present invention, in consideration of the caption conversion time of the operator, the television data is given to the operator in advance at an appropriate timing and converted into the caption data, so that the caption data and the television data are appropriately combined. It is to provide the technology to adjust.
[0011]
[Means for Solving the Problems]
  A first invention for solving the above-mentioned problem is a system for adjusting the timing of synthesizing caption data to television data composed of audio data and video data,
  Storage means for storing television data;
  Output means for outputting broadcast television data and audio data of the television data stored in the storage means;
  Generating means for reproducing audio from the audio data output from the output means, and generating subtitle data by operator input based on the reproduced audio;
  Conversion means for converting audio data of broadcast television data output from the output means into subtitle data at a constant conversion speed by voice recognition;
  Synthesizing means for synthesizing the broadcast television data output from the output means and the caption data generated by the generating means;
  Of the subtitle data generated by the generating means, the same subtitle data as the arbitrary subtitle data is searched from the subtitle data converted by the converting means, and the time at the end of conversion of the searched subtitle data in the converting means Subtracting the conversion time calculated on the basis of the time at the end of generation of the arbitrary subtitle data in the generation unit and the conversion speed of the conversion unit to calculate the time difference of synthesis timing in the synthesis unitCalculation means;
  Control means for adjusting the speed of the sound reproduced in the generating means by controlling the sound data output from the output means based on the deviation time calculated by the calculating means.
[0012]
  According to a second invention for solving the above-mentioned problem, in the first invention,
  The control means includesBased on the deviation time calculated by the calculating means, the speed of the sound reproduced by the generating means is adjusted by increasing or decreasing the number of samples of the audio data output from the output means. Characterize.
[0013]
According to a third invention for solving the above-described problem, in the first or second invention, the control unit is configured to determine the television data and the caption data in the synthesizing unit based on the time calculated by the calculation unit. If the timing of synthesizing the subtitle data is behind the appropriate synthesis timing, the number of samples of the audio data output from the output means is reduced and the audio reproduced by the generating means When the subtitle data is ahead of the synthesis timing, the number of samples of the audio data output from the output means is increased to reduce the speed of the reproduced audio.
[0014]
According to a fourth invention for solving the above-mentioned problem, in the second invention, the control means decreases or increases the number of samples of the current audio data stepwise to approach the number of samples of the target audio data. Control is performed so that the speed of the sound reproduced by the generating means is gradually reduced or accelerated.
[0015]
According to a fifth invention for solving the above-mentioned problem, in the first or second invention, the synthesis timing adjustment system is
First accumulating means for accumulating subtitle data generated by the generating means;
Second storage means for storing subtitle data converted by the conversion means,
The calculating means includes the same continuous character as the predetermined continuous character selected from the caption data stored in the first storage means included in the caption data stored in the second storage means. It is configured to calculate whether or not the difference time is calculated when the same consecutive characters are included.
[0016]
  A sixth invention for solving the above-described problem is a system for adjusting the timing of synthesizing caption data to television data composed of audio data and video data,
  Storage means for storing television data;
  Output means for outputting broadcast television data and audio data of the television data stored in the storage means;
  Generating means for reproducing audio from the audio data output from the output means, and generating subtitle data by operator input based on the reproduced audio;
  Broadcast output from the output meansConstant conversion speed by voice recognition for audio data of television dataConversion means for converting to subtitle data with
  Synthesizing means for synthesizing the caption data generated by the generating means and the television data for broadcasting output from the output means;
  First storage means for storing subtitle data generated by the generation means;
  Second storage means for storing the caption data converted by the conversion means;
  Generated by the generating meansA first table in which the characters of the caption data and the time when the characters are accumulated in the first accumulation means are stored in association with each other;
  Converted by the converting meansA second table in which the characters of the caption data are stored in association with the time at which the characters were accumulated in the second accumulation means;
  The time when each character of the caption data generated by the generating means is stored in the first storage means, and each character of the caption data converted by the conversion means is stored in the second storage means The time at the time is monitored, and each character of the subtitle data is stored in the first table or the second table in association with the time at which each character is accumulated in the first accumulation means or the second accumulation means. Means to
  It is determined whether or not the subtitle data stored in the second storage unit includes the same continuous character as the predetermined continuous character selected from the subtitle data stored in the first storage unit. Discriminating means to perform,
  When it is determined by the determining means that the same continuous character is included, the same character as this character is searched from the first table and the second table, and the time associated with the searched character Reading means for reading from the first table and the second table;
  The time read from the first table and the conversion time calculated based on the conversion speed of the conversion means are subtracted from the time read from the second table to calculate the synthesis timing shift time in the synthesis means. Calculation means;
  Control means for adjusting the speed of the sound reproduced by the generating means by increasing or decreasing the number of samples of the sound data output from the output means based on the deviation time calculated by the calculating means. And
[0017]
According to a seventh invention for solving the above-mentioned problem, in the sixth invention, the control means is a timing for synthesizing the television data and the caption data in the synthesizing means based on the time calculated by the calculating means. If the timing of synthesizing the caption data is behind the appropriate synthesis timing, the number of samples of the audio data output from the output means is reduced and the speed of the audio reproduced by the generating means is reduced. When the subtitle data is advanced from the synthesis timing, the number of samples of the audio data output from the output means is increased to reduce the speed of the reproduced audio.
[0018]
According to an eighth invention for solving the above-mentioned problem, in the sixth invention, the control means decreases or increases the number of samples of the current audio data stepwise to approach the number of samples of the target audio data. Control is performed so that the speed of the sound reproduced by the generating means is gradually reduced or accelerated.
[0020]
First, the configuration of the present embodiment will be described.
[0021]
FIG. 1 is a block diagram of a synthesis timing adjustment system. FIG. 2 is a diagram for explaining the error time.
[0022]
The synthesis timing adjustment system according to the present embodiment includes a server 10, a speech recognition device 20, a caption creation device 30, a comparison device 40, and an inserter 50.
[0023]
The server 10 includes a storage unit 11, a timer 12, an output unit 13, and an output adjustment unit 14.
[0024]
The voice recognition device 20 includes a storage unit 21 and a control unit 22.
[0025]
Furthermore, the caption creation device 30 includes a speaker 31, an input unit 32, and a control unit 33.
[0026]
The comparison device 40 includes buffers 41 and 42, a timer 43, a storage unit 44, and a control unit 45.
[0027]
Each configuration will be described below.
[0028]
The storage unit 11 of the server 10 stores broadcast television data.
[0029]
The timer 12 of the server 10 measures the current time (time).
[0030]
The output unit 13 of the server 10 monitors the timer 12, and when the timer 12 reaches a preset broadcast time, the storage unit 11 stores the same television data as the television data output from the output adjustment unit 14. The read television data is output to the inserter 50 as television data for broadcasting.
[0031]
The output adjustment unit 14 of the server 10 is set with a broadcast time and a preceding time. The preceding time is a rough time required for creating caption data from audio data in the caption generation device 30, and is an experience value.
[0032]
Further, the output adjustment unit 14 of the server 10 monitors the timer 12, and when the time of the timer 12 reaches the time obtained by subtracting the preceding time from the broadcast time, the television 10 stores the television data stored in the storage unit 11 and reads this data. The television data is output to the caption creating device 30 as television data for creating caption data. For example, when the broadcast time is 10h00m00s, where h is hours, m is minutes, and s is seconds, and the preceding time is 5s, the output adjustment unit 14 sets the time of the timer 12 to (10h00m00s− 5s = 9h59m55s), the television data stored in the storage unit 11 is output to the subtitle creating apparatus 30.
[0033]
Further, the output adjustment unit 14 receives an error time (shift time) transmitted from the comparison device 40. The error time indicates how much time is shifted from the timing at which the caption data from the caption creation device 20 and the television data for broadcasting output from the server 10 can be appropriately combined in the inserter 50. It's time. For example, when the error time is “0 s”, it indicates that the caption data and the television data are appropriately combined.
[0034]
The output adjustment unit 14 checks the received error time. When the error time is “0 s”, the output adjustment unit 14 maintains the current state. On the other hand, when the error time is other than “0 s”, the output adjustment unit 14 increases or decreases the number of audio data samples of the television data read from the storage unit 11, and the audio data obtained by increasing or decreasing the number of samples is newly updated. Let it be audio data.
[0035]
Incidentally, the transfer rate of audio data output from the server 10 is fixed. As a result, in order to change the voice speed that can be heard by the operator (human), the total amount of voice data to be reproduced by the caption creating device 30 must be increased or decreased. That is, the audio data with the number of samples increased or decreased must be output from the server 10 at a fixed transfer rate. For example, when the number of samples per unit time of the current audio data is X sample and the audio speed heard by the operator of the caption creation device 30 is multiplied by α, the output adjustment unit 14 determines that the number of audio data samples is “X / Α "sample, increase / decrease and output at Xsample per unit time. Note that the technology for creating new audio data by increasing or decreasing the number of samples of the current audio data is an existing technology, and thus detailed description thereof is omitted.
[0036]
Further, the output adjustment unit 14 determines the duration (duration) and how long the audio data of the increased / decreased data is to be continuously transmitted to the caption creation device 30. Therefore, the output adjustment unit 14 sets the duration based on the received error time. calculate. For example, when the error time is T and the voice speed heard by the operator of the caption production device 30 is α times the normal voice speed, the output adjustment unit 14 | T / (α−1) | ( Calculate the duration by calculating s).
[0037]
Then, the output adjustment unit 14 continues to transmit the television data in which the calculated duration and the number of samples of the audio data are increased / decreased to the caption creation device 30, and then the television data based on the number of samples of the audio data is obtained. It transmits to the caption production device 30.
[0038]
In this way, by continuing to output from the output adjustment unit 14 the duration calculated based on the error time and the number of samples of audio data, the audio speed heard by the operator changes. As a result, the operator changes the speed of subtitle character input in accordance with the change in voice speed. For this reason, the subtitle data creation speed in the subtitle creation apparatus 30 changes, and the inserter 50 appropriately synthesizes the subtitle data and the television data.
[0039]
The storage unit 21 of the speech recognition apparatus 20 stores a speech recognition program that creates caption data from the audio data of the television data. Note that conversion from voice data to subtitle data by the voice recognition program is a known technique, and thus detailed description thereof is omitted.
[0040]
DETAILED DESCRIPTION OF THE INVENTION
  When receiving the television data from the server 10, the control unit 22 of the speech recognition device 20 receives the speech recognition program.MuAccordingly, the audio data of the received television data is converted into subtitle data. Note that the voice recognition device 20 converts voice data into subtitle data at a substantially constant conversion speed. For example, the voice recognition device 20 has caption data at a conversion speed of 5 (characters / s).InConvert. This conversion speed is assumed to be known in advance.
[0041]
When receiving the television data from the server 10, the control unit 33 of the caption generation device 30 causes the audio data of the received television data to be output from the speaker 31 as sound. When the operator who has heard this voice inputs a subtitle character from the input unit 32, the control unit 33 generates subtitle data based on the input character and transmits it to the comparison device 40.
[0042]
By the way, normally, there is a relatively large margin for the input operation of subtitle characters by the operator. As a result, even when the voice speed heard by the operator increases, the operator can input subtitle characters.
[0043]
The buffer 41 of the comparison device 40 is a FIFO buffer, and accumulates subtitle data from the speech recognition device 20 for the number of subtitle characters to be displayed on the screen of a receiver (not shown).
[0044]
The buffer 42 of the comparison device 40 is a FIFO buffer, and stores the subtitle data from the subtitle creation device 30 as many times as the number of subtitle characters to be displayed on the receiver screen in the same manner as the buffer 41.
[0045]
The timer 43 of the comparison device 40 measures the time after the synthesis timing adjustment system operates.
[0046]
The storage unit 44 of the comparison device 40 stores a table A and a table B.
[0047]
In the table A, each character of the caption data from the speech recognition device 20 is associated with the time at which each character is accumulated in the buffer 41.
[0048]
In the table B, each character of the caption data from the caption creating device 30 is associated with the time when each character is accumulated in the buffer 42.
[0049]
The control unit 45 of the comparison device 40 accumulates the caption data transmitted from the speech recognition device 20 in the buffer 41, acquires the time at which each character of the caption data is accumulated in the buffer 41 from the timer 43, Each character of the caption data is associated with the acquired time and stored in the table A. Similarly, the caption data transmitted from the caption creation device 30 is accumulated in the buffer 42, and the time at which each character of the caption data is accumulated in the buffer 42 is obtained from the timer 43, and each character of the caption data The acquired time is associated with and stored in the table B.
[0050]
Further, the control unit 45 calculates the error time at a constant cycle (for example, a cycle of 10 seconds). Specifically, first, two consecutive kanji characters from the beginning of the caption data stored in the buffer 42 are searched, and two kanji characters identical to the searched two-character kanji are stored in the buffer 41. Search from the beginning of the closed caption data. Then, it is determined whether or not the same two Chinese characters can be searched. As a result, if the same two-character kanji can be searched, the same kanji as the searched two-character kanji is searched from the table A and associated with the first one of the searched two-character kanji. The stored time is read from table A. Similarly, the same Kanji as the previously searched two-character kanji is searched from the table B, and the time associated with the first one of the searched two-character kanji is read from the table B.
[0051]
Further, as shown in FIG. 2, the time (H) read from the table B is subtracted from the time (K) read from the table A, and the conversion time (d) calculated from the conversion speed of the speech recognition device 20 from the subtraction result. Is subtracted to obtain an error time (T). That is, the control unit 45 calculates T = K−H−d. The time thus obtained is transmitted to the server 10 as an error time (T).
[0052]
The inserter 50 synthesizes the television data transmitted from the server 10 and the caption data transmitted from the caption generation device 30.
[0053]
Next, the operation in the above configuration will be described.
[0054]
FIG. 3 is a diagram for explaining the acquisition of time at the time when each character of the caption data is accumulated in the buffer 41. FIG. 4 is a diagram for explaining the table A. FIG. 5 is a diagram for explaining the acquisition of the time at which each character of the caption data is accumulated in the buffer 42. FIG. 6 is a diagram for explaining the table B.
[0055]
The voice speed that the operator can hear is about 0.75 to 1.5 times the normal voice speed. Therefore, in the present embodiment, when the error time value is a negative value (when the audio speed in the caption production device 30 needs to be accelerated), the television data output from the output adjustment unit 14 of the server 10 When the number of samples in the audio data is 1 / 1.5 times and the error time value is a positive value (when the audio speed in the caption production device 30 needs to be reduced), the output adjustment unit It is assumed that the number of samples in the audio data of the television data output from 14 is 1 / 0.75 times.
[0056]
When the synthesis timing adjustment system starts operating, the output adjustment unit 14 of the server 10 starts monitoring the time counted by the timer 12. Then, when the time of the timer 12 reaches the time obtained by subtracting the preceding time from the broadcast time, the output adjustment unit 14 reads the television data stored in the storage unit 11 and uses the read television data to generate caption data. For this purpose, it is transmitted to the caption production device 30 as television data.
[0057]
On the other hand, the output unit 13 of the server 10 also monitors the time of the timer 12, and when the timer 12 reaches the broadcast time, the storage unit 11 stores the same television data as the television data output from the output adjustment unit 14. The read television data is transmitted to the inserter 50 as television data for broadcasting.
[0058]
By the way, in the caption production device 30 that has received the television data from the server 10, the control unit 33 outputs the audio data of the television data as sound from the speaker 31. The operator who has heard the output voice inputs subtitle characters from the input unit 32. And the control part 33 produces | generates caption data based on the character input from the input part 32, and transmits to the inserter 50 and the comparison apparatus 40 via the communication part 31. FIG.
[0059]
When the inserter 50 receives the television data from the server 10, the inserter 50 synthesizes the received television data with the caption data from the caption creation device 30.
[0060]
On the other hand, in the voice recognition device 20 that has received the television data from the server 10, the control unit 22 executes the voice recognition program in the storage unit 21, and converts the voice data of the received television data into subtitle data according to the voice recognition program. To do. The converted caption data is transmitted to the comparison device 40.
[0061]
Then, when receiving the caption data from the speech recognition device 20, the control unit 45 of the comparison device 40 accumulates the received caption data in the buffer 41 and sets the time at which each character of the caption data is accumulated in the buffer 41. It is acquired from the timer 43, and each character of the caption data is associated with the acquired time and stored in the table A. For example, as shown in FIG. 3, the order of the subtitle data transmitted from the speech recognition device 20 is “Today it was fine, but tomorrow is the West Japan Karate luck breaks out. The time when the subtitle data “now” is accumulated in the buffer 41 is 10.51 s, and the subtitle data “day” is accumulated in the buffer 41 in the order in which they are transmitted. Is 10.56 s, and the time when the subtitle data “is” stored in the buffer 41 is 10.61 s..., The control unit 45 stores the subtitle data “now” in the buffer 41. Time (10.51 s) is acquired, and the time (10.56 s) when subtitle data “date” is accumulated in the buffer 41 is obtained, and the subtitle data “is” is accumulated in the buffer 41. Time (10.61s To get the, to get the .... Further, as shown in FIG. 4, the control unit 45 associates the caption data “now” with the acquired time “10.51 s”, associates the caption data “date” with the acquired time “10.56 s”, and displays the caption. The data “is associated with the acquired time“ 10.61 s ”and stored in the table A.
[0062]
Similarly, when receiving the caption data from the caption generation device 30, the control unit 45 of the comparison device 40 accumulates the received caption data in the buffer 42 and sets the time at which each character of the caption data is accumulated in the buffer 42. It is acquired from the timer 43, and each character of the caption data is associated with the acquired time and stored in the table B. For example, as shown in FIG. 5, the subtitle data transmitted from the subtitle creation device 30 is in the order of “It was clear, but the weather will be lost from western Japan tomorrow. If the time at which each character of the caption data is stored in the buffer 42 is 6.01s, 6.06s, 6.11s,. The unit 45 acquires the time (6.01 s, 6.06 s, 6.11 s,...) When each character of the caption data is accumulated in the buffer 42. Further, as illustrated in FIG. 6, the control unit 45 associates the caption data “clear” with the acquired time “6.01s”, associates the caption data “re” with the acquired time “6.06 s”, and displays the caption. The data “in” is associated with the acquired time “6.11 s” and stored in the table B.
[0063]
Next, the control unit 45 of the comparison device 40 searches the subtitle data stored in the buffer 42 sequentially for two consecutive kanji characters from the top of the buffer 42. It is determined whether or not the same two-character kanji as the retrieved two-character kanji can be searched from the caption data stored in the buffer 41. For example, the subtitle data “It was clear in buffer 42, but the weather will fall from west Japan tomorrow.” Is stored, and the subtitle data stored in buffer 41 is “clear today, but tomorrow. When “Nippon Karate” comes down, the award is stored, and the control unit 45 searches for two consecutive kanji characters from the top of the subtitle data stored in the buffer 42 and selects “Tomorrow”. Search for. Further, the control unit 45 searches for the same two-character kanji as the searched subtitle data “Tomorrow” from the top of the subtitle data stored in the buffer 41, and determines whether or not the same two-character kanji can be searched. Determine.
[0064]
As a result, when it is determined that the same two-character kanji cannot be searched, the control unit 45 searches the subtitle data stored in the buffer 42 for the next two-character kanji, and the searched two-character kanji and It is determined whether or not the same kanji can be searched from subtitle data stored in the buffer 41. When such operations are repeated and the same two-character kanji cannot be searched from the subtitle data stored in the buffer 42 and the subtitle data stored in the buffer 41, further subtitle data is stored in the buffer 41 and the buffer 42. Wait until it accumulates.
[0065]
On the other hand, when it is determined that the same two kanji characters can be searched, the control unit 45 searches the table A for the time associated with the first kanji character among the two kanji characters searched from the buffer 41. The retrieved time is read from the table A. Further, the control unit 45 searches the table B for the time associated with the first one of the two kanji characters searched from the buffer 42 and reads the searched time from the table B. For example, in the above example, the subtitle data “Tomorrow” is stored in the buffer 41 and the buffer 42. Therefore, the same two-character kanji as the subtitle data “Tomorrow” is searched from the table A, The time “11.001 s” associated with the first Chinese character “Ming” of the two characters searched is read from the table A. Similarly, the control unit 45 searches the table B for the same two-character kanji character “Tomorrow” as the previously searched two-character kanji character “Tomorrow”. The time “6.36 s” associated with the Chinese character “Ming” is read from the table B.
[0066]
Then, the control unit 45 subtracts the time read from the table B from the time read from the table A. That is, the control unit 45 calculates (11.01 s−6.36 s = 4.65 s). Further, the control unit 45 subtracts the conversion time (5 s) calculated based on the conversion speed of the speech recognition apparatus 20 from the calculated time (4.65 s), and thereby calculates the time (4.65 s−5 s = -0.35 s) is transmitted to the server 10 as an error time.
[0067]
The output adjustment unit 14 of the server 10 that has received the error time from the comparison device 40 checks the received error time.
[0068]
When the error time is “0 s”, the output adjustment unit 14 maintains the current state.
[0069]
On the other hand, when the error time value is a negative value, the output adjusting unit 14 decreases the number of samples in the audio data of the television data read from the storage unit 11. For example, when the error time (T) is “−1 s” and the number of samples per unit time of the current audio data is 48 k samples, the output adjustment unit 14 determines that the number of samples of the audio data is “48/1”. .5 = 32 k sample ”and output at 48 k sample per unit time. Thereby, the voice speed heard by the operator of the caption creating device 30 is increased.
[0070]
When the error time value is a positive value, the output adjustment unit 14 increases the number of audio data samples of the television data read from the storage unit 11. For example, when the error time (T) is “+ 1s”, the output adjustment unit 14 converts the number of audio data samples to be “48 / 0.75 = 64 k sample”, and 48 k sample per unit time. To output. As a result, the voice speed heard by the operator of the caption creating device 30 is reduced.
[0071]
Further, the output control unit 14 calculates the duration based on the received error time. For example, when the error time (T) is “−1 s”, the output control unit 14 calculates “| −1 / (1.5−1) | = 2.0 s” from the error time.
[0072]
Then, the output control unit 14 continues to transmit the television data in which the calculated duration and the number of samples of the audio data are increased or decreased to the caption creating device 30.
[0073]
After the lapse of time, the output adjustment unit 14 transmits the increased or decreased audio data samples to the subtitle creating apparatus 30 so that the number of samples is the original number of samples (48 k samples).
[0074]
As described above, the output adjustment unit 14 increases or decreases the number of samples of the audio data, so that the audio speed heard by the operator of the caption creation device 30 changes. As a result, the subtitle data generation speed in the subtitle generation apparatus 30 changes, and the inserter 50 can appropriately combine the subtitle data and the television data.
[0075]
Note that the number of subtitle data stored in the buffers 41 and 43 has been described as the number of subtitle characters to be displayed on the receiver screen, but the present invention is not limited to this case. For example, subtitle data for the number of characters larger or smaller than the number of subtitle characters displayed on the receiver screen may be accumulated.
[0076]
In the present embodiment, the case where two consecutive kanji characters are searched from the subtitle data stored in the buffer 41 and the buffer 42 has been described. However, the present invention is not limited to this case. For example, a continuous three-character hiragana may be used.
[0077]
Further, although the television data transmitted from the server 10 to the caption creating device 20 is television data composed of video data and audio data, the present invention is not limited to this case. For example, the data transmitted from the server 10 to the caption creating device 20 may be only audio data.
[0078]
Moreover, although this Embodiment demonstrated the case where control of the television data output from the server 10 was implement | achieved by the output part 13 and the output adjustment part 14, it does not restrict to this case. For example, the output unit 13 and the output adjustment unit 14 may be realized by a digital signal processor.
[0079]
In the present embodiment, the case where the number of samples of the audio data is increased by 1 / 1.5 or 1 / 0.75 has been described. However, the present invention is not limited to this case. This magnification may be arbitrarily variable.
[0080]
A second embodiment will be described.
[0081]
In the first embodiment, when the number of samples of audio data output from the server is (1 / 0.75) times or (1 / 1.5) times, that is, for the operator of the caption generation device. The case where the sound speed to be heard is suddenly changed to 0.75 times or 1.5 times has been described.
[0082]
However, if the voice speed is changed rapidly, the operator may not be able to cope with the change.
[0083]
Therefore, in the second embodiment, the number of samples in the audio data of the television data output from the server is decreased or increased in stages, and the audio speed heard by the operator of the caption generation device is increased or decreased in stages. It is characterized by.
[0084]
Hereinafter, the second embodiment will be described in detail.
[0085]
In the output adjustment unit 14 of the server 10, update information is set in addition to the broadcast time and the preceding time described in the first embodiment.
[0086]
Here, the update information is obtained by increasing or decreasing the number of samples per unit time in the audio data of the television data output from the output adjustment unit 14 to the target number of samples per unit time. It is information indicating whether or not to approach.
[0087]
Further, in addition to the function described in the first embodiment, the output adjustment unit 14 increases or decreases the number of audio data samples in a stepwise manner according to the set update information, and samples the target audio data. It will be closer to the number.
[0088]
Next, the operation in the above configuration will be described.
[0089]
The operation until the number of samples of the audio data of the television data output from the server 10 is increased or decreased according to the error time calculated by the comparison device 40 is the same as the operation described in the first embodiment. In this embodiment, it is omitted.
[0090]
When increasing or decreasing the number of samples of audio data, the output adjustment unit 14 increases or decreases the number of samples of the current audio data stepwise according to the set update information to obtain the number of samples of the target audio data. Move closer. For example, the number of samples per unit time of the current audio data is “48 k sample”, the number of samples of the target audio data is “48 / 0.75 = 64 k sample”, and the update information is updated every 0.5 s. In the case of information for instructing to gradually reduce or increase the number of samples per unit time by 10% so as to approach the number of samples of the target audio data, the output adjustment unit 14 The number of audio data samples “48 k sample” is updated to “52.8 k sample”, and the number of audio data samples “52.8 k sample” becomes “57.6 k sample” 0.5 seconds later. Update so that “59.2 k sample” becomes “64 k sample”.
[0091]
As described above, the output adjustment unit 14 decreases or increases the number of samples of the audio data in stages, so that the audio speed heard by the operator of the caption creation device 30 increases or decreases in stages. It can correspond to.
[0092]
In the first and second embodiments, the case where subtitles and audio are simultaneously output from the receiver has been described. However, the present invention is not limited to this case. For example, a viewer who is watching a broadcast with subtitles displays subtitles on the receiver screen just before the audio is output (for example, the subtitles are received by the receiver 0.5 seconds before the audio is output). Can be read without discomfort. In this way, miscalculation time may be taken into consideration so that subtitles can be read without a sense of incongruity. That is, when the error time is “+0.5 s”, it corresponds to the error time “0 s” described in the first embodiment.
[0107]
【The invention's effect】
According to the present invention, it is possible to adjust the synthesis timing of the television data and the caption data so that the caption is displayed on the receiver screen at an appropriate timing even when the caption editing does not take time. Has an effect.
[0108]
According to the present invention, since the number of samples of the audio data of the television data output from the server is decreased or increased to the target number of samples, the voice speed heard by the operator changes stepwise, and the change An excellent effect is that the operator can follow the above.
[Brief description of the drawings]
FIG. 1 is a block diagram of a synthesis timing adjustment system.
FIG. 2 is a diagram for explaining an error time.
FIG. 3 is a diagram for describing acquisition of time at which each character of subtitle data is accumulated in a buffer 41;
FIG. 4 is a diagram for explaining a table A;
FIG. 5 is a diagram for describing acquisition of time at which each character of subtitle data is accumulated in a buffer;
FIG. 6 is a diagram for explaining a table B;
FIG. 7 is a block diagram of a synthesis timing adjustment system.
[Explanation of symbols]
10 servers
20 Voice recognition device
30 Subtitle creation device
40 comparison device
50 Inserter

Claims (8)

音声データと映像データとから成るテレビジョンデータに、字幕データを合成するタイミングを調整するシステムであって、
テレビジョンデータが記憶されている記憶手段と、
前記記憶手段に記憶されている放送用のテレビジョンデータとテレビジョンデータの音声データとを出力する出力手段と、
前記出力手段から出力された音声データから音声を再生し、この再生された音声に基づいて、オペレータの入力により字幕データを生成する生成手段と、
前記出力手段から出力される放送用のテレビジョンデータの音声データを、音声認識により一定の変換速度で字幕データに変換する変換手段と、
前記出力手段から出力された放送用のテレビジョンデータと前記生成手段で生成された字幕データとを合成する合成手段と、
前記生成手段で生成された字幕データのうち、任意の字幕データと同一の字幕データを前記変換手段で変換された字幕データから検索し、前記検索した字幕データの前記変換手段における変換終了時の時間から前記任意の字幕データの前記生成手段における生成終了時の時間及び前記変換手段の変換速度を基に算出した変換時間を減算して、前記合成手段における合成タイミングのずれ時間を算出する計算手段と、
前記計算手段で算出したずれ時間に基づいて、前記出力手段から出力する音声データを制御することによって、前記生成手段において再生される音声の速度を調整する制御手段と、
を有することを特徴とする合成タイミング調整システム。
A system for adjusting the timing of synthesizing caption data to television data composed of audio data and video data,
Storage means for storing television data;
Output means for outputting broadcast television data and audio data of the television data stored in the storage means;
Generating means for reproducing audio from the audio data output from the output means, and generating subtitle data by operator input based on the reproduced audio;
Conversion means for converting audio data of broadcast television data output from the output means into subtitle data at a constant conversion speed by voice recognition;
Synthesizing means for synthesizing the broadcast television data output from the output means and the caption data generated by the generating means;
Of the subtitle data generated by the generating means, the same subtitle data as the arbitrary subtitle data is searched from the subtitle data converted by the converting means, and the time at the end of conversion of the searched subtitle data in the converting means Calculating means for subtracting a conversion time calculated based on a time at the end of generation of the arbitrary subtitle data in the generation means and a conversion speed of the conversion means, and calculating a deviation time of the synthesis timing in the synthesis means; ,
Control means for adjusting the speed of the sound reproduced in the generating means by controlling the sound data output from the output means based on the deviation time calculated by the calculating means;
A synthesis timing adjustment system comprising:
前記制御手段は、前記計算手段で算出したずれ時間に基づいて、前記出力手段から出力される音声データのサンプル数を増減させることによって、前記生成手段で再生される音声の速度を調整するよう構成されていることを特徴とする請求項1に記載の合成タイミング調整システム。The control means is configured to adjust the speed of the sound reproduced by the generating means by increasing or decreasing the number of samples of the sound data output from the output means based on the deviation time calculated by the calculating means. The synthesis timing adjustment system according to claim 1, wherein: 前記制御手段は、前記計算手段で算出された時間を基に、前記合成手段におけるテレビジョンデータと字幕データとの合成タイミングのずれを判断し、字幕データの合成されたタイミングが適切な合成タイミングより遅れている場合、前記出力手段から出力する音声データのサンプル数を減少させて前記生成手段で再生される音声の速度を加速させ、字幕データが前記合成タイミングより進んでいる場合、前記出力手段から出力する音声データのサンプル数を増加させて前記再生される音声の速度を減速させることを特徴とする請求項2に記載の合成タイミング調整システム。  The control means determines a deviation in the synthesis timing between the television data and the caption data in the synthesis means based on the time calculated by the calculation means, and the timing at which the caption data is synthesized is determined from an appropriate synthesis timing. If it is delayed, the number of samples of the audio data output from the output means is reduced to accelerate the speed of the audio reproduced by the generating means, and when the subtitle data is ahead of the synthesis timing, the output means 3. The synthesis timing adjustment system according to claim 2, wherein the number of samples of audio data to be output is increased to reduce the speed of the reproduced audio. 前記制御手段は、現在の音声データのサンプル数を段階的に減少又は増加させて目的の音声データのサンプル数に近づけて前記生成手段で再生される音声の速度を段階的に減速又は加速するように制御することを特徴とする請求項2に記載の合成タイミング調整システム。  The control unit decreases or increases the current number of audio data samples stepwise to approach the target number of audio data samples and gradually decreases or accelerates the speed of the sound reproduced by the generation unit. The synthesis timing adjustment system according to claim 2, wherein the synthesis timing adjustment system is controlled as follows. 合成タイミング調整システムは、
前記生成手段で生成された字幕データを蓄積する第1の蓄積手段と、
前記変換手段で変換された字幕データを蓄積する第2の蓄積手段とを有し、
前記計算手段は、前記第1の蓄積手段に蓄積されている字幕データから選択した所定の連続の文字と同一の連続の文字が、前記第2の蓄積手段に蓄積されている字幕データに含まれているか否かを判別し、前記同一の連続の文字が含まれている場合、ずれ時間の計算を行うように構成されていることを特徴とする請求項1又は請求項2に記載の合成タイミング調整システム。
Synthetic timing adjustment system
First accumulating means for accumulating subtitle data generated by the generating means;
Second storage means for storing the caption data converted by the conversion means,
In the subtitle data stored in the second storage unit, the calculation unit includes the same continuous character as the predetermined continuous character selected from the subtitle data stored in the first storage unit. 3. The composition timing according to claim 1, wherein when the same consecutive characters are included, a shift time is calculated. 3. Adjustment system.
音声データと映像データとから成るテレビジョンデータに、字幕データを合成するタイミングを調整するシステムであって、
テレビジョンデータが記憶されている記憶手段と、
前記記憶手段に記憶されている放送用のテレビジョンデータとテレビジョンデータの音声データとを出力する出力手段と、
前記出力手段から出力された音声データから音声を再生し、この再生された音声に基づいて、オペレータの入力により字幕データを生成する生成手段と、
前記出力手段から出力された放送用のテレビジョンデータの音声データを音声認識により一定の変換速度で字幕データに変換する変換手段と、
前記生成手段で生成された字幕データと前記出力手段から出力された放送用のテレビジョンデータとを合成する合成手段と、
前記生成手段で生成された字幕データが蓄積される第1の蓄積手段と、
前記変換手段で変換された字幕データが蓄積される第2の蓄積手段と、
前記生成手段で生成された字幕データの文字と、この文字が第1の蓄積手段に蓄積された時点の時間とが関連付けて記憶される第1のテーブルと、
前記変換手段で変換された字幕データの文字と、この文字が第2の蓄積手段に蓄積された時点の時間とが関連付けて記憶される第2のテーブルと、
前記生成手段で生成された字幕データの各文字が前記第1の蓄積手段に蓄積された時点の時間、及び前記変換手段で変換された字幕データの各文字が第2の蓄積手段に蓄積された時点の時間を監視し、字幕データの各文字と該各文字が第1の蓄積手段又は第2の蓄積手段に蓄積された時点の時間とを関連付けて第1のテーブル又は第2のテーブルに記憶させる手段と、
前記第1の蓄積手段に蓄積されている字幕データから選択した所定の連続の文字と同一の連続の文字が前記第2の蓄積手段に蓄積されている字幕データに含まれているか否かを判別する判別手段と、
前記判別手段で同一の連続の文字が含まれていると判別された場合、この文字と同一の文字を前記第1のテーブル及び第2のテーブルから検索し、検索した文字に関連付けられている時間を第1のテーブル及び第2のテーブルから読み出す読出手段と、
前記第2のテーブルより読み出した時間から前記第1のテーブルより読み出した時間及び前記変換手段の変換速度を基に算出した変換時間を減算して、前記合成手段における合成タイミングのずれ時間を算出する計算手段と、
前記計算手段で算出したずれ時間に基づいて、前記出力手段から出力される音声データのサンプル数を増減させることによって前記生成手段で再生される音声の速度を調整する制御手段と
を有することを特徴とする合成タイミング調整システム。
A system for adjusting the timing of synthesizing caption data to television data composed of audio data and video data,
Storage means for storing television data;
Output means for outputting broadcast television data and audio data of the television data stored in the storage means;
Generating means for reproducing audio from the audio data output from the output means, and generating subtitle data by operator input based on the reproduced audio;
Conversion means for converting audio data of broadcast television data output from the output means into subtitle data at a constant conversion speed by voice recognition ;
Synthesizing means for synthesizing the caption data generated by the generating means and the television data for broadcasting output from the output means;
First storage means for storing subtitle data generated by the generation means;
Second storage means for storing the caption data converted by the conversion means;
A first table in which the characters of the caption data generated by the generating means and the time at which the characters are accumulated in the first accumulating means are stored in association with each other;
A second table in which characters of the caption data converted by the conversion means and a time at which the characters are accumulated in the second accumulation means are stored in association with each other;
The time when each character of the caption data generated by the generating means is stored in the first storage means, and each character of the caption data converted by the conversion means is stored in the second storage means The time at the time is monitored, and each character of the subtitle data is stored in the first table or the second table in association with the time at which each character is accumulated in the first accumulation means or the second accumulation means. Means to
It is determined whether or not the subtitle data stored in the second storage unit includes the same continuous character as the predetermined continuous character selected from the subtitle data stored in the first storage unit. Discriminating means to perform,
When it is determined by the determining means that the same continuous character is included, the same character as this character is searched from the first table and the second table, and the time associated with the searched character Reading means for reading from the first table and the second table;
The time read from the first table and the conversion time calculated based on the conversion speed of the conversion means are subtracted from the time read from the second table to calculate the synthesis timing shift time in the synthesis means. A calculation means;
Control means for adjusting the speed of the sound reproduced by the generating means by increasing or decreasing the number of samples of the sound data output from the output means based on the deviation time calculated by the calculating means. Synthetic timing adjustment system.
前記制御手段は、前記計算手段で算出された時間を基に、前記合成手段におけるテレビジョンデータと字幕データとの合成タイミングのずれを判断し、字幕データの合成されたタイミングが適切な合成タイミングより遅れている場合、前記出力手段から出力する音声データのサンプル数を減少させて前記生成手段で再生される音声の速度を加速させ、字幕データが前記合成タイミングより進んでいる場合、前記出力手段から出力する音声データのサンプル数を増加させて前記再生される音声の速度を減速させることを特徴とする請求項6に記載の合成タイミング調整システム。  The control means determines a deviation in the synthesis timing between the television data and the caption data in the synthesis means based on the time calculated by the calculation means, and the timing at which the caption data is synthesized is determined from an appropriate synthesis timing. If it is delayed, the number of samples of the audio data output from the output means is reduced to accelerate the speed of the audio reproduced by the generating means, and when the subtitle data is ahead of the synthesis timing, the output means 7. The synthesis timing adjustment system according to claim 6, wherein the number of samples of audio data to be output is increased to reduce the speed of the reproduced audio. 前記制御手段は、現在の音声データのサンプル数を段階的に減少又は増加させて目的の音声データのサンプル数に近づけて前記生成手段で再生される音声の速度を段階的に減速又は加速するように制御することを特徴とする請求項6に記載の合成タイミング調整システム。  The control unit decreases or increases the current number of audio data samples stepwise to approach the target number of audio data samples and gradually decreases or accelerates the speed of the sound reproduced by the generation unit. The synthesis timing adjustment system according to claim 6, wherein the synthesis timing adjustment system is controlled as follows.
JP2003000526A 2003-01-06 2003-01-06 Synthetic timing adjustment system Expired - Fee Related JP3811751B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003000526A JP3811751B2 (en) 2003-01-06 2003-01-06 Synthetic timing adjustment system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003000526A JP3811751B2 (en) 2003-01-06 2003-01-06 Synthetic timing adjustment system

Publications (2)

Publication Number Publication Date
JP2004215033A JP2004215033A (en) 2004-07-29
JP3811751B2 true JP3811751B2 (en) 2006-08-23

Family

ID=32818808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003000526A Expired - Fee Related JP3811751B2 (en) 2003-01-06 2003-01-06 Synthetic timing adjustment system

Country Status (1)

Country Link
JP (1) JP3811751B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2009200990A1 (en) 2008-03-13 2009-10-01 Aristocrat Technologies Australia Pty Limited Method and system of distributing progressive gaming related information
CN102075697B (en) * 2009-11-24 2015-04-22 新奥特(北京)视频技术有限公司 Editing method and device in caption making process

Also Published As

Publication number Publication date
JP2004215033A (en) 2004-07-29

Similar Documents

Publication Publication Date Title
CN108769786B (en) Method and device for synthesizing audio and video data streams
US8751237B2 (en) Text-to-speech device and text-to-speech method
US8931024B2 (en) Receiving apparatus and subtitle processing method
EP2169663B1 (en) Text information presentation device
CN100588261C (en) With video data and the synchronous method and system of voice data
US10582268B2 (en) System and method for synchronization of audio and closed captioning
CN112616062B (en) Subtitle display method and device, electronic equipment and storage medium
US20060044469A1 (en) Apparatus and method for coordinating synchronization of video and captions
JPH07303240A (en) Digital recording voice and video synchronous variable speedreproduction
JP2006211636A (en) Delay control apparatus and delay control program of video signal with subtitle
JP2009540668A (en) System and method for applying closed captions
US20120105719A1 (en) Speech substitution of a real-time multimedia presentation
US7190878B2 (en) Editing video data
JP2007324872A (en) Delay controller and delay control program for video signal with closed caption
JP2021090172A (en) Caption data generation device, content distribution system, video reproduction device, program, and caption data generation method
JP3811751B2 (en) Synthetic timing adjustment system
US20220264193A1 (en) Program production apparatus, program production method, and recording medium
JP2004207821A (en) Subtitle broadcast receiver, subtitle broadcast receiving method, and subtitle broadcast receiving program
JP7096732B2 (en) Content distribution equipment and programs
US20100091188A1 (en) Synchronization of secondary decoded media streams with a primary media stream
JP2006165772A (en) Information reproducing apparatus and method therefor
JP5325059B2 (en) Video / audio synchronized playback device, video / audio synchronized processing device, video / audio synchronized playback program
JP2002010138A (en) Method for processing information and device therefor
WO2016133587A1 (en) Use of program-schedule text and closed-captioning text to facilitate selection of a portion of a media-program recording
JP2007251867A (en) Digital broadcasting receiving device, digital information receiving device, and playback method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060428

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090609

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090609

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110609

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110609

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120609

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120609

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130609

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees