JPH10136260A - 字幕スーパー・タイミング発生装置および方法ならびに字幕スーパー処理装置および方法 - Google Patents
字幕スーパー・タイミング発生装置および方法ならびに字幕スーパー処理装置および方法Info
- Publication number
- JPH10136260A JPH10136260A JP28425296A JP28425296A JPH10136260A JP H10136260 A JPH10136260 A JP H10136260A JP 28425296 A JP28425296 A JP 28425296A JP 28425296 A JP28425296 A JP 28425296A JP H10136260 A JPH10136260 A JP H10136260A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- extracting
- digitized
- converting
- subtitle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Studio Circuits (AREA)
Abstract
ス項目を電子化原稿記憶装置4から取り出し、字幕スー
パー多重装置8にストアする。他方、字幕自動同期装置
6では、取り出されたニュース項目の冒頭部分を取り出
し、取り出された冒頭部分全体を発音記号列に変換し、
発音記号ごとに、音響モデルを連結する。一方、番組音
声を字幕自動同期装置6により音響パラメータ列に変換
する。そして、字幕自動同期装置6により音響モデルと
音響パラメータ列とを順次照合していき、冒頭部分が番
組音声中に存在する個所を推定する。そして、冒頭部分
が番組音声中に存在すると推定したとき、字幕スーパー
・タイミング信号を生成し、この字幕スーパー・タイミ
ング信号に同期して、字幕スーパー多重装置8により字
幕原稿を番組映像に多重化する。
Description
イミング発生装置および方法ならびに字幕スーパー処理
装置および方法に関する。
動的に与える装置はなく、放送局等では、字幕スーパー
のタイミングは人間がボタンを押すことにより与えてい
た。
幕スーパーにするという聴覚障害者等の要求に応え得る
ものとしては、例えば、ニュース番組のアナウンスに際
して予め設けられた電子化した原稿を、字幕スーパーす
るタイミングで操作者がボタンを押して字幕スーパーと
して送出する装置がある。
認識法が知られている。
ーパーするタイミングを監視する要員等の多くの人手が
必要となり、作業の自動化が課題として残されていた。
点を解決し、字幕スーパーするタイミング信号を自動的
に発生することができる字幕スーパー・タイミング発生
装置および方法を提供することにある。
点を解決し、字幕スーパーするタイミングに同期して字
幕スーパー処理を行うことができる字幕スーパー処理装
置および方法を提供することにある。
単位の電子化原稿をストアするためのストア手段と、該
ストア手段にストアされた電子化原稿を単位ごとに取り
出す取出手段と、該取出手段により取り出された1単位
の電子化原稿から冒頭部分として予め定めた数の文節を
先頭から連続して取り出す冒頭部分取出手段と、該冒頭
部分取出手段により取り出された冒頭部分全体を発音記
号列に変換する第1変換手段と、該第1変換手段により
変換して得られた各発音記号ごとに音響モデルを連結す
る第1連結手段と、番組音声を音響パラメータ列に変換
する第2変換手段と、該第2変換手段により得られた音
響パラメータ列と、前記第1連結手段により連結された
音響モデルとを照合する照合手段と、該照合手段により
照合した結果、スコアが所定の閾値を超えた場合に、字
幕スーパー・タイミング信号を生成する信号生成手段と
を備えたことを特徴とする。
の電子化原稿から1単位の電子化原稿を取り出し、取り
出された1単位の電子化原稿から冒頭部分として予め定
めた数の文節を先頭から連続して取り出し、取り出され
た冒頭部分全体を発音記号列に変換し、変換して得られ
た各発音記号ごとに音響モデルを連結し、番組音声を音
響パラメータ列に変換し、得られた音響パラメータ列
と、得られた音響モデルとを照合し、照合した結果、ス
コアが所定の閾値を超えた場合に、字幕スーパー・タイ
ミング信号を生成する。
をストアするためのストア手段と、該ストア手段にスト
アされた電子化原稿を単位ごとに取り出す取出手段と、
該取出手段により取り出された1単位の電子化原稿から
冒頭部分として予め定めた数の文節を先頭から連続して
取り出す冒頭部分取出手段と、該冒頭部分取出手段によ
り取り出された冒頭部分全体を発音記号列に変換する第
1変換手段と、該第1変換手段により変換して得られた
各発音記号ごとに音響モデルを連結する第1連結手段
と、番組音声を音響パラメータ列に変換する第2変換手
段と、該第2変換手段により得られた音響パラメータ列
と、前記第1連結手段により連結された音響モデルとを
照合する照合手段と、該照合手段により照合した結果、
スコアが所定の閾値を超えた場合に、字幕スーパー・タ
イミング信号を生成する信号生成手段と、該信号生成手
段により生成された字幕スーパー・タイミング信号に同
期して、前記取出手段により取り出された当該1単位の
字幕原稿を、番組映像に多重化する多重化手段とを備え
たことを特徴とする。
の電子化原稿から1単位の電子化原稿を取り出し、取り
出された1単位の電子化原稿から冒頭部分として予め定
めた数の文節を先頭から連続して取り出し、取り出され
た冒頭部分全体を発音記号列に変換し、変換して得られ
た各発音記号ごとに音響モデルを連結し、番組音声を音
響パラメータ列に変換し、得られた音響パラメータ列
と、得られた音響モデルとを照合し、照合した結果、ス
コアが所定の閾値を超えた場合に、字幕スーパー・タイ
ミング信号を生成し、生成された字幕スーパー・タイミ
ング信号に同期して、前記1単位の電子化字幕原稿を番
組映像に多重化する。
を参照して詳細に説明する。
において、2はテレビ番組送出装置であり、テレビ番組
を送出するものである。4は電子化原稿記憶装置であ
り、電子化原稿を記憶するためのものである。6は字幕
自動同期装置であり、字幕スーパー・タイミング信号を
生成するものである。8は字幕スーパー多重装置であ
り、取り出された字幕原稿を一旦ストアし、このストア
されている字幕原稿を、字幕自動同期装置6からの字幕
スーパー・タイミング信号に同期して、テレビ番組送出
装置2からの番組映像に多重化するものである。
示す。図2において、61はニュース項目取出部であ
り、適正なタイミングで電子化原稿記憶装置4からニュ
ース項目を取り出すものである。62は冒頭部分抽出部
であり、ニュース項目取出部61により取り出されたニ
ュース項目の冒頭部分として所定数の文節を先頭から連
続して抽出するものである。この冒頭部分はその長さを
長くすればするほど、照合性が高くなるが、実際には、
照合にかかる時間を考慮して、連続する数文節にするの
が望ましい。
抽出部62からの冒頭部分を形態素解析(文を品詞ごと
に分割する技術)して品詞ごとに分割し、さらに全て平
仮名からなる文字列に変換し、この平仮名からなる文字
列を、表1〜表4の平仮名・発音記号対応表を用いて、
発音記号列に変換するものである。形態素解析について
は、例えば、田中穂積著「自然言語解析の基礎」産業図
書を参照されたい。
列変換部63からの各発音記号ごとに所定の音響モデル
を連結するものである。音響モデルとしては、例えば、
HMM(Hidden Markov Model) が好ましい。HMMにつ
いては、例えば、中川聖一著「確率モデルによる音声認
識」電子通信学会を参照されたい。65は音響パラメー
タ列変換部であり、テレビ番組送出装置2からの番組音
声を、音響パラメータ列(例えば、スペクトルの時系
列)に変換するものである。
4からの音響モデルと、音響パラメータ列変換部65か
ら送られてきた音響パラメータ列とを照合し、スコア
(HMMの場合には尤度; 音響モデル連結部64から
の音響モデルが、音響パラメータ列変換部65から送ら
れてきた音響パラメータ列を生成すると仮定した場合の
尤もらしさ)が予め定めた閾値より高くなった場合に、
冒頭部分の音響モデルが番組音声中に存在するとして、
字幕スーパー・タイミング信号を生成するものである。
る。まず、母音、子音等の単位である音素ごとに、HM
Mを構成しておき、各HMMのパラメータは多数話者が
発声したデータベース、例えば、ATR(国際電気通信
基礎研究所)が発行している音声データベースを用いて
学習しておくものとする。そして、処理の実時間化を考
慮して、入力される番組音声のサンプル(以下、単に、
音声サンプルという)に対して、冒頭部分に対するHM
Mにより逆向き照合(終端状態から過去の方向に向かっ
て順に対応させていく照合)を行い、始端フリーの照合
を行う。そして、冒頭部分に対するHMMの始端状態に
対応する音声サンプル中の最も過去の時刻(通常、1つ
のHMM状態に対し、複数の音声サンプルが対応す
る)、すなわち、音声開始時刻と、照合によって得られ
たHMM尤度の組とを求める。そして、HMM尤度が予
め定めた閾値を超えたとき、字幕スーパー・タイミング
信号を出力する。
ローチャートである。ニュース番組におけるニュース項
目の順番は予め定められているものとする。
ース項目を電子化原稿記憶装置4から取り出し(S30
1)、取り出されたニュース項目を字幕スーパー多重装
置8にストアし、他方、ニュース項目取出部61により
取り出されたニュース項目の冒頭部分(例えば、先頭か
ら2文節)を冒頭部分抽出部62により抽出する。つい
で、抽出された冒頭部分全体を発音記号列変換部63に
より発音記号列に変換し(S302)、各発音記号ごと
に、音響モデル連結部64により、音響モデルを連結す
る(S303)。例えば、図4に示す項目3のニュース
項目が取り出されると、冒頭部分抽出部62により2文
節、すなわち、「政府は閣議に」が抽出され、表1〜表
4の発音記号表に従って、図5に示すように、「seihuw
akakugini 」という発音記号列に変換されることにな
る。
65により音響パラメータ列に変換される。そして、音
響モデル連結部64からの音響モデルと、音響パラメー
タ列変換部65から送られた音響パラメータ列とを照合
していき(S304およびS305)、番組音声中に、
冒頭部分が存在する個所を推定する。そして、冒頭部分
が番組音声中に存在すると推定した場合、上記の例で
は、図6に示すように、「seihuwakakugini 」という発
音記号列と、「seihuwa kakugini」という音声(図6に
は、便宜上、波形ではなく、発音記号列で示してある)
との照合尤度が大きくなった時点で、字幕スーパー・タ
イミング信号を生成する。この字幕スーパー・タイミン
グ信号に同期して、字幕多重処理装置8により字幕原稿
が、テレビ番組送出装置2からの番組映像に多重化され
る(S307)。このニュース項目が最後のニュース項
目でない場合には(S308)、次のニュース項目に対
して、上記の手順を繰り返し、他方、最後のニュース項
目である場合には(S308)、この字幕スーパ処理手
順を終了する。
Mを用いた例を説明したが、この音響モデルに限定され
るものではなく、例えば、ニューラルネットワーク等を
用いることができることは当然である。
定されるものではなく、電子化原稿が用意されているの
であれば、任意の番組音声でもよいことは当然である。
示す。評価用音声データとしては、1996年6月3日
に放送された「NHKニュース7」中の13個のニュー
ス項目、計67文が連続して発生されているデータを用
いた。ニュース項目当たり5.2文である。また、音響
モデルとして音素HMMを用いた。HMMは男女ごとに
分けて作成した。作成に当たっては、男女ごとに、AT
Rデータベースとして各20名ずつが発声した50文ず
つのデータを用いた。さらに、冒頭部分として、各ニュ
ース項目の先頭の文全体を用いた。
信号が出力されるタイミングが、各ニュース項目の先頭
音素区間内(数100ms程度の長さ)に含まれる率は、
93%(12項目/13項目)であった。
間内に含まれていない場合でも、このタイミングは実際
の放送における字幕スーパーのタイミングと比べ違和感
のあるものではなかった。
求項3の発明によれば、上記のように構成したので、字
幕スーパーするタイミング信号を自動的に発生させるこ
とができる。
れば、上記のように構成したので、字幕スーパーするタ
イミングに同期して字幕スーパー処理を行うことができ
る。
ク図である。
トである。
である。
号列を示す図である。
である。
Claims (4)
- 【請求項1】 複数単位の電子化原稿をストアするため
のストア手段と、 該ストア手段にストアされた電子化原稿を単位ごとに取
り出す取出手段と、 該取出手段により取り出された1単位の電子化原稿から
冒頭部分として予め定めた数の文節を先頭から連続して
取り出す冒頭部分取出手段と、 該冒頭部分取出手段により取り出された冒頭部分全体を
発音記号列に変換する第1変換手段と、 該第1変換手段により変換して得られた各発音記号ごと
に音響モデルを連結する第1連結手段と、 番組音声を音響パラメータ列に変換する第2変換手段
と、 該第2変換手段により得られた音響パラメータ列と、前
記第1連結手段により連結された音響モデルとを照合す
る照合手段と、 該照合手段により照合した結果、スコアが所定の閾値を
超えた場合に、字幕スーパー・タイミング信号を生成す
る信号生成手段とを備えたことを特徴とする字幕スーパ
ー・タイミング発生装置。 - 【請求項2】 ストアされた複数単位の電子化原稿から
1単位の電子化原稿を取り出す取出ステップと、 取り出された1単位の電子化原稿から冒頭部分として予
め定めた数の文節を先頭から連続して取り出す冒頭部分
取出ステップと、 取り出された冒頭部分全体を発音記号列に変換する第1
変換ステップと、 変換して得られた各発音記号ごとに音響モデルを連結す
る第1連結ステップと、 番組音声を音響パラメータ列に変換する第2変換ステッ
プと、 該第2変換ステップで得られた音響パラメータ列と、前
記第1連結ステップで得られた音響モデルとを照合する
照合ステップと、 照合した結果、スコアが所定の閾値を超えた場合に、字
幕スーパー・タイミング信号を生成する信号生成ステッ
プとを備えたことを特徴とする字幕スーパー・タイミン
グ発生方法。 - 【請求項3】 複数単位の電子化原稿をストアするため
のストア手段と、 該ストア手段にストアされた電子化原稿を単位ごとに取
り出す取出手段と、 該取出手段により取り出された1単位の電子化原稿から
冒頭部分として予め定めた数の文節を先頭から連続して
取り出す冒頭部分取出手段と、 該冒頭部分取出手段により取り出された冒頭部分全体を
発音記号列に変換する第1変換手段と、 該第1変換手段により変換して得られた各発音記号ごと
に音響モデルを連結する第1連結手段と、 番組音声を音響パラメータ列に変換する第2変換手段
と、 該第2変換手段により得られた音響パラメータ列と、前
記第1連結手段により連結された音響モデルとを照合す
る照合手段と、 該照合手段により照合した結果、スコアが所定の閾値を
超えた場合に、字幕スーパー・タイミング信号を生成す
る信号生成手段と、 該信号生成手段により生成された字幕スーパー・タイミ
ング信号に同期して、前記取出手段により取り出された
当該1単位の字幕原稿を、番組映像に多重化する多重化
手段とを備えたことを特徴とする字幕スーパー処理装
置。 - 【請求項4】 ストアされた複数単位の電子化原稿から
1単位の電子化原稿を取り出す取出ステップと、 取り出された1単位の電子化原稿から冒頭部分として予
め定めた数の文節を先頭から連続して取り出す冒頭部分
取出ステップと、 取り出された冒頭部分全体を発音記号列に変換する第1
変換ステップと、 変換して得られた各発音記号ごとに音響モデルを連結す
る第1連結ステップと、 番組音声を音響パラメータ列に変換する第2変換ステッ
プと、 該第2変換ステップで得られた音響パラメータ列と、前
記第1連結ステップで得られた音響モデルとを照合する
照合ステップと、 照合した結果、スコアが所定の閾値を超えた場合に、字
幕スーパー・タイミング信号を生成する信号生成ステッ
プと、 生成された字幕スーパー・タイミング信号に同期して、
前記1単位の電子化字幕原稿を番組映像に多重化する多
重化ステップとを備えたことを特徴とする字幕スーパー
処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28425296A JP3830588B2 (ja) | 1996-10-25 | 1996-10-25 | 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28425296A JP3830588B2 (ja) | 1996-10-25 | 1996-10-25 | 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10136260A true JPH10136260A (ja) | 1998-05-22 |
JP3830588B2 JP3830588B2 (ja) | 2006-10-04 |
Family
ID=17676129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28425296A Expired - Fee Related JP3830588B2 (ja) | 1996-10-25 | 1996-10-25 | 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3830588B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001257997A (ja) * | 2000-03-14 | 2001-09-21 | Toshiba Corp | デジタル放送信号送出システム及びそのサービス情報処理装置 |
JP2002244694A (ja) * | 2001-02-15 | 2002-08-30 | Telecommunication Advancement Organization Of Japan | 字幕送出タイミング検出装置 |
JP2009246813A (ja) * | 2008-03-31 | 2009-10-22 | Kddi Corp | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 |
US8996357B2 (en) | 2011-07-06 | 2015-03-31 | Fujitsu Limited | Method for generating diagrams, and information processing apparatus for same |
-
1996
- 1996-10-25 JP JP28425296A patent/JP3830588B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001257997A (ja) * | 2000-03-14 | 2001-09-21 | Toshiba Corp | デジタル放送信号送出システム及びそのサービス情報処理装置 |
JP2002244694A (ja) * | 2001-02-15 | 2002-08-30 | Telecommunication Advancement Organization Of Japan | 字幕送出タイミング検出装置 |
JP4595098B2 (ja) * | 2001-02-15 | 2010-12-08 | 独立行政法人情報通信研究機構 | 字幕送出タイミング検出装置 |
JP2009246813A (ja) * | 2008-03-31 | 2009-10-22 | Kddi Corp | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 |
US8996357B2 (en) | 2011-07-06 | 2015-03-31 | Fujitsu Limited | Method for generating diagrams, and information processing apparatus for same |
Also Published As
Publication number | Publication date |
---|---|
JP3830588B2 (ja) | 2006-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110049270B (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
US7013273B2 (en) | Speech recognition based captioning system | |
KR101994291B1 (ko) | 통합써머리를 제공하는 영상재생장치 및 방법 | |
CN1559042A (zh) | 多语言转录系统 | |
US6226615B1 (en) | Spoken text display method and apparatus, for use in generating television signals | |
US20070118373A1 (en) | System and method for generating closed captions | |
US8606560B2 (en) | Automatic simultaneous interpertation system | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
EP1473707B1 (en) | Text-to-speech conversion system and method having function of providing additional information | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
KR100636386B1 (ko) | 실시간 비디오 음성 더빙 장치 및 그 방법 | |
JP2004333738A (ja) | 映像情報を用いた音声認識装置及び方法 | |
CN114996506A (zh) | 语料生成方法、装置、电子设备和计算机可读存储介质 | |
JP4140745B2 (ja) | 字幕へのタイミング情報付与方法 | |
CN109376145B (zh) | 影视对白数据库的建立方法、建立装置及存储介质 | |
KR101618777B1 (ko) | 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 | |
CN116527840B (zh) | 一种基于云边协同的直播会议智能字幕显示方法和系统 | |
CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
JP3830588B2 (ja) | 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置 | |
CN107885736A (zh) | 翻译方法及装置 | |
CN113903327B (zh) | 一种基于深度神经网络的语音环境气氛识别方法 | |
JP3727436B2 (ja) | 音声原稿最適照合装置および方法 | |
JP3162832B2 (ja) | 字幕スーパー画面作成装置 | |
JP2000122678A (ja) | 音声認識機器制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051213 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060630 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060712 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100721 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110721 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120721 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120721 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130721 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140721 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |