JP2002244694A - 字幕送出タイミング検出装置 - Google Patents

字幕送出タイミング検出装置

Info

Publication number
JP2002244694A
JP2002244694A JP2001038918A JP2001038918A JP2002244694A JP 2002244694 A JP2002244694 A JP 2002244694A JP 2001038918 A JP2001038918 A JP 2001038918A JP 2001038918 A JP2001038918 A JP 2001038918A JP 2002244694 A JP2002244694 A JP 2002244694A
Authority
JP
Japan
Prior art keywords
sentence
voice
timing
section
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001038918A
Other languages
English (en)
Other versions
JP4595098B2 (ja
Inventor
Ichiro Maruyama
一郎 丸山
Yoshiharu Abe
芳春 阿部
Terumasa Ebara
暉将 江原
Katsuhiko Shirai
克彦 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Telecommunications Advancement Organization
Japan Broadcasting Corp
Original Assignee
Mitsubishi Electric Corp
Nippon Hoso Kyokai NHK
Telecommunications Advancement Organization
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, Nippon Hoso Kyokai NHK, Telecommunications Advancement Organization, Japan Broadcasting Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001038918A priority Critical patent/JP4595098B2/ja
Publication of JP2002244694A publication Critical patent/JP2002244694A/ja
Application granted granted Critical
Publication of JP4595098B2 publication Critical patent/JP4595098B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来の方法は字幕を送出するタイミングを人
為的に決めていたので、作業に熟練性を要し、かつ番組
の長さに応じて手作業の工数が係り、極めて効率が悪い
という問題があった。また、自動化が考えられたが、現
場収録音やBGMが重畳した放送音声に対しては十分に
適用できなかった。 【解決手段】 番組音声の中から所定話者音声が存在す
る音声区間を識別する音声区間検出手段と、所定話者音
声の音声区間と電子化原稿の文とを照合することにより
電子化原稿の文と音声との同期タイミングを検出するタ
イミング検出手段とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、番組音声と電子
化原稿の文の同期をとるためのタイミングを検出する字
幕送出タイミング検出装置に関するものである。
【0002】
【従来の技術】TV番組は聴覚障害者に対応するため字
幕を映像に挿入添付している。ドキュメンタリ番組、ド
ラマ等の事前収録TV番組の中には、一般に台本として
電子化原稿が製作される番組がある。このような番組に
対して字幕付与を行う場合、従来の方法では、台本用電
子化原稿を参考にしつつ番組VTRを書き起こすことに
より字幕用電子化原稿を作成し、アナウンサ、ナレー
タ、出演者等の音声と字幕用電子化原稿とを人手で照合
することにより字幕送出タイミングを図ってきた。しか
し、この方法は、作業に熟練性を要し、かつ番組の長さ
に応じて手作業の工数が係り、極めて効率が悪いという
問題があった。これに対し、特開平2000−2702
63号公報に記載された「自動字幕番組制作システム」
では、ワードスポッティングを応用したワード列ペアモ
デルにより自動的に音声と電子化原稿の同期をとり字幕
送出タイミングを検出する方法について述べられてい
る。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
自動的に字幕送出タイミングを検出する方法は、比較的
クリーンな音声が得られるニュース番組などを対象にし
ており、現場収録音やBGMが重畳した放送音声に適用
した場合にはワード列ペアモデルの検出精度が低下する
ため同期のタイミングを検出するのに十分な精度が得ら
れない。特にアナウンサ、ナレータ、出演者等の音声が
含まれない非音声区間で誤って検出される場合もあっ
た。また、音声中に類似した発声個所が複数ある場合に
タイミングを一意に決められないという問題もあった。
さらにこの方法では、電子化原稿中のすべての文ごとに
ワード列ペアモデル作成し、それぞれ音声区間全体に対
して照合を行っているため、ニュース記事のように時間
的に短い1〜3分程度の音声を対象とした場合には処理
時間が特に問題とならないが、ドキュメンタリ番組のよ
うな長時間の番組音声に対して適用した場合には照合音
声区間が長くなり、処理時間が非現実なものとなるなど
の課題があった。
【0004】この発明は上記のような課題を解決するた
めになされたもので、番組音声の音声区間を検出し、電
子化原稿の文と照合することにより自動的に同期をと
り、そのタイミングを検出できる字幕送出タイミング検
出装置を得ることを目的とする。また、この発明は音声
処理技術のワードスポッティング技術を用いて自動的に
同期タイミングを検出し、現場収録音やBGMが重畳し
た放送音声に対して検出精度高めた字幕送出タイミング
検出装置を得ることを目的とする。
【0005】
【課題を解決しようとする手段】この発明に係る字幕送
出タイミング検出装置は、映像番組の番組音声に対して
予め準備された電子化原稿の文を番組音声に合わせて映
像に添付する字幕制作システムにおいて、前記番組音声
の中から所定話者音声が存在する音声区間を識別できる
ように検出する音声区間検出手段と、前記所定話者音声
の前記音声区間と前記電子化原稿の文とを照合すること
により前記電子化原稿の文と前記番組音声との同期をと
るためのタイミングを検出するタイミング検出手段とを
備えたものである。
【0006】この発明に係る字幕送出タイミング検出装
置は、タイミング検出手段が、電子化原稿中の各文に対
してワードスポッティングを行いそれぞれの文に対して
複数の同期タイミング候補を検出するワードスポッティ
ング処理タイミング検出部と、検出された前記複数の同
期タイミング候補の中から番組全体として最適同期タイ
ミング候補を選択する最適候補選択部とを有するもので
ある。
【0007】この発明に係る字幕送出タイミング検出装
置は、最適候補選択部が、ワードスポッティング処理に
より得られる尤度コストと電子化原稿の字幕文の順によ
る時間順序コストとを用いたDPマッチングにより最適
同期タイミング候補を選択するものである。
【0008】この発明に係る字幕送出タイミング検出装
置は、最適候補選択部が、ワードスポッティング処理に
より得られる尤度コストと、電子化原稿の文の順による
時間順序コストと、前記電子化原稿から推定される文長
との比較により得られる文長比コストとを用いたDPマ
ッチングにより最適同期タイミング候補を選択するもの
である。
【0009】この発明に係る字幕送出タイミング検出装
置は、最適候補選択部が、ワードスポッティング処理に
より得られる尤度コストと、電子化原稿の文の順による
時間順序コストと、前記電子化原稿から推定される文長
との比較により得られる文長比コストと、音声区間らし
さを表す音声区間コストとを用いたDPマッチングによ
り最適同期タイミング候補を選択するものである。
【0010】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1に係る字
幕送出タイミング検出装置の構成を示す機能ブロック図
であり、構成部分の殆どはコンピュータによる処理機能
を表すものである。図において、10は音声区間検出手
段で、11はVTR、LDあるいはDVDなどからなり
音声を含んだ映像番組が格納された番組音声源である。
12は音声区間検出部で、番組音声源11から取り出さ
れた番組音声の中でアナウンサ、ナレータ、出演者のよ
うな所定話者の声が存在する音声区間を識別できるよう
に検出するものである。20はタイミング検出手段で、
所定話者の音声区間と電子化原稿の文を照合することに
より電子化原稿の文と音声との同期をとるタイミングを
検出するものである。21は番組音声と同期をとる電子
化原稿の文を予め格納して取り出す電子化原稿格納部で
ある。22は探索音声区間推定部で、電子化原稿格納部
21から取り出される電子化原稿の各文に対してどの音
声区間にワードスポッティングを行えばよいか推定を行
い、その対象とする音声区間、すなわち探索音声区間を
推定するものである。23は発音記号列化部で、電子化
原稿格納部21から取り出された文を発音記号列に分解
するものである。24は音素HMM処理モデル生成部
で、発音記号列をHMM(Hidden Marcov
Model:「音声認識の基礎(下)」Lawren
ce Rabiner、Biing−hwang Ju
ang共著、NTTアドバンステクノロジ(株)編集・
発行)により処理しモデル化するものである。25はワ
ードスポッティング処理タイミング検出部で、電子化原
稿中の各文に対してワードスポッティングを行いそれぞ
れに対して複数の同期タイミング候補を取り出すもので
ある。26は最適候補選択部で、複数の同期タイミング
候補の中から番組全体として最適な同期タイミング候補
を選択するものである。27は文処理判定部で、電子化
原稿の各文に対する処理が最後の文Nまで行われたかを
判定するものである。
【0011】次に動作について説明する。番組音声源1
1から取り出されるデジタル化された番組音声は、番組
効果を高めるための背景音(BGM、動物の鳴き声、物
の音、人々の話し声等)とナレータなどの所定話者の音
声が混合された信号である。また、電子化原稿格納部2
1には番組台本の電子化原稿(デジタルデータ)、もし
くは番組の台本を参考に書き起こした電子化原稿が予め
格納されているものとする。番組音声には、所定話者に
よる音声を含む音声区間とそれ以外の背景音だけの非音
声区間が存在する。この番組音声を音声区間検出部12
に順次に入力し、音楽と話者音声の識別に適した音声認
識技術のBlock Cepstrum Fluxを用
いて音声区間の検出を行う。
【0012】ここで、Cepstrum Flux D
(J)およびBlock Cepstrum Flu
x B(W)は次のように定義される。
【0013】
【数1】
【0014】ただし、cはn番目フレームのケプスト
ラム、Jは窓長、Wはブロック数、Fはn番目フレー
ムの識別結果、Tは音声・非音声判別の閾値を表して
いる。予め設定した番組音声のフレーム毎にBlock
Cepstrum Flux B(W)を計算し、
閾値Tを下回る区間が一定以上連続した場合、その区
間を非音声区間とし、残り(Tより大きい値の区間)
はすべて音声区間として音声区間・非音声区間の判定を
行い、音声区間を検出する。
【0015】音声区間検出部12により音声区間が検出
された音声区間識別信号はタイミング検出手段20に送
られ、探索音声区間推定部22に入力される。一方、電
子化原稿格納部21からの各文の文字データが文単位で
順次読み出されて発音記号化列部23に入力される。発
音記号列化部23において、文字データは所定の文単位
で発音記号列に分解される。例えば、原稿に「大自然」
という文の1ブロックがあれば、その分解された発音記
号列は「d,a,i,sh,i,z,e,N」となる。
このようにして各文は発音記号列に変換される。
【0016】電子化原稿中のn番目の文と音声との同期
をとるためのタイミング検出処理について述べる。発音
記号列化部23が出力する発音記号列データと、最適候
補選択部26が出力する電子化原稿中のn−1番目以前
の文に対する最適タイミング候補データとが探索音声区
間推定部22に入力され、探索音声区間推定部22は、
電子化原稿中のn番目の文に対するタイミング検出を音
声区間識別信号のどの音声区間に行えばよいかの推定を
行う。n−1番目の文の文末タイミングに発音記号列デ
ータから推定される文発声時間長を加えたタイミングの
前後に適当なアソビの音声区間を加えることにより、n
番目の文の探索音声区間を決定する。図2はこの探索音
声区間推定の状況を説明するもので、最適候補選択部2
6が決定したn−1番目の文の文末タイミングTn−1
に推定されるn番目の文の文発声時間長34を加えたタ
イミングの前後にアソビの音声区間T,Tを加える
ことにより、n番目の文に対する探索音声区間33が決
定される。決定されたn番目の文の探索音声区間33は
ワードスポッティング処理タイミング検出部25に入力
される。なお、図2において、30は全体の番組音声、
31は音声区間、32は非音声区間、Tn−1は最適候
補として選択されたn−1番目の文の文末タイミングが
示す時間である。
【0017】また、発音記号列化部23から得られる各
文の発音記号列データは音素HMM処理モデル生成部2
4に与えられる。音素HMM処理モデル生成部24は、
文頭および文末のタイミング検出を目的としたワードス
ポッティング処理を行うために、事前に文単位で発音記
号列化データに対し、図3に示すような音素HMMによ
る文モデルを構成する。この文モデルは、文を構成する
文節phrase1、phrase2、・・・、phr
aseM(Mは最終文節)、その文以外の音声を吸収す
るガーベジ(Garbage)およびフィードバックを
行うヌル(Null)から構成される。文節は音素HM
Mの連結、ガーベジは音素HMMの並列な枝により構成
される。文節間にポーズ(Pause)とヌルが挿入さ
れているのは、ナレータのような所定話者が自由にポー
ズを挿入して発声できるように対応可能にしたものであ
る。例えば、「そこにはいつも、生きものたちが織りな
す、不思議と感動があります。」という文についてみる
と、文節は「そこには」、「いつも」、「生きものたち
が」、「織りなす、」、「不思議と」、「感動が」、
「あります。」となるが、最初の「そこには」の発音記
号列がphrase1に相当し、最後の「あります。」
の発音記号列がphraseMに相当することになる。
このn番目の文に対する文モデルに対しワードスポッテ
ィング処理タイミング検出部25は、タイミング検出処
理を行う。
【0018】文頭音素の第1状態(例えば、上記文で
は、「そこには」の「そ」の最初の音素「s」)および
文末音素の最終状態(同、「あります。」の「す」の最
終音素「u」)の尤度曲線を描く。図2の探索音声区間
33について描いた尤度曲線が例えば図4のようになっ
たとすると、所定の時間間隔の各区間にピークP〜P
が存在する。その中で最大のピーク(尤度最大値)P
との差が閾値未満に入るローカルピーク(この場合P
,P,P)を複数個出力し、これらP,P
を同期タイミング候補とする。この場合の尤度計算
はフォワード・バックワードアルゴリズムを用いて行わ
れる。
【0019】最適候補選択部26は、ワードスポッティ
ング処理タイミング検出部25から得られる複数の同期
タイミング候補から番組全体として最適な同期タイミン
グ候補を選択する。n番目の文について複数の同期タイ
ミング候補が検出されたとすると、1番目の文からn番
目の文までの複数の同期タイミング候補を図5に例示す
るように時間軸上に並べる。図5は探索音声区間推定部
22と最適候補選択部26の動作関係を説明したもの
で、各点は前述の図4において説明したピーク(例、P
,P,P)に相当するものである。
【0020】図5において、尤度、時間順序、文長比お
よび音声区間らしさを考慮したDPマッチング(DP;
Dynamic Programming:「音声認識
の基礎(上)」Lawrence Rabiner、B
iing−hwang Juang共著、NTTアドバ
ンステクノロジ(株)編集・発行)を用いて最適なパ
ス、すなわち点を繋ぐ矢印の流れを選択し、各文の文頭
・文末タイミングを求める。この場合、尤度は音声的に
似ていること、時間順序は電子化原稿の時間順序に選ぶ
こと、文長比は候補の中で実際の文に比し長すぎるもの
や短すぎるものを選ばないこと、音声区間らしさは候補
の中で非音声区間と考えられる区間に存在する候補を選
ばないことの選択基準を意味し、これらの選択基準に従
って最適候補を選択する。
【0021】DPマッチングを行う際の遷移コストとし
て尤度コストs(i,t)、時間順序コストm
(t,ti−1)、文長比コストd(t
i−1)および音声区間コストcflx(t,t
i−1)を用いる。漸化式g(i,t)および各コス
トの定義式を以下に示す。
【0022】
【数2】
【0023】ただし、tはi番目のタイミング検出個
所の検出されたタイミング、rは文頭と文末のタイミン
グから計算された文発声時間長と発音記号列から推定さ
れた文発声時間長lとの比、mおよびσは学習データ
より求めた比rの平均および分散、またwは文長比コス
トd(t,ti−1)に対する重みである。また、w
cflx1およびwcflx2は音声区間コストcfl
x(t,ti−1)に対する重みである。Block
Cepstrum Fluxは音声区間では値が大き
くなり、非音声区間では値が小さくなるという特徴があ
るので、この特徴を用いて、文末候補から文頭候補への
パスを選択する際には音声区間コストcflx(t
i−1)が小さくなるような候補を選択し、文頭候補
から文末候補へのパスを選択する際には音声区間コスト
cflx(t,ti−1)が大きくなるような候補を
選択することにより、非音声区間のタイミング候補が最
適候補として選択される誤りを減らすことができる。i
が文末に相当する場合のみ文長比コストd(t,t
i−1)および音声区間コストcflx(t,t
i−1)を遷移コストに加え、iが文頭に相当する場合
には音声区間コストcflx(t,ti−1)を遷移
コストから減ずるため、漸化式は検出個所が文頭と文末
の場合で異なる形をとる。
【0024】以上のような処理装置を適用した場合の検
出精度は、文頭に対しては文発声開始時間との誤差、文
末に対しては文発声終了時間との誤差が閾値以下で検出
された場合を正解とした検出率で評価を行う。検出率の
式は下記のようになる。 検出率(%)=正解検出個所数/(2×文数)×100 ドキュメンタリ番組8本に対し、尤度コスト、時間順序
コスト、文長比コストおよび音声区間コストを用いたD
Pマッチングにより最適候補を選択する処理を適用した
場合の結果では、許容誤差の閾値を1秒、3秒とした
時、平均検出率はそれぞれ99.0%、99.5%とな
った。
【0025】以上のように、この実施の形態1によれ
ば、番組音声に対して音声区間検出を行った後に、電子
化原稿中の各文の文頭タイミングおよび文末タイミング
を求め、各文毎に処理を行い複数の同期タイミング候補
を出力し、尤度コスト、時間順序コスト、文長比コスト
および音声区間コストを基準として複数の同期タイミン
グ候補の中から番組全体として尤もらしい同期タイミン
グ候補を選択するようにしたので、背景音が重畳してい
る音声に対しても十分適用できる電子化原稿の文と音声
との同期タイミングの検出を実現する効果が得られる。
なお、上述の実験では、尤度コストと、電子化原稿の字
幕文の順による時間順序コストと、電子化原稿から推定
される文長との比較により得られる文長比コストと、音
声区間らしさを表す音声区間コストを用いたDPマッチ
ングによる最適候補選択の検出精度について示した。番
組の内容によっては、尤度コストおよび時間順序コスト
だけを用いて最適候補を選択しても十分対応できる場合
や、尤度コスト、時間順序コストおよび文長比コストだ
けを用いて最適候補を選択しても十分対応できる場合も
ある。
【0026】実施の形態2.実施の形態1では、電子化
原稿中のn番目の文の探索音声区間を決定する際にn−
1番目の文の文末タイミングに発音記号列データから推
定される文発声時間長を加えたタイミングの前後に適当
なアソビの音声区間を加えることによりn番目の文の探
索音声区間を決定しているが、他の方法として、n−1
番目の文の文末タイミングの上位M候補が存在する音声
区間に発音記号列データから推定される文発声時間長を
加えたタイミングの前後に適当なアソビの音声区間を加
えることによりn番目の文の探索音声区間を決定しても
よい。
【0027】実施の形態3.実施の形態1では、ワード
スポッティング処理タイミング検出部25はワードスポ
ッティングにより電子化原稿の文と音声との同期タイミ
ングを検出しているが、他の方法として、探索音声区間
検出の後に音声認識を行って文字変換して文字列を生成
し、この文字列と電子化原稿とを比較して同期タイミン
グを求めてもよい。この実施の形態3によれば、複雑な
背景音が少ない場合の同期タイミング検出に適用できる
効果が得られる。
【0028】
【発明の効果】以上のように、この発明によれば、映像
番組の番組音声に対して予め準備された電子化原稿の文
を番組音声に合わせて映像に添付する字幕制作システム
において、番組音声の中から所定話者音声が存在する音
声区間を識別できるように検出する音声区間検出手段
と、所定話者音声の音声区間と電子化原稿の文とを照合
することにより電子化原稿の文と番組音声との同期をと
るためのタイミングを検出するタイミング検出手段とを
備えるように構成したので、アナウンサ、ナレータ、出
演者等の音声を含まない非音声区間で同期タイミングが
誤って検出される場合を減少させることができ、現場集
録音やBGMが重畳した放送音声に対しても適用できる
効果がある。
【0029】この発明によれば、タイミング検出手段
が、電子化原稿中の各文に対してワードスポッティング
を行いそれぞれの文に対して複数の同期タイミング候補
を検出するワードスポッティング処理タイミング検出部
と、検出された複数の同期タイミング候補の中から番組
全体として最適同期タイミング候補を選択する最適候補
選択部とを有するように構成したので、音声処理技術の
ワードスポッティング技術を用いて自動的に同期タイミ
ングを検出でき、現場収録音やBGMが重畳した放送音
声に対しても適用できる効果がある。また、ニュース記
事のような短い音声だけでなく、ドキュメンタリ番組の
ような長時間音声に対しても適用できる効果がある。
【0030】この発明によれば、最適候補選択部が、ワ
ードスポッティング処理により得られる尤度コストと電
子化原稿の字幕文の順による時間順序コストとを用いた
DPマッチングにより最適同期タイミング候補を選択す
るように構成したので、自動的に同期タイミングを検出
でき、現場収録音やBGMが重畳した放送音声に対して
も頑健な検出機能を持つ効果がある。特に音声中に類似
の発声個所が存在した場合にもタイミングを一意に決定
できる効果がある。また、ニュース記事のような短い音
声だけでなく、ドキュメンタリ番組のような長時間音声
に対しても適用できる効果がある。
【0031】この発明によれば、最適候補選択部が、ワ
ードスポッティング処理により得られる尤度コストと、
電子化原稿の文の順による時間順序コストと、電子化原
稿から推定される文長との比較により得られる文長比コ
ストとを用いたDPマッチングにより最適同期タイミン
グ候補を選択するように構成したので、自動的に同期タ
イミングを検出でき、現場収録音やBGMが重畳した放
送音声に対しても検出精度をより高めることのできる字
幕送出タイミング検出装置を実現する効果がある。特に
音声中に類似の発声個所が存在した場合にもタイミング
を一意に決定し、電子化原稿中の文から推定される発声
時間長と比較して妥当な時間長になるタイミングを決定
できる効果がある。また、ニュース記事のような短い音
声だけでなく、ドキュメンタリ番組のような長時間音声
に対しても適用できる効果がある。
【0032】この発明によれば、最適候補選択部が、ワ
ードスポッティング処理により得られる尤度コストと、
電子化原稿の文の順による時間順序コストと、電子化原
稿から推定される文長との比較により得られる文長比コ
ストと、音声区間らしさを表す音声区間コストとを用い
たDPマッチングにより最適同期タイミング候補を選択
するように構成したので、自動的に同期タイミングを検
出でき、現場収録音やBGMが重畳した放送音声に対し
ても検出精度をより高めることができる字幕送出タイミ
ング検出装置を実現する効果がある。特に音声中に類似
の発声個所が存在した場合にもタイミングを一意に決定
し、非音声区間で誤って検出されたタイミング候補を選
択するのを減少させる効果がある。また、ニュース記事
のような短い音声だけでなく、ドキュメンタリ番組のよ
うな長時間音声に対しても適用できる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る字幕送出タイ
ミング検出装置の構成を示す機能ブロック図である。
【図2】 実施の形態1の動作に係る探索音声区間を示
す説明図である。
【図3】 実施の形態1の動作に係る音素HMMによる
文モデルを示す説明図である。
【図4】 実施の形態1の動作に係る尤度曲線の例を示
す説明図である。
【図5】 実施の形態1の探索音声区間推定部と最適候
補選択部の動作関係を説明する説明図である。
【符号の説明】
10 音声区間検出手段、11 番組音声源、12 音
声区間検出部、20タイミング検出手段、21 電子化
原稿格納部、22 探索音声区間推定部、23 発音記
号列化部、24 音素HMMモデル生成部25 ワード
スポッティング処理タイミング検出部、26 最適候補
選択部、27 文処理判定部、30全体の番組音声、3
1 音声区間、32 非音声区間、33 電子化原稿の
n番目の文の探索音声区間、34 推定されるn番目の
文の文発声時間長。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 (72)発明者 丸山 一郎 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 阿部 芳春 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 江原 暉将 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 白井 克彦 東京都港区芝2−31−19 通信・放送機構 内 Fターム(参考) 5D015 AA04 BB02 DD03 HH08 HH23 KK01

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 映像番組の番組音声に対して予め準備さ
    れた電子化原稿の文を番組音声に合わせて映像に添付す
    る字幕制作システムにおいて、前記番組音声の中から所
    定話者音声が存在する音声区間を識別できるように検出
    する音声区間検出手段と、前記所定話者音声の前記音声
    区間と前記電子化原稿の文とを照合することにより前記
    電子化原稿の文と前記番組音声との同期をとるためのタ
    イミングを検出するタイミング検出手段とを備えたこと
    を特徴とする字幕送出タイミング検出装置。
  2. 【請求項2】 タイミング検出手段が、電子化原稿中の
    各文に対してワードスポッティングを行いそれぞれの文
    に対して複数の同期タイミング候補を検出するワードス
    ポッティング処理タイミング検出部と、検出された前記
    複数の同期タイミング候補の中から番組全体として最適
    同期タイミング候補を選択する最適候補選択部とを有す
    ることを特徴とする請求項1記載の字幕送出タイミング
    検出装置。
  3. 【請求項3】 最適候補選択部が、ワードスポッティン
    グ処理により得られる尤度コストと電子化原稿の字幕文
    の順による時間順序コストとを用いたDPマッチングに
    より最適同期タイミング候補を選択することを特徴とす
    る請求項2記載の字幕送出タイミング検出装置。
  4. 【請求項4】 最適候補選択部が、ワードスポッティン
    グ処理により得られる尤度コストと、電子化原稿の文の
    順による時間順序コストと、前記電子化原稿から推定さ
    れる文長との比較により得られる文長比コストとを用い
    たDPマッチングにより最適同期タイミング候補を選択
    することを特徴とする請求項2記載の字幕送出タイミン
    グ検出装置。
  5. 【請求項5】 最適候補選択部が、ワードスポッティン
    グ処理により得られる尤度コストと、電子化原稿の文の
    順による時間順序コストと、前記電子化原稿から推定さ
    れる文長との比較により得られる文長比コストと、音声
    区間らしさを表す音声区間コストとを用いたDPマッチ
    ングにより最適同期タイミング候補を選択することを特
    徴とする請求項2記載の字幕送出タイミング検出装置。
JP2001038918A 2001-02-15 2001-02-15 字幕送出タイミング検出装置 Expired - Fee Related JP4595098B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001038918A JP4595098B2 (ja) 2001-02-15 2001-02-15 字幕送出タイミング検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001038918A JP4595098B2 (ja) 2001-02-15 2001-02-15 字幕送出タイミング検出装置

Publications (2)

Publication Number Publication Date
JP2002244694A true JP2002244694A (ja) 2002-08-30
JP4595098B2 JP4595098B2 (ja) 2010-12-08

Family

ID=18901812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001038918A Expired - Fee Related JP4595098B2 (ja) 2001-02-15 2001-02-15 字幕送出タイミング検出装置

Country Status (1)

Country Link
JP (1) JP4595098B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100373935C (zh) * 2004-02-03 2008-03-05 三星电子株式会社 字幕显示方法和使用其的设备
JP2008244888A (ja) * 2007-03-27 2008-10-09 Yamaha Corp 通信装置、通信方法およびプログラム
JP2009246813A (ja) * 2008-03-31 2009-10-22 Kddi Corp 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
JP2010044171A (ja) * 2008-08-11 2010-02-25 Asahi Kasei Corp 字幕出力装置、字幕出力方法及びプログラム
JP2010233019A (ja) * 2009-03-27 2010-10-14 Kddi Corp 字幕ずれ補正装置、再生装置および放送装置
KR20170114781A (ko) * 2016-04-06 2017-10-16 네이버 주식회사 콘텐츠의 자막 매핑 구간 설정 서비스를 제공하는 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置
JPH10136260A (ja) * 1996-10-25 1998-05-22 Nippon Hoso Kyokai <Nhk> 字幕スーパー・タイミング発生装置および方法ならびに字幕スーパー処理装置および方法
JPH10254478A (ja) * 1997-03-10 1998-09-25 Nippon Hoso Kyokai <Nhk> 音声原稿最適照合装置および方法
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置
JPH10136260A (ja) * 1996-10-25 1998-05-22 Nippon Hoso Kyokai <Nhk> 字幕スーパー・タイミング発生装置および方法ならびに字幕スーパー処理装置および方法
JPH10254478A (ja) * 1997-03-10 1998-09-25 Nippon Hoso Kyokai <Nhk> 音声原稿最適照合装置および方法
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100373935C (zh) * 2004-02-03 2008-03-05 三星电子株式会社 字幕显示方法和使用其的设备
JP2008244888A (ja) * 2007-03-27 2008-10-09 Yamaha Corp 通信装置、通信方法およびプログラム
JP2009246813A (ja) * 2008-03-31 2009-10-22 Kddi Corp 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
JP2010044171A (ja) * 2008-08-11 2010-02-25 Asahi Kasei Corp 字幕出力装置、字幕出力方法及びプログラム
JP2010233019A (ja) * 2009-03-27 2010-10-14 Kddi Corp 字幕ずれ補正装置、再生装置および放送装置
KR20170114781A (ko) * 2016-04-06 2017-10-16 네이버 주식회사 콘텐츠의 자막 매핑 구간 설정 서비스를 제공하는 방법
KR101922059B1 (ko) * 2016-04-06 2019-02-20 네이버 주식회사 콘텐츠의 자막 매핑 구간 설정 서비스를 제공하는 방법

Also Published As

Publication number Publication date
JP4595098B2 (ja) 2010-12-08

Similar Documents

Publication Publication Date Title
US20070118373A1 (en) System and method for generating closed captions
US20200120396A1 (en) Speech recognition for localized content
US8332212B2 (en) Method and system for efficient pacing of speech for transcription
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
US8311832B2 (en) Hybrid-captioning system
JP4869268B2 (ja) 音響モデル学習装置およびプログラム
US20070118364A1 (en) System for generating closed captions
US9940926B2 (en) Rapid speech recognition adaptation using acoustic input
US11942093B2 (en) System and method for simultaneous multilingual dubbing of video-audio programs
JP5149107B2 (ja) 音響処理装置およびプログラム
US20070294082A1 (en) Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
US20060287867A1 (en) Method and apparatus for generating a voice tag
Lecouteux et al. Imperfect transcript driven speech recognition
JP2002244694A (ja) 字幕送出タイミング検出装置
Kitayama et al. Speech starter: noise-robust endpoint detection by using filled pauses.
Furui Robust methods in automatic speech recognition and understanding.
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
Goto et al. Speech Spotter: On-demand speech recognition in human-human conversation on the telephone or in face-to-face situations
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP3277579B2 (ja) 音声認識方法および装置
Montacié et al. A silence/noise/music/speech splitting algorithm
Lim et al. Developing an automatic speech recognizer for filipino with english code-switching in news broadcast
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP3727436B2 (ja) 音声原稿最適照合装置および方法
JP2000122678A (ja) 音声認識機器制御装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040513

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040517

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080822

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080822

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080822

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100831

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees