JP4595098B2 - 字幕送出タイミング検出装置 - Google Patents

字幕送出タイミング検出装置 Download PDF

Info

Publication number
JP4595098B2
JP4595098B2 JP2001038918A JP2001038918A JP4595098B2 JP 4595098 B2 JP4595098 B2 JP 4595098B2 JP 2001038918 A JP2001038918 A JP 2001038918A JP 2001038918 A JP2001038918 A JP 2001038918A JP 4595098 B2 JP4595098 B2 JP 4595098B2
Authority
JP
Japan
Prior art keywords
sentence
timing
voice
cost
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001038918A
Other languages
English (en)
Other versions
JP2002244694A (ja
Inventor
一郎 丸山
芳春 阿部
暉将 江原
克彦 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
National Institute of Information and Communications Technology
Japan Broadcasting Corp
Original Assignee
Mitsubishi Electric Corp
National Institute of Information and Communications Technology
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, National Institute of Information and Communications Technology, Japan Broadcasting Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001038918A priority Critical patent/JP4595098B2/ja
Publication of JP2002244694A publication Critical patent/JP2002244694A/ja
Application granted granted Critical
Publication of JP4595098B2 publication Critical patent/JP4595098B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、番組音声と電子化原稿の文の同期をとるためのタイミングを検出する字幕送出タイミング検出装置に関するものである。
【0002】
【従来の技術】
TV番組は聴覚障害者に対応するため字幕を映像に挿入添付している。ドキュメンタリ番組、ドラマ等の事前収録TV番組の中には、一般に台本として電子化原稿が製作される番組がある。このような番組に対して字幕付与を行う場合、従来の方法では、台本用電子化原稿を参考にしつつ番組VTRを書き起こすことにより字幕用電子化原稿を作成し、アナウンサ、ナレータ、出演者等の音声と字幕用電子化原稿とを人手で照合することにより字幕送出タイミングを図ってきた。しかし、この方法は、作業に熟練性を要し、かつ番組の長さに応じて手作業の工数が係り、極めて効率が悪いという問題があった。
これに対し、特開平2000−270263号公報に記載された「自動字幕番組制作システム」では、ワードスポッティングを応用したワード列ペアモデルにより自動的に音声と電子化原稿の同期をとり字幕送出タイミングを検出する方法について述べられている。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の自動的に字幕送出タイミングを検出する方法は、比較的クリーンな音声が得られるニュース番組などを対象にしており、現場収録音やBGMが重畳した放送音声に適用した場合にはワード列ペアモデルの検出精度が低下するため同期のタイミングを検出するのに十分な精度が得られない。特にアナウンサ、ナレータ、出演者等の音声が含まれない非音声区間で誤って検出される場合もあった。また、音声中に類似した発声個所が複数ある場合にタイミングを一意に決められないという問題もあった。さらにこの方法では、電子化原稿中のすべての文ごとにワード列ペアモデル作成し、それぞれ音声区間全体に対して照合を行っているため、ニュース記事のように時間的に短い1〜3分程度の音声を対象とした場合には処理時間が特に問題とならないが、ドキュメンタリ番組のような長時間の番組音声に対して適用した場合には照合音声区間が長くなり、処理時間が非現実なものとなるなどの課題があった。
【0004】
この発明は上記のような課題を解決するためになされたもので、番組音声の音声区間を検出し、電子化原稿の文と照合することにより自動的に同期をとり、そのタイミングを検出できる字幕送出タイミング検出装置を得ることを目的とする。
また、この発明は音声処理技術のワードスポッティング技術を用いて自動的に同期タイミングを検出し、現場収録音やBGMが重畳した放送音声に対して検出精度高めた字幕送出タイミング検出装置を得ることを目的とする。
【0005】
【課題を解決しようとする手段】
この発明に係る字幕送出タイミング検出装置は、映像番組の番組音声に対して予め準備された電子化原稿の文を番組音声に合わせて映像に添付する字幕制作システムにおいて、話者音声の識別に適した音声認識技術のBlock Cepstrum Fluxを用いて前記番組音声の中から所定話者音声が存在する音声区間を識別できるように検出する音声区間検出手段と、前記電子化原稿中のn−1番目の文の文末タイミングに推定されるn番目の文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることによりn番目の文の探索音声区間を決定し、前記所定話者音声の前記探索音声区間と前記電子化原稿の文とを照合することにより前記電子化原稿の文と前記番組音声との同期をとるためのタイミングを検出するタイミング検出手段とを備えたものである。
【0006】
この発明に係る字幕送出タイミング検出装置は、タイミング検出手段が、電子化原稿中の各文に対してワードスポッティングを行いそれぞれの文に対して複数の同期タイミング候補を検出するワードスポッティング処理タイミング検出部と、検出された前記複数の同期タイミング候補の中から番組全体として最適同期タイミング候補を選択する最適候補選択部とを有するものである。
【0007】
この発明に係る字幕送出タイミング検出装置は、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと電子化原稿の字幕文の順による時間順序コストとを用いたDPマッチングにより最適同期タイミング候補を選択するものである。
【0008】
この発明に係る字幕送出タイミング検出装置は、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、前記電子化原稿から推定される文長との比較により得られる文長比コストとを用いたDPマッチングにより最適同期タイミング候補を選択するものである。
【0009】
この発明に係る字幕送出タイミング検出装置は、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、前記電子化原稿から推定される文長との比較により得られる文長比コストと、音声区間らしさを表す音声区間コストとを用いたDPマッチングにより最適同期タイミング候補を選択するものである。
【0010】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1に係る字幕送出タイミング検出装置の構成を示す機能ブロック図であり、構成部分の殆どはコンピュータによる処理機能を表すものである。
図において、10は音声区間検出手段で、11はVTR、LDあるいはDVDなどからなり音声を含んだ映像番組が格納された番組音声源である。12は音声区間検出部で、番組音声源11から取り出された番組音声の中でアナウンサ、ナレータ、出演者のような所定話者の声が存在する音声区間を識別できるように検出するものである。20はタイミング検出手段で、所定話者の音声区間と電子化原稿の文を照合することにより電子化原稿の文と音声との同期をとるタイミングを検出するものである。21は番組音声と同期をとる電子化原稿の文を予め格納して取り出す電子化原稿格納部である。22は探索音声区間推定部で、電子化原稿格納部21から取り出される電子化原稿の各文に対してどの音声区間にワードスポッティングを行えばよいか推定を行い、その対象とする音声区間、すなわち探索音声区間を推定するものである。23は発音記号列化部で、電子化原稿格納部21から取り出された文を発音記号列に分解するものである。24は音素HMM処理モデル生成部で、発音記号列をHMM(Hidden Marcov Model:「音声認識の基礎(下)」Lawrence Rabiner、Biing−hwang Juang共著、NTTアドバンステクノロジ(株)編集・発行)により処理しモデル化するものである。25はワードスポッティング処理タイミング検出部で、電子化原稿中の各文に対してワードスポッティングを行いそれぞれに対して複数の同期タイミング候補を取り出すものである。26は最適候補選択部で、複数の同期タイミング候補の中から番組全体として最適な同期タイミング候補を選択するものである。27は文処理判定部で、電子化原稿の各文に対する処理が最後の文Nまで行われたかを判定するものである。
【0011】
次に動作について説明する。
番組音声源11から取り出されるデジタル化された番組音声は、番組効果を高めるための背景音(BGM、動物の鳴き声、物の音、人々の話し声等)とナレータなどの所定話者の音声が混合された信号である。また、電子化原稿格納部21には番組台本の電子化原稿(デジタルデータ)、もしくは番組の台本を参考に書き起こした電子化原稿が予め格納されているものとする。
番組音声には、所定話者による音声を含む音声区間とそれ以外の背景音だけの非音声区間が存在する。この番組音声を音声区間検出部12に順次に入力し、音楽と話者音声の識別に適した音声認識技術のBlock Cepstrum Fluxを用いて音声区間の検出を行う。
【0012】
ここで、Cepstrum Flux D(J)およびBlock Cepstrum Flux B(W)は次のように定義される。
【0013】
【数1】
Figure 0004595098
【0014】
ただし、cはn番目フレームのケプストラム、Jは窓長、Wはブロック数、Fはn番目フレームの識別結果、Tは音声・非音声判別の閾値を表している。
予め設定した番組音声のフレーム毎にBlock Cepstrum Flux B(W)を計算し、閾値Tを下回る区間が一定以上連続した場合、その区間を非音声区間とし、残り(Tより大きい値の区間)はすべて音声区間として音声区間・非音声区間の判定を行い、音声区間を検出する。
【0015】
音声区間検出部12により音声区間が検出された音声区間識別信号はタイミング検出手段20に送られ、探索音声区間推定部22に入力される。一方、電子化原稿格納部21からの各文の文字データが文単位で順次読み出されて発音記号化列部23に入力される。発音記号列化部23において、文字データは所定の文単位で発音記号列に分解される。例えば、原稿に「大自然」という文の1ブロックがあれば、その分解された発音記号列は「d,a,i,sh,i,z,e,N」となる。このようにして各文は発音記号列に変換される。
【0016】
電子化原稿中のn番目の文と音声との同期をとるためのタイミング検出処理について述べる。
発音記号列化部23が出力する発音記号列データと、最適候補選択部26が出力する電子化原稿中のn−1番目以前の文に対する最適タイミング候補データとが探索音声区間推定部22に入力され、探索音声区間推定部22は、電子化原稿中のn番目の文に対するタイミング検出を音声区間識別信号のどの音声区間に行えばよいかの推定を行う。n−1番目の文の文末タイミングに発音記号列データから推定される文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることにより、n番目の文の探索音声区間を決定する。
図2はこの探索音声区間推定の状況を説明するもので、最適候補選択部26が決定したn−1番目の文の文末タイミングTn−1に推定されるn番目の文の文発声時間長34を加えたタイミングの前後にアソビの音声区間T,Tを加えることにより、n番目の文に対する探索音声区間33が決定される。決定されたn番目の文の探索音声区間33はワードスポッティング処理タイミング検出部25に入力される。なお、図2において、30は全体の番組音声、31は音声区間、32は非音声区間、Tn−1は最適候補として選択されたn−1番目の文の文末タイミングが示す時間である。
【0017】
また、発音記号列化部23から得られる各文の発音記号列データは音素HMM処理モデル生成部24に与えられる。音素HMM処理モデル生成部24は、文頭および文末のタイミング検出を目的としたワードスポッティング処理を行うために、事前に文単位で発音記号列化データに対し、図3に示すような音素HMMによる文モデルを構成する。この文モデルは、文を構成する文節phrase1、phrase2、・・・、phraseM(Mは最終文節)、その文以外の音声を吸収するガーベジ(Garbage)およびフィードバックを行うヌル(Null)から構成される。文節は音素HMMの連結、ガーベジは音素HMMの並列な枝により構成される。文節間にポーズ(Pause)とヌルが挿入されているのは、ナレータのような所定話者が自由にポーズを挿入して発声できるように対応可能にしたものである。
例えば、「そこにはいつも、生きものたちが織りなす、不思議と感動があります。」という文についてみると、文節は「そこには」、「いつも」、「生きものたちが」、「織りなす、」、「不思議と」、「感動が」、「あります。」となるが、最初の「そこには」の発音記号列がphrase1に相当し、最後の「あります。」の発音記号列がphraseMに相当することになる。
このn番目の文に対する文モデルに対しワードスポッティング処理タイミング検出部25は、タイミング検出処理を行う。
【0018】
文頭音素の第1状態(例えば、上記文では、「そこには」の「そ」の最初の音素「s」)および文末音素の最終状態(同、「あります。」の「す」の最終音素「u」)の尤度曲線を描く。図2の探索音声区間33について描いた尤度曲線が例えば図4のようになったとすると、所定の時間間隔の各区間にピークP〜Pが存在する。その中で最大のピーク(尤度最大値)Pとの差が閾値未満に入るローカルピーク(この場合P,P,P)を複数個出力し、これらP,P,Pを同期タイミング候補とする。この場合の尤度計算はフォワード・バックワードアルゴリズムを用いて行われる。
【0019】
最適候補選択部26は、ワードスポッティング処理タイミング検出部25から得られる複数の同期タイミング候補から番組全体として最適な同期タイミング候補を選択する。n番目の文について複数の同期タイミング候補が検出されたとすると、1番目の文からn番目の文までの複数の同期タイミング候補を図5に例示するように時間軸上に並べる。図5は探索音声区間推定部22と最適候補選択部26の動作関係を説明したもので、各点は前述の図4において説明したピーク(例、P,P,P)に相当するものである。
【0020】
図5において、尤度、時間順序、文長比および音声区間らしさを考慮したDPマッチング(DP;Dynamic Programming:「音声認識の基礎(上)」Lawrence Rabiner、Biing−hwang Juang共著、NTTアドバンステクノロジ(株)編集・発行)を用いて最適なパス、すなわち点を繋ぐ矢印の流れを選択し、各文の文頭・文末タイミングを求める。この場合、尤度は音声的に似ていること、時間順序は電子化原稿の時間順序に選ぶこと、文長比は候補の中で実際の文に比し長すぎるものや短すぎるものを選ばないこと、音声区間らしさは候補の中で非音声区間と考えられる区間に存在する候補を選ばないことの選択基準を意味し、これらの選択基準に従って最適候補を選択する。
【0021】
DPマッチングを行う際の遷移コストとして尤度コストs(i,t)、時間順序コストm(t,ti−1)、文長比コストd(t,ti−1)および音声区間コストcflx(t,ti−1)を用いる。漸化式g(i,t)および各コストの定義式を以下に示す。
【0022】
【数2】
Figure 0004595098
【0023】
ただし、tはi番目のタイミング検出個所の検出されたタイミング、rは文頭と文末のタイミングから計算された文発声時間長と発音記号列から推定された文発声時間長lとの比、mおよびσは学習データより求めた比rの平均および分散、またwは文長比コストd(t,ti−1)に対する重みである。また、wcflx1およびwcflx2は音声区間コストcflx(t,ti−1)に対する重みである。Block Cepstrum Fluxは音声区間では値が大きくなり、非音声区間では値が小さくなるという特徴があるので、この特徴を用いて、文末候補から文頭候補へのパスを選択する際には音声区間コストcflx(t,ti−1)が小さくなるような候補を選択し、文頭候補から文末候補へのパスを選択する際には音声区間コストcflx(t,ti−1)が大きくなるような候補を選択することにより、非音声区間のタイミング候補が最適候補として選択される誤りを減らすことができる。
iが文末に相当する場合のみ文長比コストd(t,ti−1)および音声区間コストcflx(t,ti−1)を遷移コストに加え、iが文頭に相当する場合には音声区間コストcflx(t,ti−1)を遷移コストから減ずるため、漸化式は検出個所が文頭と文末の場合で異なる形をとる。
【0024】
以上のような処理装置を適用した場合の検出精度は、文頭に対しては文発声開始時間との誤差、文末に対しては文発声終了時間との誤差が閾値以下で検出された場合を正解とした検出率で評価を行う。検出率の式は下記のようになる。
検出率(%)=正解検出個所数/(2×文数)×100
ドキュメンタリ番組8本に対し、尤度コスト、時間順序コスト、文長比コストおよび音声区間コストを用いたDPマッチングにより最適候補を選択する処理を適用した場合の結果では、許容誤差の閾値を1秒、3秒とした時、平均検出率はそれぞれ99.0%、99.5%となった。
【0025】
以上のように、この実施の形態1によれば、番組音声に対して音声区間検出を行った後に、電子化原稿中の各文の文頭タイミングおよび文末タイミングを求め、各文毎に処理を行い複数の同期タイミング候補を出力し、尤度コスト、時間順序コスト、文長比コストおよび音声区間コストを基準として複数の同期タイミング候補の中から番組全体として尤もらしい同期タイミング候補を選択するようにしたので、背景音が重畳している音声に対しても十分適用できる電子化原稿の文と音声との同期タイミングの検出を実現する効果が得られる。
なお、上述の実験では、尤度コストと、電子化原稿の字幕文の順による時間順序コストと、電子化原稿から推定される文長との比較により得られる文長比コストと、音声区間らしさを表す音声区間コストを用いたDPマッチングによる最適候補選択の検出精度について示した。
番組の内容によっては、尤度コストおよび時間順序コストだけを用いて最適候補を選択しても十分対応できる場合や、尤度コスト、時間順序コストおよび文長比コストだけを用いて最適候補を選択しても十分対応できる場合もある。
【0026】
実施の形態2.
実施の形態1では、電子化原稿中のn番目の文の探索音声区間を決定する際にn−1番目の文の文末タイミングに発音記号列データから推定される文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることによりn番目の文の探索音声区間を決定しているが、他の方法として、n−1番目の文の文末タイミングの上位M候補が存在する音声区間に発音記号列データから推定される文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることによりn番目の文の探索音声区間を決定してもよい。
【0027】
実施の形態3.
実施の形態1では、ワードスポッティング処理タイミング検出部25はワードスポッティングにより電子化原稿の文と音声との同期タイミングを検出しているが、他の方法として、探索音声区間検出の後に音声認識を行って文字変換して文字列を生成し、この文字列と電子化原稿とを比較して同期タイミングを求めてもよい。この実施の形態3によれば、複雑な背景音が少ない場合の同期タイミング検出に適用できる効果が得られる。
【0028】
【発明の効果】
以上のように、この発明によれば、映像番組の番組音声に対して予め準備された電子化原稿の文を番組音声に合わせて映像に添付する字幕制作システムにおいて、話者音声の識別に適した音声認識技術のBlock Cepstrum Fluxを用いて番組音声の中から所定話者音声が存在する音声区間を識別できるように検出する音声区間検出手段と、電子化原稿中のn−1番目の文の文末タイミングに推定されるn番目の文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることによりn番目の文の探索音声区間を決定し、所定話者音声の探索音声区間と電子化原稿の文とを照合することにより電子化原稿の文と番組音声との同期をとるためのタイミングを検出するタイミング検出手段とを備えるように構成したので、アナウンサ、ナレータ、出演者等の音声を含まない非音声区間で同期タイミングが誤って検出される場合を減少させることができ、現場集録音やBGMが重畳した放送音声に対しても適用できる効果がある。
【0029】
この発明によれば、タイミング検出手段が、電子化原稿中の各文に対してワードスポッティングを行いそれぞれの文に対して複数の同期タイミング候補を検出するワードスポッティング処理タイミング検出部と、検出された複数の同期タイミング候補の中から番組全体として最適同期タイミング候補を選択する最適候補選択部とを有するように構成したので、音声処理技術のワードスポッティング技術を用いて自動的に同期タイミングを検出でき、現場収録音やBGMが重畳した放送音声に対しても適用できる効果がある。また、ニュース記事のような短い音声だけでなく、ドキュメンタリ番組のような長時間音声に対しても適用できる効果がある。
【0030】
この発明によれば、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと電子化原稿の字幕文の順による時間順序コストとを用いたDPマッチングにより最適同期タイミング候補を選択するように構成したので、自動的に同期タイミングを検出でき、現場収録音やBGMが重畳した放送音声に対しても頑健な検出機能を持つ効果がある。特に音声中に類似の発声個所が存在した場合にもタイミングを一意に決定できる効果がある。また、ニュース記事のような短い音声だけでなく、ドキュメンタリ番組のような長時間音声に対しても適用できる効果がある。
【0031】
この発明によれば、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、電子化原稿から推定される文長との比較により得られる文長比コストとを用いたDPマッチングにより最適同期タイミング候補を選択するように構成したので、自動的に同期タイミングを検出でき、現場収録音やBGMが重畳した放送音声に対しても検出精度をより高めることのできる字幕送出タイミング検出装置を実現する効果がある。特に音声中に類似の発声個所が存在した場合にもタイミングを一意に決定し、電子化原稿中の文から推定される発声時間長と比較して妥当な時間長になるタイミングを決定できる効果がある。また、ニュース記事のような短い音声だけでなく、ドキュメンタリ番組のような長時間音声に対しても適用できる効果がある。
【0032】
この発明によれば、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、電子化原稿から推定される文長との比較により得られる文長比コストと、音声区間らしさを表す音声区間コストとを用いたDPマッチングにより最適同期タイミング候補を選択するように構成したので、自動的に同期タイミングを検出でき、現場収録音やBGMが重畳した放送音声に対しても検出精度をより高めることができる字幕送出タイミング検出装置を実現する効果がある。特に音声中に類似の発声個所が存在した場合にもタイミングを一意に決定し、非音声区間で誤って検出されたタイミング候補を選択するのを減少させる効果がある。また、ニュース記事のような短い音声だけでなく、ドキュメンタリ番組のような長時間音声に対しても適用できる効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1に係る字幕送出タイミング検出装置の構成を示す機能ブロック図である。
【図2】実施の形態1の動作に係る探索音声区間を示す説明図である。
【図3】実施の形態1の動作に係る音素HMMによる文モデルを示す説明図である。
【図4】実施の形態1の動作に係る尤度曲線の例を示す説明図である。
【図5】実施の形態1の探索音声区間推定部と最適候補選択部の動作関係を説明する説明図である。
【符号の説明】
10 音声区間検出手段、11 番組音声源、12 音声区間検出部、20 タイミング検出手段、21 電子化原稿格納部、22 探索音声区間推定部、23 発音記号列化部、24 音素HMMモデル生成部25 ワードスポッティング処理タイミング検出部、26 最適候補選択部、27 文処理判定部、30 全体の番組音声、31 音声区間、32 非音声区間、33 電子化原稿のn番目の文の探索音声区間、34 推定されるn番目の文の文発声時間長。

Claims (5)

  1. 映像番組の番組音声に対して予め準備された電子化原稿の文を番組音声に合わせて映像に添付する字幕制作システムにおいて、話者音声の識別に適した音声認識技術のBlock Cepstrum Fluxを用いて前記番組音声の中から所定話者音声が存在する音声区間を識別できるように検出する音声区間検出手段と、前記電子化原稿中のn−1番目の文の文末タイミングに推定されるn番目の文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることによりn番目の文の探索音声区間を決定し、前記所定話者音声の前記探索音声区間と前記電子化原稿の文とを照合することにより前記電子化原稿の文と前記番組音声との同期をとるためのタイミングを検出するタイミング検出手段とを備えたことを特徴とする字幕送出タイミング検出装置。
  2. タイミング検出手段が、電子化原稿中の各文に対してワードスポッティングを行いそれぞれの文に対して複数の同期タイミング候補を検出するワードスポッティング処理タイミング検出部と、検出された前記複数の同期タイミング候補の中から番組全体として最適同期タイミング候補を選択する最適候補選択部とを有することを特徴とする請求項1記載の字幕送出タイミング検出装置。
  3. 最適候補選択部が、ワードスポッティング処理により得られる尤度コストと電子化原稿の字幕文の順による時間順序コストとを用いたDPマッチングにより最適同期タイミング候補を選択することを特徴とする請求項2記載の字幕送出タイミング検出装置。
  4. 最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、前記電子化原稿から推定される文長との比較により得られる文長比コストとを用いたDPマッチングにより最適同期タイミング候補を選択することを特徴とする請求項2記載の字幕送出タイミング検出装置。
  5. 最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、前記電子化原稿から推定される文長との比較により得られる文長比コストと、音声区間らしさを表す音声区間コストとを用いたDPマッチングにより最適同期タイミング候補を選択することを特徴とする請求項2記載の字幕送出タイミング検出装置。
JP2001038918A 2001-02-15 2001-02-15 字幕送出タイミング検出装置 Expired - Fee Related JP4595098B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001038918A JP4595098B2 (ja) 2001-02-15 2001-02-15 字幕送出タイミング検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001038918A JP4595098B2 (ja) 2001-02-15 2001-02-15 字幕送出タイミング検出装置

Publications (2)

Publication Number Publication Date
JP2002244694A JP2002244694A (ja) 2002-08-30
JP4595098B2 true JP4595098B2 (ja) 2010-12-08

Family

ID=18901812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001038918A Expired - Fee Related JP4595098B2 (ja) 2001-02-15 2001-02-15 字幕送出タイミング検出装置

Country Status (1)

Country Link
JP (1) JP4595098B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101000924B1 (ko) * 2004-02-03 2010-12-13 삼성전자주식회사 캡션 표시 방법 및 장치
JP2008244888A (ja) * 2007-03-27 2008-10-09 Yamaha Corp 通信装置、通信方法およびプログラム
JP5273844B2 (ja) * 2008-03-31 2013-08-28 Kddi株式会社 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
JP5243886B2 (ja) * 2008-08-11 2013-07-24 旭化成株式会社 字幕出力装置、字幕出力方法及びプログラム
JP5246948B2 (ja) * 2009-03-27 2013-07-24 Kddi株式会社 字幕ずれ補正装置、再生装置および放送装置
KR101922059B1 (ko) * 2016-04-06 2019-02-20 네이버 주식회사 콘텐츠의 자막 매핑 구간 설정 서비스를 제공하는 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置
JPH10136260A (ja) * 1996-10-25 1998-05-22 Nippon Hoso Kyokai <Nhk> 字幕スーパー・タイミング発生装置および方法ならびに字幕スーパー処理装置および方法
JPH10254478A (ja) * 1997-03-10 1998-09-25 Nippon Hoso Kyokai <Nhk> 音声原稿最適照合装置および方法
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置
JPH10136260A (ja) * 1996-10-25 1998-05-22 Nippon Hoso Kyokai <Nhk> 字幕スーパー・タイミング発生装置および方法ならびに字幕スーパー処理装置および方法
JPH10254478A (ja) * 1997-03-10 1998-09-25 Nippon Hoso Kyokai <Nhk> 音声原稿最適照合装置および方法
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置

Also Published As

Publication number Publication date
JP2002244694A (ja) 2002-08-30

Similar Documents

Publication Publication Date Title
US9774747B2 (en) Transcription system
US8311832B2 (en) Hybrid-captioning system
JP3676969B2 (ja) 感情検出方法及び感情検出装置ならびに記録媒体
EP0899719B1 (en) Method for aligning text with audio signals
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
EP1909263A1 (en) Exploitation of language identification of media file data in speech dialog systems
JP5246948B2 (ja) 字幕ずれ補正装置、再生装置および放送装置
US20130035936A1 (en) Language transcription
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
Demuynck et al. A comparison of different approaches to automatic speech segmentation
US7120575B2 (en) Method and system for the automatic segmentation of an audio stream into semantic or syntactic units
JP4736478B2 (ja) 音声書き起こし支援装置およびその方法ならびにプログラム
Lecouteux et al. Imperfect transcript driven speech recognition
JP4595098B2 (ja) 字幕送出タイミング検出装置
JP5273844B2 (ja) 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
JP2007072331A (ja) 音声対話方法および音声対話システム
JP2007233148A (ja) 発話区間検出装置及び発話区間検出プログラム
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP5131904B2 (ja) 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
JP2007171289A (ja) 曲検出装置
Witbrock et al. Improving acoustic models by watching television
Goto et al. Speech spotter: on-demand speech recognition in human-human conversation on the telephone or in face-to-face situations.
JP3727436B2 (ja) 音声原稿最適照合装置および方法
Montacié et al. A silence/noise/music/speech splitting algorithm

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040513

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040517

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080822

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080822

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080822

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100831

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees