JP4595098B2

JP4595098B2 - 字幕送出タイミング検出装置

Info

Publication number: JP4595098B2
Application number: JP2001038918A
Authority: JP
Inventors: 一郎丸山; 芳春阿部; 暉将江原; 克彦白井
Original assignee: Mitsubishi Electric Corp; National Institute of Information and Communications Technology; Japan Broadcasting Corp
Current assignee: Mitsubishi Electric Corp; National Institute of Information and Communications Technology; Japan Broadcasting Corp
Priority date: 2001-02-15
Filing date: 2001-02-15
Publication date: 2010-12-08
Anticipated expiration: 2021-02-15
Also published as: JP2002244694A

Description

【０００１】
【発明の属する技術分野】
この発明は、番組音声と電子化原稿の文の同期をとるためのタイミングを検出する字幕送出タイミング検出装置に関するものである。
【０００２】
【従来の技術】
ＴＶ番組は聴覚障害者に対応するため字幕を映像に挿入添付している。ドキュメンタリ番組、ドラマ等の事前収録ＴＶ番組の中には、一般に台本として電子化原稿が製作される番組がある。このような番組に対して字幕付与を行う場合、従来の方法では、台本用電子化原稿を参考にしつつ番組ＶＴＲを書き起こすことにより字幕用電子化原稿を作成し、アナウンサ、ナレータ、出演者等の音声と字幕用電子化原稿とを人手で照合することにより字幕送出タイミングを図ってきた。しかし、この方法は、作業に熟練性を要し、かつ番組の長さに応じて手作業の工数が係り、極めて効率が悪いという問題があった。
これに対し、特開平２０００−２７０２６３号公報に記載された「自動字幕番組制作システム」では、ワードスポッティングを応用したワード列ペアモデルにより自動的に音声と電子化原稿の同期をとり字幕送出タイミングを検出する方法について述べられている。
【０００３】
【発明が解決しようとする課題】
しかしながら、従来の自動的に字幕送出タイミングを検出する方法は、比較的クリーンな音声が得られるニュース番組などを対象にしており、現場収録音やＢＧＭが重畳した放送音声に適用した場合にはワード列ペアモデルの検出精度が低下するため同期のタイミングを検出するのに十分な精度が得られない。特にアナウンサ、ナレータ、出演者等の音声が含まれない非音声区間で誤って検出される場合もあった。また、音声中に類似した発声個所が複数ある場合にタイミングを一意に決められないという問題もあった。さらにこの方法では、電子化原稿中のすべての文ごとにワード列ペアモデル作成し、それぞれ音声区間全体に対して照合を行っているため、ニュース記事のように時間的に短い１〜３分程度の音声を対象とした場合には処理時間が特に問題とならないが、ドキュメンタリ番組のような長時間の番組音声に対して適用した場合には照合音声区間が長くなり、処理時間が非現実なものとなるなどの課題があった。
【０００４】
この発明は上記のような課題を解決するためになされたもので、番組音声の音声区間を検出し、電子化原稿の文と照合することにより自動的に同期をとり、そのタイミングを検出できる字幕送出タイミング検出装置を得ることを目的とする。
また、この発明は音声処理技術のワードスポッティング技術を用いて自動的に同期タイミングを検出し、現場収録音やＢＧＭが重畳した放送音声に対して検出精度高めた字幕送出タイミング検出装置を得ることを目的とする。
【０００５】
【課題を解決しようとする手段】
この発明に係る字幕送出タイミング検出装置は、映像番組の番組音声に対して予め準備された電子化原稿の文を番組音声に合わせて映像に添付する字幕制作システムにおいて、話者音声の識別に適した音声認識技術のＢｌｏｃｋＣｅｐｓｔｒｕｍＦｌｕｘを用いて前記番組音声の中から所定話者音声が存在する音声区間を識別できるように検出する音声区間検出手段と、前記電子化原稿中のｎ−１番目の文の文末タイミングに推定されるｎ番目の文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることによりｎ番目の文の探索音声区間を決定し、前記所定話者音声の前記探索音声区間と前記電子化原稿の文とを照合することにより前記電子化原稿の文と前記番組音声との同期をとるためのタイミングを検出するタイミング検出手段とを備えたものである。
【０００６】
この発明に係る字幕送出タイミング検出装置は、タイミング検出手段が、電子化原稿中の各文に対してワードスポッティングを行いそれぞれの文に対して複数の同期タイミング候補を検出するワードスポッティング処理タイミング検出部と、検出された前記複数の同期タイミング候補の中から番組全体として最適同期タイミング候補を選択する最適候補選択部とを有するものである。
【０００７】
この発明に係る字幕送出タイミング検出装置は、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと電子化原稿の字幕文の順による時間順序コストとを用いたＤＰマッチングにより最適同期タイミング候補を選択するものである。
【０００８】
この発明に係る字幕送出タイミング検出装置は、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、前記電子化原稿から推定される文長との比較により得られる文長比コストとを用いたＤＰマッチングにより最適同期タイミング候補を選択するものである。
【０００９】
この発明に係る字幕送出タイミング検出装置は、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、前記電子化原稿から推定される文長との比較により得られる文長比コストと、音声区間らしさを表す音声区間コストとを用いたＤＰマッチングにより最適同期タイミング候補を選択するものである。
【００１０】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１はこの発明の実施の形態１に係る字幕送出タイミング検出装置の構成を示す機能ブロック図であり、構成部分の殆どはコンピュータによる処理機能を表すものである。
図において、１０は音声区間検出手段で、１１はＶＴＲ、ＬＤあるいはＤＶＤなどからなり音声を含んだ映像番組が格納された番組音声源である。１２は音声区間検出部で、番組音声源１１から取り出された番組音声の中でアナウンサ、ナレータ、出演者のような所定話者の声が存在する音声区間を識別できるように検出するものである。２０はタイミング検出手段で、所定話者の音声区間と電子化原稿の文を照合することにより電子化原稿の文と音声との同期をとるタイミングを検出するものである。２１は番組音声と同期をとる電子化原稿の文を予め格納して取り出す電子化原稿格納部である。２２は探索音声区間推定部で、電子化原稿格納部２１から取り出される電子化原稿の各文に対してどの音声区間にワードスポッティングを行えばよいか推定を行い、その対象とする音声区間、すなわち探索音声区間を推定するものである。２３は発音記号列化部で、電子化原稿格納部２１から取り出された文を発音記号列に分解するものである。２４は音素ＨＭＭ処理モデル生成部で、発音記号列をＨＭＭ（ＨｉｄｄｅｎＭａｒｃｏｖＭｏｄｅｌ：「音声認識の基礎（下）」ＬａｗｒｅｎｃｅＲａｂｉｎｅｒ、Ｂｉｉｎｇ−ｈｗａｎｇＪｕａｎｇ共著、ＮＴＴアドバンステクノロジ（株）編集・発行）により処理しモデル化するものである。２５はワードスポッティング処理タイミング検出部で、電子化原稿中の各文に対してワードスポッティングを行いそれぞれに対して複数の同期タイミング候補を取り出すものである。２６は最適候補選択部で、複数の同期タイミング候補の中から番組全体として最適な同期タイミング候補を選択するものである。２７は文処理判定部で、電子化原稿の各文に対する処理が最後の文Ｎまで行われたかを判定するものである。
【００１１】
次に動作について説明する。
番組音声源１１から取り出されるデジタル化された番組音声は、番組効果を高めるための背景音（ＢＧＭ、動物の鳴き声、物の音、人々の話し声等）とナレータなどの所定話者の音声が混合された信号である。また、電子化原稿格納部２１には番組台本の電子化原稿（デジタルデータ）、もしくは番組の台本を参考に書き起こした電子化原稿が予め格納されているものとする。
番組音声には、所定話者による音声を含む音声区間とそれ以外の背景音だけの非音声区間が存在する。この番組音声を音声区間検出部１２に順次に入力し、音楽と話者音声の識別に適した音声認識技術のＢｌｏｃｋＣｅｐｓｔｒｕｍＦｌｕｘを用いて音声区間の検出を行う。
【００１２】
ここで、ＣｅｐｓｔｒｕｍＦｌｕｘＤ_ｎ（Ｊ）およびＢｌｏｃｋＣｅｐｓｔｒｕｍＦｌｕｘＢ_ｎ（Ｗ）は次のように定義される。
【００１３】
【数１】

【００１４】
ただし、ｃ_ｎはｎ番目フレームのケプストラム、Ｊは窓長、Ｗはブロック数、Ｆ_ｎはｎ番目フレームの識別結果、Ｔ_Ｂは音声・非音声判別の閾値を表している。
予め設定した番組音声のフレーム毎にＢｌｏｃｋＣｅｐｓｔｒｕｍＦｌｕｘＢ_ｎ（Ｗ）を計算し、閾値Ｔ_Ｂを下回る区間が一定以上連続した場合、その区間を非音声区間とし、残り（Ｔ_Ｂより大きい値の区間）はすべて音声区間として音声区間・非音声区間の判定を行い、音声区間を検出する。
【００１５】
音声区間検出部１２により音声区間が検出された音声区間識別信号はタイミング検出手段２０に送られ、探索音声区間推定部２２に入力される。一方、電子化原稿格納部２１からの各文の文字データが文単位で順次読み出されて発音記号化列部２３に入力される。発音記号列化部２３において、文字データは所定の文単位で発音記号列に分解される。例えば、原稿に「大自然」という文の１ブロックがあれば、その分解された発音記号列は「ｄ，ａ，ｉ，ｓｈ，ｉ，ｚ，ｅ，Ｎ」となる。このようにして各文は発音記号列に変換される。
【００１６】
電子化原稿中のｎ番目の文と音声との同期をとるためのタイミング検出処理について述べる。
発音記号列化部２３が出力する発音記号列データと、最適候補選択部２６が出力する電子化原稿中のｎ−１番目以前の文に対する最適タイミング候補データとが探索音声区間推定部２２に入力され、探索音声区間推定部２２は、電子化原稿中のｎ番目の文に対するタイミング検出を音声区間識別信号のどの音声区間に行えばよいかの推定を行う。ｎ−１番目の文の文末タイミングに発音記号列データから推定される文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることにより、ｎ番目の文の探索音声区間を決定する。
図２はこの探索音声区間推定の状況を説明するもので、最適候補選択部２６が決定したｎ−１番目の文の文末タイミングＴ_ｎ−１に推定されるｎ番目の文の文発声時間長３４を加えたタイミングの前後にアソビの音声区間Ｔ_ａ，Ｔ_ｂを加えることにより、ｎ番目の文に対する探索音声区間３３が決定される。決定されたｎ番目の文の探索音声区間３３はワードスポッティング処理タイミング検出部２５に入力される。なお、図２において、３０は全体の番組音声、３１は音声区間、３２は非音声区間、Ｔ_ｎ−１は最適候補として選択されたｎ−１番目の文の文末タイミングが示す時間である。
【００１７】
また、発音記号列化部２３から得られる各文の発音記号列データは音素ＨＭＭ処理モデル生成部２４に与えられる。音素ＨＭＭ処理モデル生成部２４は、文頭および文末のタイミング検出を目的としたワードスポッティング処理を行うために、事前に文単位で発音記号列化データに対し、図３に示すような音素ＨＭＭによる文モデルを構成する。この文モデルは、文を構成する文節ｐｈｒａｓｅ１、ｐｈｒａｓｅ２、・・・、ｐｈｒａｓｅＭ（Ｍは最終文節）、その文以外の音声を吸収するガーベジ（Ｇａｒｂａｇｅ）およびフィードバックを行うヌル（Ｎｕｌｌ）から構成される。文節は音素ＨＭＭの連結、ガーベジは音素ＨＭＭの並列な枝により構成される。文節間にポーズ（Ｐａｕｓｅ）とヌルが挿入されているのは、ナレータのような所定話者が自由にポーズを挿入して発声できるように対応可能にしたものである。
例えば、「そこにはいつも、生きものたちが織りなす、不思議と感動があります。」という文についてみると、文節は「そこには」、「いつも」、「生きものたちが」、「織りなす、」、「不思議と」、「感動が」、「あります。」となるが、最初の「そこには」の発音記号列がｐｈｒａｓｅ１に相当し、最後の「あります。」の発音記号列がｐｈｒａｓｅＭに相当することになる。
このｎ番目の文に対する文モデルに対しワードスポッティング処理タイミング検出部２５は、タイミング検出処理を行う。
【００１８】
文頭音素の第１状態（例えば、上記文では、「そこには」の「そ」の最初の音素「ｓ」）および文末音素の最終状態（同、「あります。」の「す」の最終音素「ｕ」）の尤度曲線を描く。図２の探索音声区間３３について描いた尤度曲線が例えば図４のようになったとすると、所定の時間間隔の各区間にピークＰ_１〜Ｐ_７が存在する。その中で最大のピーク（尤度最大値）Ｐ_４との差が閾値未満に入るローカルピーク（この場合Ｐ_１，Ｐ_２，Ｐ_４）を複数個出力し、これらＰ_１，Ｐ_２，Ｐ_４を同期タイミング候補とする。この場合の尤度計算はフォワード・バックワードアルゴリズムを用いて行われる。
【００１９】
最適候補選択部２６は、ワードスポッティング処理タイミング検出部２５から得られる複数の同期タイミング候補から番組全体として最適な同期タイミング候補を選択する。ｎ番目の文について複数の同期タイミング候補が検出されたとすると、１番目の文からｎ番目の文までの複数の同期タイミング候補を図５に例示するように時間軸上に並べる。図５は探索音声区間推定部２２と最適候補選択部２６の動作関係を説明したもので、各点は前述の図４において説明したピーク（例、Ｐ_１，Ｐ_２，Ｐ_４）に相当するものである。
【００２０】
図５において、尤度、時間順序、文長比および音声区間らしさを考慮したＤＰマッチング（ＤＰ；ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：「音声認識の基礎（上）」ＬａｗｒｅｎｃｅＲａｂｉｎｅｒ、Ｂｉｉｎｇ−ｈｗａｎｇＪｕａｎｇ共著、ＮＴＴアドバンステクノロジ（株）編集・発行）を用いて最適なパス、すなわち点を繋ぐ矢印の流れを選択し、各文の文頭・文末タイミングを求める。この場合、尤度は音声的に似ていること、時間順序は電子化原稿の時間順序に選ぶこと、文長比は候補の中で実際の文に比し長すぎるものや短すぎるものを選ばないこと、音声区間らしさは候補の中で非音声区間と考えられる区間に存在する候補を選ばないことの選択基準を意味し、これらの選択基準に従って最適候補を選択する。
【００２１】
ＤＰマッチングを行う際の遷移コストとして尤度コストｓ（ｉ，ｔ_ｉ）、時間順序コストｍ（ｔ_ｉ，ｔ_ｉ−１）、文長比コストｄ（ｔ_ｉ，ｔ_ｉ−１）および音声区間コストｃｆｌｘ（ｔ_ｉ，ｔ_ｉ−１）を用いる。漸化式ｇ（ｉ，ｔ_ｉ）および各コストの定義式を以下に示す。
【００２２】
【数２】

【００２３】
ただし、ｔ_ｉはｉ番目のタイミング検出個所の検出されたタイミング、ｒは文頭と文末のタイミングから計算された文発声時間長と発音記号列から推定された文発声時間長ｌ_ｅとの比、ｍおよびσは学習データより求めた比ｒの平均および分散、またｗは文長比コストｄ（ｔ_ｉ，ｔ_ｉ−１）に対する重みである。また、ｗ_{ｃｆｌｘ１}およびｗ_{ｃｆｌｘ２}は音声区間コストｃｆｌｘ（ｔ_ｉ，ｔ_ｉ−１）に対する重みである。ＢｌｏｃｋＣｅｐｓｔｒｕｍＦｌｕｘは音声区間では値が大きくなり、非音声区間では値が小さくなるという特徴があるので、この特徴を用いて、文末候補から文頭候補へのパスを選択する際には音声区間コストｃｆｌｘ（ｔ_ｉ，ｔ_ｉ−１）が小さくなるような候補を選択し、文頭候補から文末候補へのパスを選択する際には音声区間コストｃｆｌｘ（ｔ_ｉ，ｔ_ｉ−１）が大きくなるような候補を選択することにより、非音声区間のタイミング候補が最適候補として選択される誤りを減らすことができる。
ｉが文末に相当する場合のみ文長比コストｄ（ｔ_ｉ，ｔ_ｉ−１）および音声区間コストｃｆｌｘ（ｔ_ｉ，ｔ_ｉ−１）を遷移コストに加え、ｉが文頭に相当する場合には音声区間コストｃｆｌｘ（ｔ_ｉ，ｔ_ｉ−１）を遷移コストから減ずるため、漸化式は検出個所が文頭と文末の場合で異なる形をとる。
【００２４】
以上のような処理装置を適用した場合の検出精度は、文頭に対しては文発声開始時間との誤差、文末に対しては文発声終了時間との誤差が閾値以下で検出された場合を正解とした検出率で評価を行う。検出率の式は下記のようになる。
検出率（％）＝正解検出個所数／（２×文数）×１００
ドキュメンタリ番組８本に対し、尤度コスト、時間順序コスト、文長比コストおよび音声区間コストを用いたＤＰマッチングにより最適候補を選択する処理を適用した場合の結果では、許容誤差の閾値を１秒、３秒とした時、平均検出率はそれぞれ９９．０％、９９．５％となった。
【００２５】
以上のように、この実施の形態１によれば、番組音声に対して音声区間検出を行った後に、電子化原稿中の各文の文頭タイミングおよび文末タイミングを求め、各文毎に処理を行い複数の同期タイミング候補を出力し、尤度コスト、時間順序コスト、文長比コストおよび音声区間コストを基準として複数の同期タイミング候補の中から番組全体として尤もらしい同期タイミング候補を選択するようにしたので、背景音が重畳している音声に対しても十分適用できる電子化原稿の文と音声との同期タイミングの検出を実現する効果が得られる。
なお、上述の実験では、尤度コストと、電子化原稿の字幕文の順による時間順序コストと、電子化原稿から推定される文長との比較により得られる文長比コストと、音声区間らしさを表す音声区間コストを用いたＤＰマッチングによる最適候補選択の検出精度について示した。
番組の内容によっては、尤度コストおよび時間順序コストだけを用いて最適候補を選択しても十分対応できる場合や、尤度コスト、時間順序コストおよび文長比コストだけを用いて最適候補を選択しても十分対応できる場合もある。
【００２６】
実施の形態２．
実施の形態１では、電子化原稿中のｎ番目の文の探索音声区間を決定する際にｎ−１番目の文の文末タイミングに発音記号列データから推定される文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることによりｎ番目の文の探索音声区間を決定しているが、他の方法として、ｎ−１番目の文の文末タイミングの上位Ｍ候補が存在する音声区間に発音記号列データから推定される文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることによりｎ番目の文の探索音声区間を決定してもよい。
【００２７】
実施の形態３．
実施の形態１では、ワードスポッティング処理タイミング検出部２５はワードスポッティングにより電子化原稿の文と音声との同期タイミングを検出しているが、他の方法として、探索音声区間検出の後に音声認識を行って文字変換して文字列を生成し、この文字列と電子化原稿とを比較して同期タイミングを求めてもよい。この実施の形態３によれば、複雑な背景音が少ない場合の同期タイミング検出に適用できる効果が得られる。
【００２８】
【発明の効果】
以上のように、この発明によれば、映像番組の番組音声に対して予め準備された電子化原稿の文を番組音声に合わせて映像に添付する字幕制作システムにおいて、話者音声の識別に適した音声認識技術のＢｌｏｃｋＣｅｐｓｔｒｕｍＦｌｕｘを用いて番組音声の中から所定話者音声が存在する音声区間を識別できるように検出する音声区間検出手段と、電子化原稿中のｎ−１番目の文の文末タイミングに推定されるｎ番目の文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることによりｎ番目の文の探索音声区間を決定し、所定話者音声の探索音声区間と電子化原稿の文とを照合することにより電子化原稿の文と番組音声との同期をとるためのタイミングを検出するタイミング検出手段とを備えるように構成したので、アナウンサ、ナレータ、出演者等の音声を含まない非音声区間で同期タイミングが誤って検出される場合を減少させることができ、現場集録音やＢＧＭが重畳した放送音声に対しても適用できる効果がある。
【００２９】
この発明によれば、タイミング検出手段が、電子化原稿中の各文に対してワードスポッティングを行いそれぞれの文に対して複数の同期タイミング候補を検出するワードスポッティング処理タイミング検出部と、検出された複数の同期タイミング候補の中から番組全体として最適同期タイミング候補を選択する最適候補選択部とを有するように構成したので、音声処理技術のワードスポッティング技術を用いて自動的に同期タイミングを検出でき、現場収録音やＢＧＭが重畳した放送音声に対しても適用できる効果がある。また、ニュース記事のような短い音声だけでなく、ドキュメンタリ番組のような長時間音声に対しても適用できる効果がある。
【００３０】
この発明によれば、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと電子化原稿の字幕文の順による時間順序コストとを用いたＤＰマッチングにより最適同期タイミング候補を選択するように構成したので、自動的に同期タイミングを検出でき、現場収録音やＢＧＭが重畳した放送音声に対しても頑健な検出機能を持つ効果がある。特に音声中に類似の発声個所が存在した場合にもタイミングを一意に決定できる効果がある。また、ニュース記事のような短い音声だけでなく、ドキュメンタリ番組のような長時間音声に対しても適用できる効果がある。
【００３１】
この発明によれば、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、電子化原稿から推定される文長との比較により得られる文長比コストとを用いたＤＰマッチングにより最適同期タイミング候補を選択するように構成したので、自動的に同期タイミングを検出でき、現場収録音やＢＧＭが重畳した放送音声に対しても検出精度をより高めることのできる字幕送出タイミング検出装置を実現する効果がある。特に音声中に類似の発声個所が存在した場合にもタイミングを一意に決定し、電子化原稿中の文から推定される発声時間長と比較して妥当な時間長になるタイミングを決定できる効果がある。また、ニュース記事のような短い音声だけでなく、ドキュメンタリ番組のような長時間音声に対しても適用できる効果がある。
【００３２】
この発明によれば、最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、電子化原稿から推定される文長との比較により得られる文長比コストと、音声区間らしさを表す音声区間コストとを用いたＤＰマッチングにより最適同期タイミング候補を選択するように構成したので、自動的に同期タイミングを検出でき、現場収録音やＢＧＭが重畳した放送音声に対しても検出精度をより高めることができる字幕送出タイミング検出装置を実現する効果がある。特に音声中に類似の発声個所が存在した場合にもタイミングを一意に決定し、非音声区間で誤って検出されたタイミング候補を選択するのを減少させる効果がある。また、ニュース記事のような短い音声だけでなく、ドキュメンタリ番組のような長時間音声に対しても適用できる効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１に係る字幕送出タイミング検出装置の構成を示す機能ブロック図である。
【図２】実施の形態１の動作に係る探索音声区間を示す説明図である。
【図３】実施の形態１の動作に係る音素ＨＭＭによる文モデルを示す説明図である。
【図４】実施の形態１の動作に係る尤度曲線の例を示す説明図である。
【図５】実施の形態１の探索音声区間推定部と最適候補選択部の動作関係を説明する説明図である。
【符号の説明】
１０音声区間検出手段、１１番組音声源、１２音声区間検出部、２０タイミング検出手段、２１電子化原稿格納部、２２探索音声区間推定部、２３発音記号列化部、２４音素ＨＭＭモデル生成部２５ワードスポッティング処理タイミング検出部、２６最適候補選択部、２７文処理判定部、３０全体の番組音声、３１音声区間、３２非音声区間、３３電子化原稿のｎ番目の文の探索音声区間、３４推定されるｎ番目の文の文発声時間長。

Claims

映像番組の番組音声に対して予め準備された電子化原稿の文を番組音声に合わせて映像に添付する字幕制作システムにおいて、話者音声の識別に適した音声認識技術のＢｌｏｃｋＣｅｐｓｔｒｕｍＦｌｕｘを用いて前記番組音声の中から所定話者音声が存在する音声区間を識別できるように検出する音声区間検出手段と、前記電子化原稿中のｎ−１番目の文の文末タイミングに推定されるｎ番目の文発声時間長を加えたタイミングの前後に適当なアソビの音声区間を加えることによりｎ番目の文の探索音声区間を決定し、前記所定話者音声の前記探索音声区間と前記電子化原稿の文とを照合することにより前記電子化原稿の文と前記番組音声との同期をとるためのタイミングを検出するタイミング検出手段とを備えたことを特徴とする字幕送出タイミング検出装置。
タイミング検出手段が、電子化原稿中の各文に対してワードスポッティングを行いそれぞれの文に対して複数の同期タイミング候補を検出するワードスポッティング処理タイミング検出部と、検出された前記複数の同期タイミング候補の中から番組全体として最適同期タイミング候補を選択する最適候補選択部とを有することを特徴とする請求項１記載の字幕送出タイミング検出装置。
最適候補選択部が、ワードスポッティング処理により得られる尤度コストと電子化原稿の字幕文の順による時間順序コストとを用いたＤＰマッチングにより最適同期タイミング候補を選択することを特徴とする請求項２記載の字幕送出タイミング検出装置。
最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、前記電子化原稿から推定される文長との比較により得られる文長比コストとを用いたＤＰマッチングにより最適同期タイミング候補を選択することを特徴とする請求項２記載の字幕送出タイミング検出装置。
最適候補選択部が、ワードスポッティング処理により得られる尤度コストと、電子化原稿の文の順による時間順序コストと、前記電子化原稿から推定される文長との比較により得られる文長比コストと、音声区間らしさを表す音声区間コストとを用いたＤＰマッチングにより最適同期タイミング候補を選択することを特徴とする請求項２記載の字幕送出タイミング検出装置。