JP2002244694A

JP2002244694A - 字幕送出タイミング検出装置

Info

Publication number: JP2002244694A
Application number: JP2001038918A
Authority: JP
Inventors: Ichiro Maruyama; 一郎丸山; Yoshiharu Abe; 芳春阿部; Terumasa Ebara; 暉将江原; Katsuhiko Shirai; 克彦白井
Original assignee: Mitsubishi Electric Corp; Nippon Hoso Kyokai NHK; Telecommunications Advancement Organization; Japan Broadcasting Corp
Current assignee: Mitsubishi Electric Corp; Telecommunications Advancement Organization; Japan Broadcasting Corp
Priority date: 2001-02-15
Filing date: 2001-02-15
Publication date: 2002-08-30
Anticipated expiration: 2021-02-15
Also published as: JP4595098B2

Abstract

(57)【要約】【課題】従来の方法は字幕を送出するタイミングを人
為的に決めていたので、作業に熟練性を要し、かつ番組
の長さに応じて手作業の工数が係り、極めて効率が悪い
という問題があった。また、自動化が考えられたが、現
場収録音やＢＧＭが重畳した放送音声に対しては十分に
適用できなかった。【解決手段】番組音声の中から所定話者音声が存在す
る音声区間を識別する音声区間検出手段と、所定話者音
声の音声区間と電子化原稿の文とを照合することにより
電子化原稿の文と音声との同期タイミングを検出するタ
イミング検出手段とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、番組音声と電子
化原稿の文の同期をとるためのタイミングを検出する字
幕送出タイミング検出装置に関するものである。

【０００２】

【従来の技術】ＴＶ番組は聴覚障害者に対応するため字
幕を映像に挿入添付している。ドキュメンタリ番組、ド
ラマ等の事前収録ＴＶ番組の中には、一般に台本として
電子化原稿が製作される番組がある。このような番組に
対して字幕付与を行う場合、従来の方法では、台本用電
子化原稿を参考にしつつ番組ＶＴＲを書き起こすことに
より字幕用電子化原稿を作成し、アナウンサ、ナレー
タ、出演者等の音声と字幕用電子化原稿とを人手で照合
することにより字幕送出タイミングを図ってきた。しか
し、この方法は、作業に熟練性を要し、かつ番組の長さ
に応じて手作業の工数が係り、極めて効率が悪いという
問題があった。これに対し、特開平２０００−２７０２
６３号公報に記載された「自動字幕番組制作システム」
では、ワードスポッティングを応用したワード列ペアモ
デルにより自動的に音声と電子化原稿の同期をとり字幕
送出タイミングを検出する方法について述べられてい
る。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
自動的に字幕送出タイミングを検出する方法は、比較的
クリーンな音声が得られるニュース番組などを対象にし
ており、現場収録音やＢＧＭが重畳した放送音声に適用
した場合にはワード列ペアモデルの検出精度が低下する
ため同期のタイミングを検出するのに十分な精度が得ら
れない。特にアナウンサ、ナレータ、出演者等の音声が
含まれない非音声区間で誤って検出される場合もあっ
た。また、音声中に類似した発声個所が複数ある場合に
タイミングを一意に決められないという問題もあった。
さらにこの方法では、電子化原稿中のすべての文ごとに
ワード列ペアモデル作成し、それぞれ音声区間全体に対
して照合を行っているため、ニュース記事のように時間
的に短い１〜３分程度の音声を対象とした場合には処理
時間が特に問題とならないが、ドキュメンタリ番組のよ
うな長時間の番組音声に対して適用した場合には照合音
声区間が長くなり、処理時間が非現実なものとなるなど
の課題があった。

【０００４】この発明は上記のような課題を解決するた
めになされたもので、番組音声の音声区間を検出し、電
子化原稿の文と照合することにより自動的に同期をと
り、そのタイミングを検出できる字幕送出タイミング検
出装置を得ることを目的とする。また、この発明は音声
処理技術のワードスポッティング技術を用いて自動的に
同期タイミングを検出し、現場収録音やＢＧＭが重畳し
た放送音声に対して検出精度高めた字幕送出タイミング
検出装置を得ることを目的とする。

【０００５】

【課題を解決しようとする手段】この発明に係る字幕送
出タイミング検出装置は、映像番組の番組音声に対して
予め準備された電子化原稿の文を番組音声に合わせて映
像に添付する字幕制作システムにおいて、前記番組音声
の中から所定話者音声が存在する音声区間を識別できる
ように検出する音声区間検出手段と、前記所定話者音声
の前記音声区間と前記電子化原稿の文とを照合すること
により前記電子化原稿の文と前記番組音声との同期をと
るためのタイミングを検出するタイミング検出手段とを
備えたものである。

【０００６】この発明に係る字幕送出タイミング検出装
置は、タイミング検出手段が、電子化原稿中の各文に対
してワードスポッティングを行いそれぞれの文に対して
複数の同期タイミング候補を検出するワードスポッティ
ング処理タイミング検出部と、検出された前記複数の同
期タイミング候補の中から番組全体として最適同期タイ
ミング候補を選択する最適候補選択部とを有するもので
ある。

【０００７】この発明に係る字幕送出タイミング検出装
置は、最適候補選択部が、ワードスポッティング処理に
より得られる尤度コストと電子化原稿の字幕文の順によ
る時間順序コストとを用いたＤＰマッチングにより最適
同期タイミング候補を選択するものである。

【０００８】この発明に係る字幕送出タイミング検出装
置は、最適候補選択部が、ワードスポッティング処理に
より得られる尤度コストと、電子化原稿の文の順による
時間順序コストと、前記電子化原稿から推定される文長
との比較により得られる文長比コストとを用いたＤＰマ
ッチングにより最適同期タイミング候補を選択するもの
である。

【０００９】この発明に係る字幕送出タイミング検出装
置は、最適候補選択部が、ワードスポッティング処理に
より得られる尤度コストと、電子化原稿の文の順による
時間順序コストと、前記電子化原稿から推定される文長
との比較により得られる文長比コストと、音声区間らし
さを表す音声区間コストとを用いたＤＰマッチングによ
り最適同期タイミング候補を選択するものである。

【００１０】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１に係る字
幕送出タイミング検出装置の構成を示す機能ブロック図
であり、構成部分の殆どはコンピュータによる処理機能
を表すものである。図において、１０は音声区間検出手
段で、１１はＶＴＲ、ＬＤあるいはＤＶＤなどからなり
音声を含んだ映像番組が格納された番組音声源である。
１２は音声区間検出部で、番組音声源１１から取り出さ
れた番組音声の中でアナウンサ、ナレータ、出演者のよ
うな所定話者の声が存在する音声区間を識別できるよう
に検出するものである。２０はタイミング検出手段で、
所定話者の音声区間と電子化原稿の文を照合することに
より電子化原稿の文と音声との同期をとるタイミングを
検出するものである。２１は番組音声と同期をとる電子
化原稿の文を予め格納して取り出す電子化原稿格納部で
ある。２２は探索音声区間推定部で、電子化原稿格納部
２１から取り出される電子化原稿の各文に対してどの音
声区間にワードスポッティングを行えばよいか推定を行
い、その対象とする音声区間、すなわち探索音声区間を
推定するものである。２３は発音記号列化部で、電子化
原稿格納部２１から取り出された文を発音記号列に分解
するものである。２４は音素ＨＭＭ処理モデル生成部
で、発音記号列をＨＭＭ（ＨｉｄｄｅｎＭａｒｃｏｖ
Ｍｏｄｅｌ：「音声認識の基礎（下）」Ｌａｗｒｅｎ
ｃｅＲａｂｉｎｅｒ、Ｂｉｉｎｇ−ｈｗａｎｇＪｕ
ａｎｇ共著、ＮＴＴアドバンステクノロジ（株）編集・
発行）により処理しモデル化するものである。２５はワ
ードスポッティング処理タイミング検出部で、電子化原
稿中の各文に対してワードスポッティングを行いそれぞ
れに対して複数の同期タイミング候補を取り出すもので
ある。２６は最適候補選択部で、複数の同期タイミング
候補の中から番組全体として最適な同期タイミング候補
を選択するものである。２７は文処理判定部で、電子化
原稿の各文に対する処理が最後の文Ｎまで行われたかを
判定するものである。

【００１１】次に動作について説明する。番組音声源１
１から取り出されるデジタル化された番組音声は、番組
効果を高めるための背景音（ＢＧＭ、動物の鳴き声、物
の音、人々の話し声等）とナレータなどの所定話者の音
声が混合された信号である。また、電子化原稿格納部２
１には番組台本の電子化原稿（デジタルデータ）、もし
くは番組の台本を参考に書き起こした電子化原稿が予め
格納されているものとする。番組音声には、所定話者に
よる音声を含む音声区間とそれ以外の背景音だけの非音
声区間が存在する。この番組音声を音声区間検出部１２
に順次に入力し、音楽と話者音声の識別に適した音声認
識技術のＢｌｏｃｋＣｅｐｓｔｒｕｍＦｌｕｘを用
いて音声区間の検出を行う。

【００１２】ここで、ＣｅｐｓｔｒｕｍＦｌｕｘＤ
_ｎ（Ｊ）およびＢｌｏｃｋＣｅｐｓｔｒｕｍＦｌｕ
ｘＢ_ｎ（Ｗ）は次のように定義される。

【００１３】

【数１】

【００１４】ただし、ｃ_ｎはｎ番目フレームのケプスト
ラム、Ｊは窓長、Ｗはブロック数、Ｆ_ｎはｎ番目フレー
ムの識別結果、Ｔ_Ｂは音声・非音声判別の閾値を表して
いる。予め設定した番組音声のフレーム毎にＢｌｏｃｋ
ＣｅｐｓｔｒｕｍＦｌｕｘＢ_ｎ（Ｗ）を計算し、
閾値Ｔ_Ｂを下回る区間が一定以上連続した場合、その区
間を非音声区間とし、残り（Ｔ_Ｂより大きい値の区間）
はすべて音声区間として音声区間・非音声区間の判定を
行い、音声区間を検出する。

【００１５】音声区間検出部１２により音声区間が検出
された音声区間識別信号はタイミング検出手段２０に送
られ、探索音声区間推定部２２に入力される。一方、電
子化原稿格納部２１からの各文の文字データが文単位で
順次読み出されて発音記号化列部２３に入力される。発
音記号列化部２３において、文字データは所定の文単位
で発音記号列に分解される。例えば、原稿に「大自然」
という文の１ブロックがあれば、その分解された発音記
号列は「ｄ，ａ，ｉ，ｓｈ，ｉ，ｚ，ｅ，Ｎ」となる。
このようにして各文は発音記号列に変換される。

【００１６】電子化原稿中のｎ番目の文と音声との同期
をとるためのタイミング検出処理について述べる。発音
記号列化部２３が出力する発音記号列データと、最適候
補選択部２６が出力する電子化原稿中のｎ−１番目以前
の文に対する最適タイミング候補データとが探索音声区
間推定部２２に入力され、探索音声区間推定部２２は、
電子化原稿中のｎ番目の文に対するタイミング検出を音
声区間識別信号のどの音声区間に行えばよいかの推定を
行う。ｎ−１番目の文の文末タイミングに発音記号列デ
ータから推定される文発声時間長を加えたタイミングの
前後に適当なアソビの音声区間を加えることにより、ｎ
番目の文の探索音声区間を決定する。図２はこの探索音
声区間推定の状況を説明するもので、最適候補選択部２
６が決定したｎ−１番目の文の文末タイミングＴ_ｎ−１
に推定されるｎ番目の文の文発声時間長３４を加えたタ
イミングの前後にアソビの音声区間Ｔ_ａ，Ｔ_ｂを加える
ことにより、ｎ番目の文に対する探索音声区間３３が決
定される。決定されたｎ番目の文の探索音声区間３３は
ワードスポッティング処理タイミング検出部２５に入力
される。なお、図２において、３０は全体の番組音声、
３１は音声区間、３２は非音声区間、Ｔ_ｎ−１は最適候
補として選択されたｎ−１番目の文の文末タイミングが
示す時間である。

【００１７】また、発音記号列化部２３から得られる各
文の発音記号列データは音素ＨＭＭ処理モデル生成部２
４に与えられる。音素ＨＭＭ処理モデル生成部２４は、
文頭および文末のタイミング検出を目的としたワードス
ポッティング処理を行うために、事前に文単位で発音記
号列化データに対し、図３に示すような音素ＨＭＭによ
る文モデルを構成する。この文モデルは、文を構成する
文節ｐｈｒａｓｅ１、ｐｈｒａｓｅ２、・・・、ｐｈｒ
ａｓｅＭ（Ｍは最終文節）、その文以外の音声を吸収す
るガーベジ（Ｇａｒｂａｇｅ）およびフィードバックを
行うヌル（Ｎｕｌｌ）から構成される。文節は音素ＨＭ
Ｍの連結、ガーベジは音素ＨＭＭの並列な枝により構成
される。文節間にポーズ（Ｐａｕｓｅ）とヌルが挿入さ
れているのは、ナレータのような所定話者が自由にポー
ズを挿入して発声できるように対応可能にしたものであ
る。例えば、「そこにはいつも、生きものたちが織りな
す、不思議と感動があります。」という文についてみる
と、文節は「そこには」、「いつも」、「生きものたち
が」、「織りなす、」、「不思議と」、「感動が」、
「あります。」となるが、最初の「そこには」の発音記
号列がｐｈｒａｓｅ１に相当し、最後の「あります。」
の発音記号列がｐｈｒａｓｅＭに相当することになる。
このｎ番目の文に対する文モデルに対しワードスポッテ
ィング処理タイミング検出部２５は、タイミング検出処
理を行う。

【００１８】文頭音素の第１状態（例えば、上記文で
は、「そこには」の「そ」の最初の音素「ｓ」）および
文末音素の最終状態（同、「あります。」の「す」の最
終音素「ｕ」）の尤度曲線を描く。図２の探索音声区間
３３について描いた尤度曲線が例えば図４のようになっ
たとすると、所定の時間間隔の各区間にピークＰ_１〜Ｐ
_７が存在する。その中で最大のピーク（尤度最大値）Ｐ
_４との差が閾値未満に入るローカルピーク（この場合Ｐ
_１，Ｐ_２，Ｐ_４）を複数個出力し、これらＰ_１，Ｐ_２，
Ｐ_４を同期タイミング候補とする。この場合の尤度計算
はフォワード・バックワードアルゴリズムを用いて行わ
れる。

【００１９】最適候補選択部２６は、ワードスポッティ
ング処理タイミング検出部２５から得られる複数の同期
タイミング候補から番組全体として最適な同期タイミン
グ候補を選択する。ｎ番目の文について複数の同期タイ
ミング候補が検出されたとすると、１番目の文からｎ番
目の文までの複数の同期タイミング候補を図５に例示す
るように時間軸上に並べる。図５は探索音声区間推定部
２２と最適候補選択部２６の動作関係を説明したもの
で、各点は前述の図４において説明したピーク（例、Ｐ
_１，Ｐ_２，Ｐ_４）に相当するものである。

【００２０】図５において、尤度、時間順序、文長比お
よび音声区間らしさを考慮したＤＰマッチング（ＤＰ；
ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：「音声認識
の基礎（上）」ＬａｗｒｅｎｃｅＲａｂｉｎｅｒ、Ｂ
ｉｉｎｇ−ｈｗａｎｇＪｕａｎｇ共著、ＮＴＴアドバ
ンステクノロジ（株）編集・発行）を用いて最適なパ
ス、すなわち点を繋ぐ矢印の流れを選択し、各文の文頭
・文末タイミングを求める。この場合、尤度は音声的に
似ていること、時間順序は電子化原稿の時間順序に選ぶ
こと、文長比は候補の中で実際の文に比し長すぎるもの
や短すぎるものを選ばないこと、音声区間らしさは候補
の中で非音声区間と考えられる区間に存在する候補を選
ばないことの選択基準を意味し、これらの選択基準に従
って最適候補を選択する。

【００２１】ＤＰマッチングを行う際の遷移コストとし
て尤度コストｓ（ｉ，ｔ_ｉ）、時間順序コストｍ
（ｔ_ｉ，ｔ_ｉ−１）、文長比コストｄ（ｔ_ｉ，
ｔ_ｉ−１）および音声区間コストｃｆｌｘ（ｔ_ｉ，ｔ
_ｉ−１）を用いる。漸化式ｇ（ｉ，ｔ_ｉ）および各コス
トの定義式を以下に示す。

【００２２】

【数２】

【００２３】ただし、ｔ_ｉはｉ番目のタイミング検出個
所の検出されたタイミング、ｒは文頭と文末のタイミン
グから計算された文発声時間長と発音記号列から推定さ
れた文発声時間長ｌ_ｅとの比、ｍおよびσは学習データ
より求めた比ｒの平均および分散、またｗは文長比コス
トｄ（ｔ_ｉ，ｔ_ｉ−１）に対する重みである。また、ｗ
_{ｃｆｌｘ１}およびｗ_{ｃｆｌｘ２}は音声区間コストｃｆｌ
ｘ（ｔ_ｉ，ｔ_ｉ−１）に対する重みである。Ｂｌｏｃｋ
ＣｅｐｓｔｒｕｍＦｌｕｘは音声区間では値が大き
くなり、非音声区間では値が小さくなるという特徴があ
るので、この特徴を用いて、文末候補から文頭候補への
パスを選択する際には音声区間コストｃｆｌｘ（ｔ_ｉ，
ｔ_ｉ−１）が小さくなるような候補を選択し、文頭候補
から文末候補へのパスを選択する際には音声区間コスト
ｃｆｌｘ（ｔ_ｉ，ｔ_ｉ−１）が大きくなるような候補を
選択することにより、非音声区間のタイミング候補が最
適候補として選択される誤りを減らすことができる。ｉ
が文末に相当する場合のみ文長比コストｄ（ｔ_ｉ，ｔ
_ｉ−１）および音声区間コストｃｆｌｘ（ｔ_ｉ，ｔ
_ｉ−１）を遷移コストに加え、ｉが文頭に相当する場合
には音声区間コストｃｆｌｘ（ｔ_ｉ，ｔ_ｉ−１）を遷移
コストから減ずるため、漸化式は検出個所が文頭と文末
の場合で異なる形をとる。

【００２４】以上のような処理装置を適用した場合の検
出精度は、文頭に対しては文発声開始時間との誤差、文
末に対しては文発声終了時間との誤差が閾値以下で検出
された場合を正解とした検出率で評価を行う。検出率の
式は下記のようになる。検出率（％）＝正解検出個所数／（２×文数）×１００ドキュメンタリ番組８本に対し、尤度コスト、時間順序
コスト、文長比コストおよび音声区間コストを用いたＤ
Ｐマッチングにより最適候補を選択する処理を適用した
場合の結果では、許容誤差の閾値を１秒、３秒とした
時、平均検出率はそれぞれ９９．０％、９９．５％とな
った。

【００２５】以上のように、この実施の形態１によれ
ば、番組音声に対して音声区間検出を行った後に、電子
化原稿中の各文の文頭タイミングおよび文末タイミング
を求め、各文毎に処理を行い複数の同期タイミング候補
を出力し、尤度コスト、時間順序コスト、文長比コスト
および音声区間コストを基準として複数の同期タイミン
グ候補の中から番組全体として尤もらしい同期タイミン
グ候補を選択するようにしたので、背景音が重畳してい
る音声に対しても十分適用できる電子化原稿の文と音声
との同期タイミングの検出を実現する効果が得られる。
なお、上述の実験では、尤度コストと、電子化原稿の字
幕文の順による時間順序コストと、電子化原稿から推定
される文長との比較により得られる文長比コストと、音
声区間らしさを表す音声区間コストを用いたＤＰマッチ
ングによる最適候補選択の検出精度について示した。番
組の内容によっては、尤度コストおよび時間順序コスト
だけを用いて最適候補を選択しても十分対応できる場合
や、尤度コスト、時間順序コストおよび文長比コストだ
けを用いて最適候補を選択しても十分対応できる場合も
ある。

【００２６】実施の形態２．実施の形態１では、電子化
原稿中のｎ番目の文の探索音声区間を決定する際にｎ−
１番目の文の文末タイミングに発音記号列データから推
定される文発声時間長を加えたタイミングの前後に適当
なアソビの音声区間を加えることによりｎ番目の文の探
索音声区間を決定しているが、他の方法として、ｎ−１
番目の文の文末タイミングの上位Ｍ候補が存在する音声
区間に発音記号列データから推定される文発声時間長を
加えたタイミングの前後に適当なアソビの音声区間を加
えることによりｎ番目の文の探索音声区間を決定しても
よい。

【００２７】実施の形態３．実施の形態１では、ワード
スポッティング処理タイミング検出部２５はワードスポ
ッティングにより電子化原稿の文と音声との同期タイミ
ングを検出しているが、他の方法として、探索音声区間
検出の後に音声認識を行って文字変換して文字列を生成
し、この文字列と電子化原稿とを比較して同期タイミン
グを求めてもよい。この実施の形態３によれば、複雑な
背景音が少ない場合の同期タイミング検出に適用できる
効果が得られる。

【００２８】

【発明の効果】以上のように、この発明によれば、映像
番組の番組音声に対して予め準備された電子化原稿の文
を番組音声に合わせて映像に添付する字幕制作システム
において、番組音声の中から所定話者音声が存在する音
声区間を識別できるように検出する音声区間検出手段
と、所定話者音声の音声区間と電子化原稿の文とを照合
することにより電子化原稿の文と番組音声との同期をと
るためのタイミングを検出するタイミング検出手段とを
備えるように構成したので、アナウンサ、ナレータ、出
演者等の音声を含まない非音声区間で同期タイミングが
誤って検出される場合を減少させることができ、現場集
録音やＢＧＭが重畳した放送音声に対しても適用できる
効果がある。

【００２９】この発明によれば、タイミング検出手段
が、電子化原稿中の各文に対してワードスポッティング
を行いそれぞれの文に対して複数の同期タイミング候補
を検出するワードスポッティング処理タイミング検出部
と、検出された複数の同期タイミング候補の中から番組
全体として最適同期タイミング候補を選択する最適候補
選択部とを有するように構成したので、音声処理技術の
ワードスポッティング技術を用いて自動的に同期タイミ
ングを検出でき、現場収録音やＢＧＭが重畳した放送音
声に対しても適用できる効果がある。また、ニュース記
事のような短い音声だけでなく、ドキュメンタリ番組の
ような長時間音声に対しても適用できる効果がある。

【００３０】この発明によれば、最適候補選択部が、ワ
ードスポッティング処理により得られる尤度コストと電
子化原稿の字幕文の順による時間順序コストとを用いた
ＤＰマッチングにより最適同期タイミング候補を選択す
るように構成したので、自動的に同期タイミングを検出
でき、現場収録音やＢＧＭが重畳した放送音声に対して
も頑健な検出機能を持つ効果がある。特に音声中に類似
の発声個所が存在した場合にもタイミングを一意に決定
できる効果がある。また、ニュース記事のような短い音
声だけでなく、ドキュメンタリ番組のような長時間音声
に対しても適用できる効果がある。

【００３１】この発明によれば、最適候補選択部が、ワ
ードスポッティング処理により得られる尤度コストと、
電子化原稿の文の順による時間順序コストと、電子化原
稿から推定される文長との比較により得られる文長比コ
ストとを用いたＤＰマッチングにより最適同期タイミン
グ候補を選択するように構成したので、自動的に同期タ
イミングを検出でき、現場収録音やＢＧＭが重畳した放
送音声に対しても検出精度をより高めることのできる字
幕送出タイミング検出装置を実現する効果がある。特に
音声中に類似の発声個所が存在した場合にもタイミング
を一意に決定し、電子化原稿中の文から推定される発声
時間長と比較して妥当な時間長になるタイミングを決定
できる効果がある。また、ニュース記事のような短い音
声だけでなく、ドキュメンタリ番組のような長時間音声
に対しても適用できる効果がある。

【００３２】この発明によれば、最適候補選択部が、ワ
ードスポッティング処理により得られる尤度コストと、
電子化原稿の文の順による時間順序コストと、電子化原
稿から推定される文長との比較により得られる文長比コ
ストと、音声区間らしさを表す音声区間コストとを用い
たＤＰマッチングにより最適同期タイミング候補を選択
するように構成したので、自動的に同期タイミングを検
出でき、現場収録音やＢＧＭが重畳した放送音声に対し
ても検出精度をより高めることができる字幕送出タイミ
ング検出装置を実現する効果がある。特に音声中に類似
の発声個所が存在した場合にもタイミングを一意に決定
し、非音声区間で誤って検出されたタイミング候補を選
択するのを減少させる効果がある。また、ニュース記事
のような短い音声だけでなく、ドキュメンタリ番組のよ
うな長時間音声に対しても適用できる効果がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１に係る字幕送出タイ
ミング検出装置の構成を示す機能ブロック図である。

【図２】実施の形態１の動作に係る探索音声区間を示
す説明図である。

【図３】実施の形態１の動作に係る音素ＨＭＭによる
文モデルを示す説明図である。

【図４】実施の形態１の動作に係る尤度曲線の例を示
す説明図である。

【図５】実施の形態１の探索音声区間推定部と最適候
補選択部の動作関係を説明する説明図である。

【符号の説明】

１０音声区間検出手段、１１番組音声源、１２音
声区間検出部、２０タイミング検出手段、２１電子化
原稿格納部、２２探索音声区間推定部、２３発音記
号列化部、２４音素ＨＭＭモデル生成部２５ワード
スポッティング処理タイミング検出部、２６最適候補
選択部、２７文処理判定部、３０全体の番組音声、３
１音声区間、３２非音声区間、３３電子化原稿の
ｎ番目の文の探索音声区間、３４推定されるｎ番目の
文の文発声時間長。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 (72)発明者丸山一郎東京都港区芝２−31−19 通信・放送機構内 (72)発明者阿部芳春東京都港区芝２−31−19 通信・放送機構内 (72)発明者江原暉将東京都港区芝２−31−19 通信・放送機構内 (72)発明者白井克彦東京都港区芝２−31−19 通信・放送機構内Ｆターム(参考） 5D015 AA04 BB02 DD03 HH08 HH23 KK01

Claims

【特許請求の範囲】

【請求項１】映像番組の番組音声に対して予め準備さ
れた電子化原稿の文を番組音声に合わせて映像に添付す
る字幕制作システムにおいて、前記番組音声の中から所
定話者音声が存在する音声区間を識別できるように検出
する音声区間検出手段と、前記所定話者音声の前記音声
区間と前記電子化原稿の文とを照合することにより前記
電子化原稿の文と前記番組音声との同期をとるためのタ
イミングを検出するタイミング検出手段とを備えたこと
を特徴とする字幕送出タイミング検出装置。
【請求項２】タイミング検出手段が、電子化原稿中の
各文に対してワードスポッティングを行いそれぞれの文
に対して複数の同期タイミング候補を検出するワードス
ポッティング処理タイミング検出部と、検出された前記
複数の同期タイミング候補の中から番組全体として最適
同期タイミング候補を選択する最適候補選択部とを有す
ることを特徴とする請求項１記載の字幕送出タイミング
検出装置。
【請求項３】最適候補選択部が、ワードスポッティン
グ処理により得られる尤度コストと電子化原稿の字幕文
の順による時間順序コストとを用いたＤＰマッチングに
より最適同期タイミング候補を選択することを特徴とす
る請求項２記載の字幕送出タイミング検出装置。
【請求項４】最適候補選択部が、ワードスポッティン
グ処理により得られる尤度コストと、電子化原稿の文の
順による時間順序コストと、前記電子化原稿から推定さ
れる文長との比較により得られる文長比コストとを用い
たＤＰマッチングにより最適同期タイミング候補を選択
することを特徴とする請求項２記載の字幕送出タイミン
グ検出装置。
【請求項５】最適候補選択部が、ワードスポッティン
グ処理により得られる尤度コストと、電子化原稿の文の
順による時間順序コストと、前記電子化原稿から推定さ
れる文長との比較により得られる文長比コストと、音声
区間らしさを表す音声区間コストとを用いたＤＰマッチ
ングにより最適同期タイミング候補を選択することを特
徴とする請求項２記載の字幕送出タイミング検出装置。