JP5246948B2

JP5246948B2 - 字幕ずれ補正装置、再生装置および放送装置

Info

Publication number: JP5246948B2
Application number: JP2009079244A
Authority: JP
Inventors: 正樹内藤; 一則松本; 恒河井
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-03-27
Filing date: 2009-03-27
Publication date: 2013-07-24
Anticipated expiration: 2029-03-27
Also published as: JP2010233019A

Description

本発明は、字幕ずれ補正装置、再生装置および放送装置に関し、特に、放送コンテンツに含まれる映像や音声と字幕との間の時間的ずれ幅を高精度に補正でき、字幕から特定映像部分を検索して再生でき、時間的ずれ幅が高精度に補正された映像、音声および字幕を含む放送コンテンツを送信できる字幕ずれ補正装置、再生装置および放送装置に関する。

近年、TV放送番組の映像に対して字幕を付与することが推奨されており、また、地上波デジタル放送が開始されるに伴って字幕つきTV放送番組を容易に視聴することが可能となった。これにより、字幕付きTV放送番組が増加する傾向にある。

TV放送番組を字幕付きのものとする場合、一般的には、出演者の発声を視聴してその内容を文字化し、それを字幕として出力し、映像に付与するという手順が取られる。しかし、出演者の発声の内容を文字化して字幕を作成するのに時間がかかるため、字幕が出力される時刻は出演者の発声よりも遅延し、映像や音声と字幕間に時間的ずれが生じる。

図１３は、この状態を示す。例えば、出演者が「こんにちは。朝のニュースです。・・・」と発声した場合、その発声内容を文字化するのに要する時間分だけ遅延して字幕が出力される。このため、映像や音声と字幕間に時間的ずれが生じる。発声の途中で字幕が出力されることもある。

特許文献１には、放送番組における映像と字幕の表示タイミングのずれを解消するため、放送局内で、音声と放送原稿の時間的ずれ幅を推定し、該時間的ずれ幅を基に字幕の出力タイミングを決定する装置が記載されている。

また、近年、映像の検索を行うためのメタ情報として字幕を利用する取り組みも進んでいる。特許文献２には、放送の受信側で音声と字幕の時間的ずれ幅を推定し、字幕のタイムコードを修正し、検索に用いるメタ情報を生成する方法、および同メタ情報を用い映像の検索を行う装置が記載されている。

また、本発明者は、発声内容に依存しない字幕と音声の照合手法を用いて音声と字幕の時間的ずれ幅を推定する字幕ずれ推定装置を特許文献３，４(先願)で提案した。特許文献３の字幕ずれ推定装置では、字幕の長さを基に時間的ずれ幅を予測し、字幕と音声の照合範囲を制限し、さらに照合結果の重み付けを行うことで、照合に関わる計算処理量の削減および時間的ずれ幅の推定精度の向上を図っている。また、特許文献４の字幕ずれ推定装置では、放送コンテンツ全体に渡り、音声認識結果から得られる音素系列と字幕を変換して得られる音素系列を照合し、字幕と音声の最適な対応づけを行うことで、音声と字幕間の時間的ずれ幅の推定精度を向上させている。

特開平１０−１３６２６０公報特開２００５−２２９４１３公報特願２００７−２３６５５０号(先願) 特願２００８−０９３０２９号(先願)

以上のように、映像や音声と字幕との間の時間的ずれを補正する方法、および映像や音声と字幕との間の時間的ずれを補正して検索用メタ情報の精度を向上させる手法が提案されているが、その補正に際しては、少ない計算処理量で、かつ精度良く時間的ずれ幅を推定することが要求される。

特許文献１の字幕ずれ推定装置では、放送収録時に使用する放送原稿の冒頭部分に対応する発音記号列を表す音響モデルと音声を照合し、放送原稿の冒頭部分との照合スコアが最も高い音声区間を検出し、検出された音声区間の時刻情報を基に字幕の出力時刻を決定する。しかし、この手法を映像や音声と字幕との対応付けに適用した場合、広範囲に渡って音響モデルと音声の照合処理を行う必要があり、多量の計算処理を必要とするという課題がある。また、字幕の先頭部分と類似した音声が複数個所に存在する場合には字幕に該当する音声区間の特定が難しいという課題もある。

特許文献２には、映像や音声と字幕とを対応付けるための具体的手法が記載されていない。これには、音声と字幕間の時間的ずれ幅を推定する際、時間的ずれの範囲を定めて照合することにより計算処理量を少なくする旨が記載されているが、時間的ずれの分布が広範囲に渡ることが予想される場合、照合に要する計算処理量が多くなり、照合精度も低下するという課題がある。

特許文献３の字幕ずれ推定装置でも、時間的ずれの範囲を定めて照合することにより音声と字幕間の時間的ずれ幅の推定に要する計算処理量を少なくするが、特許文献２と同様の課題がある。また、音声と各字幕間の時間的ずれ幅を独立に推定するので、複数の字幕が同じ音声部分に重複して対応付けられたり、字幕の対応付けの順序が前後逆になったりすることがある。したがって、これにより推定された時間的ずれ幅に従って音声と字幕との間の時間的ずれを補正した場合、前後の字幕が時間的に重複したり、前後の字幕の順序が逆転する可能性がある。

特許文献４の字幕ずれ推定装置では、放送コンテンツ全体に渡り、音声認識結果から得られる音素系列と字幕を変換して得られる音素系列を照合し、字幕と音声の最適な対応づけを行うので、特許文献３におけるような補正精度の劣化を防ぐことができる。しかし、これでは、対象とする放送コンテンツ内の、全ての字幕と音声を取得した後に、時間的ずれを補正する必要があるため、放送コンテンツを受信しつつ映像や音声と字幕間の時間的ずれを補正し、その結果を再生するなどといった、リアルタイムの補正および補正結果の利用ができないという課題がある。

本発明の目的は、上記課題を解決し、放送コンテンツを受信しつつ、映像や音声と字幕との間の時間的ずれを高精度に補正した放送コンテンツを逐次作成することができる字幕ずれ推定装置、補正装置、再生装置および放送装置を提供することにある。

上記課題を解決するため、本発明に係る字幕ずれ補正装置は、放送コンテンツを受信しつつ、受信した放送コンテンツ中の音声を認識し、該音声に対応する認識結果音素列を生成する音声認識部と、放送コンテンツの映像中の、１画面で表示される字幕を１単位とする各字幕に対応する音素列を生成するとともに、それらの音素列を連結して字幕変換音素列を生成する字幕変換音素列生成部と、前記音声認識部により生成された認識結果音素列と前記字幕変換音素列生成部により生成された字幕変換音素列との間の編集距離に基づき字幕と音声を対応付けて、字幕の開始、終了時刻を決定する音素列照合部と、前記音素列照合部により決定された字幕の開始、終了時刻に基づき、音声と字幕との間の時間的ずれを補正するずれ補正部を備え、音素列照合部は、字幕受信時に、字幕と字幕受信時以前の音声との対応付けを行い、この結果から時間的ずれ補正後の字幕の開始、終了時刻を予測し、その後、予測された字幕の開始、終了時刻に至るまで一定時間ごとに、新たに受信した放送コンテンツ中の音声および字幕の情報を前回の対応付けで用いた音声および字幕の情報に追加しつつ字幕と音声との対応付けを行い、その結果から時間的ずれ補正後の字幕の開始、終了時刻を予測する処理を繰り返し行うことにより放送コンテンツを受信しつつ当該字幕の開始、終了時刻を決定する点に第１の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記音素列照合部が、字幕と字幕受信時以前の音声との対応付けの結果と字幕の開始時刻の予測値と放送コンテンツ受信時に取得した字幕の表示時間に基づいて時間的ずれ補正後の字幕の終了時刻を予測する点に第２の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記音素列照合部が、字幕と字幕受信時以前の音声との対応付けの結果と字幕の開始時刻の予測値と字幕文字列から推定した字幕に対応する音声長の予測値に基づいて時間的ずれ補正後の字幕の終了時刻を予測する点に第３の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記音素列照合部が時間的ずれ補正後の字幕の開始、終了時刻を予測する時に使用した認識結果音素列を保存しておき、前記音素列照合部は、時間的ずれ補正後の字幕の開始、終了時刻を予測する処理を繰り返す際には前回処理を行った時刻から現時刻までに前記音声認識部により生成された認識結果音素列を保存された認識結果音素列に結合して認識結果音素列を生成し、これにより生成された認識結果音素列と字幕変換音素列との間の編集距離に基づいて時間的ずれ補正後の字幕の終了時刻を予測する点に第４の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記音素列照合部が時間的ずれ補正後の字幕の開始、終了時刻を予測する時に使用した認識結果音素列と前記音声認識部が認識した認識中間結果と前記音素列照合部が照合した照合中間結果を保存しておき、前記音声認識部は、時間的ずれ補正後の字幕の開始、終了時刻を予測する処理が繰り返される際には前回処理時に保存された認識中間結果を引き継いで前回処理を行った時刻から現時刻までの音声を認識して認識結果音素列を生成し、前記音素列照合部は、この認識結果音素列を保存された認識結果音素列に結合して認識結果音素列を生成し、これにより生成された認識結果音素列と前回処理時に保存された照合中間結果を用いて時間的ずれ補正後の字幕の終了時刻を予測する点に第５の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記音素列照合部が時間的ずれ補正後の字幕の開始、終了時刻を予測する時に使用した認識結果音素列と前記音声認識部が認識した認識中間結果と前記音素列照合部が照合した照合中間結果を保存しておき、前記音声認識部は、時間的ずれ補正後の字幕の開始、終了時刻を予測する処理が繰り返される際には前回処理時に保存された認識中間結果を引き継いで前回処理を行った時刻から現時刻までの音声を認識して認識結果音素列を生成し、前記音素列照合部は、この認識結果音素列と最初に認識を開始した時刻から現時刻までの音声を認識した認識結果音素列とを比較し、異なった音素に遡って認識結果音素列と字幕変換音素列との間の編集距離を、保存された照合中間結果を用いて計算し、該編集距離に基づき音声と字幕の時間的ずれ幅を推定する点に第６の特徴がある。

また、本発明に係る字幕ずれ補正装置は、音声と字幕の時間的ずれ幅を推定した後、該推定の時刻より予め定めた時刻以上前の音声区間に対応する字幕、その字幕に対応する認識結果音素列および字幕変換音素列、照合中間結果を破棄する点に第７の特徴がある。

また、本発明に係る字幕ずれ補正装置は、音声と字幕の時間的ずれ幅を推定した後、該推定の時刻より予め定めた時刻以上前の音声区間に対応する認識結果音素および字幕変換音素列、照合中間結果を破棄する点に第８の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記編集距離が、音素の挿入、削除、置換によって一方の音素列から他方の音素列へ変換するのに要する手順の回数に応じたコストを指標として定義される点に第９の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記編集距離が、音素ごとの音声認識性能を元に定められた、ある音素をある音素に置換する際に要するコスト、ある音素を挿入する際に要するコスト、ある音素を削除する際に要するコストを指標として定義される点に第１０の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記字幕変換音素列生成部が、字幕の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記音素列照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集距離を計算する点に第１１の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記字幕変換音素列生成部が、字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記音素列照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集距離を計算する点に第１２の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記字幕変換音素列生成部が、字幕の切れ目と字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記音素列照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集距離を計算する点に第１３の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記字幕変換音素列生成部が、字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記音声認識部は、無音が一定時間継続する箇所に無音を表す擬似音素を加えた認識結果音素列を生成し、前記音素列照合部は、無音を表す擬似音素と文章の切れ目を表す擬似音素間のコストを０または小さい値とし、無音を表す擬似音素と他の音素間のコストを他と比較して大きな値として編集距離を計算する点に第１４の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記音素列照合部が、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C：Cは字幕変換音素列の全音素数)間の編集距離を計算し、該編集距離の中からその値が小さい上位N個を選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集距離を計算する際、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された上位N個の編集距離を用いて計算可能なものについてのみ編集距離を計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集距離を計算する点に第１５の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記音素列照合部が、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C：Cは字幕変換音素列の全音素数)間の編集距離を計算し、該編集距離の中からそれが最小のもの、および最小のものとの差が予め定めた閾値内に収まるものを選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集距離を計算する際、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された編集距離を用いて計算可能なものについてのみ編集距離を計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集距離を計算する点に第１６の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記音素列照合部が、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C：Cは字幕変換音素列の全音素数)間の編集距離を計算し、該編集距離の中からその値が最小となる字幕変換音素列の先頭m音素を選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集距離を計算する際に、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列の先頭m-N音素(Nは一定の値)から先頭m+N音素との編集距離の中で、既に計算されている先頭r音素との編集距離を用いて計算可能なものについてのみ編集距離を計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集距離を計算する点に第１７の特徴がある。

また、本発明に係る再生装置は、前記第１〜第１７のいずれかの特徴を有する字幕ずれ補正装置と、前記字幕ずれ補正装置により時間的ずれが補正された字幕を、受信した放送コンテンツ中の音声および映像と共に再生する再生手段を備える点に第１の特徴がある。

また、本発明に係る再生装置は、前記第１〜第１７のいずれかの特徴を有する字幕ずれ補正装置と、前記字幕ずれ補正装置により音声および映像との時間的ずれが補正された字幕を保存する字幕保存手段と、入力されたキーワードに合致する部分の映像を、前記字幕保存手段に保存された字幕内の文字情報を元に検索する検索手段を備え、前記検索手段により検索された部分の映像を再生する点に第２の特徴がある。

また、本発明に係る放送装置は、前記字幕ずれ補正装置と、前記字幕ずれ補正装置により時間的ずれが補正された音声、映像および字幕を放送番組として送信する送信手段を備えた点に特徴がある。

本発明では、放送コンテンツを受信しつつ、放送コンテンツ中の音声を認識した結果得られる認識結果音素系列と字幕を変換して得られる字幕変換音素系列を逐次照合し、字幕と音声の対応付けを行って字幕の開始、終了時刻を決定し、その結果により映像や音声と字幕との間の時間的ずれを補正する。この際、字幕受信時に、字幕と字幕受信時以前の音声との対応付けを行い、その結果から時間的ずれ補正後の字幕の開始、終了時刻を予測し、その後、予測された字幕の開始、終了時刻に至るまで一定時間ごとに、新たに受信した放送コンテンツ中の音声および字幕の情報を用いて字幕と音声との対応付けを行い、その結果から時間的ずれ補正後の字幕の開始、終了時刻を予測を予測する処理を繰り返す。このようにして、放送コンテンツ中の字幕の開始、終了時刻を逐次的に決定することにより、放送コンテンツを受信しつつ、映像や音声と字幕との間の時間的ずれ幅を高精度補正することができ、該時間的ずれが高精度に補正された放送コンテンツを逐次作成することができる。

また、第１１ないし第１４の特徴によれば、字幕の切れ目や字幕の文章の切れ目、放送コンテンツ内の音声中の発声の切れ目を考慮して音声と字幕の対応付けを行うことで、映像や音声と字幕との間の時間的ずれを高精度に補正することができる。

また、第７、第８、第１５ないし第１７の特徴によれば、映像や音声と字幕との間の時間的ずれの補正に要するメモリ量や計算量を低減することができる。

本発明に係る字幕ずれ補正装置の基本構成を示すブロック図である。字幕開始/終了時刻決定部の一実施形態を示すブロック図である。音声認識部の構成例を示すブロック図である。言語モデルの例を示す図である。音声照合部での照合処理を示す模式図である。字幕変換音素列生成部での字幕変換音素列の生成処理を示す模式図である。音素列照合処理の第１実施形態(第１段階)を説明する図である。音素列照合処理の第１実施形態(第２段階)を説明する図である。音素列照合処理の第１実施形態(第３段階)を説明する図である。音素列照合処理の第１実施形態(第４段階)を説明する図である。ずれ幅推定の計算処理量を低減させるための編集距離計算過程の例を示す説明図である。ずれ幅推定の計算処理量を低減させるための編集距離計算過程の他の例を示す説明図である。放送番組の出演者の発声と字幕の出力との時間関係を示す説明図である。

以下、図面を参照して本発明を説明する。図１は、本発明に係る字幕ずれ補正装置の基本構成を示すブロック図である。この字幕ずれ補正装置は、情報分離部11、字幕開始/終了時刻決定部12およびずれ補正部13を備える。ここで補正されるのは、情報内容からみた場合の音声と字幕との間の時間的ずれである。以下、単にずれ、ずれ幅と称した場合も、時間的ずれ、時間的ずれの大きさ(時間的ずれ幅)を意味する。

情報分離部11には放送コンテンツが入力される。放送コンテンツは、それぞれのトラックに格納された映像、音声および字幕を含む。情報内容からみて、映像と音声との間に時間的ずれがなく、字幕は、それらに対して時間遅れをもっている。情報分離部11は、放送コンテンツ中の音声と字幕を別々に分離する。

字幕開始/終了時刻決定部12は、情報分離部11で分離された音声と字幕の対応から字幕の出力開始時刻および終了時刻を決定する。字幕開始/終了時刻決定部12については後で詳細に説明する。

ずれ補正部13は、字幕開始/終了時刻決定部12で決定された字幕の開始時刻および終了時刻に基づき、情報内容からみて、映像、音声および字幕との間にずれがない放送コンテンツを逐次出力する。映像、音声および字幕との間のずれは、映像、音声、字幕をそれぞれ格納している各トラックの各情報を一時的にバッファに蓄え、その読み出しタイミングを制御することで解消される。すなわち、映像と音声を随時読み出し、出力しつつ、字幕開始/終了時刻決定部12で決定された字幕の開始時刻および終了時刻に合わせて字幕を読み出し出力するようにすればよい。

図２は、字幕開始/終了時刻決定部12の一実施形態を示すブロック図である。本実施形態の字幕開始/終了時刻決定部は、音声認識部21、認識結果音素列格納部22、字幕変換音素列生成部23、字幕変換音素列格納部24、音素列照合部25および音素列照合結果格納部26を備える。

TV放送コンテンツの場合、出演者の映像と共に出演者により発声された音声が取得される。したがって、映像と音声とは時間的ずれなく取得されていると考えることができる。これにより取得された音声は、音声認識部21に入力される。音声認識部21は、入力される音声を認識処理し、音声に対応する認識結果音素列を送出する。

図３は、音声認識部21の構成例を示すブロック図である。音声認識部21は、音声検出部31、音響分析部32、音響モデル格納部33、言語モデル格納部34および音声照合部35を備える。この構成は、音声認識で一般的なものである。

音声検出部31は、入力された音声から人声を含む区間の音声を切り出して音響分析部32に送る。音声検出部31での音声の切り出しには、例えば、入力のパワーの大小に基づく音声検出手法を利用できる。この音声検出手法では、入力のパワーを逐次計算し、入力のパワーが予め定めた閾値を一定時間連続して上回った時点を音声の開始時点と判定し、逆に、入力のパワーが予め定めた閾値を一定時間連続して下回った時点を音声の終了時点と判定する。音声検出部31により切り出された音声は、音声開始時点から音声終了時点まで逐次音響分析部32に送られる。

音響分析部32は、音声検出部31により切り出された音声の音響分析を行い、MFCCなど音声の特徴を現す音響特徴量列を音声照合部35に送出する。

音響モデル格納部33は、日本語音声を構成する単位である音素ごとに用意したHMMなどの標準パタンを格納している。この標準パタンを日本語単語・文章を構成する音素列に即して連結することで任意の日本語単語・文章に対応する標準パタンを作成することができる。

また、言語モデル格納部34は、日本語の単語間、音素間などの接続関係を規定する言語モデルを格納している。この言語モデルには、(1)音節間の接続関係を規定する連続音節認識文法、(2)単語間の接続関係を規定する文法規則、(3)N個の音素の組が連続する確率を規定する統計的言語モデル、(4)N個の単語の組が連続する確率を規定する統計的言語モデルなどがある。

図４は、言語モデルの例を示す図である。同図(a)は、音節間の接続関係を規定する連続音節認識文法であり、これは、子音/b//d/・・・と母音/a//i/・・・の接続関係を規定している。同図(b)は、単語間の接続関係を規定する文法規則であり、これは、/単語1//単語2/・・・の接続関係を規定している。言語モデルについては、例えば、「鹿野ら著：「IT Text 音声認識システム」オーム社」に記載されている。

図５は、音声照合部35(図３)での照合処理を示す模式図である。同図は、音響分析部32から送出される音響特徴量列が音声照合部35で標準パタンと照合され、これにより照合結果/sh//i/・・・/u/が得られると共に、各音素に対応する音声区間の開始、終了時刻が取得されることを示している。

図３に戻って、音声照合部35は、言語モデルに記された接続規則に従って音響モデルを接続して標準パタンを生成すると共に、Viterbiアルゴリズムを用い、音響分析部32から送出される音響特徴量列と標準パタンを照合する。この照合の結果、両者の照合スコアを最大とする音声区間と標準パタンの対応が得られる。音声認識部21での認識結果として、認識結果音素列および標準パタンを構成する各音素に対応する音声区間の開始時刻、終了時刻が取得される。これにより得られた認識結果音素列は、認識結果音素列格納部22(図２)に格納される。なお、音声照合については、「中川聖一ら著：「確率モデルによる音声認識」電子情報通信学会」に記載されている。

音声認識部21の認識結果の取得処理は、音素列照合部25から指示された時点で行う。その際、音声照合部35が照合の過程で求めた照合中間結果(部分的な照合結果)を保持しておくものとする。その上で、音素列照合部25からの指示に応じて、前回の認識結果取時の照合中間結果を引き継ぎ継続して照合を行う。もしくは、前回照合時に用いた照合中間結果を破棄した後に再度初期状態から照合を開始する。

一方、字幕変換音素列生成部23は、入力される字幕に対応する字幕変換音素列(字幕変換音素列)を生成する。ここで生成される字幕変換音素列は、各字幕ごとの音素列ではなく、放送コンテンツ中の各字幕に対応する音素列が複数連結された音素列である。字幕変換音素列は、字幕変換音素列格納部24に格納される。

図６は、字幕変換音素列生成部23(図２)での字幕変換音素列の生成処理を示す模式図である。字幕変換音素列生成部23は、漢字仮名混じり文により記述されている字幕の形態素解析を行い、それを品詞に分割すると共に読みを表す仮名文字列に変換し、さらに、仮名文字から発音記号への変換規則を記載した変換表を参照して、仮名文字列を音素列に変換して字幕変換音素列を生成する。

例えば、漢字仮名混じり文により記述されている字幕文字列が「７時のニュースです」の場合、字幕変換音素列生成部23は、まず、形態素解析により「７」「時」「の」「ニュース」「です」の各品詞に分割する。次に、これらを、読みを表す仮名文字列「しち」「じ」「の」「にゅーす」「です」に変換し、さらに、仮名文字列から発音記号への変換規則を記載した変換表を参照して、仮名文字列を音素列/sh/ /i/ /ch/ /i/ /j/ /i/ /n/ /o/ /ny/ /uu/ /s/ /u/ /d/ /e/ /s/ /u/に変換する。

音素列照合部25は、認識結果音素列格納部22に格納された認識結果音素列と字幕変換音素列格納部24に格納された字幕変換音素列を照合し、音声と字幕の対応から字幕の出力開始、終了時刻を決定する。

音素列照合結果格納部26は、音素列照合部25が照合過程で求めた照合中間結果(部分的な編集距離)を保持する。音素列照合結果格納部26に部分的な編集距離を保持しておくことにより、認識結果音素列の後に新たな認識結果音素列が追加されたり、字幕変換音素列の後に新たな字幕変換音素列が追加されたりした際の照合を効率的に行うことができる。すなわち、認識結果音素列の後に新たな認識結果音素列が追加されたり、字幕変換音素列の後に新たな字幕変換音素列が追加されたりした場合、既に求められている部分的な編集処理を用いて新たに追加された音素に関係する編集距離を求めることができる。なお、編集距離については後述する。

次に、音素列照合部25での照合処理について説明する。音素列照合部25は、認識結果音素列格納部22に格納された認識結果音素列と字幕変換音素列格納部24に格納された字幕変換音素列を比較し、両者の異なりの程度を表す編集距離を算出する。この編集距離は、音素の挿入や削除、置換によって、１つの音素列を別の音素列に変換するために必要な手順の回数に応じた編集コストを指標として定義される。

例えば、編集距離は、１つの音素列を別の音素列に変換するために必要な手順の最小回数であり、"/sh/ /i/ /N/ /k/ /a/ /i/"を"/t/ /o/ /k/ /a/ /i/"に変形する場合、以下に示すように、最低3回の手順が必要とされるので、編集距離は3となる。
1. /sh/ /i/ /N/ /k/ /a/ /i/
2. /t/ /i/ /N/ /k/ /a/ /i/ ("/sh/"を"/t/"に置換)
3. /t/ /o/ /N/ /k/ /a/ /i/（"/i/"を"/o/"に置換)
4. /t/ /o/ /k/ /a/ /i/（"/N/"を削除して終了）

認識結果音素列と字幕変換音素列間の編集距離は、単に手順の回数に応じて定義されるものに限られない。例えば、音素ごとの音声認識性能(音素間の間違いやすさなど)を元に、ある音素Aをある音素Bに置換する際に要するコスト、ある音素Aを挿入する際に要するコスト、ある音素Aを削除する際に要するコストを個別に定め、これらのコストを元に編集距離を定義することも可能である。例えば、音素/b/と音素/p/は間違いやすいので、コストは小とされる

編集距離は、動的計画法に基づく、以下のアルゴリズムを用いることで高速に計算できる。

認識結果音素列:rph[1],rph[2],・・・,rph[R]
字幕変換音素列:cph[1],cph[2],・・・,cph[C]
認識結果音素列の最初の音素(rph[1])から最後の音素(rph[R])まで:
字幕変換音素列の最初の音素(cph[1])から最後の音素(cph[C])まで:
認識結果音素列の先頭r音素rph[1・・r]と
字幕変換音素列の先頭c音素cph[1・・c]との編集距離
d[r,c]=minimum(
d[r-1,c]+ins_cost(cph[c]), //音素の挿入
d[r,c-1]+del_cost(rph[r]), //音素の削除
d[r-1,c-1]+sub_cost(cph[c],rph[r]) //音素の置換
)

ここで、ins_cost(cph[c])、del_cost(rph[r])、sub_cost(cph[c],rph[r])はそれぞれ、認識結果音素列に音素を挿入する際に要するコスト、認識結果音素列あから音素を削除する際に要するコスト、認識結果音素列の音素を他の音素に置換する際に要するコストを表す。

本アルゴリズムは、認識結果音素列の先頭r-1音素rph[1・・r-1]と字幕変換音素列の先頭c音素cph[1・・c]間の編集距離d[r-1,c]、認識結果音素列の先頭r音素rph[1・・r]と字幕変換音素列の先頭c-1音素cph[1・・c-1]間の編集距離d[r,c-1]、認識結果音素列の先頭r-1音素rph[1・・r-1]と字幕変換音素列の先頭c-1音素cph[1・・c-1]間の編集距離d[r-1,c-1]を利用し、認識結果音素列の先頭r音素(rph[1・・r]）と字幕変換音素列の先頭c音素cph[1・・c1]間の編集距離d[r,c]を算出する処理を繰り返し行うことで、効率良く編集距離を計算するものである。

なお、認識結果音素列と字幕変換音素列間の編集距離を変換手順の回数で定義する場合、

挿入コスト:ins_cost(cph[c])=常に1
削除コスト:del_cost(rph[r])=常に1
置換コスト:sub_cost(cph[c],rph[r])=0(cph[c]=rph[r]の場合)
=1(cph[c]≠rph[r]の場合)
である。

編集距離の計算と同時に、選択された編集距離の最小値が音素の挿入、削除、置換のいずれの編集方法によるものであるかを保存しておく。認識結果音素列と字幕変換音素列の組み合わせ最後まで編集距離の計算が終了した後、保存された編集方法の選択結果を、認識結果音素列の最後の音素rph[R]と字幕変換音素列の最後の音素cph[C]までの編集距離を計算した際の選択結果から逆順に読み出すことで、編集距離が最小となる編集方法(挿入、削除、置換の組み合わせ)を求めることができ、その結果を基に、認識結果音素列の各音素が字幕変換音素列のどの音素と対応付けされたかの情報を取得することができる。

放送コンテンツを受信する際は、放送コンテンツの進行に従い、複数個の字幕を次々と受信することとなる。本発明では、以下に説明するように、新たな字幕を受信するたびに逐次的に認識結果音素列と字幕変換音素列の照合して字幕の開始、終了時刻を予測し、その結果に基づいて、放送コンテンツを受信しつつ、受信時刻から予め定めた遅延時間T(sec)をもって、字幕ずれが補正された放送コンテンツを逐次的に生成できるようにしている。なお、遅延時間Tは、各種放送コンテンツにおける映像と字幕間のずれ幅の分布を参考にして予め定められる。例えば、全放送コンテンツにおける映像と字幕間のずれ幅の最大値を遅延時間T(sec)とすることができる。

本発明は、特に、認識結果音素列と字幕変換音素列の照合処理(音素列照合処理)に特徴があるので、以下に、音素列照合処理の実施形態について説明する。ここでは、"こんにちわ朝の・・・"という音声を受信し、それに対応する字幕が遅延して得られた場合を想定する。
(第１実施形態)

図７ないし図１０は、音素列照合処理の第１実施形態を説明する図である。
(A)まず、最初の字幕「こんにちわ」が得られた場合、以下の照合処理を行う。図７は、この場合の照合処理を示している。

(1)字幕変換音素列格納部24から現時刻までの字幕に対応した字幕変換音素列"/GB/ /k/ /o/ /N/ /n/ /i/ /ch/ /i/ /w/ /a/ /GB/"を取得する。なお、GBは、字幕の文章の切れ目に挿入された擬似音素(後述)である。

(2)音声認識部21から認識結果音素列格納部22を介して、T(sec)前から現時刻までの音声に対応する認識結果音素列"/t/ /o/ /N/ /n/ /i/"を取得する。図示のバッファサイズ分がT(sec)に相当する。ここでは、字幕「こんにちわ」が取得された時点で、それに対応する音声がまだ終了していない、すなわち「こんにちわ」の発声の途中で字幕「こんにちわ」が得られた場合を想定している。また、音声認識部21に対して照合中間結果の破棄した後に現時刻以降の音声の照合を行うように指示する。

(3)(1)で取得した字幕変換音素列と(2)で取得した認識結果音素列を上記アルゴリズムに従って照合する(照合範囲1)。音素列照合結果格納部26は、照合範囲1についての照合結果を照合中間結果として保持する。

(4)現時刻までの照合結果の中から、認識結果音素列との編集距離が最も近い、字幕変換音素列中の音素を見つける。

(5)(4)で見つけた音素から照合履歴を遡り、字幕の仮開始時刻を予測する。

(6)以下の基準に従い字幕の仮終了時刻を予測する。

(6-1)(4)で予測された音素が字幕変換音素列の終了音素の場合、照合履歴を遡って字幕の終了時刻を予測し、仮終了時刻とする。
(6-2)(6-1)以外の場合、字幕の仮終了時刻は、字幕の仮開始時刻に元の字幕の表示時間長を加えた時刻であると予測する。

(B)以降、一定時間おきに以下の照合処理を行う。

(ア)次の字幕を取得するまで。すなわち、下記(イ)〜(エ)の条件に該当しない場合。図８は、この場合の照合処理を示している。
(1)音声認識部21から認識結果音素列格納部22を介して、前回照合処理を行った時刻から現時刻までの音声に対応する認識結果音素列"/ch/ /i/ /h/ /a/ /a/ /s/ /a/"を取得する。また、音声認識部21に対して照合中間結果を破棄した後に現時刻以降の音声の照合を行うように指示する。
(2)前回照合に使用した認識結果音素列の後に、(1)で取得した認識結果音素列を追加する。
(3)前回照合に使用した字幕変換音素列と(2)の認識結果音素列を上記アルゴリズムに従って照合する(照合範囲1+照合範囲2)。この場合、音素列照合結果格納部26に保持されている照合中間結果を引き継ぎ継続して照合範囲2についての照合を行うことができる。音素列照合結果格納部26は、さらに照合範囲2についての照合中間結果を保持する。
(4)現時刻までの照合結果の中から、認識結果音素列との編集距離が最も近い、字幕変換音素列中の音素を見つける。
(5)(4)で見つけた音素から照合履歴を遡り、字幕の仮開始時刻を予測(更新)する。
(6)以下の基準に従い字幕の仮終了時刻を予測(更新)する。
(6-1)(4)で見つけた音素が字幕変換音素列の終了音素の場合、照合履歴を遡って字幕の終了時刻を予測し、仮終了時刻とする。
(6-2)(6-1)以外の場合、字幕の仮終了時刻は、字幕の仮開始時刻に元の字幕の表示時間長を加えた時刻であると予測される。

(イ)次の字幕を取得した場合。図９および図１０は、この場合の照合処理を示している。
(1)今回取得した字幕に対応する字幕変換音素列"/a/ /s/ /a/ /n/ /o/ /GB/"を、前回照合に使用した字幕変換音素列の後に追加する(図９)。
(2)(1)の字幕変換音素列と前回照合に使用した認識結果音素列を上記アルゴリズムに従って照合する。ここで、認識結果音素列が追加されるまでは、照合範囲1+照合範囲2+照合範囲3が照合範囲となる。照合範囲3では、現時刻のT(sec)前からの認識結果音素列について照合を行う。この場合、音素列照合結果格納部26に保持されている照合中間結果を引き継ぎ継続して照合範囲3についての照合を行うことができる。音素列照合結果格納部26は、さらに照合範囲3についての照合中間結果を保持する。

さらに認識結果音素列が追加された場合(図１０)、照合範囲1+照合範囲2+照合範囲3+照合範囲4となる。この場合、音素列照合結果格納部26に保持されている照合中間結果を引き継ぎ継続して照合範囲4についての照合を行うことができる。音素列照合結果格納部26は、さらに照合範囲4についての照合中間結果を保持する。
(3)現時刻までの照合結果の中から、認識結果音素列との編集距離が最も近い、字幕変換音素列中の音素を見つける。
(4)(3)で見つけた音素から照合履歴を遡り、字幕の仮開始時刻を予測(更新)する。
(5)以下の基準に従い字幕の仮終了時刻を予測(更新)する。
(5-1)(4)で見つけた音素が字幕変換音素列の終了音素の場合、照合履歴を遡って字幕の終了時刻を予測し、仮終了時刻とする。
(5-2)(5-1)以外の場合、字幕の仮終了時刻は、字幕の仮開始時刻に元の字幕の表示時間長を加えた時刻であると予測する。

(ウ)字幕の仮開始時刻が現時刻のT(sec)前となった場合
(1)現時刻までの照合結果の中から、認識結果音素列との編集距離が最も近い、字幕変換音素列中の音素を見つける。
(2)(1)で見つけた音素から照合履歴を遡り、字幕の仮開始時刻を予測(更新)する。
(3)新たに予測された字幕の仮開始時刻が現時刻のT(sec)前もしくはそれ以前なら、元の仮開始時刻即ち現時刻のT(sec)前を字幕開始時刻の確定値とする。

(エ)字幕の仮終了時刻が現時刻のT(sec)前となった場合
(1)現時刻までの照合結果の中から、認識結果音素列との編集距離が最も近い、字幕変換音素列中の音素を見つける。
(2)(1)で見つけた音素から照合履歴を遡り、字幕の仮終了時刻を予測(更新)する。
(3)新たに予測された字幕の仮終了時刻が現時刻のT(sec)前もしくはそれ以前なら、元の仮終了時刻即ち現時刻のT(sec)前を字幕終了時刻の確定値とする。

以上の照合処理によれば、(ウ)(3)，(エ)(3)の時点でそれぞれ字幕の開始時刻、終了時刻を決定できる。ずれ補正部13(図１)は、この結果に基づいて、放送コンテンツ中の映像、音声と字幕との間のずれを補正し、逐次送出する。以上の照合処理を放送コンテンツ終了まで繰り返し行うことにより、入力時刻から一定時間T(sec)だけ遅延するが、時間的に対応した映像、音声および字幕を含む放送コンテンツが送出される。
(第２実施形態)

第１実施形態では、字幕の仮終了時刻を、字幕の仮開始時刻に元の字幕の表示時間長を加えた時刻であると予測している(6-2)。しかし、字幕の出力開始時刻は含まれているが字幕の出力終了時刻が含まれていない放送コンテンツや、字幕が一定間隔で送出されていて字幕の表示時間長と実際の発声長との相関が低い放送コンテンツなどがある。このような放送コンテンツでは、字幕の仮開始時刻に元の字幕の表示時間長を加えた時刻を字幕の仮終了時刻と予測するのは適当でない。

そこで、第２実施形態では、字幕の仮開始時刻に字幕文字列から推定した字幕の発声長を加えた時刻を字幕の仮終了時刻と予測する。発声長は、例えば、字幕変換音素列および各音素の平均的な継続時間の情報などに基づいて推定できる。
(第３実施形態)

第１および第２実施形態では、認識結果取得(A-2),(B-ア-1)後、音声認識部21に対して照合中間結果を破棄した後に現時刻以降の音声を初期状態から認識するように指示している。しかし、例えば、ある音素の途中で認識結果取得がなされた場合、次回では、音声認識部21において音素の途中から認識が行われることとなる。一方で、認識用言語モデルには、音素の途中から始まるパターンが記述されていないため、認識結果取得前後における認識精度の低下が懸念される。

この問題を回避するため、第３実施形態では、認識結果取得(A-2),(B-ア-1)後、音声認識部21に対して前回の照合中間結果を引き継ぎ継続して以降の音声を認識するように指示する。
(第４実施形態)

第３実施形態では、認識結果取得後も前回の照合中間結果を引き継ぎ継続して音声を認識するので、次回認識結果取得時に前回認識結果取得済みの区間における認識結果が変化してしまう場合がある。

そこで、第４実施形態では、そのような場合、認識結果音素列が変化した箇所に遡って再度音素列の照合処理を行う。具体的には、上記(B)の処理を以下の通り変更する。

(B)以降、一定時間おきに以下の照合処理を行う。

(オ)次の字幕を取得するまで。すなわち、下記(イ)〜(エ)の条件に該当しない場合。
(1)音声認識部21から認識結果音素列格納部22を介して、放送コンテンツ先頭から現時刻までの音声に対応する認識結果音素列を取得する。また、音声認識部21に対して照合中間結果を引き継ぎ継続して以降の音声の認識を行うよう指示する。
(2)前回照合に使用した認識結果音素列と(1)の認識結果音素列を先頭から比較し、両者が異なる最初の音素を検出する。
(3)前回照合に使用した字幕変換音素列と(1)の認識結果音素列を上記アルゴリズムに従って照合する。この場合、音素列照合結果格納部26に保持されている照合中間結果を引き継ぎ継続して(2)で検出した音素から照合を開始する。音素列照合結果格納部26は、このときの照合中間結果を保持する。
(4)現時刻までの照合結果の中から、認識結果音素列との編集距離が最も近い、字幕変換音素列中の音素を見つける。
(5)(4)で見つけた音素から照合履歴を遡り、字幕の仮開始時刻を予測(更新)する。
(6)以下の基準に従い字幕の仮終了時刻を予測(更新)する。
(6-1)(4)で見つけた音素が字幕変換音素列の終了音素の場合、照合履歴を遡って字幕の終了時刻を予測し、仮終了時刻とする。
(6-2)(6-1)以外の場合、字幕仮終了時刻は、字幕の仮開始時刻に元の字幕の表示時間長を加えた時刻であると予測する。
(第５実施形態)

第１〜第４実施形態では、音素列照合のために、放送コンテンツの開始から現時刻までの認識結果音素列、字幕変換音素列および両者の照合中間結果をすべて保持している。しかし、遠い過去の照合結果が現時刻の照合に与える影響は少ない。そこで、第５実施形態では、それらの情報を破棄し、それらを音素列照合処理に用いないことで計算量やメモリ使用量を削減する。

具体的には、(B-エ-3)において決定(確定)した字幕の終了時刻が現時刻よりT×α(sec)(αは予め定める定数)以上前である字幕、その字幕に対応する認識結果音素列、字幕変換音素列、照合中間結果を破棄し、音素列照合の計算対象から除外する。
(第６実施形態)

第５実施形態では、字幕単位で不要な音素列などの破棄を行うが、第６実施形態では、音素単位で不要な音素列などの破棄を行う。

具体的には、(B-エ-3)において字幕の終了時刻を確定した後、認識結果音素のうちその終了時刻が現時刻よりT×α(sec)(αは予め定める定数)以上前である音素、その音素に対応する字幕変換音素、照合中間結果を破棄し、音素列照合の計算対象から除外する。
(第７実施形態)

第７実施形態では、字幕変換音素列生成部23に、字幕変換音素列を生成する際に字幕の切れ目に、文章の切れ目を表す擬似音素(GB)を挿入する機能を持たせる。そして、音素列照合部25で編集距離を計算する際、GBに対する編集コスト(挿入コスト、削除コスト、置換コスト)を、以下に示すように、他の音素に対する編集コストより小さな値に設定する。

cph[c]=GBのとき
挿入コスト:ins_cost(cph[c])=0
削除コスト:del_cost(rph[r])=α1(0<α1<1)
置換コスト:sub_cost(cph[c],rph[r])=α2((0<α2<1)

通常、音声認識を行うと、文章の切れ目などの無音区間に存在する雑音を誤認識し、音素列を出力する事例が見られる。字幕変換音素列生成部23に本機能を持たせることにより、雑音の誤認識による音素列が字幕変換音素列よりも字幕の切れ目に挿入された擬似音素と対応付けされやすくなるため、音声と字幕との対応付けの精度を向上させることができる。
(第８実施形態)

第８実施形態では、字幕変換音素列生成部23に、字幕の切れ目ではなく字幕の文章の切れ目と判定した箇所に、擬似音素(GB)を挿入する機能を持たせる。そして、音素列照合部25で編集距離を計算する際、GBに対する編集コストを他の音素に対する編集コストより小さな値に設定する。

文章の切れ目は、句点「。」を検出して文境界とする方法、文章を解析して文境界を検出する方法などで判定できる。文章を解析して文境界を検出する方法は、例えば、丸山他「日本語節境界検出プログラムCBAPの開発と評価」言語処理学会、自然言語処理２００４年７月号に記載されている。

１画面に表示される字幕の文字数には制限があるため、字幕は必ずしも文章ごとに送出されるわけではない。字幕変換音素列生成部23に本機能を持たせることにより、雑音の誤認識による音素列が字幕変換音素列よりも字幕の文章の切れ目に挿入された擬似音素と対応付けされやすくなるため、字幕が文章ごとに送出されない場合でも、音声と字幕の対応付けの精度を向上させることができる。
(第９実施形態)

第９実施形態では、字幕変換音素列生成部23に、字幕の切れ目と字幕の文章の切れ目と判定した箇所の両方に、擬似音素(GB)を挿入する機能を持たせる。そして、音素列照合部25で編集距離を計算する際、GBに対する編集コストを他の音素に対する編集コストより小さな値に設定する。字幕変換音素列生成部23に本機能を持たせることにより、字幕の文章の切れ目の判定に誤りがあったとしても、少なくとも字幕の切れ目に対しては擬似音素(GB)が挿入されるので、音声と字幕の対応付けの精度を向上させることができる。
(第１０実施形態)

第１０実施形態では、第７〜第９のいずれかの実施形態により擬似音素(GB)を挿入するとともに、音声認識部21に、認識結果音素列を生成する際に音声検出部31と音声照合部35において無音に対応すると見なされた区間が予め定めた時間以上継続した場合、認識結果音素列の該当箇所に、無音を表す擬似音素(Q)を挿入する機能を持たせる。そして、音素列照合部25で編集距離を計算する際、無音を表す擬似音素(Q)を擬似音素(GB)に置換する際の編集コストを0あるいは小さい値に設定し、擬似音素(Q)を他の音素に置換する際の編集コストを他の編集コストと比較して大きな値に設定する。例えば、以下に示すように編集コストを設定する。なお、β1>>1,β2>>1,0<α1<1,0<α2<1である。

cph[c]≠GBのとき
挿入コスト:ins_cost(cph[c])=常に1
削除コスト:del_cost(rph[r])=１(rph[r]≠Qの場合)
=β1(rph[r]=Qの場合)
置換コスト:sub_cost(cph[c], rph[r])=0 (cph[c]=rph[r]の場合)
=1
(cph[c]≠rph[r]かつrph[r]≠Qの場合)
=β2
(cph[c]≠rph[r]かつrph[r]=Qの場合)

cph[c]=GBのとき
挿入コスト:ins_cost(cph[c])=0
削除コスト:del_cost(rph[r])=α1
置換コスト:sub_cost(cph[c],rph[r])=0(rph[r]=Qの場合)
=α2(rph[r]≠Qの場合)

音素列照合部25で認識結果音素列と字幕変換音素列を対応付けする際、ある字幕変換音素列の先頭部分の音素列が前発話の末尾部分の音素列に対応するなどと誤って対応付けすることがあり、この場合には大きなずれ幅推定誤りが生じる。しかし、第１０実施形態では、発声中の無音部分が字幕の切れ目や字幕の文章の切れ目と判定した箇所に対応付けされやすくなるので、音声と字幕との対応付けの精度を向上させることができる。
(第１１実施形態)

第１１実施形態は、第１〜第１０実施形態において、音素列照合部25での編集距離の計算の過程を工夫してずれ幅推定の計算処理量を低減するものである。各字幕に対応する音素列が連結された字幕変換音素列には多くの音素が含まれることになるので、字幕変換音素列と認識結果音素列との照合において計算処理量を低減することは有効である。

音素列照合部25で編集距離を計算する過程において、まず、認識結果音素列の先頭r音素と音素字幕変換音素列の先頭n音素(n=1〜C:Cは字幕変換音素列の全音素数)とを照合し、それらの間の編集距離を計算する。次に、編集距離の中からその値が小さい上位N個を選択する。

そして、認識結果音素列の先頭r+1音素と字幕変換音素列間の編集距離を計算する際に、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された上位N個の編集距離を用いて計算可能なものについてのみ編集距離を計算し、他については計算しない。以上の処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集距離を計算する。

図１１は、第１１実施形態における編集距離の計算過程を示す説明図である。同図に示すように、まず、認識結果音素列の先頭r音素と字幕変換音素列の先頭n音素(n=1〜C)間の編集距離を計算する。これにより編集距離d[r,1],d[r,2],・・・,d[r,C]が得られる。次に、これらの編集距離の中からその値が小さい上位N個d[r,c-1],d[r,c-2],・・・,d[r,c-N]を選択する。次に、認識結果音素列の先頭r+1音素と字幕変換音素列間の編集距離を計算する際、編集距離d[r,c-1],d[r,c-2],・・・,d[r,c-N]用いて計算可能なものについてのみ編集距離を計算する。ここで、計算可能な編集距離は、d[r+1,c-1],d[r+1,c-2],・・・,d[r+1,c-N]となり、d[r+1,1],d[r+1,2],・・・,d[r+1,c-0]の計算を省略することができる。以上の処理を認識結果音素列の先頭音素数を順次増やしながら繰り返し、編集距離d[R,C]まで計算する。

第１１実施形態によれば、認識結果音素列と字幕変換音素列の組み合わせの内の一部編集距離を計算する必要がなくなり、少ない計算処理量でずれ幅を推定できる。
(第１２実施形態)

第１２実施形態も、第１〜第１０実施形態において、音素列照合部25での編集距離の計算の過程を工夫してずれ幅推定の計算処理量を低減するものである。

音素列照合部25で編集距離を計算する過程において、まず、認識結果音素列の先頭r音素と音素字幕変換音素列の先頭n音素(n=1〜C)とを照合し、それらの間の編集距離を計算する。次に、編集距離の中からその値が最小のもの、および最小のものとの編集距離の差が予め定めた閾値内に収まるものを選択する。この選択方法が第１１実施形態と異なる。

そして、認識結果音素列の先頭r+1音素と音素字幕変換音素列間の編集距離を計算する際に、音素字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された編集距離を用いて計算可能なものについてのみ編集距離を計算し、他については計算しない。以上の処理を繰り返し実行し、認識結果音素列と字幕変換音素列との編集距離を計算する。

第１２実施形態によれば、認識結果音素列と字幕変換音素列の組み合わせの内の一部編集距離を計算する必要がなくなり、少ない計算量でずれ幅を推定できる。
(第１３実施形態)

第１３実施形態も、第１〜第１０実施形態において、音素列照合部25での編集距離の計算の過程を工夫してずれ幅推定の計算処理量を低減するものである。

音素列照合部25で編集距離を計算する過程において、まず、認識結果音素列の先頭r音素と字幕変換音素列の先頭n音素(n=1〜C)とを照合し、それらの間の編集距離を計算する。次に、編集距離の中からその値が最小となる先頭m音素を選択する。

そして、認識結果音素列の先頭r+1音素と字幕変換音素列間の編集距離を計算する際に、前記字幕変換音素列の先頭r+1音素と字幕変換音素列の先頭m-N音素(Nは一定の値)から先頭m+N音素との編集距離の中で、既に計算されている先頭r音素との編集距離を用いて計算可能なものについてのみ編集距離を計算し、他については計算しない。以上の処理を繰り返し実行し、認識結果音素列と字幕変換音素列との編集距離を計算する。

図１２は、第１３実施形態による編集距離計算過程を示す説明図である。同図では、認識結果音素列の先頭r音素と字幕変換音素列の先頭n音素(n=1〜C)とを照合したとき、認識結果音素列の先頭r音素と字幕変換音素列の先頭C-1からC-5までとの編集距離が計算されている場合を示している。ここで、認識結果音素列の先頭r音素と字幕変換音素列の先頭C-2音素との編集距離が最小であるとし、N=2(前後2音素)とすると、字幕変換音素列の先頭r+1音素と字幕変換音素列間の編集距離を計算する際に編集距離計算の対象となるところは、字幕変換音素列の先頭C-0からC-4音素である。しかし、認識結果音素列の先頭r音素と字幕変換音素列C-0との編集距離は計算されていないので、実際に編集距離を計算するのは、字幕変換音素列の先頭r+1音素と字幕変換音素列C-1からC-4音素である。

第１３実施形態によれば、認識結果音素列と字幕変換音素列の組み合わせの内の一部編集距離を計算する必要がなくなり、少ない計算量でずれ幅を推定できる。

以上、実施形態を説明したが、本発明は、上記実施形態に限られるものではない。また、本発明は、時間的ずれが補正された字幕を、受信した放送コンテンツ中の音声および映像と共に再生する再生装置や、放送コンテンツにおける特定映像部分や音声部分を検索して再生する再生装置としても実現できる。例えば、上記実施形態のいずれかの字幕ずれ補正装置により時間的ずれが補正された字幕を保存しておき、この保存されている字幕内の文字を利用して、入力されたキーワードに合致する映像部分や音声部分を検索して再生できる。この場合、情報内容からみて、映像および音声と字幕間の時間的ずれは補正されているので、字幕内の文字から所望の映像部分や音声部分を正しく検索して再生できる。

11・・・情報分離部、12・・・字幕開始/終了時刻決定部、13・・・ずれ補正部、21・・・音声認識部、22・・・認識結果音素列格納部、23・・・字幕変換音素列生成部、24・・・字幕変換音素列格納部、25・・・音素列照合部、26・・・音素列照合結果格納部、31・・・音声検出部、32・・・音響分析部、33・・・音響モデル格納部、34・・・言語モデル格納部、35・・・音声照合部

Claims

放送コンテンツを受信しつつ、受信した放送コンテンツ中の音声を認識し、該音声に対応する認識結果音素列を生成する音声認識部と、
放送コンテンツの映像中の、１画面で表示される字幕を１単位とする各字幕に対応する音素列を生成するとともに、それらの音素列を連結して字幕変換音素列を生成する字幕変換音素列生成部と、
前記音声認識部により生成された認識結果音素列と前記字幕変換音素列生成部により生成された字幕変換音素列との間の編集距離に基づき字幕と音声を対応付けて、字幕の開始、終了時刻を決定する音素列照合部と、
前記音素列照合部により決定された字幕の開始、終了時刻に基づき、音声と字幕との間の時間的ずれを補正するずれ補正部を備え、
音素列照合部は、字幕受信時に、字幕と字幕受信時以前の音声との対応付けを行い、この結果から時間的ずれ補正後の字幕の開始、終了時刻を予測し、その後、予測された字幕の開始、終了時刻に至るまで一定時間ごとに、新たに受信した放送コンテンツ中の音声および字幕の情報を前回の対応付けで用いた音声および字幕の情報に追加しつつ字幕と音声との対応付けを行い、その結果から時間的ずれ補正後の字幕の開始、終了時刻を予測する処理を繰り返し行うことにより放送コンテンツを受信しつつ当該字幕の開始、終了時刻を決定することを特徴とする字幕ずれ補正装置。
前記音素列照合部は、字幕と字幕受信時以前の音声との対応付けの結果と字幕の開始時刻の予測値と放送コンテンツ受信時に取得した字幕の表示時間に基づいて時間的ずれ補正後の字幕の終了時刻を予測することを特徴とする請求項１に記載の字幕ずれ補正装置。
前記音素列照合部は、字幕と字幕受信時以前の音声との対応付けの結果と字幕の開始時刻の予測値と字幕文字列から推定した字幕に対応する音声長の予測値に基づいて時間的ずれ補正後の字幕の終了時刻を予測することを特徴とする請求項１に記載の字幕ずれ補正装置。
前記音素列照合部が時間的ずれ補正後の字幕の開始、終了時刻を予測する時に使用した認識結果音素列を保存しておき、前記音素列照合部は、時間的ずれ補正後の字幕の開始、終了時刻を予測する処理を繰り返す際には前回処理を行った時刻から現時刻までに前記音声認識部により生成された認識結果音素列を保存された認識結果音素列に結合して認識結果音素列を生成し、これにより生成された認識結果音素列と字幕変換音素列との間の編集距離に基づいて時間的ずれ補正後の字幕の終了時刻を予測することを特徴とする請求項１ないし３のいずれかに記載の字幕ずれ補正装置。
前記音素列照合部が時間的ずれ補正後の字幕の開始、終了時刻を予測する時に使用した認識結果音素列と前記音声認識部が認識した認識中間結果と前記音素列照合部が照合した照合中間結果を保存しておき、前記音声認識部は、時間的ずれ補正後の字幕の開始、終了時刻を予測する処理が繰り返される際には前回処理時に保存された認識中間結果を引き継いで前回処理を行った時刻から現時刻までの音声を認識して認識結果音素列を生成し、前記音素列照合部は、この認識結果音素列を保存された認識結果音素列に結合して認識結果音素列を生成し、これにより生成された認識結果音素列と前回処理時に保存された照合中間結果を用いて時間的ずれ補正後の字幕の終了時刻を予測することを特徴とする請求項１ないし３のいずれかに記載の字幕ずれ補正装置。
前記音素列照合部が時間的ずれ補正後の字幕の開始、終了時刻を予測する時に使用した認識結果音素列と前記音声認識部が認識した認識中間結果と前記音素列照合部が照合した照合中間結果を保存しておき、前記音声認識部は、時間的ずれ補正後の字幕の開始、終了時刻を予測する処理が繰り返される際には前回処理時に保存された認識中間結果を引き継いで前回処理を行った時刻から現時刻までの音声を認識して認識結果音素列を生成し、前記音素列照合部は、この認識結果音素列と最初に認識を開始した時刻から現時刻までの音声を認識した認識結果音素列とを比較し、異なった音素に遡って認識結果音素列と字幕変換音素列との間の編集距離を、保存された照合中間結果を用いて計算し、該編集距離に基づき音声と字幕の時間的ずれ幅を推定することを特徴とする請求項１ないし３のいずれかに記載の字幕ずれ補正装置。
前記ずれ補正部が音声と字幕の時間的ずれ幅を補正した後、該補正の時刻より予め定めた時刻以上前の音声区間に対応する字幕、その字幕に対応する認識結果音素列および字幕変換音素列、照合中間結果を破棄することを特徴とする請求項５または６に記載の字幕ずれ補正装置。
前記ずれ補正部が音声と字幕の時間的ずれ幅を補正した後、該補正の時刻より予め定めた時刻以上前の音声区間に対応する認識結果音素および字幕変換音素列、照合中間結果を破棄することを特徴とする請求項５または６に記載の字幕ずれ補正装置。
前記編集距離は、音素の挿入、削除、置換によって一方の音素列から他方の音素列へ変換するのに要する手順の回数に応じたコストを指標として定義されることを特徴とする請求項１ないし８のいずれかに記載の字幕ずれ補正装置。
前記編集距離は、音素ごとの音声認識性能を元に定められた、ある音素をある音素に置換する際に要するコスト、ある音素を挿入する際に要するコスト、ある音素を削除する際に要するコストを指標として定義されることを特徴とする請求項１ないし８のいずれかに記載の字幕ずれ補正装置。
前記字幕変換音素列生成部は、字幕の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記音素列照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集距離を計算することを特徴とする請求項９または１０に記載の字幕ずれ補正装置。
前記字幕変換音素列生成部は、字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記音素列照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集距離を計算することを特徴とする請求項９または１０に記載の字幕ずれ補正装置。
前記字幕変換音素列生成部は、字幕の切れ目と字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記音素列照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集距離を計算することを特徴とする請求項９または１０に記載の字幕ずれ補正装置。
前記字幕変換音素列生成部は、字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記音声認識部は、無音が一定時間継続する箇所に無音を表す擬似音素を加えた認識結果音素列を生成し、前記音素列照合部は、無音を表す擬似音素と文章の切れ目を表す擬似音素間のコストを０または小さい値とし、無音を表す擬似音素と他の音素間のコストを他と比較して大きな値として編集距離を計算することを特徴とする請求項９または１０に記載の字幕ずれ補正装置。
前記音素列照合部は、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C：Cは字幕変換音素列の全音素数)間の編集距離を計算し、該編集距離の中からその値が小さい上位N個を選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集距離を計算する際、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された上位N個の編集距離を用いて計算可能なものについてのみ編集距離を計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集距離を計算することを特徴とする請求項１ないし１４のいずれかに記載の字幕ずれ補正装置。
前記音素列照合部は、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C：Cは字幕変換音素列の全音素数)間の編集距離を計算し、該編集距離の中からそれが最小のもの、および最小のものとの差が予め定めた閾値内に収まるものを選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集距離を計算する際、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された編集距離を用いて計算可能なものについてのみ編集距離を計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集距離を計算することを特徴とする請求項１ないし１４のいずれかに記載の字幕ずれ補正装置。
前記音素列照合部は、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C：Cは字幕変換音素列の全音素数)間の編集距離を計算し、該編集距離の中からその値が最小となる字幕変換音素列の先頭m音素を選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集距離を計算する際に、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列の先頭m-N音素(Nは一定の値)から先頭m+N音素との編集距離の中で、既に計算されている先頭r音素との編集距離を用いて計算可能なものについてのみ編集距離を計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集距離を計算することを請求項１ないし１４のいずれかに記載の字幕ずれ補正装置。
請求項１ないし１７のいずれかに記載された字幕ずれ補正装置と、
前記字幕ずれ補正装置により時間的ずれが補正された字幕を、受信した放送コンテンツ中の音声および映像と共に再生する再生手段を備えることを特徴とする再生装置。
請求項１ないし１７のいずれかに記載された字幕ずれ補正装置と、
前記字幕ずれ補正装置により音声および映像との時間的ずれが補正された字幕を保存する字幕保存手段と、
入力されたキーワードに合致する部分の映像を、前記字幕保存手段に保存された字幕内の文字情報を元に検索する検索手段を備え、
前記検索手段により検索された部分の映像を再生することを特徴とする再生装置。
請求項１ないし１７のいずれかに記載された字幕ずれ補正装置と、
前記字幕ずれ補正装置により時間的ずれが補正された音声、映像および字幕を放送番組として送信する送信手段を備えたことを特徴とする放送装置。