JP2009246813A

JP2009246813A - 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置

Info

Publication number: JP2009246813A
Application number: JP2008093029A
Authority: JP
Inventors: Masaki Naito; 正樹内藤; Kazunori Matsumoto; 一則松本; Fumiaki Sugaya; 史昭菅谷
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-03-31
Filing date: 2008-03-31
Publication date: 2009-10-22
Anticipated expiration: 2028-03-31
Also published as: JP5273844B2

Abstract

【課題】放送番組に含まれる音声と字幕間の時間的ずれ幅を高精度に推定し、該時間的ずれを高精度に補正可能にすること。
【解決手段】認識部21は、放送番組中の音声を認識し、該音声に対応する認識結果音素列を生成する。字幕変換音素列生成部22は、放送番組の映像中の各字幕に対応する音素列を生成し、それらの音素列を連結して字幕変換音素列を生成する。照合部23は、字幕変換音素列生成部22からの字幕変換音素列を一塊りとして認識部21からの認識結果音素列と照合し、音声と字幕間の時間的ずれ幅を推定する。照合部23により推定された時間的ずれ幅を用いて音声と字幕間の時間的ずれを補正する。
【選択図】図２

Description

本発明は、字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置に関し、特に、放送番組に含まれる音声と字幕間の時間的ずれ幅を高精度に推定でき、該時間的ずれを高精度に補正でき、特定映像部分を検索して再生でき、時間的ずれが高精度に補正された音声、映像および字幕を含む放送番組を送信できる字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置に関する。

近年、放送番組の映像に対して字幕を付与することが推奨されており、また、地上波デジタル放送が開始されるに伴って字幕付き放送番組を容易に視聴することが可能となった。これにより、字幕付き放送番組が増加する傾向にある。

放送番組を字幕付きのものとする場合、一般的には、出演者の発声を視聴してその内容を文字化し、それを字幕として出力し、映像に付与するという手順が取られる。しかし、出演者の発声の内容を文字化して字幕を作成するのに時間がかかるため、字幕が出力される時刻は、出演者の発声よりも遅延する。

図１０は、この状態を示す。例えば、出演者が「こんにちは。朝のニュースです。・・・」と発声した場合、その発声内容を文字化するのに要する時間分だけ遅延して字幕が出力される。

特許文献１には、放送番組における映像と字幕の表示タイミングのずれを解消するため、放送局内で、音声と放送原稿の時間的ずれ幅を推定し、該時間的ずれ幅を基に字幕の出力タイミングを決定する装置が記載されている。

また、近年、映像の検索を行うためのメタ情報として字幕を利用する取り組みも進んでいる。特許文献２には、放送の受信側で音声と字幕の時間的ずれ幅を推定し、字幕のタイムコードを修正し、検索に用いるメタ情報を生成する方法、および同メタ情報を用いて映像の検索を行う装置が記載されている。

また、本発明者は、発声内容に依存しない字幕と音声の照合手法を用いて音声と字幕の時間的ずれ幅を推定する字幕ずれ推定装置を特許文献３(先願)で提案した。これでは、計算処理量を削減するために、字幕と音声の照合範囲を制限したり、照合結果の重み付けを行ったりすることも提案している。
特開平１０−１３６２６０号公報特開２００５−２２９４１３号公報特願２００７−２３６５５０号(先願)

上記したように、映像と字幕間の時間的ずれを補正する方法、および映像と字幕間の時間的ずれを補正して検索用メタ情報の精度の向上させる方法が提案されているが、映像や音声と字幕間の時間的ずれを補正するに際しては、少ない計算処理量で、かつ精度良く時間的ずれ幅を推定することが要求される。

特許文献１に記載された装置では、放送収録時に使用する放送原稿の冒頭部分に対応する発音記号列を表す音響モデルと音声を照合し、放送原稿冒頭部分との照合スコアが最も高い音声区間を検出し、検出された音声区間の時刻情報を基に字幕の出力時刻を決定する。

しかし、この方法を字幕と音声の対応付けに適用した場合、広範囲に渡って音響モデルと音声の照合処理を行う必要があり、多量の計算処理を必要とするという課題がある。また、字幕の先頭部分と類似した音声が複数個所に存在する場合には字幕に該当する音声区間の特定が難しいという課題もある。

特許文献２には、字幕と音声を対応付けるための具体的手法は記載されていない。音声と字幕間の時間的ずれ幅を推定する際、時間的ずれ幅の範囲を定めて照合することにより計算処理量を少なくする方法が記載されているが、時間的ずれ幅の分布が広範囲に渡ることが予想される場合、照合に要する計算処理量が多くなり、照合精度も低下するという課題がある。

特許文献３で提案した装置でも、時間的ずれ幅の範囲を定めて照合することにより音声と字幕間の時間的ずれ幅の推定に要する計算処理量を少なくするが、特許文献２と同様の課題がある。また、各字幕と音声間の時間的ずれ幅を独立に推定するので、複数の字幕が同じ音声部分に重複して対応付けられたり、字幕の対応付けの順序が前後逆になったりすることがある。したがって、これにより推定された時間的ずれ幅に従って音声と字幕間の時間的ずれを補正した場合、前後の字幕が時間的に重複したり、前後の字幕の順序が逆転する可能性がある。

本発明の目的は、放送番組に含まれる音声と字幕間の時間的ずれ幅を高精度に推定でき、該時間的ずれを高精度に補正でき、特定映像部分を検索して再生でき、時間的ずれが高精度に補正された音声、映像および字幕を含む放送番組を送信できる字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置を提供することにある。

上記の目的を達成するため、本発明に係る字幕ずれ推定装置は、放送番組中の音声を認識し、該音声に対応する認識結果音素列を生成する認識部と、放送番組の映像中の各字幕に対応する音素列を生成するとともに、それらの音素列を連結して字幕変換音素列を生成する字幕変換音素列生成部と、前記字幕変換音素列生成部からの字幕変換音素列を一塊りとして前記認識部からの認識結果音素列と照合し、音声と字幕間の時間的ずれ幅を推定する照合部を備えた点に第１の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記照合部が、前記字幕変換音素列生成部からの字幕変換音素列と前記認識部からの認識結果音素列間の離間を表す編集コストを計算し、該編集コストが最小となる音素間の対応関係を求め、音声と字幕の時間的なずれ幅を推定する点に第２の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記編集コストが、音素の挿入、削除、置換によって一方の音素列から他方の音素列へ変換するのに要する手順の回数に応じたコストを指標として定義される点に第３の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記編集コストが、音素ごとの音声認識性能を元に定められた、ある音素を他の音素に置換する際に要するコスト、ある音素を挿入する際に要するコスト、ある音素を削除する際に要するコストを指標として定義される点に第４の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記字幕変換音素列生成部が、字幕の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集コストを計算する点に第５の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記字幕変換音素列生成部が、字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集コストを計算する点に第６の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記字幕変換音素列生成部が、字幕の切れ目と字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集コストを計算する点に第７の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記字幕変換音素列生成部が、文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記認識部は、無音が一定時間継続する箇所に無音を表す擬似音素を加えた認識結果音素列を生成し、前記照合部は、無音を表す擬似音素と文の切れ目を表す擬似音素間のコストを０または小さい値とし、無音を表す擬似音素と他の音素間のコストを他と比較して大きな値として編集コストを計算する点に第８の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記照合部が、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C)間の編集コストを計算し、該編集コストの中からその値が小さい上位N個を選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集コストを計算する際、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された上位N個の編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算する点に第９の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記照合部が、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C)間の編集コストを計算し、該編集コストの中からそれが最小のもの、および最小のものとの差が予め定めた閾値内に収まるものを選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集コストを計算する際、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算する点に第１０の特徴がある。

また、本発明に係る字幕ずれ推定装置は、前記照合部が、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C)間の編集コストを計算し、該編集コストの中からその値が最小となる字幕変換音素列の先頭m音素を選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集コストを計算する際に、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列の先頭m-N音素(Nは一定の値)から先頭m+N音素との編集コストの中で、既に計算されている先頭r音素との編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算する点に第１１の特徴がある。

また、本発明に係る字幕ずれ補正装置は、前記第１〜１１のいずれかの特徴を有する字幕ずれ推定装置と、前記字幕ずれ推定装置により推定された音声と字幕との間の時間的ずれ幅に従って、放送番組における字幕と音声間の時間的ずれを補正するずれ補正手段を備えた点に特徴がある。

また、本発明に係る再生装置は、前記第１〜１１のいずれかの特徴を有する字幕ずれ推定装置と、前記字幕ずれ推定装置により推定された音声と字幕間の時間的ずれ幅に従って音声および映像との時間的ずれが補正された字幕を保存する字幕保存手段と、入力されたキーワードに合致する部分の映像を、前記字幕保存手段に保存された字幕内の文字情報を元に検索する検索手段を備え、前記検索手段により検索された部分の映像を再生する点に特徴がある。

さらに、本発明に係る放送装置は、前記字幕ずれ補正装置と、前記字幕ずれ補正装置により時間的ずれが補正された音声、映像および字幕を放送番組として送信する送信手段を備えた点に特徴がある。

本発明の第１ないし第１１の特徴によれば、各字幕に対応する音素列を連結して生成した字幕変換音素列を音声に対応する認識結果音素列と対応付けるので、音声に対応付けられる字幕が重複したり、前後逆になったりすることがなく、音声と字幕間の時間的ずれ幅を高精度で推定できる。

また、第５ないし第８の特徴によれば、字幕の文章の切れ目や放送番組中の音声の発声の切れ目を考慮して音声と字幕とを対応付けるので、両者の対応付けの精度を高めることができる。

また、第９ないし第１１の特徴によれば、音声と字幕間の時間的ずれ幅を推定する際に必要とする計算量を削減できる。

また、第１２の特徴によれば、放送番組の映像における音声と字幕間の時間的ずれを高精度で補正でき、第１３の特徴によれば、字幕を手がかりとして特定映像部分を高精度で検索して再生でき、さらに、第１４の特徴によれば、時間的ずれが補正された音声、映像および字幕を放送番組として送信することができる。

以下、図面を参照して本発明を説明する。図１は、本発明に係る字幕ずれ補正装置の基本構成を示すブロック図である。この字幕ずれ補正装置は、情報分離部11、ずれ推定部12およびずれ補正部13を備える。ここで補正されるのは、情報内容からみた場合の音声と字幕間の時間的ずれである。以下で、単にずれ、ずれ幅と称した場合も、時間的ずれ、時間的ずれの大きさを意味する。

情報分離部11には放送番組が入力される。放送番組は、例えば、それぞれのトラックに格納された映像、音声および字幕を含む。情報内容からみて、映像と音声は時間的ずれがなく、字幕は、それらに対して時間遅れをもっている。

情報分離部11は、放送番組から音声と字幕を別々に分離する。ずれ推定部12は、情報分離部11で分離された音声と字幕間のずれ幅を推定する。ずれ推定部12でのずれ幅推定の手法は、後述する。ずれ補正部13は、ずれ推定部12で推定された音声と字幕間のずれ幅に従って、放送番組における映像および音声に対する字幕の出力開始終了時刻および終了時刻を補正し、情報内容からみて、映像、音声および字幕間にずれがない放送番組を出力する。この補正は、映像、音声、字幕をそれぞれ格納している各トラックからの各情報の読み出しタイミングを制御することで実現できる。すなわち、映像と音声間に時間的ずれがなく、これらに対して字幕が遅れている場合、字幕の情報を読み出すタイミングに合わせて映像と音声の情報を読み出すようにすればよい。なお、このタイミング合わせは、各情報の開始時刻、終了時刻あるいは開始時刻と終了時刻の中間の時刻で行うことが可能である。

次に、ずれ推定部12の構成について説明する。この構成は、単独で音声と字幕間のずれ幅を推定する装置として有用であるので、以下では、これを字幕ずれ推定装置として説明する。字幕ずれ推定装置も本発明に含まれる。

図２は、本発明に係る字幕ずれ推定装置の第１実施形態を示すブロック図である。第１実施形態の字幕ずれ推定装置は、認識部21、音素列生成部22および照合部23を備える。

TV放送番組の場合、出演者の映像と共に出演者により発声された音声が取得される。したがって、映像と音声とは時間的ずれなく取得されていると考えることができる。これにより取得された音声は、認識部21に入力される。このときの映像に音声の内容を文字化した字幕を付与する場合、文字化により生成された字幕が音素列生成部22に入力される。情報内容からみて、字幕は、文字化に要する時間分だけ映像や音声より遅延している。

認識部21は、入力される音声を認識処理し、これにより認識された音声に対応する音素列(認識結果音素列)を送出する。一方、音素列生成部22は、入力される字幕に対応する字幕変換音素列を生成する。ここで生成される字幕変換音素列は、各字幕ごとの音素列ではなく、各字幕に対応する音素列が複数連結された音素列である。

字幕変換音素列は、漢字仮名混じり文により記述されている字幕の形態素解析を行い、それを品詞に分割すると共に読みを表す仮名文字列に変換し、さらに、仮名文字から発音記号への変換規則を記載した変換表を参照して、仮名文字列を音素列に変換することにより生成できる。

照合部23は、認識部21からの認識結果音素列と音素列生成部22からの字幕変換音素列を照合し、両者のずれ幅を推定する。

図３は、認識部21の構成例を示すブロック図である。認識部21は、音声検出部31、音響分析部32、音響モデル格納部33、言語モデル格納部34および音声照合部35を備える。この構成は、音声認識で一般的なものである。

音声検出部31は、入力される音声から人声を含む区間の音声を切り出して音響分析部32に送る。音声検出部31での音声の切り出しには、例えば、入力のパワーの大小に基づく音声検出手法を利用できる。この音声検出手法では、入力のパワーを逐次計算し、入力のパワーが予め定めた閾値を一定時間連続して上回った時点を音声の開始時点と判定し、逆に、入力のパワーが予め定めた閾値を一定時間連続して下回った時点を音声の終了時点と判定する。

音響分析部32は、音声検出部31により切り出された音声の音響分析を行い、MFCCなど音声の特徴を表す音響特徴量列を送出する。

音響モデル格納部33は、日本語音声を構成する単位である音素ごとに用意したHMMなどの標準パタンを格納している。この標準パタンを日本語単語・文章を構成する音素列に即して連結することで任意の日本語単語・文章に対応する標準パタンを作成することができる。

言語モデル格納部34は、日本語の単語間、音素間などの接続関係を規定する言語モデルを格納している。この言語モデルには、(1)音節間の接続関係を規定する連続音節認識文法、(2)単語間の接続関係を規定する文法規則、(3)N個の音素の組が連続する確率を規定する統計的言語モデル、(4)N個の単語の組が連続する確率を規定する統計的言語モデルなどがある。

図４は、言語モデルの例を示す図である。同図(a)は、音節間の接続関係を規定する連続音節認識文法であり、これは、子音/b/ /d/ ・・・と母音/a/ /i/ ・・・の接続関係を規定している。同図(b)は、単語間の接続関係を規定する文法規則であり、これは、/単語1/ /単語2/ ・・・の接続関係を規定している。言語モデルについては、例えば、「鹿野ら著：「IT Text 音声認識システム」オーム社」に記載されている。

音声照合部35は、言語モデルに記された接続規則に従って音響モデルを接続して標準パタンを生成すると共に、Viterbiアルゴリズムを用い、音響分析部32から送出される音響特徴量列と標準パタンを照合する。この照合の結果、両者の照合スコアを最大とする音声区間と標準パタンの対応が得られる。認識部21での認識結果として、認識結果音素列および標準パタンを構成する各音素に対応する音声区間の開始時刻、終了時刻が取得される。なお、音声照合については「中川聖一ら著：「確率モデルによる音声認識」電子情報通信学会」に記載されている。

図５は、音声照合部35(図３)での照合処理を示す模式図である。同図は、音響解析部32から送出される音響特徴量列が音声照合部35で標準パタンと照合され、これにより照合結果/sh/ /i/ ・・・ /u/が得られると共に、各音素に対応する音声区間の開始時刻、終了時刻が取得されることを示している。

以上の一連の処理を、入力の音声の始端から終端まで繰り返し実行し、放送番組全体に渡り音声の各区間がどの音素に対応するかを照合し、認識結果音素列および各音素に対応する音声区間の開始時刻、終了時刻を取得する。

図６は、音素列生成部22(図２)での字幕変換音素列の生成処理を示す模式図である。音素列生成部22は、漢字仮名混じり文により記述されている字幕の形態素解析を行い、それを品詞に分割すると共に読みを表す仮名文字列に変換し、さらに、仮名文字から発音記号への変換規則を記載した変換表を参照して、仮名文字列を音素列に変換して字幕変換音素列を生成する。

例えば、漢字仮名混じり文により記述されている字幕文字列が「７時のニュースです」の場合、音素列生成部22は、まず、形態素解析により「７」「時」「の」「ニュース」「です」の各品詞に分割する。次に、これらを、読みを表す仮名文字列「しち」「じ」「の」「にゅーす」「です」に変換し、さらに、仮名文字から発音記号への変換規則を記載した変換表を参照して、仮名文字列を音素列/sh/ /i/ /ch/ /i/ /j/ /i/ /n/ /o/ /ny/ /uu/ /s/ /u/ /d/ /e/ /s/ /u/に変換する。

以上のようにして各字幕の音素列が生成されるが、本発明では、各字幕の音素列を字幕の出現順序に従って複数連結し、字幕変換音素列を生成する。各字幕の音素列の連結は、字幕が重複したり前後逆になったりするという問題を解消するという観点からは放送番組の全体を通しての字幕が望ましい。しかし、連結する音素列の数が多くなると照合部23での処理負担が増えるので、両者を勘案して決める。もちろん、複数の字幕に対応する音素列を連結した場合、単独の場合より上記問題は少なくなる。

次に、照合部23(図２)での照合処理について説明する。照合部23は、認識部21からの認識結果音素列と音素列生成部22からの字幕変換音素列を照合し、両者間の離間の程度を表す編集コストを算出する。この編集コストとしては、音素の挿入や削除、置換によって１つの音素列を別の音素列に変換するために必要な手順の回数に応じたコストを指標として定義される値を用いることができる。

例えば、“/sh/ /i/ /n/ /k/ /a/ /i/”を“/t/ /o/ /k/ /a/ /i/”に変形する場合、以下に示すように、最低３回の手順が必要とされる。手順１回当たりコストを１とすれば、この場合の編集コストは３となる。

1. /sh/ /i/ /n/ /k/ /a/ /i/

2. /t/ /i/ /n/ /k/ /a/ /i/ （“/sh/”を“/t/”に置換）

3. /t/ /o/ /n/ /k/ /a/ /i/（“/i/”を“/o/”に置換）

4. /t/ /o/ /k/ /a/ /i/（“/n/”を削除して終了）

認識結果音素列と字幕変換音素列間の編集コストは、単に手順の回数に応じて定義されるものに限られない。例えば、音素ごとの音声認識性能(音素間の間違いやすさなど)を元に、ある音素Aをある音素Bに置換する際に要するコスト、ある音素Aを挿入する際に要するコスト、ある音素Aを削除する際のコストを個別に定め、これらのコストを元に定義することも可能である。例えば、音素/b/と音素/p/は間違いやすいので、編集コストは小とされる。

編集コストは、動的計画法に基づく以下のアルゴリズムを用いることで高速に計算できる。

認識結果音素列：rph[1],rph[2],・・・,rph[R]

字幕変換音素列：cph[1],cph[2],・・・,cph[C]
認識結果音素列の最初の音素(rph[1])から最後の音素(rph[R])まで：
字幕変換音素列の最初の音素(cph[1])から最後の音素(cph[C])まで：
認識結果音素列の先頭r音素rph[1・・・r]と
字幕変換音素列の先頭c音素cph[1・・・c]との間の編集コスト
d[r,c] = minimum(
d[r-1,c] + ins_cost(cph[c]), //音素の挿入
d[r,c-1] + del_cost(rph[r]), //音素の削除
d[r-1,c-1] + sub_cost(cph[c],rph[r]) //音素の置換
)

ここで、ins_cost(cph[c])、del_cost(rph[r])、sub_cost(cph[c],rph[r])はそれぞれ、認識結果音素列に音素を挿入する際に要するコスト、認識結果音素列から音素を削除する際に要するコスト、認識結果音素列に音素を他の音素に置換する際に要するコストを表す。

本アルゴリズムは、認識結果音素列の先頭r-1音素(rph[1・・・r-1])と字幕音素列の先頭c音素cph[1・・・c]間の編集コストd[r-1,c]、認識結果音素列の先頭r音素(rph[1・・・r])と字幕音素列の先頭c-1音素cph[1・・c-1]間の編集コストd[r,c-1]、認識結果音素列の先頭r-1音素(rph[1・・・r-1])と字幕音素列の先頭c-1音素cph[1・・c-1]間の編集コストd[r-1,c-1]を利用し、認識結果音素列の先頭r音素(rph[1・・・r])と字幕音素列の先頭c音素cph[1・・・c]間の編集コストd[r, c]を算出する処理を繰り返し行うことで編集コストを計算するものである。このように、以前に計算して求められている編集コストを利用することにより、認識結果音素列と字幕変換音素列の組み合わせの最後までの編集コストを効率的に計算することができる。

なお、認識結果音素列と字幕変換音素列の間の編集コストとして手順の回数に応じたコストを用いる場合、

挿入コスト：ins_cost(cph[c]) = 常に1

削除コスト：del_cost(rph[r]) = 常に1

置換コスト：sub_cost(cph[c], rph[r]) = 0 (cph[c]=rph[r]の場合)
= 1 (cph[c]≠rph[r]の場合)
である。

編集コストの計算と同時に、選択された編集コストの最小値が音素の挿入、削除、置換のいずれの編集方法によるものであるかを保存しておく。認識結果音素列と字幕変換音素列の組み合わせ最後まで編集コストの計算が終了した後、保存された編集方法の選択結果を、認識結果音素列の最後の音素rph[R]と字幕変換音素列の最後の音素cph[C]までの編集コストを計算した際の選択結果から逆順に読み出すことで、編集コストが最小となる編集方法(挿入、削除、置換の組み合わせ)を求めることができ、その結果を基に、認識結果音素列の各音素が字幕変換音素列のどの音素と対応付けされたかの情報を取得することができる。

この情報および音声認識結果から得られる認識結果音素列中の各音素の開始時刻、終了時刻に基づいて、各字幕に対応する音声区間の開始時刻、終了時刻を決定できる。

照合部23は、このようにして得られた字幕変換音素列の音素と認識結果音素列の各音素との対応関係に基づいて、各字幕の出力開始時刻と音声開始時刻間のずれ幅、または各字幕の出力終了時刻と音声の終了時刻間のずれ幅を算出する。

図７は、字幕変換音素列の音素と認識結果音素列の各音素との対応関係に基づいて算出される、各字幕の出力開始時刻と音声開始時刻との間のずれ幅(ずれ幅１)、各字幕の出力終了時刻と音声の終了時刻との間のずれ幅(ずれ幅２)を示す。照合部23は、各字幕と音声間のずれ幅として、ずれ幅１またはずれ幅２を出力する。

次に、本発明に係る字幕ずれ推定装置の第２実施形態について説明する。第２実施形態の構成は、図２と同じであるので図示省略する。通常、音声認識を行うと発声の切れ目などの無音区間に存在する雑音が誤認識されて音素列が出力される事例が見られ、雑音に対応する音素列の出力により音声と字幕との対応付けの精度が低下する。第２実施形態は、雑音の誤認識による音素列が字幕の切れ目に対応付けされやすくすることにより、音声と字幕との対応付けの精度を向上させるものである。

第２実施形態では、音素列生成部22(図２)において字幕変換音素列を生成する際、各字幕の間に文の切れ目を表す擬似音素(GB)を挿入する。そして、照合部23で編集コストを計算する際、GBに対するコスト(挿入コスト、削除コスト、置換コスト)を、以下に示すように、他の音素に対するコストより小さな値に設定する。なお、0<α1<1,0<α2<1である。

cph[c]＝GBのとき、
挿入コスト：ins_cost(cph[c]) = 0
削除コスト：del_cost(rph[r]) = α1
置換コスト：sub_cost(cph[c],rph[r]) = α2

第２実施形態では、雑音の誤認識による音素列が字幕に対応する音素列より字幕の切れ目に挿入された擬似音素(GB)に対応付けされやすくなる(コスト小)ので、音声と字幕との対応付けの精度が向上する。

次に、本発明に係る字幕ずれ推定装置の第３実施形態について説明する。第３実施形態の構成も図２と同じであるので図示省略する。第２実施形態では字幕の切れ目に擬似音素(GB)を挿入しているが、第３実施形態は、字幕の切れ目では無く、字幕の文章で文の切れ目と判定した箇所に擬似音素(GB)を挿入するものである。

文章の切れ目は、句点「。」を検出して文境界とする方法、文章を解析して文境界を検出する方法などで判定できる。文章を解析して文境界を検出する方法は、例えば、丸山他「日本語節境界検出プログラムCBAPの開発と評価」言語処理学会、自然言語処理2004年7月号に記載されている。

照合部23で編集コストを計算する際、GBに対するコスト(挿入コスト、削除コスト、置換コスト)を他の音素に対するコストより小さな値に設定することは、第２の実施形態と同様である。

１画面に出力される字幕の文字数には制限があるので、字幕は、必ずしも文章ごとに送出されない。第３実施形態では、雑音の誤認識による音素列が字幕の文章での文の切れ目に挿入された擬似音素(GB)に対応付けされやすくなるので、字幕が文章ごとに送出されない場合でも、音声と字幕との対応付けの精度が向上する。

次に、本発明に係る字幕ずれ推定装置の第４実施形態について説明する。第４実施形態の構成も図２と同じであるので図示省略する。第４実施形態は、字幕の切れ目と字幕の文章で文の切れ目と判定した箇所の両方に擬似音素(GB)を挿入するものである。

照合部23で編集コストを計算する際、GBに対するコスト(挿入コスト、削除コスト、置換コスト)を他の音素に対するコストより小さな値に設定することは、第２、第３の実施形態と同様である。

第４実施形態では、字幕の文章での文の切れ目の判定に誤りがあったとしても少なくとも字幕の切れ目(文境界である可能性も高い)に擬似音素(GB)が挿入され、雑音の誤認識による音素列が擬似音素(GB)に対応付けされやくなるので、音声と字幕との対応付けの精度が向上する。

次に、本発明に係る字幕ずれ推定装置の第５実施形態について説明する。第５実施形態の構成も図２と同じであるので図示省略する。第５実施形態は、音素列生成部22(図２)において字幕変換音素列を生成する際、第２〜第４実施形態のように各字幕に擬似音素(GB)を挿入するとともに、認識部21において認識結果音素列を生成する際、無音に対応すると見なされた区間が予め定めた時間以上継続した場合に、認識結果音素列の該当箇所に無音を表す擬似音素(Q)を挿入するものである。擬似音素(Q)の挿入は、音声検出部31と音声照合部35(図３)において行うことができる。

そして、照合部23で編集コストを計算する際、以下に示すように、QをGBに置換する際のコストを０あるいは小さい値、Qを他の音素に置換する際のコストを他のコストと比較して大きな値に設定する。なお、β1>>1,β2>>1，0<α1<1,0<α2<1である。

cph[c]≠GBのとき
挿入コスト：ins_cost(cph[c]) = 常に1
削除コスト：del_cost(rph[r]) = 1 (rph[r]≠Qの場合）
= β1 (rph[r]=Qの場合）
置換コスト：sub_cost(cph[c],rph[r]) = 0 (cph[c]=rph[r]の場合)
= 1
(cph[c]≠rph[r]かつrph[r]≠Qの場合)
= β2
(cph[c]≠rph[r]かつrph[r]=Qの場合)

cph[c] = GBの時
挿入コスト：ins_cost(cph[c]) = 0
削除コスト：del_cost(rph[r]) = α1
置換コスト：sub_cost(cph[c], rph[r]) = 0 (rph[r]=Qの場合)
= α2 (rph[r]≠Qの場合)

照合部23で認識結果音素列と字幕字幕変換音素列を対応付けする際、ある字幕変換音素列の先頭部分の音素列が前発話の末尾部分の音素列に対応するなどと誤まって照合することがあり、この場合には大きなずれ誤りが生じる。しかし、第５実施形態では、発声中の無音部分が字幕の切れ目や字幕の文章で文の切れ目と判定した箇所と対応付けされやすくなるので、音声と字幕との対応付けの精度が向上する。

次に、本発明に係る字幕ずれ推定装置の第６実施形態について説明する。第６実施形態は、第１〜第５実施形態において、照合部23での編集コストの計算の過程を工夫してずれ幅推定の計算処理量を低減するものである。各字幕に対応する音素列が連結された字幕変換音素列には多くの音素が含まれることになるので、字幕変換音素列と認識結果音素列との照合において計算処理量を低減することは有効である。

照合部23で編集コストを計算する過程において、まず、認識結果音素列の先頭r音素と字幕変換音素列の先頭n音素(n=1〜C：Cは字幕変換音素列の全音素数)とを照合し、それらの間の編集コストを計算する。次に、編集コストの中からその値が小さい上位N個を選択する。

そして、認識結果音素列の先頭r+1音素と字幕変換音素列間の編集コストを計算する際に、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された上位N個の編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しない。以上の処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算する。

図８は、第６実施形態における編集コスト計算過程を示す説明図である。同図に示すように、まず、認識結果音素列の先頭r音素と字幕変換音素列の先頭n音素(n=1〜C)間の編集コストを計算する。これにより編集コストd[r,1],d[r,2],・・・,d[r,C]が得られる。次に、これらの編集コストの中からその値が小さい上位N個d[r,c-1],d[r,c-2],・・・,d[r,c-N]を選択する。次に、認識結果音素列の先頭r+1音素と字幕変換音素列間の編集コストを計算する際、編集コストd[r,c-1],d[r,c-2],・・・,d[r,c-N]用いて計算可能なものについてのみ編集コストを計算する。ここで、計算可能な編集コストは、d[r+1,c-1],d[r+1,c-2],・・・,d[r+1,c-N]となり、d[r,1],d[r,2],・・・,d[r,c-0]の計算を省略することができる。以上の処理を認識結果音素列の先頭音素数を順次増やしながら繰り返し、編集コストd[R,C]まで計算する。

第６実施形態によれば、認識結果音素列と字幕変換音素列の組み合わせの内の一部の編集コストの計算を実行する必要がなくなり、少ない計算処理量でずれ幅を推定できる。

次に、本発明に係る字幕ずれ推定装置の第７実施形態について説明する。第７実施形態も、第１〜第５実施形態において、照合部23での編集コストの計算の過程を工夫してずれ幅推定の計算量を低減するものである。

照合部23で編集コストを計算する過程において、まず、認識結果音素列の先頭r音素と音素字幕変換音素列の先頭n音素(n=1〜C)とを照合し、それら間の編集コストを計算する。次に、編集コストの中からその値が最小のもの、および最小のものとの編集コストの差が予め定めた閾値内に収まるものを選択する。この選択方法が第６実施形態と異なる。

そして、認識結果音素列の先頭r+1音素と字幕変換音素列間の編集コストを計算する際に、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しない。以上の処理を繰り返し行い、認識結果音素列と字幕変換音素列間の編集コストを計算する。

第７実施形態によれば、認識結果音素列と字幕変換音素列の組み合わせの内の一部の編集コストの計算を実行する必要がなくなり、少ない計算処理量でずれ幅を推定できる。

次に、本発明に係る字幕ずれ推定装置の第８実施形態について説明する。第８実施形態も、第１〜第５の実施形態において、照合部23での編集コストの計算の過程を工夫してずれ幅推定の計算量を低減するものである。

照合部23で編集コストを計算する過程において、まず、認識結果音素列の先頭r音素と字幕変換音素列の先頭n音素(n=1〜C)とを照合し、それらの編集コストを計算する。次に、編集コストの中からその値が最小となる字幕変換音素列の先頭m音素を選択する。

そして、認識結果音素列の先頭r+1音素と字幕変換音素列間の編集コストを計算する際に、前記字幕変換音素列の先頭r+1音素と字幕変換音素列の先頭m-N音素(Nは一定の値)から先頭m+N音素との編集コストの中で、既に計算されている先頭r音素との編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しない。以上の処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算する。

図９は、第８実施形態における編集コスト計算過程を示す説明図である。同図では、認識結果音素列の先頭r音素と字幕変換音素列の先頭n音素(n=1〜C)とを照合したとき、認識結果音素列の先頭r音素と字幕変換音素列の先頭C-1からC-5までとの編集コストが計算されている場合を示している。ここで、認識結果音素列の先頭r音素と字幕変換音素列の先頭C-2音素との編集コストが最小であるとし、N=2(前後2音素)とすると、字幕変換音素列の先頭r+1音素と字幕変換音素列間の編集コストを計算する際に編集コスト計算の対象となるところは、字幕変換音素列の先頭C-0からC-4音素である。しかし、認識結果音素列の先頭r音素と字幕変換音素列C-0との編集コストは計算されていないので、実際に編集コストを計算するのは、字幕変換音素列の先頭r+1音素と字幕変換音素列C-1からC-4音素である。

第８実施形態によれば、認識結果音素列と字幕変換音素列の組み合わせの内の一部の編集コストの計算を実行する必要がなくなり、少ない計算処理量でずれ幅を推定できる。

以上、実施形態を説明したが、本発明は、上記実施形態に限られるものではない。また、本発明は、放送番組における特定映像部分や音声部分を検索して再生する再生装置としても実現できる。例えば、上記実施形態のいずれかの字幕ずれ推定装置により推定された音声と字幕間のずれ幅に従って音声および映像との時間的ずれが補正された字幕を保存しておき、この保存されている字幕内の文字を利用して、入力されたキーワードに合致する映像部分や音声部分を検索して再生できる。この場合、情報内容からみて、映像および音声と字幕間の時間的ずれは補正されているので、字幕内の文字から所望の映像部分や音声部分を正しく検索して再生できる。

本発明に係る字幕ずれ補正装置の基本構成を示すブロック図である。本発明に係る字幕ずれ推定装置の第１実施形態を示すブロック図である。認識部の構成例を示すブロック図である。言語モデルの例を示す図である。音声照合部での照合処理を示す模式図である。音素列生成部での字幕変換音素列の生成処理を示す模式図である。各字幕と音声間のずれ幅を示す説明図である。ずれ幅推定の計算処理量を低減させるための編集コスト計算過程の例を示す説明図である。ずれ幅推定の計算処理量を低減させるための編集コスト計算過程の他の例を示す説明図である。放送番組の出演者の発声と字幕の出力との時間関係を示す説明図である。

符号の説明

11・・・情報分離部、12・・・ずれ推定部、13・・・ずれ補正部、21・・・認識部、22・・・音素列生成部、23・・・照合部、31・・・音声検出部、32・・・音響分析部、33・・・音響モデル格納部、34・・・言語モデル格納部、35・・・音声照合部

Claims

放送番組中の音声を認識し、該音声に対応する認識結果音素列を生成する認識部と、
放送番組の映像中の各字幕に対応する音素列を生成するとともに、それらの音素列を連結して字幕変換音素列を生成する字幕変換音素列生成部と、
前記字幕変換音素列生成部からの字幕変換音素列を一塊りとして前記認識部からの認識結果音素列と照合し、音声と字幕間の時間的ずれ幅を推定する照合部を備えたことを特徴とする字幕ずれ推定装置。
前記照合部は、前記字幕変換音素列生成部からの字幕変換音素列と前記認識部からの認識結果音素列間の離間を表す編集コストを計算し、該編集コストが最小となる音素間の対応関係を求め、音声と字幕の時間的なずれ幅を推定することを特徴とする請求項１に記載の字幕ずれ推定装置。
前記編集コストは、音素の挿入、削除、置換によって一方の音素列から他方の音素列へ変換するのに要する手順の回数に応じたコストを指標として定義されることを特徴とする請求項２に記載の字幕ずれ推定装置。
前記編集コストは、音素ごとの音声認識性能を元に定められた、ある音素を他の音素に置換する際に要するコスト、ある音素を挿入する際に要するコスト、ある音素を削除する際に要するコストを指標として定義されることを特徴とする請求項２に記載の字幕ずれ推定装置。
前記字幕変換音素列生成部は、字幕の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集コストを計算することを特徴とする請求項３または４に記載の字幕ずれ推定装置。
前記字幕変換音素列生成部は、字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集コストを計算することを特徴とする請求項３または４に記載の字幕ずれ推定装置。
前記字幕変換音素列生成部は、字幕の切れ目と字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集コストを計算することを特徴とする請求項３または４に記載の字幕ずれ推定装置。
前記字幕変換音素列生成部は、文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記認識部は、無音が一定時間継続する箇所に無音を表す擬似音素を加えた認識結果音素列を生成し、前記照合部は、無音を表す擬似音素と文の切れ目を表す擬似音素間のコストを０または小さい値とし、無音を表す擬似音素と他の音素間のコストを他と比較して大きな値として編集コストを計算することを特徴とする請求項５ないし７のいずれかに記載の字幕ずれ推定装置。
前記照合部は、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C：Cは字幕変換音素列の全音素数)間の編集コストを計算し、該編集コストの中からその値が小さい上位N個を選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集コストを計算する際、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された上位N個の編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算することを特徴とする請求項１ないし８のいずれかに記載の字幕ずれ推定装置。
前記照合部は、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C：Cは字幕変換音素列の全音素数)間の編集コストを計算し、該編集コストの中からそれが最小のもの、および最小のものとの差が予め定めた閾値内に収まるものを選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集コストを計算する際、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算することを特徴とする請求項１ないし８のいずれかに記載の字幕ずれ推定装置。
前記照合部は、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C：Cは字幕変換音素列の全音素数)間の編集コストを計算し、該編集コストの中からその値が最小となる字幕変換音素列の先頭m音素を選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集コストを計算する際に、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列の先頭m-N音素(Nは一定の値)から先頭m+N音素との編集コストの中で、既に計算されている先頭r音素との編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算することを請求項１ないし８のいずれかに記載の字幕ずれ推定装置。
請求項１ないし１１のいずれかに記載された字幕ずれ推定装置と、
前記字幕ずれ推定装置により推定された音声と字幕との間の時間的ずれ幅に従って、放送番組における字幕と音声間の時間的ずれを補正するずれ補正手段を備えたことを特徴とする字幕ずれ補正装置。
請求項１ないし１１のいずれかに記載された字幕ずれ推定装置と、
前記字幕ずれ推定装置により推定された音声と字幕間の時間的ずれ幅に従って音声および映像との時間的ずれが補正された字幕を保存する字幕保存手段と、
入力されたキーワードに合致する部分の映像を、前記字幕保存手段に保存された字幕内の文字情報を元に検索する検索手段を備え、
前記検索手段により検索された部分の映像を再生することを特徴とする再生装置。
請求項１２に記載された字幕ずれ補正装置と、
前記字幕ずれ補正装置により時間的ずれが補正された音声、映像および字幕を放送番組として送信する送信手段を備えたことを特徴とする放送装置。