JP3873926B2 - 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム - Google Patents
字幕挿入方法、字幕挿入システム、および字幕挿入プログラム Download PDFInfo
- Publication number
- JP3873926B2 JP3873926B2 JP2003138458A JP2003138458A JP3873926B2 JP 3873926 B2 JP3873926 B2 JP 3873926B2 JP 2003138458 A JP2003138458 A JP 2003138458A JP 2003138458 A JP2003138458 A JP 2003138458A JP 3873926 B2 JP3873926 B2 JP 3873926B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- image
- speaker
- subtitle
- caption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Processing (AREA)
- Studio Circuits (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、映像情報に含まれる画像情報に、字幕を挿入する字幕挿入方法、字幕挿入システム、および字幕挿入プログラムに関する。
【0002】
【従来の技術】
映画や、テレビ放送等において、文字情報である字幕を、映像情報に挿入することが行われている。例えば、外国映画には、日本語の字幕が挿入される。また、日本語のテレビ放送には、聴覚障害者のために字幕が挿入されることがある。また、内容を強調する等のためにも、字幕が挿入されることがある。字幕の内容は、一般に、台本にもとづいて、または作業者がキーボードを用いてコンピュータ等に字幕の内容を入力することによって作成される。そして、作業者は、作成した字幕の内容を、画像フレームの所定の位置に挿入する操作を行う。
【0003】
作業者が、字幕を挿入する画像フレームを決定する作業は、視覚と聴覚とに神経を集中させて行うため、作業の負荷が重い。また、作業者のスキルも必要とされる。字幕は、映像における出演者が会話しているときに表示させるものであるので、音声と同期して字幕を表示させることが望ましい。また、例えば、2人の出演者が交互に話をしていて、映像に出演者の顔が交互に現れる場合には、視聴者の誤解を招かないように、話をしている出演者が映像に登場している時に字幕が表示されることが望ましい。作業者は、そのような同期を考慮して字幕を画像フレームに挿入する必要がある。
【0004】
字幕を画像フレームに自動的に挿入する方法として、音声情報にもとづいて音声認識処理を行ってテキスト情報を作成し、テキスト情報と文字情報である字幕原稿情報とが合致した場合に、合致した箇所の音声情報に対応する画像情報に、字幕原稿情報を挿入する方法がある(例えば、特許文献1参照。)。
【0005】
また、映像情報に字幕挿入する際に、被写体の動きに追従して字幕を挿入する方法がある(例えば、特許文献2参照)。
【0006】
【特許文献1】
特開2002−351490号公報 (第4−6頁)
【特許文献2】
特開平11−261890号公報 (第3−4頁)
【0007】
【発明が解決しようとする課題】
しかし、特許文献1に記載の方法は、画像情報と字幕原稿情報とを、音声情報のみを利用して対応させているので、音声情報に、雑音やBGM等が含まれている等の理由で音声認識が失敗した場合に、字幕原稿情報を映像情報に挿入することができない。
【0008】
また、特許文献2に記載の方法は、作業者が、字幕挿入位置の初期値を入力する。そのため、例えば外国映画等のように、挿入する字幕の量が多いと作業者への作業の負荷が重くなってしまう。
【0009】
そこで、本発明は、自動的に、字幕を挿入すべき位置に字幕を挿入することができる字幕挿入方法、字幕挿入システム、および字幕挿入プログラムを提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明による字幕挿入方法は、映像情報に含まれる音声情報に音声認識処理を行って、字幕に対応するせりふの音声情報における発生タイミングを検出し、映像情報に含まれる画像情報と、話者を特定する話者情報であって各せりふに対応づけられた話者情報と、話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者が画像に現れる出現タイミングを検出し、発生タイミングと出現タイミングとに基づいて、字幕を画像情報に挿入することを特徴とする。
【0011】
本発明による字幕挿入方法は、音声情報と画像情報とを含む映像情報における画像情報と、話者を特定する話者情報であって各せりふに対応づけられた話者情報と、話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者が画像情報による映像に現れる出現タイミングを検出し、出現タイミングに基づいて、せりふに対応する字幕を画像情報に挿入することを特徴とする。
【0012】
本発明による字幕挿入システムは、字幕の情報と、字幕の情報に含まれ、話者を特定する話者情報であって各せりふに対応づけられた話者情報とを記憶する字幕原稿記憶手段と、音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、字幕原稿記憶手段が記憶している字幕の情報に相当するせりふの音声情報における発生タイミングを検出する音声認識手段と、映像情報における画像情報と、話者情報と、話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者の顔画像の出現タイミングを検出する顔認識手段と、発生タイミングと出現タイミングとにもとづいて、字幕を画像情報に挿入する字幕挿入手段とを備えたことを特徴とする。
【0013】
本発明による字幕挿入システムは、字幕の情報、字幕に対応したせりふ、および話者を特定する話者情報であって各せりふに対応づけられた話者情報とを記憶する字幕原稿記憶手段と、音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、字幕原稿記憶手段が記憶しているせりふの音声情報における発生タイミングを検出する音声認識手段と、映像情報における画像情報と、話者情報と、話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者の顔画像の出現タイミングを検出する顔認識手段と、発生タイミングと出現タイミングとにもとづいて、せりふに対応した字幕を画像情報に挿入する字幕挿入手段とを備えたことを特徴とする。
【0014】
字幕挿入手段は、所定時間内に発生タイミングを示す情報と出現タイミングを示す情報との双方を入力したら、発生タイミングと出現タイミングとのうちのいずれかのタイミングに相当する時点の画像情報に、せりふに対応する字幕を挿入してもよい。そのような構成によれば、画像情報と音声情報とのいずれかにもとづいて字幕を画像情報に挿入するタイミングを決定することができる。
【0015】
画像情報は画像フレームで構成され、字幕挿入手段は、せりふが発声される期間に対応する音声情報に対応する画像情報を構成する画像フレームであって顔認識手段によってせりふの話者の顔画像が登場している画像フレームに字幕を挿入してもよい。そのような構成によれば、画像情報と、音声情報とにもとづいて字幕を画像情報に挿入する位置を決定するため、字幕を挿入すべき位置に字幕を挿入することができる。
【0016】
画像情報による画像のシーンが変わるタイミングであるカット位置を検出し、カット位置で画像情報を分割したシーンを生成するカット位置検出手段を備えてもよく、字幕挿入手段が字幕を挿入する画像フレームは、せりふの話者の顔画像が登場している画像フレームを含むシーンの画像フレームであって、せりふが発声される期間の先頭に最も近いシーンを構成する画像フレームであってもよい。そのような構成によれば、画像情報のシーンの区切りに合わせて画像フレームに字幕を挿入することができる。
【0017】
顔認識手段は、画像フレームにおける話者の顔の位置の情報である顔位置情報を生成して字幕挿入手段に出力してもよく、字幕挿入手段は、顔位置情報に基づいて、画像フレームにおける話者の顔の位置の近傍に字幕を挿入してもよい。そのような構成によれば、字幕を画面上の話者の近傍に表示させることができるため、視聴者の誤解を防ぐことができる。
【0018】
字幕挿入手段は、音声情報と、音声認識処理結果と、せりふと、話者情報との対応に基づいて、各時刻におけるせりふの話者を特定してもよく、特定した話者と、顔認識手段が特定した各時刻における画像情報に含まれる人物とを示した画像を生成し、字幕を挿入するタイミングの入力を受け付けてもよい。そのような構成によれば、字幕を画像情報に付与する作業を行う作業者の作業負担を軽減させることができる。
【0019】
本発明による字幕挿入プログラムは、映像情報に含まれる画像情報の画像フレームに、字幕を挿入する字幕挿入システムに搭載される字幕挿入プログラムであって、コンピュータに、字幕の情報と、字幕の情報に含まれ、話者を特定する話者情報であって各せりふに対応づけられた話者情報とを記憶媒体に記憶させる字幕原稿記憶処理と、音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、記憶媒体が記憶している字幕の情報に相当するせりふの音声情報における発生タイミングを検出する音声認識処理と、映像情報における画像情報と、話者情報と、話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者の顔画像の出現タイミングを検出する顔認識処理と、発生タイミングと出現タイミングとにもとづいて、字幕を画像情報に挿入する字幕挿入処理とを実行させることを特徴とする。
【0020】
本発明による字幕挿入プログラムは、映像情報に含まれる画像情報の画像フレームに、字幕を挿入する字幕挿入システムに搭載される字幕挿入プログラムであって、コンピュータに、字幕の情報、字幕に対応したせりふ、および話者を特定する話者情報であって各せりふに対応づけられた話者情報とを記憶媒体に記憶させる字幕原稿記憶処理と、音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、記憶媒体が記憶しているせりふの音声情報における発生タイミングを検出する音声認識処理と、映像情報における画像情報と、話者情報と、話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者の顔画像の出現タイミングを検出する顔認識処理と、発生タイミングと出現タイミングとにもとづいて、せりふに対応した字幕を画像情報に挿入する字幕挿入処理とを実行させることを特徴とする。
【0021】
字幕挿入処理は、所定時間内に発生タイミングを示す情報と出現タイミングを示す情報との双方を入力したら、発生タイミングと出現タイミングとのうちのいずれかのタイミングに相当する時点の画像情報に、せりふに対応する字幕を挿入してもよい。そのような構成によれば、画像情報と音声情報とのいずれかにもとづいて字幕を画像情報に挿入するタイミングを決定することができる。
【0022】
画像情報は画像フレームで構成され、字幕挿入処理は、せりふが発声される期間に対応する音声情報に対応する画像情報を構成する画像フレームであって顔認識処理によってせりふの話者の顔画像が登場している画像フレームに字幕を挿入してもよい。そのような構成によれば、画像情報と、音声情報とにもとづいて字幕を画像情報に挿入する位置を決定するため、字幕を挿入すべき位置に字幕を挿入することができる。
【0023】
コンピュータに、画像情報による画像のシーンが変わるタイミングであるカット位置を検出し、カット位置で画像情報を分割したシーンを生成するカット位置検出処理を実行させてもよく、字幕挿入処理が字幕を挿入する画像フレームは、せりふの話者の顔画像が登場している画像フレームを含むシーンの画像フレームであって、せりふが発声される期間の先頭に最も近いシーンを構成する画像フレームであってもよい。そのような構成によれば、画像情報のシーンの区切りに合わせて画像フレームに字幕を挿入することができる。
【0024】
顔認識処理は、画像フレームにおける話者の顔の位置の情報である顔位置情報を生成してもよく、字幕挿入処理は、顔位置情報に基づいて、画像フレームにおける話者の顔の位置の近傍に字幕を挿入してもよい。そのような構成によれば、字幕を画面上の話者の近傍に表示させることができるため、視聴者の誤解を防ぐことができる。
【0025】
字幕挿入処理は、音声情報と、音声認識処理結果と、せりふと、話者情報との対応に基づいて、各時刻におけるせりふの話者を特定してもよく、特定した話者と、顔認識手段が特定した各時刻における画像情報に含まれる人物とを示した画像を生成し、字幕を挿入するタイミングの入力を受け付けてもよい。そのような構成によれば、字幕を画像情報に付与する作業を行う作業者の作業負担を軽減させることができる。
【0026】
【発明の実施の形態】
実施の形態1.
図1は、本発明による字幕挿入システムの第1の実施の形態の構成を示すブロック図である。図1に示す字幕挿入システムは、ビデオテープ等の映像記録メディアが記憶している、画像情報と音声情報とを含む映像情報を入力する映像入力手段1と、映像入力手段1に入力された映像情報のうち、画像情報を入力するフレーム画像入力手段2と、映像入力手段1に入力された映像情報のうち、音声情報を入力する音声入力手段3と、映像に重畳して表示させる字幕の原稿を入力する字幕原稿入力手段4と、入力された字幕の原稿を記憶する字幕原稿記憶手段5と、音声情報に音声認識処理を行う音声認識手段6と、画像情報による画像に含まれている顔の画像が予め記憶されている顔の画像と一致するか否かを判定する顔認識処理を行う顔認識手段7と、画像情報による画像に含まれている可能性がある話者の顔の特徴の情報である顔認識情報を予め記憶する顔認識辞書8と、音声認識手段6の音声認識結果と顔認識手段7の話者認識結果とに基づいて、字幕を挿入する画像フレームを決定して、決定した画像フレームに字幕を挿入する字幕挿入手段9と、字幕が挿入された映像情報を出力する出力手段10とを含む。なお、図1に示すシステムは、コンピュータによって実現され、フレーム画像入力手段2、音声入力手段3、音声認識手段6、顔認識手段7および字幕挿入手段9は、記憶手段(図示せず。)に記憶されるプログラム(ソフトウェア)によって実現される。映像入力手段1および字幕原稿入力手段4は、コンピュータに接続された入力装置とソフトウェアとによって実現される。
【0027】
映像入力手段1は、映像記録メディアが記憶している映像情報を入力し、入力した映像情報から画像情報と音声情報とを抽出して、画像情報をフレーム画像入力手段2に出力し、音声情報を音声入力手段3に出力する。画像情報と音声情報とを抽出する処理は、映像情報から画像情報と音声情報とを抽出する一般的な映像処理アプリケーションによって実現可能である。フレーム画像入力手段2は、画像フレーム単位で画像情報を顔認識手段7に出力する。また、音声入力手段3は、音声情報を音声認識手段6出力する。
【0028】
また、映像入力手段1は、映像情報をフレーム画像入力手段2と音声入力手段3とのそれぞれに出力してもよい。その場合、フレーム画像入力手段2は、映像情報から画像情報を含むトラックのみを抽出する。そして、フレーム画像入力手段2は、顔認識手段7に、画像フレーム単位で画像情報を出力する。音声入力手段3は、映像情報から音声情報を含むトラックのみを抽出する。そして、音声入力手段3は、音声認識手段6に、抽出した音声情報を出力する。以下、映像入力手段1が映像情報をフレーム画像入力手段2と音声入力手段3とのそれぞれに出力する場合を例にする。
【0029】
図2は、字幕原稿記憶手段5の記憶内容の一例を示す説明図である。字幕原稿入力手段4は、例えばテキストファイルによって字幕原稿を入力する。字幕原稿には、せりふ番号、話者を特定する情報である話者情報、および映像に挿入される字幕(せりふ)を示す情報が含まれる。そして、字幕原稿入力手段4は、入力した情報を字幕原稿記憶手段5に記憶させる。なお、図2には、画面に映っている人物および備考の欄も記載されているが、それらは、字幕原稿に含まれていなくてよい。字幕原稿が紙による媒体に記載されている場合には、字幕原稿入力手段4に含まれるOCR装置等を用いて媒体に記載されている字幕原稿を電子化し、テキストファイルに変換して字幕原稿記憶手段5に入力する。字幕原稿入力手段4は、せりふを示す各情報すなわち図2に示された各せりふ番号に対応した各行の情報(以下、各行の情報を字幕情報という。)を、画像情報の時間軸に一致した順序で字幕原稿記憶手段5に記憶させる。
【0030】
音声認識手段6は、音声入力手段3が出力した音声情報に対して音声認識処理を行って音声認識処理の結果である音声認識結果テキストを生成する。音声認識手段6は、せりふと音声認識結果テキストとのマッチングを行い、せりふと音声情報とを時間軸上で対応付ける情報である音声一致タイミング情報を生成する。音声一致タイミング情報は、映像情報の先頭から計測したせりふを発声している時刻と、字幕情報におけるせりふとを対応付ける情報である。すなわち、音声一致タイミング情報は、せりふが発声されている時刻を特定する情報である。マッチング処理として、例えばDPマッチングの方法を用いることができる。なお、音声一致タイミング情報が示す時刻は、音声情報におけるせりふの発話開始時点の時刻であることが好ましい。
【0031】
顔認識手段7は、字幕原稿記憶手段5に記憶されている話者情報と、顔認識辞書8があらかじめ記憶している顔の特徴データとに基づいて、画像情報に、話者情報によって特定される話者が映像に存在しているか否かを判定する顔認識処理を行う。話者情報によって特定される話者が映像に存在していると判定すると、せりふと画像情報とを時間軸上で対応づける情報である顔一致タイミング情報を生成する。顔一致タイミング情報は、映像情報の先頭から計測した、話者が画像に出現した時刻を特定する情報である。
【0032】
字幕挿入手段9として、一般的なテロップや字幕の挿入装置を使用することができる。字幕挿入手段9は、音声一致タイミング情報と、顔一致タイミング情報とに基づいて、せりふを画像情報に挿入するタイミングを決定し、せりふを画像情報に挿入して出力手段10に出力する。
【0033】
出力手段10として、一般的なテロップ送信装置や字幕配信装置を使用することができる。出力手段10は、せりふが挿入された映像情報を放送機器に送信したり、記憶装置に記憶させたりする。
【0034】
次に、動作について説明する。図3は、この実施の形態の動作を説明するフローチャートである。なお、音声情報には、図2に示された字幕原稿情報に現れるせりふの順に、対応するせりふの発声が含まれているとする。
【0035】
字幕原稿入力手段4は、字幕原稿を入力すると、入力された字幕原稿を字幕原稿記憶手段5に記憶させる(ステップ100)。ここでは、字幕原稿は、あらかじめ電子化されたテキストファイルであるものとする。次いで、映像入力手段1は、映像情報の入力を開始する(ステップS101)。以後、映像情報が入力されると、映像入力手段1は、映像情報をフレーム画像入力手段2と音声入力手段3とに継続して出力する。また、音声認識手段6および顔認識手段7は、字幕原稿記憶手段5から、1つの字幕情報(図2における1行分の情報)を読み出す(ステップS102)。なお、字幕原稿記憶手段5からは、せりふ番号の順に、字幕情報が音声認識手段6および顔認識手段7に対して出力される。従って、最初は、せりふ番号1の字幕情報が出力される。また、字幕情報は、字幕挿入手段9にも出力される。
【0036】
音声入力手段3は、映像入力手段1が出力した映像情報から音声情報を順次抽出して音声認識手段6に出力する(ステップS103)。音声認識手段6は、音声情報が入力されると音声認識処理を行い音声認識処理の結果である音声認識結果テキストを生成する(ステップS104)。
【0037】
音声入力手段3が、「弘」という発声の情報を含む音声情報を、音声認識手段6に出力したとする。音声認識手段6は、「弘」という発声の情報を含む音声情報に音声認識処理を行って「弘」という音声認識結果テキストを生成する。また、音声認識手段6は、字幕原稿記憶手段5から入力した字幕情報に含まれるせりふと音声認識結果テキストとのマッチング処理を行い、せりふと音声認識結果テキストとが一致するか否かを判定する(ステップS105)。音声認識手段6は、「弘」という音声認識結果テキストと、図2のせりふ番号1の欄の「弘!」とが一致すると判定する。
【0038】
音声認識手段6は、せりふと音声認識結果テキストとが一致すると判定すると、音声一致タイミング情報を字幕挿入手段9に出力する(ステップS106)。すなわち、音声認識手段6は、映像情報の先頭から音声認識結果テキスト「弘」とせりふ「弘!」とが一致している時刻を特定する情報を字幕挿入手段9に出力する。
【0039】
フレーム画像入力手段2は、映像入力手段1が出力した映像情報から画像情報を抽出して顔認識手段7に出力する(ステップS107)。顔認識手段7は、フレーム画像入力手段2が出力した画像情報の画像フレームに顔検出処理を行って(ステップS108)、画像フレームに含まれている顔の画像を検出する。そして、顔認識手段7は、字幕情報における話者情報で特定される人物の顔の特徴の情報を顔認識辞書8から読み出し、検出した顔の画像の特徴が、顔認識辞書8から読み出した特徴と一致するか否か判定する(ステップS109)。一致すると判定した場合には、顔認識手段7は、顔一致タイミング情報を生成する。そして、顔一致タイミング情報を、字幕挿入手段9に出力する(ステップS111)。
【0040】
字幕挿入手段9には、映像入力手段1から映像情報が入力される。なお、字幕挿入手段9の処理を容易にするために、字幕挿入手段9に供給される映像情報を、フレーム画像入力手段1および音声入力手段3に入力される映像情報に対して遅延させるようにしてもよい。字幕挿入手段9は、音声一致タイミング情報と顔一致タイミング情報との双方が入力されると、例えば音声一致タイミング情報が示す時刻を、せりふを画像情報に挿入するタイミングと決定し、決定したタイミング以降の所定数の画像フレームにせりふを挿入し(ステップS112)、出力手段10に出力する(ステップS113)。所定数の画像フレームとは、例えば、「弘」という発声がなされるのに必要な時間分の画像フレームである。字幕挿入手段9は、例えば字幕原稿記憶手段5から入力した字幕情報におけるせりふの長さに応じた時間分の画像フレームにせりふを挿入する。すなわち、字幕挿入手段9は、せりふが発声される期間に対応する音声情報に対応する画像情報を構成する画像フレームであって顔認識手段によってせりふの話者の顔画像が登場している画像フレームに字幕を挿入する。なお、せりふを挿入すべき期間は、他の方法によって決定されてもよい。
【0041】
また、字幕挿入手段9は、顔一致タイミング情報が示す時刻を、せりふを画像情報に挿入するタイミングと決定してもよい。さらに、字幕挿入手段9は、音声一致タイミング情報が出力された後、所定の時間(例えば、1秒)が経過しても顔一致タイミング情報が入力されない場合には、音声一致タイミングに基づいたタイミングで、せりふを画像情報に挿入してもよい。
【0042】
また、字幕挿入手段9は、所定時間(例えば、1秒)内にせりふの音声情報における発生時点を示す情報と話者の画像における出現時点を示す情報との双方を入力したら、前記発生時点(音声一致タイミング情報が示す時刻に相当)と前記出現時点とのうちのいずれかの時点の画像情報に、せりふに対応する字幕を挿入し、所定時間が経過した場合に、せりふの音声情報における発生時点を示す情報と話者の画像における出現時点を示す情報とのうちのいずれかを入力していたら、入力している方の情報に従って、画像情報に字幕を挿入するようにしてもよい。
【0043】
映像情報が終了していない場合には(ステップS114)、音声認識手段6および顔認識手段7は、字幕原稿記憶手段5から、次の字幕情報(図2における1行分の情報)を読み出す(ステップS102)。すなわち、せりふ番号2の字幕情報が読み出される。この段階で、画像情報による画像に含まれる人物は父であるとする(図2参照)。
【0044】
次に、音声入力手段3は、「うん」という発声の情報を含む音声情報を、音声認識手段6に出力したとする。音声認識手段6は、「うん」という発声の情報を含む音声情報に音声認識処理を行って、「うん」という音声認識結果テキストを生成する。そして、音声認識手段6は、「うん」という音声認識結果テキストと、図2のせりふ番号2の欄の「うん」とが一致すると判定する。よって、音声認識手段6は、音声一致タイミング情報を字幕挿入手段9に出力する。
【0045】
この時点で、フレーム画像入力手段2は、父が映っている画像フレームの画像情報を顔認識手段7に出力しているとする(図2参照)。顔認識手段7は、せりふ番号2の字幕情報における話者情報に対応した顔の画像(ここでは、「弘」の顔の画像)を検出しようとするが、その画像を検出できない。よって、顔認識手段7は、顔一致タイミング情報を字幕挿入手段9に出力しない。
【0046】
ここで、顔一致タイミング情報が入力されなかった場合の字幕挿入手段9の動作として、2種類の動作を例示する。1つ目は、せりふ番号2に対応するせりふを画像情報に挿入しないという動作である。顔一致タイミング情報が入力されなかったということは、せりふの話者が画面に現れなかったことを意味する。そして、画面に現れなかった話者のせりふは重要ではないと判断できるため、そのような重要でないせりふを字幕にして画像情報に挿入しない。
【0047】
2つ目は、音声一致タイミング情報のタイミングに基づいてせりふを画像情報に挿入するという動作である。すると、せりふの重要性に関わらずにせりふとして用意している情報を全て画像情報に挿入できるので、全体の情報量を増加させることができる。
【0048】
せりふ番号3「ここへ座りなさい」に関して、せりふ番号1に対する処理と同様な処理が行われるので、説明を省略する。せりふ番号4「何か用?」ついては、弘のせりふであって、画面に映っているのも弘なので、弘が画面に映っている時刻でせりふ番号4「何か用?」が画像情報に挿入される。
【0049】
せりふ番号5〜せりふ番号7は、画面の左側に父が写り、画面の右側に弘が写っている場面のせりふである。そのため、顔認識手段7は、両者の顔を認識し、両者の顔に対する顔一致タイミング情報を字幕挿入手段9に順次出力する。また、音声認識手段6は、せりふ番号5〜せりふ番号7のそれぞれが発声されるごとに音声認識処理を行う。そして、音声一致タイミング情報を字幕挿入手段9に出力する。字幕挿入手段9は、音声一致タイミング情報に基づいたタイミングで、画面の所定の位置に字幕を挿入する。
【0050】
また、顔認識手段7が、顔の画像を検出したときに画像上の顔の位置を特定した情報である顔位置情報を生成して字幕挿入手段9に出力してもよい。そして、字幕挿入手段9は、顔位置情報に基づいて、父のせりふを画面の左側に表示し、弘のせりふを画面の右側に表示させてもよい。そのような構成によれば、話者の位置と、字幕の位置とが一致するため、視聴者の理解を助けることができる。
【0051】
せりふ番号8については、弘が話者で、画像情報の画像フレームにも弘が写っているので、せりふ番号4と同様に、せりふ番号8が画像情報に挿入される。
【0052】
以上に説明したように、第1の実施の形態によれば、音声認識結果と画像認識結果とに基づいて、自動的に字幕を画像情報に挿入することができる。
【0053】
実施の形態2.
図4は、本発明の第2の実施の形態の一構成例を示すブロック図である。第1の実施の形態との違いは、第1の実施の形態の字幕原稿記憶手段5の代わりに、台本字幕原稿記憶手段11が含まれていることである。そのため、第1の実施の形態と同様の手段については図1と同じ符号を付し、説明を省略する。台本字幕原稿記憶手段11は、字幕の情報、字幕に対応したせりふ、およびせりふの話者を示す情報とを記憶する字幕原稿記憶手段に相当する。台本字幕原稿記憶手段11には、図5に示すような、せりふ番号、話者情報、せりふおよび字幕を含む情報が記憶される。なお、台本字幕原稿記憶手段11に記憶されるものを台本字幕原稿といい、台本字幕原稿における1行分のせりふ番号、話者情報、せりふおよび字幕を含む情報を字幕情報という。また、ここでは、せりふは外国語(ドイツ語)であり、字幕は日本語であるとする。
【0054】
第1の実施の形態の場合と同様に、音声認識手段6は、台本字幕原稿記憶手段11が記憶しているせりふと音声認識結果テキストとのマッチングを行い、音声一致タイミング情報を生成する。そして、音声一致タイミング情報を字幕挿入手段9に出力する。
【0055】
せりふ番号1からせりふ番号3に対応したせりふが音声情報に含まれる間、二人の登場人物(SuzanneとHans)が画像情報に含まれ、せりふ4に対応したせりふが音声情報に含まれるときには、Hansのみが画像情報に含まれているとする(図5参照)。
【0056】
せりふ番号1が発声され、音声入力手段3が「Guten Morgen」の発生の情報を含む音声情報を音声認識手段6に入力すると、音声認識手段6は、音声認識処理を行って音声認識結果テキスト「Guten Morgen」を生成する。また、音声認識手段6は、台本字幕原稿記憶手段11が記憶しているせりふを順次読み込み、せりふと音声認識結果テキストとが一致するか否かを判定する。まず、音声認識結果テキスト「Guten Morgen」とせりふ番号1のせりふ「Guten Morgen!」とが一致するか否かを判定する。一致すると判定すると、音声認識手段6は、音声一致タイミング情報を字幕挿入手段9に出力する。
【0057】
フレーム画像入力手段2は、SuzanneとHansとが映っている画像フレームの画像情報を顔認識手段7に出力する。顔認識手段7は、まず、せりふ番号1の字幕情報に含まれる話者情報に基づいて、Suzanneの顔の特徴データを顔認識辞書8から抽出する。顔認識手段7は、SuzanneとHansとが映っている画像フレームについて顔検出処理を行い、顔認識辞書8から抽出した顔の特徴データに基づいてSuzanneの顔が写っていることを検出できる。よって、顔認識手段7は、顔一致タイミング情報を字幕挿入手段9に出力する。
【0058】
字幕挿入手段9は、台本字幕原稿記憶手段11から字幕情報を入力している。そして、第1の実施の形態と同様に、音声一致タイミング情報と顔一致タイミング情報とに基づいて字幕を画像情報に挿入する位置を決定し、字幕を映像情報に挿入する。この場合には、日本語に字幕である「おはよう」が挿入される。
【0059】
この実施の形態でも、顔認識手段7が、顔を検出したときに画像フレーム中の顔の位置を特定した情報である顔位置情報を生成して字幕挿入手段9に出力してもよい。そして、字幕挿入手段9は、顔位置情報に基づいて、Suzanneのせりふを画面の左側に表示する。そうすると、話者の位置と、字幕が表示される位置とが一致するため、映像を見る人の理解を助けることができる。
【0060】
せりふ番号2のせりふ「Guten Morgen!」は、重要なせりふではないので、対応する字幕が設定されていない。そのような場合は、字幕挿入手段9は、せりふ番号2のせりふ「Guten Morgen!」を映像情報に挿入してもよい。また、音声認識手段6および顔認識手段7が、字幕の情報が字幕情報に存在しない場合には、音声認識処理および顔認識処理を行わないようにしてよい。
【0061】
せりふ番号3については、せりふ番号1の場合と同様に、話者がSuzanneで、画像情報に含まれている人物もSuzanneとHansなので、せりふ番号1の場合と同様な処理が行われる。せりふ番号4については、話者がHansで、画像情報に含まれている人物もHansなので、Hansの音声が認識され画像情報に挿入する字幕が特定され、Hansの顔が認識されたタイミングで字幕が映像情報に挿入される。
【0062】
以上のように、第2の実施の形態によれば、外国語の音声情報に対する日本語の字幕のように、実際に発声された言葉と異なっている言葉を字幕として挿入することができる。なお、外国語の音声情報の場合だけでなく、音声情報による発話と字幕の内容とが異なる場合に、第2の実施の形態を適用することができる。
【0063】
実施の形態3.
図6は、本発明による字幕挿入システムの第3の実施の形態の構成を示すブロック図である。第1の実施の形態との違いは、第1の実施の形態の映像入力手段1の代わりに映像記憶手段12を含むことと、フレーム画像入力手段2の代わりにカット検出手段13を含むことと、音声入力手段3の代わりに音声読出手段14を含むことである。そのため、第1の実施の形態における手段と同様の手段については図1と同じ符号を付し、説明を省略する。
【0064】
映像記憶手段12は、例えばAVIファイル等の映像情報が入力されると、映像情報を画像情報と音声情報とに分割して記憶する。映像情報を画像情報と音声情報とに分割する方法として、第1の実施の形態の場合と同様、既知の映像処理アプリケーションを使用することができる。カット検出手段13は、映像記憶手段12から画像情報を読み出して、画像情報による画像の場面が変わるタイミングであるカット位置を検出する。カット位置は、例えば、連続する画像情報の画像フレームのうち、色分布が大きく変化するタイミング、例えば変化量が所定のしきい値よりも大きくなるタイミングである。以下、カット位置とカット位置とに挟まれた画像情報を、シーンと呼ぶ。音声読出手段14は、映像記憶手段12から音声情報を読み出して音声認識手段6に出力する。字幕挿入手段9は、カット検出手段13が検出したカット位置と、顔認識手段7が入力した画像情報とから、せりふが発声された時刻に最も近く、画像情報が話者を含むシーンの画像フレームに、字幕原稿記憶手段5が記憶しているせりふを挿入して出力手段10に出力する。カット検出手段13が行う処理と、音声読出手段14が行う処理とは、時間的に連続して行うリアルタイム処理であってもよいし、各手段の処理能力に応じて、例えば1せりふ毎のように、一定量毎に映像記憶手段12から情報を取り出すような処理であってもよい。
【0065】
次に、動作について図面を参照して説明する。ここでも、図2に示された例を用いる。映像記憶手段12は、映像情報が入力されると、映像情報を画像情報と音声情報とに分割して記憶する。
【0066】
字幕原稿入力手段4は、第1の実施の形態の場合と同様に、字幕原稿を入力して字幕原稿記憶手段5に記憶させる。ここで、字幕原稿は、あらかじめ電子化されたテキストファイルであるものとする。
【0067】
音声読出手段14は、映像記憶手段12が記憶している音声情報を音声認識手段6に出力する。例えば、音声入力手段3は、父の発声による「弘」という発生の情報を含む音声情報を音声認識手段6に出力する。
【0068】
音声認識手段6は、第1の実施の形態の場合と同様に、「弘」という発生の情報を含む音声情報に対して音声認識処理を行って、「弘」という音声認識結果テキストを生成する。また、音声認識手段6は、第1の実施の形態の場合と同様に、字幕原稿記憶手段5が記憶しているせりふを読み込み、せりふと音声認識結果テキストとのマッチング処理を行い、せりふと音声認識結果テキストとが一致するか否かを判定する。音声認識手段6は、「弘」という音声認識結果テキストと、図2のせりふ番号1の欄の「弘!」とが一致すると判定する。
【0069】
音声認識手段6は、せりふと音声認識結果テキストとが一致すると判断すると、音声一致タイミング情報を字幕挿入手段9に出力する。すなわち、音声認識手段6は、音声認識結果テキスト「弘」とせりふ「弘!」とが一致している時刻の情報を字幕挿入手段9に出力する。
【0070】
カット検出手段13は、映像記憶手段12が記憶している画像情報を顔認識手段7に出力する。カット検出手段13が、父が映っている画像フレームの画像情報を、顔認識手段7に出力したとする。また、カット検出手段13は、カット位置を検出してカット位置を特定する情報を顔認識手段7に出力する。
【0071】
顔認識手段7は、第1の実施の形態の場合と同様な処理を行って、画像情報に含まれている顔が父の顔であると判定し、画像情報に含まれている顔が父の顔であると判定した時刻の情報(顔一致タイミング情報)と、カット位置を特定する情報とを字幕挿入手段9に出力する。
【0072】
字幕挿入手段9は、カット位置を特定する情報に基づいて、音声一致タイミング情報および顔一致タイミング情報に基づいたタイミングの時刻を含むシーンであって、音声情報における「弘」の発話開始時点に最も近いシーンを構成する各画像フレームに、せりふ「弘!」を挿入して出力手段10に出力する。
【0073】
第3の実施の形態によれば、画像情報のシーンの区切りに合わせて画像情報の画像フレームにせりふを挿入することができる。
【0074】
実施の形態4.
図7は、本発明による字幕挿入システムの第4の実施の形態の構成を示すブロック図である。第3の実施の形態との違いは、第3の実施の形態における字幕原稿記憶手段5の代わりに台本字幕原稿蓄積手段15が含まれることである。そのため、第3の実施の形態と同様の手段については図6と同じ符号を付し、説明を省略する。
【0075】
台本字幕原稿蓄積手段15は、図5に示すような、せりふ番号、話者情報、せりふおよび字幕を含む情報を記憶したとする。すなわち、第2の実施の形態の場合と同様に、字幕原稿入力手段4は、台本字幕原稿が入力されると、台本字幕原稿蓄積手段15に記憶させる。台本字幕原稿蓄積手段15は、あらかじめ複数の映像情報に関する台本字幕原稿を記憶していてもよい。音声認識手段6は、第2の実施の形態の場合と同様に、台本字幕原稿蓄積手段15が記憶しているせりふと音声認識結果テキストとのマッチング処理を行い、音声一致タイミング情報を生成する。そして、音声一致タイミング情報を字幕挿入手段9に出力する。
【0076】
映像記憶手段12は、映像情報が入力されると、映像情報を画像情報と音声情報とに分割して記憶する。そして、音声読出手段14は、映像記憶手段12が記憶している音声情報を音声認識手段6に出力する。音声読出手段14は、Suzanneによる「Guten Morgen」という発声の情報を含む音声情報を音声認識手段6に出力する。
【0077】
音声認識手段6は、「Guten Morgen」という発声の情報を含む音声情報に対して音声認識処理を行って、「Guten Morgen」という音声認識結果テキストを生成する。また、音声認識手段6は、第2の実施の形態の場合と同様に、台本字幕原稿蓄積手段15が記憶しているせりふを読み込み、せりふと音声認識結果テキストとのマッチング処理を行い、せりふと音声認識結果テキストとが一致するか否かを判定する。音声認識手段6は、「Guten Morgen」という音声認識結果テキストと、図5のせりふ番号1の欄のせりふ「Guten Morgen!」とが一致すると判定する。
【0078】
音声認識手段6は、せりふと音声認識結果テキストとが一致すると判断すると、音声一致タイミング情報を字幕挿入手段9に出力する。すなわち、音声認識手段6は、映像情報の先頭から音声認識結果テキスト「Guten Morgen」とせりふ「Guten Morgen!」とが一致するまでの時間の情報を字幕挿入手段9に出力する。
【0079】
カット検出手段13は、第3の実施の形態の場合と同様に、映像記憶手段12が記憶している画像情報を顔認識手段7に出力する。カット検出手段13は、SuzanneとHansとが映っている画像フレームの画像情報を、顔認識手段7に出力する。また、カット検出手段13は、カット位置を検出してカット位置を特定する情報を顔認識手段7に出力する。
【0080】
顔認識手段7は、第3の実施の形態と同様な処理を行って、画像情報にSuzanneの顔が含まれていると判定する。そして、顔認識手段7は、画像情報に含まれている顔がSuzanneの顔であると判定した時刻の情報(顔一致タイミング情報)と、カット位置を特定する情報とを字幕挿入手段9に出力する。
【0081】
字幕挿入手段9は、カット位置を特定する情報に基づいて、音声一致タイミング情報および顔一致タイミング情報が示す時刻を含むシーンであって、「Guten Morgen」の発話開始時点に最も近いシーンを構成する各画像フレームに、字幕「おはよう」を画像情報に挿入し、出力手段10に出力する。
【0082】
第4の実施の形態によれば、画像情報の画像フレームに、画像情報のシーンの区切りに合わせて、実際に発声された言葉と異なっている言葉を字幕として挿入することができる。
【0083】
上記の各実施の形態は、音声認識技術と顔認識技術とが利用されているが、それらの認識技術は、必ずしも100%の認識率を持たない。しかし、その場合でも、図8に示すインタフェースにより、従来のすべてを人手で行なう字幕挿入に比べて省力化を図ることが可能である。図8は、インタフェースの一実現例を示す模式図である。本発明の各実施の形態が、コンピュータによって実現される場合、コンピュータのCPUは、図8に示すインタフェースの画面をコンピュータの表示装置に表示させる。
【0084】
第3の実施の形態において、図8に示す画像を表示装置に表示させる場合について説明する。CPUは、映像入力手段1に入力された映像情報と、カット検出手段13が検出したカット位置とを表示装置に模式的に表示させる。ここで、カット検出手段13は、図2に示すせりふ番号の単位でカット位置を検出したものとする。すると、図8に示すインタフェースの画像の映像情報の欄に示すように、映像情報を模式的に表すことができる。
【0085】
また、音声認識手段6は、音声認識結果テキストと字幕原稿記憶手段5が記憶しているせりふと話者情報とに基づいて、音声情報が誰の発声によるものかを特定する。そして、例えば、図8に示す画像の音声認識の欄のように、話者の氏名や記号等を用いて人物を特定し、話者を特定できる程度に模式的に表示させる。このときの表示位置は、映像情報の欄のカット位置の表示位置に対応した位置である。すると、図8に示す画像の音声認識の欄に示すように、話者を模式的に表すことができる。
【0086】
顔認識手段7は、顔認識辞書8が記憶している顔の特徴データと、字幕原稿記憶手段5が記憶している話者情報とに基づいて、せりふを発声している人物を特定する。そして、例えば、図8に示す顔認識の欄のように、氏名や記号等を用いて人物を特定し、映像情報に含まれている人物を特定できる程度に模式的に表示させる。このときの表示位置は、映像情報の欄のカット位置の表示位置に対応した位置である。すると、図8に示す画像の顔認識の欄に示すように、話者を模式的に表すことができる。
【0087】
CPUは、字幕原稿記憶手段5が記憶しているせりふ、または字幕の各シーンへの割り当てを受け付ける。具体的には、作業者がキーボードやマウス等を操作して、図8に示すインタフェースの画像上で、せりふ、または字幕を各シーンに割り当てる。ここで、最初の字幕である字幕1がシーン1に割り当てられているものとする。そして、次に割り当てられるべき字幕である字幕2は、人物Aの「おはようございます。」というせりふであるものとする。
【0088】
作業者は、字幕2は人物Aのせりふであることから、音声認識結果と顔認識結果とが人物Aであるシーン3に字幕2を割り当てて、シーン3の映像情報を確認する。このとき、表示装置にシーン3の画像情報を表示させてもよいし、音声情報をコンピュータのスピーカから出力させてもよい。確認の結果、字幕2がシーン3に対する字幕であれば、次の字幕である字幕3の割り当てを行う。字幕2がシーン3に対する字幕でなければ、シーン2で人物Aの音声認識が失敗している可能性があるので、字幕2のシーン2への割り当てを試み、シーン2の映像情報を確認する。
【0089】
このように、映像のシーンが分割され、音声認識や顔認識によって人物の一致がとられていることにより、作業者は、映像全体を調べる手間を省くことができ、作業の効率化が実現される。
【0090】
なお、以上に述べた各実施の形態では、せりふまたは字幕を挿入する画像フレームを、音声認識結果と顔認識結果とに基づいて決定していたが、せりふまたは字幕を挿入する画像フレームを音声認識結果に基づいて決定してもよい。そのような構成によれば、顔認識に失敗した場合でも、せりふまたは字幕の挿入位置を音声認識結果に基づいて決定することができる。同様に、せりふまたは字幕を挿入する画像フレームを顔認識結果に基づいて決定してもよい。そのような構成によれば、ノイズやBGM等の影響で音声認識に失敗した場合でも、せりふまたは字幕の挿入位置を顔認識結果に基づいて決定することができる。
【0091】
【発明の効果】
以上のように、本発明によれば、映像情報への字幕の挿入を自動的に行うことができる。そのため、従来は人手によって行われていた映像情報への字幕の挿入を、省力化することができる。
【図面の簡単な説明】
【図1】 本発明による字幕挿入システムの第1の実施の形態の構成を示すブロック図である。
【図2】 字幕原稿記憶手段の記憶内容の一例を示す説明図である。
【図3】 字幕挿入システムの動作を説明するフローチャートである。
【図4】 本発明による字幕挿入システムの第2の実施の形態の構成を示すブロック図である。
【図5】 台本字幕原稿記憶手段の記憶内容の一例を示す説明図である。
【図6】 本発明による字幕挿入システムの第3の実施の形態の構成を示すブロック図である。
【図7】 本発明による字幕挿入システムの第4の実施の形態の構成を示すブロック図である。
【図8】 本発明による字幕挿入システムの出力画像の一例を示す説明図である。
【符号の説明】
1 映像入力手段
2 フレーム画像入力手段
3 音声入力手段
4 字幕原稿入力手段
5 字幕原稿記憶手段
6 音声認識手段
7 顔認識手段
8 顔認識辞書
9 字幕挿入手段
10 出力手段
11 台本字幕原稿記憶手段
12 映像記憶手段
13 カット検出手段
14 音声読出手段
15 台本字幕原稿蓄積手段
Claims (16)
- 映像情報に含まれる音声情報に音声認識処理を行って、字幕に対応するせりふの前記音声情報における発生タイミングを検出し、
映像情報に含まれる画像情報と、話者を特定する話者情報であって各せりふに対応づけられた話者情報と、前記話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者が画像に現れる出現タイミングを検出し、
前記発生タイミングと前記出現タイミングとに基づいて字幕を画像情報に挿入する
ことを特徴とする字幕挿入方法。 - 音声情報と画像情報とを含む映像情報における画像情報と、話者を特定する話者情報であって各せりふに対応づけられた話者情報と、前記話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者が画像に現れる出現タイミングを検出し、
前記出現タイミングに基づいて、前記せりふに対応する字幕を画像情報に挿入する
ことを特徴とする字幕挿入方法。 - 字幕の情報と、字幕の情報に含まれ、話者を特定する話者情報であって各せりふに対応づけられた話者情報とを記憶する字幕原稿記憶手段と、
音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、前記字幕原稿記憶手段が記憶している字幕の情報に相当するせりふの前記音声情報における発生タイミングを検出する音声認識手段と、
映像情報における画像情報と、前記話者情報と、前記話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者の顔画像の出現タイミングを検出する顔認識手段と、
前記発生タイミングと前記出現タイミングとにもとづいて、字幕を画像情報に挿入する字幕挿入手段と
を備えたことを特徴とする字幕挿入システム。 - 字幕の情報、字幕に対応したせりふ、および話者を特定する話者情報であって各せりふに対応づけられた話者情報とを記憶する字幕原稿記憶手段と、
音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、前記字幕原稿記憶手段が記憶しているせりふの前記音声情報における発生タイミングを検出する音声認識手段と、
映像情報における画像情報と、前記話者情報と、前記話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者の顔画像の出現タイミングを検出する顔認識手段と、
前記発生タイミングと前記出現タイミングとにもとづいて、せりふに対応した字幕を画像情報に挿入する字幕挿入手段と
を備えたことを特徴とする字幕挿入システム。 - 字幕挿入手段は、所定時間内に発生タイミングを示す情報と出現タイミングを示す情報との双方を入力したら、前記発生タイミングと前記出現タイミングとのうちのいずれかのタイミングに相当する時点の画像情報に、せりふに対応する字幕を挿入する
請求項3または請求項4記載の字幕挿入システム。 - 画像情報は画像フレームで構成され、
字幕挿入手段は、せりふが発声される期間に対応する音声情報に対応する画像情報を構成する画像フレームであって顔認識手段によってせりふの話者の顔画像が登場している画像フレームに字幕を挿入する
請求項3から請求項5のうちのいずれか1項に記載の字幕挿入システム。 - 画像情報による画像のシーンが変わるタイミングであるカット位置を検出し、カット位置で画像情報を分割したシーンを生成するカット位置検出手段を備え、
字幕挿入手段が字幕を挿入する画像フレームは、せりふの話者の顔画像が登場している画像フレームを含むシーンの画像フレームであって、せりふが発声される期間の先頭に最も近いシーンを構成する画像フレームである
請求項6に記載の字幕挿入システム。 - 顔認識手段は、画像フレームにおける話者の顔の位置の情報である顔位置情報を生成して字幕挿入手段に出力し、
字幕挿入手段は、顔位置情報に基づいて、画像フレームにおける話者の顔の位置の近傍に字幕を挿入する
請求項5から請求項7のうちいずれか1項に記載の字幕挿入システム。 - 字幕挿入手段は、音声情報と、音声認識処理結果と、せりふと、話者情報との対応に基づいて、各時刻におけるせりふの話者を特定し、前記特定した話者と、顔認識手段が特定した各時刻における画像情報に含まれる人物とを示した画像を生成し、字幕を挿入するタイミングの入力を受け付ける
請求項5から請求項8のうちいずれか1項に記載の字幕挿入システム。 - 映像情報に含まれる画像情報の画像フレームに、字幕を挿入する字幕挿入システムに搭載される字幕挿入プログラムであって、
コンピュータに、
字幕の情報と、字幕の情報に含まれ、話者を特定する話者情報であって各せりふに対応づけられた話者情報とを記憶媒体に記憶させる字幕原稿記憶処理と、
音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、前記記憶媒体が記憶している字幕の情報に相当するせりふの前記音声情報における発生タイミングを検出する音声認識処理と、
映像情報における画像情報と、前記話者情報と、前記話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者の顔画像の出現タイミングを検出する顔認識処理と、
前記発生タイミングと前記出現タイミングとにもとづいて、字幕を画像情報に挿入する字幕挿入処理と
を実行させることを特徴とする字幕挿入プログラム。 - 映像情報に含まれる画像情報の画像フレームに、字幕を挿入する字幕挿入システムに搭載される字幕挿入プログラムであって、
コンピュータに、
字幕の情報、字幕に対応したせりふ、および話者を特定する話者情報であって各せりふに対応づけられた話者情報とを記憶媒体に記憶させる字幕原稿記憶処理と、
音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、前記記憶媒体が記憶しているせりふの前記音声情報における発生タイミングを検出する音声認識処理と、
映像情報における画像情報と、前記話者情報と、前記話者の顔の特徴データとに基づいて、せりふに対応づけられた話者情報によって特定される話者の顔画像の出現タイミングを検出する顔認識処理と、
前記発生タイミングと前記出現タイミングとにもとづいて、せりふに対応した字幕を画像情報に挿入する字幕挿入処理と
を実行させることを特徴とする字幕挿入プログラム。 - 字幕挿入処理は、所定時間内に発生タイミングを示す情報と出現タイミングを示す情報との双方を入力したら、前記発生タイミングと前記出現タイミングとのうちのいずれかのタイミングに相当する時点の画像情報に、せりふに対応する字幕を挿入する
請求項10または請求項11に記載の字幕挿入プログラム。 - 画像情報は画像フレームで構成され、
字幕挿入処理は、せりふが発声される期間に対応する音声情報に対応する画像情報を構成する画像フレームであって顔認識処理によってせりふの話者の顔画像が登場している画像フレームに字幕を挿入する
請求項10から請求項12のうちのいずれか1項に記載の字幕挿入プログラム。 - コンピュータに、
画像情報による画像のシーンが変わるタイミングであるカット位置を検出し、カット位置で画像情報を分割したシーンを生成するカット位置検出処理を実行させ、
字幕挿入処理が字幕を挿入する画像フレームは、せりふの話者の顔画像が登場している画像フレームを含むシーンの画像フレームであって、せりふが発声される期間の先頭に最も近いシーンを構成する画像フレームである
請求項13に記載の字幕挿入プログラム。 - 顔認識処理は、画像フレームにおける話者の顔の位置の情報である顔位置情報を生成し、
字幕挿入処理は、顔位置情報に基づいて、画像フレームにおける話者の顔の位置の近傍に字幕を挿入する
請求項10から請求項14のうちいずれか1項に記載の字幕挿入プログラム。 - 字幕挿入処理は、音声情報と、音声認識処理結果と、せりふと、話者情報との対応に基づいて、各時刻におけるせりふの話者を特定し、前記特定した話者と、顔認識手段が特定した各時刻における画像情報に含まれる人物とを示した画像を生成し、字幕を挿入するタイミングの入力を受け付ける
請求項10から請求項15のうちいずれか1項に記載の字幕挿入プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003138458A JP3873926B2 (ja) | 2003-05-16 | 2003-05-16 | 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003138458A JP3873926B2 (ja) | 2003-05-16 | 2003-05-16 | 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004343488A JP2004343488A (ja) | 2004-12-02 |
JP3873926B2 true JP3873926B2 (ja) | 2007-01-31 |
Family
ID=33527827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003138458A Expired - Fee Related JP3873926B2 (ja) | 2003-05-16 | 2003-05-16 | 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3873926B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109963092A (zh) * | 2017-12-26 | 2019-07-02 | 深圳市优必选科技有限公司 | 一种字幕的处理方法、装置及终端 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4599244B2 (ja) * | 2005-07-13 | 2010-12-15 | キヤノン株式会社 | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
JP2007101945A (ja) * | 2005-10-05 | 2007-04-19 | Fujifilm Corp | 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム |
JP4980018B2 (ja) | 2006-09-21 | 2012-07-18 | パナソニック株式会社 | 字幕生成装置 |
JP4850123B2 (ja) * | 2007-05-02 | 2012-01-11 | 三洋電機株式会社 | 画像データ処理装置 |
JP4950753B2 (ja) * | 2007-05-10 | 2012-06-13 | 日本放送協会 | コメント収集解析装置およびそのプログラム |
JP5074941B2 (ja) * | 2008-01-31 | 2012-11-14 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 字幕出力装置、字幕出力方法、及びプログラム |
AU2009200990A1 (en) | 2008-03-13 | 2009-10-01 | Aristocrat Technologies Australia Pty Limited | Method and system of distributing progressive gaming related information |
KR100977079B1 (ko) * | 2008-06-24 | 2010-08-19 | 인하대학교 산학협력단 | 동영상의 자막 표시 방법 |
JP5243886B2 (ja) * | 2008-08-11 | 2013-07-24 | 旭化成株式会社 | 字幕出力装置、字幕出力方法及びプログラム |
KR101378493B1 (ko) * | 2011-12-30 | 2014-04-01 | 포항공과대학교 산학협력단 | 영상 데이터에 동기화된 텍스트 데이터 설정 방법 및 장치 |
IL225480A (en) * | 2013-03-24 | 2015-04-30 | Igal Nir | A method and system for automatically adding captions to broadcast media content |
CN103198812A (zh) * | 2013-04-19 | 2013-07-10 | 浙江大丰实业有限公司 | 舞台字幕显示屏控制系统 |
JP2017033390A (ja) * | 2015-08-04 | 2017-02-09 | 日本放送協会 | 画像解析装置及びプログラム |
JP6809177B2 (ja) * | 2016-12-02 | 2021-01-06 | ヤマハ株式会社 | 情報処理システムおよび情報処理方法 |
KR101996551B1 (ko) * | 2018-01-02 | 2019-07-04 | 중앙대학교 산학협력단 | 음성인식 및 대본을 이용하는 자막 생성 장치 및 방법 |
CN114495128B (zh) * | 2022-04-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 字幕信息检测方法、装置、设备以及存储介质 |
-
2003
- 2003-05-16 JP JP2003138458A patent/JP3873926B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109963092A (zh) * | 2017-12-26 | 2019-07-02 | 深圳市优必选科技有限公司 | 一种字幕的处理方法、装置及终端 |
CN109963092B (zh) * | 2017-12-26 | 2021-12-17 | 深圳市优必选科技有限公司 | 一种字幕的处理方法、装置及终端 |
Also Published As
Publication number | Publication date |
---|---|
JP2004343488A (ja) | 2004-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3873926B2 (ja) | 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム | |
US6332122B1 (en) | Transcription system for multiple speakers, using and establishing identification | |
JP4600828B2 (ja) | 文書対応付け装置、および文書対応付け方法 | |
US8311832B2 (en) | Hybrid-captioning system | |
JP4466564B2 (ja) | 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム | |
EP1246166B1 (en) | Speech recognition based captioning system | |
US7286749B2 (en) | Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period | |
US20040093220A1 (en) | Generation subtitles or captions for moving pictures | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
EP3839953A1 (en) | Automatic caption synchronization and positioning | |
JP4140745B2 (ja) | 字幕へのタイミング情報付与方法 | |
JP2012512424A (ja) | 音声合成のための方法および装置 | |
JP4496358B2 (ja) | オープンキャプションに対する字幕表示制御方法 | |
JP4934090B2 (ja) | 番組登場人物抽出装置及び番組登場人物抽出プログラム | |
JP4210723B2 (ja) | 自動字幕番組制作システム | |
JP4538618B2 (ja) | 字幕番組制作システムにおける表示単位字幕文の自動生成方法 | |
JP5022193B2 (ja) | 字幕監視装置及び字幕監視プログラム | |
JP4140744B2 (ja) | 字幕文テキストの自動分割方法 | |
JP4342529B2 (ja) | オーサリング支援装置、オーサリング支援方法及びプログラム、並びにオーサリング情報共有システム | |
JP4272611B2 (ja) | 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4219129B2 (ja) | テレビジョン受像機 | |
JP2003244539A (ja) | 逐次自動字幕制作処理システム | |
JP2004336606A (ja) | 字幕制作システム | |
WO2024034401A1 (ja) | 映像編集装置、映像編集プログラム、及び映像編集方法 | |
WO2004056086A2 (en) | Method and apparatus for selectable rate playback without speech distortion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20051117 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060911 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061016 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091102 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131102 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |