JP2004343488A

JP2004343488A - 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム

Info

Publication number: JP2004343488A
Application number: JP2003138458A
Authority: JP
Inventors: Joji Tajima; 譲二田島; Naohiro Takeda; 直博竹田; Makoto Iwata; 真琴岩田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2003-05-16
Filing date: 2003-05-16
Publication date: 2004-12-02
Anticipated expiration: 2023-05-16
Also published as: JP3873926B2

Abstract

【課題】映像情報に含まれる音声情報の音声認識処理結果と、映像情報に含まれる画像情報の登場人物の認識結果とに基づいて、正確な字幕の挿入位置を決定する。
【解決手段】フレーム画像入力手段２は画像情報を入力し、音声入力手段は音声情報を入力する。字幕原稿入力手段４は、せりふと話者とを示す情報を含む字幕原稿を入力し、字幕原稿記憶手段５は入力された原稿を記憶する。音声認識手段６は音声情報に対して音声認識処理を行って、せりふが現れるタイミングを検出する。顔認識手段７は、画像情報による画像において話者の顔が現れるタイミングを検出する。字幕挿入手段９は、音声認識手段６が検出したタイミングの情報を入力し、顔認識手段７が検出したタイミングの情報を入力したら、いずれかのタイミングに相当する時点で、映像情報に字幕を挿入する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、映像情報に含まれる画像情報に、字幕を挿入する字幕挿入方法、字幕挿入システム、および字幕挿入プログラムに関する。
【０００２】
【従来の技術】
映画や、テレビ放送等において、文字情報である字幕を、映像情報に挿入することが行われている。例えば、外国映画には、日本語の字幕が挿入される。また、日本語のテレビ放送には、聴覚障害者のために字幕が挿入されることがある。また、内容を強調する等のためにも、字幕が挿入されることがある。字幕の内容は、一般に、台本にもとづいて、または作業者がキーボードを用いてコンピュータ等に字幕の内容を入力することによって作成される。そして、作業者は、作成した字幕の内容を、画像フレームの所定の位置に挿入する操作を行う。
【０００３】
作業者が、字幕を挿入する画像フレームを決定する作業は、視覚と聴覚とに神経を集中させて行うため、作業の負荷が重い。また、作業者のスキルも必要とされる。字幕は、映像における出演者が会話しているときに表示させるものであるので、音声と同期して字幕を表示させることが望ましい。また、例えば、２人の出演者が交互に話をしていて、映像に出演者の顔が交互に現れる場合には、視聴者の誤解を招かないように、話をしている出演者が映像に登場している時に字幕が表示されることが望ましい。作業者は、そのような同期を考慮して字幕を画像フレームに挿入する必要がある。
【０００４】
字幕を画像フレームに自動的に挿入する方法として、音声情報にもとづいて音声認識処理を行ってテキスト情報を作成し、テキスト情報と文字情報である字幕原稿情報とが合致した場合に、合致した箇所の音声情報に対応する画像情報に、字幕原稿情報を挿入する方法がある（例えば、特許文献１参照。）。
【０００５】
また、映像情報に字幕挿入する際に、被写体の動きに追従して字幕を挿入する方法がある（例えば、特許文献２参照）。
【０００６】
【特許文献１】
特開２００２−３５１４９０号公報（第４−６頁）
【特許文献２】
特開平１１−２６１８９０号公報（第３−４頁）
【０００７】
【発明が解決しようとする課題】
しかし、特許文献１に記載の方法は、画像情報と字幕原稿情報とを、音声情報のみを利用して対応させているので、音声情報に、雑音やＢＧＭ等が含まれている等の理由で音声認識が失敗した場合に、字幕原稿情報を映像情報に挿入することができない。
【０００８】
また、特許文献２に記載の方法は、作業者が、字幕挿入位置の初期値を入力する。そのため、例えば外国映画等のように、挿入する字幕の量が多いと作業者への作業の負荷が重くなってしまう。
【０００９】
そこで、本発明は、自動的に、字幕を挿入すべき位置に字幕を挿入することができる字幕挿入方法、字幕挿入システム、および字幕挿入プログラムを提供することを目的とする。
【００１０】
【課題を解決するための手段】
本発明による字幕挿入方法は、音声情報と画像情報とを含む映像情報における画像情報に顔認識処理を行って、せりふの話者が画像に現れる出現タイミングを検出し、出現タイミングに基づいて、せりふに対応する字幕を画像情報に挿入することを特徴とする。
【００１１】
本発明による字幕挿入方法は、映像情報に含まれる画像情報に顔認識処理を行って、せりふの話者が画像情報による映像に現れるタイミングを検出し、話者が現れるタイミングに基づいて、せりふに対応する字幕を画像情報に挿入することを特徴とする。
【００１２】
本発明による字幕挿入システムは、字幕の情報と、字幕の情報に含まれるせりふの話者を示す情報とを記憶する字幕原稿記憶手段と、音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、字幕原稿記憶手段が記憶している字幕の情報に相当するせりふの音声情報における発生タイミングを検出する音声認識手段と、映像情報における画像情報から、せりふの話者の顔画像の出現タイミングを検出する顔認識手段と、発生タイミングと出現タイミングとにもとづいて、字幕を画像情報に挿入する字幕挿入手段とを備えたことを特徴とする。
【００１３】
本発明による字幕挿入システムは、字幕の情報、字幕に対応したせりふ、およびせりふの話者を示す情報とを記憶する字幕原稿記憶手段と、音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、字幕原稿記憶手段が記憶しているせりふの音声情報における発生タイミングを検出する音声認識手段と、映像情報における画像情報から、せりふの話者の顔画像の出現タイミングを検出する顔認識手段と、発生タイミングと出現タイミングとにもとづいて、せりふに対応した字幕を画像情報に挿入する字幕挿入手段とを備えたことを特徴とする。
【００１４】
字幕挿入手段は、所定時間内に発生タイミングを示す情報と出現タイミングを示す情報との双方を入力したら、発生タイミングと出現タイミングとのうちのいずれかのタイミングに相当する時点の画像情報に、せりふに対応する字幕を挿入してもよい。そのような構成によれば、画像情報と音声情報とのいずれかにもとづいて字幕を画像情報に挿入するタイミングを決定することができる。
【００１５】
画像情報は画像フレームで構成され、字幕挿入手段は、せりふが発声される期間に対応する音声情報に対応する画像情報を構成する画像フレームであって顔認識手段によってせりふの話者の顔画像が登場している画像フレームに字幕を挿入してもよい。そのような構成によれば、画像情報と、音声情報とにもとづいて字幕を画像情報に挿入する位置を決定するため、字幕を挿入すべき位置に字幕を挿入することができる。
【００１６】
画像情報による画像のシーンが変わるタイミングであるカット位置を検出し、カット位置で画像情報を分割したシーンを生成するカット位置検出手段を備えてもよく、字幕挿入手段が字幕を挿入する画像フレームは、せりふの話者の顔画像が登場している画像フレームを含むシーンの画像フレームであって、せりふが発声される期間の先頭に最も近いシーンを構成する画像フレームであってもよい。そのような構成によれば、画像情報のシーンの区切りに合わせて画像フレームに字幕を挿入することができる。
【００１７】
顔認識手段は、画像フレームにおける話者の顔の位置の情報である顔位置情報を生成して字幕挿入手段に出力してもよく、字幕挿入手段は、顔位置情報に基づいて、画像フレームにおける話者の顔の位置の近傍に字幕を挿入してもよい。そのような構成によれば、字幕を画面上の話者の近傍に表示させることができるため、視聴者の誤解を防ぐことができる。
【００１８】
字幕挿入手段は、音声情報と、音声認識処理結果と、せりふと、話者情報との対応に基づいて、各時刻におけるせりふの話者を特定してもよく、特定した話者と、顔認識手段が特定した各時刻における画像情報に含まれる人物とを示した画像を生成し、字幕を挿入するタイミングの入力を受け付けてもよい。そのような構成によれば、字幕を画像情報に付与する作業を行う作業者の作業負担を軽減させることができる。
【００１９】
本発明による字幕挿入プログラムは、映像情報に含まれる画像情報の画像フレームに、字幕を挿入する字幕挿入システムに搭載される字幕挿入プログラムであって、コンピュータに、字幕の情報と、字幕の情報に含まれるせりふの話者を示す情報とを記憶媒体に記憶させる字幕原稿記憶処理と、音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、記憶媒体が記憶している字幕の情報に相当するせりふの音声情報における発生タイミングを検出する音声認識処理と、映像情報における画像情報から、せりふの話者の顔画像の出現タイミングを検出する顔認識処理と、発生タイミングと出現タイミングとにもとづいて、字幕を画像情報に挿入する字幕挿入処理とを実行させることを特徴とする。
【００２０】
本発明による字幕挿入プログラムは、映像情報に含まれる画像情報の画像フレームに、字幕を挿入する字幕挿入システムに搭載される字幕挿入プログラムであって、コンピュータに、字幕の情報、字幕に対応したせりふ、およびせりふの話者を示す情報とを記憶媒体に記憶させる字幕原稿記憶処理と、音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、記憶媒体が記憶しているせりふの音声情報における発生タイミングを検出する音声認識処理と、映像情報における画像情報から、せりふの話者の顔画像の出現タイミングを検出する顔認識処理と、発生タイミングと出現タイミングとにもとづいて、せりふに対応した字幕を画像情報に挿入する字幕挿入処理とを備えたことを特徴とする
【００２１】
字幕挿入処理は、所定時間内に発生タイミングを示す情報と出現タイミングを示す情報との双方を入力したら、発生タイミングと出現タイミングとのうちのいずれかのタイミングに相当する時点の画像情報に、せりふに対応する字幕を挿入してもよい。そのような構成によれば、画像情報と音声情報とのいずれかにもとづいて字幕を画像情報に挿入するタイミングを決定することができる。
【００２２】
画像情報は画像フレームで構成され、字幕挿入処理は、せりふが発声される期間に対応する音声情報に対応する画像情報を構成する画像フレームであって顔認識処理によってせりふの話者の顔画像が登場している画像フレームに字幕を挿入してもよい。そのような構成によれば、画像情報と、音声情報とにもとづいて字幕を画像情報に挿入する位置を決定するため、字幕を挿入すべき位置に字幕を挿入することができる。
【００２３】
コンピュータに、画像情報による画像のシーンが変わるタイミングであるカット位置を検出し、カット位置で画像情報を分割したシーンを生成するカット位置検出処理を実行させてもよく、字幕挿入処理が字幕を挿入する画像フレームは、せりふの話者の顔画像が登場している画像フレームを含むシーンの画像フレームであって、せりふが発声される期間の先頭に最も近いシーンを構成する画像フレームであってもよい。そのような構成によれば、画像情報のシーンの区切りに合わせて画像フレームに字幕を挿入することができる。
【００２４】
顔認識処理は、画像フレームにおける話者の顔の位置の情報である顔位置情報を生成してもよく、字幕挿入処理は、顔位置情報に基づいて、画像フレームにおける話者の顔の位置の近傍に字幕を挿入してもよい。そのような構成によれば、字幕を画面上の話者の近傍に表示させることができるため、視聴者の誤解を防ぐことができる。
【００２５】
字幕挿入処理は、音声情報と、音声認識処理結果と、せりふと、話者情報との対応に基づいて、各時刻におけるせりふの話者を特定してもよく、特定した話者と、顔認識手段が特定した各時刻における画像情報に含まれる人物とを示した画像を生成し、字幕を挿入するタイミングの入力を受け付けてもよい。そのような構成によれば、字幕を画像情報に付与する作業を行う作業者の作業負担を軽減させることができる。
【００２６】
【発明の実施の形態】
実施の形態１．
図１は、本発明による字幕挿入システムの第１の実施の形態の構成を示すブロック図である。図１に示す字幕挿入システムは、ビデオテープ等の映像記録メディアが記憶している、画像情報と音声情報とを含む映像情報を入力する映像入力手段１と、映像入力手段１に入力された映像情報のうち、画像情報を入力するフレーム画像入力手段２と、映像入力手段１に入力された映像情報のうち、音声情報を入力する音声入力手段３と、映像に重畳して表示させる字幕の原稿を入力する字幕原稿入力手段４と、入力された字幕の原稿を記憶する字幕原稿記憶手段５と、音声情報に音声認識処理を行う音声認識手段６と、画像情報による画像に含まれている顔の画像が予め記憶されている顔の画像と一致するか否かを判定する顔認識処理を行う顔認識手段７と、画像情報による画像に含まれている可能性がある話者の顔の特徴の情報である顔認識情報を予め記憶する顔認識辞書８と、音声認識手段６の音声認識結果と顔認識手段７の話者認識結果とに基づいて、字幕を挿入する画像フレームを決定して、決定した画像フレームに字幕を挿入する字幕挿入手段９と、字幕が挿入された映像情報を出力する出力手段１０とを含む。なお、図１に示すシステムは、コンピュータによって実現され、フレーム画像入力手段２、音声入力手段３、音声認識手段６、顔認識手段７および字幕挿入手段９は、記憶手段（図示せず。）に記憶されるプログラム（ソフトウェア）によって実現される。映像入力手段１および字幕原稿入力手段４は、コンピュータに接続された入力装置とソフトウェアとによって実現される。
【００２７】
映像入力手段１は、映像記録メディアが記憶している映像情報を入力し、入力した映像情報から画像情報と音声情報とを抽出して、画像情報をフレーム画像入力手段２に出力し、音声情報を音声入力手段３に出力する。画像情報と音声情報とを抽出する処理は、映像情報から画像情報と音声情報とを抽出する一般的な映像処理アプリケーションによって実現可能である。フレーム画像入力手段２は、画像フレーム単位で画像情報を顔認識手段７に出力する。また、音声入力手段３は、音声情報を音声認識手段６出力する。
【００２８】
また、映像入力手段１は、映像情報をフレーム画像入力手段２と音声入力手段３とのそれぞれに出力してもよい。その場合、フレーム画像入力手段２は、映像情報から画像情報を含むトラックのみを抽出する。そして、フレーム画像入力手段２は、顔認識手段７に、画像フレーム単位で画像情報を出力する。音声入力手段３は、映像情報から音声情報を含むトラックのみを抽出する。そして、音声入力手段３は、音声認識手段６に、抽出した音声情報を出力する。以下、映像入力手段１が映像情報をフレーム画像入力手段２と音声入力手段３とのそれぞれに出力する場合を例にする。
【００２９】
図２は、字幕原稿記憶手段５の記憶内容の一例を示す説明図である。字幕原稿入力手段４は、例えばテキストファイルによって字幕原稿を入力する。字幕原稿には、せりふ番号、話者を特定する情報である話者情報、および映像に挿入される字幕（せりふ）を示す情報が含まれる。そして、字幕原稿入力手段４は、入力した情報を字幕原稿記憶手段５に記憶させる。なお、図２には、画面に映っている人物および備考の欄も記載されているが、それらは、字幕原稿に含まれていなくてよい。字幕原稿が紙による媒体に記載されている場合には、字幕原稿入力手段４に含まれるＯＣＲ装置等を用いて媒体に記載されている字幕原稿を電子化し、テキストファイルに変換して字幕原稿記憶手段５に入力する。字幕原稿入力手段４は、せりふを示す各情報すなわち図２に示された各せりふ番号に対応した各行の情報（以下、各行の情報を字幕情報という。）を、画像情報の時間軸に一致した順序で字幕原稿記憶手段５に記憶させる。
【００３０】
音声認識手段６は、音声入力手段３が出力した音声情報に対して音声認識処理を行って音声認識処理の結果である音声認識結果テキストを生成する。音声認識手段６は、せりふと音声認識結果テキストとのマッチングを行い、せりふと音声情報とを時間軸上で対応付ける情報である音声一致タイミング情報を生成する。音声一致タイミング情報は、映像情報の先頭から計測したせりふを発声している時刻と、字幕情報におけるせりふとを対応付ける情報である。すなわち、音声一致タイミング情報は、せりふが発声されている時刻を特定する情報である。マッチング処理として、例えばＤＰマッチングの方法を用いることができる。なお、音声一致タイミング情報が示す時刻は、音声情報におけるせりふの発話開始時点の時刻であることが好ましい。
【００３１】
顔認識手段７は、字幕原稿記憶手段５に記憶されている話者情報と、顔認識辞書８があらかじめ記憶している顔の特徴データとに基づいて、画像情報に、話者情報によって特定される話者が映像に存在しているか否かを判定する顔認識処理を行う。話者情報によって特定される話者が映像に存在していると判定すると、せりふと画像情報とを時間軸上で対応づける情報である顔一致タイミング情報を生成する。顔一致タイミング情報は、映像情報の先頭から計測した、話者が画像に出現した時刻を特定する情報である。
【００３２】
字幕挿入手段９として、一般的なテロップや字幕の挿入装置を使用することができる。字幕挿入手段９は、音声一致タイミング情報と、顔一致タイミング情報とに基づいて、せりふを画像情報に挿入するタイミングを決定し、せりふを画像情報に挿入して出力手段１０に出力する。
【００３３】
出力手段１０として、一般的なテロップ送信装置や字幕配信装置を使用することができる。出力手段１０は、せりふが挿入された映像情報を放送機器に送信したり、記憶装置に記憶させたりする。
【００３４】
次に、動作について説明する。図３は、この実施の形態の動作を説明するフローチャートである。なお、音声情報には、図２に示された字幕原稿情報に現れるせりふの順に、対応するせりふの発声が含まれているとする。
【００３５】
字幕原稿入力手段４は、字幕原稿を入力すると、入力された字幕原稿を字幕原稿記憶手段５に記憶させる（ステップ１００）。ここでは、字幕原稿は、あらかじめ電子化されたテキストファイルであるものとする。次いで、映像入力手段１は、映像情報の入力を開始する（ステップＳ１０１）。以後、映像情報が入力されると、映像入力手段１は、映像情報をフレーム画像入力手段２と音声入力手段３とに継続して出力する。また、音声認識手段６および顔認識手段７は、字幕原稿記憶手段５から、１つの字幕情報（図２における１行分の情報）を読み出す（ステップＳ１０２）。なお、字幕原稿記憶手段５からは、せりふ番号の順に、字幕情報が音声認識手段６および顔認識手段７に対して出力される。従って、最初は、せりふ番号１の字幕情報が出力される。また、字幕情報は、字幕挿入手段９にも出力される。
【００３６】
音声入力手段３は、映像入力手段１が出力した映像情報から音声情報を順次抽出して音声認識手段６に出力する（ステップＳ１０３）。音声認識手段６は、音声情報が入力されると音声認識処理を行い音声認識処理の結果である音声認識結果テキストを生成する（ステップＳ１０４）。
【００３７】
音声入力手段３が、「弘」という発声の情報を含む音声情報を、音声認識手段６に出力したとする。音声認識手段６は、「弘」という発声の情報を含む音声情報に音声認識処理を行って「弘」という音声認識結果テキストを生成する。また、音声認識手段６は、字幕原稿記憶手段５から入力した字幕情報に含まれるせりふと音声認識結果テキストとのマッチング処理を行い、せりふと音声認識結果テキストとが一致するか否かを判定する（ステップＳ１０５）。音声認識手段６は、「弘」という音声認識結果テキストと、図２のせりふ番号１の欄の「弘！」とが一致すると判定する。
【００３８】
音声認識手段６は、せりふと音声認識結果テキストとが一致すると判定すると、音声一致タイミング情報を字幕挿入手段９に出力する（ステップＳ１０６）。すなわち、音声認識手段６は、映像情報の先頭から音声認識結果テキスト「弘」とせりふ「弘！」とが一致している時刻を特定する情報を字幕挿入手段９に出力する。
【００３９】
フレーム画像入力手段２は、映像入力手段１が出力した映像情報から画像情報を抽出して顔認識手段７に出力する（ステップＳ１０７）。顔認識手段７は、フレーム画像入力手段２が出力した画像情報の画像フレームに顔検出処理を行って（ステップＳ１０８）、画像フレームに含まれている顔の画像を検出する。そして、顔認識手段７は、字幕情報における話者情報で特定される人物の顔の特徴の情報を顔認識辞書８から読み出し、検出した顔の画像の特徴が、顔認識辞書８から読み出した特徴と一致するか否か判定する（ステップＳ１０９）。一致すると判定した場合には、顔認識手段７は、顔一致タイミング情報を生成する。そして、顔一致タイミング情報を、字幕挿入手段９に出力する（ステップＳ１１１）。
【００４０】
字幕挿入手段９には、映像入力手段１から映像情報が入力される。なお、字幕挿入手段９の処理を容易にするために、字幕挿入手段９に供給される映像情報を、フレーム画像入力手段１および音声入力手段３に入力される映像情報に対して遅延させるようにしてもよい。字幕挿入手段９は、音声一致タイミング情報と顔一致タイミング情報との双方が入力されると、例えば音声一致タイミング情報が示す時刻を、せりふを画像情報に挿入するタイミングと決定し、決定したタイミング以降の所定数の画像フレームにせりふを挿入し（ステップＳ１１２）、出力手段１０に出力する（ステップＳ１１３）。所定数の画像フレームとは、例えば、「弘」という発声がなされるのに必要な時間分の画像フレームである。字幕挿入手段９は、例えば字幕原稿記憶手段５から入力した字幕情報におけるせりふの長さに応じた時間分の画像フレームにせりふを挿入する。すなわち、字幕挿入手段９は、せりふが発声される期間に対応する音声情報に対応する画像情報を構成する画像フレームであって顔認識手段によってせりふの話者の顔画像が登場している画像フレームに字幕を挿入する。なお、せりふを挿入すべき期間は、他の方法によって決定されてもよい。
【００４１】
また、字幕挿入手段９は、顔一致タイミング情報が示す時刻を、せりふを画像情報に挿入するタイミングと決定してもよい。さらに、字幕挿入手段９は、音声一致タイミング情報が出力された後、所定の時間（例えば、１秒）が経過しても顔一致タイミング情報が入力されない場合には、音声一致タイミングに基づいたタイミングで、せりふを画像情報に挿入してもよい。
【００４２】
また、字幕挿入手段９は、所定時間（例えば、１秒）内にせりふの音声情報における発生時点を示す情報と話者の画像における出現時点を示す情報との双方を入力したら、前記発生時点（音声一致タイミング情報が示す時刻に相当）と前記出現時点とのうちのいずれかの時点の画像情報に、せりふに対応する字幕を挿入し、所定時間が経過した場合に、せりふの音声情報における発生時点を示す情報と話者の画像における出現時点を示す情報とのうちのいずれかを入力していたら、入力している方の情報に従って、画像情報に字幕を挿入するようにしてもよい。
【００４３】
映像情報が終了していない場合には（ステップＳ１１４）、音声認識手段６および顔認識手段７は、字幕原稿記憶手段５から、次の字幕情報（図２における１行分の情報）を読み出す（ステップＳ１０２）。すなわち、せりふ番号２の字幕情報が読み出される。この段階で、画像情報による画像に含まれる人物は父であるとする（図２参照）。
【００４４】
次に、音声入力手段３は、「うん」という発声の情報を含む音声情報を、音声認識手段６に出力したとする。音声認識手段６は、「うん」という発声の情報を含む音声情報に音声認識処理を行って、「うん」という音声認識結果テキストを生成する。そして、音声認識手段６は、「うん」という音声認識結果テキストと、図２のせりふ番号２の欄の「うん」とが一致すると判定する。よって、音声認識手段６は、音声一致タイミング情報を字幕挿入手段９に出力する。
【００４５】
この時点で、フレーム画像入力手段２は、父が映っている画像フレームの画像情報を顔認識手段７に出力しているとする（図２参照）。顔認識手段７は、せりふ番号２の字幕情報における話者情報に対応した顔の画像（ここでは、「弘」の顔の画像）を検出しようとするが、その画像を検出できない。よって、顔認識手段７は、顔一致タイミング情報を字幕挿入手段９に出力しない。
【００４６】
ここで、顔一致タイミング情報が入力されなかった場合の字幕挿入手段９の動作として、２種類の動作を例示する。１つ目は、せりふ番号２に対応するせりふを画像情報に挿入しないという動作である。顔一致タイミング情報が入力されなかったということは、せりふの話者が画面に現れなかったことを意味する。そして、画面に現れなかった話者のせりふは重要ではないと判断できるため、そのような重要でないせりふを字幕にして画像情報に挿入しない。
【００４７】
２つ目は、音声一致タイミング情報のタイミングに基づいてせりふを画像情報に挿入するという動作である。すると、せりふの重要性に関わらずにせりふとして用意している情報を全て画像情報に挿入できるので、全体の情報量を増加させることができる。
【００４８】
せりふ番号３「ここへ座りなさい」に関して、せりふ番号１に対する処理と同様な処理が行われるので、説明を省略する。せりふ番号４「何か用？」ついては、弘のせりふであって、画面に映っているのも弘なので、弘が画面に映っている時刻でせりふ番号４「何か用？」が画像情報に挿入される。
【００４９】
せりふ番号５〜せりふ番号７は、画面の左側に父が写り、画面の右側に弘が写っている場面のせりふである。そのため、顔認識手段７は、両者の顔を認識し、両者の顔に対する顔一致タイミング情報を字幕挿入手段９に順次出力する。また、音声認識手段６は、せりふ番号５〜せりふ番号７のそれぞれが発声されるごとに音声認識処理を行う。そして、音声一致タイミング情報を字幕挿入手段９に出力する。字幕挿入手段９は、音声一致タイミング情報に基づいたタイミングで、画面の所定の位置に字幕を挿入する。
【００５０】
また、顔認識手段７が、顔の画像を検出したときに画像上の顔の位置を特定した情報である顔位置情報を生成して字幕挿入手段９に出力してもよい。そして、字幕挿入手段９は、顔位置情報に基づいて、父のせりふを画面の左側に表示し、弘のせりふを画面の右側に表示させてもよい。そのような構成によれば、話者の位置と、字幕の位置とが一致するため、視聴者の理解を助けることができる。
【００５１】
せりふ番号８については、弘が話者で、画像情報の画像フレームにも弘が写っているので、せりふ番号４と同様に、せりふ番号８が画像情報に挿入される。
【００５２】
以上に説明したように、第１の実施の形態によれば、音声認識結果と画像認識結果とに基づいて、自動的に字幕を画像情報に挿入することができる。
【００５３】
実施の形態２．
図４は、本発明の第２の実施の形態の一構成例を示すブロック図である。第１の実施の形態との違いは、第１の実施の形態の字幕原稿記憶手段５の代わりに、台本字幕原稿記憶手段１１が含まれていることである。そのため、第１の実施の形態と同様の手段については図１と同じ符号を付し、説明を省略する。台本字幕原稿記憶手段１１は、字幕の情報、字幕に対応したせりふ、およびせりふの話者を示す情報とを記憶する字幕原稿記憶手段に相当する。台本字幕原稿記憶手段１１には、図５に示すような、せりふ番号、話者情報、せりふおよび字幕を含む情報が記憶される。なお、台本字幕原稿記憶手段１１に記憶されるものを台本字幕原稿といい、台本字幕原稿における１行分のせりふ番号、話者情報、せりふおよび字幕を含む情報を字幕情報という。また、ここでは、せりふは外国語（ドイツ語）であり、字幕は日本語であるとする。
【００５４】
第１の実施の形態の場合と同様に、音声認識手段６は、台本字幕原稿記憶手段１１が記憶しているせりふと音声認識結果テキストとのマッチングを行い、音声一致タイミング情報を生成する。そして、音声一致タイミング情報を字幕挿入手段９に出力する。
【００５５】
せりふ番号１からせりふ番号３に対応したせりふが音声情報に含まれる間、二人の登場人物（ＳｕｚａｎｎｅとＨａｎｓ）が画像情報に含まれ、せりふ４に対応したせりふが音声情報に含まれるときには、Ｈａｎｓのみが画像情報に含まれているとする（図５参照）。
【００５６】
せりふ番号１が発声され、音声入力手段３が「ＧｕｔｅｎＭｏｒｇｅｎ」の発生の情報を含む音声情報を音声認識手段６に入力すると、音声認識手段６は、音声認識処理を行って音声認識結果テキスト「ＧｕｔｅｎＭｏｒｇｅｎ」を生成する。また、音声認識手段６は、台本字幕原稿記憶手段１１が記憶しているせりふを順次読み込み、せりふと音声認識結果テキストとが一致するか否かを判定する。まず、音声認識結果テキスト「ＧｕｔｅｎＭｏｒｇｅｎ」とせりふ番号１のせりふ「ＧｕｔｅｎＭｏｒｇｅｎ！」とが一致するか否かを判定する。一致すると判定すると、音声認識手段６は、音声一致タイミング情報を字幕挿入手段９に出力する。
【００５７】
フレーム画像入力手段２は、ＳｕｚａｎｎｅとＨａｎｓとが映っている画像フレームの画像情報を顔認識手段７に出力する。顔認識手段７は、まず、せりふ番号１の字幕情報に含まれる話者情報に基づいて、Ｓｕｚａｎｎｅの顔の特徴データを顔認識辞書８から抽出する。顔認識手段７は、ＳｕｚａｎｎｅとＨａｎｓとが映っている画像フレームについて顔検出処理を行い、顔認識辞書８から抽出した顔の特徴データに基づいてＳｕｚａｎｎｅの顔が写っていることを検出できる。よって、顔認識手段７は、顔一致タイミング情報を字幕挿入手段９に出力する。
【００５８】
字幕挿入手段９は、台本字幕原稿記憶手段１１から字幕情報を入力している。そして、第１の実施の形態と同様に、音声一致タイミング情報と顔一致タイミング情報とに基づいて字幕を画像情報に挿入する位置を決定し、字幕を映像情報に挿入する。この場合には、日本語に字幕である「おはよう」が挿入される。
【００５９】
この実施の形態でも、顔認識手段７が、顔を検出したときに画像フレーム中の顔の位置を特定した情報である顔位置情報を生成して字幕挿入手段９に出力してもよい。そして、字幕挿入手段９は、顔位置情報に基づいて、Ｓｕｚａｎｎｅのせりふを画面の左側に表示する。そうすると、話者の位置と、字幕が表示される位置とが一致するため、映像を見る人の理解を助けることができる。
【００６０】
せりふ番号２のせりふ「ＧｕｔｅｎＭｏｒｇｅｎ！」は、重要なせりふではないので、対応する字幕が設定されていない。そのような場合は、字幕挿入手段９は、せりふ番号２のせりふ「ＧｕｔｅｎＭｏｒｇｅｎ！」を映像情報に挿入してもよい。また、音声認識手段６および顔認識手段７が、字幕の情報が字幕情報に存在しない場合には、音声認識処理および顔認識処理を行わないようにしてよい。
【００６１】
せりふ番号３については、せりふ番号１の場合と同様に、話者がＳｕｚａｎｎｅで、画像情報に含まれている人物もＳｕｚａｎｎｅとＨａｎｓなので、せりふ番号１の場合と同様な処理が行われる。せりふ番号４については、話者がＨａｎｓで、画像情報に含まれている人物もＨａｎｓなので、Ｈａｎｓの音声が認識され画像情報に挿入する字幕が特定され、Ｈａｎｓの顔が認識されたタイミングで字幕が映像情報に挿入される。
【００６２】
以上のように、第２の実施の形態によれば、外国語の音声情報に対する日本語の字幕のように、実際に発声された言葉と異なっている言葉を字幕として挿入することができる。なお、外国語の音声情報の場合だけでなく、音声情報による発話と字幕の内容とが異なる場合に、第２の実施の形態を適用することができる。
【００６３】
実施の形態３．
図６は、本発明による字幕挿入システムの第３の実施の形態の構成を示すブロック図である。第１の実施の形態との違いは、第１の実施の形態の映像入力手段１の代わりに映像記憶手段１２を含むことと、フレーム画像入力手段２の代わりにカット検出手段１３を含むことと、音声入力手段３の代わりに音声読出手段１４を含むことである。そのため、第１の実施の形態における手段と同様の手段については図１と同じ符号を付し、説明を省略する。
【００６４】
映像記憶手段１２は、例えばＡＶＩファイル等の映像情報が入力されると、映像情報を画像情報と音声情報とに分割して記憶する。映像情報を画像情報と音声情報とに分割する方法として、第１の実施の形態の場合と同様、既知の映像処理アプリケーションを使用することができる。カット検出手段１３は、映像記憶手段１２から画像情報を読み出して、画像情報による画像の場面が変わるタイミングであるカット位置を検出する。カット位置は、例えば、連続する画像情報の画像フレームのうち、色分布が大きく変化するタイミング、例えば変化量が所定のしきい値よりも大きくなるタイミングである。以下、カット位置とカット位置とに挟まれた画像情報を、シーンと呼ぶ。音声読出手段１４は、映像記憶手段１２から音声情報を読み出して音声認識手段６に出力する。字幕挿入手段９は、カット検出手段１３が検出したカット位置と、顔認識手段７が入力した画像情報とから、せりふが発声された時刻に最も近く、画像情報が話者を含むシーンの画像フレームに、字幕原稿記憶手段５が記憶しているせりふを挿入して出力手段１０に出力する。カット検出手段１３が行う処理と、音声読出手段１４が行う処理とは、時間的に連続して行うリアルタイム処理であってもよいし、各手段の処理能力に応じて、例えば１せりふ毎のように、一定量毎に映像記憶手段１２から情報を取り出すような処理であってもよい。
【００６５】
次に、動作について図面を参照して説明する。ここでも、図２に示された例を用いる。映像記憶手段１２は、映像情報が入力されると、映像情報を画像情報と音声情報とに分割して記憶する。
【００６６】
字幕原稿入力手段４は、第１の実施の形態の場合と同様に、字幕原稿を入力して字幕原稿記憶手段５に記憶させる。ここで、字幕原稿は、あらかじめ電子化されたテキストファイルであるものとする。
【００６７】
音声読出手段１４は、映像記憶手段１２が記憶している音声情報を音声認識手段６に出力する。例えば、音声入力手段３は、父の発声による「弘」という発生の情報を含む音声情報を音声認識手段６に出力する。
【００６８】
音声認識手段６は、第１の実施の形態の場合と同様に、「弘」という発生の情報を含む音声情報に対して音声認識処理を行って、「弘」という音声認識結果テキストを生成する。また、音声認識手段６は、第１の実施の形態の場合と同様に、字幕原稿記憶手段５が記憶しているせりふを読み込み、せりふと音声認識結果テキストとのマッチング処理を行い、せりふと音声認識結果テキストとが一致するか否かを判定する。音声認識手段６は、「弘」という音声認識結果テキストと、図２のせりふ番号１の欄の「弘！」とが一致すると判定する。
【００６９】
音声認識手段６は、せりふと音声認識結果テキストとが一致すると判断すると、音声一致タイミング情報を字幕挿入手段９に出力する。すなわち、音声認識手段６は、音声認識結果テキスト「弘」とせりふ「弘！」とが一致している時刻の情報を字幕挿入手段９に出力する。
【００７０】
カット検出手段１３は、映像記憶手段１２が記憶している画像情報を顔認識手段７に出力する。カット検出手段１３が、父が映っている画像フレームの画像情報を、顔認識手段７に出力したとする。また、カット検出手段１３は、カット位置を検出してカット位置を特定する情報を顔認識手段７に出力する。
【００７１】
顔認識手段７は、第１の実施の形態の場合と同様な処理を行って、画像情報に含まれている顔が父の顔であると判定し、画像情報に含まれている顔が父の顔であると判定した時刻の情報（顔一致タイミング情報）と、カット位置を特定する情報とを字幕挿入手段９に出力する。
【００７２】
字幕挿入手段９は、カット位置を特定する情報に基づいて、音声一致タイミング情報および顔一致タイミング情報に基づいたタイミングの時刻を含むシーンであって、音声情報における「弘」の発話開始時点に最も近いシーンを構成する各画像フレームに、せりふ「弘！」を挿入して出力手段１０に出力する。
【００７３】
第３の実施の形態によれば、画像情報のシーンの区切りに合わせて画像情報の画像フレームにせりふを挿入することができる。
【００７４】
実施の形態４．
図７は、本発明による字幕挿入システムの第４の実施の形態の構成を示すブロック図である。第３の実施の形態との違いは、第３の実施の形態における字幕原稿記憶手段５の代わりに台本字幕原稿蓄積手段１５が含まれることである。そのため、第３の実施の形態と同様の手段については図６と同じ符号を付し、説明を省略する。
【００７５】
台本字幕原稿蓄積手段１５は、図５に示すような、せりふ番号、話者情報、せりふおよび字幕を含む情報を記憶したとする。すなわち、第２の実施の形態の場合と同様に、字幕原稿入力手段４は、台本字幕原稿が入力されると、台本字幕原稿蓄積手段１５に記憶させる。台本字幕原稿蓄積手段１５は、あらかじめ複数の映像情報に関する台本字幕原稿を記憶していてもよい。音声認識手段６は、第２の実施の形態の場合と同様に、台本字幕原稿蓄積手段１５が記憶しているせりふと音声認識結果テキストとのマッチング処理を行い、音声一致タイミング情報を生成する。そして、音声一致タイミング情報を字幕挿入手段９に出力する。
【００７６】
映像記憶手段１２は、映像情報が入力されると、映像情報を画像情報と音声情報とに分割して記憶する。そして、音声読出手段１４は、映像記憶手段１２が記憶している音声情報を音声認識手段６に出力する。音声読出手段１４は、Ｓｕｚａｎｎｅによる「ＧｕｔｅｎＭｏｒｇｅｎ」という発声の情報を含む音声情報を音声認識手段６に出力する。
【００７７】
音声認識手段６は、「ＧｕｔｅｎＭｏｒｇｅｎ」という発声の情報を含む音声情報に対して音声認識処理を行って、「ＧｕｔｅｎＭｏｒｇｅｎ」という音声認識結果テキストを生成する。また、音声認識手段６は、第２の実施の形態の場合と同様に、台本字幕原稿蓄積手段１５が記憶しているせりふを読み込み、せりふと音声認識結果テキストとのマッチング処理を行い、せりふと音声認識結果テキストとが一致するか否かを判定する。音声認識手段６は、「ＧｕｔｅｎＭｏｒｇｅｎ」という音声認識結果テキストと、図５のせりふ番号１の欄のせりふ「ＧｕｔｅｎＭｏｒｇｅｎ！」とが一致すると判定する。
【００７８】
音声認識手段６は、せりふと音声認識結果テキストとが一致すると判断すると、音声一致タイミング情報を字幕挿入手段９に出力する。すなわち、音声認識手段６は、映像情報の先頭から音声認識結果テキスト「ＧｕｔｅｎＭｏｒｇｅｎ」とせりふ「ＧｕｔｅｎＭｏｒｇｅｎ！」とが一致するまでの時間の情報を字幕挿入手段９に出力する。
【００７９】
カット検出手段１３は、第３の実施の形態の場合と同様に、映像記憶手段１２が記憶している画像情報を顔認識手段７に出力する。カット検出手段１３は、ＳｕｚａｎｎｅとＨａｎｓとが映っている画像フレームの画像情報を、顔認識手段７に出力する。また、カット検出手段１３は、カット位置を検出してカット位置を特定する情報を顔認識手段７に出力する。
【００８０】
顔認識手段７は、第３の実施の形態と同様な処理を行って、画像情報にＳｕｚａｎｎｅの顔が含まれていると判定する。そして、顔認識手段７は、画像情報に含まれている顔がＳｕｚａｎｎｅの顔であると判定した時刻の情報（顔一致タイミング情報）と、カット位置を特定する情報とを字幕挿入手段９に出力する。
【００８１】
字幕挿入手段９は、カット位置を特定する情報に基づいて、音声一致タイミング情報および顔一致タイミング情報が示す時刻を含むシーンであって、「ＧｕｔｅｎＭｏｒｇｅｎ」の発話開始時点に最も近いシーンを構成する各画像フレームに、字幕「おはよう」を画像情報に挿入し、出力手段１０に出力する。
【００８２】
第４の実施の形態によれば、画像情報の画像フレームに、画像情報のシーンの区切りに合わせて、実際に発声された言葉と異なっている言葉を字幕として挿入することができる。
【００８３】
上記の各実施の形態は、音声認識技術と顔認識技術とが利用されているが、それらの認識技術は、必ずしも１００％の認識率を持たない。しかし、その場合でも、図８に示すインタフェースにより、従来のすべてを人手で行なう字幕挿入に比べて省力化を図ることが可能である。図８は、インタフェースの一実現例を示す模式図である。本発明の各実施の形態が、コンピュータによって実現される場合、コンピュータのＣＰＵは、図８に示すインタフェースの画面をコンピュータの表示装置に表示させる。
【００８４】
第３の実施の形態において、図８に示す画像を表示装置に表示させる場合について説明する。ＣＰＵは、映像入力手段１に入力された映像情報と、カット検出手段１３が検出したカット位置とを表示装置に模式的に表示させる。ここで、カット検出手段１３は、図２に示すせりふ番号の単位でカット位置を検出したものとする。すると、図８に示すインタフェースの画像の映像情報の欄に示すように、映像情報を模式的に表すことができる。
【００８５】
また、音声認識手段６は、音声認識結果テキストと字幕原稿記憶手段５が記憶しているせりふと話者情報とに基づいて、音声情報が誰の発声によるものかを特定する。そして、例えば、図８に示す画像の音声認識の欄のように、話者の氏名や記号等を用いて人物を特定し、話者を特定できる程度に模式的に表示させる。このときの表示位置は、映像情報の欄のカット位置の表示位置に対応した位置である。すると、図８に示す画像の音声認識の欄に示すように、話者を模式的に表すことができる。
【００８６】
顔認識手段７は、顔認識辞書８が記憶している顔の特徴データと、字幕原稿記憶手段５が記憶している話者情報とに基づいて、せりふを発声している人物を特定する。そして、例えば、図８に示す顔認識の欄のように、氏名や記号等を用いて人物を特定し、映像情報に含まれている人物を特定できる程度に模式的に表示させる。このときの表示位置は、映像情報の欄のカット位置の表示位置に対応した位置である。すると、図８に示す画像の顔認識の欄に示すように、話者を模式的に表すことができる。
【００８７】
ＣＰＵは、字幕原稿記憶手段５が記憶しているせりふ、または字幕の各シーンへの割り当てを受け付ける。具体的には、作業者がキーボードやマウス等を操作して、図８に示すインタフェースの画像上で、せりふ、または字幕を各シーンに割り当てる。ここで、最初の字幕である字幕１がシーン１に割り当てられているものとする。そして、次に割り当てられるべき字幕である字幕２は、人物Ａの「おはようございます。」というせりふであるものとする。
【００８８】
作業者は、字幕２は人物Ａのせりふであることから、音声認識結果と顔認識結果とが人物Ａであるシーン３に字幕２を割り当てて、シーン３の映像情報を確認する。このとき、表示装置にシーン３の画像情報を表示させてもよいし、音声情報をコンピュータのスピーカから出力させてもよい。確認の結果、字幕２がシーン３に対する字幕であれば、次の字幕である字幕３の割り当てを行う。字幕２がシーン３に対する字幕でなければ、シーン２で人物Ａの音声認識が失敗している可能性があるので、字幕２のシーン２への割り当てを試み、シーン２の映像情報を確認する。
【００８９】
このように、映像のシーンが分割され、音声認識や顔認識によって人物の一致がとられていることにより、作業者は、映像全体を調べる手間を省くことができ、作業の効率化が実現される。
【００９０】
なお、以上に述べた各実施の形態では、せりふまたは字幕を挿入する画像フレームを、音声認識結果と顔認識結果とに基づいて決定していたが、せりふまたは字幕を挿入する画像フレームを音声認識結果に基づいて決定してもよい。そのような構成によれば、顔認識に失敗した場合でも、せりふまたは字幕の挿入位置を音声認識結果に基づいて決定することができる。同様に、せりふまたは字幕を挿入する画像フレームを顔認識結果に基づいて決定してもよい。そのような構成によれば、ノイズやＢＧＭ等の影響で音声認識に失敗した場合でも、せりふまたは字幕の挿入位置を顔認識結果に基づいて決定することができる。
【００９１】
【発明の効果】
以上のように、本発明によれば、映像情報への字幕の挿入を自動的に行うことができる。そのため、従来は人手によって行われていた映像情報への字幕の挿入を、省力化することができる。
【図面の簡単な説明】
【図１】本発明による字幕挿入システムの第１の実施の形態の構成を示すブロック図である。
【図２】字幕原稿記憶手段の記憶内容の一例を示す説明図である。
【図３】字幕挿入システムの動作を説明するフローチャートである。
【図４】本発明による字幕挿入システムの第２の実施の形態の構成を示すブロック図である。
【図５】台本字幕原稿記憶手段の記憶内容の一例を示す説明図である。
【図６】本発明による字幕挿入システムの第３の実施の形態の構成を示すブロック図である。
【図７】本発明による字幕挿入システムの第４の実施の形態の構成を示すブロック図である。
【図８】本発明による字幕挿入システムの出力画像の一例を示す説明図である。
【符号の説明】
１映像入力手段
２フレーム画像入力手段
３音声入力手段
４字幕原稿入力手段
５字幕原稿記憶手段
６音声認識手段
７顔認識手段
８顔認識辞書
９字幕挿入手段
１０出力手段
１１台本字幕原稿記憶手段
１２映像記憶手段
１３カット検出手段
１４音声読出手段
１５台本字幕原稿蓄積手段

Claims

映像情報に含まれる音声情報に音声認識処理を行って、字幕に対応するせりふの前記音声情報における発生タイミングを検出し、
映像情報に含まれる画像情報に顔認識処理を行って、せりふの話者が画像に現れる出現タイミングを検出し、
前記発生タイミングと前記出現タイミングとに基づいて字幕を画像情報に挿入する
ことを特徴とする字幕挿入方法。
音声情報と画像情報とを含む映像情報における画像情報に顔認識処理を行って、せりふの話者が画像に現れる出現タイミングを検出し、
前記出現タイミングに基づいて、前記せりふに対応する字幕を画像情報に挿入する
ことを特徴とする字幕挿入方法。
字幕の情報と、字幕の情報に含まれるせりふの話者を示す情報とを記憶する字幕原稿記憶手段と、
音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、前記字幕原稿記憶手段が記憶している字幕の情報に相当するせりふの前記音声情報における発生タイミングを検出する音声認識手段と、
映像情報における画像情報から、せりふの話者の顔画像の出現タイミングを検出する顔認識手段と、
前記発生タイミングと前記出現タイミングとにもとづいて、字幕を画像情報に挿入する字幕挿入手段と
を備えたことを特徴とする字幕挿入システム。
字幕の情報、字幕に対応したせりふ、およびせりふの話者を示す情報とを記憶する字幕原稿記憶手段と、
音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、前記字幕原稿記憶手段が記憶しているせりふの前記音声情報における発生タイミングを検出する音声認識手段と、
映像情報における画像情報から、せりふの話者の顔画像の出現タイミングを検出する顔認識手段と、
前記発生タイミングと前記出現タイミングとにもとづいて、せりふに対応した字幕を画像情報に挿入する字幕挿入手段と
を備えたことを特徴とする字幕挿入システム。
字幕挿入手段は、所定時間内に発生タイミングを示す情報と出現タイミングを示す情報との双方を入力したら、前記発生タイミングと前記出現タイミングとのうちのいずれかのタイミングに相当する時点の画像情報に、せりふに対応する字幕を挿入する
請求項３または請求項４記載の字幕挿入システム。
画像情報は画像フレームで構成され、
字幕挿入手段は、せりふが発声される期間に対応する音声情報に対応する画像情報を構成する画像フレームであって顔認識手段によってせりふの話者の顔画像が登場している画像フレームに字幕を挿入する
請求項３から請求項５のうちのいずれか１項に記載の字幕挿入システム。
画像情報による画像のシーンが変わるタイミングであるカット位置を検出し、カット位置で画像情報を分割したシーンを生成するカット位置検出手段を備え、
字幕挿入手段が字幕を挿入する画像フレームは、せりふの話者の顔画像が登場している画像フレームを含むシーンの画像フレームであって、せりふが発声される期間の先頭に最も近いシーンを構成する画像フレームである
請求項６に記載の字幕挿入システム。
顔認識手段は、画像フレームにおける話者の顔の位置の情報である顔位置情報を生成して字幕挿入手段に出力し、
字幕挿入手段は、顔位置情報に基づいて、画像フレームにおける話者の顔の位置の近傍に字幕を挿入する
請求項５から請求項７のうちいずれか１項に記載の字幕挿入システム。
字幕挿入手段は、音声情報と、音声認識処理結果と、せりふと、話者情報との対応に基づいて、各時刻におけるせりふの話者を特定し、前記特定した話者と、顔認識手段が特定した各時刻における画像情報に含まれる人物とを示した画像を生成し、字幕を挿入するタイミングの入力を受け付ける
請求項５から請求項８のうちいずれか１項に記載の字幕挿入システム。
映像情報に含まれる画像情報の画像フレームに、字幕を挿入する字幕挿入システムに搭載される字幕挿入プログラムであって、
コンピュータに、
字幕の情報と、字幕の情報に含まれるせりふの話者を示す情報とを記憶媒体に記憶させる字幕原稿記憶処理と、
音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、前記記憶媒体が記憶している字幕の情報に相当するせりふの前記音声情報における発生タイミングを検出する音声認識処理と、
映像情報における画像情報から、せりふの話者の顔画像の出現タイミングを検出する顔認識処理と、
前記発生タイミングと前記出現タイミングとにもとづいて、字幕を画像情報に挿入する字幕挿入処理と
を実行させることを特徴とする字幕挿入プログラム。
映像情報に含まれる画像情報の画像フレームに、字幕を挿入する字幕挿入システムに搭載される字幕挿入プログラムであって、
コンピュータに、
字幕の情報、字幕に対応したせりふ、およびせりふの話者を示す情報とを記憶媒体に記憶させる字幕原稿記憶処理と、
音声情報と画像情報とを含む映像情報における音声情報に対して音声認識処理を行って、前記記憶媒体が記憶しているせりふの前記音声情報における発生タイミングを検出する音声認識処理と、
映像情報における画像情報から、せりふの話者の顔画像の出現タイミングを検出する顔認識処理と、
前記発生タイミングと前記出現タイミングとにもとづいて、せりふに対応した字幕を画像情報に挿入する字幕挿入処理と
を備えたことを特徴とする字幕挿入プログラム。
字幕挿入処理は、所定時間内に発生タイミングを示す情報と出現タイミングを示す情報との双方を入力したら、前記発生タイミングと前記出現タイミングとのうちのいずれかのタイミングに相当する時点の画像情報に、せりふに対応する字幕を挿入する
請求項１０または請求項１１に記載の字幕挿入プログラム。
画像情報は画像フレームで構成され、
字幕挿入処理は、せりふが発声される期間に対応する音声情報に対応する画像情報を構成する画像フレームであって顔認識処理によってせりふの話者の顔画像が登場している画像フレームに字幕を挿入する
請求項１０から請求項１２のうちのいずれか１項に記載の字幕挿入プログラム。
コンピュータに、
画像情報による画像のシーンが変わるタイミングであるカット位置を検出し、カット位置で画像情報を分割したシーンを生成するカット位置検出処理を実行させ、
字幕挿入処理が字幕を挿入する画像フレームは、せりふの話者の顔画像が登場している画像フレームを含むシーンの画像フレームであって、せりふが発声される期間の先頭に最も近いシーンを構成する画像フレームである
請求項１３に記載の字幕挿入プログラム。
顔認識処理は、画像フレームにおける話者の顔の位置の情報である顔位置情報を生成し、
字幕挿入処理は、顔位置情報に基づいて、画像フレームにおける話者の顔の位置の近傍に字幕を挿入する
請求項１０から請求項１４のうちいずれか１項に記載の字幕挿入プログラム。
字幕挿入処理は、音声情報と、音声認識処理結果と、せりふと、話者情報との対応に基づいて、各時刻におけるせりふの話者を特定し、前記特定した話者と、顔認識手段が特定した各時刻における画像情報に含まれる人物とを示した画像を生成し、字幕を挿入するタイミングの入力を受け付ける
請求項１０から請求項１５のうちいずれか１項に記載の字幕挿入プログラム。