JP2007027990A

JP2007027990A - 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体

Info

Publication number: JP2007027990A
Application number: JP2005204736A
Authority: JP
Inventors: Yoshihiro Kurakata; 恵弘倉片
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-07-13
Filing date: 2005-07-13
Publication date: 2007-02-01
Anticipated expiration: 2025-07-13
Also published as: JP4599244B2

Abstract

【課題】吹き出しや字幕スーパーの作成、編集を容易化する。
【解決手段】動画データは顔検出手段１０３に入力されて顔特徴量と顔位置が検出され、音声識別手段１０４に入力されて音声特徴量が検出される。検出された各特徴量は話者特定手段１０７に送られ、音声・顔対応データ記憶手段１０６に登録されている話者の特徴量と比較されて特定話者の位置が特定される。特定された話者の音声は、音声認識手段１０５によりテキスト化される。話者の位置とテキストデータにより吹き出し作成手段１１２により吹き出しが作成され、動画像作成手段１１４により動画データと音声データと吹き出しデータとをまとめて新たな動画データが作成される。
【選択図】図１

Description

本発明は、動画データから字幕を自動生成及び編集する技術に関する。

近年、デジタルビデオカメラやデジタルカメラ等のように動画をデジタルデータで撮影できる機能を持った装置が普及し、それに伴い撮影した画像をデジタルビデオカメラやデジタルカメラで編集したり、撮影した動画を加工してオリジナル画像を楽しむ人が増えてきている。また、撮影した動画をパーソナルコンピュータに取り込み、パーソナルコンピュータで編集を行い、タイトル合成や字幕スーパーの追加を行ってオリジナル動画を作成する人も増えている。

一方、公共のテレビ放送においても、話者の台詞を字幕スーパーとして表示することで効果を演出し、また耳の不自由な人のために話者の台詞を字幕スーパーとして表示するサービスも行っているところも多くなっている。

このように、撮影した動画に対して、話者の台詞を字幕スーパーとして動画データと重ねて表示するといったニーズが増えている。

撮影した動画に対して、話者の台詞を字幕スーパーとして動画に取り込む際には、通常編集ソフトにおいて、テキストデータを台詞として入力し、話者の近辺に吹き出しとして表示するか、映画などのように画面下に字幕スーパーとして表示するように編集される。

この編集作業は時間のかかるもので、動画を再生し、編集者が耳で聞き取った結果を必要なテキストデータとして編集ソフトから入力し、あるフレーズが再生にかかる時間だけ表示するように編集しなければならない。また、誰が話者であるかを判断し、字幕スーパーの表示位置や字幕の色などを変える際には編集者がそれぞれ個別に位置や色などを指定する必要があり、編集が非常に困難かつ時間のかかるものになっていた。

これらの作業を簡単に効率よく行うための技術として、下記の公開技術の応用が考えられる。即ち、
撮影画像から顔領域を検出し、予め作成したテキストデータを吹き出しとして、検出された顔の口元付近に表示する方法（例えば、特許文献１の請求項１０）やマイク等の音声入力端末に対して発言者が対応付けされており、音声からテキストへの変換を自動的に行い、発言者の顔を検出し、変換したテキストデータを吹き出しとして発言者の顔付近に表示する方法（例えば、特許文献２の請求項２）が提案されている。これらを支える技術として、顔領域の特徴量から特定の顔を識別する方法（例えば、特許文献３）や入力音声に含まれる特徴量を抽出し、予め登録されている音声の特徴量とのパターンマッチングを行う方法（例えば、特許文献４）、入力音声からテキスト化を行い、議事録を作成する方法（例えば、特許文献５）が提案されている。
特開２００２−１７６６１９号公報特開２００３−３３９０３４号公報特開平８−０６３５９７号公報特開平６−０８３３８２号公報特開平８−１９４４９２号公報

しかしながら、上記技術においては、簡単に字幕を作成するために、話者の音声データからテキストデータを作成し、話者の顔付近に吹き出しとして字幕スーパーの表示を行うことが可能であるが、話者の音声と話者の顔の対応付けはされておらず、予め話者を特定することが必要であった。従って、予め話者を特定した後に、話者の顔付近に字幕スーパーを表示するように編集していたため、自動的に話者を判別して所定の話者のところに吹き出しを付けるといった作業はできなかった。即ち、編集作業では必ず話者の特定を行い、その後編集することが必要であった。本発明は、このような課題を解決することを目的としている。

上記課題を解決するために、本発明は、画像及び音声を含む動画データから字幕を作成する装置であって、前記動画データの画像部分から顔の特徴量を検出する顔検出手段と、前記動画データの音声部分から音声の特徴量を検出する音声識別手段と、前記顔検出手段により検出された顔の特徴量及び前記音声識別手段により検出された音声の特徴量を、予め準備された特定話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定手段と、特定された前記話者の顔位置を特定する位置特定手段と、特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識手段と、前記位置特定手段により得られる顔位置と、前記音声認識手段により生成されたテキストデータとに基づいて、特定話者から発声された文字列のテキストデータを画像中に表示するための吹き出しデータを作成する吹き出し作成手段と、前記画像データと前記音声データに前記吹き出しデータとをまとめて新たに動画データを作成する動画像作成手段と、を具備する。

また、本発明は、画像及び音声を含む動画データから字幕を作成する方法であって、前記動画データの画像部分から顔の特徴量を検出する顔検出工程と、前記動画データの音声部分から音声の特徴量を検出する音声識別工程と、前記顔検出工程にて検出された顔の特徴量及び前記音声識別工程にて検出された音声の特徴量を、予め準備された特定話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定工程と、特定された前記話者の顔位置を特定する位置特定工程と、特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識工程と、前記位置特定工程により得られる顔位置と、前記音声認識工程により生成されたテキストデータとに基づいて、特定話者から発声された文字列のテキストデータを画像中に表示するための吹き出しデータを作成する吹き出し作成工程と、前記画像データと前記音声データに前記吹き出しデータとをまとめて新たに動画データを作成する動画像作成工程と、を備える。

なお、本発明は、コンピュータに上記画像及び音声を含む動画データから字幕を作成する方法を実行させるためのプログラムや、当該プログラムを記憶したコンピュータ可読記憶媒体としても実現可能である。

本発明によれば、入力された動画データの顔と音声から話者を特定し、話者の位置と該当する話者の音声より吹き出しデータを作成するので、該当する話者の画像付近に吹き出しを表示でき、吹き出しや字幕スーパーの作成や編集が容易になる。

以下に、添付図面を参照して本発明の好適な実施形態について詳細に説明する。

尚、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。

［第１の実施形態］
図１は本発明に係る実施形態の自動吹き出し作成・編集処理機能を実現するためのブロック図である。

１０１は動画入力部であり、動画の映像信号を入力する。入力される映像信号はデジタルデータとして入力される。入力された映像信号は、顔検出部１０３と画像データ部１１１へ送られる。顔検出部１０３では、入力された映像信号から人間の顔を抽出し、その特徴量を算出する。顔検出のアルゴリズムに関しては、肌色検出、目鼻口検出、顔の輪郭検出等既知の技術を用いている。特徴量の算出に関しては、検出された人間の顔に対して、目鼻口の位置関係や大きさ、顔の輪郭に対する比率等を組み合わせた既知の特徴量算出を用いている。また、顔検出部１０３では、顔の大きさや口の位置、顔の向きを判断し、これらの情報も顔特徴量して話者特定部１０７へ送られる。

１０２は音声入力部であり、動画の音声信号を入力する。入力される音声信号はデジタルデータとして入力される。入力された音声信号は、音声識別部１０４と音声認識部１０５と音声データ部１１３へ送られる。音声識別部１０４では、入力された音声信号から音声の特徴量を算出する。音声認識のアルゴリズムに関しては、音声周波数の特性、声の強弱特性等を組み合わせた既知の特徴量算出を用いている。

顔検出部１０３より算出された特徴量と音声識別部１０４より算出され特徴量は話者特定部１０７へ送られる。話者特定部１０７では、顔検出部１０３と音声識別部１０４より送られた特徴量に対して音声・顔対応部１０６に登録されている個人の音声特徴量と顔特徴量を比較・参照して話者を特定する。複数の人物が顔検出部１０３で認識されている場合には複数の顔特徴量が送られ、複数の人物が音声識別部１０４で認識されている場合には複数の音声特徴量が送られる。これら複数の特徴量が送られた場合には、特徴量の組み合わせを行い、音声・顔対応部１０６に登録されている音声特徴量と顔特徴量を比較・参照して複数人の話者を特定することも可能である。話者特定部１０７において、話者が特定されると、それぞれの話者の顔位置や大きさに関する情報が位置特定部１０９に送られ、また話者の識別情報が音声認識部１０５へ送られる。

１０５は音声認識部であり、音声入力部１０２より入力された音声信号に対して、話者特定部１０７から通知される話者の識別情報により、特定話者に該当する場合に音声認識を行う。音声認識のアルゴリズムは、周辺ノイズの除去、特徴抽出、音響モデルによる音素検出等、既知の技術を用いている。

音声認識部１０５で音素に分解された情報はテキスト化部１０８へ送られ、語彙分析、文法解析が行われ、発声された文字列のテキストデータが生成される。テキスト化部１０８における音声のテキスト化アルゴリズムは、語彙分析や文法解析、辞書引き等、既知の技術を用いている。テキスト化された音声情報は、話者の情報と共に位置特定部１０９へ送られる。

音声認識部１０５及びテキスト化部１０８では、複数の話者に対して、話者毎に音声認識及びテキスト化を行うことが可能である。これにより同時に複数の人物が映っている状態で、複数の人物が話している場合でも、話者毎のテキスト化された音声情報が生成される。

位置特定部１０９では、話者特定部１０７から送られる話者の顔位置や大きさに関する情報と、テキスト化部１０８から送られるテキスト化された音声の情報と話者の情報から、話者の顔位置（吹き出しの表示位置又は字幕スーパーの表示位置）と音声のテキスト情報を組み合わせて生成された位置特定情報を吹き出し作成部１１２へ送る。更に位置特定部１０９では、話者の顔の向きや大きさ、音声の発声継続時間を判断して口元に吹き出しを生成するか、字幕スーパーとして表示するかの位置特定情報も決定する。例えば、ズーム操作を行い話者の顔の大きさが音声の発声継続時間に対して大きく変わる場合、口元に吹き出しを出すと画面が見にくくなることが考えられろため、画面下に字幕スーパーを表示する。また、話者が音声の発声継続時間中に後ろを向いてしまった場合には話者の映像継続性を判断して話者を追跡し、口元から頭の先へ吹き出し表示位置を移動する。

また、話者が音声の発声継続時間中に画面内を大きく移動する場合に吹き出しを大きく動かす必要があり画面が見にくくなることが考えられるため、画面下に字幕スーパーを表示する。また、話者が音声の発声継続時間中に画面外へ移動または、話者が物陰に隠れる等画面から消えた場合は、画面内にいる時は口元に吹き出しを表示し、画面から消えた時は画面下に字幕スーパーを表示する。ここに挙げた話者と吹き出しや字幕スーパーの関係は一例であり、他の組み合わせが存在しても良い。

位置特定部１０９により特定された位置特定情報が吹き出し作成部１１２へ送られると、位置特定情報内の吹き出しまたは字幕スーパーの表示位置とテキスト化された音声情報から吹き出しまたは字幕スーパーを表示するための吹き出しデータが作成される。ここで作成される吹き出しデータは、メタデータを用いて記述される。メタデータのタグには、開始フレーム及び終了フレーム、継続時間、効果、フォント、属性（フォント色及び背景色、透明度）、吹き出しの形が指定される。ここで示されたタグは一例を示したものであり、本実施形態のタグ種類を制限するものではない。作成される吹き出しや字幕スーパーをメタデータで記述しているため、編集作業が画像データの編集ではなく、テキストデータの編集ベースで行えて編集作業を容易にしている。

吹き出し作成部１１２で作成された吹き出しデータは、画像データ部１１１と、音声データ部１１３の各データと同期を取って動画像作成部１１４へ送られ、動画の画像形式にまとめられる。代表的な動画形式の規格としては、Motion JPEG,MPEG等が挙げられる。

１１０は同期部で、動画の映像信号と音声信号の同期を取り、それぞれ顔検出部１０３、音声識別部１０４、音声認識部１０５へ供給される。顔検出部１０３では、同期信号から顔を認識開始した時刻とフレーム番号（以下タイムコードと記す）を算出し、顔の移動量（時間あたりの移動量）、映像に映っている時間（顔が認識できなくなったタイムコード）などの情報を生成する。また、音声識別部１０４では、同期信号から話者の音声を認識し、識別することで、発声の開始タイムコード、発声の終了タイムコードを算出する。音声認識部１０５では、同期信号から話者の音声を認識し、言葉として認識を開始したタイムコードと発声の終了タイムコードを算出する。これらの同期信号により、話者の顔画像と、吹き出しの表示開始タイムコード、表示継続時間、表示位置を決定することが可能となり、話者特定や、テキスト化、位置特定、吹き出し作成において、処理速度の違いによる処理時間が異なっても、話者の顔と、音声、吹き出しのずれを無くすことが可能となる。同期部１１０より画像データ部１１１と音声データ部１１３にも同期信号が送られ、動画像ファイルを作成する際に、画像と音声の同期を取るようにしている。

図２は、図１に示す自動吹き出し作成・編集処理機能を有する映像記録・編集装置２００の構成を示している。

２０１はカメラ部で、撮影した画像データがアナログ信号として出力され、Ａ／Ｄ変換部２０２により点順次のデジタルデータに変換され、画像処理部２０３へ送られる。画像処理部２０３では、点順次に送られた映像信号から、色処理、輝度処理等が行われ、上述した自動吹き出し作成・編集処理部１００へ送られる。

２０４はマイク部で、撮影と同時に音声信号を取得し、アナログ音声データとしてＡ／Ｄ変換部２０５へ送られる。Ａ／Ｄ変換部２０５では、サンプリング周期に併せてアナログ音声データをデジタルデータへ変換し、音声信号処理部２０６へ送られる。音声信号処理部２０６で信号処理されたデータは、時系列のデジタルデータとして自動吹き出し作成・編集処理部１００へ送られる。

２０７は装置２００全体を司る制御装置で、内部には制御用マイコン（ＣＰＵ）やプログラム格納用メモリ（ＲＯＭ、フラッシュメモリ、ＲＡＭ等）、データ格納用メモリ（ＲＡＭ）等を含み、装置２００内の各ブロックの制御や装置全体の制御を行う。

２０８は装置２００の操作部材で各種スイッチ、レバー、ボタンなどにより構成され、装置２００のユーザインターフェース部材や装置内のセンサなどの検知部材を含んでいる。これらの操作部材を操作することで、撮影や再生の開始・停止、各種設定、編集操作を行うことが可能である。

２１０は記録装置で、自動吹き出し作成・編集処理部１００で作成された吹き出し付きの動画像データを記録する部分である。記録装置２１０は、ハードディスクやメモリカード、光磁気記憶メディア等、組み込みまたは着脱可能な記録手段で構成されている。動画像データは、記憶媒体によって、生の動画像データとして記憶されることも、ファイル形式として記録されることもある。

２１１は動画像・吹き出し合成処理部で、記録装置２１０から読み出された動画像データまたは自動吹き出し作成・編集処理部１００から出力された動画像データが入力される。入力された動画データに対して、動画の映像データと音声データの同期を取りつつ、吹き出しデータに記録された開始タイムコードに従い、当該フレームが表示されたタイミングから、吹き出しデータに記録された位置情報、効果、属性、フォント、色、吹き出しの形状等により実際の吹き出しを作成して画像合成する。動画像・吹き出し合成処理部２１１では吹き出に対して、固定の形の物や、文字も固定の物から効果によっては、時系列に吹き出しの形を変更させることも、時系列に文字を順次表示することも、時系列にフォント色や吹き出しの背景色を順次変化させることも可能である。

２０９は同期部である。同期部２０９からカメラ部２０１、Ａ／Ｄ変換部２０２、画像処理部２０３へ同期信号が提供され映像信号のサンプリングレートとして使用される。同期部２０９から音声系Ａ／Ｄ変換部２０５、音声信号処理部２０６へ同期信号が供給され音声信号のサンプリングレートとして使用される。同期部２０９から自動吹き出し作成・編集処理部１００へ同期信号が供給され、映像信号と音声信号の同期化及び同期部１１０への供給が行われる。同期部２０９から動画像・吹き出し合成処理２１１へ同期信号が供給され、動画再生時の映像信号と音声信号の同期を取り、吹き出しデータに記録された開始タイムコードに従い、当該フレームが表示されたタイミングから、吹き出しを表示・消去または効果を施すタイミング信号として使用される。

動画像・吹き出し合成処理部２１１で構成された動画像信号は、映像信号として表示装置２１３へ供給され、また音声信号としてスピーカー２１２へ供給される。これにより、スピーカー２１２から登録された人物の音声が出ている時に、表示装置２１３へ吹き出しや字幕スーパーのついた動画像が表示される。

図３は図２の映像記録・編集装置の外観図である。

３００は映像記録・編集装置本体である。３０１は撮影ボタンであり、このボタンを押下することで撮影が開始・停止される。上述した自動吹き出し作成・編集機能が有効な場合、撮影が開始されると自動的に吹き出しや字幕スーパーが作成され、記録される。３０２は接眼レンズ（ビューファインダー）であり撮影者は撮影画像を確認することができる。３０３は撮影レンズであり、このレンズを通して撮影を行う。３０４は液晶ファインダー・再生画面であり撮影中の画像確認や再生画像確認、各種設定の確認を行うことができる。自動吹き出し作成・編集機能が有効ならば、撮影した画像に自動的に吹き出しや字幕スーパーが付加されて表示される。また、吹き出しや字幕スーパーが付加された再生画像も表示される。３０５は操作スイッチで各種設定操作や再生、早送り、巻き戻しなどの操作を行う。

次に、図４乃至図９を参照して、自動吹き出し作成・編集処理の流れについて説明する。

図４は横方向を時間軸として右方向に時間が経過していく際の処理を示している。

映像信号としては、Ａ子のみが映っている映像（図５）と、Ａ子とＢ子の２人が映っている映像（図６）が動画入力部１０１へ入力されている。Ａ子のみが映っている映像は期間４０１であり、Ａ子とＢ子の２人が映っている映像は期間４０２である。一方、音声信号としては、Ａ子の声で「おはようＡ子です。」とＢ子の声で「おはようＢ子です。」とＣ子の声で「Ｃ子です。おはようＡ子、Ｂ子。」が音声入力部１０２へ入力されている。Ａ子が発声している期間は４０３、Ｂ子が発声している期間は４０４、Ｃ子が発声している期間は４０５である。その他の期間は背景の音声が音声入力部１０２へ入力されている。

Ａ子のみが映っている映像期間４０１では、顔検出部１０３によりＡ子の顔特徴量や顔の向き、口の位置などが算出され話者特定部１０７へ送られる。音声・顔対応部１０６には、予めＡ子の顔特徴量と音声特徴量、Ｂ子の顔特徴量と音声特徴量、Ｃ子の顔特徴量と音声特徴量の組み合わせが登録されている。映像期間４０１において、話者特定部１０７ではＡ子の顔特徴量に対して音声・顔対応部１０６に登録されている顔特徴量を照合してＡ子が画面内に存在することを認識している。

一方、音声入力部１０２に入力された音声信号に対して、音声識別部１０４では、音声特徴量を一定周期で算出し、話者特定部１０７へ送っている。話者特定部１０７では音声特徴量に対して音声・顔対応部１０６に登録されている音声特徴量を照合する。Ａ子が発声している期間４０３では、音声識別部１０４においてＡ子の音声特徴量が算出されており、話者特定部１０７において、Ａ子の音声特徴量に対して音声・顔対応部１０６に登録されている音声特徴量を照合してＡ子が話者であることを認識している。このように、話者特定部１０７では期間４０１ではＡ子が画面内に存在すること、期間４０３ではＡ子が画面内に存在し話者であることを認識している。話者特定部１０７では４０３の期間中、Ａ子が話者であることを示す識別情報を音声認識部１０５へ送っている。ここで送られる識別情報としては、Ａ子が話者である期間の情報（期間４０３）及びＡ子の予め登録されている音声特徴量を含むデータで構成されている。音声認識部１０５では、送られた識別情報により音声入力部１０２より送られた音声信号に対して、期間４０３におけるＡ子の音声情報を抽出し、音声認識を行ってＡ子の音声の音素を抽出する。音声認識部１０５で抽出されたＡ子の音声に対する音素データに対して、テキスト化部１０８では、Ａ子が期間４０３で発声した内容「おはようＡ子です。」をテキスト化する。話者特定部１０７で話者特定に時間がかかるため、音声識別部１０４や音声認識部１０５では一定時間の音声を蓄積（記憶）しておき、話者特定部１０７で特定された話者の発声開始時間に遡って、再度音声識別を行うことや音声認識を行うことができるようにしている。

話者特定部１０７では、期間４０３においてＡ子が画面内に存在していることを認識し、顔や口の位置も特定できており、テキスト部１０８ではＡ子が発声した内容のテキスト化も完了している。これらの情報により位置特定部１０９では、吹き出しの位置をＡ子の口元と決定し、位置特定情報を吹き出し作成部１１２へ送る。

吹き出し作成部１１２では、送られた位置特定情報を元に、Ａ子の発声内容「おはようＡ子です。」の吹き出しをＡ子の口元に表示するためのメタデータを作成する。メタデータの記述を表示形態にしたものが４０６である。ここで、吹き出しを作成する際に、Ａ子の発声が終了すると同時に吹き出しデータが消えてしまうことが無いよう、保持時間を設定し発声終了後もしばらく吹き出しを表示することで、内容を読みやすくすることも可能である。また、音声認識部１０５において、音節分割を行い、テキスト化部１０８において、単語単位や音声単位で順次テキストを表示することも可能である。更に、発声時間により、単語単位で継続時間を割り振り、テキストの文字単位で時間に応じて順次テキストを表示することも可能である。また、予め音声・顔対応１０６に話者を登録する際に、テキストや吹き出しの形状、色、効果などを関連付けすることで、話者毎の特徴を持った吹き出しを作成することも可能である。

次に、Ａ子とＢ子が映っている映像期間４０２について説明する。

顔検出部１０３によりＡ子の顔特徴量や顔の向き、口の位置などとＢ子の顔特徴量や顔の向き、口の位置などが算出され、２人分のデータが話者特定部１０７へ送られる。映像期間４０２において、話者特定部１０７ではＡ子の顔特徴量とＢ子の顔特徴量に対して音声・顔対応部１０６に登録されている顔特徴量を照合してＡ子とＢ子の２人が画面内に存在することを認識している。

Ｂ子が発声している期間４０４では、音声識別部１０４においてＢ子の音声特徴量が算出されており、話者特定部１０７において、Ｂ子の音声特徴量に対して音声・顔対応部１０６に登録されている音声特徴量を照合してＢ子が話者であることを認識している。また、Ｃ子が発声している期間４０５では、音声識別部１０４においてＣ子の音声特徴量が算出されており、話者特定部１０７において、Ｃ子の音声特徴量に対して音声・顔対応部１０６に登録されている音声特徴量を照合してＣ子が話者であることを認識している。このようにして、話者特定部１０７では期間４０４ではＢ子が画面内に存在しＢ子が話者であることを認識し、期間４０５ではＣ子が画面内に存在していないがＣ子が話者であることを認識している。

話者特定部１０７では４０４の期間中、Ｂ子が話者であることを示す識別情報を音声認識部１０５へ送っている。音声認識部１０５では、送られた識別情報により音声入力部１０２より送られた音声信号に対して、期間４０４におけるＢ子の音声情報を抽出し、音声認識を行ってＢ子の音声の音素を抽出する。音声認識部１０５で抽出されたＢ子の音声に対する音素データに対して、テキスト化部１０８では、Ｂ子が期間４０４で発声した内容「おはようＢ子です。」をテキスト化する。同様にして、Ｃ子が期間４０５で発声した内容「Ｃ子です。おはようＡ子、Ｂ子。」をテキスト化する。

話者特定部１０７では、期間４０４においてＢ子が画面内に存在していることを認識し、顔や口の位置も特定できており、テキスト化部１０８ではＢ子が発声した内容のテキスト化も完了している。これらの情報により位置特定部１０９では、吹き出しの位置をＢ子の口元と決定し、位置特定情報を吹き出し作成部１１２へ送る。

一方、話者特定部１０７では、期間４０５においてＣ子が画面内に存在しないことを認識しており、テキスト部１０８ではＣ子が発声した内容のテキスト化が完了している。これらの情報により位置特定部１０９では、吹き出しではなく字幕スーパーを画面下と決定し、位置特定情報を吹き出し作成部１１２へ送る。本実施形態の映像では話者が発声中に画面内から消える場合や、後ろを向く場合、話者の画面内での大きさの変化や位置の変化が大きい場合は示していないが、このような場合には前述の処理が行われても良い。

吹き出し作成部１１２では、Ｂ子が発声した期間４０４に対して送られた位置特定情報を元に、Ｂ子の発声内容「おはようＢ子です。」の吹き出しをＢ子の口元に表示するためのメタデータを作成する。このメタデータの記述を表示形態にしたものが４０７である。また、Ｃ子が発声した期間４０５に対して送られた位置特定情報を元に、Ｃ子の発声内容「Ｃ子です。おはようＡ子、Ｂ子。」の字幕スーパーを画面下に表示するためのメタデータを作成する。このメタデータの記述を表示形態にしたものが４０８である。

このように吹き出し作成部１１２で時系列に作成された吹き出しデータは、画像データ部１１１と音声データ部１１３と同期部１１０から提供される同期信号を基にして動画像作成部１１４で動画像データとして組み立てられる。

このようにして組み立てられた動画像データは、動画像・吹き出し合成処理部２１１に送られると映像と音声信号が同期を取って再生され映像信号は表示装置２１３へ、音声信号はスピーカー２１２へ送られる。Ａ子が映っている映像期間４０１で、登録されている人物の音声を検出していない状態では、吹き出しが生成されない状態である（区間１）。

区間１では、図５のようにＡ子が映っている画像が表示される。Ａ子が映っている映像期間４０１で、Ａ子が発声している期間４０３を含む期間（吹き出し作成部１１２で定義された表示期間）では吹き出し４０６が生成され、映像信号に合成されて表示される（区間２）。

区間２では、図６のようにＡ子が映っており、Ａ子の口元から吹き出しが表示される。Ａ子とＢ子が映っている映像期間４０２で、登録されている人物の音声を検出していない状態では、吹き出しが生成されない状態である（区間３）。

区間３では、図７のようにＡ子とＢ子が映っている画像が表示される。Ａ子とＢ子が映っている映像期間４０２で、Ｂ子が発声している期間４０４を含む期間（吹き出し作成部１１２で定義された表示期間）では吹き出し４０７が生成され、映像信号に合成されて表示される（区間４）。

区間４では、図８のようにＡ子とＢ子が映っており、Ｂ子の口元から吹き出しが表示される。Ａ子とＢ子が映っている映像期間４０２で、Ｂ子の発声が完了し吹き出し作成部１１２で定義された表示期間が過ぎると、登録されている人物の音声を検出していない状態となり、吹き出しが生成されない（区間５）。

区間５では、図７のようにＡ子とＢ子が映っている画像が表示される。Ａ子とＢ子が映っている映像期間４０２で、Ｃ子が発声している期間４０５を含む期間（吹き出し作成部１１２で定義された表示期間）では字幕スーパー４０８が生成され、映像信号に合成されて表示される（区間６）。

区間６では、図９のようにＡ子とＢ子が映っており、画面下に字幕スーパーが表示される。

このように、本実施形態によれば、予め登録されている人物の音声・顔対応データに対して、顔検出及び音声識別を行い、話者を特定することで、話者の音声認識による台詞自動テキスト化により、容易に吹き出しや字幕スーパーを作成することが可能となる。

［第２の実施形態］
図１７は本発明に係る実施形態の自動吹き出し作成・編集処理機能を実現するソフトウェアを備える動画像データ編集装置を例示している。

本実施形態では、上記動画像データ編集装置を、表示装置６０１、キーボード６０２、マウス６０３を備えるパーソナルコンピュータ６００で実現しているが、ビデオ記録編集装置（磁気テープ記録式、光磁気ディスク記録式、光記録ディスク記録式、磁気ディスク記録式等）、編集専用装置であってもよい。

図１２は、本実施形態の自動吹き出し作成・編集処理を実現するソフトウェアの機能により表示装置６０１に表示される表示画面を例示している。

５０１は編集対象の動画像の映像を表示する領域である。５０２は音声・顔対応部１０６に登録されている話者の一覧を表示する領域である。５０３、５０４、５０５は登録されている話者１人毎の情報が表示される領域である。５０６は話者の画像内存在状態であって、映像領域５０１において表示されている動画像に対して、動画入力部１０１を通して入力される映像信号が話者特定部１０７で顔認識されている話者を示している。すなわち、映像領域５０１には、現在５０３の話者情報に登録されている人物が映っていることを示している。５０８は話者の発声状態表示であって、映像領域５０１において表示されている動画像に対して、音声入力部１０２を通して入力される音声信号が話者特定部１０７で音声認識されている話者を示している。すなわち、現在５０３の話者情報に登録されている人物が話者として発声していることを示している。５０７は話者一覧表示領域５０２内の話者をスクロールさせるためのスライダである。５０９は映像領域５０１に表示されている動画像データ内の位置を示すスライダであり、スライダのレバーを移動することで、任意の位置に動画像データ内を移動することが可能である。５１０は動画像データの音声入力１０２へ入力される音声信号のレベルを示している。５１１は話者特定部１０７において登録されている話者を検出した時点（検出開始時点）の動画像データ内のタイムコードを示している。５１２は話者特定部１０７において登録されている話者の発声が終了した時点（検出終了時点）の動画像データ内のタイムコードを示している。５１３は現在の映像領域５０１に表示されている映像の動画像データ内のタイムコードを示している。５１４はアプリケーションの動作状態を示している。アプリケーションの状態には、音声・顔識別中、音声認識・テキスト化（書き取り）中の各状態がある。５１５は音声・顔識別の開始ボタンである。当該ボタンを押下することで、音声・顔の識別が開始され、話者特定が行われる。５１６はプレビューボタンで、自動的に作成されたまたはユーザにより編集された吹き出しや字幕スーパーを動画像データと共に合成して再生することができる。ここで挙げた画面のイメージは本実施形態を説明するための一例であり、本実施形態の機能を制限するものではない。

続いてフローチャート及び表示画面例を参照して、本実施形態のソフトウェアの動作について説明する。

図１０は、自動吹き出し作成・編集処理機能を実現するソフトウェアによる音声・顔対応データ登録処理を表すフローチャートである。また、図１３は音声・顔対応登録処理における表示画面の一例である。

なお、本ソフトウェアによる処理を実行するに当たっては音声特徴量と顔特徴量の関連付けを行っておくことが必要である。

先ず、音声・顔対応登録を開始する（Ｓ１００）と、音声・顔対応登録画面５２０が表示され、人物名入力ステップ（Ｓ１０１）となる。人物名入力ステップ（Ｓ１０１）では、音声・顔対応登録画面５２０の人物名入力フィールド５２１に人物名を入力する。続いて、人物の顔特徴量を登録するために顔画像取り込みステップ（Ｓ１０２）を行う。顔画像取り込みステップ（Ｓ１０２）では、顔画像取り込みボタン５２６を押下することで顔の画像を取り込み、取り込んだ画像は顔表示領域５２２に表示されると共に、顔特徴量の演算ステップ（Ｓ１０３）が実行される。続いて、人物の音声特徴量を登録するために音声取り込みステップ（Ｓ１０４）を行う。音声取り込みステップ（Ｓ１０４）では、音声取り込みボタン５２７を押下することで音声を取り込み、取り込んだ音声のレベルが音声レベル表示領域５２５に表示されると共に、音声特徴量の演算ステップ（Ｓ１０５）が実行される。本実施形態では、顔識別のための顔特徴量登録及び音声識別のための音声特徴量登録は１回しか実行していないが、複数回実行してもよい。例えば、顔特徴量を取得する際、正面、左右斜め方向、上下斜め方向の特徴量を演算することで、話者が正面以外を向いていても識別率を向上させることができる。音声特徴量に関しても、複数の単語や声の強弱を変化させ特徴量を演算することで、様々な状況下での識別率を向上させることができる。

顔特徴量と音声特徴量の演算が完了すると、吹き出しの設定ステップ（Ｓ１０６）及び字幕スーパーの設定ステップ（Ｓ１０７）を行う。吹き出しの設定ステップ（Ｓ１０６）では、吹き出しプロパティ設定項目Ｓ１１０を設定する。吹き出しプロパティ設定ボタン５２３を押下すると吹き出しプロパティ設定画面５３０が表示される。設定画面内には、吹き出しプロパティ設定項目Ｓ１１０の項目毎にタブ５３１、５３２、５３３が設けられており設定したい項目のタブを選択し、各項目の設定を行う。図１３では吹き出しの形状を選択するタブ５３１の設定画面を表示している。選択リスト５３５に設定可能な形状が複数示されており、この中から好みの形状を選択する。同様に字幕スーパー設定ステップ（Ｓ１０７）では、字幕スーパープロパティ設定項目Ｓ１１１を設定する。字幕スーパープロパティ設定ボタン５２４を押下すると字幕スーパープロパティ設定画面が表示され、字幕スーパープロパティ設定項目Ｓ１１１の設定を行う。本実施形態の吹き出しプロパティ設定項目Ｓ１１０、字幕スーパープロパティ設定項目Ｓ１１１は一例であり、他の設定項目があっても良く、本提案の内容を制限するものではない。

音声・顔特徴量の演算、吹き出し設定、字幕スーパー設定が完了すると記録の確認ステップ（Ｓ１０８）が行われ、記録して良ければ音声・顔対応記録ステップ（Ｓ１０９）が実行されて音声・顔対応部１０６へ登録される。

図１１は吹き出し作成（Ｓ１２０）及び吹き出し編集（Ｓ１４０）を示すフローチャートである。

吹き出し作成（Ｓ１２０）が開始されると、最初に動画像の入力ステップ（Ｓ１２１）が実行される。例えば、ファイル（Ｆ）を選択して既存の動画像ファイルを読み込む、またファイル（Ｆ）を選択して外部入力（外部の動画像再生機器、ビデオカメラ、ビデオデッキ、ＤＶＤプレーヤ等）より動画像を読み込む。

動画像の入力が決定すると、話者検出開始ステップ（Ｓ１２２）が実行される。図１２の画面で話者検出開始ボタン５１５を押下すると動画像入力ステップ（Ｓ１２１）で指定された動画像データの映像データが動画入力部１０１へ、音声データが音声入力部１０２へ入力される。入力された映像信号は顔検出部１０３、話者特定部１０７へ送られる。入力された音声信号は音声識別部１０４、話者特定部１０７へ送られる。

話者検出開始ステップ（Ｓ１２２）により話者検出が開始されると、話者特定中ステップ（Ｓ１２３）となる。話者特定中ステップ（Ｓ１２３）では状態表示５１４が「話者特定中」となる。話者特定中ステップ（Ｓ１２３）では、話者特定部１０７に入力される動画像の顔特徴量、音声特徴量と音声・顔対応部１０６に登録された話者の顔特徴量、音声特徴量が照合され、話者の特定が実施される。話者特定部１０７において、音声特徴量が一致した話者を検出すると、発声の開始タイムコードと発声の終了タイムコード、話者人物名、顔認識状態がアプリケーションに通知され話者検出終了ステップ（Ｓ１２４）が実行される。

話者検出終了ステップ（Ｓ１２４）では、動画像データから動画入力部１０１、音声入力部１０２への入力が停止し、話者特定部１０７の話者特定処理も停止する。また話者が特定された発声開始タイムコード５１１、発声終了タイムコード５１２が表示される。更に話者人物名、顔認識状態により話者の画像内存在状態５０６、話者の発声状態５０８が表示される。図１２ではＡ子が画面に映っており、Ａ子の声で「おはようＡ子です。」を発声した状態を示している。

話者検出が終了する（Ｓ１２４）と音声認識ステップ（Ｓ１２５）が開始される。音声認識ステップ（Ｓ１２５）では、状態表示５１４が「音声認識中」となる。音声認識ステップ（Ｓ１２５）では、Ａ子の発声開始タイムコード、発声終了タイムコードにより再度動画像データより当該時刻区間の音声信号を音声入力部１０２へ入力し、音声認識部１０５により音声認識を行い、テキスト化ステップ（Ｓ１２５）がテキスト化部１０８にて行われる。本実施形態では当該時刻区間を動画像データから読み取っているが、音声入力部１０２または音声識別部１０５で過去一定期間の音声データを保持しており、その音声データを用いて音声認識、テキスト化を行っても良い。

音声認識ステップ（Ｓ１２５）、テキスト化ステップ（Ｓ１２６）が終了すると、吹き出し自動作成ステップ（Ｓ１２７）が実行される。吹き出し自動作成ステップ（Ｓ１２７）では、話者特定中ステップ（Ｓ１２３）により特定された話者人物名、顔認識状態により、話者が画面内に存在する場合には吹き出しを、話者が画面内に存在しない場合には字幕スーパーを自動作成する。吹き出し自動作成ステップ（Ｓ１２７）では、位置特定部１０９に話者特定部１０７において検出された話者人物名、顔認識状態より吹き出しまたは字幕スーパーの表示位置を決定する。位置特定部１０９で決定された表示位置と、テキスト化ステップ（Ｓ１２５）によりテキスト化部１０８でテキスト化された音声情報を吹き出し作成部１１２へ入力し、吹き出しまたは字幕スーパーが作成される。吹き出し作成部１１２において吹き出しを作成する際には、音声・顔対応部１０６に登録されている話者人物名に対応する吹き出しプロパティ設定の吹き出しの形状、吹き出し背景色、文字フォント、文字色、吹き出し透明度、効果、表示保持時間に基づき、吹き出しデータを作成する。また、吹き出し作成部１１２において字幕スーパーを作成する際には、音声・顔対応部１０６に登録されている話者人物名に対応する字幕スーパープロパティ設定の字幕スーパー背景色、文字フォント、文字色、字幕スーパー透明度、効果、表示保持時間に基づき、字幕スーパーとして吹き出しデータを作成する。

吹き出し自動作成ステップ（Ｓ１２７）で作成された吹き出しデータにより、吹き出し表示ステップ（Ｓ１２８）が実行される。吹き出し表示ステップ（Ｓ１２８）では吹き出しを表示する際には、図１４の映像領域５０１に吹き出しデータに基づき吹き出し５４０を作成して表示する。また、吹き出し表示ステップ（Ｓ１２８）では字幕スーパーを表示する際には、図１５の映像領域５０１に吹き出しデータに基づき字幕スーパー５６０を作成して表示する。

吹き出し表示ステップ（Ｓ１２８）の後、吹き出し編集ステップ（Ｓ１２９）が実行される。吹き出し編集ステップ（Ｓ１２９、Ｓ１４０）では、吹き出し自動作成ステップ（Ｓ１２７）で作成された吹き出しデータに対して、文字の確認ステップ（Ｓ１４１）、文字の修正ステップ（Ｓ１４４）、吹き出しの設定変更ステップ（Ｓ１４５）により吹き出しデータを編集する。

以下では、吹き出し編集処理及び字幕スーパー編集処理について説明する。

図１４は吹き出しの編集画面である。吹き出し編集ステップＳ１４０が実行され、吹き出しデータが吹き出しの場合、吹き出し設定画面５４１が表示される。吹き出し編集画面５４１は、画像確認領域５４２、テキスト表示・編集領域５４３、吹き出し表示期間中の表示位置を表示・移動する為のスライダ５４４、吹き出しプロパティ設定５４５、話者人物名５４６、発声の開始タイムコード５４７と発声の終了タイムコード５４８、音声再認識ボタン５４９，音声再生ボタン５５０，確認ボタン５５１で構成される。図１４では、Ａ子が「おはようＡ子です。」を発声している状態の吹き出し編集画面である。文字の確認ステップ（Ｓ１４１）では、吹き出しデータよりテキストを取得しテキスト表示・編集領域５４３へ表示する。ユーザは修正確認ステップ（Ｓ１４２）により修正の有無を判断する。修正が必要な場合には、必要に応じて音声再生ボタン５５０を押下し音声再生ステップ（Ｓ１４３）により発声の開始タイムコード５４７から発声の終了タイムコード５４８まで動画像データより音声を再生することができる。また、スライダ５４４を移動させることで、発声期間中の任意の位置から音声を再生することができる。ユーザは音声を聞きながら、文字修正ステップ（Ｓ１４４）でテキスト表示・編集領域５４３に表示されたテキストを編集・修正することができる。また、音声再認識ボタン５４９により、再度音声認識（Ｓ１２５）、テキスト化（Ｓ１２６）を実施することもできる。吹き出しの表示テキスト内容が確認されたら、必要に応じて吹き出し設定変更ステップ（Ｓ１４５）を実行する。吹き出しデータは、音声・顔対応１０６内に登録されているＡ子の吹き出しプロパティ設定の内容がコピーされている。吹き出しプロパティ設定５４５に設定されている内容を変更することで、個別の吹き出しデータの吹き出しプロパティの設定を変更することができる。ここで変更された吹き出しプロパティ設定は、「おはようＡ子です。」の吹き出しのみに対して有効であり、音声・顔対応１０６に登録されているＡ子の吹き出しプロパティ設定には影響がない。吹き出しの編集が完了したら、確認ボタン５５１を押下して吹き出し編集ステップＳ１２９が完了する。

図１５は字幕スーパーの編集画面である。吹き出し編集ステップＳ１４０が実行され、吹き出しデータが字幕スーパーの場合、字幕スーパー設定画面５６１が表示される。字幕スーパー編集画面５６１は、画像確認領域５６２、テキスト表示・編集領域５６３、吹き出し表示期間中の表示位置を表示・移動するためのスライダ５６４、字幕スーパープロパティ設定５６５、話者人物名５６６、発声の開始タイムコード５６７と発声の終了タイムコード５６８、音声再認識ボタン５６９，音声再生ボタン５７０，確認ボタン５７１で構成される。図１５では、Ｃ子が「Ｃ子です。おはようＡ子、Ｂ子。」を発声している状態の字幕スーパー編集画面である。文字の確認ステップ（Ｓ１４１）では、吹き出しデータよりテキストを取得しテキスト表示・編集領域５６３へ表示する。ユーザは修正確認ステップ（Ｓ１４２）により修正の有無を判断する。修正が必要な場合には、必要に応じて音声再生ボタン５７０を押下し音声再生ステップ（Ｓ１４３）により発声の開始タイムコード５６７から発声の終了タイムコード５６８まで動画像データより音声を再生することができる。また、スライダ５６４を移動させることで、発声期間中の任意の位置から音声を再生することができる。ユーザは音声を聞きながら、文字修正ステップ（Ｓ１４４）でテキスト表示・編集領域５６３に表示されたテキストを編集・修正することができる。また、音声再認識ボタン５６９により、再度音声認識（Ｓ１２５）、テキスト化（Ｓ１２６）を実施することもできる。字幕スーパーの表示テキスト内容が確認されたら、必要に応じて吹き出し設定変更ステップ（Ｓ１４５）を実行する。吹き出しデータは、音声・顔対応１０６内に登録されているＣ子の字幕スーパープロパティ設定の内容がコピーされている。字幕スーパープロパティ設定５６５に設定されている内容を変更することで、個別の吹き出しデータの字幕スーパープロパティ設定を変更することができる。ここで変更された字幕スーパープロパティ設定は、「Ｃ子です。おはようＡ子、Ｂ子。」の字幕スーパーのみに対して有効であり、音声・顔対応１０６に登録されているＣ子の字幕スーパープロパティ設定には影響がない。吹き出しの編集が完了したら、確認ボタン５７１を押下して吹き出し編集ステップ（Ｓ１２９）が完了する。

吹き出し編集ステップ（Ｓ１２９）において、当該話者が画面内に存在する場合、図１４の吹き出し５４０が映像領域５０１に表示されているが、吹き出し５４０を指定して吹き出しの位置や向き、大きさの調整を行うことが可能である。また、吹き出し５４０を指定して字幕スーパーへ変更することも可能である。ここで説明された吹き出し編集手順や画面は一例を説明するものであって、本発明がその編集手順や画面を制限されるものではない。例えば、話者検出から自動吹き出し作成までを動画像データ全体に対して実行し、その後に個別の吹き出しや字幕スーパーの編集操作を行っても良い。

吹き出し編集ステップ（Ｓ１２９）が完了すると、プレビュー表示ステップ（Ｓ１３０）で編集した吹き出しの確認を行うことができる。図１２において、プレビューボタン５１６を押下するとプレビュー画面が表示される。

図１６はプレビュー画面である。

５８０は映像と吹き出しを合成した画像を表示する映像領域である。５８１は映像領域５８０に表示されている映像のタイムコードである。５８２から５８６は再生を行うための操作ボタンである。５８２は直前の発声開始タイムコードへの移動ボタン、５８３は巻き戻しボタン、５８４は再生ボタン、５８５は早送りボタン、５８６は直後の発声開始タイムコードへの移動ボタンである。５８７は吹き出し情報ウィンドウであり、スライダ５９２を用いて動画像データ内任意の範囲の吹き出し情報を表示することができる。５８８はタイムコードスケールであり、登録話者の画像内存在開始タイムコード、存在終了タイムコード、発声開始タイムコード、発声終了タイムコードが表示される。図の例では、01:12:20 14はＡ子が映り始めたタイムコード、01:12:21 05はＡ子の発声開始タイムコード、01:12:24 12はＡ子の発声終了タイムコード、01:12:26 02はＡ子とＢ子が映り始めたタイムコード、01:22:27 15はＢ子の発声開始タイムコードである。５８９は登録話者の画像内存在開始タイムコード、発声開始タイムコードにおけるインデックス画像である。５９０は吹き出し情報表示で、吹き出し内に表示されるテキスト情報と吹き出しの表示時間を示したものである。吹き出し表示時間は、発声時間に表示保持時間を加えた時間となっている。５９１は字幕スーパー情報表示で、字幕スーパー内に表示されるテキスト情報と字幕スーパーの表示時間を示したものである。字幕スーパー表示時間は、発声時間に表示保持時間を加えた時間となっている。

プレビュー画面では、再生ボタン５８４を押すことで現在のタイムコードから吹き出し付きで再生が行われ、吹き出しの内容、効果などを確認することができる。巻き戻しボタン５８３を押すことで、逆方向に再生する。２回以上押すことで巻き戻しの速度を速めることができる。早送りボタン５８４を押すことで正方向に再生する。２回以上押すことで早送りの速度を速めることができる。直前の発声開始タイムコードへの移動ボタン５８２は現在タイムコードの直前に話者が発声を開始したタイムコードまで戻すことができる。直後の発声開始タイムコードへの移動ボタン５８６は現在タイムコードの直後に話者が発声を開始したタイムコードまで早送りすることができる。これらのボタンは話者の発声開始タイムコードへの移動が割り当てられているが、話者の画像内存在開始タイムコード、存在終了タイムコード、発声開始タイムコード、発声終了タイムコードへの移動ボタンとしても割り当てることが可能であっても良い。

プレビュー画面では、タイムコードスケール５８８の任意のタイムコードまたはインデックス画像５８９を指定することで、指定されたタイムコードの画像を吹き出しや字幕スーパー付きで呼び出すことができる。

プレビュー画面では、吹き出し情報表示５９０のテキスト部分を選択することで、吹き出し編集画面５４１を呼び出すことも可能である。吹き出し情報表示５９０のテキスト部分の左端を移動することで吹き出しの表示開始タイムコードを前後に調整することも可能である。吹き出し情報表示５９０のテキスト部分の右端を移動することで吹き出しの表示終了タイムコードを前後に調整することも可能である。また、プレビュー画面では、字幕スーパー情報表示５９１のテキスト部分を選択することで、字幕スーパー編集画面５６１を呼び出すことも可能である。字幕スーパー情報表示５９１のテキスト部分の左端を移動することで字幕スーパーの表示開始タイムコードを前後に調整することも可能である。字幕スーパー情報表示５９１のテキスト部分の右端を移動することで字幕スーパーの表示終了タイムコードを前後に調整することも可能である。更に吹き出し情報表示５９０のテキスト部分を字幕スーパー情報表示５９１に移動することで吹き出し表示から字幕スーパー表示への切り替えを行うことも可能である。

プレビュー表示ステップ（Ｓ１３０）で編集した吹き出しの確認を行い（Ｓ１３１）、修正が必要であれば再度吹き出し編集ステップ（Ｓ１２９）へ戻り、修正が不要であれば編集終了確認ステップ（Ｓ１３２）を行う。吹き出しが更にある場合には次の話者検出開始ステップ（Ｓ１２２）へ戻り、次の話者を検出する。編集終了確認ステップ（Ｓ１３２）が完了すると吹き出し作成は完了し、動画像作成ステップ（Ｓ１３３）において、画像データ１１１と音声データ１１３と吹き出しデータを動画像作成部１１４でまとめて動画像データとして作成する。作成された動画像データは、動画像出力ステップ（Ｓ１３４）で保存される。例えば、ファイル（Ｆ）を選択して新規の動画像ファイルとして書き込む、またファイル（Ｆ）を選択して外部出力（外部の動画像記録機器、ビデオカメラ、ビデオデッキ、ＤＶＤレコーダ等）へ動画像を書き込む。

上記実施形態によれば、入力された動画データの顔と音声から話者を特定し、話者の位置と該当する話者の音声より吹き出しデータを作成するので、該当する話者の画像付近に吹き出しを表示でき、吹き出しや字幕スーパーの作成や編集が容易になる。

また、動画の撮影と同時に話者を特定し吹き出しや字幕スーパーの作成を行うことができるため、撮影後の吹き出しや字幕スーパーの編集が容易になる。また、外部からの動画像の入力と同時に話者を特定し吹き出しや字幕スーパーの作成を行うことができるため、画像入力後の吹き出しや字幕スーパーの編集が容易になる。

［他の実施形態］
以上、本発明に係る実施形態について具体例を用いて詳述したが、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体（記録媒体）等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図示の各機能ブロックやフローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体（記憶媒体）としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。

本発明に係る実施形態の自動吹き出し作成・編集処理機能を実現するためのブロック図である。図１に示す自動吹き出し作成・編集処理機能を有する映像記録・編集装置の構成を示す図である。図２の映像記録・編集装置の外観図である。自動吹き出し作成・編集処理における、映像、音声、吹き出し、字幕スーパー、合成画像が生成される様子を時系列的に示した図である。自動吹き出し作成・編集処理において作成される画像イメージ（Ａ子）を示す図である。自動吹き出し作成・編集処理において作成される画像イメージ（Ａ子と吹き出し）を示す図である。自動吹き出し作成・編集処理において作成される画像イメージ（Ａ子とＢ子）を示す図である。自動吹き出し作成・編集処理において作成される画像イメージ（Ａ子とＢ子と吹き出し）を示す図である。自動吹き出し作成・編集処理において作成される画像イメージ（Ａ子とＢ子と字幕スーパー）を示す図である。自動吹き出し作成・編集処理機能における音声・顔対応データ登録処理を表すフローチャートである。吹き出し作成及び吹き出し編集を示すフローチャートである。自動吹き出し作成・編集処理を行う際の表示画面例を示す図である。図１０の音声・顔対応登録処理を行う際の表示画面例を示す図である。吹き出し編集処理を行う際の編集画面例を示す図である。字幕スーパー編集処理を行う際の編集画面例を示す図である。自動吹き出し作成・編集処理結果をプレビューする際の表示画面例を示す図である。本発明に係る実施形態の自動吹き出し作成・編集処理機能を実現するソフトウェアを備える動画像データ編集装置を示す図である。

符号の説明

100 自動吹き出し作成・編集処理部
101 動画入力部
102 音声入力部
103 顔検出部
104 音声識別部
105 音声認識部
106 音声・顔対応部
107 話者特定部
108 テキスト化部
109 位置特定部
110 同期部
111 画像データ部
112 吹き出し作成部
113 音声データ部
114 動画像作成部
200 映像記録・編集装置
201 カメラ部
202 映像系Ａ／Ｄ変換部
203 画像処理部
204 マイク入力部
205 音声系Ａ／Ｄ変換部
206 音声信号処理部
207 制御装置
208 操作部材
209 同期部
210 記録装置
211 動画像・吹き出し合成処理部
212 スピーカー
213 表示装置
300 映像記録・編集装置
301 撮影ボタン
302 接眼レンズ（ファインダー）
303 撮影レンズ
304 液晶ファインダー、再生画面
305 操作ボタン
406 吹き出し（Ａ子）
407 吹き出し（Ｂ子）
408 字幕スーパー（Ｃ子）
501 映像領域
503,504,505 話者情報
510 音声信号レベル
511 発声開始タイムコード
512 発声終了タイムコード
513 現在の表示映像タイムコード
514 動作状態
515 開始ボタン
516 プレビューボタン
520 音声・顔登録画面
521 人物名入力フィールド
522 顔表示領域
525 音声レベル表示領域
526 顔画像取り込みボタン
527 音声取り込みボタン
530 吹き出しプロパティ設定画面
541 吹き出し編集画面
542 画像確認領域
543 テキスト表示・編集領域
544 スライダ
549 音声再認識ボタン
550 音声再生ボタン
551 確認ボタン
561 字幕スーパー設定画面
562 画像確認領域
563 テキスト表示・編集領域
564 スライダ
569 音声再認識ボタン
570 音声再生ボタン
571 確認ボタン
580 映像領域
581 映像のタイムコード
582 直前の発声開始タイムコードへの移動ボタン
583 巻き戻しボタン
584 再生ボタン
585 早送りボタン
586 直後の発声開始タイムコードへの移動ボタン
588 タイムコードスケール
589 インデックス画像
590 吹き出し情報表示
591 字幕スーパー情報表示
592 スライダ
600 パーソナルコンピュータ
601 表示装置（ディスプレイ）
602 キーボード
603 マウス

Claims

画像及び音声を含む動画データから字幕を作成する装置であって、
前記動画データの画像部分から顔の特徴量を検出する顔検出手段と、
前記動画データの音声部分から音声の特徴量を検出する音声識別手段と、
前記顔検出手段により検出された顔の特徴量及び前記音声識別手段により検出された音声の特徴量を、予め準備された特定話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定手段と、
特定された前記話者の顔位置を特定する位置特定手段と、
特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識手段と、
前記位置特定手段により得られる顔位置と、前記音声認識手段により生成されたテキストデータとに基づいて、特定話者から発声された文字列のテキストデータを画像中に表示するための吹き出しデータを作成する吹き出し作成手段と、
前記画像データと前記音声データに前記吹き出しデータとをまとめて新たに動画データを作成する動画像作成手段と、を具備することを特徴とする装置。
前記画像及び音声を同期させて話者の発声開始から発声終了までを管理する同期手段を更に備え、
前記吹き出し作成手段は、前記位置特定手段により得られる顔位置と、前記音声認識手段により生成されたテキストデータと、前記同期手段より得られる発声開始から発声終了までの時間とに基づいて、前記吹き出しデータを作成することを特徴とする請求項１に記載の装置。
前記顔検出手段は、前記画像部分から顔の向きと口の位置を検出し、
前記位置特定手段は、前記吹き出しデータを前記顔の向きに合わせて表示できるように、前記話者の顔の向きと口の位置を特定することを特徴とする請求項１に記載の装置。
前記吹き出し作成手段は、前記話者特定手段により特定された話者に対応した吹き出しの形、色、柄、大きさ、文字の色、大きさ、字体の少なくともいずれかを編集可能な手段を有することを特徴とする請求項１に記載の装置。
前記吹き出し作成手段は、前記位置特定手段により特定された顔位置及び大きさに合わせて吹き出しの大きさと文字の大きさを変更することを特徴とする請求項１に記載の装置。
前記吹き出し作成手段は、前記話者特定手段において話者の音声を認識したが顔が認識できない場合に、所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項１に記載の装置。
前記吹き出し作成手段は、前記発声開始から発声終了までの間に、話者の顔が認識できなくなった場合、当該認識できなくなった時点から所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項１に記載の装置。
前記吹き出し作成手段は、前記発声開始から発声終了までの間に、前記顔検出手段により話者の顔を追跡し、当該話者の顔が認識できなくなった場合、頭部を追跡して発声終了までの吹き出しデータを作成することを特徴とする請求項１に記載の装置。
前記吹き出し作成手段は、前記発声開始から発声終了までの間に、話者が画面内において予め設定された移動量を超えて移動した場合、所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項１に記載の装置。
前記吹き出しデータの文字列は、テキストデータで記述されるメタデータを含む言語で記述されることを特徴とする請求項１に記載の装置。
前記動画データを撮影又は外部から入力可能な動画入力手段を更に備えることを特徴とする請求項１乃至１０のいずれか１項に記載の装置。
動画データを記録する記録手段を更に備え、
前記動画像作成手段は、前記動画入力手段により入力された動画データから前記吹き出しデータを生成し、当該吹き出しデータを付加して作成された動画データを前記記録手段に順次記録することを特徴とする請求項１１に記載の装置。
画像及び音声を含む動画データから字幕を作成する方法であって、
前記動画データの画像部分から顔の特徴量を検出する顔検出工程と、
前記動画データの音声部分から音声の特徴量を検出する音声識別工程と、
前記顔検出工程にて検出された顔の特徴量及び前記音声識別工程にて検出された音声の特徴量を、予め準備された特定話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定工程と、
特定された前記話者の顔位置を特定する位置特定工程と、
特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識工程と、
前記位置特定工程により得られる顔位置と、前記音声認識工程により生成されたテキストデータとに基づいて、特定話者から発声された文字列のテキストデータを画像中に表示するための吹き出しデータを作成する吹き出し作成工程と、
前記画像データと前記音声データに前記吹き出しデータとをまとめて新たに動画データを作成する動画像作成工程と、を備えることを特徴とする方法。
前記画像及び音声を同期させて話者の発声開始から発声終了までを管理する同期工程を更に備え、
前記吹き出し作成工程では、前記位置特定工程により得られる顔位置と、前記音声認識工程により生成されたテキストデータと、前記同期工程より得られる発声開始から発声終了までの時間とに基づいて、前記吹き出しデータを作成することを特徴とする請求項１３に記載の方法。
前記顔検出工程では、前記画像データ中の顔の向きと口の位置を検出し、
前記位置特定工程では、前記吹き出しデータを前記顔の向きに合わせて表示できるように、前記話者の顔の向きと口の位置を特定することを特徴とする請求項１３に記載の方法。
前記吹き出し作成工程では、前記話者特定工程により特定された話者に対応した吹き出しの形、色、柄、大きさ、文字の色、大きさ、字体の少なくともいずれかを編集可能であることを特徴とする請求項１３に記載の方法。
前記吹き出し作成工程では、前記位置特定工程により特定された顔位置及び大きさに合わせて吹き出しの大きさと文字の大きさを変更することを特徴とする請求項１３に記載の方法。
前記吹き出し作成工程では、前記話者特定工程において話者の音声を認識したが顔が認識できない場合に、所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項１３に記載の方法。
前記吹き出し作成工程では、前記発声開始から発声終了までの間に、話者の顔が認識できなくなった場合、当該認識できなくなった時点から所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項１３に記載の方法。
前記吹き出し作成工程では、前記発声開始から発声終了までの間に、前記顔検出工程により話者の顔を追跡し、当該話者の顔が認識できなくなった場合、頭部を追跡して発声終了までの吹き出しデータを作成することを特徴とする請求項１３に記載の方法。
前記吹き出し作成工程では、前記発声開始から発声終了までの間に、話者が画面内において予め設定された移動量を超えて移動した場合、所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項１３に記載の方法。
前記吹き出しデータの文字列は、テキストデータで記述されるメタデータを含む言語で記述されることを特徴とする請求項１３に記載の方法。
前記動画データを撮影又は外部から入力可能な動画入力工程を更に備えることを特徴とする請求項１３乃至２２のいずれか１項に記載の方法。
動画データを記録手段に記録する記録工程を更に備え、
前記動画像作成工程では、前記動画入力工程により入力された動画データから前記吹き出しデータを生成し、
前記記録工程では、当該吹き出しデータを付加して作成された動画データを前記記録手段に順次記録することを特徴とする請求項２３に記載の方法。
請求項１３乃至２４のいずれか１項に記載の方法をコンピュータに実行させるためのプログラム。
請求項２５に記載のプログラムを記憶したことを特徴とするコンピュータ可読記憶媒体。