JP2007027990A - 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 - Google Patents

動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 Download PDF

Info

Publication number
JP2007027990A
JP2007027990A JP2005204736A JP2005204736A JP2007027990A JP 2007027990 A JP2007027990 A JP 2007027990A JP 2005204736 A JP2005204736 A JP 2005204736A JP 2005204736 A JP2005204736 A JP 2005204736A JP 2007027990 A JP2007027990 A JP 2007027990A
Authority
JP
Japan
Prior art keywords
balloon
speaker
data
face
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005204736A
Other languages
English (en)
Other versions
JP4599244B2 (ja
Inventor
Yoshihiro Kurakata
恵弘 倉片
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005204736A priority Critical patent/JP4599244B2/ja
Publication of JP2007027990A publication Critical patent/JP2007027990A/ja
Application granted granted Critical
Publication of JP4599244B2 publication Critical patent/JP4599244B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】吹き出しや字幕スーパーの作成、編集を容易化する。
【解決手段】動画データは顔検出手段103に入力されて顔特徴量と顔位置が検出され、音声識別手段104に入力されて音声特徴量が検出される。検出された各特徴量は話者特定手段107に送られ、音声・顔対応データ記憶手段106に登録されている話者の特徴量と比較されて特定話者の位置が特定される。特定された話者の音声は、音声認識手段105によりテキスト化される。話者の位置とテキストデータにより吹き出し作成手段112により吹き出しが作成され、動画像作成手段114により動画データと音声データと吹き出しデータとをまとめて新たな動画データが作成される。
【選択図】 図1

Description

本発明は、動画データから字幕を自動生成及び編集する技術に関する。
近年、デジタルビデオカメラやデジタルカメラ等のように動画をデジタルデータで撮影できる機能を持った装置が普及し、それに伴い撮影した画像をデジタルビデオカメラやデジタルカメラで編集したり、撮影した動画を加工してオリジナル画像を楽しむ人が増えてきている。また、撮影した動画をパーソナルコンピュータに取り込み、パーソナルコンピュータで編集を行い、タイトル合成や字幕スーパーの追加を行ってオリジナル動画を作成する人も増えている。
一方、公共のテレビ放送においても、話者の台詞を字幕スーパーとして表示することで効果を演出し、また耳の不自由な人のために話者の台詞を字幕スーパーとして表示するサービスも行っているところも多くなっている。
このように、撮影した動画に対して、話者の台詞を字幕スーパーとして動画データと重ねて表示するといったニーズが増えている。
撮影した動画に対して、話者の台詞を字幕スーパーとして動画に取り込む際には、通常編集ソフトにおいて、テキストデータを台詞として入力し、話者の近辺に吹き出しとして表示するか、映画などのように画面下に字幕スーパーとして表示するように編集される。
この編集作業は時間のかかるもので、動画を再生し、編集者が耳で聞き取った結果を必要なテキストデータとして編集ソフトから入力し、あるフレーズが再生にかかる時間だけ表示するように編集しなければならない。また、誰が話者であるかを判断し、字幕スーパーの表示位置や字幕の色などを変える際には編集者がそれぞれ個別に位置や色などを指定する必要があり、編集が非常に困難かつ時間のかかるものになっていた。
これらの作業を簡単に効率よく行うための技術として、下記の公開技術の応用が考えられる。即ち、
撮影画像から顔領域を検出し、予め作成したテキストデータを吹き出しとして、検出された顔の口元付近に表示する方法(例えば、特許文献1の請求項10)やマイク等の音声入力端末に対して発言者が対応付けされており、音声からテキストへの変換を自動的に行い、発言者の顔を検出し、変換したテキストデータを吹き出しとして発言者の顔付近に表示する方法(例えば、特許文献2の請求項2)が提案されている。これらを支える技術として、顔領域の特徴量から特定の顔を識別する方法(例えば、特許文献3)や入力音声に含まれる特徴量を抽出し、予め登録されている音声の特徴量とのパターンマッチングを行う方法(例えば、特許文献4)、入力音声からテキスト化を行い、議事録を作成する方法(例えば、特許文献5)が提案されている。
特開2002−176619号公報 特開2003−339034号公報 特開平8−063597号公報 特開平6−083382号公報 特開平8−194492号公報
しかしながら、上記技術においては、簡単に字幕を作成するために、話者の音声データからテキストデータを作成し、話者の顔付近に吹き出しとして字幕スーパーの表示を行うことが可能であるが、話者の音声と話者の顔の対応付けはされておらず、予め話者を特定することが必要であった。従って、予め話者を特定した後に、話者の顔付近に字幕スーパーを表示するように編集していたため、自動的に話者を判別して所定の話者のところに吹き出しを付けるといった作業はできなかった。即ち、編集作業では必ず話者の特定を行い、その後編集することが必要であった。本発明は、このような課題を解決することを目的としている。
上記課題を解決するために、本発明は、画像及び音声を含む動画データから字幕を作成する装置であって、前記動画データの画像部分から顔の特徴量を検出する顔検出手段と、前記動画データの音声部分から音声の特徴量を検出する音声識別手段と、前記顔検出手段により検出された顔の特徴量及び前記音声識別手段により検出された音声の特徴量を、予め準備された特定話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定手段と、特定された前記話者の顔位置を特定する位置特定手段と、特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識手段と、前記位置特定手段により得られる顔位置と、前記音声認識手段により生成されたテキストデータとに基づいて、特定話者から発声された文字列のテキストデータを画像中に表示するための吹き出しデータを作成する吹き出し作成手段と、前記画像データと前記音声データに前記吹き出しデータとをまとめて新たに動画データを作成する動画像作成手段と、を具備する。
また、本発明は、画像及び音声を含む動画データから字幕を作成する方法であって、前記動画データの画像部分から顔の特徴量を検出する顔検出工程と、前記動画データの音声部分から音声の特徴量を検出する音声識別工程と、前記顔検出工程にて検出された顔の特徴量及び前記音声識別工程にて検出された音声の特徴量を、予め準備された特定話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定工程と、特定された前記話者の顔位置を特定する位置特定工程と、特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識工程と、前記位置特定工程により得られる顔位置と、前記音声認識工程により生成されたテキストデータとに基づいて、特定話者から発声された文字列のテキストデータを画像中に表示するための吹き出しデータを作成する吹き出し作成工程と、前記画像データと前記音声データに前記吹き出しデータとをまとめて新たに動画データを作成する動画像作成工程と、を備える。
なお、本発明は、コンピュータに上記画像及び音声を含む動画データから字幕を作成する方法を実行させるためのプログラムや、当該プログラムを記憶したコンピュータ可読記憶媒体としても実現可能である。
本発明によれば、入力された動画データの顔と音声から話者を特定し、話者の位置と該当する話者の音声より吹き出しデータを作成するので、該当する話者の画像付近に吹き出しを表示でき、吹き出しや字幕スーパーの作成や編集が容易になる。
以下に、添付図面を参照して本発明の好適な実施形態について詳細に説明する。
尚、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。
[第1の実施形態]
図1は本発明に係る実施形態の自動吹き出し作成・編集処理機能を実現するためのブロック図である。
101は動画入力部であり、動画の映像信号を入力する。入力される映像信号はデジタルデータとして入力される。入力された映像信号は、顔検出部103と画像データ部111へ送られる。顔検出部103では、入力された映像信号から人間の顔を抽出し、その特徴量を算出する。顔検出のアルゴリズムに関しては、肌色検出、目鼻口検出、顔の輪郭検出等既知の技術を用いている。特徴量の算出に関しては、検出された人間の顔に対して、目鼻口の位置関係や大きさ、顔の輪郭に対する比率等を組み合わせた既知の特徴量算出を用いている。また、顔検出部103では、顔の大きさや口の位置、顔の向きを判断し、これらの情報も顔特徴量して話者特定部107へ送られる。
102は音声入力部であり、動画の音声信号を入力する。入力される音声信号はデジタルデータとして入力される。入力された音声信号は、音声識別部104と音声認識部105と音声データ部113へ送られる。音声識別部104では、入力された音声信号から音声の特徴量を算出する。音声認識のアルゴリズムに関しては、音声周波数の特性、声の強弱特性等を組み合わせた既知の特徴量算出を用いている。
顔検出部103より算出された特徴量と音声識別部104より算出され特徴量は話者特定部107へ送られる。話者特定部107では、顔検出部103と音声識別部104より送られた特徴量に対して音声・顔対応部106に登録されている個人の音声特徴量と顔特徴量を比較・参照して話者を特定する。複数の人物が顔検出部103で認識されている場合には複数の顔特徴量が送られ、複数の人物が音声識別部104で認識されている場合には複数の音声特徴量が送られる。これら複数の特徴量が送られた場合には、特徴量の組み合わせを行い、音声・顔対応部106に登録されている音声特徴量と顔特徴量を比較・参照して複数人の話者を特定することも可能である。話者特定部107において、話者が特定されると、それぞれの話者の顔位置や大きさに関する情報が位置特定部109に送られ、また話者の識別情報が音声認識部105へ送られる。
105は音声認識部であり、音声入力部102より入力された音声信号に対して、話者特定部107から通知される話者の識別情報により、特定話者に該当する場合に音声認識を行う。音声認識のアルゴリズムは、周辺ノイズの除去、特徴抽出、音響モデルによる音素検出等、既知の技術を用いている。
音声認識部105で音素に分解された情報はテキスト化部108へ送られ、語彙分析、文法解析が行われ、発声された文字列のテキストデータが生成される。テキスト化部108における音声のテキスト化アルゴリズムは、語彙分析や文法解析、辞書引き等、既知の技術を用いている。テキスト化された音声情報は、話者の情報と共に位置特定部109へ送られる。
音声認識部105及びテキスト化部108では、複数の話者に対して、話者毎に音声認識及びテキスト化を行うことが可能である。これにより同時に複数の人物が映っている状態で、複数の人物が話している場合でも、話者毎のテキスト化された音声情報が生成される。
位置特定部109では、話者特定部107から送られる話者の顔位置や大きさに関する情報と、テキスト化部108から送られるテキスト化された音声の情報と話者の情報から、話者の顔位置(吹き出しの表示位置又は字幕スーパーの表示位置)と音声のテキスト情報を組み合わせて生成された位置特定情報を吹き出し作成部112へ送る。更に位置特定部109では、話者の顔の向きや大きさ、音声の発声継続時間を判断して口元に吹き出しを生成するか、字幕スーパーとして表示するかの位置特定情報も決定する。例えば、ズーム操作を行い話者の顔の大きさが音声の発声継続時間に対して大きく変わる場合、口元に吹き出しを出すと画面が見にくくなることが考えられろため、画面下に字幕スーパーを表示する。また、話者が音声の発声継続時間中に後ろを向いてしまった場合には話者の映像継続性を判断して話者を追跡し、口元から頭の先へ吹き出し表示位置を移動する。
また、話者が音声の発声継続時間中に画面内を大きく移動する場合に吹き出しを大きく動かす必要があり画面が見にくくなることが考えられるため、画面下に字幕スーパーを表示する。また、話者が音声の発声継続時間中に画面外へ移動または、話者が物陰に隠れる等画面から消えた場合は、画面内にいる時は口元に吹き出しを表示し、画面から消えた時は画面下に字幕スーパーを表示する。ここに挙げた話者と吹き出しや字幕スーパーの関係は一例であり、他の組み合わせが存在しても良い。
位置特定部109により特定された位置特定情報が吹き出し作成部112へ送られると、位置特定情報内の吹き出しまたは字幕スーパーの表示位置とテキスト化された音声情報から吹き出しまたは字幕スーパーを表示するための吹き出しデータが作成される。ここで作成される吹き出しデータは、メタデータを用いて記述される。メタデータのタグには、開始フレーム及び終了フレーム、継続時間、効果、フォント、属性(フォント色及び背景色、透明度)、吹き出しの形が指定される。ここで示されたタグは一例を示したものであり、本実施形態のタグ種類を制限するものではない。作成される吹き出しや字幕スーパーをメタデータで記述しているため、編集作業が画像データの編集ではなく、テキストデータの編集ベースで行えて編集作業を容易にしている。
吹き出し作成部112で作成された吹き出しデータは、画像データ部111と、音声データ部113の各データと同期を取って動画像作成部114へ送られ、動画の画像形式にまとめられる。代表的な動画形式の規格としては、Motion JPEG,MPEG等が挙げられる。
110は同期部で、動画の映像信号と音声信号の同期を取り、それぞれ顔検出部103、音声識別部104、音声認識部105へ供給される。顔検出部103では、同期信号から顔を認識開始した時刻とフレーム番号(以下タイムコードと記す)を算出し、顔の移動量(時間あたりの移動量)、映像に映っている時間(顔が認識できなくなったタイムコード)などの情報を生成する。また、音声識別部104では、同期信号から話者の音声を認識し、識別することで、発声の開始タイムコード、発声の終了タイムコードを算出する。音声認識部105では、同期信号から話者の音声を認識し、言葉として認識を開始したタイムコードと発声の終了タイムコードを算出する。これらの同期信号により、話者の顔画像と、吹き出しの表示開始タイムコード、表示継続時間、表示位置を決定することが可能となり、話者特定や、テキスト化、位置特定、吹き出し作成において、処理速度の違いによる処理時間が異なっても、話者の顔と、音声、吹き出しのずれを無くすことが可能となる。同期部110より画像データ部111と音声データ部113にも同期信号が送られ、動画像ファイルを作成する際に、画像と音声の同期を取るようにしている。
図2は、図1に示す自動吹き出し作成・編集処理機能を有する映像記録・編集装置200の構成を示している。
201はカメラ部で、撮影した画像データがアナログ信号として出力され、A/D変換部202により点順次のデジタルデータに変換され、画像処理部203へ送られる。画像処理部203では、点順次に送られた映像信号から、色処理、輝度処理等が行われ、上述した自動吹き出し作成・編集処理部100へ送られる。
204はマイク部で、撮影と同時に音声信号を取得し、アナログ音声データとしてA/D変換部205へ送られる。A/D変換部205では、サンプリング周期に併せてアナログ音声データをデジタルデータへ変換し、音声信号処理部206へ送られる。音声信号処理部206で信号処理されたデータは、時系列のデジタルデータとして自動吹き出し作成・編集処理部100へ送られる。
207は装置200全体を司る制御装置で、内部には制御用マイコン(CPU)やプログラム格納用メモリ(ROM、フラッシュメモリ、RAM等)、データ格納用メモリ(RAM)等を含み、装置200内の各ブロックの制御や装置全体の制御を行う。
208は装置200の操作部材で各種スイッチ、レバー、ボタンなどにより構成され、装置200のユーザインターフェース部材や装置内のセンサなどの検知部材を含んでいる。これらの操作部材を操作することで、撮影や再生の開始・停止、各種設定、編集操作を行うことが可能である。
210は記録装置で、自動吹き出し作成・編集処理部100で作成された吹き出し付きの動画像データを記録する部分である。記録装置210は、ハードディスクやメモリカード、光磁気記憶メディア等、組み込みまたは着脱可能な記録手段で構成されている。動画像データは、記憶媒体によって、生の動画像データとして記憶されることも、ファイル形式として記録されることもある。
211は動画像・吹き出し合成処理部で、記録装置210から読み出された動画像データまたは自動吹き出し作成・編集処理部100から出力された動画像データが入力される。入力された動画データに対して、動画の映像データと音声データの同期を取りつつ、吹き出しデータに記録された開始タイムコードに従い、当該フレームが表示されたタイミングから、吹き出しデータに記録された位置情報、効果、属性、フォント、色、吹き出しの形状等により実際の吹き出しを作成して画像合成する。動画像・吹き出し合成処理部211では吹き出に対して、固定の形の物や、文字も固定の物から効果によっては、時系列に吹き出しの形を変更させることも、時系列に文字を順次表示することも、時系列にフォント色や吹き出しの背景色を順次変化させることも可能である。
209は同期部である。同期部209からカメラ部201、A/D変換部202、画像処理部203へ同期信号が提供され映像信号のサンプリングレートとして使用される。同期部209から音声系A/D変換部205、音声信号処理部206へ同期信号が供給され音声信号のサンプリングレートとして使用される。同期部209から自動吹き出し作成・編集処理部100へ同期信号が供給され、映像信号と音声信号の同期化及び同期部110への供給が行われる。同期部209から動画像・吹き出し合成処理211へ同期信号が供給され、動画再生時の映像信号と音声信号の同期を取り、吹き出しデータに記録された開始タイムコードに従い、当該フレームが表示されたタイミングから、吹き出しを表示・消去または効果を施すタイミング信号として使用される。
動画像・吹き出し合成処理部211で構成された動画像信号は、映像信号として表示装置213へ供給され、また音声信号としてスピーカー212へ供給される。これにより、スピーカー212から登録された人物の音声が出ている時に、表示装置213へ吹き出しや字幕スーパーのついた動画像が表示される。
図3は図2の映像記録・編集装置の外観図である。
300は映像記録・編集装置本体である。301は撮影ボタンであり、このボタンを押下することで撮影が開始・停止される。上述した自動吹き出し作成・編集機能が有効な場合、撮影が開始されると自動的に吹き出しや字幕スーパーが作成され、記録される。302は接眼レンズ(ビューファインダー)であり撮影者は撮影画像を確認することができる。303は撮影レンズであり、このレンズを通して撮影を行う。304は液晶ファインダー・再生画面であり撮影中の画像確認や再生画像確認、各種設定の確認を行うことができる。自動吹き出し作成・編集機能が有効ならば、撮影した画像に自動的に吹き出しや字幕スーパーが付加されて表示される。また、吹き出しや字幕スーパーが付加された再生画像も表示される。305は操作スイッチで各種設定操作や再生、早送り、巻き戻しなどの操作を行う。
次に、図4乃至図9を参照して、自動吹き出し作成・編集処理の流れについて説明する。
図4は横方向を時間軸として右方向に時間が経過していく際の処理を示している。
映像信号としては、A子のみが映っている映像(図5)と、A子とB子の2人が映っている映像(図6)が動画入力部101へ入力されている。A子のみが映っている映像は期間401であり、A子とB子の2人が映っている映像は期間402である。一方、音声信号としては、A子の声で「おはようA子です。」とB子の声で「おはようB子です。」とC子の声で「C子です。おはようA子、B子。」が音声入力部102へ入力されている。A子が発声している期間は403、B子が発声している期間は404、C子が発声している期間は405である。その他の期間は背景の音声が音声入力部102へ入力されている。
A子のみが映っている映像期間401では、顔検出部103によりA子の顔特徴量や顔の向き、口の位置などが算出され話者特定部107へ送られる。音声・顔対応部106には、予めA子の顔特徴量と音声特徴量、B子の顔特徴量と音声特徴量、C子の顔特徴量と音声特徴量の組み合わせが登録されている。映像期間401において、話者特定部107ではA子の顔特徴量に対して音声・顔対応部106に登録されている顔特徴量を照合してA子が画面内に存在することを認識している。
一方、音声入力部102に入力された音声信号に対して、音声識別部104では、音声特徴量を一定周期で算出し、話者特定部107へ送っている。話者特定部107では音声特徴量に対して音声・顔対応部106に登録されている音声特徴量を照合する。A子が発声している期間403では、音声識別部104においてA子の音声特徴量が算出されており、話者特定部107において、A子の音声特徴量に対して音声・顔対応部106に登録されている音声特徴量を照合してA子が話者であることを認識している。このように、話者特定部107では期間401ではA子が画面内に存在すること、期間403ではA子が画面内に存在し話者であることを認識している。話者特定部107では403の期間中、A子が話者であることを示す識別情報を音声認識部105へ送っている。ここで送られる識別情報としては、A子が話者である期間の情報(期間403)及びA子の予め登録されている音声特徴量を含むデータで構成されている。音声認識部105では、送られた識別情報により音声入力部102より送られた音声信号に対して、期間403におけるA子の音声情報を抽出し、音声認識を行ってA子の音声の音素を抽出する。音声認識部105で抽出されたA子の音声に対する音素データに対して、テキスト化部108では、A子が期間403で発声した内容「おはようA子です。」をテキスト化する。話者特定部107で話者特定に時間がかかるため、音声識別部104や音声認識部105では一定時間の音声を蓄積(記憶)しておき、話者特定部107で特定された話者の発声開始時間に遡って、再度音声識別を行うことや音声認識を行うことができるようにしている。
話者特定部107では、期間403においてA子が画面内に存在していることを認識し、顔や口の位置も特定できており、テキスト部108ではA子が発声した内容のテキスト化も完了している。これらの情報により位置特定部109では、吹き出しの位置をA子の口元と決定し、位置特定情報を吹き出し作成部112へ送る。
吹き出し作成部112では、送られた位置特定情報を元に、A子の発声内容「おはようA子です。」の吹き出しをA子の口元に表示するためのメタデータを作成する。メタデータの記述を表示形態にしたものが406である。ここで、吹き出しを作成する際に、A子の発声が終了すると同時に吹き出しデータが消えてしまうことが無いよう、保持時間を設定し発声終了後もしばらく吹き出しを表示することで、内容を読みやすくすることも可能である。また、音声認識部105において、音節分割を行い、テキスト化部108において、単語単位や音声単位で順次テキストを表示することも可能である。更に、発声時間により、単語単位で継続時間を割り振り、テキストの文字単位で時間に応じて順次テキストを表示することも可能である。また、予め音声・顔対応106に話者を登録する際に、テキストや吹き出しの形状、色、効果などを関連付けすることで、話者毎の特徴を持った吹き出しを作成することも可能である。
次に、A子とB子が映っている映像期間402について説明する。
顔検出部103によりA子の顔特徴量や顔の向き、口の位置などとB子の顔特徴量や顔の向き、口の位置などが算出され、2人分のデータが話者特定部107へ送られる。映像期間402において、話者特定部107ではA子の顔特徴量とB子の顔特徴量に対して音声・顔対応部106に登録されている顔特徴量を照合してA子とB子の2人が画面内に存在することを認識している。
B子が発声している期間404では、音声識別部104においてB子の音声特徴量が算出されており、話者特定部107において、B子の音声特徴量に対して音声・顔対応部106に登録されている音声特徴量を照合してB子が話者であることを認識している。また、C子が発声している期間405では、音声識別部104においてC子の音声特徴量が算出されており、話者特定部107において、C子の音声特徴量に対して音声・顔対応部106に登録されている音声特徴量を照合してC子が話者であることを認識している。このようにして、話者特定部107では期間404ではB子が画面内に存在しB子が話者であることを認識し、期間405ではC子が画面内に存在していないがC子が話者であることを認識している。
話者特定部107では404の期間中、B子が話者であることを示す識別情報を音声認識部105へ送っている。音声認識部105では、送られた識別情報により音声入力部102より送られた音声信号に対して、期間404におけるB子の音声情報を抽出し、音声認識を行ってB子の音声の音素を抽出する。音声認識部105で抽出されたB子の音声に対する音素データに対して、テキスト化部108では、B子が期間404で発声した内容「おはようB子です。」をテキスト化する。同様にして、C子が期間405で発声した内容「C子です。おはようA子、B子。」をテキスト化する。
話者特定部107では、期間404においてB子が画面内に存在していることを認識し、顔や口の位置も特定できており、テキスト化部108ではB子が発声した内容のテキスト化も完了している。これらの情報により位置特定部109では、吹き出しの位置をB子の口元と決定し、位置特定情報を吹き出し作成部112へ送る。
一方、話者特定部107では、期間405においてC子が画面内に存在しないことを認識しており、テキスト部108ではC子が発声した内容のテキスト化が完了している。これらの情報により位置特定部109では、吹き出しではなく字幕スーパーを画面下と決定し、位置特定情報を吹き出し作成部112へ送る。本実施形態の映像では話者が発声中に画面内から消える場合や、後ろを向く場合、話者の画面内での大きさの変化や位置の変化が大きい場合は示していないが、このような場合には前述の処理が行われても良い。
吹き出し作成部112では、B子が発声した期間404に対して送られた位置特定情報を元に、B子の発声内容「おはようB子です。」の吹き出しをB子の口元に表示するためのメタデータを作成する。このメタデータの記述を表示形態にしたものが407である。また、C子が発声した期間405に対して送られた位置特定情報を元に、C子の発声内容「C子です。おはようA子、B子。」の字幕スーパーを画面下に表示するためのメタデータを作成する。このメタデータの記述を表示形態にしたものが408である。
このように吹き出し作成部112で時系列に作成された吹き出しデータは、画像データ部111と音声データ部113と同期部110から提供される同期信号を基にして動画像作成部114で動画像データとして組み立てられる。
このようにして組み立てられた動画像データは、動画像・吹き出し合成処理部211に送られると映像と音声信号が同期を取って再生され映像信号は表示装置213へ、音声信号はスピーカー212へ送られる。A子が映っている映像期間401で、登録されている人物の音声を検出していない状態では、吹き出しが生成されない状態である(区間1)。
区間1では、図5のようにA子が映っている画像が表示される。A子が映っている映像期間401で、A子が発声している期間403を含む期間(吹き出し作成部112で定義された表示期間)では吹き出し406が生成され、映像信号に合成されて表示される(区間2)。
区間2では、図6のようにA子が映っており、A子の口元から吹き出しが表示される。A子とB子が映っている映像期間402で、登録されている人物の音声を検出していない状態では、吹き出しが生成されない状態である(区間3)。
区間3では、図7のようにA子とB子が映っている画像が表示される。A子とB子が映っている映像期間402で、B子が発声している期間404を含む期間(吹き出し作成部112で定義された表示期間)では吹き出し407が生成され、映像信号に合成されて表示される(区間4)。
区間4では、図8のようにA子とB子が映っており、B子の口元から吹き出しが表示される。A子とB子が映っている映像期間402で、B子の発声が完了し吹き出し作成部112で定義された表示期間が過ぎると、登録されている人物の音声を検出していない状態となり、吹き出しが生成されない(区間5)。
区間5では、図7のようにA子とB子が映っている画像が表示される。A子とB子が映っている映像期間402で、C子が発声している期間405を含む期間(吹き出し作成部112で定義された表示期間)では字幕スーパー408が生成され、映像信号に合成されて表示される(区間6)。
区間6では、図9のようにA子とB子が映っており、画面下に字幕スーパーが表示される。
このように、本実施形態によれば、予め登録されている人物の音声・顔対応データに対して、顔検出及び音声識別を行い、話者を特定することで、話者の音声認識による台詞自動テキスト化により、容易に吹き出しや字幕スーパーを作成することが可能となる。
[第2の実施形態]
図17は本発明に係る実施形態の自動吹き出し作成・編集処理機能を実現するソフトウェアを備える動画像データ編集装置を例示している。
本実施形態では、上記動画像データ編集装置を、表示装置601、キーボード602、マウス603を備えるパーソナルコンピュータ600で実現しているが、ビデオ記録編集装置(磁気テープ記録式、光磁気ディスク記録式、光記録ディスク記録式、磁気ディスク記録式等)、編集専用装置であってもよい。
図12は、本実施形態の自動吹き出し作成・編集処理を実現するソフトウェアの機能により表示装置601に表示される表示画面を例示している。
501は編集対象の動画像の映像を表示する領域である。502は音声・顔対応部106に登録されている話者の一覧を表示する領域である。503、504、505は登録されている話者1人毎の情報が表示される領域である。506は話者の画像内存在状態であって、映像領域501において表示されている動画像に対して、動画入力部101を通して入力される映像信号が話者特定部107で顔認識されている話者を示している。すなわち、映像領域501には、現在503の話者情報に登録されている人物が映っていることを示している。508は話者の発声状態表示であって、映像領域501において表示されている動画像に対して、音声入力部102を通して入力される音声信号が話者特定部107で音声認識されている話者を示している。すなわち、現在503の話者情報に登録されている人物が話者として発声していることを示している。507は話者一覧表示領域502内の話者をスクロールさせるためのスライダである。509は映像領域501に表示されている動画像データ内の位置を示すスライダであり、スライダのレバーを移動することで、任意の位置に動画像データ内を移動することが可能である。510は動画像データの音声入力102へ入力される音声信号のレベルを示している。511は話者特定部107において登録されている話者を検出した時点(検出開始時点)の動画像データ内のタイムコードを示している。512は話者特定部107において登録されている話者の発声が終了した時点(検出終了時点)の動画像データ内のタイムコードを示している。513は現在の映像領域501に表示されている映像の動画像データ内のタイムコードを示している。514はアプリケーションの動作状態を示している。アプリケーションの状態には、音声・顔識別中、音声認識・テキスト化(書き取り)中の各状態がある。515は音声・顔識別の開始ボタンである。当該ボタンを押下することで、音声・顔の識別が開始され、話者特定が行われる。516はプレビューボタンで、自動的に作成されたまたはユーザにより編集された吹き出しや字幕スーパーを動画像データと共に合成して再生することができる。ここで挙げた画面のイメージは本実施形態を説明するための一例であり、本実施形態の機能を制限するものではない。
続いてフローチャート及び表示画面例を参照して、本実施形態のソフトウェアの動作について説明する。
図10は、自動吹き出し作成・編集処理機能を実現するソフトウェアによる音声・顔対応データ登録処理を表すフローチャートである。また、図13は音声・顔対応登録処理における表示画面の一例である。
なお、本ソフトウェアによる処理を実行するに当たっては音声特徴量と顔特徴量の関連付けを行っておくことが必要である。
先ず、音声・顔対応登録を開始する(S100)と、音声・顔対応登録画面520が表示され、人物名入力ステップ(S101)となる。人物名入力ステップ(S101)では、音声・顔対応登録画面520の人物名入力フィールド521に人物名を入力する。続いて、人物の顔特徴量を登録するために顔画像取り込みステップ(S102)を行う。顔画像取り込みステップ(S102)では、顔画像取り込みボタン526を押下することで顔の画像を取り込み、取り込んだ画像は顔表示領域522に表示されると共に、顔特徴量の演算ステップ(S103)が実行される。続いて、人物の音声特徴量を登録するために音声取り込みステップ(S104)を行う。音声取り込みステップ(S104)では、音声取り込みボタン527を押下することで音声を取り込み、取り込んだ音声のレベルが音声レベル表示領域525に表示されると共に、音声特徴量の演算ステップ(S105)が実行される。本実施形態では、顔識別のための顔特徴量登録及び音声識別のための音声特徴量登録は1回しか実行していないが、複数回実行してもよい。例えば、顔特徴量を取得する際、正面、左右斜め方向、上下斜め方向の特徴量を演算することで、話者が正面以外を向いていても識別率を向上させることができる。音声特徴量に関しても、複数の単語や声の強弱を変化させ特徴量を演算することで、様々な状況下での識別率を向上させることができる。
顔特徴量と音声特徴量の演算が完了すると、吹き出しの設定ステップ(S106)及び字幕スーパーの設定ステップ(S107)を行う。吹き出しの設定ステップ(S106)では、吹き出しプロパティ設定項目S110を設定する。吹き出しプロパティ設定ボタン523を押下すると吹き出しプロパティ設定画面530が表示される。設定画面内には、吹き出しプロパティ設定項目S110の項目毎にタブ531、532、533が設けられており設定したい項目のタブを選択し、各項目の設定を行う。図13では吹き出しの形状を選択するタブ531の設定画面を表示している。選択リスト535に設定可能な形状が複数示されており、この中から好みの形状を選択する。同様に字幕スーパー設定ステップ(S107)では、字幕スーパープロパティ設定項目S111を設定する。字幕スーパープロパティ設定ボタン524を押下すると字幕スーパープロパティ設定画面が表示され、字幕スーパープロパティ設定項目S111の設定を行う。本実施形態の吹き出しプロパティ設定項目S110、字幕スーパープロパティ設定項目S111は一例であり、他の設定項目があっても良く、本提案の内容を制限するものではない。
音声・顔特徴量の演算、吹き出し設定、字幕スーパー設定が完了すると記録の確認ステップ(S108)が行われ、記録して良ければ音声・顔対応記録ステップ(S109)が実行されて音声・顔対応部106へ登録される。
図11は吹き出し作成(S120)及び吹き出し編集(S140)を示すフローチャートである。
吹き出し作成(S120)が開始されると、最初に動画像の入力ステップ(S121)が実行される。例えば、ファイル(F)を選択して既存の動画像ファイルを読み込む、またファイル(F)を選択して外部入力(外部の動画像再生機器、ビデオカメラ、ビデオデッキ、DVDプレーヤ等)より動画像を読み込む。
動画像の入力が決定すると、話者検出開始ステップ(S122)が実行される。図12の画面で話者検出開始ボタン515を押下すると動画像入力ステップ(S121)で指定された動画像データの映像データが動画入力部101へ、音声データが音声入力部102へ入力される。入力された映像信号は顔検出部103、話者特定部107へ送られる。入力された音声信号は音声識別部104、話者特定部107へ送られる。
話者検出開始ステップ(S122)により話者検出が開始されると、話者特定中ステップ(S123)となる。話者特定中ステップ(S123)では状態表示514が「話者特定中」となる。話者特定中ステップ(S123)では、話者特定部107に入力される動画像の顔特徴量、音声特徴量と音声・顔対応部106に登録された話者の顔特徴量、音声特徴量が照合され、話者の特定が実施される。話者特定部107において、音声特徴量が一致した話者を検出すると、発声の開始タイムコードと発声の終了タイムコード、話者人物名、顔認識状態がアプリケーションに通知され話者検出終了ステップ(S124)が実行される。
話者検出終了ステップ(S124)では、動画像データから動画入力部101、音声入力部102への入力が停止し、話者特定部107の話者特定処理も停止する。また話者が特定された発声開始タイムコード511、発声終了タイムコード512が表示される。更に話者人物名、顔認識状態により話者の画像内存在状態506、話者の発声状態508が表示される。図12ではA子が画面に映っており、A子の声で「おはようA子です。」を発声した状態を示している。
話者検出が終了する(S124)と音声認識ステップ(S125)が開始される。音声認識ステップ(S125)では、状態表示514が「音声認識中」となる。音声認識ステップ(S125)では、A子の発声開始タイムコード、発声終了タイムコードにより再度動画像データより当該時刻区間の音声信号を音声入力部102へ入力し、音声認識部105により音声認識を行い、テキスト化ステップ(S125)がテキスト化部108にて行われる。本実施形態では当該時刻区間を動画像データから読み取っているが、音声入力部102または音声識別部105で過去一定期間の音声データを保持しており、その音声データを用いて音声認識、テキスト化を行っても良い。
音声認識ステップ(S125)、テキスト化ステップ(S126)が終了すると、吹き出し自動作成ステップ(S127)が実行される。吹き出し自動作成ステップ(S127)では、話者特定中ステップ(S123)により特定された話者人物名、顔認識状態により、話者が画面内に存在する場合には吹き出しを、話者が画面内に存在しない場合には字幕スーパーを自動作成する。吹き出し自動作成ステップ(S127)では、位置特定部109に話者特定部107において検出された話者人物名、顔認識状態より吹き出しまたは字幕スーパーの表示位置を決定する。位置特定部109で決定された表示位置と、テキスト化ステップ(S125)によりテキスト化部108でテキスト化された音声情報を吹き出し作成部112へ入力し、吹き出しまたは字幕スーパーが作成される。吹き出し作成部112において吹き出しを作成する際には、音声・顔対応部106に登録されている話者人物名に対応する吹き出しプロパティ設定の吹き出しの形状、吹き出し背景色、文字フォント、文字色、吹き出し透明度、効果、表示保持時間に基づき、吹き出しデータを作成する。また、吹き出し作成部112において字幕スーパーを作成する際には、音声・顔対応部106に登録されている話者人物名に対応する字幕スーパープロパティ設定の字幕スーパー背景色、文字フォント、文字色、字幕スーパー透明度、効果、表示保持時間に基づき、字幕スーパーとして吹き出しデータを作成する。
吹き出し自動作成ステップ(S127)で作成された吹き出しデータにより、吹き出し表示ステップ(S128)が実行される。吹き出し表示ステップ(S128)では吹き出しを表示する際には、図14の映像領域501に吹き出しデータに基づき吹き出し540を作成して表示する。また、吹き出し表示ステップ(S128)では字幕スーパーを表示する際には、図15の映像領域501に吹き出しデータに基づき字幕スーパー560を作成して表示する。
吹き出し表示ステップ(S128)の後、吹き出し編集ステップ(S129)が実行される。吹き出し編集ステップ(S129、S140)では、吹き出し自動作成ステップ(S127)で作成された吹き出しデータに対して、文字の確認ステップ(S141)、文字の修正ステップ(S144)、吹き出しの設定変更ステップ(S145)により吹き出しデータを編集する。
以下では、吹き出し編集処理及び字幕スーパー編集処理について説明する。
図14は吹き出しの編集画面である。吹き出し編集ステップS140が実行され、吹き出しデータが吹き出しの場合、吹き出し設定画面541が表示される。吹き出し編集画面541は、画像確認領域542、テキスト表示・編集領域543、吹き出し表示期間中の表示位置を表示・移動する為のスライダ544、吹き出しプロパティ設定545、話者人物名546、発声の開始タイムコード547と発声の終了タイムコード548、音声再認識ボタン549,音声再生ボタン550,確認ボタン551で構成される。図14では、A子が「おはようA子です。」を発声している状態の吹き出し編集画面である。文字の確認ステップ(S141)では、吹き出しデータよりテキストを取得しテキスト表示・編集領域543へ表示する。ユーザは修正確認ステップ(S142)により修正の有無を判断する。修正が必要な場合には、必要に応じて音声再生ボタン550を押下し音声再生ステップ(S143)により発声の開始タイムコード547から発声の終了タイムコード548まで動画像データより音声を再生することができる。また、スライダ544を移動させることで、発声期間中の任意の位置から音声を再生することができる。ユーザは音声を聞きながら、文字修正ステップ(S144)でテキスト表示・編集領域543に表示されたテキストを編集・修正することができる。また、音声再認識ボタン549により、再度音声認識(S125)、テキスト化(S126)を実施することもできる。吹き出しの表示テキスト内容が確認されたら、必要に応じて吹き出し設定変更ステップ(S145)を実行する。吹き出しデータは、音声・顔対応106内に登録されているA子の吹き出しプロパティ設定の内容がコピーされている。吹き出しプロパティ設定545に設定されている内容を変更することで、個別の吹き出しデータの吹き出しプロパティの設定を変更することができる。ここで変更された吹き出しプロパティ設定は、「おはようA子です。」の吹き出しのみに対して有効であり、音声・顔対応106に登録されているA子の吹き出しプロパティ設定には影響がない。吹き出しの編集が完了したら、確認ボタン551を押下して吹き出し編集ステップS129が完了する。
図15は字幕スーパーの編集画面である。吹き出し編集ステップS140が実行され、吹き出しデータが字幕スーパーの場合、字幕スーパー設定画面561が表示される。字幕スーパー編集画面561は、画像確認領域562、テキスト表示・編集領域563、吹き出し表示期間中の表示位置を表示・移動するためのスライダ564、字幕スーパープロパティ設定565、話者人物名566、発声の開始タイムコード567と発声の終了タイムコード568、音声再認識ボタン569,音声再生ボタン570,確認ボタン571で構成される。図15では、C子が「C子です。おはようA子、B子。」を発声している状態の字幕スーパー編集画面である。文字の確認ステップ(S141)では、吹き出しデータよりテキストを取得しテキスト表示・編集領域563へ表示する。ユーザは修正確認ステップ(S142)により修正の有無を判断する。修正が必要な場合には、必要に応じて音声再生ボタン570を押下し音声再生ステップ(S143)により発声の開始タイムコード567から発声の終了タイムコード568まで動画像データより音声を再生することができる。また、スライダ564を移動させることで、発声期間中の任意の位置から音声を再生することができる。ユーザは音声を聞きながら、文字修正ステップ(S144)でテキスト表示・編集領域563に表示されたテキストを編集・修正することができる。また、音声再認識ボタン569により、再度音声認識(S125)、テキスト化(S126)を実施することもできる。字幕スーパーの表示テキスト内容が確認されたら、必要に応じて吹き出し設定変更ステップ(S145)を実行する。吹き出しデータは、音声・顔対応106内に登録されているC子の字幕スーパープロパティ設定の内容がコピーされている。字幕スーパープロパティ設定565に設定されている内容を変更することで、個別の吹き出しデータの字幕スーパープロパティ設定を変更することができる。ここで変更された字幕スーパープロパティ設定は、「C子です。おはようA子、B子。」の字幕スーパーのみに対して有効であり、音声・顔対応106に登録されているC子の字幕スーパープロパティ設定には影響がない。吹き出しの編集が完了したら、確認ボタン571を押下して吹き出し編集ステップ(S129)が完了する。
吹き出し編集ステップ(S129)において、当該話者が画面内に存在する場合、図14の吹き出し540が映像領域501に表示されているが、吹き出し540を指定して吹き出しの位置や向き、大きさの調整を行うことが可能である。また、吹き出し540を指定して字幕スーパーへ変更することも可能である。ここで説明された吹き出し編集手順や画面は一例を説明するものであって、本発明がその編集手順や画面を制限されるものではない。例えば、話者検出から自動吹き出し作成までを動画像データ全体に対して実行し、その後に個別の吹き出しや字幕スーパーの編集操作を行っても良い。
吹き出し編集ステップ(S129)が完了すると、プレビュー表示ステップ(S130)で編集した吹き出しの確認を行うことができる。図12において、プレビューボタン516を押下するとプレビュー画面が表示される。
図16はプレビュー画面である。
580は映像と吹き出しを合成した画像を表示する映像領域である。581は映像領域580に表示されている映像のタイムコードである。582から586は再生を行うための操作ボタンである。582は直前の発声開始タイムコードへの移動ボタン、583は巻き戻しボタン、584は再生ボタン、585は早送りボタン、586は直後の発声開始タイムコードへの移動ボタンである。587は吹き出し情報ウィンドウであり、スライダ592を用いて動画像データ内任意の範囲の吹き出し情報を表示することができる。588はタイムコードスケールであり、登録話者の画像内存在開始タイムコード、存在終了タイムコード、発声開始タイムコード、発声終了タイムコードが表示される。図の例では、01:12:20 14はA子が映り始めたタイムコード、01:12:21 05はA子の発声開始タイムコード、01:12:24 12はA子の発声終了タイムコード、01:12:26 02はA子とB子が映り始めたタイムコード、01:22:27 15はB子の発声開始タイムコードである。589は登録話者の画像内存在開始タイムコード、発声開始タイムコードにおけるインデックス画像である。590は吹き出し情報表示で、吹き出し内に表示されるテキスト情報と吹き出しの表示時間を示したものである。吹き出し表示時間は、発声時間に表示保持時間を加えた時間となっている。591は字幕スーパー情報表示で、字幕スーパー内に表示されるテキスト情報と字幕スーパーの表示時間を示したものである。字幕スーパー表示時間は、発声時間に表示保持時間を加えた時間となっている。
プレビュー画面では、再生ボタン584を押すことで現在のタイムコードから吹き出し付きで再生が行われ、吹き出しの内容、効果などを確認することができる。巻き戻しボタン583を押すことで、逆方向に再生する。2回以上押すことで巻き戻しの速度を速めることができる。早送りボタン584を押すことで正方向に再生する。2回以上押すことで早送りの速度を速めることができる。直前の発声開始タイムコードへの移動ボタン582は現在タイムコードの直前に話者が発声を開始したタイムコードまで戻すことができる。直後の発声開始タイムコードへの移動ボタン586は現在タイムコードの直後に話者が発声を開始したタイムコードまで早送りすることができる。これらのボタンは話者の発声開始タイムコードへの移動が割り当てられているが、話者の画像内存在開始タイムコード、存在終了タイムコード、発声開始タイムコード、発声終了タイムコードへの移動ボタンとしても割り当てることが可能であっても良い。
プレビュー画面では、タイムコードスケール588の任意のタイムコードまたはインデックス画像589を指定することで、指定されたタイムコードの画像を吹き出しや字幕スーパー付きで呼び出すことができる。
プレビュー画面では、吹き出し情報表示590のテキスト部分を選択することで、吹き出し編集画面541を呼び出すことも可能である。吹き出し情報表示590のテキスト部分の左端を移動することで吹き出しの表示開始タイムコードを前後に調整することも可能である。吹き出し情報表示590のテキスト部分の右端を移動することで吹き出しの表示終了タイムコードを前後に調整することも可能である。また、プレビュー画面では、字幕スーパー情報表示591のテキスト部分を選択することで、字幕スーパー編集画面561を呼び出すことも可能である。字幕スーパー情報表示591のテキスト部分の左端を移動することで字幕スーパーの表示開始タイムコードを前後に調整することも可能である。字幕スーパー情報表示591のテキスト部分の右端を移動することで字幕スーパーの表示終了タイムコードを前後に調整することも可能である。更に吹き出し情報表示590のテキスト部分を字幕スーパー情報表示591に移動することで吹き出し表示から字幕スーパー表示への切り替えを行うことも可能である。
プレビュー表示ステップ(S130)で編集した吹き出しの確認を行い(S131)、修正が必要であれば再度吹き出し編集ステップ(S129)へ戻り、修正が不要であれば編集終了確認ステップ(S132)を行う。吹き出しが更にある場合には次の話者検出開始ステップ(S122)へ戻り、次の話者を検出する。編集終了確認ステップ(S132)が完了すると吹き出し作成は完了し、動画像作成ステップ(S133)において、画像データ111と音声データ113と吹き出しデータを動画像作成部114でまとめて動画像データとして作成する。作成された動画像データは、動画像出力ステップ(S134)で保存される。例えば、ファイル(F)を選択して新規の動画像ファイルとして書き込む、またファイル(F)を選択して外部出力(外部の動画像記録機器、ビデオカメラ、ビデオデッキ、DVDレコーダ等)へ動画像を書き込む。
上記実施形態によれば、入力された動画データの顔と音声から話者を特定し、話者の位置と該当する話者の音声より吹き出しデータを作成するので、該当する話者の画像付近に吹き出しを表示でき、吹き出しや字幕スーパーの作成や編集が容易になる。
また、動画の撮影と同時に話者を特定し吹き出しや字幕スーパーの作成を行うことができるため、撮影後の吹き出しや字幕スーパーの編集が容易になる。また、外部からの動画像の入力と同時に話者を特定し吹き出しや字幕スーパーの作成を行うことができるため、画像入力後の吹き出しや字幕スーパーの編集が容易になる。
[他の実施形態]
以上、本発明に係る実施形態について具体例を用いて詳述したが、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図示の各機能ブロックやフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体(記憶媒体)としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。
本発明に係る実施形態の自動吹き出し作成・編集処理機能を実現するためのブロック図である。 図1に示す自動吹き出し作成・編集処理機能を有する映像記録・編集装置の構成を示す図である。 図2の映像記録・編集装置の外観図である。 自動吹き出し作成・編集処理における、映像、音声、吹き出し、字幕スーパー、合成画像が生成される様子を時系列的に示した図である。 自動吹き出し作成・編集処理において作成される画像イメージ(A子)を示す図である。 自動吹き出し作成・編集処理において作成される画像イメージ(A子と吹き出し)を示す図である。 自動吹き出し作成・編集処理において作成される画像イメージ(A子とB子)を示す図である。 自動吹き出し作成・編集処理において作成される画像イメージ(A子とB子と吹き出し)を示す図である。 自動吹き出し作成・編集処理において作成される画像イメージ(A子とB子と字幕スーパー)を示す図である。 自動吹き出し作成・編集処理機能における音声・顔対応データ登録処理を表すフローチャートである。 吹き出し作成及び吹き出し編集を示すフローチャートである。 自動吹き出し作成・編集処理を行う際の表示画面例を示す図である。 図10の音声・顔対応登録処理を行う際の表示画面例を示す図である。 吹き出し編集処理を行う際の編集画面例を示す図である。 字幕スーパー編集処理を行う際の編集画面例を示す図である。 自動吹き出し作成・編集処理結果をプレビューする際の表示画面例を示す図である。 本発明に係る実施形態の自動吹き出し作成・編集処理機能を実現するソフトウェアを備える動画像データ編集装置を示す図である。
符号の説明
100 自動吹き出し作成・編集処理部
101 動画入力部
102 音声入力部
103 顔検出部
104 音声識別部
105 音声認識部
106 音声・顔対応部
107 話者特定部
108 テキスト化部
109 位置特定部
110 同期部
111 画像データ部
112 吹き出し作成部
113 音声データ部
114 動画像作成部
200 映像記録・編集装置
201 カメラ部
202 映像系A/D変換部
203 画像処理部
204 マイク入力部
205 音声系A/D変換部
206 音声信号処理部
207 制御装置
208 操作部材
209 同期部
210 記録装置
211 動画像・吹き出し合成処理部
212 スピーカー
213 表示装置
300 映像記録・編集装置
301 撮影ボタン
302 接眼レンズ(ファインダー)
303 撮影レンズ
304 液晶ファインダー、再生画面
305 操作ボタン
406 吹き出し(A子)
407 吹き出し(B子)
408 字幕スーパー(C子)
501 映像領域
503,504,505 話者情報
510 音声信号レベル
511 発声開始タイムコード
512 発声終了タイムコード
513 現在の表示映像タイムコード
514 動作状態
515 開始ボタン
516 プレビューボタン
520 音声・顔登録画面
521 人物名入力フィールド
522 顔表示領域
525 音声レベル表示領域
526 顔画像取り込みボタン
527 音声取り込みボタン
530 吹き出しプロパティ設定画面
541 吹き出し編集画面
542 画像確認領域
543 テキスト表示・編集領域
544 スライダ
549 音声再認識ボタン
550 音声再生ボタン
551 確認ボタン
561 字幕スーパー設定画面
562 画像確認領域
563 テキスト表示・編集領域
564 スライダ
569 音声再認識ボタン
570 音声再生ボタン
571 確認ボタン
580 映像領域
581 映像のタイムコード
582 直前の発声開始タイムコードへの移動ボタン
583 巻き戻しボタン
584 再生ボタン
585 早送りボタン
586 直後の発声開始タイムコードへの移動ボタン
588 タイムコードスケール
589 インデックス画像
590 吹き出し情報表示
591 字幕スーパー情報表示
592 スライダ
600 パーソナルコンピュータ
601 表示装置(ディスプレイ)
602 キーボード
603 マウス

Claims (26)

  1. 画像及び音声を含む動画データから字幕を作成する装置であって、
    前記動画データの画像部分から顔の特徴量を検出する顔検出手段と、
    前記動画データの音声部分から音声の特徴量を検出する音声識別手段と、
    前記顔検出手段により検出された顔の特徴量及び前記音声識別手段により検出された音声の特徴量を、予め準備された特定話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定手段と、
    特定された前記話者の顔位置を特定する位置特定手段と、
    特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識手段と、
    前記位置特定手段により得られる顔位置と、前記音声認識手段により生成されたテキストデータとに基づいて、特定話者から発声された文字列のテキストデータを画像中に表示するための吹き出しデータを作成する吹き出し作成手段と、
    前記画像データと前記音声データに前記吹き出しデータとをまとめて新たに動画データを作成する動画像作成手段と、を具備することを特徴とする装置。
  2. 前記画像及び音声を同期させて話者の発声開始から発声終了までを管理する同期手段を更に備え、
    前記吹き出し作成手段は、前記位置特定手段により得られる顔位置と、前記音声認識手段により生成されたテキストデータと、前記同期手段より得られる発声開始から発声終了までの時間とに基づいて、前記吹き出しデータを作成することを特徴とする請求項1に記載の装置。
  3. 前記顔検出手段は、前記画像部分から顔の向きと口の位置を検出し、
    前記位置特定手段は、前記吹き出しデータを前記顔の向きに合わせて表示できるように、前記話者の顔の向きと口の位置を特定することを特徴とする請求項1に記載の装置。
  4. 前記吹き出し作成手段は、前記話者特定手段により特定された話者に対応した吹き出しの形、色、柄、大きさ、文字の色、大きさ、字体の少なくともいずれかを編集可能な手段を有することを特徴とする請求項1に記載の装置。
  5. 前記吹き出し作成手段は、前記位置特定手段により特定された顔位置及び大きさに合わせて吹き出しの大きさと文字の大きさを変更することを特徴とする請求項1に記載の装置。
  6. 前記吹き出し作成手段は、前記話者特定手段において話者の音声を認識したが顔が認識できない場合に、所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項1に記載の装置。
  7. 前記吹き出し作成手段は、前記発声開始から発声終了までの間に、話者の顔が認識できなくなった場合、当該認識できなくなった時点から所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項1に記載の装置。
  8. 前記吹き出し作成手段は、前記発声開始から発声終了までの間に、前記顔検出手段により話者の顔を追跡し、当該話者の顔が認識できなくなった場合、頭部を追跡して発声終了までの吹き出しデータを作成することを特徴とする請求項1に記載の装置。
  9. 前記吹き出し作成手段は、前記発声開始から発声終了までの間に、話者が画面内において予め設定された移動量を超えて移動した場合、所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項1に記載の装置。
  10. 前記吹き出しデータの文字列は、テキストデータで記述されるメタデータを含む言語で記述されることを特徴とする請求項1に記載の装置。
  11. 前記動画データを撮影又は外部から入力可能な動画入力手段を更に備えることを特徴とする請求項1乃至10のいずれか1項に記載の装置。
  12. 動画データを記録する記録手段を更に備え、
    前記動画像作成手段は、前記動画入力手段により入力された動画データから前記吹き出しデータを生成し、当該吹き出しデータを付加して作成された動画データを前記記録手段に順次記録することを特徴とする請求項11に記載の装置。
  13. 画像及び音声を含む動画データから字幕を作成する方法であって、
    前記動画データの画像部分から顔の特徴量を検出する顔検出工程と、
    前記動画データの音声部分から音声の特徴量を検出する音声識別工程と、
    前記顔検出工程にて検出された顔の特徴量及び前記音声識別工程にて検出された音声の特徴量を、予め準備された特定話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定工程と、
    特定された前記話者の顔位置を特定する位置特定工程と、
    特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識工程と、
    前記位置特定工程により得られる顔位置と、前記音声認識工程により生成されたテキストデータとに基づいて、特定話者から発声された文字列のテキストデータを画像中に表示するための吹き出しデータを作成する吹き出し作成工程と、
    前記画像データと前記音声データに前記吹き出しデータとをまとめて新たに動画データを作成する動画像作成工程と、を備えることを特徴とする方法。
  14. 前記画像及び音声を同期させて話者の発声開始から発声終了までを管理する同期工程を更に備え、
    前記吹き出し作成工程では、前記位置特定工程により得られる顔位置と、前記音声認識工程により生成されたテキストデータと、前記同期工程より得られる発声開始から発声終了までの時間とに基づいて、前記吹き出しデータを作成することを特徴とする請求項13に記載の方法。
  15. 前記顔検出工程では、前記画像データ中の顔の向きと口の位置を検出し、
    前記位置特定工程では、前記吹き出しデータを前記顔の向きに合わせて表示できるように、前記話者の顔の向きと口の位置を特定することを特徴とする請求項13に記載の方法。
  16. 前記吹き出し作成工程では、前記話者特定工程により特定された話者に対応した吹き出しの形、色、柄、大きさ、文字の色、大きさ、字体の少なくともいずれかを編集可能であることを特徴とする請求項13に記載の方法。
  17. 前記吹き出し作成工程では、前記位置特定工程により特定された顔位置及び大きさに合わせて吹き出しの大きさと文字の大きさを変更することを特徴とする請求項13に記載の方法。
  18. 前記吹き出し作成工程では、前記話者特定工程において話者の音声を認識したが顔が認識できない場合に、所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項13に記載の方法。
  19. 前記吹き出し作成工程では、前記発声開始から発声終了までの間に、話者の顔が認識できなくなった場合、当該認識できなくなった時点から所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項13に記載の方法。
  20. 前記吹き出し作成工程では、前記発声開始から発声終了までの間に、前記顔検出工程により話者の顔を追跡し、当該話者の顔が認識できなくなった場合、頭部を追跡して発声終了までの吹き出しデータを作成することを特徴とする請求項13に記載の方法。
  21. 前記吹き出し作成工程では、前記発声開始から発声終了までの間に、話者が画面内において予め設定された移動量を超えて移動した場合、所定の表示位置に字幕スーパとして文字列のみを表示するための吹き出しデータを作成することを特徴とする請求項13に記載の方法。
  22. 前記吹き出しデータの文字列は、テキストデータで記述されるメタデータを含む言語で記述されることを特徴とする請求項13に記載の方法。
  23. 前記動画データを撮影又は外部から入力可能な動画入力工程を更に備えることを特徴とする請求項13乃至22のいずれか1項に記載の方法。
  24. 動画データを記録手段に記録する記録工程を更に備え、
    前記動画像作成工程では、前記動画入力工程により入力された動画データから前記吹き出しデータを生成し、
    前記記録工程では、当該吹き出しデータを付加して作成された動画データを前記記録手段に順次記録することを特徴とする請求項23に記載の方法。
  25. 請求項13乃至24のいずれか1項に記載の方法をコンピュータに実行させるためのプログラム。
  26. 請求項25に記載のプログラムを記憶したことを特徴とするコンピュータ可読記憶媒体。
JP2005204736A 2005-07-13 2005-07-13 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 Expired - Fee Related JP4599244B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005204736A JP4599244B2 (ja) 2005-07-13 2005-07-13 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005204736A JP4599244B2 (ja) 2005-07-13 2005-07-13 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体

Publications (2)

Publication Number Publication Date
JP2007027990A true JP2007027990A (ja) 2007-02-01
JP4599244B2 JP4599244B2 (ja) 2010-12-15

Family

ID=37788190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005204736A Expired - Fee Related JP4599244B2 (ja) 2005-07-13 2005-07-13 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体

Country Status (1)

Country Link
JP (1) JP4599244B2 (ja)

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008035704A1 (fr) * 2006-09-21 2008-03-27 Panasonic Corporation Dispositif de génération de sous-titre, procédé de génération de sous-titre, et programme de génération de sous-titre
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
JP2009165002A (ja) * 2008-01-09 2009-07-23 Panasonic Corp 画像符号化装置及び画像符号化方法
WO2009101819A1 (ja) * 2008-02-14 2009-08-20 Panasonic Corporation 再生装置、集積回路、再生方法、プログラム、コンピュータ読取可能な記録媒体
JP2010021991A (ja) * 2008-06-09 2010-01-28 Sony Corp 情報提示装置および情報提示方法
JP2010081457A (ja) * 2008-09-29 2010-04-08 Hitachi Ltd 情報記録再生装置およびビデオカメラ
JP2010134507A (ja) * 2008-12-02 2010-06-17 Canon Inc 再生装置
WO2010073432A1 (ja) * 2008-12-24 2010-07-01 株式会社ソニー・コンピュータエンタテインメント 画像処理装置および画像処理方法
JP2010148132A (ja) * 2010-01-20 2010-07-01 Casio Computer Co Ltd 撮像装置、画像検出装置及びプログラム
JP2010152556A (ja) * 2008-12-24 2010-07-08 Sony Computer Entertainment Inc 画像処理装置および画像処理方法
JP2010176224A (ja) * 2009-01-27 2010-08-12 Nikon Corp 画像処理装置およびデジタルカメラ
WO2010109274A1 (en) * 2009-03-23 2010-09-30 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
JP2010233045A (ja) * 2009-03-27 2010-10-14 Brother Ind Ltd 会議支援装置、会議支援方法、会議システム、会議支援プログラム
JP2011043716A (ja) * 2009-08-21 2011-03-03 Sharp Corp 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
JP2012008973A (ja) * 2010-06-28 2012-01-12 Brother Ind Ltd 情報処理プログラムおよび情報処理装置
EP2426646A1 (en) * 2010-09-06 2012-03-07 Sony Corporation Image processing device, program, and image processing method
EP2426645A1 (en) * 2010-09-06 2012-03-07 Sony Corporation Image processing device, program, and image processing method
JP2012065002A (ja) * 2010-09-14 2012-03-29 Casio Comput Co Ltd 画像合成装置、画像合成方法及びプログラム
JP2012146302A (ja) * 2011-01-11 2012-08-02 Hon Hai Precision Industry Co Ltd 音声をテキストに変換する装置及び方法
US8411160B2 (en) 2007-08-31 2013-04-02 Casio Computer Co., Ltd. Apparatus including function to specify image region of main subject from obtained image, method to specify image region of main subject from obtained image and computer readable storage medium storing program to specify image region of main subject from obtained image
JP2013122695A (ja) * 2011-12-12 2013-06-20 Honda Motor Co Ltd 情報提示装置、情報提示方法、情報提示プログラム、及び情報伝達システム
JP2013172411A (ja) * 2012-02-22 2013-09-02 Nec Corp 音声認識システム、音声認識方法および音声認識プログラム
JP2014038429A (ja) * 2012-08-14 2014-02-27 Zenrin Datacom Co Ltd 画像処理装置、画像処理方法および画像処理プログラム
WO2014049461A1 (en) * 2012-09-26 2014-04-03 International Business Machines Corporation Captioning using socially derived acoustic profiles
CN104036789A (zh) * 2014-01-03 2014-09-10 北京智谷睿拓技术服务有限公司 多媒体处理方法及多媒体装置
JP2014195267A (ja) * 2014-05-02 2014-10-09 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
KR20150041894A (ko) * 2013-10-10 2015-04-20 주식회사 엘지유플러스 동영상 녹음 장치 및 방법
JP2015106014A (ja) * 2013-11-29 2015-06-08 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
KR101529927B1 (ko) * 2008-12-22 2015-06-18 엘지전자 주식회사 단말기 및 그 제어 방법
JP2016127463A (ja) * 2015-01-06 2016-07-11 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置の制御方法、情報システム、および、コンピュータープログラム
US20160211001A1 (en) * 2015-01-20 2016-07-21 Samsung Electronics Co., Ltd. Apparatus and method for editing content
JPWO2014199596A1 (ja) * 2013-06-10 2017-02-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者識別方法、話者識別装置及び話者識別システム
JP2018110312A (ja) * 2016-12-28 2018-07-12 株式会社ミクシィ 情報処理装置,情報処理装置の制御方法及び制御プログラム
WO2019230225A1 (ja) * 2018-05-29 2019-12-05 ソニー株式会社 画像処理装置、画像処理方法、プログラム
JPWO2019160100A1 (ja) * 2018-02-16 2021-02-04 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
JPWO2019160105A1 (ja) * 2018-02-16 2021-02-04 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
JP2021033048A (ja) * 2019-08-23 2021-03-01 サウンドハウンド,インコーポレイテッド 車載装置、発声を処理する方法およびプログラム
CN112887779A (zh) * 2021-01-20 2021-06-01 杭州小众圈科技有限公司 基于语音节奏进行自动滚动字幕的方法、系统及装置
JP2021093618A (ja) * 2019-12-10 2021-06-17 株式会社リチカ 情報処理装置及びプログラム
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
WO2022054453A1 (ja) * 2020-09-08 2022-03-17 ソニーグループ株式会社 撮像装置、撮像システム、及び撮像装置の設定方法
JP2022529225A (ja) * 2019-04-04 2022-06-20 グーグル エルエルシー ビデオ時間調節アンカー
WO2023203924A1 (ja) * 2022-04-18 2023-10-26 国立研究開発法人情報通信研究機構 同時通訳装置、同時通訳システム、同時通訳処理方法、および、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11261890A (ja) * 1998-03-11 1999-09-24 Nippon Telegr & Teleph Corp <Ntt> 映像字幕挿入方法および装置並びに該映像字幕挿入方法を記録した記録媒体
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP2004343488A (ja) * 2003-05-16 2004-12-02 Nec Corp 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP2005124169A (ja) * 2003-09-26 2005-05-12 Matsushita Electric Ind Co Ltd 吹き出し字幕付き映像コンテンツ作成装置、送信装置、再生装置、提供システムならびにそれらで用いられるデータ構造および記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11261890A (ja) * 1998-03-11 1999-09-24 Nippon Telegr & Teleph Corp <Ntt> 映像字幕挿入方法および装置並びに該映像字幕挿入方法を記録した記録媒体
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP2004343488A (ja) * 2003-05-16 2004-12-02 Nec Corp 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP2005124169A (ja) * 2003-09-26 2005-05-12 Matsushita Electric Ind Co Ltd 吹き出し字幕付き映像コンテンツ作成装置、送信装置、再生装置、提供システムならびにそれらで用いられるデータ構造および記録媒体

Cited By (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008079018A (ja) * 2006-09-21 2008-04-03 Matsushita Electric Ind Co Ltd 字幕生成装置、字幕生成方法および字幕生成プログラム
WO2008035704A1 (fr) * 2006-09-21 2008-03-27 Panasonic Corporation Dispositif de génération de sous-titre, procédé de génération de sous-titre, et programme de génération de sous-titre
US8223269B2 (en) 2006-09-21 2012-07-17 Panasonic Corporation Closed caption production device, method and program for synthesizing video, sound and text
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
US8411160B2 (en) 2007-08-31 2013-04-02 Casio Computer Co., Ltd. Apparatus including function to specify image region of main subject from obtained image, method to specify image region of main subject from obtained image and computer readable storage medium storing program to specify image region of main subject from obtained image
JP2009165002A (ja) * 2008-01-09 2009-07-23 Panasonic Corp 画像符号化装置及び画像符号化方法
WO2009101819A1 (ja) * 2008-02-14 2009-08-20 Panasonic Corporation 再生装置、集積回路、再生方法、プログラム、コンピュータ読取可能な記録媒体
US8428437B2 (en) 2008-02-14 2013-04-23 Panasonic Corporation Reproduction device, integrated circuit, reproduction method, program, and computer-readable recording medium
JP2010021991A (ja) * 2008-06-09 2010-01-28 Sony Corp 情報提示装置および情報提示方法
JP4618384B2 (ja) * 2008-06-09 2011-01-26 ソニー株式会社 情報提示装置および情報提示方法
JP2010081457A (ja) * 2008-09-29 2010-04-08 Hitachi Ltd 情報記録再生装置およびビデオカメラ
JP2010134507A (ja) * 2008-12-02 2010-06-17 Canon Inc 再生装置
KR101529927B1 (ko) * 2008-12-22 2015-06-18 엘지전자 주식회사 단말기 및 그 제어 방법
JP2010152556A (ja) * 2008-12-24 2010-07-08 Sony Computer Entertainment Inc 画像処理装置および画像処理方法
US10216987B2 (en) 2008-12-24 2019-02-26 Sony Interactive Entertainment Inc. Image processing device and image processing method
WO2010073432A1 (ja) * 2008-12-24 2010-07-01 株式会社ソニー・コンピュータエンタテインメント 画像処理装置および画像処理方法
JP2010176224A (ja) * 2009-01-27 2010-08-12 Nikon Corp 画像処理装置およびデジタルカメラ
WO2010109274A1 (en) * 2009-03-23 2010-09-30 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
JP2012521705A (ja) * 2009-03-23 2012-09-13 ソニーモバイルコミュニケーションズ, エービー 音声制御画像編集
JP2010233045A (ja) * 2009-03-27 2010-10-14 Brother Ind Ltd 会議支援装置、会議支援方法、会議システム、会議支援プログラム
JP2011043716A (ja) * 2009-08-21 2011-03-03 Sharp Corp 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
CN101998107A (zh) * 2009-08-21 2011-03-30 夏普株式会社 信息处理装置、会议系统和信息处理方法
CN101998107B (zh) * 2009-08-21 2013-05-29 夏普株式会社 信息处理装置、会议系统和信息处理方法
JP2010148132A (ja) * 2010-01-20 2010-07-01 Casio Computer Co Ltd 撮像装置、画像検出装置及びプログラム
US8611724B2 (en) 2010-06-28 2013-12-17 Brother Kogyo Kabushiki Kaisha Computer readable medium, information processing apparatus and method for processing moving image and sound
JP2012008973A (ja) * 2010-06-28 2012-01-12 Brother Ind Ltd 情報処理プログラムおよび情報処理装置
EP2426646A1 (en) * 2010-09-06 2012-03-07 Sony Corporation Image processing device, program, and image processing method
JP2012060240A (ja) * 2010-09-06 2012-03-22 Sony Corp 画像処理装置、プログラム及び画像処理方法
EP2426645A1 (en) * 2010-09-06 2012-03-07 Sony Corporation Image processing device, program, and image processing method
US9865068B2 (en) 2010-09-06 2018-01-09 Sony Corporation Image processing device, and image procesing method
US9741141B2 (en) 2010-09-06 2017-08-22 Sony Corporation Image processing device, program, and image processing method
EP2570994A1 (en) * 2010-09-06 2013-03-20 Sony Corporation Image processing device, program, and image processing method
JP2012065002A (ja) * 2010-09-14 2012-03-29 Casio Comput Co Ltd 画像合成装置、画像合成方法及びプログラム
JP2012146302A (ja) * 2011-01-11 2012-08-02 Hon Hai Precision Industry Co Ltd 音声をテキストに変換する装置及び方法
JP2013122695A (ja) * 2011-12-12 2013-06-20 Honda Motor Co Ltd 情報提示装置、情報提示方法、情報提示プログラム、及び情報伝達システム
US8990078B2 (en) 2011-12-12 2015-03-24 Honda Motor Co., Ltd. Information presentation device associated with sound source separation
JP2013172411A (ja) * 2012-02-22 2013-09-02 Nec Corp 音声認識システム、音声認識方法および音声認識プログラム
JP2014038429A (ja) * 2012-08-14 2014-02-27 Zenrin Datacom Co Ltd 画像処理装置、画像処理方法および画像処理プログラム
US8983836B2 (en) 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
GB2526929A (en) * 2012-09-26 2015-12-09 Ibm Captioning using socially derived acoustic profiles
WO2014049461A1 (en) * 2012-09-26 2014-04-03 International Business Machines Corporation Captioning using socially derived acoustic profiles
GB2526929B (en) * 2012-09-26 2016-12-28 Ibm Captioning using socially derived acoustic profiles
JPWO2014199596A1 (ja) * 2013-06-10 2017-02-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者識別方法、話者識別装置及び話者識別システム
KR20150041894A (ko) * 2013-10-10 2015-04-20 주식회사 엘지유플러스 동영상 녹음 장치 및 방법
KR102155915B1 (ko) * 2013-10-10 2020-09-14 주식회사 엘지유플러스 동영상 녹음 장치 및 방법
JP2015106014A (ja) * 2013-11-29 2015-06-08 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US9691387B2 (en) 2013-11-29 2017-06-27 Honda Motor Co., Ltd. Conversation support apparatus, control method of conversation support apparatus, and program for conversation support apparatus
CN104036789A (zh) * 2014-01-03 2014-09-10 北京智谷睿拓技术服务有限公司 多媒体处理方法及多媒体装置
JP2014195267A (ja) * 2014-05-02 2014-10-09 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
JP2016127463A (ja) * 2015-01-06 2016-07-11 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置の制御方法、情報システム、および、コンピュータープログラム
US20160211001A1 (en) * 2015-01-20 2016-07-21 Samsung Electronics Co., Ltd. Apparatus and method for editing content
US10373648B2 (en) * 2015-01-20 2019-08-06 Samsung Electronics Co., Ltd. Apparatus and method for editing content
US10971188B2 (en) 2015-01-20 2021-04-06 Samsung Electronics Co., Ltd. Apparatus and method for editing content
JP2018110312A (ja) * 2016-12-28 2018-07-12 株式会社ミクシィ 情報処理装置,情報処理装置の制御方法及び制御プログラム
JPWO2019160105A1 (ja) * 2018-02-16 2021-02-04 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
JPWO2019160100A1 (ja) * 2018-02-16 2021-02-04 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
JP7157340B2 (ja) 2018-02-16 2022-10-20 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
JP7280512B2 (ja) 2018-02-16 2023-05-24 日本電信電話株式会社 非言語情報生成装置及びプログラム
JPWO2019230225A1 (ja) * 2018-05-29 2021-07-15 ソニーグループ株式会社 画像処理装置、画像処理方法、プログラム
WO2019230225A1 (ja) * 2018-05-29 2019-12-05 ソニー株式会社 画像処理装置、画像処理方法、プログラム
EP3787285A4 (en) * 2018-05-29 2021-03-03 Sony Corporation IMAGE PROCESSING DEVICE, IMAGE PROCESSING METHOD, AND PROGRAM
US11450352B2 (en) 2018-05-29 2022-09-20 Sony Corporation Image processing apparatus and image processing method
JP7272356B2 (ja) 2018-05-29 2023-05-12 ソニーグループ株式会社 画像処理装置、画像処理方法、プログラム
US11823716B2 (en) 2019-04-04 2023-11-21 Google Llc Video timed anchors
JP2022529225A (ja) * 2019-04-04 2022-06-20 グーグル エルエルシー ビデオ時間調節アンカー
JP7350883B2 (ja) 2019-04-04 2023-09-26 グーグル エルエルシー ビデオ時間調節アンカー
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
JP2021033048A (ja) * 2019-08-23 2021-03-01 サウンドハウンド,インコーポレイテッド 車載装置、発声を処理する方法およびプログラム
JP2021093618A (ja) * 2019-12-10 2021-06-17 株式会社リチカ 情報処理装置及びプログラム
WO2022054453A1 (ja) * 2020-09-08 2022-03-17 ソニーグループ株式会社 撮像装置、撮像システム、及び撮像装置の設定方法
EP4203457A4 (en) * 2020-09-08 2024-01-24 Sony Group Corp IMAGE CAPTURE DEVICE, IMAGE CAPTURE SYSTEM, AND IMAGE CAPTURE DEVICE ADJUSTMENT METHOD
CN112887779A (zh) * 2021-01-20 2021-06-01 杭州小众圈科技有限公司 基于语音节奏进行自动滚动字幕的方法、系统及装置
CN112887779B (zh) * 2021-01-20 2022-11-18 杭州小众圈科技有限公司 基于语音节奏进行自动滚动字幕的方法、系统及装置
WO2023203924A1 (ja) * 2022-04-18 2023-10-26 国立研究開発法人情報通信研究機構 同時通訳装置、同時通訳システム、同時通訳処理方法、および、プログラム

Also Published As

Publication number Publication date
JP4599244B2 (ja) 2010-12-15

Similar Documents

Publication Publication Date Title
JP4599244B2 (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP4683116B2 (ja) 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置
JP5144424B2 (ja) 撮像装置及び情報処理方法
JP2000350159A (ja) 視覚画像編集システム
JP2000508845A (ja) ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2004056286A (ja) 画像表示方法
JP2010081457A (ja) 情報記録再生装置およびビデオカメラ
JPH086182A (ja) 吹き替えシステムおよびビデオ画像表示システム
JP5137031B2 (ja) 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム
JPH10243351A (ja) 映像再生装置
JP4086532B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2006339817A (ja) 情報処理装置およびその表示方法
JP5310682B2 (ja) カラオケ装置
JP4235635B2 (ja) データ検索装置及びその制御方法
JP4455644B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
Tsioustas et al. Innovative applications of natural language processing and digital media in theatre and performing arts
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP4086886B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
JP2007266661A (ja) 撮像装置、情報処理装置、撮像表示システム
JP2007104405A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP3970080B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080328

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080724

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080904

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20081226

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100927

R150 Certificate of patent or registration of utility model

Ref document number: 4599244

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees