JP4599244B2 - Apparatus and method for creating subtitles from moving image data, program, and storage medium - Google Patents
Apparatus and method for creating subtitles from moving image data, program, and storage medium Download PDFInfo
- Publication number
- JP4599244B2 JP4599244B2 JP2005204736A JP2005204736A JP4599244B2 JP 4599244 B2 JP4599244 B2 JP 4599244B2 JP 2005204736 A JP2005204736 A JP 2005204736A JP 2005204736 A JP2005204736 A JP 2005204736A JP 4599244 B2 JP4599244 B2 JP 4599244B2
- Authority
- JP
- Japan
- Prior art keywords
- balloon
- speaker
- data
- speech
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、動画データから字幕を自動生成及び編集する技術に関する。 The present invention relates to a technique for automatically generating and editing captions from moving image data.
近年、デジタルビデオカメラやデジタルカメラ等のように動画をデジタルデータで撮影できる機能を持った装置が普及し、それに伴い撮影した画像をデジタルビデオカメラやデジタルカメラで編集したり、撮影した動画を加工してオリジナル画像を楽しむ人が増えてきている。また、撮影した動画をパーソナルコンピュータに取り込み、パーソナルコンピュータで編集を行い、タイトル合成や字幕スーパーの追加を行ってオリジナル動画を作成する人も増えている。 In recent years, devices such as digital video cameras and digital cameras that have the ability to shoot movies with digital data have become widespread, and as a result, images taken are edited with digital video cameras and digital cameras, and the videos that have been shot are processed. More and more people enjoy original images. In addition, an increasing number of people take captured videos to a personal computer, edit them on a personal computer, and create an original video by adding a title composition or adding a caption.
一方、公共のテレビ放送においても、話者の台詞を字幕スーパーとして表示することで効果を演出し、また耳の不自由な人のために話者の台詞を字幕スーパーとして表示するサービスも行っているところも多くなっている。 On the other hand, in public TV broadcasting, the effect is produced by displaying the speech of the speaker as a caption supervision, and a service that displays the speech of the speaker as a caption supervision for people who are deaf There are also many places.
このように、撮影した動画に対して、話者の台詞を字幕スーパーとして動画データと重ねて表示するといったニーズが増えている。 In this way, there is an increasing need for the captured video to display the speaker's dialogue as a caption superimposition with the video data.
撮影した動画に対して、話者の台詞を字幕スーパーとして動画に取り込む際には、通常編集ソフトにおいて、テキストデータを台詞として入力し、話者の近辺に吹き出しとして表示するか、映画などのように画面下に字幕スーパーとして表示するように編集される。 When importing a speaker's dialogue into a movie as a subtitle for a recorded movie, text data is usually entered as dialogue in a normal editing software and displayed as a speech bubble near the speaker, or as a movie It is edited so that it will be displayed as a caption subtitle at the bottom of the screen.
この編集作業は時間のかかるもので、動画を再生し、編集者が耳で聞き取った結果を必要なテキストデータとして編集ソフトから入力し、あるフレーズが再生にかかる時間だけ表示するように編集しなければならない。また、誰が話者であるかを判断し、字幕スーパーの表示位置や字幕の色などを変える際には編集者がそれぞれ個別に位置や色などを指定する必要があり、編集が非常に困難かつ時間のかかるものになっていた。 This editing process is time consuming.You must play the video, input the result of the editor's listening to the input as necessary text data from the editing software, and edit it so that a phrase is displayed only for the time required for playback. I must. Also, when determining who is the speaker and changing the display position of subtitle supermarket and the color of subtitles, it is necessary for the editor to individually specify the position, color, etc. It was time consuming.
これらの作業を簡単に効率よく行うための技術として、下記の公開技術の応用が考えられる。即ち、
撮影画像から顔領域を検出し、予め作成したテキストデータを吹き出しとして、検出された顔の口元付近に表示する方法(例えば、特許文献1の請求項10)やマイク等の音声入力端末に対して発言者が対応付けされており、音声からテキストへの変換を自動的に行い、発言者の顔を検出し、変換したテキストデータを吹き出しとして発言者の顔付近に表示する方法(例えば、特許文献2の請求項2)が提案されている。これらを支える技術として、顔領域の特徴量から特定の顔を識別する方法(例えば、特許文献3)や入力音声に含まれる特徴量を抽出し、予め登録されている音声の特徴量とのパターンマッチングを行う方法(例えば、特許文献4)、入力音声からテキスト化を行い、議事録を作成する方法(例えば、特許文献5)が提案されている。
For a method of detecting a face area from a photographed image and displaying text data created in advance as a speech bubble near the mouth of the detected face (for example,
しかしながら、上記技術においては、簡単に字幕を作成するために、話者の音声データからテキストデータを作成し、話者の顔付近に吹き出しとして字幕スーパーの表示を行うことが可能であるが、話者の音声と話者の顔の対応付けはされておらず、予め話者を特定することが必要であった。従って、予め話者を特定した後に、話者の顔付近に字幕スーパーを表示するように編集していたため、自動的に話者を判別して所定の話者のところに吹き出しを付けるといった作業はできなかった。即ち、編集作業では必ず話者の特定を行い、その後編集することが必要であった。本発明は、このような課題を解決することを目的としている。 However, in the above technique, in order to easily create subtitles, it is possible to create text data from the speech data of the speaker and display the supertitle as a speech bubble near the speaker's face. The speaker's voice is not associated with the speaker's face, and it is necessary to specify the speaker in advance. Therefore, after specifying the speaker in advance, editing was performed so that the caption superimpose was displayed near the speaker's face, so the task of automatically identifying the speaker and adding a speech balloon to the predetermined speaker could not. That is, in editing work, it is necessary to specify a speaker and then edit it. The present invention aims to solve such a problem.
上記課題を解決するために、本発明は、画像及び音声を含む元動画データから字幕を作成する装置であって、前記元動画データの画像部分から顔の特徴量を検出する顔検出手段と、前記元動画データの音声部分から音声の特徴量を検出する音声識別手段と、前記顔検出手段により検出された顔の特徴量及び前記音声識別手段により検出された音声の特徴量を、予め準備された話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定手段と、特定された前記話者の顔位置を特定する位置特定手段と、特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識手段と、前記位置特定手段により得られる顔位置と、前記音声認識手段により生成されたテキストデータとに基づいて、特定された前記話者から発声された文字列のテキストデータを表示画面内に表示するための吹き出しデータを作成する吹き出し作成手段と、前記元動画データに前記吹き出しデータを付加して新たな動画データを作成する動画像作成手段とを具備し、前記吹き出し作成手段は、前記吹き出し作成手段により作成された吹き出しデータに対して、特定された前記話者に対応した吹き出しの形、色、柄、大きさ、並びに文字の色、大きさ、字体の少なくともいずれかを編集するための吹き出し編集画面を表示する吹き出し編集手段を有し、前記吹き出し編集画面は、前記新たな動画データを表示するための画像表示領域と、前記吹き出しデータを編集するためのテキスト表示領域と、前記音声認識手段による音声認識を実行させるための音声認識操作部と、前記音声の再生を実行するための再生操作部と、を含み、前記吹き出し作成手段は、前記話者特定手段において話者の音声を認識したが顔が認識できない場合または話者が前記表示画面からいなくなった場合には、前記話者の顔位置に応じた吹き出しデータに代えて、前記表示画面下の領域に字幕スーパとして文字列のみを表示するためのデータを作成する。 In order to solve the above-described problem, the present invention is an apparatus for creating captions from original moving image data including images and sounds, and a face detection unit that detects a feature amount of a face from an image portion of the original moving image data, A voice identification unit that detects a voice feature amount from a voice portion of the original moving image data, a face feature amount detected by the face detection unit, and a voice feature amount detected by the voice identification unit are prepared in advance. A speaker specifying means for specifying a speaker in comparison with a voice feature amount for identifying a voice of a speaker and a face feature amount for identifying a face of the speaker, and specifying a face position of the specified speaker A position specifying unit, a voice recognition unit that recognizes a character string from the specified voice of the speaker, and generates text data of the character string; a face position obtained by the position specifying unit; and the voice recognition unit Generated text Based on the chromatography data, and blowout creating means to create a balloon data for displaying the text data string uttered from the identified said speaker on the display screen, the balloon data to the original video data And a moving image creating means for creating new moving image data, wherein the speech balloon creating means generates a speech balloon corresponding to the identified speaker with respect to the speech balloon data created by the speech balloon creating means. Speech balloon editing means for displaying a balloon editing screen for editing at least one of shape, color, pattern, size, and character color, size, and font; An image display area for displaying data, a text display area for editing the balloon data, and voice recognition by the voice recognition means A voice recognition operating unit for, viewing including and a reproduction operation portion for performing reproduction of the sound, the balloon creation means has been recognized recognized faces the voice of the speaker in the speaker identification means When it is not possible or when the speaker disappears from the display screen, instead of the balloon data corresponding to the speaker's face position, only a character string is displayed as a subtitle super in the area below the display screen. Create data .
また、本発明は、画像及び音声を含む元動画データから字幕を作成する方法であって、前記元動画データの画像部分から顔の特徴量を検出する顔検出工程と、前記元動画データの音声部分から音声の特徴量を検出する音声識別工程と、前記顔検出工程にて検出された顔の特徴量及び前記音声識別工程にて検出された音声の特徴量を、予め準備された話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定工程と、特定された前記話者の顔位置を特定する位置特定工程と、特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識工程と、前記位置特定工程により得られる顔位置と、前記音声認識工程により生成されたテキストデータとに基づいて、特定された前記話者から発声された文字列のテキストデータを表示画面内に表示するための吹き出しデータを作成する吹き出し作成工程と、前記元動画データに前記吹き出しデータを付加して新たな動画データを作成する動画像作成工程とを備え、前記吹き出し作成工程は、前記吹き出し作成工程により作成された吹き出しデータに対して、特定された前記話者に対応した吹き出しの形、色、柄、大きさ、並びに文字の色、大きさ、字体の少なくともいずれかを編集するための吹き出し編集画面を表示する吹き出し編集工程を有し、前記吹き出し編集画面は、前記新たな動画データを表示するための画像表示領域と、前記吹き出しデータを編集するためのテキスト表示領域と、前記音声認識工程による音声認識を実行させるための音声認識操作部と、前記音声の再生を実行するための再生操作部と、を含み、前記吹き出し作成工程は、前記話者特定工程において話者の音声を認識したが顔が認識できない場合または話者が前記表示画面からいなくなった場合には、前記話者の顔位置に応じた吹き出しデータに代えて、前記表示画面下の領域に字幕スーパとして文字列のみを表示するためのデータを作成する。 Further, the present invention is a method for creating subtitles from original moving image data including images and sounds, a face detection step of detecting a facial feature amount from an image portion of the original moving image data, and sound of the original moving image data A speech identification step for detecting a feature amount of speech from a portion; a feature amount of a face detected in the face detection step; and a feature amount of a speech detected in the speech identification step. A speaker specifying step of specifying a speaker in comparison with a voice feature amount for identifying a voice and a face feature amount for identifying a face of the speaker, and a position specifying step of specifying the face position of the specified speaker A speech recognition step of recognizing a character string from the specified voice of the speaker and generating text data of the character string, a face position obtained by the position specification step, and a text generated by the speech recognition step Specific based on data The a balloon creation process to create a balloon data for displaying the text data of the spoken character string within the display screen from the speaker, the new moving image data by adding the balloon data to the original video data Creating a moving image creating step, the balloon creating step, for the balloon data created by the balloon creating step, the shape, color, pattern, size of the balloon corresponding to the specified speaker, And a balloon editing step for displaying a balloon editing screen for editing at least one of the color, size, and font of the character, wherein the balloon editing screen is an image display area for displaying the new moving image data. A text display area for editing the balloon data, and a voice recognition operation unit for executing voice recognition by the voice recognition step , Look-containing and a reproduction operation portion for performing reproduction of the sound, the balloon creation process, when it recognizes the voice of the speaker in the speaker identification step unrecognized face or speaker said display When the screen disappears, data for displaying only a character string as a subtitle super is created in the area below the display screen, instead of the balloon data corresponding to the speaker's face position .
なお、本発明は、コンピュータに上記画像及び音声を含む動画データから字幕を作成する方法を実行させるためのプログラムや、当該プログラムを記憶したコンピュータ可読記憶媒体としても実現可能である。 Note that the present invention can also be realized as a program for causing a computer to execute a method for creating subtitles from moving image data including images and sound, or a computer-readable storage medium storing the program.
本発明によれば、入力された動画データの顔と音声から話者を特定し、話者の位置と該当する話者の音声より吹き出しデータを作成するので、該当する話者の画像付近に吹き出しを表示でき、吹き出しや字幕スーパーの作成や編集が容易になる。 According to the present invention, the speaker is identified from the face and voice of the input video data, and the balloon data is created from the speaker position and the voice of the corresponding speaker. Can be displayed, making it easy to create and edit speech balloons and subtitles.
以下に、添付図面を参照して本発明の好適な実施形態について詳細に説明する。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
尚、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。 The embodiment described below is an example as means for realizing the present invention, and should be appropriately modified or changed according to the configuration and various conditions of the apparatus to which the present invention is applied. It is not limited to the embodiment.
[第1の実施形態]
図1は本発明に係る実施形態の自動吹き出し作成・編集処理機能を実現するためのブロック図である。
[First Embodiment]
FIG. 1 is a block diagram for realizing an automatic speech balloon creation / editing processing function according to an embodiment of the present invention.
101は動画入力部であり、動画の映像信号を入力する。入力される映像信号はデジタルデータとして入力される。入力された映像信号は、顔検出部103と画像データ部111へ送られる。顔検出部103では、入力された映像信号から人間の顔を抽出し、その特徴量を算出する。顔検出のアルゴリズムに関しては、肌色検出、目鼻口検出、顔の輪郭検出等既知の技術を用いている。特徴量の算出に関しては、検出された人間の顔に対して、目鼻口の位置関係や大きさ、顔の輪郭に対する比率等を組み合わせた既知の特徴量算出を用いている。また、顔検出部103では、顔の大きさや口の位置、顔の向きを判断し、これらの情報も顔特徴量して話者特定部107へ送られる。
102は音声入力部であり、動画の音声信号を入力する。入力される音声信号はデジタルデータとして入力される。入力された音声信号は、音声識別部104と音声認識部105と音声データ部113へ送られる。音声識別部104では、入力された音声信号から音声の特徴量を算出する。音声認識のアルゴリズムに関しては、音声周波数の特性、声の強弱特性等を組み合わせた既知の特徴量算出を用いている。
An
顔検出部103より算出された特徴量と音声識別部104より算出され特徴量は話者特定部107へ送られる。話者特定部107では、顔検出部103と音声識別部104より送られた特徴量に対して音声・顔対応部106に登録されている個人の音声特徴量と顔特徴量を比較・参照して話者を特定する。複数の人物が顔検出部103で認識されている場合には複数の顔特徴量が送られ、複数の人物が音声識別部104で認識されている場合には複数の音声特徴量が送られる。これら複数の特徴量が送られた場合には、特徴量の組み合わせを行い、音声・顔対応部106に登録されている音声特徴量と顔特徴量を比較・参照して複数人の話者を特定することも可能である。話者特定部107において、話者が特定されると、それぞれの話者の顔位置や大きさに関する情報が位置特定部109に送られ、また話者の識別情報が音声認識部105へ送られる。
The feature amount calculated by the
105は音声認識部であり、音声入力部102より入力された音声信号に対して、話者特定部107から通知される話者の識別情報により、特定話者に該当する場合に音声認識を行う。音声認識のアルゴリズムは、周辺ノイズの除去、特徴抽出、音響モデルによる音素検出等、既知の技術を用いている。
音声認識部105で音素に分解された情報はテキスト化部108へ送られ、語彙分析、文法解析が行われ、発声された文字列のテキストデータが生成される。テキスト化部108における音声のテキスト化アルゴリズムは、語彙分析や文法解析、辞書引き等、既知の技術を用いている。テキスト化された音声情報は、話者の情報と共に位置特定部109へ送られる。
Information decomposed into phonemes by the
音声認識部105及びテキスト化部108では、複数の話者に対して、話者毎に音声認識及びテキスト化を行うことが可能である。これにより同時に複数の人物が映っている状態で、複数の人物が話している場合でも、話者毎のテキスト化された音声情報が生成される。
The
位置特定部109では、話者特定部107から送られる話者の顔位置や大きさに関する情報と、テキスト化部108から送られるテキスト化された音声の情報と話者の情報から、話者の顔位置(吹き出しの表示位置又は字幕スーパーの表示位置)と音声のテキスト情報を組み合わせて生成された位置特定情報を吹き出し作成部112へ送る。更に位置特定部109では、話者の顔の向きや大きさ、音声の発声継続時間を判断して口元に吹き出しを生成するか、字幕スーパーとして表示するかの位置特定情報も決定する。例えば、ズーム操作を行い話者の顔の大きさが音声の発声継続時間に対して大きく変わる場合、口元に吹き出しを出すと画面が見にくくなることが考えられるため、画面下に字幕スーパーを表示する。また、話者が音声の発声継続時間中に後ろを向いてしまった場合には話者の映像継続性を判断して話者を追跡し、口元から頭の先へ吹き出し表示位置を移動する。
In the
また、話者が音声の発声継続時間中に画面内を大きく移動する場合に吹き出しを大きく動かす必要があり画面が見にくくなることが考えられるため、画面下に字幕スーパーを表示する。また、話者が音声の発声継続時間中に画面外へ移動または、話者が物陰に隠れる等画面から消えた場合は、画面内にいる時は口元に吹き出しを表示し、画面から消えた時は画面下に字幕スーパーを表示する。ここに挙げた話者と吹き出しや字幕スーパーの関係は一例であり、他の組み合わせが存在しても良い。 In addition, when the speaker moves greatly in the screen during the voice utterance duration, it is necessary to move the speech balloon a lot and it may be difficult to see the screen, so a caption subtitle is displayed at the bottom of the screen. Also, if the speaker moves off the screen during the duration of the speech, or disappears from the screen, such as when the speaker is hidden behind the screen, a speech bubble is displayed at the mouth when the speaker is inside the screen, and the speaker disappears from the screen. Displays subtitle super at the bottom of the screen. The relationship between the speaker and the speech balloon or the caption subtitle mentioned here is an example, and other combinations may exist.
位置特定部109により特定された位置特定情報が吹き出し作成部112へ送られると、位置特定情報内の吹き出しまたは字幕スーパーの表示位置とテキスト化された音声情報から吹き出しまたは字幕スーパーを表示するための吹き出しデータが作成される。ここで作成される吹き出しデータは、メタデータを用いて記述される。メタデータのタグには、開始フレーム及び終了フレーム、継続時間、効果、フォント、属性(フォント色及び背景色、透明度)、吹き出しの形が指定される。ここで示されたタグは一例を示したものであり、本実施形態のタグ種類を制限するものではない。作成される吹き出しや字幕スーパーをメタデータで記述しているため、編集作業が画像データの編集ではなく、テキストデータの編集ベースで行えて編集作業を容易にしている。
When the position specifying information specified by the
吹き出し作成部112で作成された吹き出しデータは、画像データ部111と、音声データ部113の各データと同期を取って動画像作成部114へ送られ、動画の画像形式にまとめられる。代表的な動画形式の規格としては、Motion JPEG,MPEG等が挙げられる。
The speech balloon data created by the speech
110は同期部で、動画の映像信号と音声信号の同期を取り、それぞれ顔検出部103、音声識別部104、音声認識部105へ供給される。顔検出部103では、同期信号から顔を認識開始した時刻とフレーム番号(以下タイムコードと記す)を算出し、顔の移動量(時間あたりの移動量)、映像に映っている時間(顔が認識できなくなったタイムコード)などの情報を生成する。また、音声識別部104では、同期信号から話者の音声を認識し、識別することで、発声の開始タイムコード、発声の終了タイムコードを算出する。音声認識部105では、同期信号から話者の音声を認識し、言葉として認識を開始したタイムコードと発声の終了タイムコードを算出する。これらの同期信号により、話者の顔画像と、吹き出しの表示開始タイムコード、表示継続時間、表示位置を決定することが可能となり、話者特定や、テキスト化、位置特定、吹き出し作成において、処理速度の違いによる処理時間が異なっても、話者の顔と、音声、吹き出しのずれを無くすことが可能となる。同期部110より画像データ部111と音声データ部113にも同期信号が送られ、動画像ファイルを作成する際に、画像と音声の同期を取るようにしている。
図2は、図1に示す自動吹き出し作成・編集処理機能を有する映像記録・編集装置200の構成を示している。
FIG. 2 shows the configuration of the video recording /
201はカメラ部で、撮影した画像データがアナログ信号として出力され、A/D変換部202により点順次のデジタルデータに変換され、画像処理部203へ送られる。画像処理部203では、点順次に送られた映像信号から、色処理、輝度処理等が行われ、上述した自動吹き出し作成・編集処理部100へ送られる。
A
204はマイク部で、撮影と同時に音声信号を取得し、アナログ音声データとしてA/D変換部205へ送られる。A/D変換部205では、サンプリング周期に併せてアナログ音声データをデジタルデータへ変換し、音声信号処理部206へ送られる。音声信号処理部206で信号処理されたデータは、時系列のデジタルデータとして自動吹き出し作成・編集処理部100へ送られる。
207は装置200全体を司る制御装置で、内部には制御用マイコン(CPU)やプログラム格納用メモリ(ROM、フラッシュメモリ、RAM等)、データ格納用メモリ(RAM)等を含み、装置200内の各ブロックの制御や装置全体の制御を行う。
208は装置200の操作部材で各種スイッチ、レバー、ボタンなどにより構成され、装置200のユーザインターフェース部材や装置内のセンサなどの検知部材を含んでいる。これらの操作部材を操作することで、撮影や再生の開始・停止、各種設定、編集操作を行うことが可能である。
210は記録装置で、自動吹き出し作成・編集処理部100で作成された吹き出し付きの動画像データを記録する部分である。記録装置210は、ハードディスクやメモリカード、光磁気記憶メディア等、組み込みまたは着脱可能な記録手段で構成されている。動画像データは、記憶媒体によって、生の動画像データとして記憶されることも、ファイル形式として記録されることもある。
211は動画像・吹き出し合成処理部で、記録装置210から読み出された動画像データまたは自動吹き出し作成・編集処理部100から出力された動画像データが入力される。入力された動画データに対して、動画の映像データと音声データの同期を取りつつ、吹き出しデータに記録された開始タイムコードに従い、当該フレームが表示されたタイミングから、吹き出しデータに記録された位置情報、効果、属性、フォント、色、吹き出しの形状等により実際の吹き出しを作成して画像合成する。動画像・吹き出し合成処理部211では吹き出に対して、固定の形の物や、文字も固定の物から効果によっては、時系列に吹き出しの形を変更させることも、時系列に文字を順次表示することも、時系列にフォント色や吹き出しの背景色を順次変化させることも可能である。
A moving image / balloon
209は同期部である。同期部209からカメラ部201、A/D変換部202、画像処理部203へ同期信号が提供され映像信号のサンプリングレートとして使用される。同期部209から音声系A/D変換部205、音声信号処理部206へ同期信号が供給され音声信号のサンプリングレートとして使用される。同期部209から自動吹き出し作成・編集処理部100へ同期信号が供給され、映像信号と音声信号の同期化及び同期部110への供給が行われる。同期部209から動画像・吹き出し合成処理211へ同期信号が供給され、動画再生時の映像信号と音声信号の同期を取り、吹き出しデータに記録された開始タイムコードに従い、当該フレームが表示されたタイミングから、吹き出しを表示・消去または効果を施すタイミング信号として使用される。
動画像・吹き出し合成処理部211で構成された動画像信号は、映像信号として表示装置213へ供給され、また音声信号としてスピーカー212へ供給される。これにより、スピーカー212から登録された人物の音声が出ている時に、表示装置213へ吹き出しや字幕スーパーのついた動画像が表示される。
The moving image signal configured by the moving image / balloon
図3は図2の映像記録・編集装置の外観図である。 FIG. 3 is an external view of the video recording / editing apparatus of FIG.
300は映像記録・編集装置本体である。301は撮影ボタンであり、このボタンを押下することで撮影が開始・停止される。上述した自動吹き出し作成・編集機能が有効な場合、撮影が開始されると自動的に吹き出しや字幕スーパーが作成され、記録される。302は接眼レンズ(ビューファインダー)であり撮影者は撮影画像を確認することができる。303は撮影レンズであり、このレンズを通して撮影を行う。304は液晶ファインダー・再生画面であり撮影中の画像確認や再生画像確認、各種設定の確認を行うことができる。自動吹き出し作成・編集機能が有効ならば、撮影した画像に自動的に吹き出しや字幕スーパーが付加されて表示される。また、吹き出しや字幕スーパーが付加された再生画像も表示される。305は操作スイッチで各種設定操作や再生、早送り、巻き戻しなどの操作を行う。
次に、図4乃至図9を参照して、自動吹き出し作成・編集処理の流れについて説明する。 Next, the flow of the automatic speech balloon creation / editing process will be described with reference to FIGS.
図4は横方向を時間軸として右方向に時間が経過していく際の処理を示している。 FIG. 4 shows processing when time elapses in the right direction with the horizontal direction as the time axis.
映像信号としては、A子のみが映っている映像(図5)と、A子とB子の2人が映っている映像(図6)が動画入力部101へ入力されている。A子のみが映っている映像は期間401であり、A子とB子の2人が映っている映像は期間402である。一方、音声信号としては、A子の声で「おはようA子です。」とB子の声で「おはようB子です。」とC子の声で「C子です。おはようA子、B子。」が音声入力部102へ入力されている。A子が発声している期間は403、B子が発声している期間は404、C子が発声している期間は405である。その他の期間は背景の音声が音声入力部102へ入力されている。
As the video signal, a video (FIG. 5) showing only the child A and a video (FIG. 6) showing the two children A and B are input to the moving
A子のみが映っている映像期間401では、顔検出部103によりA子の顔特徴量や顔の向き、口の位置などが算出され話者特定部107へ送られる。音声・顔対応部106には、予めA子の顔特徴量と音声特徴量、B子の顔特徴量と音声特徴量、C子の顔特徴量と音声特徴量の組み合わせが登録されている。映像期間401において、話者特定部107ではA子の顔特徴量に対して音声・顔対応部106に登録されている顔特徴量を照合してA子が画面内に存在することを認識している。
In the
一方、音声入力部102に入力された音声信号に対して、音声識別部104では、音声特徴量を一定周期で算出し、話者特定部107へ送っている。話者特定部107では音声特徴量に対して音声・顔対応部106に登録されている音声特徴量を照合する。A子が発声している期間403では、音声識別部104においてA子の音声特徴量が算出されており、話者特定部107において、A子の音声特徴量に対して音声・顔対応部106に登録されている音声特徴量を照合してA子が話者であることを認識している。このように、話者特定部107では期間401ではA子が画面内に存在すること、期間403ではA子が画面内に存在し話者であることを認識している。話者特定部107では403の期間中、A子が話者であることを示す識別情報を音声認識部105へ送っている。ここで送られる識別情報としては、A子が話者である期間の情報(期間403)及びA子の予め登録されている音声特徴量を含むデータで構成されている。音声認識部105では、送られた識別情報により音声入力部102より送られた音声信号に対して、期間403におけるA子の音声情報を抽出し、音声認識を行ってA子の音声の音素を抽出する。音声認識部105で抽出されたA子の音声に対する音素データに対して、テキスト化部108では、A子が期間403で発声した内容「おはようA子です。」をテキスト化する。話者特定部107で話者特定に時間がかかるため、音声識別部104や音声認識部105では一定時間の音声を蓄積(記憶)しておき、話者特定部107で特定された話者の発声開始時間に遡って、再度音声識別を行うことや音声認識を行うことができるようにしている。
On the other hand, with respect to the voice signal input to the
話者特定部107では、期間403においてA子が画面内に存在していることを認識し、顔や口の位置も特定できており、テキスト部108ではA子が発声した内容のテキスト化も完了している。これらの情報により位置特定部109では、吹き出しの位置をA子の口元と決定し、位置特定情報を吹き出し作成部112へ送る。
The
吹き出し作成部112では、送られた位置特定情報を元に、A子の発声内容「おはようA子です。」の吹き出しをA子の口元に表示するためのメタデータを作成する。メタデータの記述を表示形態にしたものが406である。ここで、吹き出しを作成する際に、A子の発声が終了すると同時に吹き出しデータが消えてしまうことが無いよう、保持時間を設定し発声終了後もしばらく吹き出しを表示することで、内容を読みやすくすることも可能である。また、音声認識部105において、音節分割を行い、テキスト化部108において、単語単位や音声単位で順次テキストを表示することも可能である。更に、発声時間により、単語単位で継続時間を割り振り、テキストの文字単位で時間に応じて順次テキストを表示することも可能である。また、予め音声・顔対応106に話者を登録する際に、テキストや吹き出しの形状、色、効果などを関連付けすることで、話者毎の特徴を持った吹き出しを作成することも可能である。
The speech
次に、A子とB子が映っている映像期間402について説明する。 Next, a video period 402 in which A child and B child are shown will be described.
顔検出部103によりA子の顔特徴量や顔の向き、口の位置などとB子の顔特徴量や顔の向き、口の位置などが算出され、2人分のデータが話者特定部107へ送られる。映像期間402において、話者特定部107ではA子の顔特徴量とB子の顔特徴量に対して音声・顔対応部106に登録されている顔特徴量を照合してA子とB子の2人が画面内に存在することを認識している。
The
B子が発声している期間404では、音声識別部104においてB子の音声特徴量が算出されており、話者特定部107において、B子の音声特徴量に対して音声・顔対応部106に登録されている音声特徴量を照合してB子が話者であることを認識している。また、C子が発声している期間405では、音声識別部104においてC子の音声特徴量が算出されており、話者特定部107において、C子の音声特徴量に対して音声・顔対応部106に登録されている音声特徴量を照合してC子が話者であることを認識している。このようにして、話者特定部107では期間404ではB子が画面内に存在しB子が話者であることを認識し、期間405ではC子が画面内に存在していないがC子が話者であることを認識している。
In the
話者特定部107では404の期間中、B子が話者であることを示す識別情報を音声認識部105へ送っている。音声認識部105では、送られた識別情報により音声入力部102より送られた音声信号に対して、期間404におけるB子の音声情報を抽出し、音声認識を行ってB子の音声の音素を抽出する。音声認識部105で抽出されたB子の音声に対する音素データに対して、テキスト化部108では、B子が期間404で発声した内容「おはようB子です。」をテキスト化する。同様にして、C子が期間405で発声した内容「C子です。おはようA子、B子。」をテキスト化する。
During the
話者特定部107では、期間404においてB子が画面内に存在していることを認識し、顔や口の位置も特定できており、テキスト化部108ではB子が発声した内容のテキスト化も完了している。これらの情報により位置特定部109では、吹き出しの位置をB子の口元と決定し、位置特定情報を吹き出し作成部112へ送る。
The
一方、話者特定部107では、期間405においてC子が画面内に存在しないことを認識しており、テキスト部108ではC子が発声した内容のテキスト化が完了している。これらの情報により位置特定部109では、吹き出しではなく字幕スーパーを画面下と決定し、位置特定情報を吹き出し作成部112へ送る。本実施形態の映像では話者が発声中に画面内から消える場合や、後ろを向く場合、話者の画面内での大きさの変化や位置の変化が大きい場合は示していないが、このような場合には前述の処理が行われても良い。
On the other hand, the
吹き出し作成部112では、B子が発声した期間404に対して送られた位置特定情報を元に、B子の発声内容「おはようB子です。」の吹き出しをB子の口元に表示するためのメタデータを作成する。このメタデータの記述を表示形態にしたものが407である。また、C子が発声した期間405に対して送られた位置特定情報を元に、C子の発声内容「C子です。おはようA子、B子。」の字幕スーパーを画面下に表示するためのメタデータを作成する。このメタデータの記述を表示形態にしたものが408である。
The speech
このように吹き出し作成部112で時系列に作成された吹き出しデータは、画像データ部111と音声データ部113と同期部110から提供される同期信号を基にして動画像作成部114で動画像データとして組み立てられる。
The speech balloon data created in time series by the speech
このようにして組み立てられた動画像データは、動画像・吹き出し合成処理部211に送られると映像と音声信号が同期を取って再生され映像信号は表示装置213へ、音声信号はスピーカー212へ送られる。A子が映っている映像期間401で、登録されている人物の音声を検出していない状態では、吹き出しが生成されない状態である(区間1)。
When the moving image data assembled in this way is sent to the moving image / balloon
区間1では、図5のようにA子が映っている画像が表示される。A子が映っている映像期間401で、A子が発声している期間403を含む期間(吹き出し作成部112で定義された表示期間)では吹き出し406が生成され、映像信号に合成されて表示される(区間2)。
In
区間2では、図6のようにA子が映っており、A子の口元から吹き出しが表示される。A子とB子が映っている映像期間402で、登録されている人物の音声を検出していない状態では、吹き出しが生成されない状態である(区間3)。 In section 2, A child is reflected as shown in FIG. 6, and a balloon is displayed from the mouth of A child. In the video period 402 in which the child A and the child B are shown, in a state where the voice of the registered person is not detected, a balloon is not generated (section 3).
区間3では、図7のようにA子とB子が映っている画像が表示される。A子とB子が映っている映像期間402で、B子が発声している期間404を含む期間(吹き出し作成部112で定義された表示期間)では吹き出し407が生成され、映像信号に合成されて表示される(区間4)。
In
区間4では、図8のようにA子とB子が映っており、B子の口元から吹き出しが表示される。A子とB子が映っている映像期間402で、B子の発声が完了し吹き出し作成部112で定義された表示期間が過ぎると、登録されている人物の音声を検出していない状態となり、吹き出しが生成されない(区間5)。
In
区間5では、図7のようにA子とB子が映っている画像が表示される。A子とB子が映っている映像期間402で、C子が発声している期間405を含む期間(吹き出し作成部112で定義された表示期間)では字幕スーパー408が生成され、映像信号に合成されて表示される(区間6)。
In section 5, an image showing child A and child B is displayed as shown in FIG. In the video period 402 in which the child A and the child B are shown, and in the period including the
区間6では、図9のようにA子とB子が映っており、画面下に字幕スーパーが表示される。 In section 6, A child and B child are shown as shown in FIG. 9, and a caption super is displayed at the bottom of the screen.
このように、本実施形態によれば、予め登録されている人物の音声・顔対応データに対して、顔検出及び音声識別を行い、話者を特定することで、話者の音声認識による台詞自動テキスト化により、容易に吹き出しや字幕スーパーを作成することが可能となる。 As described above, according to the present embodiment, dialogue is performed by voice recognition of a speaker by performing face detection and voice identification on the voice / face correspondence data of a person registered in advance and specifying the speaker. Automatic text conversion makes it easy to create speech balloons and subtitles.
[第2の実施形態]
図17は本発明に係る実施形態の自動吹き出し作成・編集処理機能を実現するソフトウェアを備える動画像データ編集装置を例示している。
[Second Embodiment]
FIG. 17 exemplifies a moving image data editing apparatus including software that realizes an automatic speech balloon creation / editing processing function according to an embodiment of the present invention.
本実施形態では、上記動画像データ編集装置を、表示装置601、キーボード602、マウス603を備えるパーソナルコンピュータ600で実現しているが、ビデオ記録編集装置(磁気テープ記録式、光磁気ディスク記録式、光記録ディスク記録式、磁気ディスク記録式等)、編集専用装置であってもよい。
In this embodiment, the moving image data editing apparatus is realized by a
図12は、本実施形態の自動吹き出し作成・編集処理を実現するソフトウェアの機能により表示装置601に表示される表示画面を例示している。
FIG. 12 exemplifies a display screen displayed on the
501は編集対象の動画像の映像を表示する領域である。502は音声・顔対応部106に登録されている話者の一覧を表示する領域である。503、504、505は登録されている話者1人毎の情報が表示される領域である。506は話者の画像内存在状態であって、映像領域501において表示されている動画像に対して、動画入力部101を通して入力される映像信号が話者特定部107で顔認識されている話者を示している。すなわち、映像領域501には、現在503の話者情報に登録されている人物が映っていることを示している。508は話者の発声状態表示であって、映像領域501において表示されている動画像に対して、音声入力部102を通して入力される音声信号が話者特定部107で音声認識されている話者を示している。すなわち、現在503の話者情報に登録されている人物が話者として発声していることを示している。507は話者一覧表示領域502内の話者をスクロールさせるためのスライダである。509は映像領域501に表示されている動画像データ内の位置を示すスライダであり、スライダのレバーを移動することで、任意の位置に動画像データ内を移動することが可能である。510は動画像データの音声入力102へ入力される音声信号のレベルを示している。511は話者特定部107において登録されている話者を検出した時点(検出開始時点)の動画像データ内のタイムコードを示している。512は話者特定部107において登録されている話者の発声が終了した時点(検出終了時点)の動画像データ内のタイムコードを示している。513は現在の映像領域501に表示されている映像の動画像データ内のタイムコードを示している。514はアプリケーションの動作状態を示している。アプリケーションの状態には、音声・顔識別中、音声認識・テキスト化(書き取り)中の各状態がある。515は音声・顔識別の開始ボタンである。当該ボタンを押下することで、音声・顔の識別が開始され、話者特定が行われる。516はプレビューボタンで、自動的に作成されたまたはユーザにより編集された吹き出しや字幕スーパーを動画像データと共に合成して再生することができる。ここで挙げた画面のイメージは本実施形態を説明するための一例であり、本実施形態の機能を制限するものではない。
続いてフローチャート及び表示画面例を参照して、本実施形態のソフトウェアの動作について説明する。 Next, the operation of the software of the present embodiment will be described with reference to a flowchart and a display screen example.
図10は、自動吹き出し作成・編集処理機能を実現するソフトウェアによる音声・顔対応データ登録処理を表すフローチャートである。また、図13は音声・顔対応登録処理における表示画面の一例である。 FIG. 10 is a flowchart showing voice / face correspondence data registration processing by software that realizes an automatic speech balloon creation / edit processing function. FIG. 13 is an example of a display screen in the voice / face correspondence registration process.
なお、本ソフトウェアによる処理を実行するに当たっては音声特徴量と顔特徴量の関連付けを行っておくことが必要である。 Note that it is necessary to associate the audio feature quantity with the face feature quantity when executing the processing by this software.
先ず、音声・顔対応登録を開始する(S100)と、音声・顔対応登録画面520が表示され、人物名入力ステップ(S101)となる。人物名入力ステップ(S101)では、音声・顔対応登録画面520の人物名入力フィールド521に人物名を入力する。続いて、人物の顔特徴量を登録するために顔画像取り込みステップ(S102)を行う。顔画像取り込みステップ(S102)では、顔画像取り込みボタン526を押下することで顔の画像を取り込み、取り込んだ画像は顔表示領域522に表示されると共に、顔特徴量の演算ステップ(S103)が実行される。続いて、人物の音声特徴量を登録するために音声取り込みステップ(S104)を行う。音声取り込みステップ(S104)では、音声取り込みボタン527を押下することで音声を取り込み、取り込んだ音声のレベルが音声レベル表示領域525に表示されると共に、音声特徴量の演算ステップ(S105)が実行される。本実施形態では、顔識別のための顔特徴量登録及び音声識別のための音声特徴量登録は1回しか実行していないが、複数回実行してもよい。例えば、顔特徴量を取得する際、正面、左右斜め方向、上下斜め方向の特徴量を演算することで、話者が正面以外を向いていても識別率を向上させることができる。音声特徴量に関しても、複数の単語や声の強弱を変化させ特徴量を演算することで、様々な状況下での識別率を向上させることができる。
First, when voice / face correspondence registration is started (S100), a voice / face
顔特徴量と音声特徴量の演算が完了すると、吹き出しの設定ステップ(S106)及び字幕スーパーの設定ステップ(S107)を行う。吹き出しの設定ステップ(S106)では、吹き出しプロパティ設定項目S110を設定する。吹き出しプロパティ設定ボタン523を押下すると吹き出しプロパティ設定画面530が表示される。設定画面内には、吹き出しプロパティ設定項目S110の項目毎にタブ531、532、533が設けられており設定したい項目のタブを選択し、各項目の設定を行う。図13では吹き出しの形状を選択するタブ531の設定画面を表示している。選択リスト535に設定可能な形状が複数示されており、この中から好みの形状を選択する。同様に字幕スーパー設定ステップ(S107)では、字幕スーパープロパティ設定項目S111を設定する。字幕スーパープロパティ設定ボタン524を押下すると字幕スーパープロパティ設定画面が表示され、字幕スーパープロパティ設定項目S111の設定を行う。本実施形態の吹き出しプロパティ設定項目S110、字幕スーパープロパティ設定項目S111は一例であり、他の設定項目があっても良く、本提案の内容を制限するものではない。
When the calculation of the face feature amount and the voice feature amount is completed, a balloon setting step (S106) and a caption super setting step (S107) are performed. In the balloon setting step (S106), a balloon property setting item S110 is set. When the balloon
音声・顔特徴量の演算、吹き出し設定、字幕スーパー設定が完了すると記録の確認ステップ(S108)が行われ、記録して良ければ音声・顔対応記録ステップ(S109)が実行されて音声・顔対応部106へ登録される。 When the calculation of the voice / face feature amount, the speech balloon setting, and the subtitle super setting are completed, the recording confirmation step (S108) is performed. If the recording is acceptable, the voice / face correspondence recording step (S109) is performed and the voice / face correspondence is performed. Registered in the unit 106.
図11は吹き出し作成(S120)及び吹き出し編集(S140)を示すフローチャートである。 FIG. 11 is a flowchart showing balloon creation (S120) and balloon editing (S140).
吹き出し作成(S120)が開始されると、最初に動画像の入力ステップ(S121)が実行される。例えば、ファイル(F)を選択して既存の動画像ファイルを読み込む、またファイル(F)を選択して外部入力(外部の動画像再生機器、ビデオカメラ、ビデオデッキ、DVDプレーヤ等)より動画像を読み込む。 When the balloon creation (S120) is started, a moving image input step (S121) is first executed. For example, a file (F) is selected and an existing moving image file is read, and a file (F) is selected and a moving image is input from an external input (external moving image playback device, video camera, VCR, DVD player, etc.). Is read.
動画像の入力が決定すると、話者検出開始ステップ(S122)が実行される。図12の画面で話者検出開始ボタン515を押下すると動画像入力ステップ(S121)で指定された動画像データの映像データが動画入力部101へ、音声データが音声入力部102へ入力される。入力された映像信号は顔検出部103、話者特定部107へ送られる。入力された音声信号は音声識別部104、話者特定部107へ送られる。
When the input of the moving image is determined, a speaker detection start step (S122) is executed. When the speaker
話者検出開始ステップ(S122)により話者検出が開始されると、話者特定中ステップ(S123)となる。話者特定中ステップ(S123)では状態表示514が「話者特定中」となる。話者特定中ステップ(S123)では、話者特定部107に入力される動画像の顔特徴量、音声特徴量と音声・顔対応部106に登録された話者の顔特徴量、音声特徴量が照合され、話者の特定が実施される。話者特定部107において、音声特徴量が一致した話者を検出すると、発声の開始タイムコードと発声の終了タイムコード、話者人物名、顔認識状態がアプリケーションに通知され話者検出終了ステップ(S124)が実行される。
When speaker detection is started in the speaker detection start step (S122), the speaker specifying step (S123) is performed. In the speaker specifying step (S123), the
話者検出終了ステップ(S124)では、動画像データから動画入力部101、音声入力部102への入力が停止し、話者特定部107の話者特定処理も停止する。また話者が特定された発声開始タイムコード511、発声終了タイムコード512が表示される。更に話者人物名、顔認識状態により話者の画像内存在状態506、話者の発声状態508が表示される。図12ではA子が画面に映っており、A子の声で「おはようA子です。」を発声した状態を示している。
In the speaker detection end step (S124), the input from the moving image data to the moving
話者検出が終了する(S124)と音声認識ステップ(S125)が開始される。音声認識ステップ(S125)では、状態表示514が「音声認識中」となる。音声認識ステップ(S125)では、A子の発声開始タイムコード、発声終了タイムコードにより再度動画像データより当該時刻区間の音声信号を音声入力部102へ入力し、音声認識部105により音声認識を行い、テキスト化ステップ(S125)がテキスト化部108にて行われる。本実施形態では当該時刻区間を動画像データから読み取っているが、音声入力部102または音声識別部105で過去一定期間の音声データを保持しており、その音声データを用いて音声認識、テキスト化を行っても良い。
When the speaker detection is finished (S124), a voice recognition step (S125) is started. In the voice recognition step (S125), the
音声認識ステップ(S125)、テキスト化ステップ(S126)が終了すると、吹き出し自動作成ステップ(S127)が実行される。吹き出し自動作成ステップ(S127)では、話者特定中ステップ(S123)により特定された話者人物名、顔認識状態により、話者が画面内に存在する場合には吹き出しを、話者が画面内に存在しない場合には字幕スーパーを自動作成する。吹き出し自動作成ステップ(S127)では、位置特定部109に話者特定部107において検出された話者人物名、顔認識状態より吹き出しまたは字幕スーパーの表示位置を決定する。位置特定部109で決定された表示位置と、テキスト化ステップ(S125)によりテキスト化部108でテキスト化された音声情報を吹き出し作成部112へ入力し、吹き出しまたは字幕スーパーが作成される。吹き出し作成部112において吹き出しを作成する際には、音声・顔対応部106に登録されている話者人物名に対応する吹き出しプロパティ設定の吹き出しの形状、吹き出し背景色、文字フォント、文字色、吹き出し透明度、効果、表示保持時間に基づき、吹き出しデータを作成する。また、吹き出し作成部112において字幕スーパーを作成する際には、音声・顔対応部106に登録されている話者人物名に対応する字幕スーパープロパティ設定の字幕スーパー背景色、文字フォント、文字色、字幕スーパー透明度、効果、表示保持時間に基づき、字幕スーパーとして吹き出しデータを作成する。
When the speech recognition step (S125) and the text conversion step (S126) are completed, a speech balloon automatic creation step (S127) is executed. In the speech balloon automatic creation step (S127), if the speaker is present on the screen due to the speaker person name and the face recognition state identified in the speaker identifying step (S123), a speech balloon is displayed. If it doesn't exist, it automatically creates a caption. In the automatic speech balloon creation step (S127), the
吹き出し自動作成ステップ(S127)で作成された吹き出しデータにより、吹き出し表示ステップ(S128)が実行される。吹き出し表示ステップ(S128)では吹き出しを表示する際には、図14の映像領域501に吹き出しデータに基づき吹き出し540を作成して表示する。また、吹き出し表示ステップ(S128)では字幕スーパーを表示する際には、図15の映像領域501に吹き出しデータに基づき字幕スーパー560を作成して表示する。
A speech balloon display step (S128) is executed based on the speech balloon data created in the speech balloon automatic creation step (S127). In the balloon display step (S128), when a balloon is displayed, a
吹き出し表示ステップ(S128)の後、吹き出し編集ステップ(S129)が実行される。吹き出し編集ステップ(S129、S140)では、吹き出し自動作成ステップ(S127)で作成された吹き出しデータに対して、文字の確認ステップ(S141)、文字の修正ステップ(S144)、吹き出しの設定変更ステップ(S145)により吹き出しデータを編集する。 After the balloon display step (S128), a balloon editing step (S129) is executed. In the speech balloon editing step (S129, S140), the character confirmation step (S141), the character correction step (S144), and the speech balloon setting change step (S145) for the speech balloon data created in the speech balloon automatic creation step (S127). ) To edit the balloon data.
以下では、吹き出し編集処理及び字幕スーパー編集処理について説明する。 Hereinafter, the balloon editing process and the caption super editing process will be described.
図14は吹き出しの編集画面である。吹き出し編集ステップS140が実行され、吹き出しデータが吹き出しの場合、吹き出し編集画面541が表示される。吹き出し編集画面541は、画像確認領域542、テキスト表示・編集領域543、吹き出し表示期間中の表示位置を表示・移動する為のスライダ544、吹き出しプロパティ設定545、話者人物名546、発声の開始タイムコード547と発声の終了タイムコード548、音声再認識ボタン549,音声再生ボタン550,確認ボタン551で構成される。図14では、A子が「おはようA子です。」を発声している状態の吹き出し編集画面である。文字の確認ステップ(S141)では、吹き出しデータよりテキストを取得しテキスト表示・編集領域543へ表示する。ユーザは修正確認ステップ(S142)により修正の有無を判断する。修正が必要な場合には、必要に応じて音声再生ボタン550を押下し音声再生ステップ(S143)により発声の開始タイムコード547から発声の終了タイムコード548まで動画像データより音声を再生することができる。また、スライダ544を移動させることで、発声期間中の任意の位置から音声を再生することができる。ユーザは音声を聞きながら、文字修正ステップ(S144)でテキスト表示・編集領域543に表示されたテキストを編集・修正することができる。また、音声再認識ボタン549により、再度音声認識(S125)、テキスト化(S126)を実施することもできる。吹き出しの表示テキスト内容が確認されたら、必要に応じて吹き出し設定変更ステップ(S145)を実行する。吹き出しデータは、音声・顔対応106内に登録されているA子の吹き出しプロパティ設定の内容がコピーされている。吹き出しプロパティ設定545に設定されている内容を変更することで、個別の吹き出しデータの吹き出しプロパティの設定を変更することができる。ここで変更された吹き出しプロパティ設定は、「おはようA子です。」の吹き出しのみに対して有効であり、音声・顔対応106に登録されているA子の吹き出しプロパティ設定には影響がない。吹き出しの編集が完了したら、確認ボタン551を押下して吹き出し編集ステップS129が完了する。
FIG. 14 shows a balloon edit screen. When the balloon editing step S140 is executed and the balloon data is a balloon, a
図15は字幕スーパーの編集画面である。吹き出し編集ステップS140が実行され、吹き出しデータが字幕スーパーの場合、字幕スーパー編集画面561が表示される。字幕スーパー編集画面561は、画像確認領域562、テキスト表示・編集領域563、吹き出し表示期間中の表示位置を表示・移動するためのスライダ564、字幕スーパープロパティ設定565、話者人物名566、発声の開始タイムコード567と発声の終了タイムコード568、音声再認識ボタン569,音声再生ボタン570,確認ボタン571で構成される。図15では、C子が「C子です。おはようA子、B子。」を発声している状態の字幕スーパー編集画面である。文字の確認ステップ(S141)では、吹き出しデータよりテキストを取得しテキスト表示・編集領域563へ表示する。ユーザは修正確認ステップ(S142)により修正の有無を判断する。修正が必要な場合には、必要に応じて音声再生ボタン570を押下し音声再生ステップ(S143)により発声の開始タイムコード567から発声の終了タイムコード568まで動画像データより音声を再生することができる。また、スライダ564を移動させることで、発声期間中の任意の位置から音声を再生することができる。ユーザは音声を聞きながら、文字修正ステップ(S144)でテキスト表示・編集領域563に表示されたテキストを編集・修正することができる。また、音声再認識ボタン569により、再度音声認識(S125)、テキスト化(S126)を実施することもできる。字幕スーパーの表示テキスト内容が確認されたら、必要に応じて吹き出し設定変更ステップ(S145)を実行する。吹き出しデータは、音声・顔対応106内に登録されているC子の字幕スーパープロパティ設定の内容がコピーされている。字幕スーパープロパティ設定565に設定されている内容を変更することで、個別の吹き出しデータの字幕スーパープロパティ設定を変更することができる。ここで変更された字幕スーパープロパティ設定は、「C子です。おはようA子、B子。」の字幕スーパーのみに対して有効であり、音声・顔対応106に登録されているC子の字幕スーパープロパティ設定には影響がない。吹き出しの編集が完了したら、確認ボタン571を押下して吹き出し編集ステップ(S129)が完了する。
FIG. 15 is a subtitle editing screen. When the speech balloon editing step S140 is executed and the speech balloon data is caption super, the caption super editing
吹き出し編集ステップ(S129)において、当該話者が画面内に存在する場合、図14の吹き出し540が映像領域501に表示されているが、吹き出し540を指定して吹き出しの位置や向き、大きさの調整を行うことが可能である。また、吹き出し540を指定して字幕スーパーへ変更することも可能である。ここで説明された吹き出し編集手順や画面は一例を説明するものであって、本発明がその編集手順や画面を制限されるものではない。例えば、話者検出から自動吹き出し作成までを動画像データ全体に対して実行し、その後に個別の吹き出しや字幕スーパーの編集操作を行っても良い。
In the speech balloon editing step (S129), when the speaker is present in the screen, the
吹き出し編集ステップ(S129)が完了すると、プレビュー表示ステップ(S130)で編集した吹き出しの確認を行うことができる。図12において、プレビューボタン516を押下するとプレビュー画面が表示される。
When the speech balloon editing step (S129) is completed, the speech balloon edited in the preview display step (S130) can be confirmed. In FIG. 12, when a
図16はプレビュー画面である。 FIG. 16 shows a preview screen.
580は映像と吹き出しを合成した画像を表示する映像領域である。581は映像領域580に表示されている映像のタイムコードである。582から586は再生を行うための操作ボタンである。582は直前の発声開始タイムコードへの移動ボタン、583は巻き戻しボタン、584は再生ボタン、585は早送りボタン、586は直後の発声開始タイムコードへの移動ボタンである。587は吹き出し情報ウィンドウであり、スライダ592を用いて動画像データ内任意の範囲の吹き出し情報を表示することができる。588はタイムコードスケールであり、登録話者の画像内存在開始タイムコード、存在終了タイムコード、発声開始タイムコード、発声終了タイムコードが表示される。図の例では、01:12:20 14はA子が映り始めたタイムコード、01:12:21 05はA子の発声開始タイムコード、01:12:24 12はA子の発声終了タイムコード、01:12:26 02はA子とB子が映り始めたタイムコード、01:22:27 15はB子の発声開始タイムコードである。589は登録話者の画像内存在開始タイムコード、発声開始タイムコードにおけるインデックス画像である。590は吹き出し情報表示で、吹き出し内に表示されるテキスト情報と吹き出しの表示時間を示したものである。吹き出し表示時間は、発声時間に表示保持時間を加えた時間となっている。591は字幕スーパー情報表示で、字幕スーパー内に表示されるテキスト情報と字幕スーパーの表示時間を示したものである。字幕スーパー表示時間は、発声時間に表示保持時間を加えた時間となっている。
プレビュー画面では、再生ボタン584を押すことで現在のタイムコードから吹き出し付きで再生が行われ、吹き出しの内容、効果などを確認することができる。巻き戻しボタン583を押すことで、逆方向に再生する。2回以上押すことで巻き戻しの速度を速めることができる。早送りボタン584を押すことで正方向に再生する。2回以上押すことで早送りの速度を速めることができる。直前の発声開始タイムコードへの移動ボタン582は現在タイムコードの直前に話者が発声を開始したタイムコードまで戻すことができる。直後の発声開始タイムコードへの移動ボタン586は現在タイムコードの直後に話者が発声を開始したタイムコードまで早送りすることができる。これらのボタンは話者の発声開始タイムコードへの移動が割り当てられているが、話者の画像内存在開始タイムコード、存在終了タイムコード、発声開始タイムコード、発声終了タイムコードへの移動ボタンとしても割り当てることが可能であっても良い。
On the preview screen, by pressing the
プレビュー画面では、タイムコードスケール588の任意のタイムコードまたはインデックス画像589を指定することで、指定されたタイムコードの画像を吹き出しや字幕スーパー付きで呼び出すことができる。
On the preview screen, by designating an arbitrary time code or
プレビュー画面では、吹き出し情報表示590のテキスト部分を選択することで、吹き出し編集画面541を呼び出すことも可能である。吹き出し情報表示590のテキスト部分の左端を移動することで吹き出しの表示開始タイムコードを前後に調整することも可能である。吹き出し情報表示590のテキスト部分の右端を移動することで吹き出しの表示終了タイムコードを前後に調整することも可能である。また、プレビュー画面では、字幕スーパー情報表示591のテキスト部分を選択することで、字幕スーパー編集画面561を呼び出すことも可能である。字幕スーパー情報表示591のテキスト部分の左端を移動することで字幕スーパーの表示開始タイムコードを前後に調整することも可能である。字幕スーパー情報表示591のテキスト部分の右端を移動することで字幕スーパーの表示終了タイムコードを前後に調整することも可能である。更に吹き出し情報表示590のテキスト部分を字幕スーパー情報表示591に移動することで吹き出し表示から字幕スーパー表示への切り替えを行うことも可能である。
On the preview screen, the
プレビュー表示ステップ(S130)で編集した吹き出しの確認を行い(S131)、修正が必要であれば再度吹き出し編集ステップ(S129)へ戻り、修正が不要であれば編集終了確認ステップ(S132)を行う。吹き出しが更にある場合には次の話者検出開始ステップ(S122)へ戻り、次の話者を検出する。編集終了確認ステップ(S132)が完了すると吹き出し作成は完了し、動画像作成ステップ(S133)において、画像データ111と音声データ113と吹き出しデータを動画像作成部114でまとめて動画像データとして作成する。作成された動画像データは、動画像出力ステップ(S134)で保存される。例えば、ファイル(F)を選択して新規の動画像ファイルとして書き込む、またファイル(F)を選択して外部出力(外部の動画像記録機器、ビデオカメラ、ビデオデッキ、DVDレコーダ等)へ動画像を書き込む。
The speech balloon edited in the preview display step (S130) is confirmed (S131). If correction is necessary, the flow returns to the speech balloon editing step (S129) again. If correction is not necessary, the editing completion confirmation step (S132) is performed. If there are more speech balloons, the process returns to the next speaker detection start step (S122) to detect the next speaker. When the editing completion confirmation step (S132) is completed, the speech balloon creation is completed. In the moving image creation step (S133), the image data 111, the
上記実施形態によれば、入力された動画データの顔と音声から話者を特定し、話者の位置と該当する話者の音声より吹き出しデータを作成するので、該当する話者の画像付近に吹き出しを表示でき、吹き出しや字幕スーパーの作成や編集が容易になる。 According to the above embodiment, the speaker is identified from the face and voice of the input video data, and the balloon data is created from the speaker position and the voice of the corresponding speaker. Speech balloons can be displayed, making it easier to create and edit speech balloons and subtitles.
また、動画の撮影と同時に話者を特定し吹き出しや字幕スーパーの作成を行うことができるため、撮影後の吹き出しや字幕スーパーの編集が容易になる。また、外部からの動画像の入力と同時に話者を特定し吹き出しや字幕スーパーの作成を行うことができるため、画像入力後の吹き出しや字幕スーパーの編集が容易になる。 In addition, since a speaker can be identified and a speech bubble and a caption superimpose can be created simultaneously with the shooting of a moving image, it is easy to edit the speech balloon and the caption supervision after photographing. In addition, since the speaker can be specified simultaneously with the input of the moving image from the outside and the speech balloon and the caption subtitle can be created, the speech balloon and the caption supervision after the image input can be easily edited.
[他の実施形態]
以上、本発明に係る実施形態について具体例を用いて詳述したが、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
[Other Embodiments]
The embodiment according to the present invention has been described in detail using specific examples. However, the present invention can take an embodiment as a system, apparatus, method, program, storage medium (recording medium), or the like. Specifically, the present invention may be applied to a system composed of a plurality of devices, or may be applied to an apparatus composed of a single device.
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図示の各機能ブロックやフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。 In the present invention, a software program (in the embodiment, a program corresponding to each functional block or flowchart shown in the drawings) that realizes the functions of the above-described embodiment is directly or remotely supplied to the system or apparatus. This includes the case where the computer of the apparatus is also achieved by reading and executing the supplied program code.
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。 Accordingly, since the functions of the present invention are implemented by computer, the program code installed in the computer also implements the present invention. In other words, the present invention includes a computer program itself for realizing the functional processing of the present invention.
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。 In that case, as long as it has the function of a program, it may be in the form of object code, a program executed by an interpreter, script data supplied to the OS, or the like.
プログラムを供給するための記録媒体(記憶媒体)としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。 As a recording medium (storage medium) for supplying the program, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, an MO, a CD-ROM, a CD-R, a CD-RW, a magnetic tape, and a nonvolatile memory card ROM, DVD (DVD-ROM, DVD-R) and the like.
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。 As another program supply method, a client computer browser is used to connect to an Internet homepage, and the computer program of the present invention itself or a compressed file including an automatic installation function is downloaded from the homepage to a recording medium such as a hard disk. Can also be supplied. It can also be realized by dividing the program code constituting the program of the present invention into a plurality of files and downloading each file from a different homepage. That is, a WWW server that allows a plurality of users to download a program file for realizing the functional processing of the present invention on a computer is also included in the present invention.
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。 In addition, the program of the present invention is encrypted, stored in a storage medium such as a CD-ROM, distributed to users, and key information for decryption is downloaded from a homepage via the Internet to users who have cleared predetermined conditions. It is also possible to execute the encrypted program by using the key information and install the program on a computer.
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。 In addition to the functions of the above-described embodiments being realized by the computer executing the read program, the OS running on the computer based on the instruction of the program is a part of the actual processing. Alternatively, the functions of the above-described embodiment can be realized by performing all of the processes and performing the processing.
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。 Furthermore, after the program read from the recording medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion board or The CPU or the like provided in the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.
100 自動吹き出し作成・編集処理部
101 動画入力部
102 音声入力部
103 顔検出部
104 音声識別部
105 音声認識部
106 音声・顔対応部
107 話者特定部
108 テキスト化部
109 位置特定部
110 同期部
111 画像データ部
112 吹き出し作成部
113 音声データ部
114 動画像作成部
200 映像記録・編集装置
201 カメラ部
202 映像系A/D変換部
203 画像処理部
204 マイク入力部
205 音声系A/D変換部
206 音声信号処理部
207 制御装置
208 操作部材
209 同期部
210 記録装置
211 動画像・吹き出し合成処理部
212 スピーカー
213 表示装置
300 映像記録・編集装置
301 撮影ボタン
302 接眼レンズ(ファインダー)
303 撮影レンズ
304 液晶ファインダー、再生画面
305 操作ボタン
406 吹き出し(A子)
407 吹き出し(B子)
408 字幕スーパー(C子)
501 映像領域
503,504,505 話者情報
510 音声信号レベル
511 発声開始タイムコード
512 発声終了タイムコード
513 現在の表示映像タイムコード
514 動作状態
515 開始ボタン
516 プレビューボタン
520 音声・顔登録画面
521 人物名入力フィールド
522 顔表示領域
525 音声レベル表示領域
526 顔画像取り込みボタン
527 音声取り込みボタン
530 吹き出しプロパティ設定画面
541 吹き出し編集画面
542 画像確認領域
543 テキスト表示・編集領域
544 スライダ
549 音声再認識ボタン
550 音声再生ボタン
551 確認ボタン
561 字幕スーパー設定画面
562 画像確認領域
563 テキスト表示・編集領域
564 スライダ
569 音声再認識ボタン
570 音声再生ボタン
571 確認ボタン
580 映像領域
581 映像のタイムコード
582 直前の発声開始タイムコードへの移動ボタン
583 巻き戻しボタン
584 再生ボタン
585 早送りボタン
586 直後の発声開始タイムコードへの移動ボタン
588 タイムコードスケール
589 インデックス画像
590 吹き出し情報表示
591 字幕スーパー情報表示
592 スライダ
600 パーソナルコンピュータ
601 表示装置(ディスプレイ)
602 キーボード
603 マウス
100 Automatic speech balloon creation / editing processing section
101 Video input section
102 Audio input section
103 Face detector
104 Voice identification part
105 Voice recognition unit
106 Voice / face support
107 Speaker Identification Department
108 Texting Department
109 Positioning part
110 Synchronization part
111 Image data section
112 Callout generator
113 Audio data section
114 Moving image generator
200 Video recording / editing equipment
201 Camera section
202 Video A / D converter
203 Image processing unit
204 Microphone input section
205 Voice A / D converter
206 Audio signal processor
207 Controller
208 Control members
209 Synchronization part
210 Recording device
211 Moving image / balloon composition processing part
212 Speaker
213 display
300 Video recording / editing equipment
301 Shooting button
302 Eyepiece (viewfinder)
303 Photo lens
304 LCD viewfinder, playback screen
305 Operation buttons
406 Speech balloon (child A)
407 Speech balloon (child B)
408 Subtitle Supermarket (C Child)
501 video area
503,504,505 Speaker information
510 audio signal level
511 Voice start time code
512 utterance end time code
513 Current display video time code
514 Operating status
515 Start button
516 Preview button
520 Voice / Face Registration Screen
521 Person name input field
522 Face display area
525 Audio level display area
526 Face image import button
527 Audio capture button
530 Callout property setting screen
541 Speech bubble edit screen
542 Image confirmation area
543 Text display / edit area
544 slider
549 Voice recognition button
550 Audio playback button
551 Confirm button
561 Subtitle Super Setting Screen
562 Image confirmation area
563 Text display / edit area
564 Slider
569 Voice recognition button
570 Audio playback button
571 Confirm button
580 video area
581 Video time code
582 Button to move to the last utterance start time code
583 Rewind button
584 Play button
585 Fast-forward button
586 Button to move to the next voice start time code
588 timecode scale
589 Index Image
590 Callout information display
591 Subtitle super information display
592 slider
600 personal computer
601 Display device
602 keyboard
603 mouse
Claims (22)
前記元動画データの画像部分から顔の特徴量を検出する顔検出手段と、
前記元動画データの音声部分から音声の特徴量を検出する音声識別手段と、
前記顔検出手段により検出された顔の特徴量及び前記音声識別手段により検出された音声の特徴量を、予め準備された話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定手段と、
特定された前記話者の顔位置を特定する位置特定手段と、
特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識手段と、
前記位置特定手段により得られる顔位置と、前記音声認識手段により生成されたテキストデータとに基づいて、特定された前記話者から発声された文字列のテキストデータを表示画面内に表示するための吹き出しデータを作成する吹き出し作成手段と、
前記元動画データに前記吹き出しデータを付加して新たな動画データを作成する動画像作成手段とを具備し、
前記吹き出し作成手段は、前記吹き出し作成手段により作成された吹き出しデータに対して、特定された前記話者に対応した吹き出しの形、色、柄、大きさ、並びに文字の色、大きさ、字体の少なくともいずれかを編集するための吹き出し編集画面を表示する吹き出し編集手段を有し、
前記吹き出し編集画面は、前記新たな動画データを表示するための画像表示領域と、前記吹き出しデータを編集するためのテキスト表示領域と、前記音声認識手段による音声認識を実行させるための音声認識操作部と、前記音声の再生を実行するための再生操作部と、を含み、
前記吹き出し作成手段は、前記話者特定手段において話者の音声を認識したが顔が認識できない場合または話者が前記表示画面からいなくなった場合には、前記話者の顔位置に応じた吹き出しデータに代えて、前記表示画面下の領域に字幕スーパとして文字列のみを表示するためのデータを作成することを特徴とする装置。 An apparatus for creating subtitles from original video data including images and sound,
Face detection means for detecting a facial feature amount from an image portion of the original moving image data;
A voice identifying means for detecting a voice feature amount from a voice portion of the original moving image data;
The feature amount of the face detected by the face detection unit and the feature amount of the speech detected by the speech identification unit are identified with the voice feature amount for identifying the voice of the speaker prepared in advance and the face of the speaker. A speaker identification means for identifying a speaker in comparison with a facial feature,
Position specifying means for specifying the face position of the specified speaker;
Voice recognition means for recognizing a character string from the identified voice of the speaker and generating text data of the character string;
Based on the face position obtained by the position specifying unit and the text data generated by the voice recognition unit, the text data of the character string uttered from the specified speaker is displayed in the display screen. A balloon creating means for creating balloon data;
A moving image creating means for creating new moving image data by adding the balloon data to the original moving image data;
The speech balloon creating means has a speech balloon shape, color, pattern, size, and character color, size, and font corresponding to the specified speaker for the speech balloon data created by the speech balloon creating means. Having a balloon editing means for displaying a balloon editing screen for editing at least one of them;
The balloon editing screen includes an image display area for displaying the new moving image data, a text display area for editing the balloon data, and a voice recognition operation unit for executing voice recognition by the voice recognition means. When, seen including and a reproduction operation portion for performing reproduction of the sound,
The speech balloon creating means recognizes a speech corresponding to the speaker's face position when the speaker's voice is recognized by the speaker identifying means but the face cannot be recognized or when the speaker disappears from the display screen. An apparatus for generating data for displaying only a character string as a subtitle super in the area below the display screen instead of data .
前記吹き出し作成手段は、前記位置特定手段により得られる顔位置と、前記音声認識手段により生成されたテキストデータと、前記同期手段より得られる発声開始から発声終了までの時間とに基づいて、前記吹き出しデータを作成することを特徴とする請求項1に記載の装置。 Further comprising synchronization means for managing from the start of speaking to the end of speaking by synchronizing the image and sound;
The speech balloon creating means is based on the face position obtained by the position identifying means, the text data generated by the speech recognition means, and the time from the start of speech to the end of speech obtained by the synchronization means. The apparatus according to claim 1, wherein the apparatus creates data.
前記位置特定手段は、前記吹き出しデータを前記顔の向きに合わせて表示できるように、前記話者の顔の向きと口の位置を特定することを特徴とする請求項1に記載の装置。 The face detecting means detects a face direction and a mouth position from the image portion;
The apparatus according to claim 1, wherein the position specifying unit specifies the face direction and mouth position of the speaker so that the balloon data can be displayed in accordance with the face direction.
前記動画像作成手段は、前記動画入力手段により入力された元動画データから前記吹き出しデータを生成し、当該吹き出しデータを付加して作成された新たな動画データを前記記録手段に順次記録することを特徴とする請求項9に記載の装置。 It further comprises recording means for recording moving image data,
The moving image creating means generates the balloon data from the original moving picture data input by the moving picture input means, and sequentially records new moving picture data created by adding the balloon data to the recording means. The apparatus of claim 9 .
前記元動画データの画像部分から顔の特徴量を検出する顔検出工程と、
前記元動画データの音声部分から音声の特徴量を検出する音声識別工程と、
前記顔検出工程にて検出された顔の特徴量及び前記音声識別工程にて検出された音声の特徴量を、予め準備された話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定工程と、
特定された前記話者の顔位置を特定する位置特定工程と、
特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識工程と、
前記位置特定工程により得られる顔位置と、前記音声認識工程により生成されたテキストデータとに基づいて、特定された前記話者から発声された文字列のテキストデータを表示画面内に表示するための吹き出しデータを作成する吹き出し作成工程と、
前記元動画データに前記吹き出しデータを付加して新たな動画データを作成する動画像作成工程とを備え、
前記吹き出し作成工程は、前記吹き出し作成工程により作成された吹き出しデータに対して、特定された前記話者に対応した吹き出しの形、色、柄、大きさ、並びに文字の色、大きさ、字体の少なくともいずれかを編集するための吹き出し編集画面を表示する吹き出し編集工程を有し、
前記吹き出し編集画面は、前記新たな動画データを表示するための画像表示領域と、前記吹き出しデータを編集するためのテキスト表示領域と、前記音声認識工程による音声認識を実行させるための音声認識操作部と、前記音声の再生を実行するための再生操作部と、を含み、
前記吹き出し作成工程は、前記話者特定工程において話者の音声を認識したが顔が認識できない場合または話者が前記表示画面からいなくなった場合には、前記話者の顔位置に応じた吹き出しデータに代えて、前記表示画面下の領域に字幕スーパとして文字列のみを表示するためのデータを作成することを特徴とする方法。 A method for creating subtitles from original video data including images and sounds,
A face detection step of detecting a feature amount of a face from an image portion of the original moving image data;
A voice identification step of detecting a voice feature amount from a voice portion of the original moving image data;
The feature amount of the face detected in the face detection step and the feature amount of the speech detected in the speech identification step, the speech feature amount for identifying the voice of the speaker prepared in advance, and the face of the speaker A speaker identification step for identifying a speaker in comparison with a facial feature to be identified;
A position specifying step for specifying the face position of the specified speaker;
A speech recognition step of recognizing a character string from the voice of the identified speaker and generating text data of the character string;
Displaying text data of a character string uttered from the specified speaker on the display screen based on the face position obtained by the position specifying step and the text data generated by the voice recognition step A speech balloon creation process for creating speech balloon data;
A moving image creation step of creating new movie data by adding the balloon data to the original movie data,
In the speech balloon creation process, the speech balloon data created in the speech balloon creation process has a speech balloon shape, color, pattern, size corresponding to the specified speaker, and character color, size, font type. Having a speech balloon editing step for displaying a speech balloon editing screen for editing at least one of them,
The balloon editing screen includes an image display area for displaying the new moving image data, a text display area for editing the balloon data, and a voice recognition operation unit for executing voice recognition by the voice recognition step. When, seen including and a reproduction operation portion for performing reproduction of the sound,
In the speech balloon creating step, when the voice of the speaker is recognized in the speaker specifying step but the face cannot be recognized or the speaker disappears from the display screen, the speech balloon corresponding to the speaker's face position is used. A method for generating data for displaying only a character string as a subtitle super in the lower area of the display screen instead of data .
前記吹き出し作成工程では、前記位置特定工程により得られる顔位置と、前記音声認識工程により生成されたテキストデータと、前記同期工程より得られる発声開始から発声終了までの時間とに基づいて、前記吹き出しデータを作成することを特徴とする請求項11に記載の方法。 Further comprising a synchronization step of synchronizing the image and the sound to manage from the start of speaking to the end of speaking.
In the balloon creating step, the balloon is based on the face position obtained by the position identifying step, the text data generated by the voice recognition step, and the time from the utterance start to the utterance end obtained by the synchronization step. The method according to claim 11 , wherein data is created.
前記位置特定工程では、前記吹き出しデータを前記顔の向きに合わせて表示できるように、前記話者の顔の向きと口の位置を特定することを特徴とする請求項11に記載の方法。 In the face detection step, a face direction and a mouth position in the image data are detected,
12. The method according to claim 11 , wherein in the position specifying step, the direction of the speaker's face and the position of the mouth are specified so that the balloon data can be displayed in accordance with the direction of the face.
前記動画像作成工程では、前記動画入力工程により入力された元動画データから前記吹き出しデータを生成し、
前記記録工程では、当該吹き出しデータを付加して作成された新たな動画データを前記記録手段に順次記録することを特徴とする請求項19に記載の方法。 A recording step of recording the moving image data in the recording means;
In the moving image creation step, the balloon data is generated from the original moving image data input in the moving image input step,
The method according to claim 19 , wherein in the recording step, new moving image data created by adding the balloon data is sequentially recorded in the recording means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005204736A JP4599244B2 (en) | 2005-07-13 | 2005-07-13 | Apparatus and method for creating subtitles from moving image data, program, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005204736A JP4599244B2 (en) | 2005-07-13 | 2005-07-13 | Apparatus and method for creating subtitles from moving image data, program, and storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007027990A JP2007027990A (en) | 2007-02-01 |
JP4599244B2 true JP4599244B2 (en) | 2010-12-15 |
Family
ID=37788190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005204736A Expired - Fee Related JP4599244B2 (en) | 2005-07-13 | 2005-07-13 | Apparatus and method for creating subtitles from moving image data, program, and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4599244B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101998107A (en) * | 2009-08-21 | 2011-03-30 | 夏普株式会社 | Information processing apparatus, conference system and information processing method |
US11450352B2 (en) | 2018-05-29 | 2022-09-20 | Sony Corporation | Image processing apparatus and image processing method |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4980018B2 (en) * | 2006-09-21 | 2012-07-18 | パナソニック株式会社 | Subtitle generator |
JP5109050B2 (en) * | 2007-07-13 | 2012-12-26 | 学校法人早稲田大学 | Voice processing apparatus and program |
JP4896838B2 (en) | 2007-08-31 | 2012-03-14 | カシオ計算機株式会社 | Imaging apparatus, image detection apparatus, and program |
JP2009165002A (en) * | 2008-01-09 | 2009-07-23 | Panasonic Corp | Image encoding apparatus and image encoding method |
US8428437B2 (en) | 2008-02-14 | 2013-04-23 | Panasonic Corporation | Reproduction device, integrated circuit, reproduction method, program, and computer-readable recording medium |
JP4618384B2 (en) * | 2008-06-09 | 2011-01-26 | ソニー株式会社 | Information presenting apparatus and information presenting method |
JP2010081457A (en) * | 2008-09-29 | 2010-04-08 | Hitachi Ltd | Information recording/reproducing apparatus and video camera |
JP5111343B2 (en) * | 2008-12-02 | 2013-01-09 | キヤノン株式会社 | Playback device |
KR101529927B1 (en) * | 2008-12-22 | 2015-06-18 | 엘지전자 주식회사 | Terminal and method for controlling the same |
US20110279475A1 (en) * | 2008-12-24 | 2011-11-17 | Sony Computer Entertainment Inc. | Image processing device and image processing method |
JP5595655B2 (en) * | 2008-12-24 | 2014-09-24 | 株式会社ソニー・コンピュータエンタテインメント | Image processing apparatus and image processing method |
JP2010176224A (en) * | 2009-01-27 | 2010-08-12 | Nikon Corp | Image processor and digital camera |
US20100238323A1 (en) * | 2009-03-23 | 2010-09-23 | Sony Ericsson Mobile Communications Ab | Voice-controlled image editing |
JP5201050B2 (en) * | 2009-03-27 | 2013-06-05 | ブラザー工業株式会社 | Conference support device, conference support method, conference system, conference support program |
JP4968346B2 (en) * | 2010-01-20 | 2012-07-04 | カシオ計算機株式会社 | Imaging apparatus, image detection apparatus, and program |
JP5353835B2 (en) | 2010-06-28 | 2013-11-27 | ブラザー工業株式会社 | Information processing program and information processing apparatus |
JP5621421B2 (en) * | 2010-09-06 | 2014-11-12 | ソニー株式会社 | Image processing apparatus, program, and image processing method |
JP2012058838A (en) * | 2010-09-06 | 2012-03-22 | Sony Corp | Image processor, program, and image processing method |
JP2012065002A (en) * | 2010-09-14 | 2012-03-29 | Casio Comput Co Ltd | Image composition device, image composition method, and program |
TW201230008A (en) * | 2011-01-11 | 2012-07-16 | Hon Hai Prec Ind Co Ltd | Apparatus and method for converting voice to text |
JP5685177B2 (en) * | 2011-12-12 | 2015-03-18 | 本田技研工業株式会社 | Information transmission system |
JP5849761B2 (en) * | 2012-02-22 | 2016-02-03 | 日本電気株式会社 | Speech recognition system, speech recognition method, and speech recognition program |
JP2014038429A (en) * | 2012-08-14 | 2014-02-27 | Zenrin Datacom Co Ltd | Image processor, image processing method and image processing program |
US8983836B2 (en) * | 2012-09-26 | 2015-03-17 | International Business Machines Corporation | Captioning using socially derived acoustic profiles |
US9710219B2 (en) * | 2013-06-10 | 2017-07-18 | Panasonic Intellectual Property Corporation Of America | Speaker identification method, speaker identification device, and speaker identification system |
KR102155915B1 (en) * | 2013-10-10 | 2020-09-14 | 주식회사 엘지유플러스 | Apparatus and method for recording video |
JP6148163B2 (en) | 2013-11-29 | 2017-06-14 | 本田技研工業株式会社 | Conversation support device, method for controlling conversation support device, and program for conversation support device |
CN104036789B (en) * | 2014-01-03 | 2018-02-02 | 北京智谷睿拓技术服务有限公司 | Multi-media processing method and multimedia device |
JP6016277B2 (en) * | 2014-05-02 | 2016-10-26 | 日本電気株式会社 | Audiovisual processing system, audiovisual processing method, and program |
JP6467922B2 (en) * | 2015-01-06 | 2019-02-13 | セイコーエプソン株式会社 | Head-mounted display device, head-mounted display device control method, information system, and computer program |
KR102306538B1 (en) * | 2015-01-20 | 2021-09-29 | 삼성전자주식회사 | Apparatus and method for editing content |
JP6648003B2 (en) * | 2016-12-28 | 2020-02-14 | 株式会社ミクシィ | Information processing apparatus, control method of information processing apparatus, and control program |
JP7157340B2 (en) * | 2018-02-16 | 2022-10-20 | 日本電信電話株式会社 | Nonverbal information generation device, nonverbal information generation model learning device, method, and program |
US20200401794A1 (en) * | 2018-02-16 | 2020-12-24 | Nippon Telegraph And Telephone Corporation | Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs |
KR102574278B1 (en) | 2019-04-04 | 2023-09-04 | 구글 엘엘씨 | video time anchor |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
JP6977004B2 (en) * | 2019-08-23 | 2021-12-08 | サウンドハウンド,インコーポレイテッド | In-vehicle devices, methods and programs for processing vocalizations |
JP6773349B1 (en) * | 2019-12-10 | 2020-10-21 | カクテルメイク株式会社 | Information processing equipment and programs |
WO2022054453A1 (en) * | 2020-09-08 | 2022-03-17 | ソニーグループ株式会社 | Image capturing device, image capturing system, and image capturing device setting method |
CN112887779B (en) * | 2021-01-20 | 2022-11-18 | 杭州小众圈科技有限公司 | Method, system and device for automatically rolling subtitles based on voice rhythm |
JP2023158272A (en) * | 2022-04-18 | 2023-10-30 | 国立研究開発法人情報通信研究機構 | Simultaneous interpretation device, simultaneous interpretation system, simultaneous interpretation processing method and program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3468404B2 (en) * | 1998-03-11 | 2003-11-17 | 日本電信電話株式会社 | Video subtitle insertion method and apparatus, and recording medium recording the video subtitle insertion method |
JP2004056286A (en) * | 2002-07-17 | 2004-02-19 | Fuji Photo Film Co Ltd | Image display method |
JP3873926B2 (en) * | 2003-05-16 | 2007-01-31 | 日本電気株式会社 | Subtitle insertion method, subtitle insertion system and subtitle insertion program |
JP2005124169A (en) * | 2003-09-26 | 2005-05-12 | Matsushita Electric Ind Co Ltd | Video image contents forming apparatus with balloon title, transmitting apparatus, reproducing apparatus, provisioning system, and data structure and record medium used therein |
-
2005
- 2005-07-13 JP JP2005204736A patent/JP4599244B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101998107A (en) * | 2009-08-21 | 2011-03-30 | 夏普株式会社 | Information processing apparatus, conference system and information processing method |
CN101998107B (en) * | 2009-08-21 | 2013-05-29 | 夏普株式会社 | Information processing apparatus, conference system and information processing method |
US11450352B2 (en) | 2018-05-29 | 2022-09-20 | Sony Corporation | Image processing apparatus and image processing method |
Also Published As
Publication number | Publication date |
---|---|
JP2007027990A (en) | 2007-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4599244B2 (en) | Apparatus and method for creating subtitles from moving image data, program, and storage medium | |
US5880788A (en) | Automated synchronization of video image sequences to new soundtracks | |
JP4683116B2 (en) | Information processing apparatus, information processing method, information processing program, and imaging apparatus | |
JP4919993B2 (en) | Information recording device | |
US20060136226A1 (en) | System and method for creating artificial TV news programs | |
JP2000350159A (en) | Video image edit system | |
JP2001333379A (en) | Device and method for generating audio-video signal | |
JP2007101945A (en) | Apparatus, method, and program for processing video data with audio | |
JP2010035118A (en) | Image capturing apparatus and information processing method | |
JP2004056286A (en) | Image display method | |
JP2010081457A (en) | Information recording/reproducing apparatus and video camera | |
JPH086182A (en) | Dubbing-in system and video image display system | |
JP5137031B2 (en) | Dialogue speech creation device, utterance speech recording device, and computer program | |
JPH10243351A (en) | Video reproducing device | |
JP4086532B2 (en) | Movie playback apparatus, movie playback method and computer program thereof | |
US8538244B2 (en) | Recording/reproduction apparatus and recording/reproduction method | |
JP2006339817A (en) | Information processor and display method thereof | |
JP4235635B2 (en) | Data retrieval apparatus and control method thereof | |
JP5310682B2 (en) | Karaoke equipment | |
JP4455644B2 (en) | Movie playback apparatus, movie playback method and computer program thereof | |
WO2021157192A1 (en) | Control device, control method, computer program, and content playback system | |
JP4052561B2 (en) | VIDEO Attached Audio Data Recording Method, VIDEO Attached Audio Data Recording Device, and VIDEO Attached Audio Data Recording Program | |
JP4086886B2 (en) | Movie playback apparatus, movie playback method and computer program thereof | |
Tsioustas et al. | Innovative applications of natural language processing and digital media in theatre and performing arts | |
JP4509188B2 (en) | Movie playback apparatus, movie playback method and computer program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080328 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080724 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080904 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20081226 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4599244 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131001 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |