JP2007101945A - Apparatus, method, and program for processing video data with audio - Google Patents
Apparatus, method, and program for processing video data with audio Download PDFInfo
- Publication number
- JP2007101945A JP2007101945A JP2005292485A JP2005292485A JP2007101945A JP 2007101945 A JP2007101945 A JP 2007101945A JP 2005292485 A JP2005292485 A JP 2005292485A JP 2005292485 A JP2005292485 A JP 2005292485A JP 2007101945 A JP2007101945 A JP 2007101945A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- video data
- metadata
- information
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
Description
本発明は音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムに係り、特に音声付きの映像データの音声を文字化する技術に関する。 The present invention relates to a video data processing apparatus with audio, a video data processing method with audio, and a program for processing video data with audio, and more particularly to a technique for characterizing audio of video data with audio.
従来、映像人物と音声を対応付けて表示する技術が提案されている。例えば、特許文献1には、音声を文字化したデータを精度良く映像中の話者に対応させて表示する映像表示方法について開示されている。
しかしながら、上記の特許文献1に開示された映像表示方法は、映像情報の顔認識処理を行ってせりふの話者が映像に現れる出現タイミングを検出し、この出現タイミングに基づいてせりふに対応する字幕を映像情報に挿入するものであり、画面内に話者がいない場合の映像と音声との同期を行う方法については開示されていなかった。また、上記特許文献1の映像表示方法では、せりふや場面の内容、雰囲気を認識して、文字を自動的に場面に合った様式に変換して表示することはできなかった。 However, the video display method disclosed in Patent Document 1 described above performs face recognition processing of video information to detect the appearance timing at which a speaker of the dialogue appears in the video, and subtitles corresponding to the dialogue based on the appearance timing. Is inserted into video information, and a method for synchronizing video and audio when there is no speaker on the screen has not been disclosed. In addition, in the video display method of the above-mentioned Patent Document 1, it is not possible to recognize a dialog, the contents of a scene, and the atmosphere, and automatically convert characters into a style suitable for the scene for display.
本発明はこのような事情に鑑みてなされたもので、音声を文字化したデータをせりふや場面の内容に合った様式で自動的に表示することができる音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, and a video data processing apparatus with audio and a video with audio that can automatically display data in which voice is converted into text and a format that matches the contents of the scene. An object is to provide a data processing method and a program for processing video data with audio.
上記目的を達成するために請求項1に係る音声付き映像データ処理装置は、映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得手段と、前記音声データを文字化して発話内容情報を生成する発話内容情報生成手段と、前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得手段と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成手段と、前記音声付き映像データと前記メタデータとを関連付けて記録する記録手段とを備えることを特徴とする。 In order to achieve the above object, a video data processing apparatus with audio according to claim 1, a data acquisition means for acquiring video data with audio including video data and audio data synchronized with the video data, and the audio data Utterance content information generating means for generating utterance content information by converting the text into speech, utterance time information acquisition means for acquiring utterance time information indicating the time at which the audio data is uttered in the video data, the utterance content information and the utterance It is characterized by comprising metadata creating means for creating metadata including time information, and recording means for recording the audio-added video data and the metadata in association with each other.
請求項1に係る音声付き映像データ処理装置によれば、音声付き映像データに含まれる音声データを文字化した発話内容情報や発話時間情報をメタデータとして保存することができる。このメタデータを利用することにより、テロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。 According to the video data processing apparatus with audio according to the first aspect, the utterance content information and the utterance time information obtained by converting the audio data included in the video data with audio can be stored as metadata. By using this metadata, it is possible to easily create telops, scripts, scenarios, minutes of meetings, and the like.
請求項2に係る音声付き映像データ処理装置は、請求項1において、前記映像データ及び音声データを解析して、前記音声を発した発話者を識別する発話者識別手段を更に備え、前記メタデータ作成手段は、前記発話内容情報と前記発話者の識別情報とを関連付けて前記メタデータに記録することを特徴とする。 The video data processing apparatus with audio according to claim 2 further comprises speaker identification means for analyzing the video data and the audio data and identifying a speaker who has uttered the audio, according to claim 1, The creating means is characterized in that the utterance content information and the identification information of the utterer are associated and recorded in the metadata.
請求項2に係る音声付き映像データ処理装置によれば、上記した作用に加え、発話した発話者の識別情報をメタデータとして保存することができる。 According to the video data processing apparatus with audio according to the second aspect, in addition to the above-described operation, the identification information of the speaker who has spoken can be stored as metadata.
請求項3に係る音声付き映像データ処理装置は、請求項1又は2において、前記発話者識別手段は、前記映像データ及び音声データを解析して、前記音声を発した発話者の映像データを表示した画面上における位置情報を取得する発話者位置情報取得手段を更に備え、前記メタデータ作成手段は、前記発話内容情報と前記発話者の位置情報とを関連付けて前記メタデータに記録することを特徴とする。 According to a third aspect of the present invention, there is provided the video data processing apparatus with audio according to the first or second aspect, wherein the speaker identifying means analyzes the video data and the audio data and displays the video data of the speaker who has made the voice. The apparatus further comprises speaker position information acquisition means for acquiring position information on the screen, wherein the metadata generation means records the utterance content information and the position information of the speaker in association with each other and records them in the metadata. And
請求項3に係る音声付き映像データ処理装置によれば、上記した作用に加え、発話者の位置情報をメタデータとして保存することができる。 According to the video data processing apparatus with audio according to the third aspect, in addition to the above-described operation, the position information of the speaker can be stored as metadata.
請求項4に係る音声付き映像データ処理装置は、請求項1から3において、前記音声データを解析して、前記音声の特徴量を取得する音声特徴量取得手段を更に備え、前記メタデータ作成手段は、前記発話内容情報と前記音声特徴量とを関連付けて前記メタデータに記録することを特徴とする。 The video data processing apparatus with audio according to claim 4 further comprises audio feature quantity acquisition means for analyzing the audio data and acquiring the audio feature quantity according to claims 1 to 3, wherein the metadata generation means Is characterized in that the utterance content information and the audio feature quantity are associated with each other and recorded in the metadata.
請求項4に係る音声付き映像データ処理装置によれば、発話内容に加えて音声特徴量をメタデータとして保存することができる。 According to the video data processing apparatus with audio according to the fourth aspect, the audio feature quantity can be stored as metadata in addition to the utterance content.
請求項5に係る音声付き映像データ処理装置は、請求項4において、前記音声特徴量取得手段は、前記音声の大きさ、高低、抑揚又はトーンのうち少なくとも1つの情報を取得することを特徴とする。請求項5は、請求項4の音声特徴量を列挙したものである。 According to a fifth aspect of the present invention, there is provided the video data processing apparatus with audio according to the fourth aspect, wherein the audio feature amount acquisition unit acquires at least one information of the size, level, inflection, or tone of the audio. To do. Claim 5 lists the audio feature quantities of claim 4.
請求項6に係る音声付き映像データ処理装置は、請求項1から5において、前記音声付き映像データを再生表示する再生表示手段と、前記メタデータから発話内容情報及び発話時間情報を取得する情報取得手段と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段とを更に備えることを特徴とする。 A video data processing apparatus with audio according to claim 6 is the information acquisition apparatus according to claim 1, wherein reproduction display means for reproducing and displaying the video data with audio and information for acquiring utterance content information and utterance time information from the metadata. Means, telop creation means for creating a telop based on the acquired utterance content information, and telop insertion means for inserting the telop when reproducing the video data with audio based on the acquired utterance time information. It is characterized by providing.
請求項6に係る音声付き映像データ処理装置によれば、音声付き映像データのメタデータからテロップを作成して、音声付き映像データの再生時に表示させることができる。 According to the video data processing apparatus with audio according to the sixth aspect, it is possible to create a telop from the metadata of the video data with audio and display it when reproducing the video data with audio.
請求項7に係る音声付き映像データ処理装置は、請求項3において、前記音声付き映像データを再生表示する再生表示手段と、前記メタデータから発話内容情報、発話時間情報及び発話者の位置情報を取得する情報取得手段と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、前記取得した発話者の位置情報に基づいて、前記テロップの挿入位置を調整する挿入位置調整手段とを備えることを特徴とする。 According to a seventh aspect of the present invention, there is provided a video data processing apparatus with audio according to the third aspect, wherein reproduction display means for reproducing and displaying the video data with audio, utterance content information, utterance time information, and speaker position information from the metadata. Information acquisition means for acquiring, telop generation means for generating a telop based on the acquired utterance content information, and telop insertion for inserting the telop when reproducing the video data with audio based on the acquired utterance time information And insertion position adjusting means for adjusting the insertion position of the telop based on the acquired position information of the speaker.
請求項7に係る音声付き映像データ処理装置によれば、メタデータから取得した発話者の位置情報に基づいて、テロップの挿入位置を調整することにより、挿入されたテロップと発話者の対応がわかりやすい表示にすることができる。 According to the video data processing apparatus with audio according to claim 7, the correspondence between the inserted telop and the speaker is easily understood by adjusting the insertion position of the telop based on the position information of the speaker acquired from the metadata. Can be displayed.
請求項8に係る音声付き映像データ処理装置は、請求項4又は5において、前記音声付き映像データを再生表示する再生表示手段と、前記メタデータから発話内容情報、発話時間情報及び音声特徴量を取得する情報取得手段と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、前記音声特徴量に応じて、前記テロップの文字属性を変更する文字属性変更手段とを備えることを特徴とする。 According to an eighth aspect of the present invention, there is provided a video data processing apparatus with audio according to claim 4 or 5, wherein reproduction display means for reproducing and displaying the video data with audio, utterance content information, utterance time information, and audio feature amounts from the metadata. Information acquisition means for acquiring, telop generation means for generating a telop based on the acquired utterance content information, and telop insertion for inserting the telop when reproducing the video data with audio based on the acquired utterance time information And character attribute changing means for changing the character attribute of the telop according to the voice feature amount.
請求項8に係る音声付き映像データ処理装置によれば、例えば、大きい(小さい)音声に対応するテロップのフォントサイズを大きく(小さく)したり、力強い(弱々しい)音声に対応するテロップのフォントを太く(細く)することにより、音声特徴量に応じた表現力豊かなテロップを作成することができる。
According to the video data processing apparatus with audio according to
請求項9に係る音声付き映像データ処理装置は、請求項8において、前記文字属性変更手段は、前記音声特徴量に応じて、前記テロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組、かっこ、又は、前記テロップに付す吹き出し、感嘆符、疑問符等の符号のうち少なくとも1つを変更することを特徴とする。請求項9は、請求項8の文字属性を列挙したものである。 According to a ninth aspect of the present invention, there is provided the video data processing apparatus with audio according to the eighth aspect, wherein the character attribute changing means includes a font, a font size, a character color, a background color, a character decoration of the telop according to the audio feature amount. It is characterized in that at least one of a column, parentheses, or a symbol attached to the telop, such as a balloon, an exclamation mark, or a question mark, is changed. The ninth aspect lists the character attributes of the eighth aspect.
請求項10に係る音声付き映像データ処理方法は、映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得工程と、前記音声データを文字化して発話内容情報を生成する発話内容情報生成工程と、前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得工程と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成工程と、前記音声付き映像データと前記メタデータとを関連付けて記録する記録工程とを備えることを特徴とする。
The audio-added video data processing method according to
請求項11に係る音声付き映像データ処理用プログラムは、映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得機能と、前記音声データを文字化して発話内容情報を生成する発話内容情報生成機能と、前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得機能と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成機能と、前記音声付き映像データと前記メタデータとを関連付けて記録する記録機能とをコンピュータに実現させることを特徴とする。 An audio-added video data processing program according to claim 11 is a data acquisition function for acquiring audio-added video data including video data and audio data synchronized with the video data; Utterance content information generation function for generating information, utterance time information acquisition function for acquiring utterance time information indicating the time at which the audio data is uttered in the video data, and metadata including the utterance content information and the utterance time information And a recording function for recording the video data with audio and the metadata in association with each other.
請求項11に係る音声付き映像データ処理用プログラムを含むソフトウェアやファームウェアをパーソナルコンピュータ(PC)のほか、ビデオ再生装置(ビデオデッキ、テレビ)やデジタルカメラ、携帯電話等の映像再生機能を有する装置に適用することにより、本発明の音声付き映像データ処理装置及び音声付き映像データ処理方法を実現することができる。 Software and firmware including the audio data processing program according to claim 11 in addition to a personal computer (PC), a video playback device (video deck, television), a digital camera, a mobile phone or other device having a video playback function. By applying this, it is possible to realize the video data processing apparatus with audio and the video data processing method with audio of the present invention.
本発明によれば、音声付き映像データに含まれる音声データを文字化した発話内容情報や発話時間情報をメタデータとして保存することができる。そして、このメタデータを利用することにより、テロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。 According to the present invention, utterance content information and utterance time information obtained by converting audio data included in video data with audio into characters can be stored as metadata. By using this metadata, telops, scripts, scenarios, minutes of meetings, etc. can be easily created.
以下、添付図面に従って本発明に係る音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムの好ましい実施の形態について説明する。 Preferred embodiments of a video data processing apparatus with audio, a video data processing method with audio, and a program for processing video data with audio according to the present invention will be described below with reference to the accompanying drawings.
図1は、本発明の一実施形態に係る音声付き映像データ処理装置を備える撮像装置の主要構成を示すブロック図である。図1に示す撮像装置10は、例えば、動画撮影機能を有する電子カメラやデジタルカメラ、デジタルビデオカメラである。
FIG. 1 is a block diagram illustrating a main configuration of an imaging apparatus including an audio-equipped video data processing apparatus according to an embodiment of the present invention. An
CPU12は、バス14を介して撮像装置10内の各部に接続されており、操作スイッチ16等からの操作入力に基づいて撮像装置10の動作を制御する統括制御部である。操作スイッチ16は、電源スイッチやレリーズスイッチ16A、十字キー等を含んでおり、ユーザからの操作入力を受け付ける。レリーズスイッチ16Aは2段階式に構成され、レリーズスイッチ16Aを軽く押して止める「半押し(S1=ON)」の状態で自動ピント合わせ(AF)及び自動露出制御(AE)が作動してAFとAEをロックし、「半押し」から更に押し込む「全押し(S2=ON)」の状態で撮影が実行される。
The
メモリ18は、CPU12が処理するプログラム及び制御に必要な各種データ等が格納されるROMや、CPU12が各種の演算処理等を行う作業用領域及び映像処理領域となるSDRAM等を有している。
The
外部通信インターフェース(外部通信I/F)20は、ネットワークや外部出力機器(例えば、パーソナルコンピュータやテレビジョン、ディスプレイ、プリンタ、外部記録装置)等と接続するための機器で、所定のプロトコルにしたがって各種データの送受信を行う。なお、データの送受信の方式は、例えば、インターネットや無線LAN、有線LAN、IrDA、Bluetooth等である。 The external communication interface (external communication I / F) 20 is a device for connecting to a network or an external output device (for example, a personal computer, a television, a display, a printer, an external recording device), and the like. Send and receive data. The data transmission / reception method is, for example, the Internet, a wireless LAN, a wired LAN, IrDA, Bluetooth, or the like.
撮像素子24は、光学系(レンズ)22を介して入射した光を受け止めて電気信号に変換する素子であり、例えばCCDである。この電気信号は、図示せぬプリアンプによって増幅され、A/D変換器26によってデジタル信号に変換されて、映像処理部28に入力される。
The
本実施形態の撮像装置10は、映像(静止画、動画)を撮影するための撮影モードと、映像を表示、再生するための再生モードの複数の動作モードを備えており、ユーザは操作スイッチ16からの操作入力により動作モードを設定する。
The
撮影モード時には、映像処理部28によって撮像素子24から出力された電気信号が処理されて画角確認用の映像データ(スルー画)が作成され、映像表示部(モニタ)30に表示される。静止画を撮影する場合には、レリーズスイッチ16Aが操作されて静止画が撮影されると、撮像素子24から出力された電気信号が映像処理部28によって処理されて保存用の静止画データが作成される。この保存用の静止画データは、記録メディア32に所定のファイル形式で保存される。ここで、記録メディア32は、例えば、半導体メモリやビデオテープ、ハードディスクドライブ(HDD)、DVD等である。なお、マイク34により音声を入力して、上記静止画データと音声とを関連付けて保存することもできる。
In the shooting mode, the electric signal output from the
一方、動画を撮影する場合には、レリーズスイッチ16Aにより動画の撮影が開始されると、マイク34により音声の取得が開始される。そして、映像処理部28によって保存用の動画データが作成されるとともに、オーディオ処理回路36によって保存用の音声データが作成される。この保存用の動画データ及び音声データは、記録メディア32に所定のファイル形式(例えば、MPEG形式やAVI形式)の音声付き映像データに変換されて保存される。
On the other hand, when shooting a moving image, acquisition of sound is started by the
一方、再生モード時において、静止画の再生時には、映像処理部28によって記録メディア32に保存された静止画データが読み出されて表示用の静止画データが作成され、モニタ30に表示される。また、動画の再生時には、映像処理部28によって記録メディア32に保存された動画データが読み出されて表示用の動画データが作成されモニタ30に表示されるとともに、上記動画データと関連付けられた音声データが読み出されてスピーカ38から出力される。上述のように、モニタ30は撮影時の画角確認用の電子ファインダとして用いられるとともに、撮影された映像データ(静止画データ、動画データ)の表示に用いられる。
On the other hand, in the playback mode, at the time of playback of a still image, the still image data stored in the
次に、上記の撮像装置10により撮像された音声付き映像データからメタデータを生成して付与する処理について、図2を参照して説明する。図2は、撮像装置10における音声付き映像データ処理の流れを示す機能ブロック図である。図2に示す録画指示・制御部40は、録画開始の指示を行うレリーズスイッチ16AやCPU12を含む機能ブロックであり、レリーズスイッチ16Aからの操作入力によりCPU12から外部映像・音声入力部42及び映像・音声信号符号化部44に、動画の撮影の開始信号を出力する。外部映像・音声入力部42は、光学系22、撮像素子24及びマイク34を含む機能ブロックであり、映像・音声信号符号化部44は、映像処理部28及びオーディオ処理回路36を含む機能ブロックである。外部映像・音声入力部42から出力された映像及び音声の電気信号は、映像・音声信号符号化部44(動画コーデック)によって、図3に示すように、音声データ62と映像データ64とを含む所定の形式の音声付き映像データ60に変換され、映像・音声信号保存部46(メモリ18、記録メディア32)に保存される。
Next, processing for generating and assigning metadata from audio-attached video data imaged by the
次に、映像・音声信号保存部46から音声付き映像データ60が読み出されて、映像・音声信号解析部48によって音声付き映像データ60中の音声データ62が抽出される。映像・音声信号解析部48は、抽出した音声データ62から文字に変換可能な人の声を音声認識処理により文字化して発話内容情報として出力する。また、音声の大きさや高低、抑揚、トーン等の音声特徴量を認識し、音声を所定のテクスチャに類型化し音声特徴量情報として出力する。
Next, the audio /
また、映像・音声信号解析部48は、上記文字化された音声が発せられている発話時間情報を取得する。この時間情報は、例えば、発話の開始時及び終了時の映像データ(動画)のフレームを特定する情報(フレーム)番号や、発話の開始時刻及び終了時刻等である。さらに、映像・音声信号解析部48は、映像データ64を解析して上記発話内容に対応する発話者を検出し、発話者識別するための発話者識別子及び発話者の画面上における位置座標を取得して発話者情報として出力する。メタデータ生成部50は、上記の発話時間情報、発話内容情報、発話者情報、音声特徴量情報等を所定のファイル形式(例えば、xml形式)のメタデータに格納する。このメタデータは、図4に示すような情報を含んでおり、所定の形式(例えば、MPEG−2やAVI形式)で映像・音声信号記録部46の記録メディア32に保存される。
Further, the video / audio
図5はxml形式のメタデータの例を示す図であり、図6はxmlのスキーマを示す図である。図5に示す例では、発話時間情報は、文字化された発話内容の開始時刻及び終了時刻がvoiceタグにフレーム番号で記述され、発話内容情報はtextタグで記述されている。発話者情報(person)は、name属性に発話者の例えば、人物名(「○×△男」)で記述される。図5に示す例では、画面内に発話者がいないため、pos属性は省略されるか空欄になっている。また、音声特徴量情報(tone)のtype属性は、naration(ナレーション)のほかには、例えば、笑い声、泣き声、大声、ひそひそ声等を設定可能である。 FIG. 5 is a diagram showing an example of metadata in xml format, and FIG. 6 is a diagram showing a schema of xml. In the example shown in FIG. 5, in the utterance time information, the start time and end time of the transcribed utterance content are described in the voice tag by a frame number, and the utterance content information is described by a text tag. The speaker information (person) is described in the name attribute by, for example, the name of the speaker (“◯ × Δ male”). In the example shown in FIG. 5, since there is no speaker on the screen, the pos attribute is omitted or blank. In addition to the narration, the type attribute of the voice feature amount information (tone) can be set to, for example, a laughing voice, a crying voice, a loud voice, a secret voice, or the like.
次に、メタデータの格納形式について説明する。図7は、メタデータをMPEG形式で保存する例を示す図である。図7に示すようにMPEG−2形式では、映像データ64を含む映像ストリーム64′と音声データ62を含む音声ストリーム62′、メタデータ66を含むメタデータストリーム66′が規格に定められた記録方式(パックと呼ばれる、一例で2,048kbのデータ単位の連なり)によって、インターリーブで単一のファイル68として記録される。
Next, a metadata storage format will be described. FIG. 7 is a diagram illustrating an example of storing metadata in the MPEG format. As shown in FIG. 7, in the MPEG-2 format, a
図8は、メタデータをAVI形式で保存する例を示す図である。図8において、「RIFF AVI」は、AVIファイル全体を示す。また、「LIST hdrl」は、AVIファイルのヘッダ領域であり、映像用及び音声用の2つのヘッダ領域「LIST strl」を含んでいる。本実施形態では、映像用のヘッダ領域「LIST strl」内に太枠で示す「strd」及び「strn」という独自拡張データ用ストリームを設け、このストリーム内に図5に示すxml形式のメタデータをそのままバイナリデータとして保存する。これにより、AVIファイル内にメタデータを保存することができる。 FIG. 8 is a diagram illustrating an example of storing metadata in the AVI format. In FIG. 8, “RIFF AVI” indicates the entire AVI file. “LIST hdr” is a header area of the AVI file, and includes two header areas “LIST str” for video and audio. In this embodiment, original extension data streams “strd” and “strn” indicated by thick frames are provided in the header area “LIST strl” for video, and the metadata in the xml format shown in FIG. 5 is included in this stream. Save as binary data. Thereby, metadata can be saved in the AVI file.
以下、音声付き映像データの処理方法について、図9を参照して説明する。図9は、本発明の一実施形態に係る音声付き映像データの処理方法を示すフローチャートである。まず、映像・音声信号保存部46から音声付き映像データ60を読み出し、一定量バッファリングして、音声データ62の解析を開始する(ステップS10)。ステップS10において、バッファリングする音声付き映像データ60のデータ量は調整可能である。ここで、バッファリングするデータ量の値は、解析対象とする音声データ62を文字化した際の文脈の適切な切れ目をひとつの目安とするとよい。例えば、日本語における通常のスピードの発話が1分間に約400〜500語であるといったデータをもとに、1音節を含みうるデータ量などを逆算して、それをバッファリングするデータ量の初期値としてもよい。
Hereinafter, a method for processing video data with audio will be described with reference to FIG. FIG. 9 is a flowchart illustrating a method for processing video data with audio according to an embodiment of the present invention. First, the video data with
次に、音声認識により音声データ62の発話内容を文字化する(ステップS12)。ステップS12では、例えば、音声付き映像データ60中の音声データ62の中から人(発話者)の声、動物の声、周囲の音、効果音等を抽出し、人声辞書及び効果音辞書を用いてそれぞれ抽出された人声データ及び効果音データの文字化を行う。さらに、人声データを解析して声紋や発話スピード等の音声特徴量に基づいて発話者ごとに音声を分類し、発話内容情報として保存する。なお、音声データ62の文字化の方法は、上記のものに限定されるものではない。
Next, the speech content of the
文字化した音声データ(発話内容情報)は、フレーム単位の時間情報と同期させる必要があるため、さらに解析して、1音節または1音などの適切な区切りに分解し、分解された発話内容情報と同期するフレーム番号又は時間情報を、例えば、発話内容「それは夏だった」の発話時間がフレーム0番から10番又は0分00秒から0分05秒のように、発話時間情報として保存しておく(図5参照)。
Since it is necessary to synchronize the text data (speech content information) with the time information in units of frames, it is further analyzed and decomposed into appropriate punctuation such as one syllable or one sound. The frame number or time information synchronized with the utterance time information is stored as the utterance time information, for example, the utterance time of the utterance content “It was summer” from
なお、ステップS12において、文字化した音声データの発話終了時間がバッファリングした映像データ64の終了時間より早く、バッファリングした音声付き映像データに残りが生じる場合は、次のループの音声付き映像データ60のバッファリング開始位置を、今回文字化した音声データの終了時間に合わせるとよい。
In step S12, if the utterance end time of the transcribed audio data is earlier than the end time of the buffered
ステップS12において解析した音声データ62に発話が含まれない場合(ステップS14のNo)、文字化した音声データがないため、ステップS10に戻って音声付き映像データ60の残りのデータに対し処理を継続する。
If the utterance is not included in the
一方、ステップS12において解析した音声データ62に発話が含まれる場合(ステップS14のYes)、文字化した音声データを、音声信号の音声特徴量(声の大きさ、高低、抑揚及びトーン等)によりトーン分析する(ステップS16)。ここで、トーン分析とは、予め用意された声のトーンのテクスチャ(例えば、笑い声、ひそひそ声、大声等)に類型化することを指す。また、ステップS16では、音声のトーンを表す数値データ(大きさ、周波数等)も併せて記録する。
On the other hand, if the
次に、文字化した音声データをもとに発話者を解析する(ステップS18)。ステップS18では、例えば、映像データ64を解析して、映像データ64のフレームごとに人物が映っている人物領域を抽出する。上記人物の映像特徴量を算出し、この映像特徴量に基づいて人物を推定する。ここで、映像特徴量としては、例えば、平均濃度、ハイライト(最低濃度)、シャドー(最高濃度)、ヒストグラム等である。人物の推定は、その人物の性別、年齢、職業等の人物層を推定することで行う。例えば、性別の推定は、上記人物領域から顔領域(頭髪)を抽出し、これらの抽出結果により、頭髪領域のボリュームが大きい場合や、頭髪領域が細長く、長髪である場合、または、胴体以下の輪郭形状のパターンマッチングから抽出された衣服の形状からスカートであると思われる場合、さらに、衣服の色が赤やピンク系統が多い場合、あるいは顔領域の抽出結果から、化粧の有無、口紅の使用の有無やアクセサリの着用の有無等から総合的に判断して、女性であると推定することができる。また、年齢の推定は、表示映像から被写体人物の身長を算出し、その大きさにより、大人、中高生、小学生、幼児等と推定を行うことができる。または、抽出された頭髪領域のボリュームが少ない場合や頭髪の色が白い場合には、高齢者であると推定される。また、職業の推定は、例えば、衣服によって行うことができる。例えば、衣服の形状、濃度、色味からスーツ系の度合いが高い場合には、サラリーマン層と推定でき、衣服の形状や色から制服系であると思われる場合には、性別や年齢の推定結果と合わせて中高生を含めた学生等と推定できる。なお、人物層の推定方法は、ここに挙げたのは一例であり、これに限定されるものではない。
Next, the speaker is analyzed based on the voice data that has been converted to text (step S18). In step S18, for example, the
そして、映像データ64から推定した人物領域の数Nと、音声データ62の人声から推定した人物の数Mについて、同一シーン中に登場するタイミングの発生状況の統計を取る。このとき、映像特徴量による人物層推定結果と、音声特徴量による人物層推定結果が矛盾する場合には、統計処理においては、カウントアップしないこととする。例えば、映像データ64の解析結果では男性なのに、音声データは女性のような場合である。また、映像データ64では男性候補と女性候補の両方を抽出していて、音声が女性候補のみの場合には、映像の女性候補のみをカウントアップする。なお、このとき、映像中の人物の口元の動きを検出して、発声タイミングとの一致度を、映像と音声の一致度の重み付けに利用して、統計を取るようにしてもよい。
Then, statistics on the occurrence status of timings appearing in the same scene are taken for the number N of person regions estimated from the
そして、この統計処理を一定時間区切りで行って集計する。一定時間区切りとしては、例えば、10分間隔とか実際に時間で区切ってもよいし、映像データ64がTV番組を録画したものであれば、1番組内で区切っても、コマーシャルで区切っても、チャプターで区切ってもよい。このようにして統計を取った結果から、映像による人物推定と音声による人物推定の相関の高い組み合わせに基づいて、映像データ64から検出された発話者と、発話内容との関連付けを決定し、発話した発話者を特定する。なお、この段階で映像データ64の解析による人物推定結果と、音声データ62の解析による人物推定結果との矛盾チェックを行うようにしてもよい。
Then, this statistical processing is performed at regular time intervals and tabulated. As the fixed time interval, for example, an interval of 10 minutes may be actually divided, or if the
そして、上記特定された発話者に人物名や性別、年齢等の発話者を特定できる文字列からなる発話者識別子(例えば、女性A、老婆A等)を付与し、特定された発話者の属する人物領域の位置座標及び発話者識別子を含む発話者情報として保存する。 Then, a speaker identifier (for example, female A, old woman A, etc.) consisting of a character string that can specify a speaker such as a person name, gender, and age is assigned to the specified speaker, and the specified speaker belongs to the speaker. It is stored as speaker information including the position coordinates of the person area and the speaker identifier.
なお、本実施形態では、メモリ18内に発話者データベース(DB)を設けておき、この発話者DBに発話者の顔領域や人物名、ニックネーム、声紋等を予め保存しておき、この顔領域と上記抽出された人物の映像特徴量を照合して発話者を特定するようにしてもよい。
In the present embodiment, a speaker database (DB) is provided in the
次に、上記の発話時間情報、発話内容情報、発話者情報(発話者識別子及び発話者の位置座標)、音声特徴量情報等を含むメタデータを生成する(ステップS20)。ステップS20では、まず、発話内容情報と、発話時間情報をもとにメタデータを生成し、併せて、発話者情報と音声特徴量情報もメタデータ内に記述する。 Next, metadata including the utterance time information, utterance content information, utterer information (speaker identifier and utterer position coordinates), voice feature amount information, and the like is generated (step S20). In step S20, first, metadata is generated based on the utterance content information and the utterance time information, and the speaker information and voice feature information are also described in the metadata.
次に、未処理の音声付き映像データがある場合(ステップS22のYes)、ステップS10に戻り処理を継続する。そして、未処理の音声付き映像データがなくなれば(ステップS22のNo)、メタデータ生成を終了し、生成したメタデータを適切な方法で格納する(ステップS24)。なお、メタデータの格納方法としては、例えば、図7及び図8に示すように、MPEG−2やAVI形式により音声付き映像データ60と同一のファイルに保存するようにしてもよいし、また、音声付き映像データ60とは別のxmlファイルとして相互に関連付けて保存するようにしてもよい。
Next, when there is unprocessed audio-added video data (Yes in step S22), the process returns to step S10 to continue the processing. Then, when there is no unprocessed video data with audio (No in step S22), the generation of metadata is terminated, and the generated metadata is stored by an appropriate method (step S24). For example, as shown in FIGS. 7 and 8, the metadata may be stored in the same file as the audio-added
本実施形態によれば、音声データを文字化した発話内容情報等を含むメタデータを付与して保存することができる。そして、このメタデータを利用することにより、テロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。 According to the present embodiment, it is possible to add and store metadata including utterance content information obtained by characterizing voice data. By using this metadata, telops, scripts, scenarios, minutes of meetings, etc. can be easily created.
次に、上記音声付き映像データ処理装置を備える撮像装置10の映像再生機能について、図10及び図11を参照して説明する。図10は、音声付き映像データ処理装置の映像再生機能部の主要構成を示すブロック図である。図10に示すように、音声付き映像データ処理装置の映像再生機能部は、映像・音声信号記録部46、再生指示制御部70、映像・音声信号復号再生部72、メタデータ読込部74、テロップ生成表示部76及び外部映像・音声出力部78を備える。
Next, the video reproduction function of the
再生指示制御部70は、映像データの再生指示を行う再生スイッチや再生停止指示を行う停止スイッチ、一時停止スイッチ、巻き戻し/早送りスイッチ、メニュースイッチ、リモコン等のユーザが映像再生に係る操作入力を行うための操作部材を含んでおり、各操作部材からの操作入力に応じて映像再生機能部の各ブロックに制御信号を送る。
The playback
映像・音声信号復号再生部72は、再生指示制御部70からの操作入力により指定された音声付き映像データを映像・音声信号記録部46から読み出して、映像信号及び音声信号を復号する。メタデータ読込部74は、再生指示制御部70からの操作入力により指定された音声付き映像データのメタデータを読み込んでテロップ生成表示部76に出力する。テロップ生成表示部76は、メタデータから発話内容情報及び発話時間情報を読み出して、上記発話時間情報に対応するフレームに、発話内容情報のテロップを挿入する指令を映像・音声信号復号再生部72に出力する。また、テロップ生成表示部76は、上記メタデータから発話者情報を読み出して、上記発話時間情報に対応する全フレームにおける発話者の位置を特定し、テロップの挿入位置を指定する指令を出力する。また、テロップ生成表示部76は、音声特徴量情報に基づいてテロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組又はテロップに付すかっこ、吹き出し、感嘆符、疑問符等の符号等を指定する指令を出力する。映像・音声信号復号再生部72は、上記テロップ生成表示部76からの指令に基づいて上記復号した映像信号にテロップを挿入し、復号した音声信号とともに外部映像・音声出力部78に出力する。外部映像・音声出力部78は、映像を表示する画像表示部30及び音声を出力するスピーカ38、ビデオ/オーディオ出力端子等を含んでおり、映像・音声信号復号再生部72から入力された映像及び音声を再生する。
The video / audio signal decoding / reproducing
次に、メタデータが付与された音声付き映像データを再生する処理の流れについて、図11を参照して説明する。図11は、メタデータが付与された音声付き映像データを再生する処理の流れを示すフローチャートである。 Next, the flow of processing for reproducing audio-added video data to which metadata is attached will be described with reference to FIG. FIG. 11 is a flowchart showing a flow of processing for reproducing audio-added video data to which metadata is added.
まず、再生指示制御部70により再生する音声付き映像データが選択されると、メタデータ読込部74によりメタデータを読み込む(ステップS30)。ここで、図7及び図8に示すようにメタデータが音声付き映像データと同一ファイル内に格納押されている場合には、メタデータ読込部74は、音声付き映像データからメタデータを読み込む。また、メタデータが音声付き映像データとは別ファイルで、URL等により相互に関連付けられて記録されている場合には、メタデータ読込部74は、上記指定された音声付き映像データと関連付けられたメタデータのファイルを取得する。
First, when video data with audio to be reproduced is selected by the reproduction
次に、上記読み込んだメタデータに含まれる発話内容情報(図5のtextタグ)から、発話内容を文字化したデータを読み込んで、テロップの文字データを生成する(ステップS32)。また、上記メタデータから発話者情報及び音声特徴量情報を取得し、テロップの文字属性を設定する(ステップS34)。ステップS34では、例えば、発話者(発話者識別子)ごとにテロップの文字色を変更し、同一の発話者の発話内容をテロップの色で識別できるようにする。また、音声特徴量に応じて文字属性を変更する。例えば、音声の大きさ、高低、抑揚に応じて、テロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組を変更したり、又はかっこ、吹き出し、感嘆符、疑問符等の符号をテロップに付す。これにより、音声の性質に応じた効果的なテロップを作成することができる。なお、ステップS32及びS34では、ユーザが画面をみながら操作スイッチ16を操作して、テロップの文字の修正、追加や、文字属性の設定変更を手動で行えるようにしてもよい。
Next, from the utterance content information (text tag in FIG. 5) included in the read metadata, the text data of the utterance content is read to generate telop character data (step S32). Further, the speaker information and the voice feature amount information are acquired from the metadata, and the text attribute of the telop is set (step S34). In step S34, for example, the text color of the telop is changed for each speaker (speaker identifier) so that the utterance content of the same speaker can be identified by the telop color. Further, the character attribute is changed according to the voice feature amount. For example, the telop font, font size, text color, background color, text decoration, column change according to the volume, height, and inflection of the voice, or the sign such as parenthesis, speech balloon, exclamation mark, question mark, etc. Attached to the telop. This makes it possible to create an effective telop according to the nature of the voice. In steps S32 and S34, the user may operate the
また、メタデータに含まれる発話者情報に応じて、テロップの挿入位置やサイズの調整を行う(ステップS36)。例えば、発話者の画面内における位置がメタデータに記載されている場合は、画面内の発話者の位置に応じて、その人物が発言したことがわかるようにテロップの挿入位置とサイズを調整する。例えば、発話者の位置座標に応じて、左側に映っている発話者のせりふは左に、右側に映っている発話者のせりふは右側に挿入する。なお、発話者の顔や口の位置をメタデータに保存しておくか、音声付き映像データ処理装置120により検出して、発話者の顔領域付近に吹き出しを表示させ、その吹き出しのなかにテロップを挿入するようにしてもよい。また、テロップは、メタデータに他の発話者の位置や人物領域の大きさを記録しておくことにより、同一フレームに映っている他の人物にテロップが重ならないようにしてもよい。なお、発話者情報に発話者の位置座標が含まれていない場合、すなわち、発話者が画面内にいない場合については、例えば、映像解析により背景領域を検出し、背景領域に収まるように、テロップの位置・サイズを算出するようにするとよい。なお、ステップS36では、ユーザが操作スイッチ16を操作して、テロップの挿入位置やサイズの変更を手動で行えるようにしてもよい。また、テロップを発話者情報(name属性情報)とともに表示させてもよい。
Further, the insertion position and size of the telop are adjusted according to the speaker information included in the metadata (step S36). For example, if the position of the speaker on the screen is described in the metadata, the insertion position and size of the telop are adjusted so that the person speaks according to the position of the speaker on the screen. . For example, depending on the position coordinates of the speaker, the speaker's dialogue shown on the left is inserted on the left, and the speaker's dialogue shown on the right is inserted on the right. Note that the position of the speaker's face and mouth is stored in the metadata, or is detected by the video data processing apparatus with audio 120, and a speech bubble is displayed near the speaker's face area, and a telop is included in the speech bubble. May be inserted. Further, the telop may be recorded so that the position of another speaker or the size of the person area is recorded in the metadata so that the telop does not overlap another person appearing in the same frame. When the speaker's position coordinates are not included in the speaker information, that is, when the speaker is not in the screen, for example, the background area is detected by video analysis, and the telop is set so that it falls within the background area. It is preferable to calculate the position and size of. In step S36, the user may manually change the insertion position and size of the telop by operating the
次に、上記のようにして決定された文字属性や挿入位置、サイズ等に基づいて映像中にテロップが挿入され、音声付き映像データが再生される(ステップS38)。なお、音声付き映像データの再生時には、上記図12の処理を継続してリアルタイムにテロップを作成表示するようにしてもよいし、再生前にメタデータを先読みしてテロップをキャッシュしておき、再生時に表示してもよい。 Next, a telop is inserted in the video based on the character attribute, insertion position, size, etc. determined as described above, and video data with audio is reproduced (step S38). When reproducing video data with audio, the processing shown in FIG. 12 may be continued to create and display a telop in real time, or the telop may be cached by prefetching metadata before reproduction. Sometimes it may be displayed.
本実施形態の音声付き映像データ処理装置によれば、映像データ中の発話者の位置や音声の特徴に応じて、テロップの挿入位置やサイズ、文字属性を調整することで、インテリジェントなテロップを自動的に作成、表示することができる。 According to the video data processing apparatus with audio of the present embodiment, intelligent telop is automatically adjusted by adjusting the insertion position, size, and character attribute of the telop according to the position of the speaker in the video data and the audio characteristics. Can be created and displayed automatically.
また、上記実施形態では、メタデータを利用してテロップを簡易に作成するようにしたが、メタデータの利用法はこれに限定されるものではない。例えば、上記音声付き映像データ処理装置にプリンタを接続し、上記メタデータを利用してテロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。 In the above embodiment, the telop is easily created using the metadata. However, the method of using the metadata is not limited to this. For example, it is possible to easily create a telop, script, scenario, meeting minutes, etc. using the metadata by connecting a printer to the video data processing apparatus with audio.
なお、本実施形態では、音声付き映像データ処理装置を備える撮像装置の実施例について説明したが、例えば、パーソナルコンピュータやビデオレコーダ、ハードディスクレコーダ等の画像を再生する機能を有する装置にも本発明の音声付き映像データ処理装置を適用することができる。 In the present embodiment, an example of an imaging apparatus including a video data processing apparatus with audio has been described. However, for example, an apparatus having a function of reproducing an image, such as a personal computer, a video recorder, or a hard disk recorder, may be used. A video data processing apparatus with audio can be applied.
図12は、音声付き映像データ処理装置の別の実施例を示すブロック図である。図12に示す音声付き映像データ処理装置100は、例えば、パーソナルコンピュータやビデオレコーダ、ハードディスクレコーダ等であり、記録媒体114やビデオ入力端子、オーディオ入力端子(不図示)を介して入力された音声付き映像データやテレビ番組等に対してメタデータを生成、付与する装置である。
FIG. 12 is a block diagram showing another embodiment of a video data processing apparatus with audio. A video data processing apparatus with
図12に示すように、CPU102は、バス104を介して音声付き映像データ処理装置100内の各ブロックに接続されており、操作部106等からの操作入力に基づいて各ブロックを統括制御する統括制御部である。操作部106は、キーボードやマウス、その他の操作部材を含んでおり、これらの操作部材からの操作入力に応じてCPU102に信号を出力する。外部保存装置108は、CPU102が処理するプログラム及び制御に必要な各種データ等を格納する装置であり、例えば、ハードディスク装置(HDD)である。メモリ制御部110は、CPU102によって制御され、メインメモリ112及び記録媒体114へのデータの書き込みや、メインメモリ112及び記録媒体114からのデータの読み出しを行う。メインメモリ112は、音声付き映像データ処理装置100の主保存装置であり、例えば、半導体メモリである。メインメモリ112は、CPU102が外部保存装置108からプログラムや各種データを読み出して各種の演算処理等を行う際の作業用領域となるSDRAMや、表示モニタに表示される内容を保存する保存領域となるVRAM等を備える。記録媒体114は、映像を記録する。ユーザは、記録媒体114を介して所望の映像を音声付き映像データ処理装置100に入力できる。なお、映像・音声信号解析部116及びメタデータ生成部118は、図2と同様であるため説明を省略する。
As shown in FIG. 12, the
10…撮像装置、12…CPU、14…バス、16…操作スイッチ、18…メモリ、20…外部通信インターフェース(外部通信I/F)、22…光学系(レンズ)、24…撮像素子、26…A/D変換器、28…映像処理部、30…映像表示部(モニタ)、32…記録メディア、34…マイク、36…オーディオ処理回路、38…スピーカ、40…録画指示・制御部、42…外部映像・音声入力部、44…映像・音声信号符号化部、46…映像・音声信号保存部、48…映像・音声信号解析部、50…メタデータ生成部、60…音声付き映像データ、62…音声データ、64…映像データ、70…再生指示制御部、72…映像・音声信号復号再生部、74…メタデータ読込部、76…テロップ生成表示部、78…外部映像・音声出力部、100…音声付き映像データ処理装置、102…CPU、104…バス、106…操作部、108…外部保存装置、110…メモリ制御部、112…メインメモリ、114…記録媒体、116…映像・音声信号解析部、118…メタデータ生成部
DESCRIPTION OF
Claims (11)
前記音声データを文字化して発話内容情報を生成する発話内容情報生成手段と、
前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得手段と、
前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成手段と、
前記音声付き映像データと前記メタデータとを関連付けて記録する記録手段と、
を備えることを特徴とする音声付き映像データ処理装置。 Data acquisition means for acquiring video data with audio including video data and audio data synchronized with the video data;
Utterance content information generation means for generating utterance content information by characterizing the voice data;
Utterance time information acquisition means for acquiring utterance time information indicating a time at which the audio data is emitted in the video data;
Metadata creation means for creating metadata including the utterance content information and the utterance time information;
Recording means for associating and recording the video data with audio and the metadata;
A video data processing apparatus with sound, comprising:
前記メタデータ作成手段は、前記発話内容情報と前記発話者の識別情報とを関連付けて前記メタデータに記録することを特徴とする請求項1記載の音声付き映像データ処理装置。 The apparatus further comprises speaker identification means for analyzing the video data and the voice data and identifying a speaker who has uttered the voice,
The audio-added video data processing apparatus according to claim 1, wherein the metadata creating means records the utterance content information and the identification information of the speaker in association with each other.
前記メタデータ作成手段は、前記発話内容情報と前記発話者の位置情報とを関連付けて前記メタデータに記録することを特徴とする請求項1又は2記載の音声付き映像データ処理装置。 The speaker identification means further comprises speaker position information acquisition means for analyzing the video data and voice data and acquiring position information on a screen displaying the video data of the speaker who has spoken the voice,
The audio-added video data processing apparatus according to claim 1 or 2, wherein the metadata creation means records the utterance content information and the position information of the utterer in association with each other.
前記メタデータ作成手段は、前記発話内容情報と前記音声特徴量とを関連付けて前記メタデータに記録することを特徴とする請求項1から3のいずれか1項記載の音声付き映像データ処理装置。 A voice feature quantity acquisition unit for analyzing the voice data and acquiring the voice feature quantity;
4. The video data processing apparatus with audio according to claim 1, wherein the metadata creating unit records the utterance content information and the audio feature quantity in association with each other. 5.
前記メタデータから発話内容情報及び発話時間情報を取得する情報取得手段と、
前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、
前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、
を更に備えることを特徴とする請求項1から5のいずれか1項記載の音声付き映像データ処理装置。 Reproduction display means for reproducing and displaying the video data with audio,
Information acquisition means for acquiring utterance content information and utterance time information from the metadata;
Telop creating means for creating a telop based on the acquired utterance content information;
A telop insertion means for inserting the telop when reproducing the video data with audio based on the acquired utterance time information;
The video data processing apparatus with audio according to any one of claims 1 to 5, further comprising:
前記メタデータから発話内容情報、発話時間情報及び発話者の位置情報を取得する情報取得手段と、
前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、
前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、
前記取得した発話者の位置情報に基づいて、前記テロップの挿入位置を調整する挿入位置調整手段と、
を備えることを特徴とする請求項3記載の音声付き映像データ処理装置。 Reproduction display means for reproducing and displaying the video data with audio,
Information acquisition means for acquiring utterance content information, utterance time information and speaker position information from the metadata;
Telop creating means for creating a telop based on the acquired utterance content information;
A telop insertion means for inserting the telop when reproducing the video data with audio based on the acquired utterance time information;
An insertion position adjusting means for adjusting the insertion position of the telop based on the acquired position information of the speaker;
The video data processing apparatus with audio according to claim 3, further comprising:
前記メタデータから発話内容情報、発話時間情報及び音声特徴量を取得する情報取得手段と、
前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、
前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、
前記音声特徴量に応じて、前記テロップの文字属性を変更する文字属性変更手段と、
を備えることを特徴とする請求項4又は5項記載の音声付き映像データ処理装置。 Reproduction display means for reproducing and displaying the video data with audio,
Information acquisition means for acquiring utterance content information, utterance time information and voice feature amount from the metadata;
Telop creating means for creating a telop based on the acquired utterance content information;
A telop insertion means for inserting the telop when reproducing the video data with audio based on the acquired utterance time information;
Character attribute changing means for changing the character attribute of the telop according to the voice feature amount;
The video data processing apparatus with audio according to claim 4 or 5, characterized by comprising:
前記音声データを文字化して発話内容情報を生成する発話内容情報生成工程と、
前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得工程と、
前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成工程と、
前記音声付き映像データと前記メタデータとを関連付けて記録する記録工程と、
を備えることを特徴とする音声付き映像データ処理方法。 A data acquisition step of acquiring video data with audio including video data and audio data synchronized with the video data;
Utterance content information generating step for generating utterance content information by characterizing the voice data;
An utterance time information acquisition step of acquiring utterance time information indicating a time at which the audio data is emitted in the video data;
A metadata creation step for creating metadata including the utterance content information and the utterance time information;
A recording step of recording the audio-added video data and the metadata in association with each other;
A method of processing video data with audio, comprising:
前記音声データを文字化して発話内容情報を生成する発話内容情報生成機能と、
前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得機能と、
前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成機能と、
前記音声付き映像データと前記メタデータとを関連付けて記録する記録機能と、
をコンピュータに実現させることを特徴とする音声付き映像データ処理用プログラム。 A data acquisition function for acquiring video data with audio including video data and audio data synchronized with the video data;
An utterance content information generation function for generating utterance content information by characterizing the voice data;
An utterance time information acquisition function for acquiring utterance time information indicating a time at which the audio data is emitted in the video data;
A metadata creation function for creating metadata including the utterance content information and the utterance time information;
A recording function for associating and recording the video data with audio and the metadata;
A computer program for processing video data with sound, characterized in that a computer is realized.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005292485A JP2007101945A (en) | 2005-10-05 | 2005-10-05 | Apparatus, method, and program for processing video data with audio |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005292485A JP2007101945A (en) | 2005-10-05 | 2005-10-05 | Apparatus, method, and program for processing video data with audio |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007101945A true JP2007101945A (en) | 2007-04-19 |
Family
ID=38028945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005292485A Pending JP2007101945A (en) | 2005-10-05 | 2005-10-05 | Apparatus, method, and program for processing video data with audio |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007101945A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008278380A (en) * | 2007-05-02 | 2008-11-13 | Sanyo Electric Co Ltd | Image data processor |
JP2009060326A (en) * | 2007-08-31 | 2009-03-19 | Sony Corp | Photographing apparatus, photographing method, information processing apparatus, information processing method and program |
JP2010060850A (en) * | 2008-09-04 | 2010-03-18 | Nec Corp | Minute preparation support device, minute preparation support method, program for supporting minute preparation and minute preparation support system |
JP2011521569A (en) * | 2008-05-23 | 2011-07-21 | グワンジョウ シユエン エレクトロニック カンパニー リミテッド | Method and system for generating streaming media additional description file and inserting multimedia information |
KR20150115385A (en) * | 2014-04-04 | 2015-10-14 | 삼성전자주식회사 | Electronic Apparatus and Method for Supporting of Recording |
CN109640166A (en) * | 2018-08-13 | 2019-04-16 | 张利军 | Piece caudal flexure selection method based on dynamic degree |
CN110390242A (en) * | 2018-04-20 | 2019-10-29 | 富士施乐株式会社 | Information processing unit and storage medium |
CN111629267A (en) * | 2020-04-30 | 2020-09-04 | 腾讯科技(深圳)有限公司 | Audio labeling method, device, equipment and computer readable storage medium |
CN114008566A (en) * | 2019-06-28 | 2022-02-01 | 索尼集团公司 | Information processing apparatus, information processing method, and program |
WO2023238722A1 (en) * | 2022-06-08 | 2023-12-14 | 富士フイルム株式会社 | Information creation method, information creation device, and moving picture file |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05176232A (en) * | 1991-12-19 | 1993-07-13 | Fujitsu General Ltd | Title superimposing device |
JPH09130736A (en) * | 1995-11-02 | 1997-05-16 | Sony Corp | Image pickup device and edit device |
JPH09233442A (en) * | 1996-02-21 | 1997-09-05 | Casio Comput Co Ltd | Face image display device and face image communication system |
JP2001147697A (en) * | 1999-11-19 | 2001-05-29 | Matsushita Electric Ind Co Ltd | Method and device for acoustic data analysis |
JP2002171481A (en) * | 2000-12-04 | 2002-06-14 | Ricoh Co Ltd | Video processing apparatus |
JP2002176619A (en) * | 2000-09-12 | 2002-06-21 | Matsushita Electric Ind Co Ltd | Media editing method and apparatus thereof |
JP2004056286A (en) * | 2002-07-17 | 2004-02-19 | Fuji Photo Film Co Ltd | Image display method |
JP2004153764A (en) * | 2002-11-01 | 2004-05-27 | Matsushita Electric Ind Co Ltd | Meta-data production apparatus and search apparatus |
JP2004343488A (en) * | 2003-05-16 | 2004-12-02 | Nec Corp | Method, system, and program for inserting caption |
JP2005065191A (en) * | 2003-08-20 | 2005-03-10 | Ntt Comware Corp | Moving image meta-data automatic creating apparatus and moving image meta-data automatic creation program |
JP2005215888A (en) * | 2004-01-28 | 2005-08-11 | Yasunori Kobori | Display device for text sentence |
JP2005229414A (en) * | 2004-02-13 | 2005-08-25 | Daikin Ind Ltd | Information processing apparatus, information processing method, program, and information processing system |
-
2005
- 2005-10-05 JP JP2005292485A patent/JP2007101945A/en active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05176232A (en) * | 1991-12-19 | 1993-07-13 | Fujitsu General Ltd | Title superimposing device |
JPH09130736A (en) * | 1995-11-02 | 1997-05-16 | Sony Corp | Image pickup device and edit device |
JPH09233442A (en) * | 1996-02-21 | 1997-09-05 | Casio Comput Co Ltd | Face image display device and face image communication system |
JP2001147697A (en) * | 1999-11-19 | 2001-05-29 | Matsushita Electric Ind Co Ltd | Method and device for acoustic data analysis |
JP2002176619A (en) * | 2000-09-12 | 2002-06-21 | Matsushita Electric Ind Co Ltd | Media editing method and apparatus thereof |
JP2002171481A (en) * | 2000-12-04 | 2002-06-14 | Ricoh Co Ltd | Video processing apparatus |
JP2004056286A (en) * | 2002-07-17 | 2004-02-19 | Fuji Photo Film Co Ltd | Image display method |
JP2004153764A (en) * | 2002-11-01 | 2004-05-27 | Matsushita Electric Ind Co Ltd | Meta-data production apparatus and search apparatus |
JP2004343488A (en) * | 2003-05-16 | 2004-12-02 | Nec Corp | Method, system, and program for inserting caption |
JP2005065191A (en) * | 2003-08-20 | 2005-03-10 | Ntt Comware Corp | Moving image meta-data automatic creating apparatus and moving image meta-data automatic creation program |
JP2005215888A (en) * | 2004-01-28 | 2005-08-11 | Yasunori Kobori | Display device for text sentence |
JP2005229414A (en) * | 2004-02-13 | 2005-08-25 | Daikin Ind Ltd | Information processing apparatus, information processing method, program, and information processing system |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008278380A (en) * | 2007-05-02 | 2008-11-13 | Sanyo Electric Co Ltd | Image data processor |
JP2009060326A (en) * | 2007-08-31 | 2009-03-19 | Sony Corp | Photographing apparatus, photographing method, information processing apparatus, information processing method and program |
US8059167B2 (en) | 2007-08-31 | 2011-11-15 | Sony Corporation | Shooting apparatus and shooting method, and program |
JP2011521569A (en) * | 2008-05-23 | 2011-07-21 | グワンジョウ シユエン エレクトロニック カンパニー リミテッド | Method and system for generating streaming media additional description file and inserting multimedia information |
JP2010060850A (en) * | 2008-09-04 | 2010-03-18 | Nec Corp | Minute preparation support device, minute preparation support method, program for supporting minute preparation and minute preparation support system |
KR102249086B1 (en) * | 2014-04-04 | 2021-05-10 | 삼성전자주식회사 | Electronic Apparatus and Method for Supporting of Recording |
KR20150115385A (en) * | 2014-04-04 | 2015-10-14 | 삼성전자주식회사 | Electronic Apparatus and Method for Supporting of Recording |
CN110390242A (en) * | 2018-04-20 | 2019-10-29 | 富士施乐株式会社 | Information processing unit and storage medium |
CN110390242B (en) * | 2018-04-20 | 2024-03-12 | 富士胶片商业创新有限公司 | Information processing apparatus and storage medium |
CN109640166A (en) * | 2018-08-13 | 2019-04-16 | 张利军 | Piece caudal flexure selection method based on dynamic degree |
CN114008566A (en) * | 2019-06-28 | 2022-02-01 | 索尼集团公司 | Information processing apparatus, information processing method, and program |
CN111629267A (en) * | 2020-04-30 | 2020-09-04 | 腾讯科技(深圳)有限公司 | Audio labeling method, device, equipment and computer readable storage medium |
WO2023238722A1 (en) * | 2022-06-08 | 2023-12-14 | 富士フイルム株式会社 | Information creation method, information creation device, and moving picture file |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4599244B2 (en) | Apparatus and method for creating subtitles from moving image data, program, and storage medium | |
JP2007101945A (en) | Apparatus, method, and program for processing video data with audio | |
US7945439B2 (en) | Information processing apparatus, information processing method, and computer program | |
US20210352380A1 (en) | Characterizing content for audio-video dubbing and other transformations | |
US20080275700A1 (en) | Method of and System for Modifying Messages | |
KR101590186B1 (en) | Electronic apparatus video content editing method and recording medium for program | |
JP2011217197A (en) | Electronic apparatus, reproduction control system, reproduction control method, and program thereof | |
JP2000350159A (en) | Video image edit system | |
US20030190142A1 (en) | Contents recording/playback apparatus and contents edit method | |
JP2010066844A (en) | Method and device for processing video content, and program for processing video content | |
JP2004056286A (en) | Image display method | |
JP2008205745A (en) | Image reproducing device and method | |
JP4192703B2 (en) | Content processing apparatus, content processing method, and program | |
JP2010011409A (en) | Video digest apparatus and video editing program | |
US8391669B2 (en) | Video processing apparatus and video processing method | |
US8553855B2 (en) | Conference support apparatus and conference support method | |
US8437611B2 (en) | Reproduction control apparatus, reproduction control method, and program | |
JP5310682B2 (en) | Karaoke equipment | |
JP2020140326A (en) | Content generation system and content generation method | |
JP7133367B2 (en) | MOVIE EDITING DEVICE, MOVIE EDITING METHOD, AND MOVIE EDITING PROGRAM | |
CN114760523A (en) | Audio and video processing method, device, equipment and storage medium | |
KR20190054721A (en) | Apparatus and method for generating of cartoon using video | |
JP2012169743A (en) | Information processing device and information processing method | |
JP2007266661A (en) | Imaging apparatus, information processor, and imaging display system | |
JP2007104405A (en) | Apparatus, method and program for processing video data with sound |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20070118 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080812 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110106 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110201 |