JP2005065191A - Moving image meta-data automatic creating apparatus and moving image meta-data automatic creation program - Google Patents

Moving image meta-data automatic creating apparatus and moving image meta-data automatic creation program Download PDF

Info

Publication number
JP2005065191A
JP2005065191A JP2003296393A JP2003296393A JP2005065191A JP 2005065191 A JP2005065191 A JP 2005065191A JP 2003296393 A JP2003296393 A JP 2003296393A JP 2003296393 A JP2003296393 A JP 2003296393A JP 2005065191 A JP2005065191 A JP 2005065191A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
data
moving image
metadata
video
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003296393A
Other languages
Japanese (ja)
Inventor
Takuma Hosokawa
Fumino Kenmotsu
Hideaki Kondo
Makoto Nakamura
Ikuo Yasumoto
誠 中村
郁夫 安本
文乃 監物
琢磨 細川
秀明 近藤
Original Assignee
Ntt Comware Corp
エヌ・ティ・ティ・コムウェア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a moving image meta-data automatic creating apparatus for automatically imparting meta-data to a moving image. <P>SOLUTION: The moving image data meta-data automatic creating apparatus comprises: a moving image input means for inputting moving image data including audio data; an audio separating means for extracting audio data and time information on moving image data wherein the audio data are recorded, from moving image data; audio recognition dictionary wherein phrases specifying spatial positions on the moving image and phrases to become meta-data are registered beforehand; an audio recognizing means which recognizes audio data by referring to the audio recognition dictionary to separately extract a phrase specifying a spatial position on the moving image and a phrase to become meta-data from the audio data and to convert them into character data; and a meta-data storage means which relatively stores the spatial position on the moving image, the character data of the phrase to be the meta-data and the time information as meta-data. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、動画像に対して自動的にメタデータを付与する動画メタデータ自動作成装置及び動画メタデータ自動作成プログラムに関する。 The present invention automatically about video metadata automatically creating apparatus and video metadata automatic creation program imparts metadata on the moving image.

デジタルビデオカメラの低価格化ならびに、生活のIT化が進み、これまでの文字・写真に続き、動画像が身近な存在となってきた。 Price reduction of the digital video camera as well, progress in IT in life, following the letter and photographs of the past, the moving image has become a familiar presence. 撮影した動画像を検索したり、データとして後々有効活用したりするには、動画上になんらかのインデックスをつけ、それによって整理および管理することが考えられる。 To search the captured moving image, or to later effectively utilize the data put some indexes on video, it is considered to organize and manage thereby. 現状におけるインデックス付けは、自動で入る日付や時間などのデータに頼るか、動画像を再生しながら、人手を介して手動で挿入する方法が一般的である。 Indexing in status quo, or rely on data such as the date and time entered automatically, while reproducing a moving image, a method of inserting manually via human intervention is common. そのため、従来は以下に示す(1)〜(5)の方法で、自動的にインデックスを付けることが試みられていた。 Therefore, in the conventional method is shown below (1) to (5), it has been attempted to apply the automatically indexed.

(1)動画像を構成する各フレームの平均色情報を動画像の特徴情報として用いる方法(非特許文献1)。 A method using an average color information of each frame as feature information of a moving image constituting the (1) moving image (non-patent document 1). また、古くから、各フレームのヒストグラムを特徴情報として用いる方法がある。 Further, there is a method of using long, a histogram of each frame as feature information.
(2)任意の動画像シーンを人間の言葉で検索させる方法(非特許文献2)。 (2) a method of search by any of the moving image scene human words (Non-Patent Document 2). この方法は、予めオブジェクト間の位置関係や動きや変化を人間の言葉に対応付けておく。 This method is previously associated positional relationship and movement or change between objects in human language. そして、この人間の言葉に対応した、位置関係や動きや変化をした動画像中のオブジェクトを半自動で切り出すことにより、任意の動画像シーンを人間の言葉で検索する。 Then, corresponding to the words of this human, by cutting the object in a moving image in which the positional relationship and movement and changes in semiautomatic, searches any motion picture scene in human language.
(3)映像情報の映像情報に対応する音響情報を特徴分析してこれを音響の特徴パラメータ時系列に変換する「音響キーワードによる映像検索方法および装置」(特許文献1)。 (3) "image retrieval method and apparatus according to the acoustic keyword" to convert this acoustic information and feature analysis feature parameter time series of sound corresponding to the video information of the video information (Patent Document 1). 映像検索キーとなるべきキーワード音響を特徴分析してこれをキーワード音響の特徴パラメータ時系列に変換し、両者を比較することにより、音響情報に含まれる音響をキーワードとして映像情報を検索する。 Converting this by feature analysis keywords acoustic to become the image retrieval key feature parameter time series of keywords acoustic, by comparing the two, it searches the image information as a keyword audio included in the audio information.
(4)音声認識技術を活用して確認した映像内の音声と、その映像に関する議事録・原稿・プレゼンテーション資料などのテキストコンテンツを照合することで、議事録の文やプレゼンテーション資料のスライドごとに映像の先頭からの時間情報を付与したメタデータを自動的に作成することができる「議会映像検索システム」(非特許文献3)。 (4) and the voice in the video, which was confirmed by use of the voice recognition technology, by matching the text content, such as meeting minutes, document presentation materials on the video, the video for each slide of the statement and presentation materials of minutes meta data assigned with time information from the head of the can automatically create a "Congress video retrieval system" (non-Patent Document 3).
(5)音声認識してメタデータを自動作成することで、文字検索が可能となる「映像ナレッジマネジメントシステム」(非特許文献4)。 (5) recognizes the voice by automatically creating a metadata text search can be performed "video Knowledge Management System" (Non-Patent Document 4).
特開平06−68168号公報 JP-06-68168 discloses

ところで、「検索する」という用途で考えると、インデックスは、検索対象となる“文字情報”と時間軸上の位置を示す“時間情報”を持っていればよく、従来技術でも十分であると言えるが、動画像の利用用途は、撮影して、そのまま見るというものだけではなく、編集し、教材などへ利用されることが多くなってきている。 By the way, it can be said and think in use of "search", the index only needs to have a "time information" indicating the position on the search subject to "character information" and the time axis, and also in the prior art is sufficient There, purpose of use of the moving image, to shoot, not just those that see as it is, edit, has been increasingly being utilized to teaching materials. 最近では、インデックスに、動画像の文字情報+時間情報というシンプルな情報を持つだけではなく、文字情報+時間情報+空間情報を持ったものがあり、動画上に矢印などの記号や文字をメモのように貼り付け、再生することが可能となるものもでてきた。 In recent years, the index, not only with the simple information that the character information + time information of the moving image, there is a thing that has a character information + time information + space information, note the symbols and characters, such as the arrow on the video paste as, came out also that it is possible to reproduce. このような装置を用いると、動画像の情報に加え、文字の情報が参照できるため、スポーツ、学問、マニュアルなどの各種教材や、業務上で有効利用が期待されている。 Using such a device, in addition to the information of the moving image, since it references characters, sports, science, various materials and such manual, effective use in business is expected. また、一時停止やスロー再生といった再生時の制御情報を動画にオブジェクトとして組み込み、映像提供者が閲覧者により多くの情報を伝えるといった方法も実現されてきている。 Further, the embedded control information at the time of reproduction, such as pause or slow playback as objects in video, the video provider has methods have also been implemented such convey more information to the viewer.
しかしながら、従来の技術では、“文字情報”と“時間情報”のみの取得を念頭においたものであるため、動画の新たな使い方における空間情報を持ったインデックスやオブジェクトであるメタデータを動画像に対して自動的に挿入することはできないという問題がある。 However, in the conventional art, for the acquisition of the "character information" and "time information" only those that in mind, the metadata is the index or object with spatial information in the new use of moving in the moving picture there is a problem that can not be automatically inserted for. したがって、人手を介する煩雑な編集作業が必要となってしまい、作業効率が悪化するという問題もある。 Therefore, there is also a problem that is complicated editing work through human intervention becomes necessary, the working efficiency worse.

本発明は、このような事情に鑑みてなされたもので、動画像に対して自動的にメタデータを付与することができる動画メタデータ自動作成装置及び動画メタデータ自動作成プログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, to provide an automatic video metadata automatically creating apparatus and video metadata automatic creation program that can provide metadata for video image for the purpose.

請求項1に記載の発明は、音声データを含む動画像データを入力する動画像入力手段と、前記動画像データから音声データとこの音声データが記録された動画像データ上の時間情報を抽出する音声分離手段と、動画像上の空間位置を特定する語句とメタデータとなる語句とが予め登録された音声認識用辞書と、前記音声認識用辞書を参照して、前記音声データを認識することにより、該音声データから動画像上の空間位置を特定する語句とメタデータとなる語句とを分離して抽出し、それぞれを文字データに変換する音声認識手段と、前記動画像上の空間位置と、前記メタデータとなる語句の文字データと、前記時間情報とを関連付けてメタデータとして記憶するメタデータ記憶手段とを備えたことを特徴とする。 The invention according to claim 1, extracts the moving image input means for inputting moving image data from the moving image data and voice data time information on the audio data recorded moving image data including voice data and sound separation means, a speech recognition dictionary and phrase phrase and metadata registered in advance for identifying the spatial position of the moving image, by referring to the speech recognition dictionary, recognizing the voice data the extracts were separated and the phrase phrase and metadata identifying the spatial position of the moving picture from the audio data, and voice recognition means for converting each character data, and spatial position on the moving image , characterized by comprising a word character data serving as the metadata, the metadata storing means for storing said as time information and metadata associates.

請求項2に記載の発明は、前記動画像上の空間位置の特定は、前記動画像上の空間位置を特定する語句と画面上の位置データが予め定義された位置変換テーブルを参照することにより行うことを特徴とする。 According to a second aspect of the invention, a particular spatial position on the moving image, by referring to the position conversion table position data on the words and the screen is defined in advance for identifying the spatial position on the moving image and performing.

請求項3に記載の発明は、前記位置変換テーブルを画面上の分割数の指定により作成し、前記音声認識用辞書に登録する手段をさらに備えたことを特徴とする。 The invention according to claim 3, wherein creating the position conversion table designation of the division number on the screen, and further comprising a means for registering the dictionary for voice recognition.

請求項4に記載の発明は、前記位置変換テーブルは、前記動画像データを画像認識することにより得られた認識結果に基づいて作成することを特徴とする。 According to a fourth aspect of the invention, the position conversion table is characterized by creating on the basis of the recognition result obtained by the image recognition of the moving image data.

請求項5に記載の発明は、前記メタデータ記憶手段は、前記メタデータを文字データファイルとして記憶することを特徴とする。 The invention according to claim 5, wherein the meta-data storage means, and to store the meta-data as character data file.

請求項6に記載の発明は、音声データを含む動画像データを入力する動画像入力手段と、前記動画像データから音声データとこの音声データが記録された動画像データ上の時間情報を抽出する音声分離手段と、動画像の再生を制御する語句が予め登録された音声認識用辞書と、前記音声認識用辞書を参照して、前記音声データを認識することにより、該音声データから動画像の再生を制御する語句を抽出し、文字データに変換する音声認識手段と、前記動画像の再生を制御する文字データと、前記時間情報とを関連付けてメタデータとして記憶するメタデータ記憶手段とを備えたことを特徴とする。 The invention according to claim 6, extracts a moving image input means for inputting moving image data from the moving image data and voice data time information on the audio data recorded moving image data including voice data and sound separation means, and a dictionary for speech recognition word for controlling the reproduction is registered in advance of the moving image, by referring to the speech recognition dictionary, by recognizing the voice data, moving image from the voice data extracting phrases that controls the playback, comprising: a speech recognition means for converting the character data, and character data for controlling reproduction of the moving image, and a metadata storing means for storing as metadata in association with the time information characterized in that was.

請求項7に記載の発明は、音声データを含む動画像データを入力する動画像入力処理と、前記動画像データから音声データとこの音声データが記録された動画像データ上の時間情報を抽出する音声分離処理と、動画像上の空間位置を特定する語句とメタデータとなる語句とが予め登録された音声認識用辞書と、前記音声認識用辞書を参照して、前記音声データを認識することにより、該音声データから動画像上の空間位置を特定する語句とメタデータとなる語句とを分離して抽出し、それぞれを文字データに変換する音声認識処理と、前記動画像上の空間位置と、前記メタデータとなる語句の文字データと、前記時間情報とを関連付けてメタデータとして記憶するメタデータ記憶処理とをコンピュータに行わせることを特徴とする。 The invention according to claim 7, extracts the moving image input processing of inputting moving image data from the moving image data and voice data time information on the audio data recorded moving image data including voice data and audio separation processing, and voice recognition dictionary and phrase phrase and metadata registered in advance for identifying the spatial position of the moving image, by referring to the speech recognition dictionary, recognizing the voice data the extracts were separated and the phrase phrase and metadata identifying the spatial position of the moving image from the voice data, a voice recognition process to convert each character data, and spatial position on the moving image characterized by causing the word character data serving as the metadata, and the time information and the metadata storage process of storing as metadata in association with the computer.

請求項8に記載の発明は、音声データを含む動画像データを入力する動画像入力処理と、前記動画像データから音声データとこの音声データが記録された動画像データ上の時間情報を抽出する音声分離処理と、動画像の再生を制御する語句が予め登録された音声認識用辞書と、前記音声認識用辞書を参照して、前記音声データを認識することにより、該音声データから動画像の再生を制御する語句を抽出し、文字データに変換する音声認識処理と、前記動画像の再生を制御する文字データと、前記時間情報とを関連付けてメタデータとして記憶するメタデータ記憶処理とをコンピュータに行わせることを特徴とする。 The invention according to claim 8, extracts the moving image input processing of inputting moving image data from the moving image data and voice data time information on the audio data recorded moving image data including voice data and audio separation processing, a dictionary for speech recognition word for controlling the reproduction is registered in advance of the moving image, by referring to the speech recognition dictionary, by recognizing the voice data, moving image from the voice data computer extracting phrases that controls the playback, a voice recognition process to convert the character data, and character data for controlling reproduction of the moving image, and a metadata storing process of storing as metadata in association with the time information characterized in that to perform the.

本発明によれば、指定した時間及び画面上で指定した位置にメモなどの文字やマーキングなどを付与することができる。 According to the present invention, it is possible to impart characters and markings, such as a note to the specified at specified times and on-screen position. 例えば、撮影中に「左上」などの言葉を発話すると、動画像の時間的該当位置の空間的該当位置にインデックスを付与することができるという効果が得られる。 For example, when speaking words such as "upper left" in the shooting, there is an advantage that it is possible to impart index spatial corresponding position in time corresponding position of the moving image. また、指定した時間に一時停止やスロー再生といった再生の制御を実行するオブジェクトを付与することができる。 Further, it is possible to grant object to perform control of reproduction such as pause or slow playback at a specified time. したがって、メタデータを自動生成することで、従来は編集作業として撮影後に手動で行っていた作業を、撮影中にすることができ、作業効率を向上させることができる。 Therefore, by automatically generating a meta data, conventionally a work, which was done manually after shooting as editing, can be in the shooting, it is possible to improve work efficiency. また、画像再生時に文字やマークの表示や動画の制御が自動で行われる動画を作成できるため、撮影側が閲覧側により多くの情報を与えることができる。 Further, since it creates a video control display and video text or a mark at the time of image reproduction is performed automatically, it is possible to shoot side give more information to the viewing side. また、動画像上の空間(位置)情報及び動画像上の時間軸とメタデータを関連付けるようにしたため、指定した空間位置にインデックス等を付与することができるとともに、動画像の検索等が可能となり、必要なデータ(動画位置)に迅速にアクセスすることができる。 Also, since you associate the time axis and metadata on spatial (location) information and the moving picture on the moving picture, it is possible to impart an index or the like to the specified spatial location, it is possible to find such a moving image , it is possible to quickly access the necessary data (moving position). また、画面上の分割数を設定することで、位置を変換するテーブルを自動作成でき、辞書に反映できるため、空間位置の単語列を辞書に登録する手間を省くことができる。 Further, by setting the number of divisions of the screen, a table for converting the position can be automatically created, it is possible to reflect in the dictionary, it is possible to save the trouble of registering the word string spatial position in the dictionary. さらに、文字データファイル(例えば報告書など)を自動的に動画像とリンクさせて作成することができるため、動画像の整理・管理が容易になるという効果が得られる。 Furthermore, it is possible to create text data file (e.g., reports, etc.) automatically be linked with the moving image, an effect that facilitates organizing and managing the moving image obtained.

以下、本発明の一実施形態による動画メタデータ自動作成装置を図面を参照して説明する。 Hereinafter, describing the video metadata automatically creating apparatus according to an embodiment of the present invention with reference to the drawings. 図1は同実施形態における動画メタデータ自動作成装置の概略構成を示すブロック図である。 Figure 1 is a block diagram showing the schematic configuration of a moving automatic metadata creation device in the same embodiment. この図において、符号1は、メタデータ自動作成装置である。 In this figure, reference numeral 1 is a automatic metadata creation device. 符号2は、動画像記録装置であり、動画像の記録装置として用いる、ビデオカメラやデジタルカメラ、小型パソコン、カメラ付き携帯電話などで構成される。 Reference numeral 2 is a moving picture recording apparatus is used as a recording apparatus for a moving image, a video camera, a digital camera, a small computer, and the like camera phones. 符号12は、動画編集部であり動画像記録装置2から動画像を取り込むとともに、音声認識結果からメタデータを作成する。 Reference numeral 12 is a video editing unit from the moving image recording apparatus 2 fetches a moving image, to create the metadata from the speech recognition result. 符号17は、辞書中の単語列と、画面上の位置と変換するための位置変換テーブルである。 Reference numeral 17 is a position conversion table for converting a word string in the dictionary, the position on the screen. 符号20は、動画像から音声部分を取り出す音声分離部である。 Reference numeral 20 is an audio separation unit to take out the audio portion from the video image. 符号21は、音声を認識して文字に変換するとともに、音声認識をする際に利用する認識用の辞書22を作成および管理する音声認識部である。 Reference numeral 21, it converts the character to recognize the speech, a speech recognition unit for creating and managing a dictionary 22 for recognition to be used when the speech recognition.

次に、図1を参照して、装置の動作の概略を説明する。 Next, referring to FIG. 1, an outline of operation of the device. まず、利用者は、動画像のメタデータとしたい単語列を並べ、メタデータ自動作成装置1の音声認識部21で管理する、認識用の辞書22を作成する。 First, the user arranges the word string to be metadata of the moving image, managed by the voice recognition unit 21 of the automatic metadata creation apparatus 1 creates a dictionary 22 for recognition.

次に、利用者は、辞書22中の、画面上の位置を示す単語列(右上、左下など)を画面上の位置(ピクセルなど)に変換するための位置変換テーブル17を作成する。 Next, the user in the dictionary 22, to create a position conversion table 17 for converting the word string representing the position on the screen (upper right, lower left, etc.) a position on the screen (e.g., a pixel). このテーブルは、画面を何分割するか指定することで、自動的に作成し、辞書に追加することや、画像認識装置を併用して自動的に作成するようにしてもよく、辞書22の名称と関連付けされる。 This table, by specifying how many split the screen, automatically create, or be added to the dictionary, may be automatically created by a combination of image recognition device, the name of the dictionary 22 It is associated with.

次に、動画像記録装置2を用い、動画像を撮影する。 Next, using the moving picture recording apparatus 2, for capturing a moving image. このとき、辞書22に登録した単語、及び、システム側が持つ辞書に登録されている単語を撮影者が意識的に発話する。 At this time, the words registered in the dictionary 22, and words registered in the dictionary with the system side photographer speaks consciously. 例えば、会議の記録シーンにおいて、議題とそれをインデックスとして貼り付けたい位置を発話する。 For example, the recorded scene of the conference, utters a position to be affixed agenda and it as an index. また、個人のプロフィール作成シーンにおいては、名前とそれをインデックスとして貼り付けたい位置を発話する。 In addition, in the personal profile created scene of, utters the position you want to paste the name and it as an index. また、再生時に自動的に一時停止をしたいシーンにおいては、「一時停止」と発話する。 In addition, in a scene that you want to automatically pause at the time of reproduction, it utters "pause".

次に、撮影した動画像をメタデータ自動作成装置1の動画編集部12により、取り込む。 Then, a moving image taken by video editing unit 12 of the automatic metadata creation device 1, captures. これを受けて、メタデータ自動作成装置1は、音声分離部20により、動画像から音声データのみを抽出する。 In response to this, automatic metadata creation apparatus 1, the audio separator 20 extracts only the audio data from the moving image. そして、メタデータ自動作成装置1は、音声認識部21により、音声データを認識する。 The automatic metadata creation apparatus 1, by the voice recognition unit 21 recognizes the voice data. この時点で、音声認識結果を保存した文字データファイル(動画の整理用の書類など)が必要な場合は、音声認識結果を用いて作成する。 At this point, if necessary character data file where you saved the voice recognition results (such as a document for the organization of the video) is created by using the voice recognition result.

次に、メタデータ自動作成装置1は、動画編集部12により、動画像の該当する箇所のメタデータ(インデックスやまたは動画制御用のオブジェクト)を作成し、保存用のデータベースに作成した文字データファイルやメタデータを貼付した動画像を格納する。 Next, automatic metadata creation apparatus 1, the video editing unit 12 creates metadata for the corresponding part of the moving picture (object indexes and or video control), character data files created in the database for storage storing moving image affixed or metadata.

この動作を実施することにより、利用者は、メタデータをインデックスやオブジェクトとして貼った動画像や、自動生成された文字データファイルを閲覧できるようになる。 By performing this operation, the user becomes a metadata moving image or the stuck as an index or an object, to be able to view the automatically generated text data file.

次に、図2を参照して、図1に示すメタデータ自動作成装置1の詳細な構成を説明する。 Next, with reference to FIG. 2, a detailed configuration of automatic metadata creation apparatus 1 shown in FIG. この図において、図1に示す装置と同一の部分には同一の符号を付し、その説明を省略する。 In this figure, the same reference numerals are given to the same parts as the apparatus shown in FIG. 1, the description thereof is omitted. 符号11は、動画像記録装置2との間で動画像転送を可能にする入出力インターフェイスである。 Reference numeral 11 is an input-output interface that allows a moving image transfer between the moving picture recording apparatus 2. 符号13は、動画像記録装置2から動画像を取り込む動画像取り込み部である。 Reference numeral 13 is a moving image capturing section capturing a moving image from the moving image recording apparatus 2. 符号14は、音声認識結果からインデックスおよびオブジェクトとなるメタデータ作成するメタデータ作成部である。 Reference numeral 14 is a metadata generator for creating metadata becomes an index and object from the speech recognition result. 符号15は、辞書ファイル名から、該当する位置変換テーブル17を検索するとともに、認識結果をもとにインデックスとなるメタデータを作成するインデックス作成部である。 Reference numeral 15, from the dictionary file name, as well as find the location translation table 17 applicable, the recognition result is the index creation unit for creating a metadata to be indexed on the basis. 符号16は、認識結果をもとに、動画制御のためのオブジェクトとなるメタデータを作成する動画制御部である。 Reference numeral 16, based on the recognition result, a moving image control unit that creates metadata as the object for the video control. 符号18は、画面分割数によって、空間位置を表す単語列を自動的に選択し、位置変換テーブル17を作成するとともに音声認識用辞書22に空間位置を示す単語列として登録する画面分割部である。 Reference numeral 18, by screen division number, select the word string representing the spatial position automatically, is screen division unit to be registered as a word string representing the spatial position in the speech recognition dictionary 22 together to create the position conversion table 17 . 符号19は、認識用の辞書22を作成および管理する辞書管理部である。 Reference numeral 19 is a dictionary management unit for creating and managing a dictionary 22 for recognition. 符号23は、音声認識した結果を元に、指定された様式の文字データファイルを作成する文字データファイル作成部である。 Reference numeral 23, based on the result of the speech recognition, a character data file creating unit that creates the character data file for the specified manner. 符号24は、動画像などを格納するデータベースの管理や、他システムとの連携を行うファイル管理部である。 Reference numeral 24 is a file management unit for performing management of the database that stores a moving image, the coordination with other systems. 符号25は、作成した動画像などを保存する保存用データベース(DB)である。 Reference numeral 25 is a storage database for storing such a moving image created (DB). 符号31は、ビデオカメラや各種機器のカメラ部分から構成される映像入力部である。 Reference numeral 31 is a configured video input unit from the camera portion of the video cameras and various devices. 符号32は、内蔵マイクまたは外付けマイクで構成される音声入力部である。 Reference numeral 32 is a voice input unit composed of a built-in microphone or an external microphone. 符号33は、映像入力部31と音声入力部32からの信号を入力をし、動画像を生成する動画像作成部である。 Reference numeral 33 an input signal from the video input unit 31 and the audio input unit 32, a moving image creation section which generates a moving image. 符号3は、指定された時間の画像を認識し、位置変換テーブル17を作成する画像認識装置である。 Reference numeral 3 recognizes the image of the specified time, an image recognition apparatus for creating a position conversion table 17.

次に、図2を参照して、動画撮影前準備(画面分割部18により、空間位置を表す単語列を自動取得する場合)の動作を説明する。 Next, with reference to FIG. 2, (by the screen division unit 18, to automatically obtain the word string representing the spatial position) movie shooting preparatory describing the operation of the. まず、音声認識に利用する音声認識用辞書22を辞書管理部19によりシステム内に取り込む(図2の(A))。 First, taking a voice recognition dictionary 22 to be used for speech recognition by the dictionary management unit 19 in the system (in FIG. 2 (A)). 辞書には、位置を示す単語(「右上」、「左下」など)・インデックスの種別(「メモ」、「矢印」など)・コンテンツ(「表示させたい言葉」)・動画制御情報(「一時停止」、「スロー」)を定義する。 The dictionary, word indicating the position ( "upper right", "lower left", etc.), the type of index ( "Notes", "arrow", etc.) content ( "words you want to display") and video control information ( "pause ", to define the" slow "). これは、利用者が作成した辞書でも、システム側が提供する辞書でもどちらでもかまわない。 This is because, even in the dictionary that the user has created, it may either be in the dictionary that the system side is provided.

続いて、利用者から画面の分割数を取得し、画面分割部18により、空間位置を表す単語列を自動的に選択し、位置変換テーブル17を作成する(図2の(B))。 Then, to get the number of divisions of the screen from the user, the screen dividing unit 18 automatically selects a word string representing the spatial position, to create a position conversion table 17 (in FIG. 2 (B)). 利用者は、画面の分割数を指定(例えば6分割)する。 The user specifies the number of divisions of the screen (e.g., divided into six). 画面分割部18は、あらかじめ分割数に応じた単語列を有する。 Screen dividing unit 18 includes a word string corresponding to the previously division number. そして、辞書管理部19は、該当する音声認識用辞書22に空間位置を示す単語列として登録する(図2の(C))。 The dictionary management unit 19 registers a word string representing the spatial position in the corresponding voice recognition dictionary 22 (in FIG. 2 (C)). これにより図6に示す位置変換テーブル17が作成され、音声認識用辞書22に位置情報を示す単語列が登録される(手動で辞書に登録してもよい)。 Thus is created the position conversion table 17 shown in FIG. 6, the word string representing the positional information to the voice recognition dictionary 22 (may be registered in the dictionary manually) it is registered.

次に、図2、3を参照して、メタデータを自動作成(画像認識装置を利用しない場合)する動作を説明する。 Next, with reference to FIGS. 2 and 3, the operation will be described for automatically creating metadata (if not using the image recognition device). ここでは、画面左上に「ポイント」というメモのインデックスを画像に貼り付け、任意のタイミングで一時停止オブジェクトを付与する動作を例にして説明する。 Here, paste the index of note that "point" in the upper left screen image will be described as an example the operation of imparting pause object at an arbitrary timing.

まず、利用者は、動画像記録装置2の映像入力部(カメラ)31と音声入力部(マイク)32からの入力を動画像作成部33で合成し、動画像を作成する(図2(1))。 First, the user synthesizes the image input unit of the moving picture recording apparatus 2 (camera) 31 and a voice input portion for input from (microphone) 32 in the moving image creation section 33 creates a moving image (Fig. 2 (1 )). このとき、利用者は、インデックスをつけたいタイミングで、「左上、メモ、ポイント」と発話し、オブジェクトをつけたいタイミングで「一時停止」と発話する。 In this case, the user, at the timing that you want indexed, speaks "the upper left, memo, point" and speaks, "pause" at the timing at which you want to add the object.

続いて、利用者は、動画撮影後、動画像記録装置2とメタデータ自動作成装置1の各々の入出力インターフェイス11,34を接続し、動画像の転送を可能な状態にする(図2(2))。 Then, the user, after moving image shooting, and connecting each of the input and output interfaces 11, 34 of the moving picture recording apparatus 2 and the automatic metadata creation device 1, into a state capable of transferring a moving image (Fig. 2 ( 2)). これを受けて、メタデータ自動作成装置1は、動画編集部12の動画取り込み部13により、撮影した動画像を取り込む(図2(3)、ステップS1)。 In response to this, automatic metadata creation apparatus 1, the video capture unit 13 of the video editing unit 12 captures the moving images (FIG. 2 (3), step S1).

次に、メタデータ自動作成装置1は、音声分離部20により、動画像から音声データのみを抽出する(図2(4)、(5)、ステップS2)。 Next, automatic metadata creation apparatus 1, the audio separator 20 extracts only the audio data from the moving image (Fig. 2 (4), (5), step S2). そして、音声認識部21により、あらかじめ作成されている音声認識用辞書22を基に抽出した音声データを認識(ステップS3)し、その結果として、撮影者の発話内容の文字情報を取得するとともに、音声認識時のファイルの時間情報(例えば、ファイルの先頭から何秒後か、といった時間的な位置を特定できる情報)を取得する。 Then, the speech recognition unit 21 recognizes the voice data extracted based on the speech recognition dictionary 22 is prepared in advance (step S3), and as a result, obtains the character information of the speech content of the photographer, time information of the file at the time of speech recognition (e.g., several seconds after the beginning of the file, such as can be specified temporal location information) acquired. 文字データファイル作成部により、音声認識結果を用いて、図8に示す文字データファイルを作成する(図2(6))。 The character data file creating unit, using the speech recognition result, create a text data file shown in FIG. 8 (FIG. 2 (6)).

次に、メタデータ自動作成装置1は、動画編集部12のメタデータ作成部14により、インデックス作成部15または、動画制御部16を呼ぶ(図2(7)、ステップS5)。 Next, automatic metadata creation apparatus 1, the metadata generator 14 of the video editing unit 12, the index creation unit 15 or, called a video controller 16 (FIG. 2 (7), step S5). どちらを呼ぶかの判断は、取得した文字情報と、辞書を照らし合わせて判断する、またはインデックス用とオブジェクト用で辞書を区別し、辞書名を取得して判断する。 Which is referred to as one of the decision, and the acquired character information, to determine in the light of the dictionary, or to distinguish the dictionary in the index for the object, it is determined to get the dictionary name.

次に、呼ばれたインデックス作成部15は、音声認識に用いられた辞書名をもとに、位置変換テーブル17を検索する(図2(8)、ステップS8)。 Next, the index creation unit 15 called, based on the dictionary name used for speech recognition, searches the position conversion table 17 (FIG. 2 (8), step S8). そして、インデックス作成部15は、音声認識結果の文字情報をステップS8で検索した位置変換テーブル17に照らし合わせて、空間位置を確定し、図8に示すインデックスとなるメタデータを作成する(図2(9)、ステップS9、S10)。 Then, the index creation unit 15, the character information of the speech recognition result in the light of the position conversion table 17 retrieved in step S8, to confirm the spatial position, to create a metadata to be indexed as shown in FIG. 8 (FIG. 2 (9) step S9, S10). 一方、呼ばれた動画制御部16は、音声認識結果の文字データをもとに、図9に示す動画制御のためのオブジェクトとなるメタデータを作成する(図2(10)、ステップS6)。 Meanwhile, the video controller 16 is called, based on the character data of the speech recognition result, it creates metadata as the object for the video control shown in FIG. 9 (FIG. 2 (10), step S6).

次に、メタデータ自動作成装置1は、動画編集部12のメタデータ作成部14により、ステップS6またはS10で作成したインデックスまたはオブジェクトとなるメタデータを動画像に貼付する(図2(11)、ステップS7)。 Next, automatic metadata creation apparatus 1, the metadata generator 14 of the video editing unit 12, to attach metadata to be indexed or object created in step S6 or S10 in the moving image (Fig. 2 (11), step S7). そして、ファイル管理部24は、生成したメタデータを貼付した動画像や文字データファイルを保存用データベース25へ格納する(図2(12))。 Then, the file management unit 24 stores the generated moving image and text data file attached metadata to store database 25 (FIG. 2 (12)).

次に、図4を参照して、画像認識装置3を利用した場合のメタデータ自動作成動作を説明する。 Next, with reference to FIG. 4, a metadata automatic creation operation when using an image recognition device 3. ここでは、図3に示す動作と異なる部分についてのみ説明する。 Here, the description only the operation different from the portion shown in FIG. 図4に示す動作は、図3に示すステップS1〜S5と同様な動作を実施する。 Operation shown in FIG. 4 performs the same operation as steps S1~S5 shown in FIG. そして、インデックス作成と判断された場合(ステップS5でYES)に、画像認識装置3は、取得した時間情報(例えば、先頭から20秒後)の時間の画像を認識し、同じタイミングで取得した文字情報(図10)をもとに、図11に示す位置変換テーブル17を作成する(ステップS8a)。 Character and, if it is determined that the indexing (YES in step S5), the image recognition apparatus 3, which recognizes an image of the time of the acquired time information (e.g., 20 seconds after the beginning) by the same timing information on the basis of (Fig. 10), to create a position conversion table 17 shown in FIG. 11 (step S8a). そして、インデックス作成部15は、音声認識結果の文字情報を、ステップS8aで作成した位置変換テーブル17に照らし合わせて(ステップS8b)、空間位置を確定し(ステップS9a)、インデックスとなるメタデータを作成する(ステップS10)。 Then, the index creation unit 15, the character information of the speech recognition result, in light of the position conversion table 17 created in Step S8a (step S8b), to confirm the spatial position (step S9a), the metadata to be indexed to create (step S10).

このように、撮影時に発話した空間的および時間的位置にインデックスやオブジェクトが貼られた動画像を閲覧することができるようになる。 Thus, it is possible to view a moving image index or object is adhered to the spatial and temporal location uttered during shooting.

次に、図5を参照して、画面の分割数を指定する場合の動作を説明する。 Next, referring to FIG. 5, the operation for specifying the number of divisions of the screen. 前述したように音声認識を用いて、撮影した動画像から空間情報を持ったメタデータを取得するには、音声認識結果(文字)をピクセルなどの画面上の空間位置を示す情報に変換する必要がある。 Using the speech recognition as described above, to retrieve the metadata having the spatial information from the captured moving image to be converted to information indicating a spatial position on the screen, such as voice recognition result (character) pixels there is. 前述の説明では、この変換は位置変換テーブル17の参照によって実現している。 In the above description, the conversion is realized by reference to the position conversion table 17. この位置変換テーブル17の作成方法として、画面分割と画像認識の2つを示したが、ここでは、画面分割方法について説明する。 As creating this position conversion table 17, it showed two split screen and image recognition, will be described here screen split method.

まず、ステップS1〜S4は、図3に示す動作と同一であるため、説明を省略し、ここでは、図3に示す動作と異なる部分のみ説明する。 First, step S1~S4 are the same as the operation shown in FIG. 3, not described here will be described only the operation different from the portion shown in FIG. ここでは、例として、機器利用マニュアルビデオ作成する場面において、機器の全体像を撮影した状態から各操作ポイント(電源ボタン等)にズームインすると分割数が変更される動作を説明する。 Here, as an example, in the context of creating device utilizing manual video, the number of divisions and to zoom from a state in which photographing the whole image of the device for each operation point (power supply button or the like) will be described an operation to be changed.

まず、利用者は、動画像を撮影する場合に、操作ポイントにズームインするとともに、「操作ポイント」と発話する(これにより、分割数を変更する)。 First, the user, when shooting a moving image, as well as zoom in operation point and utters "Operation Point" (thereby changing the number of divisions). そして、「右上、メモ、このボタンが電源ボタンです」というようにインデックスを貼りたい箇所とその内容を発話する。 And, speaking of the place and its contents that you want to paste the index such as "the upper right corner, memo, this button is the power button". 利用者は、撮影後、動画像記録装置2とメタデータ自動作成装置1を接続し、音声認識する。 The user after photographing, connect the moving picture recording apparatus 2 and the automatic metadata creation device 1, speech recognition. ここまでの動作は、前述した動作と同じである。 The operation up to this is the same as the operation described above.

次に、メタデータ自動作成装置1は、音声認識結果から画面分割数を特定し、位置変換テーブル17を選定する。 Next, automatic metadata creation apparatus 1 identifies the number of screen divisions from the speech recognition result, and selects the position conversion table 17. 画面分割数は、操作ポイントのとき、9分割、全体表示のとき、4分割というように指定がされている。 Screen division number when the operating point 9 divided, when the entire display, are specified so that 4 split. メタデータ自動作成装置1は、位置変換テーブル17の変更が発生するまで、この位置変換テーブルを用いてインデックス等のメタデータを自動作成する(ステップS11〜S14)。 Automatic Metadata creation apparatus 1, until the change of position conversion table 17 is generated, to automatically create a metadata index or the like using the position conversion table (step S11 to S14).

このように、分割数(数字)の発話、撮影対象物や動画の利用用途等の発話、カメラのズームイン・ズームアウト操作、画像認識の利用(例えば撮影する対象物によって分割数を変える場合など)など、動画像撮影中の任意のタイミングにおいてシステム側で分割数を決定することができる。 Thus, the division number utterances (digits), the utterance of the use application and the like of the object to be shot, video, zoom in and out operation of the camera, (or when changing the number of divisions, for example, by imaging to the object) utilizing image recognition etc., can be determined division number at the system side at any time during the moving image shooting.

次に、前述したメタデータ自動作成装置1の使用例を説明する。 Next, an example use of automatic metadata creation apparatus 1 described above.
(a)マニュアルビデオ 機材などのマニュアルに適用することで、マニュアル本では分かりにくい場合なども動画を使うことで、より分かり易くなる。 By applying to the manual, such as (a) manual video equipment, also can use the video, such as if it is difficult to understand in the manual this, more likely to understand. 例えば、「右上のボタン」と発話するとボタン上に○印をする、注意箇所や使ってはいけない使い方などの指示、画面認識を併用し、該当位置にマークなどをすることも可能となる。 For example, the ○ mark on the button and speaks "the upper right corner of the button", instructions such as how to use that do not use caution location and, in combination with screen recognition, it also becomes possible to make such mark in the appropriate position.
(b)ヘルプデスクの省力化 よくある質問に対して、対処方法を撮影したマークやメモをいれた画像を提供することで、質問側の満足度確保と回答側の省力化を図ることができる。 (B) with respect to labor-saving frequently asked questions of the help desk, to provide an image that put the mark and notes taken you how to deal with, it is possible to reduce the labor-saving questions side of satisfaction secure and answers side .
(c)授業の復習ビデオ 授業シーンを撮影しておいて、「ここが重要」、「試験に出る」という発話に対して自動的にメモを貼ることで授業後に復習することなどが可能となる。 (C) in advance by photographing the review video lesson scene of the lesson, it is possible, such as "This is important", to review after class by stick notes automatically to the utterance of "out to test." .
(d)商品等紹介ビデオ モデルルームなど、現場に行かなければ見られないものや、名所などの紹介に適用することができる。 (D) such as product such as introduction video model room, and that can not be seen to go to the site, can be applied to the introduction of such attractions. 例えば、「右下がポイント」と発話すると、ドアやキッチンなどのセールスポイントにマーク、「中央 ○○岬」と名所の名前を発話するとその位置にタイトルとマークを付与することができる。 For example, when the "lower right point," said the speech, mark the selling points such as doors and kitchen, "center ○○ Cape" and when you uttered the name of the attractions can be imparted to the title and the mark at that position.
(e)家庭向けの使い方 旅行中のビデオで「画面中央がエッフェル塔」というように名所などにマークや文字を貼ることや、運動会で、「A君のゴールシーン、一時停止」というように再生時に決定的なシーンを見逃さないなど、家庭内において煩雑な編集作業をしなくてもよくなる。 (E) and that put a mark and characters, such as to do so in a video in how to use travel for the home referred to as "the center of the screen is the Eiffel Tower", in the athletic meet, play and so on, "Mr. A of goals, pause" such as not miss the sometimes decisive scene, and may not be a complicated editing work in the home.
(f)スポーツトレーニングなどの教材ビデオ 人間の部位にマークをつける。 (F) mark the site of teaching materials video human and sports training. 例えば、撮影中に「頭がうごかないように」や「ひざの角度に注意」などと発話すると、画面認識を使って「頭」や「ひざ」に○印等のマーキングや、文字をメモのようにはることができる。 For example, if you utterance such as "so as not to move the head" and "attention to the angle of the knee" in the shooting, using a screen recognition and marking such as ○ mark in the "head" and "knee", the letter notes it is possible to spring way.

このような例に適用させることで、自動的に編集後のような映像を作成でき、編集作業を大幅に軽減できるため、動画像の利用シーンを広げること可能となる。 It is to apply to such an example, automatically create an image as edited, it is possible to significantly reduce the editing, is possible extend the usage scene of the moving image.

以上説明したように、動画像から音声を分離し、音声認識により、画面上の位置を示す単語(空間情報)およびインデックス種別とそれに伴うコンテンツを示す単語(文字情報)、または動画制御オブジェクトを示す単語(文字情報)を取得するとともに、同時に動画ファイルにおける時間軸上の位置を示す時間情報を取得し、取得した空間情報を、予め作成済みの位置変換テーブルにより、単語から画面上の空間位置(ピクセル等)に変換するようにしたため、自動的に文字情報+時間情報+空間情報を持った動画像メタデータを作成することが可能となる。 As described above, showing separate the audio from the moving image, the speech recognition, a word indicating the position on the screen word indicating the (spatial information) and index type and content associated therewith (character information), or a video control object obtains the word (character information), simultaneously acquires time information indicating the position on the time axis in the moving image file, the acquired space information, the position conversion table previously created, the spatial position on the screen from the word ( due to so as to convert the pixel or the like), it is possible to automatically create a moving picture meta data having character information + time information + spatial information.

なお、図2における処理部の部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより動画メタデータ自動作成処理を行ってもよい。 Incidentally, by recording the program a computer-readable recording medium for realizing a part of the processing unit in FIG 2, video metadata automatically by to read the program recorded in this recording medium into a computer system, executes it may be carried out the creation process. なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。 Here, the "computer system" includes an OS and hardware such as peripheral devices. また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。 In addition, the "computer system" also includes a WWW system having a homepage providing environment (or display environment). また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。 The "computer-readable recording medium" refers to flexible disks, magneto-optical disks, ROM, portable media such as a CD-ROM, and a storage device such as a hard disk built in the computer system. さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 Furthermore, the "computer-readable recording medium", as the Internet or the like networks or telephone via a communication line of the circuit, such as a server or a client when the program is sending computer system internal volatile memory (RAM) in, and also includes those that holds the program for a certain time.

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。 Further, the program from a computer system storing the program in a storage device or the like via a transmission medium or may be transmitted to another computer system by a transmission wave in the transmission medium. ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する部を有する媒体のことをいう。 Here, "transmission medium" for transmitting the program refers to a medium having a section of transmitting information, such as the Internet or the like a network (communication network), a telephone line communication circuit (communication line) such as. また、上記プログラムは、前述した部の一部を実現するためのものであっても良い。 Further, the program may be one for realizing a part of the parts described above. さらに、前述した部をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 Furthermore, what can be achieved in combination with a program already recorded in part described above in a computer system may be a so-called differential file (differential program).

本発明の一実施形態の構成を示すブロック図である。 It is a block diagram showing a configuration of an embodiment of the present invention. 図1に示すメタデータ自動作成装置1の詳細な構成を示すブロック図である。 It is a block diagram showing a detailed configuration of the automatic metadata creation apparatus 1 shown in FIG. メタデータを自動作成する動作を示すフローチャートである。 Is a flowchart illustrating an operation for automatically create metadata. メタデータを自動作成する動作を示すフローチャートである。 Is a flowchart illustrating an operation for automatically create metadata. 画面の分割数を決定する動作を示すフローチャートである。 Is a flowchart illustrating an operation of determining the number of divisions of the screen. 位置変換テーブル17のテーブル構造を示す説明図である。 It is an explanatory view showing a table structure of the position conversion table 17. 音声認識結果の一例を示す説明図である。 Is an explanatory diagram showing an example of a speech recognition result. メタデータ(インデックス)の一例を示す説明図である。 Is an explanatory diagram showing an example of metadata (index). メタデータ(オブジェクト)の一例を示す説明図である。 It is an explanatory diagram showing an example of metadata (object). 文字情報の一例を示す説明図である。 Is an explanatory diagram showing an example of character information. 位置変換テーブル17の一例を示す説明図である。 Is an explanatory diagram showing an example of a position conversion table 17.

符号の説明 DESCRIPTION OF SYMBOLS

1・・・メタデータ自動作成装置 11・・・入出力インターフェイス 12・・・動画編集部 13・・・動画像取り込み部 14・・・メタデータ作成部 15・・・インデックス作成部 16・・・動画制御部 17・・・位置変換テーブル 18・・・画面分割部 19・・・辞書管理部 20・・・音声分離部 21・・・音声認識部 22・・・音声認識用辞書 23・・・文字データファイル作成部 24・・・ファイル管理部 25・・・保存用データベース 2・・・動画像記録装置 31・・・映像入力部 32・・・音声入力部 33・・・動画像作成部 34・・・入出力インターフェイス 3・・・画像認識装置 1 ... Automatic Metadata creation device 11 ... input-output interface 12 ... video editing unit 13 ... video image capture unit 14 ... metadata generator 15 ... index creation part 16 ... video controller 17 ... position conversion table 18 ... screen division unit 19 ... dictionary management unit 20 ... audio separator 21 ... speech recognition unit 22 ... speech recognition dictionary 23 ... character data file creating unit 24 ... file management unit 25 ... storage database 2 ... moving picture recording apparatus 31 ... image input unit 32 ... voice input section 33 ... moving image creation section 34 ... input and output interface 3 ... image recognition device

Claims (8)

  1. 音声データを含む動画像データを入力する動画像入力手段と、 A moving image input means for inputting moving image data including voice data,
    前記動画像データから音声データとこの音声データが記録された動画像データ上の時間情報を抽出する音声分離手段と、 A voice separating means for extracting the time information on the voice data and the video data the audio data is recorded from the moving image data,
    動画像上の空間位置を特定する語句とメタデータとなる語句とが予め登録された音声認識用辞書と、 A speech recognition dictionary and phrase phrase and metadata registered in advance for identifying the spatial position of the video image,
    前記音声認識用辞書を参照して、前記音声データを認識することにより、該音声データから動画像上の空間位置を特定する語句とメタデータとなる語句とを分離して抽出し、それぞれを文字データに変換する音声認識手段と、 Referring to the speech recognition dictionary, said by recognizing the voice data is extracted by separating the phrase phrase and metadata identifying the spatial position of the moving picture from the audio data, character respectively a speech recognition means for converting the data,
    前記動画像上の空間位置と、前記メタデータとなる語句の文字データと、前記時間情報とを関連付けてメタデータとして記憶するメタデータ記憶手段と を備えたことを特徴とする動画メタデータ自動作成装置。 And spatial position on the moving image, and character data words to be the meta-data, video metadata automatic creation, characterized in that it includes a metadata storage means for storing said as time information and metadata in association with apparatus.
  2. 前記動画像上の空間位置の特定は、前記動画像上の空間位置を特定する語句と画面上の位置データが予め定義された位置変換テーブルを参照することにより行うことを特徴とする請求項1に記載の動画メタデータ自動作成装置。 Specific spatial position on the moving image, according to claim 1, characterized in that by referring to the position conversion table position data on the words and the screen is defined in advance for identifying the spatial position on the moving image video metadata automatic creation device according to.
  3. 前記位置変換テーブルを画面上の分割数の指定により作成し、前記音声認識用辞書に登録する手段をさらに備えたことを特徴とする請求項2に記載の動画メタデータ自動作成装置。 The position conversion table created by specifying the number of divisions of the screen, video metadata automatic creation device according to claim 2, further comprising a means for registering the dictionary for voice recognition.
  4. 前記位置変換テーブルは、前記動画像データを画像認識することにより得られた認識結果に基づいて作成することを特徴とする請求項2に記載の動画メタデータ自動作成装置。 The position conversion table, video metadata automatic creation device according to claim 2, characterized in that to create based on the recognition result obtained by the image recognition of the moving image data.
  5. 前記メタデータ記憶手段は、前記メタデータを文字データファイルとして記憶することを特徴とする請求項1に記載の動画メタデータ自動作成装置。 The metadata storage unit, video metadata automatic creation device according to claim 1, wherein the storing the metadata as character data file.
  6. 音声データを含む動画像データを入力する動画像入力手段と、 A moving image input means for inputting moving image data including voice data,
    前記動画像データから音声データとこの音声データが記録された動画像データ上の時間情報を抽出する音声分離手段と、 A voice separating means for extracting the time information on the voice data and the video data the audio data is recorded from the moving image data,
    動画像の再生を制御する語句が予め登録された音声認識用辞書と、 A speech recognition dictionary phrase registered in advance to control the playback of the moving picture,
    前記音声認識用辞書を参照して、前記音声データを認識することにより、該音声データから動画像の再生を制御する語句を抽出し、文字データに変換する音声認識手段と、 Referring to the speech recognition dictionary, by recognizing the speech data, a speech recognition means for extracting phrases that controls the reproduction of the moving image from the voice data into character data,
    前記動画像の再生を制御する文字データと、前記時間情報とを関連付けてメタデータとして記憶するメタデータ記憶手段と を備えたことを特徴とする動画メタデータ自動作成装置。 And character data for controlling reproduction of the moving image, the video metadata automatically creating apparatus characterized by comprising a metadata storing means for storing as metadata in association with time information.
  7. 音声データを含む動画像データを入力する動画像入力処理と、 A moving image input processing of inputting moving image data including audio data,
    前記動画像データから音声データとこの音声データが記録された動画像データ上の時間情報を抽出する音声分離処理と、 And audio separation process for extracting time information on the voice data and the video data the audio data is recorded from the moving image data,
    動画像上の空間位置を特定する語句とメタデータとなる語句とが予め登録された音声認識用辞書と、 A speech recognition dictionary and phrase phrase and metadata registered in advance for identifying the spatial position of the video image,
    前記音声認識用辞書を参照して、前記音声データを認識することにより、該音声データから動画像上の空間位置を特定する語句とメタデータとなる語句とを分離して抽出し、それぞれを文字データに変換する音声認識処理と、 Referring to the speech recognition dictionary, said by recognizing the voice data is extracted by separating the phrase phrase and metadata identifying the spatial position of the moving picture from the audio data, character respectively a voice recognition process to convert the data,
    前記動画像上の空間位置と、前記メタデータとなる語句の文字データと、前記時間情報とを関連付けてメタデータとして記憶するメタデータ記憶処理と をコンピュータに行わせることを特徴とする動画メタデータ自動作成プログラム。 Video metadata, wherein the spatial position on the moving image, and character data of the phrase as the metadata, that causes the metadata storing process in association with the time information stored as metadata in computer automatic creation program.
  8. 音声データを含む動画像データを入力する動画像入力処理と、 A moving image input processing of inputting moving image data including audio data,
    前記動画像データから音声データとこの音声データが記録された動画像データ上の時間情報を抽出する音声分離処理と、 And audio separation process for extracting time information on the voice data and the video data the audio data is recorded from the moving image data,
    動画像の再生を制御する語句が予め登録された音声認識用辞書と、 A speech recognition dictionary phrase registered in advance to control the playback of the moving picture,
    前記音声認識用辞書を参照して、前記音声データを認識することにより、該音声データから動画像の再生を制御する語句を抽出し、文字データに変換する音声認識処理と、 Referring to the speech recognition dictionary, by recognizing the voice data, the voice recognition process for extracting a word to control the reproduction of the moving image from the voice data into character data,
    前記動画像の再生を制御する文字データと、前記時間情報とを関連付けてメタデータとして記憶するメタデータ記憶処理と をコンピュータに行わせることを特徴とする動画メタデータ自動作成プログラム。 And character data for controlling reproduction of the moving image, video metadata automatic creation program characterized by causing the metadata storage processing in a computer to store as metadata in association with the time information.
JP2003296393A 2003-08-20 2003-08-20 Moving image meta-data automatic creating apparatus and moving image meta-data automatic creation program Pending JP2005065191A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003296393A JP2005065191A (en) 2003-08-20 2003-08-20 Moving image meta-data automatic creating apparatus and moving image meta-data automatic creation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003296393A JP2005065191A (en) 2003-08-20 2003-08-20 Moving image meta-data automatic creating apparatus and moving image meta-data automatic creation program

Publications (1)

Publication Number Publication Date
JP2005065191A true true JP2005065191A (en) 2005-03-10

Family

ID=34372317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003296393A Pending JP2005065191A (en) 2003-08-20 2003-08-20 Moving image meta-data automatic creating apparatus and moving image meta-data automatic creation program

Country Status (1)

Country Link
JP (1) JP2005065191A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007101945A (en) * 2005-10-05 2007-04-19 Fujifilm Corp Apparatus, method, and program for processing video data with audio
GB2443027A (en) * 2006-10-19 2008-04-23 Sony Comp Entertainment Europe Storing meta-data with recordings of dialogue to allow additional interpretations without the need for re-recording different languages
JP2009088644A (en) * 2007-09-27 2009-04-23 Funai Electric Co Ltd Recording and reproducing apparatus

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007101945A (en) * 2005-10-05 2007-04-19 Fujifilm Corp Apparatus, method, and program for processing video data with audio
GB2443027A (en) * 2006-10-19 2008-04-23 Sony Comp Entertainment Europe Storing meta-data with recordings of dialogue to allow additional interpretations without the need for re-recording different languages
GB2443027B (en) * 2006-10-19 2009-04-01 Sony Comp Entertainment Europe Apparatus and method of audio processing
US8825483B2 (en) 2006-10-19 2014-09-02 Sony Computer Entertainment Europe Limited Apparatus and method for transforming audio characteristics of an audio recording
JP2009088644A (en) * 2007-09-27 2009-04-23 Funai Electric Co Ltd Recording and reproducing apparatus

Similar Documents

Publication Publication Date Title
Klemmer et al. Books with voices: paper transcripts as a physical interface to oral histories
US7263659B2 (en) Paper-based interface for multimedia information
US20130185052A1 (en) Language translation of visual and audio input
US20020051077A1 (en) Videoabstracts: a system for generating video summaries
US7139767B1 (en) Image processing apparatus and database
US5995936A (en) Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations
US20080097970A1 (en) Intelligent Video Summaries in Information Access
US6687671B2 (en) Method and apparatus for automatic collection and summarization of meeting information
US20060173859A1 (en) Apparatus and method for extracting context and providing information based on context in multimedia communication system
US7131059B2 (en) Scalably presenting a collection of media objects
US7536713B1 (en) Knowledge broadcasting and classification system
US20140086458A1 (en) Media tagging
US20050216851A1 (en) Techniques for annotating multimedia information
US7149957B2 (en) Techniques for retrieving multimedia information using a paper-based interface
US20120008011A1 (en) Digital Camera and Associated Method
US20090162828A1 (en) Method and system to provide a video-based repository of learning objects for mobile learning over a network
US7324943B2 (en) Voice tagging, voice annotation, and speech recognition for portable devices with optional post processing
Jewitt An introduction to using video for research
US20070255565A1 (en) Clickable snippets in audio/video search results
US5664227A (en) System and method for skimming digital audio/video data
US20050114357A1 (en) Collaborative media indexing system and method
US7266568B1 (en) Techniques for storing multimedia information with source documents
US20090144056A1 (en) Method and computer program product for generating recognition error correction information
US20020036694A1 (en) Method and system for the storage and retrieval of web-based educational materials
US7266782B2 (en) Techniques for generating a coversheet for a paper-based interface for multimedia information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071023