JP2004153765A - Meta-data production apparatus and production method - Google Patents
Meta-data production apparatus and production method Download PDFInfo
- Publication number
- JP2004153765A JP2004153765A JP2002319757A JP2002319757A JP2004153765A JP 2004153765 A JP2004153765 A JP 2004153765A JP 2002319757 A JP2002319757 A JP 2002319757A JP 2002319757 A JP2002319757 A JP 2002319757A JP 2004153765 A JP2004153765 A JP 2004153765A
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- still image
- image content
- input
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、静止画コンテンツ制作におけるメタデータ制作システム及び方法に関するものである。
【0002】
【従来の技術】
近年、静止画コンテンツの制作において、これらコンテンツに関連したメタデータの付与することがおこなわれている。
【0003】
しかしながら、上記メタデータの付与は、制作された静止画コンテンツのシナリオあるいはナレーション原稿をもとに、手作業でコンピュータ入力することにより制作する方法が一般的であり、相当な労力の必要な方法であった。
【0004】
【特許文献1】
特開平9−130736号公報
【0005】
【発明が解決しようとする課題】
本願発明は、上記従来の問題点に係る課題を解決することを目的とするものであって、静止画コンテンツの制作時あるいは、静止画コンテンツを制作した直後更には、制作時とは無関係な時刻において上記制作された静止画コンテンツを再生することによりメタデータとすべき情報を、音声入力でコンピュータに入力することによりメタデータを制作するシステム及び方法を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記課題を解決するために本願発明は、制作された静止画コンテンツの再生手段、上記再生手段で再生された静止画映像信号を表示する映像モニタ手段、上記映像モニタ手段でオペレータが確認した制作すべきメタデータ内容をオペレータの発声によりマイクで収録する音声入力手段、上記音声入力手段により入力された音声信号を認識する音声認識手段、音声認識手段で認識された音声情報をメタデータに変換することによりメタデータを生成するメタデータ生成手段、および上記静止画コンテンツと上記メタデータとを関連づけるため、上記静止画コンテンツに付与されている静止画番地情報と上記メタデータとを入力し番地情報付メタデータとする番地付与手段、上記制作された静止画コンテンツおよび上記番地情報付メタデータとを記録する静止画コンテンツ・メタデータ記録手段とを備えたものである。
【0007】
これにより、従来キーボードで入力し、制作していたメタデータを、音声認識を用いて音声入力することにより極めて容易に制作することが可能となる。
【0008】
【発明の実施の形態】
本発明の請求項1に係る発明は、静止画コンテンツに関連するメタデータの制作装置であって、音声入力手段と、音声認識手段と、メタデータ制作手段とを具備し、上記静止画コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて認識し、認識したデータを上記メタデータ制作手段によりメタデータに変換し、かつ、上記静止画コンテンツとともに上記メタデータを、記録手段を用いて記録することを特徴とするメタデータ制作装置である。
【0009】
本発明の請求項2に係る発明は、コンテンツに関連するメタデータの制作装置であって、音声入力手段と音声認識手段とメタデータ制作手段と上記静止画コンテンツに関連した辞書とを具備し、上記静止画コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて上記コンテンツに関連した辞書に関連付けて認識し、かつ、上記静止画コンテンツとともに上記メタデータを、記録手段を用いて記録することを特徴とするメタデータ制作装置である。
【0010】
本発明の請求項3に係る発明は、上記請求項1ないし上記請求項2に係る発明のメタデータ制作装置であって、上記静止画コンテンツに付与されている番地情報と上記メタデータとを入力し、番地情報付メタデータを生成する番地付与手段を備え、上記静止画コンテンツと生成された上記メタデータとを関連付けることを特徴とする請求項1または2のいずれかに記載のメタデータ制作装置である。
【0011】
以下、本発明の実施の形態について図面を用いて説明する。
(実施の形態1)
図1は、本発明の実施の形態1によるメタデータ制作装置の構成を示すブロック図である。図1において、1はカメラ、2は静止画コンテンツ記録および番地付与・記録手段、3は静止画コンテンツ・メタデータ記録手段、4は静止画コンテンツ・メタデータ再生手段、5は静止画コンテンツ・メタデータ表示手段、6はマイク、7は音声認識手段、8はメタデータ生成手段、9は番地付与手段、10は辞書である。
カメラ1で撮影された静止画コンテンツは、静止画コンテンツ記録および番地付与・記録手段2に供給される。ここで、上記静止画コンテンツは記録媒体(図示せず)に記録されるとともに番地が付与され、上記番地も上記記録媒体(図示せず)に記録される。なお、上記記録媒体は、半導体メモリで構成されるのが一般的であるが、半導体メモリに限定されず、たとえば、磁気メモリ、光記録媒体、光磁気記録媒体など、種々の記録媒体を用いることが可能である。ここで記録された静止画コンテンツは出力端子201、入力端子301を介して、静止画コンテンツ・メタデータ記録手段に供給される。同様に、番地情報も出力端子202、入力端子302を介して、上記静止画コンテンツ・メタデータ記録手段3に供給される。さらに上記番地情報は上記出力端子202、入力端子902を介してメタデータ番地付与手段9(後出)に供給される。
一方、上記カメラ1で撮影された静止画に関連する情報がマイク6を介して音声認識手段7に入力される。上記静止画に関連する情報は、たとえば、タイトル、撮影の日時、撮影者、撮影場所(どこ)、被撮影者(だれ)、被撮影物(なに)・・・など、撮影されたコンテンツに関連する情報である。
また、必要に応じて、音声認識用の辞書10も、音声認識手段7に供給される。音声認識手段7で認識された、音声データはメタデータ生成手段8に供給され、メタデータあるいはタグに変換される。なお、一般には、メタデータとは、このようなタグ[タイトル、撮影の日時、撮影者、撮影場所(どこ)、被撮影者(だれ)、被撮影物(なに)・・・]の集合体を意味するものである。このようにして、生成されたメタデータあるいはタグは、静止画コンテンツ自身の内容あるいはシーンとの関係を一致させるため、メタデータへの番地付与手段7に供給される。上記メタデータへの番地付与手段7にて、出力端子202、入力端子903を介して供給された番地情報が上記メタデータに付与される。この様にして番地の付与されたメタデータは、出力端子903、入力端子303を介して、上記静止画コンテンツ・メタデータ記録手段3に供給される。
静止画コンテンツ・メタデータ記録手段3では、同一の番地の静止画コンテンツと同一の番地のメタデータとが関連付けらて記録される。
より具体的に説明するため、上記静止画コンテンツ・メタデータ記録手段3にて記録された静止画コンテンツおよびメタデータを静止画コンテンツ・メタデータ再生手段4にて再生し、静止画コンテンツ・メタデータ表示手段5にて表示された結果の一例を、図2に示す。
図2において、静止画コンテンツ・メタデータ表示手段5の画面は、たとえば静止画コンテンツの表示部501、番地の表示部502およびメタデータの表示領域510で構成される。メタデータの表示領域510は、たとえば1)タイトルの記述部511、2)日時の記述部512、3)撮影者の記述部513、4)撮影場所の記述部514、・・・・などで構成される。これら、1)タイトルの記述部511、2)日時の記述部512、3)撮影者の記述部513、4)撮影場所の記述部514、・・・・などが、上述した音声認識により生成されたメタデータである。
上述した説明では、メタデータの生成を、静止画コンテンツの撮影の事前、撮影とほぼ同時期あるいは、撮影の直後など、必ずしも、撮影された静止画コンテンツの確認を必要としなかった場合についての説明である。
次には、たとえば静止画コンテンツの後付として、メタデータの生成を行うなど、静止画コンテンツを再生し、モニタ手段でモニタした上記静止画コンテンツに対し、メタデータを生成する場合について図3を用いて説明する。なお、図1と同様の機能については、その説明を省略する。
カメラ1で撮影された静止画コンテンツは、静止画コンテンツ記録および番地付与・記録手段2に供給される。ここで、上記静止画コンテンツは記録媒体(図示せず)に記録されるとともに番地が付与され、上記番地も上記記録媒体(図示せず)に記録される。このような記録媒体(図示せず)を、静止画コンテンツ・番地再生手段11に供給する。静止画コンテンツ・番地再生手段11で再生された静止画コンテンツは、モニタ手段12に供給される。同様に再生された番地情報は、出力端子112、入力端子902を介して、メタデータの番地付与手段9に供給される。マイク6に向かって、音声入力する担当者(図示せず)は、上記モニタ手段12に映出された静止画コンテンツを確認のうえ、メタデータ生成に必要な言葉を発声する。このようにして、上記カメラ1で撮影された静止画に関連する情報がマイク6を介して音声認識手段7に入力される。上記静止画に関連する情報は、たとえば、タイトル、撮影の日時、撮影者、撮影場所(どこ)、被撮影者(だれ)、被撮影物(なに)・・・など、撮影されたコンテンツに関連する情報である。これ以降は、図1の説明と同様である。
【0012】
なお、一般的には、音声認識には何らかの誤認識が生じる可能性がある。誤認識が生じた場合、制作されたメタデータ、タグをコンピュータ手段などの情報処理手段を用いて修正することは可能である。
【0013】
【発明の効果】
以上説明したように発明は、静止画コンテンツに関連したメタデータの作成あるいはタグ付けを行うに当たり、音声入力による音声認識を用い、且つ、上記メタデータあるいはタグと静止画コンテンツとの番地あるいはシーンとの関連付けを行うため、従来のようなキーボード入力と比較して効率的にメタデータの作成やタグ付けを実施することができる。
【図面の簡単な説明】
【図1】本発明の実施形態1に係るメタデータ制作装置の構成を示すブロック図
【図2】本発明の静止画コンテンツ・メタデータ表示手段の一例を示す図
【図3】本発明の実施形態2に係るメタデータ制作装置の構成を示すブロック図
【符号の説明】
1 カメラ
2 静止画コンテンツ記録および番地付与手段
3 静止画コンテンツ・メタデータ記録手段
4 静止画コンテンツ・メタデータ再生手段
5 静止画コンテンツ・メタデータ表示手段
6 マイク
7 音声認識手段
8 メタデータ生成手段
9 メタデータ番地付与手段
10 辞書
11 静止画コンテンツ・番地再生手段
12 モニタ手段
111 静止画コンテンツ出力端子
112 番地出力端子
201 静止画コンテンツ出力端子
202 番地出力端子
301 映像入力端子
302 番地入力端子
303 メタデータ・番地入力端子
501 静止画コンテンツ表示手段
502 番地表示手段
510 メタデータ表示領域
511 タイトル表示領域
512 日時表示領域
513 撮影者表示領域
514 場所表示領域
902 番地入力端子
903 メタデータ・番地出力端子[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a metadata production system and method for producing still image content.
[0002]
[Prior art]
In recent years, in the production of still image contents, metadata related to these contents has been added.
[0003]
However, the method of adding the metadata is generally a method of manually inputting a computer based on a scenario or a narration manuscript of the produced still image content, and is a method requiring considerable labor. there were.
[0004]
[Patent Document 1]
JP-A-9-130736
[Problems to be solved by the invention]
An object of the present invention is to solve the problems related to the above-described conventional problems, and is to be performed at the time of producing still image content or immediately after producing still image content, and further, at a time irrelevant to the production time. It is an object of the present invention to provide a system and a method for producing metadata by inputting information to be metadata by reproducing the produced still image content into a computer by voice input.
[0006]
[Means for Solving the Problems]
In order to solve the above-mentioned problems, the present invention provides a reproducing means for a produced still image content, a video monitor means for displaying a still image video signal reproduced by the reproducing means, and a production method which is confirmed by an operator with the video monitor means. Voice input means for recording the metadata content to be recorded by a microphone by an operator, voice recognition means for recognizing the voice signal input by the voice input means, and converting voice information recognized by the voice recognition means into metadata. Metadata generating means for generating metadata according to the above, and in order to associate the still image content with the metadata, input the still image address information and the metadata given to the still image content, The address assigning means as data, the produced still image content and the metadata with address information It is obtained by a still picture content metadata recording means for recording.
[0007]
As a result, it is possible to extremely easily produce metadata that has been conventionally input and produced using a keyboard by voice input using voice recognition.
[0008]
BEST MODE FOR CARRYING OUT THE INVENTION
The invention according to claim 1 of the present invention is an apparatus for producing metadata related to still image content, comprising: a voice input unit, a voice recognition unit, and a metadata production unit, and Related information is input by the voice input means, the input voice signal is recognized by the voice recognition means, the recognized data is converted to metadata by the metadata production means, and the still image content In addition, the metadata production apparatus records the metadata using a recording unit.
[0009]
An invention according to
[0010]
According to a third aspect of the present invention, there is provided the metadata producing apparatus according to the first or second aspect, wherein the address information and the metadata assigned to the still image content are input. 3. The metadata producing apparatus according to claim 1, further comprising an address assigning means for generating address information-added metadata, wherein the still image content is associated with the generated metadata. It is.
[0011]
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration of a metadata production device according to Embodiment 1 of the present invention. In FIG. 1, 1 is a camera, 2 is a still image content recording and address assigning / recording unit, 3 is a still image content / metadata recording unit, 4 is a still image content / metadata reproducing unit, and 5 is a still image content / metadata. Data display means, 6 is a microphone, 7 is voice recognition means, 8 is metadata generation means, 9 is address assignment means, and 10 is a dictionary.
The still image content shot by the camera 1 is supplied to a still image content recording and address assigning / recording
On the other hand, information related to a still image captured by the camera 1 is input to the
Further, a
The still image content / metadata recording means 3 records the still image content at the same address and the metadata at the same address in association with each other.
In order to explain this more specifically, the still image content and metadata recorded by the still image content /
In FIG. 2, the screen of the still image content /
In the above description, the generation of the metadata is not necessarily required to confirm the photographed still image content, such as before photographing of the still image content, almost at the same time as the photographing, or immediately after the photographing. It is.
Next, FIG. 3 shows a case where the still image content is reproduced, for example, metadata is generated as a postscript of the still image content, and the metadata is generated for the still image content monitored by the monitor means. It will be described using FIG. The description of the same functions as those in FIG. 1 is omitted.
The still image content shot by the camera 1 is supplied to a still image content recording and address assigning /
[0012]
In general, some erroneous recognition may occur in voice recognition. If misrecognition occurs, it is possible to correct the produced metadata and tags using information processing means such as computer means.
[0013]
【The invention's effect】
As described above, the present invention uses voice recognition by voice input to create or tag metadata related to still image content, and uses the metadata or tag and the address or scene of the still image content. , It is possible to create and tag metadata more efficiently as compared with a conventional keyboard input.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a metadata producing apparatus according to a first embodiment of the present invention; FIG. 2 is a diagram showing an example of a still image content / metadata display means of the present invention; FIG. FIG. 2 is a block diagram illustrating a configuration of a metadata production device according to a second embodiment.
DESCRIPTION OF SYMBOLS 1
Claims (4)
音声入力手段と、音声認識手段と、メタデータ制作手段とを具備し、
上記静止画コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて認識し、認識したデータを上記メタデータ制作手段によりメタデータに変換するとともに、上記静止画コンテンツの各々の番地を上記メタデータに関連付けることを特徴とするメタデータ制作装置。An apparatus for producing metadata related to still image content,
A voice input unit, a voice recognition unit, and a metadata production unit;
The information related to the still image content is input by the audio input unit, the input audio signal is recognized by the audio recognition unit, and the recognized data is converted into metadata by the metadata production unit. A metadata producing apparatus, wherein each address of the still image content is associated with the metadata.
音声入力手段と音声認識手段とメタデータ制作手段と上記静止画コンテンツに関連した辞書とを具備し、
上記静止画コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて上記静止画コンテンツに関連した辞書に関連付けて認識し、認識したデータを上記メタデータ制作手段によりメタデータに変換するとともに、上記静止画コンテンツの各々の番地を上記メタデータに関連付けることを特徴とするメタデータ制作装置。An apparatus for producing metadata related to still image content,
Comprising a voice input means, a voice recognition means, a metadata production means, and a dictionary related to the still image content,
Information related to the still image content is input by the audio input unit, the input audio signal is recognized by the voice recognition unit in association with a dictionary related to the still image content, and the recognized data is converted to the meta data. A metadata producing apparatus, wherein data is converted into metadata by data producing means, and each address of the still image content is associated with the metadata.
音声入力手段と、音声認識手段と、メタデータ制作手段とを用いて、
上記静止画コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて認識し、上記メタデータ制作手段によりメタデータに変換するとともに、上記静止画コンテンツの各々の番地を上記メタデータに関連付けることを特徴とするメタデータ制作方法。A method for producing metadata related to still image content,
Using voice input means, voice recognition means, and metadata production means,
The information relating to the still image content is input by the audio input means, the input audio signal is recognized by the audio recognition means, and converted into metadata by the metadata producing means, Wherein each address of the metadata is associated with the metadata.
音声入力手段と音声認識手段とメタデータ制作手段と上記コンテンツに関連した辞書とを用いて、
上記コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて上記コンテンツに関連した辞書に関連付けて認識し、上記メタデータ制作手段によりメタデータに変換するとともに、上記静止画コンテンツの各々の番地を上記メタデータに関連付けることを特徴とするメタデータ制作方法。A method for producing metadata related to still image content,
Using voice input means, voice recognition means, metadata production means and a dictionary related to the content,
Information related to the content is input by the voice input unit, the input voice signal is recognized by the voice recognition unit in association with a dictionary related to the content, and converted to metadata by the metadata production unit. And associating each address of the still image content with the metadata.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002319757A JP2004153765A (en) | 2002-11-01 | 2002-11-01 | Meta-data production apparatus and production method |
EP03733537A EP1536638A4 (en) | 2002-06-24 | 2003-06-23 | Metadata preparing device, preparing method therefor and retrieving device |
US10/519,089 US20050228665A1 (en) | 2002-06-24 | 2003-06-23 | Metadata preparing device, preparing method therefor and retrieving device |
CN038149028A CN1663249A (en) | 2002-06-24 | 2003-06-23 | Metadata preparing device, preparing method therefor and retrieving device |
MXPA04012865A MXPA04012865A (en) | 2002-06-24 | 2003-06-23 | Metadata preparing device, preparing method therefor and retrieving device. |
PCT/JP2003/007908 WO2004002144A1 (en) | 2002-06-24 | 2003-06-23 | Metadata preparing device, preparing method therefor and retrieving device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002319757A JP2004153765A (en) | 2002-11-01 | 2002-11-01 | Meta-data production apparatus and production method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004153765A true JP2004153765A (en) | 2004-05-27 |
Family
ID=32462518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002319757A Pending JP2004153765A (en) | 2002-06-24 | 2002-11-01 | Meta-data production apparatus and production method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004153765A (en) |
-
2002
- 2002-11-01 JP JP2002319757A patent/JP2004153765A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7831598B2 (en) | Data recording and reproducing apparatus and method of generating metadata | |
US9560411B2 (en) | Method and apparatus for generating meta data of content | |
WO2004002144A1 (en) | Metadata preparing device, preparing method therefor and retrieving device | |
KR20070118038A (en) | Information processing apparatus, information processing method, and computer program | |
JP2010219692A (en) | Image capturing apparatus and camera | |
EP1603028B1 (en) | Information processing apparatus and information processing method | |
WO2013024704A1 (en) | Image-processing device, method, and program | |
JP2007101945A (en) | Apparatus, method, and program for processing video data with audio | |
JP2005025413A (en) | Content processing device, content processing method, and program | |
JP3781715B2 (en) | Metadata production device and search device | |
US8615153B2 (en) | Multi-media data editing system, method and electronic device using same | |
JP5320913B2 (en) | Imaging apparatus and keyword creation program | |
CN113365109A (en) | Method and device for generating video subtitles, electronic equipment and storage medium | |
US6804652B1 (en) | Method and apparatus for adding captions to photographs | |
JP2004023661A (en) | Recorded information processing method, recording medium, and recorded information processor | |
JP2001069453A (en) | Still picture camera | |
JP2004153765A (en) | Meta-data production apparatus and production method | |
JP4599630B2 (en) | Video data processing apparatus with audio, video data processing method with audio, and video data processing program with audio | |
JP5389594B2 (en) | Image file generation method, program thereof, recording medium thereof, and image file generation device | |
JP2007266661A (en) | Imaging apparatus, information processor, and imaging display system | |
JP2004086124A (en) | Device and method for creating metadata | |
JP2002290901A (en) | Viewer video recording and reproducing device | |
JP2005057751A (en) | Multimedia data reproducing method, and multimedia data reproducing apparatus | |
JP2004120279A (en) | Device and method for editing moving image text, and editing program | |
JP2023162709A (en) | Imaging device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051027 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080701 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081028 |