JP2004153764A - Meta-data production apparatus and search apparatus - Google Patents

Meta-data production apparatus and search apparatus Download PDF

Info

Publication number
JP2004153764A
JP2004153764A JP2002319756A JP2002319756A JP2004153764A JP 2004153764 A JP2004153764 A JP 2004153764A JP 2002319756 A JP2002319756 A JP 2002319756A JP 2002319756 A JP2002319756 A JP 2002319756A JP 2004153764 A JP2004153764 A JP 2004153764A
Authority
JP
Japan
Prior art keywords
content
metadata
file
keyword
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002319756A
Other languages
Japanese (ja)
Other versions
JP3781715B2 (en
Inventor
Masafumi Shimotashiro
雅文 下田代
Hiroyasu Kuwano
裕康 桑野
Hiroyuki Sakai
啓行 酒井
Masaaki Kobayashi
正明 小林
Kenji Matsui
謙二 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002319756A priority Critical patent/JP3781715B2/en
Priority to EP03733537A priority patent/EP1536638A4/en
Priority to PCT/JP2003/007908 priority patent/WO2004002144A1/en
Priority to CN038149028A priority patent/CN1663249A/en
Priority to US10/519,089 priority patent/US20050228665A1/en
Priority to MXPA04012865A priority patent/MXPA04012865A/en
Publication of JP2004153764A publication Critical patent/JP2004153764A/en
Application granted granted Critical
Publication of JP3781715B2 publication Critical patent/JP3781715B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system for producing and searching meta-data by reproducing produced video/audio contents to confirm information to be defined as the meta-data and inputting the information to a computer or the like with a voice input to produce the meta-data. <P>SOLUTION: The production apparatus for the meta-data associated with contents is provided with: an input means for inputting an audio signal of a contents management keyword extracted from a scenario produced in accordance with produced contents or from the contents to make the audio signal into data; an audio recognizing means for recognizing the keyword from audio signal data which are made by the input means; and a file processing means for storing the keyword outputted form the audio recognizing means in a meta-data file together with a time code indicating a temporal position with an image signal contained in the contents. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、コンテンツ制作におけるメタデータ制作装置及び検索装置に関するものである。
【0002】
【従来の技術】
近年、映像・音声コンテンツの制作において、これらコンテンツに関連したメタデータの付与することがおこなわれている。
【0003】
しかしながら、上記メタデータの付与は、制作された映像・音声コンテンツのシナリオあるいはナレーション原稿をもとに、制作された映像・音声コンテンツを再生しながらメタデータとすべき情報を確認し、手作業でコンピュータ入力することにより制作する方法が一般的であり、相当な労力の必要な方法であった。
【0004】
また、カメラ撮影時に音声認識を用いタグ付けをするシステムは存在するが、撮影と同時に使用されるものに過ぎなかった。(特許文献1参照)
【0005】
【特許文献1】
特開平09−130736号公報
【0006】
【発明が解決しようとする課題】
本願発明は、上記従来の問題点に係る課題を解決することを目的とするものであって、制作された映像・音声コンテンツを再生することによりメタデータとすべき情報を確認し、音声入力でコンンピュータ等に入力することにより前記メタデータを制作し、検索するシステムを提供することを目的とする。
【0007】
【課題を解決するための手段】
上記課題を解決するために本願発明は、制作されたコンテンツに合わせて制作されたシナリオ、或いは前記コンテンツの内容から抽出されたコンテンツ管理用キーワードの音声信号を入力し、前記音声信号をデータ化する入力手段と前記入力手段でデータ化された音声信号データから、キーワードを認識する音声認識手段と、前記音声認識手段から出力されたキーワードを、コンテンツに含まれる画像信号との時間位置を示すタイムコードと共にメタデータファイルに記憶するファイル処理手段とを備えたものである。
これにより、従来キーボードで入力し、制作していたメタデータを、音声認識を用いて音声入力し、自動的にタイムコード付きのメタデータを制作することが可能となる。
特に、数秒単位の間隔でメタデータを付与する場合は、キー入力では困難であるが、本構成によれば、数秒単位間隔であっても効率よく、メタデータを付与できる。
また、音声入力する際に、事前シナリオ、或いはコンテンツの内容からキーワードを限定して入力する構成となっているので、音声認識の認識率を改善できる。
【0008】
【発明の実施の形態】
本発明の請求項1から4に係る発明は、制作されたコンテンツに合わせて制作されたシナリオから抽出されたコンテンツ管理用キーワードの音声信号を入力し、前記音声信号をデータ化する入力手段と前記入力手段でデータ化された音声信号データから、キーワードを認識する音声認識手段と、前記音声認識手段から出力されたキーワードをコンテンツに含まれる画像信号との時間位置を示すタイムコードと共にメタデータファイルに記憶するファイル処理手段とを具備したことを特徴とするメタデータ制作装置である。
【0009】
本発明の請求項5から7に係る発明は制作されたコンテンツに合わせて制作されたシナリオ、或いはコンテンツの内容から抽出されたコンテンツ管理用キーワードの音声信号を入力し、前記音声信号をデータ化する入力手段と前記入力手段でデータ化された音声信号データから、キーワードを認識する音声認識手段と、前記音声認識手段から出力されたキーワードを、コンテンツに含まれる画像信号との時間位置を示すタイムコードと共にメタデータファイルに記憶するファイル処理手段と、前記コンテンツファイルと前記メタデータファイルの関係を管理する制御ファイルを発生させるコンテンツ情報ファイル処理手段と、前記コンテンツファイルと、前記メタデータファイルと、前記制御ファイルとを記録する記録手段とを具備したことを特徴とするメタデータ検索装置である。
【0010】
本発明の請求項8に係る発明は制作されたコンテンツに合わせて制作されたシナリオ、或いはコンテンツの内容から抽出されたコンテンツ管理用キーワードの音声信号を入力し、前記音声信号をデータ化する入力手段と、ジャンル別辞書を複数用意し、コンテンツに適合したジャンルの辞書を選択し、前記入力手段でデータ化された音声信号データから、キーワードを認識する音声認識手段と、前記音声認識手段から出力されたキーワードを、コンテンツに含まれる画像信号との時間位置を示すタイムコードと共にメタデータファイルに記憶するファイル処理手段と、前記コンテンツファイルの記録位置と前記メタデータファイルの関係を管理する制御ファイルを発生させるコンテンツ情報ファイル処理手段と、前記コンテンツファイルと、前記メタデータファイルと、前記制御ファイルとを一緒に記録する記録手段と、検索したいコンテンツの分野に適合した、前記音声認識手段で用いた共通辞書からキーワードを選定し、前記選定したキーワードが記録されている前記メタデータファイルを特定し、前記記録手段に記録されているコンテンツの中から、検索したいコンテンツを検索し、前記制御ファイルから検索したいシーンの記録位置を検索する検索手段とを具備し、前記メタデータから前記記録手段に記録されたコンテンツファイルの記録位置とを特定することを特徴とするメタデータ検索装置である。
【0011】
以下、本発明の実施の形態について図面を用いて説明する。
(実施の形態1)
図1は、本発明の実施の形態1によるメタデータ制作装置の構成を示すブロック図である。
【0012】
図1において、1はコンテンツデータベース(DB)、2は入力手段、3は音声認識手段、4は辞書データベース(DB)、5はファイル処理手段、11は映像モニタである。
コンテンツDB1は、例えばVTR(あるいはハードディスクで構成された映像・音声信号再生手段、あるいは半導体メモリなどのメモリ手段を記録媒体とする映像・音声信号再生手段、あるいは光学記録式または磁気記録式などの回転型ディスクで構成された映像・音声信号再生手段、更には伝送されてきたあるいは放送されてきた映像・音声信号を1次記録し、再生する映像・音声再生手段などの、コンテンツに合わせたタイムコードを発生しながら再生する手段を備えたコンテンツ記録手段)である。
コンテンツDB1から再生されたタイムコード付き、映像信号は映像モニタ11に出力され、前記映像モニタ11で映出される。
次に、前記映像モニタ11に映出されたコンテンツに合わせて、ナレータ12がマイクロホーンを用いてナレーションの音声信号を入力する。この際、ナレーターは映像モニタ11に映しだされたコンテツ、あるいは、タイムコードを確認し、シナリオ、或いはナレーション原稿、或いはコンテンツの内容などを基に抽出されたコンテンツ管理用キーワードを発声し、マイクロホーンを用いてナレーションとして音声信号を入力する。
従って,前記したように入力される音声信号を前もってシナリオ等から限定されたキーワードを使用することによって、後段の音声認識手段3での認識率を改善させることができる。
次に、入力手段2ではマイクロホーンから入力された音声信号を、コンテンツDB1から出力されている垂直同期信号に同期したクロックで、前記音声信号をデータ化する。
次に、入力手段2でデータ化された音声信号データは、音声認識手段3に入力される。また、同時に、音声認識に必要な辞書が辞書DB4から供給される。
ここで、使用する音声認識用辞書を端子102から辞書DB4に設定する。
例えば、図2に示すように各分野別に辞書DB4が構成されていたとすると、使用する分野を端子102(例えば、キー入力できるキーボード端子)から設定する。
料理番組の場合は、料理―日本料理―料理法―野菜炒め等を端子102から辞書DB4を設定する。
前記のように辞書DB4を設定することで使用する単語、および、音声認識すべき単語を制限し、音声認識手段3の認識率を改善する。
また、更に、図1にもどり、端子102からシナリオ、あるいは、シナリオ原稿、あるいはコンテンツの内容から抽出されたキーワードを入力する。
例えば、料理番組の場合は、図3に示すレシピを端子102から入力する。
従って、レシピに記入されている単語が音声信号として入力されてくる可能性が高いので、辞書DB4では端子102から入力されたレシピ単語の認識優先度を明示し、優先して音声認識を行うようにする。
例えば、「柿」と「貝のカキ」が辞書中にあった場合、端子102から入力されたレシピ単語が「貝のカキ」のみの場合は、「貝のカキ」に優先順位1がつけられる。
音声認識手段3では、「かき」という音声を認識した場合、辞書DB4に設定された単語の優先順位1が明記されている「貝のカキ」と認識する。
従って、辞書DB4では、端子102から入力される分野で単語を限定し、更に、シナリオを端子102から入力して単語の優先度を明示することで、音声認識手段3での認識率を改善させることができる。
図1にもどり、音声認識手段3では、辞書DB4から供給された辞書に従って、入力手段2から入力された音声信号データを認識し、メタデータを生成する。
次に、音声認識手段3から出力されたメタデータは、ファイル処理手段5に入力される。
ここで、前述したように入力手段2では、コンテンツDB1から再生された垂直同期信号に同期して、音声信号をデータ化している。
従って、ファイル処理手段5では、入力手段2からの同期情報と、コンテンツDB1から供給されるタイムコード値とを用いて、音声認識手段3から出力されたメタデータに、file開始からの1秒ごとの基準時間(TM_ENT (秒))と、基準時間からのフレームオフセット数を示す(TM_OFFSET)と、タイムコードを付記した形式でfile化処理する。
例えば、前述した料理番組の場合は、図4に示したようなTEXT形式のメタデータファイルが、ファイル処理手段5から出力される。
次に、記録手段7ではファイル処理手段5から出力されたメタデータファイルとコンテンツDB1から出力されたコンテンツを記録する。
ここで、記録手段7は、HDD,メモリ、光ディスク等から構成されており、コンテンツDB1から出力されたコンテンツもファイル形式で記録する。
【0013】
(実施の形態2)
次に、実施の形態2について説明する。
実施の形態2は、図5に示すように、実施の形態1に対して、コンテンツ情報ファイル処理手段6が付加されている。前記コンテンツ情報ファイル処理手段6では、記録手段7に記録されたコンテンツの記録位置関係を示す制御ファイルを発生し、記録手段7に記録する。
即ち、前記コンテンツ情報ファイル処理手段6では、コンテンツDB1から出力されたコンテンツと、記録手段7から出力されるコンテンツの記録位置情報をもとに、前記コンテンツが保有している時間軸情報と、記録手段7に記録したコンテンツのアドレス関係を示す情報を発生し、データ化して制御ファイルとして出力する。
例えば、図6に示すように、前記コンテンツの記録位置を示す記録メディアアドレスに対し、前記コンテンツの時間軸基準を示す、TM_ENT #jを等時間軸間隔にポイントする。例えば、TM_ENT #jを1秒(NTSC信号の場合、30フレーム)毎に記録メディアアドレスをポイントする。
前記のようにマッピングすることで、コンテンツが1秒単位毎に分散記録されても、TM_ENT #jから記録手段7の記録アドレスを一義的に求めることができる。さらに、図4で前述したようにメタデータファイルには、ファイル開始からの1秒ごとの基準時間(TM_ENT (秒))と、基準時間からのフレームオフセット数を示す(TM_OFFSET)と、タイムコードと、メタデータとがTEXT形式で記録されている。
従って、前記メタデータファイルの中でメタデータ1を指定すれば、タイムコード、基準時間、及び、フレームオフセット値がわかるので、図6に示す制御ファイルから記録手段7での記録位置が即座にわかることになる。
なお、ここでは前記TM_ENTjの等時間軸間隔は例えば、1秒おきにポイントとした例について説明したが、MPEG2圧縮等で用いられているGOP単位等に合わせて記述することもできる。
さらに、テレビビジョン信号のNTSCでは垂直同期信号が60/1.001Hzであるため、絶対時間にあわせるためにドロップフレームモードに合わせたタイムコードと、前記垂直同期信号(60/1.001 Hz)にあわせたノンドロップタイムコードの2種類をしようする。この場合、ノンドロップタイムコードをTM_ENT #jであらわし、TC_ENT #jをドロップフレーム対応タイムコードであらわして使用することもできる。
さらに、制御ファイルのデータ化は、SMIL2等の既存言語を用いてデータ化することも可能であり、さらに、SMIL2の機能をもちいれば、関連したコンテンツ、及び、メタデータファイルのファイル名も合わせてデータ化して、制御ファイルに格納することができる。
さらに、図6では記録手段の記録アドレスを直接表示する構成をしめしたが、記録アドレスの代わりに、コンテンツファイルの頭からタイムコードまでのデータ容量を表示し、前記データ容量とファイルシステムの記録アドレスから記録手段でのタイムコードの記録アドレスを計算し、検出してもよい。
また、本実施例では、TM_ENTjとタイムコードの対応テーブルをメタデータファイルに格納する形式で説明したが、前記TM_ENTjとタイムコードの対応テーブルは制御ファイル中に格納しても同様の効果がえられる。
(実施の形態3)
次に、実施の形態3について説明する。
【0014】
実施の形態3は、図7に示すように、実施の形態2に対して、検索手段8が付加されている。前記検索手段8では検索したいシーンのキーワードを音声認識してメタデータを検出するのに使用した同一辞書DB4から選択し、設定する。
次に、検索手段8では前記メタデータファイルのメタデータ項目をサーチしてキーワードと一致するタイトル名とコンテンツシーンの位置(タイムコード)の一覧を表示する。
【0015】
次に、一覧表示の中から、ひとつの特定シーンが設定された場合は、メタデータファイルの前記基準時間(TM_ENT (秒))と、フレームオフセット数(TM_OFFSET)から制御ファイル中の記録メディアアドレスとを自動的に検出して記録手段7に設定し、前記記録手段7から記録メディアアドレスに記録されたコンテンツシーンをモニタ11に再生する。上記のように構成することで、メタデータを検出して即座に、見たいシーンを検出できる装置を提供できる。
なお、コンテンツにリンクしたサムネイルファイルを準備しておけば、前述したキーワードに一致したコンテンツ名の一覧を表示する際、コンテンツの代表的サムネイル画を再生して表示することも可能である。
(実施の形態4)
次に、他の実施の形態について説明する。
前述の実施形態1〜3は、あらかじめ記録されているコンテンツにメタデータを付与するシステムについて述べたが、本発明をカメラ等、撮影時にメタデータを付与するシステム、特に、コンテンツ内容が前もって限定される風景撮り、或いは、撮影位置をメタデータとして付与するシステムに対して拡張できる。
このシステムを実施の形態4として、図6にその構成を示す。
カメラ51で撮像し、コンテンツDB54に映像コンテンツが記録されると同時に、カメラが撮影している場所をGPS52によって検出し、前記GPS52から出力された位置情報(経緯度数値)を音声合成手段53で音声信号化した位置情報も別音声チャンネルに記録する。この場合、記録手段付きカメラ50として、カメラ51、GPS52、音声合成53、コンテンツDB54を一体構成してもよい。
次に、コンテンツDB54では前記音声チャンネルに記録されている音声信号の位置情報を音声認識手段56に入力する。
ここで、端子105から、キー入力ボード等によって、辞書DB55の地域名、ランドマーク等を選択、制限し、前記音声認識手段56に出力する。
音声認識手段56では認識された経緯数値と辞書DB55のデータを用いて地域名、ランドマークを検出し、ファイル処理手段57に出力する。
次に、ファイル処理手段57では、コンテンツDB54から出力されたタイムコードと音声認識手段56から出力された地域名、ランドマークをメタデータとしてTEXT化してメタデータファイルを発生させる。
次に、記録手段58ではファイル処理手段57から出力されたメタデータファイルとコンテンツDB54から出力されたコンテンツデータを記録する。
このように構成することで、撮影したシーン毎に、自動的に地域名、ランドマークのメタデータを付加することができる。
【0016】
なお、上記の各実施形態において、一般的には、音声認識には何らかの誤認識が生じる可能性がある。誤認識が生じた場合、制作されたメタデータ、タグをコンピュータ手段などの情報処理手段を用いて修正することも可能である。
【0017】
また、本発明に係る音声認識手段は単語単位で音声認識する単語認識方式とし、音声入力の単語数、及び、使用する認識辞書の単語数を制限することで、特に、音声認識率を改善することができる。
【0018】
また、本発明では音声認識手段により認識したキーワードをタイムコード共に、メタデータファイルでファイル化する構成を記述したが、音声認識手段により認識したキーワードに加え、関連したキーワードを追加してファイル化してもよい。
【0019】
例えば、音声で淀川を認識した場合は、地形、川等の一般属性キーワードも付加してファイル化する。こうすることで検索時、付加された地形、川等のキーワードも使用することができるので検索性を向上することができる。
【0020】
【発明の効果】
以上説明したように本発明は、コンテンツに関連したメタデータの作成あるいはタグ付けを行うに当たり、制作されたコンテンツのシナリオ等から事前に抽出したキーワードを音声信号として入力し、また、前記シナリオに基づいて辞書分野の設定、及び,キーワードの優先順位つけをおこなっているため、効率よく、正確に音声認識手段からメタデータを発生することができる。
特に、数秒単位の間隔でメタデータを付与する場合は、キー入力では困難であるが、本構成のような音声入力、音声認識を用いれば、数秒単位間隔であっても効率よく、メタデータを付与できる。
また、前記コンテンツの記録位置を示す制御ファイルとメタデータ、及び、タイムコード等を示す前記メタデータファイルとを使用することによって、メタキーワードから一義的に必要なシーンを検索し、前記記録手段から再生することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係るメタデータ制作装置の構成を示すブロック図
【図2】本発明に係る辞書DBの一例を示す構成図
【図3】本発明に係るシナリオの一例を示すレシピ図
【図4】本発明に係るメタデータファイルの一例を示すTEXT形式のデータ図
【図5】本発明の実施の形態2に係るメタデータ検索装置の構成を示すブロック図
【図6】本発明の情報ファイルの一例を示す構成図
【図7】本発明の実施の形態3に係るメタデータ検索装置の構成を示すブロック図
【図8】本発明の実施形態4に係るメタデータ制作装置の構成を示すブロック図
【符号の説明】
1 コンテンツDB
2 入力手段
3 音声認識手段
4 辞書DB4
5 ファイル処理手段
6 コンテンツ情報ファイル処理手段
7 記録手段
11 映像モニタ
50 記録装置付きカメラ
51 カメラ
52 GPS
53 音声合成手段
54 コンテンツDB
55 辞書DB
56 音声認識手段
57 ファイル処理手段
58 記録手段
101 音声入力端子
102 辞書分野選択入力端子
105 辞書地名選択入力端子
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a metadata production device and a retrieval device in content production.
[0002]
[Prior art]
2. Description of the Related Art In recent years, in the production of video / audio contents, metadata related to these contents has been added.
[0003]
However, the provision of the above metadata is based on the scenario of the produced video / audio content or the narration manuscript, and while reproducing the produced video / audio content, confirming the information to be metadata, and manually The method of producing by computer input was common and required a considerable amount of labor.
[0004]
Further, there is a system for tagging using voice recognition at the time of photographing a camera, but it is only used simultaneously with photographing. (See Patent Document 1)
[0005]
[Patent Document 1]
JP 09-130736 A
[Problems to be solved by the invention]
An object of the present invention is to solve the problems related to the conventional problems described above, and confirms information to be metadata by reproducing produced video and audio contents, and performs audio input. It is an object of the present invention to provide a system for creating and searching for the metadata by inputting it to a computer or the like.
[0007]
[Means for Solving the Problems]
In order to solve the above problems, the present invention is to input a scenario created according to created content or an audio signal of a content management keyword extracted from the content of the content and convert the audio signal into data. A voice recognition means for recognizing a keyword from input means and voice signal data digitized by the input means; and a time code indicating a time position of a keyword output from the voice recognition means and an image signal included in the content. And a file processing means for storing the metadata in a metadata file.
As a result, it is possible to automatically input metadata produced by the keyboard using the speech recognition and produce metadata with a time code.
In particular, when metadata is added at intervals of a few seconds, it is difficult to input metadata by key input. However, according to this configuration, metadata can be added efficiently even at intervals of a few seconds.
In addition, when inputting voice, the keyword is limited and input based on the pre-scenario or the content, so that the recognition rate of voice recognition can be improved.
[0008]
BEST MODE FOR CARRYING OUT THE INVENTION
The invention according to claims 1 to 4 of the present invention provides an input unit for inputting an audio signal of a content management keyword extracted from a scenario created according to created content, and converting the audio signal into data. A voice recognition unit for recognizing a keyword from the voice signal data digitized by the input unit, and a keyword output from the voice recognition unit in a metadata file together with a time code indicating a time position of an image signal included in the content. A metadata production device comprising a file processing means for storing.
[0009]
The invention according to claims 5 to 7 of the present invention inputs a scenario created according to the created content or an audio signal of a content management keyword extracted from the content of the content and converts the audio signal into data. A voice recognition means for recognizing a keyword from input means and voice signal data digitized by the input means; and a time code indicating a time position of a keyword output from the voice recognition means and an image signal included in the content. File processing means for storing a metadata file together with the content file; content information file processing means for generating a control file for managing the relationship between the content file and the metadata file; the content file; the metadata file; Recording means for recording files and A metadata search apparatus characterized.
[0010]
The invention according to claim 8 of the present invention is an input means for inputting an audio signal of a content management keyword extracted from a scenario created according to the created content or the content of the content, and converting the audio signal into data. A plurality of dictionaries for each genre are prepared, a dictionary of a genre suitable for the content is selected, and voice recognition means for recognizing a keyword from voice signal data digitized by the input means is output from the voice recognition means. File processing means for storing the keyword in the metadata file together with the time code indicating the time position of the image signal included in the content, and a control file for managing the relationship between the recording position of the content file and the metadata file. Content information file processing means for causing Recording means for recording the metadata file and the control file together; and selecting a keyword from a common dictionary used by the voice recognition means, which is suitable for the field of the content to be searched, and the selected keyword is recorded. Searching means for specifying the metadata file, searching for the content to be searched from among the contents recorded in the recording means, and searching for the recording position of the scene to be searched from the control file, A metadata search device characterized by specifying a recording position of a content file recorded in the recording means from the metadata.
[0011]
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration of a metadata production device according to Embodiment 1 of the present invention.
[0012]
In FIG. 1, 1 is a content database (DB), 2 is an input unit, 3 is a voice recognition unit, 4 is a dictionary database (DB), 5 is a file processing unit, and 11 is a video monitor.
The content DB1 is, for example, a VTR (or a video / audio signal reproducing unit constituted by a hard disk, a video / audio signal reproducing unit using a memory unit such as a semiconductor memory as a recording medium, or a rotation such as an optical recording type or a magnetic recording type). And audio signal playback means composed of a disc, and a time code adapted to the content, such as a video and audio playback means for temporarily recording and playing back transmitted or broadcasted video and audio signals. Content recording means provided with a means for reproducing while generating an image).
The video signal with the time code reproduced from the content DB 1 is output to the video monitor 11 and is projected on the video monitor 11.
Next, the narrator 12 inputs a voice signal of a narration using a microphone in accordance with the content displayed on the video monitor 11. At this time, the narrator checks the content or time code displayed on the video monitor 11, utters a scenario, or a narration manuscript, or a content management keyword extracted based on the contents of the content, etc. A voice signal is input as a narration using.
Therefore, as described above, by using a keyword limited from a scenario or the like in advance for the input speech signal, the recognition rate in the speech recognition unit 3 at the subsequent stage can be improved.
Next, the input means 2 converts the audio signal input from the micro horn into data using a clock synchronized with the vertical synchronization signal output from the content DB1.
Next, the voice signal data converted into data by the input unit 2 is input to the voice recognition unit 3. At the same time, a dictionary necessary for speech recognition is supplied from the dictionary DB4.
Here, the speech recognition dictionary to be used is set in the dictionary DB4 from the terminal 102.
For example, assuming that the dictionary DB4 is configured for each field as shown in FIG. 2, the field to be used is set from the terminal 102 (for example, a keyboard terminal that allows key input).
In the case of a cooking program, a dictionary DB4 is set from the terminal 102 for cooking-Japanese cuisine-cooking method-fried vegetables.
By setting the dictionary DB 4 as described above, words to be used and words to be subjected to voice recognition are restricted, and the recognition rate of the voice recognition unit 3 is improved.
Further, returning to FIG. 1, a scenario, a scenario manuscript, or a keyword extracted from the contents of the content is input from the terminal 102.
For example, in the case of a cooking program, the recipe shown in FIG.
Therefore, the words written in the recipe are likely to be input as voice signals, so that the dictionary DB4 specifies the recognition priority of the recipe words input from the terminal 102 and preferentially performs voice recognition. To
For example, if “persimmon” and “shell oyster” are in the dictionary, and if the recipe word input from the terminal 102 is only “shell oyster”, priority is given to “shell oyster”. .
When the voice recognition unit 3 recognizes the voice of “Kaki”, the voice recognition unit 3 recognizes the word “shell oyster” in which the priority order 1 of the word set in the dictionary DB 4 is specified.
Therefore, in the dictionary DB 4, words are limited in the field input from the terminal 102, and the scenario is input from the terminal 102 to specify the priority of the words, thereby improving the recognition rate of the voice recognition unit 3. be able to.
Returning to FIG. 1, the voice recognition unit 3 recognizes voice signal data input from the input unit 2 according to the dictionary supplied from the dictionary DB 4, and generates metadata.
Next, the metadata output from the voice recognition unit 3 is input to the file processing unit 5.
Here, as described above, the input means 2 converts the audio signal into data in synchronization with the vertical synchronization signal reproduced from the content DB1.
Therefore, the file processing unit 5 uses the synchronization information from the input unit 2 and the time code value supplied from the content DB 1 to store the metadata output from the voice recognition unit 3 every second from the start of the file. (TM_ENT (seconds)), the number of frame offsets from the reference time (TM_OFFSET), and the file is processed in a format in which a time code is added.
For example, in the case of the above-mentioned cooking program, a TEXT format metadata file as shown in FIG.
Next, the recording unit 7 records the metadata file output from the file processing unit 5 and the content output from the content DB 1.
Here, the recording unit 7 includes an HDD, a memory, an optical disk, and the like, and also records the content output from the content DB 1 in a file format.
[0013]
(Embodiment 2)
Next, a second embodiment will be described.
In the second embodiment, as shown in FIG. 5, a content information file processing means 6 is added to the first embodiment. The content information file processing means 6 generates a control file indicating a recording position relationship of the content recorded in the recording means 7 and records the control file in the recording means 7.
That is, the content information file processing unit 6 records the time axis information held by the content based on the content output from the content DB 1 and the recording position information of the content output from the recording unit 7. Information indicating the address relationship of the content recorded in the means 7 is generated, converted into data, and output as a control file.
For example, as shown in FIG. 6, TM_ENT #j indicating a time axis reference of the content is pointed at equal time axis intervals to a recording media address indicating a recording position of the content. For example, TM_ENT #j points to the recording media address every 1 second (30 frames in the case of the NTSC signal).
By performing the mapping as described above, the recording address of the recording unit 7 can be uniquely obtained from TM_ENT #j even if the content is distributedly recorded in units of one second. Further, as described above with reference to FIG. 4, the metadata file includes a reference time (TM_ENT (second)) every second from the start of the file, the number of frame offsets from the reference time (TM_OFFSET), a time code, , And metadata are recorded in the TEXT format.
Therefore, if the metadata 1 is specified in the metadata file, the time code, the reference time, and the frame offset value are known, so that the recording position in the recording means 7 can be immediately known from the control file shown in FIG. Will be.
Here, an example has been described in which the isochronous axis interval of the TM_ENTj is, for example, a point every one second, but it can also be described in accordance with a GOP unit used in MPEG2 compression or the like.
Further, since the vertical synchronization signal is 60 / 1.001 Hz in NTSC of the television vision signal, the time code adjusted to the drop frame mode and the vertical synchronization signal (60 / 1.001 Hz) are adjusted to match the absolute time. Use two types of combined non-drop timecode. In this case, the non-drop time code can be represented by TM_ENT #j, and the TC_ENT #j can be represented by a time code corresponding to a drop frame.
Further, the control file can be converted into data using an existing language such as SMIL2. Further, if the function of SMIL2 is used, the related contents and the file name of the metadata file are also combined. And store it in a control file.
Further, FIG. 6 shows a configuration in which the recording address of the recording means is directly displayed. However, instead of the recording address, the data capacity from the beginning of the content file to the time code is displayed, and the data capacity and the recording address of the file system are displayed. Then, the recording address of the time code in the recording means may be calculated and detected.
Further, in the present embodiment, the description has been given of the format in which the correspondence table between TM_ENTj and the time code is stored in the metadata file. However, the same effect can be obtained by storing the correspondence table between TM_ENTj and the time code in the control file. .
(Embodiment 3)
Next, a third embodiment will be described.
[0014]
In the third embodiment, a search unit 8 is added to the second embodiment as shown in FIG. The search means 8 selects and sets a keyword of the scene to be searched from the same dictionary DB4 used for detecting the metadata by voice recognition.
Next, the search means 8 searches the metadata items of the metadata file and displays a list of title names and content scene positions (time codes) that match the keyword.
[0015]
Next, when one specific scene is set from the list, if the reference time (TM_ENT (second)) of the metadata file and the number of frame offsets (TM_OFFSET), the recording media address in the control file is determined. Is automatically detected and set in the recording means 7, and the content scene recorded at the recording media address from the recording means 7 is reproduced on the monitor 11. With the configuration described above, it is possible to provide an apparatus that can detect a scene to be viewed immediately upon detecting metadata.
If a thumbnail file linked to the content is prepared, a representative thumbnail image of the content can be reproduced and displayed when displaying a list of content names that match the keyword described above.
(Embodiment 4)
Next, another embodiment will be described.
In the first to third embodiments, a system for adding metadata to pre-recorded content has been described. However, the present invention relates to a system for adding metadata at the time of shooting, such as a camera, and particularly, the content is limited in advance. It can be extended to a system that takes a landscape or a shooting position as metadata.
FIG. 6 shows the configuration of this system as a fourth embodiment.
At the same time that the camera 51 captures an image and the video content is recorded in the content DB 54, the location where the camera is capturing is detected by the GPS 52, and the position information (longitude and latitude values) output from the GPS 52 is output by the The position information converted into an audio signal is also recorded on another audio channel. In this case, the camera with recording means 50, the camera 51, the GPS 52, the voice synthesis 53, and the content DB 54 may be integrally configured.
Next, the content DB 54 inputs the position information of the audio signal recorded in the audio channel to the audio recognition means 56.
Here, the area names, landmarks and the like of the dictionary DB 55 are selected and restricted from the terminal 105 by a key input board or the like, and output to the voice recognition means 56.
The voice recognition means 56 detects a region name and a landmark using the recognized background numerical value and the data of the dictionary DB 55, and outputs it to the file processing means 57.
Next, the file processing unit 57 TEXT-converts the time code output from the content DB 54 and the area name and landmark output from the voice recognition unit 56 as metadata to generate a metadata file.
Next, the recording unit 58 records the metadata file output from the file processing unit 57 and the content data output from the content DB 54.
With this configuration, it is possible to automatically add the metadata of the area name and the landmark to each captured scene.
[0016]
In each of the above embodiments, generally, there is a possibility that some erroneous recognition will occur in the speech recognition. When erroneous recognition occurs, the produced metadata and tags can be corrected using information processing means such as computer means.
[0017]
In addition, the speech recognition unit according to the present invention employs a word recognition method that performs speech recognition in units of words, and particularly improves the speech recognition rate by limiting the number of words in speech input and the number of words in a recognition dictionary to be used. be able to.
[0018]
Further, in the present invention, the configuration in which the keyword recognized by the voice recognition unit is filed together with the time code in the metadata file is described. However, in addition to the keyword recognized by the voice recognition unit, the related keyword is added and filed. Is also good.
[0019]
For example, when the Yodogawa is recognized by voice, a file with general attribute keywords such as topography and river is also added. By doing so, at the time of searching, keywords such as added terrain and river can be used, so that searchability can be improved.
[0020]
【The invention's effect】
As described above, according to the present invention, in creating or tagging metadata related to content, a keyword extracted in advance from a scenario or the like of the created content is input as an audio signal, and based on the scenario. Since the dictionary fields are set and keywords are prioritized, metadata can be efficiently and accurately generated from the voice recognition means.
In particular, it is difficult to input metadata at intervals of several seconds, but it is difficult to input metadata by using key input. Can be given.
In addition, by using the control file and the metadata indicating the recording position of the content, and the metadata file indicating the time code and the like, a uniquely required scene is searched for from the meta keyword, and Can be played.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a metadata production device according to Embodiment 1 of the present invention. FIG. 2 is a configuration diagram illustrating an example of a dictionary DB according to the present invention. FIG. 3 is an example of a scenario according to the present invention. FIG. 4 is a TEXT format data diagram showing an example of a metadata file according to the present invention. FIG. 5 is a block diagram showing a configuration of a metadata search device according to Embodiment 2 of the present invention. FIG. 7 is a configuration diagram showing an example of an information file of the present invention. FIG. 7 is a block diagram showing a configuration of a metadata search device according to a third embodiment of the present invention. FIG. 8 is a metadata production according to a fourth embodiment of the present invention. Block diagram showing the configuration of the device.
1 Content DB
2 input means 3 voice recognition means 4 dictionary DB4
5 File processing means 6 Content information file processing means 7 Recording means 11 Video monitor 50 Camera with recording device 51 Camera 52 GPS
53 Voice synthesis means 54 Content DB
55 Dictionary DB
56 voice recognition means 57 file processing means 58 recording means 101 voice input terminal 102 dictionary field selection input terminal 105 dictionary place name selection input terminal

Claims (8)

コンテンツに関連するメタデータの制作装置であって、
制作されたコンテンツに合わせて制作されたシナリオ、或いは前記コンテンツの内容から抽出されたコンテンツ管理用キーワードの音声信号を入力し、前記音声信号をデータ化する入力手段と、
前記入力手段でデータ化された音声信号データから、キーワードを認識する音声認識手段と、
前記音声認識手段から出力されたキーワードを、コンテンツに含まれる画像信号との時間位置を示すタイムコードと共にメタデータファイルに記憶するファイル処理手段とを具備することを特徴とするメタデータ制作装置。
An apparatus for producing metadata related to content,
Input means for inputting a voice signal of a content management keyword extracted from a scenario or the content of the content created according to the generated content, and converting the voice signal into data;
Voice recognition means for recognizing a keyword from voice signal data digitized by the input means;
A metadata processing apparatus comprising: a file processing unit that stores a keyword output from the voice recognition unit in a metadata file together with a time code indicating a time position with respect to an image signal included in content.
前記音声認識手段は、ジャンル別辞書を複数用意し、コンテンツに適合したジャンルの辞書を選択することを特徴とする請求項1記載のメタデータ制作装置。2. The metadata producing apparatus according to claim 1, wherein the voice recognition unit prepares a plurality of dictionaries for each genre and selects a dictionary of a genre suitable for the content. 前記音声認識手段は、ジャンル別辞書を複数用意し、コンテンツに適合したジャンルの辞書を選択し、さらに、前記シナリオ、或いはコンテンツの内容から抽出したキーワードを優先認識するようにしたことを特徴とする請求項1または2に記載のメタデータ制作装置。The voice recognition means prepares a plurality of dictionaries for each genre, selects a dictionary of a genre suitable for the content, and further preferentially recognizes a keyword extracted from the scenario or the content of the content. The metadata production device according to claim 1. コンテンツに関連するメタデータの制作装置であって、
制作されたコンテンツにナレーションの音声信号を入力し、前記音声信号をデータ化する入力手段と、
ジャンル別辞書を複数用意し、コンテンツに適合したジャンルの辞書を選択するとともに、前記コンテンツのシナリオ、或いは前記コンテンツの内容から抽出したキーワードを優先認識するように設定し、前記入力装置でデータ化された音声信号データから、キーワードを認識する音声認識手段と、
前記音声認識手段から出力されたキーワードを、コンテンツに含まれる画像信号との時間位置を示すタイムコードと共に、メタデータファイルに記憶するファイル処理手段とを具備することを特徴とするメタデータ制作装置。
An apparatus for producing metadata related to content,
Input means for inputting a voice signal of a narration to the produced content, and converting the voice signal into data.
A plurality of dictionaries for each genre are prepared, a dictionary of a genre suitable for the content is selected, and a scenario of the content or a keyword extracted from the content of the content is set to be preferentially recognized. Voice recognition means for recognizing a keyword from the voice signal data,
A metadata processing apparatus comprising: a file processing unit that stores a keyword output from the voice recognition unit in a metadata file together with a time code indicating a time position with respect to an image signal included in content.
コンテンツに関連するメタデータの検索装置であって、
制作されたコンテンツに合わせて制作されたシナリオ、或いは前記コンテンツの内容から抽出されたコンテンツ管理用キーワードの音声信号を入力し、前記音声信号をデータ化する入力手段と、
前記入力手段でデータ化された音声信号データから、キーワードを認識する音声認識手段と、
前記音声認識手段から出力されたキーワードを、コンテンツに含まれる画像信号との時間位置を示すタイムコードと共にメタデータファイルに記憶するファイル処理手段と、
前記コンテンツファイルの記録位置と前記メタデータファイルの関係を管理する制御ファイルを発生させるコンテンツ情報ファイル処理手段と、
前記コンテンツファイルと、前記メタデータファイルと、前記制御ファイルとを記録する記録手段とを具備したことを特徴とするメタデータ検索装置。
A search device for metadata related to content,
Input means for inputting a voice signal of a content management keyword extracted from a scenario or the content of the content created according to the generated content, and converting the voice signal into data;
Voice recognition means for recognizing a keyword from voice signal data digitized by the input means;
File processing means for storing the keyword output from the voice recognition means in a metadata file together with a time code indicating a time position with respect to an image signal included in the content,
Content information file processing means for generating a control file for managing the relationship between the recording position of the content file and the metadata file,
A metadata search device comprising: a recording unit that records the content file, the metadata file, and the control file.
前記コンテンツ情報ファイル処理手段から出力される制御ファイルは、コンテンツの記録時間に合わせた記録手段の前記コンテンツ記録位置を明記するテーブルとし、前記タイムコードから前記コンテンツの記録位置を検索できるようにしたことを特徴とする請求項5記載のメタデータ検索装置。The control file output from the content information file processing unit is a table that specifies the content recording position of the recording unit according to the recording time of the content, and the recording position of the content can be searched from the time code. The metadata search device according to claim 5, wherein: 前記音声認識手段は、ジャンル別辞書を複数用意し、コンテンツに適合したジャンルの辞書を選択し、さらに、前記シナリオ、或いは前記コンテンツの内容から抽出したキーワードを優先認識するようにしたことを特徴とする請求項5または6に記載のメタデータ検索装置。The voice recognition means prepares a plurality of genre-specific dictionaries, selects a dictionary of a genre suitable for the content, and further preferentially recognizes the scenario or a keyword extracted from the content of the content. 7. The metadata search device according to claim 5, wherein コンテンツに関連するメタデータの検索装置であって、
制作されたコンテンツに合わせて制作されたシナリオ、或いは前記コンテンツの内容から抽出されたコンテンツ管理用キーワードの音声信号を入力し、前記音声信号をデータ化する入力手段と、
ジャンル別辞書を複数用意し、コンテンツに適合したジャンルの辞書を選択し、前記入力手段でデータ化された音声信号データから、キーワードを認識する音声認識手段と、
前記音声認識手段から出力されたキーワードを、コンテンツに含まれる画像信号との時間位置を示すタイムコード共にメタデータファイルに記憶するファイル処理手段と、
前記コンテンツファイルの記録位置と前記メタデータファイルの関係を管理する制御ファイルを発生させるコンテンツ情報ファイル処理手段と、
前記コンテンツファイルと、前記メタデータファイルと、前記制御ファイルとを一緒に記録する記録手段と、
前記音声認識手段で用いた共通辞書からキーワードを選定し、前記選定したキーワードが記録されている前記メタデータファイルを特定し、前記記録手段に記録されているコンテンツの中から、検索したいコンテンツを検索し、前記制御ファイルから検索したいシーンの記録位置を検索する検索手段とを具備し、
コンテンツ管理用メタデータを自動発生し、前記メタデータから前記記録手段に記録されたコンテンツファイルの記録位置を特定することを特徴とするメタデータ制作装置及び検索装置。
A search device for metadata related to content,
Input means for inputting a voice signal of a content management keyword extracted from a scenario or the content of the content created according to the generated content, and converting the voice signal into data;
A plurality of dictionaries for each genre are prepared, a dictionary of a genre suitable for the content is selected, and voice recognition means for recognizing a keyword from the voice signal data digitized by the input means,
File processing means for storing a keyword output from the voice recognition means in a metadata file together with a time code indicating a time position with respect to an image signal included in the content;
Content information file processing means for generating a control file that manages the relationship between the recording position of the content file and the metadata file,
Recording means for recording the content file, the metadata file, and the control file together,
A keyword is selected from the common dictionary used by the voice recognition unit, the metadata file in which the selected keyword is recorded is specified, and a content to be searched is searched for from contents recorded in the recording unit. And a search unit for searching a recording position of a scene to be searched from the control file,
A metadata production apparatus and a retrieval apparatus, wherein content management metadata is automatically generated, and a recording position of a content file recorded in the recording means is specified from the metadata.
JP2002319756A 2002-06-24 2002-11-01 Metadata production device and search device Expired - Fee Related JP3781715B2 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2002319756A JP3781715B2 (en) 2002-11-01 2002-11-01 Metadata production device and search device
EP03733537A EP1536638A4 (en) 2002-06-24 2003-06-23 Metadata preparing device, preparing method therefor and retrieving device
PCT/JP2003/007908 WO2004002144A1 (en) 2002-06-24 2003-06-23 Metadata preparing device, preparing method therefor and retrieving device
CN038149028A CN1663249A (en) 2002-06-24 2003-06-23 Metadata preparing device, preparing method therefor and retrieving device
US10/519,089 US20050228665A1 (en) 2002-06-24 2003-06-23 Metadata preparing device, preparing method therefor and retrieving device
MXPA04012865A MXPA04012865A (en) 2002-06-24 2003-06-23 Metadata preparing device, preparing method therefor and retrieving device.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002319756A JP3781715B2 (en) 2002-11-01 2002-11-01 Metadata production device and search device

Publications (2)

Publication Number Publication Date
JP2004153764A true JP2004153764A (en) 2004-05-27
JP3781715B2 JP3781715B2 (en) 2006-05-31

Family

ID=32462517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002319756A Expired - Fee Related JP3781715B2 (en) 2002-06-24 2002-11-01 Metadata production device and search device

Country Status (1)

Country Link
JP (1) JP3781715B2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052626A (en) * 2005-08-18 2007-03-01 Matsushita Electric Ind Co Ltd Metadata input device and content processor
JP2007101945A (en) * 2005-10-05 2007-04-19 Fujifilm Corp Apparatus, method, and program for processing video data with audio
WO2007108458A1 (en) * 2006-03-23 2007-09-27 Matsushita Electric Industrial Co., Ltd. Content imaging apparatus
JP2010021638A (en) * 2008-07-08 2010-01-28 Denso It Laboratory Inc Device and method for adding tag information, and computer program
JP2010267292A (en) * 2004-06-22 2010-11-25 Digimarc Corp Digital asset management, targeted searching and desktop searching using digital watermark
US7945439B2 (en) 2006-06-09 2011-05-17 Sony Corporation Information processing apparatus, information processing method, and computer program
US8208792B2 (en) 2006-09-12 2012-06-26 Panasonic Corporation Content shooting apparatus for generating scene representation metadata
WO2015162645A1 (en) * 2014-04-25 2015-10-29 パナソニックIpマネジメント株式会社 Audio processing apparatus, audio processing system, and audio processing method
JPWO2015151130A1 (en) * 2014-03-31 2017-04-13 パナソニックIpマネジメント株式会社 Audio processing method, audio processing system, and storage medium
US10182280B2 (en) 2014-04-23 2019-01-15 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
JP7100863B1 (en) * 2021-12-12 2022-07-14 ナカシャ クリエイテブ株式会社 Video processing device, video processing method, program

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4960121B2 (en) * 2007-03-12 2012-06-27 パナソニック株式会社 Content shooting device
JP4667411B2 (en) * 2007-03-12 2011-04-13 パナソニック株式会社 Content shooting device
WO2008111308A1 (en) * 2007-03-12 2008-09-18 Panasonic Corporation Content imaging device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07184160A (en) * 1993-12-24 1995-07-21 Canon Inc Device for processing picture data and audio data
JPH09130736A (en) * 1995-11-02 1997-05-16 Sony Corp Image pickup device and edit device
JPH09149365A (en) * 1995-11-20 1997-06-06 Ricoh Co Ltd Digital still video camera
JP2000020086A (en) * 1998-07-01 2000-01-21 Denso Corp Speech recognition apparatus, navigation system using this aperture and vending system
JP2002108892A (en) * 2000-09-29 2002-04-12 Canon Inc Data management system, data management method and recording medium
JP2002171481A (en) * 2000-12-04 2002-06-14 Ricoh Co Ltd Video processing apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07184160A (en) * 1993-12-24 1995-07-21 Canon Inc Device for processing picture data and audio data
JPH09130736A (en) * 1995-11-02 1997-05-16 Sony Corp Image pickup device and edit device
JPH09149365A (en) * 1995-11-20 1997-06-06 Ricoh Co Ltd Digital still video camera
JP2000020086A (en) * 1998-07-01 2000-01-21 Denso Corp Speech recognition apparatus, navigation system using this aperture and vending system
JP2002108892A (en) * 2000-09-29 2002-04-12 Canon Inc Data management system, data management method and recording medium
JP2002171481A (en) * 2000-12-04 2002-06-14 Ricoh Co Ltd Video processing apparatus

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010267292A (en) * 2004-06-22 2010-11-25 Digimarc Corp Digital asset management, targeted searching and desktop searching using digital watermark
JP2007052626A (en) * 2005-08-18 2007-03-01 Matsushita Electric Ind Co Ltd Metadata input device and content processor
JP2007101945A (en) * 2005-10-05 2007-04-19 Fujifilm Corp Apparatus, method, and program for processing video data with audio
JP4976378B2 (en) * 2006-03-23 2012-07-18 パナソニック株式会社 Content shooting device
WO2007108458A1 (en) * 2006-03-23 2007-09-27 Matsushita Electric Industrial Co., Ltd. Content imaging apparatus
US7945439B2 (en) 2006-06-09 2011-05-17 Sony Corporation Information processing apparatus, information processing method, and computer program
US8208792B2 (en) 2006-09-12 2012-06-26 Panasonic Corporation Content shooting apparatus for generating scene representation metadata
JP2010021638A (en) * 2008-07-08 2010-01-28 Denso It Laboratory Inc Device and method for adding tag information, and computer program
JPWO2015151130A1 (en) * 2014-03-31 2017-04-13 パナソニックIpマネジメント株式会社 Audio processing method, audio processing system, and storage medium
US10182280B2 (en) 2014-04-23 2019-01-15 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
WO2015162645A1 (en) * 2014-04-25 2015-10-29 パナソニックIpマネジメント株式会社 Audio processing apparatus, audio processing system, and audio processing method
JPWO2015162645A1 (en) * 2014-04-25 2017-04-13 パナソニックIpマネジメント株式会社 Audio processing method, audio processing system, and storage medium
JP7100863B1 (en) * 2021-12-12 2022-07-14 ナカシャ クリエイテブ株式会社 Video processing device, video processing method, program

Also Published As

Publication number Publication date
JP3781715B2 (en) 2006-05-31

Similar Documents

Publication Publication Date Title
US20050228665A1 (en) Metadata preparing device, preparing method therefor and retrieving device
TWI317937B (en) Storage medium including metadata and reproduction apparatus and method therefor
JP2007082088A (en) Contents and meta data recording and reproducing device and contents processing device and program
CN1998050A (en) Method and apparatus for playing multimedia play list and storing media therefor
KR20090125292A (en) Method and apparatus for annotating video content with metadata generated using speech recognition technology
JP3781715B2 (en) Metadata production device and search device
JPWO2007000949A1 (en) Method and apparatus for reproducing content with reproduction start position control
US8255395B2 (en) Multimedia data recording method and apparatus for automatically generating/updating metadata
JP2010161722A (en) Data processing apparatus and method, and program
JP2003330777A (en) Data file reproduction device, recording medium, data file recording device, data file recording program
JP2008205745A (en) Image reproducing device and method
JP2005293339A (en) Information processor and information processing method
JP2005005810A (en) Media data management method, disk recording apparatus, disk player, media data management system, computer program, and computer-readable recording medium
US7444068B2 (en) System and method of manual indexing of image data
JP2009283020A (en) Recording apparatus, reproducing apparatus, and program
JP4016424B2 (en) Moving picture editing apparatus and moving picture editing method
JP4230402B2 (en) Thumbnail image extraction method, apparatus, and program
US7873637B2 (en) Automatically imparting an index by using various kinds of control signals
JP2006332765A (en) Contents searching/reproducing method, contents searching/reproducing apparatus, and program and recording medium
JP2004171053A (en) Data processor
JP2005339138A (en) Database for retrieval, its manufacturing method, computer-readable recording medium for recording program of method for manufacturing database for retrieval, retrieving method and computer-readable recording medium for recording program of its retrieving method
KR20090078198A (en) Apparatus for processing moving image ancillary information using script and method thereof
JP4280975B2 (en) Data recording control device and method, data reproducing device and method, and program
JP2002324071A (en) System and method for contents searching
JP2007329605A (en) Reproducing apparatus and line searching method

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050705

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20050705

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20050728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060307

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110317

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110317

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120317

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130317

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140317

Year of fee payment: 8

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees