JP2007140199A - メタデータ制作装置 - Google Patents
メタデータ制作装置 Download PDFInfo
- Publication number
- JP2007140199A JP2007140199A JP2005334604A JP2005334604A JP2007140199A JP 2007140199 A JP2007140199 A JP 2007140199A JP 2005334604 A JP2005334604 A JP 2005334604A JP 2005334604 A JP2005334604 A JP 2005334604A JP 2007140199 A JP2007140199 A JP 2007140199A
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- content
- input
- video
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
【課題】本発明は、映像・音声コンテンツに関連する詳細なキーワードデータを確実かつ簡単な操作で作成し、キーワード検索できる数多くのメタデータを的確かつ短時間で作成するメタデータ作成装置を提供する。
【解決手段】重要なキーワードデータはスイッチ手段8およびデータ発生手段9を用いて作成し、他のキーワードデータは音声で入力したキーワードの音声信号を音声認識手段5でキーワードデータに変換して作成することによって、キーワードで検索できる数多くのメタデータを的確かつ短時間で作成することを実現させた。
【選択図】図1
【解決手段】重要なキーワードデータはスイッチ手段8およびデータ発生手段9を用いて作成し、他のキーワードデータは音声で入力したキーワードの音声信号を音声認識手段5でキーワードデータに変換して作成することによって、キーワードで検索できる数多くのメタデータを的確かつ短時間で作成することを実現させた。
【選択図】図1
Description
本発明は、コンテンツ制作におけるメタデータ制作システム及び方法に関する
ものである。
ものである。
近年、映像・音声コンテンツ(以下、略してコンテンツとも言う)の制作において、これらコンテンツに関連したメタデータの付与することが行われている。
しかしながら、上記メタデータの付与は、制作された映像・音声コンテンツのシナリオあるいはナレーション原稿をもとに制作された映像・音声コンテンツを再生しながらメタデータとすべき情報を確認し、手作業でコンピュータ入力することにより制作する方法が一般的であり、相当な労力の必要な方法であった。
具体的には、映像素材のVTRを、手動で再生、停止を繰り返して、映像の開始時間情報、映像内容、映像の終了時間情報などを記載した一覧表を作成。その一覧表をタグ情報一覧表として、編集もしくは映像情報管理機材に情報を入力していた。これら作業の全てが手動で行われる為、平均作業時間は元素材の尺の5〜10倍の時間を必要とされていた。
そこで、キーワード作成の作業量を低減するために、コンテンツに含まれている音声を音声認識方法で認識し、認識された音声からキーワードを自動的に作成する方法が提案されている(特許文献1参照)。
特開平09−130736号公報
本願発明は、上記従来の問題点に係る課題を解決することを目的とするものであって、制作された映像・音声コンテンツを再生することによりメタデータとすべき情報を確認し、音声入力及びゲームパッドや、テンキー、キーパッドなどスイッチ手段を用いたデータ入力手段でコンピュータに入力することにより、制作するシステム及び方法を提供することを目的とする。
上記課題を解決するために本願発明は、製作されたコンテンツの再生手段、上記再生手段で再生された映像信号を表示する映像モニタ手段、上記再生手段で再生された音声信号をモニタする音声モニタ手段、上記映像モニタ手段および上記音声モニタ手段でオペレータが確認した制作すべきメタデータ内容をオペレータの発声によりマイクで収録する音声入力手段、上記音声入力手段により入力された音声信号を認識する音声認識手段、ゲームパッドやテンキー、キーパッドの各ボタン、キーを押すスイッチ手段と上記スイッチ手段により作動するデータ発生手段、上記音声認識手段で認識された音声情報とスイッチ手段、データ発生手段で得られた出力情報をメタデータに変換することによりメタデータを生成するメタデータ制作手段、および上記コンテンツと上記メタデータとを関連付けるため、上記コンテンツに付与されているタイムコード情報と上記メタデータとを入力しタイムコ−ド付メタデータとするタイムコード付与手段とを備えたものである。
これにより、従来キーボードで入力し、制作していたメタデータを、音声認識及びゲームパッド、テンキーやキーパッドなどの入力機器を用いて入力し、自動的にタイムコードつきのメタデータを制作することが可能となる
本発明は、コンテンツに関連したメタデータの作成あるいはタグ付けを行うに当たり、音声入力による音声認識とスイッチ入力を組み合わせて用い、且つ、上記メタデータあるいはタグとコンテンツとの時間あるいはシーンとの関連付けを行うため、従来のようなキーボード入力より、効率的に、メタデータの作成やタグ付けを実施することが出来る。
本発明の請求項1に係る発明は、コンテンツに関連するメタデータの制作装置であって、音声入力手段と、音声認識手段と、スイッチ手段と、データ発生手段とメタデータ制作手段とを具備し、上記コンテンツに関連した情報を上記音声入力手段およびスイッチ手段により入力し、上記入力された音声信号を音声認識手段で認識したデータ、スイッチ手段により作動せられたデータ発生手段の出力データおよびコンテンツ自体の時間軸情報とを、上記メタデータ制作手段において組み合わせることにより、メタデータを制作することを特徴とするメタデータ制作装置である。
本発明の請求項2に係る発明は、上記コンテンツ自体の時間軸情報として、コンテンツに付与されているタイムコード情報を用いることを特徴とする請求項1に記載のメタデータ制作装置である。
本発明の請求項3に係る発明は、上記コンテンツ自体の時間軸情報として、コンテンツに付与されているいわゆる時間情報を用いることを特徴とする請求項1に記載のメタデータ制作装置である。
本発明の請求項4に係る発明は、上記コンテンツ自体の時間軸情報として、コンテンツに付与されているコンテンツの番地あるいは番号あるいはフレームナンバーを用いることを特徴とする請求項1に記載のメタデータ制作装置である。
以下、本発明の実施の形態について図面を用いて説明する。
(実施の形態1)
図1は、本発明の実施の形態1によるメタデータ制作装置の構成を示すブロック図である。図1において、1はコンテンツ再生手段、2は映像モニタ手段、3は音声モニタ手段、4は音声入力手段(マイク)、5は音声認識手段、6は辞書、7はメタデータ制作手段、8はスイッチ手段(ゲームパッド)、9はデータ発生手段である。
図1は、本発明の実施の形態1によるメタデータ制作装置の構成を示すブロック図である。図1において、1はコンテンツ再生手段、2は映像モニタ手段、3は音声モニタ手段、4は音声入力手段(マイク)、5は音声認識手段、6は辞書、7はメタデータ制作手段、8はスイッチ手段(ゲームパッド)、9はデータ発生手段である。
コンテンツ再生手段1は、たとえばVTR(あるいはハードディスクで構成された映像・音声信号再生装置、あるいは半導体メモリなどのメモリ手段を記録媒体とする映像・音声信号再生装置、あるいは光学記録式または磁気記録式などの回転型ディスクで構成された映像・音声信号再生装置、さらには伝送されてきたあるいは放送されてきた映像・音声信号を復調する映像・音声再生装置などのコンテンツ復調手段)である。上記コンテンツ再生手段1は、映像信号出力端子101、音声信号出力端子102およびタイムコード出力端子103を具備し、再生された映像信号は端子101および201を介して、映像モニタ手段2に供給され、再生された音声信号は端子102および301を介して、音声モニタ3に供給され、再生されたタイムコードは端子103および701を介してメタデータ制作手段7に供給される。
メタデータを制作する制作者(図示せず)は、映像モニタ手段2と音声モニタ手段3のいずれかあるいは両方を確認しながら、場合によればシナリオまたはナレーション原稿なども参照しながら、入力すべきメタデータの発声およびスイッチ入力を行う。
音声入力手段4は、上記制作者の発声を受付、音声信号に変換して、音声認識手段5に供給する。また、必要に応じて、音声認識用の辞書6も、音声認識手段5に供給される。音声認識手段5で認識された、音声データはメタデータ制作手段7に供給され、メタデータあるいはタグに変換される。 一方で制作者は映像の切り替わり点や重要なタグを確実に入力するためにスイッチ手段8で入力を行う。
入力された情報は、あらかじめ各スイッチに登録されたタグ情報を保有するデータ発生手段9を経由して、メタデータ制作手段7に供給され、音声入力手段4同様、メタデータあるいはタグに変換される。メタデータ制作手段7においては更に、制作されたメタデータあるいはタグと、コンテンツ自身の内容と時間関係あるいはシーンとの関係を略略一致させるため、コンテンツ再生手段1から供給されたタイムコードの情報が付与される。
より具体的に説明するため料理説明をする場面を一例として想定する。この場合オペレータが、映像モニタ手段2の表示画面を確認しながら、映像開始時にゲームパッドのスイッチ入力82番を押すと、データ発生手段9にて、映像の開始点を表す"["の情報が生成され、メタデータ制作手段7に渡され"["というタグに変換された後、同メタデータ制作手段7において82番スイッチを入力した時のタイムコード情報(時/分/秒/フレーム)が付与される。続いて音声入力手段(マイク)4を通じて“塩 1さじ”と発声すると、音声認識手段5にて、辞書6を参照しながら、“塩” “1さじ”と認識されメタデータ制作手段7に供給され、各々“塩”、“1さじ”というタグと発声時のタイムコード情報(時/分/秒/フレーム)が付与される。
最後にこの映像が終了した段階で、ゲームパッドのスイッチ入力81番を押すと、データ発生手段9にて、映像の終了点を表す"]"の情報が生成され、メタデータ制作手段7に渡され"]"というタグに変換された後、同メタデータ制作手段7において81番スイッチを入力した時のタイムコード情報(時/分/秒/フレーム)が付与される。同様に、次の映像開始時にゲームパッドのスイッチ入力82番を押し、データ発生手段9にて、次の映像の開始点を表す"["の情報が生成され、メタデータ制作手段7に渡され"["というタグに変換された後、同メタデータ制作手段7において82番スイッチを入力した時のタイムコード情報(時/分/秒/フレーム)が付与される。
続いて音声入力手段(マイク)4を通じて“砂糖 2さじ”と発声すると、音声認識手段5にて、辞書6を参照しながら、“砂糖” “2さじ”と認識されメタデータ制作手段7に供給され、各々“砂糖”、“2さじ”というタグと発声時のタイムコード情報(時/分/秒/フレーム)が付与される。
最後にこの映像が終了した段階で、ゲームパッドのスイッチ入力81番を押すと、データ発生手段9にて、映像の終了点を表す"]"の情報が生成され、メタデータ制作手段7に渡され"]"というタグに変換された後、同メタデータ制作手段7において81番スイッチを入力した時のタイムコード情報(時/分/秒/フレーム)が付与される。以降も同様の手順にてオペレータはタグ付けを行っていく。なお、音声認識としては、上記音声認識手段5に限定されず、一般的に用いられている種々の手段を用いて音声認識し“しお”や“さとう”、“ひとさじ” 、“ふたさじ”とのデータを認識してもよい。
ちなみに上記にて映像開始時点につけられた“[”は映像編集を行うにあたって、映像もしくはクリップの開始点(In点)を表現する記号として、映像分野では広く知られた記号であり、これは映像もしくはクリップの終了点(Out点)を表現する"]"の記号も同様である。
また、ここではゲームパッドのスイッチ入力手段82番と81番を用いて、“[”と“]”の記号を入力したが、これは他のスイッチ入力手段でも同様に各ボタンを用いて入力することが可能である。 例えば、テンキーでは104番、ソフトキーボードでは106番、オリジナルキーパッドでは108番を押して“[”を入力する一方、テンキーの105番、ソフトキーボードの107番、オリジナルキーパッドの109番を押して“]”を入力することが可能である。
なお、一般には、メタデータとは、このようなタグの集合体を意味するものである。メタデータ制作手段7では、コンテンツ再生手段103からの信号をもとに、タイムコードが付与されたタイムコード付与メタデータが生成される。生成されたメタデータは、そのまま出力されても良く、またハードディスク等の記録媒体に蓄積しても良い。
さらに上述した実施例では、コンテンツとしてタイムコードの付与されている動画コンテンツの場合について説明したが、静止画コンテンツあるいは、デジタルデータコンテンツなどの場合には、上記静止画コンテンツあるいはデジタルデータコンテンツを識別するために、動画の場合のタイムコードに相当するコンテンツの番地、番号あるいはフレームナンバーを用いて上記コンテンツと生成された上記メタデータを関連づけてもよい。
なお一般的には、音声認識には何らかの影響で誤認識が生じる可能性がある。誤認識が生じた場合、制作されたメタデータ、タグをコンピュータ手段などの情報処理手段を用いて修正することは可能である一方で、映像の開始、終了点、重要な場面など誤認識が絶対に許されないタグに関しては、ゲームパッド、テンキー、キーパッドなどのボタンに、予め登録して入力することが可能である。
仮に、上記料理映像において、“塩”、“砂糖”、“1さじ”および“2さじ”が重要なキーワードであった場合、ゲームパッド上の83番を“塩”、84番を“砂糖”、85番を“1さじ”、そして86番を“2さじ”と登録することによって、上記4つのキーワードの確実な入力を行うことが出来る。尚、これらの登録は簡単に差し替えが可能であり、ジャンル毎に変更が可能となる。例えば撮影時のタグ付けの場合は、“OK”、“NG”、“KEEP”などが重要なキーワードであり、スポーツの場合は注目選手名以外に各スポーツの重要キーワード(野球の場合は、“ホームラン”、サッカーは“ゴール”、アメリカンフットボールでは“タッチダウン”など)が認識ミスを許されない重要キーワードであるため、それらのキーワードを各ボタンに登録する運用が考えられる。
また、これらの登録可能なボタンは、ゲームパッドに限らず、先にあげたテンキー、ソフトキーボード、オリジナルキーパッドの各ボタンに登録することが可能である。
本発明によるメタデータ作成装置は、映像・音声コンテンツに関連したメタデータの作成装置に適用できる。
1 コンテンツ再生手段
2 映像モニタ手段
3 音声モニタ手段
4 音声入力手段
5 音声認識手段
6 辞書
7 メタデータ制作手段
8 スイッチ手段
9 データ発生手段
101 映像出力端子
102 音声出力端子
103 タイムコード出力端子
201 映像入力端子
301 音声入力端子
701 タイムコード入力端子
81 入力スイッチ1
82 入力スイッチ2
83 入力スイッチ3
84 入力スイッチ4
85 入力スイッチ5
86 入力スイッチ6
2 映像モニタ手段
3 音声モニタ手段
4 音声入力手段
5 音声認識手段
6 辞書
7 メタデータ制作手段
8 スイッチ手段
9 データ発生手段
101 映像出力端子
102 音声出力端子
103 タイムコード出力端子
201 映像入力端子
301 音声入力端子
701 タイムコード入力端子
81 入力スイッチ1
82 入力スイッチ2
83 入力スイッチ3
84 入力スイッチ4
85 入力スイッチ5
86 入力スイッチ6
Claims (4)
- コンテンツに関連するメタデータの制作装置であって、
音声入力手段と、音声認識手段と、スイッチ手段と上記スイッチ手段により作動するデータ発生手段とメタデータ制作手段とを具備し、上記コンテンツに関連した情報を上記音声入力手段およびスイッチ手段により入力し、入力された音声信号を上記音声認識手段にて認識したデータ、スイッチ手段により作動せられたデータ発生手段の出力データおよびコンテンツ自体の時間軸情報とを、上記メタデータ制作手段において組み合わせることにより、メタデータを制作することを特徴とするメタデータ制作装置。 - 上記コンテンツ自体の時間軸情報として、コンテンツに付与されているタイムコード情報を用いることを特徴とする請求項1に記載のメタデータ制作装置。
- 上記コンテンツ自体の時間軸情報として、コンテンツに付与されているいわゆる時間情報を用いることを特徴とする請求項1に記載のメタデータ制作装置。
- 上記コンテンツ自体の時間軸情報として、コンテンツに付与されているコンテンツの番地あるいは番号あるいはフレームナンバーを用いることを特徴とする請求項1に記載のメタデータ制作装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005334604A JP2007140199A (ja) | 2005-11-18 | 2005-11-18 | メタデータ制作装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005334604A JP2007140199A (ja) | 2005-11-18 | 2005-11-18 | メタデータ制作装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007140199A true JP2007140199A (ja) | 2007-06-07 |
Family
ID=38203127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005334604A Withdrawn JP2007140199A (ja) | 2005-11-18 | 2005-11-18 | メタデータ制作装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007140199A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9058375B2 (en) | 2013-10-09 | 2015-06-16 | Smart Screen Networks, Inc. | Systems and methods for adding descriptive metadata to digital content |
-
2005
- 2005-11-18 JP JP2005334604A patent/JP2007140199A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9058375B2 (en) | 2013-10-09 | 2015-06-16 | Smart Screen Networks, Inc. | Systems and methods for adding descriptive metadata to digital content |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100394438C (zh) | 信息处理装置及其方法 | |
JP3615195B2 (ja) | コンテンツ記録再生装置およびコンテンツ編集方法 | |
CN101422041A (zh) | 基于因特网搜索的电视 | |
CN101534407A (zh) | 信息记录装置 | |
JP2006279898A (ja) | 情報処理装置及びその方法 | |
JP3940723B2 (ja) | 対話情報分析装置 | |
JP2004289530A (ja) | 記録再生装置 | |
JP2001309282A (ja) | 放送番組記録方法及び放送番組記録装置及び放送番組記録再生装置 | |
JP2007140199A (ja) | メタデータ制作装置 | |
JP2006339817A (ja) | 情報処理装置およびその表示方法 | |
JP4627717B2 (ja) | ダイジェストシーン情報の入力装置、入力方法、この方法のプログラムおよびこのプログラムを記録した記録媒体 | |
JP2006323943A (ja) | 再生装置,プログラム及び再生制御方法 | |
JP4364850B2 (ja) | オーディオ再生装置 | |
JP7180747B2 (ja) | 編集支援プログラム、編集支援方法、及び編集支援装置 | |
JP2006054517A (ja) | 情報提示装置、方法及びプログラム | |
KR100944958B1 (ko) | 특정 구간의 멀티미디어 데이터 및 캡션 데이터를 제공하는장치 및 서버 | |
JP3927155B2 (ja) | 対話記録装置および対話記録プログラム | |
JP4531546B2 (ja) | 制御信号を利用したインデックス付与システム | |
JP2007174246A (ja) | 映像情報処理方法、映像情報処理プログラム及び映像情報処理装置 | |
JP2003244539A (ja) | 逐次自動字幕制作処理システム | |
JP2006067343A (ja) | メタデータ作成方法及び装置 | |
JP3838147B2 (ja) | 放送素材監視装置 | |
JP2004086124A (ja) | メタデータ制作装置及び制作方法 | |
JP2003223176A (ja) | スピーチ近似データによる字幕用データ作成・編集支援システム | |
TWI284890B (en) | Disk player and method for displaying controlling and data analyzing thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090203 |