JP6688368B1 - Video content structuring device, video content structuring method, and computer program - Google Patents
Video content structuring device, video content structuring method, and computer program Download PDFInfo
- Publication number
- JP6688368B1 JP6688368B1 JP2018212765A JP2018212765A JP6688368B1 JP 6688368 B1 JP6688368 B1 JP 6688368B1 JP 2018212765 A JP2018212765 A JP 2018212765A JP 2018212765 A JP2018212765 A JP 2018212765A JP 6688368 B1 JP6688368 B1 JP 6688368B1
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- video content
- structuring
- unit
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004590 computer program Methods 0.000 title claims abstract description 9
- 230000007423 decrease Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 abstract description 6
- 238000009795 derivation Methods 0.000 description 24
- 238000007796 conventional method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】内容を考慮して階層的に映像コンテンツを構造化することが可能な映像コンテンツ構造化装置、映像コンテンツ構造化方法、及びコンピュータプログラムを提供する。【解決手段】映像コンテンツ構造化装置1は、映像コンテンツをブロック毎に分割するブロック分割部10と、分割されたブロック毎にメタデータを付与するメタデータ付与部20と、付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化部30とを備える。【選択図】図1PROBLEM TO BE SOLVED: To provide a video content structuring device, a video content structuring method, and a computer program capable of hierarchically structuring video contents in consideration of contents. A video content structuring apparatus 1 includes a block dividing unit 10 that divides a video content into blocks, a metadata adding unit 20 that adds metadata to each divided block, and a metadata that is added. And a structuring unit 30 for hierarchically structuring the video content. [Selection diagram] Figure 1
Description
本発明は、映像コンテンツを構造化する映像コンテンツ構造化装置、映像コンテンツ構造化方法、及びコンピュータプログラムに関する。 The present invention relates to a video content structuring apparatus, a video content structuring method, and a computer program for structuring video content.
近年、放送局などにおいては、番組制作環境のファイルベース化が進み、映像コンテンツの効率良い管理がますます重要になってきている。映像編集者が膨大な映像コンテンツの中から、特定のキーワードが含まれるコンテンツを検索し、さらに、そのコンテンツの中から、番組制作に使える映像シーンを探し出すには多大な稼働がかかる。そこで、映像コンテンツの検索を容易にするため、映像コンテンツにメタデータを付与する技術が提案されている(非特許文献1)。しかし、メタデータを人手で付与するには時間がかかるため、自動で付与する技術が研究されている(非特許文献2)。また、映像編集作業を効率化するため、音声/映像信号に基づいて、映像コンテンツをシーンに分割する技術も提案されている(非特許文献3)。 In recent years, in broadcasting stations and the like, the file-based program production environment has been advanced, and efficient management of video contents has become more and more important. It takes a great deal of work for a video editor to search for a content containing a specific keyword from a huge amount of video content, and to search for a video scene that can be used for program production from the content. Therefore, in order to facilitate the search of the video content, a technique of adding metadata to the video content has been proposed (Non-Patent Document 1). However, since it takes time to manually add metadata, a technique for automatically adding metadata has been studied (Non-Patent Document 2). In addition, in order to improve the efficiency of video editing work, a technique of dividing video content into scenes based on audio / video signals has been proposed (Non-Patent Document 3).
しかし、従来技術によれば、内容が連続していても、シーンが分割されてしまう。たとえば、テロップが同じで、内容が連続していても、背景映像が変わると分割されてしまう。具体的には、ロケ番組で、「大阪」のようなテロップが出ていて、その背景映像が数秒おきに切り替わる場合などである。同一人物の話が連続していても、正面からの撮影、横からの撮影というようにカメラカットが変わると分割されてしまう。 However, according to the conventional technique, the scene is divided even if the contents are continuous. For example, even if the telop is the same and the content is continuous, it will be divided when the background image changes. Specifically, there is a case where a telop such as "Osaka" appears in a location program and the background image changes every few seconds. Even if the same person talks continuously, it will be divided if the camera cut changes, such as shooting from the front or shooting from the side.
また、従来技術によれば、一意に分割されてしまうため、確認したいシーンの粒度は映像編集者によって異なることに対応できない。たとえば、図8(a)に示すように、映像コンテンツを複数のブロックB1,B2,B3,B4,B5,…に区切り、図8(b)に示すように、そのメタデータを管理しているものとする。ここで、「食べ物に関するロケシーン(ブロックB1−B3)」が「店の外のシーン(ブロックB1)」と「店の中のシーン(ブロックB2−B3)」で構成されている場合、「店の外のシーン、店の中のシーンをまとめて作業をしたい人(ブロックB1−B3をまとめて1つのシーンとしたい人)」、「店の中のシーンだけを確認したい人(ブロックB2−B3をまとめて1つのシーンとしたい人)」というように、確認したいシーンの粒度は異なる。また、「コーナーの切り替わり(ブロックB4とブロックB5)」で、スタジオキャスターが「前のコーナーのまとめ(ブロックB4)」と「次のコーナーへのつなぎ(ブロックB5)」を連続して話す場合、「キャスターのシーンとしてまとめて作業したい人(ブロックB4−B5をまとめて1つのシーンとしたい人)」、「前のコーナーのまとめのシーン、次のコーナーへのつなぎのシーンを分けて確認したい人(ブロックB4、B5をそれぞれのシーンとしたい人)」というように、確認したいシーンの粒度は異なる。 Further, according to the conventional technique, since the image data is uniquely divided, the granularity of the scene to be confirmed cannot be changed depending on the video editor. For example, as shown in FIG. 8 (a), the video content is divided into a plurality of blocks B1, B2, B3, B4, B5, ... And the metadata thereof is managed as shown in FIG. 8 (b). I shall. Here, when the “location scene related to food (blocks B1 to B3)” is composed of “scene outside the store (block B1)” and “scene inside the store (block B2 to B3)”, "People who want to work outside scenes and scenes inside the store together (people who want to combine blocks B1-B3 into one scene)", "People who want to check only scenes inside the store (blocks B2-B3 People who want to make one scene together) ”, the granularity of the scenes to check is different. Also, in the case of "Switching corners (block B4 and block B5)", when the studio caster talks "Conclusion of previous corner (block B4)" and "Connect to next corner (block B5)" in succession, "Person who wants to work as a caster scene collectively (person who wants to combine blocks B4-B5 into one scene)", "Person who wants to confirm separately the scene of the previous corner and the scene of the connection to the next corner (People who want to use blocks B4 and B5 as their respective scenes) "have different grain sizes of scenes to be confirmed.
本発明は、上述した従来技術に鑑み、内容を考慮して階層的に映像コンテンツを構造化することが可能な映像コンテンツ構造化装置、映像コンテンツ構造化方法、及びコンピュータプログラムを提供することを目的とする。 In view of the above-mentioned conventional technique, the present invention aims to provide a video content structuring apparatus, a video content structuring method, and a computer program capable of hierarchically structuring video content in consideration of the content. And
上記目的を達成するため、第1の態様に係る発明は、映像コンテンツ構造化装置であって、映像コンテンツをブロック毎に分割するブロック分割部と、分割されたブロック毎にメタデータを付与するメタデータ付与部と、付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化部とを備えることを要旨とする。 In order to achieve the above object, the invention according to a first aspect is a video content structuring apparatus, which includes a block division unit for dividing video content into blocks, and a meta data for giving metadata to each divided block. The gist is to include a data adding unit and a structuring unit that hierarchically structures the video content based on the added metadata.
第2の態様に係る発明は、第1の態様に係る発明において、前記メタデータ付与部が、音声認識結果、文字認識結果、画像認識結果のうちの少なくとも1つに基づいてメタデータを導出し、導出したメタデータに対して重みづけを行い、重みづけされたメタデータをブロック毎に統合することを要旨とする。 The invention according to a second aspect is the invention according to the first aspect, wherein the metadata adding section derives metadata based on at least one of a voice recognition result, a character recognition result, and an image recognition result. , The derived metadata is weighted, and the weighted metadata is integrated for each block.
第3の態様に係る発明は、第2の態様に係る発明において、前記メタデータ付与部が、音声認識結果と文字認識結果の両方で導出されたキーワードの重みを大きくすることを要旨とする。 The invention according to a third aspect is characterized in that, in the invention according to the second aspect, the metadata adding unit increases the weight of the keyword derived from both the voice recognition result and the character recognition result.
第4の態様に係る発明は、第2の態様に係る発明において、前記メタデータ付与部が、出現している時間が長いキーワード及びオブジェクトほど重みを大きくする、または、出現している回数が多いキーワード及びオブジェクトほど重みを大きくすることを要旨とする。 The invention according to a fourth aspect is the invention according to the second aspect, wherein the metadata adding unit increases the weight of a keyword and an object that has been appearing for a long time, or has a large number of appearances. The main point is to increase the weight for keywords and objects.
第5の態様に係る発明は、第2から第4のいずれか1つの態様に係る発明において、前記構造化部が、代表ベクトルの単語に対する重みを小さくすることを要旨とする。 A fifth aspect of the invention is based on the invention of any one of the second to fourth aspects, and the gist is that the structuring unit reduces the weight of the word of the representative vector.
第6の態様に係る発明は、第2から第4のいずれか1つの態様に係る発明において、前記構造化部が、階層が深くなるほど、オブジェクトに対する重みを大きし、キーワードに対する重みを小さくすることを要旨とする。 According to a sixth aspect of the invention, in the invention according to any one of the second to fourth aspects, the structuring unit increases the weight for the object and decreases the weight for the keyword as the hierarchy becomes deeper. Is the gist.
第7の態様に係る発明は、映像コンテンツ構造化方法であって、コンピュータが、映像コンテンツをブロック毎に分割するブロック分割ステップと、分割されたブロック毎にメタデータを付与するメタデータ付与ステップと、付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化ステップとを実行することを要旨とする。 An invention according to a seventh aspect is a video content structuring method, comprising: a block dividing step in which a computer divides video content into blocks; and a metadata adding step of adding metadata to each of the divided blocks. , A structuring step of hierarchically structuring the video content based on the added metadata.
第8の態様に係る発明は、コンピュータプログラムであって、第1から第6のいずれか1つの態様に係る映像コンテンツ構造化装置としてコンピュータを機能させるためのものであることを要旨とする。 The gist of the invention according to an eighth aspect is a computer program for causing a computer to function as the video content structuring device according to any one of the first to sixth aspects.
本発明によれば、内容を考慮して階層的に映像コンテンツを構造化することが可能な映像コンテンツ構造化装置、映像コンテンツ構造化方法、及びコンピュータプログラムを提供することが可能である。 According to the present invention, it is possible to provide a video content structuring apparatus, a video content structuring method, and a computer program capable of hierarchically structuring video content in consideration of contents.
以下、図面を用いて本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description of the drawings, the same or similar reference numerals are given to the same or similar parts.
≪全体構成≫
図1は、本発明の実施形態における映像コンテンツ構造化装置1の構成図である。この映像コンテンツ構造化装置1は、映像コンテンツを構造化するコンピュータであって、機能的には、ブロック分割部10と、メタデータ付与部20と、構造化部30とを備える。
<< Overall structure >>
FIG. 1 is a configuration diagram of a video content structuring
ブロック分割部10は、映像コンテンツをブロック毎に分割する。映像コンテンツを細かく分割する技術としては従来技術を用いることができる。たとえば、viaPlatzや、オープンソース等を用いることが考えられる。ブロック分割部10には映像コンテンツが入力され、ブロック分割部10からはブロック分割結果が出力される。
The
メタデータ付与部20は、ブロック分割部10により分割されたブロック毎にメタデータ(キーワード+オブジェクト)を付与する。メタデータは、映像コンテンツについて記述した情報である。メタデータは、映像コンテンツに埋め込む形で存在するものもあるが、ここでは、映像コンテンツとは別に管理されているものとする。メタデータ付与部20にはブロック分割結果が入力され、メタデータ付与部20からはブロック毎のメタデータが出力される。
The
構造化部30は、メタデータ付与部20により付与されたメタデータ(キーワード+オブジェクト)に基づいて階層的に映像コンテンツを構造化する。構造化部30にはブロック毎のメタデータと階層数が入力され、構造化部30からは映像の構造化結果が出力される。階層数は、階層化したい数であり、映像編集者などのユーザにより指定される。
The structuring
以上のように、本発明の実施形態における映像コンテンツ構造化装置1によれば、ブロック毎のメタデータを抽出することができるため、ブロック毎のメタデータ(内容)を考慮して階層的に映像コンテンツを構造化することが可能となる。その結果、内容が連続している区間を統合することが可能となり、また、確認したいシーンの粒度を映像編集者によって変えることも可能となる。
As described above, according to the video content structuring
≪メタデータ付与部≫
図2は、メタデータ付与部20の構成図である。この図に示すように、メタデータ付与部20は、各種認識部21と、メタデータ統合部22とを備える。
<< Metadata adder >>
FIG. 2 is a configuration diagram of the
各種認識部21は、ブロック分割結果に基づいて各種の認識処理を行う機能部であり、音声認識部21Aと、文字認識部21Bと、画像認識部21Cとを備える。音声認識部21Aは、ブロック分割結果に含まれる音声を認識する。文字認識部21Bは、ブロック分割結果に含まれる文字を認識する。画像認識部21Cは、ブロック分割結果に含まれる画像を認識する。このような各種認識部21には、NTT、Google、Azure、Watson等の外部APIを用いることが考えられる。
The
メタデータ統合部22は、各種認識部21による各種認識結果に基づいてブロック毎のメタデータを導出し、導出したメタデータに対して重みづけを行い、重みづけされたメタデータをブロック毎に統合する機能部であり、キーワード導出部22Aと、オブジェクト導出部22Bとを備える。キーワード導出部22Aは、音声認識部21Aによる音声認識結果(キーワード)と文字認識部21Bによる文字認識結果(キーワード)とに基づいて、各キーワードの重みづけを行う。オブジェクト導出部22Bは、画像認識部21Cの画像認識結果(オブジェクト)に基づいて、各オブジェクトの重みづけを行う。
The
≪キーワード導出部≫
図3は、キーワード導出部22Aの動作を示すフローチャートである。以下、図3を用いて、キーワード導出部22Aの機能をその動作とともに説明する。
≪Keyword derivation part≫
FIG. 3 is a flowchart showing the operation of the
まず、キーワード導出部22Aは、音声認識部21Aによる音声認識結果に基づいてキーワードを導出するとともに、文字認識部21Bによる文字認識結果に基づいてキーワードを導出する(ステップS1,S2)。たとえば、NTT corevo キーワード抽出APIや、yahooキーフレーズ抽出API等の外部APIを用いてキーワードを導出することが考えられる。
First, the
次いで、キーワード導出部22Aは、キーワード導出ステップS1,S2で導出された各キーワードに対する重み(a_key)を導出し、各キーワードに対して重みづけを行う(ステップS3)。このとき、キーワード導出ステップS1,S2の両方で導出されたキーワードの重みを大きくすることが考えられる。また、キーワード導出ステップS1,S2の結果を統合し、各キーワードに対し、出現していた時間に基づいて、最も出現時間が長いキーワードの重みを1、最も出現時間が短いキーワードの重みを0.1として、0.1から1の間で規格化することが考えられる。同様に、キーワード導出ステップS1,S2の結果を統合し、各キーワードに対し、出現していた回数に基づいて、最も出現回数が多いキーワードの重みを1、最も出現回数が少ないキーワードの重みを0.1として、0.1から1の間で規格化することが考えられる。
Next, the
最後に、キーワード導出部22Aは、キーワード重みづけステップS3で重みづけされた各キーワードを出力する(ステップS4)。
Finally, the
≪オブジェクト導出部≫
図4は、オブジェクト導出部22Bの動作を示すフローチャートである。以下、図4を用いて、オブジェクト導出部22Bの機能をその動作とともに説明する。
≪Object derivation part≫
FIG. 4 is a flowchart showing the operation of the
まず、オブジェクト導出部22Bは、画像認識部21Cによる画像認識結果に基づいてオブジェクトを導出する(ステップS11)。
First, the
次いで、オブジェクト導出部22Bは、オブジェクト導出ステップS11で導出された各オブジェクトに対する重み(a_obj)を導出し、各オブジェクトに対して重みづけを行う(ステップS12)。このとき、各オブジェクトに対し、出現していた時間に基づいて、最も出現時間が長いオブジェクトの重みを1、最も出現時間が短いオブジェクトの重みを0.1として、0.1から1の間で規格化することが考えられる。同様に、各オブジェクトに対し、出現していた回数に基づいて、最も出現回数が多いオブジェクトの重みを1、最も出現回数が少ないオブジェクトの重みを0.1として、0.1から1の間で規格化することが考えられる。
Next, the
最後に、オブジェクト導出部22Bは、オブジェクト重みづけステップS12で重みづけされた各オブジェクトを出力する(ステップS13)。
Finally, the
≪構造化部≫
図5は、構造化部30の動作を示すフローチャートである。以下、図5を用いて、構造化部30の機能をその動作とともに説明する。
<< Structured Department >>
FIG. 5 is a flowchart showing the operation of the
まず、構造化部30は、階層数Rが入力されると、rankに1を設定する(ステップS21→S22)。階層数Rは、ユーザにより指定される。rankは、階層数を表す変数である。
First, when the number R of layers is input, the
次いで、構造化部30は、メタデータ付与部20からのメタデータ(キーワード+オブジェクト)に基づいてクラスタリングする(ステップS23)。クラスタリングとは、大量のデータから、似ているものを集めて自動的に分類していく技術や手法である。
Next, the
このクラスタリングステップS23には、ブロック毎のメタデータベクトル化ステップと、ブロックのクラスタリングステップとが含まれる。ブロック毎のメタデータベクトル化ステップでは、ブロック毎に、キーワード(key)と各キーワードに対する重み(a_key)、オブジェクト(obj)と各オブジェクトに対する重み(a_obj)を入力とし、word2vec等のベクトル化ツールを用い、ブロック毎の意味ベクトル(S(b))を導出する(bはブロック番号)。ブロックのクラスタリングステップでは、ブロック毎の意味ベクトル(S(b))を入力とし、k-means法等のクラスタリングツールを用い、クラスタリングする。 The clustering step S23 includes a metadata vectorization step for each block and a block clustering step. In the metadata vectorization step for each block, for each block, a keyword (key) and a weight (a_key) for each keyword, an object (obj) and a weight (a_obj) for each object are input, and a vectorization tool such as word2vec is input. A semantic vector (S (b)) for each block is derived by using (b is a block number). In the block clustering step, the semantic vector (S (b)) for each block is input, and clustering is performed using a clustering tool such as the k-means method.
次いで、構造化部30は、代表メタデータを導出する(ステップS24)。この代表メタデータ導出ステップS24では、各クラスタを構成するブロック群の「ブロック毎の意味ベクトル(S(b))」の平均値S(b,c)を導出し(cはクラスタ番号)、各ブロックの代表ベクトルとする。また、word2vec等のベクトル化ツールを用いて、各ブロックの代表ベクトルS(b,c)を単語(W)に変換する。
Next, the
次いで、構造化部30は、階層に分けて構造化するため、重みを更新する(ステップS25)。この重み更新ステップS25では、クラスタ毎に次の処理をすることが考えられる。
Next, the
まず、代表ベクトルの単語Wに対する重み(a_W)を小さくすることが考えられる。たとえば、すでに代表ベクトルとして抽出されたメタデータの影響を除くために、a_W=0とする。 First, it is possible to reduce the weight (a_W) of the representative vector with respect to the word W. For example, a_W = 0 is set in order to remove the influence of the metadata already extracted as the representative vector.
また、オブジェクトは細かく分割するのに役立つため、階層数が増えるにつれて、オブジェクトに対する重み(a_obj)の値を大きくし、キーワードに対する重み(a_key)の値を小さくすることも考えられる。たとえば、以下のように更新する。 Further, since the object is useful for finely dividing, it is possible to increase the value of the weight (a_obj) for the object and decrease the value of the weight (a_key) for the keyword as the number of layers increases. For example, update as follows.
a_obj(rank+1)=α×a_obj(rank)
a_key(rank+1)=(2-α)×a_key(rank)
α=β×exp(rank+γ)
重み更新関数αと階層数rankの関係は、図6に示すように、rankが増えるほど(階層が深くなるほど)、オブジェクトに対する重み(a_obj)の値が大きくなるように定式化する。ここでは、指数関数で定式化しているが、他の数式も考えられる。
a_obj (rank + 1) = α × a_obj (rank)
a_key (rank + 1) = (2-α) × a_key (rank)
α = β × exp (rank + γ)
As shown in FIG. 6, the relationship between the weight update function α and the rank rank is formulated such that the value of the weight (a_obj) for an object increases as the rank increases (the hierarchy becomes deeper). Here, the formula is formulated by an exponential function, but other formulas are also conceivable.
次いで、構造化部30は、rankの値に1を加算し、rankの値が階層数Rに達するまで同様の処理を繰り返す(ステップS26→S27→S23→・・・)。そして、rankの値が階層数Rに達すると、単語(W)を構成化結果とあわせて出力する(ステップS27→S28)。
Next, the
≪構造化結果例≫
図7は、構造化部30による構造化結果の一例を示す図である。ここでは、ユーザに表示するUIイメージを例示している。たとえば、ユーザにより階層数3が指定された場合は、階層1,2,3における各区間の代表メタデータを表示するようになっている。
<< Example of structured result >>
FIG. 7 is a diagram showing an example of the structuring result by the
具体的には、あるロケ番組が「京都の話をしているシーン」「大阪の話をしているシーン」「神戸の話をしているシーン」で構成されているものとする。また、「京都の話をしているシーン」は、「スタジオで話をしているシーン」「寺のシーン」「お茶屋のシーン」で構成されているものとする。このような場合、階層1における区間M11の代表メタデータとして「京都」を表示してもよい。また、階層2における区間M21,M22,M23の代表メタデータとして「スタジオ」「寺」「お茶屋」を表示してもよい。さらに、階層3における区間M31,M32,M33,M34,M35の代表メタデータとして「寺の中のシーン」「寺の外のシーン」などを表示してもよい。
Specifically, it is assumed that a location program is composed of “scenes talking about Kyoto”, “scenes talking about Osaka”, and “scenes talking about Kobe”. Also, the "scene of talking in Kyoto" is assumed to be composed of "scene of talking in the studio", "scene of the temple", and "scene of the teahouse". In such a case, “Kyoto” may be displayed as the representative metadata of the section M11 in the
以上のように、本発明の実施形態における映像コンテンツ構造化装置1によれば、従来技術の分割を基に構造化することで、従来技術では細かく分割してしまっているところを統合して、階層1,2,3のように表示することが可能である。また、階層数はユーザが指定できるため、確認したいシーンの粒度を映像編集者によって変えることが可能である。
As described above, according to the video
≪変形例≫
上記実施形態では、ユーザにより階層数Rが指定されることとしているが、階層数Rの指定は必ずしも必要でない。たとえば、階層を10段階まで構造化できる場合は、一律に階層1から階層10までの全部を構造化結果として出力することも考えられる。
≪Modification≫
In the above embodiment, the number of layers R is specified by the user, but the number of layers R is not necessarily specified. For example, when the hierarchy can be structured up to 10 levels, it is possible to uniformly output all of the
≪他の応用例≫
上記実施形態では、映像編集者が映像シーンを検索する際を想定して記載しているが、一般ユーザが自分の好みの芸能人が出ているシーンだけを検索する等、一般ユーザが利用することも考えられる。たとえば、歌番組に好みの芸能人が出ている場合、従来技術では、オープニングや歌っている箇所、クロージングなど該当の芸能人が登場する箇所に飛び飛びでメタデータが付与されるが、本発明を用いて構造化することで、その芸能人が歌っている箇所だけを見つけやすくすることができる。
≪Other application examples≫
In the above embodiment, the description is made assuming that the video editor searches for the video scene, but the general user searches for only the scene in which the entertainer of his or her preference appears, so that the general user can use it. Can also be considered. For example, when a favorite entertainer appears in a singing program, in the conventional technology, metadata is randomly added to a place where the corresponding entertainer appears such as an opening, a singing place, or a closing, but the present invention is used. By structuring, you can make it easy to find only the part where the entertainer is singing.
≪まとめ≫
以上説明したように、本発明の実施形態における映像コンテンツ構造化装置1は、映像コンテンツをブロック毎に分割するブロック分割部10と、分割されたブロック毎にメタデータを付与するメタデータ付与部20と、付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化部30とを備える。これにより、ブロック毎のメタデータを抽出することができるため、ブロック毎のメタデータ(内容)を考慮して階層的に映像コンテンツを構造化することが可能となる。
≪Summary≫
As described above, the video
また、メタデータ付与部20は、音声認識結果、文字認識結果、画像認識結果のうちの少なくとも1つに基づいてメタデータを導出し、導出したメタデータに対して重みづけを行い、重みづけされたメタデータをブロック毎に統合してもよい。これにより、映像や音声に含まれる特徴を捉えることができるため、ブロック毎の代表的な特徴を抽出することが可能となる。
Further, the
また、メタデータ付与部20は、音声認識結果と文字認識結果の両方で導出されたキーワードの重みを大きくしてもよい。これにより、音声と映像(テロップ)の両方で導出されたキーワードは、そのブロックの特徴を強く表していることを考慮することができる。
Further, the
また、メタデータ付与部20は、出現している時間が長いキーワード及びオブジェクトほど重みを大きくする、または、出現している回数が多いキーワード及びオブジェクトほど重みを大きくしてもよい。これにより、出現している時間が長いキーワード及びオブジェクトほど、そのブロックの特徴を強く表していることを考慮することができる。また、出現している回数が多いキーワード及びオブジェクトほど、そのブロックの特徴を強く表していることを考慮することができる。
In addition, the
また、構造化部30は、代表ベクトルの単語に対する重みを小さくしてもよい。これにより、すでに代表ベクトルになったものが以降も導出される不具合を回避することが可能となる。
Further, the
また、構造化部30は、階層が深くなるほど、オブジェクトに対する重みを大きくし、キーワードに対する重みを小さくしてもよい。これにより、階層が深くなるほど、オブジェクトの方がキーワードよりも代表メタデータとして導出されやすくなる。
The
なお、本発明は、映像コンテンツ構造化装置1として実現することができるだけでなく、映像コンテンツ構造化装置1が備える特徴的な機能部をステップとする映像コンテンツ構造化方法として実現したり、映像コンテンツ構造化装置1としてコンピュータを機能させるためのコンピュータプログラムとして実現したりすることもできる。そして、このようなコンピュータプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。
Note that the present invention can be realized not only as the video
≪その他の実施形態≫
上記のように、本発明の実施形態について記載したが、開示の一部をなす論述および図面は例示的なものであり、限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例および運用技術が明らかとなろう。すなわち、本発明の実施形態は、ここでは記載していない様々な実施形態などを含む。
<< Other Embodiments >>
While embodiments of the present invention have been described above, the discussion and drawings which form a part of the disclosure are to be understood as illustrative and not limiting. From this disclosure, various alternative embodiments, examples and operational techniques will be apparent to those skilled in the art. That is, the embodiments of the present invention include various embodiments not described here.
1 映像コンテンツ構造化装置
10 ブロック分割部
20 メタデータ付与部
21 各種認識部
21A 音声認識部
21B 文字認識部
21C 画像認識部
22 メタデータ統合部
22A キーワード導出部
22B オブジェクト導出部
30 構造化部
DESCRIPTION OF
Claims (7)
分割されたブロック毎にメタデータを付与するメタデータ付与部と、
付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化部と
を備え、
前記メタデータ付与部は、音声認識結果、文字認識結果、画像認識結果のうちの少なくとも1つに基づいてメタデータを導出し、導出したメタデータに対して重みづけを行い、重みづけされたメタデータをブロック毎に統合すること
を特徴とする映像コンテンツ構造化装置。 A block division unit that divides the video content into blocks,
A metadata adding unit that adds metadata to each divided block,
And a structuring unit for hierarchically structuring the video content based on the added metadata ,
The metadata assigning unit derives metadata based on at least one of a voice recognition result, a character recognition result, and an image recognition result, weights the derived metadata, and weights the metadata. A video content structuring device characterized by integrating data for each block .
映像コンテンツをブロック毎に分割するブロック分割ステップと、
分割されたブロック毎にメタデータを付与するメタデータ付与ステップと、
付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化ステップとを実行し、
前記メタデータ付与ステップは、音声認識結果、文字認識結果、画像認識結果のうちの少なくとも1つに基づいてメタデータを導出し、導出したメタデータに対して重みづけを行い、重みづけされたメタデータをブロック毎に統合すること
を特徴とする映像コンテンツ構造化方法。 Computer
A block dividing step of dividing the video content into blocks,
A metadata adding step of adding metadata to each of the divided blocks,
And a structuring step for structuring the video content hierarchically based on the given metadata ,
The metadata applying step derives metadata based on at least one of a voice recognition result, a character recognition result, and an image recognition result, weights the derived metadata, and weights the weighted meta data. A video content structuring method characterized by integrating data for each block .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018212765A JP6688368B1 (en) | 2018-11-13 | 2018-11-13 | Video content structuring device, video content structuring method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018212765A JP6688368B1 (en) | 2018-11-13 | 2018-11-13 | Video content structuring device, video content structuring method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6688368B1 true JP6688368B1 (en) | 2020-04-28 |
JP2020080469A JP2020080469A (en) | 2020-05-28 |
Family
ID=70413837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018212765A Active JP6688368B1 (en) | 2018-11-13 | 2018-11-13 | Video content structuring device, video content structuring method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6688368B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021220596A1 (en) | 2020-04-30 | 2021-11-04 | Agc株式会社 | Windowpane |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003221185A1 (en) * | 2002-04-12 | 2003-10-27 | Mitsubishi Denki Kabushiki Kaisha | Meta data edition device, meta data reproduction device, meta data distribution device, meta data search device, meta data reproduction condition setting device, and meta data distribution method |
JP2004233541A (en) * | 2003-01-29 | 2004-08-19 | Riyuukoku Univ | Highlight scene detection system |
JP2007140198A (en) * | 2005-11-18 | 2007-06-07 | Matsushita Electric Ind Co Ltd | Metadata generating apparatus |
EP2332039A4 (en) * | 2008-08-11 | 2012-12-05 | Collective Inc | Method and system for classifying text |
JP6234408B2 (en) * | 2015-08-24 | 2017-11-22 | 日本電信電話株式会社 | Content information providing device, content display device, data structure of object metadata, data structure of event metadata, content information providing method, content information providing program, and content information providing system |
-
2018
- 2018-11-13 JP JP2018212765A patent/JP6688368B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020080469A (en) | 2020-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005310094A (en) | Keyword extension device and method, content retrieval system, content information providing system and method, and grouping condition determining device, method, and program | |
US20060233063A1 (en) | User terminal and content searching and presentation method | |
WO2006106596A1 (en) | Contents reproducing device, and contents reproducing method | |
US8103150B2 (en) | System and method for video editing based on semantic data | |
JP2011217209A (en) | Electronic apparatus, content recommendation method, and program | |
WO2006046390A1 (en) | Information search device | |
WO2011145249A1 (en) | Audio classification device, method, program and integrated circuit | |
JP2007519053A (en) | System and method for generating a multimedia summary of a multimedia stream | |
JP2007323398A (en) | Information processing apparatus, method and program, and recording medium | |
JP6688368B1 (en) | Video content structuring device, video content structuring method, and computer program | |
JP5611155B2 (en) | Content tagging program, server and terminal | |
Nettamo et al. | A cross-cultural study of mobile music: retrieval, management and consumption | |
KR20080039578A (en) | Smart dynamic browsing method for a mobile devices user | |
JP5250381B2 (en) | Index video generation device, moving image search device, and moving image search system | |
JP6917210B2 (en) | Summary video generator and its program | |
US11722739B2 (en) | Navigating content by relevance | |
US20140006440A1 (en) | Method and apparatus for searching for software applications | |
Matsumoto et al. | Music video recommendation based on link prediction considering local and global structures of a network | |
CN104010063B (en) | The display methods and equipment of mobile terminal audible ringing information | |
JP6882975B2 (en) | Dialogue scenario generator, program and method that can determine the context from the dialogue log group | |
KR20060020624A (en) | Method of searching for media objects | |
JP2020080115A (en) | Thumbnail output device, thumbnail output method, and thumbnail output program | |
Choi et al. | Pansori: ASR corpus generation from open online video contents | |
JP2006139382A (en) | Information processor, its control method, and program | |
KR102156912B1 (en) | Method for providing search service for music included in a motion piture and server using the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200324 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6688368 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |