JP6340675B1 - Object extraction device, object recognition system, and metadata creation system - Google Patents
Object extraction device, object recognition system, and metadata creation system Download PDFInfo
- Publication number
- JP6340675B1 JP6340675B1 JP2017038203A JP2017038203A JP6340675B1 JP 6340675 B1 JP6340675 B1 JP 6340675B1 JP 2017038203 A JP2017038203 A JP 2017038203A JP 2017038203 A JP2017038203 A JP 2017038203A JP 6340675 B1 JP6340675 B1 JP 6340675B1
- Authority
- JP
- Japan
- Prior art keywords
- processing
- feature
- feature point
- frame
- moving image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 151
- 238000009826 distribution Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 43
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 238000006073 displacement reaction Methods 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 10
- 238000010801 machine learning Methods 0.000 description 12
- 238000003860 storage Methods 0.000 description 10
- 230000006872 improvement Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 4
- 241000255925 Diptera Species 0.000 description 3
- 206010047571 Visual impairment Diseases 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
【課題】動画データからオブジェクトを高精度で抽出、認識すると共に、オブジェクト情報の利便性を高めて、動画の利用及び普及の向上を図る。【解決手段】オブジェクト抽出装置は、動画データ21の2次元画像の処理フレーム22に対して、特徴点抽出処理を行って複数の特徴点23を抽出して各特徴点23の2次元画像上の第1特徴量を検出し、深度検出処理を行って各特徴点23の周囲の特徴点23からの相対的な深度を検出し、3次元空間推定処理を行って各特徴点23の第1特徴量及び深度に基づいて処理フレーム22の現実3次元空間26を推定して各特徴点23の現実3次元空間26上の第2特徴量を検出し、各特徴点23の第2特徴量及び色分布に基づいてオブジェクト抽出処理を行って現実3次元空間26上の特徴量を有する2つ以上の特徴点23からなる特徴点群24を検出して候補オブジェクト25として抽出する。【選択図】図2An object of the present invention is to extract and recognize an object from moving image data with high accuracy and improve the convenience of object information to improve the use and spread of moving images. An object extraction device performs a feature point extraction process on a processing frame 22 of a two-dimensional image of moving image data 21 to extract a plurality of feature points 23, and each feature point 23 on the two-dimensional image. A first feature amount is detected, a depth detection process is performed to detect a relative depth from the surrounding feature points 23, and a three-dimensional space estimation process is performed to perform a first feature of each feature point 23. Based on the amount and the depth, the actual three-dimensional space 26 of the processing frame 22 is estimated to detect the second feature amount of each feature point 23 on the actual three-dimensional space 26, and the second feature amount and color of each feature point 23 are detected. An object extraction process is performed based on the distribution to detect a feature point group 24 composed of two or more feature points 23 having a feature amount in the real three-dimensional space 26 and extract them as candidate objects 25. [Selection] Figure 2
Description
本発明は、動画等の画像に表示される人物や物等のオブジェクトを抽出するオブジェクト抽出装置、このオブジェクト抽出装置を用いたオブジェクト認識システム、及びこのオブジェクト認識システムを用いたメタデータ作成システムに関する。 The present invention relates to an object extraction device for extracting an object such as a person or an object displayed on an image such as a moving image, an object recognition system using the object extraction device, and a metadata creation system using the object recognition system.
従来から、インターネット等のネットワークでは、動画サーバや動画データベース等のコンピュータが動画データを格納すると共に、視聴者端末に対して動画データを公開する動画配信が行われている。このような動画配信を促進するために、動画データに関連するメタデータを作成して視聴者に配信する装置やシステムが提案されている。 Conventionally, in a network such as the Internet, a computer such as a moving image server or a moving image database stores moving image data and distributes moving image data to the viewer terminal. In order to promote such moving image distribution, devices and systems for creating metadata related to moving image data and distributing them to viewers have been proposed.
例えば、特許文献1に記載のメタデータ配信装置では、抽出変換テーブルと局固有データを利用してキー局のコンテンツのメタデータから自局でネット放送するネット番組のコンテンツのメタデータを抽出変換し、抽出変換されたメタデータを配信するので、キー局のコンテンツのメタデータを自局のコンテンツのメタデータとして、受信機に配信し、これにより、キー局以外のネット局で、ネット放送するネット番組において、キー局のコンテンツのメタデータを利用し、サーバ型放送を行う。
For example, the metadata distribution apparatus described in
しかしながら、上記したメタデータ配信装置のような装置やシステムでは、放送局が予め動画情報のメタデータを用意しなければ動画情報を提供することができない。そのため、このようなメタデータが用意されていない動画データについては動画情報を提供することができない。 However, in an apparatus or system such as the metadata distribution apparatus described above, video information cannot be provided unless the broadcast station prepares video information metadata in advance. Therefore, moving image information cannot be provided for moving image data for which such metadata is not prepared.
また、動画データには、様々な人物や物等のオブジェクトが登場するため、メタデータには、これらのオブジェクトを特定する情報やこれらのオブジェクトの登場時間帯の情報等を記述することが望まれる。メタデータを作成する作業者は、動画データを視聴して、登場するオブジェクトを確認することで、このようなオブジェクトの特定や登場時間帯の把握をすることができるが、このような作業は作業者に掛かる負担が大きい。そこで、動画データから自動的にオブジェクトを認識する装置やシステムが望まれる。 In addition, since various objects such as people and objects appear in the moving image data, it is desirable to describe information for identifying these objects, information on the appearance times of these objects, and the like in the metadata. . The worker who creates metadata can identify such objects and grasp the appearance time zone by viewing the video data and confirming the objects that appear. The burden on the person is great. Therefore, an apparatus or system that automatically recognizes an object from moving image data is desired.
オブジェクトを認識する装置やシステムでは、例えば、動画データから静止画データを切り出し、静止画データからオブジェクトを抽出して、抽出したオブジェクトを予め用意した学習データと比較することで、オブジェクトを認識する。しかしながら、このような静止画データは、通常、2次元平面画像であるのに対して、実際のオブジェクトは奥行きのある3次元空間で特徴を有していて、様々な角度から撮影される。そのため、2次元平面画像の静止画データからオブジェクトの正確な特徴を抽出することが困難であった。 An apparatus or system that recognizes an object recognizes the object by, for example, extracting still image data from moving image data, extracting an object from still image data, and comparing the extracted object with learning data prepared in advance. However, such still image data is usually a two-dimensional planar image, whereas an actual object has a feature in a three-dimensional space having a depth, and is photographed from various angles. Therefore, it has been difficult to extract an accurate feature of an object from still image data of a two-dimensional planar image.
また、様々な角度から撮影されるオブジェクトのそれぞれに対して学習データを用意する場合には、大量の学習データを格納するために膨大な容量の記憶装置が必要となり、また、膨大な回数の比較処理を行う必要があるため、設備コストや処理工数が増大してしまう。そして、上記のような理由から、オブジェクト認識の精度が低下し、更には、所望のメタデータを生成できないという問題が生じてしまう。また、視聴者の望むメタデータを配信することができないために、動画データの利用及び普及が停滞することがある。 In addition, when preparing learning data for each object photographed from various angles, a large amount of storage device is required to store a large amount of learning data, and a large number of comparisons are made. Since it is necessary to perform processing, the equipment cost and the number of processing steps increase. For the reasons described above, the accuracy of object recognition decreases, and further, there arises a problem that desired metadata cannot be generated. Further, since the metadata desired by the viewer cannot be distributed, the use and dissemination of moving image data may stagnate.
なお、オブジェクトの3次元情報を予め有する動画データからオブジェクト認識をする場合には、オブジェクトを3次元に対応した撮像装置で予め撮影して動画データを生成する必要があり、設備コストが増大してしまう。 When object recognition is performed from moving image data having 3D information of an object in advance, it is necessary to generate moving image data by shooting the object in advance with an imaging device that supports 3D, which increases equipment costs. End up.
そこで、本発明は上記事情を考慮し、動画データに表示されるオブジェクトを高精度で抽出し、高精度で認識すると共に、認識したオブジェクトの情報の利便性を高めて、動画の利用及び普及の向上を図ることを目的とする。 Therefore, in consideration of the above circumstances, the present invention extracts objects displayed in moving image data with high accuracy, recognizes them with high accuracy, and enhances the convenience of information on the recognized objects, thereby making it possible to use and disseminate moving images. The purpose is to improve.
上記課題を解決するために、本発明の第1のオブジェクト抽出装置は、動画データを構成する2次元画像の複数のフレームの内、オブジェクト抽出対象の処理フレームに特徴点抽出処理を行って、前記処理フレームの複数の特徴点を抽出すると共に、前記各特徴点の2次元画像上の第1特徴量を検出し、前記処理フレームに深度検出処理を行って、前記処理フレームの各特徴点について周囲の特徴点からの相対的な深度を検出し、前記処理フレームに3次元空間推定処理を行って、前記処理フレームの複数の特徴点それぞれの少なくとも前記第1特徴量及び前記深度に基づいて前記処理フレーム内の現実3次元空間を推定し、前記処理フレームの複数の特徴点の前記現実3次元空間上の第2特徴量を検出し、前記処理フレームの複数の特徴点それぞれの少なくとも前記第2特徴量及び色分布に基づいてオブジェクト抽出処理を行って、前記処理フレームの2つ以上の特徴点の集合からなる特徴点群を検出し、前記現実3次元空間上の特徴量を有する前記特徴点群を、前記処理フレームの候補オブジェクトとして抽出することを特徴とする。 In order to solve the above-described problem, the first object extraction device of the present invention performs a feature point extraction process on a processing frame that is an object extraction target among a plurality of frames of a two-dimensional image constituting moving image data, and A plurality of feature points of the processing frame are extracted, a first feature amount on the two-dimensional image of each feature point is detected, a depth detection process is performed on the processing frame, and each feature point of the processing frame is surrounded Detecting a relative depth from the feature point, performing a three-dimensional space estimation process on the processing frame, and performing the processing based on at least the first feature amount and the depth of each of the plurality of feature points of the processing frame. Estimating a real three-dimensional space in the frame, detecting a second feature quantity in the real three-dimensional space of a plurality of feature points of the processing frame, and a plurality of feature points of the processing frame Object extraction processing is performed based on at least each of the second feature amount and color distribution, and a feature point group including a set of two or more feature points of the processing frame is detected, and the real three-dimensional space is detected. The feature point group having the feature amount is extracted as a candidate object of the processing frame.
また、本発明の第2のオブジェクト抽出装置は、上述した本発明の第1のオブジェクト抽出装置において、前記動画データを構成する複数の前記処理フレームの内、時間軸において前後に連続していて同一シーンを構成する2つ以上の共通の処理フレームがある場合に、前記2つ以上の共通の処理フレームのそれぞれについて前記深度検出処理、前記3次元空間推定処理及び前記オブジェクト抽出処理を行うとき、前記現実3次元空間上の特徴量を有する特徴点群であって、前記2つ以上の共通の処理フレームに共通して検出された特徴点群を、前記同一シーンの候補オブジェクトとして抽出することを特徴とする。 Further, the second object extraction device of the present invention is the same as the first object extraction device of the present invention described above, which is continuous in the time axis among the plurality of processing frames constituting the moving image data. When there are two or more common processing frames constituting a scene, when performing the depth detection processing, the three-dimensional space estimation processing, and the object extraction processing for each of the two or more common processing frames, A feature point group having a feature amount in a real three-dimensional space, wherein the feature point group detected in common in the two or more common processing frames is extracted as a candidate object of the same scene. And
また、本発明の第3のオブジェクト抽出装置は、上述した本発明の第2のオブジェクト抽出装置において、前記2つ以上の共通の処理フレームのそれぞれに前記特徴点抽出処理を行うとき、一の前記共通の処理フレームから抽出された複数の特徴点と、他の前記共通の処理フレームから抽出された複数の特徴点との差異を利用して、前記一の共通の処理フレームの特徴点を増やすことを特徴とする。 The third object extraction device of the present invention is the above-described second object extraction device of the present invention, wherein when the feature point extraction processing is performed on each of the two or more common processing frames, Using the difference between a plurality of feature points extracted from a common processing frame and a plurality of feature points extracted from the other common processing frame, the feature points of the one common processing frame are increased. It is characterized by.
また、本発明の第4のオブジェクト抽出装置は、上述した本発明の第2又は第3のオブジェクト抽出装置において、前記動画データを高画質化処理することにより、前記処理フレームで前記候補オブジェクトとして抽出される特徴点群の特徴点を増やすことを特徴とする。 Further, the fourth object extraction device of the present invention is the above-described second or third object extraction device of the present invention, wherein the moving image data is extracted as the candidate object in the processing frame by performing high quality processing. The feature point of the feature point group to be added is increased.
また、本発明の第5のオブジェクト抽出装置は、上述した本発明の第1〜第4の何れかのオブジェクト抽出装置において、前記同一シーンの候補オブジェクトは、前記現実3次元空間上の特徴量に加えて、該現実3次元空間上の特徴量の前記同一シーン上の時間変位量も有することを特徴とする。 The fifth object extraction device of the present invention is the above-described first to fourth object extraction device of the present invention, wherein the candidate object of the same scene is a feature quantity in the real three-dimensional space. In addition, it is characterized by having a time displacement amount on the same scene of the feature amount in the real three-dimensional space.
また、本発明の第6のオブジェクト抽出装置は、上述した本発明の第5のオブジェクト抽出装置において、前記高画質化処理は、微小領域毎に様々な色分布を有する複数のテンプレート画像のそれぞれについて高画質データ及び低画質データの相違をサンプル化した様々な色分布の学習データを予め記憶しておき、前記処理フレームの微小領域毎に最も適合した前記学習データを用いて前記処理フレームを高画質化することを特徴とする。 According to a sixth object extraction device of the present invention, in the fifth object extraction device of the present invention described above, the image quality enhancement processing is performed for each of a plurality of template images having various color distributions for each minute region. Learning data of various color distributions obtained by sampling the difference between the high-quality data and the low-quality data is stored in advance, and the processing frame is imaged using the learning data most suitable for each minute region of the processing frame. It is characterized by becoming.
更に、上記課題を解決するために、本発明の第1のオブジェクト認識システムは、上述した本発明の第1〜第6の何れかのオブジェクト抽出装置と、前記候補オブジェクトを認識するための複数の参照オブジェクトを、前記各参照オブジェクトの元画像及び前記各参照オブジェクトに関連する付属情報と共に格納するデータベースであって、前記各参照オブジェクトの元画像に対する前記特徴点抽出処理、前記深度検出処理、前記3次元空間推定処理及び前記オブジェクト抽出処理によって、その元画像の現実3次元空間上の特徴量を有する特徴点群として抽出された前記各参照オブジェクトを格納しているオブジェクトデータベースと、前記オブジェクト抽出装置によって抽出された前記候補オブジェクトが、前記オブジェクトデータベースに格納されている前記複数の参照オブジェクトの何れに相当するかのオブジェクト認識処理を行うオブジェクト認識装置と、を備え、前記オブジェクト認識装置は、前記候補オブジェクトが前記複数の参照オブジェクトの内の一の参照オブジェクトに相当すると判定した場合に、前記一の参照オブジェクトの前記付属情報に基づいて生成したオブジェクト情報を前記候補オブジェクトに付加することを特徴とする。 Furthermore, in order to solve the above problem, a first object recognition system of the present invention includes any one of the first to sixth object extraction devices of the present invention described above and a plurality of objects for recognizing the candidate object. A database for storing a reference object together with an original image of each reference object and attached information related to each reference object, wherein the feature point extraction process, the depth detection process, and the 3 for the original image of each reference object An object database storing each reference object extracted as a feature point group having a feature quantity in the actual three-dimensional space of the original image by the dimension space estimation process and the object extraction process, and the object extraction device The extracted candidate object is the object database. An object recognition device that performs an object recognition process corresponding to which of the plurality of reference objects stored in the object recognition device, wherein the object recognition device is configured such that the candidate object is one of the plurality of reference objects. When it is determined that it corresponds to a reference object, object information generated based on the attached information of the one reference object is added to the candidate object.
また、本発明の第2のオブジェクト認識システムは、上述した本発明の第1のオブジェクト認識システムにおいて、前記オブジェクト認識処理は、前記候補オブジェクトの特徴点群及び前記処理フレームにおける色分布と、前記参照オブジェクトの特徴点群及び元画像における色分布とを比較することによって行われることを特徴とする。 Further, the second object recognition system of the present invention is the above-described first object recognition system of the present invention, wherein the object recognition processing includes the feature point group of the candidate object, the color distribution in the processing frame, and the reference. This is performed by comparing the feature point group of the object and the color distribution in the original image.
また、本発明の第3のオブジェクト認識システムは、上述した本発明の第1又は第2のオブジェクト認識システムにおいて、前記オブジェクトデータベースは、前記複数の参照オブジェクトをそれぞれの付属情報に基づいて分類していて、共通する付属情報を有する2つ以上の参照オブジェクトについては、その共通の付属情報を分類情報とした共通のカテゴリーに分類して格納していることを特徴とする。 Further, according to a third object recognition system of the present invention, in the first or second object recognition system of the present invention described above, the object database classifies the plurality of reference objects based on respective attached information. Thus, two or more reference objects having common attached information are classified and stored in a common category using the common attached information as classification information.
また、本発明の第4のオブジェクト認識システムは、上述した本発明の第1〜第3の何れかのオブジェクト認識システムにおいて、前記複数の参照オブジェクトの内の一の参照オブジェクトに相当すると判定された前記候補オブジェクトを、前記一の参照オブジェクトが分類されるカテゴリーの新たな参照オブジェクトとして前記オブジェクトデータベースに格納することを特徴とする。 Further, the fourth object recognition system of the present invention is determined to correspond to one reference object among the plurality of reference objects in the above-described first to third object recognition systems of the present invention. The candidate object is stored in the object database as a new reference object of a category into which the one reference object is classified.
また、本発明の第5のオブジェクト認識システムは、上述した本発明の第4のオブジェクト認識システムにおいて、前記複数の参照オブジェクトの何れにも相当しないと判定された前記候補オブジェクトを、該候補オブジェクトが分類される新たなカテゴリーの参照オブジェクトとして前記オブジェクトデータベースに格納することを特徴とする。 The fifth object recognition system of the present invention is the above-described candidate object that is determined not to correspond to any of the plurality of reference objects in the above-described fourth object recognition system of the present invention. It is stored in the object database as a reference object of a new category to be classified.
更に、上記課題を解決するために、本発明の第1のメタデータ作成システムは、上述した本発明の第1〜第5の何れかのオブジェクト認識システムを備え、所定の前記動画データの動画情報と、前記所定の動画データを構成する複数の前記処理フレームのフレーム情報と、前記複数の処理フレームのそれぞれから抽出及び認識された前記候補オブジェクトの前記オブジェクト情報とを集計して、その集計結果に基づいて、前記動画データに関するメタデータを作成することを特徴とする。 Furthermore, in order to solve the above-described problem, a first metadata creation system of the present invention includes any one of the first to fifth object recognition systems of the present invention described above, and includes moving image information of predetermined moving image data. And the frame information of the plurality of processing frames constituting the predetermined moving image data and the object information of the candidate objects extracted and recognized from each of the plurality of processing frames, On the basis of this, metadata relating to the moving image data is created.
本発明によれば、動画データに表示されるオブジェクトを高精度で抽出し、高精度で認識すると共に、認識したオブジェクトの情報の利便性を高めて、動画の利用及び普及の向上を図ることが可能となる。 According to the present invention, an object displayed in moving image data is extracted with high accuracy and recognized with high accuracy, and the convenience of information on the recognized object is enhanced, thereby improving the use and spread of moving images. It becomes possible.
先ず、図1を参照しながら、本発明の実施形態に係るオブジェクト認識システム1の全体の構成について説明する。図1に示すように、オブジェクト認識システム1は、動画や静止画等の画像に基づいてオブジェクト抽出処理を行うオブジェクト抽出装置2と、オブジェクト認識処理に用いられるオブジェクトを格納するオブジェクトデータベース(DB)3と、オブジェクト認識処理を行うオブジェクト認識装置4とを備える。
First, the overall configuration of an
オブジェクトは、人物や動物等の生物、建物や置物等の静止物、文字や記号、ロゴマーク等の表示物のように、2次元平面上で識別可能な形状、色彩、濃淡の特徴を有するものだけでなく、3次元空間上で識別可能な形状、色彩、濃淡の特徴を有するものも含む。以下では、オブジェクト抽出処理及びオブジェクト認識処理の対象となるオブジェクト、即ち、オブジェクト抽出装置2によって抽出され、オブジェクト認識装置4によって認識されるオブジェクトを候補オブジェクト25(図2参照)と称する。また、候補オブジェクト25の認識処理のために比較されるオブジェクトであって、オブジェクトDB3に格納されるオブジェクトを参照オブジェクト3aと称する。
Objects have features of shapes, colors, and shades that can be identified on a two-dimensional plane, such as living things such as people and animals, stationary objects such as buildings and figurines, and display objects such as characters, symbols, and logo marks. As well as those having features of shape, color, and shading that can be identified in a three-dimensional space. Hereinafter, an object to be subjected to object extraction processing and object recognition processing, that is, an object extracted by the
本実施形態では、オブジェクト抽出装置2、オブジェクトDB3及びオブジェクト認識装置4が、インターネットやLAN(Local Area Network)等の所定のネットワーク5を介して、相互に通信可能に接続される例を説明するが、オブジェクト抽出装置2、オブジェクトDB3及びオブジェクト認識装置4は、相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、何れか2つ以上が一体的に構成されてもよい。
In the present embodiment, an example will be described in which the
また、本実施形態では、オブジェクト抽出装置2、オブジェクトDB3及びオブジェクト認識装置4が、1つずつ備えられる例を説明するが、複数のオブジェクト抽出装置2、複数のオブジェクトDB3及び複数のオブジェクト認識装置4が備えられてよい。なお、複数のオブジェクトDB3は、各オブジェクトDB3に格納される参照オブジェクト3aを統括管理していて、キーワードやカテゴリーを指定すると、そのキーワードやカテゴリーに対応する参照オブジェクト3aが複数のオブジェクトDB3に亘って検索される。複数のオブジェクトDB3は、一の画像に基づく一の参照オブジェクト3aを、2つ以上のオブジェクトDB3に重複して格納せずに、何れか1つのオブジェクトDB3に格納する。
In this embodiment, an example in which the
先ず、オブジェクト抽出装置2について説明する。オブジェクト抽出装置2は、上記したように、動画や静止画等の画像に表示される候補オブジェクト25を抽出するように構成される。例えば、オブジェクト抽出装置2は、制御部10と、記憶部11と、通信部12とを備える。また、オブジェクト抽出装置2は、画像入力部13と、フレーム取得部14と、高画質化部15と、フレーム調整部16と、特徴点抽出部17と、深度検出部18と、3次元空間推定部19と、オブジェクト抽出部20とを備える。なお、画像入力部13、フレーム取得部14、高画質化部15、フレーム調整部16、特徴点抽出部17、深度検出部18、3次元空間推定部19及びオブジェクト抽出部20は、記憶部11に記憶され、制御部10によって制御されることで動作するプログラムで構成されてよい。
First, the
また、オブジェクト抽出装置2は、オブジェクト抽出処理に用いる抽出処理用データ8a(例えば、後述の高画質化処理用のテンプレート画像、特徴点分布判定用の特徴点分布データ、色分布判定用の色変位−深度データ、オブジェクト抽出用のオブジェクト抽出データ等)を格納する抽出処理データベース(DB)8にネットワーク5を介して接続される。オブジェクト抽出装置2は、抽出処理DB8と相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、一体的に構成されてもよい。
The
制御部10は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等を有して、オブジェクト抽出装置2の全体の動作を統括して制御するように構成される。記憶部11は、ROM(Read Only Memory)やRAM(Random Access Memory)等のメモリや、ハードディスク等の記録媒体を有して、制御部10で制御される情報やデータ、プログラム等を記憶するように構成される。
The
通信部12は、オブジェクト抽出装置2がネットワーク5に接続するためのインタフェースであり、即ち、オブジェクト抽出装置2をオブジェクトDB3及びオブジェクト認識装置4とネットワーク5を介して接続する。
The
画像入力部13は、例えば、オブジェクト抽出処理の対象となる動画データ21(図2参照)や静止画データ等の画像データを入力する。例えば、画像入力部13は、複数の動画データ21を格納している外部の動画データベース(DB)6や外部の他のコンピュータ等と通信部12を介して通信することで、オブジェクト抽出処理の対象の動画データ21の動画DB6からの選択操作及び入力を可能にする。又は、画像入力部13は、記憶部11から動画データ21を読み出し、あるいはDVD(Digital Versatile Disc)やBlu−ray Disc(登録商標)等の記憶媒体に記憶された動画データ21を、読出装置(図示せず)によって読み出して、オブジェクト抽出処理の対象の動画データ21として入力してもよい。なお、動画データ21には、映像データや音声データに加えて、予め設定された動画タイトルや内容等の動画情報が記録されている。
The
また、画像入力部13は、入力した画像データの画像データ情報を抽出する。画像データ情報は、例えば、動画データ21の場合には、動画データ21の動画ID、フレーム数、フレームサイズ及びフォーマット形式や、動画データ21のタイトル、作者情報、作成日時、動画のカテゴリー、出演者情報、サムネイル(URL)等の動画情報がある。また、静止画データの場合には、静止画のタイトル、データサイズ、フォーマット形式等の静止画情報がある。また、画像データがウェブサイトから取得された場合には、そのウェブサイトの記述内容に含まれる画像データの情報も、画像データ情報としてよい。
The
フレーム取得部14は、図2に示すように、動画データ21をオブジェクト抽出処理の対象とする場合に、その動画データ21を構成する複数の静止画フレームを、そのフレームレートに基づいて取得し、これらの複数の静止画フレームのそれぞれがオブジェクト抽出処理の対象の処理フレーム22となる。なお、画像入力部13が静止画データを入力した場合には、その静止画データがそのままオブジェクト抽出処理の対象の処理フレーム22となる。なお、この処理フレーム22は、1台の撮像装置で被写体を1方向から撮影したような2次元平面画像に相当する。
As shown in FIG. 2, the
また、フレーム取得部14は、取得した各処理フレーム22のフレーム情報を抽出する。フレーム情報は、例えば、その処理フレーム22の動画データ21におけるリレーションIDや再生時間(タイムスタンプ)、及びこの処理フレーム22のフレーム番号(ユニークID)等がある。
Further, the
高画質化部15は、処理フレーム22の高画質化処理を行う。本実施形態では特に、高画質化部15は、処理フレーム22の特徴点23の抽出量が増加するように処理フレーム22を高画質化する。
The image
例えば、高画質化部15は、微小領域(例えば、a×aの画素範囲、aは3以上の奇数)毎に様々な色分布(色変位)を有する高画質化処理用の複数のテンプレート画像を抽出処理DB8に予め記憶している。各テンプレート画像には、高画質データ及び低画質データが用意されていて、低画質データはテンプレート画像毎の解像度で示される。また、高画質化部15は、各テンプレート画像の高画質データ及び低画質データの微小領域毎の相違(色変位)をサンプル化した高画質化用の色変位データを各テンプレート画像に対応付けて、抽出処理DB8に予め記憶している。そして、高画質化部15は、処理フレーム22の解像度に合う様々な色変位データを用いて処理フレーム22の微小領域毎に畳み込み演算をすることで、処理フレーム22の各微小領域の色変位に対応する色変位データから、最も確率の高い(最も適合する)色変位データを判定して合わせ込む(合成する)ことによって処理フレーム22を高画質化する。なお、この畳み込みは、全ての色変位データを常に用いる必要はなく、処理フレーム22の各微小領域の色データに近似する色変位データを用いてよい。
For example, the high image
また、高画質化部15は、元の処理フレーム22(又はその局所領域)を低画質データとし、高画質化後の処理フレーム22(又はその局所領域)を高画質データとするテンプレート画像を、高画質化処理の機械学習の学習データとして抽出処理DB8に記憶する。従って、高画質化部15は、機械学習によって抽出処理DB8に蓄積された高画質化処理用のテンプレート画像を使用するため、処理を行う度に、より精度の高い高画質化処理を行うことができる。
In addition, the image
更に、高画質化部15は、動画データ21をオブジェクト抽出処理の対象とする場合には、動画データ21を構成する複数の処理フレーム22の内、時間軸において前後に連続していて同一シーンを構成する2つ以上の共通の処理フレーム22について、一の共通の処理フレーム22を他の共通の処理フレーム22に基づいて高画質化する。例えば、高画質化部15は、一の共通の処理フレーム22から抽出される複数の特徴点23と、他の共通の処理フレーム22から抽出される複数の特徴点23との差異を利用して、一の共通の処理フレーム22の特徴点23が増加するように、一の共通の処理フレーム22を高画質化する。他の共通の処理フレーム22に含まれる特徴点23の内、一の共通の処理フレーム22に含まれない特徴点23を、一の共通の処理フレーム22に加えることにより、一の共通の処理フレーム22の特徴点23が増加する。
Furthermore, when the moving
フレーム調整部16は、処理フレーム22の性質や動画データ21の性質に応じて、処理フレーム22に対して様々な画像処理を行う。
The
例えば、フレーム調整部16は、処理フレーム22のモスキートノイズやブロックノイズの低減処理を行う。フレーム調整部16は、処理フレーム22からモスキートノイズを検出すると、その周辺情報を用いて平滑化することでモスキートノイズを低減する。フレーム調整部16は、処理フレーム22からブロックノイズを検出すると、そのブロックノイズ部分を上記した複数のテンプレート画像と照合し、最も適合したテンプレート画像の学習データを用いることで高画質化することでブロックノイズを低減する。フレーム調整部16は、ブロックノイズ部分に適合するテンプレート画像が無い場合には、ブロックノイズ部分にアンシャープマスク処理やぼかし処理等を施すことでブロックノイズを低減する。
For example, the
また、フレーム調整部16は、処理フレーム22が高コントラストな領域を含む場合、その領域が多くの画像詳細を失う恐れがあるため、その領域について局所的にHDR処理を行う。HDR処理では、局所的な複数のコントラストデータを作成しておき、高コントラストな領域に対して、最も適合するコントラストデータを合成することで、高画質なトーンバランスを有する画像を生成する。
In addition, when the processing frame 22 includes a high-contrast region, the
また、フレーム調整部16は、動画データ21をオブジェクト抽出処理の対象とするとき、動画データ21のフレームレートが低い場合には、フレーム補間処理を行う。フレーム補間処理では、先ず、低フレームレートのために処理フレーム22自体にボケが生じている場合には、シャープ化等によりボケを解消する。そして、連続する2つの処理フレーム22間の所定の時間の中間画像として補間フレームを生成し、これらの2つの処理フレーム22間に挿入する。例えば、連続する2つの処理フレーム22が、同一シーンの共通の処理フレーム22であって、共通する候補オブジェクト25のみが移動している場合には、2つの処理フレーム22間の特徴点23の深度及び移動ベクトルに基づいて、この共通する候補オブジェクト25について、2つの処理フレーム22間の所定の時間での特徴点23及びその深度を推定して算出する。そして、算出した特徴点23及びその深度を有する候補オブジェクト25を、2つの処理フレーム22と同様の処理フレーム22に合成することで、所定の時間の補間フレームを生成する。このようなフレーム補間処理は、特徴点抽出部17による特徴点抽出処理や深度検出部18による深度検出処理の後に行われてよい。
In addition, when the moving
また、フレーム調整部16は、動画データ21のフレームレートが低い場合には、残像低減処理を行い、低フレームレートに起因して処理フレーム22に生じた残像を低減させる。
In addition, when the frame rate of the moving
また、フレーム調整部16は、動画データ21のフレームレートが高い場合には、間引き処理を行い、所定期間における処理フレーム22の数を少なくして、その後の画像処理に掛かる負荷や時間を軽減する。なお、間引き処理では、連続する2つ以上の処理フレーム22において、各特徴点23の動きベクトル(候補オブジェクト25の動き)の少ない処理フレーム22のように、影響の少ない処理フレーム22を削除することが好ましく、シーンの切り替わる前後の処理フレーム22のように、影響の大きい処理フレーム22を残すことが好ましい。
In addition, when the frame rate of the moving
また、フレーム調整部16は、所定のフォーマットに圧縮された動画データ21が画像入力部13に入力された場合には、そのフォーマットの圧縮アルゴリズムのロバスト性を評価し、動画データ21がそのフォーマットに符号化された際に処理フレーム22について欠落した情報を、動画データ21を復号化するときに担保して元の処理フレーム22を再現する。
In addition, when the moving
特徴点抽出部17は、処理フレーム22に特徴点抽出処理を行って、処理フレーム22の複数の特徴点23を抽出すると共に、各特徴点23の2次元画像上の第1特徴量を検出する。特徴点抽出部17は、動画データ21をオブジェクト抽出処理の対象とするときには、動画データ21を構成する複数の処理フレーム22の2次元画像のそれぞれに特徴点抽出処理を行う。例えば、各特徴点23の第1特徴量としては、2次元座標、輝度や色変数(RGB)、並びに輝度勾配ベクトル(周囲画像又は全体画像に対する輝度勾配)等がある。
The feature
例えば、特徴点抽出部17は、特徴点抽出処理の前処理として、処理フレーム22にシャープ化処理を施すことにより、画素間の輝度の変位量を算出し、この変位量から換算される加速度が大きいほどエッジをより強調したエッジ強調フレームを生成する。そして、特徴点抽出部17は、特徴点抽出処理として、エッジ強調フレームで強調されたエッジに基づいて複数の特徴点23を抽出すると共に、各特徴点23の第1特徴量を算出する。
For example, the feature
深度検出部18は、特徴点抽出部17によって特徴点23を抽出された処理フレーム22に深度検出処理を行って、処理フレーム22の各特徴点23について周囲の特徴点23からの相対的な深度を検出する。
The
例えば、深度検出部18は、先ず、様々な特徴点分布データを用いて処理フレーム22の局所領域毎に畳み込み演算を行うことで、処理フレーム22における局所領域毎の特徴点23の数(存在確率)の分布を判定する。例えば、特徴点分布データは、オブジェクトを特定する必要はないが、オブジェクトの特徴点23の分布を示すように作成される。そして、深度検出部18は、処理フレーム22内の特徴点23の分布から、何れかの特徴点分布検出データに対応する分布として、より高い確率で判定されるものを検出する。なお、この畳み込み演算を二次元方向に行うことによって、処理フレーム22の画像内の実際の3次元空間(現実3次元空間26、図2参照)における特徴点23の分布を判定することもできる。
For example, the
例えば、特徴点分布データは、オブジェクトDB3に格納される参照オブジェクト3aの特徴点23の分布を有するように作成され、様々なカテゴリー及びサイズのオブジェクトの特徴点分布データが抽出処理DB8に予め記憶される。特徴点分布データは、オブジェクト認識装置4によって、高い精度で認識された参照オブジェクト3aがオブジェクトDB3に格納される際に、特徴点分布判定の機械学習の学習データとして作成されてよい。また、特徴点分布データは、特徴点分布判定によって処理フレーム22から判定された特徴点分布の内、高い精度で判定されたものによって作成されてもよい。従って、深度検出部18は、機械学習によって抽出処理DB8に蓄積された特徴点分布データを使用するため、処理を行う度に、より精度の高い特徴点分布判定を行うことができる。
For example, the feature point distribution data is created so as to have the distribution of the feature points 23 of the reference object 3a stored in the
また、深度検出部18は、様々なサイズの微小領域(例えば、a×aの画素範囲、aは3以上の整数)の色変位とその色変位に対応する深度との対応関係を示す色変位−深度データを用いて、処理フレーム22の微小領域毎に畳み込み演算を行い、処理フレーム22内の画素の色分布を判定する。例えば、色変位−深度データの色変位は、微小領域において中心画素から見た周囲画素の色データ(例えば、RGB)の変位であり、深度は、微小領域において中心画素から見た周囲画素の相対的深度である。そして、深度検出部18は、上記した特徴点分布判定の結果である処理フレーム22の特徴点23の分布に対して、同様のカテゴリー及びサイズを有する様々なオブジェクトの色変位−深度データを用いて、各微小領域の色変位に適合する色変位−深度データとして、より高い確率で判定されるものを検出する。これにより、深度検出部18は、各特徴点23について、周囲の特徴点23からの相対的な深度を検出する。
In addition, the
例えば、色変位−深度データは、オブジェクトDB3に格納される参照オブジェクト3aの微小領域毎に、色変位とその色変位に対応する深度との対応関係を有するように作成され、様々なカテゴリー及びサイズのオブジェクトの色変位−深度データが、抽出処理DB8に予め記憶される。色変位−深度データは、オブジェクト認識装置4によって、高い精度で認識された参照オブジェクト3aがオブジェクトDB3に格納される際に、色分布判定の機械学習の学習データとして作成されてよい。また、色変位−深度データは、色分布判定によって処理フレーム22から判定された色分布の内、高い精度で判定されたものによって作成されてもよい。従って、深度検出部18は、機械学習によって抽出処理DB8に蓄積された色変位−深度データを使用するため、処理を行う度に、より精度の高い色分布判定を行うことができる。
For example, the color displacement-depth data is created so as to have a correspondence relationship between the color displacement and the depth corresponding to the color displacement for each minute area of the reference object 3a stored in the
更に、深度検出部18は、上記した色分布判定の結果に基づいて、処理フレーム22の各特徴点23の方向ベクトルを算出する。例えば、所定の特徴点23の方向ベクトルは、その特徴点23の座標と、その特徴点23からの周囲画素(特徴点23を中心とする微小領域内の画素)の相対的深度とを有している。換言すれば、所定の特徴点23の方向ベクトルは、処理フレーム22の画像内の実際の3次元空間(現実3次元空間26、図2参照)において周囲画素との間の輝度勾配及び色変位(色勾配)の方向を示す。
Further, the
また、深度検出部18は、上記の各特徴点23の方向ベクトルに基づいて、処理フレーム22内で各特徴点23間を通る曲線を、各特徴点23が存在する領域の特徴点分布に応じた方式で作成する。例えば、深度検出部18は、各特徴点23と他の特徴点23(周囲の特徴点)とを制御点として通るスプライン曲線やベジエ曲線等を生成する。また、深度検出部18は、特徴点23の分布がスプライン曲線やベジエ曲線等の生成に都合が悪い場合、例えば、所定領域内の特徴点23が過多又は過密でルンゲ現象が生じる場合には、回帰曲線等を利用して近似曲線化することによって、特徴点23間の曲線を生成する。これらのように生成される曲線は、処理フレーム22の画像内の実際の3次元空間(現実3次元空間26、図2参照)において、各特徴点23間の輝度勾配及び色変位(色勾配)の方向に沿った曲線となる。
Further, the
そして、深度検出部18は、所定の特徴点23についての周囲の特徴点23からの相対的な深度を、周囲の特徴点23毎に生成した曲線に基づいて算出する。これにより、深度検出部18は、各特徴点23の周囲の特徴点23との現実3次元空間26における相対的な位置関係を検出する。なお、このようにして処理フレーム22の各特徴点23について深度(位置関係)を算出した後、所定の特徴点23についての深度(位置関係)を、周囲の特徴点23毎に算出された深度(位置関係)に基づいて、適宜調整してもよい。
Then, the
3次元空間推定部19は、処理フレーム22の複数の特徴点23それぞれの第1特徴量及び深度(周囲の特徴点23からの相対的な深度)に基づいて処理フレーム22の画像内の実際の3次元空間(現実3次元空間26)を推定する。例えば、3次元空間推定部19は、処理フレーム22の各特徴点23の第1特徴量及び深度を相互に対比していくことで、各特徴点23の深度が適合するような現実3次元空間26を推定して算出する。また、3次元空間推定部19は、処理フレーム22の複数の特徴点23について、現実3次元空間26上の第2特徴量を検出する。例えば、各特徴点23の第2特徴量には、現実3次元空間26上の3次元座標がある。
The three-dimensional
オブジェクト抽出部20は、処理フレーム22の複数の特徴点23それぞれの第2特徴量及び色分布に基づいてオブジェクト抽出処理を行う。そして、オブジェクト抽出部20は、オブジェクト抽出処理によって、処理フレーム22の複数の特徴点23の分布状態に応じて、2つ以上の特徴点23の集合からなる特徴点群24を検出する。例えば、オブジェクト抽出部20は、処理フレーム22を四分木空間分割したときの特徴点23の分布に基づいて、1組以上の特徴点群24を検出する。各特徴点群24は、現実3次元空間26上の特徴量(座標等)を有していて、オブジェクト抽出部20は、このようにして検出した特徴点群24を、抽出元の処理フレーム22の候補オブジェクト25として抽出する。
The
また、オブジェクト抽出部20は、様々なオブジェクト抽出データを用いて処理フレーム22の局所領域毎に畳み込み演算を行うことで、オブジェクト抽出データに対応する特徴点群24を検出してもよい。例えば、オブジェクト抽出データは、オブジェクトDB3に格納される参照オブジェクト3aの特徴点群24を示すように作成され、様々なカテゴリー及びサイズのオブジェクトのオブジェクト抽出データが抽出処理DB8に予め記憶される。オブジェクト抽出データとして、オブジェクト認識装置4によって高い精度で認識された参照オブジェクト3aが、オブジェクト抽出処理の機械学習の学習データにも利用される。また、オブジェクト抽出データは、オブジェクト抽出処理によって処理フレーム22から抽出された候補オブジェクト25の内、高い精度で判定されたものによって作成されてもよい。従って、オブジェクト抽出部20は、機械学習によってオブジェクトDB3に蓄積された参照オブジェクト3aを使用するため、処理を行う度に、より精度の高いオブジェクト抽出処理を行うことができる。
The
更に、オブジェクト抽出部20は、抽出した候補オブジェクト25を抽出元の処理フレーム22に関連付けて記憶部11に記憶し、処理フレーム22を動画データ21から取得した場合には、抽出した候補オブジェクト25を動画データ21にも関連付ける。候補オブジェクト25は、対応する特徴点群24に関する情報として、特徴点群24を構成する各特徴点23の第1特徴量、深度及び第2特徴量を含んでいる。また、オブジェクト抽出部20は、抽出元の処理フレーム22を候補オブジェクト25に付加する。
Further, the
なお、オブジェクト抽出部20は、動画データ21をオブジェクト抽出処理の対象とする場合に、動画データ21を構成する複数の処理フレーム22の内、時間軸において前後に連続していて同一シーンを構成する2つ以上の共通の処理フレーム22のそれぞれについてオブジェクト抽出処理を行うときには、共通の処理フレーム22に共通して検出された特徴点群24を、同一シーンに共通する候補オブジェクト25とする。このとき、同一シーンの共通の処理フレーム22間で候補オブジェクト25が移動している場合には、同一シーンに共通する候補オブジェクト25は、特徴点群24(現実3次元空間26上の特徴量)の移動量(同一シーン上の時間変位量)も含む。
In addition, when the moving
そして、オブジェクト抽出装置2は、上記のようにして抽出した候補オブジェクト25を、画像データ情報及びフレーム情報と共に、オブジェクト認識処理のためにオブジェクト認識装置4へと出力する。
Then, the
なお、オブジェクト抽出装置2は、動画データ21をオブジェクト抽出処理の対象とするとき、フレーム調整部16による調整後の複数の処理フレーム22に対して近似判定を行って、近似する処理フレーム22については特徴点抽出部17、深度検出部18、3次元空間推定部19及びオブジェクト抽出部20の処理対象から除外してもよい。例えば、前後に連続して近似する2つの処理フレーム22については、先行の処理フレーム22を処理対象とすると共に、後続の処理フレーム22を処理対象から除外する。なお、先の近似判定において後続の処理フレーム22を処理対象から除外した場合には、今回の近似判定において後続の処理フレーム22と比較される処理フレーム22は、先の近似判定で処理対象とした処理フレーム22となる。
Note that the
次に、オブジェクトDB3について説明する。オブジェクトDB3は、上記したように、オブジェクト認識処理に用いられる複数の参照オブジェクト3aを格納している。オブジェクトDB3は、オブジェクト認識装置4がオブジェクト認識処理を行う際に、オブジェクト認識装置4から参照オブジェクト出力の指示を受けると、格納している参照オブジェクト3aを順次、オブジェクト認識装置4へと出力する。
Next, the
各参照オブジェクト3aは、オブジェクト抽出装置2によって抽出される候補オブジェクト25と同様に、2次元平面画像(以下、元画像と称する)から現実3次元空間上の特徴量を有する特徴点の特徴点群として抽出されたものであり、特徴点群を構成する各特徴点の第1特徴量、深度及び第2特徴量を含んでよい。参照オブジェクト3aには、元画像が付加され、更に、参照オブジェクト3aに関連する付属情報も付加される。付属情報には、例えば、参照オブジェクト3aを特定する特定情報や、元画像に付属する元画像情報、元画像の取得元の動画に付属する動画情報、元画像や動画の取得元のウェブサイトの記述内容に含まれる情報等がある。
Each reference object 3a is a feature point group of feature points having feature quantities in a real three-dimensional space from a two-dimensional planar image (hereinafter referred to as an original image), as with the candidate object 25 extracted by the
更に、オブジェクトDB3は、複数の参照オブジェクト3aをそれぞれの付属情報に基づいて、複数のカテゴリーに分類して格納している。カテゴリーは、人物や物等の大枠のカテゴリーや、特定の人物や特定の物等の小枠のカテゴリー等の複数段階のカテゴリーに分けられてよい。そして、オブジェクトDB3は、共通する付属情報を有する2つ以上の参照オブジェクト3aについては、その共通の付属情報を分類情報とした共通のカテゴリーに分類して格納している。なお、オブジェクトDB3は、オブジェクト認識装置4がオブジェクト認識処理を行う際に、オブジェクト認識装置4からカテゴリーを特定して参照オブジェクト出力の指示を受けると、その特定されたカテゴリーに格納している参照オブジェクト3aをオブジェクト認識装置4へと出力することもできる。
Furthermore, the
オブジェクトDB3に格納される参照オブジェクト3aは、オブジェクト抽出装置2及びオブジェクト認識装置4によって作成することができ、また、上記のような構成を有していれば他の手段によって作成してもよい。例えば、オブジェクトDB3は、オブジェクト認識装置4によるオブジェクト認識処理後の候補オブジェクト25を、オブジェクト認識処理の機械学習の学習データとして入力し、参照オブジェクト3aとして格納することができる。従って、オブジェクト認識装置4は、機械学習によってオブジェクトDB3に蓄積された参照オブジェクト3aを使用するため、処理を行う度に、より精度の高いオブジェクト認識処理を行うことができる。
The reference object 3a stored in the
この場合、オブジェクト認識装置4によって所定の参照オブジェクト3aに相当すると判定された候補オブジェクト25は、参照オブジェクト3aに基づいて、後述のオブジェクト情報が付加され、この所定の参照オブジェクト3aが分類されるカテゴリーの新たな参照オブジェクト3aとしてオブジェクトDB3に格納される。一方、オブジェクト認識装置4によって何れの参照オブジェクト3aにも相当しないと判定された候補オブジェクト25は、この候補オブジェクト25が分類される新たなカテゴリーの参照オブジェクト3aとしてオブジェクトDB3に格納される。
In this case, the candidate object 25 determined to correspond to the predetermined reference object 3a by the
次に、オブジェクト認識装置4について説明する。オブジェクト認識装置4は、上記のようにオブジェクト認識処理を行うように構成され、オブジェクト抽出装置2によって抽出された候補オブジェクト25が、オブジェクトDB3に格納されている複数の参照オブジェクト3aの何れに相当するかを判定する。
Next, the
例えば、オブジェクト認識装置4は、オブジェクト抽出装置2から候補オブジェクト25を入力すると、オブジェクトDB3に対して参照オブジェクト出力を指示する。そして、オブジェクト認識装置4は、オブジェクトDB3から参照オブジェクト3aを入力すると、候補オブジェクト25が参照オブジェクト3aに相当するか否かを判定する。例えば、オブジェクト認識装置4は、候補オブジェクト25の特徴点群24(現実3次元空間上の特徴量)及びその抽出元の処理フレーム22における色分布と、参照オブジェクト3aの特徴点群(現実3次元空間上の特徴量)及びその元画像における色分布とを比較して、参照オブジェクト3aの候補オブジェクト25との類似度を算出する。このように、候補オブジェクト25の抽出時に、候補オブジェクト25に処理フレーム22を付加しておくことで、候補オブジェクト25を利用する際に、その色分布も用いることができる。なお、この比較処理では、候補オブジェクト25と参照オブジェクト3aとは、現実3次元空間上の特徴量が比較されるため、一方の向きや大きさを他方に合わせる必要がない。
For example, when the
そして、オブジェクト認識装置4は、複数の参照オブジェクト3aについて候補オブジェクト25との類似度を算出し、より類似度の高い参照オブジェクト3a、例えば、所定の類似度閾値以上の参照オブジェクト3aを、候補オブジェクト25に相当すると判定する。このとき、オブジェクト認識装置4は、類似度の高い参照オブジェクト3aの付属情報から候補オブジェクト25に関連する情報を取得して、オブジェクト情報を生成して候補オブジェクト25に付加する。なお、オブジェクト情報の作成のために、1つの参照オブジェクト3aのみの付属情報を用いてもよく、あるいは、類似度の高い2つ以上の参照オブジェクト3aの付属情報を用いてもよい。更に、オブジェクト情報の作成のために、オブジェクトDB3における参照オブジェクト3aの分類情報を用いてもよい。
Then, the
一方、オブジェクト認識装置4は、各参照オブジェクト3aの候補オブジェクト25との類似度が何れも所定の類似度閾値未満であった場合には、その候補オブジェクト25が何れの参照オブジェクト3aにも相当しないと判定する。
On the other hand, when the similarity between each reference object 3a and the candidate object 25 is less than a predetermined similarity threshold, the
また、オブジェクト認識装置4は、何れの判定があった場合でも、候補オブジェクト25をオブジェクト認識処理の機械学習のための学習データとしてオブジェクトDB3へと出力して参照オブジェクト3aとして格納させる。
Further, the
また、オブジェクト認識システム1は、オブジェクトDB3の参照オブジェクト3aを増やすために画像収集装置7を備える。画像収集装置7は、ネットワーク5を介して参照オブジェクト3aを有する動画や静止画の画像を検索して収集する画像収集クローラを備える。そして、画像収集装置7は、画像収集クローラ機能を実行すると、ネットワーク5を介して画像収集装置7に接続された外部の動画DB6やその他の端末に格納された動画データ21(図2参照)や静止画データ等の画像データを順次収集する。なお、画像収集装置7は、ネットワーク5に公開された全ての画像データを収集してもよいが、操作者によって選択されたカテゴリー(業種)やキーワードに基づいて画像データを検索して収集してもよい。
The
画像収集装置7は、オブジェクト抽出装置2に接続されていて、収集した画像データをオブジェクト抽出装置2へと出力する。オブジェクト抽出装置2では、上記のようにして、画像データから候補オブジェクト25が抽出されてオブジェクト認識装置4へと出力される。オブジェクト認識装置4では、上記のようにして、オブジェクトDB3の参照オブジェクト3aを用いて候補オブジェクト25のオブジェクト認識処理が行われ、更に、オブジェクト認識処理後の候補オブジェクト25は、学習データとなり参照オブジェクト3aとしてオブジェクトDB3に格納される。このように、画像収集装置7を利用することで、オブジェクトDB3に格納される参照オブジェクト3aの数が増大し、オブジェクト認識装置4によるオブジェクト認識処理の精度を高めることができる。
The
なお、画像収集装置7は、オブジェクト抽出装置2、オブジェクトDB3及びオブジェクト認識装置4とは独立して設けられてもよく、あるいは何れかと一体的に構成されてもよい。
The
また、上記したようなオブジェクト認識システム1は、動画データ21(図2参照)のメタデータ作成処理を行うメタデータ作成システム30に適用される。メタデータ作成システム30は、メタデータ32aを作成するメタデータ作成装置31と、作成されたメタデータ32aを格納するメタデータデータベース(DB)32とを備える。本実施形態では、メタデータ作成装置31及びメタデータDB32が、1つずつ備えられる例を説明するが、複数のメタデータ作成装置31及び複数のメタデータDB32が備えられてよい。メタデータDB32は、1つのメタデータ作成装置31で利用されるものに限定されず、複数のメタデータ作成装置31で利用可能に設けられてよい。
The
メタデータ作成装置31は、ネットワーク5を介してメタデータDB32と相互に通信可能に接続され、また、オブジェクト認識システム1のオブジェクト抽出装置2及びオブジェクト認識装置4とも相互に通信可能に接続される。なお、メタデータ作成装置31は、メタデータDB32と相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、一体的に構成されてもよい。
The
メタデータDB32は、動画データ21のタイトルや動画IDを検索キーワードとすることで、その動画データ21に対応するメタデータ32aを検索できるように複数のメタデータ32aを格納している。メタデータDB32は、作成日時の新しい動画データ21や検索頻度が高い動画データ21、推奨している動画データ21等のメタデータ32aが優先的に検索されるようにメタデータ32aを格納するとよい。
The
なお、複数のメタデータDB32は、各メタデータDB32に格納されるメタデータ32aを統括管理していて、動画データ21のタイトルや動画IDを指定すると複数のメタデータDB32に亘ってメタデータ32aが検索される。複数のメタデータDB32は、一の動画データ21に基づく一のメタデータ32aを、2つ以上のメタデータDB32に重複して格納せずに、何れか1つのメタデータDB32に格納する。また、複数のメタデータDB32は、動画データ21のカテゴリー別に備えられていてもよい。
The plurality of
メタデータ作成装置31は、所定の動画データ21の動画情報、所定の動画データ21を構成する複数の処理フレーム22の各フレーム情報、及び各処理フレーム22から抽出及び認識された候補オブジェクト25のオブジェクト情報を入力すると、これらの情報を集計して所定の動画データ21のメタデータ32aを作成する。また、メタデータ作成装置31は、所定の動画データ21について作成したメタデータ32aをメタデータDB32へと格納する。
The
例えば、メタデータ32aには、動画データ21のタイトル、出演者名等の動画情報が記述され、更に、動画データ21を構成する複数の処理フレーム22の再生順に、各処理フレーム22の再生時間等のフレーム情報が記述される。また、メタデータ32aには、各処理フレーム22のフレーム情報に付随して、各処理フレーム22から抽出された候補オブジェクト25のオブジェクト情報が記述される。即ち、メタデータ32aでは、フレーム情報及びオブジェクト情報はタイムライン上に示される。
For example, the
なお、同一シーンの2つ以上の共通する処理フレーム22について、メタデータ32aには、同一シーンの時間帯等のシーン情報が記述され、また、同一シーンのシーン情報に付随して、同一シーンに共通する候補オブジェクト25のオブジェクト情報が記述される。このようなシーン情報も、メタデータ32aではタイムライン上に示される。また、同一シーンの先頭及び最後尾の処理フレーム22以外の各処理フレーム22については、フレーム情報やオブジェクト情報の記述は省略してもよい。
For two or more common processing frames 22 in the same scene, scene information such as the time zone of the same scene is described in the
次に、上記のような構成を備えたオブジェクト認識システム1及びメタデータ作成システム30における所定の動画データ21のメタデータ作成動作について、図3のフローチャートを参照して説明する。
Next, the metadata creation operation of the predetermined moving
メタデータ作成システム30では、所定の動画データ21についてメタデータ作成処理を行うとき、この所定の動画データ21がオブジェクト認識システム1のオブジェクト抽出装置2へと入力され(ステップS1)、画像入力部13によって、この動画データ21の画像データ情報、即ち、動画情報が抽出される。
In the
また、オブジェクト抽出装置2では、フレーム取得部14によって、この動画データ21を構成する複数の処理フレーム22が取得されると共に(ステップS2)、各処理フレーム22のフレーム情報が抽出される。更に、各処理フレーム22は、最適な特徴点抽出処理や深度検出処理ができるように、高画質化部15によって高画質化され、フレーム調整部16によって調整される(ステップS3)。
In the
そして、特徴点抽出部17によって、各処理フレーム22の複数の特徴点23が抽出されると共に、各特徴点23の2次元画像上の第1特徴量が検出され(ステップS4)、更に、深度検出部18によって、各特徴点23の周囲の特徴点23からの深度が検出される(ステップS5)。また、3次元空間推定部19によって、各処理フレーム22の複数の特徴点23の第1特徴量及び深度に基づいて、各処理フレーム22の現実3次元空間26が推定され、各特徴点23の現実3次元空間26上の第2特徴量が検出される(ステップS6)。
Then, the feature
次に、オブジェクト抽出部20によって、各処理フレーム22の複数の特徴点23の第2特徴量及び色分布に基づいて、特徴点群24、即ち、候補オブジェクト25が抽出され(ステップS7)、候補オブジェクト25には対応する処理フレーム22が付加される。
Next, a feature point group 24, that is, a candidate object 25 is extracted by the
そして、オブジェクト抽出装置2は、所定の動画データ21の動画情報及びこの動画データ21を構成する複数の処理フレーム22の各フレーム情報と共に、各処理フレーム22から抽出した候補オブジェクト25をオブジェクト認識装置4へと出力する。
Then, the
オブジェクト認識装置4では、上記のようにしてオブジェクト抽出装置2から入力した候補オブジェクト25のオブジェクト認識処理が行われて(ステップS8)、この候補オブジェクト25がオブジェクトDB3に格納された参照オブジェクト3aに相当するか否かが判定される。
In the
そして、候補オブジェクト25が一の参照オブジェクト3aに相当すると判定されると、この一の参照オブジェクト3aの付属情報に基づいてオブジェクト情報が生成されて候補オブジェクト25に付加される(ステップS9)。一方、候補オブジェクト25が何れの参照オブジェクト3aにも相当しないと判定されると、所定の動画データ21の動画情報及びこの候補オブジェクトに対応する処理フレーム22のフレーム情報等に基づいて生成されたオブジェクト情報が候補オブジェクト25に付加される。
When it is determined that the candidate object 25 corresponds to one reference object 3a, object information is generated based on the attached information of the one reference object 3a and added to the candidate object 25 (step S9). On the other hand, if it is determined that the candidate object 25 does not correspond to any reference object 3a, the object generated based on the moving image information of the predetermined moving
そして、オブジェクト認識処理後の候補オブジェクト25は、学習データ生成のために、参照オブジェクト3aとしてオブジェクトDB3に格納される(ステップS10)。
Then, the candidate object 25 after the object recognition process is stored in the
更に、オブジェクト認識装置4では、所定の動画データ21の動画情報、動画データ21を構成する複数の処理フレーム22の各フレーム情報、及び各処理フレーム22の候補オブジェクト25のオブジェクト情報がメタデータ作成装置31へと出力される。
Further, in the
メタデータ作成装置31では、オブジェクト認識装置4から入力した動画情報、各フレーム情報及び各オブジェクト情報が集計され、その集計結果に基づいて、所定の動画データ21のメタデータ32aが作成される(ステップS11)。このメタデータ32aは、メタデータDB32に格納される(ステップS12)。
In the
また、上記したようなメタデータ作成システム30は、所定の動画データ21のメタデータ配信処理を行うメタデータ配信システム40に適用される。メタデータ配信システム40は、メタデータ32aを配信するメタデータ配信装置41を備える。
The
メタデータ配信装置41は、ネットワーク5を介してメタデータDB32と相互に通信可能に接続され、また、視聴者端末42とも相互に通信可能に接続される。なお、メタデータ配信装置41は、メタデータDB32と相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、一体的に構成されてもよい。また、メタデータ配信装置41は、メタデータ作成装置31と一体的に構成されてもよい。
The
メタデータ配信装置41は、視聴者端末42からのアクセスに応じて、動画データ21のメタデータ32aをメタデータDB32から取得して提供するように構成される。また、メタデータ配信装置41は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末42からの要求に応じて動画データ21のメタデータ32aを提供するように構成されてもよい。
The
視聴者端末42は、例えば、ネットワーク5に接続可能であって、ネットワーク5を介して配信された動画データ21を再生可能なスマートフォン、携帯電話機及びタブレット等の携帯端末や、パーソナルコンピュータ及びテレビ等の据え置き型端末でよい。あるいは、視聴者端末42は、例えば、ネットワーク5に接続可能であって、DVD等の記憶媒体に記憶された動画データ21を読み出して再生可能な再生装置でもよい。
The
例えば、視聴者端末42は、視聴者端末42からのアクセスに応じて動画データ21をダウンロード方式やストリーミング方式で配信する動画DB6にネットワーク5を介して接続され、動画DB6から配信された動画データ21を再生する。なお、動画DB6は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末42からの要求に応じて動画データ21を配信するように構成されてもよい。
For example, the
本実施形態では、上述のように、オブジェクト抽出装置2は、動画データ21を構成する2次元画像の複数のフレームの内、オブジェクト抽出対象の処理フレーム22に特徴点抽出処理を行って、処理フレーム22の複数の特徴点23を抽出すると共に、各特徴点23の2次元画像上の第1特徴量を検出し、処理フレーム22に深度検出処理を行って、処理フレーム22の各特徴点23について周囲の特徴点23からの相対的な深度を検出し、処理フレーム22に3次元空間推定処理を行って、処理フレーム22の複数の特徴点23それぞれの少なくとも第1特徴量及び深度に基づいて処理フレーム22内の現実3次元空間26を推定し、処理フレーム22の複数の特徴点23の現実3次元空間26上の第2特徴量を検出し、処理フレーム22の複数の特徴点23それぞれの少なくとも第2特徴量及び色分布に基づいてオブジェクト抽出処理を行って、処理フレーム22の2つ以上の特徴点23の集合からなる特徴点群24を検出し、現実3次元空間26上の特徴量を有する特徴点群24を、処理フレーム22の候補オブジェクト25として抽出する。
In the present embodiment, as described above, the
このような構成により、処理フレーム22の各特徴点23の現実3次元空間26上の第2特徴量及び色分布に基づいて、2つ以上の特徴点23の集合からなる特徴点群24を判断するため、より高精度でオブジェクトを抽出することができる。また、3次元画像を撮影する撮像装置によって生成された動画データを用いることなく、処理フレーム22から現実3次元空間26上の特徴量を有する候補オブジェクト25を抽出することができる。更に、この候補オブジェクト25は、現実3次元空間26上の特徴量を有するため、撮影角度に依存することなく、人物や物等の特徴を識別することができ、従って、高精度で認識することができる。これにより、認識したオブジェクトの情報の利便性を高めて、動画の利用及び普及の向上を図ることが可能となる。
With such a configuration, a feature point group 24 composed of a set of two or more feature points 23 is determined based on the second feature amount and color distribution of each
また、本実施形態によれば、オブジェクト抽出装置2は、動画データ21を構成する複数の処理フレーム22の内、時間軸において前後に連続していて同一シーンを構成する2つ以上の共通の処理フレーム22がある場合に、2つ以上の共通の処理フレーム22のそれぞれについて深度検出処理、3次元空間推定処理及びオブジェクト抽出処理を行うとき、現実3次元空間26上の特徴量を有する特徴点群24であって、2つ以上の共通の処理フレーム22に共通して検出された特徴点群24を、同一シーンの候補オブジェクト25として抽出する。
In addition, according to the present embodiment, the
このような構成により、現実3次元空間26上の特徴量を用いることで、撮影した角度に拘らず、同一シーンに登場する同一のオブジェクトを高精度で認識することができる。
With such a configuration, the same object appearing in the same scene can be recognized with high accuracy regardless of the photographed angle by using the feature amount in the actual three-
また、本実施形態によれば、オブジェクト抽出装置2は、2つ以上の共通の処理フレーム22のそれぞれに特徴点抽出処理を行うとき、一の共通の処理フレーム22から抽出された複数の特徴点23と、他の共通の処理フレーム22から抽出された複数の特徴点23との差異を利用して、一の共通の処理フレーム22の特徴点23を増やす。
Further, according to the present embodiment, when the
このような構成により、より多くの特徴点23を有する候補オブジェクト25を抽出することができ、オブジェクト認識処理では、より多くの特徴点23を用いるため、候補オブジェクト25の認識精度を高めることができる。 With such a configuration, candidate objects 25 having more feature points 23 can be extracted, and more feature points 23 are used in the object recognition process, so that recognition accuracy of candidate objects 25 can be improved. .
また、本実施形態によれば、オブジェクト抽出装置2において、同一シーンの候補オブジェクト25は、現実3次元空間26上の特徴量に加えて、この現実3次元空間26上の特徴量の同一シーン上の時間変位量も有する。
Further, according to the present embodiment, in the
このような構成により、同一シーンの候補オブジェクト25の現実3次元空間26上の動作の特徴量を抽出することができる。そして、オブジェクトの様々な動作の特徴を記録した参照オブジェクト3aをオブジェクトDB3に格納して、オブジェクト認識装置4が候補オブジェクト25の動作と参照オブジェクト3aの動作とを比較することにより、候補オブジェクト25がどのような動作をしているかを判断することもできる。なお、この場合の動作の特徴量は、候補オブジェクト25の種類まで特定する必要はないが、処理フレーム22に対する出現及び退出等、現実3次元空間26上の移動方向及び移動量、回転動作等を識別可能であればよい。
With such a configuration, it is possible to extract the feature amount of the motion on the real three-
あるいは、本実施形態によれば、オブジェクト抽出装置2は、動画データ21を高画質化処理することにより、処理フレーム22で候補オブジェクト25として抽出される特徴点群24の特徴点23を増やす。
Alternatively, according to the present embodiment, the
例えば、高画質化処理は、微小領域毎に様々な色分布を有する複数のテンプレート画像のそれぞれについて高画質データ及び低画質データの相違をサンプル化した様々な色分布の学習データを予め記憶しておき、処理フレームの微小領域毎に最も適合した学習データを用いて処理フレーム22を高画質化する。 For example, in the image quality enhancement processing, learning data of various color distributions obtained by sampling the difference between the high image quality data and the low image quality data for each of a plurality of template images having various color distributions for each minute region is stored in advance. Then, the processing frame 22 is improved in image quality using learning data that is most suitable for each minute region of the processing frame.
これらのような構成により、より多くの特徴点23を有する候補オブジェクト25を抽出することができ、オブジェクト認識処理では、より多くの特徴点23を用いるため、候補オブジェクト25の認識精度を高めることができる。 With such a configuration, candidate objects 25 having more feature points 23 can be extracted, and more feature points 23 are used in the object recognition process, so that the recognition accuracy of candidate objects 25 can be improved. it can.
更に、本実施形態では、上述のように、オブジェクト認識システム1は、上記のオブジェクト抽出装置2と、候補オブジェクト25を認識するための複数の参照オブジェクト3aを、各参照オブジェクト3aの元画像及び各参照オブジェクト3aに関連する付属情報と共に格納するデータベースであって、各参照オブジェクト3aの元画像に対する特徴点抽出処理、深度検出処理、3次元空間推定処理及びオブジェクト抽出処理によって、その元画像の現実3次元空間上の特徴量を有する特徴点群として抽出された各参照オブジェクト3aを格納しているオブジェクトDB3と、オブジェクト抽出装置2によって抽出された候補オブジェクト25が、オブジェクトDB3に格納されている複数の参照オブジェクト3aの何れに相当するかのオブジェクト認識処理を行うオブジェクト認識装置4と、を備える。そして、オブジェクト認識装置4は、候補オブジェクト25が複数の参照オブジェクト3aの内の一の参照オブジェクト3aに相当すると判定した場合に、一の参照オブジェクト3aの付属情報に基づいて生成したオブジェクト情報を候補オブジェクト25に付加する。
Further, in the present embodiment, as described above, the
このような構成により、高精度に抽出された候補オブジェクト25と、高精度に抽出された参照オブジェクト3aとを比較するため、候補オブジェクト25を高精度に認識処理することができる。そして、候補オブジェクト25には、参照オブジェクト3aの付属情報に基づいて精錬されたオブジェクト情報を生成するので、候補オブジェクト25をより適切に特定するオブジェクト情報が付加され、オブジェクト情報の利便性を高めることができる。 With such a configuration, since the candidate object 25 extracted with high accuracy is compared with the reference object 3a extracted with high accuracy, the candidate object 25 can be recognized and processed with high accuracy. And since the refined object information is generated for the candidate object 25 based on the attached information of the reference object 3a, the object information for specifying the candidate object 25 more appropriately is added, and the convenience of the object information is improved. Can do.
また、本実施形態によれば、オブジェクト認識システム1において、オブジェクト認識処理は、候補オブジェクト25の特徴点群24及び処理フレーム22における色分布と、参照オブジェクト3aの特徴点群及び元画像における色分布とを比較することによって行われる。
Further, according to the present embodiment, in the
このような構成により、候補オブジェクト25を特定する高精度な識別量と、参照オブジェクト3aを特定する高精度な識別量とが比較されるため、候補オブジェクト25の高精度な認識処理を実現している。 With such a configuration, a high-accuracy identification amount that identifies the candidate object 25 is compared with a high-accuracy identification amount that identifies the reference object 3a, thereby realizing a highly accurate recognition process for the candidate object 25. Yes.
また、本実施形態によれば、オブジェクト認識システム1において、オブジェクトDB3は、複数の参照オブジェクト3aをそれぞれの付属情報に基づいて分類していて、共通する付属情報を有する2つ以上の参照オブジェクト3aについては、その共通の付属情報を分類情報とした共通のカテゴリーに分類して格納している。
Further, according to the present embodiment, in the
このような構成により、オブジェクトDB3は、参照オブジェクト3aを付属情報に基づいて容易に検索することができ、更に、カテゴリーに基づいて容易に検索することもできる。
With such a configuration, the
また、本実施形態によれば、オブジェクト認識システム1は、複数の参照オブジェクト3aの内の一の参照オブジェクト3aに相当すると判定された候補オブジェクト25を、一の参照オブジェクト3aが分類されるカテゴリーの新たな参照オブジェクト3aとしてオブジェクトDB3に格納する。
Further, according to the present embodiment, the
なお、オブジェクト認識システム1は、複数の参照オブジェクト3aの何れにも相当しないと判定された候補オブジェクト25を、この候補オブジェクト25が分類される新たなカテゴリーの参照オブジェクト3aとしてオブジェクトDBに格納する。
The
これらのような構成により、オブジェクト認識処理の結果の候補オブジェクト25を、参照オブジェクト3aの学習データとすることができる。また、様々な動画データのオブジェクト認識処理をしていくことにより、高精度な認識結果の候補オブジェクト25に基づく学習データを増やすことができる。そのため、オブジェクト認識システム1の機械学習がより優秀となり、オブジェクト認識処理の精度及びの効率を向上させることができる。
With such a configuration, the candidate object 25 as a result of the object recognition process can be used as learning data for the reference object 3a. Further, by performing object recognition processing of various moving image data, it is possible to increase learning data based on the candidate objects 25 of highly accurate recognition results. Therefore, the machine learning of the
更に、本実施形態では、上述のように、メタデータ作成システムは、上記のオブジェクト認識システム1を備え、所定の動画データ21の動画情報と、所定の動画データ21を構成する複数の処理フレーム22のフレーム情報と、複数の処理フレーム22のそれぞれから抽出及び認識された候補オブジェクト25のオブジェクト情報とを集計して、その集計結果に基づいて、動画データ21に関するメタデータ32aを作成する。
Further, in the present embodiment, as described above, the metadata creation system includes the
このような構成により、候補オブジェクト25が高精度に認識されたフレーム情報や候補オブジェクト25をより適切に特定するオブジェクト情報を用いてメタデータ32aを作成している。そのため、メタデータ32aには、候補オブジェクト25の登場する処理フレーム22が適切に記述され、また、候補オブジェクト25についての説明が適切に記述されるので、動画データ21の内容が適切に反映されることとなる。これにより、メタデータ32aの利用価値が向上し、更には、メタデータ32aに対応する動画データ21の利用及び普及の向上を図ることができる。
With this configuration, the
本実施形態では、オブジェクト抽出装置2がオブジェクト認識システム1に適用される構成を説明したが、この構成に限定されない。例えば、他の実施形態では、オブジェクト抽出装置2は、被写体を撮影した画像から被写体の候補オブジェクト25を抽出し、この候補オブジェクト25の3次元空間上の特徴量に基づいて、立体画像を立体表示スクリーンに表示させる立体表示システム等に適用することもできる。
In the present embodiment, the configuration in which the
1 オブジェクト認識システム
2 オブジェクト抽出装置
3 オブジェクトデータベース(DB)
3a 参照オブジェクト
4 オブジェクト認識装置
5 ネットワーク
6 動画データベース(DB)
7 画像収集装置
8 抽出処理データベース(DB)
10 制御部
11 記憶部
12 通信部
13 動画入力部
14 フレーム取得部
15 高画質化部
16 フレーム調整部
17 特徴点抽出部
18 深度検出部
19 3次元空間推定部
20 オブジェクト抽出部
21 動画データ
22 処理フレーム
23 特徴点
24 特徴点群
25 候補オブジェクト
26 現実3次元空間
30 メタデータ作成システム
31 メタデータ作成装置
32 メタデータデータベース(DB)
32a メタデータ
40 メタデータ配信システム
41 メタデータ配信装置
42 視聴者端末
1
7
DESCRIPTION OF
Claims (12)
前記処理フレームに深度検出処理を行って、前記処理フレームの各特徴点について周囲の特徴点からの相対的な深度を検出し、
前記処理フレームに3次元空間推定処理を行って、前記処理フレームの複数の特徴点それぞれの少なくとも前記第1特徴量及び前記深度に基づいて前記処理フレーム内の現実3次元空間を推定し、前記処理フレームの複数の特徴点の前記現実3次元空間上の第2特徴量を検出し、
前記処理フレームの複数の特徴点それぞれの少なくとも前記第2特徴量及び色分布に基づいてオブジェクト抽出処理を行って、前記処理フレームの2つ以上の特徴点の集合からなる特徴点群を検出し、前記現実3次元空間上の特徴量を有する前記特徴点群を、前記処理フレームの候補オブジェクトとして抽出することを特徴とするオブジェクト抽出装置。 Among the plurality of frames of the two-dimensional image constituting the moving image data, the feature point extraction process is performed on the processing frame to be extracted, and a plurality of feature points of the processing frame are extracted. Detecting a first feature on the image;
Performing a depth detection process on the processing frame to detect a relative depth from surrounding feature points for each feature point of the processing frame;
Performing a three-dimensional space estimation process on the processing frame, estimating a real three-dimensional space in the processing frame based on at least the first feature amount and the depth of each of a plurality of feature points of the processing frame; Detecting a second feature amount in the real three-dimensional space of a plurality of feature points of the frame;
Performing object extraction processing based on at least the second feature amount and color distribution of each of the plurality of feature points of the processing frame to detect a feature point group consisting of a set of two or more feature points of the processing frame; An object extraction apparatus, wherein the feature point group having the feature amount in the real three-dimensional space is extracted as a candidate object of the processing frame.
前記2つ以上の共通の処理フレームのそれぞれについて前記深度検出処理、前記3次元空間推定処理及び前記オブジェクト抽出処理を行うとき、前記現実3次元空間上の特徴量を有する特徴点群であって、前記2つ以上の共通の処理フレームに共通して検出された特徴点群を、前記同一シーンの候補オブジェクトとして抽出することを特徴とする請求項1に記載のオブジェクト抽出装置。 In the case where there are two or more common processing frames that constitute the same scene in the time axis among the plurality of processing frames constituting the moving image data,
When performing the depth detection process, the three-dimensional space estimation process, and the object extraction process for each of the two or more common processing frames, a feature point group having a feature amount in the real three-dimensional space, 2. The object extraction apparatus according to claim 1, wherein a feature point group detected in common in the two or more common processing frames is extracted as a candidate object of the same scene.
前記候補オブジェクトを認識するための複数の参照オブジェクトを、前記各参照オブジェクトの元画像及び前記各参照オブジェクトに関連する付属情報と共に格納するデータベースであって、前記各参照オブジェクトの元画像に対する前記特徴点抽出処理、前記深度検出処理、前記3次元空間推定処理及び前記オブジェクト抽出処理によって、その元画像の現実3次元空間上の特徴量を有する特徴点群として抽出された前記各参照オブジェクトを格納しているオブジェクトデータベースと、
前記オブジェクト抽出装置によって抽出された前記候補オブジェクトが、前記オブジェクトデータベースに格納されている前記複数の参照オブジェクトの何れに相当するかのオブジェクト認識処理を行うオブジェクト認識装置と、を備え、
前記オブジェクト認識装置は、前記候補オブジェクトが前記複数の参照オブジェクトの内の一の参照オブジェクトに相当すると判定した場合に、前記一の参照オブジェクトの前記付属情報に基づいて生成したオブジェクト情報を前記候補オブジェクトに付加することを特徴とするオブジェクト認識システム。 The object extraction device according to any one of claims 1 to 6,
A database for storing a plurality of reference objects for recognizing the candidate objects together with an original image of each reference object and attached information related to each reference object, wherein the feature points with respect to the original image of each reference object Each reference object extracted as a feature point group having a feature amount in the actual three-dimensional space of the original image by the extraction process, the depth detection process, the three-dimensional space estimation process, and the object extraction process is stored. An object database
An object recognition device that performs object recognition processing on which the candidate object extracted by the object extraction device corresponds to which of the plurality of reference objects stored in the object database;
When the object recognition device determines that the candidate object corresponds to one reference object of the plurality of reference objects, the object recognition device generates object information generated based on the attached information of the one reference object. An object recognition system characterized by being added to the object.
所定の前記動画データの動画情報と、前記所定の動画データを構成する複数の前記処理フレームのフレーム情報と、前記複数の処理フレームのそれぞれから抽出及び認識された前記候補オブジェクトの前記オブジェクト情報とを集計して、その集計結果に基づいて、前記動画データに関するメタデータを作成することを特徴とするメタデータ作成システム。 The object recognition system according to any one of claims 7 to 11, comprising:
Moving image information of the predetermined moving image data, frame information of the plurality of processing frames constituting the predetermined moving image data, and the object information of the candidate object extracted and recognized from each of the plurality of processing frames. A metadata creation system comprising: summing up and creating metadata relating to the moving image data based on the summation result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017038203A JP6340675B1 (en) | 2017-03-01 | 2017-03-01 | Object extraction device, object recognition system, and metadata creation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017038203A JP6340675B1 (en) | 2017-03-01 | 2017-03-01 | Object extraction device, object recognition system, and metadata creation system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6340675B1 true JP6340675B1 (en) | 2018-06-13 |
JP2018147019A JP2018147019A (en) | 2018-09-20 |
Family
ID=62555222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017038203A Active JP6340675B1 (en) | 2017-03-01 | 2017-03-01 | Object extraction device, object recognition system, and metadata creation system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6340675B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112513873A (en) * | 2018-07-30 | 2021-03-16 | 康蒂-特米克微电子有限公司 | Identification of pedestrian's movement intention from camera images |
JP7126088B2 (en) | 2018-03-29 | 2022-08-26 | 国立研究開発法人産業技術総合研究所 | Method for producing organosilicon compound using halosilanes as raw material |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102231794B1 (en) * | 2019-06-26 | 2021-03-25 | 유수연 | Method for deleting an object in image using artificial intelligence |
JP7519506B1 (en) | 2023-06-13 | 2024-07-19 | ソフトバンク株式会社 | Data processing device and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006139682A (en) * | 2004-11-15 | 2006-06-01 | Matsushita Electric Ind Co Ltd | Video search system, video search method, and program |
JP2014532941A (en) * | 2011-11-02 | 2014-12-08 | グーグル・インコーポレーテッド | Generation of a depth map for an input image using an exemplary approximate depth map associated with an exemplary similar image |
JP2015215895A (en) * | 2014-05-09 | 2015-12-03 | 株式会社リコー | Depth value restoration method of depth image, and system thereof |
JP2017011581A (en) * | 2015-06-24 | 2017-01-12 | 株式会社Jストリーム | Moving picture processing device and moving picture processing system |
-
2017
- 2017-03-01 JP JP2017038203A patent/JP6340675B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006139682A (en) * | 2004-11-15 | 2006-06-01 | Matsushita Electric Ind Co Ltd | Video search system, video search method, and program |
JP2014532941A (en) * | 2011-11-02 | 2014-12-08 | グーグル・インコーポレーテッド | Generation of a depth map for an input image using an exemplary approximate depth map associated with an exemplary similar image |
JP2015215895A (en) * | 2014-05-09 | 2015-12-03 | 株式会社リコー | Depth value restoration method of depth image, and system thereof |
JP2017011581A (en) * | 2015-06-24 | 2017-01-12 | 株式会社Jストリーム | Moving picture processing device and moving picture processing system |
Non-Patent Citations (1)
Title |
---|
EIGEN, DAVID AND PUHRSCH, CHRISTIAN AND FERGUS, ROB: "Depth Map Prediction from a Single Image using a Multi-Scale Deep Network", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 27, JPN6018010966, 2014, pages 2366 - 2374 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7126088B2 (en) | 2018-03-29 | 2022-08-26 | 国立研究開発法人産業技術総合研究所 | Method for producing organosilicon compound using halosilanes as raw material |
CN112513873A (en) * | 2018-07-30 | 2021-03-16 | 康蒂-特米克微电子有限公司 | Identification of pedestrian's movement intention from camera images |
Also Published As
Publication number | Publication date |
---|---|
JP2018147019A (en) | 2018-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8542929B2 (en) | Image processing method and apparatus | |
US10469701B2 (en) | Image processing method that obtains special data from an external apparatus based on information multiplexed in image data and apparatus therefor | |
JP6340675B1 (en) | Object extraction device, object recognition system, and metadata creation system | |
RU2612378C1 (en) | Method of replacing objects in video stream | |
JP5492087B2 (en) | Content-based image adjustment | |
CN101017507B (en) | Image group representation method and device | |
JP6184271B2 (en) | Imaging management apparatus, imaging management system control method, and program | |
US11037308B2 (en) | Intelligent method for viewing surveillance videos with improved efficiency | |
JP2016527791A (en) | Image processing method and apparatus | |
US20100250588A1 (en) | Image searching system and image searching method | |
JPWO2006025272A1 (en) | Video classification device, video classification program, video search device, and video search program | |
CN106416220A (en) | Automatic insertion of video into a photo story | |
KR101812103B1 (en) | Method and program for setting thumbnail image | |
JP2007088814A (en) | Imaging apparatus, image recorder and imaging control program | |
KR20130120175A (en) | Apparatus, method and computer readable recording medium for generating a caricature automatically | |
KR20150112535A (en) | Representative image managing apparatus and method | |
JP2012203823A (en) | Image recognition device | |
KR100477801B1 (en) | Apparatus and Method of 3-Dimensional Image Data Description and Apparatus and Method of 3-Dimensional Image Data search | |
KR20140026078A (en) | Apparatus and method for extracting object | |
US11044399B2 (en) | Video surveillance system | |
WO2014132816A1 (en) | Image processing device, method, and program | |
KR102268981B1 (en) | Original image detection apparatus using feature values in 360 degree images and method thereof | |
KR101718309B1 (en) | The method of auto stitching and panoramic image genertation using color histogram | |
KR101260817B1 (en) | Method for enhancing feature points of digital contents for supporting robust detection and tracking, and computer readable recording medium for the same | |
JP2008090570A (en) | Information processor and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180502 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180425 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6340675 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |