JP5953151B2 - Learning device and program - Google Patents
Learning device and program Download PDFInfo
- Publication number
- JP5953151B2 JP5953151B2 JP2012157813A JP2012157813A JP5953151B2 JP 5953151 B2 JP5953151 B2 JP 5953151B2 JP 2012157813 A JP2012157813 A JP 2012157813A JP 2012157813 A JP2012157813 A JP 2012157813A JP 5953151 B2 JP5953151 B2 JP 5953151B2
- Authority
- JP
- Japan
- Prior art keywords
- learning data
- learning
- data
- video
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 claims description 96
- 238000013500 data storage Methods 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 28
- 238000010276 construction Methods 0.000 claims description 24
- 238000012937 correction Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000013075 data extraction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本発明は、映像に検出対象が含まれているかを検出する識別器を学習する学習装置、及びプログラムに関する。 The present invention relates to a learning apparatus and a program for learning a discriminator that detects whether a detection target is included in a video.
映像を検索する技術として、色ヒストグラムを索引として利用する手法がある。具体的には、与えられたクエリ映像に対して色ヒストグラムを算出し、予め用意されている映像の中から同様の色ヒストグラムを持つ映像区間を検索する。この手法では、検索対象の映像における時間窓の位置をずらしながら、色ヒストグラムが類似する区間を検索していくことによって類似映像区間を特定する。しかし、映像の色を利用した検索手法の場合、映像の内容を全く考慮していないため、意味的には同一なオブジェクトの映像であっても色が異なる場合は検出できなかったり、全く異なるオブジェクトやイベントであっても色が似ている場合は、同一とみなされたりしてしまう。 As a technique for searching for an image, there is a method of using a color histogram as an index. Specifically, a color histogram is calculated for a given query video, and a video section having a similar color histogram is searched from videos prepared in advance. In this method, a similar video section is specified by searching for a section having similar color histograms while shifting the position of the time window in the search target video. However, in the case of the search method using the color of the video, the content of the video is not considered at all, so even if the video of the same object is semantically, it cannot be detected if the color is different, or a completely different object Even if it is an event, if the colors are similar, they will be regarded as the same.
そこで、映像についての高度な検索や要約のためには、色やテクスチャなどの表層的な特徴ではなく、意味内容を考慮した索引が必要である。そこで、対象物がある分類に属するかを判断する識別器を検索に利用することが考えられる。このような識別器を構築するためには、正例、及び負例の学習データを用いて学習を行う。正例とは、検出対象の物体や事象が出現しているデータを表し、負例とは、検出対象の物体や事象が出現していないデータを表す。 Therefore, for advanced search and summarization of video, an index that takes into account the semantic content rather than surface features such as color and texture is necessary. Therefore, it is conceivable to use a discriminator for determining whether an object belongs to a certain classification for the search. In order to construct such a discriminator, learning is performed using learning data of positive examples and negative examples. A positive example represents data in which an object or event to be detected appears, and a negative example represents data in which an object or event to be detected does not appear.
図7は、学習データを用いた識別器の構築を説明するための図である。同図は、学習データから得られる特徴量を各要素としたベクトルが配置されるベクトル空間を示しており、実際は多次元である。各点は、学習データの特徴ベクトルの位置を示し、黒い点は正例を、白抜きの点は負例を示す。識別器の構築とは、点線で示すように、この空間における正例と負例の境界を定めることに相当する。よって、境界付近の学習データを多く集めるほど、精度の高い識別器を構築することができる。 FIG. 7 is a diagram for explaining the construction of a discriminator using learning data. This figure shows a vector space in which vectors having feature amounts obtained from learning data as elements are arranged, and is actually multidimensional. Each point indicates the position of the feature vector of the learning data, a black point indicates a positive example, and a white point indicates a negative example. The construction of the discriminator corresponds to defining the boundary between the positive example and the negative example in this space, as indicated by a dotted line. Therefore, the more accurate the learning data near the boundary, the more accurate the classifier can be constructed.
学習データに対して、正例であるか負例であるかのラベルを正確に付与するためには、すべての学習データの内容を人間が確認してラベルを付与するという手法がもっとも確実である。しかし、十分に汎用的な識別器を構築するためには、大量のデータが必要となることから、様々な種類の物体や事象に対する学習データをこのような方法で作成することは非常に難しい。 In order to assign a correct or negative label to learning data, the most reliable method is to confirm the contents of all learning data and assign a label. . However, since a large amount of data is required to construct a sufficiently general classifier, it is very difficult to create learning data for various types of objects and events by such a method.
この問題を解決するための方法として、正例か負例かのラベルがすでに付与されている一部の学習データを用いて識別器を学習し、その検出結果に基づいてラベルを修正するという手続きを繰り返すことによって、識別器を構築するアプローチがある。この方法においては、最初のラベルをどのように与えるかが重要となる。これは、ラベルを基に識別器の学習と、学習データの修正とを反復することから、最初の学習データが偏っていると、一部のデータに特化した識別器が構築されてしまうためである。例えば、時計全般を検出する識別器を構築する際、初期の学習データに腕時計しか含まれていないと、掛け時計や置き時計などは精度よく検出できない識別器が構築されてしまう。あるいは、初期の学習データが特定のアングルで撮影されたものしか含まれていない場合、そのアングルでしか精度よく検出できないといったことも考えられる。 As a method for solving this problem, a procedure is performed in which a discriminator is learned using a part of learning data that has already been given a positive or negative label, and the label is corrected based on the detection result. There is an approach to construct a discriminator by repeating the above. In this method, it is important how to give the first label. This is because the learning of the discriminator and the correction of the learning data are repeated based on the label, and if the initial learning data is biased, a discriminator specialized for some data is constructed. It is. For example, when constructing a discriminator that detects a clock as a whole, if only initial watches are included in the initial learning data, a discriminator that cannot accurately detect a wall clock, a table clock, or the like is constructed. Alternatively, if the initial learning data includes only data shot at a specific angle, it may be possible to accurately detect only at that angle.
初期の学習データの作成方法としては、別々に開発された複数の識別手法により検出された結果を用いて識別器を学習し、最初の学習データを生成するというものがある(例えば、非特許文献1参照)。 As an initial learning data generation method, there is a method of learning a discriminator using results detected by a plurality of separately developed identification methods and generating initial learning data (for example, non-patent literature). 1).
非特許文献1のような初期の学習データの作成方法では、最初の学習データの生成に用いる識別手法において、十分な精度と多様性が確保されているかが問題となる。また、識別器自体をどのように学習するかという問題もある。 In the initial learning data creation method as in Non-Patent Document 1, there is a problem whether sufficient accuracy and diversity are ensured in the identification method used for generating the first learning data. There is also the problem of how to learn the classifier itself.
本発明は、このような事情を考慮してなされたもので、多様性のある学習データを用いた学習により映像から特定の物体や事象などの検出対象を高い精度で検出する識別器を構築する学習装置、及びプログラムを提供する。 The present invention has been made in view of such circumstances, and constructs a discriminator that detects a detection target such as a specific object or event from a video with high accuracy by learning using diverse learning data. A learning device and a program are provided.
[1] 本発明の一態様は、映像データを記憶する映像データ記憶部と、映像データの特徴量と当該映像データに検出対象が出現している正例であるか出現していない負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部と、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する識別器構築部と、前記識別器構築部が構築した前記識別器により、前記学習データ記憶部に記憶されている前記学習データに対して、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを、前記識別器を用いて検出する検出処理を行う識別器検出部と、前記識別器検出部による検出結果に基づいて前記識別器の精度を判定する判定部と、前記判定部において識別器の精度が所定の精度に達していないと判断された場合、前記映像データ記憶部に記憶されている前記映像データのうち一部を選択し、選択した前記映像データの特徴量に正例のラベルを付与して生成した学習データを前記学習データ記憶部に追加する学習データ追加部と、を備え、前記学習データ追加部は、前記映像データ記憶部に記憶されている前記映像データのうち、ランダムに選択した前記映像データ、前記学習データ記憶部に記憶されている正例の前記学習データが得られた映像データに類似する映像データ、あるいは、構築対象の前記識別器と類似の検出対象に対応した他の識別器によって検出された前記映像データの中から一部を選択する、ことを特徴とする学習装置である。
この態様によれば、学習装置は、正例及び負例の初期の学習データから、映像が検出対象に関連するかを検出する識別器を構築し、構築した識別器により学習データを対象に検出処理を行って精度を確認する。精度が低い場合、学習装置は、映像データ記憶部に記憶されている映像データの中の一部から学習データを生成し、現在の学習データに正例として追加する。学習装置は、精度が高くなるまで、学習データを用いた識別器の構築と、学習データの追加を繰り返す。
これにより、学習装置は、偏りのない学習データを生成することができるため、映像から特定の物体や事象などの検出対象を高い精度で検出する識別器を構築することが可能となる。
[1] One aspect of the present invention is a video data storage unit that stores video data, a feature amount of the video data, and a positive example in which a detection target appears in the video data, or a negative example in which the detection target does not appear. A learning data storage unit for storing learning data including a label indicating whether or not, when initial learning data is registered in the learning data storage unit, and when learning data is added to the learning data storage unit A classifier constructing unit that constructs a discriminator using the learning data stored in the learning data storage unit, and a discriminator constructed by the classifier constructing unit and stored in the learning data storage unit. For the learning data, among the video sections of the input video data, the video section that looks similar to the current positive learning data, the video data of the video section that has similar audio features, Knowledge A discriminator detector that performs detection processing using a separate device, a determination unit that determines the accuracy of the discriminator based on a detection result by the discriminator detector, and the accuracy of the discriminator is predetermined in the determination unit When it is determined that the accuracy of the video data has not been reached, a part of the video data stored in the video data storage unit is selected, and a positive example label is attached to the feature amount of the selected video data. A learning data adding unit that adds the generated learning data to the learning data storage unit, and the learning data adding unit randomly selected from the video data stored in the video data storage unit Video data, video data similar to the video data obtained from the learning data of the positive example stored in the learning data storage unit, or a detection target similar to the classifier to be constructed Selecting a portion from the image data detected by the other discriminator, it is learning apparatus according to claim.
According to this aspect, the learning device constructs a discriminator that detects whether the video is related to the detection target from the initial learning data of the positive example and the negative example, and detects the learning data by the built discriminator. Process to check accuracy. When the accuracy is low, the learning device generates learning data from a part of the video data stored in the video data storage unit, and adds it as a positive example to the current learning data. The learning device repeats the construction of the discriminator using the learning data and the addition of the learning data until the accuracy becomes high.
Thereby, since the learning apparatus can generate learning data without bias, it is possible to construct a discriminator that detects a detection target such as a specific object or event from a video with high accuracy.
また、この態様によれば、学習装置は、登録されている映像データの中から、無作為に選択した映像データ、正例の映像データに視覚的あるいは聴覚的に類似性の高い映像データ、あるいは、構築対象の識別器が検出対象としている物体や事象と意味的に類似した検出対象を検出する学習済みの識別器を使用して検出された映像データの一部を選択し、選択した映像データから学習データを生成して現在の学習データに追加する。
これにより、学習装置は、多様性が向上するように学習データを追加することができるため、より精度の高い識別器の構築が可能となる。
Further , according to this aspect, the learning device can select video data that is randomly selected from the registered video data, video data that is visually or auditorily similar to the positive video data, or Select a portion of the video data detected using a learned classifier that detects a detection target that is semantically similar to the object or event that is being detected by the target classifier. The learning data is generated from and added to the current learning data.
As a result, the learning device can add learning data so as to improve diversity, so that a more accurate classifier can be constructed.
[2] 本発明の一態様は、上述した学習装置であって、前記識別器検出部は、前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データに対して前記識別器により検出を行い、検出結果に基づいて前記学習データのラベルに正例または負例を設定し、前記識別器構築部は、前記学習データ記憶部に学習データが追加されたときには、前記識別器検出部によるラベルの設定後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、ことを特徴とする。
この態様によれば、学習装置は、繰り返し処理における識別器の構築前に、追加後の学習データを含む全ての学習データに対して現在の識別器により検出を行い、検出結果に基づいて学習データのラベルを書き換える。
これにより、学習データのラベルの誤りが修正されるため、構築される識別器の性能を向上させることができる。
[ 2 ] One aspect of the present invention is the learning device described above, wherein the discriminator detection unit is stored in the learning data storage unit when learning data is added to the learning data storage unit. The learning data is detected by the discriminator, a positive example or a negative example is set as a label of the learning data based on a detection result, and the discriminator construction unit stores the learning data in the learning data storage unit. When added, after the label is set by the discriminator detector, a discriminator is constructed using the learning data stored in the learning data storage unit.
According to this aspect, the learning device detects all the learning data including the learning data after the addition by the current classifier before constructing the classifier in the iterative process, and learns data based on the detection result. Rewrite the label.
Thereby, since the error of the label of learning data is corrected, the performance of the constructed discriminator can be improved.
[3] 本発明の一態様は、上述した学習装置であって、前記学習データ記憶部に登録された前記初期の学習データ、あるいは、前記識別器検出部によりラベルが設定された前記学習データに対して、ユーザ入力または他の識別器による前記学習データの検出結果に基づいて前記学習データのラベルを修正する学習データ修正部をさらに備え、前記識別器構築部は、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ修正部によるラベルの修正後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、ことを特徴とする。
この態様によれば、学習装置は、識別器の構築前に、学習データの正例、負例のラベルを、ユーザの入力、あるいは、他の識別器による検出結果に基づいて修正する。
これにより、学習データのラベルの誤りが精度よく修正されるため、構築される識別器の性能を向上させることができる。
[ 3 ] One aspect of the present invention is the learning device described above, wherein the initial learning data registered in the learning data storage unit or the learning data in which a label is set by the classifier detection unit is used. On the other hand, a learning data correction unit that corrects a label of the learning data based on a user input or a detection result of the learning data by another discriminator is further provided, and the discriminator construction unit initially stores the learning data storage unit. When the learning data is registered, and when the learning data is added to the learning data storage unit, the learning data stored in the learning data storage unit is corrected after the label correction by the learning data correction unit. The classifier is used to construct a classifier.
According to this aspect, the learning device corrects the positive example and negative example labels of the learning data based on the input from the user or the detection result by another classifier before the classifier is constructed.
Thereby, since the error of the label of learning data is corrected accurately, the performance of the constructed discriminator can be improved.
[4] 本発明の一態様は、上述した学習装置であって、前記映像データの音声を表すテキストデータに、構築する前記識別器による検出対象を表すキーワード及び当該キーワードに関連する他のキーワードが含まれるかを検出し、検出されたテキストデータに対応した映像データの特徴量に正例のラベルを付与して初期の学習データを生成し、前記学習データ記憶部に登録する初期学習データ生成部をさらに備える、ことを特徴とする。
この態様によれば、映像の色やテクスチャなどの表層的な特徴ではなく、映像データの内容に基づいて初期の学習データを生成することができる。
これにより、学習装置は、映像データの内容に基づいて多様性のある初期の学習データを生成し、意味内容に基づく映像を精度よく検索可能とする識別器を構築することができる。
[ 4 ] One aspect of the present invention is the above-described learning device, in which text data representing audio of the video data includes a keyword representing a detection target by the classifier to be constructed and other keywords related to the keyword. An initial learning data generation unit that detects whether it is included, generates initial learning data by adding a positive example label to the feature amount of the video data corresponding to the detected text data, and registers it in the learning data storage unit Is further provided.
According to this aspect, it is possible to generate the initial learning data based on the content of the video data rather than the surface features such as the color and texture of the video.
Thereby, the learning device can generate a variety of initial learning data based on the content of the video data, and can construct a discriminator that can accurately search the video based on the semantic content.
[5] 本発明の一態様は、映像データの特徴量と当該映像データに検出対象が出現している正例であるか出現していない負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部、映像の特徴量と検出対象に対して正例であるか負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する識別器構築部、前記識別器構築部が構築した前記識別器により、前記学習データ記憶部に記憶されている前記学習データに対して、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを、前記識別器を用いて検出する検出処理を行う識別器検出部、前記識別器検出部による検出結果に基づいて前記識別器の精度を判定する判定部、前記判定部において識別器の精度が所定の精度に達していないと判断された場合、前記映像データ記憶部に記憶されている前記映像データのうち一部を選択し、選択した前記映像データの特徴量に正例のラベルを付与して生成した学習データを前記学習データ記憶部に追加する学習データ追加部、として機能させ、前記学習データ追加部が、前記映像データ記憶部に記憶されている前記映像データのうち、ランダムに選択した前記映像データ、前記学習データ記憶部に記憶されている正例の前記学習データが得られた映像データに類似する映像データ、あるいは、構築対象の前記識別器と類似の検出対象に対応した他の識別器によって検出された前記映像データの中から一部を選択するよう機能させるプログラムである。 [ 5 ] According to one aspect of the present invention, learning data including a feature amount of video data and a label indicating whether a detection target appears in the video data is a positive example or a negative example that does not appear. A learning data storage unit for storing, a learning data storage unit for storing learning data including a feature amount of a video and a label indicating whether the detection target is a positive example or a negative example, and an initial in the learning data storage unit When the learning data is registered, and when learning data is added to the learning data storage unit, a classifier construction unit that constructs a classifier using the learning data stored in the learning data storage unit The learning data stored in the learning data storage unit by the classifier constructed by the classifier construction unit is viewed as current learning data from the video section of the input video data. Is similar The classifier based and has video section, the image data of the image segment in which speech features are similar, the identifier detection unit that performs detection processing for detecting the use of the identification device, the detection result of the classifier detector A determination unit for determining the accuracy of the video data, and when the determination unit determines that the accuracy of the discriminator has not reached a predetermined accuracy, a part of the video data stored in the video data storage unit is selected. A learning data adding unit that adds learning data generated by assigning a positive example label to the feature amount of the selected video data to the learning data storage unit, and the learning data adding unit includes the video data Video data from which the video data selected at random among the video data stored in the storage unit and the learning data of the positive example stored in the learning data storage unit are obtained Video data similar, or a program to function to select a part among the image data detected by other identifier corresponding to the similar detection target and the identifier of the building object.
本発明によれば、多様性のある学習データを生成し、生成された学習データを用いた学習により映像から特定の物体や事象などの検出対象を高い精度で検出する識別器を構築することができる。 According to the present invention, it is possible to generate a variety of learning data, and to construct a discriminator that detects a detection object such as a specific object or event from a video with high accuracy by learning using the generated learning data. it can.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の一実施形態による学習装置1の構成を示すブロック図であり、本実施形態に関係する機能ブロックのみを抽出して示してある。学習装置1は、例えば、1台または複数台のサーバコンピュータ等のコンピュータ装置により実現することができる。 FIG. 1 is a block diagram showing a configuration of a learning device 1 according to an embodiment of the present invention, and shows only functional blocks related to the present embodiment. The learning device 1 can be realized by a computer device such as one or a plurality of server computers, for example.
学習装置1は、入力された映像データ(以下、「入力映像データ」と記載する。)から生成された正例及び負例の学習データを用いて学習を行い、識別器を構築する。ここで、正例とは、検出対象の物体(オブジェクト)や事象(イベント)が映像に出現していることを表し、負例とは、出現していないことを表す。また、識別器は、映像の特徴を入力とし、その映像が検出対象の物体や事象と関連するかを検出するアルゴリズムである。 The learning device 1 performs learning using positive and negative learning data generated from input video data (hereinafter referred to as “input video data”), and constructs a discriminator. Here, the positive example indicates that an object (object) or event (event) to be detected appears in the video, and the negative example indicates that it does not appear. The discriminator is an algorithm that receives video features and detects whether the video is related to an object or event to be detected.
そこでまず学習装置1は、入力映像データの音声を表すテキストを利用し、構築する識別器の検出対象を表すキーワードや、そのキーワードの同義語や類語、あるいは、キーワードと意味的な包含関係がある他のキーワードに対応する映像区間を抽出する。学習装置1は、抽出した映像区間を正例の初期の学習データとして識別器を構築し、構築した識別器の精度が十分でなければ、できるだけ多様性のある学習データを生成するために学習データを追加、修正し、再び識別器を構築する処理を繰り返す。 Therefore, first, the learning device 1 uses a text representing the sound of the input video data, and has a keyword representing a detection target of the classifier to be constructed, a synonym or a synonym of the keyword, or a semantic inclusion relation with the keyword. Video segments corresponding to other keywords are extracted. The learning device 1 constructs a discriminator using the extracted video section as initial learning data as a positive example, and if the constructed discriminator is not sufficiently accurate, the learning device 1 generates learning data as diverse as possible. Are added, corrected, and the process of constructing the classifier is repeated.
学習装置1は、学習データを追加する際、入力映像データをある単位で分割した映像区間の中から、無作為に選択した映像区間、正例と視聴覚的に類似性の高い映像区間、意味的に類似したキーワードに対応する学習済みの識別器を使用して検出された映像区間の映像データを一定割合だけ正例として既に生成されている学習データに混合する。これにより、学習データが一部に偏ったものにならないようにし、精度の高い識別器の構築を可能とする。 When the learning device 1 adds learning data, the learning device 1 randomly selects a video segment from among video segments obtained by dividing the input video data by a certain unit, a video segment that is visually similar to the positive example, and is semantic. The video data of the video section detected using the learned discriminator corresponding to the keyword similar to is mixed with the learning data already generated as a positive example by a certain ratio. As a result, the learning data is not partially biased, and a highly accurate classifier can be constructed.
同図に示すように、学習装置1は、記憶部10、入力部11、映像区間分割部12、初期学習データ生成部13、学習データ修正部14、識別器構築部15、識別器検出部16、識別器判定部17、及び学習データ追加部18を備えて構成される。
As shown in the figure, the learning device 1 includes a
記憶部10は、ハードディスク装置や半導体メモリなどで実現され、映像データ記憶部101、学習データ記憶部102、及び識別器記憶部103を備えて構成される。
映像データ記憶部101は、入力映像データ、及び音声テキストデータを記憶する。入力映像データは、動画のコンテンツデータであり、本実施形態では、動画として放送番組を用いる場合について説明する。
音声テキストデータは、入力映像データの音声を示すテキストデータと、そのテキストデータが対応する入力映像データの映像部分を特定する同期データとを含む。本実施形態では、音声テキストデータとして、番組音声の書き起こしを示すクローズドキャプションデータや、入力映像データに含まれる音声を音声認識した結果を示す音声認識データを用いる。
The
The video
The audio text data includes text data indicating the audio of the input video data and synchronization data for specifying a video portion of the input video data corresponding to the text data. In the present embodiment, closed caption data indicating transcription of program audio or voice recognition data indicating a result of voice recognition of voice included in input video data is used as voice text data.
学習データ記憶部102は、識別器を構築するための学習データを記憶する。学習データは、入力映像データにおける映像区間と、特徴データと、正例であるか負例であるかのラベルとの対応付けを示す。特徴データは、映像区間における画像特徴量を示す。
The learning
識別器記憶部103は、既存の識別器と、学習データから構築した新たな識別器とを記憶する。識別器は、それぞれ検出対象を表すキーワードと対応付けられ、映像データの画像特徴を表す特徴データを入力とし、その映像データが検出対象に関連するかを検出するアルゴリズムである。識別器は、例えば、サポートベクターマシンや決定木などの分類アルゴリズムを利用しており、入力された特徴データから映像が検出対象に関連する度合いを定量的に表す値を算出する。
The
入力部11は、入力映像データ、新たに構築する識別器が検出対象とする物体や事象を表すキーワード、ユーザが選択したラベル書き換え対象の学習データを特定する情報などの各種データの入力を受ける。
映像区間分割部12は、各入力映像データを映像区間毎に分割する。本実施形態では、映像区間分割部12は、入力映像データを1ショット毎に分割する。1ショットとは、一台のカメラで連続的に撮影された区間であり、カメラの切り替え点によって挟まれた区間を表す。
The input unit 11 receives input of various data such as input video data, a keyword representing an object or event to be detected by a newly constructed discriminator, and information for specifying learning data to be rewritten as a label selected by the user.
The video
初期学習データ生成部13は、入力映像データから初期の学習データを生成する。初期学習データ生成部13は、クローズドキャプション抽出部131、番組音声認識部132、キーワード拡張部133、映像区間抽出部134、及び特徴データ抽出部135を備えて構成される。
クローズドキャプション抽出部131は、入力映像データからクローズドキャプションデータを抽出し、音声テキストデータとする。番組音声認識部132は、入力映像データの番組音声に対して音声認識処理を行い、音声テキストデータを生成する。キーワード拡張部133は、学習装置1と接続されるシソーラス記憶装置5が記憶するシソーラスや辞書を利用して、入力されたキーワードに類似するキーワードや、同義のキーワード、意味的に含有関係にあるキーワードなどを抽出する。映像区間抽出部134は、音声テキストデータを利用して、入力されたキーワード、あるいはキーワード拡張部133が抽出したキーワードに対応する映像区間を入力映像データから抽出する。特徴データ抽出部135は、映像区間抽出部134が抽出した映像区間の映像データから特徴データを取得し、最初の学習データを生成する。
The initial learning
The closed
学習データ修正部14は、入力部11により入力された情報に基づいて、あるいは、学習を行う際の反復処理の過程において構築される識別器の検出結果に基づいて、学習データに付与された正例あるいは負例を表すラベルを修正する。初期学習データ生成部13は、キーワードに対応する映像区間をそのまま正例として最初の学習データを生成している。しかし、番組音声やクローズドキャプションにキーワードが含まれていても、映像に目的とする物体や事象が出現しているとは限らないため、最初の学習データが正例か負例かのラベルの修正が必要である。同様に、学習を行う際の反復処理の過程において構築される識別器の検出結果に基づいてラベルが付与された学習データについても、誤りや漏れが含まれている可能性がある。そのため、反復処理の過程においても学習データのラベルの修正が必要である。
The learning
識別器構築部15は、学習データから識別器を構築する。
識別器検出部16は、識別器構築部15で構築された識別器を学習データに適用し、検出結果を得る。識別器検出部16は、検出結果により検出対象に関連すると判断された学習データを、次の正例の学習データとする。
識別器判定部17は、識別器構築部15により構築された識別器の精度が十分か否かを判定する。
The
The
The classifier determination unit 17 determines whether or not the classifier constructed by the
学習データ追加部18は、識別器判定部17により識別器の精度が十分ではないと判断された場合、学習データを追加する。単純に、識別器の検出結果により検出対象に関連すると判定された学習データを正例として再び識別子を構築すると、この識別器を学習した際の学習データに類似したものしか精度よく検出できなくなってしまう。また、最初のデータに、多様性が不十分といったような問題があると、特定のデータしか精度よく検出できない識別器が学習されてしまう恐れがある。そこで、学習データ追加部18は、現在学習させている識別器と全く依存関係がない方式の識別器によって入力映像データの映像区間から選択した映像データを正例の学習データとして加える。これによって、特定のデータに偏った識別器が学習されてしまうことを避ける。
The learning
学習データ追加部18は、ランダムデータ選択部181、類似映像選択部182、類似識別器検出部183、及びデータ混合部184を備えて構成される。
ランダムデータ選択部181は、入力映像データの映像区間の中から無作為に抽出した映像区間の映像データを学習データへの追加候補とする。
類似映像選択部182は、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを選択し、学習データへの追加候補とする。
類似識別器検出部183は、識別器記憶部103内に記憶されているすでに学習済みの識別器の中から、入力されたキーワードと意味的に類似しているキーワード、関連のあるキーワード、意味的に含有関係にあるキーワードに対応した学習済みの識別器を選択する。類似識別器検出部183は、選択した学習済みの識別器を用いて入力映像データの映像区間を対象として検出処理を行い、検出された映像区間の映像データを学習データへの追加候補とする。
データ混合部184は、ランダムデータ選択部181、類似映像選択部182、類似識別器検出部183において追加候補とされた映像データを正例として、学習データに一定の割合だけ追加する。追加を複数回行う場合、データ混合部184は、学習データ修正部14において一度でも負例と判定されたデータについては、正例として学習データに追加しないようにする。
The learning
The random
The similar
The similar
The
図2は、音声テキストデータのデータ例を示す図である。同図に示す音声テキストデータは、クローズドキャプションデータであり、番組音声を示すテキストデータと、そのテキストデータに対応するタイムコード情報により示される同期データとを含む。 FIG. 2 is a diagram showing an example of voice text data. The audio text data shown in the figure is closed caption data, and includes text data indicating program audio and synchronization data indicated by time code information corresponding to the text data.
図3は、学習データのデータ例を示す図である。同図に示すように、学習データは、映像区間を特定する映像区間特定データと、映像区間における画像特徴量を示す特徴データと、正例であるか負例であるかのラベルとを対応付けたデータである。映像区間特定データは、入力映像データの識別情報と、入力映像データにおける映像区間の開始位置及び終了位置とにより示され、開始位置及び終了位置は、例えば、タイムコード情報など入力映像データの先頭からの再生時間により示される。 FIG. 3 is a diagram illustrating an example of learning data. As shown in the figure, the learning data associates video segment specifying data for specifying a video segment, feature data indicating an image feature amount in the video segment, and a label indicating whether it is a positive example or a negative example. Data. The video section specifying data is indicated by identification information of the input video data and the start position and end position of the video section in the input video data. The start position and end position are, for example, from the beginning of the input video data such as time code information. Indicated by the playback time.
図4は、学習装置の処理手順のフローチャートを示す。
まず、学習装置1の入力部11は、入力映像データと、新たに構築する識別器の検出対象となる物体や事象を表すキーワードとの入力を受ける。入力部11は、入力映像データを映像データ記憶部101に書き込み、キーワードを初期学習データ生成部13に出力する。
FIG. 4 shows a flowchart of the processing procedure of the learning apparatus.
First, the input unit 11 of the learning device 1 receives input of input video data and a keyword representing an object or event to be detected by a newly constructed classifier. The input unit 11 writes the input video data to the video
映像区間分割部12は、映像データ記憶部101に記憶されている入力映像データを読み出し、各入力映像データを1ショット単位で分割する。例えば、映像区間分割部12は、入力映像データが示す隣接フレーム間の映像の差分を計算し、計算した差分を指標としてカット点を検出すると、その検出したカット点で入力映像データを映像区間ごとに区切る。映像区間分割部12は、入力映像データに、各映像区間の開始位置及び終了位置を示す分割データを対応づけて映像データ記憶部101に書き込む(ステップS105)。以降、学習装置1は、この分割データに基づいて映像データにおける映像区間を特定する。
The video
続いて初期学習データ生成部13は、入力映像データから初期の学習データを生成する(ステップS110)。
まず、クローズドキャプション抽出部131は、入力映像データにクローズドキャプションが重畳されている場合、入力映像データからクローズドキャプションを抽出し、映像データ記憶部101に音声テキストデータとして書き込む。
Subsequently, the initial learning
First, when the closed caption is superimposed on the input video data, the closed
続いて番組音声認識部132は、クローズドキャプションが重畳されていない入力映像データから音声データを取得し、その取得した音声データが示す番組音声に対して音声認識を行う。番組音声認識部132は、番組音声を音声認識した結果を示すテキストデータと、その音声認識した音声が得られた入力映像データの映像部分を表す同期データとを対応づけた音声認識データを生成し、映像データ記憶部101に音声テキストデータとして書き込む。
Subsequently, the program
キーワード拡張部133は、学習装置1の外部または内部に備えられたシソーラス記憶装置5に記憶されているシソーラスや辞書を検索し、入力されたキーワードに類似のキーワードや、同義のキーワード、意味的に含有関係にあるキーワードなどを読み出す。例えば、キーワード拡張部133は、入力キーワードが「車」である場合、類似したキーワードや同義のキーワードとして「自動車」、「カー」、「タクシー」、「乗用車」…などを取得し、意味的に含有関係にあるキーワードとして「陸上交通」、「ワンボックスカー」、「軽自動車」…などを取得する。以下、入力されたキーワードに基づいて取得された類似のキーワード、同義のキーワード、意味的に含有関係にあるキーワードを「関連キーワード」と記載する。
The
映像区間抽出部134は、映像データ記憶部101に記憶されている音声テキストデータを検索して入力キーワードや関連キーワードを検出し、検出した入力キーワードや関連キーワードに対応した同期データを取得する。この同期データは、キーワードが出現した番組内での時刻を表しており、その時刻をtとおくと、tはクローズドキャプションに記載されるタイムコード情報、あるいは音声認識された時間などに基づいて与えられたものである。映像区間抽出部134は、特定した同期データに対応した映像区間を入力映像データから抽出する。
The video
例えば、映像区間抽出部134は、キーワードの出現時刻tに対して、時刻t−δから時刻t+δまでの映像区間を選択する。なお、δは、予め決められた時間である。映像区間抽出部134は、時刻t−δを開始位置、時刻t+δを終了位置とする。
あるいは、映像区間抽出部134は、時刻tにおけるショットを選択する。この場合、映像区間抽出部134は、入力映像データに付加されている分割データで示される映像区間の中から、特定した同期データが示す時刻tが含まれる映像区間を選択する。
特徴データ抽出部135は、映像区間抽出部134が選択した映像区間の映像データから、映像の特徴量を表す特徴データを生成する。
For example, the video
Alternatively, the video
The feature
特徴データとして用いる特徴量は、様々なオブジェクトやイベントに対応する必要があるため、特定のオブジェクトやイベントに特化した特徴量でなく、より汎用的な特徴量を利用する。具体的には、グリッド領域における色モーメント、エッジ方向ヒストグラム、ガボールウェーブレット、ハールウェーブレット、ローカルバイナリパターンなどを組み合わせて特徴データを生成する。これは、例えば、「T. Ojala, M. Pietikaninen and T. Maenpaa, “Multiresolution gray-scale and rotation invariant texture classification with local binary patterns,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 7, pp. 971-987, 2002.」(参考文献1)に記載されている。 Since the feature quantity used as the feature data needs to correspond to various objects and events, a more general-purpose feature quantity is used instead of a feature quantity specialized for a specific object or event. Specifically, feature data is generated by combining color moments in the grid area, edge direction histograms, Gabor wavelets, Haar wavelets, local binary patterns, and the like. For example, “T. Ojala, M. Pietikaninen and T. Maenpaa,“ Multiresolution gray-scale and rotation invariant texture classification with local binary patterns, ”IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 7 , pp. 971-987, 2002. "(Reference 1).
あるいは、コーナーなどの特徴点近辺の局所領域における輝度勾配ヒストグラムに基づいて、それらの頻度ヒストグラムを作成するといった、一般物体認識におけるアプローチを利用する方法を組み合わせた特徴量を用いることも考えられる。これは、例えば、「G. Csurka, C. Bray, C. Dance and L. Fan, “Visual categorization with bags of keypoints,” in Proc. ECCV Workshop on Statistical Learning in Computer Vision, pp. 59-74, 2004.」(参考文献2)に記載されている。
その他には、時間方向を考慮した特徴量として、フレーム間の動きベクトル列や、フレーム間における特徴量の相関を考慮したり、音声の特徴を利用したりすることが考えられる。
Alternatively, it is conceivable to use a feature amount that is a combination of methods using an approach in general object recognition, such as creating a frequency histogram based on a luminance gradient histogram in a local region near a feature point such as a corner. For example, “G. Csurka, C. Bray, C. Dance and L. Fan,“ Visual categorization with bags of keypoints, ”in Proc. ECCV Workshop on Statistical Learning in Computer Vision, pp. 59-74, 2004. (Reference 2).
In addition, as a feature quantity considering the time direction, it is conceivable to consider a motion vector sequence between frames, a correlation between feature quantities between frames, or use a feature of speech.
特徴データ抽出部135は、抽出した映像区間を示す映像区間特定データと、その映像区間の特徴データと、正例を示すラベルとを設定した学習データを生成して学習データ記憶部102に書き込み、最初の学習データとして登録する。
The feature
続いて、学習データ修正部14は、現在すべて正例が設定されている最初の学習データのラベルを修正する(ステップS115)。修正は、人手で実施するのがもっとも正確である。そこで、最初の学習データに対する修正は、正例のラベルが付与された学習データに対して人(ユーザ)が正否を判定し、その判定結果に基づいて負例であると判定した学習データについては、ラベルを負例に修正する。
Subsequently, the learning
具体的には、入力部11は、学習データ記憶部102に現在記憶されている正例の学習データのうち、負例とする学習データを特定する情報の入力を受ける。学習データ修正部14は、入力部11により入力された情報により特定される学習データのラベルを、正例から負例に書き換える。
Specifically, the input unit 11 receives input of information for specifying learning data as a negative example among positive learning data currently stored in the learning
識別器構築部15は、学習データ記憶部102に現在記憶されている学習データを用いて識別器を構築し、識別器記憶部103に書き込む(ステップS120)。なお、識別器構築部15は、識別器の構築には、サポートベクターマシンやランダムフォレストなどの機械学習を利用する。
The
識別器検出部16は、ステップS120において構築された識別器を学習データ記憶部102に現在記憶されている学習データに適用し、各学習データに設定されている特徴データを入力として検出結果を得る。この検出結果は、各学習データが検出対象に関連する度合いを定量的に表す値と、その値に基づいて得られる関連の度合いの順位を示す。識別器検出部16は、検出結果から検出対象に関連すると判断された学習データのラベルに負例が設定されている場合は正例に書き換え、関連しないと判断された学習データのラベルに正例が設定されている場合は負例に書き換える。識別器判定部17は、ステップS125において構築された識別器による検出結果から、構築された識別器の精度が閾値以上かどうか否かを判定する(ステップS125)。
The
識別器の精度を評価するための指標としては、順位付き検索結果に対する評価指標である平均適合率が利用できる。以下の式(1)は、検出結果の上位N件に対する平均適合率の算出式を示す。 As an index for evaluating the accuracy of the discriminator, an average relevance ratio that is an evaluation index for the ranked search result can be used. The following formula (1) shows a formula for calculating the average precision for the top N detection results.
ここで、rkは、順位がk番目の検出結果が正解なら1、不正解なら0を表す。なお、正解か不正解かの情報は、人により入力部11に入力される。
また、式(1)におけるp(k)は、上位N件それぞれの適合率を表し、次式(2)で算出される。
Here, r k is 1 if rank k-th detection result correct, represents 0 if incorrect. Information about whether the answer is correct or incorrect is input to the input unit 11 by a person.
Further, p (k) in equation (1) represents the relevance ratio of each of the top N cases, and is calculated by the following equation (2).
識別器判定部17が、式(1)により算出した精度(平均適合率)は閾値に満たないと判定した場合(ステップS125:NO)、学習データ追加部18は、学習データ記憶部102に記憶されている学習データに対して、追加の学習データを混合する(ステップS130)。
When the discriminator determining unit 17 determines that the accuracy (average relevance ratio) calculated by the equation (1) is less than the threshold (step S125: NO), the learning
まず、ランダムデータ選択部181は、映像データ記憶部101に記憶されている入力映像データの映像区間の中から無作為に抽出し、抽出した各映像区間を学習データ生成候補とする。
First, the random
また、類似映像選択部182は、学習データ記憶部102からラベルに正例が設定されている学習データを特定し、特定した学習データに含まれる映像区間特定データにより示される入力映像データの映像区間から類似検出用特徴データを取得する。さらに、類似映像選択部182は、映像データ記憶部101に記憶されている各入力映像データの映像区間それぞれについて類似検出用特徴データを取得する。
Further, the similar
類似検出用特徴データには、映像特徴や音声特徴を用いることができる。例えば、映像特徴には、映像の色ヒストグラム、テクスチャなどを、音声特徴には音声の周波数分布、音声のパワーの分布などを用いることができる。
また、類似検出用特徴データが示す映像区間の画像特徴量としては、色やテクスチャなどが利用できる。また、画像特徴量として、上記の参考文献2に記載のように、コーナーなどの特徴点近辺の局所領域における輝度勾配ヒストグラムに基づいて、それらの頻度ヒストグラムを作成するというアプローチを利用することも考えられる。
As the feature data for similarity detection, video features and audio features can be used. For example, video color histograms, textures, and the like can be used as video features, and audio frequency distributions, audio power distributions, and the like can be used as audio features.
In addition, as the image feature amount of the video section indicated by the similarity detection feature data, color, texture, or the like can be used. In addition, as described in
類似映像選択部182は、各入力映像データの映像区間それぞれの類似検出用特徴データについて、正例の学習データに対応した映像区間の類似検出用特徴データとどの程度類似しているかを定量的に表す値を算出する。類似映像選択部182は、この算出した値に基づいて、現在の正例の学習データと見た目が類似している映像、あるいは音声特徴が類似している映像区間を特定する。
The similar
例えば、類似映像選択部182は、入力映像データの映像区間から得た特徴データと、正例の学習データに対応する映像区間から得た特徴データそれぞれとについて算出した類似度を合計する。類似映像選択部182は、各入力映像データの映像区間それぞれについて算出した合計の類似度が所定の閾値以上、あるいは、合計の類似度に基づく順位が高いものから所定数の映像区間データを、学習データ生成候補として特定する。
For example, the similar
また、類似識別器検出部183は、シソーラス記憶装置5に記憶されているシソーラスや辞書を検索し、入力されたキーワードに対する関連キーワードを読み出す。類似識別器検出部183は、識別器記憶部103内に記憶されているすでに学習済みの識別器の中から、関連キーワードを検出対象とする学習済みの識別器を選択する。類似識別器検出部183は、映像データ記憶部101に記憶されている各入力映像データの映像区間それぞれについて特徴データを取得し、取得した特徴データを入力として、選択した学習済みの識別器により検出処理を実行する。類似識別器検出部183は、学習済みの識別器により関連すると検出された映像区間を、学習データ生成候補として特定する。
In addition, the similar
データ混合部184は、ランダムデータ選択部181、類似映像選択部182、類似識別器検出部183により特定された学習データ生成候補の映像区間の中から一定割合を選択する。なお、ランダムデータ選択部181、類似映像選択部182、類似識別器検出部183により特定された学習データ生成候補の映像区間の混合割合は、検出対象によって可変とすることができる。
The
データ混合部184は、選択した映像区間のうち、まだ特徴データが生成されていないものについては、その映像区間の映像データから特徴データを生成する。データ混合部184は、選択された映像区間の映像区間特定データ及び特徴データと、正例を設定したラベルとを対応づけて学習データを生成し、学習データ記憶部102に追加して書き込む。
The
なお、反復処理により複数回学習データを追加する場合でも、類似映像選択部182、類似識別器検出部183は、学習データ生成候補の映像区間を最初に一度特定すればよい。2回目以降の学習データの追加処理の際には、データ混合部184は、これら特定済みの学習データ生成候補の映像区間の中から学習データの生成対象を選択する。
また、データ混合部184は、混合を複数回行う場合、学習データ修正部14において一度でも負例と判定されたデータについては、正例として学習データに追加しないようにする。
Note that even when learning data is added a plurality of times by iterative processing, the similar
In addition, when mixing is performed a plurality of times, the
識別器検出部16は、現在構築されている識別器を用い、学習データ記憶部102から全ての学習データを読み出し、読み出した学習データに対して検出処理を実行する。識別器検出部16は、検出結果により関連すると判断された学習データのラベルに負例が設定されている場合は正例に書き換え、関連しないと判断された学習データのラベルに正例が設定されている場合は負例に書き換える。そして、検出の結果得られた上位N件の学習データに対して人が正否を判定し、間違った判定の対象となっている学習データを特定する情報を入力する。入力部11は、ラベル修正対象の学習データを特定する情報の入力を受け、学習データ修正部14は、入力された情報により特定されている学習データに正例が設定されてれいば負例に書き換え、負例が設定されていれば正例に書き換える(ステップS135)。
The
なお、Nは大きいほど正確性が増すが、通常は、学習データの総数に対する割合で決定したり、修正作業にかけられる時間や人数に応じて決定したりする。なお、完全に自動化する必要がある場合には、アプローチが全く異なるアルゴリズムの識別器を複数用意し、それらの識別器の多数決によって正否を判定する方法がある。 Although the accuracy increases as N increases, it is usually determined as a percentage of the total number of learning data, or is determined according to the time and number of people required for the correction work. When it is necessary to completely automate, there is a method of preparing a plurality of discriminators of algorithms with completely different approaches and determining the correctness by majority decision of those discriminators.
識別器構築部15は、学習データ記憶部102から全ての学習データを読み出し、読み出した学習データを用いて識別器を構築する(ステップS140)。
識別器検出部16は、ステップS140において構築された識別器を、学習データ記憶部102に記憶されている学習データに適用し、検出処理を実行する。識別器検出部16は、検出結果から検出対象に関連すると判断された学習データのラベルに負例が設定されている場合は正例に書き換え、関連しないと判断された学習データのラベルに正例が設定されている場合は負例に書き換える(ステップS145)。
The
The
ステップS145の処理の後、学習装置1は、ステップS140において構築された識別器による検出結果から、構築された識別器の精度が閾値以上かどうか否かを判定するステップS125からの処理を繰り返す。そして、ステップS125において、識別器判定部17が、精度は閾値以上であると判定した場合(ステップS125:YES)、学習装置1は処理を終了する。 After the process of step S145, the learning device 1 repeats the process from step S125 for determining whether or not the accuracy of the constructed discriminator is equal to or higher than the threshold value from the detection result by the discriminator constructed in step S140. In step S125, when the discriminator determination unit 17 determines that the accuracy is equal to or higher than the threshold (step S125: YES), the learning device 1 ends the process.
図5及び図6は、本実施形態による学習装置1を用いた実験結果を示す図である。
図5は、識別器構築の繰り返し回数と、キーワード(物体名)毎の平均適合率の値及び正例の学習データの数(# of Pos)の変化との関係を示している。なお、平均適合率は、上位100件で算出している。同図に示すように、各キーワードとも、繰り返し回数が増えるたびに平均適合率の値は向上し、3回から6回の繰り返しで精度が閾値以上となっている。
5 and 6 are diagrams showing experimental results using the learning apparatus 1 according to the present embodiment.
FIG. 5 shows the relationship between the number of repetitions of classifier construction and the change in the average precision value for each keyword (object name) and the number of positive learning data (# of Pos). The average precision is calculated for the top 100 cases. As shown in the figure, for each keyword, the value of the average relevance ratio improves as the number of repetitions increases, and the accuracy is equal to or greater than the threshold after 3 to 6 repetitions.
図6は、図5に示す識別器構築の繰り返し回数とキーワード別の平均適合率の平均の変化との関係を示す図である。同図に示すように、繰り返し回数が3回程度から平均適合率の上昇が飽和し始め、5回目あたりで0.95を超える。
このように、学習装置1は、学習データを追加しながら識別器を学習させることにより、識別器の検出精度を向上させることができる。
FIG. 6 is a diagram showing the relationship between the number of repetitions of the classifier construction shown in FIG. 5 and the average change in the average precision for each keyword. As shown in the figure, the increase in the average precision starts to saturate when the number of repetitions is about 3, and exceeds 0.95 for the fifth time.
Thus, the learning device 1 can improve the detection accuracy of the classifier by learning the classifier while adding learning data.
以上説明した本実施形態によれば、学習装置1は、テレビ番組などの映像データから、正例および負例のラベルが付与された学習データを生成し、特定の物体や事象を検出するための識別器を、生成された学習データに基づいて構築する。
学習装置1は、新たに構築する識別器の検出対象を表すキーワードと、シソーラスなどの辞書を用いて選択した追加のキーワードを、番組音声の認識結果やクローズドキャプションから検索し、対応する映像区間を正例の映像データとして抽出する。これによって、色やテクスチャなどの表層的な特徴ではなく、映像の内容に基づいた検索を可能とする識別器を構築するための学習データを効率的に生成することができる。また、特定のオブジェクトやイベントに特化したり、番組のジャンルや放送局などに関わらず、様々な番組から様々な検出対象の識別器を構築することができる。
According to the embodiment described above, the learning device 1 generates learning data to which positive and negative labels are attached from video data such as a television program, and detects a specific object or event. A discriminator is constructed based on the generated learning data.
The learning device 1 searches a keyword representing the detection target of a newly constructed classifier and an additional keyword selected using a dictionary such as a thesaurus from the recognition result or closed caption of the program audio, and finds a corresponding video section. Extracted as positive example video data. Thereby, it is possible to efficiently generate learning data for constructing a discriminator that enables a search based on the content of the video, not the surface features such as color and texture. In addition, it is possible to construct various classifiers for various detection targets from various programs regardless of the specific object or event, regardless of the program genre or broadcasting station.
学習装置1は、学習データが正例であるか負例であるかのラベルを修正した後、そのデータに基づいて識別器を構築し、構築した識別器で検出した学習データを次の学習データにおける正例にする、といった処理を反復する。これによって、識別器の精度を向上させることができる。 The learning device 1 corrects the label indicating whether the learning data is a positive example or a negative example, and then constructs a discriminator based on the data, and the learning data detected by the constructed discriminator is used as the next learning data. The process of making a positive example in is repeated. Thereby, the accuracy of the discriminator can be improved.
また、学習装置1は、入力された映像データの中から無作為に選択した映像区間、あるいは、正例の映像データに視覚あるいは聴覚的に類似性の高い映像区間、構築対象の識別器が検出対象としている物体や事象と意味的に類似した検出対象に対応した学習済みの識別器を使用して検出した映像区間の映像データを、反復処理の過程で学習データにおける正例として一定割合だけ混合する。これによって、多様性が向上するように学習データを追加し、反復処理によって特定のデータに偏った識別器が構築されることを避けることが可能となる。 In addition, the learning device 1 detects a video section randomly selected from the input video data, or a video section that is visually or auditorily similar to the video data of the positive example, and a classifier to be constructed Video data of a video section detected using a learned discriminator corresponding to a detection target that is semantically similar to the target object or event is mixed at a fixed rate as a positive example in the learning data during the iterative process. To do. As a result, it is possible to add learning data so as to improve diversity, and avoid building a discriminator biased to specific data by iterative processing.
なお、映像データに代えて、属性データ付きの静止画データを用いることにより、静止画データが検出対象と関連するかを検出する識別器を構築することもできる。この場合、学習装置1は、音声テキストデータに代えて属性データに記述されている静止画に関するテキストの情報を用い、1つの静止画データが1つの映像区間に対応するものとして同様の処理を行う。この場合、特徴データは、静止画の特徴量を表すものとする。 Note that, by using still image data with attribute data instead of video data, a discriminator for detecting whether still image data is related to a detection target can be constructed. In this case, the learning apparatus 1 uses the text information about the still image described in the attribute data instead of the voice text data, and performs the same processing assuming that one still image data corresponds to one video section. . In this case, the feature data represents the feature amount of the still image.
上述した学習装置1は、内部にコンピュータシステムを有している。そして、学習装置1の入力部11、映像区間分割部12、初期学習データ生成部13、学習データ修正部14、識別器構築部15、識別器検出部16、識別器判定部17、及び学習データ追加部18の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
The learning device 1 described above has a computer system inside. Then, the input unit 11, the video
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage unit such as a hard disk built in the computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1 学習装置
5 シソーラス記憶装置
10 記憶部
11 入力部
12 映像区間分割部
13 初期学習データ生成部
14 学習データ修正部
15 識別器構築部
16 識別器検出部
17 識別器判定部
18 学習データ追加部
101 映像データ記憶部
102 学習データ記憶部
103 識別器記憶部
131 クローズドキャプション抽出部
132 番組音声認識部
133 キーワード拡張部
134 映像区間抽出部
135 特徴データ抽出部
181 ランダムデータ選択部
182 類似映像選択部
183 類似識別器検出部
184 データ混合部
DESCRIPTION OF SYMBOLS 1
Claims (5)
映像データの特徴量と当該映像データに検出対象が出現している正例であるか出現していない負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部と、
前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する識別器構築部と、
前記識別器構築部が構築した前記識別器により、前記学習データ記憶部に記憶されている前記学習データに対して、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを、前記識別器を用いて検出する検出処理を行う識別器検出部と、
前記識別器検出部による検出結果に基づいて前記識別器の精度を判定する判定部と、
前記判定部において識別器の精度が所定の精度に達していないと判断された場合、前記映像データ記憶部に記憶されている前記映像データのうち一部を選択し、選択した前記映像データの特徴量に正例のラベルを付与して生成した学習データを前記学習データ記憶部に追加する学習データ追加部と、
を備え、
前記学習データ追加部は、前記映像データ記憶部に記憶されている前記映像データのうち、ランダムに選択した前記映像データ、前記学習データ記憶部に記憶されている正例の前記学習データが得られた映像データに類似する映像データ、あるいは、構築対象の前記識別器と類似の検出対象に対応した他の識別器によって検出された前記映像データの中から一部を選択する、
ことを特徴とする学習装置。 A video data storage unit for storing video data;
A learning data storage unit that stores learning data including a feature amount of the video data and a label indicating whether the detection target appears in the video data as a positive example or a negative example that does not appear;
A discriminator using the learning data stored in the learning data storage unit when initial learning data is registered in the learning data storage unit and when learning data is added to the learning data storage unit A classifier construction unit for constructing
With the classifier constructed by the classifier construction unit, the learning data stored in the learning data storage unit is compared with the current positive learning data from the video section of the input video data. A discriminator detector for performing a detection process for detecting video data of a video segment that is similar to the video segment that has similar audio characteristics using the discriminator;
A determination unit that determines the accuracy of the classifier based on a detection result by the classifier detection unit;
When the determination unit determines that the accuracy of the discriminator does not reach a predetermined accuracy, a part of the video data stored in the video data storage unit is selected, and the characteristics of the selected video data A learning data adding unit for adding learning data generated by giving a positive example label to the quantity to the learning data storage unit;
Equipped with a,
The learning data adding unit obtains the video data selected at random from the video data stored in the video data storage unit, and the learning data of the positive example stored in the learning data storage unit. A part of the video data detected by another classifier corresponding to the classifier that is similar to the classifier to be constructed or the classifier to be constructed,
A learning apparatus characterized by that.
検出結果に基づいて前記学習データのラベルに正例または負例を設定し、
前記識別器構築部は、前記学習データ記憶部に学習データが追加されたときには、前記識別器検出部によるラベルの設定後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、
ことを特徴とする請求項1に記載の学習装置。 When the learning data is added to the learning data storage unit, the classifier detection unit detects the learning data stored in the learning data storage unit by the classifier,
Based on the detection result, set a positive example or a negative example in the label of the learning data,
When the learning data is added to the learning data storage unit, the classifier construction unit uses the learning data stored in the learning data storage unit after the label is set by the classifier detection unit. Build,
The learning apparatus according to claim 1 .
前記識別器構築部は、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ修正部によるラベルの修正後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、
ことを特徴とする請求項2に記載の学習装置。 For the initial learning data registered in the learning data storage unit or the learning data for which the label is set by the discriminator detection unit, user learning or the detection result of the learning data by another discriminator A learning data correction unit for correcting the label of the learning data based on the learning data;
When the initial learning data is registered in the learning data storage unit and when learning data is added to the learning data storage unit, after the correction of the label by the learning data correction unit, the classifier construction unit, Building a discriminator using the learning data stored in the learning data storage unit;
The learning apparatus according to claim 2 , wherein:
ことを特徴とする請求項1から請求項3のいずれか1項に記載の学習装置。 Detect whether the text data representing the audio of the video data includes a keyword representing a detection target by the classifier to be constructed and other keywords related to the keyword, and the video data corresponding to the detected text data An initial learning data generation unit that adds a positive example label to the feature quantity to generate initial learning data and registers the learning data in the learning data storage unit is further provided.
The learning device according to any one of claims 1 to 3 , wherein
映像データを記憶する映像データ記憶部、
映像データの特徴量と当該映像データに検出対象が出現している正例であるか出現していない負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部、
前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する識別器構築部、
前記識別器構築部が構築した前記識別器により、前記学習データ記憶部に記憶されている前記学習データに対して、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを、前記識別器を用いて検出する検出処理を行う識別器検出部、
前記識別器検出部による検出結果に基づいて前記識別器の精度を判定する判定部、
前記判定部において識別器の精度が所定の精度に達していないと判断された場合、前記映像データ記憶部に記憶されている前記映像データのうち一部を選択し、選択した前記映像データの特徴量に正例のラベルを付与して生成した学習データを前記学習データ記憶部に追加する学習データ追加部、
として機能させ、
前記学習データ追加部が、前記映像データ記憶部に記憶されている前記映像データのうち、ランダムに選択した前記映像データ、前記学習データ記憶部に記憶されている正例の前記学習データが得られた映像データに類似する映像データ、あるいは、構築対象の前記識別器と類似の検出対象に対応した他の識別器によって検出された前記映像データの中から一部を選択するよう機能させるプログラム。 The computer used for the learning device
A video data storage unit for storing video data;
A learning data storage unit that stores learning data including a feature amount of video data and a label indicating whether the detection target is a positive example or a negative example that does not appear in the video data;
A discriminator using the learning data stored in the learning data storage unit when initial learning data is registered in the learning data storage unit and when learning data is added to the learning data storage unit The classifier construction part,
With the classifier constructed by the classifier construction unit, the learning data stored in the learning data storage unit is compared with the current positive learning data from the video section of the input video data. A discriminator detector that performs a detection process for detecting video data of a video segment that is similar and a video segment that has similar audio characteristics using the discriminator,
A determination unit that determines the accuracy of the classifier based on a detection result by the classifier detection unit,
When the determination unit determines that the accuracy of the discriminator does not reach a predetermined accuracy, a part of the video data stored in the video data storage unit is selected, and the characteristics of the selected video data A learning data adding unit for adding learning data generated by giving a positive example label to the quantity to the learning data storage unit,
To function as,
The learning data adding unit obtains the video data selected at random from the video data stored in the video data storage unit, and the learning data of the positive example stored in the learning data storage unit. A program that functions to select a part of the video data that is similar to the video data that has been detected or the video data that has been detected by another classifier corresponding to the classifier that is similar to the classifier to be constructed .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012157813A JP5953151B2 (en) | 2012-07-13 | 2012-07-13 | Learning device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012157813A JP5953151B2 (en) | 2012-07-13 | 2012-07-13 | Learning device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014022837A JP2014022837A (en) | 2014-02-03 |
JP5953151B2 true JP5953151B2 (en) | 2016-07-20 |
Family
ID=50197300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012157813A Active JP5953151B2 (en) | 2012-07-13 | 2012-07-13 | Learning device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5953151B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10769473B2 (en) | 2017-08-17 | 2020-09-08 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium |
US10964057B2 (en) | 2017-08-31 | 2021-03-30 | Canon Kabushiki Kaisha | Information processing apparatus, method for controlling information processing apparatus, and storage medium |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016191973A (en) * | 2015-03-30 | 2016-11-10 | 日本電気株式会社 | Information transfer device, leaning system, information transfer method, and program |
US10535371B2 (en) | 2016-09-13 | 2020-01-14 | Intel Corporation | Speaker segmentation and clustering for video summarization |
JP6801491B2 (en) * | 2017-02-14 | 2020-12-16 | オムロン株式会社 | Identification device |
CN107632995B (en) * | 2017-03-13 | 2018-09-11 | 平安科技(深圳)有限公司 | The method and model training control system of Random Forest model training |
JP6936957B2 (en) * | 2017-11-07 | 2021-09-22 | オムロン株式会社 | Inspection device, data generation device, data generation method and data generation program |
JP6924413B2 (en) * | 2017-12-25 | 2021-08-25 | オムロン株式会社 | Data generator, data generation method and data generation program |
KR102565074B1 (en) | 2018-08-06 | 2023-08-08 | 가부시키가이샤 시마쓰세사쿠쇼 | Teacher label image correction method, learning completion model creation method, and image analysis device |
JP7418153B2 (en) * | 2018-12-26 | 2024-01-19 | 株式会社Nttデータ | Prediction device, learning device, prediction method, and program |
JP7130190B2 (en) | 2018-12-27 | 2022-09-05 | オムロン株式会社 | Image determination device, learning method and image determination program |
JP7208499B2 (en) * | 2019-02-13 | 2023-01-19 | 日本電信電話株式会社 | Detection device, detection method and program |
JP6761197B2 (en) * | 2019-02-27 | 2020-09-23 | キヤノンマーケティングジャパン株式会社 | Information processing system, information processing method, program |
JP7006833B2 (en) * | 2019-03-20 | 2022-01-24 | 株式会社島津製作所 | Cell analyzer |
WO2020188813A1 (en) * | 2019-03-20 | 2020-09-24 | 株式会社島津製作所 | Cell analysis device |
JP7399661B2 (en) * | 2019-09-24 | 2023-12-18 | シチズン時計株式会社 | Processing equipment, processing methods, and processing systems |
JP2021140485A (en) * | 2020-03-05 | 2021-09-16 | ソニーグループ株式会社 | Information processor and information processing method |
CN112328891B (en) * | 2020-11-24 | 2023-08-01 | 北京百度网讯科技有限公司 | Method for training search model, method for searching target object and device thereof |
WO2022149217A1 (en) * | 2021-01-06 | 2022-07-14 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
US20240062544A1 (en) * | 2021-01-06 | 2024-02-22 | Nec Corporation | Information processing device, information processing method, and recording medium |
WO2022149218A1 (en) * | 2021-01-06 | 2022-07-14 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
WO2022249415A1 (en) * | 2021-05-27 | 2022-12-01 | 日本電信電話株式会社 | Information provision device, information provision method, and information provision program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4064902B2 (en) * | 2003-09-12 | 2008-03-19 | 株式会社東芝 | Meta information generation method, meta information generation device, search method, and search device |
JP2008022103A (en) * | 2006-07-11 | 2008-01-31 | Matsushita Electric Ind Co Ltd | Apparatus and method for extracting highlight of moving picture of television program |
JP5243888B2 (en) * | 2008-08-18 | 2013-07-24 | 日本放送協会 | Data classification apparatus and data classification program |
JP5234833B2 (en) * | 2010-01-19 | 2013-07-10 | 日本電信電話株式会社 | Facial expression classifier creation apparatus, facial expression classifier creation method, facial expression recognition apparatus, facial expression recognition method, and programs thereof |
US8953895B2 (en) * | 2010-11-29 | 2015-02-10 | Panasonic Intellectual Property Corporation Of America | Image classification apparatus, image classification method, program, recording medium, integrated circuit, and model creation apparatus |
-
2012
- 2012-07-13 JP JP2012157813A patent/JP5953151B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10769473B2 (en) | 2017-08-17 | 2020-09-08 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium |
US10964057B2 (en) | 2017-08-31 | 2021-03-30 | Canon Kabushiki Kaisha | Information processing apparatus, method for controlling information processing apparatus, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2014022837A (en) | 2014-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5953151B2 (en) | Learning device and program | |
CN109977262B (en) | Method and device for acquiring candidate segments from video and processing equipment | |
CN102549603B (en) | Relevance-based image selection | |
KR101622360B1 (en) | System and method for similarity search of images | |
US9171013B2 (en) | System and method for providing objectified image renderings using recognition information from images | |
US8396286B1 (en) | Learning concepts for video annotation | |
CN114342353B (en) | Method and system for video segmentation | |
US8897505B2 (en) | System and method for enabling the use of captured images through recognition | |
US7809722B2 (en) | System and method for enabling search and retrieval from image files based on recognized information | |
US7809192B2 (en) | System and method for recognizing objects from images and identifying relevancy amongst images and information | |
US8983192B2 (en) | High-confidence labeling of video volumes in a video sharing service | |
CN108921204B (en) | Electronic device, picture sample set generation method, and computer-readable storage medium | |
US20150110387A1 (en) | Method for binary classification of a query image | |
US20130113877A1 (en) | Determining feature vectors for video volumes | |
Bui et al. | Scalable sketch-based image retrieval using color gradient features | |
JP2014197412A (en) | System and method for similarity search of images | |
Priya et al. | A comprehensive review of significant researches on content based indexing and retrieval of visual information | |
Nguyen et al. | Video instance search via spatial fusion of visual words and object proposals | |
Fan et al. | Learning the semantics of images by using unlabeled samples | |
Vrochidis et al. | Enhancing patent search with content-based image retrieval | |
Philbin et al. | Oxford TRECVID 2006-Notebook paper. | |
Girdhar et al. | Cutting through the clutter: Task-relevant features for image matching | |
Dhanalakshmi et al. | Implementation of HMM based automatic video classification algorithm on the embedded platform | |
Luo | Concept-based large-scale video database browsing and retrieval via visualization | |
VV | Automatic Classification of Presentation Slides in Educational Lecture Videos for Bi-Modal Visual Content Analysis Using Multiclass Mw-Svm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160517 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160613 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5953151 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |