JP7441107B2 - Learning device, representative image extraction device and program - Google Patents
Learning device, representative image extraction device and program Download PDFInfo
- Publication number
- JP7441107B2 JP7441107B2 JP2020075676A JP2020075676A JP7441107B2 JP 7441107 B2 JP7441107 B2 JP 7441107B2 JP 2020075676 A JP2020075676 A JP 2020075676A JP 2020075676 A JP2020075676 A JP 2020075676A JP 7441107 B2 JP7441107 B2 JP 7441107B2
- Authority
- JP
- Japan
- Prior art keywords
- program
- image
- score
- learning data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 47
- 238000013528 artificial neural network Methods 0.000 claims description 120
- 238000004364 calculation method Methods 0.000 claims description 58
- 238000005070 sampling Methods 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 description 70
- 238000000034 method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 238000011176 pooling Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、映像から代表画像を抽出する映像解析分野に用いる学習装置、代表画像抽出装置及びプログラムに関する。 The present invention relates to a learning device, a representative image extraction device, and a program used in the field of video analysis for extracting representative images from videos.
従来、放送局では、視聴者の接触率向上を目的として、番組HP(ホームページ)の充実化が進んでいる。番組HPには、閲覧者に番組内容を大まかに把握してもらうために、番組映像から抽出した複数の代表画像を掲載するケースが多い。 BACKGROUND ART Conventionally, broadcasting stations have been enhancing their program homepages (homepages) with the aim of improving viewer contact rates. Program homepages often display a plurality of representative images extracted from program videos in order to give viewers a rough idea of the program content.
しかしながら、番組映像から代表画像を抽出するには大きな労力が必要である。このため、番組映像から代表画像を自動的に抽出する手法が提案されている(例えば、特許文献1、非特許文献1を参照)。
However, a lot of effort is required to extract representative images from program videos. For this reason, methods have been proposed for automatically extracting representative images from program videos (see, for example,
例えば特許文献1の手法は、画像集合から人物の顔、シーン及びオブジェクトの判別結果、GPS(Global Positioning System:全地球無線測位システム)情報並びに類似度に基づいて、画像間の関連度を算出し、関連度及び撮影日に基づいて、代表画像を抽出するものである。
For example, the method disclosed in
また、非特許文献1の手法は、事前学習済みのGoogLeNetのニューラルネットワークを用いて、画像に対する芸術性の高低を判定するものである。
Furthermore, the method disclosed in Non-Patent
しかしながら、番組映像から代表画像を抽出する際に、前述の特許文献1の手法では、GPS情報、撮影日等の特殊な情報を必要とする。また、画像に含まれる物体、顔等の一部の要素のみに着目しており、画像全体の芸術性を考慮していない。また、前述の非特許文献1の手法では、番組制作のノウハウを考慮していない。
However, when extracting a representative image from a program video, the method disclosed in
このため、代表画像を用いて作成した番組HPは、必ずしも有効なものにはなっておらず、閲覧者に対して番組内容を効果的に提示することができない場合がある、という問題があった。 For this reason, program homepages created using representative images are not necessarily effective, and there have been problems in that they may not be able to effectively present the program content to viewers. .
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、番組映像から、番組制作のノウハウを考慮した代表画像を抽出可能な学習装置、代表画像抽出装置及びプログラムを提供することにある。 SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and its purpose is to provide a learning device, a representative image extraction device, and a program that can extract representative images from program videos in consideration of program production know-how. It's about doing.
前記課題を解決するために、請求項1の学習装置は、ニューラルネットワークを学習する学習装置において、学習用番組映像をサンプリングして得られるフレーム画像を番組画像とし、前記番組画像に付与された複数段階のうちのいずれかの段階のスコアを第1正解スコアとし、所定画像に付与された複数段階のうちのいずれかの段階のスコアを第2正解スコアとし、前記ニューラルネットワークを、前記番組画像及び前記所定画像が交互に入力され、1次元のスコアが出力されるモデルとして、前記番組画像及び前記第1正解スコアからなる番組学習データ、並びに前記所定画像及び前記第2正解スコアからなる所定学習データが格納されたメモリと、前記メモリから前記番組学習データ及び前記所定学習データを読み出し、前記番組学習データ及び前記所定学習データを用いて、前記ニューラルネットワークを学習する学習部と、を備え、前記学習部が、前記ニューラルネットワークを用いて、前記番組学習データに含まれる前記番組画像から前記番組画像の1次元のスコアを第1スコアとして算出し、前記ニューラルネットワークを用いて、前記所定学習データに含まれる前記所定画像から前記所定画像の1次元のスコアを第2スコアとして算出するニューラルネットワーク部と、前記ニューラルネットワーク部により算出された前記第1スコアと前記番組学習データに含まれる前記第1正解スコアとの間の誤差を第1誤差として算出し、前記第2スコアと前記所定学習データに含まれる前記第2正解スコアとの間の誤差を第2誤差として算出する誤差算出部と、前記誤差算出部により算出された前記第1誤差及び前記第2誤差の和が小さくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、を備えたことを特徴とする。 In order to solve the problem, a learning device according to a first aspect of the present invention is a learning device for learning a neural network, in which a frame image obtained by sampling a learning program video is taken as a program image, and a plurality of frames added to the program image are provided. The score of any one of the stages is set as a first correct score, the score of any one of the plural stages given to a predetermined image is set as a second correct score, and the neural network is set to the program image and As a model in which the predetermined images are input alternately and a one-dimensional score is output, program learning data consisting of the program image and the first correct score, and predetermined learning data consisting of the predetermined image and the second correct score. and a learning unit that reads the program learning data and the predetermined learning data from the memory and learns the neural network using the program learning data and the predetermined learning data, using the neural network to calculate a one-dimensional score of the program image as a first score from the program image included in the program learning data; a neural network unit that calculates a one-dimensional score of the predetermined image as a second score from the predetermined image, and the first score calculated by the neural network unit and the first correct score included in the program learning data. an error calculation unit that calculates an error between the second score and the second correct score included in the predetermined learning data as a second error; The method further includes a parameter updating section that updates parameters of the neural network so that the sum of the first error and the second error calculated by the section becomes smaller.
また、請求項2の学習装置は、請求項1に記載の学習装置において、さらに、前記番組学習データを生成する番組学習データ生成部を備え、前記番組学習データ生成部が、前記学習用番組映像を前記番組画像にサンプリングするサンプリング処理部と、前記学習用番組映像に対応した番組のホームページのURLへアクセスし、前記番組の静止画をダウンロードするダウンロード処理部と、前記サンプリング処理部によりサンプリングされた前記番組画像について、前記ダウンロード処理部によりダウンロードされた前記静止画との間の類似度を算出する類似度算出部と、前記類似度算出部により算出された前記類似度に基づいて、前記番組画像に対して前記第1正解スコアを付与し、前記番組画像及び前記第1正解スコアからなる前記番組学習データを前記メモリに格納する第1正解スコア付与部と、を備えたことを特徴とする。
The learning device according to
また、請求項3の学習装置は、請求項2に記載の学習装置において、前記所定学習データを生成する所定学習データ生成部を備え、前記所定学習データ生成部が、前記所定画像、及び前記所定画像に対して予め付与された複数段階のうちのいずれかの段階のラベルからなるオープンデータを入力し、前記ラベルを前記第2正解スコアに変換することで、前記所定画像に対して前記第2正解スコアを付与し、前記所定画像及び前記第2正解スコアからなる前記所定学習データを前記メモリに格納する第2正解スコア付与部を備えたことを特徴とする。
The learning device according to
また、請求項4の学習装置は、請求項1から3までのいずれか一項に記載の学習装置において、前記番組学習データの数をA個(Aは正の整数)、前記所定学習データの数をB個(Bは正の整数)、A<Bとし、B個からA個を減算した結果を(B-A)として、前記学習部が、A個の前記番組学習データ、及び、前記所定学習データに対する前記番組学習データの不足分である(B-A)個のデータであって、A個の前記番組学習データのいずれかまたは全てを用いて補充された前記番組学習データ、並びにB個の前記所定学習データを用いて、前記ニューラルネットワークを学習する、ことを特徴とする。
The learning device according to claim 4 is the learning device according to any one of
さらに、請求項5の代表画像抽出装置は、番組映像から代表画像を抽出する代表画像抽出装置において、前記番組映像をフレーム画像にサンプリングし、前記フレーム画像を番組画像として出力するサンプリング処理部と、請求項1から4までのいずれか一項の学習装置により学習されたニューラルネットワークを用いて、前記サンプリング処理部により出力された前記番組画像から、前記番組画像の1次元のスコアを算出するスコア算出部と、前記スコア算出部により算出された前記スコアに基づいて、前記サンプリング処理部により前記番組映像がサンプリングされて出力された全ての前記番組画像から、前記代表画像を選択する選択部と、を備えたことを特徴とする。
Further, a representative image extraction device according to a fifth aspect of the present invention is a representative image extraction device that extracts a representative image from a program video, and further includes a sampling processing section that samples the program video into a frame image and outputs the frame image as a program image. A score calculation that calculates a one-dimensional score of the program image from the program image output by the sampling processing unit using a neural network trained by the learning device according to any one of
さらに、請求項6のプログラムは、コンピュータを、請求項1から4までのいずれか一項に記載の学習装置として機能させることを特徴とする。
Furthermore, the program according to claim 6 causes a computer to function as the learning device according to any one of
また、請求項7のプログラムは、コンピュータを、請求項5に記載の代表画像抽出装置として機能させることを特徴とする。
Moreover, the program according to
以上のように、本発明によれば、番組映像から、番組制作のノウハウを考慮した代表画像を抽出することができる。 As described above, according to the present invention, a representative image can be extracted from a program video in consideration of program production know-how.
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。図1は、本発明の実施形態による学習装置の構成例を示すブロック図である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described in detail using the drawings.
[Learning device]
First, a learning device according to an embodiment of the present invention will be described. FIG. 1 is a block diagram showing a configuration example of a learning device according to an embodiment of the present invention.
この学習装置1は、番組学習データ生成部10、メモリ11,13、芸術性学習データ生成部12及び学習部14を備えている。学習装置1は、学習用番組映像及び芸術性評価オープンデータ等を用いて、後述する代表画像抽出装置2が番組映像から番組制作のノウハウを考慮した代表画像を抽出できるように、代表画像抽出装置2が使用するニューラルネットワークを学習する装置である。
This
番組学習データ生成部10は、学習用番組映像、及び当該学習用番組映像の番組に対応した番組HPのURL(Uniform Resource Locator)を入力する。そして、番組学習データ生成部10は、学習用番組映像をサンプリングして得られた複数のフレーム画像(以下、「番組画像」という。)のそれぞれについて、番組HPのURLへアクセスして取得した複数の静止画のそれぞれとの間の類似度を算出する。
The program learning
番組学習データ生成部10は、類似度に基づいて、番組画像に対して正解スコアを付与し、番組画像及び正解スコアからなる番組学習データをメモリ11に格納する。
The program learning
これにより、メモリ11には、学習用番組映像をサンプリングして得られた全ての番組画像について、番組画像及び正解スコアからなる番組学習データが格納される。
As a result, program learning data consisting of program images and correct scores is stored in the
ここで、番組HPに掲載されている静止画は、番組制作スタッフがそのノウハウを生かすことで、番組映像から選択した代表画面であるといえる。このため、番組画像と静止画との間の類似度は、番組制作スタッフのノウハウが反映された値となり、結果として、番組画像の正解スコアは、番組制作スタッフのノウハウが反映された値となる。 Here, the still images posted on the program homepage can be said to be representative screens selected from the program video by the program production staff utilizing their know-how. Therefore, the similarity between the program image and the still image is a value that reflects the know-how of the program production staff, and as a result, the correct score for the program image is a value that reflects the know-how of the program production staff. .
芸術性学習データ生成部12は、芸術性評価オープンデータを順次入力する。この芸術性評価オープンデータは、一切の制限を受けることなく、全ての人が入手し利用することが可能なデータであり、画像に対し、芸術性の観点で評価された正解ラベルが付与されている。芸術性評価オープンデータは、画像(以下、「芸術性評価画像」という。)、及び芸術性評価画像に対して予め付与された複数段階の評価が反映された正解ラベル(芸術性の高低を示すラベル)から構成される。
The artistic learning
芸術性学習データ生成部12は、入力した芸術性評価オープンデータのそれぞれについて、芸術性評価オープンデータに含まれる正解ラベルを、所定の規則に従って正解スコアに変換する。そして、芸術性学習データ生成部12は、芸術性評価画像及び正解スコアからなる芸術性学習データをメモリ13に格納する。正解ラベルは、前述のとおり高低を示すラベルであり、正解スコアは数値である。
For each piece of input artistic evaluation open data, the artistic learning
これにより、メモリ13には、複数の芸術性評価オープンデータについて、芸術性評価画像及び正解スコアからなる芸術性学習データが格納される。
As a result, the
学習部14は、学習対象のニューラルネットワークを備えている。学習部14は、メモリ11から、番組画像及び正解スコアからなる番組学習データを読み出すと共に、メモリ13から、芸術性評価画像及び正解スコアからなる芸術性学習データを読み出す。そして、学習部14は、番組学習データ及び芸術性学習データを用いて、ニューラルネットワークを学習する。このニューラルネットワークは、番組画像及び芸術性評価画像が交互に入力され、1次元のスコア(重要度)が出力されるモデルである。
The
これにより、ニューラルネットワークに用いる最適なパラメータ(重み係数等)が得られる。このパラメータは、番組制作スタッフのノウハウが反映された値であり、後述する図10に示す代表画像抽出装置2に備えたニューラルネットワークに用いられる。
As a result, optimal parameters (weighting coefficients, etc.) for use in the neural network can be obtained. This parameter is a value that reflects the know-how of the program production staff, and is used in the neural network provided in the representative
(番組学習データ生成部10)
次に、図1に示した番組学習データ生成部10について詳細に説明する。図2は、番組学習データ生成部10の構成例を示すブロック図であり、図3は、番組学習データ生成部10の処理例を示すフローチャートである。この番組学習データ生成部10は、サンプリング処理部20、ダウンロード処理部21、類似度算出部22及び正解スコア付与部23を備えている。
(Program learning data generation unit 10)
Next, the program learning
番組学習データ生成部10は、ハードディスクレコーダー等に蓄積された学習用番組映像、及び当該学習用番組映像の番組に対応した番組HPのURLを入力する(ステップS301)。サンプリング処理部20は、学習用番組映像を入力し、ダウンロード処理部21は、対応する番組HPのURLを入力する。
The program learning
サンプリング処理部20は、学習用番組映像から一定間隔で、フレーム画像である番組画像をサンプリングする(ステップS302)。サンプリングされた全ての番組画像をP1,・・・,PNとする。Nは2以上の整数である。サンプリング処理部20は、番組画像P1,・・・,PNを類似度算出部22に出力する。
The
ダウンロード処理部21は、番組HPのURLへアクセスし、番組HPに掲載されている全ての静止画をダウンロードする(ステップS303)。ダウンロードされた全ての静止画をP’1,・・・,P’Mとする。Mは2以上の整数である。ダウンロード処理部21は、静止画P’1,・・・,P’Mを類似度算出部22に出力する。
The
類似度算出部22は、サンプリング処理部20から番組画像P1,・・・,PNを入力すると共に、ダウンロード処理部21から静止画P’1,・・・,P’Mを入力する。そして、類似度算出部22は、番組画像Pnについて、静止画P’mとの間の類似度Sn,mを算出する(ステップS304)。n=1,・・・,Nであり、m=1,・・・,Mである。
The
類似度算出部22は、番組画像Pn及び当該番組画像Pnの類似度Sn,m(Sn,1,・・・,Sn,M)を正解スコア付与部23に出力する。
The
正解スコア付与部23は、類似度算出部22から番組画像Pn及び当該番組画像Pnの類似度Sn,m(Sn,1,・・・,Sn,M)を入力する。そして、正解スコア付与部23は、番組画像Pnについて、類似度Sn,1,・・・,Sn,Mのうちの最大値B=maxmSn,mを求める(ステップS305)。
The correct
正解スコア付与部23は、最大値Bが予め設定された閾値以上であるか否かを判定する(ステップS306)。正解スコア付与部23は、ステップS306において、最大値Bが閾値以上であると判定した場合(ステップS306:Y)、番組画像Pnに対し、正例の正解スコア(=1)を付与する(ステップS307)。
The correct
一方、正解スコア付与部23は、ステップS306において、最大値Bが閾値以上でないと判定した場合(ステップS306:N)、番組画像Pnに対し、負例の正解スコア(=0)を付与する(ステップS308)。
On the other hand, if the correct
尚、正解スコア付与部23は、番組画像Pnに対し、0~1の範囲のスコアにおいて、2段階の正解スコア(正例(=1)または負例(=0))を付与するようにしたが、3段階以上の正解スコアを付与するようにしてもよい。例えば、3段階の正解スコアの場合、正解スコア付与部23は、最大値Bを閾値処理することで、番組画像Pnに対し、3段階の正解スコア(例えば0.0,0.5,1.0)のうちのいずれかを付与する。
The correct
この場合、正解スコアの段階は、0~1の範囲において必ずしも等間隔である必要はなく、例えば0.0,0.7,1.0であってもよく、適切な間隔であればよい。また、正解スコアは、後述する図5において芸術性評価画像の正解スコアと同様の範囲、例えば0~1の範囲で、その段階が設定されるものとする。 In this case, the stages of the correct score do not necessarily have to be at equal intervals in the range of 0 to 1, and may be, for example, 0.0, 0.7, 1.0, as long as they are at appropriate intervals. Further, the correct score is set in stages in the same range as the correct score of the artistic evaluation image in FIG. 5, which will be described later, for example, in the range of 0 to 1.
また、正解スコア付与部23は、番組画像に対して、類似度算出部22から入力した類似度を正解スコアとして付与するようにしてもよい。この場合の類似度の範囲は0~1である。
Further, the correct
正解スコア付与部23は、ステップS307またはS308から移行して、番組画像及び正解スコアからなる番組学習データをメモリ11に格納する(ステップS309)。ステップS304~S309の処理は、N個の番組画像Pn(n=1,・・・,N)について行われ、メモリ11には、N個の番組学習データが格納される。
The correct
これにより、番組画像Pnについて、番組HPからダウンロードされた静止画との間の類似度Sn,mが反映された正解スコアが付与され、番組学習データがメモリ11に格納される。類似度Sn,mが高いほど(代表画像に相応しいほど)、正解スコアは1または1に近い段階の値となり、類似度Sn,mが低いほど(代表画像に相応しくないほど)、正解スコアは0または0に近い段階の値となる。
As a result, a correct score that reflects the degree of similarity S n ,m between the program image P n and the still image downloaded from the program HP is assigned, and the program learning data is stored in the
図4は、番組学習データ生成部10の他の構成例を示すフローチャートである。この番組学習データ生成部10は、サンプリング処理部20及び正解スコア付与部24を備えている。この番組学習データ生成部10は、学習用番組映像のみを入力し、番組HPのURLを入力しない。
FIG. 4 is a flowchart showing another example of the configuration of the program learning
サンプリング処理部20は、学習用番組映像を入力し、図2に示したサンプリング処理部20と同様の処理を行い、番組画像を正解スコア付与部24に出力する。
The
正解スコア付与部24は、サンプリング処理部20から番組画像を入力し、番組画像を、図示しない表示装置に表示する。番組制作スタッフであるユーザは、表示装置に表示された番組画像を評価し、番組画像に対する正解スコアを判断する。例えば、2段階の正解スコアの場合、番組画像の評価が高いときに正解スコア(=1)が判断され、番組画像の評価が低いときに正解スコア(=0)が判断される。
The correct
正解スコア付与部24は、番組制作スタッフの操作に従い、番組画像に対する正解スコアを入力する。そして、正解スコア付与部24は、番組画像に対して正解スコアを付与することで、番組画像及び正解スコアからなる番組学習データを生成し、これをメモリ11に格納する。
The correct
これにより、番組画像について、番組制作スタッフのノウハウが反映された正解スコアが付与され、番組学習データがメモリ11に格納される。番組画像に対する評価が高いほど(代表画像として相応しいほど)、正解スコアは1または1に近い段階の値となり、番組画像に対する評価が低いほど(代表画像として相応しくないほど)、正解スコアは0または0に近い段階の値となる。
As a result, a correct score that reflects the know-how of the program production staff is assigned to the program image, and the program learning data is stored in the
(芸術性学習データ生成部12)
次に、図1に示した芸術性学習データ生成部12について詳細に説明する。図5は、芸術性学習データ生成部12の構成例を示すブロック図である。この芸術性学習データ生成部12は、正解スコア付与部25を備えている。
(Artistic learning data generation unit 12)
Next, the artistic learning
正解スコア付与部25は、芸術性評価画像及び正解ラベルからなる芸術性評価オープンデータを順次入力する。
The correct
正解スコア付与部25は、芸術性評価オープンデータのそれぞれについて、芸術性評価オープンデータに含まれる正解ラベルを、所定の規則に従って正解スコアに変換することで、芸術性評価オープンデータに含まれる芸術性評価画像に対して正解スコアを付与する。そして、正解スコア付与部25は、芸術性評価画像及び正解スコアからなる芸術性学習データをメモリ13に格納する。
The correct
一般に、正解ラベルは数値化されていないため、正解ラベルを学習処理に用いることができない。このため、正解スコア付与部25は、正解ラベルを、数値で表した正解スコアに変換する。これにより、正解ラベルが反映され、かつ数値で表された正解スコアを、学習処理に用いることができる。
Generally, the correct label cannot be used for learning processing because it is not digitized. Therefore, the correct answer
所定の規則は、p段階の正解ラベルをq段階の正解スコアに変換する、予め設定された規則である。p,qは2以上の整数であり、p≠qであってもよいし、p=qであってもよい。 The predetermined rule is a preset rule that converts a p-level correct answer label into a q-level correct answer score. p and q are integers of 2 or more, and may be p≠q or p=q.
所定の規則により、例えば、3段階の正解ラベルである「great」「good」及び「bad」が2段階の正解スコアに変換される。3段階の正解ラベルは、芸術性の高い順に「great」>「good」>「bad」である。正解ラベル(=great)は正解スコア(=1)に、正解ラベル(=good)は正解スコア(=1)に、正解ラベル(=bad)は正解スコア(=0)に変換される。 According to a predetermined rule, for example, three-level correct labels "great," "good," and "bad" are converted into two-level correct scores. The three levels of correct labels are "great" > "good" > "bad" in order of artistic quality. The correct label (=great) is converted into a correct score (=1), the correct label (=good) is converted into a correct score (=1), and the correct label (=bad) is converted into a correct score (=0).
また、所定の規則により、例えば、3段階の正解ラベルが3段階の正解スコアに変換される。正解ラベル(=great)は正解スコア(=1.0)に、正解ラベル(=good)は正解スコア(=0.5)に、正解ラベル(=bad)は正解スコア(=0.0)に変換される。 Further, according to a predetermined rule, for example, a three-level correct answer label is converted into a three-level correct answer score. The correct label (=great) becomes the correct score (=1.0), the correct label (=good) becomes the correct score (=0.5), and the correct label (=bad) becomes the correct score (=0.0). converted.
尚、正解スコアの段階は、0~1の範囲において必ずしも等間隔である必要はなく、例えば0.0,0.7,1.0であってもよく、適切な間隔であればよい。また、正解スコアは、3段階を超える段階であってもよく、前述の番組画像の正解スコアと同様の範囲、例えば0~1の範囲で、その段階が設定されるものとする。 Note that the stages of the correct score do not necessarily have to be at equal intervals within the range of 0 to 1, and may be, for example, 0.0, 0.7, 1.0, as long as they are at appropriate intervals. Further, the correct score may have more than three levels, and the level is set in the same range as the correct score of the program image described above, for example, in the range of 0 to 1.
正解スコア付与部25は、正解ラベルを正解スコアに変換する代わりに、番組制作スタッフの操作に従い、番組制作スタッフにより判断された正解スコアを入力することで、芸術性評価画像に対して正解スコアを付与するようにしてもよい。前述と同様に、正解スコアの段階は必ずしも等間隔である必要はない。
Instead of converting the correct label into a correct score, the correct
具体的には、正解スコア付与部25は、芸術性評価オープンデータに含まれる芸術性評価画像及び正解ラベルを、図示しない表示装置に表示する。番組制作スタッフであるユーザは、表示装置に表示された正解ラベルを参照して芸術性評価画像を評価し、芸術性評価画像に対する正解スコアを判断する。
Specifically, the correct
正解スコア付与部25は、番組制作スタッフの操作に従い、芸術性評価画像に対する正解スコアを入力する。そして、正解スコア付与部25は、芸術性評価画像に対して正解スコアを付与することで、芸術性評価画像及び正解スコアからなる芸術性学習データを生成し、これをメモリ13に格納する。
The correct
これにより、芸術性評価画像について、番組制作スタッフのノウハウが反映された正解スコアが付与され、芸術性学習データがメモリ13に格納される。芸術性評価画像に対する評価が高いほど(代表画像として相応しいほど)、正解スコアは1または1に近い段階の値となり、芸術性評価画像に対する評価が低いほど(代表画像として相応しくないほど)、正解スコアは0または0に近い段階の値となる。
As a result, a correct score reflecting the know-how of the program production staff is assigned to the artistic evaluation image, and the artistic learning data is stored in the
(学習部14)
次に、図1に示した学習部14について詳細に説明する。図6は、学習部14の構成例を示すブロック図であり、図7は、学習部14の処理例を示すフローチャートである。
(Learning part 14)
Next, the
この学習部14は、切り替え部30、NN(ニューラルネットワーク)部31、誤差算出部32及びパラメータ更新部33を備えている。学習部14は、ステップS707の処理にて終了条件を満たすまで、番組学習データ及び芸術性学習データの組毎に、ステップS701~S706の処理を行う。
The
切り替え部30は、パラメータ更新部33から、番組学習データまたは芸術性学習データを示す切り替え信号を入力する。そして、切り替え部30は、切り替え信号が番組学習データを示している場合、メモリ11から、番組画像及び正解スコアからなる番組学習データを読み出す。一方、切り替え部30は、切り替え信号が芸術性学習データを示している場合、メモリ13から、芸術性評価画像及び正解スコアからなる芸術性学習データを読み出す(ステップS701)。
The switching
これにより、番組学習データを示す切り替え信号が入力される毎に、メモリ11から、新たな番組学習データが読み出され、芸術性学習データを示す切り替え信号が入力される毎に、メモリ13から新たな芸術性学習データが読み出される。
As a result, new program learning data is read out from the
切り替え部30は、切り替え信号が番組学習データを示している場合、番組学習データに含まれる番組画像をNN部31に出力すると共に、番組画像に対応する正解スコアを誤差算出部32に出力する。
When the switching signal indicates program learning data, the switching
一方、切り替え部30は、切り替え信号が芸術性学習データを示している場合、芸術性学習データに含まれる芸術性評価画像をNN部31に出力すると共に、芸術性評価画像に対応する正解スコアを誤差算出部32に出力する。
On the other hand, when the switching signal indicates the artistic learning data, the switching
NN部31は、切り替え部30から番組画像または芸術性評価画像のテンソルを入力する。そして、NN部31は、パラメータ更新部33によりパラメータが設定されたニューラルネットワークを用いて、番組画像または芸術性評価画像から1次元のスコアを算出し、スコアを誤差算出部32に出力する。
The
誤差算出部32は、NN部31からスコアを入力すると共に、切り替え部30から正解スコアを入力し、両者の誤差を算出してパラメータ更新部33に出力する。例えば、誤差を算出する関数としては、MSE(平均二乗誤差)等の、誤差が大きいほど大きい値を出力する関数が用いられる。
The
具体的には、NN部31は、切り替え部30から番組画像のテンソルを入力した場合、ニューラルネットワークを用いて、番組映像からスコアを算出する(ステップS702)。このニューラルネットワークとは、後述する図8に示す特徴抽出用NN40及びスコア算出用NN41である。
Specifically, when the tensor of the program image is input from the switching
そして、誤差算出部32は、番組画像のスコアと番組学習データに含まれる当該番組画像の正解スコアとの間の誤差を算出する(ステップS703)。
Then, the
一方、NN部31は、切り替え部30から芸術性評価画像のテンソルを入力した場合、ニューラルネットワークを用いて、芸術性評価画像からスコアを算出する(ステップS704)。
On the other hand, when the tensor of the artistic evaluation image is input from the switching
そして、誤差算出部32は、芸術性評価画像のスコアと芸術性学習データに含まれる当該芸術性評価画像の正解スコアとの間の誤差を算出する(ステップS705)。
Then, the
パラメータ更新部33は、誤差算出部32から番組画像の誤差及び芸術性評価画像の誤差を入力し、これらの誤差の和が小さくなるように、保持しているパラメータを更新する(ステップS706)。そして、パラメータ更新部33は、更新したパラメータをNN部31に設定する。
The
ここで、パラメータ更新部33は、NN部31に設定したパラメータを保持しているものとする。
Here, it is assumed that the
尚、パラメータ更新部33は、パラメータを更新する処理として、例えばAdam、SGD(Stocastic Gradient Descent)、誤差逆伝播学習法(Backpropagation)等の一般的なニューラルネットワーク最適化手法を用いる。
Note that the
また、パラメータ更新部33は、番組画像及び芸術性評価画像を組として、所定数の組(例えば30組)毎に、パラメータを更新するようにしてもよい。具体的には、パラメータ更新部33は、所定数の組の誤差をそれぞれ入力し、所定数の組の誤差の和を算出し、当該誤差の和が小さくなるように、パラメータを更新する。
Further, the
パラメータ更新部33は、誤差算出部32から番組画像の誤差を入力した場合、次に芸術性評価画像の誤差を入力するために、芸術性学習データを示す切り替え信号を切り替え部30に出力する。
When the
一方、パラメータ更新部33は、誤差算出部32から芸術性評価画像の誤差を入力した場合、次に番組画像の誤差を入力するために、番組学習データを示す切り替え信号を切り替え部30に出力する。
On the other hand, when the error of the artistic evaluation image is input from the
パラメータ更新部33は、ステップS706から移行して、パラメータ更新の終了条件を満たすか否かを判定する(ステップS707)。
The
パラメータ更新部33は、ステップS707において、終了条件を満たさないと判定した場合(ステップS707:N)、ステップS701へ移行し、次の番組学習データ及び芸術性学習データの組について、ステップS701~S706の処理を行う。つまり、終了条件を満たすまで、番組学習データ及び芸術性学習データの組毎に、ステップS701~S706の処理が行われる。
If the
一方、パラメータ更新部33は、ステップS707において、終了条件を満たすと判定した場合(ステップS707:Y)、ステップS706の処理にて更新したパラメータを最適なパラメータとして出力する(ステップS708)。パラメータ更新部33により出力された最適なパラメータは、後述する図10に示す代表画像抽出装置2に備えたスコア算出部51のニューラルネットワークに設定される。
On the other hand, if the
ここで、ステップS707における終了条件は、例えば、予め設定された回数分のパラメータ更新が行われたか否か、パラメータの更新量が予め設定された閾値よりも小さいか否かの条件等である。 Here, the termination conditions in step S707 include, for example, whether the parameters have been updated a preset number of times, and whether the amount of parameter updates is smaller than a preset threshold.
(NN部31)
次に、図6に示したNN部31について詳細に説明する。図8は、NN部31の構成例を示すブロック図である。このNN部31は、特徴抽出用NN40及びスコア算出用NN41を備えて構成される。
(NN section 31)
Next, the
特徴抽出用NN40は、番組画像または芸術性評価画像を入力データとして、パラメータ更新部33によりパラメータが設定されたニューラルネットワークの演算により、1024次元の画像特徴ベクトルの出力データを求める。
The
スコア算出用NN41は、特徴抽出用NN40により求めた1024次元の画像特徴ベクトルを入力データとして、パラメータ更新部33によりパラメータが設定されたニューラルネットワークの演算により、1次元のスコアの出力データを求める。
The score calculation NN 41 uses the 1024-dimensional image feature vector obtained by the
図9は、NN部31の具体的な構成例を説明する図であり、図8に示したNN部31の構成を詳細に表したものである。図9において、「Conv」は畳み込み層を、「MaxPool」は最大値を抽出するプーリング層を、「LocalResponseNorm」は正規化層をそれぞれ示す。また、「Inception Module」は「GoogLeNet」に含まれる技術であり、畳み込み層及びプーリング層を示す。また、「AveragePool」は平均値を算出するプーリング層を、「FC」は全結合層を、「Concat」は連結層を、「Sigmoid」はシグモイド関数を用いる層をそれぞれ示す。また、「Kernel」はフィルタサイズを、「dim」は次元数をそれぞれ示す。
FIG. 9 is a diagram illustrating a specific example of the configuration of the
番組画像または芸術性評価画像が入力される「Conv」のプーリング層α1から、1024次元の画像特徴ベクトルが出力される「Concat」の連結層α2までの各層により、特徴抽出用NN40が構成される。
The
また、1024次元の画像特徴ベクトルが入力される「FC」の全結合層α3から、1次元のスコアが出力される「Sigmoid」のシグモイド関数α4の出力層までの各層により、スコア算出用NN41が構成される。 In addition, each layer from the fully connected layer α3 of “FC” where a 1024-dimensional image feature vector is input to the output layer of the sigmoid function α4 of “Sigmoid” where a one-dimensional score is output, the score calculation NN41 is configured.
このように、NN部31は、番組画像または芸術性評価画像から当該画像の1024次元の画像特徴ベクトルを算出する特徴抽出用NN40と、当該画像の1024次元の画像特徴ベクトルから1次元のスコアを算出するスコア算出用NN41から構成される。
In this way, the
このNN部31により、番組画像または芸術性評価画像に付与された正解スコアの段階数に関わることなく、1次元のスコアが算出される。つまり、NN部31としては、番組画像または芸術性評価画像の段階数に応じて異なるニューラルネットワークを用意する必要がなく、段階数に依存することのない固定構成のニューラルネットワークを用意すればよい。
The
以上のように、本発明の実施形態による学習装置1によれば、番組学習データ生成部10は、学習用番組映像をサンプリングして得られた番組画像について、番組HPのURLへアクセスして取得した静止画との間の類似度を算出する。そして、番組学習データ生成部10は、類似度に基づいて、番組画像に対して正解スコアを付与し、番組画像及び正解スコアからなる番組学習データを生成する。
As described above, according to the
芸術性学習データ生成部12は、芸術性評価オープンデータに含まれる正解ラベルを、所定の規則に従って正解スコアに変換し、芸術性評価画像及び正解スコアからなる芸術性学習データを生成する。
The artistic learning
学習部14は、番組学習データ及び芸術性学習データを用いて、ニューラルネットワークを学習する。具体的には、NN部31は、ニューラルネットワークを用いて、番組学習データに含まれる番組画像から1次元のスコアを算出し、誤差算出部32は、番組画像のスコアと番組学習データに含まれる正解スコアとの間の誤差を算出する。また、NN部31は、芸術性評価画像についても1次元のスコアを算出し、誤差算出部32は、芸術性評価画像のスコアと芸術性学習データに含まれる正解スコアとの間の誤差を算出する。
The
パラメータ更新部33は、番組画像の誤差及び芸術性評価画像の誤差の和が小さくなるように、ニューラルネットワークのパラメータを更新し、所定の終了条件を満たしたときのパラメータを最適なパラメータとして出力する。
The
ここで、番組HPの静止画は、番組制作スタッフのノウハウを生かすことで生成された画像であるため、番組画像と静止画の類似度から算出された番組画像の正解スコアは、番組制作のノウハウを考慮したスコアとなる。 Here, the still images on the program homepage are images generated by making use of the know-how of the program production staff, so the correct score of the program image calculated from the similarity between the program image and the still image is based on the know-how of the program production staff. The score takes into account the
これにより、番組画像の正解スコアを用いて学習されたニューラルネットワークも、番組制作のノウハウを考慮したものとなる。したがって、後述する代表画像抽出装置2は、学習装置1により学習されたニューラルネットワークを用いることにより、番組映像から、番組制作のノウハウを考慮した代表画像を抽出することができる。また、番組映像以外の特殊なデータを用いることなく、代表画像を抽出することができるから、処理負荷を低減することができる。そして、代表画像を用いて番組HPを作成する際には、作業量を大幅に減らすことができる。
As a result, the neural network trained using the correct scores of program images also takes into account program production know-how. Therefore, by using the neural network learned by the
また、メモリ11に格納された番組学習データの数がメモリ13に格納された芸術性学習データよりも少ない場合であっても、同じ番組学習データを繰り返し用いることにより、番組学習データの不足分を補充することができる。これにより、芸術性学習データと同数の番組学習データを用意することができ、同数の番組学習データ及び芸術性学習データを用いて、ニューラルネットワークを学習することができる。
Furthermore, even if the number of program learning data stored in the
具体的には、メモリ11に格納された番組学習データの数をA個(Aは正の整数)、メモリ13に格納された芸術性学習データの数をB個(Bは正の整数)、A<B、番組学習データ及び芸術性学習データの差分、すなわちB個からA個を減算した結果を(B-A)とする。番組学習データ及び芸術性学習データの差分に相当する(B-A)個の番組学習データ(芸術性学習データに対する番組学習データの不足分)は、A個の番組学習データのいずれかまたは全てを使用することで補充される。すなわち、学習部14は、A個の番組学習データ、及び、不足分の(B-A)個のデータであって、A個の番組学習データのいずれかまたは全てを用いて補充された番組学習データ、並びにB個の芸術性学習データを用いて、ニューラルネットワークを学習する。この場合、A個の番組学習データ及び不足分の(B-A)個の番組学習データの合計数は、芸術性学習データの数と同じB個である。
Specifically, the number of program learning data stored in the
例えば、番組学習データの数がA=6,000であり、芸術性学習データの数がB=10,000である場合を想定する。この場合、芸術性学習データに対する番組学習データの不足分である(B-A)=4,000個の番組学習データは、A=6,000個の番組学習データの一部を用いて補充される。これにより、不足分の4,000個の番組学習データは、元のA=6,000個の番組学習データを用いて補充することができる。学習部14は、元のA=6,000個の番組学習データ及び不足分の4,000個の番組学習データ、並びに10,000個の芸術性学習データを用いて、ニューラルネットワークを学習する。
For example, assume that the number of program learning data is A=6,000 and the number of artistic learning data is B=10,000. In this case, the shortage of program learning data (B−A)=4,000 pieces of program learning data with respect to the artistic learning data is supplemented by using a part of the program learning data of A=6,000 pieces. As a result, the missing 4,000 pieces of program learning data can be supplemented using the original A=6,000 pieces of program learning data. The
また、番組学習データの数がA=6,000であり、芸術性学習データの数がB=25,000である場合を想定する。この場合、芸術性学習データに対する番組学習データの不足分である(B-A)=19,000個の番組学習データは、A=6,000個の番組学習データが3回重複して使用され、さらに、残りの1,000個については、A=6,000個の番組学習データの一部が使用される。これにより、不足分の19,000個の番組学習データは、元のA=6,000個の番組学習データを用いて補充することができる。学習部14は、元のA=6,000個の番組学習データ及び不足分の19,000個の番組学習データ、並びに25,000個の芸術性学習データを用いて、ニューラルネットワークを学習する。
Further, assume that the number of program learning data is A=6,000 and the number of artistic learning data is B=25,000. In this case, the lack of program learning data (B-A) = 19,000 pieces of program learning data for the artistic learning data is obtained by using A = 6,000 pieces of program learning data three times, and the remaining For 1,000 pieces of program learning data, part of A=6,000 pieces of program learning data is used. As a result, the missing 19,000 pieces of program learning data can be supplemented using the original A=6,000 pieces of program learning data. The
また、番組画像の正解スコアの段階数と芸術性評価画像の正解スコアの段階数が同じまたは異なる場合であっても、NN部31により、番組画像及び芸術性評価画像について統一した1次元のスコアが算出される。つまり、NN部31において、番組画像及び芸術性評価画像の段階数に依存することのない固定構成のニューラルネットワークを用いることができるから、段階数に応じて異なるニューラルネットワークを予め用意する必要がない。したがって、簡易な構成にて高精度の学習処理を実現することができる。
Furthermore, even if the number of stages of the correct score of the program image and the number of stages of the correct score of the artistic evaluation image are the same or different, the
図13は、本発明の実施形態における学習処理の効果を説明する図である。(1)は、非特許文献1の学習処理を示しており、特徴抽出用NN及びクラス分類用NNを用いて、2段階のクラス(2クラス)の正解スコアが付与された画像aのデータセットから、2クラスの確率分布が算出される。
FIG. 13 is a diagram illustrating the effect of learning processing in the embodiment of the present invention. (1) shows the learning process of
(2)は、一般的なマルチデータセットの学習処理を示している。特徴抽出用NN及び上側に示すクラス分類用NNを用いて、2クラスの正解スコアが付与された画像aのデータセットから、2クラスの確率分布が算出される。また、特徴抽出用NN及び下側に示すクラス分類用NNを用いて、3クラスの正解スコアが付与された画像bのデータセットから、3クラスの確率分布が算出される。 (2) shows a general multi-data set learning process. Using the feature extraction NN and the class classification NN shown above, the probability distribution of two classes is calculated from the data set of image a to which the correct scores of two classes have been assigned. Further, using the feature extraction NN and the class classification NN shown below, the probability distribution of the three classes is calculated from the data set of the image b to which the correct scores of the three classes have been assigned.
(3)は、本発明の実施形態における学習処理を示しており、図8に示したNN部31の特徴抽出用NN40及びスコア算出用NN41による処理に相当する。特徴抽出用NN40及びスコア算出用NN41を用いて、2クラスの正解スコアが付与された画像a(例えば番組画像)のデータセットから、1次元のスコアが算出される。また、特徴抽出用NN40及びスコア算出用NN41を用いて、3クラスの正解スコアが付与された画像b(例えば芸術性評価画像)のデータセットから、1次元のスコアが算出される。
(3) shows the learning process in the embodiment of the present invention, and corresponds to the process by the
(3)において、2クラスのデータセットの場合、例えば第1のクラスの正解スコアは0.0、第2のクラスの正解スコアは1.0である。また、3クラスのデータセットの場合、例えば第1のクラスの正解スコアは0.0、第2のクラスの正解スコアは0.5、第3のクラスの正解スコアは1.0である。 In (3), in the case of a two-class data set, for example, the correct score for the first class is 0.0, and the correct score for the second class is 1.0. Further, in the case of a data set of three classes, for example, the correct score of the first class is 0.0, the correct score of the second class is 0.5, and the correct score of the third class is 1.0.
(2)において、2クラスのデータセットにおける第1のクラス及び3クラスのデータセットにおける第1のクラスについて、これらの正解スコアが意味する画像に対する評価度合いは、似ているが同じではない。例えば、2クラスのデータセットにおける第1のクラスの正解スコアが0.0、3クラスのデータセットにおける第1のクラスの正解スコアも0.0とする。この場合、両データセットのクラス数が異なるため、正解スコアが0.0の画像に対する評価の幅も異なることとなる。 In (2), for the first class in the 2-class data set and the first class in the 3-class data set, the degree of evaluation of images implied by these correct scores is similar but not the same. For example, assume that the correct score of the first class in the two-class data set is 0.0, and the correct answer score of the first class in the three-class data set is also 0.0. In this case, since the numbers of classes in both datasets are different, the range of evaluation for images with a correct answer score of 0.0 will also be different.
このため、(2)に示したとおり、2クラスのデータセット用のクラス分類用NNと、3クラスのデータセット用のクラス分類用NNとに分け、異なる2つのNNを用いる必要がある。 Therefore, as shown in (2), it is necessary to use two different NNs, one for class classification for a two-class data set and one for class classification for a three-class data set.
しかしながら、例えば3クラスのデータセットの数が2クラスのデータセットよりも少ない場合には、特徴抽出用NN、上側に示すクラス分類用NN及び下側に示すクラス分類用NNの全体として、精度の高い学習を実現することができない。 However, for example, if the number of three-class datasets is smaller than the two-class dataset, the overall accuracy of the feature extraction NN, the class classification NN shown in the upper part, and the class classification NN shown in the lower part will be reduced. Unable to achieve high learning.
そこで、(3)に示したように、本発明の実施形態において、1次元のスコアを算出する、両データセットに共通のスコア算出用NN41を用いることで、データセットのクラス数に依存することなく、学習処理を実現することができる。 Therefore, as shown in (3), in the embodiment of the present invention, by using the score calculation NN41 common to both datasets, which calculates a one-dimensional score, it is possible to calculate a one-dimensional score depending on the number of classes in the dataset. It is possible to realize learning processing without having to do so.
このように、(2)に示したとおり、従来は、複数種類のデータセットを用いてニューラルネットワークを学習する場合、データセット毎に、異なるニューラルネットワークを用意する必要があった。これに対し、(3)に示したとおり、本発明の実施形態では、異なるニューラルネットワークを用意する必要はなく、単一のスコア算出用NN41を用いれば済む。つまり、簡易な構成にて高精度の学習処理を実現することができる。
In this way, as shown in (2), conventionally, when learning a neural network using multiple types of data sets, it was necessary to prepare a different neural network for each data set. On the other hand, as shown in (3), in the embodiment of the present invention, there is no need to prepare different neural networks, and it is sufficient to use a single
(3)に示す本発明の実施形態は、データセットのクラスとして、順序関係(例えば「great」>「good」>「bad」等)がある場合に、特に有効である。 The embodiment of the present invention shown in (3) is particularly effective when the classes of datasets have an order relationship (for example, "great" > "good" > "bad", etc.).
〔代表画像抽出装置〕
次に、図1に示した学習装置1により学習されたニューラルネットワークを用いて、番組映像から代表画像を抽出する代表画像抽出装置について説明する。図10は、本発明の実施形態による代表画像抽出装置の構成例を示すブロック図である。
[Representative image extraction device]
Next, a representative image extraction device that extracts representative images from program video using the neural network trained by the
この代表画像抽出装置2は、サンプリング処理部50、スコア算出部51及び選択部52を備えている。サンプリング処理部50は、番組映像を入力し、番組映像から一定間隔で、フレーム画像である番組画像をサンプリングし、番組画像をスコア算出部51に出力する。
The representative
尚、サンプリング処理部50は、番組映像をサンプリングして得られた全ての番組画像のうち、所定数の番組画像を予め選択し、選択した所定数の番組画像のみをスコア算出部51に出力するようにしてもよい。これにより、後段のスコア算出部51及び選択部52における処理負荷を低減することができる。
Note that the
スコア算出部51は、図1に示した学習装置1により学習された学習済みニューラルネットワークを備えている。つまり、スコア算出部51は、学習装置1により出力された最適なパラメータを入力し、ニューラルネットワークに設定する。
The
スコア算出部51は、サンプリング処理部50から番組画像のテンソルを入力し、ニューラルネットワークを用いて、番組画像からスコアを算出する。そして、スコア算出部51は、番組画像及び当該番組画像のスコアを選択部52に出力する。
The
これにより、番組映像をサンプリングして得られた複数の番組画像のそれぞれについて、番組画像及び当該番組画像のスコアが算出され、選択部52に出力される。
As a result, the program image and the score of the program image are calculated for each of the plurality of program images obtained by sampling the program video, and are output to the
選択部52は、サンプリング処理部50によりサンプリングして得られた全ての番組画像のそれぞれについて、スコア算出部51から番組画像及びスコアを入力する。そして、選択部52は、スコアの降順に番組画像をソートし、全ての番組画像の中からスコアの高いC枚の番組画像を、代表画像に選択する。Cは1以上の整数であり、予め設定される。
The
選択部52は、C枚の代表画像を時系列順にソートし、時系列順のC枚の代表画像を出力する。
The
尚、選択部52は、全ての番組画像及びこれらに対応するスコアを入力し、閾値処理により、全ての番組画像をスコアに基づいて例えば3段階のクラスに分類し、上位のクラスの番組画像を代表画像に選択するようにしてもよい。選択部52は、必ずしもスコアを等間隔に区切ることで、番組画像を分類する必要はない。
Note that the
例えば、選択部52は、予め設定された閾値(例えば、0.25,0.75)を用いた閾値処理により、0.00≦スコア≦閾値0.25の場合、当該スコアの番組画像を第1の段階のクラスに分類する。また、選択部52は、閾値0.25<スコア<閾値0.75の場合、当該スコアの番組画像を第2の段階のクラスに分類し、閾値0.75≦スコア≦1.00の場合、当該スコアの番組画像を第3の段階のクラスに分類する。そして、選択部52は、第3の段階のクラスの番組画像を代表画像に選択する。
For example, when 0.00≦score≦threshold 0.25, the
以上のように、本発明の実施形態の代表画像抽出装置2によれば、スコア算出部51は、番組映像をサンプリングして得られた番組画像について、学習装置1により学習されたニューラルネットワークを用いて、スコアを算出する。
As described above, according to the representative
選択部52は、番組映像をサンプリングして得られた全ての番組画像を、スコアの降順にソートし、スコアの高いC枚の番組画像を代表画像に選択し、C枚の代表画像を時系列順にソートして出力する。
The
ここで、学習装置1により学習されたニューラルネットワークは、番組制作のノウハウを考慮して生成されたモデルである。したがって、このニューラルネットワークを用いることにより、番組映像から、番組制作のノウハウを考慮した代表画像を抽出することができる。また、番組映像以外の特殊なデータを用いることなく、代表画像を抽出することができるから、処理負荷を低減することができる。そして、代表画像を用いて番組HPを作成する際には、作業量を大幅に減らすことができる。
Here, the neural network learned by the
〔代表画像抽出装置2を用いた実施例〕
次に、図10に示した代表画像抽出装置2を用いた実施例について説明する。図11は、代表画像抽出装置2を用いた第1実施例の番組HP作成システムを説明する図である。この番組HP作成システム3は、番組HPの作成対象である番組についての番組EPG(Electronic Programming Guide:電子番組表)情報及び番組映像を用いて、番組HPを作成するシステムである。
[Example using representative image extraction device 2]
Next, an example using the representative
番組HP作成システム3は、代表画像抽出装置2、要約映像生成部100及び自動配置処理部101を備えて構成される。要約映像生成部100は、従来の処理により、番組映像から要約映像を生成する構成部であり、代表画像抽出装置2は、図10に示した本発明の実施形態による装置であり、番組映像から例えば3枚の代表画像を抽出する。
The program
自動配置処理部101は、番組EPG情報、要約映像及び3枚の代表画像を、予め設定された位置に配置し、図11に示すような番組HPを作成する。
The automatic
図12は、代表画像抽出装置2を用いた第2実施例の番組DVD販売HP作成システムを説明する図である。この番組DVD販売HP作成システム4は、番組DVD販売HPの作成対象である番組DVDについてのDVD宣伝コメント、DVDパッケージ画像及び番組DVD動画を用いて、番組DVD販売HPを作成するシステムである。
FIG. 12 is a diagram illustrating a program DVD sales HP creation system according to the second embodiment using the representative
番組DVD販売HP作成システム4は、代表画像抽出装置2及び自動配置処理部102を備えて構成される。代表画像抽出装置2は、図10に示した本発明の実施形態による装置であり、番組映像から例えば6枚の代表画像を抽出する。
The program DVD sales HP creation system 4 includes a representative
自動配置処理部102は、DVD宣伝コメント、DVDパッケージ画像及び6枚の代表画像を、予め設定された位置に配置し、図12に示すような番組DVD販売HPを作成する。
The automatic
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。 Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the embodiments described above, and can be modified in various ways without departing from the technical concept thereof.
例えば、図1に示した学習装置1は、番組画像に加え、芸術性評価オープンデータの芸術性評価画像を用いて、ニューラルネットワークを学習するようにしたが、番組画像のみを用いるようにしてもよい。また、学習装置1は、番組画像に加え、芸術性評価オープンデータ以外のオープンデータを用いるようにしてもよい。学習に用いるオープンデータは、画像、及び当該画像に対して所定の観点で評価が付与された正解ラベルからなるデータであれば何でもよい。
For example, the
また、図8及び図9に示したNN部31の特徴抽出用NN40は、1024次元の画像特徴ベクトルの出力データを求め、スコア算出用NN41は、1024次元の画像特徴ベクトルを入力データとして扱うようにした。この1024次元の画像ベクトルは例示であり、本発明における特徴抽出用NN40の出力データ及びスコア算出用NN41の入力データは、1024次元の画像ベクトルに限定されるものではない。
Further, the
尚、本発明の実施形態による学習装置1のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。本発明の実施形態による代表画像抽出装置2についても同様である。
Note that a normal computer can be used as the hardware configuration of the
学習装置1に備えた番組学習データ生成部10、メモリ11,13、芸術性学習データ生成部12及び学習部14の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
The functions of the program learning
また、代表画像抽出装置2に備えたサンプリング処理部50、スコア算出部51及び選択部52の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
Further, the functions of the
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。 These programs are stored in the storage medium, and are read and executed by the CPU. Additionally, these programs can be stored and distributed in storage media such as magnetic disks (floppy (registered trademark) disks, hard disks, etc.), optical disks (CD-ROMs, DVDs, etc.), semiconductor memories, etc., and can be distributed via networks. You can also send and receive messages.
1 学習装置
2 代表画像抽出装置
3 番組HP作成システム
4 番組DVD販売HP作成システム
10 番組学習データ生成部
11,13 メモリ
12 芸術性学習データ生成部
14 学習部
20 サンプリング処理部
21 ダウンロード処理部
22 類似度算出部
23,24,25 正解スコア付与部
30 切り替え部
31 NN(ニューラルネットワーク)部
32 誤差算出部
33 パラメータ更新部
40 特徴抽出用NN
41 スコア算出用NN
50 サンプリング処理部
51 スコア算出部
52 選択部
100 要約映像生成部
101,102 自動配置処理部
P1,・・・,PN,Pn 番組画像
P’1,・・・,P’M,P’m 静止画
Sn,m 類似度
B 最大値
1
41 NN for score calculation
50
Claims (7)
学習用番組映像をサンプリングして得られるフレーム画像を番組画像とし、前記番組画像に付与された複数段階のうちのいずれかの段階のスコアを第1正解スコアとし、所定画像に付与された複数段階のうちのいずれかの段階のスコアを第2正解スコアとし、前記ニューラルネットワークを、前記番組画像及び前記所定画像が交互に入力され、1次元のスコアが出力されるモデルとして、
前記番組画像及び前記第1正解スコアからなる番組学習データ、並びに前記所定画像及び前記第2正解スコアからなる所定学習データが格納されたメモリと、
前記メモリから前記番組学習データ及び前記所定学習データを読み出し、前記番組学習データ及び前記所定学習データを用いて、前記ニューラルネットワークを学習する学習部と、を備え、
前記学習部は、
前記ニューラルネットワークを用いて、前記番組学習データに含まれる前記番組画像から前記番組画像の1次元のスコアを第1スコアとして算出し、前記ニューラルネットワークを用いて、前記所定学習データに含まれる前記所定画像から前記所定画像の1次元のスコアを第2スコアとして算出するニューラルネットワーク部と、
前記ニューラルネットワーク部により算出された前記第1スコアと前記番組学習データに含まれる前記第1正解スコアとの間の誤差を第1誤差として算出し、前記第2スコアと前記所定学習データに含まれる前記第2正解スコアとの間の誤差を第2誤差として算出する誤差算出部と、
前記誤差算出部により算出された前記第1誤差及び前記第2誤差の和が小さくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、を備えたことを特徴とする学習装置。 In a learning device for learning neural networks,
A frame image obtained by sampling a learning program video is defined as a program image, a score of one of the multiple stages assigned to the program image is defined as a first correct score, and a plurality of stages assigned to a predetermined image is defined as a first correct score. The score at any one of the stages is a second correct score, and the neural network is a model in which the program image and the predetermined image are alternately input and a one-dimensional score is output.
a memory storing program learning data consisting of the program image and the first correct score, and predetermined learning data consisting of the predetermined image and the second correct score;
a learning unit that reads the program learning data and the predetermined learning data from the memory and learns the neural network using the program learning data and the predetermined learning data,
The learning department is
Using the neural network, calculate a one-dimensional score of the program image from the program image included in the program learning data as a first score; a neural network unit that calculates a one-dimensional score of the predetermined image from the image as a second score;
An error between the first score calculated by the neural network unit and the first correct score included in the program learning data is calculated as a first error, and an error between the first score and the first correct score included in the program learning data is calculated as a first error. an error calculation unit that calculates an error between the second correct answer score and the second correct answer score as a second error;
A learning device comprising: a parameter updating section that updates parameters of the neural network so that the sum of the first error and the second error calculated by the error calculating section becomes smaller.
さらに、前記番組学習データを生成する番組学習データ生成部を備え、
前記番組学習データ生成部は、
前記学習用番組映像を前記番組画像にサンプリングするサンプリング処理部と、
前記学習用番組映像に対応した番組のホームページのURLへアクセスし、前記番組の静止画をダウンロードするダウンロード処理部と、
前記サンプリング処理部によりサンプリングされた前記番組画像について、前記ダウンロード処理部によりダウンロードされた前記静止画との間の類似度を算出する類似度算出部と、
前記類似度算出部により算出された前記類似度に基づいて、前記番組画像に対して前記第1正解スコアを付与し、前記番組画像及び前記第1正解スコアからなる前記番組学習データを前記メモリに格納する第1正解スコア付与部と、を備えたことを特徴とする学習装置。 The learning device according to claim 1,
further comprising a program learning data generation unit that generates the program learning data;
The program learning data generation unit includes:
a sampling processing unit that samples the learning program video into the program image;
a download processing unit that accesses a URL of a homepage of a program corresponding to the learning program video and downloads a still image of the program;
a similarity calculation unit that calculates a degree of similarity between the program image sampled by the sampling processing unit and the still image downloaded by the download processing unit;
The first correct score is assigned to the program image based on the similarity calculated by the similarity calculation unit, and the program learning data consisting of the program image and the first correct score is stored in the memory. A learning device comprising: a first correct score assigning unit that stores a first correct answer score.
前記所定学習データを生成する所定学習データ生成部を備え、
前記所定学習データ生成部は、
前記所定画像、及び前記所定画像に対して予め付与された複数段階のうちのいずれかの段階のラベルからなるオープンデータを入力し、前記ラベルを前記第2正解スコアに変換することで、前記所定画像に対して前記第2正解スコアを付与し、前記所定画像及び前記第2正解スコアからなる前記所定学習データを前記メモリに格納する第2正解スコア付与部を備えたことを特徴とする学習装置。 The learning device according to claim 2,
comprising a predetermined learning data generation unit that generates the predetermined learning data,
The predetermined learning data generation unit includes:
By inputting open data consisting of the predetermined image and a label of one of a plurality of stages assigned in advance to the predetermined image, and converting the label into the second correct answer score, the predetermined A learning device comprising a second correct score assigning unit that assigns the second correct score to an image and stores the predetermined learning data including the predetermined image and the second correct score in the memory. .
前記番組学習データの数をA個(Aは正の整数)、前記所定学習データの数をB個(Bは正の整数)、A<Bとし、B個からA個を減算した結果を(B-A)として、
前記学習部は、
A個の前記番組学習データ、及び、前記所定学習データに対する前記番組学習データの不足分である(B-A)個のデータであって、A個の前記番組学習データのいずれかまたは全てを用いて補充された前記番組学習データ、並びにB個の前記所定学習データを用いて、前記ニューラルネットワークを学習する、ことを特徴とする学習装置。 The learning device according to any one of claims 1 to 3,
The number of program learning data is A (A is a positive integer), the number of predetermined learning data is B (B is a positive integer), A<B, and the result of subtracting A from B is ( As B-A),
The learning department is
A pieces of the program learning data and (B-A) pieces of data that are short of the program learning data with respect to the predetermined learning data, using any or all of the A pieces of the program learning data. The learning device is characterized in that the neural network is trained using the program learning data supplemented by the program learning data and the B pieces of the predetermined learning data.
前記番組映像をフレーム画像にサンプリングし、前記フレーム画像を番組画像として出力するサンプリング処理部と、
請求項1から4までのいずれか一項の学習装置により学習されたニューラルネットワークを用いて、前記サンプリング処理部により出力された前記番組画像から、前記番組画像の1次元のスコアを算出するスコア算出部と、
前記スコア算出部により算出された前記スコアに基づいて、前記サンプリング処理部により前記番組映像がサンプリングされて出力された全ての前記番組画像から、前記代表画像を選択する選択部と、を備えたことを特徴とする代表画像抽出装置。 In a representative image extraction device that extracts a representative image from a program video,
a sampling processing unit that samples the program video into a frame image and outputs the frame image as a program image;
A score calculation that calculates a one-dimensional score of the program image from the program image output by the sampling processing unit using a neural network trained by the learning device according to any one of claims 1 to 4. Department and
a selection unit that selects the representative image from all the program images sampled and output from the program video by the sampling processing unit, based on the score calculated by the score calculation unit; A representative image extraction device characterized by:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020075676A JP7441107B2 (en) | 2020-04-21 | 2020-04-21 | Learning device, representative image extraction device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020075676A JP7441107B2 (en) | 2020-04-21 | 2020-04-21 | Learning device, representative image extraction device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021174117A JP2021174117A (en) | 2021-11-01 |
JP7441107B2 true JP7441107B2 (en) | 2024-02-29 |
Family
ID=78281852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020075676A Active JP7441107B2 (en) | 2020-04-21 | 2020-04-21 | Learning device, representative image extraction device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7441107B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019185359A (en) | 2018-04-09 | 2019-10-24 | トヨタ自動車株式会社 | Machine learning device |
JP2019213065A (en) | 2018-06-05 | 2019-12-12 | 日本電信電話株式会社 | Provided credit display detection device, provided credit display detection method, and program |
-
2020
- 2020-04-21 JP JP2020075676A patent/JP7441107B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019185359A (en) | 2018-04-09 | 2019-10-24 | トヨタ自動車株式会社 | Machine learning device |
JP2019213065A (en) | 2018-06-05 | 2019-12-12 | 日本電信電話株式会社 | Provided credit display detection device, provided credit display detection method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2021174117A (en) | 2021-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10013636B2 (en) | Image object category recognition method and device | |
CN112632980B (en) | Enterprise classification method and system based on big data deep learning and electronic equipment | |
CN110069709B (en) | Intention recognition method, device, computer readable medium and electronic equipment | |
CN112131920B (en) | Data structure generation for table information in scanned images | |
CN110516074B (en) | Website theme classification method and device based on deep learning | |
CN114283350B (en) | Visual model training and video processing method, device, equipment and storage medium | |
CN114298122B (en) | Data classification method, apparatus, device, storage medium and computer program product | |
CN109829065B (en) | Image retrieval method, device, equipment and computer readable storage medium | |
CN113627151B (en) | Cross-modal data matching method, device, equipment and medium | |
CN111191825A (en) | User default prediction method and device and electronic equipment | |
CN110807086A (en) | Text data labeling method and device, storage medium and electronic equipment | |
CN110796171A (en) | Unclassified sample processing method and device of machine learning model and electronic equipment | |
CN112836750A (en) | System resource allocation method, device and equipment | |
JP2019086979A (en) | Information processing device, information processing method, and program | |
CN112036659A (en) | Social network media information popularity prediction method based on combination strategy | |
CN114663002A (en) | Method and equipment for automatically matching performance assessment indexes | |
CN113763385A (en) | Video object segmentation method, device, equipment and medium | |
CN113780365B (en) | Sample generation method and device | |
JP7441107B2 (en) | Learning device, representative image extraction device and program | |
CN116756281A (en) | Knowledge question-answering method, device, equipment and medium | |
CN111768214A (en) | Product attribute prediction method, system, device and storage medium | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN111581382B (en) | Method and system for predicting hot questions in question-answering community | |
CN114861004A (en) | Social event detection method, device and system | |
JP7420578B2 (en) | Form sorting system, form sorting method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230301 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7441107 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |