JP2017059193A - Time series image compensation device, time series image generation method, and program for time series image compensation device - Google Patents

Time series image compensation device, time series image generation method, and program for time series image compensation device Download PDF

Info

Publication number
JP2017059193A
JP2017059193A JP2015201517A JP2015201517A JP2017059193A JP 2017059193 A JP2017059193 A JP 2017059193A JP 2015201517 A JP2015201517 A JP 2015201517A JP 2015201517 A JP2015201517 A JP 2015201517A JP 2017059193 A JP2017059193 A JP 2017059193A
Authority
JP
Japan
Prior art keywords
image
time
images
series
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015201517A
Other languages
Japanese (ja)
Inventor
貴博 安野
Takahiro Anno
貴博 安野
耀太郎 堅山
Yotaro Katayama
耀太郎 堅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2015201517A priority Critical patent/JP2017059193A/en
Publication of JP2017059193A publication Critical patent/JP2017059193A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

PROBLEM TO BE SOLVED: To automatically generate an image in time series and precisely compensate it.SOLUTION: A time series image compensation device 1, which generates a new image based on two or more images, reads a calculation model 50 in which two or more images in time series are taken as an input for outputting a new image. Elements of the two or more images 104 and 105 are read, and the two or more images that have been read are accepted as an input. A calculation that is based on the calculation model 50 that has been read is added to the elements of the two or more images having been accepted as the input, and a result of the calculation is outputted as a compensation image 106.SELECTED DRAWING: Figure 1

Description

本発明は、機械学習技術を用いて時系列画像を生成する、時系列画像補完装置、中間画像生成方法、時系列画像補完装置用プログラムに関する。  The present invention relates to a time-series image complementing device, an intermediate image generating method, and a program for a time-series image complementing device that generate a time-series image using machine learning technology.

今日、情報技術の発展、普及に伴い、蓄積された膨大なデータが解析され、活用される場面が増えている。機械学習技術と呼ばれる分野では、従来の単純な統計処理を超えて、人工知能とも呼ばれるような高度な識別や計算可能なモデルの研究が進められており、近年では、特に画像処理において目覚ましい発展を遂げている。  Today, with the development and popularization of information technology, a large number of stored data are analyzed and utilized. In the field of machine learning technology, research on advanced discriminative and computational models, also called artificial intelligence, has been advanced beyond conventional simple statistical processing, and in recent years, remarkable progress has been made especially in image processing. It is accomplished.

ところで、一般に動画というものは、複数の静止画を連続的に切り替え、高速に投影することによって、静止画が動いているように見える錯覚、いわゆる仮現運動を利用して成立している。例えば、アニメーションでは、観測者に動きを見せるために、一秒間の動画を撮影するために、24枚前後の静止画を作成する必要がある。  By the way, in general, a moving image is established using an illusion that a still image appears to be moving, that is, a so-called apparent motion, by continuously switching a plurality of still images and projecting them at high speed. For example, in animation, it is necessary to create around 24 still images in order to shoot a one-second moving image in order to show a motion to an observer.

一例として、テレビ放映を考えると、商業上、週次でプログラムが組まれているため、25分間のテレビ番組に対しては、毎週36,000枚程度の静止画が作成されていることになる。原則これらの画像は他のアニメーション間で使い回しが可能なものではないので、制作に人的コストがかかりすぎており、効率化が求められているという問題があった。  As an example, when considering television broadcasting, since a program is organized weekly for commercial purposes, about 36,000 still images are created every week for a 25-minute television program. . In principle, these images cannot be reused between other animations, so there is a problem that production costs are too high and efficiency is required.

このような課題に対して、手作業で動画を作成することなく、原画を用いて計算機上でアニメーションを制作可能なアニメーション作成方法が公開されている。  In order to deal with such a problem, an animation creation method that can produce an animation on a computer using an original image without manually creating a moving image has been disclosed.

特許公開2000−172865号公報Japanese Patent Publication No. 2000-172865

特許文献1によれば、手描きされた1枚目の原画を読み込み、該原画を多角形などによりトレースし、該多角形に色、透明度、テクスチャなどを設定し、後続する2枚目以降のi番目の原画を読み込み、1枚目の原画トレースを変形することにより、該原画のトレースを作成し、中割りデータを、トレースした多角形の頂点を補間することにより生成する、アニメーション作成方法が開示されている。  According to Patent Document 1, a first hand-drawn original image is read, the original image is traced by a polygon or the like, color, transparency, texture, etc. are set to the polygon, and the subsequent i and subsequent images are set. An animation creation method is disclosed in which the first original image is read, the original image trace is transformed to create the original image trace, and the intermediate data is generated by interpolating the vertices of the traced polygon. Has been.

しかしながら、特許文献1において開示されている手法は、多角形のトレースによって行われているために、補完を行う原画間で、変形前後の多角形の対応、特に変形前後の線同士の対応関係が正しくなされていなければ、中間の画像を正しく生成することができないという課題が残っていた。  However, since the technique disclosed in Patent Document 1 is performed by polygon tracing, there is a correspondence between polygons before and after deformation, particularly between lines before and after deformation, between original images to be complemented. If not done correctly, there remains a problem that an intermediate image cannot be generated correctly.

そこで、本発明の発明者は、機械学習技術、特にニューラルネットワークを用いて、補完前後の画像から、補完画像を正解データとするような学習モデルを構築することで、より高精度な補完画像の作成が可能とすることが可能であることに着目した。  Therefore, the inventor of the present invention uses a machine learning technique, in particular, a neural network, to construct a learning model that uses the complementary image as correct data from the images before and after the complementary image. We focused on the possibility of making it possible.

また、本発明の発明者は、上記の手法を用いることで、人工の画像であるアニメーションのみならず、汎用的な動画一般に対して欠落したフレームの補完を行い、アップコンバートが可能である点に着目した。  In addition, the inventor of the present invention can perform up-conversion by using the above-described method to complement not only an animation that is an artificial image but also a general-purpose moving image in general and missing frames. Pay attention.

また、本発明の発明者は、特にDeepLearningと呼ばれる技術分野の手法を用いて学習モデルを構築することで、より高度な学習モデルが構築でき、一層の精度向上が可能である点に着目した。  Further, the inventors of the present invention have focused on the fact that a more advanced learning model can be constructed and a further improvement in accuracy can be achieved by constructing a learning model using a technique in the technical field called Deep Learning.

本発明は、時系列上の画像を正解データとして学習した機械学習モデルを用いて、二以上の時系列上の画像に対して、対応する補完画像を自動生成し出力する時系列画像補完装置、時系列画像生成方法、時系列画像補完装置用プログラムを提供する。  The present invention relates to a time-series image complementing device that automatically generates and outputs a corresponding complementary image for two or more time-series images using a machine learning model obtained by learning a time-series image as correct answer data, A time-series image generation method and a program for a time-series image complementing apparatus are provided.

本発明では、以下のような解決手段を提供する。  The present invention provides the following solutions.

第1の特徴に係る発明は、二以上の画像を基に新たな画像を生成する時系列画像補完装置であって、時系列上の二以上の画像を入力とし、新たな画像を出力とする演算モデルを読み込む演算モデル読み込み手段と、前記二以上の画像の要素を読み込む画像読み込み手段と、前記読み込んだ二以上の画像を入力として受け付ける元画像受付手段と、前記読み込んだ演算モデルに基づく演算を、前記入力として受け付けた二以上の画像の要素に加える画像要素演算手段と、前記演算の結果を、補完画像として出力する補完画像出力手段と、を備える時系列画像補完装置を提供する。  The invention according to the first feature is a time-series image complementing device that generates a new image based on two or more images, wherein two or more images on the time-series are input and a new image is output. An arithmetic model reading means for reading the arithmetic model, an image reading means for reading the elements of the two or more images, an original image receiving means for receiving the two or more read images as input, and an operation based on the read arithmetic model There is provided a time-series image complementing device comprising: image element computing means for adding to two or more image elements received as input; and complementary image output means for outputting the result of the computation as a complemented image.

第1の特徴に係る発明によれば、二以上の画像を基に新たな画像を生成する時系列画像補完装置は、時系列上の二以上の画像を入力とし、新たな画像を出力とする演算モデルを読み込み、前記二以上の画像の要素を読み込み、前記読み込んだ二以上の画像を入力として受け付け、前記読み込んだ演算モデルに基づく演算を、前記入力として受け付けた二以上の画像の要素に加え、前記演算の結果を、補完画像として出力する。  According to the first aspect of the invention, the time-series image complementing device that generates a new image based on two or more images inputs two or more images on the time series and outputs a new image. Read the operation model, read the elements of the two or more images, accept the two or more read images as input, and add the operation based on the read operation model to the elements of the two or more images received as the input The result of the calculation is output as a complementary image.

第1の特徴に係る発明は、時系列画像補完装置のカテゴリであるが、時系列画像補完方法、時系列画像補完装置用プログラムのカテゴリにおいても、カテゴリに応じ同様の効果を奏する。  The invention according to the first feature is the category of the time-series image complementing device, but the same effect is obtained according to the category in the category of the time-series image complementing method and the program for the time-series image complementing device.

第2の特徴に係る発明は、予め用意された、二以上の画像と、時系列上の中間画像について、前記二以上の画像を入力、前記中間画像を出力として教師付き学習を行う中間画像学習手段と、を備え、
前記演算モデル読み込み手段において、前記学習の結果得られる演算モデルを読み込むことを特徴とする第1の特徴に係る発明である時系列画像補完装置を提供する。
The invention according to the second feature is an intermediate image learning in which two or more images prepared in advance and a time-series intermediate image are input with the two or more images and the supervised learning is performed with the intermediate image as an output. Means, and
There is provided a time-series image complementing apparatus according to the first aspect of the invention, wherein the arithmetic model reading means reads an arithmetic model obtained as a result of the learning.

第2の特徴に係る発明によれば、第1の特徴に係る発明である時系列画像補完装置は、予め用意された、二以上の画像と、時系列上の中間画像について、前記二以上の画像を入力、前記中間画像を出力として教師付き学習を行い、前記演算モデル読み込み手段において、前記学習の結果得られる演算モデルを読み込む。  According to the invention relating to the second feature, the time-series image complementing device which is the invention relating to the first feature relates to the two or more images prepared in advance and the two or more images and the intermediate images on the time-series. Supervised learning is performed using an image as input and the intermediate image as output, and the calculation model reading means reads a calculation model obtained as a result of the learning.

第3の特徴に係る発明は、予め用意された、二以上の画像と、時系列上の前または後の画像について、前記二以上の画像を入力、前記前または後の画像を出力として教師付き学習を行う前後画像学習手段と、を備え、
前記学習の結果得られる演算モデルによって、前記所定の演算を行うことを特徴とする第1の特徴に係る発明である時系列画像補完装置を提供する。
In the invention according to the third feature, with respect to two or more images prepared in advance and a preceding or succeeding image in time series, the two or more images are input, and the preceding or following image is output as a supervised teacher. And before and after image learning means for performing learning,
There is provided a time-series image complementing apparatus which is an invention according to a first feature characterized in that the predetermined computation is performed by a computation model obtained as a result of the learning.

第3の特徴に係る発明によれば、第1の特徴に係る発明である時系列画像補完装置は、予め用意された、二以上の画像と、時系列上の前または後の画像について、前記二以上の画像を入力、前記前または後の画像を出力として教師付き学習を行い、前記学習の結果得られる演算モデルによって、前記所定の演算を行う。  According to the invention relating to the third feature, the time-series image complementing device which is the invention relating to the first feature relates to the two or more images prepared in advance and the previous or subsequent image on the time series. Two or more images are input, supervised learning is performed using the previous or subsequent image as an output, and the predetermined calculation is performed according to a calculation model obtained as a result of the learning.

第4の特徴に係る発明は、前記読み込んだ画像から、当該画像の特徴を表す高次情報を抽出し付加するメタタグ付加手段と、を備え、
前記抽出した高次情報を、前記読み込んだ画像の要素として扱うことを特徴とする第1から第3のいずれかの特徴に係る発明である時系列画像補完装置を提供する。
The invention according to a fourth feature comprises meta tag addition means for extracting and adding high-order information representing the feature of the image from the read image,
There is provided a time-series image complementing apparatus which is an invention according to any one of the first to third features, wherein the extracted high-order information is handled as an element of the read image.

第4の特徴に係る発明によれば、第1から第3のいずれかの特徴に係る発明である時系列画像補完装置は、前記読み込んだ画像から、当該画像の特徴を表す高次情報を抽出し付加し、前記抽出した高次情報を、前記読み込んだ画像の要素として扱う。  According to the fourth feature of the invention, the time-series image complementing device according to any one of the first to third features extracts high-order information representing the feature of the image from the read image. Then, the extracted higher-order information is treated as an element of the read image.

第5の特徴に係る発明は、前記演算モデルは、ニューラルネットワークで表現されることを特徴とする第1から第4のいずれかの特徴に係る発明である時系列画像補完装置を提供する。  An invention according to a fifth feature provides a time-series image complementing device according to any one of the first to fourth features, wherein the arithmetic model is expressed by a neural network.

第5の特徴によれば、第1から第4のいずれかの特徴に係る発明である時系列画像補完装置において、前記演算モデルは、ニューラルネットワークで表現される。  According to a fifth feature, in the time-series image complementing device according to any one of the first to fourth features, the calculation model is expressed by a neural network.

第6の特徴に係る発明は、前記演算モデルは、畳み込みニューラルネットワークで表現されることを特徴とする第1から第5のいずれかの特徴に係る発明である時系列画像補完装置を提供する。  The invention according to a sixth feature provides a time-series image complementing device according to any one of the first to fifth features, wherein the arithmetic model is expressed by a convolutional neural network.

第6の特徴に係る発明によれば、第1から第5のいずれかの特徴に係る発明である時系列画像補完装置において、前記演算モデルは、畳み込みニューラルネットワークで表現される。  According to the sixth aspect of the invention, in the time-series image complementing apparatus according to any one of the first to fifth aspects, the operation model is expressed by a convolutional neural network.

第7の特徴に係る発明は、前記学習は、深層学習によって行われることを特徴とする第5又は第6の特徴に係る発明である時系列画像補完装置を提供する。  An invention according to a seventh feature provides a time-series image complementing device, which is an invention according to the fifth or sixth feature, wherein the learning is performed by deep learning.

第7の特徴に係る発明によれば、第5又は第6の特徴に係る発明である時系列画像補完装置において、前記学習は、深層学習によって行われる。  According to the seventh aspect of the invention, in the time-series image complementing apparatus which is the invention of the fifth or sixth aspect, the learning is performed by deep learning.

第8の特徴に係る発明は、前記画像の読み込みにおいて、輪郭を抽出する輪郭抽出手段と、を備え、
前記抽出した輪郭を、前記画像の要素として扱うことを特徴とする第1から第7のいずれかの特徴に係る発明である時系列画像補完装置を提供する。
The invention according to an eighth feature comprises contour extracting means for extracting a contour in reading the image,
There is provided a time-series image complementing apparatus which is an invention according to any one of the first to seventh features, wherein the extracted contour is handled as an element of the image.

第8の特徴に係る発明によれば、第1から第7のいずれかの特徴に係る発明である時系列画像補完装置は、前記画像の読み込みにおいて、輪郭を抽出し、前記抽出した輪郭を、前記画像の要素として扱う。  According to the eighth aspect of the invention, the time-series image complementing apparatus according to any one of the first to seventh aspects of the present invention extracts a contour in reading the image, and the extracted contour is Treat as an element of the image.

第9の特徴に係る発明は、前記所定の演算において、一以上の演算モデルによってそれぞれ演算を実施し、演算結果を集約した画像を最終的な中間画像として出力する出力画像集約手段と、を備えることを特徴とする第1から第8のいずれかの特徴に係る発明である時系列画像補完装置を提供する。  The invention according to a ninth feature includes an output image aggregating unit that, in the predetermined calculation, performs an operation using one or more calculation models, and outputs an image obtained by aggregating the calculation results as a final intermediate image. There is provided a time-series image complementing apparatus which is an invention according to any one of the first to eighth characteristics.

第9の特徴に係る発明によれば、第1から第8のいずれかの特徴に係る発明である時系列画像補完装置は、前記所定の演算において、一以上の演算モデルによってそれぞれ演算を実施し、演算結果を集約した画像を最終的な中間画像として出力する。  According to the ninth aspect of the invention, the time-series image complementing apparatus according to any one of the first to eighth aspects of the present invention performs each of the predetermined calculations using one or more calculation models. Then, an image obtained by collecting the calculation results is output as a final intermediate image.

第10の特徴に係る発明は、二以上の画像を基に新たな画像を生成する時系列画像補完装置が実行する時系列画像補完方法であって、
時系列上の二以上の画像を入力とし、新たな画像を出力とする演算モデルを読み込むステップと、
前記二以上の画像の要素を読み込むステップと、
前記読み込んだ二以上の画像を入力として受け付けるステップと、
前記読み込んだ演算モデルに基づく演算を、前記入力として受け付けた二以上の画像の要素に加えるステップと、
前記演算の結果を、補完画像として出力するステップと、
を備える時系列画像補完方法を提供する。
The invention according to a tenth feature is a time-series image complementing method executed by a time-series image complementing apparatus that generates a new image based on two or more images,
Reading an arithmetic model that takes two or more images in time series as input and outputs a new image;
Reading the elements of the two or more images;
Receiving the two or more read images as input;
Adding an operation based on the read operation model to two or more image elements received as the input;
Outputting the result of the calculation as a complementary image;
A time-series image complementing method is provided.

第11の特徴に係る発明は、二以上の画像を基に新たな画像を生成する時系列画像補完装置に、
時系列上の二以上の画像を入力とし、新たな画像を出力とする演算モデルを読み込むステップ、
前記二以上の画像の要素を読み込むステップ、
前記読み込んだ二以上の画像を入力として受け付けるステップ、
前記読み込んだ演算モデルに基づく演算を、前記入力として受け付けた二以上の画像の要素に加えるステップ、
前記演算の結果を、補完画像として出力するステップ、
を実行させるための時系列画像補完装置用プログラムを提供する。
The invention according to the eleventh feature is a time-series image complementing device that generates a new image based on two or more images.
Reading an arithmetic model that takes two or more images in time series as input and outputs a new image;
Reading the elements of the two or more images;
Receiving two or more read images as input;
Adding an operation based on the read operation model to two or more image elements received as the input;
Outputting the result of the calculation as a complementary image;
A program for a time-series image complementing apparatus for executing the above is provided.

本発明により、時系列上の画像を正解データとして学習した機械学習モデルを用いて、二以上の時系列上の画像に対して、対応する補完画像を自動生成し出力する時系列画像補完装置、時系列画像生成方法、時系列画像補完装置用プログラムを提供することが可能となる。  A time-series image complementing device that automatically generates and outputs a corresponding complementary image for two or more time-series images using a machine learning model in which a time-series image is learned as correct data according to the present invention, It is possible to provide a time-series image generation method and a program for a time-series image complementing apparatus.

図1は、時系列画像補完装置1の概要を表した図である。FIG. 1 is a diagram showing an outline of the time-series image complementing apparatus 1. 図2は、一般的なニューラルネットワークの模式図である。FIG. 2 is a schematic diagram of a general neural network. 図3は、時系列画像補完装置1の機能ブロック図である。FIG. 3 is a functional block diagram of the time-series image complementing apparatus 1. 図4は、時系列画像補完装置1が実行する補完画像出力処理のフローチャートである。FIG. 4 is a flowchart of complementary image output processing executed by the time-series image complementing apparatus 1. 図5は、時系列画像補完装置1が実行する補完画像出力モデル学習処理のフローチャートである。FIG. 5 is a flowchart of the complementary image output model learning process executed by the time-series image complementing apparatus 1. 図6は、時系列画像補完装置1が学習及び出力する時系列画像の一例である。FIG. 6 is an example of a time-series image that the time-series image complementing apparatus 1 learns and outputs.

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。  Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.

[時系列画像補完装置1の概要]
図1は、時系列画像補完装置1の概要を表した図である。図1においては、補完画像を出力する機械学習モデル50について、画像の上半分の領域が学習の概要を、下半分の領域が出力の概要を表している。
[Outline of time-series image complementing apparatus 1]
FIG. 1 is a diagram showing an outline of the time-series image complementing apparatus 1. In FIG. 1, in the machine learning model 50 that outputs a complementary image, the upper half area of the image represents the outline of learning, and the lower half area represents the outline of output.

まずは学習の概要について説明する。図1において、学習中のモデルは、機械学習モデル50、学習データ画像101、学習データ画像102、及び教師データ画像103により構成される。  First, the outline of learning will be described. In FIG. 1, the model being learned is composed of a machine learning model 50, a learning data image 101, a learning data image 102, and a teacher data image 103.

ここで、機械学習における学習の一例として、本目的に適した代表的なモデルであるニューラルネットワークを用いて概要を説明する。  Here, as an example of learning in machine learning, an outline will be described using a neural network that is a representative model suitable for this purpose.

図2は、一般的なニューラルネットワークの模式図である。ニューラルネットワークは、入力データに対して事前に学習した所定の演算を加える演算モデルということができる。ここでは、一例として中間層が一層のニューラルネットワークを図示している。  FIG. 2 is a schematic diagram of a general neural network. The neural network can be said to be an operation model that adds a predetermined operation learned in advance to input data. Here, as an example, a neural network having a single intermediate layer is illustrated.

ニューラルネットワークは、ノード201のような入力層、ノード202のような中間層、そしてノード203のような出力層によって構成される。中間層は、より多層であってもよく、ノード202とノード203の間に、ノードが複数入っていてもよい。ただし、層が増えることで、表せる数式の自由度は向上するものの、より学習に必要な時間やデータ量は多くなる。  The neural network includes an input layer such as node 201, an intermediate layer such as node 202, and an output layer such as node 203. The intermediate layer may be a multilayer, and a plurality of nodes may be interposed between the node 202 and the node 203. However, although the number of layers increases, the degree of freedom of the mathematical expression that can be expressed is improved, but the time and data amount required for learning increase.

ノードとノードを結ぶエッジ204は、それぞれ独立に重みを持っている。エッジ204の重みは、エッジ204の始点となっているノード201に入力された数値に掛け合わされ、終点となっているノード202に受け渡される。ノード202は、複数のエッジの終点となっているから、それらの値の和が最終的なノード202への入力として受け渡されることになる。  Edges 204 connecting nodes have weights independently. The weight of the edge 204 is multiplied by the numerical value input to the node 201 that is the starting point of the edge 204 and is passed to the node 202 that is the ending point. Since the node 202 is the end point of a plurality of edges, the sum of these values is passed as the final input to the node 202.

例えば、入力層への入力207が2として、エッジ204の重みが1.5であった場合、ノード202には3が受け渡される。同じく入力層に位置するノード205やノード206についても、それぞれ独立な入力とエッジの重みがあるため、その三つの数字の和がノード202への入力となる。  For example, when the input 207 to the input layer is 2 and the weight of the edge 204 is 1.5, 3 is delivered to the node 202. Similarly, the nodes 205 and 206 located in the input layer also have independent inputs and edge weights, so the sum of the three numbers becomes the input to the node 202.

こうして中間層のノードそれぞれへの入力を計算することができる。また、中間層のノードと、出力層のノードもまた、独立の重みをもつエッジで結ばれているから、中間層への入力と、そのエッジの重みによって、出力層のノードそれぞれへの入力が計算されることになる。この結果は、ニューラルネットワーク全体の出力そのものに他ならない。  In this way, the input to each node in the intermediate layer can be calculated. In addition, since the nodes of the intermediate layer and the nodes of the output layer are also connected by edges having independent weights, the input to each of the nodes of the output layer depends on the input to the intermediate layer and the weight of the edge. Will be calculated. This result is nothing but the output of the entire neural network.

ここで、層の数やノードの数はニューラルネットワークの設計時に決められる所与のものであるので、学習という行為は、それぞれのエッジの重みを最適化する行為であると言える。  Here, since the number of layers and the number of nodes are given at the time of designing the neural network, it can be said that the act of learning is an act of optimizing the weight of each edge.

次に、学習について説明する。学習の方法は、用いる機械学習モデルによって様々であるが、ニューラルネットワークでは一般的に誤差逆伝播法(Backpropagation)という手法が使われている。学習においては、まず入力データと、その入力データを入力したときの理想値を用意する。この理想値を教師データと呼ぶ。入力データは、学習データと呼ばれることもある。  Next, learning will be described. There are various learning methods depending on the machine learning model to be used, but a neural network generally uses a method called backpropagation. In learning, first, input data and an ideal value when the input data is input are prepared. This ideal value is called teacher data. The input data is sometimes called learning data.

誤差逆伝播法においては、はじめに学習対象のニューラルネットワークに対して、入力データを入力し、そのときの出力を求める。そして、それぞれの出力ノードについて、出力と理想値の差分を判定し、その差分を引き起こした原因として、一層前のエッジのうち最も重みが大きいエッジを判定し、そのエッジの重みを、理想値が出るような方向に調整する。調整には、最急降下法が使われる。この調整が完了すると、その一層前についても、同様の調整を行う。そうすることで、重みの調整が、出力層から入力層に向かって逆伝播していくことになる。  In the back propagation method, first, input data is input to a neural network to be learned, and an output at that time is obtained. Then, for each output node, the difference between the output and the ideal value is determined, and as the cause that caused the difference, the edge having the largest weight among the previous edges is determined, and the weight of the edge is determined as the ideal value. Adjust the direction so that it comes out. The steepest descent method is used for adjustment. When this adjustment is completed, the same adjustment is performed before that. By doing so, the weight adjustment is back-propagated from the output layer to the input layer.

この調整を大量の教師データに対して繰り返すことで、各エッジの重みは理想値に近い値を出すように調整され続け、最終的に目的に適したニューラルネットワークが得られる。なお、ニューラルネットワークの学習は必ずしも収斂するとは限らないので、学習の完了は、現実的には精度による閾値か、教師データの量によって決められることが多い。  By repeating this adjustment for a large amount of teacher data, the weight of each edge is continuously adjusted so as to give a value close to the ideal value, and finally a neural network suitable for the purpose is obtained. Note that learning of a neural network does not necessarily converge, so that the completion of learning is practically determined by a threshold value based on accuracy or the amount of teacher data.

なお、本件のように画像を入力として機械学習モデルを構築する場合には、単純なニューラルネットワークに代えて畳み込みニューラルネットワーク(Convolutional neural network)が用いられることが多い。畳み込みニューラルネットワークは、人間の視覚野を模した構造となっており、特に画像処理分野において精度向上に寄与することが知られている。  When constructing a machine learning model using an image as an input as in the present case, a convolutional neural network is often used instead of a simple neural network. A convolutional neural network has a structure imitating a human visual cortex, and is known to contribute to improving accuracy particularly in the field of image processing.

すなわち、単純なニューラルネットワークでは、画像を一次元データとして扱うため、平行移動や回転した画像が、要素としてかけ離れたものになってしまうことが多い。畳み込みニューラルネットワークは、入力を二次元のまま扱うことができるため、上記の画像変形を吸収しやすいといった利点がある。  That is, in a simple neural network, an image is handled as one-dimensional data, and thus a parallel moved or rotated image is often separated as an element. The convolutional neural network can handle the input as it is in two dimensions, and thus has an advantage that it easily absorbs the image deformation.

以上が、ニューラルネットワークの概要である。  The above is the outline of the neural network.

図1に戻り、学習データ画像101は、機械学習モデルの入力として扱うため、要素(feature)と呼ばれる数値データに変換される。要素は、学習アルゴリズムと学習の目的によって任意に選ばれるもので、固定的ではない。例えば、画像の画素一ドットずつを要素として扱うこともあれば、画素をグレースケールに変換したものを要素として扱う場合や、画素をベクトルデータとみなしたときの勾配といった、特徴量を要素として扱う場合もある。  Returning to FIG. 1, the learning data image 101 is converted into numerical data called an element (feature) to be handled as an input of a machine learning model. The elements are arbitrarily selected according to the learning algorithm and learning purpose, and are not fixed. For example, one pixel at a time may be treated as an element, or if a pixel is converted to grayscale as an element, or a characteristic amount such as a gradient when a pixel is regarded as vector data is treated as an element. In some cases.

上述のとおり、機械学習は学習データと教師データの組み合わせによって演算アルゴリズムを最適化する行為にほかならない。この例では、学習データは学習データ画像101の要素と学習データ画像102の要素を組み合わせたものであり、学習中の機械学習モデル50に入力される(ステップS01)。教師データ画像103は教師データとして学習に利用される(ステップS02)。なお、機械学習モデル50が直接画像を出力するのではなく、画像を復元可能な二次情報を出力する場合は、その二次情報が教師データとなる。  As described above, machine learning is nothing but an act of optimizing an arithmetic algorithm by a combination of learning data and teacher data. In this example, the learning data is a combination of the elements of the learning data image 101 and the elements of the learning data image 102, and is input to the machine learning model 50 being learned (step S01). The teacher data image 103 is used for learning as teacher data (step S02). In addition, when the machine learning model 50 outputs secondary information that can restore an image instead of directly outputting an image, the secondary information becomes teacher data.

こうして学習を終了した機械学習モデル50は、出力の用に供される(ステップS03)。  The machine learning model 50 thus completed learning is used for output (step S03).

出力においては、入力データとして、入力データ画像104と入力データ画像105が機械学習モデル50に入力される(ステップS04)。このとき、各入力データ画像は、学習データ101等と同様に要素に変換され入力される。  In output, the input data image 104 and the input data image 105 are input to the machine learning model 50 as input data (step S04). At this time, each input data image is converted into an element and input as in the learning data 101 and the like.

機械学習モデル50は、前述のような演算を行い、出力画像106を出力する(ステップS05)。こうして得られた画像は、学習において学習データと教師データが表していた関係に基づいて、入力データから出力された画像となる。すなわち、時系列上の中間画像を補完するような学習を行っていれば、出力として、入力画像二枚の中間画像が得られることになる。  The machine learning model 50 performs the above-described calculation and outputs an output image 106 (step S05). The image thus obtained is an image output from the input data based on the relationship represented by the learning data and the teacher data in learning. That is, if learning is performed to complement the time-series intermediate images, an intermediate image of two input images can be obtained as an output.

なお、この図では学習データ101と学習データ102は、時系列上、間に教師データ画像103を挟む関係になっているが、学習データ101、学習データ102の前や後に教師データ画像103が続くような関係であっても、それに応じた学習がなされ、アルゴリズム上大きな差異はない。その場合は、出力画像も、その関係に応じたものとなる。なお、学習における要素の選択やパラメータの選択は、得るべき出力の性格に応じ最適化が可能なものである。  In this figure, the learning data 101 and the learning data 102 have a relationship in which the teacher data image 103 is sandwiched between them in the time series, but the learning data 101 and the learning data 102 are followed by the teacher data image 103. Even in such a relationship, learning is made accordingly, and there is no significant difference in algorithm. In that case, the output image also corresponds to the relationship. Note that selection of elements and selection of parameters in learning can be optimized according to the nature of the output to be obtained.

上記のような補完画像の使い道としては様々な用途が考えられ、アニメの原画のように手動で作成している時系列画像を補完した場合は、いわゆる中割り画像を自動で出力することができ、コストの削減に大きな貢献ができる。また、動画一般について、フレームレートは動画の容量や性能の制約を受けるが、本発明により中間の画像が生成でき、コマ数を上げることでより滑らかな動画再生が可能になる、いわゆるアップコンバート機能を提供することができる。  The use of complementary images as described above can be used in a variety of ways. When a manually created time-series image such as an original animation is complemented, so-called intermediate images can be automatically output. Can make a significant contribution to cost reduction. In general, the frame rate is limited by the capacity and performance of moving images, but the so-called up-conversion function can generate intermediate images and increase the number of frames to enable smoother moving image playback. Can be provided.

以上が、時系列画像補完装置1の概要である。  The above is the outline of the time-series image complementing apparatus 1.

[時系列画像補完装置1のシステム構成]
時系列画像補完装置1は、原則的にスタンドアローン形式で稼働可能な装置である。なお、入力データや教師データが外部ストレージに保存されている場合や、並列計算を行う場合は、物理的に複数台の装置を以って時系列画像補完装置1を構成していてもよい。
[System configuration of time-series image complementing apparatus 1]
The time-series image complementing apparatus 1 is an apparatus that can operate in a stand-alone manner in principle. Note that when input data and teacher data are stored in an external storage or when parallel calculation is performed, the time-series image complementing apparatus 1 may be physically configured by a plurality of apparatuses.

時系列画像補完装置1は、後述の機能を備える家庭用又は業務用の電化製品である。時系列画像補完装置1は、例えば、パーソナルコンピュータ、サーバ装置、携帯電話、携帯情報端末に加え、スマートフォン、タブレット端末、ネットブック端末、スレート端末、電子書籍端末、携帯型音楽プレーヤ等の情報家電であってよい。  The time-series image complementing apparatus 1 is a household or business appliance having a function described later. The time-series image complementing apparatus 1 is, for example, an information home appliance such as a smartphone, a tablet terminal, a netbook terminal, a slate terminal, an electronic book terminal, a portable music player, in addition to a personal computer, a server device, a mobile phone, and a portable information terminal. It may be.

[各機能の説明]
図3に基づいて、各装置の構成について説明する。
[Description of each function]
The configuration of each device will be described with reference to FIG.

時系列画像補完装置1は、制御部11として、CPU(Central Processing Unit),RAM(Random Access Memory),ROM(Read Only Memory)等を備え、入出力部12として、制御部で制御したデータや画像を出力表示する表示部を備え、かつ、ユーザやサポート者からの入力を受付けるタッチパネルやキーボード、マウス等に加え、外部機器で撮影した画像を取り込む入出力デバイスを備えていてよい。  The time-series image complementing apparatus 1 includes a central processing unit (CPU), a random access memory (RAM), a read only memory (ROM), and the like as the control unit 11, and the data controlled by the control unit as the input / output unit 12 In addition to a touch panel, a keyboard, a mouse, and the like that receive an input from a user or supporter, an input / output device that captures an image captured by an external device may be provided.

また、時系列画像補完装置1は、データやファイルを記憶する記憶部14として、ハードディスクや半導体メモリ、記録媒体、メモリカード等による、データのストレージ部を備える。  The time-series image complementing apparatus 1 also includes a data storage unit such as a hard disk, a semiconductor memory, a recording medium, a memory card, or the like as the storage unit 14 that stores data and files.

時系列画像補完装置1において、制御部11が所定のプログラムを読み込むことで、入出力部12と協働して、画像読み込みモジュール14、補完画像出力モジュール15、出力画像集約モジュール16を実現する。また、時系列画像補完装置1において、制御部11が所定のプログラムを読み込むことで、記憶部13と協働して、演算モデル読み込みモジュール17、元画像受付モジュール18、画像要素演算モジュール19、中間画像学習モジュール20、前後画像学習モジュール21、メタタグ付加モジュール22、輪郭抽出モジュール23を実現する。  In the time-series image complementing apparatus 1, the control unit 11 reads a predetermined program, thereby realizing an image reading module 14, a complementary image output module 15, and an output image aggregation module 16 in cooperation with the input / output unit 12. Further, in the time-series image complementing apparatus 1, the control unit 11 reads a predetermined program, so that in cooperation with the storage unit 13, the calculation model reading module 17, the original image receiving module 18, the image element calculation module 19, and the intermediate An image learning module 20, a front-rear image learning module 21, a meta tag addition module 22, and a contour extraction module 23 are realized.

[補完画像出力処理]
図4は、時系列画像補完装置1が実行する補完画像出力処理のフローチャートである。上述した各装置のモジュールが行う処理について、本処理にて併せて説明する。
[Complementary image output processing]
FIG. 4 is a flowchart of complementary image output processing executed by the time-series image complementing apparatus 1. The processing performed by the module of each device described above will be described together with this processing.

初めに、時系列画像補完装置1は、出力に使う機械学習モデル50を学習するため、補完画像出力モデル学習処理を実施する。  First, in order to learn the machine learning model 50 used for output, the time-series image complementing apparatus 1 performs a complementary image output model learning process.

[補完画像出力モデル学習処理]
図5は、時系列画像補完装置1が実行する補完画像出力モデル学習処理のフローチャートである。上述した各装置のモジュールが行う処理について、本処理にて併せて説明する。
[Complementary image output model learning process]
FIG. 5 is a flowchart of the complementary image output model learning process executed by the time-series image complementing apparatus 1. The processing performed by the module of each device described above will be described together with this processing.

初めに、時系列画像補完装置1の画像読み込みモジュール14は、N番目の時系列画像の要素を読み込む(ステップS21)。ここで要素とは、画像を数値データに変換したときの数値のことである。例えば、画像の画素一ドットずつを要素として扱うこともあれば、画素をグレースケールに変換したものを要素として扱う場合や、画素をベクトルデータとみなしたときの勾配といった、特徴量を要素として扱う場合もある。どのような要素を取るかは、要素の取り方によって最終的な精度を左右する場合もあるため、機械学習モデルの種類と目的に応じて決定される。  First, the image reading module 14 of the time-series image complementing apparatus 1 reads elements of the Nth time-series image (step S21). Here, the element is a numerical value when the image is converted into numerical data. For example, one pixel at a time may be treated as an element, or if a pixel is converted to grayscale as an element, or a characteristic amount such as a gradient when a pixel is regarded as vector data is treated as an element. In some cases. Which element is taken depends on the type and purpose of the machine learning model because the final accuracy may depend on how the element is taken.

次に、時系列画像補完装置1の画像読み込みモジュール14は、N番目と同様、M番目の時系列画像の要素を読み込む(ステップS22)。  Next, the image reading module 14 of the time-series image complementing apparatus 1 reads the elements of the M-th time-series image as with the N-th (step S22).

ここで、要素を読み込んだ画像を、例えば風景画、人物画、動物画や、実写、アニメ、あるいは朝、昼、夜といった画像の内容を表す高次情報を付与し、それに応じて処理を切り分けることで、画像の種類それぞれに特化した演算の加え、出力の精度を向上させることが可能である。そのため、時系列画像補完装置1のメタタグ付加モジュール21は、読み込んだ画像やその要素に応じて、時系列画像に高次情報を付加する(ステップS23)。  Here, for example, landscape images, portraits, animal drawings, live-action images, animations, or high-order information representing the contents of images such as morning, noon, and night are assigned to the image from which the elements are read, and processing is divided accordingly. As a result, it is possible to improve the accuracy of output in addition to calculations specialized for each type of image. Therefore, the meta tag addition module 21 of the time-series image complementing apparatus 1 adds higher-order information to the time-series image according to the read image and its elements (step S23).

なお、この高次情報は、画像の一要素として学習アルゴリズムに組み込んでもよいし、高次情報に応じて学習または出力に用いる機械学習モデルそのものを変えてもよい。また、高次情報を付加する方法は、ルールベースで人間が設定してもよいし、そのための機械学習モデルを用いてもよい。また、人間が手動で付加した高次情報と併用することも可能である。  This higher-order information may be incorporated into the learning algorithm as an element of the image, or the machine learning model itself used for learning or output may be changed according to the higher-order information. In addition, a method for adding higher-order information may be set by a human on a rule basis, or a machine learning model for that purpose may be used. It can also be used together with higher order information manually added by a human.

次に、時系列画像補完装置1の元画像受付モジュール18は、N番目とM番目の時系列画像の要素を、学習データとして受け付ける(ステップS24)。  Next, the original image receiving module 18 of the time-series image complementing apparatus 1 receives the elements of the Nth and Mth time-series images as learning data (step S24).

そして、時系列画像補完装置1の中間画像学習モジュール20、または前後画像学習モジュール21は、L番目の時系列画像を教師データとして受け付ける(ステップS25)。ここで、どちらのモジュールを用いるかは、L、M、Nの前後関係によって定まる。すなわち、LがMとNの間に位置すれば中間画像学習モジュール20を、そうでない場合は前後画像学習モジュール21を用いる。なお、教師データは、最終的な出力と同じ次元になるため、必ずしも学習データと同じ要素として扱う必要はない。  Then, the intermediate image learning module 20 or the front and rear image learning module 21 of the time-series image complementing apparatus 1 accepts the Lth time-series image as teacher data (step S25). Here, which module is used is determined by the context of L, M, and N. That is, if L is located between M and N, the intermediate image learning module 20 is used, and if not, the front and rear image learning module 21 is used. Note that the teacher data has the same dimensions as the final output, and therefore does not necessarily have to be treated as the same element as the learning data.

そして、中間画像学習モジュール20、または前後画像学習モジュール21は、受け付けた学習データ及び教師データを用いて、機械学習モデル50に対する学習を実施する(ステップS26)。  Then, the intermediate image learning module 20 or the front and rear image learning module 21 performs learning on the machine learning model 50 using the received learning data and teacher data (step S26).

図6は、時系列画像補完装置1が学習及び出力する時系列画像の一例である。図6において、画像601、画像602、及び画像603は、時系列上の連続した画像である。ここでは、説明のため、画像601、画像602、画像603の順に時間が経過しているものとし、画像601と画像603を学習データ、画像602を教師データとして、手を振るシーンを学習するものとする。  FIG. 6 is an example of a time-series image that the time-series image complementing apparatus 1 learns and outputs. In FIG. 6, an image 601, an image 602, and an image 603 are continuous images in time series. Here, for the sake of explanation, it is assumed that time has passed in the order of image 601, image 602, and image 603, and learning a scene of waving using image 601 and image 603 as learning data and image 602 as teacher data. And

画像601から画像603においては、人が手を振りおろす動きが表されている。すなわち、画像601において腕605が挙げられているのに対して、画像603では腕607が地面と平行に近い角度まで振り下ろされている。ここでは、画像601と画像603を学習データとして使い、教師データとして画像602を使うことで、画像601と画像603の間には、画像602のような中間の角度である腕606が中間の状態であることを学習させる。  In the image 601 to the image 603, a movement of a person shaking his / her hand is shown. That is, the arm 605 is listed in the image 601, whereas the arm 607 is swung down to an angle close to parallel to the ground in the image 603. Here, by using the image 601 and the image 603 as learning data and using the image 602 as teacher data, an arm 606 having an intermediate angle like the image 602 is in an intermediate state between the image 601 and the image 603. Let's learn to be.

これらの一連の画像のような、腕を振るシーンの画像を何組も学習させることで、画像602に当たる間のシーンがない画像601と画像603だけを与えられた場合でも、画像602を生成することができるようなモデルを学習させることができる。なお、ここでは腕を振るシーンだけを例に挙げたが、大量のデータを使って学習させることで、動きの種類を問わず中間画像を生成するモデルを生成することが可能である。  By learning a number of sets of scenes of swinging arms, such as a series of images, an image 602 is generated even when only the images 601 and 603 having no scene while hitting the image 602 are given. The model which can do is learned. Here, only the scene where the arm is shaken has been taken as an example, but by learning using a large amount of data, it is possible to generate a model that generates an intermediate image regardless of the type of movement.

以上の例では、時系列上の画像を用いて、中間画像を学習する例を挙げたが、画像601と画像602を学習データとして、画像603を教師データとすることで、時系列上の前二枚の画像を用いて、時系列上の後の画像を出力するような演算モデルを学習することも可能である。画像601を教師データとして、前の画像を出力するような演算モデルを学習することも同様に可能である。  In the above example, an example in which an intermediate image is learned using a time-series image has been described. However, by using the image 601 and the image 602 as learning data and the image 603 as teacher data, the previous image in time series is used. It is also possible to learn an arithmetic model that uses two images to output a subsequent image in time series. It is also possible to learn an arithmetic model that outputs the previous image using the image 601 as teacher data.

ところで、学習の方法は機械学習モデルの種類により異なり、ニューラルネットワークであれば前述の誤差逆伝播法を用いて良いし、ロジスティック回帰や、決定木、ランダムフォレスト等の機械学習モデルにおいても、それぞれ適した学習方法を用いてよい。  By the way, the learning method varies depending on the type of machine learning model, and if it is a neural network, the above-mentioned error back propagation method may be used, and it is also suitable for each machine learning model such as logistic regression, decision tree, and random forest. Learning methods may be used.

ここで、ニューラルネットワークのうち、特に四層以上の多層ニューラルネットワークを用いたモデルの設計及び学習を深層学習とよぶ。ニューラルネットワークの層が増えることで、表現の自由度が向上し、より複雑なモデルを表すことが可能となる。  Here, the design and learning of a model using a multilayer neural network having four or more layers among neural networks is called deep learning. As the number of layers of the neural network increases, the degree of freedom of expression is improved and a more complex model can be represented.

以上を学習の一単位として、精度判別を行う(ステップS27)。精度の定義は出力によって任意に決められてよく、一般には教師データと出力データの差分が一定以下になったとき(ステップS27:「YES」の場合)には十分な学習がなされたとして、学習処理を終了する。  The accuracy is determined using the above as a unit of learning (step S27). The definition of accuracy may be arbitrarily determined according to the output. Generally, when the difference between the teacher data and the output data is below a certain level (step S27: “YES”), it is assumed that sufficient learning has been performed. The process ends.

また、まだ精度が十分でないとき(ステップS27:「NO」の場合)には、まだ学習に用いていない学習データと教師データのデータセットがあるかを判別し(ステップS28)、まだデータセットがあれば、上記の学習を繰り返し行う(ステップS28:「YES」の場合)。ただし、もうデータセットがない場合は、精度が十分でなくともこれ以上の学習は行えないため、学習を終了する(ステップS28:「NO」の場合)。  If the accuracy is not yet sufficient (step S27: “NO”), it is determined whether there is a data set of learning data and teacher data not yet used for learning (step S28). If there is, the above learning is repeated (step S28: "YES"). However, if there is no more data set, further learning cannot be performed even if the accuracy is not sufficient, and learning is terminated (in the case of “NO” in step S28).

なお、一般に学習に用いたデータセットで精度を測ると、未知のデータに加え精度が高く出てしまうため、テスト用のデータセットは別で用意することが普通である。また、学習の結果ではなく機械学習モデルそのものの精度を測る場合は、同じデータを学習とテストに切り分けて使う交差検証(Cross−validation)が広く使われる。また、精度に閾値を設けず、用意した全データに対して無条件に学習を行わせるケースもある。  In general, when the accuracy is measured with a data set used for learning, accuracy is increased in addition to unknown data. Therefore, it is common to prepare a test data set separately. Further, when measuring the accuracy of the machine learning model itself rather than the learning result, cross-validation using the same data separately for learning and testing is widely used. Further, there is a case where learning is unconditionally performed on all prepared data without setting a threshold for accuracy.

最後に、中間画像学習モジュール20、または前後画像学習モジュール21は、以上の学習の結果を学習済みモデルとして記憶部に記憶させる(ステップS29)。一般に学習処理には、出力に比べて長く時間がかかるためである。  Finally, the intermediate image learning module 20 or the front and rear image learning module 21 stores the result of the above learning as a learned model in the storage unit (step S29). This is because the learning process generally takes longer time than the output.

以上が、補完画像出力モデル学習処理の処理手順である。補完画像出力処理に戻り、補完画像出力装置1の演算モデル読み込みモジュール17は、上記のような学習モデルを利用するために読み込みを行う(ステップS12)。ここで読み込みとは、学習結果たる演算の内容を利用可能な状態にすることを指す。  The above is the processing procedure of the complementary image output model learning process. Returning to the complementary image output process, the arithmetic model reading module 17 of the complementary image output device 1 reads in order to use the learning model as described above (step S12). Here, “reading” refers to making the contents of the calculation as a learning result available.

次に、時系列画像補完装置1の画像読み込みモジュール14は、元画像となる二以上の時系列画像の要素を読み込む(ステップS13)。  Next, the image reading module 14 of the time-series image complementing apparatus 1 reads elements of two or more time-series images that are the original images (step S13).

ここで、要素を読み込む際に、時系列画像補完装置1の輪郭抽出モジュール23は、元画像の輪郭を抽出し、それを元画像、または元画像の要素として扱っても良い(ステップS14)。そうすることで、画像が単純化され精度の向上が図れる一方で、中割り等で求められる画像としては、出力が輪郭画像であっても十分価値があるといった商業的な利点もある。なお、輪郭抽出の手法は、キャニー法(canny edge)やRobert‐cross等の、一般的な手法を用いてよい。  Here, when reading an element, the contour extraction module 23 of the time-series image complementing apparatus 1 may extract the contour of the original image and treat it as the original image or an element of the original image (step S14). By doing so, while the image can be simplified and the accuracy can be improved, there is a commercial advantage that the output obtained by the middle division or the like is sufficiently valuable even if the output is a contour image. The contour extraction method may be a general method such as a canny method or Robert-cross.

また、時系列画像補完装置1のメタタグ付加モジュール22は、元画像に画像の種類等を表す高次情報を付与し、それを元画像の要素として扱っても良い(ステップS15)。  Further, the meta tag addition module 22 of the time-series image complementing apparatus 1 may add higher-order information indicating the type of image to the original image and handle it as an element of the original image (step S15).

次に、時系列画像補完装置1の元画像受付モジュール18は、読み込んだ二以上の時系列画像の要素を、入力データとして受け付ける(ステップS16)。  Next, the original image receiving module 18 of the time-series image complementing apparatus 1 receives two or more read time-series image elements as input data (step S16).

次に、時系列画像補完装置1の画像要素演算モジュール19は、受け付けた入力データに、読み込んだ演算モデルを用いて演算を加える(ステップS17)。演算は、先に説明したニューラルネットワークの例で言えば、入力層から中間層を経由し、出力層として出力される具体データを得ることを指す。  Next, the image element calculation module 19 of the time-series image complementing apparatus 1 adds a calculation to the received input data using the read calculation model (step S17). In the example of the neural network described above, the calculation refers to obtaining specific data output as the output layer from the input layer via the intermediate layer.

次に、時系列画像補完装置1の補完画像出力モジュール15は、演算の結果を補完画像として出力する(ステップS18)。ここでは原則、出力データがそのまま画像として表現可能な画素やベクトルデータであることを想定しているが、計算結果がベクトルデータとなる等、画像を構成可能なデータであれば形式を問わない。  Next, the complementary image output module 15 of the time-series image complementing apparatus 1 outputs the calculation result as a complementary image (step S18). Here, in principle, it is assumed that the output data is pixel or vector data that can be expressed as an image as it is, but any format can be used as long as the result of calculation is vector data.

なお、複数の学習モデルが存在する場合、時系列画像補完装置1の出力画像集約モジュール16は、各モデルによる演算の結果を集約し、最終的な補完画像として出力する(ステップS19)。これは、複数の出力を集約することで精度を向上させるための措置である。以上が、補完画像出力処理の処理手順である。  When there are a plurality of learning models, the output image aggregation module 16 of the time-series image complementation apparatus 1 aggregates the results of the calculations by the models and outputs the result as a final complement image (step S19). This is a measure for improving accuracy by aggregating a plurality of outputs. The above is the processing procedure of the complementary image output process.

上述した手段、機能は、コンピュータ(CPU,情報処理装置,各種端末を含む)が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、フレキシブルディスク、CD(CD−ROMなど)、DVD(DVD−ROM、DVD−RAMなど)等のコンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し記憶して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記憶装置(記録媒体)に予め記録しておき、その記憶装置から通信回線を介してコンピュータに提供するようにしてもよい。  The means and functions described above are realized by a computer (including a CPU, an information processing apparatus, and various terminals) reading and executing a predetermined program. The program is provided in a form recorded on a computer-readable recording medium such as a flexible disk, CD (CD-ROM, etc.), DVD (DVD-ROM, DVD-RAM, etc.), for example. In this case, the computer reads the program from the recording medium, transfers it to the internal storage device or the external storage device, stores it, and executes it. The program may be recorded in advance in a storage device (recording medium) such as a magnetic disk, an optical disk, or a magneto-optical disk, and provided from the storage device to a computer via a communication line.

以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。  As mentioned above, although embodiment of this invention was described, this invention is not limited to these embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

1 時系列画像補完装置、50 機械学習モデル1 Time series image complement device, 50 machine learning model

Claims (11)

二以上の画像を基に新たな画像を生成する時系列画像補完装置であって、
時系列上の二以上の画像を入力とし、新たな画像を出力とする演算モデルを読み込む演算モデル読み込み手段と、
前記二以上の画像の要素を読み込む画像読み込み手段と、
前記読み込んだ二以上の画像を入力として受け付ける元画像受付手段と、
前記読み込んだ演算モデルに基づく演算を、前記入力として受け付けた二以上の画像の要素に加える画像要素演算手段と、
前記演算の結果を、補完画像として出力する補完画像出力手段と、
を備える時系列画像補完装置。
A time-series image complementing device that generates a new image based on two or more images,
Arithmetic model reading means for reading an arithmetic model that takes two or more images in time series as input and outputs a new image;
Image reading means for reading the elements of the two or more images;
Original image receiving means for receiving the two or more read images as input;
Image element calculation means for adding an operation based on the read operation model to two or more image elements received as the input;
Complementary image output means for outputting the result of the calculation as a complementary image;
A time-series image complementing device.
予め用意された、二以上の画像と、時系列上の中間画像について、前記二以上の画像を入力、前記中間画像を出力として教師付き学習を行う中間画像学習手段と、を備え、
前記演算モデル読み込み手段において、前記学習の結果得られる演算モデルを読み込むことを特徴とする請求項1に記載の時系列画像補完装置。
Two or more images prepared in advance, and an intermediate image learning means for performing supervised learning using the two or more images as input and the intermediate image as an output for intermediate images on a time series,
The time series image complementing apparatus according to claim 1, wherein the arithmetic model reading unit reads an arithmetic model obtained as a result of the learning.
予め用意された、二以上の画像と、時系列上の前または後の画像について、前記二以上の画像を入力、前記前または後の画像を出力として教師付き学習を行う前後画像学習手段と、を備え、
前記学習の結果得られる演算モデルによって、前記所定の演算を行うことを特徴とする請求項1に記載の時系列画像補完装置。
Two or more images prepared in advance, and before or after the time-series images, input the two or more images, and before and after image learning means for performing supervised learning with the preceding or following images as outputs, With
The time-series image complementing apparatus according to claim 1, wherein the predetermined calculation is performed using an arithmetic model obtained as a result of the learning.
前記読み込んだ画像から、当該画像の特徴を表す高次情報を抽出し付加するメタタグ付加手段と、
前記抽出した高次情報を、前記読み込んだ画像の要素として扱うことを特徴とする請求項1乃至3のいずれか一項に記載の時系列画像補完装置。
Meta tag adding means for extracting and adding higher order information representing the characteristics of the image from the read image;
4. The time-series image complementing apparatus according to claim 1, wherein the extracted higher-order information is handled as an element of the read image. 5.
前記演算モデルは、ニューラルネットワークで表現されることを特徴とする請求項1乃至4のいずれか一項に記載の時系列画像補完装置。  The time-series image complementing device according to claim 1, wherein the calculation model is expressed by a neural network. 前記演算モデルは、畳み込みニューラルネットワークで表現されることを特徴とする請求項1乃至5のいずれか一項に記載の時系列画像補完装置。  The time-series image complementing apparatus according to claim 1, wherein the calculation model is expressed by a convolutional neural network. 前記学習は、深層学習によって行われることを特徴とする請求項5又は請求項6のいずれか一項に記載の時系列画像補完装置。  The time-series image complementation apparatus according to claim 5, wherein the learning is performed by deep learning. 前記画像の読み込みにおいて、輪郭を抽出する輪郭抽出手段と、を備え、
前記抽出した輪郭を、前記画像の要素として扱うことを特徴とする請求項1乃至7のいずれか一項に記載の時系列画像補完装置。
A contour extracting means for extracting a contour in reading the image,
The time-series image complementing apparatus according to claim 1, wherein the extracted contour is handled as an element of the image.
前記所定の演算において、一以上の演算モデルによってそれぞれ演算を実施し、演算結果を集約した画像を最終的な中間画像として出力する出力画像集約手段と、を備えることを特徴とする請求項1乃至8のいずれか一項に記載の時系列画像補完装置。  An output image aggregating unit that performs each of the predetermined computations using one or more computation models and outputs an image obtained by aggregating the computation results as a final intermediate image. The time-series image complementing apparatus according to any one of claims 8 to 9. 二以上の画像を基に新たな画像を生成する時系列画像補完装置が実行する時系列画像補完方法であって、
時系列上の二以上の画像を入力とし、新たな画像を出力とする演算モデルを読み込むステップと、
前記二以上の画像の要素を読み込むステップと、
前記読み込んだ二以上の画像を入力として受け付けるステップと、
前記読み込んだ演算モデルに基づく演算を、前記入力として受け付けた二以上の画像の要素に加えるステップと、
前記演算の結果を、補完画像として出力するステップと、
を備える時系列画像補完方法。
A time-series image complementing method executed by a time-series image complementing apparatus that generates a new image based on two or more images,
Reading an arithmetic model that takes two or more images in time series as input and outputs a new image;
Reading the elements of the two or more images;
Receiving the two or more read images as input;
Adding an operation based on the read operation model to two or more image elements received as the input;
Outputting the result of the calculation as a complementary image;
A time-series image complementing method comprising:
二以上の画像を基に新たな画像を生成する時系列画像補完装置に、
時系列上の二以上の画像を入力とし、新たな画像を出力とする演算モデルを読み込むステップ、
前記二以上の画像の要素を読み込むステップ、
前記読み込んだ二以上の画像を入力として受け付けるステップ、
前記読み込んだ演算モデルに基づく演算を、前記入力として受け付けた二以上の画像の要素に加えるステップ、
前記演算の結果を、補完画像として出力するステップ、
を実行させるための時系列画像補完装置用プログラム。
In a time-series image complementing device that generates a new image based on two or more images,
Reading an arithmetic model that takes two or more images in time series as input and outputs a new image;
Reading the elements of the two or more images;
Receiving two or more read images as input;
Adding an operation based on the read operation model to two or more image elements received as the input;
Outputting the result of the calculation as a complementary image;
A program for a time-series image complementing apparatus for executing
JP2015201517A 2015-09-18 2015-09-18 Time series image compensation device, time series image generation method, and program for time series image compensation device Pending JP2017059193A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015201517A JP2017059193A (en) 2015-09-18 2015-09-18 Time series image compensation device, time series image generation method, and program for time series image compensation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015201517A JP2017059193A (en) 2015-09-18 2015-09-18 Time series image compensation device, time series image generation method, and program for time series image compensation device

Publications (1)

Publication Number Publication Date
JP2017059193A true JP2017059193A (en) 2017-03-23

Family

ID=58390656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015201517A Pending JP2017059193A (en) 2015-09-18 2015-09-18 Time series image compensation device, time series image generation method, and program for time series image compensation device

Country Status (1)

Country Link
JP (1) JP2017059193A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018169949A (en) * 2017-03-30 2018-11-01 キヤノン株式会社 Sequence generating apparatus and method of controlling the same
JP2019096130A (en) * 2017-11-24 2019-06-20 Kddi株式会社 Morphing image generation device, and morphing image generation method
JP2020005202A (en) * 2018-06-29 2020-01-09 日本放送協会 Video processing device
WO2021140799A1 (en) * 2020-01-10 2021-07-15 住友電気工業株式会社 Communication assistance system and communication assistance program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018169949A (en) * 2017-03-30 2018-11-01 キヤノン株式会社 Sequence generating apparatus and method of controlling the same
JP2019096130A (en) * 2017-11-24 2019-06-20 Kddi株式会社 Morphing image generation device, and morphing image generation method
JP2020005202A (en) * 2018-06-29 2020-01-09 日本放送協会 Video processing device
JP7202087B2 (en) 2018-06-29 2023-01-11 日本放送協会 Video processing device
WO2021140799A1 (en) * 2020-01-10 2021-07-15 住友電気工業株式会社 Communication assistance system and communication assistance program

Similar Documents

Publication Publication Date Title
Peng et al. More trainable inception-ResNet for face recognition
CN107169573A (en) Using composite machine learning model come the method and system of perform prediction
CN105868829B (en) Recurrent neural networks for data item generation
CN108446667A (en) Based on the facial expression recognizing method and device for generating confrontation network data enhancing
JP2023545565A (en) Image detection method, model training method, image detection device, training device, equipment and program
JP2017059193A (en) Time series image compensation device, time series image generation method, and program for time series image compensation device
WO2021042857A1 (en) Processing method and processing apparatus for image segmentation model
CN112906721B (en) Image processing method, device, equipment and computer readable storage medium
CN113761359B (en) Data packet recommendation method, device, electronic equipment and storage medium
CN116704079B (en) Image generation method, device, equipment and storage medium
CN114611720A (en) Federal learning model training method, electronic device and storage medium
Nida et al. Video augmentation technique for human action recognition using genetic algorithm
Liu et al. Facial image inpainting using attention-based multi-level generative network
Chen et al. Semi-supervised dual-branch network for image classification
KR20190129698A (en) Electronic apparatus for compressing recurrent neural network and method thereof
CN116958324A (en) Training method, device, equipment and storage medium of image generation model
Beaini et al. Deep green function convolution for improving saliency in convolutional neural networks
CN113077383B (en) Model training method and model training device
CN112947899A (en) Deep learning model conversion method, system and device
CN115809374A (en) Method, system, device and storage medium for correcting mainstream deviation of recommendation system
CN113160041A (en) Model training method and model training device
Liu et al. Facial landmark detection using generative adversarial network combined with autoencoder for occlusion
He Automatic Quality Assessment of Speech‐Driven Synthesized Gestures
CN114493674A (en) Advertisement click rate prediction model and method
Gong et al. Improved U-Net-Like Network for Visual Saliency Detection Based on Pyramid Feature Attention

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200616