JP6815712B1 - Image processing system, image processing method, image processing program, image processing server, and learning model - Google Patents
Image processing system, image processing method, image processing program, image processing server, and learning model Download PDFInfo
- Publication number
- JP6815712B1 JP6815712B1 JP2020128966A JP2020128966A JP6815712B1 JP 6815712 B1 JP6815712 B1 JP 6815712B1 JP 2020128966 A JP2020128966 A JP 2020128966A JP 2020128966 A JP2020128966 A JP 2020128966A JP 6815712 B1 JP6815712 B1 JP 6815712B1
- Authority
- JP
- Japan
- Prior art keywords
- image
- coordinates
- resized
- predetermined
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 204
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 239000000470 constituent Substances 0.000 claims abstract description 92
- 238000000605 extraction Methods 0.000 claims abstract description 72
- 239000000284 extract Substances 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 9
- 238000010586 diagram Methods 0.000 abstract description 7
- 238000003384 imaging method Methods 0.000 description 25
- 238000004891 communication Methods 0.000 description 10
- 230000006854 communication Effects 0.000 description 10
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 4
- 238000003708 edge detection Methods 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
【課題】撮像されたオブジェクトのエッジを検出しなくても、動画から所定のオブジェクトの画像を抽出できると共に、オブジェクトが配される背景の相違によらず、オブジェクトの画像を適切に抽出できる画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルを提供する。【解決手段】画像処理システム1は、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得部16と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出部18とを備え、座標取得部16が、画像領域に基づいてオブジェクトの所定箇所の座標を取得し、画像領域抽出部18が、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する。【選択図】図1PROBLEM TO BE SOLVED: To extract an image of a predetermined object from a moving image without detecting an edge of an imaged object, and to appropriately extract an image of the object regardless of the difference in the background in which the object is arranged. It provides a system, an image processing method, an image processing program, an image processing server, and a learning model. An image processing system 1 has a coordinate acquisition unit 16 that acquires coordinates at a predetermined position of an object based on a moving image of a moving image of an object, and an image area including the object based on the coordinates. The image area extraction unit 18 for extracting from the constituent image is provided, the coordinate acquisition unit 16 acquires the coordinates of a predetermined position of the object based on the image area, and the image area extraction unit 18 obtains the acquired coordinates for the moving image constituent image. Extract the object image area of the object by projecting to. [Selection diagram] Fig. 1
Description
本発明は、画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルに関する。特に、本発明は、動画中の所定のオブジェクトを適切に抽出可能な画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルに関する。 The present invention relates to an image processing system, an image processing method, an image processing program, an image processing server, and a learning model. In particular, the present invention relates to an image processing system, an image processing method, an image processing program, an image processing server, and a learning model capable of appropriately extracting a predetermined object in a moving image.
従来、画像から線分を抽出する線分抽出装置であって、画像からエッジを検出するエッジ検出部と、画像内で第1方向に所定間隔で延伸する複数の第1平行線と、エッジと、の交点を求める第1交点特定部と、隣接する2本の第1平行線の各ペアについて、互いの第1平行線上の交点同士を直線の結合線で結ぶ第1交点結合部と、交点で繋がる複数の結合線からなり、延伸方向の角度差が所定範囲以内である結合線の集合を、線分として抽出する第1線分特定部とを備える線分抽出装置が知られている(例えば、特許文献1参照。)。特許文献1に記載の線分抽出装置によれば、画像に含まれる線分を高速で抽出することができる。 Conventionally, it is a line segment extraction device that extracts a line segment from an image, and has an edge detection unit that detects an edge from the image, a plurality of first parallel lines extending in a first direction in the image at predetermined intervals, and an edge. The first intersection identification part for finding the intersection of, and the first intersection connection part connecting the intersections on the first parallel lines of each pair of two adjacent first parallel lines with a straight line connection line, and the intersection. There is known a line segment extraction device including a first line segment specifying unit that extracts a set of coupling lines consisting of a plurality of coupling lines connected by a line and having an angle difference in the stretching direction within a predetermined range as a line segment (. For example, see Patent Document 1.). According to the line segment extraction device described in Patent Document 1, the line segments included in the image can be extracted at high speed.
しかしながら、特許文献1に記載の線分抽出装置においてはオブジェクトのエッジを検出することが前提になっており、オブジェクトが矩形状の場合、オブジェクトの少なくとも3つの辺を抽出することが要求される。また、特許文献1に記載の線分抽出装置は、矩形領域であれば当該オブジェクトの種類によらず、全ての矩形領域を抽出してしまう。更に、特許文献1に記載の線分抽出装置においては、オブジェクトと当該オブジェクトが置かれている背景との組み合わせによってはオブジェクトのエッジの認識が困難であり(例えば、オブジェクトの色と背景色とが略同一である場合、エッジを認識することが困難である場合がある)、その場合、オブジェクトの存在を認識することが困難になる場合がある。 However, the line segment extraction device described in Patent Document 1 is premised on detecting the edge of an object, and when the object has a rectangular shape, it is required to extract at least three sides of the object. Further, the line segment extraction device described in Patent Document 1 extracts all rectangular areas regardless of the type of the object as long as it is a rectangular area. Further, in the line segment extraction device described in Patent Document 1, it is difficult to recognize the edge of the object depending on the combination of the object and the background on which the object is placed (for example, the color of the object and the background color are different). If they are approximately the same, it may be difficult to recognize the edges), in which case it may be difficult to recognize the existence of the object.
したがって、本発明の目的は、撮像されたオブジェクトのエッジを検出しなくても、動画から所定のオブジェクトの画像を抽出できると共に、オブジェクトが配される背景の相違によらず、オブジェクトの画像を適切に抽出できる画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルを提供することにある。 Therefore, an object of the present invention is that an image of a predetermined object can be extracted from a moving image without detecting the edge of the captured object, and the image of the object can be appropriately used regardless of the background difference in which the object is arranged. It is an object of the present invention to provide an image processing system, an image processing method, an image processing program, an image processing server, and a learning model that can be extracted.
本発明は、上記目的を達成するため、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得部と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出部とを備え、座標取得部が、画像領域に基づいてオブジェクトの所定箇所の座標を取得し、画像領域抽出部が、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する画像処理システムが提供される。 In order to achieve the above object, the present invention has a coordinate acquisition unit that acquires coordinates of a predetermined position of an object based on a moving image of a moving image of an object, and an image area including the object based on the coordinates. It is provided with an image area extraction unit that extracts from the constituent image, the coordinate acquisition unit acquires the coordinates of a predetermined position of the object based on the image area, and the image area extraction unit projects the acquired coordinates onto the moving image constituent image. An image processing system that extracts the object image area of the object is provided.
また、本発明は、上記目的を達成するため、画像処理システム用の画像処理方法であって、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得工程と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出工程と、画像領域に基づいてオブジェクトの所定箇所の座標を取得する工程と、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する工程とを備える画像処理方法が提供される。 Further, in order to achieve the above object, the present invention is an image processing method for an image processing system, which is a coordinate acquisition step of acquiring coordinates of a predetermined position of an object based on a moving image of a moving image of an object. , An image area extraction step of extracting an image area containing an object from a moving image constituent image based on the coordinates, a step of acquiring the coordinates of a predetermined part of the object based on the image area, and a moving image constituent image of the acquired coordinates. An image processing method including a step of projecting an image onto an object and extracting an object image area of the object is provided.
また、本発明は、上記目的を達成するため、画像処理システム用の画像処理プログラムであって、コンピュータに、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得機能と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出機能と、画像領域に基づいてオブジェクトの所定箇所の座標を取得する機能と、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する機能とを実現させる画像処理プログラムが提供される。 Further, in order to achieve the above object, the present invention is an image processing program for an image processing system, and coordinates for acquiring the coordinates of a predetermined position of an object on a computer based on a moving image of a moving image of an object. The acquisition function, the image area extraction function that extracts the image area containing the object from the video composition image based on the coordinates, the function that acquires the coordinates of a predetermined part of the object based on the image area, and the acquired coordinates. An image processing program is provided that realizes a function of projecting a moving image and extracting an object image area of an object.
また、本発明は、上記目的を達成するため、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得部と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出部とを備え、座標取得部が、画像領域に基づいてオブジェクトの所定箇所の座標を取得し、画像領域抽出部が、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する画像処理サーバが提供される。 Further, in order to achieve the above object, the present invention has a coordinate acquisition unit that acquires coordinates of a predetermined position of an object based on a moving image of a moving image of an object, and an image area that includes the object based on the coordinates. The image area extraction unit is provided with an image area extraction unit that extracts the image from the moving image configuration image, the coordinate acquisition unit acquires the coordinates of a predetermined position of the object based on the image area, and the image area extraction unit converts the acquired coordinates into the moving image composition image. An image processing server is provided that projects and extracts the object image area of the object.
更に、本発明は、上記目的を達成するため、撮像画像が入力されると、撮像画像に含まれるオブジェクトが所定のオブジェクトであるか否か識別するために、所定のオブジェクトの1以上の隅を中心とする1以上の矩形領域を出力するよう、プロセッサを機能させる学習モデルであって、学習モデルは、所定のオブジェクトが含まれる画像、所定のオブジェクトが配され得る背景画像、及び所定のオブジェクトが含まれる画像と背景画像との組み合わせを教師データとして学習され、学習では、所定のオブジェクトの隅を中心とする1以上の矩形領域であって、中心から所定のオブジェクトが含まれる画像の外縁までの長さが最短距離になる直線を垂線とする辺が当該画像の外縁に接するサイズの矩形領域を形成し、形成された矩形領域及び当該矩形領域の中心の座標を用いて当該画像中の所定のオブジェクトを識別するための学習モデルが提供される。 Further, in order to achieve the above object, when a captured image is input, the present invention performs one or more corners of a predetermined object in order to identify whether or not the object included in the captured image is a predetermined object. A learning model that causes a processor to function so as to output one or more rectangular areas at the center. The learning model includes an image containing a predetermined object, a background image in which a predetermined object can be arranged, and a predetermined object. The combination of the included image and the background image is learned as teacher data, and in the training, one or more rectangular areas centered on the corners of a predetermined object, from the center to the outer edge of the image containing the predetermined object. A rectangular region having a size in which a side whose vertical line is a straight line having the shortest length is in contact with the outer edge of the image is formed, and a predetermined rectangular region in the image is used by using the formed rectangular region and the coordinates of the center of the rectangular region. A learning model for identifying objects is provided.
本発明に係る画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルによれば、撮像されたオブジェクトのエッジを検出しなくても、動画から所定のオブジェクトの画像を抽出できると共に、オブジェクトが配される背景の相違によらず、オブジェクトの画像を適切に抽出できる画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルを提供できる。 According to the image processing system, the image processing method, the image processing program, the image processing server, and the learning model according to the present invention, the image of a predetermined object can be extracted from the moving image without detecting the edge of the captured object. At the same time, it is possible to provide an image processing system, an image processing method, an image processing program, an image processing server, and a learning model that can appropriately extract an image of the object regardless of the difference in the background in which the object is arranged.
[実施の形態]
図1は、本発明の実施の形態に係る画像処理システムの概要を示す。
[Embodiment]
FIG. 1 shows an outline of an image processing system according to an embodiment of the present invention.
[画像処理システム1の概要] [Overview of image processing system 1]
本実施形態に係る画像処理システム1は、所定のオブジェクトを含む領域の動画を撮像し、撮像した動画から当該所定のオブジェクト及び/又は当該所定のオブジェクトに記載されている情報を自動的、かつ、適切に抽出するシステムである。例えば、画像処理システム1は、撮像領域に複数の領収書(複数の領収書は、互いに形状・サイズ、表面の記載様式が異なっていてよい)、名刺、その他の紙片、及び四角形状の物体や領域(例えば、スマートフォンやパソコンのキーボードのボタン等)が存在している状態を動画撮像した場合に、これらの中から特定のオブジェクト、一例として、当該複数の領収書及び/又は当該複数の領収書に記載の情報を自動的、リアルタイムに抽出し、コンピュータにおいて利用可能なデジタル情報に変換することができる。 The image processing system 1 according to the present embodiment captures a moving image of a region including a predetermined object, and automatically and / or automatically obtains the predetermined object and / or the information described in the predetermined object from the captured moving image. It is a system that extracts properly. For example, the image processing system 1 has a plurality of receipts (the plurality of receipts may have different shapes / sizes and surface description styles), business cards, other pieces of paper, and square objects in the imaging region. When a moving image is taken of a state in which an area (for example, a button on a keyboard of a smartphone or a personal computer) exists, a specific object from these, for example, the plurality of receipts and / or the plurality of receipts. The information described in can be automatically extracted in real time and converted into digital information that can be used in a computer.
例えば、図1(a)に示すように、画像処理システム1が、所定の撮像領域の動画を撮像するカメラを有する情報端末2と、所定の情報処理を実行するサーバ3とを備え、情報端末2とサーバ3とが通信網4によって双方向通信可能に接続されている例を挙げて説明する。ここでは、本実施形態に係る画像処理システム1が抽出する所定のオブジェクトが、一例として、様々な形状・サイズを有し、様々な様式・書式で作成される領収書(レシート)である場合を説明する。
For example, as shown in FIG. 1A, the image processing system 1 includes an
例えば、複数のオブジェクト(例えば、オブジェクト80、及びオブジェクト82)が机90の上に配置されているとする。なお、複数のオブジェクトは、例えばユーザが所定の場所に配置してよい。そして、画像処理システム1は、これらを含む領域の動画を情報端末2のカメラで撮像する。図1(a)の例では、机90の上にオブジェクト80(例えば、名刺)、及びオブジェクト82(例えば、領収書)が配置されている。なお、オブジェクト82の一部は折れ曲がっていてもよい。そして、画像処理システム1は、複数のオブジェクトが撮像された動画から、動画を構成する1以上の動画構成画像を抽出する。続いて画像処理システム1は、抽出した1以上の動画構成画像のそれぞれにリサイズ処理を施して、1以上のリサイズ画像を生成する。
For example, suppose a plurality of objects (for example,
続いて、画像処理システム1は、抽出対象であるオブジェクトの所定箇所の座標をリサイズ画像から取得する。この座標は、リサイズ画像における当該所定箇所の座標である。この場合において画像処理システム1は、画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判定するための学習モデルを予め準備する。この学習モデルは、例えば、抽出対象のオブジェクトが領収書である場合において、画像に領収書と領収書とは異なる物体とが含まれていた場合、領収書については領収書として認識し、領収書とは異なる物体については領収書ではないと認識するために用いることができる学習モデルである。 Subsequently, the image processing system 1 acquires the coordinates of a predetermined position of the object to be extracted from the resized image. These coordinates are the coordinates of the predetermined location in the resized image. In this case, the image processing system 1 prepares in advance a learning model for determining whether or not the object included in the image is a predetermined object. For example, when the object to be extracted is a receipt, this learning model recognizes the receipt as a receipt and recognizes the receipt if the image contains an object different from the receipt and the receipt. It is a learning model that can be used to recognize that an object different from is not a receipt.
ここで、本実施形態においては、抽出対象であるオブジェクトの1以上の所定箇所を中心とする1以上の矩形領域(つまり、バウンディングボックス)と、当該オブジェクトのカテゴリーとの関連付けを含む学習モデルを予め準備する。つまり、従来の学習モデルのように、抽出対象であるオブジェクトの全体を囲む矩形領域と当該オブジェクトのカテゴリーとを関連付けるのではなく、抽出対象である一のオブジェクトの複数の部分をそれぞれ囲む複数の矩形領域と当該オブジェクトのカテゴリーとの関連付けを含む学習モデルを本実施形態では構築して用いる。例えば、学習モデルは、領収書の4隅を中心とする4つの正方形領域を1セットとし、当該1セットとオブジェクトのカテゴリーである領収書とを関連付け、動画構成画像が入力されると、動画構成画像の領収書が占める領域の画像及び/又は4隅の座標を出力するための学習モデルである。 Here, in the present embodiment, a learning model including an association between one or more rectangular areas (that is, a bounding box) centered on one or more predetermined points of the object to be extracted and the category of the object is prepared in advance. prepare. That is, instead of associating the rectangular area surrounding the entire object to be extracted with the category of the object as in the conventional learning model, a plurality of rectangles surrounding a plurality of parts of one object to be extracted. In this embodiment, a learning model including an association between a region and a category of the object is constructed and used. For example, in the learning model, four square areas centered on the four corners of the receipt are set as one set, the one set is associated with the receipt which is the category of the object, and when the video composition image is input, the video configuration is performed. This is a learning model for outputting the image of the area occupied by the receipt of the image and / or the coordinates of the four corners.
この学習モデルは、一例として、予め取得した大量の所定のオブジェクトの画像や、所定のオブジェクトのコーナー、及び特徴点等の特徴量、並びにオブジェクトが配され得る背景画像等についての情報に基づいて生成された学習モデルであって、動画構成画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判定するための学習モデルである。なお、画像処理システム1は、所定のオブジェクトを識別する識別子に対応付けて当該オブジェクトの特徴量に関する情報を格納するテーブルを用い、動画構成画像に含まれている1以上のオブジェクトのそれぞれが所定のオブジェクトであるか否かを判断してもよい。ただし、本実施形態においては、様々な形状・サイズの所定のオブジェクトに柔軟・高速・的確に対応する観点から、学習モデルを用いて所定のオブジェクトであるか否かを判断することが好ましい。 As an example, this learning model is generated based on information about a large number of images of a predetermined object acquired in advance, feature quantities such as corners of a predetermined object and feature points, and a background image in which the object can be arranged. This is a learning model for determining whether or not the object included in the moving image is a predetermined object. The image processing system 1 uses a table that stores information about the feature amount of the object in association with an identifier that identifies the predetermined object, and each of the one or more objects included in the moving image is predetermined. You may judge whether it is an object or not. However, in the present embodiment, it is preferable to determine whether or not the object is a predetermined object by using a learning model from the viewpoint of flexibly, quickly, and accurately corresponding to a predetermined object of various shapes and sizes.
そして、画像処理システム1は、学習モデルを用い、リサイズ画像から抽出対象のオブジェクトの所定箇所の座標、例えば、オブジェクトが矩形状である場合、4つの隅の座標を取得する。この場合において画像処理システム1は、学習モデルを用い、4つの隅のそれぞれを中心とする正方形領域に基づいて、当該オブジェクトが領収書であるか否かを判断し、及び/又は領収書の4隅の座標を取得する。また、画像処理システム1においては動画を撮像しているので、例えば、情報端末2を移動させつつ動画を撮像した場合、動画構成画像の中には抽出対象のオブジェクトの全体が含まれていない動画構成画像も含まれ得ることから、リサイズ画像についても当該オブジェクトの全体が含まれていないリサイズ画像が生成され得る。そこで、画像処理システム1は、学習モデルを用い、抽出対象のオブジェクトの所定箇所の座標の全ての箇所が含まれるリサイズ画像を選択し、選択したリサイズ画像から当該オブジェクトの所定箇所の座標を取得する。
Then, the image processing system 1 uses the learning model to acquire the coordinates of a predetermined position of the object to be extracted from the resized image, for example, the coordinates of the four corners when the object has a rectangular shape. In this case, the image processing system 1 uses a learning model to determine whether or not the object is a receipt based on a square area centered on each of the four corners, and / or 4 of the receipt. Get the coordinates of the corner. Further, since the image processing system 1 captures a moving image, for example, when the moving image is captured while the
以下の説明においては、説明の簡略化のため主として、画像処理システム1がオブジェクトの4つの隅の座標を取得して処理を実行する場合を説明するが、画像処理システム1は、オブジェクトの一部の隅の座標を取得し、残りの隅の座標を推定して用いることができる。すなわち、画像処理システム1は、オブジェクト82の4つの隅の全ての座標を取得しなくても、一部の座標を取得することもできる。この場合、画像処理システム1は、オブジェクト82の一部の隅の座標を取得し、座標を取得していない隅については、取得した隅の座標から推定することができる(例えば、3つの隅の座標を取得した場合、残り1つの隅の座標を推定することや、対角位置にある2つの隅の座標を取得し、残り2つの隅の座標を推定すること等ができる。)。
In the following description, for simplification of the description, the case where the image processing system 1 mainly acquires the coordinates of the four corners of the object and executes the processing will be described, but the image processing system 1 is a part of the object. The coordinates of the corners of can be obtained, and the coordinates of the remaining corners can be estimated and used. That is, the image processing system 1 can acquire some coordinates without acquiring all the coordinates of the four corners of the
具体的に、図1(b)の例で画像処理システム1は、リサイズ画像100に含まれるオブジェクト82(つまり、領収書)の4つの隅(つまり、隅150、隅152、隅154、及び隅156)の少なくとも一部の座標を取得する。一方、画像処理システム1は、抽出対象ではないオブジェクト80(つまり、名刺)の4つの隅の座標は、学習モデルを用い、取得しない。なお、画像処理システム1は、リサイズ画像中に領収書の一部が含まれていない場合、つまり、領収書の4隅の一部がリサイズ画像中に含まれていない場合は、当該リサイズ画像を用いずに領収書の4隅の全てが含まれるリサイズ画像を用いて座標を取得してもよい。また、画像処理システム1は、オブジェクト82の一部が折れ曲がっている場合であっても(つまり、オブジェクト82の一部が机90から浮き上がっている場合であっても)、オブジェクト82の隅がリサイズ画像100に含まれているか、オブジェクト82の一部の隅が含まれている限り、リサイズ画像100からオブジェクト82の4隅の座標を取得するか、一部の隅の座標と一部の隅の座標から推定される残りの隅の座標を取得する。
Specifically, in the example of FIG. 1B, the image processing system 1 has four corners (that is,
なお、画像処理システム1が用いる学習モデルにおいては、様々な背景画像に対して抽出対象のオブジェクトの画像を重畳させた学習も実行して学習モデルを構築できる。これにより、画像処理システム1においては、オブジェクト82の外縁が背景である机90の色との関係で認識し難い場合であっても、オブジェクト82の所定箇所の座標を適切に取得できる。
In the learning model used by the image processing system 1, a learning model can be constructed by executing learning in which images of objects to be extracted are superimposed on various background images. As a result, in the image processing system 1, even if the outer edge of the
続いて、画像処理システム1は、リサイズ画像100から取得した座標を、当該リサイズ画像の生成元である元の動画構成画像(つまり、この動画構成画像から当該リサイズ画像が生成されている)に射影して得られる座標(例えば、図1(c)に示す、座標150a、座標152a、座標154a、及び座標156a)を用い、当該元の動画構成画像から抽出対象であるオブジェクト82が含まれる画像領域を抽出する。この場合に画像処理システム1は、オブジェクト82の周囲に所定のマージン領域を含む画像領域を抽出してよい。
Subsequently, the image processing system 1 projects the coordinates acquired from the resized
そして、画像処理システム1は、抽出した画像領域に再びリサイズ処理を施し、リサイズ画像領域を生成する。次に、画像処理システム1は、上記学習モデルを再び用い、リサイズ画像領域から抽出対象であるオブジェクトの所定箇所の座標を再度、取得する。この座標は、リサイズ画像領域における所定箇所の座標である。続いて、画像処理システム1は、リサイズ画像領域から取得した座標を、当該リサイズ画像領域の生成元である元の画像領域が抽出された元の動画構成画像に射影して得られる座標を用い、当該元の動画構成画像から抽出対象であるオブジェクト82のオブジェクト画像領域を抽出する。これにより、画像処理システム1は、動画に撮像された抽出対象であるオブジェクト82の画像を適切にリアルタイムに抽出できる。ここで、画像処理システム1は、所定の画像処理を施した上でオブジェクト画像領域を抽出してもよい。例えば、オブジェクトである領収書の一部が折れ曲がり、領収書が置かれた平面から当該一部が浮き上がっている場合、オブジェクト画像領域においては、浮き上がっている部分に表示されているテキストや図形に歪み等が生じている場合がある。そこで、画像処理システム1は、当該歪み等を除去する画像処理をオブジェクト画像領域に施す。そして、画像処理システム1は、例えば、光学文字認識(OCR)により読み取り可能なデータとしてオブジェクト画像領域を格納する。
Then, the image processing system 1 resizes the extracted image area to generate the resized image area. Next, the image processing system 1 uses the learning model again to acquire the coordinates of a predetermined position of the object to be extracted from the resized image area again. These coordinates are the coordinates of a predetermined position in the resized image area. Subsequently, the image processing system 1 uses the coordinates obtained by projecting the coordinates acquired from the resized image area onto the original moving image constituent image from which the original image area that is the generation source of the resized image area is extracted. The object image area of the
更に、画像処理システム1は、当該データに基づいて、動画に含まれる所定のオブジェクトの表面に記載された情報を読み取り、読み取った内容を情報端末2等の表示部等に出力できる。例えば、所定のオブジェクトが領収書である場合、画像処理システム1は、撮像領域に領収書を含む動画を撮像して生成したOCR読み取り可能なデータを実際に読み取り、読取の結果を情報端末2の表示部等に出力させてもよい。この場合、画像処理システム1は、例えば、所定のオブジェクトが領収書の場合、各領収書の具体的な内容として、領収書記載の日付や発行会社、及び金額や売買対象項目を含む内容等を出力させることができる。更に、画像処理システム1は、読み取った情報を格納し、格納した情報を画像処理システム1外の会計システムや家計簿システム等に引き渡すこともできる(なお、画像処理システム1は、読み取った情報を直接、画像処理システム1外の会計システム等に引き渡してもよい。)。
Further, the image processing system 1 can read the information written on the surface of a predetermined object included in the moving image based on the data, and output the read contents to a display unit or the like of the
これにより、画像処理システム1によれば、複数のオブジェクトを1枚1枚撮像することやスキャナでスキャンすることを要さず、複数のオブジェクトを机の上等に配置した状態を動画撮像するだけで、複数のオブジェクトそれぞれを識別すると共に各オブジェクト表面の情報を適切に抽出できる。したがって、オブジェクトが例えば様々な形状や様式で作成される領収書等である場合、膨大な枚数の領収書の処理を要する会計事務所や多くの枚数の領収書の処理を要する個人事業主等、又は家計簿等を作成する様々な人々の会計や経理等の処理の手間を低減させユーザビリティを向上させることができる。 As a result, according to the image processing system 1, it is not necessary to image a plurality of objects one by one or scan them with a scanner, and only image a state in which a plurality of objects are arranged on a desk or the like as a moving image. Therefore, it is possible to identify each of a plurality of objects and appropriately extract information on the surface of each object. Therefore, when the object is, for example, a receipt created in various shapes and styles, an accounting office that requires processing of a huge number of receipts, a sole proprietor who needs to process a large number of receipts, etc. Alternatively, it is possible to reduce the labor of processing accounting and accounting of various people who create household accounts and improve usability.
特に本実施形態に係る画像処理システム1は、撮像した動画から動画構成画像(元画像)を抽出し、抽出した動画構成画像をリサイズしてリサイズ画像を生成し、リサイズ画像から抽出対象のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像(元画像)に射影して抽出対象のオブジェクトが含まれる画像領域を抽出する第1の工程と、この画像領域を再びリサイズしてリサイズ画像領域を生成し、リサイズ画像領域から抽出対象のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像(元画像)に射影して抽出対象のオブジェクトのオブジェクト画像領域を抽出する第2の工程とを経て抽出対象のオブジェクトの画像(つまり、オブジェクト画像領域)を抽出する。第1の工程と第2の工程とを経ることで、オブジェクトのエッジ検出が困難であっても、高精度でオブジェクトの画像を抽出できる。 In particular, the image processing system 1 according to the present embodiment extracts a moving image constituent image (original image) from the captured moving image, resizes the extracted moving image constituent image to generate a resized image, and extracts the object to be extracted from the resized image. The first step of acquiring the coordinates of a predetermined location, projecting the acquired coordinates onto the moving image constituent image (original image) to extract the image area including the object to be extracted, and resizing this image area again. A resized image area is generated, the coordinates of a predetermined part of the object to be extracted are acquired from the resized image area, and the acquired coordinates are projected onto the video constituent image (original image) to extract the object image area of the object to be extracted. The image of the object to be extracted (that is, the object image area) is extracted through the second step. By going through the first step and the second step, even if it is difficult to detect the edge of the object, the image of the object can be extracted with high accuracy.
ここで、本実施形態においては、抽出対象であるオブジェクトの全体ではなく、複数の部分のバウンディングボックスを利用した学習モデルを構築している。これは、本発明者の鋭意研究の結果、オブジェクトの全体を含むバウンディングボックスを用いるよりも、オブジェクトの特徴的な部分を中心とした複数のバウンディングボックスを用いた学習モデルを構築して用いることで、極めて精度良く抽出対象であるオブジェクトを抽出することができ、また、システムの処理速度を向上できることを見出した結果である。 Here, in the present embodiment, a learning model is constructed by using the bounding boxes of a plurality of parts instead of the entire object to be extracted. As a result of diligent research by the present inventor, this is done by constructing and using a learning model using a plurality of bounding boxes centered on a characteristic part of the object, rather than using a bounding box containing the entire object. This is the result of finding that the object to be extracted can be extracted with extremely high accuracy and the processing speed of the system can be improved.
すなわち、画像処理システム1は、第1の工程で動画構成画像から所定のオブジェクトを含む画像領域を、所定のオブジェクトの複数の特徴部分(例えば、隅)を中心とする複数のバウンディングボックスを用いて、いわば粗く抽出し、第2の工程では、粗く抽出した画像領域に基づいて所定のオブジェクトを含むオブジェクト画像領域を、再度、オブジェクトの複数の特徴部分を中心とする複数のバウンディングボックスを用いて精密に抽出する。すなわち、オジブジェクトに対するバウンディングボックスのエリア推定自体に誤差が含まれている。そのため本実施形態では、バウンディングボックスを用いた処理を繰り返す(つまり、第1の工程と第2の工程との少なくとも2つの工程を実行する)ことで係る誤差を低減し、高精度でオブジェクトを検出することができる。なお、バウンディングボックスによるオブジェクトの検出は、一例として、画像中のオブジェクトを単一のディープニューラルネットワークで検出するSingle Shot MultiBox Detector(SSD)を利用できる。これにより、画像処理システム1によれば、オブジェクトには様々な矩形状のオブジェクト(例えば、名刺、領収書、キーボードのボタン、スマートフォン等)があるところ、抽出対象であるオブジェクト(上記の例では領収書)についての学習モデルを予め構築することで、抽出対象であるオブジェクトを動画から適切に抽出でき、意図しない矩形領域の検出・抽出を防止できる。 That is, in the first step, the image processing system 1 uses a plurality of bounding boxes centered on a plurality of feature portions (for example, corners) of a predetermined object in an image area including a predetermined object from the moving image constituent image. In the second step, the object image area containing a predetermined object is precisely extracted again using a plurality of bounding boxes centered on a plurality of feature portions of the object based on the coarsely extracted image area. Extract to. That is, the bounding box area estimation itself for the Ojibject contains an error. Therefore, in the present embodiment, the error is reduced by repeating the process using the bounding box (that is, at least two steps of the first step and the second step are executed), and the object is detected with high accuracy. can do. As an example of detecting an object by the bounding box, a Single Shot MultiBox Detector (SSD) that detects an object in an image with a single deep neural network can be used. As a result, according to the image processing system 1, where there are various rectangular objects (for example, business cards, receipts, keyboard buttons, smartphones, etc.), the objects to be extracted (receipt in the above example). By constructing a learning model for the book) in advance, the object to be extracted can be appropriately extracted from the moving image, and the detection / extraction of an unintended rectangular area can be prevented.
なお、本実施形態においてオブジェクトは、同一形状、若しくは互いに異なる形状を有し、平面的な形状を有するオブジェクトである。オブジェクトの形状に特に限定はないが、例えば、四辺形状であってよく、四隅や四辺の少なくとも一部が欠損していてもよい。また、オブジェクトの形状は隅(つまり、角)を有する形状であれば限定はなく、三角形、五角形、六角形等の多角形であってもよいし、一部に円弧形状が含まれていてもよい。更に、オブジェクトのサイズにも特に限定はない。そして、オブジェクトの表面には、様々な様式で、各種の情報(テキスト情報、図形情報、手書きの文字や数字、図形等)が印字、印刷、及び/又は記載等されていてよい。オブジェクトとしては、一例として、見積書、請求書、領収書、及び/又は名刺等が挙げられるがこれらに限られない。オブジェクトが領収書等である場合、オブジェクト表面に記載されている情報としては、発行年月日、発行時刻、宛名、金額、摘要、発行者名、及び/又は発行者の電話番号等の情報が挙げられる。したがって、本実施形態に係る画像処理システム1が撮像する動画には、様々な形状、様々なサイズの複数のオブジェクトであって、表面に様々な情報が記載されている複数のオブジェクトの画像が含まれていてよい。すなわち、画像処理システム1が撮像する複数のオブジェクトそれぞれの形状、サイズ、及び/又は表面に記載の情報は、それぞれ異なっていてよい。画像処理システム1は、複数のオブジェクトから、所定カテゴリーのオブジェクトのみを抽出できる。 In this embodiment, the objects are objects having the same shape or different shapes from each other and having a planar shape. The shape of the object is not particularly limited, but may be, for example, a four-sided shape, and the four corners or at least a part of the four sides may be missing. Further, the shape of the object is not limited as long as it has a corner (that is, a corner), and may be a polygon such as a triangle, a pentagon, or a hexagon, or even if a part of the object includes an arc shape. Good. Furthermore, the size of the object is not particularly limited. Then, various types of information (text information, graphic information, handwritten characters, numbers, figures, etc.) may be printed, printed, and / or described on the surface of the object in various formats. Examples of objects include, but are not limited to, quotations, invoices, receipts, and / or business cards. When the object is a receipt, etc., the information written on the surface of the object includes information such as the issue date, issue time, address, amount, description, issuer name, and / or the issuer's telephone number. Can be mentioned. Therefore, the moving image captured by the image processing system 1 according to the present embodiment includes images of a plurality of objects having various shapes and various sizes and having various information described on the surface thereof. It may be. That is, the shape, size, and / or information described on the surface of each of the plurality of objects imaged by the image processing system 1 may be different. The image processing system 1 can extract only objects of a predetermined category from a plurality of objects.
また、情報端末2は、携帯通信端末やスマートフォン、ノートパソコン、及び/又はタブレット型PC等であってよく、動画撮像可能な撮像装置に接続可能なPC等の情報端末や時計等であってもよい。更に、通信網4は、携帯電話網、及び/又はインターネット等の通信網である。通信網4は、有線LAN及び無線LAN等の通信ネットワークを含むこともできる。そして、以下において本実施形態に係る画像処理システム1の詳細を説明するが、上記説明及び下記説明における名称や数値、数量等はあくまで例示であり、これらの名称や数値、数量等に限定されることはないことを付言する。
Further, the
[画像処理システム1の構成の詳細]
図2は、本発明の実施の形態に係る画像処理システムの機能構成の一例を示す。なお、以下の説明においては主として、抽出対象のオブジェクトが領収書である例を挙げて説明する。
[Details of the configuration of the image processing system 1]
FIG. 2 shows an example of the functional configuration of the image processing system according to the embodiment of the present invention. In the following description, an example in which the object to be extracted is a receipt will be mainly described.
<画像処理システム1の構成の概要>
画像処理システム1は、動画を撮像する動画撮像部10と、動画から動画構成画像を抽出する構成画像抽出部12と、画像をリサイズするリサイズ処理部14と、画像から所定のオブジェクトの所定箇所の座標を取得する座標取得部16と、画像領域を抽出する画像領域抽出部18と、画像に所定の処理を施す画像処理部20と、画像のオブジェクトの方向を調整する方向調整部22と、所定の情報を格納する情報格納部24と、学習モデルを生成する学習モデル生成部26と、所定の情報の入力を受け付ける入力部28と、所定の情報を出力する出力部30と、オブジェクト表面のテキストデータ等を読み取る読取部32とを備える。
<Outline of the configuration of the image processing system 1>
The image processing system 1 includes a moving
なお、画像処理システム1は、上記複数の構成要素を物理的に同一の場所に有するだけでなく、上記複数の構成要素の一部を物理的に離れた位置に設置してもよい。例えば、画像処理システム1は、情報端末2のみで構成してもよく(つまり、ローカルのみで構成してもよく)、また、情報端末2と当該情報端末2に通信網4等で接続されるサーバ3とを備えて構成してもよい。画像処理システム1が情報端末2とサーバ3とを備えて構成される場合、情報端末2が上記複数の構成要素の一部を備え、サーバ3が残りの構成要素を備える構成を採用してもよい。この場合、例えば、情報端末2において動画を撮像し、当該動画をサーバ3に供給することで所定の処理を実行することもできる。なお、サーバは、複数のサーバの集合体であってもよく、この場合、各サーバが動画撮像部10を除く他の構成要素の一部若しくは全てを担う。例えば、画像処理システム1の複数の処理の一部を情報端末2において実行し(例えば、動画の撮像からリサイズ画像の生成まで情報端末2において実行する)、その他の処理を他の1以上のサーバにおいて実行してもよい(例えば、リサイズ画像の生成より後の処理をサーバにおいて実行する。)。また、画像処理システム1は、動画撮像部10を有する撮像装置と、動画撮像部10を除く他の構成要素を有する1以上の画像処理装置とから構成してもよい。「1以上の画像処理装置」を複数の処理装置で構成する場合、動画撮像部10を除く他の構成要素を、情報処理能力や果たすべき機能に応じ、各処理装置に適宜割り振ることができる。
The image processing system 1 may not only have the plurality of components at physically the same location, but may also install some of the plurality of components at physically separated positions. For example, the image processing system 1 may be configured only by the information terminal 2 (that is, may be configured only locally), or is connected to the
<画像処理システム1の構成の詳細>
(動画撮像部10、構成画像抽出部12)
動画撮像部10は、撮像領域の動画を撮像する。動画撮像部10は、撮像領域に含まれる1以上のオブジェクトを動画で撮像する。動画撮像部10は、撮像対象を直上(つまり、俯角90度)から撮像することも、俯角90度未満から撮像することもできる。なお、動画撮像部10は、フレームレートを適宜調整して動画を撮像してもよい。動画撮像部10は、撮像した動画を構成画像抽出部12に供給する。構成画像抽出部12は、動画撮像部10から受け取った動画から動画構成画像を抽出する。構成画像抽出部12は、動画から複数の動画構成画像を抽出する。ここで、動画構成画像とは、フレーム画像、フィールド画像、及びその他の動画を構成する様々な形式の画像である。構成画像抽出部12は、抽出した動画構成画像をリサイズ処理部14、画像領域抽出部18に供給する。
<Details of the configuration of the image processing system 1>
(
The moving
(リサイズ処理部14)
リサイズ処理部14は、画像にリサイズ処理を施してリサイズされた画像を生成する。具体的に、リサイズ処理部14は、構成画像抽出部12が抽出した動画構成画像をリサイズしてリサイズ画像を生成する。例えば、リサイズ処理部14は、動画構成画像のサイズを縮小したリサイズ画像を生成する。この場合にリサイズ処理部14は、矩形状の動画構成画像を正方形のリサイズ画像に変形してよい。リサイズ処理部14は、例えば、縦横画素数が3000px×2000pxのサイズを有する動画構成画像を、縦横画素数が300px×300pxのサイズにリサイズしたリサイズ画像を生成する。リサイズ処理部14がリサイズ処理をすることで、処理速度を向上させることができる。リサイズ処理部14は、リサイズ画像を座標取得部16に供給する。
(Resize processing unit 14)
The resizing
(座標取得部16)
座標取得部16は、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する。座標取得部16は、後述する予め準備した学習モデルを用い、抽出対象のオブジェクトの所定箇所の座標を画像から取得する。所定箇所の座標は、オブジェクトの隅を中心とする1以上の矩形領域であって、当該中心から動画構成画像の外縁若しくは動画構成画像に基づいて生成される生成画像の外縁までの長さが最短距離になる直線を垂線とする辺が、動画構成画像の外縁若しくは生成画像の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。具体的に、座標取得部16は、リサイズ処理部14から受け取った生成画像としてのリサイズ画像からオブジェクトの所定箇所の座標を取得する。所定箇所の座標は、オブジェクトの特徴的な部分の座標であり、例えば、オブジェクトが矩形状の場合は4隅の座標若しくは少なくとも一部の隅の座標である。つまり、所定箇所の座標は、オブジェクトの隅を中心とする1以上の矩形領域(例えば、正方形)であって、当該中心からリサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺がリサイズ画像の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。座標取得部16は、リサイズ画像からオブジェクトの所定箇所の一部の座標を取得した場合、残りの所定箇所の座標を学習モデルに基づいて推定する。一例として、座標取得部16は、オブジェクトが矩形である場合、当該オブジェクトの3つの隅の座標を取得し、残り1つの隅の座標を当該3つの隅の座標を用いて推定する。ここで、動画は複数の動画構成画像から構成されるので、リサイズ処理部14が生成するリサイズ画像も複数、存在する。座標取得部16は、リサイズ処理部14から複数のリサイズ画像を取得した場合、抽出対象であるオブジェクトの所定箇所の座標の全てを取得できるリサイズ画像を選択し、選択したリサイズ画像から座標を取得してもよい。座標取得部16は、取得した座標に関する情報を画像領域抽出部18に供給する。
(Coordinate acquisition unit 16)
The coordinate
(画像領域抽出部18)
画像領域抽出部18は、座標取得部16が取得した座標に基づいて、抽出対象であるオブジェクトが含まれる画像領域を動画構成画像から抽出する。具体的に、画像領域抽出部18は、リサイズ画像から取得された所定箇所の座標を動画構成画像に射影して画像領域を抽出する。すなわち、画像領域抽出部18は、動画構成画像から生成されたリサイズ画像から取得されたオブジェクトの所定箇所の座標をリサイズされる前の動画構成画像に射影し、当該動画構成画像に含まれる抽出対象であるオブジェクトが含まれる画像領域を抽出する。この場合において画像領域抽出部18は、所定のマージン領域を付加して画像領域を動画構成画像から抽出することができる。つまり、画像領域抽出部18は、座標の射影により特定される領域の外側に所定のマージン領域を含めた領域を画像領域として抽出できる。画像領域抽出部18は、抽出した画像領域をリサイズ処理部14に供給する。
(Image area extraction unit 18)
The image
そして、リサイズ処理部14は、画像領域抽出部18から受け取った画像領域を再びリサイズし、リサイズ画像領域を生成する。つまり、一の動画構成画像から一のリサイズ画像が生成され、この一のリサイズ画像から取得される座標を用い、当該一の動画構成画像から一の画像領域が抽出される。そして、この一の画像領域にリサイズ処理を施してリサイズ画像領域が生成されるので、当該一の動画構成画像から抽出された所定の領域(一の画像領域)が再びリサイズ処理されることになる。リサイズ処理部14は、リサイズ画像領域を座標取得部16に供給する。
Then, the resizing
続いて座標取得部16は、リサイズ画像領域に基づいて、抽出対象であるオブジェクトの所定箇所の座標を取得する。すなわち、座標取得部16は、生成画像としてのリサイズ画像領域から、抽出対象であるオブジェクトの所定箇所の座標を取得する。所定箇所の座標は、オブジェクトの特徴的な部分の座標であり、例えば、オブジェクトが矩形状の場合は4隅の座標若しくは少なくとも一部の隅の座標である。具体的に、所定箇所の座標は、オブジェクトの隅を中心とする1以上の矩形領域であって、当該中心からリサイズ画像領域の外縁までの長さが最短距離になる直線を垂線とする辺がリサイズ画像領域の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。この場合においても、座標取得部16は、後述する学習モデルを用い、抽出対象のオブジェクトの所定箇所の座標をリサイズ画像領域から取得する。また、座標取得部16は、リサイズ画像領域からオブジェクトの所定箇所の一部の座標を取得した場合、残りの所定箇所の座標を学習モデルに基づいて推定する。一例として、座標取得部16は、オブジェクトが矩形である場合、当該オブジェクトの3つの隅の座標を取得し、残り1つの隅の座標を当該3つの隅の座標を用いて推定する。座標取得部16は、取得した座標に関する情報を画像領域抽出部18に供給する。そして、画像領域抽出部18は、リサイズ画像領域から取得された所定箇所の座標を動画構成画像に射影して、抽出対象であるオブジェクトのオブジェクト画像領域を抽出する。画像領域抽出部18は、抽出したオブジェクト画像領域を、画像処理部20、情報格納部24に供給する。
Subsequently, the coordinate
(画像処理部20)
画像処理部20は、画像領域抽出部18が抽出した画像領域に所定の画像処理(例えば、ブレ、歪み、回転等の補正処理)を施して、オブジェクト画像領域を生成する。なお、画像領域抽出部18は、抽出した画像領域に画像処理部20による画像処理を施さずにオブジェクト画像領域としてもよい。画像処理部20は、後述する読取部32における情報の読み取りや入力を適切に実行可能にすることを目的として、オブジェクト画像領域に画像処理を施す。例えば、画像処理部20は、オブジェクト画像領域が所定のオブジェクトの本来の形状から変形した形状の当該オブジェクトを含む画像である場合(例えば、オブジェクトが領収書である場合において、領収書を斜めの角度から撮像した場合、動画には四辺形ではあるが長方形ではない領収書の画像が含まれる。)、アフィン変換等の処理により長方形のオブジェクトに変形する処理を実行する。これにより、画像処理部20は、斜めの角度から撮像したオブジェクトが台形状のオブジェクトとしてオブジェクト画像領域に含まれる現象であるキーストーニングの除去を実行する。また、画像処理部20は、より明確な画像を読取部32に読み取らせることを目的として、オブジェクト画像領域に二値化処理やシャープネス処理等の画像処理を施すこともできる。画像処理部20は、画像処理後の画像を方向調整部22に供給する。
(Image processing unit 20)
The
(方向調整部22)
方向調整部22は、オブジェクト画像領域に含まれる所定のオブジェクトの方向を調整する。すなわち、画像処理部20において画像処理が施された画像に含まれる所定のオブジェクトの向きは、所定の方向に揃っているとは限らない。したがって、方向調整部22は、後述する読取部32における情報の取り込み/入力を適切に実行することを目的として、画像に含まれる所定のオブジェクトの向きを所定の方向に揃える処理を実行する。例えば、画像処理部20におけるアフィン変換を経て長方形に変更された画像の向きは、当該長方形の長辺を規準にした場合、一例として、当該基準に対して長辺が、0°、90°、180°、270°等の4つの状況をとることが考えられる。方向調整部22は、画像処理部20におけるアフィン変換等の画像処理後に得られる画像に含まれる所定のオブジェクト(例えば、領収書等の長方形状を有するオブジェクト)の向きを、一例として、正面視にて縦長の方向(つまり、情報端末2等の表示部を正面から観察した場合に、水平方向に短辺が位置し、垂直方向に長辺が位置する方向)になるように画像を回転する処理を実行する。これにより、方向調整部22は、オブジェクト画像領域に含まれる所定のオブジェクトの方向を所定の方向に揃えることができる。方向調整部22は、方向を調整した後のオブジェクト画像領域を情報格納部24、読取部32に供給する。
(Direction adjusting unit 22)
The
なお、方向調整部22は、複数の所定のオブジェクトのデータ(例えば、長方形状のオブジェクトの画像データであって、正面視にて長方形の短辺が水平方向に沿った方向であるデータ)を予め定められた規則により所定種類のクラスにランダムに分類して学習することで学習モデルを生成することもできる。この学習モデルは、所定のオブジェクトの上方向を上であるとして認識するように推論できるモデルである。上方向の認識ができれば、所定のオブジェクトの領域を長方形に容易に変形できる。また、当該学習モデルとTesseractによる認識手法とを組み合わせてもよく、係る組み合わせにより、より高い精度が得られる。
The
(情報格納部24)
情報格納部24は、方向が調整されたオブジェクト画像領域、すなわち、読取部32における読取処理に適したオブジェクト画像領域を格納する。情報格納部24は、例えば、ユーザを識別するユーザIDに対応付けて、当該オブジェクト画像領域、当該オブジェクト画像領域を含む動画の撮像年月日、撮像時刻等の情報を格納することができる。なお、情報格納部24に格納される各種の情報は、情報端末2や、外部のサーバ(例えば、画像処理システム1の外部のサーバであって、会計処理や経理処理等に用いるサーバ等)に供給することができる。また、情報端末2は情報格納部24を有していなくてもよく、この場合、情報格納部24は、通信網4を介して双方向通信可能に情報端末2に接続される外部サーバが有していてよい。
(Information storage unit 24)
The
(学習モデル生成部26)
座標取得部16は、学習モデルに基づいて、リサイズ処理部14から受け取ったリサイズ画像に所定のオブジェクトが含まれているか否かを判断し、当該所定のオブジェクトの少なくとも一部の所定箇所の座標を取得する。また、座標取得部16は、リサイズ処理部14から受け取ったリサイズ画像領域に含まれる所定のオブジェクトの少なくとも一部の所定箇所の座標を学習モデルに基づいて取得する。座標取得部16は、既知の画像認識技術や機械学習を用いて当該判断を実行できる。
(Learning model generation unit 26)
Based on the learning model, the coordinate
すなわち、座標取得部16は、所定のオブジェクトの特徴について予め学習して準備した学習モデルを用いて動画構成画像、リサイズ画像、及び/又はリサイズ画像領域に所定のオブジェクトが含まれているか否か判断する。座標取得部16は、所定のオブジェクトの特徴を有さないオブジェクトについては、所定のオブジェクトとは認識しない。座標取得部16は、ニューラルネットワークを用いて大量の所定のオブジェクト等の画像について学習させることにより構築された学習モデルを用いた推論処理により、所定のオブジェクトが動画構成画像、リサイズ画像、及び/又はリサイズ画像領域に含まれているか否かを判断することができる。例えば、座標取得部16は、動画構成画像、リサイズ画像、及び/又はリサイズ画像領域から抽出されるオブジェクトの画像中での特徴と当該学習モデルとを用い、動画構成画像、リサイズ画像、及び/又はリサイズ画像領域に所定のオブジェクトが存在しているか否か、並びに動画構成画像、リサイズ画像、及び/又はリサイズ画像領域に含まれる各オブジェクトが所定のオブジェクトであるか否かを判断する。
That is, the coordinate
具体的に、学習モデル生成部26は、所定のオブジェクトが含まれる画像、所定のオブジェクトが配され得る背景画像、及び所定のオブジェクトが含まれる画像と所定のオブジェクトが配され得る背景画像との組み合わせを教師データとし、一例として勾配法で学習することで、撮像画像である動画が入力されると、動画を構成する動画構成画像やリサイズ画像、及び/又はリサイズ画像領域に含まれるオブジェクトが所定のオブジェクトであるか否か識別するために、所定のオブジェクトの1以上の隅を中心とする1以上の矩形領域、各中心の座標、及び/又は当該所定のオブジェクトの画像を出力とする学習モデルを生成する。なお、学習モデル生成部26は、動画撮像部10が撮像した動画、及び/又は画像処理システム1外や当該画像処理システム1とは別の画像処理システム1において取得された動画を教師データとして用い、学習モデルを生成してもよい。
Specifically, the learning
より具体的に、学習モデル生成部26は、所定のオブジェクトが含まれる画像や背景画像等を用い、画像に含まれるオブジェクトが所定のオブジェクトであるか否かを、所定のオブジェクトの1以上の所定箇所を中心とする矩形領域(つまり、バウンディングボックス)を抽出対象にした学習モデルを生成する。学習モデル生成部26は、従来のように抽出対象である所定のオブジェクトの全体を含むバウンディングボックスを抽出対象にするのではなく、所定のオブジェクトの1以上の所定の個所を中心とするバウンディングボックスの組を抽出対象にした学習モデルを生成する。すなわち、学習モデル生成部26は、所定のオブジェクトの全体を含む1枚の画像を基に当該所定のオブジェクトの当該画像に占める領域を出力させる学習モデルではなく、所定のオブジェクトの複数の所定箇所のそれぞれを中心とする複数のバウンディングボックスを基に当該所定のオブジェクトの当該画像に占める領域を出力させる学習モデルを生成する。例えば、学習モデル生成部26は、領収書を含む1以上のオブジェクトが含まれる画像が入力された場合、当該領収書の4隅を中心とする4つのバウンディングボックス、4つのバウンディングボックスにより認識される当該領収書の画像、及び/又は4隅の座標を抽出対象にした学習モデルを生成する。学習モデル生成部26は、領収書を含む1以上のオブジェクトが含まれる画像が入力された場合、当該領収書の一部の隅を中心とする1以上のバウンディングボックス、1以上のバウンディングボックスにより認識される当該領収書の画像、及び/又は1以上の隅の座標を抽出対象にした学習モデルを生成してもよい。
More specifically, the learning
学習モデル生成部26は、所定のオブジェクトが含まれる画像をデータ拡張し、人工的に学習データを増加させて学習することで学習モデルを生成してよい。例えば、学習モデル生成部26は、所定のオブジェクトが含まれる画像として、所定のオブジェクトが含まれるオブジェクト画像だけではなく、当該オブジェクト画像を変形させた変形画像(変形画像は、例えば、所定のオブジェクトの一部を欠けさせた画像、オブジェクト画像を所定角度回転させた画像、オブジェクト画像に歪みを加えた画像等である)、当該オブジェクト画像に所定のノイズを加えたノイズ画像、複数の所定のオブジェクトを含むオブジェクト画像等を用いることができる。また、学習モデル生成部26は、一の所定のオブジェクトを正面から撮像した状態の画像を用いるだけでなく、当該一の所定のオブジェクトを様々な角度から撮像した状態の画像を用いることや、正面から撮像した状態の画像を、様々な角度から撮像した状態の画像に変形して用いることもできる。なお、複数の所定のオブジェクトを含むオブジェクト画像としては、一の所定のオブジェクトに他の所定のオブジェクトが重なった画像や、一部の所定のオブジェクトが撮像領域外にはみ出すことで撮像領域内には当該所定のオブジェクトの一部分のみが含まれる画像等を用いることができる。ここで、複数の所定のオブジェクトがオブジェクト画像に含まれる場合、いずれか一つの所定のオブジェクトを認識すべき所定のオブジェクトとして学習させることもできる(例えば、オブジェクト画像に複数の所定のオブジェクトが含まれている場合、最も左若しくは右に位置する所定のオブジェクトを当該オブジェクト画像に含まれる所定のオブジェクトとして認識するよう学習させることができる。)。
The learning
また、学習モデル生成部26は、様々な背景画像を所定のオブジェクトの画像に重畳させ、学習モデルを生成することもできる。背景画像としては、様々な色、明度、輝度、コントラスト、及び/又は光の反射の有無等が異なる多種多様な背景画像を用いることができる。すなわち、領収書が置かれる環境は様々な状況が想定される。例えば、机に領収書が置かれる場合、机の色が白色である場合や茶色である場合、また、室内環境によっては蛍光灯の光を机が反射する場合、様々な色や表面形状のカーペットに置かれる場合等、様々な状況が想定される。そこで、学習モデル生成部26は、様々な背景画像を所定のオブジェクトの画像に重畳させて学習モデルを生成する。
Further, the learning
そして、学習モデル生成部26は、所定のオブジェクトの所定箇所を中心とするバウンディングボックスを基に当該所定のオブジェクトの当該画像に占める領域を出力させる学習モデルを生成する場合において、1以上の所定箇所を中心とするバウンディングボックスそれぞれをラベリングする。
Then, the learning
図3は、本実施形態に係る学習モデル生成部が生成する学習モデルにおける所定のオブジェクトのラベリング方法の概要を示す。 FIG. 3 shows an outline of a method of labeling a predetermined object in the learning model generated by the learning model generation unit according to the present embodiment.
本実施形態に係る学習モデル生成部26は、画像に含まれるオブジェクトの所定箇所の座標を取得し、取得した座標を中心座標とする矩形領域(つまり、バウンディングボックスであり、形状は例えば、正方形)を形成し、形成した1以上の矩形領域を、当該オブジェクトを識別する学習データとして用いる。この学習モデルを用いることで座標取得部16は、所定のオブジェクトが占める領域の正しい隅(コーナー)の座標を取得する場合に、各矩形領域(バウンディングボックス)の中心を計算するだけでよいので、隅の位置計算を容易にすることができる。
The learning
すなわち、学習モデル生成部26は、画像130に所定のオブジェクト(例えば、領収書のオブジェクト84)が含まれている場合、所定のオブジェクト84の隅の座標を中心とする1以上の矩形領域であって、当該中心から所定のオブジェクト84が含まれる画像130の外縁までの長さが最短距離になる直線を垂線とする辺が画像130の外縁に接するサイズの矩形領域を形成する。例えば、学習モデル生成部26は、図3に示すように、画像130に所定のオブジェクト84が含まれている場合、オブジェクト84の4つの隅それぞれの座標(つまり、座標160、座標162、座標164、及び座標166)を中心とする矩形領域(つまり、矩形領域170、矩形領域172、矩形領域174、及び矩形領域176)を形成する。この場合において、各矩形領域のサイズは、各矩形領域の中心の座標から画像130の外縁までの距離によって規定される。例えば、矩形領域170は、オブジェクト84の隅の座標160を中心とし、当該中心から画像130の外縁までの距離が最短距離になる直線を垂線とする辺170aが画像130の外縁に接するサイズの正方形である。他の矩形領域も同様にして形成される。そして、学習モデル生成部26は、抽出対象である所定のオブジェクトの大量の画像や、抽出対象である所定のオブジェクトの画像を背景画像に重畳した大量の画像を教師データとして用い、上記のように形成された矩形領域及び矩形領域の中心の座標に基づいて、画像中の所定のオブジェクトを識別し、所定のオブジェクトの1以上の隅を中心とする1以上の矩形領域、各矩形領域の中心座標、及び/又は当該所定のオブジェクトの画像を出力するための学習モデルを生成する。
That is, when the
なお、学習モデル生成部26が、各矩形領域の幅を画像130の外縁に接する距離に規定した理由は、本発明者が様々検討したところ、オブジェクト84の隅の座標を中心とする1以上の矩形領域であって、当該中心からオブジェクト84が含まれる画像130の外縁までの長さが最短距離になる直線を垂線とする辺が画像130の外縁に接するサイズの矩形領域を形成すること(つまり、各矩形領域のサイズを、矩形の形状を正方形に保ちながら画像130の範囲内で最大化すること)で、画像に含まれる1以上のオブジェクトが所定のオブジェクトであるか否かを判断する精度が高くなる知見を得た結果である。
The reason why the learning
つまり、所定のオブジェクトの全体を含む矩形領域を用いて所定のオブジェクトを識別する従来技術とは異なり、本実施形態に係る学習モデルは、所定のオブジェクトを識別し、当該オブジェクトの画像を出力するために、複数(例えば、4つ)のバウンディングボックスの組と所定のオブジェクトのカテゴリー(例えば、領収書)とを対応付けることができる。そして、画像処理システム1においては、画像(例えば、動画構成画像、リサイズ画像、及び/又はリサイズ画像領域)が入力された場合に当該学習モデルを用いて4つのバウンディングボックスに基づいた推論処理を実行し、当該画像に含まれるオブジェクトが所定のオブジェクトであるか否かを識別することや、当該オブジェクトの所定箇所の座標や当該オブジェクトの画像領域を出力することができる。 That is, unlike the conventional technique of identifying a predetermined object by using a rectangular area including the entire predetermined object, the learning model according to the present embodiment is for identifying the predetermined object and outputting an image of the object. Can be associated with a plurality of (for example, four) bounding box sets and a predetermined object category (for example, a receipt). Then, in the image processing system 1, when an image (for example, a moving image constituent image, a resized image, and / or a resized image area) is input, the inference processing based on the four bounding boxes is executed using the learning model. Then, it is possible to identify whether or not the object included in the image is a predetermined object, and to output the coordinates of a predetermined position of the object and the image area of the object.
なお、バウンディングボックスの検出・形成方法に限定はない。例えば、YOLO、Fast R−CNN、Single Shot Multi Detection(SSD)等を利用できる。 There is no limitation on the method of detecting and forming the bounding box. For example, YOLO, Fast R-CNN, Single Shot Multi Detection (SSD) and the like can be used.
そして、座標取得部16は、学習モデル生成部26が生成した学習モデルに基づいてリサイズ画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判断し、所定のオブジェクトである場合、当該所定のオブジェクトの所定箇所の座標を取得する。また、座標取得部16は、当該学習モデルに基づいてリサイズ画像領域に含まれる所定のオブジェクトの所定箇所の座標を取得する。そして、座標取得部16は、取得した座標に関する情報を画像領域抽出部18に供給する。
Then, the coordinate
(読取部32)
読取部32は、方向調整部22から受け取った方向が調整されたオブジェクト画像領域に含まれるオブジェクト表面に記載された各種の情報を読み取る。読取部32は、例えば、Optical Character Recognition/Reader(OCR)等を利用し、オブジェクト表面に記載された各種の情報を読み取る。一例として、オブジェクトが領収書である場合、読取部32が読み取る情報は、日付、金額、電話番号等の情報である。読取部32は、読み取った情報を情報格納部24に格納させることができる。情報格納部24は、例えば、ユーザIDに対応付けて、情報の読み取りに用いたオブジェクト画像領域の撮像年月日、撮像時刻に関する情報と共に、読み取った情報を格納する。
(Reading unit 32)
The
(入力部28)
入力部28は、ユーザからの各種情報や所定の指示の入力を受け付ける。入力部28は、例えば、情報端末2のタッチパネル、キーボード、マウス、マイク、ジェスチャーセンサ等である。入力部28は、画像処理システム1の所定の構成要素に当該所定の指示を供給する。当該所定の指示を受け付けた各構成要素はそれぞれ所定の機能を発揮する。
(Input unit 28)
The
(出力部30)
出力部30は、画像処理システム1において実行された各種の処理結果を出力する。出力部30は、各種の処理結果や格納している情報をユーザが知覚可能に出力する。具体的に出力部30は、各種処理結果や格納している情報を、静止画像、動画像、音声、テキスト、及び/又は振動や光等の物理現象等として出力する。例えば、出力部30は、情報端末2の表示部、スピーカー等である。
(Output unit 30)
The
[画像処理システム1の処理の流れ]
図4は本実施形態に係る画像処理システムの処理の第1の工程の概要を示し、図5はマージン領域を設ける理由の概要を示し、図6は本実施形態に係る画像処理システムの処理の第2の工程の概要を示す。また、図7は、本実施形態に係る画像処理システムの処理全体の流れの概要を示す。
[Processing flow of image processing system 1]
FIG. 4 shows an outline of the first step of the processing of the image processing system according to the present embodiment, FIG. 5 shows an outline of the reason for providing the margin region, and FIG. 6 shows the outline of the processing of the image processing system according to the present embodiment. The outline of the second step is shown. Further, FIG. 7 shows an outline of the overall processing flow of the image processing system according to the present embodiment.
まず、図7に示すように、学習モデル生成部26は、所定のオブジェクト(例えば、領収書)の特徴量(例えば、オブジェクトの隅の座標に基づく4つのバウンディングボックスの組、若しくはオブジェクトの一部の隅の座標に基づく1以上(好ましくは2つ以上)のバウンディングボックスの組)と所定のオブジェクトのカテゴリー(例えば、領収書)との組み合わせを含む教師データを取得若しくは生成し、取得若しくは生成した教師データに基づき、リサイズ画像又はリサイズ画像領域を入力、リサイズ画像又はリサイズ画像領域に含まれる所定のオブジェクトの1以上の隅を中心とする1以上の矩形領域及び/又は当該所定のオブジェクトの画像を出力とする学習モデルを生成する(ステップ10。以下、ステップを「S」と表す。)。
First, as shown in FIG. 7, the learning
そして、例えば、情報端末2の動画撮像部10としてのカメラが、複数のオブジェクト(所定のオブジェクト、及び/又は所定のオブジェクトとは異なる他のオブジェクト)の動画110を撮像する(S12)。一例として、図4(a)に示すように、動画撮像部10は、オブジェクト86(例えば、領収書)の動画110を撮像する。図4(a)の例では、動画110が複数の動画構成画像(例えば、動画構成画像120a、動画構成画像120b、及び動画構成画像120c等)から構成されていることを示している。なお、この場合において動画撮像部10が撮像する動画は、複数のオブジェクトが平面上に配列された状態の動画であっても、複数のオブジェクトが1枚1枚めくられる状態の動画であってもよい。また複数のオブジェクトが平面上に配列された状態において、各オブジェクトの方向は揃っていなくてもよく、一のオブジェクトの一部に他のオブジェクトが重なっていてもよい。更に、動画撮像部10は、撮像領域を横方向や縦方向に移動してもよい。また、動画構成画像のサイズに限定はない。
Then, for example, the camera as the moving
次に、構成画像抽出部12は、動画撮像部10が撮像した動画を変換し、複数の動画構成画像を抽出する(S14)。そして、リサイズ処理部14は、抽出された複数の動画構成画像にリサイズ処理を施し、リサイズ画像を生成する(S16)。例えば、図4(b)に示すように、リサイズ処理部14は、動画構成画像120aをリサイズしたリサイズ画像140a、動画構成画像120bをリサイズしたリサイズ画像140b、及び動画構成画像120cをリサイズしたリサイズ画像140cを生成する。
Next, the constituent
続いて、座標取得部16は、学習モデル生成部26が予め生成した学習モデル260を用い、リサイズ画像に所定のオブジェクト(例えば、領収書)が含まれているか否か判断し、所定のオブジェクトが含まれている場合には、リサイズ画像における当該所定のオブジェクトの1以上の隅(典型的には、4隅)の座標を取得する(S18)。ここで、座標取得部16は、所定のオブジェクトの座標を取得する場合に、所定数の座標を取得できるか否かを判断する(S20)。例えば、所定のオブジェクトが矩形状の領収書である場合、座標取得部16は、一の所定のオブジェクトの4つの隅の座標(つまり、4つの座標)若しくは一部の隅(典型的には2つ以上の隅)の座標を取得できるか否かを判断する。座標取得部16が所定数の座標を取得できないと判断した場合(S20のNo)、構成画像抽出部12は、動画110から他の動画構成画像を抽出する(S14)。一方、座標取得部16が所定数の座標を取得できると判断した場合(S20のYes)、座標取得部16は、所定数の座標を取得する。ここで、座標取得部16は、リサイズ画像における当該所定のオブジェクトの一部の隅の座標を取得した場合、学習モデルを用いて残りの隅の座標を推定して取得する。
Subsequently, the coordinate
例えば、図4(c)に示すように、リサイズ画像140a及びリサイズ画像140bには所定のオブジェクトの一部分のみが含まれており、当該オブジェクトの4隅の一部がリサイズ画像140a及びリサイズ画像140bには含まれていない。したがって、座標取得部16は、リサイズ画像140a及びリサイズ画像140bから所定のオブジェクトの所定箇所の座標を取得できないと判断する。一方、リサイズ画像140cには所定のオブジェクト86の全体が含まれている。したがって、座標取得部16は、リサイズ画像140cからオブジェクト86の所定箇所(つまり、4隅)の座標(つまり、座標160a、座標162a、座標164a、及び座標166a)を取得できると判断し、これらの座標を取得する。
For example, as shown in FIG. 4C, the resized
そして、図4(d)に示すように、画像領域抽出部18は、座標取得部16が取得した座標を動画構成画像120c(つまり、リサイズ画像140cがリサイズされる前の動画構成画像)に射影し(S22)、動画構成画像120cのオブジェクト86の領域を特定する。更に、画像領域抽出部18は、図4(e)に示すように、オブジェクト86を含む画像領域144を取得する(S24)。ここで、画像領域抽出部18は、オブジェクト86の周囲に所定のマージン領域180を含めた領域を画像領域144として取得する。図5を参照しながらこの理由を説明する。
Then, as shown in FIG. 4D, the image
まず、図5(a)に示すように、動画構成画像120にオブジェクト88が含まれているとする。この動画構成画像120をリサイズ処理部14がリサイズすることで、図5(b)に示すように、リサイズ画像142が生成される。そして、座標取得部16は、学習モデルを用い、リサイズ画像142からオブジェクト88の4隅の座標(つまり、座標160b、座標162b、座標164b、及び座標166b)を取得する。続いて、画像領域抽出部18は、座標取得部16が取得した座標を動画構成画像120に射影して画像領域を取得する。
First, as shown in FIG. 5A, it is assumed that the moving
この場合において、リサイズ画像142から取得した座標をリサイズ前の画像サイズが大きな動画構成画像120に射影するので、各座標の位置が実際の位置からずれる可能性がある。一例として、動画構成画像120の縦横画素数が3840px×2160pxであり、これをリサイズしたリサイズ画像142の縦横画素数が300px×300pxであるとする。この場合、リサイズ画像142のサイズと動画構成画像120のサイズとには、リサイズ画像142を基準とすると横方向で7.2倍、及び縦方向で12.8倍の違いがある。そのため、リサイズ画像142から取得した座標を動画構成画像120に射影すると、座標の位置は実際の座標の位置からずれる可能性がある。例えば、リサイズ画像142の座標160bを動画構成画像120に射影した場合の座標160cは、図5(c)に黒丸で示したように、所定のピクセル単位でずれが生じ得る。他の座標(座標162c、座標164c、及び座標166c)についても同様である。その結果、座標取得部16が取得した座標を画像領域抽出部18が動画構成画像120に射影して規定する矩形の画像領域が、図5(c)に示すように画像領域144a(図5(c)の点線で規定した領域)として規定されることや、画像領域144b(図5(c)の一点鎖線で規定した領域)として規定され、実際のオブジェクト88の画像領域からずれる場合が生じ得る。したがって、画像領域抽出部18は、座標取得部16が取得した座標を動画構成画像に射影し、動画構成画像のオブジェクトの領域を特定する場合に、当該オブジェクトの周囲に所定のマージン領域を含めた領域を画像領域として取得する(つまり、粗く、画像領域を抽出する。)。なお、マージン領域のサイズは、例えば、リサイズ処理部14によるリサイズの縮小倍率や、動画構成画像のサイズとリサイズ画像のサイズとの比等に応じて決定してよい。
In this case, since the coordinates acquired from the resized
続いて、画像領域抽出部18が所定回数(例えば、2回)、画像領域を取得していない場合(S26のNo)、リサイズ処理部14は、画像領域抽出部18が抽出した画像領域144をリサイズしてリサイズ画像領域を生成する(S16)。つまり、第1の工程で得られた画像領域144を用い、リサイズ画像領域が生成される。例えば、図6(a)に示すオブジェクト86の周囲にマージン領域180を含む画像領域144をリサイズ処理部14はリサイズし、図6(b)に示すリサイズ画像領域146を生成する。リサイズ画像領域のサイズに限定はないが、例えば、縦横画素数が300px×300pxのサイズであってよい。
Subsequently, when the image
続いて、座標取得部16は、学習モデル260を用い、リサイズ画像領域に含まれる所定のオブジェクトの1以上の隅(典型的には、4隅)の座標を取得する(S18)。ここで、座標取得部16は、所定のオブジェクトの座標を取得する場合に、所定数の座標を取得できるか否かを判断する(S20)。ただし、既に一度S20を経ているので、座標取得部16は、所定数の座標を取得できるか否かの判断を省略し、所定数の座標を取得してよい。
Subsequently, the coordinate
例えば、図6(c)に示すように、座標取得部16は、学習モデル260を用い、オブジェクト86の4隅を中心とする4つの矩形領域であって、各中心からリサイズ画像領域146の外縁までの長さが最短距離になる直線を垂線とする辺がリサイズ画像領域146の外縁に接するサイズの4つ矩形領域を形成した場合における4つの中心の座標(つまり、座標160d、座標162d、座標164d、及び座標166d)を取得する。なお、座標取得部16は、リサイズ画像領域146における当該所定のオブジェクトの一部の隅の座標を取得した場合、学習モデルを用いて残りの隅の座標を推定して取得する。
For example, as shown in FIG. 6C, the coordinate
そして、図6(d)に示すように、画像領域抽出部18は、座標取得部16が取得した座標を動画構成画像120c(つまり、リサイズ画像領域146のリサイズ元の画像領域144を含む動画構成画像120c)に射影し(S22)、動画構成画像120cのオブジェクト86の画像領域を取得する(S24)。なお、既に第1の工程で粗く抽出した画像領域を用いて座標取得部16がオブジェクト86の4隅の座標を再び取得しているので、元の動画構成画像120cに座標を射影しても、元の動画構成画像120cに含まれるオブジェクト86の実際の4隅の座標からのずれを少なくすることができる。
Then, as shown in FIG. 6D, the image
そして、画像領域抽出部18が所定回数(例えば、2回)、画像領域を取得したので(S26のYes)、画像処理部20は取得された画像領域に所定の画像処理を施す(S28)。これにより、画像領域抽出部18は、オブジェクト画像領域148を抽出する(S30)。画像領域抽出部18は、抽出したオブジェクト画像領域148を、例えば、情報格納部24に格納する。
Then, since the image
[画像処理プログラム]
図1〜図7に示した本実施形態に係る画像処理システム1が備える各構成要素は、中央演算処理装置(Central Processing Unit:CPU)等の演算処理装置にプログラム(すなわち、画像処理プログラム)を実行させること、つまり、ソフトウェアによる処理により実現できる。また、集積回路(Integrated Circuit:IC)等の電子部品としてのハードウェアにプログラムを予め書き込むことで実現することもできる。なお、ソフトウェアとハードウェアとを併用することもできる。
[Image processing program]
Each component of the image processing system 1 according to the present embodiment shown in FIGS. 1 to 7 has a program (that is, an image processing program) in an arithmetic processing unit such as a central processing unit (CPU). It can be achieved by executing it, that is, by processing it by software. It can also be realized by writing a program in advance in hardware as an electronic component such as an integrated circuit (IC). It is also possible to use software and hardware together.
本実施形態に係る画像処理プログラムは、例えば、ICやROM等に予め組み込むことができる。また、画像処理プログラムは、インストール可能な形式、又は実行可能な形式のファイルで、磁気記録媒体、光学記録媒体、半導体記録媒体等のコンピュータで読み取り可能な記録媒体に記録し、コンピュータプログラムとして提供することもできる。プログラムを格納している記録媒体は、CD−ROMやDVD等の非一過性の記録媒体であってよい。更に、画像処理プログラムを、インターネット等の通信ネットワークに接続されたコンピュータに予め格納させ、通信ネットワークを介してダウンロードによる提供ができるようにすることもできる。 The image processing program according to this embodiment can be incorporated in advance into, for example, an IC or a ROM. Further, the image processing program is a file in an installable format or an executable format, which is recorded on a computer-readable recording medium such as a magnetic recording medium, an optical recording medium, or a semiconductor recording medium, and provided as a computer program. You can also do it. The recording medium in which the program is stored may be a non-transient recording medium such as a CD-ROM or a DVD. Further, the image processing program can be stored in advance in a computer connected to a communication network such as the Internet so that the image processing program can be provided by download via the communication network.
本実施形態に係る画像処理プログラムは、CPU等に働きかけて、画像処理プログラムを、図1〜図7にかけて説明した動画撮像部10、構成画像抽出部12、リサイズ処理部14、座標取得部16、画像領域抽出部18、画像処理部20、方向調整部22、情報格納部24、学習モデル生成部26、入力部28、出力部30、及び読取部32として機能させる。
The image processing program according to the present embodiment works on the CPU and the like to transfer the image processing program to the moving
(実施の形態の効果)
本実施の形態に係る画像処理システム1は、抽出対象である所定のオブジェクトの所定箇所の座標を中心とする1以上の矩形領域を当該所定のオブジェクトにラベル付けしたデータセットを用いて学習して構築された学習モデルを用いる。そして、画像処理システム1は、動画から動画構成画像を抽出し、抽出した動画構成画像からリサイズ画像を生成し、学習モデルを用いてリサイズ画像から抽出対象の所定のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像に射影して抽出対象のオブジェクトが含まれる画像領域を抽出する第1の工程と、この画像領域をリサイズしてリサイズ画像領域を生成し、学習モデルを用いてリサイズ画像領域から抽出対象の所定のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像に射影して抽出対象のオブジェクトのオブジェクト画像領域を抽出する第2の工程とにより抽出対象であるオブジェクト画像領域を抽出する。これにより、画像処理システム1によれば、例えば、机の上等に整頓されずに配置された複数のオブジェクトの動画を撮像するだけで、高精度、高速、かつ、適切に抽出対象であるオブジェクト(例えば、領収書)の画像を抽出し、オブジェクトに記載されている各種の情報の取得用データや画像処理用のデータとして情報格納部24に格納することができる。
(Effect of embodiment)
The image processing system 1 according to the present embodiment learns by using a data set in which one or more rectangular areas centered on the coordinates of a predetermined location of a predetermined object to be extracted are labeled on the predetermined object. Use the constructed learning model. Then, the image processing system 1 extracts a moving image constituent image from the moving image, generates a resized image from the extracted moving image constituent image, and acquires the coordinates of a predetermined position of a predetermined object to be extracted from the resized image using a learning model. Then, the acquired coordinates are projected onto the moving image constituent image to extract the image area including the object to be extracted, and this image area is resized to generate a resized image area, and the learning model is used. The coordinates of a predetermined part of a predetermined object to be extracted are acquired from the resized image area, and the acquired coordinates are projected onto the moving image constituent image to extract the object image area of the object to be extracted. Extract the target object image area. As a result, according to the image processing system 1, for example, an object that is a high-precision, high-speed, and appropriate extraction target can be extracted simply by capturing a moving image of a plurality of objects arranged unorganized on a desk or the like. An image of (for example, a receipt) can be extracted and stored in the
また、例えば、抽出対象であるオブジェクトが領収書である場合を例に挙げる。この場合、従来技術で抽出対象にしている名刺と領収書とは、例えば、皺が領収書の方が発生しやすく、折れ曲がりも多い特徴があり、また、領収書の方が名刺より薄く、机の上等に置いた場合にエッジを認識し難い。例えば、背景と領収書との色の関係で領収書のエッジが検出し難い場合(一例として、領収書の色が白色で、背景である机の色が白色の場合)、従来技術ではエッジを適切に検出できず、動画からオブジェクトの領域を抽出できない。更に、領収書は名刺とは異なり、縦横比のバリエーションが様々存在する。この場合において、従来技術のようにエッジ検出を前提とした技術では、領収書が波打ったり、折れ曲がっている場合(例えば、図1(b)に示すオブジェクト82)、本来1枚の領収書であるところ、折れ目を境に複数の個別の領域として検出してしまう。また、例えば、名刺は縦横比が略一定であることからバウンディングボックスを用いて動画構成画像中の名刺の領域を推定することが容易であるものの、領収書は縦横比に様々なバリエーションがあることから、エッジ検出を前提とする従来技術において、バウンディングボックスを用いた領収書の領域推定は困難である。
Further, for example, a case where the object to be extracted is a receipt will be taken as an example. In this case, the business card and the receipt to be extracted by the conventional technique are characterized in that wrinkles are more likely to occur on the receipt and there are many bends, and the receipt is thinner than the business card and the desk. It is difficult to recognize the edge when placed on the top. For example, if the edge of the receipt is difficult to detect due to the color relationship between the background and the receipt (for example, if the color of the receipt is white and the color of the desk that is the background is white), the edge is used in the prior art. It cannot be detected properly and the area of the object cannot be extracted from the video. Furthermore, unlike business cards, receipts have various aspect ratio variations. In this case, in the technique premised on edge detection as in the conventional technique, when the receipt is wavy or bent (for example, the
一方、本実施形態に係る画像処理システム1は、エッジ検出を要さず、オブジェクトの所定箇所の座標及び当該座標を中心とするバウンディングボックスに基づいてオブジェクトが領収書であるか否かを認識できるので、波打ったり、折れ曲がった状態の領収書や縦横比が一定でない複数の領収書を動画で撮像した場合であっても、1枚1枚の領収書として適切に認識し、検出できる。 On the other hand, the image processing system 1 according to the present embodiment does not require edge detection, and can recognize whether or not the object is a receipt based on the coordinates of a predetermined position of the object and the bounding box centered on the coordinates. Therefore, even when a receipt in a wavy or bent state or a plurality of receipts having an inconsistent aspect ratio are imaged as a moving image, they can be appropriately recognized and detected as individual receipts.
また、本実施形態に係る学習モデル260は、様々な縦横比の領収書の画像を学習させていることから、画像処理システム1によれば、縦横比が一定ではない複数の領収書のそれぞれを領収書として適切に認識できる。更に、学習モデル260は、様々な様式の領収書の4隅の座標及び4隅を含むバウンディングボックスを学習させていることから、画像処理システム1によれば、例えば、1枚の領収書に情報が表示されている複数の領域が印字され、かつ、一の領域と他の領域との間に大きな空白がある場合であっても1枚の領収書として適切に認識できる。そして、学習モデル260は、領収書の画像だけでなく様々な背景画像に領収書の画像を重畳させて学習させていることから、画像処理システム1によれば、背景と領収書とのコントラスト差が小さい場合であっても、領収書の画像を適切に抽出できる。
Further, since the
具体的に、本実施形態に係る画像処理システム1において、抽出対象である所定のオブジェクトを領収書にした学習モデル260を準備した上で、動画撮像部10に領収書、名刺、及びスマートフォンを含む領域を撮像させてテストした。その結果、本実施形態に係る画像処理システム1は、領収書のオブジェクト画像領域を動画構成画像から適切にリアルタイムで抽出した。一方、画像処理システム1は、名刺、及びスマートフォンについては、領収書とは認識しなかった。
Specifically, in the image processing system 1 according to the present embodiment, after preparing a
以上、本発明の実施の形態を説明したが、上記に記載した実施の形態は特許請求の範囲に係る発明を限定するものではない。また、実施の形態の中で説明した特徴の組合せのすべてが発明の課題を解決するための手段に必須であるとは限らない点に留意すべきである。更に、上記した実施形態の技術的要素は、単独で適用されてもよく、プログラム部品とハードウェア部品とのような複数の部分に分割されて適用されるようにすることもできる。 Although the embodiments of the present invention have been described above, the embodiments described above do not limit the invention according to the claims. It should also be noted that not all combinations of features described in the embodiments are essential to the means for solving the problems of the invention. Further, the technical elements of the above-described embodiments may be applied alone, or may be divided and applied to a plurality of parts such as a program component and a hardware component.
なお、本実施形態に係る画像処理システムは、特許請求の範囲と混同されるべきでない以下の付記項でも言及できる。
(付記項1)
オブジェクトを動画で撮像する動画撮像部と、
前記動画の動画構成画像を抽出する構成画像抽出部と、
前記動画構成画像をリサイズしてリサイズ画像を生成するリサイズ処理部と、
前記リサイズ画像から、前記オブジェクトの所定箇所の座標を取得する座標取得部と、
前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
前記リサイズ処理部が、前記画像領域をリサイズしてリサイズ画像領域を生成し、
前記座標取得部が、前記リサイズ画像領域から、前記オブジェクトの前記所定箇所の座標を再取得し、
前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出する画像処理システム。
The image processing system according to the present embodiment can also be referred to in the following appendix which should not be confused with the scope of claims.
(Appendix 1)
A video imager that captures an object as a video,
A component image extraction unit that extracts a moving image of the moving image,
A resizing processing unit that resizes the moving image configuration image and generates a resized image,
A coordinate acquisition unit that acquires the coordinates of a predetermined position of the object from the resized image, and
It is provided with an image area extraction unit that projects the coordinates onto the moving image constituent image and extracts an image area including the object from the moving image constituent image.
The resizing unit resizes the image area to generate a resized image area.
The coordinate acquisition unit reacquires the coordinates of the predetermined position of the object from the resized image area.
An image processing system in which the image area extraction unit projects the re-acquired coordinates onto the moving image constituent image to extract the object image area of the object.
1 画像処理システム
2 情報端末
3 サーバ
4 通信網
10 動画撮像部
12 構成画像抽出部
14 リサイズ処理部
16 座標取得部
18 画像領域抽出部
20 画像処理部
22 方向調整部
24 情報格納部
26 学習モデル生成部
28 入力部
30 出力部
32 読取部
80、82、84、86、88 オブジェクト
90 机
100 リサイズ画像
110 動画
120、120a、120b、120c 動画構成画像
130 画像
140a、140b、140c リサイズ画像
142 リサイズ画像
144、144a、144b 画像領域
146 リサイズ画像領域
148 オブジェクト画像領域
150、152、154、156 隅
150a、152a、154a、156a 座標
160、162、164、166 座標
160a、162a、164a、166a 座標
160b、162b、164b、166b 座標
160c、162c、164c、166c 座標
160d、162d、164d、166d 座標
170、172、174、176 矩形領域
170a 辺
180 マージン領域
260 学習モデル
1
Claims (9)
前記リサイズ画像から、前記オブジェクトの隅の座標を取得する座標取得部と、
前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
前記リサイズ処理部が、前記画像領域をリサイズしてリサイズ画像領域を生成し、
前記座標取得部が、前記リサイズ画像領域から、前記オブジェクトの前記隅の座標を再取得し、
前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
前記隅の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理システム。 A resizing processing unit that resizes the video composition image of the video that captured the object and generates a resized image,
A coordinate acquisition unit that acquires the coordinates of the corners of the object from the resized image, and
It is provided with an image area extraction unit that projects the coordinates acquired from the resized image onto the moving image constituent image and extracts an image area including the object from the moving image constituent image.
The resizing unit resizes the image area to generate a resized image area.
The coordinate acquisition unit reacquires the coordinates of the corner of the object from the resized image area.
The image area extraction unit projects the re- acquired coordinates onto the moving image constituent image to extract the object image area of the object .
The resized image has a side whose perpendicular line is a straight line whose coordinates are one or more rectangular regions centered on the corner of the object and whose length from the center to the outer edge of the resized image is the shortest distance. An image processing system that is the coordinates of the center when the rectangular region having a size tangent to the outer edge of the is formed .
を更に備える請求項1〜3のいずれか1項に記載の画像処理システム。 The image processing system according to any one of claims 1 to 3 , further comprising an image processing unit that performs predetermined image processing on the object image area.
前記座標に基づいて、前記オブジェクトが含まれる画像領域を前記動画構成画像から抽出する画像領域抽出部と
を備え、
前記座標取得部が、前記画像領域に基づいて前記オブジェクトの前記所定箇所の座標を取得し、
前記画像領域抽出部が、前記取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
前記所定箇所の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記動画構成画像の外縁若しくは前記動画構成画像に基づいて生成される生成画像の外縁までの長さが最短距離になる直線を垂線とする辺が、前記動画構成画像の外縁若しくは前記生成画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理システム。 A coordinate acquisition unit that acquires the coordinates of a predetermined location of the object based on the moving image of the moving image of the object.
It includes an image area extraction unit that extracts an image area including the object from the moving image constituent image based on the coordinates.
The coordinate acquisition unit acquires the coordinates of the predetermined position of the object based on the image area.
The image area extraction unit projects the acquired coordinates onto the moving image constituent image to extract the object image area of the object.
The coordinates of the predetermined location are one or more rectangular regions centered on the corners of the object, from the center to the outer edge of the moving image constituent image or the outer edge of the generated image generated based on the moving image constituent image. An image processing system in which a side having a straight line having the shortest length as a perpendicular line is the coordinate of the center when the rectangular region having a size in contact with the outer edge of the moving image constituent image or the outer edge of the generated image is formed.
オブジェクトを撮像した動画の動画構成画像をリサイズしてリサイズ画像を生成するリサイズ処理工程と、
前記リサイズ画像から、前記オブジェクトの隅の座標を取得する座標取得工程と、
前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出工程と、
前記画像領域をリサイズしてリサイズ画像領域を生成する工程と、
前記リサイズ画像領域から、前記オブジェクトの前記隅の座標を再取得する工程と、
前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出する工程と
を備え、
前記隅の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理方法。 An image processing method for image processing systems
A resizing process that resizes the video composition image of the video that captured the object and generates a resized image,
A coordinate acquisition process for acquiring the coordinates of the corners of the object from the resized image, and
An image area extraction step of projecting the coordinates acquired from the resized image onto the moving image constituent image and extracting an image area including the object from the moving image constituent image.
A step of resizing the image area to generate a resized image area, and
A step of reacquiring the coordinates of the corner of the object from the resized image area, and
A step of projecting the reacquired coordinates onto the moving image constituent image to extract an object image area of the object is provided .
The resizing image is a side whose perpendicular line is a straight line whose corner coordinates are one or more rectangular regions centered on the corner of the object and whose length from the center to the outer edge of the resizing image is the shortest distance. coordinate der Ru image processing method of the center in the case of forming the rectangular region size in contact with the outer edge of the.
コンピュータに、
オブジェクトを撮像した動画の動画構成画像をリサイズしてリサイズ画像を生成するリサイズ処理機能と、
前記リサイズ画像から、前記オブジェクトの隅の座標を取得する座標取得機能と、
前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出機能と、
前記画像領域をリサイズしてリサイズ画像領域を生成する機能と、
前記リサイズ画像領域から、前記オブジェクトの前記隅の座標を再取得する機能と、
前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出する機能と
を実現させ、
前記隅の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理プログラム。 An image processing program for an image processing system
On the computer
Resize processing function that resizes the video composition image of the video that captured the object and generates a resized image,
A coordinate acquisition function that acquires the coordinates of the corners of the object from the resized image, and
An image area extraction function that projects the coordinates acquired from the resized image onto the moving image constituent image and extracts an image area including the object from the moving image constituent image.
A function to resize the image area to generate a resized image area, and
A function to reacquire the coordinates of the corner of the object from the resized image area, and
A function of projecting the re- acquired coordinates onto the moving image constituent image to extract an object image area of the object is realized .
The resizing image is a side whose perpendicular line is a straight line whose corner coordinates are one or more rectangular regions centered on the corner of the object and whose length from the center to the outer edge of the resizing image is the shortest distance. the center coordinates der Ru image processing program in the case of forming the rectangular region size in contact with the outer edge.
前記リサイズ画像から、前記オブジェクトの隅の座標を取得する座標取得部と、
前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
前記リサイズ処理部が、前記画像領域をリサイズしてリサイズ画像領域を生成し、
前記座標取得部が、前記リサイズ画像領域から、前記オブジェクトの前記隅の座標を再取得し、
前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
前記隅の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理サーバ。 A resizing processing unit that resizes the video composition image of the video that captured the object and generates a resized image,
A coordinate acquisition unit that acquires the coordinates of the corners of the object from the resized image, and
It is provided with an image area extraction unit that projects the coordinates acquired from the resized image onto the moving image constituent image and extracts an image area including the object from the moving image constituent image.
The resizing unit resizes the image area to generate a resized image area.
The coordinate acquisition unit reacquires the coordinates of the corner of the object from the resized image area.
The image area extraction unit projects the re- acquired coordinates onto the moving image constituent image to extract the object image area of the object .
The resizing image is a side whose perpendicular line is a straight line whose corner coordinates are one or more rectangular regions centered on the corner of the object and whose length from the center to the outer edge of the resizing image is the shortest distance. An image processing server that is the coordinates of the center when the rectangular region having a size tangent to the outer edge of the is formed .
前記学習モデルは、前記所定のオブジェクトが含まれる画像、前記所定のオブジェクトが配され得る背景画像、及び前記所定のオブジェクトが含まれる画像と前記背景画像との組み合わせを教師データとして学習され、
前記学習では、前記所定のオブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記所定のオブジェクトが含まれる画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記画像の外縁に接するサイズの前記矩形領域を形成し、形成された前記矩形領域及び当該矩形領域の前記中心の座標を用いて前記画像中の前記所定のオブジェクトを識別するための学習モデル。 When the captured image is input, one or more rectangular areas centered on one or more corners of the predetermined object are output in order to identify whether or not the object included in the captured image is a predetermined object. It ’s a learning model that makes the processor work.
In the learning model, an image including the predetermined object, a background image in which the predetermined object can be arranged, and a combination of the image including the predetermined object and the background image are learned as teacher data.
In the learning, a straight line having one or more rectangular regions centered on the corners of the predetermined object and having the shortest length from the center to the outer edge of the image including the predetermined object is defined as a perpendicular line. A learning model for forming the rectangular region whose sides are tangent to the outer edge of the image and identifying the predetermined object in the image using the formed rectangular region and the coordinates of the center of the rectangular region. ..
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020128966A JP6815712B1 (en) | 2020-07-30 | 2020-07-30 | Image processing system, image processing method, image processing program, image processing server, and learning model |
JP2020197889A JP2022027394A (en) | 2020-07-30 | 2020-11-30 | Image processing system, image processing method, image processing program, image processing server and learning model |
PCT/JP2021/026945 WO2022024835A1 (en) | 2020-07-30 | 2021-07-19 | Image processing system, image processing method, image processing program, image processing server, and learning model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020128966A JP6815712B1 (en) | 2020-07-30 | 2020-07-30 | Image processing system, image processing method, image processing program, image processing server, and learning model |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020197889A Division JP2022027394A (en) | 2020-07-30 | 2020-11-30 | Image processing system, image processing method, image processing program, image processing server and learning model |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6815712B1 true JP6815712B1 (en) | 2021-01-20 |
JP2022025843A JP2022025843A (en) | 2022-02-10 |
Family
ID=74164545
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020128966A Active JP6815712B1 (en) | 2020-07-30 | 2020-07-30 | Image processing system, image processing method, image processing program, image processing server, and learning model |
JP2020197889A Pending JP2022027394A (en) | 2020-07-30 | 2020-11-30 | Image processing system, image processing method, image processing program, image processing server and learning model |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020197889A Pending JP2022027394A (en) | 2020-07-30 | 2020-11-30 | Image processing system, image processing method, image processing program, image processing server and learning model |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP6815712B1 (en) |
WO (1) | WO2022024835A1 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744714A (en) * | 1993-08-04 | 1995-02-14 | Mitsubishi Electric Corp | Recognition method for rectangular parallelopiped |
JP4329226B2 (en) * | 1999-04-26 | 2009-09-09 | 沖電気工業株式会社 | Reference mark detection method, reference mark detection device, and optical character reader |
JP4890904B2 (en) * | 2005-07-05 | 2012-03-07 | Juki株式会社 | Component position detection method and apparatus |
US10636168B2 (en) * | 2015-06-12 | 2020-04-28 | Sony Corporation | Image processing apparatus, method, and program |
-
2020
- 2020-07-30 JP JP2020128966A patent/JP6815712B1/en active Active
- 2020-11-30 JP JP2020197889A patent/JP2022027394A/en active Pending
-
2021
- 2021-07-19 WO PCT/JP2021/026945 patent/WO2022024835A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2022025843A (en) | 2022-02-10 |
WO2022024835A1 (en) | 2022-02-03 |
JP2022027394A (en) | 2022-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101292925B1 (en) | Object of image capturing, computer readable media for storing image processing program and image processing method | |
JP6089722B2 (en) | Image processing apparatus, image processing method, and image processing program | |
JP4904426B1 (en) | Image processing system and imaging object used therefor | |
JP6778314B1 (en) | Image processing system, image processing method, and image processing program | |
JP4145014B2 (en) | Image processing device | |
JP6815712B1 (en) | Image processing system, image processing method, image processing program, image processing server, and learning model | |
US20130215297A1 (en) | Image Processing System and Imaging Object Used for Same | |
JP5651221B2 (en) | Symbol piece, image processing program, and image processing method | |
JP5602925B2 (en) | Image processing program and image processing method | |
JP2014219822A (en) | Content display device, content display method, program, and content display system | |
JP2003058877A (en) | Method, device and program for correcting distortion | |
JP2006319820A (en) | Image distortion correcting device | |
JP5140773B2 (en) | Image processing program, portable terminal, and image processing method | |
JP5101740B2 (en) | Object to be imaged | |
JP5140777B2 (en) | Imaging object, image processing program, and image processing method | |
JP5602927B2 (en) | Imaging object, image processing program, and image processing method | |
JP5140772B2 (en) | Image processing program, portable terminal, and image processing method | |
JP5140767B2 (en) | Object to be imaged | |
JP5140774B2 (en) | Transparent sheet | |
JP2012069082A (en) | Image processing system and imaging object used for the same | |
JP2011028611A (en) | Character information reading device and character information reading method | |
JP2012130080A (en) | Image processing program, portable terminal and image processing method | |
JP2012170145A (en) | Image processing system, image processing program, portable terminal, image processing method, and transparent sheet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200730 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200730 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200908 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201130 |
|
C876 | Explanation why request for accelerated appeal examination is justified |
Free format text: JAPANESE INTERMEDIATE CODE: C876 Effective date: 20201130 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20201130 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20201209 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20201210 |
|
C272 | Notice of ex officio correction |
Free format text: JAPANESE INTERMEDIATE CODE: C272 Effective date: 20201210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
C092 | Termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C092 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6815712 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |