JP6949671B2 - Information processing device, image area selection method, computer program, and storage medium - Google Patents
Information processing device, image area selection method, computer program, and storage medium Download PDFInfo
- Publication number
- JP6949671B2 JP6949671B2 JP2017212810A JP2017212810A JP6949671B2 JP 6949671 B2 JP6949671 B2 JP 6949671B2 JP 2017212810 A JP2017212810 A JP 2017212810A JP 2017212810 A JP2017212810 A JP 2017212810A JP 6949671 B2 JP6949671 B2 JP 6949671B2
- Authority
- JP
- Japan
- Prior art keywords
- area
- image
- information processing
- processing device
- control means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Editing Of Facsimile Originals (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
本発明は、画像から所定の領域を選択するための情報処理装置に関する。 The present invention relates to an information processing device for selecting a predetermined area from an image.
情報処理装置は、画像内の選択された領域を対象として所定の処理を行うことがある。このための対象領域の選択方法として、様々なユーザインタフェースが提案されている。最も一般的な方法には、画像中の一点をマウス等のポインティングデバイスでクリックし、ドラッグすることでバウンディングボックスを選択する方法である。この他に、切り抜きたい領域の輪郭を複数回クリックすることで輪郭を切り出すスライスツールなども一般的に用いられる方法である。これらの方法は、いずれもユーザが手動で領域の選択を行う。これら手動による領域選択に対して、自動/半自動による領域選択を行う方法も提案されている。 The information processing device may perform a predetermined process on a selected area in the image. Various user interfaces have been proposed as a method for selecting a target area for this purpose. The most common method is to select a bounding box by clicking and dragging a point in the image with a pointing device such as a mouse. In addition to this, a slice tool that cuts out the outline by clicking the outline of the area to be cut out multiple times is also a commonly used method. In each of these methods, the user manually selects the area. In response to these manual area selections, a method of performing automatic / semi-automatic area selection has also been proposed.
特許文献1は、人の頭頂部及び眼を検出し、その検出結果から顔領域のサイズを自動調節してトリミングサイズを決定する画像処理装置を開示する。この画像処理装置の処理は、顔の領域選択に特化したボトムアップ手法を用いて行われる。特許文献2は、ボトムアップ手法として代表的な、領域成長(region growing)による領域選択を行う画像抽出装置を開示する。この画像抽出装置は、まず、背景差分やオプティカルフローなどの一次特徴を有する領域を分割する。画像抽出装置は、一次特徴で分割した領域から選択した領域を中心として、色成分などの二次特徴で類似した領域を連結し、物体の領域を抽出する。特許文献3は、グラフベースの手法を提案する。この手法は、選択すべき領域の輪郭より内側の領域を大雑把にユーザが指定することで、指定領域内部の特徴分布に従い、グラフカットを繰り返して物体領域を算出する。 Patent Document 1 discloses an image processing device that detects a person's crown and eyes, and automatically adjusts the size of a face region from the detection results to determine a trimming size. The processing of this image processing device is performed by using a bottom-up method specialized in face area selection. Patent Document 2 discloses an image extraction device that selects a region by region growing, which is typical as a bottom-up method. This image extraction device first divides a region having primary features such as background subtraction and optical flow. The image extraction device extracts an object region by connecting similar regions with secondary features such as color components, centering on a region selected from the regions divided by the primary features. Patent Document 3 proposes a graph-based method. In this method, the user roughly specifies the area inside the contour of the area to be selected, and the graph cut is repeated according to the feature distribution inside the specified area to calculate the object area.
一方で、画像を人物の領域、自動車の領域、道路の領域、建物の領域、空の領域などの、意味的な領域を切り出す課題が研究されている。このような課題は、意味的領域分割(Semantic Segmentation)と呼ばれ、物の種類に対応した画像補正や、シーン解釈などへの応用が期待される。意味的領域分割を行うにあたり、画像の各位置に関するカテゴリラベルの識別を、画素単位ではなく、小領域(superpixel)単位で行うことは、すでに一般的である。小領域は、主に類似した特徴を持つ小さな領域として画像から切り出されるものである。類似した特徴の小領域の切り出しは、様々な手法が提案されている。非特許文献1は、このような手法の代表的なものである。小領域は、その内部の特徴量、或いはその周辺のコンテクスト特徴量も一緒に用いてカテゴリラベルが識別される。通常は、様々な学習画像を用いてこのような局所ベースの領域識別器を学習させることで、領域識別が行われることになる。非特許文献2に開示される技術は、画像を複数レベルで小領域に分割し、各レベルにおける小領域を線形SVM(Support Vector Machine)で識別する。各画素におけるすべてのレベルにおけるカテゴリ尤度を線形SVMの入力として、画像の各画素のカテゴリラベルが推定される。 On the other hand, the problem of cutting out a semantic area such as a person area, an automobile area, a road area, a building area, and an empty area from an image is being studied. Such a problem is called semantic segmentation, and is expected to be applied to image correction corresponding to the type of object, scene interpretation, and the like. In performing the semantic region division, it is already common to identify the category label for each position of the image in units of small areas (superpixels) instead of units of pixels. The small area is mainly cut out from the image as a small area having similar characteristics. Various methods have been proposed for cutting out small areas with similar characteristics. Non-Patent Document 1 is a typical example of such a method. The category label of the small area is identified by using the internal feature amount or the context feature amount around it. Usually, region identification is performed by training such a locally-based region classifier using various training images. The technique disclosed in Non-Patent Document 2 divides an image into small regions at a plurality of levels, and identifies the small regions at each level by a linear SVM (Support Vector Machine). The category label of each pixel of the image is estimated with the category likelihood at all levels in each pixel as the input of the linear SVM.
ユーザが選択したい画像中の領域が大きかったり不定形である場合、ユーザが正確に領域選択することは難しい。例えば両腕を広げた人物を囲むバウンディングボックスを指定する場合、最初の一点を正しい位置に置くことに失敗すると、腕が切れてしまったり、或いは人物に対して大きすぎるバウンディングボックスが得られてしまうことがある。また、複数点指定による輪郭切り出しは、領域輪郭の凹凸が多い場合には非常に手間のかかる作業となる。 When the area in the image that the user wants to select is large or irregular, it is difficult for the user to accurately select the area. For example, if you specify a bounding box that surrounds a person with both arms outstretched, if you fail to place the first point in the correct position, your arms will break or you will get a bounding box that is too large for the person. Sometimes. Further, cutting out a contour by designating a plurality of points is a very time-consuming work when there are many irregularities on the contour of the area.
前述したボトムアップ手法では、隣接した領域の類似性により領域を拡大していく。そのために、例えば赤いランニングシャツを着て走っている人物の背景に肌色に近い壁がある画像では、腕とランニングシャツよりも、腕と壁の方が類似した領域と判定される。この場合、腕と壁が連結された領域と判断されてしまい、画像中の人物が一つの領域として選択されない。 In the bottom-up method described above, the area is expanded by the similarity of adjacent areas. Therefore, for example, in an image in which a person running in a red running shirt has a wall close to skin color in the background, it is determined that the arm and the wall are more similar areas than the arm and the running shirt. In this case, it is determined that the arm and the wall are connected to each other, and the person in the image is not selected as one area.
本発明は、上記課題に鑑みてなされたものであり、画像中から簡単な操作で所定の領域を選択することが可能な情報処理装置を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide an information processing apparatus capable of selecting a predetermined area from an image by a simple operation.
本発明の情報処理装置は、画像を取得する画像取得手段と、取得した前記画像における領域を階層的に複数のカテゴリに識別する領域識別手段と、前記画像を表示する表示手段と、前記表示手段に表示された画像に対するユーザの操作に応じて、所定の位置の領域を選択領域の初期領域として設定する初期領域設定手段と、ユーザの所定の操作に応じて、前記階層的なカテゴリ判定結果に従って前記選択領域の拡張及び縮小を行い、前記選択領域を更新する領域制御手段と、を備えることを特徴とする。 The information processing apparatus of the present invention includes an image acquisition means for acquiring an image, an area identification means for hierarchically identifying areas in the acquired image into a plurality of categories, a display means for displaying the image, and the display means. According to the initial area setting means for setting the area at a predetermined position as the initial area of the selection area according to the user's operation on the image displayed on the image, and according to the hierarchical category determination result according to the user's predetermined operation. It is characterized by comprising an area control means for expanding and contracting the selected area and updating the selected area.
本発明によれば、ユーザが画像中から簡単な操作で所定の領域を選択することが可能となる。 According to the present invention, a user can select a predetermined area from an image by a simple operation.
以下、図面を参照して、実施形態を詳細に説明する。 Hereinafter, embodiments will be described in detail with reference to the drawings.
(第1実施形態)
図1は、本実施形態の画像領域選択装置を実現する情報処理装置の説明図である。画像領域選択装置は、ユーザが画像から所望の領域を選択するための画像領域選択処理を行うための機能と、画像領域選択処理を行うために必要な領域識別器を予め生成するための学習処理を行うための機能とを備える。
(First Embodiment)
FIG. 1 is an explanatory diagram of an information processing device that realizes the image area selection device of the present embodiment. The image area selection device has a function for performing an image area selection process for the user to select a desired area from an image, and a learning process for generating in advance an area classifier necessary for performing the image area selection process. It has a function to perform.
画像領域選択処理を行うための機能について説明する。この機能は、画像取得部1100、領域分割部1200、領域識別部1300、表示部1400、初期領域設定部1500、領域制御部1600、及び処理部1700により実現される。各機能は、すべて同じ情報処理装置上で実現されるものでもよく、それぞれ独立したモジュールで実現されてもよい。情報処理装置は、例えばパーソナルコンピュータとモニタとの組み合わせや、タブレット端末やスマートフォンなどを用いることができる。各機能は、情報処理装置に実装されるコンピュータプログラムをCPU(Central Processing Unit)で実行することで実現されてもよい。また各機能は、カメラ等の撮影装置内部において、ハードウェアもしくはコンピュータプログラムの実行により実現されてもよい。
The function for performing the image area selection process will be described. This function is realized by the
画像取得部1100は、外部装置から入力画像を取得する。領域分割部1200は、画像取得部1100で取得した入力画像を複数の小領域に分割する。領域識別部1300は、領域識別器記憶部5200に記憶されている領域識別器を読み出し、領域分割部1200で分割された各小領域の領域カテゴリを推定する。領域識別器記憶部5200には、後述する学習処理によって生成された領域識別器が記憶されている。表示部1400は、画像取得部1100で取得された入力画像を表示する表示装置である。ユーザは、表示部1400の表示により入力画像を確認することができる。初期領域設定部1500は、所定のインタフェースによるユーザの指示に応じて、入力画像の所定の位置の領域を初期領域に設定する。領域制御部1600は、ユーザにより行われた操作に応じて、初期領域の拡張/縮小を行い、選択領域を生成する。処理部1700は、選択領域に対する所定の処理を行う。
The
画像領域選択処理で用いる領域識別器を生成するための学習処理を行うための機能について説明する。この機能は、学習データ取得部2100、学習画像領域分割部2200、及び領域識別器生成部2300により実現される。各機能は、すべて同じ情報処理装置上で実現されるものでもよく、それぞれ独立したモジュールで実現されてもよい。各機能は、情報処理装置に実装されるコンピュータプログラムをCPU(Central Processing Unit)で実行することで実現されてもよい。
The function for performing the learning process for generating the area classifier used in the image area selection process will be described. This function is realized by the learning
学習データ取得部2100は、学習データ記憶部5100から学習データを取得する。学習データ記憶部5100は、学習処理で用いる学習データを予め記憶する。学習データは、複数の学習画像と、学習画像の各画素に対応して階層定義する領域カテゴリラベルが付与された領域カテゴリラベルデータと、から構成される。学習画像領域分割部2200は、学習データ取得部2100で取得した学習データについて、それぞれの学習画像を小領域に分割する。領域識別器生成部2300は、学習画像領域分割部2200で分割した各小領域の特徴量と領域カテゴリラベルとに基づいて学習処理を行い、小領域のカテゴリを識別する領域識別器を生成する。領域識別器生成部2300は、生成した領域識別器を領域識別器記憶部5200に記憶させる。学習データ記憶部5100及び領域識別器記憶部5200は、情報処理装置の内部もしくは外部ストレージにより実現される。
The learning
画像領域選択処理に用いる各機能と学習処理に用いる各機能とは、同じ情報処理装置上で実現してもよく、別々の情報処理装置で実現してもよい。学習処理と画像領域選択処理とを別々の情報処理装置で実現する場合、領域識別器記憶部5200は、それぞれで異なるストレージにより実現されてもよい。その場合、学習処理で得られた領域識別器が、画像領域選択処理用の装置におけるストレージにコピーもしくは移動して用いられる。
Each function used for the image area selection process and each function used for the learning process may be realized on the same information processing device or may be realized by different information processing devices. When the learning process and the image area selection process are realized by separate information processing devices, the area
以上のような構成の画像領域選択装置による学習処理及び画像領域選択処理について説明する。図2は、学習処理を表すフローチャートである。学習処理とは、画像領域選択処理を行うために利用される領域識別器を、事前に用意された学習画像から生成することである。一度学習して生成された領域識別器は、領域識別器記憶部5200に記憶され、領域識別器記憶部5200から読み出されて再利用される。そのために、画像領域選択処理時に学習処理を毎回行う必要はない。
The learning process and the image area selection process by the image area selection device having the above configuration will be described. FIG. 2 is a flowchart showing the learning process. The learning process is to generate an area classifier used for performing an image area selection process from a trained image prepared in advance. The area classifier generated by learning once is stored in the area
学習処理を開始すると、学習データ取得部2100は、学習データ記憶部5100から学習画像及び階層定義された領域カテゴリラベルデータを含む学習データを取得する(S2100)。学習画像は、具体的にはデジタルカメラ等で撮影された画像データである。学習画像の枚数をN枚とし、n番目の学習画像を学習画像I_n(n=1…N)と記載する。領域カテゴリラベルデータは、各学習画像の各画素に対して階層的な領域カテゴリラベルが割り振られる。階層数をLとし、階層のインデックスをインデックスl=1…Lと記載する。第l階層で定義されているカテゴリ数をM_lとする。
When the learning process is started, the learning
図3は、学習画像及び領域カテゴリラベルデータの説明図である。この例では階層数L=5層の場合を説明するが、階層数はこの値に限定されるものではない。図3(a)に示す学習画像500は、対応する領域カテゴリラベルデータが図3(b)の階層510〜550で示される。領域カテゴリラベルは、粗から詳細へと被写体のカテゴリを与える。図3(b)の例では、階層510が最も粗なカテゴリラベルであり、階層520、530、540の順に詳細なカテゴリが与えられ、階層550が最も詳細なカテゴリ定義である。ここでは、最も粗な階層510から順番に、第1階層、第2階層、…と呼ぶ。
FIG. 3 is an explanatory diagram of the training image and the area category label data. In this example, the case where the number of layers L = 5 layers will be described, but the number of layers is not limited to this value. In the
第1階層510では、空511と非空512とのカテゴリラベルが割り振られている。第2階層520では、第1階層510における空511が空521として継承され、第1階層510における非空512が人体522と植物523とに分解されている。第3階層530では、空521は空531として継承され、人体522は顔532と上半身533とに分解され、植物523は花534と茎葉535とに分解されている。第4階層540では、空531は空541に、上半身533は上半身544に、花534は花545に、茎葉535は茎葉546として継承され、顔532は髪542と顔543とに分解されている。第5階層550では、空541は空551に、髪542は髪552に、上半身544は上半身555として継承される。また、顔543は目553、顔肌554、及び口556に、花545は花弁557及び管状花558に、茎葉546は葉559及びと茎560に、分解されている。
In the
学習画像I_nに対応する、第l階層における領域カテゴリラベルデータをGT_(n,l)と表す。図3の例示以外にも、これらの意味的な領域カテゴリは階層的に包含関係が定義される。図4は、図3の領域カテゴリラベルの説明図である。領域カテゴリラベルは、これ以外にもさまざまな領域カテゴリや階層レベルの定義が可能であることは言うまでもない。 The area category label data in the first layer corresponding to the training image I_n is represented as GT_ (n, l). In addition to the examples in FIG. 3, these semantic area categories are hierarchically defined inclusive relations. FIG. 4 is an explanatory diagram of the area category label of FIG. It goes without saying that the area category label can define various area categories and hierarchy levels in addition to this.
学習画像領域分割部2200は、取得した学習画像を小領域に分割する(S2200)。小領域は、類似した特徴を持つ小さな領域として学習画像から切り出されるものである。学習画像を小領域に分割する手法はいくつか提案されている。代表的なものとして、非特許文献1のような手法がある。また、単純に、均一サイズの長方形に学習画像を分割して得られる領域を、小領域として用いてもよい。また、学習画像の各画素を小領域とみなしてもよく、その場合は特に分割処理を行う必要はない。図3(c)では、学習画像500を小領域に分割した結果を例示する。
学習画像I_nに対する領域分割結果として、R_n個の小領域が生成される場合、学習用の小領域の総数はR=ΣR_n個である。学習画像の小領域を通し番号でSP_r(r=1…R)と記載する。
The learning image
When R_n small regions are generated as a result of region division for the training image I_n, the total number of small regions for training is R = ΣR_n. The small area of the training image is described as SP_r (r = 1 ... R) with a serial number.
領域識別器生成部2300は、小領域のカテゴリを識別するための領域識別器を学習して生成する(S2300)。領域識別器生成部2300は、学習に用いる小領域に関する領域特徴を抽出する。ここで抽出される領域特徴は、小領域内部における色平均値や色ヒストグラム、小領域の位置や大きさ、LBP(Local Binary Pattern)などのテクスチャ特徴など、その種類によって限定されるものではない。また、領域特徴は、小領域の周囲に関する線分や色の分布などによるコンテクスト特徴であってもよい。また、CNN(Convolutional Neural Network)を利用して、その畳み込み層を特徴抽出器とみなしてもよい。小領域SP_rから抽出された領域特徴を小領域特徴x_rと記載する。
The area
GT_(n,l)の小領域SP_rに対応する第l階層の領域カテゴリラベルをc_(r,l)とすると、小領域SP_rに対する第l階層の教師ベクトルτ_(r,l)は下記の式で表される。 Assuming that the area category label of the first layer corresponding to the small area SP_r of GT_ (n, l) is c_ (r, l), the teacher vector τ_ (r, l) of the first layer for the small area SP_r is the following equation. It is represented by.
ここで領域カテゴリラベルc_(r,l)は、小領域SP_rが、第l階層において領域カテゴリラベルとして割り振られているカテゴリのインデックスである。領域識別器の学習は、識別関数に対して小領域特徴x_rを入力したときに得られる出力ベクトルと教師ベクトルτ_(r,l)との誤差が、全学習データを通して小さくなるように識別関数のパラメータを調整して、領域識別器を生成することである。領域識別器は、小領域特徴x_rを入力として、各階層における領域カテゴリのスコアベクトルf_l(x_r)を出力する。スコアベクトルf_l(x_r)は、M_l次元のベクトルである。スコアベクトルf_l(x_r)の各要素は、各領域カテゴリに対するスコアであって、第l階層のc番目の領域カテゴリに対するスコアをf_c(x_r)(c=1…M_l)と記載する。 Here, the area category label c_ (r, l) is an index of the category in which the small area SP_r is assigned as the area category label in the first layer. The learning of the region classifier is performed so that the error between the output vector and the teacher vector τ_ (r, l) obtained when the small region feature x_r is input to the discriminant function is small throughout the entire training data. Adjusting the parameters to generate a region classifier. The area classifier takes the small area feature x_r as an input and outputs the score vector f_l (x_r) of the area category in each layer. The score vector f_l (x_r) is an M_l dimension vector. Each element of the score vector f_l (x_r) is a score for each area category, and the score for the cth area category of the first layer is described as f_c (x_r) (c = 1 ... M_l).
識別関数のモデルとその学習方法には、様々なものが考えられる。例えばSVMや多層ニューラルネットワーク、ロジスティック回帰などを用いることができる。また、前述のCNNを利用する場合には、その全結合層を識別関数のモデルとみなすことができ、特徴抽出を担う畳み込み層も含めて学習することが可能である。本実施形態の識別関数のモデルとその学習方法は、それらの種類によって限定されるものではない。領域識別器生成部2300は、学習して得られた領域識別器を領域識別器記憶部5200に記憶させる。
There are various possible models of discriminant functions and their learning methods. For example, SVM, multi-layer neural network, logistic regression and the like can be used. Further, when the above-mentioned CNN is used, the fully connected layer can be regarded as a model of the discriminant function, and it is possible to learn including the convolution layer responsible for feature extraction. The model of the discriminant function of the present embodiment and the learning method thereof are not limited by their types. The area
以上のように学習処理が行われる。情報処理装置は、学習処理によって得られた領域識別器を用いて画像領域選択処理を行う。図5は、画像領域選択処理を表すフローチャートである。図5(a)は、画像領域選択処理の全体処理を表す。図6、図7、図8、図9、図10、図11は、画像領域選択処理の説明図である。 The learning process is performed as described above. The information processing device performs the image area selection process using the area classifier obtained by the learning process. FIG. 5 is a flowchart showing the image area selection process. FIG. 5A shows the entire processing of the image area selection processing. 6, FIG. 7, FIG. 8, FIG. 9, FIG. 10, and FIG. 11 are explanatory views of the image area selection process.
画像取得部1100は、入力画像を取得する(S1100)。図6(a)は、入力画像100を例示する。入力画像100の取得方法に関しては様々なものが考えられるが、本実施形態はその取得方法に関して限定されるものではない。例えば、カメラなどの撮像装置から直接取得するものでもよく、予めハードディスクなどのストレージに保存されている画像データから取得するものでもよい。
The
領域分割部1200は、取得した入力画像100を小領域に分割する(S1200)。ここで行われる小領域への分割処理は、学習画像領域分割部2200がS2200の処理と同様の処理であることが好ましい。各画素を小領域とみなす場合には、特に分割処理を行う必要はない。図6(b)は、入力画像100の領域分割結果200を例示する。入力画像100を領域分割して得られた小領域の総数をKとする。
The
領域識別部1300は、入力画像100の各小領域に関して領域カテゴリを識別する(S1300)。領域識別部1300は、領域分割部1200で生成される各小領域の領域特徴を抽出する。抽出する領域特徴は、例えば図2のS2300の処理で領域識別器生成部2300が学習画像の小領域から抽出する領域特徴と同じ種類のものである。小領域SP_k(k=1…K)から抽出された領域特徴をx_kとする。領域識別部1300は、領域識別器記憶部5200に記憶される学習処理で得られた領域識別器を読み込む。領域識別部1300は、読み込んだ領域識別器f_l(l=1…L)に対して、それぞれの小領域SP_kに関する領域特徴x_kを入力する。これにより領域識別部1300は、第l階層における各領域カテゴリのスコアベクトルf_l(x_k)を生成する。
The
第l階層の各小領域SP_kに対する領域識別結果は、例えばスコアベクトルf_l(x_k)が最大となるカテゴリc_(k,l)として生成される。 The area identification result for each small area SP_k of the first layer is generated, for example, as a category c_ (k, l) having the maximum score vector f_l (x_k).
領域識別部1300は、すべての小領域SP_k(k=1…K)に関して、すべての階層lにおける領域識別器f_lを適用して、すべての領域識別結果であるカテゴリc_(k,l)が得られると、S1300の処理を終了する。図6(c)は、領域識別結果110、120、130、140、150を例示する。最も詳細なカテゴリ識別結果として、第5階層における識別結果が領域識別結果150に示されている。この例では、口151、髪152、目153、顔肌154、腕155、胴156、手157、股158、脚159、足161、屋内壁162、家具163、外壁164、及び床165などの領域が得られる。第4階層における領域識別結果140では、髪141、顔肌142、腕143、胴体144、股145、脚146、頭147、及び屋内148といった領域が得られている。第3階層における領域識別結果130では、頭131、134、上半身132、下半身133、及び建物135といった領域が得られている。第2階層における領域識別結果120では、人工物121、人体122、123の領域が得られている。第1階層における領域識別結果110では、画面全体の領域が非空111と識別されている。
The
表示部1400は、入力画像100を表示する(S1400)。表示部1400は、表示された画像に対してグラフィカルなユーザインタフェースを有するものとするが、本実施形態は表示部1400の形式に限定されるものではない。入力画像100を表示する表示部1400は、タッチパネルであってもよいし、マウスやペンタブレットを利用可能なパーソナルコンピュータに接続されたモニタでもよい。以下では、表示部1400をタブレットやスマートフォンに用いられるタッチパネルを例として説明する。
The
初期領域設定部1500は、表示部1400に表示された入力画像100に対してユーザが所定の位置を指定することで、初期領域の設定を行う(S1500)。
ユーザは、図7(a)に例示するように表示部1400に表示された入力画像100の上で、選択したい領域の一部をタップする。初期領域設定部1500は、領域分割部1200により分割されて得られるすべての小領域S_k(k=1…K)のうち、タップされた位置を含む小領域S_iを初期領域に設定する。例えば、図7(a)のようにしてタップした位置が、図8(a)に示す右側人物の顔肌の右半に対応する小領域401の内部である場合、図8(b)に示すようにこの小領域401が初期領域411となる。
The initial
The user taps a part of the area to be selected on the
領域制御部1600は、初期領域設定部1500により設定された初期領域411を所定の操作に応じて拡張、縮小を行い、所望の領域を取得する(S1600)。図5(b)は、領域制御部1600による処理の詳細を表す。
The
領域制御部1600は、その時点で選択されている領域(選択領域)を表示部1400に表示する(S1690)。選択領域の表示形式は、本実施形態において限定されるものではない。選択領域は、図9(a)に例示するように入力画像上に選択領域の輪郭を表示されてもよく、図9(b)に例示するように選択領域の内部だけを表示されてもよい。
The
領域制御部1600は、表示された選択領域に対してユーザが行う操作を取得する(S1610)。領域制御部1600は、ユーザによる操作内容を判断して次の処理を決定する(S1615)。ユーザが行った操作が領域拡張操作である場合(S1615:領域拡張)、領域制御部1600は、その時点の選択領域を拡張する(S1620)。ユーザが行った操作が領域縮小操作である場合(S1615:領域縮小)、領域制御部1600は、その時点の選択領域を縮小する(S1630)。ユーザが行った操作が領域選択終了操作である場合(S1615:終了)、領域制御部1600は、領域制御処理を終了する。これにより画像領域選択処理が終了する。
The
図7(b)、7(c)は、領域拡張操作及び領域縮小操作を説明する。ここでは、領域拡張操作及び領域縮小操作が、表示画面上の上下のスライド操作に割り当てている。ただし、領域拡張操作及び領域縮小操作はこれに限定されるものではない。例えば、左右スライド操作によって領域拡張操作及び領域縮小操作が行われてもよい。タッチパネルを押す際の圧力が増える場合は領域拡張操作、圧力が減る場合には領域縮小操作などとしてもよい。ロングタップをしながら別メニューをタップして操作を区別もしくは切り替えるとしてもよい。キーボードとの組み合わせであれば、ロングタップしながらSHIFTやCtrlキーなどの特殊キーとの組み合わせによって区別もしくは切り替えてもよい。マウスを利用する場合は、マウスの上下動作もしくは左右動作で領域拡張操作及び領域縮小操作を行ってもよく、スクロールウィールの回転操作で制御してもよい。マウスのクリック操作とSHIFTキーやCtrlキーなどの特殊キーとの組み合わせによって領域拡張操作及び領域縮小操作を区別する、もしくは切り替わる、などとしてもよい。領域選択終了操作は、例えば指をタッチパネルから離す、マウスでダブルクリックする、などの操作である。 7 (b) and 7 (c) explain the area expansion operation and the area reduction operation. Here, the area expansion operation and the area reduction operation are assigned to the up and down slide operations on the display screen. However, the area expansion operation and the area reduction operation are not limited to this. For example, the area expansion operation and the area reduction operation may be performed by the left and right slide operation. When the pressure when pressing the touch panel increases, the area expansion operation may be performed, and when the pressure decreases, the area reduction operation may be performed. You may distinguish or switch the operation by tapping another menu while long tapping. If it is a combination with a keyboard, it may be distinguished or switched by a combination with a special key such as the SHIFT or Ctrl key while long-tapping. When a mouse is used, the area expansion operation and the area reduction operation may be performed by the vertical movement or the left and right movement of the mouse, or may be controlled by the rotation operation of the scroll wheel. The area expansion operation and the area reduction operation may be distinguished or switched by the combination of the mouse click operation and the special key such as the SHIFT key or the Ctrl key. The area selection end operation is, for example, an operation such as releasing the finger from the touch panel or double-clicking with the mouse.
領域制御部1600は、S1620の処理で選択領域を拡張する場合、まず、同一階層中で、選択領域に対して空間的に隣接し且つ同一カテゴリである小領域を該選択領域に追加することで、選択領域を拡張する。領域制御部1600は、当該階層内で隣接する同一カテゴリ領域がない場合、階層を一つ上に移して同様の処理を行う。一つの小領域を選択領域に追加すると、領域制御部1600は、S1690の処理へ戻る。
When expanding the selected area in the process of S1620, the
S1620の処理を繰り返すことで領域が拡張されていく様子の具体例を以下に示す。図8(b)に例示する初期領域411に対して領域拡張操作が行われる場合を例に説明する。
初期領域411は、図6(c)の第5階層の領域識別結果150において顔肌カテゴリと判定された顔肌154の領域に含まれる。初期領域411に隣接する小領域のうち同じ顔肌カテゴリと判定された小領域は、図8(a)に示した小領域402、403である。領域制御部1600は、まず、これらの領域のうち初期領域411に対して最も特徴の近い領域を選択する。選択に用いる特徴量は、色ヒストグラムやLBPなどのテクスチャ特徴など、様々なものが考えられるが、本実施形態において限定されるものではない。
A specific example of how the area is expanded by repeating the process of S1620 is shown below. A case where the area expansion operation is performed on the
The
領域制御部1600は、初期領域411と最も特徴の近い小領域402を初期領域411に結合した領域を、新たな選択領域として更新する。図8(c)は、更新された選択領域412を例示する。さらに領域拡張操作が継続して行われた場合、領域制御部1600は、残りの小領域403を選択領域412に結合させたものを選択領域として更新する。図8(d)は、更新された選択領域410を例示する。ここまで領域の拡張が行われると、第5階層における初期領域と連結可能な顔肌領域はすべて連結されたことになる。
The
ここでさらに領域拡張操作が継続して行われた場合、領域制御部1600は、階層を一つ上、この例では第4階層に処理階層を移す。第5階層における顔肌カテゴリ領域は、第4階層では顔カテゴリ領域に属する。
顔カテゴリ領域の中で、図10(a)に示す目と口である小領域404、405、406は、この時点ではまだ選択領域に含まれていない。しかし、第4階層においては、選択領域410と同様に、図6(c)の顔カテゴリ領域の顔肌142に属することとなる。そこで、領域制御部1600は、先ほどと同様にして、選択領域410に隣接する小領域の中で、選択領域410と最も特徴の近い小領域を結合していく。図10(b)には、選択領域410に対して小領域404を結合して更新された選択領域421が例示される。図10(c)には、さらに小領域405を結合した選択領域422が例示される。図10(d)にはさらに小領域406を結合した選択領域420が例示される。
If the area expansion operation is further performed here, the
Among the face category regions, the
このようにして、同一階層内の同一カテゴリとなる小領域を連結していき、同一カテゴリの隣接する小領域がなくなった時点で一つ上の階層に移って同様の処理を繰り返していくことで、階層カテゴリに従って領域を拡張していくことができる。図11(a)〜11(g)は、初期領域411から領域拡張操作を続けたときの、各階層における連結結果を示す。図11(b)は、第5階層において図11(a)の初期領域411から同一カテゴリ領域を連結していって得られる選択領域410を例示する。さらに領域拡張操作を続けると、第4階層では図11(c)に例示する顔カテゴリ領域が選択領域420として得られ、第3階層では図11(d)に例示する頭部カテゴリ領域が選択領域430として得られる。
第2階層では、頭部カテゴリ領域から拡張していくことにより、図11(e)に例示する右側人物領域440が人物カテゴリ領域の途中結果として得られる。さらに拡張していくと、図11(f)のように、つないだ手を通して左側人物領域も連結された人物カテゴリ領域が選択領域450として得られる。第1階層でさらに連結を続けていくと、図11(g)のように、画像全体が非空カテゴリ領域として一つの領域に結合されたものが選択領域460として設定される。
In this way, small areas of the same category in the same hierarchy are connected, and when there are no adjacent small areas of the same category, the next higher layer is moved and the same processing is repeated. , The area can be expanded according to the hierarchical category. 11 (a) to 11 (g) show the connection results in each layer when the area expansion operation is continued from the
In the second layer, by expanding from the head category area, the
領域制御部1600は、S1630の処理で領域を縮小する場合、まず、現在の選択領域の中から、現在の階層から一つ下の階層において初期領域が含まれるカテゴリ領域を除いた小領域を、削除候補領域とする。領域制御部1600は、削除候補領域の中で、選択領域と特徴が最も異なる小領域を選択領域から除き、選択領域を更新する。一つの小領域を選択領域から削除すると、領域制御部1600は、S1690の処理へと戻る。S1630の処理を繰り返すことによって領域が縮小されていく具体例を以下に示す。
When the area is reduced by the processing of S1630, the
例えば、図10(d)に例示する選択領域420について領域縮小操作を行ったとする。このとき処理階層は第4階層で、処理対象カテゴリは図6(c)で示される顔カテゴリ領域の顔肌142である。その一つ下の階層、すなわち第5階層において、初期領域の含まれる領域は、図6(c)で例示する顔肌154のカテゴリ領域である。初期領域の含まれる顔肌154のカテゴリ領域は、図10(a)に例示する選択領域410で、それを除いた領域は図10(a)における小領域404、405、406となる。領域制御部1600は、これらの小領域404、405、406を削除候補領域とし、選択領域420と特徴の最も異なる小領域を選択領域から削除する。これにより、選択領域420は、図10(c)、10(b)のように、顔肌カテゴリ領域以外の部分が削除されていくことで、顔肌カテゴリ領域だけが選択領域410のように残ることになる。選択領域410が顔肌カテゴリ領域だけになると、処理階層を一つ下げる。ここでは第5階層に移り、領域制御部1600は、初期領域411を除いた図8(a)に示す小領域401、402、403を削除候補領域として、同様な縮小処理を続けていく。縮小処理を止めずに続けていけば、最終的には図11(a)に例示する初期領域411の状態まで戻ることができる。
For example, it is assumed that the area reduction operation is performed on the selected
ユーザは、領域拡張操作及び領域縮小操作を行いながら、所望の領域が得られた時点で領域選択終了操作を行い、領域拡張操作を止めればよい。
以上のようにして、階層的な意味的カテゴリに従って領域の拡張及び縮小を制御することにより、ユーザは、意味のある塊である領域を選択することが容易になる。このようにして得られる領域は、さまざまな画像処理に対して非常に有用である。
The user may stop the area expansion operation by performing the area selection end operation when a desired area is obtained while performing the area expansion operation and the area reduction operation.
As described above, by controlling the expansion and contraction of the area according to the hierarchical semantic category, the user can easily select the area which is a meaningful mass. The region thus obtained is very useful for various image processing.
図12は、本実施形態の画像処理の説明図である。図12における画像700の例で人物を一杯に含む領域をクロッピングしたければ以下のようになる。まず人物の内部領域を初期領域として設定し、領域拡張・縮小操作を行うことで図12(a)に例示する人物領域710が選択される。図12(b)に例示する選択領域の外接矩形720を算出することは容易である。これをもとに図12(c)に例示する人体領域730を一杯に含むようにクロッピングすることができる。同様にして、選択領域の外接矩形に合わせてズーム率を画面サイズに対して最適にすることも容易である。このようにして、本実施形態のように意味的カテゴリによる領域拡張及び縮小をユーザが自在に行うことができれば、ユーザの希望する範囲の領域に対して、自動的にクロッピングやズームの範囲を計算することができ、見切れや無駄な余白が発生することがなくなる。
FIG. 12 is an explanatory diagram of image processing of the present embodiment. In the example of the
(第2実施形態)
第1実施形態では、ユーザに指定された領域の拡張が、隣接領域を徐々に連結していくことで領域の選択が行われている。しかし、意味的な領域識別結果が得られていることにより、画像上の空間的な隣接関係に限定されずに、同一カテゴリの領域をまとめて選択することも可能である。本実施形態では、そのような飛び地による領域選択を可能とする。本実施形態の装置構成は、図1に示した第1実施形態と同様であるため、説明を省略する。また、本実施形態の学習処理も、図2に示した第1実施形態における学習処理と同様であるため、説明を省略する。
(Second Embodiment)
In the first embodiment, the area is selected by expanding the area designated by the user and gradually connecting the adjacent areas. However, since the semantic area identification result is obtained, it is possible to select the areas of the same category collectively without being limited to the spatial adjacency relationship on the image. In the present embodiment, it is possible to select an area by such an excursion. Since the apparatus configuration of this embodiment is the same as that of the first embodiment shown in FIG. 1, the description thereof will be omitted. Further, since the learning process of this embodiment is the same as the learning process of the first embodiment shown in FIG. 2, the description thereof will be omitted.
本実施形態の画像領域選択処理は、大まかな処理は図5(a)に示した第1実施形態における画像領域選択処理と同様である。本実施形態では、S1600の領域制御処理の詳細が第1実施形態とは異なる。本実施形態のS1600の領域制御処理は、第1実施形態で行われる領域拡張操作及び領地縮小操作に加えて、飛び地拡張操作及び飛び地縮小操作の2種類を加えた、計4種類の操作の組み合わせで行われる。 The image area selection process of the present embodiment is roughly the same as the image area selection process of the first embodiment shown in FIG. 5A. In the present embodiment, the details of the area control process of S1600 are different from those of the first embodiment. The area control process of S1600 of the present embodiment is a combination of a total of four types of operations, including two types of an excursion expansion operation and an excursion reduction operation in addition to the area expansion operation and the territory reduction operation performed in the first embodiment. It is done in.
図13は、本実施形態のS1600の領域制御処理を表すフローチャートである。S1690、S1610、S1615、S1620、及びS1630の処理は、図5(b)に示す第1実施形態の処理と同様である。本実施形態では、領域制御部1600が、ユーザによる操作内容を判断して次の処理を決定するS1615の処理により、領域拡張操作及び領域縮小操作に加えて、飛び地拡張操作及び飛び地縮小操作の判断を行う。
FIG. 13 is a flowchart showing the area control process of S1600 of the present embodiment. The processing of S1690, S1610, S1615, S1620, and S1630 is the same as the processing of the first embodiment shown in FIG. 5 (b). In the present embodiment, the
領域制御部1600は、ユーザが行った操作が領域拡張操作であればS1620の処理を行い、領域縮小操作であればS1630の処理を行い、ユーザが行った操作が領域選択終了操作であれば領域制御処理を終了する。領域制御部1600は、ユーザが行った操作が飛び地拡張操作であればS1640の飛び地拡張処理を行い、飛び地縮小操作であればS1650の飛び地縮小処理を行う。
The
領域拡張操作及び領域縮小操作は、図7(b)、7(c)で説明した操作である。図14は、飛び地拡張操作及び飛び地縮小操作の説明図である。図14(a)は、飛び地拡張操作を表す。図14(b)は、飛び地縮小操作を表す。領域拡張操作及び領域縮小操作が上下スライド操作であるのに対し(図7(b)、7(c)参照)、飛び地拡張操作及び飛び地縮小操作は、左右スライド操作である。ここでスライド方向の区別は上下左右のスライド方向の組み合わせで4つの操作が区別できればよく、上に書かれている組み合わせに限定されるものではない。飛び地拡張操作及び飛び地縮小操作は、図14(c)に示すように、空間的に離れた別領域の別の指によるタップ操作やダブルタップ操作などで行われてもよい。
領域拡張操作、領域縮小操作、飛び地拡張操作、及び飛び地縮小操作は、マウスを利用する場合、マウスの上下動作もしくは左右動作を組み合わせて行われてもよく、いずれかをスクロールウィールの回転操作と組み合わせ行われてもよい。あるいは、領域拡張操作、領域縮小操作、飛び地拡張操作、及び飛び地縮小操作は、AltキーやTabキーなどの特殊キーとの組み合わせによって行われてもよい。
The area expansion operation and the area reduction operation are the operations described with reference to FIGS. 7 (b) and 7 (c). FIG. 14 is an explanatory diagram of an excursion expansion operation and an excursion reduction operation. FIG. 14A shows an excursion expansion operation. FIG. 14B shows an excursion reduction operation. While the area expansion operation and the area reduction operation are up and down slide operations (see FIGS. 7 (b) and 7 (c)), the excursion expansion operation and the excursion reduction operation are left and right slide operations. Here, the distinction of the slide direction is not limited to the combination described above, as long as the four operations can be distinguished by the combination of the slide directions of up, down, left and right. As shown in FIG. 14C, the excursion expansion operation and the excursion reduction operation may be performed by a tap operation or a double tap operation with another finger in another spatially separated area.
When using a mouse, the area expansion operation, the area reduction operation, the excursion expansion operation, and the excursion reduction operation may be performed by combining the vertical movement or the left / right movement of the mouse, and any of them may be combined with the rotation operation of the scroll wheel. It may be done. Alternatively, the area expansion operation, the area reduction operation, the excursion expansion operation, and the excursion reduction operation may be performed in combination with a special key such as the Alt key or the Tab key.
S1640の処理では、領域制御部1600は、その時点における選択領域と同一カテゴリの小領域を、画像上の空間的な隣接関係にかかわらず、該選択領域に追加する。一つもしくは複数の小領域を追加すると、領域制御部1600は、S1690の処理に戻る。S1640の処理の具体例を以下に示す。
In the process of S1640, the
例えば、図10(c)の状態で飛び地拡張操作が行われる場合、S1640の処理は、図6(c)の第4階層の領域識別結果140において行われており、拡張中の領域カテゴリは顔カテゴリである。その時点の選択領域422に対して隣接する同一カテゴリの小領域は、図10(a)の小領域406だけであるが、飛び地拡張操作では設定領域との隣接関係と関係なく、同一階層内の同一カテゴリの小領域が連結候補となる。
For example, when the excursion expansion operation is performed in the state of FIG. 10 (c), the process of S1640 is performed in the
図15は、飛び地拡張操作の説明図である。図15(a)の左側人物の顔を構成する小領域407、408、409、411、412、413も、右側人物の小領域406に加えて、選択領域422の連結対象候補となる。左側人物の顔を構成する小領域407、408、409、411、412、413のうち、特徴が選択領域422に最も近い領域が連結される。
FIG. 15 is an explanatory diagram of the excursion expansion operation. The
領域制御部1600は、選択領域422と最も特徴の近い小領域(ここでは小領域407)を該選択領域422に加えた飛び地領域を含めたものを、新たな選択領域として更新する。図15(b)は、更新された選択領域471を例示する。選択領域471に対して最も特徴の近い小領域が小領域408の場合、次に得られる選択領域は、図15(c)に例示する選択領域472のようになる。残りの小領域406、409、411、412、413がそれぞれ追加されることで、この階層における選択領域は、最終的に図15(d)に例示する選択領域470のようになる。
The
図15(d)の状態で領域拡張操作が行われると、一段上の階層、ここでは第3階層、へと移って拡張処理が続けられることになる。この場合、領域制御部1600は、右側人物と左側人物それぞれの隣接領域に対して頭部カテゴリ領域を拡張していくことになる。そのため、この階層では最終的に図15(e)に例示する選択領域480が得られることになる。さらに領域拡張処理を続けると、第2階層では図11(f)に例示する選択領域450が得られる。
When the area expansion operation is performed in the state of FIG. 15D, the expansion process is continued by moving to the next higher layer, here, the third layer. In this case, the
S1650の処理では、領域制御部1600は、現時点の選択領域の中から、現時点の階層において初期領域と空間的に連結していない部分に関して、優先的に小領域を削除していく。領域制御部1600は、一つもしくは複数の小領域を選択領域から削除すると、S1690の処理へと戻る。S1650の処理の具体例を以下に示す。
In the process of S1650, the
ここでは、図15(d)に例示する選択領域470に対して飛び地縮小処理を行う場合について説明する。初期領域が右側人物の領域である場合、領域制御部1600は、左側人物の顔領域における小領域の中から、選択領域470全体に対して最も特徴の異なる小領域を取り除く。このようにして、左側人物の顔における小領域がすべて選択領域から除かれると、図11(c)に例示する選択領域420が残る。さらに飛び地縮小操作が続けられた場合、領域縮小処理と同様にして右側人物の顔領域に関する領域縮小処理が行われる。
Here, a case where the excursion reduction process is performed on the selected
以上のように領域拡張処理及び領域縮小処理に飛び地拡張処理及び飛び地縮小処理を併用することで、ユーザは、目的に応じて好みの領域を容易に選択することができる。例えば、図6(a)に例示する入力画像100において右側人物の体全体を選択したい場合、ユーザは、右側人物の内部領域を初期領域として選択する。情報処理装置は、この初期領域に基づいて領域拡張処理を続ける。図11(e)に例示する右側人物領域440が得られた時点でユーザが領域選択終了操作を行うことで、情報処理装置は、領域選択処理を終了する。
By using the excursion expansion process and the excursion reduction process together with the area expansion process and the area reduction process as described above, the user can easily select a favorite area according to the purpose. For example, when it is desired to select the entire body of the right person in the
また、左右人物の両方の顔だけを選択したい場合、ユーザは、いずれかの人物の顔領域内部をタップして初期領域として選択する。ユーザがその人物の顔領域が得られた時点で飛び地拡張操作を行うことで、情報処理装置は、もう一人の顔領域を含んだ選択領域を得ることができる。同様な操作によって、二人以上の人物領域を選択することも可能である。また、人物領域以外、例えば複数の自動車領域を同時選択する、といったことも可能であることは言うまでもない。 Further, when it is desired to select only the faces of both the left and right persons, the user taps the inside of the face area of either person to select it as the initial area. When the user performs the excursion expansion operation when the face area of the person is obtained, the information processing apparatus can obtain a selection area including another face area. It is also possible to select two or more person areas by the same operation. Needless to say, it is also possible to simultaneously select, for example, a plurality of automobile areas other than the person area.
(第3実施形態)
第1実施形態及び第2実施形態の領域制御時の処理単位となる小領域は、必ずしも所望の輪郭位置で分割されるとは限らない。例えば、黒髪の背景が暗い夜景であれば、髪と背景の領域が分割されずに一つの小領域となる可能性もある。本実施形態では、そのような場合に輪郭を修正して適切な小領域を得るようにする。本実施形態の装置構成は、図1に示した第1実施形態と同様であるため、説明を省略する。また、本実施形態の学習処理も、図2に示した第1実施形態における学習処理と同様であるため、説明を省略する。
(Third Embodiment)
The small area that is the processing unit during the area control of the first embodiment and the second embodiment is not always divided at a desired contour position. For example, if the background of black hair is a dark night view, the hair and background areas may not be divided into one small area. In this embodiment, the contour is modified in such a case to obtain an appropriate small area. Since the apparatus configuration of this embodiment is the same as that of the first embodiment shown in FIG. 1, the description thereof will be omitted. Further, since the learning process of this embodiment is the same as the learning process of the first embodiment shown in FIG. 2, the description thereof will be omitted.
本実施形態の画像領域選択処理は、大まかな処理は図5(a)に示した第1実施形態における画像領域選択処理と同様である。本実施形態では、S1600の領域制御処理の詳細が第1実施形態とは異なる。本実施形態のS1600の領域制御処理は、第2実施形態で行われる領域拡張操作、領地縮小操作、飛び地拡張操作、及び飛び地縮小操作に加えて、輪郭修正操作及び領域追加操作の2種類の操作を加えた、計6種類の操作の組み合わせで行われる。 The image area selection process of the present embodiment is roughly the same as the image area selection process of the first embodiment shown in FIG. 5A. In the present embodiment, the details of the area control process of S1600 are different from those of the first embodiment. The area control process of S1600 of the present embodiment includes two types of operations, a contour correction operation and an area addition operation, in addition to the area expansion operation, the territory reduction operation, the excelave expansion operation, and the excelave reduction operation performed in the second embodiment. It is performed by a combination of a total of 6 types of operations including.
図16は、本実施形態のS1600の領域制御処理を表すフローチャートである。S1690、S1610、S1615、S1620、S1630、S1640、及びS1650の処理は、図13に示す第2実施形態の処理と同様である。本実施形態では、領域制御部1600が、ユーザによる操作内容を判断して次の処理を決定するS1615の処理により、領域拡張操作、領地縮小操作、飛び地拡張操作、及び飛び地縮小操作に加えて、輪郭修正操作及び領域追加操作の判断を行う。
FIG. 16 is a flowchart showing the area control process of S1600 of the present embodiment. The processing of S1690, S1610, S1615, S1620, S1630, S1640, and S1650 is the same as the processing of the second embodiment shown in FIG. In the present embodiment, the
領域制御部1600は、ユーザが行った操作が領域拡張操作であればS1620の処理を行い、領域縮小操作であればS1630の処理を行い、ユーザが行った操作が領域選択終了操作であれば領域制御処理を終了する。領域制御部1600は、ユーザが行った操作が飛び地拡張操作であればS1640の処理を行い、飛び地縮小操作であればS1650の処理を行う。領域制御部1600は、ユーザが行った操作が輪郭修正操作であればS1660の処理を行い、領域追加操作であればS1670の処理を行う。
The
領域拡張操作、領域縮小操作、飛び地拡張操作、及び飛び地縮小操作は、図7及び図14で説明した操作である。図17は、輪郭修正操作の説明図である。図18は、領域追加操作の説明図である。 The area expansion operation, the area reduction operation, the excursion expansion operation, and the excursion reduction operation are the operations described with reference to FIGS. 7 and 14. FIG. 17 is an explanatory diagram of the contour correction operation. FIG. 18 is an explanatory diagram of the area addition operation.
図17(a)は、表示された入力画像800に対して領域拡張操作及び領域縮小操作を行った結果得られる領域850を示す。ここでユーザが本当に得たい領域は、輪郭810で表される。実際に得られている領域は、輪郭820で表される。そのため、輪郭810と輪郭820との間の領域は、不要領域となる。
図17(b)では、輪郭修正操作として、ユーザが、領域選択に用いた指とは別の指で、表示された入力画像800の不要領域部分に対してフリック操作を行っている。ここではフリック操作を輪郭修正操作としている。輪郭修正操作は、それ以外に、不要領域に対するタップ操作やダブルタップ操作であってもよい。情報処理装置は、輪郭修正操作を行った際にユーザが指定した不要領域の位置を、不要領域位置として記憶しておく。
FIG. 17A shows a
In FIG. 17B, as a contour correction operation, the user performs a flick operation on an unnecessary area portion of the displayed
領域制御部1600は、S1660の処理により、不要領域位置の付近の画像に対する小領域分割を再び行う。図17(c)は、選択された不要領域位置を含む小領域830を例示する。領域制御部1600は、この小領域830の内部で、小領域分割をさらに細かくするように領域分割パラメータを再設定し、図17(d)に例示するように、小領域830を細分割した小領域831、832を生成する。領域制御部1600は、細分割して生成した不要領域位置を含む小領域832に関してはどのカテゴリにも属さない、というフラグを付与し、領域拡張及び領域縮小処理の対象外として選択領域から除外する。領域制御部1600は、選択領域を更新するとS1690の処理に戻る。
The
領域追加操作について説明する。図18(a)は、入力画像900に対して領域拡張操作及び領域縮小操作を行った結果得られる領域950を示す。ここでユーザが本当に得たい領域は、輪郭910で表される。そのために、選択領域外に不足領域920が発生している。図18(b)では、領域追加操作として、ユーザは、領域選択に用いた指とは別の指で不足領域部分をロングタップする。情報処理装置は、領域追加操作を行った際にユーザが指定した位置を、追加領域位置として記憶しておく。
領域制御部1600は、S1670の処理により、指定された追加領域位置にある小領域のカテゴリ判定結果を、選択領域のカテゴリと一致するように置き換えて選択領域に追加する。領域制御部1600は、選択領域を更新するとS1690の処理に戻る。
The area addition operation will be described. FIG. 18A shows the
By the process of S1670, the
このような処理により、小領域の細分割による輪郭修正と、欠けている領域の追加とをユーザが簡単に行えることができるようになる。そのために、情報処理装置は、小領域分割や領域認識が不適切であっても、簡単な操作でより正確な領域を選択することができる。 By such a process, the user can easily correct the contour by subdividing the small area and add the missing area. Therefore, the information processing apparatus can select a more accurate area with a simple operation even if the small area division or the area recognition is inappropriate.
(第4実施形態)
第1〜第3実施形態では、画像の各小領域に対する領域識別結果として一つのカテゴリだけが得られるように説明したが、カテゴリの多義性を考慮して複数カテゴリが得られるようにしてもよい。本実施形態では、複数カテゴリの出力を許容する画像領域選択方法について説明する。なお、カテゴリの多義性とは、画像中の所定の領域について、所属するカテゴリが一意に決まらないような状態を指す。例えば、木の幹がむき出しで建てられているログハウスは、カテゴリとして自然物の木と判定されても、人工物の建物と判定されても差し支えない、といった場合がある。学習画像においてそのような領域があった場合には、領域カテゴリラベルとして複数のラベルが重複して付与される。
(Fourth Embodiment)
In the first to third embodiments, it has been described that only one category can be obtained as the area identification result for each small area of the image, but a plurality of categories may be obtained in consideration of the ambiguity of the categories. .. In this embodiment, an image area selection method that allows output of a plurality of categories will be described. The ambiguity of the category refers to a state in which the category to which the category belongs is not uniquely determined for a predetermined area in the image. For example, a log house with a bare tree trunk may be classified as a natural tree or an artificial building as a category. When there is such an area in the training image, a plurality of labels are duplicated as the area category label.
本実施形態では、学習処理において、領域識別器生成部2300が以下のような式により領域識別器の学習を行う。
In the present embodiment, in the learning process, the area
ここでC_(r,l)は、第l階層における小領域rに関して重複を許容して割り当てられた、カテゴリラベルインデックスの集合である。その他については、第1実施形態と同様の学習処理が行われる。 Here, C_ (r, l) is a set of category label indexes allocated to allow duplication with respect to the small area r in the first layer. Other than that, the same learning process as in the first embodiment is performed.
画像領域選択処理では、領域識別部1300が以下の式により各小領域kの領域識別結果を取得する。
In the image area selection process, the
ここでC_(k,l)は、第l階層における小領域kに関する識別結果となるカテゴリインデックスの集合である。θは所定の閾値であって、例えばθ=0.5などと設定される。これにより、入力画像の領域によっては複数のクラスラベルが識別結果として得られる場合が発生することになる。 Here, C_ (k, l) is a set of category indexes that are the identification results for the small area k in the first layer. θ is a predetermined threshold value, and is set, for example, θ = 0.5. As a result, a plurality of class labels may be obtained as identification results depending on the area of the input image.
第1〜第3実施形態で説明した領域拡張処理、領域縮小処理、飛び地拡張処理、飛び地縮小処理、輪郭修正処理、及び領域追加処理は、初期領域設定部1500によるS1500の初期領域設定処理でユーザが設定した初期領域にのみ依存する。そのために、上記のように各小領域に対して複数ラベルが割り当てられていても、同様の処理を行うことによって画像領域選択処理を実行することで、第1〜第3実施形態で説明した効果を得ることができる。
The area expansion processing, area reduction processing, excelave expansion processing, excelave reduction processing, contour correction processing, and area addition processing described in the first to third embodiments are the initial area setting processing of S1500 by the initial
(第5実施形態)
第1〜第4実施形態では、領域拡張及び領域縮小が、選択領域に対する小領域の追加及び削除により行われる。領域拡張及び領域縮小は、小領域単位で行う他に、画素単位で行われてもよい。この場合、領域制御部1600は、S1620の処理で、選択領域と隣接する同一カテゴリ画素の中で、選択領域に対して最も類似度の高い画素を追加する。このときに利用できる類似度としては、選択領域内の色分布を混合ガウス分布として表したときの、画素色輝度値の尤度を用いてもよい。同様にして領域制御部1600は、S1630の処理で、選択領域の一番外側の画素で、選択領域との類似度の最も低い画素を該選択領域から削除する。
(Fifth Embodiment)
In the first to fourth embodiments, the area expansion and the area reduction are performed by adding and deleting a small area to the selected area. The area expansion and area reduction may be performed in pixel units as well as in small area units. In this case, the
以上のような各実施形態では、事前知識を使って学習することによって得られる意味的なカテゴリに基づいて領域を設定するため、ボトムアップな領域成長と比べて正確な領域を選択することができる。また、意味的なカテゴリの上位/下位の概念に従って、さまざまなレベルの意味的な領域が選択可能である。これによりユーザは、画像中の領域を簡単に選択できるようになり、従来の点指定では煩雑であった領域単位のユーザインタフェースによる諸作業を簡単に行うことができるようになる。 In each of the above embodiments, the area is set based on the semantic category obtained by learning using prior knowledge, so that an accurate area can be selected as compared with bottom-up area growth. .. In addition, various levels of semantic areas can be selected according to the concept of upper / lower levels of semantic categories. As a result, the user can easily select an area in the image, and can easily perform various operations by the user interface for each area, which is complicated in the conventional point designation.
本発明は、上述の各実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。 The present invention supplies a program that realizes one or more functions of each of the above-described embodiments to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads the program. It can also be realized by the processing to be executed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
Claims (21)
取得した前記画像における領域を階層的に複数のカテゴリに識別する領域識別手段と、
前記画像を表示する表示手段と、
前記表示手段に表示された画像に対するユーザの操作に応じて、所定の位置の領域を選択領域の初期領域として設定する初期領域設定手段と、
ユーザの所定の操作に応じて、前記階層的なカテゴリ判定結果に従って前記選択領域の拡張及び縮小を行い、前記選択領域を更新する領域制御手段と、を備えることを特徴とする、
情報処理装置。 Image acquisition means to acquire images and
An area identification means for hierarchically identifying the area in the acquired image into a plurality of categories, and
A display means for displaying the image and
An initial area setting means for setting an area at a predetermined position as an initial area of a selection area according to a user's operation on an image displayed on the display means.
It is characterized by comprising an area control means for expanding and contracting the selected area according to the hierarchical category determination result according to a predetermined operation of the user and updating the selected area.
Information processing device.
ユーザの所定の第2操作に応じて、前記選択領域の中から初期領域を含まない領域を削除して該選択領域を縮小することを特徴とする、
請求項1記載の情報処理装置。 The area control means expands the area by combining the areas of the same category adjacent to the selected area in the same layer in accordance with a predetermined first operation of the user to the selected area.
The selected area is reduced by deleting an area that does not include the initial area from the selected area in accordance with a predetermined second operation of the user.
The information processing device according to claim 1.
請求項2記載の情報処理装置。 The area control means is characterized in that the first operation and the second operation are distinguished by the direction of a slide operation by a touch panel or a mouse.
The information processing device according to claim 2.
請求項2記載の情報処理装置。 The area control means is characterized in that the first operation and the second operation are distinguished by the pressure on the touch panel.
The information processing device according to claim 2.
請求項2記載の情報処理装置。 The area control means is characterized in that the first operation and the second operation are distinguished by a combination of a click by a mouse and a special key.
The information processing device according to claim 2.
請求項2記載の情報処理装置。 The area control means is characterized in that the first operation and the second operation are distinguished by switching a click operation with a mouse with a special key.
The information processing device according to claim 2.
請求項2記載の情報処理装置。 The area control means is characterized in that the first operation and the second operation are distinguished or switched by a combination of a long tap on a touch panel and a special key.
The information processing device according to claim 2.
請求項2記載の情報処理装置。 The area control means is characterized in that the first operation and the second operation are distinguished or switched by tapping the touch panel separately from the long tap and the menu.
The information processing device according to claim 2.
請求項2記載の情報処理装置。 The area control means is characterized in that the first operation and the second operation are distinguished according to a rotation operation of a scroll wheel in a mouse.
The information processing device according to claim 2.
ユーザの所定の第4操作に応じて、前記選択領域の中から前記初期領域に連結しない領域を優先的に削除することで該選択領域を縮小することを特徴とする、
請求項1〜9のいずれか1項記載の情報処理装置。 The area control means connects an area in the same category as the selected area including an area not connected to the initial area in the same layer to the selected area in accordance with a predetermined third operation of the user. Extend and
The selected area is reduced by preferentially deleting an area that is not connected to the initial area from the selected area in accordance with a predetermined fourth operation of the user.
The information processing device according to any one of claims 1 to 9.
請求項10記載の情報処理装置。 The area control means is characterized in that the third operation and the fourth operation are recognized by a slide operation using a touch panel or a mouse.
The information processing device according to claim 10.
請求項10記載の情報処理装置。 The area control means recognizes the third operation and the fourth operation according to the rotation operation of the scroll wheel in the mouse.
The information processing device according to claim 10.
請求項10記載の情報処理装置。 The area control means recognizes the third operation and the fourth operation by a tap operation on another area away from the selected area.
The information processing device according to claim 10.
請求項10記載の情報処理装置。 The area control means is characterized in that the third operation and the fourth operation are distinguished from the first operation and the second operation by a special key.
The information processing device according to claim 10.
ユーザの所定の第5操作に応じて、前記選択領域から不要領域を指定して、前記不要領域を領域分割することにより、該選択領域の輪郭を修正し、
ユーザの所定の第6操作に応じて、選択領域外から不足領域を指定して、前記不足領域のカテゴリを選択領域のカテゴリと一致させることにより、該不足領域を該選択領域に追加することを特徴とする、
請求項1〜14のいずれか1項記載の情報処理装置。 The area control means
By designating an unnecessary area from the selected area and dividing the unnecessary area into areas according to a predetermined fifth operation of the user, the contour of the selected area is corrected.
Adding the shortage area to the selection area by designating the shortage area from outside the selection area and matching the category of the shortage area with the category of the selection area according to a predetermined sixth operation of the user. Characteristic,
The information processing device according to any one of claims 1 to 14.
請求項15記載の情報処理装置。 The area control means recognizes the fifth operation by tapping or flicking the unnecessary area displayed on the touch panel.
The information processing device according to claim 15.
請求項15記載の情報処理装置。 The area control means is characterized in that the fifth operation and the sixth operation are recognized by an operation of clicking the unnecessary area with a mouse.
The information processing device according to claim 15.
請求項15〜17のいずれか1項記載の情報処理装置。 The area control means recognizes the sixth operation by tapping the insufficient area displayed on the touch panel.
The information processing device according to any one of claims 15 to 17.
画像を取得するステップと、
前記取得した画像における領域を階層的に複数のカテゴリに識別するステップと、
前記画像を表示するステップと、
表示された前記画像に対するユーザの操作に応じて、所定の位置の領域を選択領域の初期領域として設定するステップと、
ユーザの所定の操作に応じて、前記階層的なカテゴリ判定結果に従って前記選択領域の拡張及び縮小を行って、前記選択領域を更新するステップと、を含む、
画像領域選択方法。 Information processing device
Steps to get the image and
A step of hierarchically identifying areas in the acquired image into a plurality of categories,
The step of displaying the image and
A step of setting an area at a predetermined position as an initial area of a selection area according to a user's operation on the displayed image, and
Including a step of expanding and contracting the selected area according to the hierarchical category determination result according to a predetermined operation of the user and updating the selected area.
Image area selection method.
画像を取得する画像取得手段、
取得した前記画像における領域を階層的に複数のカテゴリに識別する領域識別手段、
前記画像を表示する表示手段、
前記表示手段に表示された画像に対するユーザの操作に応じて、所定の位置の領域を選択領域の初期領域として設定する初期領域設定手段、
ユーザの所定の操作に応じて、前記階層的なカテゴリ判定結果に従って前記選択領域の拡張及び縮小を行い、前記選択領域を更新する領域制御手段、
として機能させるためのコンピュータプログラム。 Computer,
Image acquisition means to acquire images,
Area identification means for hierarchically identifying areas in the acquired image into a plurality of categories,
Display means for displaying the image,
An initial area setting means that sets an area at a predetermined position as an initial area of a selection area according to a user's operation on an image displayed on the display means.
An area control means that expands and contracts the selected area according to the hierarchical category determination result according to a predetermined operation of the user, and updates the selected area.
A computer program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017212810A JP6949671B2 (en) | 2017-11-02 | 2017-11-02 | Information processing device, image area selection method, computer program, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017212810A JP6949671B2 (en) | 2017-11-02 | 2017-11-02 | Information processing device, image area selection method, computer program, and storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019086899A JP2019086899A (en) | 2019-06-06 |
JP6949671B2 true JP6949671B2 (en) | 2021-10-13 |
Family
ID=66764208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017212810A Active JP6949671B2 (en) | 2017-11-02 | 2017-11-02 | Information processing device, image area selection method, computer program, and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6949671B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114063858B (en) * | 2021-11-26 | 2023-03-17 | 北京百度网讯科技有限公司 | Image processing method, image processing device, electronic equipment and storage medium |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04114560A (en) * | 1990-09-04 | 1992-04-15 | Sharp Corp | Automatic document input device |
JP6395481B2 (en) * | 2014-07-11 | 2018-09-26 | キヤノン株式会社 | Image recognition apparatus, method, and program |
JP2017045331A (en) * | 2015-08-27 | 2017-03-02 | キヤノン株式会社 | Image processing method, image processor, and program |
JP6702716B2 (en) * | 2015-12-21 | 2020-06-03 | キヤノン株式会社 | Image processing device, image processing method, and program |
JP6873600B2 (en) * | 2016-03-04 | 2021-05-19 | キヤノン株式会社 | Image recognition device, image recognition method and program |
-
2017
- 2017-11-02 JP JP2017212810A patent/JP6949671B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019086899A (en) | 2019-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11797847B2 (en) | Selecting instances of detected objects in images utilizing object detection models | |
US12020414B2 (en) | Utilizing deep neural networks to automatically select instances of detected objects in images | |
CA2866362C (en) | Image processing apparatus, image processing method, and computer-readable recording medium for dividing image data into a foreground area and a background area | |
JP6089886B2 (en) | Region dividing method and inspection apparatus | |
US20210272253A1 (en) | Automatically merging people and objects from multiple digital images to generate a composite digital image | |
US20220101578A1 (en) | Generating composite images with objects from different times | |
US11972528B2 (en) | Method and computer program product for processing model data of a set of garments | |
US20240144623A1 (en) | Modifying poses of two-dimensional humans in two-dimensional images by reposing three-dimensional human models representing the two-dimensional humans | |
US20240153047A1 (en) | Modifying digital images utilizing intent deterministic user interface tools | |
JP6949671B2 (en) | Information processing device, image area selection method, computer program, and storage medium | |
AU2023270203A1 (en) | Detecting object relationships and editing digital images based on the object relationships | |
AU2023270205A1 (en) | Dilating object masks to reduce artifacts during inpainting | |
AU2023233192A1 (en) | Removing distracting objects from digital images | |
US20240144586A1 (en) | Generating shadows for objects in two-dimensional images utilizing a plurality of shadow maps | |
AU2023210622A1 (en) | Learning parameters for neural networks using a semantic discriminator and an object-level discriminator | |
US20240169624A1 (en) | Modifying digital images via scene-based editing using image understanding facilitated by artificial intelligence | |
US20240169685A1 (en) | Detecting shadows and corresponding objects in digital images | |
US20240168617A1 (en) | Detecting and modifying object attributes | |
US20240169630A1 (en) | Synthesizing shadows in digital images utilizing diffusion models | |
US20240265692A1 (en) | Generating semantic scene graphs utilizing template graphs for digital image modification | |
US20240257421A1 (en) | Generating and using behavioral policy graphs that assign behaviors to objects for digital image editing | |
US20240256218A1 (en) | Modifying digital images using combinations of direct interactions with the digital images and context-informing speech input | |
US20240135612A1 (en) | Generating shadows for placed objects in depth estimated scenes of two-dimensional images | |
US20240127509A1 (en) | Generating scale fields indicating pixel-to-metric distances relationships in digital images via neural networks | |
AU2023210621A1 (en) | Iteratively modifying inpainted digital images based on changes to panoptic segmentation maps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210824 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210922 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6949671 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |