CN103578125A

CN103578125A - 图像处理设备、图像处理方法和程序

Info

Publication number: CN103578125A
Application number: CN201310334356.4A
Authority: CN
Inventors: 弗兰克·尼尔森
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-08-09
Filing date: 2013-08-02
Publication date: 2014-02-12
Anticipated expiration: 2033-08-02
Also published as: CN103578125B; US20140047367A1; JP2014035656A; US9632678B2

Abstract

本公开涉及一种图像处理设备、图像处理方法和程序。该图像处理设备包括：获取部，其被配置来获取由用户为了指定区域选择而在输入图像上指定的位置信息；以及选择区域计算部，其被配置来在作为由在所述输入图像中的对象形成的透视投影平面的对象平面和正交轴平面之间的变换矩阵的计算结果中，使用与由所述用户指定的所述位置信息对应的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

Description

图像处理设备、图像处理方法和程序

技术领域

本技术涉及图像处理设备、图像处理方法和程序。具体地说，本技术涉及向用户提供允许用户选择期望的区域的区域指定方法的图像处理设备、图像处理方法和程序。

背景技术

在编辑图像等中，在指定预定区域的情况下，用户通常使用的方法是通过点击和拖动操作来指定两个点，并且将在对角线方向上具有两个指定点的矩形确定为指定区域（例如，参见日本未审查专利申请公报No.2000-172391（第0004段））。

发明内容

然而，在图像之间，例如在街景的照片等的情况下，存在其中在图像中的对象（在透视绘图中）被透视地表示的大量图像。在这样的图像中，用户经常发现难以通过使用现有技术的点击和拖动方法指定两个点来选择期望的区域。例如，在图1A中所示的图像中，在指定其上显示“NEWCOURT”的标牌中指定字符“NEW”的区域的情况下，该指定通过现有技术方法变为如图1B中所示，使得用户难以成功地指定字符“NEW”的区域。即，透视地在倾斜的平面中表示在图像中的对象，而用户被允许总是通过现有技术的方法仅使用矩形来指定区域。因此，用户难以适当地选择原本要指定的区域。

已经鉴于这样的情况而做出了本技术。期望提供一种指定区域的方法，该方法允许用户适当地选择期望的区域。

根据本公开的实施例，提供了一种图像处理设备，包括：获取部，其被配置来获取由用户为了指定区域选择而在输入图像上指定的位置信息；以及选择区域计算部，其被配置来在作为由在所述输入图像中的对象形成的透视投影平面的对象平面和正交轴平面之间的变换矩阵的计算结果中，使用与由所述用户指定的所述位置信息对应的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

根据本公开的实施例，提供了一种用于处理图像的方法，所述方法包括：获取由用户为了指定区域选择而在输入图像上指定的位置信息；以及在作为由在所述输入图像中的对象形成的透视投影平面的对象平面和正交轴平面之间的变换矩阵的计算结果中，使用与由所述用户指定的所述位置信息对应的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

根据本公开的实施例，提供了一种程序，用于使得计算机执行处理，所述处理包括：获取由用户为了指定区域选择而在输入图像上指定的位置信息；以及在作为由在所述输入图像中的对象形成的透视投影平面的对象平面和正交轴平面之间的变换矩阵的计算结果中，使用与由所述用户指定的所述位置信息对应的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

在本技术的实施例中，获取由用户为了指定区域选择而在输入图像上指定的位置信息；以及在作为由在所述输入图像中的对象形成的透视投影平面的对象平面和正交轴平面之间的变换矩阵的计算结果中，使用与由所述用户指定的所述位置信息对应的所述对象平面来计算在所述对象平面中的区域，作为由所述用户选择的区域。

在这一点上，能够通过经由传输介质传输程序来提供该程序，或者通过将该程序记录在记录介质上而提供该程序。

所述图像处理设备可以是独立的设备，或者可以是在一个设备中包括的内部块。

通过本技术的实施例，能够提供一种指定区域的方法，该方法允许用户适当地选择期望的区域。

附图说明

图1A和1B是选择区域的现有技术方法的说明图；

图2是图示本技术适用的根据实施例的图像处理设备的配置的示例的框图；

图3是由在图2中的图像处理设备进行的区域选择的示例的说明图；

图4是图示由在图2中的图像处理设备进行的透视区域选择处理的流程图；

图5是图示作为在图4中的步骤S1执行的凸四边形提取处理的细节的流程图；

图6A和6B是区域划分处理的说明图；

图7是在步骤S25中的处理的说明图；

图8是在步骤S26中的处理的说明图；

图9是图示作为在图4中的步骤S2执行的分层结构建立处理的细节的流程图；

图10是在步骤S43中的处理的说明图；

图11是在步骤S47中的处理的说明图；

图12是图示作为在图4中的步骤S5执行的区域确定处理的细节的流程图；

图13是图示在步骤S64中的处理的细节的图；

图14是图示本技术的概念的图；

图15是图示透视区域选择处理适用的应用的示例的图；

图16是图示透视区域选择处理适用的应用的示例的图；以及

图17是图示本技术适用的根据实施例的计算机的配置的示例的框图。

具体实施方式

图像处理设备的配置的示例

图2是图示本技术适用的、根据实施例的图像处理设备的配置的示例的框图。

图像处理设备1包括输入图像获取部11、凸四边形提取部12、分层结构建立部13、单应矩阵计算部14、凸四边形存储部15、用户操作信息获取部16、选择区域计算部17和选择区域显示控制部18。

图像处理设备1是提供区域指定用户界面的设备，该区域指定用户界面用于使得用户基于通过点击和拖动操作指定的两个点的位置信息来将斜区域透视地指定为用户选择区域。通过图像处理设备1，例如，在图1A中所示的图像中指定标牌中的字符“NEW”的区域的情况下，能够如图3中所示适当地指定字符“NEW”。通过图像处理设备1变得可能的这样的选择区域的方法被称为透视的区域选择（透视区域选择）。

输入图像获取部11获取要编辑的输入图像，并且向凸四边形提取部12供应输入图像。

凸四边形提取部12提取在输入图像中存在的凸四边形。更具体地，凸四边形提取部12在图像中搜索对象形状，该对象形状可以在输入图像中被近似为凸四边形，并且凸四边形提取部12将对象提取为凸四边形。凸四边形对应于（在透视绘图中）透视绘制的在输入图像中的对象中包括的平面，并且因此，凸四边形提取部12识别在输入图像中的对象中包括的对象平面（透视投影平面）。

在这一点上，凸四边形表示其所有顶点的内角小于180度的四边形。在这一点上，具有至少一个超过180度的顶点的内角的四边形是与凸四边形相反的凹四边形。

分层结构建立部13建立分层结构，该分层结构用于表示通过凸四边形提取部12从输入图像提取的所有凸四边形的包含关系（嵌套结构）。具体地说，例如，在由凸四边形提取部12提取的第一凸四边形和第二凸四边形中，如果在第一凸四边形中包括第二凸四边形，则分层结构建立部13将第二凸四边形定位为在第一凸四边形的下级分层中的凸四边形。分层结构建立部13查看所有提取的凸四边形的这样的包含关系，并且建立凸四边形的分层结构。

在这一点上，如果由凸四边形提取部12提取的第一凸四边形和第二凸四边形两者具有其中仅两个四边形的一部分重叠的位置关系，则分层结构建立部13从要记录凸四边形排除第一凸四边形和第二凸四边形的任何一个。

单应矩阵计算部14计算：单应矩阵H，该单应矩阵H将其分层结构已经被分层结构建立部13建立的多个凸四边形的每一个投影变换为其每边长度是1的单位正方形；以及单应逆矩阵H_-1，其执行逆投影变换。

单应矩阵是当在第一平面中的四边形被投影变换为在与第一平面不同的第二平面中的四边形时的变换矩阵。单应矩阵由3×3矩阵表示，并且如果给出在第一平面和第二平面中的四个对应点，则能够通过求解被指配四个对应点的变换表达式的联立方程来获得单应矩阵。

在本实施例中，单应矩阵计算部14在下述假设下计算单应矩阵H及其逆矩阵H^-1：在第一平面中的四边形是从输入图像检测的凸四边形，并且在第二平面中的四边形是在与输入图像相同的平面中的单位正方形。

通过下面的表达式来表示单应矩阵H。

H = [\begin{matrix} h_{11} & h_{12} & h_{13} \\ h_{21} & h_{22} & h_{23} \\ h_{31} & h_{32} & h_{33} \end{matrix}]

如果假定与在第一平面中的四个点(x₁,y₁)、(x₂,y₂)、(x₃,y₃)和(x₄,y₄)对应的、在第二平面中的点是(x₁',y₁')、(x₂',y₂')、(x₃',y₃')和(x₄',y₄')，则该四个对应点被赋值其中的变换表达式可以被表达如下。

[\begin{matrix} x_{1} & y_{1} & 1 & 0 & 0 & 0 & - x_{1} {x_{1}}^{,} & - y_{1} {x_{1}}^{,} \\ 0 & 0 & 0 & x_{1} & y_{1} & 1 & - x_{1} {y_{1}}^{,} & - y_{1} {y_{1}}^{,} \\ x_{2} & y_{2} & 1 & 0 & 0 & 0 & - x_{2} {x_{2}}^{,} & - y_{2} {x_{2}}^{,} \\ 0 & 0 & 0 & x_{2} & y_{2} & 1 & - x_{2} {y_{2}}^{,} & - y_{2} {y_{2}}^{,} \\ x_{3} & y_{3} & 1 & 0 & 0 & 0 & - x_{3} {x_{3}}^{,} & - y_{3} {x_{3}}^{,} \\ 0 & 0 & 0 & x_{3} & y_{3} & 1 & - x_{3} {y_{3}}^{,} & - y_{3} {y_{3}}^{,} \\ x_{4} & y_{4} & 1 & 0 & 0 & 0 & - x_{4} {x_{4}}^{,} & - y_{4} {x_{4}}^{,} \\ 0 & 0 & 0 & x_{4} & y_{4} & 1 & - x_{4} {y_{4}}^{,} & - y_{4} {y_{4}}^{,} \end{matrix}] \times [\begin{matrix} h_{11} \\ h_{12} \\ h_{13} \\ h_{21} \\ h_{22} \\ h_{23} \\ h_{31} \\ h_{32} \end{matrix}] = [\begin{matrix} {x_{1}}^{,} \\ {y_{1}}^{,} \\ {x_{2}}^{,} \\ {y_{2}}^{,} \\ {x_{3}}^{,} \\ {y_{3}}^{,} \\ {x_{4}}^{,} \\ {y_{4}}^{,} \end{matrix}]

在排除h₃₃的单应矩阵H的元素是h'的假设下，该表达式被表达如下。

B×h'=b

并且，通过下面的表达式来获得h'。

h'=B^-1×b

并且，能够假设h₃₃=1，并且因此，获得单应矩阵H。

通过对于从输入图像检测的凸四边形执行投影变换而产生的四边形可以是任何矩形。然而，将该四边形确定为单位正方形，并且因此，能够简化单应矩阵H和逆矩阵H^-1的计算。

凸四边形存储部15存储关于从输入图像检测的凸四边形的信息。具体地说，凸四边形存储部15存储从输入图像检测的多个凸四边形的独立分量信息（四个点的坐标）、单应矩阵H和单应逆矩阵H_-1、以及已经被分层结构建立部13建立的凸四边形的分层结构信息。在这一点上，在凸四边形存储部15中未存储因为与其他凸四边形的重叠位置关系而已经被分层结构建立部13排除的凸四边形。以下，在凸四边形存储部15中存储（记录）的凸四边形被称为记录凸四边形。

用户操作信息获取部16获取关于由用户指定来用于区域选择的位置的信息来作为用户操作信息，并且将该信息供应到选择区域计算部17。具体地说，用户操作信息获取部16获取在附图中未示出的、已经被用户在显示器上使用点击和拖动操作指定的、在输入图像中的两个点的位置（坐标），并且向选择区域计算部17供应该位置。

在此，在通过点击和拖动操作指定的两个点中，假定用户首先点击的在输入图像中的位置是p₁=(x₁,y₁)，并且其上用户在进行拖动操作并且在释放（释放手指）的时间点的在输入图像中的位置是p₃=(x₃,y₃)(x₁<x₃)。

选择区域计算部17基于作为用户操作信息已经从用户操作信息获取部16供应的p₁=(x₁,y₁)和p₃=(x₃,y₃)来计算在用户选择区域中包括的凸四边形。在用户选择区域中包括的凸四边形包括在顺时针方向上的p₁=(x₁,y₁),p₂=(x₂,y₂)、p₃=(x₃,y₃)和p₄=(x₄,y₄)。因此，点p₁和点p₃是在对角线方向上的两个点，并且，点p₂和点p₄是在对角线方向上的两个点。

作为具体处理，选择区域计算部17检测由用户首先在输入图像中点击的点p₁所属的记录凸四边形。选择区域计算部17使用所检测的记录凸四边形的单应矩阵H和单应逆矩阵H^-1来计算在选择的区域中的两个剩余点p₂和p₄。从选择区域计算部17向选择区域显示控制部18供应形成所选择的区域的四个点的信息，即，点p₁、点p₂、点p₃和点p₄的位置。

选择区域显示控制部18显示基于由用户在显示器的输入图像上的点击和拖动操作而确定的选择区域。例如，如图3中所示，通过相对于原始输入图像改变所确定的选择区域的外围颜色或内部颜色来在输入图像上显示所确定的选择区域。其后，允许用户在必要时对于选择区域执行图像编辑处理，诸如复制、粘贴和删除等。

如上所述配置图像处理设备1。

透视区域选择处理流程

接下来，将参考在图4中的流程图来描述作为图像处理设备1进行的区域选择处理的透视区域选择处理。例如当作为输入图像向图像处理设备1内输入预定图像时开始该处理。

首先，在步骤S1中，凸四边形提取部12执行凸四边形提取处理，以检测在输入图像中包括的凸四边形的形状，并且将该形状提取为凸四边形。关于多个凸四边形的每一个配置信息与输入图像一起被供应到分层结构建立部13。下面参考图5来详细说明凸四边形提取处理。

在步骤S2中，分层结构建立部13执行分层结构建立处理，用于建立由凸四边形提取部12从输入图像提取的凸四边形的分层结构。向凸四边形存储部15供应作为分层结构建立处理的处理结果的、用于指示凸四边形的分层结构的信息（分层结构信息）。向单应矩阵计算部14供应在分层结构中包括的独立凸四边形的配置信息。下面参考图9来详细说明分层结构建立处理。

在步骤S3中，单应矩阵计算部14计算：单应矩阵H，通过该单应矩阵H，对于在分层结构中包括的凸四边形的每一个将凸四边形投影变换为单位正方形；以及单应逆矩阵H^-1，它是其逆矩阵。

在步骤S4中，凸四边形存储部15存储关于从输入图像检测的凸四边形的信息。具体地说，凸四边形存储部15存储从输入图像检测的多个独立凸四边形的配置信息（四个点的坐标）、单应矩阵H、单应逆矩阵H^-1和凸四边形的分层结构信息。

在步骤S5中，选择区域计算部17执行区域确定处理，用于基于在从用户操作信息获取部16供应的输入图像中的位置p₁和位置p₃来确定透射投影选择区域。在显示器上的输入图像中显示所确定的选择区域，并且，结束区域确定处理。下面参考图12来详细描述该处理。

当结束在步骤S5中的区域确定处理时，结束透视区域选择处理。

凸四边形提取处理的详细流程

接下来，将参考在图5中的流程图来详细描述作为在图4中的步骤S1执行的凸四边形提取处理。

首先，在步骤S21中，凸四边形提取部12多次执行区域划分处理，该区域划分处理基于输入图像的每一个像素的颜色信息将输入图像划分为多个区域。在多次执行的区域划分处理中，对于每一个处理不同地设置确定区域划分的粒度的缩放参数。因此，在步骤S21中，使用不同的缩放参数多次执行输入图像的区域划分处理。

对于用于将输入图像划分为多个区域的区域划分处理，能够使用例如已经被本公开的发明人提出的SRM（统计区域合并：统计区域划分）。下文公开了SRM的细节：Nock,R.,Nielsen,F.,2004.,Statistical regionmerging,IEEE Transactions on Pattern Analysis and Machine Intelligence26(11),1452_1458。在这一点上，区域划分处理不限于SRM，并且能够使用任何区域划分处理。

图6A图示利用特定的缩放参数使用在图1A中所示的图像来作为输入图像而执行的区域划分处理的处理结果。图6B是通过二值化在图6A中的处理结果以容易区分独立区域的边界而产生的图。

能够通过下述方式来获得对于在输入图像中的每个小对象划分的区域或对于作为一组小对象的每一个大对象划分的区域：使用不同地改变的缩放参数多次执行区域划分处理。

接下来，在步骤S22中，凸四边形提取部12提取独立区域划分图像的外部轮廓，作为使用不同地改变的缩放参数的区域划分处理的结果图像。在此，外部轮廓表示通过下述方式产生的剩余轮廓：在区域划分图像中检测的轮廓中去除在其他轮廓内以闭合方式存在的内部轮廓。

在步骤S23中，凸四边形提取部12从在步骤S22中提取的多个轮廓中选择预定的一个轮廓。

在步骤S24中，凸四边形提取部12检测在所选择的轮廓的线段中彼此具有最长距离的两个点，将该两个点确定为点p₁和点p₃，并且计算该轮廓的直径d=[p₁p₃]。在此，[p₁p₃]表示在两个点p₁和p₃之间的直接距离的计算。在这一点上，凸四边形提取部12将在所选择的轮廓的线段中检测的两个点中的两个点p₁和点p₃中的具有较小x坐标的点确定为点p₁。

在步骤S25中，如图7中所示，凸四边形提取部12从连接所确定的两个点p₁和p₃的线确定在上边上最远的点p₂和在下边上最远的点p₄。

在步骤S26中，凸四边形提取部12计算在所选择的轮廓和包括四个点p₁、p₂、p₃和p₄的四边形(p₁,p₂,p₃,p₄)之间的距离DIS。

距离DIS对应于评估函数，该评估函数评估是否能够通过四边形来近似所选择的轮廓。对于距离DIS，例如，如图8中所示，能够使用通过下述方式产生的独立距离的平均值（平均距离）：将以预定间隔在四边形(p₁,p₂,p₃,p₄)的独立边中采样的多个点垂直地延伸到轮廓。此外，对于距离DIS，能够使用在下述两个部分之间的豪斯道夫距离等：通过以预定间隔采样四边形(p₁,p₂,p₃,p₄)的独立边而产生的一组多个点；以及通过以预定间隔采样所选择的轮廓而产生的一组多个点。

在步骤S27中，凸四边形提取部12确定距离DIS的计算结果是否小于或等于预定阈值Th。能够将阈值Th确定为例如四边形(p₁,p₂,p₃,p₄)的直径d=[p₁p₃]的预定比率（例如，5%）等。

在步骤S27中，如果确定距离DIS的计算结果是预定阈值Th或更小，则处理进行到步骤S28。并且，凸四边形提取部12使用与所选择的轮廓对应的四边形(p₁,p₂,p₃,p₄)来作为要在凸四边形存储部15中记录凸四边形（记录凸四边形）的候选。

另一方面，在步骤S27中，如果确定距离DIS的计算结果大于预定阈值Th，则跳过在步骤S28中的处理，并且，处理进行到步骤S29。因此，如果距离DIS的计算结果大于预定阈值Th，则与所选择的轮廓对应的四边形(p₁,p₂,p₃,p₄)不变为记录凸四边形的候选。

在步骤S29中，凸四边形提取部12确定是否已经选择了在步骤S22中执行的所有轮廓。

在步骤S29中，如果确定还没有选择所提取的所有轮廓，则处理返回到步骤S23，并且，重复上述处理。即，重复下述处理：其中，选择从在步骤S22中提取的多个轮廓还没有被选择的轮廓，并且根据预定确定条件将通过所选择的轮廓产生的四边形用作记录凸四边形的候选。

另一方面，在步骤S29中，如果确定已经选择了所有提取的轮廓，则结束凸四边形提取处理，并且处理返回到图4。

如上所述，在凸四边形提取处理中，输入图像进行区域划分处理，提取对象的轮廓，并且基于提取的轮廓来提取（识别）在对象中包括的凸四边形。

在这一点上，在上述的凸四边形提取处理中，在从输入图像提取的轮廓中，确定是否仅外部轮廓可以是记录凸四边形的候选。然而，可以以相同的方式来确定内部轮廓是否可以是候选。

分层结构建立处理的详细流程

接下来，参考在图9中的流程图来详细说明在图4的步骤S2中执行的分层结构建立处理。

在分层结构建立处理中，首先，在步骤S41中，分层结构建立部13在分层结构的最上层中的根凸四边形处设置具有与输入图像相同的大小的矩形。

在步骤S42中，分层结构建立部13在通过如上所述的步骤S1中的凸四边形提取处理而提取的多个记录凸四边形的候选中选择预定的一个候选。

在步骤S43中，分层结构建立部13确定现在所选择的记录凸四边形的候选是否与其他记录凸四边形部分重叠。

如下所述，对于通过凸四边形提取处理提取的记录凸四边形的所有候选执行从步骤S42至S46的处理。基于特定条件将（在步骤S42中选择的）先前执行的记录凸四边形的候选依序存储为记录凸四边形。在步骤S43中，确定现在选择的记录凸四边形的候选是否与先前存储的记录凸四边形部分重叠。在步骤S43的第一处理中，没有记录凸四边形，并且因此确定现在选择的记录凸四边形的候选不与其他记录凸四边形部分重叠。

在此，部分重叠表示其中两个凸四边形在彼此部分重叠的状态中的位置关系。如果两个凸四边形根本不彼此重叠，以及如果凸四边形的另一个完全位于凸四边形之一内，并且因此凸四边形的所述之一包括凸四边形的该另一个，则将该两个凸四边形确定为不彼此部分重叠。

在步骤S43中，如果确定现在选择的记录凸四边形的候选不与其他记录凸四边形部分重叠，则处理进行到步骤S44。并且，分层结构建立部13将现在选择的记录凸四边形的候选向凸四边形存储部15内存储为记录凸四边形。

另一方面，在步骤S43中，如果确定现在选择的记录凸四边形的候选与其他记录凸四边形部分重叠，则处理进行到步骤S45，并且，分层结构建立部13删除现在选择的记录凸四边形的候选。因此，如果现在选择的记录凸四边形的候选与其他记录凸四边形部分重叠，则不将凸四边形存储为记录凸四边形。

例如，如图10中所示，假定设置了根凸四边形Q1，并且凸四边形提取处理已经提取了凸四边形Q2至Q9来作为记录凸四边形的候选。

在图10中所示的状态中，凸四边形Q5和凸四边形Q6部分重叠。因此，在步骤S42中，如果假定以凸四边形Q2、Q3、Q4、…的顺序选择了凸四边形，则凸四边形Q6与预先记录的凸四边形Q5重叠，并且因此，删除凸四边形Q6。

在这一点上，在图10中的凸四边形Q2至Q9中，凸四边形Q4仅位于凸四边形Q3内，并且因此，在凸四边形Q3中包括凸四边形Q4。此外，凸四边形Q8和Q9仅位于凸四边形Q7内，并且因此凸四边形Q8和Q9被包括在凸四边形Q7中。

在步骤S46中，分层结构建立部13确定是否已经选择了通过凸四边形提取处理提取的记录凸四边形的所有候选，即，记录凸四边形的所有候选是否已经进行了部分重叠的验证。

在步骤S46中，如果确定还没有选择记录凸四边形的所有候选，则处理返回到步骤S42，并且再一次执行在如上所述的步骤S42至S46中的处理。即，接下来选择还没有被选择的记录凸四边形的候选，并且，确定该候选是否与预先记录的凸四边形（记录凸四边形）部分重叠。

另一方面，在步骤S46中，如果确定已经选择了记录凸四边形的所有候选，则处理进行到步骤S47。并且，分层结构建立部13基于记录凸四边形的包含关系来建立记录凸四边形的分层结构。即，如果凸四边形之一包括凸四边形的另一个，则分层结构建立部13将凸四边形的另一个定位在包括凸四边形的该另一个的该一个凸四边形的下级位置处，并且从根凸四边形起以分层结构来分层所有记录凸四边形。

图11图示当对于在图10中所示的凸四边形Q2至Q9建立分层结构时的结果（注意，排除部分重叠的凸四边形Q6）。在该情况下，将根凸四边形Q1构造为最上的第一分层，将凸四边形Q2、Q3、Q5和Q7构造为第二分层，并且将凸四边形Q4、Q8和Q9构造为第三分层。

在步骤S47中，分层结构建立部13使得凸四边形存储部15存储基于作为分层结构信息的记录凸四边形的包含关系来建立记录凸四边形的分层结构的结果，并且结束分层结构建立处理。在结束分层结构建立处理后，处理返回到图4。

区域确定处理的详细流程

接下来，将参考在图12中的流程图来详细描述作为在图4中的步骤S5执行的区域确定处理。

在区域确定处理中，首先，在步骤S61中，选择区域计算部17获得从用户操作信息获取部16供应的位置(x₁,y₁)，以便检测已经被用户首先点击的在输入图像中的位置(x₁,y₁)，并且将该点确定为点p₁=(x₁,y₁)。

在步骤S62中，选择区域计算部17在包括点p₁的记录凸四边形中检测在最低分层中的记录凸四边形。

能够例如通过下面的方法来检测包括点p₁的记录凸四边形。

为了检查特定点b是否位于包括点b₁、点b₂、点b₃和点b₄的凸四边形(b₁,b₂,b₃,b₄)内，应当对于下面的四种集查看在集中的三个点是否全部被顺时针布置：

(b₁,b₂,b)、(b₂,b₃,b)、(b₃,b₄,b)和(b₄,b₁,b)。

并且，例如，可以通过计算下面的2×2行列式det来查看是否顺时针地布置该三个点(b₁,b₂,b)。如果行列式det大于0（det>0）则该三个点(b₁,b₂,b)的布置表示顺时针。

\det = | [\begin{matrix} x_{1} - x & x_{2} - x \\ y_{1} - y & y_{2} - y \end{matrix}] |

b₁=(x₁,y₁),b₂=(x₂,y₂),b=(x,y)

对于剩余的三种三个点，执行相同的计算，并且能够查看是否顺时针地布置三个点。

选择区域计算部17能够通过上述方法查看记录凸四边形是否从在分层结构中的下级侧的记录凸四边形依序包括点p₁，并且在包括点p₁的记录凸四边形中检测在最低分层中的记录凸四边形。在这一点上，检测包括点p₁的记录凸四边形的方法不限于上述方法，并且可以使用另一种方法。

作为结果获得的、包括点p₁的在最低分层中的记录凸四边形是与用户已经点击的位置对应的记录凸四边形，并且因此以下被称为对应的凸四边形。

在这一点上，如果没有与用户已经首先点击的点p₁对应的对应凸四边形，则将根凸四边形用作对应的凸四边形。在该情况下，所选择的区域以与指定区域的一般方法相同的方式变为矩形。

替代地，如果没有与用户已经首先点击的点p₁对应的对应凸四边形，则使用多种缩放参数集仅对于在输入图像中的围绕点p₁的预定区域再一次执行区域划分处理，并且可以再一次搜索作为在输入图像中的凸四边形的对象形状。

在步骤S63中，选择区域计算部17获得从用户操作信息获取部16供应的在拖动操作过程中的位置(x₃,y₃)，以便检测在拖动操作的过程中在输入图像中的位置(x₃,y₃)，并且将那个位置确定为点p₃=(x₃,y₃)。

在步骤S64中，选择区域计算部17使用来自凸四边形存储部15的对应的凸四边形的单应矩阵H及其逆矩阵H^-1来计算选择区域的剩余两个点p₂和p₄。

将参考图13来详细描述在步骤S64中的处理。即，将说明当用户通过使用点击和拖动操作来获得在输入图像中的两个点p₁和p₃时计算透视选择区域的剩余两个点p₂和p₄的方法。

在此，如上所述，在通过用户的点击和拖动操作确定的在输入图像中的两个点p₁=(x₁,y₁)和p₃=(x₃,y₃)中，点p₁位于在图像中的点p₃的左侧。即，在x₁和x₃之间的量值关系是x₁<x₃。

首先，选择区域计算部17获得已经通过根据对应的凸四边形的单应矩阵H来将在对象平面中的两个点p₁和p₃投影变换在正交轴平面（isothetic plane）上而产生的点p₁'和p₃'，该正交轴平面与输入图像共面。

即，使用通过三维化两个点p₁和p₃而产生的如下的点p₁～和p₃～，

p_{1}^{~} = (\begin{matrix} x_{1} \\ y_{1} \\ w_{1} \end{matrix}) = (\begin{matrix} x_{1} \\ y_{1} \\ 1 \end{matrix}),

p_{3}^{~} = (\begin{matrix} x_{3} \\ y_{3} \\ w_{3} \end{matrix}) = (\begin{matrix} x_{3} \\ y_{3} \\ 1 \end{matrix})

通过下面的表达式来获得在正交轴平面中的点p₁～'和p₃～'。

p₁～'=Hp₁～,p₃～'=Hp₃～

能够通过下面的表达式来将在三维坐标系中的点p～'返回（去一元化（dehomogeneize））为在二维坐标系中的点p'：

并且因此，能够以与下面相同的方式来获得在正交轴平面中的点p₁'和p₃'。

接下来，选择区域计算部17计算通过对于在对象平面中的选择区域(p₁,p₂,p₃,p₄)执行投影变换而产生并且在对角线方向上具有点p₁'和p₃'的矩形(p₁',p₂',p₃',p₄')的剩余两个点p₂'和p₄'。

在此，假定

x_min'=min{x₁',x₃'},x_max'=max{x₁',x₃'}，并且

y_min'=min{y₁',y₃'},y_max'=max{y₁',y₃'}，然后，

如果y₃'<y₁'，矩形(p₁',p₂',p₃',p₄')的点p₂'和点p₄'变为如下。

p₂'=(x_max',y_max')并且p₄'=(x_min',y_min')

并且，当点p₂'和点p₄'变换为三维坐标系时，

p₂～'=(x_max',y_max',1)，并且p₄～'=(x_min',y_min',1)。

图13图示了在其中y₃'<y₁'的情况下的矩形(p₁',p₂',p₃',p₄')。

另一方面，如果y₃'>y₁'，则点p₂'、点p₄'、点p₂～'和点p₄～'变为如下。

p₂'=(x_min',y_max')，p₄'=(x_max',y_min')

p₂～'=(x_min',y_max',1)，并且，p₄～'=(x_max',y_min',1)。

最后，选择区域计算部17对于点p₂～'和p₄～'执行逆变换，点p₂～'和p₄～'是从在通过对应的凸四边形的单应逆矩阵H^-1如上所述获得的矩形(p₁',p₂',p₃',p₄')中的点p₂'和点p₄'三维化的。由此，能够获得在对象平面中的选择区域(p₁,p₂,p₃,p₄)的剩余两个点p₂和p₄。即，在对象平面中的选择区域的剩余两点p₂和p₄可以被获得如下。

在步骤S64中，能够使用如上所述的对应的凸四边形的单应矩阵H及其逆矩阵H^-1来计算在对象平面中的选择区域的剩余两个点p₂和p₄。作为在步骤S64中的处理，选择区域计算部17向选择区域显示控制部18供应形成选择区域的四个点的信息，即，点p₁、点p₂、点p₃和点p₄的位置。

并且，在步骤S65中，选择区域显示控制部18向显示器的输入图像上显示由四个点，即点p₁、点p₂、点p₃和点p₄形成的四边形(p₁,p₂,p₃,p₄)作为选择区域。

在步骤S66中，选择区域计算部17确定是否已经完成了用户的拖动操作。换句话说，选择区域计算部17确定用户是否已经在拖动操作的过程中释放了手指以确定点p₃的位置。

在步骤S66中，如果确定还没有完成用户的拖动操作，则处理返回到步骤S63，并且重复上述处理。

另一方面，在步骤S66中，如果确定已经完成了用户的拖动操作，则结束区域确定处理，并且处理返回到图4。

在上述的步骤S62中，当检测到与由用户首先点击的点p₁对应的对应凸四边形时，选择区域显示控制部18可以显示在输入图像上的对应的凸四边形的整个区域或外围形状一会（预定时间段）等，以便向用户呈现对应的凸四边形。由此，用户能够容易地通过点击和拖动操作来认为什么种类的凸四边形区域形成为选择区域。

此外，通过上述处理，与用户已经首先点击的点p₁对应的记录凸四边形被用作对应的凸四边形。然而，认为在拖动操作后获得的点p₃的位置从与点p₁对应的记录凸四边形跳出。在这样的情况下，可以将与点p₃对应的记录凸四边形改变为对应的凸四边形。

如上所述，通过图像处理设备1执行的透视区域选择处理搜索在输入图像中具有凸四边形的形状的对象，并且基于所检测的具有凸四边形的形状的对象来在输入图像中提取凸四边形。此外，基于在提取的凸四边形之间的包含关系来建立在提取的凸四边形中的分层结构。并且，根据与用户已经点击的位置对应的凸四边形的形状来透视地确定选择区域，并且显示该选择区域。

因此，用户能够根据在输入图像中的对象形状来在透视投影中选择斜区域，该斜区域已经难以使用参考图3描述的现有技术矩形来指定。由此，能够提供一种新的方法，该方法允许用户在输入图像中选择期望的区域。

图14是图示本技术的思想的图。

通过点击和拖动操作来指定在输入图像中的两个点p₁和p₃。图像处理设备1在输入图像中搜索具有凸四边形形状的对象，并且在图像中提取与该对象对应的凸四边形以识别对象平面。对象平面是在透视投影中在对象中包括的平面（透视投影平面）。此外，图像处理设备1对于由用户指定的两个点p₁和p₃执行UV坐标变换，以获得在作为通过U轴和V轴形成的平面的正交轴平面中的点p₁'和p₃'。并且，图像处理设备1考虑在对角线方向上具有两个点p₁'和p₃'的正交轴框S'。图像处理设备1对于正交轴框S'执行向在输入图像中的对象平面上的逆变换，以便产生透视选择区域S，并且显示透视选择区域S。

因此，在上述示例中，从输入图像识别与对象形状对应的平面（凸四边形）。然而，通过本技术，也能够从输入图像将与对象形状对应的球体的曲面等识别为对象平面，并且将选择区域S产生为具有通过在对角线方向上的点击和拖动操作识别的两个点的对象平面。

即，在本技术中，对象平面可以是任何表面，而与是否是曲面或平面无关，只要能够限定：变换矩阵UV，其将在输入图像的对象平面中的坐标系变换为在正交轴平面中的坐标系；以及变换逆矩阵UV^-1，其将在正交轴平面中的坐标系变换为在输入图像中的对象平面中的坐标系。

本技术适用的应用的示例

图15和图16图示根据本技术的透视区域选择处理所适用的应用的示例。

图15是下述示例：其中，本技术被应用到用于执行交换（swap）处理的应用，其中，在输入图像中通过上述透视区域选择处理来选择第一区域和第二区域，并且，交换第一区域的图像和第二区域的图像。对于所述第一区域选择“NEW COURT”的字符区域，对于第二区域选择在其右侧的箭头标记，并且，在右侧的处理后在图像中交换这两个区域图像。

在执行这样的交换处理的情况下，能够进一步向图像处理设备1提供图像编辑部，该图像编辑部从选择区域计算部17获得第一区域和第二区域的点p₁、点p₂、点p₃和点p₄的位置，并且在第一区域图像和第二区域图像之间执行交换处理。

图16是向注释系统应用本技术的示例，在该注释系统中，通过透视区域选择处理来清楚地图示在输入图像中的期望区域，并且增加注释。

能够向在各种图像中的区域选择处理应用本技术，该各种图像除了通过数字相机拍摄的图像等之外例如还是智能电话和导航设备等的显示图像。

在这一点上，在如上所述的示例中，使用点击和拖动操作来在对角线方向上指定两个点p₁和p₃。然而，可以通过另一种方法例如通过点击两个点等来指定在图像中的位置。

此外，在如上所述的示例中，具有由用户使用点击和拖动操作在对角线方向上指定的两个点p₁和p₃的凸四边形被形成，并且被显示为用户选择区域。然而，要作为用户选择区域的形状可以是除了凸四边形之外的多边形，诸如圆圈和椭圆等。此外，可以将选择区域的形状的角圆滑，并且可以适当地增加改变，例如，可以增加阴影，等等。

此外，作为用户设置屏幕，可以提供用于调整在分层结构中的分层的数量的滑块等。并且在上述的分层结构建立处理中，可以允许用户设置在记录凸四边形的分层结构中的分层层次（粒度）的数量。

此外，在上述示例中，将在包括点p1的记录凸四边形中的在最低层中的记录凸四边形确定为对应的凸四边形。然而，可以将在分层结构中的诸如由用户在用户设置屏幕中指定的分层的预定分层中的包括点p1的记录凸四边形确定为对应的凸四边形。

在通过计算机实现的情况下的配置的示例

上述的系列处理可以通过硬件执行或可以通过软件执行。当通过软件执行该系列处理时，可以在计算机中安装软件的程序。在此，计算机包括在专用硬件中内置的计算机和例如能够通过安装各种程序来执行各种功能的通用个人计算机等。

图17是图示通过程序来执行上述的系列处理的计算机的硬件配置的示例的框图。

在该计算机中，CPU（中央处理单元）101、ROM（只读存储器）102、RAM（随机存取存储器）103通过总线104相互连接。

输入/输出接口105还连接到总线104。输入部106、输出部107、存储部108、通信部109和驱动器110连接到输入/输出接口105。

输入部106包括键盘、鼠标和麦克风等。输出部107包括显示器和扬声器等。存储部108包括硬盘和非易失性存储器等。通信部109包括网络接口等。驱动器110驱动可装卸记录介质111，诸如磁盘、光盘、磁光盘或半导体存储器等。

在具有如上所述的配置的计算机中，CPU101通过输入/输出接口105和总线104向RAM103加载例如在存储部108中存储的程序以执行该程序，由此执行上述的系列处理。

在该计算机中，可以通过附接可装卸记录介质111来通过输入/输出接口105在存储部108中安装程序。此外，可以由通信部109通过诸如局域网、因特网、数字卫星广播等的有线或无线传输介质来接收该程序，并且可以在存储部108中安装该程序。另外，可以预先在ROM102或存储部108中安装该程序。

在这一点上，在本说明书中，当然根据所述的序列以时间系列来执行在流程图中描述的步骤。替代地，可以不以时间系列来执行步骤，而是可以并行地或在必要的时刻执行步骤，该必要的时刻例如是在被调用时等。

本公开的实施例不限于上述实施例。能够在不偏离本技术的主旨的情况下进行各种改变。

例如，能够在云计算中配置本技术，其中，一个功能被多个设备通过网络共享和协调。

此外，在如上所述的流程图中的每一个步骤除了被一个设备执行之外还可以被多个设备共享和执行。

此外，在一个步骤包括多个处理的情况下，在该一个步骤中包括的该多个处理除了被一个设备执行之外还可以被多个设备共享和执行。

图像处理设备1可以被配置为单个设备，该单个设备提供用户界面，用于将在透视投影中的斜区域指定为用户选择的区域。替代地，图像处理设备1可以被提供为执行其他图像编辑处理的图像处理设备的一个部分（一个功能）等。

在这一点上，能够如下配置本技术。

（1）一种图像处理设备，包括：获取部，其被配置来获取由用户为了指定区域选择而在输入图像上指定的位置信息；以及选择区域计算部，其被配置来在作为由在所述输入图像中的对象形成的透视投影平面的对象平面和正交轴平面之间的变换矩阵的计算结果中，使用与由所述用户指定的所述位置信息对应的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

（2）根据（1）的图像处理设备，进一步包括：识别部，其被配置为识别在所述输入图像中的所述对象平面；以及变换矩阵计算部，其被配置来计算在由所述识别部识别的所述对象平面和所述正交轴平面之间的变换矩阵。

（3）根据（2）的图像处理设备，进一步包括：对象平面存储部，被配置为存储关于由所述识别部识别的所述对象平面的信息。

（4）根据（2）的图像处理设备，

其中，所述识别部将由在所述输入图像中的对象形成的凸四边形识别为所述对象平面，并且所述变换矩阵计算部计算在由所述识别部识别的所述凸四边形和作为所述正交轴平面的单位正方形之间的变换矩阵。

（5）根据（2）的图像处理设备，其中，所述识别部将由在所述输入图像中的对象形成的球体的曲面识别为所述对象平面，并且所述变换矩阵计算部计算在由所述识别部识别的所述球体的曲面和作为所述正交轴平面的单位正方形之间的变换矩阵。

（6）根据（4）的图像处理设备，其中，所述识别部对于所述输入图像执行区域划分处理以提取所述对象的轮廓，并且基于所提取的轮廓来识别由所述对象形成的凸四边形。

（7）根据（1）至（6）的任何一项的图像处理设备，进一步包括分层结构建立部，所述分层结构建立部被配置来建立多个所述对象平面的分层结构，其中，所述选择区域计算部使用具有与由所述用户指定的所述位置信息对应的预定分层的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

（8）根据（7）的图像处理设备，其中，所述选择区域计算部使用具有与由所述用户指定的所述位置信息对应的最低层的所述对象平面的所述变换矩阵。

（9）根据（1）至（8）的任何一项的图像处理设备，进一步包括显示控制部，所述显示控制部被配置为显示与由所述用户指定的所述位置信息对应的所述对象平面。

（10）根据（9）的图像处理设备，其中，所述显示控制部根据由所述用户进行的区域选择指定操作来显示与由所述用户指定的所述位置信息对应的所述对象平面，并且在经过预定时间段之后删除所述对象平面。

（11）根据（1）至（10）的任何一项的图像处理设备，其中，所述获取部获取由所述用户在所述输入图像上指定的至少两个点的位置来作为所述位置信息。

（12）根据（11）的图像处理设备，其中，所述获取部获取由所述用户在所述输入图像上指定的在对角线方向上的所述两个点的位置来作为所述位置信息，并且所述选择区域计算部使用所述变换矩阵来计算形成所述凸四边形的四个点中的除了所述用户指定的在所述对角线方向上的所述两个点之外的两个点，作为所述对象平面。

（13）根据（1）至（12）的任何一项的图像处理设备，其中，所述变换矩阵是单应矩阵和作为其逆矩阵的单应逆矩阵。

（14）根据（1）至（13）的任何一项的图像处理设备，进一步包括图像编辑部，其被配置为执行交换处理，用于交换第一区域图像和第二区域图像，所述第一区域图像是基于第一所述位置信息计算的由所述用户选择的区域，所述第二区域图像是基于第二所述位置信息计算的由所述用户选择的区域。

（15）根据（1）至（14）的任何一项的图像处理设备，进一步包括输入图像获取部，其被配置为获取所述输入图像。

（16）一种用于处理图像的方法，所述方法包括：获取由用户为了指定区域选择而在输入图像上指定的位置信息；以及在作为由在所述输入图像中的对象形成的透视投影平面的对象平面和正交轴平面之间的变换矩阵的计算结果中，使用与由所述用户指定的所述位置信息对应的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

（17）一种程序，用于使得计算机执行处理，所述处理包括：获取由用户为了指定区域选择而在输入图像上指定的位置信息；以及在作为由在所述输入图像中的对象形成的透视投影平面的对象平面和正交轴平面之间的变换矩阵的计算结果中，使用与由所述用户指定的所述位置信息对应的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

本公开包含与在2012年8月9日在日本专利局中提交的日本在先专利申请JP2012-176619中公开的主题相关的主题，其整体内容通过引用被包含在此。

Claims

1.一种图像处理设备，包括：

获取部，其被配置来获取由用户为了指定区域选择而在输入图像上指定的位置信息；以及

选择区域计算部，其被配置来在作为由在所述输入图像中的对象形成的透视投影平面的对象平面和正交轴平面之间的变换矩阵的计算结果中，使用与由所述用户指定的所述位置信息对应的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

2.根据权利要求1所述的图像处理设备，进一步包括：

识别部，其被配置为识别在所述输入图像中的所述对象平面；以及

变换矩阵计算部，其被配置来计算在由所述识别部识别的所述对象平面和所述正交轴平面之间的变换矩阵。

3.根据权利要求2所述的图像处理设备，进一步包括：

对象平面存储部，被配置为存储关于由所述识别部识别的所述对象平面的信息。

4.根据权利要求2所述的图像处理设备，

其中，所述识别部将由在所述输入图像中的对象形成的凸四边形识别为所述对象平面，并且

所述变换矩阵计算部计算在由所述识别部识别的所述凸四边形和作为所述正交轴平面的单位正方形之间的变换矩阵。

5.根据权利要求2所述的图像处理设备，

其中，所述识别部将由在所述输入图像中的对象形成的球体的曲面识别为所述对象平面，并且

所述变换矩阵计算部计算在由所述识别部识别的所述球体的曲面和作为所述正交轴平面的单位正方形之间的变换矩阵。

6.根据权利要求4所述的图像处理设备，

其中，所述识别部对于所述输入图像执行区域划分处理以提取所述对象的轮廓，并且基于所提取的轮廓来识别由所述对象形成的凸四边形。

7.根据权利要求1所述的图像处理设备，进一步包括分层结构建立部，所述分层结构建立部被配置来建立多个所述对象平面的分层结构，

其中，所述选择区域计算部使用具有与由所述用户指定的所述位置信息对应的预定分层的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

8.根据权利要求7所述的图像处理设备，

其中，所述选择区域计算部使用具有与由所述用户指定的所述位置信息对应的最低层的所述对象平面的所述变换矩阵。

9.根据权利要求1所述的图像处理设备，进一步包括显示控制部，所述显示控制部被配置为显示与由所述用户指定的所述位置信息对应的所述对象平面。

10.根据权利要求9所述的图像处理设备，

其中，所述显示控制部根据由所述用户进行的区域选择指定操作来显示与由所述用户指定的所述位置信息对应的所述对象平面，并且在经过预定时间段之后删除所述对象平面。

11.根据权利要求1所述的图像处理设备，

其中，所述获取部获取由所述用户在所述输入图像上指定的至少两个点的位置来作为所述位置信息。

12.根据权利要求11所述的图像处理设备，

其中，所述获取部获取由所述用户在所述输入图像上指定的在对角线方向上的所述两个点的位置来作为所述位置信息，并且

所述选择区域计算部使用所述变换矩阵来计算形成所述凸四边形的四个点中的除了所述用户指定的在所述对角线方向上的所述两个点之外的两个点，作为所述对象平面。

13.根据权利要求1所述的图像处理设备，

其中，所述变换矩阵是单应矩阵和作为其逆矩阵的单应逆矩阵。

14.根据权利要求1所述的图像处理设备，进一步包括图像编辑部，其被配置为执行交换处理，用于交换第一区域图像和第二区域图像，所述第一区域图像是基于第一所述位置信息计算的由所述用户选择的区域，所述第二区域图像是基于第二所述位置信息计算的由所述用户选择的区域。

15.根据权利要求1所述的图像处理设备，进一步包括输入图像获取部，其被配置为获取所述输入图像。

16.一种用于处理图像的方法，所述方法包括：

获取由用户为了指定区域选择而在输入图像上指定的位置信息；以及

在作为由在所述输入图像中的对象形成的透视投影平面的对象平面和正交轴平面之间的变换矩阵的计算结果中，使用与由所述用户指定的所述位置信息对应的所述对象平面的所述变换矩阵来计算在所述对象平面中的区域，作为由所述用户选择的区域。

17.一种程序，用于使得计算机执行处理，所述处理包括：