CN1760860A

CN1760860A - 设备零件装配图图像检索装置

Info

Publication number: CN1760860A
Application number: CNA2005100637684A
Authority: CN
Inventors: 刘汝杰; 马场孝之; 远藤进; 椎谷秀一; 上原祐介; 增本大器
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-10-15
Filing date: 2005-03-31
Publication date: 2006-04-19
Anticipated expiration: 2025-03-31
Also published as: JP2006113922A; CN1760860B; US20060082595A1; JP4477468B2

Abstract

输入查询设备零件图像以及来自作为检索目标的图纸数据库装配图图像。在布局分析单元(10)中将装配图图像分成文本和非文本区域。在设备零件提取单元(11)中，从非文本区域提取零件图像。设备零件比较单元(12)核对所提取的零件图像以及查询设备零件图像。

Description

设备零件装配图图像检索装置

技术领域

本发明涉及一种用于提取和核对设备零件装配图图像的装置。

背景技术

对已经以纸张形式存在的技术图纸进行有效管理和检索是一个亟待解决的问题。根据统计数据，仅在美国和加拿大在20世纪90年代中技术图纸数量就高达35亿页并且以每年大约2600万页递增。用于将这些图纸归档、定位和管理的年费超过10亿美元。已经开始研究用于电子管理技术图纸的装置以便削减维护费用、改善对技术图纸的理解以及在内容核对方面的效率等的研究人员正在出现。

基于内容对技术图纸进行核对和检索在应用中非常重要。例如，在工程师规划特定产品的设计或变型时要参照现有的技术图纸。在这种情况下，传统上，工程师必须一张张地查看这些图纸以找到所需图纸，从而消耗了大量的时间和精力。作为对该问题的一个解决方案，已经提出一种基于文本内容的检索方法。这是一种这样的方法，该方法例如将文本标签贴在每幅图上作为关键词索引。虽然这个信息在检索整个图形文件时是方便的，但是必须给几百万幅图纸贴上标签，从而需要非常大的精力。另外，通过这样的文本标签对图纸内容进行说明不能完全详尽地容纳用于核对的所有图像，并且通常不能指示与查询图像相对应的区域在该技术图纸内的位置。如果可以实现基于图纸内容的自动检索和核对技术，则将大大改善检索这些图纸的效率，并且将大幅度削减技术图纸的管理费用。

公知的技术是这样一种技术，其中通过施加F特征(F-signature)来核对技术图纸图元。参照非专利参考文献1。但是，该方法只能够核对和检索在技术图纸内的分离的图元，而不能实现图段检测和图段比较。因此，其应用范围有限。

Pasi Franti提出了一种通过使用Hough变换表示线条的全局特性而基于内容对技术图纸进行检索的方法。参照非专利参考文献2。该方法在整体上处理每幅技术图纸并且不适于进行片段比较。另外，线条特性仅仅在对由线条、曲线等构成的图纸进行比较时才有效，从而限制了应用范围。

另一种公知的方法是这样一种方法，其中利用文本和图形结构信息从数据库中检索包括与查询图像类似的设备零件的技术图纸。参照专利参考文献1。在该方法中，将文本输入作为输入数据，将文本几何描述作为参考索引，并且最终获知与在技术图纸内的查询图像相对应的零件的存在。该方法基本上依靠文本检索模式。

非专利参考文献1

S.Tabbone，L.Wendling，K.Tombre，使用角度信号信息进行线条图图像中图形符号的匹配(Matching of graphical symbols inline-drawing images using angular signature infromation)，国际文件分析及识别期刊(International Journal Document Analysisand Recognition)，第6卷，第1期，2003年6月

非专利参考文献2

Pasi Franti，Alexey Mednonogov，Ville Kyrki，HeikkiKalviainen，使用Hough变换进行线条图的基于内容的匹配(Content-based matching of line-drawings using the Houghtransform)，国际文件分析及识别期刊(International Journal ofDocument Analysis and Recognition)，第3卷，第2期，2000年12月

专利参考文献1

美国专利No.5,845,288说明书

如上所述，基于图纸内容的检索和核对技术的研究和开发才刚刚开始，并且还没有研制出足够的技术。

发明内容

本发明的目的在于提供一种用于在装配图内的设备零件的图像检索装置，该装置可以通过将包含在该图纸中的设备零件和查询图像进行比较，而从装配图内匹配与查询设备零件图像相对应的设备零件图像。

根据本发明的设备零件图像检索装置是一种将在技术图纸中的设备零件的图像与查询图像进行核对的设备零件图像检索装置，该装置检测在技术图纸中绘制的线，并且包括：分割装置，用于将技术图纸分成一个或多个子区域；非文本区域确定装置，用于确定该子区域是主要由文本构成的文本区域还是主要由文本以外的内容构成的非文本区域；提取装置，用于提取与非文本数据相对应的设备零件图像；以及核对装置，用于核对所述查询图像和所提取的设备零件图像。

根据本发明，可以提供一种基于图纸内容的有效的装配图设备零件提取核对器。

附图说明

图1是一方框图，显示出根据本发明的用于装配图的设备零件提取核对器的结构；

图2A是显示出水平和垂直投影直方图表和从中生成直方图表的图形文件表的视图；图2B是显示出在实际表格和从第一表格线检测中获得的表格之间的关系的视图；

图3显示出用于在格子中进行表格连接过程的伪代码；

图4A是显示出设定区域及其原始轮廓和平滑轮廓的视图；图4B是显示出在图4A中的平滑轮廓的一阶导数的视图；图4C是显示在图4A的区域中的每条文本线的边界线的视图；

图5是显示将文本行分割为由每个连通分量(connectedcomponent)调整的封闭矩形的视图；

图6是显示从输入至分离过程的处理流程的流程图；

图7是显示设备零件提取过程的流程图；

图8是显示轮廓操作过程的示例的视图；

图9是显示设备零件图像格子扫描顺序的视图；

图10是以顺序的典型形式显示本发明一个实施例的处理结果的视图(1)；

图11是以顺序的典型形式显示本发明一个实施例的处理结果的视图(2)；以及

图12是以顺序的典型形式显示本发明一个实施例的处理结果的视图(3)。

具体实施方式

装配图是一种更专业且更重要类型的技术图纸，通常用于显示构成设备的零件以及这些零件如何装配。在实际应用中，从构成具体设备零件的数据中检索所有的图纸。因此，装配图设备零件提取核对器从装配图中提取设备零件图像，并将它们与查询设备零件图像作比较。装配图设备零件提取核对器包括：布局(layout)分析单元，用于从装配图中去除文本区域；设备零件提取单元，用于通过合并和分离过程将每个设备零件编组；以及设备零件比较单元，用于将所提取的设备零件图像和查询零件图像进行比较，以从装配图中选择用于检测对应于查询图像的零件图像的特征。

布局分析的目的在于将图纸中的图形区域和文字区域分开。这一过程开始于对装配图中检测到的由线形成的表格形式的区域进行处理。根据整个图纸周围的空白区域，估计文件页面的方向，并校正图纸的角度。然后，根据空白区域的结构，将图纸分出大致的区域，同时根据投影直方图特征，将这些区域标为文字区域或非文字区域。然后，在空白区域处将非文字区域递归划分为更小的区域，继续该过程直至不能进行进一步的细分为止。

仅在上述获得的非文字区域上进行设备零件的提取，这是因为文字区域不含有图形组成部分，因此不需要设备零件核对检索。通过对连通分量分析来进行设备零件的提取。首先，将在另一个组成部分的轮廓内的所有连通分量合并，以防止设备零件彼此分离。然后，将由解释线连接的设备组成部分通过分离过程而进行分离。通过该过程对分离区域进行处理，以仅包括一个设备零件。

布局分析和设备零件提取的结果是，将包括在装配图中的设备零件分成单独的图像。因此，查询设备零件图像与装配图的核对就是查询设备零件图像与这些分开的设备零件图像的核对。因此，将图像分成格子，并进行用于通过傅立叶变换确定特征数量的处理。

查询设备零件图像和装配图的核对可以认为是一个检索目标的问题，并且目标区域的位置、尺寸以及方向都必须同时考虑。在本发明中，首先提取装配图中的设备零件图像，这是因为可以容易解决确定目标区域的位置的问题。因此，可以简单且有效地实现核对过程。

图1是显示根据本发明用于装配图的设备零件提取核对器的配置的方框图。用于装配图的设备零件提取核对器的结构包括三个单元：布局分析单元10；设备零件提取单元11；以及设备零件比较单元12。

输入的装配图图像优选是二进制格式的图像，但是如果输入非二进制格式的图像，则进行二值化预处理。

1、布局分析单元10

装配图中的图像通常是文本和图形区域的结合。文字区域通常描述设备零件，并包括装配的名称和类型。但是，这些文本区域在基于查询图像的设备零件核对检索中并不起作用。布局分析的目的在于将图中的文本区域与图形区域分开并去除文本区域。

1.1空白区域检测和方向校正

装配图的一个主要特征是环绕整个图纸的空白区域。该空白区域通常覆盖装配图的整个页面，并显示图的有效区域。除此以外，空白区域通常用于将图表文件分成各种功能区域，例如图形区域、文字区域和标题区域。

如果满足以下条件，则将图纸图像的连通分量确定为空白：

(1)构成毗邻象素的连通分量的尺寸与图纸图像的比例大于预定阈值(该阈值应当由本领域技术人员相应地设定)；

(2)构成图像的象素的数量明显小于背景的象素数量；

(3)连通分量不包括在其它连通分量中；

(4)连通分量仅由直线构成。

用于发现满足这些条件的区域的算法在本发明的技术领域被认为是公知的，因此省略对其的详细说明。

另外，通过分析构成空白区域的直线的方向，确定图表文件的方向，并进行图表文件的方向校正。

1.2表格检测以及根据所述表格的分离

这里，将包括由在图表文件中绘制的线形成的矩形图段的类型称之为表格。根据投影直方图特征进行表格检测。投影直方图是每一行或者列象素的直方图，其中将象素值水平或者竖直相加。以下“一行或者一列”简称为“一行”。用于确定表格的标准如下：

(1)在与表格线对应的水平或者竖直投影直方图中每一行相加的象素值通常是较大的数字。线宽通常具有相似的值。

(2)在水平或者竖直直方图中表格线之外的各行相加的象素值的分布具有较小的变化，并且具有极小的峰值。

通过该过程，将象素的连通分量以它们是否是表格线来分类。同样，从直方图中，可以将表格线的位置确定为具有非常大象素值的行。

图2A是显示水平和竖直投影直方图表格以及从其中生成直方图表格的图表文件表格的视图。

在表格检测和表格线确定之后，获得用于每个表格的格子。这里，格子是由线条分开的矩形区域。首先，在检测表格区域的表格线位置处将图水平划分成多个矩形格子。该第一格子没有被线(表格线)分开，并且这些格子的组合覆盖了整个区域。

图2B为显示在实际表格和从第一表格线检测获得的表格之间的关系的视图。

在图2A中的第一表格的分离结果显示在图2B中。这里，细线表示实际表格线。接着，将该第一分开的格子通过区域增长方法合并成下方的自然表格。

图3显示出用于执行在格子中表格连接过程的伪代码。

首先，将Label Number(标号数)设定为0。接着，将所有格子的Label Number设定为0。然后，找到其Label Number为0的格子，并且将Grid设定为其中Label Number为0的格子编号。这里，格子编号为在表格提取时给予每个格子的编号。接着，将待处理的格子的LabelNumber加1，并且将Label Number设定为该格子的数据栈的标号数据。将通过Stack.push操作返回的Grid编号表示的数据写入到该数据栈。接着，找到不为空的栈，并且通过Stack.pop操作将数据读入Grid中。然后，将位于该格子右手侧的格子中的数据读入GridRight。假设，在表格提取时预先获取了格子编号及其位置关系。

接着，检测出在由Grid和GridRight表示的格子之间是否存在线条。尽管已知有各种方法，但是一个示例是这样的方法，其中对原始图面数据的相应图段进行扫描以确定是否存在线条。

如果确定没有线条，则将数据写入到GridRight格子，从而使得GridRight的标号数与Grid的标号数相同。

在该格子的左、右、上和下边界上并且另外在所有格子上进行该过程，并且完成这些格子的合并过程。

通过上面的过程，给所有第一格子赋予标号，并且将具有相同标号的格子合并成原始表格格子。

根据这些原始表格格子，将图表文件分成多个大区域。如果通过空白区域来获得这些格子，则覆盖整个文件，或者根据这些格子的组合必须加入额外的区域以完成这些区域的合并。如果没有任何空白或其它表格，则不必进行基于表格的进一步分隔处理。

1.3文本区域的标识

将段落的文本线垂直或水平对准，具有大致相同的宽度，进而分布成通过白条纹(白底，空白区域)来分段。如段落的文本线一样，将文本线中的分布字符垂直或水平对准，具有大致相同的宽度，并且由白条纹分开。可以通过投影轮廓(projection profile)利用这些特征将文本区域与其它区域区分开。

首先，计算出在每个格子内的设定区域的投影轮廓。该区域为包括每个连通分量的区域，并且生成该小区域的直方图。该设定区域以每个格子为基础，并且由此如果格子由白条纹划分，则设定区域为由该白条纹划分的区域。换句话说，将包含在每个连通分量的封闭矩形中的象素设定为1，并且将设定区域中的其它象素设定为0。进行平滑处理以控制投影轮廓的细节量。将在平滑之前和之后获得的投影轮廓分别称为原始轮廓和平滑轮廓，并用Po和Ps表示。

P^o＝P^s×f (这里，f为某些类型的滤子)

图4A是显示设定区域以及其原始轮廓和平滑轮廓的视图。接下来，如下定义和计算作为切线与平滑轮廓的角度的一阶导数，以确定平滑轮廓的最大值和最小值。

D = {d_{n} | d_{n} = \frac{Σ_{m = 1}^{w} p_{n + m}^{S} - Σ_{m = 1}^{w} p_{n - m}^{S}}{2^{*} Σ_{m = 1}^{w} m}}

这里，P^S _n和d_n分别是平滑轮廓中一行象素值以及该轮廓的一阶导数，n是行的序号，而w应当由本领域技术人员相应地设定。

图4B是显示图4A中的平滑轮廓的一阶导数的视图。

然后，平滑轮廓的一阶导数变为0的点(零点)用于获得每条文本线的边界线。

(1)确定平滑轮廓的最大值和最小值。满足以下条件的零点分别对应于平滑轮廓的最大值和最小值。

MAX_n＝{n|d_n＞0，并且d_n+1≤0}

MIN_n＝{n|d_n＜0，并且d_n+1≥0}

或者，最大值和最小值可以对应于与点相对的线段。在这种情况下，上述等式变为以下等式：

MAX_n＝{n|n＝(i+j)/2，d_j-1＞0，d_j+1＜0，d_m＝0，i≤m≤j}

MIN_n＝{n|n＝i…j，d_j-1＜0，d_j+1＞0，d_m＝0，i≤m≤j}

(2)边界线检测。可以假设上面获得的最大值与一文本线相对应。每条文本线的边界线可以如下利用最小值和原始轮廓来确定。

确定沿着从每个最大值点或者原始轮廓的零点的两个方向的最小值点。所遇到的第一最小值点或者原始轮廓的零点变为该方向的边界线。如果在遇到另一最大值点之前没有发现诸如这些的点，则放弃当前的最大值点。图4C是显示在图4A的区域中的每条文本线的边界线的视图。

(3)特征提取。至此，一对边界线和对应的最大值已经获得并由

{(l_{n}^{1}, m_{n}, l_{n}^{2}) | l_{n}^{1} < m_{n} < l_{n}^{2}, n = 1 . . . N}

表示。这里，n是包括在设定区域内的文本线的索引编号(index numbering)。该索引被分别赋予目前正在处理的设定区域，并且如果例如在n上进行加法，则在通过表格提取所获得的设定格子内的设定区域上进行加法。

图5是显示将文本线分成由每个连通分量调整的封闭矩形的视图。

计算三个特征量以根据这些矩形识别文本区域。

尺寸一致性DU测量文本线宽度的一致性。

DU = \frac{var}{M}, var = \frac{Σ_{n = 1}^{N} {(l_{n} - m)}^{2}}{N}, l_{n} = l_{n}^{2} - l_{n}^{1}, M = \frac{Σ_{n = 1}^{N} l_{n}}{N}

这里，l_n是文本线的宽度，M是文本线的平均宽度，而“var”是文本线宽度的变化。

覆盖一致性CU测量文本线中字符(character)的分布。如果将构成被由边界线[l_n ¹和l_n ²]形成的区域分开并包括在该区域内的字符的象素的连通分量表示为c_i，i＝1…I，且环绕这些连通分量的封闭矩形的高度和中央位置表示为hi，ti，i＝1…I，则该区域的覆盖一致件如下：

{CU}_{n} = Σ_{i = 1}^{l} ({H_{i}}^{*} T_{i}) / I

这里，σ由本领域技术人员相应设定。而且，CU定义为包括在设定区域内的所有区域的平均的覆盖一致性。这里，H_i是一个函数，当包含在文本线内的连通分量的宽度包含在文本线的宽度中时，它是1，而如果连通分量的宽度不包含在其中时，它是一个较小的数值。T_i是一个函数，当连通分量的中央位置包含在文本线的宽度内时，它是1，而当在宽度之外时，它是0。通过使用这些函数，可生成一个函数，如果连通分量的宽度包含在文本线内并且连通分量的位置包含在文本线的宽度内，则该函数的值较大，否则该函数的值较小。

CU = \frac{Σ_{n = 1}^{N} {CU}_{n}}{N}

这里，CU是设定区域内的平均值。最大值与最小值的比例简称为MMR。如上确定的最大值通常对应于两条文本线之间的间隔，因此取平滑轮廓中的极小值。因此，MMR被定义为这些特征的特征条件。

MMR = \frac{1}{N} Σ_{n = 1}^{N} \frac{(p_{l_{n}^{1}}^{S} + p_{l_{n}^{2}}^{S})}{p_{m_{n}}^{S}}

这里，MMR定义为在设定区域中最终达到平均数的由最大值所分开的文本线的边界线的象素值的总和。

从这三个特征量，通过设定阈值可以将文本区域与其它区域容易地分开。

例如，如果尺寸一致性具有接近0的值，覆盖一致性具有接近1的值，且最大值与最小值的比例具有接近0的值，则该区域被确定为文本区域。

1.4分离

必须进一步分开非文本区域。对在原始水平竖直方向投影轮廓内的0值部分(section)进行检查，并且将在轮廓内0值连续的最大部分确定为非文本区域分离的位置和方向。因此，通过最大白色区域将非文本区域分成两部分。

在所有的非文本区域内重复分离过程，直至不能进一步的分离，或者换句话说直到再没有白色区域为止。

图6是显示从输入至分离过程的流程处理的流程图。在图6的流程图中，首先输入装配图图像。在步骤S10中进行空白检测。在步骤S11中确定是否存在空白区域。如果步骤S11的确定结果是“否”，则该过程前进至步骤S13。如果在步骤S11的确定结果是“是”，则在步骤S12中校正图形文件的方向。在步骤S13中确定是否存在表格。

如果步骤S13的确定结果是“否”，则该过程前进至步骤S15。如果步骤S13的确定结果是“是”，则步骤S14基于表格将文件分开。步骤S15确定在分开区域中待处理的区域是否是文本区域。如果步骤S15的确定结果是“是”，则输出分割结果。如果步骤S15的确定结果是“否”，则步骤S16确定是否要进行进一步的分开。如果步骤S16的确定结果是“否”，则输出分割结果。如果步骤S16的确定结果是“是”，则在步骤S17中进行分开，并且该过程返回至步骤S15。

2、设备零件提取单元

在布局分析之后，将文件分成小区域，并分类为文本区域和非文本区域。仅从非文本区域提取在核对和检索中有效的设备零件图像。因此，通过设备零件提取单元仅处理上述获得的非文本区域。

设备零件提取基于连通分量分析以及形态学操作包括：(1)轮廓操作，(2)合并，(3)分离，以及(4)标签文本消除步骤。

图7是显示设备零件提取过程的流程图。

首先，在步骤S20中进行轮廓操作以提取轮廓。在步骤S21，合并设备零件图像。在步骤S22，分开已经被不必要连接的设备零件图像。在步骤S23，删除通过解释线与零件图像连接的标签文本。

以下将详细描述每个步骤。

(1)轮廓操作

首先，关于在相关的非文本区域中的每个连通分量提取轮廓。该过程可以采用已知的方法。参考Lueiano da Fontoura Costa以及Roberto Marcondes Cesar Jr.，形状分析和分类：理论和实践(ShapeAnalysis and Classification：Theory and Practice)，CRC Press LLC，341-347页。

当将纸件图形文件扫描为图像时或者由于二值化过程导致的噪音，轮廓可能会受到损坏并可能被切为多个部分。因此，进行膨胀操作以校正轮廓中的开口。参考I.Pitas，数字图像处理算法和应用(Digital image Processing Algorithms and Applications)，AWiley-Interscience出版社，361-369页。

通过这些方法所获得的轮廓是封闭曲线。该曲线内部指示了由连通分量占据的区域。另外，为了获得与实际连通分量相对应的区域，进行侵蚀处理(erosion process)以除去膨胀过程的人工因素。

图8是显示轮廓操作过程的示例的视图。图8(A)显示了第一连通分量，图8(B)显示了从图8(A)中的图像获得的轮廓，图8(C)显示了由该连通分量占据的区域，而图8(D)显示了在不进行轮廓校正处理时获得的连通分量所占据的区域。

(2)合并

经常发生将设备零件图像分成多个连通分量。因此，检查由连通分量所保持的每个区域。如果发现由一定的连通分量所保持的区域完全覆盖的连通分量，则将被覆盖的连通分量的区域与进行覆盖的连通分量的区域合并。因此，不必将设备零件图像分开。

(3)分离

装配图的线条主要由两种类型形成：形成设备零件对象的线以及标记和连接对象、指示内/外关系并解释对象的线(解释线)。分离过程的目的在于将由解释线连接的设备零件分离，并删除解释线。利用其中解释线通常比设备零件对象的尺寸明显更细的特点来进行该操作。

首先，对环绕连通分量的区域进行形态侵蚀处理。通过该处理，除去与设备对象相关联的较细的解释线。结果，由于侵蚀处理而极大地减少了象素数量，并且如果该区域被确定为细线状，则相应的连通分量被确定为解释线并被删除。

图8(E)是显示图8(A)中的图像的分离结果的视图。

(4)标签文字的去除。

甚至在非文本区域中，也存在用于指示尺寸信息等的文字以及设备零件的索引编号。为了减少后面核对过程的负担，应当消除该文本。通过分析作为区域函数的零件的相对出现频率的直方图，可以容易地实现这一点。参考Lloyd Alan Eletcher以及Rangachar Kasturi，用于从文本/图形混合图像分离文本串的加强算法(A Robust Algorithmfor Text String Separation from Mixed Text/Graphics Images)，IEEE图形分析及机器智能学报(IEEE Transactions on Pattern Analysisand Machine Intelligence)，第10卷，第6期，910-918页，1988年。

3、设备零件比较单元

在布局分析单元和设备零件提取单元处理之后，提取包括在装配图中的所有设备零件图像。如果进行比较，则将这些提取的设备零件图像与输入的查询图像作比较。所提取的设备零件图像用作分开和独立的图像。

可以采用几种已知的方法进行比较。例如，下面解释格子像素分布(Grid Pixel Distribution)方法。

通过输入二值化设备零件图像、将该图像在极坐标空间内分成格子、并通过前述方法计算每个格子的象素而使得设备零件比较单元生成矢量，并通过傅立叶变换确定用于比较的特征量。该特征量是Affine不变量，即使在平移、旋转或者比例转换的情况下也不会改变。

(1)坐标空间转换，它将图像的象素坐标由直角坐标变为极坐标。为了减少通过平移变换的象素坐标变换的影响，将设备零件图像的中心定义为极坐标系统的原点。

(2)生成格子。将在距离设备零件图像的原点最远的象素以及极坐标系统的原点之间的区域沿着图像的径向分成m个区域(m是任意自然数)，沿着角方向分成n个区域(n是任意自然数)，并且将所有的设备零件图像分成“m×n格子”。

(3)格子象素分布特征量提取。

首先，统计在每个格子内的设备零件象素的数量。

然后，沿着径向扫描格子，并且如下所示生成矢量。在格子内的象素的数量与该矢量的每个象素一致。

图9显示了格子的扫描顺序。标记为mn的格子内的象素数量被表示为C_mn，并且图9中生成的矢量被表示为{C₁₁，C₁₂，C₁₃，C₂₁，C₂₂，C₂₃，C₃₁，C₃₂，C₃₃……}。

最后，在上述生成的指示格子象素分布的矢量上进行傅立叶变换，最后采用傅立叶系数的大小作为用于比较的特征量(矢量)。

(4)比较。通过步骤(1)-(3)获得用于与查询图像以及从装配图中提取的设备零件图像相对应的两个输入二值图像的特征量，并计算这两个特征量矢量的几何距离(Euclidean distant)，作为两幅图像之间的相似度。

图10-图12是以典型形式顺序显示本发明实施例的处理结果的视图。

图10(A)和图10(B)分别显示了查询设备零件图像以及装配技术图纸图像。

图11(A)显示了空白区域的分割结果(分类为文本区域以及非文本区域)以及文本区域的规范(specification)结果。在图11(A)中，具有粗线的矩形以及具有细线的矩形分别表示文本和非文本区域。

接下来，在所获得的非文本区域上进行递归式分开处理，直至不能进一步分开为止。图11(B)显示了最后的布局结果。如上所述，在该图中，文本和非文本区域分别由具有粗线的矩形和具有细线的矩形表示。

在设备零件提取单元中，从所有的非文本区域提取设备零件图像。图12(A)显示了由矩形指示的所获得的设备零件图像的区域。

最后，在设备零件比较单元中将查询设备零件图像与所提取的设备零件图像进行比较。图12(B)显示了比较结果，并且矩形指示在输入装配图中存在查询设备零件图像。

Claims

1.一种设备零件图像检索装置，用于核对该技术图纸中的设备零件图像与查询图像，该装置包括：

提取单元，用于提取设备零件图像区域，其中根据技术图纸中的接近度来分开应当被分开的零件；以及

核对单元，用于核对查询图像和所提取的设备零件图像区域。

2.一种设备零件图像检索装置，用于核对技术图纸中的设备零件图像与查询图像，该装置包括：

分割单元，用于检测技术图纸中绘制的线，并将技术图纸分成一个或者多个子区域；

非文本区域确定单元，用于确定该子区域是主要包括文本的文本区域还是主要包括文本以外内容的非文本区域；

提取单元，用于从非文本区域提取设备零件图像；以及

核对单元，用于核对查询图像和所提取的设备零件图像。

3.如权利要求2所述的设备零件图像检索装置，其特征在于，还包括空白检测方向校正单元，用于检测在所述技术图纸中的空白区域，并校正技术图纸的方向。

4.如权利要求2所述的设备零件图像检索装置，其特征在于，所述分割单元生成投影直方图，其中技术图纸的象素被水平或者竖直地投影，并且从投影直方图的峰的特征来检测线。

5.如权利要求4所述的设备零件图像检索装置，其特征在于，将实际上没有被线分开的子区域合并，从而使得由线检测所生成的子区域对技术图纸的分割与在实际技术图纸中线的区域分割相同。

6.如权利要求2所述的设备零件图像检索装置，其特征在于，所述非文本区域确定单元通过检测待包括在子区域的带状区域内的每个子区域中包括的象素的连通分量的分布倾向，来确定该子区域是文本区域还是非文本区域。

7.如权利要求6所述的设备零件图像检索装置，其特征在于，通过对每个子区域生成水平或者竖直投影直方图、平滑投影直方图、并检测平滑后的投影直方图的最大值和最小值来检测所述带状区域的边界线。

8.如权利要求6所述的设备零件图像检索装置，其特征在于，所述非文本区域确定单元通过对指示所述连通分量的宽度与所述带状区域的宽度差别如何的尺寸一致性、指示连通分量的位置和宽度与带状区域的差别如何的覆盖一致性、以及指示包含在带状区域内的连通分量的象素值的最小值与最大值的比例有多么小的最大值/最小值比例进行计算，从而确定该区域是文本区域还是非文本区域。

9.如权利要求2所述的设备零件图像检索装置，其特征在于，所述提取单元与包括在非文本区域内的白色区域相对应地分开非文本区域，并从设备的装配图中提取设备零件图段的图像区域。

10.如权利要求9所述的设备零件图像检索装置，其特征在于，所述提取单元还对在所述设备零件图段中的图像进行轮廓检测，进行一体的零件图像的合并，并同时对要分开的零件进行分离。

11.如权利要求2所述的设备零件图像检索装置，其特征在于，所述核对单元将所述设备零件图像沿着径向和角方向分开，计算每个格子的象素值，并且使用通过由所计算象素值产生的矢量上进行傅立叶变换而获得的设备零件图像的特征量矢量、以及对于查询图像类似获得的特征量矢量的几何距离，作为相似度的标准。

12.一种设备零件图像检索方法，用于核对技术图纸中的设备零件图像与查询图像，包括如下步骤：

检测技术图纸中绘制的线，并将技术图纸分成一个或者多个子区域；

确定该子区域是主要包括文本的文本区域还是主要包括文本以外内容的非文本区域；

在非文本区域中提取设备零件图像；以及

核对查询图像和所提取的设备零件图像。

13.一种使得信息处理设备进行设备零件图像检索处理的程序，其中对技术图纸中的设备零件图像和查询图像进行核对；并且还使得信息处理设备实现设备零件图像检索方法，所述程序包括：

在非文本区域中提取设备零件图像；以及

核对查询图像和所提取的设备零件图像。