CN107292302B

CN107292302B - 检测图片中兴趣点的方法和系统

Info

Publication number: CN107292302B
Application number: CN201610200450.4A
Authority: CN
Inventors: 侯凯; 梅树起; 时玥
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2021-05-14
Anticipated expiration: 2036-03-31
Also published as: CN107292302A

Abstract

本申请涉及一种检测图片中兴趣点的方法和系统，该方法包括：根据待识别兴趣点的名称获取预先训练的至少一个多特征级联分类器；使用至少一个多特征级联分类器对待检测图片进行识别，得到至少一个字符；基于至少一个字符确定待检测图片中是否存在兴趣点的名称。通过根据待识别兴趣点的名称选择多特征级联分类器，并对待检测图片中的字符进行识别，以确定待检测图片中的字符是否与待识别兴趣点的名称一致，降低了识别过程的计算量，提高了检测效率和识别结果的准确性。

Description

检测图片中兴趣点的方法和系统

技术领域

本申请涉及图像处理领域，尤其设备一种高效检测图片中兴趣点(Point ofInterest，POI)正确性的方法和系统。

背景技术

在地图导航技术中，为了方便用户寻找目标位置，需要及时更新地图库中的兴趣点POI名称。其中，兴趣点POI也可以叫做“兴趣点”，从广义上是指任何用户感兴趣或有意义的点；在地图领域中，POI特指具有标志性的地理位置，该地理位置的标志可以为某些建筑物，例如：学校、商场、医院、或者交通站牌等建筑物。

在现有技术中，为了及时更新变化的POI名称，通过传统的光学字符识别(OpticalCharacter Recognition，OCR)技术对待识别的POI名称进行识别，但传统OCR技术不仅需要预先进行大量的样本训练，来涵盖众多的字体样式，其执行步骤繁琐；且识别过程中通过训练好的所有字符分类器对待识别字符进行识别，计算量大，效率低；同时由于待识别字符所在图片的图片质量、字体、字体背景等因素的影响，造成OCR对待识别图片的准确率低。

发明内容

本申请实施例提供的一种检测图片中兴趣点的方法和系统，通过根据待识别兴趣点的名称获取多特征级联分类器，并根据多特征级联分类器对待检测图片中的字符进行识别，确定待检测图片中的字符是否与待识别兴趣点的名称相同，以降低识别过程的计算量，提高检测效率和识别结果的准确性。

为实现上述目的，本申请提供了一种检测图片中兴趣点的方法，该方法包括：

根据待识别兴趣点的名称获取预先训练的至少一个多特征级联分类器；

使用至少一个多特征级联分类器对待检测图片进行识别，得到至少一个字符；

基于至少一个字符确定待检测图片中是否存在兴趣点的名称。

本申请实施例还提供一种系统，该系统包括：获取单元、识别单元和确定单元；

获取单元，用于根据待识别兴趣点的名称获取预先训练的至少一个多特征级联分类器；

识别单元，用于使用至少一个多特征级联分类器对待检测图片进行识别，得到至少一个字符；

确定单元，用于基于至少一个字符确定待检测图片中是否存在兴趣点的名称。

通过本申请实施例提供的检测图片中兴趣点的方法和系统，通过根据待识别兴趣点的名称获取多特征级联分类器分类器，并根据多特征级联分类器对待检测图片中的字符进行识别，确定待检测图片中的字符是否与待识别兴趣点的名称相同，减少了识别过程中的计算量，提高了检测效率和识别结果的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种多特征级联分类器训练方法的示意图；

图2为本申请实施例提供的一种检测图片中兴趣点方法的流程示意图；

图3为本申请实施例提供的一张待检测图片的示意图；

图4为本申请实施例提供的一种构建识别出的字符中的有效字符串的方法示意图；

图5为本申请实施例提供的另一识别待检测图片中兴趣点方法的流程示意图；

图6为本申请实施例提供的一种系统结构示意图；

图7为本申请实施例提供的另一系统结构示意图。

具体实施方式

本发明实施例提供的一种检测图片中兴趣点的方法和系统，适用于图像处理、文字匹配领域，特别应用于在建设地图导航之前，校验用户上传的POI图片或照片，即待检测图片是否与系统(或POI数据库)中存储的同一地理位置上的POI名称一致，以快速检测并更新变化的POI名称，以实现在地图导航中定位的准确性。

本申请实施例可以根据可以根据系统中预存储的同一地理位置上的POI名称来选择特定字符的分类器，再根据选择的分类器对用户上传的照片(或图片)进行检测；也可以根据用户上传的图片中的POI名称选择特定字符的分类器，对用户上传的照片(或图片)中的POI名称进行识别，以验证用户上传的图片中POI名称是否与系统存储的同一地理位置上的POI名称相同。降低了现有技术中通过使用训练好的所有的分类器对用户上传图片中的POI名称进行识别，造成的计算量大，且由于用户上传图片中的POI名称的字体不规范、背景复杂，导致大量分类器中存在的相似字符分类器在识别过程中相互干扰，造成的识别准确率低的问题。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本申请保护的范围。

在对用户上传的图片，或者叫做待检测图片进行识别之前，需要先训练模型，在本申请实施例中，训练模型时采用多特征级联分类器的方案，并计算数据库中所有POI名称中n元组字符的IDF值。其具体训练模型过程如图1所示。

图1为本申请实施例提供的一种多特征级联分类器训练方法的示意图。如图1所示，该方法100的执行主体可以为一个具有训练分类器模型功能的系统或设备。该方法100包括以下步骤：

S110，对根据预先准备的多个训练字符进行聚类，得到多类训练字符。；

具体的，系统训练模型，即多特征级联分类器时，需要先准备大量的训练字符，该大量的训练字符可以来自兴趣点的名称图片中，即POI名称图片中。系统先将人工通过标注框标注好的训练字符进行预处理，过滤掉无效字符，该过滤过程可以预先设置不同条件的阈值，当图片中相应的信息高于、低于和/或等于预设阈值时，将对应的信息进行过滤，该过滤过程中的设备需要根据实时情况进行设置。过滤的内容可以包括：标注框过小，尺寸比例异常，以及纹理过于平滑等。

在S110中，对根据预先准备的多个训练字符进行聚类，得到多类训练字符，具体为：根据每个训练字符的宽高比进行聚类，得到多类备选训练字符及每一类备选训练字符中的字符个数；根据多类备选训练字符及每一类备选训练字符中的字符个数确定最终的多类训练字符。

可选地，根据多类备选训练字符及每一类备选训练字符中的字符个数确定最终的多类训练字符，可以包括：

判断每一类备选训练字符的字符个数是否都达到预设阈值；若是，则将多类备选训练字符确定为最终的多类训练字符；否则，降低所述类的数目，并根据所述每个训练字符的宽高比对预先准备的多个训练字符进行重新聚类，再判断每一类中训练字符的字符个数是否达到所述预设阈值。

其具体过程可以为，计算每个训练字符的字符标注框的宽高比，例如，各个宽高比可以记为:x₁，x₂，…，x_n,其中,0.5≤x_i≤1.5。

通过聚类寻找要划分宽高比的大小和个数，或者说通过聚类寻找备选训练字符的类数和每类备选训练的宽高比(或者说目标宽高比)。假设需要训练的目标宽高比为c₁,c₂,…,c_m，通过计算公式1.1和1.2确定要划分的宽高比和宽高比的个数。

距离计算公式可以采用欧式距离：

d(x,c)＝(x-c)² (1.2)

将各个字符标注框的宽高比代入公式1.1得到c₁,c₂,…,c_m。其中，m为确定需要训练的宽高比的类数，c为宽高比。

系统对每类备选训练字符中的字符个数进行统计，确定每类备选训练字符的个数，并判断每一类备选训练字符中的备选训练字符的个数是否达到预设阈值；当每一类备选字符中的备选训练字符的个数均达到预设阈值时，确定为最终需要训练的多类训练字符；当有一类或者多类备选字符中的备选训练字符的个数未达到预设阈值时，重新执行聚类获取备选训练字符的类数和每类备选训练的宽高比。

可选地，在本申请实施例中，当任一类备选字符中的备选训练字符的个数未达到预设阈值时，可以通过减少备选训练字符的类的数目，以重新确定备选训练字符的类数以及每类备选训练字符中的备选训练字符的个数。即将备选训练字符的类的数目减一。该步骤可以循环应用，直到每一类备选字符中的备选训练字符的个数均达到预设阈值。

以汉字为例，在门匾中会呈现不同的宽高比，通俗点讲就是有的“胖”一点，有的“瘦”一点。对数据库中某一个字所有的字符标注框进行聚类，找到多个目标宽高比中心。比如“店”字，可能可以找到500个不同宽高比的“店”字，那对这500个不同宽高比的“店”字进行聚类，得到4类训练字符，这时需要对每一类训练字符中的“店”字的个数进行判断，判断是否都达到预设阈值，如果没有，则降低类的数目，即对这500个不同宽高比的“店”字重新进行聚类，得到3类训练字符，并进一步对每一类训练字符中的“店”字的个数进行判断，如果都达到预设阈值，则计算每一类训练字符的宽高比中心，并对这3类训练字符，最终可以得到3个模型，目标宽高比中心分别为0.6,0.9和1.1。

S120，为所述每一类训练字符训练一个多特征级联分类器。

可以通过计算每一类训练字符的宽高比中心；分别根据每一类训练字符的宽高比中心，以及每一类训练字符中的每个字符的至少两个特征，为每一类训练字符训练一个多特征级联分类器。

具体的，可以根据公式1.1和1.2计算得到每类训练字符的宽高比中心(目标宽高比)，该每类训练字符的宽高比中心也可以在S110计算备选训练字符的类数时确定，为描述简洁，在这里不再描述计算每一类训练字符宽高比中心的过程。根据最终计算得到的每类训练字符的宽高比中心和每类训练字符中每个训练字符的至少两个特征，对每一类训练字符训练一个多特征级联分类器。

在本申请实施例中，可以根据每个训练字符的多个特征，例如：Haar特征、Hog特征，LBP特征等其他特征中的一个或多个特征进行训练，得到多特征级联分类器。

多特征级联分类器中包括多级强分类器。在本申请实施例中，多特征级联分类器中的每一级强分类器均可以采用Adaboost算法。且在本申请实施例中，每一级强分类器可以采用不同的特征，例如：Haar特征、Hog特征，LBP特征等其他特征中任一一个特征，以提升检测效率。

优选地，在本申请实施例中，前几级强分类器可以采用Haar特征，Haar特征具有极端简单、速度快的优点，可以实现对待识别图片中待识别字符的初步高效筛选；后几级强分类器可以采用Hog特征，Hog特征具有描述性强，分类准确度高的特点。

基于多特征级联分类器采用不同的特征对待识别的字符进行识别，与现有技术中单纯采用某一特征对待识别字符进行识别，达到同样的识别精度，本申请实施例中采用的多特征级联分类器需要层数较少。

在本申请实施例中，需要为每个字符设置一个唯一的字符标识(Identity，ID)，为每个字符在不同的目标宽高比下训练得到的多特征级联分类器设置与对应字符相应的字符ID。例如某个字符ID为111，该字符在不同目标宽高比下训练的多特征级联分类器的字符ID也设置为111。

在本申请实施例中，同一个字符在不同目标宽高比下训练的多特征级联分类器的ID可以为同属为该字符ID下属的多个编号。例如字符ID 111同属的多特征级联分类器的字符ID为1111、1112、1113，在根据字符ID 111，选择多特征级联分类器时，可以得到所有同属该字符ID 111的所有多特征级联分类器。

应理解，以上字符ID 111、1111、1112和1113均为举例，仅仅为了详细描述本申请技术方案，并不限制本申请的技术方案。

以上为本申请训练模型的过程，下面结合附图2至图5对检测的过程进行详细的描述。

图2为本申请实施例提供的一种检测兴趣点方法的流程示意图。如图2所示，该方法200的执行主体为能够实现对图片中的字符进行识别的系统或装置。该方法200包括以下步骤：

S210，根据待识别兴趣点的名称获取预先训练的至少一个多特征级联分类器。

具体地，待识别兴趣点的名称也可以叫作待识别POI名称，为POI数据库中预先存储的兴趣点的名称，可以是历史兴趣点的名称，也可以为采集者根据采集的某些地理位置处的POI后输入的兴趣点的名称。

待识别兴趣点的名称可以为汉字、字母、数字或符号，在本申请实施例中，可以统称为字符。待识别兴趣点的名称可以包括一个或多个字符。

在S210中，根据POI数据库中存储的某些地理位置上需要识别的兴趣点的名称，从预先训练好的多特征级联分类器中获取与待识别兴趣点的名称中的各个字符对应的多特征级联分类器。

每个多特征级联分类器都有一个字符标识(Identity，ID)，每个字符(汉字、英文、数字等)也都有与多特征级联分类器字符ID对应的字符ID。例如，待识别兴趣点的名称为汉字“锦蓝房地产”，可以从训练好的多特征级联分类器中选择与“锦蓝房地产”五个字的字符ID相应的所有多特征级联分类器。比如：汉字“地”的字符ID号为237，在训练好的多特征级联分类器中选择字符ID号为237的所有分类器。

本申请实施例中可将多特征级联分类器描述为分类器。

其中，待识别兴趣点的名称中的每个字符都可能存在多个多特征级联分类器。又如，在某一实施例中，可以从预先训练好的分类器中选择出“锦”有1个宽高比的分类器，“蓝”有两个宽高比的分类器，“房”有4个宽高比分类器，“地”和“产”各有3个宽高比的分类器。

S220，使用至少一个多特征级联分类器对待检测图片进行识别，得到至少一个字符。

待检测图片为采集者采集的图片，例如照片。采集者记录采集的待检测图片的地理位置信息，并根据地理位置信息将该待检测图片上传到系统中。在本申请实施例中，待检测图片中可以包括一个或多个字符，待检测图片中可以待识别兴趣点名称，还可以包括除待识别兴趣点的名称之外的字符，如图3所示。

图3为本申请实施例提供的一张待检测图片。该待检测图片中的兴趣点的名称为汉字：“锦蓝房地产”。可以从图片中获取“锦蓝房地产”，还可以从图片中获取“房地产”字符。

当需要对待识别兴趣点的名称和同一地理位置信息处的待检测图片中的兴趣点名称进行校验，即确定待识别兴趣点的名称和待检测图片中的兴趣点名称是否一致时，使用S210中获取的多特征级联分类器对待检测图片中的字符进行识别，获取待检测图片中的一个或者多个字符。

在本申请实施例中，对待检测的图片不断缩放，每一层图片可以通过滑窗(sliding windows)方式，使用选择的分类器对待检测图片进行识别，得到识别出的字符。当识别出的字符与使用的分类器所对应的字符相同时，确定识别出的字符的位置信息和大小信息，根据每个字符的位置信息和大小信息确定待检测图片中的识别结果，例如如图3所示，可以得到两个“房”字，“锦蓝地产”各一个字。

其中,滑窗(sliding windows)方式是一种算法，也可以称为滑窗(MovingWindow)算法，是一种常用的从大图中获取小图的方法，在本申请实施例中，直接对整个待检测图片进行滑窗，以从左到右，从上到下的方式，周期性检测待检测图片。

在本申请实施例中，还可以先大致检测出字符区域，然后针对区域进行滑窗。

应理解，在本申请实施例中，还可以采用其他的方式对待检测图片进行检测，例如：先检测出字符区域，然后再切割文字区域得到单字符的小图，然后在对小图进行识别，但是通过该方式对切割和识别的要求比较高，否则会造成漏检。通常该方法适用于较为规范的字符识别中，比如印刷比较规范的汉字。

S230，基于至少一个字符确定所述待检测图片中是否存在所述兴趣点的名称。

在S220中，得到识别出的字符后，需要根据识别出的字符生成有效字符串，也就是可以作为兴趣点的名称的字符串，并判断生成的有效字符串与待识别兴趣点的名称的匹配度是否达到可预设的阈值，当达到预设阈值时，说明待检测图片中存在待识别兴趣点的名称，也就是说待检测图片中的兴趣点的名称与待识别兴趣点的名称一致。

具体可以根据识别出的字符的位置信息、大小信息和预设的生成有效字符串的确定条件，从识别出的字符中确定有效字符串，或者说确定待识别图片中的兴趣点的名称。

在本申请实施例中，每个识别出的字符的位置信息和大小信息可以确定每个识别出字符的字符框。其预设的生成有效字符串的确定条件包括：每个识别出的字符的字符框面积符合预设条件，每个识别出的字符的字符框不重合，以及每个识别出的字符的字符框之间满足水平方向关系或者垂直方向关系。

具体构建待识别字符中有效字符串的过程如图4所示。

图4为本申请实施例提供的一种构建识别出的字符中的有效字符串的方法示意图。如图4所示，该方法400包括以下步骤：

S410，根据识别出的字符中的每个识别出的字符的大小信息确定当前字符框的面积满足预设条件的字符。

在S410中，当待检测图片为店面门匾时，待检测图片中的兴趣点的名称中各个字符的大小应该是一致的，根据识别出的字符的字符框确定的每个识别出的字符的大小变化应该在一定的范围内，也就是说需要满足预设条件。当前字符框为根据识别出的字符的字符框。第一预设条件设置为当前字符框的面积大小满足条件：

α·Area_avg≤Area_now≤β·Area_avg

其中，α、β为根据需要预设定的比例系数；Area_avg为已有字符框面积大小的平均值；Area_now为当前字符框的面积大小。其中，已有字符框为根据每个识别出的字符的位置信息和大小信息确定的字符框。

通过该S410可以对识别出的字符中的字符进行初步过滤，降低确定有效字符串过程中的计算量。

S420，确定当前字符框与已有字符框不重合的字符。

在实际应用过程中，存在相似字的情况。一个识别出的字符可能被不同的识别框识别成两个字符，例如图3中的“卖”字，如果识别框只取“卖”字的下部分时，识别出的为“买”字，当使用稍微大一些的识别框或者识别框可以识别整个“卖”字时，识别出的为“卖”字。我们称“卖”字为当前字符框，“买”字为已用字符框。

如果识别出的字符中同时出现“买卖”两个字，待检测图片中的一个“卖”字只能在字符串中出现一次，根据S420可以确定同一位置上的字为“卖”字。

通过该步骤可以避免相似字识别结果造成的识别结果错误的情况。

S430，根据确定后的字符位置信息，按照垂直或水平方向关系确定第一字符串。

通常店面门匾上的POI名称具有明显的位置特性，即POI名称中各个字符位置会呈现一定的关系，例如，各个字符在水平方向从左到右或者从右到左的顺序进行排列，也或者各个字符在垂直方向从上到下的顺序进行排列。例如，如图3所示，根据识别出的每个字符的位置信息，去掉了“房地产买卖”中的“房”字，可以得到最优字符串“锦蓝房地产”。

通过步骤S430可以有效地排除非门匾位置的干扰识别结果，提高结果的准确性。

S440，返回最长的字符串。

经过步骤S410至S430的3个步骤的筛选，可以将最后得到的所有字符的字符串中最长的字符串进行输出，也就是输出最优字符串，得到最终待检测图片中的兴趣点的名称，即POI名称。

采用本申请实施例提供的检测图片中兴趣点的方法，通过根据待识别兴趣点的名称选择使用的分类器，并利用选择的分类器对待检测图片进行识别，得到识别出的字符，再通过预设条件对有效字符串，即兴趣点的名称进行筛选，减小了识别过程中的计算量，提高了识别的效率和识别结果准确率。

应理解，在本申请实施例中还可以根据用户上传的图片中的POI名称选择特定字符的分类器，对用户上传的照片(或图片)中的POI名称进行识别，降低识别过程中的计算量，提高识别的效率和识别结果的准确率。

当根据识别出的字符串确定出待检测图片中的兴趣点的名称，即POI名称时，确定待识别兴趣点的名称是否与待识别图片中的兴趣点名称一致。

优选地，作为本发明另一实施例，如图5所示，确定待识别兴趣点的名称是否与待识别图片中的兴趣点名称一致，即S230可以包括：

S231，计算从待检测图片中识别出的兴趣点的名称中每个识别字符的词频-逆文档频率TF-IDF值，确定识别出的兴趣点的名称的识别向量。

具体的，识别出的兴趣点的名称为从待检测图片中识别出的最优字符串，即POI名称。计算最优字符串中，n元组字符的TF-IDF值，也可以理解为计算识别文本中n元组字符的TF-IDF值，得到识别结果向量。其中，n元组字符可以理解为几个字符，n为正整数。例如“锦蓝房地产”的1元组字符分别为“锦”、“蓝”、“房”、“地”、“产”五个字；2元组字符可以为“锦蓝”“蓝房”“房地”“地产”四个词组。

具体的，词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)值等于词频TF值乘以逆文档频率IDF值。IDF值是在训练模型过程中预先统计POI库(数据库)中的词频信息得到的所有字和词组的IDF值。可以通过公式1.3计算：

IDF_n＝log(POI的总数/(POI中包括n的总数+1)) (1.3)

其中，n表示一个元组，可以代表单个字，以可以代表一个词。

在本申请实施例中，需要计算TF值，TF值可以通过公式1.4计算：

TF_n＝字符串中n的数目/字符串中元组数； (1.4)

其中，n的表示与公式1.3中的n表示相同。

根据计算的每个识别出的字符的TF-IDF值得到识别出的字符串，即最优字符串对应的向量。向量可以表示为[TF₁·IDF₁,TF₂·IDF₂,…,TF_w·IDF_w]，其中，w为识别出的字符串中包括的n元组的数目。也就是说，计算相应元组在结果字符串中的TF值，乘以IDF得到结果字符串对应的向量。

S232，根据识别向量和系统中预存储的待识别兴趣点的名称的目标向量确定从待检测图片中获取的兴趣点的名称与待识别兴趣点的名称的相似度。

待识别兴趣点的名称为系统中预先存储的实际POI名称对应的字符串，将S251中计算得到的识别向量与系统(或者数据库)中预存储的待识别兴趣点的名称对应的向量进行匹配，在本申请实施例中，为了简洁描述，将待识别兴趣点的名称对应字符的向量称作目标向量；具体可以通过计算识别向量与目标向量的余弦相似度，来确定最优字符串的与系统预存储的字符串的相似程度。

具体的余弦相似度根据公式1.5确定。可以通过余弦公式：

其中，A表示识别向量；B表示目标向量。目标向量在训练模型过程中，预先对录入的各个实际POI名称对应的字符串的TF-IDF值计算好，并确定了每个POI名称对应字符串的向量，即目标向量。在检测过程中，也就是在该步骤中，可以直接应用该目标向量。

可选地，在本申请实施例中，也可以在该步骤中计算目标向量，在本申请实施例中不作限制，但通过该方法会延长检测时间。

S233，根据相似度确定从待检测图片中获取的兴趣点的明名称与待识别兴趣点的名称是否相同。

当通过公式1.5计算的识别向量与目标向量的余弦值为1时，表示第一字符串和第二字符串相同，即检测待识别图片中的POI名称正确。反之，则不正确。

当确定待检测图片中识别字符与待识别兴趣点的名称不一致时，进行下一步处理，例如重新去采集该地理位置信息处的兴趣点的名称；当确定待检测图片中识别字符与待识别兴趣点的名称一致时，存储该兴趣点的名称以备后续地图导航或者其他应用的使用。

采用本实施例提供的检测图片中兴趣点的方法，根据获取的待识别字符的字符标识选择使用的分类器，并利用选择的分类器进行识别，得到识别出的字符、识别出的字符的位置信息并根据识别得到的识别出的字符、识别出的字符的位置信息和词频信息的POI名称相似度确定待识别图片中POI名称的正确性，降低了识别过程的计算量，提高了检测效率和识别结果的准确性。

需要说明的是，执行图2所示方法的系统可以与执行图1所示训练模型方法的系统可以为一个系统。

还需要说明的是，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以上图1至图5描述了本申请实施例中训练模型和检测待识别图片POI正确性的方法，下面结合图6和图7对本申请实施例提供的系统进行详细的描述。

图6为本申请实施例提供的一种系统的结构示意图。如图6所示，该系统600包括训练模型模块610和检测模块620。训练模型模块610也可以叫做训练模型单元，用于训练多特征级联分类器；检测模块620用于检测待识别图片中POI名称的正确性。

检测模块620包括获取单元621、识别单元622和确定单元623。检测模块620对待识别图片中POI名称进行检测的过程如下：

获取单元621，用于根据待识别兴趣点的名称获取预先训练的至少一个多特征级联分类器；

识别单元622，用于使用所述至少一个多特征级联分类器对待检测图片进行识别，得到至少一个字符；

确定单元623，用于基于所述至少一个字符确定所述待检测图片中是否存在所述兴趣点的名称。

具体的，根据待识别兴趣点的名称选择与待识别兴趣点名称字符相对应的多特征级联分类器，通过选择的多特征级联分类器识别待检测图片，从待检测图片中得到识别出的字符，并确定识别出的字符是否与待识别兴趣点的名称相同。

通过本申请实施例提供的系统，通过根据待识别兴趣点的名称确定多特征级联分类器，并对待识别图片进行识别，确定待检测图片中的兴趣点的名称是否与待识别兴趣点的名称一致，减少了识别过程中的计算量，提高了检测效率和识别结果的准确率。

可选地，在本申请实施例中，获取单元621具体用于，

根据待识别兴趣点的名称中的各个字符，从预先训练的多个多特征级联分类器中选择与待识别兴趣点的名称中的各个字符的对应的多特征级联分类器。

每个字符都有唯一的字符标识ID，每个多特征级联分类器也对应相应的字符有个唯一的ID，系统中包括字符标识和多级联分类器标识的对应关系。通过待识别兴趣点的名称选择多特征级联分类器，可以通过待识别兴趣点的名称相应的字符标识与多级联分类器的标识选择需要的多级联分类器。

其中，每个字符可以选择一个或多个多特征级联分类器。

可选地，作为本申请另一实施例，识别单元622具体用于，

对于每一个多特征级联分类器，通过滑窗方式，使用多特征级联分类器对所述待检测图片进行识别，得到识别到的字符。

具体的，如图7所示，识别单元622可以包括：

识别子单元6221，用于通过滑窗方式，使用多特征级联分类器对待检测图片进行识别；

判断子单元6222，用于判断是否识别到多特征级联分类器所对应的字符；

记录子单元6223，用于当识别到多特征级联分类器所对应的字符时，则记录识别到的字符的大小信息以及识别到的字符在待检测图片中的位置信息。

识别子单元6221通过选择的多特征级联分类器，对待检测的图片不断缩放，每一层图片可以通过滑窗方式，对待检测图片进行识别，得到识别出的字符。判断子单元6222识别出的字符是否为多级联分类器对应的字符；当识别出的字符是与使用的分类器所对应的字符相同时，确定识别出的字符的位置信息和大小信息，并通过记录子单元6223记录。

应理解在本申请实施例中，该系统还可以通过其他的方式对待识别字符进行识别。例如：先检测出待识别字符区域，再切割文字区域得到单个字符的小图，再对小图进行识别。

可选地，作为本申请另一实施例，如图7所示，确定单元623包括：

生成子单元6231，用于根据识别到的字符生成字符串；

判断子单元6222还用于，判断字符串与待识别兴趣点的名称的匹配度是否达到了预设的阈值，若是，则说明待检测图片中存在所述兴趣点的名称。

具体的，生成子单元6231可以根据识别出的字符的位置信息、大小信息和预设的生成有效字符串的确定条件，从识别出的字符中确定有效字符串，或者说确定待识别图片中的兴趣点的名称。

该确定有效字符串的过程可以通过如图4所示的生成有效字符串的方法过程完成，为简洁描述，在这里不再赘述。

在本申请实施例中，判断子单元6222可以通过计算识别出的有效字符串中每个识别字符的TF-IDF值，并确定识别出的兴趣点的名称的识别向量，与系统600中预先存储的待识别兴趣点的名称对应字符的TF-IDF值确定的目标向量确定待检测图片中获取的兴趣点的名称与待识别兴趣点的名称的相似度；根据相似度确定待识别兴趣点的名称与从待检测图片中识别出的兴趣点的名称是否一致。

相似度的确定具体可以通过公式1.5来实现，为简洁描述，在这里不再赘述。

在系统600对待检测图片进行识别，并确定与待识别兴趣点的名称是否一致之前，该系统600中的训练模型模块610需要先训练多特征级联分类器。

作为本申请另一实施例，如图7所示，训练模型模块610可以包括：选择子单元6101、训练子单元6102、确定子单元6103和计算子单元6104。

具体过程为：选择子单元6101对根据预先准备的多个训练字符进行聚类，得到多类训练字符。训练子单元6102为每一类训练字符训练一个多特征级联分类器。

选择子单元6101根据每个训练字符的宽高比进行聚类，得到多类备选训练字符及每一类备选训练字符中的字符个数；

确定子单元6103，用于根据多类备选训练字符及每一类备选训练字符中的字符个数确定最终的多类训练字符。

判断每一类备选训练字符的字符个数是否都达到预设阈值。当每一类备选训练字符的字符个数是均达到预设阈值时，将多类备选训练字符确定为最终的多类训练字符；

当一类或者多类备选训练字符的字符个数是未达到预设阈值时，可以降低类的数目，例如，将类的数目减一，并根据每个训练字符的宽高比对预先准备的多个训练字符进行重新聚类，再判断每一类中训练字符的字符个数是否达到预设阈值。

需要说明的是，在实际应用中，可以根据实际的应用情况适当减少目标宽高比的个数，以完成多特征级联分类器。

在本申请实施例中，在通过聚类方法确定备选训练字符的类数时，可以通过计算子单元6104计算每一类训练字符的宽高比中心。

训练子单元6102分别根据每一类训练字符的宽高比中心，以及每一类训练字符中的每个字符的至少两个特征，为每一类训练字符训练一个多特征级联分类器。

在本申请实施例中，多特征级联分类器的每一级分类器都采用Adaboost算法。每一级的分类器可以采用不同的特征，例如：Haar特征、Hog特征、LBP特征或者其他特征。

需要说明的是，本申请实施例提供的系统600中的各个单元的上述和其他操作和/或功能可以实现图2、图4和图5中各个方法的相应流程，为了描述简洁，在此不再赘述。

采用本申请实施例提供的系统，通过训练多特征级联分类器；根据待识别兴趣点的名称选择多特征级联分类器，并通过选择的多特征级联分类器对待检测图片进行识别，减小了识别过程的计算量，提高了检测的效率和识别结果的准确率。

在实际应用中，通过实施例提供的检测图片中兴趣点的方法和系统，对POI名称进行检测，其准确率高达99.8％，召回率为58％。在2.6GHZ Intel(R)Xeon(R)服务器上，运行时间效率：0.59s/张图，占用内存在500M以内。而现有技术中对标准汉字的识别准确率才可以达到95％。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种检测图片中兴趣点的方法，其特征在于，所述方法包括：

根据待识别兴趣点的名称中的各个字符，从预先训练的多个多特征级联分类器中选择与所述各个字符分别对应的多特征级联分类器；

使用所选择的多特征级联分类器对待检测图片进行识别，得到至少一个字符；

基于所述至少一个字符确定所述待检测图片中是否存在所述兴趣点的名称；

其中，所述基于所述至少一个字符确定所述待检测图片中是否存在所述兴趣点的名称，包括：

根据识别到的字符生成字符串；

判断所述字符串与所述兴趣点的名称的匹配度是否达到了预设的阈值，若是，则说明所述待检测图片中存在所述兴趣点的名称。

2.根据权利要求1所述的方法，其特征在于，所述使用所选择的多特征级联分类器对待检测图片进行识别，得到至少一个字符，包括：

对于每一个多特征级联分类器，通过滑窗方式，使用所述多特征级联分类器对所述待检测图片进行识别，得到识别到的字符。

3.根据权利要求2所述的方法,其特征在于，所述通过滑窗方式，使用所述多特征级联分类器对所述待检测图片进行识别，得到识别到的字符，包括：

通过滑窗方式，使用所述多特征级联分类器对待检测图片进行识别；

判断是否识别到所述多特征级联分类器所对应的字符；

若是，则记录所述识别到的字符的大小信息以及所述识别到的字符在所述待检测图片中的位置信息。

4.根据权利要求1所述的方法，其特征在于，所述根据识别到的字符生成字符串，包括：

根据所述识别到的字符的大小信息以及所述识别到的字符在所述待检测图片中的位置信息生成字符串。

5.根据权利要求1所述的方法，其特征在于，所述根据待识别兴趣点的名称中的各个字符，从预先训练的多个多特征级联分类器中选择与所述各个字符分别对应的多特征级联分类器之前，所述方法还包括：

训练多特征级联分类器。

6.根据权利要求5所述的方法，其特征在于，所述训练多特征级联分类器包括：对根据预先准备的多个训练字符进行聚类，得到多类训练字符；

为每一类训练字符训练一个多特征级联分类器。

7.根据权利要求6所述的方法，其特征在于，所述对根据预先准备的多个训练字符进行聚类，得到多类训练字符，包括：

根据每个训练字符的宽高比进行聚类，得到多类备选训练字符及每一类备选训练字符中的字符个数；

根据多类备选训练字符及每一类备选训练字符中的字符个数确定最终的多类训练字符。

8.根据权利要求7所述的方法，其特征在于，所述根据多类备选训练字符及每一类备选训练字符中的字符个数确定最终的多类训练字符，包括：

判断所述每一类备选训练字符的字符个数是否都达到预设阈值时；

若是，则将所述多类备选训练字符确定为最终的多类训练字符；

否则，降低所述类的数目，并根据所述每个训练字符的宽高比对预先准备的多个训练字符进行重新聚类，再判断每一类中训练字符的字符个数是否达到所述预设阈值。

9.根据权利要求6-8任一项所述的方法，其特征在于，所述为每一类训练字符训练一个多特征级联分类器，包括：

计算每一类训练字符的宽高比中心；

分别根据所述每一类训练字符的宽高比中心，以及每一类训练字符中的每个字符的至少两个特征，为所述每一类训练字符训练一个多特征级联分类器。

10.一种检测图片中兴趣点的系统，其特征在于，所述系统包括：获取单元、识别单元和确定单元；

所述获取单元，用于根据待识别兴趣点的名称中的各个字符，从预先训练的多个多特征级联分类器中选择与所述各个字符分别对应的多特征级联分类器；

所述识别单元，用于使用所选择的多特征级联分类器对待检测图片进行识别，得到至少一个字符；

所述确定单元，用于基于所述至少一个字符确定所述待检测图片中是否存在所述兴趣点的名称；

其中，所述确定单元还包括：

生成子单元，用于根据识别到的字符生成字符串；

判断子单元，用于判断所述字符串与所述兴趣点的名称的匹配度是否达到了预设的阈值，若是，则说明所述待检测图片中存在所述兴趣点的名称。

11.根据权利要求10所述的系统，其特征在于，所述识别单元具体用于，

12.根据权利要求11所述的系统,其特征在于，所述识别单元包括：

识别子单元，用于通过滑窗方式，使用所述多特征级联分类器对待检测图片进行识别；

判断子单元，用于判断是否识别到所述多特征级联分类器所对应的字符；

记录子单元，用于当识别到所述多特征级联分类器所对应的字符时，则记录所述识别到的字符的大小信息以及所述识别到的字符在所述待检测图片中的位置信息。

13.根据权利要求10所述的系统，其特征在于，所述生成子单元具体用于，

14.根据权利要求10所述的系统，其特征在于，所述系统还包括：

训练模型单元，用于训练多特征级联分类器。

15.根据权利要求14所述的系统，其特征在于，所述训练模型单元包括：

选择子单元，用于对根据预先准备的多个训练字符进行聚类，得到多类训练字符；

训练子单元，用于为每一类训练字符训练一个多特征级联分类器。

16.根据权利要求15所述的系统，其特征在于，所述训练模型单元还包括确定子单元；

所述选择子单元具体用于，根据每个训练字符的宽高比进行聚类，得到多类备选训练字符及每一类备选训练字符中的字符个数；

所述确定子单元，用于根据多类备选训练字符及每一类备选训练字符中的字符个数确定最终的多类训练字符。

17.根据权利要求16所述的系统，其特征在于，所述确定子单元具体用于，包括：

18.根据权利要求15-17任一项所述的系统，其特征在于，所述训练模型单元还包括计算子单元，

所述计算子单元，用于计算每一类训练字符的宽高比中心；

所述训练子单元具体用于，分别根据所述每一类训练字符的宽高比中心，以及每一类训练字符中的每个字符的至少两个特征，为所述每一类训练字符训练一个多特征级联分类器。