CN112541496B

CN112541496B - 提取poi名称的方法、装置、设备和计算机存储介质

Info

Publication number: CN112541496B
Application number: CN202011551328.4A
Authority: CN
Inventors: 王洪志; 范淼; 黄际洲
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-08-22
Anticipated expiration: 2040-12-24
Also published as: CN112541496A

Abstract

本公开公开了一种提取POI(兴趣点)名称的方法、装置、设备和计算机存储介质，涉及大数据技术领域。具体实现方案为：从POI的图像数据中检测属于同一招牌的各单字区域；对各单字区域进行文字识别，得到各单字区域对应的至少一个候选文字；利用已有的POI名称库，从文字序列集合中确定作为POI名称的概率最大的文字序列，其中各文字序列由各单字区域对应的候选文字按照各单字区域在所述招牌中的顺序组合得到；由确定出的文字序列得到所述招牌对应的POI名称。本申请能够实现POI名称的自动提取，降低人力成本。

Description

提取POI名称的方法、装置、设备和计算机存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种大数据领域中提取POI名称的方法、装置、设备和计算机存储介质。

背景技术

POI(Point of Interest)指的是兴趣点，是地理信息系统中的一个术语，泛指一切可以抽象为点的地理对象，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站、一所学校、一个医院，等等。POI的主要用途是对事物或事件的位置进行描述，从而增强对事物或事件位置的描述能力和查询能力。

在互联网地图类应用中，POI扮演了非常重要的角色。通过使用POI，用户可以在地图中方便地找到感兴趣的地点以及到达该地点的路线。因此如何准确地挖掘出POI是一项非常重要的工作。作为一种较为常用的方式，可以通过采集图像数据，例如街景图像等，从采集的图像数据中提取POI的名称，并结合采集地点，从而建立POI名称和位置之间的关联关系。其中在从采集的图像数据中提取POI名称时，现有技术往往对图像数据进行文字识别并结合人工审核和标注的方式来确定POI名称。显然这种方式需要花费大量的人力，成本较高，数据更新较慢。

发明内容

本公开提供了一种提取POI名称的方法、装置、设备和计算机存储介质，以便于实现POI名称的自动提取，降低人力成本。

根据本公开的第一方面，提供了一种提取POI名称的方法，包括：

从POI的图像数据中检测属于同一招牌的各单字区域；

对各单字区域进行文字识别，得到各单字区域对应的至少一个候选文字；

利用已有的POI名称库，从文字序列集合中确定作为POI名称的概率最大的文字序列，其中各文字序列由各单字区域对应的候选文字按照各单字区域在所述招牌中的顺序组合得到；

由确定出的文字序列得到所述招牌对应的POI名称。

根据本公开的第二方面，提供了一种提取POI名称的装置，包括：

区域检测单元，用于从POI的图像数据中检测属于同一招牌的各单字区域；

文字识别单元，用于对各单字区域进行文字识别，得到各单字区域对应的至少一个候选文字；

序列确定单元，用于利用已有的POI名称库，从文字序列集合中确定作为POI名称的概率最大的文字序列，其中各文字序列由各单字区域对应的候选文字按照各单字区域在所述招牌中的顺序组合得到；

名称确定单元，用于由所述序列确定单元确定出的文字序列得到所述招牌对应的POI名称。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

由以上技术方案可以看出，可以从POI的图像数据中自动提取出POI名称，节省了人力成本，提高了效率。

应当理解，本部分分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了可以应用本公开实施例的方法或装置的示例性系统架构；

图2为本公开实施例提供的主要方法流程图；

图3a和图3b为本公开实施例提供的两个POI的招牌图像实例图；

图3c为本公开实施例提供的招牌区域的实例图；

图3d为本公开实施例提供的单字区域的实例图；

图4a和图4b为本公开实施例提供的区域检测模型的两种结构示意图；

图5为本公开实施例提供的装置结构图；

图6是用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着AI技术的不断升级，目前也出现了一些从图像数据中自动提取POI名称的方式。主要包括以下两种：

第一种方式，通过预先训练的端到端模型，实现在输入采集到的图像数据后自动提取出POI名称。

这种方式将图像中的区域检测和POI名称识别通过一个模型实现，识别速度快。这种模型在存在大量训练数据的场景下效果较好，但由于POI语义场景的特殊性(POI名称中文字之间语义关系与常见文本语义差别很大)导致训练数据非常少，且难以构造。这就造成了这种方式对POI语义理解困难、抗干扰能力差且识别出错误后难以修正，最终导致提取的POI名称准确性差。

第二种方式，通过图图匹配的方式，将采集到的图像数据与已有POI数据库中的招牌图像进行匹配，依据相似度来确定采集到的图像数据包含的POI名称。但这种方式对于一些相似招牌但文字实际不同的情况很难区分。且这种方式依赖历史招牌图像的积累，对于一些新出现的招牌则无法准确识别。

可以看出，目前存在的从图像数据中自动提取POI名称的方式大多采用的是从全局上捕捉文字内容的思路。而本公开则打破了这种常规思路，采用先从细节上提取文字内容，再从全局上捕捉文字之间在POI语义场景下的关系，从而提高提取POI名称的准确性。

图1示出了可以应用本公开实施例的方法或装置的示例性系统架构。如图1所示，该系统架构可以包括终端设备101和102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用，例如地图类应用、网页浏览器应用、通信类应用等。

终端设备101和102可以是能够运行地图类应用的各类用户设备。包括但不限于智能手机、平板电脑、PC、智能电视等等。本公开所提供的提取POI名称的装置可以设置并运行于上述服务器104中，也可以运行于独立于服务器104的设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。服务器104可以与POI数据库105之间进行交互，具体地，服务器104可以从POI数据库105中获取数据，也可以将数据存储于POI数据库105中。POI数据库105中存储有包括POI信息的地图数据。

例如，提取POI名称的装置设置并运行于上述服务器104中，服务器104采用本公开实施例提供的方法基于POI图像数据进行POI名称的提取，然后利用获取的POI的名称或者进一步结合该POI图像数据对应的地点更新POI数据库105。服务器104能够响应于终端设备101、102的查询请求，查询POI数据库105，并向终端设备101、102返回所查询POI的信息。终端设备101、102也可以采集POI图像数据，并将POI图像数据以及对应的采集地点信息上传至服务器107。

服务器104可以是单一服务器，也可以是多个服务器构成的服务器群组。另外104除了以服务器的形式存在之外，也可以是具有较高计算性能的其他计算机系统或处理器。应该理解，图1中的终端设备、网络、服务器和数据库的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器和数据库。

图2为本公开实施例提供的主要方法流程图，如图2中所示，该方法可以包括以下步骤：

在201中，从POI的图像数据中检测属于同一招牌的各单字区域。

本公开的场景是：已采集到POI的图像数据，需要从POI的图像数据中提取POI名称。本公开并不限于POI的图像数据的采集方式，可以由专门的采集人员到POI实地进行采集，也可以由用户通过终端设备进行采集和上传等等。该POI的图像数据通常为拍摄的POI的招牌图像，在POI图像数据中可能仅包含一个招牌，例如图3a中所示；也可能包含多个招牌，例如图3b中所示。

在本步骤中，一方面要识别出图像中的各招牌区域，再一方面要识别单字区域。招牌区域比较容易理解，指的是一个招牌的区域。例如从图3b中确定出其中一个招牌区域如图3c中所示。单字区域指的是由单个文字所构成的区域，该区域中仅包含单个文字。例如从图3c中确定出7个单字区域可以如图3d中所框出的部分。

在202中，对各单字区域进行文字识别，得到各单字区域对应的至少一个候选文字。

本公开中不再对整个图片或者整个招牌中的文字进行整体识别，而是分别对各单字区域的文字进行识别。具体识别方式将在后续实施例中详述，对于每个单字区域可以识别出至少一个候选文字。

在203中，利用已有的POI名称库，从文字序列集合中确定作为POI名称的概率最大的文字序列，其中各文字序列由各单字区域对应的候选文字按照各单字区域在所述招牌中的顺序组合得到。

本步骤中所采用的顺序，可以依据所在国家、地区或者时期所使用的文字书写习惯来确定。例如，在中国现阶段通常在招牌中采用从左至右或从上至下的书写习惯，那么当同一招牌中的各文字区域呈横方向分布，则可以按照从左至右的顺序来组合得到文字序列。当一个招牌中的各文字区域呈纵方向分布，则可以按照从上至下的顺序来组合得到文字序列。

在确定作为POI名称的概率最大的文字序列时，基于已有的POI名称库，即按照已有POI名称所具有的文字之间的语义关系得到。具体将在后续实施例中进行详述。

在204中，由确定出的文字序列得到上述招牌对应的POI名称。

在确定作为POI名称的概率最大的文字序列后，可以直接将该文字序列确定为招牌对应的POI名称。也可以对该文字序列进行核查、修正等处理后，得到招牌对应的POI名称。

由以上实施例提供的技术方案可以看出，可以从POI的图像数据中自动提取出POI名称，节省了人力成本，提高了效率。

并且，本申请中从POI的图像数据中检测属于同一招牌的各单字区域后，基于各单字区域的文字识别结果，利用已有POI名称库中各文字之间的语义关系确定作为POI名称的概率最大的文字序列，使得提取出的POI名称更加准确地符合POI名称这一特定场景。

下面结合实施例对上述步骤201即“从POI的图像数据中检测属于同一招牌的各单字区域”进行详细描述。具体地，该步骤的实现方式可以采用但不限于以下三种：

第一种方式：首先对POI的图像数据进行招牌检测，确定至少一个招牌区域。然后分别对各招牌区域进行单字区域检测，确定各招牌区域中的各单字区域。

这种方式是先进行招牌检测，然后基于招牌检测结果进行单字区域检测。其中，招牌检测可以利用预先建立的招牌检测模型实现，单字区域检测可以利用预先建立的文字区域检测模型实现。其中招牌检测模型和文字区域检测模型的具体方式可以已有较为成熟的技术，在此不做详细描述。

第二种方式：对POI图像数据进行单字检测，确定POI的图像数据中的各单字区域；对POI的图像数据进行招牌检测，确定POI的图像数据中的各招牌区域；然后确定属于同一招牌区域的各单字区域。

在该方式中，单字检测和招牌检测分别进行，即利用文字区域检测模型检测出POI的图像数据中的所有单字区域，利用招牌检测模型检测出POI的图像数据中的所有招牌区域。然后依据招牌区域信息确定属于同一招牌区域的各单字区域。其中招牌检测模型和文字区域检测模型的具体方式可以已有较为成熟的技术，在此不做详细描述。

第三种方式：将POI的图像数据输入预先训练得到的区域检测模型，利用区域检测模型的输出确定该POI的图像数据中的各招牌区域和各单字区域；确定属于同一招牌区域的各单字区域。

这种方式区别于上面两种分别进行招牌区域检测和单字区域检测的方式，而是通过一个区域检测模型同时实现招牌区域和单字区域的检测。下面对区域检测模型进行详细描述。

在训练区域检测模型时，首先获取训练数据。其中训练数据包括样本POI图像数据以及对样本POI图像数据标注的招牌区域信息和各单字区域信息。即预先获取一些包含招牌的图像数据，并对其标注好招牌区域和各单字区域。其中包含招牌的图像数据可以是诸如通过用户手机采集的包含招牌的图像，也可以是专业采集车采集的包含招牌的图像，还可以是诸如行车记录集等设备采集的包含招牌的图像，等等。

然后将样本POI图像数据作为区域检测模型的输入，将标注的招牌区域信息和各单字区域信息作为区域检测模型的目标输出，训练区域检测模型。也就是说，训练区域检测模型使得对样本POI图像数据中招牌区域信息的检测和单字区域信息的检测尽可能与标注相一致。

其中区域检测模型的具体结构可以采用但不限于以下两种：

第一种结构：如图4a中所示，该区域检测模型可以包括：特征提取网络、招牌分类网络、招牌回归网络和文字分类网络。

其中特征提取网络，用于从输入的图像数据中提取各像素的特征表示。其中各像素的特征可以基于像素的RGB特征、亮度特征、纹理特征等中的至少一种进行编码得到。该网络可以基于诸如CNN(Convolutional Neural Networks，卷积神经网络)等神经网络得到。

招牌回归网络，用于利用各像素的特征表示，输出招牌框的位置信息。招牌回归网络实际上是确定出招牌框的位置信息。

招牌分类网络，用于利用各像素的特征表示进行分类，输出上述招牌框是否为招牌区域的分类结果。招牌回归网络和招牌分类网络实际上是一个确定出招牌框，一个计算招牌框是招牌区域的置信度。上述位置信息可以与置信度进行结合，最终确定出POI的图像数据中的招牌区域。

文字分类网络，用于利用各像素的特征表示，输出各像素是否属于文字区域的分类结果。文字分类网络实际上是对各像素进行分类，以确定各像素是否属于文字区域。该分类结果用以确定单字区域，具体地，可以采用对属于文字区域的像素进行连通域分析的方式，确定各单字区域。其中连通域分析的方式可以采用已有较为成熟的方式，在此不做详述。

在训练图4a所示区域检测模型时，可以构建多任务进行训练。即分别构建招牌分类任务、招牌回归任务和文字分类任务。其中招牌分类任务是利用样本POI数据中对于招牌区域信息的标注使得招牌分类网络的输出符合预期(即招牌区域的标注)，可以通过构建损失函数loss1来实现。招牌回归任务是利用样本POI数据中对于招牌区域信息的标注使得招牌回归网络的输出符合预期(即招牌区域的位置的标注)，可以通过构建损失函数loss2来实现。文字分类任务是利用样本POI数据中对于单字区域信息的标注使得文字分类网络的输出符合预期(即单字区域的标注)，可以通过构建损失函数loss3来实现。

其中，上述招牌分类任务和文字分类任务的损失函数loss1和loss3可以采用诸如交叉熵损失函数，上述招牌回归任务的损失函数loss2可以采用均方差损失函数，也可以采用其他自定义的损失函数。在训练区域检测模型的过程中，可以利用loss1、loss2和loss3的和或者加权和得到一个总的loss，利用该总的loss更新特征提取网络、招牌分类网络、招牌回归网络和文字分类网络的模型参数。

上述区域检测模型的结构和训练过程，通过多任务训练的方式，使得模型能够在训练过程中学习招牌区域和文字区域之间的相互影响，从而提高模型检测的准确性。

第二种结构：如图4b中所示，该区域检测模型可以包括：特征提取网络、候选区域筛选层、区域裁剪层、招牌分类网络、招牌回归网络和文字分类网络。与第一中结构不同的是，在本结构中特征提取网络之后增加了候选区域筛选层和区域裁剪层。

特征提取网络，用于从输入的图像数据中提取各像素的特征表示。这部分与第一种结构中相同，不做赘述。

候选区域筛选层，用于依据各像素的特征表示对各像素进行排序，依据排序结果初步筛选候选招牌区域。该候选区域筛选层首先对各像素进行是否属于招牌区域的初步评分，依据评分确定出候选招牌区域。

区域剪裁层，用于对候选招牌区域进行剪裁。即剪裁出候选招牌区域进行后续的招牌分类、招牌回归和文字分类，从而降低后续网络的计算量。

招牌回归网络，用于利用剪裁出的各候选招牌区域中各像素的特征表示，输出招牌框的位置信息。

招牌分类网络，用于利用剪裁出的各候选招牌区域中各像素的特征表示进行分类，输出上述招牌框是否为招牌区域的分类结果。具体可以体现为招牌框是招牌区域的置信度，如果置信度大于或等于预设置信度阈值，则说明该招牌框确实为招牌区域。

文字分类网络，用于利用剪裁出的各候选招牌区域中各像素的特征表示，输出各像素是否属于文字区域的分类结果。

同样，在训练图4b所示区域检测模型时，可以构建多任务进行训练。即分别构建招牌分类任务、招牌回归任务和文字分类任务。其中招牌分类任务是利用样本POI数据中对于招牌区域信息的标注使得招牌分类网络的输出符合预期(即招牌区域的标注)，可以通过构建损失函数loss1来实现。招牌回归任务是利用样本POI数据中对于招牌区域信息的标注使得招牌回归网络的输出符合预期(即招牌区域的位置的标注)，可以通过构建损失函数loss2来实现。文字分类任务是利用样本POI数据中对于单字区域信息的标注使得文字分类网络的输出符合预期(即单字区域的标注)，可以通过构建损失函数loss3来实现。在训练区域检测模型的过程中，可以利用loss1、loss2和loss3的和或者加权和得到一个总的loss，利用该总的loss更新特征提取网络、招牌分类网络、招牌回归网络和文字分类网络的模型参数。

另外，上述招牌分类网络和招牌回归网络的输出在训练过程中可以反馈至候选区域筛选层和/或区域剪裁层，供候选区域筛选层和区域剪裁层进行学习。

同样，上述区域检测模型的结构和训练过程，通过多任务训练的方式，使得模型能够在训练过程中学习招牌区域和文字区域之间的相互影响，从而提高模型检测的准确性。并且在融入候选区域筛选层和区域裁剪层之后，使得模型的检测更加精细和准确。

下面结合实施例对上述步骤202即“对各单字区域进行文字识别，得到各单字区域对应的至少一个候选文字”进行详细描述。具体地，本步骤可以采用但不限于以下两种实现方式：

第一种方式：将单字区域在预先设置的单字图片库中进行匹配，确定与该单字区域的匹配度满足预设要求的单字图片对应的文字作为候选文字。即“图图匹配”的方式。

预先设置单字图片库，即在单字图片库中每个文字存在对应的至少一张图片。单字图片库中的图片可以是从历史招牌图像中剪裁出的，也可以是从诸如互联网等其他途径获取并剪裁出的。

在步骤201确定出各单字区域后，将单字区域在单字图片库中进行匹配，即分别计算单字区域与单字图片库中各图片之间的相似度，将相似度满足预设要求的图片对应的单字确定为该单字区域对应的候选文字。其中相似度满足预设要求可以是相似度大于或等于预设相似度阈值，也可以是相似度排在前N个，所述N为预设的正整数。

其中在计算单字区域与单字图片库中各图片的相似度时，可以采用基于深度神经网络预先训练得到的相似度计算模型。

第二种方式：将单字区域输入文字识别模型，依据文字识别模型的识别结果确定该单字区域对应的候选文字。其中文字识别模型可以基于分类模型预先训练得到。

在本方式中，可以利用样本单字区域以及对该样本单字区域进行的文字标注，预先训练分类模型，得到文字识别模型。即将样本单字区域作为分类模型的输入，对应的文字标注作为分类模型的目标输出。训练得到的文字识别模型能够在输入单字区域的情况下，对该单字区域进行分类，得到该单字区域在各分类结果上的概率，依据概率值确定对应的候选文字。例如，选取概率值大于或等于预设概率阈值的分类结果作为候选文字。再例如，选取概率值排在前M个的分类结果作为候选文字，所述M为预设的正整数。

作为一种优选的实施方式，如果经过步骤202中对单字区域进行文字识别后，出现至少一个单字区域的文字识别失败。例如文字识别出的置信度低于预设的阈值，则认为文字识别失败。则可以认为该POI的图像数据质量较差，不符合质量要求，可以丢弃该POI的图像数据，不对其继续进行POI名称的提取。这种方式能够很好地解决招牌被遮挡、模糊等问题，从而挑选出好的招牌进行POI名称提取，提高POI名称提取的准确性。

下面结合实施例对上述步骤203即“利用已有的POI名称库，从文字序列集合中确定作为POI名称的概率最大的文字序列，其中各文字序列由各单字区域对应的候选文字按照各单字区域在招牌中的顺序组合得到”进行详细描述。

在本步骤中可以按照各单字区域在招牌中的顺序，将各单字区域对应的候选文字组合得到各文字序列，利用已有的POI名称库，确定各文字序列作为POI名称的概率，并从中选取最大概率对应的文字序列。

其中利用已有的POI名称库确定各文字序列作为POI名称的概率时，可以基于已有POI名称库中的POI名称，统计文字序列的后验概率。

本步骤可以基于HMM(Hidden Markov Model，隐马尔可夫模型)实现。即依据各单字区域在招牌中的顺序形成观测序列，状态矩阵由各单字区域对应的候选文字得到，对应的取值可以由各候选文字的置信度确定。然后利用HMM确定与观测序列最匹配的状态序列。

其中HMM采用的状态转移概率矩阵依据已有POI名称库进行统计得到，即该状态转移矩阵包含的是各状态之间在已有POI名称库中作为上下文的概率。

更进一步地，上述状态转移概率还可以融入各文字区域在招牌上的距离远近因素。例如利用各文字区域的最大文字间隔做归一化后，用1减去该归一化的值来辅助确定各文字区域对应的候选文字之间的转移概率。其中文字区域之间的距离越近，状态转移的概率越高。

若候选文字的确定方式采用上面实施例中的“图图匹配”的方式，则上述候选文字的置信度可以采用对应的图片的匹配度。若候选文字的确定方式采用上面实施例中的基于文字识别模型的方式，则上述候选文字的置信度可以采用文字识别模型输出的分类结果的概率。

HMM在选取最大概率对应的文字序列时，可以利用诸如dijkstra(迪杰斯特拉)等动态规划算法实现，即找到马科夫链上概率最大的文本串。关于HMM的工作原理在此不做详述。

在此列举一个具体的实例对上述实现流程中的优选实施方式进行说明：

假设需要从图3b所示的POI的图像数据中提取POI名称。首先可以将该图像数据输入区域检测模型，利用该区域检测模型的输出可以得到该图像数据中的各招牌区域和各单字区域，并确定属于同一招牌区域的各单字区域。在图3b中得到三个招牌区域，在此以其中一个招牌区域为例，如图3c中所示。该招牌区域中的各单字区域如图3d中所示。

然后分别对各单字区域进行文字识别，例如采用“图图匹配”的方式进行文字识别，即将单字区域在预先设置的单字图片库中进行匹配，确定与该单字区域的匹配度满足预设要求的单字图片对应的文字作为候选文字。

假设确定出的“新”所在的单字区域对应的候选文字包括：“新”、“靳”。“娘”所在的单字区域对应的候选文字包括：“娘”、“粮”。其他单字区域类似，不做描述。

按照各单字区域在招牌中的顺序，可以组合出诸如“新新娘……”、“靳新娘……”、“新靳娘……”、“新新粮……”等文字序列。通过HMM基于已有POI名称库计算各文字序列的后验概率，并从中选取概率值最大的文字序列，例如概率值最大的文字序列为“新新娘婚纱摄影”作为该招牌中的POI名称。

在采用上述实施例最终确定出POI名称后，可以结合采集该POI的图像数据对应的地点信息，利用POI名称、地址、坐标等信息更新POI数据库。其中对POI数据库进行的更新包括POI信息的新增、修改、失效等等。后续用户在地图应用中检索该POI时，就能够基于该POI名称、地址、坐标等信息为用户提供服务。

以上是对本申请提供的方法进行的详细描述，下面结合实施例对本申请提供的装置进行详细描述。

图5为本公开实施例提供的装置结构图，该装置可以是位于服务器端的应用，或者还可以是位于服务器端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者，还可以位于具有较强计算能力的计算机终端，本发明实施例对此不进行特别限定。如图5中所示，该装置500可以包括：区域检测单元01、文字识别单元02、序列确定单元03和名称确定单元04，还可以进一步包括模型训练单元05。其中各组成单元的主要功能如下：

区域检测单元01，用于从POI的图像数据中检测属于同一招牌的各单字区域。

文字识别单元02，用于对各单字区域进行文字识别，得到各单字区域对应的至少一个候选文字。

序列确定单元03，用于利用已有的POI名称库，从文字序列集合中确定作为POI名称的概率最大的文字序列，其中各文字序列由各单字区域对应的候选文字按照各单字区域在招牌中的顺序组合得到。

名称确定单元04，用于由序列确定单元03确定出的文字序列得到招牌对应的POI名称。

其中，区域检测单元01可以采用但不限于以下三种方式来实现：

第一种方式：区域检测单元01对POI的图像数据进行招牌检测，确定至少一个招牌区域；分别对各招牌区域进行单字区域检测，确定各招牌区域中的各单字区域。

第二种方式：区域检测单元01对POI的图像数据进行单字检测，确定POI的图像数据中的各单字区域；对POI的图像数据进行招牌检测，确定POI的图像数据中的各招牌区域；确定属于同一招牌区域的各单字区域。

第三种方式：区域检测单元01将POI的图像数据输入预先训练得到的区域检测模型，利用区域检测模型的输出确定POI的图像数据中的各招牌区域和各单字区域；确定属于同一招牌区域的各单字区域。

在该方式下，模型训练单元05负责预先训练得到区域检测模型。具体包括：获取训练数据，训练数据包括样本POI图像数据以及对样本POI图像数据标注的招牌区域信息和各单字区域信息；将样本POI图像数据作为区域检测模型的输入，将标注的招牌区域信息和各单字区域信息作为区域检测模型的目标输出，训练区域检测模型。

作为其中一种实现方式，上述区域检测模型可以包括：特征提取网络、招牌分类网络、招牌回归网络和文字分类网络。其中，

特征提取网络，用于从输入的图像数据中提取各像素的特征表示。

招牌回归网络，用于利用各像素的特征表示，输出招牌框的位置信息。

招牌分类网络，用于利用各像素的特征表示进行分类，输出各招牌框是否是招牌区域的分类结果。

文字分类网络，用于利用各像素的特征表示，输出各像素是否属于文字区域的分类结果。

作为另外一种实现方式，上述区域检测模型可以包括：特征提取网络、候选区域筛选层、区域裁剪层、招牌分类网络、招牌回归网络和文字分类网络。其中，

候选区域筛选层，用于依据各像素的特征表示对各像素进行排序，依据排序结果初步筛选候选招牌区域。

区域剪裁层，用于对候选招牌区域进行剪裁。

招牌分类网络，用于利用剪裁出的各候选招牌区域中各像素的特征表示进行分类，输出各招牌框是否是招牌区域的分类结果。

作为其中一种优选的实现方式，区域检测单元01在利用区域检测模型的输出确定POI的图像数据中的各招牌区域和各单字区域时，可以利用各招牌框的位置信息以及各招牌框是否是招牌区域的分类结果，确定POI的图像中的各招牌区域；利用各像素是否属于文字区域的分类结果进行连通域分析，得到各单字区域。

具体地，文字识别单元02可以采用但不限于以下两种方式：

第一种方式：文字识别单元02将单字区域在预先设置的单字图片库中进行匹配，确定与该单字区域的匹配度满足预设要求的单字图片对应的文字作为候选文字。

第二种方式：文字识别单元02将单字区域输入文字识别模型，依据文字识别模型的识别结果确定该单字区域对应的候选文字，文字识别模型基于分类模型预先训练得到。

作为一种优选的实施方式，序列确定单元03可以依据各单字区域在招牌中的顺序形成观测序列；利用HMM确定与观测序列最匹配的状态序列；其中，HMM采用的状态转移概率矩阵依据已有POI名称库进行统计得到，采用的状态矩阵依据各单字区域对应的至少一个候选文字得到。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图6所示，是根据本公开实施例的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如提取POI名称的方法。例如，在一些实施例中，提取POI名称的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。

在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的提取POI名称的方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行提取POI名称的方法。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控30制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种提取POI名称的方法，包括：

从POI的图像数据中检测属于同一招牌的各单字区域；

由确定出的文字序列得到所述招牌对应的POI名称；其中，

所述对各单字区域进行文字识别，得到各单字区域对应的至少一个候选文字包括：

将单字区域在预先设置的单字图片库中进行匹配，确定与该单字区域的匹配度满足预设要求的单字图片对应的文字作为候选文字；或者，

将单字区域输入文字识别模型，依据所述文字识别模型的识别结果确定该单字区域对应的候选文字，所述文字识别模型基于分类模型预先训练得到；

所述利用已有的POI名称库，从文字序列集合中确定作为POI名称的概率最大的文字序列包括：

依据各单字区域在所述招牌中的顺序形成观测序列；

利用隐马尔可夫模型，确定与所述观测序列最匹配的状态序列；

其中，所述隐马尔可夫模型采用的状态转移概率矩阵依据已有POI名称库进行统计得到，采用的状态矩阵依据各单字区域对应的至少一个候选文字得到。

2.根据权利要求1所述的方法，其中，所述从POI的图像数据中检测属于同一招牌的各单字区域包括：

对所述POI的图像数据进行招牌检测，确定至少一个招牌区域；

分别对各招牌区域进行单字区域检测，确定各招牌区域中的各单字区域。

3.根据权利要求1所述的方法，其中，所述从POI的图像数据中检测属于同一招牌的各单字区域包括：

对所述POI的图像数据进行单字检测，确定所述POI的图像数据中的各单字区域；

对所述POI的图像数据进行招牌检测，确定所述POI的图像数据中的各招牌区域；

确定属于同一招牌区域的各单字区域。

4.根据权利要求1所述的方法，其中，所述从POI的图像数据中检测属于同一招牌的各单字区域包括：

将所述POI的图像数据输入预先训练得到的区域检测模型，利用所述区域检测模型的输出确定所述POI的图像数据中的各招牌区域和各单字区域；

确定属于同一招牌区域的各单字区域。

5.根据权利要求4所述的方法，其中，所述区域检测模型采用如下方式预先训练得到：

获取训练数据，所述训练数据包括样本POI图像数据以及对所述样本POI图像数据标注的招牌区域信息和各单字区域信息；

将所述样本POI图像数据作为区域检测模型的输入，将标注的招牌区域信息和各单字区域信息作为所述区域检测模型的目标输出，训练所述区域检测模型。

6.根据权利要求4所述的方法，其中，所述区域检测模型包括：特征提取网络、招牌分类网络、招牌回归网络和文字分类网络；其中，

所述特征提取网络，用于从输入的图像数据中提取各像素的特征表示；

所述招牌回归网络，用于利用所述各像素的特征表示，输出招牌框的位置信息；

所述招牌分类网络，用于利用所述各像素的特征表示进行分类，输出所述招牌框是否为招牌区域的分类结果；

所述文字分类网络，用于利用所述各像素的特征表示，输出各像素是否属于文字区域的分类结果。

7.根据权利要求4所述的方法，其中，所述区域检测模型包括：特征提取网络、候选区域筛选层、区域剪裁层、招牌分类网络、招牌回归网络和文字分类网络；其中，

所述候选区域筛选层，用于依据各像素的特征表示对各像素进行排序，依据排序结果初步筛选候选招牌区域；

所述区域剪裁层，用于对所述候选招牌区域进行剪裁；

所述招牌回归网络，用于利用剪裁出的各候选招牌区域中各像素的特征表示，输出招牌框的位置信息；

所述招牌分类网络，用于利用剪裁出的各候选招牌区域中各像素的特征表示进行分类，输出所述招牌框是否为招牌区域的分类结果；

所述文字分类网络，用于利用剪裁出的各候选招牌区域中各像素的特征表示，输出各像素是否属于文字区域的分类结果。

8.根据权利要求6或7所述的方法，其中，利用所述区域检测模型的输出确定所述POI的图像数据中的各招牌区域和各单字区域包括：

利用招牌框的位置信息以及各招牌框是否为招牌区域的分类结果，确定所述POI的图像中的各招牌区域；

利用所述各像素是否属于文字区域的分类结果进行连通域分析，得到各单字区域。

9.一种提取POI名称的装置，包括：

名称确定单元，用于由所述序列确定单元确定出的文字序列得到所述招牌对应的POI名称；其中，

所述文字识别单元，具体用于：

所述序列确定单元，具体用于：

依据各单字区域在所述招牌中的顺序形成观测序列；利用隐马尔可夫模型，确定与所述观测序列最匹配的状态序列；其中，所述隐马尔可夫模型采用的状态转移概率矩阵依据已有POI名称库进行统计得到，采用的状态矩阵依据各单字区域对应的至少一个候选文字得到。

10.根据权利要求9所述的装置，其中，所述区域检测单元，具体用于对所述POI的图像数据进行招牌检测，确定至少一个招牌区域；分别对各招牌区域进行单字区域检测，确定各招牌区域中的各单字区域。

11.根据权利要求9所述的装置，其中，所述区域检测单元，具体用于对所述POI的图像数据进行单字检测，确定所述POI的图像数据中的各单字区域；对所述POI的图像数据进行招牌检测，确定所述POI的图像数据中的各招牌区域；确定属于同一招牌区域的各单字区域。

12.根据权利要求9所述的装置，其中，所述区域检测单元，具体用于将所述POI的图像数据输入预先训练得到的区域检测模型，利用所述区域检测模型的输出确定所述POI的图像数据中的各招牌区域和各单字区域；确定属于同一招牌区域的各单字区域。

13.根据权利要求12所述的装置，还包括：

模型训练单元，用于获取训练数据，所述训练数据包括样本POI图像数据以及对所述样本POI图像数据标注的招牌区域信息和各单字区域信息；将所述样本POI图像数据作为区域检测模型的输入，将标注的招牌区域信息和各单字区域信息作为所述区域检测模型的目标输出，训练所述区域检测模型。

14.根据权利要求12所述的装置，其中，所述区域检测模型包括：特征提取网络、招牌分类网络、招牌回归网络和文字分类网络；其中，

15.根据权利要求12所述的装置，其中，所述区域检测模型包括：特征提取网络、候选区域筛选层、区域剪裁层、招牌分类网络、招牌回归网络和文字分类网络；其中，

所述区域剪裁层，用于对所述候选招牌区域进行剪裁；

16.根据权利要求14或15所述的装置，其中，所述区域检测单元在利用所述区域检测模型的输出确定所述POI的图像数据中的各招牌区域和各单字区域时，具体执行：

17. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。