CN112101165B

CN112101165B - 兴趣点识别方法、装置、计算机设备和存储介质

Info

Publication number: CN112101165B
Application number: CN202010928443.2A
Authority: CN
Inventors: 岳大威; 王宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-07-15
Anticipated expiration: 2040-09-07
Also published as: CN112101165A

Abstract

本申请涉及计算机视觉的一种兴趣点识别方法、装置、计算机设备和存储介质。所述方法包括：获取待处理图像；识别所述待处理图像中的文本区域；对所述文本区域对应的图像进行图像特征提取，获得图像特征；对所述文本区域中的文本内容进行文本特征提取，获得文本特征；提取所述文本区域在所述待处理图像中对应的空间位置特征；将图像特征、文本特征和空间位置特征融合，根据融合后的特征对所述文本区域进行兴趣点识别。采用本方法能够能够精准有效地识别出图像中的兴趣点信息。

Description

兴趣点识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种兴趣点识别方法、装置、计算机设备和存储介质。

背景技术

在地理信息系统中，POI(Point of Information，信息点)也称为兴趣点，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站、一个公司、一所学校等等。POI可以用于对电子地图场景中的事物或事件的位置进行描述，从而增强对事物或事件位置的描述能力和查询能力。随着互联网技术和人工智能等技术的迅速发展，POI信息在互联网地图等领域中起到了重要的作用。例如，通过POI信息，用户可以在地图中方便地找到感兴趣的地点以及到达该地点的路线。

然而目前的方式中，通常是通过人工手动标注出POI信息。这种方式需要花费大量的人力，成本较高，且效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够精准有效地识别出图像中的兴趣点信息的兴趣点识别方法、装置、计算机设备和存储介质。

一种兴趣点识别方法，所述方法包括：

获取待处理图像；

识别所述待处理图像中的文本区域；

对所述文本区域对应的图像进行图像特征提取，获得图像特征；

对所述文本区域中的文本内容进行文本特征提取，获得文本特征；

提取所述文本区域在所述待处理图像中对应的空间位置特征；

将所述图像特征、所述文本特征和所述空间位置特征融合，根据融合后的特征对所述文本区域进行兴趣点识别。

一种兴趣点识别装置，所述装置包括：

数据获取模块，用于获取待处理图像；识别所述待处理图像中的文本区域；

图像特征提取模块，用于对所述文本区域对应的图像进行图像特征提取，获得图像特征；

文本特征提取模块，用于对所述文本区域中的文本内容进行文本特征提取，获得文本特征；

空间特征提取模块，用于提取所述文本区域在所述待处理图像中对应的空间位置特征；

兴趣点识别模块，用于将所述图像特征、所述文本特征和所述空间位置特征融合，根据融合后的特征对所述文本区域进行兴趣点识别。

在其中一个实施例中，所述数据获取模块还用于对所述待处理图像进行文本检测，识别所述待处理图像中的文本行的位置；根据所述文本行的位置，标记所述待处理图像中的文本框，根据所述文本框确定所述待处理图像中的文本区域。

在其中一个实施例中，所述图像特征提取模块还用于通过预先训练的机器学习模型中的图像特征提取层，按照预设尺寸对所述文本区域所对应的图像的区域进行调整，得到区域调整后的图像；提取所述区域调整后的图像对应的特征图；对所述特征图进行多尺度特征提取，得到图像特征。

在其中一个实施例中，所述图像特征提取模块还用于对所述特征图进行全局特征提取，获得全局特征；将所述特征图和所述全局特征进行特征融合，获得融合图特征；对所述融合图特征进行多尺度特征提取，得到图像特征。

在其中一个实施例中，所述文本特征提取模块还用于通过预先训练的机器学习模型中的文本特征提取层，提取所述文本区域中文本内容对应的字向量；根据各所述字向量，提取所述文本内容对应的文本向量；对所述文本向量进行文本分类，根据文本分类结果提取对应的文本特征。

在其中一个实施例中，所述空间特征提取模块还用于通过预先训练的机器学习模型中的空间特征提取层，对所述待处理图像进行区域划分，得到预设数量的图像子区域；根据所述文本区域的位置和各所述图像子区域的位置，提取所述文本区域在所述待处理图像中对应的空间位置特征。

在其中一个实施例中，所述空间特征提取模块还用于根据所述文本区域的边框的位置落入各所述图像子区域的位置，提取所述文本区域在所述待处理图像中的位置特征；提取所述文本区域对应的绝对大小特征和相对大小特征；将所述位置特征、所述绝对大小特征以及所述相对大小特征进行拼接，根据拼接后的特征，确定所述文本区域在所述待处理图像中对应的空间位置特征。

在其中一个实施例中，所述兴趣点识别模块还用于通过预先训练的机器学习模型中的特征融合层，对所述图像特征、所述文本特征和所述空间关系特征进行特征融合，得到目标多模态特征；根据所述目标多模态特征，对所述文本区域进行兴趣点识别。

在其中一个实施例中，所述兴趣点识别模块还用于根据所述图像特征、所述文本特征和所述空间位置特征，对所述文本区域进行实体分类，得到所述文本区域对应的实体类别；根据所述实体类别，对所述文本区域进行兴趣点识别。

在其中一个实施例中，所述机器学习模型通过训练步骤训练获得，上述兴趣点识别装置还包括模块训练模块，用于获取样本图像和训练标签；所述样本图像包括样本文本区域；所述训练标签是与所述样本文本区域对应的兴趣点标签；根据所述样本图像和所述训练标签训练机器学习模型。

在其中一个实施例中，所述模块训练模块还用于通过所述图像特征提取层，提取所述样本文本区域的图像的样本图像特征；通过所述文本特征提取层，提取所述样本文本区域对应的样本文本特征；通过所述空间特征提取层，提取所述样本文本区域在所述样本图像中对应的样本空间位置特征；通过所述特征融合层，将所述样本图像特征、所述样本文本特征向量和所述样本空间位置特征进行融合，得到样本多模态向量；根据所述样本多模态特征对所述样本图像进行兴趣点识别，得到样本兴趣点识别结果；基于所述样本兴趣点识别结果与所述训练标签的差异，调整所述机器学习模型的参数并继续训练，直至满足训练停止条件时停止训练。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理图像；

识别所述待处理图像中的文本区域；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理图像；

识别所述待处理图像中的文本区域；

上述兴趣点识别方法、装置、计算机设备和存储介质，获取待处理图像并识别出待处理图像中的文本区域后，通过对文本区域对应的图像进行图像特征提取，能够有效地获得文本区域对应的图像特征；通过对文本区域中的文本内容进行文本特征提取，能够有效地获得文本内容对应的文本特征；通过提取文本区域在待处理图像中对应的空间位置特征，能够有效地提取出文本区域对应的空间位置特征。计算机设备进而将所述图像特征、所述文本特征和所述空间位置特征融合，根据融合后的特征联合对文本区域进行兴趣点识别，通过结合图像特征、文本特征和空间位置特征的多模态特征，能够有效对待处理图像中的兴趣点进行精准识别，有效提高了图像中兴趣点的识别准确度。

附图说明

图1为一个实施例中兴趣点识别方法的应用环境图；

图2为一个实施例中兴趣点识别方法的流程示意图；

图3为一个实施例中识别出兴趣点后的图像的示意图；

图4为一个实施例中对文本区域所对应的图像的区域进行调整的示意图；

图5为一个实施例中图像特征提取层的网络结构图；

图6为一个实施例中文本特征提取层的网络结构图；

图7为一个实施例中采用九宫格量化提取空间位置特征的示意图；

图8为一个实施例中机器学习模型的训练步骤的流程示意图；

图9为一个实施例中具体的兴趣点识别方法的流程示意图；

图10为一个实施例中机器学习模型的结构示意图；

图11为一个实施例中得到兴趣点识别结果的示意图；

图12为一个实施例中兴趣点识别装置的结构框图；

图13为另一个实施例中兴趣点识别装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的方案涉及人工智能、机器学习(Machine Learning,ML)和计算机视觉(Computer Vision,CV)和图像处理等技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、技术及应用系统，使机器具有感知、推理与决策的功能。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。计算机视觉和图像处理技术是通过计算机设备代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，试图建立能够从图像或者多维数据中获取信息的人工智能系统。通过对待处理图像中的文本和图像进行基于机器学习和图像处理技术等处理，从而能够有效实现对待处理图像中的文本区域进行智能兴趣点识别。

本申请提供的兴趣点识别方法，可应用于计算机设备中。计算机设备可以为终端或服务器。可以理解的是，本申请提供的兴趣点识别方法可以应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

本申请提供的兴趣点识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以将采集的待处理图像上传至服务器104，服务器104获取待处理图像后，识别待处理图像中的文本区域；对文本区域对应的图像进行图像特征提取，获得图像特征；对文本区域中的文本内容进行文本特征提取，获得文本特征；提取文本区域在待处理图像中对应的空间位置特征；服务器104进而根据图像特征、文本特征和空间位置特征，对文本区域进行兴趣点识别。其中，服务器104服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种兴趣点识别方法，以该应用于计算机设备来举例说明，该计算机设备具体可以是终端或者服务器。本实施例中，该方法包括以下步骤：

S202，获取待处理图像。

其中，兴趣点，即POI信息点，是指地理信息系统中，某个地理位置周边的信息，也可以指地图上任何非地理意义的有意义的点，比如商店、酒吧、加油站、医院、学校、车站等，均为兴趣点。再如树林、河流、山峰等，则不属于地理信息系统中的兴趣点。

可以理解，待处理图像可以是从图片数据库中获取的图像数据，也可以是用户通过对应的终端实时采集的图片，还可以是从视频数据中提取的图像。在此不做限定。

S204，识别待处理图像中的文本区域。

其中，待处理图像可以是包括文本信息的图像，例如待处理图像可以包括建筑标识、店铺名称等文本信息。可以理解，文本区域表示待处理图像中的文本内容对应的区域。例如还可以利用文本框划分出文本内容对应的区域。其中，待处理图像中可以包括一个或一个以上的文本区域，每一个文本区域可以是连续字符的文本内容所对应的区域。

计算机设备获取待处理图像后，首先对待处理图像进行预处理，例如可以对初始的待处理图像进行数字化、几何变换、归一化、平滑、复原和增强等一系列的预处理。通过对图像进行图像预处理，能够消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，从而改进特征抽取、图像分割、匹配和识别的可靠性。

计算机设备进一步对待处理图像中的文本图像进行文本检测，检测出待处理图像中的文本区域，并进一步对文本区域中的文本进行识别，以识别出文本区域中的文本内容。

例如，可以采用OCR(Optical Character Recognition,光学字符识别)技术识别待处理图像中的文字信息，还可以采用基于深度学习的文本检测模型识别待处理图像中的文本区域。

S206，对文本区域对应的图像进行图像特征提取，获得图像特征。

其中，图像的特征分为视觉层、对象层和概念层，视觉层即通常所理解的底层，即颜色、纹理和形状等特征，这些特征可以被称为底层特征语义；对象层即中间层，通常包含了属性特征等，就是某一对象在某一时刻的状态；概念层是高层，是图像表达出的最接近人类理解的东西。例如一张图像上有沙子、蓝天、海水等，通常而言，视觉层是一块块的区分，对象层是沙子、蓝天和海水这些，概念层就是海滩，可以表征图像的类别，即整个图像所表现出的语义。

图像特征用于描述图像区域所对应的景物的性质，包括颜色特征、纹理特征、形状特征和空间关系特征，这些特征的结合可以用于表征图像的语义类别。本实施例中的图像语义即指表征图像语义类别的图像特征。图像特征向量即图像语义对应的特征向量表示。

计算机设备获取待处理图像以及识别出其中的文本区域后，对文本区域对应的图像进行特征提取，获得对应的图像特征向量。具体地，计算机设备可以经过训练的图像特征提取模型对文本区域对应的图像进行特征提取，例如可以采用ResNet(残差网络)、CNN(Convolutional Neural Network，卷积神经网络)、DNN(Deep Neural Network，深度神经网络)等图像特征提取模型对图像进行特征提取。图像特征提取模型也可以是多种神经网络模型的组合。

通过对文本区域对应的图像进行图像特征提取，从而能够有效地提取出待处理图像中对文本区域对应的图像所蕴含的图像特征，由此能够基于图像特征进一步对文本区域对应的内容进行分析。

S208，对文本区域中的文本内容进行文本特征提取，获得文本特征。

其中，文本内容的语义可以表示数据所对应的显示世界中的食物所代表的概念和含义，以及这些含义之间的关系，是数据在某个领域上的解释和逻辑表示。文本语义即描述文本对应的含义和逻辑表示。

特征向量是数学学科中的一个专业名词，即线性变换的特征向量(本征向量)是一个非退化的向量，其方向在该变换下不变，该向量在此变换下缩放的比例称为其特征值(本征值)。一个线性变换通常可以由其特征值和特征向量完全描述，相同特征值的特征向量集合称之为特征空间。文本特征(也即文本特征向量)即描述文本经过线性变换和特征提取所获得的，基于文本语义的特征向量表示。

计算机设备识别出待处理图像中文本区域的文本内容后，可以提取文本内容的文本语义，并基于文本语义对描述文本进行特征提取，获得文本内容对应的文本特征。具体地，计算机设备还可以采用预设算法、预训练的机器学习模型模型等对文本内容进行特征提取，具体可以是经过训练后具有自然语言处理(NLP，Natural Language Processing)能力的语言模型。例如BERT模型(Bidirectional Encoder Representations fromTransformers，双向编码变换模型)、CLSM模型(convolutional latent semantic model，语义模型)、LSTM模型(Long Short-Term Memory，长短期记忆网络)或Word2Vec模型(wordto vector，用于产生词向量的模型)等。

通过对文本区域中的文本内容进行文本特征提取，从而能够有效地提取出描述文本所蕴含的文本语义以及文本类别，由此能够基于文本特征进一步对文本区域对应的内容进行分析。

S210，提取文本区域在待处理图像中对应的空间位置特征。

其中，空间特征是指空间地物的位置、形状和大小等几何特征，以及与相邻地物的空间关系，空间关系，是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。通常大部分空间关系则是通过空间坐标进行运算得到，如包含关系、穿过关系等。空间位置可以通过坐标来描述。

可以理解是，空间位置特征是表示空间维度的特征，即文本区域位于待处理图像中的空间维度的特征，空间位置特征则包括了各种空间关系。空间特征可以加强对图像内容的描述区分能力。

计算机设备识别出待处理图像中的文本区域后，还对文本区域进行空间特征提取。具体地，计算机设备则对文本区域在待处理图像中的位置，进行空间关系计算，从而计算出文本区域在待处理图像中对应的空间位置特征。例如，可以采用基于几何模型或结构估计的方式、或者基于机器学习的特征提取方式，计算出文本区域对应的空间位置特征，具体计算方式在此不作限定。

S212，将图像特征、文本特征和空间位置特征融合，根据融合后的特征对文本区域进行兴趣点识别。

其中，兴趣点识别是指识别目标对象是否为兴趣点，本实施例中，则是识别文本区域中的内容是否为兴趣点。

计算机设备识别出待处理图像中的文本区域，并提取文本区域对应的图像特征、文本区域中的文本内容对应的文本特征以及文本区域在待处理图像中对应的空间位置特征后，计算机设备进而将图像特征、文本特征和空间位置特征融合，并根据融合后的特征，联合对文本区域进行兴趣点识别，从而能够有效地联合图像特征、文本特征和空间位置特征的多模态特征，精准地识别出图像中的文本区域是否为兴趣点。

计算机设备联合图像特征、文本特征和空间位置特征，对文本区域进行兴趣点识别时，还可以识别出该文本区域为哪种类型的兴趣点，即还可以对文本区域的兴趣点类别进行识别，从而得到待处理图像的兴趣点识别结果。

进一步地，若识别出待处理图像中包括多个(两个或两个以上)文本区域时，计算机设备进而分别提取每一个文本区域所对应的图像特征、文本特征以及空间位置特征，然后根据图像特征、文本特征以及空间位置特征，对各个文本区域进行兴趣点识别。若识别出其中一个文本区域为兴趣点时，则对该文本区域进行兴趣点标记，例如可以在原始的图像中标注出兴趣点区域和/或兴趣点标签，从而得到待处理图像对应的兴趣点识别结果。

例如，如图3所示，为一个实施例中识别出兴趣点后的图像的示意图。参照图3，包括了多个文本行，计算机设备识别出图像中的文本区域后，可以将识别出的文本区域的边框标记出来，即图中“XXX童装”、“买一送一”、“亏本甩卖”、“全场15元”、“夏款清仓”等文本区域。计算机设备通过对每一个文本区域所对应的图像特征、文本特征以及空间位置特征，然后根据图像特征、文本特征以及空间位置特征，对各个文本区域进行兴趣点识别后，可以得到图像中“XXX童装”为兴趣点的识别结果。

在一个实施例中，根据图像特征、文本特征和空间位置特征，对文本区域进行兴趣点识别，包括：根据图像特征、文本特征和空间位置特征，对文本区域进行实体分类，得到文本区域对应的实体类别；根据实体类别，对文本区域进行兴趣点识别。

可以理解，实体是指实际中客观存在的具有可区别性且独立存在的某种事物。例如人名、地名、商品、名称等事物。

计算机设备识别出待处理图像中的文本区域，并提取出文本区域对应的图像特征、文本特征以及空间位置特征后，计算机设备还可以进一步根据图像特征、文本特征和空间位置特征，对文本区域对应的图像进行实体分类，以识别出文本区域对应的图像的实体类别。根据实体类别，对文本区域进行兴趣点识别，以获得对应的兴趣点识别结果。

例如，通过对文本区域对应的图像进行实体分类，识别出是广告牌信息、门店标识、道路标识等各种实体类别。进而根据识别出文本区域所表示的实体类别，进行兴趣点识别，以判断该文本区域中表示的信息是否为兴趣点。通过根据图像特征、文本特征和空间位置特征进行实体分类，能够准确有效地识别出文本区域所表示的实体类别，进而能够更加精准地根据实体类别对文本区域进行兴趣点识别。

传统的通过文本分类的方式，难以准确识别出图像中的POI信息，例如，同样包括有“中国移动”文本的图像，对于采集的或直接获取的图像中，可能是实体门店，也有可能是广告信息。显然广告信息则不是兴趣点。因此无法准确识别出是否为兴趣点。

上述兴趣点识别方法中，计算机设备获取待处理图像，并识别出待处理图像中的文本区域后，通过对文本区域对应的图像进行图像特征提取，能够有效地获得文本区域对应的图像特征；通过对文本区域中的文本内容进行文本特征提取，能够有效地获得文本内容对应的文本特征；通过提取文本区域在待处理图像中对应的空间位置特征，能够有效地提取出文本区域对应的空间位置特征。计算机设备进而根据图像特征、文本特征和空间位置特征，联合对文本区域进行兴趣点识别，通过结合图像特征、文本特征和空间位置特征的多模态特征，能够有效对待处理图像中的兴趣点进行精准识别，有效提高了图像中兴趣点的识别准确度。

在一个实施例中，识别待处理图像中的文本区域的步骤，包括：对待处理图像进行文本检测，识别待处理图像中的文本行的位置；根据文本行的位置，确定待处理图像中的文本框范围；根据文本框范围确定待处理图像中的文本区域。

可以理解，待处理图像中可能包括文本字符，这些文本字符可能是连续的文本，即文本行。这些文本行可能是水平的，也可能是任意方向的文本行。其中，待处理图像中可以包括一个或一个以上的文本行。

计算机设备获取待处理图像，并对待处理图像进行预处理后，则对待处理图像中的文本图像进行文本检测识别，以识别出图像中文字区域。具体地，计算机设备首先从待处理图像中检测文本字符，根据检测到的文本字符确定文本行。例如，可以通过检测单个字符以及字符间的连接关系，然后根据字符间的连接关系确定出文本行。

计算机设备进而根据各个文本行的位置，标记出各个文本行对应的文本框，从而检测出待处理图像中的文本框。计算机设备则可以根据标记的文本框确定待处理图像中的文本区域。

计算机设备还可以首先从待处理图像中检测文本字符以及文本行后，根据初步检测出的文本行确定出文本候选区域，然后对文本候选区域进一步进行修正，例如对文本候选区域的边界、形状、文本点位置等进行修正，从而得到检测出的文本框。例如，计算机设备具体可以采用基于Faster R-CNN、RRPN(Rotation Region Proposal Network，旋转区域候选网络)、IncepText(场景文本检测模型)和MaskR-CNN(两阶段的目标检测器)等神经网络模型进行文本检测，以识别出待处理图像中任意方向的文本框。

本实施例中，通过对待处理图像进行文本检测，并根据识别出的各个文本行的位置标记出对应的文本框，进而能够精准地识别出待处理图像中的文本区域。

在一个实施例中，对文本区域对应的图像进行图像特征提取，获得图像特征的步骤，包括：通过预先训练的机器学习模型中的图像特征提取层，按照预设尺寸对文本区域所对应的图像的区域进行调整，得到区域调整后的图像；提取区域调整后的图像对应的特征图；对特征图进行多尺度特征提取，得到图像特征。

可以理解，机器学习模型是经过预先训练的具有兴趣点识别能力的模型，具体可以为基于机器学习的神经网络模型。其中，机器学习模型包括图像特征提取层。图像特征提取层可以为基于图像处理模型的网络结构，例如可以为图像特征处理模型中的元模型，即图像处理模型中所包括的用于提取图像特征的部分网络结构。其中，元模型是描述模型中的元素、元素间关系以及表示，模型中包括了元模型。以神经网络模型为例，元模型可以视为模型的其中一部分神经网络结构，用于提取特定的特征表示。

例如，图像特征提取层可以采用基于VGG(Visual Geometry Group，计算机视觉组模型)、ResNet、CNN或LSTM等的神经网络模型。还可以采用各种神经网络组合的模型，例如图像特征提取层可以为采用基于VGG16、SeNet和Se-VGG16等网络构建的组合模型。在此不做限定。

计算机设备获取待处理图像，并识别出待处理图像中的文本区域后，将识别出文本区域后的图像输入至机器学习模型中的图像特征提取层，图像特征提取层首先对输入的文本区域所对应的图像进行预处理，例如像素均化、边框膨胀等预处理。具体地，计算机设备按照预设尺寸，对文本区域所对应的图像的区域，在原始的待处理图像中进行区域调整，例如对文本区域范围内的像素，按照预设尺寸扩展至预设尺寸的像素区域，从而得到区域调整后的图像。并将区域调整后的图像作为下一网络层的输入，以进行进一步的特征提取处理。

例如，如图4所示，为一个实施例中对文本区域所对应的图像的区域进行调整的示意图。参照图4，计算机设备可以首先将文本区域范围内的图片像素提取出来，以长宽中最长的一条边为标准，在原始待处理图像的基础上，扩充为正方形区域，接下来再把该部分像素调整为预设像素尺寸的图像，如调整为112*112像素尺寸，从而得到区域调整后的图像。

其中，特征图是通过卷积过滤处理后的输出结果，每个卷积通道可以输出相应特征检测的特征图。

计算机设备进一步通过图像特征提取层，对区域调整后的图像进行卷积处理，从而可以提取出区域调整后的图像所对应的特征图，例如可以通过VGG16网络提取区域调整后的图像所对应的多个维度的特征图。图像特征提取层进而对特征图进行进一步的深度特征提取，可以提取出多个尺度的特征，进而根据所提取的深度特征得到文本区域对应的图像特征。

本实施例中，通过预训练的机器学习模型中的图像提取层对文本区域对应的图像，进行深度图像特征提取，由此能够深度学习图像的各种特征表示，从而能够准确地提取图像的图像特征表示。

在一个实施例中，对特征图进行多尺度特征提取，得到图像特征的步骤，包括：对特征图进行全局特征提取，获得全局特征；将特征图和全局特征进行特征融合，获得融合图特征；对融合图特征进行多尺度特征提取，得到图像特征。

具体地，计算机设备通过图像提取层提取出区域调整后的图像所对应的特征图后，进一步对特征图进行深度特征提取。具体地，计算机设备通过图像提取层对上一步提取得到的特征图进行全局特征提取，得到多个尺度的全局特征。进而通过图像提取层将提取得到的特征图以及全局特征进行特征融合，例如将特征图对应的特征与全局特征进行特征相乘，从而得到特征融合后的融合图特征。图像提取层进而对融合图特征进行多尺度特征提取，从而得到最终的图像特征。

例如，图像特征提取层中还可以包括特征图提取层、全局特征提取层、特征拼接层以及池化层，通过图像特征提取层中的特征图提取层，提取出调整后的图像所对应的特征图。然后通过全局特征提取层，对特征图进行全局特征提取，提取出对应的全局特征。接着，通过特征拼接层，将特征图和全局特征进行融合，得到融合图特征，进而通过池化层融合图特征进行多尺度特征提取，从而能够有效地提取出所需的图像特征。

例如，如图5所示，为一个实施例中图像特征提取层的网络结构图。参照图5，图像特征提取层中还包括图像预处理层、特征图提取层(如VGG16网络)、全局特征提取层(如SeNet网络)、图特征融合层(如Se-VGG16网络)、以及池化层(如空间金字塔池化)。其中，图像预处理层用于对图像进行预处理以及对文本区域所对应的图像的区域进行调整；特征图提取用于提取区域调整后的图像所对应的特征图；全局特征提取层用于对特征图进行全局特征提取；图特征融合层用于将特征图和全局特征进行特征融合；池化层用于对融合图特征进行多尺度特征提取，得到图像特征。

在一个实施例中，对文本区域中的文本内容进行文本特征提取，获得文本特征的步骤，包括：通过预先训练的机器学习模型中的文本特征提取层，提取文本区域中文本内容对应的字向量；根据各字向量，提取文本内容对应的文本向量；对文本向量进行文本分类，根据文本分类结果提取对应的文本特征。

可以理解，预训练的机器学习模型可以包括文本特征提取层，用于提取文本的字向量、文本向量、位置向量等各种特征表示，以提取文本区域中的文本内容对应的文本特征。类似地，文本特征提取层可以为基于文本处理模型的网络结构，例如可以为文本处理模型中的元模型，即文本处理模型中所包括的用于提取文本特征向量的部分网络结构。

计算机设备识别出文本区域中的文本内容后，将文本区域中的文本内容输入至机器学习模型中的文本特征提取层。文本特征提取层首先对文本内容进行特征编码，提取出文本内容中的字向量。进而基于字向量提取出文本内容对应的整体的文本向量。文本特征提取层进一步对文本向量进行语义特征提取，得到对应的语义特征，进而根据语义特征对文本向量进行分类，从而得到对应的文本分类结果，由此可以提取文本分类结果对应的文本特征，并作为文本区域中的文本内容的文本特征。

例如，文本特征提取层可以采用基于TextCNN模型的元模型进行文本特征吗，提取。除此之外，还可以采用基于Word2Vector、BERT或基于LSTM等模型的元模型进行文本特征提取，还可以是各种模型的组合构建得到文本特征提取层，在此不做限定。

如图6所示，为一个实施例中文本特征提取层的网络结构图。参照图6，文本特征提取层中包括字向量矩阵网络和文本分类层。以向量矩阵网络为基于Word2Vector的网络以及文本分类层为基于TextCNN模型为例，例如Word2Vector网络可以为利用大量样本文本，将所有文本打散成单个字符(如100万个字)，然后将100万个字输入至Word2Vector网络进行训练，得出字与字向量的映射。例如字向量可以是300维的，向量个数预设为20，最后保留统计出现频率大于2的字的向量，作为Word2Vector词典。从而得到训练后的Word2Vector词典模型。通过文本特征提取层中的Word2Vector网络，对文本进行特征编码，从而可以得到各个字符对应的字向量。然后将得到的字向量输入至TextCNN模型中，其中，可以将每个字对应的字向量作为一个通道特征输入至TextCNN网络中，TextCNN网络中还包括多个卷积层。例如，在卷积层，使用256通道的1-gram、2-gram、3-gram三种卷积核对字向量进行卷积，生成19*1*256、18*1*256、17*1*256的三种特征featuremap。将卷积层的特征feature map进行最大池化，得到1*1*256、1*1*256、1*1*256三个向量，最后拼接成为1*1*768的文本向量，进而根据文本向量进行分本分类，得到文本类别以及对应的文本特征。

本实施例中，通过预训练的机器学习模型中的文本特征提取层对文本区域进行文本特征提取，由此能够准确有效地获得文本区域中的文本内容对应的文本特征。

在一个实施例中，提取文本区域在待处理图像中对应的空间位置特征的步骤，包括：通过预先训练的机器学习模型中的空间特征提取层，对待处理图像进行区域划分，得到预设数量的图像子区域；根据文本区域的位置和各图像子区域的位置，提取文本区域在待处理图像中对应的空间位置特征。

可以理解，预训练的机器学习模型可以包括空间特征提取层，用于提取文本区域在待处理图像中对应的空间位置特征。类似地，空间特征提取层可以为基于空间处理模型的网络结构，例如可以为空间处理模型中的元模型，即空间处理模型中所包括的用于提取空间特征向量的部分网络结构。空间特征提取层也可以仅包括空间特征提取算法。

具体地，计算机设备识别出待处理图像中的文本区域后，将识别出文本区域后的图像输入至机器学习模型中的空间特征提取层，空间特征提取层首先对初始的待处理图像进行区域划分，将图像划分为预设数量的图像子区域。例如，可以将初始的图像划分为3x3共9个格子区域。然后再计算文本区域的位置和各图像子区域的位置，进而计算出文本区域在初始的图像中的位置，并进一步提取文本区域在待处理图像中对应的空间位置特征。

在一个实施例中，根据文本区域的位置和各图像子区域的位置，提取文本区域在待处理图像中对应的空间位置特征的步骤，包括：根据文本区域的边框的位置落入各图像子区域的位置，提取文本区域在待处理图像中的位置特征；提取文本区域对应的绝对大小特征和相对大小特征；将位置特征、绝对大小特征以及相对大小特征进行拼接，根据拼接后的特征，确定文本区域在待处理图像中对应的空间位置特征。

具体地，计算机设备通过空间特征提取层对初始的待处理图像进行区域划分后，还可以对每个图像子区域进行编码。进而计算文本区域的边框的位置，落入各图像子区域的位置，并对文本框落入的图像子区域进一步编码，以计算出文本区域的边框的位置落入各图像子区域的位置，从而提取出文本区域在待处理图像中的位置特征。计算机设备还进一步通过空间特征提取层，计算出文本区域对应于初始的待处理图像的绝对大小和相对大小，然后得到对应的绝对大小特征和相对大小特征。其中，绝对大小特征和相对大小特征还分别包括对应的绝对空间位置信息和相对空间位置信息。计算机设备可以首先计算出文本区域在初始的待处理图像中的绝对大小特征，进而由绝对大小特征计算出相对大小特征。

计算机设备进一步对位置特征、绝对大小特征以及相对大小特征进行特征拼接，进而根据拼接后的特征，得到文本区域在待处理图像中对应的空间位置特征。

在一个具体的实施例中，空间特征提取层可以采用九宫格量化提取空间特征。例如，首先将初始的待处理图像划分成3x3共9个格子区域，对每个图像子区域进行编码，例如每个图像子区域对应000000000，9bit位。以文本区域的边框为矩形的文本框为例，计算文本框的四个点落在哪个格子区域中，将文本框的点做落入的子区域对应的位置编码为1，从而得到文本框在待处理图像中的位置特征。如图7所示，为一个实施例中采用九宫格量化提取空间位置特征的示意图。参照图7，其中，“水果销售店”对应的框即为识别出的文本区域的文本行框，将文本框的点做落入的子区域对应的位置编码为1，从而可以将文本框在待处理图像中的位置特征编码为000001011，生成1*1*9维向量。接着，计算出文本框在原始图像中的绝对大小和相对大小。再拼接文本框的相对大小以及绝对大小对应的两位特征，生成1*1*11维的特征向量。进而根据拼接后的特征向量，得到文本区域在待处理图像中对应的空间位置特征。

本实施例中，通过预训练的机器学习模型中的空间特征提取层，对文本区域在待处理图像中的可见位置进行提取，能够准确有效地提取出文本区域所对应的隐含的空间位置特征，从而能够有利于进一步精准地对文本区域进行兴趣点识别。

在一个实施例中，将图像特征、文本特征和空间位置特征融合，根据融合后的特征对文本区域进行兴趣点识别的步骤，包括：通过预先训练的机器学习模型中的特征融合层，对图像特征、文本特征和空间关系特征进行特征融合，得到目标多模态特征；根据目标多模态特征，对文本区域进行兴趣点识别。

其中，预先训练的机器学习模型中包括特征融合层，特征融合层用于对提取出的多种特征进行特征融合处理。

具体地，计算机设备获取待处理图像，并识别出待处理图像中的文本区域后，对文本区域对应的图像进行图像特征提取，获得图像特征；对文本区域中的文本内容进行文本特征提取，获得文本特征；以及提取文本区域在待处理图像中对应的空间位置特征。计算机设备进而将提取到的图像特征、文本特征和空间关系特征，输入至机器学习模型中的特征融合层，通过特征融合层将图像特征、文本特征和空间关系特征进行特征融合，从而得到特征融合后的目标多模态特征。

计算机设备进而通过机器学习模型，根据提取得到的目标多模态特征，对文本区域进行兴趣点识别处理，从而得到对应的兴趣点识别结果。例如，提取得到的图像特征可以为21*128维，提取得到的文本特征可以为768维，提取得到的空间位置特征可以为11维，然后将21*128图像维特征、768维文本特征以及11维空间位置特征进行拼接，得到3467维的特征，接两层全连接层进特征融合，得到目标多模态特征。进而根据目标多模态特征进行兴趣点识别和分类，例如，可以最后得到2分类结果，即是兴趣点或不是兴趣点的兴趣点识别结果。

本实施例中，通过对图像特征、文本特征和空间位置特征进行特征融合处理，能够得到特征联合后的目标多模态特征，进而根据结合图像特征、文本特征和空间位置特征的目标多模态特征，对文本区域进行兴趣点识别处理，能够有效对待处理图像中的兴趣点进行精准识别，有效提高了图像中兴趣点的识别准确度。

在一个实施例中，机器学习模型通过训练步骤训练获得，训练步骤包括：获取样本图像和训练标签；样本图像包括样本文本区域；训练标签是与样本文本区域对应的兴趣点标签；根据样本图像和训练标签训练机器学习模型。

可以理解，其中机器学习模型是利用样本图像和训练标签进行训练得到的。通过机器学习模型对待处理图像进行兴趣点识别之前，需要预先训练出机器学习模型。

其中，样本图像可以为是从预设样本图像库中获取的，也可以从各种平台中获取的历史采集的图像，如道路图像、街景图像、商铺图像等。样本图像中包括了预先标注的样本文本区域，以及预先标注了与样本文本区域对应的兴趣点标签，并将兴趣点标签作为模型训练过程中的训练标签。训练标签用于对每次的训练结果进行调参等处理，以进一步训练和优化机器学习模型。

具体地，计算机设备获取样本图像后，将标注了样本文本区域的样本图像输入至预设的机器学习模型中进行训练，并利用训练标签对机器学习模型进行调参和优化，以训练出满足条件的机器学习模型。

在一个实施例中，机器学习模型包括图像特征提取层、文本特征提取层、空间特征提取层和特征融合层；如图8所示，机器学习模型的训练步骤包括：

S802，获取样本图像和训练标签；样本图像包括样本文本区域；训练标签是与样本文本区域对应的兴趣点标签。

S804，通过图像特征提取层，提取样本文本区域的图像的样本图像特征。

S806，通过文本特征提取层，提取样本文本区域对应的样本文本特征。

S808，通过空间特征提取层，提取样本文本区域在样本图像中对应的样本空间位置特征。

S810，通过特征融合层，将样本图像特征、样本文本特征向量和样本空间位置特征进行融合，得到样本多模态向量。

S812，根据样本多模态特征对样本图像进行兴趣点识别，得到样本兴趣点识别结果。

S814，基于样本兴趣点识别结果与训练标签的差异，调整机器学习模型的参数并继续训练，直至满足训练停止条件时停止训练。

其中，机器学习模型包括图像特征提取层、文本特征提取层、空间特征提取层和特征融合层。

计算机设备将样本图像输入至机器学习模型后，分别将样本图像中样本文本区域对应的图像输入至图像特征提取层、文本特征提取层、空间特征提取层，其中，也可以将样本文本区域对应的文本内容输入至文本特征提取层。进而通过图像特征提取层，提取样本文本区域的图像的样本图像特征；通过文本特征提取层，提取样本文本区域对应的样本文本特征；通过空间特征提取层，提取样本文本区域在样本图像中对应的样本空间位置特征。进一步将提取得到的样本图像特征、样本文本特征向量和样本空间位置特征输入至特征融合层，通过特征融合层对各样本文本区域对应的样本图像特征、样本文本特征向量和样本空间位置特征进行融合，从而得到样本多模态向量。

机器学习模型进而根据样本多模态特征对样本图像进行兴趣点识别处理，得到样本兴趣点识别结果。计算机设备进而获取样本兴趣点识别结果与训练标签的差异，基于该差异调整机器学习模型的参数并继续训练，直至满足训练停止条件时停止训练。

其中，样本兴趣点识别结果与训练标签的差异可以损失函数来衡量，例如可以选择平均绝对值损失函数(MAE)、平滑平均绝对误差(Huber损失)、交叉熵损失函数等函数作为损失函数。训练条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数，或者是调整参数后的机器学习模型的预测性能指标达到预设指标。

例如，可以将人工生产平台生产的结果，即标注了样本文本区域的样本图像和训练标签，作为模型训练的训练集。例如训练数据的量级可以为：训练集数据量为40万；测试集数据量为1万；验证集数据量为1万。利用训练集中的数据训练得到初步的机器学习模型后，还可以利用测试集中的数据对初步的机器学习模型进行测试，进一步利用验证集中的数据对机器学习模型进行验证，直到满足训练条件后，从而得到训练完成的机器学习模型。

本实施例中，通过机器学习模型分别提取样本文本区域在样本图像中的样本图像特征、样本文本特征以及样本空间位置特征，并进行兴趣点识别训练，得到样本兴趣点识别结果。进而可以根据得到的样本兴趣点识别结果与训练标签的差异，逐步对机器学习模型中的参数进行调整。由此在参数调整过程中，使得机器学习模型能够同时结合图像特征和文本特征以及空间位置特征捕获样本图像中样本文本区域与兴趣点之间的隐含关系。在基于机器学习模型对待处理图像进行兴趣点识别时，得到了图像特征和文本特征以及空间位置特征的多重指导，从而提高了图像中文本区域的兴趣点识别的准确性。

在一个具体的实施例中，如图9所示，提供了一种具体的兴趣点识别方法，包括以下步骤：

S902，获取待处理图像。

S904，识别待处理图像中的文本区域。

S906，通过预先训练的机器学习模型中的图像特征提取层，按照预设尺寸对文本区域所对应的图像的区域进行调整，得到区域调整后的图像。

S908，提取区域调整后的图像对应的特征图；对特征图进行全局特征提取，获得全局特征。

S910，将特征图和全局特征进行特征融合，获得融合图特征；对融合图特征进行多尺度特征提取，得到图像特征。

S912，通过预先训练的机器学习模型中的文本特征提取层，提取文本区域中文本内容对应的字向量。

S914，根据各字向量，提取文本内容对应的文本向量；对文本向量进行文本分类，根据文本分类结果提取对应的文本特征。

S916，通过预先训练的机器学习模型中的空间特征提取层，对待处理图像进行区域划分，得到预设数量的图像子区域。

S918，根据文本区域的边框的位置落入各图像子区域的位置，提取文本区域在待处理图像中的位置特征。

S920，提取文本区域对应的绝对大小特征和相对大小特征；将位置特征、绝对大小特征以及相对大小特征进行拼接，根据拼接后的特征，确定文本区域在待处理图像中对应的空间位置特征。

S922，通过预先训练的机器学习模型中的特征融合层，对图像特征、文本特征和空间关系特征进行特征融合，得到目标多模态特征。

S924，根据目标多模态特征，对文本区域进行兴趣点识别。

例如，如图10所示，为一个实施例中机器学习模型的结构示意图。参照图10，机器学习模型中包括图像特征提取层、文本特征提取层、空间位置特征提取层、特征融合层和兴趣点识别层。其中，图像特征提取层中还包括图像预处理层、特征图提取层(如VGG16网络)、全局特征提取层(如SeNet网络)、图特征融合层(如Se-VGG16网络)、以及池化层(如空间金字塔池化)。文本特征提取层中还可以包括字向量矩阵网络和文本分类网络(如TextCNN)。空间位置特征提取层中还可以包括空间位置计算层和区域量化编码层，分别用于计算文本区域的绝对大小和相对大小、九宫格量化编码。兴趣点识别层中不还可以包括全连接层和兴趣点识别网络，用于根据特征融合后的目标多模态特征，对文本区域进行兴趣点识别，从而得到兴趣点识别结果。

本实施例中，通过预训练的机器学习模型所包括的图像特征提取层、文本特征提取层以及空间特征提取层，分别提取文本区域在待处理图像中的图像特征、文本特征以及空间位置特征，从而能够精准地提取出文本区域对应的图像特征、文本特征以及空间位置特征，进而通过特征融合层融合图像特征、文本特征和空间位置特征得到目标多模态特征，从而在进行兴趣点识别时同时考虑了结合图像特征、文本特征和空间位置特征三个维度的特征，由此能够有效对待处理图像中的兴趣点进行精准识别，进而有效提高了图像中兴趣点的识别准确度。

在一个具体的实验测试的实施例中，以从预设数据集中获取数据集作为实验样本数据进行实验测试，例如获取一万条数据作为实验样本数据。分别采用传统的浅层机器学习算法(即SVM)、纯文本分类算法(即TextCNN)以及纯图像分类算法(VGG16)的方式，以及本申请方案中的多模态特征提取算法(即Multimodal)，利用获取的实验样本数据分别进行测试。如下表一所示，为采用SVM、TextCNN、VGG16、以及本申请方案的多模态算法模型Multimodal，对实验样本数据分别进行测试得到的效果比对图。很显然，从下表一的测试结果中，可以看出，本申请方案的多模态算法模型，在精确率(Precision)、召回率(Recall)以及调和平均值分数(F1)的测试结果上，均高于传统的几种算法。可见，本申请方案的多模态算法模型能够更好地利用图像特征、文本特征以及空间位置特征，能够更精准地的进行兴趣点识别处理，从而有效提高了兴趣点识别的准确度。

	Precision	Recall	F1
				SVM	0.63	0.84	0.72
TextCNN	0.87	0.84	0.85
				VGG16	0.80	0.77	0.79
Multimodal	0.90	0.86	0.89

表一

本申请还提供一种具体的应用场景，具体地，上述兴趣点识别方法可以应用于兴趣点识别平台。用户可以通过对应的终端上传采集的图像，例如地理位置图像、街景图像、商铺图像等等。兴趣点识别平台的后台服务器则获取这些上传的待处理图像，首先识别出待处理图像中的文本区域，后台服务器然后对文本区域对应的图像进行图像特征提取，获得文本区域对应的图像特征；通过对文本区域中的文本内容进行文本特征提取，获得文本内容对应的文本特征；通过提取文本区域在待处理图像中对应的空间位置特征，得到文本区域对应的空间位置特征。进而将图像特征、文本特征和空间位置特征融合，根据融合后的特征，联合对文本区域进行兴趣点识别，由此可以得到兴趣点识别结果。

后台服务器还可以将兴趣点识别结果为不是兴趣点的图像直接过滤掉；将兴趣点识别结果为是兴趣点的图像直接通过，并在对应的图像中标记出相应的兴趣点区域(即识别出是兴趣点的文本区域)以及兴趣点标签。对于兴趣点识别结果为不确定兴趣点的图像，进一步发送至人工审核终端进行人工审核。如图11所示，为一个实施例中通过兴趣点识别平台得到兴趣点识别结果的示意图。

后台服务器还可以进一步利用兴趣点识别通过的图像以及相应的兴趣点标签，生成兴趣点数据集，该兴趣点数据集可以用户地理位置区域的兴趣点分析等应用。

进一步地，待处理图像还可以包括位置信息。后台服务器对待处理图像进行兴趣点识别处理后，还可以进一步利用兴趣点识别通过的图像以及相应的兴趣点标签，根据位置信息在电子地图上进行兴趣点标注，从而可以精准地在电子地图上标注出相应的兴趣点。

应该理解的是，虽然图2、8、9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、8、9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种兴趣点识别装置1200，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：数据获取模块1202、图像特征提取模块1204、文本特征提取模块1206、空间特征提取模块1208和兴趣点识别模块1210，其中：

数据获取模块1202，用于获取待处理图像；识别待处理图像中的文本区域；

图像特征提取模块1204，用于对文本区域对应的图像进行图像特征提取，获得图像特征；

文本特征提取模块1206，用于对文本区域中的文本内容进行文本特征提取，获得文本特征；

空间特征提取模块1208，用于提取文本区域在待处理图像中对应的空间位置特征；

兴趣点识别模块1210，用于将图像特征、文本特征和空间位置特征融合，根据融合后的特征对文本区域进行兴趣点识别。

在一个实施例中，数据获取模块1202还用于对待处理图像进行文本检测，识别待处理图像中的文本行的位置；根据文本行的位置，标记待处理图像中的文本框，根据文本框确定待处理图像中的文本区域。

在一个实施例中，图像特征提取模块1204还用于通过预先训练的机器学习模型中的图像特征提取层，按照预设尺寸对文本区域所对应的图像的区域进行调整，得到区域调整后的图像；提取区域调整后的图像对应的特征图；对特征图进行多尺度特征提取，得到图像特征。

在一个实施例中，图像特征提取模块1204还用于对特征图进行全局特征提取，获得全局特征；将特征图和全局特征进行特征融合，获得融合图特征；对融合图特征进行多尺度特征提取，得到图像特征。

在一个实施例中，文本特征提取模块1206还用于通过预先训练的机器学习模型中的文本特征提取层，提取文本区域中文本内容对应的字向量；根据各字向量，提取文本内容对应的文本向量；对文本向量进行文本分类，根据文本分类结果提取对应的文本特征。

在一个实施例中，空间特征提取模块1208还用于通过预先训练的机器学习模型中的空间特征提取层，对待处理图像进行区域划分，得到预设数量的图像子区域；根据文本区域的位置和各图像子区域的位置，提取文本区域在待处理图像中对应的空间位置特征。

在一个实施例中，空间特征提取模块1208还用于根据文本区域的边框的位置落入各图像子区域的位置，提取文本区域在待处理图像中的位置特征；提取文本区域对应的绝对大小特征和相对大小特征；将位置特征、绝对大小特征以及相对大小特征进行拼接，根据拼接后的特征，确定文本区域在待处理图像中对应的空间位置特征。

在一个实施例中，兴趣点识别模块1210还用于通过预先训练的机器学习模型中的特征融合层，对图像特征、文本特征和空间关系特征进行特征融合，得到目标多模态特征；根据目标多模态特征，对文本区域进行兴趣点识别。

在一个实施例中，兴趣点识别模块1210还用于根据图像特征、文本特征和空间位置特征，对文本区域进行实体分类，得到文本区域对应的实体类别；根据实体类别，对文本区域进行兴趣点识别。

在一个实施例中，机器学习模型通过训练步骤训练获得，如图13所示，上述兴趣点识别装置1200还包括模块训练模块1201，用于获取样本图像和训练标签；样本图像包括样本文本区域；训练标签是与样本文本区域对应的兴趣点标签；根据样本图像和训练标签训练机器学习模型。

在一个实施例中，模块训练模块1201还用于通过图像特征提取层，提取样本文本区域的图像的样本图像特征；通过文本特征提取层，提取样本文本区域对应的样本文本特征；通过空间特征提取层，提取样本文本区域在样本图像中对应的样本空间位置特征；通过特征融合层，将样本图像特征、样本文本特征向量和样本空间位置特征进行融合，得到样本多模态向量；根据样本多模态特征对样本图像进行兴趣点识别，得到样本兴趣点识别结果；基于样本兴趣点识别结果与训练标签的差异，调整机器学习模型的参数并继续训练，直至满足训练停止条件时停止训练。

关于兴趣点识别装置的具体限定可以参见上文中对于兴趣点识别方法的限定，在此不再赘述。上述兴趣点识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理图像、文本区域、文本内容等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种兴趣点识别方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种兴趣点识别方法，其特征在于，所述方法包括：

获取待处理图像；

识别所述待处理图像中的文本区域；

通过预先训练的机器学习模型中的图像特征提取层，按照预设尺寸对所述文本区域所对应的图像的区域进行调整，得到区域调整后的图像；

提取所述区域调整后的图像对应的特征图；

对所述特征图进行多尺度特征提取，得到图像特征；

2.根据权利要求1所述的方法，其特征在于，所述识别所述待处理图像中的文本区域，包括：

对所述待处理图像进行文本检测，识别所述待处理图像中的文本行的位置；

根据所述文本行的位置，标记所述待处理图像中的文本框，根据所述文本框确定所述待处理图像中的文本区域。

3.根据权利要求1所述的方法，其特征在于，所述对所述特征图进行多尺度特征提取，得到图像特征，包括：

对所述特征图进行全局特征提取，获得全局特征；

将所述特征图和所述全局特征进行特征融合，获得融合图特征；

对所述融合图特征进行多尺度特征提取，得到图像特征。

4.根据权利要求1-2任一项所述的方法，其特征在于，所述对所述文本区域中的文本内容进行文本特征提取，获得文本特征，包括：

通过预先训练的机器学习模型中的文本特征提取层，提取所述文本区域中文本内容对应的字向量；

根据各所述字向量，提取所述文本内容对应的文本向量；

对所述文本向量进行文本分类，根据文本分类结果提取对应的文本特征。

5.根据权利要求1所述的方法，其特征在于，所述提取所述文本区域在所述待处理图像中对应的空间位置特征，包括：

通过预先训练的机器学习模型中的空间特征提取层，对所述待处理图像进行区域划分，得到预设数量的图像子区域；

根据所述文本区域的位置和各所述图像子区域的位置，提取所述文本区域在所述待处理图像中对应的空间位置特征。

6.根据权利要求5所述的方法，其特征在于，所述根据所述文本区域的位置和各所述图像子区域的位置，提取所述文本区域在所述待处理图像中对应的空间位置特征，包括：

根据所述文本区域的边框的位置落入各所述图像子区域的位置，提取所述文本区域在所述待处理图像中的位置特征；

提取所述文本区域对应的绝对大小特征和相对大小特征；

将所述位置特征、所述绝对大小特征以及所述相对大小特征进行拼接，根据拼接后的特征，确定所述文本区域在所述待处理图像中对应的空间位置特征。

7.根据权利要求1所述的方法，其特征在于，根据所述图像特征、所述文本特征和所述空间位置特征，对所述文本区域进行兴趣点识别处理，包括：

通过预先训练的机器学习模型中的特征融合层，对所述图像特征、所述文本特征和所述空间位置特征进行特征融合，得到目标多模态特征；

根据所述目标多模态特征，对所述文本区域进行兴趣点识别。

8.根据权利要求1所述的方法，其特征在于，所述将所述图像特征、所述文本特征和所述空间位置特征融合，根据融合后的特征对所述文本区域进行兴趣点识别，包括：

根据所述图像特征、所述文本特征和所述空间位置特征，对所述文本区域进行实体分类，得到所述文本区域对应的实体类别；

根据所述实体类别，对所述文本区域进行兴趣点识别。

9.根据权利要求1所述的方法，其特征在于，所述机器学习模型通过训练步骤训练获得，所述训练步骤包括：

获取样本图像和训练标签；所述样本图像包括样本文本区域；所述训练标签是与所述样本文本区域对应的兴趣点标签；

根据所述样本图像和所述训练标签训练机器学习模型。

10.根据权利要求9所述的方法，其特征在于，所述机器学习模型包括图像特征提取层、文本特征提取层、空间特征提取层和特征融合层，所述根据所述样本图像和所述训练标签训练机器学习模型，包括：

通过所述图像特征提取层，提取所述样本文本区域的图像的样本图像特征；

通过所述文本特征提取层，提取所述样本文本区域对应的样本文本特征；

通过所述空间特征提取层，提取所述样本文本区域在所述样本图像中对应的样本空间位置特征；

通过所述特征融合层，将所述样本图像特征、所述样本文本特征向量和所述样本空间位置特征进行融合，得到样本多模态向量；

根据所述样本多模态特征对所述样本图像进行兴趣点识别，得到样本兴趣点识别结果；

基于所述样本兴趣点识别结果与所述训练标签的差异，调整所述机器学习模型的参数并继续训练，直至满足训练停止条件时停止训练。

11.一种兴趣点识别装置，其特征在于，所述装置包括：

图像特征提取模块，用于通过预先训练的机器学习模型中的图像特征提取层，按照预设尺寸对所述文本区域所对应的图像的区域进行调整，得到区域调整后的图像；提取所述区域调整后的图像对应的特征图；对所述特征图进行多尺度特征提取，得到图像特征；

12.根据权利要求11所述的装置，其特征在于，所述数据获取模块还用于对所述待处理图像进行文本检测，识别所述待处理图像中的文本行的位置；根据所述文本行的位置，确定所述待处理图像中的文本框范围；根据所述文本框范围确定所述待处理图像中的文本区域。

13.根据权利要求11所述的装置，其特征在于，所述图像特征提取模块还用于对所述特征图进行全局特征提取，获得全局特征；将所述特征图和所述全局特征进行特征融合，获得融合图特征；对所述融合图特征进行多尺度特征提取，得到图像特征。

14.根据权利要求11-12任一项所述的装置，其特征在于，所述文本特征提取模块还用于通过预先训练的机器学习模型中的文本特征提取层，提取所述文本区域中文本内容对应的字向量；根据各所述字向量，提取所述文本内容对应的文本向量；对所述文本向量进行文本分类，根据文本分类结果提取对应的文本特征。

15.根据权利要求11所述的装置，其特征在于，所述空间特征提取模块还用于通过预先训练的机器学习模型中的空间特征提取层，对所述待处理图像进行区域划分，得到预设数量的图像子区域；根据所述文本区域的位置和各所述图像子区域的位置，提取所述文本区域在所述待处理图像中对应的空间位置特征。

16.根据权利要求15所述的装置，其特征在于，所述空间特征提取模块还用于根据所述文本区域的边框的位置落入各所述图像子区域的位置，提取所述文本区域在所述待处理图像中的位置特征；提取所述文本区域对应的绝对大小特征和相对大小特征；将所述位置特征、所述绝对大小特征以及所述相对大小特征进行拼接，根据拼接后的特征，确定所述文本区域在所述待处理图像中对应的空间位置特征。

17.根据权利要求11所述的装置，其特征在于，所述兴趣点识别模块还用于通过预先训练的机器学习模型中的特征融合层，对所述图像特征、所述文本特征和所述空间位置特征进行特征融合，得到目标多模态特征；根据所述目标多模态特征，对所述文本区域进行兴趣点识别。

18.根据权利要求11所述的装置，其特征在于，所述兴趣点识别模块还用于根据所述图像特征、所述文本特征和所述空间位置特征，对所述文本区域进行实体分类，得到所述文本区域对应的实体类别；根据所述实体类别，对所述文本区域进行兴趣点识别。

19.根据权利要求11所述的装置，其特征在于，所述机器学习模型通过训练步骤训练获得，上述兴趣点识别装置还包括模块训练模块，用于获取样本图像和训练标签；所述样本图像包括样本文本区域；所述训练标签是与所述样本文本区域对应的兴趣点标签；根据所述样本图像和所述训练标签训练机器学习模型。

20.根据权利要求19所述的装置，其特征在于，所述机器学习模型包括图像特征提取层、文本特征提取层、空间特征提取层和特征融合层，所述模块训练模块还用于通过所述图像特征提取层，提取所述样本文本区域的图像的样本图像特征；通过所述文本特征提取层，提取所述样本文本区域对应的样本文本特征；通过所述空间特征提取层，提取所述样本文本区域在所述样本图像中对应的样本空间位置特征；通过所述特征融合层，将所述样本图像特征、所述样本文本特征向量和所述样本空间位置特征进行融合，得到样本多模态向量；根据所述样本多模态特征对所述样本图像进行兴趣点识别，得到样本兴趣点识别结果；基于所述样本兴趣点识别结果与所述训练标签的差异，调整所述机器学习模型的参数并继续训练，直至满足训练停止条件时停止训练。

21.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

22.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。