CN110321885A - 一种兴趣点的获取方法及装置 - Google Patents

一种兴趣点的获取方法及装置 Download PDF

Info

Publication number
CN110321885A
CN110321885A CN201810279696.4A CN201810279696A CN110321885A CN 110321885 A CN110321885 A CN 110321885A CN 201810279696 A CN201810279696 A CN 201810279696A CN 110321885 A CN110321885 A CN 110321885A
Authority
CN
China
Prior art keywords
image
poi
text
title
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810279696.4A
Other languages
English (en)
Inventor
蒋昭炎
郝志会
梅树起
姜帆
赵锟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Autonavi Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Software Co Ltd filed Critical Autonavi Software Co Ltd
Priority to CN201810279696.4A priority Critical patent/CN110321885A/zh
Publication of CN110321885A publication Critical patent/CN110321885A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种兴趣点的获取方法及装置,涉及地理信息采集技术领域,主要目的在于实现高效、低成本地获取POI。本发明主要的技术方案为:从视频中,获取至少两帧以上包含文字信息的图像;通过三维重建技术拼接所述图像,得到一幅画轴图像;对所述画轴图像中的文字信息进行识别,至少识别出所述文字信息中包含的兴趣点POI的名称。本发明用于采集POI。

Description

一种兴趣点的获取方法及装置
技术领域
本发明涉及地理信息采集技术领域,尤其涉及一种兴趣点的获取方法及装置。
背景技术
兴趣点(Point of Interest,POI)在电子地图中有着非常重要的地位,POI的丰富度、鲜度,会直接影响用户使用地图导航类应用软件的体验。由于POI泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、餐馆、加油站、医院、超市等,所以,电子地图中的POI的数据量非常大,而且POI的变化也比较频繁,因此,如何更快地获得更多、更准确的POI是地图数据生产厂商共同面临的挑战。
目前,大多数地图数据生产厂商主要采用以下方式获得兴趣点:先通过拍摄街景图像以及语音记录,得到拍摄了兴趣点的图像和记录了兴趣点信息的语音数据,然后,借助人工识别出图像和语音数据中记录的POI。现有技术获得POI需要借助大量的人工,存在获取效率低,成本高的问题。
发明内容
鉴于上述问题,本发明提出了一种兴趣点的获取方法及装置,主要目的在于实现高效、低成本地获取POI。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种兴趣点的获取方法,具体包括:
从视频中,获取至少两帧以上包含文字信息的图像;
通过三维重建技术拼接所述图像,得到一幅画轴图像;
对所述画轴图像中的文字信息进行识别,至少识别出所述文字信息中包含的兴趣点POI的名称。
另一方面,本发明提供一种兴趣点的获取装置,具体包括:
图像获取单元,用于从视频中,获取至少两帧以上包含文字信息的图像;
图像拼接单元,用于通过三维重建技术拼接所述图像获取单元获取的图像,得到一幅画轴图像;
文字识别单元,用于对所述图像拼接单元拼接的画轴图像中的文字信息进行识别,至少识别出所述文字信息中包含的兴趣点POI的名称。
另一方面,本发明提供一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时控制所述存储介质所在设备执行上述的兴趣点的获取方法。
另一方面,本发明提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的兴趣点的获取方法。
借由上述技术方案,本发明提供的一种兴趣点的获取方法及装置,能够全自动地生产POI,在该方式中,利用三维重建技术将从视频中截取的图像拼接为一幅完整的画轴图像,进而对画轴图像中的文字信息进行识别,与现有技术通过对单一一张图像进行识别相比,本发明对包含至少两张图像的画轴图像进行一次识别,即可实现现有技术对多张图像进行多次识别的效果,降低了识别的次数,提高了识别的工作效率,同时,拼接后的一幅画轴图像与截取出的一张图像相比,一方面更加全面地反应了视频所拍摄的场景,另一方面拼接消除了图像中重复的内容,所以,本发明从一张画轴图像识别出的POI的名称中不会存在重复数据,与现有技术相比,该识别结果可以直接用于后续的POI生产过程,不需进行冗余数据处理,从而也相应提升了POI的生产效率,降低了数据生产成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提出的一种兴趣点的获取方法的流程图;
图2示出了将多帧图像拼接为一幅画轴图像的拼接效果对比图;
图3示出了本发明实施例提出的另一种兴趣点的获取方法的流程图;
图4示出了本发明实施例提出的对拼接失败的图像进行去重并识别图像中的POI的名称的方法流程图;
图5示出了本发明实施例中识别图像中包含的POI的名称的方法流程图;
图6示出了对画轴图像中的招牌进行识别的效果图;
图7示出了本发明实施例提出的另一种兴趣点的获取方法的流程图;
图8示出了视频截取图像的轨迹点位置以及通过三维重建计算图像的相机位置的定位对比效果图;
图9示出了本发明实施例提出的一种兴趣点的获取装置的组成框图;
图10示出了本发明实施例提出的另一种兴趣点的获取装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种兴趣点的获取方法,该方法能够提高兴趣点(POI,PointOf Interest)的数据采集效率,降低采集成本。具体步骤如图1所示,该方法包括:
步骤101、从视频中,获取至少两帧以上包含文字信息的图像。
本实施例中的视频是指为生产POI而拍摄的视频数据,一般情况下,该视频是由外业人员(地理信息行业负责实地采集数据的人员)通过步行、骑行、驾车等方式对一定地理区域内的地物环境(如门牌、招牌、交通标识、楼宇等)进行连续拍摄得到的。视频一般会以一个固定的高度进行连续拍摄,众所周知,视频由连续拍摄的大量的图像构成,当拍摄视频的外业人员的移动速度较低时,视频中相邻两帧的图像一般会拍摄到的较多重复的内容,为了避免从视频中获取的图像重复的内容过多,本发明优选按照预设的时间间隔从视频中获取至少两帧以上的图像。具体的,预设的时间间隔以及获取的图像的总量可以根据视频的时间长短,外业人员拍摄该视频时的移动速度等参数来确定,并本发明不做限制。
此外,本发明所提取的图像中,每一帧图像中还应含有文字信息,这是因为本发明的目的是获取POI的名称,而POI的名称属于文字信息,因此,本发明需要获取含有文字信息的图像。
在实际应用中,可以对按时间间隔从视频中截取的多帧图像,利用预先训练的卷积神经网络对图像进行识别,判断图像中是否含有文字信息,将不含有文字信息的图像过滤,保留包含文字信息的图像。其中,该卷积神经网络可以是经过预先训练的分类模型,通过该模型可以对图像中的文字信息进行学习,以确定哪些图像中含有文字,哪些不含文字。
步骤102、通过三维重建技术拼接所述图像,得到一幅画轴图像。
由于本发明在步骤102中要将步骤101获取的图像拼接为一幅画轴图像,因此,在步骤101获取图像时还要考虑截取出的图像通过拼接得到一幅画轴图像后,该画轴图像需要能够反映该视频拍摄的一个地理区域的一部分完整的地物环境,正因为此,虽然本发明步骤101中获取的图像是按照预设的时间间隔截取的,但为了保证拼接得到的画轴图像能够反映一部分完整的地物环境信息,本发明相邻截取的图像仍然可能存在重复的内容,为此,步骤102通过三维重建技术对获取的图像进行三维重建时,需要消除重复内容,将多帧图像拼接为一幅没有重复内容但包含有拼接前图像中所有信息的画轴图像。
比如,外业人员拍摄了一条步行街某一侧的商铺的视频,那么步骤101则需要从视频中截取出能够还原该步行街这一侧商铺的图像,进而将这些图像拼接为一张画轴图像。
其中,本实施例中的三维重建技术是指基于图像的三维重建,是将多张二维图片中相同的景物进行三维重建的技术,其在影视、文物保护领域中已有应用,主要流程包括获取图像序列、图像特征点检测与匹配、计算基础矩阵、相机标定、计算相机外参数并恢复相机投影矩阵、获取三维点云、网格重建、纹理映射等步骤,具体实现的原理与过程则不在此处做详细说明。本发明利用三维重建技术的目的不在于对图像中景物的三维还原,而是借助该技术实现将多帧的图像进行拼接组合,以得到一幅画轴图像。
步骤103、对画轴图像中的文字信息进行识别,至少识别出所述文字信息中包含的POI的名称。
由于画轴图像是由多帧的包含文字信息的图像拼接而成,如前所述,该画轴图像应该包含了前述多帧图像中的所有文字信息,因此,对该画轴图像进行文字信息识别后得到的结果与对多帧图像进行文字信息识别得到最终的结果是相同的,但是由于本发明在拼接时已经对重复的内容进行了过滤,因此,对画轴图像进行识别不会出现冗余的文字信息,而且只用识别一次,与现有技术分别对多帧图像进行逐一识别相比输出识别结果的效率高。
以上是本发明实施例提供的一种兴趣点的获取方法,以下结合附图2所示图例,对上述实施例提供的技术方案进行说明。
如图2所示,其中,图像1,图像2,图像3,图像4分别是从视频中截取的4帧图像,对比这4幅图像可以看出,每两个相邻的图像中均含有重复的文字信息,如图像2与图像3中的“比比馒头”。按照现有技术,若对每个图像分别进行单独的文字信息识别,不仅要识别4次,而且识别出的文字信息也会存在冗余的识别结果,比如从图像2识别出的比比馒头和从图像3中识别出的比比馒头则属于存在冗余的识别结果,需要进行去重处理。而本发明则是通过三维重建技术,将4帧图像拼接为如图2所示的画轴图像A,画轴图像A不仅记录了上面4帧图像的所有信息,更重要的是拼接时去除了重复的部分,由此可见,本发明只需对画轴图像A进行一次文字信息识别,并且,由于本发明拼接得到的画轴图像的图幅小于4帧图像不做去重处理直接拼接在一起的图像的图幅,不仅降低了待识别的图幅面积,而且所识别出的文字信息更是不存在冗余内容,不需要对文字信息进行去重操作,如此,采用本发明方案识别出的图像中的文字信息可以直接用于后续POI的生产过程,省去了对文字信息的过滤、清洗等步骤,提升了POI的生产效率。
以上是本发明实施例提供的一种兴趣点的获取方法,该方法通过对画轴图像的识别实现了高效、低成本地获取POI,但实际应用中,并不是所有的视频都可以拼接出画轴图像,为了更加全面地解决现有技术存在的问题,本发明实施例还提供了另一种兴趣点的获取方法,其具体步骤如图3所示,包括:
步骤201、从视频中,获取至少两帧以上包含文字信息的图像。
步骤202、通过三维重建技术拼接所述图像,得到一幅画轴图像。
以上两个步骤在上述实施例中已做说明,此处不再赘述。
步骤203、判断所述画轴图像是否拼接成功,如果拼接成功,则进入步骤204,如果拼接失败,则进入步骤205。
由于视频拍摄时,会因为一些原因比如拍摄角度、拍摄距离等导致同一地物在从视频中所截取的不同图像内的成像情况存在差异,这会导致截取的包含这一地物的图像存在拼接失败的可能,而对于拼接失败的画轴图像,如果仍然进行识别,则会导致文字识别结果出现误差,从而导致获取POI的名称冗余、错误或不完整,因此,在本实施例中,为了保证最终识别结果的准确率,该实施例需要对所拼接出的画轴图像进行判断,当确定拼接成功时,再对画轴图像中的文字信息进行识别,即执行步骤204,否则执行步骤205,从截取的图像中识别文字信息。
具体的,画轴图像是否拼接成功可通过深度学习分类器对画轴图像拼接处的纹理的平滑程度进行判断,以此来确定画轴图像是否拼接成功。其中,分类器是通过深度学习的方式,使用大量的样本数据训练得到的,样本数据中包括拼接成功的图像,也包括拼接失败的图像,分类器通过深度学习的方式学习这些样本中拼接处纹理的平滑特征,了解拼接成功与拼接失败的图像中拼接处纹理平滑程度的差异区别,后续,在对画轴图像检测时,通过该分类器计算画轴图像中拼接处纹理的平滑程度,就可以确定该画轴图像是否拼接成功,如果拼接痕迹过于明显或平滑度不够(平滑度指数低于预设值),则分类器会给出该画轴图像拼接失败的分类结果。
步骤204、对画轴图像中的文字信息进行识别,至少识别出所述文字信息中包含的POI的名称。
步骤205、对截取的图像中的文字信息进行识别,至少识别出所述文字信息中包含的POI的名称。
在实际应用中,如果截取的图像数量较大,并且由图2示例可知,本发明截取的图像之间会存在重复的文字信息,甚至是具有完全相同的文字信息,如果对截取的图像均进行文字识别,不仅图像识别的量大,而且识别结果将包含冗余信息,导致识别效率降低。为此,在具体实现时,步骤205,可以替换为图4所示的优选方案,具体包括:
步骤301、从获取的至少两帧以上包含文字信息的图像中,获取文字重合度高的至少两帧图像。
其中,此处的文字重合度并不是指所识别出的具体文字内容的重合度,而是指图像中包含的文字信息参数的一致性程度,比如,文字在图像中的位置、所占图像的比例、数量、大小、行数等参数。而基于这些参数来确定多帧图像是否属于文字重合度高的图像,则可以根据图像的数量、POI生产的精度来设置,图像数量大或精度要求低,则可适当降低重合度的评价标准,反之则需要提高重合度的评价标准。
步骤302、对文字重合度高的至少两帧图像,保留其中一帧图像,删除其余图像。
图像的文字重合度越高,则说明图像中所包含相同文字信息的可能性越大,为了提升识别效率,本发明对文字重合度高的图像不再重复识别,而是仅保留其中一帧图像进行后续的文字识别操作,删除其余图像。
步骤303、对保留的图像中的文字信息进行识别,至少识别出所述文字信息中包含的POI的名称。
图4所示实施例,通过上述步骤301与302可以将拼接失败的图像进行有效过滤,以减少待识别图像的数量。
需要说明的是,图4所示的实施例也可以独立于图3所示的实施例而单独执行,以解决图像冗余的问题。
以上是本发明另一实施例提供的获取POI的方法,该实施例既能够对拼接成功的画轴图像进行文字识别,提取出有效的POI的名称;又能够对拼接不成功的图像进行单帧图像的文字识别,进而去除冗余的文字信息,得到有效的POI的名称。与图1实施例相比,该实施例考虑到拼接操作可能失败的结果,更加全面地解决了高效、低成本地获取POI的问题。进一步的,对于拼接不成功的图像,本发明的一个优选实施例中会通过图6实施例删除其中文字重合度高的图像,只对其中的一帧图像进行识别,提取其中POI的名称。与现有技术对图像逐一进行识别相比,提高了POI的识别效率,也减少了识别结果的冗余内容。
以上是本发明提供获取兴趣点的方法实施例,以下对前述实施例涉及的画轴图像识别的步骤103、对画轴图像中的文字信息进行识别,至少识别出该文字信息中包含的POI的名称的具体实施例进行详细介绍。具体如图5所示,包括:
步骤401、通过深度学习分割模型,对所述画轴图像中的招牌进行识别,得到招牌区域。
其中,深度学习分割模型是可以是一种神经网络模型,该模型预先通过已标记了招牌区域的图像样本进行了训练,所以,该深度学习分割模型具备能够识别出图像中的招牌区域的能力。需要说明的是,本实施例中,包括与深度学习有关的模型,其学习方式不限定是有监督学习或无监督学习,采用不同的学习方式的区别在于所构建的学习模型的框架有所不同,比如,卷积神经网络就是一种深度的监督学习下的机器学习模型,而深度置信网络是一种无监督学习下的机器学习模型。
进一步,由于本发明的目的是识别出POI的名称,而对于商铺、楼宇等POI而言,其名称一般会被记载在招牌中,所以,本发明为了进一步提高识别效率,通过步骤401将需要进行文字识别的图像区域进一步缩小到招牌所在的区域。经过深度学习分割模型对图像中的招牌进行识别,得到的招牌区域如图6所示,该图为一幅画轴图像,在该画轴图像中,通过分割模型可以识别出商铺的招牌在画轴图像中所在的区域,即图中白色框线框出的区域。
步骤402、通过深度学习检测模型,对招牌区域中的文字进行识别,得到每个文字区域。
该步骤中的检测模型对基于分割模型所得到的招牌区域进行识别,以识别出各个招牌中的文字所在的区域,即文字区域,如图6中所示,高亮标识的则是本发明得到每个招牌的文字区域。步骤402通过检测模型识别出文字区域进一步减少了文字识别的图幅范围,有助于提升文字识别的效率。
步骤403、通过深度学习分类模型,对每个文字区域中的文字进行识别,得到每个文字区域中的文字。
该步骤中的分类模型是基于检测模型所识别出的每个文字区域,对该区域中的文字进行识别。
关于文字识别的具体方式,本步骤优选的是使用深度学习的方式,但其他文字识别方式亦可用于本发明并不影响本发明实施例的实现,比如,也可以通过光学字符识别(Optical Character Recognition,OCR)进行文字识别,该方式是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。同样的,对于图像中文字的识别过程,由于每个文字区域是在所识别出的招牌区域中,而招牌中文字与招牌背景的颜色一般都具有较大的色差,在光线充足时,OCR通过图像中的文字与招牌背景所具有的亮、暗差异,能够识别出文字区域中具体的文字。
步骤404、从同一个招牌中识别出的文字构成一个POI的名称。
如前所述对于商铺、楼宇类的POI而言,其名称一般记录在招牌中,所以,本发明将从同一个招牌中识别出的文字进行组合,构成一个POI的名称。如图6所示,通过步骤404识别出的POI的名称包括:“比比馒头”、“芳芳水果店”等。
为了更精确的获取招牌中能够构成POI的名称的文字,本发明步骤404在具体实现时,需要先从所识别出的文字信息中,获取能够构成POI的名称的文字,然后再生成POI的名称。比如,根据预置的判断策略来判断能够构成POI的名称的文字,具体判断策略包括:文字的数量、文字在图片中的位置或者文字间的组合关系等。在图6中,识别出一个招牌中的文字为“芳芳水果店”,其可以将“芳芳水果店”直接作为一个POI的名称,如果从该招牌中还识别出了电话号码之类的文字信息,则需要通过上述判断策略,消除这些文字信息的影响。
需要说明的是,图5所示实施例亦可用于对单帧图像的识别,即,本发明步骤205、对截取的图像中的文字信息进行识别,至少识别出所述文字信息中包含的POI的名称,在具体实现时,可以采用图5所示的实施例,区别仅在于输入的图像不再是画轴图像而是单帧图像,故步骤205在具体实施时可以按照图5所示的步骤识别出单帧图像中的文字,需要注意的是,对单帧图像进行文字识别之后,需要进一步从识别出的POI的名称中去除冗余的POI的名称,以得到唯一的POI的名称。
进一步的,采用本发明图1、图3、图4以及图5所提出的POI获取方法,识别出POI的名称后,还可以进一步基于识别出的POI的名称对现有地图数据库中的POI的名称进行新鲜度验证以及位置的更新,具体如图7所示,该方法与上述实施例的区别在于,在识别出POI的名称后,该方法还包括:
步骤206、为识别出POI的名称确定一个融合位置。
基于前述实施例中所识别出的POI的名称,该步骤为识别出POI的名称确定一个融合位置是在确定该POI在现实世界的位置,具体可通过以下步骤实现:
第一,根据每帧包含文字信息的图像的拍摄时间,从拍摄所述视频时记录的轨迹点位置集合中,获取拍摄所述图像的轨迹点位置。
其中,外业采集人员在拍摄视频时会记录外业采集人员行走的轨迹点位置,本发明中图像的轨迹点位置则是从记录的外业采集人员的轨迹点位置集合中获取得到的。比如,本发明截取的一帧图像的拍摄时间是13点01分,则可以在轨迹点中寻找13点01分对应的轨迹点位置作为该帧图像的轨迹点位置。
第二,通过三维重建技术,得到所述图像的相机位置。
假定有一个世界坐标系,拍摄者、相机、目标物(即图像)之间的相对位置和姿态是可以推算的,三维重建技术则能通过多张不同拍摄角度的图像还原这三者的关系,本发明中图像的相机位置是指相机拍摄图像时,相机相对于拍摄到的图像所在的位置,相机位置一般采用欧式坐标系表示。
如图8所示,图中的黑色点为对应于各帧图像的轨迹位置点,而白色点为利用三维重建技术计算得到相机位置。可见,轨迹位置点和对应的相机位置在位置坐标上还存在一定差异。
第三,将图像的轨迹点位置和相机位置融合,得到所述图像的融合位置。
需要说明的是,通过三维重建技术所计算出的相机位置是一个三维的空间位置,但在本发明中,只需获取其相对于轨迹点位置所在平面的二维位置进行位置融合。
图像的轨迹点位置可以是通过定位设备测量得,而图像的相机位置则可以视为利用图像中的地物内容计算得到的图像位置。由于定位测量得到的位置存在有定位漂移或定位误差的问题,而计算得到的相机位置由于拍摄设备与图像之间的拍摄距离可能因为焦距等问题在计算时也会出现误差,因此,为了降低单独使用某一种定位图像位置的定位误差,得到图像中POI的准确位置,本发明将上述的计算值与测量值进行位置融合,从而为图像确定一个坐标位置,即融合位置。
具体的融合方式,在本实施例中不做具体限定,可以是求两者的平均位置,也可以是对两者分别设置融合的权值再计算融合位置,还可以是先从测量的图像位置中,找出明显属于定位漂移的位置点,利用其它测量得到的轨迹点位置推算中该位置点的坐标,再与计算出的相机位置进行融合。
第四,根据所述图像的融合位置,为识别出POI的名称确定一个融合位置。
由于本发明针对每帧图像都确定有该图像对应的位置,而一个识别出的POI的名称实际上可能会位于拼接前的多帧图像中,那么就需要为该POI的名称从多个图像所对应的位置中选择一个唯一的位置,对此类情况,本发明可以从包含该POI的名称的至少两帧以上的图像中选择任意一个图像,以该图像的融合位置确定为该POI的名称的融合位置,也可以是根据各帧图像对应的融合位置的和值的均值作为该POI的融合位置。
步骤207、根据识别出的POI的名称与地图数据库中对应的POI的名称的相似度确定地图数据库中POI的鲜度。
其中,鲜度是地图数据库中存储的POI的一个属性标签,由于从外业人员采集视频到从视频中识别出POI的名称会在一个很短的时间内完成,因此,当从视频中识别出的POI在地图数据库中匹配出对应的POI时,则说明地图数据库中对应的POI在现实世界中依然存在,所以,可以将地图数据库中对应的POI的鲜度属性标记为活跃,反之,则说明地图数据库中对应的POI在现实世界中已不存在,需要将对应的POI的鲜度标记为过期。众所周知,现实世界中同样名称的POI会大量存在,比如,肯德基、如家酒店等,而为了唯一确认一个POI的新鲜度,本申请步骤207需要依赖POI的位置,具体的,步骤207可以采用如下步骤实现:
第一,根据每帧包含文字信息的图像的轨迹点位置,确定拍摄所述图像的地理区域。
其中,图像的轨迹点位置获取在步骤206中已做说明,此处不再赘述。
第二,从地图数据库中,获取地理区域中的POI作为候选POI。
由于获取地理区域的目的是要从地图数据库中获取该地理区域的候选POI,而本申请是从视频中截取包含文字信息的图像进行文字识别,所以,为了保证获取的候选POI与识别出的POI是位于基本相同的地理区域的,本发明实施例中,根据截取出的图像的轨迹点位置,得到了地理区域。考虑到定位误差的存在,在根据截取出的图像的轨迹点位置,得到了地理区域之后,可以适当对该地理区域进行一定范围的扩大,以保证后续处理的准确性。比如,从视频中截取了100帧图像,则这100帧图像对应了100个轨迹点位置,用这100个轨迹点位置即可确定拍摄这100帧图像的地理区域。
关于获取候选POI,具体地,可以从地图数据库中,查找位置落入该地理区域中的POI,将这些POI确定为用于与所识别出的POI进行匹配的候选POI。比如,根据图像的轨迹点位置的坐标,得到其对应的地理区域在现实中对应的是王府井步行街,则从地图数据库中查找的位置落入王府井步行街的所有POI。
第三,根据识别出的POI的名称和候选POI的名称,计算名称中的每个文字的权重。
在实际应用中,可以采用如下实施例计算文字的权重,包括:
首先,获取每个文字的逆向文件频率idfi
TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。而逆向文件频率(inversedocument frequency,idf)是一个词语普遍重要性的度量。
具体计算每个文字的idfi时,首先要统计总的POI的名称的数量,即识别出的POI的名称和候选POI的名称的数量,定义为|D|;其次,根据这些POI的名称中所含有的文字,再针对每一个文字统计包含该文字的POI的数量,包含该文字的POI包括识别出的POI和候选POI,该数量表示为|{j:ti∈dj}|;最终,通过公式(1)对数量|D|和数量|{j:ti∈dj}|进行运算,得到第i个文字的idfi作为该第i个文字的逆向文件频率。
举例说明,通过300帧图像,识别出了300个POI的名称,同时,地图数据库中拍摄这300帧图像的地理区域,存储了700个POI的名称,那么,总的POI的名称的数量为1000,这1000个名称中有一个文字为“一”,在这1000个名称中,有10个名称含有文字“一”,那么,|D|的数量为1000,j=10,那么,利用上述公式计算出文字“一”在该地理区域中的idf值为3。
其次,对每个文字的idfi进行归一化处理,得到每个文字的权重。其中,经过归一化处理后,所有文字的权重之和为1。
通过计算每个文字的权重,就可以看出每个文字在POI的名称中的重要程度,以便于后续计算识别出的POI和候选POI的名称相似度。
第四,根据每个文字的权重,确定识别出的POI的名称和候选POI的名称的相似度。
利用每个文字的权重,为每个识别出的POI的名称计算与候选POI的名称的相似度。相似度在具体计算时可以采用余弦相似度计算,基本原理为根据识别出的POI的名称中包含的文字和候选POI中包含的文字建立一组多维向量,在根据每个POI中含有的文字,以及对应文字的权重,计算出各个POI的名称的向量值,最后进行利用余弦相似度公式计算识别出的POI的名称与候选POI的名称的相似度值,具体的计算过程在此不做详细说明。该相似度的值为0-1之间的小数,越接近1的值表示识别出的POI的名称与候选POI的名称越相似。
第五,判断相似度是否大于自适应阈值,若是,则将候选POI的鲜度标记为活跃。
相似度大于自适应的阈值,说明识别出的POI在地图数据库中匹配到了相似的POI,由于识别出的POI是从外业人员实地采集的视频中识别出的,说明这个地图数据库中的POI对应的商铺或者楼宇依然存在,此时,可以将记录在地图数据库中的这个POI的鲜度标记为活跃。
其中,自适应阈值是指具有根据预置条件的变化而自适应调整的阈值,具体的预置条件包括有:
根据识别出的POI的名称中文字的数量进行调整,文字越多,该阈值的取值越小。
根据识别出的POI的位置,即POI在画轴图像中对应的单帧图像的坐标位置,与候选POI的坐标位置的差值进行调整,其中,候选POI的坐标位置是从地图数据库中获取的具体地理坐标,比如,POI的经纬度坐标值。该差值越大,说明地图数据库中的候选POI与所识别出的POI为相同POI的可能性就越低,因而,阈值的取值应越大。
根据所识别的POI的名称中文字的置信度调整,该置信度是指在对文字信息进行识别的过程中,所识别出的结果都会对应的生成有一个置信度,用于表示识别出文字的可信程度,也可以理解为该识别结果的准确度,该置信度可通过深度学习神经网络计算得到。置信度的值主要与图像中文字的清晰度、大小以及字体形状相关。置信度越高,该阈值的取值应越小。
以上例举出了几种关于自适应调整阈值的预置条件,这些条件不限定单独使用或结合使用,在结合使用时,可以对不同条件设定对应的权值,从而实现对阈值在多条件下的自适应调整。
在自适应阈值的取值确定后,将计算得到的相似度与该自适应阈值相比,当相似度大于自适应阈值时,确定识别出的POI的名称在地图数据库中存在相匹配的POI的名称。而当相似度小于或等于自适应阈值时,则说明识别出的POI的名称在地图数据库中匹配不到对应的POI的名称,该识别出的POI的名称,其可能是在该坐标位置上出现的新POI的名称,也可能是对该坐标位置上的候选POI的名称进行了变更,对此,则需要由人工对该POI的名称进行再次确认后,进一步判断对该POI的处理方式。
进一步的,当识别出的POI的名称和候选POI的名称的相似度大于自适应阈值时,为了确保地图数据库中POI的位置准确度,还可以用识别出的POI的名称对应的融合位置更新候选POI的位置。
其中,识别出的POI的名称对应的融合位置为执行步骤206后所得到的结果,在执行位置更新操作时,可以判断该融合位置与计算相似度的候选POI的位置是否一致,如果两者不同,再将得到的融合位置替换候选POI的位置。
进一步的,作为对上述图1、图3、图4、图5与图7所示方法的实现,本发明实施例提供了一种兴趣点的获取装置,能够高效、低成本地获取POI。为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图9所示,具体包括:
图像获取单元501,用于从视频中,获取至少两帧以上包含文字信息的图像。
图像拼接单元502,用于通过三维重建技术拼接所述图像获取单元501获取的图像,得到一幅画轴图像。
文字识别单元503,用于对所述图像拼接单元502拼接的画轴图像中的文字信息进行识别,至少识别出所述文字信息中包含的兴趣点POI的名称。
进一步的,如图10所示,所述装置还包括:
拼接判断单元504,用于利用深度学习分类器判断所述画轴图像拼接处的纹理是否平滑,以得到所述画轴图像是否拼接成功的判断结果,如果判断结果是拼接成功,则触发所述文字识别单元503。
进一步的,如图10所示,所述装置还包括:
图像提取单元505,用于当所述拼接判断单元504确定画轴图像拼接不成功时,从获取的至少两帧以上包含文字信息的图像中,获取文字重合度高的至少两帧图像;
图像筛选单元506,用于对所述图像提取单元505提取的文字重合度高的至少两帧图像,保留其中一帧图像,删除其余图像;
文字识别单元503,还用于对所述图像筛选单元506选出的图像中的文字信息进行识别,至少识别出所述文字信息中包含的POI的名称。
进一步的,如图10所示,所述文字识别单元503包括:
招牌区域识别模块5031,用于通过深度学习分割模型,对所述图像拼接单元502拼接的画轴图像或图像筛选单元506选出的图像中的招牌进行识别,得到招牌区域;
文字区域识别模块5032,用于通过深度学习检测模型,对所述招牌区域识别模块5031识别的招牌区域中的文字进行识别,得到每个文字区域;
文字识别模块5033,用于通过深度学习分类模型,对所述文字区域识别模块5032识别的每个文字区域中的文字进行识别,得到每个文字区域中的文字;
兴趣点识别模块5034,用于将所述文字识别模块5033从同一个招牌中识别出的文字构成一个POI的名称。
进一步的,如图10所示,所述装置进一步包括:
图像位置获取单元507,用于根据所述图像获取单元501获取的每帧包含文字信息的图像的拍摄时间,从拍摄所述视频时记录的轨迹点位置集合中,获取拍摄所述图像的轨迹点位置;
相机位置获取单元508,用于通过三维重建技术,得到所述图像的相机位置;
图像位置融合单元509,用于将所述图像位置获取单元507获取的图像的轨迹点位置和所述相机位置获取单元508获取的相机位置融合,得到所述图像的融合位置;
融合位置匹配单元510,用于根据所述图像位置融合单元509得到的图像的融合位置,为识别出POI的名称确定一个融合位置。
进一步的,如图10所示,所述装置进一步包括:
位置匹配单元511,用于根据每帧包含文字信息的图像的轨迹点位置,确定拍摄所述图像的地理区域;
候选兴趣点提取单元512,用于从地图数据库中,获取所述位置匹配单元511确定的地理区域中的POI作为候选POI;
文字权重计算单元513,用于根据所述文字识别单元503识别出的POI的名称和所述候选兴趣点提取单元512获取的候选POI的名称,计算名称中的每个文字的权重;
名称相似度计算单元514,用于根据所述文字权重计算单元513计算的每个文字的权重,确定识别出的POI的名称和候选POI的名称的相似度;
鲜度标记单元515,用于在所述名称相似度计算单元514确定的相似度大于自适应阈值时,在所述地图数据库中将所述候选POI鲜度标记为活跃;
融合位置更新单元516,用于用于在所述名称相似度计算单元514确定的相似度大于自适应阈值时,用所述融合位置匹配单元510得到的识别出的POI的名称对应的融合位置更新所述候选POI的位置。
进一步的,如图10所示,所述文字权重计算单元513包括:
POI总量统计模块5131,用于统计识别出的POI的名称和候选POI的名称的数量|D|;
POI数量统计模块5132,用于对识别出的POI的名称和候选POI的名称中每个文字,统计包含这个文字的所述识别出的POI和候选POI的数量|{j:ti∈dj}|;
逆向文件频率运算模块5133,用于通过公式对所述POI总量统计模块5131统计的数量|D|和POI数量统计模块5132统计的数量|{j:ti∈dj}|进行运算,得到每个字的逆向文件频率idfi
归一化模块5134,用于对所述逆向文件频率运算模块5133计算得到的每个文字的逆向文件频率idfi进行归一化处理,得到每个文字的权重。
进一步的,所述融合位置匹配单元510在执行为识别出POI的名称确定一个融合位置的步骤时,还包括:如果识别出的POI的名称分布在两帧以上的图像中,则将所述两帧以上的图像中的任意一个图像的融合位置确定为所述POI的名称的融合位置。
进一步的,如图10所示,所述装置还包括:
置信度计算单元517,用于通过深度学习神经网络,得到识别出的POI的名称中的文字的置信度;
自适应阈值调整单元518,用于根据识别出的POI的名称的文字数量、文字在所述画轴图像的位置与候选POI的位置的差值、所述置信度计算单元517得到的文字的置信度,对原有的自适应阈值进行调整,得到预设的自适应阈值。所述自适应阈值用于与所述名称相似度计算单元514计算的相似度进行对比。
进一步的,如图10所示,图像获取单元501包括:
图像截取模块5011,用于从视频中,按照预设的时间间隔,截取至少两帧以上的图像;
图像识别模块5012,用于利用预先训练的卷积神经网络,对所述图像截取模块5011截取出的所有图像进行识别,得到至少两帧以上包含文字信息的图像。
综上所述,本发明实施例所采用的兴趣点的获取方法及装置,能够全自动地从视频中生产出POI,在该方式中,利用三维重建技术将从视频中截取的图像拼接为一幅完整的画轴图像,进而对画轴图像中的文字信息进行识别,与现有技术通过对单一一张图像进行识别相比,本发明对包含至少两张图像的画轴图像进行一次识别,即可实现现有技术对多张图像进行多次识别的效果,降低了识别的次数,提高了识别的工作效率,同时,拼接后的一幅画轴图像与截取出的一张图像相比,一方面更加全面地反应了视频所拍摄的场景,另一方面拼接消除了图像中重复的内容,所以,本发明从一张画轴图像识别出的POI的名称中不会存在重复数据,与现有技术相比,该识别结果可以直接用于后续的POI生产过程,不需进行冗余数据处理,从而也相应提升了POI的生产效率,降低了数据生产成本。此外,对拼接画轴图像失败后,本发明也通过优化待识别图像的数量来提升对POI的识别效率。并进一步地,利用识别出的POI与地图数据库中的POI进行匹配以判断地图数据库中POI的鲜度,以此更新该地图数据库中数据内容,确保POI的活跃性以及位置的准确性。
进一步的,本发明实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,所述程序运行时控制所述存储介质所在设备执行上述的兴趣点的获取方法。
另外,本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的兴趣点的获取方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (18)

1.一种兴趣点的获取方法,其特征在于,所述方法包括:
从视频中,获取至少两帧以上包含文字信息的图像;
通过三维重建技术拼接所述图像,得到一幅画轴图像;
对所述画轴图像中的文字信息进行识别,至少识别出所述文字信息中包含的兴趣点POI的名称。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用深度学习分类器判断所述画轴图像拼接处的纹理是否平滑,以得到所述画轴图像是否拼接成功的判断结果,如果判断结果是拼接成功,则执行对所述画轴图像中的文字信息进行识别,至少识别出所述文字信息中包含的POI的名称的步骤。
3.根据权利要求2所述的方法,其特征在于,如果判断结果是拼接不成功,则所述方法还包括:
从获取的至少两帧以上包含文字信息的图像中,获取文字重合度高的至少两帧图像;
对文字重合度高的至少两帧图像,保留其中一帧图像,删除其余图像;
对保留的图像中的文字信息进行识别,至少识别出所述文字信息中包含的POI的名称。
4.根据权利要求3所述的方法,其特征在于,对所述画轴图像/图像中的文字信息进行识别,至少识别出所述文字信息中包含的POI的名称具体包括:
通过深度学习分割模型,对所述画轴图像/图像中的招牌进行识别,得到招牌区域;
通过深度学习检测模型,对所述招牌区域中的文字进行识别,得到每个文字区域;
通过深度学习分类模型,对所述每个文字区域中的文字进行识别,得到每个文字区域中的文字;
从同一个招牌中识别出的文字构成一个POI的名称。
5.根据权利要求1-4中任一项权利要求所述的方法,其特征在于,所述方法进一步包括:
根据每帧包含文字信息的图像的拍摄时间,从拍摄所述视频时记录的轨迹点位置集合中,获取拍摄所述图像的轨迹点位置;
通过三维重建技术,得到所述图像的相机位置;
将所述图像的轨迹点位置和相机位置融合,得到所述图像的融合位置;
根据所述图像的融合位置,为识别出POI的名称确定一个融合位置。
6.根据权利要求5所述的方法,其特征在于,所述方法进一步包括:
根据每帧包含文字信息的图像的轨迹点位置,确定拍摄所述图像的地理区域;
从地图数据库中,获取所述地理区域中的POI作为候选POI;
根据识别出的POI的名称和候选POI的名称,计算名称中的每个文字的权重;
根据所述每个文字的权重,确定识别出的POI的名称和候选POI的名称的相似度;
判断相似度是否大于自适应阈值,若是,则在所述地图数据库中将所述候选POI鲜度标记为活跃和/或用所述识别出的POI的名称对应的融合位置更新所述候选POI的位置。
7.根据权利要求6所述的方法,其特征在于,所述根据识别出的POI的名称和候选POI的名称,计算名称中的每个文字的权重包括:
统计识别出的POI的名称和候选POI的名称的数量|D|;
对识别出的POI的名称和候选POI的名称中每个文字,统计包含该文字的所述识别出的POI和候选POI的数量|{j:ti∈dj}|;
通过公式对数量|D|和数量|{j:ti∈dj}|进行运算,得到每个文字的逆向文件频率idfi
对每个文字的逆向文件频率idfi进行归一化处理,得到每个文字的权重。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
通过深度学习神经网络,得到识别出的POI的名称中的文字的置信度;
根据识别出的POI的名称的文字数量、文字在所述画轴图像的位置与候选POI的位置的差值、文字的置信度,对原有的自适应阈值进行调整,得到预设的自适应阈值。
9.一种兴趣点的获取装置,其特征在于,所述装置包括:
图像获取单元,用于从视频中,获取至少两帧以上包含文字信息的图像;
图像拼接单元,用于通过三维重建技术拼接所述图像获取单元获取的图像,得到一幅画轴图像;
文字识别单元,用于对所述图像拼接单元拼接的画轴图像中的文字信息进行识别,至少识别出所述文字信息中包含的兴趣点POI的名称。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
拼接判断单元,用于利用深度学习分类器判断所述画轴图像拼接处的纹理是否平滑,以得到所述画轴图像是否拼接成功的判断结果,如果判断结果是拼接成功,则触发所述文字识别单元。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
图像提取单元,用于当所述拼接判断单元确定画轴图像拼接不成功时,从获取的至少两帧以上包含文字信息的图像中,获取文字重合度高的至少两帧图像;
图像筛选单元,用于对所述图像提取单元提取的文字重合度高的至少两帧图像,保留其中一帧图像,删除其余图像;
所述文字识别单元,还用于对所述图像筛选单元保留的图像中的文字信息进行识别,至少识别出所述文字信息中包含的POI的名称。
12.根据权利要求11所述的装置,其特征在于,所述文字识别单元包括:
招牌区域识别模块,用于通过深度学习分割模型,对所述图像拼接单元拼接的画轴图像或图像筛选单元选出的图像中的招牌进行识别,得到招牌区域;
文字区域识别模块,用于通过深度学习检测模型,对所述招牌区域中的文字进行识别,得到每个文字区域;
文字识别模块,用于通过深度学习分类模型,对所述每个文字区域中的文字进行识别,得到每个文字区域中的文字;
兴趣点识别模块,用于从同一个招牌中识别出的文字构成一个POI的名称。
13.根据权利要求9-12中任一项权利要求所述的装置,其特征在于,所述装置进一步包括:
图像位置获取单元,用于根据每帧包含文字信息的图像的拍摄时间,从拍摄所述视频时记录的轨迹点位置集合中,获取拍摄所述图像的轨迹点位置;
相机位置获取单元,用于通过三维重建技术,得到所述图像的相机位置;
图像位置融合单元,用于将所述图像位置获取单元获取的图像的轨迹点位置和所述相机位置获取单元获取的相机位置融合,得到所述图像的融合位置;
融合位置匹配单元,用于根据所述图像位置融合单元得到的图像的融合位置,为识别出POI的名称确定一个融合位置。
14.根据权利要求13所述的装置,其特征在于,所述装置进一步包括:
位置匹配单元,用于根据每帧包含文字信息的图像的轨迹点位置,确定拍摄所述图像的地理区域;
候选兴趣点提取单元,用于从地图数据库中,获取所述位置匹配单元确定的地理区域中的POI作为候选POI;
文字权重计算单元,用于根据识别出的POI的名称和所述候选兴趣点提取单元获取的候选POI的名称,计算名称中的每个文字的权重;
名称相似度计算单元,用于根据所述文字权重计算单元计算的每个文字的权重,确定识别出的POI的名称和候选POI的名称的相似度;
鲜度标记单元,用于在所述名称相似度计算单元确定的相似度大于自适应阈值时,在所述地图数据库中将所述候选POI鲜度标记为活跃;
融合位置更新单元,用于用于在所述名称相似度计算单元确定的相似度大于自适应阈值时,用所述识别出的POI的名称对应的融合位置更新所述候选POI的位置。
15.根据权利要求14所述的装置,其特征在于,所述文字权重计算单元包括:
POI总量统计模块,用于统计识别出的POI的名称和候选POI的名称的数量|D|;
POI数量统计模块,用于对识别出的POI的名称和候选POI的名称中每个文字,统计包含这个文字的所述识别出的POI和候选POI的数量|{j:ti∈dj}|;
逆向文件频率运算模块,用于通过公式对数量|D|和数量|{j:ti∈dj}|进行运算,得到每个文字的逆向文件频率idfi
归一化模块,用于对每个文字的逆向文件频率idfi进行归一化处理,得到每个文字的权重。
16.根据权利要求14所述的装置,其特征在于,所述装置还包括:
置信度计算单元,用于通过深度学习神经网络,得到识别出的POI的名称中的文字的置信度;
自适应阈值调整单元,用于根据识别出的POI的名称的文字数量、文字在所述画轴图像的位置与候选POI的位置的差值、所述置信度计算单元得到的文字的置信度,对原有的自适应阈值进行调整,得到预设的自适应阈值。
17.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时控制所述存储介质所在设备执行权利要求1-8中任意一项权利要求所述的兴趣点的获取方法。
18.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-8中任意一项权利要求所述的兴趣点的获取方法。
CN201810279696.4A 2018-03-30 2018-03-30 一种兴趣点的获取方法及装置 Pending CN110321885A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810279696.4A CN110321885A (zh) 2018-03-30 2018-03-30 一种兴趣点的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810279696.4A CN110321885A (zh) 2018-03-30 2018-03-30 一种兴趣点的获取方法及装置

Publications (1)

Publication Number Publication Date
CN110321885A true CN110321885A (zh) 2019-10-11

Family

ID=68112007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810279696.4A Pending CN110321885A (zh) 2018-03-30 2018-03-30 一种兴趣点的获取方法及装置

Country Status (1)

Country Link
CN (1) CN110321885A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026937A (zh) * 2019-11-13 2020-04-17 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN111782846A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 图像选择方法、装置、计算机设备及存储介质
CN111833253A (zh) * 2020-07-20 2020-10-27 北京百度网讯科技有限公司 兴趣点空间拓扑构建方法和装置、计算机系统和介质
CN111832578A (zh) * 2020-07-20 2020-10-27 北京百度网讯科技有限公司 兴趣点信息处理方法、装置、电子设备和存储介质
CN112033396A (zh) * 2020-09-09 2020-12-04 北京百度网讯科技有限公司 用于获得兴趣点周围的引导点的方法、装置、设备与介质
CN112146676A (zh) * 2020-09-17 2020-12-29 北京小米移动软件有限公司 信息导航方法、装置、设备及存储介质
CN112435338A (zh) * 2020-11-19 2021-03-02 腾讯科技(深圳)有限公司 电子地图的兴趣点的位置获取方法、装置及电子设备
CN112541496A (zh) * 2020-12-24 2021-03-23 北京百度网讯科技有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN113012422A (zh) * 2019-12-20 2021-06-22 百度在线网络技术(北京)有限公司 公交车定位方法、装置、设备及存储介质
CN113763561A (zh) * 2021-08-19 2021-12-07 北京三快在线科技有限公司 Poi数据生成方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020228A (zh) * 2011-12-14 2013-04-03 微软公司 图像中的兴趣点(poi)数据定位
WO2014176745A1 (en) * 2013-04-28 2014-11-06 Tencent Technology (Shenzhen) Company Limited Providing navigation information to a point of interest on real-time street views using a mobile device
CN105320657A (zh) * 2014-05-30 2016-02-10 中国电信股份有限公司 兴趣点数据融合方法和系统
CN106989756A (zh) * 2016-01-21 2017-07-28 高德软件有限公司 确定兴趣点位置的方法和装置
US20170351732A1 (en) * 2016-06-02 2017-12-07 Naver Corporation Method and system for automatic update of point of interest
CN107832404A (zh) * 2017-11-02 2018-03-23 武汉大学 一种poi信息的补全方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020228A (zh) * 2011-12-14 2013-04-03 微软公司 图像中的兴趣点(poi)数据定位
WO2014176745A1 (en) * 2013-04-28 2014-11-06 Tencent Technology (Shenzhen) Company Limited Providing navigation information to a point of interest on real-time street views using a mobile device
CN105320657A (zh) * 2014-05-30 2016-02-10 中国电信股份有限公司 兴趣点数据融合方法和系统
CN106989756A (zh) * 2016-01-21 2017-07-28 高德软件有限公司 确定兴趣点位置的方法和装置
US20170351732A1 (en) * 2016-06-02 2017-12-07 Naver Corporation Method and system for automatic update of point of interest
CN107832404A (zh) * 2017-11-02 2018-03-23 武汉大学 一种poi信息的补全方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CHILLO GA 等: "New POI Construction with Street-Level Imagery", 《IEICE TRANS. INF.& SYST.》 *
中国卫星导航定位协会: "《卫星导航定位与北斗系统应用 壮大北斗产业 创新位置服务 2014》", 30 September 2014, 测绘出版社 *
宣云干 著: "《社会化标签的语义检索研究》", 30 September 2013 *
梁杏: "面向增强现实浏览器的全景图精确标注", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王龙波 等: "基于GPS与实景影像的POI快速采集技术", 《中国科技信息》 *
陈洪 等著: "《数字媒体技术概论》", 31 August 2015 *
齐力 编: "《公共安全大数据技术与应用》", 31 December 2017 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11768892B2 (en) 2019-11-13 2023-09-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for extracting name of POI, device and computer storage medium
CN111026937B (zh) * 2019-11-13 2021-02-19 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN111026937A (zh) * 2019-11-13 2020-04-17 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN113012422A (zh) * 2019-12-20 2021-06-22 百度在线网络技术(北京)有限公司 公交车定位方法、装置、设备及存储介质
CN111782846A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 图像选择方法、装置、计算机设备及存储介质
CN111833253A (zh) * 2020-07-20 2020-10-27 北京百度网讯科技有限公司 兴趣点空间拓扑构建方法和装置、计算机系统和介质
CN111832578A (zh) * 2020-07-20 2020-10-27 北京百度网讯科技有限公司 兴趣点信息处理方法、装置、电子设备和存储介质
CN111833253B (zh) * 2020-07-20 2024-01-19 北京百度网讯科技有限公司 兴趣点空间拓扑构建方法和装置、计算机系统和介质
CN112033396A (zh) * 2020-09-09 2020-12-04 北京百度网讯科技有限公司 用于获得兴趣点周围的引导点的方法、装置、设备与介质
CN112146676A (zh) * 2020-09-17 2020-12-29 北京小米移动软件有限公司 信息导航方法、装置、设备及存储介质
CN112435338A (zh) * 2020-11-19 2021-03-02 腾讯科技(深圳)有限公司 电子地图的兴趣点的位置获取方法、装置及电子设备
CN112435338B (zh) * 2020-11-19 2022-05-24 腾讯科技(深圳)有限公司 电子地图的兴趣点的位置获取方法、装置及电子设备
CN112541496A (zh) * 2020-12-24 2021-03-23 北京百度网讯科技有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN112541496B (zh) * 2020-12-24 2023-08-22 北京百度网讯科技有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN113763561B (zh) * 2021-08-19 2022-08-02 北京三快在线科技有限公司 Poi数据生成方法、装置、存储介质及电子设备
CN113763561A (zh) * 2021-08-19 2021-12-07 北京三快在线科技有限公司 Poi数据生成方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110321885A (zh) 一种兴趣点的获取方法及装置
KR102261061B1 (ko) 컨볼루션 신경망을 이용하여 poi 변화를 검출하기 위한 시스템 및 방법
CN110689623B (zh) 基于增强现实显示的游客导览系统及方法
CN106228129B (zh) 一种基于matv特征的人脸活体检测方法
CN107967457A (zh) 一种适应视觉特征变化的地点识别与相对定位方法及系统
CN106647742A (zh) 移动路径规划方法及装置
CN112560675B (zh) Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法
CN109919060A (zh) 一种基于特征匹配的身份证内容识别系统及方法
Porzi et al. Learning contours for automatic annotations of mountains pictures on a smartphone
CN108932509A (zh) 一种基于视频跟踪的跨场景目标检索方法及装置
CN111738036A (zh) 图像处理方法、装置、设备及存储介质
CN107948586A (zh) 基于视频拼接的跨区域运动目标检测方法和装置
CN108986137A (zh) 人体跟踪方法、装置及设备
WO2023098635A1 (zh) 图像处理
CN112001219A (zh) 一种多角度多人脸识别考勤方法及系统
CN111507332A (zh) 车辆vin码检测方法与设备
Revaud et al. Did it change? learning to detect point-of-interest changes for proactive map updates
CN111758118B (zh) 一种视觉定位方法、装置、设备及可读存储介质
CN108898617A (zh) 一种目标对象的跟踪方法和装置
CN117218703A (zh) 智能学情分析方法及系统
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
Barra et al. Can Existing 3D Monocular Object Detection Methods Work in Roadside Contexts? A Reproducibility Study
CN111680691B (zh) 文字检测方法、装置、电子设备和计算机可读存储介质
CN113822137A (zh) 一种数据标注方法、装置、设备及计算机可读存储介质
CN113705304A (zh) 一种图像处理方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200421

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 102200, No. 18, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5

Applicant before: AUTONAVI SOFTWARE Co.,Ltd.

TA01 Transfer of patent application right