CN113298001A

CN113298001A - 一种基于车载摄像的沿街商铺识别与推荐系统及方法

Info

Publication number: CN113298001A
Application number: CN202110611847.3A
Authority: CN
Inventors: 张俊杰; 吴凡; 曾丹; 黄素娟; 逯利军; 何儒佳
Original assignee: Shanghai Certusnet Inc; University of Shanghai for Science and Technology
Current assignee: Shanghai Certusnet Inc; University of Shanghai for Science and Technology
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-24

Abstract

本发明公开了一种基于车载摄像的沿街商铺识别与推荐系统及方法，包括：视频流输入模块,用于采集第一街景信息；信息库模块,用于将街景信息与地图信息进行对比，获得第二街景信息；定位模块,用于获得用户位置信息；推荐模块,用于根据第二街景信息和用户位置信息生成第三街景信息，第三街景信息用于目标位置推荐。本发明通过车载摄像头获得实时街景信息，结合导航软件所提供的地图信息，为驾驶中的人员提供多方面的导航信息，使其将更多注意力放在驾驶上，减少交通事故发生的可能性。

Description

一种基于车载摄像的沿街商铺识别与推荐系统及方法

技术领域

本发明属于图像识别领域，特别是涉及一种基于车载摄像的沿街商铺识别与推荐系统及方法。

背景技术

随着经济社会的不断发展，人们对汽车各种功能自动化的要求越来越高，而让人们将更多精力放到驾驶上也更加有利于消除潜在的安全隐患，对此，各方也都做出了很多举措来加速汽车整体的智能化和自动化进程。现有的导航系统主要是以下的模式：基于导航软件提供方所给予的地图信息，借由用户在搜索栏中所输入的信息进行相关地点的检索，而后将符合用户要求的信息放置于交互界面供用户选择，用户选择后开始导航，且在中途一般不会临时切换目标。

可以在一定程度上解决此问题，但一定程度上存在以下问题与限制：

1、图片来源为遥感与航拍，数据更新不及时，可能有时无法满足用户较为细致的寻找需求；

2、无法基于实时街景完成商铺和建筑的识别，需要用户进行自我判断，而用户在陌生的场景中可能无暇顾及这一点；

3、当实际场景中出现比一开始的目标地点距离用户更加近一些的相似地点时，可能无法做出相应反应并反馈给用户。

4、地图信息多为平面二维图形，较难反应高度上的一些地点信息。

发明内容

为实现上述目的，本发明提供了如下方案：一种基于车载摄像的沿街商铺识别与推荐系统，包括：

视频流输入模块,用于采集第一街景信息；

信息库模块,用于将所述第一街景信息与地图信息进行对比，获得第二街景信息；

定位模块,用于获得用户位置信息；

推荐模块,用于根据所述第二街景信息和所述用户位置信息生成第三街景信息，所述第三街景信息用于目标位置推荐。

优选地，所述视频流输入模块包括摄像头、图像处理单元；

所述信息库模块包括地图信息数据导入单元、视频流数据导入单元、信息库比对与更新单元；

所述推荐模块包括交互单元、匹配单元。

优选地，所述交互单元包括语音输入单元、手动输入单元，用于根据用户输入信息，确定所述目标位置。

优选地，采集第一街景信息，将所述第一街景信息导入信息库模块，实现所述信息库模块的信息更新；通过将所述第一街景信息与地图信息进行对比，获得第二街景信息；基于所述第二街景信息和推荐模块和用户位置信息生成第三街景信息，基于所述第三街景信息推荐目标位置。

优选地，采集所述第一街景信息的过程为，通过所述摄像头拍摄街景图像，基于所述图像处理单元处理后，获得初始街景信息，对所述初始街景信息进行分类，获得第一街景信息，并通过编码器将所述第一街景信息压缩为视频流数据导入所述视频流输入模块。

优选地，将所述视频流数据导入所述视频流输入模块通过RTSP或车载WIFI系统进行传输。

优选地，设置所述摄像头的平面夹角范围为15°-30°，用于防止同行车辆的干扰。

优选地，将所述第一街景信息与地图信息进行对比具体通过CTPN+CRNN对比街景图像和商铺名称。

优选地，所述对比街景图像和商铺名称的过程为，基于训练完成的文本检测神经网络技术模型获得所述街景图像的文本框内容；提取所述文本框内容，通过光学字符识别技术将所述文本框内容转化为文字信息；将所述文字信息与所述商铺名称绑定，送入所述信息库模块进行对比。

本发明公开了以下技术效果：

1.本发明使用车载的摄像头得到实时街景信息，结合导航软件所提供的地图信息，为驾驶中的人员提供多方面的导航信息，使驾驶员将更多注意力放在驾驶上，减少交通事故发生的可能性。

2.本发明针对文本识别与预测，通过CTPN+CRNN结构，能够较为有效地得到想要的信息。

3.本系统使用双线为驾驶员提供信息，一方面使用传统导航方式基于导航软件方所提供的地图信息，另一方面则是基于实时街景为用户解读信息，如果有符合则会通过车载语音助手语音播报给用户，同时连接百度车载助手，更显方便与快捷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的系统流程图；

图2是本实施例的视频流导入信息模块的流程图；

图3是本实施例的用户交互界面示意图；

图4是本实施例的CTPN原理图；

图5是本实施例的补充说明图；

图6是本实施例的CTPN效果图；

图7是本实施例的CRNN网络结构图；

图8是本实施例的CRNN网络层部分结构图；

图9是本实施例的RNN辅助说明图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示,本发明提供了一种基于车载摄像的沿街商铺识别与推荐系统及方法,所述系统组成部分包括视频流输入模块，信息库模块；还包括推荐模块与汽车定位模块。视频流输入模块主要由摄像头，图像处理系统组成；信息库模块主要由地图信息数据导入，视频流数据导入，信息库比对与更新组成；推荐模块主要由用户交互界面和匹配模块组成；汽车定位模块由GPS定位系统组成。

本系统利用视频流输入模块所提供的信息，提取实时街景状况，结合导航系统，做出合理推荐，使得用户可以更多将注意力放在驾驶上面，减少交通事故发生的可能。

所述的GPS定位系统用于获取用户位置，方便协助系统其他部分运转。

所述视频流输入模块，包含摄像头，摄像头支架，图像处理系统，工作流程为：摄像头用于采集周边街景信息并导入视频流，摄像头支架用于将摄像头固定于车两边，由信息处理模块通过CTPN(connection text proposal network)这种常用于场景横向文字识别的网络和基本的光学字符识别技术(OCR)完成对场景中街道建筑物的名字识别，再导入信息库系统中，借由引入导航系统的名称分类功能对名字进行分类，初步归类为某种类型的建筑(如超市，饭店，锻炼场所等)，再结合视频流中提取出的建筑街景一起导入信息库模块。因此，该模块主要任务为采集街景图像与商铺名称并进行初步归类，方便推荐系统进行调用。

所述的信息库模块会根据车辆定位系统，首先通过网络连接与数据导入取得地图信息上对应位置的建筑与商铺信息，包含商铺名称，建筑街景等，然后将视频流输入的信息与地图信息系统中得到的信息进行比对与更新：主要是对比名称，匹配信息，如果从地图信息中没有获得相关信息，则需要进行补充。目的是做到系统尽量全面地实时了解用户前后各五十米内街道两边商铺与建筑物的信息。

所述的推荐模块由用户交互模块和匹配模块构成，其中匹配模块分为两个部分。用户交互界面中，用户可选择语音输入或者手动输入目标地点给系统，系统会处理用户输入的信息，结合定位系统自动调用信息库里地图信息的内容寻找附近一定范围内符合用户需求的建筑或者商铺，并通过交互界面推荐相关信息如建筑名称，街景图，距离等信息通过显示和播报的方式给用户，用户遂进行自我甄别与选择，这也是匹配模块的第一部分。除此之外，匹配模块还有第二部分，那就是根据实时街景信息进行临时推荐目标地点的任务，该部分任务内容会在具体流程中进行详细说明。

一种基于车载摄像的沿街商铺识别与推荐流程，包含以下粗略步骤：

步骤一：获取汽车位置信息，装载于车辆两边的一共四个车载摄像头对前后街景进行拍摄。

步骤二：图像处理模块会提取几种所需信息：所捕捉到的商铺与建筑街景图片，商铺中一些可以在外景中捕捉到的信息如商铺招牌所得到的商铺名称等信息。

步骤三：将步骤二中所得信息导入信息库系统，对信息库系统中的信息进行实时更新，再和推荐系统中的内容进行结合(可能会影响已经得到的推荐系统结果)，得到更加及时的推荐。

进一步的，步骤二包含以下子步骤：

子步骤1，首先利用已经训练完成的常用文本检测神经网络技术的模型(如CTPN神经网络)获得图片中建筑相关文字信息的文本框部分；

子步骤2，将之提取出来，利用光学字符识别技术转化文本框内的文字内容为文字信息。

子步骤3，将拍摄系统得到的街景图像和名字绑定在一起，送入信息库系统中。

进一步的，步骤三所述内容包含以下步骤：

子步骤1：将步骤二所得到的信息导入信息库系统，获得车辆前后五十米的实时街景数据。

子步骤2：用户从输入系统语音或者手动输入自己的目标地点，并借由引入的导航系统查找其分类所属类别。

子步骤3：系统根据信息库自动选择与用户目标地点匹配的地点，如“超市”类别，系统会从信息库里调用附近各个大型超市的信息在交互界面中供用户选择。

子步骤4：另外，如果用户已经选择好了目标地点，在经过与之相似的建筑物或者商铺时，信息库会根据实时街景进行实时更新，并在系统匹配下，通过推荐系统及时提醒用户。比如用户想要去理发店，而地图信息中可能没有更新一些过于细致的相关信息，会漏掉一些小型理发店，而这可能会导致用户多跑很多路，及时的信息库更新就能避免这些事情，及时发现地图信息里未来得及更新的信息，及时通过推荐系统告知用户，给予用户更好的体验。

以下是对步骤中一些内容的详细说明：

本发明提供的基于车载摄像的沿街商铺识别与推荐系统，包括相连接的软件和硬件以及结果展示平台。

优选的，所述视频流输入模块，应该采用清晰度1920*1080以上的，16MM级别的摄像头，功率在15W-30W。做到不影响车辆行驶。摄像机帧率应该在45Hz以上，同时具备光学防抖，强光抑制，光线补足，背光补偿等功能，确保拍摄视频流可以用于图像处理且效果达到要求。在7：00至17：00时间段，若系统启用，则需关闭光线补足功能以节约能源，在17：00至第二天7：00，若系统启用，则需自动开启光线补足功能以满足识别要求。视频流数据通过编码器压缩，采用RTSP(Real Time Streaming Protocol)进行传输。备用方式为车载WIFI系统。

优选的，所述视频流输入模块对于摄像设备的安放也有要求，由于大量商铺的招牌位于实际高于车辆的位置，因而摄像头需向上与水平面夹角15°-30°以避免漏掉信息同时可以防止同行车辆的一些干扰，摄像头可以根据需求进行规则摆动以保证尽量不漏掉信息。

优选的，所述信息库模块所获得地图信息来自于商业卫星数据提供商美国DigitalGlobe公司，所获得数据主要来自于商业卫星，因而对地面一些信息来源不足，存在更新不及时等问题。同时，在推荐系统中沿用传统导航系统的搜索系统，也沿用传统导航系统中已经设计好的对建筑名称的分类甄别程序。

优选的，在商铺与建筑名称识别上，采用了CTPN+CRNN(Convolutional RecurrentNeural Network)相结合的方式，CTPN的特点如下：1.文本具有时序性，即和阅读习惯一致，从左到右。2.文本行拆分为slice进行检测，这样在检测过程中只需要对文本的高度进行先验性的设置anchor，最后利用规则将属于同一水平行的小片组合成文本行。化繁为简。3.前提：文本是水平的。CRNN具有如下的结构：1.CNN(卷积层)：使用深度CNN，对输入图像提取特征，得到特征图；2.RNN(循环层)：使用双向RNN(BLSTM)对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签(真实值)分布；3.CTC loss(转录层)：使用CTC损失，把从循环层获取的一系列标签分布转换成最终的标签序列。

导入系统后，系统会使用计算机视觉分析相关算法从图像中得到沿街建筑与商铺的名称信息和图像信息，并临时储存到信息库系统中去。主要内容有：CTPN部分(文本框检测)，CRNN部分(文本信息预测)，具体过程如下：

CTPN部分：

1.首先通过BackBone架构网络VGG16进行特征的提取，其Conv5层输出NxCxHxW的特征图，由于VGG16的卷积网络中经过4个池化层累计的Stride为16。也就是Conv5层输出的Featuremap中一个像素对应原图的16像素。

2.然后在Conv5上做3x3的滑动窗口，即每个点都结合周围3x3区域特征获取一个长度为3x3xC的特征向量。如图5所示，输出为Nx9CxHxW的Feature map，该特征依然是由CNN学习到的空间特征。

3.之后继续对上一步输出的Feature map进行Reshape操作：

Reshape：Nx9CxHxW→(NH)xWx9C。

4.以Batch＝NH且最大时间长度Tmax＝W的数据流输入Bi-LSTM，学习每一行的序列特征。Bi-LSTM输出为(NH)xWx256，再经Reshape回复形状：

Reshape：(NH)×W×256→Nx256xHxW。

该特征既包含了空间特征，也包含了Bi-LSTM学习到的序列特征。

5.再然后经过“FC”层，变为Nx512xHxW的特征。

6.最后经过类似Faster RCNN的RPN网络，获得Text Proposals。

得到效果类似图6。

CRNN部分，如图7和图8，以下为详细说明：

1.预测过程中，先使用标准的CNN网络提取文本图像的特征，再利用BLSTM将特征向量进行融合以提取字符序列的上下文特征，然后得到每列特征的概率分布，最后通过转录层(CTC)进行预测得到文本序列。

2.通过CNN得到512个特征图，每个特征图的高度为1，宽度为40，再根据特征图提取RNN需要的特征向量序列(如图9)。这些特征向量序列就作为循环层的输入，每个特征向量作为RNN在一个时间步(time step)的输入。

3.CRNN的RNN部分中使用的是双向LSTM，LSTM的特殊设计允许它捕获长距离依赖。这里采用的是两层各256单元的双向LSTM网络。通过上面一步，得到了40个特征向量，每个特征向量长度为512，在LSTM中一个时间步就传入一个特征向量进行分类，这里一共有40个时间步。一个特征向量就相当于原图中的一个小矩形区域，RNN的目标就是预测这个矩形区域为哪个字符，即根据输入的特征向量，进行预测，得到所有字符的softmax概率分布，这是一个长度为字符类别数的向量，作为CTC层的输入。每个时间步都会有一个输入特征向量x_T，输出一个所有字符的概率分布y_T，所以输出为40个长度为字符类别数的向量构成的后验概率矩阵。然后将这个后验概率矩阵传入转录层。

转录是将RNN对每个特征向量所做的预测转换成标签序列的过程。数学上，转录是根据每帧预测找到具有最高概率组合的标签序列。RNN在每一个时间步的输出为所有字符类别的概率分布，即一个包含每个字符分数的向量，取其中最大概率的字符作为该时间步的输出字符，然后将所有时间步得到一个字符进行拼接得到一个序列路径，即最大概率路径，在输出阶段经过CTC的翻译，即将网络学习到的序列特征信息转化为最终的识别文本，就可以对整个文本图像进行识别。

信息推荐平台包括了信息库系统与推荐系统，包括了以下模块：地图信息数据导入，视频流数据导入，信息库系统，该平台会结合实时情况和地图信息中的数据做出合适用户的推荐，并通过交互界面展示给用户。详细过程如下。

如图3所示，用户交互界面大约类似于11寸大小的平板电脑，界面如图所示，由四个摄像头界面与一个导航交互界面组成，用户可自行选择是否开启摄像头界面，接下来的用户交互界面包括用户注册登录界面、主界面、地图显示界面、数据分析与结果可视化界面，用户可在注册登录界面注册个人账号，登录之后即进入系统主界面，在系统主界面可以看到四个摄像头所拍摄的内容，以及主界面所展示的类似传统导航系统的界面(包含车辆位置信息和周边一定范围内的地图信息等)。同时在主界面上可以通过车载语音助手说话输入目标地点的类型或目标地点，如加油站，超市，理发店，服装店等等，推荐系统会根据你所输入的类别或具体地点来处理信息找到对应类别的附近建筑并作推荐。

在实际驾驶过程中，如果用户输入目标地点为某种类别如“超市”，那么车载实时分析结果中，如果出现地图信息中没有包含的地点，而且这个地点符合用户需求和该类别，首先，推荐系统会查询信息库，得到首先拍摄得到该建筑的摄像机是哪一台，而后会根据这一台摄像机位于车辆的位置(前左，前右，后左，后右)来判断该商铺位于车辆哪个方位，接下来，会通过内置连接的车载百度语音助手语音及时提示用户该建筑的位置(位于车辆附近什么方位)并询问用户是否更改目标，用户选择“是”则会更换目标，如果不是则会继续按原目标导航。推荐系统连接车载百度语音助手，更加方便语音交互与语音播报等功能的实现，显得更加智能化与人性化。

优选的，所述推荐系统的交互界面中，包含所有摄像头实时拍摄传输画面，具体布局参照说明书附图中图3内容，用户可以自行选择摄像头传输通道的开关是否打开，还包含长宽比类似于手机的交互系统。用户通过车载语音助手或手动输入信息后，交互界面会弹出方圆一定范围内所有符合要求的目标地点，由用户先进行一次选择，系统随即记录下用户所选地点，开始导航。在街景实况摄像过程中，如果出现地图信息中没有来得及更新的地点，而且这个地点符合用户需求，则会及时提示用户并通过内置连接的车载百度语音助手语音询问用户是否更改目标。除此之外，所述推荐系统的交互界面中，加入了以下功能：与车载百度智能语音助手相连接，这样更加方便语音输入与语音播报，更加方便与用户进行实时交流。

优选的，所述推荐系统中的交互界面是参照一般导航型app进行工作的，同时引入导航app中的检索分类功能，如输入“大型超市”系统就能知道你的目标地点可能是周围的“沃尔玛”，“欧尚”等并为用户显示。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于车载摄像的沿街商铺识别与推荐系统,其特征在于，包括：

视频流输入模块,用于采集第一街景信息；

定位模块,用于获得用户位置信息；

2.根据权利要求1所述的一种基于车载摄像的沿街商铺识别与推荐系统,其特征在于，

所述视频流输入模块包括摄像头、图像处理单元；

所述推荐模块包括交互单元、匹配单元。

3.根据权利要求2所述的一种基于车载摄像的沿街商铺识别与推荐系统,其特征在于，

所述交互单元包括语音输入单元、手动输入单元，用于根据用户输入信息，确定所述目标位置。

4.一种基于车载摄像的沿街商铺识别与推荐方法,其特征在于，包括：

采集第一街景信息，将所述第一街景信息导入信息库模块，实现所述信息库模块的信息更新；通过将所述第一街景信息与地图信息进行对比，获得第二街景信息；基于所述第二街景信息和推荐模块和用户位置信息生成第三街景信息，基于所述第三街景信息推荐目标位置。

5.根据权利要求4所述的一种基于车载摄像的沿街商铺识别与推荐方法,其特征在于，

采集所述第一街景信息的过程为，通过所述摄像头拍摄街景图像，基于所述图像处理单元处理后，获得初始街景信息，对所述初始街景信息进行分类，获得第一街景信息，并通过编码器将所述第一街景信息压缩为视频流数据导入所述视频流输入模块。

6.根据权利要求5所述的一种基于车载摄像的沿街商铺识别与推荐方法,其特征在于，

将所述视频流数据导入所述视频流输入模块通过RTSP或车载WIFI系统进行传输。

7.根据权利要求5所述的一种基于车载摄像的沿街商铺识别与推荐方法,其特征在于，

设置所述摄像头的平面夹角范围为15°-30°，用于防止同行车辆的干扰。

8.根据权利要求4所述的一种基于车载摄像的沿街商铺识别与推荐方法,其特征在于，

将所述第一街景信息与地图信息进行对比具体通过CTPN+CRNN对比街景图像和商铺名称。

9.根据权利要求8所述的一种基于车载摄像的沿街商铺识别与推荐方法,其特征在于，

所述对比街景图像和商铺名称的过程为，基于训练完成的文本检测神经网络技术模型获得所述街景图像的文本框内容；提取所述文本框内容，通过光学字符识别技术将所述文本框内容转化为文字信息；将所述文字信息与所述商铺名称绑定，送入所述信息库模块进行对比。