CN113469272A

CN113469272A - 基于Faster R-CNN-FFS模型的酒店场景图片的目标检测方法

Info

Publication number: CN113469272A
Application number: CN202110816000.9A
Authority: CN
Inventors: 张婧; 徐健; 黄德根; 李金育
Original assignee: Dongbei University Of Finance & Economics; Dalian University of Technology
Current assignee: Dongbei University Of Finance & Economics; Dalian University of Technology
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-01
Anticipated expiration: 2041-07-20
Also published as: CN113469272B

Abstract

本发明属于图像处理及自动化检测技术领域，涉及一种基于FasterR‑CNN‑FFS模型的酒店场景图片的目标检测方法，其包括构建训练集、验证集和测试集；训练Faster R‑CNN‑FFS目标检测模型；利用训练好的模型对测试集进行目标检测等步骤。本发明对Faster R‑CNN模型的特征提取、损失函数、候选框选择机制三方面进行改进，提出Faster R‑CNN‑FFS模型。本发明的基于Faster R‑CNN‑FFS模型的酒店场景图片的目标检测方法充分考虑酒店领域用户生成图片目标检测的数据特点，有效解决了复杂无约束酒店场景下的多目标识别问题。

Description

基于Faster R-CNN-FFS模型的酒店场景图片的目标检测方法

技术领域

本发明属于图像处理及自动化检测技术领域，涉及一种基于Faster R-CNN-FFS模型的酒店场景图片的目标检测方法，更具体地，其是一种基于酒店场景Faster R-CNN-FFS网络模型的目标检测改进方法，可用于检测酒店用户上传的图片中所包含的电视、床、厕所等背景复杂多变，种类繁多且尺寸不一的酒店场景图片中目标物体的检测。

背景技术

随着移动互联网及电子商务平台的迅速发展，越来越多的消费者选择通过电子商务平台预订酒店，分享关于产品、服务或品牌的消费体验、意见和反馈。目前，各大社交媒体平台和电子商务平台中产生了大量用户生成的在线评论，其商业价值凸显。现有研究中，文献^[1-2]对在线评论中的评论者信息、星级评分、评论文本等用户生成内容进行了深入研究；然而，关于在线评论中的图片的研究相对不足，文献^[3]针对在线评论有用性的影响因素进行了研究，发现在搜索型产品中，除了用户信用等级、文本长度、追加评论等因素，是否上传图片对在线评论有用性的影响更加明显；关于图片对在线评论可信度的影响，研究表明虽然图片对产品呈现很重要，但相比较而言，详细的产品描述对于消费者的购物决策更加重要^[4]。上述研究虽然取得了显著的成果，但是目前的研究只是关注在线评论中是否有图片，而没有深入研究图片的特征以及图片的内容。对此，文献^[5]利用酒店客房和其他室内场景的图片特征信息以及深度学习模型对评论有用性进行预测，研究发现，同时使用图片特征信息可以显著提升酒店评论有用性的预测效果，用户生成的图片对于酒店在线评论有用性的研究具有重要意义；也有研究表明，酒店用户生成的图片能够体现出酒店的设施配置、装修风格、服务质量、周边环境等重要信息，这些信息对于用户的购买决策至关重要^[6]。基于此，本发明针对酒店用户生成的图片中包含的物体进行目标检测。

目标检测是对图片中包含的目标物体进行位置测定和类别预测，其主要步骤包括区域选择，特征提取，目标物体分类。相较于基于传统图形处理和机器学习算法的目标检测方法，基于深度学习的目标检测方法的识别效率和识别精度得到了显著提高。目前，常用的基于深度学习的目标检测模型有Faster R-CNN^[7]，YOLO v3^[8]等。已有研究对Faster R-CNN和YOLO v3模型的性能进行了比较，发现在车辆检测中，YOLO v3模型拥有更快的检测速度，Faster R-CNN与YOLO v3模型在汽车类别检测任务中的表现相当^[9-10]。近年来，Faster R-CNN在多种目标检测任务中取得了显著成效，例如，Faster R-CNN应用于新冠疫情医学影像检测任务达到了97.36％的分类精度，研究结果可用于辅助医护人员对COVID-19患者的初步判断^[11]；文献[12]将Faster R-CNN应用于水下物体检测任务，研究结果有助于解决重叠和遮挡图像下检测小型密集分布的底栖生物的问题。

基于上述研究，本发明使用Faster R-CNN模型作为酒店用户生成图片目标检测的基线系统。考虑到酒店图片的背景复杂多变，检测目标种类繁多且尺寸不一，现有目标检测模型的识别效果并不理想^[13]等因素，针对复杂无约束的酒店场景实验数据集和神经网络模型结构的特点，对Faster R-CNN模型改进，提出Faster R-CNN-FFS。为了验证所提方法的识别效果，采用携程网酒店用户生成的图片数据进行实验。

发明内容

为了提高目标检测模型在酒店场景的检测效果，本发明对Faster R-CNN模型的特征提取、损失函数、候选框选择机制三方面进行改进，提出Faster R-CNN-FFS模型。实验结果表明，该方法能有效提高酒店领域图片的目标检测效果。

本发明的技术方案为：

基于Faster R-CNN-FFS模型的酒店场景图片的目标检测方法，其包括以下步骤：

第一步，构建训练集、验证集和测试集。

1.1)调整图片分辨率。将拍摄的高分辨率图片转成统一的1200*1200分辨率。

1.2)标注步骤1.1)中调整分辨率后的图片中的目标物体。使用图片目标检测标注工具labelImg或其它适用于图像检测任务的数据集制作工具为图片手动打标签，标签类别主要包括：灯、电视、床、桌子、椅子、厕所、浴缸、窗户，将标注的目标物体的类别信息及位置信息存入xml文件中。

1.3)切分数据集。将步骤1.2)中所有经标注的图片数据集按照6：2：2的比例进行切分，分别作为训练集、验证集和测试集。其中训练集用于模型构建；验证集用于模型的检验；测试集用于模型的测试。

第二步，训练Faster R-CNN-FFS目标检测模型。

2.1)提取特征图。传统Faster R-CNN模型在特征提取层使用的是一组基础的VGG16网络进行输入图像的特征图(feature maps)提取。针对多目标物体检测中小尺寸目标容易被误检、漏检的问题，在Faster R-CNN-FFS模型的特征提取过程中引入基于Resnet-50网络的特征融合(Feature fusion)技术，即使用Resnet-50网络替换原有的VGG16网络，并引入特征金字塔(Feature Pyramid Networks,FPN)结构以增加目标检测模型对全图信息的认知，以及对小尺寸目标的识别能力。

使用Resnet-50网络和FPN网络进行特征提取，生成特征图的具体过程为：

首先，将第一步中获得的训练集的图片送入Resnet-50网络，Resnet-50网络设置有四组大Block，四组大Block分别包括3,4,6,3个小block，每个小Block里面设置有三个卷积，另外Resnet-50网络的最开始(即，四组大Block前)具有一个单独的卷积层，最后(即，四组大Block后)具有一个全连接层，即，共50层。其中第一组大Block中使用Conv Block，它的作用是为了改变特征向量的维度，并仅在第一组大Block后面做Batch Norm、Relu和MaxPool。之后每组大Block中均设置一个Conv Block和若干ID Block，在每组大Block中的IDBlock进行卷积，逐渐缩小图片特征的尺寸，增加图片特征语义的深度。

然后，将上述提取结果送入FPN网络中，即将Resnet-50网络后三组大Block得到的特征分别送入FPN网络第一层、第二层和第三层；对FPN网络的第三层进行1×1的卷积，得到第四层；对第二层进行1×1的卷积，并与第四层2倍上采样的结果相加，得到第五层；对第一层进行1×1的卷积，与第五层2倍上采样的结果相加，得到第六层；即FPN特征融合后的特征图。该特征图即为后续送入区域建议网络的输入内容。

2.2)将步骤2.1)中获得的特征图送入区域建议网络形成区域建议。

将步骤2.1)中获得的特征图经过3*3的Conv层，之后分为两分支：

第一分支，经1*1的Conv层后，首先，对每个像素生成锚点箱，锚点箱中包含三种初始面积(128×128，256×256，512×512)与三种长宽比(1:1，1:2，2:1)的排列组合得到的九个大小不同的锚点框。然后，通过边框回归，将输入原始的窗口经过映射得到一个跟真实窗口更接近的回归窗口，对锚点箱进行裁剪。之后，通过Softmax函数对锚点进行分类，即判断锚点属于前景还是后景。之后使用Soft-NMS对前景锚点进行得分计算，选择得分最佳的结果；

第二分支，经1*1的Conv层后，通过原图坐标的偏移量计算锚点的边框回归偏移情况；

综合两个分支的结果得到目标物体的区域建议。

在此过程中，非极大抑制算法的交并比(Intersection over Union,IOU)阈值不好确定，会出现漏选得分较低但定位精度高的候选框的问题，对此，本发明在区域建议网络使用Soft-NMS算法替换原先的非极大值抑制算法(Non-Maximum Suppression,NMS)修正锚点箱候选机制，形成较精确的区域建议结果。

Soft-NMS的表达式为：

其中，S_i表示当前检测框的得分，N_t表示对第t个对象设置的IOU阈值，M为得分最高的检测框，b_i表示第i个候选框。按照得分对前景锚点框按照从大到小的顺序进行排序，提取得分最佳的Top-N个锚点框作为区域建议输出结果，并将此结果用作目标物体分类回归网络的输入内容。

2.3)目标分类和边界框回归。在分类回归阶段对步骤2.1)获得的特征图和步骤2.2)获得的区域建议，通过全连接层及Softmax函数计算每个区域建议所属的类别(如电视，灯等)，输出类别概率向量；同时再次利用边框回归获得每个区域建议的位置偏移量，以获得更加精确的目标检测框。

针对数据集中多种目标物体正、负样本不均衡，以及样本之间的比例失衡等问题，本发明提出使用Focal Loss损失函数替代原Faster-R-CNN模型中目标分类所使用的交叉熵损失函数，以增强模型对数量较少的数据样本的权重比例，从而缓解数据量失衡带来的精度下降的问题。将原始Softmax中的初始交叉熵函数替换成Focal loss函数，其计算方式为：

Focal Loss＝-alpha*(1-f(z_k))^gamma*log(f(z_k))

其中，z_k为softmax的输入，f(z_k)为softmax的输出,alpha和gamma为Focal Loss超参。

2.4)训练并保存模型，当Faster R-CNN-FFS模型的迭代次数超过预先设定的阈值或验证集的检测结果达到预设的准确率时，则保存模型。

第三步，利用训练好的模型对测试集进行目标检测。

目标检测任务中，检验单个物体识别效果的常用评价指标为平均精确度(AveragePrecision，AP)，其计算公式如下：

AP指标综合考虑了目标检测结果的精确率(Precision)和召回率(Recall)。在目标检测结果中Precision和Recall都是越高越好，然而通常情况下两者呈负相关。因此，在不同情况下需要对两个指标进行平衡取舍。PR(Precision-Recall)曲线是以Recall为横坐标，Precision为纵坐标做出的曲线，根据PR曲线可以得到任意r'>＝r的最大Precision，即P(r)，通过计算PR曲线与坐标轴围成的面积可以得到AP值。

AP指标可以用来衡量模型在每个类别上的好坏，mAP(mean Average Precision)是衡量模型在所有类别上的好坏，本实验采用mAP作为目标检测模型对所有类别识别结果的整体评价标准，其计算方式为所有待检测目标的AP值的平均值。

本发明的基于Faster R-CNN-FFS模型的酒店场景图片的目标检测方法充分考虑酒店领域用户生成图片目标检测的数据特点，有效解决了复杂无约束酒店场景下的多目标识别问题。

附图说明

图1为Faster R-CNN-FFS整体框架图。

图2为酒店用户生成图片样例。

图3为八类标注物体数量分布图。

图4为Faster R-CNN-FFS与Faster R-CNN实验结果AP值对比。

具体实施方式

第一步，数据准备与数据预处理。

为了验证本发明所提出的Faster R-CNN-FFS模型对酒店用户生成图片中的目标检测效果，以携程网爬取的用户生成的图片为实验数据集。实验环境为：Ubuntu16.04系统，深度学习框架为Tensorflow1.12.0，Keras2.2.4，显卡型号为GeForce GTX 1080Ti，GPU通用计算架构为CUDA9.0，cuDNN5.0。实验数据集通过爬虫技术自携程网获取的用户生成的自然图片数据，图片的分辨率经过降噪等手段处理后，获得的分辨率在100×100～550×412之间。为了还原真实的酒店场景，实验数据进行标注时，选择了图片中包含的八类物体，分别是灯、电视、床、桌子、椅子、厕所、浴缸、窗户。数据标注过程中共发放20000张图片，回收14901张。按照70％、15％、15％的比例划分数据集，其中训练集中有10429张图片，验证集中有2236张图片，测试集中有2236张图片。部分数据样本如图2所示。酒店用户生成图片实验数据集中的各类物体的数量如图3所示，发现八类标注物体分布情况存在不平衡的情况，其中灯共有14284个目标，占总数的29％，而浴缸只有近1％的数量，只有589个目标。

第二步，设置模型参数

本实验涉及到的参数包括batch-size、learning_rate、weight_decay、epoch、损失函数、momentum。实验为了使得实验结果的具有对比性，所有参数设定值都保持一致。实验训练轮次设置值为70000。momentum参数表示梯度下降中的动量，该参数影响着梯度下降到最优速度，通常设置为0.9或者0.99，本实验将其设置为0.9。实验中其他参数的设置如表1所示。

表1

第三步，运行模型

本发明通过将FPN特征融合方式、Focal Loss损失函数以及Soft-NMS候选框筛选机制相结合，提出Faster R-CNN-FFS目标检测模型，对酒店用户生成的图片进行目标检测。为了验证所提方法的识别效果，进行了对比实验。实验所使用的数据集为自建的携程网酒店用户生成的图片数据。Faster R-CNN-FFS在此数据集上的识别结果的mAP值达到了0.69，八种检测目标的识别结果如图4所示。从图中可以得出，与Faster R-CNN模型相比，该模型对灯的识别结果的AP值提升了，说明改进后的算法增强了对小尺寸目标的检测能力；同时，该模型对电视、床以及厕所的识别结果的AP值均在85％以上，说明改进后的模型能够缓解复杂无约束的酒店场景下对多目标物体检测和识别时出现的误检、漏检等问题。

参考文献

[1]Baek H,Ahn J,Choi Y.Helpfulness of Online Consumer Reviews:Readers’Objectives and Review Cues[J].International Journal of ElectronicCommerce,2012,17(2),99-126.

[2]Huang Albert,Chen Kuan-chin et al.A study of factors thatcontribute to online review helpfulness[J].Computers in Human Behavior,2015,48(C),17-27.

[3]Zhang Yan-hui,Li Zong-wei,School B.Analysis of the Factors thatInfluence Online Reviews Helpfulness:Based on the Regulating Effect ofProduct Type[J].Management Review,2016.

[4]Kim M,Lennon S.The effects of visual and verbal information onattitudes and purchase intentions in internet shopping[J].Psychology andMarketing,2010,25(2),146-178.

[5]Ma Yu-feng,Zheng Xiang,Du Qian-zhou,et al.Effects of user-providedphotos on hotel review helpfulness:An analytical approach with deep leaning[J].International Journal of HospitalityManagement,2018,71,120-131.

[6]Ivan Ka,Wai Lai.Hotel image and reputation on building customerloyalty:An empirical study in Macau[J].Journal of Hospitality and TourismManagement,2019,Volume 38,Pages 111-121,ISSN 1447-6770.

[7]Ren Shaoqing,He Kai-ming,Girshick R,et al.Faster R-CNN:TowardsReal-Time Object Detection with Region Proposal Networks[J].IEEE Transactionson Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149.

[8]Redmon J,Farhadi A.Yolov3:An incremental improvement[J].arXiv e-prints,2018.

[9]Benjdira B,Khursheed T,Koubaa A,et al.Car Detection using UnmannedAerial Vehicles:Comparison between Faster R-CNN and YOLOv3[C].2019 1stInternational Conference on Unmanned Vehicle Systems-Oman(UVS).2019.

[10]Ammar A,Koubaa A,Ahmed M,et al.Aerial Images Processing for CarDetection using Convolutional Neural Networks:Comparison between Faster R-CNNand YoloV3[J].arXiv e-prints 2019.

[11]Shibly K H,Dey S K,Tahzib-Ul-Islam M,et al.COVID faster R-CNN:Anovel framework to Diagnose Novel Coronavirus Disease(COVID-19)in X-Rayimages[J].Informatics in Medicine Unlocked,2020,20:100405.

[12]Yong Liu,Wang Sheng-nan,A quantitative detection algorithm basedon improved faster R-CNN for marine benthos.Ecological Informatics[J].2021,Volume 61,101228,ISSN 1574-9541.

[13]Yan Jun-jie,Yu Yin-an,Zhu Xiang-yu,et al.Object detection bylabeling superpixels[A].2015 IEEE/Conference on Computer Vision and PatternRecognition(CVPR)[C].2015.

Claims

1.一种基于Faster R-CNN-FFS模型的酒店场景图片的目标检测方法，其特征在于，所述的目标检测方法包括以下步骤：

第一步，构建训练集、验证集和测试集

1.1)调整图片分辨率，将拍摄的图片转成统一分辨率；

1.2)标注步骤1.1)中调整分辨率后的图片中的目标物体；

1.3)将步骤1.2)中所有经标注的图片数据集切分，分别作为训练集、验证集和测试集；

第二步，训练Faster R-CNN-FFS目标检测模型

2.1)提取特征图

使用Resnet-50网络和FPN网络进行特征提取，生成特征图，包括：

首先，将第一步中获得的训练集的图片送入Resnet-50网络，Resnet-50网络设置有四组大Block，四组大Block分别包括3、4、6、3个小block，每个小Block设置有三个卷积；四组大Block前具有一个单独的卷积层，四组大Block后具有一个全连接层；

其中，第一组大Block中使用Conv Block，并仅在第一组大Block后面做Batch Norm、Relu和Max Pool；之后每组大Block中均设置一个Conv Block和若干ID Block，在每组大Block中的ID Block进行卷积，逐渐缩小图片特征的尺寸，增加图片特征语义的深度；

然后，将Resnet-50网络后三组大Block得到的特征分别送入FPN网络第一层、第二层和第三层；对FPN网络的第三层进行1×1的卷积，得到第四层；对第二层进行1×1的卷积，并与第四层2倍上采样的结果相加，得到第五层；对第一层进行1×1的卷积，与第五层2倍上采样的结果相加，得到第六层；即FPN特征融合后的特征图；

2.2)将步骤2.1)中获得的特征图送入区域建议网络形成区域建议

第一分支：经1*1的Conv层后，首先，对每个像素生成锚点箱，锚点箱中包含三种初始面积与三种长宽比的排列组合得到的九个大小不同的锚点框；然后，通过边框回归，将输入原始的窗口经过映射得到一个跟真实窗口更接近的回归窗口，对锚点箱进行裁剪；之后，通过Softmax函数对锚点进行分类，判断锚点属于前景或后景；之后使用Soft-NMS对前景锚点进行得分计算，选择得分最佳的结果；

第二分支：经1*1的Conv层后，通过原图坐标的偏移量计算锚点的边框回归偏移情况；

综合两个分支的结果得到目标物体的区域建议；

其中，Soft-NMS的表达式为：

其中，S_i表示当前检测框的得分，N_t表示对第t个对象设置的IOU阈值，M为得分最高的检测框，b_i表示第i个候选框；按照得分对前景锚点框按照从大到小的顺序进行排序，提取得分最佳的Top-N个锚点框作为区域建议输出结果；

2.3)目标分类和边界框回归

对步骤2.1)获得的特征图和步骤2.2)获得的区域建议，通过全连接层及Softmax函数计算每个区域建议所属的类别，输出类别概率向量；同时再次利用边框回归获得每个区域建议的位置偏移量，以获得更加精确的目标检测框；

其中，将原始Softmax中的初始交叉熵函数替换成Focal loss函数，其计算方式为：

FocalLoss＝-alpha*(1-f(z_k))^gamma*log(f(z_k))

其中，z_k为softmax的输入，f(z_k)为softmax的输出，alpha和gamma为FocalLoss超参；

2.4)训练并保存模型

当Faster R-CNN-FFS模型的迭代次数超过预先设定的阈值或验证集的检测结果达到预设的准确率时，则保存模型；

第三步，利用训练好的模型对测试集进行目标检测。