CN112149528A - 一种全景图目标检测方法、系统、介质及设备 - Google Patents
一种全景图目标检测方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN112149528A CN112149528A CN202010932748.0A CN202010932748A CN112149528A CN 112149528 A CN112149528 A CN 112149528A CN 202010932748 A CN202010932748 A CN 202010932748A CN 112149528 A CN112149528 A CN 112149528A
- Authority
- CN
- China
- Prior art keywords
- target
- recognition result
- panoramic
- probability
- panorama
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及一种全景图目标检测方法、系统、介质及设备,该方法包括:接收来自客户端的第一全景图;将所述第一全景图进行预处理,得到多张第一视角中心全景图;将所述多张第一视角中心全景图输入预先训练的神经网络模型,得到每张第一视角中心全景图中目标的第一识别结果;根据所述第一目标识别结果确定所述第一全景图中目标的第二识别结果。本发明通过将全景图预处理得到的目标成像尺寸正常的多张视角中心全景图分别进行识别,再通过汇总识别结果来得到全景图的识别结果,能够避免由于全景图图像形成机制导致的目标物缩放扭曲引入额外的误差,从而造成误差传播扩大的问题,提高了识别准确度。
Description
技术领域
本发明涉及移动应用技术领域、家装领域及人工智能领域,具体涉及一种全景图目标检测方法、系统、介质及设备。
背景技术
目标检测是计算机视觉领域中一个研究方向,在很多方面都有其广泛的应用和前景,在其在人脸识别、安全监控以及动态追踪等很多方面都有广泛的应用前景。在目标检测中,对包括作为目标的行人、车辆的视频结构化是诸多安防应用中不可或缺的。神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据,神经网络能够学习出数据中难以总结的隐藏特征,从而完成多项复杂的任务,如人脸检测,图片分类,物体检测,动作追踪,自然语言翻译等。神经网络已被人工智能界广泛应用。当前,诸如目标检测的目标检测中最广泛应用的是卷积神经网络。
全景图是一种通过广角的表现手段以及绘画、相片、视频、三维模型等形式,尽可能多表现出周围的环境的图片。360全景,即通过对专业相机捕捉整个场景的图像信息或者使用建模软件渲染过后的图片,使用软件进行图片拼合,并用专门的播放器进行播放,即将平面照片或者计算机建模图片变为360度全观,用于虚拟现实浏览,把二维的平面图模拟成真实的三维空间,呈现给观赏者。
对于目标检测而言目前有很多网络结构被广泛使用,包括Faster R-CNN,SSD(Single Shot MultiBox Detector),YOLOV4等等,多种算法对于不同的目标有不同的检测效果,而对于全景图中的目标与普通图像中的目标存在着形状的扭曲和不同位置的比例缩放,现有的网络结构并不能良好的解决对于全景图的目标检测。
发明内容
针对上述技术问题,本发明提供一种全景图目标检测方法、系统、介质及设备。
本发明解决上述技术问题的技术方案如下:
一种全景图目标检测方法,包括:
接收来自客户端的第一全景图;
将所述第一全景图进行预处理,得到多张第一视角中心全景图;
将所述多张第一视角中心全景图输入预先训练的神经网络模型,得到每张第一视角中心全景图中目标的第一识别结果;
根据所述第一目标识别结果确定所述第一全景图中目标的第二识别结果。
为实现上述发明目的,本发明还提供一种全景图目标检测系统,包括:
接收模块,用于接收来自客户端的第一全景图;
预处理模块,用于将所述第一全景图进行预处理,得到多张第一视角中心全景图;
识别模块,用于将所述多张第一视角中心全景图输入预先训练的神经网络模型,得到每张第一视角中心全景图中目标的第一识别结果;
确定模块,用于根据所述第一目标识别结果确定所述第一全景图中目标的第二识别结果。
本发明还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使所述计算机执行上述方法。
本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明的有益效果是:通过将全景图预处理得到的目标成像尺寸正常的多张视角中心全景图分别进行识别,再通过汇总识别结果来得到全景图的识别结果,能够避免由于全景图图像形成机制导致的目标物缩放扭曲引入额外的误差,从而造成误差传播扩大的问题,提高了识别准确度。
附图说明
图1为本发明实施例提供的一种全景图目标检测方法的流程图;
图2为全景图及其识别结果;
图3为多张视角中心全景图及其识别结果;
图4为神经网络模型的网络结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的一种全景图目标检测方法的流程图,如图1所示,该方法包括:
S11、接收来自客户端的第一全景图;
具体的,通过搭建客户端服务前端页面,接收客户端传递来的全景图,如图2所示。
S12、将所述第一全景图进行预处理,得到多张第一视角中心全景图;
将图2的全景图进行预处理,得到的视角中心全景图为特定视角的没有扭曲图像,如图3所示。
S13、将所述多张第一视角中心全景图输入预先训练的神经网络模型,得到每张第一视角中心全景图中目标的第一识别结果;
具体的,本发明实施例在目标识别时采用了神经网络(NN,Neural Network)模型,如图4所示的神经网络是一种模拟人类实际神经网络的数学方法,由大量的、简单的处理单元(称为神经元)广泛地互相连接而成,神经网络模型则以神经元的数学模型为基础,由网络拓扑、节点特点和学习规则来表示,应用于图像识别时,则以卷积神经网络(CNN,Convolutional Neural Network)模型为主,并在其基础上发展出了多种模型,包括目标分割(target segmentation)模型和目标检测(target detection)模型,分别用于分割图像区域和从图像中检测指定物体。卷积神经网络模型的多层结构能自动学习多个层次的特征,较浅的卷积层感知域小,可学习局部特征,较深的卷积层感知域大,可学习抽象特征,有助于满足不同的图像识别需求。
采用目标分割模型即可得到第一视角中心全景图中目标的目标框,采用目标检测模型即可得到第一视角中心全景图中目标的类别及对应的概率。
S14、根据所述第一目标识别结果确定所述第一全景图中目标的第二识别结果。
步骤S14具体包括:
S141、根据各个所述第一识别结果中的概率及对应权重进行加权,得到所述第二识别结果中的概率;
例如,在全景图对应的六面体图中同一把椅子的概率分别为0.9、0.8、0.8、0.9、0.8、0.8,权重均为1,则可确定全景图中该椅子的概率为(0.9*1+0.8*1+0.8*1+0.9*1+0.8*1+0.8*1)/6=0.83。
S142根据所述多张第一视角中心全景图与所述第一全景图的位置关系,将各个所述第一识别结果中的目标框转换成所述第二识别结果中的目标框。
具体的,上述转换算法可采用现有的坐标转换算法得到,在此不再赘述。
可选地,在该实施例中,步骤S4还包括:
S143、分别判断各个所述第一识别结果中的概率是否超过预设阈值;
步骤S141具体包括:
根据各个所述第一识别结果中超过预设阈值的概率及对应权重进行加权,得到所述第二识别结果中的概率。
具体的,为了提高识别准确率,还需要对概率不符合预设阈值的第一识别结果进行过滤。
预设阈值的具体确定方法包括:将标定图像输入所述神经网络模型,得到所述标定图像中目标的第三识别结果;对所述第三识别结果中的概率进行统计分析,确定所述预设阈值。
预设阈值的确定通过对大量标定图像进行识别和统计,例如,99%的概率大于0.8,1%的概率小于0.8,则预设阈值则确定为0.8.
可选地,在该实施例中,在步骤S14之后,该方法还包括:
S15、去掉不符合预设类别的第二识别结果。
具体的,在本实施例中,还根据检测需求将目标对象划分为标准内对象和标准外对象,分别对应于规定必须存在的物体和规定不可存在的物体,也可仅存在其中单独一类。针对不同类型的目标对象,预设标准相应包括存在标准内对象和不存在标准外对象,不合格内容相应包括不存在的标准内对象和存在的标准外对象,实现了对具体物体有无的检测,以室内家装的全景图为例,一方面有助于检测全景图图像中的目标是否含有指定家装物品,另一方面有助于检测全景图像中的目标是否含有家装物品。
此外,预设标准还包括对特定区域的属性信息的要求,即针对分割所得的特定区域,规定其应有属性,若特定区域的属性信息与预设标准不符,则该属性信息属于不合格内容。通过以上划分,明确了在不同检测需求时的预设标准和不合格内容,便于清楚判定检测。
可选地,在该实施例中,所述神经网络模型的训练过程具体包括:
S21、使用目标框标记用于训练的第二全景图中的目标;
S22、将完成目标标记的第二全景图进行预处理,得到多张第二视角中心全景图;
S23、根据多张所述第二视角中心全景图与所述第二全景图的位置关系,将所述第二全景图中的目标框转换成所述第二视角中心全景图中的目标框;
S24、使用带有目标框的所述第二视角全景图训练神经网络模型。
具体的,在训练神经网络模型时,需要对于标记好的数据进行分类整理并预处理,将数据及囊括目标检测信息的数据存储到服务器上并进行预处理,记录处理后的相关图像与原全景图位置信息,然后通过位置关系将数据标注框信息与处理后的图片相互绑定,最后将处理好的数据输入模型并训练最后得到模型。
本发明实施例提供一种全景图目标检测系统,包括:
接收模块,用于接收来自客户端的第一全景图;
预处理模块,用于将所述第一全景图进行预处理,得到多张第一视角中心全景图;
识别模块,用于将所述多张第一视角中心全景图输入预先训练的神经网络模型,得到每张第一视角中心全景图中目标的第一识别结果;
确定模块,用于根据所述第一目标识别结果确定所述第一全景图中目标的第二识别结果。
本发明实施例还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使所述计算机执行上述方法实施例中的方法步骤;或者存储上述系统实施例的各个软件模块对应的指令。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法实施例中的方法步骤。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述系统实施例中的模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种全景图目标检测方法,其特征在于,包括:
接收来自客户端的第一全景图;
将所述第一全景图进行预处理,得到多张第一视角中心全景图;
将所述多张第一视角中心全景图输入预先训练的神经网络模型,得到每张第一视角中心全景图中目标的第一识别结果;
根据所述第一目标识别结果确定所述第一全景图中目标的第二识别结果。
2.根据权利要求1所述的一种全景图目标检测方法,其特征在于,所述第一识别结果和第二识别结果为目标的目标框、类别及对应的概率;
所述根据所述第一目标识别结果确定所述第一全景图中目标的第二识别结果,具体包括:
根据各个所述第一识别结果中的概率及对应权重进行加权,得到所述第二识别结果中的概率;
根据所述多张第一视角中心全景图与所述第一全景图的位置关系,将各个所述第一识别结果中的目标框转换成所述第二识别结果中的目标框。
3.根据权利要求2所述的一种全景图目标检测方法,其特征在于,还包括:
分别判断各个所述第一识别结果中的概率是否超过预设阈值;
所述根据各个所述第一识别结果中的概率及对应权重进行加权,得到所述第二识别结果中的概率,具体包括:
根据各个所述第一识别结果中超过预设阈值的概率及对应权重进行加权,得到所述第二识别结果中的概率。
4.根据权利要求3所述的一种全景图目标检测方法,其特征在于,在分别判断各个所述第一识别结果中的概率是否超过预设阈值之前,还包括:
将标定图像输入所述神经网络模型,得到所述标定图像中目标的第三识别结果;
对所述第三识别结果中的概率进行统计分析,确定所述预设阈值。
5.根据权利要求2所述的一种全景图目标检测方法,其特征在于,在根据所述第一目标识别结果确定所述第一全景图中目标的第二识别结果之后,还包括:
去掉不符合预设类别的第二识别结果。
6.根据权利要求1至5任一项所述的一种全景图目标检测方法,其特征在于,所述神经网络模型的训练过程具体包括:
使用目标框标记用于训练的第二全景图中的目标;
将完成目标标记的第二全景图进行预处理,得到多张第二视角中心全景图;
根据多张所述第二视角中心全景图与所述第二全景图的位置关系,将所述第二全景图中的目标框转换成所述第二视角中心全景图中的目标框;
使用带有目标框的所述第二视角全景图训练神经网络模型。
7.一种全景图目标检测系统,其特征在于,包括:
接收模块,用于接收来自客户端的第一全景图;
预处理模块,用于将所述第一全景图进行预处理,得到多张第一视角中心全景图;
识别模块,用于将所述多张第一视角中心全景图输入预先训练的神经网络模型,得到每张第一视角中心全景图中目标的第一识别结果;
确定模块,用于根据所述第一目标识别结果确定所述第一全景图中目标的第二识别结果。
8.根据权利要求7所述的一种全景图目标检测系统,其特征在于,所述第一识别结果和第二识别结果为目标的目标框、类别及对应的概率;
所述确定模块具体包括:
计算单元,用于根据各个所述第一识别结果中的概率及对应权重进行加权,得到所述第二识别结果中的概率;
转换单元,用于根据所述多张第一视角中心全景图与所述第一全景图的位置关系,将各个所述第一识别结果中的目标框转换成所述第二识别结果中的目标框。
9.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机上运行时,使所述计算机执行根据权利要求1至6任一项所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010932748.0A CN112149528A (zh) | 2020-09-08 | 2020-09-08 | 一种全景图目标检测方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010932748.0A CN112149528A (zh) | 2020-09-08 | 2020-09-08 | 一种全景图目标检测方法、系统、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112149528A true CN112149528A (zh) | 2020-12-29 |
Family
ID=73889700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010932748.0A Pending CN112149528A (zh) | 2020-09-08 | 2020-09-08 | 一种全景图目标检测方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149528A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113483771A (zh) * | 2021-06-30 | 2021-10-08 | 北京百度网讯科技有限公司 | 实景地图的生成方法、装置及系统 |
CN116434146A (zh) * | 2023-04-21 | 2023-07-14 | 河北信服科技有限公司 | 一种三维可视化综合管理平台 |
-
2020
- 2020-09-08 CN CN202010932748.0A patent/CN112149528A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113483771A (zh) * | 2021-06-30 | 2021-10-08 | 北京百度网讯科技有限公司 | 实景地图的生成方法、装置及系统 |
CN113483771B (zh) * | 2021-06-30 | 2024-01-30 | 北京百度网讯科技有限公司 | 实景地图的生成方法、装置及系统 |
CN116434146A (zh) * | 2023-04-21 | 2023-07-14 | 河北信服科技有限公司 | 一种三维可视化综合管理平台 |
CN116434146B (zh) * | 2023-04-21 | 2023-11-03 | 河北信服科技有限公司 | 一种三维可视化综合管理平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11763485B1 (en) | Deep learning based robot target recognition and motion detection method, storage medium and apparatus | |
CN110503076B (zh) | 基于人工智能的视频分类方法、装置、设备和介质 | |
Wang et al. | Object detection using clustering algorithm adaptive searching regions in aerial images | |
CN111445459B (zh) | 一种基于深度孪生网络的图像缺陷检测方法及系统 | |
CN111723654A (zh) | 基于背景建模、YOLOv3与自优化的高空抛物检测方法及装置 | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN113408584B (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN109919223B (zh) | 基于深度神经网络的目标检测方法及装置 | |
CN112967341A (zh) | 基于实景图像的室内视觉定位方法、系统、设备及存储介质 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及系统 | |
CN105574545B (zh) | 街道环境图像多视角语义切割方法及装置 | |
CN113516146A (zh) | 一种数据分类方法、计算机及可读存储介质 | |
CN112149528A (zh) | 一种全景图目标检测方法、系统、介质及设备 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN117115412A (zh) | 一种基于加权得分标签分配的小目标检测方法 | |
CN115205793B (zh) | 基于深度学习二次确认的电力机房烟雾检测方法及装置 | |
Proença et al. | SHREC’15 Track: Retrieval of Oobjects captured with kinect one camera | |
WO2023086398A1 (en) | 3d rendering networks based on refractive neural radiance fields | |
CN116258937A (zh) | 基于注意力机制的小样本分割方法、装置、终端及介质 | |
CN114863132A (zh) | 图像空域信息的建模与捕捉方法、系统、设备及存储介质 | |
Luo et al. | Frontal face reconstruction based on detail identification, variable scale self-attention and flexible skip connection | |
CN111275183A (zh) | 视觉任务的处理方法、装置和电子系统 | |
CN117423138B (zh) | 基于多分支结构的人体跌倒检测方法、装置及系统 | |
CN116468940B (zh) | 一种基于深度学习的感知增强与运动判断算法、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |