CN107516060A - 目标检测方法和装置 - Google Patents

目标检测方法和装置 Download PDF

Info

Publication number
CN107516060A
CN107516060A CN201610425328.7A CN201610425328A CN107516060A CN 107516060 A CN107516060 A CN 107516060A CN 201610425328 A CN201610425328 A CN 201610425328A CN 107516060 A CN107516060 A CN 107516060A
Authority
CN
China
Prior art keywords
node
network model
deep learning
target area
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610425328.7A
Other languages
English (en)
Inventor
沈飞
刘杨
华先胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610425328.7A priority Critical patent/CN107516060A/zh
Publication of CN107516060A publication Critical patent/CN107516060A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种目标检测方法和装置,其中,目标检测方法包括:接收输入的图片;基于预设算法从图片中提取多个候选区域;通过预先训练的基于节点级联的深度学习神经网络模型,确定多个候选区域中与目标对象对应的目标区域;根据目标区域生成输出结果。本申请实施例的目标检测方法和装置,采用级联的方式,通过预先训练的基于节点级联的深度学习神经网络模型确定出目标区域,再根据目标区域生成输出结果,能够快速、准确地检测出图片中的目标,减少了误检,提高了检测的准确率。

Description

目标检测方法和装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种目标检测方法和装置。
背景技术
目标检测是计算机视觉领域的重点研究课题,并且应用范围越来越广泛。例如:可以通过目标检测技术在复杂的视频中检测到目标商品,从而进一步为用户推送该商品相关的广告、促销信息等等。目前,主要通过人工对视频中检测到的目标商品进行打点标记,如目标商品出现在视频的20分10秒,则可对20分10秒进行打点,可以在该时间点插入该商品对应的促销信息。但是,随着信息化的高速发展,视频海量的增加,且视频中的场景复杂多变,通过传统的人工检测目标的方法,已无法满足快速、准确检测的需求,工作量巨大。
申请内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种目标检测方法,能够快速、准确地检测出图片中的目标,提高检测的准确率。
本申请的第二个目的在于提出一种基于目标检测的信息推荐方法。
本申请的第三个目的在于提出一种目标检测装置。
为了实现上述目的,本申请第一方面实施例提出了一种目标检测方法,包括:接收输入的图片;基于预设算法从所述图片中提取多个候选区域;通过预先训练的基于节点级联的深度学习神经网络模型,确定所述多个候选区域中与目标对象对应的目标区域;根据所述目标区域生成输出结果。
本申请实施例的目标检测方法,通过预先训练的基于节点级联的深度学习神经网络模型确定出目标区域,再根据目标区域生成输出结果,能够快速、准确地检测出图片中的目标,减少了误检,提高了检测的准确率。
本申请第二方面实施例提出了一种基于目标检测的信息推荐方法,包括:接收输入的视频;将所述视频切分为多帧图像;基于预设算法从每一帧图像中提取多个候选区域;通过预先训练的基于节点级联的深度学习神经网络模型,确定所述多个候选区域中与目标对象对应的目标区域;根据所述目标区域确定包含所述目标对象的图像;确定包含所述目标对象的图像在所述视频中的播放时间点;在所述播放时间点插入与所述目标对象对应的推荐信息。
本申请实施例的基于目标检测的信息推荐方法,采用级联的方式,通过预先训练的基于节点级联的深度学习神经网络模型确定出与目标对象对应的目标区域,再根据目标区域确定包含目标对象的图像及其在视频中的播放时间点,以及在播放时间点插入与目标对象对应的推荐信息,快速、准确地定位目标对象并插入与目标对象对应的推荐信息,节省人工插入推荐信息的成本,提高准确率。
本申请第三方面实施例提出了一种目标检测装置,包括:接收模块,用于接收输入的图片;提取模块,用于基于预设算法从所述图片中提取多个候选区域;确定模块,用于通过预先训练的基于节点级联的深度学习神经网络模型,确定所述多个候选区域中与目标对象对应的目标区域;生成模块,用于根据所述目标区域生成输出结果。
本申请实施例的目标检测装置,通过预先训练的基于节点级联的深度学习神经网络模型确定出目标区域,再根据目标区域生成输出结果,能够快速、准确地检测出图片中的目标,减少了误检,提高了检测的准确率。
附图说明
图1是根据本申请一个实施例的目标检测方法的流程图;
图2是训练基于节点级联的深度学习神经网络模型的流程图;
图3是根据本申请一个实施例的基于目标检测的信息推荐方法的流程图;
图4是根据本申请一个实施例的目标检测装置的结构示意图一;
图5是根据本申请一个实施例的目标检测装置的结构示意图二。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的目标检测方法和装置。
图1是根据本申请一个实施例的目标检测方法的流程图。
如图1所示,目标检测方法可包括:
S1、接收输入的图片。
其中,图片可以是视频文件中的截图。例如,可将视频分解成多帧静态图片,然后将静态图片作为输入。
S2、基于预设算法从图片中提取多个候选区域。
其中,预设算法可以是但不限于EdgeBox算法、Bing算法、Selective Search算法中的一种。
在本实施例中,可采用EdgeBox算法,检测图片中的边沿,利用检测出的边沿从图片中提取出多个候选区域。
S3、通过预先训练的基于节点级联的深度学习神经网络模型,确定多个候选区域中与目标对象对应的目标区域。
具体地,可依次判断多个候选区域是否为与目标对象对应的目标区域。
其中,深度学习神经网络模型可具有多个输出节点。当多个输出节点均确定候选区域为目标区域时,则可将该候选区域作为目标区域;否则该候选区域为非目标区域。
举例来说,假设深度学习神经网络模型的输出节点有20个。可先提取候选区域的图像特征,并将其输入至深度学习神经网络模型,依次通过深度学习神经网络模型的输出节点进行判断。首先通过第一个输出节点进行判断,如果第一个输出节点判断候选区域为非目标区域,则可确定该候选区域为非目标区域。如果第一个输出节点判断候选区域为目标区域,则可进一步通过第二个输出节点进行判断。如果第二个输出节点判断候选区域为非目标区域,则可确定该候选区域为非目标区域。如果第二个输出节点判断候选区域为目标区域,则可进一步通过第三个输出节点进行判断。以此类推,直至最后一个输出节点判断候选区域为目标区域时,才确定该候选区域为目标区域。否则,该候选区域为非目标区域。采用节点级联的方式,所有输出节点共用同一个深度学习神经网络模型,先用第一个输出节点过滤掉非目标区域,再用第二个输出节点进一步过滤掉非目标区域,能够有效地减少误检,提高目标检测效果。
其中,深度学习神经网络模型可以是但不限于卷积神经网络的R-CNN模型、FasterR-CNN模型、SPP-Net模型。
S4、根据目标区域生成输出结果。
具体地,当目标区域为一个时,可直接将该目标区域作为输出结果。当目标区域为多个时,可利用非极大值抑制算法合并多个目标区域,从而生成输出结果。生成的输出结果即目标对象。
下面详细介绍一下训练基于节点级联的深度学习神经网络模型的过程。
具体地,如图2,可包括以下步骤:
S5、预训练基于节点级联的深度学习神经网络模型的隐层参数。
更具体地,预训练基于节点级联的深度学习神经网络模型的隐层参数可包括:
S51、获取图像识别数据库中的N个类别的图片样本。
其中,本实施例中,可采用ImageNet数据库,ImageNet数据库是目前世界上最大的图像识别数据库。
S52、训练具有N个节点的分类网络模型,并将分类网络模型的隐层参数作为基于节点级联的深度学习神经网络模型的初始化隐层参数。
假设图片样本具有1000个类别,则训练生成的分类网络模型的节点数为1000个,然后直接将分类网络模型的隐层参数作为基于节点级联的深度学习神经网络模型的初始化隐层参数。
S6、训练基于节点级联的深度学习神经网络模型中输出节点的参数。
本实施例中,可从检测数据集中获取相同数量的目标区域样本和非目标区域样本,然后依次对基于节点级联的深度学习神经网络模型中输出节点的参数进行训练。
应当注意的是,初始化隐层参数为基于节点级联的深度学习神经网络模型初始化时的隐层参数,在训练输出节点的参数时,也会一起进行训练。而本实施例中,则采取保持隐层参数不变的方法,对输出节点的参数进行训练。
其中,检测数据集为人工标注的图片样本集合。
在实际运用中,非目标区域样本的数量是远多于目标区域样本的数量的,如果按照实际的样本比例训练基于节点级联的深度学习神经网络模型,会导致训练出的参数发生偏移,从而在进行目标检测时,可能产生将非目标区域判断为目标区域的情况,准确率变低。因此,本实施例中,采用相同数量的目标区域样本和非目标区域样本,可避免上述问题。
具体地,可根据目标区域样本和非目标区域样本对基于节点级联的深度学习神经网络模型中的第一个输出节点的参数进行训练。当目标区域样本的召回率大于第一预设阈值,且非目标区域样本的误判率低于第二预设阈值时,获取基于节点级联的深度学习神经网络模型的第一个输出节点对应的第一参数。然后可根据刚刚训练好的第一参数过滤掉已正确识别的非目标区域样本,并获取新的非目标区域样本。然后再根据目标区域样本和新的非目标区域样本对基于节点级联的深度学习神经网络模型中的第二个输出节点的参数进行训练。当目标区域样本的召回率大于第一预设阈值,且非目标区域样本的误判率低于第二预设阈值时,可获取基于节点级联的深度学习神经网络模型的第二个输出节点对应的第二参数。重复以上步骤,直至基于节点级联的深度学习神经网络模型的所有输出节点的参数训练完成。
举例来说,假设某一深度学习神经网络模型具有20个节点。首先,可训练第一个节点。调整第一个节点对应的第一参数,使得目标区域样本的召回率大于第一预设阈值如99.9%,且非目标区域样本的误判率低于第二预设阈值如0.1%,记录该参数。然后利用该参数过滤掉已经能够正确识别的非目标区域样本。假设目标区域样本数量为1000个,利用第一参数可过滤掉300个非目标区域样本,再补充300个新的非目标区域样本对第二参数进行训练。调整第二个节点对应的第二参数,使得目标区域样本的召回率大于第一预设阈值如99.9%,且非目标区域样本的误判率低于第二预设阈值如0.1%,从而训练得到第二参数。利用第一参数和第二参数过滤掉500个非目标区域样本,再补充500个新的非目标区域样本对第三参数进行训练。以此类推,直至将20个节点的参数全部训练完成。
在基于节点级联的深度学习神经网络模型训练完成后,即可利用该基于节点级联的深度学习神经网络模型对图片中的与目标对象对应的目标区域进行检测。采用级联的训练方式,采用相同数量的目标区域样本和非目标区域样本训练深度学习神经网络模型中每个输出节点,可有效地避免深度学习神经网络模型发生偏移的情况,且提高目标检测准确率。
本申请实施例的目标检测方法,采用级联的方式,通过预先训练的基于节点级联的深度学习神经网络模型确定出目标区域,再根据目标区域生成输出结果,能够快速、准确地检测出图片中的目标,减少了误检,提高了检测的准确率。
为实现上述目的,本申请还提出一种基于目标检测的信息推荐方法。
图3是根据本申请一个实施例的基于目标检测的信息推荐方法的流程图。
如图3所示,目标检测方法可包括:
S31、接收输入的视频。
其中,视频可以是rmvb、mp4、flv等格式的可播放视频。
S32、将视频切分为多帧图像。
具体地,可根据视频的长度切分图像。例如:视频长10分钟,可以以0.5秒每帧截取图像。
S33、基于预设算法从每一帧图像中提取多个候选区域。
例如,可采用EdgeBox算法检测图片中的边沿,利用检测出的边沿从图像中提取出多个候选区域。
S34、通过预先训练的基于节点级联的深度学习神经网络模型,确定多个候选区域中与目标对象对应的目标区域。
其中,本步骤与上一实施例中的步骤S3描述一致,此处不再赘述。
S35、根据目标区域确定包含目标对象的图像。
S36、确定包含目标对象的图像在视频中的播放时间点。
S37、在播放时间点插入与目标对象对应的推荐信息。
举例来说,目标对象为某款衣服,可通过预先训练的基于节点级联的深度学习神经网络模型确定该款衣服对应的图像在视频中的播放时间点,例如视频中的第20分钟第25秒播出现了该款衣服对应的图像,则可在第20分钟第25秒插入该款衣服对应的广告,或者与该款衣服相似的衣服的广告。
本申请实施例的基于目标检测的信息推荐方法,采用级联的方式,通过预先训练的基于节点级联的深度学习神经网络模型确定出与目标对象对应的目标区域,再根据目标区域确定包含目标对象的图像及其在视频中的播放时间点,以及在播放时间点插入与目标对象对应的推荐信息,快速、准确地定位目标对象并插入与目标对象对应的推荐信息,节省人工插入推荐信息的成本,提高准确率。
为实现上述目的,本申请还提出一种目标检测装置。
图4是根据本申请一个实施例的目标检测装置的结构示意图一。
如图4所示,目标检测装置可包括:接收模块110、提取模块120、确定模块130和生成模块140。
接收模块110用于接收输入的图片。其中,图片可以是视频文件中的截图。例如,可将视频分解成多帧静态图片,然后将静态图片作为输入。
提取模块120用于基于预设算法从图片中提取多个候选区域。其中,预设算法可以是但不限于EdgeBox算法、Bing算法、Selective Search算法中的一种。
在本实施例中,提取模块120可采用EdgeBox算法,检测图片中的边沿,利用检测出的边沿从图片中提取出多个候选区域。
确定模块130用于通过预先训练的基于节点级联的深度学习神经网络模型,确定多个候选区域中与目标对象对应的目标区域。
具体地,可依次判断多个候选区域是否为与目标对象对应的目标区域。
其中,深度学习神经网络模型可具有多个输出节点。当多个输出节点均确定候选区域为目标区域时,则可将该候选区域作为目标区域;否则该候选区域为非目标区域。
举例来说,假设深度学习神经网络模型的输出节点有20个。可先提取候选区域的图像特征,并将其输入至深度学习神经网络模型,依次通过深度学习神经网络模型的输出节点进行判断。首先通过第一个输出节点进行判断,如果第一个输出节点判断候选区域为非目标区域,则可确定该候选区域为非目标区域。如果第一个输出节点判断候选区域为目标区域,则可进一步通过第二个输出节点进行判断。如果第二个输出节点判断候选区域为非目标区域,则可确定该候选区域为非目标区域。如果第二个输出节点判断候选区域为目标区域,则可进一步通过第三个输出节点进行判断。以此类推,直至最后一个输出节点判断候选区域为目标区域时,才确定该候选区域为目标区域。否则,该候选区域为非目标区域。采用节点级联的方式,所有输出节点共用同一个深度学习神经网络模型,先用第一个输出节点过滤掉非目标区域,再用第二个输出节点进一步过滤掉非目标区域,能够有效地减少误检,提高目标检测效果。
其中,深度学习神经网络模型可以是但不限于卷积神经网络的R-CNN模型、FasterR-CNN模型、SPP-Net模型。
生成模块140用于根据目标区域生成输出结果。具体地,当目标区域为一个时,可直接将该目标区域作为输出结果。当目标区域为多个时,可利用非极大值抑制算法合并多个目标区域,从而生成输出结果。生成的输出结果即目标对象。
此外,如图5所示,目标检测装置还可包括预训练模块150和训练模块160。其中,预训练模块150可包括获取单元151和预训练单元152。
预训练模块150用于预训练基于节点级联的深度学习神经网络模型的隐层参数。
具体地,获取单元151可获取图像识别数据库中的N个类别的图片样本。其中,本实施例中,可采用ImageNet数据库,ImageNet数据库是目前世界上最大的图像识别数据库。
预训练单元152可训练一个具有N个节点的分类网络模型,并将分类网络模型的隐层参数作为基于节点级联的深度学习神经网络模型的初始化隐层参数。
假设图片样本具有1000个类别,则训练生成的分类网络模型的节点数为1000个,然后直接将分类网络模型的隐层参数作为基于节点级联的深度学习神经网络模型的初始化隐层参数。
训练模块160用于训练基于节点级联的深度学习神经网络模型中输出节点的参数。
本实施例中,训练模块160可从检测数据集中获取相同数量的目标区域样本和非目标区域样本,然后依次对基于节点级联的深度学习神经网络模型中输出节点的参数进行训练。
应当注意的是,初始化隐层参数为基于节点级联的深度学习神经网络模型初始化时的隐层参数,在训练输出节点的参数时,也会一起进行训练。而本实施例中,则采取保持隐层参数不变的方法,对输出节点的参数进行训练。
其中,检测数据集为人工标注的图片样本集合。
在实际运用中,非目标区域样本的数量是远多于目标区域样本的数量的,如果按照实际的样本比例训练基于节点级联的深度学习神经网络模型,会导致训练出的参数发生偏移,从而在进行目标检测时,可能产生将非目标区域判断为目标区域的情况,准确率变低。因此,本实施例中,采用相同数量的目标区域样本和非目标区域样本,可避免上述问题。
具体地,可根据目标区域样本和非目标区域样本对基于节点级联的深度学习神经网络模型中的第一个输出节点的参数进行训练。当目标区域样本的召回率大于第一预设阈值,且非目标区域样本的误判率低于第二预设阈值时,获取基于节点级联的深度学习神经网络模型的第一个输出节点对应的第一参数。然后可根据刚刚训练好的第一参数过滤掉已正确识别的非目标区域样本,并获取新的非目标区域样本。然后再根据目标区域样本和新的非目标区域样本对基于节点级联的深度学习神经网络模型中的第二个输出节点的参数进行训练。当目标区域样本的召回率大于第一预设阈值,且非目标区域样本的误判率低于第二预设阈值时,可获取基于节点级联的深度学习神经网络模型的第二个输出节点对应的第二参数。重复以上步骤,直至基于节点级联的深度学习神经网络模型的所有输出节点的参数训练完成。
举例来说,假设某一深度学习神经网络模型具有20个节点。首先,可训练第一个节点。调整第一个节点对应的第一参数,使得目标区域样本的召回率大于第一预设阈值如99.9%,且非目标区域样本的误判率低于第二预设阈值如0.1%,记录该参数。然后利用该参数过滤掉已经能够正确识别的非目标区域样本。假设目标区域样本数量为1000个,利用第一参数可过滤掉300个非目标区域样本,再补充300个新的非目标区域样本对第二参数进行训练。调整第二个节点对应的第二参数,使得目标区域样本的召回率大于第一预设阈值如99.9%,且非目标区域样本的误判率低于第二预设阈值如0.1%,从而训练得到第二参数。利用第一参数和第二参数过滤掉500个非目标区域样本,再补充500个新的非目标区域样本对第三参数进行训练。以此类推,直至将20个节点的参数全部训练完成。
在基于节点级联的深度学习神经网络模型训练完成后,即可利用该基于节点级联的深度学习神经网络模型对图片中的与目标对象对应的目标区域进行检测。采用级联的训练方式,采用相同数量的目标区域样本和非目标区域样本训练深度学习神经网络模型中每个输出节点,可有效地避免深度学习神经网络模型发生偏移的情况,且提高目标检测准确率。
本申请实施例的目标检测装置,采用级联的方式,通过预先训练的基于节点级联的深度学习神经网络模型确定出目标区域,再根据目标区域生成输出结果,能够快速、准确地检测出图片中的目标,减少了误检,提高了检测的准确率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (15)

1.一种目标检测方法,其特征在于,包括以下步骤:
接收输入的图片;
基于预设算法从所述图片中提取多个候选区域;
通过预先训练的基于节点级联的深度学习神经网络模型,确定所述多个候选区域中与目标对象对应的目标区域;
根据所述目标区域生成输出结果。
2.如权利要求1所述的方法,其特征在于,训练基于节点级联的深度学习神经网络模型,包括:
预训练所述基于节点级联的深度学习神经网络模型的隐层参数;
训练所述基于节点级联的深度学习神经网络模型中输出节点的参数。
3.如权利要求2所述的方法,其特征在于,预训练所述基于节点级联的深度学习神经网络模型的隐层参数,包括:
获取图像识别数据库中的N个类别的图片样本;
训练具有N个节点的分类网络模型,并将所述分类网络模型的隐层参数作为所述基于节点级联的深度学习神经网络模型的初始化隐层参数。
4.如权利要求2所述的方法,其特征在于,训练所述基于节点级联的深度学习神经网络模型中输出节点的参数,包括:
从检测数据集中获取相同数量的目标区域样本和非目标区域样本;
依次对所述基于节点级联的深度学习神经网络模型中输出节点的参数进行训练。
5.如权利要求4所述的方法,其特征在于,依次对所述基于节点级联的深度学习神经网络模型中输出节点的参数进行训练,包括:
根据所述目标区域样本和所述非目标区域样本对所述基于节点级联的深度学习神经网络模型中的第一个输出节点的参数进行训练;
当所述目标区域样本的召回率大于第一预设阈值,且所述非目标区域样本的误判率低于第二预设阈值时,获取所述第一个输出节点对应的第一参数;
根据所述第一参数过滤已正确识别的非目标区域样本,并获取新的非目标区域样本;
根据所述目标区域样本和所述新的非目标区域样本对所述基于节点级联的深度学习神经网络模型中的第二个输出节点的参数进行训练;
当所述目标区域样本的召回率大于第一预设阈值,且所述非目标区域样本的误判率低于第二预设阈值时,获取所述第二个输出节点对应的第二参数;
重复以上步骤,直至所述基于节点级联的深度学习神经网络模型中所有输出节点的参数训练完成。
6.如权利要求1所述的方法,其特征在于,通过预先训练的基于节点级联的深度学习神经网络模型,确定所述多个候选区域中与目标对象对应的目标区域,包括:
依次判断所述多个候选区域是否为与目标对象对应的目标区域。
7.如权利要求6所述的方法,其特征在于,判断所述候选区域是否为与目标对象对应的目标区域,包括:
当所述基于节点级联的深度学习神经网络模型中的多个输出节点,均确定所述候选区域为目标区域时,将所述候选区域作为目标区域;
否则,将所述候选区域作为非目标区域。
8.一种基于目标检测的信息推荐方法,其特征在于,包括以下步骤:
接收输入的视频;
将所述视频切分为多帧图像;
基于预设算法从每一帧图像中提取多个候选区域;
通过预先训练的基于节点级联的深度学习神经网络模型,确定所述多个候选区域中与目标对象对应的目标区域;
根据所述目标区域确定包含所述目标对象的图像;
确定包含所述目标对象的图像在所述视频中的播放时间点;
在所述播放时间点插入与所述目标对象对应的推荐信息。
9.一种目标检测装置,其特征在于,包括:
接收模块,用于接收输入的图片;
提取模块,用于基于预设算法从所述图片中提取多个候选区域;
确定模块,用于通过预先训练的基于节点级联的深度学习神经网络模型,确定所述多个候选区域中与目标对象对应的目标区域;
生成模块,用于根据所述目标区域生成输出结果。
10.如权利要求9所述的装置,其特征在于,还包括:
预训练模块,用于预训练所述基于节点级联的深度学习神经网络模型的隐层参数;
训练模块,用于训练所述基于节点级联的深度学习神经网络模型中输出节点的参数。
11.如权利要求10所述的装置,其特征在于,所述预训练模块,包括:
获取单元,用于获取图像识别数据库中的N个类别的图片样本;
预训练单元,用于训练具有N个节点的分类网络模型,并将所述分类网络模型的隐层参数作为所述基于节点级联的深度学习神经网络模型的初始化隐层参数。
12.如权利要求10所述的装置,其特征在于,所述训练模块,用于:
从检测数据集中获取相同数量的目标区域样本和非目标区域样本;
依次对所述基于节点级联的深度学习神经网络模型中输出节点的参数进行训练。
13.如权利要求12所述的装置,其特征在于,所述训练模块,用于:
根据所述目标区域样本和所述非目标区域样本对所述基于节点级联的深度学习神经网络模型中的第一个输出节点的参数进行训练;
当所述目标区域样本的召回率大于第一预设阈值,且所述非目标区域样本的误判率低于第二预设阈值时,获取所述第一个输出节点对应的第一参数;
根据所述第一参数过滤已正确识别的非目标区域样本,并获取新的非目标区域样本;
根据所述目标区域样本和所述新的非目标区域样本对所述基于节点级联的深度学习神经网络模型中的第二个输出节点的参数进行训练;
当所述目标区域样本的召回率大于第一预设阈值,且所述非目标区域样本的误判率低于第二预设阈值时,获取所述第二个输出节点对应的第二参数;
重复以上步骤,直至所述基于节点级联的深度学习神经网络模型中所有输出节点的参数训练完成。
14.如权利要求9所述的装置,其特征在于,所述确定模块,用于:
依次判断所述多个候选区域是否为与目标对象对应的目标区域。
15.如权利要求14所述的装置,其特征在于,所述确定模块,用于:
当所述基于节点级联的深度学习神经网络模型中的多个输出节点,均确定所述候选区域为目标区域时,将所述候选区域作为目标区域;
否则,将所述候选区域作为非目标区域。
CN201610425328.7A 2016-06-15 2016-06-15 目标检测方法和装置 Pending CN107516060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610425328.7A CN107516060A (zh) 2016-06-15 2016-06-15 目标检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610425328.7A CN107516060A (zh) 2016-06-15 2016-06-15 目标检测方法和装置

Publications (1)

Publication Number Publication Date
CN107516060A true CN107516060A (zh) 2017-12-26

Family

ID=60719948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610425328.7A Pending CN107516060A (zh) 2016-06-15 2016-06-15 目标检测方法和装置

Country Status (1)

Country Link
CN (1) CN107516060A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784293A (zh) * 2019-01-24 2019-05-21 苏州科达科技股份有限公司 多类目标对象检测方法、装置、电子设备、存储介质
CN110837760A (zh) * 2018-08-17 2020-02-25 北京四维图新科技股份有限公司 目标检测方法、用于目标检测的训练方法和装置
CN111372122A (zh) * 2020-02-27 2020-07-03 腾讯科技(深圳)有限公司 一种媒体内容植入方法、模型训练方法以及相关装置
CN111726675A (zh) * 2020-07-03 2020-09-29 北京字节跳动网络技术有限公司 对象的信息显示方法、装置、电子设备及计算机存储介质
CN113220828A (zh) * 2021-04-28 2021-08-06 平安科技(深圳)有限公司 意图识别模型处理方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290660A (zh) * 2008-06-02 2008-10-22 中国科学技术大学 一种用于行人检测的树状组合分类方法
CN102576365A (zh) * 2009-10-06 2012-07-11 高通股份有限公司 用于在内容递送系统中经由图像匹配进行商品销售交易的系统和方法
CN104008489A (zh) * 2013-02-21 2014-08-27 文翰易德(北京)文化传媒有限公司 一种基于人脸检测技术的互联网视频广告投放系统和方法
CN104036323A (zh) * 2014-06-26 2014-09-10 叶茂 一种基于卷积神经网络的车辆检测方法
CN104299012A (zh) * 2014-10-28 2015-01-21 中国科学院自动化研究所 一种基于深度学习的步态识别方法
US20150054824A1 (en) * 2013-08-21 2015-02-26 Canon Kabushiki Kaisha Object detection method, object detection device, and image pickup device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290660A (zh) * 2008-06-02 2008-10-22 中国科学技术大学 一种用于行人检测的树状组合分类方法
CN102576365A (zh) * 2009-10-06 2012-07-11 高通股份有限公司 用于在内容递送系统中经由图像匹配进行商品销售交易的系统和方法
CN104008489A (zh) * 2013-02-21 2014-08-27 文翰易德(北京)文化传媒有限公司 一种基于人脸检测技术的互联网视频广告投放系统和方法
US20150054824A1 (en) * 2013-08-21 2015-02-26 Canon Kabushiki Kaisha Object detection method, object detection device, and image pickup device
CN104036323A (zh) * 2014-06-26 2014-09-10 叶茂 一种基于卷积神经网络的车辆检测方法
CN104299012A (zh) * 2014-10-28 2015-01-21 中国科学院自动化研究所 一种基于深度学习的步态识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHUZFAN: "人脸检测——CascadeCNN", 《HTTPS://BLOG.CSDN.NET/SHUZFAN/ARTICLE/DETAILS/50358809》 *
李志敏: "《垃圾邮件识别与处理技术研究》", 31 December 2015, 北京理工大学出版社 *
杨铁军: "《产业专利分析报告——人工智能》", 30 June 2015, 知识产权出版社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837760A (zh) * 2018-08-17 2020-02-25 北京四维图新科技股份有限公司 目标检测方法、用于目标检测的训练方法和装置
CN110837760B (zh) * 2018-08-17 2022-10-14 北京四维图新科技股份有限公司 目标检测方法、用于目标检测的训练方法和装置
CN109784293A (zh) * 2019-01-24 2019-05-21 苏州科达科技股份有限公司 多类目标对象检测方法、装置、电子设备、存储介质
CN111372122A (zh) * 2020-02-27 2020-07-03 腾讯科技(深圳)有限公司 一种媒体内容植入方法、模型训练方法以及相关装置
CN111372122B (zh) * 2020-02-27 2022-03-15 腾讯科技(深圳)有限公司 一种媒体内容植入方法、模型训练方法以及相关装置
CN111726675A (zh) * 2020-07-03 2020-09-29 北京字节跳动网络技术有限公司 对象的信息显示方法、装置、电子设备及计算机存储介质
CN113220828A (zh) * 2021-04-28 2021-08-06 平安科技(深圳)有限公司 意图识别模型处理方法、装置、计算机设备及存储介质
CN113220828B (zh) * 2021-04-28 2023-07-21 平安科技(深圳)有限公司 意图识别模型处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN107516060A (zh) 目标检测方法和装置
CN109766872B (zh) 图像识别方法和装置
CN107862315B (zh) 字幕提取方法、视频搜索方法、字幕分享方法及装置
JP6779641B2 (ja) 画像分類装置、画像分類システム及び画像分類方法
CN103718166B (zh) 信息处理设备、信息处理方法
CN110427859A (zh) 一种人脸检测方法、装置、电子设备及存储介质
CN109643448A (zh) 机器人系统中的细粒度物体识别
CN106920229A (zh) 图像模糊区域自动检测方法及系统
Zhang et al. Learning to understand image blur
CN108288027A (zh) 一种图像质量的检测方法、装置及设备
CN102547141B (zh) 基于体育赛事视频的视频数据筛选方法及装置
CN108961220B (zh) 一种基于多层卷积特征融合的图像协同显著性检测方法
CN110263215B (zh) 一种视频情感定位方法及系统
CN107862241B (zh) 一种基于明星识别的衣服时尚挖掘方法及视觉感知系统
CN107431828A (zh) 用于识别相关媒体内容的方法和系统
CN103365936A (zh) 视频推荐系统及其方法
CN107222795A (zh) 一种多特征融合的视频摘要生成方法
CN109408672A (zh) 一种文章生成方法、装置、服务器及存储介质
CN106294483A (zh) 用于为产品品牌匹配代言人的数据处理方法和装置
CN106612468A (zh) 视频摘要自动生成系统及方法
CN108986125A (zh) 物体边缘提取方法、装置及电子设备
CN107801061A (zh) 广告数据匹配方法、装置及系统
CN113010736B (zh) 一种视频分类方法、装置、电子设备及存储介质
CN116847043A (zh) 一种混剪视频生成方法、系统、存储介质及电子设备
CN108764248B (zh) 图像特征点的提取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1248358

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171226