CN112137591A - 基于视频流的目标物位置检测方法、装置、设备及介质 - Google Patents
基于视频流的目标物位置检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112137591A CN112137591A CN202011086228.9A CN202011086228A CN112137591A CN 112137591 A CN112137591 A CN 112137591A CN 202011086228 A CN202011086228 A CN 202011086228A CN 112137591 A CN112137591 A CN 112137591A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- video stream
- position sequence
- image set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及人工智能技术,揭露了一种基于视频流的目标物位置检测方法,包括:获取视频流,对视频流进行图像分帧,得到分帧图像集;利用目标区域检测模型检测分帧图像集的目标区域,得到目标图像集;利用目标物位置序列识别模型识别目标图像集的目标物位置序列,根据目标物位置序列,从目标图像集中删除异常的目标物位置序列对应的目标图像,得到标准目标图像集;将标准目标图像集中所有的目标图像进行图像关联,根据图像关联后的标准目标图像,识别出目标物位置。此外,本发明还涉及区块链技术,所述视频流可存储于区块链中。本发明可以应用于对甲状腺结节的位置检测。本发明可以提高基于视频流的目标物位置检测的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于视频流的目标物位置检测方法、装置、电子设备及计算机可读存储介质。
背景技术
近年来神经网络模型被广泛用于医疗图像检测,如目标检测模型(Single ShotMultiBox Detector,简称SSD)。神经网络模型虽然对于大多数图像检测场景都有着较好的效果,但是在医疗领域由于缺乏大规模医生标注的数据,在进行医疗视频检测时,往往缺乏对医疗视频中图像上下文信息的利用,从而会影响医疗视频检测的准确性。例如,在传统的甲状腺视频结节诊断时,主要通过对甲状腺进行横切,纵切扫描,并对整个扫描视频中可能出现结节的片段进行留图,再进行甲状腺结节位置判断,在这过程中,往往缺乏对甲状腺视频中甲状腺图像上下文信息的利用,从而会影响甲状腺视频结节位置检测的准确性。
发明内容
本发明提供一种基于视频流的目标物位置检测方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高基于视频流的目标物位置检测的准确性。
为实现上述目的,本发明提供的一种基于视频流的目标物位置检测方法,包括:
获取视频流,对所述视频流进行图像分帧,得到分帧图像集;
利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集;
利用预训练的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,从所述目标物位置序列中筛选出异常的目标物位置序列,从所述目标图像集删除所述异常的目标物位置序列对应的目标图像,得到标准目标图像集;
将所述标准目标图像集中所有的目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流中的目标物位置。
可选地,所述利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集,包括:
利用所述目标区域检测模型的卷积层对所述分帧图像进行卷积操作,得到特征图像;
利用所述目标区域检测模型的金字塔池化层对所述特征图像进行降维操作,得到标准特征图像;
利用所述目标区域检测模型的融合层将所述分帧图像的底层特征与所述标准特征图像进行融合,得到目标特征图像;
利用所述目标区域检测模型的激活函数输出所述目标特征图像的检测结果;
根据所述检测结果,从所述分帧图像中筛选出存在目标区域的分帧图像,得到目标图像集。
可选地,所述利用所述目标区域检测模型的卷积层对所述分帧图像进行卷积操作,得到特征图像,包括:
可选地,所述利用预训练的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,包括:
通过所述目标物位置序列识别模型的输入门计算所述目标图像的状态值;
通过所述目标物位置序列识别模型的遗忘门计算所述目标图像的激活值;
根据所述状态值和激活值计算所述目标图像的状态更新值;
利用所述目标物位置序列识别模型的输出门计算所述状态更新值的初始位置序列;
计算所述初始位置序列与对应目标图像标签的损失值,选取损失值小于预设阈值的初始位置序列,得到对应目标图像的目标物位置序列。
可选地,所述根据所述状态值和激活值计算所述目标图像的状态更新值,包括:
利用下述方法计算所述状态更新值:
可选地,所述利用所述目标物位置序列识别模型的输出门计算所述状态更新值的初始位置序列,包括:
利用下述函数计算所述状态更新值的初始位置序列:
可选地,所述对所述视频流进行图像分帧,得到分帧图像集,包括:
查询所述视频流的总帧数;
基于所述总帧数,将所述视频流分割成多张分帧图片;
将所述多张分帧图片转换为图片格式,得到分帧图像集。
可选地,所述视频流为甲状腺视频流。
为了解决上述问题,本发明还提供一种基于视频流的目标物位置检测装置,所述装置包括:
分帧模块,用于获取视频流,对所述视频流进行图像分帧,得到分帧图像集;
检测模块,用于利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集;
识别模块,用于利用预训练的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,从所述目标物位置序列中筛选出异常的目标物位置序列,从所述目标图像集删除所述异常的目标物位置序列对应的目标图像,得到标准目标图像集;
关联模块,用于将所述标准目标图像集中所有的目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流中的目标物位置。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于视频流的目标物位置检测方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的基于视频流的目标物位置检测方法。
本发明实施例首先对获取视频流进行图像分帧,得到分帧图像集,以实现对所述视频流中每一帧的图像进行结节检测,提高所述视频流的结节检测准确性;其次,本发明实施例检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集,并识别所述目标图像集中每个目标图像的目标物位置序列,及删除所述目标物位置序列中异常目标物位置序列对应的目标图像,得到目标图像集,很好的利用了目标图像中目标物位置序列的上下文信息,识别出目标图像中存在异常目标物位置序列的目标图像,从而提高了视频流中结节检测的准确性;进一步的,本发明实施例将所述目标图像集中所有的目标图像进行图像关联,根据图像关联后的所述目标图像集,识别出所述视频流的结节位置,可以很好的查看出视频流存在的结节位置分布情况,从而可以帮助用户查找到视频流中最显著的结节。因此,本发明提出的一种基于视频流的目标物位置检测方法、装置、电子设备以及计算机可读存储介质可以提高基于视频流的目标物位置检测的准确性。
附图说明
图1为本发明实施例提供的基于视频流的目标物位置检测方法的流程示意图;
图2为本发明第实施例中图1提供的基于视频流的目标物位置检测方法中其中一个步骤的详细流程示意图;
图3为本发明第实施例中图1提供的基于视频流的目标物位置检测方法中另外一个步骤的详细流程示意图;
图4为本发明第实施例中图1提供的基于视频流的目标物位置检测方法中另外一个步骤的详细流程示意图;
图5为本发明实施例提供的基于视频流的目标物位置检测装置的模块示意图;
图6为本发明实施例提供的实现基于视频流的目标物位置检测方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于视频流的目标物位置检测方法。所述基于视频流的目标物位置检测方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于视频流的目标物位置检测方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示的本发明一实施例提供的基于视频流的目标物位置检测方法的流程示意图。在本发明实施例中,所述基于视频流的目标物位置检测方法包括:
S1、获取视频流,对所述视频流进行图像分帧,得到分帧图像集。
本发明较佳实施例中,所述视频流是基于对待检测部位进行超声扫描得到的视频。其中,在本发明实施例中,所述视频流为甲状腺视频流。
应该了解,视频流具有一定的连续性,若对整个视频流进行目标物位置检测,如甲状腺位置检测,容易导致甲状腺位置检测结果不准确,于是,本发明实施例通过对所述视频流进行图像分帧,得到分帧图像集,以实现对所述视频流中每一帧的图像进行目标物位置检测,提高所述视频流中目标物位置检测的准确性。
详细地,参阅图2所示,所述对所述视频流进行图像分帧,得到分帧图像集,包括:
S10、查询所述视频流的总帧数;
S11、基于所述总帧数,将所述视频流分割成多张分帧图片;
S12、将所述多张分帧图片转换为图片格式,得到分帧图像集。
一个优选实施例中,所述总帧数通过查看对应视频流的属性得到。
一个优选实施例中,所述多张分帧图片通过while语句实现,例如通过所述while语句设置1帧为一张图片。
一个优选实施例中,所述图片格式为jpg格式。
进一步地,为保障所述视频流的安全性和私密性,所述视频流可存储于一区块链节点中。
S2、利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集。
本发明较佳实施例中,所述目标区域检测模型包括YOLOv3网络,所述YOLOv3网络用于图像目标区域的检测,在本发明实施例中,所述YOLOv3网络用于检测分帧图像中的目标区域。
进一步地,所述目标区域检测模型包括:卷积层、金字塔池化层以及融合层等。
详细地,参阅图3所示,所述利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集包括:
S20、利用所述卷积层对所述分帧图像进行卷积操作,得到特征图像;
S21、利用所述金字塔池化层(Spatial Pyramid Pooling,简称SPP)对所述特征图像进行降维操作,得到标准特征图像;
S22、利用所述融合层将所述分帧图像的底层特征与所述标准特征图像进行融合,得到目标特征图像;
S23、利用所述目标区域检测模型的激活函数输出所述目标特征图像的检测结果;
S24、根据所述检测结果,从所述分帧图像中筛选出存在目标区域的分帧图像,得到目标图像集。
所述卷积层对图像进行卷积操作,可以实现特征提取,所述金字塔池化层可以对所述特征图像进行尺寸降维操作,可以避免在图像特征提取时因裁剪,缩放等问题引起的结节误检,所述融合层将图像的底层特征融合至提取的图像特征中,可以减小对不同增益引起的图像灰度变化影响。
一个优选实例中,所述底层特征指的是所述分帧图像中的基本特征,例如、颜色、长度、宽度等等,较佳地,本发明实施例中所述融合通过所述融合层中的CSP(Cross-Stage-Partial-connections跨阶段部分连接)模块实现。
一个优选实施例中,所述激活函数包括:
其中,y表示目标特征图像的检测结果,s表示目标特征图像。
优选地,本发明较佳实施中,所述检测结果包括:x、z、高、宽以及类别等,其中,x、z表示目标特征图像的中心点,类别表示目标特征图像是否为目标区域,即类别0表示不是目标区域,类别1表示是目标区域。
S3、利用预训练的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,从所述目标物位置序列中筛选出异常的目标物位置序列,从所述目标图像集删除所述异常的目标物位置序列对应的目标图像,得到标准目标图像集。
本发明较佳实施例中,所述目标物位置序列识别模型包括:长短期记忆网络(LongShort-Term Memory,LSTM)模型,所述LSTM模型是一种时间循环神经网络,包括:输入门、遗忘门以及输出门。
其中,在本发明中,所述LSTM模型用于识别出所述目标图像集中每个目标图像的目标物位置序列,以识别出异常目标图像,从而帮助用户更好的判断出视频流中结节分布情况,进而可以提高基于视频流的目标物位置检测的准确性。
详细地,参阅图4所示,所述利用预训练好的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,包括:
S30、通过所述输入门计算所述目标图像的状态值;
S31、通过所述遗忘门计算所述目标图像的激活值;
S32、根据所述状态值和激活值计算所述目标图像的状态更新值;
S33、利用所述输出门计算所述状态更新值的初始位置序列。
S34、利用所述目标物位置序列识别模型中的损失函数计算所述初始位置序列与对应目标图像标签的损失值,选取损失值小于预设阈值的初始位置序列,得到对应目标图像的目标物位置序列。
一个可选实施例中,所述状态值的计算方法包括:
一个可选实施例中,所述激活值的计算方法包括:
一个可选实施例中,所述状态更新值的计算方法包括:
一个可选实施例中,所述初始位置序列的计算方法包括:
一个可选实施例中,所述损失函数为softmax函数,其中,所述目标图像标签指的是用户预先在目标图像中标明的目标图像位置序列,进一步地,本发明中,选取损失值小于预设阈值的初始位置序列作为所述目标物位置序列,以筛选出所述目标图像中异常的目标图像,提高后续基于视频流的目标物位置检测的准确性。
进一步的,本发明实施例中,从所述目标物位置序列中筛选出异常的目标物位置序列,从所述目标图像集删除所述异常的目标物位置序列对应的目标图像,得到标准目标图像集。
示例性地,所述目标图像集存在100张目标图像,其中,通过所述目标物位置序列模型识别模型识别出80张目标图像中目标区域的目标物位置序列在对应目标图像的左上方,通过所述目标物位置序列识别模型识别出10张目标图像中目标区域的目标物位置序列在对应目标图像的右上方,通过所述目标物位置序列识别模型识别出10张目标图像中不存在目标区域的目标物位置序列,则可以识别出处于右上方和不存在目标区域的位置序列对应的目标区域为异常目标区域,从而可以删除对应的目标图像,提高基于视频流的目标物位置检测的准确性,同时,需要声明的是,若一张目标图像中存在多个目标区域,则根据所述LSTM模型可以识别出该目标图像中目标区域的正确目标物位置序列。
S4、将所述标准目标图像集中所有的目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流中的目标物位置。
在本发明的至少一个实施例中,通过将所述标准目标图像集中所有的标准目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流的结节位置。
其中,所述目标关联函数为当前已知的均方误差回归函数,基于所述图像关联,可以很好的识别出所述视频流存在的结节分布情况,从而可以帮助用户查看到视频流中结节最显著的位置。
综上所述,本发明实施例首先对获取视频流进行图像分帧,得到分帧图像集,以实现对所述视频流中每一帧的图像进行结节检测,提高所述视频流的结节检测准确性;其次,本发明实施例检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集,并识别所述目标图像集中每个目标图像的目标物位置序列,及删除所述目标物位置序列中异常目标物位置序列对应的目标图像,得到标准目标图像集,很好的利用了目标图像中目标物位置序列的上下文信息,识别出目标图像中存在异常目标物位置序列的目标图像,从而提高了视频流中结节检测的准确性;进一步的,本发明实施例将所述标准目标图像集中所有的标准目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流的结节位置,可以很好的查看出视频流存在的结节位置分布情况,从而可以帮助用户查找到视频流中最显著的结节。因此,本发明提出的一种基于视频流的目标物位置检测方法可以提高基于视频流的目标物位置检测的准确性。
如图5所示,是本发明基于视频流的目标物位置检测装置的功能模块图。
本发明所述基于视频流的目标物位置检测装置100可以安装于电子设备中。根据实现的功能,所述基于视频流的目标物位置检测装置可以包括分帧模块101、检测模块102、识别模块103以及关联模块104。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述分帧模块101,用于获取视频流,对所述视频流进行图像分帧,得到分帧图像集。
本发明较佳实施例中,所述视频流是基于对待检测部位进行超声扫描得到的视频。其中,在本发明实施例中,所述视频流为甲状腺视频流。
应该了解,视频流具有一定的连续性,若对整个视频流进行目标物位置检测,如甲状腺位置检测,容易导致甲状腺位置检测结果不准确,于是,本发明实施例,所述分帧模块101通过对所述视频流进行图像分帧,得到分帧图像集,以实现对所述视频流中每一帧的图像进行目标物位置检测,提高所述视频流中目标物位置检测的准确性。
详细地,所述对所述视频流进行图像分帧,得到分帧图像集,所述分帧模块101采用下述方式执行:
步骤I、查询所述视频流的总帧数;
步骤II、基于所述总帧数,将所述视频流分割成多张分帧图片;
步骤III、将所述多张分帧图片转换为图片格式,得到分帧图像集。
一个优选实施例中,所述总帧数通过查看对应视频流的属性得到。
一个优选实施例中,所述多张分帧图片通过while语句实现,例如通过所述while语句设置1帧为一张图片。
一个优选实施例中,所述图片格式为jpg格式。
进一步地,为保障所述分帧图像集的安全性和私密性,所述分帧图像集还可存储于一区块链节点中。
所述检测模块102,用于利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集。
本发明较佳实施例中,所述目标区域检测模型包括YOLOv3网络,所述YOLOv3网络用于图像目标区域的检测,在本发明实施例中,所述YOLOv3网络用于检测分帧图像中的目标区域。
进一步地,所述目标区域检测模型包括:卷积层、金字塔池化层以及融合层等。
详细地,所述利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集,所述检测模块102采用下述方式执行:
步骤A、利用所述卷积层对所述分帧图像进行卷积操作,得到特征图像;
步骤B、利用所述金字塔池化层(Spatial Pyramid Pooling,简称SPP)对所述特征图像进行降维操作,得到标准特征图像;
步骤C、利用所述融合层将所述分帧图像的底层特征与所述标准特征图像进行融合,得到目标特征图像;
步骤D、利用所述目标区域检测模型的激活函数输出所述目标特征图像的检测结果;
步骤E、根据所述检测结果,从所述分帧图像中筛选出存在目标区域的分帧图像,得到目标图像集。
所述卷积层对图像进行卷积操作,可以实现特征提取,所述金字塔池化层可以对所述特征图像进行尺寸降维操作,可以避免在图像特征提取时因裁剪,缩放等问题引起的结节误检,所述融合层将图像的底层特征融合至提取的图像特征中,可以减小对不同增益引起的图像灰度变化影响。
一个优选实例中,所述底层特征指的是所述分帧图像中的基本特征,例如、颜色、长度、宽度等等,较佳地,本发明实施例中所述融合通过所述融合层中的CSP(Cross StagePartial)模块实现。
一个优选实施例中,所述激活函数包括:
其中,y表示目标特征图像的检测结果,s表示目标特征图像。
优选地,本发明较佳实施中,所述检测结果包括:x、z、高、宽以及类别等,其中,x、z表示目标特征图像的中心点,类别表示目标特征图像是否为目标区域,即类别0表示不是目标区域,类别1表示是目标区域。
所述识别模块103,用于利用预训练的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,从所述目标物位置序列中筛选出异常的目标物位置序列,从所述目标图像集删除所述异常的目标物位置序列对应的目标图像,得到标准目标图像集。
本发明较佳实施例中,所述目标物位置序列识别模型包括:长短期记忆网络(LongShort-Term Memory,LSTM)模型,所述LSTM模型是一种时间循环神经网络,包括:输入门、遗忘门以及输出门。
其中,在本发明中,所述LSTM模型用于识别出所述目标图像集中每个目标图像的目标物位置序列,以识别出异常目标图像,从而帮助用户更好的判断出视频流中结节分布情况,进而可以提高基于视频流的目标物位置检测的准确性。
详细地,所述利用预训练好的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,所述识别模块103采用下述方式执行:
步骤a、通过所述输入门计算所述目标图像的状态值;
步骤b、通过所述遗忘门计算所述目标图像的激活值;
步骤c、根据所述状态值和激活值计算所述目标图像的状态更新值;
步骤d、利用所述输出门计算所述状态更新值的初始位置序列。
步骤e、利用所述目标物位置序列识别模型中的损失函数计算所述初始位置序列与对应目标图像标签的损失值,选取损失值小于预设阈值的初始位置序列,得到对应目标图像的目标物位置序列。
一个可选实施例中,所述状态值的计算方法包括:
一个可选实施例中,所述激活值的计算方法包括:
一个可选实施例中,所述状态更新值的计算方法包括:
一个可选实施例中,所述初始位置序列的计算方法包括:
一个可选实施例中,所述损失函数为softmax函数,其中,所述目标图像标签指的是用户预先在目标图像中标明的目标图像位置序列,进一步地,本发明中,选取损失值小于预设阈值的初始位置序列作为所述目标物位置序列,以筛选出所述目标图像中异常的目标图像,提高后续基于视频流的目标物位置检测的准确性。
进一步的,本发明实施例中,所述识别模块103从所述目标物位置序列中筛选出异常的目标物位置序列,从所述目标图像集删除所述异常的目标物位置序列对应的目标图像,得到标准目标图像集。
示例性地,所述目标图像集存在100张目标图像,其中,通过所述目标物位置序列模型识别模型识别出80张目标图像中目标区域的目标物位置序列在对应目标图像的左上方,通过所述目标物位置序列识别模型识别出10张目标图像中目标区域的目标物位置序列在对应目标图像的右上方,通过所述目标物位置序列识别模型识别出10张目标图像中不存在目标区域的目标物位置序列,则可以识别出处于右上方和不存在目标区域的位置序列对应的目标区域为异常目标区域,从而可以删除对应的目标图像,提高基于视频流的目标物位置检测的准确性,同时,需要声明的是,若一张目标图像中存在多个目标区域,则根据所述LSTM模型可以识别出该目标图像中目标区域的正确目标物位置序列。
所述关联模块104,用于将所述标准目标图像集中所有的目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流中的目标物位置。
在本发明的至少一个实施例中,所述关联模块104通过将所述标准目标图像集中所有的标准目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流的结节位置。
其中,所述目标关联函数为当前已知的均方误差回归函数,基于所述图像关联,可以很好的识别出所述视频流存在的结节分布情况,从而可以帮助用户查看到视频流中结节最显著的位置。
综上所述,本发明实施例首先对获取视频流进行图像分帧,得到分帧图像集,以实现对所述视频流中每一帧的图像进行结节检测,提高所述视频流的结节检测准确性;其次,本发明实施例检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集,并识别所述目标图像集中每个目标图像的目标物位置序列,及删除所述目标物位置序列中异常目标物位置序列对应的目标图像,得到标准目标图像集,很好的利用了目标图像中目标物位置序列的上下文信息,识别出目标图像中存在异常目标物位置序列的目标图像,从而提高了视频流中结节检测的准确性;进一步的,本发明实施例将所述标准目标图像集中所有的标准目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流的结节位置,可以很好的查看出视频流存在的结节位置分布情况,从而可以帮助用户查找到视频流中最显著的结节。因此,本发明提出的一种基于视频流的目标物位置检测装置可以提高基于视频流的目标物位置检测的准确性。
如图6所示,是本发明实现基于视频流的目标物位置检测方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于视频流的目标物位置检测程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于视频流的目标物位置检测的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于视频流的目标物位置检测等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图6仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图6示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于视频流的目标物位置检测12是多个指令的组合,在所述处理器10中运行时,可以实现:
获取视频流,对所述视频流进行图像分帧,得到分帧图像集;
利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集;
利用预训练的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,从所述目标物位置序列中筛选出异常的目标物位置序列,从所述目标图像集删除所述异常的目标物位置序列对应的目标图像,得到标准目标图像集;
将所述标准目标图像集中所有的目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流中的目标物位置。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于视频流的目标物位置检测方法,其特征在于,所述方法包括:
获取视频流,对所述视频流进行图像分帧,得到分帧图像集;
利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集;
利用预训练的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,从所述目标物位置序列中筛选出异常的目标物位置序列,从所述目标图像集删除所述异常的目标物位置序列对应的目标图像,得到标准目标图像集;
将所述标准目标图像集中所有的目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流中的目标物位置。
2.如权利要求1所述的基于视频流的目标物位置检测方法,其特征在于,所述利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集,包括:
利用所述目标区域检测模型的卷积层对所述分帧图像进行卷积操作,得到特征图像;
利用所述目标区域检测模型的金字塔池化层对所述特征图像进行降维操作,得到标准特征图像;
利用所述目标区域检测模型的融合层将所述分帧图像的底层特征与所述标准特征图像进行融合,得到目标特征图像;
利用所述目标区域检测模型的激活函数输出所述目标特征图像的检测结果;
根据所述检测结果,从所述分帧图像中筛选出存在目标区域的分帧图像,得到目标图像集。
3.如权利要求1所述的基于视频流的目标物位置检测方法,其特征在于,所述利用预训练的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,包括:
通过所述目标物位置序列识别模型的输入门计算所述目标图像的状态值;
通过所述目标物位置序列识别模型的遗忘门计算所述目标图像的激活值;
根据所述状态值和激活值计算所述目标图像的状态更新值;
利用所述目标物位置序列识别模型的输出门计算所述状态更新值的初始位置序列;
计算所述初始位置序列与对应目标图像标签的损失值,选取损失值小于预设阈值的初始位置序列,得到对应目标图像的目标物位置序列。
6.如权利要求1所述的基于视频流的目标物位置检测方法,其特征在于,所述对所述视频流进行图像分帧,得到分帧图像集,包括:
查询所述视频流的总帧数;
基于所述总帧数,将所述视频流分割成多张分帧图片;
将所述多张分帧图片转换为图片格式,得到分帧图像集。
7.如权利要求1至6中任意一项所述的基于视频流的目标物位置检测方法,其特征在于,所述视频流为甲状腺视频流。
8.一种基于视频流的目标物位置检测装置,其特征在于,所述装置包括:
分帧模块,用于获取视频流,对所述视频流进行图像分帧,得到分帧图像集;
检测模块,用于利用预训练的目标区域检测模型检测所述分帧图像集中每个分帧图像的目标区域,得到目标图像集;
识别模块,用于利用预训练的目标物位置序列识别模型识别所述目标图像集中每个目标图像的目标物位置序列,从所述目标物位置序列中筛选出异常的目标物位置序列,从所述目标图像集删除所述异常的目标物位置序列对应的目标图像,得到标准目标图像集;
关联模块,用于将所述标准目标图像集中所有的目标图像进行图像关联,根据图像关联后的所述标准目标图像集,识别出所述视频流中的目标物位置。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于视频流的目标物位置检测方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于视频流的目标物位置检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011086228.9A CN112137591B (zh) | 2020-10-12 | 2020-10-12 | 基于视频流的目标物位置检测方法、装置、设备及介质 |
PCT/CN2020/131991 WO2021189911A1 (zh) | 2020-10-12 | 2020-11-27 | 基于视频流的目标物位置检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011086228.9A CN112137591B (zh) | 2020-10-12 | 2020-10-12 | 基于视频流的目标物位置检测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112137591A true CN112137591A (zh) | 2020-12-29 |
CN112137591B CN112137591B (zh) | 2021-07-23 |
Family
ID=73952998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011086228.9A Active CN112137591B (zh) | 2020-10-12 | 2020-10-12 | 基于视频流的目标物位置检测方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112137591B (zh) |
WO (1) | WO2021189911A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907660A (zh) * | 2021-01-08 | 2021-06-04 | 浙江大学 | 面向小样本的水下激光目标检测仪 |
CN114951017A (zh) * | 2022-05-12 | 2022-08-30 | 深圳市顺鑫昌文化股份有限公司 | 一种标签印刷在线智能检测报错系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690615B (zh) * | 2022-10-11 | 2023-11-03 | 杭州视图智航科技有限公司 | 一种面向视频流的深度学习目标识别方法及系统 |
CN116363557B (zh) * | 2023-03-17 | 2023-09-19 | 杭州再启信息科技有限公司 | 一种用于连续帧的自学习标注方法、系统及介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1570953A (zh) * | 2003-07-22 | 2005-01-26 | 中国科学院自动化研究所 | 移动计算环境下的人脸检测方法 |
CN103413295A (zh) * | 2013-07-12 | 2013-11-27 | 长沙理工大学 | 一种视频多目标长程跟踪方法 |
US20160224833A1 (en) * | 2015-02-04 | 2016-08-04 | Alibaba Group Holding Limited | Method and apparatus for target acquisition |
US20170294091A1 (en) * | 2016-04-06 | 2017-10-12 | Nec Laboratories America, Inc. | Video-based action recognition security system |
CN107451601A (zh) * | 2017-07-04 | 2017-12-08 | 昆明理工大学 | 基于时空上下文全卷积网络的运动工件识别方法 |
WO2018022597A1 (en) * | 2016-07-25 | 2018-02-01 | Ctrl-Labs Corporation | Methods and apparatus for inferring user intent based on neuromuscular signals |
CN108230358A (zh) * | 2017-10-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 目标跟踪及神经网络训练方法、装置、存储介质、电子设备 |
CN109859216A (zh) * | 2019-02-16 | 2019-06-07 | 深圳市未来感知科技有限公司 | 基于深度学习的测距方法、装置、设备及存储介质 |
CN110147722A (zh) * | 2019-04-11 | 2019-08-20 | 平安科技(深圳)有限公司 | 一种视频处理方法、视频处理装置及终端设备 |
CN111160229A (zh) * | 2019-12-26 | 2020-05-15 | 北京工业大学 | 基于ssd网络的视频目标检测方法及装置 |
CN111414916A (zh) * | 2020-02-29 | 2020-07-14 | 中国平安财产保险股份有限公司 | 图像中文本内容提取生成方法、装置及可读存储介质 |
CN111581436A (zh) * | 2020-03-30 | 2020-08-25 | 西安天和防务技术股份有限公司 | 目标识别方法、装置、计算机设备和存储介质 |
CN111666857A (zh) * | 2020-05-29 | 2020-09-15 | 平安科技(深圳)有限公司 | 基于环境语义理解的人体行为识别方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2672423A1 (en) * | 2012-06-08 | 2013-12-11 | Realeyes OÜ | Method and apparatus for locating features of an object using deformable models |
EP2672424A1 (en) * | 2012-06-08 | 2013-12-11 | Realeyes OÜ | Method and apparatus using adaptive face registration method with constrained local models and dynamic model switching |
-
2020
- 2020-10-12 CN CN202011086228.9A patent/CN112137591B/zh active Active
- 2020-11-27 WO PCT/CN2020/131991 patent/WO2021189911A1/zh active Application Filing
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1570953A (zh) * | 2003-07-22 | 2005-01-26 | 中国科学院自动化研究所 | 移动计算环境下的人脸检测方法 |
CN103413295A (zh) * | 2013-07-12 | 2013-11-27 | 长沙理工大学 | 一种视频多目标长程跟踪方法 |
US20160224833A1 (en) * | 2015-02-04 | 2016-08-04 | Alibaba Group Holding Limited | Method and apparatus for target acquisition |
US20170294091A1 (en) * | 2016-04-06 | 2017-10-12 | Nec Laboratories America, Inc. | Video-based action recognition security system |
WO2018022597A1 (en) * | 2016-07-25 | 2018-02-01 | Ctrl-Labs Corporation | Methods and apparatus for inferring user intent based on neuromuscular signals |
CN107451601A (zh) * | 2017-07-04 | 2017-12-08 | 昆明理工大学 | 基于时空上下文全卷积网络的运动工件识别方法 |
CN108230358A (zh) * | 2017-10-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 目标跟踪及神经网络训练方法、装置、存储介质、电子设备 |
CN109859216A (zh) * | 2019-02-16 | 2019-06-07 | 深圳市未来感知科技有限公司 | 基于深度学习的测距方法、装置、设备及存储介质 |
CN110147722A (zh) * | 2019-04-11 | 2019-08-20 | 平安科技(深圳)有限公司 | 一种视频处理方法、视频处理装置及终端设备 |
CN111160229A (zh) * | 2019-12-26 | 2020-05-15 | 北京工业大学 | 基于ssd网络的视频目标检测方法及装置 |
CN111414916A (zh) * | 2020-02-29 | 2020-07-14 | 中国平安财产保险股份有限公司 | 图像中文本内容提取生成方法、装置及可读存储介质 |
CN111581436A (zh) * | 2020-03-30 | 2020-08-25 | 西安天和防务技术股份有限公司 | 目标识别方法、装置、计算机设备和存储介质 |
CN111666857A (zh) * | 2020-05-29 | 2020-09-15 | 平安科技(深圳)有限公司 | 基于环境语义理解的人体行为识别方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
胡骞鹤,方书雅,刘守印,李纪平: "基于教室监控视频的学生位置检测和人脸图像捕获算法", 《计算机与现代化》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907660A (zh) * | 2021-01-08 | 2021-06-04 | 浙江大学 | 面向小样本的水下激光目标检测仪 |
CN114951017A (zh) * | 2022-05-12 | 2022-08-30 | 深圳市顺鑫昌文化股份有限公司 | 一种标签印刷在线智能检测报错系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112137591B (zh) | 2021-07-23 |
WO2021189911A1 (zh) | 2021-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112137591B (zh) | 基于视频流的目标物位置检测方法、装置、设备及介质 | |
CN112447189A (zh) | 语音事件检测方法、装置、电子设备及计算机存储介质 | |
WO2022141858A1 (zh) | 行人检测方法、装置、电子设备及存储介质 | |
CN112465060A (zh) | 图像中目标物检测方法、装置、电子设备及可读存储介质 | |
CN113554008B (zh) | 静态物体区域内检测方法、装置、电子设备及存储介质 | |
CN111932547A (zh) | 图像中目标物的分割方法、装置、电子设备及存储介质 | |
CN113298159A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN113283446A (zh) | 图像中目标物识别方法、装置、电子设备及存储介质 | |
CN112528908A (zh) | 活体检测方法、装置、电子设备及存储介质 | |
CN112507934A (zh) | 活体检测方法、装置、电子设备及存储介质 | |
CN111695609A (zh) | 目标物损伤程度判定方法、装置、电子设备及存储介质 | |
CN114677650B (zh) | 地铁乘客行人违法行为智能分析方法及装置 | |
CN112507923A (zh) | 证件翻拍检测方法、装置、电子设备及介质 | |
CN111985449A (zh) | 救援现场图像的识别方法、装置、设备及计算机介质 | |
CN112528903B (zh) | 人脸图像获取方法、装置、电子设备及介质 | |
CN112990374A (zh) | 图像分类方法、装置、电子设备及介质 | |
CN114627435B (zh) | 基于图像识别的智能灯光调节方法、装置、设备及介质 | |
CN111950517A (zh) | 一种目标检测方法、模型训练方法,电子设备及存储介质 | |
CN114390200B (zh) | 相机作弊识别方法、装置、设备及存储介质 | |
CN115909467A (zh) | 运动状态场景下的人脸活体检测方法、装置、设备及介质 | |
CN112580505B (zh) | 网点开关门状态识别方法、装置、电子设备及存储介质 | |
CN114708461A (zh) | 基于多模态学习模型的分类方法、装置、设备及存储介质 | |
CN114463685A (zh) | 行为识别方法、装置、电子设备及存储介质 | |
CN114550076A (zh) | 区域异常行为监控方法、装置、设备及存储介质 | |
CN113705686A (zh) | 图像分类方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |