CN109740590A - 基于目标跟踪辅助的roi精确提取方法及系统 - Google Patents
基于目标跟踪辅助的roi精确提取方法及系统 Download PDFInfo
- Publication number
- CN109740590A CN109740590A CN201811300667.8A CN201811300667A CN109740590A CN 109740590 A CN109740590 A CN 109740590A CN 201811300667 A CN201811300667 A CN 201811300667A CN 109740590 A CN109740590 A CN 109740590A
- Authority
- CN
- China
- Prior art keywords
- interest
- area
- frame
- image data
- roi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000003672 processing method Methods 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims description 35
- 239000000523 sample Substances 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 12
- 238000003384 imaging method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 description 37
- 238000012545 processing Methods 0.000 description 25
- 238000004891 communication Methods 0.000 description 13
- 230000015654 memory Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 8
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 229910052710 silicon Inorganic materials 0.000 description 3
- 239000010703 silicon Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/72—Data preparation, e.g. statistical preprocessing of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
一种图像数据处理方法,包括获取若干帧的帧图像数据;探测其中一帧内的感兴趣区域;在至少一帧中跟踪该感兴趣区域的位置;以及根据得到的若干帧的感兴趣区域的位置生成感兴趣区域的合并位置。还包括:对若干帧图像数据组生成对应的多个合并位置;计算每个合并位置相应的统计数据;以及根据多个合并位置及其统计数据得到感兴趣区域的最终位置。
Description
本申请请求:2017年11月6日提交的名称为“Accurate ROI Extraction Aided byObject Tracking(基于目标跟踪辅助的ROI精确提取)”的美国临时专利申请申请号US62/582,306之优先权。
技术领域
本发明涉及的是一种图像处理领域的技术,具体是一种基于人工智能的图像数据处理方法和用于执行该处理的图像数据传感系统。
背景技术
图像和视觉相关的应用中的感兴趣区域(ROI)是为特定目的而识别的图像像素的子集,通常单个场景需要多个对象及其在图像中的位置。例如,在监视系统中,系统通常同时集中于几个特定主题,如:车辆牌照、面部等。
现有多种用于ROI提取的机器学习方法,包括支持向量机(SVM)、Adaboost和卷积神经网络(CNN)。然而,所有这些方法都从单帧(图像)中提取ROI,因此不可避免地产生错误探测。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于目标跟踪辅助的ROI精确提取方法及系统。
本发明是通过以下技术方案实现的:
本发明涉及一种图像数据处理方法,包括:
获取若干帧的帧图像数据;
探测其中一帧内的感兴趣区域;
在至少一帧中跟踪该感兴趣区域的位置;以及
根据得到的若干帧的感兴趣区域的位置生成感兴趣区域的合并位置。
所述的方法优选包括一个或多个以下特征:
所述的处理方法还包括:
对若干帧图像数据组生成对应的多个合并位置;
计算每个感兴趣区域多个合并位置相应的统计数据;以及
根据每个感兴趣区域多个合并位置及其统计数据得到感兴趣区域的最终位置。
所述的每个合并位置相应的每个感兴趣区域的统计数据包括以下至少一个:
探测到感兴趣区域的帧图像数据的帧数;以及
探测到感兴趣区域的帧图像数据的帧数百分比。
所述的处理方法进一步包括:
获得感兴趣区域的已测位置;以及
根据该已测位置、多个合并位置及其统计数据得到感兴趣区域的最终位置。
所述的处理方法更进一步包括:
获得描述特征的已训练参数;
在帧图像数据序列中的第一帧中探测至少一个潜在感兴趣区域;以及
根据潜在感兴趣区域进行感兴趣区域探测。
所述的处理方法还包括:
跟踪基于潜在感兴趣区域探测得到的感兴趣区域的位置。
本发明涉及一种图像数据传感系统,包括:
用于从图像传感器获取若干帧的帧图像数据的图像输入单元;
用于从其中一帧中探测感兴趣区域的探测单元;
用于在其中至少一帧中跟踪该感兴趣区域的位置的跟踪单元;以及
用于根据若干帧的感兴趣区域的位置生成合并位置的分析单元。
所述的图像传感器优选包括一个或多个以下特征:
所述的分析单元进一步:
对若干帧图像数据组生成对应的多个合并位置;
计算每个感兴趣区域多个合并位置相应的统计数据;以及
根据多个合并位置及其统计数据得到感兴趣区域的最终位置。
所述的每个合并位置相应的每个感兴趣区域的统计数据包括以下至少一个:
探测到感兴趣区域的帧图像数据的帧数;以及
探测到感兴趣区域的帧图像数据的帧数百分比。
所述的图像数据传感系统还包括:
用于获得感兴趣区域的已测位置的ROI输入单元,对应分析单元进一步根据该已测位置、多个合并位置及其统计数据得到感兴趣区域的最终位置。
所述的探测单元还包括:用于获得描述特征的已训练参数;在帧图像数据序列中的第一帧中通过已训练参数探测至少一个潜在感兴趣区域。
所述的探测单元进一步根据至少一个已测得的潜在感兴趣区域以探测感兴趣区域。
所述的跟踪单元进一步根据至少一个已测得的潜在感兴趣区域跟踪感兴趣区域的位置。
本发明涉及一种基于硬件处理器可执行的指令进行编码的非暂时性机器可读存储介质,包括:供硬件处理器执行图像数据处理的指令,该图像数据处理包括:获取若干帧的帧图像数据;探测其中一帧内的感兴趣区域;在至少一帧中跟踪该感兴趣区域的位置;以及根据得到的若干帧的感兴趣区域的位置生成感兴趣区域的合并位置。
所述的介质优选包括一个或多个以下特征:
所述的图像数据处理还包括:对若干帧图像数据组生成对应的多个合并位置;计算每个感兴趣区域多个合并位置相应的统计数据;以及根据多个合并位置及其统计数据得到感兴趣区域的最终位置。
所述的每个合并位置相应的每个感兴趣区域的统计数据至少包括:探测到感兴趣区域的帧图像数据的帧数;以及探测到感兴趣区域的帧图像数据的帧数百分比。
所述的图像数据处理进一步包括:获得感兴趣区域的已测位置;以及根据该已测位置、多个合并位置及其统计数据得到感兴趣区域的最终位置。
所述的图像数据处理更进一步包括:获得描述特征的已训练参数;在帧图像数据序列中的第一帧中探测至少一个潜在感兴趣区域;以及在帧图像数据序列中每隔若干帧进行潜在感兴趣区域的探测。
所述的图像数据处理法还包括:根据至少一个已测得的潜在感兴趣区域跟踪感兴趣区域的位置。
附图说明
图1为一个视频帧图像数据的人工智能(AI)通信示范系统捕获的图像传感器根据不同的实施例示意图;
图2为用于从单个图像进行ROI探测的常规过程示意图;
图3为一个典型的数据流在一个基于人工智能的图像数据处理装置的ROI探测跟踪从帧序列,根据不同的实施例示意图;
图4为一个典型的数据流在一个基于人工智能的图像数据处理装置的ROI探测跟踪从帧序列,根据不同的实施例示意图;
图5为一个典型的数据流在一个基于人工智能的图像数据处理装置的ROI探测跟踪从一个序列的N帧根据各个实施例示意图;
图6为对帧序列无跟踪的人脸ROI提取的例子示意图;
图中:Frame0~9为第0至第9帧;
图7为根据各种实施例的具有跟踪的面部ROI提取的例子示意图;
图中:Frame0~9为第0至第9帧;
图8为根据各种实施例的示例性图像数据处理方法的流程图示意图;
图9为一个典型的计算机系统900实现一个或多个图像传感器根据不同的实施例的AI功能块图示意图;
具体实施方式
本实施例涉及探测视频帧中的对象的感兴趣区域(ROI),具体为使用视觉处理来确定图像序列中的可靠感兴趣区域。本发明通过分析若干帧(如在视频模式中)而不是单个图像以确定提取的ROI是否符合要求,从而在明显减少错误检测,提高准确检测率的同时,降低传输带宽。
本发明通过在集成框架中实现ROI对象跟踪和探测,以便减少错误结果。通过辅助对象跟踪技术,实现更加稳定的对象探测。本发明的灵感来自我们的视觉系统:如果想要识别场景中的对象,则可能难以从短暂的一瞥中准确地确定对象;然而,如果人们可以盯着它看一段时间,那么对象的识别就会变得更加准确。
本实施例通过采用基于人工智能(AI)的图像识别技术来确定一个或多个ROI,该技术在此称为“基于目标跟踪的精确ROI提取”。通过该技术可以在保留图像数据的关键内容细节的同时通过窄带宽的数据通信链路传输。
在一些实现场合下,用于执行基于AI的图像识别的图像数据传感系统可安装在交通信号附近的柱子上,用于道路的人行横道等。从图像传感器获得的图像数据输出至本地系统和/或云系统以进行进一步的图像处理。当如上述方式设置图像数据传感系统时,图像数据的关键内容可包括有价值的信息,如:人、车辆的身份等。
如图1所示,为本实施例中的用于传送由基于人工智能(AI)的图像传感器捕获的视频帧图像数据的示例性系统100。图中,系统100包括基于人工智能(AI)的图像数据传感系统102、本地系统104和云系统106。
所述的基于AI的图像数据传感系统102用于从现实世界获得原始视频帧图像数据并执行基于AI的图像数据处理。在一些实施场合下,基于AI的图像数据传感系统102用于从图像传感器阵列获得原始视频帧图像数据;对所获得的原始视频帧图像数据进行预处理以提取关键信息。通过该预处理,图像数据传感系统102可将从原始视频帧数据的带宽减小到可通过第一数据链路108传输的较低带宽数据流。在一些实施场合下,在提取关键信息时,基于AI的图像数据传感系统102能够确定原始视频帧数据的哪一部分可能包含关键图像数据并需要保存,同时确定哪一部分可能包含可被压缩以减少整体数据带宽的非关键图像数据。下面将描述基于AI的图像数据处理的更多细节。
在一些实施场合下,基于AI的图像数据传感系统102为芯片形式,在该芯片上设有图像传感器阵列。
在一些实现场合下,所述的基于AI的图像数据传感系统102还包括芯片上能够执行基于AI的图像数据处理的图像信号处理器(ISP)。
所述的基于AI的图像数据传感系统102可安装在柱子上,以捕获其周围的图像。来自基于AI的图像数据传感系统102的输出图像数据可以是原始或ISP处理的格式,如:YUV或Motion-JPEG格式。将来自基于AI的图像数据传感系统102的输出图像数据通过第一数据链路108发送至本地系统104中的本地数据处理单元110。第一数据链路108可以是有线链路或无线链路,且无线链路可以是任何适用的无线数据通信链路,如:WiFi、蓝牙、ZigBee等。
所述的本地系统104为设置于基于AI的图像数据传感系统102附近且优选为用于执行具有不同目的的额外图像数据处理的计算系统实现。例如,当基于AI的图像数据传感系统102安装在柱子上来捕获周围环境的图像时,本地系统104优选为根据图像数据传感系统102的输出图像数据为行人和车辆进行交通道路信号的自动控制。优选地,本地数据处理单元110通过可编程门阵列(FPGA)、图形处理单元(GPU)、张量处理单元(TPU)、网络处理单元(NPU)和/或中央处理单元(CPU)实现。
所述的基于AI的图像数据传感系统102优选通过混合信号硅工艺来制造,例如,90纳米的混合信号硅工艺,该工艺能够将数字MOSFET和模拟MOSFET作为基于AI的图像数据传感系统102的传感器元件。类似的,可使用数字MOSFET来制造本地数据处理单元110。因此,可采用非常先进的硅工艺,例如,14nm的工艺,以实现高性能。因此,优选将ISP布置在本地系统104中,而不是在基于AI的图像数据传感系统102内使用片上ISP。
所述的本地系统104进一步包括可选的本地存储设备112,用于存储由本地数据处理单元110处理的图像数据。由于第一数据链路108的带宽和/或本地数据处理单元110的处理能力通常是有限的。因此,在很多应用场合中能够有效利用的基于AI的图像数据传感系统102的分辨率和帧速率将受到很大限制。本地系统104的输出图像数据通过第二数据链路114来发送至云系统106。
所述的云系统106与本地系统104和基于AI的图像数据传感系统102分开布置并通过用于不同目的的额外图像数据处理的计算系统实现。例如,当本地系统104安装在柱子上来捕获周围环境的图像时,云系统106则通过执行本地系统104的操作和/或对从本地系统104获得的图像数据执行数据分析的服务器计算系统实现。所述的数据分析可包括交通分析、对车辆、人、动物的监控等。所述的云系统106进一步包括云数据处理单元116和可选的云存储设备118。优选地,所述的云数据处理单元116具有比本地数据处理单元110更强大的处理能力,且可选的云存储设备118具有比可选的本地存储设备112更大的存储容量。在特定的实现场合下,第二数据链路114的带宽相比本地数据处理单元110的处理能力会受到更多显著的限制。
如图2所示,为用于从单个图像探测ROI的现有过程。处理单元200通过能够确定感兴趣对象的基本特征的训练机实现。采用大量正样本和负样本作为训练机的输入,而训练机的输出210为可以将正样本与负样本区分开的描述特征的训练参数,该训练机可采用任何机器学习策略,包括支持向量机(SVM)、Adaboost、卷积神经网络(CNN)等。
所述的处理单元200的输出数据210通过数据链路110传递到推测处理单元220。通过预先定义图像处理的像素块的大小,该推测处理单元220通过获得单帧图像并在以每个像素为中心的每个块上应用每个对象探测器及其参数以预测ROI区域并输出至预测单元230。
如图3所示,为本实施例中用于使用帧序列的跟踪来探测ROI的基于AI的图像数据传感系统的示例性数据流300,该基于AI的图像数据传感系统包括推测单元310、跟踪单元320、探测单元330、分析单元340及投票单元350,其均可通过图9所示的特定配置的电路和/或基于软件的计算机系统实现。
所述的推测单元310接收描述特征的训练后参数210。推测单元310并不直接上报每帧内的ROI位置,而是先探测帧序列中第一帧内的潜在对象,推测单元310可采用任何ROI探测器,包括SVM、Adaboost、CNN等。
所述的跟踪单元320跟踪探测到的潜在对象的位置,该跟踪单元320可采用任何跟踪方法,包括如:块相关、最小平均差、最大熵等。
所述的探测单元330每隔N帧探测其中的对象ROI,该探测单元330可采用任何ROI探测器。
所述的分析单元340每隔N帧分析已测得且已跟踪的ROI的位置,并更新ROI的统计数据。
所述的投票单元350剔除错误的ROI位置并报告正确的ROI位置。
如图4所示,为本实施例中用于使用帧序列的跟踪来探测ROI的基于AI的图像数据传感系统的示例性数据流。基于AI的图像数据传感系统包括:输入单元400、探测单元410、探测跟踪单元420以及分析单元430,其均可通过图9所示的特定配置的电路和/或基于软件的计算机系统实现。
所述的输入单元400接收图像数据帧序列,例如以视频模式工作的图像传感器中生成的连续图像帧,该输入单元400从帧索引0开始为每帧分配帧索引。探测单元410处理第一帧以探测得到潜在的ROI位置并输出至探测跟踪单元420用于跟踪后续帧中的位置。除了跟踪,探测跟踪单元420每隔N帧探测其中的ROI,并将探测到的ROI的位置与相应的跟踪得到的位置合并;该探测跟踪单元420进一步针对每个潜在对象生成并更新探测统计数据。在第N帧后,探测跟踪单元420将统计数据和合并的ROI位置输出至分析单元430。通常,探测跟踪单元420重复该过程T次且当达到第M帧(M=T×N)时,分析单元430进行剔除错误探测结果,并基于统计数据上报正确的ROI位置。
如图5所示,为本实施例中用于使用N帧序列的跟踪来探测ROI的基于AI的图像数据传感系统中的示例性数据流。基于AI的图像数据传感系统包括图像输入单元500、探测单元510、跟踪单元520、分析单元530和ROI输入单元540,其均可通过下面参考图9描述的特定配置的电路和/或基于软件的计算机系统实现。
所述的图像输入单元500接收一N帧图像数据帧组成的序列,例如以视频模式工作的图像传感器中生成的连续图像帧,该图像输入单元500从帧索引0开始为每帧分配帧索引,并将帧和帧索引分别输出至探测单元510和跟踪单元520。ROI输入单元540将历史ROI位置输出至跟踪单元520,历史ROI位置可包括如图3的探测单元310从序列中的第一帧提取获得的ROI;历史ROI位置也可包括如图3的分析单元340、如图4的探测跟踪单元420或如图5的分析单元530从之前的N帧序列中提取得到的ROI。
所述的探测单元510每隔N帧探测其中的对象ROI,该探测单元510可采用任何ROI探测器。跟踪单元520跟踪序列中每帧中的ROI的位置,该跟踪单元520可采用任何跟踪方法。在序列的第N帧处,分析单元530将由探测单元510探测得到的ROI位置和由跟踪单元520跟踪得到的ROI位置合并。分析单元530基于该合并后的位置为新对象创建ROI位置、为已有对象调整ROI位置或生成和更新所有对象的统计数据。
如图6所示,为现有的不使用跟踪帧序列技术提取面部ROI的示例过程。在该过程中,系统在第0帧内应用ROI探测方法,并输出结果,结果不仅包括真实面部探测,还包括错误探测,如手臂。在后面的帧中,系统不考虑连续帧之间的相互关系,而是独立地对每帧起作用。因此,系统会产生大量错误探测,包括更多的手臂探测,从而导致浪费的传输带宽。
如图7所示,为本实施例使用跟踪技术提取面部ROI的示例过程。如本发明上文所述,该过程考虑了连续帧之间的相互关系,此处跟踪的ROI以浅色框显示,探测到的ROI以深色框显示。
如图7所示,系统在初始第0帧内应用ROI提取方法,并探测两个ROI。一个是面部ROI,另一个是手臂ROI。但是,系统不会立即提供结果。在后续帧中进一步跟踪这两个探测到的对象(面部和手臂)的位置。然后,系统每隔N帧(而非在每帧内)探测ROI并更新关于每个对象的探测和跟踪的统计数据。在该过程中,N为3且该过程重复T次,本实施例中T为3次。
在第一组三帧(T=1)的序列中,在第1帧和第2帧中,跟踪在第0帧中探测到的ROI。在第3帧中,系统执行ROI探测和跟踪。在第3帧中,面部ROI显示在深色框中,表示已探测到它。更新统计数据以显示已经探测到面部ROI一次,以及已经探测到一次手臂ROI。
第二组三帧(T=2)的序列中,在第4帧和第5帧中,跟踪历史探测到的ROI。在第6帧中,系统执行ROI探测和跟踪。在第6帧中,面部ROI和手臂ROI都显示在深色框中,表示已探测到它们。更新统计数据以显示已经探测到面部ROI两次,以及已经探测到一次手臂ROI。
在第三组三帧(T=3)的序列中,在第7帧和第8帧中,跟踪历史探测到的ROI。在第9帧中,系统执行ROI探测和跟踪。如果一个对象ROI在T次检测中出现足够多次,则其ROI标记为TRUE;否则,ROI将被标记为FALSE。在该示例中,在连续的9帧中,探测到面部ROI 7次,探测率为78%。仅探测到手臂ROI 3次,探测率为33%。当设置真实探测阈值为5倍或56%时,面部ROI标记为TRUE,而手臂ROI标记为FALSE。在第9帧中,仅面部ROI显示在深色框中,表示真实探测。因此,只生成一个ROI,具有更高的精度和更少的带宽。
如图8所示,为本实施例中的示例性图像数据处理方法800的流程图800。该方法可在各种环境下实现,包括如图1所示的基于AI的图像数据传感系统的功能单元。以下呈现的示例性方法的操作旨在是说明性的。根据实施方式,示例性方法可包括以各种顺序或并行执行的其他的、更少的或替代的步骤。此外,该流程图所示,为以有助于理解的方式组织的步骤(以及可能的决策点)。然而,应了解,在情况允许的情况下,可重新组织步骤以进行并行执行、重新排序和修改(更改、删除或扩充)。
流程图800在步骤802处开始,即接收N帧(N>1)的帧图像数据,可从图像传感器获得该帧图像数据。这些帧可以是视频中的连续图像,例如,由视频模式中的图像传感器产生的视频。本实施例中如图5所示的图像输入单元500即从基于AI的图像数据传感系统的图像传感器阵列接收帧。
流程图800继续至步骤804,即探测N帧中的一帧内的感兴趣区域。本实施例中如图5所示的探测单元510探测感兴趣区域,在其他实施情形下可进一步包括接收描述特征的已训练参数、探测序列中第一帧中的至少一个潜在ROI以及在后续序列中每隔N帧探测潜在ROI。
流程图800继续至步骤806,即跟踪N帧中至少一帧内的感兴趣区域的位置。本实施例中,如图5中的跟踪单元520跟踪每帧中感兴趣区域的位置。
流程图800继续至步骤808,即根据N帧内的感兴趣区域的位置生成感兴趣区域的合并位置。本实施例中如图5所示的分析单元530用于生成感兴趣区域的合并位置。在其他实施情形下可进一步包括接收所述的感兴趣区域的历史探测的位置;以及该历史探测到的位置、合并位置以及合并位置的统计数据生成感兴趣区域的最终位置。在其他实施情形下还包括根据至少一个探测到的潜在ROI跟踪感兴趣区域的位置。
流程图800继续至步骤810,即针对T个N帧序列组生成对应的T个感兴趣区域的合并位置,其中T>1。本实施例中如图5所示的分析单元530用于针对T个N帧序列组生成对应的T个感兴趣区域的合并位置。
流程图800继续至步骤812,即提供T次合并位置各自的统计数据。本实施例中,如图5所示的分析单元530生成T次合并位置各自对应的统计数据,该统计数据包括探测到感兴趣区域的帧图像数据的帧数、探测到感兴趣区域的帧图像数据的帧数百分比或其组合以及其他统计指标。
流程图800继续至步骤814,即根据T个合并位置及其统计数据生成感兴趣区域的最终位置。本实施例中如图5所示的分析单元530用于生成感兴趣区域的最终位置。
如图9所示,为本实施例所述的用于实现基于AI的图像数据传感系统的一个或多个功能的示例性计算机系统900的步骤图。在一些实施场合下,计算机系统900对应图2中所示的第一分辨率修改单元204、特征探测单元206、第二分辨率修改单元212、预处理单元214和数据组合单元216中的至少一个,该计算机系统900包括用于通信信息的总线902或其他通信机构和至少一个与总线902耦接用于处理信息的硬件处理器904。例如,硬件处理器904可以包括至少一个通用微处理器。
所述的计算机系统900进一步包括主存储器906,如:随机存取存储器(RAM)、高速缓存和/或其他动态存储设备,这些存储器与总线902耦接用于存储将由处理器904执行的信息和指令。所述的主存储器906还能够还能够在处理器904执行指令期间存储临时变量或其他中间信息。处理器904通过访问存储介质中的这些指令将计算机系统900设置为执行指令中指定操作的专用机器。计算机系统900还包括与总线902耦接的用于存储处理器904的静态信息和指令的只读存储器(ROM)908或其他静态存储设备,该总线902上设有诸如磁盘、光盘或USB拇指驱动器(闪存驱动器)等的存储设备910以存储信息和指令。
所述的计算机系统900可使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑技术,并与计算机系统相结合使得计算机系统900成为专用机器或将该系统编程为专用机器。优选地,该技术通过计算机系统900中的处理器904执行包含在主存储器906中的一个或多个序列中的一个或多个指令而实现。这些指令可从另一个存储介质(如:存储设备910)读入主存储器906。处理器904通过执行包含在主存储器906中的指令序列以实现本发明描述的处理步骤。在替代实施例中,可使用硬连线电路来代替软件指令或与软件指令组合使用。
所述的主存储器906、ROM 908和/或存储装置910可包括非暂时性存储介质。本发明使用的术语“非暂时性介质”和类似术语是指存储使机器以特定方式操作的数据和/或指令的任何介质。这种非暂时性介质可包括非易失性媒体和/或易失性介质。非易失性介质包括例如光盘或磁盘,如:存储设备910。易失性介质包括动态存储器,如:主存储器906。例如,非暂时性介质的常见形式包括:软盘、硬盘、固态硬盘、磁带或任何其他磁数据存储介质、CD-ROM、任何其他光学数据存储介质、任何有孔图案的物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其他内存芯片或盒式磁带,以及其网络版本。
所述的计算机系统900进一步包括与总线902耦接的通信接口918,该通信接口918提供与连接到一个或多个本地网络的一个或多个网络链路耦接的双向数据通信。例如,通信接口918可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或调制解调器,以提供与对应类型的电话线的数据之间的通信连接。再例如,通信接口918可以是局域网(LAN)卡,以提供与兼容LAN(或与WAN通信的WAN组件)的数据之间的通信连接。还可实施无线链路。在任何这种实施方式中,通信接口918发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。
所述的计算机系统900进一步通过网络、网络链路和通信接口918来发送消息和接收数据,包括发送和接收程序代码。在因特网示例中,服务器可通过因特网、ISP、本地网络和通信接口918来发送用于应用程序的请求代码,该代码可在处理器904被接收时执行,和/或可存储在存储设备910或其他非易失性存储器中以供稍后执行。
上述过程、方法和算法可通过由包括计算机硬件的一个或多个计算机系统或计算机处理器执行的代码模块来实现,并完全或部分实现自动化。过程和算法可部分或全部地在专用电路中实现。
上述各种特征和过程可彼此独立地使用,或可以各种方式组合使用。所有可能的组合和子组合都旨在落入本发明公开的范围内。另外,在一些实施方式中可省略某些方法或过程步骤。本发明描述的方法和过程也不限于任何特定序列,且与其相关的步骤或状态可以适当的其他序列来执行。例如,所描述的步骤或状态可以不同于具体公开的顺序来执行,或多个步骤或状态可在单个步骤或状态中组合。示例性步骤或状态可串行、并行或以某种其他方式来执行。可向所公开的示例性实施例中添加步骤或状态或从其中移除步骤或状态。本发明描述的示例系统和组件可与所描述的不同地来进行配置。例如,与所公开的示例性实施例相比,可添加、移除或重新布置元件。
在整个说明书中,多个示例可实现被描述为单个示例的组件、操作或结构。尽管一个或多个方法的各个操作被示出并描述为单独的操作,但是可同时执行一个或多个单独的操作,且不需要以所示的顺序来执行这些操作。示范性配置中作为单独组件展示的结构与功能可能作为组合结构或组件进行实施。类似地,作为单独组件展示的结构与功能可能单组组件实施。所述的结构及其另外的变化、改动、添加及改进属于本发明主题的范围。
尽管已经参考具体示例性实施例描述了主题的概述,但是在不脱离本发明公开的实施例的更宽范围的情况下,可对这些实施例进行各种修改和改变。仅仅是为了方便,本发明中的主题的这些实施例可单独地或共同地通过术语“发明”来提及,如果事实上披露了多于一个披露或概念,则无意自愿将本申请的范围限制于任何单一的公开内容或概念。
具体实施例不应被视为具有限制意义,且各种实施例的范围仅由所附权利要求以及这些权利要求所赋予的等同物的全部范围来限定。
Claims (18)
1.一种图像数据处理方法,其特征在于,包括:
获取若干帧的帧图像数据;
探测其中一帧内的感兴趣区域;
在至少一帧中跟踪该感兴趣区域的位置;以及
根据得到的若干帧的感兴趣区域的位置生成感兴趣区域的合并位置。
2.根据权利要求1所述的图像数据处理方法,其特征是,所述方法还包括:
对若干帧图像数据组生成对应的多个合并位置;
计算每个感兴趣区域合并位置相应的统计数据;以及
根据每个感兴趣区域的合并位置及其统计数据得到感兴趣区域的最终位置。
3.根据权利要求2所述的图像数据处理方法,其特征是,所述的统计数据包括以下至少一个:
探测到感兴趣区域的帧图像数据的帧数;
探测到感兴趣区域的帧图像数据的帧数百分比。
4.根据权利要求1所述的图像数据处理方法,其特征是,所述方法还包括:
获得感兴趣区域的已测位置;以及
根据该已测位置、多个合并位置及其统计数据得到感兴趣区域的最终位置。
5.根据权利要求1所述的图像数据处理方法,其特征是,所述方法还包括:
获得描述特征的已训练参数;
在帧图像数据序列中的第一帧中探测至少一个潜在感兴趣区域;以及
在帧图像数据序列中每隔若干帧进行潜在感兴趣区域的探测。
6.根据权利要求5所述的图像数据处理方法,其特征是,所述方法还包括:
跟踪基于潜在感兴趣区域探测得到的感兴趣区域的位置。
7.一种图像数据传感系统,其特征在于,包括:
用于从图像传感器获取若干帧的帧图像数据的图像输入单元;
用于从其中一帧中探测感兴趣区域的探测单元;
用于在其中至少一帧中跟踪该感兴趣区域的位置的跟踪单元;以及
用于根据若干帧的感兴趣区域的位置生成合并位置的分析单元。
8.根据权利要求7所述的图像数据传感系统,其特征是,所述分析单元还包括:
对若干帧图像数据组生成对应的多个合并位置;
计算每个感兴趣区域合并位置相应的统计数据;以及
根据每个感兴趣位置多个合并位置及其统计数据得到感兴趣区域的最终位置。
9.根据权利要求8所述的图像数据传感系统,其特征是,所述的统计数据包括以下至少一个:
探测到感兴趣区域的帧图像数据的帧数;以及
探测到感兴趣区域的帧图像数据的帧数百分比。
10.根据权利要求7所述的图像数据传感系统,其特征是,还包括:用于获得感兴趣区域的已测位置的ROI输入单元,对应分析单元进一步根据该已测位置、多个合并位置及其统计数据得到感兴趣区域的最终位置。
11.根据权利要求7所述的图像数据传感系统,其特征是,所述的探测单元还包括:用于获得描述特征的已训练参数;在帧图像数据序列中的第一帧中通过已训练参数探测至少一个潜在感兴趣区域;以及在帧图像数据序列中每隔若干帧进行潜在感兴趣区域的探测。
12.根据权利要求9所述的图像数据传感系统,其特征是,所述跟踪单元根据至少一个已测得的潜在感兴趣区域跟踪感兴趣区域的位置。
13.一种基于硬件处理器可执行的指令进行编码的非暂时性机器可读存储介质,包括:供硬件处理器执行图像数据处理的指令,该图像数据处理包括:获取若干帧的帧图像数据;探测其中一帧内的感兴趣区域;在至少一帧中跟踪该感兴趣区域的位置;以及根据得到的若干帧的感兴趣区域的位置生成感兴趣区域的合并位置。
14.根据权利要求13所述的介质,其特征是,所述的图像数据处理还包括:对若干帧图像数据组生成对应的多个合并位置;计算每个感兴趣区域合并位置相应的统计数据;以及根据多个合并位置及其统计数据得到感兴趣区域的最终位置。
15.根据权利要求14所述的介质,其特征是,所述的统计数据以下至少一个:探测到感兴趣区域的帧图像数据的帧数;以及探测到感兴趣区域的帧图像数据的帧数百分比。
16.根据权利要求13所述的介质,其特征是,所述方法还包括:获得感兴趣区域的已测位置;以及根据该已测位置、多个合并位置及其统计数据得到感兴趣区域的最终位置。
17.根据权利要求13所述的介质,其特征是,所述的图像数据处理更进一步包括:获得描述特征的已训练参数;在帧图像数据序列中的第一帧中探测至少一个潜在感兴趣区域;以及在帧图像数据序列中每隔若干帧进行潜在感兴趣区域的探测。
18.根据权利要求17所述的介质,其特征是,所述的图像数据处理还包括:根据至少一个已测得的潜在感兴趣区域跟踪感兴趣区域的位置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762582306P | 2017-11-06 | 2017-11-06 | |
USUS62/582,306 | 2017-11-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109740590A true CN109740590A (zh) | 2019-05-10 |
CN109740590B CN109740590B (zh) | 2023-04-07 |
Family
ID=66327360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811300667.8A Active CN109740590B (zh) | 2017-11-06 | 2018-11-02 | 基于目标跟踪辅助的roi精确提取方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11023761B2 (zh) |
CN (1) | CN109740590B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144406A (zh) * | 2019-12-22 | 2020-05-12 | 复旦大学 | 一种太阳能面板清扫机器人自适应目标roi定位方法 |
CN111369588A (zh) * | 2020-02-21 | 2020-07-03 | 上海联影医疗科技有限公司 | 感兴趣区域处理方法、装置、设备和存储介质 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10691969B2 (en) * | 2017-11-06 | 2020-06-23 | EagleSens Systems Corporation | Asynchronous object ROI detection in video mode |
US10783375B2 (en) * | 2018-05-10 | 2020-09-22 | Apptarix Mobility Solutions Pvt Ltd | System and method for grouping independent machine learnt artificial intelligence to generate collective “machine wisdom” to obtain higher accuracy in identification of tags, objects and actions in a video |
JP7213662B2 (ja) * | 2018-11-09 | 2023-01-27 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
JP7533477B2 (ja) * | 2019-04-24 | 2024-08-14 | ソニーグループ株式会社 | 自動車用制御システム |
US11943184B2 (en) * | 2021-01-21 | 2024-03-26 | Samsung Electronics Co., Ltd. | Device and method for providing notification message related to content |
CN113129328B (zh) * | 2021-04-22 | 2022-05-17 | 中国电子科技集团公司第二十九研究所 | 一种目标热点区域精细化分析方法 |
US11893084B2 (en) | 2021-09-07 | 2024-02-06 | Johnson Controls Tyco IP Holdings LLP | Object detection systems and methods including an object detection model using a tailored training dataset |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101924933A (zh) * | 2009-04-10 | 2010-12-22 | 特克特朗尼克国际销售有限责任公司 | 跟踪视频帧序列中感兴趣区域的方法 |
US20150310370A1 (en) * | 2014-04-24 | 2015-10-29 | Xerox Corporation | Video tracking based method for automatic sequencing of vehicles in drive-thru applications |
CN106469443A (zh) * | 2015-08-13 | 2017-03-01 | 微软技术许可有限责任公司 | 机器视觉特征跟踪系统 |
-
2018
- 2018-10-16 US US16/161,412 patent/US11023761B2/en active Active
- 2018-11-02 CN CN201811300667.8A patent/CN109740590B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101924933A (zh) * | 2009-04-10 | 2010-12-22 | 特克特朗尼克国际销售有限责任公司 | 跟踪视频帧序列中感兴趣区域的方法 |
US20150310370A1 (en) * | 2014-04-24 | 2015-10-29 | Xerox Corporation | Video tracking based method for automatic sequencing of vehicles in drive-thru applications |
CN106469443A (zh) * | 2015-08-13 | 2017-03-01 | 微软技术许可有限责任公司 | 机器视觉特征跟踪系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144406A (zh) * | 2019-12-22 | 2020-05-12 | 复旦大学 | 一种太阳能面板清扫机器人自适应目标roi定位方法 |
CN111369588A (zh) * | 2020-02-21 | 2020-07-03 | 上海联影医疗科技有限公司 | 感兴趣区域处理方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11023761B2 (en) | 2021-06-01 |
US20190138833A1 (en) | 2019-05-09 |
CN109740590B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740590A (zh) | 基于目标跟踪辅助的roi精确提取方法及系统 | |
KR102189262B1 (ko) | 엣지 컴퓨팅을 이용한 교통 정보 수집 장치 및 방법 | |
CN111222500B (zh) | 一种标签提取方法及装置 | |
CN111178183B (zh) | 人脸检测方法及相关装置 | |
US8131010B2 (en) | High density queue estimation and line management | |
CN107123131B (zh) | 一种基于深度学习的运动目标检测方法 | |
Seo et al. | Automated postural ergonomic risk assessment using vision-based posture classification | |
JP6398979B2 (ja) | 映像処理装置、映像処理方法および映像処理プログラム | |
CN105745687B (zh) | 情景感知移动目标检测 | |
EP2959454B1 (en) | Method, system and software module for foreground extraction | |
CN109154976A (zh) | 通过机器学习训练对象分类器的系统和方法 | |
CN109829382B (zh) | 基于行为特征智能分析的异常目标预警追踪系统及方法 | |
CN110175528B (zh) | 人体跟踪方法及装置、计算机设备及可读介质 | |
CN108133197B (zh) | 用于生成信息的方法和装置 | |
CN110533654A (zh) | 零部件的异常检测方法及装置 | |
CN109740589A (zh) | 视频模式中的异步对象roi检测方法及系统 | |
CN111753601B (zh) | 一种图像处理的方法、装置以及存储介质 | |
CN113052295B (zh) | 一种神经网络的训练方法、物体检测方法、装置及设备 | |
KR101472674B1 (ko) | 군중 궤적 추출을 이용한 비정상 행동 검출에 기초한 영상 감시 방법 및 영상 감시 장치 | |
CN110348463A (zh) | 用于识别车辆的方法和装置 | |
CN112307864A (zh) | 用于确定目标对象的方法、装置、人机交互系统 | |
CN114882440A (zh) | 一种人头检测方法和系统 | |
CN115620090A (zh) | 模型训练方法、低照度目标重识别方法和装置、终端设备 | |
CN111079621A (zh) | 检测对象的方法、装置、电子设备和存储介质 | |
CN114870384A (zh) | 一种基于动态识别的太极拳训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |