CN111325186B

CN111325186B - 视频处理方法、装置、介质及系统

Info

Publication number: CN111325186B
Application number: CN202010206210.1A
Authority: CN
Inventors: 李清云
Original assignee: Shanghai Yitu Technology Co ltd
Current assignee: Shanghai Yitu Technology Co ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2023-05-05
Anticipated expiration: 2040-03-23
Also published as: CN111325186A

Abstract

本申请涉及视频处理技术领域，公开了一种视频处理方法、装置、介质及系统。本申请的视频处理方法包括：获取外部数据源，并基于外部数据源建立用户画像体系，其中，外部数据源包括与多个对象一一对应的多个数据，用户画像体系包括与多个对象一一对应的多个标签信息；输入待识别目标的图像数据，并且基于用户画像体系对待识别目标的图像数据进行识别；若识别出待识别目标，则基于待识别目标的标签信息，预设的时间信息、预设的空间信息、预设的交通路网信息中的至少一个，计算待识别目标出现在预设的多个可能活动路径中对应的多个相关视频中的多个概率值；确定多个概率值中的最大值对应的相关视频为目标视频。

Description

视频处理方法、装置、介质及系统

技术领域

本申请涉及视频处理技术领域，特别涉及一种视频处理方法、装置、介质及系统。

背景技术

随着公众安全需求的与日俱增，布设视频监控的区域不断扩大。大范围的视频监控区域通常有多个摄像头，通过对多个摄像头采集的视频图像进行处理分析，可以实现大范围内的目标检测。

鉴于现在实时监控视频网络的规模急速增长，传统的人工查阅视频寻找兴趣目标的人力开销越来越大，成本飙升，且效率较低。

发明内容

本申请实施例提供了一种视频处理方法、装置、介质及系统。

第一方面，本申请实施例提供了一种视频处理方法，包括：获取外部数据源，并基于所述外部数据源建立用户画像体系，其中，所述外部数据源包括与多个对象一一对应的多个数据，所述用户画像体系包括与所述多个对象一一对应的多个标签信息；输入待识别目标的图像数据，并且基于所述用户画像体系对所述待识别目标的图像数据进行识别；若识别出所述待识别目标，则基于所述待识别目标的标签信息，预设的时间信息、预设的空间信息、预设的交通路网信息中的至少一个，计算所述待识别目标出现在预设的多个可能活动路径中对应的多个相关视频中的多个概率值；确定所述多个概率值中的最大值对应的所述相关视频为目标视频。

在上述第一方面的一种可能的实现中，上述方法还包括：所述获取外部数据源，并基于所述外部数据源建立用户画像体系，包括：

对所述外部数据源的多个对象的多个数据进行结构化处理，获得对应所述多个对象的结构化处理结果；

基于每个对象的结构化处理结果和每个对象的自然身份属性、行为属性以及社交关系属性中的至少一个，建立用户画像体系。

在上述第一方面的一种可能的实现中，上述方法还包括：所述每个对象的自然身份属性包括能够表征所述每个对象的身份的证件信息。

在上述第一方面的一种可能的实现中，上述方法还包括：所述每个对象的行为属性包括该对象的活动时间信息和空间信息。

在上述第一方面的一种可能的实现中，上述方法还包括：所述每个对象的社交关系属性包括与该对象同行的对象的信息。

在上述第一方面的一种可能的实现中，上述方法还包括：所述多个可能活动路径包括地图服务商提供的路径和/或预设的路径。

在上述第一方面的一种可能的实现中，上述方法还包括：所述多个可能活动路径为所述待识别目标以大于预设的概率阈值出现的路径。

第二方面，本申请实施例提供了一种视频处理装置，包括：

用户画像体系建立模块，用于获取外部数据源，并基于所述外部数据源建立用户画像体系，其中，所述外部数据源包括与多个对象一一对应的多个数据，所述用户画像体系包括与所述多个对象一一对应的多个标签信息；

图像识别模块，用于输入待识别目标的图像数据，并且基于所述用户画像体系对所述待识别目标的图像数据进行识别；

概率计算模块，若识别出所述待识别目标，则基于所述待识别目标的标签信息，预设的时间信息、预设的空间信息、预设的交通路网信息中的至少一个，计算所述待识别目标出现在预设的多个可能活动路径中对应的多个相关视频中的多个概率值；

预测结果确定模块，用于确定所述多个概率值中的最大值对应的所述相关视频为目标视频。

第三方面，本申请实施例提供了一种机器可读介质，所述机器可读介质上存储有指令，该指令在机器上执行时使机器执行第一方面以及第一方面可能的各实现中的视频处理方法。

第四方面，本申请实施例提供了一种系统，包括：

存储器，用于存储由系统的一个或多个处理器执行的指令，以及

处理器，是系统的处理器之一，用于执行第一方面以及第一方面可能的各实现中的视频处理方法。

附图说明

图1是根据本申请的一些实施例的一种视频监控的场景图；

图2是根据本申请的一些实施例的一种视频处理方法的流程示意图；

图3是根据本申请的一些实施例的一种视频处理装置的示意框图；

图4是根据本申请的一些实施例的一种系统的框图；

图5是根据本申请的一些实施例的一种片上系统(SoC)的框图。

具体实施方式

本申请的说明性实施例包括但不限于一种视频处理方法、装置、介质及系统。

可以理解，如本文所使用的，术语“模块””可以指代或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用、或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件，或者可以作为这些硬件组件的一部分。

可以理解，在本申请各实施例中，处理器可以是微处理器、数字信号处理器、微控制器等，和/或其任何组合。根据另一个方面，所述处理器可以是单核处理器，多核处理器等，和/或其任何组合。

下面将结合附图对本申请的实施例作进一步地详细描述。

图1是根据本申请的一些实施例的一种视频监控的场景图。如图1所示，该视频监控场景可以包括：摄像头11和计算机设备12。

摄像头11用于拍摄其视野范围内的图像，生成视频流。在本申请实施例中，摄像头11的数量有多个。例如，如图1所示，在某一个现实场景13的不同位置，布设多个摄像头11，每个摄像头11用于对该现实场景13的一部分区域进行监控，得到相应的视频流。

计算机设备12是指具备对数据进行处理和存储功能的设备，如PC(PersonalComputer，个人计算机)、服务器或者其它具有计算能力的电子设备，本申请实施例对此不作限定。计算机设备12可以接收多个摄像头11的视频流，并且可以将该视频流解码形成图像，然后做后续的处理，如在指定的时间、空间、交通路网和目标信息的基础上，搜索目标可能出现在哪段视频中。

可以理解，摄像头11与计算机设备12之间可以通过有线或者无线的方式进行通信。例如，摄像头11与计算机设备12之间的数据传送可以采用设备到设备(Ad-Hoc)的方式，也可以在基站或无线访问点(Access Point，AP)的协调下进行，本申请实施例对此不作限定。

可以理解，在本申请实施例中，目标是指能够从视频图像中进行检测跟踪的人或物体，可选地，目标可以是行人、动物、交通工具(如车辆)等可移动的实物。优选地，目标是用户关注的行人。

下面根据本申请的一些实施例，结合上述视频监控场景中的描述，介绍本申请实施例提供的视频处理方法的工作流程，上述场景中描述的技术细节在此流程中依然适用，为了避免重复，在此不再赘述。如图2所示，具体地，该方法包括：

1)获取外部数据源，并基于外部数据源建立用户画像体系，其中，外部数据源包括对应与多个对象一一对应的多个数据，用户画像体系包括与多个对象一一对应的多个标签信息(202)。

在一些实施例中，可以首先对外部数据源的多个对象一一对应的多个数据进行结构化处理，获得对应多个对象的结构化处理结果。其中，对多个对象的多个数据进行结构化处理包括分析各个对象的各种特征属性信息，例如人体特征、衣着特征、装饰物特征及携带物特征。人体特征包括头发、面部、四肢等特征。衣着特征包括：上衣、裤子、连衣裙、鞋子等的特征。装饰物特征包括：帽子、太阳镜、墨镜、围巾、皮带腰带等的特征。携带物特征包括：单肩挎包、双肩背包、手提包、拉杆箱、雨伞等的特征。

然后再基于每个对象的结构化处理结果和每个对象的自然身份属性、行为属性以及社交关系属性中的至少一个，进行数据建模(例如采用前述的结果化处理结果等样本数据对神经网络模型进行训练)，建立用户画像体系，从而针对每个对象赋予其不同于其他对象的标签信息，以和其他对象进行区分。

其中，每个对象的自然身份属性可以包括能够表征该对象的身份的证件信息(例如身份证信息)；每个对象的行为属性可以包括该对象的活动时间信息和活动空间(例如活动地点)信息；每个对象的社交关系属性可以包括该对象同行者的信息(例如该对象同行的对象为其恋人、家人、同学、同事等等)。

结合参考图1，从图中可见，在现实场景13中的某条道路R设置有多个摄像头11，在不同位置从多个角度对该场景进行监控，道路R上的对象有一个男士M、一个穿裙子的女士W、一条狗D，周围有行驶的车辆C和路边的房屋H。可以通过多个摄像头11采集的视频数据，对该场景中的对象进行分析，建立针对场景13的用户画像体系，赋予该场景中男士的标签信息为M、穿裙子的女士的标签信息为W、狗的标签信息为D，周围行驶的车辆的标签信息为C，路边的房屋的标签信息为H。该场景所在的区域为该男子在其公司大楼附近的某个区域A。基于对该男子的行为属性等的分析，发现该男子在工作日的下午6点左右经常在其公司附近的某个区域A出现。

2)输入待识别目标的图像数据，并且基于用户画像体系对待识别目标的图像数据进行识别(204)。在一些实施例中，用户画像体系可以识别出待识别目标，即：在获取外部数据源的并对该外部数据源进行分析的时候，其中包括该目标的数据。在一些实施例中，用户画像体系识别不出来该待识别目标的数据，即：在获取外部数据源的并对该外部数据源进行分析的时候，其中不包括该待识别目标的数据。

在图1所示的实施例中，若想要预测男士M出现在指定视频中的概率，可以输入该男士M的图像数据(例如输入该男子的照片)，基于已经建立好的用户画像体系对该男士M图像数据进行识别。

3)若识别出待识别目标，则基于待识别目标的标签信息以及预设的时间信息，预设的空间信息、预设的交通路网信息中的至少一个，计算待识别目标出现在预设的多个可能活动路径中对应的多个相关视频中的多个概率值(206)。

其中，预设的时间信息可以为用户基于对其感兴趣的目标的研究，预设的一个或多个该目标可能出现的时间段信息。预设的空间信息可以为用户基于对其感兴趣的目标的研究，预设的一个或多个该目标的活动区域信息。预设的交通路网信息展示了城市内的线路信息，例如，某个城市所有的道路信息，地铁线路信息等等，通路网信息包括预设的多个可能活动路径。

在一些实施例中，可以将上述待识别目标的标签信息以及预设的时间信息，预设的空间信息、预设的交通路网信息，输入预设的计算模型(例如通过训练好的神经网络模型)，通过该计算模型计算出待识别目标出现在预设的多个可能活动路径中对应的多个相关视频中的多个概率值。其中，预设的计算模型可以为基于对采集到的大量的视频信息进行结构化分析，结合交通路网信息和路径信息等建立的概率计算模型，通过该计算模型可以在上述用户画像体系识别出待识别目标后，计算该目标出现在感兴趣的一段或多段视频中的概率值。

预设的多个可能活动路径可以为地图服务商提供的路径(例如，百度地图，高德地图等软件规划的路径信息)，也可以为用户根据实际情况，指定的路径。需要说明的是，多个可能活动路径为待识别目标以大于预设的概率阈值出现的路径，可以理解，若该目标经常出现在其家到某商场之间的某个路径，例如每周六下午1点至2点该目标都会出现在此段路径中，则该目标每周六下午1点至2点在此路径出现的概率为100％；若该目标6个月中只在此路径中出现过一次，则可以认为该目标在此路径中出现的概率几乎为0；若该目标每周5天工作日中有3天的下午1点至2点都会在此路径中出现，则可以该目标在此路径中出现的概率为60％，可以将概率阈值设为50％，若该目测在此路径中出现的概率大于50％，则此路径即为可能活动路径。可以理解，以上实施例中设置的概率仅仅是示例性的，并非限制性的。有益效果

在图1所示的实施例中，若已经建立好的用户画像体系识别出男士M，用户想要查看男士M在某个周三的下午6点左右是否出现图1所示的场景13中的道路R的某个摄像头拍摄的视频中，则可以基于上述预设的计算模型来计算男士M在前述周三下午6点左右出现在道路R的所有摄像头拍摄的视频中的概率值。可以理解，场景13可以包括男士M的多个可能活动路径，可以计算男士M在场景13中的部分或全部可能活动路径上的多个摄像头拍摄的视频中的多个概率值。

4)确定多个概率值中的最大值对应的相关视频为目标视频(208)。可以理解，概率值最大表示出现的可能性越大。相应地，概率值最大的相关视频为目标最可能出现的视频。如此可以预测感兴趣的目标是否出现在某段视频中，可以大大提高查看视频和查找目标的效率，降低人力成本。

在图1所示的实施例中，假设在下午6点左右，男士M出现在路径R上的摄像头11拍摄的视频中的概率值为100％，而下午6点左右，男士M出现在路径Y上的摄像头拍摄的视频中的概率值为30％，则可以确定，在下午6点左右，概率值为100％对应的摄像头拍摄的视频为目标视频，即用户想要查找的感兴趣的视频。

可以理解，上述采用视频监控场景对本申请实施例提供的视频处理方法进行的描述仅仅是示例性的，并非限制性的。

图3是根据本申请的一些实施例的一种视频处理装置300的示意框图。如图3所示，视频处理装置300包括：

用户画像体系建立模块302，用于获取外部数据源，并基于外部数据源建立用户画像体系，其中，外部数据源包括对应多个对象的多个数据，用户画像体系包括分别与多个对象对应的多个标签信息。

图像识别模块304，用于输入待识别目标的图像数据，对图像数据进行识别。

概率计算模块306，若识别出待识别目标，则基于待识别目标的标签信息以及预设的时间信息、预设的空间信息、预设的交通路网信息中的至少一个，计算待识别目标出现在预设的多个可能活动路径中对应的多个相关视频中的多个概率值。

预测结果确定模块308，用于确定多个概率值中的最大值对应的相关视频为目标视频。

可以理解，图3所示的视频处理装置300与本申请与图2所示的视频处理方法相对应，以上关于本申请的视频处理方法的具体描述依然适用于图3所示的视频处理装置300，具体描述请参见上文，在此不再赘述。

图4所示为根据本申请的一些实施例的系统400的框图。图4示意性地示出了根据多个实施例的示例系统400。在一些实施例中，系统400可以包括一个或多个处理器404，与处理器404中的至少一个连接的系统控制逻辑408，与系统控制逻辑408连接的系统内存412，与系统控制逻辑408连接的非易失性存储器(NVM)416，以及与系统控制逻辑408连接的网络接口420。

在一些实施例中，处理器404可以包括一个或多个单核或多核处理器。在一些实施例中，处理器404可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。

在一些实施例中，系统控制逻辑408可以包括任意合适的接口控制器，以向处理器404中的至少一个和/或与系统控制逻辑408通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑408可以包括一个或多个存储器控制器，以提供连接到系统内存412的接口。系统内存412可以用于加载以及存储数据和/或指令。在一些实施例中系统400的内存1412可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。

NVM/存储器416可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器416可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如HDD(Hard Disk Drive，硬盘驱动器)，CD(Compact Disc，光盘)驱动器，DVD(Digital Versatile Disc，数字通用光盘)驱动器中的至少一个。

NVM/存储器416可以包括安装系统400的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口420通过网络访问NVM/存储416。

特别地，系统内存412和NVM/存储器416可以分别包括：指令424的暂时副本和永久副本。指令424可以包括：由处理器404中的至少一个执行时导致系统400实施如图3-4所示的方法的指令。在一些实施例中，指令424、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑408，网络接口420和/或处理器404中。

网络接口420可以包括收发器，用于为系统400提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口420可以集成于系统400的其他组件。例如，网络接口420可以集成于处理器404，系统内存412，NVM/存储器416，和具有指令的固件设备(未示出)中的至少一种，当处理器404中的至少一个执行所述指令时，系统400实现如图2所示的视频处理方法。

网络接口420可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口420可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一个实施例中，处理器404中的至少一个可以与用于系统控制逻辑408的一个或多个控制器的逻辑封装在一起，以形成系统封装(SiP)。在一个实施例中，处理器404中的至少一个可以与用于系统控制逻辑408的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(SoC)。

系统400可以进一步包括：输入/输出(I/O)设备432。I/O设备432可以包括用户界面，使得用户能够与系统400进行交互；外围组件接口的设计使得外围组件也能够与系统400交互。在一些实施例中，系统400还包括传感器，用于确定与系统400相关的环境条件和位置信息的至少一种。

根据本申请的实施例，图5示出了一种SoC(System on Chip，片上系统)500的框图。在图5中，相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC的可选特征。在图5中，SoC 500包括：互连单元550，其被耦合至应用处理器510；系统代理单元570；总线控制器单元580；集成存储器控制器单元540；一组或一个或多个协处理器520，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元530；直接存储器存取(DMA)单元560。在一个实施例中，协处理器520包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等等。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种视频处理方法，其特征在于，包括：

获取外部数据源，并基于所述外部数据源建立用户画像体系，其中，所述外部数据源包括与多个对象一一对应的多个数据，所述用户画像体系包括与所述多个对象一一对应的多个标签信息；

输入待识别目标的图像数据，并且基于所述用户画像体系对所述待识别目标的图像数据进行识别；

若识别出所述待识别目标，则基于所述待识别目标的标签信息，预设的时间信息、预设的空间信息、预设的交通路网信息中的至少一个，计算所述待识别目标出现在预设的多个可能活动路径中对应的多个相关视频中的多个概率值；

确定所述多个概率值中的最大值对应的所述相关视频为目标视频。

2.根据权利要求1所述的视频处理方法，其特征在于，所述获取外部数据源，并基于所述外部数据源建立用户画像体系，包括：

3.根据权利要求2所述的视频处理方法，其特征在于，所述每个对象的自然身份属性包括能够表征所述每个对象的身份的证件信息。

4.根据权利要求2所述的视频处理方法，其特征在于，所述每个对象的行为属性包括该对象的活动时间信息和空间信息。

5.根据权利要求2所述的视频处理方法，其特征在于，所述每个对象的社交关系属性包括与该对象同行的对象的信息。

6.根据权利要求1所述的视频处理方法，其特征在于，所述多个可能活动路径包括地图服务商提供的路径和/或预设的路径。

7.根据权利要求6所述的视频处理方法，其特征在于，所述多个可能活动路径为所述待识别目标以大于预设的概率阈值出现的路径。

8.一种视频处理装置，其特征在于，包括：

9.一种机器可读介质，其特征在于，所述机器可读介质上存储有指令，该指令在机器上执行时使机器执行权利要求1至7中任一项所述的视频处理方法。

10.一种系统，包括：

处理器，是系统的处理器之一，用于执行权利要求1至7中任一项所述的视频处理方法。