CN108924461B

CN108924461B - 视频图像处理方法及装置

Info

Publication number: CN108924461B
Application number: CN201810639626.5A
Authority: CN
Inventors: 冯夏根
Original assignee: Zebra Network Technology Co Ltd
Current assignee: Zebra Network Technology Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2021-08-13
Anticipated expiration: 2038-06-20
Also published as: CN108924461A

Abstract

本发明的实施例提供了一种视频图像处理方法及装置、电子设备和计算机可读存储介质，涉及计算机技术领域。该方法包括：获取视频文件，该视频文件包括第一视频片段，该第一视频片段包括至少一视频帧，每一视频帧包括第一时间戳；将该第一视频片段中具有相同第一时间戳的视频帧聚类至同一组；确定该第一视频片段的同一组内的视频帧的序号；根据该第一视频片段的同一组内的视频帧的序号、该同一组内的视频帧的第一时间戳以及该视频文件的视频帧录制频率获得该同一组内的视频帧的第二时间戳。本发明实施例的技术方案能够提高视频帧的时间戳精度。

Description

视频图像处理方法及装置

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种视频图像处理方法、视频图像处理装置、电子设备以及计算机可读存储介质。

背景技术

随着车辆的日益普及，驾车出行成为了人们的主要出行方式之一。

车载产品指能够在汽车或者同类运动工具上使用的产品，方便汽车在运动的同时使用。常见的车载产品如车载MP3、MP4、GPS(Global Positioning System，全球定位系统)、车载DVD(Digital Video Disc，高密度数字视频光盘)等等。随着物联网的迅速发展，摄像装置成为各种车辆的必备装置，摄像装置能够记录车辆运行时的内部和外部情况，为行车提供视频影像。与此同时，车辆也内置各种类型的传感器装置记录车辆运行情况，如GPS为车辆提供导航服务，速度传感器记录车辆的行驶速度等。然而，现有技术中的摄像装置及传感器装置所获取的数据都是分开存储的，不利于数据的综合利用。

在计算机视觉的各个领域，需要将视频帧和其他信息进行匹配融合，帮助算法开发和调试。在这个过程中，每一帧对应的匹配时间时间戳对信息匹配极其关键，匹配的最大误差可能会导致系统完全不可用。

因此，如何在目前现有的软硬件条件下有效提高视频帧匹配精度成为亟待解决的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种视频图像处理方法、视频图像处理装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本发明实施例的第一方面，提供了一种视频图像处理方法，包括：获取视频文件，该视频文件包括第一视频片段，该第一视频片段包括至少一视频帧，每一视频帧包括第一时间戳；将该第一视频片段中具有相同第一时间戳的视频帧聚类至同一组；确定该第一视频片段的同一组内的视频帧的序号；根据该第一视频片段的同一组内的视频帧的序号、该同一组内的视频帧的第一时间戳以及该视频文件的视频帧录制频率获得该同一组内的视频帧的第二时间戳。

在本发明的一些实施例中，基于前述方案，若该第一视频片段为该视频文件的初始视频片段，且该初始视频片段的第一组内的视频帧总帧数小于该视频文件的视频帧录制频率，则通过以下公式计算获得该第一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

(1+video_start_time_from_recognization)-

(first_frame_counter_within_1sec-(frame_counter_within_1sec+1))/fps

其中，上述公式中Hd_Frame_timestamp表示该第一组内的第frame_counter_within_1sec个视频帧的第二时间戳；video_start_time_from_recognization表示该第一组内的视频帧的第一时间戳；first_frame_counter_within_1sec表示该第一组内的视频帧总帧数；fps表示该视频帧录制频率；其中，

0≤frame_counter_within_1sec≤(first_frame_counter_within_1sec-1)。

在本发明的一些实施例中，基于前述方案，通过以下公式计算获得该第一视频片段的中间组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+

frame_counter_within_1sec/fps

其中，上述公式中Hd_Frame_timestamp表示该中间组内的第frame_counter_within_1sec个视频帧的第二时间戳；video_start_time_from_recognization表示该中间组内的视频帧的第一时间戳；fps表示该视频帧录制频率；0≤frame_counter_within_1sec≤(fps-1)。

在本发明的一些实施例中，基于前述方案，若该第一视频片段的最后一组内的视频帧总帧数小于该视频帧录制频率，则通过以下公式计算获得该第一视频片段的最后一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+

frame_counter_within_1sec/fps

其中，上述公式中Hd_Frame_timestamp表示该最后一组内的第frame_counter_within_1sec个视频帧的第二时间戳；video_start_time_from_recognization表示该最后一组内的视频帧的第一时间戳；fps表示该视频帧录制频率；0≤frame_counter_within_1sec≤(该第一视频片段的最后一组内的视频帧总帧数-1)。

在本发明的一些实施例中，基于前述方案，该视频文件还包括第二视频片段，该第二视频片段与该第一视频片段是相邻的两个视频片段，该第二视频片段包括至少一视频帧，每一视频帧包括第一时间戳。

在本发明的一些实施例中，基于前述方案，还包括：将该第二视频片段中具有相同第一时间戳的视频帧聚类至同一组。

在本发明的一些实施例中，基于前述方案，若该第二视频片段的第一组内的视频帧总帧数小于该视频文件的视频帧录制频率，则通过以下公式计算获得该第二视频片段的第一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+

(end_frame_counter_within_1sec+frame_counter_within_1sec)/fps

其中，上述公式中Hd_Frame_timestamp表示该第二视频片段的第一组内的第frame_counter_within_1sec个视频帧的第二时间戳；video_start_time_from_recognization表示该第二视频片段的第一组内的视频帧的第一时间戳；end_frame_counter_within_1sec表示该第一视频片段的最后一组内的视频帧总帧数；fps表示该视频帧录制频率；其中，

0≤frame_counter_within_1sec≤(second_frame_counter_within_1sec-1)；second_frame_counter_within表示该第二视频片段的第一组内的视频帧总帧数。

在本发明的一些实施例中，基于前述方案，还包括：通过摄像装置采集所述视频文件；以水印方式将该第一时间戳输出至该视频文件的视频帧。

在本发明的一些实施例中，基于前述方案，该视频文件的视频帧录制频率为该摄像装置的标称每秒录制帧数。

在本发明的一些实施例中，基于前述方案，该第一时间戳具有第一精度，该第二时间戳具有第二精度；其中，该第二精度高于该第一精度。

在本发明的一些实施例中，基于前述方案，该第一精度为1秒，该第二精度与该摄像装置的标称每秒录制帧数之倒数秒相等。

在本发明的一些实施例中，基于前述方案，该第一视频片段的中间组内包括的视频帧总帧数等于该摄像装置的标称每秒录制帧数，该第一视频片段的第一组和最后一组内的视频帧总帧数小于等于该摄像装置的标称每秒录制帧数。

在本发明的一些实施例中，基于前述方案，还包括：获取目标对象信息；将具有第二时间戳的视频帧与具有第三时间戳的该目标对象信息进行匹配。

在本发明的一些实施例中，基于前述方案，该第三时间戳具有第三精度，且该第三精度高于该第一时间戳的第一精度。

在本发明的一些实施例中，基于前述方案，若目标对象为车，则该目标对象信息包括车身信息和/或车周环境信息；其中，该车身信息包括车辆行驶速度信息、车辆行驶加速度信息、车辆位置信息、车身姿态信息、方向盘转角信息、变速箱档位信息中的任意一种或者多种；该车周环境信息包括车外天气信息；若该目标对象为船，则该目标对象信息包括船的航速信息和/或船的航行方向信息；若该目标对象为飞机，则该目标对象信息包括飞机的高度信息和/或飞机的姿态信息；若该目标对象为人，则该目标对象包括人的行进速度信息和/或人的生理状态信息。

在本发明的一些实施例中，基于前述方案，该目标对象信息与该视频文件采用统一的时间源；或者该目标对象信息与该视频文件采用不同的时间源，且该不同的时间源之间具有已知的固定的延迟时间。

根据本发明实施例的第二方面，提供了一种视频图像处理装置，包括：视频获取模块，配置为获取视频文件，该视频文件包括第一视频片段，该第一视频片段包括至少一视频帧，每一视频帧包括第一时间戳；聚类模块，配置为将该第一视频片段中具有相同第一时间戳的视频帧聚类至同一组；序号确定模块，配置为确定该第一视频片段的同一组内的视频帧的序号；时间戳获得模块，配置为根据该第一视频片段的同一组内的视频帧的序号、该同一组内的视频帧的第一时间戳以及该视频文件的视频帧录制频率获得该同一组内的视频帧的第二时间戳。

根据本发明实施例的第三方面，提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上述第一方面所述的视频图像处理方法。

根据本发明实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的视频图像处理方法。

在本发明的一些实施例所提供的技术方案中，通过聚类视频片段中具有相同第一时间戳的视频帧，并确定同一组内的视频帧的序号，根据视频片段的同一组内的视频帧的序号、该同一组内的视频帧的第一时间戳以及该视频文件的视频帧录制频率可以获得该同一组内的视频帧的第二时间戳，一方面，可以提高视频帧的时间戳精度，当将视频帧用于与其他信息进行匹配时，可以提高匹配精度；另一方面，本方案可以不需要改变现有的摄像装置的硬件结构，降低了实现复杂度，减少了生产成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了根据本发明的一些实施例的视频图像处理方法的流程示意图；

图2示出了根据本发明的另一些实施例的视频图像处理方法的流程示意图；

图3示出了根据本发明的再一些实施例的视频图像处理方法的流程示意图；

图4示出了根据本发明的一些实施例的视频帧的示意图；

图5示出了根据本发明的一些实施例的视频图像处理装置的示意框图；

图6示出了根据本发明的另一些实施例的视频图像处理装置的示意框图；

图7示出了根据本发明的再一些实施例的视频图像处理装置的示意框图；以及

图8示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在目前计算机视觉算法的开发和研制过程中，需要将视频帧和其他信息进行匹配，一般来说其他信息是以单独的文件储存的，其他信息的每条数据有相关的时间戳，用于和视频帧进行匹配。

需要说明的是，下述实施例中，均以提供的视频图像处理方法应用于摄像装置例如车载摄像装置这种应用场景为例进行说明，此时上述其他信息包括但不限于车速(车辆行驶速度信息)、车所在的位置信息(车辆位置信息)、车身姿态、方向盘转角、变速箱档位等中的任意一种或者多种。摄像装置拍摄车辆行驶过程中生成的视频文件的视频帧和这些其他信息匹配可以获得许多有用的信息。但本发明并不限定于此，本发明实施例提供的视频图像处理方法可以应用于其他任意合适的场合，当应用场景发生变化时，可以采用相适应的视频录制设备，且所获取的视频文件，以及与该视频文件的视频帧进行匹配的其他信息内容可以发生相应的变化。

例如根据视频帧可以识别出当前车辆与障碍物之间的距离，并根据匹配到的车速可以计算出当前车辆与障碍物之间的碰撞时间(Time To Crash，TTC)。

再例如，根据当前车辆的视频帧可以识别出其他车辆相对于该当前车辆所处的车辆位置，并根据该当前车辆的方向盘转角可以计算出该当前车辆与该其他车辆之间是否有车辆碰撞的危险等。

这些其他信息一般都是通过车辆的其他部件(例如，Electronic Control Unit，简称为ECU，电子控制单元，又称“行车电脑”、“车载电脑”等)获得，而这些其他部件一般和摄像装置不会有直接的连接。

当多个信号源有一个统一的时间源，即视频文件的视频帧和上述其他信息采用统一的时间源来记录各自的时间戳；或者虽然该多个信号源具有多个时间源，但该多个时间源有已知恒定的延迟的前提下，即视频文件的视频帧和其他信息可以采用不同的多个时间源来分别记录各自的时间戳，但这些不同的多个时间源之间的延迟时间是已知的，且是固定不变的，可以对该多个信号源进行匹配，匹配的精度由该多个信号源中最低的精度决定。

例如，在现有的车载软硬件情况下，有2个信号源。其中一个信号源是以30fps(Frames Per Second，每秒录制帧数)录制的视频源(视频文件)，每秒录制30帧视频帧，再假设每分钟产生一个新视频片段，但现有的视频帧中只有秒级的时间戳水印，即一个视频片段正常情况下包括60*30＝1800帧。另一个信号源假设是以5Hz获得的车速信号源，即每秒可以获得5帧的车速信号源，该车速信号源可以通过车上设置的速度传感器获得。

目前的匹配会遇到以下问题：

第一个问题，有效匹配精度受损问题。

根据以上假设可知，虽然摄像装置录制生成视频文件是30fps，即一秒可以录制30帧，但由于视频帧的时间戳只能精确到秒级，从而会导致同一秒内的30帧无法用时间戳区分开来，即视频帧从时间戳的角度来看视频源只有1Hz。因此，当将视频源与车速信号源进行匹配时，视频信息的有效匹配精度只有1Hz。也就是说一般情况下1个秒级的时间点对应有30帧视频图像，但这30帧视频图像对于秒级别的时刻点的有效匹配精度只有1Hz。

以上称之为有效匹配精度受损。而且这种有效匹配精度受损问题间接导致作为图像输入的视频帧的选择也非常困难，假设车速高达80km/小时，1秒中汽车已经前进约22米，第一帧和第三十帧看到的景象变化巨大。

第二个问题，匹配偏差问题。

针对上述第一个问题，可以采用时间点加上帧数来应对该问题。

目前的视频文件中往往是用起始的录制时间作为文件名，例如ch1_20170101_000103.mp4是指第一帧录制时间是2017年1月1日零点1分3秒，然后可以根据以下公式来就计算视频帧对应的录制时间：

Frame_timestamp＝

video_start_time_from_file_name+frame_counter/fps (1)

其中，上述公式(1)中Frame_timestamp表示该视频文件中的第frame_counter个视频帧的录制时间；video_start_time_from_file_name表示该视频文件的文件名，即该视频文件的起始录制时间；0≤frame_counter≤(该视频文件的视频帧总帧数-1)，且frame_counter为整数；fps表示该视频文件的视频帧录制频率，这里一般为车载录像装置的标称fps。

还是以上面的假设为例，假设该视频文件的总录制时长为1分钟，则该视频文件的视频帧总帧数正常情况下为1800帧，此时，0≤frame_counter≤1799，fps＝30。

根据上述计算公式(1)，ch1_20170101_000103.mp4的第0帧，对应的时间是2017年1月1日零点1分3秒；而第1帧，对应的时间是2017年1月1日零点1分3.033秒；……其他以此类推。

这样虽然可以避免有效匹配精度不受损，从而使视频信息的有效匹配精度达到原有的30fps，但是实际情况中，由于无法避免视频文件的录制过程不一定整秒开始录制，会导致有一个匹配偏差。

例如上述视频文件的第0帧的实际录制时间不一定是2017年1月1日零点1分3秒，实际录制时间可能是2017年1月1日零点1分3.1秒，这样根据上述的计算公式(1)计算获得的视频帧整体会有一个0.1秒的偏差。

再例如，实际上2017-01-01 00:01:03对应的视频帧可能少于30帧。假如视频录制软件收到开始录制命令并真正开始录制的时间恰好在整秒之前开始，此时对应到这个起始录制时间的一秒的视频帧帧数就会小于30帧。

极端情况下，ch1_20170101_000103.mp4在第1帧变成2017-01-01 00:01:04的时间戳，意味着对于2017-01-01 00:01:03这个秒级时间点，只有1帧的有效数据。此时车速信号源和视频信号源之间就会有接近1秒的匹配误差。例如，在2017-01-01 00:01:03.99999秒开始录制第0帧图像，当录制第1帧图像时，时间已经是2017-01-01 00:01:04秒了，所以，2017-01-01 00:01:03这个秒级时间点就只有1帧图像。

第三个问题，匹配累计误差问题。

有的时候，由于摄像装置本身的软件bug，例如，某品牌DVR录制的1分钟的视频的帧数大部分情况下为1800帧，但系统虽然标称每分钟视频片段为60秒，但实际上也有视频片段是61秒，此时会出现1分钟的视频的帧数为1830帧的情况，此时如果单纯以文件名记录的起始时间来统计就会有累计误差存在，如果这种情况出现较多，则总的累计误差将会越来越大，到最后甚至使得视频帧和其他信息的同步变得毫无疑义。

为了应对上述第一至第三个问题，相关技术中存在一种解决方案，就是把所有的信息(上述的其他信息以及视频帧录制时间信息)都输出到视频帧。例如把车速信息和时间信息全部以水印方式输出到视频帧，即每帧图像上都有对应的其他信息和该帧图像的录制时间的水印。由于这些信息在视频中的每一帧内，故认为这些信息都是同一时刻已同步的信息。

例如，假设看到第一帧上有车速信息30.0km/h和时间戳2017-01-01 08:00:01，而第二帧上有车速信息为33.8km/h和时间戳2017-01-01 08:00:01。

这种方法虽然可以保证视频帧和所有其上的信息的同步性，但是也意味着往往需要对DVR(Digital Video Recorder，硬盘录像机，即数字视频录像机)软件进行特殊修改，而且这种方式中其他信息例如车身信息(包括但不限于车本身的信息，例如车的位置，车的状态，甚至车外的天气例如刮风、下雨等其他信息)需要以某种方式传输到DVR内，不利于系统的解耦。

上述方式中，DVR和这些其他信号源需要通过某种方式进行数据通讯，例如，CAN(Controller Area Network，控制器局域网络)总线、USB总线(Universal Serial Bus，通用串行总线)、GPIO(General Purpose Input Output，通用输入/输出)电平的状态或者其他任意的用于传递信息的方式，然后DVR用类似时间戳相同的方式向视频帧打出这些其他信息的水印。即这种相关技术中，硬件上需要将DVR和其他信号源进行连接，例如，用CAN总线相连；软件上，需要添加对与DVR相连的其他信号源的数据解码的功能，例如，对于通过CAN总线传输的车速信息，需要给视频录制设备添加CAN控制器，且需要在视频录制软件中添加对CAN总线上车速信息的解析和打出车速信息水印的功能。

本发明实施方式提供的视频图像处理方案，可以在现有的软硬件环境下，一方面，完全消除上述第一至第三个问题；另一方面，可以不对现有的DVR软硬件进行任何修改，达到视频帧和其他信息的同步。

基于上述内容，在本发明的示例实施例中，提供了一种视频图像处理方法。图1示出了根据本发明的一些实施例的视频图像处理方法的流程示意图。

如图1所示，本实施方式提供的视频图像处理方法可以包括以下步骤。

在步骤S110中，获取视频文件，该视频文件包括第一视频片段，该第一视频片段包括至少一视频帧，每一视频帧包括第一时间戳。

本发明实施例中，录制的视频文件以预设时间片段的视频片段形式存储，每个视频片段有对应的元文件，用于记录完整视频包含的视频片段信息，先获取第一视频片段，再获取第一视频片段对应的元文件，根据元文件获取视频的各个连续片段组成完整的视频。将视频以片段的形式存储便于在有内存间隙时，合理的利用存储空间。

在步骤S120中，将该第一视频片段中具有相同第一时间戳的视频帧聚类至同一组。

在步骤S130中，确定该第一视频片段的同一组内的视频帧的序号。

在步骤S140中，根据该第一视频片段的同一组内的视频帧的序号、该同一组内的视频帧的第一时间戳以及该视频文件的视频帧录制频率获得该同一组内的视频帧的第二时间戳。

本发明实施方式提供的视频图像处理方法，通过聚类视频片段中具有相同第一时间戳的视频帧，并确定同一组内的视频帧的序号，根据视频片段的同一组内的视频帧的序号、该同一组内的视频帧的第一时间戳以及该视频文件的视频帧录制频率可以获得该同一组内的视频帧的第二时间戳，一方面，可以提高视频帧的时间戳精度，当将视频帧用于与其他信息进行匹配时，可以提高匹配精度；另一方面，本方案可以不需要改变现有的摄像装置的硬件结构，降低了实现复杂度，减少了生产成本。

在示例性实施例中，该视频文件的视频帧录制频率为该摄像装置的标称每秒录制帧数(fps)。

在示例性实施例中，若该第一视频片段为该视频文件的初始视频片段，且该初始视频片段的第一组内的视频帧总帧数小于该视频文件的视频帧录制频率，则通过以下公式计算获得该第一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

(1+video_start_time_from_recognization)-

(first_frame_counter_within_1sec-(frame_counter_within_1sec+1))/fps (2)

0≤frame_counter_within_1sec≤(first_frame_counter_within_1sec-1)。

在示例性实施例中，通过以下公式计算获得该第一视频片段的中间组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+

frame_counter_within_1sec/fps (3)

在示例性实施例中，若该第一视频片段的最后一组内的视频帧总帧数小于该视频帧录制频率，则通过以下公式计算获得该第一视频片段的最后一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+

frame_counter_within_1sec/fps (4)

在示例性实施例中，该视频文件还包括第二视频片段，该第二视频片段与该第一视频片段是相邻的两个视频片段，该第二视频片段包括至少一视频帧，每一视频帧包括第一时间戳。

在示例性实施例中，还包括：

将该第二视频片段中具有相同第一时间戳的视频帧聚类至同一组。

在示例性实施例中，若该第二视频片段的第一组内的视频帧总帧数小于该视频文件的视频帧录制频率，则通过以下公式计算获得该第二视频片段的第一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+

(end_frame_counter_within_1sec+frame_counter_within_1sec)/fps (5)

在示例性实施例中，该第一时间戳具有第一精度，该第二时间戳具有第二精度；其中，该第二精度高于该第一精度。

在示例性实施例中，该第一精度为1秒，该第二精度与该摄像装置的标称每秒录制帧数之倒数秒相等。

在示例性实施例中，该第一视频片段的中间组内包括的视频帧总帧数等于该摄像装置的标称每秒录制帧数，该第一视频片段的第一组和最后一组内的视频帧总帧数小于等于该摄像装置的标称每秒录制帧数。

在示例性实施例中，该视频文件包括多个视频片段。在下面的举例中，假设每个视频片段的录制时长均为1秒，但本公开并不限定于此。

图2示出了根据本发明的另一些实施例的视频图像处理方法的流程示意图。

如图2所示，本实施方式提供的视频图像处理方法与上述图1所示实施方式的不同之处在于，还可以包括以下步骤。

在步骤S210中，通过摄像装置采集所述视频文件。

本发明实施例中，若目的对象为车，则该摄像装置用于采集车辆周围环境的视频数据，视频拍摄的路况与街景。该摄像装置可以是摄像头、摄像机或者录像机等，所述视频文件可同时包括车辆周围环境的画面数据及声音数据。

需要说明的是，本发明实施例中的目标对象可以是车、船、飞机、人或者动物等中的任意一种或者多种，当目标对象发生变化时，可以采用相适应的摄像装置以及通过该相适应的摄像装置拍摄获取相应的视频文件。

在步骤S220中，以水印方式将该第一时间戳输出至该视频文件的视频帧。

图3示出了根据本发明的再一些实施例的视频图像处理方法的流程示意图。

如图3所示，本实施方式提供的视频图像处理方法与上述图1和/或图2所示实施方式的不同之处在于，还可以包括以下步骤。

在步骤S310中，获取目标对象信息。

本发明实施例中，若所述目标对象为车，可以通过至少一个传感器用于采集车辆周围环境的车身信息和/或车周环境信息。利用不同的传感器可以得到不同的车身信息和/或车周环境信息。传感器数据的种类可根据用户对车辆周围环境的采集需求而定，用户可根据实际的采集需求增加或减少传感器数据的种类。

需要说明的是，上述目标对象为车仅用于举例说明，若所述目标对象为船、飞机、人或者动物等其他物体，则可以通过相应的采集设备采集所述目标对象信息，且所述目标对象信息可以发生相应的改变。

在步骤S320中，将具有第二时间戳的视频帧与具有第三时间戳的该车身信息和/或车周环境信息进行匹配。

本发明实施例中，可直接将具有相同时间戳的视频帧与该目标对象信息例如车身信息和/或车周环境信息进行匹配，建立对应关系，但是由于该目标对象信息采集频率与视频帧录制频率之间可能存在差异，如果没有相同时间戳的该目标对象信息，则可选择与视频帧对应的时间戳最接近的时间戳对应的该目标对象信息，如通过向下对齐的方式得到最接近的时间戳。

本发明实施方式提供的视频图像处理方法，通过将具有第二时间戳的视频帧与具有第三时间戳的该目标对象信息进行匹配，使得现有技术中分开储存的数据能够关联，使得视频信息和其他信息能够同步关联，在利用所形成的视频码流时，一方面，不仅可显示目标对象周围环境的图像，还可实时显示目标对象的运行状态，实现了数据的综合利用，扩展了车载视频数据的应用范围；另一方面，通过视频信号源与其他信号源之间的匹配，可以综合获得更多有用的信息，例如防止车辆碰撞，提前预警等。

在示例性实施例中，该第三时间戳具有第三精度，且该第三精度高于该第一时间戳的第一精度。

在示例性实施例中，若目标对象为车，则该目标对象信息包括车身信息和/或车周环境信息。其中，该车身信息可以包括车辆行驶速度信息、车辆行驶加速度信息、车辆位置信息、车身姿态信息、方向盘转角信息、变速箱档位信息等中的任意一种或者多种；该车周环境信息包括车外天气信息。

在示例性实施例中，若该目标对象为船，则该目标对象信息包括船的航速信息和/或船的航行方向信息等。

在示例性实施例中，若该目标对象为飞机，则该目标对象信息包括飞机的高度信息和/或飞机的姿态信息等。

在示例性实施例中，若该目标对象为人，则该目标对象包括人的行进速度信息和/或人的生理状态信息等。其中，所述生理状态信息例如可以包括人的心率、血压等中的任意一种或者多种。

需要说明的是，上述几种目标对象及其目标对象信息仅用于举例说明，在不同的应用场景中，可以确定相应的目标对象及其目标对象信息，本发明对此不作限定。

在示例性实施例中，该目标对象信息与该视频文件采用统一的时间源；或者该目标对象信息与该视频文件采用不同的时间源，且该不同的时间源之间具有已知的固定的延迟时间。

下面通过图4所示的实例对上述图1-3所示的视频图像处理方法进行举例说明。图4示出了根据本发明的一些实施例的视频帧的示意图。

如图4所示，视频帧产生时，在每帧视频帧内把对应的第一时间戳以水印的方式输出到视频帧，例如图4中的2017-01-01 00:11:52为视频帧编码时的第一时间戳。现有市面上的DVR一般都有到秒的时间水印功能。

每次使用该视频帧时，对图中的第一时间戳进行识别，从而能够保证提取到的第一时间戳和该视频帧是完全同步的。例如，可以利用OpenCV识别出图4中的第一时间戳为2017-01-01 00:11:52。对识别出的第一时间戳进行聚类，可以获得这个秒级的时间以及这帧图像在这个秒级时间点内的序号。

需要说明的是，上述对识别出的第一时间戳进行聚类，就是将相同的第一时间戳归为同一组。

例如，上述对第一时间戳进行聚类是指，将视频文件中的第一视频片段(假设1分钟的视频文件为一个视频片段，但本发明并不限定于此)的所有视频帧上的第一时间戳信息提取出来，然后将第一时间戳均为2017-01-0100:11:52的多个视频帧划分为同一组。

本发明实施例中，这帧图像在这个秒级时间内的序号是按照在同一段视频片段中视频帧的先后顺序决定的。如果相应的聚类帧跨越多个视频片段(一般为两个)，则这个序号需要先考虑视频片段本身的先后顺序，再考虑同一视频片段内的先后顺序。

若该第一视频片段不为该视频文件的初始视频片段；或者即使该第一视频片段为该视频文件的初始视频片段，但该初始视频片段的第一组内的视频帧总帧数等于该视频文件的视频帧录制频率(标称fps)，且这个秒级的第一时间戳仅对应一段视频片段时，则通过这个秒级的时间点和秒级时间点内的序号，可以通过以下公式计算出这帧图像最接近的高精度第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+

frame_counter_within_1sec/total_frame_counter_within_1sec(6)

其中，上述公式(6)中Hd_Frame_timestamp表示该第一视频片段的任意一组内的第frame_counter_within_1sec个视频帧的第二时间戳；video_start_time_from_recognization表示该第一视频片段的任意一组内的视频帧的第一时间戳；total_frame_counter_within_1sec表示该第一视频片段的相应一组内的视频帧总帧数。其中，0≤frame_counter_within_1sec≤(total_frame_counter_within_1sec-1)。

本发明实施例中，若视频文件的非首段非整秒开始录制时，对于秒内视频帧总帧数小于标称fps的情况，可以将total_frame_counter_within_1sec直接用标称fps替代，因为往往这种情况发生时，录制帧并非整秒开始的。因为实际情况下，从概率的角度看“秒内帧数小于标称fps的情况”是由于“录制帧并非整秒开始的”的概率大大高于“录制帧整秒开始，但帧率在此次波动过大”。实际上，对于录像帧率变化过大的DVR一般不会用于车载摄像。因此，可以用上述公式(3)代替上述公式(2)。

对于同一秒第一时间戳内的视频帧对应不止一段视频片段的情况，total_frame_counter_within_1sec应是所有含有该同一秒第一时间戳的视频片段内的视频帧的总和，而frame_counter_within_1sec需要累积前面所有视频片段中的frame_counter_within_1sec的总和。

例如，假设通过开始和停止录像获得了连续的3段视频片段，每段视频片段的帧数如下：

若2017-01-01 08:00:01.mp4第一视频片段为视频文件的初始视频片段，且该初始视频片段的第一组即00:01秒内视频帧总帧数只有17帧，小于该视频文件的视频帧录制频率30fps，此时，可以通过上述公式(2)计算获得该第一视频片段的该第一组内的视频帧的第二时间戳。例如，该第一视频片段的该第一组内的第0个视频帧的第二时间戳为(1+1)-(17-(0+1))/30≈1.46667秒，即该第一视频片段的该第一组内的第0个视频帧的第二时间戳为2017-01-01 08:00:01.46667；第1个视频帧的第二时间戳为(1+1)-(17-(1+1))/30＝1.5秒，即该第一视频片段的该第一组内的第0个视频帧的第二时间戳为2017-01-01 08:00:01.5；……以此类推，直至第16帧的第二时间戳为(1+1)-(17-(16+1))/30＝2，即该第一视频片段的该第一组内的第16个视频帧的第二时间戳为2017-01-01 08:00:02。

2017-01-01 08:00:01.mp4第一视频片段的最后一组即01:01秒只有13帧，2017-01-01 08:01:01.mp4第二视频片段的第一组即01:01秒只有17帧，即均小于标称30fps，此时对于2017-01-01 08:01:01秒的总视频帧帧数应该是该第一视频片段的最后一组和该第二视频片段的第一组的视频帧帧数之和，即13+17＝30帧，两者之和等于标称30fps。

在这种同一秒第一时间戳对应不止一段视频片段的情况，针对上述第一视频片段的最后一组内的视频帧的第二时间戳的计算，可以按照上述公式(4)来计算，例如该第一视频片段的该最后一组内的第0帧视频帧的第二时间戳为01:01+0/30＝01:01，即为2017-01-01 08:01:01；第1帧视频帧的第二时间戳为01:01+1/30＝01:01.033，即为2017-01-01 08:01:01.033；以此类推，第12帧视频帧的第二时间戳为01:01+12/30＝01:01.4。

针对该第二视频片段的第一组即01:01秒内的视频帧的第二时间戳，可以根据上述公式(5)来计算，例如该第二视频片段的该第一组内的第0个视频帧的第二时间戳为01:01+(13+0)/30＝01:01.433；以此类推，第16帧视频帧的第二时间戳为01:01+(13+16)/30＝01:01.966。

对于该第一视频片段的00:02秒-01:00秒、该第二视频片段的01:02秒-02:00秒、该第三视频片段的02:02秒-03:00秒的视频帧均可以采用上述公式(3)计算获得其第二时间戳。

对于该第三视频片段的最后一组的视频帧的第二时间戳的计算方式，类似于该第一视频片段的最后一组的视频帧的第二时间戳的计算方式，也可以采用上述公式(4)计算获得。

本发明实施方式提供的视频图像处理方法，通过提高视频帧的时间戳精度，这样，当将视频帧与其他信息进行匹配时，由于匹配的精度由所有信号源中最低的精度决定，从而可以提高匹配精度。例如上述举例中视频信号源的精度只有1Hz，但车速信号源的精度有5Hz，采用本技术方案后，视频信号源精度为30Hz，车速信号源的精度还是5Hz的情况下，最后的匹配精度提高到5Hz。且本方案的实现不需要对DVR进行硬件上与其他信号源的连接和软件上的改进。

图5示出了根据本发明的一些实施例的视频图像处理装置的示意框图。

如图5所示，本实施方式提供的视频图像处理装置500可以包括视频获取模块510、聚类模块520、序号确定模块530以及时间戳获得模块540。

其中，视频获取模块510可以配置为获取视频文件，该视频文件包括第一视频片段，该第一视频片段包括至少一视频帧，每一视频帧包括第一时间戳。

聚类模块520可以配置为将该第一视频片段中具有相同第一时间戳的视频帧聚类至同一组。

序号确定模块530可以配置为确定该第一视频片段的同一组内的视频帧的序号。

时间戳获得模块540可以配置为根据该第一视频片段的同一组内的视频帧的序号、该同一组内的视频帧的第一时间戳以及该视频文件的视频帧录制频率获得该同一组内的视频帧的第二时间戳。

在示例性实施例中，若该第一视频片段为该视频文件的初始视频片段，且该初始视频片段的第一组内的视频帧总帧数小于该视频文件的视频帧录制频率，时间戳获得模块540可以配置为通过以下公式计算获得该第一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

(1+video_start_time_from_recognization)-(

first_frame_counter_within_1sec-(frame_counter_within_1sec+1))/fps

0≤frame_counter_within_1sec≤(first_frame_counter_within_1sec-1)。

在示例性实施例中，时间戳获得模块540可以配置为通过以下公式计算获得该第一视频片段的中间组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+

frame_counter_within_1sec/fps

在示例性实施例中，若该第一视频片段的最后一组内的视频帧总帧数小于该视频帧录制频率，时间戳获得模块540可以配置为通过以下公式计算获得该第一视频片段的最后一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+

frame_counter_within_1sec/fps

在示例性实施例中，聚类模块520还可以配置为将该第二视频片段中具有相同第一时间戳的视频帧聚类至同一组。

在示例性实施例中，若该第二视频片段的第一组内的视频帧总帧数小于该视频文件的视频帧录制频率，时间戳获得模块540可以配置为通过以下公式计算获得该第二视频片段的第一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+

(end_frame_counter_within_1sec+frame_counter_within_1sec)/fps

在示例性实施例中，该视频文件的视频帧录制频率为该摄像装置的标称每秒录制帧数。

在示例性实施例中，该视频文件包括多个视频片段。

由于本发明的示例实施例的视频图像处理装置500的各个功能模块与上述视频图像处理方法的示例实施例的步骤对应，因此在此不再赘述。

图6示出了根据本发明的另一些实施例的视频图像处理装置的示意框图。

如图6所示，本实施方式提供的视频图像处理装置600与上述图5所示实施方式的视频图像处理装置500的区别之处在于，还可以包括视频采集模块610以及水印模块620。

其中，视频采集模块610可以配置为通过摄像装置采集所述视频文件。

水印模块620可以配置为以水印方式将该第一时间戳输出至该视频文件的视频帧。

由于本发明的示例实施例的视频图像处理装置600的各个功能模块与上述视频图像处理方法的示例实施例的步骤对应，因此在此不再赘述。

图7示出了根据本发明的再一些实施例的视频图像处理装置的示意框图。

如图7所示，本实施方式提供的视频图像处理装置700与上述图5所示实施方式的视频图像处理装置500的区别之处在于，还可以包括目标对象信息获取模块710以及匹配模块720。

其中，目标对象信息获取模块710可以配置为获取目标对象信息。

匹配模块720可以配置为将具有第二时间戳的视频帧与具有第三时间戳的该目标对象信息进行匹配。

在示例性实施例中，若目标对象为车，则该目标对象信息包括车身信息和/或车周环境信息；其中，该车身信息包括车辆行驶速度信息、车辆行驶加速度信息、车辆位置信息、车身姿态信息、方向盘转角信息、变速箱档位信息中的任意一种或者多种；该车周环境信息包括车外天气信息；若该目标对象为船，则该目标对象信息包括船的航速信息和/或船的航行方向信息；若该目标对象为飞机，则该目标对象信息包括飞机的高度信息和/或飞机的姿态信息；若该目标对象为人，则该目标对象包括人的行进速度信息和/或人的生理状态信息。

由于本发明的示例实施例的视频图像处理装置700的各个功能模块与上述视频图像处理方法的示例实施例的步骤对应，因此在此不再赘述。

在本发明的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参考图8，其示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。图8示出的电子设备的计算机系统仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的视频图像处理方法。

例如，所述电子设备可以实现如图1中所示的：步骤S110，获取视频文件，该视频文件包括第一视频片段，该第一视频片段包括至少一视频帧，每一视频帧包括第一时间戳；步骤S120，将该第一视频片段中具有相同第一时间戳的视频帧聚类至同一组；步骤S130，确定该第一视频片段的同一组内的视频帧的序号；以及步骤S140，根据该第一视频片段的同一组内的视频帧的序号、该同一组内的视频帧的第一时间戳以及该视频文件的视频帧录制频率获得该同一组内的视频帧的第二时间戳。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备或装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频图像处理方法，其特征在于，包括：

获取视频文件，该视频文件包括第一视频片段，该第一视频片段包括至少一视频帧，每一视频帧包括第一时间戳；

将该第一视频片段中具有相同第一时间戳的视频帧聚类至同一组；

确定该第一视频片段的同一组内的视频帧的序号；

根据该第一视频片段的同一组内的视频帧的序号、该同一组内的视频帧的第一时间戳以及该视频文件的视频帧录制频率获得该同一组内的视频帧的第二时间戳；

获取目标对象信息；

将具有第二时间戳的视频帧与具有第三时间戳的该目标对象信息进行匹配；

其中，若该第一视频片段为该视频文件的初始视频片段，且该初始视频片段的第一组内的视频帧总帧数小于该视频文件的视频帧录制频率，则通过以下公式计算获得该第一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

(1+video_start_time_from_recognization)-(first_frame_counter_within_1sec-(frame_counter_within_1sec+1))/fps

0≤frame_counter_within_1sec≤(first_frame_counter_within_1sec-1)。

2.根据权利要求1所述的视频图像处理方法，其特征在于，通过以下公式计算获得该第一视频片段的中间组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+ frame_counter_within_1sec/fps

3.根据权利要求1所述的视频图像处理方法，其特征在于，若该第一视频片段的最后一组内的视频帧总帧数小于该视频帧录制频率，则通过以下公式计算获得该第一视频片段的最后一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+frame_counter_within_1sec/fps

4.根据权利要求1所述的视频图像处理方法，其特征在于，该视频文件还包括第二视频片段，该第二视频片段与该第一视频片段是相邻的两个视频片段，该第二视频片段包括至少一视频帧，每一视频帧包括第一时间戳。

5.根据权利要求4所述的视频图像处理方法，其特征在于，还包括：

6.根据权利要求5所述的视频图像处理方法，其特征在于，若该第二视频片段的第一组内的视频帧总帧数小于该视频文件的视频帧录制频率，则通过以下公式计算获得该第二视频片段的第一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

video_start_time_from_recognization+(end_frame_counter_within_1sec+frame_counter_within_1sec)/fps

7.根据权利要求1所述的视频图像处理方法，其特征在于，还包括：

通过摄像装置采集所述视频文件；

以水印方式将该第一时间戳输出至该视频文件的视频帧。

8.根据权利要求7所述的视频图像处理方法，其特征在于，该视频文件的视频帧录制频率为该摄像装置的标称每秒录制帧数。

9.根据权利要求8所述的视频图像处理方法，其特征在于，该第一时间戳具有第一精度，该第二时间戳具有第二精度；其中，该第二精度高于该第一精度。

10.根据权利要求9所述的视频图像处理方法，其特征在于，该第一精度为1秒，该第二精度与该摄像装置的标称每秒录制帧数之倒数秒相等。

11.根据权利要求8所述的视频图像处理方法，其特征在于，该第一视频片段的中间组内包括的视频帧总帧数等于该摄像装置的标称每秒录制帧数，该第一视频片段的第一组和最后一组内的视频帧总帧数小于等于该摄像装置的标称每秒录制帧数。

12.根据权利要求1所述的视频图像处理方法，其特征在于，该第三时间戳具有第三精度，且该第三精度高于该第一时间戳的第一精度。

13.根据权利要求1所述的视频图像处理方法，其特征在于，若目标对象为车，则该目标对象对应的目标对象信息包括车身信息和/或车周环境信息；其中，

该车身信息包括车辆行驶速度信息、车辆行驶加速度信息、车辆位置信息、车身姿态信息、方向盘转角信息、变速箱档位信息中的任意一种或者多种；该车周环境信息包括车外天气信息；

若该目标对象为船，则该目标对象对应的目标对象信息包括船的航速信息和/或船的航行方向信息；

若该目标对象为飞机，则该目标对象对应的目标对象信息包括飞机的高度信息和/或飞机的姿态信息；

若该目标对象为人，则该目标对象对应的目标对象信息包括人的行进速度信息和/或人的生理状态信息。

14.根据权利要求1所述的视频图像处理方法，其特征在于，该目标对象信息与该视频文件采用统一的时间源；或者该目标对象信息与该视频文件采用不同的时间源，且该不同的时间源之间具有已知的固定的延迟时间。

15.一种视频图像处理装置，其特征在于，包括：

视频获取模块，配置为获取视频文件，该视频文件包括第一视频片段，该第一视频片段包括至少一视频帧，每一视频帧包括第一时间戳；

聚类模块，配置为将该第一视频片段中具有相同第一时间戳的视频帧聚类至同一组；

序号确定模块，配置为确定该第一视频片段的同一组内的视频帧的序号；

时间戳获得模块，配置为根据该第一视频片段的同一组内的视频帧的序号、该同一组内的视频帧的第一时间戳以及该视频文件的视频帧录制频率获得该同一组内的视频帧的第二时间戳；

匹配模块，配置为将具有第二时间戳的视频帧与具有第三时间戳的目标对象信息进行匹配；

其中，该时间戳获得模块，还被配置为：

若该第一视频片段为该视频文件的初始视频片段，且该初始视频片段的第一组内的视频帧总帧数小于该视频文件的视频帧录制频率，则通过以下公式计算获得该第一组内的视频帧的第二时间戳：

Hd_Frame_timestamp＝

0≤frame_counter_within_1sec≤(first_frame_counter_within_1sec-1)。

16.一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至14中任一项所述的视频图像处理方法。

17.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至14中任一项所述的视频图像处理方法。