CN110751646A

CN110751646A - 利用车辆视频中的多个图像帧进行损伤识别的方法及装置

Info

Publication number: CN110751646A
Application number: CN201911031572.5A
Authority: CN
Inventors: 徐富荣; 张伟; 程远
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-04

Abstract

本说明书实施例提供一种利用车辆视频中的多个图像帧进行损伤识别的方法和装置，在损伤识别过程中，对于相邻的图像帧，一方面，通过光流变换进行帧与帧之间的损伤特征融合，另一方面，分别通过预先训练的神经网络处理各图像帧，得到标注边框，并将相邻帧间相对应的标注边框进行框与框之间的损伤特征融合。通过帧与帧之间，以及框与框之间，两个级别的特征融合，可以解决单张图片受限于角度、自然光照等因素导致的不利于损伤检测的影响，每一个图像帧都可以从邻近帧得到特征的补充，从而，可以提高损伤识别的准确度。

Description

利用车辆视频中的多个图像帧进行损伤识别的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及通过计算机利用车辆视频中的多个图像帧对受损车辆进行损伤识别的方法和装置。

背景技术

在传统车险理赔场景中,保险公司需要派出专业的查勘定损人员到事故现场进行现场查勘定损，给出车辆的维修方案和赔偿金额，并拍摄现场照片，定损照片留档以供后台核查人员核损核价。由于需要人工查勘定损，保险公司需要投入大量的人力成本，和专业知识的培训成本。从普通用户的体验来说，理赔流程由于等待人工查勘员现场拍照、定损员在维修地点定损、核损人员在后台核损，理赔周期长达1-3天，用户的等待时间较长，体验较差。

针对需求背景中提到的这一人工成本巨大的行业痛点，开始设想将人工智能和机器学习应用到车辆定损的场景中，希望能够利用人工智能领域计算机视觉图像识别技术，根据普通用户拍摄的现场图像，自动识别图片中反映的车损状况。如此，可以大大减少保险公司的人工成本，提升普通用户的车险理赔体验。

在智能定损方案中，损伤识别的准确度关系着方案的可行性、有效性等，因此，提高损伤识别的准确度是智能定损方案中永不过时的重要问题。

发明内容

本说明书一个或多个实施例描述了一种利用车辆视频中的多个图像帧进行损伤识别的方法和装置，可以提高损伤识别的准确度。

根据第一方面，提供了一种利用车辆视频中的多个图像帧进行损伤识别的方法，所述多个图像帧包括第t图像帧，其中第t-k图像帧至第t-1图像帧、第t图像帧、第t+1图像帧至第t+k图像帧在所述多个图像帧中按照时间先后顺序依次相邻，所述方法包括：分别将所述第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧按照图像帧的光流变化规律，融合到所述第t图像帧的图像特征中；利用预先训练的目标标注模型分别处理所述第t-k图像帧至所述第t+k图像帧中的各个图像帧，所述目标标注模型用于通过所述标注边框标记识别出的预定损伤所在的区域；在所述目标标注模型对所述第t图像帧的标注结果中存在标注边框的情况下，将第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧中相应的标注边框所标记的区域内的图像特征，融合到所述第t图像帧中的标注边框所标记的区域；基于特征融合结果确定车辆的损伤识别结果。

在一个实施例中，所述多个图像帧是通过以下至少一种方式从所述车辆的现场视频中提取的关键帧：按照预定时间间隔提取、通过关键帧提取模型提取。

在一个实施例中，所述分别将所述第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧的图像特征按照图像帧的帧级变化特征，融合到所述第t图像帧的图像特征中包括：将第t-k图像帧至第t+k图像帧输入预先确定的光流模型，以确定图像帧的光流变化规律，所述光流变化规律通过所述第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧分别到所述第t图像帧的各个光流变化矩阵描述；按照各个光流变化矩阵，将第t-k图像帧至第t+k图像帧中各个图像帧的图像特征分别映射为所述第t图像帧上的各个映射特征，并将各个映射特征均与所述第t图像帧的图像特征进行融合，以对所述第t图像帧的图像特征进行修正。

在一个实施例中，所述第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧中包括第一图像帧，所述按照各个光流变化矩阵，将第t-k图像帧至第t+k图像帧中各个图像帧的图像特征分别映射为所述第t图像帧上的各个映射特征包括，将所述第一图像帧的图像特征的特征矩阵与相应光流变化矩阵相乘的结果，作为所述第一图像帧映射到所述第t图像帧的映射特征对应的特征矩阵。

在一个实施例中，所述目标标注模型基于RPN架构实现，包括，预标注模块、打分模块和调整模块，所述预标注模块用于针对单个图像帧，标注多个初级目标框，所述打分模块用于为所述预标注模块标注的各个初级目标框打分，所述调整模块用于将各个初级目标框调整到真实标注区域位置。

在一个实施例中，所述利用预先训练的目标标注模型处理所述第t-k图像帧至所述第t+k图像帧中的各个图像帧包括：对单个图像帧通过所述预标注模块确定多个初级目标框；检测该单个图像帧的各个初级目标框中是否存在通过所述打分模块得到的分数高于预定分数阈值的初级标注框；如果存在，将该单个图像帧中，通过所述打分模块得到的分数高于预定分数阈值的初级标注框确定为，该单个图像帧的目标框；对各个目标框通过所述调整模块进行调整，得到各个标注边框，并将各个标注边框的分数分别作为相应标注边框的置信度。

在一个实施例中，所述调整模块通过以下方式训练：获取多个标注图片，各个标注图片对应通过预标注模块标注的初级目标框作为特征，人工标注的真实标注框作为标签；利用所述多个标注图片训练所述调整模块。

在一个实施例中，在所述调整模块训练过程中，根据标签调整的模型参数包括，初级目标框相对于真实标注框的平移距离和/或缩放比例。

在一个实施例中，第t图像帧中包含第一标注边框，第t-k图像帧至第t-1图像帧及第t+1图像帧至第t+k图像帧包括第二图像帧，所述第二图像帧中包含第二标注边框，第一标注边框和第二标注边框对应区域的损伤类别相同，且所述第二标注边框是所述第二图像帧中与所述第一标注框映射到同一坐标系的交并比值最大的标注边框；所述将第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧中相对应的标注边框所包围区域内的图像特征，融合到所述第t图像帧中的标注边框包围区域包括：在所述交并比值大于预设交并比阈值的情况下，将所述第一标注边框对应区域的图像特征和第二标注边框对应区域的图像特征进行融合，得到相应的框级融合特征；将所得到的框级融合特征分别映射到第t图像帧中第一标注边框所包围的区域，以及第二图像帧中第二标注边框所包围的区域。

在一个实施例中，所述打分模块和/或所述调整模块还用于确定各个初级目标框所包围的损伤区域的损伤类别；所述损伤识别结果至少包括标注边框的位置，还包括损伤类别以及置信度中的至少一项。

根据第二方面，提供一种利用车辆视频中的多个图像帧进行损伤识别的装置，所述多个图像帧包括第t图像帧，其中第t-k图像帧至第t-1图像帧、第t图像帧、第t+1图像帧至第t+k图像帧在所述多个图像帧中按照时间先后顺序依次相邻，所述装置包括：

帧级修正单元，配置为分别将所述第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧的图像特征按照图像帧的光流变化规律，融合到所述第t图像帧的图像特征中；

预标注单元，配置为利用预先训练的目标标注模型分别处理所述第t-k图像帧至所述第t+k图像帧中的各个图像帧，所述目标标注模型用于通过所述标注边框标记识别出的预定损伤所在的区域；

框级修正单元，配置为在所述目标标注模型对所述第t图像帧的标注结果中存在标注边框的情况下，将第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧中相对应的标注边框所标记区域内的图像特征，融合到所述第t图像帧中的标注边框所标记区域；

基于特征融合结果确定车辆的损伤识别结果。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的利用车辆视频中的多个图像帧进行损伤识别的方法和装置，在损伤识别过程中，对于相邻的图像帧，一方面，通过光流变换规律进行帧与帧之间的损伤特征融合，另一方面，分别通过预先训练的目标标注模型处理各图像帧，得到标注框，并将相对应的标注框进行框与框之间的损伤特征融合。通过帧与帧之间，以及框与框之间，两个级别的特征融合，可以解决单张图片受限于角度、自然光照等因素导致的不利于损伤检测的问题，每一个图像帧都可以从邻近帧得到特征的补充，从而，提高损伤识别的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的利用车辆视频中的多个图像帧进行损伤识别的方法流程图；

图3示出一个具体例子的帧间特征融合后的图像变化示意图；

图4示出一个具体例子的预标注模块产生初级目标框的示意图；

图5示出一个具体例子的初级目标框和真实标注框的示意图；

图6示出根据一个实施例的利用车辆视频中的多个图像帧进行损伤识别的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

为了便于说明，结合图1示出的本说明书实施例的一个具体适用场景进行描述。图1示出的实施场景，是一个对受损车辆自动识别损伤的场景。在该实施场景中，用户可以通过终端拍摄受损车辆的视频，传递给计算平台，并从计算平台获得车辆损伤识别结果。其中，终端可以是智能手机、平板电脑等任一具有摄像功能的电子设备。计算平台可以集成在终端，也可以设在为终端的车损识别类应用提供支持的服务器中，本说明书对此不做限定。

在本说明书的技术构思下，图1示出的场景中：首先用户通过终端采集受损车辆的车辆视频，上传至计算平台；计算平台对车辆视频进行光流特征提取，并基于车辆视频的光流变化规律将相邻帧进行帧级特征的融合；进一步地，计算平台利用预先训练的目标标注模型为各个帧确定标注边框。其中，标注结果中，标注边框可能只存在于部分帧。各个标注边框可以包围出识别到的预定损伤所在的连续区域，对包含标注边框的相邻图像帧，进行相应标注边框所标记的区域的框级特征融合；基于帧级特征融合结果和框级特征融合结果，确定各个图像帧的损伤识别结果；然后，计算平台可以通过终端把损伤识别结果展示给用户。

如此，由于相邻帧与帧之间，通过帧级、框级两个层面的特征融合，可以使得每一个图像帧都可以从邻近帧得到特征的补充，从而避免单张图片受限于角度、自然光照等因素导致的识别偏差，从而提高损伤识别的准确度。

下面详细介绍利用车辆视频中的多个图像帧进行损伤识别的方法。

图2示出根据一个实施例的利用车辆视频中的多个图像帧进行损伤识别的方法流程图。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器。例如图1示出的计算平台。其中，车辆视频可以是通过终端采集设备采集的当前车辆的现场视频。图2示出的流程所针对的多个图像帧可以是车辆视频中连续的多个图像帧，也可以是从车辆视频中按照预定方式抽取的部分图像帧。该预定方式例如是：按照预定时间间隔(如50毫秒)从车辆视频中抽取的图像帧；利用预先训练的抽帧模型从车辆视频中抽取关键帧；等等。

为了便于描述，在一个图2示出的流程中，上述多个图像帧中，当前图像帧记为第t图像帧，第t图像帧前后相邻的k个图像帧分别为第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧。其中，k为预设的正整数，如2，用于指示进行特征融合的相邻帧数。本领域技术人员容易理解，在上述的多个图像帧中，第t-k图像帧……第t-1图像帧、第t图像帧、第t+1图像帧……第t+k图像帧在上述的多个图像帧中是按照时间先后顺序依次相邻的图像帧。

值得说明的是，当k＝1时，第t-k图像帧和第t-1图像帧为同一图像帧，第t+1图像帧与第t+k图像帧是同一图像帧。当k≥2时，第t图像帧之前的k个图像帧可以记为：第t-k图像帧、第t-k+1图像帧……第t-1图像帧，第t图像帧之后的k个图像帧可以记为：第t+1图像帧、第t+2图像帧……第t+k图像帧。

特别地，当k≥t时，t-k可能是小于1的值，此时，第t图像帧的相邻图像帧可以向前取到第一个图像帧，向后取到第t+k图像帧。例如第t图像帧是第一个图像帧，k＝2，则第t图像帧的相邻图像帧取第2、第3个图像帧。

如图2所示，该利用车辆视频中的多个图像帧进行损伤识别的方法可以包括以下步骤：步骤201，分别将第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧的图像特征按照图像帧的光流变化规律，融合到第t图像帧的图像特征中；步骤202，利用预先训练的目标标注模型分别处理第t-k图像帧至第t+k图像帧中的各个图像帧，目标标注模型用于通过标注边框标记识别出的预定损伤所在的区域；步骤203，在目标标注模型对第t图像帧的标注结果中存在标注边框的情况下，将第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧中相应的标注边框所标记的区域内的图像特征，融合到第t图像帧中的标注边框所标记的区域；步骤204，基于特征融合结果确定车辆的损伤识别结果。

首先，在步骤201中，分别将第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧的图像特征按照图像帧的光流变化规律，融合到第t图像帧的图像特征中。

可以理解，当物体在运动时，它在图像上对应点的亮度模式也在运动。这种图像亮度模式的表观运动就是光流。光流可以表达图像的变化，由于它包含了目标运动的信息，因此可被用来确定目标的运动情况。由光流的定义可以引申出光流场，用于表征图像中所有像素点构成的一种二维(2D)瞬时速度场。光流模型可以用来描述这种瞬时速度场。如此，利用光流模型至少可以确定视频流中的相关图像帧间的光流变化规律。

在一个可选的实现方式中，光流模型可以是一个线性的CNN模型，在把两幅图片(如第t图像帧和第t+1图像帧)一起输入到该“线性”的CNN中的情况下，光流模型输出的结果是每个像素的偏移量，也就是说，利用每个像素的偏移量描述光流变化规律。这种情况下的光流模型例如是Flownet。

在另一个可选的实现方式中，光流模型可以是像素偏移模型。可以选择一个两幅图像帧中都包含的位置点(例如左前车灯的左上角)作为参考点，该参考点在两幅图像帧中分别对应第t图像帧中第一坐标和前t-1图像帧中的第二坐标，则可以将第一坐标和第二坐标的坐标偏移矢量确定为第一图像帧的变化特征。其中，对于两个图像帧，可以选择同一二维坐标系，例如都是以图像中心点为原点，沿长度方向为横轴的坐标系，第一坐标和第二坐标对应坐标系中的二维坐标。

在又一个可选的实现方式中，光流模型还可以是根据图像像素强度守恒原理确定的约束方程。具体地，可以根据图像像素强度守恒原理建立光流约束方程，如：

认为T时刻和T+dT时刻的图像点强度相等，则有，

f(x，y，T)＝f(x+dx，y+dy，T+dT)

然后，上式右边在(x，y，T)做泰勒级数展开，约去高阶项并同时除以dt，得到光流约束方程，

通过约束方程计算运动参数，结合相邻图像帧之间的水平和垂直位移量，可以得到相应的光流变化矩阵。

在利用光流模型确定相邻图像帧之间的光流变化矩阵时，可以将相邻的两两图像帧(如第t图像帧和第t+1图像帧)输入预先确定的光流模型，由光流模型的输出确定它们之间的光流变化规律，还可以将所涉及的多个图像帧(如第t-k图像帧至第t+k图像帧)全部输入光流模型，确定出均衡的光流变化规律，应用于各相邻图像帧，等等。其中，可以理解的是：在所涉及的多个图像帧是通过抽帧模型等方式确定的情况下，多个图像帧在时间间隔上不一定分布均匀，可以仅将相邻的两两图像帧输入预先确定的光流模型确定其光流变化规律；当所涉及的多个图像帧是连续的图像帧，或者按照预定时间间隔抽取的情况下，多个图像帧在时间上分布均匀，可以仅将相邻的两两图像帧输入预先确定的光流模型，也可以将所涉及的多个图像帧全部输入光流模型，确定出一个均衡的光流变化规律。在可选的实现方式中，可以通过光流变化矩阵反映两个图像帧之间的光流变化规律。

进一步地，可以分别将第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧的图像特征按照图像帧的光流变化规律，融合到第t图像帧的图像特征中。

其中，各个图像帧的图像特征分别可以通过预先训练的特征提取模型进行提取。该特征提取模型例如可以是针对单张图片的损伤识别模型，其可以对单张图片上的损伤进行提取。该损伤识别模型可以通过卷积神经网络实现，在此不再赘述。

各个图像帧上提取的图像特征分别反映了相应图像帧的图像特点，其可以通过阵列形式表示。在光流变化规律通过光流变化矩阵表示的情况下，以第t图像帧为当前图像帧为例，第t-1图像帧的图像特征阵列与第t-1图像帧到第t图像帧的光流变化矩阵的乘积，可以作为将第t图像帧的特征在第二图像帧上的映射特征。将该映射特征和从第t图像帧提取出的图像特征进行融合，融合后的特征可以用来作为第t图像帧的图像特征。其中，特征融合的方法例如是，叠加、替换(用映射特征代替图像特征)、求平均等等。

类似地，从第t-k图像帧、第t-k+1图像帧等等提取的图像特征，分别可以按照光流变化规律，映射为第t图像帧上的映射特征，并与第t图像帧当前的图像特征进行融合，更新第t图像帧的图像特征。

图像特征更新后，反应在相应图像帧上，可以形成修正的图像帧。如图3所示，给出了一张图片经过修正后的效果。在图3的初始图片上，由于阳光照射，右后视镜表面形成反光，右后视镜的部分刮擦损伤在图片上不可见。修正后，光线影响消除，清晰可见右后视镜的全部刮擦损伤。

如此，通过步骤201的处理，通过邻近帧的图像特征的相互补充，可以减少单个图像帧中损伤位置受到拍摄角度、光照等干扰，为损伤的正确识别做好铺垫。

然后，在步骤202，利用预先训练的目标标注模型分别处理第t-k图像帧至第t+k图像帧。其中，目标标注模型用于通过标注边框标记识别出的预定损伤所在的区域。例如，标记边框可以在图像帧中包围识别到的损伤。标记边框可以是预设形状(如矩形、圆形等)，也可以是描绘识别到的损伤区域的轮廓的形状。

在一个实施例中，目标标注模型可以通过以下方式训练：获取多张车辆图片，各张车辆图片对应各个损伤边框(对应至少一处损伤)，损伤边框例如是包围连续损伤区域的最小矩形框(在一些实施例中也可以是圆形框等)；然后，至少基于这多张具有损伤标注结果的车辆图片，训练目标标注模型。

目标标注模型还可以通过RPN(Region Proposal Network，区域生成网络)架构来实现。在RPN架构下，目标标注模型可以包括，预标注模块、打分模块、调整模块。以下具体介绍各个模块的作用。

RPN网络前面可以是用于提取特征的网络，比如VGG，Res等。该网络传递给RPN网络的是一个特征图，其实也就是一个传感器(tensor)，比如特征图是13*13*256的阵列。在本说明书的架构下，单个图像帧的图像特征被修正之后，修正后的图像特征构成了特征图。该特征图可以直接传递给RPN网络。

RPN网络的预标注模块用于针对单个图像帧对应的特征图，标注多个可能存在的初级目标框。可以理解，特征图上的每一个位置，都可以对应图像帧中的一个区域。如图4示出的排布黑点的区域。在这个区域内可能有目标，为了能更能逼近目标，可以采用3种面积和3种形状，确定9个可能的候选窗口(anchors)作为初级目标框。例如，这9个候选窗口可以按照三种面积128、256、512下，分别取长宽的三种形状比例1:1、1:2、2:1确定。如图4所示，示出51×39个候选窗口的中心，以及9种候选窗口示例。假设特征图区域大小为11*11，在原图中就表示11*11个区域，每个区域里面又产生9个小颜色框，这样就会产生11*11*9个不同位置、不同面积、不同形状的初级目标框，基本可以覆盖到相应图像帧中的所有物体。

打分模块用于为各个初级目标框打分，该模块可以通过提取提升决策树(GBDT)等实现。对各个候选窗口，通过预先训练的打分模块为其确定标注置信度。该置信度可以通过初级目标框与真实目标框之间的区域重合程度来表示。其中，真实目标框可以是预先标注的包围真实目标的边框，例如图5中，真实目标边框501，是包围真实目标左前车门的边框。真实目标边框可以是预先通过人工标定的边框。区域重合程度越大，说明初级目标框越接近真实目标框。

打分模块可以通过以下方式训练：获取多张包含预定目标的图片，各张图片对应有通过预标注模块标注的多个初级标注框，以及人工标注的真实目标框作为标签，然后利用这多张图片训练选定的模型。分类模型的输出结果，可以是初级标注框与真实目标框的打分结果，例如0-1之间的小数，或者0-10的数值，输出最大值时表示初级标注框与真实目标框完全一致，输出最小值时表示初级标注框与真实目标框毫不相关。

在一个实现方式中，区域重合程度还可以通过交并比(IOU)的值表示。交并比是两个区域的交集与并集的面积比。

在可选的实施例中，可以过滤掉与真实目标框区域重合程度过小(如交并比小于一个筛除比值阈值)的初级目标框，以减少数据处理量。

另一方面，对于各个初级标注框，还可以通过调整模块对其进行调整。调整过程是对各个初级标注框向真实目标框调整的过程。可以理解，假如图像帧中有一处损伤，那么通过在原图上平移图4示出的包围黑点的框，就总能找到一个框，正好把损伤框在里面，而且尺度、形状最接近。请参考图5所示，假设有一个初始标注框502，对应到真实目标框501，调整模块可以将初始标注框502向真实目标框501调整。

也就是说，有一种关系可以使得输入的初始标注框A经过映射得到一个跟真实标注框G更接近的回归框G＇，即：给定A＝(Ax，Ay，Aw，Ah)，有一个映射f，使得f(Ax，Ay，Aw，Ah)＝(G'x，G'y，G'w，G'h)，其中(G'x，G'y，G'w，G'h)≈(Gx，Gy，Gw，Gh)。在调整过程中，f可以涉及两个方面的参数，一个是平移参数，一个是缩放参数，对应着平移距离(两个，分别对应x、y维度)和缩放比例(两个，分别对应w、h维度)。在初始标注框A和真实标注框G较接近时，映射f可以近似为线性映射。初始标注框A和真实标注框G差距较大时，映射f可以是一个矩阵。在模块的学习阶段，可以输入初始标注框A，将真实标注框G作为标签，学习得到调整参数平移距离和缩放比例。在模块的预测阶段，则直接使用学习到的平移距离和缩放比例等模型参数调整初始标注框。

在具体的实现方式中，可以将与真实标注框最接近的初始标注框进行调整，也可以将每个初始标注框都进行调整，得到相应的标注边框，本说明书对此不作限定。

之后，可以将打分模块的打分分值对应记录到相应初始标注框。可选地，在打分模块得到的置信度过低的初始目标框被筛除的情况下，相应初始标注框也被筛除。通过打分模块得到的分数高于预定分数阈值的初级标注框可以被确定为相应图像帧的目标框，并且各个目标框相应的打分分值可以作为相应目标框的置信度记录。对各个目标框通过调整模块进行调整，得到各个标注边框。标注边框用于包围识别出的预定损伤所在区域。

可以理解的是，并非本实施例流程所涉及的所有的图像帧都存在标注边框。一些图像帧可能不存在标注边框。也就是说，没有检测到损伤区域。

在目标标注模型对第t图像帧的标注结果中存在标注边框的情况下，通过步骤203，将第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧中相应标注边框所标记的区域内的图像特征，融合到第t图像帧中的标注边框所标记的区域。可以理解，一个标注边框所包围的区域可以理解为图像帧的一部分，或者一个较小的图像帧，如此，框级特征的融合和帧级特征的融合相比，原理类似，仅区域变小，在此不做赘述。

在一个可选的实施例中，还可以通过分类模型识别各个图像帧中的各个标注边框对应的损伤类别，例如，前保险杠刮擦、左后视镜粉碎等。假设第t图像帧通过目标标注模型标注有第一标注边框，同时，第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧中包含第二图像帧，且第二图像帧包含第二标注边框，如果第一标注边框和第二标注边框对应区域的损伤类别相同，则将第一标注边框标记的区域和第二标记边框标记的区域映射到同一坐标系，并计算它们的交并比。当第一标注边框标记的区域和第二标记边框标记的区域映射到同一坐标系时，不同图像帧中，实际车辆上的同一个点(例如左后视镜顶点)在该同一坐标系中的坐标是一致的。假设第二标注边框是第二图像帧中与第一标注框映射到同一坐标系的交并比值最大的标注边框，在该交并比值大于预设交并比阈值的情况下，第一标注边框和第二标注边框描述的可能是同一处损伤，将第一标注边框和第二标注边框所包围的图像区域进行特征融合后分别映射到第t图像帧和第二图像帧。也就是增加了类别判断，如果损伤类别不一致，可能是标注的不同部件或损伤，如果交并比不一致，可能描述的不是同一处损伤。因此，本说明书实施例可以只对损伤类别一致且交并比大于预定交并比阈值的标注边框进行框级特征的融合，以减少过度特征融合引入的新型误差。

经过步骤203更细化的框级特征融合，可以进一步对邻近帧中同一处损伤的特征相互补充，减少单个图像帧中损伤位置受到拍摄角度、光照等干扰因素。

然后，在步骤204，基于特征融合结果确定车辆损伤识别结果。可以理解，经过之前的步骤，分别完成了相邻帧之间，帧级特征融合、框级特征融合，此时的图像特征是经过改进的特征，用这样的特征去进行车辆损伤结果识别，可以得到更准确的结果。

根据一个实施方式，车辆损伤识别结果可以是筛选出的图像帧本身。这些图像帧就是步骤202中打分模型筛除置信度较低的图像帧之后的各个图像帧。这些图像帧对应着较高的置信度，也就是说更可能存在真实损伤。车辆损伤识别结果中，可以包括损伤标注框的位置、损伤类别以及置信度中的至少一项。该结果可以被提供给验车人员、定损/核损人员、终端用户等。

回顾以上过程，在利用车辆视频中的多个图像帧进行损伤识别的过程中，对于相邻的图像帧，一方面，通过光流变换进行帧与帧之间的损伤特征融合，另一方面，分别通过预先训练的目标标注模型处理各图像帧，得到标注框，并将相对应的标注框进行框与框之间的损伤特征融合。通过帧与帧之间，以及框与框之间，两个级别的特征融合，可以解决单张图片受限于角度、自然光照等因素导致的不利于损伤检测的影响，每一个图像帧都可以从邻近帧得到特征的补充，从而，提高损伤识别的准确度。

根据另一方面的实施例，还提供一种利用车辆视频中的多个图像帧进行损伤识别的装置。图6示出根据一个实施例的利用车辆视频中的多个图像帧进行损伤识别的装置的示意性框图。将当前图像帧记为第t图像帧，假设第t-k图像帧……第t-1图像帧、第t图像帧、第t+1图像帧……第t+k图像帧在多个图像帧中按照时间先后顺序依次相邻。如图6所示，用于利用车辆视频中的多个图像帧进行损伤识别的装置600包括：帧级修正单元61，配置为分别将第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧的图像特征按照图像帧的光流变化规律，融合到第t图像帧的图像特征中；预标注单元62，配置为利用预先训练的目标标注模型分别处理第t-k图像帧至第t+k图像帧中的各个图像帧，目标标注模型用于通过标注边框标记识别出的预定损伤所在的区域；框级修正单元63，配置为在目标标注模型对第t图像帧的标注结果中存在标注边框的情况下，将第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧中相对应的标注边框所标记的区域内的图像特征，与第t图像帧中的标注边框所标记的区域内的图像特征进行特征融合；识别单元64，配置为基于特征融合结果确定车辆的损伤识别结果。

其中，上述的多个图像帧是通过以下至少一种方式从车辆的现场视频中提取的关键帧：按照预定时间间隔提取、通过关键帧提取模型提取。

在一个实施例中，帧级修正单元61进一步配置为：

将第t-k图像帧至第t+k图像帧输入预先确定的光流模型，以确定图像帧的光流变化规律，光流变化规律通过第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧分别到第t图像帧的各个光流变化矩阵描述；

按照各个光流变化矩阵，将第t-k图像帧至第t+k图像帧中各个图像帧的图像特征分别映射为第t图像帧上的各个映射特征，并将各个映射特征均与第t图像帧的图像特征进行融合，以对第t图像帧的图像特征进行修正。

在进一步的实施例中，第t-k图像帧至第t-1图像帧、第t+1图像帧至第t+k图像帧中包括第一图像帧，帧级修正单元61还配置为，将第一图像帧的图像特征的特征矩阵与相应光流变化矩阵相乘的结果，作为第一图像帧映射到第t图像帧的映射特征对应的特征矩阵。

根据一个可能的设计，目标标注模型基于RPN架构实现，包括，预标注模块、打分模块和调整模块，预标注模块用于针对单个图像帧，标注多个初级目标框，打分模块用于为预标注模块标注的各个初级目标框打分，调整模块用于将各个初级目标框调整到真实标注区域位置。

其中，可选地，预标注模块还可以配置为：

对单个图像帧通过预标注模块确定多个初级目标框；

检测该单个图像帧的各个初级目标框中是否存在通过打分模块得到的分数高于预定分数阈值的标注框；

如果存在，将该单个图像帧中，通过打分模块得到的分数高于预定分数阈值的初级标注框确定为，该单个图像帧的目标框；

对各个目标框通过所述调整模块进行调整，得到各个标注边框，并将各个标注边框的分数分别作为相应标注边框的置信度。

根据一个可能的设计，装置600还可以包括模型训练单元，配置为通过以下方式训练调整模块：

获取多个标注图片，各个标注图片对应通过预标注模块标注的初级目标框作为特征，人工标注的真实标注框作为标签；

利用多个标注图片训练上述调整模块。

在一个可选的实现方式中，调整模块训练过程中，根据标签调整的模型参数包括，初级目标框相对于真实标注框的平移距离和/或缩放比例。

根据一个实施例，第t图像帧中包含第一标注边框，第t-k图像帧至第t-1图像帧及第t+1图像帧至第t+k图像帧包括第二图像帧，第二图像帧包含第二标注边框，第一标注边框和第二标注边框对应区域的损伤类别相同，且第二标注边框是第二图像帧中与第一标注框映射到同一坐标系的交并比值最大的标注边框；

框级修正单元63还可以配置为：

将第一标注边框对应区域的图像特征和第二标注边框对应区域的图像特征进行融合，得到相应的框级融合特征；

将所得到的框级融合特征分别映射到第t图像帧中第一标注边框所包围的区域，以及第二图像帧中第二标注边框所包围的区域。

在一个实施例中，打分模块和/或调整模块还用于确定各个初级目标框所包围的损伤区域的损伤类别；损伤识别结果至少包括标注边框的位置，还包括损伤类别以及置信度中的至少一个。

值得说明的是，图6所示的装置600是与图2示出的方法实施例相对应的装置实施例，图2示出的方法实施例中的相应描述同样适用于装置600，在此不再赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，存储器中存储有可执行代码，处理器执行可执行代码时，实现结合图2的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种利用车辆视频中的多个图像帧进行损伤识别的方法，所述多个图像帧包括第t图像帧，其中第t-k图像帧至第t-1图像帧、第t图像帧、第t+1图像帧至第t+k图像帧在所述多个图像帧中按照时间先后顺序依次相邻，所述方法包括：

分别将所述第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧的图像特征按照图像帧的光流变化规律，融合到所述第t图像帧的图像特征中；

利用预先训练的目标标注模型分别处理所述第t-k图像帧至所述第t+k图像帧中的各个图像帧，所述目标标注模型用于通过所述标注边框标记识别出的预定损伤所在的区域；

在所述目标标注模型对所述第t图像帧的标注结果中存在标注边框的情况下，将第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧中相应的标注边框所标记区域内的图像特征，融合到所述第t图像帧中的标注边框所标记的区域；

基于特征融合结果确定车辆的损伤识别结果。

2.根据权利要求1所述的方法，其中，所述多个图像帧是通过以下至少一种方式从所述车辆的现场视频中提取的关键帧：

按照预定时间间隔提取、通过关键帧提取模型提取。

3.根据权利要求1所述的方法，其中，所述分别将所述第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧的图像特征按照图像帧的帧级变化特征，融合到所述第t图像帧的图像特征中包括：

将第t-k图像帧至第t+k图像帧输入预先确定的光流模型，以确定图像帧的光流变化规律，所述光流变化规律通过所述第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧分别到所述第t图像帧的各个光流变化矩阵描述；

按照各个光流变化矩阵，将第t-k图像帧至第t+k图像帧中各个图像帧的图像特征分别映射为所述第t图像帧上的各个映射特征，并将各个映射特征均与所述第t图像帧的图像特征进行融合，以对所述第t图像帧的图像特征进行修正。

4.根据权利要求3所述的方法，其中，所述第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧中包括第一图像帧，所述按照各个光流变化矩阵，将第t-k图像帧至第t+k图像帧中各个图像帧的图像特征分别映射为所述第t图像帧上的各个映射特征包括，将所述第一图像帧的图像特征的特征矩阵与相应光流变化矩阵相乘的结果，作为所述第一图像帧映射到所述第t图像帧的映射特征对应的特征矩阵。

5.根据权利要求1所述的方法，其中，所述目标标注模型基于RPN架构实现，包括，预标注模块、打分模块和调整模块，所述预标注模块用于针对单个图像帧，标注多个初级目标框，所述打分模块用于为所述预标注模块标注的各个初级目标框打分，所述调整模块用于将各个初级目标框调整到真实标注区域位置。

6.根据权利要求5所述的方法，其中，所述利用预先训练的目标标注模型处理所述第t-k图像帧至所述第t+k图像帧中的各个图像帧包括：

对单个图像帧通过所述预标注模块确定多个初级目标框；

检测该单个图像帧的各个初级目标框中是否存在通过所述打分模块得到的分数高于预定分数阈值的初级标注框；

如果存在，将该单个图像帧中，通过所述打分模块得到的分数高于预定分数阈值的初级标注框确定为，该单个图像帧的目标框；

7.根据权利要求5所述的方法，其中，所述调整模块通过以下方式训练：

利用所述多个标注图片训练所述调整模块。

8.根据权利要求7所述的方法，其中，在所述调整模块训练过程中，根据标签调整的模型参数包括，目标框相对于真实标注框的平移距离和/或缩放比例。

9.根据权利要求5-8任一所述的方法，其中，第t图像帧中包含第一标注边框，第t-k图像帧至第t-1图像帧及第t+1图像帧至第t+k图像帧中包括第二图像帧，所述第二图像帧包含第二标注边框，第一标注边框和第二标注边框对应区域的损伤类别相同，且所述第二标注边框是所述第二图像帧中与所述第一标注框映射到同一坐标系的交并比值最大的标注边框；

所述将第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧中相对应的标注边框所包围区域内的图像特征，融合到所述第t图像帧中的标注边框包围区域包括：

在所述交并比值大于预设交并比阈值的情况下，将所述第一标注边框对应区域的图像特征和第二标注边框对应区域的图像特征进行融合，得到相应的框级融合特征；

10.根据权利要求6所述的方法，其中，所述打分模块和/或所述调整模块还用于确定各个初级目标框所包围的损伤区域的损伤类别；所述损伤识别结果至少包括标注边框，还包括损伤类别以及置信度中的至少一个。

11.一种利用车辆视频中的多个图像帧进行损伤识别的装置，所述多个图像帧包括第t图像帧，其中第t-k图像帧至第t-1图像帧、第t图像帧、第t+1图像帧至第t+k图像帧在所述多个图像帧中按照时间先后顺序依次相邻，所述装置包括：

框级修正单元，配置为在所述目标标注模型对所述第t图像帧的标注结果中存在标注边框的情况下，将第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧中相对应的标注边框所标记区域内的图像特征，融合到所述第t图像帧中的标注边框所标记的区域；

识别单元，配置为基于特征融合结果确定车辆的损伤识别结果。

12.根据权利要求11所述的装置，其中，所述多个图像帧是通过以下至少一种方式从所述车辆的现场视频中提取的关键帧：

按照预定时间间隔提取、通过关键帧提取模型提取。

13.根据权利要求11所述的装置，其中，所述帧级修正单元进一步配置为：

14.根据权利要求13所述的装置，其中，所述第t-k图像帧至第t-1图像帧、第t+1图像帧至所述第t+k图像帧中包括第一图像帧，所述帧级修正单元还配置为，将所述第一图像帧的图像特征的特征矩阵与相应光流变化矩阵相乘的结果，作为所述第一图像帧映射到所述第t图像帧的映射特征对应的特征矩阵。

15.根据权利要求11所述的装置，其中，所述目标标注模型基于RPN架构实现，包括，预标注模块、打分模块和调整模块，所述预标注模块用于针对单个图像帧，标注多个初级目标框，所述打分模块用于为所述预标注模块标注的各个初级目标框打分，所述调整模块用于将各个初级目标框调整到真实标注区域位置。

16.根据权利要求15所述的装置，其中，预标注模块还配置为：

对单个图像帧通过所述预标注模块确定多个初级目标框；

检测该单个图像帧的各个初级目标框中是否存在通过所述打分模块得到的分数高于预定分数阈值的标注框；

17.根据权利要求15所述的装置，其中，所述装置还包括模型训练单元，配置为通过以下方式训练所述调整模块：

利用所述多个标注图片训练所述调整模块。

18.根据权利要求17所述的装置，其中，在所述调整模块训练过程中，根据标签调整的模型参数包括，初级目标框相对于真实标注框的平移距离和/或缩放比例。

19.根据权利要求15-18任一所述的装置，其中，第t图像帧中包含第一标注边框，第t-k图像帧至第t-1图像帧及第t+1图像帧至第t+k图像帧中包括第二图像帧，所述第二图像帧包含第二标注边框，第一标注边框和第二标注边框对应区域的损伤类别相同，且所述第二标注边框是所述第二图像帧中与所述第一标注框映射到同一坐标系的交并比值最大的标注边框；

所述框级修正单元还配置为：

将所得到的框级融合特征分别映射到第t图像帧中第一标注边框所包围的区域，以及所述第二图像帧中第二标注边框所包围的区域。

20.根据权利要求11所述的装置，其中，所述打分模块和/或所述调整模块还用于确定各个初级目标框所包围的损伤区域的损伤类别；所述损伤识别结果至少包括标注边框的位置，还包括损伤类别以及置信度中的至少一个。

21.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

22.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。