CN113312967B

CN113312967B - 一种检测方法、装置和用于检测的装置

Info

Publication number: CN113312967B
Application number: CN202110438669.9A
Authority: CN
Inventors: 吴芳昱
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2024-05-24
Anticipated expiration: 2041-04-22
Also published as: CN113312967A

Abstract

本申请实施例公开了一种检测方法、装置和用于检测的装置。该方法的实施例包括：提取目标视频中画面不同的视频帧；基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型；利用目标模型对目标视频中的相邻视频帧进行检测，以基于检测结果确定目标视频中画面发生变化的目标视频帧。该实施方式提高了对视频中画面发生变化的帧的检测的准确性。

Description

一种检测方法、装置和用于检测的装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及一种检测方法、装置和用于检测的装置。

背景技术

随着视频处理技术的发展，在很多场景下需要对视频中画面发生变化的视频帧进行寻找，以进行视频处理或数据分析等。

现有技术中，通常离线训练用于识别图像差异程度的模型，并利用该模型在线对视频中的视频帧进行检测，以确定视频中画面发生变化的视频帧。然而，由于不同视频通常具有不同的背景、色调等特征，且模型训练过程学习到的内容有限，因而利用同一固定模型进行在线检测，通常无法得到准确的检测结果。

发明内容

本申请实施例提出了一种检测方法、装置和用于检测的装置，以解决现有技术中对视频中画面发生变化的帧的检测的准确性较低的技术问题。

第一方面，本申请实施例提供了一种检测方法，该方法包括：提取目标视频中画面不同的视频帧；基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型；利用所述目标模型对所述目标视频中的相邻视频帧进行检测，以基于检测结果确定所述目标视频中画面发生变化的目标视频帧。

第二方面，本申请实施例提供了一种检测装置，该装置包括：提取单元，被配置成提取目标视频中画面不同的视频帧；训练单元，被配置成基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型；检测单元，被配置成利用所述目标模型对所述目标视频中的相邻视频帧进行检测，以基于检测结果确定所述目标视频中画面发生变化的目标视频帧。

第三方面，本申请实施例提供了一种用于检测的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令：提取目标视频中画面不同的视频帧；基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型；利用所述目标模型对所述目标视频中的相邻视频帧进行检测，以基于检测结果确定所述目标视频中画面发生变化的目标视频帧。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所描述的方法。

本申请实施例提供的检测方法、装置和用于检测的装置，通过提取目标视频中画面不同的视频帧，而后基于所提取的视频帧对用于检测图像相似度的预训练模型进行再训练，得到目标模型，最后利用目标模型对目标视频中的相邻视频帧进行检测，从而基于检测结果确定目标视频中画面发生变化的目标视频帧。由此，能够在预训练模型的基础上实时在线调整模型参数，使模型学习到待进行检测的视频的特征，在此基础上进行视频的检测，可以有效避免视频中背景环境等干扰因素对检测结果的影响，提高了检测结果的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的检测方法的一个实施例的流程图；

图2是根据本申请的检测方法的又一个实施例的流程图；

图3是根据本申请的检测装置的一个实施例的结构示意图；

图4是根据本申请的一种用于检测的装置的结构示意图；

图5是根据本申请的一些实施例中服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了根据本申请的检测方法的一个实施例的流程100。上述检测方法可运行于各种电子设备，上述电子设备包括但不限于：服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts GroupAudio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

本实施例中的检测方法可以在线执行，包括以下步骤：

步骤101，提取目标视频中画面不同的视频帧。

在本实施例中，检测方法的执行主体(如上述电子设备)可首先获取目标视频。此处，目标视频可由其他电子设备录制并传输至上述执行主体，也可以由上述执行主体直接录制，此处不作限定。目标视频的格式可以是任一常用的视频格式，例如avi、mp4、mkv、flv、rm、rmvb等视频格式。

目标视频中可包含多个视频帧。视频帧是组成视频的最小视觉单位。每一视频帧是一幅静态的图像。将时间上连续的视频帧序列合成到一起便形成动态视频。在获取到目标视频后，上述执行主体可以从目标视频中提取画面不同的视频帧。

此处，画面不同的视频帧可按照预设规则进行提取。例如，预设规则可以指示提取目标视频的首帧和尾帧，或者提取目标视频的第5帧和倒数第5帧等等，这里不作具体限定。

需要说明的是，预设规则可基于待检测的视频的特点或类型进行设定。例如，已知某类视频的开头和结尾画面不同，则可以按照上述示例中的规则对此类视频进行视频帧提取。再例如，已知某类视频的开头片段和结尾画面相同，但与中间片段画面不同，则将预设规则设定为提取开头片段和中间片段中的视频帧，或者设定为提取中间片段和结尾片段中的视频帧。此处不再一一赘述。

在一些可选的实现方式中，目标视频可以是操作响应测试视频。此时，目标视频可通过如下步骤获取：

第一步，启动对待测界面的视频录制操作。

此处，待测界面可以是待测设备(如手机、平板电脑等)的显示界面。例如，若需对待测应用(如输入法应用、浏览器应用等)的操作响应时长进行测试，则可将待测应用安装于测试设备中，并在该测试设备中运行该待测应用，从而显示该待测应用的界面，所显示的界面即为待测界面(如输入法界面、浏览器界面等)。对待测界面的视频录制操作可以是对待测设备的录屏操作。

第二步，在视频录制过程中，对待测界面执行目标操作，以显示目标操作的响应结果。

此处，目标操作可以包括但不限于以下至少一项：按键点击操作、滑动操作、长按操作以及其他预设的手势操作等。

作为示例，待测应用为输入法应用，若需对输入法应用的打字的流畅性进行测试，即对点击按键后呈现候选项的时长进行测试，则可以在启动录制后，对输入法界面中的键盘中的按键执行点击操作，以在输入法界面中显示候选项，此处所显示的候选项即为响应结果。

第三步，停止视频录制操作，得到目标视频。

由于对待测界面执行目标操作后，可显示目标操作的响应结果(即待测界面发生的变化)，因而在此基础上，可分别从执行目标操作前所录制的视频片段以及执行目标操作后所录制的视频片段中选取视频帧，从而得到画面不同的视频帧。例如，若目标视频为对按键响应测试时长的测试视频时，由于按键前后画面不同，因而可从按键前所录制的视频片段和按键后所录制的视频片段中分别进行视频帧提取，得到画面不同的视频帧。

需要说明的是，在从执行目标操作后所录制的视频片段中选取视频帧时，可选取执行目标操作预设时长后的视频帧，以避免选取到尚未显示响应结果的视频帧，即避免选取到相同视频帧。

步骤102，基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型。

在本实施例中，上述执行主体中可以部署有预训练模型，该预训练模型可用于检测两图像的相似度。上述预训练模型可以采用已有的样本集离线训练得到。例如，样本集中可包含大量的样本。每个样本可以为一个三元组。每个三元组中可包含两个样本图像和一个标注信息。样本图像可以是预先获取到的各种图像，如开源的图像库的中的图像等。标注信息可用于指示这两个图像是否相同。例如，两图像相同，标注信息可为“1”，两图像不同，标注信息可为“0”。

在训练过程中，可以逐一地将三元组中的两个样本图像输入至模型，得到模型输出的检测结果。该检测结果可以表征所输入的两样本图像的相似度。而后，可以基于检测结果与所输入的两样本图像对应的标注信息，确定损失值。上述损失值为损失函数(lossfunction)的值，损失函数是一个非负实值函数，可以用于表征检测结果与真实结果的差异。一般情况下，损失值越小，模型的鲁棒性就越好。损失函数可以根据实际需求来设置。之后，可以利用该损失值，更新模型的参数。由此，每进行一次模型输入，可以基于模型输出的损失值，对模型参数进行一次更新，直至训练完成。训练完成后的模型即可称为预训练模型。由于预训练模型通过数量有限的样本离线训练得到，因而学习到的内容有限，若直接利用该模型在线进行视频检测，不易得到准确的检测结果。

在本实施例中，上述执行主体可以基于步骤101中所所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练(Finetune)，得到目标模型。作为示例，可以将所提取的视频帧输入至上述预训练模型，得到所输入的视频帧的相似度检测结果(可称为第一相似度检测结果)。而后，基于第一相似检测结果确定预训练模型的损失值，基于损失调整预训练模型的参数，得到目标模型。再训练的过程与训练得到预训练模型的过程基本相同，此处不再赘述。

在一些可选的实现方式中，预训练模型可采用孪生神经网络(Siamese neuralnetwork)训练得到。孪生神经网络又名双生神经网络，是基于两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度。上述孪生神经网络中可包括两个卷积神经网络(Convolutional NeuralNetwork，CNN)，可分别称为第一卷积神经网络和第二卷积神经网络。第一卷积神经网络和第二卷积神经网络可共享权重。卷积神经网络是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于图像处理有出色表现，因而，可利用卷积神经网络进行图像特征的提取和处理。

步骤103，利用目标模型对目标视频中的相邻视频帧进行检测，以基于检测结果确定目标视频中画面发生变化的目标视频帧。

在本实施例中，上述执行主体可以依次提取目标视频中的相邻视频帧，并利用目标模型对所提取的相邻视频帧进行检测，以确定相邻视频帧中的画面是否相同。在依次对目标视频中的相邻视频帧执行此操作后，即可确定出目标视频中画面发生变化的目标视频帧。

在一些可选的实现方式中，上述执行主体可以依次从目标视频中提取相邻视频帧。而后，利用目标模型对所提取的相邻视频帧进行检测，得到该相邻视频帧的相似度检测结果(可称为第二相似度检测结果)。响应于相似度检测结果小于或等于预设阈值，可认为该相邻视频帧具有相同画面，即该相邻视频帧的后一帧的画面没有发生变化。响应于第二相似度检测结果大于预设阈值，可认为该相邻视频帧的后一帧的画面发生了变化，此时可将相邻视频帧中的后一帧确定为目标视频帧。

在一些可选的实现方式中，上述执行主体可以首先截取目标视频中的各视频帧的待测区域。例如，若需对输入法应用的打字的流畅性进行测试，即对点击按键后呈现候选项的时长进行测试，则待测区域可以是输入法界面区域或者输入法界面中的候选区域。而后，可利用目标模型对目标视频中的相邻视频帧中的待测区域进行检测，得到相邻视频帧中的待测区域的相似度检测结果(可称为第三相似度检测结果)。响应于第三相似度检测结果大于预设阈值，可将相邻视频帧中的后一帧确定为目标视频帧。由于待测区域小于视频帧的整体区域，因而对待测区域进行检测可提高检测速度。同时，对待测区域进行检测可消除其他非关注区域的影响，有助于提高检测的准确性。

在一些可选的实现方式中，目标视频可以是操作响应测试视频(如用于测试执行目标操作后的界面响应时长)。此时，在基于检测结果确定目标视频中画面发生变化的目标视频帧之后，上述执行主体还可以获取上述目标视频帧在上述目标视频中的第一次序以及上述目标操作的执行时刻对应的视频帧在上述目标视频中的第二次序。而后，基于上述第一次序、上述第二次序以及预设的视频录制参数，确定目标操作的响应时长。此处，视频录制参数可包括每秒传输帧数(Frames Per Second，PFS)。基于每秒传输帧数可知相邻两帧的时间间隔。将第一次序与第二次序之差乘以相邻两帧的时间间隔，即可得到目标操作的响应时长。该响应时长即为从执行目标操作起至呈现响应结果之间的时间间隔。

本申请的上述实施例提供的方法，通过提取目标视频中画面不同的视频帧，而后基于所提取的视频帧对用于检测图像相似度的预训练模型进行再训练，得到目标模型，最后利用目标模型对目标视频中的相邻视频帧进行检测，从而基于检测结果确定目标视频中画面发生变化的目标视频帧。由此，能够在预训练模型的基础上实时在线调整模型参数，使模型学习到待进行检测的视频的特征，在此基础上进行视频的检测，可以有效避免视频中背景环境等干扰因素对检测结果的影响，提高了检测结果的准确性。

进一步参考图2，其示出了检测方法的又一个实施例的流程200。该检测方法的流程200，包括以下步骤：

步骤201，启动对待测界面的视频录制操作。

在本实施例中，检测方法的执行主体可以启动对待测界面的视频录制操作。此处，待测界面可以是待测设备(如手机、平板电脑等)的显示界面。

作为示例，若需对待测应用(如输入法应用、浏览器应用等)的操作响应时长进行测试，则可将待测应用安装于测试设备中，并在该测试设备中运行该待测应用，从而显示该待测应用的界面，所显示的界面即为待测界面(如输入法界面、浏览器界面等)。对待测界面的视频录制操作可以是对待测设备的录屏操作。

步骤202，在视频录制过程中，对待测界面执行目标操作，以显示目标操作的响应结果。

在本实施例中，在视频录制过程中，上述执行主体可以对待测界面执行目标操作，以显示目标操作的响应结果。其中，目标操作可以包括但不限于以下至少一项：按键点击操作、滑动操作、长按操作以及其他预设的手势操作等。

步骤203，停止视频录制操作，得到目标视频。

步骤204，提取目标视频中画面不同的视频帧。

本实施例中的步骤204可参见图1对应实施例的步骤101，此处不再赘述。

步骤205，基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型。

本实施例中的步骤205可参见图1对应实施例的步骤102，此处不再赘述。

步骤206，利用目标模型对目标视频中的相邻视频帧进行检测，以基于检测结果确定目标视频中画面发生变化的目标视频帧。

本实施例中的步骤206可参见图1对应实施例的步骤103，此处不再赘述。

步骤207，获取目标视频帧在目标视频中的第一次序以及目标操作的执行时刻对应的视频帧在目标视频中的第二次序。

步骤208，基于第一次序、第二次序以及预设的视频录制参数，确定目标操作的响应时长。

在本实施例中，上述执行主体可以基于上述第一次序、上述第二次序以及预设的视频录制参数，确定目标操作的响应时长。此处，视频录制参数可包括每秒传输帧数(Frames Per Second，PFS)。基于每秒传输帧数可知相邻两帧的时间间隔。将第一次序与第二次序之差乘以相邻两帧的时间间隔，即可得到目标操作的响应时长。该响应时长即为从执行目标操作起至呈现响应结果之间的时间间隔。

从图2中可以看出，与图1对应的实施例相比，本实施例中的检测方法的流程200涉及了在线检测目标视频中画面发生变化的目标视频帧，并基于检测结果确定执行目标操作后的界面响应时长的步骤。由于目标视频帧的检测结果更为准确，因而提高了针对执行目标操作后的界面响应时长检测结果的准确性。

进一步参考图3，作为对上述各图所示方法的实现，本申请提供了一种检测装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例的检测装置300包括：提取单元301，被配置成提取目标视频中画面不同的视频帧；训练单元302，被配置成基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型；检测单元303，被配置成利用上述目标模型对上述目标视频中的相邻视频帧进行检测，以基于检测结果确定上述目标视频中画面发生变化的目标视频帧。

在本实施例的一些可选的实现方式中，上述目标视频通过如下步骤获取：启动对待测界面的视频录制操作；在视频录制过程中，对上述待测界面执行目标操作，以显示上述目标操作的响应结果；停止上述视频录制操作，得到目标视频。

在本实施例的一些可选的实现方式中，上述提取单元301，进一步被配置成：分别从执行目标操作前所录制的视频片段以及执行目标操作后所录制的视频片段中选取视频帧，得到画面不同的视频帧。

在本实施例的一些可选的实现方式中，上述装置还包括确定单元，被配置成：获取上述目标视频帧在上述目标视频中的第一次序以及上述目标操作的执行时刻对应的视频帧在上述目标视频中的第二次序；基于上述第一次序、上述第二次序以及预设的视频录制参数，确定上述目标操作的响应时长。

在本实施例的一些可选的实现方式中，上述训练单元302，进一步被配置成：将所提取的视频帧输入至用于检测图像相似度的预训练模型，得到所输入的视频帧的第一相似度检测结果；基于上述第一相似检测结果确定上述预训练模型的损失值，基于上述损失调整上述预训练模型的参数，得到目标模型。

在本实施例的一些可选的实现方式中，上述检测单元303，进一步被配置成：依次从上述目标视频中提取相邻视频帧；利用上述目标模型对上述相邻视频帧进行检测，得到上述相邻视频帧的第二相似度检测结果；响应于上述第二相似度检测结果大于预设阈值，将上述相邻视频帧中的后一帧确定为目标视频帧。

在本实施例的一些可选的实现方式中，上述检测单元303，进一步被配置成：截取上述目标视频中的各视频帧的待测区域；利用上述目标模型对上述目标视频中的相邻视频帧中的待测区域进行检测，得到上述相邻视频帧中的待测区域的第三相似度检测结果；响应于上述第三相似度检测结果大于预设阈值，将上述相邻视频帧中的后一帧确定为目标视频帧。

在本实施例的一些可选的实现方式中，上述预训练模型采用孪生神经网络训练得到，上述孪生神经网络中包括第一卷积神经网络和第二卷积神经网络，上述第一卷积神经网络和上述第二卷积神经网络共享权重。

本申请的上述实施例提供的装置，通过提取目标视频中画面不同的视频帧，而后基于所提取的视频帧对用于检测图像相似度的预训练模型进行再训练，得到目标模型，最后利用目标模型对目标视频中的相邻视频帧进行检测，从而基于检测结果确定目标视频中画面发生变化的目标视频帧。由此，能够在预训练模型的基础上实时在线调整模型参数，使模型学习到待进行检测的视频的特征，在此基础上进行视频的检测，可以有效避免视频中背景环境等干扰因素对检测结果的影响，提高了检测结果的准确性。

图4是根据一示例性实施例示出的用于输入的装置400的框图，该装置400可以为智能终端或者服务器。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在上述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如上述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，上述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是本申请的一些实施例中服务器的结构示意图。该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，一个或一个以上键盘556，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当上述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时，使得装置能够执行一种检测方法，上述方法包括：提取目标视频中画面不同的视频帧；基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型；利用所述目标模型对所述目标视频中的相邻视频帧进行检测，以基于检测结果确定所述目标视频中画面发生变化的目标视频帧。

可选的，所述目标视频通过如下步骤获取：启动对待测界面的视频录制操作；在视频录制过程中，对所述待测界面执行目标操作，以显示所述目标操作的响应结果；停止所述视频录制操作，得到目标视频。

可选的，所述提取目标视频中画面不同的视频帧，包括：分别从执行目标操作前所录制的视频片段以及执行目标操作后所录制的视频片段中选取视频帧，得到画面不同的视频帧。

可选的，所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令获取所述目标视频帧在所述目标视频中的第一次序以及所述目标操作的执行时刻对应的视频帧在所述目标视频中的第二次序；基于所述第一次序、所述第二次序以及预设的视频录制参数，确定所述目标操作的响应时长。

可选的，所述基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型，包括：将所提取的视频帧输入至用于检测图像相似度的预训练模型，得到所输入的视频帧的第一相似度检测结果；基于所述第一相似检测结果确定所述预训练模型的损失值，基于所述损失调整所述预训练模型的参数，得到目标模型。

可选的，所述利用所述目标模型对所述目标视频中的相邻视频帧进行检测，以基于检测结果确定所述目标视频中画面发生变化的目标视频帧，包括：依次从所述目标视频中提取相邻视频帧；利用所述目标模型对所述相邻视频帧进行检测，得到所述相邻视频帧的第二相似度检测结果；响应于所述第二相似度检测结果大于预设阈值，将所述相邻视频帧中的后一帧确定为目标视频帧。

可选的，所述利用所述目标模型对所述目标视频中的相邻视频帧进行检测，以基于检测结果确定所述目标视频中画面发生变化的目标视频帧，包括：截取所述目标视频中的各视频帧的待测区域；利用所述目标模型对所述目标视频中的相邻视频帧中的待测区域进行检测，得到所述相邻视频帧中的待测区域的第三相似度检测结果；响应于所述第三相似度检测结果大于预设阈值，将所述相邻视频帧中的后一帧确定为目标视频帧。

可选的，所述预训练模型采用孪生神经网络训练得到，所述孪生神经网络中包括第一卷积神经网络和第二卷积神经网络，所述第一卷积神经网络和所述第二卷积神经网络共享权重。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上上述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

以上对本申请所提供的一种检测方法、装置和一种用于检测的装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种检测方法，其特征在于，所述方法包括：

提取目标视频中画面不同的视频帧；所述目标视频包括操作响应测试视频；所述操作响应测试视频包括执行目标操作前所录制的视频片段以及执行目标操作后所录制的视频片段；

基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型；

利用所述目标模型对所述目标视频中的相邻视频帧进行检测，以基于检测结果确定所述目标视频中画面发生变化的目标视频帧；

其中，所述提取目标视频中画面不同的视频帧，包括：

从执行目标操作前所录制的视频片段中，提取第N帧作为第一视频帧；

从执行目标操作后所录制的视频片段中，提取第M帧作为第二视频帧；所述N、M均为大于0的整数；

其中，所述基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型，包括：

将所提取的视频帧和针对于所述视频帧的标注信息输入至用于检测图像相似度的预训练模型，得到所输入的视频帧的第一相似度检测结果；所述标注信息用于指示所述视频帧不同；

基于所述第一相似检测结果和所述标注信息确定所述预训练模型的损失值，基于所述损失调整所述预训练模型的参数，得到目标模型。

2.根据权利要求1所述的方法，其特征在于，所述目标视频通过如下步骤获取：

启动对待测界面的视频录制操作；

在视频录制过程中，对所述待测界面执行目标操作，以显示所述目标操作的响应结果；

停止所述视频录制操作，得到目标视频。

3.根据权利要求2所述的方法，其特征在于，在基于检测结果确定所述目标视频中画面发生变化的目标视频帧之后，所述方法还包括：

获取所述目标视频帧在所述目标视频中的第一次序以及所述目标操作的执行时刻对应的视频帧在所述目标视频中的第二次序；

基于所述第一次序、所述第二次序以及预设的视频录制参数，确定所述目标操作的响应时长。

4.根据权利要求1所述的方法，其特征在于，所述利用所述目标模型对所述目标视频中的相邻视频帧进行检测，以基于检测结果确定所述目标视频中画面发生变化的目标视频帧，包括：

依次从所述目标视频中提取相邻视频帧；

利用所述目标模型对所述相邻视频帧进行检测，得到所述相邻视频帧的第二相似度检测结果；

响应于所述第二相似度检测结果大于预设阈值，将所述相邻视频帧中的后一帧确定为目标视频帧。

5.根据权利要求1所述的方法，其特征在于，所述利用所述目标模型对所述目标视频中的相邻视频帧进行检测，以基于检测结果确定所述目标视频中画面发生变化的目标视频帧，包括：

截取所述目标视频中的各视频帧的待测区域；

利用所述目标模型对所述目标视频中的相邻视频帧中的待测区域进行检测，得到所述相邻视频帧中的待测区域的第三相似度检测结果；

响应于所述第三相似度检测结果大于预设阈值，将所述相邻视频帧中的后一帧确定为目标视频帧。

6.根据权利要求1所述的方法，其特征在于，所述预训练模型采用孪生神经网络训练得到，所述孪生神经网络中包括第一卷积神经网络和第二卷积神经网络，所述第一卷积神经网络和所述第二卷积神经网络共享权重。

7.一种检测装置，其特征在于，所述装置包括：

提取单元，被配置成提取目标视频中画面不同的视频帧；所述目标视频包括操作响应测试视频；所述操作响应测试视频包括执行目标操作前所录制的视频片段以及执行目标操作后所录制的视频片段；

训练单元，被配置成基于所提取的视频帧，对用于检测图像相似度的预训练模型进行再训练，得到目标模型；

检测单元，被配置成利用所述目标模型对所述目标视频中的相邻视频帧进行检测，以基于检测结果确定所述目标视频中画面发生变化的目标视频帧；

其中，所述提取单元，进一步被配置成：

所述训练单元，进一步被配置成：

8.根据权利要求7所述的装置，其特征在于，所述目标视频通过如下步骤获取：

启动对待测界面的视频录制操作；

停止所述视频录制操作，得到目标视频。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括确定单元，被配置成：

10.一种用于检测的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

其中，所述提取目标视频中画面不同的视频帧，包括：

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。