CN113822273A

CN113822273A - 一种字幕检测方法和相关装置

Info

Publication number: CN113822273A
Application number: CN202110713663.8A
Authority: CN
Inventors: 陈裕发; 龙祖苑; 谢宗兴
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-12-21

Abstract

本申请实施例公开了一种字幕检测方法和相关装置，在对待测程序进行字幕展示功能进行异常检测时，可以通过字幕的字符结构来进行字幕检测。由于字符结构的特征表达简单，且可以清晰体现出视频帧中字幕结构形态，同时字幕中不同字符间具有明显的结构区别，因此通过样本字幕特征与待测字幕特征间的比对能够准确、快速的判断出待测视频帧中展示的字幕内容是否正确，位置是否偏移等，使得待测程序的字幕展示的异常检测实现了自动化，不再需要人工参与。而且检测过程中不需要识别、处理字幕的复杂语义信息，通过简化的字幕特征即可完成检测，降低了自动化检测的资源占用，提高了检测效率。

Description

一种字幕检测方法和相关装置

技术领域

本申请涉及视频技术领域，特别是涉及一种字幕检测方法和相关装置。

背景技术

字幕是指用于体现视频中音频信息的字符内容，可以帮助观看视频的用户更好的理解该视频中所讲述的信息。

为了提高用户的观看体验，在视频中可以通过相关程序自动展示该视频的音频信息所对应的字幕内容，以供用户进行观看。为了保障程序在视频中字幕展示的准确度，在相关技术中需要人工对通过程序展示出的字幕内容进行检查，导致耗费大量的人力物力，检测周期较长。

发明内容

为了解决上述技术问题，本申请提供了一种字幕检测方法，该检测方法能够较为精准的确定出该待测程序的字幕展示结果是否出现异常，从而无需进行人工检测，提高了检测效率。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例公开了一种字幕检测方法，所述方法包括：

获取目标视频和与样本视频帧对应的样本字幕特征，所述样本字幕特征用于标识所述样本视频帧中样本字幕的字符结构，所述样本视频帧为样本视频中的一个视频帧，所述样本视频为展示了样本字幕的所述目标视频，所述样本视频帧对应于所述目标视频中的目标视频帧；

根据所述目标视频中的音频信息，通过待测程序在所述目标视频中展示所述音频信息对应的待测字幕，得到待测视频；

根据所述待测视频中与所述目标视频帧对应的待测视频帧确定待测字幕特征，所述待测字幕特征用于标识所述待测视频帧中待测字幕的字符结构；

根据所述样本字幕特征和所述待测字幕特征，确定所述待测程序在所述待测视频帧中的字幕展示是否出现异常。

第二方面，本申请实施例公开了一种字幕检测装置，所述装置包括第一获取单元、展示单元、第一确定单元和第二确定单元：

所述第一获取单元，用于获取目标视频和与样本视频帧对应的样本字幕特征，所述样本字幕特征用于标识所述样本视频帧中样本字幕的字符结构，所述样本视频帧为样本视频中的一个视频帧，所述样本视频为展示了样本字幕的所述目标视频，所述样本视频帧对应于所述目标视频中的目标视频帧；

所述展示单元，用于根据所述目标视频中的音频信息，通过待测程序在所述目标视频中展示所述音频信息对应的待测字幕，得到待测视频；

所述第一确定单元，用于根据所述待测视频中与所述目标视频帧对应的待测视频帧确定待测字幕特征，所述待测字幕特征用于标识所述待测视频帧中待测字幕的字符结构；

所述第二确定单元，用于根据所述样本字幕特征和所述待测字幕特征，确定所述待测程序在所述待测视频帧中的字幕展示是否出现异常。

第三方面，本申请实施例公开了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面中中任意一项所述的字幕检测方法。

第四方面，本申请实施例公开了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行第一方面中任意一项所述的字幕检测方法。

由上述技术方案可以看出，在对待测程序进行字幕展示功能进行异常检测时，可以获取未展示字幕的目标视频和样本视频中样本视频帧对应的样本字幕特征，样本视频是展示有准确字幕的目标视频，其中样本字幕特征标识出所对应样本视频帧中样本字幕的字符结构。根据该目标视频中的音频信息，通过该待测程序在该目标视频中展示该音频信息对应的待测字幕，得到待测视频，从待侧视频中确定出待测视频帧的待测字幕特征，该待测视频帧与样本视频帧均对应于目标视频中的同一目标视频帧。该待测字幕特征可以标识该待测视频帧中待测字幕的字符结构。由于字符结构的特征表达简单，且可以清晰体现出视频帧中字幕结构形态，同时字幕中不同字符间具有明显的结构区别，因此通过样本字幕特征与待测字幕特征间的比对能够准确、快速的判断出待测视频帧中展示的字幕内容是否正确，位置是否偏移等。使得待测程序的字幕展示的异常检测实现了自动化，不再需要人工参与。而且检测过程中不需要识别、处理字幕的复杂语义信息，通过简化的字幕特征即可完成检测，降低了自动化检测的资源占用，提高了检测效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种实际应用场景中字幕检测方法的示意图；

图2为本申请实施例提供的一种字幕检测方法的流程图；

图3为本申请实施例提供的一种字幕检测方法的示意图；

图4为本申请实施例提供的一种实际应用场景中字幕检测方法的流程图；

图5为本申请实施例提供的一种字幕检测方法的示意图；

图6为本申请实施例提供的一种字幕检测方法的示意图；

图7为本申请实施例提供的一种字幕检测装置的结构框图；

图8为本申请实施例提供的一种计算机设备的结构图；

图9为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

为了便于用户更好的观看视频所展示的影像内容，部分视频应用可以提供识别视频中所包含的音频信息，自动展示该音频信息所对应字幕的功能。在相关技术中，为了保障该字幕识别功能的正常运行，相关技术人员需要对实现该功能的程序进行后台代码的详细检查，以及需要通过肉眼对字幕识别的结果进行校验，一方面，进行后台代码检查难以做到较为直观的异常检测，另一方面通过肉眼识别又需要耗费大量的人力物力，因此检测效率较低。

为了解决上述技术问题，本申请提供了一种字幕检测方法，处理设备可以将准确的字幕展示结果对应的样本字幕的字符结构，与通过待测程序所展示出的待测字幕的字符结构进行比对，在字符结构能够较为准确的对字符进行表征的基础上，该检测方法能够较为精准的确定出该待测程序的字幕展示结果是否出现异常，从而无需进行人工检测，提高了检测效率。

可以理解的是，该方法可以应用于处理设备上，该处理设备为能够进行字幕检测的处理设备，例如可以为具有字幕检测功能的终端设备或服务器。该方法可以通过终端设备或服务器独立执行，也可以应用于终端设备和服务器通信的网络场景，通过终端设备和服务器配合执行。其中，终端设备可以为计算机、手机等设备。服务器可以理解为是应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器。

此外，本申请还涉及人工智能(Artificial Intelligence,AI)技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请主要涉及其中的自然语言处理技术、语音技术和计算机视觉技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

例如，在本申请实施例中，可以通过语音技术和自然语言处理技术识别音频信息所对应的字幕内容，以及可以通过计算机视觉技术对视频帧中的字幕进行识别和特征提取等。

为了便于理解本申请的技术方案，下面将结合一种实际应用场景，对本申请实施例提供的字幕检测方法进行介绍。

参见图1，图1为本申请实施例提供的一种实际应用场景中字幕检测方法的示意图，在该实际应用场景中，处理设备可以为终端设备101，该终端设备101可以为测试人员在测试待测程序时所使用的手机等。

在终端设备101中包含能够基于视频的音频信息自动在该视频中展示相应字幕的待测程序，为了检测待测程序的字幕展示功能是否异常，终端设备101首先可以获取目标视频和样本视频帧对应的样本字幕特征，该样本视频帧是样本视频中的一个视频帧，该样本视频为展示了样本字幕的目标视频，该样本字幕为该目标视频中的音频信息所对应的正确字幕内容，该样本视频帧对应于目标视频中的目标视频帧，该目标视频为不包括字幕内容且具有音频信息的视频。

终端设备可以根据该目标视频中的音频信息，通过待测程序在目标视频中展示该音频信息对应的待测字幕，得到待测视频。终端设备101可以从该待测视频的视频帧中确定出与目标视频帧对应的待测视频帧，即相对于目标视频帧来说，该样本视频帧和待测视频帧分别为进行了展示有准确字幕内容的目标视频帧以及通过待测程序展示了字幕内容的目标视频帧。处理设备可以根据该待测视频帧确定待测字幕特征，该待测字幕特征用于标识该待测视频帧中待测字幕的字符结构。从而，通过比对该样本字幕特征和待测字幕特征，处理设备能够从字符结构的维度出发，对样本字幕和待测字幕是否一致进行检测，得到该待测程序的检测结果。如果该样本字幕特征和待测字幕特征的匹配程度较高，则说明该样本字幕和待测字幕一致，待测程序能够进行准确的字幕展示。

如图1所示，由于样本字幕的字幕内容为“这是我们看到的海景”，而该待测字幕的字幕内容为“这时我们看到得海景”，样本字幕和待测字幕中具有两个不同的字符，此时样本字幕特征和待测字幕特征之间会产生较为明显的参数差距。因此，终端设备101能够根据该参数差距，确定出该待测程序在该待测视频帧中的字幕展示出现了异常。由于字符结构是字符所具有的较为鲜明的字符特征，不同字符之间的字符结构差距较为明显，因此通过该方式进行检测所确定出的待测程序检测结果可信度较高。基于此，终端设备101可以在无需人工参与的情况下，通过合理的字幕检测方式进行准确的程序检测，降低了对人力的需求。同时，上述检测过程中不需要识别、处理字幕的复杂语义信息，字符结构为较为容易得到的字符特征，因此提高了检测效率。

接下来，将结合附图，对本申请实施例提供的一种字幕检测方法进行介绍。

参见图2，图2为本申请实施例提供的一种字幕检测方法的流程图，该方法包括：

S201：获取目标视频和与样本视频帧对应的样本字幕特征。

为了能够实现对字幕展示功能的自动检测，处理设备首先可以确定出一种能够标识出字幕内容的特征。可以理解的是，每个字符都有着较为独特的字符结构，例如每一个汉字都具有独特的笔画组成、书写方式等，通过字符结构能够准确的分辨出两个字符是否一致。基于此，在本申请实施例中，处理设备可以基于字幕的字符结构对字幕是否匹配进行检测，当两个字幕所对应字符结构不同时，可以确定两个字幕并不是匹配的字幕。

首先，处理设备可以获取目标视频和与样本视频帧对应的样本字幕特征，该目标视频为具有音频信息且不包含字幕内容的视频，该样本视频帧为样本视频中的一个视频帧，该样本视频为展示了样本字幕的目标视频，该样本字幕为该目标视频中的音频信息所对应的准确字幕。其中，样本视频帧对应于目标视频中的目标视频帧，即该样本视频帧为通过在目标视频帧中进行准确的字幕展示后得到的，该样本字幕特征用于标识样本视频帧中样本字幕的字符结构。可以理解的是，该准确的字幕展示是指若该目标视频帧具有对应的音频信息，则在该样本视频帧中具有与该音频信息对应的样本字幕；若该目标视频帧在该目标视频中不具有能够用于字幕展示的音频信息，则该样本视频帧中的样本字幕可以为空字幕。

S202：根据目标视频中的音频信息，通过待测程序在目标视频中展示音频信息对应的待测字幕，得到待测视频。

在得到该样本视频帧对应的样本字幕特征后，处理设备可以检测待测程序能否对该目标视频帧进行准确的字幕展示。处理设备可以根据目标视频中的音频信息，通过待测程序在目标视频中展示音频信息对应的待测字幕，得到待测视频。其中，待测程序为具有字幕展示功能的程序，即可以基于音频信息展示对应的字幕内容，该待测字幕即为通过该待测程序所展示的字幕内容。

S203：根据待测视频中与目标视频帧对应的待测视频帧确定待测字幕特征。

为了判断该待测程序的字幕展示功能是否出现异常，处理设备可以将通过该待测程序所展示的待测字幕与样本字幕进行匹配，若针对于目标视频中的同一视频帧，通过待测程序在该视频帧所展示的待测字幕与该视频帧在样本视频中所对应的样本字幕相同，则说明该待测程序能够在该视频帧中进行准确的字幕展示。

由于上述样本视频帧对应于目标视频中的目标视频帧，因此，处理设备可以根据该待测视频中与该目标视频帧对应的待测视频帧确定待测字幕特征，该待测字幕特征用于标识待测视频帧中待测字幕的字符结构。

S204：根据样本字幕特征和待测字幕特征，确定待测程序在待测视频帧中的字幕展示是否出现异常。

由于该待测视频帧和样本视频帧都对应于目标视频帧，因此若该待测程序在该待测视频帧中的字幕展示没有出现异常，则该样本视频帧中的样本字幕应该与该待测视频帧中的待测字幕相同，即该样本字幕和该待测字幕具有相同的字符结构，该样本字幕特征和该待测字幕特征一致；相反，如果待测程序的字幕展示出现了异常，则该样本字幕特征和该待测字幕特征会有较为明显的特征差异。因此，通过该样本字幕特征和待测字幕特征，处理设备可以确定该待测程序在该待测视频帧中的字幕展示是否出现异常。

由上述技术方案可以看出，在对待测程序进行字幕展示功能进行异常检测时，由于字符结构的特征表达简单，且可以清晰体现出视频帧中字幕结构形态，同时字幕中不同字符间具有明显的结构区别，因此通过样本字幕特征与待测字幕特征间的比对能够准确、快速的判断出待测视频帧中展示的字幕内容是否正确，位置是否偏移等。使得待测程序的字幕展示的异常检测实现了自动化，不再需要人工参与。而且检测过程中不需要识别、处理字幕的复杂语义信息，通过简化的字幕特征即可完成检测，降低了自动化检测的资源占用，提高了检测效率。

可以理解的是，视频中的图像内容都是由一个个像素点所构成的，在视频中展示字幕时，也是通过将视频帧中的部分像素点所对应的颜色设定为该字幕所对应字幕颜色来实现的，因此，当字幕所对应的字符结构不同时，字幕在视频帧中的展示情况也有所不同，从而导致字幕在视频帧中所对应的像素点也不同。基于此，通过对视频帧中具有字幕颜色的像素点进行分析，处理设备可以获知该字幕在视频帧中的展示情况，从而在一定程度上可以确定出该字幕所对应的字符结构。

在一种可能的实现方式中，在确定待测字幕特征时，处理设备可以确定该待测视频帧所包括像素点中的字幕像素点，该字幕像素点为具有待测字幕对应颜色的像素点。通过该字幕像素点，处理设备可以对该待测字幕在该待测视频帧中的展示情况进行分析，进而可以确定该待测视频帧对应的待测字幕特征。通过分析不同字幕在同一视频帧中所对应的不同字幕像素点，处理设备可以确定出字幕所对应字符结构之间的差异。

可以理解的是，在基于字幕像素点来确定字幕特征时，所确定出的字幕像素点准确性越高，最终得到的字幕特征也就更能够准确地标识出字幕的字符结构。因此，为了提高待测字幕特征的准确度，处理设备可以将待测视频帧中与待测字幕无关的像素点的颜色设置成与字幕颜色不同的其它颜色，以提高字幕像素点在待测视频帧中的区分度。

在一种可能的实现方式中，处理设备可以设定该目标视频中视频内容具有单一的内容颜色，且该内容颜色与待测字幕对应颜色不同，该视频内容是指该目标视频中所展示出的全部内容。从而，在通过待测程序在该目标视频中展示待测字幕时，处理设备可以准确地确定出每一帧视频帧中的字幕像素点。例如，处理设备可以构建一个纯黑屏且具有音频信息的视频作为目标视频，将待测字幕的颜色设定为白色，处理设备可以通过确定待测视频帧中颜色不为黑色的像素点或确定颜色为白色的像素点来确定字幕像素点，如图5所示。同时，由于待测视频帧中除待测字幕以外的部分都具有单一的内容颜色，因此，即使该待测字幕为包括多种字符颜色的彩色字幕，处理设备也可以准确地通过非内容颜色来确定出字幕像素点。例如，当目标视频的视频内容都为黑色时，处理设备可以通过非黑像素点来确定出多彩字幕对应的字幕像素点。

其中，基于字幕像素点确定待测字幕特征的方式也可以包括多种，接下来将主要分为基于字幕投影的方式和基于字幕像素点分布关系的方式来进行介绍：

(1)基于字幕投影的方式

上已述及，具有不同字符结构的字幕在视频帧中所对应的字幕像素点也有所不同，而视频帧通常是基于多行、多列像素点组合得到的，因此，当字幕不匹配时，字幕所对应的字幕像素点在各列或各行像素点中所对应的数量也会出现差异。例如，如图3所示，“日”和“田”两个字符在每一列像素点中的字符像素点数量都有所不同。

基于此，在一种可能的实现方式中，处理设备在分析字幕所对应字幕像素点之间的区别时，可以以列为单位或以行为单位进行字幕投影，即可以以行或列为单位对字幕像素点的数量进行统计，从而确定出字幕像素点在该视频帧中的分布情况，进而通过该分布情况体现出该字幕对应的字符结构。

一方面，该待测视频帧可以包括N列像素点，处理设备可以确定该N列像素点中分别包括字幕像素点的第一数量，然后根据第一数量和N列像素点间的排列关系确定待测视频帧对应的待测字幕特征。通过该第一数量，处理设备能够确定出待测字幕所对应的字幕像素点在各列像素点中的分布情况，即能够确定出该待测字幕对应的字符结构在各列像素点中的展示情况；通过该排列关系，处理设备能够准确对各列像素点中字符结构的展示情况进行组合，从而能够精准的体现出该待测字幕在N列像素点上的字符结构。最终，通过该方式所确定出的待测字幕特征能够准确地标识出该待测字幕的字符结构。如图6所示，通过对待测字幕“这是我们看到的海景”进行列方向上的投影，处理设备可以得到一个一维数组形式的待测字幕特征。

同理，字幕所对应的字幕像素点在各行像素点中的分布情况在一定程度上也能够体现出字幕的字符结构。在一种可能的实现方式中，该待测视频帧可以包括M行像素点，处理设备可以确定M行像素点中分别包括字幕像素点的第二数量，然后根据第二数量和M行像素点间的排列关系，确定该待测视频帧对应的待测字幕特征。通过该第二数量，处理设备能够确定出待测字幕所对应的字幕像素点在各行像素点中的分布情况，即能够确定出该待测字幕对应的字符结构在各行像素点中的展示情况；通过该排列关系，处理设备能够准确对各行像素点中字符结构的展示情况进行组合，从而能够精准的体现出该待测字幕在M行像素点上的字符结构。最终，通过该方式所确定出的待测字幕特征同样能够准确地标识出该待测字幕的字符结构。

可以理解的是，为了进一步提高待测字幕特征的准确度，处理设备除了可以单独基于各列字幕像素点的分布情况和各行字幕像素点的分布情况进行待测字幕特征的确定外，还可以结合各列和各行中字幕像素点的分布情况进行综合确定。

例如，在一种可能的实现方式中，在确定出待测视频中目标视频帧所对应的待测视频帧后，处理设备可以对该待测视频帧中的待测字幕进行列方向和行方向上的字幕投影，综合确定出该待测字幕对应的待测字幕特征。其中，假设该待测视频帧为待测视频中的第n帧，处理设备可以确定出该待测字幕在列方向上的投影结果

和待测字幕在行方向上的投影结果

s^n′和v^n′为该待测字幕对应待测字幕特征。其中，

为第i列像素点中字幕像素点的第一数量，

为第i行像素点中字幕像素点的第二数量，

之间的排列顺序对应各列像素点之间的排列关系，

之间的排列顺序对应各行像素点之间的排列关系。处理设备可以将该s^n′和v^n′与样本视频帧所对应的样本字幕特征

和

进行比较，确定该待测程序在该待测视频帧中的字幕展示是否出现异常。

(2)基于字幕像素点分布关系的方式

可以理解的是，字幕是通过视频帧中字幕像素点和非字幕像素点之间的分布来展示的，即通过字幕像素点和非字幕像素点之间的某种特点分布关系来绘制出字幕中的某个特定字符。因此，通过视频帧中字幕像素点和非字幕像素点之间的分布关系，在一定程度上也能够体现出视频帧中字幕的独特的字符结构。

在一种可能的实现方式中，处理设备可以根据该待测视频帧中字幕像素点和非字幕像素点的分布关系，确定该待测视频帧对应的待测字幕特征，非字幕像素点是指待测视频帧中除字幕像素点之外的像素点。通过该分布关系能够体现出该待测字幕中的字符在该待测视频帧中的结构构成，从而能够标识出该待测字幕所对应的字符结构。

其中，基于该分布关系进行待测字幕特征确定的方式也可以包括多种。例如，在一种可能的实现方式中，处理设备可以将待测视频帧中的字幕像素点所对应标识确定为第一标识，例如可以确定为1；将非字幕像素点所对应标识确定为第二标识，例如可以确定为0。处理设备可以基于待测视频帧中各个像素点分别对应的标识以及像素点之间的分布关系，生成该待测视频对应的标识序列，例如可以为0、1序列，从而通过该0、1序列能够体现出该待测视频帧中字幕像素点的分布情况，进而标识出该待测字幕对应的字符结构。当两个字幕不同时，字幕所包括的字符在待测视频帧中对应的字幕像素点也有所不同，因此所得到的标识序列也具有差异。基于此，通过待测视频帧所对应的标识序列，处理设备可以确定出该待测字幕是否与样本字幕匹配。

在另一种可能的实现方式中，处理设备可以基于该分布关系，通过MD5消息摘要算法(MD5 Message-Digest Algorithm)来确定该待测视频帧所对应的散列值(hash value)，该散列值用于标识该待测视频帧的完整性。即，该散列值能够标识出该样本视频帧中字幕像素点和非字幕像素点之间独特的分布关系，当该分布关系出现改变时，所对应的散列值也会出现变化。

因此，当样本视频帧所对应的散列值与待测视频帧对应的散列值不同时，可以说明该样本视频帧与待测视频帧中具有不同的分布关系，即字幕所对应的字符结构不同，处理设备可以确定该待测字幕与样本字幕为不同的字幕。

具体的，在一种可能的实现方式中，在通过上述多种方式确定出待测视频帧所对应的待测字幕特征后，处理设备可以根据该样本字幕特征和待测字幕特征，确定该样本字幕和待测字幕之间的匹配程度。由于样本字幕特征能够标识出样本字幕的字符结构，待测字幕特征能够标识出待测字幕的字符结构，因此通过特征之间的差异能够确定出样本字幕和待测字幕之间字符结构的差异，在字符结构能够准确体现出所对应字符的基础上，处理设备可以确定出该样本字幕和待测字幕之间的匹配程度。处理设备可以设定一个匹配阈值，该匹配阈值用于判断待测程序的字幕展示是否异常。若该匹配程度满足该匹配阈值，则说明待测字幕和样本字幕具有相同的字符结构，该待测字幕和样本字幕匹配，处理设备可以确定该待测程序在该待测视频帧中的字幕展示未出现异常。若该匹配程度不满足该匹配阈值，则说明待测字幕和样本字幕的字符结构之间存在差异，该待测字幕和样本字幕不匹配，处理设备可以确定该待测程序在该待测视频帧中的字幕展示出现异常。

例如，在基于字幕投影的方式确定出待测字幕特征后，处理设备可以分别得到待测视频帧对应的待测字幕特征

和

以及样本字幕特征

和

该目标视频帧为目标视频帧中的第n个视频帧，sⁿ为样本视频帧中各列像素点中字幕像素点的数量，vⁿ为样本视频帧中各行像素点中字幕像素点的数量。处理设备可以通过公式(1)和公式(2)来确定字幕展示是否出现异常：

其中c＝1,2,3……(1)

其中c＝1,2,3……(2)

其中，k_s和k_v都为匹配阈值，例如可以设定为1％，若满足上述公式，则说明该样本字幕特征与待测字幕特征一致，该样本字幕和待测字幕具有相同的字符结构，该待测程序在该待测视频帧中的字幕展示未出现异常。

可以理解的是，为了提高字幕展示的多样性，从而提高用户观看视频时的观看体验，该待测程序除了能够基于音频信息展示相应的字幕内容外，还可以通过多种丰富的展示形式进行字幕展示，该展示形式是指对字幕内容展示的形式，例如可以包括展示位置、展示缩放程度、展示字体等。

其中，字幕的展示形式在一定程度上也会影响字幕在视频帧中所对应的字幕像素点，例如，当字幕的展示缩放程度不同时，缩放倍数较大的字幕在目标视频帧中所占的字幕像素点可能更多；同时，同一字幕处于视频帧中的不同位置时，所对应的字幕像素点在待测视频帧中的分布也有所不同。由于字幕是通过字幕像素点在视频帧中进行展示的，因此，当字幕所对应的字幕像素点不同时，对于该字幕字符结构的体现可能也会有所不同，从而可能会影响基于字符结构的字幕检测。基于此，为了进一步提高字幕检测的准确度，处理设备可以在确定待测字幕特征之前，先降低字幕的展示形式对字幕特征匹配的干扰，将待测字幕和样本字幕转换到同一字幕展示形式维度中来进行字幕特征的匹配。

在一种可能的实现方式中，处理设备还可以确定待测程序的待测字幕展示参数，该待测字幕展示参数用于标识该待测程序对字幕展示的展示形式。随后，为了将待测字幕和样本字幕转换为相同的展示形式，处理设备可以获取该样本视频中用于展示该样本字幕的样本字幕展示参数，该样本字幕展示参数用于标识展示该样本字幕的展示形式。

在确定字幕展示是否出现异常时，处理设备可以先根据该待测字幕展示参数和样本字幕展示参数间字幕像素点的映射关系，将该待测字幕特征转换为符合该样本字幕展示参数的转换特征，由于该字幕展示参数和待测字幕展示参数分别标识了样本字幕的展示形式和待测字幕的展示形式，因此，通过该映射关系，处理设备可以获知两种展示形式之间的转换方式，进而能够将该待测字幕特征和样本字幕特征转换到同一展示形式的维度中进行比较，降低不同展示形式对于字幕特征比较的干扰。处理设备可以根据该样本字幕特征和该转换特征，确定该待测程序在待测视频帧中的字幕展示是否出现异常，从而能够使该检测结果能够准确地体现出样本字幕和待测字幕之间字幕内容的差别。

例如，在展示样本字幕时，可以以(0,0)点作为字幕展示的中心点来确定该样本字幕展示的展示位置，以不进行缩放处理作为该样本字幕的展示缩放程度进行展示；在展示待测字幕时，可以以(x₀,y₀)点作为字幕展示的中心点来确定该样本字幕展示的展示位置，以进行3倍放大的缩放处理作为该样本字幕的展示缩放程度进行展示。在确定字幕展示是否异常之前，处理设备可以先基于(0,0)点和(x₀,y₀)点之间字幕像素点的映射关系，以及根据不缩放对应的展示参数和放大3倍对应的展示参数之间字幕像素点的映射关系，将该待测字幕移动至以(0,0)点作为中心点的字幕位置，并以与样本字幕相同的缩放方式缩小3倍，从而使该样本字幕与转换后的待测字幕处于相同的展示形式中。随后，处理设备可以基于转换后的待测字幕，确定符合样本字幕展示参数的转换特征。或者，当样本字幕和待测字幕的字体不同时，通过不同字体之间字幕像素点的映射关系，处理设备也可以将待测字幕和样本字幕转换为同一字幕字体，从而使得到的转换特征和样本字幕特征处于同一字体维度中进行比较。

上已述及，对字幕的展示形式在一定程度上会决定该字幕在视频帧中所对应字幕像素点，因此对字幕展示形式是否准确也会影响到字幕在视频帧中所对应的字幕像素点是否准确。由于该字幕像素点能够体现出字幕的字符结构，因此若展示形式出现异常，处理设备可能无法对字幕的字符结构进行准确识别，进而可能无法准确的基于字幕的字符结构来确定样本字幕和待测字幕是否具有相同的字幕内容。

基于此，在对待测程序的字幕展示功能进行检测时，为了进一步提高检测结果的准确性，除了可以对字幕中的字符内容进行检测外，还可以对待测程序对待测字幕的展示形式进行检测。在一种可能的实现方式中，该展示形式可以包括展示位置，在基于样本字幕特征和待测字幕特征确定待测程序是否异常之前，处理设备可以确定该待测视频帧中的待测字幕对应的实际字幕位置参数，该实际字幕位置参数用于确定该待测字幕对应的实际展示位置。处理设备可以根据待测字幕展示参数所标识的目标展示位置和该实际展示位置，确定该待测程序在该待测视频帧中字幕展示的展示形式是否出现异常，该目标展示位置为该待测程序在展示待测字幕时所对应的准确的展示位置。若该目标展示位置和实际展示位置不同，则说明该待测程序在展示字幕时字幕位置出现异常。

例如，处理设备可以根据待测视频帧中包括字幕像素点的各列像素点中最左列和最右列的列位置，确定该待测字幕在该待测视频帧中展示的左右端点，将该左右端点作为实际字幕位置参数，根据该实际字幕位置参数可以确定出该待测字幕中心点的横坐标，该横坐标为该待测字幕对应的实际展示位置。处理设备可以将该横坐标与待测字幕展示参数标识目标展示位置的横坐标进行比较，来确定待测字幕进行字幕展示时的展示位置是否出现异常。

在另一种可能的实现方式中，该展示形式可以包括展示缩放程度，在确定字幕展示是否出现异常之前，处理设备可以确定该待测视频帧中的待测字幕对应的实际字幕缩放参数，该实际字幕缩放参数用于确定该待测字幕对应的实际展示缩放程度，例如该实际字幕缩放参数可以为待测字幕在该待测视频帧中对应的高度和宽度，通过将该高度和宽度与默认高度和宽度进行比较，可以确定出该待测字幕的展示缩放程度。

处理设备可以根据待测字幕展示参数所标识的目标展示缩放程度和该实际展示缩放程度，确定该待测程序在该待测视频帧中字幕展示的展示形式是否出现异常。

和

以及样本字幕特征

和

设s^n′中第1个非0数值的下标值为n₁，最后1个非0的下标值为n₂，则确定出的实际展示位置横坐标可以为

处理设备可以通过公式(3)将其与目标展示位置横坐标x₀进行比较：

其中，k_x为判定阈值，例如可以为1％。同理，处理设备可以确定出v^n′中第1个非0下标值l₁，最后1个非0下标值l₂，与目标展示位置纵坐标y₀进行比较。

接下来，处理设备可以对待测字幕的展示缩放程度是否异常进行检测。当样本字幕的展示缩放程度为未缩放时，处理设备可以设sⁿ中第1个非0数值的下标值为n₃，最后1个非0的下标值为n₄，则样本字幕所对应字幕宽度为n₄-n₃，待测字幕对应长度为n₂-n₁；同理，处理设备可以确定出vⁿ中第1个非0下标值l₃，最后1个非0下标值l₄，则样本字幕对应字幕高度为l₄-l₃，待测字幕对应字幕高度为l₂-l₁。处理设备首先可以通过公式(4)检测该待测字幕的横向和纵向缩放程度是否一致：

其中，k_b为判定阈值，可以设为1％。若满足公式，则说明该待测字幕在进行字幕缩放时横纵向的缩放比例一致。随后，若目标展示缩放程度为放大m倍，处理设备可以通过公式(5)检测该待测字幕的展示缩放程度是否出现异常：

其中，k_b为判定阈值，可以设为1％。若满足公式，则说明该待测字幕在进行字幕展示时所对应的展示缩放程度为放大m倍。

可以理解的是，当待测程序在展示字幕时的展示形式出现异常时，在一定程度上会影响待测字幕在该待测视频帧中对应的字幕像素点，进而影响基于字符结构的字幕检测，因此，在一种可能的实现方式中，若通过上述方式确定该待测程序在该待测视频帧中字幕展示的展示形式出现异常，可以认为该此时再基于字符结构进行字幕检测已经缺乏检测精度，处理设备可以直接确定该待测程序在该待测视频帧中的字幕展示出现异常，无需再进行基于字幕特征检测字幕是否匹配的操作，从而能够及时的进行报错，节省了字幕检测所需的时间。

除了在检测展示形式、确定字幕特征时可以包括多种方式外，基于不同的需求，处理设备在挑选样本视频帧时的方式也可以有所不同。在一种可能的实现方式中，该样本视频帧可以包括样本字幕在样本视频中开始展示和/或结束展示时刻对应的视频帧，以及还可以包括该样本字幕在样本视频中展示的中间时刻所对应的视频帧，从而可以检测待测程序在对该样本字幕进行展示时的展示时间区间是否出现异常，以及在展示时间区间中的字幕展示内容和展示形式是否出现异常。或者，该样本视频帧可以是基于视频帧采样间隔在该样本视频中采集得到的，该视频帧采样间隔可以基于该目标视频中的音频信息所确定，从而，基于该样本视频帧进行字幕检测可以判断待测字幕是否出现在错误的时间进行字幕展示的情况，例如是否出现在样本字幕还未进行展示时，该待测字幕已经展示在待测视频中的异常情况。通过确定样本视频中具有代表性和针对性的部分样本视频帧进行检测，可以在保障字幕检测准确度的前提下，无需对该样本视频中的全部视频帧进行检测，降低了检测所需时间，进一步提高了检测效率。

接下来，将结合一种实际应用场景，对本申请实施例提供的一种字幕检测方法进行介绍。

参见图4，图4为本申请实施例提供的一种实际应用场景中字幕检测方法的流程图，在该实际应用场景中，处理设备可以为进行字幕检测所用的终端设备，待测程序可以为终端设备中的一款具有字幕展示功能的待测应用，该方法包括：

S401：构造目标视频。

检测人员可以先构造一个纯黑屏且具有音频信息的视频V_t，将其确定为目标视频，设其频率f＝30帧/秒，视频总时长t＝10秒。

S402：生成样本视频。

检测人员可以将该目标视频作为视频编辑类应用的输入视频，在该目标视频中添加样本字幕来生成样本视频V_s，并人工检测样本视频中样本字幕的准确性。

S403：计算并存储样本视频中各个样本视频帧对应的样本字幕特征。

终端设备可以通过上述字幕投影法对样本视频中的每一帧进行特征确定，得到该样本视频对应的样本字幕特征。例如，针对于其中的某一样本视频帧，终端设备可以通过公式(6)先进行垂直投影，即确定该样本视频帧中每一列像素点包括的字幕像素点数量，该字幕像素点为“非全黑”像素点(即非R＝0、G＝0、B＝0的像素点)：

其中，s_x为第x列的垂直投影，n为样本视频的第n帧，x代表横坐标，y代表纵坐标，b(x,y)的表达式如下公式(7)所示：

即非黑点计数为1，其它像素点计数为0。由此，针对其中的第n帧，终端设备可以将该样本视频帧中的样本字幕特征简化为一个一维数组

同理可以通过横向投影得到一维数组

终端设备可以将样本视频全部帧所对应的样本字幕特征s＝[s⁰,s¹,s²……]和v＝[v⁰,v¹,v²……]进行存储，以便后续的自动化字幕检测。由于只需要存储作为样本字幕特征的一维数组，无需对该样本视频进行存储，因此极大的节省了存储空间。

S404：根据目标视频中的音频信息，通过待测应用在目标视频中展示音频信息对应的待测字幕，得到待测视频。

终端设备可以获取该目标视频，通过待测应用在该目标视频中进行字幕展示，得到待测视频V_s′。在进行字幕展示时，可以人工设定字幕展示位置中心点为(x₀,y₀)，展示缩放程度为扩大m倍。

S405：逐帧取待测视频中的每一帧，确定对应的待测字幕特征。

终端设备可以通过字幕投影法确定该待测视频中每一帧对应的待测字幕特征s′＝[s^0′,s^1′,s^2′……]和v′＝[v^0′,v^1′,v^2′……]，例如针对其中第n帧，横向投影结果为

纵向投影结果

S406：逐帧进行自动化字幕检测。

其中，针对其中的第n帧，终端设备进行自动化字幕检测的步骤可以如下所示：

S4061：确定展示时间是否异常。

若

中的所有数据都为0，且

都为0，说明该待测视频帧所对应的目标视频帧不具有对应的音频信息，展示时间正常；若其中一个为0另一个不为0，则说明可能出现了待测字幕丢失或待测字幕提前展示的情况，确定待测应用的字幕展示出现异常，进行报错。

若都不为0，则执行步骤S4062。

S4062：确定展示位置是否异常。

终端设备可以检测该待测字幕的中心点是否为(x₀,y₀)。若异常，则终止流程，进行异常报错。

S4063：确定展示缩放程度是否异常。

终端设备可以检测该待测字幕的展示缩放程度是否为扩大了m倍。若异常，则终止流程，进行异常报错。

S4064：确定待测字幕展示参数。

在该实际应用场景中，待测字幕展示参数为展示位置(x₀,y₀)和展示缩放程度扩大m倍。

S4065：获取样本字幕展示参数。

S4066：根据待测字幕展示参数和样本字幕展示参数间字幕像素点的映射关系，将待测字幕特征转换为符合样本字幕展示参数的转换特征。

终端设备可以先进行特征转换，将样本字幕特征和待测字幕特征转换到同一展示形式的维度中进行比较，例如当样本字幕为默认的展示形式时，由于待测字幕进行了缩放以及位移，因此将待测字幕先移动回默认中心点(0,0)以及缩小m倍，基于还原后的待测字幕进行字幕投影得到转换特征

和

S4067：根据转换特征和样本字幕特征，确定待测程序在第n帧待测视频帧中的字幕展示是否出现异常。

终端设备可以通过下述公式(8)和公式(9)进行异常检测：

其中c＝1,2,3……(8)

其中c＝1,2,3……(9)

若满足该公式，则说明第n帧待测视频帧中待测字幕与样本字幕相匹配，该待测应用的字幕展示的展示形式、展示时间均无异常，自动化检测通过。

基于上述实施例提供的字幕检测方法，本申请实施例还提供了一种字幕检测装置，参见图7，图7为本申请实施例提供的一种字幕检测装置700的结构框图，其特征在于，装置700包括第一获取单元701、展示单元702、第一确定单元703和第二确定单元704：

第一获取单元701，用于获取目标视频和与样本视频帧对应的样本字幕特征，所述样本字幕特征用于标识所述样本视频帧中样本字幕的字符结构，所述样本视频帧为样本视频中的一个视频帧，所述样本视频为展示了样本字幕的所述目标视频，所述样本视频帧对应于所述目标视频中的目标视频帧；

展示单元702，用于根据所述目标视频中的音频信息，通过待测程序在所述目标视频中展示所述音频信息对应的待测字幕，得到待测视频；

第一确定单元703，用于根据所述待测视频中与所述目标视频帧对应的待测视频帧确定待测字幕特征，所述待测字幕特征用于标识所述待测视频帧中待测字幕的字符结构；

第二确定单元704，用于根据所述样本字幕特征和所述待测字幕特征，确定所述待测程序在所述待测视频帧中的字幕展示是否出现异常。

在一种可能的实现方式中，第一确定单元703具体用于：

确定所述待测视频帧所包括像素点中的字幕像素点，所述字幕像素点为具有所述待测字幕对应颜色的像素点；

根据所述字幕像素点，确定所述待测视频帧对应的待测字幕特征。

在一种可能的实现方式中，所述待测视频帧包括N列像素点，第一确定单元703具体用于：

确定所述N列像素点中分别包括所述字幕像素点的第一数量；

根据所述第一数量和所述N列像素点间的排列关系，确定所述待测视频帧对应的待测字幕特征。

在一种可能的实现方式中，所述待测视频帧包括M行像素点，第一确定单元703具体用于：

确定所述M行像素点中分别包括所述字幕像素点的第二数量；

根据所述第二数量和所述M行像素点间的排列关系，确定所述待测视频帧对应的待测字幕特征。

在一种可能的实现方式中，第一确定单元703具体用于：

根据所述待测视频帧中所述像素字幕点和非像素字幕点的分布关系，确定所述待测视频帧对应的待测字幕特征。

在一种可能的实现方式中，第二确定单元704具体用于：

根据所述样本字幕特征和所述待测字幕特征，确定所述样本字幕和所述待测字幕之间的匹配程度；

若所述匹配程度满足匹配阈值，确定所述待测程序在所述待测视频帧中的字幕展示未出现异常；

若所述匹配程度不满足所述匹配阈值，确定所述待测程序在所述待测视频帧中的字幕展示出现异常。

在一种可能的实现方式中，装置700还包括第三确定单元和第二获取单元：

第三确定单元，用于确定所述待测程序的待测字幕展示参数，所述待测字幕展示参数用于标识所述待测程序对字幕展示的展示形式；

第二获取单元，用于获取所述样本视频中用于展示所述样本字幕的样本字幕展示参数；

第二确定单元704，具体用于：

根据所述待测字幕展示参数和所述样本字幕展示参数间字幕像素点的映射关系，将所述待测字幕特征转换为符合所述样本字幕展示参数的转换特征；

根据所述样本字幕特征和所述转换特征，确定所述待测程序在所述待测视频帧中的字幕展示是否出现异常。

在一种可能的实现方式中，所述展示形式包括展示位置，装置700还包括第四确定单元和第五确定单元：

第四确定单元，用于确定所述待测视频帧中的所述待测字幕对应的实际字幕位置参数，所述实际字幕位置参数用于确定所述待测字幕对应的实际展示位置；

第五确定单元，用于根据所述待测字幕展示参数所标识的目标展示位置和所述实际展示位置，确定所述待测程序在所述待测视频帧中字幕展示的展示形式是否出现异常。

在一种可能的实现方式中，所述展示形式包括展示缩放程度，装置700还包括第六确定单元和第七确定单元：

第六确定单元，用于确定所述待测视频帧中的所述待测字幕对应的实际字幕缩放参数，所述实际字幕缩放参数用于确定所述待测字幕对应的实际展示缩放程度；

第七确定单元，用于根据所述待测字幕展示参数所标识的目标展示缩放程度和所述实际展示缩放程度，确定所述待测程序在所述待测视频帧中字幕展示的展示形式是否出现异常。

在一种可能的实现方式中，装置700还包括第八确定单元：

第八确定单元，用于若确定所述待测程序在所述待测视频帧中字幕展示的展示形式出现异常，确定所述待测程序在所述待测视频帧中的字幕展示出现异常。

在一种可能的实现方式中，所述样本视频帧包括所述样本字幕在所述样本视频中开始展示和/或结束展示时刻对应的视频帧；

或，所述样本视频帧是基于视频帧采样间隔在所述样本视频中采集得到的。

在一种可能的实现方式中，所述目标视频中视频内容具有单一的内容颜色，且所述内容颜色与所述待测字幕对应颜色不同。

本申请实施例还提供了一种计算机设备，下面结合附图对该设备进行介绍。请参见图8所示，本申请实施例提供了一种设备，该设备还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8，手机包括：射频(Radio Frequency，简称RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity，简称WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图8中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，优选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器780还具有以下功能：

本申请实施例还提供一种服务器，请参见图9所示，图9为本申请实施例提供的服务器800的结构图，服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于图9所示的服务器结构。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种字幕检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述待测视频中与所述目标视频帧对应的待测视频帧确定待测字幕特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述待测视频帧包括N列像素点，所述根据所述字幕像素点，确定所述待测视频帧对应的待测字幕特征，包括：

确定所述N列像素点中分别包括所述字幕像素点的第一数量；

4.根据权利要求2所述的方法，其特征在于，所述待测视频帧包括M行像素点，所述根据所述字幕像素点，确定所述待测视频帧对应的待测字幕特征，包括：

确定所述M行像素点中分别包括所述字幕像素点的第二数量；

5.根据权利要求2所述的方法，其特征在于，所述根据所述字幕像素点，确定所述待测视频帧对应的待测字幕特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述样本字幕特征和所述待测字幕特征，确定所述待测程序在所述待测视频帧中的字幕展示是否出现异常，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述待测程序的待测字幕展示参数，所述待测字幕展示参数用于标识所述待测程序对字幕展示的展示形式；

获取所述样本视频中用于展示所述样本字幕的样本字幕展示参数；

所述根据所述样本字幕特征和所述待测字幕特征，确定所述待测程序在所述待测视频帧中的字幕展示是否出现异常，包括：

8.根据权利要求7所述的方法，其特征在于，所述展示形式包括展示位置，在所述根据所述样本字幕特征和所述待测字幕特征，确定所述待测程序在所述待测视频帧中的字幕展示是否出现异常之前，所述方法还包括：

确定所述待测视频帧中的所述待测字幕对应的实际字幕位置参数，所述实际字幕位置参数用于确定所述待测字幕对应的实际展示位置；

根据所述待测字幕展示参数所标识的目标展示位置和所述实际展示位置，确定所述待测程序在所述待测视频帧中字幕展示的展示形式是否出现异常。

9.根据权利要求7所述的方法，其特征在于，所述展示形式包括展示缩放程度，在所述根据所述样本字幕特征和所述待测字幕特征，确定所述待测程序在所述待测视频帧中的字幕展示是否出现异常之前，所述方法还包括：

确定所述待测视频帧中的所述待测字幕对应的实际字幕缩放参数，所述实际字幕缩放参数用于确定所述待测字幕对应的实际展示缩放程度；

根据所述待测字幕展示参数所标识的目标展示缩放程度和所述实际展示缩放程度，确定所述待测程序在所述待测视频帧中字幕展示的展示形式是否出现异常。

10.根据权利要求8或9所述的方法，其特征在于，所述方法还包括：

若确定所述待测程序在所述待测视频帧中字幕展示的展示形式出现异常，确定所述待测程序在所述待测视频帧中的字幕展示出现异常。

11.根据权利要求1所述的方法，其特征在于，所述样本视频帧包括所述样本字幕在所述样本视频中开始展示和/或结束展示时刻对应的视频帧；

12.根据权利要求1所述的方法，其特征在于，所述目标视频中视频内容具有单一的内容颜色，且所述内容颜色与所述待测字幕对应颜色不同。

13.一种字幕检测装置，其特征在于，所述装置包括第一获取单元、展示单元、第一确定单元和第二确定单元：

14.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-12中任意一项所述的字幕检测方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-12中任意一项所述的字幕检测方法。