CN111783771B

CN111783771B - 文字检测方法、装置、电子设备和存储介质

Info

Publication number: CN111783771B
Application number: CN202010535376.8A
Authority: CN
Inventors: 张水发; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2024-03-19
Anticipated expiration: 2040-06-12
Also published as: CN111783771A

Abstract

本公开关于文字检测方法、装置、电子设备和存储介质，所述方法包括：获取视频第t+1帧图像中第一位置的像素的像素值P_t+1，计算像素值P_t+1与预设模型中每个像素值的差值，以得到n个差值的绝对值，其中，预设模型为第t帧图像中第一位置的像素的n个邻像素的像素值的集合；若大于预设值的绝对值的数量大于预设数量，确定第t+1帧图像中第一位置的像素属于前景，连通属于前景的像素，构成连通区域；对连通区域进行检测，以确定第t+1帧图像中的文字。根据本公开的实施例，可以准确地确定图像中的前景区域，再对前景区域进行检测来确定图像中的文字，从而在播放每一帧图像时，只需对前景进行检测，而不必对整张图像进行检测，以便快速地检测出图像中的文字。

Description

文字检测方法、装置、电子设备和存储介质

技术领域

本公开涉及图像领域，尤其涉及文字检测方法、装置、电子设备和存储介质。

背景技术

在直播等领域，允许播放者和观看者在播放的视频中输入文字，并实时地显示在视频中。为了避免播放视频违规，需要对视频中出现违规文字进行检测。

目前检测视频中文字的方式主要是OCR(Optical Character Recognition，光学字符识别)，或者基于深度学习的OCR。在视频播放过程中，视频中每一帧图像可能会频繁地出现新的文字，文字的字体、尺寸等属性还可能会出现变化，这就需要对视频中每一帧图像进行识别。但是目前的这些检测方式都需要对整张图像进行识别，检测速度较慢，难以及时地地检测出每一帧图像中的文字。

发明内容

本公开提供了文字检测方法、装置、电子设备和存储介质，以至少解决相关技术中的技术问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提出一种文字检测方法，包括：

获取所述视频第t+1帧图像中所述第一位置的像素的像素值P_t+1；

计算所述像素值P_t+1与所述预设模型中每个像素值的差值，以得到n个差值的绝对值，其中，所述预设模型为所述视频第t帧图像中所述第一位置的像素的n个邻像素的像素值的集合，n为超参数；

若所述n个绝对值中大于预设值的绝对值的数量大于预设数量，确定所述第t+1帧图像中所述第一位置的像素属于前景，连通属于前景的像素，构成至少一个连通区域；

对所述连通区域进行检测，以确定所述第t+1帧图像中的文字。

可选地，所述对所述连通区域进行检测，以确定所述第t+1帧图像中的文字包括：

分别计算每个所述连通区域与所述第t+1帧图像面积的比例，确定所述比例属于第一范围的第一类连通区域，和所述比例属于第二范围的第二类连通区域，其中，所述第二范围的下限值大于或等于所述第一范围的上限值；

通过分类网络对所述第一类连通区域进行初步检测；

若通过所述分类网络初步检测所述第一类连通区域中存在文字，通过光学字符识别检测所述第一类连通区域中的文字；

通过光学字符识别检测所述第二类连通区域中的文字；

根据所述第一类连通区域中的文字和所述第二类连通区域中的文字确定所述第t+1帧图像中的文字。

可选地，所述方法还包括：

若所述n个绝对值中大于预设值的绝对值的数量小于或等于预设数量，确定所述第t+1帧图像中所述第一位置的像素属于背景，并以1/m的概率将所述预设模型中的一个像素值替换为所述像素值P_t+1，其中，m为超参数；

若连续k帧确定所述第一位置的像素属于前景，将所述预设模型中的一个像素值替换为所述像素值P_t+1，其中，k为超参数。

可选地，在对所述连通区域进行检测，以所述连通区域中的文字之前，所述方法还包括：

通过开闭操作去除所述第t+1帧图像中属于噪声的连通区域。

可选地，在获取视频第t+1帧图像中第一位置的像素的像素值P_t+1之前，所述方法还包括：

通过光学字符识别检测所述视频的第一帧图像中的文字；

在所述文字中确定属于背景的背景文字；

其中，所述对所述连通区域进行检测，以确定所述第t+1帧图像中的文字包括：

对所述连通区域进行检测，以确定所述连通区域中的文字；

根据所述背景文字和所述连通区域中的文字确定所述第t+1帧图像中的文字。

根据本公开实施例的第二方面，提出一种文字检测装置，包括：

像素值获取模块，被配置为执行获取视频第t+1帧图像中所述第一位置的像素的像素值P_t+1；

绝对值计算模块，被配置为执行计算所述像素值P_t+1与所述预设模型中每个像素值的差值，以得到n个差值的绝对值，其中，所述预设模型为所述视频第t帧图像中所述第一位置的像素的n个邻像素的像素值的集合，n为超参数；

区域连通模块，被配置为执行在所述n个绝对值中大于预设值的绝对值的数量大于预设数量时，确定所述第t+1帧图像中所述第一位置的像素属于前景，连通属于前景的像素，构成至少一个连通区域；

文字检测模块，被配置为执行对所述连通区域进行检测，以确定所述第t+1帧图像中的文字。

可选地，所述文字检测模块包括：

区域确定子模块，被配置为执行分别计算每个所述连通区域与所述第t+1帧图像面积的比例，确定所述比例属于第一范围的第一类连通区域，和所述比例属于第二范围的第二类连通区域，其中，所述第二范围的下限值大于或等于所述第一范围的上限值；

初步检测子模块，被配置为执行通过分类网络对所述第一类连通区域进行初步检测；

光学识别子模块，被配置为执行在通过所述分类网络初步检测所述第一类连通区域中存在文字时，通过光学字符识别检测所述第一类连通区域中的文字，以及通过光学字符识别检测所述第二类连通区域中的文字；

文字确定子模块，被配置为执行根据所述第一类连通区域中的文字和所述第二类连通区域中的文字确定所述第t+1帧图像中的文字。

可选地，所述装置还包括：

模型更新模块，被配置为执行在得到n个差值的绝对值之前，在所述n个绝对值中大于预设值的绝对值的数量小于或等于预设数量时，确定所述第t+1帧图像中所述第一位置的像素属于背景，并以1/m的概率将所述预设模型中的一个像素值替换为所述像素值P_t+1，其中，m为超参数；以及在连续k帧确定所述第一位置的像素属于前景时，将所述预设模型中的一个像素值替换为所述像素值P_t+1，其中，k为超参数。

可选地，所述装置还包括：

噪声去除模块，被配置为执行通过开闭操作去除所述第t+1帧图像中属于噪声的连通区域。

可选地，所述文字检测模块，还被配置为通过光学字符识别检测所述视频的第一帧图像中的文字；

所述文字检测模块，还被配置为在所述文字中确定属于背景的背景文字；以及对所述连通区域进行检测，以确定所述连通区域中的文字；并根据所述背景文字和所述连通区域中的文字确定所述第t+1帧图像中的文字。

根据本公开实施例的第三方面，提出一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述任一实施例所述的文字检测方法。

根据本公开实施例的第四方面，提出一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一实施例所述的文字检测方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品被配置为执行上述任一实施例所述的文字检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的实施例，可以通过构建像素的预设模型，然后基于像素的预设模型来比较相邻两帧图像中像素的差异，进而准确地确定图像中的前景区域，再对前景区域进行检测来确定图像中的文字。由于确定了前景图像，因此在播放视频的每一帧图像时，只需对当前帧的前景进行检测，而不必对整张图像进行检测，以便快速地检测出图像中的文字。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开实施例示出的一种文字检测方法的示意流程图。

图2是根据本公开实施例示出的另一种文字检测方法的示意流程图。

图3是根据本公开实施例示出的又一种文字检测方法的示意流程图。

图4是根据本公开实施例示出的又一种文字检测方法的示意流程图。

图5是根据本公开实施例示出的又一种文字检测方法的示意流程图。

图6是根据本公开实施例示出的一种文字检测装置的示意框图。

图7是根据本公开实施例示出的一种文字检测模块的示意框图。

图8是根据本公开实施例示出的另一种文字检测装置的示意框图。

图9是根据本公开实施例示出的又一种文字检测装置的示意框图。

图10是根据本公开的实施例示出的一种电子设备的示意框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据本公开实施例示出的一种文字检测方法的示意流程图。所述文字检测方法可以适用于终端，例如手机、平板电脑、可穿戴设备等，也可以适用于服务器，例如可以是本地服务器，也可以是云端服务器。

如图1所示，所述文字检测方法可以包括以下步骤：

在步骤S101中，获取视频第t+1帧图像中第一位置的像素的像素值P_t+1；

在步骤S102中，计算所述像素值P_t+1与预设模型中每个像素值的差值，以得到n个差值的绝对值，其中，所述预设模型为所述视频第t帧图像中所述第一位置的像素的n个邻像素的像素值的集合，n为超参数；

在步骤S103中，若所述n个绝对值中大于预设值的绝对值的数量大于预设数量，确定所述第t+1帧图像中所述第一位置的像素属于前景，连通属于前景的像素，构成至少一个连通区域；

在步骤S104中，对所述连通区域进行检测，以确定所述第t+1帧图像中的文字。

所述视频可以是直播视频，直播的播主和观众可以在输入文字并在视频中实时地显示。步骤S101至步骤S104以及后续实施例中的步骤，可以在视频播放过程中执行，例如步骤S101可以在播放第t帧图像之后，播放第t+1帧图像之前执行，步骤S102可以在播放第t+1帧图像时执行，从而可以在视频播放过程中实时地确定出每一帧图像中的文字。

在一个实施例中，针对视频的图像中每个位置的像素，可以构建像素对应的预设模型，例如对于视频的第t帧图像而言，其中第一位置(是指图像中的任一位置)的像素的预设模型，可以是该像素的n个邻像素的像素值的集合。

该预设模型可以表示为M_t(x,y)＝{c₁,c₂,…,c_n}，(x,y)表示图像中第一位置的坐标，下角标t表示第t帧图像，c₁至c_n表示第一位置(x,y)的像素的n个邻像素的像素值。

该预设模型也可以表示为M_t(x,y)＝{P_t(z|z∈NG(x,y))}，(x,y)表示图像中第一位置的坐标，下角标t表示第t帧图像，NG(x,y)表示第一位置(x,y)邻像素的位置，z表示NG(x,y)中的任一个坐标，P_t(z|z∈NG(x,y)表示第t帧图像中z坐标的像素值。

需要说明的是，本公开所指的邻像素，不仅包括与第一位置的像素相邻的像素，还可以包括第一位置的像素本身。

并且，与第一位置的像素相邻的像素，可以包括与第一位置的像素直接相邻的像素，还可以包括与第一位置的像素间接相邻的像素，也即与第一位置的像素相隔的像素，少于预设个数的像素。其中，与第一位置的像素直接相邻的像素，可以包括第一位置上、下、左、右四个位置的像素，还可以包括第一位置左上、右上、左下、右下四个位置的像素。

在构建第t帧图像中第一位置的像素的预设模型后，可以保存该预设模型，然后在播放视频第t+1帧图像时，获取中第t+1帧图像中所述第一位置的像素的像素值P_t+1，并计算所述像素值P_t+1与所述预设模型中每个像素值的差值，以得到n个差值的绝对值，也即将像素值P_t+1分别与M_t(x,y)中的c₁至c_n分别作差，得到n个差值，并对n个差值取绝对值，得到n个差值的绝对值。

在直播过程中，背景一般是保持不变的，例如播主在直播过程中，背景可能始终是自身的房间，所以位于背景内像素的像素值，在连续几帧图像内一般不会改变。而前景需要显示文字等播主和观众输入的内容，因此会频繁地变更，所以相邻两帧图像(例如第t帧和第t+1帧)内前景内像素的像素值一般会有所不同。

本实施例通过n个绝对值，表示第t+1帧中第一位置的像素的像素值，与第t+1帧中第一位置的像素的邻像素的像素值的差异。例如n个绝对值中大于预设值的绝对值的数量大于预设数量，那么说明第t+1帧中第一位置的像素的像素值，相对于第t+1帧中第一位置的像素的邻像素的像素值发生了较大改变，从而较大概率可以判定第t+1帧图像中第一位置的像素属于前景。进而可以连通属于前景的像素，构成至少一个连通区域，再对连通区域进行检测，例如通过OCR检测，将检测出的文字作为第t+1帧图像中的文字。

根据本公开的实施例，可以基于像素的预设模型来比较相邻两帧图像中像素的差异，进而准确地确定图像中的前景区域，再对前景区域进行检测来确定图像中的文字。由于确定了前景图像，因此在播放视频的每一帧图像时，只需对当前帧的前景进行检测，而不必对整张图像(包括前景和背景)进行检测，以便快速地检测出图像中的文字。

图2是根据本公开实施例示出的另一种文字检测方法的示意流程图。如图2所示，所述对所述连通区域进行检测，以确定所述第t+1帧图像中的文字包括：

在步骤S1041中，分别计算每个所述连通区域与所述第t+1帧图像面积的比例，确定所述比例属于第一范围的第一类连通区域，和所述比例属于第二范围的第二类连通区域，其中，所述第二范围的下限值大于或等于所述第一范围的上限值；

在步骤S1042中，通过分类网络对所述第一类连通区域进行初步检测；

在步骤S1043中，若通过所述分类网络初步检测所述第一类连通区域中存在文字，通过光学字符识别检测所述第一类连通区域中的文字；

在步骤S1044中，通过光学字符识别检测所述第二类连通区域中的文字；

在步骤S1045中，根据所述第一类连通区域中的文字和所述第二类连通区域中的文字确定所述第t+1帧图像中的文字。

其中步骤S1043需要在步骤S1042之后执行，而步骤S1044的执行顺序则可以根据需要进行调整，例如可以在步骤S1042之前执行，也可以在步骤S1042之后执行，例如与步骤S1043一起执行。

在一个实施例中，可以确定出一个或多个连通区域，对于确定出的连通区域，可以计算每个连通区域与第t+1帧图像面积的比例，具体地，可以预先设定两个范围，其中第一范围包含较低的比例，第二范围包含较高的比例，具体地，第二范围的下限值大于或等于第一范围的上限值，例如第一范围可以是0.5％至5％，第二范围为可以是大于5％。

由于图像的文字一般会组成词、句出现，而很少单独的出现，所以文字在图像中的占比一般不会很小。那么对于比例属于第一范围的连通区域而言，其在图像中所占面积的比例较小，因此可能是噪声，或者因为播主打光的问题，使得图像上出现的光线不均匀的区域，但是也有可能是较少字符构成的短句，因此可以先将比例属于第一范围的连通区域输入到分类网络中进行初步检测。

其中，所述分类网络包括但不限于vgg16、resnet(18/34/50/101/152)等，分类网络检测所需的时间远小于光学字符识别所需的时间，因此可以在通过分类网络初步检测第一类连通区域中存在文字的情况下，才通过光学字符识别检测第一类连通区域中的文字，而若通过分类网络初步检测第一类连通区域中不存在文字，则无需再通过光学字符识别检测第一类连通区域，从而可以有效地节约检测时间。

而对于比例属于第二范围的连通区域而言，其很大概率包含文字，因此可以直接通过光学字符识别检测。进而将从第一类连通区域中检测出的文字和从第二类连通区域中检测出的文字作为第t+1帧图像中的文字。

图3是根据本公开实施例示出的又一种文字检测方法的示意流程图。如图3所示，所述方法还包括：

在步骤S105中，若所述n个绝对值中大于预设值的绝对值的数量小于或等于预设数量，确定所述第t+1帧图像中所述第一位置的像素属于背景，并以1/m的概率将所述预设模型中的一个像素值替换为所述像素值P_t+1，其中，m为超参数；

在步骤S106中，若连续k帧确定所述第一位置的像素属于前景，将所述预设模型中的一个像素值替换为所述像素值P_t+1，其中，k为超参数。

在一个实施例中，由于直播视频图像中的文字一般是滚动出现的，例如以弹幕形式出现，所以某个位置的像素一般不会长期属于前景，所以对于属于前景的某个位置的像素而言，可以判定该位置的像素连续多少帧被判定为属于前景，若连续k帧被判定为属于前景，那么该位置的像素可能是因为外界因素影响，例如收到播主打光的影响，导致被误判断为前景。

因此对于这种像素，可以将所述预设模型中的一个像素值替换为所述像素值P_t+1，也即将c₁至c_n中的某个值替换为像素值P_t+1，从而在后续获取视频第t+1帧图像中第一位置的像素的像素值P_t+1，计算像素值P_t+1与所述预设模型中每个像素值的差值，以得到n个差值的绝对值时，由于c₁至c_n中存在像素值P_t+1，那么必然有一个绝对值等于0，从而可以使得n个绝对值中大于预设值的绝对值的数量较少，因此更容易被判定为属于背景，而不会将其作为前景来检测其中的文字，减少了不必要的检测操作。

而与判定前景相对应地，若n个绝对值中大于预设值的绝对值的数量小于或等于预设数量，可以确定第t+1帧图像中第一位置的像素属于背景。对于属于背景的像素，可以以1/m的概率将所述预设模型中的一个像素值替换为所述像素值P_t+1。

由于视频不同帧的图像的背景也会存在微小的像素变化，例如不同帧的图像中灯光非常小的变化就会导致背景的不同，如果这类变化积累，则可能导致在某一时刻产生误检，例如将属于背景的像素判定为属于前景。因此，为了减少该类变化造成的影响，在预设模型更新的过程中，本实施对于属于背景的像素以1/m的概率更新。

图4是根据本公开实施例示出的又一种文字检测方法的示意流程图。如图4所示，在获取视频第t+1帧图像中第一位置的像素的像素值P_t+1之前，所述方法还包括：

在步骤S107中，通过开闭操作去除所述第t+1帧图像中属于噪声的连通区域。

在一个实施例中，由于判定属于前景的像素，分布可能较为分散，可是实际上文字在图像中出现的位置不会太过分散，而是会集中出现，所以在得到连通区域后，可以对t+1帧图像进行开操作和闭操作，以去除面积过小的连通区域，这种连通区域一般属于噪声，将其去除可以确保后续检测文字的动作，是针对真实存在文字连通区域，有利于避免对不存在文字的区域进行检测而降低检测速度。

图5是根据本公开实施例示出的又一种文字检测方法的示意流程图。如图5所示，在构建视频第t帧图像中第一位置的像素的预设模型之前，所述方法还包括：

在步骤S108中，通过光学字符识别检测所述视频的第一帧图像中的文字；

在步骤S109中，在所述文字中确定属于背景的背景文字；

在步骤S1046中，对所述连通区域进行检测，以确定所述连通区域中的文字；

在步骤S1047中，根据所述背景文字和所述连通区域中的文字确定所述第t+1帧图像中的文字。

在一个实施例中，由于直播视频的背景一般保持不变，因此对于直播视频的第一帧图像，可以通过光学字符识别检测所述视频的第一帧图像中的文字，然后在确定的文字中进一步确定属于背景的背景文字。

例如可以先记录第一帧图像中文字的位置，然后在t＝1的情况下，执行上述步骤S101至步骤S104，从而在n个绝对值中大于预设值的绝对值的数量小于或等于预设数量，可以确定第2帧图像中第一位置的像素属于背景，进而确定第一帧图像中文字的位置在第2帧图像背景中的背景位置，那么背景位置对应的文字就是背景文字。

由于背景一般是保持不变的，所以背景文字一般也是保持不变的，所以每一帧图像中的文字都包括背景文字。因此在确定第t+1帧图像中的文字时，不仅需要确定检测到的前景中连通区域中的文字，还需要确定背景文字，并将所确定到的背景文字和连通区域中的文字作为第t+1帧图像中的文字，从而全面地确定第t+1帧图像中的文字。

与前述文字检测方法的实施例相对应地，本公开还提出了文字检测装置的实施例。

图6是根据本公开实施例示出的一种文字检测装置的示意框图。所述文字检测装置可以适用于终端，例如手机、平板电脑、可穿戴设备等，也可以适用于服务器，例如可以是本地服务器，也可以是云端服务器。

如图6所示，所述文字检测装置可以包括：

像素值获取模块101，被配置为执行获取视频第t+1帧图像中所述第一位置的像素的像素值P_t+1；

绝对值计算模块102，被配置为执行计算所述像素值P_t+1与所述预设模型中每个像素值的差值，以得到n个差值的绝对值，其中，所述预设模型为所述视频第t帧图像中所述第一位置的像素的n个邻像素的像素值的集合，n为超参数；

区域连通模块103，被配置为执行在所述n个绝对值中大于预设值的绝对值的数量大于预设数量时，确定所述第t+1帧图像中所述第一位置的像素属于前景，连通属于前景的像素，构成至少一个连通区域；

文字检测模块104，被配置为执行对所述连通区域进行检测，以确定所述第t+1帧图像中的文字。

图7是根据本公开实施例示出的一种文字检测模块的示意框图。如图7所示，所述文字检测模块104包括：

区域确定子模块1041，被配置为执行分别计算每个所述连通区域与所述第t+1帧图像面积的比例，确定所述比例属于第一范围的第一类连通区域，和所述比例属于第二范围的第二类连通区域，其中，所述第二范围的下限值大于或等于所述第一范围的上限值；

初步检测子模块1042，被配置为执行通过分类网络对所述第一类连通区域进行初步检测；

光学识别子模块1043，被配置为执行在通过所述分类网络初步检测所述第一类连通区域中存在文字时，通过光学字符识别检测所述第一类连通区域中的文字，以及通过光学字符识别检测所述第二类连通区域中的文字；

文字确定子模块1044，被配置为执行根据所述第一类连通区域中的文字和所述第二类连通区域中的文字确定所述第t+1帧图像中的文字。

图8是根据本公开实施例示出的另一种文字检测装置的示意框图。如图8所示，所述装置还包括：

模型更新模块105，被配置为执行在得到n个差值的绝对值之前，在所述n个绝对值中大于预设值的绝对值的数量小于或等于预设数量时，确定所述第t+1帧图像中所述第一位置的像素属于背景，并以1/m的概率将所述预设模型中的一个像素值替换为所述像素值P_t+1，其中，m为超参数；以及在连续k帧确定所述第一位置的像素属于前景时，将所述预设模型中的一个像素值替换为所述像素值P_t+1，其中，k为超参数。

图9是根据本公开实施例示出的又一种文字检测装置的示意框图。如图9所示，所述装置还包括：

噪声去除模块106，被配置为执行通过开闭操作去除所述第t+1帧图像中属于噪声的连通区域。

本公开的实施例还提出一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

本公开的实施例还提出一种一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一实施例所述的文字检测方法。

本公开的实施例还提出一种计算机程序产品，所述计算机程序产品被配置为执行上述任一实施例所述的文字检测方法。

图10是根据本公开的实施例示出的一种电子设备的示意框图。例如，电子设备1000可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图10，电子设备1000可以包括以下一个或多个组件：处理组件1002，存储器1004，电源组件1006，多媒体组件1008，音频组件1010，输入/输出(I/O)的接口1012，传感器组件1014，以及通信组件1016。

处理组件1002通常控制电子设备1000的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令，以完成上述文字检测方法的全部或部分步骤。此外，处理组件1002可以包括一个或多个模块，便于处理组件1002和其他组件之间的交互。例如，处理组件1002可以包括多媒体模块，以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在电子设备1000的操作。这些数据的示例包括用于在电子设备1000上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1006为电子设备1000的各种组件提供电力。电源组件1006可以包括电源管理系统，一个或多个电源，及其他与为电子设备1000生成、管理和分配电力相关联的组件。

多媒体组件1008包括在电子设备1000和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1008包括一个前置摄像头和/或后置摄像头。当电子设备1000处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括一个麦克风(MIC)，当电子设备1000处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中，音频组件1010还包括一个扬声器，用于输出音频信号。

I/O接口1012为处理组件1002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为电子设备1000提供各个方面的状态评估。例如，传感器组件1014可以检测到电子设备1000的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1000的显示器和小键盘，传感器组件1014还可以检测电子设备1000或电子设备1000一个组件的位置改变，用户与电子设备1000接触的存在或不存在，电子设备1000方位或加速/减速和电子设备1000的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1016被配置为便于电子设备1000和其他设备之间有线或无线方式的通信。电子设备1000可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在本公开一实施例中，电子设备1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述文字检测方法。

在本公开一实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1004，上述指令可由电子设备1000的处理器1020执行以完成上述文字检测方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本公开实施例所提供的方法和装置进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的一般技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

Claims

1.一种文字检测方法，其特征在于，包括：

获取视频第t+1帧图像中第一位置的像素的像素值P_t+1；

计算所述像素值P_t+1与预设模型中每个像素值的差值，以得到n个差值的绝对值，其中，所述预设模型为所述视频第t帧图像中所述第一位置的像素的n个邻像素的像素值的集合，n为超参数；

对所述连通区域进行检测，以确定所述第t+1帧图像中的文字；其中，

所述对所述连通区域进行检测，以确定所述第t+1帧图像中的文字包括：

通过分类网络对所述第一类连通区域进行初步检测；

通过光学字符识别检测所述第二类连通区域中的文字；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1至2中任一项所述的方法，其特征在于，在对所述连通区域进行检测，以所述连通区域中的文字之前，所述方法还包括：

通过开闭操作去除所述第t+1帧图像中属于噪声的连通区域。

4.根据权利要求1至2中任一项所述的方法，其特征在于，在获取视频第t+1帧图像中第一位置的像素的像素值P_t+1之前，所述方法还包括：

通过光学字符识别检测所述视频的第一帧图像中的文字；

在所述文字中确定属于背景的背景文字；

对所述连通区域进行检测，以确定所述连通区域中的文字；

5.一种文字检测装置，其特征在于，包括：

像素值获取模块，被配置为执行获取视频第t+1帧图像中第一位置的像素的像素值P_t+1；

绝对值计算模块，被配置为执行计算所述像素值P_t+1与预设模型中每个像素值的差值，以得到n个差值的绝对值，其中，所述预设模型为所述视频第t帧图像中所述第一位置的像素的n个邻像素的像素值的集合，n为超参数；

文字检测模块，被配置为执行对所述连通区域进行检测，以确定所述第t+1帧图像中的文字；其中，所述文字检测模块包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5至6中任一项所述的装置，其特征在于，所述装置还包括：

8.根据权利要求5至6中任一项所述的装置，其特征在于，所述文字检测模块，还被配置为通过光学字符识别检测所述视频的第一帧图像中的文字；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的文字检测方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至4中任一项所述的文字检测方法。