CN108345886A

CN108345886A - 一种视频流文本识别方法和装置

Info

Publication number: CN108345886A
Application number: CN201710050733.XA
Authority: CN
Inventors: 许盛辉; 马龙; 苏雪峰
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2018-07-31

Abstract

本申请实施例提供了一种视频流文本识别方法和装置，包括：按照预设时间间隔获取视频流图像；检测所述视频流图像中的文本区域；比较T(n)时刻的视频流图像的文本区域与T(n‑1)时刻的视频流图像的文本区域；根据比较结果，确定新增文本区域；对所述新增文本区域进行文本识别，获得新增识别文本；将所述新增识别文本与针对T(n‑1)时刻的视频流图像的识别文本组合为T(n)时刻的视频流图像的识别文本。本申请实施例中，利用了前后帧的图像的重叠信息，将对整幅图像的识别简化为对新增识别区域中的文本进行识别，减少了需要识别的文本的数量，从而提高对视频流图像进行识别的速度。

Description

一种视频流文本识别方法和装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种视频流文本识别方法和一种视频流文本识别装置。

背景技术

光学字符识别OCR(Optical Character Recognition)技术是图像处理领域的一种重要技术，可以实现对图像中的文字进行识别。

光学字符识别技术不仅仅可以用来对单张的图像进行识别，也可以对视频流中出现的文字进行识别。目前，在对视频流中出现的文字进行识别的方式为：获取视频流中的图像，对获取的整幅图像中的字符进行识别。

这种对整幅图像进行识别的方法，识别速度慢，对完整视频流进行文本识别将需要耗费大量的时间，对实时性要求很高的需求难以满足。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频流文本识别方法和一种视频流文本识别装置。

为了解决上述问题，本申请实施例公开了一种视频流文本识别方法，包括：

按照预设时间间隔获取视频流图像；

检测所述视频流图像中的文本区域；

比较T(n)时刻的视频流图像的文本区域与T(n-1)时刻的视频流图像的文本区域；

根据比较结果，确定新增文本区域；

对所述新增文本区域进行文本识别，获得新增识别文本；

将所述新增识别文本与针对T(n-1)时刻的视频流图像的识别文本组合为T(n)时刻的视频流图像的识别文本。

优选的，所述根据比较结果，确定新增文本区域的步骤包括：

若所述比较结果为所述T(n)时刻的视频流图像的文本区域包含所述T(n-1)时刻的视频流图像的文本区域，则确定所述T(n)时刻的视频流图像的文本区域的重叠区域；

获得第一图像信息和第二图像信息，所述第一图像信息为所述T(n)时刻的视频流图像的文本区域的重叠区域的图像信息，第二图像信息为所述T(n-1)时刻的视频流图像的文本区域的图像信息；

比较所述第一图像信息和所述第二图像信息；

若所述第一图像信息与所述第二图像信息相同，且所述T(n)时刻的视频流图像的文本区域具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，则将所述T(n)时刻的视频流图像的文本区域超过所述T(n-1)时刻的视频流图像的文本区域的区域，确定为新增文本区域。

优选的，还包括：

若所述第一图像信息与第二图像信息相同，且所述T(n)时刻的视频流图像的文本区域不具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，则将所述T(n-1)时刻的视频流图像的识别文本，作为T(n)时刻的视频流图像的识别文本。

优选的，还包括：

若所述第一图像信息与第二图像信息不相同，则对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本。

优选的，还包括：

若所述比较结果为所述T(n)时刻的视频流图像的文本区域未包含所述T(n-1)时刻的视频流图像的文本区域，则对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本。

优选的，所述检测所述视频流图像中的文本区域的步骤包括：

对所述视频流图像进行二值化处理；

确定经过二值化处理的视频流图像中的连通域；

对所述经过二值化处理的视频流图像中的连通域进行合并，得到文本区域。

优选的，所述对所述新增文本区域进行文本识别，获得新增识别文本的步骤包括：

将所述新增文本区域输入预置的深度神经元网络；

将所述深度神经元网络的输出结果，作为新增识别文本。

优选的，所述对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本的步骤包括：

对所述T(n)时刻的视频流图像进行二值化处理，确定经过二值化处理的视频流图像中的连通域；

对所述T(n)时刻的视频流图像的文本区域按照连通域进行切分，得到多个子区域；

将各个子区域输入预置的深度神经元网络；

将所述深度神经元网络针对各个子区域的输出结果，作为识别文本。

本申请实施例还公开了一种视频流文本识别装置，包括：

图像获取模块，用于按照预设时间间隔获取视频流图像；

文本区域检测模块，用于检测所述视频流图像中的文本区域；

文本区域比较模块，用于比较T(n)时刻的视频流图像的文本区域与T(n-1)时刻的视频流图像的文本区域；

新增文本区域确定模块，用于根据比较结果，确定新增文本区域；

新增识别文本获得模块，用于对所述新增文本区域进行文本识别，获得新增识别文本；

第一图像识别文本获得模块，用于将所述新增识别文本与针对T(n-1)时刻的视频流图像的识别文本组合为T(n)时刻的视频流图像的识别文本。

优选的，所述新增文本区域确定模块包括：

重叠区域确定子模块，用于若所述比较结果为所述T(n)时刻的视频流图像的文本区域包含所述T(n-1)时刻的视频流图像的文本区域，则确定所述T(n)时刻的视频流图像的文本区域的重叠区域；

图像信息获得子模块，用于获得第一图像信息和第二图像信息，所述第一图像信息为所述T(n)时刻的视频流图像的文本区域的重叠区域的图像信息，第二图像信息为所述T(n-1)时刻的视频流图像的文本区域的图像信息；

图像信息比较子模块，用于比较所述第一图像信息和所述第二图像信息；

新增文本区域确定子模块，用于若所述第一图像信息与所述第二图像信息相同，且所述T(n)时刻的视频流图像的文本区域具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，则将所述T(n)时刻的视频流图像的文本区域超过所述T(n-1)时刻的视频流图像的文本区域的区域，确定为新增文本区域。

优选的，还包括：

第二图像识别文本获得模块，用于若所述第一图像信息与第二图像信息相同，且所述T(n)时刻的视频流图像的文本区域不具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，则将所述T(n-1)时刻的视频流图像的识别文本，作为T(n)时刻的视频流图像的识别文本。

优选的，还包括：

第三图像识别文本获得模块，用于若所述第一图像信息与第二图像信息不相同，则对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本。

优选的，还包括：

第四图像识别文本获得模块，用于若比较结果为所述T(n)时刻的视频流图像的文本区域未包含所述T(n-1)时刻的视频流图像的文本区域，则对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本。

优选的，所述文本区域检测模块包括：

二值化处理子模块，用于对所述视频流图像进行二值化处理；

第一连通域确定子模块，用于确定经过二值化处理的视频流图像中的连通域；

文本区域获得子模块，用于对所述经过二值化处理的视频流图像中的连通域进行合并，得到文本区域。

优选的，所述新增识别文本获得模块包括：

新增文本区域输入子模块，用于将所述新增文本区域输入预置的深度神经元网络；

新增识别文本获得子模块，用于将所述深度神经元网络的输出结果，作为新增识别文本。

优选的，所述第三图像识别文本获得模块包括：

第二连通域确定子模块，用于对所述T(n)时刻的视频流图像进行二值化处理，确定经过二值化处理的视频流图像中的连通域；

子区域获得子模块，用于对所述T(n)时刻的视频流图像的文本区域按照连通域进行切分，得到多个子区域；

子区域输入子模块，用于将各个子区域输入预置的深度神经元网络；

图像识别文本获得子模块，用于将所述深度神经元网络针对各个子区域的输出结果，作为识别文本。

本申请实施例还公开了一种用于视频流文本识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

按照预设时间间隔获取视频流图像；

检测所述视频流图像中的文本区域；

根据比较结果，确定新增文本区域；

对所述新增文本区域进行文本识别，获得新增识别文本；

本申请实施例包括以下优点：

本申请实施例中，在需要对当前的视频流图像进行文字识别时，首先确定当前的视频流图像与前一时间间隔视频流图像的新增文本区域，然后对新增文本区域进行识别，获得新增识别文本。最后结合新增识别文本和前一时间间隔视频流图像的识别文本，作为当前视频流图像的识别文本。本申请实施例中，利用了前后帧的图像的重叠信息，将对整幅图像的识别简化为对新增识别区域中的文本进行识别，减少了需要识别的文本的数量，从而提高对视频流图像进行识别的速度。

附图说明

图1是本申请的一种视频流文本识别方法实施例1的步骤流程图；

图2是本申请的一种视频流文本识别方法实施例2的步骤流程图；

图3是本申请实施例中经过二值化处理的图像；

图4是本申请实施例中连通域的示意图；

图5是本申请实施例中合并连通域的示意图；

图6是本申请实施例中时间间隔相邻的图像的文本区域的比较示意图；

图7是本申请实施例中深度神经元网络结构的示意图；

图8是本申请的一种视频流文本识别装置实施例的结构框图；

图9是根据一示例性实施例示出的用于视频流文本识别的装置框图；

图10是根据一示例性实施例示出的用于视频流文本识别的装置框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种视频流文本识别方法实施例1的步骤流程图，具体可以包括如下步骤：

步骤101，按照预设时间间隔获取视频流图像；

本申请实施例中，可以在视频流播放时，按预设的时间间隔获取视频流图像。例如，每隔1s获取一幅视频流图像。

视频流图像是指视频流中一帧的图像，一个视频流由多个帧图像组成，每一帧的图像都是静止的图像。在视频流播放时，文字随帧图像的播放逐渐显示。

步骤102，检测所述视频流图像中的文本区域；

文本区域是指图像中显示文字的区域。

步骤103，比较T(n)时刻的视频流图像的文本区域与T(n-1)时刻的视频流图像的文本区域；

T(n)时刻的视频流图像和T(n-1)时刻的视频流图像是预设时间间隔上相邻的两幅图像。例如，预设时间间隔为1s，T(n-1)时刻的视频流图像可以为第1s获取的视频流图像，T(n)时刻的视频流图像则为第2s获取的视频流图像。

步骤104，根据比较结果，确定新增文本区域；

比较预设时间间隔上相邻的两幅图像的文本区域，根据文本区域的比较结果，确定新增文本区域。新增文本区域是T(n)时刻的视频流图像的文本区域，比T(n-1)时刻的视频流图像的文本区域新增出来的文本区域。

步骤105，对所述新增文本区域进行文本识别，获得新增识别文本；

对新增文本区域中的文本信息进行识别，获得新增识别文本。通常新增文本区域中只有单个字符或者较短的字符串。

步骤106，将所述新增识别文本与针对T(n-1)时刻的视频流图像的识别文本组合为T(n)时刻的视频流图像的识别文本。

将新增识别文本和T(n-1)时刻的视频流图像的识别文本合起来，可以得到T(n)时刻的视频流图像的识别文本。

例如，T(n-1)时刻的视频流图像的识别文本为：“今天天气”，新增识别文本为：“真好”，那么T(n)时刻的视频流图像的识别文本为：“今天天气真好”。

T(n-1)时刻的视频流图像的识别文本是在先识别得到的文本，假如，T(n-1)时刻的视频流图像是第一幅获取的图像，可以对T(n-1)时刻的视频流图像完整的文字行区域进行文本识别，以获得T(n-1)时刻的视频流图像的识别文本。假如，T(n-1)时刻的视频流图像不是第一幅获取的图像，则可以采用本申请实施例中，将前一幅图像的识别文本与新增识别文本结合，作为T(n-1)时刻的视频流图像的识别文本。

参照图2，示出了本申请的一种视频流文本识别方法实施例2的步骤流程图，具体可以包括如下步骤：

步骤201，按照预设时间间隔获取视频流图像；

本申请实施例中，可以在视频流播放时，按预设的时间间隔获取视频流图像。

步骤202，检测所述视频流图像中的文本区域；

文本区域是指图像中显示文字的区域。

在本申请实施例中，所述步骤202具体可以包括如下子步骤S11-S13：

子步骤S11，对所述视频流图像进行二值化处理；

对图像进行二值化处理，是指将图像中的像素点的灰度值设置为0(黑色)或255(白色)。例如，采用大津阈值算法将图像转换为二值化图像。

大津阈值算法按图像的灰度特性，可以将图像分成背景和目标部分，在本实施例中，目标部分即为图像中需要显示文本的部分。通过大津阈值算法，可以将图像中的文本与文本周围的图像信息转换为不同的灰度值。参照图3所示为本申请实施例中经过二值化处理的图像。图中，“因当地人足大趾开而在古代得名“交趾”的是”为图像中的文本。对原始的图像采用大津阈值算法进行二值化处理，可以将图像中的文本与背景区分出来，并且简化图像中的信息。

子步骤S12，确定经过二值化处理的视频流图像中的连通域；

确定二值化图像的连通域的步骤可以为：以图像中的某个像素点为基础，如果其周围八邻域某点像素值也为与其相同，则以该像素点和与其像素值相同的像素点合并得到像素区域，并以合并后的区域为基础进一步扩张，直到无法继续合并，从而得到图像的连通域。

参照图4所示为本申请实施例中连通域的示意图。图中，每个字符周围的白色边框即表示一个连通域。每个连通域的确定方式可以为：以当前像素点为255的点为种子生长，如果周围八邻域某点像素值也为255，则合并像素点，并以合并的像素点为基础进一步扩张，直到无法生长为止，得到的整体输出为一个连通域。

子步骤S13，对所述经过二值化处理的视频流图像中的连通域进行合并，得到文本区域。

对各个连通域进行合并得到文本区域。具体的，可以按行来进行合并，即对同一行的连通域进行合并，最后合并得到的区域就是文本区域。

参照图5所示为本申请实施例中合并连通域的示意图。其中，对两行中的连通域按行进行合并，合并后得到两行的区域就是文本区域。

在本申请实施例中，如果二值化图像中检测不到连通域，则说明T(n)时刻的视频流图像的文本区域为空。因此，不对T(n)时刻的视频流图像进行文本识别。

步骤203，比较T(n)时刻的视频流图像的文本区域与T(n-1)时刻的视频流图像的文本区域，判断所述T(n)时刻的视频流图像的文本区域是否包含所述T(n-1)时刻的视频流图像的文本区域，如果是，进入步骤204；如果否，进入步骤212；

比较相邻时间间隔的两幅视频流图像的文本区域，并判断后一时刻的视频流图像的文本区域是否包含前一时刻的视频流图像的文本区域。

步骤204，若所述T(n)时刻的视频流图像的文本区域，包含了所述T(n-1)时刻的视频流图像的文本区域，则确定所述T(n)时刻的视频流图像的文本区域的重叠区域；

也就是说，如果当前时刻的视频流图像的文本区域包含了相邻时间间隔的前一时刻的视频流图像的文本区域，则将当前时刻的视频流图像的文本区域中与前一时刻的视频流图像的文本区域重叠的区域，作为当前时刻的视频流图像的重叠区域。

参照图6所示，为本申请实施例中相邻时间间隔的视频流图像的文本区域的比较示意图，图6仅为其中一种实现方式的举例示意，本申请其他实施例中，可以但不限于图6所示。其中，T(n)时刻的视频流图像的文本区域，包含了T(n-1)时刻的视频流图像的文本区域。在T(n)时刻的视频流图像的文本区域中，与T(n-1)时刻的视频流图像的文本区域重叠的区域，则为T(n)时刻的视频流图像的文本区域的重叠区域。

步骤205，获得第一图像信息和第二图像信息，所述第一图像信息为所述T(n)时刻的视频流图像的文本区域的重叠区域的图像信息，第二图像信息为所述T(n-1)时刻的视频流图像的文本区域的图像信息；

图像信息可以是图像中各个像素点的灰度值信息。进一步的，图像信息可以是，对图像进行二值化处理后各个像素点的灰度值信息。

具体的，所述第一图像信息可以为经过二值化处理的T(n)时刻的视频流图像的文本区域的重叠区域的图像信息；所述第二图像信息可以为经过二值化处理的T(n-1)时刻的视频流图像的文本区域的图像信息；

步骤206，比较所述第一图像信息和所述第二图像信息是否相同，如果是，即为所述第一图像信息与所述第二图像信息相同，进入步骤207；如果否，即为所述第一图像信息与所述第二图像信息不相同，进入步骤211；

步骤207，若所述第一图像信息与所述第二图像信息相同，进一步判断所述T(n)时刻的视频流图像的文本区域是否具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，如果是则进入步骤208；如果否，则进入步骤210；

步骤208，若所述第一图像信息与所述第二图像信息相同，且所述T(n)时刻的视频流图像的文本区域具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，则将所述T(n)时刻的视频流图像的文本区域超过所述T(n-1)时刻的视频流图像的文本区域的区域，确定为新增文本区域；

如果第一图像信息和第二图像信息相同，则说明T(n)时刻的视频流图像中显示的文本包括了T(n-1)时刻的视频流图像中显示的文本。如果T(n)时刻的视频流图像的文本区域还具有超过T(n-1)时刻的视频流图像的文本区域的区域，则说明T(n)时刻的视频流图像中显示的文本是T(n-1)时刻的视频流图像中显示的文本的基础上，新增了文本。因此，将T(n)时刻的视频流图像的文本区域超过T(n-1)时刻的视频流图像的文本区域的区域，确定为新增文本区域。

步骤209，对所述新增文本区域进行文本识别，获得新增识别文本；将所述新增识别文本与针对T(n-1)时刻的视频流图像的识别文本组合为T(n)时刻的视频流图像的识别文本，结束流程；

对新增文本区域进行文本识别的方法可以是采用单字符识别引擎。采用单字符识别引擎进行文本识别的步骤是：将新增文本区域中的图像输入到单字符识别核心中进行识别，通过动态规划寻找最优切分路径，最后输出评分最高的文本识别结果。单字符识别核心又分为两种，一种是基于手工设计特征的识别核心，另一种是基于卷积神经元网络CNN(Convolution Neural Network)的识别核心。

在本申请实施例中，所述步骤209所述的对所述新增文本区域进行文本识别，获得新增识别文本具体可以包括如下子步骤S21-S22：

子步骤S21，将所述新增文本区域输入预置的深度神经元网络；

子步骤S22，将所述深度神经元网络的输出结果，作为新增识别文本。

深度神经元网络是基于卷积神经元网络的识别核心，采用深度神经元网络进行文本识别的可以达到较高的识别率。目前，常用深度神经元网络的包括：AlexNet，goolgeNet，ResNet。

本申请实施例中，对视频流图像进行文本识别的速度，与新增文本区域中的字符数量成正比。如果新增文本区域中新增字符为n，处理系统对当前视频流图像进行识别的处理时间可以达到10*n毫秒左右。

参照图7，所示为本申请实施例中深度神经元网络结构的示意图。包括：45x45x3的输入层Input，其中45x45是指输入图像的大小，3是指图像的通道数，图像一般为RGB三个通道。然后跟着连续2个卷积层Conv、激活函数Relu和池化层Pool的组合，然后跟着一个卷积层Conv和一个激活函数Relu。其中每个卷积层的卷积核为3x3，步长S为1，卷积核数目D为16。激活函数Relu和池化层Pool的维度都为2x2。然后跟着是一个512维的全连接层。然后跟着一个激活函数Relu和一个流失层Dropout，最后跟着7728维度的输出层FC，表示7728个常见的字符集。

本领域技术人员应该可以理解，上述的深度神经元网络结构仅仅是本申请的示例，本领域技术人员可以采用其他深度神经元网络结构进行识别，本申请在此不作限制。

在识别得到新增识别文本后，将所述新增识别文本和相邻时间间隔的前一时刻的视频流图像的识别文本结合，作为当前时刻的视频流图像的识别文本。

步骤210，若所述第一图像信息与第二图像信息相同，且所述T(n)时刻的视频流图像的文本区域不具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，则将所述T(n-1)时刻的视频流图像的识别文本，作为T(n)时刻的视频流图像的识别文本，结束流程。

如果第一图像信息和第二图像信息相同，则说明T(n)时刻的视频流图像中显示的文本包括了T(n-1)时刻的视频流图像中显示的文本。如果T(n)时刻的视频流图像的文本区域不具有超过T(n-1)时刻的视频流图像的文本区域的区域，则说明T(n)时刻的视频流图像中显示的文本与T(n-1)时刻的视频流图像中显示的文本是一样的。因此，可以直接将T(n-1)时刻的视频流图像的识别文本作为T(n)时刻的视频流图像的识别文本。

步骤211，若所述第一图像信息与第二图像信息不相同，则对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本，结束流程。

在本申请实施例中，当T(n)时刻的视频流图像的文本区域，包含了所述T(n-1)时刻的视频流图像的文本区域时，如果第一图像信息与第二图像信息不相同，则说明T(n)时刻的视频流图像显示的文本不是在T(n-1)时刻的视频流图像的文本的基础上增加新字符得到的。因此，对于T(n)时刻的视频流图像，不能采用基于T(n-1)时刻的视频流图像的识别文本得到当前识别文本的方法，而是要对T(n)时刻的视频流图像的整个文本区域进行识别。

在本申请实施例中，步骤211所述的对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本的步骤可以包括如下子步骤S31-S33：

子步骤S31，对所述T(n)时刻的视频流图像的文本区域按照连通域进行切分，得到多个子区域；

其中，本实施例中，可以对所述T(n)时刻的视频流图像进行二值化处理，确定经过二值化处理的视频流图像中的连通域；

然后，对整个T(n)时刻的视频流图像的文本区域进行切分。切分的方式可以是按照连通域进行切分，将一个连通域作为一个子区域。

子步骤S32，将各个子区域输入预置的深度神经元网络；

子步骤S33，得到所述深度神经元网络针对各个子区域的输出结果，并整合后，作为T(n)时刻的视频流图像的识别文本。

步骤212，若所述T(n)时刻的视频流图像的文本区域，未包含所述T(n-1)时刻的视频流图像的文本区域，则对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本，结束流程。

在本申请实施例中，T(n)时刻的视频流图像的文本区域不包含T(n-1)时刻的视频流图像的文本区域，则说明T(n)时刻的视频流图像显示的文本与T(n-1)时刻的视频流图像显示的文本不相同，因此需要对T(n)时刻的视频流图像的整个文本区域进行识别。具体的识别方式，参见子步骤S31-子步骤S33。

本申请实施例中，在需要对当前的视频流图像进行文字识别时，首先确定当前的视频流图像与相邻时间间隔的前一时刻视频流图像的新增文本区域，然后对新增文本区域进行识别，获得新增识别文本。最后结合新增识别文本和前一时间间隔视频流图像的识别文本，作为当前视频流图像的识别文本。本申请实施例中，利用了前后帧的图像的重叠信息，将对整幅图像的识别简化为对新增识别区域中的文本进行识别，减少了需要识别的文本的数量，从而提高对视频流图像进行识别的速度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图8，示出了本申请的一种视频流文本识别装置实施例的结构框图，具体可以包括如下模块：图像获取模块301、文本区域检测模块302、文本区域比较模块303、新增文本区域确定模块304、新增识别文本获得模块305以及第一图像识别文本获得模块306；

所述图像获取模块301，用于按照预设时间间隔获取视频流图像；

所述文本区域检测模块302，用于检测所述视频流图像中的文本区域；

所述文本区域比较模块303，用于比较T(n)时刻的视频流图像的文本区域与T(n-1)时刻的视频流图像的文本区域；

所述新增文本区域确定模块304，用于根据比较结果，确定新增文本区域；

所述新增识别文本获得模块305，用于对所述新增文本区域进行文本识别，获得新增识别文本；

所述第一图像识别文本获得模块306，用于将所述新增识别文本与针对T(n-1)时刻的视频流图像的识别文本组合为T(n)时刻的视频流图像的识别文本。

在本申请实施例中，所述新增文本区域确定模块304可以包括：重叠区域确定子模块、图像信息获得子模块、图像信息比较子模块以及新增文本区域确定子模块；

所述重叠区域确定子模块，用于若所述比较结果为所述T(n)时刻的视频流图像的文本区域包含所述T(n-1)时刻的视频流图像的文本区域，则确定所述T(n)时刻的视频流图像的文本区域的重叠区域；

所述图像信息获得子模块，用于获得第一图像信息和第二图像信息，所述第一图像信息为所述T(n)时刻的视频流图像的文本区域的重叠区域的图像信息，第二图像信息为所述T(n-1)时刻的视频流图像的文本区域的图像信息；

所述图像信息比较子模块，用于比较所述第一图像信息和所述第二图像信息；

所述新增文本区域确定子模块，用于若所述第一图像信息，与所述第二图像信息相同，且所述T(n)时刻的视频流图像的文本区域具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，则将所述T(n)时刻的视频流图像的文本区域超过所述T(n-1)时刻的视频流图像的文本区域的区域，确定为新增文本区域。

在本申请实施例中，所述的装置还可以包括：第二图像识别文本获得模块；

所述第二图像识别文本获得模块，用于若所述第一图像信息与第二图像信息相同，且所述T(n)时刻的视频流图像的文本区域不具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，则将所述T(n-1)时刻的视频流图像的识别文本，作为T(n)时刻的视频流图像的识别文本。

在本申请实施例中，所述的装置还可以包括：第三图像识别文本获得模块；

所述第三图像识别文本获得模块，用于若所述第一图像信息与第二图像信息不相同，则对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本。

在本申请实施例中，所述的装置还可以包括：

第四图像识别文本获得模块，用于若所述比较结果为所述T(n)时刻的视频流图像的文本区域，未包含所述T(n-1)时刻的视频流图像的文本区域，则对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本。

在本申请实施例中，所述文本区域检测模块302可以包括：二值化处理子模块、第一连通域确定子模块以及文本区域获得子模块；

所述二值化处理子模块，用于对所述视频流图像进行二值化处理；

所述第一连通域确定子模块，用于确定经过二值化处理的视频流图像中的连通域；

所述文本区域获得子模块，用于对所述经过二值化处理的视频流图像中的连通域进行合并，得到文本区域。

在本申请实施例中，所述第一图像信息为经过二值化处理的T(n)时刻的视频流图像的文本区域的重叠区域的图像信息；所述第二图像信息为经过二值化处理的T(n-1)时刻的视频流图像的文本区域的图像信息。

在本申请实施例中，所述新增识别文本获得模块305可以包括：新增文本区域输入子模块和新增识别文本获得子模块；

所述新增文本区域输入子模块，用于将所述新增文本区域输入预置的深度神经元网络；

所述新增识别文本获得子模块，用于将所述深度神经元网络的输出结果，作为新增识别文本。

在本申请实施例中，所述第三图像识别文本获得模块可以包括：第二连通域确定子模块、子区域获得子模块、子区域输入子模块以及图像识别文本获得子模块；

所述第二连通域确定子模块，用于对所述T(n)时刻的视频流图像进行二值化处理，确定经过二值化处理的视频流图像中的连通域；

所述子区域获得子模块，用于对所述T(n)时刻的视频流图像的文本区域按照连通域进行切分，得到多个子区域；

所述子区域输入子模块，用于将各个子区域输入预置的深度神经元网络；

所述图像识别文本获得子模块，用于将所述深度神经元网络针对各个子区域的输出结果，作为识别文本。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图9是根据一示例性实施例示出的一种用于视频流文本识别的装置900作为终端时的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种视频流文本识别方法，所述方法包括：

按照预设时间间隔获取视频流图像；检测所述视频流图像中的文本区域；比较T(n)时刻的视频流图像的文本区域与T(n-1)时刻的视频流图像的文本区域；根据比较结果，确定新增文本区域；对所述新增文本区域进行文本识别，获得新增识别文本；将所述新增识别文本与针对T(n-1)时刻的视频流图像的识别文本组合为T(n)时刻的视频流图像的识别文本。

优选的，所述根据比较结果，确定新增文本区域的步骤包括：若所述比较结果为所述T(n)时刻的视频流图像的文本区域包含所述T(n-1)时刻的视频流图像的文本区域，则确定所述T(n)时刻的视频流图像的文本区域的重叠区域；获得第一图像信息和第二图像信息，所述第一图像信息为所述T(n)时刻的视频流图像的文本区域的重叠区域的图像信息，第二图像信息为所述T(n-1)时刻的视频流图像的文本区域的图像信息；比较所述第一图像信息和所述第二图像信息；若所述第一图像信息与所述第二图像信息相同，且所述T(n)时刻的视频流图像的文本区域具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，则将所述T(n)时刻的视频流图像的文本区域超过所述T(n-1)时刻的视频流图像的文本区域的区域，确定为新增文本区域。

优选的，还包括：若所述第一图像信息与第二图像信息相同，且所述T(n)时刻的视频流图像的文本区域不具有超过所述T(n-1)时刻的视频流图像的文本区域的区域，则将所述T(n-1)时刻的视频流图像的识别文本，作为T(n)时刻的视频流图像的识别文本。

优选的，还包括：若所述第一图像信息与第二图像信息不相同，则对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本。

优选的，还包括：若所述比较结果为所述T(n)时刻的视频流图像的文本区域未包含所述T(n-1)时刻的视频流图像的文本区域，则对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本。

优选的，所述检测所述视频流图像中的文本区域的步骤包括：对所述视频流图像进行二值化处理；确定经过二值化处理的视频流图像中的连通域；对所述经过二值化处理的视频流图像中的连通域进行合并，得到文本区域。

优选的，所述对所述新增文本区域进行文本识别，获得新增识别文本的步骤包括：将所述新增文本区域输入预置的深度神经元网络；将所述深度神经元网络的输出结果，作为新增识别文本。

优选的，所述对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本的步骤包括：对所述T(n)时刻的视频流图像进行二值化处理，确定经过二值化处理的视频流图像中的连通域；对所述T(n)时刻的视频流图像的文本区域按照连通域进行切分，得到多个子区域；将各个子区域输入预置的深度神经元网络；将所述深度神经元网络针对各个子区域的输出结果，作为识别文本。

图10是根据一示例性实施例示出的一种用于视频流文本识别的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种视频流文本识别方法和一种视频流文本识别装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

本申请实施例公开了A1、一种视频流文本识别方法，包括：

按照预设时间间隔获取视频流图像；

检测所述视频流图像中的文本区域；

根据比较结果，确定新增文本区域；

对所述新增文本区域进行文本识别，获得新增识别文本；

A2、如A1所述的方法，所述根据比较结果，确定新增文本区域的步骤包括：

比较所述第一图像信息和所述第二图像信息；

A3、如A2所述的方法，还包括：

A4、如A2或A3所述的方法，还包括：

A5、如A2所述的方法，还包括：

A6、如A1所述的方法，所述检测所述视频流图像中的文本区域的步骤包括：

对所述视频流图像进行二值化处理；

确定经过二值化处理的视频流图像中的连通域；

A7、如A1所述的方法，所述对所述新增文本区域进行文本识别，获得新增识别文本的步骤包括：

将所述新增文本区域输入预置的深度神经元网络；

将所述深度神经元网络的输出结果，作为新增识别文本。

A8、如A4或A5所述的方法，所述对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本的步骤包括：

将各个子区域输入预置的深度神经元网络；

申请实施例还公开了B9、一种视频流文本识别装置，包括：

图像获取模块，用于按照预设时间间隔获取视频流图像；

B10、如B9所述的装置，所述新增文本区域确定模块包括：

B11、如B10所述的装置，还包括：

B12、如B10或B11所述的装置，还包括：

B13、如B10所述的装置，还包括：

B14、如B9所述的装置，所述文本区域检测模块包括：

B15、如B9所述的装置，所述新增识别文本获得模块包括：

B16、如B12所述的装置，所述第三图像识别文本获得模块包括：

本申请实施例还公开了C17、一种用于视频流文本识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

按照预设时间间隔获取视频流图像；

检测所述视频流图像中的文本区域；

根据比较结果，确定新增文本区域；

对所述新增文本区域进行文本识别，获得新增识别文本；

Claims

1.一种视频流文本识别方法，其特征在于，包括：

按照预设时间间隔获取视频流图像；

检测所述视频流图像中的文本区域；

根据比较结果，确定新增文本区域；

对所述新增文本区域进行文本识别，获得新增识别文本；

2.根据权利要求1所述的方法，其特征在于，所述根据比较结果，确定新增文本区域的步骤包括：

比较所述第一图像信息和所述第二图像信息；

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求2或3所述的方法，其特征在于，还包括：

5.根据权利要求2所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述检测所述视频流图像中的文本区域的步骤包括：

对所述视频流图像进行二值化处理；

确定经过二值化处理的视频流图像中的连通域；

7.根据权利要求1所述的方法，其特征在于，所述对所述新增文本区域进行文本识别，获得新增识别文本的步骤包括：

将所述新增文本区域输入预置的深度神经元网络；

将所述深度神经元网络的输出结果，作为新增识别文本。

8.根据权利要求4或5所述的方法，其特征在于，所述对所述T(n)时刻的视频流图像的文本区域进行文本识别，获得T(n)时刻的视频流图像的识别文本的步骤包括：

将各个子区域输入预置的深度神经元网络；

9.一种视频流文本识别装置，其特征在于，包括：

图像获取模块，用于按照预设时间间隔获取视频流图像；

10.一种用于视频流文本识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

按照预设时间间隔获取视频流图像；

检测所述视频流图像中的文本区域；

根据比较结果，确定新增文本区域；

对所述新增文本区域进行文本识别，获得新增识别文本；