CN111695381B

CN111695381B - 一种文本特征提取方法、装置、电子设备及可读存储介质

Info

Publication number: CN111695381B
Application number: CN201910190109.9A
Authority: CN
Inventors: 卢晶
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2024-02-02
Anticipated expiration: 2039-03-13
Also published as: CN111695381A

Abstract

本发明实施例提供了一种文本特征提取方法、装置、电子设备及可读存储介质，方案如下：可以获取包含第一文本区域的待处理图像；将待处理图像输入预设卷积神经网络，得到第一文本区域的第一文本特征信息。其中，预设卷积神经网络是通过包含样本文本区域的多组样本图像训练得到的，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与所述第一样本图像的文本内容信息不同的第二样本图像。通过本发明实施例提供的方案，可以在文本特征提取过程中，提高文本特征信息提取的准确度，进而提高视频数据中文本区域图像匹配的准确度。

Description

一种文本特征提取方法、装置、电子设备及可读存储介质

技术领域

本发明涉及流媒体视频技术领域，特别是涉及一种特征提取方法、装置、电子设备及可读存储介质。

背景技术

近些年来出现了众多基于静态图像的文本识别方法，但是基于视频数据的文本识别方法却相对较少。因为视频数据相比静态图像更易受到外界环境中各种噪声的干扰，例如，光照的变化、运动模糊、文本字体大小的变化、遮挡等都会影响视频数据。因此，为了保证视频数据中所有帧的图像质量均保持较高的水准，可以采用文本追踪技术在视频数据的不同帧之间匹配关联属于同一文本的文本区域图像，获取相同文本的文本图像序列，从而根据匹配关联的结果，结合质量较高帧的识别结果来修正质量较低帧中不可信的识别结果。

在视频数据的不同帧之间匹配关联的属于同一文本的文本区域图像时，通过边缘检测、图像直方图等技术对文本区域图像进行处理，提取到文本区域图像的文本特征，如文本位置信息、颜色直方图信息、运动信息等低层的图像外观信息。根据不同文本区域图像的低层的图像外观信息，将属于同一文本的文本图像区域进行匹配关联。

在上述文本特征提取过程中，由于低层的图像外观信息易受到外界噪声的影响，会出现图像失真的现象，并且，在相同的背景环境中，包含不同文本的文本图像区域其外观可能较为相似，提取的低层的图像外观信息将会出现偏差，将不同文本的文本区域图像匹配关联，影响文本区域图像匹配结果。

发明内容

本发明实施例的目的在于提供一种文本特征提取方法、装置、电子设备及可读存储介质，以提高文本特征信息提取的准确度，进而提高视频数据中文本区域图像匹配的准确度。具体技术方案如下：

本发明实施例提供了一种文本特征提取方法，所述方法包括：

获取包含第一文本区域的待处理图像；

将所述待处理图像输入预设卷积神经网络，得到所述第一文本区域的第一文本特征信息，其中，所述预设卷积神经网络是通过包含样本文本区域的多组样本图像训练得到的，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与所述第一样本图像的文本内容信息不同的第二样本图像。

可选的，所述预设卷积神经网络的卷积层数小于或等于预设卷积层数。

可选的，所述预设卷积神经网络采用如下步骤训练得到，包括：

获取所述预设卷积神经网络和所述多组样本图像；

将所述多组样本图像分别输入所述预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息；

基于得到的各样本图像的样本文本特征信息，确定各样本图像之间的特征距离；

基于所述特征距离确定所述预设卷积神经网络是否收敛；

若未收敛，则调节所述预设卷积神经网络的参数，并返回执行所述将所述多组样本图像分别输入所述预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息的步骤；

若收敛，则结束所述预设卷积神经网络的训练。

可选的，所述基于得到的各样本图像的样本文本特征信息，确定各样本图像之间的特征距离的步骤，包括：

根据每组样本图像中所述第一样本图像的样本文本特征信息，确定所述多组样本图像中各第一样本图像之间的第一特征距离；

根据每组样本图像中所述第一样本图像的样本文本特征信息，以及所述第二样本图像的样本文本特征信息，确定所述多组样本图像中各样本图像之间的第二特征距离。

可选的，所述根据每组样本图像中所述第一样本图像的样本文本特征信息，确定所述多组样本图像中各第一样本图像之间的第一特征距离的步骤，包括：

利用以下公式，确定所述多组样本图像中各第一样本图像之间的第一特征距离L_c：

其中，N为所述多组样本图像的组数，i为第i组样本图像，a、p为所述第一样本图像的标号，f_ai为第i组样本图像中第一样本图像a的样本文本特征信息，f_pi为第i组样本图像中第一样本图像p的样本文本特征信息，‖*‖为欧式距离。

可选的，所述根据每组样本图像中所述第一样本图像的样本文本特征信息，以及所述第二样本图像的样本文本特征信息，确定所述多组样本图像中各样本图像之间的第二特征距离的步骤，包括：

利用以下公式，确定所述多组样本图像中各样本图像之间的第二特征距离L_t：

其中，N为所述多组样本图像的组数，i为第i组样本图像，a、p为所述第一样本图像的标号，n为所述第二样本图像的标号，f_ai为第i组样本图像中第一样本图像a的样本文本特征信息，f_pi为第i组样本图像中第一样本图像p的样本文本特征信息，f_ni为第i组样本图像中第二样本图像n的样本文本特征信息，α为预设特征距离，‖*‖为欧式距离。

可选的，所述基于所述特征距离确定所述预设卷积神经网络是否收敛的步骤，包括：

确定所述第一特征距离是否小于第一预设阈值，并确定所述第二特征距离是否小于第二预设阈值；

若所述第一特征距离小于所述第一预设阈值，且所述第二特征距离小于所述第二预设阈值，则确定所述预设卷积神经网络收敛；否则，确定所述预设卷积神经网络未收敛。

可选的，所述获取包含第一文本区域的待处理图像的步骤，包括：

获取待处理视频中的包含第一文本区域的目标帧图像；

从所述目标帧图像中截取第一文本区域处的图像，作为待处理图像。

可选的，所述待处理图像为待处理视频的一帧图像中的包含文本区域的图像；

在所述将所述待处理图像输入预设卷积神经网络中，得到所述第一文本区域的第一文本特征信息的步骤之后，还包括：

确定所述待处理视频中其他图像中的第二文本区域的第二文本特征信息；

计算所述第一文本特征信息与所述第二文本特征信息的相似度；

基于所述相似度，确定所述待处理图像与所述其他图像是否匹配。

本发明实施例还提供了一种卷积神经网络训练方法，所述方法包括：

获取预设卷积神经网络和包含样本文本区域的多组样本图像，其中，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的样本内容与所述第一样本图像的文本内容信息不同的第二样本图像；

将所述多组样本图像分别输入所述预设卷积神经网络，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息；

基于所述特征距离确定所述预设卷积神经网络是否收敛；

若未收敛，则调节所述预设卷积神经网络中的参数，并返回执行所述将所述多组样本图像分别输入所述预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息的步骤；

若收敛，则结束所述预设卷积神经网络的训练。

本发明实施例还提供了一种文本特征提取装置，所述装置包括：

图像获取模块，用于获取包含第一文本区域的待处理图像；

第一特征提取模块，用于将所述待处理图像输入预设卷积神经网络，得到所述第一文本区域的第一文本特征信息，其中，所述预设卷积神经网络是通过包含样本文本区域的多组样本图像训练得到的，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域包含的文本内容信息与所述第一样本图像的文本内容信息不同的第二样本图像。

可选的，所述装置还包括：

第一获取模块，用于获取所述预设卷积神经网络和所述多组样本图像；

样本特征提取模块，用于将所述多组样本图像分别输入所述预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息；

特征距离确定模块，用于基于得到的各样本图像的样本文本特征信息，确定各样本图像之间的特征距离；

收敛确定模块，用于基于所述特征距离确定所述预设卷积神经网络是否收敛；

参数调节模块，用于若未收敛，则调节所述预设卷积神经网络的参数，并返回执行所述将所述多组样本图像分别输入所述预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息的步骤；

卷积神经网络确定模块，用于若收敛，则结束所述预设卷积神经网络的训练。

可选的，所述特征距离确定模块，包括：

第一特征距离确定子模块，用于根据每组样本图像中所述第一样本图像的样本文本特征信息，确定所述多组样本图像中各第一样本图像之间的第一特征距离；

第二特征距离确定子模块，用于根据每组样本图像中所述第一样本图像的样本文本特征信息，以及所述第二样本图像的样本文本特征信息，确定所述多组样本图像中各样本图像之间的第二特征距离。

可选的，所述第一特征距离确定子模块，具体用于利用以下公式，确定所述多组样本图像中各第一样本图像之间的第一特征距离L_c：

可选的，所述第二特征距离确定子模块，具体用于利用以下公式，确定所述多组样本图像中各样本图像之间的第二特征距离L_t：

可选的，所述收敛确定模块，具体用于确定所述第一特征距离是否小于第一预设阈值，并确定所述第二特征距离是否小于第二预设阈值；若所述第一特征距离小于所述第一预设阈值，且所述第二特征距离小于所述第二预设阈值，则确定所述预设卷积神经网络收敛；否则，确定所述预设卷积神经网络未收敛。

可选的，所述图像获取模块，具体用于获取待处理视频中的包含第一文本区域的目标帧图像；从所述目标帧图像中截取第一文本区域处的图像，作为待处理图像。

所述装置还包括：

第二特征提取模块，用于确定所述待处理视频中其他图像中的第二文本区域的第二文本特征信息；

相似度计算模块，用于计算所述第一文本特征信息与所述第二文本特征信息的相似度；

匹配确定模块，用于基于所述相似度，确定所述待处理图像与所述其他图像是否匹配。

本发明实施例还提供了一种卷积神经网络训练装置，所述装置包括：

第一获取模块，用于获取预设卷积神经网络和包含样本文本区域的多组样本图像，其中，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与所述第一样本图像的文本内容信息不同的第二样本图像；

样本特征提取模块，用于将所述多组样本图像分别输入所述预设卷积神经网络，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息；

参数调节模块，用于若未收敛，则调节所述预设卷积神经网络中的参数，并返回执行所述将所述多组样本图像分别输入所述预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息的步骤；

可选的，所述特征距离确定模块，包括：

本发明实施例还提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一所述的文本特征提取方法步骤。

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一所述的卷积神经网络训练方法步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的文本特征提取方法步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一所述的卷积神经网络训练方法步骤。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的文本特征提取方法。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的卷积神经网络训练方法。

本发明实施例提供的一种文本特征提取方法、装置、电子设备及可读存储介质，可以获取包含第一文本区域的待处理图像；将待处理图像输入预设卷积神经网络，得到第一文本区域的第一文本特征信息，其中，预设卷积神经网络是通过包含样本文本区域的多组样本图像训练得到的，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与所述第一样本图像的文本内容信息不同的第二样本图像。通过本发明实施例提供的方法，可以利用不同的样本文本区域的样本文本图像对预设卷积神经网络进行训练，使得预设卷积神经网络提取到的更加具有区分度的文本特征信息，且该文本特征信息中可包含文本区域的高层的图像语义信息，这提高了文本区域特征提取的准确度，进而提高视频数据中文本区域图像匹配的准确度。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的卷积神经网络训练方法的一种流程图；

图2为本发明实施例提供的特征提取架构的一种示意图；

图3为本发明实施例提供的特征距离确定的一种示意图；

图4为本发明实施例提供的文本特征提取方法的一种流程图；

图5为本发明实施例提供的文本特征提取方法的一种示意图；

图6为本发明实施例提供的图像匹配方法的一种流程图；

图7-a为本发明实施例提供的待处理视频中包含相同文本区域的四个图像之一；

图7-b为本发明实施例提供的待处理视频中包含相同文本区域的四个图像之一；

图7-c为本发明实施例提供的待处理视频中包含相同文本区域的四个图像之一；

图7-d为本发明实施例提供的待处理视频中包含相同文本区域的四个图像之一；

图8为本发明实施例提供的文本特征提取装置的一种结构示意图；

图9为本发明实施例提供的卷积神经网络训练装置的一种结构示意图；

图10为本发明实施例提供的电子设备的第一种结构示意图。

图11为本发明实施例提供的电子设备的第二种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决包含文本区域的图像中文本特征提取出现偏差的问题，本发明实施例提供的一种文本特征提取方法。该方法可以应用于任一电子设备。该文本特征提取方法中，可以获取包含文本区域的待提取图像；将待处理图像输入预设卷积神经网络，得到第一文本区域的文本特征信息。其中，预设卷积神经网络是通过多组样本图像训练得到的，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与第一样本图像的文本内容信息不同的第二样本图像。

通过本发明实施例提供的方法，可以利用不同的样本文本区域的样本文本图像对预设卷积神经网络进行训练，使得预设卷积神经网络提取到的更加具有区分度的文本特征信息，且该文本特征信息中可包含文本区域的高层的图像语义信息，这提高了文本区域特征提取的准确度，进而提高视频数据中文本区域图像匹配的准确度。

下面通过具体的实施例，对本发明实施例进行详细说明。

参见图1，图1为本发明实施例提供的卷积神经网络训练方法的一种流程图。该卷积神经网络训练方法可以应用于任一电子设备。该方法包括以下步骤。

步骤S101，获取预设卷积神经网络和多组样本图像。

在本步骤中，获取预设卷积神经网络，以及针对该预设卷积神经网络训练所需的包含样本文本区域的多组样本图像。其中，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与第一样本图像的文本内容信息不同的第二样本图像。针对多组样本图像中的每一组样本图像，该组样本图像中至少包括两张第一样本图像和一张第二样本图像，而且每组样本图像中包括的第一样本图像和第二样本图像的数量可以相同，也可以不同。

为方便理解，在本发明实施例中，以每组样本图像包括两张第一样本图像和一张第二样本图像为例进行说明。也就是每组样本图像中包括：样本文本区域中包含的相同文本内容信息的两张第一样本图像，以及样本文本区域中包含文本内容信息与第一样本图像的文本内容信息不同的一张第二样本图像。

本发明实施例中，不同组样本图像中第一样本图像可以不同，也可以相同。若两组样本图像中的第一样本图像不同，则这两组样本图像中的第二样本图像可以不同，也可以相同。若两组样本图像中的第一样本图像相同，则这两组样本图像中的第二样本图像可以不同。

相同文本内容信息指的是第一样本图像的样本文本区域中文本内容信息至少包括对应的文字内容是相同的。针对上述样本文本区域中包含的相同文本内容信息的两张第一样本图像，相同文本内容信息指的是两张第一样本图像的样本文本区域中文本内容信息对应的文字内容是相同的，文字内容的字体、排版等文本形式参数可以是相同的，也可以是不同的。另外，两张第一样本图像中样本文本区域的背景的颜色、样式等可以是相同的，也可以是不同的。

对上述两张第一样本图像中的相同文本内容信息进行举例说明。一个示例中，在一组样本图像中，第一样本图像包括图片1和图片2。图片1中样本文本区域的文本内容信息为“Dog”，图片2中样本文本区域的文本内容信息也为“Dog”，但是图片1和图片2中的“Dog”的字体或排版等文本形式参数存在一定的差异，如图片1中的“Dog”的字体为宋体，图片2中的“Dog”的字体为仿宋。另一个示例中，在另一组样本图像中，第一样本图像包括图片3和图片4，图片3中样本文本区域的文本内容信息为“Dog”，图片4中样本文本区域的文本内容信息也为“Dog”，并且图片3和图片4中的“Dog”的字体、排版等文本形式参数是完全相同的。

对上述两张第一样本图像中样本文本区域的背景进行说明。仍以上述图1和图1为例，若图片1中样本文本区域的背景颜色为红色，则图片2中样本文本区域的背景颜色可以为红色，也可以为其他颜色，如黄色、蓝色等。

针对上述第一样本图像与第二样本图像，第一样本图像的样本文本区域与第二样本图像的样本文本区域中的文本内容信息是不同的，则是指第一样本图像的样本文本区域与第二样本图像的样本文本区域中文本内容信息对应的一种或多种文本形式参数是不同的。样本文本区域的背景的颜色、样式等可以相同，也可以不同。

例如，对于上述多组样本图像中的一组样本图像，该组样本图像的第一样本图像包括图片1，图片1中样本文本区域的文本内容信息为“Dog”。该组样本图像的第二样本图像为图片3，图片3中样本文本区域的文本内容信息为“Cat”。针对图片1和图片3，图片1中样本文本区域与图片3中样本文本区域中的文本内容信息是不同的。

再例如，对于上述多组样本图像中的另一组样本图像，该组样本图像的第一样本图像包括图片1，图片1中样本文本区域的文本内容信息为“Dog”。该组样本图像的第二样本图像为图片4，图片4中样本文本区域的文本内容信息也为“Dog”，但是图片4中的“Dog”与图片1中的“Dog”在字体或排版等文本形式参数上存在明显的区别，如“Dog”的字体不一样，“Dog”的排版不一样等。

在实际视频数据的文本区域图像匹配过程中，由于视频数据拍摄的方法或实际场景等因素的影响，可能使得待处理视频中相同文本区域中的文本内容信息出现一定的差异。例如，实际场景中拍摄位置的改变，会使得视频数据中该文本区域的文本大小出现差异。或者，文本区域中的文本为一商家的名称，该名称是利用颜色不断变化的LED(LightEmitting Diode，发光二极管)灯构成的，在视频数据中该文本区域的文本的颜色不断变化。虽然视频数据中的文本区域图像存在一定差异，但是文本区域图像仍旧可以匹配。在本发明实施例中，为了提高视频数据的文本区域图像匹配的准确性，在选择多组样本图像作为样本图像时，可以根据实际情况或者用户需求进行选择，在此不作具体限定。以样本文本区域中包含相同文本内容信息的两张第一样本图像为例进行说明。在上述多组样本图像中，可以将两张样本文本区域中文本大小或颜色相同的图像作为第一样本图像。也可以将两张样本文本区域中文本大小或颜色不同的图像作为第一样本图像。

步骤S102，将多组样本图像分别输入预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息。

在本步骤中，将多组样本图像分别输入预设卷积神经网络中。例如，可参见图2所示的本发明实施例提供的特征提取架构的一种示意图。图2所示的一组样本图像包括图像Ia、图像Ip和图像In。其中，图像Ia、图像Ip为第一样本图像，图像In为第二样本图像。将图像Ia、图像Ip和图像In分别输入预设卷积神经网络，提取到图像Ia对应的样本文本特征信息为fa，图像Ip对应的样本文本特征信息为fp，图像In对应的样本文本特征信息为fn。

在本发明的一个实施例中，对于每组样本图像的每一样本图像，可按照以下公式，确定该样本图像的样本文本区域的样本文本特征信息。

F＝W*I

其中，W为预设卷积神经网络中的当前网络参数，I为该样本图像，F为该样本图像中样本文本区域的样本文本特征信息，*为特征提取过程中对应的卷积、池化、激活等操作。

一个实施例中，上述预设卷积神经网络的网络结构可以包括：输入层、多级卷积池化层、全连接层以及输出层。其中，输入层，用于将样本图像输入该预设卷积神经网络中。多级卷积池化层，用于通过多级卷积操作和池化操作，提取样本图像中特征信息。全连接层，用于通过激活函数对提取到的特征信息进行激活处理，引入非线性特征。输出层，用于输出提取到的样本文本特征信息。

上述卷积操作为利用卷积核对样本图像的像素值组成的矩阵进行卷积操作，提取样本图像的特征信息。

例如，一5*5大小的样本图像的矩阵表示为：一3*3大小的卷积核表示为：/>从样本图像的矩阵中提取到左上角3*3大小的矩阵/>样本图像的矩阵与卷积核的卷积操作可以表示为：/>

利用卷积核在样本图像的矩阵中按照预设步幅进行移动，每移动一次将样本图像的矩阵中被卷积核覆盖区域的矩阵与卷积核进行卷积操作，得到样本图像的特征信息。例如，按照预设步幅为1，对该上述样本图像进行卷积操作，则上述5*5大小的样本图像的特征信息表示为：其中，预设步幅为1表示卷积核每次移动的距离为一个像素点。

针对上述样本图像，该样本图像是由每一像素点的像素值组成的矩阵表示的。若样本图像为灰度图像，则每一点的像素值表示为对应的灰度值。若样本图像为彩色图像，则该样本图像可以分为RGB(Red Green Blue，红绿蓝)三种颜色通道，每一通道中每一像素点的像素值为该像素点对应的RGB值。其中，灰度值与RGB值的取值范围为0-255。

在本发明的一个实施例中，上述预设卷积神经网络中的卷积核并不是唯一的。例如，针对样本图像中样本文本区域中文本的边缘位置，提取该边缘位置的特征信息。以及针对样本文本区域中文本的边缘位置进行模糊处理，提取文本的非边缘位置处特征信息。上述边缘位置处以及非边缘位置处特征信息提取过程中所采用的卷积核是不一样的。

一个可选的实施例中，上述预设卷积神经网络的卷积层数小于或等于预设卷积层数。

预设卷积神经网络的卷积层数小于预设卷积层数。其中，预设卷积层数可为常见卷积神经网络的卷积层数。通过常见的卷积神经网络对样本图像中的样本文本区域进行特征提取，可以得到样本文本区域的高层的图像语义信息，而在卷积神经网络中初始的卷积操作过程中可以得到样本文本区域的低层的图像外观信息。本发明实施例中，预设卷积神经网络的卷积层数小于预设卷积层数，可同时提取到文本区域的低层的图像外观信息和高层的图像语义信息。

一个实施例中，为了得到能够更好的体现样本文本区域特征的低层的图像外观信息以及高层的图像语义信息，可以将预设卷积神经网络的卷积层数设定在预设卷积层数的1/4至3/4范围内。例如，若预设卷积层数为20，则预设卷积神经网络中卷积层数可以设置为20/2＝10。

上述池化操作为对卷积得到的特征信息进行池化操作，降低特征信息的维度，并保留特征信息中的重要信息。

例如，特征信息表示为：采用2*2大小的窗口对特征信息进行最大池化操作，具体可以表示为利用该2*2大小的窗口在该特征信息表示的矩阵中进行遍历，选取2*2大小的窗口所覆盖区域中四个矩阵元素中的最大值，得到池化后的结果，该结果可以表示为：/>

在上述池化操作的示例中，所采用的池化方法是以最大池化方法为例进行说明的。但是在实际过程中，还可以采用平均池化或者求和池化等方法，在此就不作具体说明了。

在本发明的一个实施例中，上述输出层输出的样本文本特征信息可以用特征向量表示，该特征向量中的每一个向量元素表示每一维度特征信息所对应的特征值。例如，字母“A”的文本特征信息所对应的特征向量为其中，(10,15)可以是字母“A”的位置信息，表示字母“A”在待处理图像中的坐标位置为(10,15)，(255,255,255)可以是字母“A”的颜色信息，表示字母“A”的颜色为黑色，1为字母“A”的语义信息，表示该字母为26个字母中的第一个字母。

在本发明的一个实施例中，上述预设卷积神经网络的网络结构可以参考现有的网络结构进行设置，例如，ResNets(Residual Networks，残差网络)等网络结构。上述预设卷积神经网络中的当前网络参数，该网络参数主要指的是预设卷积神经网络中每一层之间对应的权重以及偏置量。在首次训练时，预设卷积神经网络的当前网路参数为预设数值，在之后的训练过程中，预设卷积神经网络的当前网络参数则是根据预设卷积神经网络的输出结果，反向调节得到的。

步骤S103，基于得到的各样本图像的样本文本特征信息，确定各样本图像之间的特征距离。

例如，获取到两组样本图像，从一组样本图像中提取到样本文本特征信息{fa₁，fp₁，fn₁}，从另一组样本图像中提取到样本文本特征信息{fa₂，fp₂，fn₂}，利用样本文本特征信息{fa₁，fp₁，fn₁}和{fa₂，fp₂，fn₂}，确定各样本图像之间的特征距离。

一个可选的实施例中，为了从待处理图像中提取到的更加具有区分度的文本特征信息，在训练预设卷积神经网络时，如图3所示特征距离确定的一种示意图，fa、fp为每组样本图像中两张第一样本图像的样本文本特征信息，fn为每组样本图像中第二样本图像的样本文本特征信息。根据每组样本图像中两张第一样本图像的样本文本特征信息，确定多组样本图像中各第一样本图像之间的第一特征距离。根据每组样本图像中两张第一样本图像的样本文本特征信息，以及第二样本图像的样本文本特征信息，确定多组样本图像中各样本图像之间的第二特征距离。

针对上述第一特征距离的确定，一个可选的实施例中，可以利用以下公式，确定多组样本图像中各第一样本图像之间的第一特征距离L_c：

针对上述第二特征距离的确定，一个可选的实施例中，利用以下公式，确定多组样本图像中各样本图像之间的第二特征距离L_t：

在上述第一特征距离和第二特征距离对应的公式中，N为多组样本图像的组数，i为第i组样本图像，a、p为第一样本图像的标号，n为第二样本图像的标号，f_ai为第i组样本图像中第一样本图像a的样本文本特征信息，f_pi为第i组样本图像中第一样本图像p的样本文本特征信息，f_ni为第i组样本图像中第二样本图像n的样本文本特征信息，α为预设特征距离，‖*‖为欧式距离。

例如，获取到两组样本图像，从这两组样本图像中分别提取到样本文本特征信息{fa₁，fp₁，fn₁}，{fa₂，fp₂，fn₂}。

此时，N＝2。可确定第一特征距离为：

可确定第二特征距离为：

再例如，针对上述第一特征距离以及第二特征距离的计算，以获取到一组样本图像为例进行说明。若该组样本图像中各样本图像对应的样本文本特征信息表示为f_a＝(10,10,0,20,0,1)，f_p＝(9,9,0,20,0,1,)，f_n＝(10,10,20,0,0,2)，预设特征距离为28，则可确定第一特征距离以及第二特征距离分别为：

根据上述计算可知，该组样本图像中两张第一样本图像之间的第一特征距离为该组样本图像中各样本图像之间的第二特征距离为1.1。

在本发明实施例中，上述预设特征距离α为该组样本图像中两张第一样本图像之间的特征距离与第一样本图像与第二样本图像之间的特征距离之间的最小距离间隔。

在本发明实施例中，上述第一特征距离L_c和第二特征距离L_t的计算公式是以每组样本图像中包括两张第一样本图像和一张第二样本图像时的为例进行说明的。当每组样本图像中包括多个第一样本图像和第二样本图像的数量时，可以将每组样本图像划分为多个小组样本图像，使得每一小组样本图像包括两个第一样本图像和一个第二样本图像。在多组样本图像中各样本图像之间的第一特征距离和第二特征距离计算过程中，以多个小组样本图像为单位，根据上述第一特征距离L_c和第二特征距离L_t的计算公式，计算多组样本图像中各样本图像之间的第一特征距离和第二特征距离。

例如，上述多组样本图像中的一组样本图像中包括a、b、c这三张第一样本图像，d、f这两张第二样本图像。在计算第一特征距离和第二特征距离时，可以将该组样本图像划分为多个小组样本图像：{a，b，d}，{a，b，f}，{a，c，d}，{a，c，f}，{b，c，d}，{b，c，f}。以这六个小组样本图像为单位，利用上述第一特征距离L_c和第二特征距离L_t的计算公式，分别计算这六个小组样本图像中各样本图像之间的第一特征距离和第二特征距离，进而得到多组样本图像中各样本图像之间的第一特征距离和第二特征距离。

步骤S104，基于特征距离确定预设卷积神经网络是否收敛。若未收敛，执行步骤S105。若收敛，执行步骤S106。

在本步骤中，根据步骤S103确定的特征距离，将该特征距离与预设阈值阈值进行比较，根据比较的结果确定预设卷积神经网络是否收敛。

一个可选的实施例中，确定第一特征距离是否小于第一预设阈值，并确定第二特征距离是否小于第二预设阈值。若第一特征距离小于第一预设阈值，且第二特征距离小于第二预设阈值，则确定预设卷积神经网络收敛。否则，确定预设卷积神经网络不收敛。

具体的，将上述第一特征距离与第一预设阈值进行比较，将第二特征距离与第二预设阈值进行比较，则至少可以出现以下情况。

情况一，第一特征距离小于第一预设阈值，且第二特征距离小于第二预设阈值。

情况二，第一特征距离小于第一预设阈值，且第二特征距离大于或等于第二预设阈值。

情况三，第一特征距离大于或等于第一预设阈值，且第二特征距离小于第二预设阈值。

情况四，第一特征距离大于或者等于第一预设阈值，且第二特征距离大于或者等于第二预设阈值。

针对上述四种情况，若第一特征距离与第二特征距离满足上述情况一，则可以确定预设卷积神经网络收敛。若第一特征距离与第二特征距离满足情况二、情况三或者情况四中的任意一种情况，则可以确定预设卷积神经网络不收敛。

仍以上述第一特征距离第二特征距离1.1为例进行说明。若第一预设阈值大于如2、3等，且第二预设阈值大于1.1，如1.5、2等，则可以确定预设卷积神经网络收敛；否则，可以确定预设卷积神经网络未收敛，例如，第一预设阈值为1，或者第一预设为1时，可以确定预设卷积神经网络未收敛。

在本发明的一个实施例中，可以结合预设阈值和预设训练次数，确定预设卷积神经网络是否收敛。例如，预设训练次数为10000次，若当前已经训练9000次，9000<10000，未达到预设训练次数，若第一特征距离不小于第一预设阈值，和/或第二特征距离不小于第二预设阈值，则确定预设卷积神经网络未收敛。若当前已经训练9000次，9000<10000，未达到预设训练次数，若第一特征距离小于第一预设阈值，且第二特征距离小于第二预设阈值，则确定预设卷积神经网络收敛。

若当前训练次数为10000次，达到预设训练次数，不论第一特征距离是否小于第一预设阈值，第二特征距离是否小于第二预设阈值，均可确定预设卷积神经网络收敛。

步骤S105，调节预设卷积神经网络的参数，并返回执行步骤S102。

在本步骤中，若确定预设卷积神经网络未收敛，则可利用梯度下降、反向调节等算法，调节预设卷积神经网络的参数，重新执行步骤S102，将多组样本图像分别输入预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息，使得每组样本图像中各第一样本图像之间的第一特征距离越来越小，并且使得第一样本图像与第二样本图像之间的第二特征距离越来越大，至少大于上述预设特征距离α。

每一次预设卷积神经网络的参数调节完成后，采用调节后的网络参数，重新执行上述步骤S102至步骤S104的步骤，直至预设卷积神经网络收敛。

步骤S106，结束预设卷积神经网络的训练。

在确定预设卷积神经网络收敛的情况下，结束预设卷积神经网络的训练。

本发明实施例中，利用第一样本图像以及第二样本图像，对预设卷积神经网络进行训练，使得训练获得的预设卷积神经网络，能够提取到的更加具有区分度的文本特征信息，且该文本特征信息中可包含文本区域的高层的图像语义信息，提高了文本区域特征提取的准确度。在对视频数据中文本区域图像进行匹配时，提高了视频数据中文本区域图像匹配的准确度。

基于上述训练完成的预设卷积神经网络，本发明实施例提供了一种文本特征提取方法。参见图4，图4为本发明实施例提供的文本特征提取方法的一种流程图，该方法包括以下步骤。

步骤S401，获取包含第一文本区域的待处理图像。

在本步骤中，在需要进行文本追踪时，获取包含第一文本区域的待处理图像。

一个可选的实施例中，上述步骤S101，获取包含第一文本区域的待处理图像，可以从待处理视频中获取的包含第一文本区域的目标帧图像；从目标帧图像中截取第一文本区域处的图像，作为待处理图像。

具体的，可以获取待处理视频中选取包含第一文本区域的目标帧图像。对目标帧图像进行裁剪，截取第一文本区域处的图像，作为待处理图像。其中，目标帧图像可以为一帧图像，也可以为多帧图像。以一帧图像为例进行说明，若该目标帧图像的大小为640*480，文本区域的大小为60*80，则可以对该目标帧图像进行裁剪，保留文本区域处大小为60*80的图像，作为待处理图像。

步骤S402，将待处理图像输入预设卷积神经网络，得到第一文本区域的第一文本特征信息。

在本步骤中，将待处理图像输入预设卷积神经网络，按照该预设卷积神经网络的网络结构，以及该预设卷积神经网络中的当前网络参数对待处理图像中第一文本区域进行特征提取，得到第一文本区域的第一文本特征信息。其中，预设卷积神经网络的训练可参考图1所示实施例。预设卷积神经网络的当前参数可为上述步骤S106中预设卷积神经网络结束训练时预设卷积神经网络的参数。

针对包含有第一文本区域的待处理图像，如图5所示，图5为本发明实施例提供的文本特征提取方法的一种示意图。将该待处理图像输入预设卷积神经网络，该预设卷积神经网络通过对待处理图像进行卷积、池化、激活等操作，输出该待处理图像中第一文本区域对应的高层的图像语义信息，得到第一文本特征信息。

由上述可知，通过本发明实施例提供的文本特征提取方法，可以利用训练好的、且卷积层数小于预设卷积层数的预设卷积神经网络对待处理图像中的第一文本区域进行特征提取，使得预设卷积神经网络提取到的更加具有区分度的文本特征信息，且该文本特征信息中可包含文本区域的高层的图像语义信息，这提高了文本区域特征提取的准确度。

一个可选的实施例中，上述待处理图像可以为待处理视频一帧图像中的包含文本区域的图像。

针对待处理图像中每一帧包含文本区域的图像，本发明实施例提供了一种图像匹配的方法。参见图6，图6为本发明实施例提供的图像匹配方法的一种流程图。该方法包括以下步骤。

步骤S601，获取包含第一文本区域的待处理图像。

步骤S602，将待处理图像输入预设卷积神经网络，得到第一文本区域的第一文本特征信息。

上述步骤S601和步骤S602与上述步骤S401和步骤S402相同。

步骤S603，确定待处理视频中其他图像中的第二文本区域的第二文本特征信息。其中，待处理视频中其他图像的获取方法可以参考上述待处理图像的获取方法。在此不作具体说明。

在本步骤中，将待处理视频中的其他图像输入训练完成的预设卷积神经网络中，得到待处理视频中其他图像中第二文本区域的第二文本特征信息。第二文本特征信息的提取，可参考步骤S402部分的描述。

步骤S604，计算第一文本特征信息与第二文本特征信息的相似度。

一个实施例中，可以利用以下公式计算，计算第一文本特征信息与第二文本特征信息之间的相似度L：

其中，m为文本特征信息中包含不同维度特征信息的维度数，j为第j个维度，f_1j为第一文本区域在第j个维度的第一文本特征信息，f_2j为第二文本区域在第j个维度的第二文本特征信息。

例如，f₁＝(1,1,1)、f₂＝(2,1,2)，则f₁与f₂之间的相似度L_1,2为：

在本发明实施例中，相似度的计算公式为欧氏距离的常用计算公式，第一文本特征区域的文本特征信息与第二文本特征区域的文本特征信息之间欧氏距离越小，第一文本特征区域的文本特征信息与第二文本特征区域的文本特征信息之间相似度越大。另外，在实际计算过程中，还可以由采用曼哈顿距离、明氏距离等常用相似度计算公式，确定第一文本特征区域的文本特征信息与第二文本特征区域的文本特征信息之间的相似度，在此就不做具体说明了。

步骤S605，基于相似度，确定待处理图像与其他图像是否匹配。

一个实施例中，相似度是根据上述待处理图像的第一文本特征信息与其他图像的第二文本特征信息之间的欧氏距离确定的。第一文本特征信息与第二文本特征信息之间的欧氏距离越小，第一文本特征信息与第二文本特征信息之间的相似度越大。当相似度达大于相似度阈值时，则可确定待处理图像与该其他图像匹配。否则，可确定待处理图像与该其他图像不匹配。

一个示例中，若第一文本特征信息和第二文本特征信息之间的欧氏距离小于预设距离，则第一文本特征信息和第二文本特征信息之间的相似度达到目标相似度，可确定待处理图像与该其他图像匹配。若第一文本特征信息和第二文本特征信息之间的欧氏距离大于或等于预设距离，则第一文本特征信息和第二文本特征信息之间的相似度未达到目标相似度，可确定待处理图像与该其他图像未匹配。

例如，预设欧氏距离为2，若第一文本特征区域的文本特征信息与第二文本特征区域的文本特征信息之间欧氏距离为1，1<2，则确定第一文本特征信息和第二文本特征信息之间的相似度大于相似度阈值，确定待处理图像与该其他图像匹配。若第一文本特征区域的文本特征信息与第二文本特征区域的文本特征信息之间欧氏距离为3，3>2，则确定第一文本特征信息和第二文本特征信息之间的相似度未达到目标相似度，确定待处理图像与其他图像不匹配。

一个实施例中，参见图7，图7为本发明实施例提供的待处理视频中包含相同文本区域的四个图像。其中，图7-a、图7-b以及图7-d由于外界噪声影响，图像出现不同程度的失真，图7-c未受到外界噪声影响，属于高质量图像。以四个图像文本区域中的“DELICAD”为例进行说明。分别将图7-a、图7-b、图7-c和图7-d输入上述预设卷积神经网络，通过预设卷积神经网络中的卷积、池化等操作可以很好的滤除外界噪声对图像中文本特征信息的影响，保留文本区域的文本特征信息。此时，图7-a、图7-b、图7-c以及图7-d对应的文本特征信息之间的相似度大于相似度阈值，则图7-a、图7-b、图7-c以及图7-d之间相互匹配。可以用高质量的图7-c中的“DELICAD”对图7-a、图7-b以及7-d中的“DELICAD”进行修正。通过修正图7-a、图7-b以及图7-d的清晰度，提供更好的视觉体验。

由上述可知，通过本发明实施例提供的图像匹配方法，可以提取待处理视频中包含文本区域的每一帧图像的文本特征信息，并将根据文本特征信息对每一帧图像进行匹配。在提高文本区域特征提取的准确度的同时，提高了视频数据中文本区域图像匹配的准确度。另外，预设卷积神经网络中的卷积和池化操作可以有效避免外界噪声对提取的样本文本特征信息的影响，进一步提高了文本特征信息提取以及视频数据中文本区域图像匹配的准确度。

综上所述，采用本发明实施例提供的文本特征提取方法，可以利用不同的样本文本区域的样本文本图像对预设卷积神经网络进行训练，使得预设卷积神经网络提取到的更加具有区分度的文本特征信息，且该文本特征信息中可包含文本区域的高层的图像语义信息，这提高了文本区域特征提取的准确度，进而提高视频数据中文本区域图像匹配的准确度。

通过调整预设卷积神经网络的卷积层，可以使得提取到的文本特征信息包含文本区域的低层的图像外观信息和高层的图像语义信息，提高了文本区域特征提取的准确度，进而提高视频数据中文本区域图像匹配的准确度。

基于同一种发明构思，根据上述本发明实施例提供的一种文本特征提取方法，本发明实施例还提供了一种文本特征提取装置。

参见图8，图8为本发明实施例提供的文本特征提取装置的一种结构示意图。该装置包括以下模块。

图像获取模块801，用于获取包含第一文本区域的待处理图像。

第一特征提取模块802，用于将待处理图像输入预设卷积神经网络，得到第一文本区域的第一文本特征信息，其中，预设卷积神经网络是通过包含样本文本区域的多组样本图像训练得到的，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容与第一样本图像的文本内容信息不同的第二样本图像。

可选的，上述预设卷积神经网络的卷积层数小于或等于预设卷积层数。

可选的，上述文本特征提取装置还可以包括：

第一获取模块，用于获取预设卷积神经网络和多组样本图像。

样本特征提取模块，用于将多组样本图像分别输入预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息。

特征距离确定模块，用于基于得到的各样本图像的样本文本特征信息，确定各样本图像之间的特征距离。

收敛确定模块，用于基于特征距离确定预设卷积神经网络是否收敛。

参数调节模块，用于若未收敛，则调节预设卷积神经网络的参数，并返回执行将多组样本图像分别输入预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息的步骤。

卷积神经网络确定模块，用于若收敛，则结束预设卷积神经网络的训练。

可选的，特征距离确定模块，可以包括：

第一特征距离确定子模块，用于根据每组样本图像中第一样本图像的样本文本特征信息，确定多组样本图像中各第一样本图像之间的第一特征距离。

第二特征距离确定子模块，用于根据每组样本图像中第一样本图像的样本文本特征信息，以及第二样本图像的样本文本特征信息，确定多组样本图像中各样本图像之间的第二特征距离。

可选的，第一特征距离确定子模块，具体可以用于利用以下公式，确定多组样本图像中各第一样本图像之间的第一特征距离L_c：

其中，N为多组样本图像的组数，i为第i组样本图像，a、p为第一样本图像的标号，f_ai为第i组样本图像中第一样本图像a的样本文本特征信息，f_pi为第i组样本图像中第一样本图像p的样本文本特征信息，‖*‖为欧式距离。

可选的，第二特征距离确定子模块，具体可以用于利用以下公式，确定多组样本图像中各样本图像之间的第二特征距离L_t：

其中，N为多组样本图像的组数，i为第i组样本图像，a、p为第一样本图像的标号，n为第二样本图像的标号，f_ai为第i组样本图像中第一样本图像a的样本文本特征信息，f_pi为第i组样本图像中第一样本图像p的样本文本特征信息，f_ni为第i组样本图像中第二样本图像n的样本文本特征信息，α为预设特征距离，‖*‖为欧式距离。

可选的，收敛确定模块，具体可以用于确定第一特征距离是否小于第一预设阈值，并确定第二特征距离是否小于第二预设阈值；若第一特征距离小于第一预设阈值，且第二特征距离小于第二预设阈值，则确定预设卷积神经网络收敛；否则，确定预设卷积神经网络未收敛。

可选的，上述图像获取模块801，具体可以用于获取待处理视频中的包含第一文本区域的目标帧图像；从目标帧图像中截取第一文本区域处的图像，作为待处理图像。

可选的，上述待处理图像为待处理视频的一帧图像中的包含文本区域的图像。

上述文本特征提取装置还可以包括：

第二特征提取模块，用于确定待处理视频中其他图像中的第二文本区域的第二文本特征信息。

相似度计算模块，用于计算第一文本特征信息与第二文本特征信息的相似度。

匹配确定模块，用于基于相似度，确定待处理图像与其他图像是否匹配。

基于同一种发明构思，根据上述本发明实施例提供的一种卷积神经网络训练方法，本发明实施例还提供了一种卷积神经网络训练装置。

参见图9，图9为本发明实施例提供的卷积神经网络训练装置的一种结构示意图，该装置包括以下模块。

第一获取模块901，用于获取预设卷积神经网络和包含样本文本区域的多组样本图像，其中，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与第一样本图像的文本内容不同的第二样本图像。

样本特征提取模块902，用于将多组样本图像分别输入预设卷积神经网络，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息。

特征距离确定模块903，用于基于得到的各样本图像的样本文本特征信息，确定各样本图像之间的特征距离。

收敛确定模块904，用于基于特征距离确定预设卷积神经网络是否收敛。

参数调节模块905，用于若未收敛，则调节预设卷积神经网络中的参数，并返回执行将多组样本图像分别输入预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息的步骤。

卷积神经网络确定模块906，用于若收敛，则结束预设卷积神经网络的训练。

可选的，特征距离确定模块903，可以包括：

可选的，收敛确定模块904，具体可以用于确定第一特征距离是否小于第一预设阈值，并确定第二特征距离是否小于第二预设阈值；若第一特征距离小于第一预设阈值，且第二特征距离小于第二预设阈值，则确定预设卷积神经网络收敛；否则，确定预设卷积神经网络未收敛。

通过本发明实施例提供的装置，可以利用不同的样本文本区域的样本文本图像对预设卷积神经网络进行训练，使得预设卷积神经网络提取到的更加具有区分度的文本特征信息，且该文本特征信息中可包含文本区域的高层的图像语义信息，这提高了文本区域特征提取的准确度，进而提高视频数据中文本区域图像匹配的准确度。

基于同一种发明构思，根据上述本发明实施例提供的一种文本特征提取方法，本发明实施例还提供了一种电子设备。

参见图10，图10为本发明实施例提供的电子设备的第一种结构示意图。该电子设备包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信。

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现如下步骤：

获取包含第一文本区域的待处理图像。

将待处理图像输入预设卷积神经网络，得到第一文本区域的第一文本特征信息，其中，预设卷积神经网络是通过多组样本图像训练得到的，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与第一样本图像的文本内容信息不同的第二样本图像。

通过本发明实施例提供的电子设备，可以利用不同的样本文本区域的样本文本图像对预设卷积神经网络进行训练，使得预设卷积神经网络提取到的更加具有区分度的文本特征信息，且该文本特征信息中可包含文本区域的高层的图像语义信息，这提高了文本区域特征提取的准确度，进而提高视频数据中文本区域图像匹配的准确度。

基于同一种发明构思，根据上述本发明实施例提供的一种卷积神经网络训练方法，本发明实施例还提供了一种电子设备。

参见图11，图11为本发明实施例提供的电子设备的第二种结构示意图。该电子设备包括处理器1101、通信接口1102、存储器1003和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信。

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现如下步骤：

获取预设卷积神经网络和包含样本文本区域的多组样本图像，其中，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与第一样本图像的文本内容信息不同的第二样本图像；

将多组样本图像分别输入预设卷积神经网络，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息；

基于特征距离确定预设卷积神经网络是否收敛；

若未收敛，则调节预设卷积神经网络中的参数，并返回执行将多组样本图像分别输入预设卷积神经网络中，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息的步骤；

若收敛，则结束预设卷积神经网络的训练。

通过本发明实施例提供的电子设备，利用第一样本图像以及第二样本图像，对预设卷积神经网络进行训练，使得训练获得的预设卷积神经网络，能够提取到的更加具有区分度的文本特征信息，且该文本特征信息中可包含文本区域的高层的图像语义信息，提高了文本区域特征提取的准确度。在对视频数据中文本区域图像进行匹配时，提高了视频数据中文本区域图像匹配的准确度。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于同一种发明构思，根据上述本发明实施例提供的一种文本特征提取方法，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一文本特征提取方法的步骤。

基于同一种发明构思，根据上述本发明实施例提供的一种卷积神经网络训练方法，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一卷积神经网络训练方法的步骤。

基于同一种发明构思，根据上述本发明实施例提供的一种文本特征提取方法，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一文本特征提取方法。

基于同一种发明构思，根据上述本发明实施例提供的一种卷积神经网络训练方法，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一卷积神经网络训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、可读存储介质及计算机程序产品等实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本特征提取方法，其特征在于，包括：

获取包含第一文本区域的待处理图像；

将所述待处理图像输入预设卷积神经网络，得到所述第一文本区域的第一文本特征信息，其中，所述预设卷积神经网络是通过包含样本文本区域的多组样本图像训练得到的，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与所述第一样本图像的文本内容信息不同的第二样本图像；所述第一文本特征信息包括：所述第一文本区域的高层的图像语义信息；

所述预设卷积神经网络采用如下步骤训练得到，包括：

获取所述预设卷积神经网络和所述多组样本图像；

基于所述特征距离确定所述预设卷积神经网络是否收敛；

若收敛，则结束所述预设卷积神经网络的训练。

2.根据权利要求1所述的方法，其特征在于，所述基于得到的各样本图像的样本文本特征信息，确定各样本图像之间的特征距离的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取包含第一文本区域的待处理图像的步骤，包括：

获取待处理视频中的包含第一文本区域的目标帧图像；

4.根据权利要求3所述的方法，其特征在于，所述待处理图像为待处理视频的一帧图像中的包含文本区域的图像；

5.一种卷积神经网络训练方法，其特征在于，包括：

获取预设卷积神经网络和包含样本文本区域的多组样本图像，其中，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的文本内容信息与所述第一样本图像的文本内容信息不同的第二样本图像；

将所述多组样本图像分别输入所述预设卷积神经网络，得到每组样本图像中各样本图像的样本文本区域的样本文本特征信息；所述样本文本特征信息包括：所述样本文本区域的高层的图像语义信息；

基于所述特征距离确定所述预设卷积神经网络是否收敛；

若收敛，则结束所述预设卷积神经网络的训练。

6.根据权利要求5所述的方法，其特征在于，所述基于得到的各样本图像的样本文本特征信息，确定各样本图像之间的特征距离的步骤，包括：

7.一种文本特征提取装置，其特征在于，包括：

图像获取模块，用于获取包含第一文本区域的待处理图像；

第一特征提取模块，用于将所述待处理图像输入预设卷积神经网络，得到所述第一文本区域的第一文本特征信息，其中，所述预设卷积神经网络是通过包含样本文本区域的多组样本图像训练得到的，每组样本图像包括：样本文本区域中包含相同文本内容信息的第一样本图像，以及样本文本区域中包含的样本内容与所述第一样本图像的文本内容信息不同的第二样本图像；所述第一文本特征信息包括：所述第一文本区域的高层的图像语义信息；

所述装置还包括：

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。