CN104794223A

CN104794223A - 一种基于图像检索的字幕匹配方法和系统

Info

Publication number: CN104794223A
Application number: CN201510212026.7A
Authority: CN
Inventors: 张伟; 曾志勇; 张长定; 傅松林
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2015-04-29
Filing date: 2015-04-29
Publication date: 2015-07-22
Anticipated expiration: 2035-04-29
Also published as: CN104794223B

Abstract

本发明公开了一种基于图像检索的字幕匹配方法和系统，其通过获取待匹配图像、样本图像以及样本图像所对应的字幕内容，使用采集的样本图像作为ELM自编码网络训练的数据，对待匹配图像及各个样本图像分别使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像及各个样本图像的二进制编码序列并计算出计算图像之间的汉明距离，根据该汉明距离通过K近邻法进行相似图像检索，得到与待匹配图像最相似样本图像，最后将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像；提高图像相似检索的精确度，同时使用二进制编码保证了检索的效率，达到快速精准图像字幕匹配的效果。

Description

一种基于图像检索的字幕匹配方法和系统

技术领域

本发明涉及图像处理技术领域，特别是一种基于图像检索的字幕匹配方法及其应用该方法的系统。

背景技术

为特定图像匹配合适的影视字幕的最关键点就在于图像检索的效率和准确度，影视字幕的数据资源是非常庞大的，用户很难在浩如烟海的数据中找到真正感兴趣的信息。因此，如何对海量的图像进行快速有效的分析和检索成了一个非常具有挑战性的任务。

传统的基于内容的图像检索技术往往都是通过提取图像的底层特征进行穷举比对，但因其比较过程的时间复杂度是线性的，无法在大规模网络图像数据上进行扩展和应用，并且由于图像的底层视觉特征动辄成千上万维，许多图像检索应用还会遇到维数灾难的问题，如何对如此庞大的原始数据进行存储也是一个巨大瓶颈。

近年来，研究者们对图像的快速检索技术进行了详细研究。其中，基于哈希编码的图像搜索方法取得了巨大成功。该类算法通过将图像表示成低维的二进制编码向量来完成近似近邻搜索。利用二进制编码进行图像的近似近邻搜索是极其快速的，因为：1)图像的编码向量是高度压缩的，可以将其全部载入内存之中；2)编码之间的汉明(Hamming)距离通过按位的异或操作便可得到，因此该计算过程是非常高效的(如今，一台普通的台式机在几毫秒之内就可以完成数百万汉明距离的计算)。

目前，传统的图像哈希编码算法主要分为非数据依赖和数据依赖两种方案。其中一种非常著名的非数据依赖哈希算法便是局部敏感哈希(LocalitySensitive Hashing,LSH)，但是其投影向量的随机性导致其编码效率并不高，它往往需要构建具有很长编码长度的多个哈希表才能获得较为理想的效果。近年来，研究者们将研究重点转移到数据依赖的哈希算法上来，试图通过机器学习的方法代替随机投影来寻找更好的数据依赖哈希函数，如基于深度学习网络的限制玻尔兹曼机(Restricted Boltzmann Machines,RBMs)和基于谱图分割的谱哈希(Spectral Hashing,SH)算法等。RBMs算法通过神经网络模型逐层对图像的原始特征进行降维和学习，并最终得到一个紧致的二进制编码。SH算法则通过构建拉普拉斯特征图并利用主成分分析(PCA)方法提取其特征向量对原始图像进行哈希编码。

但是上述方法都是基于单一的图像底层视觉特征信息进行哈希编码，无法全面地表达图像丰富的内容信息。后续的研究，如多特征哈希算法(Multiple Feature Hashing,MFH)和多源信息合成哈希算法(CompositeHashing with Multiple Information Sources,CHMIS)等，又在多种特征信息的融合等方面对数据依赖哈希算法进行了相关的拓展。虽然上述哈希算法是针对问题的不同角度提出，都具有各自的一些特点和优越性，但它们往往只在某些特定的设置条件或者数据库上有效，范围扩展性较差，无法应用于图像的自动字幕匹配。

发明内容

本发明为解决上述问题，提供了一种基于图像检索的字幕匹配方法和系统，在保证图像检索效率的前提下，达到快速精准图像字幕匹配的效果。

为实现上述目的，本发明采用的技术方案为：

一种基于图像检索的字幕匹配方法，其特征在于，包括以下步骤：

10：采集样本图像及其对应的字幕内容，并使用样本图像作为ELM自编码网络的训练数据，通过训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到各个样本图像的二进制编码序列；

20：获取待匹配图像，对待匹配图像使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像的二进制编码序列；

30：根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离，并根据该汉明距离通过K近邻法进行相似图像检索，得到与待匹配图像最相似样本图像；

40：将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像。

优选的，所述的样本图像主要是指包含字幕内容的影视图像，该影视图像包括电影截图或电视剧截图，各个影视图像都设置有对应的字幕内容和对应的二进制编码序列。

优选的，所述的步骤10中，将各个样本图像分别应用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到各个样本图像的二进制编码序列，进一步包括以下步骤：

a1.通过获取样本图像作为训练的数据集合，并以该数据集合作为ELM自编码网络的输入，进行哈希函数的训练，得到哈希自编码模型；

b1.在ELM自编码训练过程中，求解各个样本图像的最佳匹配的哈希函数，并将该最佳匹配的哈希函数作为优化哈希函数；

c1.使用所述的优化哈希函数进行图像二进制编码转换，得到各个样本图像的二进制编码序列。

优选的，所述的步骤20中，对待匹配图像使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像的二进制编码序列，进一步包括以下步骤：

a2.将所述的待匹配图像作为ELM自编码网络的输入，求解该待匹配图像的最佳匹配的哈希函数，并将该最佳匹配的哈希函数作为优化哈希函数；

b2.使用所述的优化哈希函数进行图像二进制编码转换，得到待匹配图像的二进制编码序列。

优选的，所述的优化哈希函数的计算方法，进一步包括以下步骤：

ba1.预设所述的样本图像作为训练的数据集合是一个包含N个D维向量的数据X_DxN＝(x₁,…x_N)；

ba2.用0或1随机初始化N个L维向量的数据Z_LxN＝(z₁,…z_N)，即编码长度为L的样本图像的二进制编码序列，并开始u次迭代；

ba3.对于Z_LxN中的第l维编码数值，应有ELM的方法解HB＝Z_N，l，其中，

H＝sigmod(WX+b)，且W，b使用随机初始化；

ba4.求解获得hash函数，hash_N,l(X)＝HB；

ba5.对于X中的N个样本中的每个样本n，使用ELM自编码求解X_n＝f(Z_n)，迭代训练直到Z＝hash(X)停止，该哈希函数Z＝hash(X)即为优化哈希函数。

优选的，所述的步骤30中，根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离，该汉明距离的计算方法如下：

d(x,y)＝∑x[i]⊕y[i]；

其中，i＝0,1,..n-1，x、y分别代表待匹配图像的二进制编码序列和样本图像的二进制编码序列，⊕表示异或。

优选的，所述的步骤30中，根据该汉明距离通过K近邻法进行相似图像检索，主要是对所述的待匹配图像的二进制编码序列，在所述的样本图像的数据集中使用汉明距离遍历寻找与所述的待匹配图像的二进制编码序列最邻近的样本图像的二进制编码序列。

优选的，所述的步骤40中，将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像，主要是将最相似样本图像的文本形式的字幕内容，按照预设的文本样式添加至待匹配图像的预设位置。

另外，本发明还根据上述方法提供了一种基于图像检索的字幕匹配系统，其特征在于，其包括：

数据获取模块，用于获取待匹配图像、样本图像以及样本图像所对应的字幕内容；

数据处理模块，将采集的样本图像作为ELM自编码网络的训练数据，对待匹配图像及各个样本图像分别使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像及各个样本图像的二进制编码序列；

图像检索模块，用于根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离，并根据该汉明距离通过K近邻法进行相似图像检索，得到与待匹配图像最相似样本图像；

字幕添加模块，用于将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像。

优选的，所述的数据处理模块进一步包括：

哈希自编码模型创建单元，其通过获取样本图像作为训练的数据集合，并以该数据集合作为ELM自编码网络的输入，进行哈希函数的训练，得到哈希自编码模型；

哈希函数优化单元，其通过ELM自编码训练，求解待匹配图像及各个样本图像的最佳匹配的哈希函数，并将该最佳匹配的哈希函数作为优化哈希函数；

编码单元，其使用所述的优化哈希函数进行图像二进制编码转换，得到待匹配图像及各个样本图像的二进制编码序列。

本发明的有益效果是：

本发明的一种基于图像检索的字幕匹配方法和系统，其通过获取待匹配图像、样本图像以及样本图像所对应的字幕内容，使用采集的样本图像作为ELM自编码网络训练的数据，对待匹配图像及各个样本图像分别使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像及各个样本图像的二进制编码序列并计算出计算图像之间的汉明距离，根据该汉明距离通过K近邻法进行相似图像检索，得到与待匹配图像最相似样本图像，最后将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像；本发明主要是利用自编码来训练得到哈希函数，输入为图像，不使用人工特征，无需对各个样本图像进行人工标注，极大的减少了人工操作时间，并且降低了人工操作的失误率，提高图像相似检索的精确度，同时使用二进制编码保证了检索的效率，达到快速精准图像字幕匹配的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种基于图像检索的字幕匹配方法的流程简图；

图2为本发明一种基于图像检索的字幕匹配系统的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

极限学习机(Extreme Learning Machine)ELM，是由黄广斌提出来的求解单隐层神经网络的算法。ELM最大的特点是对于传统的神经网络，尤其是单隐层前馈神经网络(SLFNs)，极限学习机只需要设置网络的隐层节点个数，在算法执行过程中不需要调整网络的输入权值以及隐元的偏置，并且产生唯一的最优解；在ELM算法中,一旦输入权重和隐层的偏置被随机确定，隐层的输出矩阵就被唯一确定；因此具有学习速度快且泛化性能好的优点，在保证学习精度的前提下比传统的学习算法速度更快。

ELM自编码(ELM Autoencode，ELM-AE)可以看做是ELM的一个特例，它的输入等于它的输出，并且其随机产生的权重是正交的。

如图1所示，本发明的一种基于图像检索的字幕匹配方法，其包括以下步骤：

本实施例中，所述的样本图像主要是指包含字幕内容的影视图像，该影视图像包括电影截图或电视剧截图，各个影视图像都设置有对应的字幕内容和对应的二进制编码序列，或者也适用于其他带有字幕的图像。

所述的步骤10中，将各个样本图像分别应用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到各个样本图像的二进制编码序列，进一步包括以下步骤：

所述的步骤20中，对待匹配图像使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像的二进制编码序列，进一步包括以下步骤：

在步骤b1和步骤a2中，所述的优化哈希函数的计算方法，进一步包括以下步骤：

H＝sigmod(WX+b)，且W，b使用随机初始化；

ba4.求解获得hash函数，hash_N,l(X)＝HB；

所述的步骤30中，根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离，该汉明距离的计算方法如下：

d(x,y)＝∑x[i]⊕y[i]；

所述的步骤30中，根据该汉明距离通过K近邻法进行相似图像检索，主要是对所述的待匹配图像的二进制编码序列，在所述的样本图像的数据集中使用汉明距离遍历寻找与所述的待匹配图像的二进制编码序列最邻近的样本图像的二进制编码序列。

所述的步骤40中，将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像，主要是将最相似样本图像的文本形式的字幕内容，按照预设的文本样式添加至待匹配图像的预设位置。

如图2所示，本发明还根据上述方法提供了一种基于图像检索的字幕匹配系统，其包括：

数据获取模块A，用于获取待匹配图像、样本图像以及样本图像所对应的字幕内容；

数据处理模块B，将采集的样本图像作为ELM自编码网络的训练数据，对待匹配图像及各个样本图像分别使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像及各个样本图像的二进制编码序列；

图像检索模块C，用于根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离，并根据该汉明距离通过K近邻法进行相似图像检索，得到与待匹配图像最相似样本图像；

字幕添加模块D，用于将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像。

本实施例中，所述的数据处理模块B进一步包括：

哈希自编码模型创建单元B1，其通过获取样本图像作为训练的数据集合，并以该数据集合作为ELM自编码网络的输入，进行哈希函数的训练，得到哈希自编码模型；

哈希函数优化单元B2，其通过ELM自编码训练，求解待匹配图像及各个样本图像的最佳匹配的哈希函数，并将该最佳匹配的哈希函数作为优化哈希函数；

编码单元B3，其使用所述的优化哈希函数进行图像二进制编码转换，得到待匹配图像及各个样本图像的二进制编码序列。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明的方法首先应用ELM自编码(ELM Autoencoder，ELM-AE)方法进行图像二进制自编码训练哈希函数hash(X)，接着使用自编码模型中优化过的哈希函数h(X)求得图像的二进制编码序列，根据Hamming距离和KNN(knearest neighbors，k近邻)在二进制空间中进行相似图像检索，然后将最相似样本图像对应的字幕内容赋予输入的待匹配图像，从而做到图像自动对白匹配。在优选的实施例中，每个样本图像都具有对应的影视字幕，通过在ELM自编码中加入了图像hashing模型的构造，应用自编码网络优化哈希函数hash(X)，从而得到一个更好的二进制编码序列Z＝hash(X)。使用二进制编码序列可以快速、精准的进行相似图像检索，使用经典影视片段的字幕为图像进行图文匹配，使得图像能够产生一定的娱乐性，并且提高了图像相似检索的精确度，同时使用二进制编码保证了检索的效率，达到快速精准图像对白匹配的效果。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于图像检索的字幕匹配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于图像检索的字幕匹配方法，其特征在于：所述的样本图像主要是指包含字幕内容的影视图像，该影视图像包括电影截图或电视剧截图，各个影视图像都设置有对应的字幕内容和对应的二进制编码序列。

3.根据权利要求1所述的一种基于图像检索的字幕匹配方法，其特征在于：所述的步骤10中，将各个样本图像分别应用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到各个样本图像的二进制编码序列，进一步包括以下步骤：

4.根据权利要求3所述的一种基于图像检索的字幕匹配方法，其特征在于：所述的步骤20中，对待匹配图像使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像的二进制编码序列，进一步包括以下步骤：

5.根据权利要求3或4所述的一种基于图像检索的字幕匹配方法，其特征在于：所述的优化哈希函数的计算方法，进一步包括以下步骤：

H＝sigmod(WX+b)，且W，b使用随机初始化；

ba4.求解获得hash函数，hash_N,l(X)＝HB；

6.根据权利要求1所述的一种基于图像检索的字幕匹配方法，其特征在于：所述的步骤30中，根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离，该汉明距离的计算方法如下：

d(x,y)＝∑x[i]⊕y[i]；

7.根据权利要求6所述的一种基于图像检索的字幕匹配方法，其特征在于：所述的步骤30中，根据该汉明距离通过K近邻法进行相似图像检索，主要是对所述的待匹配图像的二进制编码序列，在所述的样本图像的数据集中使用汉明距离遍历寻找与所述的待匹配图像的二进制编码序列最邻近的样本图像的二进制编码序列。

8.根据权利要求1所述的一种基于图像检索的字幕匹配方法，其特征在于：所述的步骤40中，将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像，主要是将最相似样本图像的文本形式的字幕内容，按照预设的文本样式添加至待匹配图像的预设位置。

9.一种基于图像检索的字幕匹配系统，其特征在于，其包括：

10.根据权利要求9所述的一种基于图像检索的字幕匹配系统，其特征在于：所述的数据处理模块进一步包括：