CN109840287A

CN109840287A - 一种基于神经网络的跨模态信息检索方法和装置

Info

Publication number: CN109840287A
Application number: CN201910098563.1A
Authority: CN
Inventors: 王亮; 黄岩; 罗怡文; 王海滨; 纪文峰
Original assignee: China Science And Technology Institute Of Artificial Intelligence Innovation Technology (qingdao) Co Ltd
Current assignee: China Science And Technology Institute Of Artificial Intelligence Innovation Technology (qingdao) Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-06-04
Anticipated expiration: 2039-01-31
Also published as: CN109840287B

Abstract

本公开提供了一种基于神经网络的跨模态信息检索方法和装置，将文本、语音和图像三个模态数据映射为文本数据，通过映射对三个模态数据间的相似度进行度量，完成跨膜态信息检索任务。该方法包括以下步骤：接收输入的语音信号，提取语音信号的特征，采用卷积神经网络对语音信号的特征以及文本标签进行训练，识别出语音的文本信息；接收输入的图像，提取图像特征，对图像的文本描述进行编码，将图像嵌入文本空间，实现图像与文本描述的配对，对文本描述进行解码，生成图像的文本信息；利用已有的文本数据训练文档主题生成模型；利用训练好的文档主题生成模型提取语音和图像的文本信息的主题，计算文本信息之间的相似度，按照相似度大小进行排序。

Description

一种基于神经网络的跨模态信息检索方法和装置

技术领域

本发明涉及自然语言处理与深度学习领域，主要涉及一种基于神经网络的跨模态信息检索方法和装置。

背景技术

多模态信息存在于现实生活中方方面面，随着互联网的快速发展，包括文本、语音、图像和视频的多模态信息呈爆炸性增长，不同模态之间信息的检索日趋重要。

早期的跨模态检索研究通常是人工构建不同模态数据间的关联。以文检图为例，20世纪70年代一个流行的方案是首先用文本对图像进巧人工标注，然后用基于文本的数据库管理系统构建以文检图系统。发明人在研究过程中发现，以上方案存在着两个主要的间题：一是人工标注需要耗费巨大的资源，尤其是在面临海量数据时；二是图像本身蕴含着丰富的信息，人员的标注通常是不完整有偏差的。随着多模态数据和多模态检索需求的飞速增长，这种人工标注方案的问题愈发明显。

发明内容

为了克服上述现有技术的不足，本公开提供了一种基于神经网络的跨模态信息检索方法和装置，将文本、语音和图像三个模态数据映射为文本数据，通过映射对三个模态数据间的相似度进行度量，完成跨膜态信息检索任务。

本公开所采用的技术方案是：

一种基于神经网络的跨模态信息检索方法，该方法包括以下步骤：

接收输入的语音信号，提取语音信号的特征，采用卷积神经网络对语音信号的特征进行训练，识别出语音的文本信息；

接收输入的图像，提取图像特征，对图像的文本描述进行编码，将图像嵌入文本空间，实现图像与文本描述的配对，对文本描述进行解码，生成图像的文本信息；

利用已有的文本数据训练文档主题生成模型；

利用训练好的文档主题生成模型提取语音和图像的文本信息的主题，计算文本信息之间的相似度，按照相似度大小进行排序。

进一步的，所述提取语音信号的特征的步骤包括：

对语音信号进行预加重处理；

对预加重处理后的语音信号进行分帧处理；

对每一帧语音信号进行加窗处理；

对加窗处理后的每一帧语音信号进行快速傅里叶变换，得到到语音信号的频谱；

采用三角带通滤波器对语音信号的频谱进行处理；

计算每个滤波器输出的对数能量；

将得到的对数能量进行离散余弦变换，得到MFCC特征参数。

进一步的，还包括：

判断识别出的语音的文本信息中是否出现错误的单词；

若识别结果中出现错误单词，则根据字符串度量计算出错误的单词最为相似的单词，用相似的单词替换错误的单词。

进一步的，所述图像与文本描述的配对方法为：

接收输入的图像；

利用卷积神经网络提取图像的图像特征；

采用GRU循环神经网络对图像的文本描述部分进行编码；

将提取到的图像特征投射到GRU循环神经网络的隐藏层中，实现图像和文本描述配对；

优化图像和文本描述配对的损失。

进一步的，所述训练文档主题生成模型的步骤包括：

统计已有的文本数据中的词频信息，生成文本的语料库；

对语料库中每个词语随机分配主题；

采用吉布斯采样法进行采样，求出主题编号，并对语料库中信息进行更新，重复采样步骤指导该采样收敛；

统计语料库的主题和单词的频率矩阵，计算文档主题生成模型中的相关参数。

进一步的，所述统计已有的文本数据中的词频信息的步骤包括：

统计每个单词在文本中出现的次数，计算文本中的关键词的归一化值以及逆文本频率；

对文本进行语素解析，生成语素,对于每个文件,计算语素与文件的相关性得分。

进一步的，还包括：

利用已有的文本数据构建数据集；

根据数据集中每五个文本描述含有相同内容的不同表达方式，将五个文本合并作为一个待处理文本；

对于每一个待处理的文本使用已经训练好的LDA模型进行文本主题生成，形成一个由主题到文本编号的倒排列表。

进一步的，所述计算文本信息之间的相似度，按照相似度大小进行排序的步骤包括：

接收新输入的语音的文本信息和图像的文本信息；

将新输入的文本进行降序词频统计，选择前N个单词在训练好的文档主题生成模型的倒排列表中进行检索；

对于包含该单词的主题，在该主题包含的所有单词中搜索是否包含其他文本中出现的单词；

若存在，则将文本编号作为优先检索文本，并根据词频信息对新输入的文本中单词进行加权处理；

对于得到的文本编号序列，按照单词的权重大小对其进行降序排序，选择前n个单词作为文本检索的最终结果。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行如上所述的一种基于神经网络的跨模态信息检索方法。

一种基于神经网络的跨模态信息检索装置，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行如上所述的一种基于神经网络的跨模态信息检索方法。

通过上述技术方案，本公开的有益效果是：

(1)本公开把文本、语音和图像三个模态数据映射为文本数据，通过映射对三个模态数据间的相似度进行度量，完成跨膜态信息检索任务；

(2)本公开在文本处理部分对文本进行主题提取，能够挖掘文本中潜在信息，进行相似度度量时能对同义不同表示的词进行检索。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本申请，并不构成对本公开的不当限定。

图1是根据一种或多种实施方式的跨模态信息检索方法流程图；

图2是根据一种或多种实施方式的使用WaveNet架构进行语音识别的模型架构及流程图；

图3是根据一种或多种实施方式的图像进行编码和解码的流程图；

图4是根据一种或多种实施方式的加权文本检索的相关示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

名词解释：

(1)WaveNet，是原始音频生成模型，是probabilistic and autoregressive的生成，对每个预测的audio sample的分布都基于前面的sample分布。

(2)MFCC，Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数；

(3)CTC，Connectionist Temporal Classification，是一种损失函数；

(4)GRU，Gated Recurrent Unit，是循环神经网络的变体；

(5)VGG19，卷积神经网络；

(6)SC-NLM，结构-内容神经语言模型；

(7)LDA模型，文档主题生成模型；

(8)TF-IDF，term frequency–inverse document frequency，是一种用于信息检索与数据挖掘的常用加权技术；

(9)BM25，文本相似度算法。

一种或多种实施例提供一种基于神经网络的跨模态信息检索方法，基于神经网络，对语音、图像以及文本信息进行处理以得到不同模态数据间的关联，实现数据间语义鸿沟的跨越，能够广泛地应用于多模态信息检索。

请参阅附图1，该方法包括以下步骤：

S101，构建多模态信息检索框架体系。

在本实施例中，所述步骤101中，多模态信息检索框架体系包括语音识别、图像检索和文本检索三个模态，实现对语音、文本和图像的跨模态检索任务进行分割，将语音信息和图像分别射映为文本，再通过文本检索实现不同模态之间的检索。

S102，接收输入的语音信号，利用原始音频生成模型对语音信号进行特征提取，将提取到的特征以及文本标签输入卷积神经网络，进行模型训练，识别出文本信息，并对识别出的文本中词语进行矫正，并将校正后的文本信息传输给文本检索模态层。

具体的，请参阅附图2，所述步骤102中，在语音信号识别模态，接收输入的语音信号，采用WaveNet作为原始音频生成模型，利用WaveNet原始音频生成模型的语音特征输入层对语音信号进行MFCC特征参数提取，将提取到的MFCC特征参数以及文本标签输入WaveNet的其他层神经网络，进行模型训练，识别出文本信息，以CTC loss作为训练的损失函数，对于识别出的文本信息进行矫正。

在本实施例中，请参阅附图2，所述WaveNet原始音频生成模型为四层的神经网络，每层中的圆形点表示网络结点，最底层代表语音特征输入层，对输入的语音信号进行MFCC特征提取，将提取后的特征以及文本标签输入到其他层神经网络，进行模型训练。其中模型的学习速率设置为0.0001，其中隐藏层的维数设置为128。

在神经网络中采用了类似与Pixel CNN的门控激活模块，为：

z＝tanh(W_f，k*x)⊙(W_g，k*x)

其中，*表示卷积运算，⊙表示逐元素乘法运算符，σ(·)表示sigmoid函数，k代表层的指数，f和g表示滤波器和门；x为输入的语音信号。

门控激活模块将卷积(mask convolutions)之间的简单线性链接单元转换为门与门之间激活方式一样的连接方式，帮助神经元之间有更加复杂的联系，能够达到更好的训练效果。

在整个神经网络中，本公开都使用了残差模块，用以加速收敛。残差模块通过在一个千层网络基础上叠加恒等映射，可以让网络随深度的增加而不退化，同时使用残差模块没有引入额外的参数和计算复杂度，却可以大大增加模型的训练速度，提高训练结果。

设x为输入，F(x)表示在第二层激活函数之前的输出，即：F(x)＝W₂σ(W₁x)，W₁，W₂表示第一层和第二层的权重，σ(·)表示ReLu激活函数，对于一个残差模块的输出，可以表示为：

σ(F(x)+x)。

所述步骤102中，对语音信号进行MFCC特征参数提取，具体采用如下方式实现：

(2—1)对语音信号进行预加重处理。

在步骤(2—1)中，将语音信号通过一个高通滤波器进行预加重处理，提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

(2—2)对预加重处理后的语音信号进行分帧处理。

假设语音信号的采样频率为8KHz或16KHz，以8KHz为例，若帧长度为256个采样点，则对应的时间长度是256/8000×1000＝32ms。

(2—3)对每一帧语音信号进行加窗处理。

在步骤(2—3)中，将每一帧语音信号乘以汉明窗，以增加帧左端和右端的连续性。

(2—4)对加窗处理后的每一帧语音信号进行快速傅里叶变换，得到到语音信号的频谱。

在步骤(2—4)中，对于加窗处理后的每一帧语音信号进行快速傅里叶变换得到各帧的频谱，并对语音信号的频谱取模平方，得到语音信号的功率频谱。

(2—5)采用三角带通滤波器对语音信号的频谱进行处理。

(2—6)计算每个滤波器输出的对数能量。

(2—7)将步骤(2—6)得到的对数能量进行离散余弦变换，得到MFCC系数，为：

x′(n)＝IDFT(log|X(w)|)＝IDFT(log|E(w)|)+IDFT(log|H(w)|)

其中，X(w)为时域信号x(n)的频率谱，X(w)＝E(w)H(w)，E(w)表示语音输入激励的频域响应，H(w)表示声带的频域响应，x′(n)为MFCC特征参数。这种变换将时域中的卷积关系转换为了线性相加关系。

在步骤102中，对于一个语音信号x＝{x₁，x₂，...，x_T}的联合概率密度可以写为如下形式：

条件概率密度由一系列的卷积层来进行建模，模型中使用softmax来输出下一个值x_t的分类分布，并对其进行优化得到数据的最大似然估计。

该联合概率密度表示的是一个字符序列发生的概率，一个句子的概率即拆解为每个词的概率之积，在这里即表示每一个词的输出只与其前面的词的出现的概率有关系。

在语音识别过程中，对输入语音进行处理得到其频域信息并进行特征提取，由声学模型得到其声学模型得分，语言模型估计通过重训练语料，学习词之间的相互概率，来估计假设词序列的可能性，将总体输出分数最高的词序列作为识别结果。

在步骤102中，采用的卷积神经网络是扩大因果卷积，其中因果卷积的特点是其预测仅取决于过去的值，不取决于将来的值，即：

p(x_t+1|x₁，...，x_t)，其中不包含{x_t+1，x_t+2，...，x_T}

对于一维的语音数据，可以通过将普通的卷积进行移动得到结果。空洞卷积则是通过跳过一部分输入，使得滤波器能够应用于大于其长度的区域，能够在层数不大的情况下拥有很大的感受野。

具体的，所述步骤102中，对语音识别后的文本信息，以CTC loss作为训练的损失函数，采用Levenshtein距离对识别不正确的单词进行矫正。由于语音识别是音素级别上的，在识别中会出现误差，这样的误差会导致识别单词中的部分字母是错误的，针对这一问题，本实施例对模型识别结果使用Levenshtein距离进行最终矫正，Levenshtein距离是一种计算两个字符串间的差异程度的字符串度量，是从一个字符串修改到另一个字符串时，其中编辑单个字符(比如修改、插入、删除)所需要的最少次数。

具体的，所述对单词进行矫正，采用如下方式实现：

判断模型识别结果中是否出现错误的单词；

若识别结果中出现错误单词，则将错误的单词在字典中根据Levenshtein距离，计算出最为相似的单词，用相似的单词替换错误的单词，将文本进行替换矫正。

S103，接收输入的图像，利用卷积神经网络提取图像特征，采用循环神经网络对文本描述进行编码，将提取的图像特征投射到循环神经网络的隐藏层中，将图像嵌入文本空间，实现图像与文本描述的配对；采用神经语言模型对文本描述进行解码，生成文本信息，输出给文本检索模态。

具体的，请参阅附图3，所述步骤103中，在图像检索模态，接收输入的图像，利用VGG19卷积神经网络提取图像的图像特征，采用GRU循环神经网络对图像的文本描述部分进行编码，将由VGG19提取的图像特征投射到GRU循环神经网络的隐藏层中，实现图像和文本描述配对，并优化图像和文本描述配对的损失，将图像嵌入文本空间，能够克服RNN无法很好处理远距离依赖的问题；采用SC-NLM神经语言模型对文本描述部分进行解码，生成文本信息，输出给文本检索模态。

在步骤103中，采用GRU循环神经网络对图像的文本描述部分进行编码，GRU循环神经网络计算原理如下：

r_t＝σ(W_r·[h_t-1，x_t])

z_t＝σ(W_z·[h_t-1，x_t])

h_t＝(1-z_t)*h_t-1+z_t*h_t

其中，z_t和r_t分别表示更新门和重置门，σ(·)表示sigmoid函数，为候选隐含状态，h_t表示隐含状态，x_t表示输入，W_r为更新门的权重参数W_z为重置门的权重参数，表示候选隐含状态的权重参数。

具体的，所述采用循环神经网络对图像的文本描述部分进行编码后，将由VGG19卷积神经网络提取的D＝4096维的图像特征投射到GRU循环神经网络的隐藏层中，得到图像嵌入矩阵和文本描述嵌入矩阵。这里设置嵌入空间维度K＝300，令和为图像嵌入矩阵和文本描述嵌入矩阵，V为词汇表中单词数量。

具体的，所述步骤103中，优化图像和文本描述配对的排名损失，采用如下方案实现：

将图像和文本描述配对的排名损失最下化方法为：

其中，v_k为图像嵌入文本x的非描述，x_k为文本x相对应的描述，评分公式s(x，v)＝x·v，x和v分别为进归一化之后图像嵌入矩阵和语句表示。

所述步骤103中，在SC-NLM神经语言模型中，对于文本描述S＝{w₁，...，w_N}，给定结构变量T＝{t₁，...，t_N}，t_i对应于单词w_i的部分语音；对分布p(w_n＝i|w_1：n-1，t_n：n+k，u)进行建模，k为上下文内容的大小。

所述步骤103中，在SC-NLM神经语言模型中，结构和内容的属性向量表达为：

其中T^(u)表示多模态向量u的一个G×K的上下文矩阵，b为偏差向量。

S104，在文本检索模态，利用已有的文本数据对LDA文档主题生成模型进行训练。

具体的，所述利用已有的文本数据对LDA文档主题生成模型进行训练，采用如下方案实现：

(4—1)获取已有的文本数据，统计已有的文本数据中的词频信息，生成文本的语料库。

在本实施例中，采用TF-IDF和BM25词频统计算法统计已有的文本数据文本中的词频信息，如下：

其中，tf_i，j为文本j中的关键词i的归一化值；idf_i为逆文档频率；n_i，j是单词t_i在文件d_j中出现的次数。|D|为语料库中文件总数，|{j：t_i∈d_i}|为语料库中包含单词t_i的文件数目。

采用BM25算法对文本进行语素解析，生成语素q_i，然后对于每个搜索结果d，计算q_i与d的相关性得分。一般公式如下：

其中Q为文本，f_i为语素q_i在文本d中的出现频率，qf_i为语素q_i在文本中出现的频率，dl为文本d的长度，avgdl为所有文本的平局长度。

(4—2)利用K维Dirichelet函数对每个词语随机生成K个主题的多项式分布，即：

(4—3)利用这K个主题多项式分布，计算任意主题产生的各个词语的概率β；

(4-4)采用吉布斯采样法进行采样，求出各个主题编号，并对语料库中对信息进行更新，其中，LDA模型的吉布斯采样为：

其中，i表示除了i之外的词，z_i为中的第i个词。

(4—5)重复步骤(4-4)，直到该采样收敛；

(4-6)统计语料库的主题和单词的频率矩阵，计算LDA文档主题生成模型中的相关参数。

在训练好LDA文档主题生成模型后，利用训练好的文档主题生成模型对已有的文本数据进行处理，生成一个由主题到文本编号的倒排列表，进行存储。其中，利用训练好的文档主题生成模型对已有的文本数据进行处理的步骤包括：

根据数据集中每五个描述文本含有相同内容的不同表达方式，将五个文本合并作为一个待处理文本；

对每一个待处理的文本使用已经训练好的LDA模型进行文本主题生成，得到主题到文本编号的倒排列表；

生成由主题到文本编号的倒排列表可以用于之后对于新输入文本的主题检索，根据检索到的所包含主体的文本再进行相似度度量。

S105，接收语音识别模态和图像检索模态新输入的文本信息，对本文信息进行主题提取，计算文本信息之间的相似度，按照相似度大小进行排序，输出检索结果。

具体的，所述步骤105中，将语音识别模态和图像检索模态新输入的文本信息进行主题提取，在对不同词语进行相似度度量时，将包含该主题的文本信息作为优先检索文本，计算词语与文本信息之间相似度大小，按照相似度大小进行排序，得到最终的检索结果，可以实现在语音、图像和文本之间的跨模态检索任务。

具体的，请参阅附图4，所述步骤105的具体实现方式如下：

(5-1)新输入文本主题提取，将新输入的文本进行降序词频统计，选择前N个单词在步骤104得到的由主题到文本编号的倒排列表中进行检索，对于包含该单词的主题，在该主题的包含的所有单词中搜索是否包含其他文本中出现的单词，若存在则将文本编号作为优先检索文本，并根据词频信息对新输入的文本中单词进行加权处理；

(5-2)对于得到的文本编号序列，按照单词的权重大小对文本编号序列进行降序排序，选择前n个单词作为文本检索的最终结果。

为了使本领域技术人员更好的了解本申请的技术方案，下面列举一个更为详细的实施例，以某图像数据集为例，该数据集包含8000张日常生活中的图像，分为训练集和测试集，每个图像包含相关的5个描述，同时包含每个描述的共40000个语音文件，除此之外本实施例同时使用了其他语音数据集，本实施例提供一种基于神经网络的跨模态信息检索方法，该方法具体实现骤如下：

步骤S201，将语音数据集中的语音作为训练集，40000个语音文件作为测试集。

步骤S202，使用一个四层的WaveNet架构网络对语音的训练集进行训练，学习速率为0.0001，隐藏层的维数设置为128；使用CTC loss作为损失函数，对得到的词语进行校正。

步骤S203，将图像的训练集中的图片和其对应描述进行处理，使用VGG19网络提取4096维特征信息，将图像特征投射到GRU网络的隐藏层中，这里设置嵌入空间维度K＝300。

步骤S204，对于图像数据集的所有描述进行处理，将每张图像的5个描述组成文本数据，采用LDA主题生成模型对这些文本数据进行训练。

步骤S205，对整个跨模态检索系统进行整合实现，对于输入语音首先进行语音识别，使用识别出的文本信息对文本和图片进行检索，同理对如输入的图像首先对描述进行检索，再由文本检索对应的语音信息。

一种或多种实施方式还提供一种基于神经网络的跨模态信息检索装置，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的一种基于神经网络的跨模态信息检索方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD—ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于神经网络的跨模态信息检索方法，其特征是，包括以下步骤：

利用已有的文本数据训练文档主题生成模型；

2.根据权利要求1所述的基于神经网络的跨模态信息检索方法，其特征是，所述提取语音信号的特征的步骤包括：

对语音信号进行预加重处理；

对预加重处理后的语音信号进行分帧处理；

对每一帧语音信号进行加窗处理；

采用三角带通滤波器对语音信号的频谱进行处理；

计算每个滤波器输出的对数能量；

将得到的对数能量进行离散余弦变换，得到MFCC特征参数。

3.根据权利要求1所述的基于神经网络的跨模态信息检索方法，其特征是，还包括：

判断识别出的语音的文本信息中是否出现错误的单词；

4.根据权利要求1所述的基于神经网络的跨模态信息检索方法，其特征是，所述图像与文本描述的配对方法为：

接收输入的图像；

利用卷积神经网络提取图像的图像特征；

采用GRU循环神经网络对图像的文本描述部分进行编码；

优化图像和文本描述配对的损失。

5.根据权利要求1所述的基于神经网络的跨模态信息检索方法，其特征是，所述训练文档主题生成模型的步骤包括：

统计已有的文本数据中的词频信息，生成文本的语料库；

对语料库中每个词语随机分配主题；

6.根据权利要求1所述的基于神经网络的跨模态信息检索方法，其特征是，所述统计已有的文本数据中的词频信息的步骤包括：

7.根据权利要求1所述的基于神经网络的跨模态信息检索方法，其特征是，还包括：

利用已有的文本数据构建数据集；

8.根据权利要求7所述的基于神经网络的跨模态信息检索方法，其特征是，所述计算文本信息之间的相似度，按照相似度大小进行排序的步骤包括：

接收新输入的语音的文本信息和图像的文本信息；

9.一种计算机可读存储介质，其中存储有多条指令，其特征是，所述指令适于由终端设备的处理器加载并执行权利要求1至8中任一项所述的一种基于神经网络的跨模态信息检索方法。

10.一种基于神经网络的跨模态信息检索装置，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征是，所述指令适于由处理器加载并执行权利要求1至8中任一项所述的一种基于神经网络的跨模态信息检索方法。