CN110889003A

CN110889003A - 一种基于文本的车辆图像细粒度检索系统

Info

Publication number: CN110889003A
Application number: CN201911143256.7A
Authority: CN
Inventors: 王世祺; 余建兴; 印鉴
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-03-17
Anticipated expiration: 2039-11-20
Also published as: CN110889003B

Abstract

本发明提供一种基于文本的车辆图像细粒度检索系统，该系统允许用户以自然语言检索的方式来获取所需信息，相比于利用图像检索图像的方法降低了检索门槛；文本和图像间跨模态的语义匹配任务转变成了更为直接、可解释性强、简易且已研究成熟的文本间语义匹配任务；定期对近端时间的检索文本进行分析，提取兴趣词和兴趣度建立兴趣词表，并利用该兴趣词表预测用户的检索动向，为图像生成更加契合近期用户兴趣点的细粒度描述文本，实现图像描述文本库的动态更新，以此提高本方法的灵活性和检索性能；能够精确捕捉车辆各部位细粒度的特征，从而能更准确地辨识相同车型的不同车辆。

Description

一种基于文本的车辆图像细粒度检索系统

技术领域

本发明涉及交通图像处理领域，更具体地，涉及一种基于文本的车辆图像细粒度检索系统。

背景技术

目前，盗抢车辆、利用车辆实行犯罪行为的案件屡屡增加，严重影响了社会的稳定。为了逃避警方的追查，嫌疑人常会做出更换车辆牌照，拆除或屏蔽车辆定位器等行为。此种情况下，需依靠车辆外观特征对目标车辆进行追踪和定位。车辆图像检索是智能交通系统的重要组成部分，它在路面监控拍摄的图像集中检索出外观特征与检索条件相符的车辆图像，以协助警方追踪失窃，肇事逃逸或其他犯罪活动相关车辆。衡量待检索图像和检索条件间的语义相似度是一项极具挑战性的任务。早期，警方只能依靠人工排查的方式，效率低下，无法应对海量图像数据检索任务。随着现代信息技术的不断发展，这种检索方式已被机器自动检索的方法所替代。主流的机器自动检索车辆图像任务直接使用目标车辆图像作为检索条件，采用图像哈希算法建立图像集索引，通过计算哈希编码向量间的相似度为待检索图像进行评分和排序。然而，在实际情况中，通常很难构建这样一张符合检索条件的图像输入。例如，一辆白色宝马X5，其右大灯故障，后备箱盖有“新手上路”贴纸，无法为其构建一张同时包括右大灯和后备箱盖的图像。此外，也难以提供目标车辆右大灯故障的图像。这类场景下，自然语言形式的检索条件能够更加全面地概括目标车辆的外观特征，对于上述例子，用户只需输入文本“白色宝马X5右大灯故障后备箱盖‘新手上路’贴纸”即可进行检索。以自然语言检索来获取所需信息的方式能够有效降低检索门槛，满足用户对数据便捷式获取的广泛需求。

现有的工作主要集中于以图像作为输入的检索方式，即“以图检图”。然而在实际情况中，通常很难构建一张符合检索条件的图像，致使这类方法的应用场景受到限制。此外，也存在部分工作通过自动生成文本索引来检索图像，但生成的文本缺乏对图像细粒度特征的描述。

发明内容

本发明提供一种基于文本的车辆图像细粒度检索系统，该系统根据历史检索记录预测用户的检索动向，导向生成图像的细粒度描述文本。

为了达到上述技术效果，本发明的技术方案如下：

一种基于文本的车辆图像细粒度检索系统，包括线上模块和线下模块；

线下模块包括兴趣词提取单元、图像细粒度描述文本生成单元、描述文本编码单元和描述文本索引建立单元；

线上模块包括检索文本编码单元和排序单元；

所述兴趣词提取单元用于每隔s天，将收集到的r条检索记录的集合QS＝{Q₁,...,Q_r}和已生成的描述文本集T输入到本单元，以预测未来一段时间内检索动向；

所述图像细粒度描述文本生成单元用于结合兴趣词表生成契合检索动向的图像细粒度描述文本；

所述描述文本编码单元用于将图像细粒度描述文本生成单元生成的描述文本集T中每个文本词序列T_i＝{t_i1,...,t_il}转换成分布式编码，用于线上部分评价检索文本与描述文本间相似度的依据；

所述描述文本索引建立单元用于在描述文本的分布式编码向量之上建立了Kd-tree索引；

所述检索文本编码单元用于在获取检索文本的词序列Q＝{q₁,...,q_m}后，本单元采用与描述文本编码单元相同的处理方式，先将词嵌入到分布式空间，然后输入到双向LSTM捕捉词间上下文顺序信息，生成检索文本的分布式编码qv；

所述排序单元利用BBF算法选出与检索文本相关的描述文本，并对两者相似度进行评定，排序输出描述文本对应的图像；

其中，基于文本的车辆图像细粒度检索任务从车辆图像数据集中选出与以车辆细粒度特征作为查询条件的检索文本语义内容相关的图像子集，并按相关性排序输出，根据训练集描述文本构建词典VOC，词典长度l_VOC表示总词数，利用集合Q＝{q₁,...,q_m}表示检索文本的词序列，m为检索文本长度，对于包含n幅车辆图像的集合I＝{I₁,...,I_n}，为每幅图像I_i生成一段能够描述其细粒度语义信息的文本，表示为词序列T_i＝{t_i1,...,t_il}，每幅图的描述文本的词个数l不同，由此构造描述文本集合T＝{T₁,...,T_n}，对于检索文本Q和特定描述文本T_i，利用一种上下文结构感知的方式分别将它们转换成分布式编码qv和tv_i，用于评定两者间语义相似度，按相似度排序输出相关描述文本对应的车辆图像作为检索结果。

进一步地，所述兴趣词提取单元工作的具体过程是：

1)、根据描述文本集T计算QS中每个词c的逆文档频率IDF，如式(1)所示，逆文档频率IDF能够根据词的常见程度衡量其普遍重要性，对于词c，若其在大部分描述文本中都出现过，则其无法对区分文本语义提供充分的参考价值，相应地，词c的逆文档频率IDF值将会相对较小；相反，若词c在描述文本集中出现次数少，表示其对文本语义的区分具有较大参考价值，相应地，其逆文档频率IDF值也会相对较大：

2)、计算QS中每个词c的词频-逆文档频率TF-IDF均值，如式(2)，其中f_i,c为词c出现在检索文本Q_i中的频率，词频-逆文档频率TF-IDF综合了词频和逆文档频率，可用来评估词对于描述文本集的重要程度，利用词频-逆文档频率TF-IDF均值衡量词c的兴趣度，表示为interest_c＝TF-IDF_average(c)·α，其中α为预设的固定参数：

3)、维护一张长度固定，表项为“兴趣词”(word)、“兴趣值”(inter)的兴趣词表，对于QS中每个词c，若其已存在于兴趣词表中，利用步骤2)获得的兴趣度更新“兴趣值”，即inter_c＝inter_c+interest_c；若其不存在于兴趣词表，则直接在兴趣词表中插入“(c,interest_c)”项，若兴趣词表已满不能插入，则与词表中兴趣值最小的一项进行比较，决定是否替换，上述过程完成后，对于词表中未参与更新的词cn，其兴趣值应当衰减，表示为inter_cn＝inter_cn·β，β为预设的衰减参数，当inter_cn小于阈值μ时，从兴趣词表中删除该项；

在完成一轮兴趣词表的更新后，词表可能并未被填满，所以定义兴趣词表中元素个数为N，这是一个每次更新都可能变化的值，且不会超过词表的固定长度。

进一步地，所述图像细粒度描述文本生成单元由区域检测模块、区域融合模块和语言生成模块组成，对于数据集中每幅图像I_i，本单元首先利用区域检测模块将其分解成包含车辆各部位的区域集合，然后，区域融合模块根据兴趣词表确定各区域的重要程度，进而整合出一个高度概括各区域语义内容的D维特征向量

最后，语言生成模块根据特征向量vp生成描述文本T_i。

进一步地，所述区域检测模块使用Faster-RCNN网络作为区域检测器，以一张图像作为输入，会定位图像中车辆的各个部位，包括引擎盖、右大灯、后备箱盖，并框出其所在区域，进而对这些区域的语义信息进行编码，获得区域特征编码集合

其中M为确定的区域个数，D为区域特征编码维度。

进一步地，所述区域融合模块接收区域特征编码集合V和兴趣词表，输出参考了兴趣词表的区域融合特征vp，由于兴趣词表是历史检索记录统计的结果，一幅图像通常不会涵盖所有的兴趣词，对于图像各区域，首先确定那些与该区域语义信息相关的兴趣词，削弱无关兴趣词的影响，在这一过程中，利用了兴趣值来进一步衡量兴趣词的参考价值；然后，再根据兴趣词的关注结果确定各区域的关注程度，并在此基础上生成一个高度概括各区域语义特征的图像整体特征编码。

进一步地，所述区域融合模块的具体处理过程是：

1)、根据自学习的词嵌入向量生成工具word2vec对兴趣词表中各词进行编码，将词特征映射到与图像区域特征编码相同的向量空间，获得编码集合

2)、计算图像区域特征编码与兴趣词特征编码的相似度矩阵

第i个区域与第j个兴趣词的相似度

如式(3)获取；

3)、如式(4)所示，对于兴趣词表引入了注意力机制，聚焦图像特定区域i，结合兴趣值以及相似度矩阵

为每个兴趣词j赋予一定的关注程度α_ij，如果当前区域包含的是车辆的后备箱盖，则应该更关注于兴趣词表中和后备箱盖相关且用户感兴趣的词，同时可以一定程度忽略描述其他部位的兴趣词；此外，如果兴趣词表中不包含和后备箱盖相关的兴趣词，则该区域对所有兴趣词都将表现出较低的关注程度。以关注程度作为权值对兴趣词特征编码求和，可获得基于单个区域语义信息对兴趣词的联合表示

4)、对图像区域引入了注意力机制，利用兴趣词联合表示

评估区域关注程度，计算区域特征编码v_i和兴趣词联合表示

的相似度ω_i作为对区域i的关注程度，并以关注程度作为权值对区域特征编码求和，可获得考量了兴趣词表之后的图像整体语义表示vp，计算过程如式(5)，如果兴趣词表表现出近期用户对后备箱盖的检索兴趣度浓厚，则该区域特征编码v_i与兴趣词联合表示

将会有一个较高相似度，表明区域i符合兴趣词表所反映的用户的检索兴趣点，应该重点关注，相反，如果兴趣词表表现出近期用户检索都不关注后备箱盖，则表明区域i不是应当描述的重点，这些信息都将被图像整体语义表示vp记录：

进一步地，所述语言生成模块参考区域融合特征vp，生成图像细粒度描述文本：在设计语言生成模块的过程中，当人们进行交谈或是写作时，会先在脑海中确定每句话的话题，然后再根据话题组织语言形成语句，使用长短期记忆神经网络LSTM作为本模块的基本结构，长短期记忆神经网络LSTM能够有效捕捉序列数据的上下文信息，其以序列数据的分布式编码向量作为输入，结合上下文信息对序列数据重新编码，输出包含丰富上下文信息的分布式编码向量，具体来说，本模块模拟了上述行为，设计了一个层次化长短期记忆神经网络LSTM，包括话题级长短期记忆神经网络LSTM和语句级长短期记忆神经网络LSTM，其中，话题级LSTM以上一句话的话题信息作为输入，生成当前句子的话题信息；语句级LSTM根据话题级LSTM传入的话题信息确定当前语句的话题，在接下来的每一时刻，语句级LSTM以上一时刻输出的词作为输入，生成可以很好衔接上文的词，最终输出的词序列即为一条完整语句。

进一步地，所述话题级长短期记忆神经网络LSTM利用话题级LSTM模拟人们确定话题的过程：设定隐藏状态维度H_topic，利用区域融合特征vp初始化话题级LSTM细胞状态，在每一个时间点i，话题级长短期记忆神经网络LSTM以上一时间点隐藏状态h_i-1作为输入，获得的隐藏状态h_i有两个用途：1.利用函数T:H_topic→W对h_i进行线性映射，表示为T(h_i)，然后，利用Sigmoid函数，如式(6)，对映射结果逻辑分类，获得处于状态{CONTINUE＝0,STOP＝1}的概率分布p_i以决定是否终止描述生成过程；2.为了获取话题，将h_i输入到一个双层全连接网络产生话题向量

并将其作为语句级长短期记忆神经网络LSTM的输入，生成第i句话。

进一步地，所述语句级长短期记忆神经网络LSTM输出话题向量topic_i并传入到语句级长短期记忆神经网络LSTM以生成具体的第i句话，与话题级长短期记忆神经网络LSTM同理，特别的，设定隐藏层状态维度H_word，利用话题向量topic_i初始化语句级LSTM的细胞元，并在第一时刻输入特殊符号“<START>”编码，启动语句生成过程。在每一时刻t，利用一个全连接网络将语句级LSTM的隐藏层状态

映射为l_voc维空间的编码v^word，然后输入到Softmax函数，计算输出词为词典VOC中每个词j的概率

如式(7)，并将输出词作为下一时刻语句级长短期记忆神经网络LSTM的输入：

进一步地，所述排序单元利用BBF算法选出与检索文本相关的描述文本，并对两者相似度进行评定，排序输出描述文本对应的图像，在从Kd-tree根节点开始搜索直到叶节点的过程中，BBF算法会将路径中未被搜索的分支节点及差值保存到优先队列中，从而确保每次回溯都从距离检索文本最近的分支节点开始搜索，此外，BBF算法还限制了回溯的次数，极大程度上降低了检索消耗的时间，定义检索返回结果图像数K、最大回溯次数Max_check、用于回溯的最小优先权队列Min_pq以及用于存储邻近数据点的最大优先权队列Max_pq，BBF算法具体包括6个步骤：

1)、把描述文本索引建立单元建立的Kd-tree根节点加入Min_pq中，设置差值为0；

2)、若队列Min_pq不为空且没有超过回溯次数Max_check，则从Min_pq中取出一个分支节点Kd_node，否则搜索结束，返回结果队列Max_pq；

3)、若检索文本编码qv在Kd_node的分割维度ki上的值小于分割数据值kv，则检索进入Kd_node的左子节点，并把右子节点及差值加入Min_pq；反之进入Kd_node的右子节点，并把左子节点及差值加入Min_pq，将Kd_node指向进入的子节点，重复此步骤直到检索到达叶节点；

4)、计算叶节点描述文本编码tv和检索文本编码qv的欧氏距离Dist用于评定两者相似度；

5)、若队列Max_pq中元素个数小于K，将当前节点对应图像及Dist加入队列Max_pq；否则，对Max_pq队顶元素进行查看，若Dist小于队顶元素与检索间的距离，则表示当前节点对应的描述文本与检索文本具有更高相关性，弹出队顶元素并将该节点对应图像及Dist加入Max_pq中，否则丢弃；

6)、回溯到步骤2)。

当该过程结束后，将Max_pq中图像反序输出，即为图像按与检索文本相关性由大到小排序后的结果，至此，整个检索过程终止。

与现有技术相比，本发明技术方案的有益效果是：

本发明允许用户以自然语言检索的方式来获取所需信息，相比于利用图像检索图像的方法降低了检索门槛；文本和图像间跨模态的语义匹配任务转变成了更为直接、可解释性强、简易且已研究成熟的文本间语义匹配任务；在线下完成了图像的细粒度描述文本生成和索引的建立，线上仅需对检索文本编码以及根据索引进行搜索；这种设计相比目前主流的文本检索图像方法具有更快的响应速度；定期对近端时间的检索文本进行分析，提取兴趣词和兴趣度建立兴趣词表，并利用该兴趣词表预测用户的检索动向，为图像生成更加契合近期用户兴趣点的细粒度描述文本，实现图像描述文本库的动态更新，以此提高本方法的灵活性和检索性能；能够精确捕捉车辆各部位细粒度的特征，从而能更准确地辨识相同车型的不同车辆。

附图说明

图1为发明系统结构示意图；

图2为描述文本生成单元整体流程图；

图3为区域融合模块流程图；

图4为语言生成模块流程图；

图5为Kd-tree建立二维数据索引示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种基于文本的车辆图像细粒度检索系统，包括线上模块和线下模块；

线上模块包括检索文本编码单元和排序单元；

兴趣词提取单元用于每隔s天，将收集到的r条检索记录的集合QS＝{Q₁,...,Q_r}和已生成的描述文本集T输入到本单元，以预测未来一段时间内检索动向；

图像细粒度描述文本生成单元用于结合兴趣词表生成契合检索动向的图像细粒度描述文本；

描述文本编码单元用于将图像细粒度描述文本生成单元生成的描述文本集T中每个文本词序列T_i＝{t_i1,...,t_il}转换成分布式编码，用于线上部分评价检索文本与描述文本间相似度的依据；

描述文本索引建立单元用于在描述文本的分布式编码向量之上建立了Kd-tree索引；

检索文本编码单元用于在获取检索文本的词序列Q＝{q₁,...,q_m}后，本单元采用与描述文本编码单元相同的处理方式，先将词嵌入到分布式空间，然后输入到双向LSTM捕捉词间上下文顺序信息，生成检索文本的分布式编码qv；

兴趣词提取单元工作的具体过程是：

如图2所示，图像细粒度描述文本生成单元由区域检测模块、区域融合模块和语言生成模块组成，对于数据集中每幅图像I_i，本单元首先利用区域检测模块将其分解成包含车辆各部位的区域集合，然后，区域融合模块根据兴趣词表确定各区域的重要程度，进而整合出一个高度概括各区域语义内容的D维特征向量

最后，语言生成模块根据特征向量vp生成描述文本T_i。

区域检测模块使用Faster-RCNN网络作为区域检测器，以一张图像作为输入，会定位图像中车辆的各个部位，包括引擎盖、右大灯、后备箱盖，并框出其所在区域，进而对这些区域的语义信息进行编码，获得区域特征编码集合

其中M为确定的区域个数，D为区域特征编码维度。

如图3所示，区域融合模块接收区域特征编码集合V和兴趣词表，输出参考了兴趣词表的区域融合特征vp，由于兴趣词表是历史检索记录统计的结果，一幅图像通常不会涵盖所有的兴趣词，对于图像各区域，首先确定那些与该区域语义信息相关的兴趣词，削弱无关兴趣词的影响，在这一过程中，利用了兴趣值来进一步衡量兴趣词的参考价值；然后，再根据兴趣词的关注结果确定各区域的关注程度，并在此基础上生成一个高度概括各区域语义特征的图像整体特征编码。

区域融合模块的具体处理过程是：

2)、计算图像区域特征编码与兴趣词特征编码的相似度矩阵

第i个区域与第j个兴趣词的相似度

如式(3)获取；

4)、对图像区域引入了注意力机制，利用兴趣词联合表示

评估区域关注程度，计算区域特征编码v_i和兴趣词联合表示

如图4所示，语言生成模块参考区域融合特征vp，生成图像细粒度描述文本：在设计语言生成模块的过程中，当人们进行交谈或是写作时，会先在脑海中确定每句话的话题，然后再根据话题组织语言形成语句，使用长短期记忆神经网络LSTM作为本模块的基本结构，长短期记忆神经网络LSTM能够有效捕捉序列数据的上下文信息，其以序列数据的分布式编码向量作为输入，结合上下文信息对序列数据重新编码，输出包含丰富上下文信息的分布式编码向量，具体来说，本模块模拟了上述行为，设计了一个层次化长短期记忆神经网络LSTM，包括话题级长短期记忆神经网络LSTM和语句级长短期记忆神经网络LSTM，其中，话题级LSTM以上一句话的话题信息作为输入，生成当前句子的话题信息；语句级LSTM根据话题级LSTM传入的话题信息确定当前语句的话题，在接下来的每一时刻，语句级LSTM以上一时刻输出的词作为输入，生成可以很好衔接上文的词，最终输出的词序列即为一条完整语句。

话题级长短期记忆神经网络LSTM利用话题级LSTM模拟人们确定话题的过程：设定隐藏状态维度H_topic，利用区域融合特征vp初始化话题级LSTM细胞状态，在每一个时间点i，话题级长短期记忆神经网络LSTM以上一时间点隐藏状态h_i-1作为输入，获得的隐藏状态h_i有两个用途：1.利用函数T:H_topic→W对h_i进行线性映射，表示为T(h_i)，然后，利用Sigmoid函数，如式(6)，对映射结果逻辑分类，获得处于状态{CONTINUE＝0,STOP＝1}的概率分布p_i以决定是否终止描述生成过程；2.为了获取话题，将h_i输入到一个双层全连接网络产生话题向量

语句级长短期记忆神经网络LSTM输出话题向量topic_i并传入到语句级长短期记忆神经网络LSTM以生成具体的第i句话，与话题级长短期记忆神经网络LSTM同理，特别的，设定隐藏层状态维度H_word，利用话题向量topic_i初始化语句级LSTM的细胞元，并在第一时刻输入特殊符号“<START>”编码，启动语句生成过程。在每一时刻t，利用一个全连接网络将语句级LSTM的隐藏层状态

如图5所示，描述文本索引建立单元在描述文本的分布式编码向量之上建立了Kd-tree索引(是一种高维二叉索引树形结构，其在保留了树形索引便于检索这一优点的同时，能够对向量进行均匀分割，从而产生最小的二叉树。在每一个分支节点，它选取待划分向量方差最大的一维作为分割维度ki，将该维数值的中位数作为分割数值kv，ki维数值小于kv的向量划分到左子树，其余划分到右子树。

排序单元利用BBF算法选出与检索文本相关的描述文本，并对两者相似度进行评定，排序输出描述文本对应的图像，在从Kd-tree根节点开始搜索直到叶节点的过程中，BBF算法会将路径中未被搜索的分支节点及差值保存到优先队列中，从而确保每次回溯都从距离检索文本最近的分支节点开始搜索，此外，BBF算法还限制了回溯的次数，极大程度上降低了检索消耗的时间，定义检索返回结果图像数K、最大回溯次数Max_check、用于回溯的最小优先权队列Min_pq以及用于存储邻近数据点的最大优先权队列Max_pq，BBF算法具体包括6个步骤：

6)、回溯到步骤2)。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于文本的车辆图像细粒度检索系统，其特征在于，包括线上模块和线下模块；

线上模块包括检索文本编码单元和排序单元；

2.根据权利要求1所述的基于文本的车辆图像细粒度检索系统，其特征在于，所述兴趣词提取单元工作的具体过程是：

3.根据权利要求2所述的基于文本的车辆图像细粒度检索系统，其特征在于，所述图像细粒度描述文本生成单元由区域检测模块、区域融合模块和语言生成模块组成，对于数据集中每幅图像I_i，本单元首先利用区域检测模块将其分解成包含车辆各部位的区域集合，然后，区域融合模块根据兴趣词表确定各区域的重要程度，进而整合出一个高度概括各区域语义内容的D维特征向量

最后，语言生成模块根据特征向量vp生成描述文本T_i。

4.根据权利要求3所述的基于文本的车辆图像细粒度检索系统，其特征在于，所述区域检测模块使用Faster-RCNN网络作为区域检测器，以一张图像作为输入，会定位图像中车辆的各个部位，包括引擎盖、右大灯、后备箱盖，并框出其所在区域，进而对这些区域的语义信息进行编码，获得区域特征编码集合

其中M为确定的区域个数，D为区域特征编码维度。

5.根据权利要求4所述的基于文本的车辆图像细粒度检索系统，其特征在于，所述区域融合模块接收区域特征编码集合V和兴趣词表，输出参考了兴趣词表的区域融合特征vp，由于兴趣词表是历史检索记录统计的结果，一幅图像通常不会涵盖所有的兴趣词，对于图像各区域，首先确定那些与该区域语义信息相关的兴趣词，削弱无关兴趣词的影响，在这一过程中，利用了兴趣值来进一步衡量兴趣词的参考价值；然后，再根据兴趣词的关注结果确定各区域的关注程度，并在此基础上生成一个高度概括各区域语义特征的图像整体特征编码。

6.根据权利要求5所述的基于文本的车辆图像细粒度检索系统，其特征在于，所述区域融合模块的具体处理过程是：

2)、计算图像区域特征编码与兴趣词特征编码的相似度矩阵

第i个区域与第j个兴趣词的相似度

如式(3)获取；

为每个兴趣词j赋予一定的关注程度α_ij，如果当前区域包含的是车辆的后备箱盖，则应该更关注于兴趣词表中和后备箱盖相关且用户感兴趣的词，同时可以一定程度忽略描述其他部位的兴趣词；此外，如果兴趣词表中不包含和后备箱盖相关的兴趣词，则该区域对所有兴趣词都将表现出较低的关注程度，以关注程度作为权值对兴趣词特征编码求和，可获得基于单个区域语义信息对兴趣词的联合表示

4)、对图像区域引入了注意力机制，利用兴趣词联合表示

评估区域关注程度，计算区域特征编码v_i和兴趣词联合表示

7.根据权利要求6所述的基于文本的车辆图像细粒度检索系统，其特征在于，所述语言生成模块参考区域融合特征vp，生成图像细粒度描述文本：在设计语言生成模块的过程中，当人们进行交谈或是写作时，会先在脑海中确定每句话的话题，然后再根据话题组织语言形成语句，使用长短期记忆神经网络LSTM作为本模块的基本结构，长短期记忆神经网络LSTM能够有效捕捉序列数据的上下文信息，其以序列数据的分布式编码向量作为输入，结合上下文信息对序列数据重新编码，输出包含丰富上下文信息的分布式编码向量，具体来说，本模块模拟了上述行为，设计了一个层次化长短期记忆神经网络LSTM，包括话题级长短期记忆神经网络LSTM和语句级长短期记忆神经网络LSTM，其中，话题级LSTM以上一句话的话题信息作为输入，生成当前句子的话题信息；语句级LSTM根据话题级LSTM传入的话题信息确定当前语句的话题，在接下来的每一时刻，语句级LSTM以上一时刻输出的词作为输入，生成可以很好衔接上文的词，最终输出的词序列即为一条完整语句。

8.根据权利要求7所述的基于文本的车辆图像细粒度检索系统，其特征在于，所述话题级长短期记忆神经网络LSTM利用话题级LSTM模拟人们确定话题的过程：设定隐藏状态维度H_topic，利用区域融合特征vp初始化话题级LSTM细胞状态，在每一个时间点i，话题级长短期记忆神经网络LSTM以上一时间点隐藏状态h_i-1作为输入，获得的隐藏状态h_i有两个用途：1.利用函数T:H_topic→W对h_i进行线性映射，表示为T(h_i)，然后，利用Sigmoid函数，如式(6)，对映射结果逻辑分类，获得处于状态{CONTINUE＝0,STOP＝1}的概率分布p_i以决定是否终止描述生成过程；2.为了获取话题，将h_i输入到一个双层全连接网络产生话题向量

9.根据权利要求8所述的基于文本的车辆图像细粒度检索系统，其特征在于，所述语句级长短期记忆神经网络LSTM输出话题向量topic_i并传入到语句级长短期记忆神经网络LSTM以生成具体的第i句话，与话题级长短期记忆神经网络LSTM同理，特别的，设定隐藏层状态维度H_word，利用话题向量topic_i初始化语句级LSTM的细胞元，并在第一时刻输入特殊符号“<START>”编码，启动语句生成过程，在每一时刻t，利用一个全连接网络将语句级LSTM的隐藏层状态

10.根据权利要求9所述的基于文本的车辆图像细粒度检索系统，其特征在于，所述排序单元利用BBF算法选出与检索文本相关的描述文本，并对两者相似度进行评定，排序输出描述文本对应的图像，在从Kd-tree根节点开始搜索直到叶节点的过程中，BBF算法会将路径中未被搜索的分支节点及差值保存到优先队列中，从而确保每次回溯都从距离检索文本最近的分支节点开始搜索，此外，BBF算法还限制了回溯的次数，极大程度上降低了检索消耗的时间，定义检索返回结果图像数K、最大回溯次数Max_check、用于回溯的最小优先权队列Min_pq以及用于存储邻近数据点的最大优先权队列Max_pq，BBF算法具体包括6个步骤：

6)、回溯到步骤2)；