CN106056209A

CN106056209A - 一种基于循环神经网络的查询词项权重学习方法

Info

Publication number: CN106056209A
Application number: CN201610346162.XA
Authority: CN
Inventors: 田利云; 马云龙; 林鸿飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-05-23
Filing date: 2016-05-23
Publication date: 2016-10-26
Anticipated expiration: 2036-05-23
Also published as: CN106056209B

Abstract

一种基于循环神经网络的查询词项权重学习方法，包括S1、搜索最优词项权重、S2、构造查询词项特征向量、S3、构建查询词项权重学习模型、S4、利用查询词项权重学习模型预测查询词项权重。本发明将查询词项权重预测问题转换为序列标注问题，创新性地提出了一种基于循环神经网络的查询词项权重学习方法，实现了自动和高效地对查询词项权重进行预测，在数据集上的主要评价指标MAP上提高幅度分别为16.8%（Robust04）和11.8%（GOV2），验证了本发明方法对查询词项权重学习任务的有效性。

Description

一种基于循环神经网络的查询词项权重学习方法

技术领域

本发明涉及数据挖掘和搜索引擎技术领域，尤其是一种基于循环神经网络的查询词项权重学习方法。

背景技术

当前各信息检索模型或系统的性能对查询理解的依赖性非常高。因此查询理解技术成为了当代信息检索领域中的重要研究方向，而其中一个关键问题是对查询中各词项重要性的分析和预测。由于在主流信息检索模型的相关度分数计算公式中查询词项权重均扮演着非常重要的角色，将各查询词项赋予恰当的权重值可使检索结果的准确率得到很大的提升。查询词项权重预测与查询的理解和表示有紧密关联，涉及到词项语义理解、句法理解和查询意图分析等技术，其中每一个都是信息检索领域中尚未完美解决的问题，致使关于查询词项权重预测问题还有大的研究空间。

查询词项权重预测的目标是通过权重值反应查询中各词项对所描述信息需求的重要性相对关系。该问题很早就被提出并已有大量的相关研究，目前绝大部分尝试通过机器学习技术进行查询词项权重预测的现有研究工作均将该任务定义为面向查询词项的回归问题，即对于给定查询，利用已标注数据训练，自动学习每个查询词项与其目标权重之间的关系。该定义优点是简单直观，可直接应用现有的回归或是多分类机器学习模型进行学习和预测。但其缺点也很明显，即隐含了词项之间的独立性假设，即便很多研究中试图利用查询的整体信息来变相考虑这种依赖关系，但也仅停留在特征构造的层面，很难将其在模型层面有机的融合。

发明内容

本发明的目的是提供一种可有效提高检索准确率的基于循环神经网络的查询词项权重学习方法。

本发明解决现有技术问题所采用的技术方案：一种基于循环神经网络的查询词项权重学习方法，包括以下步骤：

S1、搜索最优词项权重：采集公开已标注的数据集，利用基于遗传算法的最优权重标注方法获取最优词项权重值，所述最优权重标注方法如下：

A1、初始化：设置进化代数计数器t＝0，最大进化代数T，种群容量S，随机生成S个个体作为初始群体G(0)；设查询词权重精度10^-ε，查询Q的词项长度为|Q|，令S＝10×2^ε-1，其中ε≥1；将区间[0,1]按照查询词权重精度分割成10^ε个区间，需要将对应的10^ε个数字转化为二进制数，使用公式得到需要的染色体基因个数N＝n₂＝n₁+1，即每条染色体有N个基因位；初始随机生成S个个体，每个个体用长度为N的二进制数序列表示，这些二进制数序列对应|Q|个十进制小数，即|Q|个权重；

A2、个体评价：计算群体G(t)中各个个体的适应度；将二进制数对应的十进制小数作为查询词的权重和查询词一起查询，得到的查询结果使用MAP分值作为适应度；其中，t＝0、1、2……T；

A3、种群运算：将基于适应度的选择规则作用于种群，保留满足规则的个体，并移除不满足规则的个体，个体被保留的概率其中f_i表示当前个体的适应度；将交叉算子作用于种群，将种群内保留的个体以交叉率P_i两两交叉，交叉时等概率的选择k个基因位进行交叉，k为不大于染色体基因个数N的随机数；将变异算子作用于种群，对种群内个体以P_m的突变概率选择基因位并随机生成该位基因；

A4、终止判断：若t＝T，则以进化过程中所得到的具有最大适应度个体作为最优词项权重输出并结束；否则继续执行下一步骤，令t＝t+1，并跳转至步骤A2继续执行得到下一代种群G(t+1)；

S2、构造查询词项特征向量：所述查询词项特征向量包括由查询词项矢量、查询词项相对矢量、句法树中对应节点的深度值及其词性标注的离散值、逆文档频率以及平均词项频率所组成的多维向量，包括以下步骤：

B1、构造查询词项矢量、查询中心矢量、查询词项相对矢量：对每个查询词定义一个k维实数向量，每一维实数向量为一个变量；对于查询Q中的每个词项q有其对应的L维词矢量vec_q∈R^L作为查询词项矢量；所述查询中心矢量为：通过查询中心矢量进一步得到查询词项相对矢量

B2、得到查询词项相对矢量词性标注的离散值：使用斯坦福语法分析器获得查询词项特征向量中所需的词性和依存文法信息，经过语法分析得到的词性标注转换为离散值pos_q，并将该离散值加入到查询词项特征向量中；

B3、得到句法树中对应节点的深度值：对于输入的查询Q，输出为该查询对应的句法关系树，将各查询词项在句法树中对应节点的深度值depth_q加入到查询词项特征向量中；

B4、计算逆文档频率：将逆文档频率作为查询词项特征向量中的一维，逆文档频率为其中，idf_q的值域为正实数，df(q,D)为查询词项q在文档集D中出现的文档频次(该词项在多少篇文档中出现过)，|D|为文档集中文档的总数；

B5、计算平均词项频率：平均词项频率为其中，平均词项频率atf_q的值域为正实数，tf(q,D)为词项在整个文档集中出现的总次数；

S3、构建查询词项权重学习模型：利用循环神经网络RNN对查询词项特征向量与相应的最优词项权重值进行有监督学习建模：利用双向循环神经网络BRNN构造查询词项权重学习模型；在进行有监督学习建模时，将查询词项特征向量作为输入，以查询词项权重作为输出，以目标权重作为目标输出，通过BRNN进行模型构造和训练，使其最终能够对任意查询中的各词项预测对于检索任务较优的权重值；

S4、利用查询词项权重学习模型预测查询词项权重：将步骤S3得到的目标输出输入查询词项权重学习模型中对查询词项特征向量进行训练，得到查询词项权重预测值。

所述MAP分值的计算公式为：其中分母N_m是总的查询个数，分子表示单个查询的平均准确率求和。

所述双向循环神经网络通过将正向和逆向两个单向循环神经网络在输出层以下叠加；模型在正向和逆向中均有一个隐藏层FH和BH，两个RNN共享输入层I和输出层O。在网络的正向传播过程中由给定查询中第j位置词项q_ij的M维特征向量v_ij作为模型在j时刻的输入，通过分别由K个神经元组成的隐藏层FH和BH得到隐藏层输出和最后通过输出层得到权重输出z_ij；所述隐藏层为其中为第i时刻对应的网络输出，Θ^.H∈R^M×K为该层参数矩阵，b^.H∈R^K为偏置向量，激活函数f^H(·)采用非线性函数tanh；所述输出层为其中，θ^O为该层参数向量，b^O为偏置值，由于目标问题限定模型输出为权重z_ij∈[0,1]，采用sigmoid函数作为输出函数f^O(·)；指定起始和结束时刻的隐藏层输出为零向量，即

针对不同的目标问题设定用于指示预测误差的代价函数Θ＝(Θ^FH,Θ^BH,θ^O)为模型中所有参数，||Θ||为所有参数的L2范数，λ为正则化系数；然后基于代价函数的梯度在网络中进行反向传播更新各网络参数；正向输出和反向传播在训练数据上迭代地进行，直到所有参数收敛或达到某预设的终止条件为止。

所述查询词项特征向量具体为其维度为M＝2L+4，其中L是词向量的维度。

本发明的有益效果在于：本发明将查询词项权重预测问题转换为序列标注问题，创新性地提出了一种基于循环神经网络的查询词项权重学习方法，实现了自动和高效地对查询词项权重进行预测，在数据集上的主要评价指标MAP上提高幅度分别为16.8％(Robust04)和11.8％(GOV2)，验证了本发明方法对查询词项权重学习任务的有效性。

附图说明

图1为本发明的总体流程框架图。

图2为本发明查询词项权重学习模型的模型结构图。

具体实施方式

以下结合附图及具体实施方式对本发明进行说明：

本发明一种基于循环神经网络的查询词项权重学习方法的总体思路是：首先使用基于遗传算法的最优权重标注方法搜索最优词项权重，再构造查询词项特征向量，然后构建查询词项权重学习模型，该模型结构图如图2所示，最后使用模型预测查询词项权重。

一种基于循环神经网络的查询词项权重学习方法，包括以下步骤：

A1、初始化：设置进化代数计数器t＝0，最大进化代数T，种群容量S，随机生成S个个体作为初始群体G(0)；设查询词权重精度10^-ε，查询Q的词项长度为|Q|，令S＝10×2^ε-1，其中ε≥1；将区间[0,1]按照查询词权重精度分割成10^ε个区间，需要将对应的10^ε个数字转化为二进制数，使用公式得到需要的染色体基因个数N＝n₂(n₂＝n₁+1)，即每条染色体有N个基因位；初始随机生成S个个体，每个个体用长度为N的二进制数序列表示，这些二进制数序列对应|Q|个十进制小数，即|Q|个权重；

A2、个体评价：计算群体G(t)中各个个体的适应度；将二进制数对应的十进制小数作为查询词的权重和查询词一起查询，得到的查询结果使用MAP分值作为适应度；其中，t＝0、1、2……T；其中，MAP分值的计算公式为：其中分母N_m是总的查询个数，分子表示单个查询的平均准确率求和；

A3、种群运算：将基于适应度的选择规则作用于种群，保留满足规则的个体，并移除不满足规则的个体，个体被保留的概率其中f_i表示当前个体的适应度；将交叉算子作用于种群，将种群内保留的个体以交叉率P_i两两交叉，交叉时等概率的选择k个基因位进行交叉，(k为不大于染色体基因个数N的随机数)；将变异算子作用于种群，对种群内个体以P_m的突变概率选择基因位并随机生成该位基因；

A4、终止判断：若t＝T，则以进化过程中所得到的具有最大适应度个体作为最优解输出并结束；否则继续执行下一步骤，令t＝t+1，并跳转至步骤A2继续执行得到下一代种群G(t+1)；

S2、构造查询词项特征向量：所述查询词项特征向量包括由查询词项矢量、查询词项相对矢量、句法树中对应节点的深度值及其词性标注的离散值、逆文档频率以及平均词项频率所组成的多维向量，即查询词项特征向量为其维度为M＝2L+4，其中L是词向量的维度，查询词项特征向量中的每个维度的向量的获取步骤如下：

B1、构造查询词项矢量、查询中心矢量、查询词项相对矢量：对每个查询词定义一个k维实数向量，每一维实数向量为一个变量；对于查询Q中的每个词项q有其对应的L维词矢量vec_q∈R^L作为查询词项矢量；为了同时考虑词项与查询之间的相对语义关系，构造查询中心矢量为：根据词矢量可加性，该查询中心矢量能够一定程度上表示整个查询的语义信息，通过查询中心矢量可以进一步的得到词项与所属查询之间相对语义关系的矢量表示即为查询词项相对矢量；

B2、得到查询词项相对矢量词性标注的离散值：由于词矢量无法反映出两种用法间的语义差异，因此，使用斯坦福语法分析器获得查询词项特征向量中所需的词性和依存文法信息，经过语法分析得到的词性标注转换为离散值pos_q，并将该离散值加入到查询词项特征向量中，以弥补词项矢量表达能力的不足；；

B3、得到句法树中对应节点的深度值：句法分析是语法分析的一个关键组成部分，是指根据给定的语法，自动地识别句子所包含的语法单元和这些语法单元之间的依存关系，具体的说就是对于输入查询Q，输出为该查询对应的句法关系树，将各查询词项在句法树中对应节点的深度值depth_q加入到查询词项特征中作为查询词项特征的一个组成部分；

B5、计算平均词项频率：平均词项频率为其中，平均词项频率atf_q的值域为正实数，tf(q,D)为词项在整个文档集中出现的总次数

S3、构建查询词项权重学习模型：利用循环神经网络(RNN)对查询词项特征向量与相应的最优词项权重值进行有监督学习建模：利用双向循环神经网络(BRNN)构造查询词项权重学习模型；在进行有监督学习建模时，将查询词项特征向量作为输入，以查询词项权重作为输出，以目标权重作为目标输出，通过BRNN进行模型构造和训练，使其最终能够对任意查询中的各词项预测对于检索任务较优的权重值；所述双向循环神经网络通过将正向和逆向两个单向循环神经网络在输出层以下叠加；模型在正向和逆向中均有一个隐藏层FH和BH，两个RNN共享输入层I和输出层O。在网络的正向传播过程中由给定查询中第j位置词项q_ij的M维特征向量v_ij作为模型在j时刻的输入，通过分别由K个神经元组成的隐藏层FH和BH得到隐藏层输出和最后通过输出层得到权重输出z_ij；所述隐藏层为其中为第i时刻对应的网络输出，Θ.^H∈R^M×K为该层参数矩阵，b.^H∈R^K为偏置向量，激活函数f^H(·)采用非线性函数tanh；所述输出层为其中，θ^O为该层参数向量，b^O为偏置值，由于目标问题限定模型输出为权重z_ij∈[0,1]，采用sigmoid函数作为输出函数f^O(·)；指定起始和结束时刻的隐藏层输出为零向量，即

针对不同的目标问题设定用于指示预测误差的代价函数J(Y,Z)＝-∑∑[y_ij·log(z_ij)+(1-y_ij)·log(1-z_ij)]+λ·||Θ||，Θ＝(Θ^FH，Θ^BH,θ^O)为模型中所有参数，Q||Θ||为所有参数的L2范数，λ为正则化系数；然后基于代价函数的梯度在网络中进行反向传播更新各网络参数；正向输出和反向传播在训练数据上迭代地进行，直到所有参数收敛或达到某预设的终止条件为止

S4、利用所述查询词项权重学习模型预测查询词项权重：将步骤S3得到的目标输出输入查询词项权重学习模型中对查询词项特征向量进行训练，得到查询词项权重预测值。

实施例:

一种基于循环神经网络的查询词项权重学习方法本发明的具体步骤如下：

1、搜索最优词项权重：利用智能搜索算法结合采集到的公开已标注的真实数据集获取最优词项权重值，步骤如下：

对于查询“international organized crime”，其查询词项个数为3，由得，最大进化代数T＝100；设查询词权重精度为0.1，即ε＝1，由S＝10×2^ε-1种群容量S＝10；将区间[0,1]分割成10个区间，2³＜10＜2⁴,使用4位二进制序列表示一个数，可以表示0，0.1，…，0.9，1等11个数，即染色体长度为4×3＝12；随机生成10个个体作为初始种群G(0)，实验结果如下：

(1)010001011101,前四位0100对应十进制数0×2⁰+1×2¹+0×2²+0×2³＝2，依次计算中间四位和后四位对应对应10和11，这三个数四舍五入转化为一位小数2/15,10/15,11/15(2⁴-1＝15)分别对应权重0.1,0.7,0.7，将查询词项和对应权重结合进行搜索，将得到的结果使用计算适应度，其适应度为0.032201372，其他数据计算结果依次如下：

(2)100011110110，对应权重0.1,1,0.4，适应度0.030795222

(3)010100101100，对应权重0.7,0.3,0.2，适应度0.033387665

(4)101011000000，对应权重0.3,0.2,0，适应度0.02631624

(5)001010000110，对应权重0.3,0.1,0.4，适应度0.031648878

(6)001010100011，对应权重0.3,0.3,0.8，适应度0.031664737

(7)001011100100，对应权重0.3,0.5,0.1，适应度0.030955235

(8)110110101100，对应权重0.7,0.3,0.2，适应度0.033387665

(9)011000101101，对应权重0.4,0.3,0.7，适应度0.032559402

(10)010001000110，对应权重0.1,0.1,0.4，适应度0.030378211

当前最佳适应度是第3个个体，该个体直接遗传到下一代，其他个体使用适应度的选择规则，保留满足规则的个体，使用计算出每个个体被保留的概率，其中f_i表示当前个体的适应度，选择9次，得到9个个体；再将得到的10个个体按照交叉率P_i＝0.1两两交叉，交叉时等概率的选择k个基因位进行交叉；按照变异率P_m＝0.1选择基因位并随机生成该位基因；

这些选择和运算之后得到下一代个体G(1),再重复进行以上操作直到G(100),选出所有结果中适应度最高的个体，其对应的权重即为最优词项权重。实验中发现，不添加词项权重时(即查询词项的权重都相同)，查询词“international organized crime”的MAP值为0.036691904，使用智能搜索算法得到的最佳MAP值为0.050816272；

继续对其他查询进行搜索可以得到所有查询的最优词项权重，这些最优词项权重被用于对查询词项权重学习模型的训练和测试；

2、考虑查询中词矢量、词项词性、语法以及词项之间关系构造查询词项特征向量，操作步骤如下：

开源工具包Word2Vec中实现了词向量模型和优化方法，该项目同时还公开了一个由大量谷歌新闻(Google News)文档组成的训练语料。实验中利用Word2Vec工具，采用Skip-Gram模型和负采样方法，使用谷歌新闻语料训练得到权重预测模型所需的词矢量；词矢量的维度L在不同TREC数据集上均在L＝100时得到最优检索效果，所以在本发明中也沿用该设置；对于查询Q中的每个词项q有其对应的L维词矢量vec_q∈R^L，定义查询中心矢量其中|Q|表示查询词项个数，进一步的得到词项与所属查询之间相对语义关系的矢量表示将vec_q和作为查询词项特征向量的一部分；

本发明使用斯坦福语法分析器(Stanford Parser)来获得特征向量中所需的词性和依存文法信息，将各查询词项经过语法分析得到的词性标注转换为离散值pos_q，并将该值加入到查询词项特征中；将各查询词项在句法树中对应节点的深度值depth_q加入到查询词项特征中作为查询词项特征的一个组成部分；

将逆文档频率作为查询词项特征向量中的一维，其计算公式为其中df(q,D)为查询词项q在文档集D中出现的文档频次，|D|为文档集中文档的总数；再在查询词项特征向量中加入平均词项频率，其定义为

最终得到的查询词项特征向量具体为其维度为M＝2L+4，其中L＝100，是词向量的维度。

3、利用循环神经网络对查询词项与相应最优权重值进行有监督学习建模：

双向循环神经网络将正向和逆向两个单向循环神经网络在输出层以下叠加，模型在正向和逆向中均有一个隐藏层FH和BH，两个循环神经网络共享输入层I和输出层O。在网络的正向传播过程中由给定查询中第j位置词项q_ij的M维特征向量v_ij作为模型在j时刻的输入，通过分别由K个神经元组成的隐藏层FH和BH得到隐藏层输出和最后通过输出层得到权重输出z_ij；定义隐藏层为其中为第i时刻对应的网络输出，Θ^.H∈R^M×K为该层参数矩阵，b^.H∈R^K为偏置向量，激活函数f^H(·)采用非线性函数tanh；定义输出层为其中，θ^O为该层参数向量，b^O为偏置值，由于目标问题限定模型输出为权重z_ij∈[0,1]，本方法采用sigmoid函数作为输出函数f^O(·)；指定起始和结束时刻的隐藏层输出为零向量，即

针对不同的目标问题设定用于指示预测误差的代价函数(Cost function)Θ＝(Θ^FH,Θ^BH,θ^O)为模型中所有参数，||Θ||为所有参数的L2范数，λ为正则化系数；然后基于代价函数的梯度在网络中进行反向传播更新各网络参数；正向输出和反向传播在训练数据上迭代地进行，直到所有参数收敛或达到某预设的终止条件为止；

4、利用模型对查询词项权重进行预测：将步骤3得到的目标输出输入查询词项权重学习模型中对查询词项特征向量进行训练，得到查询词项权重预测值。

实验使用TREC评测会议所提供的公开文档集Robust04和GOV2作为检索文档集，分别包含文档528,155和25,205,179篇，也分别代表了异质和同质的文档集；使用相应公开Topic集合中的Title域作为查询集。

实验中使用上述最优权重标注作为目标查询词项权重，对Robust04和GOV2数据集均采用5倍交叉验证，即将标注集等分为5份，每次选择使用其中的1份作为测试集，其余4份作为训练集，并最终使用5次测试评价指标的平均值作为最终测试结果；，为了避免过拟合，在训练时还使用了提前停止策略，需要在训练集中再随机选择1份作为验证集(也称为开发集)；

本实验中还有一个超参数为BRNN中隐藏层神经元数量K，该参数对模型性能的影响较大：当取值较大时输出层以及下一时刻的隐藏层能够获取更多的信息，但会使模型复杂度成倍增加，相应的将需要更多训练数据以避免过拟合；若其取值过小，则模型对信息的表达能力将受到很大限制，导致预测准确率低下。因此，在实验中首先要进行小规模简单实验对该参数进行调优。具体地，将模型简化为单向的RNN，然后在训练数据上分别使用增量为10的K值(K＝10,20,…)进行训练和测试，发现当K＝20时检索效果最优。实验中主要对采用如上设置的基于循环神经网络的查询词项权重学习方法(记为QW-BRNN)进行测试和评价，但同时为了体现BRNN在对于目标任务的有效性，此外还对使用单向RNN的简化方法(记为QW-RNN)进行了相同的测试。

对于查询词“international organized crime”，使用本发明的BRNN方法得到的MAP值为0.045679014，三个词项对应的权重分别为0.4,0.3,0.4，较之不添加权重的结果0.036691904提升约24.49％，说明本方法对该查询的结果有显著的提高。

为了验证本发明方法的有效性，实验分别选择了如下4种对比方法：

1.LM-Dir：开源信息检索工具Lucene中实现的KL距离检索模型，并使用参数分别为经验值1000(Robust04)和1500(GOV2)的Dirichlet平滑方法。本实验以该模型的检索结果作为基础对比，同时该检索模型也是其它所有方法的基础检索模型。

2.LM-OW：使用本发明中最优查询词项权重标注方法得到的最优权重进行检索，其结果是在本实验中指定参数下的检索效果上限。

3.TN-SVM：以词项必要度(Term Necessity)为目标权重，通过词项的统计、语法等信息构造词项特征并进行SVD变换，最后使用基于核函数的SVM建立回归模型。本实验将该方法作为主要对比方法之一。

4.TN-Vec：使用查询词项矢量作为特征向量建立线性回归模型，模型训练参考的目标权重与TN-SVM方法中相同。该方法是当前利用文档相关性评价进行查询赋权效果最好的方法之一，因此本实验也将其作为另一个主要对比方法。

表1给出了包括本发明提出方法和4个对比方法在内的6种方法在前文所述实验设置中的P@10和MAP评价指标测试结果，其中带有粗体和下划线的分值分别为相应数据集和评价指标下的最高和次高值。

表1评价指标测试结果对比表

从该表中所列的实验结果可以看出LM-OW的检索结果对比基础检索模型LM-Dir提高的幅度非常大，说明本发明中通过遗传算法搜索得到的最优查询词项权重的确有很高的质量。本发明提出方法中两种模型OW-RNN和OW-BRNN对应的检索效果较基础检索模型LM-Dir无论在MAP还是P@10指标上都有大幅提高，主要评价指标MAP上的提高幅度分别为16.8％(Robust04)和11.8％(GOV2)，验证了本发明方法对查询词项权重学习任务的有效性。

本实验通过全面的测试得出了如下结论：1)本发明提出的基于遗传算法的最优权重标注策略能够在给定优化目标评价指标的前提下搜索得到质量很高的查询词项权重标注；2)本发明提出的基于循环神经网络的查询词项权重学习模型能够有效的对查询词项间重要性相对关系及目标权重进行建模，并且在信息检索任务中，该模型对查询词项权重的预测效果显著优于传统方法。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于循环神经网络的查询词项权重学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于循环神经网络的查询词项权重学习方法，其特征在于，所述MAP分值的计算公式为：其中分母N_m是总的查询个数，分子表示单个查询的平均准确率求和。

3.根据权利要求1所述的一种基于循环神经网络的查询词项权重学习方法，其特征在于，所述双向循环神经网络通过将正向和逆向两个单向循环神经网络在输出层以下叠加；模型在正向和逆向中均有一个隐藏层FH和BH，两个RNN共享输入层I和输出层O。在网络的正向传播过程中由给定查询中第j位置词项q_ij的M维特征向量v_ij作为模型在j时刻的输入，通过分别由K个神经元组成的隐藏层FH和BH得到隐藏层输出和最后通过输出层得到权重输出z_ij；所述隐藏层为其中为第i时刻对应的网络输出，Θ.^H∈R^M×K为该层参数矩阵，b.^H∈R^K为偏置向量，激活函数f^H(·)采用非线性函数tanh；所述输出层为其中，θ^O为该层参数向量，b^O为偏置值，由于目标问题限定模型输出为权重z_ij∈[0,1]，采用sigmoid函数作为输出函数f^O(·)；指定起始和结束时刻的隐藏层输出为零向量，即

4.根据权利要求1所述的一种基于循环神经网络的查询词项权重学习方法，其特征在于，所述查询词项特征向量具体为其维度为M＝2L+4，其中L是词向量的维度。