CN106056209A - 一种基于循环神经网络的查询词项权重学习方法 - Google Patents

一种基于循环神经网络的查询词项权重学习方法 Download PDF

Info

Publication number
CN106056209A
CN106056209A CN201610346162.XA CN201610346162A CN106056209A CN 106056209 A CN106056209 A CN 106056209A CN 201610346162 A CN201610346162 A CN 201610346162A CN 106056209 A CN106056209 A CN 106056209A
Authority
CN
China
Prior art keywords
lexical item
inquiry
vector
weight
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610346162.XA
Other languages
English (en)
Other versions
CN106056209B (zh
Inventor
田利云
马云龙
林鸿飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201610346162.XA priority Critical patent/CN106056209B/zh
Publication of CN106056209A publication Critical patent/CN106056209A/zh
Application granted granted Critical
Publication of CN106056209B publication Critical patent/CN106056209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种基于循环神经网络的查询词项权重学习方法,包括S1、搜索最优词项权重、S2、构造查询词项特征向量、S3、构建查询词项权重学习模型、S4、利用查询词项权重学习模型预测查询词项权重。本发明将查询词项权重预测问题转换为序列标注问题,创新性地提出了一种基于循环神经网络的查询词项权重学习方法,实现了自动和高效地对查询词项权重进行预测,在数据集上的主要评价指标MAP上提高幅度分别为16.8%(Robust04)和11.8%(GOV2),验证了本发明方法对查询词项权重学习任务的有效性。

Description

一种基于循环神经网络的查询词项权重学习方法
技术领域
本发明涉及数据挖掘和搜索引擎技术领域,尤其是一种基于循环神经网络的查询词项权重学习方法。
背景技术
当前各信息检索模型或系统的性能对查询理解的依赖性非常高。因此查询理解技术成为了当代信息检索领域中的重要研究方向,而其中一个关键问题是对查询中各词项重要性的分析和预测。由于在主流信息检索模型的相关度分数计算公式中查询词项权重均扮演着非常重要的角色,将各查询词项赋予恰当的权重值可使检索结果的准确率得到很大的提升。查询词项权重预测与查询的理解和表示有紧密关联,涉及到词项语义理解、句法理解和查询意图分析等技术,其中每一个都是信息检索领域中尚未完美解决的问题,致使关于查询词项权重预测问题还有大的研究空间。
查询词项权重预测的目标是通过权重值反应查询中各词项对所描述信息需求的重要性相对关系。该问题很早就被提出并已有大量的相关研究,目前绝大部分尝试通过机器学习技术进行查询词项权重预测的现有研究工作均将该任务定义为面向查询词项的回归问题,即对于给定查询,利用已标注数据训练,自动学习每个查询词项与其目标权重之间的关系。该定义优点是简单直观,可直接应用现有的回归或是多分类机器学习模型进行学习和预测。但其缺点也很明显,即隐含了词项之间的独立性假设,即便很多研究中试图利用查询的整体信息来变相考虑这种依赖关系,但也仅停留在特征构造的层面,很难将其在模型层面有机的融合。
发明内容
本发明的目的是提供一种可有效提高检索准确率的基于循环神经网络的查询词项权重学习方法。
本发明解决现有技术问题所采用的技术方案:一种基于循环神经网络的查询词项权重学习方法,包括以下步骤:
S1、搜索最优词项权重:采集公开已标注的数据集,利用基于遗传算法的最优权重标注方法获取最优词项权重值,所述最优权重标注方法如下:
A1、初始化:设置进化代数计数器t=0,最大进化代数T,种群容量S,随机生成S个个体作为初始群体G(0);设查询词权重精度10,查询Q的词项长度为|Q|,令S=10×2ε-1,其中ε≥1;将区间[0,1]按照查询词权重精度分割成10ε个区间,需要将对应的10ε个数字转化为二进制数,使用公式得到需要的染色体基因个数N=n2=n1+1,即每条染色体有N个基因位;初始随机生成S个个体,每个个体用长度为N的二进制数序列表示,这些二进制数序列对应|Q|个十进制小数,即|Q|个权重;
A2、个体评价:计算群体G(t)中各个个体的适应度;将二进制数对应的十进制小数作为查询词的权重和查询词一起查询,得到的查询结果使用MAP分值作为适应度;其中,t=0、1、2……T;
A3、种群运算:将基于适应度的选择规则作用于种群,保留满足规则的个体,并移除不满足规则的个体,个体被保留的概率其中fi表示当前个体的适应度;将交叉算子作用于种群,将种群内保留的个体以交叉率Pi两两交叉,交叉时等概率的选择k个基因位进行交叉,k为不大于染色体基因个数N的随机数;将变异算子作用于种群,对种群内个体以Pm的突变概率选择基因位并随机生成该位基因;
A4、终止判断:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优词项权重输出并结束;否则继续执行下一步骤,令t=t+1,并跳转至步骤A2继续执行得到下一代种群G(t+1);
S2、构造查询词项特征向量:所述查询词项特征向量包括由查询词项矢量、查询词项相对矢量、句法树中对应节点的深度值及其词性标注的离散值、逆文档频率以及平均词项频率所组成的多维向量,包括以下步骤:
B1、构造查询词项矢量、查询中心矢量、查询词项相对矢量:对每个查询词定义一个k维实数向量,每一维实数向量为一个变量;对于查询Q中的每个词项q有其对应的L维词矢量vecq∈RL作为查询词项矢量;所述查询中心矢量为:通过查询中心矢量进一步得到查询词项相对矢量
B2、得到查询词项相对矢量词性标注的离散值:使用斯坦福语法分析器获得查询词项特征向量中所需的词性和依存文法信息,经过语法分析得到的词性标注转换为离散值posq,并将该离散值加入到查询词项特征向量中;
B3、得到句法树中对应节点的深度值:对于输入的查询Q,输出为该查询对应的句法关系树,将各查询词项在句法树中对应节点的深度值depthq加入到查询词项特征向量中;
B4、计算逆文档频率:将逆文档频率作为查询词项特征向量中的一维,逆文档频率为其中,idfq的值域为正实数,df(q,D)为查询词项q在文档集D中出现的文档频次(该词项在多少篇文档中出现过),|D|为文档集中文档的总数;
B5、计算平均词项频率:平均词项频率为其中,平均词项频率atfq的值域为正实数,tf(q,D)为词项在整个文档集中出现的总次数;
S3、构建查询词项权重学习模型:利用循环神经网络RNN对查询词项特征向量与相应的最优词项权重值进行有监督学习建模:利用双向循环神经网络BRNN构造查询词项权重学习模型;在进行有监督学习建模时,将查询词项特征向量作为输入,以查询词项权重作为输出,以目标权重作为目标输出,通过BRNN进行模型构造和训练,使其最终能够对任意查询中的各词项预测对于检索任务较优的权重值;
S4、利用查询词项权重学习模型预测查询词项权重:将步骤S3得到的目标输出输入查询词项权重学习模型中对查询词项特征向量进行训练,得到查询词项权重预测值。
所述MAP分值的计算公式为:其中分母Nm是总的查询个数,分子表示单个查询的平均准确率求和。
所述双向循环神经网络通过将正向和逆向两个单向循环神经网络在输出层以下叠加;模型在正向和逆向中均有一个隐藏层FH和BH,两个RNN共享输入层I和输出层O。在网络的正向传播过程中由给定查询中第j位置词项qij的M维特征向量vij作为模型在j时刻的输入,通过分别由K个神经元组成的隐藏层FH和BH得到隐藏层输出最后通过输出层得到权重输出zij;所述隐藏层为其中为第i时刻对应的网络输出,Θ.H∈RM×K为该层参数矩阵,b.H∈RK为偏置向量,激活函数fH(·)采用非线性函数tanh;所述输出层为其中,θO为该层参数向量,bO为偏置值,由于目标问题限定模型输出为权重zij∈[0,1],采用sigmoid函数作为输出函数fO(·);指定起始和结束时刻的隐藏层输出为零向量,即
针对不同的目标问题设定用于指示预测误差的代价函数Θ=(ΘFHBHO)为模型中所有参数,||Θ||为所有参数的L2范数,λ为正则化系数;然后基于代价函数的梯度在网络中进行反向传播更新各网络参数;正向输出和反向传播在训练数据上迭代地进行,直到所有参数收敛或达到某预设的终止条件为止。
所述查询词项特征向量具体为其维度为M=2L+4,其中L是词向量的维度。
本发明的有益效果在于:本发明将查询词项权重预测问题转换为序列标注问题,创新性地提出了一种基于循环神经网络的查询词项权重学习方法,实现了自动和高效地对查询词项权重进行预测,在数据集上的主要评价指标MAP上提高幅度分别为16.8%(Robust04)和11.8%(GOV2),验证了本发明方法对查询词项权重学习任务的有效性。
附图说明
图1为本发明的总体流程框架图。
图2为本发明查询词项权重学习模型的模型结构图。
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
本发明一种基于循环神经网络的查询词项权重学习方法的总体思路是:首先使用基于遗传算法的最优权重标注方法搜索最优词项权重,再构造查询词项特征向量,然后构建查询词项权重学习模型,该模型结构图如图2所示,最后使用模型预测查询词项权重。
一种基于循环神经网络的查询词项权重学习方法,包括以下步骤:
S1、搜索最优词项权重:采集公开已标注的数据集,利用基于遗传算法的最优权重标注方法获取最优词项权重值,所述最优权重标注方法如下:
A1、初始化:设置进化代数计数器t=0,最大进化代数T,种群容量S,随机生成S个个体作为初始群体G(0);设查询词权重精度10,查询Q的词项长度为|Q|,令S=10×2ε-1,其中ε≥1;将区间[0,1]按照查询词权重精度分割成10ε个区间,需要将对应的10ε个数字转化为二进制数,使用公式得到需要的染色体基因个数N=n2(n2=n1+1),即每条染色体有N个基因位;初始随机生成S个个体,每个个体用长度为N的二进制数序列表示,这些二进制数序列对应|Q|个十进制小数,即|Q|个权重;
A2、个体评价:计算群体G(t)中各个个体的适应度;将二进制数对应的十进制小数作为查询词的权重和查询词一起查询,得到的查询结果使用MAP分值作为适应度;其中,t=0、1、2……T;其中,MAP分值的计算公式为:其中分母Nm是总的查询个数,分子表示单个查询的平均准确率求和;
A3、种群运算:将基于适应度的选择规则作用于种群,保留满足规则的个体,并移除不满足规则的个体,个体被保留的概率其中fi表示当前个体的适应度;将交叉算子作用于种群,将种群内保留的个体以交叉率Pi两两交叉,交叉时等概率的选择k个基因位进行交叉,(k为不大于染色体基因个数N的随机数);将变异算子作用于种群,对种群内个体以Pm的突变概率选择基因位并随机生成该位基因;
A4、终止判断:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出并结束;否则继续执行下一步骤,令t=t+1,并跳转至步骤A2继续执行得到下一代种群G(t+1);
S2、构造查询词项特征向量:所述查询词项特征向量包括由查询词项矢量、查询词项相对矢量、句法树中对应节点的深度值及其词性标注的离散值、逆文档频率以及平均词项频率所组成的多维向量,即查询词项特征向量为其维度为M=2L+4,其中L是词向量的维度,查询词项特征向量中的每个维度的向量的获取步骤如下:
B1、构造查询词项矢量、查询中心矢量、查询词项相对矢量:对每个查询词定义一个k维实数向量,每一维实数向量为一个变量;对于查询Q中的每个词项q有其对应的L维词矢量vecq∈RL作为查询词项矢量;为了同时考虑词项与查询之间的相对语义关系,构造查询中心矢量为:根据词矢量可加性,该查询中心矢量能够一定程度上表示整个查询的语义信息,通过查询中心矢量可以进一步的得到词项与所属查询之间相对语义关系的矢量表示 即为查询词项相对矢量;
B2、得到查询词项相对矢量词性标注的离散值:由于词矢量无法反映出两种用法间的语义差异,因此,使用斯坦福语法分析器获得查询词项特征向量中所需的词性和依存文法信息,经过语法分析得到的词性标注转换为离散值posq,并将该离散值加入到查询词项特征向量中,以弥补词项矢量表达能力的不足;;
B3、得到句法树中对应节点的深度值:句法分析是语法分析的一个关键组成部分,是指根据给定的语法,自动地识别句子所包含的语法单元和这些语法单元之间的依存关系,具体的说就是对于输入查询Q,输出为该查询对应的句法关系树,将各查询词项在句法树中对应节点的深度值depthq加入到查询词项特征中作为查询词项特征的一个组成部分;
B4、计算逆文档频率:将逆文档频率作为查询词项特征向量中的一维,逆文档频率为其中,idfq的值域为正实数,df(q,D)为查询词项q在文档集D中出现的文档频次(该词项在多少篇文档中出现过),|D|为文档集中文档的总数;
B5、计算平均词项频率:平均词项频率为其中,平均词项频率atfq的值域为正实数,tf(q,D)为词项在整个文档集中出现的总次数
S3、构建查询词项权重学习模型:利用循环神经网络(RNN)对查询词项特征向量与相应的最优词项权重值进行有监督学习建模:利用双向循环神经网络(BRNN)构造查询词项权重学习模型;在进行有监督学习建模时,将查询词项特征向量作为输入,以查询词项权重作为输出,以目标权重作为目标输出,通过BRNN进行模型构造和训练,使其最终能够对任意查询中的各词项预测对于检索任务较优的权重值;所述双向循环神经网络通过将正向和逆向两个单向循环神经网络在输出层以下叠加;模型在正向和逆向中均有一个隐藏层FH和BH,两个RNN共享输入层I和输出层O。在网络的正向传播过程中由给定查询中第j位置词项qij的M维特征向量vij作为模型在j时刻的输入,通过分别由K个神经元组成的隐藏层FH和BH得到隐藏层输出最后通过输出层得到权重输出zij;所述隐藏层为 其中为第i时刻对应的网络输出,Θ.H∈RM×K为该层参数矩阵,b.H∈RK为偏置向量,激活函数fH(·)采用非线性函数tanh;所述输出层为其中,θO为该层参数向量,bO为偏置值,由于目标问题限定模型输出为权重zij∈[0,1],采用sigmoid函数作为输出函数fO(·);指定起始和结束时刻的隐藏层输出为零向量,即
针对不同的目标问题设定用于指示预测误差的代价函数J(Y,Z)=-∑∑[yij·log(zij)+(1-yij)·log(1-zij)]+λ·||Θ||,Θ=(ΘFH,ΘBHO)为模型中所有参数,Q||Θ||为所有参数的L2范数,λ为正则化系数;然后基于代价函数的梯度在网络中进行反向传播更新各网络参数;正向输出和反向传播在训练数据上迭代地进行,直到所有参数收敛或达到某预设的终止条件为止
S4、利用所述查询词项权重学习模型预测查询词项权重:将步骤S3得到的目标输出输入查询词项权重学习模型中对查询词项特征向量进行训练,得到查询词项权重预测值。
实施例:
一种基于循环神经网络的查询词项权重学习方法本发明的具体步骤如下:
1、搜索最优词项权重:利用智能搜索算法结合采集到的公开已标注的真实数据集获取最优词项权重值,步骤如下:
对于查询“international organized crime”,其查询词项个数为3,由得,最大进化代数T=100;设查询词权重精度为0.1,即ε=1,由S=10×2ε-1种群容量S=10;将区间[0,1]分割成10个区间,23<10<24,使用4位二进制序列表示一个数,可以表示0,0.1,…,0.9,1等11个数,即染色体长度为4×3=12;随机生成10个个体作为初始种群G(0),实验结果如下:
(1)010001011101,前四位0100对应十进制数0×20+1×21+0×22+0×23=2,依次计算中间四位和后四位对应对应10和11,这三个数四舍五入转化为一位小数2/15,10/15,11/15(24-1=15)分别对应权重0.1,0.7,0.7,将查询词项和对应权重结合进行搜索,将得到的结果使用计算适应度,其适应度为0.032201372,其他数据计算结果依次如下:
(2)100011110110,对应权重0.1,1,0.4,适应度0.030795222
(3)010100101100,对应权重0.7,0.3,0.2,适应度0.033387665
(4)101011000000,对应权重0.3,0.2,0,适应度0.02631624
(5)001010000110,对应权重0.3,0.1,0.4,适应度0.031648878
(6)001010100011,对应权重0.3,0.3,0.8,适应度0.031664737
(7)001011100100,对应权重0.3,0.5,0.1,适应度0.030955235
(8)110110101100,对应权重0.7,0.3,0.2,适应度0.033387665
(9)011000101101,对应权重0.4,0.3,0.7,适应度0.032559402
(10)010001000110,对应权重0.1,0.1,0.4,适应度0.030378211
当前最佳适应度是第3个个体,该个体直接遗传到下一代,其他个体使用适应度的选择规则,保留满足规则的个体,使用计算出每个个体被保留的概率,其中fi表示当前个体的适应度,选择9次,得到9个个体;再将得到的10个个体按照交叉率Pi=0.1两两交叉,交叉时等概率的选择k个基因位进行交叉;按照变异率Pm=0.1选择基因位并随机生成该位基因;
这些选择和运算之后得到下一代个体G(1),再重复进行以上操作直到G(100),选出所有结果中适应度最高的个体,其对应的权重即为最优词项权重。实验中发现,不添加词项权重时(即查询词项的权重都相同),查询词“international organized crime”的MAP值为0.036691904,使用智能搜索算法得到的最佳MAP值为0.050816272;
继续对其他查询进行搜索可以得到所有查询的最优词项权重,这些最优词项权重被用于对查询词项权重学习模型的训练和测试;
2、考虑查询中词矢量、词项词性、语法以及词项之间关系构造查询词项特征向量,操作步骤如下:
开源工具包Word2Vec中实现了词向量模型和优化方法,该项目同时还公开了一个由大量谷歌新闻(Google News)文档组成的训练语料。实验中利用Word2Vec工具,采用Skip-Gram模型和负采样方法,使用谷歌新闻语料训练得到权重预测模型所需的词矢量;词矢量的维度L在不同TREC数据集上均在L=100时得到最优检索效果,所以在本发明中也沿用该设置;对于查询Q中的每个词项q有其对应的L维词矢量vecq∈RL,定义查询中心矢量其中|Q|表示查询词项个数,进一步的得到词项与所属查询之间相对语义关系的矢量表示将vecq作为查询词项特征向量的一部分;
本发明使用斯坦福语法分析器(Stanford Parser)来获得特征向量中所需的词性和依存文法信息,将各查询词项经过语法分析得到的词性标注转换为离散值posq,并将该值加入到查询词项特征中;将各查询词项在句法树中对应节点的深度值depthq加入到查询词项特征中作为查询词项特征的一个组成部分;
将逆文档频率作为查询词项特征向量中的一维,其计算公式为其中df(q,D)为查询词项q在文档集D中出现的文档频次,|D|为文档集中文档的总数;再在查询词项特征向量中加入平均词项频率,其定义为
最终得到的查询词项特征向量具体为其维度为M=2L+4,其中L=100,是词向量的维度。
3、利用循环神经网络对查询词项与相应最优权重值进行有监督学习建模:
双向循环神经网络将正向和逆向两个单向循环神经网络在输出层以下叠加,模型在正向和逆向中均有一个隐藏层FH和BH,两个循环神经网络共享输入层I和输出层O。在网络的正向传播过程中由给定查询中第j位置词项qij的M维特征向量vij作为模型在j时刻的输入,通过分别由K个神经元组成的隐藏层FH和BH得到隐藏层输出最后通过输出层得到权重输出zij;定义隐藏层为其中为第i时刻对应的网络输出,Θ.H∈RM×K为该层参数矩阵,b.H∈RK为偏置向量,激活函数fH(·)采用非线性函数tanh;定义输出层为其中,θO为该层参数向量,bO为偏置值,由于目标问题限定模型输出为权重zij∈[0,1],本方法采用sigmoid函数作为输出函数fO(·);指定起始和结束时刻的隐藏层输出为零向量,即
针对不同的目标问题设定用于指示预测误差的代价函数(Cost function)Θ=(ΘFHBHO)为模型中所有参数,||Θ||为所有参数的L2范数,λ为正则化系数;然后基于代价函数的梯度在网络中进行反向传播更新各网络参数;正向输出和反向传播在训练数据上迭代地进行,直到所有参数收敛或达到某预设的终止条件为止;
4、利用模型对查询词项权重进行预测:将步骤3得到的目标输出输入查询词项权重学习模型中对查询词项特征向量进行训练,得到查询词项权重预测值。
实验使用TREC评测会议所提供的公开文档集Robust04和GOV2作为检索文档集,分别包含文档528,155和25,205,179篇,也分别代表了异质和同质的文档集;使用相应公开Topic集合中的Title域作为查询集。
实验中使用上述最优权重标注作为目标查询词项权重,对Robust04和GOV2数据集均采用5倍交叉验证,即将标注集等分为5份,每次选择使用其中的1份作为测试集,其余4份作为训练集,并最终使用5次测试评价指标的平均值作为最终测试结果;,为了避免过拟合,在训练时还使用了提前停止策略,需要在训练集中再随机选择1份作为验证集(也称为开发集);
本实验中还有一个超参数为BRNN中隐藏层神经元数量K,该参数对模型性能的影响较大:当取值较大时输出层以及下一时刻的隐藏层能够获取更多的信息,但会使模型复杂度成倍增加,相应的将需要更多训练数据以避免过拟合;若其取值过小,则模型对信息的表达能力将受到很大限制,导致预测准确率低下。因此,在实验中首先要进行小规模简单实验对该参数进行调优。具体地,将模型简化为单向的RNN,然后在训练数据上分别使用增量为10的K值(K=10,20,…)进行训练和测试,发现当K=20时检索效果最优。实验中主要对采用如上设置的基于循环神经网络的查询词项权重学习方法(记为QW-BRNN)进行测试和评价,但同时为了体现BRNN在对于目标任务的有效性,此外还对使用单向RNN的简化方法(记为QW-RNN)进行了相同的测试。
对于查询词“international organized crime”,使用本发明的BRNN方法得到的MAP值为0.045679014,三个词项对应的权重分别为0.4,0.3,0.4,较之不添加权重的结果0.036691904提升约24.49%,说明本方法对该查询的结果有显著的提高。
为了验证本发明方法的有效性,实验分别选择了如下4种对比方法:
1.LM-Dir:开源信息检索工具Lucene中实现的KL距离检索模型,并使用参数分别为经验值1000(Robust04)和1500(GOV2)的Dirichlet平滑方法。本实验以该模型的检索结果作为基础对比,同时该检索模型也是其它所有方法的基础检索模型。
2.LM-OW:使用本发明中最优查询词项权重标注方法得到的最优权重进行检索,其结果是在本实验中指定参数下的检索效果上限。
3.TN-SVM:以词项必要度(Term Necessity)为目标权重,通过词项的统计、语法等信息构造词项特征并进行SVD变换,最后使用基于核函数的SVM建立回归模型。本实验将该方法作为主要对比方法之一。
4.TN-Vec:使用查询词项矢量作为特征向量建立线性回归模型,模型训练参考的目标权重与TN-SVM方法中相同。该方法是当前利用文档相关性评价进行查询赋权效果最好的方法之一,因此本实验也将其作为另一个主要对比方法。
表1给出了包括本发明提出方法和4个对比方法在内的6种方法在前文所述实验设置中的P@10和MAP评价指标测试结果,其中带有粗体和下划线的分值分别为相应数据集和评价指标下的最高和次高值。
表1评价指标测试结果对比表
从该表中所列的实验结果可以看出LM-OW的检索结果对比基础检索模型LM-Dir提高的幅度非常大,说明本发明中通过遗传算法搜索得到的最优查询词项权重的确有很高的质量。本发明提出方法中两种模型OW-RNN和OW-BRNN对应的检索效果较基础检索模型LM-Dir无论在MAP还是P@10指标上都有大幅提高,主要评价指标MAP上的提高幅度分别为16.8%(Robust04)和11.8%(GOV2),验证了本发明方法对查询词项权重学习任务的有效性。
本实验通过全面的测试得出了如下结论:1)本发明提出的基于遗传算法的最优权重标注策略能够在给定优化目标评价指标的前提下搜索得到质量很高的查询词项权重标注;2)本发明提出的基于循环神经网络的查询词项权重学习模型能够有效的对查询词项间重要性相对关系及目标权重进行建模,并且在信息检索任务中,该模型对查询词项权重的预测效果显著优于传统方法。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (4)

1.一种基于循环神经网络的查询词项权重学习方法,其特征在于,包括以下步骤:
S1、搜索最优词项权重:采集公开已标注的数据集,利用基于遗传算法的最优权重标注方法获取最优词项权重值,所述最优权重标注方法如下:
A1、初始化:设置进化代数计数器t=0,最大进化代数T,种群容量S,随机生成S个个体作为初始群体G(0);设查询词权重精度10,查询Q的词项长度为|Q|,令S=10×2ε-1,其中ε≥1;将区间[0,1]按照查询词权重精度分割成10ε个区间,需要将对应的10ε个数字转化为二进制数,使用公式得到需要的染色体基因个数N=n2=n1+1,即每条染色体有N个基因位;初始随机生成S个个体,每个个体用长度为N的二进制数序列表示,这些二进制数序列对应|Q|个十进制小数,即|Q|个权重;
A2、个体评价:计算群体G(t)中各个个体的适应度;将二进制数对应的十进制小数作为查询词的权重和查询词一起查询,得到的查询结果使用MAP分值作为适应度;其中,t=0、1、2……T;
A3、种群运算:将基于适应度的选择规则作用于种群,保留满足规则的个体,并移除不满足规则的个体,个体被保留的概率其中fi表示当前个体的适应度;将交叉算子作用于种群,将种群内保留的个体以交叉率Pi两两交叉,交叉时等概率的选择k个基因位进行交叉,k为不大于染色体基因个数N的随机数;将变异算子作用于种群,对种群内个体以Pm的突变概率选择基因位并随机生成该位基因;
A4、终止判断:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优词项权重输出并结束;否则继续执行下一步骤,令t=t+1,并跳转至步骤A2继续执行得到下一代种群G(t+1);
S2、构造查询词项特征向量:所述查询词项特征向量包括由查询词项矢量、查询词项相对矢量、句法树中对应节点的深度值及其词性标注的离散值、逆文档频率以及平均词项频率所组成的多维向量,包括以下步骤:
B1、构造查询词项矢量、查询中心矢量、查询词项相对矢量:对每个查询词定义一个k维实数向量,每一维实数向量为一个变量;对于查询Q中的每个词项q有其对应的L维词矢量vecq∈RL作为查询词项矢量;所述查询中心矢量为:通过查询中心矢量进一步得到查询词项相对矢量
B2、得到查询词项相对矢量词性标注的离散值:使用斯坦福语法分析器获得查询词项特征向量中所需的词性和依存文法信息,经过语法分析得到的词性标注转换为离散值posq,并将该离散值加入到查询词项特征向量中;
B3、得到句法树中对应节点的深度值:对于输入的查询Q,输出为该查询对应的句法关系树,将各查询词项在句法树中对应节点的深度值depthq加入到查询词项特征向量中;
B4、计算逆文档频率:将逆文档频率作为查询词项特征向量中的一维,逆文档频率为其中,idfq的值域为正实数,df(q,D)为查询词项q在文档集D中出现的文档频次(该词项在多少篇文档中出现过),|D|为文档集中文档的总数;
B5、计算平均词项频率:平均词项频率为其中,平均词项频率atfq的值域为正实数,tf(q,D)为词项在整个文档集中出现的总次数;
S3、构建查询词项权重学习模型:利用循环神经网络RNN对查询词项特征向量与相应的最优词项权重值进行有监督学习建模:利用双向循环神经网络BRNN构造查询词项权重学习模型;在进行有监督学习建模时,将查询词项特征向量作为输入,以查询词项权重作为输出,以目标权重作为目标输出,通过BRNN进行模型构造和训练,使其最终能够对任意查询中的各词项预测对于检索任务较优的权重值;
S4、利用查询词项权重学习模型预测查询词项权重:将步骤S3得到的目标输出输入查询词项权重学习模型中对查询词项特征向量进行训练,得到查询词项权重预测值。
2.根据权利要求1所述的一种基于循环神经网络的查询词项权重学习方法,其特征在于,所述MAP分值的计算公式为:其中分母Nm是总的查询个数,分子表示单个查询的平均准确率求和。
3.根据权利要求1所述的一种基于循环神经网络的查询词项权重学习方法,其特征在于,所述双向循环神经网络通过将正向和逆向两个单向循环神经网络在输出层以下叠加;模型在正向和逆向中均有一个隐藏层FH和BH,两个RNN共享输入层I和输出层O。在网络的正向传播过程中由给定查询中第j位置词项qij的M维特征向量vij作为模型在j时刻的输入,通过分别由K个神经元组成的隐藏层FH和BH得到隐藏层输出最后通过输出层得到权重输出zij;所述隐藏层为 其中为第i时刻对应的网络输出,Θ.H∈RM×K为该层参数矩阵,b.H∈RK为偏置向量,激活函数fH(·)采用非线性函数tanh;所述输出层为其中,θO为该层参数向量,bO为偏置值,由于目标问题限定模型输出为权重zij∈[0,1],采用sigmoid函数作为输出函数fO(·);指定起始和结束时刻的隐藏层输出为零向量,即
针对不同的目标问题设定用于指示预测误差的代价函数Θ=(ΘFHBHO)为模型中所有参数,||Θ||为所有参数的L2范数,λ为正则化系数;然后基于代价函数的梯度在网络中进行反向传播更新各网络参数;正向输出和反向传播在训练数据上迭代地进行,直到所有参数收敛或达到某预设的终止条件为止。
4.根据权利要求1所述的一种基于循环神经网络的查询词项权重学习方法,其特征在于,所述查询词项特征向量具体为其维度为M=2L+4,其中L是词向量的维度。
CN201610346162.XA 2016-05-23 2016-05-23 一种基于循环神经网络的查询词项权重学习方法 Active CN106056209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610346162.XA CN106056209B (zh) 2016-05-23 2016-05-23 一种基于循环神经网络的查询词项权重学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610346162.XA CN106056209B (zh) 2016-05-23 2016-05-23 一种基于循环神经网络的查询词项权重学习方法

Publications (2)

Publication Number Publication Date
CN106056209A true CN106056209A (zh) 2016-10-26
CN106056209B CN106056209B (zh) 2019-04-19

Family

ID=57174274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610346162.XA Active CN106056209B (zh) 2016-05-23 2016-05-23 一种基于循环神经网络的查询词项权重学习方法

Country Status (1)

Country Link
CN (1) CN106056209B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145484A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于隐多粒度局部特征的中文分词方法
CN107480786A (zh) * 2017-08-07 2017-12-15 复旦大学 基于输出状态限制的循环神经网络轨迹似然概率计算方法
CN108805259A (zh) * 2018-05-23 2018-11-13 北京达佳互联信息技术有限公司 神经网络模型训练方法、装置、存储介质及终端设备
CN109299374A (zh) * 2018-10-24 2019-02-01 重庆理工大学 基于人工神经网络的在线社交网络信息传播与舆情演化正向构建方法和系统
CN109918659A (zh) * 2019-02-28 2019-06-21 华南理工大学 一种基于不保留最优个体遗传算法优化词向量的方法
CN110457344A (zh) * 2018-05-08 2019-11-15 北京三快在线科技有限公司 预计算模型生成、预计算方法、装置、设备及存储介质
CN111783980A (zh) * 2020-06-28 2020-10-16 大连理工大学 基于双重协作生成式对抗网络的排序学习方法
CN113673695A (zh) * 2021-07-07 2021-11-19 华南理工大学 基于新型特征自动构造的人群行为规则自动提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455564A (zh) * 2013-08-15 2013-12-18 复旦大学 一种根据维基百科中话题信息使查询词项多样化的方法
CN103823893A (zh) * 2014-03-11 2014-05-28 北京大学 一种基于用户评论的产品检索方法及产品检索系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455564A (zh) * 2013-08-15 2013-12-18 复旦大学 一种根据维基百科中话题信息使查询词项多样化的方法
CN103823893A (zh) * 2014-03-11 2014-05-28 北京大学 一种基于用户评论的产品检索方法及产品检索系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KARIMZADEHGAN M ETAL.: "Improving retrieval accuracy of difficult queries through generalizing negative document language models", 《PROCEEDINGS OF THE 20TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *
PAIK J H ETAL.: "A fixed-point method for weighting terms in verbose informational queries", 《PROCEEDINGS OF THE 23RD ACM INTERNATIONAL CONFERENCE ON CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *
丁国栋 等: "一种基于局部共现的查询扩展方法", 《中文信息学报》 *
杨阳 等: "基于词向量的情感新词发现方法", 《山东大学学报(理学版)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145484A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于隐多粒度局部特征的中文分词方法
CN107480786A (zh) * 2017-08-07 2017-12-15 复旦大学 基于输出状态限制的循环神经网络轨迹似然概率计算方法
CN107480786B (zh) * 2017-08-07 2021-04-30 复旦大学 基于输出状态限制的循环神经网络轨迹似然概率计算方法
CN110457344A (zh) * 2018-05-08 2019-11-15 北京三快在线科技有限公司 预计算模型生成、预计算方法、装置、设备及存储介质
CN110457344B (zh) * 2018-05-08 2021-06-04 北京三快在线科技有限公司 预计算模型生成、预计算方法、装置、设备及存储介质
CN108805259A (zh) * 2018-05-23 2018-11-13 北京达佳互联信息技术有限公司 神经网络模型训练方法、装置、存储介质及终端设备
CN109299374A (zh) * 2018-10-24 2019-02-01 重庆理工大学 基于人工神经网络的在线社交网络信息传播与舆情演化正向构建方法和系统
CN109918659A (zh) * 2019-02-28 2019-06-21 华南理工大学 一种基于不保留最优个体遗传算法优化词向量的方法
CN111783980A (zh) * 2020-06-28 2020-10-16 大连理工大学 基于双重协作生成式对抗网络的排序学习方法
CN113673695A (zh) * 2021-07-07 2021-11-19 华南理工大学 基于新型特征自动构造的人群行为规则自动提取方法
CN113673695B (zh) * 2021-07-07 2023-07-21 华南理工大学 基于新型特征自动构造的人群行为规则自动提取方法

Also Published As

Publication number Publication date
CN106056209B (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN106056209A (zh) 一种基于循环神经网络的查询词项权重学习方法
Xue et al. Using compact evolutionary tabu search algorithm for matching sensor ontologies
CN103500208B (zh) 结合知识库的深层数据处理方法和系统
CN102890711B (zh) 一种检索排序方法及系统
Chatterjee et al. Single document extractive text summarization using genetic algorithms
Kargar et al. Meaningful keyword search in relational databases with large and complex schema
Cuzzola et al. Evolutionary fine-tuning of automated semantic annotation systems
Shi et al. High performance genetic algorithm based text clustering using parts of speech and outlier elimination
Castelli et al. Semantic genetic programming for fast and accurate data knowledge discovery
CN116244418A (zh) 问题解答方法、装置、电子设备及计算机可读存储介质
Pavani et al. A novel web crawling method for vertical search engines
Gonçalves et al. Query join ordering optimization with evolutionary multi-agent systems
CN108932350A (zh) 基于多策略的水稻病虫害智能问答方法
Zhou et al. An Improved Algorithm for Materialized View Selection.
Basile et al. Populating a knowledge base with object-location relations using distributional semantics
Neville et al. Supporting relational knowledge discovery: Lessons in architecture and algorithm design
Fafalios et al. Post-analysis of keyword-based search results using entity mining, linked data, and link analysis at query time
Leon et al. Prediction of the liquid-crystalline property using different classification methods
Kumar et al. Result merging in meta-search engine using genetic algorithm
Shen et al. Ontology-based association rules retrieval using protege tools
Chen et al. SemMemDB: In-database knowledge activation
CN102663123B (zh) 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统
Dries et al. BiQL: a query language for analyzing information networks
Moura et al. Integrating ecological data using linked data principles
Zhang et al. A twig-based algorithm for top-k subgraph matching in large-scale graph data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant