CN104239375A - 基于数据包络分析的排序学习方法 - Google Patents

基于数据包络分析的排序学习方法 Download PDF

Info

Publication number
CN104239375A
CN104239375A CN201310533802.4A CN201310533802A CN104239375A CN 104239375 A CN104239375 A CN 104239375A CN 201310533802 A CN201310533802 A CN 201310533802A CN 104239375 A CN104239375 A CN 104239375A
Authority
CN
China
Prior art keywords
term
document
model
vector
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310533802.4A
Other languages
English (en)
Inventor
蒋春恒
林文斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHENGDU ANTUSUOJI NETWORK SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
CHENGDU ANTUSUOJI NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU ANTUSUOJI NETWORK SCIENCE & TECHNOLOGY Co Ltd filed Critical CHENGDU ANTUSUOJI NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201310533802.4A priority Critical patent/CN104239375A/zh
Publication of CN104239375A publication Critical patent/CN104239375A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据包络分析的排序学习方法。该发明以检索词为单位,每个检索词的关联文档构成一个决策单元集合,根据数据包络分析模型确定每个关联文档的最优权值向量,以之构建候选基本模型集合。最后,基于Boosting技术优化排序模型。本发明公开的方法能够有效改善当前排序学习模型的性能,可应用于搜索引擎、机器翻译、推荐系统,以及生物信息等领域。

Description

基于数据包络分析的排序学习方法
技术领域
本发明属于信息检索领域,涉及一种机器学习的方法,具体涉及一种排序学习方法。
背景技术
排序学习方法是一种有效的排名技术,利用监督型机器学习方法,通过优化损失函数,从训练数据集中训练一个排序模型。排序学习在过去十年间发展迅速,已经成功地应用于网络搜索引擎、机器翻译、推荐系统与生物信息等领域。
根据输入空间、输出空间、模型假设和损失函数的不同,排序学习方法可以分成三类:逐点型、序对型和序列型,下面分别予以阐述:
逐点型排序学习方法将排名问题转化为传统的分类和回归问题,根据成熟的分类和回归算法,使用分类错误率或者均方差构建损失函数,训练排序模型,比如文献“Koby Crammer,YoramSinger,et a1.Pranking with ranking.Advances in neural information processing systems,14:641-647,2001”通过训练一个感知器模型,把训练样本映射到一个全序集。
序对型排序学习算法的训练数据是成对的样本,根据模型假设预测序对的偏好关系,结合真实相关等级,构造序对损失函数,从而建立优化排序模型,比如文献“Chris Burges,Tal Shaked,Erin Renshaw,Ari Lazier,Matt Deeds,Nicole Hamilton,and Greg Hullender.Learning to rankusing gradient descent.In Proceedings of the22nd international conference on Machine learning,pages89-96.ACM,2005”根据神经网络的进化学习理论,辅以梯度下降的优化方法调整模型参数,训练排序模型。
序列型排序学习方法直接将整个样本集合作为学习对象,根据模型的预测结果和真实排名列表构建序列型损失函数,通过优化序列型损失函数训练排序模型,比如文献“Jun Xu and HangLi.Adarank:a boosting algorithm for information retrieval.In Proceedings of the30th annualinternational ACM SIGIR conference on Research and development in information retrieval,pages391-398.ACM,2007”基于Boosting技术,以单个特征作为候选基本排序模型,提出高效的AdaRank学习算法。
三种排序学习方法研究对象的细粒度依次增大:逐点型排序学习方法只抓住了训练数据的单点信息,忽略了文档序对和文档序列两层信息;序对型学习方法匹配文档序对,仍然转化为传统的回归和分类问题的处理方法,通常无法避免由于检索词关联文档分布不均,导致模型预测精度对检索词敏感;序列型排序学习方法是最直观的一种,根据序列信息定义损失函数,通过直接或者间接的方式最小化损失函数,训练排序模型,然而,目前序列型排序学习方法已经遭遇性能瓶颈,单纯基于序列信息难以有效提升排序的准确性。
发明内容
本发明通过引入数据包络分析(Data Envelopment Analysis,DEA)方法,充分利用单个样本数据、样本序对数据和样本序列数据三种细粒度的训练样本信息,来提升排序模型的精确性。为了实现上述目的,本发明基于Boosting技术,通过引入数据包络分析模型,挖掘训练数据内在多层信息,包括如下具体步骤:
S1.给定训练数据集,包含三个部分:检索词集合关联文档集合和文档相关等级标记集合其中,N是训练集中检索词的个数;检索词包含有ni篇关联文档:每个文档dij(j=1,...,ni)都使用一个特征向量xij表示,每个维度对应一个检索词-文档对特征,如PageRank,TF*IDF等;其中,rij代表dij与检索词qi的相关程度。
S2.对于任意检索词检索词-文档对dij作为一个决策单元,从文档特征向量xij或者文档相关等级rij中选择一部分特征作为输入变量,一部分特征作为输出变量,构建一个多输入-多输出的数据包络分析模型。
S3.对于Di中的每个文档,求解相关的数据包络分析模型,获得每个文档对应的最优权值向量。
S4.重复步骤S2与S3,获得所有关联文档的最优权值向量,将其组成为候选基本模型集合Φ={ω1,...,ωm,...,ωM},其中,M表示候选基本模型集合的大小,由于部分线性规划无可行解, M ≤ Σ i = 1 N n i .
S5.从Φ中抽取一个候选基本模型ωm,使用它预测训练集中每个文档的相关性分值,生成一组分值列表Sm={Sm1,...,SmN},其中Smi是一个ni维的向量,代表ωm对检索词qi所有关联文档的预测结果。
S6.根据预测的Smi和检索词qi所有关联文档的真实相关等级Ri,计算候选基本模型ωm在qi上的排名精度Emi,把ωm在训练集中所有检索词的排名精度向量记为Em,即Em=(Em1,...,Emi,...,EmN)。
S7.重复步骤S5至S6,直到遍历尽Φ中的所有候选基本模型,使用所有候选基本模型的排名精度,构成一个M×N的排名精度矩阵E。
S8.设定检索词的初始概率分布为pi=1/N(i=1,...,N),初始集成模型f=0。
S9.根据检索词概率分布P和候选基本模型的排名精度矩阵E,计算候选基本模型的平均排名精度,从中选取精度最高的作为基本模型ht,并使用下式给ht赋予权值βt
β t = g ( E ‾ { h t } )
其中,g是一个关于平均精度的单调递增函数,表示模型ht在概率分布P下的平均精度。
S10.将步骤S9学习得到的基本模型ht,添加到集成模型f=f+βtht,计算集成模型在所有检索词上的精度向量其中表示集成模型f在检索词qi上的排名精度,并基于下式更新检索词的概率分布:
P i = ψ ( E i ( f ) )
其中,ψ是一个单调递减函数,根据集成模型在不同检索词的表现做出相应调整,表现越好,相应检索词的概率值就下调,否则,则提升相应检索词的概率分值。
S11.将步骤S9和S10重复T次,训练得到的集成模型是基本模型的线性组合:S12.输入测试集中检索词-文档对的特征向量,使用步骤S11训练得到的集成模型f,预测文档的相关分值。
本发明的有益效果:本发明应用数据包络分析模型获取各个关联文档对于文档特征的不同赋权,构造候选基本排序模型集合,训练得到的集成模型反映了各个关联文档对文档特征的综合偏好,在标准数据集MQ2007、MQ2008以及OHSUMED上的实验表明,本发明的排名精度比AdaRank模型有比较明显的提升。
附图说明
图1、图2是本发明的流程简图。
图3是本发明与AdaRank在MAP指标上的实验对比结果。
图4是本发明与AdaRank在NDCG1至NDCG10指标上的实验对比结果。
具体实施方式
下面结合附图和具体实例对本发明做进一步说明。
本发明使用的实验数据是由微软亚洲研究院提供的标准数据集MQ2007,包含1692个检索词,69623个关联文档,每篇文档提取了46个特征,文档的相关等级只有三种:0表示不相关,1表示部分相关,2表示相关;本实施例所使用的数据包络分析模型为基于Chames、Cooper和Rhodes提出的CCR模型的一个退化模型,简称OCCR。
将数据集随机均等地分割成5份,按照3:1:1的比例选取作为训练集、校验集和测试集,构成一折数据,标记为Fold1;然后按照上述比例,重新随机选取训练集、校验集和测试集,依次获得Fold2,Fold3,Fold4,Fold5,总共5个文件夹。
参照图1、图2,本发明的实现步骤如下:
S1.选定Fold1中的训练数据集,包含有1013个检索词其中,N=1013;检索词对应ni篇文档每个文档dij都使用一个46维的特征向量xij表示,每个维度对应一个检索词-文档对特征,其相应的相关等级标记为rij∈{0,1,2}。
S2.对于任意检索词检索词-文档对dij作为一个决策单元,使用文档特征向量xij作为输入,文档的相关等级rij作为输出,构建如下形式的多输入-单输出的数据包络分析模型OCCR:
其中,
S3.对于Di中每个文档,使用对应文档特征向量替换OCCR目标函数中的xij,并求解OCCR,获得每个文档的最优权值向量。
S4.重复步骤S2与S3,获得所有关联文档的最优权值向量,将其组成为候选基本模型集合Φ={ω1,...,ωM}。
S5.从Φ中抽取一个候选基本模型ωm,使用它预测训练集中每个文档的相关性分值,生成一组分值列表Sm={Sm1,...,SmN}。
S6.根据预测的Smi和检索词qi所有关联文档的真实相关等级Ri,计算候选基本模型ωm在qi上的排名精度Emi,把ωm在训练集中所有检索词的排名精度向量记为Em=(Em1,...,Emi,...,EmN);实验中使用的排名精度标准度量指标是MAP,见文献“RicardoBaeza-Yates,Berthier Ribeiro-Neto,et a1.Modem information retrieval,volume463.ACM pressNew York.,1999”。
S7.重复步骤S5至S6,直到遍历尽Φ中的所有候选基本模型,使用所有候选基本模型的排名精度,构成一个M×N的排名精度矩阵E。
S8.设定检索词的初始概率分布为Pi=1/N(i=1,...,N),初始集成模型f=0。
S9.根据检索词概率分布P和候选基本模型的排名精度矩阵E,计算候选基本模型的平均排名精度,从中选取精度最高的作为基本模型ht,并使用下式给ht赋予权值βt
β t = g ( E ‾ { h t } )
其中, g ( x ) = 1 2 log 1 + x 1 - x .
S10.将步骤S9学习得到的基本模型ht,添加到集成模型f=f+Btht,计算集成模型在所有检索词上的精度向量其中表示集成模型f在检索词qi上的排名精度,并基于下式更新检索词的概率分布:
P i = ψ ( E fi ) = exp { - E i ( f ) } Σ i = 1 N exp { - E i ( f ) }
S11.重复执行T次步骤S9与S10,训练得到的集成模型是基本模型的线性组合:实例中选择T=200,如果排序模型精度相比上次迭代有所改善,则继续迭代,否则终止迭代过程。
S12.输入Fold1中测试集所有检索词-文档对的特征向量,使用步骤S11训练得到的集成模型f,预测文档的相关分值;根据Fold1中测试集的真实相关等级标记,使用标准度量指标MAP,NDCG1,NDCG2,...,NDCG10衡量排序模型的精度;关于NDCG,参考文献“Kalervo and Jaana IR evaluation methods for retrieving highly relevant documents.InProceedings of the23rd annual international ACM SIGIR conference on Research and developmentin information retrieval,pages41-48.ACM,2000”。
依次对Fold2至Fold5数据集,重复步骤S1到S12。
将所有的评价结果同AdaRank排序学习算法进行比较,结果如图3和图4所示:图3中横轴标示测试数据集所属的折数,纵轴表示对应折数测试数据集上模型的MAP指标;图3中横轴标示使用的度量指标,其中N1表示NDCG1,N2表示NDCG2,...,N10表示NDCG10,纵轴表示对应指标在5-折测试数据集上的平均值。
由图3和图4的实验对比结果可以看出,本发明在MAP和NDCG评价指标上的表现皆优于AdaRank算法,从整体上来看,平均性能提高5%以上。

Claims (2)

1.一种基于数据包络分析的排序学习方法,包括如下步骤:
S1.给定训练数据集,包含三个部分:检索词集合关联文档集合和文档相关等级标记集合其中,N是训练集中检索词的个数;检索词包含有ni篇关联文档:每个文档dij(j=1,...,ni)都使用一个特征向量xij表示,每个维度对应一个检索词-文档对特征,如PageRank,TF*IDF等;其中,rij代表dij与检索词qi的相关程度;
S2.对于任意检索词检索词-文档对dij作为一个决策单元,从文档特征向量xij或者文档相关等级rij中选择一部分特征作为输入变量,一部分特征作为输出变量,构建一个多输入-多输出的数据包络分析模型;
S3.对于Di中的每个文档,求解相关的数据包络分析模型,获得每个文档对应的最优权值向量;
S4.重复步骤S2与S3,获得所有关联文档的最优权值向量,将其组成为候选基本模型集合Φ={ω1,...,ωm,...,ωM},其中M表示候选基本模型集合的大小,由于部分线性规划无最优解, M ≤ Σ i = 1 N n i ;
S5.从Φ中选取一个候选基本模型ωm,使用它预测训练集中每个文档的相关性分值,生成一组分值列表Sm={Sm1,...,SmN},其中Smi是一个ni维的向量,代表ωm对检索词qi所有关联文档的预测结果;
S6.根据预测的Smi和检索词qi所有关联文档的真实相关等级Ri,计算候选基本模型ωm在qi上的排名精度Emi,把ωm在训练集中所有检索词的排名精度向量记为Em,即Em=(Em1,...,Emi,...,EmN);
S7.根据Sij和Gij,评估候选基本模型ωi在qj上的排名精度Eij∈R,记ωi在训练集所有检索词上的排名精度向量为Ei=(Ei1,...,EiN);
S8.重复步骤S5至S6,直到遍历尽Φ中的所有候选基本模型,使用所有候选基本模型的排名精度,构成一个M×N的排名精度矩阵E;
S9.设定检索词的初始概率分布为Pi=1/N(i=1,...,N),初始集成模型f=0;
S10.将步骤S9学习得到的基本模型ht,添加到集成模型f=f+βtht,计算集成模型在所有检索词上的精度向量其中表示集成模型f在检索词qi上的排名精度,并基于下式更新检索词的概率分布:
P i = ψ ( E i ( f ) )
其中,ψ是一个单调递减函数,根据集成模型在不同检索词的表现做出相应调整,表现越好,相应检索词的概率值就下调,否则,则提升相应检索词的概率分值;
S11.将步骤S9和S10重复T次,训练得到的集成模型是基本模型的线性组合: f = Σ t = 1 T β t h t ;
S12.输入测试集中检索词-文档对的特征向量,使用步骤S11训练得到的集成模型f,预测文档的相关分值。
2.由权利要求1所述的基于数据包络分析的排序学习方法,其特征在于,步骤S2所述的构建多输入-多输出的数据包络分析模型,其输入输出变量选自于检索词-文档对的特征向量以及文档相关等级信息。
CN201310533802.4A 2013-06-17 2013-10-31 基于数据包络分析的排序学习方法 Pending CN104239375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310533802.4A CN104239375A (zh) 2013-06-17 2013-10-31 基于数据包络分析的排序学习方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310236894 2013-06-17
CN201310236894.X 2013-06-17
CN201310533802.4A CN104239375A (zh) 2013-06-17 2013-10-31 基于数据包络分析的排序学习方法

Publications (1)

Publication Number Publication Date
CN104239375A true CN104239375A (zh) 2014-12-24

Family

ID=52227452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310533802.4A Pending CN104239375A (zh) 2013-06-17 2013-10-31 基于数据包络分析的排序学习方法

Country Status (1)

Country Link
CN (1) CN104239375A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222838A (zh) * 2019-04-30 2019-09-10 北京三快在线科技有限公司 深度神经网络及其训练方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957859A (zh) * 2010-10-15 2011-01-26 西安电子科技大学 基于集成支撑矢量机排序的信息检索方法
CN102043776A (zh) * 2009-10-14 2011-05-04 南开大学 与查询相关的多排序模型集成算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043776A (zh) * 2009-10-14 2011-05-04 南开大学 与查询相关的多排序模型集成算法
CN101957859A (zh) * 2010-10-15 2011-01-26 西安电子科技大学 基于集成支撑矢量机排序的信息检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FEN XIA 等: ""Listwise Approach to Learning to Rank - Theory and Algorithm"", 《ICML "08 PROCEEDINGS OF THE 25TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
JUN XU 等: ""AdaRank: A Boosting Algorithm for Information Retrieval"", 《SIGIR "07 PROCEEDINGS OF THE 30TH ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVA》 *
吴德胜: ""数据包络分析若干理论和方法研究"", 《中国优秀博硕士学位论文全文数据库 (博士) 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222838A (zh) * 2019-04-30 2019-09-10 北京三快在线科技有限公司 深度神经网络及其训练方法、装置、电子设备及存储介质
CN110222838B (zh) * 2019-04-30 2021-07-20 北京三快在线科技有限公司 文档排序方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20210109958A1 (en) Conceptual, contextual, and semantic-based research system and method
Wallace et al. Extracting PICO sentences from clinical trial reports using supervised distant supervision
CN110175224B (zh) 基于语义链接异构信息网络嵌入的专利推荐方法及装置
CN106599278A (zh) 应用搜索意图的识别方法及装置
US20070185871A1 (en) Document similarity scoring and ranking method, device and computer program product
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN106250438A (zh) 基于随机游走模型的零引用文章推荐方法及系统
CN104657496A (zh) 一种计算信息热度值的方法和设备
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN110688474B (zh) 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN110222260A (zh) 一种搜索方法、装置及存储介质
US20100082639A1 (en) Processing maximum likelihood for listwise rankings
Gomez et al. A survey of automated hierarchical classification of patents
CN107247743A (zh) 一种司法类案检索方法及系统
CN110413775A (zh) 一种数据打标签分类方法、装置、终端及存储介质
CN104298776A (zh) 基于lda模型的搜索引擎结果优化系统
CN102043776A (zh) 与查询相关的多排序模型集成算法
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
US20090089274A1 (en) Gradient based optimization of a ranking measure
CN105808739A (zh) 基于Borda算法的搜索结果排序方法
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
Hassan et al. Performance analysis of neural networks-based multi-criteria recommender systems
CN103605493A (zh) 基于图形处理单元的并行排序学习方法及系统
Kaur Web content classification: A survey
Azzam et al. A question routing technique using deep neural network for communities of question answering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141224

WD01 Invention patent application deemed withdrawn after publication