CN106294654A - 一种本体排序方法及系统 - Google Patents

一种本体排序方法及系统 Download PDF

Info

Publication number
CN106294654A
CN106294654A CN201610631112.6A CN201610631112A CN106294654A CN 106294654 A CN106294654 A CN 106294654A CN 201610631112 A CN201610631112 A CN 201610631112A CN 106294654 A CN106294654 A CN 106294654A
Authority
CN
China
Prior art keywords
sample
integrated model
model
base learner
signal generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610631112.6A
Other languages
English (en)
Other versions
CN106294654B (zh
Inventor
刘杰
骆力明
周建设
史金生
石长地
郭宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN201610631112.6A priority Critical patent/CN106294654B/zh
Publication of CN106294654A publication Critical patent/CN106294654A/zh
Application granted granted Critical
Publication of CN106294654B publication Critical patent/CN106294654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种本体排序方法及系统,其中,该方法包括:学习方法与预测方法,所述学习方法包括采集样本步骤、构建本体向量步骤、生成基学习器步骤与生成集成模型步骤;所述预测方法包括如下步骤:向所述集成模型中输入预测集样本,所述集成模型输出预测集样本的本体排序结果。本发明实施例使用集成学习的思想,通过采用列表投票法、Bagging与Random Forests将若干不同或相同的基学习器融合成不同的集成模型,充分发挥各类算法的优势,提高模型对于本体的排序准确率和泛化能力。

Description

一种本体排序方法及系统
技术领域
本发明涉及本体排序技术领域,具体而言,涉及一种本体排序方法及系统。
背景技术
本体是语义Web的信息承载支柱,目前在互联网上已有很多以本体形式出现的知识。因此,如何有效的获取本体知识,将查询结果合理排序并返回给用户,是本体检索研究中的关键问题。本体排序的考察因素,不仅限于内部文字匹配,还包含对本体中实体、结构和关系等元数据的分析,为了满足不同的需要,各种排序学习(LTR,Learning to Rank)算法应运而生,均利用文档中抽取的特征(Feature)进行训练,然后通过迭代优化模型参数,从而实现排序,具体实验时需要配合使用训练集和测试集。训练集中包括查询集合{q1,q2,...,qn}中的单个查询序列q对应的检索列表特征向量同时还包括结果的相关性标签。测试集的数据结构与训练集相似,但是测试集中的数据不能在训练集中出现,同时没有相关性标签。学习系统(Learning System)利用已经构建完成的特征向量进行训练,然后利用排序系统(Ranking System)对测试集中的数据进行计算,最后将分数按照降序进行排练,形成模型训练的排序结果。传统的LTR算法按照输入空间不同,主要有以下三类,基于样本点的Point-wise算法:MART;基于样本对的Pair-wise算法:RankNet、Ranking SVM;基于文档列表的List-wise算法:AdaRank,Coordinate Ascent,RankCosine、ListNet。这些LTR算法参考不同侧重点进行排序结果的预测,另外,为了解决单一的排序算法存在其自身的缺陷,人们开始采用机器学习的方法来优化本体排序结果以有效地解决多特征的本体排序问题,但仍不能解决由排序算法内在欠缺导致的本体排序准确率低、普适性较差的问题。
发明内容
有鉴于此,本发明的目的在于提供一种本体排序方法及系统,能够解决现有排序算法由于自身缺陷导致的本体排序准确率低,以及现有机器学习方法仍不能解决由排序算法内在欠缺导致的本体排序准确率低、普适性较差的问题。
第一方面,本发明实施例提供了一种本体排序方法,包括:学习方法与预测方法,学习方法包括如下步骤:
采集样本步骤,从搜索引擎中获取本体文件作为样本集,然后将样本集分成训练集与预测集,训练集用于模型的训练,预测集用于模型的预测;
构建本体向量步骤,提取本体文件的本体特征,然后将标准评分、检索编号、特征编号与特征值映射成数值特征向量,其中,标准评分为人工评分;检索编号为查询关键词所对应的编号;特征编号为本体特征编号;特征值为每个本体特征的数值;
生成基学习器步骤,将训练集的本体向量通过排序算法训练生成基学习器;
生成集成模型步骤,采用集成学习的方法将基学习器融合成集成模型,集成模型可由若干相同的基学习器集成或若干不相同的基学习器集成;
预测方法包括如下步骤:
预测样本步骤,向集成模型中输入预测集样本的本体向量,集成模型输出预测集样本的本体排序结果。
优选地,根据预测结果计算预测模型的均方根相对误差,进而得到满足精度要求的实际预测模型,然后利用实际预测模型进行预测。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,本体特征至少包括类匹配、类密度测量、实体相似度测量、语义相关测量、中心测量与ontBM25。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,集成学习的方法为列表投票法或bagging或随机森林。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,排序算法为MART、RB、RN、AR、CA中的至少一种。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述集成模型至少包括三个基学习器。
结合第一方面的第二种可能实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,集成模型由随机森林将若干相同基学习器融合而成,基学习器由MART排序学习算法训练产生。
结合第一方面的第二种可能实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,集成模型由bagging将若干相同基学习器融合而成,基学习器由MART或RB或RN或AR或CA训练产生。
结合第一方面及其第一至第六种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,还包括交叉验证法,具体步骤为:
将样本集按照一定比例分为训练集、验证集与预测集,验证集用于模型的验证、优化与评估;
将训练集依次按照构建本体向量步骤、生成基学习器步骤、生成集成模型步骤生成集成模型;
采用交叉验证法将验证集的本体向量输入至集成模型中进行验证、优化与评估。
第二方面,本发明实施例还提供了一种本体排序系统,包括学习模块与预测模块,学习模块包括样本采集单元、本体特征生成单元、本体向量生成单元、基学习器生成单元与集成模型生成单元;
样本采集单元用于获取本体文件样本,并划分为训练集与预测集;
本体特征生成单元用于提取样本采集单元所获取的本体文件的本体特征;
本体向量生成单元用于生成本体文件的本体向量;
基学习器生成单元用于将训练集所对应的本体向量通过排序算法训练生成相应的基学习器;
集成模型生成单元用于将基学习器通过集成学习的方法融合成集成模型;
预测模块包括预测单元;
预测单元用于对预测集进行本体排序并输出本体文件的排序结果。
优选地,根据预测结果计算预测单元的均方根相对误差,进而得到满足精度要求的实际预测单元,然后利用实际预测单元对进行预测。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,还包括验证单元;样本采集单元获取本体文件并按照一定比例分为训练集、验证集与预测集;训练集依次经本体向量生成单元、基学习器生成单元、集成模型生成单元生成集成模型;验证单元将验证集的本体向量输入至集成模型中,并对集成模型进行验证、优化与评估。
本发明带来了以下有益效果:
使用集成学习的思想,采用合适的方式将多个基学习器进行组合,充分发挥各类算法的优势,在一定程度上可以提高模型对于本体的排序准确率,比如,采用Bagging策略后的模型相较于CA_MAP单一最好模型评价指标中MAP平均提高11.54%,ERR@10平均上升18.89%,NDCG@10平均提升13.12%;采用Random Forests集成排序方案的预测准确率较单一排序学习模型平均有7.7%-11.5%的明显提升。因此,基于集成学习的策略在本体排序的问题中有效的提升了单一基学习器的预测精度和泛化能力。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例1所提供的一种本体排序方法的流程图;
图2示出了本发明实施例4所提供的一种本体排序系统的示意图;
图3示出了本发明实施例1所提供的本体排序方法中EL_Model与各基学习器的MAP、ERR@10与NDCG@10的评分对比图;
图4示出了本发明实施例1所提供的本体排序方法中EL_Model与Swoogle的ERR@10与NDCG@10的评分对比图;
图5示出了本发明实施例2所提供的本体排序方法中各基学习器Bagging前后MAP的评分对比图;
图6示出了本发明实施例2所提供的本体排序方法中各基学习器Bagging前后ERR@10的评分对比图;
图7示出了示出了本发明实施例2所提供的本体排序方法中各基学习器Bagging前后NDCG@10的评分对比图;
图8示出了示出了本发明实施例2所提供的本体排序方法中各基学习器Bagging前后CEI的评分对比图;
图9示出了示出了本发明实施例2所提供的本体排序方法中Bagging后优选集成模型与Swoogle的评分对比图;
图10示出了示出了本发明实施例3所提供的本体排序方法中MART基学习器经RF算法融合成的集成模型与MART基学习器及Swoogle的评分对比图。
图示说明:
21-学习模块;211-采集样本单元;212-本体特征生成单元;213-本体向量生成单元;214-基学习器生成单元;215-集成模型生成单元;216-验证单元;22-预测模块;221-预测单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,单一的排序算法存在各自的缺陷,机器学习方法仍不能解决由排序算法内在欠缺导致的本体排序准确率低、普适性较差的问题,基于此,本发明实施例提供的一种本体排序方法及系统,可以有效地提高本体排序的准确率与普适度。
为便于对本实施例理解,首先对本发明实施例所公开的一种本体排序方法进行详细介绍。
实施例1
如流程图1所示,本实施例的具体实施步骤如下:
S11:学习方法
S111:采集样本步骤
1、查询项的选择和确定
查询项包括2015年Google Trends中提供的74个类别中按照上升趋势和最多搜索排序前十的搜索项,以及Bing、Yahoo等搜索引擎在内的搜索热词,利用WordNet将查询项进行同义词扩展,如College,University等。
2、本体数据源的获取
将采集的查询项以及扩展的同义词在Swoogle中进行本体数据的获取。下载返回列表中前100项的本体文件并人工删除无效链接、非本体数据等不相关的返回结果。收集数据的时间节点为2015年7月至2015年11月,共计下载有效可用本体文档3196个。此外,当备选查询项在Swoogle中并未获得匹配的本体文档或相关本体少于10个时,就没有排序的意义,属于无效数据。为了确保实验样本中本体数据的可排量,对查询备选项进行进一步的删选工作。样本收集过程中,通过类、实例、关系、结构、字面量等本体元素信息确定文档的特征,最后决定选取106个关键词作为实验的查询数据。根据关键词所属类别的不同,进行了如表1的划分:
表1
在数据获取阶段,记录本体文件的下载顺序,排名记录如表2所示:
表2
本实施例采用5折交叉验证的方法对模型进行验证,因此,将获取的本体文件样本按照查询qid划分为5部分,分配时确保所有样本均参与Model的训练,验证以及预测工作。同时,每份(Fold)中均包含了训练集(Training set),验证集(Validation set)和测试集(Testing set),约按照6:2:2的比例进行样本分配,即训练集约占样本总数的60%,验证集和测试集各占比约为20%,具体分配如表3所示:
表3
S112:构建本体向量步骤
1、标准评分
在制作目标标签时,最具参考价值的结果是人工标识。样本标识过程前,先隐去本体文件在Swoogle中排序结果,以及根据特征算法计算结果,仅提供查询项和本体文档进行的主观评分。选择对于本体结构十分了解,以及对于本体文件并未接触过的两组打分人员各30名,评分过程中采用两种方式进行记录。
首先,对于本体文件进行整体分类,按照查询项与检索本体的相关性判定设置为五个等级进行打分,即{Bad,Fair,Good,Excellent,Perfect},分别对应数值{0,1,2,3,4}。然后,标注人员根据主观的界定来对于本体文件进行整体标注,给出其认为最合理的排序结果列表。这个排序过程实际反馈了用户对于本体结果的真实顺序的需求,其依照自身对于本体的理解,并且参考本体与查询项的契合程度、本体自身的素质进行综合评价。综合投票对比发现,不同用户对于本体的需求大致相同,在两种排序记录方式中标注的结果十分相似。因此,将人工排序结果作为本实验主要参照的标准是客观有效的。将投票超过半数的排序结果直接确定其定位,个别分歧较大的标注综合参考后进行微调。参考包括本体自身特点,特征算法的分以及将其输入到Swoogle中进行记录,然后标注排名顺序。依照以上方案,综合参考两组评分人员的标注结果,将其作为本实验的评价标准。
2、检索编号
检索编号为本实施例中样本采集步骤中的查询项编号。
3、特征编号与特征值
本实施例中的本体特征至少包括类匹配、类密度测量、实体相似度测量、语义相关测量、中心测量与ontBM25,各本体特征的计算方法如下所述:
另外,为了便于接下来的讨论,本申请所使用的符号和对应的含义如表4所示:
表4
1)基于本体元素的分析:类匹配、类密度测量与实体相似度测量。
类匹配(CMM,Class Match Measure),表示查询词s与本体O中类名、类标签及注释的文本信息的相关程度。
其中,I(c,s)和J(c,s)分别表示本体O中与查询词s所匹配的概念c中的文本信息的相关情况。另外,α、β为设置的权重,原文中对于部分匹配更加关注,在此处设置为α=0.6,β=0.4。
I ( c i , s j ) = 1 , s j = c i 0 , s j ≠ c i
J ( c i , s j ) = 1 , s j = c i 0 , s j ≠ c i
一次查询Q中,查询项中的每一个查询关键词s和本体O中的每个类c进行相似度计算,如果完全匹配,即sj=ci则值为1;如果部分一致,I(c,s)值为1,J(c,s)值为0;不匹配的情况,即sj=ci则值为0。
另外,在部分一致sj≈ci的情况下我们考虑两类情况:s与c信息相互包含,如America和American这类匹配情况;s与c中关键词大小写不统一,但是统一形式后的它们能够部分或完全相同。
类密度测量(CDM,Class Density Measure),该算法主要分析匹配类在其对应本体中描述的丰富性。如果匹配概念在该本体中的信息构造的十分丰富,则考虑该本体与用户的查询具有一定的相关性。设定概念描述集合D={D1,D2,D3,D4},其中集合中的元素分别对应本体O中与匹配类有直接关系的元数据,包括父概念、兄弟概念、子概念和关系的集合,m代表匹配类的数量。即因此,CDM定义如下:
CDM在实际考察中非常重视本体中相关c周围的信息关系。由于本体构建原则的差异性,为了降低推理过程中的复杂程度,可能减少对于继承概念的定义,所以对于采用不同策略构建的本体在计算中会产生偏移。因此,将概念描述集合设置不同的权重,分别对应w1=0.8,w2=1,w3=0.8,w4=1,通过利用权重的调节尽量减少由于构建差异产生的影响。
实体相似度测量(ESSM,Entity Semantic Similarity Measure),表示s与O中实体的相关程度,其在一定程度上丰富了类匹配算法。算法将本体中的实体与检索信息进行相关度计算,匹配的查询术语越多越相似,则该结果的相关程度越高。
ESSM的算法中考虑实体的相关程度(EM,Entity Match),查询项中的每一个词s与相关本体中的实体e进行比较,依照CMM中的不同匹配程度分配不同得分的原则,本实施例按照匹配程度进行了如下划分:
E M ( e , s ) = 1 , e = s 0.6 , e ≈ s 0 , e ≠ s
在计算EM的时候,我们将e≈s的情况进行了细化分析。不仅考虑了通常意义上的包含关系,还包括了由于英文大小写引起的差异。当然,即使e与s存在部分匹配的关系也可能出现两者并无实际关系,只有简单文字匹配的特殊情况。
同时,为更深入的刻画语义关系,EM计算之后还融入了相似度的测量ES(EntitySimilarity),即e与s的相似度,使用WordNet进行测算:
最后,我们将ES和EM进行组合并归一化处理,得到文档粒度的实体相似度测算方法。
2)基于本体结构的特征
语义相关的测量方法通常会给予用户更贴切的排序反馈,使用语义相关测量(SSM,Semantic Similarity Measure)算法来计算语义Web本体图中匹配c间的集中程度。随机选择匹配类集合中的元素ci,cj。ci和cj在本体图中最短距离用mlen(ci,cj)表示,m表示O中匹配c的个数。SSM定义为:
SSM的测算方式分析了用户查询项与本体中的相关c的丰富特性。在本体中,如果匹配类之间有更多的最短路径关系,证明相关类在本体图中具有丰富的匹配类关联,即认为该本体与查询项更加相关。
中心测量(BEM,Betweenness Measure),其测算了相关类在其所属本体中的中心状态值。设为本体O中所有class的集合,α、β表示中的任意类,ci为本体O中的匹配类集合中的元素,mlen(α,β)是α、β之间的最短距离,mlen(α,β,ci)用来对概念α、β经过ci的最短距离计数,m则代表本体O中匹配类集中的元素个数。
B E M ( O ) = 1 m Σ i = 1 m Σ α ≠ β ≠ c i m l e n ( α , β , c i ) m l e n ( α , β )
在BEM评分中,如果匹配概念越靠近本体图的中心,那么该本体的评分会很高。由于本体构建的差异性,中心测量的方式可能具有一定的局限性,仅适合用于中心性比较明确的本体中。
3)基于文本的内容分析
BM25是经典的概率模型计算方法,在全文搜索引擎的网页排序中已经有了广泛的应用。相关研究中将BM25进行调整后延伸至本体的排序中,这种度量方法本质上基于本体文档中匹配文本的出现频率。
首先,需要定义s的词频(TF,Term Frequency),count(s,O)表示s在相关O中出现的频次:
T F ( s , O ) = 0.5 + 0.5 * c o u n t ( s , O ) max { c o u n t ( s , O ) : s ∈ O }
然后定义查询词的逆文档频率(IDF,Inverse Document Frequency),其中表示s在多少个本体中出现过,然后再对商取对数,具体定义如下:
最后,计算OntBM25,avgont是O中e的平均长度。权重设定参考原文分别规定为α=2,β=0.75。
OntBM25不同于本体元素的特征考察,其将关注点主要在与本体中文本字符的相关性,与传统的BM25策略相似。同时,这种方法在经过调整之后可以在本体的排序中起到很好的区分效果。
对上述各个本体特征进行编号,作为本体向量的特征编号;
通过上述各个本体特征计算方法计算样本集中各本体文件相应的特征值,作为本体向量的特征值。
综上所述,本实施例中的本体向量包括标准评分、检索编号、特征编号与特征值。
S113:生成基学习器步骤
1、评价指标
平均查准率均值(MAP,Mean Average Precision),其主要衡量全部相关结果所处的位置情况。如果排序模型可以将相关查询结果尽量排在列表前方,那么其MAP的评分就会越高,即证明模型的排序性能更优秀。
在单次查询中,首先需要计算检索列表中第k个文档的排序准确率Precision(Prec@k),如下所示:
Pr e c @ k ( Q ) = 1 k Σ k = 1 k l k
其中lk表示排序结果中k位置的本体与查询是否相关,如果该本体与查询有关,则lk值为1,否则标为0。单次查询的排序结果的平均查准率Average Precision(AP)可以定义为:
A P ( Q ) = Σ k = 1 m Pr e c @ k ( Q ) * l k | R |
表达式中m为本次查询结果的本体数量,R对排序列表中相关本体进行计数。MAP则是对n次查询的平均查准率再求均值,定义如下:
M A P = Σ i = 1 n A P ( Q i ) n
平均查准率均值(MAP)可以较为有效的评价排序模型对于检索结果的分类能力,但是MAP也仅仅关注了相关性本体的位置,没有深入计算该本体的相关程度。如果排序模型将一般相关排列到非常相关的本体前方也不会对指标产生影响。
标准化折扣增益(NDCG,Normalize Discounted Cumulative Gain),改良了传统评价方案,可以按照本体的相关性程度更精确的进行评分。NDCG的改善主要基于两个标准,首先,在信息查询时,返回的结果可以按照相关性程度赋予多个等级,相关性越高的文档应该更重要,所以需要获得高的分数。其次,从用户的查询分析,位于检索列表越后面的结果的重要程度越低。在信息检索的过程中,用户通常仅会浏览前几页的内容,甚至前几项内容,而对于排名靠后的信息却关注很少。
首先,需要确定CG(Cumulative Gain),即本体在排序列表i位置文档的相关程度。在单次查询中,i处文档的CG(Q,k)可以定义为:
CG ( Q , k ) = 2 r i - 1
在检索列表中常采取PI(Per Item),即对列表元素逐条进行相关性标签标注的方式。上式中,ri表示查询列表中i位置的相关性标签,本实施例选择多级的标注形式ri∈{0,1,2,3,4},返回结果中的本体越重要其标注的标签分数就越高。
那么,对于单次查询反馈的排序列表的折扣增益DCG(Discounted CumulativeGain)可表示为:
D C G @ k = Σ i = 1 k C G ( Q , i ) * 1 log 2 ( 1 + i )
由于不同检索列表的数量不一定均等,所以不同搜索的DCG无法直接进行对比,因此对DCG进行了归一化处理,即采用NDCG来进行比较。单次查询的标准化折扣增益NDCG@k可以表示为:
N D C G @ k = P C G @ k I D C G @ k
NDCG@k,其中k的含义为关注排序列表中1至n的不同的位置。
标准化折扣增益指标对于排序结果的评价具有一定的参考价值,其CG以及DCG的变化可以计算出很多重要的分析数据。同时,由于用户查询信息时大都是由上至下浏览排序列表,将最相关的文档排到前面能够最大程度的减少用户阅读的时间,从而可以有效的提高用户的检索效率。然而,在实际查询中,用户对于k位置之前结果的满意度决定了其是否会查看第k个结果。
期望排名倒数(ERR,Expected Reciprocal Rank),有效弥补了NDCG指标的不足,其采用更严格的方式进行评判。NDCG的评分主要面向位置模型(Position Model),它假定用户是否查看排序列表中的某个结果取决于该文档在检索列表中的位置信息。但是在真实环境中,用户对于检索文档的选择是有多方面因素的,其可能会根据自己的主观判断来进行选择。
用户的最终目标是找到真正需要的本体,当用户在检索列表相对较前的位置可找到满足需求的本体,排在后边的结果就不那么重要了。ERR评价指标则基于级联模型(Cascade Model)来分析用户真实的选择行为,其假定用户是否选择检索结果k位置的文档是由于k位置之前的文档能否满足用户的真实需求来决定的。
用户对单次查询自上而下查看排序结果,依据查询相关性排除,最后选择第k个结果的概率可以表示为:
C k = Π i = 1 k - 1 ( 1 - R i ) R k
其中,Ri为用户对于第i个排序结果的满意度。
R k = R ( g k ) = 2 g k - 1 2 g max
g与NDCG中的相关性评价相同,同样选择多级的标注形式,本文规定g∈{0,1,2,3,4},返回排序结果中的本体越重要其标注的标签分数就越高。
接下来,需要定义F(Discounted Function),对于排在检索列表首位的本体,其F值是1;对于排列在位置k的本体,其k值趋于无穷时,其F值是0。也就是说,当排序列表达到一定的长度时,用户基本不会去参考这类本体。使用位置倒数规定F,即Fk=1/k。那么,期望倒数排序最后可以表示为:
E R R = Σ k = 1 n F k * 1 k C k
基于行为分析的级联模型ERR评价指标证明,排序列表前列的结果相关程度越高,后边的结果对于用户就越不重要。ERR能够从新的角度出发来评价模型的性能,更加客观的反映用户真正的需求。然而,该评分重点关注一条很相关的文档是否处于非常靠前的位置,如果已经将其排列在首位,那么后面的排序变化将不会对ERR产生很大的影响。
综合评价指标(CEI,Comprehensive Evaluation Index),参考f-measure取倒数的评价方式,综合三种指标的评价指标,用于评价模型的整体性能,计算公式如下:
3 f - m e a s u r e = 1 M A P + 1 N D C G + 1 E R R
本实施例采用上述指标来衡量各模型的性能。
2、生成基学习器
本实施例中的排序学习模型包括基于点方案的Point-wise算法MART;基于文档对的Pair-wise方法RankBoost(RB),RankNet(RN);基于文档对技术的List-wise算法AdaRank(AR)、Coordinate Ascent(CA),模型算法参考了公开工具RankLib的程序源码,并且根据实际情况进行了适当调整。首先,通过相同的训练集、验证集和测试集来对不同的LTR算法进行训练和预测,产生不同的基学习器。同时,根据List-wise中AR,CA的算法特点,选用MAP、ERR、NDCG分别优化模型,作为实验的基学习器,从多个角度分别对数据集进行训练,以便获取更加优质的训练模型作为候选模型。
LTR算法通过对Train数据的训练,获得对特征向量中的不同特征分配的权重,然后将Test数据作为输入,依据分配的权重进行排序,输出排序列表,比较训练结果列表和目标排序Label,并采用MAP、ERR@K、NDCG@K作为模型的评价指标来衡量模型的综合能力。评价中,如ERR@10、NDCG@10会关注排序结果中前10名的样本相关性,MAP则对于整体的结果列表进行综合的评价。
使用相同的样本集数据通过生成基学习器步骤S113中的LTR算法进行模型训练、验证与预测。其中,AdaRank采用ERR、MAP、NDCG进行模型的优化,分别对应AR_ERR、AR_MAP、AR_NDCG,各模型的预测排序评分如表5所示。
表5
S114:生成集成模型步骤
使用列表投票将基学习器进行集成,其基本思想是按照多数决定少数的原则设计。m个分量基学习器会根据一次查询训练数据T={t1,t2,…,tn}的输入进行模型的生成,最后,集成单个分类器的排序结果。通过这种列表融合的方式来完成决策工作。其中wi为单个基学习器的投票得分,判定其中一条数据为第q类,输出:
v j ( t j ) = max 1 → n Σ i = 1 m w i , j ∈ { 1 , 2 , ... , n }
具体的投票规则是,计算输入数据tj的分量基学习器的投票结果wi,如果i分类器投票给tj,则wi=1,否则记为0。然后,将投票结果按照递减顺序进行排序得到最后的决策结果,本实施例中采用AR_ERR、AR_MAP、MART三个基学习器进行组合,形成一优选模型EL_Model。
S115:交叉验证步骤
根据表2所述的样本分配方式同时采用5折交叉验证的方法对模型进行验证、优化。
S12:预测方法
S121:预测样本步骤
将预测集输入EL_Model与各个基学习器中进行预测排序,如图3所示,EL_Model的MAP、ERR@10与NDCG@10高于除CA_MAP的各个基学习器的排序评分,但是EL_Model的MAP与NDCG@10高于CA_MAP的排序评分,因此,EL_Model的排序评分高于各个基学习器。
如图4所示,EL_Model的ERR、NDCG与CEI的评分均高于Swoogle的排序评分,因此EL_Model的排序能力高于Swoogle。
实施例2
本实施例提供的集成模型采用Bagging算法通过列表投票法对基学习器融合集成。首先将每个Fold中的Train数据使用Bootstrap方式随机抽取,这种操作方式可以让训练子集中的大多数样本是相同的,但又由于随机性抽取稍有差异。然后利用实施例1中的LTR模型算法训练成基学习器。接着,将训练产生的不同基学习器采用列表融合的方式进行同态集成,构建出集成模型。最后利用集成模型对预测集的样本数据进行预测。其中,在每轮训练集之间保证独立性,随机抽取样本进行训练,并且不对预测函数分配权重。
使用B_MAP,B_ERR,B_NDCG分别表示Bagging后模型对预测集样本的预测排序评分,如图5所示,B_MART、B_RB、B_RN、B_AR_MAP、B_AR_ERR、B_AR_NDCG、B_CA_MAP、B_CA_ERR与B_CA_NDCG在MAP方面的排序评分均高于原基学习器。
如图6所示,B_MART、B_RN、B_AR_MAP、B_AR_ERR、B_AR_NDCG、B_CA_MAP与B_CA_NDCG在ERR@10方面的排序评分均高于原基学习器。
如图7所示,B_MART、B_RB、B_RN、B_AR_MAP、B_AR_ERR、B_AR_NDCG、B_CA_MAP与B_CA_NDCG在NDCG@10方面均高于原基学习器。
在使用Bagging策略之后各项得分均处于领先地位的模型是CA_MAP。Bagging后模型相较于单一最好模型评价指标中MAP平均提高11.54%,ERR@10平均上升18.89%,NDCG@10平均提升13.12%。
如图8所示,B_MART、B_RB、B_RN、B_AR_MAP、B_AR_ERR、B_AR_NDCG、B_CA_MAP与B_CA_NDCG相对于原基学习器在CEI方面均高于各个原基学习器,因此,采用Bagging算法的集成模型可以提升单一基学习器的预测精度。
优选地,将B_CA_NDCG模型和B_AR_NDCG模型的所有指标评分与Swoogle进行全面比较,如9所示,B_CA_NDCG模型和B_AR_NDCG模型的CEI均高于Swoogle。因此,基于Bagging集成模型的排序能力整体上高于Swoogle的排序能力。
实施例3
采用Random Forests(RF)对实施例2中由MART产生的基学习器通过列表投票法融合成一优选集成模型,其对预测集样本的预测排序评分结果如图10所示,RF集成模型RF_ERR和RF_NDCG的MAP、ERR与NDCG均具有较高的排序评分,二者的CEI评分远高于MART与Swoogle的评分,因此具有很好的普适性与稳定性。
随机森林在数据抽取的过程中也采用了Bootstrap的方式,而且在针对训练子集构建决策树的过程中,对于特征向量列维度的数据也进行了进一步随机取样,从而降低森林之间决策树的相关性。因此,随机森林中每棵树的构建过程并没有使用全部特征,而是采用随机抽取的方式增加了随机性和差异性。随机森林对于特征向量行、列的随机抽取效率相对较高,并且不易产生过拟合。
本实施例与实施例1、2所建集成模型的整体运行时间在3.97s的范围内,具有较高的排序效率。同时,集成排序方案的预测准确率较单一排序学习模型平均有7.7%-11.5%的显著提升,且在Bootstrap算法执行过程后,各模型有效降低了方差,所以具有较高的排序可靠性和通用性。
实施例4
图2展示了本实施例提供的一种本体排序系统,包括:学习模块21与预测模块22,学习模块21中的样本采集单元211获取本体文件样本并将其划分为训练集与预测集,本体特征生成单元212提取样本采集单元211所获取的本体文件的本体特征;本体向量生成单元213生成本体文件的本体向量;基学习器生成单元214将训练集所对应的本体向量通过排序算法训练生成相应的基学习器;集成模型生成单元215通过列表投票法将若干个基学习器融合成集成模型EL_Modle;预测模块22中的预测单元221对预测集进行本体排序并输出本体文件的排序结果,此外,根据预测单元的预测结果计算相对均方根误差,再进行优化获得实际预测模型,然后利用实际预测模型进行预测。
本实施例的另一种实施方式,集成模型生成单元215通过Bagging算法将若干个相同的基学习器融合成Bagging集成模型。
本实施例的另一种实施方式,集成模型生成单元215通过RandomForests算法将若干由MART产生的基学习器融合成RF集成模型。
本发明实施例所提供的本体排序系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种本体排序方法,其特征在于,包括:学习方法与预测方法,
所述学习方法包括如下步骤:
采集样本步骤,从搜索引擎中获取本体文件作为样本集,并将所述样本集分成训练集与预测集;
构建本体向量步骤,提取所述本体文件的本体特征,然后将标准评分、检索编号、特征编号与特征值映射成数值特征向量,其中,所述标准评分为人工评分;所述检索编号为查询关键词所对应的编号;所述特征编号为本体特征编号;所述特征值为每个本体特征的数值;
生成基学习器步骤,将所述训练集的所述本体向量通过排序算法训练生成基学习器;
生成集成模型步骤,采用集成学习的方法将所述基学习器融合成集成模型;
所述预测方法包括如下步骤:
预测样本步骤,向所述集成模型中输入预测集样本的本体向量,所述集成模型输出预测集样本的本体排序结果。
2.根据权利要求1所述的方法,其特征在于,所述本体特征至少包括类匹配、类密度测量、实体相似度测量、语义相关测量、中心测量与ontBM25。
3.根据权利要求1所述的方法,其特征在于,所述集成学习的方法为列表投票法或bagging或随机森林。
4.根据权利要求1所述的方法,其特征在于,所述排序算法为MART、RB、RN、AR、CA中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述集成模型至少包括三个基学习器。
6.根据权利要求3所述的方法,其特征在于,所述集成模型由随机森林将若干相同基学习器融合而成,所述基学习器由MART训练产生。
7.根据权利要求3所述的方法,其特征在于,所述集成模型由bagging将若干相同基学习器融合而成,所述基学习器由MART或RB或RN或AR或CA训练产生。
8.根据权利要求1-7任一项所述的方法,其特征在于,还包括交叉验证法,具体步骤为:
将所述样本集按照一定比例分为训练集、验证集与预测集;
将训练集依次按照构建本体向量步骤、生成基学习器步骤、生成集成模型步骤生成集成模型;
采用交叉验证法将验证集的本体向量输入至所述集成模型中进行验证、优化与评估。
9.一种本体排序系统,其特征在于,包括:学习模块与预测模块,所述学习模块包括样本采集单元、本体特征生成单元、本体向量生成单元、基学习器生成单元与集成模型生成单元;
所述样本采集单元用于获取本体文件样本,并划分为训练集与预测集;
所述本体特征生成单元用于提取样本采集单元所获取的本体文件的所述本体特征;
所述本体向量生成单元用于生成所述本体文件的本体向量;
所述基学习器生成单元用于将所述训练集所对应的本体向量通过排序算法训练生成相应的基学习器;
所述集成模型生成单元用于将所述基学习器通过集成学习的方法融合成集成模型;
所述预测模块包括预测单元,所述预测单元用于对预测集样本进行本体排序。
10.根据权利要求9所述的本体排序系统,其特征在于,还包括验证单元,所述样本采集单元获取本体文件并按照一定比例分为训练集、验证集与预测集;所述训练集依次经本体向量生成单元、基学习器生成单元、集成模型生成单元生成集成模型;所述验证单元将所述验证集的本体向量输入至所述集成模型中对集成模型进行验证、优化与评估。
CN201610631112.6A 2016-08-04 2016-08-04 一种本体排序方法及系统 Active CN106294654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610631112.6A CN106294654B (zh) 2016-08-04 2016-08-04 一种本体排序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610631112.6A CN106294654B (zh) 2016-08-04 2016-08-04 一种本体排序方法及系统

Publications (2)

Publication Number Publication Date
CN106294654A true CN106294654A (zh) 2017-01-04
CN106294654B CN106294654B (zh) 2018-01-19

Family

ID=57664459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610631112.6A Active CN106294654B (zh) 2016-08-04 2016-08-04 一种本体排序方法及系统

Country Status (1)

Country Link
CN (1) CN106294654B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019184836A1 (zh) * 2018-03-30 2019-10-03 华为技术有限公司 数据分析设备、多模型共决策系统及方法
CN111053540A (zh) * 2019-12-23 2020-04-24 浙江大学 一种基于机器学习的crrt上机病人体温校正系统
CN112115335A (zh) * 2019-06-20 2020-12-22 百度(中国)有限公司 数据融合处理方法、装置、设备和存储介质
CN113936765A (zh) * 2021-12-17 2022-01-14 北京因数健康科技有限公司 周期行为报告的生成方法及装置、存储介质、电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140588A (zh) * 2007-10-10 2008-03-12 华为技术有限公司 一种关联关系搜索结果的排序方法及装置
CN101706876A (zh) * 2009-11-13 2010-05-12 西安电子科技大学 基于混合子空间学习选择性集成的微钙化簇检测方法
CN101957859A (zh) * 2010-10-15 2011-01-26 西安电子科技大学 基于集成支撑矢量机排序的信息检索方法
CN104750819A (zh) * 2015-03-31 2015-07-01 大连理工大学 一种基于词分组排序算法的生物医学文献检索方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140588A (zh) * 2007-10-10 2008-03-12 华为技术有限公司 一种关联关系搜索结果的排序方法及装置
CN101706876A (zh) * 2009-11-13 2010-05-12 西安电子科技大学 基于混合子空间学习选择性集成的微钙化簇检测方法
CN101957859A (zh) * 2010-10-15 2011-01-26 西安电子科技大学 基于集成支撑矢量机排序的信息检索方法
CN104750819A (zh) * 2015-03-31 2015-07-01 大连理工大学 一种基于词分组排序算法的生物医学文献检索方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019184836A1 (zh) * 2018-03-30 2019-10-03 华为技术有限公司 数据分析设备、多模型共决策系统及方法
CN112115335A (zh) * 2019-06-20 2020-12-22 百度(中国)有限公司 数据融合处理方法、装置、设备和存储介质
CN112115335B (zh) * 2019-06-20 2024-05-28 百度(中国)有限公司 数据融合处理方法、装置、设备和存储介质
CN111053540A (zh) * 2019-12-23 2020-04-24 浙江大学 一种基于机器学习的crrt上机病人体温校正系统
CN113936765A (zh) * 2021-12-17 2022-01-14 北京因数健康科技有限公司 周期行为报告的生成方法及装置、存储介质、电子设备

Also Published As

Publication number Publication date
CN106294654B (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
He et al. Web query recommendation via sequential query prediction
US9075849B2 (en) Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
Turnbull et al. Five Approaches to Collecting Tags for Music.
Jiang et al. Tiger: Text-to-image grounding for image caption evaluation
US8356044B2 (en) System and method for providing default hierarchical training for social indexing
CN105378764A (zh) 计算机-人交互式学习中的交互式概念编辑
CA2727963A1 (en) Search engine and methodology, particularly applicable to patent literature
CN106294654B (zh) 一种本体排序方法及系统
Zhou et al. Relevance feature mapping for content-based multimedia information retrieval
CN106919575A (zh) 应用程序搜索方法及装置
Zhang et al. Author impact: Evaluations, predictions, and challenges
CN116595246A (zh) 一种基于知识图谱与读者画像的图书推荐检索系统
Rueping Ranking interesting subgroups
Kumar et al. Review of gene subset selection using modified k-nearest neighbor clustering algorithm
CN117112794A (zh) 一种基于知识增强的多粒度政务服务事项推荐方法
Suchithra et al. Evaluating the performance of bagging-based k-nearest neighbor ensemble with the voting rule selection method
Yeh et al. An efficient content-based time series retrieval system
Gao et al. VizGRank: a context-aware visualization recommendation method based on inherent relations between visualizations
He et al. AnaMeta: A Table Understanding Dataset of Field Metadata Knowledge Shared by Multi-dimensional Data Analysis Tasks
Huo et al. Improving tail query performance by fusion model
Derhami et al. RRLUFF: Ranking function based on reinforcement learning using user feedback and web document features
Utama et al. Scientific Articles Recommendation System Based On User’s Relatedness Using Item-Based Collaborative Filtering Method
Jeong et al. Exploring an essential patent through a GTM-based standard map
Gutiérrez-Soto et al. Comparing the effectiveness of query-document clusterings using the qdsm and cosine similarity
Yu et al. Novel community recommendation based on a user-community total relation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant