CN101963971A - 使用相关性反馈进行数据库搜索的方法及相应的储存介质 - Google Patents

使用相关性反馈进行数据库搜索的方法及相应的储存介质 Download PDF

Info

Publication number
CN101963971A
CN101963971A CN2010101212288A CN201010121228A CN101963971A CN 101963971 A CN101963971 A CN 101963971A CN 2010101212288 A CN2010101212288 A CN 2010101212288A CN 201010121228 A CN201010121228 A CN 201010121228A CN 101963971 A CN101963971 A CN 101963971A
Authority
CN
China
Prior art keywords
relevance
search results
feedback
search
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010101212288A
Other languages
English (en)
Inventor
刘焕祚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy Industry Foundation of POSTECH
Original Assignee
Academy Industry Foundation of POSTECH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy Industry Foundation of POSTECH filed Critical Academy Industry Foundation of POSTECH
Publication of CN101963971A publication Critical patent/CN101963971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking

Abstract

提供了使用相关性反馈进行数据库搜索的方法以及其上记录有用于执行该方法的程序的记录介质,在所述方法中,分级策略被应用于数据库系统以进行高效的数据库搜索。所述方法包括:接收对第一搜索结果的相关性反馈;基于所接收的相关性反馈得出相关性函数;以及将所述第一搜索结果应用到所述相关性函数,并且提供根据相关性级别排序的第二搜索结果。由此,可以通过使用相关性反馈和分级策略来从少量反馈得出准确的相关性函数,从而可以实现高效的数据库搜索而无需用户检查所有搜索结果来获得期望的结果。

Description

使用相关性反馈进行数据库搜索的方法及相应的储存介质
优先权要求
本申请要求2009年7月23日在韩国知识产权局(KIPO)递交的韩国专利申请No.2009-0067086的优先权,特此通过引用并入该韩国专利申请的全部内容。
背景
1.技术领域
本发明的示例性实施例总体上涉及数据库,并且更具体地,涉及进行数据库搜索的方法以及其上记录有用于执行该方法的程序的记录介质。
2.背景技术
在一般的数据库搜索中获得期望的数据或文档是困难的,因为用户不能容易地使用查询界面和关键字来表示具体的搜索,并且提供有太多搜索结果。例如,在PubMed数据库(生物医学研究中重要的信息来源)的情况下,当输入诸如“乳腺癌”这样的关键字时,返回了二十万个或更多文档作为搜索结果。在这种情况下,用户必须进行预处理,例如参照出版日期、作者、文章名称等对搜索结果进行排序,并且随后不便于查找期望的文章。
同时,已经研究了重新排列搜索结果以便用户可以容易地获得期望结果的方法,例如,如从搜索网站Google所看到的,通过文档的引用信息来计算文档总体重要性并且使用所计算的重要性来对搜索结果进行分级(rank)的方法。为了解决上述问题,已经考虑了使用机械训练策略的方法。然而,该方法受限于训练过程和分级过程是离线进行的并且需要大量训练数据来获得在特定水准之上的搜索准确度。
存在另一个问题,即针对同一关键字查询,不同的用户可能期望不同的结果。例如,对于同一关键字“乳腺癌”,一个用户可能期望遗传学相关的文章,而另一用户可能期望关于最新癌症手术的文章。基于总体重要性的分级策略通常无法响应特定用户对信息(即个性化信息)的请求。
发明内容
因此,提供本发明的示例性实施例来基本地避免由于现有技术的限制和缺点造成的一个或更多问题。
本发明的示例性实施例提供使用相关性反馈来进行数据库搜索的方法,以使得用户可以使用反馈获得更准确的期望的搜索结果。
本发明的示例性实施例还提供具有指令程序的记录介质,所述指令程序被有形地实施、记录于所述记录介质上,并且可由执行使用相关性反馈进行数据库搜索的方法的数字处理装置执行,所述记录介质是所述数字处理装置可读的。
在一些示例性实施例中,一种进行数据库搜索的方法包括:接收对第一搜索结果的相关性反馈;基于所接收的相关性反馈得出相关性函数;以及将所述第一搜索结果应用到所述相关性函数,并且提供根据相关性级别排序的第二搜索结果。
所述接收相关性反馈可以包括:接收包含搜索条件的查询;提供对应于所述查询的第一搜索结果;以及接收对所述第一搜索结果的相关性反馈。
所述得出相关性函数可以包括:使用分级策略得出所述相关性函数,以根据所述第一搜索结果中包括的每个数据的相关性级别来返回分级评分,所述分级策略基于所接收的相关性反馈。
所述分级策略可以是分级支持向量机(RankSVM)、RankNet和RankBoost之一。
所述得出相关性函数可以是以SQL语法的以下形式而进行的:使用包含训练数据的训练表作为输入因子,而使用包含已训练结果数据的模型表作为输出因子。
所述训练表可以包括实例标识符属性、描述实例的特征向量属性,以及所述实例的分级标签属性。
所述得出相关性函数和所述应用第一搜索结果至少之一可以是以单独的独立查询语言指令的形式或者整合到现有查询语言的指令的形式,在数据库系统上进行的。
所述应用第一搜索结果可以是以SQL语法的以下形式进行的:将包含已训练结果数据的模型表和包含要被预测的数据的测试表用作输入因子,而将包含通过对所要被预测的数据给出分级评分所获得的结果数据的结果表用作输出因子。
所述测试表可以包括实例标识符属性和描述实例的特征向量属性,并且所述结果表可以包括所述实例标识符属性和实例的分级评分属性。
所述相关性反馈可以是对所述第一搜索结果的多级相关性反馈和对所述第一搜索结果的相对相关性排序反馈之一。
所述相关性函数可以被储存为数据库系统上的表。
在其他示例性实施例中,一种记录介质具有指令程序,所述指令程序被有形地实施、记录于所述记录介质上,并且可由执行用于进行数据库搜索的方法的数字处理装置来执行,所述记录介质是所述数字处理装置可读的。所述程序进行以下操作:接收对第一搜索结果的相关性反馈;基于所接收的相关性反馈得出相关性函数;以及将所述第一搜索结果应用到所述相关性函数,并且提供根据相关性级别排序的第二搜索结果。
附图说明
通过参照附图详细描述本发明的示例性实施例,本发明的示例性实施例将变得更加显而易见,其中:
图1和2是用于解释根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法的概念图;
图3和4是根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法的流程图;
图5说明了根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法中使用的表;
图6示出了根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法的训练过程中的效率实验结果;
图7示出了根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法的预测过程中的效率实验结果;以及
图8示出了根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法的准确度实验结果。
具体实施方式
本文公开了本发明的示例性实施例。然而,本文公开的具体结构和功能细节对于描述本发明示例性实施例的目的来说仅仅是代表性的,本发明的示例性实施例可以以很多可替代的形式来实施,并且不应该被解读为限于本文所阐述的本发明的示例性实施例。
因此,尽管本发明容许各种修改和可替代的形式,但是本发明的特定实施例在附图中是以示例的方式示出的,并且将在本文中被详细描述。然而,应当理解,并不意图将本发明限于所公开的具体形式,相反,本发明是要覆盖落入本发明精神和范围的所有修改、等同方案和替代方案。在附图的全部描述中,类似的标号指代类似的部件。
将理解,尽管在本文中可以使用第一、第二等术语来描述各个部件,但是这些部件并不应该受这些术语限制。这些术语仅被用来将一个部件与其他部件进行区分。例如,第一部件可以被称为第二部件,并且类似地,第二部件可以被称为第一部件,而不会偏离示例性实施例的范围。使用在这里,术语“和/或”包括一个或更多相关联列举项的任意或者所有组合。
本文使用的术语仅用于描述特定实施例的目的,并不意图限制示例性实施例。使用在这里,除非上下文以其他方式明确指出,否则单数形式“一个(a,an)”和“这个(the)”也意图包括复数形式。还将理解,当使用在本文中时,术语“包括(comprises、comprising、includes和/或including)”表明存在所陈述的特征、整体、步骤、操作、部件和/或组件,但是并不排除存在或添加一个或更多其他特征、整体、步骤、操作、部件、组件和/或其组合
除非以其他方式限定,否则在这里使用的所有术语(包括技术和科技术语)具有如本发明所属领域技术人员所普遍理解的相同含义。还将理解,诸如在普遍使用的辞典中所定义术语这样的术语应该被解释为具有与它们在相关领域的语境中的含义一致的含义,并且将不在理想化或过于正式的意义上被解释,除非在本文中被如此明确定义。
还应该注意,在一些可替代实现中,框中所标注的功能/动作可以不按流程图中标注的顺序发生。例如,被示出为连续的两个框在实际上可以基本上同时被执行,或者这些框有时可以以相反的顺序被执行,这取决于所涉及的功能性/动作。
数据挖掘策略包括:使用关联规则挖掘、分类和预测、聚类,以及文本和网页挖掘来进行数据分析;和从所述数据中提取有用信息。在这种情况下,分级策略被用来根据预定准则对给定数据进行分级。
然而,当与现有数据库管理系统(例如,关系数据库管理系统(RDBMS))互相配合时,难以进行数据挖掘策略,因为进行中的研究已经基于机器学习、信息检索等领域中使用的算法。因此,分级算法已经与现有RDBMS或类似系统相分离地被开发,并且因此无法与诸如MySQL、Oracle、MS-SQL等现有RDBMS相互配合。
为了克服该限制,本发明的示例性实施例通过将分级算法整合到数据库系统并且执行该分级算法来提供更准确的个性化搜索结果。所述分级算法可以以独自执行的查询语言的形式或者整合到现有查询语言语法中的形式被执行。
分级策略的示例包括分级支持向量机(RankSVM)、分级网(RankNet)、分级Boost(Rank Boost)等。在本发明示例性实施例中使用的分级策略和分级算法并不限于特定算法,并且可以使用用于根据预定准则对给定数据进行分级的所有类型的算法。后文中,将结合RankSVM以示例的方式给出描述。
支持向量机(SVM)是这样一种策略,其通过非线性映射将训练数据转换为高维向量,并且在高维度上获得用于根据预定准则最优地分离训练数据的线性可分隔超平面。因为尽管SVM需要长的训练时间但是可以准确地为复杂的非线性决策区建模,所以SVM被广泛地用于分类。
RankSVM是意在用于分类的SVM的适于分级问题的修改版本,其中进行训练来优化或者最小化基于数据对之间的距离所定义的目标函数。RankSVM包括模型训练过程和预测过程。在模型训练过程中,确定权重向量,以便于针对目标函数来优化或最小化数据对之间的距离。在预测过程中,获得使用已训练模型的每个数据的评分,以用于分级。具体来说,从训练数据得出用于对所有数据段进行评分的偏好函数(preferencefunction)或相关性函数,并且基于所得出的函数来计算每个数据的评分以进行分级任务。
“A比B更受偏好”被指示为“A>B”。RankSVM的训练数据R可以由式1表示:
式1
R = { ( x → 1 , y 1 ) , . . . , ( x → m , y m ) }
其中yi是x1的分级,即,如果
Figure GSA00000028559500062
则yi<yj
对于给定训练数据集R,RankSVM计算分级评分函数F,当训练数据向量中xi>xj时,该分级评分函数F满足F(xi)>F(xj)。例如,F可以是由式2定义的线性分级函数:
式2
Figure GSA00000028559500063
Figure GSA00000028559500064
接下来,与训练数据集R相符的F被训练,以被归纳来甚至对训练数据集R之外的数据进行预测。这对应于获得满足式2的权重向量w的过程。具体来说,RankSVM获得权重向量,用于使式3定义的L1最小化:
式3
L 1 ( w → , ξ ij ) = 1 2 w → · w → + CΣ ξ ij
&ForAll; { ( x &RightArrow; i , x &RightArrow; j ) : y i < y j &Element; R } : w &RightArrow; &CenterDot; x &RightArrow; i &GreaterEqual; w &RightArrow; &CenterDot; x &RightArrow; j + 1 - &xi; ij
并且
其中w代表权重向量,ξij代表用于测量误分类水平的松弛变量,C代表用于确定在训练时软间隔(soft margin)大小和错误大小之间的折衷的用户参数,而xi和xj是训练数据向量。因为根据已知的相关技术和技术文档可以容易地理解RankSVM的细节,所以将省略对其的描述(Burges,C.J.C.:Atutorial on support vector machines for pattern recognition.Data Mining andKnowledge Discovery 2,121.167(1998),Hastie,T.,Tibshirani,R.:Classification by pairwise coupling.In:Advances in Neural InformationProcessing Systems(1998),J.H.Friedman:Another approach to polychotomousclassification.Tech.rep.,Standford University,Department of Statistics,10:1895-1924(1998))。
图1和2是用于解释根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法的概念图。
在图1中,示出搜索系统RefMed的原型,在该系统中针对数据库PubMed(http://dm.postech.ac.kr/refmed)实施了本发明的示例性实施例。PubMed是其中难以进行相关性搜索的数据库的典型示例。从PubMed难以搜索相关文章,因为PubMed仅提供与给定查询精确匹配的文章作为搜索结果,并且不支持相关性分级。
如图1中示出的,当用户输入包含关键字“breast cancer”(乳腺癌)的查询时,RefMed返回初始搜索结果,并且用户可以提供对该初始搜索结果的相关性反馈。如图1右侧示出的,用户可以通过对搜索结果中的头五篇文档依次指示“Not Relevant”(不相关)、“Partially Relevant”(部分相关)、“Highly Relevant”(高度相关)、“Highly Relevant”和“PartiallyRelevant”来提供关于初始搜索结果与期望的搜索结果是否匹配或相关的反馈。
在图2中,示出在用户输入相关性反馈之后排序的搜索结果。从用户的相关性反馈得出相关性函数和分级评分函数,使用所得出的函数对初始搜索结果中包括的文档进行评分,并且根据所述评分来对初始搜索结果进行重新排序。如图2右侧示出的,用户提供的相关性反馈为“HighlyRelevant”的文档位于搜索结果中较高的位置。
RefMed搜索系统允许用户容易地表示相关性而无需输入复杂的搜索查询,并且根据所表示的相关性快速提供搜索结果。
图3和4是根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法的流程图。
参照图3,接收到对第一搜索结果的相关性反馈(S110)。具体来说,如图4中示出的,从用户接收包含搜索条件的查询(S111),并且提供对应于该查询的第一搜索结果(S113)。可以接收对该第一搜索结果的相关性反馈。
相关性反馈可以是对第一搜索结果的多级相关性反馈。例如,相关性反馈不限于诸如“Relevant”(相关)和“Not Relevant”这样的二元反馈,而是例如可以采取“Not Relevant”、“Partially Relevant”和“HighlyRelevant”。
相关性反馈可以是对第一搜索结果的相对(relative)相关性排序反馈。即,相关性反馈可以采取用户根据相关性级别对第一搜索结果进行部分或整体重新排列所获得的形式。
参照回到图3,接着基于所接收的相关性反馈来得出相关性函数(S120)。在这种情况下,可以基于所接收的相关性反馈、使用分级策略来得出相关性函数,用于根据第一搜索结果中所包含的每个数据的相关性级别返回分级评分。即,可以通过将从用户接收的相关性反馈以及与该相关性反馈相对应的搜索结果作为训练数据而应用到分级策略并进行训练,来得出是分级策略的训练结果的相关性函数。
分级策略是一种机器训练方法,通过该方法进行训练,以根据数据段之间的相关性级别返回分级评分。如上面所描述的,分级策略的示例包括RankSVM、RankNet和RankBoost等。
从数据库系统的角度来说,得出相关性函数(S120)可以通过结构化查询语言(SQL)语法来实施,其接收包含训练数据的训练表作为输入,并且输出包含已训练结果数据的模型表。在这里,相关性函数可以作为模型表被储存或者包含在数据库中。
图5说明了根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法中使用的表。
在图5中,假设每个数据是一个实例(instance)。训练表(train table)可以包括具有实例标识符属性的ID、具有描述实例的特征向量属性的FVector,以及具有实例的分级标签属性的RankGroup(分级组)和Rank(分级)。RankGroup和Rank对于在相对相关性排序集中指定特定实例的分级标签来说是必需的。
模型表可以包括具有软间隔属性的CVal、具有内核类型属性的KType,以及具有内核属性的KVal。例如,当支持线性内核或RBF内核时,模型表可以具有值:KType={linear,RBF}。模型表(model_table)还可以包括具有系数属性的Alpha和具有支持向量属性的SVector,它们在参照式3描述的RankSVM优化过程中被计算。因为根据已知的相关技术和技术文档可以容易地认识到系数和支持向量的细节,所以将省略对这些细节的描述。
参照回到图3,得出相关性函数(S120)和将在下面描述的提供第二搜索结果(S130)至少之一,可以以单独的独立查询语言指令的形式或者整合到现有查询语言的指令的形式,在数据库系统上进行。
得出相关性函数(S120)和提供第二搜索结果(S130)至少之一是以整合到现有查询语言的指令的形式进行的,这一事实意味着诸如RankSVM这样的分级策略被整合到数据库管理系统(DBMS)并且具体来说被整合到诸如SQL这样的查询语言中。在这种情况下,因为可以对数据表(例如SQL数据表)进行训练和分级而无需额外访问盘片来生成中间文件,所以可以提高查询处理速度并且可以实现高效执行。数据库功能(例如索引和优化器)可以被用来管理和访问数据。此外,当分级策略被整合到现有查询语言中时,可以如其易于开发和维护相关应用那样使用该现有查询语言。
接下来,所得出的相关性函数被应用到第一搜索结果,以使得可以提供根据相关性级别排序的第二搜索结果(S130)。具体来说,通过将相关性函数或分级评分函数应用到第一搜索结果并且根据每个文档的相关性级别或相关性评分对所述第一搜索结果进行排序所获得的结果可以被提供为第二搜索结果,所述相关性函数或分级评分函数是通过分级策略进行训练的结果(S120)。
从数据库系统的角度来说,提供第二搜索结果(S130)可以通过SQL语法来实施,其接收包含已训练结果数据的模型表和包含要预测其相关性级别的数据的测试表,并且输出对应于该测试表的结果表。
参照图5,测试表可以包括实例标识符属性和描述实例的特征向量属性。结果表可以包括实例标识符属性和该实例的分级评分属性。
参照回到图3,基于来自用户的搜索终止输入来确定用户对第二搜索结果是否满意(S140)。当接收到额外的相关性反馈时,第二搜索结果被指定为第一搜索结果(S150),并且重复进行上述过程。
作为其中以整合到现有查询语言的指令的形式进行分级策略的示例,现在将以示例的方式描述RankSVM相关的执行语法被嵌入到SQL中的情况。
如下面所描述的,RankSVM进行训练过程(RANKSVM_LEARN)和预测过程(分级,RANKSVM_PREDICT)。如下面所描述的,执行RANKSVM_LEARN来创建模型表。包含已训练模型信息的模型表被用作RANKSVM_PREDICT的输入。
model_table=RANKSVM_LEARN train_table参数
output_table=RANKSVM_PREDICT model_table test_table
在RANKSVM_LEARN过程中,接收train_table和参数,并且输出model_table。在RANKSVM_PREDICT过程中,接收model_table和test_table,并且输出output_table。因为train_table、model_table和test_table中包括的属性可以如上面结合训练表、模型表和测试表所描述的那样进行理解,所以将省略对这些属性的描述。这些参数可以由用户指定,并且包括具有软间隔属性的CVal、具有内核类型属性的KType和具有内核属性的KVal。
与RANKSVM_LEARN和RANKSVM_PREDICT相对应的SQLBackus-Naur(巴科斯-诺尔范式)(BNF)如下(在这里,内核可以为线性内核或RBF内核):
    <query expression>::=<non-join query expression>|<joined table>|
    <ranksvm learn>|<ranksvm predict>
    <ranksvm learn>::=“RANKSVM_LEARN”<train table><parameters>
    <ranksvm predict>::=“RANKSVM_PREDICT”<model table><test
table>
    <parameters>::=“(“<cval>“,”“LINEAR”“)”|“(“<cval>“,”“RBF”“,”
<kval>“)”
    <train table>::=<table reference>
    <model table>::=<table reference>
    <test table>::=<table reference>
    <cval>::=NUM
    <kval>::=NUM
因为训练和预测指令被定义为SQL的<query expression>的一部分,所以它们可以被用作另一SQL语法的子查询。因为训练表、模型表和测试表被定义为SQL的<table reference>,所以子查询可以设置在指令语句中。用于根据从训练表习得的函数对测试表上的数据进行分级的SQL查询的示例如下:
SELECT test_table.ID,output_table.RScore
FROM test_table,(
   RANKSVM_PREDICT(
      RANKSVM_LEARN train_table(LINEAR,1)
   )test_table
)AS output_table
WHERE test_table.ID=output_table.ID
ORDER BY output_table.RScore DESC;
图6示出了根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法的训练过程中的效率实验结果。图7示出了根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法的预测过程中的效率实验结果。
在根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法中,示出以下两种情况的比较结果以评估前一种情况的性能:其中分级策略被整合到数据库系统的情况(在后文中被称为“紧耦合”);和其中从数据库表提取的训练数据经受离线分级训练并且分级训练的结果被储存到数据库表中的情况(在后文中被称为“松耦合”)。
在实验中使用了综合数据集。基于通过以下操作所获得的结果值将该综合数据集划分成五个偏等级(partial ranking)0到4:使用遵循正态分布的随机函数创建100个特征、创建任意的随机评分函数,并将每个数据应用到该评分函数。在该实验中创建并使用了包含数个数据段的综合数据集。该实验是在DELL服务器的Linux Kernel 2.6.18,MySQL 5.0.51a上进行的,该DELL服务器的装配规格为两个Intel QuadCore处理器、40G RAM和HDD 4.5TB。
从图6可以看到,与松耦合策略不同,紧耦合策略展现出:对于20个数据集,训练过程中的标准查询处理时间减少40%或者更多,而对于任何其他数量的数据集则减少10%到20%。
从图7可以看到,与松耦合策略不同,紧耦合策略展现出:预测(分级)过程中的标准查询处理时间减少几乎60%。具体来说,可以看到,与松耦合策略不同,紧耦合策略展现出优异的预测过程性能。
图8示出了根据本发明示例性实施例、使用相关性反馈进行数据库搜索的方法的准确度实验结果。
针对多级相关性评判与二元评判准确度的比较进行了实验。广泛用于分级评估的正规化折扣累积增益(Normalized discount cumulative gain,NDCG)和Kendall’s τ被用作准确度计算的准则。
综合数据集和OHSUMED数据集被用作实验数据。该综合数据集包含150个数据段,其中每个数据段具有50个特征,每个特征具有在0和1之间的随机数值。通过在训练之前和之后比较分级函数来测量准确度。
OHSUMED数据集是PubMed文档的部分集,并且由348,566篇文档和106个查询构成。总共有16,140个经受相关性评判(反馈)的查询-询问组合。相关性评判包括“绝对相关(Definitely Relevant)”、“部分相关”和“不相关”。
在图8中,X轴(即横轴)指示训练数据段的数量,而Y轴(即纵轴)指示参照NDCG和Kendall’sτ测量的准确度。按照30个执行结果的平均值来计算该准确度。从图8可以看到,准确度随着训练数据段的数量的增加而增加,并且三级评判(三级反馈)展现出比二元评判(二元反馈)更高的准确度。
根据使用相关性反馈进行数据库搜索的方法以及其上记录有用于执行该方法的程序的记录介质,可以通过使用多级反馈或相关性反馈(例如,相对相关性排序和分级策略)来从少量反馈得出准确的相关性函数。因此,可以实现高效的数据库搜索而无需用户检查所有搜索结果来获得期望的结果。
因为针对每个用户的不同相关性函数是根据该用户的反馈而训练的,并且分级训练和查询处理被整合到数据库系统中,所以可以实时地支持个性化的数据库搜索。
此外,因为分级训练策略被整合到DBMS并且具体来说被整合到查询语言(例如,SQL)中,所以有以下有利之处:由于无需额外访问盘片,所以可以提高查询处理速度;诸如索引和优化器这样的数据库功能可以被用来管理和访问数据;以及可以如其易于开发和维护相关应用那样使用现有查询语言。
尽管已经详细描述了本发明的示例性实施例及其优点,但是应该理解,在这里可以进行各种改变、替换和替代,而不偏离本发明的范围。

Claims (12)

1.一种进行数据库搜索的方法,包括:
接收对第一搜索结果的相关性反馈;
基于所接收的相关性反馈得出相关性函数;以及
将所述第一搜索结果应用到所述相关性函数,并且提供根据相关性级别排序的第二搜索结果。
2.如权利要求1所述的方法,其中,所述接收相关性反馈包括:
接收包含搜索条件的查询;
提供对应于所述查询的第一搜索结果;以及
接收对所述第一搜索结果的相关性反馈。
3.如权利要求1所述的方法,其中,所述得出相关性函数包括:使用分级策略得出所述相关性函数,以根据所述第一搜索结果中包括的每个数据的相关性级别来返回分级评分,所述分级策略基于所接收的相关性反馈。
4.如权利要求3所述的方法,其中,所述分级策略是分级支持向量机(RankSVM)、RankNet和RankBoost之一。
5.如权利要求1所述的方法,其中,所述得出相关性函数是以SQL语法的以下形式而进行的:使用包含训练数据的训练表作为输入因子,而使用包含已训练结果数据的模型表作为输出因子。
6.如权利要求5所述的方法,其中,所述训练表包括实例标识符属性、描述实例的特征向量属性,以及所述实例的分级标签属性。
7.如权利要求1所述的方法,其中,所述得出相关性函数和所述应用第一搜索结果至少之一是以单独的独立查询语言指令的形式或者整合到现有查询语言的指令的形式,在数据库系统上进行的。
8.如权利要求1所述的方法,其中,所述应用第一搜索结果是以SQL语法的以下形式而进行的:将包含已训练结果数据的模型表和包含要被预测的数据的测试表用作输入因子,而将包含通过对所要被预测的数据给出分级评分而获得的结果数据的结果表用作输出因子。
9.如权利要求8所述的方法,其中,所述测试表包括实例标识符属性和描述实例的特征向量属性,并且
所述结果表包括所述实例标识符属性和实例的分级评分属性。
10.如权利要求1所述的方法,其中,所述相关性反馈是对所述第一搜索结果的多级相关性反馈和对所述第一搜索结果的相对相关性排序反馈之一。
11.如权利要求1所述的方法,其中,所述相关性函数被储存为数据库系统上的表。
12.一种具有指令程序的记录介质,所述指令程序被有形地实施、记录于所述记录介质上,并且可由执行用于进行数据库搜索的方法的数字处理装置来执行,所述记录介质是所述数字处理装置可读的,其中,所述程序进行以下操作:
接收对第一搜索结果的相关性反馈;
基于所接收的相关性反馈得出相关性函数;以及
将所述第一搜索结果应用到所述相关性函数,并且提供根据相关性级别排序的第二搜索结果。
CN2010101212288A 2009-07-23 2010-02-11 使用相关性反馈进行数据库搜索的方法及相应的储存介质 Pending CN101963971A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020090067086A KR101072691B1 (ko) 2009-07-23 2009-07-23 연관성 피드백을 이용한 데이터베이스 검색 방법 및 이를 수행하는 프로그램을 기록한 기록매체
KR10-2009-0067086 2009-07-23

Publications (1)

Publication Number Publication Date
CN101963971A true CN101963971A (zh) 2011-02-02

Family

ID=42396441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101212288A Pending CN101963971A (zh) 2009-07-23 2010-02-11 使用相关性反馈进行数据库搜索的方法及相应的储存介质

Country Status (4)

Country Link
US (1) US20110022590A1 (zh)
EP (1) EP2282274A1 (zh)
KR (1) KR101072691B1 (zh)
CN (1) CN101963971A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838764A (zh) * 2012-11-26 2014-06-04 深圳市世纪光速信息技术有限公司 一种搜索结果相关性评测方法及装置
CN110569335A (zh) * 2018-03-23 2019-12-13 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069843B2 (en) * 2010-09-30 2015-06-30 International Business Machines Corporation Iterative refinement of search results based on user feedback
US8489604B1 (en) * 2010-10-26 2013-07-16 Google Inc. Automated resource selection process evaluation
US8706725B2 (en) * 2011-03-14 2014-04-22 Microsoft Corporation Ranking contextual signals for search personalization
US9152739B2 (en) * 2011-04-06 2015-10-06 Nterop Corporation Method and apparatus for pushing situationally relevant data
US9679064B2 (en) 2011-06-30 2017-06-13 Nokia Technologies Oy Method and apparatus for providing user-corrected search results
KR20130035064A (ko) * 2011-09-29 2013-04-08 삼성전자주식회사 개인 성향 기반의 개인화 서비스 제공 방법 및 시스템
US10108720B2 (en) * 2012-11-28 2018-10-23 International Business Machines Corporation Automatically providing relevant search results based on user behavior
KR101649146B1 (ko) * 2015-01-15 2016-08-19 주식회사 카카오 검색 방법 및 검색 서버
US9710563B2 (en) * 2015-08-28 2017-07-18 International Business Machines Corporation Search engine analytics and optimization for media content in social networks
CN105512315B (zh) * 2015-12-12 2019-04-30 天津南大通用数据技术股份有限公司 一种分布式数据库sql执行中inner join的智能评估方法
US20180211343A1 (en) * 2017-01-23 2018-07-26 International Business Machines Corporation Automated enterprise-centric career navigation
US11816436B2 (en) 2018-07-24 2023-11-14 MachEye, Inc. Automated summarization of extracted insight data
US11341126B2 (en) * 2018-07-24 2022-05-24 MachEye, Inc. Modifying a scope of a canonical query
US11841854B2 (en) 2018-07-24 2023-12-12 MachEye, Inc. Differentiation of search results for accurate query output
US11282020B2 (en) 2018-07-24 2022-03-22 MachEye, Inc. Dynamic playback of synchronized narrated analytics playlists
US11651043B2 (en) 2018-07-24 2023-05-16 MachEye, Inc. Leveraging analytics across disparate computing devices
US11853107B2 (en) 2018-07-24 2023-12-26 MachEye, Inc. Dynamic phase generation and resource load reduction for a query
KR20200080732A (ko) 2018-12-27 2020-07-07 (주)인실리코젠 의료분야 비정형 데이터 검색 장치
KR102030785B1 (ko) * 2019-04-26 2019-10-10 주식회사그린존시큐리티 의사난수를 이용한 IoT 디바이스의 데이터 난독화를 위한 장치 및 이를 위한 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1818908A (zh) * 2006-03-16 2006-08-16 董崇军 一种在搜索引擎中应用搜索者反馈信息的方法
US20070106659A1 (en) * 2005-03-18 2007-05-10 Yunshan Lu Search engine that applies feedback from users to improve search results
CN101271476A (zh) * 2008-04-25 2008-09-24 清华大学 网络图像搜索中基于聚类的相关反馈检索方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353825B1 (en) * 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques
KR100351400B1 (ko) * 1999-09-22 2002-09-10 엘지전자 주식회사 사용자 피드백 변화를 반영한 멀티미디어 데이타의 특징소 정보 생성방법 및 멀티미디어 데이타의 특징소 가중치 결정방법
US7099860B1 (en) * 2000-10-30 2006-08-29 Microsoft Corporation Image retrieval systems and methods with semantic and feature based relevance feedback
US7266545B2 (en) * 2001-08-07 2007-09-04 International Business Machines Corporation Methods and apparatus for indexing in a database and for retrieving data from a database in accordance with queries using example sets
US8442973B2 (en) * 2006-05-02 2013-05-14 Surf Canyon, Inc. Real time implicit user modeling for personalized search
JP4972358B2 (ja) * 2006-07-19 2012-07-11 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。
US7827184B2 (en) * 2007-04-10 2010-11-02 Yahoo! Inc. System and method for modeling user selection feedback in a search result page
US8261200B2 (en) 2007-04-26 2012-09-04 Fuji Xerox Co., Ltd. Increasing retrieval performance of images by providing relevance feedback on word images contained in the images
US8713001B2 (en) * 2007-07-10 2014-04-29 Asim Roy Systems and related methods of user-guided searching
US20090089275A1 (en) * 2007-10-02 2009-04-02 International Business Machines Corporation Using user provided structure feedback on search results to provide more relevant search results

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106659A1 (en) * 2005-03-18 2007-05-10 Yunshan Lu Search engine that applies feedback from users to improve search results
CN1818908A (zh) * 2006-03-16 2006-08-16 董崇军 一种在搜索引擎中应用搜索者反馈信息的方法
CN101271476A (zh) * 2008-04-25 2008-09-24 清华大学 网络图像搜索中基于聚类的相关反馈检索方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838764A (zh) * 2012-11-26 2014-06-04 深圳市世纪光速信息技术有限公司 一种搜索结果相关性评测方法及装置
CN103838764B (zh) * 2012-11-26 2019-04-30 深圳市世纪光速信息技术有限公司 一种搜索结果相关性评测方法及装置
CN110569335A (zh) * 2018-03-23 2019-12-13 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
US11275810B2 (en) 2018-03-23 2022-03-15 Baidu Online Network Technology (Beijing) Co., Ltd. Artificial intelligence-based triple checking method and apparatus, device and storage medium

Also Published As

Publication number Publication date
KR101072691B1 (ko) 2011-10-11
EP2282274A1 (en) 2011-02-09
KR20110009744A (ko) 2011-01-31
US20110022590A1 (en) 2011-01-27

Similar Documents

Publication Publication Date Title
CN101963971A (zh) 使用相关性反馈进行数据库搜索的方法及相应的储存介质
CN112100344B (zh) 一种基于知识图谱的金融领域知识问答方法
CN103020164B (zh) 一种基于多语义分析和个性化排序的语义检索方法
CN101408886B (zh) 通过分析文档的段落来选择该文档的标签
CN101520785B (zh) 信息检索方法和系统
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN105205096A (zh) 一种跨文本模态和图像模态的数据检索方法
CN106951498A (zh) 文本聚类方法
CN103718178B (zh) 利用从结构化文档中提取的特征来改善搜索关联性
CN103679462A (zh) 一种评论数据处理方法和装置、一种搜索方法和系统
CN101206674A (zh) 以商品为媒介的增强型相关搜索系统及其方法
CN111832289A (zh) 一种基于聚类和高斯lda的服务发现方法
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
CN105159971B (zh) 一种云平台数据检索方法
CN103559191A (zh) 基于隐空间学习和双向排序学习的跨媒体排序方法
CN101382939B (zh) 基于眼球跟踪的网页文本个性化搜索方法
Raviv et al. A ranking framework for entity oriented search using markov random fields
CN103778206A (zh) 一种网络服务资源的提供方法
CN102693316A (zh) 基于线性泛化回归模型的跨媒体检索方法
CN104794222A (zh) 网络表格语义恢复方法
CN103761286A (zh) 一种基于用户兴趣的服务资源检索方法
El-Kishky et al. k NN-Embed: Locally Smoothed Embedding Mixtures for Multi-interest Candidate Retrieval
CN101226547A (zh) 一种用在实体识别系统中的Web实体识别方法
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法
Ma et al. Matching descriptions to spatial entities using a siamese hierarchical attention network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110202