CN105045875A - 个性化信息检索方法及装置 - Google Patents
个性化信息检索方法及装置 Download PDFInfo
- Publication number
- CN105045875A CN105045875A CN201510425081.4A CN201510425081A CN105045875A CN 105045875 A CN105045875 A CN 105045875A CN 201510425081 A CN201510425081 A CN 201510425081A CN 105045875 A CN105045875 A CN 105045875A
- Authority
- CN
- China
- Prior art keywords
- model
- term
- user
- similarity
- personalized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种个性化检索方法,包括:对用户提交的查询进行分词得到检索词集合Q;根据叙词表进行叙词规范化获得规范化叙词;通过比较用户提交的查询和用户模型的相关性,构建用于本次查询的查询模型;利用查询模型扩展检索词集合Q得到新的检索词集合Q1;利用通用搜索引擎对Q1中的检索词进行检索,获得网页中的要素信息;计算每个网页的查询和文档相关度比值,根据所述相关度比值进行排序,并返回给用户,相关度比值越小表示用户个性化需求和检索结果越接近。本发明提供的个性化检索方法和装置记录和分析用户的检索历史,并应用于当前提交的检索,改善了检索结果的相关性及检索效率。
Description
技术领域
本申请涉及一种个性化信息检索方法和装置,具体地,涉及一种根据个性化模型扩展检索词从而扩大检索结果并对检索结果进行个性化加权排序的信息检索方法和装置。
背景技术
随着Internet的迅速发展,网络上的信息已经变得非常庞大,面对海量级的数据,如何进行高效、准确的信息检索是值得研究的课题。现有技术中,搜索引擎凭借其符合大众信息检索习惯的优势成为了目前获取网络信息的主要工具。但是,由于目前的搜索引擎采用的都是基于关键词的字面匹配模式,即仅以孤立的关键词对信息内容进行标引和检索,并不能表达出词语的语义内涵,更不能胜任获取文本中潜在的丰富的语义知识。因此,人们依然很难从海量信息中获取到自己最需要的信息,在多样化的网络信息环境下,现有搜索技术存在着明显的不足之处。
为解决以上问题,提出了一些新颖的网络信息组织和检索理念。例如,概念检索和语义检索等。基于叙词表的检索是比较成熟的语义检索方式。目前很多行业领域都有自己较成熟的叙词表。叙词表是一个相对完善并且发展成熟的概念知识体系,自其从20世纪50年代诞生以来,经过不断发展和完善,已成为主题法中重要的信息组织工具,并曾在传统文献标引和检索中发挥过重要作用。与普通的网络信息扩展检索方法相比,基于叙词表词间关系的信息检索方法更注重利用叙词表这一语义逻辑提高检索结果的检准率和检全率。
但是基于叙词表词间关系的信息检索方法也有其固有的局限性,虽然增加了检索的覆盖率和准确率,但和传统搜索引擎一样,每个用户的相同检索请求,给出相同的检索结果,没有考虑用户的个性化需求对检索的重组和过滤。例如用“红杉”检索,用户的检索目标即可能是“红杉树”,也可能指“红杉资本”。不对用户的个性化需求进行分析很难在检索时给出最合适的检索结果。
因此,如何将叙词表的语义检索和代表个性化需求的用户模型结合起来,并根据两者之间的关系对检索到的网页进行排序返回给用户,成为现有技术亟需解决的技术问题。
发明内容
本发明提供一种个性化信息检索方法和装置,使得能够利用叙词表和用户模型得到检索扩展集从而扩展检索结果并对检索结果进行加权排序。
根据本发明的一个方面,提供一种个性化信息检索方法,包括如下步骤:分词:根据分词词典对用户提交的查询进行分词处理获得检索词集合Q;叙词规范化:对于所述检索词集合Q中的每个词,根据叙词表进行叙词规范化获得规范化叙词;用户模型构建:计算所述检索词集合Q与若干个用户模型的语句相似度,根据预设的阈值选择用户模型作为个性化模型,使用所述用户提交的查询更新所述个性化模型,通过将所述个性化模型的结果文档集加入到更新后的所述个性化模型中得到查询模型;检索词扩展:如果所述查询模型中的某个词语出现的概率大于所设置的阈值M且在用户提交的查询中没有出现,则将所述词语加入到Q中,构成新的检索词集合Q1;网页抓取:对采用检索词集合Q1检索获得的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词;以及网页排序:将每个网页按照所述相关度比值从小到大的顺序排序,并返回给用户。
优选地,用户模型构建步骤包括:话题模型语句相似度计算:计算所述检索词集合Q与若干个话题查询模型的相似度;话题模型比较:设定阈值R1,计算所述话题模型的最大相似度,如果所述最大相似度大于R1,那么选择所述最大相似度对应的话题模型作为个性化模型;如果所述最大相似度小于R1,则执行话题模型获取步骤;话题模型更新:如果有对应的所述个性化模型,则利用以下公式对所述个性化模型进行更新,其公式为:
其中Q表示所述检索词集合,w表示Q中的任意检索词,i表示话题模型的编号,φi-1,φi分别同一话题中表示编号为i-1,i次的查询集合,p(w|φi-1)代表编号i-1的话题模型,而p(w|φi)代表代表编号为i的话题模型,c(w,Q)为在所述检索词集合,词语w出现的次数,|Q|表示所述检索词集合包含的词汇数,α为一常量;话题模型获取:如果有对应的所述个性化模型,利用将所述个性化模型的结果文档集加入到更新后的所述个性化模型得到所述查询模型;如果没有对应的所述个性化模型,则利用用户提交的查询构建新的语言模型作为所述查询模型。
优选地,用户模型构建步骤包括:历史模型相似度计算:计算检索词集合Q与若干个历史单元的相似度;历史模型比较:设定阈值R2,将超过阈值R2的历史单元合并作为历史模型,并将所述历史模型作为个性化模型;如果没有任何一个历史单元的相似度大于R2,则执行历史模型获取步骤;历史模型更新:如果有对应的所述个性化模型,则利用以下公式对所述个性化模型进行更新,其公式为:
其中,Q表示所述检索词集合,w表示Q中的任意检索词,θH、φH表示更新前和更新后的历史查询集合,p(w|θH)代表更新前的历史模型,而p(w|φH)代表更新后的历史模型,c(w,Q)为在所述检索词集合中,词语w出现的次数,|Q|表示所述检索词集合包含的词汇数,α为一常量;历史模型获取:如果有对应的所述个性化模型,通过所述个性化模型的结果文档集加入到更新后的所述个性化模型中得到所述查询模型,如果没有,则利用用户提交的查询构建新的语言模型作为所述查询模型。
优选地,所述用户模型构建包括:混合模型语句相似度计算:计算所述检索词集合Q与若干个话题模型的相似度以及与若干个历史单元的相似度;混合模型比较:设定阈值R1和R2,计算所述话题模型的最大相似度,如果所述最大相似度超过R1,那么选择所述最大相似度对应的话题模型作为个性化模型;如果小于R1,将超过阈值R2的历史单元合并作为历史模型,并将所述历史模型作为个性化模型;否则,执行混合模型获取步骤;混合模型更新:如果选择话题模型作为个性化模型,则按照话题模型更新公式更新所述个性化模型,如果选择历史模型为个性化模型,则按照历史模型更新公式更新所述个性化模型;混合模型获取:如果选择话题模型为个性化模型,则通过将所述话题模型的结果文档集加入到更新后的所述话题模型得到所述查询模型;如果选择历史模型为所述个性化模型,通过所述历史模型的结果文档集加入到更新后的所述历史模型中得到所述查询模型,否则,利用用户提交的查询构建新的语言模型作为所述查询模型。
优选地,所述网页排序包括:相关词集合创建:根据叙词表扩展所述规范化检索词获得相关词集合U(q);统计计算:分别统计所述相关词集合U(q)的每一个相关词在网页的标题中出现的次数以及在结果文档集摘要中出现的次数;所述检索词集合Q的每个检索词在结果文档集出现的次数、在所述检索词集合Q的次数以及结果文档集分词之后包含的词汇数、所述检索词集合Q的词汇数;相关度比值计算:根据相关词相似度、文档相似度和查询相似度,计算每个网页的所述文档相似度和所述查询相似度的相关度比值;以及结果文档集排序:将结果文档集根据所述相关度比值按照从小到大的排序,并返回给用户。
优选地,所述相关度比值计算包括:根据以下公式求和计算结果文档集的每个文档的相关度比值,其公式如下:
其中,p(q|θQ)计算公式如下:
而p(w|θD)的计算公式如下:
在公式(1)中,Q为根据用户提交的查询分词后得到的检索词集合,q表示所述检索词集合Q的任意检索词,w表示U(q)中的任意相关词,θD为检索获得的结果文档集,sim(q,w)代表q和w的相似度,p(q|θQ)代表检索词q的查询相似度,p(w|θD)为相关词w的文档相似度;在公式(2)中,Q为根据用户提交的查询分词后得到的检索词集合,q表示所述检索词集合Q的任意检索词,i表示所述个性化模型对应的话题模型的编号,φi-1,φi分别表示编号为i-1,i个话题模型的查询集合,p(q|φi-1)代表编号为i-1的话题模型,而p(q|φi)代表更新后的话题模型,c(w,Q)为词语w在Q中出现的次数,|Q|表示所述检索词集合包含的词汇数,α为一常量,C为所述个性化模型的结果文档集,c(w,C)为词语w在C中出现的次数,|C|表示C分词之后包含的词汇数,β为一常量;在公式(3)中,Q为根据用户提交的查询分词后得到的检索词集合,H为所有超过阈值的历史单元集合,i标识历史单元的编号,qi表示第i个历史单元,λi为用户本次提交的查询与H集合中第i个历史单元查询的相似度,p(q|qi)为q在第i个历史单元的概率,这个概率是根据极大似然相似法则得到,c(q,Q)为词语q在Q中出现的次数,|Q|表示检索词集合包含的词汇数,α为一常量,C为所有超过阈值的历史单元的结果文档集的并集,c(q,C)为词语w在C中出现的次数,|C|表示C分词之后包含的词汇数,β为一常量;在公式(4)中,c(q,Q)为词语w在Q中出现的次数,|Q|表示检索词集合包含的词汇数;在公式(5)中,θt和θp分别表示结果文档集的标题和摘要集合,p(w|θt)为基于标题的语言模型以及基于摘要的语言模型p(w|θp),λ称为标题摘要比,用来调节标题的影响作用。
优选地,所述相关词集合创建包括:建立初始查询扩展集合:根据叙词表对规范化检索词K进行扩展,得到关于所述规范化检索词K的初始查询扩展集合U={D,F,W,Y},其中,D表示K的等同词,F表示K的所有上位/下位词,即叙词表概念树T的所有节点,W表示K的相关词,Y表示F的等同词和相关词;建立叙词表查询概念树:找到所述规范化检索K的族首词O,以O为根节点建立叙词表概念树T;概念对组成:从所述初始查询扩展集合中逐个抽取扩展词,使得规范化检索词K与扩展词组成概念对;相似度计算:根据所述概念对中规范化检索词K与扩展词的关系类型,采用不同的公式计算规范化检索词K与扩展词的相似度;阈值判断:设置阈值,判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于所述阈值:若大于,则将该词加入到查询扩展集合N中;若小于,则跳过,即不加入到查询扩展集合N中。
优选地,所述建立叙词表查询概念树包括:族首词读取:从数据库中一次性读出所有族首词为O;键值对构建:从数据库中读取所有族首词为O所有相关叙词结点,查询数据库中所有族首词为O的条目,将其转化为键值对的形式存储,其中键为叙词的上位词,值为叙词节点的集合,集合中的叙词节点所对应叙词的上位词为相应的键值,每个叙词的相关词和等同词均存储在叙词节点中;子节点重定向:根据根节点的名字在键值对找到该根节点的所有子节点,将子节点的双亲节点引用指向根节点;深度遍历:从根节点开始,利用深度遍历的方法,不断执行子节点重定向步骤,直到当前节点的名字在键值对中无法找到为止。
根据本发明的另一方面,提供一种个性化信息检索装置,包括:分词单元,用于接收用户提交的查询,根据分词词典对用户提交的查询进行分词处理获得检索词集合Q;叙词规范化单元,用于对于所述检索词集合Q中的每个词,根据叙词表进行叙词规范化获得规范化叙词;用户模型构建单元,用于计算所述检索词集合Q与若干个用户模型的语句相似度,根据所设置的阈值R选择用户模型作为个性化模型,使用用户提交的查询更新所述个性化模型,通过将所述个性化模型的结果文档集加入到更新后的所述个性化模型中得到查询模型;检索词扩展单元,用于如果所述查询模型中的某个词语出现的概率大于所设置的阈值M且在用户提交的查询中没有出现,则将所述词语加入到Q中,构成新的检索词集合Q1;网页抓取单元,用于利用通用搜索引擎对Q1中的检索词进行检索,对检索获得的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词;网页排序单元,用于将每个网页按照所述相关度比值从小到大的顺序排序,并返回给用户。
优选地,所述用户模型包括话题模型、历史模型或混合模型。
根据本发明的个性化检索方法和装置记录和分析用户的检索历史,并应用于当前提交的检索,改善了检索结果的相关性及检索效率。
附图说明
图1是根据本发明实施例的个性化信息检索方法的流程图;
图2a是根据本发明一个实施例的根据话题模型生成查询模型的流程图;
图2b是根据本发明另一实施例的根据历史模型生成查询模型的流程图;
图2c是根据本发明另一实施例的根据混合模型生成查询模型的流程图;
图3是根据本发明的另一实施例的网页排序步骤的流程图;
图4是根据本发明的另一实施例的构建相关词集合的流程图;
图5是根据本发明一个实施例的个性化信息检索装置的结构图;
图6本发明与百度搜索的PN指标对比图;
图7是本发明与百度搜索的bpref指标的对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步地详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在申请中使用的与叙词表概念树中相关的术语定义如下:
定义1.叙词表概念树
在叙词表中,以族首词O为根节点,由族首词为O的所有叙词的上位叙词和下位叙词构成的树状结构T称为叙词表概念树。树结构中的节点C称为叙词节点,Ci为对T进行层次遍历的第i个节点,根节点O记为C0。C的所有祖先节点构成的集合称为C的祖先叙词节点A(C);C的所有孩子节点构成的集合称为C的孩子叙词节点L(C)。若至少存在一个词W与C所对应的叙词为相关关系,则称C所对应的叙词为W的相关关联叙词。根节点O的深度记为1;树中路径上分支数目为1的两个节点间的距离记为1。
定义2.最短路径长度
在T中,两个叙词节点之间分支数目最少的树中路径称为两个节点的最短路径,最短路径所拥有的分支数目称为最短路径长度。
定义3.最近根节点
在T中,如果叙词节点R是A和B共同的祖先节点,并且是符合此条件的所有节点中距离的根节点最远的一个,则称R为A和B的最近根节点,记为R(A,B)或R。
定义4.语义范围
在T中,以C为根的子树所包含的叶子节点数目称为C的语义范围,记为SCover(C)。
定义5.基于叙词的语义向量
在一个包含n个叙词节点的T中,节点Ci表示成向量Ci=(Vi,1,Vi,2,...,Vi,n),Vi,j(i=1,2,…n;j=1,2,…n),该向量称为基于叙词的语义向量。其中维度值定义为:
图1示出了根据本发明实施例的个性化信息检索方法的流程图。
S110:根据分词词典进行分词处理获得检索词集合Q。
在本步骤中,分词软件会扫描用户提交的查询语句,根据分词词典的语料库,每发现一个分词,就记录下分词在词典中的词频和分词在用户提交的查询语句中出现的次数,同时组建分词集合作为检索词集合Q。
专业领域的检索,可以采用该专业领域的词典作为分词词典。例如,由于林业领域专有名字较多,所以对传统的正向最大匹配算法进行相应调整,将叙词表中所提及的词汇当作一个分词词典,利用基于词典的正向最大匹配算法进行分词。
S120:对于分词后的每个词,根据叙词表进行叙词规范化获得规范化叙词。
在该步骤中,如果规范化成功,则得到规范化检索词。如果规范化失败,则结束本方法,只采用常规的检索方法进行检索和排序。
所述规范化成功包括以下三种情况中的任意一种:a.所述检索词为叙词表中的叙词,则视为已经规范化,可直接使用;b.所述检索词为叙词表中的非叙词,则通过叙词表将所述检索词规范为相应的叙词;c.所述检索词能够与叙词表中的叙词部分匹配,则将可匹配的所有叙词返回,供用户从中选择新的检索词作为规范化检索词。如果规范化成功,则在后续的步骤继续使用规范化检索词。
所述规范化失败为:除了以上a、b、c三种情况以外的其它情况。如果检索词无法匹配或对应于叙词表中的任何部分,若分词之后的每个词均无法用上述三种情况处理,则保留原查询,在后续也不再基于规范化叙词扩展的相关词进行网页相关性计算及网页排序。
S130:计算用户查询与若干个用户模型的相似度,从中选择合适的用户模型作为个性化模型,利用用户提交的查询更新所述个性化模型,通过将所述个性化模型的结果文档集加入到更新后的个性化模型中得到用于本次查询的查询模型。
用户模型代表用户的历史需求。系统通过记录用户的查询语句以及用户和检索结果文档上的交互操作,归纳出反映用户个性化需求的用户模型。在本步骤中,比较用户提交的查询语句和若干个用户模型,并从中选择合适的用户模型作为个性化模型。
个性化模型的选择可根据相似度的阈值进行选择,例如,在话题模型里,选择阈值最大且阈值大于R1的话题模型作为个性化模型。再例如,在历史模型里,选择相似度大于R2的历史单元相加生成个性化模型。
在本步骤中,通过使用用户提交的查询语句更新所述的个性化模型,并把所述个性化模型的结果文档集加入到更新后的所述个性化模型中获得新的查询模型,通过历史检索扩大本次检索的范围,可以改善检索结果对用户需求的覆盖程度。
S140:如果所述查询模型中的某个词语出现的频率超过大于所设置的阈值M且在所述本次查询中尚未出现,则将所述词语加入到所述本次查询中,构成新的检索词集合Q1。
即,设定阈值M,比较查询模型p(w|θQ)的每个词语出现的频率和阈值M,大于阈值M的词语说明该词语检索的概率较高,因此将它加入到检索词集合Q中。所述阈值M大小,可以通过检索实验获得。
S150:利用搜索引擎对Q1中的检索词进行检索,对前若干个结果的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词。
在步骤S150,以Q1中的检索词通过搜索引擎进行检索,以前S个结果的URL,作为爬行网址,对S个所述爬行网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词。
例如,可以采用开源网页分析工具Htmlparser分析这S个网址所对应的网页,提取出网页中的URL、标题、正文、摘要、关键词等要素信息。在一个优选的实施例中,所述要素信息为网页中的标题和摘要。
S160:根据叙词表扩展所述规范化检索词获得相关词集合U(q);对于所述相关词集合U(q)的每个相关词,计算所述相关词的相似度,根据所述相似度和每个网页的要素信息计算文档相似度;计算所述检索词集合Q中每个检索词和所述查询模型的查询相似度,根据所述文档相似度和查询相似度,计算每个网页的文档相似度和查询查询相似度的相关性。将每个网页按照所述相关度比值从小到大的顺序排序,并返回给用户。
即,通过用户提交的查询和查询模型的相似度以及和检索获得的文档模型相似度对比,对查询效果进行打分,两者的差距越小,越说明反映了检索结果和用户的预期相近,效果越好,反之则说明检索结果和用户的预期距离较远,效果越差。
在基于话题模型的用户个性化检索方法中,系统为每一个用户维护多个话题模型,每一个话题模型的存储均包含两部分:第一部分是通过对用户历次相关的查询模型进行平滑而得到的话题查询模型,第二部分则是由在历次相关的查询中用户所点击文档的题目和摘要组成的结果文档集。为了让话题模型可以捕获用户的长期兴趣并且一直应用于用户的个性化检索当中,不设置会话期间,而是在用户每一次提交查询时判断当前的查询模型与哪个话题查询模型更为相关。为了解决这一问题,引入叙词表中的词间关系,计算用户提交查询与话题查询模型的语句相似度,由于话题模型是由用户多次查询模型平滑而来,所以在比较用户提交查询和话题模型的相似度时,采用的加权的语句相似度,并通过话题模型的选取和本次用户提交的查询语句构建本次查询模型。
图2a反映了对应步骤S130,使用话题模型构建用户的查询模型的具体流程。
S211、计算本次查询与若干个话题查询模型的语句相似度。
假设用户查询为Q=(q1,q2,...qm),用户话题模型概率分布为Y=(y1,y2,...yn)。若用户的个性化模型是由多个查询组成,在这种情况下Y的词语数量要比有单个查询组成的用户模型长的多,且每个词语出现的概率也会有差别,所以在计算Q中每个词语与Y中每个词语的相似度即相似度矩阵时,需要考虑这个词语在Y中出现的概率大小,所以利用加权的方法构建相似度矩阵,进而通过降维处理来求得语句相似度。具体步骤如下:
①利用计算叙词表词间相似度的方法构造Q与Y的相似矩阵Mqy,见公式(1)
在公式(1)中,p(yi|θY)为yi在用户个性化模型中的概率值。
②利用求和的方法对相似度矩阵进行降维处理,通过算术平均值求出语句相似度。对矩阵中的每行求和得到sum(p(yj|θY)sim(qi,yj)),将矩阵的维度变为1,随后计算一维矩阵的利用算术平均值,即为Q与Y的语句相似度,见公式(2)。
S212、从若干个话题相似度计算语句相似度的最大值,获取相似度最大值对应的话题模型。在步骤S211中计算出本次查询与若干个话题模型的相似度,通过比较得到相似度的最大值,从而获得相似度最大值对应的话题模型。
S213、判断最大相似度是否大于设置的阈值R1,如果相似度最大值大于R1,则将相似度最大值对应的话题模型作为个性化模型,执行步骤S214,否则执行步骤S216。
S214、如果个性化模型存在,则使用本次用户提交的查询和所述个性化模型更新获得新的个性化模型,其公式如下:
在公式(3)中,φi-1,φi分别为同一话题中第i-1,i次的查询组合,p(w|φi-1)代表用户的个性化模型,而p(w|φi)代表更新后的个性化模型,c(w,Q)为在本次用户提交查询中,词语w出现的次数,|Q|表示用户本次提交查询分词之后包含的词汇数,α为一常量。在本步骤中,i指本次用户提交的查询编号,i-1是上次提交的查询编号。
S215、将所述个性化模型的结果文档集加入到话题模型中,生成本次查询的查询模型。在步骤S214中,得到更新后的个性化模型,通过将所述个性化模型的结果文档集加入到更新后的个性化模型中得到用于用户本次提交的查询的查询模型。详见公式(4)。
在公式(4)中,p(w|θQ)为查询模型,φi分别为同一话题中第i次的查询组合,p(w|φi)代表更新后的个性化模型,C为所述个性化模型的结果文档集,c(w,C)为在个性化模型的结果文档集中,词语w出现的次数,|C|表示结果文档集分词之后包含的词汇数,β为一常量。
S216、构建新的语言模型作为话题模型。
如果个性化模型不存在,那么利用极大似然估计的方法根据当前用户提交的查询文本构建新的话题模型,具体公式见下。
在公式(5)中,Qi为同一话题中,第i次提交的查询,c(w,Qi)为在用户本次提交查询中,w出现的次数,|Qi|表示i次提交的查询之后包含的词汇数。在本步骤中,i指本次用户提交的查询编号。
在基于历史模型的用户个性化检索方法中,用户的每一次有交互的查询(即在返回的结果文档中做了点击)都看作一个历史单元,每一个历史单元的存储均包含两部分。第一部分是用户所提交的查询,第二部分则是用户在返回结果中点击的文档集合。由于历史单元当中只包含用户的单次查询,所以利用传统语句相似度计算语句相似度,并通过历史模型的选取和本次用户提交的查询语句构建本次查询模型。
图2b反映了对应步骤S130,使用历史模型构建用户的查询模型的具体流程。
S221、计算本次查询与每个历史单元的相似度。在得到用户的查询之后,利用传统的语句相似度计算用户提交的查询与每个历史单元的相似度。在本步骤中,假设用户查询为Q=(q1,q2,...qm),历史单元分布为Y=(y1,y2,...yn)。具体地,首先计算Q中每个词语与Y中每个词语在林业叙词表中的语义相似度,得到一个相似度矩阵,记为Mqy,然后通过对相似度矩阵的压缩处理从而得到语句相似度。具体步骤如下:
①利用计算叙词表词间相似度的方法构造Q与Y的相似矩阵Mqy,见公式(6)。
在公式(6)中,sim(qi,yj)表示词语qi、yj的词间相似度,在矩阵中的每一行代表着查询Q中的某个词语与历史单元Y中所有词语的词间相似度。
②利用选取最大值的方法对相似度矩阵进行降维处理,通过算术平均值求出语句相似度。对相似度矩阵的每行取最大值,用max(sim(qi,yi))表示,即在用户模型中找到与查询中每个词相似度最大的词,将矩阵的维度变为1,随后利用算术平均值计算一维矩阵,作为Q与Y的语句相似度,见公式(7)。
S222、是否存在相似度是否大于所设置的阈值R2的历史单元,如果是,执行步骤S223,否则执行步骤S225。
S223、将超过阈值R2的历史单元合并为历史模型。将超过阈值的历史单元R2合并作为历史模型,详见公式(8)。
在公式(8)中,H为所有超过阈值的历史单元集合,λi为用户本次提交的查询与H集合中第i个历史单元查询的相似度。p(w|qi)为w在第i个历史单元查询的概率,这个概率是根据极大似然相似法则计算而得。
S224、使用本次查询更新所述历史模型。对历史模型进行更新详见公式(9)。
在公式(9)中,p(w|θH)代表用户的历史模型,而p(w|φH)代表更新后的历史模型,c(w,Q)为在用户提交的查询中,词语w出现的次数,|Q|表示用户本次提交查询分词之后包含的词汇数,α为一常量。
S225、将历史单元的文档集合加入到更新后的历史模型中生成查询模型。详见公示(10)。
在公式(10)中,p(ω|φH)代表更新了后历史模型,D代表历史模型当中相似度大于R2的历史单元所对应的文档集。c(w,D)为在结果文档集中,词语w出现的次数,|D|表示文档集分词之后包含的词汇数,β为一常量。
S226、构建本次查询的语言模型作为历史模型。如果不存在大于阈值R2的历史单元,那么利用极大似然估计的方法根据用户查询语句构建新的语言模型,详见前述公式(5)。
基于历史模型的方法相较于基于话题模型的方法比较,可以更为全面的把握用户的整个历史,但是缺点在于如果用户历史变得很大,那么运算起来速度无法保证,而且相比与话题模型噪声过大。所以将两个模型的优点相结合,因此,提出了基于混合模型的个性化检索方法。基于混合模型的检索方法是基于话题模型和历史模型的组合,系统会为基于混合型检索方法的用户维护两组模型,先确定是否能采用话题模型,如果不能则采用历史模型。
图2c反映了对应步骤S130,使用混合模型构建用户的查询模型的具体流程。其中大部分的步骤可参见话题模型和历史模型的相应步骤。
S231、计算本次用户提交的查询与若干个话题查询模型的语句相似度。本步骤和步骤S211的过程一致,可参见步骤S211。
S232、计算所述相似度最大值,获取相似度最大值对应的话题模型。本步骤和步骤S212的过程一致,可参见步骤S212。
S233、判断最大相似度是否>R1,如果大于,则执行步骤S234,否则执行步骤S236。
S234、使用该话题模型更新原始话题模型。本步骤和步骤S214的过程一致,可参见步骤S214。
S235、将话题模型的结果文档集加入到话题模型中,生成本次查询的查询模型。本步骤和步骤S215的过程一致,可参见步骤S215。
S236、计算本次查询与每个历史单元的相似度。本步骤和步骤S221的过程一致,可参见步骤S221。
S237、是否存在相似度是否>R2的历史单元,如果存在,执行步骤S238,否则执行步骤S241。
S238、超过阈值R2的历史单元合并作为历史模型。本步骤和步骤S223的过程一致,可参见步骤S223。
S239、使用本次查询更新原历史模型。本步骤和步骤S224的过程一致,可参见步骤S224。
S240、将历史单元的文档集合加入到历史模型中生成本次查询的查询模型。本步骤和步骤S225的过程一致,可参见步骤S225。
S241、构建本次查询的话题模型。本步骤和步骤S216的过程一致,可参见步骤S216。
图3反映了步骤S160的一个优选实施方式的具体流程。
S311、根据叙词表扩展所述规范化检索词获得相关词集合U(q)。在本步骤中,主要是利用叙词表词间关系规范化叙词得到相关词集合。这个集合的相关词数量较大,优选地,可以根据相关词的相似度,对相关词集合进行筛选,只保留部分相关词。
S312、计算所述相关词集合U(q)的每一个相关词w在网页的标题中出现的频率p(w|θt)以及在结果文档集摘要中出现的频率p(w|θp);同时分别计算所述检索词集合Q的每个检索词q在结果文档集出现的次数c(q,C)、在所述检索词集合Q的次数c(q,Q)、结果文档集分词之后包含的词汇数|C|、所述检索词集合Q的词汇数|Q|。
S313、求和计算每个网页的文档相似度和查询查询相似度的相关性,其相关度值越小,说明表征用户需求的查询模型和表征搜索结果的文档模型越接近,则查询效果越好。
其公式如下:
其中,p(q|θQ)计算公式如下:
而p(w|θD)的计算公式如下:
在公式(11)中,Q为根据用户提交的查询分词后得到的检索词集合,q表示所述检索词集合Q的任意检索词,w表示U(q)中的任意相关词,θD为检索获得的结果文档集,sim(q,w)代表U(q)中的相关词的相似度,p(q|θQ)代表检索词集合Q中的检索词的查询相似度,p(w|θD)为相关词的文档相似度;
在公式(12)的选项(1)中,Q为根据用户提交的查询分词后得到的检索词集合,q表示所述检索词集合Q的任意检索词,i表示所述个性化模型对应的话题模型的编号,φi-1,φi分别表示编号为i-1,i个话题模型的查询集合,p(q|φi-1)代表编号为i-1的话题模型,而p(q|φi)代表更新后的话题模型,c(w,Q)为词语w在Q中出现的次数,|Q|表示所述检索词集合包含的词汇数,α为一常量,C为所述个性化模型的结果文档集,c(w,C)为词语w在C中出现的次数,|C|表示C分词之后包含的词汇数,β为一常量;
在公式(12)的选项(2)中,Q为根据用户提交的查询分词后得到的检索词集合,H为所有超过阈值的历史单元集合,i标识历史单元的编号,qi表示第i个历史单元,λi为用户本次提交的查询与H集合中第i个历史单元查询的相似度,p(q|qi)为q在第i个历史单元的概率,这个概率是根据极大似然相似法则得到,c(q,Q)为词语q在Q中出现的次数,|Q|表示检索词集合包含的词汇数,α为一常量,C为所有超过阈值的历史单元的结果文档集的并集,c(q,C)为词语w在C中出现的次数,|C|表示C分词之后包含的词汇数,β为一常量;
在公式(12)的选项(3)中,c(q,Q)为词语w在Q中出现的次数,|Q|表示检索词集合包含的词汇数,|Q|表示用户用户提交的查询分词之后包含的词汇数;
在公式(13)中,θt和θp分别表示结果文档集的标题和摘要集合,p(w|θt)为基于标题的语言模型以及基于摘要的语言模型p(w|θp),λ称为标题摘要比,用来调节标题的影响作用。
S314、将每个网页按照所述相关度比值从小到大的顺序排序,并返回给用户。
图4反映了步骤S311的一个优选实施方式的具体流程。
在步骤S411,根据叙词表对规范化检索词K进行扩展,建立关于所述规范化检索词K的初始查询扩展集合U={D,F,W,Y},其中,D表示K的等同词,F表示K的所有上位/下位词,即叙词表概念树T的所有节点,W表示K的相关词,Y表示F的等同词和相关词。
在步骤S412,找到K的族首词O,以O为根节点建立叙词表概念树T。
在步骤S413,从所述初始查询扩展集合中逐个抽取扩展词,使得规范化检索词K与扩展词组成概念对。
在步骤S414,根据所述概念对规范化检索词K与扩展词的关系类型,采用不同的公式计算规范化检索词与扩展词的相似度。在本发明中,综合使用叙词表概念树中的各个词的词间关系,而相似度计算,也正是基于在叙词表概念树中各个相关词的之间的彼此相似度。
当概念对中扩展词为K的等同词D时,所述相似度为等同相似度SimD(K,D)。等同词为等价关系,即在叙词表中,两个词之间可以相互替换使用。该等同相似度采用以下公式计算:
SimD(C1,C2)=1(14)
当概念对中扩展词为K的上位/下位词F时,所述相似度为属分相似度SimF(K,F),采用以下公式计算:
SimF(C1,C2)=f1×f2×f3(15)
其中,f1为基于最短路径的相似度,f2为基于最近根深度的相似度,f3为基于语义向量的相似度。
当概念对中扩展词为K的相关词W时,所述相似度为相关相似度SimW(K,W),采用以下公式计算:
SimW(C1,C2)=g1×g2(16)
其中,g1为基于相关关联叙词深度的相似度,g2为基于相关关联叙词密度的相似度。
当概念对中扩展词为K的上位/下位词F的等同词/相关词Y时,所述相似度为间接关系相似度,分别采用以下公式计算:
SimY(K,Y)=SimF(K,F)*SimD(F,Y)(17)
或者
SimY(K,Y)=SimF(K,F)*SimW(F,Y)(18)
在上述公式中,基于最短路径的相似度f1的计算公式为:
f1(d)=e-ad(19)
其中,d为在T中由K到F的最短路径长度,α为调节因子。α越大,f1也越大。
基于最近根深度的相似度f2的计算公式为:
f2(h)=1-e-βh(20)
其中,h为R(K,F)所在深度,β为调节因子。β越大,f2也就越大。
基于语义向量的相似度f3基于密度的相似度计算公式为:
其中,分别求出K和F的语义向量
在上述公式中,基于相关关联叙词深度的相似度g1的计算公式为:
其中,K的深度为h,ε为调节因子。ε越大,g1也越大。
基于相关关联叙词密度的相似度g2的计算公式为:
g2(e)=1-e-γe(23)
其中,e为以K为根节点的直接子节点数,γ为调节因子。γ越大,g2也就越大。
在步骤S415,S416中,设置阈值Q,判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于Q:若大于,则将该词加入到查询扩展集合N中;若小于,则跳过,即不加入到查询扩展集合N中。
每一次在计算叙词的相关词集合时,均需要构建一次叙词表概念树。由于林业叙词表存储在数据库中,每一次构建概念树时均需要多次查询数据库,导致构建叙词表概念树是效率过低,每次构建需要花费很长的时间。
在一个优选的实施方式中,利用叙词表中族首词的特性,对每一个叙词都将其族首词表示出来作为一个字段存放在数据库中,在读取时仅需要一次性读取,然后通过构建键值对构建叙词概念树。具体算法步骤如下:
步骤1、从数据库中一次性读取所有的词首词O;
步骤2、从数据库中读取所有相关叙词结点。找到所要计算相似度的叙词的族首词O,查询数库中所有族首词为O的条目,将其转化为键值对的形式存储,其中键为叙词的上位词,值为叙词节点的集合,集合中的叙词节点所对应叙词的上位词为相应的键值,每个叙词的相关词和等同词均存储在叙词节点中;
步骤3、根据根节点的名字在键值对找到该根节点的所有子节点,将子节点的双亲节点引用指向根节点;
步骤4、从根节点开始,利用深度遍历的方法,不断执行第二步,直到当前节点的名字在键值对中无法找到为止,至此,便完成了一棵叙词表概念树的构建。
利用本算法,可以大大缩短叙词表概念树的构建时间,提高整个系统的执行效率。
进一步地,图5示出了根据本发明的个性化信息检索装置的模块图。该信息检索装置包括:分词单元50、叙词规范化单元51、用户模型构建单元52、查询扩展单元53、网页抓取单元54和网页排序单元55。
分词单元50,用于接收用户提交的查询,根据分词词典对用户提交的查询进行分词处理获得检索词集合Q。
叙词规范化单元51,用于对于检索词集合Q中的每个词,根据叙词表进行叙词规范化获得规范化叙词。
用户模型构建单元52,用于计算检索词集合Q与若干个用户模型的语句相似度,选择相似度大于所设置的阈值R的用户模型作为个性化模型,使用个性化模型更新所述用户模型,通过将所述个性化模型的结果文档集加入到用户提交的查询得到查询模型p(w|θQ)。用户模型包括话题模型、历史模型或混合模型,其中混合模型兼具话题模型和历史模型的特点,可以作为一个优选的实施例。
查询扩展单元53,用于如果所述查询模型p(w|θQ)中的某个词语出现的概率大于所设置的阈值M且在用户提交的查询中没有出现,则将所述词语加入到Q中,构成新的检索词集合Q1。
网页抓取单元54,用于利用通用搜索引擎对Q1中的检索词进行检索,对前若干个结果的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词。
网页排序单元55,用于根据叙词表扩展所述规范化检索词获得相关词集合U(q);对于所述相关词集合U(q)的每个相关词,计算所述相关词的相似度,根据所述相似度和每个网页的要素信息计算文档相似度;计算所述检索词集合Q中每个检索词和所述查询模型的查询相似度,根据所述文档相似度和查询相似度,计算每个网页的文档相似度和查询查询相似度的相关性。将每个网页按照所述相关度比值从小到大的顺序排序,并返回给用户。
应当理解,本发明提供的个性化信息检索装置中记载的单元或者模块与参考图1中描述方法的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置以及其包含的单元,在此不再赘述。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或者框图的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或者代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在一些作为替换的实现中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连接地表示的方框实际上可以并行的执行,它们有时可以按相反的顺序执行,这依所涉及的功能而定。
实验1:搜索结果比对
以15句查询语句作为实验素材,分别利用百度通用搜索引擎以及前面提到的三种模型分别对查询语句进行查询,测量每次返回结果前十项结果的PN以及bpref。经过试验,比对结果见图6,图7。
由图6以及7可以看出,本文所提出的三种模型的检索性能均好于百度搜索引擎,这证明我们提出的个性化检索方法的有效性。而在三种模型当中,混合模型的效果要比其余两种模型好一些,为了能够更为直观的了解这几种方法的不同,计算15次查询的平均值为表1。
表1不同方法的性能对比
通过表1可以看出,在三种模型中,混合模型的效果是最好的,其次是历史模型,最后则是话题模型。所以,选择混合模型作为基于统计模型的个性化检索方法优于其他两种用户模型。
本发明提供一种个性化检索方法,包括:对用户提交的查询进行分词得到检索词集合Q;根据叙词表进行叙词规范化获得规范化叙词;通过比较用户提交的查询和用户模型的相关性,构建用于本次查询的查询模型p(w|θQ);利用查询模型p(w|θQ)扩展检索词集合Q得到新的检索词集合Q1;利用通用搜索引擎对Q1中的检索词进行检索,获得网页中的要素信息;计算每个网页的查询和文档相关度比值,根据所述相关度比值进行排序,并返回给用户,相关度比值越小表示用户个性化需求和检索结果越接近。本发明提供的个性化检索方法和装置记录和分析用户的检索历史,并应用于当前提交的检索,提高了个性化检索效果。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。
Claims (10)
1.一种个性化信息检索方法,包括如下步骤:
分词:根据分词词典对用户提交的查询进行分词处理获得检索词集合Q;
叙词规范化:对于所述检索词集合Q中的每个词,根据叙词表进行叙词规范化获得规范化叙词;
用户模型构建:计算所述检索词集合Q与若干个用户模型的语句相似度,根据预设的阈值选择用户模型作为个性化模型,使用所述用户提交的查询更新所述个性化模型,通过将所述个性化模型的结果文档集加入到更新后的所述个性化模型中得到查询模型;
检索词扩展:如果所述查询模型中的某个词语出现的概率大于所设置的阈值M且在用户提交的查询中没有出现,则将所述词语加入到Q中,构成新的检索词集合Q1;
网页抓取:对采用检索词集合Q1检索获得的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词;以及
网页排序:将每个网页按照相关度比值从小到大的顺序排序,并返回给用户。
2.根据权利要求1所述的个性化信息检索方法,用户模型构建步骤包括:
话题模型语句相似度计算:计算所述检索词集合Q与若干个话题查询模型的相似度;
话题模型比较:设定阈值R1,计算所述话题模型的最大相似度,如果所述最大相似度大于R1,那么选择所述最大相似度对应的话题模型作为个性化模型;如果所述最大相似度小于R1,则执行话题模型获取步骤;
话题模型更新:如果有对应的所述个性化模型,则利用以下公式对所述个性化模型进行更新,其公式为:
其中Q表示所述检索词集合,w表示Q中的任意检索词,i表示话题模型的编号,φi-1,φi分别同一话题中表示编号为i-1,i次的查询集合,p(w|φi-1)代表编号i-1的话题模型,而p(w|φi)代表编号为i的话题模型,c(w,Q)为在所述检索词集合中,词语w出现的次数,|Q|表示所述检索词集合包含的词汇数,α为一常量;
话题模型获取:如果有对应的所述个性化模型,利用将所述个性化模型的结果文档集加入到更新后的所述个性化模型得到所述查询模型;如果没有对应的所述个性化模型,则利用用户提交的查询构建新的语言模型作为所述查询模型。
3.根据权利要求1所述的个性化信息检索方法,用户模型构建步骤包括:
历史模型相似度计算:计算检索词集合Q与若干个历史单元的相似度;
历史模型比较:设定阈值R2,将超过阈值R2的历史单元合并作为历史模型,并将所述历史模型作为个性化模型;如果没有任何一个历史单元的相似度大于R2,则执行历史模型获取步骤;
历史模型更新:如果有对应的所述个性化模型,则利用以下公式对所述个性化模型进行更新,其公式为:
其中,Q表示所述检索词集合,w表示Q中的任意检索词,θH、φH表示更新前和更新后的历史查询集合,p(w|θH)代表更新前的历史模型,而p(w|φH)代表更新后的历史模型,c(w,Q)为在所述检索词集合中,词语w出现的次数,|Q|表示所述检索词集合包含的词汇数,α为一常量;
历史模型获取:如果有对应的所述个性化模型,通过所述个性化模型的结果文档集加入到更新后的所述个性化模型中得到所述查询模型,如果没有,则利用用户提交的查询构建新的语言模型作为所述查询模型。
4.根据权利要求1所述的个性化信息检索方法,所述用户模型构建包括:
混合模型语句相似度计算:计算所述检索词集合Q与若干个话题模型的相似度以及与若干个历史单元的相似度;
混合模型比较:设定阈值R1和R2,计算所述话题模型的最大相似度,如果所述最大相似度超过R1,那么选择所述最大相似度对应的话题模型作为个性化模型;如果小于R1,将超过阈值R2的历史单元合并作为历史模型,并将所述历史模型作为个性化模型;否则,执行混合模型获取步骤;
混合模型更新:如果选择话题模型作为个性化模型,则按照话题模型更新公式更新所述个性化模型,如果选择历史模型为个性化模型,则按照历史模型更新公式更新所述个性化模型;
混合模型获取:如果选择话题模型为个性化模型,则通过将所述话题模型的结果文档集加入到更新后的所述话题模型得到所述查询模型;如果选择历史模型为所述个性化模型,通过所述历史模型的结果文档集加入到更新后的所述历史模型中得到所述查询模型,否则,利用用户提交的查询构建新的语言模型作为所述查询模型。
5.根据权利要求1所述的个性化信息检索方法,所述网页排序包括:
相关词集合创建:根据叙词表扩展所述规范化检索词获得相关词集合U(q);
统计计算:分别统计所述相关词集合U(q)的每一个相关词在网页的标题中出现的次数以及在结果文档集摘要中出现的次数;所述检索词集合Q的每个检索词在结果文档集出现的次数、在所述检索词集合Q的次数以及结果文档集分词之后包含的词汇数、所述检索词集合Q的词汇数;
相关度比值计算:根据相关词相似度、文档相似度和查询相似度,计算每个网页的所述文档相似度和所述查询相似度的相关度比值;以及
结果文档集排序:将结果文档集根据所述相关度比值按照从小到大的排序,并返回给用户。
6.根据权利要求5所述的个性化信息检索方法,所述相关度比值计算包括:
根据以下公式求和计算结果文档集的每个文档的相关度比值,其公式如下:
其中,p(q|θQ)计算公式如下:
而p(w|θD)的计算公式如下:
在公式(1)中,Q为根据用户提交的查询分词后得到的检索词集合,q表示所述检索词集合Q的任意检索词,w表示U(q)中的任意相关词,θD为检索获得的结果文档集,sim(q,w)代表q和w的相似度,p(q|θQ)代表检索词q的查询相似度,p(w|θD)为相关词w的文档相似度;
在公式(2)中,Q为根据用户提交的查询分词后得到的检索词集合,q表示所述检索词集合Q的任意检索词,i表示所述个性化模型对应的话题模型的编号,φi-1,φi分别表示编号为i-1,i个话题模型的查询集合,p(q|φi-1)代表编号为i-1的话题模型,而p(q|φi)代表更新后的话题模型,c(w,Q)为词语w在Q中出现的次数,|Q|表示所述检索词集合包含的词汇数,α为一常量,C为所述个性化模型的结果文档集,c(w,C)为词语w在C中出现的次数,|C|表示C分词之后包含的词汇数,β为一常量;
在公式(3)中,Q为根据用户提交的查询分词后得到的检索词集合,H为所有超过阈值的历史单元集合,i标识历史单元的编号,qi表示第i个历史单元,λi为用户本次提交的查询与H集合中第i个历史单元查询的相似度,p(q|qi)为q在第i个历史单元的概率,这个概率是根据极大似然相似法则得到,c(q,Q)为词语q在Q中出现的次数,|Q|表示检索词集合包含的词汇数,α为一常量,C为所有超过阈值的历史单元的结果文档集的并集,c(q,C)为词语w在C中出现的次数,|C|表示C分词之后包含的词汇数,β为一常量;
在公式(4)中,c(q,Q)为词语w在Q中出现的次数,|Q|表示检索词集合包含的词汇数;
在公式(5)中,θt和θp分别表示结果文档集的标题和摘要集合,p(w|θt)为基于标题的语言模型以及基于摘要的语言模型p(w|θp),λ称为标题摘要比,用来调节标题的影响作用。
7.根据权利要求5所述的个性化信息检索方法,所述相关词集合创建包括:
建立初始查询扩展集合:根据叙词表对规范化检索词K进行扩展,得到关于所述规范化检索词K的初始查询扩展集合U={D,F,W,Y},其中,D表示K的等同词,F表示K的所有上位/下位词,即叙词表概念树T的所有节点,W表示K的相关词,Y表示F的等同词和相关词;
建立叙词表查询概念树:找到所述规范化检索K的族首词O,以O为根节点建立叙词表概念树T;
概念对组成:从所述初始查询扩展集合中逐个抽取扩展词,使得规范化检索词K与扩展词组成概念对;
相似度计算:根据所述概念对中规范化检索词K与扩展词的关系类型,采用不同的公式计算规范化检索词K与扩展词的相似度;
阈值判断:设置阈值,判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于所述阈值:若大于,则将该词加入到查询扩展集合N中;若小于,则跳过,即不加入到查询扩展集合N中。
8.根据权利要求7所述的个性化信息检索方法,所述建立叙词表查询概念树包括:
族首词读取:从数据库中一次性读出所有族首词为O;
键值对构建:从数据库中读取所有族首词为O所有相关叙词结点,查询数据库中所有族首词为O的条目,将其转化为键值对的形式存储,其中键为叙词的上位词,值为叙词节点的集合,集合中的叙词节点所对应叙词的上位词为相应的键值,每个叙词的相关词和等同词均存储在叙词节点中;
子节点重定向:根据根节点的名字在键值对找到该根节点的所有子节点,将子节点的双亲节点引用指向根节点;
深度遍历:从根节点开始,利用深度遍历的方法,不断执行子节点重定向步骤,直到当前节点的名字在键值对中无法找到为止。
9.一种个性化信息检索装置,包括:
分词单元,用于接收用户提交的查询,根据分词词典对用户提交的查询进行分词处理获得检索词集合Q;
叙词规范化单元,用于对于所述检索词集合Q中的每个词,根据叙词表进行叙词规范化获得规范化叙词;
用户模型构建单元,用于计算所述检索词集合Q与若干个用户模型的语句相似度,根据所设置的阈值R选择用户模型作为个性化模型,使用用户提交的查询更新所述个性化模型,通过将所述个性化模型的结果文档集加入到更新后的所述个性化模型中得到查询模型;
检索词扩展单元,用于如果所述查询模型中的某个词语出现的概率大于所设置的阈值M且在用户提交的查询中没有出现,则将所述词语加入到Q中,构成新的检索词集合Q1;
网页抓取单元,用于利用通用搜索引擎对Q1中的检索词进行检索,对检索获得的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词;
网页排序单元,用于将每个网页按照所述相关度比值从小到大的顺序排序,并返回给用户。
10.根据权利要求9所述的个性化信息检索装置,其中,所述用户模型包括话题模型、历史模型或混合模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510425081.4A CN105045875B (zh) | 2015-07-17 | 2015-07-17 | 个性化信息检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510425081.4A CN105045875B (zh) | 2015-07-17 | 2015-07-17 | 个性化信息检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105045875A true CN105045875A (zh) | 2015-11-11 |
CN105045875B CN105045875B (zh) | 2018-06-12 |
Family
ID=54452422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510425081.4A Expired - Fee Related CN105045875B (zh) | 2015-07-17 | 2015-07-17 | 个性化信息检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105045875B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106066875A (zh) * | 2016-05-30 | 2016-11-02 | 深圳市华傲数据技术有限公司 | 一种基于深网爬虫的高效数据采集方法及系统 |
CN106502980A (zh) * | 2016-10-09 | 2017-03-15 | 武汉斗鱼网络科技有限公司 | 一种基于文本词素切分的检索方法及系统 |
CN106503457A (zh) * | 2016-10-26 | 2017-03-15 | 清华大学 | 基于转化医学分析平台的临床数据集成技术数据导入方法 |
CN107168943A (zh) * | 2017-04-07 | 2017-09-15 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
CN108733757A (zh) * | 2018-04-11 | 2018-11-02 | 达而观信息科技(上海)有限公司 | 文本搜索方法及系统 |
CN108846011A (zh) * | 2018-05-04 | 2018-11-20 | 中国信息安全研究院有限公司 | 一种检索词调整方法 |
CN110222147A (zh) * | 2019-05-15 | 2019-09-10 | 北京百度网讯科技有限公司 | 标签扩充方法、装置、计算机设备及存储介质 |
CN110674429A (zh) * | 2018-07-03 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 用于信息检索的方法、装置、设备和计算机可读存储介质 |
CN110750240A (zh) * | 2019-08-28 | 2020-02-04 | 南京航空航天大学 | 一种基于序列到序列模型的代码片段推荐方法 |
WO2020107835A1 (zh) * | 2018-11-26 | 2020-06-04 | 平安科技(深圳)有限公司 | 一种样本数据处理方法及装置 |
CN111552767A (zh) * | 2019-02-11 | 2020-08-18 | 阿里巴巴集团控股有限公司 | 搜索方法、搜索装置以及计算机设备 |
CN111611489A (zh) * | 2020-05-22 | 2020-09-01 | 北京字节跳动网络技术有限公司 | 一种搜索处理方法、装置、电子设备及存储介质 |
CN111709239A (zh) * | 2020-06-04 | 2020-09-25 | 中国地质大学(北京) | 一种基于专家逻辑结构树的地学数据发现方法 |
CN112765492A (zh) * | 2020-12-31 | 2021-05-07 | 浙江省方大标准信息有限公司 | 一种检验检测机构排序方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758248A (zh) * | 2004-10-05 | 2006-04-12 | 微软公司 | 用于提供个性化搜索和信息访问的系统、方法和接口 |
CN102779193A (zh) * | 2012-07-16 | 2012-11-14 | 哈尔滨工业大学 | 自适应个性化信息检索系统及方法 |
US8620915B1 (en) * | 2007-03-13 | 2013-12-31 | Google Inc. | Systems and methods for promoting personalized search results based on personal information |
CN103593425A (zh) * | 2013-11-08 | 2014-02-19 | 南方电网科学研究院有限责任公司 | 基于偏好的智能检索方法及系统 |
CN103778262A (zh) * | 2014-03-06 | 2014-05-07 | 北京林业大学 | 基于叙词表的信息检索方法及装置 |
-
2015
- 2015-07-17 CN CN201510425081.4A patent/CN105045875B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758248A (zh) * | 2004-10-05 | 2006-04-12 | 微软公司 | 用于提供个性化搜索和信息访问的系统、方法和接口 |
US8620915B1 (en) * | 2007-03-13 | 2013-12-31 | Google Inc. | Systems and methods for promoting personalized search results based on personal information |
CN102779193A (zh) * | 2012-07-16 | 2012-11-14 | 哈尔滨工业大学 | 自适应个性化信息检索系统及方法 |
CN103593425A (zh) * | 2013-11-08 | 2014-02-19 | 南方电网科学研究院有限责任公司 | 基于偏好的智能检索方法及系统 |
CN103778262A (zh) * | 2014-03-06 | 2014-05-07 | 北京林业大学 | 基于叙词表的信息检索方法及装置 |
Non-Patent Citations (1)
Title |
---|
韩其琛: "基于叙词表的林业信息语义检索模型", 《计算机科学与探索》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106066875B (zh) * | 2016-05-30 | 2019-08-16 | 深圳市华傲数据技术有限公司 | 一种基于深网爬虫的高效数据采集方法及系统 |
CN106066875A (zh) * | 2016-05-30 | 2016-11-02 | 深圳市华傲数据技术有限公司 | 一种基于深网爬虫的高效数据采集方法及系统 |
CN106502980A (zh) * | 2016-10-09 | 2017-03-15 | 武汉斗鱼网络科技有限公司 | 一种基于文本词素切分的检索方法及系统 |
CN106502980B (zh) * | 2016-10-09 | 2019-05-17 | 武汉斗鱼网络科技有限公司 | 一种基于文本词素切分的检索方法及系统 |
CN106503457A (zh) * | 2016-10-26 | 2017-03-15 | 清华大学 | 基于转化医学分析平台的临床数据集成技术数据导入方法 |
CN106503457B (zh) * | 2016-10-26 | 2018-12-11 | 清华大学 | 基于转化医学分析平台的临床数据集成技术数据导入方法 |
US11205046B2 (en) | 2017-04-07 | 2021-12-21 | Ping An Technology (Shenzhen) Co., Ltd. | Topic monitoring for early warning with extended keyword similarity |
CN107168943A (zh) * | 2017-04-07 | 2017-09-15 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
CN108733757A (zh) * | 2018-04-11 | 2018-11-02 | 达而观信息科技(上海)有限公司 | 文本搜索方法及系统 |
CN108733757B (zh) * | 2018-04-11 | 2022-04-19 | 达而观信息科技(上海)有限公司 | 文本搜索方法及系统 |
CN108846011A (zh) * | 2018-05-04 | 2018-11-20 | 中国信息安全研究院有限公司 | 一种检索词调整方法 |
CN110674429A (zh) * | 2018-07-03 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 用于信息检索的方法、装置、设备和计算机可读存储介质 |
CN110674429B (zh) * | 2018-07-03 | 2022-05-31 | 百度在线网络技术(北京)有限公司 | 用于信息检索的方法、装置、设备和计算机可读存储介质 |
WO2020107835A1 (zh) * | 2018-11-26 | 2020-06-04 | 平安科技(深圳)有限公司 | 一种样本数据处理方法及装置 |
CN111552767A (zh) * | 2019-02-11 | 2020-08-18 | 阿里巴巴集团控股有限公司 | 搜索方法、搜索装置以及计算机设备 |
CN110222147A (zh) * | 2019-05-15 | 2019-09-10 | 北京百度网讯科技有限公司 | 标签扩充方法、装置、计算机设备及存储介质 |
CN110750240A (zh) * | 2019-08-28 | 2020-02-04 | 南京航空航天大学 | 一种基于序列到序列模型的代码片段推荐方法 |
CN111611489A (zh) * | 2020-05-22 | 2020-09-01 | 北京字节跳动网络技术有限公司 | 一种搜索处理方法、装置、电子设备及存储介质 |
CN111709239A (zh) * | 2020-06-04 | 2020-09-25 | 中国地质大学(北京) | 一种基于专家逻辑结构树的地学数据发现方法 |
CN112765492A (zh) * | 2020-12-31 | 2021-05-07 | 浙江省方大标准信息有限公司 | 一种检验检测机构排序方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105045875B (zh) | 2018-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105045875A (zh) | 个性化信息检索方法及装置 | |
Wei et al. | A survey of faceted search | |
US6965900B2 (en) | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents | |
US8321424B2 (en) | Bipartite graph reinforcement modeling to annotate web images | |
CN103473283B (zh) | 一种文本案例匹配方法 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
Sarawagi et al. | Open-domain quantity queries on web tables: annotation, response, and consensus models | |
US20060095430A1 (en) | Web page ranking with hierarchical considerations | |
US20040034633A1 (en) | Data search system and method using mutual subsethood measures | |
US20040024756A1 (en) | Search engine for non-textual data | |
JP2010501096A (ja) | ラッパー生成およびテンプレート検出の協同最適化 | |
US20040024755A1 (en) | System and method for indexing non-textual data | |
CN101364239A (zh) | 一种分类目录自动构建方法及相关系统 | |
CN102184262A (zh) | 基于web的文本分类挖掘系统及方法 | |
US20100211533A1 (en) | Extracting structured data from web forums | |
CN104268148A (zh) | 一种基于时间串的论坛页面信息自动抽取方法及系统 | |
US11487795B2 (en) | Template-based automatic software bug question and answer method | |
US11727058B2 (en) | Unsupervised automatic taxonomy graph construction using search queries | |
US7333997B2 (en) | Knowledge discovery method with utility functions and feedback loops | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN112883030A (zh) | 数据收集方法、装置、计算机设备和存储介质 | |
EP4413719A1 (en) | Generation and use of content briefs for network content authoring | |
Zhang et al. | Semantic table retrieval using keyword and table queries | |
Kovacevic et al. | Providing answers to questions from automatically collected web pages for intelligent decision making in the construction sector | |
CN113268683B (zh) | 一种基于多维度的学术文献推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Dongmei Inventor after: Han Qichen Inventor after: Tan Wen Inventor after: Zhang Qi Inventor before: Li Dongmei Inventor before: Qin Yan Inventor before: Huang Ankun |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180612 Termination date: 20190717 |