CN103778262B - 基于叙词表的信息检索方法及装置 - Google Patents
基于叙词表的信息检索方法及装置 Download PDFInfo
- Publication number
- CN103778262B CN103778262B CN201410080938.9A CN201410080938A CN103778262B CN 103778262 B CN103778262 B CN 103778262B CN 201410080938 A CN201410080938 A CN 201410080938A CN 103778262 B CN103778262 B CN 103778262B
- Authority
- CN
- China
- Prior art keywords
- similarity
- term
- thesaurus
- word
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Abstract
一种基于叙词表的信息检索方法和装置,所述方法包括根据叙词表,对用户输入的检索词进行规范化,获得规范化检索词K;利用规范化检索词K,通过通用搜索引擎对规范化检索词K进行检索,对结果的网址进行分析,提取要素信息;利用相似度计算的方法求出叙词表中K的相关词的相似度,将相似度大于阈值的相关词加入查询扩展集合N;将与K的相似度作为对应相关词的权值,利用相关词对每个网页中的要素信息进行加权求和计算,得到网页的权值,将网页按照权值由从大到小排序。本发明利用叙词表的词间关系,提出语义相似度计算方法,实现对叙词表词间关系的量化分析,并将计算相似度的叙词用于检索后结果的加权排序。本发明信息检索方法和装置显著提高了查询效果。
Description
技术领域
本申请涉及一种信息检索方法和装置,具体地,涉及一种利用叙词表的相似度计算得到查询扩展词集从而对检索结果进行相似度加权排序的信息检索方法和装置。
背景技术
随着Internet的迅速发展,网络上的信息已经变得非常庞大,面对海量级的数据,如何进行高效、准确的信息检索是值得研究的课题。现有技术中,搜索引擎凭借其符合大众信息检索习惯的优势成为了目前获取网络信息的主要工具。但是,由于目前的搜索引擎采用的都是基于关键词的字面匹配模式,即仅以孤立的关键词对信息内容进行标引和检索,并不能表达出词语的语义内涵,更不能胜任获取文本中潜在的丰富的语义知识。因此,人们依然很难从海量信息中获取到自己最需要的信息,在多样化的网络信息环境下,现有搜索技术存在着明显的不足之处。
为解决以上问题,提出了一些新颖的网络信息组织和检索理念。例如,概念检索和语义检索等。本体是实现语义检索的一种较为有效的工具,但本体的构建和维护需要大量的工作。
目前很多行业领域都有自己较成熟的叙词表。叙词表是一个相对完善并且发展成熟的概念知识体系,自其从20世纪50年代诞生以来,经过不断发展和完善,已成为主题法中重要的信息组织工具,并曾在传统文献标引和检索中发挥过重要作用。与普通的网络信息扩展检索方法相比,基于叙词表词间关系的信息检索方法更注重利用叙词表这一语义逻辑提高检索结果的检准率和检全率。基于叙词表的信息检索方法在某些领域已有相关研究,文献1(Chen C,Zhu Q,Lin L,et al.Web media semantic concept retrieval via tagremoval and model fusion[J].ACM Transactions on Intelligent Systems andTechnology(TIST),2013,4(4):61)利用美国国立医学图书馆(The National Library ofMedicine)设计的元叙词表(Metathesaurus)对用户所输入的检索信息进行语法分析,并根据分析结果进行查询扩展。但是该文献没有对叙词之间的关系类型进行量化分析。文献2(XiongXia.Domain information retrieval based on term relationships ofthesaurus.Beijing:Chinese Academy of Agricultural Sciences Dissertation,2011)给出一种基于农业叙词表的信息检索方法,但该方法在查询扩展时只考虑了与核心检索词直接相关的单级扩展,没有考虑其他叙词的影响。
因此,如何能够将叙词表利用到信息检索中,并综合考虑叙词间多种关系的相似度,进行检索结果的加权分析,成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于基于叙词表的信息检索方法和装置,使得能够利用叙词表的相似度计算得到查询扩展词集从而对检索结果进行相似度加权排序。
为达到此目的,本发明采用了如下方案:
一种基于叙词表的信息检索方法,包括如下步骤:
叙词规范化步骤:根据叙词表,对用户输入的检索词进行规范化,获得规范化检索词K;
网页抓取步骤:利用通用搜索引擎以规范化检索词K为检索词进行检索,对前若干个结果的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词;
查询扩展集合建立步骤:利用相似度计算的方法求出叙词表中K的相关词的相似度,将相似度大于所设置的阈值的相关词加入所述查询扩展集合N;
加权排序步骤:将与K的相似度作为所述查询扩展集合N中相关词的权值,利用所述相关词对每个网页中的所述要素信息进行加权求和计算,得到每个网页的权值,将所述网页按照所述权值由从大到小排序,并返回给用户。
优选地,所述加权排序步骤包括:
频率计算步骤,计算所述查询扩展集合中的每一个相关词在网页的标题中出现的频率X以及在网页正文中出现的频率P;
权值计算步骤,求和计算每个网页的权值,其公式为:
其中,TWn为第n个网页的总权值,m为所述查询扩展集合N中相关词的数目,Wi为N中第i个扩展词与规范化检索词K的相似度,Xi和Pi分别为所述扩展词在第i个网页的标题和正文中出现的频率,ω为标题正文比,用于调节标题对于最终结果的重要性,ω越大,标题对该网页权值的影响越大;
排序步骤,将所述网页按照所述权值由从大到小排序,并返回给用户。
进一步优选地,通过实验来选择合适的阈值Q及加权排序中的标题正文比ω。阈值Q取值为0.2-0.8,标题正文比ω取值为1-6。
优选地,所述查询扩展集合建立步骤包括:
建立初始查询扩展集合步骤:根据叙词表对规范化检索词K进行扩展,得到关于所述规范化检索词K的初始查询扩展集合U={D,F,W,Y},其中,D表示K的等同词,F表示K的所有上位/下位词,即叙词表概念树T的所有节点,W表示K的相关词,Y表示F的等同词和相关词;
建立叙词表查询概念树步骤:找到所述规范化检索K的族首词O,以O为根节点建立叙词表概念树T;
概念对组成步骤:从所述初始查询扩展集合中逐个抽取扩展词,使得规范化检索词K与扩展词组成概念对;
相似度计算步骤:根据所述概念对中规范化检索词K与扩展词的关系类型,采用不同的公式计算规范化检索词K与扩展词的相似度;
阈值判断步骤:设置阈值Q,判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于Q:若大于,则将该词加入到查询扩展集合N中;若小于,则跳过,即不加入到查询扩展集合N中。
进一步优选地,所述相似度计算步骤包括:
当概念对中扩展词为K的等同词D时,所述相似度为等同相似度SimD(K,D),采用以下公式计算:
SimD(K,D)=1。
当概念对中扩展词为K的上位/下位词F时,所述相似度为属分相似度SimF(K,F),采用以下公式计算:
SimF(K,F)=f1×f2×f3
其中,f1为基于最短路径的相似度,f2为基于最近根深度的相似度,f3为基于密度的相似度,
基于最短路径的相似度f1的计算公式为:
f1(d)=e-αd
其中,d为在T中由K到F的最短路径长度,α为调节因子,α越大,f1也越大。
基于最近根深度的相似度f2的计算公式为:
f2(h)=1-e-βh
其中,h为R(K,F)所在深度,β为调节因子,β越大,f2也就越大。
基于密度的相似度f3的计算公式为:
其中,分别为K和F的密度向量。
当概念对中扩展词为K的相关词W时,所述相似度为相关相似度SimW(K,W),采用以下公式计算:
SimW(K,W)=g1×g2
其中,g1为基于相关关联叙词深度的相似度,g2为基于相关关联叙词密度的相似度,
基于相关关联叙词深度的相似度g1的计算公式为:
其中,K的深度为h,ε为调节因子,ε越大,g1也越大。
基于相关关联叙词密度的相似度g2的计算公式为:
g2(e)=1-e-γe
其中,e为以K为根节点的直接子节点数,γ为调节因子,γ越大,g2也就越大。
当概念对中扩展词为K的上位/下位词F的等同词/相关词Y时,所述相似度为间接关系相似度,分别采用以下公式计算:
SimY(K,Y)=SimF(K,F)×SimD(F,Y)或者
SimY(K,Y)=SimF(K,F)×SimW(F,Y)。
本发明还公开了一种基于叙词表的信息检索装置,包括:
叙词规范化单元:根据叙词表,对用户输入的检索词进行规范化,获得规范化检索词K;
网页抓取单元:利用所述叙词规范化单元得到的规范化检索词K,利用通用搜索引擎以规范化检索词K为检索词进行检索,对前若干个结果的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词;
查询扩展集合建立单元:利用相似度计算的方法求出叙词表中K的相关词的相似度,将相似度大于所设置的阈值的相关词加入所述查询扩展集合N;
加权排序单元:将与K的相似度作为所述查询扩展集合N中相关词的权值,利用所述相关词对每个网页中的所述要素信息进行加权求和计算,得到每个网页的权值,将所述网页按照所述权值由从大到小排序,并返回给用户。
本发明针对基于关键词的传统信息检索方法不能充分表达语义信息的缺陷,利用叙词表的词间关系,提出了一种计算叙词表中词间语义相似度的方法,实现对叙词表词间关系的量化分析,并将计算了相似度的相关词用于检索后结果的加权排序。本发明充分利用叙词表的完整的逻辑体系,提供更多用于扩展查询的相关词,更为全面的利用叙词表的词间关系。通过实验证明,本发明所公开的方法显著提高了查询效果。
附图说明
图1是根据本发明的基于叙词表的信息检索方法的流程图;
图2是根据本发明的具体实施例的进行相似度计算以建立查询扩展集合的流程图;
图3是根据本发明的另一具体实施例的阈值权值的测定示意图;
图4是根据本发明的另一具体实施例的标题正文比的权值测定第一示意图;
图5是根据本发明的另一具体实施例的标题正文比的权值测定第二示意图;
图6是本发明与现有技术的搜索结果相关性对比图;
图7是本发明与现有技术的搜索结果搜索长度对比图;
图8是根据本发明的基于叙词表的信息检索装置的模块图。
具体实施方式
下面结合附图和实施例对本发明作进一步地详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在申请中使用的与叙词表概念树中相关的术语定义如下:
叙词表概念树:在叙词表中,以族首词O为根节点,由族首词为O的所有叙词的上位叙词和下位叙词构成的树状结构T称为叙词表概念树,T中的节点C称为叙词节点。在T中,C所具有的兄弟节点数记为n(C);根节点O的深度记为1;树中路径上分支数目为1的两个节点间的距离记为1。
最短路径长度:在叙词表概念树T中,两个叙词节点之间分支数目最少的树中路径称为两个节点的最短路径,最短路径所拥有的分支数目称为最短路径长度。
最近根节点:在叙词表概念树T中,如果节点R是A和B共同的祖先节点,并且是符合此条件的所有节点中距离T的根结点最远的一个,则称R为A和B的最近根节点,记为R(A,B)或R。
相关关联叙词:若C在叙词表概念树T中,且至少存在一个词W与C所对应的叙词为相关关系,则称C所对应的叙词为W的相关关联叙词。
祖先叙词节点:在叙词表概念树T中,C的所有祖先节点构成的集合称为C的祖先叙词节点A(C)。
孩子叙词节点:在叙词表概念树T中,C的所有孩子节点构成的集合称为C的孩子叙词节点L(C)。
关联叙词节点:在叙词表概念树T中,由A(C)、L(C)和C本身组成的集合称为C的关联叙词节点。
关联叙词节点密度:在叙词表概念树T中,根节点的关联叙词节点密度为1,子节点的关联叙词节点密度为其兄弟节点的个数加1。因此,若设C的关联叙词节点密度为Den(C),则Den(O)=1,Den(C)=n(C)+1。
基于叙词的密度向量:在一个深度为h的T中,C表示成向量该向量称为基于叙词的密度向量。其中
Ci为深度为i的叙词节点中距离C最近的叙词节点集合。δ为调节因子,用于调节密度向量对于叙词相似度的影响。δ越大,叙词节点的孩子节点对于叙词相似度的影响越大;δ越小,叙词节点的兄弟节点对于叙词相似度的影响越大。
图1示出了根据本发明的基于叙词表的信息检索方法的流程图。
在步骤S110,根据叙词表,对用户输入的检索词进行规范化,获得规范化检索词K。
在该步骤中,如果规范化成功,则得到规范化检索词K。如果规范化失败,则结束本方法,只采用常规的检索方法进行检索和排序。
所述规范化成功包括以下三种情况中的任意一种:a.所述检索词为叙词表中的叙词,则视为已经规范化,可直接使用;b.所述检索词为叙词表中的非叙词,则通过叙词表将所述检索词规范为相应的叙词;c.所述检索词能够与叙词表中的叙词部分匹配,则将可匹配的所有叙词返回,供用户从中选择新的检索词作为规范化检索词。如果规范化成功,则在后续的步骤中,同时或者分别执行步骤S120和步骤S130。
所述规范化失败为:除了以上a、b、c三种情况以外的其它情况。如果检索词无法匹配或对应于叙词表中的任何部分,则无法基于叙词表进行信息检索的加权排序工作。
在步骤S120,利用通用搜索引擎以规范化检索词K为检索词进行检索,以前S个结果的URL,作为爬行网址,对S个所述爬行网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词。
例如,可以采用开源网页分析工具Htmlparser分析这S个网址所对应的网页,提取出网页中的URL、标题、正文、摘要、关键词等要素信息。在一个优选的实施例中,所述要素信息为网页中的标题和正文。
在步骤S130,利用相似度计算的方法求出叙词表中K的相关词的相似度,将相似度大于所设置的阈值的相关词加入所述查询扩展集合N。
在步骤S140,将与K的相似度作为所述查询扩展集合N中相关词的权值,利用所述相关词对每个网页中的所述要素信息进行加权求和计算,得到每个网页的权值,将所述网页按照所述权值由从大到小排序,并返回给用户。
应当理解,所述步骤S120和步骤S130可以在所述叙词规范化步骤S110后同时进行,也可以先后进行,即先执行步骤S120,再执行步骤S130,或者先执行步骤S130,再执行步骤S120。本发明并不限制这两个步骤进行的顺序,只要在进行S140之前,完成上述两个步骤即可。
如图2所示,在一个优选的实施例中,所述步骤S130可以包括以下步骤。
在步骤S131,根据叙词表对规范化检索词K进行扩展,建立关于所述规范化检索词K的初始查询扩展集合U={D,F,W,Y},其中,D表示K的等同词,F表示K的所有上位/下位词,即叙词表概念树T的所有节点,W表示K的相关词,Y表示F的等同词和相关词。
在步骤S132,找到K的族首词O,以O为根节点建立叙词表概念树T。
在步骤S133,从所述初始查询扩展集合中逐个抽取扩展词,使得规范化检索词K与扩展词组成概念对。
在步骤S134,根据所述概念对中规范化检索词K与扩展词的关系类型,采用不同的公式计算规范化检索词K与扩展词的相似度。在本发明中,综合使用叙词表概念树中的各个词的词间关系,而相似度计算,也正是基于在叙词表概念树中各个相关词的之间的彼此相似度。
当概念对中扩展词为K的等同词D时,所述相似度为等同相似度SimD(K,D)。等同词为等价关系,即在叙词表中,两个词之间可以相互替换使用。该等同相似度采用以下公式计算:
SimD(K,D)=1 (2)
当概念对中扩展词为K的上位/下位词F时,所述相似度为属分相似度SimF(K,F),采用以下公式计算:
SimF(K,F)=f1×f2×f3 (3)
其中,f1为基于最短路径的相似度,f2为基于最近根深度的相似度,f3为基于密度的相似度。
当概念对中扩展词为K的相关词W时,所述相似度为相关相似度SimW(K,W),采用以下公式计算:
SimW(K,W)=g1×g2 (4)
其中,g1为基于相关关联叙词深度的相似度,g2为基于相关关联叙词密度的相似度。
当概念对中扩展词为K的上位/下位词F的等同词/相关词Y时,所述相似度为间接关系相似度,分别采用以下公式计算:
SimY(K,Y)=SimF(K,F)×SimD(F,Y)(5)或者
SimY(K,Y)=SimF(K,F)×SimW(F,Y) (6)
在上述公式(3)中,基于最短路径的相似度f1的计算公式为:
f1(d)=e-αd (7)
其中,d为在T中由K到F的最短路径长度,α为调节因子。α越大,f1也越大。
基于最近根深度的相似度f2的计算公式为:
f2(h)=1-e-βh (8)
其中,h为R(K,F)所在深度,β为调节因子。β越大,f2也就越大。
基于密度的相似度f3基于密度的相似度计算公式为:
其中,根据公式(1),分别求出K和F的密度向量
在上述公式(4)中,基于相关关联叙词深度的相似度g1的计算公式为:
其中,K的深度为h,ε为调节因子。ε越大,g1也越大。
基于相关关联叙词密度的相似度g2的计算公式为:
g2(e)=1-e-γe (11)
其中,e为以K为根节点的直接子节点数,γ为调节因子。γ越大,g2也就越大。
阈值判断步骤S135:设置阈值Q,判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于Q:若大于,则将该词加入到查询扩展集合N中;若小于,则跳过,即不加入到查询扩展集合N中。
在一个优选的实施例中,所述步骤S140具体地包括:
频率计算步骤,计算所述查询扩展集合中的每一个相关词在网页的标题中出现的频率X以及在网页正文中出现的频率P。
权值计算步骤,求和计算每个网页的权值,其公式为:
其中,TWn为第n个网页的总权值,m为所述查询扩展集合N中相关词的数目,Wi为N中第i个扩展词与规范化检索词K的相似度,Xi和Pi分别为所述扩展词在第i个网页的标题和正文中出现的频率。ω为标题正文比,用于调节标题对于最终结果的重要性,ω越大,标题对该网页权值的影响越大。
排序步骤,将所述网页按照所述权值由从大到小排序,并返回给用户。
进一步地,图8示出了根据本发明的基于叙词表的信息检索装置的模块图。该信息检索装置包括:叙词规范化单元210、网页抓取单元220、查询扩展集合建立单元230和加权排序单元240。
叙词规范化单元210根据叙词表,对用户输入的检索词进行规范化,获得规范化检索词K。
在该单元中,如果规范化成功,则得到规范化检索词K,然后同时或者分别进行网页抓取单元和查询扩展集合建立单元。如果规范化失败,则结束本方法,只采用常规的检索方法进行检索和排序。
规范化成功包括以下三种情况中的任意一种:a.所述检索词为叙词表中的叙词,则视为已经规范化,可直接使用;b.所述检索词为叙词表中的非叙词,则通过叙词表将所述检索词规范为相应的叙词;c.所述检索词能够与叙词表中的叙词部分匹配,则将可匹配的所有叙词返回,供用户从中选择新的检索词作为规范化检索词。
规范化失败为:除了以上a、b、c三种情况以外的其它情况,则保留原检索词,不对所述检索词进行查询扩展。
网页抓取单元220:利用所述叙词规范化单元得到的规范化检索词K,利用通用搜索引擎以规范化检索词K为检索词进行检索,对前若干个结果的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词。
查询扩展集合建立单元230:利用相似度计算装置求出叙词表中K的相关词的相似度,将相似度大于所设置的阈值的相关词加入所述查询扩展集合N。
加权排序单元240:将与K的相似度作为所述查询扩展集合N中相关词的权值,利用所述相关词对每个网页中的所述要素信息进行加权求和计算,得到每个网页的权值,将所述网页按照所述权值由从大到小排序,并返回给用户。
实施例1,查询扩展集合建立示例:
规范化检索词K:夏绿林
初始查询扩展集合U:{森林,矮林,高山矮曲林,亚高山矮曲林,成林,成熟林,纯林,次生林,萌芽林,丛林,法正林,广义法正林,泛滥地森林,封禁林,复层林,灌木林,灌丛林,矮灌丛,常绿灌丛,国有林,过伐林,过熟林,寒带林,恒续林,混交林,常绿落叶阔叶混交林,复层混交林,针阔叶混交林,极地林,集体林,禁伐林,禁猎林,近熟林,阔叶林,常绿阔叶林,硬叶常绿林,常绿竹林,落叶阔叶林,栎林,桤林,母树林,临时母树林,永久母树林,目标林,暖带林,乔林,热带林,红树林,热带草原林,热带稀疏林,珊瑚岛常绿林,人工林,实生林,疏林,示范林,试验林,产地试验林,苔藓林,天然林,同龄林,完全调整林,温带林,现实林,异龄林,幼龄林,雨林,亚热带雨林,原始林,择伐林,针叶林,暗针叶林,常绿针叶林,桧林,冷杉林,松林,落叶针叶林,落叶松林,泰加林,中龄林,竹林,材用竹林,笋材兼用林,笋用林,法正林,种源试验林,种子林,照叶林,滩地森林,一般法正林}
初始查询扩展集合U中的词的关系分别为:
等同关系:无
上位下位关系:{森林,矮林,高山矮曲林,亚高山矮曲林,成林,成熟林,纯林,次生林,萌芽林,丛林,法正林,广义法正林,泛滥地森林,封禁林,复层林,灌木林,灌丛林,矮灌丛,常绿灌丛,国有林,过伐林,过熟林,寒带林,恒续林,混交林,常绿落叶阔叶混交林,复层混交林,针阔叶混交林,极地林,集体林,禁伐林,禁猎林,近熟林,阔叶林,常绿阔叶林,硬叶常绿林,常绿竹林,落叶阔叶林,栎林,桤林,母树林,临时母树林,永久母树林,目标林,暖带林,乔林,热带林,红树林,热带草原林,热带稀疏林,珊瑚岛常绿林,人工林,实生林,疏林,示范林,试验林,产地试验林,苔藓林,天然林,同龄林,完全调整林,温带林,现实林,异龄林,幼龄林,雨林,亚热带雨林,原始林,择伐林,针叶林,暗针叶林,常绿针叶林,桧林,冷杉林,松林,落叶针叶林,落叶松林,泰加林,中龄林,竹林,材用竹林,笋材兼用林,笋用林}
相关关系:无
多种关系,即上位下位词的等同词和相关词:{法正林,种源试验林,种子林,照叶林,滩地森林,一般法正林}。
通过实验测定,在阈值判断步骤设置阈值Q为0.3。
超过阈值Q的查询扩展集合N:{阔叶林(0.6683),常绿阔叶林(0.5479),照叶林(0.5479),硬叶常绿林(0.4489),常绿竹林(0.5477),落叶阔叶林(0.8179),栎林(0.6703),桤林(0.6703)}
因此,从而得到了最终的查询扩展集合N。
实施例2:相关参数权值测定:
根据发明所公开的方法的各个步骤,本方法在实施过程中依赖于各个参数的选择,其中包括相似度计算的阈值Q及加权排序中的标题正文比ω。因此,可以通过实验来测定这两个参数的选择,在实验中,其他相似度算法的参数人工设定为:α=0.2,β=0.6,δ=0.3,ε=0.6,γ=0.3。
评估检索的结果采用两个指标,指标一为搜索长度,即指用户发现n个相关文献之前需要查看的不相关文献的数目,用来评估搜索引擎在多大程度上能够把最相关的文献排列在检索结果集的最前端,在本发明中,搜索长度设定为找到前5篇相关结果所需要查看的不相关结果的数量,搜索长度用L表示。指标二为P@10,表示评价时选择评价前十个结果的相关性,其可以采用公式:
其中,a表示前十项结果中与用户检索词相关的结果数量,b表示前十项结果中与用户检索词无关的结果数量。从而可得出前十项的相关性公式(13)。进一步地,可以得到出前十项的平均相关性公式(14)
其中,P1至Pn为n次独立的实验所求得的P@10。
同理,我们可以得出平均搜索长度公式(15)
其中,L1至Ln为n次独立的实验所求得的L。
为了使得权值测定尽可能准确,从实验数据中随机选取10个叙
词进行测试。在实验中,网页抓取步骤中选择百度搜索结果的前100
条作为通用搜索引擎的结果进行抓取,将标题正文比先设定为1。
由相关技术人员确认返回结果的相关度。最终结果如表1所示。
表1阈值的测定数据
表1的结果也可以参见图3,由图3可以看出:当阈值Q为0.2时,的数据值最高,即前十条结果的相关度最高;搜索长度最低,即找到前五条相关结果所需要浏览的无关结果最少。所以,阈值Q确定为0.2。在得到阈值结果之后,将阈值Q调整为0.2,继续用这10个叙词进行标题正文比的测试。实验结果见表2。
表2标题正文比的测定数据
表2的结果也分别做折线图如图4和图5所示。由图4可以看出,当标题正文比ω为3时,此时的的值为最高,而为最小的之一。所以综合两个数据,将标题正文比ω确定为3。
通过本实施例可以得知,阈值Q取值为0.2-0.8,优选为0.2-0.4,标题正文比ω取值为1-6,优选为3-6。
实施例3:搜索结果对比示例
根据实施例2中的所测定的优选的权值,从实验数据中任选15个词分别利用百度进行搜索和利用本发明的方法对搜索的结果进行排序,并用P@10和L的值进行对比,其结果如图6和图7所示。
从图中可以看出,从图6和图7可以看出,本发明的方法得到的结果总体优于百度给出的结果,这说明叙词表确实可以提高搜索结果的准确性,也说明了本发明所提出的基于叙词表的信息检索方法可行、有效。
优选地,通过实验来选择合适的阈值Q及加权排序中的标题正文比ω。
因此,本发明针对基于关键词的传统信息检索方法不能充分表达语义信息的缺陷,利用叙词表的词间关系,提出了一种计算叙词间语义相似度的方法,并将计算了相似度的叙词用于检索后结果的加权排序。通过实验证明,本发明所公开的方法显著提高了查询效果。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。
Claims (9)
1.一种基于叙词表的信息检索方法,包括如下步骤:
叙词规范化步骤:根据叙词表,对用户输入的检索词进行规范化,获得规范化检索词K;
网页抓取步骤:利用通用搜索引擎以规范化检索词K为检索词进行检索,对前若干个结果的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词;
查询扩展集合建立步骤:利用相似度计算的方法求出叙词表中K的相关词的相似度,将相似度大于所设置的阈值的相关词加入所述查询扩展集合N;
加权排序步骤:将与K的相似度作为所述查询扩展集合N中相关词的权值,利用所述相关词对每个网页中的所述要素信息进行加权求和计算,得到每个网页的权值,将所述网页按照所述权值由从大到小排序,并返回给用户;
其中,所述查询扩展集合建立步骤包括:
建立初始查询扩展集合步骤:根据叙词表对规范化检索词K进行扩展,得到关于所述规范化检索词K的初始查询扩展集合U={D,F,W,Y},其中,D表示K的等同词,F表示K的所有上位/下位词,即叙词表概念树T的所有节点,W表示K的相关词,Y表示F的等同词和相关词;以及
建立叙词表查询概念树步骤:找到所述规范化检索K的族首词O,以O为根节点建立叙词表概念树T;
概念对组成步骤:从所述初始查询扩展集合中逐个抽取扩展词,使得规范化检索词K与扩展词组成概念对;
相似度计算步骤:根据所述概念对中规范化检索词K与扩展词的关系类型,采用不同的公式计算规范化检索词K与扩展词的相似度;
阈值判断步骤:设置阈值Q,判断所述初始查询扩展集合每个词与 所述规范化检索词K的相似度是否大于Q:若大于,则将该词加入到查询扩展集合N中;若小于,则跳过,即不加入到查询扩展集合N中。
2.根据权利要求1所述的基于叙词表的信息检索方法,其特征在于:
所述加权排序步骤包括:
频率计算步骤,计算所述查询扩展集合中的每一个相关词在网页的标题中出现的频率X以及在网页正文中出现的频率P;
权值计算步骤,求和计算每个网页的权值,其公式为:
其中,TWn为第n个网页的总权值,m为所述查询扩展集合N中相关词的数目,Wi为N中第i个扩展词与规范化检索词K的相似度,Xi和Pi分别为所述扩展词在第i个网页的标题和正文中出现的频率,ω为标题正文比,用于调节标题对于最终结果的重要性,ω越大,标题对该网页权值的影响越大;
排序步骤,将所述网页按照所述权值由从大到小排序,并返回给用户。
3.根据权利要求2所述的基于叙词表的信息检索方法,其特征在于:
通过实验来选择合适的阈值Q及加权排序中的标题正文比ω。
4.根据权利要求3所述的基于叙词表的信息检索方法,其特征在于:
阈值Q取值为0.2-0.8,标题正文比ω取值为1-6。
5.根据权利要求1所述的基于叙词表的信息检索方法,其特征在于:
所述相似度计算步骤包括:
当概念对中扩展词为K的等同词D时,所述相似度为等同相似度SimD(K,D),采用以下公式计算:
SimD(K,D)=1。
6.根据权利要求1所述的基于叙词表的信息检索方法,其特征在于:
所述相似度计算步骤包括:
当概念对中扩展词为K的上位/下位词F时,所述相似度为属分相似度SimF(K,F),采用以下公式计算:
SimF(K,F)=f1×f2×f3
其中,f1为基于最短路径的相似度,f2为基于最近根深度的相似度,f3为基于密度的相似度,
基于最短路径的相似度f1的计算公式为:
f1(d)=e-αd
其中,d为在T中由K到F的最短路径长度,α为调节因子,α越大,f1也越大,
基于最近根深度的相似度f2的计算公式为:
f2(h)=1-e-βh
其中,h为R(K,F)所在深度,R(K,F)为K和F的最近根节点,β为调节因子,β越大,f2也就越大,
基于密度的相似度f3的计算公式为:
其中,分别为K和F的密度向量。
7.根据权利要求1所述的基于叙词表的信息检索方法,其特征在于:
所述相似度计算步骤包括:
当概念对中扩展词为K的相关词W时,所述相似度为相关相似度SimW(K,W),采用以下公式计算:
SimW(K,W)=g1×g2
其中,g1为基于相关关联叙词深度的相似度,g2为基于相关关联叙词密度的相似度,
基于相关关联叙词深度的相似度g1的计算公式为:
其中,K的深度为h,ε为调节因子,ε越大,g1也越大,
基于相关关联叙词密度的相似度g2的计算公式为:
g2(e)=1-e-γe
其中,e为以K为根节点的直接子节点数,γ为调节因子,γ越大,g2也 就越大。
8.根据权利要求1所述的基于叙词表的信息检索方法,其特征在于:
当概念对中扩展词为K的上位/下位词F的等同词/相关词Y时,所述相似度为间接关系相似度,分别采用以下公式计算:
SimY(K,Y)=SimF(K,F)×SimD(F,Y)或者
SimY(K,Y)=SimF(K,F)×SimW(F,Y)。
9.一种基于叙词表的信息检索装置,包括:
叙词规范化单元:根据叙词表,对用户输入的检索词进行规范化,获得规范化检索词K;
网页抓取单元:利用所述叙词规范化单元得到的规范化检索词K,利用通用搜索引擎以规范化检索词K为检索词进行检索,对前若干个结果的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词;
查询扩展集合建立单元:利用相似度计算的方法求出叙词表中K的相关词的相似度,将相似度大于所设置的阈值的相关词加入所述查询扩展集合N;
加权排序单元:将与K的相似度作为所述查询扩展集合N中相关词的权值,利用所述相关词对每个网页中的所述要素信息进行加权求和计算,得到每个网页的权值,将所述网页按照所述权值由从大到小排序,并返回给用户,
其中,所述查询扩展集合建立单元用于:
建立初始查询扩展集合:根据叙词表对规范化检索词K进行扩展,得到关于所述规范化检索词K的初始查询扩展集合U={D,F,W,Y}其中,D表示K的等同词,F表示K的所有上位/下位词,即叙词表概念树T的所有节点,W表示K的相关词,Y表示F的等同词和相关词;以及
建立叙词表查询概念树:找到所述规范化检索K的族首词O,以O为根节点建立叙词表概念树T;
概念对组成:从所述初始查询扩展集合中逐个抽取扩展词,使得规范化检索词K与扩展词组成概念对;
相似度计算:根据所述概念对中规范化检索词K与扩展词的关系类型,采用不同的公式计算规范化检索词K与扩展词的相似度;
阈值判断:设置阈值Q,判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于Q:若大于,则将该词加入到查询扩展集合N中;若小于,则跳过,即不加入到查询扩展集合N中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410080938.9A CN103778262B (zh) | 2014-03-06 | 2014-03-06 | 基于叙词表的信息检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410080938.9A CN103778262B (zh) | 2014-03-06 | 2014-03-06 | 基于叙词表的信息检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103778262A CN103778262A (zh) | 2014-05-07 |
CN103778262B true CN103778262B (zh) | 2017-07-21 |
Family
ID=50570497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410080938.9A Expired - Fee Related CN103778262B (zh) | 2014-03-06 | 2014-03-06 | 基于叙词表的信息检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103778262B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701115A (zh) * | 2014-11-27 | 2016-06-22 | 英业达科技有限公司 | 解决方案搜寻系统的操作方法及解决方案搜寻系统 |
CN105045875B (zh) * | 2015-07-17 | 2018-06-12 | 北京林业大学 | 个性化信息检索方法及装置 |
CN106649303A (zh) * | 2015-10-28 | 2017-05-10 | 英业达科技有限公司 | 解决方案搜寻系统的操作方法及解决方案搜寻系统 |
CN106126588B (zh) * | 2016-06-17 | 2019-09-20 | 广州视源电子科技股份有限公司 | 提供相关词的方法和装置 |
CN108959314A (zh) * | 2017-05-24 | 2018-12-07 | 西安科技大市场创新云服务股份有限公司 | 一种语义检索方法和装置 |
CN107301218A (zh) * | 2017-06-15 | 2017-10-27 | 北京航天长征科技信息研究所 | 一种非相关文献隐性关联知识发现方法 |
CN107292505A (zh) * | 2017-06-15 | 2017-10-24 | 北京航天长征科技信息研究所 | 非相关文献隐性关联知识发现方法在产品研发中的应用 |
CN108664646B (zh) * | 2018-05-16 | 2021-11-16 | 电子科技大学 | 一种基于关键字的音视频自动下载系统 |
CN110309246A (zh) * | 2019-05-24 | 2019-10-08 | 中国地质调查局发展研究中心 | 一种互联网地质数据检索与获取的方法及其装置 |
CN111709239A (zh) * | 2020-06-04 | 2020-09-25 | 中国地质大学(北京) | 一种基于专家逻辑结构树的地学数据发现方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750316A (zh) * | 2012-04-25 | 2012-10-24 | 北京航空航天大学 | 基于语义共现模型的概念关系标签抽取方法 |
CN103020283A (zh) * | 2012-12-27 | 2013-04-03 | 华北电力大学 | 一种基于背景知识的动态重构的语义检索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0306877D0 (en) * | 2003-03-25 | 2003-04-30 | British Telecomm | Information retrieval |
US8306987B2 (en) * | 2008-04-03 | 2012-11-06 | Ofer Ber | System and method for matching search requests and relevant data |
-
2014
- 2014-03-06 CN CN201410080938.9A patent/CN103778262B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750316A (zh) * | 2012-04-25 | 2012-10-24 | 北京航空航天大学 | 基于语义共现模型的概念关系标签抽取方法 |
CN103020283A (zh) * | 2012-12-27 | 2013-04-03 | 华北电力大学 | 一种基于背景知识的动态重构的语义检索方法 |
Non-Patent Citations (1)
Title |
---|
基于叙词表词间关系的领域信息检索;熊霞;《中国优秀硕士学位论文全文数据库信息科技辑》;20111015(第10期);第3.2.2,3.4.1,3.4.2节,图3.1,图3.2,图3.3 * |
Also Published As
Publication number | Publication date |
---|---|
CN103778262A (zh) | 2014-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103778262B (zh) | 基于叙词表的信息检索方法及装置 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN103927302B (zh) | 一种文本分类方法和系统 | |
CN103365910B (zh) | 一种信息检索的方法和系统 | |
CN104199822B (zh) | 一种识别搜索对应的需求分类的方法和系统 | |
CN103823824B (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
CN103020164B (zh) | 一种基于多语义分析和个性化排序的语义检索方法 | |
CN102929873B (zh) | 一种基于情境搜索提取搜索价值词的方法及装置 | |
CN103902597B (zh) | 确定目标关键词所对应的搜索相关性类别的方法和设备 | |
Koenig et al. | Is the relationship between mast‐seeding and weather in oaks related to their life‐history or phylogeny? | |
CN101350011B (zh) | 一种基于小样本集的搜索引擎作弊检测方法 | |
CN106874411B (zh) | 一种表格的搜索方法及搜索平台 | |
CN110516047A (zh) | 基于包装领域的知识图谱的检索方法及检索系统 | |
CN111881302B (zh) | 基于知识图谱的银行舆情分析方法和系统 | |
CN106649849A (zh) | 文本信息库建立方法和装置、以及搜索方法、装置和系统 | |
CN109409647A (zh) | 一种基于随机森林算法的薪资水平影响因素的分析方法 | |
CN106682012A (zh) | 商品对象信息搜索方法及装置 | |
CN103150369A (zh) | 作弊网页识别方法及装置 | |
CN103544307B (zh) | 一种不依赖文档库的多搜索引擎自动化对比评测方法 | |
CN104615734B (zh) | 一种社区管理服务大数据处理系统及其处理方法 | |
CN109033132A (zh) | 利用知识图谱计算文本和主体相关度的方法以及装置 | |
CN102053960B (zh) | 依群需特征构建物联互联双网快准搜索引擎的方法及系统 | |
CN104615621B (zh) | 搜索中的相关性处理方法和系统 | |
CN108241867A (zh) | 一种分类方法及装置 | |
Stonecypher et al. | Results from genetic tests of selected parents of Douglas-fir (Pseudotsuga menziesii [Mirb.] Franco) in an applied tree improvement program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Dongmei Inventor after: Han Qichen Inventor after: Fang Bo Inventor after: Tan Wen Inventor after: Zhang Qi Inventor before: Li Dongmei Inventor before: Han Qichen Inventor before: Fang Bo |
|
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170721 Termination date: 20180306 |