CN102915304A - 文档检索设备和方法 - Google Patents
文档检索设备和方法 Download PDFInfo
- Publication number
- CN102915304A CN102915304A CN2011102189495A CN201110218949A CN102915304A CN 102915304 A CN102915304 A CN 102915304A CN 2011102189495 A CN2011102189495 A CN 2011102189495A CN 201110218949 A CN201110218949 A CN 201110218949A CN 102915304 A CN102915304 A CN 102915304A
- Authority
- CN
- China
- Prior art keywords
- document
- hypergraph
- node
- concept
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文档检索设备,包括:超图构造单元,被配置为针对目标文档集合中的文档构造超图,以描述该文档中包含的隐含语义信息;以及文档排序单元,被配置为基于超图构造单元所构造的超图,针对特定查询在目标文档集合中进行检索,并对检索结果进行排序。本发明还提供了一种文档检索方法。本发明提高了文档检索的精确度,能够更好地满足用户的实际检索需求。
Description
技术领域
本发明涉及信息检索领域,具体涉及一种文档检索设备和方法。
背景技术
随着信息时代的到来,可检索的文档的数量不断增长。如何有效地在大量文档中查找有用信息变得十分关键。
信息检索(Information Retrieval,IR)技术可用于在文档集合中搜索特定信息,其可被进一步细分为:搜索文档中包含的信息、搜索文档本身、搜索描述文档的元数据、在数据库中搜索文本、声音、图像或数据(无论是关系型单机数据库还是超文本联网数据库,例如以太网或内容/文档管理系统)。
在进行文档检索时,文档检索系统具有两个主要任务:第一,针对用户查询来查找相关文档;第二,评估匹配结果并根据文档的相关性对文档进行排序。许多传统的文档检索系统依赖于关键字搜索。这些系统主要考虑若干特定因素来执行文档检索,例如查询在文档中出现的频率和位置、指向文档的超链接、文档访问信息,等等。
已经提出了语义网(Semantic Web,SW)技术,该技术能够使机器理解信息的语义或含义。语义网(SW)技术旨在提供对给定知识领域中的概念和关系的形式化描述,例如资源描述框架(RDF)和Web本体语言(OWL)。因此,可以利用语义网技术来提高文档检索的精确度。
近年来,出现了若干使用本体(Ontology)来提高检索精确度的方法。本体以机器可理解的方式给出了对信息语义的形式化描述,有助于发掘查询和文档中隐含的语义并处理自然语言中的多义性和同义性的问题,还能够理解查询或文档中概念的上下文信息。
参考文献1(P.Castells.M.Fernandes,and D.Vallet,An Adaptation ofthe Vector-Space Model for Ontology-Based Information Retrieval,IEEETransactions on Knowledge and Data Engineering,2007)提出了一种向文档分配相关性分数的方法,主要包括以下步骤:1)从文档和查询中抽取概念;2)使用向量空间模型来计算文档和查询之间的相似度;3)把上一步中获得的分数与利用基于关键字的算法计算的相似度分数进行组合。
参考文献2(Tuukka Ruotsalo and EeroA Method forDetermining Ontology-Based Semantic Relevance,Proceeding ofDEXA2007)提出了一种方法,利用基本的领域本体来计算注释的互相关性,由此来扩展词频-逆向文件频率方法(term frequency-inversedocument frequency,下文简称TF-IDF方法)。
参考文献3(WO2006001906 A3)提出了一种基于图的排序算法。该算法使用自然语言处理技术和域本体为每一个文本构建图,然后对节点进行排序以用于执行文本处理,例如消除歧义和关键字抽取。
然而,现有的这些方法主要利用从查询和文档中获得的本体概念(类和实例)来进行检索,而没有考虑到文档中隐含的丰富的语义信息,从而导致检索的精确度不高。实际上,文档中的概念以及概念之间的隐含语义信息均有助于确定文档与查询的相关程度。仅仅考虑查询和文档中的概念不能够很好地反映出用户的实际检索需求。
发明内容
为了解决上述技术问题,本发明提出了一种文档检索设备和方法,通过采用文档中隐含的语义关联信息来执行文档检索。具体地,根据本发明的文档检索设备和方法首先构造超图(hyper-graph)来描述文档中隐含的语义信息,然后使用域本体来改进超图。这样,当针对特定的查询执行文档检索时,可以通过超图计算文档相对于特定查询的相关性分数,并利用相关性分数对文档进行排序。
根据本发明的一个方面,提供了一种文档检索设备,包括:超图构造单元,被配置为针对目标文档集合中的文档构造超图,以描述该文档中包含的隐含语义信息;以及文档排序单元,被配置为基于超图构造单元所构造的超图,针对特定查询在目标文档集合中进行检索,并对检索结果进行排序。
优选地,超图构造单元包括:概念抽取子单元,被配置为使用域本体信息从文档中抽取概念并计算概念的权重;超图构造子单元,被配置为针对文档构造初始超图;超图改进子单元,被配置为使用域本体信息来改进初始超图;以及权重分配子单元,被配置为向改进的超图中的节点和边分配权重。
优选地,超图构造子单元被配置为:针对文档中的概念的集合,创建与每一个概念相对应的节点,以形成节点集合;针对文档中的每一个句子,增加由该句子中所包含的概念的集合形成的边,以形成边集合;以及形成由节点集合和边集合组成的初始超图。
优选地,超图改进子单元被配置为:如果初始超图中的两个节点所对应的概念在域本体中具有相同的含义,则合并这两个节点;如果初始超图中的任意数目的节点所对应的概念在域本体中直接关联,则增加连接这些节点的边;以及如果初始超图中的两条边所对应的概念在域本体或初始超图中距离接近,则合并这两条边。
优选地,权重分配子单元被配置为:基于特定概念在文档中出现的频率,向与该特定概念相对应的节点分配权重;基于特定边中包含的概念在文档中出现的频率、特定边在文档中出现的频率以及特定边的新鲜度,向该特定边分配权重,其中,所述特定边的新鲜度是所述特定边中任意两个节点的语义关联的新鲜度之和。
优选地,当两个节点在域本体上的语义距离不大于所述特定边中的节点个数减1的差时,所述两个节点语义关联的新鲜度是1,否则所述两个节点语义关联的新鲜度是所述两个节点在域本体上的语义距离除以所述特定边中的节点个数减1的差。
优选地,文档排序单元包括:最小扩展树生成子单元,被配置为针对特定查询利用超图构造单元所构造的超图来生成最小扩展树;相关性计算子单元,被配置为计算所生成的最小扩展树的语义相关性分数;以及文档排序子单元,被配置为根据语义相关性分数对文档进行排序。
优选地,最小扩展树生成子单元被配置为使用贪婪算法来生成最小扩展树。
优选地,相关性计算子单元被配置为:通过计算最小扩展树中的所有边的权重的平均值,获得语义相关性分数。
根据本发明的另一个方面,提供了一种文档检索方法,包括:针对目标文档集合中的文档构造超图,以描述该文档中包含的隐含语义信息;以及基于所构造的超图,针对特定查询在目标文档集合中进行检索,并对检索结果进行排序。
优选地,构造超图的步骤包括:使用域本体信息从文档中抽取概念并计算概念的权重;针对文档构造初始超图;使用域本体信息来改进初始超图;以及向改进的超图中的节点和边分配权重。
优选地,构造初始超图的步骤包括:针对文档中的概念的集合,创建与每一个概念相对应的节点,以形成节点集合;针对文档中的每一个句子,增加由该句子中所包含的概念的集合形成的边,以形成边集合;以及形成由节点集合和边集合组成的初始超图。
优选地,改进初始超图的步骤包括:如果初始超图中的两个节点所对应的概念在域本体中具有相同的含义,则合并这两个节点;如果初始超图中的任意数目的节点所对应的概念在域本体中直接关联,则增加连接这些节点的边;以及如果初始超图中的两条边所对应的概念在域本体或初始超图中距离接近,则合并这两条边。
优选地,分配权重的步骤包括:基于特定概念在文档中出现的频率,向与该特定概念相对应的节点分配权重;以及基于特定边中包含的概念在文档中出现的频率、特定边在文档中出现的频率以及特定边的新鲜度,向该特定边分配权重,其中,特定边的新鲜度是特定边中任意两个节点的语义关联的新鲜度之和。
优选地,当两个节点在域本体上的语义距离不大于所述特定边中的节点个数减1的差时,所述两个节点语义关联的新鲜度是1,否则所述两个节点语义关联的新鲜度是所述两个节点在域本体上的语义距离除以所述特定边中的节点个数减1的差。
优选地,在目标文档集合中进行检索并对检索结果进行排序的步骤包括:针对特定查询利用所构造的超图来生成最小扩展树;计算所生成的最小扩展树的语义相关性分数;以及根据语义相关性分数对文档进行排序。
优选地,生成最小扩展树的步骤包括使用贪婪算法来生成最小扩展树。
优选地,计算语义相关性分数的步骤包括:通过计算最小扩展树中的所有边的权重的平均值,获得语义相关性分数。
本发明提出的文档检索设备和方法利用了文档中隐含的丰富的语义信息,通过为文档建立超图来计算文档相对于特定查询的相关性分数,并且基于计算得到的相关性分数对文档进行排序,提高了文档检索的精确度,从而能够更好地满足用户的实际检索需求。
附图说明
通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:
图1是示出了根据本发明一个实施例的文档检索设备的框图;
图2是示出了根据本发明一个实施例的文档检索设备中的超图构造单元的框图;
图3是示出了超图构造子单元所构造的超图的示意图;
图4(a)是示出了对图3所示的超图执行节点的合并操作的示意图;
图4(b)是示出了对图3所示的超图执行边的增加操作的示意图;
图4(c)是示出了对图3所示的超图执行边的合并操作的示意图;
图5是示出了根据本发明一个实施例的文档检索设备中的文档排序单元的框图;
图6是示出了根据本发明一个实施例的文档检索方法的流程图;以及
图7是示出了根据本发明一个实施例的文档检索方法的详细步骤的流程图。
具体实施方式
下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本发明无关的公知技术的详细描述。
首先,通过下表1对本说明书中的几个术语的含义做出如下说明:
表1
图1是示出了根据本发明一个实施例的文档检索设备10的框图。如图1所示,本实施例中的文档检索设备10包括超图构造单元110和文档排序单元120。其中,超图构造单元110针对目标文档集合中的每一个文档建立超图,以便对文档中包含的隐含语义进行建模。文档排序单元120基于超图构造单元110所生成的超图,针对特定的查询对文档进行处理,以获得文档检索的结果。下面,结合附图2-5对超图构造单元110和文档排序单元120的结构和操作进行详细描述。
图2是示出了图1所示的文档检索设备10中的超图构造单元110的框图。可以看出,图2所示的超图构造单元110包括概念抽取子单元1110、超图构造子单元1120、超图改进子单元1130和权重分配子单元1140。
概念抽取子单元1110使用概念识别技术并基于域本体而从目标文档中抽取概念,然后计算概念的权重。例如,概念抽取子单元1110可以使用已知的TF-IDF方法来计算概念的权重。
超图构造子单元1120针对特定的文档而构造初始超图。在文档中,如果多个概念出现在相同的上下文中,则认为这些概念之间存在直接的语义关联,可将其看作文档中存在的隐含语义信息。在本发明中,“相同的上下文”是指在同一个句子中。
下面描述超图构造子单元1120的操作。首先,超图构造子单元1120针对文档中识别的概念的集合C,创建与每一个概念相对应的节点v,以形成节点集合V。然后,针对文档中的每一个句子,如果该句子中包含概念集合{C1,C2,...,Cn},其中n为该句子中包含的节点(概念)数量;则超图构造子单元1120增加由该概念集合{C1,C2,...,Cn}形成的边e,以形成边集合E。最终,超图构造子单元1120形成由G(V,E)表示的超图。
图3示出了超图构造子单元1120所构造的超图的一个例子。从图3可以看出,该示例超图包括7个节点(节点①-⑦)以及5条边(围绕节点①-⑦的封闭曲线)。具体地,这五条边是:由节点①和②组成的边,由节点①和③组成的边,由节点②和④组成的边,由节点③、⑤和⑥组成的边,以及由节点③、⑤和⑦组成的边。如上文所述,在超图中,每一条边可以连接任意数目的节点。
由于文档的作者通常不会在文档中记载(从而省略)其认为已经是公知的语义信息,因此由超图构造子单元1120所构造的超图可能并不完善。为了使所构造的超图能够由计算机进行处理,采用超图改进子单元1130向超图中增加这些省略的信息。超图改进子单元1130使用域本体来改进超图构造子单元1120所构造的初始超图。具体地,超图改进子单元1130可以执行以下两种操作:节点操作和边操作。
节点操作(合并)是指:如果超图中的两个节点所对应的概念在域本体中具有相同的含义,则合并这两个节点;同时,合并这两个节点的边。图4(a)示出了对图3所示的超图执行节点操作的一个示例。如图4(a)所示,假定节点①和②在本体中具有相同的含义,则超图改进子单元1130把节点①和②相合并以形成节点①,并且相应地对节点①和②的边也进行合并。如图4(a)右半部分所示,执行节点操作后形成的超图中只有6个节点和4条边。
边操作(增加与合并)是指:如果超图中的任意数目的节点所对应的概念在域本体中是“邻居”(即它们在本体中直接关联),则增加一条连接这些节点的边;如果超图中的两条边所对应的概念在域本体或初始超图中距离接近,则合并这两条边。图4(b)示出了对图3所示的超图执行边操作的一个示例。如图4(b)所示,假定节点④和⑦在本体中直接关联,则增加一条连接节点④和⑦的边。这样,执行边操作(增加)后形成的超图中存在7个节点和6条边。
图4(c)是示出了对超图执行边操作的示意图。如图4(c)所示,假定超图中原先存在两条边,即由节点①和②组成的边和由节点①和③组成的边。如果从域本体中获知节点②和③在本体知识中直接关联(即“邻居”),则可以把节点①和②组成的边和由节点①和③组成的边进行合并,从而形成由节点①、②和③组成的边。
权重分配子单元1140基于文档中的语义信息的重要性,向改进后的超图中的节点和边分配权重。具体地,权重分配子单元1140执行以下操作:
(1)基于特定概念在文档中出现的频率(次数),向与该特定概念相对应的节点分配权重。例如,对于节点v来说,其权重表示为weight(v)=Freq(t),其中t是节点v所对应的概念,Freq(t)是概念t在文档中出现的频率(次数)。
(2)基于特定边e中包含的概念t在文档中出现的频率(次数)Freqterm(e)、特定边e在文档中出现的频率(次数)Freqrelation(e),以及该特定边的新鲜度Nov(e),向该特定边e分配权重。
例如,对于每一条边e(e={v1,v2,...,vk}),其中k表示该边中包含的节点总数;其权重表示为
weight(e)=Freqterm(e)*Freqrelation(e)*Nov(e),
其中,
Freqterm(e)=(weight(v1)+weight(v2)+...+weight(vk))/k;
其中,新鲜度是指对于给定文档以及两个概念,该文档能把两个概念的语义距离拉近多少。新鲜度Nov(e)=∑Nov({vi,vj}),0<i,j≤k;其中对于任意两个概念vi,vj,如果它们之间的语义距离(表示为D({vi,vj}))不大于k-1,则Nov({vi,vj})=1;否则,Nov({vi,vj})=D({vi,vj})/(k-1)。新鲜度Nov(e)是很重要的,这是因为新的信息会缩短两个概念之间的语义距离。
图5是示出了图1所示的文档检索设备10中的文档排序单元120的框图。如图5所示,文档排序单元120包括最小扩展树生成子单元1210、相关性计算子单元1220和文档排序子单元1230。
最小扩展树生成子单元1210利用超图构造单元110所构造的超图来生成最小扩展树。例如,最小扩展树生成子单元1210可以采用贪婪算法来生成最小扩展树。在贪婪算法中,总是以最短距离来连接任意两个节点。当所有给定节点都连接完成时,算法执行结束。
相关性计算子单元1220计算所生成的最小扩展树的语义相关性分数。例如,给定文档Doc1以及查询(q1,q2,....,qn),最小扩展树生成子单元1210计算得到的针对该查询的最小扩展树是T={r,(q1,q2,....,qn)},其中r是T的根节点,且m是T中的边的数目。那么,相关性计算子单元1220以如下方式计算文档Doc1相对于该查询的语义相关性分数:
Score(Doc1)=∑(weight(e1)+weight(e2)+...+weight(em))/m。
文档排序子单元1230根据计算得到的文档的语义相关性分数,对目标文档进行排序,以获得最终的文档检索结果。
下面给出文档检索设备10的一个具体应用示例。
假设目标文档Doc1包含以下内容:“计算机科学领域中的信息检索研究的是如何对文档进行存储、建立索引、检索和排序”,而目标文档Doc2包含以下内容:“在本文中,使用图匹配技术来改善信息检索”。用户输入的查询中包括三个关键字:“信息检索”、“文档”和“图”,期望查找将文档描述为图以提高信息检索能力的文档。那么,根据现有技术的文档检索设备得到的结果是Doc1与Doc2相对于该查询的分数是相同的。这是因为,关键字“信息检索”和“文档”在Doc1中的绝对距离与关键字“信息检索”和“图”在Doc2中的绝对距离是相同的。
而采用本发明的文档检索设备10会得到不同的结果。这是因为,尽管关键字“信息检索”和“文档”在Doc1中的绝对距离与关键字“信息检索”和“图”在Doc2中的绝对距离相同,然而他们的相对距离有所不同。具体地,假设关键字“信息检索”和“文档”在Doc1中的相对距离是D(“信息检索”,“文档”)=1,而“信息检索”和“图”在Doc2中的相对距离是D(“信息检索”,“图”)=5(这是因为,假设两组关键字的概念频率和边频率均为1,而前者的新鲜度为1,后者的新鲜度为5)。因此,Doc1和Doc2的语义相关性分数分别为:
Score(Doc1)=Weight(e(“信息检索”,“文档”))=1;
Score(Doc1)=Weight(e(“信息检索”,“图”))=5;
因此,在本发明的文档检索设备10的检索结果中,Doc2将会排在Doc1之前。换句话说,Doc2是用户更想要的文档。
图6是示出了根据本发明一个实施例的文档检索方法60的流程图。如图6所示,方法60在步骤S610处开始。
在步骤S620,针对目标文档集合中的每一个文档构造超图,以描述该文档中的隐含语义。图7中的左半部分(a)示出了构造超图的一个具体示例过程。如图7所示,首先在步骤S6210,使用概念识别技术并基于域本体而从目标文档中抽取概念,然后计算概念的权重。例如,可以使用已知的TF-IDF方法来计算概念的权重。
接下来,在步骤S6220,针对每一个文档而构造初始超图。在文档中,如果多个概念出现在相同的上下文中,则认为这些概念之间存在直接的语义关联。具体地,针对某个特定文档中的概念的集合C,创建与每一个概念相对应的节点,以形成节点集合V。然后,针对该文档中的每一个句子,如果该句子中包含概念集合{C1,C2,...,Cn},则增加由该概念集合{C1,C2,...,Cn}形成的边,以形成边集合E。最终,形成由G(V,E)表示的超图。
然后,在步骤S6230,使用域本体来改进初始超图。具体地,可以执行上文参考附图4描述的节点操作和边操作来改进初始超图。
最后,在步骤S6240,基于文档中的语义信息的重要性,向改进后的超图中的节点和边分配权重。例如,可以基于特定概念在文档中出现的频率(次数),向与该特定概念相对应的节点分配权重,并基于特定边中的概念的频率、特定边在文档中出现的频率(次数)以及该特定边的新鲜度,向该特定边分配权重。
回到图6,在步骤S620之后的步骤S630处,基于步骤S620中生成的超图,针对特定的查询对文档进行检索。图7中的右半部分(b)示出了对文档进行检索的一个具体示例过程。如图7所示,首先在步骤S6310,利用步骤S620中生成的超图来生成最小扩展树。例如,可以采用贪婪算法来生成最小扩展树。在贪婪算法中,总是以最短距离来连接任意两个节点。当所有给定节点都连接完成时,算法执行结束。
接下来,在步骤S6320,计算所生成的最小扩展树的语义相关性分数。例如,给定文档Doc1以及查询(q1,q2,....,qn),最小扩展树生成子单元1210计算得到的针对该查询的最小扩展树是T={r,(q1,q2,....,qn)},其中r是T的根节点,且m是T中的边的数目。那么,相关性计算子单元1220以如下方式计算文档Doc1相对于该查询的语义相关性分数:
Score(Doc1)=∑(weight(e1)+weight(e2)+...+weight(em))/m。
最后,在步骤S6330,根据计算得到的语义相关性分数,对文档进行排序,以获得最终的文档检索结果。
返回图6,在步骤S630执行完毕后,方法60在步骤S640处结束。
本发明提出的文档检索设备和方法利用了文档中隐含的丰富的语义信息,通过为文档建立超图来计算文档相对于特定查询的相关性分数,并且基于计算得到的相关性分数对文档进行排序,提高了文档检索的精确度,能够更好地满足用户的实际检索需求。
尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。
Claims (18)
1.一种文档检索设备,包括:
超图构造单元,被配置为针对目标文档集合中的文档构造超图,以描述该文档中包含的隐含语义信息;以及
文档排序单元,被配置为基于超图构造单元所构造的超图,针对特定查询在目标文档集合中进行检索,并对检索结果进行排序。
2.根据权利要求1所述的文档检索设备,其中,所述超图构造单元包括:
概念抽取子单元,被配置为使用域本体信息从文档中抽取概念并计算概念的权重;
超图构造子单元,被配置为针对文档构造初始超图;
超图改进子单元,被配置为使用域本体信息来改进初始超图;以及
权重分配子单元,被配置为向改进的超图中的节点和边分配权重。
3.根据权利要求2所述的文档检索设备,其中,所述超图构造子单元被配置为:
针对文档中的概念的集合,创建与每一个概念相对应的节点,以形成节点集合;
针对文档中的每一个句子,增加由该句子中所包含的概念的集合形成的边,以形成边集合;以及
形成由节点集合和边集合组成的初始超图。
4.根据权利要求2所述的文档检索设备,其中,所述超图改进子单元被配置为:
如果初始超图中的两个节点所对应的概念在域本体中具有相同的含义,则合并这两个节点;
如果初始超图中的任意数目的节点所对应的概念在域本体中直接关联,则增加连接这些节点的边;以及
如果初始超图中的两条边所对应的概念在域本体或初始超图中距离接近,则合并这两条边。
5.根据权利要求2所述的文档检索设备,其中,所述权重分配子单元被配置为:
基于特定概念在文档中出现的频率,向与该特定概念相对应的节点分配权重;以及
基于特定边中包含的概念在文档中出现的频率、特定边在文档中出现的频率以及特定边的新鲜度,向该特定边分配权重,其中,所述特定边的新鲜度是所述特定边中任意两个节点的语义关联的新鲜度之和。
6.根据权利要求5所述的文档检索设备,其中,当两个节点在域本体上的语义距离不大于所述特定边中的节点个数减1的差时,所述两个节点语义关联的新鲜度是1,否则所述两个节点语义关联的新鲜度是所述两个节点在域本体上的语义距离除以所述特定边中的节点个数减1的差。
7.根据权利要求1所述的文档检索设备,其中,所述文档排序单元包括:
最小扩展树生成子单元,被配置为针对特定查询利用超图构造单元所构造的超图来生成最小扩展树;
相关性计算子单元,被配置为计算所生成的最小扩展树的语义相关性分数;以及
文档排序子单元,被配置为根据语义相关性分数对文档进行排序。
8.根据权利要求7所述的文档检索设备,其中,所述最小扩展树生成子单元被配置为:
使用贪婪算法来生成最小扩展树。
9.根据权利要求7所述的文档检索设备,其中,所述相关性计算子单元被配置为:
通过计算最小扩展树中的所有边的权重的平均值,获得语义相关性分数。
10.一种文档检索方法,包括:
针对目标文档集合中的文档构造超图,以描述该文档中包含的隐含语义信息;以及
基于所构造的超图,针对特定查询在目标文档集合中进行检索,并对检索结果进行排序。
11.根据权利要求10所述的文档检索方法,其中,构造超图的步骤包括:
使用域本体信息从文档中抽取概念并计算概念的权重;
针对文档构造初始超图;
使用域本体信息来改进初始超图;以及
向改进的超图中的节点和边分配权重。
12.根据权利要求11所述的文档检索方法,其中,构造初始超图的步骤包括:
针对文档中的概念的集合,创建与每一个概念相对应的节点,以形成节点集合;
针对文档中的每一个句子,增加由该句子中所包含的概念的集合形成的边,以形成边集合;以及
形成由节点集合和边集合组成的初始超图。
13.根据权利要求11所述的文档检索方法,其中,改进初始超图的步骤包括:
如果初始超图中的两个节点所对应的概念在域本体中具有相同的含义,则合并这两个节点;
如果初始超图中的任意数目的节点所对应的概念在域本体中直接关联,则增加连接这些节点的边;以及
如果初始超图中的两条边所对应的概念在域本体或初始超图中距离接近,则合并这两条边。
14.根据权利要求11所述的文档检索方法,其中,分配权重的步骤包括:
基于特定概念在文档中出现的频率,向与该特定概念相对应的节点分配权重;以及
基于特定边中包含的概念在文档中出现的频率、特定边在文档中出现的频率以及特定边的新鲜度,向该特定边分配权重,其中,所述特定边的新鲜度是所述特定边中任意两个节点的语义关联的新鲜度之和。
15.根据权利要求14所述的文档检索方法,其中,当两个节点在域本体上的语义距离不大于所述特定边中的节点个数减1的差时,所述两个节点语义关联的新鲜度是1,否则所述两个节点语义关联的新鲜度是所述两个节点在域本体上的语义距离除以所述特定边中的节点个数减1的差。
16.根据权利要求10所述的文档检索方法,其中,在目标文档集合中进行检索并对检索结果进行排序的步骤包括:
针对特定查询利用所构造的超图来生成最小扩展树;
计算所生成的最小扩展树的语义相关性分数;以及
根据语义相关性分数对文档进行排序。
17.根据权利要求16所述的文档检索方法,其中,生成最小扩展树的步骤包括:
使用贪婪算法来生成最小扩展树。
18.根据权利要求16所述的文档检索方法,其中,计算语义相关性分数的步骤包括:
通过计算最小扩展树中的所有边的权重的平均值,获得语义相关性分数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110218949.5A CN102915304B (zh) | 2011-08-01 | 2011-08-01 | 文档检索设备和方法 |
JP2012133641A JP5497105B2 (ja) | 2011-08-01 | 2012-06-13 | 文書検索装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110218949.5A CN102915304B (zh) | 2011-08-01 | 2011-08-01 | 文档检索设备和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102915304A true CN102915304A (zh) | 2013-02-06 |
CN102915304B CN102915304B (zh) | 2016-02-24 |
Family
ID=47613675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110218949.5A Active CN102915304B (zh) | 2011-08-01 | 2011-08-01 | 文档检索设备和方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5497105B2 (zh) |
CN (1) | CN102915304B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354280A (zh) * | 2015-10-30 | 2016-02-24 | 中国科学院自动化研究所 | 一种基于社会媒体平台的社会事件的跟踪和演变方法 |
CN106372087A (zh) * | 2015-07-23 | 2017-02-01 | 北京大学 | 一种面向信息检索的信息地图生成方法及其动态更新方法 |
JP2017041208A (ja) * | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | グラフ変換装置、方法、及びプログラム |
CN111949679A (zh) * | 2019-05-17 | 2020-11-17 | 上海戈吉网络科技有限公司 | 一种文档检索系统及方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10678822B2 (en) * | 2018-06-29 | 2020-06-09 | International Business Machines Corporation | Query expansion using a graph of question and answer vocabulary |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243815A1 (en) * | 2007-03-30 | 2008-10-02 | Chan James D | Cluster-based assessment of user interests |
CN101986299A (zh) * | 2010-10-28 | 2011-03-16 | 浙江大学 | 基于超图的多任务个性化网络服务方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3577972B2 (ja) * | 1998-10-19 | 2004-10-20 | 日本電信電話株式会社 | 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 |
JP3581074B2 (ja) * | 2000-03-07 | 2004-10-27 | 日本電信電話株式会社 | 文書ダイジェスト作成方法、文書検索装置および記録媒体 |
-
2011
- 2011-08-01 CN CN201110218949.5A patent/CN102915304B/zh active Active
-
2012
- 2012-06-13 JP JP2012133641A patent/JP5497105B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243815A1 (en) * | 2007-03-30 | 2008-10-02 | Chan James D | Cluster-based assessment of user interests |
CN101986299A (zh) * | 2010-10-28 | 2011-03-16 | 浙江大学 | 基于超图的多任务个性化网络服务方法 |
Non-Patent Citations (1)
Title |
---|
吴刚: "RDF图数据管理的关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372087A (zh) * | 2015-07-23 | 2017-02-01 | 北京大学 | 一种面向信息检索的信息地图生成方法及其动态更新方法 |
CN106372087B (zh) * | 2015-07-23 | 2019-12-13 | 北京大学 | 一种面向信息检索的信息地图生成方法及其动态更新方法 |
JP2017041208A (ja) * | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | グラフ変換装置、方法、及びプログラム |
CN105354280A (zh) * | 2015-10-30 | 2016-02-24 | 中国科学院自动化研究所 | 一种基于社会媒体平台的社会事件的跟踪和演变方法 |
CN111949679A (zh) * | 2019-05-17 | 2020-11-17 | 上海戈吉网络科技有限公司 | 一种文档检索系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5497105B2 (ja) | 2014-05-21 |
JP2013033452A (ja) | 2013-02-14 |
CN102915304B (zh) | 2016-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Full‐text citation analysis: A new method to enhance scholarly networks | |
Phan et al. | Pair-linking for collective entity disambiguation: Two could be better than all | |
Ghosh et al. | A tutorial review on Text Mining Algorithms | |
Shen et al. | A probabilistic model for linking named entities in web text with heterogeneous information networks | |
Liu et al. | Full-text based context-rich heterogeneous network mining approach for citation recommendation | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
Belhadi et al. | Exploring pattern mining algorithms for hashtag retrieval problem | |
CN104239513A (zh) | 一种面向领域数据的语义检索方法 | |
CN111221968B (zh) | 基于学科树聚类的作者消歧方法及装置 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
US20120317125A1 (en) | Method and apparatus for identifier retrieval | |
Aggarwal et al. | Wikipedia-based distributional semantics for entity relatedness | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN102915304B (zh) | 文档检索设备和方法 | |
Balasubramaniam | Hybrid fuzzy-ontology design using FCA based clustering for information retrieval in semantic web | |
Adek et al. | Online Newspaper Clustering in Aceh using the Agglomerative Hierarchical Clustering Method | |
Sirsat et al. | Mining knowledge from text repositories using information extraction: A review | |
Nasution | Extracting keyword for disambiguating name based on the overlap principle | |
Brochier et al. | New datasets and a benchmark of document network embedding methods for scientific expert finding | |
Mekthanavanh et al. | Social web video clustering based on multi-modal and clustering ensemble | |
Ren et al. | Role-explicit query extraction and utilization for quantifying user intents | |
Han et al. | Mining Technical Topic Networks from Chinese Patents. | |
Chahal et al. | An efficient web page ranking for semantic web | |
Khattak et al. | Context-aware search in dynamic repositories of digital documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |