CN105117386A

CN105117386A - 一种基于图书内容结构的语义关联方法

Info

Publication number: CN105117386A
Application number: CN201510599924.2A
Authority: CN
Inventors: 王强; 宁吴夏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2015-09-19
Filing date: 2015-09-19
Publication date: 2015-12-02

Abstract

本发明公开了一种基于图书内容结构的语义关联方法，包括如下步骤：（1）接收用户检索请求，并结合领域词典对其进行中文分词，生成用户检索初始关键词集T1。（2）基于领域本体对初始关键词集T1进行语义关联度计算，生成经领域本体关联后检索向量V1。（3）关键词集T1对图书库检索，取前N本。（4）基于上述前N本图书的内容结构对T1进行语义关联，生成经图书内容结构关联后的检索向量V2。（5）对检索向量V1、V2进行融合，生成最终的融合领域本体语义信息和图书内容结构语义信息的综合检索向量V3。本发明能够解决目前仅通过领域本体语义扩展过度所导致查全率增加、查准率降低现象。

Description

一种基于图书内容结构的语义关联方法

技术领域

本发明设计数字图书领域，尤其涉及结合领域本体和图书内容对用户检索请求进行语义关联的方法。

背景技术

数字图书馆的核心竞争力是对数字图书的准确检索，而准确检索的核心是对图书内容的准确理解和对用户检索意图的准确理解，查询扩展是准确分析用户检索请求，以提高检索准确率的有效方法。

基于本体的查询扩展思想源于1994年Voorhees提出并通过后续不断深入研究而成。在目前图书检索领域，语义查询扩展方法主要借助领域本体概念间的各种关系进行语义扩展，大部分算法只找到语义关联词，默认查询扩展词和原查询词权重一样，常导致“主题偏移”和查准率下降。

基于局部分析法的查询扩展思想，利用初始检索结果与前面相关度最高的若干篇文档来选取扩展词。局部反馈法是多次TREC评测会议公认的最有代表性的局部分析方法，是一种简单、有效的查询扩展技术。它能够整合关键词在语料集中的全局统计信息,使所选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。查询扩展是将图书目录内容作为局部文档，根据语料库中实际关键词见的共现关系进行，较好解决了“主题偏移”的现象。

因此，本发明公布的一种基于图书内容结构的语义关联方法，综合考虑领域本体和实际图书内容中关键词的关联性，有效解决因查询“主题偏移”导致的图书检索查全率、查准率低下的问题。

发明内容

本发明所要解决的技术问题在于提供一种基于图书内容结构的语义关联方法。该方法可用于图书搜索引擎中，对用户的检索请求进行语义关联并筛选得到扩展关键词集，从而提高图书检索的精度。

一种基于图书内容结构的语义关联方法包括如下步骤：(1)接收用户检索请求，并结合领域词典对其进行中文分词，生成用户检索初始关键词集T1。(2)基于领域本体对初始关键词集T1进行语义关联度计算，生成经领域本体关联后检索向量V1。(3)关键词集T1对图书库检索，取前N本。(4)基于上述前N本图书的内容结构对T1进行语义关联，生成经图书内容结构关联后的检索向量V2。(5)对检索向量V1、V2进行融合，生成最终的融合领域本体语义信息和图书内容结构语义信息的综合检索向量V3。

进一步，本发明中的步骤(1)进一步包括：结合领域词典对用户检索请求进行中文分词、去除停用词，生成用户检索初始关键词集T1，涉及的领域词典在专家参与下构建。

进一步，本发明中的步骤(2)进一步包括:将T1中关键词分别映射到领域本体，并根据本体概念语义关联度算法进行关键词扩展，并计算出扩展关键词的权重。

语义关联度算法见公式(1)包括：语义相似度计算sim(ci，cj)、语义关联度计算rel(ci，cj)

simrel(ci，cj)＝sim(ci，cj)+rel(ci，cj)+sim(ci，cj)×rel(ci，cj)(1)

生成领域本体关联后的检索向量V1，向量中关键词ci的权重wi代表它与

初始关键词的相关程度。

V1＝((c1，w1)，(c2，w2)，(c3，w3)，...，(cn，wn)

进一步，本发明中的步骤(3)进一步包括:关键词集T1对图书库检索，对图书库中的图书进行领域词典参与的中文分词，对图书目录结构的题名、章、节分别赋予不同的权重构建索引，其中权重根据各部分对主题的贡献程度大小来设置，最后根据关键词在目录中出现的位置、频率等因素综合计算排序输出，并取出前N本图书参与后续步骤。

进一步，本发明中的所述步骤(4):基于上述前N本图书的内容结构对T1进行语义关联，图书内容结构本质为树状结构，根节点为图书题名节点，往下各层分别是各章标题节点、节标题节点、子节标题节点，分别对各节点内容结合领域词典进行中文分词，将T1中关键词分别映射到图书内容结构树，根据相应的结构语义关联算法，计算扩展词的权重。

结构语义关联算法见公式(2)：

W(k,q|D)＝log(stf(k|D)+1.0)*log(stf(q|D)+1.0)(2)

上式，对传统的局部共现公式仅关键词出现的频率做了修改，考虑了关键词在局部文档所处的位置和频率。

生成经图书内容结构树扩展后的检索向量V2,向量中关键词的权重代表它与初始关键词的相关程度。

V2＝((c1，w‘1)，(c2，w’2)，(c3，w‘3)，...，(cn，w’n)

进一步，本发明中的所述步骤(5):对检索向量V1、V2进行融合，根据相应融合算法对V1、V2中相同关键词的权重进行合并、不同关键词权重值进行调整，并根据筛选策略，保留权重大于某一阈值的关键词，生成最后经过领域本体和图书内容结构双重语义关联的向量V3。

V3＝θV1+μV2

θ、μ是调节因子，θ+μ＝1，经过融合向量V1、V2使得同时出现在领域本体和图书内容结构中的关键词具有更高的权重，仅出现在领域本体或者图书目录内容结构中的关键词权重被削弱，使得图书的语义关联更准确。

本发明的有益效果：本发明将关键词映射到图书领域本体进行领域内的语义扩展。查询扩展是将图书目录内容作为局部文档，根据语料库中实际关键词见的共现关系进行，采用融合策略将二者综合考虑。能解决目前仅通过领域本体语义扩展过度，而导致查全率增加、查准率降低现象；能解决传统局部共现概率模型仅考虑初次返回文本中关键词频率，而不考虑其所处位置对权重影响，导致扩展后关键词权重不能充分代表其相对重要程度，而导致检索结果偏离用户意图的问题；能解决目前图书检索效果难以满足用户需求的现象。

附图说明

图1为本发明方法的逻辑流程图。

具体实施方式

为使本发明的上述目的、特征和优点更加明显易懂，下面结合附图和具体实施方式对本发明做进一步的详细说明：

图1是本发明所述方法的处理流程图，如图所示本发明包括如下几个步骤：

步骤(1):结合领域词典对用户检索请求进行中文分词、去除停用词，生成用户检索初始关键词集T1。涉及的领域词典在专家参与下构建。

步骤(2):生成经领域本体关联后检索向量V1。将T1映射到领域本体，根据本体概念间语义关联度算法分别计算T1中各关键词与本体中其它节点间的语义相关度，相关度值为相应关键词的权重，得到向量V1。

V1＝((c1，w1)，(c2，w2)，(c3，w3)，...，(cn，wn)

其中：wi代表概念ci的语义关联权重，权重越大代表它与用户意图的关联性越大。

例如有本体中的两个概念节点ci、cj，它们的语义关联度根据公式(1)计算:

simrel(ci，cj)＝sim(ci，cj)+rel(ci，cj)+sim(ci，cj)×rel(ci，cj)(1)

公式(1)语义关联度包括：语义相似度计算sim(ci，cj)、语义关联度计算rel(ci，cj)。

例如两个概念节点ci、cj，它们的语义相似度计算如公式(2)，语义相关度计算如公式(3)

s i m (c i, c j) = \{\begin{matrix} 1 & c i = c j \\ \frac{α}{d i s \tan c e (c i, c j)} \times \frac{β | N o d e S e t (c i) \cap N o d e S e t (c j) |}{N o d e S e t (c i) \cup N o d e S e t (c j)} \\ \times \frac{1}{y * | L e v e l (c i) - L e v e l (c j) |} & c i &NotEqual; c j \end{matrix} - - - (2)

r e l (c i, c j) = \{\begin{matrix} 1 \\ \frac{λ}{S h o r t e s t P (c i, c j) + λ} \end{matrix} - - - (3)

α、β、γ为可调节的参数，分别反映语义距离、语义重合度和节点层次差对语义相似度的贡献程度。distance(ci，cj)表示从ci到cj所经过的路径长度，NodeSet(ci)是从ci出发，向上直到根R所经过的概念节点集合，Level(ci)表示节点ci在本体层次树中所处的层次，ShortestP(ci，cj)表示ci到cj的最短路径长度。

步骤(3)关键词集T1对图书库检索，对图书库中的图书进行领域词典参与的中文分词，对图书目录结构的题名、章、节分别赋予不同的权重构建索引，其中权重根据各部分对主题的贡献程度大小来设置，最后根据关键词在目录中出现的位置、频率等因素综合计算排序输出，并取出前N本图书参与后续步骤。

步骤(4)基于上述前N本图书的内容结构对T1进行语义关联，图书内容结构本质为树状结构，根节点为图书题名节点，往下各层分别是各章标题节点、节标题节点、子节标题节点，分别对各节点内容结合领域词典进行中文分词，将T1中关键词分别映射到图书内容结构树，根据相应的结构语义关联算法，计算扩展词的权重，生成经图书内容结构树扩展后的检索向量V2,

V2＝((c1，w‘1)，(c2，w’2)，(c3，w‘3)，...，(cn，w’n)

向量中关键词的权重代表它与初始关键词的相关程度，结构语义相关算法如公式(4)

W(k,q|D)＝log(stf(k|D)+1.0)*log(stf(q|D)+1.0)(4)

上式，结构语义关联度算法考虑关键词在局部文档所处的位置，对传统的局部共现公式中关键词出现的频率做了修改。

修改部分：传统局部共现公式中tf(k|D),代表关键词k在文档D中出现的频率，将其修改为结构频率Mi代表关键词k所处第i个位置的结构权重,m代表在文档D中关键词K出现的次数。

对前N本图书做图书内容结构关联扩展后，对其中所有相同关键词在不同图书中的共现权重做合并，参照公式(5)

W^{'} (k, q) = \frac{Σ_{I}^{N} W (k, q | D i)}{N} - - - (5),

并进行归一化。

步骤(5):对检索向量V1、V2进行融合，根据相应融合算法对V1、V2中相同关键词的权重进行合并、不同关键词权重值进行调整，并根据筛选策略，保留权重大于某一阈值的关键词，生成最后经过领域本体和图书内容结构双重语义关联的向量V3。融合策略见公式(6)。

V3＝θV1+μV2(6)

θ、μ是调节因子，θ+μ＝1，经过融合向量V1、V2使得同时出现在领域本体和图书内容结构中的关键词具有更高的权重，仅出现在领域本体或者图书目录内容结构中的关键词权重被削弱，可有效解决”用户意图偏离“的现象。

以上是本发明对优选实施例的详细说明，但是本领域的普通技术人员应该意识到，在本发明范围内和精神指导下，各种改进添加和替换都是可能的，这些都在本发明权利要求所限定的保护范围内。

Claims

1.一种基于图书内容结构的语义关联方法,其特征在于包括以下步骤：

步骤一：接收用户检索请求，并结合领域词典对其进行中文分词，生成用户检索初始关键词集T1；

步骤二：基于领域本体对初始关键词集T1进行语义关联度计算，生成领域本体关联后检索向量V1；

步骤三：关键词集T1对图书库检索，取前N本；

步骤四：基于上述前N本图书的内容结构对T1进行语义关联，生成图书内容结构关联后的检索向量V2；

步骤五：对检索向量V1、V2进行融合，生成最终的融合领域本体语义信息和图书内容结构语义信息的综合检索向量V3。

2.根据权利要求1所述的方法，其特征在于：所述步骤一:结合领域词典对用户检索请求进行中文分词、去除停用词，生成用户检索初始关键词集T1，涉及的领域词典在专家参与下构建。

3.根据权利要求1所述的方法，其特征在于：所述步骤二:将T1中关键词分别映射到领域本体，并根据本体概念语义关联度算法进行关键词扩展，并计算出扩展关键词的权重，生成领域本体关联后的检索向量V1，向量中关键词的权重代表它与初始关键词的相关程度。

4.根据权利要求1所述的方法，其特征在于：所述步骤三:关键词集T1对图书库检索，对图书库中的图书进行领域词典参与的中文分词，对图书目录结构的题名、章、节分别赋予不同的权重构建索引，其中权重根据各部分对主题的贡献程度大小来设置，最后根据关键词在目录中出现的位置、频率因素综合计算排序输出，并取出前N本图书参与后续步骤。

5.根据权利要求1所述的方法，其特征在于：所述步骤四:基于上述前N本图书的内容结构对T1进行语义关联，图书内容结构本质为树状结构，根节点为图书题名节点，往下各层分别是各章标题节点、节标题节点、子节标题节点，分别对各节点内容结合领域词典进行中文分词，将T1中关键词分别映射到图书内容结构树，根据相应的结构语义关联算法，计算扩展词的权重，生成经图书内容结构树扩展后的检索向量V2,向量中关键词的权重代表它与初始关键词的相关程度。

6.根据权利要求1所述的方法，其特征在于：所述步骤五:对检索向量V1、V2进行融合，根据相应融合算法对V1、V2中相同关键词的权重进行合并、不同关键词权重值进行调整，并根据筛选策略，保留权重大于某一阈值的关键词，生成最后经过领域本体和图书内容结构双重语义关联的向量V3。