CN105117487A

CN105117487A - 一种基于内容结构的图书语义检索方法

Info

Publication number: CN105117487A
Application number: CN201510600565.8A
Authority: CN
Inventors: 王强; 宁吴夏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Taoyi Data Technology Co ltd
Priority date: 2015-09-19
Filing date: 2015-09-19
Publication date: 2015-12-02
Anticipated expiration: 2035-09-19
Also published as: CN105117487B

Abstract

本发明提供一种基于图书内容结构的语义关联检索方法。本发明考虑到图书的题名、目录、摘要对图书主要内容贡献程度不同以及目录中的章标题、节标题对体现图书的内容重要程度不同，将图书内容结构，包括图书标题、目录结构、摘要结构用领域词典进行中文分词、去停用词处理和用领域本体进行同义词扩展而得到一组关键词，并对处于图书不同结构的关键词赋予不同权重，用向量空间模型存储带结构权重的图书内容。采用领域本体对用户输入的查询词进行语义关联扩展，通过计算用户检索意图向量和图书内容结构向量相似度来更准确地获得与用户查询内容最相关的图书。本发明提高了查全率、查全率，改善了现在图书检索中关键词机械匹配。

Description

一种基于内容结构的图书语义检索方法

技术领域

本发明涉及数字图书领域，尤其涉及对图书的内容进行语义关联检索的方法。

背景技术

数字图书馆的核心竞争力是对数字图书的准确检索，而准确检索的核心是对图书内容的准确理解和对用户检索意图的准确理解，目前对图书内容的语义检索研究远远滞后实际需求。

目前数字图书馆、当当网、亚马逊等图书销售网用户对图书的检索主要是基于关键字查询，用户的查询意图不能被合理理解、图书内容信息通过题目和主题词不能被充分表达，用户往往需要通过大量的人工筛选去选择目标，设置要进行二次检索，给用户带来很大的不便，查全率、查准率也不能令人满意。

通过分析不难发现通常一本图书不止一个子主题，目录内容比题名、主题名称更能表现图书所包含的多个主题及其所占的比重。为了解决上述问题，本发明提出一种语义关联检索方法，综合考虑目录中关键词之间的语义关联以及关键词所处位置对以主题表达的贡献程度，提高查全率和查准率。

发明内容

鉴于现有技术存在的问题，本发明旨在于提供一种对图书内容进行语义关联检索的方法。该方法包括如下步骤：步骤(1)构建领域词典辅助中文分词，对用户查询语句进行文本预处理，用同义词词典对关键词进行扩展，得到用户初始查询关键词集T1；步骤(2)用户初始查询关键词集T1经过领域本体进行语义关联计算，构成语义关联向量V1；步骤(3)用户初始查询关键词集T1，对图书数据库检索，获得初始图书集B1。步骤(4)分别针对初始图书集B1中每本书，进行T1的内容结构关联，生成若干内容结构关联向量，根据一定策略合并向量，最终形成内容结构关联向量V2；步骤(5)对步骤(2)生成的语义关联向量V1与步骤(4)生成的内容结构关联向量V2进行一定策略的向量融合，最后选取阈值在一定范围内的关键词作为最终的用户意图查询关键词集T2；步骤(6)用户意图查询关键词集T2对图书数据库进行检索，并通过计算T2对应的权值向量V3和图书向量V4的余弦相似度，将检索到的图书从大到小排序输出。

进一步，本发明中的步骤(1)进一步包括：分析提取领域知识的概念，经过专家参与构建领域词典，用户输入的检索语句在领域词典参与下进行中文分词，并进行同义词扩展得到关键词集，作为用户初始检索关键词集，参与后续的语义关联、结构关联。

进一步，本发明中的步骤(2)进一步包括：分析提取领域知识的概念、实例、关系构建领域本体。检索词集在上述领域本体中映射，并根据语义相似度、相关度算法，进行语义关联。如果不同关键词经过领域本体语义关联到同一个概念，则权重取最大的权值。

进一步，本发明中的步骤(3)进一步包括：领域词典参与图书中文分词，并对图书数据库建立索引，将用户检索词集的各个关键词分别在索引中检索，获得包含用户检索关键词的图书集前N本，服务于下一步内容结构关联。

进一步，本发明中的步骤(4)进一步包括：对步骤(3)所得图书集中各图书书名、目录用树状结构进行存储，本文定义为内容结构，其中根节点是书名节点。计算映射到的节点与其他节点的结构关联度，并对叶子节点信息进行基于领域本体的语义扩展，将其子概念加入，生成结构语义关联向量。

进一步，本发明中的步骤(5)进一步包括：对经过领域本体语义关联和内容结构关联的向量进行一定策略的向量融合，仅通过语义关联导致关联过范、仅经过内容结构关联导致的关联过窄，因为目录虽然是图书主要内容的代表，但是仅仅是浓缩的表达，有许多相关的重要概念都出现在图书内容中而非目录中，所以仅经过内容结构关联会带来概念遗漏问题。融合策略可以使同时在领域本体和内容结构中关联度都大的词语权重更大，仅在其中一个中出现的词语关联度弱化，最后选取融合后的向量阈值在一定范围内的关键词作为用户意图检索关键词。

进一步，本发明中的步骤(6)进一步包括：经过语义关联处理后的向量关键词对图书数据库进行检索，在图书内容结构中不同层次的节点根据其对图书主题内容贡献程度不同而赋予不同权重，结合向量空间模型，通过计算内容语义关联向量和图书向量空间模型表示的向量的余弦相似度，将检索到的图书排序输出。

本发明的有益效果：充分理解用户的查询意图，解决同义词问题，结合语义关联、内容结构关联推理用户查询意图，提高查全率、查全率，改善现在图书检索中关键词机械匹配，真正实现将用户意图和图书内容智能匹配的检索。

附图说明

图1是本发明所述方法的流程图。

具体实施方式

为使本发明的具体特征和优点更加明显易懂，下面结合附图和具体实施方式，对本发明做进一步的详细说明。

图1是本发明所述方法的流程图，如图1所示，本发明包括如下几个步骤：

步骤(1)用户输入检索语句经过领域词典预处理得到若干关键词，对上述关键词进行领域本体的同义词扩展，得到用户初始查询关键词集T1。例如用户输入中文分词技术，扩展词需要加入中文分词、分词技术。

步骤(2)查询关键词集T1在领域本体中映射，并根据语义相似度、相关度算法，计算所映射的概念与其它概念的语义关联度。如果不同关键词经过领域本体语义关联到同一个概念，则此概念的权重为计算得到的最大值，得到语义关联向量V1。

V1＝(c1，w1)，(c2，w2)，(c3，w3)，...，(cn，wn)

其中：wi代表概念ci与T1中的代表用户意图的查询关键词的语义关联权重，权重越大代表它与用户意图的关联性越大。

例如有本体中的两个概念节点ci、cj，它们的语义关联度根据公式(1)来计算:

simrel(ci，cj)＝sim(ci，cj)+rel(ci，cj)+sim(ci，cj)×rel(ci，cj)(1)

公式(1)语义关联度包括语义相似度计算、语义相关度计算，例如两个概念节点ci、cj，它们的语义相似度计算如公式(2)，语义相关度计算如公式(3)

s i m (c i, c j) = {\begin{matrix} 1 & c i = c j \\ \begin{matrix} \frac{α}{d i s \tan c e (c i, c j)} \times \frac{β | N o d e S e t (c i) \cap N o d e S e t (c j) |}{N o d e S e t (c i) \cup N o d e S e t (c j)} \\ \times \frac{1}{γ * | L e v e l (c i) - L e v e l (c j) |} \end{matrix} & c i &NotEqual; c j \end{matrix} - - - (2)

r e l (c i, c j) = \{\begin{matrix} 1 \\ \frac{λ}{S h o r t e s t P (c i, c j) + λ} \end{matrix} - - - (3)

α、β、γ为三个可调节的参数，分别反映语义距离、语义重合度和节点层次差对语义相似度的贡献程度。distance(ci，cj)表示从ci到cj所经过的路径长度，NodeSet(ci)是从ci出发，向上直到根R所经过的概念节点集合，Level(ci)表示节点ci在本体层次树中所处的层次，ShortestP(ci，cj)表示ci到cj的最短路径长度。

步骤(3)领域词典参与图书内容中文分词，并对图书数据库建立索引，将查询关键词集T1的各个关键词分别在索引中检索，获得所有包含用户检索关键词的图书，形成初始图书集B1，服务于下一步内容结构关联。

步骤(4)初始图书集B1中每本书内容都是以树状结构来描述的，其中根节点深度为0存储书名、章节点深度为1存储章标题的内容、节节点深度为2存储节标题的内容、子节节点深度为3存储子节标题的内容，用T1中的关键词映射到B1的树状结构，被直接映射到的节点权重为1，根据实验，其子节点的权重分别为0.8、若有子节点每次递减0.2，兄弟节点的权重为0.3，父节点权重为0.4，子节点权重以父节点的4/5来计算，父节点的权重为子节点权重的2/5。

根据相应的结构语义关联算法，计算扩展词的权重，生成经图书内容结构树扩展后的检索向量V2,

V2＝((c1，w‘1)，(c2，w’2)，(c3，w‘3)，...，(cn，w’n)(4)

向量中关键词的权重代表它与初始关键词的相关程度，结构语义相关算法如公式(4)

W(k,q|D)＝log(stf(k|D)+1.0)*log(stf(q|D)+1.0)(4)

结构语义关联度算法考虑关键词在局部文档所处的位置，对传统的局部共现公式中关键词出现的频率做了修改。修改部分：tf(k|D),代表关键词k在文档D中出现的频率，将其修改为结构频率Mi代表关键词k所处第i个位置的结构权重,m代表在文档D中关键词K出现的次数。

对前N本图书做图书内容结构关联扩展后，对其中所有相同关键词在不同图书中的共现权重做合并，参照公式(5)

并进行归一化，

其中W‘(k,q)代表初始查询关键词q经过内容结构关联的关键词K的权重，在向量中表示为(k,w’)。

具体到扩展向量中，每一个关键词K会与一个概念C想对应，即可以表示为(C,w’)。

步骤(5)对经过领域本体语义关联和内容结构关联的向量进行一定策略的向量融合，选取融合后的向量阈值在一定范围内的关键词作为用户意图检索关键词。融合策略见公式(6)

V3＝θV1+μV2(6)

θ、μ是调节因子，θ+μ＝1，经过融合向量V1、V2使得同时出现在领域本体和图书内容结构中的关键词具有更高的权重，仅出现在领域本体或者图书目录内容结构中的关键词权重被削弱，这样可以有效解决”用户意图偏离“的现象。

步骤(6)利用步骤(1)构建的领域词典对图书内容进行文本预处理。用向量空间模型表示图书的内容结构，综合考虑图书内容中关键词次数和出现位置来计算关键词的权重。

经过领域词典对图书预处理得到的词项，能有效解决通用词典预处理造成的领域词汇不合理切分现象，使得词项更能反映图书语义信息。

在图书内容结构中不同层次的节点根据其对图书主题内容贡献程度不同而赋予不同权重，具体根据实验取题名(书名)、章、节、子节的权重比例为5:3:2:1，称之为文本结构权重。

本发明对传统的向量空间模型中仅考虑词项出现次数的频率函数tfi(d)进行改进，定义为词项ti在文档d中的信息量频率函数stfi(d)：其中j＝(1,…,n)代表词项ti在文档d中出现的次数，δj代表第j出的结构权重，M代表图书d中所有词项的个数,N为所有图书的数目，ni为含有词条的图书数目。得到图书内容结构的向量空间模型中词项权重计算公式(7)

w i = \frac{s t f i (d) \log (\frac{N}{n i} + 0.1)}{\sqrt{Σ_{i = 1}^{n} {(s t f i (d))}^{2} * \log^{2} (\frac{N}{n i} + 0.1)}} - - - (7)

采用上述方法可以计算出图书内容结构调整的文本向量空间。每一本图书内容都可以处理成一个向量:

V4＝(t1，w1(d)；...；tn，wn(d))

步骤(7)用上述步骤(5)所得向量V3中关键词对图书数据库进行检索，将检索得到的图书排序输出。

用户意图语句经过本体和图书内容结构得到语义关联向量v3，图书内容经过结构关联并用向量空间模型表示，得到图书内容向量v4，将v3、v4做余弦相似度计算，S代表检索到的图书与用户检索意图之间的相关度，S值越大代表图书越符合用户的查询意图，见公式(8)

S = c o s θ V 3 * V 4 = \frac{Σ_{k = 1}^{n} w k (q) * w k (d i)}{\sqrt{(Σ_{k = 1}^{n} {wk}^{2} (q)) (Σ_{k = 1}^{n} {wk}^{2} (d i))}} - - - (8)

以上是本发明对优选实施例的详细说明，但是本领域的普通技术人员应该意识到，在本发明范围内和精神指导下，各种改进添加和替换都是可能的，这些都在本发明权利要求所限定的保护范围内。

Claims

1.一种基于内容结构的图书语义检索方法,其特征在于包括以下步骤：

步骤（1）用户输入检索语句经过领域词典预处理得到若干关键词，对上述关键词进行同义词词典扩展，得到初始检索词集；

步骤（2）检索词集经过领域本体进行语义关联度计算扩展得到语义关联检索词集；

步骤（3）选取步骤（1）检索词集的各个检索词，对图书数据库进行检索，得到用户意图的图书集；

步骤（4）对用户意图图书集中各图书书名、目录用树状结构进行描述，本文定义为内容结构，其中根节点是书名节点；

计算映射到的节点与其他节点的结构关联度，并对叶子节点信息进行基于领域本体的语义扩展，生成结构关联向量；

步骤（5）对经过领域本体关联和经过内容结构关联的向量进行向量融合，最后选取融合后的向量阈值在设定范围内的关键词作为用户意图检索关键词；

步骤（6）经过语义关联处理后的向量关键词对图书数据库进行检索，结合向量空间模型，通过计算内容语义关联向量和图书向量空间模型表示的向量的余弦相似度，将检索到的图书排序输出。

2.根据权利要求1所述的方法，其特征在于：所述步骤（1）进一步包括:分析提取领域知识的概念，经过专家参与构建领域词典，用户输入的检索语句在领域词典参与下进行中文分词，并进行同义词扩展得到关键词集，作为用户初始检索关键词集，参与后续的语义关联、结构关联。

3.根据权利要求1所述的方法，其特征在于：所述步骤（2）分析提取领域知识的概念、实例、关系构建领域本体；

检索词集在上述领域本体中映射，并根据语义相似度、相关度算法，进行语义关联；

如果不同关键词经过领域本体语义关联到同一个概念，则权重取最大的权值。

4.根据权利要求1所述的方法，其特征在于：所述步骤（3）进一步包括：领域词典参与图书中文分词，并对图书数据库建立索引，将用户检索词集的各个关键词分别在索引中检索，获得包含用户检索关键词的图书集的前N本，服务于下一步内容结构关联。

5.根据权利要求1所述的方法，其特征在于：所述步骤（4）进一步包括：对步骤（3）所得图书集中各图书书名、目录用树状结构进行存储，本文定义为内容结构，其中根节点是书名节点；

计算映射到的节点与其他节点的结构关联度，并对叶子节点信息进行基于领域本体的语义扩展，将其子概念加入，生成结构语义关联向量。

6.根据权利要求1所述的方法，其特征在于：所述步骤（5）进一步包括：对经过领域本体语义关联和内容结构关联的向量进行一定策略的向量融合，仅通过语义关联导致关联过范、仅经过内容结构关联导致的关联过窄，因为目录虽然是图书主要内容的代表，但是仅仅是浓缩的表达，有许多相关的重要概念都出现在图书内容中而非目录中，所以仅经过内容结构关联会带来概念遗漏问题；

融合策略可以使同时在领域本体和内容结构中关联度都大的词语权重更大，仅在其中一个中出现的词语关联度弱化，最后选取融合后的向量阈值在一定范围内的关键词作为用户意图检索关键词。

7.根据权利要求1所述的方法，其特征在于：所述步骤（6）进一步包括：经过语义关联处理后的向量关键词对图书数据库进行检索，在图书内容结构中不同层次的节点根据其对图书主题内容贡献程度不同而赋予不同权重，结合向量空间模型，通过计算内容语义关联向量和图书向量空间模型表示的向量的余弦相似度，将检索到的图书排序输出。