CN105117386A - 一种基于图书内容结构的语义关联方法 - Google Patents

一种基于图书内容结构的语义关联方法 Download PDF

Info

Publication number
CN105117386A
CN105117386A CN201510599924.2A CN201510599924A CN105117386A CN 105117386 A CN105117386 A CN 105117386A CN 201510599924 A CN201510599924 A CN 201510599924A CN 105117386 A CN105117386 A CN 105117386A
Authority
CN
China
Prior art keywords
keyword
association
semantic
domain
book content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510599924.2A
Other languages
English (en)
Inventor
王强
宁吴夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201510599924.2A priority Critical patent/CN105117386A/zh
Publication of CN105117386A publication Critical patent/CN105117386A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于图书内容结构的语义关联方法,包括如下步骤:(1)接收用户检索请求,并结合领域词典对其进行中文分词,生成用户检索初始关键词集T1。(2)基于领域本体对初始关键词集T1进行语义关联度计算,生成经领域本体关联后检索向量V1。(3)关键词集T1对图书库检索,取前N本。(4)基于上述前N本图书的内容结构对T1进行语义关联,生成经图书内容结构关联后的检索向量V2。(5)对检索向量V1、V2进行融合,生成最终的融合领域本体语义信息和图书内容结构语义信息的综合检索向量V3。本发明能够解决目前仅通过领域本体语义扩展过度所导致查全率增加、查准率降低现象。

Description

一种基于图书内容结构的语义关联方法
技术领域
本发明设计数字图书领域,尤其涉及结合领域本体和图书内容对用户检索请求进行语义关联的方法。
背景技术
数字图书馆的核心竞争力是对数字图书的准确检索,而准确检索的核心是对图书内容的准确理解和对用户检索意图的准确理解,查询扩展是准确分析用户检索请求,以提高检索准确率的有效方法。
基于本体的查询扩展思想源于1994年Voorhees提出并通过后续不断深入研究而成。在目前图书检索领域,语义查询扩展方法主要借助领域本体概念间的各种关系进行语义扩展,大部分算法只找到语义关联词,默认查询扩展词和原查询词权重一样,常导致“主题偏移”和查准率下降。
基于局部分析法的查询扩展思想,利用初始检索结果与前面相关度最高的若干篇文档来选取扩展词。局部反馈法是多次TREC评测会议公认的最有代表性的局部分析方法,是一种简单、有效的查询扩展技术。它能够整合关键词在语料集中的全局统计信息,使所选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。查询扩展是将图书目录内容作为局部文档,根据语料库中实际关键词见的共现关系进行,较好解决了“主题偏移”的现象。
因此,本发明公布的一种基于图书内容结构的语义关联方法,综合考虑领域本体和实际图书内容中关键词的关联性,有效解决因查询“主题偏移”导致的图书检索查全率、查准率低下的问题。
发明内容
本发明所要解决的技术问题在于提供一种基于图书内容结构的语义关联方法。该方法可用于图书搜索引擎中,对用户的检索请求进行语义关联并筛选得到扩展关键词集,从而提高图书检索的精度。
一种基于图书内容结构的语义关联方法包括如下步骤:(1)接收用户检索请求,并结合领域词典对其进行中文分词,生成用户检索初始关键词集T1。(2)基于领域本体对初始关键词集T1进行语义关联度计算,生成经领域本体关联后检索向量V1。(3)关键词集T1对图书库检索,取前N本。(4)基于上述前N本图书的内容结构对T1进行语义关联,生成经图书内容结构关联后的检索向量V2。(5)对检索向量V1、V2进行融合,生成最终的融合领域本体语义信息和图书内容结构语义信息的综合检索向量V3。
进一步,本发明中的步骤(1)进一步包括:结合领域词典对用户检索请求进行中文分词、去除停用词,生成用户检索初始关键词集T1,涉及的领域词典在专家参与下构建。
进一步,本发明中的步骤(2)进一步包括:将T1中关键词分别映射到领域本体,并根据本体概念语义关联度算法进行关键词扩展,并计算出扩展关键词的权重。
语义关联度算法见公式(1)包括:语义相似度计算sim(ci,cj)、语义关联度计算rel(ci,cj)
simrel(ci,cj)=sim(ci,cj)+rel(ci,cj)+sim(ci,cj)×rel(ci,cj)(1)
生成领域本体关联后的检索向量V1,向量中关键词ci的权重wi代表它与
初始关键词的相关程度。
V1=((c1,w1),(c2,w2),(c3,w3),...,(cn,wn)
进一步,本发明中的步骤(3)进一步包括:关键词集T1对图书库检索,对图书库中的图书进行领域词典参与的中文分词,对图书目录结构的题名、章、节分别赋予不同的权重构建索引,其中权重根据各部分对主题的贡献程度大小来设置,最后根据关键词在目录中出现的位置、频率等因素综合计算排序输出,并取出前N本图书参与后续步骤。
进一步,本发明中的所述步骤(4):基于上述前N本图书的内容结构对T1进行语义关联,图书内容结构本质为树状结构,根节点为图书题名节点,往下各层分别是各章标题节点、节标题节点、子节标题节点,分别对各节点内容结合领域词典进行中文分词,将T1中关键词分别映射到图书内容结构树,根据相应的结构语义关联算法,计算扩展词的权重。
结构语义关联算法见公式(2):
W(k,q|D)=log(stf(k|D)+1.0)*log(stf(q|D)+1.0)(2)
上式,对传统的局部共现公式仅关键词出现的频率做了修改,考虑了关键词在局部文档所处的位置和频率。
生成经图书内容结构树扩展后的检索向量V2,向量中关键词的权重代表它与初始关键词的相关程度。
V2=((c1,w‘1),(c2,w’2),(c3,w‘3),...,(cn,w’n)
进一步,本发明中的所述步骤(5):对检索向量V1、V2进行融合,根据相应融合算法对V1、V2中相同关键词的权重进行合并、不同关键词权重值进行调整,并根据筛选策略,保留权重大于某一阈值的关键词,生成最后经过领域本体和图书内容结构双重语义关联的向量V3。
V3=θV1+μV2
θ、μ是调节因子,θ+μ=1,经过融合向量V1、V2使得同时出现在领域本体和图书内容结构中的关键词具有更高的权重,仅出现在领域本体或者图书目录内容结构中的关键词权重被削弱,使得图书的语义关联更准确。
本发明的有益效果:本发明将关键词映射到图书领域本体进行领域内的语义扩展。查询扩展是将图书目录内容作为局部文档,根据语料库中实际关键词见的共现关系进行,采用融合策略将二者综合考虑。能解决目前仅通过领域本体语义扩展过度,而导致查全率增加、查准率降低现象;能解决传统局部共现概率模型仅考虑初次返回文本中关键词频率,而不考虑其所处位置对权重影响,导致扩展后关键词权重不能充分代表其相对重要程度,而导致检索结果偏离用户意图的问题;能解决目前图书检索效果难以满足用户需求的现象。
附图说明
图1为本发明方法的逻辑流程图。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明做进一步的详细说明:
图1是本发明所述方法的处理流程图,如图所示本发明包括如下几个步骤:
步骤(1):结合领域词典对用户检索请求进行中文分词、去除停用词,生成用户检索初始关键词集T1。涉及的领域词典在专家参与下构建。
步骤(2):生成经领域本体关联后检索向量V1。将T1映射到领域本体,根据本体概念间语义关联度算法分别计算T1中各关键词与本体中其它节点间的语义相关度,相关度值为相应关键词的权重,得到向量V1。
V1=((c1,w1),(c2,w2),(c3,w3),...,(cn,wn)
其中:wi代表概念ci的语义关联权重,权重越大代表它与用户意图的关联性越大。
例如有本体中的两个概念节点ci、cj,它们的语义关联度根据公式(1)计算:
simrel(ci,cj)=sim(ci,cj)+rel(ci,cj)+sim(ci,cj)×rel(ci,cj)(1)
公式(1)语义关联度包括:语义相似度计算sim(ci,cj)、语义关联度计算rel(ci,cj)。
例如两个概念节点ci、cj,它们的语义相似度计算如公式(2),语义相关度计算如公式(3)
s i m ( c i , c j ) = 1 c i = c j α d i s tan c e ( c i , c j ) × β | N o d e S e t ( c i ) ∩ N o d e S e t ( c j ) | N o d e S e t ( c i ) ∪ N o d e S e t ( c j ) × 1 y * | L e v e l ( c i ) - L e v e l ( c j ) | c i ≠ c j - - - ( 2 )
r e l ( c i , c j ) = 1 λ S h o r t e s t P ( c i , c j ) + λ - - - ( 3 )
α、β、γ为可调节的参数,分别反映语义距离、语义重合度和节点层次差对语义相似度的贡献程度。distance(ci,cj)表示从ci到cj所经过的路径长度,NodeSet(ci)是从ci出发,向上直到根R所经过的概念节点集合,Level(ci)表示节点ci在本体层次树中所处的层次,ShortestP(ci,cj)表示ci到cj的最短路径长度。
步骤(3)关键词集T1对图书库检索,对图书库中的图书进行领域词典参与的中文分词,对图书目录结构的题名、章、节分别赋予不同的权重构建索引,其中权重根据各部分对主题的贡献程度大小来设置,最后根据关键词在目录中出现的位置、频率等因素综合计算排序输出,并取出前N本图书参与后续步骤。
步骤(4)基于上述前N本图书的内容结构对T1进行语义关联,图书内容结构本质为树状结构,根节点为图书题名节点,往下各层分别是各章标题节点、节标题节点、子节标题节点,分别对各节点内容结合领域词典进行中文分词,将T1中关键词分别映射到图书内容结构树,根据相应的结构语义关联算法,计算扩展词的权重,生成经图书内容结构树扩展后的检索向量V2,
V2=((c1,w‘1),(c2,w’2),(c3,w‘3),...,(cn,w’n)
向量中关键词的权重代表它与初始关键词的相关程度,结构语义相关算法如公式(4)
W(k,q|D)=log(stf(k|D)+1.0)*log(stf(q|D)+1.0)(4)
上式,结构语义关联度算法考虑关键词在局部文档所处的位置,对传统的局部共现公式中关键词出现的频率做了修改。
修改部分:传统局部共现公式中tf(k|D),代表关键词k在文档D中出现的频率,将其修改为结构频率Mi代表关键词k所处第i个位置的结构权重,m代表在文档D中关键词K出现的次数。
对前N本图书做图书内容结构关联扩展后,对其中所有相同关键词在不同图书中的共现权重做合并,参照公式(5)
W ′ ( k , q ) = Σ I N W ( k , q | D i ) N - - - ( 5 ) , 并进行归一化。
步骤(5):对检索向量V1、V2进行融合,根据相应融合算法对V1、V2中相同关键词的权重进行合并、不同关键词权重值进行调整,并根据筛选策略,保留权重大于某一阈值的关键词,生成最后经过领域本体和图书内容结构双重语义关联的向量V3。融合策略见公式(6)。
V3=θV1+μV2(6)
θ、μ是调节因子,θ+μ=1,经过融合向量V1、V2使得同时出现在领域本体和图书内容结构中的关键词具有更高的权重,仅出现在领域本体或者图书目录内容结构中的关键词权重被削弱,可有效解决”用户意图偏离“的现象。
以上是本发明对优选实施例的详细说明,但是本领域的普通技术人员应该意识到,在本发明范围内和精神指导下,各种改进添加和替换都是可能的,这些都在本发明权利要求所限定的保护范围内。

Claims (6)

1.一种基于图书内容结构的语义关联方法,其特征在于包括以下步骤:
步骤一:接收用户检索请求,并结合领域词典对其进行中文分词,生成用户检索初始关键词集T1;
步骤二:基于领域本体对初始关键词集T1进行语义关联度计算,生成领域本体关联后检索向量V1;
步骤三:关键词集T1对图书库检索,取前N本;
步骤四:基于上述前N本图书的内容结构对T1进行语义关联,生成图书内容结构关联后的检索向量V2;
步骤五:对检索向量V1、V2进行融合,生成最终的融合领域本体语义信息和图书内容结构语义信息的综合检索向量V3。
2.根据权利要求1所述的方法,其特征在于:所述步骤一:结合领域词典对用户检索请求进行中文分词、去除停用词,生成用户检索初始关键词集T1,涉及的领域词典在专家参与下构建。
3.根据权利要求1所述的方法,其特征在于:所述步骤二:将T1中关键词分别映射到领域本体,并根据本体概念语义关联度算法进行关键词扩展,并计算出扩展关键词的权重,生成领域本体关联后的检索向量V1,向量中关键词的权重代表它与初始关键词的相关程度。
4.根据权利要求1所述的方法,其特征在于:所述步骤三:关键词集T1对图书库检索,对图书库中的图书进行领域词典参与的中文分词,对图书目录结构的题名、章、节分别赋予不同的权重构建索引,其中权重根据各部分对主题的贡献程度大小来设置,最后根据关键词在目录中出现的位置、频率因素综合计算排序输出,并取出前N本图书参与后续步骤。
5.根据权利要求1所述的方法,其特征在于:所述步骤四:基于上述前N本图书的内容结构对T1进行语义关联,图书内容结构本质为树状结构,根节点为图书题名节点,往下各层分别是各章标题节点、节标题节点、子节标题节点,分别对各节点内容结合领域词典进行中文分词,将T1中关键词分别映射到图书内容结构树,根据相应的结构语义关联算法,计算扩展词的权重,生成经图书内容结构树扩展后的检索向量V2,向量中关键词的权重代表它与初始关键词的相关程度。
6.根据权利要求1所述的方法,其特征在于:所述步骤五:对检索向量V1、V2进行融合,根据相应融合算法对V1、V2中相同关键词的权重进行合并、不同关键词权重值进行调整,并根据筛选策略,保留权重大于某一阈值的关键词,生成最后经过领域本体和图书内容结构双重语义关联的向量V3。
CN201510599924.2A 2015-09-19 2015-09-19 一种基于图书内容结构的语义关联方法 Pending CN105117386A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510599924.2A CN105117386A (zh) 2015-09-19 2015-09-19 一种基于图书内容结构的语义关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510599924.2A CN105117386A (zh) 2015-09-19 2015-09-19 一种基于图书内容结构的语义关联方法

Publications (1)

Publication Number Publication Date
CN105117386A true CN105117386A (zh) 2015-12-02

Family

ID=54665380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510599924.2A Pending CN105117386A (zh) 2015-09-19 2015-09-19 一种基于图书内容结构的语义关联方法

Country Status (1)

Country Link
CN (1) CN105117386A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861924A (zh) * 2017-08-17 2018-03-30 哈尔滨工业大学深圳研究生院 一种基于局部重构模型的电子书内容表示方法
CN107918607A (zh) * 2017-12-02 2018-04-17 北京工业大学 一种基于语义信息的数字档案查询与排序方法
CN108804443A (zh) * 2017-04-27 2018-11-13 安徽富驰信息技术有限公司 一种基于多特征融合的司法类案搜索方法
CN111737399A (zh) * 2020-05-28 2020-10-02 北京百度网讯科技有限公司 扩展问答集的方法、装置、电子设备和可读存储介质
CN112559600A (zh) * 2020-12-22 2021-03-26 南京万购信息科技有限公司 基于搜索引擎检索数据的企业产品名录挖掘方法
CN112836021A (zh) * 2021-02-24 2021-05-25 南京乐图软件技术有限公司 一种图书馆智能化搜索系统
CN112908441A (zh) * 2021-03-04 2021-06-04 文华学院 一种医疗平台的数据处理方法、装置以及处理设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
US20090077094A1 (en) * 2007-09-17 2009-03-19 Yan Bodain Method and system for ontology modeling based on the exchange of annotations
CN101539916A (zh) * 2008-03-17 2009-09-23 亿维讯软件(北京)有限公司 初次专利检索装置、二次专利检索装置和专利检索系统
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索系统和方法
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
US20090077094A1 (en) * 2007-09-17 2009-03-19 Yan Bodain Method and system for ontology modeling based on the exchange of annotations
CN101539916A (zh) * 2008-03-17 2009-09-23 亿维讯软件(北京)有限公司 初次专利检索装置、二次专利检索装置和专利检索系统
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索系统和方法
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨海南: ""基于语义词典和局部分析的查询扩展研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804443A (zh) * 2017-04-27 2018-11-13 安徽富驰信息技术有限公司 一种基于多特征融合的司法类案搜索方法
CN107861924A (zh) * 2017-08-17 2018-03-30 哈尔滨工业大学深圳研究生院 一种基于局部重构模型的电子书内容表示方法
CN107918607A (zh) * 2017-12-02 2018-04-17 北京工业大学 一种基于语义信息的数字档案查询与排序方法
CN107918607B (zh) * 2017-12-02 2020-05-08 北京工业大学 一种基于语义信息的数字档案查询与排序方法
CN111737399A (zh) * 2020-05-28 2020-10-02 北京百度网讯科技有限公司 扩展问答集的方法、装置、电子设备和可读存储介质
CN112559600A (zh) * 2020-12-22 2021-03-26 南京万购信息科技有限公司 基于搜索引擎检索数据的企业产品名录挖掘方法
CN112559600B (zh) * 2020-12-22 2021-07-27 南京万购信息科技有限公司 基于搜索引擎检索数据的企业产品名录挖掘方法
CN112836021A (zh) * 2021-02-24 2021-05-25 南京乐图软件技术有限公司 一种图书馆智能化搜索系统
CN112836021B (zh) * 2021-02-24 2022-04-26 南京乐图软件技术有限公司 一种图书馆智能化搜索系统
CN112908441A (zh) * 2021-03-04 2021-06-04 文华学院 一种医疗平台的数据处理方法、装置以及处理设备

Similar Documents

Publication Publication Date Title
CN105117386A (zh) 一种基于图书内容结构的语义关联方法
CN105117487B (zh) 一种基于内容结构的图书语义检索方法
CN108509425B (zh) 一种基于新颖度的中文新词发现方法
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN103136352B (zh) 基于双层语义分析的全文检索系统
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102799577B (zh) 一种中文实体间语义关系抽取方法
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
WO2024131111A1 (zh) 一种智能写作方法、装置、设备及非易失性可读存储介质
CN101685455A (zh) 数据检索的方法和系统
CN110059163B (zh) 生成模板的方法和装置、电子设备、计算机可读介质
CN104834679A (zh) 一种行为轨迹的表示、查询方法及装置
CN103198149A (zh) 一种查询纠错方法和系统
CN101650729B (zh) 一种Web服务构件库动态构造方法及其服务检索方法
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN110807326A (zh) 结合gpu-dmm与文本特征的短文本关键词提取方法
CN102314418A (zh) 一种基于上下文关联的中文相似性比较方法
CN114997288B (zh) 一种设计资源关联方法
Abderrahim et al. Using Arabic wordnet for semantic indexation in information retrieval system
CN105740235A (zh) 一种融合越南语语法特征的短语树到依存树的转换方法
CN101464855A (zh) 含有汉语的字符串的分词方法及在字符串中检索词的方法
Zhu et al. A novel class-center vector model for text classification using dependencies and a semantic dictionary
CN112347259A (zh) 一种结合词典与机器学习的评论文本情感分析方法
Guisado-Gámez et al. Massive query expansion by exploiting graph knowledge bases for image retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151202