CN103744984A - 一种利用语义信息检索文档的方法 - Google Patents

一种利用语义信息检索文档的方法 Download PDF

Info

Publication number
CN103744984A
CN103744984A CN201410018112.XA CN201410018112A CN103744984A CN 103744984 A CN103744984 A CN 103744984A CN 201410018112 A CN201410018112 A CN 201410018112A CN 103744984 A CN103744984 A CN 103744984A
Authority
CN
China
Prior art keywords
document
vocabulary
entity
label information
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410018112.XA
Other languages
English (en)
Other versions
CN103744984B (zh
Inventor
李侃
黄河燕
史树敏
冯冲
栾勇
安韶华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201410018112.XA priority Critical patent/CN103744984B/zh
Publication of CN103744984A publication Critical patent/CN103744984A/zh
Application granted granted Critical
Publication of CN103744984B publication Critical patent/CN103744984B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种利用语义信息检索文档的方法,属于计算机信息检索技术领域。通过采用基于关键词的用户检索方法,降低了用户使用难度;采用基于距离和稠密度的文档——本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF-IDF排序方法,提高了查准率;通过本体语义扩充,提高了系统容纳无效关键词能力,提高了查全率。本方法能够显著提高文档检索的准确率,并且没有带来糟糕的用户交互复杂性。

Description

一种利用语义信息检索文档的方法
技术领域
本发明专利涉及一种利用语义信息检索文档的方法,属于计算机信息检索技术领域。
背景技术
在因特网和企业内部网络中,积累了大量的知识文档,如何从海量的数据中快速、准确的获取用户真正需要的信息成为新的挑战。利用信息抽取技术从文档中提取出来的语义信息为用户精确查询提供了基础。
近年来描述语义信息的本体被逐渐的重视并且大量的创建,为语义检索提供了基础。将半结构化或者是无结构化的文档利用本体转化成高度结构化的内容,可以显著提高检索的准确率,使得用户检索更加高效。本体是抽象概念的具体描述,是语义的信息形式化表达。目前的搜索引擎主要是基于关键词的全文匹配或是基于主题分类(例如Google、百度)进行检索的。结果往往会返回大量无关的内容,使得用户将大量的时间耗费在排除无关信息上。
现在已有的语义信息的检索系统有自然语言接口的Aqualog系统,它采用用户交互来辅助系统消除自然语言查询过程中产生的歧义;类似的自然语言接口的查询系统还有Querix、Bernstein等。这些系统由于使用了自然语言作为查询条件,一方面增加系统交互的灵活性,用户可以更少约束、更加准确地表达自己的需要,但是另一方面却增加了交互的难度和系统设计的复杂性。SemRank则是一种关键词接口的语义检索系统,它利用本体实体的统计信息对结果进行排序,但它更加关注检索结构化本体,而不是大量已经存在的非结构化的网页和文档信息。
发明内容
本发明的目的是为解决现在信息检索方法无法准确找到用户所需内容的问题,提出一种利用语义信息进行文档检索的方法。
为实现上述目的,本发明所采用的技术方案如下:
步骤一、建立领域本体:令E为本体实体集合,E={e1,e2,...,en},n是本体实体总数,为正整数,ei为本体实体,1≤i≤n,每个本体实体都是本体的子概念或实例;为每一个本体实体指定label信息和label信息对应的语言语种L={l1,l2,...,ll},下标l为正整数,本体实例对应不同语种的不同label信息表示为labelij,i≤n且为正整数,j≤l也为正整数,其含义为ei对应在lj的label信息,n和l分别为领域本体的本体实体总数和本体label信息的不同语言类别数;
步骤二、为文档建立映射关系:将系统输入的文档Di解析文字部分Texti通过分词工具对文档进行分词处理;统计出文档中出现的不同词汇T={t1,t2,...,tm},其中m为正整数,和词汇tk(1≤k≤m)的词频ck(1≤k≤m);对于每一个词汇tk执行如下操作:
1)确定该词汇的语种lk
2)找到领域本体中所有本体实体E,如果其拥有与词汇tk相同语种的label信息,便比较本体实体ek对应在lu下的label信息与词汇tv的相似度Skuv,因每个词汇对应的语言种类是确定的,所以每次匹配label信息时,只会匹配到一种语言的label信息,故使用Skv表示ek与词汇tv的相似度度量,如果相似度大于某一设定的阙值α,0≤α≤1,则认为词汇与本体相似;
3)在本体图中标记本体,并累积命中次数efik=efik+ck·Skv,其中efik表示本体实体ek在文档Di中的命中次数,初始值为0,查找本体图中的稠密标记区域,并认为该稠密区域的标记本体即为映射本体;
4)利用累积命中次数efik,计算出关系强度wik,最后将该映射关系以及关系强度存入数据库中:
w ik = ef ik log ( N / df k ) Σ E k ∈ D i [ ef ik log ( N / df k ) ] 2
0≤wik≤1,N为文档总数,每当输入一篇新的文档,该值递增1;efik为上文提到的命中次数;dfk为匹配到本体实体ek的文档总数;Ek∈Di表示文档Di匹配到的所有本体实体;
步骤三、对于用户查询,进行语义扩展,将用户查询的关键字与各本体进行比较;如为本体类,则依次找到其一层子本体类、二层子本体类、三层子本体类和直接父类以及通过本体属性直接关联的其他本体类;如果该本体为本体属性,则查找该本体属性的所有Domain和Range;将以上扩展的本体标记为扩展本体,并分类分别设定一定的相似度值;
步骤四、计算所有文档与查询关键词的匹配度,在实际计算时通过将文档和用户查询式转化为向量形式,计算其余弦相似度Sim(Di,Q)为最后的评价指标,按照Sim(Di,Q)数值对文档进行递减排序,返回排序后的文档列表,计算公式定义如下所示:
其中,Di=(w1i,w2i,...,wmi),m为本体实体总数,n为文档总数
对于一次查询,
Q=(q1,q2,...,qm),m为本体实体总数
其中
Figure BDA0000457398200000032
M为一次查询所匹配到的所有本体,
Figure BDA0000457398200000033
为查询匹配到的本体实体
Figure BDA0000457398200000034
(每一个分量为文档关联的本体)与查询关键字
Figure BDA0000457398200000035
(用户查询经过分词后形成的向量)的相似度值,则可以由此计算相似度为:
Sim ( D i , Q ) = D i → · Q → | D i → | | Q → | = Σ i = 1 m ( w ij · q i ) Σ i = 1 m ( w ij 2 ) Σ i = 1 m ( q i 2 )
有益效果
本发明通过采用基于关键词的用户检索方法,降低了用户交互的复杂度和使用难度;采用基于距离和稠密度的文档——本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF-IDF排序方法,提高了查准率;通过本体语义扩充,提高了系统容纳无效关键词能力,提高了查全率。本方法能够显著提高文档检索的准确率,并且没有带来糟糕的用户交互复杂性。
附图说明
图1为本发明方法的流程图
图2为本发明方法文档索引建立的流程图
图3为本发明方法本体实体匹配过程的流程图
图4为一个小型本体示例图
具体实施方式
下面结合附图,进行具体实施说明。
有两篇简单纯文本文档,分别为:
文档1:我周一在网上买了一台AppleMacBookPro笔记本。
文档2:实验室电脑配置为256GB硬盘,奔腾双核处理器。
本发明的具体流程如图1所示;
根据步骤一、建立如图4所示的本体,该本体共有21个本体实体。E={“人”,“男”,“女”,“商品”,“计算机”,“笔记本”,“MacBook”,“品牌”,“Apple”,“运算器”,“控制器”,“存储器”,“输入设备”,“输出设备”,“硬盘”,“触摸屏”,“电容式触摸屏”,“电阻式触摸屏”,“鼠标”,“液晶显示器”,“购买”}。
根据步骤二、如图2所示,分别对文档1、文档2建立本体索引。定义阙值α=0.65,当关键字和本体的相似度大于α时,认为两者匹配。对于“文档1”:
首先进行分词并统计各个词汇的词频:
周一:一次;网上:一次;
买:一次;
Apple:一次;
MacBook:一次;
Pro:一次;
笔记本:一次;
其中去掉了,“我”、“在”、“了”和“一台”等停等词和无意义词汇。得到T={“周一”,“网上”,“买”,“Apple”,“MacBook”,“Pro”,“笔记本”},C={1,1,1,1,1,1,1}
进行关键词和本体的匹配。其中,“买”匹配了本体实体“购买”相似度为0.8,“Apple”匹配了本体实体“Apple”、“MacBook”匹配了本体实体“MacBook”、“笔记本”匹配了本体实体“笔记本”,匹配度都为1。得tf21,1=1,tf9,1=1,tf7,1=1,tf6,1=1,剩余的本体实体的tf值全为0。
“文档2”与“文档1”采用相同的方法处理,得到词汇列表为:
实验室:一次;
电脑:一次;
配置:一次;
硬盘:一次;
奔腾:一次;
双核:一次;
处理器:一次;
得到T={“实验室”,“电脑”,“配置”,“硬盘”,“奔腾”,“双核”,“处理器”},C={1,1,1,1,1,1,1},“电脑”匹配了本体实体“计算机”,“硬盘”匹配了本体实体“硬盘”,匹配度都为分别为0.9、1。tf5,2=0.9,tf15,2=1,剩余的本体实体的tf值全为0。
计算索引权重, w 21,1 = 0.8 × log 2 2 × 0.8 × log 2 = 0.4 , w 9,1 = log 2 2 × log 2 = 0.5 , w 7,1 = log 2 2 × log 2 = 0.5 , w 6,1 = log 2 2 × log 2 = 0.5 , w 5,2 = 0.9 × log 2 2 × 0.9 × log 2 = 0.63 ,
Figure BDA0000457398200000053
经过以上的步骤,完成了文档的映射。
之后用户发出了一次关键字查询请求,内容为“个人电脑硬盘”。
根据步骤三,在本实例中不扩展本体,即将扩展本体匹配度为标记为0;
根据步骤四、如图3所示,将用户的查询关键字进行分词处理,得到Tq={“个人电脑”,“硬盘”},匹配本体实体,得到Eq={“计算机”,“硬盘”},
Figure BDA0000457398200000062
Figure BDA0000457398200000063
使用阙值β=0.65,根据步骤五的定义,当时接受该匹配,故接受
Figure BDA0000457398200000065
完成从查询关键字到本体实体的匹配过程,得到查询向量:
Q=(0,...,0.85,...,1,...,0)
A 21,2 = ( D 1 , D 2 ) = 0 0 · · · · · · 0 0.71 0.5 0 0.5 0 · · · · · · 0 0.63 · · · · · · 0.4 0
Sim(D1,Q)=0,
Sim(D2,Q)=0.79
最后,返回“文档2”。

Claims (1)

1.一种利用语义信息检索文档的方法,其特征在于: 
步骤一、建立领域本体:令E为本体实体集合,E={e1,e2,...,en},n是本体实体总数,为正整数,ei为本体实体,1≤i≤n,每个本体实体都是本体的子概念或实例;为每一个本体实体指定label信息和label信息对应的语言语种L={l1,l2,...,ll},下标l为正整数,本体实例对应不同语种的不同label信息表示为labelij,i≤n且为正整数,j≤l也为正整数,其含义为ei对应在lj的label信息,n和l分别为领域本体的本体实体总数和本体label信息的不同语言类别数; 
步骤二、为文档建立映射关系:将系统输入的文档Di解析文字部分Texti通过分词工具对文档进行分词处理;统计出文档中出现的不同词汇T={t1,t2,...,tm},其中m为正整数,和词汇tk(1≤k≤m)的词频ck(1≤k≤m);对于每一个词汇tk执行如下操作: 
1)确定该词汇的语种lk; 
2)找到领域本体中所有本体实体E,如果其拥有与词汇tk相同语种的label信息,便比较本体实体ek对应在lu下的label信息与词汇tv的相似度Skuv,因每个词汇对应的语言种类是确定的,所以每次匹配label信息时,只会匹配到一种语言的label信息,故使用Skv表示ek与词汇tv的相似度度量,如果相似度大于某一设定的阙值α,0≤α≤1,则认为词汇与本体相似; 
3)在本体图中标记本体,并累积命中次数efik=efik+ck·Skv,其中efik表示本体实体ek在文档Di中的命中次数,初始值为0,查找本体图中的稠密标记区域,并认为该稠密区域的标记本体即为映射本体; 
4)利用累积命中次数efik,计算出关系强度wik,最后将该映射关系以及关系强度存入数据库中: 
Figure FDA0000457398190000011
0≤wik≤1,N为文档总数,每当输入一篇新的文档,该值递增1;efik为上文提到的命中次数;dfk为匹配到本体实体ek的文档总数;Ek∈Di表示文档Di匹配到的所有本体实体; 
步骤三、对于用户查询,进行语义扩展,将用户查询的关键字与各本体进行比较;如为本体类,则依次找到其一层子本体类、二层子本体类、三层子本体类和直接父类以及通过本体属性直接关联的其他本体类;如果该本体为本体属性,则查找该本体属性的所有Domain和Range;将以上扩展的本体标记为扩展本体,并分类分别设定一定的相似度值; 
步骤四、计算所有文档与查询关键词的匹配度,在实际计算时通过将文档和用户查询式转化为向量形式,计算其余弦相似度Sim(Di,Q)为最后的评价指标,按照Sim(Di,Q)数值对文档进行递减排序,返回排序后的文档列表。 
CN201410018112.XA 2014-01-15 2014-01-15 一种利用语义信息检索文档的方法 Expired - Fee Related CN103744984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410018112.XA CN103744984B (zh) 2014-01-15 2014-01-15 一种利用语义信息检索文档的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410018112.XA CN103744984B (zh) 2014-01-15 2014-01-15 一种利用语义信息检索文档的方法

Publications (2)

Publication Number Publication Date
CN103744984A true CN103744984A (zh) 2014-04-23
CN103744984B CN103744984B (zh) 2017-01-25

Family

ID=50502002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410018112.XA Expired - Fee Related CN103744984B (zh) 2014-01-15 2014-01-15 一种利用语义信息检索文档的方法

Country Status (1)

Country Link
CN (1) CN103744984B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112012A (zh) * 2014-07-16 2014-10-22 江苏大学 一种针对信息检索结果多元化的分数规范化方法
WO2016009321A1 (en) * 2014-07-14 2016-01-21 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
CN110019810A (zh) * 2018-01-02 2019-07-16 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
US10496683B2 (en) 2014-07-14 2019-12-03 International Business Machines Corporation Automatically linking text to concepts in a knowledge base
US10503762B2 (en) 2014-07-14 2019-12-10 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
US10572521B2 (en) 2014-07-14 2020-02-25 International Business Machines Corporation Automatic new concept definition
TWI689825B (zh) * 2017-12-29 2020-04-01 大陸商中國銀聯股份有限公司 一種文件品質指標獲取方法及裝置
CN112685538A (zh) * 2020-12-30 2021-04-20 北京理工大学 一种结合外部知识的文本向量检索方法
CN114298055A (zh) * 2021-12-24 2022-04-08 浙江大学 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN114547253A (zh) * 2022-03-03 2022-05-27 北京伽睿智能科技集团有限公司 一种基于知识库应用的语义搜索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080313229A1 (en) * 2007-06-17 2008-12-18 Global Telegenetics, Inc. PORTALS and DOORS for the Semantic Web and Grid
CN102799661A (zh) * 2012-07-09 2012-11-28 北京中科希望软件股份有限公司 一种对电子文件进行语义检索的方法和系统
CN102930030A (zh) * 2012-11-08 2013-02-13 苏州两江科技有限公司 基于本体的智能语义文献检索推理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080313229A1 (en) * 2007-06-17 2008-12-18 Global Telegenetics, Inc. PORTALS and DOORS for the Semantic Web and Grid
CN102799661A (zh) * 2012-07-09 2012-11-28 北京中科希望软件股份有限公司 一种对电子文件进行语义检索的方法和系统
CN102930030A (zh) * 2012-11-08 2013-02-13 苏州两江科技有限公司 基于本体的智能语义文献检索推理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SIMON BUCKINGHAM SHUM ET AL: "an ontology一based digital library server for research documents and discours", 《INTERNATIONAL JOURNAL ON DIGITAL LIBRARIES》 *
丁政建: "基于本体的信息检索技术的研究", 《科学技术与工程》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016009321A1 (en) * 2014-07-14 2016-01-21 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
US10956461B2 (en) 2014-07-14 2021-03-23 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
US10496683B2 (en) 2014-07-14 2019-12-03 International Business Machines Corporation Automatically linking text to concepts in a knowledge base
US10496684B2 (en) 2014-07-14 2019-12-03 International Business Machines Corporation Automatically linking text to concepts in a knowledge base
US10503762B2 (en) 2014-07-14 2019-12-10 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
US10503761B2 (en) 2014-07-14 2019-12-10 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
US10572521B2 (en) 2014-07-14 2020-02-25 International Business Machines Corporation Automatic new concept definition
CN104112012A (zh) * 2014-07-16 2014-10-22 江苏大学 一种针对信息检索结果多元化的分数规范化方法
TWI689825B (zh) * 2017-12-29 2020-04-01 大陸商中國銀聯股份有限公司 一種文件品質指標獲取方法及裝置
CN110019810A (zh) * 2018-01-02 2019-07-16 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN110019810B (zh) * 2018-01-02 2021-05-04 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN112685538A (zh) * 2020-12-30 2021-04-20 北京理工大学 一种结合外部知识的文本向量检索方法
CN112685538B (zh) * 2020-12-30 2022-10-14 北京理工大学 一种结合外部知识的文本向量检索方法
CN114298055A (zh) * 2021-12-24 2022-04-08 浙江大学 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN114298055B (zh) * 2021-12-24 2022-08-09 浙江大学 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN114547253A (zh) * 2022-03-03 2022-05-27 北京伽睿智能科技集团有限公司 一种基于知识库应用的语义搜索方法

Also Published As

Publication number Publication date
CN103744984B (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
CN103744984B (zh) 一种利用语义信息检索文档的方法
Bhatia et al. Automatic labelling of topics with neural embeddings
Liu et al. Full‐text citation analysis: A new method to enhance scholarly networks
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN103838789A (zh) 一种文本相似度计算方法
Kim et al. A framework for tag-aware recommender systems
Martinez-Gil et al. Semantic similarity measurement using historical google search patterns
Rana et al. Improving aspect extraction using aspect frequency and semantic similarity-based approach for aspect-based sentiment analysis
Letham et al. Growing a list
Tuan et al. Cate: context-aware timeline for entity illustration
Bai et al. Rumor detection based on a source-replies conversation tree convolutional neural net
Barbosa et al. Shallow information extraction for the knowledge web
Afuan et al. A new approach in query expansion methods for improving information retrieval
Zhao et al. Collocation polarity disambiguation using web-based pseudo contexts
Zhao et al. Expanding approach to information retrieval using semantic similarity analysis based on WordNet and Wikipedia
Parida et al. Ranking of Odia text document relevant to user query using vector space model
Hamroun et al. Large scale microblogging intentions analysis with pattern based approach
Ngoc et al. language model combined with Word2Vec for product’s aspect based extraction
Nunes et al. Interlinking documents based on semantic graphs with an application
Jiang Chronological scientific information recommendation via supervised dynamic topic modeling
Chunping et al. Topic sentiment analysis in Chinese news
Duong et al. Personalized semantic search using ODP: a study case in academic domain
Yang et al. A new ontology-supported and hybrid recommending information system for scholars
Wang An improved method of short text feature extraction based on words co-occurrence
Xu et al. Generating personalized web search using semantic context

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170125

Termination date: 20200115