CN103744984A

CN103744984A - 一种利用语义信息检索文档的方法

Info

Publication number: CN103744984A
Application number: CN201410018112.XA
Authority: CN
Inventors: 李侃; 黄河燕; 史树敏; 冯冲; 栾勇; 安韶华
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-01-15
Filing date: 2014-01-15
Publication date: 2014-04-23
Anticipated expiration: 2034-01-15
Also published as: CN103744984B

Abstract

本发明涉及一种利用语义信息检索文档的方法，属于计算机信息检索技术领域。通过采用基于关键词的用户检索方法，降低了用户使用难度；采用基于距离和稠密度的文档——本体映射方法，提高映射的准确率；采用基于语义的检索方法，利用多本体索引文档的方法，并且采用了一种结合本体的TF-IDF排序方法，提高了查准率；通过本体语义扩充，提高了系统容纳无效关键词能力，提高了查全率。本方法能够显著提高文档检索的准确率，并且没有带来糟糕的用户交互复杂性。

Description

一种利用语义信息检索文档的方法

技术领域

本发明专利涉及一种利用语义信息检索文档的方法，属于计算机信息检索技术领域。

背景技术

在因特网和企业内部网络中，积累了大量的知识文档，如何从海量的数据中快速、准确的获取用户真正需要的信息成为新的挑战。利用信息抽取技术从文档中提取出来的语义信息为用户精确查询提供了基础。

近年来描述语义信息的本体被逐渐的重视并且大量的创建，为语义检索提供了基础。将半结构化或者是无结构化的文档利用本体转化成高度结构化的内容，可以显著提高检索的准确率，使得用户检索更加高效。本体是抽象概念的具体描述，是语义的信息形式化表达。目前的搜索引擎主要是基于关键词的全文匹配或是基于主题分类(例如Google、百度)进行检索的。结果往往会返回大量无关的内容，使得用户将大量的时间耗费在排除无关信息上。

现在已有的语义信息的检索系统有自然语言接口的Aqualog系统，它采用用户交互来辅助系统消除自然语言查询过程中产生的歧义；类似的自然语言接口的查询系统还有Querix、Bernstein等。这些系统由于使用了自然语言作为查询条件，一方面增加系统交互的灵活性，用户可以更少约束、更加准确地表达自己的需要，但是另一方面却增加了交互的难度和系统设计的复杂性。SemRank则是一种关键词接口的语义检索系统，它利用本体实体的统计信息对结果进行排序，但它更加关注检索结构化本体，而不是大量已经存在的非结构化的网页和文档信息。

发明内容

本发明的目的是为解决现在信息检索方法无法准确找到用户所需内容的问题，提出一种利用语义信息进行文档检索的方法。

为实现上述目的，本发明所采用的技术方案如下：

步骤一、建立领域本体：令E为本体实体集合，E＝{e₁,e₂,...,e_n}，n是本体实体总数，为正整数，e_i为本体实体，1≤i≤n，每个本体实体都是本体的子概念或实例；为每一个本体实体指定label信息和label信息对应的语言语种L＝{l₁,l₂,...,l_l}，下标l为正整数，本体实例对应不同语种的不同label信息表示为label_ij，i≤n且为正整数，j≤l也为正整数，其含义为e_i对应在l_j的label信息，n和l分别为领域本体的本体实体总数和本体label信息的不同语言类别数；

步骤二、为文档建立映射关系：将系统输入的文档D_i解析文字部分Text_i通过分词工具对文档进行分词处理；统计出文档中出现的不同词汇T＝{t₁,t₂,...,t_m}，其中m为正整数，和词汇t_k（1≤k≤m）的词频c_k（1≤k≤m）；对于每一个词汇t_k执行如下操作：

1）确定该词汇的语种l_k；

2）找到领域本体中所有本体实体E，如果其拥有与词汇t_k相同语种的label信息，便比较本体实体e_k对应在l_u下的label信息与词汇t_v的相似度S_kuv，因每个词汇对应的语言种类是确定的，所以每次匹配label信息时，只会匹配到一种语言的label信息，故使用S_kv表示e_k与词汇t_v的相似度度量，如果相似度大于某一设定的阙值α，0≤α≤1，则认为词汇与本体相似；

3）在本体图中标记本体，并累积命中次数ef_ik＝ef_ik+c_k·S_kv，其中ef_ik表示本体实体e_k在文档D_i中的命中次数，初始值为0，查找本体图中的稠密标记区域，并认为该稠密区域的标记本体即为映射本体；

4）利用累积命中次数ef_ik，计算出关系强度w_ik，最后将该映射关系以及关系强度存入数据库中：

w_{ik} = \frac{{ef}_{ik} \log (N / {df}_{k})}{\sqrt{Σ_{E_{k} &Element; D_{i}} {[{ef}_{ik} \log (N / {df}_{k})]}^{2}}}

0≤w_ik≤1，N为文档总数，每当输入一篇新的文档，该值递增1；ef_ik为上文提到的命中次数；df_k为匹配到本体实体e_k的文档总数；E_k∈D_i表示文档D_i匹配到的所有本体实体；

步骤三、对于用户查询，进行语义扩展，将用户查询的关键字与各本体进行比较；如为本体类，则依次找到其一层子本体类、二层子本体类、三层子本体类和直接父类以及通过本体属性直接关联的其他本体类；如果该本体为本体属性，则查找该本体属性的所有Domain和Range；将以上扩展的本体标记为扩展本体，并分类分别设定一定的相似度值；

步骤四、计算所有文档与查询关键词的匹配度，在实际计算时通过将文档和用户查询式转化为向量形式，计算其余弦相似度Sim(D_i,Q)为最后的评价指标，按照Sim(D_i,Q)数值对文档进行递减排序，返回排序后的文档列表，计算公式定义如下所示：

其中，D_i＝(w_1i,w_2i,...,w_mi)，m为本体实体总数，n为文档总数

对于一次查询，

Q＝(q₁,q₂,...,q_m)，m为本体实体总数

其中

M为一次查询所匹配到的所有本体，

为查询匹配到的本体实体

（每一个分量为文档关联的本体）与查询关键字

（用户查询经过分词后形成的向量）的相似度值，则可以由此计算相似度为：

Sim (D_{i}, Q) = \frac{\overset{&RightArrow;}{D_{i}} \cdot \overset{&RightArrow;}{Q}}{| \overset{&RightArrow;}{D_{i}} | | \overset{&RightArrow;}{Q} |} = \frac{Σ_{i = 1}^{m} (w_{ij} \cdot q_{i})}{\sqrt{Σ_{i = 1}^{m} (w_{ij}^{2}) Σ_{i = 1}^{m} (q_{i}^{2})}}

有益效果

本发明通过采用基于关键词的用户检索方法，降低了用户交互的复杂度和使用难度；采用基于距离和稠密度的文档——本体映射方法，提高映射的准确率；采用基于语义的检索方法，利用多本体索引文档的方法，并且采用了一种结合本体的TF-IDF排序方法，提高了查准率；通过本体语义扩充，提高了系统容纳无效关键词能力，提高了查全率。本方法能够显著提高文档检索的准确率，并且没有带来糟糕的用户交互复杂性。

附图说明

图1为本发明方法的流程图

图2为本发明方法文档索引建立的流程图

图3为本发明方法本体实体匹配过程的流程图

图4为一个小型本体示例图

具体实施方式

下面结合附图，进行具体实施说明。

有两篇简单纯文本文档，分别为：

文档1：我周一在网上买了一台AppleMacBookPro笔记本。

文档2：实验室电脑配置为256GB硬盘，奔腾双核处理器。

本发明的具体流程如图1所示；

根据步骤一、建立如图4所示的本体，该本体共有21个本体实体。E＝{“人”，“男”，“女”，“商品”，“计算机”，“笔记本”，“MacBook”，“品牌”，“Apple”，“运算器”，“控制器”，“存储器”，“输入设备”，“输出设备”，“硬盘”，“触摸屏”，“电容式触摸屏”，“电阻式触摸屏”，“鼠标”，“液晶显示器”，“购买”}。

根据步骤二、如图2所示，分别对文档1、文档2建立本体索引。定义阙值α＝0.65，当关键字和本体的相似度大于α时，认为两者匹配。对于“文档1”：

首先进行分词并统计各个词汇的词频：

周一：一次；网上：一次；

买：一次；

Apple：一次；

MacBook：一次；

Pro：一次；

笔记本：一次；

其中去掉了，“我”、“在”、“了”和“一台”等停等词和无意义词汇。得到T＝{“周一”,“网上”,“买”,“Apple”,“MacBook”,“Pro”,“笔记本”}，C＝{1,1,1,1,1,1,1}

进行关键词和本体的匹配。其中，“买”匹配了本体实体“购买”相似度为0.8，“Apple”匹配了本体实体“Apple”、“MacBook”匹配了本体实体“MacBook”、“笔记本”匹配了本体实体“笔记本”，匹配度都为1。得tf_21,1＝1，tf_9,1＝1，tf_7,1＝1，tf_6,1＝1，剩余的本体实体的tf值全为0。

“文档2”与“文档1”采用相同的方法处理，得到词汇列表为：

实验室：一次；

电脑：一次；

配置：一次；

硬盘：一次；

奔腾：一次；

双核：一次；

处理器：一次；

得到T＝{“实验室”,“电脑”,“配置”,“硬盘”,“奔腾”,“双核”,“处理器”}，C＝{1,1,1,1,1,1,1}，“电脑”匹配了本体实体“计算机”，“硬盘”匹配了本体实体“硬盘”，匹配度都为分别为0.9、1。tf_5,2＝0.9，tf_15,2＝1，剩余的本体实体的tf值全为0。

计算索引权重，

w_{21,1} = \frac{0.8 \times \log 2}{2 \times 0.8 \times \log 2} = 0.4, w_{9,1} = \frac{\log 2}{2 \times \log 2} = 0.5,

w_{7,1} = \frac{\log 2}{2 \times \log 2} = 0.5, w_{6,1} = \frac{\log 2}{2 \times \log 2} = 0.5, w_{5,2} = \frac{0.9 \times \log 2}{\sqrt{2} \times 0.9 \times \log 2} = 0.63,

经过以上的步骤，完成了文档的映射。

之后用户发出了一次关键字查询请求，内容为“个人电脑硬盘”。

根据步骤三，在本实例中不扩展本体,即将扩展本体匹配度为标记为0；

根据步骤四、如图3所示，将用户的查询关键字进行分词处理，得到T^q＝{“个人电脑”,“硬盘”}，匹配本体实体，得到Eq＝{“计算机”,“硬盘”}，

使用阙值β＝0.65，根据步骤五的定义，当时接受该匹配，故接受

和完成从查询关键字到本体实体的匹配过程，得到查询向量：

Q＝(0,...,0.85,...,1,...,0)

A_{21,2} = (D_{1}, D_{2}) = [\begin{matrix} 0 & 0 \\ \cdot & \cdot \\ \cdot & \cdot \\ \cdot & \cdot \\ 0 & 0.71 \\ 0.5 & 0 \\ 0.5 & 0 \\ \cdot & \cdot \\ \cdot & \cdot \\ \cdot & \cdot \\ 0 & 0.63 \\ \cdot & \cdot \\ \cdot & \cdot \\ \cdot & \cdot \\ 0.4 & 0 \end{matrix}]

Sim(D₁,Q)＝0，

Sim(D₂,Q)＝0.79

最后，返回“文档2”。