CN104182468A

CN104182468A - 一种文档语义相似度计算方法

Info

Publication number: CN104182468A
Application number: CN201410348547.0A
Authority: CN
Inventors: 贾岩
Original assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Current assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2014-07-21
Filing date: 2014-07-21
Publication date: 2014-12-03
Anticipated expiration: 2034-07-21
Also published as: CN104182468B

Abstract

本发明提出了一种文档语义相似度计算方法，减小了文档检索工作量，提高了工作效率，其采用设定阈值的方法，分区间计算相似度，具体包括以下步骤：A、构建一套或多套本体库；通过输入概念体系和主要描述词语构成本体库，本体库中，概念之间根据关联程度构成概念树，概念树构成概念森林；B、计算语义相似度；利用tf-idf算法计算查询对象vQuery_m与文档vDoc_m之间的语义相似度，计算公式为tf为查询对象在文档中出现的次数，idf为查询对象普遍重要性的度量，sim(c_mi,c_nj)为概念c_mi，c_nj之间的语义相似度，计算公式如下d为两个概念在概念树中的距离；c为随系统自动调节参数；p为本体中预定义的c_mi，c_nj之间的关联程度，默认值为1。

Description

一种文档语义相似度计算方法

技术领域

本发明涉及面向文档的智能信息检索技术领域，尤其涉及一种文档语义相似度计算方法。

背景技术

语义计算是一种在用户和计算机共享的涵义和词汇的基础上编写信息内容，目标是通过这种涵义上的共享，填充语义鸿沟，使用户和计算机能够更紧密地合作，将信息系统建立在人们现实生活的基础上，从而丰富整个现实世界的涵义和价值。

基于关键字匹配的搜索引擎在判断查询与文档之间是否匹配是通过关键字的字面匹配，是二值逻辑；而基于语义搜索引擎理论上绝大部分文档都与被查询概念之间有一个非0相似度值，从对语义相似度的定义上可以发现，这种现象的存在是由于词语相似度矩阵中大部分词语之间有非零的相似度。这将对系统的存储能力带来巨大挑战，这也是一些语义计算方法不能大规模系统中应用的一个重要原因。

因此，相似度矩阵中的较小的相似度值，既没有多大意义，又对系统带来巨大的负担，需要相似的矩阵中的数据进行筛选。筛选的原则是删除值比较小的相似度值，只保留部分较大的相似度值。

发明内容

基于背景技术提出的问题，本发明提出了一种文档语义相似度计算方法，减小了文档检索工作量，提高了工作效率。

本发明提出的一种文档语义相似度计算方法，采用设定阈值的方法，分区间计算相似度，具体包括以下步骤：

A、构建一套或多套本体库；通过输入概念体系和主要描述词语构成本体库，本体库中，概念之间根据关联程度构成概念树，概念树构成概念森林；

B、计算语义相似度；利用tf-idf算法计算查询对象vQuery_m与文档vDoc_m之间的语义相似度，计算公式为，

sim (vQuer y_{m}, v {Doc}_{n}) = \underset{j}{Σ} tf - idf (c_{nj}) \cdot \underset{i}{Σ} sim (c_{mi}, c_{nj})

tf为查询对象在文档中出现的次数，idf为查询对象普遍重要性的度量，

sim(c_mi,c_nj)为概念c_mi，c_nj之间的语义相似度，计算公式如下，

sim (c_{mi}, c_{nj}) = p \cdot \frac{c}{d + c}

d为两个概念在概念树中的距离；c为随系统自动调节参数；p为本体中预定义的c_mi，c_nj之间的关联程度，默认值为1；

C、设定阈值，计算概念相似度；选择阈值δ，0≤δ＜1，重新改写概念相似度并记为S，则，

S = \{\begin{matrix} \frac{sim - δ}{1 - δ} & if sim > δ \\ 0 & else \end{matrix}, (0 \leq δ < 1)

sim为sim(c_mi,c_nj)简写；

D、语义相似度计算公式变形；将概念相似度S代入tf-idf算法，得到语义相似度计算公式，

sim (vQuer y_{m}, {vDoc}_{n}) = \underset{j}{Σ} tf - idf (c_{nj}) \cdot \underset{i}{Σ} S (c_{mi}, c_{nj}) = \underset{i}{Σ} \underset{c_{nj} &Element; {SET}_{i}}{Σ} tf - idf (c_{nj}) \cdot S (c_{mi}, c_{nj})

S(c_mi,c_nj)为的c_mi，c_nj的概念相似度S，词语c_mi属于vQuery_m，SET_i为与c_mi相似度大于0的词语集合。

优选地，步骤A中构建两套本体，第一套为通用词汇构成的本体库，第二套为企业根据自己的行业构建的专用本体库。

优选地，概念之间的关联程度自动设置。

优选地，利用关联统计数据挖掘算法从指定文档库计算概念之间的关联程度。

优选地，指定文档库为互联网网站和/或本地文档库。

优选地，概念之间的关联程度可手动设置。

优选地，0.2≤δ＜1。

优选地，δ＝0.7。

相似度矩阵中，较小的相似度值既没有多少实际意义，又占用庞大的存储空间，增加系统的负担。本发明通过删除相似度较小的对象，仅保留相似度达到预定值的对象，从而减小系统的存储压力。

附图说明

图1为本发明提出的一种文档语义相似度计算方法的流程图；

图2为语义相似度分布图。

具体实施方式

参照图1，本发明提出的一种文档语义相似度计算方法，采用设定阈值的方法，分区间计算相似度，具体包括以下步骤：

B、计算语义相似度；利用tf-idf(term frequency-inverse documentfrequency，词频-逆向文件频率)算法计算查询对象vQuery_m与文档vDoc_m之间的语义相似度，计算公式为，

sim (vQuer y_{m}, v {Doc}_{n}) = \underset{j}{Σ} tf - idf (c_{nj}) \cdot \underset{i}{Σ} sim (c_{mi}, c_{nj}) - - - (1)

sim (c_{mi}, c_{nj}) = p \cdot \frac{c}{d + c} - - - (2)

S = \{\begin{matrix} \frac{sim - δ}{1 - δ} & if sim > δ \\ 0 & else \end{matrix}, (0 \leq δ < 1) - - - (3)

sim为sim(c_mi,c_nj)简写；

D、语义相似度计算公式变形；将概念相似度S代入tf-idf算法，将公式(3)代入公式(1)，得到语义相似度计算公式，

sim (vQuer y_{m}, {vDoc}_{n}) = \underset{j}{Σ} tf - idf (c_{nj}) \cdot \underset{i}{Σ} S (c_{mi}, c_{nj}) - - - (4)

S(c_mi,c_nj)为的c_mi，c_nj的概念相似度S；

词语c_mi属于vQuery_m，假设与c_mi相似度大于0的词语集合为SET_i，则，

sim (vQuer y_{m}, {vDoc}_{n}) = \underset{i}{Σ} \underset{c_{nj} &Element; {SET}_{i}}{Σ} tf - idf (c_{nj}) \cdot S (c_{mi}, c_{nj}) - - - (5)

由公式(5)可看出，假设vQuery_m的词语集合为set，则相似度只)和set∪_iSET_i中的元素有关系，这意味着用户不需要遍历整个数据库来计算所有文档与用户查询对象之间的语义相似度，如此，可以快速获得所有与用户查询对象之间语义相似度大于0的候选文档集合。通过控制阈值δ，可以方便的控制set∪_iSET_i中元素的数量和候选文档的规模。对行业定制搜索引擎而言，通过对δ的针对性控制，可定制搜索引擎的面向领域性，尽可能减少不相关概念，节省大量的计算空间和存储空间。

本实施方式中，步骤A中构建两套本体，第一套为通用词汇构成的本体库，具体可选择中创科技的通用词汇来构成该本体库；第二套为企业根据自己的行业构建的专用本体库。两套本体库并存，方便用户选择。

本实施方式中，概念之间的关联程度可自动设置，利用关联统计数据挖掘算法从指定文档库计算概念之间的关联程度，指定文档库为互联网网站或本地文档库，或者是互联网网站和本地文档库的并集。具体实施时，概念之间的关联程度也可由操作者手动设置。

本实施方式中，步骤C中阈值δ的选取直接关系到系统的存储压力。图2所示为以《知网》为基础计算的相似度矩阵中不同区段上的相似度值总数的分布情况。由图2可看出，绝大部分相似度落在区间[0,0.2]上。如果设δ＝0.7，则优化后的数据规模大约为原始数据的0.87％，原来需要5G存储空间的数据只需要不到45MB的存储空间就可以了，平均每个词有870个较高的相似度得以存储，足以满足需要；即使设δ＝0.2，也只需要不到450MB的存储空间，而这个时候平均每个词可以有近9000个较高的相似度得以存储，这对一般的词语而言，与其语义上相似度较高且有价值的近义词语已经完全可以存储了。所以具体实施时，取0.2≤δ＜1是比较合适的。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种文档语义相似度计算方法，其特征在于，采用设定阈值的方法，分区间计算相似度，具体包括以下步骤：

sim (vQuer y_{m}, v {Doc}_{n}) = \underset{j}{Σ} tf - idf (c_{nj}) \cdot \underset{i}{Σ} sim (c_{mi}, c_{nj})

sim (c_{mi}, c_{nj}) = p \cdot \frac{c}{d + c}

S = \{\begin{matrix} \frac{sim - δ}{1 - δ} & if sim > δ \\ 0 & else \end{matrix}, (0 \leq δ < 1)

sim为sim(c_mi,c_nj)简写；

sim (vQuer y_{m}, {vDoc}_{n}) = \underset{j}{Σ} tf - idf (c_{nj}) \cdot \underset{i}{Σ} S (c_{mi}, c_{nj}) = \underset{i}{Σ} \underset{c_{nj} &Element; {SET}_{i}}{Σ} tf - idf (c_{nj}) \cdot S (c_{mi}, c_{nj})

2.如权利要求1所述的文档语义相似度计算方法，其特征在于，步骤A中构建两套本体，第一套为通用词汇构成的本体库，第二套为企业根据自己的行业构建的专用本体库。

3.如权利要求1所述的文档语义相似度计算方法，其特征在于，概念之间的关联程度自动设置。

4.如权利要求3所述的文档语义相似度计算方法，其特征在于，利用关联统计数据挖掘算法从指定文档库计算概念之间的关联程度。

5.如权利要求4所述的文档语义相似度计算方法，其特征在于，指定文档库为互联网网站和/或本地文档库。

6.如权利要求1所述的文档语义相似度计算方法，其特征在于，概念之间的关联程度可手动设置。

7.如权利要求1所述的文档语义相似度计算方法，其特征在于，0.2≤δ＜1。

8.如权利要求7所述的文档语义相似度计算方法，其特征在于，δ＝0.7。