CN104182468A - 一种文档语义相似度计算方法 - Google Patents
一种文档语义相似度计算方法 Download PDFInfo
- Publication number
- CN104182468A CN104182468A CN201410348547.0A CN201410348547A CN104182468A CN 104182468 A CN104182468 A CN 104182468A CN 201410348547 A CN201410348547 A CN 201410348547A CN 104182468 A CN104182468 A CN 104182468A
- Authority
- CN
- China
- Prior art keywords
- concept
- semantic similarity
- document
- sim
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种文档语义相似度计算方法,减小了文档检索工作量,提高了工作效率,其采用设定阈值的方法,分区间计算相似度,具体包括以下步骤:A、构建一套或多套本体库;通过输入概念体系和主要描述词语构成本体库,本体库中,概念之间根据关联程度构成概念树,概念树构成概念森林;B、计算语义相似度;利用tf-idf算法计算查询对象vQuerym与文档vDocm之间的语义相似度,计算公式为tf为查询对象在文档中出现的次数,idf为查询对象普遍重要性的度量,sim(cmi,cnj)为概念cmi,cnj之间的语义相似度,计算公式如下d为两个概念在概念树中的距离;c为随系统自动调节参数;p为本体中预定义的cmi,cnj之间的关联程度,默认值为1。
Description
技术领域
本发明涉及面向文档的智能信息检索技术领域,尤其涉及一种文档语义相似度计算方法。
背景技术
语义计算是一种在用户和计算机共享的涵义和词汇的基础上编写信息内容,目标是通过这种涵义上的共享,填充语义鸿沟,使用户和计算机能够更紧密地合作,将信息系统建立在人们现实生活的基础上,从而丰富整个现实世界的涵义和价值。
基于关键字匹配的搜索引擎在判断查询与文档之间是否匹配是通过关键字的字面匹配,是二值逻辑;而基于语义搜索引擎理论上绝大部分文档都与被查询概念之间有一个非0相似度值,从对语义相似度的定义上可以发现,这种现象的存在是由于词语相似度矩阵中大部分词语之间有非零的相似度。这将对系统的存储能力带来巨大挑战,这也是一些语义计算方法不能大规模系统中应用的一个重要原因。
因此,相似度矩阵中的较小的相似度值,既没有多大意义,又对系统带来巨大的负担,需要相似的矩阵中的数据进行筛选。筛选的原则是删除值比较小的相似度值,只保留部分较大的相似度值。
发明内容
基于背景技术提出的问题,本发明提出了一种文档语义相似度计算方法,减小了文档检索工作量,提高了工作效率。
本发明提出的一种文档语义相似度计算方法,采用设定阈值的方法,分区间计算相似度,具体包括以下步骤:
A、构建一套或多套本体库;通过输入概念体系和主要描述词语构成本体库,本体库中,概念之间根据关联程度构成概念树,概念树构成概念森林;
B、计算语义相似度;利用tf-idf算法计算查询对象vQuerym与文档vDocm之间的语义相似度,计算公式为,
tf为查询对象在文档中出现的次数,idf为查询对象普遍重要性的度量,
sim(cmi,cnj)为概念cmi,cnj之间的语义相似度,计算公式如下,
d为两个概念在概念树中的距离;c为随系统自动调节参数;p为本体中预定义的cmi,cnj之间的关联程度,默认值为1;
C、设定阈值,计算概念相似度;选择阈值δ,0≤δ<1,重新改写概念相似度并记为S,则,
sim为sim(cmi,cnj)简写;
D、语义相似度计算公式变形;将概念相似度S代入tf-idf算法,得到语义相似度计算公式,
S(cmi,cnj)为的cmi,cnj的概念相似度S,词语cmi属于vQuerym,SETi为与cmi相似度大于0的词语集合。
优选地,步骤A中构建两套本体,第一套为通用词汇构成的本体库,第二套为企业根据自己的行业构建的专用本体库。
优选地,概念之间的关联程度自动设置。
优选地,利用关联统计数据挖掘算法从指定文档库计算概念之间的关联程度。
优选地,指定文档库为互联网网站和/或本地文档库。
优选地,概念之间的关联程度可手动设置。
优选地,0.2≤δ<1。
优选地,δ=0.7。
相似度矩阵中,较小的相似度值既没有多少实际意义,又占用庞大的存储空间,增加系统的负担。本发明通过删除相似度较小的对象,仅保留相似度达到预定值的对象,从而减小系统的存储压力。
附图说明
图1为本发明提出的一种文档语义相似度计算方法的流程图;
图2为语义相似度分布图。
具体实施方式
参照图1,本发明提出的一种文档语义相似度计算方法,采用设定阈值的方法,分区间计算相似度,具体包括以下步骤:
A、构建一套或多套本体库;通过输入概念体系和主要描述词语构成本体库,本体库中,概念之间根据关联程度构成概念树,概念树构成概念森林;
B、计算语义相似度;利用tf-idf(term frequency-inverse documentfrequency,词频-逆向文件频率)算法计算查询对象vQuerym与文档vDocm之间的语义相似度,计算公式为,
tf为查询对象在文档中出现的次数,idf为查询对象普遍重要性的度量,
sim(cmi,cnj)为概念cmi,cnj之间的语义相似度,计算公式如下,
d为两个概念在概念树中的距离;c为随系统自动调节参数;p为本体中预定义的cmi,cnj之间的关联程度,默认值为1;
C、设定阈值,计算概念相似度;选择阈值δ,0≤δ<1,重新改写概念相似度并记为S,则,
sim为sim(cmi,cnj)简写;
D、语义相似度计算公式变形;将概念相似度S代入tf-idf算法,将公式(3)代入公式(1),得到语义相似度计算公式,
S(cmi,cnj)为的cmi,cnj的概念相似度S;
词语cmi属于vQuerym,假设与cmi相似度大于0的词语集合为SETi,则,
由公式(5)可看出,假设vQuerym的词语集合为set,则相似度只)和set∪iSETi中的元素有关系,这意味着用户不需要遍历整个数据库来计算所有文档与用户查询对象之间的语义相似度,如此,可以快速获得所有与用户查询对象之间语义相似度大于0的候选文档集合。通过控制阈值δ,可以方便的控制set∪iSETi中元素的数量和候选文档的规模。对行业定制搜索引擎而言,通过对δ的针对性控制,可定制搜索引擎的面向领域性,尽可能减少不相关概念,节省大量的计算空间和存储空间。
本实施方式中,步骤A中构建两套本体,第一套为通用词汇构成的本体库,具体可选择中创科技的通用词汇来构成该本体库;第二套为企业根据自己的行业构建的专用本体库。两套本体库并存,方便用户选择。
本实施方式中,概念之间的关联程度可自动设置,利用关联统计数据挖掘算法从指定文档库计算概念之间的关联程度,指定文档库为互联网网站或本地文档库,或者是互联网网站和本地文档库的并集。具体实施时,概念之间的关联程度也可由操作者手动设置。
本实施方式中,步骤C中阈值δ的选取直接关系到系统的存储压力。图2所示为以《知网》为基础计算的相似度矩阵中不同区段上的相似度值总数的分布情况。由图2可看出,绝大部分相似度落在区间[0,0.2]上。如果设δ=0.7,则优化后的数据规模大约为原始数据的0.87%,原来需要5G存储空间的数据只需要不到45MB的存储空间就可以了,平均每个词有870个较高的相似度得以存储,足以满足需要;即使设δ=0.2,也只需要不到450MB的存储空间,而这个时候平均每个词可以有近9000个较高的相似度得以存储,这对一般的词语而言,与其语义上相似度较高且有价值的近义词语已经完全可以存储了。所以具体实施时,取0.2≤δ<1是比较合适的。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种文档语义相似度计算方法,其特征在于,采用设定阈值的方法,分区间计算相似度,具体包括以下步骤:
A、构建一套或多套本体库;通过输入概念体系和主要描述词语构成本体库,本体库中,概念之间根据关联程度构成概念树,概念树构成概念森林;
B、计算语义相似度;利用tf-idf算法计算查询对象vQuerym与文档vDocm之间的语义相似度,计算公式为,
tf为查询对象在文档中出现的次数,idf为查询对象普遍重要性的度量,
sim(cmi,cnj)为概念cmi,cnj之间的语义相似度,计算公式如下,
d为两个概念在概念树中的距离;c为随系统自动调节参数;p为本体中预定义的cmi,cnj之间的关联程度,默认值为1;
C、设定阈值,计算概念相似度;选择阈值δ,0≤δ<1,重新改写概念相似度并记为S,则,
sim为sim(cmi,cnj)简写;
D、语义相似度计算公式变形;将概念相似度S代入tf-idf算法,得到语义相似度计算公式,
S(cmi,cnj)为的cmi,cnj的概念相似度S,词语cmi属于vQuerym,SETi为与cmi相似度大于0的词语集合。
2.如权利要求1所述的文档语义相似度计算方法,其特征在于,步骤A中构建两套本体,第一套为通用词汇构成的本体库,第二套为企业根据自己的行业构建的专用本体库。
3.如权利要求1所述的文档语义相似度计算方法,其特征在于,概念之间的关联程度自动设置。
4.如权利要求3所述的文档语义相似度计算方法,其特征在于,利用关联统计数据挖掘算法从指定文档库计算概念之间的关联程度。
5.如权利要求4所述的文档语义相似度计算方法,其特征在于,指定文档库为互联网网站和/或本地文档库。
6.如权利要求1所述的文档语义相似度计算方法,其特征在于,概念之间的关联程度可手动设置。
7.如权利要求1所述的文档语义相似度计算方法,其特征在于,0.2≤δ<1。
8.如权利要求7所述的文档语义相似度计算方法,其特征在于,δ=0.7。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410348547.0A CN104182468B (zh) | 2014-07-21 | 2014-07-21 | 一种文档语义相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410348547.0A CN104182468B (zh) | 2014-07-21 | 2014-07-21 | 一种文档语义相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104182468A true CN104182468A (zh) | 2014-12-03 |
CN104182468B CN104182468B (zh) | 2018-01-19 |
Family
ID=51963508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410348547.0A Expired - Fee Related CN104182468B (zh) | 2014-07-21 | 2014-07-21 | 一种文档语义相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104182468B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610945A (zh) * | 2016-08-12 | 2017-05-03 | 四川用联信息技术有限公司 | 一种改进的本体概念语义相似度计算方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059806A (zh) * | 2007-06-06 | 2007-10-24 | 华东师范大学 | 一种基于语义的本地文档检索方法 |
CN102253982A (zh) * | 2011-06-24 | 2011-11-23 | 北京理工大学 | 一种基于查询语义和点击流数据的查询建议方法 |
US20120323618A1 (en) * | 2011-06-17 | 2012-12-20 | Sap Ag | Case-based retrieval of integration cases using similarity measures based on a business deomain ontology |
US20130138696A1 (en) * | 2011-11-30 | 2013-05-30 | The Institute for System Programming of the Russian Academy of Sciences | Method to build a document semantic model |
-
2014
- 2014-07-21 CN CN201410348547.0A patent/CN104182468B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059806A (zh) * | 2007-06-06 | 2007-10-24 | 华东师范大学 | 一种基于语义的本地文档检索方法 |
US20120323618A1 (en) * | 2011-06-17 | 2012-12-20 | Sap Ag | Case-based retrieval of integration cases using similarity measures based on a business deomain ontology |
CN102253982A (zh) * | 2011-06-24 | 2011-11-23 | 北京理工大学 | 一种基于查询语义和点击流数据的查询建议方法 |
US20130138696A1 (en) * | 2011-11-30 | 2013-05-30 | The Institute for System Programming of the Russian Academy of Sciences | Method to build a document semantic model |
Non-Patent Citations (4)
Title |
---|
DAVID VALLET等: "Personalized Content Retrieval in Context Using Ontological Knowledge", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
LING L等: "An ontology based method for knowledge integration in a collaborative design environment", 《INTERNATIONAL JOURNAL OF ADVANCED MANUFACTURING TECHNOLOGY》 * |
孙伟等: "混合语义模型的产品知识文档检索", 《重庆大学学报(自然科学版)》 * |
朱礼军等: "领域本体中的概念相似度计算", 《华南理工大学学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610945A (zh) * | 2016-08-12 | 2017-05-03 | 四川用联信息技术有限公司 | 一种改进的本体概念语义相似度计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104182468B (zh) | 2018-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423082B2 (en) | Methods and apparatus for subgraph matching in big data analysis | |
US20170161375A1 (en) | Clustering documents based on textual content | |
Broder et al. | Scalable k-means by ranked retrieval | |
CN105183923A (zh) | 新词发现方法及装置 | |
CN102567464A (zh) | 基于扩展主题图的知识资源组织方法 | |
CN105447179A (zh) | 基于微博社交网络的话题自动推荐方法及其系统 | |
US8229909B2 (en) | Multi-dimensional algorithm for contextual search | |
MX2017003188A (es) | Sistema y procedimiento de fusion visual de datos bayesianos. | |
CN103455487A (zh) | 一种搜索词的提取方法及装置 | |
US20190095461A1 (en) | Columnar database compression | |
CN103823838A (zh) | 一种多格式文档录入并比对的方法 | |
CN105989015B (zh) | 一种数据库扩容方法和装置以及访问数据库的方法和装置 | |
CN103577462A (zh) | 一种文档分类方法及装置 | |
CN102629269A (zh) | 一种嵌入式数据库的检索及存储方法 | |
CN103699550A (zh) | 数据挖掘系统及数据挖掘方法 | |
CN103823879A (zh) | 面向在线百科的知识库自动更新方法及系统 | |
CN104137095A (zh) | 用于演进分析的系统 | |
CN104298785A (zh) | 一种众搜资源搜索方法 | |
CN103902694A (zh) | 基于聚类和查询行为的检索结果排序方法 | |
CN104915405A (zh) | 一种基于多层次的微博查询扩展方法 | |
Huan et al. | K-means text dynamic clustering algorithm based on KL divergence | |
Babu et al. | Concept networks for personalized web search using genetic algorithm | |
KR101780534B1 (ko) | 이미지 기반 검색을 위한 맵리듀스 기반의 이미지 특징 추출 방법 및 시스템 | |
Vishwanath et al. | An Association Rule Mining for Materialized View Selection and View Maintanance | |
CN103336765A (zh) | 一种文本关键词的马尔可夫矩阵离线修正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180119 Termination date: 20210721 |