CN100517330C - 一种基于语义的本地文档检索方法 - Google Patents

一种基于语义的本地文档检索方法 Download PDF

Info

Publication number
CN100517330C
CN100517330C CNB2007100416498A CN200710041649A CN100517330C CN 100517330 C CN100517330 C CN 100517330C CN B2007100416498 A CNB2007100416498 A CN B2007100416498A CN 200710041649 A CN200710041649 A CN 200710041649A CN 100517330 C CN100517330 C CN 100517330C
Authority
CN
China
Prior art keywords
document
keyword
matrix
similarity
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2007100416498A
Other languages
English (en)
Other versions
CN101059806A (zh
Inventor
顾君忠
杨静
李子成
张伟
孙双
刘峰
黄文蓓
董晓春
王�锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CNB2007100416498A priority Critical patent/CN100517330C/zh
Publication of CN101059806A publication Critical patent/CN101059806A/zh
Application granted granted Critical
Publication of CN100517330C publication Critical patent/CN100517330C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于语义的本地文档检索方法,属于信息检索的技术领域。传统的LSA方法,基于词袋模型,很难在概念层次上进行扩展,在语义层面上存在很多的信息丢失。本发明采用的检索方法是:首先按照传统的LSA方法对本地文档进行索引,然后根据本体对查询语句中出现的概念进行语义扩展,再根据查询及其扩展概念生成查询向量,向量的值会考虑查询概念和扩展概念的相似度,所以在一定程度上弥补了传统的LSA方法在语义上的缺失。本发明的重要意义是:对非结构化的文档信息科学的索引和有效的检索;实现对非结构化信息的随时随地的检索,帮助用户方便及时地获得自己需要的信息。

Description

一种基于语义的本地文档检索方法
技术领域
本发明涉及一种基于语义的本地文档检索方法,属于信息检索(Information Retrieval)的技术领域。
背景技术
数据库技术发展至今,对于格式化数据的检索已经比较成熟,已经可以实现基于字符串匹配功能的文档检索功能。然而对于大量的非格式化文档的数据,如文本文件、Word文档,还没有有效的检索办法。如何让用户在浩如烟海的自由文本集中以最有效的方式最准确地找到需要的信息,已经成为中文检索领域内的热点。另外,由于Internet技术、移动式计算技术和普适计算的发展,使得数据的无线传输和移动计算成为可能。因此,在不久的将来,人类必然对移动计算提出新的要求,其中最重要的需求就是获得自己需要的信息。现实中,大量的信息都是以非格式化的形式保存。如何在移动的情况下有效地检索这些非格式化文档显得尤为重要和迫切。
对于非格式化文档,目前的处理方法是潜语义分析(简称LSA)。在基于LSA的文本处理中,每篇文本首先被分词并抽取关键词词频,表示成(关键词,词频)的集合,这样一个文本库就可以表示为一个t×d的关键词-文本矩阵A=[wij]t×d,其中,一个关键词对应于矩阵的一行,一个文本对应于矩阵的一列,wij为非负值,表示第i个关键词在第j篇文本中的权重。单个词的权重主要考虑其对文本的表征程度和所带的文本的信息量,所以对权重的处理主要考虑了两方面的贡献,即其在文本内部的重要程度-局部权重和在整个文本集中的重要程度-全局权重。局部权重和全局权重有不同的取值方法,取值方法的不同会对最后的检索结果产生影响。公式1给出了经典的LSA中权重的计算方法(TF-IDF),即:
wij=tfij*idfi=tfij*log2(1+N/ni)(1)
其中,wij表示第i个关键词在第j篇文本中的权重,tfij表示第i个关键词在第j篇文本中出现的频率,idfi表示第i个关键词的反比文本频率,N是整个文本集的文本个数,ni是包含第i个关键词的文本个数。
这样统计得到的矩阵At×d,它的每个列是一个t维特征向量,它反映了与该列对应文本的词分布特征。同理,对于查询问题,也可将它看成是一篇伪文档,将它表示成为一个t维向量。然后根据向量间的相似度或距离为所有文档就该查询排序。这种方法就是传统的VSM方法。
但是,VSM方法无法解决同义词、近义词以及多义词的问题。可以通过对矩阵At×d奇异值分解(SVD),降低关键词-文档矩阵里的噪声,使得其中隐藏的主要信息凸显出来。从而在一定程度上解决了同义词、近义词及多义词带来的问题。奇异值分解可以表示为:
A t × d = T t × t · S t × d · D d × d T
其中 S t × d = Σ r , r O r , d - r O t - r , r O t - r , d - r , r,r为r阶对角阵,r=Rank(A),∑=diag(σ1,…,σr),σ1≥σ2≥…≥σr>0,称它们为矩阵A的奇异值,其值等于AAT和ATA的非零特征值的平方根。设k≤r可以通过数学变换得到A的一个近似矩阵Ak,从而降低矩阵维度,将文本在更少、更能表示其特征的语义空间中表示出来。 A k = T t × t · diag ( σ 1 , σ 2 , . . . σ k , 0 , . . . , 0 ) · D d × d T 也就是Ak把A最小的r-k个奇异值和相应的左右奇异向量丢弃了,因为这些向量都乘以0了。[1](如图1)
从某种意义上说,SVD是一种用于发掘一组相互无关联的索引变量因素的技术,从而使每个词/文本都可以利用左/右奇异值向量表示为单个k维空间向量。利用SVD降维的目的是为了削弱噪音或消除一些不需要的细节信息,从而使得对文本理解的潜语义结构凸显出来。[2]在同一个空间中,可以计算词和文本、词和词以及文本和文本的相似度,例如可以通过它们在向量空间中的向量距离来衡量。
用户查询要求可以是词、文本或两者的任意组合。检索执行时,先对用户查询进行预处理,根据词频信息生成一个t维的查询向量,并将其转换成k维语义空间向量。预处理过程为:设q为原始查询向量,根据[3]可得其在k维语义空间向量计算方法为:
q * = q T T K S K - 1
这样就可在k维空间中计算k维查询向量q*和其它文本向量的相似度(如公式2所示):
sim ( q * , d j ) = Σ m = 1 k w im × w jm ( Σ m = 1 k w im 2 ) · ( Σ m = 1 k w jm 2 ) - - - ( 2 )
其中,q*为查询向量,dj为第j篇文本向量,k为语义空间的维数,wim为q*的第m维权值,wjm为dj的第m维的权值。这样就可以计算查询向量q*与每篇文本向量相似度,把相似度高于阈值的文本按相似度大小从高到低排列文本,再将该检索结果返回给用户。以上这种文本索引和建设方法就是LSA方法。
在传统的LSA模型中,由于是基于词袋模型的方法,很难在概念层次上进行扩展,所以在语义层面上存在很多的信息丢失。而且这种语义信息的丢失仅依靠传统方法较难解决。例如在传统的LSA模型中,把“交通工具”和“汽车”、“飞机”、“轮船”、“火车”、“公交车”等看成互相没有联系的词汇,而事实上它们之间具有包含关系,即后面的概念是前面的概念的子概念。然而传统的LSA模型中,没有在概念层次上考虑这种关系,所以在语义层次上很难提高,造成了语义信息的大量丢失。如果能够从外部对这些语义信息加以弥补,将很有可能提高检索的准确率和召回率。
发明内容
本发明的目的是:针对特定领域或者特定组织内部的非格式化的信息,提出一种基于语义的本地文档检索方法。
为实现上述目的,本发明采用的技术方案是:首先按照传统的LSA方法对本地文档进行索引,然后根据本体对查询语句中出现的概念进行语义扩展,再根据查询及其扩展概念生成查询向量,向量的值会考虑查询概念和扩展概念的相似度,所以在一定程度上弥补了传统LSA模型在语义上的缺失。
现详细描述本发明的技术方案。
一种基于语义的本地文档检索方法,需要在以下的硬件环境中实现:该硬件环境含有客户端、服务器和有线网络或客户端、服务器和无线网络,客户端和服务器连接在有线网络或无线网络上,其特征在于,该方法包括两个过程:
一、在进行检索前需要做准备工作,即需要根据传统的LSA算法对文档建立索引以及建立领域本体和计算本体中概念的相似度:
第1步,对本地需要检索的非格式化文档,根据传统的LSA方法建立索引,过程如下:
第1.1步:对于本地的文档集,通过分词工具对文档集合的每篇文档内容进行分词,同时对于每篇文档中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计,即计算出tfij,tfij表示第i个关键词在第j篇文本中出现的频率,分词工具是海量集团的中文分词工具,该分词工具可从网站http://www.hylanda.com/下载得到;
第1.2步:根据第1.1步的结果,可以形成关键词-文档词频矩阵,矩阵的行表示的是关键词在不同文档中的词频特征,矩阵的列表示的是文档中所有词的词频特征,矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的词频;
第1.3步:根据第1.2步的结果,计算出每个词在整个文档集中出现该词的文档的个数,即ni,1≤ni≤N;
第1.4步:根据第1.3步的结果,同时根据log2(N/ni)计算出每个词的全局权重,即idfi,对数的真数由1+N/ni变为N/ni,这种变化的意义基于以下假设:当所搜索的整个文本集中每一篇文本都出现第i个关键词,第i个关键词在区分这些文本所能贡献的力量将趋近于0,表现在公式中就是对于所有的i都有wij=0,wij表示第i个关键词在第j篇文本中的权重;
第1.5步:由第1.1步和第1.4步,根据公式wij=tfij*idfi=tfij*log2(N/ni)计算出每个关键词在每篇文本中的权重;
第1.6步:索引过程到第1.5步结束,将第1.5步得到的关键词-文档权重矩阵At×d作为特征矩阵保存,该矩阵的行表示的是关键词在不同文档中的权重特征,矩阵的列表示的是文档中所有词的权重特征,矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的权重;
第2步,根据人类对世界的认识,对概念的基本分类,利用建立本体的工具,建立一个知识本体,它是对概念在语义层次上的理解,本体的建立可以找专家建立;
第3步,计算出本体中所有概念之间的语义相似度,计算的方法是:
第3.1步,计算本体概念树每个概念的深度,深度的计算方法是:对于本体概念树中概念N’,它的深度定义为:Depth(N’)=Depth(parent Of(N’))+1,其中,根节点的深度为0,即root表示本体概念树的根,Depth(root)=0;parent Of(N’)表示N’的父亲概念或父亲节点;
第3.2步,根据第3.1步计算本体中任意两个概念之间的长度,计算方法是:对于本体概念树中任意两个节点N’1、N’2,则它们之间的长度定义为:
Length(N’1,N’2)=Depth(N’1)+Depth(N’2)-2×Depth(com_parent(N’1,N’2)),com_parent(N’1,N’2)表示N’1和N’2的公共父亲概念或公共父亲节点;
第3.3步,根据第3.1步计算本体中任意节点的高度,计算方法是:对于本体概念树中任意节点N’,它的高度定义为:Height(N’)=Max(Depth(child Of(N’))),其中Max表示求最大值,child Of(N’)表示N’的所有子孙,即:N’的高度应该是其所有子孙的深度的最大值,也就是从N’的任意一个子孙到N’距离的最大值;
第3.4步,根据第3.1步、第3.2步、第3.3步计算本体中任意两个节点之间的语义相似度,计算方法是:对本体概念树中任意两个节点N’1,N’2之间的语义相似度的定义为SN(N’1,N’2): SN ( N , 1 , N , 2 ) = Depth ( com _ parent ( N , 1 , N , 2 ) ) Height ( root ) × ( length ( N , 1 , N , 2 ) + 1 ) ;
第3.5步,根据第3.4步计算结果,将所有概念两两之间的相似度保存;
二、基于语义的本地文档检索的操作步骤:
第一步,用户通过便携式设备通过设计的界面向服务器提出查询请求,便携式设备是PDA或个人电脑,即PC,查询请求是一个以自然语言形式描述的语句,PDA或PC将该语句以XML文件的形式传送给服务器,服务器接收到该XML文件后,解析XML文件内容,获得查询请求;
第二步,服务器利用分词工具对查询请求即查询语句分词,提取其中的名词、代词、处所词、人名、地名、机构团体名、其它专名,将它们作为查询概念;
第三步,根据本体和第二步,对查询概念进行扩展,得到查询概念的扩展概念以及它们的相似度,扩展的方法如下:
根据准备工作第3步得到的概念之间的相似度对由第二步获得的查询概念进行扩展,扩展的方法是定义一个阈值θ,凡是和查询概念之间相似度大于θ的概念都作为查询概念的扩展概念;
第四步,根据第三步和准备工作中准备的关键词-文档权重矩阵对应的关键词生成查询向量q,如果关键词是查询概念则其值取1,如果关键词是查询概念的扩展概念,则其值是查询概念和该概念之间的相似度;除此之外,向量中对应分量的值取0;
第五步,对关键词-文档权重矩阵进行奇异值分解(SVD),即 A t × d = T t × t · S t × d · D d × d T , 然后A将分解后的矩阵降维到K维,即 A k = T t × t · diag ( σ 1 , σ 2 , . . . σ k , 0 , . . . , 0 ) · D d × d T , 降维的方法是:如果 Σ i = 0 j σ i ≥ α × Σ i = 0 r σ i 则k=j,其中0<α≤1;σi是非0的奇异值,r为关键词-文档权重矩阵分解后,中间矩阵的秩,α反映了对原始矩阵信息量的保持程度,当α=0.7时,就是保留了原始矩阵70%的信息而去除了30%的信息,去除的信息可能是噪声;
第六步,根据第四步和第五步,将查询向量q变化到K维空间,向量变化空间的方法是: q * = q T T K S K - 1 其中q*是变化后的K维空间向量,q是原始查询向量,Tk是降维后A的左奇异向量矩阵,即Tt×t的前t行K列,SK是降维后A的奇异值矩阵,即St×d的前K行K列;
第七步,根据第六步,计算降维后的查询向量和每一篇文档对应向量,即D的每一个K维行向量的相似度,并根据向量相似度大小排序,向量相似度越大排的越靠前,向量相似度的计算方法是经典的Cos夹角的计算方法,具体是: sim ( q * , d j ) = Σ m = 1 k w im × w jm ( Σ m = 1 k w im 2 ) · ( Σ m = 1 k w jm 2 ) 其中,dj为第j个文本向量,k为语义空间的维数,wim为q*的第m维权值,wjm为dj的第m维的权值,这样就可以计算q*与每篇文本的向量相似度,把向量相似度高于阈值的文本按向量相似度大小从高到低排列文本,再将该检索结果返回给用户。
本发明与已有技术相比所具有的优点:
本发明主要应用于本地非格式化文档信息的检索。下面主要将其和传统的关系数据库、网络搜索引擎(如:Google)、操作系统自带的文件搜索功能以及传统的LSA检索功能进行比较。
1、与传统的关系数据库比较:
传统的数据库查询,主要是基于字符串的匹配功能,因此无法避免一词多义引起的查不准和多词一义引起的查不全的问题。另外由于传统数据库查询原理是基于词或者字段的匹配功能,很难支持部分匹配功能。本发明与传统的数据库查询不同,它是基于潜语义分析(LSA)的方法。LSA是一种通过分析大量文本集,自动生成关键词-概念(语义)之间的映射规则的方法。它的基本假设是文本内容的意思与该文本中使用的词汇有着很强的联系。[2]它认为词语在文本中的使用模式内,存在着潜在的语义结构,同义词之间具有基本相同的语义结构,多义词的使用必定具有多种不同的语义结构,而词语之间的这种语义结构体现为它们在文本中的出现频率上,通过统计学方法,提取并量化这些潜在的语义结构,进而消除同义词、多义词的影响,提高文本表示的准确性。[4]因此本发明可以一定程度上避免传统数据库检索的弊病。另外,从应用领域来说,本发明主要是针对非格式化信息的查询,是传统数据库很难应用的领域。
2、与网络搜索引擎比较:
对于网络搜索引擎,虽然各个搜索引擎公司都有自己的Page Rank算法,但是这些算法的基本思想是:部分地考虑Web网页的内容以及该网页的链入度和链出度,同时还要考虑自己的商业利益。这种搜索引擎相比本发明有以下缺点:1)搜索内容只能针对Web页面信息,应用面不广;2)搜索的页面来自整个Internet,针对性不强。3)搜索引擎多是基于字符串匹配,没有的Web文档内容进行语义层次的理解。相对搜索引擎的缺点,本发明的优点是:1)搜索的内容表达形式多样,可以使Web文档、文本文档、word文档等等;2)搜索的范围可以针对特定的领域、应用;3)本发明是基于LSA,是对文档内容语义层次的理解。
①和操作系统自带的文件搜索功能比较:
现在的操作系统大多带有文件搜索功能,但是这种功能大多只限于对文件名、创建日期等信息的查找,几乎没有涉及文件内容的查找。而本发明恰恰是基于对文件内容的语义理解基础上的查找,因此查找出的内容也更加符合用户的需求。另外,操作系统的文件查找功能,一般是基于文件名字符串匹配出来的,所以需要和每个文件名相比较,因此耗时比较长。然而,对于本发明由于它在检索之前已经对文档内容做好了索引,所以在检索时只需要根据特征矩阵和查询向量计算出最相关的若干篇文档,因此检索所需要的时间非常少(一般都在2秒钟之内)。
②和传统的LSA检索比较
正如背景技术所述,传统的LSA检索模型在语义存在着大量的丢失,没有办法在语义层次上理解查询语句。然而,本发明提出的“一种基于语义的本地文档检索方法”,它通过本体这个外部知识库,可以对查询概念在语义层次上扩展,例如把“交通工具”扩展成“汽车”、“飞机”、“轮船”、“火车”、“公交车”等概念。因而可以避免传统LSA模型造成了语义信息的大量丢失。因此,如果能够从外部对这些语义信息加以弥补,将很有可能提高检索的准确率和召回率。
附图说明
图1是SVD算法示意图。其中,A是原始的关键词-文档矩阵,Ak是降维后的关键词-文档矩阵,T是SVD后的左奇异值矩阵,Tk是降维后的左奇异值矩阵,S奇异值矩阵,Sk是降维后的奇异值矩阵;DT是右奇异值矩阵,DT k是降维后的右奇异值矩阵。
图2是本地非格式化文档的检索过程图,其中,符号说明如下:
1.1用户可以通过语音或者手工向PDA移动设备输入需要查询的内容请求;
1.2用户可以通过语音或者手工向个人电脑PC机输入需要查询的内容请求;
1.3便携设备PDA将用户的请求以XML文件的形式,通过无线网络传送到服务器端;
1.4个人电脑PC机将用户的请求以XML文件的形式,通过有线网络传送到服务器端;
2.1服务器端根据本发明提出的计算查询语句和文档的相似度的算法计算查询语句与本地文档的相似度,将该相似度排序并将排序的结果形成XML文件,并将该XML文件通过无线网络传送到移动便携式设备PDA上;
2.2服务器端根据本发明提出的计算查询语句和文档的相似度的算法计算查询语句与本地文档的相似度,将该相似度排序并将排序的结果形成XML文件,并将该XML文件通过无线网络传送到个人电脑PC机上;
2.3便携式设备PDA将处理的结果显示给用户;
2.4个人电脑将处理的结果显示给用户。
图3是本地文档的检索过程。
图4是实施例建立的交通本体。
具体实施方式
实施例1:利用本发明的检索方法检索本地非格式化文档
假设有五篇文档,它们的内容分别为:
文档1:公共交通
       火车、飞机、汽车、巴士、地铁
文档2:交通堵塞
文档3:交通行业
文档4:公共交通之命脉
文档5:巴士和地铁是主要的交通工具
假设检索内容为:公共交通
首先利用分词工具,对每篇文档中的名词、代词、处所词、人名、地名、机构团体名、其它专名进行词频统计(一、的第1步中的第1.1步)。形成关键词-文档词频矩阵(如表1,一、的第1步中的第1.2步、第1.3步、第1.4步)。
表1关键词-文档词频矩阵以及ni和idfi
Figure C20071004164900151
Figure C20071004164900161
然后,根据wij=tfij*idfi=tfij*log2(N/ni)计算每个关键词在每篇文档内的权重,得到关键词-文档权重矩阵A(如表2所示,一、的第1步中的第1.5步、第1.6步)。
表2关键词-文档权重矩阵A
  关键词\文档(权重) 文档1 文档2 文档3 文档4 文档5
  公共交通   1.321928   0   0   1.321928   0
  火车   2.321928   0   0   0   0
  飞机   2.321928   0   0   0   0
  汽车   2.321928   0   0   0   0
  巴士   1.321928   0   0   0   1.321928
  地铁   1.321928   0   0   0   1.321928
  交通   0   0.736966   0.736966   0   0.736966
  堵塞   0   2.321928   0   0   0
  行业   0   0   2.321928   0   0
  命脉   0   0   0   2.321928   0
  工具   0   0   0   0   2.321928
建立本体:假设建立的交通本体如图4所示(对应于一、的第2步)。根据 SN ( N 1 , N 2 ) = Depth ( com _ parent ( N 1 , N 2 ) ) Height ( root ) × ( length ( N 1 , N 2 ) + 1 ) , 计算出检索概念和其他概念的相似度分别为(一、的第3步):交通0,地铁1/6(取0.167),巴士1/6,飞机1/6,汽车1/6,火车1/6,轮船1/6,高速火车1/9,普通火车1/9。
通过PDA内设计的软件界面,输入查询请求“公共交通”。PDA将该语句以XML文件的形似传送给服务器。服务器接收到该XML文件后,解析XML文件内容,获得查询请求。(对应于二、的第一步)对查询请求利用分词工具分词得到查询概念“公共交通”(对应于二、的第二步)。根据相似度大于0.1的概念为查询概念的扩展概念,则公共交通的扩展概念为地铁,巴士,飞机,汽车,火车,轮船,高速火车,普通火车。根据分析文档集获得的关键词,生成检索向量q:检索向量中,对应于关键词,如果关键词是查询概念则其值取1,如果关键词是查询概念的扩展概念,则其值是查询概念和该概念之间的相似度;除此之外,向量中对应分量的值取0(对应于二、的第三步)。
检索向量q
Figure C20071004164900171
对关键词-文档权重矩阵奇异值分解(对应于二、的第四步)
分解后A的左奇异向量的特征矩阵T为:
  -0.29765   -0.19814   -0.40696   -0.04422 0 0 0 0 0 0 0
  -0.46957   -0.17122   0.127787   0.088321 0 0 0 0 0 0 0
  -0.46957   -0.17122   0.127787   0.088321 0 0 0 0 0 0 0
  -0.4695   -0.1712   0.12778   0.08832   0   0   0   0   0   0   0
  7   2   7   1
  -0.33876   0.303874   0.009887   -0.12126 0 0 0 0 0 0 0
  -0.33876   0.303874   0.009887   -0.12126 0 0 0 0 0 0 0
  -0.04251   0.327018   -0.13113   0.291059 0 0 0 0 0 0 0
  -0.00424   0.162676   -0.15137 0.60917   -0.70711 0 0 0 0 0 0
  -0.00424   0.162676   -0.15137 0.60917   0.707107 0 0 0 0 0 0
  -0.05325 -0.1768   -0.84261   -0.16599 0 0 0 0 0 0 0
  -0.12545   0.704971   -0.11042   -0.30132 0 0 0 0 0 0 0
分解后A的奇异值矩阵S为:
  4.748516   0   0   0   0
  0   2.971741   0   0   0
  0   0   2.621797   0   0
  0   0   0   2.491776   0
  0   0   0   0   2.321928
分解后A的右奇异向量特征矩阵DT为:
  -0.9603   -0.00867   -0.00867   -0.1089   -0.25655
  -0.21914   0.208202   0.208202   -0.22628   0.902263
  0.14429   -0.17092   -0.17092   -0.95143   -0.12468
  0.094782   0.653731   0.653731   -0.17813   -0.32336
  0   -0.70711   0.707107   0   0
取原有信息量的70%,计算出K=4,对SVD分解的结果进行降维(对应于二、的第五步)。
则降维后
左奇异值矩阵的近似矩阵为:TK
  -0.29765   -0.19814   -0.40696   -0.04422
  -0.46957   -0.17122   0.127787   0.088321
  -0.46957   -0.17122   0.127787   0.088321
  -0.46957   -0.17122   0.127787   0.088321
  -0.33876   0.303874   0.009887   -0.12126
  -0.33876   0.303874   0.009887   -0.12126
  -0.04251   0.327018   -0.13113   0.291059
  -0.00424   0.162676   -0.15137   0.60917
  -0.00424   0.162676   -0.15137   0.60917
  -0.05325   -0.1768   -0.84261   -0.16599
  -0.12545   0.704971   -0.11042   -0.30132
中间矩阵的近似矩阵是:SK
  4.748516   0   0   0
  0   2.971741   0   0
  0   0   2.621797   0
  0   0   0   2.491776
右奇异矩阵的近似矩阵是:DT K
  -0.9603   -0.00867   -0.00867   -0.1089   -0.25655
  -0.21914   0.208202   0.208202   -0.22628   0.902263
  0.14429   -0.17092   -0.17092   -0.95143   -0.12468
  0.094782   0.653731   0.653731   -0.17813   -0.32336
SK -1为:
  0.210592   0   0   0
  0   0.210592   0   0
  0   0   0.210592   0
  0   0   0   0.210592
根据 q * = q T T K S K - 1 , 查询向量变形为q*(对应于二、的第六步):
  -0.136053
  -0.038418
  -0.071525
  -0.008522
根据 sim ( q * , d j ) = Σ m = 1 k w im × w jm ( Σ m = 1 k w im 2 ) · ( Σ m = 1 k w jm 2 ) , 计算出q*与每篇文档的相似度分别是:第一篇:0.806363,第二篇:-0.001475,第三篇:-0.001475,第四篇:0.586633,第五篇:0.075094。则按照相似度从大到小排序为:第一篇、第四篇、第五篇、第二篇、第三篇(对应于二、的第七步)。对比实施例2中利用传统的LSA方法的出来的结论,明显改进后的方法更好,能够体现出语义,这是因为改进后把第一篇、第五篇的排名提高了很多,从语义层次来讲,这种提高具有明显的合理性。
实施例2:利用传统LSA检索方法检索本地非格式化文档
假设有五篇文档,它们的内容分别为:
文档1:公共交通
       火车、飞机、汽车、巴士、地铁
文档2:交通堵塞
文档3:交通行业
文档4:公共交通之命脉
文档5:巴士和地铁是主要的交通工具
假设检索内容为:公共交通
首先利用分词工具,对每篇文档中的名词、代词、处所词、人名、地名、机构团体名、其它专名进行词频统计。形成关键词-文档词频矩阵,如表3所示。
表3关键词-文档词频矩阵以及ni和idfi
Figure C20071004164900211
然后,根据wij=tfij*idfi=tfij*log2(N/ni)计算每个关键词在每篇文档内的权重,得到关键词-文档权重矩阵A,如表4所示。
表4关键词-文档权重矩阵A
  关键词\文档(权重) 文档1 文档2 文档3 文档4 文档5
  公共交通   1.321928   0   0   1.321928   0
  火车   2.321928   0   0   0   0
  飞机   2.321928   0   0   0   0
  汽车   2.321928   0   0   0   0
  巴士   1.321928   0   0   0   1.321928
  地铁   1.321928   0   0   0   1.321928
  交通   0   0.736966   0.736966   0   0.736966
  堵塞   0   2.321928   0   0   0
  行业   0   0   2.321928   0   0
  命脉   0   0   0   2.321928   0
  工具   0   0   0   0   2.321928
通过PDA内设计的软件界面,输入查询请求“公共交通”。PDA将该语句以XML文件的形似传送给服务器。服务器接收到该XML文件后,解析XML文件内容,获得查询请求。根据分析文档集获得的关键词,生成检索向量q:检索向量中,对应于关键词,如果关键词是查询概念则其值取1,否则,向量中对应分量的值取0。
检索向量q
Figure C20071004164900221
对关键词-文档权重矩阵奇异值分解
分解后A的左奇异向量的特征矩阵T为:
  -0.29765   -0.19814   -0.40696   -0.04422 0 0 0 0 0 0 0
  -0.46957   -0.17122   0.127787   0.088321 0 0 0 0 0 0 0
  -0.46957   -0.17122   0.127787   0.088321 0 0 0 0 0 0 0
  -0.46957   -0.17122   0.127787   0.088321 0 0 0 0 0 0 0
  -0.33876   0.303874   0.009887   -0.12126 0 0 0 0 0 0 0
  -0.33876   0.303874   0.009887   -0.12126 0 0 0 0 0 0 0
  -0.04251   0.327018   -0.13113   0.291059 0 0 0 0 0 0 0
  -0.00424   0.162676   -0.15137 0.60917   -0.70711 0 0 0 0 0 0
  -0.00424   0.162676   -0.15137 0.50917   0.707107 0 0 0 0 0 0
  -0.05325 -0.1768   -0.84261   -0.16599 0 0 0 0 0 0 0
  -0.12545   0.704971   -0.11042   -0.30132 0 0 0 0 0 0 0
分解后A的奇异值矩阵S为:
  4.748516   0   0   0   0
  0   2.971741   0   0   0
  0   0   2.621797   0   0
  0   0   0   2.491776   0
  0   0   0   0   2.321928
分解后A的右奇异向量特征矩阵DT为:
  -0.9603   -0.00867   -0.00867   -0.1089   -0.25655
  -0.21914   0.208202   0.208202   -0.22628   0.902263
  0.14429   -0.17092   -0.17092   -0.95143   -0.12468
  0.094782   0.653731   0.653731   -0.17813   -0.32336
  0   -0.70711   0.707107   0   0
取原有信息量的70%,计算出K=4,对SVD分解的结果进行降维。
则降维后,
左奇异值矩阵的近似矩阵为:TK
  -0.29765   -0.19814   -0.40696   -0.04422
  -0.46957   -0.17122   0.127787   0.088321
  -0.46957   -0.17122   0.127787   0.088321
  -0.46957   -0.17122   0.127787   0.088321
  -0.33876   0.303874   0.009887   -0.12126
  -0.33876   0.303874   0.009887   -0.12126
  -0.04251   0.327018   -0.13113   0.291059
  -0.00424   0.162676   -0.15137   0.60917
  -0.00424   0.162676   -0.15137   0.60917
  -0.05325   -0.1768   -0.84261   -0.16599
  -0.12545   0.704971   -0.11042   -0.30132
中间矩阵的近似矩阵是:SK
  4.748516   0   0   0
  0   2.971741   0   0
  0   0   2.621797   0
  0   0   0   2.491776
右奇异矩阵的近似矩阵是:DT K
  -0.9603   -0.00867   -0.00867   -0.1089   -0.25655
  -0.21914   0.208202   0.208202   -0.22628   0.902263
  0.14429   -0.17092   -0.17092   -0.95143   -0.12468
  0.094782   0.653731   0.653731   -0.17813   -0.32336
SK -1为:
  0.210592   0   0   0
  0   0.210592   0   0
  0   0   0.210592   0
  0   0   0   0.210592
根据 q * = q T T K S K - 1 , 查询向量变形为q*:
  -0.136053
  -0.038418
  -0.071525
  -0.008522
根据 sim ( q * , d j ) = Σ m = 1 k w im × w jm ( Σ m = 1 k w im 2 ) · ( Σ m = 1 k w jm 2 ) , 计算出q*与每篇文档的相似度分别是:第一篇:0.490022,第二篇:0.005150,第三篇:0.005150,第四篇:0.868979,第五篇:-0.068757。则按照相似度从大到下排序为:第四篇、第一篇、第二篇、第三篇、第五篇。对比实施例1和实施例2的检索结果,明显改进后的方法更能体现出在语义层次上的理解。
参考文献
Yinghui Xu,Kyoji Umemura.Very Low-Dimensional LatentSemantic Indexing for Local Query Regions[C].Sappro,Jap:Proc.of the Sixth International Workshop on InformationRetrieval with Asian Languages,2003,11:84-91.
Kakkonen,Myller,Timonen,et al.Automatic Essay Grading withProbabilistic Latent Semantic Analysis[C].Ann Arbor,USA:Proc.of the 2nd Workshop on Building Educational ApplicationsUsing NLP,June 2005:29-36.
George W.Furnas,Scott C.Deerwester,Susan T.Dumais,et al.Information  Retrieval using a Singular Value DecompositionModel of Latent Semantic Structure[C].Grenoble,France:Annual ACM Conference on Research and Development inInformation Retrieval,1988:465-480.
盖杰,王怡,武港山.基于潜在语义分析的信息检索.计算机工程[J],2004,30(2):58-60.

Claims (1)

1、一种基于语义的本地文档检索方法,需要在以下的硬件环境中实现:该硬件环境含有客户端、服务器和有线网络或客户端、服务器和无线网络,客户端和服务器连接在有线网络或无线网络上,其特征在于,该方法包括两个过程:
一、在进行检索前需要做准备工作,即需要根据传统的LSA算法对文档建立索引以及建立领域本体和计算本体中概念的相似度:
第1步,对本地需要检索的非格式化文档,根据传统的LSA方法建立索引,过程如下:
第1.1步:对于本地的文档集,通过分词工具对文档集合的每篇文档内容进行分词,同时对于每篇文档中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计,即计算出tfij,tfij表示第i个关键词在第j篇文本中出现的频率,分词工具是海量集团的中文分词工具,该分词工具可从网站http://www.hylanda.com/下载得到;
第1.2步:根据第1.1步的结果,可以形成关键词-文档词频矩阵,矩阵的行表示的是关键词在不同文档中的词频特征,矩阵的列表示的是文档中所有词的词频特征,矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的词频;
第1.3步:根据第1.2步的结果,计算出每个词在整个文档集中出现该词的文档的个数,即ni,1≤ni≤N;
第1.4步:根据第1.3步的结果,同时根据log2(N/ni)计算出每个词的全局权重,即idfi,对数的真数由1+N/ni变为N/ni,这种变化的意义基于以下假设:当所搜索的整个文本集中每一篇文本都出现第i个关键词,第i个关键词在区分这些文本所能贡献的力量将趋近于0,表现在公式中就是对于所有的i都有wij=0,wij表示第i个关键词在第j篇文本中的权重;
第1.5步:由第1.1步和第1.4步,根据公式wij=tfij*idfi=tfij*log2(N/ni)计算出每个关键词在每篇文本中的权重;
第1.6步:索引过程到第1.5步结束,将第1.5步得到的关键词-文档权重矩阵At×d作为特征矩阵保存,该矩阵的行表示的是关键词在不同文档中的权重特征,矩阵的列表示的是文档中所有词的权重特征,矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的权重;
第2步,根据人类对世界的认识,对概念的基本分类,利用建立本体的工具,建立一个知识本体,它是对概念在语义层次上的理解,本体的建立可以找专家建立;
第3步,计算出本体中所有概念之间的语义相似度,计算的方法是:
第3.1步,计算本体概念树每个概念的深度,深度的计算方法是:对于本体概念树中概念N’,它的深度定义为:Depth(N’)=Depth(parent Of(N’))+1,其中,根节点的深度为0,即root表示本体概念树的根,Depth(root)=0;parent Of(N’)表示N’的父亲概念或父亲节点;
第3.2步,根据第3.1步计算本体中任意两个概念之间的长度,计算方法是:对于本体概念树中任意两个节点N’1、N’2,则它们之间的长度定义为:
Length(N’1,N’2)=Depth(N’1)+Depth(N’2)-2×Depth(com_parent(N’1,N’2)),com_parent(N’1,N’2)表示N’1和N’2的公共父亲概念或公共父亲节点;
第3.3步,根据第3.1步计算本体中任意节点的高度,计算方法是:对于本体概念树中任意节点N’,它的高度定义为:Height(N’)=Max(Depth(child Of(N’))),其中Max表示求最大值,child Of(N’)表示N’的所有子孙,即:N’的高度应该是其所有子孙的深度的最大值,也就是从N’的任意一个子孙到N’距离的最大值;
第3.4步,根据第3.1步、第3.2步、第3.3步计算本体中任意两个节点之间的语义相似度,计算方法是:对本体概念树中任意两个节点N’1,N’2之间的语义相似度的定义为SN(N’1,N’2): SN ( N ′ 1 , N ′ 2 ) = Depth ( com _ parent ( N ′ 1 , N ′ 2 ) ) Height ( root ) × ( length ( N ′ 1 , N ′ 2 ) + 1 ) ;
第3.5步,根据第3.4步计算结果,将所有概念两两之间的相似度保存;
二、基于语义的本地文档检索的操作步骤:
第一步,用户通过便携式设备通过设计的界面向服务器提出查询请求,便携式设备是PDA或个人电脑,即PC,查询请求是一个以自然语言形式描述的语句,PDA或PC将该语句以XML文件的形式传送给服务器,服务器接收到该XML文件后,解析XML文件内容,获得查询请求;
第二步,服务器利用分词工具对查询请求即查询语句分词,提取其中的名词、代词、处所词、人名、地名、机构团体名、其它专名,将它们作为查询概念;
第三步,根据本体和第二步,对查询概念进行扩展,得到查询概念的扩展概念以及它们的相似度,扩展的方法如下:
根据准备工作第3步得到的概念之间的相似度对由第二步获得的查询概念进行扩展,扩展的方法是定义一个阈值θ,凡是和查询概念之间相似度大于θ的概念都作为查询概念的扩展概念;
第四步,根据第三步和准备工作中准备的关键词-文档权重矩阵对应的关键词生成查询向量q,如果关键词是查询概念则其值取1,如果关键词是查询概念的扩展概念,则其值是查询概念和该概念之间的相似度;除此之外,向量中对应分量的值取0;
第五步,对关键词-文档权重矩阵进行奇异值分解(SVD),即 A t × d = T t × t · S t × d · D d × d T , 然后A将分解后的矩阵降维到K维,即 A k = T t × t · diag ( σ 1 , σ 2 , . . . σ k , 0 , . . . , 0 ) · D d × d T , 降维的方法是:如果 Σ i = 0 j σ i ≥ α × Σ i = 0 r σ i 则k=j,其中0<α≤1;σi是非0的奇异值,r为关键词-文档权重矩阵分解后,中间矩阵的秩,α反映了对原始矩阵信息量的保持程度,当α=0.7时,就是保留了原始矩阵70%的信息而去除了30%的信息,去除的信息可能是噪声;
第六步,根据第四步和第五步,将查询向量q变化到K维空间,向量变化空间的方法是: q * = q T T K S K - 1 其中q*是变化后的K维空间向量,q是原始查询向量,Tk是降维后A的左奇异向量矩阵,即Tt×t的前t行K列,SK是降维后A的奇异值矩阵,即St×d的前K行K列;
第七步,根据第六步,计算降维后的查询向量和每一篇文档对应向量,即D的每一个K维行向量的相似度,并根据向量相似度大小排序,向量相似度越大排的越靠前,向量相似度的计算方法是经典的Cos夹角的计算方法,具体是: sim ( q * , d j ) = Σ m = 1 k w im × w jm ( Σ m = 1 k w im 2 ) · ( Σ m = 1 k w jm 2 ) 其中,dj为第j个文本向量,k为语义空间的维数,wim为q*的第m维权值,wjm为dj的第m维的权值,这样就可以计算q*与每篇文本的向量相似度,把向量相似度高于阈值的文本按向量相似度大小从高到低排列文本,再将该检索结果返回给用户。
CNB2007100416498A 2007-06-06 2007-06-06 一种基于语义的本地文档检索方法 Expired - Fee Related CN100517330C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100416498A CN100517330C (zh) 2007-06-06 2007-06-06 一种基于语义的本地文档检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100416498A CN100517330C (zh) 2007-06-06 2007-06-06 一种基于语义的本地文档检索方法

Publications (2)

Publication Number Publication Date
CN101059806A CN101059806A (zh) 2007-10-24
CN100517330C true CN100517330C (zh) 2009-07-22

Family

ID=38865912

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100416498A Expired - Fee Related CN100517330C (zh) 2007-06-06 2007-06-06 一种基于语义的本地文档检索方法

Country Status (1)

Country Link
CN (1) CN100517330C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341188A (zh) * 2017-06-08 2017-11-10 广州市呼百应网络技术股份有限公司 基于语义分析的高效数据筛选方法

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917492B2 (en) * 2007-09-21 2011-03-29 Limelight Networks, Inc. Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
US8966389B2 (en) 2006-09-22 2015-02-24 Limelight Networks, Inc. Visual interface for identifying positions of interest within a sequentially ordered information encoding
US9015172B2 (en) 2006-09-22 2015-04-21 Limelight Networks, Inc. Method and subsystem for searching media content within a content-search service system
CN101388011B (zh) * 2007-09-13 2011-07-20 北京搜狗科技发展有限公司 一种向用户词库中记录信息的方法和装置
CN101320383B (zh) * 2008-05-07 2017-06-06 索意互动(北京)信息技术有限公司 基于用户个性化兴趣动态添加附加信息方法和系统
CN101593194A (zh) * 2008-05-28 2009-12-02 索意互动(北京)信息技术有限公司 给关键词添加附加信息的方法和系统
JP2011529600A (ja) * 2008-07-29 2011-12-08 テキストワイズ・リミテッド・ライアビリティ・カンパニー 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
CN101957828B (zh) * 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
CN101650742B (zh) * 2009-08-27 2015-01-28 中兴通讯股份有限公司 一种对英文检索的检索条件进行提示的系统及方法
EP2480987A4 (en) * 2009-09-26 2013-09-25 Hamish Ogilvy SYSTEM AND METHOD FOR DOCUMENT ANALYSIS AND ASSIGNMENT
US8244711B2 (en) 2009-09-28 2012-08-14 Chin Lung Fong System, method and apparatus for information retrieval and data representation
CN101777042B (zh) * 2010-01-21 2013-01-16 西南科技大学 信息检索领域中基于神经网络和标签库的语句相似度算法
CN102339284B (zh) * 2010-07-16 2015-06-17 凌群电脑股份有限公司 数据库索引的建立方法及其电脑系统
CN101980209B (zh) * 2010-11-12 2014-03-12 中国电信股份有限公司 自适应多领域搜索引擎调用方法及系统
CA2741212C (en) * 2011-05-27 2020-12-08 Ibm Canada Limited - Ibm Canada Limitee Automated self-service user support based on ontology analysis
CN103390004B (zh) * 2012-05-11 2018-03-02 北京百度网讯科技有限公司 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN102799677B (zh) * 2012-07-20 2014-11-12 河海大学 一种基于语义的水利领域信息检索系统及方法
CN103885985B (zh) * 2012-12-24 2018-05-18 北京大学 微博实时检索方法和装置
CN103927294B (zh) * 2013-01-16 2018-01-12 腾讯科技(深圳)有限公司 一种挖掘短串的方法和装置
CN103092994B (zh) * 2013-02-20 2016-10-05 苏州思方信息科技有限公司 基于信息概念格矫正的svm文本自动分类方法及其系统
US9507520B2 (en) * 2013-12-16 2016-11-29 Microsoft Technology Licensing, Llc Touch-based reorganization of page element
CN103886099B (zh) * 2014-04-09 2017-02-15 中国人民大学 一种模糊概念的语义检索系统及方法
CN104142917B (zh) * 2014-05-21 2018-05-01 北京师范大学 一种用于语言理解的层次语义树构建方法及系统
CN104182468B (zh) * 2014-07-21 2018-01-19 安徽华贞信息科技有限公司 一种文档语义相似度计算方法
CN104572624B (zh) * 2015-01-20 2017-12-29 浙江大学 一种基于词向量发现单味药与疾病之间的治疗关系的方法
CN105989097A (zh) * 2015-02-12 2016-10-05 北京仿真中心 一种基于本体的知识库查询方法及系统
BR112017019015A2 (pt) * 2015-03-09 2018-04-17 Koninklijke Philips N.V. sistema que facilita o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados, e método para facilitar o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法
CN105117386A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于图书内容结构的语义关联方法
CN106557476A (zh) * 2015-09-24 2017-04-05 北京奇虎科技有限公司 相关信息的获取方法及装置
CN105389297A (zh) * 2015-12-21 2016-03-09 浙江万里学院 文本相似度处理方法
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法
CN106407420B (zh) * 2016-09-23 2020-04-21 广州视源电子科技股份有限公司 一种多媒体资源的推荐方法及系统
CN106484810A (zh) * 2016-09-23 2017-03-08 广州视源电子科技股份有限公司 一种多媒体节目的推荐方法及系统
CN106547864B (zh) * 2016-10-24 2019-07-16 湖南科技大学 一种基于查询扩展的个性化信息检索方法
CN106570196B (zh) * 2016-11-18 2020-06-05 广州视源电子科技股份有限公司 视频节目的搜索方法和装置
CN106789559B (zh) * 2016-12-02 2019-09-24 上海智臻智能网络科技股份有限公司 用于微信公众平台的信息处理方法、装置、及系统
CN106909665A (zh) * 2017-02-28 2017-06-30 兰州大学淮安高新技术研究院 一种基于本体的专利检索方法
CN107066589B (zh) * 2017-04-17 2020-04-10 河南工业大学 一种基于综合知识的实体语义和词频的排序方法及装置
CN109947858B (zh) * 2017-07-26 2022-10-21 腾讯科技(深圳)有限公司 一种数据处理的方法及装置
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
WO2019106758A1 (ja) * 2017-11-29 2019-06-06 三菱電機株式会社 言語処理装置、言語処理システムおよび言語処理方法
CN108647244B (zh) * 2018-04-13 2021-08-24 广东技术师范学院 思维导图形式的主题教学资源集成方法、网络存储系统
CN108829889A (zh) * 2018-06-29 2018-11-16 国信优易数据有限公司 一种新闻文本分类方法以及装置
CN110377558B (zh) * 2019-06-14 2023-06-20 平安科技(深圳)有限公司 文档查询方法、装置、计算机设备和存储介质
CN111159361B (zh) * 2019-12-30 2023-10-20 北京阿尔山区块链联盟科技有限公司 获取文章的方法和装置及电子设备
CN112257419B (zh) * 2020-11-06 2021-05-28 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于奇异值分解的多评价结论集结方法. 郭亚军,易平涛.东北大学学报(自然科学版),第28卷第2期. 2007 *
基于本体的知识管理关键技术研究. 刘柏嵩.情报学报,第24卷第1期. 2005 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341188A (zh) * 2017-06-08 2017-11-10 广州市呼百应网络技术股份有限公司 基于语义分析的高效数据筛选方法

Also Published As

Publication number Publication date
CN101059806A (zh) 2007-10-24

Similar Documents

Publication Publication Date Title
CN100517330C (zh) 一种基于语义的本地文档检索方法
CN101251841B (zh) 基于语义的Web文档的特征矩阵的建立和检索方法
CN108763333B (zh) 一种基于社会媒体的事件图谱构建方法
CN107193803B (zh) 一种基于语义的特定任务文本关键词提取方法
Beliga et al. An overview of graph-based keyword extraction methods and approaches
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN105243152A (zh) 一种基于图模型的自动文摘方法
CN101634983A (zh) 一种文本分类方法和装置
CN101650729B (zh) 一种Web服务构件库动态构造方法及其服务检索方法
CN102043851A (zh) 一种基于频繁项集的多文档自动摘要方法
CN101398814A (zh) 一种同时抽取文档摘要和关键词的方法及系统
CN102254039A (zh) 一种基于搜索引擎的网络搜索方法
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN103678412A (zh) 一种文档检索的方法及装置
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
Qiu et al. Improving textrank algorithm for automatic keyword extraction with tolerance rough set
Madnani et al. Multiple alternative sentence compressions for automatic text summarization
Ekinci et al. An aspect-sentiment pair extraction approach based on latent Dirichlet allocation for Turkish
Asa et al. A comprehensive survey on extractive text summarization techniques
KR101752257B1 (ko) 링크드 오픈 데이터 클라우드 정보 서비스 시스템 및 그 제공 방법과 이를 구현하기 위한 프로그램이 저장된 기록매체
Chen et al. An educational resource retrieval mechanism based on Lucene and topic index
CN112989163A (zh) 一种垂直搜索方法和系统
CN113536772A (zh) 一种文本处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090722

Termination date: 20130606