CN102214180A - 检索方法及其建立文本语义提取模型的方法 - Google Patents

检索方法及其建立文本语义提取模型的方法 Download PDF

Info

Publication number
CN102214180A
CN102214180A CN2010101441906A CN201010144190A CN102214180A CN 102214180 A CN102214180 A CN 102214180A CN 2010101441906 A CN2010101441906 A CN 2010101441906A CN 201010144190 A CN201010144190 A CN 201010144190A CN 102214180 A CN102214180 A CN 102214180A
Authority
CN
China
Prior art keywords
matrix
document
keyword
vector
diagonal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010101441906A
Other languages
English (en)
Inventor
宋威
梁久祯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUXI KELIDESI TECHNOLOGY CO LTD
Original Assignee
WUXI KELIDESI TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI KELIDESI TECHNOLOGY CO LTD filed Critical WUXI KELIDESI TECHNOLOGY CO LTD
Priority to CN2010101441906A priority Critical patent/CN102214180A/zh
Publication of CN102214180A publication Critical patent/CN102214180A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种检索方法,其包括:将待检索数据库表示成文档_关键词矩阵,所述文档关键词矩阵的行数为文档的篇数n,列数为关键词的个数m;产生一个目标矩阵以表示改善后的待检索数据库,其包括:对文档_关键词矩阵进行转置以形成关键词文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积;和选取所述关键词向量矩阵,利用所述文档关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵;和在所述目标矩阵表示的改善后的待检索数据库中进行检索。利用本发明的检索方法大大地提高了检索速度与效率。

Description

检索方法及其建立文本语义提取模型的方法
【技术领域】
本发明涉及检索方法及其文本语义提取模型的建立,特别是关于一种基于隐型语义分析的文本语义提取模型建立的方法。
【背景技术】
随着互联网技术的飞速发展,近几十年来网上的文本信息量成指数增长,如何快速有效地组织和管理大量的文本信息已成为现代信息检索技术的首要挑战。
图1为信息检索适应的环境示意图。请参照图1所示,其中计算机102通过局域网LAN与服务器104A互联,服务器104A又与服务器104B或其他服务器相连以得到从服务器104B到服务器104N的所有的网络资源,这样计算机102通过服务器104A便可获得所有与相连的服务器上的资源,网民在使用端机计算机102中变可通过信息检索来获取想要的数据资源。由于每台服务器均有很大数据量的文本资源,为服务器带来很大的负担,怎样能够快速有效地组织和管理大量的文本信息已成为现代信息检索技术的首要挑战。
现代搜索引擎常利用向量空间模型来表示与组织文档,每个关键词在向量空间中表示文档的一个特征,然而由于文本集由成千上万的不同关键词组成,导致向量空间中表示文本的特征量非常庞大,从而,进一步造成文本数据挖掘技术的计算量十分惊人。一个简捷、高效的文本表示模型对现代信息检索技术的效率起着关键的作用,但是向量空间模型中文本特征的高维性已成为文本索引、分类、聚类、摘要等应用的瓶颈。同时,由于每个关键词在向量空间模型中代表一个独立的特征,这种直接的表示法忽略了特征间的相互关系。然而自然语言里往往存在大量的同义词与反义词,一个概念能够由许多不同的关键词表示,而一个关键词又可能有多重的含义。如何有效的表示文档的特征是信息检索与自然语言处理的难点与重点。
现代信息检索技术常把文档中每个关键词当作一个独立的单元表示,文档中关键词的数目在向量空间模型中等价于文档特征的维数。然而由于自然语言表达习惯的多样性,直接导致特征的维数非常庞大,从而,进一步造成信息检索技术的计算量十分惊人。现有的降维技术仅仅简单地选取一些词频较高的关键词来表示文档,其特征的维数往往和原始的维数在同一个数量级,不能从本质上达到降维的目的。同时,这种直接的降维方法仍把不同的关键词当作相互独立的特征,忽略了特征间的相互关系。
现代搜索引擎对检索技术提出更高的挑战,要求能从语义上检索到相关的文档,于是基于词典和基于文集的方法应运而生,用来解决文档间语义相关性的问题。
基于词典的方法利用概念的分类技术把词汇组织成树型的分层结构,树型结构中每个结点代表一个概念,每个概念包括一系列语义上相似的词汇,Wordnet提供了一个分层的树型结构和覆盖面广泛的词库,我们可以利用其概念间最短路径长度和最近共同父结点深度来计算两个关键词间的语义相关性。但是Wordnet的词库在一些专业性很强的领域仍十分有限,很难准确地衡量相关概念间的相似性。同时,在树型结构中查找概念间最短路径长度与最近父结点深度的时间复杂度非常地高。
基于文集的方法通过计算两个概念在文集中覆盖的最大信息背景(信息量)来衡量概念间的相关性,概念间的信息量通过文集中两个概念及其子概念的实例重叠概率来计算,此方法需要一个全面的文集来提供丰富的信息背景支持,但也导致该方法的时间复杂度十分惊人。同时,由于概念间的相关性受限于所选取的具体文集,对于一些专家数据库该方法的作用十分有限。
因此有必要提出一种改进的技术方案来克服上述问题。
【发明内容】
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
本发明的目的在于提供一种建立文本语义提取模型的方法,其可以既能有效地把表示文档的特征维数降到文档篇数的数量级(原始的特征维数为关键词的数量级),去除冗余的特征,大大降低了信息检索算法的计算复杂度;同时,又能充分地发掘文档间潜在的语义联系,因为相似背景的文档往往在语义空间中分享相似的语义向量。
根据本发明的一方面,本发明提供检索方法,其包括:将待检索数据库表示成文档_关键词矩阵,所述文档_关键词矩阵的行数为文档的篇数n,列数为关键词的个数m;产生一个目标矩阵以表示改善后的待检索数据库,其包括:对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积;和选取所述关键词向量矩阵,利用所述文档_关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵;和在所述目标矩阵表示的改善后的待检索数据库中进行检索。
进一步的,其中所述对角线矩阵是一个以文档篇数n为秩的对角线矩阵,所述关键词向量矩阵为m阶矩阵,所述文档向量矩阵为n阶矩阵。
进一步的,其中所述对角线矩阵是一个以小于文档篇数n的数量k为秩的对角线矩阵,所述关键词向量矩阵的行数为m,其列由其经济矩阵的前k列构成,所述文档向量矩阵的行数为k,其列数为n。
根据本发明的另一方面,本发明提供一种建立文本语义提取模型的方法,其包括:在向量空间模型中以文档_关键词矩阵表示待检索数据库,所述文档_关键词矩阵的行数为文档的篇数n,列数为关键词的个数m;对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积;和选取所述关键词向量矩阵,利用文档_关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵。
进一步的,其中所述对角线矩阵是一个以文档篇数n为秩的对角线矩阵,所述关键词向量矩阵为m阶矩阵,所述文档向量矩阵为n阶矩阵。
进一步的,其中所述对角线矩阵是一个以小于文档篇数n的数量k为秩的对角线矩阵,所述关键词向量矩阵的行数为m,其列由其经济矩阵的前k列构成,所述文档向量矩阵的行数为k,其列数为n。
根据本发明的再一方面,本发明提供一种建立文本语义提取模型的方法,其包括:在向量空间模型中以文档_关键词矩阵表示待检索数据库,所述文档_关键词矩阵的行数为文档的篇数n,列数为关键词的个数m;对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将关键词_文档矩阵分解成关键词向量矩阵的酉矩阵的前k列构成的k列关键词向量矩阵、关键词_文档矩阵的前k个最大的奇异值构成的k阶对角线矩阵和文档向量矩阵的前k行构成的k行文档向量矩阵的乘积;和选取所述k列关键词向量矩阵,利用文档_关键词矩阵和所述k列关键词向量矩阵相乘以建立目标矩阵;其中k为小于或等于文档篇数n的数量的一个值。
进一步的,所述k的值通过所述的文档_关键词矩阵和目标矩阵的相似性差异函数来确定,所述相似性差异函数SStress为:
SStress = Σ i = 1 n Σ j = 1 n ( s i , j 2 - s i , j ′ 2 ) 2
其中n代表文档_关键词矩阵的行数,其中si,j表示所述文档_关键词矩阵中第i行元素di(wi,1,wi,2,...wi,m)和第j行元素dj(wi,1,wi,2,...wi,m)间的cosine值,S′i,j表示所述目标矩阵中第i行元素
Figure GSA00000078685800042
和j行元素间的cosine值,其中si,j、s′i,j分别为:
s i , j = ( Σ p = 1 m w i , p · w j , p ) / ( Σ p = 1 m w i , p 2 · Σ p = 1 m w j , p 2 )
s i , j ′ = ( Σ p = 1 k v i , p · v j , p ) / ( Σ p = 1 k v i , p 2 · Σ p = 1 k v j , p 2 )
其中m代表所述文档_关键词矩阵中关键词的数目,k(k≤n)代表所述目标矩阵的维数;
所述k值可以为所述相似性差异函数曲线的拐点处对应的k值到n之间的任何一个值,而所述相似性差异函数曲线的拐点处对应的k值为所述k的最佳值。
根据本发明的再一方面,本发明提供一种建立文本语义提取模型的方法,其包括:在向量空间模型中以文档_关键词矩阵表示待检索数据库,其中n代表文档的篇数,m代表关键词的个数;对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵VT的乘积;和选取所述关键词向量矩阵的经济矩阵,利用文档_关键词矩阵和所述关键词向量矩阵的经济矩阵相乘以建立目标矩阵。
进一步的,所述∑是一个以文档篇数n为秩的对角线矩阵,所述关键词向量矩阵为m阶矩阵,所述文档向量矩阵为n阶矩阵。
与现有技术相比,本发明通过文本矩阵表示待检索数据库,并对所述文本矩阵进行降维产生目标矩阵,使得通过目标矩阵表示的待检索数据库进行了改善,既高效降维又充分地发掘文档间潜在的语义联系,去除冗余特征,准确地评价文档间的语义相关性。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为信息检索适用的环境示意图;
图2为本发明中检索方法的流程图;和
图3为本发明中在一个实施例中原始文档集与选取不同的k时所产生的目标矩阵间的SStress值关系示意图。
【具体实施方式】
本发明的详细描述主要通过程序、步骤、逻辑块、过程或其他象征性的描述来直接或间接地模拟本发明技术方案的运作。为透彻的理解本发明,在接下来的描述中陈述了很多特定细节。而在没有这些特定细节时,本发明则可能仍可实现。所属领域内的技术人员使用此处的这些描述和陈述向所属领域内的其他技术人员有效的介绍他们的工作本质。换句话说,为避免混淆本发明的目的,由于熟知的方法和程序已经容易理解,因此它们并未被详细描述。
此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。此外,表示一个或多个实施例的方法、流程图或功能框图中的模块顺序并非固定的指代任何特定顺序,也不构成对本发明的限制。
现代搜索引擎常利用向量空间模型来表示和组织文档,文档的向量空间模型即文本语义提取模型一般利用文档_关键词矩阵或关键词_文档矩阵来表示,其中文档_关键词矩阵的行表示文档,列表示关键词,而文档_关键词矩阵的转置为关键词_文档矩阵。由于每个文档由成千上万个关键词组成,这样导致文档的向量空间的维数非常庞大,为了更大程度上的减少文档的向量空间的冗余,本发明提出了基于隐型语义分析的文本语义提取方法,下面将详细地描述建立基于隐型语义分析的文本语义提取方法的具体过程。
图2为本发明中检索方法200的流程图。请参阅图2所示,所述建立文本语义提取模型的方法200包括:
步骤220,将待检索数据库表示为文档矩阵,即将待检索数据库表示成文档_关键词矩阵D(n×m),其中n代表文档的篇数,m代表关键词的个数;
步骤240,建立目标矩阵,即产生一个表示改善后的待检索数据库的目标矩阵,其包括:
步骤2402,对文档_关键词矩阵D(n×m)进行转置以形成关键词_文档矩阵A(m×n),利用奇异值分解算法将原始的关键词_文档矩阵A(m×n)分解成关键词向量矩阵U、一对角线矩阵∑和文档向量矩阵VT的乘积(其具体分解将在下述的一个示例中进行描述);和
步骤2404,选取所述关键词向量矩阵U,利用文档_关键词矩阵D和所述关键词向量矩阵U相乘以建立目标矩阵C(其具体建立目标矩阵将在下述的一个示例中进行描述);和
步骤260,在目标矩阵表示的改善后的待检索数据库中进行检索。
下面将结合具体的实例来讲述本发明的前述方法的各个步骤。
在一个具体示例中,测试文集在向量空间模型中以文档_关键词矩阵D(n×m)表示,其中n代表文档的篇数,m代表所有关键词的个数,D(n×m)转置矩阵为关键词_文档矩阵A(m×n),则D与A的关系为:
D=AT                        (1)
根据本发明中文本检索方法的上述步骤240建立目标矩阵。其具体过程则先进行上述步骤2402,首先对关键词_文档矩阵A(m×n)进行奇异值分解,则A分解后可以表示为:
A=U∑VT                (2)
其中矩阵U和矩阵V均为矩阵A的奇异向量,矩阵∑为矩阵A的奇异值,且矩阵U和矩阵V均为酉矩阵,U(m×n)和VT(n×n)分别代表分解后的关键词向量矩阵和文档向量矩阵,矩阵∑=diag(σ1,σ2,...,σn)是一个对角线矩阵,n为矩阵A的秩。其具体分解公式为:
Figure GSA00000078685800071
然后根据本发明中文本检索方法的上述步骤2404建立目标矩阵,即利用文档_关键词矩阵D(n×m)和分解产生的后续矩阵U(m×n)建立目标矩阵C:
C=DU                      (4)
由式(4)可知C是一个(n×n)矩阵,其具体结构为:
Figure GSA00000078685800072
在向量空间模型中原始的文档集以矩阵D(n×m)表示,由于本发明提出在计算文档相似性时以矩阵C(n×n)替代矩阵D(n×m),再由于在信息检索过程中,关键词的数目m要远大于文件的篇数n,因此本发明可以将原始文档集的特征数由m维降到n维。而通常衡量文档间的相似性的参数为cosine值或欧几里德距离,也就是说,当目标矩阵C(n×n)中的任意两行元素之间的cosine值或欧几里得距离分别和原始矩阵D(n×m)中相对应的两行元素之间的cosine值或欧几里得距离相同,则认为矩阵C(n×n)的文档间的相似性和矩阵D(n×m)的文档间的相似性一样,即矩阵C(n×n)可以替代矩阵D(n×m)。因此为证明目标矩阵C(n×n)能准确的模拟原始文档矩阵D(n×m),下面将分别对矩阵C(n×n)和矩阵D的cosine值或欧几里德距离进行计算,以验证目标矩阵C(n×n)能准确的模拟原始文档矩阵D(n×m)。
在实际的信息检索过程中,关键词的数目m要远大于文件的篇数n,但为了论证本发明的完备性,下面根据两个实施例对m≤n和m>n两种情况进行分别论证。
实施例一:
当m≤n时,根据上述步骤2402,对关键词_文档矩阵A(m×n)进行奇异值分解,分解后产生的矩阵分别为关键词向量矩阵U,对角线矩阵∑,文档向量矩阵VT,这里为了简化矩阵并突出矩阵之间维数的关系则将矩阵中元素用“*”表示,则具体如下:
Figure GSA00000078685800081
根据上述步骤1404得其对应的产生的目标矩阵为:
Figure GSA00000078685800082
假设D1和D2是从文档_关键词矩阵D中随机选取的两行元素,C1和C2是矩阵C中分别与D1和D2相对应的两行元素,可得:
C1=D1U                    (8)
C2=D2U                    (9)
由于D1与D2分别表示为{w1,1,w1,2,…,w1,m}和{w2,1,w2,2,…,w2,m},那么D1与D2的内积定义为:
⟨ D 1 , D 2 ⟩ = Σ k = 1 m w 1 , k · w 2 , k - - - ( 10 )
其中w1,k和w2,k分别是D1和D2的第k个元素。由于C1和C2可分别表示为{v1,1,v1,2,…,v1,m}和{v2,1,v2,2,…,v2,m},那么C1与C2的内积定义为:
⟨ C 1 , C 2 ⟩ = Σ k = 1 m v 1 , k · v 2 , k - - - ( 11 )
由于矩阵U是一个酉矩阵(unitary matrix),可得:
<D1,D2>=<D1U,D2U>            (12)
<D1,D1>=<D1U,D1U>            (13)
<D2,D2>=<D2U,D2U>            (14)
从式(8)、式(9)和式(12)可得:
<D1,D2>=<C1,C2>              (15)
同理,从式(8)、式(9)、式(13)和(14)可得:
<D1,D1>=<C1,C1>              (16)
<D2,D2>=<C2,C2>              (17)
由于D1和D2间的cosine值定义为:
cos ( D 1 , D 2 ) = ( &Sigma; k = 1 m w 1 , k &CenterDot; w 2 , k ) / ( &Sigma; k = 1 m w 1 , k 2 &CenterDot; &Sigma; k = 1 m w 2 , k 2 ) - - - ( 18 )
同时,C1和C2间的cosine值定义为:
cos ( C 1 , C 2 ) = ( &Sigma; k = 1 m v 1 , k &CenterDot; v 2 , k ) / ( &Sigma; k = 1 m v 1 , k 2 &CenterDot; &Sigma; k = 1 m v 2 , k 2 ) - - - ( 19 )
从式(10)、式(18)和内积的定义可得:
cos ( D 1 , D 2 ) = &lang; D 1 , D 2 &rang; / ( &lang; D 1 , D 1 &rang; &CenterDot; &lang; D 2 , D 2 &rang; ) - - - ( 20 )
同理,从式(11)、式(19)和内积的定义可得:
cos ( C 1 , C 2 ) = &lang; C 1 , C 2 &rang; / ( &lang; C 1 , C 1 &rang; &CenterDot; &lang; C 2 , C 2 &rang; ) - - - ( 21 )
因此,从式(15)、式(16)、式(17)、式(20)和式(21)可得:
cos(D1,D2)=cos(C1,C2),m≤n    (22)
由于D1和D2间的欧几里德距离定义为:
Dis ( D 1 , D 2 ) = &Sigma; k = 1 m ( w 1 , k - w 2 , k ) 2 = &Sigma; k = 1 m ( w 1 , k 2 + w 2 , k 2 - 2 w 1 , k &CenterDot; w 2 , k ) - - - ( 23 )
同时,C1和C2间的欧几里德距离定义为:
Dis ( C 1 , C 2 ) = &Sigma; k = 1 m ( v 1 , k - v 2 , k ) 2 = &Sigma; k = 1 m ( v 1 , k 2 + v 2 , k 2 - 2 v 1 , k &CenterDot; v 2 , k ) - - - ( 24 )
从式(10)、式(23)和内积的定义可得:
Dis ( D 1 , D 2 ) = < D 1 , D 1 > + < D 2 , D 2 > - 2 < D 1 , D 2 > - - - ( 25 )
同理,从式(11)、式(24)和内积的定义可得:
Dis ( C 1 , C 2 ) = < C 1 , C 1 > + < C 2 , C 2 > - 2 < C 1 , C 2 > - - - ( 26 )
因此,从式(15)、式(16)、式(17)、式(25)和式(26)可得:
Dis(D1,D2)=Dis(C1,C2),m≤n                (27)
由此论证当m≤n时,目标矩阵C中任何两行元素间的cosine值与欧几里德距离分别和的原始矩阵D中相对应的两行元素的cosine值与欧几里德距离相同。
实施例二:
当m>n时,同样根据上述步骤2402,对关键词_文档矩阵A进行奇异值分解后得到的矩阵分别为关键词向量矩阵U,对角线矩阵∑,文档向量矩阵VT,同样,这里为了简化矩阵并突出矩阵之间维数的关系则将矩阵中元素用“*”表示,具体如下:
Figure GSA00000078685800103
当m>n时,本发明仅采用矩阵U1(m×n)来构造目标矩阵C,其中U1是矩阵U的经济矩阵,其n由矩阵∑的奇异值个数决定,也就是说,n等价于文档集中文档的篇数。
因此,当m>n时,目标矩阵C可定义为:
C=DU1                    (29)
其具体如下:
Figure GSA00000078685800104
由式(30)可见当m>n时,C是一个n×n矩阵,特征维数从向量空间模型中文档集矩阵D的m维降至n(m>>n)维。本发明将论证在计算文档间相似性时,目标矩阵C(29)能准确的模拟原始文档集矩阵D。从式(1)和式(2)可得:
D = A T = ( U&Sigma;V T ) T = ( ( U 1 , U 2 ) &Sigma; 1 0 V T ) T
= V ( &Sigma; 1 T , 0 ) U 1 T U 2 T = ( V &Sigma; 1 T , 0 ) U 1 T U 2 T = V &Sigma; 1 T U 1 T - - - ( 31 )
从式(31)可推出:
DU = D ( U 1 , U 2 ) = V &Sigma; 1 T U 1 T ( U 1 , U 2 ) = ( V &Sigma; 1 T U 1 T U 1 , V &Sigma; 1 T U 1 T U 2 ) - - - ( 32 )
根据酉矩阵(unitary matrix)的性质可得:
U 1 T U 2 = 0 - - - ( 33 )
因此,从式(31)、式(32)和式(33)可得:
DU = ( V &Sigma; 1 T U 1 T U 1 , 0 ) = ( DU 1 , 0 ) - - - ( 34 )
假设D1和D2是矩阵D中任意两行元素,从式(34)可得:
D1U=(D1U1,0)                (35)
D2U=(D2U1,0)                (36)
根据酉矩阵U的性质,式(29)、式(35)、式(36)以及内积的定义可得:
<D1,D2>=<D1U,D2U>=<(D1U1,0),(D2U1,0)>
=<D1U1,D2U1>=<C1,C2>                (37)
其中C1和C2是矩阵C中分别与矩阵D中D1和D2相对应的两行元素,同理可得:
<D1,D1>=<D1U,D1U>=<(D1U1,0),(D1U1,0)>
=<D1U1,D1U1>=<C1,C1>                    (38)
<D2,D2>=<D2U,D2U>=<(D2U1,0),(D2U1,0)>
=<D2U1,D2U1>=<C2,C2>                    (39)
因此,从式(37)、式(38)、式(39)以及矩阵C中cosine定义与矩阵D中cosine定义可得:
cos(D1,D2)=cos(C1,C2),m>n                (40)
式(40)则表示C中任意两行元素间的Cosine值与D中相对应的两行元素间的cosine值相同。
同理,从式(37)、式(38)、式(39)以及矩阵C中欧几里德距离与矩阵D中欧几里德距离可得:
Dis(D1,D2)=Dis(C1,C2),m>n                (41)
式(41)则表示C中任意两行元素间的欧几里得距离与D中相对应的两行元素间的欧几里得距离相同。
由上根据实施例一和实施例二可知在m≤n和m>n的情况下目标矩阵C和原始矩阵D的Cosine值和欧几里得距离都相同,则表示根据步骤140获得的目标矩阵C能够准确替代原始矩阵D进行文档间相似性计算。也就是说,目标矩阵C(n×n)能准确的模拟原始文档矩阵D(n×m),且能够从原始矩阵D的m维降到目标矩阵的n维。
在前述实施例中,所述∑为一个以文档篇数n为秩的对角线矩阵。经过转化最终的目标矩阵则由m维降到了n维。在其他实施例中,∑的也可以是小于n的任意数量k的对角线矩阵,由对所述关键词_文档A的奇异值分解可知:矩阵∑作为所述关键词_文档A的奇异值,其对角线上元素个数r决定了矩阵U选取前r列,目标矩阵C的行数则由所述文档_关键词矩阵D的行数决定,而目标矩阵C的列数则由U的列数决定,于是A的奇异值个数的选取控制后面构造目标矩阵C,所以控制∑的对角线上元素个数r就能进一步控制目标矩阵C的维数,假设∑的对角线上元素个数r=k,如果选择∑的个数k(k≤n),即有效秩的阶数为k(k≤n),则可以在保持原有信息的基础上将原来的维数由m降维到k。这里,本发明选取矩阵A中k个最大的奇异值,即在矩阵∑的元素中从大到小选取k个,则有:
A = U 1 k &Sigma; k V k T - - - ( 42 )
其中U1k由经济矩阵U1中前k列构成,Vk T由矩阵VT中前k行构成。∑k=diag(σ1,σ2,...,σk)是矩阵∑前k个奇异值。通过选取合适的k值,矩阵Ak能够移除大量冗余,准确的表示文档集中潜在的语义联系。因此,最终降维后的目标矩阵Ck表示为:
C k n &times; k = D n &times; m U 1 k m &times; k - - - ( 43 )
同时,目标矩阵Ck中的每篇文档表示为:
d 1 &times; k ^ = d 1 &times; m T U 1 k m &times; k - - - ( 44 )
由上可知,对于原始文档可以直接先选取文档关键词矩阵A中k个最大的奇异值、经济矩阵U1中前k列构成的U1k、矩阵VT中前k行构成的Vk T和矩阵∑前k个奇异值∑k=diag(σ1,σ2,...,σk)来进行奇异值分解,即式(42)所示,然后建立目标矩阵Ck,即式(43)所示,这时目标矩阵Ck则为通过原始矩阵D的m维降到k维的语义提取模型,其中k<n。
需要注意的是,建立文本语义提取模型的方法中有一个k值,是最终降维的维数,但并非k的值降的越低越好,因为在降维的同时需要保证目标矩阵Ck必须与文档_关键词矩阵D的相似性,本发明通过的相似性差异函数即多维测量法(Multidimensional scaling method)来分析原始文档集矩阵D和选取不同k值时的目标矩阵Ck间的相似性差异。选择出的k值在保证降维的同时也保证目标矩阵Ck和文档_关键词矩阵的相似性,这样目标矩阵Ck才能够准确地发掘文档间的语义相关性,下面通过一个实施例来说明k的选取问题。
在一个具体的实施方式中,为了评价基于隐型语义分析的文本语义提取模型的有效性,实验采用20新闻集(20-newsgroup)18828版本和路透社文集(Reuter)21578版本对该模型进行检测。测试集1选取200篇20新闻集文档,测试集2选取600篇路透社文集文档。在进行文本预处理后,测试集1和测试集2中分别包含7117和5870个独立索引的关键词。为了表示每篇文档,首先在向量空间模型中分别对测试集1和测试集2中的文档进行初始化为:
di={wi,1,wi,2,…,wi,7117}             (45)
di′={wi,1′,wi,2′,...,wi,5870′}    (46)
通过直接选取词频最高的关键词进行简单降维后,测试集1和测试集2中的文档分别降维到1500维和1000维,即:
di={wi,1,wi,2,…,wi,1500}            (47)
di′={wi,1,wi,2,…,wi,1000}          (48)
通过选取不同的维数k,本发明利用多维测量法(Multidimensional scalingmethod)来分析原始文档集矩阵D和目标矩阵Ck间的关系。多维测量的SStress值定义为:
SStress = &Sigma; i = 1 n &Sigma; j = 1 n ( s i , j 2 - s i , j &prime; 2 ) 2 - - - ( 49 )
其中n代表文档集中文档的篇数,si,j表示原始文档集矩阵D中第i行元素di(wi,1,wi,2,...wi,m)和第j行元素dj(wi,1,wi,2,...wi,m)间的cosine值,s′i,j表示目标矩阵Ck中第i行元素
Figure GSA00000078685800142
和j行元素
Figure GSA00000078685800143
间的cosine值。其cosine计算公式表示为:
s i , j ( &Sigma; p = 1 m w i , p &CenterDot; w j , p ) / ( &Sigma; p = 1 m w i , p 2 &CenterDot; &Sigma; p = 1 m w j , p 2 ) - - - ( 50 )
s i , j &prime; ( &Sigma; p = 1 k v i , p &CenterDot; v j , p ) / ( &Sigma; p = 1 k v i , p 2 &CenterDot; &Sigma; p = 1 k v j , p 2 ) - - - ( 51 )
其中m代表原始文档集矩阵D中关键词的数目,k(k≤n)代表目标矩阵Ck中所降至的维数。
图3表示原始文档集矩阵与选取不同k时所产生的目标矩阵Ck间的SStress值关系,其中n1表示测试集1选取的200篇文档,n2表示测试集2选取的600篇文档。从图中可以看出,SStress值与k值之间呈类似反比例函数的二次曲线函数,当SStress=0时,在测试集1中则表示k=n1,在测试集2中则表示k=n2,即没有对原始文档矩阵降维,且此时根据SStress计算公式可知目标矩阵的cosine值和原始矩阵的cosine值相等,所以相似度最高。为了更清楚的描述,不妨选择其中一条代表原始矩阵D(600×5870)和目标矩阵C1(200×k)之间SStress值的曲线进行说明,当k不断减小时则SStress值不断增大,但k最初从n2减小的一段时间,SStress值随k值减小的变化并不十分明显,如图所示,图中kh至n2一段SStress值的曲线比较平缓,即表示降维之后的目标矩阵与原始文档矩阵的相似性变化并不明显,但当k值降到图示曲线的拐点处的kh值(也可称为降维门限值)时,则SStress值随k值减小的变化变得非常明显,即图中当k从kh到0的一段,SStress值曲线变得非常陡峭。所以选择图中曲线拐点处的k值kh,则可以既保证最大程度的降维,又可以充分保证降维后的目标矩阵与原始文档矩阵的相似性。这样,目标矩阵Ck才能够保证降维去除冗余的同时准确地发掘文档间的语义相关性。
综上所述,本发明通过对待检索数据库的降维以产生通过目标矩阵表示的改善后的待检索数据库,使得对文本检索速度大大提高。
上述说明已经充分揭露了本发明的具体实施方式。需要指出的是,熟悉该领域的技术人员对本发明的具体实施方式所做的任何改动均不脱离本发明的权利要求书的范围。相应地,本发明的权利要求的范围也并不仅仅局限于前述具体实施方式。

Claims (10)

1.一种检索方法,其特征在于,其包括:
将待检索数据库表示成文档_关键词矩阵,所述文档_关键词矩阵的行数为文档的篇数n,列数为关键词的个数m;
产生一个目标矩阵以表示改善后的待检索数据库,其包括:
对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积;和
选取所述关键词向量矩阵,利用所述文档_关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵;和
在所述目标矩阵表示的改善后的待检索数据库中进行检索。
2.根据权利要求1所述的方法,其特征在于,所述对角线矩阵是一个以文档篇数n为秩的对角线矩阵,所述关键词向量矩阵为m阶矩阵,所述文档向量矩阵为n阶矩阵。
3.根据权利要求1所述的方法,其特征在于,所述对角线矩阵是一个以小于文档篇数n的数量k为秩的对角线矩阵,所述关键词向量矩阵的行数为m,其列由其经济矩阵的前k列构成,所述文档向量矩阵的行数为k,其列数为n。
4.一种建立文本语义提取模型的方法,其特征在于,其包括:
在向量空间模型中以文档_关键词矩阵表示待检索数据库,所述文档_关键词矩阵的行数为文档的篇数n,列数为关键词的个数m;
对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积;和
选取所述关键词向量矩阵,利用文档_关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵。
5.根据权利要求4所述的方法,其特征在于,所述对角线矩阵是一个以文档篇数n为秩的对角线矩阵,所述关键词向量矩阵为m阶矩阵,所述文档向量矩阵为n阶矩阵。
6.根据权利要求4所述的方法,其特征在于,所述对角线矩阵是一个以小于文档篇数n的数量k为秩的对角线矩阵,所述关键词向量矩阵的行数为m,其列由其经济矩阵的前k列构成,所述文档向量矩阵的行数为k,其列数为n。
7.一种建立文本语义提取模型的方法,其特征在于,其包括:
在向量空间模型中以文档_关键词矩阵表示待检索数据库,所述文档_关键词矩阵的行数为文档的篇数n,列数为关键词的个数m;
对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将关键词_文档矩阵分解成关键词向量矩阵的酉矩阵的前k列构成的k列关键词向量矩阵、关键词_文档矩阵的前k个最大的奇异值构成的k阶对角线矩阵和文档向量矩阵的前k行构成的k行文档向量矩阵的乘积;和
选取所述k列关键词向量矩阵,利用文档_关键词矩阵和所述k列关键词向量矩阵相乘以建立目标矩阵;其中
k为小于或等于文档篇数n的数量的一个值。
8.根据权利要求3、6或7所述的方法,其特征在于,所述k的值通过所述的文档_关键词矩阵和目标矩阵的相似性差异函数来确定,所述相似性差异函数SStress为:
SStress = &Sigma; i = 1 n &Sigma; j = 1 n ( s i , j 2 - s i , j &prime; 2 ) 2
其中n代表文档_关键词矩阵的行数,其中si,j表示所述文档_关键词矩阵中第i行元素di(wi,1,wi,2,...wi,m)和第j行元素dj(wi,1,wi,2,...wi,m)间的cosine值,s′i,j表示所述目标矩阵中第i行元素
Figure FSA00000078685700022
和j行元素
Figure FSA00000078685700023
)间的cosine值,其中si,j、s′i,j分别为:
s i , j = ( &Sigma; p = 1 m w i , p &CenterDot; w j , p ) / ( &Sigma; p = 1 m w i , p 2 &CenterDot; &Sigma; p = 1 m w j , p 2 )
s i , j &prime; = ( &Sigma; p = 1 k v i , p &CenterDot; v j , p ) / ( &Sigma; p = 1 k v i , p 2 &CenterDot; &Sigma; p = 1 k v j , p 2 )
其中m代表所述文档_关键词矩阵中关键词的数目,k(k≤n)代表所述目标矩阵的维数;
所述k值可以为所述相似性差异函数曲线的拐点处对应的k值到n之间的任何一个值,而所述相似性差异函数曲线的拐点处对应的k值为所述k的最佳值。
9.一种建立文本语义提取模型的方法,其特征在于,其包括:
在向量空间模型中以文档_关键词矩阵表示待检索数据库,其中n代表文档的篇数,m代表关键词的个数;
对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵VT的乘积;和
选取所述关键词向量矩阵的经济矩阵,利用文档_关键词矩阵和所述关键词向量矩阵的经济矩阵相乘以建立目标矩阵。
10.根据权利要求9所述的建立文本语义提取模型的方法,其特征在于,所述∑是一个以文档篇数n为秩的对角线矩阵,所述关键词向量矩阵为m阶矩阵,所述文档向量矩阵为n阶矩阵。
CN2010101441906A 2010-04-12 2010-04-12 检索方法及其建立文本语义提取模型的方法 Pending CN102214180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101441906A CN102214180A (zh) 2010-04-12 2010-04-12 检索方法及其建立文本语义提取模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101441906A CN102214180A (zh) 2010-04-12 2010-04-12 检索方法及其建立文本语义提取模型的方法

Publications (1)

Publication Number Publication Date
CN102214180A true CN102214180A (zh) 2011-10-12

Family

ID=44745495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101441906A Pending CN102214180A (zh) 2010-04-12 2010-04-12 检索方法及其建立文本语义提取模型的方法

Country Status (1)

Country Link
CN (1) CN102214180A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407211A (zh) * 2015-07-30 2017-02-15 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及系统
CN107239552A (zh) * 2017-06-08 2017-10-10 上海德衡数据科技有限公司 一种针对关键词的网络文档语义检索方法
CN107330044A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索架构
CN107330052A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索原型
CN107644082A (zh) * 2013-03-07 2018-01-30 青岛海信电器股份有限公司 信息搜索及显示方法和装置
CN108197175A (zh) * 2017-12-20 2018-06-22 国网北京市电力公司 技术监督数据的处理方法和装置、存储介质、处理器
CN109726391A (zh) * 2018-12-11 2019-05-07 中科恒运股份有限公司 对文本进行情感分类的方法、装置及终端
CN110765360A (zh) * 2019-11-01 2020-02-07 新华网股份有限公司 文本话题处理方法、装置、电子设备及计算机存储介质
CN113011689A (zh) * 2019-12-19 2021-06-22 中国移动通信集团辽宁有限公司 软件开发工作量的评估方法、装置及计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140583A (zh) * 2007-10-09 2008-03-12 华为技术有限公司 一种文本检索的方法和装置
US20090006377A1 (en) * 2007-01-23 2009-01-01 International Business Machines Corporation System, method and computer executable program for information tracking from heterogeneous sources
CN101576904A (zh) * 2009-03-03 2009-11-11 杜小勇 一种基于有权图来计算文本内容相似度的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006377A1 (en) * 2007-01-23 2009-01-01 International Business Machines Corporation System, method and computer executable program for information tracking from heterogeneous sources
CN101140583A (zh) * 2007-10-09 2008-03-12 华为技术有限公司 一种文本检索的方法和装置
CN101576904A (zh) * 2009-03-03 2009-11-11 杜小勇 一种基于有权图来计算文本内容相似度的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《计算机工程》 20040731 何明等 基于Rough集潜在语义索引的Web文档分类 3-5 1-10 第30卷, 第13期 *
《计算机工程》 20080131 罗景等 基于概率潜在语义分析的中文信息检索 199-201 1-10 第34卷, 第2期 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644082B (zh) * 2013-03-07 2021-04-16 海信视像科技股份有限公司 信息搜索及显示方法和装置
CN107644082A (zh) * 2013-03-07 2018-01-30 青岛海信电器股份有限公司 信息搜索及显示方法和装置
CN106407211B (zh) * 2015-07-30 2019-08-06 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN106407211A (zh) * 2015-07-30 2017-02-15 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及系统
CN107239552A (zh) * 2017-06-08 2017-10-10 上海德衡数据科技有限公司 一种针对关键词的网络文档语义检索方法
CN107330052A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索原型
CN107330044A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索架构
CN108197175A (zh) * 2017-12-20 2018-06-22 国网北京市电力公司 技术监督数据的处理方法和装置、存储介质、处理器
CN108197175B (zh) * 2017-12-20 2021-12-10 国网北京市电力公司 技术监督数据的处理方法和装置、存储介质、处理器
CN109726391A (zh) * 2018-12-11 2019-05-07 中科恒运股份有限公司 对文本进行情感分类的方法、装置及终端
CN109726391B (zh) * 2018-12-11 2024-01-09 中科恒运股份有限公司 对文本进行情感分类的方法、装置及终端
CN110765360A (zh) * 2019-11-01 2020-02-07 新华网股份有限公司 文本话题处理方法、装置、电子设备及计算机存储介质
CN110765360B (zh) * 2019-11-01 2022-08-02 新华网股份有限公司 文本话题处理方法、装置、电子设备及计算机存储介质
CN113011689A (zh) * 2019-12-19 2021-06-22 中国移动通信集团辽宁有限公司 软件开发工作量的评估方法、装置及计算设备
CN113011689B (zh) * 2019-12-19 2024-05-07 中国移动通信集团辽宁有限公司 软件开发工作量的评估方法、装置及计算设备

Similar Documents

Publication Publication Date Title
CN102214180A (zh) 检索方法及其建立文本语义提取模型的方法
Denis et al. Text classification and co-training from positive and unlabeled examples
CN102073730B (zh) 一种主题网络爬虫系统的构建方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
Choi et al. Web page classification
Nurfikri et al. News topic classification using mutual information and bayesian network
Alabbas et al. Arabic text classification methods: Systematic literature review of primary studies
CN109271514A (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
Musaev et al. Fast text classification using randomized explicit semantic analysis
Hassan et al. Automatic document topic identification using wikipedia hierarchical ontology
Ruambo et al. Towards enhancing information retrieval systems: A brief survey of strategies and challenges
Ekinci et al. An aspect-sentiment pair extraction approach based on latent Dirichlet allocation for Turkish
Segnini et al. Random forests and text mining
Amini Interactive learning for text summarization
CN105677684A (zh) 一种基于外部数据源对用户生成内容进行语义标注的方法
Bouziri et al. Learning query expansion from association rules between terms
Nogueira et al. Winning some of the document preprocessing challenges in a text mining process.
Azad et al. A novel model for query expansion using pseudo-relevant web knowledge
Trentini et al. A self-organising map approach for clustering of xml documents
Salman Text classification based on weighted extreme learning machine
CN104331483B (zh) 基于短文本数据的区域事件检测方法和设备
CN107491417A (zh) 一种基于特定划分的主题模型下的文档生成方法
Robinson Disaster tweet classification using parts-of-speech tags: a domain adaptation approach
Ba-Alwi et al. Arabic text summarization using latent semantic analysis
Murarka et al. Query-based single document summarization using hybrid semantic and graph-based approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111012