CN105095275A - 文档聚类的方法及装置 - Google Patents

文档聚类的方法及装置 Download PDF

Info

Publication number
CN105095275A
CN105095275A CN201410200769.8A CN201410200769A CN105095275A CN 105095275 A CN105095275 A CN 105095275A CN 201410200769 A CN201410200769 A CN 201410200769A CN 105095275 A CN105095275 A CN 105095275A
Authority
CN
China
Prior art keywords
matrix
theme
negative
term
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410200769.8A
Other languages
English (en)
Other versions
CN105095275B (zh
Inventor
周光有
薛伟
管刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Tencent Cyber Tianjin Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Tencent Cyber Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, Tencent Cyber Tianjin Co Ltd filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410200769.8A priority Critical patent/CN105095275B/zh
Publication of CN105095275A publication Critical patent/CN105095275A/zh
Application granted granted Critical
Publication of CN105095275B publication Critical patent/CN105095275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文档聚类的方法及装置,属于统计技术领域。方法包括:根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类。本发明通过根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高。

Description

文档聚类的方法及装置
技术领域
本发明涉及统计技术领域,特别涉及一种文档聚类的方法及装置。
背景技术
随着统计技术的不断发展及文档数量的快速增长,对文档进行聚类成为人们关注的问题。文档聚类是根据文档中的词的种类、出现频率等将相似的文档划分为一类,通过对文档进行聚类可使用户更加方便地查找文档,获取感兴趣的信息。
现有技术对文档进行聚类的过程,具体包括:根据待聚类的文档获取检索词-文档矩阵,并根据检索词-文档矩阵获取初始化的检索词-主题矩阵及初始化的主题-文档矩阵;根据检索词-文档矩阵、初始化的检索词-主题矩阵及初始化的主题-文档矩阵确定目标函数;确定使目标函数最小化的检索词-主题矩阵及主题-文档矩阵,并根据使目标函数最小化的主题-文档矩阵对文档进行聚类。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于根据检索词-文档矩阵获取到的初始化的检索词-主题矩阵及初始化的主题-文档矩阵中的元素可能存在负值,而负值元素在实际应用中没有意义,因而导致现有技术提供的文档聚类的效率不高。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种文档聚类的方法及装置。所述技术方案如下:
第一方面,提供了一种文档聚类的方法,所述方法包括:
根据待聚类的文档获取检索词-文档矩阵,根据所述检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据所述检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,并根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类的文档进行聚类。
第二方面,提供了一种文档聚类的装置,所述装置包括:
第一获取模块,用于根据待聚类的文档获取检索词-文档矩阵;
第二获取模块,用于根据所述检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据所述检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
正则化模块,用于对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
第一确定模块,用于根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
第二确定模块,用于确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵;
聚类模块,用于根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类的文档进行聚类。
本发明实施例提供的技术方案带来的有益效果是:
通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文档聚类的方法的流程图;
图2是本发明另一实施例提供的文档聚类的方法的流程图;
图3是本发明另一实施例提供的文档聚类的装置的结构示意图;
图4是本发明另一实施例提供的正则化模块的结构示意图;
图5是本发明另一实施例提供的第二确定模块的结构示意图;
图6是本发明另一实施例提供的聚类模块的结构示意图;
图7是本发明另一实施例提供的服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
针对文档聚类过程中根据检索词-文档矩阵获取到的检索词-主题矩阵及主题-文档矩阵中元素可能存在负值的情况,本发明实施例提供了一种文档聚类的方法,参见图1,方法流程包括:
101:根据待聚类的文档获取检索词-文档矩阵,根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
102:对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
作为一种可选实施例,对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵,包括:
根据正则化中的第一范数L1对非负检索词-主题矩阵进行正则化,得到正则化的非负检索词-主题矩阵;
根据正则化中的第二范数L2对非负主题-文档矩阵进行正则化,得到正则化的非负主题-文档矩阵。
103:根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
作为一种可选实施例,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定的目标函数为:
| | D - UV | | F 2 + α Σ k = 1 K | | u k | | 1 2 + β | | V | | F 2 ;
其中,D为检索词-文档矩阵,D=[dij]∈Rm*n;U为非负检索词-主题矩阵,U=[uik]∈Rm*K;V为非负主题-文档矩阵,V=[vkj]∈RK*n为正则化的非负检索词-主题矩阵;为正则化的非负主题-文档矩阵;m表示检索词数,||||F表示弗罗贝尼乌斯范数,K表示主题数,n表示文档数,α≥0,β≥0。
104:确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化;
如果目标函数未最小化,则重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化,直至得到使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵。
作为一种可选实施例,根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;
根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,t+1代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主题矩阵的更新步长,ζ表示非负主题-文档矩阵的更新步长, ▿ U F = - 2 D ′ T V ′ + 2 U V ′ T V ′ , D ′ = D T 0 1 * m ∈ R ( n + 1 ) * m , DT表示D的转置矩阵,01*m∈R1*m为全零向量,D'T为D'的转置矩阵, V ′ = V T α e 1 * K ∈ R ( n + 1 ) * K , VT表示V的转置矩阵,e1*K∈R1*K为全1向量,V'T表示V'的转置矩阵, D ′ ′ = D 0 K * n ∈ R ( m + K ) * n , 0K*n为K*n的全零矩阵, U ′ = U β I K * K ∈ R ( m + K ) * K , IK*K为K*K的单位矩阵,U'T为U'的转置矩阵。
作为一种可选实施例,根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,包括:
对使目标函数最小化的非负检索词-主题矩阵进行归一化;
根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化;
根据归一化的非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,对使目标函数最小化的非负检索词-主题矩阵进行归一化,包括:
按照如下公式对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik ``
u ik ` ` = u ik ` Σ i ( u ik ` ) 2 ;
根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,包括:
按照如下公式根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj ``
v kj ` ` = v kj ` Σ i ( u ik ` ` ) 2 ;
其中,uik `为使目标函数最小化的非负检索词-主题矩阵,vkj `为使目标函数最小化的非负主题-文档矩阵。
本发明实施例提供的方法,通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
本发明实施例提供了一种文档聚类的方法,结合上一实施例的内容,参见图2,方法流程包括:
201:根据待聚类的文档获取检索词-文档矩阵,根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
关于根据待聚类的文档获取检索词-文档矩阵的方式,本实施例不作具体限定。具体实施时,可获取多个文档,将获取到的文档作为待聚类的文档;从待聚类的文档中选取检索词,将检索词作为检索词-文档矩阵的行,将待聚类的文档作为检索词-文档矩阵的列,将检索词在文档中的TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆向文件频率)值作为检索词-文档矩阵中与该检索词及文档对应的元素的值,从而根据待聚类的文档获取检索词-文档矩阵。其中,检索词可以为每个文档中出现次数较多的词,TF-IDF值为检索词的词频与检索词的逆向文件频率的乘积;词频为检索词在文档中出现的次数,检索词的逆向文件频率的计算公式为:lg(所有待聚类的文档数/出现该检索词的文档数),lg表示以10为底的常用对数。由于出现该检索词的文档数可能为零,导致上述检索词的逆向文件频率的计算公式中的分母为零,则实际应用中,还可使用公式:lg(所有待聚类的文档数/(出现该检索词的文档数+1)),计算检索词的逆向文件频率,本实施例不对检索词的逆向文件频率的计算方式进行限定。
为了便于理解,以待聚类的文档为文档1至文档5为例进行说明。从待聚类的文档中选取检索词:检索词1至检索词4;在文档1中,检索词1至检索词4出现的次数分别为2、0、0及2;在文档2中,检索词1至检索词4出现的次数分别为1、2、0及0;在文档3中,检索词1至检索词4出现的次数分别为1、0、0及0;在文档4中,检索词1至检索词4出现的次数分别为0、0、0及0;在文档5中,检索词1至检索词4出现的次数分别为0、2、1及1。因此,在文档1中,检索词1至检索词4的词频分别为2、0、0及2;在文档2中,检索词1至检索词4的词频分别1、2、0及0;在文档3中,检索词1至检索词4的词频分别1、2、0及0;在文档4中,检索词1至检索词4的词频分别0、0、0及0;在文档5中,检索词1至检索词4的词频分别0、2、1及1。通过计算可知,检索词1至检索词4的逆向文件频率分别为0.22、0.22、0.40、0.40及0.10,进而得到检索词1在文档1至文档5中的TF-IDF值分别为0.44、0.22、0.22、0及0,检索词2在文档1至文档5中的TF-IDF值分别为0、0.44、0、0及0.44,检索词3在文档1至文档5中的TF-IDF值分别为0、0、0、0及0.40,检索词4在文档1至文档5中的TF-IDF值分别为0.2、0、0、0及0.1。根据各个检索词在各个文档的TF-IDF值可得到如下所示的检索词-文档矩阵。该检索词-文档矩阵为4*5的矩阵,检索词-文档矩阵的行表示检索词1至检索词4,检索词-文档矩阵的列表示文档1至文档5,矩阵中的任一元素xij表示检索词i在文档j中的TF-IDF值,1≤i≤4,1≤j≤5,i和j均为整数。
0.44 0.22 0.22 0 0 0 0.44 0 0 0.44 0 0 0 0 0.4 0.2 0 0 0 0 . 1
由于检索词-文档矩阵可通过非负检索词-主题矩阵及非负主题-文档矩阵的乘积近似得到,为了确定非负检索词-主题矩阵及非负主题-文档矩阵,本发明实施例提供的方法根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵。又由于检索词-主题矩阵及主题-文档矩阵均为非负,使得矩阵中的每个元素具有实际意义,提高了文档聚类的效率。
关于根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵以及根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵的方式,本实施例不作具体限定。具体实施时,可将检索词-文档矩阵中的检索词作为非负检索词-主题矩阵的行,将检索词-文档矩阵中的文档作为非负主题-文档矩阵的列,来对非负检索词-主题矩阵及非负主题-文档矩阵进行初始化;另外,初始化的非负检索词-主题矩阵的列与初始化的非负主题-文档矩阵的行相同,使得初始化的非负检索词-主题矩阵与初始化的非负主题-文档矩阵能够相乘,本实施例不对初始化的非负检索词-主题矩阵的列与初始化的非负主题-文档矩阵的行进行限定。其中,检索词-主题矩阵的行表示检索词,检索词-主题矩阵的列表示主题;主题-文档矩阵的行表示主题,主题-文档矩阵的列表示文档。
202:对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
针对根据检索词-文档矩阵中的检索词获取到的初始化的非负检索词-主题矩阵及根据检索词-文档矩阵中的文档获取到的初始化的非负主题-文档矩阵可能出现稀疏及过拟合的问题,本实施例提供的方法对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵。通常情况下,可根据正则化中的第一范数L1或第二范数L2对非负检索词-主题矩阵及非负主题-文档矩阵正则化。上述正则化的过程可分为如下四种情况:
情况(1)、根据正则化中的第一范数L1对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化;
情况(2)、根据正则化中的第二范数L2对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化;
情况(3)、根据正则化中的第一范数L1对非负检索词-主题矩阵正则化,通过正则化中的第二范数L2对非负主题-文档矩阵进行正则化;
情况(4)、根据正则化中的第二范数L2对非负检索词-主题矩阵正则化,通过正则化中的第一范数L1对非负主题-文档矩阵进行正则化。
情况(1)与doublesparsemodel(双稀疏模型)相似;情况(2)与CNMF(ConstrainedNon-negativeMatrixFactorization,约束非负矩阵分解)相似;情况(4)与sparsecoding(稀疏编码)相似。根据正则化中的第一范数L1对非负检索词-主题矩阵进行正则化,使得正则化的非负检索词-主题矩阵更加紧致,即使主题更加简洁,主题的数量更少。例如,当数量较少时,主题可以理解为同义词集,大致相当于WordNet(词网)中用于NLP(NaturalLanguageProcessing,自然语言处理)的同义词集。其次,根据正则化中的第一范数L1对非负检索词-主题矩阵进行正则化,使得正则化的非负检索词-主题矩阵更加紧致,使一个主题中的词更富有意义,从而更利于文档聚类、文本可视化等实际应用的场景。根据正则化中的第二范数L2对非负主题-文档矩阵进行正则化,尽量避免正则化的非负主题-文档矩阵出现过拟合的问题。因此,本实施例提供的方法以情况(3)为例进行说明。
203:根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
本实施例不对根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数的方式及确定的目标函数进行限定。作为一种可选实施例,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定的目标函数为:
| | D - UV | | F 2 + α Σ k = 1 K | | u k | | 1 2 + β | | V | | F 2 ;
其中,D为检索词-文档矩阵,D=[dij]∈Rm*n;U为非负检索词-主题矩阵,U=[uik]∈Rm*K;V为非负主题-文档矩阵,V=[vkj]∈RK*n为正则化的非负检索词-主题矩阵;为正则化的非负主题-文档矩阵;m表示检索词数,||||F表示弗罗贝尼乌斯范数,K表示主题数,n表示文档数,α≥0,β≥0。
进一步地,通过上述步骤201至步骤203即完成了目标函数的确定,为了根据目标函数对文档进行聚类,本实施例提供的方法还包括后续步骤。
204:根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
需要说明的是,在首次获取更新的非负检索词-主题矩阵时,上一次得到的非负检索词-主题矩阵为初始化的非负检索词-主题矩阵;在非首次获取更新的非负检索词-主题矩阵时,上一次得到的非负检索词-主题矩阵为上一次获取到的更新的非负检索词-主题矩阵。
在首次获取更新的非负主题-文档矩阵时,上一次得到的非负检索词-主题矩阵为初始化的非负检索词-主题矩阵;在非首次获取更新的非负主题-文档矩阵时,上一次得到的非负检索词-主题矩阵为上一次获取到的更新的非负主题-文档矩阵。
上述步骤203确定的目标函数在V固定时,可通过U进行凸优化;在U固定时,可通过V进行凸优化;当U和V均固定时,不能进行凸优化。因此,根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵包括但不限于:在V固定时,更新U,从而获取更新的非负检索词-主题矩阵;根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵包括但不限于:在U固定时,更新V,从而获取更新的非负主题-文档矩阵。
其中,更新U的过程包括但不限于:
由于V固定,则可将上述步骤203确定的目标函数转化为 | | D - UV | | F 2 + α Σ k = 1 K | | u k | | 1 2 , 进而根据初始化的V将 | | D - UV | | F 2 + α Σ k = 1 K | | u k | | 1 2 改写为ANLS(AlternatingNon-negativityconstrainedLeastSquares,交替的非负约束最小二乘)框架:
D T 0 1 * m - V T α e 1 * K U T F 2 ; 其中,DT表示D的转置矩阵,01*m∈R1*m为全零向量,VT表示V的转置矩阵,e1*K∈R1*K为全1向量,UT表示U的转置矩阵。
D ′ = D T 0 1 * m ∈ R ( n + 1 ) * m , V ′ = V T α e 1 * K ∈ R ( n + 1 ) * K , 则上述ANLS框架可改写为如下第一函数F(U):
F ( U ) = | | D ′ - V ′ U T | | F 2 = Tr ( ( D ′ - V ′ U T ) ( D ′ - V ′ U T ) T ) = Tr ( D ′ D ′ T ) - 2 Tr ( D ′ U V ′ T ) + Tr ( V ′ U T U V ′ T ) ; 其中,Tr()表示矩阵的迹,Tr(AB)=Tr(BA),A、B表示矩阵。
由于V固定,则V'也固定,进而第一函数F(U)相对于U是凸函数,可采用投影梯度法得到F(U)相对于U的梯度为因此,在t+1次循环中,可根据该公式获取更新的非负检索词-主题矩阵;其中,t+1代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主题矩阵的更新步长,η可通过Goldstein条件选取。
更新V的过程包括但不限于:
由于U固定,则可将上述步骤203确定的目标函数转化为进而根据初始化的U将改写为ANLS框架:
D 0 K * n - U β I K * K V F 2 ; 其中,0K*n为K*n的全零矩阵,IK*K为K*K的单位矩阵。
D ′ ′ = D 0 K * n ∈ R ( m + K ) * n , U ′ = U β I K * K ∈ R ( m + K ) * K , 则上述ANLS框架可改写为如下第二函数F(V):
F ( V ) = | | D ′ ′ - U ′ V | | F 2 .
由于U固定,则U'也固定,进而第二函数F(V)相对于V是凸函数,可采用投影梯度法得到F(V)相对于V的梯度为因此,在t+1次循环中,其中,t+1代表当前更新,t代表上一次更新或初始化,ζ表示非负主题-文档矩阵的更新步长,ζ可通过Goldstein条件选取。
作为一种可选实施例,根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;
根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,t+1代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主题矩阵的更新步长,ζ表示非负主题-文档矩阵的更新步长, ▿ U F = - 2 D ′ T V ′ + 2 U V ′ T V ′ , D ′ = D T 0 1 * m ∈ R ( n + 1 ) * m , DT表示D的转置矩阵,01*m∈R1*m为全零向量,D'T为D'的转置矩阵, V ′ = V T α e 1 * K ∈ R ( n + 1 ) * K , VT表示V的转置矩阵,e1*K∈R1*K为全1向量,V'T表示V'的转置矩阵, D ′ ′ = D 0 K * n ∈ R ( m + K ) * n , 0K*n为K*n的全零矩阵, U ′ = U β I K * K ∈ R ( m + K ) * K , IK*K为K*K的单位矩阵,U'T为U'的转置矩阵。
205:对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
该步骤的实现方式与上述步骤202中对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵的实现方式相同,具体可参见上述步骤202中的内容,此处不再赘述。
206:根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化;
关于根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化的方式,本实施例不作具体限定。具体实施时,可设置非负检索词-主题矩阵及非负主题-文档矩阵的更新次数阈值,当非负检索词-主题矩阵及非负主题-文档矩阵的更新次数达到更新次数阈值时确定目标函数已最小化。
关于更新次数阈值的大小,本实施例不作具体限定。具体实施时,可根据待聚类的文档的数据量等设置不同的阈值。通过根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数,使用于确定目标函数的更新的非负检索词-主题矩阵及更新的非负主题-文档矩阵的乘积不断接近检索词-文档矩阵;当目标函数已最小化时,可将更新的非负检索词-主题矩阵及更新的非负主题-文档矩阵的乘积近似为检索词-文档矩阵,即对检索词-文档矩阵分解可得到更新的非负检索词-主题矩阵及更新的非负主题-文档矩阵,从而实现对检索词-文档矩阵分解。
207:如果目标函数未最小化,则返回步骤204,直至得到使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵;
当确定目标函数未最小化时,可返回步骤204,按照步骤204的方式重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;按照步骤205的方式对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;按照步骤206的方式根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化。当第一次根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵时,步骤204中的公式所涉及到的t代表初始值,但返回步骤204重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵时,步骤204中的公式所涉及到的t代表上一次更新。
进一步地,通过上述步骤201至步骤207即完成了确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,为了根据确定的使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对文档进行聚类,本实施例提供的方法还包括后续步骤。
208:对使目标函数最小化的非负检索词-主题矩阵进行归一化;
如果直接根据上述步骤207中确定的使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,聚类结果可能不是唯一的。为了使聚类结果唯一,可选地,本实施例提供的方法首先对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵。
作为一种可选实施例,对使目标函数最小化的非负检索词-主题矩阵进行归一化,包括但不限于:
按照如下公式对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik ``
u ik ` ` = u ik ` Σ i ( u ik ` ) 2 ;
其中,uik `为使目标函数最小化的非负检索词-主题矩阵。
该公式对使目标函数最小化的非负检索词-主题矩阵中每一行元素进行归一化,从而实现对使目标函数最小化的非负检索词-主题矩阵进行归一化。
209:根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化;
为了使聚类结果唯一,可选地,本实施例提供的方法根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,包括:
按照如下公式根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj ``
v kj ` ` = v kj ` Σ i ( u ik ` ` ) 2 ;
其中,vkj `为使目标函数最小化的非负主题-文档矩阵。
该公式对归一化的非负检索词-主题矩阵中每一行元素进行归一化,从而实现对使目标函数最小化的非负检索词-主题矩阵进行归一化。
210:根据归一化的非负主题-文档矩阵对待聚类的文档进行聚类。
由于归一化的非负主题-文档矩阵的行代表主题,归一化的非负主题-文档矩阵的列代表文档,即归一化的非负主题-文档矩阵表明了主题及文档的关系,根据归一化的非负主题-文档矩阵即可将文档分到对应的主题,从而完成对文档聚类。
vkj ``表明文档j与主题k关联的程度,例如,文档j对应一个主题k,则在归一化的非负主题-文档矩阵中第j列vkj ``的取值最大,而第j列除vkj ``外的其他元素的取值接近于零。因此,在确定文档对应的主题时,如果则文档j对应主题k。
进一步地,通过上述步骤208至步骤210即完成了根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类。
本发明实施例提供的方法,通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
参见图3,本发明实施例提供了一种文档聚类的装置,该装置用于执行上述任一实施例提供的方法。该装置包括:
第一获取模块301,用于根据待聚类的文档获取检索词-文档矩阵;
第二获取模块302,用于根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
正则化模块303,用于对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
第一确定模块304,用于根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
第二确定模块305,用于确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵;
聚类模块306,用于根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,参见图4,正则化模块303,包括:
第一正则化单元3031,用于根据正则化中的第一范数L1对非负检索词-主题矩阵进行正则化,得到正则化的非负检索词-主题矩阵;
第二正则化单元3032,用于根据正则化中的第二范数L2对非负主题-文档矩阵进行正则化,得到正则化的非负主题-文档矩阵。
作为一种可选实施例,参见图5,第二确定模块305,包括:
获取单元3051,用于根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
第三正则化单元3052,用于对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
确定单元3053,用于根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化;
获取单元3051,用于当目标函数未最小化时,重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
第三正则化单元3052,用于当目标函数未最小化时,重新对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
确定单元3053,用于当目标函数未最小化时,重新根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化,直至得到使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵。
作为一种可选实施例,参见图6,聚类模块306,包括:
第一归一化单元3061,用于对使目标函数最小化的非负检索词-主题矩阵进行归一化;
第二归一化单元3062,用于根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化;
聚类单元3063,用于根据归一化的非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,第一确定模块304确定的目标函数为:
| | D - UV | | F 2 + α Σ k = 1 K | | u k | | 1 2 + β | | V | | F 2 ;
其中,D为检索词-文档矩阵,D=[dij]∈Rm*n;U为非负检索词-主题矩阵,U=[uik]∈Rm*K;V为非负主题-文档矩阵,V=[vkj]∈RK*n为正则化的非负检索词-主题矩阵;为正则化的非负主题-文档矩阵;m表示检索词数,||||F表示弗罗贝尼乌斯范数,K表示主题数,n表示文档数,α≥0,β≥0。
作为一种可选实施例,获取单元3051,用于根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,t+1代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主题矩阵的更新步长,ζ表示非负主题-文档矩阵的更新步长, ▿ U F = - 2 D ′ T V ′ + 2 U V ′ T V ′ , D ′ = D T 0 1 * m ∈ R ( n + 1 ) * m , DT表示D的转置矩阵,01*m∈R1*m为全零向量,D'T为D'的转置矩阵, V ′ = V T α e 1 * K ∈ R ( n + 1 ) * K , VT表示V的转置矩阵,e1*K∈R1*K为全1向量,V'T表示V'的转置矩阵, D ′ ′ = D 0 K * n ∈ R ( m + K ) * n , 0K*n为K*n的全零矩阵, U ′ = U β I K * K ∈ R ( m + K ) * K , IK*K为K*K的单位矩阵,U'T为U'的转置矩阵。
作为一种可选实施例,第一归一化单元3061,用于按照如下公式对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik ``
u ik ` ` = u ik ` Σ i ( u ik ` ) 2 ;
第二归一化单元3062,用于按照如下公式根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj ``
v kj ` ` = v kj ` Σ i ( u ik ` ` ) 2 ;
其中,uik `为使目标函数最小化的非负检索词-主题矩阵,vkj `为使目标函数最小化的非负主题-文档矩阵。
本发明实施例提供的装置,通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
图7是本发明实施例示出的一种用于数据的修复的服务器700的结构示意图。参照图7,服务器700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述数据的修复方法,方法包括:
根据待聚类的文档获取检索词-文档矩阵,根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵,包括:
根据正则化中的第一范数L1对非负检索词-主题矩阵进行正则化,得到正则化的非负检索词-主题矩阵;
根据正则化中的第二范数L2对非负主题-文档矩阵进行正则化,得到正则化的非负主题-文档矩阵。
作为一种可选实施例,确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化;
如果目标函数未最小化,则重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化,直至得到使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵。
作为一种可选实施例,根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,包括:
对使目标函数最小化的非负检索词-主题矩阵进行归一化;
根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化;
根据归一化的非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定的目标函数为:
| | D - UV | | F 2 + α Σ k = 1 K | | u k | | 1 2 + β | | V | | F 2 ;
其中,D为检索词-文档矩阵,D=[dij]∈Rm*n;U为非负检索词-主题矩阵,U=[uik]∈Rm*K;V为非负主题-文档矩阵,V=[vkj]∈RK*n为正则化的非负检索词-主题矩阵;为正则化的非负主题-文档矩阵;m表示检索词数,||||F表示弗罗贝尼乌斯范数,K表示主题数,n表示文档数,α≥0,β≥0。
作为一种可选实施例,根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;
根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,t+1代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主题矩阵的更新步长,ζ表示非负主题-文档矩阵的更新步长, ▿ U F = - 2 D ′ T V ′ + 2 U V ′ T V ′ , D ′ = D T 0 1 * m ∈ R ( n + 1 ) * m , DT表示D的转置矩阵,01*m∈R1*m为全零向量,D'T为D'的转置矩阵, V ′ = V T α e 1 * K ∈ R ( n + 1 ) * K , VT表示V的转置矩阵,e1*K∈R1*K为全1向量,V'T表示V'的转置矩阵, D ′ ′ = D 0 K * n ∈ R ( m + K ) * n , 0K*n为K*n的全零矩阵, U ′ = U β I K * K ∈ R ( m + K ) * K , IK*K为K*K的单位矩阵,U'T为U'的转置矩阵。
作为一种可选实施例,对使目标函数最小化的非负检索词-主题矩阵进行归一化,包括:
按照如下公式对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik ``
u ik ` ` = u ik ` Σ i ( u ik ` ) 2 ;
根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,包括:
按照如下公式根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj ``
v kj ` ` = v kj ` Σ i ( u ik ` ` ) 2 ;
其中,uik `为使目标函数最小化的非负检索词-主题矩阵,vkj `为使目标函数最小化的非负主题-文档矩阵。
服务器700还可以包括一个电源组件726被配置为执行服务器700的电源管理,一个有线或无线网络接口750被配置为将服务器700连接到网络,和一个输入输出(I/O)接口758。服务器700可以操作基于存储在存储器732的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本发明实施例提供的服务器,通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
需要说明的是:上述实施例提供的文档聚类的装置在对文档进行聚类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文档聚类的装置与文档聚类的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种文档聚类的方法,其特征在于,所述方法包括:
根据待聚类的文档获取检索词-文档矩阵,根据所述检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据所述检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,并根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类的文档进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵,包括:
根据正则化中的第一范数L1对所述非负检索词-主题矩阵进行正则化,得到正则化的非负检索词-主题矩阵;
根据正则化中的第二范数L2对所述非负主题-文档矩阵进行正则化,得到正则化的非负主题-文档矩阵。
3.根据权利要求1所述的方法,其特征在于,所述确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
对所述更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对所述更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
根据所述检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定所述目标函数是否已最小化;
如果所述目标函数未最小化,则重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;对所述更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对所述更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;根据所述检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定所述目标函数是否已最小化,直至得到使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵。
4.根据权利要求1所述的方法,其特征在于,所述根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类的文档进行聚类,包括:
对使所述目标函数最小化的非负检索词-主题矩阵进行归一化;
根据归一化的非负检索词-主题矩阵对使所述目标函数最小化的非负主题-文档矩阵进行归一化;
根据归一化的非负主题-文档矩阵对所述待聚类的文档进行聚类。
5.根据权利要求1至4中任一权利要求所述的方法,其特征在于,根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定的目标函数为:
| | D - UV | | F 2 + α Σ k = 1 K | | u k | | 1 2 + β | | V | | F 2 ;
其中,所述D为检索词-文档矩阵,所述D=[dij]∈Rm*n;所述U为非负检索词-主题矩阵,所述U=[uik]∈Rm*K;所述V为非负主题-文档矩阵,所述V=[vkj]∈RK*n;所述为正则化的非负检索词-主题矩阵;所述为正则化的非负主题-文档矩阵;所述m表示检索词数,所述||||F表示弗罗贝尼乌斯范数,所述K表示主题数,所述n表示文档数,所述α≥0,所述β≥0。
6.根据权利要求5所述的方法,其特征在于,所述根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;
根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,所述t+1代表当前更新,所述t代表上一次更新或初始化,所述η表示所述非负检索词-主题矩阵的更新步长,所述ζ表示所述非负主题-文档矩阵的更新步长,所述 ▿ U F = - 2 D ′ T V ′ + 2 U V ′ T V ′ , 所述 D ′ = D T 0 1 * m ∈ R ( n + 1 ) * m , 所述DT表示所述D的转置矩阵,所述01*m∈R1*m为全零向量,所述D'T为所述D'的转置矩阵,所述 V ′ = V T α e 1 * K ∈ R ( n + 1 ) * K , 所述VT表示所述V的转置矩阵,所述e1*K∈R1*K为全1向量,V'T表示所述V'的转置矩阵,所述所述 D ′ ′ = D 0 K * n ∈ R ( m + K ) * n , 所述0K*n为K*n的全零矩阵,所述 U ′ = U β I K * K ∈ R ( m + K ) * K , 所述IK*K为K*K的单位矩阵,所述U'T为所述U'的转置矩阵。
7.根据权利要求5所述的方法,其特征在于,所述对使所述目标函数最小化的非负检索词-主题矩阵进行归一化,包括:
按照如下公式对使所述目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik ``
u ik ` ` = u ik ` Σ i ( u ik ` ) 2 ;
所述根据归一化的非负检索词-主题矩阵对使所述目标函数最小化的非负主题-文档矩阵进行归一化,包括:
按照如下公式根据归一化的非负检索词-主题矩阵对使所述目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj ``
v kj ` ` = v kj ` Σ i ( u ik ` ` ) 2 ;
其中,所述uik `为使所述目标函数最小化的非负检索词-主题矩阵,所述vkj `为使所述目标函数最小化的非负主题-文档矩阵。
8.一种文档聚类的装置,其特征在于,所述装置包括:
第一获取模块,用于根据待聚类的文档获取检索词-文档矩阵;
第二获取模块,用于根据所述检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据所述检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
正则化模块,用于对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
第一确定模块,用于根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
第二确定模块,用于确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵;
聚类模块,用于根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类的文档进行聚类。
9.根据权利要求8所述的装置,其特征在于,所述正则化模块,包括:
第一正则化单元,用于根据正则化中的第一范数L1对所述非负检索词-主题矩阵进行正则化,得到正则化的非负检索词-主题矩阵;
第二正则化单元,用于根据正则化中的第二范数L2对所述非负主题-文档矩阵进行正则化,得到正则化的非负主题-文档矩阵。
10.根据权利要求8所述的装置,其特征在于,所述第二确定模块,包括:
获取单元,用于根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
第三正则化单元,用于对所述更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对所述更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
确定单元,用于根据所述检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定所述目标函数是否已最小化;
所述获取单元,用于当所述目标函数未最小化时,重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
所述第三正则化单元,用于当所述目标函数未最小化时,重新对所述更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对所述更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
所述确定单元,用于当所述目标函数未最小化时,重新根据所述检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定所述目标函数是否已最小化,直至得到使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵。
11.根据权利要求8所述的装置,其特征在于,所述聚类模块,包括:
第一归一化单元,用于对使所述目标函数最小化的非负检索词-主题矩阵进行归一化;
第二归一化单元,用于根据归一化的非负检索词-主题矩阵对使所述目标函数最小化的非负主题-文档矩阵进行归一化;
聚类单元,用于根据归一化的非负主题-文档矩阵对所述待聚类的文档进行聚类。
12.根据权利要求8至11中任一权利要求所述的装置,其特征在于,所述第一确定模块确定的目标函数为:
| | D - UV | | F 2 + α Σ k = 1 K | | u k | | 1 2 + β | | V | | F 2 ;
其中,所述D为检索词-文档矩阵,所述D=[dij]∈Rm*n;所述U为非负检索词-主题矩阵,所述U=[uik]∈Rm*K;所述V为非负主题-文档矩阵,所述V=[vkj]∈RK*n;所述为正则化的非负检索词-主题矩阵;所述为正则化的非负主题-文档矩阵;所述m表示检索词数,所述||||F表示弗罗贝尼乌斯范数,所述K表示主题数,所述n表示文档数,所述α≥0,所述β≥0。
13.根据权利要求12所述的装置,其特征在于,所述获取单元,用于根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,所述t+1代表当前更新,所述t代表上一次更新或初始化,所述η表示所述非负检索词-主题矩阵的更新步长,所述ζ表示所述非负主题-文档矩阵的更新步长,所述 ▿ U F = - 2 D ′ T V ′ + 2 U V ′ T V ′ , 所述 D ′ = D T 0 1 * m ∈ R ( n + 1 ) * m , 所述DT表示所述D的转置矩阵,所述01*m∈R1*m为全零向量,所述D'T为所述D'的转置矩阵,所述 V ′ = V T α e 1 * K ∈ R ( n + 1 ) * K , 所述VT表示所述V的转置矩阵,所述e1*K∈R1*K为全1向量,V'T表示所述V'的转置矩阵,所述所述 D ′ ′ = D 0 K * n ∈ R ( m + K ) * n , 所述0K*n为K*n的全零矩阵,所述 U ′ = U β I K * K ∈ R ( m + K ) * K , 所述IK*K为K*K的单位矩阵,所述U'T为所述U'的转置矩阵。
14.根据权利要求12所述的装置,其特征在于,所述第一归一化单元,用于按照如下公式对使所述目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik ``
u ik ` ` = u ik ` Σ i ( u ik ` ) 2 ;
所述第二归一化单元,用于按照如下公式根据归一化的非负检索词-主题矩阵对使所述目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj ``
v kj ` ` = v kj ` Σ i ( u ik ` ` ) 2 ;
其中,所述uik `为使所述目标函数最小化的非负检索词-主题矩阵,所述vkj `为使所述目标函数最小化的非负主题-文档矩阵。
CN201410200769.8A 2014-05-13 2014-05-13 文档聚类的方法及装置 Active CN105095275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410200769.8A CN105095275B (zh) 2014-05-13 2014-05-13 文档聚类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410200769.8A CN105095275B (zh) 2014-05-13 2014-05-13 文档聚类的方法及装置

Publications (2)

Publication Number Publication Date
CN105095275A true CN105095275A (zh) 2015-11-25
CN105095275B CN105095275B (zh) 2019-04-05

Family

ID=54575729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410200769.8A Active CN105095275B (zh) 2014-05-13 2014-05-13 文档聚类的方法及装置

Country Status (1)

Country Link
CN (1) CN105095275B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991765A (zh) * 2021-02-03 2021-06-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种道路高排放源识别模型更新方法、终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495876A (zh) * 2011-12-02 2012-06-13 浙江大学 一种基于非负局部坐标分解的聚类方法
CN103020017A (zh) * 2012-12-05 2013-04-03 湖州师范学院 一种流行正则和鉴别信息最大化的非负矩阵分解方法
CN103150383A (zh) * 2013-03-15 2013-06-12 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
US20130151525A1 (en) * 2011-12-09 2013-06-13 International Business Machines Corporation Inferring emerging and evolving topics in streaming text
CN103279556A (zh) * 2013-06-09 2013-09-04 南方报业传媒集团 基于自适应子空间学习的迭代文本聚类方法
CN103765415A (zh) * 2011-05-11 2014-04-30 谷歌公司 文档主题的并行生成

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103765415A (zh) * 2011-05-11 2014-04-30 谷歌公司 文档主题的并行生成
CN102495876A (zh) * 2011-12-02 2012-06-13 浙江大学 一种基于非负局部坐标分解的聚类方法
US20130151525A1 (en) * 2011-12-09 2013-06-13 International Business Machines Corporation Inferring emerging and evolving topics in streaming text
CN103020017A (zh) * 2012-12-05 2013-04-03 湖州师范学院 一种流行正则和鉴别信息最大化的非负矩阵分解方法
CN103150383A (zh) * 2013-03-15 2013-06-12 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN103279556A (zh) * 2013-06-09 2013-09-04 南方报业传媒集团 基于自适应子空间学习的迭代文本聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI XU 等: "Document clustering based on non-negative matrix factorization", 《PROCEEDINGS OF THE 26TH ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMAION RETRIEVAL》 *
景丽萍 等: "层次非负矩阵分解及在文本聚类中的应用", 《JOURNAL OF FRONTIERS OF COMPUTER SCIENCE AND TECHNOLOGY》 *
王明文 等: "基于约束主成份分析的文本聚类算法", 《模式识别与人工智能》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991765A (zh) * 2021-02-03 2021-06-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种道路高排放源识别模型更新方法、终端及存储介质

Also Published As

Publication number Publication date
CN105095275B (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
Gerlach et al. A network approach to topic models
US10262062B2 (en) Natural language system question classifier, semantic representations, and logical form templates
US10860829B2 (en) Data-parallel parameter estimation of the Latent Dirichlet allocation model by greedy Gibbs sampling
CN106503268B (zh) 数据对比方法、装置和系统
CN103678285A (zh) 机器翻译方法和机器翻译系统
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN104408034A (zh) 一种面向文本大数据的中文分词方法
Arellano et al. Frameworks for natural language processing of textual requirements
CN106126505A (zh) 平行短语学习方法及装置
Zhao et al. Contextual self-organizing map: software for constructing semantic representations
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
Pascoe et al. Designing and documenting experiments in CMIP6
US9836450B2 (en) Methods and systems for providing universal portability in machine learning
CN116303537A (zh) 数据查询方法及装置、电子设备、存储介质
Ye et al. Determining gains acquired from word embedding quantitatively using discrete distribution clustering
CN104133891B (zh) 一种基于关系型数据库的海量结构化数据的存储方法
Grete et al. Parthenon—a performance portable block-structured adaptive mesh refinement framework
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
CN105095275A (zh) 文档聚类的方法及装置
CN104572629A (zh) 生成单语解析模型的方法和装置以及语言转换装置
Shimada et al. Goal Model Construction Based on User Review Classification.
Knoell et al. BISHOP-Big Data Driven Self-Learning Support for High-performance Ontology Population.
Tan et al. An SSD-MobileNet acceleration strategy for FPGAs based on network compression and subgraph fusion
CN113407782A (zh) 一种基于MapReduce的分布式XSLT处理方法及处理系统
Simov et al. Word embeddings improvement via echo state networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant