CN105095275B - 文档聚类的方法及装置 - Google Patents

文档聚类的方法及装置 Download PDF

Info

Publication number
CN105095275B
CN105095275B CN201410200769.8A CN201410200769A CN105095275B CN 105095275 B CN105095275 B CN 105095275B CN 201410200769 A CN201410200769 A CN 201410200769A CN 105095275 B CN105095275 B CN 105095275B
Authority
CN
China
Prior art keywords
matrix
theme
negative
term
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410200769.8A
Other languages
English (en)
Other versions
CN105095275A (zh
Inventor
周光有
薛伟
管刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Tencent Cyber Tianjin Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Tencent Cyber Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, Tencent Cyber Tianjin Co Ltd filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410200769.8A priority Critical patent/CN105095275B/zh
Publication of CN105095275A publication Critical patent/CN105095275A/zh
Application granted granted Critical
Publication of CN105095275B publication Critical patent/CN105095275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文档聚类的方法及装置,属于统计技术领域。方法包括:根据检索词‑文档矩阵、非负检索词‑主题矩阵、非负主题‑文档矩阵、正则化的非负检索词‑主题矩阵及正则化的非负主题‑文档矩阵确定目标函数;根据使目标函数最小化的非负检索词‑主题矩阵及非负主题‑文档矩阵对待聚类的文档进行聚类。本发明通过根据检索词‑文档矩阵、非负检索词‑主题矩阵、非负主题‑文档矩阵、正则化的非负检索词‑主题矩阵及正则化的非负主题‑文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词‑主题矩阵及非负主题‑文档矩阵对待聚类的文档进行聚类,由于检索词‑主题矩阵及主题‑文档矩阵均非负,使得文档聚类的效率较高。

Description

文档聚类的方法及装置
技术领域
本发明涉及统计技术领域,特别涉及一种文档聚类的方法及装置。
背景技术
随着统计技术的不断发展及文档数量的快速增长,对文档进行聚类成为人们关注的问题。文档聚类是根据文档中的词的种类、出现频率等将相似的文档划分为一类,通过对文档进行聚类可使用户更加方便地查找文档,获取感兴趣的信息。
现有技术对文档进行聚类的过程,具体包括:根据待聚类的文档获取检索词-文档矩阵,并根据检索词-文档矩阵获取初始化的检索词-主题矩阵及初始化的主题-文档矩阵;根据检索词-文档矩阵、初始化的检索词-主题矩阵及初始化的主题-文档矩阵确定目标函数;确定使目标函数最小化的检索词-主题矩阵及主题-文档矩阵,并根据使目标函数最小化的主题-文档矩阵对文档进行聚类。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于根据检索词-文档矩阵获取到的初始化的检索词-主题矩阵及初始化的主题-文档矩阵中的元素可能存在负值,而负值元素在实际应用中没有意义,因而导致现有技术提供的文档聚类的效率不高。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种文档聚类的方法及装置。所述技术方案如下:
第一方面,提供了一种文档聚类的方法,所述方法包括:
根据待聚类的文档获取检索词-文档矩阵,根据所述检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据所述检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,并根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类的文档进行聚类。
第二方面,提供了一种文档聚类的装置,所述装置包括:
第一获取模块,用于根据待聚类的文档获取检索词-文档矩阵;
第二获取模块,用于根据所述检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据所述检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
正则化模块,用于对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
第一确定模块,用于根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
第二确定模块,用于确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵;
聚类模块,用于根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类的文档进行聚类。
本发明实施例提供的技术方案带来的有益效果是:
通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文档聚类的方法的流程图;
图2是本发明另一实施例提供的文档聚类的方法的流程图;
图3是本发明另一实施例提供的文档聚类的装置的结构示意图;
图4是本发明另一实施例提供的正则化模块的结构示意图;
图5是本发明另一实施例提供的第二确定模块的结构示意图;
图6是本发明另一实施例提供的聚类模块的结构示意图;
图7是本发明另一实施例提供的服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
针对文档聚类过程中根据检索词-文档矩阵获取到的检索词-主题矩阵及主题-文档矩阵中元素可能存在负值的情况,本发明实施例提供了一种文档聚类的方法,参见图1,方法流程包括:
101:根据待聚类的文档获取检索词-文档矩阵,根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
102:对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
作为一种可选实施例,对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵,包括:
根据正则化中的第一范数L1对非负检索词-主题矩阵进行正则化,得到正则化的非负检索词-主题矩阵;
根据正则化中的第二范数L2对非负主题-文档矩阵进行正则化,得到正则化的非负主题-文档矩阵。
103:根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
作为一种可选实施例,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定的目标函数为:
其中,D为检索词-文档矩阵,D=[dij]∈Rm*n;U为非负检索词-主题矩阵,U=[uik]∈Rm*K;V为非负主题-文档矩阵,V=[vkj]∈RK*n为正则化的非负检索词-主题矩阵;为正则化的非负主题-文档矩阵;m表示检索词数,|| ||F表示弗罗贝尼乌斯范数,K表示主题数,n表示文档数,α≥0,β≥0。
104:确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化;
如果目标函数未最小化,则重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化,直至得到使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵。
作为一种可选实施例,根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;
根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,t+1代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主题矩阵 的更新步长,ζ表示非负主题-文档矩阵的更新步长, DT表示D的转置矩阵,01*m∈R1*m为全零向量,D'T为D'的转置矩阵,VT表示V的转置矩阵,e1*K∈R1*K为全1向量,V'T表示V'的转置矩阵,0K*n为K*n的全零矩阵,IK*K为K*K的单位矩阵,U'T为U'的转置矩阵。
作为一种可选实施例,根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,包括:
对使目标函数最小化的非负检索词-主题矩阵进行归一化;
根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化;
根据归一化的非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,对使目标函数最小化的非负检索词-主题矩阵进行归一化,包括:
按照如下公式对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik ``
根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,包括:
按照如下公式根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj ``
其中,uik `为使目标函数最小化的非负检索词-主题矩阵,vkj `为使目标函数最小化的非负主题-文档矩阵。
本发明实施例提供的方法,通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
本发明实施例提供了一种文档聚类的方法,结合上一实施例的内容,参见图2,方法流程包括:
201:根据待聚类的文档获取检索词-文档矩阵,根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
关于根据待聚类的文档获取检索词-文档矩阵的方式,本实施例不作具体限定。具体实施时,可获取多个文档,将获取到的文档作为待聚类的文档;从待聚类的文档中选取检索词,将检索词作为检索词-文档矩阵的行,将待聚类的文档作为检索词-文档矩阵的列,将检索词在文档中的TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)值作为检索词-文档矩阵中与该检索词及文档对应的元素的值,从而根据待聚类的文档获取检索词-文档矩阵。其中,检索词可以为每个文档中出现次数较多的词,TF-IDF值为检索词的词频与检索词的逆向文件频率的乘积;词频为检索词在文档中出现的次数,检索词的逆向文件频率的计算公式为:lg(所有待聚类的文档数/出现该检索词的文档数),lg表示以10为底的常用对数。由于出现该检索词的文档数可能为零,导致上述检索词的逆向文件频率的计算公式中的分母为零,则实际应用中,还可使用公式:lg(所有待聚类的文档数/(出现该检索词的文档数+1)),计算检索词的逆向文件频率,本实施例不对检索词的逆向文件频率的计算方式进行限定。
为了便于理解,以待聚类的文档为文档1至文档5为例进行说明。从待聚类的文档中选取检索词:检索词1至检索词4;在文档1中,检索词1至检索词4出现的次数分别为2、0、0及2;在文档2中,检索词1至检索词4出现的次数分别为1、2、0及0;在文档3中,检索词1至检索词4出现的次数分别为1、0、0及0;在文档4中,检索词1至检索词4出现的次数分别为0、0、0及0;在文档5中,检索词1至检索词4出现的次数分别为0、2、1及1。因此,在文档1中,检索词1至检索词4的词频分别为2、0、0及2;在文档2中,检索词1至检索词4的词频分别1、2、0及0;在文档3中,检索词1至检索词4的词频分别1、2、0及0;在文档4中,检索词1至检索词4的词频分别0、0、0及0;在文档5中,检索词1至检索词4的词频分别0、2、1及1。通过计算可知,检索词1至检索词4的逆向文件频率分别为0.22、0.22、0.40、0.40及0.10,进而得到检索词1在文档1至文档5中的TF-IDF值分别为0.44、0.22、0.22、0及0,检索词2在文档1至文档5中的TF-IDF值分别为0、0.44、0、0及0.44,检索词3在文档1至文档5中的TF-IDF值分别为0、0、0、0及0.40,检索词4在文档1至文档5中的TF-IDF值分别为0.2、0、0、0及0.1。根据各个检索词在各个文档的TF-IDF值可得到如下所示的检索词-文档矩阵。该检索词-文档矩阵为4*5的矩阵,检索词-文档矩阵的行表示检索词1至检索词4,检索词-文档矩阵的列表示文档1至文档5,矩阵中的任一元素xij表示检索词i在文档j中的TF-IDF值,1≤i≤4,1≤j≤5,i和j均为整数。
由于检索词-文档矩阵可通过非负检索词-主题矩阵及非负主题-文档矩阵的乘积近似得到,为了确定非负检索词-主题矩阵及非负主题-文档矩阵,本发明实施例提供的方法根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵。又由于检索词-主题矩阵及主题-文档矩阵均为非负,使得矩阵中的每个元素具有实际意义,提高了文档聚类的效率。
关于根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵以及根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵的方式,本实施例不作具体限定。具体实施时,可将检索词-文档矩阵中的检索词作为非负检索词-主题矩阵的行,将检索词-文档矩阵中的文档作为非负主题-文档矩阵的列,来对非负检索词-主题矩阵及非负主题-文档矩阵进行初始化;另外,初始化的非负检索词-主题矩阵的列与初始化的非负主题-文档矩阵的行相同,使得初始化的非负检索词-主题矩阵与初始化的非负主题-文档矩阵能够相乘,本实施例不对初始化的非负检索词-主题矩阵的列与初始化的非负主题-文档矩阵的行进行限定。其中,检索词-主题矩阵的行表示检索词,检索词-主题矩阵的列表示主题;主题-文档矩阵的行表示主题,主题-文档矩阵的列表示文档。
202:对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
针对根据检索词-文档矩阵中的检索词获取到的初始化的非负检索词-主题矩阵及根据检索词-文档矩阵中的文档获取到的初始化的非负主题-文档矩阵可能出现稀疏及过拟合的问题,本实施例提供的方法对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵。通常情况下,可根据正则化中的第一范数L1或第二范数L2对非负检索词-主题矩阵及非负主题-文档矩阵正则化。上述正则化的过程可分为如下四种情况:
情况(1)、根据正则化中的第一范数L1对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化;
情况(2)、根据正则化中的第二范数L2对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化;
情况(3)、根据正则化中的第一范数L1对非负检索词-主题矩阵正则化,通过正则化中的第二范数L2对非负主题-文档矩阵进行正则化;
情况(4)、根据正则化中的第二范数L2对非负检索词-主题矩阵正则化,通过正则化中的第一范数L1对非负主题-文档矩阵进行正则化。
情况(1)与double sparse model(双稀疏模型)相似;情况(2)与CNMF(Constrained Non-negative Matrix Factorization,约束非负矩阵分解)相似;情况(4)与sparse coding(稀疏编码)相似。根据正则化中的第一范数L1对非负检索词-主题矩阵进行正则化,使得正则化的非负检索词-主题矩阵更加紧致,即使主题更加简洁,主题的数量更少。例如,当数量较少时,主题可以理解为同义词集,大致相当于WordNet(词网)中用于NLP(Natural Language Processing,自然语言处理)的同义词集。其次,根据正则化中的第一范数L1对非负检索词-主题矩阵进行正则化,使得正则化的非负检索词-主题矩阵更加紧致,使一个主题中的词更富有意义,从而更利于文档聚类、文本可视化等实际应用的场景。根据正则化中的第二范数L2对非负主题-文档矩阵进行正则化,尽量避免正则化的非负主题-文档矩阵出现过拟合的问题。因此,本实施例提供的方法以情况(3)为例进行说明。
203:根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
本实施例不对根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数的方式及确定的目标函数进行限定。作为一种可选实施例,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定的目标函数为:
其中,D为检索词-文档矩阵,D=[dij]∈Rm*n;U为非负检索词-主题矩阵,U=[uik]∈Rm*K;V为非负主题-文档矩阵,V=[vkj]∈RK*n为正则化的非负检索词-主题矩阵;为正则化的非负主题-文档矩阵;m表示检索词数,|| ||F表示弗罗贝尼乌斯范数,K表示主题数,n表示文档数,α≥0,β≥0。
进一步地,通过上述步骤201至步骤203即完成了目标函数的确定,为了根据目标函数对文档进行聚类,本实施例提供的方法还包括后续步骤。
204:根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
需要说明的是,在首次获取更新的非负检索词-主题矩阵时,上一次得到的非负检索词-主题矩阵为初始化的非负检索词-主题矩阵;在非首次获取更新的非负检索词-主题矩阵时,上一次得到的非负检索词-主题矩阵为上一次获取到的更新的非负检索词-主题矩阵。
在首次获取更新的非负主题-文档矩阵时,上一次得到的非负检索词-主题矩阵为初始化的非负检索词-主题矩阵;在非首次获取更新的非负主题-文档矩阵时,上一次得到的非负检索词-主题矩阵为上一次获取到的更新的非负主题-文档矩阵。
上述步骤203确定的目标函数在V固定时,可通过U进行凸优化;在U固定时,可通过V进行凸优化;当U和V均固定时,不能进行凸优化。因此,根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵包括但不限于:在V固定时,更新U,从而获取更新的非负检索词-主题矩阵;根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵包括但不限于:在U固定时,更新V,从而获取更新的非负主题-文档矩阵。
其中,更新U的过程包括但不限于:
由于V固定,则可将上述步骤203确定的目标函数转 化为进而根据初始化的V将改写为ANLS (Alternating Non-negativity constrained Least Squares,交替的非负约束最小二乘) 框架:
其中,DT表示D的转置矩阵,01*m∈R1*m为全零向量,VT表示V 的转置矩阵,e1*K∈R1*K为全1向量,UT表示U的转置矩阵。
则上述ANLS框架可改写为如下第 一函数F(U):
其 中,Tr()表示矩阵的迹,Tr(AB)=Tr(BA),A、B表示矩阵。
由于V固定,则V'也固定,进而第一函数F(U)相对于U是凸函数,可采用投影梯度法得到F(U)相对于U的梯度为因此,在t+1次循环中,可根据该公式获取更新的非负检索词-主题矩阵;其中,t+1代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主题矩阵的更新步长,η可通过Goldstein条件选取。
更新V的过程包括但不限于:
由于U固定,则可将上述步骤203确定的目标函数转化为进而根据初始化的U将改写为ANLS框架:
其中,0K*n为K*n的全零矩阵,IK*K为K*K的单位矩阵。
则上述ANLS框架可改写为如 下第二函数F(V):
由于U固定,则U'也固定,进而第二函数F(V)相对于V是凸函数,可采用投影梯度法得到F(V)相对于V的梯度为因此,在t+1次循环中,其中,t+1代表当前更新,t代表上一次更新或初始化,ζ表示非负主题-文档矩阵的更新步长,ζ可通过Goldstein条件选取。
作为一种可选实施例,根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;
根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,t+1代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主题矩阵 的更新步长,ζ表示非负主题-文档矩阵的更新步长, DT表示D的转置矩阵,01*m∈R1*m为全零向量,D'T为D'的转置矩阵,VT表示V的转置矩阵,e1*K∈R1*K为全1向量,V'T表示V'的转置矩阵,0K*n为K*n的全零矩阵,IK*K为K*K的单位矩阵,U'T为U'的转置矩阵。
205:对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
该步骤的实现方式与上述步骤202中对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵的实现方式相同,具体可参见上述步骤202中的内容,此处不再赘述。
206:根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化;
关于根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化的方式,本实施例不作具体限定。具体实施时,可设置非负检索词-主题矩阵及非负主题-文档矩阵的更新次数阈值,当非负检索词-主题矩阵及非负主题-文档矩阵的更新次数达到更新次数阈值时确定目标函数已最小化。
关于更新次数阈值的大小,本实施例不作具体限定。具体实施时,可根据待聚类的文档的数据量等设置不同的阈值。通过根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数,使用于确定目标函数的更新的非负检索词-主题矩阵及更新的非负主题-文档矩阵的乘积不断接近检索词-文档矩阵;当目标函数已最小化时,可将更新的非负检索词-主题矩阵及更新的非负主题-文档矩阵的乘积近似为检索词-文档矩阵,即对检索词-文档矩阵分解可得到更新的非负检索词-主题矩阵及更新的非负主题-文档矩阵,从而实现对检索词-文档矩阵分解。
207:如果目标函数未最小化,则返回步骤204,直至得到使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵;
当确定目标函数未最小化时,可返回步骤204,按照步骤204的方式重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;按照步骤205的方式对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;按照步骤206的方式根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化。当第一次根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵时,步骤204中的公式所涉及到的t代表初始值,但返回步骤204重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵时,步骤204中的公式所涉及到的t代表上一次更新。
进一步地,通过上述步骤201至步骤207即完成了确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,为了根据确定的使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对文档进行聚类,本实施例提供的方法还包括后续步骤。
208:对使目标函数最小化的非负检索词-主题矩阵进行归一化;
如果直接根据上述步骤207中确定的使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,聚类结果可能不是唯一的。为了使聚类结果唯一,可选地,本实施例提供的方法首先对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵。
作为一种可选实施例,对使目标函数最小化的非负检索词-主题矩阵进行归一化,包括但不限于:
按照如下公式对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik ``
其中,uik `为使目标函数最小化的非负检索词-主题矩阵。
该公式对使目标函数最小化的非负检索词-主题矩阵中每一行元素进行归一化,从而实现对使目标函数最小化的非负检索词-主题矩阵进行归一化。
209:根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化;
为了使聚类结果唯一,可选地,本实施例提供的方法根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,包括:
按照如下公式根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj ``
其中,vkj `为使目标函数最小化的非负主题-文档矩阵。
该公式对归一化的非负检索词-主题矩阵中每一行元素进行归一化,从而实现对使目标函数最小化的非负检索词-主题矩阵进行归一化。
210:根据归一化的非负主题-文档矩阵对待聚类的文档进行聚类。
由于归一化的非负主题-文档矩阵的行代表主题,归一化的非负主题-文档矩阵的列代表文档,即归一化的非负主题-文档矩阵表明了主题及文档的关系,根据归一化的非负主题-文档矩阵即可将文档分到对应的主题,从而完成对文档聚类。
vkj ``表明文档j与主题k关联的程度,例如,文档j对应一个主题k,则在归一化的非负主题-文档矩阵中第j列vkj ``的取值最大,而第j列除vkj ``外的其他元素的取值接近于零。因此,在确定文档对应的主题时,如果则文档j对应主题k。
进一步地,通过上述步骤208至步骤210即完成了根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类。
本发明实施例提供的方法,通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
参见图3,本发明实施例提供了一种文档聚类的装置,该装置用于执行上述任一实施例提供的方法。该装置包括:
第一获取模块301,用于根据待聚类的文档获取检索词-文档矩阵;
第二获取模块302,用于根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
正则化模块303,用于对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
第一确定模块304,用于根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
第二确定模块305,用于确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵;
聚类模块306,用于根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,参见图4,正则化模块303,包括:
第一正则化单元3031,用于根据正则化中的第一范数L1对非负检索词-主题矩阵进行正则化,得到正则化的非负检索词-主题矩阵;
第二正则化单元3032,用于根据正则化中的第二范数L2对非负主题-文档矩阵进行正则化,得到正则化的非负主题-文档矩阵。
作为一种可选实施例,参见图5,第二确定模块305,包括:
获取单元3051,用于根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
第三正则化单元3052,用于对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
确定单元3053,用于根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化;
获取单元3051,用于当目标函数未最小化时,重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
第三正则化单元3052,用于当目标函数未最小化时,重新对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
确定单元3053,用于当目标函数未最小化时,重新根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化,直至得到使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵。
作为一种可选实施例,参见图6,聚类模块306,包括:
第一归一化单元3061,用于对使目标函数最小化的非负检索词-主题矩阵进行归一化;
第二归一化单元3062,用于根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化;
聚类单元3063,用于根据归一化的非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,第一确定模块304确定的目标函数为:
其中,D为检索词-文档矩阵,D=[dij]∈Rm*n;U为非负检索词-主题矩阵,U=[uik]∈Rm*K;V为非负主题-文档矩阵,V=[vkj]∈RK*n为正则化的非负检索词-主题矩阵;为正则化的非负主题-文档矩阵;m表示检索词数,|| ||F表示弗罗贝尼乌斯范数,K表示主题数,n表示文档数,α≥0,β≥0。
作为一种可选实施例,获取单元3051,用于根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,t+1代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主题矩阵 的更新步长,ζ表示非负主题-文档矩阵的更新步长, DT表示D的转置矩阵,01*m∈R1*m为全零向量,D'T为D'的转置矩阵,VT表示V的转置矩阵,e1*K∈R1*K为全1向量,V'T表示V'的转置矩阵,0K*n为K*n的全零矩阵,IK*K为K*K的单位矩阵,U'T为U'的转置矩阵。
作为一种可选实施例,第一归一化单元3061,用于按照如下公式对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik ``
第二归一化单元3062,用于按照如下公式根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj ``
其中,uik `为使目标函数最小化的非负检索词-主题矩阵,vkj `为使目标函数最小化的非负主题-文档矩阵。
本发明实施例提供的装置,通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
图7是本发明实施例示出的一种用于数据的修复的服务器700的结构示意图。参照图7,服务器700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述数据的修复方法,方法包括:
根据待聚类的文档获取检索词-文档矩阵,根据检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵,包括:
根据正则化中的第一范数L1对非负检索词-主题矩阵进行正则化,得到正则化的非负检索词-主题矩阵;
根据正则化中的第二范数L2对非负主题-文档矩阵进行正则化,得到正则化的非负主题-文档矩阵。
作为一种可选实施例,确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化;
如果目标函数未最小化,则重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标函数是否已最小化,直至得到使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵。
作为一种可选实施例,根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,包括:
对使目标函数最小化的非负检索词-主题矩阵进行归一化;
根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化;
根据归一化的非负主题-文档矩阵对待聚类的文档进行聚类。
作为一种可选实施例,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定的目标函数为:
其中,D为检索词-文档矩阵,D=[dij]∈Rm*n;U为非负检索词-主题矩阵,U=[uik]∈Rm*K;V为非负主题-文档矩阵,V=[vkj]∈RK*n为正则化的非负检索词-主题矩阵;为正则化的非负主题-文档矩阵;m表示检索词数,|| ||F表示弗罗贝尼乌斯范数,K表示主题数,n表示文档数,α≥0,β≥0。
作为一种可选实施例,根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;
根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,t+1代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主题矩阵 的更新步长,ζ表示非负主题-文档矩阵的更新步长, DT表示D的转置矩阵,01*m∈R1*m为全零向量,D'T为D'的转置矩阵,VT表示V的转置矩阵,e1*K∈R1*K为全1向量,V'T表示V'的转置矩阵,0K*n为K*n的全零矩阵,IK*K为K*K的单位矩阵,U'T为U'的转置矩阵。
作为一种可选实施例,对使目标函数最小化的非负检索词-主题矩阵进行归一化,包括:
按照如下公式对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik ``
根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,包括:
按照如下公式根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj ``
其中,uik `为使目标函数最小化的非负检索词-主题矩阵,vkj `为使目标函数最小化的非负主题-文档矩阵。
服务器700还可以包括一个电源组件726被配置为执行服务器700的电源管理,一个有线或无线网络接口750被配置为将服务器700连接到网络,和一个输入输出(I/O)接口758。服务器700可以操作基于存储在存储器732的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本发明实施例提供的服务器,通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
需要说明的是:上述实施例提供的文档聚类的装置在对文档进行聚类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文档聚类的装置与文档聚类的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种文档聚类的方法,其特征在于,所述方法包括:
根据待聚类的文档获取检索词-文档矩阵,根据所述检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据所述检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,并根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类的文档进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵,包括:
根据正则化中的第一范数L1对所述非负检索词-主题矩阵进行正则化,得到正则化的非负检索词-主题矩阵;
根据正则化中的第二范数L2对所述非负主题-文档矩阵进行正则化,得到正则化的非负主题-文档矩阵。
3.根据权利要求1所述的方法,其特征在于,所述确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
对所述更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对所述更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
根据所述检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定所述目标函数是否已最小化;
如果所述目标函数未最小化,则重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;对所述更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对所述更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;根据所述检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定所述目标函数是否已最小化,直至得到使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵。
4.根据权利要求1所述的方法,其特征在于,所述根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类的文档进行聚类,包括:
对使所述目标函数最小化的非负检索词-主题矩阵进行归一化;
根据归一化的非负检索词-主题矩阵对使所述目标函数最小化的非负主题-文档矩阵进行归一化;
根据归一化的非负主题-文档矩阵对所述待聚类的文档进行聚类。
5.根据权利要求1至4中任一权利要求所述的方法,其特征在于,根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定的目标函数为:
其中,所述D为检索词-文档矩阵,所述D=[dij]∈Rm*n,所述dij为所述检索词-文档矩阵中第i行第j列的元素;所述U为非负检索词-主题矩阵,所述U=[uik]∈Rm*K,所述uik为所述非负检索词-主题矩阵中的第i行第k列的元素;所述V为非负主题-文档矩阵,所述V=[vkj]∈RK*n,所述vkj为所述非负主题-文档矩阵中的第k行第j列的元素;所述为正则化的非负检索词-主题矩阵,所述|| ||1表示1-范数,所述uk为所述非负检索词-主题矩阵中的第k个列向量;所述为正则化的非负主题-文档矩阵;所述m表示检索词数,所述|| ||F表示弗罗贝尼乌斯范数,所述K表示主题数,所述n表示文档数,所述α≥0,所述β≥0。
6.根据权利要求5所述的方法,其特征在于,所述根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵,包括:
根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;
根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,所述t+1代表当前更新,所述t代表上一次更新或初始化,所述η表示所述非负检索词-主题矩阵的更新步长,所述表示所述非负主题-文档矩阵的更新步长,所述所述为所述U的导数,所述所述DT表示所述D的转置矩阵,所述01*m∈R1*m为全零向量,所述D'T为所述D'的转置矩阵,所述所述VT表示所述V的转置矩阵,所述e1*K∈R1*K为全1向量,V'T表示所述V'的转置矩阵,所述所述为所述V的导数,所述所述0K*n为K*n的全零矩阵,所述所述IK*K为K*K的单位矩阵,所述U'T为所述U'的转置矩阵,所述F是所述目标函数。
7.根据权利要求5所述的方法,其特征在于,所述对使所述目标函数最小化的非负检索词-主题矩阵进行归一化,包括:
按照如下公式对使所述目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik``:
所述根据归一化的非负检索词-主题矩阵对使所述目标函数最小化的非负主题-文档矩阵进行归一化,包括:
按照如下公式根据归一化的非负检索词-主题矩阵对使所述目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj``:
其中,所述uik`为使所述目标函数最小化的非负检索词-主题矩阵,所述vkj`为使所述目标函数最小化的非负主题-文档矩阵。
8.一种文档聚类的装置,其特征在于,所述装置包括:
第一获取模块,用于根据待聚类的文档获取检索词-文档矩阵;
第二获取模块,用于根据所述检索词-文档矩阵中的检索词获取初始化的非负检索词-主题矩阵,并根据所述检索词-文档矩阵中的文档获取初始化的非负主题-文档矩阵;
正则化模块,用于对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
第一确定模块,用于根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
第二确定模块,用于确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵;
聚类模块,用于根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类的文档进行聚类。
9.根据权利要求8所述的装置,其特征在于,所述正则化模块,包括:
第一正则化单元,用于根据正则化中的第一范数L1对所述非负检索词-主题矩阵进行正则化,得到正则化的非负检索词-主题矩阵;
第二正则化单元,用于根据正则化中的第二范数L2对所述非负主题-文档矩阵进行正则化,得到正则化的非负主题-文档矩阵。
10.根据权利要求8所述的装置,其特征在于,所述第二确定模块,包括:
获取单元,用于根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
第三正则化单元,用于对所述更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对所述更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
确定单元,用于根据所述检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定所述目标函数是否已最小化;
所述获取单元,用于当所述目标函数未最小化时,重新根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
所述第三正则化单元,用于当所述目标函数未最小化时,重新对所述更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵,并对所述更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索词-主题矩阵;
所述确定单元,用于当所述目标函数未最小化时,重新根据所述检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定所述目标函数是否已最小化,直至得到使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵。
11.根据权利要求8所述的装置,其特征在于,所述聚类模块,包括:
第一归一化单元,用于对使所述目标函数最小化的非负检索词-主题矩阵进行归一化;
第二归一化单元,用于根据归一化的非负检索词-主题矩阵对使所述目标函数最小化的非负主题-文档矩阵进行归一化;
聚类单元,用于根据归一化的非负主题-文档矩阵对所述待聚类的文档进行聚类。
12.根据权利要求8至11中任一权利要求所述的装置,其特征在于,所述第一确定模块确定的目标函数为:
其中,所述D为检索词-文档矩阵,所述D=[dij]∈Rm*n,所述dij为所述检索词-文档矩阵中第i行第j列的元素;所述U为非负检索词-主题矩阵,所述U=[uik]∈Rm*K,所述uik为所述非负检索词-主题矩阵中的第i行第k列的元素;所述V为非负主题-文档矩阵,所述V=[vkj]∈RK*n,所述vkj为所述非负主题-文档矩阵中的第k行第j列的元素;所述为正则化的非负检索词-主题矩阵,所述|| ||1表示1-范数,所述uk为所述非负检索词-主题矩阵中的第k个列向量;所述为正则化的非负主题-文档矩阵;所述m表示检索词数,所述|| ||F表示弗罗贝尼乌斯范数,所述K表示主题数,所述n表示文档数,所述α≥0,所述β≥0。
13.根据权利要求12所述的装置,其特征在于,所述获取单元,用于根据上一次得到的非负检索词-主题矩阵按照公式获取更新的非负检索词-主题矩阵;根据上一次得到的非负主题-文档矩阵按照公式获取更新的非负主题-文档矩阵;
其中,所述t+1代表当前更新,所述t代表上一次更新或初始化,所述η表示所述非负检索词-主题矩阵的更新步长,所述表示所述非负主题-文档矩阵的更新步长,所述所述为所述U的导数,所述所述DT表示所述D的转置矩阵,所述01*m∈R1*m为全零向量,所述D'T为所述D'的转置矩阵,所述所述VT表示所述V的转置矩阵,所述e1*K∈R1*K为全1向量,V'T表示所述V'的转置矩阵,所述所述为所述V的导数,所述所述0K*n为K*n的全零矩阵,所述所述IK*K为K*K的单位矩阵,所述U'T为所述U'的转置矩阵,所述F是所述目标函数。
14.根据权利要求12所述的装置,其特征在于,所述第一归一化单元,用于按照如下公式对使所述目标函数最小化的非负检索词-主题矩阵进行归一化,得到归一化的非负检索词-主题矩阵uik``:
所述第二归一化单元,用于按照如下公式根据归一化的非负检索词-主题矩阵对使所述目标函数最小化的非负主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵vkj``:
其中,所述uik`为使所述目标函数最小化的非负检索词-主题矩阵,所述vkj`为使所述目标函数最小化的非负主题-文档矩阵。
CN201410200769.8A 2014-05-13 2014-05-13 文档聚类的方法及装置 Active CN105095275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410200769.8A CN105095275B (zh) 2014-05-13 2014-05-13 文档聚类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410200769.8A CN105095275B (zh) 2014-05-13 2014-05-13 文档聚类的方法及装置

Publications (2)

Publication Number Publication Date
CN105095275A CN105095275A (zh) 2015-11-25
CN105095275B true CN105095275B (zh) 2019-04-05

Family

ID=54575729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410200769.8A Active CN105095275B (zh) 2014-05-13 2014-05-13 文档聚类的方法及装置

Country Status (1)

Country Link
CN (1) CN105095275B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991765B (zh) * 2021-02-03 2022-05-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种道路高排放源识别模型更新方法、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495876A (zh) * 2011-12-02 2012-06-13 浙江大学 一种基于非负局部坐标分解的聚类方法
CN103020017A (zh) * 2012-12-05 2013-04-03 湖州师范学院 一种流行正则和鉴别信息最大化的非负矩阵分解方法
CN103150383A (zh) * 2013-03-15 2013-06-12 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN103279556A (zh) * 2013-06-09 2013-09-04 南方报业传媒集团 基于自适应子空间学习的迭代文本聚类方法
CN103765415A (zh) * 2011-05-11 2014-04-30 谷歌公司 文档主题的并行生成

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909643B2 (en) * 2011-12-09 2014-12-09 International Business Machines Corporation Inferring emerging and evolving topics in streaming text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103765415A (zh) * 2011-05-11 2014-04-30 谷歌公司 文档主题的并行生成
CN102495876A (zh) * 2011-12-02 2012-06-13 浙江大学 一种基于非负局部坐标分解的聚类方法
CN103020017A (zh) * 2012-12-05 2013-04-03 湖州师范学院 一种流行正则和鉴别信息最大化的非负矩阵分解方法
CN103150383A (zh) * 2013-03-15 2013-06-12 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN103279556A (zh) * 2013-06-09 2013-09-04 南方报业传媒集团 基于自适应子空间学习的迭代文本聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Document clustering based on non-negative matrix factorization;Wei Xu 等;《Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval》;20030801;第267-273页 *
基于约束主成份分析的文本聚类算法;王明文 等;《模式识别与人工智能》;20130331;第26卷(第3期);第270-275页 *
层次非负矩阵分解及在文本聚类中的应用;景丽萍 等;《Journal of Frontiers of Computer Science and Technology》;20110630;第904-913页 *

Also Published As

Publication number Publication date
CN105095275A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
US11922308B2 (en) Generating neighborhood convolutions within a large network
Kosinski et al. Mining big data to extract patterns and predict real-life outcomes.
Shao et al. Online multi-view clustering with incomplete views
Corchado et al. Ibr retrieval method based on topology preserving mappings
CN112257858B (zh) 一种模型压缩方法及装置
CN106886543B (zh) 结合实体描述的知识图谱表示学习方法和系统
Youssef et al. Optimal capacitor allocation in radial distribution networks using a combined optimization approach
CN108804641A (zh) 一种文本相似度的计算方法、装置、设备和存储介质
Zheng et al. Topic modeling of multimodal data: an autoregressive approach
Yao et al. Nlp from scratch without large-scale pretraining: A simple and efficient framework
JP2019049957A (ja) 問い合わせのターゲットクラスを特定しそれらの応答を提供するBiLSTM−シャムネットワークベース分類器
US20120253792A1 (en) Sentiment Classification Based on Supervised Latent N-Gram Analysis
CN109739978A (zh) 一种文本聚类方法、文本聚类装置及终端设备
CN104408034B (zh) 一种面向文本大数据的中文分词方法
Allen-Zhu et al. Sparse sign-consistent Johnson–Lindenstrauss matrices: Compression with neuroscience-based constraints
CN109766437A (zh) 一种文本聚类方法、文本聚类装置及终端设备
CN106970981B (zh) 一种基于转移矩阵构建关系抽取模型的方法
CN109242106A (zh) 样本处理方法、装置、设备和存储介质
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
Belouadah et al. Active class incremental learning for imbalanced datasets
CN108255809B (zh) 考虑词语相似度的计算文档所对应的主题的方法
CN113987126A (zh) 基于知识图谱的检索方法及装置
CN110134943A (zh) 领域本体生成方法、装置、设备及介质
CN105095275B (zh) 文档聚类的方法及装置
CN116108836B (zh) 文本情感识别方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant