CN103207899B - 文本文件推荐方法及系统 - Google Patents
文本文件推荐方法及系统 Download PDFInfo
- Publication number
- CN103207899B CN103207899B CN201310088575.9A CN201310088575A CN103207899B CN 103207899 B CN103207899 B CN 103207899B CN 201310088575 A CN201310088575 A CN 201310088575A CN 103207899 B CN103207899 B CN 103207899B
- Authority
- CN
- China
- Prior art keywords
- text
- implicit theme
- feature vector
- implicit
- recommended
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本文件推荐方法及系统,所述方法包括:确定出当前文本文件的词语集合后,确定该词语集合中的每个词语的TF值或TF‑IDF值,确定出当前文本文件的隐含主题特征向量,分别计算所述当前文本文件的隐含主题特征向量与各待推荐文本文件的隐含主题特征向量之间的相似度,选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐。由于隐含主题特征向量来计算文本文件之间相似度,从而使得文本文件推荐系统的推荐方法更加准确。
Description
技术领域
本发明涉及互联网领域,尤其涉及一种文本文件推荐方法及系统。
背景技术
互联网技术迅猛发展,网上信息爆炸式增长,用户为了找到自己需要的信息,可能需要花费大量的时间浏览并过滤大量无关信息。为解决这种因信息过载而导致的信息利用率下降的问题,推荐系统在互联网领域得到广泛应用。推荐系统就是,通过建立用户与信息产品之间的二元关系,利用已有的选择过程或相似性关系挖掘每位用户潜在感兴趣的对象,进而进行个性化的推荐,其本质就是信息过滤。
目前互联网上基于文本文件内容的推荐系统,是根据用户当前搜索浏览的文本文件,得出当前文本文件的词语特征向量,并与系统中其它待推荐文本文件的词语特征向量计算两者间的相似度,按照计算出的相似度将若干个待推荐文本文件推荐给用户;具体过程如图1所示,通常包括以下步骤:
S101:对当前文本文件进行预处理。
具体地,在用户搜索、并浏览一个文本文件时,推荐系统将该文本文件作为当前文本文件进行预处理,为后续提取该当前文本文件的词语特征向量做准备。对当前文本文件进行预处理的过程中,包括:对该当前文本文件进行分词、去除停用词后得到当前文本文件的词语集合。分词就是将文本文件中连续的字序列划分为一个个词语的过程;经分词后划分出的词语,再去除停用词,删除如“的”、“呀”等对于文件没有实际意义的词,从而构成该文本文件的词语集合。
S102:提取当前文本文件的词语特征向量。
具体地,对文本文件预处理后得到的是词语集合;词语集合还不能简洁准确地表示该文本文件的内容信息,还需要通过一定的算法来提取该文本文件的内容特征;当前的文本文件推荐系统,通常采用向量空间模型表征文本文件的内容特征,即词语特征向量。
计算文本文件的词语特征向量主要采用的方法可以有TF-IDF(termfrequency-inverse document frequency,词频-逆向文件频率),TextRank等方法。以下以TF-IDF方法为例,简介相关算法。
TF-IDF是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随着它在文件中出现的频数,即TF(Term Frequency,词频)值,成正比增加,但同时会随着它在语料库中出现的频率,即IDF(Inverse Document Frequency,逆向文件频率)值,成反比下降。
比如,对于某一文本文件R的词语集合中的词语ti,它在该文本文件中重要性可表示为如下公式1:
其中,分子ni是文本文件R中的第i个词语ti出现的频数;
分母max{nk,j|k=(1,2,...,T)}是文本文件R中所有词语出现的最大次数,T是文本文件R的总词语数。
某一特定词语ti的IDF值,可以由语料库中总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,即如下公式2:
其中,分子|D|是语料库中的文件总数;|{j:ti∈R}|是包含词语ti的文件数目,加1是为了防止该词语不在语料库中导致被除数为零。
然后,利用如下公式3:
tfidfi=tfi×idfi (公式3)
计算词语ti的TF-IDF值,即词语ti的权重。
重复以上公式1、2、3计算,可以得到文本文件R的词语集合中的所有词语的权重。
文本文件中的各词语的权重构成文本文件的词语特征向量dj=(<word1,TF-IDF1>,…,<wordm,TF-IDFm>,…,<wordN,TF-IDFN>);其中,N为文本文件的词语集合中的词语总数,wordm为词语集合中第m个词语,TF-IDFm表示第m个词语的TF-IDF值(即权重)。
S103、计算当前文本文件与待推荐文本文件间的相似度。
具体地,将步骤S102中计算得到的当前文本文件的词语特征向量,分别与各待推荐文本文件的词语特征向量进行相似度计算。可通过计算两个向量之间夹角来确定两个向量之间的相似度,具体可以根据如下公式4计算向量之间夹角的余弦值得到:
所述公式4中,X表示当前文本文件的词语特征向量,具体为X=(x1,…,xi,…,xn),xi表示词语集合中第i个词语在当前文本文件中的出现概率;Y表示待推荐文本文件的词语特征向量,具体为Y=(y1,…,yi,…,yn),yi表示词语集合中第i个词语在待推荐文本文件中的出现概率,其中,i为1~n的自然数,n为词语特征向量的维数,sim(X,Y)表示向量X和向量Y之间的相似度,θ表示向量X与向量Y之间的夹角。
得到的结果即为以向量X表征的当前文本文件与以向量Y表征的各待推荐文本文件间的相似度,数值越大越接近1则表明当前文本文件与该待推荐文本文件越相似;数值越小越接近0则表明当前文本文件与该待推荐文本文件越不相似。
S104、从待推荐列表中推荐与当前文本文件相似度高的文本文件。
具体地,把待推荐列表中的各待推荐文本文件词语特征向量与当前文本文件的词语特征向量之间的相似度进行从大到小的排序,排序后取排序靠前的确定个数的相似度对应的待推荐文本文件组成推荐列表进行推荐。
本发明的发明人发现,现有的文本文件推荐系统,只基于词语的表面字义提取文本文件的词语特征向量,并根据词语特征向量计算当前文本文件与待推荐文本文件间的相似度来进行文本文件的推荐,该过程中没有考虑词语字面背后隐含的语义关联;当遇到一义多词时,只要词语不同,即使其隐含的语义相关联,也可能会计算出较小值的相似度,从而被漏推荐。当遇到一词多义时,只要词语相同,即使其隐含的语义其实并不相关,也可能会计算出较大值的相似度,从而被误推荐。因此,现有技术的推荐系统在进行文本文件推荐时,会存在推荐结果不准确的问题。
发明内容
针对上述现有技术存在的缺陷,本发明提供了一种文本文件推荐方法及系统,用以提高文本文件推荐结果的准确性。
本发明的技术方案公开了一种文本文件推荐方法,包括:
确定当前文本文件的词语集合后,确定该词语集合中的每个词语的TF值或TF-IDF值;
根据所述词语集合中的每个词语的TF值或TF-IDF值,确定出所述当前文本文件的隐含主题特征向量,该隐含主题特征向量中的各元素分别为隐含主题集合中各隐含主题在所述当前文本文件中的出现概率;
分别计算所述当前文本文件的隐含主题特征向量与各待推荐文本文件的隐含主题特征向量之间的相似度;
选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐。
其中,所述根据所述词语集合中的每个词语的TF值或TF-IDF值,确定出所述当前文本文件的隐含主题特征向量,具体包括:
将所述词语集合中的各词语的TF值分别作为向量P中的各元素,或者将所述词语集合中的各词语的TF-IDF值分别作为向量P中的各元素后,根据如下公式6确定所述当前文本文件的隐含主题特征向量:
Q=P×W (公式6)
其中,Q为所述当前文本文件的隐含主题特征向量,W是由所述语料库的词语集合中各词语对所述隐含主题集合中各隐含主题变量的出现概率作为元素所构成的矩阵,是预先根据所述语料库中各文本文件进行训练后得到的。
或者,所述根据所述词语集合中的每个词语的TF值或TF-IDF值,确定出所述当前文本文件的隐含主题特征向量,具体包括:
在原语料库的基础上,增加所述当前文本文件,形成包括所述当前文本文件、以及各待推荐文本文件的新语料库;
根据所述新语料库中各文本文件的词语集合中的每个词语的TF值或TF-IDF值,运用概率潜在语义分析PLSA模型进行训练,得到Z矩阵;所述Z矩阵是由所述新语料库的各文本文件中各隐含主题变量的出现概率作为元素所构成的矩阵;
根据所述Z矩阵中,所述当前文本文件中各隐含主题变量的出现概率,得到所述当前文本文件的隐含主题特征向量;并根据所述Z矩阵中,各待推荐文本文件中各隐含主题变量的出现概率,分别得到各待推荐文本文件的隐含主题特征向量。
较佳地,所述分别计算所述当前文本文件的隐含主题特征向量,与各待推荐文本文件的隐含主题特征向量之间的相似度,具体包括:
对于各待推荐文本文件中的一个待推荐文本文件,根据所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间的夹角,确定所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间相似度。
较佳地,所述根据所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间的夹角,确定所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间相似度,具体包括:
根据如下公式5确定所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间相似度:
所述公式5中,X表示所述当前文本文件的隐含主题特征向量,具体为X=(x1,…,xi,…,xn),xi表示所述隐含主题集合中第i个隐含主题在所述当前文本文件中的出现概率;Y表示该待推荐文本文件的隐含主题特征向量,具体为Y=(y1,…,yi,…,yn),yi表示所述隐含主题集合中第i个隐含主题在该待推荐文本文件中的出现概率;其中,i为1~n的自然数,n为隐含主题特征向量的维数;sim(X,Y)表示向量X与向量Y之间的相似度,θ表示向量X与向量Y之间的夹角。
较佳地,所述选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐,具体为:
将计算出的相似度进行大小排序,选择出排序在前的设定个数的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐;或者
选择出大于或等于设定阈值的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐。
本发明的技术方案还同时公开了一种文本文件推荐系统,包括:
词语集合确定模块,用于确定当前文本文件的词语集合;
特征值确定模块,用于确定所述词语集合中的每个词语的TF值或TF-IDF值;
隐含主题特征向量确定模块,用于根据所述特征值确定模块确定的TF值或TF-IDF值,确定出所述当前文本文件的隐含主题特征向量,该隐含主题特征向量中的各元素分别为隐含主题集合中各隐含主题在所述当前文本文件中的出现概率;
相似度计算模块,用于分别计算所述当前文本文件的隐含主题特征向量与各待推荐文本文件的隐含主题特征向量之间的相似度;
推荐模块,用于根据所述相似度计算模块计算的相似度,选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐。
其中,所述隐含主题特征向量确定模块具体包括:
赋值单元,用于将所述词语集合中的各词语的TF值分别作为向量P中的各元素,或者将所述词语集合中的各词语的TF-IDF值分别作为向量P中的各元素;
隐含主题特征向量计算单元,用于根据所述向量P以及如下公式确定所述当前文本文件的隐含主题特征向量:Q=P×W;其中,Q为所述当前文本文件的隐含主题特征向量,W是由所述语料库的词语集合中各词语对所述隐含主题集合中各隐含主题变量的出现概率作为元素所构成的矩阵,是预先根据所述语料库中各文本文件进行训练后得到的。
或者,所述隐含主题特征向量确定模块具体包括:
语料库更新单元,用于在原语料库的基础上,增加所述当前文本文件,形成包括所述当前文本文件、以及各待推荐文本文件的更新后的新语料库;
训练单元,用于根据所述新语料库中各文本文件的词语集合中的每个词语的TF值或TF-IDF值,运用PLSA模型进行训练,得到Z矩阵;其中,所述Z矩阵是由所述新语料库的各文本文件中各隐含主题变量的出现概率作为元素所构成的矩阵;
隐含主题特征向量确定单元,用于根据所述Z矩阵中,所述当前文本文件中各隐含主题变量的出现概率,得到所述当前文本文件的隐含主题特征向量;并根据所述Z矩阵中,各待推荐文本文件中各隐含主题变量在的出现概率,分别得到各待推荐文本文件的隐含主题特征向量。
其中,所述推荐模块具体包括:
排序单元,用于将计算出的相似度进行大小排序;
选择单元,用于选择出排序在前的设定个数的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐;或者选择出大于设定阈值的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐。
本发明的技术方案是利用词语的隐含主题特征向量来计算文本文件之间相似度的方法以及实施该方法的系统进行文本推荐,可以使得推荐结果更为准确:在遇到一义多词时,即使文本文件之间没有相同的词语,只要存在词语的隐含主题相关的情况,文本文件之间的相似度就会较高,大大降低被漏推荐的概率;在遇到一词多义时,即使文本文件之间拥有相同的词语,只要所述相同词语的隐含主题不相关,文本文件之间的相似度就会较低,大大降低被误推荐的概率。解决了现有技术的基于词语表面字义计算文本文件间相似度的方法,在遇到一义多词时相似度过低、一词多义时相似度过高,而导致推荐不准确的问题,使得文本文件推荐系统的推荐结果更加准确。
附图说明
图1为现有技术的文本文件推荐方法的流程图;
图2为本发明实施例的文本文件推荐方法的流程图;
图3为本发明实施例的文本文件推荐方法中确定隐含主题特征向量的流程图;
图4为本发明实施例的文本文件推荐系统的内部结构框图;
图5为本发明实施例的隐含主题特征向量确定模块的一种内部结构框图;
图6为本发明实施例的隐含主题特征向量确定模块的另一种内部结构框图;
图7为本发明实施例的推荐模块的内部结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。
本发明的发明人,考虑到隐含主题可以更为准确地表示一义多词、或一词多义的词语间的关联程度,由此提供了一种基于词语的隐含主题,按照当前文本文件与待推荐文本文件的隐含主题特征向量之间的相似度,来推荐文本文件的技术方案。
对于一义多词的情况,通常是若干个词语具有相同、或相关的含义,隐含主题则可以体现出这些词语的含义之间的相关性;由此为出现频率较高且与共同主题有很强相关性的一系列的词语,将这些词语的共同主题定义为这些词语的隐含主题。同一个词语往往在多个隐含主题中出现,而一个文本文件也往往包含多个隐含主题。隐含主题可以比词语更为准确地反映文本文件间的相关性:
例如,当文本文件推荐系统遇到两个句子:第一句:“新一代的IPAD发布了。”第二句:“苹果会不会降价?”由于这两个句子之间因为没有相同的词语,计算其词语特征向量间的相似度会非常小而被漏推荐。若用隐含主题的观点来看,第一句中的“IPAD”一词既有概率属于“苹果公司”这个隐含主题,也有概率属于“平板电脑”这个隐含主题;第二句中的“苹果”一词既有概率属于“水果”这个隐含主题,也有概率属于“苹果公司”这个隐含主题。因此第一个句子和第二个句子在“苹果公司”这个隐含主题上相关,其隐含主题特征向量之间的相似度会较大而不会被漏推荐。
基于上述的分析,下面结合附图详细说明本发明的技术方案。本发明具体实施方式提供的文本文件推荐系统进行文本文件推荐的方法,具体流程图如图2所示,具体包括如下步骤:
S201:对当前文本文件进行预处理。
具体地,在用户搜索、并浏览一个文本文件时,所述文本文件推荐系统将该文本文件作为当前文本文件进行预处理,在预处理过程中确定出当前文本文件的词语集合。当前文本文件的预处理过程已在上述步骤S101中介绍,此处不再赘述。
S202:确定当前文本文件的词语集合中的每个词语的TF值或TF-IDF值。
本步骤中,根据步骤S201中确定的当前文本文件的词语集合后,计算该词语集合中的每个词语的TF值或TF-IDF值,与现有技术的方法相同,此处不再赘述。对于在计算当前文本文件的词语集合中的每个词语的TF-IDF值过程中涉及的每个词语在语料库中的IDF值通常是提前计算并存储的,并随语料库的更新而更新,在本步骤中直接调用。
S203:根据当前文本文件的词语集合中的每个词语的TF值或TF-IDF值计算当前文本文件的隐含主题特征向量。
在本步骤中,可以根据步骤S202中计算得到的当前文本文件的词语集合中的每个词语的TF值确定出该当前文本文件的隐含主题特征向量;更优地,可以根据步骤S202中计算得到的当前文本文件的词语集合中的每个词语的TF-IDF值确定出该当前文本文件的隐含主题特征向量。其中,当前文本文件的隐含主题特征向量中的各元素分别为隐含主题集合中各隐含主题在当前文本文件中的出现概率。如何根据当前文本文件的词语集合中的每个词语的TF值或TF-IDF值计算得到当前本文文件的隐含主题特征向量的具体方法将在后续进行详细介绍。
S204:根据隐含主题特征向量计算当前文本文件与各待推荐文本文件间的相似度。
具体地,分别计算由步骤S203计算得到的当前文本文件的隐含主题特征向量,与各待推荐文本文件的隐含主题特征向量之间的相似度。
进一步的,隐含主题特征向量之间的相似度的计算与词语特征向量之间的相似度的计算相类似,对于各待推荐文本文件中的任一个待推荐文本文件,根据当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间的夹角,来计算当前文本文件的隐含主题特诊向量与该待推荐文本文件的隐含主题特征向量之间的相似度,具体根据如下公式5计算当前文本文本的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间的相似度:
所述公式5中,X表示当前文本文件的隐含主题特征向量,具体为X=(x1,…,xi,…,xn),xi表示隐含主题集合中第i个隐含主题在当前文本文件中的出现概率,Y表示待推荐文本文件的隐含主题特征向量,具体为Y=(y1,…,yi,…,yn),yi表示隐含主题集合中第i个隐含主题在待推荐文本文件中的出现概率,其中,i为1~n的自然数,n为隐含主题特征向量的维数,sim(X,Y)表示向量X和向量Y之间的相似度,θ表示向量X与向量Y之间的夹角。
计算出的余弦值越大越接近1则表明当前文本文件与该待推荐文本文件越相似;余弦值越小越接近0则表明当前文本文件与该待推荐文本文件越不相似。
S205:根据计算得到的相似度,从待推荐文本文件中推荐与当前文本文件相似度高的文本文件。
本步骤中,根据计算出的相似度,选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐,具体包括:对计算出的相似度进行从大到小的排序,选择出排序在前的设定个数的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度组成推荐列表进行推荐;
或者,选择出大于或等于设定阈值的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件组成推荐列表进行推荐。
上述步骤S203中提到的当前文本文件的隐含主题特征向量的计算方法,以及步骤S204中提到的各待推荐文本文件的隐含主题特征向量的计算方法,均可采用如下方法;以当前文本文件的隐含主题特征向量的计算方法为例进行详细介绍,具体流程如图3所示,包括如下步骤:
S301:确定该当前文本文件的词语集合中各词语在当前本文本文件中的出现概率。
具体地,将上述步骤S202计算得到的当前文本文件的词语集合中的各个词语的TF值,分别作为该当前文本文件的词语集合中对应词语在当前本文本文件中的出现概率;或者,将上述步骤S202计算得到的当前文本文件的词语集合中的各个词语的TF-IDF值,分别作为该当前文本文件的词语集合中对应词语在当前本文本文件中的出现概率。
S302:根据确定的当前文本文件的词语集合中各词语在当前本文本文件中的出现概率,计算得到当前文本文件的隐含主题特征向量。
在本步骤中,提供了两种方法计算得到当前文本文件的隐含主题特征向量;其中,一种计算当前文本文件的隐含主题特征向量的简单的方法如下:由于向量可以当作单行多列或多行单列的矩阵来计算,因此对于求当前文本文件的隐含主题特征向量,具体如下公式6所示:
Q=P×W (公式6)
上述公式6中,Q表示当前文本文件的隐含主题特征向量,P表示当前文本文件的词语集合中各词语在当前本文本文件中的出现概率作为元素构成的向量,W是由原语料库的词语集合中各词语对所述隐含主题集合中各隐含主题变量的出现概率作为元素所构成的矩阵。
具体的,可以直接调用预先利用原语料库中各文本文件进行训练后得到的所述矩阵W,根据步骤S301得到的向量P,依据上述公式6可以计算得到当前文本文件的隐含主题特征向量Q。该简单的计算当前文本文件的隐含主题特征向量的方法可以应用在线上实时文本文件推荐系统中。
另一种计算当前文本文件中隐含主题特征向量的方法,可以是在原语料库的基础上,增加当前文本文件,形成包括当前文本文件和各待推荐文本文件的新语料库。此种方法由于比较耗时,可以应用于离线文本文件推荐系统中,可以采用离线定时更新语料库的方式执行,例如每6小时执行一次。
根据所述新语料库中各文本文件的词语集合中的每个词语的TF值或TF-IDF值作为元素所构成的矩阵K,运用PLSA(Probabilistic Latent SemanticAnalysis,概率潜在语义分析)模型进行训练,得到W矩阵和Z矩阵;具体的,PLSA模型的表达式如下:
K=A×W×Z (公式7)
所述公式7中,K表示由新语料库的词语集合中各词语在各文本文件中出现概率作为元素所构成的矩阵,A表示由新语料库中每个文本文件的出现概率作为元素所构成的向量,W矩阵是由所述新语料库的词语集合中各词语对隐含主题集合中各隐含主题变量的出现概率作为元素所构成的矩阵,Z矩阵是由所述新语料库的各文本文件中各隐含主题变量的出现概率作为元素所构成的矩阵。
根据所述Z矩阵中,当前文本文件中各隐含主题变量的出现概率,得到当前文本文件的隐含主题特征向量;并根据所述Z矩阵中,各待推荐文本文件中各隐含主题变量的出现概率,分别得到各待推荐文本文件的隐含主题特征向量。具体地,当前文本文件的隐含主题特征向量可以表示为Q=<q1,…,qi,…,qn>,其中qi表示第i个隐含主题变量在当前文本文件中的出现概率,任一待推荐文本文件的隐含主题特征向量可以表示为B=<b1,…,bi,…,bn>,其中bi表示第i个隐含主题变量在该待推荐文本文件中的出现概率,i为1~n的自然数,其中n表示隐含主题特征向量的维数。
由于PLSA模型以及该模型中应用到的最大似然估计(MLE)和期望最大算法(EM)的具体算法属于公知技术,不再赘述。
较优的,对于大数据量的期望最大算法(EM)可以使用MapReduce工具实施。
依据上述的文本文件推荐方法,本发明提供的文本文件推荐系统的内部结构框图,如图4所示,包括:词语集合确定模块401、特征值确定模块402、隐含主题特征向量确定模块403、相似度计算模块404、推荐模块405。
其中,词语集合确定模块401用于预处理当前文本文件,确定当前文本文件的词语集合。
特征值确定模块402用于根据从词语集合确定模块401中得到的词语集合,计算所述词语集合中的每个词语的TF值或TF-IDF值。
隐含主题特征向量确定模块403用于根据特征值确定模块402计算得到的TF值或TF-IDF值,计算出当前文本文件的隐含主题特征向量,该隐含主题特征向量中的各元素分别为隐含主题集合中各隐含主题在当前文本文件中的出现概率。该模块有两种内部结构可以实现,分别在后面详细介绍。
相似度计算模块404用于根据隐含主题特征向量确定模块403计算得到的当前文本文件的隐含主题特征向量和各待推荐文本文件的隐含主题特征向量,分别计算当前文本文件的隐含主题特征向量与各待推荐文本文件的隐含主题特征向量之间的相似度。
推荐模块405用于根据相似度计算模块404计算得到的相似度,选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐。推荐模块405的内部结构在后面详细介绍。
上述隐含主题特征向量确定模块403中涉及的一种内部结构框图,如图5所示,包括:赋值单元501、隐含主题特征向量计算单元502。
其中,赋值单元501用于将语料库的词语集合中的各词语的TF值作为向量P中各元素的赋值,或者将语料库的词语集合中的各词语的TF-IDF值作为向量P中各元素的赋值。
隐含主题特征向量计算单元502用于根据赋值单元502赋值后得到的向量P以及如下公式确定当前文本文件的隐含主题特征向量:Q=P×W;该公式中Q表示当前文本文件的隐含主题特征向量,W表示原语料库的词语集合中各词语对隐含主题集合中各隐含主题变量的出现概率作为元素所构成的矩阵,矩阵W是预先根据原语料库中各文本文件进行训练得到的。
上述隐含主题特征向量确定模块403中涉及的另一种内部结构框图,如图6所示,包括:语料库更新单元601、训练单元602,隐含主题特征向量确定单元603。
其中,语料库更新单元601用于在原语料库的基础上,增加当前文本文件入库,形成包括当前文本文件、各待推荐文本文件的更新后的新语料库。
训练单元602用于根据语料库更新单元601确定的新语料库,该新语料库中各文本文件的词语集合中的每个词语的TF值或TF-IDF值作为元素所构成的矩阵K,运用PLSA模型进行训练,得到W矩阵和Z矩阵;其中,所述W矩阵是由所述新语料库的词语集合中各词语对隐含主题集合中各隐含主题变量的出现概率作为元素所构成的矩阵;所述Z矩阵是由所述新语料库的各文本文件中各隐含主题变量的出现概率作为元素所构成的矩阵;
隐含主题特征向量确定单元603用于根据训练单元602中训练得到Z矩阵中,当前文本文件中各隐含主题变量的出现概率,提取得到当前文本文件的隐含主题特征向量;并根据所述Z矩阵中,各待推荐文本文件中各隐含主题变量的出现概率,分别提取得到各待推荐文本文件的隐含主题特征向量。
上述推荐模块405的内部结构框图,如图7所示,包括:排序单元701,选择单元702。
其中,排序单元701用于根据相似度计算模块404计算得到的相似度,进行从大到小排序。
选择单元702用于根据排序单元701得到排序后的所述相似度,选择出排序在前的设定个数的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐;或者选择出大于设定阈值的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐。
本发明的技术方案是利用词语的隐含主题特征向量来计算文本文件之间相似度的方法以及实施该方法的系统进行文本推荐,可以使得推荐结果更为准确:在遇到一义多词时,即使文本文件之间没有相同的词语,只要存在词语的隐含主题相关的情况,文本文件之间的相似度就会较高,大大降低被漏推荐的概率;在遇到一词多义时,即使文本文件之间拥有相同的词语,只要所述相同词语的隐含主题不相关,文本文件之间的相似度就会较低,大大降低被误推荐的概率。解决了现有技术的基于词语表面字义计算文本文件间相似度的方法,在遇到一义多词时相似度过低、一词多义时相似度过高,而导致推荐不准确的问题,使得文本文件推荐系统的推荐结果更加准确。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种文本文件推荐方法,其特征在于,包括:
确定出当前文本文件的词语集合后,确定该词语集合中的每个词语的词频TF值或词频-逆向文件频率TF-IDF值;
根据所述词语集合中的每个词语的TF值或TF-IDF值,确定出所述当前文本文件的隐含主题特征向量,该隐含主题特征向量中的各元素分别为隐含主题集合中各隐含主题在所述当前文本文件中的出现概率;
分别计算所述当前文本文件的隐含主题特征向量与各待推荐文本文件的隐含主题特征向量之间的相似度;
选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐。
2.如权利要求1所述的方法,其中,所述根据所述词语集合中的每个词语的TF值或TF-IDF值,确定出所述当前文本文件的隐含主题特征向量,具体包括:
将所述词语集合中的各词语的TF值分别作为向量P中的各元素,或者将所述词语集合中的各词语的TF-IDF值分别作为向量P中的各元素后,根据如下公式6确定所述当前文本文件的隐含主题特征向量:
Q=P×W (公式6)
其中,Q为所述当前文本文件的隐含主题特征向量,W是由语料库的词语集合中各词语对所述隐含主题集合中各隐含主题变量的出现概率作为元素所构成的矩阵,是预先根据所述语料库中各文本文件进行训练后得到的。
3.如权利要求1所述的方法,其中,所述根据所述词语集合中的每个词语的TF值或TF-IDF值,确定出所述当前文本文件的隐含主题特征向量,具体包括:
在原语料库的基础上,增加所述当前文本文件,形成包括所述当前文本文件、以及各待推荐文本文件的新语料库;
根据所述新语料库中各文本文件的词语集合中的每个词语的TF值或TF-IDF值,运用概率潜在语义分析PLSA模型进行训练,得到Z矩阵;所述Z矩阵是由所述新语料库的各文本文件中各隐含主题变量的出现概率作为元素所构成的矩阵;
根据所述Z矩阵中,所述当前文本文件中各隐含主题变量的出现概率,得到所述当前文本文件的隐含主题特征向量;并根据所述Z矩阵中,各待推荐文本文件中各隐含主题变量的出现概率,分别得到各待推荐文本文件的隐含主题特征向量。
4.如权利要求1-3任一所述的方法,其中,所述分别计算所述当前文本文件的隐含主题特征向量,与各待推荐文本文件的隐含主题特征向量之间的相似度,具体包括:
对于各待推荐文本文件中的一个待推荐文本文件,根据所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间的夹角,确定所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间相似度。
5.如权利要求4所述的方法,其中,所述根据所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间的夹角,确定所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间相似度,具体包括:
根据如下公式5确定所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间相似度:
所述公式5中,X表示所述当前文本文件的隐含主题特征向量,具体为X=(x1,…,xi,…,xn),xi表示所述隐含主题集合中第i个隐含主题在所述当前文本文件中的出现概率;Y表示该待推荐文本文件的隐含主题特征向量,具体为Y=(y1,…,yi,…,yn),yi表示所述隐含主题集合中第i个隐含主题在该待推荐文本文件中的出现概率;其中,i为1~n的自然数,n为隐含主题特征向量的维数;sim(X,Y)表示向量X与向量Y之间的相似度,θ表示向量X与向量Y之间的夹角。
6.如权利要求1-3任一所述的方法,其中,所述选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐,具体为:
将计算出的相似度进行大小排序,选择出排序在前的设定个数的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐;或者
选择出大于或等于设定阈值的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐。
7.一种文本文件推荐系统,其特征在于,包括:
词语集合确定模块,用于确定当前文本文件的词语集合;
特征值确定模块,用于确定所述词语集合中的每个词语的TF值或TF-IDF值;
隐含主题特征向量确定模块,用于根据所述特征值确定模块确定的TF值或TF-IDF值,确定出所述当前文本文件的隐含主题特征向量,该隐含主题特征向量中的各元素分别为隐含主题集合中各隐含主题在所述当前文本文件中的出现概率;
相似度计算模块,用于分别计算所述当前文本文件的隐含主题特征向量与各待推荐文本文件的隐含主题特征向量之间的相似度;
推荐模块,用于选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐。
8.如权利要求7所述的系统,其中,所述隐含主题特征向量确定模块具体包括:
赋值单元,用于将所述词语集合中的各词语的TF值分别作为向量P中的各元素,或者将所述词语集合中的各词语的TF-IDF值分别作为向量P中的各元素;
隐含主题特征向量计算单元,用于根据所述向量P以及如下公式确定所述当前文本文件的隐含主题特征向量:Q=P×W;其中,Q为所述当前文本文件的隐含主题特征向量,W是由语料库的词语集合中各词语对所述隐含主题集合中各隐含主题变量的出现概率作为元素所构成的矩阵,是预先根据所述语料库中各文本文件进行训练后得到的。
9.如权利要求7所述的系统,其中,所述隐含主题特征向量确定模块具体包括:
语料库更新单元,用于在原语料库的基础上,增加所述当前文本文件,形成包括所述当前文本文件、以及各待推荐文本文件的更新后的新语料库;
训练单元,用于根据所述新语料库中各文本文件的词语集合中的每个词语的TF值或TF-IDF值,运用PLSA模型进行训练,得到Z矩阵;其中,所述Z矩阵是由所述新语料库的各文本文件中各隐含主题变量的出现概率作为元素所构成的矩阵;
隐含主题特征向量确定单元,用于根据所述Z矩阵中,所述当前文本文件中各隐含主题变量的出现概率,得到所述当前文本文件的隐含主题特征向量;并根据所述Z矩阵中,各待推荐文本文件中各隐含主题变量的出现概率,分别得到各待推荐文本文件的隐含主题特征向量。
10.如权利要求7所述的系统,其中,所述推荐模块具体包括:
排序单元,用于将计算出的相似度进行大小排序;
选择单元,用于选择出排序在前的设定个数的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐;或者选择出大于设定阈值的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310088575.9A CN103207899B (zh) | 2013-03-19 | 2013-03-19 | 文本文件推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310088575.9A CN103207899B (zh) | 2013-03-19 | 2013-03-19 | 文本文件推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103207899A CN103207899A (zh) | 2013-07-17 |
CN103207899B true CN103207899B (zh) | 2016-12-07 |
Family
ID=48755121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310088575.9A Active CN103207899B (zh) | 2013-03-19 | 2013-03-19 | 文本文件推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103207899B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015036892A (ja) * | 2013-08-13 | 2015-02-23 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
CN104731828B (zh) | 2013-12-24 | 2017-12-05 | 华为技术有限公司 | 一种跨领域文档相似度计算方法及装置 |
CN104978320B (zh) * | 2014-04-02 | 2018-11-02 | 东华软件股份公司 | 一种基于相似度的知识推荐方法和设备 |
CN105095162A (zh) * | 2014-05-19 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 文本相似度确定方法、装置、电子设备及系统 |
CN104102626B (zh) * | 2014-07-07 | 2017-08-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
CN104408036B (zh) * | 2014-12-15 | 2019-01-08 | 北京国双科技有限公司 | 关联话题的识别方法和装置 |
CN104572855A (zh) * | 2014-12-17 | 2015-04-29 | 深圳先进技术研究院 | 一种新闻推荐方法及装置 |
WO2016179755A1 (en) | 2015-05-08 | 2016-11-17 | Microsoft Technology Licensing, Llc. | Mixed proposal based model training system |
CN105956072A (zh) * | 2016-04-29 | 2016-09-21 | 广州优视网络科技有限公司 | 一种应用程序的相关推荐列表的生成方法及装置 |
CN107844493B (zh) * | 2016-09-19 | 2020-12-29 | 博彦泓智科技(上海)有限公司 | 一种文件关联方法及系统 |
CN108021549B (zh) | 2016-11-04 | 2019-08-13 | 华为技术有限公司 | 序列转换方法及装置 |
CN106649557B (zh) * | 2016-11-09 | 2020-10-20 | 北京大学(天津滨海)新一代信息技术研究院 | 一种缺陷报告与邮件列表语义关联挖掘方法 |
CN106776563A (zh) * | 2016-12-21 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种为待译稿件匹配译员的方法 |
CN106844303A (zh) * | 2016-12-23 | 2017-06-13 | 语联网(武汉)信息技术有限公司 | 一种基于相似度匹配算法为待译稿件匹配译员的方法 |
CN106802881A (zh) * | 2016-12-25 | 2017-06-06 | 语联网(武汉)信息技术有限公司 | 一种基于停用词表为待译稿件匹配译员的方法 |
CN106909537B (zh) * | 2017-02-07 | 2020-04-07 | 中山大学 | 一种基于主题模型和向量空间的一词多义分析方法 |
CN107463615B (zh) * | 2017-07-03 | 2020-06-09 | 天津科技大学 | 开放网络中基于上下文和用户兴趣的实时去处推荐方法 |
CN107346344A (zh) * | 2017-07-24 | 2017-11-14 | 北京京东尚科信息技术有限公司 | 文本匹配的方法和装置 |
CN107480241A (zh) * | 2017-08-10 | 2017-12-15 | 北京奇鱼时代科技有限公司 | 一种基于潜在主题的相似企业推荐方法 |
US10705809B2 (en) * | 2017-09-08 | 2020-07-07 | Devfactory Innovations Fz-Llc | Pruning engine |
CN107992542A (zh) * | 2017-11-27 | 2018-05-04 | 中山大学 | 一种基于主题模型的相似文章推荐方法 |
CN109840321B (zh) * | 2017-11-29 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 文本推荐方法、装置及电子设备 |
CN109948121A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 文章相似度挖掘方法、系统、设备及存储介质 |
CN108710613B (zh) * | 2018-05-22 | 2022-04-08 | 平安科技(深圳)有限公司 | 文本相似度的获取方法、终端设备及介质 |
CN109189887A (zh) * | 2018-09-07 | 2019-01-11 | 江苏瑞康安全装备有限公司 | 一种面向移动终端的微博信息推荐方法 |
CN109670114B (zh) * | 2018-12-24 | 2020-10-30 | 成都四方伟业软件股份有限公司 | 制图规则推荐方法及装置 |
CN112270177A (zh) * | 2019-07-08 | 2021-01-26 | 北京奇虎科技有限公司 | 基于内容相似性的新闻封面配图方法、装置及计算设备 |
CN111209480A (zh) * | 2020-01-09 | 2020-05-29 | 上海风秩科技有限公司 | 一种推送文本的确定方法、装置、计算机设备和介质 |
CN111476029A (zh) * | 2020-04-13 | 2020-07-31 | 武汉联影医疗科技有限公司 | 资源推荐方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231634A (zh) * | 2007-12-29 | 2008-07-30 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN101599071A (zh) * | 2009-07-10 | 2009-12-09 | 华中科技大学 | 对话文本主题的自动提取方法 |
CN101650729A (zh) * | 2009-09-23 | 2010-02-17 | 北京赛柏科技有限责任公司 | 一种Web服务构件库动态构造方法及其服务检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8122043B2 (en) * | 2009-06-30 | 2012-02-21 | Ebsco Industries, Inc | System and method for using an exemplar document to retrieve relevant documents from an inverted index of a large corpus |
-
2013
- 2013-03-19 CN CN201310088575.9A patent/CN103207899B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231634A (zh) * | 2007-12-29 | 2008-07-30 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN101599071A (zh) * | 2009-07-10 | 2009-12-09 | 华中科技大学 | 对话文本主题的自动提取方法 |
CN101650729A (zh) * | 2009-09-23 | 2010-02-17 | 北京赛柏科技有限责任公司 | 一种Web服务构件库动态构造方法及其服务检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103207899A (zh) | 2013-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103207899B (zh) | 文本文件推荐方法及系统 | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN103678564B (zh) | 一种基于数据挖掘的互联网产品调研系统 | |
US8874581B2 (en) | Employing topic models for semantic class mining | |
CN103473280B (zh) | 一种网络可比语料的挖掘方法 | |
CN103699521B (zh) | 文本分析方法及装置 | |
CN103116582B (zh) | 一种信息检索方法及相关系统和装置 | |
CN103049470B (zh) | 基于情感相关度的观点检索方法 | |
CN105868185A (zh) | 一种购物评论情感分析中基于词性标注的词典构建方法 | |
CN102081627B (zh) | 一种确定词语在文本中的贡献度的方法及系统 | |
CN106802915A (zh) | 一种基于用户行为的学术资源推荐方法 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
CN104462327B (zh) | 语句相似度的计算、搜索处理方法及装置 | |
CN101582080A (zh) | 一种基于图像和文本相关性挖掘的Web图像聚类方法 | |
CN102929873A (zh) | 一种基于情境搜索提取搜索价值词的方法及装置 | |
CN102289514B (zh) | 社会标签自动标注的方法以及社会标签自动标注器 | |
CN106227714A (zh) | 一种基于人工智能的获取生成诗词的关键词的方法和装置 | |
CN109255012A (zh) | 一种机器阅读理解的实现方法以及装置 | |
CN106202065A (zh) | 一种跨语言话题检测方法及系统 | |
Yeom et al. | Unsupervised-learning-based keyphrase extraction from a single document by the effective combination of the graph-based model and the modified C-value method | |
CN104462408A (zh) | 一种基于主题建模的多粒度情感分析方法 | |
Hadj Taieb et al. | Fm3s: Features-based measure of sentences semantic similarity | |
CN102063497B (zh) | 一种开放式知识共享平台及其词条处理方法 | |
CN103455619A (zh) | 一种基于Lucene分片结构的打分处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230427 Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193 Patentee after: Sina Technology (China) Co.,Ltd. Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor Patentee before: Sina.com Technology (China) Co.,Ltd. |