CN108021713A - 一种文档聚类的方法和装置 - Google Patents

一种文档聚类的方法和装置 Download PDF

Info

Publication number
CN108021713A
CN108021713A CN201711466720.7A CN201711466720A CN108021713A CN 108021713 A CN108021713 A CN 108021713A CN 201711466720 A CN201711466720 A CN 201711466720A CN 108021713 A CN108021713 A CN 108021713A
Authority
CN
China
Prior art keywords
user
destination document
information
document
user behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711466720.7A
Other languages
English (en)
Other versions
CN108021713B (zh
Inventor
王志华
宋华
李雪
查强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201711466720.7A priority Critical patent/CN108021713B/zh
Publication of CN108021713A publication Critical patent/CN108021713A/zh
Application granted granted Critical
Publication of CN108021713B publication Critical patent/CN108021713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文档聚类的方法和装置,上述方法包括:获取待聚类的各目标文档的对应的用户行为信息,根据用户行为信息,确定每一目标文档的目标用户,将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,可以输出每一目标文档属于每一类别的第一概率。利用本发明实施例的方法,可以根据文档标识与目标用户的对应关系对目标文档进行聚类,避免目标文档包含的词语较少,和分词的准确度低导致的文档聚类的准确度低的问题,进而提高文档聚类的准确度。

Description

一种文档聚类的方法和装置
技术领域
本发明涉及文本分析技术领域,特别是涉及一种文档聚类的方法和装置。
背景技术
一个文档通常可以属于多个类别,例如,一个关于教育的文档所属的类别为教育类,如果该文档主要介绍的是艺术教育,该文档所属的类别还可以包括艺术类。对文档进行聚类分析,可以获得文档属于不同类别的概率,进而可以实现文档的推荐和搜索。现有的文档聚类步骤如下:首先对各目标文档进行分词,获得每个目标文档包含的词语;然后计算每个目标文档中各词语出现的概率;根据计算得到的概率,利用LDA(Latent DirichletAllocation,潜在狄利克雷分配模型)等聚类分析模型进行训练学习。LDA可以根据预设的类别的数目,计算每一目标文档属于预设的每一类别的概率。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
利用LDA等聚类分析模型进行训练学习,要求每一目标文档都包含尽量多的词语。当目标文档的文本长度较短时,对目标文档进行分词,得到的目标文档包含的词语较少,或者分词的准确度较低,都会导致获得的每一目标文档属于预设的每一类别的概率的不够准确,即文档聚类的准确度低。
发明内容
本发明实施例的目的在于提供一种文档聚类的方法、装置、电子设备及计算机可读存储介质,以提高文档聚类的准确度。具体技术方案如下:
第一方面,为了达到上述目的,本发明实施例公开了一种文档聚类的方法,上述方法包括:
获取待聚类的各目标文档对应的用户行为信息;
根据所述用户行为信息,确定每一目标文档的目标用户;
将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。
可选的,所述方法还包括:获取所述用户行为信息对应的用户行为时间;
所述根据所述用户行为信息,确定每一目标文档的目标用户,包括:
针对每一目标文档,根据所述用户行为信息对应的用户行为时间,确定用户行为时间与当前时间最接近的预设的第一数目个目标用户。
可选的,所述用户行为信息包含以下信息之一或任意组合:用户浏览信息、用户收藏信息、用户分享信息和用户评论信息。
可选的,在所述用户行为信息包含用户浏览信息、用户收藏信息、用户分享信息和用户评论信息时,所述根据所述用户行为信息,确定每一目标文档的目标用户,包括:
针对每一目标文档,根据该目标文档对应的用户浏览信息确定该目标文档的浏览用户;
根据该目标文档对应的用户收藏信息确定该目标文档的收藏用户;
根据该目标文档对应的用户分享信息确定该目标文档的分享用户;
根据该目标文档对应的用户评论信息确定该目标文档的评论用户;
将所述浏览用户、所述收藏用户、所述分享用户和所述评论用户,确定为该目标文档的目标用户。
可选的,在所述将所述各目标文档的文档标识与所述目标用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型之后,所述方法还包括:
输出每一所述目标用户属于每一所述类别的第二概率;
根据所述第一概率和所述第二概率,利用预设的关联算法,计算每一所述目标用户与每一目标文档的关联度。
第二方面,为达到上述目的,本发明实施例公开了一种文档聚类的装置,上述装置包括:
第一获取模块,用于获取待聚类的各目标文档对应的用户行为信息;
确定模块,用于根据所述用户行为信息,确定每一目标文档的目标用户;
输出模块,用于将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。
可选的,所述装置还包括:
第二获取模块,用于获取所述用户行为信息对应的用户行为时间;
所述确定模块,具体用于针对每一目标文档,根据所述用户行为信息对应的用户行为时间,确定用户行为时间与当前时间最接近的预设的第一数目个目标用户。
可选的,所述用户行为信息包含以下信息之一或任意组合:用户浏览信息、用户收藏信息、用户分享信息和用户评论信息。
可选的,在所述用户行为信息包含用户浏览信息、用户收藏信息、用户分享信息和用户评论信息时,所述确定模块,具体用于针对每一目标文档,根据该目标文档对应的用户浏览信息确定该目标文档的浏览用户;
根据该目标文档对应的用户收藏信息确定该目标文档的收藏用户;
根据该目标文档对应的用户分享信息确定该目标文档的分享用户;
根据该目标文档对应的用户评论信息确定该目标文档的评论用户;
将所述浏览用户、所述收藏用户、所述分享用户和所述评论用户,确定为该目标文档的目标用户。
可选的,所述装置还包括:
计算模块,用于输出每一所述目标用户属于每一所述类别的第二概率;
根据所述第一概率和所述第二概率,利用预设的关联算法,计算每一所述目标用户与每一目标文档的关联度。
在本发明实施的另一方面,为了达到上述目的,本发明实施例还公开了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现如上述第一方面所述的文档聚类的方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,实现如上述第一方面所述的文档聚类的方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的文档聚类的方法。
本发明实施例提供的一种文档聚类的方法、装置、电子设备及计算机可读存储介质,上述方法包括:获取待聚类的各目标文档的对应的用户行为信息,根据用户行为信息,确定每一目标文档的目标用户,将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,可以输出每一目标文档属于每一类别的第一概率。基于上述处理,可以根据目标文档的文档标识与目标用户的对应关系对目标文档进行聚类,避免目标文档包含的词语较少,和分词的准确度低导致的文档聚类的准确度低的问题,进而提高文档聚类的准确度。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种文档聚类的方法的流程图;
图2为本发明实施例提供的一种确定目标用户的方法的流程图;
图3为本发明实施例提供的一种文档聚类的装置的结构图;
图4为本发明实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了更有效地实现目标文档的推荐和搜索,可以对各目标文档进行聚类分析,以获得每一目标文档属于预设的每一类别的概率。现有技术利用LDA等聚类分析模型对各目标文档进行聚类分析时,要求每一目标文档都包含尽量多的词语。当目标文档的文本长度较短时,或者分词的准确度较低时,都会导致获得的每一目标文档属于预设的每一类别的概率不够准确。
基于上述考虑,本发明申请提供了一种文档聚类的方法、装置、电子设备及计算机可读存储介质。上述方法可以应用于服务器,也可以应用于终端。本实施例以该方法应用于服务器为例进行说明,其他情况与之类似。服务器可以根据用户对于各目标文档的用户行为信息,确定每一目标文档的目标用户。服务器可以将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率。而一个文档标识对应的目标用户的数量较大,可以避免目标文档包含的词语较少,和分词的准确度低导致的文档聚类的准确度低的问题,进而提高文档聚类的准确度。
下面再通过具体实施例对本发明进行详细介绍。
参见图1,图1为本发明实施例提供的一种文档聚类的方法的流程图,包括:
S101:获取待聚类的各目标文档对应的用户行为信息。
一种实现方式中,用户可以使用终端访问服务器,以对服务器中的目标文档进行操作,终端则会发送数据报文至服务器,其中,数据报文中可以包含用户行为信息。服务器可以解析该数据报文,记录并存储用户行为信息。技术人员可以在服务器上选择执行文档聚类,服务器则可以接收文档聚类指令,其中,该文档聚类指令中可以携带有待聚类的各目标文档的文档标识。文档标识可以是服务器预先为每一目标文档生成的唯一的标识。服务器可以解析该文档聚类指令,获得各文档标识,进而可以根据获得的各文档标识,在服务器存储的用户行为信息中搜索,获得各目标文档对应的用户行为信息。具体的,某一用户的用户行为信息可以包含该用户的用户标识,以及该用户对该目标文档的用户行为的类型。用户标识可以是用户访问服务器所使用账号的账号名称,也可以是用户在服务器注册账号时使用的手机号码。用户行为的类型可以包括:用户浏览文档、用户收藏文档、用户分享文档、用户评论文档或用户屏蔽文档。
其中,一个用户针对某一目标文档的用户行为信息可以只包含一种类型的用户行为,也可以包含多种类型的用户行为。示例性的,用户A只浏览了目标文档X。服务器获得的针对目标文档X的用户行为信息包含:用户A的用户标识和用户A浏览目标文档X。如果用户A浏览了目标文档X后,并评论了目标文档X。服务器获得的针对目标文档X的用户行为信息包含:用户A的用户标识、用户A浏览目标文档X和用户A评论目标文档X。
另外,服务器获得的针对某一目标文档的用户行为信息可以包含多个用户的用户行为信息。示例性的,用户A在浏览了目标文档X后,评论了目标文档X。用户B在浏览了目标文档X后,收藏了目标文档X。服务器获得的针对目标文档X的用户行为信息可以包含:用户A的用户标识、用户A评论目标文档X、用户B的用户标识和用户B收藏目标文档X。
S102:根据用户行为信息,确定每一目标文档的目标用户。
一种实现方式中,针对每一目标文档,服务器可以根据该目标文档对应的用户行为信息中的用户行为的类型,判断用户行为信息中的某一用户行为的类型是否为预设的行为类型。如果用户行为信息中的某一用户行为的类型为预设的行为类型,服务器可以将该用户行为所属的用户作为该目标文档的目标用户。其中,预设的行为类型可以为用户浏览文档、用户收藏文档、用户分享文档或用户评论文档。
S103:将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的类聚分析模型进行训练,输出每一目标文档属于每一类别的第一概率。
其中,样本文档可以包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,样本用户可以包括样本文档对应的用户。示例性的,服务器在第一次文档聚类时采用了文档1、文档2、文档3和文档4。服务器在第二次文档聚类时的待聚类的文档为文档5和文档6,此时,样本文档包括文档1、文档2、文档3、文档4、文档5和文档6。服务器在第三次文档聚类时的待聚类文档为文档7,此时样本文档包括文档1、文档2、文档3、文档4、文档5、文档6和文档7。预设的聚类分析模型可以是LDA聚类分析模型、PLSA(Probabilistic LatentSemantic Analysis)聚类分析模型或现有技术中的其他聚类分析模型,本实施例不做限定。其中,LDA分析模型是一种非监督机器学习模型,LDA聚类分析模型可以根据各目标文档的文档标识与分词生成的词语的对应关系、以及预设的类别数目进行训练,输出每一目标文档属于每一类别的概率。
一种实现方式中,针对每一目标文档,服务器可以用该目标文档的目标用户代替该目标文档包含的词语。在每次文档聚类时,服务器可以将本次待聚类的各目标文档和上一次文档聚类时采用的文档的文档标识和用户的用户标识的对应关系、以及预设的类别数目,输入至预设的聚类分析模型进行训练。当聚类分析模型达到预设的收敛条件时,服务器可以输出每一目标文档的文档标识属于每一类别的概率(即第一概率)。
示例性的,目标文档X的文档标识可以为doc1,目标文档Y的文档标识可以为doc2,目标文档Z的文档标识可以为doc3。用户A的用户标识可以为use1,用户B的用户标识可以为use2,用户C的用户标识可以为use3,用户D的用户标识可以为use4,用户E的用户标识可以为use5,用户F的用户标识可以为use6。目标文档X的目标用户可以为用户A、用户C和用户F,目标文档Y的目标用户可以为用户A、用户B和用户D,目标文档Z的目标用户可以为用户B、用户E和用户F。服务器得到的对应关系可以包括:doc1对应use1、use3和use6;doc2对应use1、use2和use4;doc3对应use2、use5和use6。需要说明的是,针对每一目标文档,此处仅以每一目标文档对应三个目标用户为例进行说明,而在实际操作中,针对每一目标文档,服务器通常会确定出较多的目标用户,且各目标文档的目标用户的数目可以相同,也可以不相同。
相应的,类别数目可以为3,预设的类别可以包括:类别1、类别2和类别3。服务器根据聚类分析模型可以得到:doc1属于类别1的概率为70%,doc1属于类别2的概率为20%,doc1属于类别3的概率为10%;doc2属于类别1的概率为40%,doc2属于类别2的概率为20%,doc2属于类别3的概率为40%;doc3属于类别1的概率为50%,doc3属于类别2的概率为20%,doc3属于类别3的概率为30%。
由上述可见,基于本发明实施例提供的文档聚类的方法,服务器可以根据用户行为信息,确定各目标文档的文档标识与目标用户的对应关系,利用预设的聚类分析模型进行训练,可以输出每一目标文档属于每一类别的第一概率。基于上述处理,可以避免目标文档包含的词语较少,和分词的准确度低导致的文档聚类的准确度低的问题,进而提高文档聚类的准确度。
在本发明实施例中,服务器还可以根据用户行为信息对应的用户行为时间确定目标用户。具体的,上述处理步骤还可以包括:获取用户行为信息对应的用户行为时间。针对每一目标文档,根据用户行为信息对应的用户行为时间,确定用户行为时间与当前时间最接近的预设的第一数目个目标用户。
一种实现方式中,服务器还可以获取各目标文档对应的用户行为信息对应的用户行为时间。具体的,上述数据报文中可以包含用户使用终端发出用户行为的时间(即用户行为时间)。服务器可以解析该数据报文,记录并存储该用户行为时间,作为该用户行为所属的用户行为信息对应的用户行为时间。
针对每一目标文档,服务器可以首先根据用户行为信息,确定用户行为类型为预设的行为类型的初始用户。然后,服务器可以判断确定的初始用户的数目是否大于第一数目。其中,第一数目可以由技术人员根据经验设置。如果初始用户的数目大于第一数目,服务器可以根据用户行为时间的先后顺序,对确定出的初始用户的用户行为进行排序。服务器可以根据排序的结果,将用户行为时间与当前时间最近的第一数目个初始用户作为目标用户。具体的,如果一个初始用户对应多个用户行为时间,则根据与当前时间最近的用户行为时间确定目标用户。另外,如果确定出的某一目标文档的初始用户的数量小于第一数目,服务器可以将该目标文档的全部初始用户确定为该目标文档的目标用户。基于上述处理,可以保证每一目标文档的目标用户的数目不大于第一数目,可以有效地降低数据量,提高文档聚类的效率。
示例性的,第一数目可以为3。针对目标文档X,服务器根据用户行为类型确定出的初始用户可以包括用户A、用户B、用户C、用户D和用户E。其中,用户A的用户行为时间可以为2017年1月1号8点,用户B的用户行为时间可以为2017年1月1号9点,用户C的用户行为时间可以为2017年1月1号10点,用户D的用户行为时间可以为2017年1月1号11点,用户E的用户行为时间可以为2017年1月1号12点。根据用户行为时间,服务器可以确定出用户C、用户D和用户E为目标文档X的目标用户。
由上述可见,基于本发明实施例提供的文档聚类的方法,服务器可以根据用户行为信息和对应的用户行为时间,确定出各目标文档的目标用户。这样,针对每一目标文档,服务器可以确定该目标文档的目标用户为最近发出用户行为的用户,且每一目标文档的目标用户的数目不大于第一数目,能够提高数据的实时有效性和文档聚类的效率。
在本发明实施例中,服务器获得的用户行为信息可以包含以下信息之一或任意组合:用户浏览信息、用户收藏信息、用户分享信息和用户评论信息。
一种实现方式中,服务器接收到的用户行为可以包括以下用户行为之一或任意组合:用户浏览该目标文档、用户收藏该目标文档、用户分享该目标文档和用户评论该目标文档。
示例性的,如果用户行为信息包含用户浏览信息,针对每一目标文档,服务器可以根据用户浏览信息中包含的用户标识,确定出浏览该目标文档的用户,作为目标用户。如果用户行为信息包含用户浏览信息和用户收藏信息,针对每一目标文档,服务器可以根据用户浏览信息和用户收藏信息中包含的用户标识,确定出浏览该目标文档的用户和收藏该目标文档的用户,作为目标用户,也可以根据用户浏览信息和用户收藏信息中包含的用户标识,确定出既浏览了该目标文档又收藏了该目标文档的用户,作为目标用户。
由上述可见,基于本发明实施例提供的文档聚类的方法,服务器可以根据不同的用户行为或组合确定出目标文档的目标用户,提高文档聚类的灵活性。
在本发明实施例中,服务器可以根据用户浏览信息、用户收藏信息、用户分享信息和用户评论信息确定目标文档的目标用户。具体的,参见图2,图2为本发明实施例提供的一种确定目标用户的方法流程图,包括:
S201:针对每一目标文档,根据该目标文档对应的用户浏览信息确定该目标文档的浏览用户,根据该目标文档对应的用户收藏信息确定该目标文档的收藏用户,根据该目标文档对应的用户分享信息确定该目标文档的分享用户,根据该目标文档对应的用户评论信息确定该目标文档的评论用户。
一种实现方式中,针对每一目标文档,服务器可以根据该目标文档对应的用户浏览信息中的用户标识,确定出浏览该目标文档的用户,作为浏览用户。服务器可以根据该目标文档对应的用户收藏信息中的用户标识,确定出收藏该目标文档的用户,作为收藏用户。服务器可以根据该目标文档对应的用户分享信息中的用户标识,确定出分享该目标文档的用户,作为分享用户。服务器可以根据该目标文档对应的用户评论信息中的用户标识,确定出评论该目标文档的用户,作为评论用户。其中,针对每一目标文档,某一用户既可以是该目标文档的浏览用户,也可以是该目标文档的收藏用户,也可以是该目标文档的分享用户,还可以是该目标文档的评论用户。
S202:将浏览用户、收藏用户、分享用户和评论用户,确定为该目标文档的目标用户。
一种实现方式中,针对每一目标文档,服务器可以统计该目标文档的浏览用户、收藏用户、分享用户和评论用户,将上述所有用户作为该目标文档的目标用户。
由上述可见,基于本发明实施例提供的文档聚类的方法,服务器可以将每一目标文档的浏览用户、收藏用户、分享用户和评论用户,确定为该目标文档的目标用户。这样,服务器可以根据用户行为确定目标用户,确定的目标用户可以为对目标文档感兴趣的用户,而目标用户的兴趣可以集中体现出目标文档所属的类别,进而可以提高文档聚类的准确度。
在本发明实施例中,服务器还可以确定出每一类别与每一目标用户的关系。具体的,在将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练之后,上述方法还可以包括:输出每一目标用户属于每一类别的第二概率。根据第一概率和第二概率,利用预设的关联算法,计算每一目标用户与每一目标文档的关联度。
一种实现方式中,服务器可以输出每一用户标识,以及每一用户标识属于每一类别的标识的概率(即第二概率)。其中,用户标识可以是目标用户发出用户行为所使用的终端的身份标识号ID。终端的ID可以是目标用户所使用的手机的序列号,也可以是目标用户所使用的电脑的序列号,类别的标识可以是预设的类别的序号。
示例性的,预设的类别可以包括:类别1、类别2和类别3。目标文档X的文档标识可以为doc1,目标文档Y的文档标识可以为doc2,目标文档Z的文档标识可以为doc3。用户A的用户标识可以为use1,用户B的用户标识可以为use2,用户C的用户标识可以为use3,用户D的用户标识可以为use4,用户E的用户标识可以为use5,用户F的用户标识可以为use6。对应关系可以包括:doc1对应use1、use3和use6;doc2对应use1、use2和use4;doc3对应use2、use5和use6。服务器可以输出:use1属于类别1的概率为40%,use2属于类别1的概率为10%,use4属于类别1的概率为40%;use2属于类别2的概率为30%,use3属于类别2的概率为40%,use6属于类别2的概率为30%;use2属于类别3的概率为30%,use3属于类别3的概率为10%,use5属于类别3的概率为30%,use6属于类别3的概率为30%。
针对每一目标文档,服务器可以将该目标文档属于某一类别的第一概率和该类别包含某一用户标识的第二概率的乘积,作为在该类别下该目标文档与该用户标识关联的概率,然后对所有类别下该目标文档与该用户标识关联的概率求和,得到该目标文档与该用户标识所属的目标用户的关联度。
示例性的,第一概率可以包括:doc1属于类别1的概率为70%,doc1属于类别2的概率为20%,doc1属于类别3的概率为10%;doc2属于类别1的概率为40%,doc2属于类别2的概率为20%,doc2属于类别3的概率为40%;doc3属于类别1的概率为50%,doc3属于类别2的概率为20%,doc3属于类别3的概率为30%。第二概率可以包括:use1属于类别1的概率为40%,use2属于类别1的概率为10%,use4属于类别1的概率为40%;use2属于类别2的概率为30%,use3属于类别2的概率为40%,use6属于类别2的概率为30%;use2属于类别3的概率为30%,use3属于类别3的概率为10%,use5属于类别3的概率为30%,use6属于类别3的概率为30%。
在类别1下,doc1与use1关联的概率可以为70%×40%=28%;在类别2下,doc1与use1关联的概率可以为0;在类别3下,doc1与use1关联的概率可以为0,可以得出目标文档doc1与用户use1的关联度为28%+0+0=0.28。
由上述可见,基于本发明实施例提供的文档聚类的方法,服务器可以输出每一目标用户与每一目标文档的关联度,进而可以根据关联度,提高目标文档推荐的准确度。
与上述方法实施例相对应,参见图3,图3为本发明实施例提供的一种文档聚类的装置的结构图,包括:
第一获取模块301,用于获取待聚类的各目标文档对应的用户行为信息;
确定模块302,用于根据所述用户行为信息,确定每一目标文档的目标用户;
输出模块303,用于将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。
在本发明实施例中,所述装置还可以包括:
第二获取模块,用于获取所述用户行为信息对应的用户行为时间;
所述确定模块302,具体用于针对每一目标文档,根据所述用户行为信息对应的用户行为时间,确定用户行为时间与当前时间最接近的预设的第一数目个目标用户。
在本发明实施例中,所述用户行为信息包含以下信息之一或任意组合:用户浏览信息、用户收藏信息、用户分享信息和用户评论信息。
在本发明实施例中,在所述用户行为信息包含用户浏览信息、用户收藏信息、用户分享信息和用户评论信息时,所述确定模块,具体用于针对每一目标文档,根据该目标文档对应的用户浏览信息确定该目标文档的浏览用户;
根据该目标文档对应的用户收藏信息确定该目标文档的收藏用户;
根据该目标文档对应的用户分享信息确定该目标文档的分享用户;
根据该目标文档对应的用户评论信息确定该目标文档的评论用户;
将所述浏览用户、所述收藏用户、所述分享用户和所述评论用户,确定为该目标文档的目标用户。
在本发明实施例中,所述装置还可以包括:
计算模块,用于输出每一所述目标用户属于每一所述类别的第二概率;
根据所述第一概率和所述第二概率,利用预设的关联算法,计算每一所述目标用户与每一目标文档的关联度。
由上述可以看出,基于本发明实施例提供的文档聚类的装置,可以根据用户行为信息,确定各目标文档的文档标识与目标用户的对应关系,利用预设的聚类分析模型可以输出每一目标文档属于每一类别的第一概率。基于上述处理,可以避免目标文档进行包含的词语较少,和分词的准确度低导致的文档聚类的准确度低的问题,进而提高文档聚类的准确度。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取待聚类的各目标文档对应的用户行为信息;
根据所述用户行为信息,确定每一目标文档的目标用户;
将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。
上述电子设备提到的通信总线404可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口402用于上述电子设备与其他设备之间的通信。
存储器403可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器403还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器401可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的电子设备,在进行文档聚类时,可以根据文档标识与目标用户的对应关系对目标文档进行聚类,避免目标文档包含的词语较少,和分词的准确度低导致的文档聚类的准确度低的问题,进而提高文档聚类的准确度。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行本发明实施例提供的文档聚类的方法。
具体的,上述文档聚类的方法,包括:
获取待聚类的各目标文档对应的用户行为信息;
根据所述用户行为信息,确定每一目标文档的目标用户;
将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。
需要说明的是,上述文档聚类的方法的其他实现方式与前述方法实施例部分相同,这里不再赘述。
通过运行本发明实施例提供的计算机可读存储介质中存储的指令,在进行文档聚类时,可以根据文档标识与目标用户的对应关系对目标文档进行聚类,避免目标文档包含的词语较少,和分词的准确度低导致的文档聚类的准确度低的问题,进而提高文档聚类的准确度。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本发明实施例提供的文档聚类的方法。
具体的,上述文档聚类的方法,包括:
获取待聚类的各目标文档对应的用户行为信息;
根据所述用户行为信息,确定每一目标文档的目标用户;
将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。
需要说明的是,上述文档聚类的方法的其他实现方式与前述方法实施例部分相同,这里不再赘述。
通过运行本发明实施例提供的计算机程序产品,在进行文档聚类时,可以根据文档标识与目标用户的对应关系对目标文档进行聚类,避免目标文档包含的词语较少,和分词的准确度低导致的文档聚类的准确度低的问题,进而提高文档聚类的准确度。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (12)

1.一种文档聚类的方法,其特征在于,所述方法包括:
获取待聚类的各目标文档对应的用户行为信息;
根据所述用户行为信息,确定每一目标文档的目标用户;
将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述用户行为信息对应的用户行为时间;
所述根据所述用户行为信息,确定每一目标文档的目标用户,包括:
针对每一目标文档,根据所述用户行为信息对应的用户行为时间,确定用户行为时间与当前时间最接近的预设的第一数目个目标用户。
3.根据权利要求1所述的方法,其特征在于,所述用户行为信息包含以下信息之一或任意组合:用户浏览信息、用户收藏信息、用户分享信息和用户评论信息。
4.根据权利要求3所述的方法,其特征在于,在所述用户行为信息包含用户浏览信息、用户收藏信息、用户分享信息和用户评论信息时,所述根据所述用户行为信息,确定每一目标文档的目标用户,包括:
针对每一目标文档,根据该目标文档对应的用户浏览信息确定该目标文档的浏览用户;
根据该目标文档对应的用户收藏信息确定该目标文档的收藏用户;
根据该目标文档对应的用户分享信息确定该目标文档的分享用户;
根据该目标文档对应的用户评论信息确定该目标文档的评论用户;
将所述浏览用户、所述收藏用户、所述分享用户和所述评论用户,确定为该目标文档的目标用户。
5.根据权利要求1所述的方法,其特征在于,在所述将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练之后,所述方法还包括:
输出每一所述目标用户属于每一所述类别的第二概率;
根据所述第一概率和所述第二概率,利用预设的关联算法,计算每一所述目标用户与每一目标文档的关联度。
6.一种文档聚类的装置,其特征在于,所述装置包括:
第一获取模块,用于获取待聚类的各目标文档对应的用户行为信息;
确定模块,用于根据所述用户行为信息,确定每一目标文档的目标用户;
输出模块,用于将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述用户行为信息对应的用户行为时间;
所述确定模块,具体用于针对每一目标文档,根据所述用户行为信息对应的用户行为时间,确定用户行为时间与当前时间最接近的预设的第一数目个目标用户。
8.根据权利要求6所述的装置,其特征在于,所述用户行为信息包含以下信息之一或任意组合:用户浏览信息、用户收藏信息、用户分享信息和用户评论信息。
9.根据权利要求8所述的装置,其特征在于,在所述用户行为信息包含用户浏览信息、用户收藏信息、用户分享信息和用户评论信息时,所述确定模块,具体用于针对每一目标文档,根据该目标文档对应的用户浏览信息确定该目标文档的浏览用户;
根据该目标文档对应的用户收藏信息确定该目标文档的收藏用户;
根据该目标文档对应的用户分享信息确定该目标文档的分享用户;
根据该目标文档对应的用户评论信息确定该目标文档的评论用户;
将所述浏览用户、所述收藏用户、所述分享用户和所述评论用户,确定为该目标文档的目标用户。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
计算模块,用于输出每一所述目标用户属于每一所述类别的第二概率;
根据所述第一概率和所述第二概率,利用预设的关联算法,计算每一所述目标用户与每一目标文档的关联度。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN201711466720.7A 2017-12-28 2017-12-28 一种文档聚类的方法和装置 Active CN108021713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711466720.7A CN108021713B (zh) 2017-12-28 2017-12-28 一种文档聚类的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711466720.7A CN108021713B (zh) 2017-12-28 2017-12-28 一种文档聚类的方法和装置

Publications (2)

Publication Number Publication Date
CN108021713A true CN108021713A (zh) 2018-05-11
CN108021713B CN108021713B (zh) 2022-01-21

Family

ID=62072301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711466720.7A Active CN108021713B (zh) 2017-12-28 2017-12-28 一种文档聚类的方法和装置

Country Status (1)

Country Link
CN (1) CN108021713B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472322A (zh) * 2018-12-04 2019-03-15 东软集团股份有限公司 基于聚类的分类方法、装置、存储介质和电子设备
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112036176A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 文本聚类方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法
CN102279887A (zh) * 2011-08-18 2011-12-14 北京百度网讯科技有限公司 一种文档分类方法、装置及系统
CN102737027A (zh) * 2011-04-01 2012-10-17 腾讯科技(深圳)有限公司 个性化搜索方法及系统
US8977620B1 (en) * 2011-12-27 2015-03-10 Google Inc. Method and system for document classification
CN106095845A (zh) * 2016-06-02 2016-11-09 腾讯科技(深圳)有限公司 文本分类方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法
CN102737027A (zh) * 2011-04-01 2012-10-17 腾讯科技(深圳)有限公司 个性化搜索方法及系统
CN102279887A (zh) * 2011-08-18 2011-12-14 北京百度网讯科技有限公司 一种文档分类方法、装置及系统
US8977620B1 (en) * 2011-12-27 2015-03-10 Google Inc. Method and system for document classification
CN106095845A (zh) * 2016-06-02 2016-11-09 腾讯科技(深圳)有限公司 文本分类方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472322A (zh) * 2018-12-04 2019-03-15 东软集团股份有限公司 基于聚类的分类方法、装置、存储介质和电子设备
CN109472322B (zh) * 2018-12-04 2020-11-27 东软集团股份有限公司 基于聚类的分类方法、装置、存储介质和电子设备
CN112036176A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 文本聚类方法及装置
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN111753060B (zh) * 2020-07-29 2023-09-26 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN108021713B (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
Schouten et al. Supervised and unsupervised aspect category detection for sentiment analysis with co-occurrence data
CN104090919B (zh) 推荐广告的方法及广告推荐服务器
KR102092691B1 (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
US10885131B2 (en) System and method for temporal identification of latent user communities using electronic content
US8990241B2 (en) System and method for recommending queries related to trending topics based on a received query
CN103886068B (zh) 用于互联网用户行为分析的数据处理方法和装置
CN109948121A (zh) 文章相似度挖掘方法、系统、设备及存储介质
CN107330613A (zh) 一种舆情监控方法、设备及计算机可读存储介质
US20140108190A1 (en) Recommending product information
CN107784066A (zh) 信息推荐方法、装置、服务器及存储介质
US20130110823A1 (en) System and method for recommending content based on search history and trending topics
CN104298679A (zh) 应用业务推荐方法及装置
CN109409928A (zh) 一种素材推荐方法、装置、存储介质、终端
CN103838756A (zh) 一种确定推送信息的方法及装置
EP2827294A1 (en) Systems and method for determining influence of entities with respect to contexts
US20130198240A1 (en) Social Network Analysis
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
JP2013171500A (ja) 分析装置、分析方法及び分析プログラム
CN107908616B (zh) 预测趋势词的方法和装置
Tu et al. Community-enhanced network representation learning for network analysis
CN106227834A (zh) 多媒体资源的推荐方法及装置
CN107818334A (zh) 一种移动互联网用户访问模式表征和聚类方法
CN108021713A (zh) 一种文档聚类的方法和装置
CN106354867A (zh) 多媒体资源的推荐方法及装置
CN110222074A (zh) 索引查找方法、查找装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant