CN110309188A - 内容聚类方法及装置 - Google Patents

内容聚类方法及装置 Download PDF

Info

Publication number
CN110309188A
CN110309188A CN201810190779.6A CN201810190779A CN110309188A CN 110309188 A CN110309188 A CN 110309188A CN 201810190779 A CN201810190779 A CN 201810190779A CN 110309188 A CN110309188 A CN 110309188A
Authority
CN
China
Prior art keywords
content
vector
category
class
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810190779.6A
Other languages
English (en)
Inventor
刘荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Youku Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youku Network Technology Beijing Co Ltd filed Critical Youku Network Technology Beijing Co Ltd
Priority to CN201810190779.6A priority Critical patent/CN110309188A/zh
Publication of CN110309188A publication Critical patent/CN110309188A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及内容聚类方法及装置。该方法包括:获取多组用户行为数据;分别确定每组用户行为数据对应的内容序列;将内容序列输入第一模型中,输出内容序列中的各个内容的向量,其中,第一模型用于使内容序列中相邻内容的向量之间的距离接近;根据内容的向量,对内容进行聚类,确定各个内容所属的类别。本公开能够自动进行内容聚类,无需人工进行内容聚类,节省了人力,易于对大量的内容进行聚类,并能更好地挖掘内容之间的相似度,保证同一类别的内容之间具有高相似度,另外,基于用户行为数据对应的内容序列进行内容聚类,对于长尾效应的曲线尾端的内容仍然能够挖掘到与其他内容之间的相似性,从而能够进一步提高内容聚类的准确性。

Description

内容聚类方法及装置
技术领域
本公开涉及信息技术领域,尤其涉及一种内容聚类方法及装置。
背景技术
相关技术中,通过人工对视频等内容进行聚类,得到各个类别的内容。这种人工进行内容聚类的方式需要耗费大量人力,且所得到的各个类别中内容之间的相似度难以得到保证。
发明内容
有鉴于此,本公开提出了一种内容聚类方法及装置。
根据本公开的一方面,提供了一种内容聚类方法,包括:
获取多组用户行为数据;
对于每一组用户行为数据,分别确定所述用户行为数据对应的内容序列;
将所述内容序列输入第一模型中,输出所述内容序列中的各个内容的向量,其中,所述第一模型用于使内容序列中相邻内容的向量之间的距离接近;
根据内容的向量,对内容进行聚类,确定各个内容所属的类别。
在一种可能的实现方式中,在将所述内容序列输入第一模型中之前,所述方法还包括:
确定用于训练所述第一模型的滑动窗口尺寸;
根据所述滑动窗口尺寸,从训练序列中提取训练样本对,其中,每组训练样本对包括输入样本和输出样本;
根据训练样本对训练所述第一模型,得到所述第一模型的隐层的参数。
在一种可能的实现方式中,根据内容的向量,对内容进行聚类,确定各个内容所属的类别,包括:
随机选取K个内容作为类中心,其中,K为大于1的整数,且K小于内容的总数;
确定类中心以外的各个内容的向量与各个类中心的向量之间的距离;
将类中心以外的各个内容归类至距离最近的类中心对应的类,得到归类结果;
重新确定各个类的类中心;
若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离满足第一条件,则根据上一次得到的归类结果确定各个内容所属的类别;
若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离不满足所述第一条件,则对本次确定的类中心以外的各个内容重新进行归类。
在一种可能的实现方式中,在确定各个内容所属的类别之后,所述方法还包括:
若第一类别和第二类别中的内容的相似度满足第二条件,则合并所述第一类别和所述第二类别。
在一种可能的实现方式中,在确定各个内容所属的类别之后,所述方法还包括:
确定所述第一类别和所述第二类别的交集中的第一内容数;
确定所述第一类别和所述第二类别的并集中的第二内容数;
若所述第一内容数与所述第二内容数的比值大于第一阈值,则确定所述第一类别和所述第二类别中的内容的相似度满足所述第二条件;
若所述第一内容数与所述第二内容数的比值小于或等于所述第一阈值,则确定所述第一类别和所述第二类别中的内容的相似度不满足所述第二条件。
在一种可能的实现方式中,在得确定各个内容所属的类别之后,所述方法还包括:
删除各个类别中不满足第三条件的内容。
在一种可能的实现方式中,所述第三条件包括:内容的点击率小于第二阈值。
根据本公开的另一方面,提供了一种内容聚类装置,包括:
获取模块,用于获取多组用户行为数据;
第一确定模块,用于对于每一组用户行为数据,分别确定所述用户行为数据对应的内容序列;
第二确定模块,用于将所述内容序列输入第一模型中,输出所述内容序列中的各个内容的向量,其中,所述第一模型用于使内容序列中相邻内容的向量之间的距离接近;
第三确定模块,用于根据内容的向量,对内容进行聚类,确定各个内容所属的类别。
在一种可能的实现方式中,所述装置还包括:
第四确定模块,用于确定用于训练所述第一模型的滑动窗口尺寸;
提取模块,用于根据所述滑动窗口尺寸,从训练序列中提取训练样本对,其中,每组训练样本对包括输入样本和输出样本;
训练模块,用于根据训练样本对训练所述第一模型,得到所述第一模型的隐层的参数。
在一种可能的实现方式中,所述第三确定模块包括:
选取子模块,用于随机选取K个内容作为类中心,其中,K为大于1的整数,且K小于内容的总数;
第一确定子模块,用于确定类中心以外的各个内容的向量与各个类中心的向量之间的距离;
第一归类子模块,用于将类中心以外的各个内容归类至距离最近的类中心对应的类,得到归类结果;
第二确定子模块,用于重新确定各个类的类中心;
第三确定子模块,用于若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离满足第一条件,则根据上一次得到的归类结果确定各个内容所属的类别;
第二归类子模块,用于若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离不满足所述第一条件,则对本次确定的类中心以外的各个内容重新进行归类。
在一种可能的实现方式中,所述装置还包括:
合并模块,用于若第一类别和第二类别中的内容的相似度满足第二条件,则合并所述第一类别和所述第二类别。
在一种可能的实现方式中,所述装置还包括:
第五确定模块,用于确定所述第一类别和所述第二类别的交集中的第一内容数;
第六确定模块,用于确定所述第一类别和所述第二类别的并集中的第二内容数;
第七确定模块,用于若所述第一内容数与所述第二内容数的比值大于第一阈值,则确定所述第一类别和所述第二类别中的内容的相似度满足所述第二条件;
第八确定模块,用于若所述第一内容数与所述第二内容数的比值小于或等于所述第一阈值,则确定所述第一类别和所述第二类别中的内容的相似度不满足所述第二条件。
在一种可能的实现方式中,所述装置还包括:
删除模块,用于删除各个类别中不满足第三条件的内容。
在一种可能的实现方式中,所述第三条件包括:内容的点击率小于第二阈值。
根据本公开的另一方面,提供了一种内容聚类装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
本公开的各方面的内容聚类方法及装置通过获取多组用户行为数据,对于每一组用户行为数据,分别确定用户行为数据对应的内容序列,将内容序列输入第一模型中,输出内容序列中的各个内容的向量,其中,第一模型用于使内容序列中相邻内容的向量之间的距离接近,根据内容的向量,对内容进行聚类,确定各个内容所属的类别,由此能够自动进行内容聚类,无需人工进行内容聚类,节省了人力,易于对大量的内容进行聚类,并能更好地挖掘内容之间的相似度,保证同一类别的内容之间具有高相似度,另外,基于用户行为数据对应的内容序列进行内容聚类,对于长尾效应的曲线尾端的内容仍然能够挖掘到与其他内容之间的相似性,从而能够进一步提高内容聚类的准确性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的内容聚类方法的流程图。
图2示出根据本公开一实施例的内容聚类方法的一示例性的流程图。
图3示出根据本公开一实施例的内容聚类方法步骤S14的一示例性的流程图。
图4示出根据本公开一实施例的内容聚类方法的一示例性的流程图。
图5示出根据本公开一实施例的内容聚类方法的一示例性的流程图。
图6示出根据本公开一实施例的内容聚类方法的一示例性的流程图。
图7示出根据本公开一实施例的内容聚类装置的框图。
图8示出根据本公开一实施例的内容聚类装置的一示例性的框图。
图9是根据一示例性实施例示出的一种用于内容聚类的装置1900的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开一实施例的内容聚类方法的流程图。该方法可以应用于服务器中。本实施例中的内容可以为视频、音频、书籍、新闻或者论文等任意内容。如图1所示,该方法包括步骤S11至步骤S14。
在步骤S11中,获取多组用户行为数据。
在本实施例中,用户行为数据表示用户对内容进行操作而产生的数据。例如,内容为视频,用户行为数据可以包括用户观看视频的数据、用户评论视频的数据、用户发表弹幕的视频数据、用户收藏视频的数据、用户分享视频的数据和用户点赞视频的数据等。
在步骤S12中,对于每一组用户行为数据,分别确定用户行为数据对应的内容序列。
例如,根据某一组用户行为数据,确定用户依次观看视频V1,V2,……,VN,则可以确定该组用户行为数据对应的内容序列为{V1,V2,……,VN}。
在步骤S13中,将内容序列输入第一模型中,输出内容序列中的各个内容的向量,其中,第一模型用于使内容序列中相邻内容的向量之间的距离接近。
本实施例中的第一模型为预先训练的模型。第一模型通过训练,能够使输出结果中内容序列中相邻内容的向量之间的距离接近。
需要说明的是,本实施例中的第一模型是指某一模型,“第一”在此仅为表述和指代的方便,并不意味着在本公开的具体实现方式中一定会有与之对应的第一模型。后文中第一类别中的“第一”、第二类别中的“第二”、第一内容数中的“第一”、第二内容数中的“第二”、第一条件中的“第一”、第二条件中的“第二”和第三条件中的“第三”等与此类似。
在步骤S14中,根据内容的向量,对内容进行聚类,确定各个内容所属的类别。
在一种可能的实现方式中,可以根据内容的向量,对内容进行无监督聚类,确定各个内容所属的类别。
作为该实现方式的一个示例,可以采用K-means聚类方法,对内容进行无监督聚类,确定各个内容所属的类别。
本实施例通过获取多组用户行为数据,对于每一组用户行为数据,分别确定用户行为数据对应的内容序列,将内容序列输入第一模型中,输出内容序列中的各个内容的向量,其中,第一模型用于使内容序列中相邻内容的向量之间的距离接近,根据内容的向量,对内容进行聚类,确定各个内容所属的类别,由此能够自动进行内容聚类,无需人工进行内容聚类,节省了人力,易于对大量的内容进行聚类,并能更好地挖掘内容之间的相似度,保证同一类别的内容之间具有高相似度,另外,基于用户行为数据对应的内容序列进行内容聚类,对于长尾效应的曲线尾端的内容仍然能够挖掘到与其他内容之间的相似性,从而能够进一步提高内容聚类的准确性。
在一种可能的实现方式中,在确定各个内容所属的类别之后,该方法还可以包括:确定各个类别的标题。
作为该实现方式的一个示例,可以获取人工输入的各个类别的标题,将人工输入的各个类别的标题作为各个类别的标题。
作为该实现方式的另一个示例,对于任意一个类别,可以根据该类别中的各个内容的标签,确定该类别的标题。例如,可以将该类别中对应的内容数最多的标签确定为该类别的标题。例如,若在某一类别中,标签1对应的内容数为30,为该类别的所有标签中对应的内容数最多的标签,则可以将标签1作为该类别的标题。
图2示出根据本公开一实施例的内容聚类方法的一示例性的流程图。如图2所示,该方法可以包括步骤S21至步骤S27。
在步骤S21中,确定用于训练第一模型的滑动窗口尺寸。
在步骤S22中,根据滑动窗口尺寸,从训练序列中提取训练样本对,其中,每组训练样本对包括输入样本和输出样本。
在步骤S23中,根据训练样本对训练第一模型,得到第一模型的隐层的参数。
在本实施例中,采用多组训练样本对训练第一模型,训练的目标是使训练样本对的输入样本的向量与输出样本的向量之间的距离接近。
例如,滑动窗口尺寸为2,训练序列为{V1,V2,V3,V4,V5},则可以从该训练序列中提取3组训练样本对。其中,第一组训练样本对的输入样本为V1和V3,输出样本为V2;第二组训练样本对的输入样本为V2和V4,输出样本为V3;第三组训练样本对的输入样本为V3和V5,输出样本为V4。在采用该训练序列训练第一模型时,需要使V1和V3的向量分别与V2的向量之间的距离接近,使V2和V4的向量分别与V3的向量之间的距离接近,使V3和V5的向量分别与V4的向量之间的距离接近。
又如,滑动窗口尺寸为2,训练序列1为{V1,V2,V3,V7,V8},训练序列2为{V2,V3,V7,V9}。训练序列1的第一组训练样本对的输入样本为V1和V3,输出样本为V2;训练序列1的第二组训练样本对的输入样本为V2和V7,输出样本为V3;训练序列1的第三组训练样本对的输入样本为V3和V8,输出样本为V7。训练序列2的第一组训练样本对的输入样本为V2和V7,输出样本为V3;训练序列2的第二组训练样本对的输入样本为V3和V9,输出样本为V7。在采用训练序列1和训练序列2训练第一模型时,需要使V1和V3的向量分别与V2的向量之间的距离接近,使V2和V7的向量分别与V3的向量之间的距离接近,使V3和V8的向量分别与V7的向量之间的距离接近,使V3和V9的向量分别与V7的向量之间的距离接近。由于V1和V3的向量与V2的向量之间的距离接近,V2和V7的向量与V3的向量之间的距离接近,因此V1的向量与V7的向量之间的距离接近;由于V3和V8的向量与V7的向量之间的距离接近,V3和V9的向量与V7的向量之间的距离接近,因此V8的向量与V9的向量之间的距离接近,由此建立了不同的训练序列之间的关联。
在本实施例中,第一模型可以为word2vec模型或者item2vec模型等,在此不作限定。本实施例中内容的向量的维度可以为50维。
在步骤S24中,获取多组用户行为数据。
其中,对步骤S24参见上文对步骤S11的描述。
在步骤S25中,对于每一组用户行为数据,分别确定用户行为数据对应的内容序列。
其中,对步骤S25参见上文对步骤S12的描述。
在步骤S26中,将内容序列输入第一模型中,输出内容序列中的各个内容的向量,其中,第一模型用于使内容序列中相邻内容的向量之间的距离接近。
其中,对步骤S26参见上文对步骤S13的描述。
在步骤S27中,根据内容的向量,对内容进行聚类,确定各个内容所属的类别。
其中,对步骤S27参见上文对步骤S14的描述。
图3示出根据本公开一实施例的内容聚类方法步骤S14的一示例性的流程图。如图3所示,步骤S14可以包括步骤S141至步骤S146。
在步骤S141中,随机选取K个内容作为类中心,其中,K为大于1的整数,且K小于内容的总数。
例如,K等于500。
在步骤S142中,确定类中心以外的各个内容的向量与各个类中心的向量之间的距离。
在步骤S143中,将类中心以外的各个内容归类至距离最近的类中心对应的类,得到归类结果。
在步骤S144中,重新确定各个类的类中心。
在步骤S145中,判断本次确定的类中心的向量与上一次确定的类中心的向量之间的距离是否满足第一条件,若是,则执行步骤S146,否则返回步骤S142。
在一种可能的实现方式中,第一条件可以为:本次确定的类中心的向量与上一次确定的类中心的向量之间的平均距离小于第三阈值。
在另一种可能的实现方式中,第一条件可以为:本次确定的类中心的向量与上一次确定的类中心的向量之间的距离均小于第四阈值。
在步骤S146中,根据上一次得到的归类结果确定各个内容所属的类别。
在本实施例中,若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离满足第一条件,则可以确定聚类完成,并可以根据上一次得到的归类结果确定各个内容所属的类别。若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离不满足第一条件,则可以对本次确定的类中心以外的各个内容重新进行归类,直至重新确定的类中心的向量与上一次确定的类中心的向量之间的距离满足第一条件。
图4示出根据本公开一实施例的内容聚类方法的一示例性的流程图。如图4所示,该方法可以包括步骤S11至步骤S15。
在步骤S11中,获取多组用户行为数据。
在步骤S12中,对于每一组用户行为数据,分别确定用户行为数据对应的内容序列。
在步骤S13中,将内容序列输入第一模型中,输出内容序列中的各个内容的向量,其中,第一模型用于使内容序列中相邻内容的向量之间的距离接近。
在步骤S14中,根据内容的向量,对内容进行聚类,确定各个内容所属的类别。
在步骤S15中,若第一类别和第二类别中的内容的相似度满足第二条件,则合并第一类别和第二类别。
在一种可能的实现方式中,可以以指定频率进行内容聚类。例如,可以每天获取新的用户行为数据,并根据新的用户行为数据进行内容聚类。若新确定的类别(例如第一类别)与某一旧的类别(例如第二类别)中的内容的相似度满足第二条件,则可以合并该新确定的类别和该旧的类别。
本实施例中通过在第一类别和第二类别中的内容的相似度满足第二条件时,合并第一类别和第二类别,由此能够保证类别的稳定,并能使类别自动扩展。
图5示出根据本公开一实施例的内容聚类方法的一示例性的流程图。如图5所示,该方法可以包括步骤S51至步骤S59。
在步骤S51中,获取多组用户行为数据。
其中,对步骤S51参见上文对步骤S11的描述。
在步骤S52中,对于每一组用户行为数据,分别确定用户行为数据对应的内容序列。
其中,对步骤S52参见上文对步骤S12的描述。
在步骤S53中,将内容序列输入第一模型中,输出内容序列中的各个内容的向量,其中,第一模型用于使内容序列中相邻内容的向量之间的距离接近。
其中,对步骤S53参见上文对步骤S13的描述。
在步骤S54中,根据内容的向量,对内容进行聚类,确定各个内容所属的类别。
其中,对步骤S54参见上文对步骤S14的描述。
在步骤S55中,确定第一类别和第二类别的交集中的第一内容数。
其中,第一内容数表示第一类别和第二类别的交集中的内容数。
在步骤S56中,确定第一类别和第二类别的并集中的第二内容数。
其中,第二内容数表示第一类别和第二类别的并集中的内容数。
在步骤S57中,若第一内容数与第二内容数的比值大于第一阈值,则确定第一类别和第二类别中的内容的相似度满足第二条件。
在步骤S58中,若第一类别和第二类别中的内容的相似度满足第二条件,则合并第一类别和第二类别。
其中,对步骤S58参见上文对步骤S15的描述。
在步骤S59中,若第一内容数与第二内容数的比值小于或等于第一阈值,则确定第一类别和第二类别中的内容的相似度不满足第二条件。
图6示出根据本公开一实施例的内容聚类方法的一示例性的流程图。如图6所示,该方法可以包括步骤S61至步骤S65。
在步骤S61中,获取多组用户行为数据。
其中,对步骤S61参见上文对步骤S11的描述。
在步骤S62中,对于每一组用户行为数据,分别确定用户行为数据对应的内容序列。
其中,对步骤S62参见上文对步骤S12的描述。
在步骤S63中,将内容序列输入第一模型中,输出内容序列中的各个内容的向量,其中,第一模型用于使内容序列中相邻内容的向量之间的距离接近。
其中,对步骤S63参见上文对步骤S13的描述。
在步骤S64中,根据内容的向量,对内容进行聚类,确定各个内容所属的类别。
其中,对步骤S64参见上文对步骤S14的描述。
在步骤S65中,删除各个类别中不满足第三条件的内容。
本实施例通过删除各个类别中不满足第三条件的内容,能够保证各个类别中的内容的质量。
在一种可能的实现方式中,第三条件包括:内容的点击率小于第二阈值。其中,内容的点击率等于内容被点击的次数与被展示的次数的比值。
在另一种可能的实现方式中,第三条件可以包括:在指定时间范围内内容的点击量小于第五阈值。
需要说明的是,尽管以以上两个实现方式介绍了第三条件如上,但本领域技术人员能够理解,本公开应不限于此。本领域技术人员可以根据实际应用场景需求和/或个人喜好灵活设置第三条件。
图7示出根据本公开一实施例的内容聚类装置的框图。如图7所示,该装置包括:获取模块701,用于获取多组用户行为数据;第一确定模块702,用于对于每一组用户行为数据,分别确定用户行为数据对应的内容序列;第二确定模块703,用于将内容序列输入第一模型中,输出内容序列中的各个内容的向量,其中,第一模型用于使内容序列中相邻内容的向量之间的距离接近;第三确定模块704,用于根据内容的向量,对内容进行聚类,确定各个内容所属的类别。
图8示出根据本公开一实施例的内容聚类装置的一示例性的框图。如图8所示:
在一种可能的实现方式中,该装置还包括:第四确定模块705,用于确定用于训练第一模型的滑动窗口尺寸;提取模块706,用于根据滑动窗口尺寸,从训练序列中提取训练样本对,其中,每组训练样本对包括输入样本和输出样本;训练模块707,用于根据训练样本对训练第一模型,得到第一模型的隐层的参数。
在一种可能的实现方式中,第三确定模块704包括:选取子模块7041,用于随机选取K个内容作为类中心,其中,K为大于1的整数,且K小于内容的总数;第一确定子模块7042,用于确定类中心以外的各个内容的向量与各个类中心的向量之间的距离;第一归类子模块7043,用于将类中心以外的各个内容归类至距离最近的类中心对应的类,得到归类结果;第二确定子模块7044,用于重新确定各个类的类中心;第三确定子模块7045,用于若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离满足第一条件,则根据上一次得到的归类结果确定各个内容所属的类别;第二归类子模块7046,用于若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离不满足第一条件,则对本次确定的类中心以外的各个内容重新进行归类。
在一种可能的实现方式中,该装置还包括:合并模块708,用于若第一类别和第二类别中的内容的相似度满足第二条件,则合并第一类别和第二类别。
在一种可能的实现方式中,该装置还包括:第五确定模块709,用于确定第一类别和第二类别的交集中的第一内容数;第六确定模块710,用于确定第一类别和第二类别的并集中的第二内容数;第七确定模块711,用于若第一内容数与第二内容数的比值大于第一阈值,则确定第一类别和第二类别中的内容的相似度满足第二条件;第八确定模块712,用于若第一内容数与第二内容数的比值小于或等于第一阈值,则确定第一类别和第二类别中的内容的相似度不满足第二条件。
在一种可能的实现方式中,该装置还包括:删除模块713,用于删除各个类别中不满足第三条件的内容。
在一种可能的实现方式中,第三条件包括:内容的点击率小于第二阈值。
本实施例通过获取多组用户行为数据,对于每一组用户行为数据,分别确定用户行为数据对应的内容序列,将内容序列输入第一模型中,输出内容序列中的各个内容的向量,其中,第一模型用于使内容序列中相邻内容的向量之间的距离接近,根据内容的向量,对内容进行聚类,确定各个内容所属的类别,由此能够自动进行内容聚类,无需人工进行内容聚类,节省了人力,易于对大量的内容进行聚类,并能更好地挖掘内容之间的相似度,保证同一类别的内容之间具有高相似度,另外,基于用户行为数据对应的内容序列进行内容聚类,对于长尾效应的曲线尾端的内容仍然能够挖掘到与其他内容之间的相似性,从而能够进一步提高内容聚类的准确性。
图9是根据一示例性实施例示出的一种用于内容聚类的装置1900的框图。例如,装置1900可以被提供为一服务器。参照图9,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (16)

1.一种内容聚类方法,其特征在于,包括:
获取多组用户行为数据;
对于每一组用户行为数据,分别确定所述用户行为数据对应的内容序列;
将所述内容序列输入第一模型中,输出所述内容序列中的各个内容的向量,其中,所述第一模型用于使内容序列中相邻内容的向量之间的距离接近;
根据内容的向量,对内容进行聚类,确定各个内容所属的类别。
2.根据权利要求1所述的方法,其特征在于,在将所述内容序列输入第一模型中之前,所述方法还包括:
确定用于训练所述第一模型的滑动窗口尺寸;
根据所述滑动窗口尺寸,从训练序列中提取训练样本对,其中,每组训练样本对包括输入样本和输出样本;
根据训练样本对训练所述第一模型,得到所述第一模型的隐层的参数。
3.根据权利要求1所述的方法,其特征在于,根据内容的向量,对内容进行聚类,确定各个内容所属的类别,包括:
随机选取K个内容作为类中心,其中,K为大于1的整数,且K小于内容的总数;
确定类中心以外的各个内容的向量与各个类中心的向量之间的距离;
将类中心以外的各个内容归类至距离最近的类中心对应的类,得到归类结果;
重新确定各个类的类中心;
若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离满足第一条件,则根据上一次得到的归类结果确定各个内容所属的类别;
若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离不满足所述第一条件,则对本次确定的类中心以外的各个内容重新进行归类。
4.根据权利要求1所述的方法,其特征在于,在确定各个内容所属的类别之后,所述方法还包括:
若第一类别和第二类别中的内容的相似度满足第二条件,则合并所述第一类别和所述第二类别。
5.根据权利要求4所述的方法,其特征在于,在确定各个内容所属的类别之后,所述方法还包括:
确定所述第一类别和所述第二类别的交集中的第一内容数;
确定所述第一类别和所述第二类别的并集中的第二内容数;
若所述第一内容数与所述第二内容数的比值大于第一阈值,则确定所述第一类别和所述第二类别中的内容的相似度满足所述第二条件;
若所述第一内容数与所述第二内容数的比值小于或等于所述第一阈值,则确定所述第一类别和所述第二类别中的内容的相似度不满足所述第二条件。
6.根据权利要求1所述的方法,其特征在于,在得确定各个内容所属的类别之后,所述方法还包括:
删除各个类别中不满足第三条件的内容。
7.根据权利要求6所述的方法,其特征在于,所述第三条件包括:内容的点击率小于第二阈值。
8.一种内容聚类装置,其特征在于,包括:
获取模块,用于获取多组用户行为数据;
第一确定模块,用于对于每一组用户行为数据,分别确定所述用户行为数据对应的内容序列;
第二确定模块,用于将所述内容序列输入第一模型中,输出所述内容序列中的各个内容的向量,其中,所述第一模型用于使内容序列中相邻内容的向量之间的距离接近;
第三确定模块,用于根据内容的向量,对内容进行聚类,确定各个内容所属的类别。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第四确定模块,用于确定用于训练所述第一模型的滑动窗口尺寸;
提取模块,用于根据所述滑动窗口尺寸,从训练序列中提取训练样本对,其中,每组训练样本对包括输入样本和输出样本;
训练模块,用于根据训练样本对训练所述第一模型,得到所述第一模型的隐层的参数。
10.根据权利要求8所述的装置,其特征在于,所述第三确定模块包括:
选取子模块,用于随机选取K个内容作为类中心,其中,K为大于1的整数,且K小于内容的总数;
第一确定子模块,用于确定类中心以外的各个内容的向量与各个类中心的向量之间的距离;
第一归类子模块,用于将类中心以外的各个内容归类至距离最近的类中心对应的类,得到归类结果;
第二确定子模块,用于重新确定各个类的类中心;
第三确定子模块,用于若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离满足第一条件,则根据上一次得到的归类结果确定各个内容所属的类别;
第二归类子模块,用于若本次确定的类中心的向量与上一次确定的类中心的向量之间的距离不满足所述第一条件,则对本次确定的类中心以外的各个内容重新进行归类。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
合并模块,用于若第一类别和第二类别中的内容的相似度满足第二条件,则合并所述第一类别和所述第二类别。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第五确定模块,用于确定所述第一类别和所述第二类别的交集中的第一内容数;
第六确定模块,用于确定所述第一类别和所述第二类别的并集中的第二内容数;
第七确定模块,用于若所述第一内容数与所述第二内容数的比值大于第一阈值,则确定所述第一类别和所述第二类别中的内容的相似度满足所述第二条件;
第八确定模块,用于若所述第一内容数与所述第二内容数的比值小于或等于所述第一阈值,则确定所述第一类别和所述第二类别中的内容的相似度不满足所述第二条件。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
删除模块,用于删除各个类别中不满足第三条件的内容。
14.根据权利要求13所述的装置,其特征在于,所述第三条件包括:内容的点击率小于第二阈值。
15.一种内容聚类装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1至7中任意一项所述的方法。
16.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。
CN201810190779.6A 2018-03-08 2018-03-08 内容聚类方法及装置 Pending CN110309188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810190779.6A CN110309188A (zh) 2018-03-08 2018-03-08 内容聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810190779.6A CN110309188A (zh) 2018-03-08 2018-03-08 内容聚类方法及装置

Publications (1)

Publication Number Publication Date
CN110309188A true CN110309188A (zh) 2019-10-08

Family

ID=68073328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810190779.6A Pending CN110309188A (zh) 2018-03-08 2018-03-08 内容聚类方法及装置

Country Status (1)

Country Link
CN (1) CN110309188A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837862A (zh) * 2019-11-06 2020-02-25 腾讯科技(深圳)有限公司 用户分类方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599226A (zh) * 2016-12-19 2017-04-26 深圳大学 一种内容推荐方法及内容推荐系统
CN106919694A (zh) * 2017-03-07 2017-07-04 郑州云海信息技术有限公司 一种基于knl集群的近期数据流项集挖掘方法与装置
CN107247753A (zh) * 2017-05-27 2017-10-13 深圳大学 一种相似用户选取方法及装置
CN107305637A (zh) * 2016-04-21 2017-10-31 华为技术有限公司 基于K-Means算法的数据聚类方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305637A (zh) * 2016-04-21 2017-10-31 华为技术有限公司 基于K-Means算法的数据聚类方法和装置
CN106599226A (zh) * 2016-12-19 2017-04-26 深圳大学 一种内容推荐方法及内容推荐系统
CN106919694A (zh) * 2017-03-07 2017-07-04 郑州云海信息技术有限公司 一种基于knl集群的近期数据流项集挖掘方法与装置
CN107247753A (zh) * 2017-05-27 2017-10-13 深圳大学 一种相似用户选取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
搜狐网: "如果看了此文还不懂 Word2Vec,那是我太笨", 《HTTPS://M.SOHU.COM/A/128794834_211120》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837862A (zh) * 2019-11-06 2020-02-25 腾讯科技(深圳)有限公司 用户分类方法及装置

Similar Documents

Publication Publication Date Title
Mishra et al. Local interpretable model-agnostic explanations for music content analysis.
US10740380B2 (en) Incremental discovery of salient topics during customer interaction
CN110751224B (zh) 视频分类模型的训练方法、视频分类方法、装置及设备
US10366095B2 (en) Processing time series
JP2022510704A (ja) クロスモーダル情報検索方法、装置及び記憶媒体
JP2019511036A (ja) 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法
CN112231275A (zh) 多媒体文件分类、信息处理与模型训练方法、系统及设备
CN110309353A (zh) 视频索引方法及装置
JP7398474B2 (ja) ディープ・フォレスト・モデルの開発および訓練
US20150170044A1 (en) Pattern based audio searching method and system
US10248639B2 (en) Recommending form field augmentation based upon unstructured data
JP7427627B2 (ja) ビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
US11875550B2 (en) Spatiotemporal sequences of content
US20180336459A1 (en) Unstructured key definitions for optimal performance
CN110121033A (zh) 视频编目方法及装置
AU2020364386B2 (en) Rare topic detection using hierarchical clustering
CN117474748A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN116601648A (zh) 备选软标签生成
CN116034402A (zh) 确定性学习视频场景检测
CN111883101B (zh) 一种模型训练及语音合成方法、装置、设备和介质
CN110309188A (zh) 内容聚类方法及装置
CN116070106B (zh) 基于行为序列的数据交互异常检测特征抽取方法及装置
CN110287977A (zh) 内容聚类方法及装置
CN107368595A (zh) 网络热点信息挖掘方法及系统
CN114118068B (zh) 训练文本数据的扩增方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200429

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Applicant before: Youku network technology (Beijing) Co., Ltd

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191008