CN109271555B

CN109271555B - 信息聚类方法、系统、服务器及计算机可读存储介质

Info

Publication number: CN109271555B
Application number: CN201811097837.7A
Authority: CN
Inventors: 黄河; 彭思涵
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2021-04-06
Anticipated expiration: 2038-09-19
Also published as: CN109271555A

Abstract

本发明提供了一种信息聚类方法、系统、服务器及计算机可读存储介质。信息聚类方法，包括以下步骤：S100：获取一历史时间内目标信息的时间访问数据及地域访问数据，以形成输入数据样本；S200：对每一目标信息的初始数据特征降维至具有一特征范围的二维数据特征；S300：在二维尺度下分割特征范围，以将二维数据特征划分至多个聚类；S400：提取聚类中的二维数据特征，并对提取的二维数据特征升维至初始数据特征，以形成输出数据样本；S500：分析输出数据样本的地域访问特征及时间访问特征，以获取对信息的地域访问偏好及时间访问规律。采用上述技术方案后，可通过对海量信息的处理，获取时间维度及地域维度上用户的使用习惯，以进一步分析用户的访问偏好。

Description

信息聚类方法、系统、服务器及计算机可读存储介质

技术领域

本发明涉及数据处理与控制领域，尤其涉及一种信息聚类方法、系统、服务器及计算机可读存储介质。

背景技术

随着智能终端的快速发展，用户使用智能终端进行各类的信息处理和分类，及接收已聚类的数据成为了常见的交互手段，甚至对于不少运行在智能终端上的应用程序而言，是否可以根据用户的使用习惯、交互习惯和喜好对信息分类，已成为用户选择是否使用该应用程序的关键因素。

如当用户使用流媒体播放类的应用程序时，为方便用户找到喜好接收的流媒体，应用程序运营商常对不同信息类型的视频作划分和标签，而对视频的划分标准，当前通常以视频的内容，或是以用户自行给出的标签作划分。上述划分方式，更易方便用户查找视频内容。而对于应用程序的运营商而言，很难从这些划分标准中准确地分析出观看某些视频的用户规律，继而较难地向用户推广与用户喜好有关的其他视频。

因此，需要一种新型的信息聚类方法，可方便运营商从大数据中了解用户的使用规律，更为精准地推广近似的信息，增加用户的消费点。

发明内容

为了克服上述技术缺陷，本发明的目的在于提供一种信息聚类方法、系统、服务器及计算机可读存储介质，可通过对海量信息的处理，获取时间维度及地域维度上用户的使用习惯，以进一步分析用户的访问偏好。

本发明公开了一种信息聚类方法，包括以下步骤：

S100：获取一历史时间内目标信息的时间访问数据及地域访问数据，以形成输入数据样本；

S200：对每一目标信息的初始数据特征降维至具有一特征范围的二维数据特征；

S300：在二维尺度下分割所述特征范围，以将所述二维数据特征划分至多个聚类；

S400：提取所述聚类中的二维数据特征，并对提取的二维数据特征升维至所述初始数据特征，以形成输出数据样本；

S500：分析所述输出数据样本的地域访问特征及时间访问特征，以获取对所述信息的地域访问偏好及时间访问规律。

优选地，所述步骤S100包括：

S110：获取历史时间为t天内，n个视频信息在m个地区的访问数据，作为时间访问数据及地域访问数据；

S120：形成n*t*m个输入数据样本。

优选地，步骤S110中，t＝15，m＝34；步骤S120中计算的输入数据样本为n*15*34个。

优选地，所述步骤S200包括：

S210：对于每一视频信息的初始数据，基于：

L_n＝tanh(w_n·L_n-1+b_n)

逐层降维至具有一特征范围的二维数据特征，其中n为第n层，w_n为权重，b_n为偏差，tanh()为激活函数，所述特征范围为(-1,1)。

优选地，所述步骤S400包括：

S410：对于每一提取的视频信息的二维数据，基于：

L_n＝tanh(w_n·L_n-1+b_n)

逐层升维至15*34＝510个初始数据，其中n为第n层，w_n为权重，b_n为偏差，tanh()为激活函数。

优选地，所述步骤S300包括：

S310：在每一维度上将所述特征范围(-1,1)划分为u个二级范围；

S320：对每一二级范围等分为v个区间，以形成(u·v)²个聚类。

优选地，所述步骤S310包括：

S311：在每一维度上将所述特征范围(-1,1)划分为(-0.1,0.1)、(-1，-0.4)∪(0.4,1)、 (-0.4，0.1)∪(0.1,0.4)三个二级范围；

所述步骤S320包括：

S321：在每一维度上等分(-0.1,0.1)、(-1，-0.4)∪(0.4,1)、(-0.4，0.1)∪(0.1,0.4)二级范围，以形成900个聚类。

优选地，信息聚类方法还包括以下步骤：

S600：衡量所述输入数据样本与输出数据样本的差别；

S700：基于反向传播及所述差别，计算更新权重w'_n；

S800：迭代计算所述权重w'_n，以形成一权重终值w_n。

优选地，所述步骤S600包括：

S610：基于损失函数

计算所述差别；

所述步骤S700包括：

S710：基于

w'＝w-α·Loss'(Output,Input)

计算所述更新权重w'_n，其中α为学习率，Loss'()为对所述损失函数求导；

所述步骤S800包括：

S810：根据迭代次数降低所述学习率α，直至所述损失函数的值小于0.0001*T，其中T为聚类的总数。

本发明还公开了一种服务器，包括处理器和存储设备，所述存储设备存储有计算机程序，所述处理器调用并执行所述计算机程序时实现如上所述的信息聚类方法。

本发明还公开了一种信息聚类系统，包括：

获取器，获取历史时间内目标信息的时间访问数据及地域访问数据，以形成输入数据样本；

编码器，对每一目标信息的初始数据特征降维至具有一特征范围的二维数据特征；

聚类器，在二维尺度下分割所述特征范围，以将所述二维数据特征划分至多个聚类；

解码器，提取所述聚类中的二维数据特征，并对提取的二维数据特征升维至所述初始数据特征，以形成输出数据样本；

分析器，分析所述输出数据样本的地域访问特征及时间访问特征，以获取对所述信息的地域访问偏好及时间访问规律。

本发明又公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的信息聚类方法。

采用了上述技术方案后，与现有技术相比，具有以下有益效果：

1.根据对信息访问中时间维度上的特征和地域维度上的特征，可帮助运营商了解信息访问的用户规律，进一步用户的访问偏好；

2.面对海量的信息，也可做到快速分布式聚类。

附图说明

图1为符合本发明一优选实施例中信息聚类方法的流程示意图；

图2为符合本发明一进一步优选实施中信息聚类方法的流程示意图；

图3为符合本发明最优选实施中信息聚类方法的流程示意图；

图4为符合本发明一优选实施例中信息聚类系统的结构示意图；

图5为符合本发明一优选实施例中聚类过程中的结果示意图。

具体实施方式

以下结合附图与具体实施例进一步阐述本发明的优点。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

参阅图1，为符合本发明一优选实施例中信息聚类方法的流程示意图，在该实施例中，为具有大量数据的信息作划分聚类，可执行以下步骤实现：

首先，需指定部分信息为运营商需要分析和聚类的信息为目标信息，一优选实施例中，为方便描述及统计，其个数可以是n个，指定的标准可以是在某段时间，被用户访问过、后台修改过、新增加信息等。该目标信息的来源为上游数据做处理后的信息，在对上述目标信息的输入阶段，将获取每一个目标信息，以当前时刻或指定时刻为时间基点，向前倒推t天内的访问数据，也即该目标信息的历史时间内的信息流，则该历史时间内的目标信息的信息流，包括了与该目标信息有关的时间访问数据。另外，访问数据还包括每一目标信息在每一个可访问到该目标信息的地区的访问数据，即地域访问数据，例如，某一目标信息在前10天内，被位于北京的用户访问的次数。因此，若以所有目标信息可访问到的地区为统计标准，获取到的访问数据处理后，可形成作为后续处理基础的输入数据样本。

对于获取的每一个目标信息而言，其具有的初始数据特征为多个，使得每一个初始数据特征为一个时间维度上的特征对应一个地域维度上的特征集合。当在获取访问数据时，时间访问数据和地域访问数据的数据量较大时(通常情况下，为扩大样本，分析通常情况，时间访问数据和地域访问数据的值的确较大)，每一个目标信息具有的初始数据特征的数量级便较大，扩大到整个输入数据样本，数据特征的维度较高，对于数据处理而言，效率不高。因此，在该步骤S200中，将对每一目标信息的初始数据特征进行降维处理，通过一次或多次降维操作后，初始数据特征被降至二维数据特征，且该二维数据特征具有一特征范围，也就是说，基于该特征范围，可将二维数据特征映射在一二维坐标系中，所有的数据特征将被限定在该特征范围内。

通过降维操作，对二维数据的处理成本将远小于对多维，甚至上千维数据的处理成本，在面对海量的数据时，可增加处理效率。

S300：在二维尺度下分割特征范围，以将二维数据特征划分至多个聚类；

通过上述两步骤中的数据处理，输入的访问数据已被转化为仅具有时间特征和地域特征的二维数据特征，其他要素在降维操作中已被剔除。因此，可以理解的是，在后续的聚类步骤中，也将以时间维度和地域维度为标准处理。具体地，在二维尺度下对特征范围分割，分割的方式可采用均分、正态分布分割、占比分割等，将特征范围分为多个小区间。进一步地，每一维度上的特征范围均被分割后，将二维维度下的特征范围分为了多个小范围，落入同一小范围的二维数据特征可视为在访问数据中具有较高相似度的访问情况，则当在一小范围内落入的二维数据特征较多时，便意味着该小范围属于用户偏好度更高的范围，则其对应的时间特征及地域特征也便反映了在这些时间和地域下，用户的访问情况更好。因此，通过将二维数据特征划分至多个小范围所代表的聚类，可方便运营商清楚地了解用户在时间和地理上的特点，提高对聚类结果的可用性。

S400：提取聚类中的二维数据特征，并对提取的二维数据特征升维至初始数据特征，以形成输出数据样本；

聚类完成后，由于在降维的过程中已对原始的访问数据变化，因此，在该步骤S400中，对于聚类后需要提取出的部分或全部二维数据特征，即聚类中的二维数据特征，将对其进行升维操作。通过一次或多次升维操作后，提取出的二维数据特征将升维至初始数据特征，与原始的数据特征的维度相同，从而形成输出数据样本。这一升维的还原操作，可采用降维操作中的逆算法，以保留所有访问数据中的信息与维度特征，例如，升维操作与降维操作中，升维降维的级数相同、维度变化量相同等，使得升维和降维过程均可控。

S500：分析输出数据样本的地区特征及访问时间特征，以获取对信息的访问偏好及时间访问规律。

由于在上述步骤中，已针对访问数据中的时间维度和地域维度为基准，对所有的访问数据作聚类，并在聚类后根据运营商的要求提取而出，则运营商可挑选属于同一类别内的信息作分析，即分析输出数据样本的地区特征及访问时间特征，以获取对信息的访问偏好及时间访问规律。如某一信息在一天的何种时间段内被来自于何处的用户访问最多，也可代表了这一信息所代表的类别更被这一地区的用户接受，用户的接受时间覆盖在何时的信息，也方便运营商决定向用户推广与该信息有关的延伸信息的策略。通过更为精准地贴合用户的使用习惯和偏好，对其他信息、消费点的刺激也更为精准，进一步地增加用户对采用该信息聚类方法的应用程序的粘度。

参阅图 3及图4，以下以一信息类型为在线流媒体，即视频类信息为例，详细介绍本发明的信息聚类方法在实现时的具体操作。

首先对于步骤S100而言，其包括：S110：获取t天内，n个目标信息在m个地区的访问数据，以形成n*t*m个输入数据样本，其中可以理解的是，由于所取访问数据时间维度(以天为计，可精确到小时、分钟等)、地域维度的数量级，因此上述t、n、m均为正整数。更优选地，其中，t＝15，m＝34。也就是说，针对以当前时间为时间基点前半个月的视频数据作后续处理，通过选取合适的样本量，了解近期的用户关注热点；而m＝34 的选取，以分析中国境内的用户的访问偏好为主，因此针对以省、自治区、直辖市、特别行政区为分级方式的中国地区，共可分为34个地区；S120：计算n*15*34个输入数据样本。以过去15天所汇总的历史访问信息，及不同省区内用户的访问情况，每一视频具有的初始数据特征为15*34，共计510个，而整个样本所具有的，便为n*15*34个输入数据样本。

可以理解的是，对于输入数据的选取，可选择已具有的所有视频，也可以是过去15天内被用户访问过，即曾处于活跃状态的视频，也可以是曾被修改、新增的视频。

而后，在需对初始数据特征降维时，对每一目标信息的t*m个初始数据特征降维至具有一特征范围的二维数据特征的步骤S200包括：S210：对于每一视频信息的多个初始数据，如15*34＝510个，基于：L_n＝tanh(w_n·L_n-1+b_n)逐层降维至具有一特征范围的二维数据特征，其中n为第n层，w_n为权重，b_n为偏差，tanh()为激活函数，该特征范围为(-1,1)。例如，n＝3，可通过三层降维将每一目标信息具有的510维初始数据特征降至二维，以避免在降维过程中损失过多必要信息。具体地，第一层降维时，每一目标信息具有的510维初始数据特征将被降至128维，第二层降维时，每一目标信息具有的128 维初始数据特征将被降至32维，第三层降维时，每一目标信息具有的32维初始数据特征将被降至二维。

由于在降维过程中使用的激活函数tanh()为双曲正切函数，因此最终获得的二维数据特征中的每一维度上的数值均为(-1,1)中的一个实数，因此，二维数据特征具有的特征范围也即为(-1,1)。

依靠权重和偏差这两个参数及激活函数，可实现向前传播的不断迭代，在更新权重和偏差过程中，使得聚类结果更为准确。

基于上述降维后获得的二维数据特征，在二维尺度下分割特征范围，以将n个二维数据特征划分至多个聚类的步骤S300包括：S310：在每一维度上将特征范围(-1,1)划分为u个二级范围，例如可对特征范围(-1,1)均分，以每隔

个单位划分特征范围，也可根据划分经验非均匀地划分，获得有u个二级范围；S320：对每一二级范围等分为v个区间，则在一个维度上，共划分了有u·v个类别，后通过二维维度的组合，便最终形成(u·v)²个聚类。可以理解的是，聚类的数量越多，对于视频的访问数据划分得越细致，但相邻间聚类的差异易变小。因此，在一进一步优选实施例中，步骤S310包括：S311：由于在划分过程中发现，选取不同的访问数据，二维数据特征在特征范围内的分布通常更靠近于(0,0)点，越靠近特征范围两端点的二维数据特征越少，从而造成数据集中于中心，越靠近边缘越稀疏。因此，可将聚类的分界线不均匀地分布在两个维度上，尽可能地将每一区间内的数据量接近。例如，在每一维度上将特征范围(-1,1)划分为(-0.1,0.1)、 (-1，-0.4)∪(0.4,1)、(-0.4，0.1)∪(0.1,0.4)三个二级范围；进而，步骤S320包括：S321：在每一维度上十等分(-0.1,0.1)、(-1，-0.4)∪(0.4,1)、(-0.4，0.1)∪(0.1,0.4)二级范围，则在一个维度上，共分为了3*10＝30个区间，两维度结合后，便共形成900个聚类。这样的聚类区间分布可更好地解释聚类结果，在同区间内的相同聚类视频针对用户的访问时间和地域信息十分相似，而在不同区间内的不同聚类视频针对用户的访问时间和地域信息差异较大。

参阅图2，出于将输入数据样本与经历了降维和升维过程的输出数据尽可能一致的目的，降维和升维过程中使用的激活函数中的权重w_n和偏差b_n将通过深度学习补偿不断修正偏差。具体地，信息聚类方法还包括以下步骤：S600：衡量输入数据样本与输出数据样本的差别；S700：基于反向传播及差别，计算更新权重w'_n；S800：迭代计算权重w'_n，以形成一权重终值w_n。进一步优选地，可采用均方误差的损失函数来反向传播补偿，具体地，步骤S600包括：S610：基于损失函数

计算差别，这一损失函数可衡量输入数据样本与输出数据样本的差别大小，即输出数据样本损失了多少信息；步骤S700包括：S710：基于w'＝w-α·Loss'(Output,Input)计算更新权重w'_n，其中α为学习率，Loss'()为对损失函数求导，通过该损失函数的连续性质和梯度下降法由输出结果向前更新权重w'_n；步骤S800包括：S810：根据迭代次数降低学习率α，直至损失函数的值小于0.0001*T，其中T为聚类的总数。例如，在整个迭代过程中逐步降低学习率α，以控制损失函数的下降趋近于收敛，越发减少输入数据样本与输出数据样本的差别，如优选地，对于学习率α的取值，前200次迭代时学习率α为1.2， 200到600次迭代时学习率α为1，600到1200次迭代时学习率α为0.8，1200到2000 次迭代时学习率α为0.6，2000次以上迭代时学习率α为0.5等。

在上述实施例的基础上，由于最终聚类的总数T为900，则深度学习过程中损失函数的值小于0.0001*900＝0.09时，可视为输入数据样本与输出数据样本的差别可忽略不计。

可选地，其他采用如均方根误差比较、神经网络学习、标准化数据矩阵补偿的方式皆可替换上升损失函数，用作更新权重w'_n的可实施方式。

通过上述实施例的配置，视频聚类后的簇在时间维度和地域维度这两个特征方面呈现想死的类，且不同类间具有显著区别，大大提高了聚类结果的可用性，继而也提高了后续步骤中对用户访问视频的地理位置及时间分析的结果。

本发明还公开了一种服务器，包括处理器和存储设备，存储设备存储有计算机程序，处理器调用并执行计算机程序时实现如上所述的信息聚类方法。同样地，为实现上述方法，参阅图4，本发明提供有一信息聚类系统，包括：

-获取器

获取器调阅一数据库中的信息数据，从而获取历史时间内目标信息的时间访问数据及地域访问数据，以形成输入数据样本。

-编码器

编码器在获取输入数据样本后，将实现如上文所述降维的步骤。编码器的编码过程是一个不断将多个特征映射到少量特征的过程，以获取更精简有效的时间维度信息和地域维度信息。

-聚类器

根据编码器编码后获得的二维数据特征，分小类对任意二维数据特征作聚类，以形成同类相近、异类有差的分类情况。

-解码器

解码器所实现的解码过程，为编码器的编码过程的逆运算，因此解码器可与编码器相似，甚至采用同一数字处理模块，区别在于运算时输入数据与输出数据互换即可。

-分析器

最终解码器所输出的输出数据样本，为经过筛选及聚类后的数据，输出至分析器后，可由分析器分析，或由用户或运营商利用分析器进行统计分析。

本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，计算机程序可在服务器或终端上被服务器或终端上安装的处理器运行以执行，其执行时实现上述的信息聚类方法。

应当注意的是，本发明的实施例有较佳的实施性，且并非对本发明作任何形式的限制，任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例，但凡未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种信息聚类方法，其特征在于，包括以下步骤：

S200：对每一目标信息的初始数据特征降维至具有一特征范围的二维数据特征，所述特征范围为(-1,1)；

S500：分析所述输出数据样本的地域访问特征及时间访问特征，以获取对所述信息的地域访问偏好及时间访问规律；其中，

所述步骤S300包括：

S320：对每一二级范围等分为v个区间，以形成(u·v)²个聚类。

2.如权利要求1所述的信息聚类方法，其特征在于，

所述步骤S100包括：

S120：形成n*t*m个输入数据样本。

3.如权利要求2所述的信息聚类方法，其特征在于，

步骤S110中，t＝15，m＝34；

步骤S120中计算的输入数据样本为n*15*34个。

4.如权利要求2所述的信息聚类方法，其特征在于，

所述步骤S200包括：

S210：对于每一视频信息的初始数据，基于：

L_n＝tanh(w_n·L_n-1+b_n)

5.如权利要求2所述的信息聚类方法，其特征在于，

所述步骤S400包括：

S410：对于每一提取的视频信息的二维数据，基于：

逐层升维至初始数据，其中n为第n层，w_n为权重，b_n为偏差，tanh()为激活函数。

6.如权利要求1所述的信息聚类方法，其特征在于，

所述步骤S310包括：

S311：在每一维度上将所述特征范围(-1,1)划分为(-0.1,0.1)、(-1，-0.4)∪(0.4,1)、(-0.4，0.1)∪(0.1,0.4)三个二级范围；

所述步骤S320包括：

S321：在每一维度上十等分(-0.1,0.1)、(-1，-0.4)∪(0.4,1)、(-0.4，0.1)∪(0.1,0.4)二级范围，以形成900个聚类。

7.如权利要求4所述的信息聚类方法，其特征在于，还包括以下步骤：

S600：衡量所述输入数据样本与输出数据样本的差别；

S700：基于反向传播及所述差别，计算更新权重w'_n；

S800：迭代计算所述权重w'_n，以形成一权重终值w_n。

8.如权利要求7所述的信息聚类方法，其特征在于，

所述步骤S600包括：

S610：基于损失函数

计算所述差别；

所述步骤S700包括：

S710：基于

w'＝w-α·Loss'(Output,Input)

所述步骤S800包括：

9.一种服务器，包括处理器和存储设备，所述存储设备存储有计算机程序，其特征在于，所述处理器调用并执行所述计算机程序时实现如权利要求1-8任一项所述的信息聚类方法。

10.一种信息聚类系统，其特征在于，包括：

编码器，对每一目标信息的初始数据特征降维至具有一特征范围的二维数据特征，所述特征范围为(-1,1)；

分析器，分析所述输出数据样本的地域访问特征及时间访问特征，以获取对所述信息的地域访问偏好及时间访问规律；其中，

所述聚类器，在每一维度上将所述特征范围(-1,1)划分为u个二级范围；

对每一二级范围等分为v个区间，以形成(u·v)²个聚类。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的信息聚类方法。