CN110276374A - 自动确定聚类中心的用户行为日志密度峰值聚类方法 - Google Patents
自动确定聚类中心的用户行为日志密度峰值聚类方法 Download PDFInfo
- Publication number
- CN110276374A CN110276374A CN201910388487.8A CN201910388487A CN110276374A CN 110276374 A CN110276374 A CN 110276374A CN 201910388487 A CN201910388487 A CN 201910388487A CN 110276374 A CN110276374 A CN 110276374A
- Authority
- CN
- China
- Prior art keywords
- user
- density
- distance
- point
- central
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000006399 behavior Effects 0.000 claims abstract description 40
- 238000010606 normalization Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000001174 ascending effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000018199 S phase Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
自动确定聚类中心的用户日志密度峰值聚类方法,包括:步骤1.读取用户日志数据文件中的数据集;步骤2.计算两个用户之间的相似度:步骤3.计算初始化截断距离dc步骤4.计算用户i的密度ρi,密度值反映每一个用户的相近指数;步骤5.计算用户点i的距离δi;步骤6.计算用户i的归一化后的ρ*和δ*;步骤7.寻找密度较大的数据点;步骤8.找到距离较大的数据点;步骤9.找出正确的类别中心点;步骤10.离群用户剔除;步骤11.根据已经找到的中心点,将用户的行为分类别,将非中心点划分到以主要中心用户为主的类别当中;步骤12.输出聚类结果。本发明的优点是:减少主观因素对于聚类效果的影响,准确度较高。
Description
技术领域
本发明涉及一种网站日志数据聚类方法,尤其是涉及一种自动确定聚类中心的对网站用户行为日志数据进行密度峰值聚类的方法。
背景技术
在如今信息发展迅速的时代,每天都在产生大量的用户浏览网站的日志数据,对于用户的喜好推荐,客户端对于客户提供的服务是否需要改善,用户在浏览网页时一般会有什么样的行为习惯,找出其中的规律,改善服务模块设置,针对用户喜好进行推荐已经成为各个信息门户都需要关注的热点所在。针对如何将喜好相同,行为轨迹相似的用户归为一类,挖掘此间潜在联系,将用户聚类为不同的群体,本发明提出了一种能够自动确定聚类中心的算法,不仅可以根据用户的浏览日志数据将无标签的用户划分为不同的群体,而且还可以解决用户划分不均衡,划分过程时间长,资源消耗大的问题。
如今正处于数据爆炸的时代,传统的聚类分析算法已经不能满足要求,在数据挖掘的过程当中,如何迅速、高效、消耗小地对数据进行聚类成为了众多学者关注的热点。因此聚类算法应运而生。而这将为挖掘用户日志数据过程中,精确分析用户行为习惯、活动轨迹、调整服务模块、推荐用户喜好,提供了强有力的技术支持。
发明内容
本发明要克服现有技术的上述缺点,提出一种自动确定聚类中心的对用户行为数据进行密度峰值聚类的方法。
本发明通过对大量的用户日志数据进行挖掘聚类,从而确定这些用户行为偏好,智能地将相似行为的用户划分为有效的不同群体,分析用户喜好,促使网站管理员更加合理地了解网站的信息以及用户的访问特征,并且通过这些分析的数据和规律指导网站的搭建、助力网站的商业运营,挖掘用户潜在的使用习惯,改善提供的服务,并对精准化、个性化营销做铺垫。
本发明的自动确定聚类中心的用户日志密度峰值聚类方法,包括以下步骤:
步骤1.读取用户日志数据文件中的数据集,计算两个用户之间的相似度。采用欧式距离计算数据集中的用户i和用户j之间的相似度即计算两个数据点之间的距离。相似度即表示两个用户之间的行为相似程度,上网轨迹类似,行为相同,相似程度就越高,即可将两个用户划为一类用户人群。
步骤2.计算两个用户之间的相似度:
i与j代指某两个用户,n为数据集中行为总数
步骤3.初始化截断距离dc
其中M为步骤2中计算距离的总数,t为比例系数,初始化t=2%,f(Mt)是对Mt进行四舍五入后得到的整数,公式(1)为对所有的距离dij进行升序排列,然后取第1%-5%位置的距离点作为截断距离的dc的值。
步骤4.用户i的密度ρi计算,即两个相似用户行为虽有差异但大程度相似,那两个用户的数据点就会在坐标上靠的很近,即聚类中心用户(大类用户)有更多的非中心用户相近,而密度值就是反映每一个用户的相近指数,其计算公式为:
dij为用户j与用户i的相似度,dc为截断距离。
步骤5.计算用户点i的距离δi,可以理解为区分两大不同用户群体的重要标准。相似行为用户要分在一个群体,出了要符合上述密度值大以外,还要保证两点之间足够接近,在每个群体的内部有较高的相似性。如果距离其他密度高的数据点距离较远那么即可被认定为是另一个用户群体中的一员。距离计算公式为:
ρi、ρj分别为用户i、j的密度。
其中密度最大值的用户取δi=maxj(dij)。即表示密度最大且距离最大的两个用户数据点可以被偏向认定为是簇类中心点(中心用户)。
步骤6.计算用户i的归一化后的ρ*和δ*,由于用户行为的密度和距离数值和单位存在差异,因此需要讲行归一化处理其计算方式为:
即:ρ*=(ρ-ρmin)./(ρmax-ρmin)其中./是元素分割运算符。δ*则用相同的方式计算。ρmax、ρmin、δmax、δmin分别表示所有用户的最大密度值、最小密度值、最大距离、最小距离。
步骤7.寻找密度较大的数据点。根据归一化后的密度,确定密度离的阈值上限,找出用户行为密集的点。可以将此理解为划分高密度中心用户与普通用户密度跃点的一个阈值,利用切比雪夫不等式设置密度的上限。其计算方式为:
其中期望E(X)和方差D(X)是有限且已知的,即根据归一化后的用户密度和用户距离的数值进行计算,分别为ρ*的期望E(ρ*)和ρ*的方差D(ρ*),参数ε设置为2。
步骤8.找到距离较大的数据点。根据归一化后的距离,确定最大距离,确定用户行为类别划分。同样可以将此理解为距离远的用户(两类用户群体中心点的距离)与非中心点用户的距离会有跃点,那么可以利用标准差进行中心用户距离阈值设定,将归一化后的距离上限设置为σ(δ*),那么:
δ*≥σ(δ*) (7)
步骤9.找出正确的类别中心点。中心点的确定需满足步骤7和步骤8的两个条件,为了综合考虑中心点的选取,简化中心点的选择,结合决策函数,将决策函数设置为γ=ρ**δ*,可将此决策函数理解为简化后的判断此用户是否为中心用户的唯一判断标准,即当此标准大于用户密度与用户距离的乘积时,可将此用户判定为中心用户。决策函数的阈值上限则设置为:
γ≥(μ(ρ*)+ε*σ(ρ*))×σ(δ*) (8)
由上述分析可知,决策函数阈值上方的数值即为中心点,那么就可以确定中心用户,即用户的主要行为类别。
步骤10.离群用户剔除。依据截断距离dc把初步归类好的用户划分为核心用户和边界用户即若点p的dc邻域中包含的核心用户同属于一个类簇,则把该点划分为核心用户簇中;若点p同时落在几个不同的类簇中,则把该点划分为边界点。取同一个类簇的边界点的密度最大值作为判别离群用户阈值ρb。将密度小于ρb的用户作为离群用户处理。
步骤11.根据已经找到的中心点,作为主要用户类别,有多少个中心点,就将用户的行为分为多少个类别,将其余非中心点,即非主要行为用户,划分到以主要中心用户为主的类别当中,。
步骤12.输出聚类结果。聚类结果主要有两部分组成,一部分是已经聚类好的多个用户群体;另一部分是离群用户,这些离群用户与那些用户群体有较低的相似度,其商业价值较低。
本发明提供了一种自动确定聚类中心的对用户行为进行密度峰值聚类的技术,提出了能够自动选择聚类中心,且综合影响因素设置了决策函数,避免了选择聚类中心时,某一个数据点在阈值附近,但仍然可以认定为是中心用户,导致聚类中心选择出现误差情况的发生。密度峰值原算法在选择聚类中心的时候,需要人为的通过决策图进行手动选取聚类中心点,强烈的主观意识会影响中心点的确定和类别的划分。本发明针对于不能够自动确定聚类中心的问题,提出了提出了一种新的自动选择聚类中心的方法,简化确定聚类中心的方式,避免人为因素的影响,优化了聚类效果。对用户行为进行聚类分析,精准确定用户喜好,优化网页推荐。
本发明的优点是:减少主观因素对于聚类效果的影响,准确度较高。
附图说明
图1为本发明的聚类技术流程示意图。
图2为聚类过程中根据决策函数进行中心点选择图。
具体实施方式
为了能够更容易理解本发明的流程,本发明将以一个用户行为数据集为例,并结合图1的流程图进行以下的具体介绍。
本发明的自动确定聚类中心的用户行为密度峰值聚类方法,包括以下步骤:
步骤1.读取用户日志数据文件中的数据集,计算两个用户之间的相似度。假设数据集中包含了1000个用户(用户行为数据),计算用户i和用户j(i,j<=1000)之间的相似度即计算两个数据点之间的距离(采用欧式距离进行计算)。相似度即表示两个用户之间的行为相似程度,上网轨迹类似,行为相同,相似程度就越高,即可将两个用户划为一类用户人群。
步骤2.计算两个用户之间的相似度:
i与j代指某两个用户,n为数据集中行为总数
步骤3.初始化截断距离dc
其中M为步骤2中计算距离的总数,t为比例系数,初始化t=2%,f(Mt)是对Mt进行四舍五入后得到的整数,公式(1)为对所有的距离dij进行升序排列,然后取第1%-5%位置的距离点作为截断距离的dc的值。
步骤4.用户i的密度ρi计算,即两个相似用户行为虽有差异但大程度相似,那两个用户的数据点就会在坐标上靠的很近,即聚类中心用户(大类用户)会有更多的非中心用户相近,而密度值就是反映每一个用户的相近指数,其计算公式为:
dij为用户j与用户i的相似度,dc为截断距离。
步骤5.计算用户点i的距离δi,可以理解为区分两大不同用户群体的重要标准。相似行为用户要分在一个群体,出了要符合上述密度值大以外,还要保证两点之间足够接近,在每个群体的内部有较高的相似性。如果距离其他密度高的数据点距离较远那么即可被认定为是另一个用户群体中的一员。距离计算公式为:
ρi、ρj分别为用户i、j的密度。
其中密度最大值的用户取δi=maxj(dij)。即表示密度最大且距离最大的两个用户数据点可以被偏向认定为是簇类中心点(中心用户)。
步骤6.计算用户i的归一化后的ρ*和δ*,由于用户行为的密度和距离数值和单位存在差异,因此需要讲行归一化处理其计算方式为:
即:ρ*=(ρ-ρmin)./(ρmax-ρmin)其中./是元素分割运算符。δ*则用相同的方式计算。ρmax、ρmin、δmax、δmin分别表示所有用户的最大密度值、最小密度值、最大距离、最小距离。
步骤7.寻找密度较大的数据点。根据归一化后的密度,确定密度离的阈值上限,找出用户行为密集的点。可以将此理解为划分高密度中心用户与普通用户密度跃点的一个阈值,利用切比雪夫不等式设置密度的上限。其计算方式为:
其中期望E(X)和方差D(X)是有限且已知的,即根据归一化后的用户密度和用户距离的数值进行计算,分别为ρ*的期望E(ρ*)和ρ*的方差D(ρ*),参数ε设置为2。
步骤8.找到距离较大的数据点。根据归一化后的距离,确定最大距离,确定用户行为类别划分。同样可以将此理解为距离远的用户(两类用户群体中心点的距离)与非中心点用户的距离会有跃点,那么可以利用标准差进行中心用户距离阈值设定,将归一化后的距离上限设置为σ(δ*),那么:
δ*≥σ(δ*) (7)
步骤9.找出正确的类别中心点。中心点的确定需满足步骤7和步骤8的两个条件,为了综合考虑中心点的选取,简化中心点的选择,结合决策函数,将决策函数设置为γ=ρ**δ*,可将此决策函数理解为简化后的判断此用户是否为中心用户的唯一判断标准,即当此标准大于用户密度与用户距离的乘积时,可将此用户判定为中心用户。决策函数的阈值上限则设置为:
γ≥(μ(ρ*)+ε*σ(ρ*))×σ(δ*) (8)
由上述分析可知,决策函数阈值上方的数值即为中心点,那么就可以确定中心用户,即用户的主要行为类别。
步骤10.离群用户剔除。依据截断距离dc把初步归类好的用户划分为核心用户和边界用户即若点p的dc邻域中包含的核心用户同属于一个类簇,则把该点划分为核心用户簇中;若点p同时落在几个不同的类簇中,则把该点划分为边界点。取同一个类簇的边界点的密度最大值作为判别离群用户阈值ρb。将密度小于ρb的用户作为离群用户处理。
步骤11.根据已经找到的中心点,作为主要用户类别,有多少个中心点,就将用户的行为分为多少个类别,将其余非中心点,即非主要行为用户,划分到以主要中心用户为主的类别当中,。
步骤12.输出聚类结果。聚类结果主要有两部分组成,一部分是已经聚类好的多个用户群体;另一部分是离群用户,这些离群用户与那些用户群体有较低的相似度,其商业价值较低。
本实例的聚类中心选择图如图2所示(示例图)。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.自动确定聚类中心的用户日志密度峰值聚类方法,包括以下步骤:
步骤1.读取用户日志数据文件中的数据集,计算两个用户之间的相似度;采用欧式距离计算数据集中的用户i和用户j之间的相似度即计算两个数据点之间的距离;相似度即表示两个用户之间的行为相似程度,上网轨迹类似,行为相同,相似程度就越高,即可将两个用户划为一类用户人群;
步骤2.计算两个用户之间的相似度:
i与j代指某两个用户,n为数据集中行为总数
步骤3.初始化截断距离dc
其中M为步骤2中计算距离的总数,t为比例系数,初始化t=2%,f(Mt)是对Mt进行四舍五入后得到的整数,公式(1)为对所有的距离dij进行升序排列,然后取第1%-5%位置的距离点作为截断距离的dc的值;
步骤4.用户i的密度ρi计算,即两个相似用户行为虽有差异但大程度相似,那两个用户的数据点就在坐标上靠的很近,即聚类中心用户即大类用户有更多的非中心用户相近,而密度值就是反应每一个用户的相近指数,其计算公式为:
dij为用户j与用户i的相似度,dc为截断距离;
步骤5.计算用户点i的距离δi,可以理解为区分两大不同用户群体的重要标准;相似行为用户要分在一个群体,出了要符合上述密度值大以外,还要保证两点之间足够接近,在每个群体的内部有较高的相似性;如果距离其他密度高的数据点距离较远那么即可被认定为是另一个用户群体中的一员;距离计算公式为:
ρi、ρj分别为用户i、j的密度;
其中密度最大值的用户取δi=maxj(dij);即表示密度最大且距离最大的两个用户数据点可以被偏向认定为是簇类中心点即中心用户;
步骤6.计算用户i的归一化后的ρ*和δ*,由于用户行为的密度和距离数值和单位存在差异,因此需要进行归一化处理其计算方式为:
即:ρ*=(ρ-ρmin)./(ρmax-ρmin)其中./是元素分割运算符;δ*则用相同的方式计算;ρmax、ρmin、δmax、δmin分别表示所有用户的最大密度值、最小密度值、最大距离、最小距离;
步骤7.寻找密度较大的数据点;根据归一化后的密度,确定密度离的阈值上限,找出用户行为密集的点;可以将此理解为划分高密度中心用户与普通用户密度跃点的一个阈值,利用切比雪夫不等式设置密度的上限;其计算方式为:
其中期望E(X)和方差D(X)是有限且已知的,即根据归一化后的用户密度和用户距离的数值进行计算,分别为ρ*的期望E(ρ*)和ρ*的方差D(ρ*),参数ε设置为2;
步骤8.找到距离较大的数据点;根据归一化后的距离,确定最大距离,确定用户行为类别划分;同样可以将此理解为距离远的用户(两类用户群体中心点的距离)与非中心点用户的距离会有跃点,那么可以利用标准差进行中心用户距离阈值设定,将归一化后的距离上限设置为σ(δ*),那么:
δ*≥σ(δ*) (7)
步骤9.找出正确的类别中心点;中心点的确定需满足步骤7和步骤8的两个条件,为了综合考虑中心点的选取,简化中心点的选择,结合决策函数,将决策函数设置为γ=ρ**δ*,可将此决策函数理解为简化后的判断此用户是否为中心用户的唯一判断标准,即当此标准大于用户密度与用户距离的乘积时,可将此用户判定为中心用户;决策函数的阈值上限则设置为:
γ≥(μ(ρ*)+ε*σ(ρ*))×σ(δ*) (8)
由上述分析可知,决策函数阈值上方的数值即为中心点,那么就可以确定中心用户,即用户的主要行为类别;
步骤10.离群用户剔除;依据截断距离dc把初步归类好的用户划分为核心用户和边界用户即若点p的dc邻域中包含的核心用户同属于一个类簇,则把该点划分为核心用户簇中;若点p同时落在几个不同的类簇中,则把该点划分为边界点;取同一个类簇的边界点的密度最大值作为判别离群用户阈值ρb;将密度小于ρb的用户作为离群用户处理;
步骤11.根据已经找到的中心点,作为主要用户类别,有多少个中心点,就将用户的行为分为多少个类别,将其余非中心点,即非主要行为用户,划分到以主要中心用户为主的类别当中;
步骤12.输出聚类结果;聚类结果主要有两部分组成,一部分是已经聚类好的多个用户群体;另一部分是离群用户,这些离群用户与那些用户群体有较低的相似度,其商业价值较低。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388487.8A CN110276374A (zh) | 2019-05-10 | 2019-05-10 | 自动确定聚类中心的用户行为日志密度峰值聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388487.8A CN110276374A (zh) | 2019-05-10 | 2019-05-10 | 自动确定聚类中心的用户行为日志密度峰值聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110276374A true CN110276374A (zh) | 2019-09-24 |
Family
ID=67959031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910388487.8A Pending CN110276374A (zh) | 2019-05-10 | 2019-05-10 | 自动确定聚类中心的用户行为日志密度峰值聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110276374A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112187550A (zh) * | 2020-10-16 | 2021-01-05 | 温州职业技术学院 | 基于密度峰值多属性聚类的网络日志分析方法 |
CN112966717A (zh) * | 2021-02-04 | 2021-06-15 | 国网浙江省电力有限公司电力科学研究院 | 一种配电网可调资源的可调潜力聚合方法 |
CN116781984A (zh) * | 2023-08-21 | 2023-09-19 | 深圳市华星数字有限公司 | 一种机顶盒数据优化存储方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107016407A (zh) * | 2017-03-07 | 2017-08-04 | 中国矿业大学 | 一种反馈式密度峰值聚类方法及系统 |
CN108764145A (zh) * | 2018-04-25 | 2018-11-06 | 哈尔滨工程大学 | 一种面向扎龙湿地遥感图像密度峰值聚类方法 |
CN108846435A (zh) * | 2018-06-13 | 2018-11-20 | 浙江工业大学 | 自动确定聚类中心的用户影评密度峰值聚类方法 |
CN109444728A (zh) * | 2018-09-21 | 2019-03-08 | 国网河南省电力公司济源供电公司 | 一种基于动态加权混合聚类算法的断路器故障诊断方法 |
-
2019
- 2019-05-10 CN CN201910388487.8A patent/CN110276374A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107016407A (zh) * | 2017-03-07 | 2017-08-04 | 中国矿业大学 | 一种反馈式密度峰值聚类方法及系统 |
CN108764145A (zh) * | 2018-04-25 | 2018-11-06 | 哈尔滨工程大学 | 一种面向扎龙湿地遥感图像密度峰值聚类方法 |
CN108846435A (zh) * | 2018-06-13 | 2018-11-20 | 浙江工业大学 | 自动确定聚类中心的用户影评密度峰值聚类方法 |
CN109444728A (zh) * | 2018-09-21 | 2019-03-08 | 国网河南省电力公司济源供电公司 | 一种基于动态加权混合聚类算法的断路器故障诊断方法 |
Non-Patent Citations (3)
Title |
---|
DING JIAJUN 等: "Clustering by finding density peaks based on Chebyshev’s inequality", 《2016 35TH CHINESE CONTROL CONFERENCE (CCC)》 * |
RASHID MEHMOOD 等: "Fuzzy clustering by fast search and find of density peaks", 《2015 INTERNATIONAL CONFERENCE ON IDENTIFICATION, INFORMATION, AND KNOWLEDGE IN THE INTERNET OF THINGS (IIKI)》 * |
王万良 等: "基于正序迭代选择策略的聚类中心自动选择方法", 《模式识别与人工智能》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112187550A (zh) * | 2020-10-16 | 2021-01-05 | 温州职业技术学院 | 基于密度峰值多属性聚类的网络日志分析方法 |
CN112187550B (zh) * | 2020-10-16 | 2022-09-30 | 温州职业技术学院 | 基于密度峰值多属性聚类的网络日志分析方法 |
CN112966717A (zh) * | 2021-02-04 | 2021-06-15 | 国网浙江省电力有限公司电力科学研究院 | 一种配电网可调资源的可调潜力聚合方法 |
CN116781984A (zh) * | 2023-08-21 | 2023-09-19 | 深圳市华星数字有限公司 | 一种机顶盒数据优化存储方法 |
CN116781984B (zh) * | 2023-08-21 | 2023-11-07 | 深圳市华星数字有限公司 | 一种机顶盒数据优化存储方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565233B2 (en) | Suffix tree similarity measure for document clustering | |
Weismayer et al. | Identifying emerging research fields: a longitudinal latent semantic keyword analysis | |
Shepitsen et al. | Personalized recommendation in social tagging systems using hierarchical clustering | |
Li et al. | Using multidimensional clustering based collaborative filtering approach improving recommendation diversity | |
CN110276374A (zh) | 自动确定聚类中心的用户行为日志密度峰值聚类方法 | |
US6654744B2 (en) | Method and apparatus for categorizing information, and a computer product | |
CN109033200B (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
US20090077132A1 (en) | Information Processing Device and Method, and Program | |
KR101098871B1 (ko) | 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체 | |
CN109684538A (zh) | 一种基于用户个人特征的推荐方法及推荐系统 | |
CN104750856B (zh) | 一种多维协同推荐的系统与方法 | |
Laohakiat et al. | A clustering algorithm for stream data with LDA-based unsupervised localized dimension reduction | |
CN103810162A (zh) | 推荐网络信息的方法和系统 | |
CN109165383A (zh) | 一种基于云平台的数据汇聚、分析、挖掘与共享方法 | |
Domeniconi et al. | A novel method for unsupervised and supervised conversational message thread detection | |
Monica et al. | Clustering tourism object in Bali province using k-means and x-means clustering algorithm | |
Park et al. | Improving the accuracy and diversity of feature extraction from online reviews using keyword embedding and two clustering methods | |
Li et al. | Multidimensional clustering based collaborative filtering approach for diversified recommendation | |
Schinas et al. | Event detection and retrieval on social media | |
Indira et al. | Multi cloud based service recommendation system using DBSCAN algorithm | |
CN113282641A (zh) | 基于用户行为深度分析的网页搜索数据信息智能分类管理方法、系统及计算机存储介质 | |
CN113094448A (zh) | 住宅空置状态的分析方法及分析装置、电子设备 | |
CN108846435B (zh) | 自动确定聚类中心的用户影评密度峰值聚类方法 | |
Belém et al. | Exploiting co-occurrence and information quality metrics to recommend tags in web 2.0 applications | |
CN115691702A (zh) | 一种化合物可视化分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190924 |
|
RJ01 | Rejection of invention patent application after publication |