CN107992619A - 一种聚类方法、服务器集群及虚拟装置 - Google Patents

一种聚类方法、服务器集群及虚拟装置 Download PDF

Info

Publication number
CN107992619A
CN107992619A CN201711393045.XA CN201711393045A CN107992619A CN 107992619 A CN107992619 A CN 107992619A CN 201711393045 A CN201711393045 A CN 201711393045A CN 107992619 A CN107992619 A CN 107992619A
Authority
CN
China
Prior art keywords
temperature change
change sequence
entry
multiple entries
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711393045.XA
Other languages
English (en)
Inventor
王童尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201711393045.XA priority Critical patent/CN107992619A/zh
Publication of CN107992619A publication Critical patent/CN107992619A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Abstract

本发明的实施例提供一种聚类方法、电子设备及虚拟装置,其中聚类方法,包括:获取各词条在第一时间段内的热度变化序列;根据所述热度变化序列对多个词条进行聚类。本发明的聚类方法步骤简洁,易于操作,能够通过大数据计算平台获取各词条的热度变化序列,并根据该热度变化序列而对多个词条进行聚类,不依赖词条的含义以及语言等便可快速高效的实现词条的聚类,为用户的后续分析,如浏览量分析、下载量分析等等提供参考依据,辅助用户进行分析工作。

Description

一种聚类方法、服务器集群及虚拟装置
技术领域
本发明涉及聚类计算领域,特别涉及一种聚类方法及应用该种方法的服务器集群及虚拟装置。
背景技术
目前,采用聚类方法进行数据的辅助分析越来越常见,例如在商务上,聚类方法能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类方法能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区的确定,汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。但是,目前的聚类方法多应用在数据信息均为已知的情况下,而对于数据信息并非完全已知的情况,例如在对大批量的词条,如十几万词条进行数据分析时,由于该多个词条中不仅语言不同,而且各代表的含义也不同,用户通常无从下手,只能耗费大量人力来实现人工数据分析。
发明内容
本发明实施例的目的在于提供一种通过热度变化序列而对多个词条进行聚类的聚类方法及应用该方法的服务器集群及虚拟装置。
为了解决上述技术问题,本发明的实施例提供一种聚类方法,包括:
获取各词条在第一时间段内的热度变化序列;
根据所述热度变化序列对多个词条进行聚类。
作为优选,所述获取各词条在第一时间段内的热度变化序列具体为:
通过应用程序编程接口获取各词条在第一时间段内的热度变化序列。
作为优选,还包括:
对获取的各所述热度变化序列进行预处理,以使各所述热度变化序列处于同一量级;
所述根据所述热度变化序列对多个词条进行聚类具体为:
根据预处理后的各所述热度变化序列对多个词条进行聚类。
作为优选,所述根据所述热度变化序列对多个词条进行聚类具体为:
将各所述热度变化序列采用密度聚类算法实现多个词条的聚类。
作为优选,所述根据所述热度变化序列对多个词条进行聚类具体为:
获取所述热度变化序列间的浮动差值;
将所述浮动差值处于预设阈值范围内的词条进行聚类处理。
本发明同时提供一种电子设备,包括:
获取装置,用于获取各词条在第一时间段内的热度变化序列;
处理装置,其用于根据所述热度变化序列对多个词条进行聚类。
作为优选,所述处理装置还用于:
对获取的各所述热度变化序列进行预处理,以使各所述热度变化序列处于同一量级,并根据预处理后的各所述热度变化序列对多个词条进行聚类。
作为优选,所述处理装置将各所述热度变化序列采用密度聚类算法实现多个词条的聚类。
本发明还提供一种虚拟装置,包括:
获取模块,用于获取各词条在第一时间段内的热度变化序列;
处理模块,其用于根据所述热度变化序列对多个词条进行聚类。
作为优选,所述处理模块还用于:
对获取的各所述热度变化序列进行预处理,以使各所述热度变化序列处于同一量级,并根据预处理后的各所述热度变化序列对多个词条进行聚类。
本发明实施例的有益效果在于:步骤简洁,易于操作,能够通过大数据计算平台获取各词条的热度变化序列,并根据该热度变化序列而对多个词条进行聚类,不依赖词条的含义以及语言等便可快速高效的实现词条的聚类,为用户的后续分析,如浏览量分析、下载量分析等等提供参考依据,辅助用户进行分析工作。
附图说明
图1为本发明实施例中的聚类方法的流程图。
图2为本发明另一实施例中的聚类方法的流程图。
图3为本发明又一实施例中的聚类方法的流程图。
图4为本发明实施例中的电子设备的结构框图。
图5为本发明实施例中的虚拟装置的结构框图。
具体实施方式
以下结合附图来进一步对本发明进行说明。
应理解的是,可以对此处公开的实施例做出各种修改。因此,以下说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
如图1所示,本发明的实施例中提供一种聚类方法,包括:
获取各词条在第一时间段内的热度变化序列;
根据热度变化序列对多个词条进行聚类。
通过本申请中的上述聚类方法,用户在对大批量的词条进行聚类时,不再需要用户对该大批量词条进行逐个分析理解,以人工对其进行聚类,大大简化了用户的工作程序,缩减了用户的工作时间,显著提升了用户的工作效率。另外,现有技术中很多聚类方法都不能较好的解决跨语言问题,例如该大批量词条中出现了很多不同语言的词汇,若采用人工聚类方法,则需要人工翻译,步骤繁琐,人工翻译量大;若利用NLP(神经语言程序学)对词条进行聚类,则需要人工汇集大量语料,对于实现跨语言聚类依旧需要用户付出庞大的工作量。而本发明的实施例中的聚类方法仅需通过各词条的热度变化序列便可轻松实现对该大批量词条进行跨语言聚类的效果,由于各词条的热度变化序列通常是可以根据大数据计算平台获取的,获取方式简单方便,因此无需用户付出庞大的工作量便可实现词条的聚类,相比现有技术中的聚类方法,本发明实施例中的聚类方法彻底解决了用户在对词条进行聚类时工作量庞大的技术难题。
当然,本发明实施例中的聚类方法也不仅仅是针对词条的跨语言聚类,也可应用在其他领域的聚类方法中,只要能够通过大数据计算平台获取欲进行聚类的数据的共有型数据,例如本实施例中各词条均具有热度变化序列,该热度变化序列即为共有型数据,便可采用本申请的聚类方法进行聚类。
进一步地,本实施例中系统在获取各词条在第一时间段内的热度变化序列时具体为:
通过应用程序编程接口获取各词条在第一时间段内的热度变化序列。当然,也可采用其他数据平台获取所需的数据信息,目前很多大型互联网公司都会推出一些数据共享平台,系统便可通过该平台获取所需的数据信息。
进一步地,如图2所示,本发明实施例中的聚类方法还包括:
对获取的各热度变化序列进行预处理,以使各热度变化序列处于同一量级,根据预处理后的各热度变化序列对多个词条进行聚类。该步骤的设置目的是因为多个词条的热度变化序列间的量级不同常导致序列间的数据是呈倍数的关系,然其实质是一样的,为了避免系统在根据获取的热度变化序列进行聚类处理时由于受到上述情况的影响,使聚类结果产生较大偏差,故需要对各词条的热度变化序列的量级进行统一化,以此避免上述不良影响的产生。具体应用时,可采用将各热度变化序列进行正则化处理,以实现统一各热度变化序列量级的效果。
进一步地,基于上述步骤,系统在根据热度变化序列对多个词条进行聚类时具体为:
具体是采用将各热度变化序列采用密度聚类算法而实现多个词条的聚类。
进一步地,如图3所示,具体聚类时,系统会在上述大批量词条中查找到许多词条的热度变化序列出现高度相似性,而为了保证聚类结果具有高精确性,本实施例中具体采用以下步骤实现聚类:
获取热度变化序列间的浮动差值;
将浮动差值处于预设阈值范围内的词条进行聚类处理。
例如系统发现第一词条、第五词条以及第十词条的热度变化序列间具有高相似性,故可通过对比该三个词条的热度变化序列来获取该三个热度变化序列间的浮动差值,然后系统判断获取的浮动差值是否均在预设阈值范围内,若均在,则该三个词条可进行聚类,而若只有一个或两个浮动差值在预设阈值范围内,则将对应该一个或两个浮动差值的词条进行聚类。
如图4所示,本发明的实施例中同时提供一种电子设备,包括:
获取装置,用于获取各词条在第一时间段内的热度变化序列;
处理装置,其用于根据热度变化序列对多个词条进行聚类。
通过本申请中的电子设备,用户在对大批量的词条进行聚类时,不再需要用户对该大批量词条进行逐个分析理解,以人工对其进行聚类,大大简化了用户的工作程序,缩减了用户的工作时间,显著提升了用户的工作效率。
当然,本发明实施例中的电子设备也不仅仅是针对词条的跨语言聚类,也可应用在其他领域的聚类方法中,只要能够通过大数据计算平台获取欲进行聚类的数据的共有型数据,例如本实施例中各词条均具有热度变化序列,该热度变化序列即为共有型数据,便可采用本申请的聚类方法进行聚类。
进一步地,本实施例中获取装置在获取各词条在第一时间段内的热度变化序列时具体为:
通过应用程序编程接口获取各词条在第一时间段内的热度变化序列。当然,也可采用其他数据平台获取所需的数据信息,目前很多大型互联网公司都会推出一些数据共享平台,获取装置便可通过该平台获取所需的数据信息。
进一步地,处理装置还用于:
对获取的各热度变化序列进行预处理,以使各热度变化序列处于同一量级,并根据预处理后的各热度变化序列对多个词条进行聚类。该步骤的设置目的是因为多个词条的热度变化序列间的量级不同常导致序列间的数据是呈倍数的关系,然其实质是一样的,为了避免系统在根据获取的热度变化序列进行聚类处理时由于受到上述情况的影响,使聚类结果产生较大偏差,故需要对各词条的热度变化序列的量级进行统一化,以此避免上述不良影响的产生。具体应用时,可采用将各热度变化序列进行正则化处理,以实现统一各热度变化序列量级的效果。
进一步地,基于上述步骤,本实施例中的处理装置在对词条进行聚类时,具体是采用将各热度变化序列采用密度聚类算法以实现多个词条的聚类的。
进一步地,具体聚类时,处理装置会在上述大批量词条中查找到许多词条的热度变化序列出现高度相似性,而为了保证聚类结果具有高精确性,本实施例中具体采用以下步骤实现聚类:
获取热度变化序列间的浮动差值;
将浮动差值处于预设阈值范围内的词条进行聚类处理。
例如处理装置发现第一词条、第五词条以及第十词条的热度变化序列间具有高相似性,故可通过对比该三个词条的热度变化序列来获取该三个热度变化序列间的浮动差值,然后处理装置判断获取的浮动差值是否均在预设阈值范围内,若均在,则该三个词条可进行聚类,而若只有一个或两个浮动差值在预设阈值范围内,则将对应该一个或两个浮动差值的词条进行聚类。
如图5所示,本发明的实施例还同时提供一种虚拟装置,包括:
获取模块,用于
获取各词条在第一时间段内的热度变化序列;
处理模块,其用于根据热度变化序列对多个词条进行聚类。
通过本申请中的上述聚类方法,用户在对大批量的词条进行聚类时,不再需要用户对该大批量词条进行逐个分析理解,以人工对其进行聚类,大大简化了用户的工作程序,缩减了用户的工作时间,显著提升了用户的工作效率。
当然,本发明实施例中的聚类方法也不仅仅是针对词条的跨语言聚类,也可应用在其他领域的聚类方法中,只要能够通过大数据计算平台获取欲进行聚类的数据的共有型数据,例如本实施例中各词条均具有热度变化序列,该热度变化序列即为共有型数据,便可采用本申请的聚类方法进行聚类。
进一步地,本实施例中获取模块在获取各词条在第一时间段内的热度变化序列时具体为:
通过应用程序编程接口获取各词条在第一时间段内的热度变化序列。当然,也可采用其他数据平台获取所需的数据信息,目前很多大型互联网公司都会推出一些数据共享平台,获取模块便可通过该平台获取所需的数据信息。
进一步地,处理模块还用于:
对获取的各热度变化序列进行预处理,以使各热度变化序列处于同一量级,并根据预处理后的各热度变化序列对多个词条进行聚类。该步骤的设置目的是因为多个词条的热度变化序列间的量级不同常导致序列间的数据是呈倍数的关系,然其实质是一样的,为了避免系统在根据获取的热度变化序列进行聚类处理时由于受到上述情况的影响,使聚类结果产生较大偏差,故需要对各词条的热度变化序列的量级进行统一化,以此避免上述不良影响的产生。具体应用时,可采用将各热度变化序列进行正则化处理,以实现统一各热度变化序列量级的效果。
进一步地,基于上述步骤,本实施例中的处理模块在对词条进行聚类时,具体是采用将各热度变化序列采用密度聚类算法以实现多个词条的聚类的。
进一步地,具体聚类时,处理模块会在上述大批量词条中查找到许多词条的热度变化序列出现高度相似性,而为了保证聚类结果具有高精确性,本实施例中具体采用以下步骤实现聚类:
获取热度变化序列间的浮动差值;
将浮动差值处于预设阈值范围内的词条进行聚类处理。
例如处理模块发现第一词条、第五词条以及第十词条的热度变化序列间具有高相似性,故可通过对比该三个词条的热度变化序列来获取该三个热度变化序列间的浮动差值,然后处理模块判断获取的浮动差值是否均在预设阈值范围内,若均在,则该三个词条可进行聚类,而若只有一个或两个浮动差值在预设阈值范围内,则将对应该一个或两个浮动差值的词条进行聚类。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (10)

1.一种聚类方法,其特征在于,包括:
获取各词条在第一时间段内的热度变化序列;
根据所述热度变化序列对多个词条进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述获取各词条在第一时间段内的热度变化序列具体为:
通过应用程序编程接口获取各词条在第一时间段内的热度变化序列。
3.根据权利要求1所述的方法,其特征在于,还包括:
对获取的各所述热度变化序列进行预处理,以使各所述热度变化序列处于同一量级;
所述根据所述热度变化序列对多个词条进行聚类具体为:
根据预处理后的各所述热度变化序列对多个词条进行聚类。
4.根据权利要求3所述的方法,其特征在于,所述根据所述热度变化序列对多个词条进行聚类具体为:
将各所述热度变化序列采用密度聚类算法实现多个词条的聚类。
5.根据权利要求3所述的方法,其特征在于,所述根据所述热度变化序列对多个词条进行聚类具体为:
获取所述热度变化序列间的浮动差值;
将所述浮动差值处于预设阈值范围内的词条进行聚类处理。
6.一种电子设备,其特征在于,包括:
获取装置,用于获取各词条在第一时间段内的热度变化序列;
处理装置,其用于根据所述热度变化序列对多个词条进行聚类。
7.根据权利要求6所述的电子设备,其特征在于,所述处理装置还用于:
对获取的各所述热度变化序列进行预处理,以使各所述热度变化序列处于同一量级,并根据预处理后的各所述热度变化序列对多个词条进行聚类。
8.根据权利要求6所述的电子设备,其特征在于,所述处理装置将各所述热度变化序列采用密度聚类算法实现多个词条的聚类。
9.一种虚拟装置,其特征在于,包括:
获取模块,用于获取各词条在第一时间段内的热度变化序列;
处理模块,其用于根据所述热度变化序列对多个词条进行聚类。
10.根据权利要求9所述的虚拟装置,其特征在于,所述处理模块还用于:
对获取的各所述热度变化序列进行预处理,以使各所述热度变化序列处于同一量级,并根据预处理后的各所述热度变化序列对多个词条进行聚类。
CN201711393045.XA 2017-12-21 2017-12-21 一种聚类方法、服务器集群及虚拟装置 Pending CN107992619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711393045.XA CN107992619A (zh) 2017-12-21 2017-12-21 一种聚类方法、服务器集群及虚拟装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711393045.XA CN107992619A (zh) 2017-12-21 2017-12-21 一种聚类方法、服务器集群及虚拟装置

Publications (1)

Publication Number Publication Date
CN107992619A true CN107992619A (zh) 2018-05-04

Family

ID=62039427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711393045.XA Pending CN107992619A (zh) 2017-12-21 2017-12-21 一种聚类方法、服务器集群及虚拟装置

Country Status (1)

Country Link
CN (1) CN107992619A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法
US20130036107A1 (en) * 2011-08-07 2013-02-07 Citizennet Inc. Systems and methods for trend detection using frequency analysis
CN104281608A (zh) * 2013-07-08 2015-01-14 上海锐英软件技术有限公司 基于微博的突发事件分析方法
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
US20130036107A1 (en) * 2011-08-07 2013-02-07 Citizennet Inc. Systems and methods for trend detection using frequency analysis
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN104281608A (zh) * 2013-07-08 2015-01-14 上海锐英软件技术有限公司 基于微博的突发事件分析方法
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统

Similar Documents

Publication Publication Date Title
Ram et al. A new hybrid bee pollinator flower pollination algorithm for solar PV parameter estimation
Gernhard The conditioned reconstructed process
CN108306303B (zh) 一种考虑负荷增长和新能源出力随机的电压稳定评估方法
Condamine et al. Biogeographic and diversification patterns of Neotropical Troidini butterflies (Papilionidae) support a museum model of diversity dynamics for Amazonia
Traore et al. New algebraic formulations of evapotranspiration extracted from gene-expression programming in the tropical seasonally dry regions of West Africa
Sharma et al. Improved moth flame optimization algorithm based on opposition-based learning and Lévy flight distribution for parameter estimation of solar module
CN110705727B (zh) 基于随机森林算法的光伏电站阴影遮挡诊断方法及系统
Caughlin et al. Monitoring tropical forest succession at landscape scales despite uncertainty in Landsat time series
CN109472490A (zh) 基于聚类的军工集团人员信息标签化系统
Fortuna et al. Nonlinear modeling of solar radiation and wind speed time series
CN107679501A (zh) 一种基于标签自提纯的深度学习方法
Urraca et al. Estimation of solar global irradiation in remote areas
CN112990355A (zh) 污染天气的分型方法、装置、电子设备及存储介质
CN107992619A (zh) 一种聚类方法、服务器集群及虚拟装置
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
Al-Hajj et al. Estimating solar irradiance using genetic programming technique and meteorological records.
CN115809795B (zh) 一种基于数字化的生产班组的承载能力评估方法和装置
Lee et al. Bayesian deep learning-based confidence-aware solar irradiance forecasting system
CN116029440A (zh) 光伏电站超短期功率预测方法和装置
TW201740296A (zh) 再生能源發電量預測方法與系統
CN111274386A (zh) 基于卷积神经网络与多注意力机制的工单文本分类算法
CN113052386B (zh) 基于随机森林算法的分布式光伏日发电量预测方法和装置
CN108958917A (zh) 云计算的任务调度方法及系统
Espitia Cuchango et al. Controller optimization for a solar tracking system using differential evolution
Sulaiman et al. Optimization of an Artificial Neural Network using Firefly Algorithm for modeling AC power from a photovoltaic system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180504

RJ01 Rejection of invention patent application after publication