CN109376764A

CN109376764A - 基于聚类的数据收集方法、装置和计算机可读存储介质

Info

Publication number: CN109376764A
Application number: CN201811068704.7A
Authority: CN
Inventors: 黄凯; 项亮; 王长虎
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2019-02-22
Anticipated expiration: 2038-09-13
Also published as: CN109376764B

Abstract

本公开公开一种基于聚类的数据收集方法、基于聚类的数据收集装置、基于聚类的数据收集硬件装置和计算机可读存储介质。其中，该基于聚类的数据收集方法包括基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合，将包含所述种子数据的数据集合归类为所述预设类别的数据。本公开实施例首先基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合，将包含所述种子数据的数据集合归类为所述预设类别的数据，可以基于少量的种子数据获取到对应类别的数据集合，不仅能够提高数据收集的效率，而且可以提高数据分类的准确率。

Description

基于聚类的数据收集方法、装置和计算机可读存储介质

技术领域

本公开涉及一种信息处理技术领域，特别是涉及一种基于聚类的数据收集方法、装置和计算机可读存储介质。

背景技术

目前，数据和信息在互联网泛滥，而大量数据更是杂乱无章。现阶段处理这些数据的方式大多处于人工阶段。例如，在对数据进行归类时，或者在收集训练模型对应的数据时，大都通过人工对数据进行标注，在面对海量的数据时，不仅数据收集的效率低下，而且准确率也低下。

因此，有必要设计一种数据自动聚类的方法，实现海量数据的聚类，保证聚类支持更符合实际应用的需要，保证聚类的自动化和可用性。

发明内容

本公开解决的技术问题是提供一种基于聚类的数据收集方法，以至少部分地解决现有数据分类效率低下，而且准确率也低下的技术问题。此外，还提供一种基于聚类的数据收集装置、基于聚类的数据收集硬件装置、计算机可读存储介质和基于聚类的数据收集终端。

为了实现上述目的，根据本公开的一个方面，提供以下技术方案：

一种基于聚类的数据收集方法，包括：

基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合；

将包含所述种子数据的数据集合归类为所述预设类别的数据。

进一步的，所述基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合的步骤，包括：

将所述预先标注的预设类别的种子数据与预先收集的未知类别的数据集合进行混合；

基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合。

进一步的，所述方法还包括：

对包含所述种子数据的数据集合中的数据进行类别标注；

统计标注数据的数量是否达到预先设定的数据量要求；

若未达到所述数据量要求，则将所述标注数据作为新的种子数据，重复与预先收集的未知类别的数据集合进行混合及基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合的步骤，直至获取的标注数据的数量达到所述数据量要求。

进一步的，所述方法还包括：

将所述标注数据作为训练数据，通过深度学习算法对所述训练数据进行训练，得到数据分类模型。

进一步的于，所述方法还包括：

根据所述预设类别确定对应的关键词；

根据所述关键词从互联网或预先设定的数据库中抓取相关联的数据，并进行类别标注，将标注的数据作为所述种子数据。

为了实现上述目的，根据本公开的又一个方面，还提供以下技术方案：

一种基于聚类的数据收集装置，包括：

聚类模块，用于基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合；

归类模块，用于将包含所述种子数据的数据集合归类为所述预设类别的数据。

进一步的，所述聚类模块具体用于：将所述预先标注的预设类别的种子数据与预先收集的未知类别的数据集合进行混合；基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合。

进一步的，所述装置还包括：

标注模块，用于对包含所述种子数据的数据集合中的数据进行类别标注；

判定模块，用于统计标注数据的数量是否达到预先设定的数据量要求；若未达到所述数据量要求，则将所述标注数据作为新的种子数据，重复与预先收集的未知类别的数据集合进行混合及基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合的步骤，直至获取的标注数据的数量达到所述数据量要求。

进一步的，所述装置还包括：

分类模型训练模块，用于将所述标注数据作为训练数据，通过深度学习算法对所述训练数据进行训练，得到数据分类模型。

进一步的，所述装置还包括：

种子数据获取模块，用于根据所述预设类别确定对应的关键词；根据所述关键词从互联网或预先设定的数据库中抓取相关联的数据，并进行类别标注，将标注的数据作为所述种子数据。

一种基于聚类的数据收集硬件装置，包括：

存储器，用于存储非暂时性计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器执行时实现上述任一基于聚类的数据收集方法技术方案中所述的步骤。

一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行上述任一基于聚类的数据收集方法技术方案中所述的步骤。

一种基于聚类的数据收集终端，包括上述任一基于聚类的数据收集装置。

本公开实施例提供一种基于聚类的数据收集方法、基于聚类的数据收集装置、基于聚类的数据收集硬件装置、计算机可读存储介质和基于聚类的数据收集终端。其中，该基于聚类的数据收集方法包括基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合，将包含所述种子数据的数据集合归类为所述预设类别的数据。本公开实施例首先基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合，将包含所述种子数据的数据集合归类为所述预设类别的数据，可以基于少量的种子数据获取到对应类别的数据集合，不仅能够提高数据收集的效率，而且可以提高数据分类的准确率。

上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1a为根据本公开一个实施例的基于聚类的数据收集方法的流程示意图；

图1b为根据本公开另一个实施例的基于聚类的数据收集方法的流程示意图；

图1c为根据本公开另一个实施例的基于聚类的数据收集方法的流程示意图；

图2a为根据本公开一个实施例的基于聚类的数据收集的装置的结构示意图；

图2b为根据本公开另一个实施例的基于聚类的数据收集装置的结构示意图；

图3为根据本公开一个实施例的基于聚类的数据收集硬件装置的结构示意图；

图4为根据本公开一个实施例的计算机可读存储介质的结构示意图；

图5为根据本公开一个实施例的基于聚类的数据收集终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

为了解决现有数据分类效率低下，而且准确率也低下的技术问题，本公开实施例提供一种基于聚类的数据收集方法。如图1a所示，该基于聚类的数据收集方法主要包括如下步骤S1至步骤S2。其中：

步骤S1：基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合。

其中，可采用的聚类算法包括但不限于以下任意一种：K均值(K-Means)聚类、均值漂移聚类、基于密度的聚类方法、凝聚层次聚类、图团体检测聚类等。

其中。预设类别可根据视频或图片中包含的内容进行划分，例如包括但不限于人类、动物种类；也可根据视频或图片的性质进行划分，例如包括但不限于色情、广告。

其中，预先标记的种子数据的数量是有限的，可以自定义设置，例如可以为500个、或1000个、或5000个等。至于数据的类型可以为视频数据或图片数据。

本步骤具体实现可以为，以已知标记类别的种子数据为依据，采用聚类算法获取到至少一类数据集合，该数据集合可能包含全部的种子数据，也可能不包含种子数据，也可能只包含少量的种子数据。

步骤S2：将包含种子数据的数据集合归类为预设类别的数据。

由于步骤S1中采用了聚类算法，因此包含种子数据的数据集合必然是与种子数据相同类别的数据，这样就可以收集到大量与种子数据相同类别的数据。

本实施例通过基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合，将包含种子数据的数据集合归类为预设类别的数据，可以基于少量的种子数据获取到对应类别的数据集合，不仅能够提高数据收集的效率，而且可以提高数据分类的准确率。

在一个可选的实施例中，如图1b所示，步骤S1具体包括：

S11：将预先标注的预设类别的种子数据与预先收集的未知类别的数据集合进行混合。

其中，预先收集的未知类别的数据集合可以是从互联网上抓取的，也可以是从数据服务器的数据库中获取的，不做具体限定。

S12：基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合。

本实施例通过将预先标注的预设类别的种子数据与预先收集的未知类别的数据集合进行混合，并基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合，将包含种子数据的数据集合归类为预设类别的数据，可以基于少量的种子数据获取到大量对应类别的数据集合，不仅能够提高数据收集的效率，而且可以提高数据分类的准确率。

进一步的，如图1c所示，本实施例的方法还包括：

S3：对包含种子数据的数据集合中的数据进行类别标注。

S4：统计标注数据的数量是否达到预先设定的数据量要求。

若未达到数据量要求，则执行步骤S5；否则结束流程。

S5：将标注数据作为新的种子数据，重复步骤S11和S12，直至获取的标注数据的数量达到数据量要求。

在本步骤中，在每次重复执行与预先收集的未知类别的数据集合进行混合时，每次对应的预先收集的未知类别的数据集合均不相同。例如，若第一次得到的种子数据与预先收集的未知类别的第一数据集合进行混合，得到的标注数据的数量未达到数据量要求，则将该次得到的标注数据作为新的种子数据，与预先收集的未知类别的第二数据集合进行混合，依次类推，直到达到数据量要求。为便于描述，这里将每次使用的不同的未知类别的数据集合依次称为第一数据集合、第二数据集合。

本实施例通过对包含种子数据的数据集合中的数据进行类别标注，并统计标注数据的数量是否达到预先设定的数据量要求，若未达到数据量要求，则将标注数据作为新的种子数据，重复与预先收集的未知类别的数据集合进行混合及基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合的步骤，直至获取的标注数据的数量达到数据量要求，可以基于少量的种子数据获取到大量的数据集合，不仅能够提高数据收集的效率，而且可以提高数据分类的准确率。

进一步的，本实施例的方法还包括：

S6：将标注数据作为训练数据，通过深度学习算法对训练数据进行训练，得到数据分类模型。

其中，可采用的深度学习算法包括但不限于以下任意一种：朴素贝叶斯算法、人工神经网络算法、遗传算法、K最近邻(K-NearestNeighbor，KNN)分类算法、聚类算法等。

其中，本实施例得到的数据分类模型可以对数据进行自动分类。

进一步的，本实施例的方法还包括：

S7：根据预设类别确定对应的关键词。

S8：根据关键词从互联网或预先设定的数据库中抓取相关联的数据，并进行类别标注，将标注的数据作为种子数据。

本领域技术人员应能理解，在上述各个实施例的基础上，还可以进行明显变型(例如，对所列举的模式进行组合)或等同替换。

在上文中，虽然按照上述的顺序描述了基于聚类的数据收集方法实施例中的各个步骤，本领域技术人员应清楚，本公开实施例中的步骤并不必然按照上述顺序执行，其也可以倒序、并行、交叉等其他顺序执行，而且，在上述步骤的基础上，本领域技术人员也可以再加入其他步骤，这些明显变型或等同替换的方式也应包含在本公开的保护范围之内，在此不再赘述。

下面为本公开装置实施例，本公开装置实施例可用于执行本公开方法实施例实现的步骤，为了便于说明，仅示出了与本公开实施例相关的部分，具体技术细节未揭示的，请参照本公开方法实施例。

为了解决如何提高用户体验效果的技术问题，本公开实施例提供一种基于聚类的数据收集装置。该装置可以执行上述基于聚类的数据收集方法实施例中的步骤。如图2a所示，该装置主要包括：聚类模块21和归类模块22；其中，聚类模块21用于基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合；归类模块22用于将包含种子数据的数据集合归类为预设类别的数据。

本聚类模块21具体实现可以为，以已知标记类别的种子数据为依据，采用聚类算法获取到至少一类数据集合，该数据集合可能包含全部的种子数据，也可能不包含种子数据，也可能只包含少量的种子数据。

由于聚类模块21中采用了聚类算法，因此包含种子数据的数据集合必然是与种子数据相同类别的数据，这样就可以收集到大量与种子数据相同类别的数据。

本实施例的聚类模块21通过基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合，通过归类模块22将包含种子数据的数据集合归类为预设类别的数据，可以基于少量的种子数据获取到对应类别的数据集合，不仅能够提高数据收集的效率，而且可以提高数据分类的准确率。

在一个可选的实施例中，基于图2a所示，聚类模块21具体用于：将预先标注的预设类别的种子数据与预先收集的未知类别的数据集合进行混合；基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合。

本实施例通过聚类模块21将预先标注的预设类别的种子数据与预先收集的未知类别的数据集合进行混合，并基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合，通过归类模块22将包含种子数据的数据集合归类为预设类别的数据，可以基于少量的种子数据获取到大量对应类别的数据集合，不仅能够提高数据收集的效率，而且可以提高数据分类的准确率。

进一步的，如图2b所示，本实施例的装置还包括：标注模块23和判定模块24；其中，标注模块23用于对包含种子数据的数据集合中的数据进行类别标注；判定模块24用于统计标注数据的数量是否达到预先设定的数据量要求；若未达到数据量要求，则将标注数据作为新的种子数据，重复与预先收集的未知类别的数据集合进行混合及基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合的步骤，直至获取的标注数据的数量达到数据量要求。

判定模块24在每次重复执行与预先收集的未知类别的数据集合进行混合时，每次对应的预先收集的未知类别的数据集合均不相同。例如，若第一次得到的种子数据与预先收集的未知类别的第一数据集合进行混合，得到的标注数据的数量未达到数据量要求，则将该次得到的标注数据作为新的种子数据，与预先收集的未知类别的第二数据集合进行混合，依次类推，直到达到数据量要求。为便于描述，这里将每次使用的不同的未知类别的数据集合依次称为第一数据集合、第二数据集合。

本实施例通过标注模块23对包含种子数据的数据集合中的数据进行类别标注，并通过判定模块24统计标注数据的数量是否达到预先设定的数据量要求，若未达到数据量要求，则将标注数据作为新的种子数据，重复与预先收集的未知类别的数据集合进行混合及基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合的步骤，直至获取的标注数据的数量达到数据量要求，可以基于少量的种子数据获取到大量的数据集合，不仅能够提高数据收集的效率，而且可以提高数据分类的准确率。

进一步的，本实施例的装置还包括：分类模型训练模块25；其中，分类模型训练模块，用于将标注数据作为训练数据，通过深度学习算法对训练数据进行训练，得到数据分类模型。

其中，分类模型训练模块25可采用的深度学习算法包括但不限于以下任意一种：朴素贝叶斯算法、人工神经网络算法、遗传算法、K最近邻分类算法、聚类算法等。

进一步的，本实施例的装置还包括：种子数据获取模块26；其中，种子数据获取模块26用于根据预设类别确定对应的关键词；根据关键词从互联网或预先设定的数据库中抓取相关联的数据，并进行类别标注，将标注的数据作为种子数据。

有关基于聚类的数据收集装置实施例的工作原理、实现的技术效果等详细说明可以参考前述基于聚类的数据收集方法实施例中的相关说明，在此不再赘述。

图3是图示根据本公开的实施例的基于聚类的数据收集硬件装置的硬件框图。如图3所示，根据本公开实施例的基于聚类的数据收集硬件装置30包括存储器31和处理器32。

该存储器31用于存储非暂时性计算机可读指令。具体地，存储器31可以包括一个或多个计算机程序产品，该计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

该处理器32可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制基于聚类的数据收集硬件装置30中的其它组件以执行期望的功能。在本公开的一个实施例中，该处理器32用于运行该存储器31中存储的该计算机可读指令，使得该基于聚类的数据收集硬件装置30执行前述的本公开各实施例的基于聚类的数据收集方法的全部或部分步骤。

本领域技术人员应能理解，为了解决如何获得良好用户体验效果的技术问题，本实施例中也可以包括诸如通信总线、接口等公知的结构，这些公知的结构也应包含在本公开的保护范围之内。

有关本实施例的详细说明可以参考前述各实施例中的相应说明，在此不再赘述。

图4是图示根据本公开的实施例的计算机可读存储介质的示意图。如图4所示，根据本公开实施例的计算机可读存储介质40，其上存储有非暂时性计算机可读指令41。当该非暂时性计算机可读指令41由处理器运行时，执行前述的本公开各实施例的视频特征的比对方法的全部或部分步骤。

上述计算机可读存储介质40包括但不限于：光存储介质(例如：CD-ROM和DVD)、磁光存储介质(例如：MO)、磁存储介质(例如：磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如：存储卡)和具有内置ROM的媒体(例如：ROM盒)。

图5是图示根据本公开实施例的终端的硬件结构示意图。如图5所示，该基于聚类的数据收集终端50包括上述基于聚类的数据收集装置实施例。

该终端可以以各种形式来实施，本公开中的终端可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端、车载显示终端、车载电子后视镜等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

作为等同替换的实施方式，该终端还可以包括其他组件。如图5所示，该基于聚类的数据收集终端50可以包括电源单元51、无线通信单元52、A/V(音频/视频)输入单元53、用户输入单元54、感测单元55、接口单元56、控制器57、输出单元58和存储器59等等。图5示出了具有各种组件的终端，但是应理解的是，并不要求实施所有示出的组件，也可以替代地实施更多或更少的组件。

其中，无线通信单元52允许终端50与无线通信系统或网络之间的无线电通信。A/V输入单元53用于接收音频或视频信号。用户输入单元54可以根据用户输入的命令生成键输入数据以控制终端的各种操作。感测单元55检测终端50的当前状态、终端50的位置、用户对于终端50的触摸输入的有无、终端50的取向、终端50的加速或减速移动和方向等等，并且生成用于控制终端50的操作的命令或信号。接口单元56用作至少一个外部装置与终端50连接可以通过的接口。输出单元58被构造为以视觉、音频和/或触觉方式提供输出信号。存储器59可以存储由控制器55执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据。存储器59可以包括至少一种类别的存储介质。而且，终端50可以与通过网络连接执行存储器59的存储功能的网络存储装置协作。控制器57通常控制终端的总体操作。另外，控制器57可以包括用于再现或回放多媒体数据的多媒体模块。控制器57可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元51在控制器57的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

本公开提出的视频特征的比对方法的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，本公开提出的视频特征的比对方法的各种实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，本公开提出的视频特征的比对方法的各种实施方式可以在控制器57中实施。对于软件实施，本公开提出的视频特征的比对方法的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器59中并且由控制器57执行。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于聚类的数据收集方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于聚类算法根据预先标注的预设类别的种子数据获取至少一类数据集合的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对包含所述种子数据的数据集合中的数据进行类别标注；

统计标注数据的数量是否达到预先设定的数据量要求；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

根据所述预设类别确定对应的关键词；

6.一种基于聚类的数据收集装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述聚类模块具体用于：将所述预先标注的预设类别的种子数据与预先收集的未知类别的数据集合进行混合；基于聚类算法对混合后的数据进行聚类分析，得到至少一类数据集合。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6-9任一项所述的装置，其特征在于，所述装置还包括：

11.一种基于聚类的数据收集硬件装置，包括：

存储器，用于存储非暂时性计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器执行时实现根据权利要求1-5中任意一项所述的基于聚类的数据收集方法。

12.一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行权利要求1-5中任意一项所述的基于聚类的数据收集方法。