CN105144139A

CN105144139A - 生成特征集

Info

Publication number: CN105144139A
Application number: CN201380076001.8A
Authority: CN
Inventors: 维纳伊·多伊拉利卡尔; H·拉菲特
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2013-03-28
Filing date: 2013-03-28
Publication date: 2015-12-09
Also published as: WO2014158169A1; US10331799B2; US20160085811A1; EP2979197A4; EP2979197A1

Abstract

一种生成特征集的技术。可对来自数据集的多个样本进行聚类。可基于类选择特征。可将特征集添加到特征集。可对其他样本及选择的特征进行聚类，并添加到特征集，直至达到收敛阈值。

Description

生成特征集

背景技术

在数据挖掘中，聚类可用于基于对象之间的相似度对数据进行分组。由于聚类可提供对较大数据集的不同视角，因此聚类可以是较为有用的。例如，在企业设置中，企业可具有大的文档语料库。聚类可应用于语料库，以将文档分组成多个类。这些类可显示聚类的文档之间的相似度，使得企业更有效地利用其数据，并获得在其他方面难以得到的见解。

附图说明

下面的详细描述参照附图，其中：

图1示出了根据一种示例的生成特征集的方法。

图2描绘了根据一种示例的示出如何利用所公开的技术能使特征集逼近的曲线图。

图3示出了根据一种示例的生成用于对数据集进行聚类的特征集的方法。

图4示出了根据一种示例的用于生成特征集的系统。

图5示出了根据一种示例的用于生成特征集的计算机可读取介质。

具体实施方式

对诸如文档语料库数据集进行聚类可能呈现各种挑战。例如，如果文档语料库大，则聚类操作可占用较长的时间执行。通常，可由特征向量来表示语料库中的每个文档。聚类操作可基于特征向量对文档进行聚类。如果语料库大，则特征向量的总大小也会很大。但是，由于主存储器(例如，RAM)的大小上的局限性，表示文档语料库的大的特征向量集可能无法全部同时刚好放入执行聚类操作的计算系统的主存储器中。结果是，在聚类操作期间，可能不得不将特征向量从辅存储器(例如，硬盘驱动器)读取到主存储器中，这可能导致占用更长的时间来完成聚类操作。根据本文公开的技术，可生成在对数据集进行聚类时使用的特征集。生成的特征集可小于数据集的特征空间，因此，减小用于实施聚类操作的存储器的量。

在一种示例中，可从数据集选择(例如，随机选择)多个样本，并利用聚类算法对多个样本聚类。可基于聚类来选择多个特征。例如，可基于关于聚类包含物的信息增益来选择特征。选择的特征可被添加到特征集。可从数据集选择额外的多个样本，且可重复上述处理，以将额外的特征添加到特征集。这可针对各种迭代而发生，直至达到收敛阈值。例如，收敛阈值可与特征集增长的大小、特征集的大小、或预定的最大迭代次数有关。生成的特征集随后可用于使用同样的聚类算法来对整个数据集进行聚类。

结果是，由于更少数量的特征，减少了主存储器的使用，使得能够更有效地对整个数据集实施聚类操作。此外，可不用首先对整个数据集聚类就可获得这种更小的特征集。此外，由于利用通过相同的聚类算法生成的类来生成特征集，特征集可针对该聚类算法而被特别调整，这可产生改进的聚类。下面参照附图描述其他示例、优点、特征、修改等。

图1示出了根据一种示例的生成特征集的方法。可由计算设备、系统、或计算机(诸如，计算系统400或计算机500)来实施方法100。用于实现方法100的计算机可读指令可被存储在计算机可读存储介质上。如存储在介质上的这些指令在本文被称作“模块”，且可由计算机执行。

方法100可始于110，在110，可对来自数据集的多个样本进行聚类。数据集可包括文档、图像等。为了说明的目的，本文将描述一种数据集包括文档语料库的示例。例如，文档语料库可以是存储在企业数据库中的大的文档语料库。

可由特征向量来表示数据集的每个成员。与表示数据集的所有成员的特征向量集关联的特征空间在本文被称为“原始特征空间”。参照文档语料库示例，与语料库关联的特征向量可被表示为文献–检索词矩阵。当然，文档的其他特征也可包括在特征向量中，诸如，文档类型、标题、总字数等。

如文本所使用的，“样本”是通过采样技术已采样的数据集的成员。因此，文档语料库的多个样本将包括利用采样技术采样的多个文档。可使用各种采样技术中的任何技术。在一种示例中，独立的随机采样可用于选择多个样本。虽然可使用其他采样技术(诸如，用户定向(user-directed)采样)，独立的随机采样具有这样的好处：去除了采样过程中的偏差，并潜在地产生更准确的数据集的分布的表示。

包括在多个样本中的样本的数量可以是预设的或由用户规定的参数。样本大小可受各种因素的影响。例如，可使用采样技术来对数据集的特定百分比(例如，1％、5％)进行采样。可选地，固定数量的样本可从数据集采样。为了迅速处理，采样大小可足够小，使得针对多个样本的所有特征向量可刚好放入主存储器中。如随后将描述的，关于采样大小的不期望的结果在试验期间被获得。

可使用聚类算法对多个采样的文档进行聚类，以产生多个类。将创建的类的数量可以是预设的或由用户规定的参数。可使用各种聚类算法中的任意算法(例如，分层聚类、基于质心的聚类、基于分布的聚类以及基于密度的聚类)。将用于对整个文档语料库进行聚类的相同的聚类算法可用于对多个采样的文档进行聚类。由于生成的特征集随后将针对选择的聚类算法而被调整，因此使用与将用于最终对整个数据集进行聚类的算法相同的聚类算法来生成特征集可能是有利的。

在120，可基于多个类来选择多个特征。例如，可基于在110中生成的聚类来评估原始特征空间中的特征，以确定那些特征应包括在特征集中。可基于各种标准进行评估。例如，可基于关于聚类包含物的信息增益来评估特征。此技术识别什么特征与确定文档是否应为特定类的成员有关。可基于评估标准对特征进行排序，且可针对特征集中的包含物从每个类选择前N个特征。N可以是预设的或由用户规定的参数。

在130，多个特征可被添加到特征集。可忽略冗余特征(例如，已添加到特征集的特征)，使得选择的特征仅在其还未在特征集中存在时被添加。

在140，可确定是否达到收敛阈值。如果已达到收敛阈值(140“是”)，则可终止方法100。如果仍未达到收敛阈值(140“否”)，则方法100可继续到110，对另外的多个样本进行聚类，以将更多的特征添加到特征集。方法100可从110到140迭代多次，直至满足收敛阈值。

收敛阈值可以是各种阈值中的任意阈值。收敛阈值的目的在于指示方法100应何时结束，或可选地，何时特征集已达到使用的满意点。例如，收敛阈值可以是生成的特征集呈现“下落属性(fallingprofile)”的点。如本文所使用的下落属性指示特征集在根据例如130添加多个特征之后增加的百分比落到一定的值(诸如，2％)以下。可使用其他百分比。在另一个示例中，收敛阈值可以是特定的数。例如，如果在迭代期间添加到特征集的特征的数量小于该特定的数量，则可满足收敛阈值。可选地，如果方法100的迭代次数大于该特定的数，则满足收敛阈值。在某些示例中，收敛阈值可以是用户可调的参数。

暂时转到图2，图示200示出了针对特征集的下落属性(在图中称为“特征存储”)。存放作为针对数据集的理想特征集“真”特征集。方法100(及本文的其他方法及变形)可用于逐次逼近此真特征集。如曲线图200所示出的，随着方法的迭代次数的增加，特征集的大小增加并逼近真特征集。然而，特征集的增长不是线性的。而特征集在方法开始时快速增长，但随着迭代次数增加而减慢。这是因为例如冗余的选择的特征不被添加到特征集的事实。特征集的这种增长趋势是术语“下落属性”所意旨的。

返回图1，方法100可因此用于快速生成逼近针对数据集的理想特征集的特征集。此特征集的特征空间比数据集的初始特征空间小，因此，使数据集的更多的特征向量能够刚好放入到主存储器中，以供整个数据集进行更快的聚类。事实上，可修改上述参数，以确保生成的针对数据集的特征集将足够小，使得数据集的所有特征向量可刚好放入到正使用的计算机系统的主存储器中。

所公开的技术对于生成特征集而言比简单地进行数据集的单次随机采样更有效。一个原因是因为单次随机采样很可能将错过数据集的成员的一定的分组。结果是，生成的特征集可能不包括与这些分组有关的特征。此外，所公开的技术不需要为了特征集的生成而处理整个数据集。这使得所公开的技术能够被纳入到将在数据集先前未知或不断变化的环境中开发的数据分析工具中。另一个好处是可由所公开的技术自动选择特征集中的特征的数量。这省去了用户不得不猜测，对于给定的数据集，理想的特征的数量是多少，这是不适于用户的涉及各种约束、权衡等的复杂任务。

试验期间，发明人获得了某些期望的结果。发明人确定：较低的采样大小可使得方法100能够更快地达到收敛阈值。例如，通常，1％的采样大小比25％的采样大小产生更快的收敛。这具有额外的好处：采样大小越低，采样的文档的特征向量越可能刚好放到主存储器中。此外，发明人确定：当采样大小为5％时方法100产生的聚类的质量通常比当采样大小更高时方法100产生的聚类的质量更好。简言之，发明人确定：聚合从多个样本选择的特征可改善生成的特征集的质量，且同时减少需要的处理时间和存储空间。

发明人还确定：在每次迭代期间选择越多的特征越好。例如，通过设置N＝20，而不是N＝10，发明人确定：特征集在收敛时可更大，可改善使用特征集的数据集的聚类的质量。

图3示出了根据一种示例的生成用于聚类的特征集的方法300。方法300示出可用于修改方法100的变形。同时，方法100的描述应用于方法300。可由计算设备、系统、或计算机(诸如，计算系统500或计算机600)实施方法300。用于实现方法300的计算机可读指令可存储在计算机可读存储介质上。如存储在介质上的这些指令在本文称作“模块”，且可由计算机执行。

方法300可始于310，在310，可基于词频-逆文档频率法(TF-IDF)分析来减小特征空间。通过TF-IDF分析减小的特征空间可以是与数据集及其特征向量关联的原始特征空间。新的特征空间可称作减小的特征空间。TF-IDF分析是可用于降低特征空间的维度的统计技术。通过将TF-IDF分析应用于原始特征空间，可从特征空间移除可能对聚类目的有用的特征，从而减小方法300的其余部分所处理的特征向量的大小。因此，可基于减小的特征空间及从其选择的特征来对数据集进行聚类。

在320，可从数据集选择多个样本。在330，可对多个样本进行聚类。在340，可基于聚类对多个特征进行排序。在350，前N个排序的非冗余特征可被添加到特征集。在360，可确定是否满足收敛阈值。如果不满足收敛阈值(360“否”)，则方法300可继续到320。如果满足收敛阈值(360“是”)，则方法300可继续到370，在370，可使用特征集对数据集进行聚类。

图4示出了根据一种示例的用于生成特征集的系统。计算系统400可包括一个或多个计算机且/或可由一个或多个计算机实现。例如，计算机可以是服务器计算机、工作站计算机、台式机等。计算机可包括一个或多个控制器及一个或多个机器可读存储媒体。

控制器可包括处理器以及用于实现机器可读指令的存储器。处理器可包括至少一个中央处理单元(CPU)、至少一个基于半导体的微处理器、至少一个数字信号处理器(DSP)(诸如，数字图像处理单元)、适用于获取及执行存储在存储器中的指令的硬件设备或处理元件、或它们的组合。处理器可包括芯片上的一个或多个核、多个芯片上的多个核、多个设备上的多个核、或它们的组合。处理器可从存储器取指令、对来自存储器的指令进行解码、并执行来自存储器的指令，以实施各种功能。作为获取并执行指令的可选方案或除获取及执行指令之外，处理器可包括至少一个集成电路(IC)、其他控制逻辑、其他电路、或它们的包括用于实施各种任务或功能的多个电子组件的组合。

控制器可包括存储器，诸如，机器可读存储介质。机器可读存储介质可以是任意电存储设备、磁存储设备、光存储设备、或包含或存储可执行指令的其他物理存储设备。因此，机器可读存储介质可包括例如：各种随机存取存储器(RAM)、只读存储器(ROM)、闪存、及它们的组合。例如，机器可读介质可包括非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、存储驱动、NAND闪存等。此外，机器可读存储介质可以是计算机可读的或非暂时性的。此外，计算系统400可包括独立于一个或多个控制器的一个或多个机器可读存储介质，诸如，存储器410。

计算系统400可包括存储器410、第一聚类模块420、特征选择器430、以及聚合器440、第二聚类模块450、以及采样模块460。这些组件中的每个可由一个计算机或多个计算机实现。组件可包括软件、用于存储软件的一个或多个机器可读媒体、及用于执行软件的一个或多个处理器。软件可以是包括机器可执行指令的计算机程序。

此外，计算系统400的用户可通过可被认为或不被认为是计算系统400的一部分的一个或多个其他计算机与计算系统400交互。作为一种示例，用户可经由位于系统400或另一个计算机(诸如，台式机、工作站计算机、平板电脑等)上的计算机应用与系统400交互。计算机应用可包括用户界面。

计算机系统400可实施方法100、300及其变形，组件420-460可配置为实施方法100、300的各种部分及其变形。此外，由组件420-460实现的功能可以是更大的软件平台、系统、应用等的一部分。例如，这些组件可以数据分析系统的一部分。

在一种示例中，方法410可配置为存储数据集412。采样模块460可配置为生成数据集的独立的随机样本，以供第一聚类模块420使用。第一聚类模块420可配置为对采样模块460所生成的各种多个样本聚类，以生成针对每种多个样本的多个类。特征选择器430可配置为基于多个类选择一个或多个特征。聚合器440可配置为对基于来自数据集的多种多个样本的多个类选择的特征进行聚合，直至达到收敛阈值。聚合器440可与第一聚类模块420和特征选择器430一起工作，以对通过多次迭代选择的特征进行聚合。第二聚类模块450可配置为基于聚合的特征对整个数据集进行聚类。第一聚类模块420和第二聚类模块450可配置为使用相同的聚类算法。

图5说明了根据一种示例的生成特征集的计算机可读介质。计算机500可以是各种计算设备或系统中的任何设备或系统(诸如，针对计算系统500所描述的)。

计算机500可访问数据库530。如本文所描述的，数据库530可包括一个或多个计算机，且可包括一个或多个控制器及机器可读存储介质。计算机500可经由网络连接至数据库530。网络可以是任意类型的通信网络，包括但不限于：有线网络(例如，线缆)、无线网络(例如，蜂窝、卫星)、一个或多个蜂窝电信网络、以及一个或多个基于IP的电信网络(例如，网络电话)。网络还可包括传统的固网电信(landline)或公共交换电话网络(PSTN)、或前述这些的组合。

处理器510可以是至少一个中央处理器(CPU)、至少一个基于半导体的微处理器、适用于获取及执行存储在机器可读存储介质520中的指令的其他硬件设备或处理元件、或它们的组合。处理器510可包括芯片上的一个或多个核、多个芯片上的多个核、多个设备上的多个核、或它们的组合。此外，处理器510可获取、解码、并执行其中的指令522-528，以实现各种处理。作为获取并执行指令的可选方案或除获取及执行指令之外，处理器510可包括至少一个集成电路(IC)、其他控制逻辑、其他电路、或它们的包括用于实施指令522-528的功能的多个电子组件的组合。因此，处理器510可在多个处理单元上实现，且指令522-528可通过在计算机500的不同的区域中的不同的处理单元实现。

机器可读存储介质520可以是任意电存储设备、磁存储设备、光存储设备、或包含或存储可执行指令的其他物理存储设备。因此，机器可读存储介质可包括例如：各种随机存取存储器(RAM)、只读存储器(ROM)、闪存、及它们的组合。例如，机器可读介质可包括非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、存储驱动、NAND闪存等。此外，机器可读存储介质520可以是计算机可读或非暂时性的。机器可读存储介质520可用管理处理元件的一系列可执行指令进行编码。

指令522、524在由处理器510(例如，经由处理器的一个处理元件或多个处理元件)执行时可使处理器510实施多个过程，例如，方法100、300，及其变形。此外，计算机500可类似于计算系统500，且可具有如上所述的类似的功能且可以以类似的方式被使用。

例如，采样指令522可使处理器510使用采样技术从数据集532选择多个样本。在一种示例中，采样技术可以是随机采样算法。聚类指令524可使处理器510将多个样本聚类成多个类。选择指令526可使处理器510基于多个类选择多个特征。添加指令528可使处理器510将多个特征添加到用于聚类的特征集。可针对多次迭代执行指令522-528，直至满足收敛阈值。在一种示例中，如果在给定的迭代中，添加到用于聚类的特征集的特征的数量少于阈值，则满足收敛阈值。在一种示例中，用于聚类的特征集可用于在满足收敛阈值之后对整个数据集进行聚类。

在前面的描述中，为了提供对本文公开的主题的理解而陈述了许多细节。然而，可不用这些细节中的某些或全部实行实施方式。其他实施方式可包括上面讨论的细节的修改和变形。目的在于：所附的权利要求涵盖这样的修改和变形。

Claims

1.一种生成数据集的方法，包括：

(a)使用聚类算法将数据集的第一多个样本聚类成第一多个类；

(b)基于所述第一多个类选择第一多个特征；

(c)将所述第一多个特征添加到特征集；

(d)对来自所述数据集的其他多个样本进行聚类；

(e)基于(d)的结果类选择其他特征；

(f)将所述其他特征添加到所述特征集；以及

(g)从(d)到(f)迭代，直至达到收敛阈值。

2.根据权利要求1的所述方法，进一步包括：使用聚类算法及所述数据集对所述数据集进行聚类。

3.根据权利要求1的所述方法，进一步包括：

在实施(a)之前，通过实施所述数据集的TF-IDF分析来降低与所述数据集关联的原始特征空间的维度，生成减小的特征空间，所述第一多个特征和其他特征是从所述减小的特征空间选择的。

4.根据权利要求1的所述方法，其中，如果所述特征集呈现下落属性，则满足所述收敛阈值。

5.根据权利要求1的所述方法，其中，如果在迭代期间添加到所述特征集的特征的数量小于阈值，则满足所述收敛阈值。

6.根据权利要求1的所述方法，其中，如果迭代次数大于阈值，则满足所述收敛阈值。

7.根据权利要求1的所述方法，其中，所述第一多个样本和其他多个样本是所述数据集的独立的随机样本。

8.根据权利要求1的所述方法，其中，通过以下过程选择特征：

通过关于聚类包含物的信息增益对每个类中的特征进行排序；以及

从每个类识别前N个排序的特征。

9.根据权利要求1的所述方法，其中，仅在特征仍未存在于所述特征集时，将特征添加到所述特征集。

10.一种系统，包括：

第一聚类模块，用于生成来自数据集的多个样本的多个类；

特征选择器，用于基于所述多个类选择一个或多个特征；

聚合器，用于对基于来自所述数据集的多种多个样本的多个类选择的特征进行聚合，直至达到收敛阈值；以及

第二聚类模块，用于基于聚合的所述特征对整个数据集进行聚类。

11.根据权利要求10的所述系统，进一步包括：采样模块，用于生成所述数据集的独立的随机样本，以供所述第一聚类模块使用。

12.根据权利要求10的所述系统，其中，所述第一聚类模块和所述第二聚类模块配置为使用相同的聚类算法。

13.根据权利要求10的所述系统，其中，所述聚合器配置为结合所述第一聚类模块和特征选择器对特征进行聚合。

14.一种非暂时性计算机可读取存储介质，存储这样的指令，在所述指令由处理器执行所述指令时，使计算机：

直至满足收敛阈值；

使用采样技术选择数据集的多个样本；

将所述多个样本聚类成多个类；

基于所述多个类选择多个特征；以及

将所述多个特征添加到用于聚类的特征集。

15.根据权利要求14的所述存储介质，其中，如果在给定的迭代中，添加到用于聚类的所述特征集的特征的数量低于阈值，则满足所述收敛阈值。

16.根据权利要求14的所述存储介质，其中，所述采样技术是随机采样算法。

17.根据权利要求14的所述存储介质，进一步存储这样的指令，所述指令使计算机：

在满足所述收敛阈值之后，使用用于聚类的所述特征集对整个数据集进行聚类。