CN105512277B

CN105512277B - 一种面向图书市场书名的短文本聚类方法

Info

Publication number: CN105512277B
Application number: CN201510886332.9A
Authority: CN
Inventors: 李欢; 孙阳; 刘海星; 张立; 尤树林
Original assignee: Chemical Industry Press; Beijing University of Aeronautics and Astronautics
Current assignee: Chemical Industry Press; Beijing University of Aeronautics and Astronautics
Priority date: 2015-12-04
Filing date: 2015-12-04
Publication date: 2019-09-20
Anticipated expiration: 2035-12-04
Also published as: CN105512277A

Abstract

本发明提供一种面向图书市场书名的短文本聚类方法，包括：对文本数据及设定的聚类关键词进行词向量化，计算文本数据词向量到所述聚类关键词向量的距离，根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据的聚类类型，根据所述文本数据的聚类类型将所述文本数据划分到对应的聚类集合；计算每个聚类集合中的所有文本数据词向量中的特征词的文件词频‑逆向文件频率TF‑IDF值，确定TF‑IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词；根据所述更新后的聚类关键词确定所述文本数据的聚类类型。采用本发明实施例提供的方法，能够更加准确地确定文本数据的聚类类型，使聚类结果能够更接近用户的实际需求。

Description

一种面向图书市场书名的短文本聚类方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种面向图书市场书名的短文本聚类方法。

背景技术

随着在互联网对传统行业的深度改造，互联网电子商务网站迅速发展,网上购物成了潮流。电商网站拥有海量的商品。由于网上的商品信息错综复杂，分类繁琐，更新比率快，对商品进人工标注往往会耗费大量的人力，因此自动化的将商品进行分类成为了电商的基本需求。针对于商品的分类，国内外往往采用数据挖掘的方法进行操作。

现有技术中，通常采用K均值(K-means)聚类算法对商品进行分类。K-means算法是无监督聚类算法，是基于数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。例如，在短文本聚类领域，针对书籍名称进行聚类时，通过K-means算法随机选定k个聚类关键词，计算每个书籍名称相对于选定聚类关键词的距离，选取距离最小的聚类关键词作为书籍名称的类，根据每一类中书籍名称的平均值，重新计算每个聚类关键词，重复进行以上过程，直到每个类中的书籍名称不再变化。

但是，采用传统的k-means聚类算法，聚类关键词的数目不可预测，且采用不同的初始聚类关键词得到的聚类结果往往会有较大偏差，如果聚类关键词选择了密集数据的边缘区域或者噪声数据，会对聚类结果造成极大影响。

发明内容

本发明实施例提供一种面向图书市场书名的短文本聚类方法，用于解决现有技术中的聚类方法不能准确地对图书市场书名进行聚类的问题。

本发明实施例提供一种面向图书市场书名的短文本聚类方法，包括：

对文本数据及设定的聚类关键词进行词向量化，形成文本数据词向量及聚类关键词向量；

计算文本数据词向量到所述聚类关键词向量的距离；

根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型，根据所述文本数据词向量的聚类类型将所述文本数据词向量划分到对应的聚类集合；

计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率，以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率，得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值；

确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词；

根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。

另一实施例中，所述计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的词频，以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率，得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，包括：

根据TF×IDF得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，其中，TF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率，IDF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合外的其它聚类集合中的出现频率，n_ik为第i个聚类集合中包含特征词k的文本数据词向量的数量，S_i为第i个聚类集合中的文本数据词向量的总数，n_～ik为在第i个聚类集合之外的其它聚类集合中包含特征词k的文本数据词向量的数量，S_～i为在第i个聚类集合之外的其它聚类集合中的文本数据词向量的总数；i和k为大于等于1的整数。

另一实施例中，所述计算所述文本数据词向量到所述聚类关键词向量的距离包括：

根据计算第m个文本数据词向量到第n个聚类关键词向量的距离，其中，c_m表示所述第m个文本数据词向量，c_n表示所述第n个聚类关键词向量，m及n为大于等于1的整数。

另一实施例中，所述根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型包括：确定与所述文本数据词向量相距距离最小的聚类关键词为所述文本数据词向量的聚类类型。

另一实施例中，所述将TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词包括：

将TF-IDF值最大的前五个特征词作为所述第i个聚类集合更新后的聚类关键词。

另一实施例中，所述将TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词之前，还包括：对所述第i个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值进行排序，去除所述设定的聚类关键词中已经包括在所述第i个聚类集合中的特征词以及TF-IDF值小于设定阈值的特征词。

另一实施例中，所述设定阈值大于等于10。

另一实施例中，所述设定的聚类关键词有多个，所述多个聚类关键词之间具有语义上的互斥关系。

本发明实施例提供的一种面向图书市场书名的短文本聚类方法，通过对文本数据及设定的聚类关键词进行词向量化，计算文本数据词向量到所述聚类关键词向量的距离，根据根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型，根据所述文本数据的聚类类型将所述文本数据词向量划分到对应的聚类集合；然后计算每个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词；根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。采用本发明实施例提供的短文本聚类方法，根据用户需求提前设定所述聚类关键词的数量及内容的初始值，并使用改进的TF-IDF算法，体现出特征词在不同聚类中的重要性，能够更加准确地确定文本数据词向量的聚类类型，使聚类结果能够更接近用户的实际需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种面向图书市场书名的短文本聚类方法的流程示意图。

图2为本发明实施例一种面向图书市场书名的短文本聚类方法的另一种流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着互联网电子商务网站的迅速发展，将商品进行自动化分类成为了互联网电子商务网站的基本需求。针对于商品的分类，现有技术通常采用K均值(K-means)聚类算法对商品进行分类。但是，传统的k-means聚类算法，聚类关键词的数目不可预测，且采用不同的初始聚类关键词得到的聚类结果往往会有较大偏差，如果聚类关键词选择了密集数据的边缘区域或者噪声数据，会对聚类结果造成极大影响。

基于此，本发明实施例提供一种短文本聚类方法，用于对大量的文本数据进行分类。本发明实施例提供的短文本聚类方法基于设置初始聚类关键词向量及聚类关键词向量的扩展算法，有效的提高了K-MEANS算法在短文本聚类时的准确率，使聚类结果更接近于使用者的实际需求。

图1为本发明实施例一种面向图书市场书名的短文本聚类方法的流程示意图。图2为本发明实施例一种面向图书市场书名的短文本聚类方法的另一种流程示意图。请参阅图1及图2，所述方法包括：

S101：对文本数据及设定的聚类关键词进行词向量化，形成文本数据词向量及聚类关键词向量；

具体地，所述设定的聚类关键词有多个，所述多个聚类关键词之间具有语义上的互斥关系。例如，计算机，数学，化学。所述设定的聚类关键词的数量及内容由用户输入。

将所述设定的聚类关键词向量化，将每个聚类关键词转化为一个聚类关键词向量，所述聚类关键词向量使用HASHSET数据结构存储。

对于数据库中的每一条文本数据，首先使用结巴分词开源库将所述文本数据进行最大化分词。对于分词后的结果，只保留名词与动词，将其他连词，介词等无法作为特征词的分词结果舍掉，并将所述文本数据进行词向量化，形成文本数据词向量，使用HASHSET数据结构存储。

S102：计算文本数据词向量到所述聚类关键词向量的距离；

计算每一条文本数据词向量与所述聚类关键词向量之间的距离，遍历每一条文本数据词向量中的每一个特征词，在所述聚类关键词向量中查询是否存在所述特征词，若存在，则所述文本数据词向量与所述聚类关键词向量点积加1。

具体地，根据计算第m个文本数据词向量到第n个聚类关键词向量的距离，其中，c_m表示所述第m个文本数据词向量，c_n表示所述第n个聚类关键词向量，m及n为大于等于1的整数。

S103：根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型，根据所述文本数据的聚类类型将所述文本数据词向量划分到对应的聚类集合；

具体地，确定与所述第m个文本数据词向量相距距离最小的聚类关键词为第m个文本数据的聚类类型。在数据库中将所述第m个文本数据词向量对应的第m个文本数据标记为对应的聚类。若所述第m个文本数据词向量与各聚类关键词向量的距离均为1，则表示所述第m个文本数据不属于任何一个类型。

S104：计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的词频，以及所述聚类集合中的所有文本数据词向量中的特征词在所述第i个聚类集合之外的其它聚类集合中的逆向文件频率，得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率(TermFrequency–Inverse Document Frequency，TF-IDF)值；

具体地，根据TF×IDF得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，其中，TF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率，IDF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合外的其它聚类集合中的出现频率，n_ik为第i个聚类集合中包含特征词k的文本数据词向量的数量，S_i为第i个聚类集合中的文本数据词向量的总数，n_～ik为在第i个聚类集合之外的其它聚类集合中包含特征词k的文本数据词向量数量，S_～i为在第i个聚类集合之外的其它聚类集合中的文本数据词向量的总数；i和k为大于等于1的整数。所述IDF值反映了特征词在不同聚类中的重要性，能够更加准确地确定文本数据的聚类类型。

在所述步骤S104之后，对所述第i个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值进行排序，去除所述设定的聚类关键词中已经包括在所述第i个聚类集合中的特征词以及TF-IDF值小于设定阈值的特征词，以保证选定的特征词的可靠性。例如，所述设定阈值可以大于等于10。所述第i个聚类集合中的文本数据词向量中的特征词的TF-IDF值越大，说明所述特征词的区分度越高。如果所述第i个聚类集合中的文本数据词向量中的特征词的TF-IDF值等于零，则说明所述特征词没有区分度，则舍弃所述特征词。

S105：确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词；

具体地，经过步骤S104中对所述特征词的TF-IDF值进行排序后，将TF-IDF值最大的前五个特征词作为所述第i个聚类集合更新后的聚类关键词。

S106：根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。

重复上述步骤S101-S106，直到每个聚类集合中的文本数据词向量不再改变，对所述文本数据的聚类过程结束，数据库中对各个文本数据标记的聚类类型即为所述各个文本数据对应的聚类。

本发明实施例提供的一种面向图书市场书名的短文本聚类方法，通过对文本数据及设定的聚类关键词进行词向量化，计算文本数据词向量到所述聚类关键词向量的距离，根据根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据的聚类类型，根据所述文本数据的聚类类型将所述文本数据划分到对应的聚类集合；然后计算每个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词；根据所述更新后的聚类关键词确定所述文本数据的聚类类型。采用本发明实施例提供的一种面向图书市场书名的短文本聚类方法，根据用户需求提前设定所述聚类关键词的数量及内容的初始值，并使用改进的TF-IDF算法，体现出特征词在不同聚类中的重要性，能够更加准确地确定文本数据的聚类类型，使聚类结果能够更接近用户的实际需求。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种面向图书市场书名的短文本聚类方法，其特征在于，包括：

根据用户需求提前设定聚类关键词的数量及内容的初始值，对文本数据及设定的聚类关键词进行词向量化，形成文本数据词向量及聚类关键词向量；所述设定的聚类关键词有多个，多个聚类关键词之间具有语义上的互斥关系；

计算文本数据词向量到所述聚类关键词向量的距离；

根据计算第m个文本数据词向量到第n个聚类关键词向量的距离，其中，c_m表示所述第m个文本数据词向量，c_n表示所述第n个聚类关键词向量，m及n为大于等于1的整数；

根据每个文本数据词向量到所述聚类关键词向量的距离，确定所述文本数据词向量的聚类类型；根据所述文本数据词向量的聚类类型，将所述文本数据词向量划分到对应的聚类集合；

对第i个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值进行排序，去除所述设定的聚类关键词中已经包括在所述第i个聚类集合中的特征词以及TF-IDF值小于设定阈值的特征词；i为大于等于1的整数；

根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型；

所述计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率，以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率，得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每个文本数据词向量到所述聚类关键词向量的距离，确定所述文本数据词向量的聚类类型包括：确定与所述文本数据词向量相距距离最小的聚类关键词向量为所述文本数据词向量的聚类类型。

3.根据权利要求1所述的方法，其特征在于，所述确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词包括：

4.根据权利要求1所述的方法，其特征在于，所述设定阈值大于等于10。