CN107577792A

CN107577792A - 一种企业数据自动聚类的方法及其系统

Info

Publication number: CN107577792A
Application number: CN201710843366.9A
Authority: CN
Inventors: 宋小鹏
Original assignee: Qianhai Sycamore (shenzhen) Data Co Ltd
Current assignee: Qianhai Sycamore (shenzhen) Data Co Ltd
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2018-01-12

Abstract

本发明涉及一种企业数据自动聚类的方法及其系统，该方法包括获取企业相关数据；对企业相关数据进行预处理并存储；针对处理后的企业相关数据获取文本向量；根据K‐Means算法对文本向量进行分类和聚类。本发明通过获取海量的可靠的企业相关数据，确保数据源的准确性以及可靠性，利用无监督学习算法的机器学习技术，对企业进行预处理，利用HAFS进行数据存储，保证聚类的自动化和可靠性，采用自然语言进行数据分析且获取文本向量以及其对应的权重，基于专家的K值优化和分类模型，从海量数据中对文本向量进行自动聚类，保证聚类支持更符合实际应用的需要，保证聚类的自动化和可用性。

Description

一种企业数据自动聚类的方法及其系统

技术领域

本发明涉及企业数据处理方法，更具体地说是指一种企业数据自动聚类的方法及其系统。

背景技术

企业数据泛指所有与企业经营相关的信息、资料，包括公司概况、产品信息、经营数据、研究成果等，其中不乏涉及商业机密,通常所说的企业数据是指狭义的企业数据，一般只包含公司概况介绍，包括公司经营范围、联系方式、企业规模等，通常是公开的数据。企业数据的获取渠道分为集中式和分布式。集中式一般由统一的政府部门发布，如工商局数据、统计局数据，具有权威性和全面性，但数据内容比较粗略，缺乏精细度。分布式是由商业公司透过下属部门通过各种手段分散获取并统一整理，一般能使数据的精细度和准确度达到一定要求。

目前,数据和信息在互联网泛滥,而企业数据更是杂乱无章,现阶段处理这些企业数据的方式大多处于人工阶段,比较先进的也只能是半自动化的方式，对数据进行归类，也还是需要人工协助处理，在面对海量企业数据时，分类的效率低下，准确率也低下。

因此，有必要设计一种企业数据自动聚类的方法，实现海量数据的聚类，保证聚类支持更符合实际应用的需要，保证聚类的自动化和可用性。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种企业数据自动聚类的方法及其系统。

为实现上述目的，本发明采用以下技术方案：一种企业数据自动聚类的方法，所述方法包括:

获取企业相关数据；

对所述企业相关数据进行预处理并存储；

针对处理后的企业相关数据获取文本向量；

根据K-Means算法对文本向量进行分类和聚类。

其进一步技术方案为：对所述企业相关数据进行预处理并存储的步骤，包括以下具体步骤:

对所述企业相关数据进行挖掘、分类，获取基础数据库；

将分类后的企业相关数据存储于所述基础数据库中。

其进一步技术方案为：针对处理后的企业相关数据获取文本向量的步骤，包括以下具体步骤：

对存储的企业相关数据进行清洗；

对企业相关数据中的文本数据进行分词；

对分词后的文本数据去除停用词，获取符合要求的文本数据；

获取所述文本数据对应的文本向量以及其对应的权值。

其进一步技术方案为：根据K-Means算法对文本向量进行分类和聚类的步骤，包括以下具体步骤：

在所有文本向量中，随机选择若干个文本向量作为聚类中心；

计算所有文本向量与所述聚类中心的距离，获取最小距离；

根据最小距离重新对所述文本向量进行划分，重新获取聚类中心；

判断两次的每个聚类中心是否发生变化；

若是，则返回所述所有文本向量与所述聚类中心的距离，获取最小距离的步骤；

若不是，则输出聚类中心的个数。

本发明还提供了一种企业数据自动聚类的系统，包括数据获取单元、处理单元、向量化单元以及聚类单元；

所述数据获取单元，用于获取企业相关数据；

所述处理单元，用于对所述企业相关数据进行预处理并存储；

所述向量化单元，用于针对处理后的企业相关数据获取文本向量；

所述聚类单元，用于根据K-Means算法对文本向量进行分类和聚类。

其进一步技术方案为：所述处理单元包括预处理模块以及存储模块；

所述预处理模块，用于对所述企业相关数据进行挖掘、分类，获取基础数据库；

所述存储模块，用于将分类后的企业相关数据存储于所述基础数据库中。

其进一步技术方案为：所述向量化单元包括清洗模块、分词模块、剔除模块以及向量权值获取模块；

所述清洗模块，用于对存储的企业相关数据进行清洗；

所述分词模块，用于对企业相关数据中的文本数据进行分词；

所述剔除模块，用于对分词后的文本数据去除停用词，获取符合要求的文本数据；

所述向量权值获取模块，用于获取所述文本数据对应的文本向量以及其对应的权值。

其进一步技术方案为：所述聚类单元包括中心获取模块、距离获取模块、划分模块以及判断模块；

所述中心获取模块，用于在所有文本向量中，随机选择若干个文本向量作为聚类中心；

所述距离获取模块，用于计算所有文本向量与所述聚类中心的距离，获取最小距离；

所述划分模块，用于根据最小距离重新对所述文本向量进行划分，重新获取聚类中心；

所述判断模块，用于判断两次的每个聚类中心是否发生变化，若是，则返回所有文本向量与所述聚类中心的距离，获取最小距离，若不是，则输出聚类中心的个数。

本发明与现有技术相比的有益效果是：本发明的一种企业数据自动聚类的方法，通过获取海量的可靠的企业相关数据，确保数据源的准确性以及可靠性，利用无监督学习算法的机器学习技术，对企业进行预处理，利用HAFS进行数据存储，保证聚类的自动化和可靠性，采用自然语言进行数据分析且获取文本向量以及其对应的权重，基于专家的K值优化和分类模型，从海量数据中对文本向量进行自动聚类，保证聚类支持更符合实际应用的需要，保证聚类的自动化和可用性。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

图1为本发明具体实施例提供的一种企业数据自动聚类的方法的流程图；

图2为本发明具体实施例提供的对所述企业相关数据进行预处理并存储的流程图；

图3为本发明具体实施例提供的针对处理后的企业相关数据获取文本向量的流程图；

图4为本发明具体实施例提供的根据K-Means算法对文本向量进行分类和聚类的流程图；

图5为本发明具体实施例提供的聚类中心的坐标表格；

图6为本发明具体实施例提供的一种企业数据自动聚类的系统的结构框图；

图7为本发明具体实施例提供的处理单元的结构框图；

图8为本发明具体实施例提供的向量化单元的结构框图；

图9为本发明具体实施例提供的聚类单元的结构框图。

具体实施方式

为了更充分理解本发明的技术内容，下面结合具体实施例对本发明的技术方案进一步介绍和说明，但不局限于此。

如图1～9所示的具体实施例，本实施例提供的一种企业数据自动聚类的方法，可以运用在企业数据的归类过程中，实现海量数据的聚类，保证聚类支持更符合实际应用的需要，保证聚类的自动化和可用性。

如图1所示，本实施例提供了一种企业数据自动聚类的方法,该方法包括:

S1、获取企业相关数据；

S2、对所述企业相关数据进行预处理并存储；

S3、针对处理后的企业相关数据获取文本向量；

S4、根据K-Means算法对文本向量进行分类和聚类。

对于上述的S1步骤，具体是使用数据爬取技术，在设定的时间内从互联网采集爬取企业相关数据，该相关数据包括但不限于各类新闻报道等，并且定期更新，以此来积累企业的相关数据，以确保企业相关数据是最新的，海量可靠数据的支持，保证了数据的准确性和可靠性。

更进一步地，上述的S2步骤，对所述企业相关数据进行预处理并存储的步骤，包括以下具体步骤:

S21、对所述企业相关数据进行挖掘、分类，获取基础数据库；

S22、将分类后的企业相关数据存储于所述基础数据库中。

对于上述的S21步骤，具体是采用机器学习技术，通过对互联网上海量的企业相关数据进行挖掘、分类，建立基础数据数据库，其中，挖掘具体是针对企业相关数据中的关键词进行挖掘，比如企业市场、资金以及合作模式等，针对关键词的不同以及企业相关数据归类的规则，对企业相关数据进行归类，相关数据以及所属的类别组成基础数据库。采用无监督学习算法的机器学习，机器学习是计算机模仿人类行为进行数据的自动分析，具体是神经网络在进行数据分析，保证聚类的自动化和可用性。

对于上述的S22步骤，具体是使用大数据HDFS技术分布式存储海量数据，HDFS有着高容错性的特点，并且设计用来部署在低廉的硬件上，而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求，这样可以实现流的形式访问基础数据库中的数据。

更进一步地，上述的S3步骤，针对处理后的企业相关数据获取文本向量的步骤，包括以下具体步骤：

S31、对存储的企业相关数据进行清洗；

S32、对企业相关数据中的文本数据进行分词；

S33、对分词后的文本数据去除停用词，获取符合要求的文本数据；

S34、获取所述文本数据对应的文本向量以及其对应的权值。

具体的，上述的S31步骤至S32步骤，对企业相关数据进行分段处理以及分句处理，获取每段文本以及每句文本，对每段文本以及每句文本进行分词处理，获取每段以及每句中的分词。

上述的S33步骤以及S34步骤，通过TF-IDF方法获得文本向量的权值，每个文本向量的维数是相同的，是所有文本单词的数目，这些单词如果有重复那只算一次，所以如果文本越多，向量的维数将会越大。

更进一步地，上述的S4步骤，根据K-Means算法对文本向量进行分类和聚类的步骤，包括以下具体步骤：

S41、在所有文本向量中，随机选择若干个文本向量作为聚类中心；

S42、计算所有文本向量与所述聚类中心的距离，获取最小距离；

S43、根据最小距离重新对所述文本向量进行划分，重新获取聚类中心；

S44、判断两次的每个聚类中心是否发生变化；

若是，则返回所述S42步骤；

S45、若不是，则输出聚类中心的个数。

上述的S4步骤，将向量化的企业数据进行聚类，目前使用K-Means算法，通过K-means算法对文本进行自动分类，基于专家的K值优化和分类模型，从海量数据中自动聚类，保证聚类支持更符合实际应用的需要。

对于上述的S41步骤至S45步骤，从c个向量化的企业相关数据中的对象(即文本向量)，任意选择k个对象作为初始的聚类中心，此处k表示最终的分类的数量，比如目前有市场策略、资金收入、产品发布、战略合作等类型；根据每个聚类对象的均值(聚类中心)，计算每个对象与这些聚类中心的距离；并根据最小距离重新对相应的对象进行划分；重新计算每个(有变化)聚类中心的均值(坐标)，直至每个聚类中心不再发生变化，如图5所示，具体是从聚类中心的坐标入手去判断聚类中心的均值是否发生变化。

上述的S4步骤，具体采用以下的代码实现：

上述的一种企业数据自动聚类的方法，通过获取海量的可靠的企业相关数据，确保数据源的准确性以及可靠性，利用无监督学习算法的机器学习技术，对企业进行预处理，利用HAFS进行数据存储，保证聚类的自动化和可靠性，采用自然语言进行数据分析且获取文本向量以及其对应的权重，基于专家的K值优化和分类模型，从海量数据中对文本向量进行自动聚类，保证聚类支持更符合实际应用的需要，保证聚类的自动化和可用性。

如图6所示，本实施例还提供了一种企业数据自动聚类的系统，其包括数据获取单元1、处理单元2、向量化单元3以及聚类单元4。

数据获取单元1，用于获取企业相关数据。

处理单元2，用于对所述企业相关数据进行预处理并存储。

向量化单元3，用于针对处理后的企业相关数据获取文本向量。

聚类单元4，用于根据K-Means算法对文本向量进行分类和聚类。

对于上述的数据获取单元1，具体是使用数据爬取技术，在设定的时间内从互联网采集爬取企业相关数据，该相关数据包括但不限于各类新闻报道等，并且定期更新，以此来积累企业的相关数据，以确保企业相关数据是最新的，海量可靠数据的支持，保证了数据的准确性和可靠性。

更进一步的，上述的处理单元2包括预处理模块21以及存储模块22。

预处理模块21，用于对所述企业相关数据进行挖掘、分类，获取基础数据库。

存储模块22，用于将分类后的企业相关数据存储于所述基础数据库中。

上述的预处理模块21具体是采用机器学习技术，通过对互联网上海量的企业相关数据进行挖掘、分类，建立基础数据数据库，其中，挖掘具体是针对企业相关数据中的关键词进行挖掘，比如企业市场、资金以及合作模式等，针对关键词的不同以及企业相关数据归类的规则，对企业相关数据进行归类，相关数据以及所属的类别组成基础数据库。采用无监督学习算法的机器学习，机器学习是计算机模仿人类行为进行数据的自动分析，具体是神经网络在进行数据分析，保证聚类的自动化和可用性。

上述的存储模块22具体是使用大数据HDFS技术分布式存储海量数据，HDFS有着高容错性的特点，并且设计用来部署在低廉的硬件上，而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求，这样可以实现流的形式访问基础数据库中的数据。

更进一步地，上述的向量化单元3包括清洗模块31、分词模块32、剔除模块33以及向量权值获取模块34。

清洗模块31，用于对存储的企业相关数据进行清洗。

分词模块32，用于对企业相关数据中的文本数据进行分词。

剔除模块33，用于对分词后的文本数据去除停用词，获取符合要求的文本数据。

向量权值获取模块34，用于获取所述文本数据对应的文本向量以及其对应的权值。

对于清洗模块31以及分词模块32而言，对企业相关数据进行分段处理以及分句处理，获取每段文本以及每句文本，对每段文本以及每句文本进行分词处理，获取每段以及每句中的分词。

对于上述的剔除模块33以及向量权值获取模块34而言，通过TF-IDF方法获得文本向量的权值，每个文本向量的维数是相同的，是所有文本单词的数目，这些单词如果有重复那只算一次，所以如果文本越多，向量的维数将会越大。

另外，上述的聚类单元4包括中心获取模块41、距离获取模块42、划分模块43以及判断模块44。

中心获取模块41，用于在所有文本向量中，随机选择若干个文本向量作为聚类中心。

距离获取模块42，用于计算所有文本向量与所述聚类中心的距离，获取最小距离。

划分模块43，用于根据最小距离重新对所述文本向量进行划分，重新获取聚类中心。

判断模块44，用于判断两次的每个聚类中心是否发生变化，若是，则返回所有文本向量与所述聚类中心的距离，获取最小距离，若不是，则输出聚类中心的个数。

上述的聚类单元4将向量化的企业数据进行聚类，目前使用K-Means算法，通过K-means算法对文本进行自动分类，基于专家的K值优化和分类模型，从海量数据中自动聚类，保证聚类支持更符合实际应用的需要。

从c个向量化的企业相关数据中的对象(即文本向量)，任意选择k个对象作为初始的聚类中心，此处k表示最终的分类的数量，比如目前有市场策略、资金收入、产品发布、战略合作等类型；根据每个聚类对象的均值(聚类中心)，计算每个对象与这些聚类中心的距离；并根据最小距离重新对相应的对象进行划分；重新计算每个(有变化)聚类中心的均值(坐标)，直至每个聚类中心不再发生变化，如图5所示，具体是从聚类中心的坐标入手去判断聚类中心的均值是否发生变化。

上述的一种企业数据自动聚类的系统，通过获取海量的可靠的企业相关数据，确保数据源的准确性以及可靠性，利用无监督学习算法的机器学习技术，对企业进行预处理，利用HAFS进行数据存储，保证聚类的自动化和可靠性，采用自然语言进行数据分析且获取文本向量以及其对应的权重，基于专家的K值优化和分类模型，从海量数据中对文本向量进行自动聚类，保证聚类支持更符合实际应用的需要，保证聚类的自动化和可用性。

上述仅以实施例来进一步说明本发明的技术内容，以便于读者更容易理解，但不代表本发明的实施方式仅限于此，任何依本发明所做的技术延伸或再创造，均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims

1.一种企业数据自动聚类的方法，其特征在于，所述方法包括:

获取企业相关数据；

对所述企业相关数据进行预处理并存储；

针对处理后的企业相关数据获取文本向量；

根据K-Means算法对文本向量进行分类和聚类。

2.根据权利要求1所述的一种企业数据自动聚类的方法，其特征在于，对所述企业相关数据进行预处理并存储的步骤，包括以下具体步骤:

对所述企业相关数据进行挖掘、分类，获取基础数据库；

将分类后的企业相关数据存储于所述基础数据库中。

3.根据权利要求1或2所述的一种企业数据自动聚类的方法，其特征在于，针对处理后的企业相关数据获取文本向量的步骤，包括以下具体步骤：

对存储的企业相关数据进行清洗；

对企业相关数据中的文本数据进行分词；

获取所述文本数据对应的文本向量以及其对应的权值。

4.根据权利要求3所述的一种企业数据自动聚类的方法，其特征在于，根据K-Means算法对文本向量进行分类和聚类的步骤，包括以下具体步骤：

计算所有文本向量与所述聚类中心的距离，获取最小距离；

判断两次的每个聚类中心是否发生变化；

若不是，则输出聚类中心的个数。

5.一种企业数据自动聚类的系统，其特征在于，包括数据获取单元、处理单元、向量化单元以及聚类单元；

所述数据获取单元，用于获取企业相关数据；

6.根据权利要求5所述的一种企业数据自动聚类的系统，其特征在于，所述处理单元包括预处理模块以及存储模块；

7.根据权利要求6所述的一种企业数据自动聚类的系统，其特征在于，所述向量化单元包括清洗模块、分词模块、剔除模块以及向量权值获取模块；

所述清洗模块，用于对存储的企业相关数据进行清洗；

8.根据权利要求7所述的一种企业数据自动聚类的系统，其特征在于，所述聚类单元包括中心获取模块、距离获取模块、划分模块以及判断模块；