CN115344693A

CN115344693A - 一种基于传统算法和神经网络算法融合的聚类方法

Info

Publication number: CN115344693A
Application number: CN202210811541.7A
Authority: CN
Inventors: 张俊良; 王栋; 刘杰
Original assignee: Beijing Ronglian Yitong Information Technology Co ltd
Current assignee: Beijing Ronglian Yitong Information Technology Co ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-11-15
Anticipated expiration: 2042-07-11
Also published as: CN115344693B

Abstract

本发明提供了一种基于传统算法和神经网络算法融合的聚类方法，包括：S1：对初始营销语句进行划分和向量初始化操作，获得对应的营销词向量；S2：将所述营销词向量输入至语言表征模型，获得对应的营销词特征向量；S3：将所述营销词特征向量输入至降维算法中，获得对应的降维结果；S4：基于预设迭代条件对所述降维结果进行迭代，获得对应的最终聚类结果。用以在电话营销场景下，基于神经网络模型和传统降维算法以及聚类算法的三种算法融合的聚类算法，对收集到的客户文本语句先提取特征然后进行聚类分析，以为下一步数据挖掘做准备工作。

Description

一种基于传统算法和神经网络算法融合的聚类方法

技术领域

本发明涉及计算机应用技术和数据挖掘以及聚类融合技术领域，特别涉及一种基于传统算法和神经网络算法融合的聚类方法。

背景技术

目前，近年来，存储数据的爆炸性增长业已激起对新技术和自动信息处理工具的需求，以便将海量的数据转化为有用的信息和知识。在这种背景下，知识发现和数据挖掘应运而生，它是一个从大量的、不完全的、有噪声的实际应用数据中，提取隐含在其中的、事先未知的、但又潜在有用的知识的过程。作为数据挖掘的重要方法之一，聚类算法被用于许多知识领域，这些领域通常要求找出特定数据中的“自然关联”。因此，提升聚类水平，是当前比较重要的研究任务。

为解决这一任务，近年来的聚类分析算法主要包括：划分方法包括k-Means,k-Medoids(k中心点),CLANRANS(基于选择的方法)，这类算法对数据噪声和异常值比较敏感，由于K-Means算法是采用均值作为每个聚类的聚类中心，所以异常值会严重干扰正常聚类中心的计算，造成聚类失真；层次分析方法包括BIRCH(平均迭代规约和聚类)，CURE(代表点聚类)，CHAMELEON(动态模型)等，这类聚类的方法描述起来虽然比较简单，但是计算复杂度比较高，为了寻找最远距离，最近距离或平均距离，需要对所有的距离计算一遍，要用到双重循环，而每次迭代都只能合并两个子类，因此非常缓慢；基于密度的方法，如DBSCAN(高密度连接区域)，DENCLUE(密度分布函数)，OPTICS(对象排序识别)，这类算法的缺点是当数据集密度差异很大时，聚类质量会较差，当数据集较大时，聚类收敛时间长，这类算法的聚类效果依赖于距离公式的选取，实际应用中常用欧氏距离，但对于高维数据，存在“维数灾难”；基于网格的方法，如STING(统计信息网格)，SLIOUE(聚类高维空间)，WAVE-CLUSTER(小波变化)，这类算法的缺点是只能发现边界是水平或垂直的簇，而不能检测到斜边界。另外，在处理高维数据时，网格单元的数目会随着属性维数的增长而成指数级增长；基于模型的方法，如统计学，神经网络。这类算法的缺点是执行效率不高，特别是在分布数量很多并且数据量很少的时候。

以上方法都有突出的地方，但是应用于聚类场景也都有一定的不足。特别地，针对如今越来越多的数据，同时对聚类效率和聚类效果都有更高的要求，目前的算法难以同时满足这两点要求。

因此，本发明针对这一问题，提供了一种基于传统算法和神经网络算法融合的聚类方法。

发明内容

本发明提供一种基于传统算法和神经网络算法融合的聚类方法，用以在电话营销场景下，基于神经网络模型和传统降维算法以及聚类算法的三种算法融合的聚类算法，对收集到的客户文本语句先提取特征然后进行聚类分析，以为下一步数据挖掘做准备工作。

本发明提供一种基于传统算法和神经网络算法融合的聚类方法，包括：

S1：对初始营销语句进行划分和向量初始化操作，获得对应的营销词向量；

S2：将所述营销词向量输入至语言表征模型，获得对应的营销词特征向量；

S3：将所述营销词特征向量输入至降维算法中，获得对应的降维结果；

S4：基于预设迭代条件对所述降维结果进行迭代，获得对应的最终聚类结果。

优选的，所述的一种基于传统算法和神经网络算法融合的聚类方法，S1：对初始营销语句进行划分和向量初始化操作，获得对应的营销词向量，包括：

获取初始营销语句集；

按照预设划分方法将所述初始营销语句集划分为对应的训练语句集和待聚类语句集；

对所述训练语句集和所述待聚类语句集中包含的语句进行分词处理，获得每个语句对应的营销词集合；

为所述营销词集合配置对应的初始输入参数，将所述初始输入参数输入至所述语言表征模型的嵌入层，获得对应的嵌入位置、嵌入类型和嵌入标志；

基于所述嵌入位置获得对应的位置特征，同时，基于所述嵌入类型获得对应的类型特征，同时，基于所述嵌入标志获得对应的标志特征；

基于所述位置特征和所述类型特征以及所述标志特征确定出每个初始营销语句对应的营销词向量。

优选的，一种基于传统算法和神经网络算法融合的聚类方法，对所述训练语句集和所述待聚类语句集中包含的语句进行分词处理，包括：

确定初始分词词典中最长词的第一字符数；

将所述训练语句集中包含的每个训练语句从右至左的第一字符数的字符作为第一字符链；

将所述第一字符链与所述初始分词词典中的词进行匹配，若匹配成功，则将所述第一字符链作为对应训练语句中的第一个词；

否则，将所述第一字符链中的最左边字符删除，再进行匹配，直至确定出对应训练语句中的第一个词；

按照从右至左的顺序依次将所述训练语句中剩余的字符与所述初始分词词典中的词进行匹配，直至将所有训练语句分词完成，获得每个训练语句对应的营销词集合；

将所述训练语句对应的营销词集合中对应的词序列作为观测序列；

基于预设分词模型和所述观测序列，计算出对应的观测概率；

基于所述观测概率调节所述预设分词模型的参数，直到获得最大观测概率；

基于最大观测概率对应的参数，获得对应的最优分词模型；

将所述待聚类语句集中包含的每个待聚类语句和所述最优分词模型，确定出每个待聚类语句对应的最优分词结构；

基于所述最优分词结构对对应待聚类语句进行分词处理，获得每个待聚类语句对应的营销词集合。

优选的，所述的一种基于传统算法和神经网络算法融合的聚类方法，S2：将所述营销词向量输入至语言表征模型，获得对应的营销词特征，包括：

将所述训练语句集对应的第一营销词向量集合构成对应的训练向量矩阵；

基于所述训练向量矩阵和对应的权重矩阵确定出对应的营销词矩阵；

将所述营销词矩阵输入至所述语言表征模型的全连接层，并将浅层的输出和深层的输出求和，获得对应的求和结果；

基于所述求和结果和所述训练向量矩阵以及预设计算规则，获得对应的计算结果；

将所述计算结果进行标准化处理，获得对应的标准化结果；

确定本次训练过程中的待优化参数，基于所述标准化结果对所述待优化参数进行优化，获得优化参数；

判断所述优化参数是否满足要求，若是，则将所述待聚类语句集对应的所有第二营销词向量集合输入至所述优化语言表征模型，获得对应的营销词特征向量；

否则，基于所述优化参数获得对应的优化语言表征模型；

将所述标准化结果重新输入至所述优化语言表征模型中进行不断训练，直至获得的新的优化参数满足要求时，则将所述待聚类语句集对应的所有第二营销词向量集合输入至所述优化语言表征模型，获得对应的营销词特征向量。

优选的，所述的一种基于传统算法和神经网络算法融合的聚类方法，判断所述优化参数是否满足要求，包括：

构建误差损失函数；

基于所述误差损失函数和所述优化参数计算出对应的误差损失值；

判断所述误差损失值是否大于误差损失阈值，若是，则判定所述优化参数不满足要求；

否则，判定所述优化参数满足要求。

优选的，所述的一种基于传统算法和神经网络算法融合的聚类方法，S3：将所述营销词特征向量输入至降维算法中，获得对应的降维结果，包括：

将所述营销词特征向量输入至所述降维算法，识别出高维空间中对应的关键结构；

将所述关键结构嵌入值低维空间中，获得营销词低维特征向量作为对应的降维结果。

优选的，所述的一种基于传统算法和神经网络算法融合的聚类方法，S4：基于预设迭代条件对所述降维结果进行迭代，获得对应的最终聚类结果，包括：

按照预设确定策略确定出第一数量个第一中心向量；

计算所述降维结果中每个营销词低维特征向量与每个第一中心向量之间的闵可夫斯基距离；

将每个营销词低维特征向量分别划分至对应的最小闵可夫斯基距离对应的第一中心向量对应的簇中，获得多个第一向量簇；

计算出所述第一向量簇的第二中心向量；

基于所述第二中心向量对所述降维结果中每个营销词低维特征向量进行二次划分，获得多个第二向量簇；

判断所述第二向量簇和所述第二中心向量是否满足预设迭代条件，若是，则将所述第二向量簇输出为对应的最终聚类结果；

否则，基于所述第二向量簇继续进行迭代，直至最新获得的向量簇和中心向量或当前迭代次数满足预设迭代条件时，则将最新获得的向量簇作为对应的最终聚类结果。

优选的，所述的一种基于传统算法和神经网络算法融合的聚类方法，按照预设确定策略确定出第一数量个第一中心向量，包括：

在所述降维结果中随机确定一个营销词低维特征向量作为第一向量；

将所述降维结果中与所述第一向量的闵可夫斯基距离最大的营销词低维特征向量作为第二向量；

将所述降维结果中与所述第一向量和所述第二向量的闵可夫斯基距离之和最大的营销词低维特征向量作为第三向量；

将当前确定的向量总数带入预设评判公式，获得对应的评判值；

基于所述评判值获得对应的评判曲线；

直至所述评判曲线的斜率初次为零时，则将当前确定的向量总数作为对应的第一数量，并将所有确定出的向量作为第一中心向量。

优选的，所述的一种基于传统算法和神经网络算法融合的聚类方法，判断所述第二向量簇和所述第二中心向量是否满足预设迭代条件，包括：

判断所述第二向量簇与所述第一向量簇是否一一对应相同且所述第二中心向量和所述第一中心向量是否一一对应相同，若是，则判定所述第二向量簇和所述第二中心向量满足预设迭代条件；

否则，判定所述第二向量簇与所述第二中心向量满足预设迭代条件。

优选的，所述的一种基于传统算法和神经网络算法融合的聚类方法，直至最新获得的向量簇和中心向量或当前迭代次数满足预设迭代条件，则将最新获得的向量簇作为对应的最终聚类结果，包括：

当最新获得的向量簇和上一次获得的向量簇一一对应相同且最新获得的中心向量和上一次获得的中心向量一一对应相同时，或当前迭代次数不小于迭代次数阈值时，则将最新获得的向量簇作为对应的最终聚类结果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于传统算法和神经网络算法融合的聚类方法流程图；

图2为本发明实施例中一种基于传统算法和神经网络算法融合的聚类方法的整体系统结构示意图；

图3为本发明实施例中一种基于传统算法和神经网络算法融合的聚类方法的模型细节示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

本发明提供了一种基于传统算法和神经网络算法融合的聚类方法，参考图1至3，包括：

该实施例中，传统算法是指传统降维算法umap和聚类算法K-Means。

该实施例中，神经网络算法是指神经网络模型BERT。

该实施例中，初始营销语句即为收集到的客户文本语句。

该实施例中，对初始营销语句进行划分即为对初始化营销语句进行分词处理。

该实施例中，向量初始化操作即为将分词处理后的初始化营销语句转化成对应的向量。

该实施例中，营销词向量集合即为包含表征每个营销语句中包含的营销词的类型特征、位置特征以及标志特征的向量的集合。

该实施例中，语言表征模型即为神经网络模型BERT。

该实施例中，营销词特征向量即为由语言表征模型提取出的表征营销词特征的向量。

该实施例中，降维算法即为传统降维算法umap。

该实施例中，降维结果即为将营销词特征向量经过传统降维算法umap降维后获得的在低维空间中对应的向量。

该实施例中，预设迭代条件即为当前迭代次数不小于迭代次数阈值或两次迭代结果一致。

该实施例中，最终聚类结果即为利用聚类算法K-Means对降维结果不算迭代直至满足预设迭代条件时获得的聚类结果。

该实施例中，本发明主要采用传统机器学习，深度学习与自然语言处理相关的理论方法实现聚类，为了保证系统的正常运行，在具体实施中，要求所使用的计算机平台配备不低于8G的内存，CPU核心数不低于4个且主频不低2.6GHz，装配GPU环境、Linux操作系统，并安装Python 3.6及以上版本、tensorflow1.15及以上版本等必备软件环境。

以上技术的有益效果为：基于神经网络模型和传统降维算法以及聚类算法的三种算法融合的聚类算法，实现在电话营销场景下，对收集到的客户文本语句先提取特征然后进行聚类分析，并充分考虑到了高维数据中的某些维度间可能存在多重共线性的关系，先对这些高维数据进行降维，这样的做法可以较大的提高聚类计算的效率，可以同时满足高聚类效果和高聚类效率的要求，为下一步数据挖掘做准备工作。

实施例2：

在实施例1的基础上，所述的一种基于传统算法和神经网络算法融合的聚类方法，S1：对初始营销语句进行划分和向量初始化操作，获得对应的营销词向量，包括：

获取初始营销语句集；

该实施例中，初始营销语句集即为受到的客户文本语句构成的集合。

该实施例中，预设划分方法即为按照接收时间将初始营销语句集中前十分之九的初始营销语句构成对应的训练语句集，将初始营销语句集中后十分之一的初始营销语句构成对应的待聚类语句集。

该实施例中，营销词集合即为将训练语句集和待聚类语句集中的语句进行分词处理后获得的每个语句对应的词集合。

该实施例中，排序信息即为营销词集合中包含的营销词的排列顺序(即词序列)。

该实施例中，为所述营销词集合配置对应的初始输入参数，将所述初始输入参数输入至所述语言表征模型的嵌入层，获得对应的嵌入位置、嵌入类型和嵌入标志，即为：

基于词序列得到input_id,input_mask,token_typeids，然后进入模型的embedding(嵌入)层得到token_embedding，再加上position_embedding(嵌入位置)和type_embedding(嵌入类型)，position_embedding是根据所在位置计算得到，type_embedding即是token_typeids，三者的加和作为此步骤的输出。

该实施例中，基于所述嵌入位置获得对应的位置特征，同时，基于所述嵌入类型获得对应的类型特征，同时，基于所述嵌入标志获得对应的标志特征，即为：基于position_embedding确定出对应的位置特征(即位置向量信息)，基于type_embedding(即是token_typeids)确定出对应的类型特征(即类型向量信息)，基于token_typeids确定出对应的标志特征(即字符向量信息)。

该实施例中，基于所述位置特征和所述类型特征以及所述标志特征确定出每个初始营销语句对应的营销词向量，例如：

将类型特征数据作为向量的横坐标，将标志特征数据作为向量的纵坐标，将位置特征数据作为向量的角度，进而确定出每个初始营销语句对应的营销词向量；

其中，营销词向量即为对初始营销语句进行划分和向量初始化操作获得的词向量初始化结果。

以上技术的有益效果为：实现对收集的客户文本语句进行分词处理和向量化初始操作，进而获得营销词向量集合，为后续对初始营销语句进行特征提取、降维、聚类提供了数据基础。

实施例3：

在实施例2的基础上，所述的一种基于传统算法和神经网络算法融合的聚类方法，对所述训练语句集和所述待聚类语句集中包含的语句进行分词处理，包括：

确定初始分词词典中最长词的第一字符数；

基于最大观测概率对应的参数，获得对应的最优分词模型；

该实施例中，初始分词词典即为包含所有词的词典。

该实施例中，最长词即为包含字符数最多的词。

该实施例中，第一字符数即为初始分词词典中最长词包含的字符总数。

该实施例中，训练语句即为训练语句集中包含的初始营销语句。

该实施例中，第一字符链即为训练语句中从右至左确定的第一字符数的字符构成的字符链。

该实施例中，观测序列即为营销词集合中包含的词序列，即为后续用于对分词模型进行优化的观测数据。

该实施例中，预设分词模型即为隐马尔可夫模型(HMM)，一般的，一个HMM可以表示为u＝(S,K,A,B,π)，其中，S是状态集合，K是输出符号也就是观察集合，A是状态转移概率，B是符号发射概率，π是初始状态的概率分布。

该实施例中，基于预设分词模型和所述观测序列，计算出对应的观测概率，即为：给定一个观察序列O＝O1,O2,O3,…,Ot和模型u＝(A,B,π)，计算观察序列的概率P(O|μ)。

该实施例中，基于所述观测概率调节所述预设分词模型的参数，直到获得最大观测概率，即为：给定一个观察序列O＝O1,O2,O3…Ot，如何调节模型μ＝(A,B,π)的参数，使得P(O|μ)最大

该实施例中，最大观测概率即为最大P(O|μ)。

该实施例中，最优分词模型即为μ＝(A,B,π)。

该实施例中，将所述待聚类语句集中包含的每个待聚类语句和所述最优分词模型，确定出每个待聚类语句对应的最优分词结构，即为基于待聚类语句集中包含的每个待聚类语句和μ＝(A,B,π)，计算最优的状态序列Q(分词结构)；

例如：设状态集合S＝(B,M,E,S)，每个状态代表的是这个字在词语中的位置，B代表该字是词语中的起始字，M代表是词语中的中间字，E代表是词语中的结束字，S则代表是单字成词；观察值集合K＝(所有的汉字)；则中文分词的问题就是通过观察序列来预测出最优的状态序列；比如观察序列为：O＝太原市迎泽大街；预测的状态序列为：Q＝BMEBMME；根据这个状态序列可以进行分词：BME/BMME/；所以分词结果如下：太原市/迎泽大街/；因为HMM分词算法是基于字的状态(BEMS)来进行分词的，因此很适合用于新词发现，某一个新词只要标记为如“BMME”，就算它没有在历史词典中出现过，HMM分词算法也能将它识别出来。

以上技术的有益效果为：先基于逆向最大匹配原则对训练语句集中的训练语句进行分词，不仅实现对训练语句集的训练，而且获得后续优化预设分词模型的训练数据，为后续训练预设分词模型提供了数据基础，进而获得最优分词模型，使得最优分词模型不仅可以基于初始分词词典中的词对待聚类语句集中的待聚类语句进行分词处理，而且可以基于训练语句集中的分词结果对待聚类语句集中的待聚类语句进行分词处理，使得待聚类语句获得更好的分词效果。

实施例4：

在实施例3的基础上，所述的一种基于传统算法和神经网络算法融合的聚类方法，S2：将所述营销词向量输入至语言表征模型，获得对应的营销词特征，包括：

将所述计算结果进行标准化处理，获得对应的标准化结果；

否则，基于所述优化参数获得对应的优化语言表征模型；

该实施例中，第一营销词向量集合即为由训练语句集中包含的训练语句对应的营销词向量构成的集合。

该实施例中，将所述训练语句集对应的第一营销词向量集合构成对应的训练向量矩阵，即为：将所有训练语句对应的营销词向量作为矩阵的行数据，基于第一营销词向量集合中营销词向量的顺序依次将行数据进行列向排序，获得对应的训练向量矩阵，其中训练向量矩阵即为基于第一营销词向量集合构成的矩阵。

该实施例中，权重矩阵即为：三个维度是(768,768)的权重：Wq,Wk,Wv。

该实施例中，基于所述训练向量矩阵和对应的权重矩阵确定出对应的营销词矩阵，即为：将训练向量矩阵和三个权重矩阵分别相乘，获得三个对应的营销词矩阵Q，K，V。

该实施例中，求和结果即为将所述营销词矩阵输入至所述语言表征模型的全连接层，并将语言表征模型浅层的输出和语言表征模型深层的输出求和后获得的结果。

该实施例中，基于所述求和结果和所述训练向量矩阵以及预设计算规则，获得对应的计算结果，即为：将求和结果和训练矩阵进行对位相加后获得对应的计算结果。

该实施例中，将所述计算结果进行标准化处理即为通过layer normalization对计算结果进行标准化处理。

该实施例中，标准化结果即为对计算结果进行标准化处理后获得的结果。

该实施例中，确定本次训练过程中的待优化参数，即为：token_embedding、position_embedding(嵌入位置)、type_embedding(嵌入类型)。

基于所述标准化结果对所述待优化参数进行优化，获得优化参数，即为将每次输入嵌入层后获得的结果进行残差连接、对位相加、layer normalization、再feed forward，即将上一步输出结果经过两层的dense(稠密的)和一个relu(线性单元)网络层，继续输入后进行上述操作，每次输出后获得的新的token_embedding、position_embedding(嵌入位置)、type_embedding(嵌入类型)都是新确定的优化参数。

该实施例中，第二营销词向量集合即为待聚类语句集中包含的待聚类语句对应的营销词向量构成的集合。

该实施例中，优化语言表征模型即为基于优化参数确定的语言表征模型。

该实施例中，营销词特征向量即为基于满足要求的优化参数确定的语音表征模型确定的待聚类语句集中包含的待聚类语句对应的特征向量。

以上技术的有益效果为：为了将电话营销场景下的客户语料文本进行聚类，本发明首先获取一批训练数据，将之输入神经网络模型BERT进行训练得到训练好的模型文件，后续将待进行聚类处理的文本数据输入BERT并加载预训练好的模型来获取文本对应的特征值，即对应的特征向量，这样可以动态获取文本的特征向量，为后续的降维操作提供了数据基础，做到在不损失信息的同时能够减少计算量。

实施例5：

在实施例4的基础上，所述的一种基于传统算法和神经网络算法融合的聚类方法，判断所述优化参数是否满足要求，包括：

构建误差损失函数；

否则，判定所述优化参数满足要求。

该实施例中，误差损失函数即为：

式中，R_emp(f)即为误差损失值，i为第i个优化参数，n为优化参数的总个数，max{}为取最大值，y_i为第i个最优参数，f_i(x)为此次训练获得的第i个优化参数，γJ(f)是一个整体表述即为语言表征模型对应的正则化项；

式中，此次训练过程中获得的三个优化参数为3、4、5，三个最优参数对应为5、6、4，正则化项未1，则误差损失值为0.67。

该实施例中，基于所述误差损失函数和所述优化参数计算出对应的误差损失值，即为：将优化参数代入误差损失函数中获得对应的误差损失值；

该实施例中，误差损失值即为表征此次训练过程中获得的优化参数是否接近最优参数，若是，则误差损失值特别小，否则，误差损失值特别大。

该实施例中，误差损失阈值即为预先设置的停止训练时对应的最大误差损失值。

以上技术的有益效果为：通过构建误差损失函数实现对神经网络模型BERT训练结果的监控，通过控制误差损失值保证了神经网络模型BERT的优化效果。

实施例6：

在实施例5的基础上，所述的一种基于传统算法和神经网络算法融合的聚类方法，S3：将所述营销词特征向量输入至降维算法中，获得对应的降维结果，包括：

该实施例中，关键结构即为营销词特征向量在高维空间中对应的数据结构。

该实施例中，降维算法即为传统降维算法umap，之所以选umap算法也是经过了实验的证实，其比PCA主成分分析降维法和t-SNE降维算法精度更高，耗时更短，umap是目前比较好的降维算法。

以上技术的有益效果为：将提取的特征向量经过降维算法降维至低维空间中，可以做到在不损失信息的同时能够减少计算量。

实施例7：

在实施例6的基础上，所述的一种基于传统算法和神经网络算法融合的聚类方法，S4：基于预设迭代条件对所述降维结果进行迭代，获得对应的最终聚类结果，包括：

按照预设确定策略确定出第一数量个第一中心向量；

计算出所述第一向量簇的第二中心向量；

该实施例中，第一数量即为K-means聚类算法中的K值，即为聚类形成的簇的总个数。

该实施例中，第一中心向量即为按照预设确定策略确定的K-means聚类算法中的K个初始中心点。

该实施例中，预设确定策略即为实施例8中所述的方法。

该实施例中，计算所述降维结果中每个营销词低维特征向量与每个第一中心向量之间的闵可夫斯基距离，即为：

式中，D为闵可夫斯基距离，c为变参数且可以取值为1、2、∞，p为第p个营销词低维特征向量，x为营销词低维特征向量的总个数，y为第一中心向量的总个数，q为第q个第一中心向量，A_p为第p个营销词低维特征向量，B_q为第q个第一中心向量；

例如，有一个营销词低维特征向量即为(2，3)，有一个第一中心向量即为(3，4)，c为2，则D为2。

该实施例中，第一向量簇即为将每个营销词低维特征向量分别划分至对应的最小闵可夫斯基距离对应的第一中心向量对应的簇中后获得的多个向量簇。

该实施例中，计算出所述第一向量簇的第二中心向量，即为：将所述第一向量簇中所有向量的平均值作为对应的第二中心向量。

该实施例中，基于所述第二中心向量对所述降维结果中每个营销词低维特征向量进行二次划分，获得多个第二向量簇，即为：计算每个营销词低维特征向量和第二中心向量之间的闵可夫斯基距离，将每个销词低维特征向量分别划分至对应的最小闵可夫斯基距离对应的第二中心向量对应的簇中后获得多个向量簇。

该实施例中，之所以选K-means聚类算法，是考虑到K-means算法比较常用，其算法思想比较好理解，而且对大型数据也适用，时间复杂度和空间复杂度都适中。

以上技术的有益效果为：将上述umap降维之后的结果输入K-means聚类算法进行计算，每个句子降维之后的向量表示作为该句子对应的空间坐标，对应几何中的一个数据点，对这些数据点进行计算确定它们之间的距离，根据K-means算法的原则进行迭代处理，从而达到聚类的目的，比直接将神经网络模型出来的特征值(768维的高维数据)进行K-means聚类要极大的减少计算量。

实施例8：

在实施例7的基础上，所述的一种基于传统算法和神经网络算法融合的聚类方法，按照预设确定策略确定出第一数量个第一中心向量，包括：

基于所述评判值获得对应的评判曲线；

该实施例中，第一向量即为第一个确定出的中心向量。

该实施例中，第二向量即为第二个确定出的中心向量。

该实施例中，第三向量即为第三个确定出的中心向量。

该实施例中，预设评判公式即为：

式中，S即为评判值，k为第k个聚类簇，K为聚类簇的总个数，p为第k个聚类簇中的向量，s_k为第k个聚类簇的中心向量。C_k为第k个聚类簇；

该实施例中，评判值即为将当前确定的向量总数带入预设评判公式后获得的值。

该实施例中，评判曲线即为基于获得的评判值你和获得的曲线。

以上技术的有益效果为：基于上述方法确定的第一数量个第一中心向量，可以保证确定的K值对于待聚类样本是合适的，也保证了确定的第一中心向量均匀分布在待聚类样本中，为后续获得较好的聚类效果以及减少聚类执行时间提供了基础。

实施例9：

在实施例8的基础上，所述的一种基于传统算法和神经网络算法融合的聚类方法，判断所述第二向量簇和所述第二中心向量是否满足预设迭代条件，包括：

以上技术的有益效果为：通过判断两次获得的聚类结果是否一致，可以确定出聚类何时停止以及当前聚类结果是否是最佳聚类结果，为保证聚类结果的准确性提供了基础。

实施例10：

在实施例9的基础上，所述的一种基于传统算法和神经网络算法融合的聚类方法，直至最新获得的向量簇和中心向量或当前迭代次数满足预设迭代条件，则将最新获得的向量簇作为对应的最终聚类结果，包括：

以上技术的有益效果为：相比于第二次聚类过程获得的聚类结果，之后的聚类结果的评判，加了迭代次数的比较，当出现无法达到相邻两次聚类结果一致的情况下可以通过迭代次数的比较将聚类执行过程叫停，保证了聚类效率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于传统算法和神经网络算法融合的聚类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于传统算法和神经网络算法融合的聚类方法，其特征在于，S1：对初始营销语句进行划分和向量初始化操作，获得对应的营销词向量，包括：

获取初始营销语句集；

3.根据权利要求2所述的一种基于传统算法和神经网络算法融合的聚类方法，其特征在于，对所述训练语句集和所述待聚类语句集中包含的语句进行分词处理，包括：

确定初始分词词典中最长词的第一字符数；

基于最大观测概率对应的参数，获得对应的最优分词模型；

4.根据权利要求3所述的一种基于传统算法和神经网络算法融合的聚类方法，其特征在于，S2：将所述营销词向量输入至语言表征模型，获得对应的营销词特征，包括：

将所述计算结果进行标准化处理，获得对应的标准化结果；

否则，基于所述优化参数获得对应的优化语言表征模型；

5.根据权利要求4所述的一种基于传统算法和神经网络算法融合的聚类方法，其特征在于，判断所述优化参数是否满足要求，包括：

构建误差损失函数；

否则，判定所述优化参数满足要求。

6.根据权利要求5所述的一种基于传统算法和神经网络算法融合的聚类方法，其特征在于，S3：将所述营销词特征向量输入至降维算法中，获得对应的降维结果，包括：

7.根据权利要求6所述的一种基于传统算法和神经网络算法融合的聚类方法，其特征在于，S4：基于预设迭代条件对所述降维结果进行迭代，获得对应的最终聚类结果，包括：

按照预设确定策略确定出第一数量个第一中心向量；

计算出所述第一向量簇的第二中心向量；

8.根据权利要求7所述的一种基于传统算法和神经网络算法融合的聚类方法，其特征在于，按照预设确定策略确定出第一数量个第一中心向量，包括：

基于所述评判值获得对应的评判曲线；

9.根据权利要求8所述的一种基于传统算法和神经网络算法融合的聚类方法，其特征在于，判断所述第二向量簇和所述第二中心向量是否满足预设迭代条件，包括：

10.根据权利要求9所述的一种基于传统算法和神经网络算法融合的聚类方法，其特征在于，直至最新获得的向量簇和中心向量或当前迭代次数满足预设迭代条件，则将最新获得的向量簇作为对应的最终聚类结果，包括：