CN116910599A

CN116910599A - 数据聚类方法、系统、电子设备及存储介质

Info

Publication number: CN116910599A
Application number: CN202310745326.6A
Authority: CN
Inventors: 陈凯; 章玮; 刘列明; 傅浩; 欧洋洋; 魏东月
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Beijing Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Beijing Co Ltd
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-10-20

Abstract

本发明涉及计算机技术领域，提供一种数据聚类方法、系统、电子设备及存储介质，该方法包括：基于聚类中心点结合用户特征初始化原始语料库，得到第一目标语料库；根据构建词频逆文档矩阵过程中词频统计所采用的分词，计算出与词频逆文档矩阵适配的相似度矩阵；将相似度矩阵输入至第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列，得到扩展词的推荐结果；结合推荐结果和用户信息，得到排序结果，基于排序结果对第一目标语料库进行聚类更新，得到第二目标语料库。本发明实现对同类型新增数据进行快速聚类，提高了聚类的效率和精度，同时，解决了因随机选取聚类中心，迭代次数较多的问题，提高数据聚类的聚类效果。

Description

数据聚类方法、系统、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据聚类方法、系统、电子设备及存储介质。

背景技术

现有技术中，对于企业内部数据，结构化的文本及非结构化数据，缺乏按照不同用户的维度，自动完成聚类与标注的方法。主要的方法包括人工标记聚类方法和Kmeans算法聚类方法，人工标记聚类方法即通过人工方式标记，无法对同类型新增数据进行快速聚类，数据聚类效率和精度较低。Kmeans算法聚类方法存在全局搜索能力差、对初始聚类中心依赖性大的缺陷，都是从样本随机选取K个对象作为初始聚类中心，导致聚类迭代次数较多，数据聚类效果较差。

发明内容

本发明提供一种数据聚类方法、系统、电子设备及存储介质，旨在提高数据聚类的聚类效率、聚类精度和聚类效果。

第一方面，本发明提供一种数据聚类方法，包括：

基于聚类中心点结合用户特征初始化原始语料库，得到第一目标语料库；所述聚类中心点为根据所述原始语料库中数据集的标记词语得到的Kmeans算法的中心点；

根据构建词频逆文档矩阵过程中词频统计所采用的分词，计算出与所述词频逆文档矩阵适配的相似度矩阵；

将所述相似度矩阵输入至所述第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列，得到扩展词的推荐结果；

结合所述推荐结果和用户信息，得到排序结果，并基于所述排序结果对所述第一目标语料库进行聚类更新，得到第二目标语料库。

在一个实施例中，所述结合所述推荐结果和用户信息，得到排序结果，包括：

获取用户特征标签token权重和历史总活跃token权重；

基于时间因子、所述用户特征标签token权重、所述历史总活跃token权重和所述推荐结果，计算出各个扩展词的用户兴趣评分；

按照从高到低将每一个扩展词的用户兴趣评分进行排序，输出每一个扩展词的排序结果；

根据所述排序结果输出预设数量的目标扩展词，并接收基于所述目标扩展词返回的确定结果；

根据所述确定结果从所述目标扩展词中确定出所述排序结果。

所述基于所述排序结果对所述第一目标语料库进行聚类更新，得到第二目标语料库之后，还包括：

响应操作请求，并基于所述操作请求获取输入数据；

提取所述第二目标语料库中的聚类标注；

基于所述聚类标注对所述输入数据进行同类数据标注。

所述基于聚类中心点结合用户特征初始化原始语料库，得到第一目标语料库，包括：

对所述原始语料库中的文本语料进行分词、去除停用词和词性标注，得到所述原始语料库的数据集；

通过TF-IDF算法提取出所述数据集中的关键词；所述关键词为所述数据集中出现次数多于预设次数的词语；

对所述关键词进行分词和标记，并将所述关键词标记的内容确定为Kmeans初始聚类的聚类中心点；

通过闵可夫斯基距离将所述用户特征对应的特征词归类到离其最近的聚类中心点的聚类中，对所述原始语料库进行初始化，得到所述第一目标语料库。

所述聚类中心点的计算公式为：

其中，u_k为第k个分组的聚类中心点，C(k)为第k个单词簇中所包含的特征词，d(x)为第k个特征词x到当前聚类中心点的闵氏距离，avg(x)为第k个分组内所有特征词到当前聚类中心点的闵氏距离的均值，m表示第k个分组内满足d(x)<avg(x)条件的特征词数，I[d(x)<avg(x)]是指数函数，当d(x)<avg(x)时值为1，当d(x)≥avg(x)时值为0。

所述将所述相似度矩阵输入至所述第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列，得到扩展词的推荐结果，包括：

将所述相似度矩阵输入至所述第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度；

根据每个查询词项与所有非查询词项的每对文本之间的向量余弦相似度，构建目标相似度矩阵；

以所述目标相似度矩阵中非查询词项为扩展词，基于预设统计扩展词挖掘算法进行扩展词挖掘统计，得到扩展词集；

将查询词项嵌入所述扩展词集中取并集，得到最终扩展词集，并将所述最终扩展词集进行降序排列，得到所述推荐结果。

所述根据构建词频逆文档矩阵过程中词频统计所采用的分词，计算出与所述词频逆文档矩阵适配的相似度矩阵，包括：

将词频统计所采用的分词作为数据对象，输入至预设自然语言处理模型中，计算出与所述词频逆文档矩阵适配的相似度矩阵。

第二方面，本发明提供一种数据聚类系统，包括：

语料库初始化模块，用于基于聚类中心点结合用户特征初始化原始语料库，得到第一目标语料库；所述聚类中心点为根据所述原始语料库中数据集的标记词语得到的Kmeans算法的中心点；

计算模块，用于根据构建词频逆文档矩阵过程中词频统计所采用的分词，计算出与所述词频逆文档矩阵适配的相似度矩阵；

语料库查询匹配模块，用于将所述相似度矩阵输入至所述第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列，得到扩展词的推荐结果；

数据聚类模块，用于结合所述推荐结果和用户信息，得到排序结果，并基于所述排序结果对所述第一目标语料库进行聚类更新，得到第二目标语料库。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述数据聚类方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质包括计算机程序，所述计算机程序被所述处理器执行时实现第一方面所述数据聚类方法。

第五方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被所述处理器执行时实现第一方面所述数据聚类方法。

本发明提供的数据聚类方法、系统、电子设备及存储介质，基于聚类中心点结合用户特征初始化原始语料库，得到第一目标语料库；聚类中心点为根据原始语料库中数据集的标记词语得到的Kmeans算法的中心点；根据构建词频逆文档矩阵过程中词频统计所采用的分词，计算出与词频逆文档矩阵适配的相似度矩阵；将相似度矩阵输入至第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列，得到扩展词的推荐结果；结合推荐结果和用户信息，得到排序结果，基于排序结果对第一目标语料库进行聚类更新，得到第二目标语料库。

在数据聚类的过程中，不需要人工标记，实现对同类型新增数据进行快速聚类，提高了聚类的效率和精度，同时，聚类中心点是根据标记词语确定的，解决了因随机选取聚类中心进行聚类，迭代次数较多的问题，提高数据聚类的聚类效果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例或现有技术描述中所需使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的数据聚类方法的流程示意图；

图2是本发明提供的数据聚类系统的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了数据聚类方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些数据下，可以以不同于此处的顺序完成所示出或描述的步骤。

参照图1，图1是本发明提供的数据聚类方法的流程示意图。本发明实施例提供的数据聚类方法包括：

步骤101，基于聚类中心点结合用户特征初始化原始语料库，得到第一目标语料库。

本发明实施例以数据聚类系统作为执行主体为例对数据聚类方法进行描述，但是执行主体不限定于数据聚类系统，其中，数据聚类系统是一种用于将数据集中的的对象划分为相似群组或聚类，并且支持按照人的维度，对标记的同类型数据，增量自动完成聚合的系统，相比海量数据处理具有灵活度高、存储量小、效率高、准确度高的优点。

具体地，数据聚类系统建立原始语料库，对原始语料库中的文本语料进行数据预处理，得到原始语料库的数据集，通过词频-逆文档频率(Term Frequency-InverseDocument Frequency，TF-IDF)算法，提取出数据集中的关键词，对关键词进行分词和标记，将关键词标记的内容确定为K均值(Kmeans)初始聚类的聚类中心点。其中，语料库为一组文本或语言样本的集合，聚类中心点为根据原始语料库中数据集的标记词语得到的Kmeans算法的中心点，关键词为数据集中出现次数多于预设次数的词语，预设次数根据实际情况设定。

需要说明的是，Kmeans算法是一种无监督学习算法，用于将数据集划分成K个簇，通过不断更新迭代簇中心点，逐步优化聚类结果。Kmeans算法的目的是最小化数据点到所分配簇的中心点的平方距离之和，即最小化误差平方和。TF-IDF算法是一种特征提取方法，用于衡量一个词项在语料库中的重要程度，通过计算词项在文本中的频率和词项在整个语料库中的逆文档频率，确定出在特定文本中频繁出现但在整个语料库中较少出现的词项，例如，TF-IDF高的词项是指在文本中频繁出现且在整个语料库中相对稀有的词项。

进一步地，数据聚类系统通过对聚类中心点进行Kmeans聚类迭代，获得最小化的聚类中心点，并通过闵可夫斯基距离将用户特征对应的特征词归类到离其最近的聚类中心点的聚类中，实现原始语料库的初始化，得到第一目标语料库。其中，闵可夫斯基距离是一种衡量两个向量之间的相似性或距离的方法。

进一步地，数据聚类系统通过解析第一目标语料库中的非结构化数据或读取第一目标语料库中的结构化数据，获得第一数据，提取第一数据中的关键内容，通过哈希处理生成对应的第二数据，将第二数据的关键词中最高的前N个词语提取为关键词，将提取出的关键词进行去重和过滤，排除无意义词语，也就是排除掉重复的关键词，将筛选后的关键词作为标记，对第二数据中含有关键词对应的位置进行标记，获得一个带有标记的文本。其中，第一数据为解析后的非结构化数据或读取到的结构化数据，第二数据为解析后的非结构化数据或读取到的结构化数据通过哈希处理转换得到的哈希值。其中，哈希处理是一种将任意长度的消息压缩到一个固定长度的输出的算法，哈希处理具有唯一性和不可逆性，因此，可以用于数据的唯一标识。

需要说明的是，结构化数据是指按照固定格式和规则存储的数据，每个数据字段都有明确的定义和数据类型，这种数据通常易于管理、处理和分析；非结构化数据则是指没有固定格式和规则存储的数据，这种数据通常需要进行挖掘分析后才能得到有用的信息。

进一步地，数据聚类系统将带有标记的文本数据传送至管道处理器中，根据本地词库对符合关键内容的文本数据进行分解处理，获得新的文本数据，并进行权重更新，获得智能分词，将智能分词加入索引文档并建立索引，以便进行关键词检索，因此可以理解为，数据聚类系统通过训练带有标记的文本数据，获得智能分词，根据智能分词建立索引。

步骤102，根据构建词频逆文档矩阵过程中词频统计所采用的分词，计算出与所述词频逆文档矩阵适配的相似度矩阵；

步骤103，将所述相似度矩阵输入至所述第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列，得到扩展词的推荐结果；

步骤104，结合所述推荐结果和用户信息，得到排序结果，并基于所述排序结果对所述第一目标语料库进行聚类更新，得到第二目标语料库。

具体地，数据聚类系统对第一目标语料库进行分词处理，对各个分词进行词频统计，通过TF-IDF算法获取分词所属文本的TF-IDF向量，根据词频统计所采用的分词构建词频逆文档矩阵，并根据构建的词频逆文档矩阵，计算出与词频逆文档矩阵适配的相似度矩阵。其中，分词是将连续的文本序列切分成具有一定意义的词项或词组，相似度矩阵中包含分词之间的相似度值。

进一步地，数据聚类系统将相似度矩阵输入至第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度，根据向量余弦相似度，构建目标相似度矩阵，根据目标相似度矩阵中的非查询词项，获取扩展词集，并将扩展词集进行降序排列，通过计算得到扩展词的推荐结果。其中，查询词项是用户在进行查询时使用的词语，通常代表用户查询的主题或意图，非查询词项是与用户查询不直接相关的词语，通常与查询词项没有语义或语境上的联系，扩展词是在信息检索中用于扩展用户查询的词语。

进一步地，数据聚类系统通过将推荐结果与用户信息进行结合，并计算出各个扩展词的用户兴趣评分，根据每一个扩展词的用户兴趣评分进行排序，输出每一个扩展词的排序结果，也就是获得与用户相关的排序结果，并基于排序结果对第一目标语料库进行聚类更新，得到第二目标语料库。

进一步地，步骤101基于聚类中心点结合用户特征初始化原始语料库，得到第一目标语料库，包括：

具体地，数据聚类系统对原始语料库中的文本语料进行预处理，也就是说，对原始语料库中的文本语料进行分词、去除停用词和词性标注，得到原始语料库的数据集。其中，分词是将一段连续的文本语料切分成一个个有意义的词语，去除停用词是将一些常见的无实际含义的词语从文本语料中去除，词性标注是为每个词语标注其在句子中的词性，在构建原始语料库时通过对文本语料的预处理，可以更好地表示文本语料的语言特征和结构。

进一步地，数据聚类系统通过TF-IDF算法提取出数据集中的关键词，将提取出的关键词进行分词和标记，并将关键词标记的内容确定为Kmeans初始聚类的聚类中心点。数据聚类系统通过聚类中心点的计算公式和闵可夫斯基距离，对聚类中心点进行Kmeans聚类迭代，计算出第k个分组的中心点，也就是计算出最小化的聚类中心点，并将用户特征对应的特征词归类到离其最近的聚类中心点的聚类中，实现原始语料库的初始化，得到第一目标语料库，其中，聚类中心点的计算公式为：

需要说明的是，在数学中，通过argmin计算方式，能够使得目标函数取得最小值的变量值。在Kmeans算法中，通过最小化特征词之间的距离和满足d(x)<avg(x)的限制条件，argmin计算方式计算出使得目标函数最小化的变量值，也即确定出特定分组的中心点，以实现最佳的聚类结果。

进一步需要说明的是，目前Kmeans算法本身存在全局搜索能力差、对初始聚类中心依赖性大，且Kmeans算法都是从样本随机选取k个对象作为初始聚类中心，导致聚类迭代次数较多，聚类效果较差。本发明实施例基于Kmeans算法对特征词进行聚类，对Kmeans指定k聚类中心作为初始聚类指定的聚类中心点，解决了因随机选取初始聚类中心进行聚类，聚类迭代次数较多的问题，同时，通过闵可夫斯基距离将点归到离其最近的聚类里，改进聚类距离k点距离，解决了聚类结果精度低的问题。

本发明实施例通过对原始语料库进行预处理，得到原始语料库的数据集，通过TF-IDF算法提取数据集中的关键词，对关键词进行分词和标记，将标记内容确定为Kmeans初始聚类中心点，通过聚类中心点的计算公式和闵可夫斯基距离，对原始语料库进行初始化，得到第一目标语料库，实现了对同类型新增数据进行快速聚类，提高了聚类的效率和精度，并解决了因随机选取聚类中心，迭代次数较多的问题，提高数据聚类的聚类效果，同时，根据不同用户的角色和操作习惯等特征选择，确定最优的簇数和聚类中心，并将用户分配到不同的簇中，解决了面向不同用户的数据智能文本标注问题。

进一步地，步骤102基于根据构建词频逆文档矩阵过程中词频统计所采用的分词，计算出与所述词频逆文档矩阵适配的相似度矩阵，包括：

具体地，数据聚类系统通过谱聚类算法将第一目标语料库中零散的文本语料进行聚类，得到少量的语料聚类集合，因此，语料聚类集合中的文本语料具有相似性。

进一步地，数据聚类系统对语料聚类集合中的文本语料进行预处理，对预处理后的文本语料进行遍历分词处理，得到一个中间文档，也就是对分词进行打分，通过预设的同义词库对中间文档中的各个分词进行识别，将同义的语料聚类集合进行合并，因此，数据聚类系统通过合并同义语料聚类集合，减少聚类后的语料聚类集合的并集，其中，预设的同义词库根据实际情况设定。

进一步地，数据聚类系统根据合并后的语料聚类集合中的分词，进行词频统计，并将词频向量化处理，得到不同分词对应的TF-IDF向量，通过余弦相似度函数，对不同分词对应的TF-IDF向量进行计算，计算出不同分词对应的TF-IDF向量之间的余弦相似度，也就是计算出不同分词之间的余弦相似度，将余弦相似度进行集合，得到余弦相似度矩阵，其中，余弦相似度函数为：

其中，x和y分别表示两个分词对应的TF-IDF向量，余弦相似度越大则表示x和y两个向量越相似，由于一个分词的TF-IDF权值非负数，也即分词的频率非负数，因此，两个分词对应的TF-IDF向量的余弦相似度范围为0～1，并且两个TF-IDF向量之间的角度小于或等于90°。

进一步地，数据聚类系统根据词频统计，计算出各个分词的逆文档频率，将逆文档频率进行集合，得到词频逆文档矩阵，其中，逆文档频率的计算公式为：

其中，w是语料聚类集合中的分词，N是语料聚类集合中文本的总数，x是包含分词w的文本，1表示在计算IDF时，所有文本中都至少出现了一次分词w。

进一步地，数据聚类系统根据余弦相似度矩阵和词频逆文档矩阵，通过相似度矩阵的计算公式，计算出适配的相似度矩阵，因此可以理解为，数据聚类系统将词频统计所采用的分词作为数据对象，输入至预设自然语言处理模型中，计算出与词频逆文档矩阵适配的相似度矩阵，其中，相似度矩阵的公式为：

S′＝D×F

其中，D为词频逆文档矩阵，F为余弦相似度矩阵，S′为相似度矩阵，D为IDF计算词频结果集合，F为cos余弦结果集合，S′为最终结果集合。

本发明实施例通过将词频统计所采用的分词作为数据对象，输入至预设自然语言处理模型中，计算出与词频逆文档矩阵适配的相似度矩阵，提供了文本语料的特征表示，实现了对文本语料的聚类和相似度分析，支持相似文本语料的处理分析，从而提高了聚类的效率和精度，提高了数据聚类的聚类效果。

进一步地，步骤103基于将所述相似度矩阵输入至所述第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列，得到扩展词的推荐结果，包括：

具体地，数据聚类系统将相似度矩阵输入至第一目标语料库中，计算出第一目标语料库中每个查询词项与所有非查询词项的向量余弦相似度，其中，向量余弦相似度函数为：

其中，x和y分别表示两个分词对应的TF-IDF向量，dot(x,y)表示x和y的点积，norm(x)表示x的范数，norm(y)表示y的范数。

进一步地，数据聚类系统根据第一目标语料库中每个查询词项与所有非查询词项的向量余弦相似度，构建目标相似度矩阵，需要说明的是，目标相似度矩阵是一个对称矩阵，目标相似度矩阵的对角线上的值都为1。

进一步地，数据聚类系统在目标相似度矩阵中提取出非查询词项，并将非查询词项确定为扩展词，基于预设统计扩展词挖掘算法，对伪相关反馈文本集进行挖掘统计扩展词，将挖掘统计的扩展词进行集合，得到扩展词集。其中，预设统计扩展词挖掘算法包括但不限制于基于Copulas理论的统计扩展词挖掘算法，统计扩展词挖掘算法基于Copulas理论，通过多维度随机变量的相关关系，分析文本中的词语之间的关联性，伪相关反馈是指在信息检索中，通过利用查询词汇在检索结果中出现的频率来获取更加相关的文本。

进一步地，数据聚类系统将查询词项嵌入扩展词集，并将扩展词集取并集，得到最终扩展词集。数据聚类系统根据最终扩展词集中的扩展词，将存在于第一目标语料库中的扩展词进行标记，根据标记的扩展词选取m个与第一目标语料库相关的扩展词作为优选扩展词。数据聚类系统根据m个优选扩展词和优选扩展词对应的向量余弦相似度，将最终扩展词集进行相关性降序排列，得到推荐结果，其中，推荐结果的计算公式为：

S＝cosθ×m

其中，S表示推荐结果的排序集合，m表示优选扩展词的数量，cosθ表示向量余弦相似度。

本发明实施例通过将相似度矩阵输入至第一目标语料库中，计算出查询词项与非查询词项的向量余弦相似度，根据向量余弦相似度，构建目标相似度矩阵，将目标相似度中非查询词项作为扩展词，基于预设统计扩展词挖掘算法得到扩展词集，将扩展词集进行降序排列，得到推荐结果，从而提高查询结果的相关性和精确性，并降低搜索误差和提高搜索准确性，以减少用户的搜索时间和精力消耗。

进一步地，步骤104基于结合所述推荐结果和用户信息，得到排序结果，并基于所述排序结果对所述第一目标语料库进行聚类更新，得到第二目标语料库，包括：

获取用户特征标签token权重和历史总活跃token权重；

具体地，数据聚类系统获取用户特征标签token权重和历史总活跃token权重，基于时间因子、用户特征标签token权重、历史总活跃token权重，将推荐结果与用户信息进行结合，通过用户兴趣评分的计算公式，计算出各个扩展词的用户兴趣评分。其中，用户特征标签token权重是指用户在某个特定领域内的专业知识或兴趣爱好所对应的权重值，历史总活跃token权重是指用户在平台的历史总活跃度所对应的权重值，用户兴趣评分的计算公式为：

M＝|时间因子％(用户特征标签token-历史总活跃token)|×S。

其中，M表示用户兴趣评分数据，S表示推荐结果的排序集合。

进一步地，数据聚类系统将每一个扩展词的用户兴趣评分按照从高到低进行排序，并输出每一个扩展词的排序结果，其中，排序结果包括：当M≥90时，表征推荐结果为完美；当M≥80时，表征推荐结果为卓越；当M≥70时，表征推荐结果为优秀；当M≥60时，表征推荐结果为普通；当M<60时，表征推荐结果为较差。

进一步地，数据聚类系统根据排序结果输出预设数量的目标扩展词，将预设数量的目标扩展词发送至网络设备，用户通过网络设备，对预设数量的目标扩展词进行选择，选择与其意向度最高的目标扩展词，输出确定结果，并将确定结果返回至数据聚类系统。数据聚类系统接收基于目标扩展词返回的确定结果，根据确定结果从目标扩展词中确定出排序结果，并将确定结果和排序结果同步补充至当前操作用户的第二目标语料库中。其中，预设数量根据实际情况设定，在一实施例中，数据聚类系统根据排序结果，输出排序结果排列前三的目标扩展词。

在本发明实施例基于时间因子、用户特征标签token权重、历史总活跃token权重和推荐结果，计算出各个扩展词的用户兴趣评分，将每一个扩展词的用户兴趣评分按照从高到低进行排序，通过内容提取、类比语料库，完成数据聚类、精确度排序，并输出排序结果，根据排序结果输出预设数量的目标扩展词，进而根据返回的确定结果得到确定结果的排序结果，通过利用CPU资源，按照用户行为习惯，对数据进行聚类，在无需庞大的计算资源的情况下，实现有效保存用户历史标注数据，并将标注结果按不同用户进行定向展示。

进一步地，基于所述排序结果对所述第一目标语料库进行聚类更新，得到第二目标语料库之后，包括：

响应操作请求，并基于所述操作请求获取输入数据；

提取所述第二目标语料库中的聚类标注；

基于所述聚类标注对所述输入数据进行同类数据标注。

具体地，数据聚类系统接收用户通过网络设备发送的操作请求，并基于操作请求获取用户输入数据，根据输入数据，响应用户的操作请求，其中，输入数据包括结构化数据和非结构化数据。

进一步地，数据聚类系统提取第二目标语料库中的聚类标注，并基于提取的聚类标注，对输入数据进行同类数据标注，也就是基于输入数据，进行初始化语料库、样本数据提取、关键词提取计算相似度矩阵、语料库查询匹配、样本数据评分与标注，实现对增量基础数据进行新的半自动标注。

本发明实施例根据接收的操作请求和获取的输入数据，提取第二目标语料库中的聚类标注，基于聚类标注对输入数据进行同类数据标注，通过类比和提取的方式，按照不同聚类结果标签，向历史标注结果中快速聚类，减少增量数据的人为判定时间，提高历史数据判定结果价值，实现数据的个性化标注。

进一步地，本发明提供的数据聚类系统与本发明提供的数据聚类方法互对应参照。图2所示，图2是本发明提供的数据聚类系统的结构示意图，数据聚类系统包括：

语料库初始化模块201，用于基于聚类中心点结合用户特征初始化原始语料库，得到第一目标语料库；所述聚类中心点为根据所述原始语料库中数据集的标记词语得到的Kmeans算法的中心点；

计算模块202，用于根据构建词频逆文档矩阵过程中词频统计所采用的分词，计算出与所述词频逆文档矩阵适配的相似度矩阵；

语料库查询匹配模块203，用于将所述相似度矩阵输入至所述第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列，得到扩展词的推荐结果；

数据聚类模块204，用于结合所述推荐结果和用户信息，得到排序结果，并基于所述排序结果对所述第一目标语料库进行聚类更新，得到第二目标语料库。

进一步地，语料库初始化模块201还用于：

进一步地，计算模块202还用于：

进一步地，语料库查询匹配模块203还用于：

进一步地，数据聚类模块204还用于：

获取用户特征标签token权重和历史总活跃token权重；

进一步地，数据聚类系统还用于：

响应操作请求，并基于所述操作请求获取输入数据；

提取所述第二目标语料库中的聚类标注；

基于所述聚类标注对所述输入数据进行同类数据标注。

本发明提供的数据聚类系统的具体实施例与数据聚类方法各实施例基本相同，在此不作赘述。

图3示例了一种电子设备的实体结构示意图，如图3所示，电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行数据聚类方法，该方法包括：

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法所提供的数据聚类方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的数据聚类方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据聚类方法，其特征在于，包括：

2.根据权利要求1所述的数据聚类方法，其特征在于，所述结合所述推荐结果和用户信息，得到排序结果，包括：

获取用户特征标签token权重和历史总活跃token权重；

3.根据权利要求1所述的数据聚类方法，其特征在于，所述基于所述排序结果对所述第一目标语料库进行聚类更新，得到第二目标语料库之后，还包括：

响应操作请求，并基于所述操作请求获取输入数据；

提取所述第二目标语料库中的聚类标注；

基于所述聚类标注对所述输入数据进行同类数据标注。

4.根据权利要求1所述的数据聚类方法，其特征在于，所述基于聚类中心点结合用户特征初始化原始语料库，得到第一目标语料库，包括：

5.根据权利要求4所述的数据聚类方法，其特征在于，所述聚类中心点的计算公式为：

6.根据权利要求1所述的数据聚类方法，其特征在于，所述将所述相似度矩阵输入至所述第一目标语料库中，计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列，得到扩展词的推荐结果，包括：

7.根据权利要求1至6任一项所述的数据聚类方法，其特征在于，所述根据构建词频逆文档矩阵过程中词频统计所采用的分词，计算出与所述词频逆文档矩阵适配的相似度矩阵，包括：

8.一种数据聚类系统，其特征在于，包括：

9.一种电子设备，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的数据聚类方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的数据聚类方法。