CN111737468B

CN111737468B - 短语聚类方法、装置、设备及存储介质

Info

Publication number: CN111737468B
Application number: CN202010581172.8A
Authority: CN
Inventors: 勾震; 马丹; 曾增烽
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2023-07-25
Anticipated expiration: 2040-06-23
Also published as: CN111737468A

Abstract

本发明涉及人工智能，公开了一种短语聚类方法、装置、设备及存储介质。该方法包括：获取待处理的短语；对字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照短语中的字排序对所有字符向量进行排序组合，得到短语对应的短语向量；对短语向量依次进行卷积计算与池化处理，得到卷积向量；对卷积向量赋予权重，以及对赋予权重后的卷积向量进行回归计算，得到结果向量；将结果向量输入预置聚类模型进行分类处理，得到短语对应的种类。此外，本发明还涉及区块链技术，用户的隐私信息可存储于区块链中。在本发明实施例中，解决新出现的短语无法被分类的技术问题，提高了深度学习处理文本的能力。

Description

短语聚类方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种短语聚类方法、装置、设备及存储介质。

背景技术

随着信息化不断深入，人们的数据不断扩展，越来越多的人使用网络办理自己的事务。在保险单的问题咨询时，人工网络答复人们的问题，成本不仅高而且效率也不高，使人们开始不断寻找新的方法去解决网络自动答复的问题。因此不仅需要减少回复人们对保险单的疑问的成本，还需要能准确答复人们的问题。

在传统的解决方案中，使用词频特征对短语进行表示，根据词频来反映语意内容不能准确反映真实语意。因此兴起一种新的处理方式，使用开源Word2Vec工具对文本内容的处理简化为K维向量空间中的向量运算，使用向量空间上的相似度可以用来表示文本语义上的相似度。但是这种新兴的处理方法无法解决在语料词库之外的词语的分类问题，需要能解决新的词语分类问题的方案。

发明内容

本发明的主要目的在于解决现有短语分类方式无法对新词语进行分类的技术问题。

本发明第一方面提供了一种短语聚类方法，包括：

获取待处理的短语，并基于所述短语查询预置短语语料库；

若所述预置短语语料库中不存在所述短语时，对所述短语进行字拆分处理，得到所述短语的字符组合；

对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序将得到的所有字符向量进行排序组合，得到所述短语的短语向量；

对所述短语向量进行卷积计算与池化处理，得到卷积向量；

对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；

将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。

可选的，在本发明第一方面的第一种实现方式中，所述对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量包括：

基于短语语料库与字符向量转换表之间的对应关系，从预置存储盘中获取与所述短语语料库对应的字符向量转换表；

根据所述字符组合中的字符查询所述字符向量转换表，得到所述字符组合中每个字符对应的字符向量。

可选的，在本发明第一方面的第二种实现方式中，所述按照所述短语中的字排序对将得到的所有字符向量进行排序组合，得到所述短语的短语向量包括：

将所有所述字符向量按照所述短语的字排序依次排序组合，得到字符向量序列，并计算所述字符向量序列的字节长度；

判断所述字符向量序列的字节长度是否超过预置模板长度；

若超过预置模板长度，则以所述字符向量序列中第一排序的字符向量为始点，向后截取序列段，得到所述短语的短语向量，其中，所述序列段的字节长度等于所述预置模板长度；

若未超过预置模板长度，则通过零向量填充的方式，在所述字符向量序列的最后插入所述零向量，直至所述字符向量序列的长度等于所述预置模板长度为止，得到所述短语的短语向量。

可选的，在本发明第一方面的第三种实现方式中，所述对所述短语向量进行卷积计算与池化处理，得到卷积向量包括：

获取预置滤波器集合，依次使用所述滤波器集合中的滤波器对所述短语向量进行处理，得到所有所述滤波器对应的滤波向量；

对所有所述滤波向量进行最大池化处理，得到所有所述滤波器对应的最大池化向量；

根据所述滤波器集合中滤波器的排序，将所有所述滤波器对应的最大池化向量进行排序组合，生成卷积向量。

可选的，在本发明第一方面的第四种实现方式中，所述对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量包括：

获取预置权重矩阵，将所述卷积向量与所述权重矩阵进行乘积，得到权重向量；

使用回归函数对所述权重向量中的每个元素进行处理，以及对处理的结果进行归一化，得到每个所述元素对应的回归值；

将所述权重向量中的每个元素替换为所述元素对应的回归值，得到结果向量。

可选的，在本发明第一方面的第五种实现方式中，所述将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类包括：

获取预置聚类模型中的训练样本，并将所述结果向量加入至所述聚类模型的训练样本中，并对所述结果向量设置为未标记样本，其中，所述训练样本包括已进行分类标记的短语向量的样本；

读取所述训练样本中的已标记样本，计算所述已标记样本至所述训练样本中未标记样本之间的距离；

基于所述距离选择所述训练样本中距离所述已标记样本最小的未标记样本，并将选择的未标记样本的标记设置为与所述已标记样本相同的标记，直至所述训练样本中的样本均已标记；

读取所述结果向量的标记，并基于所述标记与种类之间的对应关系确定所述短语的种类。

可选的，在本发明第一方面的第六种实现方式中，所述将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类包括：

获取预置聚类模型中所有分类点对应的坐标；

分别计算所述结果向量与所有所述分类点对应的坐标之间的距离，筛选出最小的所述距离；

获取最小所述距离对应分类点的种类，将所述种类确定为所述短语对应的种类。

本发明第二方面提供了一种短语聚类装置，包括：

获取模块，用于获取待处理的短语，并基于所述短语查询预置短语语料库；

拆分模块，用于若所述预置短语语料库中不存在所述短语时，对所述短语按字拆分，得到所述短语对应的字符组合；

向量化模块，用于对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序对所有所述字符向量进行排序组合，得到所述短语对应的短语向量；

卷积池化模块，用于对所述短语向量依次进行卷积计算与池化处理，得到卷积向量；

回归模块，用于对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；

分类模块，用于将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。

可选的，在本发明第二方面的第一种实现方式中，所述向量化模块具体用于：

可选的，在本发明第二方面的第二种实现方式中，所述向量化模块还可以具体用于：

判断所述字符向量序列的字节长度是否超过预置模板长度；

可选的，在本发明第二方面的第三种实现方式中，所述卷积池化模块包括：

卷积单元，用于获取预置滤波器集合，依次使用所述滤波器集合中的滤波器对所述短语向量进行处理，得到所有所述滤波器对应的滤波向量；

池化单元，用于对所有所述滤波向量进行最大池化处理，得到所有所述滤波器对应的最大池化向量；

排序单元，用于根据所述滤波器集合中滤波器的排序，将所有所述滤波器对应的最大池化向量排序组合为卷积向量。

可选的，在本发明第二方面的第四种实现方式中，所述回归模块具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述分类模块具体用于：

可选的，在本发明第二方面的第六种实现方式中，所述分类模块还可以具体用于：

获取预置聚类模型中所有分类点对应的坐标；

本发明第三方面提供了一种短语聚类设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述短语聚类设备执行上述的短语聚类方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的短语聚类方法。

本发明提供的技术方案中，获取待处理的短语，并基于所述短语查询预置短语语料库；若所述预置短语语料库中不存在所述短语时，对所述短语按字拆分，得到所述短语对应的字符组合；对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序对所有所述字符向量进行排序组合，得到所述短语对应的短语向量；对所述短语向量依次进行卷积计算与池化处理，得到卷积向量；对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。本发明实施例中，本发明实施例，通过使用短语语料库中的已训练的字符，对未在短语预料库训练的短语进行分类。运用Text-CNN模型与Word2Vec工具解决新出现的短语无法被分类的技术问题，提高了深度学习处理文本的能力。

附图说明

图1为本发明实施例中短语聚类方法的第一个实施例示意图；

图2为本发明实施例中短语聚类方法的第二个实施例示意图；

图3为本发明实施例中短语聚类方法的第三个实施例示意图；

图4为本发明实施例中短语聚类方法的第四个实施例示意图；

图5为本发明实施例中短语聚类方法的第五个实施例示意图；

图6为本发明实施例中短语聚类装置的一个实施例示意图；

图7为本发明实施例中短语聚类装置的另一个实施例示意图；

图8为本发明实施例中短语聚类设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种短语聚类方法、装置、设备及存储介质，获取待处理的短语，并基于所述短语查询预置短语语料库；若所述预置短语语料库中不存在所述短语时，对所述短语按字拆分，得到所述短语对应的字符组合；对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序对所有所述字符向量进行排序组合，得到所述短语对应的短语向量；对所述短语向量依次进行卷积计算与池化处理，得到卷积向量；对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。本发明实施例中，本发明实施例，通过使用短语语料库中的已训练的字符，对未在短语预料库训练的短语进行分类。运用Text-CNN模型与Word2Vec工具解决新出现的短语无法被分类的技术问题，提高了深度学习处理文本的能力。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中短语聚类方法的第一个实施例包括：

101、获取待处理的短语，并基于所述短语查询预置短语语料库；

在本实施例中，从网络服务器中接收需要处理的短语例如：“人寿保险的种类”。在另一种实施例中，直接获取手机终端在APP中输入的短语“保险的种类”。预置短语语料库是训练Text-CNN模型的训练样本，在训练Text-CNN模型时，会根据训练结果调整短语语料库对应的字符向量库。短语语料库中存在的短语，都是被分类好的短语，其中，短语语料库存在“【。，‘、】’/*】”这样的标点符号，标点符号也是在短语语料库中训练完成有对应的向量。

102、若所述预置短语语料库中不存在所述短语时，对所述短语进行字拆分处理，得到所述短语的字符组合；

在本实施例中，判断短语是否在短语语料库中，就是判断是否获取的短语被分类处理过，如果被分类处理过，直接查询短语语料库中获取短语的类别，直接得出待处理的短语的种类。如果没有被训练过的短语，则需要进行分词和运算获得短语的种类。在训练的短语语料库中没有查询出短语的内容，则将短语分词。例如：“人寿保险的种类”按字拆分后为“人”、“寿”、“保”、“险”、“的”、“种”、“类”。

103、对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序将得到的所有字符向量进行排序组合，得到所述短语的短语向量；

在本实施例中，将“人”、“寿”、“保”、“险”、“的”、“种”、“类”查询得出对应的向量(0，1，1，1，9)、(0，1，1，1，8)、(0，1，1，1，7)、(0，1，1，1，6)、(0，1，1，1，5)、(0，1，1，1，4)、(0，1，1，1，3)。将对应的向量根据“人寿保险的种类”的字符排序，进行拼接组合成A＝[a₁，a₂，a₃，a₄，a₅，a₆，a₇]^T向量a₁，a₂，a₃，a₄，a₅，a₆，a₇分别对应(0，1，1，1，9)、(0，1，1，1，8)、(0，1，1，1，7)、(0，1，1，1，6)、(0，1，1，1，5)、(0，1，1，1，4)、(0，1，1，1，3)，将排序组合而成的向量A作为短语“人寿保险的种类”对应的字符向量，而a₁，a₂，a₃，a₄，a₅，a₆，a₇是在Text-CNN模型训练中不断修改而最终获得的向量。此外，本发明还涉及区块链技术，用户的隐私信息可存储于区块链节点中。

104、对所述短语向量进行卷积计算与池化处理，得到卷积向量；

在本实施例中，字符向量为16*128维度的一个向量，而内置有1*128、2*128、3*128、4*128形状的卷积核各32个，使用卷积核对16*128维度的字符向量分别进行卷积处理，则会得到128个1*128形状的初始卷积向量，分别对128个初始卷积向量使用最大池化处理，则在128个初始卷积向量中各提取出最大的元素，根据短语的顺序将提取的元素进行排列组合成1*128形状的卷积向量。在另一种实施例中，字符向量为A＝[a₁，a₂，a₃，a₄，a₅，a₆，a₇]^T卷积核有(0，0，0，0，1)、(0，0，0，0，2)、(0，0，0，0，3)、(0，0，0，0，4)、(0，0，0，0，5)、(0，0，0，0，6)、(0，0，0，0，7)则通过卷积获得7个初始卷积向量，之后使用最大池化处理得到(9，18，27，36，45，54，63)的卷积向量。此外，本发明还涉及区块链技术，用户的隐私信息可存储于区块链节点中。

105、对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；

在本实施例中，调用Word2Vec工具训练完成神经网络的权重矩阵对已经获得的向量(9，18，27，36，45，54，63)赋予权重，权重矩阵为7*7形状的矩阵。(9，18，27，36，45，54，63)与权重矩阵相乘之后，得到一个对应的赋权的向量为(5，5，5，5，0，0，0)。对(5，5，5，5，0，0，0)采用Softmax算法运算得到结果向量，将(5，5，5，5，0，0，0)中每个元素都输入至f(x)＝ex的函数中，获得e5、e5、e5、e5、1、1、1的结果，对所有结果进行归一化处理得到0.2487、0.2487、0.2487、0.2487、0.001676、0.001676、0.001676的结果，将结果作为向量元素获得(0.2487，0.2487，0.2487，0.2487，0.001676，0.001676，0.001676)的结果向量。此外，本发明还涉及区块链技术，用户的隐私信息可存储于区块链节点中。

106、将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。

在本实施例中，将结果向量输入至预置的聚类模型进行分类处理，聚类模型可以是K-means模型，K-means模型是基于K-means分类算法训练得出。先输入预先要人工设定的种类数量为9，则会出现9个聚类中心点，计算每个样本到它最近的中心点的距离取平均值，然后不断重复计算平均值，并不断调整聚类中心点的坐标获得对应的距离平均值，当聚类平均值不能再小时停止迭代运算。将结果向量与所有的聚类中心的距离进行比较，获得最小距离的中心点对应的种类。在计算距离时，使用：

对距离中心点进行计算，其中，X_ij是各类样本的坐标，而Y_ij是各类样本中心的坐标，m、n分别代表样本的数量与样本中心的数量。此外，本发明还涉及区块链技术，用户的隐私信息可存储于区块链节点中。

本发明实施例中，通过使用短语语料库中的已训练的字符，对未在短语预料库训练的短语进行分类。运用Text-CNN模型与Word2Vec工具解决新出现的短语无法被分类的技术问题，提高了深度学习处理文本的能力。

请参阅图2，本发明实施例中短语聚类方法的第二个实施例包括：

201、获取待处理的短语，并基于所述短语查询预置短语语料库；

202、若所述预置短语语料库中不存在所述短语时，对所述短语进行字拆分处理，得到所述短语的字符组合；

203、基于短语语料库与字符向量转换表之间的对应关系，从预置存储盘中获取与所述短语语料库对应的字符向量转换表；

在本实施例中，字符向量表是Text-CNN模型训练得出对每个字符进行向量化的表格，表格内容大致为“Y，(a1，b1，c1)”、“X，(a2，b2，c2)”、“Z，(a3，b3，c3)”...等一系列数据，其中，X、Y、Z为字符，而a1，b1，c，a2，b2，c2，a3，b3，c3为数字。具体内容为“和，(0，4，45，2，1)”，“有，(0，4，45，7，1)”，“写，(0，5，45，7，1)”对短语语料库中所有出现的字符进行向量化，其中出现的字符包括“、{}*”这样的标点符号也是向量化的对象，内容为“、，(55，2，1，55，2)”、“{，(55，2，5，55，2)”、“*，(58，2，5，55，2)”这样的数据。

204、根据所述字符组合中的字符查询所述字符向量转换表，得到所述字符组合中每个字符对应的字符向量；

在本实施例中，将字符组合“AQWE”分解为“A”、“Q”、“W”、“E”，其中，AQWE均为字符，然后查询出对应A、Q、W、E的向量。例如将获得的字符组合“如何缴费”中“如”、“何”、“缴”、“费”查询字符向量表中的向量数据，获得“如”、“何”、“缴”、“费”分别对应的向量数据为(2241，21，0.1，22，1)、(2241，21，0.9，22，1)、(2241，21，0.8，22，1)、(2241，21，0.7，22，1)。通过查询向量表完成，未在语料库中出现的短语的向量化。

205、将所有所述字符向量按照所述短语的字排序依次排序组合，得到字符向量序列，并计算所述字符向量序列的字节长度；

在本实施例中，读取到短语“QERTW”，然后对短语的字符排序查询出对应向量然后生成排序“qertw”，其中，Q、E、R、T、W均为字符，q、e、r、t、w为字符Q、E、R、T、W对应的向量。例如：获取“在2020年4月10日的能投保的保险具体有哪些步骤”的短语，根据查询到的字符向量排序组合成：A＝[a₁，a₂，a₃，a₄，a₅，a₆，a₇，a₈，a₉，a₁₀，a₁₁，a₁₂，a₁₃，a₁₄，a₁₅，a₁₆，a₁₇，a₁₈，a₁₉，a₂₀，a₂₁]^T，其中，a₁，a₂，a₃，a₄，a₅，a₆，a₇，a₈，a₉，a₁₀，a₁₁，a₁₂，a₁₃，a₁₄，a₁₅，a₁₆，a₁₇，a₁₈，a₁₉，a₂₀，a₂₁对应“在2020年4月10日的能投保的保险具体有哪些步骤”里的字符。

206、判断所述字符向量序列的字节长度是否超过预置模板长度；

在本实施例中，获得的字符向量是有格式要求的，为了后面Text-CNN模型与Word2Vec工具的处理。向对字符组合“AQEW”的数量进行判断，其中，A、Q、E、W均为字符，判断为4后，则增加字符以达到模板数量。先将字符组合“如何缴费”的字符数量进行判断，字符数量为4，而模板字符数量设定为16，因此没有超过数量。

204、若超过预置模板长度，则以所述字符向量序列中第一排序的字符向量为始点，向后截取序列段，得到所述短语的短语向量，其中，所述序列段的字节长度等于所述预置模板长度；

在本实施例中，如果字符组合超越了16个字符例如：“AAAAAAAAAAAADDDDDDDDDDAA”，则截取为：“AAAAAAAAAAAADDD”满足要求，其中，A、D均为字符。如“在2020年4月10日的能投保的保险，具体有哪些呢？”共有28个字符已经超过模板字符数量16个，则对字符组合中从左往右对字符截取共16个字符“在2020年4月10日的能投保的保险，具”。截取“在2020年4月10日的能投保的保险，具”的字符对应向量为B＝[a₁，a₂，a₃，a₄，a₅，a₆，a₇，a₈，a₉，a₁₀，a₁₁，a₁₂，a₁₃，a₁₄，a₁₅，a₁₆]^T，其中，a₁，a₂，a₃，a₄，a₅，a₆，a₇，a₈，a₉，a₁₀，a₁₁，a₁₂，a₁₃，a₁₄，a₁₅，a₁₆为“在2020年4月10日的能投保的保险，具”对应的向量。

208、若未超过预置模板长度，则通过零向量填充的方式，在所述字符向量序列的最后插入所述零向量，直至所述字符向量序列的长度等于所述预置模板长度为止，得到所述短语的短语向量；

在本实施例中，如果字符组合没有超越设置的长度，例如：“AAAA”的长度为4，则补充长度至满足设置长度“AAAA############”，其中，A为字符，#为零向量对应字符。如果获取的短语为“如何缴费”只有4个字符，则在“费”的字符后增添空白向量对应的字符，设定#为零向量对应的字符，则对“如何缴费”处理为“如何缴费############”，将“如何缴费############”确定为修正字符组合。在本实施例中，根据“如何缴费############”中字符的排序，生成向量C＝[c₁，c₂，c₃，c₄，c₀，c₀，c₀，c₀，c₀，c₀，c₀，c₀，c₀，c₀，c₀，c₀]^T其中c₀为与c₁同维度的零向量，向量C则为短语对应的字符向量。

209、对所述短语向量进行卷积计算与池化处理，得到卷积向量；

210、对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；

211、将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。

请参阅图3，本发明实施例中短语聚类方法的第三个实施例包括：

301、获取待处理的短语，并基于所述短语查询预置短语语料库；

302、若所述预置短语语料库中不存在所述短语时，对所述短语进行字拆分处理，得到所述短语的字符组合；

303、对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序将得到的所有字符向量进行排序组合，得到所述短语的短语向量；

304、获取预置滤波器集合，依次使用所述滤波器集合中的滤波器对所述短语向量进行处理，得到所有所述滤波器对应的滤波向量；

在本实施例中，滤波器集合中有神经网络1*128、2*128、3*128、4*128形状的卷积核各32个，对应进行卷积的字符向量的矩阵形状为16*128，卷积的步长为1，每次只跨越一个间隔进行卷积，这样神经网络1*128、2*128、3*128、4*128对应卷积的向量大小为1*128、1*127、1*126、1*125，而1*128、1*127、1*126、1*125向量分别对应1*128、2*128、3*128、4*128的卷积核。

305、对所有所述滤波向量进行最大池化处理，得到所有所述滤波器对应的最大池化向量；

在本实施例中，对1*128、1*127、1*126、1*125的形状的向量进行最大池化，而最大池化核分别对应为1*128、1*127、1*126、1*125，直接对的各32个的1*128、1*127、1*126、1*125的向量整体提取最大的元素，分别得到1*128、1*127、1*126、1*125对应的一维向量。此外，本发明还涉及区块链技术，用户的隐私信息可存储于区块链节点中。

306、根据所述滤波器集合中滤波器的排序，将所有所述滤波器对应的最大池化向量进行排序组合，生成卷积向量；

在本实施例中，滤波器集合中各32个的1*128、2*128、3*128、4*128排序，对1*128、1*127、1*126、1*125对应的一维向量进行排序，最终得到M＝[m₁，...，m₁₂₈]^T的卷积向量，其中，m₁，...，m₁₂₈是数字。

307、获取预置权重矩阵，将所述卷积向量与所述权重矩阵进行乘积，得到权重向量；

在本实施例中，卷积向量为M＝[m₁，...，m₁₂₈]^T的1*128的向量，而权重矩阵是通过Word2vec工具训练，通过调整权重矩阵的参数，字符向量表，最后得到合理的权重矩阵，该权重矩阵将对卷积向量进行权重赋值，将卷积向量转换为1*16的权重向量，因此权重矩阵形状N为128*16。通过M与N的相互乘积得到权重向量S＝[s₁，...s₁₆]^T，其中，M与N均为向量矩阵，而S为列向量。

308、使用回归函数对所述权重向量中的每个元素进行处理，以及对处理的结果进行归一化，得到每个所述元素对应的回归值；

在本实施例中，逻辑回归处理对S＝[s₁，...s₁₆]^T其中，S₁，S₂，...，S₁₆均为数字，使用回归函数f(x)＝e^x处理，得到回归处理结果：然后对进行归一化处理，归一化的公式为：得到S₁，S₂，...，S₁₆对应的回归值，其中，P为归一化后的概率。

309、将所述权重向量中的每个元素替换为所述元素对应的回归值，得到结果向量；

在本实施例中，将中逻辑回归的回归值替换S＝[s₁，...s₁₆]^T中对应的元素，其中，P为归一化后的概率。则得到结果向量P＝[p₁，p₂，p₃，...，p₁₆]^T，其中p₁，p₂，p₃，...，p₁₆均为数字。

310、将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。

请参阅图4，本发明实施例中短语聚类方法的第四个实施例包括：

401、获取待处理的短语，并基于所述短语查询预置短语语料库；

402、若所述预置短语语料库中不存在所述短语时，对所述短语进行字拆分处理，得到所述短语的字符组合；

403、对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序将得到的所有字符向量进行排序组合，得到所述短语的短语向量；

404、对所述短语向量进行卷积计算与池化处理，得到卷积向量；

405、对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；

406、获取预置聚类模型中的训练样本，并将所述结果向量加入至所述聚类模型的训练样本中，并对所述结果向量设置为未标记样本，其中，所述训练样本包括已进行分类标记的短语向量的样本；

在本实施例中，将10种类型的样本分别标记在短语语料库中训练样本中的十个样本中，然后所有已标记样本不断的对距离的最近的样本确定同种类型的标记，直至训练样本中所有样本均被标记。而结果向量P＝[p₁，p₂，p₃，...，p₁₆]^T，其中p₁，p₂，p₃，...，p₁₆均为数字加入到短语语料库中训练样本。短语语料库中训练样本均为16维度，可以与P向量计算距离。

407、读取所述训练样本中的已标记样本，计算所述已标记样本至所述训练样本中未标记样本之间的距离；

在本实施例中，在本实施例中，通过距离计算公式：

其中，X_ij是各类样本的坐标，而Y_ij是各类样本中心的坐标，m、n分别代表样本的数量与样本中心的数量。

408、基于所述距离选择所述训练样本中距离所述已标记样本最小的未标记样本，并将选择的未标记样本的标记设置为与所述已标记样本相同的标记，直至所述训练样本中的样本均已标记；

在本实施例中，计算已标记样本的10个样本对其他所有样本的距离，然后将每个样本对应的最小距离的样本确定为相同的标记，不断将10个样本种类在训练样本中标记，直至所有训练样本均被标记。

409、读取所述结果向量的标记，并基于所述标记与种类之间的对应关系确定所述短语的种类。

在本实施例中，在将所有训练样本均被标记后，读取P＝[p₁，p₂，p₃，...，p₁₆]^T，其中p₁，p₂，p₃，...，p₁₆均为数字，得到内容为“A种类”，将P＝[p₁，p₂，p₃，...，p₁₆]^T，其中p₁，p₂，p₃，...，p₁₆均为数字。确定为A种类，故得到P＝[p₁，p₂，p₃，...，p₁₆]^T，其中p₁，p₂，p₃，...，p₁₆均为数字。对应的短语“如何缴费############”的种类为A种类。

请参阅图5，本发明实施例中短语聚类方法的第五个实施例包括：

501、获取待处理的短语，并基于所述短语查询预置短语语料库；

502、若所述预置短语语料库中不存在所述短语时，对所述短语进行字拆分处理，得到所述短语的字符组合；

503、对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序将得到的所有字符向量进行排序组合，得到所述短语的短语向量；

504、对所述短语向量进行卷积计算与池化处理，得到卷积向量；

505、对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；

506、获取预置聚类模型中所有分类点对应的坐标；

在本实施例中，K-means算法数据集中根据人工选择K个点作为每个簇的初始中心，然后观察剩余的数据，将数据划分到距离这K个点最近的簇中，也就是说将数据划分成K个簇完成一次划分，重新计算每个簇的中心点，然后重新进行划分直到每次划分的结果保持不变。K个初始中心即为分类点，获取设定的分类点的坐标(X¹ ₁，...，X¹ ₁₆)、(X² ₁，...，X² ₁₆)、...、(X^K ₁，...，X^K ₁₆)，其中，X¹ ₁，...，X¹ ₁₆...X^K ₁，...，X^K ₁₆均为坐标。

507、分别计算所述结果向量与所有所述分类点对应的坐标之间的距离，筛选出最小的所述距离；

在本实施例中，结果向量P＝[p₁，p₂，p₃，...，p₁₆]^T与(X¹ ₁，...，X¹ ₁₆)、(X² ₁，...，X² ₁₆)、...、(X^K ₁，...，X^K ₁₆)分别使用公式进行计算：

其中，X_ij是各类样本的坐标，而Y_ij是各类样本中心的坐标，m、n分别代表样本的数量与样本中心的数量。得出d₁，...，d₁₆共16个距离，使用函数min{d₁，...，d₁₆}＝d₂，得到最小距离为d₂，d₂对应的分类点坐标为(X² ₁，...，X² ₁₆)，读取d₂对应的分类点的种类为“F种类”。此外，本发明还涉及区块链技术，用户的隐私信息可存储于区块链节点中。

508、获取最小所述距离对应分类点的种类，将所述种类确定为所述短语对应的种类。

在本实施例中，已经得到K-means算法分类算法中d2对应的分类点的种类为“F种类”，将“F种类”确定为结果向量P＝[p₁，p₂，p₃，...，p₁₆]^T对应的“如何缴费############”的种类，完成对未训练的短语的分类，其中p₁，p₂，p₃，...，p₁₆均为数字。

上面对本发明实施例中短语聚类方法进行了描述，下面对本发明实施例中短语聚类装置进行描述，请参阅图6，本发明实施例中短语聚类装置一个实施例包括：

获取模块601，用于获取待处理的短语，并基于所述短语查询预置短语语料库；

拆分模块602，用于若所述预置短语语料库中不存在所述短语时，对所述短语按字拆分，得到所述短语对应的字符组合；

向量化模块603，用于对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序对所有所述字符向量进行排序组合，得到所述短语对应的短语向量；

卷积池化模块604，用于对所述短语向量依次进行卷积计算与池化处理，得到卷积向量；

回归模块605，用于对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；

分类模块606，用于将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。

请参阅图7，本发明实施例中短语聚类装置的另一个实施例包括：

获取模块701，用于获取待处理的短语，并基于所述短语查询预置短语语料库；

拆分模块702，用于若所述预置短语语料库中不存在所述短语时，对所述短语按字拆分，得到所述短语对应的字符组合；

向量化模块703，用于对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序对所有所述字符向量进行排序组合，得到所述短语对应的短语向量；

卷积池化模块704，用于对所述短语向量依次进行卷积计算与池化处理，得到卷积向量；

回归模块705，用于对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；

分类模块706，用于将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。

其中，所述向量化模块703具体用于：基于短语语料库与字符向量转换表之间的对应关系，从预置存储盘中获取与所述短语语料库对应的字符向量转换表；根据所述字符组合中的字符查询所述字符向量转换表，得到所述字符组合中每个字符对应的字符向量。

其中，所述向量化模块703还可以具体用于：将所有所述字符向量按照所述短语的字排序依次排序组合，得到字符向量序列，并计算所述字符向量序列的字节长度；判断所述字符向量序列的字节长度是否超过预置模板长度；若超过预置模板长度，则以所述字符向量序列中第一排序的字符向量为始点，向后截取序列段，得到所述短语的短语向量，其中，所述序列段的字节长度等于所述预置模板长度；若未超过预置模板长度，则通过零向量填充的方式，在所述字符向量序列的最后插入所述零向量，直至所述字符向量序列的长度等于所述预置模板长度为止，得到所述短语的短语向量。

其中，所述卷积池化模块704包括：

卷积单元7041，用于获取预置滤波器集合，依次使用所述滤波器集合中的滤波器对所述短语向量进行处理，得到所有所述滤波器对应的滤波向量；

池化单元7042，用于对所有所述滤波向量进行最大池化处理，得到所有所述滤波器对应的最大池化向量；

排序单元7043，用于根据所述滤波器集合中滤波器的排序，将所有所述滤波器对应的最大池化向量进行排序组合，生成卷积向量。

其中，所述回归模块705具体用于：获取预置权重矩阵，将所述卷积向量与所述权重矩阵进行乘积，得到权重向量；使用回归函数对所述权重向量中的每个元素进行处理，以及对处理的结果进行归一化，得到每个所述元素对应的回归值；将所述权重向量中的每个元素替换为所述元素对应的回归值，得到结果向量。

其中，所述分类模块706具体用于：获取预置聚类模型中的训练样本，并将所述结果向量加入至所述聚类模型的训练样本中，并对所述结果向量设置为未标记样本，其中，所述训练样本包括已进行分类标记的短语向量的样本；读取所述训练样本中的已标记样本，计算所述已标记样本至所述训练样本中未标记样本之间的距离；基于所述距离选择所述训练样本中距离所述已标记样本最小的未标记样本，并将选择的未标记样本的标记设置为与所述已标记样本相同的标记，直至所述训练样本中的样本均已标记；读取所述结果向量的标记，并基于所述标记与种类之间的对应关系确定所述短语的种类。

其中，所述分类模块706还可以具体用于：获取预置聚类模型中所有分类点对应的坐标；分别计算所述结果向量与所有所述分类点对应的坐标之间的距离，筛选出最小的所述距离；获取最小所述距离对应分类点的种类，将所述种类确定为所述短语对应的种类。

上面图6和图7从模块化功能实体的角度对本发明实施例中的短语聚类装置进行详细描述，下面从硬件处理的角度对本发明实施例中短语聚类设备进行详细描述。

图8是本发明实施例提供的一种短语聚类设备的结构示意图，该短语聚类设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对短语聚类设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在短语聚类设备800上执行存储介质830中的一系列指令操作。

基于短语聚类设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的短语聚类设备结构并不构成对基于短语聚类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述短语聚类方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种短语聚类方法，其特征在于，所述短语聚类方法包括：

获取待处理的短语，并基于所述短语查询预置短语语料库；

对所述短语向量进行卷积计算与池化处理，得到卷积向量；

将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类；

所述对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量包括：

将所述权重向量中的每个元素替换为所述元素对应的回归值，得到结果向量；

所述将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类包括：

2.根据权利要求1所述的短语聚类方法，其特征在于，所述对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量包括：

3.根据权利要求2所述的短语聚类方法，其特征在于，所述按照所述短语中的字排序对将得到的所有字符向量进行排序组合，得到所述短语的短语向量包括：

判断所述字符向量序列的字节长度是否超过预置模板长度；

4.根据权利要求1所述的短语聚类方法，其特征在于，所述对所述短语向量进行卷积计算与池化处理，得到卷积向量包括：

5.根据权利要求1所述的短语聚类方法，其特征在于，所述将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类包括：

获取预置聚类模型中所有分类点对应的坐标；

6.一种短语聚类装置，其特征在于，所述短语聚类装置包括：

分类模块，用于将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类；

回归模块，还用于获取预置权重矩阵，将所述卷积向量与所述权重矩阵进行乘积，得到权重向量；使用回归函数对所述权重向量中的每个元素进行处理，以及对处理的结果进行归一化，得到每个所述元素对应的回归值；将所述权重向量中的每个元素替换为所述元素对应的回归值，得到结果向量；

回归模块，还用于获取预置聚类模型中的训练样本，并将所述结果向量加入至所述聚类模型的训练样本中，并对所述结果向量设置为未标记样本，其中，所述训练样本包括已进行分类标记的短语向量的样本；读取所述训练样本中的已标记样本，计算所述已标记样本至所述训练样本中未标记样本之间的距离；基于所述距离选择所述训练样本中距离所述已标记样本最小的未标记样本，并将选择的未标记样本的标记设置为与所述已标记样本相同的标记，直至所述训练样本中的样本均已标记；读取所述结果向量的标记，并基于所述标记与种类之间的对应关系确定所述短语的种类。

7.一种短语聚类设备，其特征在于，所述短语聚类设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述短语聚类设备执行如权利要求1-5中任一项所述的短语聚类方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的短语聚类方法。