CN109885685A

CN109885685A - 情报数据处理的方法、装置、设备及存储介质

Info

Publication number: CN109885685A
Application number: CN201910106859.3A
Authority: CN
Inventors: 王烁程; 罗建平; 罗安杰
Original assignee: Dingli Corp Ltd
Current assignee: Dingli Corp Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-06-14

Abstract

本申请公开了一种情报数据处理的方法、装置、设备及存储介质。的方法包括：计算包含若干样本数据的样本数据集合中每两个样本数据之间的相似度；样本数据为情报数据；分别对每个样本数据统计与本样本数据的相似度大于第一阈值的样本数据的个数，得到每个样本数据对应的第一数值，以及，从样本数据集合中选择第一数值大于或者等于第二阈值的样本数据，得到初始聚类中心集合的候选集合；在候选集合中，选择两个相似度最小的样本数据，继续选择与已选择的各样本数据的相似度最小的样本数据，直至选择出K个样本数据，得到初始聚类中心集合；将初始聚类中心集合中的各个样本数据作为聚类算法的初始聚类中心，对样本数据集合中的各样本数据进行分类。

Description

情报数据处理的方法、装置、设备及存储介质

技术领域

本申请涉及情报数据处理技术领域，尤其涉及一种情报数据处理的方法、装置、设备及存储介质。

背景技术

公安部门的情报数据库中积累了大量的情报素材，新的情报素材出现后需要进行分析，如果靠人工完成，在大量的数据的情况下，是不可能完成的。近年来，很多行业使用计算机技术从海量内容中抓住素材实质并分析的方法，同样可以应用于公安行业，用来全面揭示情报素材所反映的隐藏信息和本质，从而解决大数据量情报分析的难题。

目前，主流的情报数据处理一般分为以下几个步骤：文本预处理、文本向量表示、情报串并和情报聚类。

其中，文本预处理过程是对情报文本素材进行初步加工，生成原始文本词串。

其中，文本向量表示过程是将文本预处理过程中得到的原始文本词串通过计算转化成计算机能够处理的向量形式，得到文本向量集合。

其中，情报串并过程是计算文本向量集合中所有文本与目标文本的相似度，对相似度排序，大于某一预定阈值的文本向量集合视为情报串并的结果。

其中，情报聚类过程是在预定参数的情况下，使用相应的聚类算法对文本向量集合进行聚类，使文本向量按照同类相似性小、类间相似性大的原则自动聚类。

情报聚类首先是对文本向量集合进行聚类，比如，可以使用K-Means算法来解决聚类问题，其基本思想是：取定K个类别和K个初始聚类中心，按照最小距离原则将各文本向量作为样本数据分配到K类中的某一类，迭代计算类心，调整样本数据的类别，最终使各模式到其判属类别中心的距离平方和最小。这种算法简单、快速。但是K-Means算法也有其不足，其中最为突出的：一是需要在聚类计算之前给定划分K值，而K值的估计是非常困难的，尤其对于没有先验知识的用户是很困难的；二是需要在聚类计算之前选定K个初始聚类中心，初始聚类中心对聚类结果有很大的影响，使用不同的初始聚类中心往往会得到不同的聚类结果。对于情报分析来说，分析人员一般都会有一定的先验知识，可以根据现实需求，试探不同的K值，选取较好的聚类结果。但是大数据量的情况下，选择初始聚类中心几乎是人工不可能做到的，在情报素材当中选取K个具体的样本数据犹如大海捞针，导致聚类效果不好。

发明内容

本申请的目的是提供一种情报数据处理的方法、装置、设备及存储设备，以解决相关技术中的聚类算法聚类效果不好的问题。

本申请的目的是通过以下技术方案实现的：

一种情报数据处理的方法，包括：

计算包含若干样本数据的样本数据集合中每两个样本数据之间的相似度；所述样本数据为情报数据；

分别对每个所述样本数据统计与本样本数据的相似度大于第一阈值的样本数据的个数，得到每个所述样本数据对应的第一数值，以及，从所述样本数据集合中选择所述第一数值大于或者等于第二阈值的所述样本数据，得到初始聚类中心集合的候选集合；

在所述候选集合中，选择两个相似度最小的所述样本数据，继续选择与已选择的各所述样本数据的相似度最小的所述样本数据，直至选择出K个所述样本数据，得到所述初始聚类中心集合；

将所述初始聚类中心集合中的各个所述样本数据作为聚类算法的初始聚类中心，对所述样本数据集合中的各所述样本数据进行分类。

可选的，所述分别对每个所述样本数据统计与本样本数据的相似度大于第一阈值的样本数据的个数，得到每个所述样本数据对应的第一数值，以及，从所述样本数据集合中选择所述第一数值大于或者等于第二阈值的所述样本数据，得到初始聚类中心集合的候选集合，包括：

按照预设顺序依次从所述样本数据集合中选择一个所述样本数据为当前样本数据，并执行如下步骤：

统计与所述当前样本数据的相似度大于第一阈值的所述样本数据的个数，得到所述当前样本数据的第一数值；

如果所述第一数值大于或者等于所述第二阈值，将所述当前样本数据添加到所述候选集合，并重新选择所述当前样本数据，直至所述样本数据集合中的所述样本数据全部选择完毕，停止选择所述当前样本数据；

如果所述第一数值小于所述第二阈值，重新选择所述当前样本数据，直至所述样本数据集合中的所述样本数据全部选择完毕，停止选择所述当前样本数据。

可选的，所述在所述候选集合中，选择两个相似度最小的所述样本数据，继续选择与已选择的各所述样本数据的相似度最小的所述样本数据，直至选择出K个所述样本数据，得到所述初始聚类中心集合，包括：

获取所述候选集合中每两个所述样本数据之间的相似度，组成相似度集合；

从所述相似度集合中选择最小的相似度，将所述选择的最小的相似度对应的两个所述样本数据，添加到所述初始聚类中心集合；

根据所述相似度集合，对所述候选集合中除已添加到初始聚类中心集合的所述样本数据以外的每个所述样本数据，确定本样本数据与所述初始聚类中心集合的相似度，得到第二数值，选择最小的所述第二数值对应的所述样本数据，添加到所述初始聚类中心集合；

统计所述初始聚类中心集合中的所述样本数据的个数，得到第三数值；

如果所述第三数值达到所述K，停止向所述初始聚类中心集合添加所述样本数据；

如果所述第三数值未达到所述K，继续向所述初始聚类中心集合添加所述样本数据。

可选的，所述确定本样本数据与所述初始聚类中心集合的相似度，包括：

计算本样本数据与所述初始聚类中心集合中的各个所述样本数据的相似度之和。

可选的，所述第二阈值为K。

可选的，所述聚类算法为K-Means聚类算法。

可选的，所述相似度为余弦相似度。

一种情报数据处理的装置，所述装置包括：

相似度计算模块，用于计算包含若干样本数据的样本数据集合中每两个样本数据之间的相似度；所述样本数据为情报数据；

初始聚类中心候选模块，用于分别对每个所述样本数据统计与本样本数据的相似度大于第一阈值的样本数据的个数，得到每个所述样本数据对应的第一数值，以及，从所述样本数据集合中选择所述第一数值大于或者等于第二阈值的所述样本数据，得到初始聚类中心集合的候选集合；

初始聚类中心选择模块，用于在所述候选集合中，选择两个相似度最小的所述样本数据，继续选择与已选择的各所述样本数据的相似度最小的所述样本数据，直至选择出K个所述样本数据，得到所述初始聚类中心集合；

分类模块，用于将所述初始聚类中心集合中的各个所述样本数据作为聚类算法的初始聚类中心，对所述样本数据集合中的各所述样本数据进行分类。

一种情报数据处理的设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如以上任一项所述的情报数据处理的方法。

一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如以上任一项所述的情报数据处理的方法中各个步骤。

本申请采用以上技术方案，具有如下有益效果：

基于聚类算法的特性，真实的聚类中心周围都有密集的与之相似度较高的样本数据，如果选择的初始聚类中心能够与真实的聚类中心相近，能够在一定程度上体现样本数据的分布，那么在此基础之上进行聚类，将会得到更为准确的结果，同一个簇中的样本数据距离近，即相似度高，不同簇之间的距离远，即相似度低，基于此，本申请的方案主要是对聚类算法的初始聚类中心的选取进行了优化，对于初始聚类中心的选择，主要从两方面考虑：一是聚类中心要具有一定的代表性，能够与真实的聚类中心相近，如此能够在一定程度上体现样本数据的分布；二是聚类中心的分布尽量分散。为了使选择的初始聚类中心与真实聚类中心相近，首先计算样本数据集合中两两样本数据之间的相似度，分别对每个样本数据统计与本样本数据的相似度大于第一阈值的样本数据的个数，得到每个样本数据对应的第一数值，以及，从样本数据集合中选择第一数值大于或者等于第二阈值的样本数据，得到初始聚类中心集合的候选集合，候选集合中的样本数据都是周围相似度较高的样本数据较多的，符合上述第一点的要求，然后从初始聚类中心的候选集合中找出相似度最小的两个样本，确定为两个初始聚类中心，接着从候选集合中剩余的样本数据中找出与已经确定的初始聚类中心相似度最小的，确定为下一个初始聚类中心，符合上述第二点的要求，按照这个方法递推得出所有的K个初始聚类中心，得到的初始聚类中心与真实的聚类中心更加相似，如此，根据这些初始聚类中心对样本数据进行分类，分类结果更加准确，聚类的纯度较高，与相关技术中的聚类算法得到的结果相比，纯度有大幅提高，结果的稳定性也趋于平稳，克服了相关技术中的聚类算法在初始聚类中心选择上的随机性，提高了聚类中心的凝聚性，在一定程度上提高了对情报数据聚类的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的一种情报数据处理的方法流程图。

图2是本申请另一个实施例提供的一种得到初始聚类中心集合的候选集合的方法流程图。

图3是本申请另一个实施例提供的一种得到初始聚类中心集合的方法流程图。

图4是本申请另一个实施例提供的一种情报数据处理的装置结构图。

图5是本申请另一个实施例提供的一种情报数据处理的设备结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

参见图1，图1是本申请一个实施例提供的一种情报数据处理的方法流程图。

如图1所示，本实施例提供的一种情报数据处理的方法，至少包括如下步骤：

步骤11、计算包含若干样本数据的样本数据集合中每两个样本数据之间的相似度；样本数据为情报数据。

本实施例的方案，可以应用于对情报数据进行分析处理的场景中。

步骤12、分别对每个样本数据统计与本样本数据的相似度大于第一阈值的样本数据的个数，得到每个样本数据对应的第一数值，以及，从样本数据集合中选择第一数值大于或者等于第二阈值的样本数据，得到初始聚类中心集合的候选集合。

步骤13、在候选集合中，选择两个相似度最小的样本数据，继续选择与已选择的各样本数据的相似度最小的样本数据，直至选择出K个样本数据，得到初始聚类中心集合。

步骤14、将初始聚类中心集合中的各个样本数据作为聚类算法的初始聚类中心，对样本数据集合中的各样本数据进行分类。

其中，上述相似度可以但不限于为余弦相似度。

其中，聚类算法可以但不限于为K-Means聚类算法。

其中，第二阈值可以但不限于为K。

上述步骤12的具体实现方式有多种。参见图2，图2是本申请另一个实施例提供的一种得到初始聚类中心集合的候选集合的方法流程图。如图2所示，上述步骤12中，分别对每个样本数据统计与本样本数据的相似度大于第一阈值的样本数据的个数，得到每个样本数据对应的第一数值，以及，从样本数据集合中选择第一数值大于或者等于第二阈值的样本数据，得到初始聚类中心集合的候选集合，具体实现方式可以是：

步骤21、按照预设顺序依次从样本数据集合中选择一个样本数据为当前样本数据，并执行如下步骤22。

步骤22、统计与当前样本数据的相似度大于第一阈值的样本数据的个数，得到当前样本数据的第一数值；

如果第一数值大于或者等于第二阈值，将当前样本数据添加到候选集合，并重新选择当前样本数据，直至样本数据集合中的样本数据全部选择完毕，停止选择当前样本数据；

如果第一数值小于第二阈值，重新选择当前样本数据，直至样本数据集合中的样本数据全部选择完毕，停止选择当前样本数据。

上述步骤13的具体实现方式也有多种。参见图3，图3是本申请另一个实施例提供的一种得到初始聚类中心集合的方法流程图。如图3所示，在候选集合中，选择两个相似度最小的样本数据，继续选择与已选择的各样本数据的相似度最小的样本数据，直至选择出K个样本数据，得到初始聚类中心集合，具体的实现方式可以是：

步骤31、获取候选集合中每两个样本数据之间的相似度，组成相似度集合；

步骤32、从相似度集合中选择最小的相似度，将选择的最小的相似度对应的两个样本数据，添加到初始聚类中心集合；

步骤33、根据相似度集合，对候选集合中除已添加到初始聚类中心集合的样本数据以外的每个样本数据，确定本样本数据与初始聚类中心集合的相似度，得到第二数值，选择最小的第二数值对应的样本数据，添加到初始聚类中心集合。

其中，确定本样本数据与初始聚类中心集合的相似度，具体的，计算本样本数据与初始聚类中心集合中的各个样本数据的相似度之和。

本实施例中，考虑初始聚类中心集合的候选集合中的样本数据与每一个已经确定的作为初始聚类中心的样本数据的相似度，将其相加积累，积累相似度越小，说明候选的初始聚类中心与已经确定的初始聚类中心的整体相似度越小，作为下一个初始聚类中心也就更合理，聚类效果更好。

步骤34、统计初始聚类中心集合中的样本数据的个数，得到第三数值；

如果第三数值达到K，停止向初始聚类中心集合添加样本数据；

如果第三数值未达到K，继续向初始聚类中心集合添加样本数据，即返回步骤33。

下面以情报数据为例，对本申请实施例提供的一种情报数据处理的方法进行更加详细的说明。

步骤一、预先获取样本数据。本实施例中，样本数据为情报数据。

本实施例中，聚类数目为K，待聚类的情报数据集合N为{x₁,x₂,......,x_N}。

步骤二、计算情报数据集合N中两两情报数据的相似度sim(x_i,x_j)，其中，x_i≠x_j，x_i，x_j∈N并记录在情报数据集合的相似度集合SimTC中，即SimTC＝{sim(x_i,x_j)，x_i≠x_j，x_i，x_j∈N}。

步骤三、统计与情报数据x_i的相似度大于第一阈值θ的情报数据的数量，记为p。

步骤四、如果p≥K，则将x_i作为候选的初始聚类中心，添加到初始聚类中心集合的候选集合CandC。

步骤五、将CandC中所有候选的初始聚类中心两两之间的相似度从SimTC中提取出来形成一个新的相似度集合SimCC。

步骤六、找出CandC中相似度最小的两个情报数据x_i，x_j作为初始聚类中心，添加到初始聚类中心集合ResC。

步骤七、遍历SimCC中的相似度，计算CandC中除已添加的情报数据以外的每条情报数据与ResC中所有的初始聚类中心之间相似度之和sumSim(x_i)。

步骤八、找出sumSim(x_i)中的最小值，并将对应的x_i作为初始聚类中心添加到ResC。

重复步骤七和步骤八，直到ResC中的数量ResC.length＝K。

参见图4，图4是本申请另一个实施例提供的一种情报数据处理的装置结构图。

如图4所示，本实施例提供的一种情报数据处理的装置，包括：

相似度计算模块401，用于计算包含若干样本数据的样本数据集合中每两个样本数据之间的相似度；样本数据为情报数据；

初始聚类中心候选模块402，用于分别对每个样本数据统计与本样本数据的相似度大于第一阈值的样本数据的个数，得到每个样本数据对应的第一数值，以及，从样本数据集合中选择第一数值大于或者等于第二阈值的样本数据，得到初始聚类中心集合的候选集合；

初始聚类中心选择模块403，用于在候选集合中，选择两个相似度最小的样本数据，继续选择与已选择的各样本数据的相似度最小的样本数据，直至选择出K个样本数据，得到初始聚类中心集合；

分类模块404，用于将初始聚类中心集合中的各个样本数据作为聚类算法的初始聚类中心，对样本数据集合中的各样本数据进行分类。

本实施例提供的情报数据处理的装置的具体实施方案可以参考以上任意例所述的数据处理方法的实施方式，此处不再赘述。

参见图5，图5是本申请另一个实施例提供的一种情报数据处理的设备结构图。

如图5所示，本实施例提供的一种情报数据处理的设备，包括：

处理器501，以及与处理器501相连接的存储器502；

存储器502用于存储计算机程序；

处理器501用于调用并执行存储器502中的计算机程序，以执行如以上任意实施例所述的情报数据处理的方法。

本实施例提供的情报数据处理的设备的具体实施方案可以参考以上任意例所述的数据处理方法的实施方式，此处不再赘述。

本申请另一个实施例还提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时，实现如以上任意实施例所述的情报数据处理的方法中各个步骤。

本实施例提供的存储介质的具体实施方案可以参考以上任意例的数据处理方法的实施方式，此处不再赘述。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种情报数据处理的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别对每个所述样本数据统计与本样本数据的相似度大于第一阈值的样本数据的个数，得到每个所述样本数据对应的第一数值，以及，从所述样本数据集合中选择所述第一数值大于或者等于第二阈值的所述样本数据，得到初始聚类中心集合的候选集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述在所述候选集合中，选择两个相似度最小的所述样本数据，继续选择与已选择的各所述样本数据的相似度最小的所述样本数据，直至选择出K个所述样本数据，得到所述初始聚类中心集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定本样本数据与所述初始聚类中心集合的相似度，包括：

5.根据权利要求1所述的方法，其特征在于，所述第二阈值为K。

6.根据权利要求1所述的方法，其特征在于，所述聚类算法为K-Means聚类算法。

7.根据权利要求1所述的方法，其特征在于，所述相似度为余弦相似度。

8.一种情报数据处理的装置，其特征在于，所述装置包括：

9.一种情报数据处理的设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如权利要求1～7任一项所述的情报数据处理的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1～7任一项所述的情报数据处理的方法中各个步骤。