CN111752984B

CN111752984B - 一种信息处理方法、装置和存储介质

Info

Publication number: CN111752984B
Application number: CN201910234219.0A
Authority: CN
Inventors: 邓杰
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2022-12-13
Anticipated expiration: 2039-03-26
Also published as: CN111752984A

Abstract

本公开实施例公开了一种信息处理方法，包括：获取服务信息；根据所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值；基于所述属性值计算待分析服务信息之间的属性相似度；将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息，这样，在业务系统进行所述服务信息的再利用时，能够准确获知所述确定的相似服务信息，有利于减少冗余信息，提升业务系统的服务信息处理效率。本公开实施例进一步公开了一种信息处理装置和存储介质。

Description

一种信息处理方法、装置和存储介质

技术领域

本公开实施例涉及数据处理领域，尤其涉及信息处理方法、装置和存储介质。

背景技术

在电信领域，各个省市运营商每天运行着大量的业务支撑系统，如客户关系管理系统（CRM），业务运营支撑系统（BOSS），业务支撑网运营管理系统（BOMC）等。经过多年的业务快速发展，这些系统自身包含了大量的服务信息，在当前大连接战略指引以及互联网+与集中化思想引领下，对这些服务信息进行集中化管控是实现高效运营的重要保证。现如今处于大数据共享时代，如果能够对这些服务信息进行集中化存储与管控，建立统一开放平台，并对服务信息进行相似性分析，则能够更好的指导各个运营商对服务的格式标准化和统一化管理。并且，在服务信息再利用时，基于相似性分析的结论可以有效降低各个运营商的运营成本，减少运营商之间提供的服务信息冗余度。

但是，目前的相似性分析方法没有通过建立适当的数学模型对服务信息进行定量分析，无法准确确定相似服务信息，会直接导致服务信息的冗余度较高，最终导致服务信息利用时的处理成本较高。

发明内容

为解决现有存在的技术问题，本公开实施例提供一种能够准确确定相似服务信息的信息处理方法、装置和存储介质。

为达到上述目的，本公开实施例的技术方案是这样实现的：

第一方面，本公开实施例提供一种信息处理方法，包括：

获取服务信息；

根据所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值；

基于所述属性值计算待分析服务信息之间的属性相似度；

将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息。

其中，在基于所述属性值计算待分析服务信息之间的相似度之前，还包括：

根据所述服务信息对应的所述属性标签和所述属性值确定所述服务信息的分布密度；

根据所述分布密度确定服务信息抽样样本，将所述服务信息抽样样本作为所述待分析服务信息。

其中，所述根据所述服务信息对应的所述属性标签和所述属性值确定所述服务信息的分布密度，包括：

以所述服务信息对应的属性标签为维度建立矩阵；

根据每一所述服务信息的属性值确定每一所述服务信息在所述矩阵中对应的位置；

根据不同位置的所述服务信息的数量，确定所述服务信息的分布密度。

其中，所述根据不同位置的所述服务信息的数量，确定所述服务信息的分布密度，包括：

将所述矩阵对应的多维空间划分为多个子空间，统计每个所述子空间中所述服务信息的数量，获得所述服务信息的分布密度。

其中，所述根据所述分布密度确定服务信息抽样样本，将所述服务信息抽样样本作为所述待分析服务信息，包括：

根据所述分布密度的大小，按照设置比例从不同分布密度对应的服务信息集中抽样不同数量的所述服务信息，将所述服务信息作为所述待分析服务信息。

其中，在基于所述属性标签和所述属性值计算所述待分析服务信息之间的相似度之前，还包括：

基于所述服务信息包含的所述属性标签计算对应的第一信息熵；

选定待选属性标签，基于所述服务信息排除所述待选属性标签外的其它所述属性标签计算得到第二信息熵；

计算所述第二信息熵和第一信息熵之间的差值，当所述差值大于设置信息熵阈值时，保留所述待选属性标签，否则，删除所述待选属性标签；

将保留的所述待选标签属性作为所述服务信息对应的标签属性。

其中，所述基于所述属性值计算所述待分析服务信息之间的相似度，包括:

获得所述待分析服务信息的属性标签对应的特征向量；

计算所述待分析服务信息对应的特征向量之间的距离值，获得所述待分析服务信息之间的相似度；其中，所述距离值与所述相似度之间存在对应关系。

其中，在所述获取服务信息之前，还包括：获取子数据库中的服务信息并对所述获取过程进行监测，直至从所述子数据库中获取到的所述服务信息量达到采集阈值或直至获取到所述子数据库中的所有的所述服务信息。

其中，所述获取子数据库中的服务信息并对所述获取过程进行监测，包括：通过Filebeat组件采集各个子数据库中的服务信息并通过Filebeat组件对所述采集过程进行监控，将采集到的所述服务信息按照设置格式存入到数据库。

其中，还包括：将所述相似服务信息存储至目标数据库，和/或，将所述服务信息输出并显示。

第二方面，本公开实施例还提供一种信息处理装置，包括数据获取模块和信息处理模块；其中，

所述数据获取模块，用于获取服务信息；

所述信息处理模块，用于根据所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值；基于所述属性值计算待分析服务信息之间的属性相似度；将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息。

第三方面，本公开实施例还提供一种信息处理装置，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，所述处理器用于运行所述计算机程序时，实现本公开任一实施例所述的信息处理方法。

第四方面，本公开实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本公开任一实施例所述的信息处理方法。

在本公开实施例中，通过获取服务信息，根据所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值，这样，可以基于所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值，方便针对所述服务信息的定量计算；基于所述属性值计算待分析服务信息之间的属性相似度，将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息，如此，基于所述属性值获得待分析服务信息之间的属性相似度，能够基于所述服务信息的属性值对所述服务信息进行定量分析，准确确定相似服务信息，这样，在业务系统进行所述服务信息的再利用时，能够准确获知所述确定的相似服务信息，有利于减少冗余信息，提升业务系统的服务信息处理效率。

附图说明

图1为本公开一实施例提供的一种信息处理方法的流程示意图；

图2为本公开另一实施例提供的一种信息处理方法的流程示意图；

图3为本公开另一实施例提供的一种信息处理方法的流程示意图；

图4为本公开一实施例提供的服务信息建立的网格矩阵示意图；

图5为本公开另一实施例提供的一种信息处理方法的流程示意图；

图6为本公开另一实施例提供的一种信息处理方法的流程示意图；

图7为本公开另一实施例提供的一种信息处理方法的流程示意图；

图8为本公开另一实施例提供的一种信息处理方法的流程示意图；

图9为本公开另一实施例提供的一种信息处理方法的流程示意图；

图10为本公开另一实施例提供的一种信息处理方法的流程示意图；

图11为本公开另一实施例提供的一种信息处理方法的流程示意图；

图12为本公开一实施例提供的一种信息处理装置的结构示意图；

图13为本公开另一实施例提供的一种信息处理装置的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

第一方面，本公开实施例提供一种信息处理方法，请参见图1，为本公开一实施例提供的一种信息处理方法，所述方法包括：

步骤11，获取服务信息；

这里，所述服务信息可以包括在通信过程中产生的相关数据，例如，通信用户的通信记录数据、通信运营商的运营数据等。所述获取服务信息可以是从各个省市运营商的CRM、BOSS、BOMC等系统获取服务相关的数据，具体可以是通过本地文件的日志信息采集器（Filebeat）组件采集各个运营商的服务信息，将采集到的大量服务信息按照一定的格式存入到搜索服务器（Elasticsearch）集群，实现对服务信息的集中化存储，然后从Elasticsearch集群中获取服务信息进行后续信息处理。

步骤12，根据所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值；

这里，所述服务信息携带的设置字段可以是各个运营商为了规范录入的用户数据管理而设置的字段，以用户相关的信息为例，为了对A用户的信息进行规范管理，在录入时，运营商会设置相关字段，如年龄、月消费、套餐等；每个字段在录入时会添加对应的值，如表一所示：

表一

用户	年龄	月消费	套餐	…
					A	36	80	2	…
B	24	120	1	…
					C	16	50	3	…

这里，可以通过充分利用各个运营商已经录好的服务信息携带的设置字段确定所述服务信息对应的属性标签及与所述属性标签对应的属性值，能够减少标注工作量，提升数据处理效率。

步骤13，基于所述属性值计算待分析服务信息之间的属性相似度；

这里，基于所述属性值计算待分析服务信息之间的属性相似度，可以是通过提取各个待分析服务信息的特征向量，这里，特征向量用于表征每一个所述待分析服务信息，特征向量值可以是属性值的集合，例如，A用户的年龄为36、月消费为80、套餐为2，则以年龄、月消费、套餐为服务信息的设置字段，所述A用户的特征向量可以表示为A=（36、80、2）。计算特征向量之间的距离获得各个待分析服务信息之间对应的相似度，例如，通过计算特征向量之间的欧氏距离获得各个待分析服务信息之间的相似度，例如B=(37、81、2)，则A与B的距离较小，A与B的相似度很高；又比如C=（10、10、1），则A与C的距离较大，A与B的相似度很小。

步骤14，将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息。

这里，设置的相似度阈值可以是百分比，例如，80%、90%、100%等，这些相似度阈值可以根据实际需要统一设定。这里，所述相似服务信息可以与原始服务信息存储在一块，也可以分开存储。还可以将所述相似服务信息在WEB网站上进行显示以方便服务使用者的查阅。

在本公开实施例中，通过获取服务信息，根据所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值，这样，可以基于所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值，方便针对所述服务信息的定量计算；基于所述属性值计算待分析服务信息之间的属性相似度，将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息，这里，基于所述属性值获得待分析服务信息之间的属性相似度，能够基于所述服务信息的属性值对所述服务信息进行定量分析，准确确定相似服务信息，这样，在业务系统进行所述服务信息的再利用时，能够准确获知所述确定的相似服务信息，有利于确定冗余信息，提升业务系统的服务信息处理效率。

作为一种实施例，请参见图2，为本公开另一实施例提供的一种信息处理方法的流程示意图，在步骤13之前，所述方法还包括：

步骤21，根据所述服务信息对应的所述属性标签和所述属性值确定所述服务信息的分布密度；

这里，所述服务信息的分布密度可以是属性标签对应属性值对应的特定范围内的服务信息的数量，例如，以A用户的月消费为例，消费金额在50至100元之间的服务信息数量对应有100条，则可以定义其密度为p=100/50=2。大数据样本中，服务信息的分布密度越大，表明服务信息在对应属性值范围内出现的几率越多，属性值的表征性越典型，在所述属性范围内出现的服务信息更能代表总体样本的特征。

步骤22，根据所述分布密度确定服务信息抽样样本，将所述服务信息抽样样本作为所述待分析服务信息。

这里，根据所述分布密度确定服务信息抽样样本，可以是按照设置比例从服务信息中抽取样本，例如，当密度为p=10时，抽取10%。服务信息的属性标签越多，维度较多，数据分布越不均匀，上述实施例可以抽取较能代表原始数据集的样本集，同时也最大限度的过滤了离群点，避免后续计算带来的误差。

请参见图3，为本公开另一实施例提供的一种信息处理方法的流程示意图，所述步骤21中，根据所述服务信息对应的所述属性标签和所述属性值确定所述服务信息的分布密度，包括：

步骤31，以所述服务信息对应的属性标签为维度建立矩阵；

这里，可以是将所述服务信息按照属性标签与属性值为相应的维度建立高维矩阵，以三维矩阵为例，某服务信息包括a、b、c、d、e、f、g、h、i共9个属性标签，则建立的高维矩阵为：

x1=

，

同时按照属性的值进行等分切分，将高维空间划分成若干个网格。为方便理解，以一个二维的矩阵x1为例进行说明：

x1=

，

请参见图4，为针对包含X和Y属性标签的服务信息x1建立的网格矩阵，其中，横轴和纵轴分别代表X和Y属性标签，属性标签X的属性值对应为x，属性标签Y的属性值对应为y，每个网格的变长分别代表对应轴上等分属性值后的间隔。

步骤32，根据每一所述服务信息的属性值确定每一所述服务信息在所述矩阵中对应的位置；

请在再次参见图4，每一所述服务信息属性标签X和Y的属性值对应的坐标能唯一确定所述服务信息在所述矩阵中的位置，如图4中黑点所示。

步骤33，根据不同位置的所述服务信息的数量，确定所述服务信息的分布密度。

请再次参见图4，所述服务信息在所述矩阵中呈一定规律分布，可以通过统计不同网格中所述服务信息的数量，确定所述服务信息的分布密度。根据所述分布密度，按照一定的百分比抽取密集网格中的服务信息作为样本集。

本公开实施例中，根据所述分布密度可知，所述服务信息在不同网格中的数量呈呈稀疏矩阵分布，基于所述分布特点，可以通过按照一定的百分比抽取较能代表原始数据集的样本集，能够筛选出相似度低的非典型样本，能减少计算量并避免后续针对样本进行计算时带来误差。

作为一种实施例，请参见图5，为本公开另一实施例提供的种信息处理方法的流程示意图，步骤33中，所述根据不同位置的所述服务信息的数量，确定所述服务信息的分布密度，包括：

步骤41，将所述矩阵对应的多维空间划分为多个子空间；

步骤42，统计每个所述子空间中所述服务信息的数量，获得所述服务信息的分布密度。

这里，以二维空间为例，服务信息包括a、b两个属性，则形成的空间为二维子空间，通过统计每个二维子空间中所述服务信息的数量，可以获得所述服务信息的密度；以三维空间为例，服务信息包括a、b、c三个属性，则形成的空间为三维子空间，通过统计每个三维子空间中所述服务信息的数量，可以获得所述服务信息的密度P。例如P=N/Z，其中，N为子空间中所述服务信息的数量，Z为自定义的参数，P为所述服务信息的密度。

请参见图6，为本公开另一实施例提供的种信息处理方法的流程示意图，步骤22中，所述根据所述分布密度确定服务信息抽样样本，将所述服务信息抽样样本作为所述待分析服务信息，包括：

步骤51，根据所述分布密度的大小，按照设置比例从不同分布密度对应的服务信息集中抽样不同数量的所述服务信息；

这里，在大数据样本中，服务信息的分布密度越大，表明服务信息在对应属性值范围内出现的几率越多，属性值的表征性越典型，在所述属性范围内出现的服务信息更能代表总体样本的特征，可以设置更高的设置比例进行抽样。

步骤52，将所述服务信息作为所述待分析服务信息。

这里，可以抽取较能代表原始数据集的样本集避免后续计算带来的误差。

请再次参见图7，在步骤13之前，还包括：

步骤61，基于所述服务信息包含的所述属性标签计算对应的第一信息熵；

这里，信息熵常用来表示信息完整性，使用信息熵可以计算一个属性标签所包含的信息量多少。信息熵可以衡量一个所述服务信息不确定性的大小，它表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望。信息熵越大表明所述服务信息的信息量越大，反之越低。

信息熵的计算公式为：H(X)=−∑xp(x)logp(x)，其中，x表示随机变量， p(x)表示随机事件为x的概率。

这里，可以是基于所述服务信息包含的所有所述属性标签计算对应的第一信息熵。

步骤62，选定待选属性标签，基于所述服务信息排除所述待选属性标签外的其它所述属性标签计算得到第二信息熵；

这里，所述待选属性标签可以为一个也可以为多个。例如，可以是遍历每个所述属性标签，逐一计算排除对应属性标签后其他所述属性标签对应的第二信息熵；

步骤63，计算所述第二信息熵和第一信息熵之间的差值，当所述差值大于设置信息熵阈值时，保留所述待选属性标签，否则，删除所述待选属性标签；

这里，所述第二信息熵和第一信息熵之间的差值越大，说明所述待选属性标签对应的信息量越大，所述属性标签越重要，例如，如果差值大于阈值0，说明移除该属性标签后使得信息熵变大，对整体服务信息分布影响越大，所述属性标签越重要。

步骤64，将保留的所述待选标签属性作为所述服务信息对应的标签属性。

本公开实施例中，考虑到部分所述服务信息的属性标签较多，可能这些属性标签对于信息分析不会产生影响或者产生的影响较小，会对服务信息进行属性标签的筛选，提升了信息的处理效率。

请参见图8，为本公开另一实施例提供的一种信息处理方法的流程示意图，在步骤13中之前，还包括如下预处理过程：

步骤71，获取原始服务信息，这里，原始服务信息为未进行预处理前的服务信息；

步骤72，根据所述服务信息对应的所述属性标签和所述属性值确定所述服务信息的分布密度；根据所述分布密度确定服务信息抽样样本，将所述服务信息抽样样本作为所述待分析服务信息；

步骤73，基于所述服务信息包含的所述属性标签计算对应的第一信息熵；选定待选属性标签，基于所述服务信息排除所述待选属性标签外的其它所述属性标签计算得到第二信息熵；计算所述第二信息熵和第一信息熵之间的差值，当所述差值大于设置信息熵阈值时，保留所述待选属性标签，否则，删除所述待选属性标签；将保留的所述待选标签属性作为所述服务信息对应的标签属性；

请参见图9，为本公开另一实施例提供的一种信息处理方法的流程示意图，所述基于所述属性值计算所述待分析服务信息之间的相似度，包括:

步骤81，获得所述待分析服务信息的属性标签对应的特征向量；

这里，获得所述待分析服务信息的属性标签对应的特征向量可以是以所述属性标签为维度获得所述待分析服务信息对应的特征向量，例如，待分析服务信息x，包括属性标签A、标签B、标签C，则可以建立所述待分析服务信息的特征向量x=（A、B、C）。

步骤82，计算所述待分析服务信息对应的特征向量之间的距离值，获得所述待分析服务信息之间的相似度；其中，所述距离值与所述相似度之间存在对应关系。

这里，所述特征向量之间的距离可以是欧氏距离，如果欧式距离越小，则说明两个服务信息相似性越高。例如，待分析服务信息的特征向量分别为x1和x2，其中，x1=（A1、B1、C1），x2=（A2、B2、C2），或者，可以表示为x1=

，x2=

。则待分析服务信息特征向量x1和x2之间的相似度

。

作为一种实施例，步骤11之前，还包括：获取子数据库中的服务信息并对所述获取过程进行监测，直至从所述子数据库中获取到的所述服务信息量达到采集阈值或直至获取到所述子数据库中的所有的所述服务信息。

这里，如果所述服务信息没有采集完毕，会继续完成服务信息的采集，如果服务信息采集完毕，才会执行接下来的处理步骤。本公开实施例中，在获取子数据库中的服务信息时，对所述获取过程进行监测，能够实时了解服务信息的获取情况；采集阈值的设置或者获取到所有的所述服务信息后才停止获取能够使得待分析的服务信息的范围确定。

作为一种实施例，所述获取子数据库中的服务信息并对所述获取过程进行监测，包括：通过Filebeat组件采集各个子数据库中的服务信息并通过Filebeat组件对所述采集过程进行监控，将采集到的所述服务信息按照设置格式存入到数据库。

这里，通过Filebeat组件的每个节点对服务信息进行监控和采集，如果有节点（Filebeat(nodex)）监控到服务数据库中还有未采集的服务信息，则会继续完成服务信息采集工作；如果Filebeat组件的节点监控到服务信息已经采集完毕，那么就会停止服务信息采集任务。在服务信息采集过程中，利用Filebeat组件的每个节点对各个省市运营商服务信息进行监控和采集，并且将采集的服务信息存储在Elaticsearch集群中，实现服务信息的集中化存储和管控。这里，将采集到的所述服务信息按照设置格式存入到数据库使得数据的获取更加方便，方便数据的标准化管理。

作为一种实施例，所述方法还包括：将所述相似服务信息存储至目标数据库，和/或，将所述服务信息输出并显示。

这里，将相似服务信息存储至目标数据库，和/或，将所述服务信息输出并显示，使得用户能够方便获取相似服务信息，能够促进数据的标准化管理。对于非相似的服务信息，说明各个省市运营商服务具有独特性，则不需要存入到专用的服务信息数据库中。

为了能够更加便于对本公开实施例提供的信息处理方法的实现流程进一步理解，以下通过1个可选的具体实施例对其进行进一步说明：

请参见图10，所述方法包括如下步骤：

步骤a1、服务信息采集模块从服务信息采集数据库获取服务信息；其中，所述服务信息包括服务信息提供商P1、服务信息提供商P2、…服务信息提供商P3提供的信息；

步骤a2、对所述获取过程进行监测，判断所述服务信息是否全部采集完毕；如果是，执行步骤a3；如果否，继续执行步骤a1；具体地，请结合参见图11，本实施例通过Filebeat组件采集服务信息数据库91中的服务信息并通过Filebeat组件中的Filebeat（node1）、Filebeat（node2）、…Filebeat（nodeN）节点92对所述采集过程进行监测；并判断服务信息是否全部全部采集完毕，若否，则继续采集；若是，则执行步骤a3。

步骤a3、将所述采集到的服务信息存储至Elasticsearch集群；

步骤a4、服务信息的预处理；所述预处理过程包括：以Elasticsearch集群中的所述服务信息对应的属性标签为维度建立矩阵；根据每一所述服务信息的属性值确定每一所述服务信息在所述矩阵中对应的位置；根据不同位置的所述服务信息的数量，确定所述服务信息的分布密度；根据所述分布密度的大小，按照设置比例从不同分布密度对应的服务信息集中抽样不同数量的所述服务信息，将所述服务信息作为所述待分析服务信息；

步骤a5、获得所述待分析服务信息的属性标签对应的特征向量；计算所述待分析服务信息对应的特征向量之间的距离值，获得所述待分析服务信息之间的相似度；其中，所述距离值与所述相似度之间存在对应关系；

步骤a6、将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息；

步骤a7、将所述相似服务信息存储至目标数据库；

步骤a8、从所述目标数据库中获取所述服务信息并将所述服务信息输出并显示。本实施例中，基于所述属性值获得待分析服务信息之间的属性相似度，能够基于所述服务信息的属性值对所述服务信息进行定量分析，准确确定相似服务信息，这样，在业务系统进行所述服务信息的再利用时，能够准确获知所述确定的相似服务信息，有利于确定冗余信息，提升业务系统的信息处理效率。同时，在对服务信息进行分析之前，对服务信息进行了抽样和属性标签的筛选，能够减少样本数量和属性标签数量，从而减少了服务信息处理的计算量，提升了数据处理的效率。

第二方面，请参见图12，本公开实施例还提供一种信息处理装置，包括服务信息采集模块101和服务信息相似分析模块102；其中，

所述服务信息采集模块101，用于获取服务信息；

所述服务信息相似分析模块102，用于根据所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值；基于所述属性值计算待分析服务信息之间的属性相似度；将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息。

这里，服务信息采集模块101获取的服务信息可以是来自服务信息数据库，所述服务信息数据库中的服务信息可以是来自服务信息提供商，例如，服务信息提供商P1、服务信息提供商P2和服务信息提供商Pn。所述服务信息采集模块101在获取到服务信息后，可以将大量服务信息按照一定的格式存入到Elasticsearch集群103，实现对服务信息的集中化存储。在所述服务信息相似分析模块102可以连接服务信息预处理模块104，用于对服务信息进行预处理。所述服务信息相似分析模块102还可以连接服务信息相似输出模块105，用于存储相似服务信息，并通过服务显示模块106进行显示，方便用户查阅。

第三方面，本公开实施例还提供一种信息处理装置，请参见图13，为本公开一实施例提供的一种信息处理装置的结构示意图，所述装置包括：处理器112和用于存储能够在处理器上运行的计算机程序的存储器111；其中，所述处理器112用于运行所述计算机程序时，所述处理器112执行所述计算机程序时包括实现如下步骤：获取服务信息；根据所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值；基于所述属性值计算待分析服务信息之间的属性相似度；将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息。

这里，所述处理器112执行所述计算机程序时还用于实现：根据所述服务信息对应的所述属性标签和所述属性值确定所述服务信息的分布密度；根据所述分布密度确定服务信息抽样样本，将所述服务信息抽样样本作为所述待分析服务信息。

这里，所述处理器112执行所述计算机程序时还用于实现：以所述服务信息对应的属性标签为维度建立矩阵；根据每一所述服务信息的属性值确定每一所述服务信息在所述矩阵中对应的位置；根据不同位置的所述服务信息的数量，确定所述服务信息的分布密度。

这里，所述处理器112执行所述计算机程序时还用于实现：将所述矩阵对应的多维空间划分为多个子空间，统计每个所述子空间中所述服务信息的数量，获得所述服务信息的分布密度。

这里，所述处理器112执行所述计算机程序时还用于实现：根据所述分布密度的大小，按照设置比例从不同分布密度对应的服务信息集中抽样不同数量的所述服务信息，将所述服务信息作为所述待分析服务信息。

这里，所述处理器112执行所述计算机程序时还用于实现：基于所述服务信息包含的所述属性标签计算对应的第一信息熵；选定待选属性标签，基于所述服务信息排除所述待选属性标签外的其它所述属性标签计算得到第二信息熵；计算所述第二信息熵和第一信息熵之间的差值，当所述差值大于设置信息熵阈值时，保留所述待选属性标签，否则，删除所述待选属性标签；将保留的所述待选标签属性作为所述服务信息对应的标签属性。

这里，所述处理器112执行所述计算机程序时还用于实现：获得所述待分析服务信息的属性标签对应的特征向量；计算所述待分析服务信息对应的特征向量之间的距离值，获得所述待分析服务信息之间的相似度；其中，所述距离值与所述相似度之间存在对应关系。

这里，所述处理器112执行所述计算机程序时还用于实现：获取子数据库中的服务信息并对所述获取过程进行监测，直至从所述子数据库中获取到的所述服务信息量达到采集阈值或直至获取到所述子数据库中的所有的所述服务信息。

这里，所述处理器112执行所述计算机程序时还用于实现：通过Filebeat组件采集各个子数据库中的服务信息并通过Filebeat组件对所述采集过程进行监控，将采集到的所述服务信息按照设置格式存入到数据库。

这里，所述处理器112执行所述计算机程序时还用于实现：将所述相似服务信息存储至目标数据库，和/或，将所述服务信息输出并显示。

第四方面，本公开实施例还提供一种计算机存储介质，例如包括存储有计算机程序的存储器，上述计算机程序可由上述装置中的处理器执行，以完成前述方法所述步骤。计算机存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。所述计算机存储介质中存储有计算机程序，其中，所述处理器用于运行所述计算机程序时，所述处理器112执行所述计算机程序时包括实现如下步骤：获取服务信息；根据所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值；基于所述属性值计算待分析服务信息之间的属性相似度；将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息。

以上所述，仅为本公开的较佳实施例而已，并非用于限定本公开的保护范围。凡在本公开的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本公开的保护范围之内。

Claims

1.一种信息处理方法，其特征在于，包括：

获取服务信息；

基于所述属性值计算待分析服务信息之间的属性相似度；

将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息；

以所述服务信息对应的属性标签为维度建立矩阵；

将所述矩阵对应的多维空间划分为多个子空间，统计每个所述子空间中所述服务信息的数量，获得所述服务信息的分布密度；

2.根据权利要求1所述的信息处理方法，其特征在于，所述根据所述分布密度确定服务信息抽样样本，将所述服务信息抽样样本作为所述待分析服务信息，包括：

3.根据权利要求1所述的信息处理方法，其特征在于，在基于所述属性标签和所述属性值计算所述待分析服务信息之间的相似度之前，还包括：

将保留的所述待选属性标签作为所述服务信息对应的属性标签。

4.根据权利要求1所述的信息处理方法，其特征在于，所述基于所述属性值计算所述待分析服务信息之间的相似度，包括:

获得所述待分析服务信息的属性标签对应的特征向量；

5.根据权利要求1所述的信息处理方法，其特征在于，在所述获取服务信息之前，还包括：获取子数据库中的服务信息并对所述获取过程进行监测，直至从所述子数据库中获取到的所述服务信息量达到采集阈值或直至获取到所述子数据库中的所有的所述服务信息。

6.根据权利要求5所述的信息处理方法，其特征在于，所述获取子数据库中的服务信息并对所述获取过程进行监测，包括：通过Filebeat组件采集各个子数据库中的服务信息并通过Filebeat组件对所述采集过程进行监控，将采集到的所述服务信息按照设置格式存入到数据库。

7.根据权利要求1所述的信息处理方法，其特征在于，还包括：

将所述相似服务信息存储至目标数据库，和/或，将所述服务信息输出并显示。

8.一种信息处理装置，其特征在于，包括数据获取模块、相似度分析模块和预处理模块；其中，

所述数据获取模块，用于获取服务信息；

所述相似度分析模块，用于根据所述服务信息携带的设置字段确定每一所述服务信息对应的属性标签及与所述属性标签对应的属性值；基于所述属性值计算待分析服务信息之间的属性相似度；将所述属性相似度大于设置的相似度阈值的所述待分析服务信息作为相似服务信息；

所述预处理模块，用于以所述服务信息对应的属性标签为维度建立矩阵；根据每一所述服务信息的属性值确定每一所述服务信息在所述矩阵中对应的位置；将所述矩阵对应的多维空间划分为多个子空间，统计每个所述子空间中所述服务信息的数量，获得所述服务信息的分布密度；根据所述分布密度确定服务信息抽样样本，将所述服务信息抽样样本作为所述待分析服务信息。

9.一种信息处理装置，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，所述处理器用于运行所述计算机程序时，实现权利要求1至7任一项所述的信息处理方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的信息处理方法。