CN112396078A

CN112396078A - 一种服务分类方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112396078A
Application number: CN201910757252.1A
Authority: CN
Inventors: 李小涛; 游树娟
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2021-02-23

Abstract

本发明提供一种服务分类方法、装置、设备及计算机可读存储介质，该服务分类方法包括：获取目标服务的服务描述信息；根据所述服务描述信息，生成所述目标服务的目标灰度图像；将所述目标灰度图像输入到预先训练得到的图像分类模型中，得到表示所述目标服务的服务类别的分类结果。本发明的实施例，可以利用基于图像分类模型在图像分类准确性上优秀的表现，来提升服务分类的准确性，从而更精细地反应不同服务之间的相似程度，使得服务分类的准确性更好。

Description

一种服务分类方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据业务技术领域，尤其涉及一种服务分类方法、装置、设备及计算机可读存储介质。

背景技术

为了方便用户选择满足需求的Web服务，可对Web服务进行分类。现有的Web服务分类主要有基于标签的web服务分类方法，即将web服务中不同接口函数的名称、参数等信息进行聚合作为服务特征，并根据聚合得到的服务特征进行服务分类。但是，这种方法忽视了Web服务不同接口之间功能的差异性，按照此方法计算的服务相似度并不能准确反映服务功能的接近程度，无法准确地进行服务分类。

发明内容

本发明实施例提供一种服务分类方法、装置、设备及计算机可读存储介质，以解决现有的Web服务分类方法无法准确地进行服务分类的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种服务分类方法，包括：

获取目标服务的服务描述信息；

根据所述服务描述信息，生成所述目标服务的目标灰度图像；

将所述目标灰度图像输入到预先训练得到的图像分类模型中，得到表示所述目标服务的服务类别的分类结果。

第二方面，本发明实施例提供了一种服务分类装置，包括：

第一获取模块，用于获取目标服务的服务描述信息；

第一生成模块，用于根据所述服务描述信息，生成所述目标服务的目标灰度图像；

分类模块，用于将所述目标灰度图像输入到预先训练得到的图像分类模型中，得到表示所述目标服务的服务类别的分类结果。

第三方面，本发明实施例提供了一种服务分类设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时实现上述服务分类方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述服务分类方法的步骤。

本发明实施例的服务分类方法，根据目标服务的服务描述信息，生成该目标服务的目标灰度图像，并通过预先训练得到的图像分类模型对该目标灰度图像进行分类，以得到表示该目标服务的服务类别的分类结果，相比于现有基于标签的服务分类方法，可以利用基于图像分类模型在图像分类准确性上优秀的表现，来提升服务分类的准确性，从而更精细地反应不同服务之间的相似程度，使得服务分类的准确性更好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的服务分类方法的流程图；

图2为本发明实施例中的目标灰度图像生成过程的流程图；

图3为本发明实施例中的图像分类模型的训练过程的流程图；

图4为本发明具体实例的WSDL文档内容的示意图；

图5为本发明实施例的服务分类装置的结构示意图；

图6为本发明实施例的服务分类设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解本发明实施例，首先解释说明如下。

可选的，本发明实施例中的服务可为Web服务。Web服务是基于可扩展标示语言(Extensive Markup Language，XML)和超文本传输协议(Hyper Text TransportProtocol，HTTP)的一种模块化应用程序，其通信协议主要基于简单对象访问协议(SimpleObject Access Protocol，SOAP)，服务的描述通过Web服务描述语言(Web ServicesDescription Language，WSDL)，通过统一描述、发现和集成协议(Universal DescriptionDiscovery and Integration，UDDI)来发现和获得服务的元数据。WSDL文档是一种XML结构的文档，用于描述服务的接口信息，是用户调用服务的说明书。一个完整WSDL文档中可包含类型Types、消息Message、操作Operation、端口类型PortType、绑定Binding、端口Port和服务Service等信息，这些信息实现了对Web服务的综合描述。

Web服务分类通常是指将Web服务库或服务注册中心中的Web服务按照功能分成多个类别，使得同一类别下的Web服务功能相同或相似，不同类别下的Web服务则具有较大的差别。Web服务分类能够有效减小服务发现操作的搜索空间，提升Web服务发现(检索)的质量，为用户提供更多更满足需求的候选服务。

词向量(word embedding)是词语的特征表示，通过语义词典或机器学习技术可将每个词语表示为固定长度的向量。词向量具有良好的语义特性，是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。通过词向量训练，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上词与词之间的相关度，来表示词语语义上的相关度。目前，词向量模型在语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、语音识别、词义消歧等领域发挥着越来越重要的作用。词向量模型中，最常用的是word2vec模型，可将单词转换成向量形式。word2vec模型可以包括两种训练模型，分别为连续词袋CBOW模型和Skip-gram模型。CBOW模型和Skip-gram模型均基于神经网络模型，包含输入层、投影层和输出层。通常CBOW模型是通过上下文来预测当前词，而skip-gram模型是通过当前词来预测其上下文。

可选的，本发明实施例中所涉及的词向量模型可为word2vec模型。

本发明实施例中提供的服务分类方法，主要是基于目标服务的服务描述信息，生成该目标服务的目标灰度图像，并通过预先训练得到的图像分类模型对该目标灰度图像进行分类，以得到表示该目标服务的服务类别的分类结果。这样相比于现有基于标签的服务分类方法，可以利用基于图像分类模型在图像分类准确性上优秀的表现，来提升服务分类的准确性，从而更精细地反应不同服务之间的相似程度，使得服务分类的准确性更好。

下面结合附图对本发明实施例进行详细说明。请参见图1，图1是本发明实施例提供的一种服务分类方法的流程图，该方法应用于服务分类设备，如图1所示，该方法包括如下步骤：

步骤101：获取目标服务的服务描述信息。

本实施例中，上述目标服务可选为Web服务，可以理解为待分类的服务。上述服务描述信息中所涉及的描述元素可以包括以下至少一项：

服务名称、服务信息、接口名称、接口输入参数和接口返回值。

需说明的是，Web服务中通常可包括多个接口(函数)，而每个接口的输入参数以及返回值个数可以有所不同。因此，为了更准确地进行服务分类，当目标服务具有多个接口时，优选的将每个接口的名称信息、输入参数信息和返回值信息(此返回值可为结构体类型，将其拆分为多个独立元素)，都作为该目标服务的服务描述信息，从而更精细地反应服务之间的相似程度。

步骤102：根据所述服务描述信息，生成目标服务的目标灰度图像。

其中，上述目标灰度图像优选为单通道的灰度图像，可以基于服务描述信息的词向量信息转换的。

步骤103：将所述目标灰度图像输入到预先训练得到的图像分类模型中，得到表示所述目标服务的服务类别的分类结果。

可选的，上述图像分类模型可以是基于深度神经网络比如卷积神经网络(Convolutional Neural Networks，CNN)训练得到，也可以采用其他方式训练得到，本发明实施例不对此进行限制。例如，上述图像分类模型可直接复用AlexNet、GoogleNet和VGG等经典图像分类深度学习模型。

这样，本发明实施例的服务分类方法，根据目标服务的服务描述信息，生成该目标服务的目标灰度图像，并通过预先训练得到的图像分类模型对该目标灰度图像进行分类，以得到表示该目标服务的服务类别的分类结果，相比于现有基于标签的服务分类方法，可以利用基于图像分类模型在图像分类准确性上优秀的表现，来提升服务分类的准确性，从而更精细地反应不同服务之间的相似程度，使得服务分类的准确性更好。

本发明至少一个实施例中，上述服务描述信息可以包括目标服务的多个描述元素信息，即该目标服务的多个描述元素的信息。而在生成目标服务的目标灰度图像时，可以基于目标服务的服务描述信息的词向量信息来生成。

可选的，如图2所示，上述步骤102可包括：

步骤21：利用预先训练得到的词向量模型，分别确定出每个描述元素信息的词向量。

本实施例中，此步骤中预先训练得到的词向量模型可选为word2vec模型，比如是利用word2vec词向量训练算法从语料库(比如维基wiki语料库等)中训练得到的词向量模型。可选的，此步骤21中确定每个描述元素信息的词向量的过程可为：首先，利用该词向量模型，分别将每个描述元素信息所包括的词语转换为预设维度的词向量；其中该预设维度比如为m维，m为大于1的正整数，由相应的词向量模型而定；然后，对每个描述元素信息所包括的词语的词向量进行叠加，得到每个描述元素信息的词向量。

例如，以描述元素信息1为例，若该描述元素信息1包括3个词语，分别为A、B和C，且词语A的词向量为(X_A1,X_A2,......,X_Am-1,X_Am)，词语B的词向量为(X_B1,X_B2,......,X_Bm-1,X_Bm)，词语C的词向量为(X_C1,X_C2,......,X_Cm-1,X_Cm)，则该描述元素信息1的词向量为，词语A、B和C的词向量的叠加之和，即为(X_A1+X_B1+X_C1,X_A2+X_B2+X_C2,......,X_Am-1+X_Bm-1+X_Cm-1,X_Am+X_Bm+X_Cm)。

或，以描述元素信息2为例，若该描述元素信息2包括4个词语，分别为A、B、C和B，且词语A的词向量为(X_A1,X_A2,......,X_Am-1,X_Am)，词语B的词向量为(X_B1,X_B2,......,X_Bm-1,X_Bm)，词语C的词向量为(X_C1,X_C2,......,X_Cm-1,X_Cm)，则该描述元素信息2的词向量为，词语A、B、C和B的词向量的叠加之和，即为(X_A1+X_B1+X_C1+X_B1,X_A2+X_B2+X_C2+X_B2,......,X_Am-1+X_Bm-1+X_Cm- ₁X_Bm-1,X_Am+X_Bm+X_Cm+X_Bm)。

步骤22：根据每个描述元素信息的词向量，生成所述目标服务的服务描述矩阵。

本实施例中，上述服务描述矩阵可选为m×n维。m表示单个描述元素信息的词向量的维度，即该服务描述矩阵中的每一列表示单个描述元素信息的词向量。n表示描述元素信息的词向量个数，即相应服务的描述元素的个数。需指出的是，上述n是预先设置的，可以基于现有服务的描述元素的最大个数而定，比如大于该最大个数。对于某目标服务，若该服务的描述元素的个数g1小于n，则在生成该服务的服务描述矩阵时，可以在前g1列分别填充每个描述元素信息的词向量，而在后n-g1列填充0或者其他预设数值。

步骤23：对所述服务描述矩阵进行归一化处理和整数映射处理，得到处理后的服务描述矩阵。

其中，上述归一化处理可选为将服务描述矩阵中词向量的每一维的值转换为(-1，+1)的实数。而上述整数映射处理可选为将归一化处理后的服务描述矩阵中词向量的每一维的值即(-1，+1)的实数，转换为(0，255)的整数，以便将处理后的服务描述矩阵存储为单通道的灰度图像。

步骤24：将处理后的服务描述矩阵转换为目标灰度图像。

其中，上述目标灰度图像为单通道的灰度图像。若上述服务描述矩阵为m×n维，则转换得到的目标灰度图像的高度与词向量的维度(m)对应，而宽度与描述元素个数(n)对应。这样，借助服务描述矩阵的生成，可以简便得到目标服务的目标灰度图像。

本发明至少一个实施例中，上述图像分类模型是预先训练得到的，如图3所示，上述图像分类模型的训练过程可包括以下步骤：

步骤31：获取训练数据集；其中，所述训练数据集中包括：多个服务的服务描述信息，以及每个所述服务的类别标签。

可理解的，此训练数据集中所有服务都为已知服务类别的服务。上述类别标签即表示相应服务的服务类别。

步骤32：根据每个服务的服务描述信息，生成每个服务的灰度图像。

需说明的是，此步骤中生成灰度图像的过程可参见上述生成目标灰度图像的过程，在此不再赘述。而在生成每个服务的灰度图像之后，且在进行模型训练之前，可对所有服务的灰度图像进行尺度缩放和自动补边处理，从而得到统一尺寸的模型训练输入图像，以快速准确训练模型。

步骤33：利用每个服务的灰度图像以及每个服务的类别标签，对深度神经网络进行训练，得到所述图像分类模型。

此步骤33中，在对深度神经网络(比如CNN)进行训练，可以将每个服务的灰度图像以及每个服务的类别标签作为CNN的输入，并利用CNN算法提取图像特征及利用BP算法(Error Back Propagation)训练模型参数，以得到用于分类Web服务的分类模型。

进一步的，由于此图像分类模型基于深度神经网络训练得到，因此借助深度神经网络输出层的输入向量，即此图像分类模型中输出层的输入向量，可以实现服务比如Web服务的特征提取，将服务转换为同一维度的特征信息，从而实现服务的无监督聚类、K均值等操作，及服务推荐等应用。

本发明至少一个实施例中，对于WSDL描述的服务，可以根据相应的WSDL地址和WSDL文档，来获取相应的服务描述信息。可选的，上述步骤101可以包括：

确定目标服务的WSDL地址；

根据所述WSDL地址，确定所述目标服务的WSDL文档；

根据所述WSDL地址和所述WSDL文档，获取所述目标服务的多个描述元素的原始信息；

对所述多个描述元素的原始信息进行预处理，得到所述服务描述信息。

其中，对于WSDL描述的服务，利用WSDLReader(WSDL4J JAVA API)可以直接从WSDL地址和WSDL文档中获取相应的描述元素信息。上述预处理可选为英文文本翻译、分词和去停用词(即去除没有表达实际意义的停用词)等处理，以便于通过词向量模型获得每个描述元素信息的词向量。

一种实施方式中，以腾讯QQ在线服务为例，WSDL地址为：http://ws.webxml.com.cn/webservices/qqOnlineWebService.asmx？wsdl，对应的WSDL文档内容如图4所示，获取相应服务描述信息的过程可为：1)从WSDL地址中获取服务名称信息；2)利用WSDLReader从WSDL文档中获取服务信息(即服务描述信息)、接口名称、输入参数名称及返回值信息；3)利用在线翻译服务，将服务描述信息统一转换为英文文本信息；4)对所有描述元素信息进行分词、字母大小写转换和去停用词处理，以得到如下表1所示的处理后的服务描述信息。

表1

请参见图5，图5是本发明实施例提供的一种服务分类装置的结构示意图，如图5所示，该服务分类装置50可包括：

第一获取模块51，用于获取目标服务的服务描述信息；

第一生成模块52，用于根据所述服务描述信息，生成所述目标服务的目标灰度图像；

分类模块53，用于将所述目标灰度图像输入到预先训练得到的图像分类模型中，得到表示所述目标服务的服务类别的分类结果。

可选的，所述服务描述信息包括所述目标服务的多个描述元素信息；所述第一生成模块52包括：

第一确定单元，用于利用预先训练得到的词向量模型，分别确定出每个所述描述元素信息的词向量；

生成单元，用于根据每个所述描述元素信息的词向量，生成所述目标服务的服务描述矩阵；

处理单元，用于对所述服务描述矩阵进行归一化处理和整数映射处理，得到处理后的服务描述矩阵；

转换单元，用于将所述处理后的服务描述矩阵转换为所述目标灰度图像。

可选的，第一确定单元具体用于：利用所述词向量模型，分别将每个所述描述元素信息所包括的词语转换为预设维度的词向量；对每个所述描述元素信息所包括的词语的词向量进行叠加，得到每个所述描述元素信息的词向量。

可选的，所述服务分类装置50还可包括：

第二获取模块，用于获取训练数据集；其中，所述训练数据集中包括：多个服务的服务描述信息，以及每个所述服务的类别标签；

第二生成模块，用于根据每个所述服务的服务描述信息，生成每个所述服务的灰度图像；

训练模块，用于利用每个所述服务的灰度图像以及每个所述服务的类别标签，对深度神经网络进行训练，得到所述图像分类模型。

可选的，所述第一获取模块51可包括：

第二确定单元，用于确定所述目标服务的WSDL地址；

第三确定单元，用于根据所述WSDL地址，确定所述目标服务的WSDL文档；

获取单元，用于根据所述WSDL地址和所述WSDL文档，获取所述目标服务的多个描述元素的原始信息；

预处理单元，用于对所述多个描述元素的原始信息进行预处理，得到所述服务描述信息。

可选的，所述服务描述信息中所涉及的描述元素包括以下至少一项：

可理解的，本发明实施例的服务分类装置50，可实现上述图1所示的服务分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

此外，本发明实施例还提供了一种服务分类设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述图1所示的服务分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图6所示，本发明实施例还提供了一种服务分类设备，包括总线61、收发机62、天线63、总线接口64、处理器65和存储器66。

在本发明实施例中，所述服务分类设备还包括：存储在存储器66上并可在处理器65上运行的计算机程序。

具体的，所述计算机程序被处理器65执行时可实现如下步骤：

获取目标服务的服务描述信息；

可理解的，本发明实施例中，所述计算机程序被处理器65执行时可实现上述图1所示的服务分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在图6中，总线架构(用总线61来代表)，总线61可以包括任意数量的互联的总线和桥，总线61将包括由处理器65代表的一个或多个处理器和存储器66代表的存储器的各种电路链接在一起。总线61还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口64在总线61和收发机62之间提供接口。收发机62可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器65处理的数据通过天线63在无线介质上进行传输，进一步，天线63还接收数据并将数据传送给处理器65。

处理器65负责管理总线61和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器66可以被用于存储处理器65在执行操作时所使用的数据。

可选的，处理器65可以是CPU、ASIC、FPGA或CPLD。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述图1所示的服务分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台服务分类设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种服务分类方法，其特征在于，包括：

获取目标服务的服务描述信息；

2.根据权利要求1所述的方法，其特征在于，所述服务描述信息包括所述目标服务的多个描述元素信息；

所述根据所述服务描述信息，生成所述目标服务的目标灰度图像，包括：

利用预先训练得到的词向量模型，分别确定出每个所述描述元素信息的词向量；

根据每个所述描述元素信息的词向量，生成所述目标服务的服务描述矩阵；

对所述服务描述矩阵进行归一化处理和整数映射处理，得到处理后的服务描述矩阵；

将所述处理后的服务描述矩阵转换为所述目标灰度图像。

3.根据权利要求2所述的方法，其特征在于，所述利用预先训练得到的词向量模型，分别确定出每个所述描述元素信息的词向量，包括：

利用所述词向量模型，分别将每个所述描述元素信息所包括的词语转换为预设维度的词向量；

对每个所述描述元素信息所包括的词语的词向量进行叠加，得到每个所述描述元素信息的词向量。

4.根据权利要求1所述的方法，其特征在于，所述获取目标服务的服务描述信息之前，所述方法还包括：

获取训练数据集；其中，所述训练数据集中包括：多个服务的服务描述信息，以及每个所述服务的类别标签；

根据每个所述服务的服务描述信息，生成每个所述服务的灰度图像；

利用每个所述服务的灰度图像以及每个所述服务的类别标签，对深度神经网络进行训练，得到所述图像分类模型。

5.根据权利要求1所述的方法，其特征在于，所述获取目标服务的服务描述信息，包括：

确定所述目标服务的Web服务描述语言WSDL地址；

根据所述WSDL地址，确定所述目标服务的WSDL文档；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述服务描述信息中所涉及的描述元素包括以下至少一项：

7.一种服务分类装置，其特征在于，包括：

第一获取模块，用于获取目标服务的服务描述信息；

8.根据权利要求7所述的装置，其特征在于，所述服务描述信息包括所述目标服务的多个描述元素信息；

所述第一生成模块包括：

9.一种服务分类设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的服务分类方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的服务分类方法的步骤。