CN116339799B

CN116339799B - 一种智能化数据接口管理的方法、系统、终端设备及存储介质

Info

Publication number: CN116339799B
Application number: CN202310360055.2A
Authority: CN
Inventors: 胡申民
Original assignee: Mountain View Intelligent Beijing Technology Co ltd
Current assignee: Mountain View Intelligent Beijing Technology Co ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-11-28
Anticipated expiration: 2043-04-06
Also published as: CN116339799A

Abstract

本发明提供了一种智能化数据接口管理的方法、系统、终端设备及存储介质，涉及计算机系统领域，所述方法其步骤包括通过聚类自动化的形式建立参数标准，再将聚类后的keyvalue和参数标准作为有标记的训练数据代入至分类模型中进行训练，本发明通过获取海量的接口文档的文本数据，通过聚类以及自然语言，保证聚类的自动化和可靠性，采用自然语言进行数据分析且获取文本向量以及其对应的权重，基于专家的K值优化和分类模型，从海量数据中对文本向量进行自动聚类，保证聚类支持更符合实际应用的需要，保证聚类的自动化和可用性。

Description

一种智能化数据接口管理的方法、系统、终端设备及存储介质

技术领域

本发明涉及计算机系统领域，具体而言，涉及一种智能化数据接口管理的方法、系统、终端设备及存储介质。

背景技术

对于一个企业来说，通常需要部署各种各样的业务系统，每个业务系统都会按照各自的业务提供对应的接口。其中，每个接口对应的信息不同，例如每个接口采用的数据协议可以不同，有的接口可以采用SOAP协议，有的接口可以采用HTTP协议。又例如，每个接口可以拥有不同的参数信息等等。因此，如何对这些繁杂的接口进行管理，生成接口文档，方便不同业务系统的开发和测试人员查阅接口是非常有必要。

显然针对上述问题的处理，现有的处理方式仅仅是对接口文档进行查阅，即为保证一定的技术可读性，但是但是接口解析的灵活性是无法保证的，因为传统做法仅仅是对众多不通接口设置接口文档，并对上述接口文档进行归档存储，使用者也仅仅是对这些归档的接口文档进行查阅，那么在接口文档众多时，便会生产较为杂乱的技术缺点，使得整体的灵活性大大降低，使得操作管理人员需要对此查阅这些接口文档以完成某次操作，甚至这些接口文档是相同，这样便会造成大量的工作时间流失，使得效率变得相对低下。

那么为了改善对接口文档的管理效率，人们开始研究直接以自然语言作为识别基础的管理系统，操作管理人员希望能够以文本的方式，使用自然语言直接地表达其查询需求。管理系统理解用户的查询意图后，通过一系列的归档、检索、分析与处理，直接将以自然语言形式表述的结果返回给用户。因此，对用户来说，这种管理系统是一种更加方便、友好和精准的服务。

但实际上现有技术中，上述这类基于自然语言的接口管理系统相对呈现出缺失的状态。

发明内容

本发明实施例提供一种智能化数据接口管理的方法、系统、终端设备及存储介质。

一种智能化数据接口管理的方法，其步骤包括通过聚类自动化的形式建立参数标准，再将聚类后的keyvalue和参数标准作为有标记的训练数据代入至分类模型中进行训练；

建立参数标准的步骤包括：

步骤S01、数据清洗；

步骤S02、对清洗后的接口文档的文本数据进行分词；

步骤S03、对分词后的文本数据去除停用词，获取符合要求的文本数据；

模型训练的步骤包括：

步骤S04、获取所述文本数据对应的文本向量以及其对应的权值，通过TF-IDF方法获得文本向量的权值。

进一步的：对接口文档的文本数据进行分段处理以及分句处理，获取每段文本以及每句文本，对每段文本以及每句文本进行分词处理，获取每段以及每句中的分词。

进一步的：每个文本向量的维数是相同的，是所有文本单词的数目，这些单词如果有重复那只算一次，所以如果文本越多，向量的维数将会越大，同时采用KMeans算法对文本向量进行分类和聚类

进一步的：采用tfidf和lda来进行自然语言处理的向量表征。

进一步的：采用相似度矩阵，对相似度高的keyvalue表征进行kmeans聚类，提交数据管理人员审核建立参数标准包括key和枚举值，具体的采取自加权的方式将所有文本数据的相似度矩阵进行融合形成一致的相似度矩阵；对一致的相似度矩阵引入秩约束，使得一致的相似度矩阵中连通分量的个数等于聚类簇的个数，从而直接获得多文本数据聚类结果。

进一步的：KMeans算法对文本进行自动分类步骤，包括以下具体步骤：

S401、在所有文本向量中，随机选择若干个文本向量作为聚类中心；

S402、计算所有文本向量与所述聚类中心的距离，获取最小距离；

S403、根据最小距离重新对所述文本向量进行划分，重新获取聚类中心；

S404、判断两次的每个聚类中心是否发生变化；

若是，则返回所述S402步骤；

S405、若不是，则输出聚类中心的个数。

进一步的：上述的S04步骤，将向量化的接口文档的文本数据进行聚类，目前使用KMeans算法，通过KMeans算法对文本进行自动分类，基于K值优化和分类模型，从海量数据中自动聚类，保证聚类支持更符合实际应用的需要。

进一步的：对于上述的S401步骤至S405步骤，从n个向量化的接口文档的文本数据中的对象(即文本向量)，任意选择k个对象作为初始的聚类中心，此处k表示最终的分类的数量；根据每个聚类对象的均值(聚类中心)，计算每个对象与这些聚类中心的距离；并根据最小距离重新对相应的对象进行划分；重新计算每个(有变化)聚类中心的均值(坐标)，直至每个聚类中心不再发生变化。

进一步的：所述系统包括以下单元：

获取单元，该单元用于获取待处理的接口文档的文本数据，包括获取每段文本以及每句文本、获取每段以及每句中的分词以及获取所述文本数据对应的文本向量以及其对应的权值；

解析单元，本单元用于用于对清洗后的接口文档的文本数据进行分词、对接口文档的文本数据进行分段处理以及分句处理、对每段文本以及每句文本进行分词处理、对分词后的文本数据去除停用词；

配置单元，本单元用于将向量化的接口文档的文本数据进行聚类，并通过KMeans算法对文本进行自动分类；

处理单元，本单元用于计算每个对象与这些聚类中心的距离，以及将重新计算后的聚类中心均值输入至全连接层，获得模型训练结果。

进一步的：解析单元用于调用语法分析器对所述目标项目的源码文本进行解析，得到类信息，包括：

调用语法分析器对目标项目的源码文本进行解析，得到第一类信息，以及，调用语法分析器对关联项目的源码文本进行解析，得到第二类信息；该第一类信息为第二类信息的子信息；

基于第一类信息和第二类信息得到类信息。

进一步的：获取单元用于获取目标项目的源码文本，包括：

获取Git仓库，该Git仓库用于存储多个项目的源码文本；

基于Git协议对Git仓库扫描获得目标项目的源码文本。

进一步的：配置单元用于基于接口协议配置目标接口模型，包括：

基于接口协议配置初始接口模型；

获取类信息中的接口对象，并基于接口对象对初始接口模型进行调整得到目标接口模型。

进一步的：配置单元用于基于接口对象对初始接口模型进行调整得到目标接口模型，包括：

若获取接口对象的信息异常，则在初始接口模型中添加错误信息的获取单元得到目标接口模型。

进一步的：处理单元还用于：

获取目标接口文档中的目标接口对象对应的接口信息；该目标接口对象为至少一个接口对象中的任意一个接口对象；

基于目标接口对象对应的接口信息生成目标接口对象的测试用例；通过测试用例测试目标接口对象。

进一步的：终端设备可以包括：处理器、存储介质和总线，存储介质存储有处理器可执行的机器可读指令，当终端设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行时执行如前述实施例中所述的深度学习模型训练方法的步骤。

进一步的：一种存储介质，该存储有计算机程序，所述计算机程序被处理器运行时执行上述的方法的步骤。

本发明的有益效果：本发明通过获取海量的接口文档的文本数据，通过聚类以及自然语言，保证聚类的自动化和可靠性，采用自然语言进行数据分析且获取文本向量以及其对应的权重，基于专家的K值优化和分类模型，从海量数据中对文本向量进行自动聚类，保证聚类支持更符合实际应用的需要，保证聚类的自动化和可用性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明方法的流程示意图。

图2示出了本发明方法中对接口数据进行自然语言处理的解析方法的流程示意图。

图3示出了本发明方法中KMeans算法对文本进行自动分类步骤流程示意图。

图4示出了本发明系统的组成示意图。

图5示出了本发明终端设备的组成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，本发明中附图仅起到说明和描述的目的，并不用于限定本发明的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本发明内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，本发明所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。还应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，还需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

图1示出了本发明方法的步骤流程图。

首先，通过聚类自动化的形式建立参数标准，针对已有的接口文档建立参数的标准，接口的参数可以看作是数据表结构数据，其中的keyvalue，value的枚举值就是数据字典，接口的参数和系统数据表结构相通，整个接口可以看作是描述功能的文档。

接口文档作为连接前端和后端的重要工具，接口文档的编写是必不可少的，接口文档又叫(规范性文档)，接口文档有规范的格式和内容要求，后端按照接口协议接收前端传递的合法数据和返回符合的规范的数据，前端按照接口协议传递符合规范的数据和对后端返回的数据依据展示的需要做处理。但是随着接口的迭代以及业务的变更，接口文档的管理和维护变得越来越困难，而且由于接口文档中一个复杂接口往往会有很多参数和返回值，因此开发人员编写过程会很枯燥，并且会有很多遗漏。同时接口的更新往往是单独接口的更新，在一些项目中由于一个文件夹下有多个接口，因此要在一个文件夹下选中要更新的接口比较麻烦，而且此类插件可塑性较差，生成的内容有限，且当需要接口其他必要内容时，需要在JAVA代码中重新下进行配置，因此会造成配置次数过多的情况，配置次数过多则会造成业务代码被无用代码入侵，导致代码可读性降低；在配置完成后，当前导出接口文档的方式是直接解析代码对应的API文档，并从接口文档中提取所需内容并导出，这种方式会造成配置延时的问题。

而关于聚类自动化的形式，其也相当于是自动化聚类操作，通过对海量数据的聚类，保证聚类支持更符合实际应用的需要，保证聚类的自动化和可用性。

那么在本案中，便可以通过自然语言处理的技术对接口文档进行解析和表示；

对接口数据进行自然语言处理的解析，我们将数据一个一个接口文档中的keyvalue拼成一个个句子，切词之后，使用云词将跨领域不同接口出现频次最高的技术型参数做成停用词词库，单独建立统一的技术性的标准，对剩下业务类的数据，我们选用tfidf和lda来进行自然语言处理的向量表征。

其次关于相似度矩阵的建立是以所有的接口表征为候选集合对所有的数据进行bm25score的计算，用这个score组成相似度矩阵。

采用相似度矩阵，对相似度高的keyvalue表征进行kmeans聚类，提交数据管理人员审核建立参数标准包括key和枚举值。

参阅图2，进一步的来说，上述对接口数据进行自然语言处理的解析方法还包括：

建立参数标准，其步骤包括：

步骤S01、数据清洗，针对存储的接口文档数据进行清洗，清洗的部分包括冗余数据、过期数据以及无效数据，基于清洗以减少检索的耗时间，从而提高效率；

步骤S02、对清洗后的接口文档的文本数据进行分词，具体的对接口文档的文本数据进行分段处理以及分句处理，获取每段文本以及每句文本，对每段文本以及每句文本进行分词处理，获取每段以及每句中的分词；

模型训练，其步骤包括：

步骤S04、获取所述文本数据对应的文本向量以及其对应的权值，通过TF-IDF方法获得文本向量的权值，每个文本向量的维数是相同的，是所有文本单词的数目，这些单词如果有重复那只算一次，所以如果文本越多，向量的维数将会越大，同时采用KMeans算法对文本向量进行分类和聚类。

参阅图3，上述的步骤S04，KMeans算法对文本进行自动分类步骤，包括以下具体步骤：

S404、判断两次的每个聚类中心是否发生变化；

若是，则返回所述S402步骤；

S405、若不是，则输出聚类中心的个数。

上述的S04步骤，将向量化的接口文档的文本数据进行聚类，目前使用KMeans算法，通过KMeans算法对文本进行自动分类，基于K值优化和分类模型，从海量数据中自动聚类，保证聚类支持更符合实际应用的需要。

对于上述的S401步骤至S405步骤，从n个向量化的接口文档的文本数据中的对象(即文本向量)，任意选择k个对象作为初始的聚类中心，此处k表示最终的分类的数量；根据每个聚类对象的均值(聚类中心)，计算每个对象与这些聚类中心的距离；并根据最小距离重新对相应的对象进行划分；重新计算每个(有变化)聚类中心的均值(坐标)，直至每个聚类中心不再发生变化。

最后，通过模型自动化建立标准之后，使用分类模型进行增量标记建立完标准之后，我们用聚类后的keyvalue和参数标准就变成了有标记的训练数据进入分类模型中，为新增的接口识别做模型准备。

进一步的来说，上述接口出参为json格式，我们将json格式的数据分级打平，建立真实接口词库，通过词频，和接口文档词库做对比，将高频出现但无业务含义的词如(result,msg,error,flag..)等进入技术停用词词库。

进一步的来说，将分级打平后的数据去除停用词，进入分类模型中，进行参数标准的替换，替换后用已经有的词表征，进行已有的接口检索，相似度高的为同功能接口，对相似功能接口进行管理。

实施例2

本实施例中，针对相似度高的keyvalue表征进行kmeans聚类，具体的采取自加权的方式将所有文本数据的相似度矩阵进行融合形成一致的相似度矩阵；对一致的相似度矩阵引入秩约束，使得一致的相似度矩阵中连通分量的个数等于聚类簇的个数，从而直接获得多文本数据聚类结果。

实施例3

针对相似度高的keyvalue表征进行kmeans聚类的方式，也可采用双重聚类的形式，具体的先将文本数据进行第一次Kmeans聚类，并以文本的最高词频词组作为初始化聚类中心；将第一次聚类结果中的目标对应于原始文本数据位置处置0，再次进行Kmeans聚类；从而得到二次聚类后的目标。

如图4所示，本发明还涉及一款系统，该系统可以运行如下单元：

处理单元504，本单元用于计算每个对象与这些聚类中心的距离，以及将重新计算后的聚类中心均值输入至全连接层，获得模型训练结果；

在一些可行的实施方式中，该目标项目对应有关联项目，

解析单元502用于调用语法分析器对所述目标项目的源码文本进行解析，得到类信息，包括：

基于第一类信息和第二类信息得到类信息。

在一些可行的实施方式中，获取单元501用于获取目标项目的源码文本，包括：

获取Git仓库，该Git仓库用于存储多个项目的源码文本；

基于Git协议对Git仓库扫描获得目标项目的源码文本。

在一些可行的实施方式中，配置单元503用于基于接口协议配置目标接口模型，包括：

基于接口协议配置初始接口模型；

在一些可行的实施方式中，配置单元503用于基于接口对象对初始接口模型进行调整得到目标接口模型，包括：

在一些可行的实施方式中，处理单元504还用于：

可以理解的是，本实施例的接口文档的生成装置的各单元可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施的相关描述，此处不再赘述。

根据本申请的另一个实施例，图4所示的系统中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以是由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其他实施例中，基于接口文档的生成装置也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协作实现。

如图5所示，该终端设备6可以包括：处理器601、存储介质602和总线603，存储介质602存储有处理器601可执行的机器可读指令，当终端设备运行时，处理器601与存储介质602之间通过总线603通信，处理器601执行机器可读指令，以执行时执行如前述实施例中所述的深度学习模型训练方法的步骤。具体实现方式和技术效果类似，在此不再赘述。

为了便于说明，在上述终端设备中仅描述了一个处理器。然而，应当注意，一些实施例中，本发明中的终端设备还可以包括多个处理器，因此本发明中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。

以上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种智能化数据接口管理的方法，其特征在于，包括建立参数标准以及模型训练；

建立参数标准的步骤包括：

步骤S01、数据清洗，针对冗余、重复的接口文档的文本数据进行删除处理；

步骤S02、对清洗后的接口文档的文本数据进行分词，具体的通过对接口文档的文本数据进行分段处理以及分句处理，并获取每段文本以及每句文本，同时对每段文本以及每句文本进行分词处理，获取每段以及每句中的分词；

步骤S03、对分词后的文本数据去除停用词，并获取符合要求的文本数据；

模型训练的步骤包括：

步骤S04、获取步骤S03中符合要求的文本数据其对应的文本向量以及其对应的权值，具体的通过TF-IDF方法获得上述文本向量的权值；所述方法采用tfidf和lda来进行自然语言处理的向量表征，其通过计算每个分词的权重，并基于分词权重对接口文档文本中每个句子进行归一化处理，随后计算每个句子最终的权值；并权值降序排列每个句子，抽取排名靠前的若干句作为最终结果；

随后将向量化的接口文档的文本数据进行聚类，并通过KMeans算法对文本进行自动分类，基于K值优化和分类模型，将文本数据自动聚类，同时从n个向量化的接口文档的文本数据中的对象，任意选择k个对象作为初始的聚类中心；根据每个聚类对象的均值，计算每个对象与这些聚类中心的距离；并根据最小距离重新对相应的对象进行划分；最后重新计算每个聚类中心的均值，直至每个聚类中心不再发生变化，最后将重新计算后的聚类中心均值输入至全连接层，获得模型训练结果；

所述的方法采用相似度矩阵，对相似度高的keyvalue表征进行kmeans聚类，具体的采取自加权的方式将所有文本数据的相似度矩阵进行融合形成一致的相似度矩阵；对一致的相似度矩阵引入秩约束，使得一致的相似度矩阵中连通分量的个数等于聚类簇的个数，从而直接获得多文本数据聚类结果。

2.根据权利要求1所述的方法，其特征在于，KMeans算法对文本进行自动分类步骤，包括以下具体步骤：

S404、判断两次的每个聚类中心是否发生变化；

若是，则返回所述S402步骤；

S405、若不是，则输出聚类中心的个数。

3.根据权利要求1所述的方法，其特征在于，步骤S04中每个文本向量的维数是相同的。

4.一种智能化数据接口管理的系统，其特征在于，包括以下单元：

获取单元，该单元用于获取待处理的接口文档的文本数据，包括获取每段文本以及每句文本、获取每段以及每句中的分词以及获取所述文本数据对应的文本向量以及其对应的权值；采用tfidf和lda来进行自然语言处理的向量表征，其通过计算每个分词的权重，并基于分词权重对接口文档文本中每个句子进行归一化处理，随后计算每个句子最终的权值；并权值降序排列每个句子，抽取排名靠前的若干句作为最终结果；

解析单元，本单元用于用于对清洗后的接口文档的文本数据进行分词、对接口文档的文本数据进行分段处理以及分句处理、对每段文本以及每句文本进行分词处理、对分词后的文本数据去除停用词；解析单元还用于调用语法分析器对目标项目的源码文本进行解析，得到类信息，包括：调用语法分析器对目标项目的源码文本进行解析，得到第一类信息，以及，调用语法分析器对关联项目的源码文本进行解析，得到第二类信息；该第一类信息为第二类信息的子信息；基于第一类信息和第二类信息得到类信息；获取单元用于获取目标项目的源码文本；配置单元用于基于接口协议配置目标接口模型，包括：基于接口协议配置初始接口模型；获取类信息中的接口对象，并基于接口对象对初始接口模型进行调整得到目标接口模型；配置单元用于基于接口对象对初始接口模型进行调整得到目标接口模型，包括：若获取接口对象的信息异常，则在初始接口模型中添加错误信息的获取单元得到目标接口模型；处理单元还用于：获取目标接口文档中的目标接口对象对应的接口信息；该目标接口对象为至少一个接口对象中的任意一个接口对象；基于目标接口对象对应的接口信息生成目标接口对象的测试用例；通过测试用例测试目标接口对象；

配置单元，本单元用于将向量化的接口文档的文本数据进行聚类，并通过KMeans算法对文本进行自动分类；采用相似度矩阵，对相似度高的keyvalue表征进行kmeans聚类，具体的采取自加权的方式将所有文本数据的相似度矩阵进行融合形成一致的相似度矩阵；对一致的相似度矩阵引入秩约束，使得一致的相似度矩阵中连通分量的个数等于聚类簇的个数，从而直接获得多文本数据聚类结果；

5.一种终端设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述终端设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至2任一项所述的方法的步骤。

6.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至2任一项所述的方法的步骤。