CN116339799B - 一种智能化数据接口管理的方法、系统、终端设备及存储介质 - Google Patents
一种智能化数据接口管理的方法、系统、终端设备及存储介质 Download PDFInfo
- Publication number
- CN116339799B CN116339799B CN202310360055.2A CN202310360055A CN116339799B CN 116339799 B CN116339799 B CN 116339799B CN 202310360055 A CN202310360055 A CN 202310360055A CN 116339799 B CN116339799 B CN 116339799B
- Authority
- CN
- China
- Prior art keywords
- text
- interface
- clustering
- text data
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 37
- 230000011218 segmentation Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000007726 management method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000012512 characterization method Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000012552 review Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种智能化数据接口管理的方法、系统、终端设备及存储介质,涉及计算机系统领域,所述方法其步骤包括通过聚类自动化的形式建立参数标准,再将聚类后的keyvalue和参数标准作为有标记的训练数据代入至分类模型中进行训练,本发明通过获取海量的接口文档的文本数据,通过聚类以及自然语言,保证聚类的自动化和可靠性,采用自然语言进行数据分析且获取文本向量以及其对应的权重,基于专家的K值优化和分类模型,从海量数据中对文本向量进行自动聚类,保证聚类支持更符合实际应用的需要,保证聚类的自动化和可用性。
Description
技术领域
本发明涉及计算机系统领域,具体而言,涉及一种智能化数据接口管理的方法、系统、终端设备及存储介质。
背景技术
对于一个企业来说,通常需要部署各种各样的业务系统,每个业务系统都会按照各自的业务提供对应的接口。其中,每个接口对应的信息不同,例如每个接口采用的数据协议可以不同,有的接口可以采用SOAP协议,有的接口可以采用HTTP协议。又例如,每个接口可以拥有不同的参数信息等等。因此,如何对这些繁杂的接口进行管理,生成接口文档,方便不同业务系统的开发和测试人员查阅接口是非常有必要。
显然针对上述问题的处理,现有的处理方式仅仅是对接口文档进行查阅,即为保证一定的技术可读性,但是但是接口解析的灵活性是无法保证的,因为传统做法仅仅是对众多不通接口设置接口文档,并对上述接口文档进行归档存储,使用者也仅仅是对这些归档的接口文档进行查阅,那么在接口文档众多时,便会生产较为杂乱的技术缺点,使得整体的灵活性大大降低,使得操作管理人员需要对此查阅这些接口文档以完成某次操作,甚至这些接口文档是相同,这样便会造成大量的工作时间流失,使得效率变得相对低下。
那么为了改善对接口文档的管理效率,人们开始研究直接以自然语言作为识别基础的管理系统,操作管理人员希望能够以文本的方式,使用自然语言直接地表达其查询需求。管理系统理解用户的查询意图后,通过一系列的归档、检索、分析与处理,直接将以自然语言形式表述的结果返回给用户。因此,对用户来说,这种管理系统是一种更加方便、友好和精准的服务。
但实际上现有技术中,上述这类基于自然语言的接口管理系统相对呈现出缺失的状态。
发明内容
本发明实施例提供一种智能化数据接口管理的方法、系统、终端设备及存储介质。
一种智能化数据接口管理的方法,其步骤包括通过聚类自动化的形式建立参数标准,再将聚类后的keyvalue和参数标准作为有标记的训练数据代入至分类模型中进行训练;
建立参数标准的步骤包括:
步骤S01、数据清洗;
步骤S02、对清洗后的接口文档的文本数据进行分词;
步骤S03、对分词后的文本数据去除停用词,获取符合要求的文本数据;
模型训练的步骤包括:
步骤S04、获取所述文本数据对应的文本向量以及其对应的权值,通过TF-IDF方法获得文本向量的权值。
进一步的:对接口文档的文本数据进行分段处理以及分句处理,获取每段文本以及每句文本,对每段文本以及每句文本进行分词处理,获取每段以及每句中的分词。
进一步的:每个文本向量的维数是相同的,是所有文本单词的数目,这些单词如果有重复那只算一次,所以如果文本越多,向量的维数将会越大,同时采用KMeans算法对文本向量进行分类和聚类
进一步的:采用tfidf和lda来进行自然语言处理的向量表征。
进一步的:采用相似度矩阵,对相似度高的keyvalue表征进行kmeans聚类,提交数据管理人员审核建立参数标准包括key和枚举值,具体的采取自加权的方式将所有文本数据的相似度矩阵进行融合形成一致的相似度矩阵;对一致的相似度矩阵引入秩约束,使得一致的相似度矩阵中连通分量的个数等于聚类簇的个数,从而直接获得多文本数据聚类结果。
进一步的:KMeans算法对文本进行自动分类步骤,包括以下具体步骤:
S401、在所有文本向量中,随机选择若干个文本向量作为聚类中心;
S402、计算所有文本向量与所述聚类中心的距离,获取最小距离;
S403、根据最小距离重新对所述文本向量进行划分,重新获取聚类中心;
S404、判断两次的每个聚类中心是否发生变化;
若是,则返回所述S402步骤;
S405、若不是,则输出聚类中心的个数。
进一步的:上述的S04步骤,将向量化的接口文档的文本数据进行聚类,目前使用KMeans算法,通过KMeans算法对文本进行自动分类,基于K值优化和分类模型,从海量数据中自动聚类,保证聚类支持更符合实际应用的需要。
进一步的:对于上述的S401步骤至S405步骤,从n个向量化的接口文档的文本数据中的对象(即文本向量),任意选择k个对象作为初始的聚类中心,此处k表示最终的分类的数量;根据每个聚类对象的均值(聚类中心),计算每个对象与这些聚类中心的距离;并根据最小距离重新对相应的对象进行划分;重新计算每个(有变化)聚类中心的均值(坐标),直至每个聚类中心不再发生变化。
进一步的:所述系统包括以下单元:
获取单元,该单元用于获取待处理的接口文档的文本数据,包括获取每段文本以及每句文本、获取每段以及每句中的分词以及获取所述文本数据对应的文本向量以及其对应的权值;
解析单元,本单元用于用于对清洗后的接口文档的文本数据进行分词、对接口文档的文本数据进行分段处理以及分句处理、对每段文本以及每句文本进行分词处理、对分词后的文本数据去除停用词;
配置单元,本单元用于将向量化的接口文档的文本数据进行聚类,并通过KMeans算法对文本进行自动分类;
处理单元,本单元用于计算每个对象与这些聚类中心的距离,以及将重新计算后的聚类中心均值输入至全连接层,获得模型训练结果。
进一步的:解析单元用于调用语法分析器对所述目标项目的源码文本进行解析,得到类信息,包括:
调用语法分析器对目标项目的源码文本进行解析,得到第一类信息,以及,调用语法分析器对关联项目的源码文本进行解析,得到第二类信息;该第一类信息为第二类信息的子信息;
基于第一类信息和第二类信息得到类信息。
进一步的:获取单元用于获取目标项目的源码文本,包括:
获取Git仓库,该Git仓库用于存储多个项目的源码文本;
基于Git协议对Git仓库扫描获得目标项目的源码文本。
进一步的:配置单元用于基于接口协议配置目标接口模型,包括:
基于接口协议配置初始接口模型;
获取类信息中的接口对象,并基于接口对象对初始接口模型进行调整得到目标接口模型。
进一步的:配置单元用于基于接口对象对初始接口模型进行调整得到目标接口模型,包括:
若获取接口对象的信息异常,则在初始接口模型中添加错误信息的获取单元得到目标接口模型。
进一步的:处理单元还用于:
获取目标接口文档中的目标接口对象对应的接口信息;该目标接口对象为至少一个接口对象中的任意一个接口对象;
基于目标接口对象对应的接口信息生成目标接口对象的测试用例;通过测试用例测试目标接口对象。
进一步的:终端设备可以包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当终端设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行时执行如前述实施例中所述的深度学习模型训练方法的步骤。
进一步的:一种存储介质,该存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本发明的有益效果:本发明通过获取海量的接口文档的文本数据,通过聚类以及自然语言,保证聚类的自动化和可靠性,采用自然语言进行数据分析且获取文本向量以及其对应的权重,基于专家的K值优化和分类模型,从海量数据中对文本向量进行自动聚类,保证聚类支持更符合实际应用的需要,保证聚类的自动化和可用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明方法的流程示意图。
图2示出了本发明方法中对接口数据进行自然语言处理的解析方法的流程示意图。
图3示出了本发明方法中KMeans算法对文本进行自动分类步骤流程示意图。
图4示出了本发明系统的组成示意图。
图5示出了本发明终端设备的组成示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,本发明中附图仅起到说明和描述的目的,并不用于限定本发明的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本发明内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,本发明所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。还应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,还需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
图1示出了本发明方法的步骤流程图。
首先,通过聚类自动化的形式建立参数标准,针对已有的接口文档建立参数的标准,接口的参数可以看作是数据表结构数据,其中的keyvalue,value的枚举值就是数据字典,接口的参数和系统数据表结构相通,整个接口可以看作是描述功能的文档。
接口文档作为连接前端和后端的重要工具,接口文档的编写是必不可少的,接口文档又叫(规范性文档),接口文档有规范的格式和内容要求,后端按照接口协议接收前端传递的合法数据和返回符合的规范的数据,前端按照接口协议传递符合规范的数据和对后端返回的数据依据展示的需要做处理。但是随着接口的迭代以及业务的变更,接口文档的管理和维护变得越来越困难,而且由于接口文档中一个复杂接口往往会有很多参数和返回值,因此开发人员编写过程会很枯燥,并且会有很多遗漏。同时接口的更新往往是单独接口的更新,在一些项目中由于一个文件夹下有多个接口,因此要在一个文件夹下选中要更新的接口比较麻烦,而且此类插件可塑性较差,生成的内容有限,且当需要接口其他必要内容时,需要在JAVA代码中重新下进行配置,因此会造成配置次数过多的情况,配置次数过多则会造成业务代码被无用代码入侵,导致代码可读性降低;在配置完成后,当前导出接口文档的方式是直接解析代码对应的API文档,并从接口文档中提取所需内容并导出,这种方式会造成配置延时的问题。
而关于聚类自动化的形式,其也相当于是自动化聚类操作,通过对海量数据的聚类,保证聚类支持更符合实际应用的需要,保证聚类的自动化和可用性。
那么在本案中,便可以通过自然语言处理的技术对接口文档进行解析和表示;
对接口数据进行自然语言处理的解析,我们将数据一个一个接口文档中的keyvalue拼成一个个句子,切词之后,使用云词将跨领域不同接口出现频次最高的技术型参数做成停用词词库,单独建立统一的技术性的标准,对剩下业务类的数据,我们选用tfidf和lda来进行自然语言处理的向量表征。
其次关于相似度矩阵的建立是以所有的接口表征为候选集合对所有的数据进行bm25score的计算,用这个score组成相似度矩阵。
采用相似度矩阵,对相似度高的keyvalue表征进行kmeans聚类,提交数据管理人员审核建立参数标准包括key和枚举值。
参阅图2,进一步的来说,上述对接口数据进行自然语言处理的解析方法还包括:
建立参数标准,其步骤包括:
步骤S01、数据清洗,针对存储的接口文档数据进行清洗,清洗的部分包括冗余数据、过期数据以及无效数据,基于清洗以减少检索的耗时间,从而提高效率;
步骤S02、对清洗后的接口文档的文本数据进行分词,具体的对接口文档的文本数据进行分段处理以及分句处理,获取每段文本以及每句文本,对每段文本以及每句文本进行分词处理,获取每段以及每句中的分词;
步骤S03、对分词后的文本数据去除停用词,获取符合要求的文本数据;
模型训练,其步骤包括:
步骤S04、获取所述文本数据对应的文本向量以及其对应的权值,通过TF-IDF方法获得文本向量的权值,每个文本向量的维数是相同的,是所有文本单词的数目,这些单词如果有重复那只算一次,所以如果文本越多,向量的维数将会越大,同时采用KMeans算法对文本向量进行分类和聚类。
参阅图3,上述的步骤S04,KMeans算法对文本进行自动分类步骤,包括以下具体步骤:
S401、在所有文本向量中,随机选择若干个文本向量作为聚类中心;
S402、计算所有文本向量与所述聚类中心的距离,获取最小距离;
S403、根据最小距离重新对所述文本向量进行划分,重新获取聚类中心;
S404、判断两次的每个聚类中心是否发生变化;
若是,则返回所述S402步骤;
S405、若不是,则输出聚类中心的个数。
上述的S04步骤,将向量化的接口文档的文本数据进行聚类,目前使用KMeans算法,通过KMeans算法对文本进行自动分类,基于K值优化和分类模型,从海量数据中自动聚类,保证聚类支持更符合实际应用的需要。
对于上述的S401步骤至S405步骤,从n个向量化的接口文档的文本数据中的对象(即文本向量),任意选择k个对象作为初始的聚类中心,此处k表示最终的分类的数量;根据每个聚类对象的均值(聚类中心),计算每个对象与这些聚类中心的距离;并根据最小距离重新对相应的对象进行划分;重新计算每个(有变化)聚类中心的均值(坐标),直至每个聚类中心不再发生变化。
最后,通过模型自动化建立标准之后,使用分类模型进行增量标记建立完标准之后,我们用聚类后的keyvalue和参数标准就变成了有标记的训练数据进入分类模型中,为新增的接口识别做模型准备。
进一步的来说,上述接口出参为json格式,我们将json格式的数据分级打平,建立真实接口词库,通过词频,和接口文档词库做对比,将高频出现但无业务含义的词如(result,msg,error,flag..)等进入技术停用词词库。
进一步的来说,将分级打平后的数据去除停用词,进入分类模型中,进行参数标准的替换,替换后用已经有的词表征,进行已有的接口检索,相似度高的为同功能接口,对相似功能接口进行管理。
实施例2
本实施例中,针对相似度高的keyvalue表征进行kmeans聚类,具体的采取自加权的方式将所有文本数据的相似度矩阵进行融合形成一致的相似度矩阵;对一致的相似度矩阵引入秩约束,使得一致的相似度矩阵中连通分量的个数等于聚类簇的个数,从而直接获得多文本数据聚类结果。
实施例3
针对相似度高的keyvalue表征进行kmeans聚类的方式,也可采用双重聚类的形式,具体的先将文本数据进行第一次Kmeans聚类,并以文本的最高词频词组作为初始化聚类中心;将第一次聚类结果中的目标对应于原始文本数据位置处置0,再次进行Kmeans聚类;从而得到二次聚类后的目标。
如图4所示,本发明还涉及一款系统,该系统可以运行如下单元:
获取单元,该单元用于获取待处理的接口文档的文本数据,包括获取每段文本以及每句文本、获取每段以及每句中的分词以及获取所述文本数据对应的文本向量以及其对应的权值;
解析单元,本单元用于用于对清洗后的接口文档的文本数据进行分词、对接口文档的文本数据进行分段处理以及分句处理、对每段文本以及每句文本进行分词处理、对分词后的文本数据去除停用词;
配置单元,本单元用于将向量化的接口文档的文本数据进行聚类,并通过KMeans算法对文本进行自动分类;
处理单元504,本单元用于计算每个对象与这些聚类中心的距离,以及将重新计算后的聚类中心均值输入至全连接层,获得模型训练结果;
在一些可行的实施方式中,该目标项目对应有关联项目,
解析单元502用于调用语法分析器对所述目标项目的源码文本进行解析,得到类信息,包括:
调用语法分析器对目标项目的源码文本进行解析,得到第一类信息,以及,调用语法分析器对关联项目的源码文本进行解析,得到第二类信息;该第一类信息为第二类信息的子信息;
基于第一类信息和第二类信息得到类信息。
在一些可行的实施方式中,获取单元501用于获取目标项目的源码文本,包括:
获取Git仓库,该Git仓库用于存储多个项目的源码文本;
基于Git协议对Git仓库扫描获得目标项目的源码文本。
在一些可行的实施方式中,配置单元503用于基于接口协议配置目标接口模型,包括:
基于接口协议配置初始接口模型;
获取类信息中的接口对象,并基于接口对象对初始接口模型进行调整得到目标接口模型。
在一些可行的实施方式中,配置单元503用于基于接口对象对初始接口模型进行调整得到目标接口模型,包括:
若获取接口对象的信息异常,则在初始接口模型中添加错误信息的获取单元得到目标接口模型。
在一些可行的实施方式中,处理单元504还用于:
获取目标接口文档中的目标接口对象对应的接口信息;该目标接口对象为至少一个接口对象中的任意一个接口对象;
基于目标接口对象对应的接口信息生成目标接口对象的测试用例;通过测试用例测试目标接口对象。
可以理解的是,本实施例的接口文档的生成装置的各单元可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施的相关描述,此处不再赘述。
根据本申请的另一个实施例,图4所示的系统中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以是由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,基于接口文档的生成装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
如图5所示,该终端设备6可以包括:处理器601、存储介质602和总线603,存储介质602存储有处理器601可执行的机器可读指令,当终端设备运行时,处理器601与存储介质602之间通过总线603通信,处理器601执行机器可读指令,以执行时执行如前述实施例中所述的深度学习模型训练方法的步骤。具体实现方式和技术效果类似,在此不再赘述。
为了便于说明,在上述终端设备中仅描述了一个处理器。然而,应当注意,一些实施例中,本发明中的终端设备还可以包括多个处理器,因此本发明中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种智能化数据接口管理的方法,其特征在于,包括建立参数标准以及模型训练;
建立参数标准的步骤包括:
步骤S01、数据清洗,针对冗余、重复的接口文档的文本数据进行删除处理;
步骤S02、对清洗后的接口文档的文本数据进行分词,具体的通过对接口文档的文本数据进行分段处理以及分句处理,并获取每段文本以及每句文本,同时对每段文本以及每句文本进行分词处理,获取每段以及每句中的分词;
步骤S03、对分词后的文本数据去除停用词,并获取符合要求的文本数据;
模型训练的步骤包括:
步骤S04、获取步骤S03中符合要求的文本数据其对应的文本向量以及其对应的权值,具体的通过TF-IDF方法获得上述文本向量的权值;所述方法采用tfidf和lda来进行自然语言处理的向量表征,其通过计算每个分词的权重,并基于分词权重对接口文档文本中每个句子进行归一化处理,随后计算每个句子最终的权值;并权值降序排列每个句子,抽取排名靠前的若干句作为最终结果;
随后将向量化的接口文档的文本数据进行聚类,并通过KMeans算法对文本进行自动分类,基于K值优化和分类模型,将文本数据自动聚类,同时从n个向量化的接口文档的文本数据中的对象,任意选择k个对象作为初始的聚类中心;根据每个聚类对象的均值,计算每个对象与这些聚类中心的距离;并根据最小距离重新对相应的对象进行划分;最后重新计算每个聚类中心的均值,直至每个聚类中心不再发生变化,最后将重新计算后的聚类中心均值输入至全连接层,获得模型训练结果;
所述的方法采用相似度矩阵,对相似度高的keyvalue表征进行kmeans聚类,具体的采取自加权的方式将所有文本数据的相似度矩阵进行融合形成一致的相似度矩阵;对一致的相似度矩阵引入秩约束,使得一致的相似度矩阵中连通分量的个数等于聚类簇的个数,从而直接获得多文本数据聚类结果。
2.根据权利要求1所述的方法,其特征在于,KMeans算法对文本进行自动分类步骤,包括以下具体步骤:
S401、在所有文本向量中,随机选择若干个文本向量作为聚类中心;
S402、计算所有文本向量与所述聚类中心的距离,获取最小距离;
S403、根据最小距离重新对所述文本向量进行划分,重新获取聚类中心;
S404、判断两次的每个聚类中心是否发生变化;
若是,则返回所述S402步骤;
S405、若不是,则输出聚类中心的个数。
3.根据权利要求1所述的方法,其特征在于,步骤S04中每个文本向量的维数是相同的。
4.一种智能化数据接口管理的系统,其特征在于,包括以下单元:
获取单元,该单元用于获取待处理的接口文档的文本数据,包括获取每段文本以及每句文本、获取每段以及每句中的分词以及获取所述文本数据对应的文本向量以及其对应的权值;采用tfidf和lda来进行自然语言处理的向量表征,其通过计算每个分词的权重,并基于分词权重对接口文档文本中每个句子进行归一化处理,随后计算每个句子最终的权值;并权值降序排列每个句子,抽取排名靠前的若干句作为最终结果;
解析单元,本单元用于用于对清洗后的接口文档的文本数据进行分词、对接口文档的文本数据进行分段处理以及分句处理、对每段文本以及每句文本进行分词处理、对分词后的文本数据去除停用词;解析单元还用于调用语法分析器对目标项目的源码文本进行解析,得到类信息,包括:调用语法分析器对目标项目的源码文本进行解析,得到第一类信息,以及,调用语法分析器对关联项目的源码文本进行解析,得到第二类信息;该第一类信息为第二类信息的子信息;基于第一类信息和第二类信息得到类信息;获取单元用于获取目标项目的源码文本;配置单元用于基于接口协议配置目标接口模型,包括:基于接口协议配置初始接口模型;获取类信息中的接口对象,并基于接口对象对初始接口模型进行调整得到目标接口模型;配置单元用于基于接口对象对初始接口模型进行调整得到目标接口模型,包括:若获取接口对象的信息异常,则在初始接口模型中添加错误信息的获取单元得到目标接口模型;处理单元还用于:获取目标接口文档中的目标接口对象对应的接口信息;该目标接口对象为至少一个接口对象中的任意一个接口对象;基于目标接口对象对应的接口信息生成目标接口对象的测试用例;通过测试用例测试目标接口对象;
配置单元,本单元用于将向量化的接口文档的文本数据进行聚类,并通过KMeans算法对文本进行自动分类;采用相似度矩阵,对相似度高的keyvalue表征进行kmeans聚类,具体的采取自加权的方式将所有文本数据的相似度矩阵进行融合形成一致的相似度矩阵;对一致的相似度矩阵引入秩约束,使得一致的相似度矩阵中连通分量的个数等于聚类簇的个数,从而直接获得多文本数据聚类结果;
处理单元,本单元用于计算每个对象与这些聚类中心的距离,以及将重新计算后的聚类中心均值输入至全连接层,获得模型训练结果。
5.一种终端设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述终端设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至2任一项所述的方法的步骤。
6.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至2任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310360055.2A CN116339799B (zh) | 2023-04-06 | 2023-04-06 | 一种智能化数据接口管理的方法、系统、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310360055.2A CN116339799B (zh) | 2023-04-06 | 2023-04-06 | 一种智能化数据接口管理的方法、系统、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116339799A CN116339799A (zh) | 2023-06-27 |
CN116339799B true CN116339799B (zh) | 2023-11-28 |
Family
ID=86877157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310360055.2A Active CN116339799B (zh) | 2023-04-06 | 2023-04-06 | 一种智能化数据接口管理的方法、系统、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116339799B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117875908B (zh) * | 2024-03-08 | 2024-07-23 | 蒲惠智造科技股份有限公司 | 一种基于企业管理软件saas的工单处理方法和系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577792A (zh) * | 2017-09-18 | 2018-01-12 | 前海梧桐(深圳)数据有限公司 | 一种企业数据自动聚类的方法及其系统 |
CN109739978A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
WO2021189974A1 (zh) * | 2020-10-21 | 2021-09-30 | 平安科技(深圳)有限公司 | 模型训练方法、文本分类方法、装置、计算机设备和介质 |
WO2021223882A1 (en) * | 2020-05-08 | 2021-11-11 | Huawei Technologies Co., Ltd. | Prediction explanation in machine learning classifiers |
CN113987133A (zh) * | 2021-11-12 | 2022-01-28 | 长春工业大学 | 一种融合tfidf和lda实现抽取式文本摘要方法 |
US11321538B1 (en) * | 2021-10-15 | 2022-05-03 | Dovel Technologies, Llc | Ensemble natural language processing model with compliance verification |
KR20220073432A (ko) * | 2020-11-26 | 2022-06-03 | 주식회사 리걸인사이트 | 계약서 리스크 분석 방법 및 장치 |
CN114780727A (zh) * | 2022-04-24 | 2022-07-22 | 润联软件系统(深圳)有限公司 | 基于强化学习的文本分类方法、装置、计算机设备及介质 |
WO2022156328A1 (zh) * | 2021-01-19 | 2022-07-28 | 青岛科技大学 | 一种融合服务协作关系的Restful类型Web服务聚类方法 |
CN115146025A (zh) * | 2022-05-20 | 2022-10-04 | 厦门快商通科技股份有限公司 | 一种问答语句分类方法、终端设备及存储介质 |
CN115309872A (zh) * | 2022-10-13 | 2022-11-08 | 深圳市龙光云众智慧科技有限公司 | 一种基于Kmeans召回的多模型熵加权检索方法及系统 |
-
2023
- 2023-04-06 CN CN202310360055.2A patent/CN116339799B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577792A (zh) * | 2017-09-18 | 2018-01-12 | 前海梧桐(深圳)数据有限公司 | 一种企业数据自动聚类的方法及其系统 |
CN109739978A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
WO2021223882A1 (en) * | 2020-05-08 | 2021-11-11 | Huawei Technologies Co., Ltd. | Prediction explanation in machine learning classifiers |
WO2021189974A1 (zh) * | 2020-10-21 | 2021-09-30 | 平安科技(深圳)有限公司 | 模型训练方法、文本分类方法、装置、计算机设备和介质 |
KR20220073432A (ko) * | 2020-11-26 | 2022-06-03 | 주식회사 리걸인사이트 | 계약서 리스크 분석 방법 및 장치 |
WO2022156328A1 (zh) * | 2021-01-19 | 2022-07-28 | 青岛科技大学 | 一种融合服务协作关系的Restful类型Web服务聚类方法 |
US11321538B1 (en) * | 2021-10-15 | 2022-05-03 | Dovel Technologies, Llc | Ensemble natural language processing model with compliance verification |
CN113987133A (zh) * | 2021-11-12 | 2022-01-28 | 长春工业大学 | 一种融合tfidf和lda实现抽取式文本摘要方法 |
CN114780727A (zh) * | 2022-04-24 | 2022-07-22 | 润联软件系统(深圳)有限公司 | 基于强化学习的文本分类方法、装置、计算机设备及介质 |
CN115146025A (zh) * | 2022-05-20 | 2022-10-04 | 厦门快商通科技股份有限公司 | 一种问答语句分类方法、终端设备及存储介质 |
CN115309872A (zh) * | 2022-10-13 | 2022-11-08 | 深圳市龙光云众智慧科技有限公司 | 一种基于Kmeans召回的多模型熵加权检索方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于支持向量机的文本分类;陈佳希;;电子世界(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116339799A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10089581B2 (en) | Data driven classification and data quality checking system | |
CN110457676B (zh) | 评价信息的提取方法及装置、存储介质、计算机设备 | |
US9367581B2 (en) | System and method of quality assessment of a search index | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN111512315A (zh) | 文档元数据的按块提取 | |
CN116339799B (zh) | 一种智能化数据接口管理的方法、系统、终端设备及存储介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
EP4141697A1 (en) | Method and apparatus of processing triple data, method and apparatus of training triple data processing model, device, and medium | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN110059137A (zh) | 事务分类系统 | |
CN113032253A (zh) | 测试数据特征提取方法、测试方法及相关装置 | |
CN112148841A (zh) | 一种对象分类以及分类模型构建方法和装置 | |
CN114547301A (zh) | 文档处理、识别模型训练方法、装置、设备及存储介质 | |
CN118171642A (zh) | 分析模板生成、财报点评模板生成方法及装置 | |
CN112131292A (zh) | 一种变更数据的结构化处理方法和装置 | |
CN111949770A (zh) | 一种文档分类方法及装置 | |
CN108021595A (zh) | 检验知识库三元组的方法及装置 | |
CN115470034A (zh) | 一种日志分析方法、设备及存储介质 | |
CN116204610A (zh) | 一种基于可研报告命名实体识别的数据挖掘方法及装置 | |
CN116578700A (zh) | 日志分类方法、日志分类装置、设备及介质 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
CN108733733B (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 | |
CN113138974B (zh) | 数据库合规检测的方法和装置 | |
CN115146070A (zh) | 键值生成方法、知识图谱生成方法、装置、设备及介质 | |
CN114970531A (zh) | 基于即时通信消息的意图识别与命名实体提取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |