CN112989066A - 数据处理方法和装置、电子设备、计算机可读介质 - Google Patents

数据处理方法和装置、电子设备、计算机可读介质 Download PDF

Info

Publication number
CN112989066A
CN112989066A CN202110319599.5A CN202110319599A CN112989066A CN 112989066 A CN112989066 A CN 112989066A CN 202110319599 A CN202110319599 A CN 202110319599A CN 112989066 A CN112989066 A CN 112989066A
Authority
CN
China
Prior art keywords
interface
resource
resources
data
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110319599.5A
Other languages
English (en)
Other versions
CN112989066B (zh
Inventor
孟倩茹
何赛松
郝伟
杨丽秦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110319599.5A priority Critical patent/CN112989066B/zh
Publication of CN112989066A publication Critical patent/CN112989066A/zh
Application granted granted Critical
Publication of CN112989066B publication Critical patent/CN112989066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Abstract

本申请公开了一种数据处理方法和装置,涉及云计算、自然语言处理、知识图谱等技术领域。具体实现方案为:获取网络产品的接口文本数据;基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口;基于接口文本数据和至少一个接口,确定至少一个资源中各个资源之间的依赖关系;基于至少一个资源和各个资源之间的依赖关系,构建网络产品的知识图谱;采用知识图谱进行数据处理,得到数据处理结果。该实施方式提高了知识图谱的准确率。

Description

数据处理方法和装置、电子设备、计算机可读介质
技术领域
本申请涉及计算机技术领域,具体涉及云计算、自然语言处理、知识图谱等技术领域,尤其涉及一种数据处理方法和装置、电子设备、计算机可读介质以及计算机程序产品。
背景技术
自2006年“云计算”概念被首次被提出后,该行业在近10几年间得到了高速发展,为全社会提供了各种形态的云服务。在带来巨大社会价值的同时,各云厂商的产品架构也日趋庞大、各产品间的依赖关系错综复杂,在快速迭代、满足用户各种需求的情况下,还需提供99.99%以上的可靠性保障,云产品的整体质量保障工作面临巨大压力和挑战。
现有的知识图谱构建方案,未充分考虑云产品的特点和特性,构建云产品的知识图谱准确率低、有的甚至无法使用。
发明内容
提供了一种数据处理方法和装置、电子设备、计算机可读介质以及计算机程序产品。
根据第一方面,提供了一种数据处理方法,上述方法包括:获取网络产品的接口文本数据;基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口;基于接口文本数据和至少一个接口,确定至少一个资源中各个资源之间的依赖关系;基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建网络产品的知识图谱;采用知识图谱进行数据处理,得到数据处理结果。
根据第二方面,提供了一种数据处理装置,该装置包括:获取单元,被配置成获取网络产品的接口文本数据;提取单元,被配置成基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口;资源确定单元,被配置成基于接口文本数据和至少一个接口,确定至少一个资源中各个资源之间的依赖关系;构建单元,被配置成基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建网络产品的知识图谱;处理单元,被配置成采用知识图谱进行数据处理,得到数据处理结果。
根据第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。
本申请的实施例提供的数据处理方法和装置,首先,获取网络产品的接口文本数据;其次,基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口;再次,基于接口文本数据和至少一个接口,确定至少一个资源中各个资源之间的依赖关系;从次,基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建网络产品的知识图谱;最后,采用知识图谱进行数据处理,得到数据处理结果。由此,对网络产品的接口文本数据进行数据提取,得到了网络产品的资源和接口之间的关联关系,基于该关联关系构建知识图谱,得到了一种全新的、与接口相关的知识图谱,提高了知识图谱的准确率,并且能够更好地应用于现实场景。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请数据处理方法的一个实施例的流程图;
图2是根据本申请数据处理方法的另一个实施例的流程图;
图3是根据本申请数据处理方法的第三个实施例的流程图;
图4是根据本申请数据处理装置的实施例的结构示意图;
图5是用来实现本申请实施例的数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
针对现有技术中采用机器学习、神经元网络等构建知识图谱的方式未充分考虑云产品的特点和特性,构建的知识图谱准确率低、有的甚至无法使用的问题。本申请提供的数据处理方法和装置,旨在从测试接口入手,对网络产品的接口文本数据进行数据处理构建得到知识图谱,提高了网络产品尤其是云产品的知识图谱的构建效率,采用本申请构建的知识图谱可以有效地指导云产品的数据清洗和数据测试,提高了云产品的数据处理效果。
图1示出了根据本申请数据处理方法的一个实施例的流程100,上述数据处理方法包括以下步骤:
步骤101,获取网络产品的接口文本数据。
本实施例中,网络产品是基于网络而生产或者是服务性的产品,网络产品是指一种软件产品,例如,云网络中的云服务器、虚拟私有云等。接口是一种网络产品将自己提供给外界的一种抽象化物,用于由内部操作分离出外部沟通方法,使其被修改内部而不影响外界其他实体与其交互的方式,而网络接口文本数据是与网络产品的接口相关的数据。
数据处理方法运行于其上的执行主体可以通过多种途径获取接口文本数据,例如,从互联网中做大量的异构数据爬取分析,得到与云产品相关的接口文本数据。再如,直接通过网络产品的厂商的终端获取得到,或者通过向网络产品发送远程文本数据获取请求,得到网络返回的接口文本数据。
可选地,在网络产品为云产品时,为了方便用户使用云产品,用户云厂商会针对每个云产品提供详实的文档介绍和说明,进一步,通过分析云厂商提供的文档介绍和说明和得到接口文本数据。
步骤102,基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口。
本实施例中,资源为网络产品中由系统设计或用户可感知的单位,而对资源的增、删、改、查等操作为资源的接口。在得到接口文本数据之后,可以对接口文本数据进行结构化处理,得到与接口相关的结构,进一步,基于资源和接口的特点,提取该结构中的资源和接口。
可选地,在获取到接口文本数据之后,还可以首先分析接口文本数据的文本语言编辑格式,基于该文本语言编辑格式做结构化分析,从而使得到的资源和接口更加准确、更加可靠。例如,一种云产品的接口文本数据采用MarkDown作为标记语言,基于MarkDown文本结构做结构化解析,可以使得到的云产品的资源和接口更可靠、更准确。
本实施例中,由于接口文本数据为网络产品的接口相关的数据,通过词性标注或语义分析可以方便、快捷地得到从接口文本数据提取出资源,进一步,分析接口文本数据中对该资源进行操作的文本数据作为该资源的接口。
针对云产品,通过接口文本数据可以确定云产品具有的资源,进一步通过语义分析可以得到对该资源操作的接口,例如,在云厂商提供的接口文本数据中,搜索有关“API(Application Program Interface)”的信息得到至少一个接口的接口文本数据。进一步,在每个接口文本数据中,具有对每个接口的详细说明,包括:请求结构、请求头域、请求参数、返回头域、返回参数、错误码、返回示例等。
可以从每个接口文本数据中提取资源,从而确定与资源对应的接口,例如,BCC(Baidu Cloud Compute)云服务器中与实例相关接口,实例是资源,而与实例对应接口可以包括:创建实例、查询实例列表、查询指定实例详情、启动实例等。
步骤103,基于接口文本数据和至少一个接口,确定至少一个资源中各个资源之间的依赖关系。
本实施例中,依赖关系是指两个资源中一个资源的变更将会影响到另一个资源的关系。本实施例中的依赖关系可以包括正向依赖和反向依赖,其中,在与一个接口对应的接口文本数据中对一个资源A的操作须在提供了另一个资源B的基础上,此时资源A正向依赖资源B,资源B反向依赖于资源A。
可选地,依赖关系还可以包括:强制依赖、自由依赖以及外部依赖。其中,强制依赖是一种云产品工作时固有的依赖关系,例如,资源以及与该资源对应的接口,两者之间属于直接依赖(或者称为直接对应);自由依赖是由项目队伍确定的依赖关系,该关系由项目确定,项目取消时,依赖关系自动解除。
可选地,本实施例中,基于接口文本数据,还可以得到除云产品之外的其他云产品,以及云产品与其他云产品之间的依赖关系,进一步地,还可以得到云产品的资源与其他云产品之间的依赖关系。
针对云产品以及各个资源间相互的复杂依赖,是整体系统测试难、稳定难的核心所在,清晰的依赖关系,是知识图谱的核心之一。本实施例中,可以采用人工标注的方法可以得到云产品的各个资源之间依赖关系,可选地,还可以采用机器自动标注的方法得到云产品的各个资源之间的依赖关系。
步骤104,基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建网络产品的知识图谱。
本实施例中,可以直接利用上述至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建网络产品的知识图谱。也就是说,至少一个资源、各个资源对应的接口即是确定出的当前的知识图谱的实体,各个资源之间的依赖关系即是确定出的知识图谱中实体之间的关系。本实施例中,资源与接口之间是直接依赖关系,表现在知识图谱中,是直接相关无条件转移。例如,一个资源对应多个接口,查询知识图谱中的资源可以直接到与该资源对应的多个接口。
本实施例中,构建的知识图谱中,可以包括两种三元组,一种三元组为资源-依赖关系-资源;另一种三元组为资源-直接对应-接口。
通过构建知识图谱、提取云产品的资源之间的依赖关系,既提高了自动化测试的效率,又是顺应时代潮流、使云产品从自动化测试迈向智能测试的坚实基石。
步骤105,采用知识图谱进行数据处理,得到数据处理结果。
本实施例中,采用知识图像可以进行与接口或/和资源相关的数据处理,例如,该数据处理包括数据清洗、数据测试等。
本实施例提供的知识图谱可以为云产品的知识图谱,针对现有云产品的请求间,有非常强的依赖关系,直接回放原始数据、会导致流程错误的问题,采用本申请构建的知识图谱辅助自动化数据清洗,可以解决上述问题。
例如:接口1:创建虚机,成功、返回该虚机的id(每个虚机的id都不一样);接口2:基于该id做虚机重启操作;接口3:基于该id删除虚机;如果进行传统的录制回放、直接使用原始数据中的id、进行重启、删除需求操作,将出现错误。通过本实施提供的知识图谱,可以辅助自动化数据清洗、增加引流回放测试的正确性。
针对生成云产品的接口测试用例,需要从知识图谱中获取每个云服务的接口的定义、参数、每个参数的范围和含义等。例如:生成以下测试用例:创建虚机、重启虚机、删除虚机,需从知识图谱中调用对应的接口、填充正确的参数,才能生成正确的测试用例。
本申请的实施例提供的数据处理方法,首先,获取网络产品的接口文本数据;其次,基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口;再次,基于接口文本数据和至少一个接口,确定至少一个资源中各个资源之间的依赖关系;从次,基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建网络产品的知识图谱;最后,采用知识图谱进行数据处理,得到数据处理结果。由此,对网络产品的接口文本数据进行数据提取,得到了网络产品的资源和接口之间的关联关系,基于该关联关系构建知识图谱,得到了一种全新的、与接口相关的知识图谱,提高了知识图谱的准确率,并且能够更好地应用于现实场景。
在本实施例的一些可选实现方式中,上述数据处理方法还可以包括:基于接口文本数据,确定至少一个接口中各个接口之间的依赖关系;将各个接口之间的依赖关系融合至知识图谱中。
本实施例中,至少一个接口中各个接口之间的依赖关系可以通过人工标注得到,也可以通过机器自动标注得到。接口间的依赖关系可以包括:直接依赖、自由依赖、外部依赖。进一步地,接口间的依赖关系还可以包括:处理时序关系,例如,接口C需要在接口D、接口E依次操作完成之后才可以进行操作。
本可选实现方式中,将各个接口之间的依赖关系融合至知识图谱中,即会得到的新的知识图谱。相对于未增加各个接口之间的依赖关系,新的知识图谱包括:资源-依赖关系-资源、资源-直接对应-接口、接口-依赖关系-接口三种三元组,相对于原知识图谱,新的知识图谱增加了接口-依赖关系-接口这种三元组,提高了新的知识图谱的复杂度,保证了知识图谱的可靠性。
本可选实现方式提供的数据处理方法,确定至少一个接口中各个接口之间的依赖关系,将接口之间的依赖关系融合入知识图谱中,从而增加了知识图谱中各个实体之间的关系,提高了新的知识图谱的复杂度,保证了生成的知识图谱的可靠性。
在本实施例的一些可选实现方式中,上述基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口,包括:基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的操作;确定各个操作的类型;基于接口文本数据,确定各个操作类型对应的至少一个接口。
本可选实现方式中,接口文本数据中对资源进行操作的数据为接口,而对资源的操作的可以有多种,例如,增加资源、删除资源等操作。
本可选实现方式中,可以将操作分类为:增、删、改、查,List种的一种或多种类型,其中,List表示可通过索引访问的对象的强类型列表,提供用于对列表进行搜索、排序和操作的方法。
作为一个示例,对于“创建实例”的接口,其中,实例对应资源,创建对应操作,创建对应的操作类型为增;反之,当操作确定之后,基于操作的类型,可以得到与该类型对应的接口,从而为资源提取对应的接口提供了可靠的实现途径。
本可选实现方式中,通过对操作进行类型确认,可以为与资源对应的多种不同类型接口进行区分,细化了接口的表现形式,提高了知识图谱的信息的细化效果。
在本实施例的一些可选实现方式中,上述基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的操作,包括:采用词法分析模型对接口文本数据进行词性标注;基于词法分析模型输出的接口文本数据中不同词的属性,区分网络产品的资源和各个资源对应的操作。
本可选实现方式中,词法分析模型可以是自然语言处理模型中的一种,例如,LAC(Lexical Analysis of Chinese)模型,LAC模型是一个联合的词法分析模型,整体性地完成中文分词、词性标注、专名识别任务。再如,还可以采用LSTM(Long Short Term Memory,长短期记忆网络),或Bi-LSTM,Bi-LSTM即双向LSTM,较单向的LSTM,Bi-LSTM能更好地捕获句子中上下文的信息。
本可选实现方式中,词法分析模型可以对接口文本数据中的文本进行词属性标注,词属性文本数据中各个词固有的特性,词属性可以包括:名词、动词、形容词、介词等不同属性,不同词法分析模型输出的词的属性的表现形式不同。例如,LAC模型输出的词属性为“n”的词对应名词,为“v”的词对应动词。
本可选实现方式,可以在接口文本数据基于每个接口的名称做对应的词性分析,以快速、准确取出每个接口对应的资源和操作。
以“创建实例”接口为例,采用开源的LAC模型进行词性标注分词后,结果为:{['创建','实例'],['vn','n']},分词为2个:创建、实例;每个词的属性为:v、n,其中,创建即属于名词也可属于动词,实例为名词,可以将词属性为“n”的词设置为资源,将词属性为“v”的词设置为操作。
进一步地,由于云产品中资源和接口较复杂,自然语言分析模型中通用的词性分析,有时无法正确解析出云计算领域的专业词,可选地,可以建立云产品接口词库,并将云产品接口词库加载到词法分析模型中。
例如:“实例扩缩容”被解析为:{['实例','扩缩容'],['n','n']},而扩缩容,在云计算领域即可以是名词、也可以是动词,通过建立的云产品接口词库,加载到LAC模型后,便可以正确解析出资源和操作。
本可选实现方式中,通过词法分析模型对接口文本数据进行词性标注,可以方便、快捷的得到与资源对应的操作。
在本实施例的一些可选实现方式中,上述采用知识图谱进行数据处理,得到数据处理结果包括:接收网络产品的原始数据;基于知识图谱,查询与原始数据对应的接口;基于接口,对原始数据进行清洗,得到原始数据的清洗后的数据。
本可选实现方式中,对原始数据进行清洗是指采用一些规则发现并纠正原始数据中可识别的错误,例如,包括检查数据一致性,处理无效值和缺失值等。
具体地,在得到接口之后,从预设的多个数据清洗规则中选取与接口的相关的清洗规则,对原始数据进行清洗(使原始数据按选取的清洗规则进行排序、数据处理等),可以得到原始数据的清洗后的数据。
本可选实现方式提供的数据处理方法,是一种与知识图谱相结合的数据清洗方法,接收网络产品的原始数据,在知识图谱中查询与原始数据对应的接口,基于接口得到与原始数据对应的清洗后的数据,使知识图谱应用于数据清洗场景,为数据清洗提供了支持,保证了数据清洗的可靠性。
在本实施例的一些可选实现方式中,上述采用知识图谱进行数据处理,得到数据处理结果包括:获取网络产品的初始资源以及与初始资源对应的业务资源;基于知识图谱,提取与初始资源具有依赖关系的依赖资源;响应于业务资源属于依赖资源中的一种或多种资源,确定业务资源与初始资源具有依赖关系。
本可选实现方式中,初始资源是与知识图谱中的资源名称相同或者标识相同的资源。业务资源可以是与初始资源具有依赖关系的资源,也可以是与初始资源不具有依赖关系的资源。
本可选实现方式中,通过提取的与初始资源具有依赖关系的依赖资源,快捷地校验初始资源与业务资源之间的实际的关系。
本实施例提供的数据处理方法,通过知识图谱确定业务资源与依赖资源之间资源依赖关系,可以使知识图谱能够更好地应用于数据测试场景提供了支持,保证了数据测试的可靠性。
在本实施例的一些可选实现方式中,上述采用知识图谱进行数据处理,得到数据处理结果包括:获取网络产品的初始资源以及与初始资源对应的业务资源;基于知识图谱,提取与初始资源具有依赖关系的依赖资源;响应于业务资源属于依赖资源中的一种或多种资源,基于知识图谱,提取与初始资源对应的第一接口;基于知识图谱,提取与业务资源对应的第二接口;响应于第一接口与第二接口具有交集接口,确定业务资源与初始资源具有依赖关系。
本可选实现方式中,第一接口与第二接口均可以是一个接口也可以是多个接口,第一接口与第二接口具有交集接口是指第一接口与第二接口之间具有相同的接口。
本实施例提供的数据处理方法,在确定了业务资源与依赖资源之间资源对应关系之后,确定业务资源和初始资源之间接口对应关系,进一步保证了业务资源和初始资源之间的依赖关系的确定。
图2示出了根据本申请数据处理方法的另一个实施例的流程200,上述数据处理方法包括以下步骤:
步骤201,获取网络产品的接口文本数据。
步骤202,基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口。
步骤203,基于接口文本数据和至少一个接口,确定至少一个资源中各个资源之间的依赖关系。
步骤204,基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建网络产品的知识图谱。
应当理解,上述步骤201-步骤204中的操作和特征,分别与步骤101-104中的操作和特征相对应,因此,上述在步骤101-104中对于操作和特征的描述,同样适用于步骤201-步骤204,在此不再赘述。
步骤205,接收网络产品的原始数据。
本实施例中,网络产品是基于网络而生产或者是服务性的产品,网络产品是指一种软件产品。进一步地,本实施例中,网络产品可以是云产品,比如云服务器等。
本实施例中,网络产品的原始数据可以是由网络产品发出的包含云产品的资源、接口操作等信息的数据。
步骤206,基于知识图谱,查询与原始数据对应的接口。
在本实施例中,执行主体可以将步骤205中获取的原始数据进行资源获取,得到原始数据中的资源,基于得到的资源,查询知识图谱,可以得到的与资源对应的接口。
步骤207,基于接口,得到原始数据的清洗后的数据。
本实施例中,对原始数据进行清洗是指发现并纠正原始数据中可识别的错误,例如,包括检查数据一致性,处理无效值和缺失值等。
本实施例中,在得到接口之后,从预设的多个数据清洗规则中选取与接口的相关的清洗规则,对原始数据进行清洗(使原始数据按选取的清洗规则进行排序、数据处理等),可以得到原始数据的清洗后的数据。
本申请的实施例提供的数据处理方法,是一种与知识图谱相结合的数据清洗方法,接收网络产品的原始数据,在知识图谱中查询与原始数据对应的接口,基于接口得到与原始数据对应的清洗后的数据,使知识图谱应用于数据清洗场景,为数据清洗提供了支持,保证了数据清洗的可靠性。
图3示出了数据处理方法第三个实施例的流程300。上述数据处理方法包括以下步骤:
步骤301,获取网络产品的接口文本数据。
步骤302,基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口。
步骤303,基于接口文本数据和至少一个接口,确定至少一个资源中各个资源之间的依赖关系。
步骤304,基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建网络产品的知识图谱。
应当理解,上述步骤301-步骤304中的操作和特征,分别与步骤101-104中的操作和特征相对应,因此,上述在步骤101-104中对于操作和特征的描述,同样适用于步骤301-步骤304,在此不再赘述。
步骤305,获取网络产品的初始资源以及与初始资源对应的业务资源。
本实施例中,数据处理方法运行于其上的执行主体可以通过多种途径获取初始资源,本实施例中初始资源是与知识图谱中的资源名称相同或者标识相同的资源。业务资源可以是与初始资源具有依赖关系的资源,也可以是与初始资源不具有依赖关系的资源,通过本申请提供的数据处理方法可以确定初始资源与业务资源之间的依赖关系。
步骤306,基于知识图谱,提取与初始资源具有依赖关系的依赖资源。
本实施例中,由于知识图谱的三元组包括资源与资源之间的对应关系,在确定初始资源之后,可以从知识图谱中查询与初始资源对应的资源,而该对应的资源,即为与初始资源具有依赖关系的依赖资源。
步骤307,响应于业务资源属于依赖资源中的一种或多种资源,确定业务资源与初始资源具有依赖关系。
本实施例中,通过提取的与初始资源具有依赖关系的依赖资源,快捷地校验初始资源与业务资源之间的实际的关系。
本申请的实施例提供的数据处理方法,是一种与知识图谱相结合的数据测试方法,接收网络产品的任意两种资源—初始资源和业务资源,在知识图谱中查询与初始资源具有依赖关系的依赖资源,响应于业务资源属于依赖资源中的一种或多种资源,确定业务资源与初始资源具有依赖关系,本实施例提供的数据测试方法,使知识图谱能够更好地应用于数据测试场景提供了支持,保证了数据测试的可靠性。
为了进一步提高初始资源和业务之间依赖关系测试的可靠性,在本实施例的一些可选实现方式中,确定业务资源与初始资源具有依赖关系之前,上述方法还包括:基于知识图谱,提取与初始资源对应的第一接口;基于知识图谱,提取与业务资源对应的第二接口;响应于第一接口与第二接口具有交集接口,确定业务资源与初始资源具有依赖关系。
本可选实现方式提供的数据处理方法,在确定了业务资源与依赖资源之间资源对应关系之后,确定业务资源和初始资源之间接口对应关系,进一步保证了业务资源和初始资源之间的依赖关系的确定。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了数据处理装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可应用于各种电子设备中。
如图4所示,本实施例提供的数据处理装置400包括:获取单元401,提取单元402,资源确定单元403,构建单元404,处理单元405。其中,上述获取单元401,可以被配置成获取网络产品的接口文本数据。上述提取单元402,可以被配置成基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口。上述资源确定单元403,可以被配置成基于接口文本数据和至少一个接口,确定至少一个资源中各个资源之间的依赖关系。上述构建单元404,可以被配置成基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建网络产品的知识图谱。上述处理单元405,可以被配置成采用知识图谱进行数据处理,得到数据处理结果。
在本实施例中,数据处理装置400中:获取单元401,提取单元402,资源确定单元403,构建单元404,处理单元405的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104、步骤105的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上装置400还包括:接口确定单元(图中未示出),融合单元(图中未示出)。其中,上述接口确定单元,被配置成基于接口文本数据,确定至少一个接口中各个接口之间的依赖关系。上述融合单元,可以被配置成将各个接口之间的依赖关系融合至知识图谱中。
在本实施例的一些可选的实现方式中,上述资源确定单元403包括:提取模块(图中未示出),类型确定模块(图中未示出),接口确定模块(图中未示出)。其中,上述提取模块,可以被配置成基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的操作。上述类型确定模块,可以被配置成确定各个操作的类型。上述接口确定模块,可以被配置成基于接口文本数据,确定各个操作类型对应的至少一个接口。
在本实施例的一些可选的实现方式中,上述提取模块包括:标注子模块(图中未示出),区分子模块(图中未示出)。其中,上述标注子模块,可以被配置成采用词法分析模型对接口文本数据进行词性标注。上述区分子模块,可以被配置成基于词法分析模型输出的接口文本数据中不同词的属性,区分网络产品的资源和各个资源对应的操作。
在本实施例的一些可选的实现方式中,上述处理单元405包括:接收模块(图中未示出),查询模块(图中未示出),得到模块(图中未示出)。其中,上述接收模块,可以被配置成接收网络产品的原始数据。上述查询模块,可以被配置成基于知识图谱,查询与原始数据对应的接口。上述得到模块,可以被配置成基于接口,得到原始数据的清洗后的数据。
在本实施例的一些可选的实现方式中,上述处理单元405包括:获取模块(图中未示出),资源提取模块(图中未示出),资源确定模块(图中未示出)。其中,上述获取模块,可以被配置成获取网络产品的初始资源以及与初始资源对应的业务资源。上述资源提取模块,可以被配置成基于知识图谱,提取与初始资源具有依赖关系的依赖资源。上述资源确定模块,可以被配置成响应于业务资源属于依赖资源中的一种或多种资源,确定业务资源与初始资源具有依赖关系。
在本实施例的一些可选的实现方式中,上述处理单元405还包括:第一提取模块(图中未示出),第二提取模块(图中未示出),接口确定模块(图中未示出)。其中,上述第一提取模块,可以被配置成基于知识图谱,提取与初始资源对应的第一接口。上述第二提取模块,可以被配置成基于知识图谱,提取与业务资源对应的第二接口。上述接口确定模块,可以被配置成响应于第一接口与第二接口具有交集接口,确定业务资源与初始资源具有依赖关系。
本申请的实施例提供的数据处理装置,首先,获取单元401获取网络产品的接口文本数据;其次,提取单元402基于接口文本数据,提取网络产品的至少一个资源和各个资源对应的至少一个接口;再次,资源确定模块403基于接口文本数据和至少一个接口,确定至少一个资源中各个资源之间的依赖关系;从次,构建单元404基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建网络产品的知识图谱。最后,处理单元405,采用知识图谱进行数据处理,得到数据处理结果。由此,对网络产品的接口文本数据进行数据提取,得到了网络产品的资源和接口之间的关联关系,基于该关联关系构建知识图谱,得到了一种全新的、与接口相关的知识图谱,提高了知识图谱的准确率,并且能够更好地应用于现实场景。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本申请的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (17)

1.一种数据处理方法,所述方法包括:
获取网络产品的接口文本数据;
基于所述接口文本数据,提取所述网络产品的至少一个资源和各个资源对应的至少一个接口;
基于所述接口文本数据和所述至少一个接口,确定所述至少一个资源中各个资源之间的依赖关系;
基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建所述网络产品的知识图谱;
采用所述知识图谱进行数据处理,得到数据处理结果。
2.根据权利要求1所述的方法,所述方法还包括:
基于所述接口文本数据,确定所述至少一个接口中各个接口之间的依赖关系;
将所述各个接口之间的依赖关系融合至所述知识图谱中。
3.根据权利要求1或2所述的方法,其中,所述基于所述接口文本数据,提取所述网络产品的至少一个资源和各个资源对应的至少一个接口,包括:
基于所述接口文本数据,提取所述网络产品的至少一个资源和各个资源对应的操作;
确定各个操作的类型;
基于所述接口文本数据,确定各个操作类型对应的至少一个接口。
4.根据权利要求3所述的方法,其中,所述基于所述接口文本数据,提取所述网络产品的至少一个资源和各个资源对应的操作,包括:
采用词法分析模型对所述接口文本数据进行词性标注;
基于所述词法分析模型输出的所述接口文本数据中不同词的属性,区分所述网络产品的资源和各个资源对应的操作。
5.根据权利要求1所述的方法,所述采用所述知识图谱进行数据处理,得到数据处理结果包括:
接收网络产品的原始数据;
基于所述知识图谱,查询与所述原始数据对应的接口;
基于所述接口,得到所述原始数据的清洗后的数据。
6.根据权利要求1所述的方法,所述采用所述知识图谱进行数据处理,得到数据处理结果包括:
获取网络产品的初始资源以及与所述初始资源对应的业务资源;
基于所述知识图谱,提取与所述初始资源具有依赖关系的依赖资源;
响应于所述业务资源属于所述依赖资源中的一种或多种资源,确定所述业务资源与所述初始资源具有依赖关系。
7.根据权利要求6所述的方法,在确定所述业务资源与所述初始资源具有依赖关系之前,所述方法还包括:
基于所述知识图谱,提取与所述初始资源对应的第一接口;
基于所述知识图谱,提取与所述业务资源对应的第二接口;
响应于所述第一接口与所述第二接口具有交集接口,确定所述业务资源与所述初始资源具有依赖关系。
8.一种数据处理装置,所述装置包括:
获取单元,被配置成获取网络产品的接口文本数据;
提取单元,被配置成基于所述接口文本数据,提取所述网络产品的至少一个资源和各个资源对应的至少一个接口;
资源确定单元,被配置成基于所述接口文本数据和所述至少一个接口,确定所述至少一个资源中各个资源之间的依赖关系;
构建单元,被配置成基于至少一个资源、各个资源对应的至少一个接口和各个资源之间的依赖关系,构建所述网络产品的知识图谱;
处理单元,被配置成采用所述知识图谱进行数据处理,得到数据处理结果。
9.根据权利要求8所述的装置,所述装置还包括:
接口确定单元,被配置成基于所述接口文本数据,确定所述至少一个接口中各个接口之间的依赖关系;
融合单元,被配置成将所述各个接口之间的依赖关系融合至所述知识图谱中。
10.根据权利要求8或9所述的装置,其中,所述资源确定单元包括:
提取模块,被配置成基于所述接口文本数据,提取所述网络产品的至少一个资源和各个资源对应的操作;
类型确定模块,被配置成确定各个操作的类型;
接口确定模块,被配置成基于所述接口文本数据,确定各个操作类型对应的至少一个接口。
11.根据权利要求10所述的装置,其中,所述提取模块包括:
标注子模块,被配置成采用词法分析模型对所述接口文本数据进行词性标注;
区分子模块,被配置成基于所述词法分析模型输出的所述接口文本数据中不同词的属性,区分所述网络产品的资源和各个资源对应的操作。
12.根据权利要求8所述的装置,所述处理单元包括:接收模块,被配置成接收网络产品的原始数据;
查询模块,被配置成基于所述知识图谱,查询与所述原始数据对应的接口;
得到模块,被配置成基于所述接口,得到所述原始数据的清洗后的数据。
13.根据权利要求8所述的装置,所述处理单元包括:
获取模块,被配置成获取网络产品的初始资源以及与所述初始资源对应的业务资源;
资源提取模块,被配置成基于所述知识图谱,提取与所述初始资源具有依赖关系的依赖资源;
资源确定模块,被配置成响应于所述业务资源属于所述依赖资源中的一种或多种资源,确定所述业务资源与所述初始资源具有依赖关系。
14.根据权利要求13所述的装置,所述处理单元还包括:
第一提取模块,被配置成基于所述知识图谱,提取与所述初始资源对应的第一接口;
第二提取模块,被配置成基于所述知识图谱,提取与所述业务资源对应的第二接口;
接口确定模块,被配置成响应于所述第一接口与所述第二接口具有交集接口,确定所述业务资源与所述初始资源具有依赖关系。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述的方法。
CN202110319599.5A 2021-03-25 2021-03-25 数据处理方法和装置、电子设备、计算机可读介质 Active CN112989066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110319599.5A CN112989066B (zh) 2021-03-25 2021-03-25 数据处理方法和装置、电子设备、计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110319599.5A CN112989066B (zh) 2021-03-25 2021-03-25 数据处理方法和装置、电子设备、计算机可读介质

Publications (2)

Publication Number Publication Date
CN112989066A true CN112989066A (zh) 2021-06-18
CN112989066B CN112989066B (zh) 2023-06-23

Family

ID=76333741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110319599.5A Active CN112989066B (zh) 2021-03-25 2021-03-25 数据处理方法和装置、电子设备、计算机可读介质

Country Status (1)

Country Link
CN (1) CN112989066B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697398A (zh) * 2022-03-23 2022-07-01 北京百度网讯科技有限公司 数据处理方法、装置、电子设备、存储介质及产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489561A (zh) * 2019-07-12 2019-11-22 平安科技(深圳)有限公司 知识图谱构建方法、装置、计算机设备和存储介质
WO2021042503A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489561A (zh) * 2019-07-12 2019-11-22 平安科技(深圳)有限公司 知识图谱构建方法、装置、计算机设备和存储介质
WO2021042503A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NILUBON PHIWNGAM等: "Knowledge Enhancement of Text and Visualization Based on DBpedia Dataset", 《IEEE XPLORE》 *
杨荣;翟社平;王志文;: "基于知识图谱的信息查询系统设计与实现", 计算机与数字工程, no. 04 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697398A (zh) * 2022-03-23 2022-07-01 北京百度网讯科技有限公司 数据处理方法、装置、电子设备、存储介质及产品
CN114697398B (zh) * 2022-03-23 2023-10-17 北京百度网讯科技有限公司 数据处理方法、装置、电子设备、存储介质及产品

Also Published As

Publication number Publication date
CN112989066B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN112560496B (zh) 语义分析模型的训练方法、装置、电子设备及存储介质
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
JP2021114291A (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN113657100B (zh) 实体识别方法、装置、电子设备及存储介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN111090991A (zh) 场景纠错方法、装置、电子设备和存储介质
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN112989066A (zh) 数据处理方法和装置、电子设备、计算机可读介质
CN114880498B (zh) 事件信息展示方法及装置、设备和介质
CN116361591A (zh) 内容审核方法、装置、电子设备及计算机可读存储介质
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
CN114969444A (zh) 数据的处理方法、装置、电子设备和存储介质
CN115828915B (zh) 实体消歧方法、装置、电子设备和存储介质
CN114281981B (zh) 新闻简报的生成方法、装置和电子设备
CN114491040B (zh) 信息挖掘方法及装置
CN112541354A (zh) 用于医学知识图谱的处理方法和装置
CN117666812A (zh) 提示词处理方法、装置、电子设备及存储介质
CN117743688A (zh) 面向大模型场景的服务提供方法、装置、电子设备及介质
CN114416678A (zh) 一种资源处理方法、装置、设备以及存储介质
CN116361484A (zh) 知识抽取方法、知识抽取模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant