CN114648121A - 一种数据处理方法、装置、电子设备和存储介质 - Google Patents

一种数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114648121A
CN114648121A CN202011501380.9A CN202011501380A CN114648121A CN 114648121 A CN114648121 A CN 114648121A CN 202011501380 A CN202011501380 A CN 202011501380A CN 114648121 A CN114648121 A CN 114648121A
Authority
CN
China
Prior art keywords
data
knowledge
cloud platform
product
inference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011501380.9A
Other languages
English (en)
Inventor
魏博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011501380.9A priority Critical patent/CN114648121A/zh
Publication of CN114648121A publication Critical patent/CN114648121A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据处理方法、装置、电子设备和计算机存储介质,所述方法包括:获取第一数据;所述第一数据表示进行知识融合后的数据;对所述第一数据进行知识推理,得到推理结果;使用所述推理结果构建云平台的产品知识图谱,用于对所述云平台上的产品进行推荐。如此,通过构建云平台的产品知识图谱对第一数据进行知识智能化改造,并将该云平台的产品知识图谱应用于公有数据处理方案中,使得搜索所得结果具有智慧性,搜索所得内容之间具有可靠关联性;同时,还可以节约人工成本,有效提高数据处理的准确性。

Description

一种数据处理方法、装置、电子设备和存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据处理方法、装置、电子设备和计算机存储介质。
背景技术
相关技术中,由于云平台特别是公有云平台上的产品种类繁多,用户在选择具体产品时,通常难以做到对这些种类繁多的产品进行全面了解,导致所选择的产品不切合其实际需求,因此需要向用户进行产品的推荐。
发明内容
本发明提供一种数据处理方法、装置、电子设备和计算机存储介质。
本发明的技术方案是这样实现的:
本发明提供一种数据处理方法,所述方法包括:
获取第一数据;所述第一数据表示进行知识融合后的数据;
对所述第一数据进行知识推理,得到推理结果;
使用所述推理结果构建云平台的产品知识图谱,用于对所述云平台上的产品进行推荐。
本发明提供一种数据处理装置,所述装置包括:
获取模块,用于获取第一数据;所述第一数据表示进行知识融合后的数据;
推理模块,用于对所述第一数据进行知识推理,得到推理结果;
推荐模块,用于使用所述推理结果构建云平台的产品知识图谱,用于对所述云平台上的产品进行推荐。
本发明提供一种电子设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述一个或多个技术方案提供的数据处理方法。
本发明提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后能够实现前述一个或多个技术方案提供的数据处理方法。
本发明提供一种数据处理方法、装置、电子设备和计算机存储介质,所述方法包括:获取第一数据;所述第一数据表示进行知识融合后的数据;对所述第一数据进行知识推理,得到推理结果;使用所述推理结果构建云平台的产品知识图谱,用于对所述云平台上的产品进行推荐。如此,通过构建云平台的产品知识图谱对第一数据进行知识智能化改造,并将该云平台的产品知识图谱应用于公有数据处理方案中,使得搜索所得结果具有智慧性,搜索所得内容之间具有可靠关联性;同时,还可以节约人工成本,有效提高数据处理的准确性。
附图说明
图1为相关技术中数据处理方法的流程图;
图2为相关技术中云平台解决方案推荐系统语言处理的流程图;
图3a为本发明的数据处理方法的流程图;
图3b为相关技术中TransE模型的原理示意图;
图3c为本发明的基于贝叶斯网络推理模型进行知识推理的流程图;
图3d为本发明的使用资源描述框架(Resource Description Framework,RDF)语句更新云平台的产品知识图谱的流程图;
图3e为本发明的云平台的产品知识图谱构建的流程图;
图3f为本发明的基于产品知识图谱的产品智能推荐的流程示意图;
图4a为本发明的构建云平台的产品知识图谱的流程示意图;
图4b为本发明的云平台的产品知识图谱的局部示意图;
图5为本发明的数据处理装置的组成结构示意图;
图6为本发明提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
公有云表示用户可以通过普通的互联网来获取的云计算服务,这种云计算服务是由云平台服务商提供的,可在开放的公有网络中提供服务。
相关技术中,数据处理方法是依据用户所属行业查询云平台服务商提供的现有案例或者根据基本信息录入情况生成推荐方案亦或者通过询问人工客服来完成的。图1为相关技术中数据处理方法的流程图,如图1所示,用户在公有云的云平台门户网站里通过点击或输入的方式来查询关键字信息,云平台解决方案推荐系统根据关键字、用户类别、历史记录等数据信息为用户甄选出推荐产品,并通过公有云的云平台门户网站反馈给用户;进而,用户可以通过点击了解产品详情进行个性化选购。
在云平台解决方案推荐系统中,主要是针对自然语言或行为转换为指令语言的处理过程,分为语言层、语义层和执行层。图2为相关技术中云平台解决方案推荐系统语言处理的流程图,如图2所示,语言层主要用于剔除无效词汇,例如噪音,杂质、同义词归一、切分、分词、以及时间识别、数值识别等;语言层能够将用户输入的自然语言处理成计算机能识别的语言。语义层主要处理自然语言中的语义问题;例如,对语言层的输出结果进行句法分析、语义分析、语言抽象层确认等;其决定了整个自然语言处理流的描述能力。执行层用于执行语义层的输出结果;例如,根据语义层输出结果中的需求内容执行代码查询。即,云平台解决方案推荐系统根据用户输入内容进行语言、语义的分析处理,再通过调用相关代码执行,查询相应的结果。
然而,上述数据处理方式并不能智能化的为用户推荐产品,也不具备帮助云平台服务商提升产品的能力。
针对上述技术问题,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本发明,并不用于限定本发明。另外,以下所提供的实施例是用于实施本发明的部分实施例,而非提供实施本发明的全部实施例,在不冲突的情况下,本发明记载的技术方案可以任意组合的方式实施。
需要说明的是,在本发明中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,例如的单元可以是部分处理器、部分程序或软件等等)。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
例如,本发明提供的数据处理方法包含了一系列的步骤,但是本发明提供的数据处理方法不限于所记载的步骤,同样地,本发明提供的数据处理装置包括了一系列模块,但是本发明提供的数据处理装置不限于包括所明确记载的模块,还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。
本发明可以基于电子设备实现,这里,电子设备可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统,等等。
电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统可以在分布式云计算环境中实施,在分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
基于上述记载的应用场景,提出以下各实施例。
在本发明的一些实施例中,数据处理方法可以利用数据处理装置中的处理器实现,上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(DigitalSignal Processing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。
图3a为本发明的数据处理方法的流程图,该数据处理方法可以应用于公有云的云平台;如图3a所示,该流程可以包括:
步骤300:获取第一数据;所述第一数据表示进行知识融合后的数据。
在一种实施方式中,知识融合可以使来自不同知识源的知识在同一框架规范下进行知识合并、语义关系融合、关系提取、实体消歧等步骤,进而,达到各类知识的融合,形成高质量的知识库;这里,知识库中的数据为第一数据。
可以看出,知识融合可以实现将来自不同数据集中的知识进行整合,形成更加全面的知识信息。
本发明实施例中,对于第一数据的获取方式,可以通过用户直接输入,也可以通过数据处理装置主动获取。
在一些实施例中,在获取第一数据之前,还可以对采集到的第二数据进行知识抽取,得到抽取结果;所述第二数据包括:云平台数据;其中,云平台数据包括云平台上各个产品的产品数据以及云平台用户信息;对所述抽取结果进行知识融合,得到第一数据。
这里,对采集到的云平台数据进行知识抽取后,得到的知识可以包括:云平台上的用户实体及属性、云产品的服务实体及属性、云产品之间的交错关系、云产品之间的语义关系、云产品之间的时序关系等一系列能够用于进行产品推荐的数据。进一步地,通过对知识提取后的上述数据进行知识融合,得到第一数据。
在一种实施方式中,云产品为云平台上的产品,包括云计算产品、云安全产品和云服务器产品等。
本发明实施例中,云平台的产品数据可以包括云产品基础数据和云产品泛在信息数据;其中,云产品基础数据可以是产品的名称、性能以及使用场景等。这里,云平台用户信息、云产品基础数据以及云产品泛在信息数据可以是自然语言文本或者多媒体内容文档等。
这里,云平台用户信息通常使用关系数据库或其它数据表进行表示和存储,即,数据类型可以为结构化数据,结构化数据的一般特点为:以行为单位,一行表示一个实体的信息,每一列的属性是相同的。
在一种实施方式中,云产品基础数据的数据类型可以是结构化数据,也可以是半结构化数据;其中,半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其它数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,半结构化数据也被称为自描述的结构。即,半结构化数据中属于同一类实体可以有不同的属性,而将这些属性组合在一起的时候,它们的排列顺序并不重要。
在一种实施方式中,云产品泛在信息数据可以是结果半结构化数据,也可以是非结构化数据;其中,非结构化数据是数据结构不规则或不完整,且没有预定义的数据模型,很难用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。
在一种实施方式中,在采集到第二数据后,根据第二数据的数据类型将其分类为结构化数据、半结构化数据和非结构化数据;再对这三类结构的第二数据进行知识抽取。
本发明实施例中,经过知识抽取可以从云平台数据中抽取出可用的知识单元,知识单元可以包括实体、关系以及属性这三个知识要素。
其中,实体抽取也称为命名实体学习或命名实体识别,指的是从原始数据语料(云平台数据)中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。因此,实体抽取是知识抽取中最为基础与关键的一步。关系抽取的目标是解决实体语义链接的问题。关系的基本信息包括参数类型、满足此关系的元组模式等。属性抽取的任务是为每个本体语义类构造属性列表;例如,云产品的属性包括服务1、价格、用户类型等,而属性值抽取则为一个语义类的实体附加属性值。属性和属性值的抽取能够形成完整的实体概念的知识图谱维度。
在一些实施例中,所述第二数据还包括网络对标数据;所述网络对标数据表示与所述云平台的产品类型相同的网络数据。
本发明实施例中,除云平台数据外,还可采集网络对标数据;由于网络对标数据是与云平台的产品类型相同的网络数据;因而,网络对标数据可用来分析同行业相同类型的其它云产品的功能,这种分析功能对于云产品解决方案推荐系统而言,可以帮助云服务提供商对标同行业,优化自身产品设计。
步骤301:对所述第一数据进行知识推理,得到推理结果。
本发明实施例中,基于步骤300中知识融合后的第一数据,可以得到一系列基本事实表达或初步的本体雏形;这里,第一数据是知识的基本单位,并不等同于知识,要形成高质量的知识,还需要对第一数据进行知识推理,进而,形成一个大规模的知识体系,统一对知识进行管理。
本发明实施例中,通过知识推理可以在已有的知识库的基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。
本发明实施例中,经过知识融合后的第一数据,在对第一数据进行知识推理之前,需要预先进行本体构建与知识质量评估;其中,本体是同一领域内不同主体之间进行交流、连通的语义基础,其主要呈现树状结构。本体在知识图谱中的地位相当于知识库的模具,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。本体包括概念、概念层次、属性、属性值类型、关系、关系定义域概念集以及关系值域概念集。在此基础上,可以额外添加规则或公理来表示模式层更复杂的约束关系,进而,构建本体;知识质量评估是知识图谱构建技术的重要组成部分,用于对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识图谱的质量。
本发明实施例中,经过本体构建与知识质量评估后,将本体构建的知识库写入知识图谱;采用知识推理可以在已有的基础上推理出新的知识,得到推理结果,基于推理结果可以进一步地对知识图谱的知识进行补全。
相关技术中,TransE模型是常用的知识推理模型,利用词向量在空间中平移不变特性,通过将高维连续的实体间关系向低维空间嵌入进行推理预测,从而补全知识图谱;图3b为相关技术中TransE模型的原理示意图;如图3b所示,将每个三元组实例h、r、t(head,relation,tail)中的关系relation看做从实体head到实体tail的翻译,通过不断调整h、r和t的向量,使(h+r)尽可能与t相等。
在一些实施例中,所述对所述第一数据进行知识推理,得到推理结果,可以包括:使用贝叶斯网络推理模型对所述第一数据进行知识推理,得到推理结果。
在一种实施方式中,贝叶斯网络是由一个有向无环图和图中各节点的条件概率表构成,在这两者兼备的情况下,可以进行网络推理。
在一些实施例中,所述使用贝叶斯网络推理模型对所述第一数据进行知识推理,可以包括:将所述第一数据转换成三元组,其中,三元组用于表征两个不同实体之间的关系,所述实体表示云平台上的用户属性和/或产品属性;将三元组以资源描述框架模式(Resource Description Framework Schema,RDFS)语句进行描述;使用贝叶斯网络推理模型对RDFS语句进行知识推理。
在一种实施方式中,用户属性可以是用户的名称、职业和所属行业等;产品属性可以是产品的名称、服务类型和提供商等。
这里,三元组可以由两个不同实体以及它们之间的关系描述词构成;例如,用户M订购了云平台上产品N包含的各项服务,这里,用户M和产品N均表示实体,用户M和产品N之间的订购关系则表示这两个实体之间的关系描述词。
在一种实施方式中,将第一数据对应的json格式的数据储至关系型数据库中;使用protege工具对关系型数据库中的数据进行本体构建,得到三元组;通过映射语言(R2RML)将关系型数据库中构建的本体转换为RDFS数据,进而,将三元组以RDFS语句进行描述。
其中,RDFS可以是一种本体语言,用来表示类和属性二元关系、值域和定义域在属性上的约束以及子类和子属性的包蕴关系。
本发明实施例中,RDFS表示多个RDF的集合。RDF采用资源-属性-属性值的“主谓宾”结构(也称三元组)提供一种框架容器,用于描述资源与资源之间的关系;RDF是一个使用可扩展标记语言(Extensible Markup Language,XML)语法来表示的资料模型。
图3c为本发明的基于贝叶斯网络推理模型进行知识推理的流程图,如图3c所示,所述流程包括:
步骤3010:对第一数据进行本体构建。
在一种实施方式中,对知识融合后得到的第一数据进行本体构建,得到结构为图数据库的原始云平台的产品知识图谱(Cloud Knowledge Graph,CKG);下面,对原始CKG中的数据进行进一步的处理。
步骤3011:将原始CKG中的数据转换成三元组。
在一种实施方式中,对原始CKG中的数据进行循环赋值,转换为三元组。这里的三元组表示实体与实体的关系。
步骤3012:将三元组以RDFS语句进行描述。
在一种实施方式中,对表示实体与实体关系的三元组进行处理,经RDFS语句中的每个RDF语句重新对原始CKG中的三元组进行描述。其中,RDF采用(主语,谓语,宾语)的三元组表示形式,对应原始CKG中的各类实体。
步骤3013:对RDF语句进行判断。
在一种实施方式中,对得到的RDF语句是否处理完毕进行循环判断;在判断结果为是的情况下,对所有RDF语句进行数据赋值操作;在判断结果为否的情况下,继续对未处理的RDF语句进行以贝叶斯概率推理理论为基础的概率加强推理步骤,以对云平台的产品知识图谱进行更新,直至RDFS语句中的所有RDF语句处理完毕。
图3d为本发明的使用RDF语句更新云平台的产品知识图谱的流程图;如图3d所示,对RDF模式的三元组进行三元组处理操作;其中,三元组处理操作包括:排列组合、概率推理、分数评定及处理和更新云平台的产品知识图谱;将更新后的云平台的产品知识图谱返回到知识质量评估阶段。
在一种实施方式中,首先将抽象后的原始CKG中的注释信息用属性矩阵表达,一共有m个属性矩阵,它们的集合可写为{A1,A2,...,Am},其中一个属性矩阵又包含n个属性值,构成属性矩阵
Figure BDA0002843696230000101
然后,设定云平台的产品知识图谱中实体关系集排列组合总数目为Q,显式关系的三元组数目为Q1,则显式链接关系三元组概率为P′=Q1/Q,潜在链接关系三元组概率为P″=1-P′,得到正确的三元组链接先验概率W′如公式(1)所示:
W′=P′/P″=Q1/Q-Q1 (1)
添加注释信息后对潜在链接关系的正确预测概率如公式(2)所示:
Figure BDA0002843696230000102
公式(2)中,(Q|A1,A2,...,Am)表示Q在m个属性矩阵存在的条件下三元组的个数;(Q1|A1,A2,...,Am)表示Q1在m个属性矩阵存在的条件下三元组的个数。
贝叶斯公式(3)如下所示:
Figure BDA0002843696230000103
公式(3)中,事件Bj的概率为P(Bj),事件Bj已发生条件下事件A的概率为P(A|Bj),事件A发生条件下事件Bj的概率为P(Bj|A)。
由贝叶斯公式(3)可知,W′与W″之间存在的关系如公式(4)所示:
Figure BDA0002843696230000104
这里,公式(4)根据上述公式(1)公式、(2)和公式(3)推演所得,所得关系中P′1(A1,A2,...,Am)和P″1(A1,A2,...,Am)分别是以先验概率为条件的注释信息条件概率值,令:
Figure BDA0002843696230000111
其中,ω为m个矩阵下两种概率比值的一种表现方式。
本发明实施例中,使用贝叶斯网络推理模型进行知识推理,相比于传统的TransE处理模型,贝叶斯网络推理模型将图形理论的表达和计算能力与概率论有机的结合,使得其在处理不确定性问题上具有灵活的依赖性拓扑结构,易于理解和解释、有明显的语义以及能有效的进行多元信息融合等优势,可以定量分析云平台产品知识图谱实体间的潜在关系,有效提升云平台产品知识图谱的推理准确率。
步骤302:使用所述推理结果构建云平台的产品知识图谱,用于对所述云平台上的产品进行推荐。
本发明实施例中,基于上述贝叶斯网络推理模型得到云平台的推理结果;再使用推理结果构建云平台的产品知识图谱。
在一些实施例中,在使用推理结果构建云平台的产品知识图谱之前,可以根据推理结果,确定产品知识图谱中节点间的关系置信度;基于关系置信度,对产品知识图谱进行更新。
本发明实施例中,在得到推理结果后,对当前的推理结果提出一种分数计算机制,利用分数计算机制对推理结果中实体间的依赖程度进行评定,在所有三元组都完成判定的情况下,则说明三元组处理完毕,对于没有判定成功的项进行舍弃。
在一些实施例中,基于所述关系置信度,对所述产品知识图谱进行更新,可以包括:在所述关系置信度大于或等于设定的分数阈值时,对所述产品知识图谱进行更新。
本发明实施例中,在对三元组进行判定的过程中,可以对实体间的关系置信度进行计算,在确定实体间的关系置信度小于设定的分数阈值时,将对应的实体进行舍弃;在确定实体间的关系置信度大于或等于设定的分数阈值时,对云平台的产品知识图谱进行更新;进而,得到更新后的云平台的产品知识图谱,并将更新后的云平台的产品知识图谱返回到知识质量评估阶段。
在一种实施方式中,通过上述贝叶斯推理已经得到初步的推理结果,根据推理结果可以确定三元组关系;下面这部分计算能够有效地增加准确性,进一步筛选三元组关系;分数计算机制对推理得到的云平台产品知识图谱中的集合Y和集合D进行操作;其中,集合Y(Y1,Y2,...,Yn)代表图谱中实体及其关系抽象,集合D(y1,y2,...,yn)代表变量对应的取值数据集合。
将原始CKG中网络结构G0赋值给最佳网络结构Gk后使用公式(5)所示的模型:
Figure BDA0002843696230000121
公式(5)中,网络结构Gs是原始CKG更新过程中的一种中间状态结构,接下来在网络结构Gs收敛的条件下迭代改变网络结构Gk-1的节点间关系链接,得到满足分数划分的新的CKG网络结构。
当执行完所有的三元组,得到满足分数要求的CKG网络结构,此时再利用公式(5)所示的模型寻找最佳的网络结构Gk,并将最新的网络结构CKG赋给网络结构Gk,返回最新的网络结构Gk到知识质量评估阶段。
本发明实施例中,在贝叶斯网络推理模型的基础上,提出一种分数计算机制,这是对贝叶斯网络推理模型的补充;增加该分数计算机制可以进一步的提升推理预测准确率,过滤掉不满足分数设定的实体连接关系。
图3e为本发明的云平台的产品知识图谱构建的流程图,如图3e所示,该流程可以包括:
将获取到的云平台用户信息、云产品基础数据和云产品泛在信息数据按照结构化数据、半结构化数据和非结构化数据进行分类;通过知识抽取对这三种类型的数据进行知识提取,提取到的知识包括:用户实体及属性、云产品及服务实体及属性、云产品交错关系、语义关系、时序关系等。
获取网络对标数据,通过知识抽取对网络对标数据进行知识提取,得到网络对标数据的实体属性关系;将网络对标数据的实体属性关系与上述提取到的知识整合后进行知识融合;经过知识融合可以实现知识合并、语义关系融合、关系提取和实体消歧。根据知识融合后的结果进行本体构建和知识质量评估。根据知识质量评估结果构建云平台的产品知识图谱;对所述云平台的产品知识图谱进行知识推理,对知识推理结果再次进行知识质量评估,根据知识质量评估结果完善云平台的产品知识图谱,进行完成云平台的产品知识图谱的构建。
本发明实施例中,在得到云平台的产品知识图谱的情况下,用户可以基于公有云的云平台门户网站得到云产品的推荐结果。
在一种实施方式中,可以是用户通过公有云的云平台门户网站搜索云产品的相关信息,并基于云平台的产品知识图谱得到的搜索结果,向用户反馈云产品的推荐结果。也可以基于用户信息以及云平台的产品知识图谱,根据预设的时间段周期地向用户主动推荐云产品。
图3f为本发明的基于产品知识图谱的产品智能推荐的流程示意图,如图3f所示,依次经过数据采集、知识抽取、知识融合和知识推理中的贝叶斯网络推理模型生成云平台的产品知识图谱;这里,用户可以通过公有云的云平台门户网站收取信息、执行操作。通过搜索处理系统连接云平台的产品知识图谱可以实现更智能并具有知识联想性的搜索功能;云产品智能推荐系统连接云平台的产品知识图谱可以实现在合适的时间、空间为用户推荐云产品;智能客服通过云平台的产品知识图谱可以解答用户问题;解决方案组合推荐系统为用户定制化生成云产品专属组合方案。另一方面管理员通过云平台服务商运维系统维护云平台的产品知识图谱,而云平台的产品知识图谱也可以反馈给管理员行业对标数据和云平台缺陷等智慧信息,进而,可以帮助云平台服务商对标同行业,优化自身产品设计。
可以看出,基于云平台的产品知识图谱的产品智能推荐在用户角度增强了云平台的人机交互体验、数据处理装置准确度以及云产品信息的准确性。在云平台服务商角度节省了人工咨询成本、方便完善云平台服务等。
本发明提供一种数据处理方法、装置、电子设备和计算机存储介质,所述方法包括:获取第一数据;所述第一数据表示进行知识融合后的数据;对所述第一数据进行知识推理,得到推理结果;使用所述推理结果构建云平台的产品知识图谱,用于对所述云平台上的产品进行推荐。如此,通过构建云平台的产品知识图谱对第一数据进行知识智能化改造,并将该云平台的产品知识图谱应用于公有数据处理方案中,使得搜索所得结果具有智慧性,搜索所得内容之间具有可靠关联性;同时,还可以节约人工成本,有效提高数据处理的准确性。
为了能够更加体现本发明的目的,在本发明上述实施例的基础上,进行进一步的举例说明。
云平台的产品知识图谱的构建采用“自顶而下”的方法;在云平台产品知识图谱中主要分为模式层和数据层。模式层包括云平台系统中各个产品本体和概念,主要通过本体构建方法实现产品本体概念分类体系的构建。数据层包括云平台系统中各个产品实体和属性,通过多源异构产品、用户等信息实现产品知识抽取、知识融合和知识更新。
图4a为本发明的构建云平台的产品知识图谱的流程示意图,如图4a所示,经过对采集的数据进行知识抽取、知识融合和知识推理的过程,云平台的产品知识图谱就完成了构建;在图4a最后形成的云平台的产品知识图谱的知识网络中,每一个圆圈代表一个实体,实体之间的连线表示实体之间的关系。其中,每个实体拥有自己特有的ID值用以唯一标识自身,不同的实体之间拥有从属等关系,实体之间为单向图的连接,各个实体的存在和联系并不是一成不变的,整个云平台的产品知识图谱处于不断更新的动态变化过程之中。
图4b为本发明的云平台的产品知识图谱的局部示意图,如图4b所示,展示了云平台的产品知识图谱的几种典型数据层案例;其中,产品1、产品2和产品3属于云平台,产品4不属于云平台;产品1包含服务1、服务2和产品定价;产品3包含服务3,且产品3依赖产品2;对于用户1可知,用户1使用云平台,用户1的所属行业为银行,用户1已经订购了产品3包含的服务3。
可以看出,通过将云平台中的各项数据转化为(实体,关系,实体)三元组的形式,实体之间通过一定的关系进行连接,海量的三元组关系构成云平台的产品知识图谱,最终实现结构化的知识网络,为公有云平台解决方案推荐提供智能化的实现方案,使原本复杂、庞大的数据具有更大的价值。
图5为本发明的数据处理装置的组成结构示意图,如图5所示,该装置包括:获取模块500、推理模块501和推荐模块502,其中:
获取模块500,用于获取第一数据;所述第一数据表示进行知识融合后的数据;
推理模块501,用于对所述第一数据进行知识推理,得到推理结果;
推荐模块502,用于使用所述推理结果构建云平台的产品知识图谱,用于对所述云平台上的产品进行推荐。
在一些实施例中,所述推理模块501,用于对所述第一数据进行知识推理,得到推理结果,包括:
使用贝叶斯网络推理模型对所述第一数据进行知识推理,得到推理结果。
在一些实施例中,所述推理模块501,用于使用贝叶斯网络推理模型对所述第一数据进行知识推理,包括:
将所述第一数据转换成三元组;所述三元组用于表征两个不同实体之间的关系;所述实体表示云平台上的用户属性和/或产品属性;
将所述三元组以RDFS语句进行描述;
使用贝叶斯网络推理模型对RDFS语句进行知识推理。
在一些实施例中,所述装置还包括更新模块,所述更新模块,用于:
根据所述推理结果,确定所述产品知识图谱中节点间的关系置信度;
基于所述关系置信度,对所述产品知识图谱进行更新。
在一些实施例中,所述更新模块,用于基于所述关系置信度,对所述产品知识图谱进行更新,包括:
在所述关系置信度大于或等于设定的分数阈值时,对所述产品知识图谱进行更新。
在一些实施例中,在获取第一数据之前,所述获取模块500,还用于:
对采集到的第二数据进行知识抽取,得到抽取结果;所述第二数据包括:云平台数据;
对所述抽取结果进行知识融合,得到第一数据。
在一些实施例中,所述第二数据还包括网络对标数据;所述网络对标数据表示与所述云平台的产品类型相同的网络数据。
在实际应用中,上述获取模块500、推理模块501和推荐模块502均可以由位于电子设备中的处理器实现,该处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本实施例中的一种数据处理方法对应的计算机程序指令可以被存储在光盘、硬盘、U盘等存储介质上,当存储介质中的与一种数据处理方法对应的计算机程序指令被一电子设备读取或被执行时,实现前述实施例的任意一种数据处理方法。
基于前述实施例相同的技术构思,参见图6,其示出了本发明提供的电子设备600,可以包括:存储器601和处理器602;其中,
存储器601,用于存储计算机程序和数据;
处理器602,用于执行存储器中存储的计算机程序,以实现前述实施例的任意一种数据处理方法。
在实际应用中,上述存储器601可以是易失性存储器(volatile memory),例如RAM;或者非易失性存储器(non-volatile memory),例如ROM、快闪存储器(flash memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器602提供指令和数据。
上述处理器602可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的云平台,用于实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
在一些实施例中,本发明实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述
本发明所提供的各方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本发明所提供的各产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本发明所提供的各方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取第一数据;所述第一数据表示进行知识融合后的数据;
对所述第一数据进行知识推理,得到推理结果;
使用所述推理结果构建云平台的产品知识图谱,用于对所述云平台上的产品进行推荐。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一数据进行知识推理,得到推理结果,包括:
使用贝叶斯网络推理模型对所述第一数据进行知识推理,得到推理结果。
3.根据权利要求2所述的方法,其特征在于,所述使用贝叶斯网络推理模型对所述第一数据进行知识推理,包括:
将所述第一数据转换成三元组;所述三元组用于表征两个不同实体之间的关系;所述实体表示云平台上的用户属性和/或产品属性;
将所述三元组以资源描述框架模式RDFS语句进行描述;
使用贝叶斯网络推理模型对所述RDFS语句进行知识推理。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述推理结果,确定所述产品知识图谱中节点间的关系置信度;
基于所述关系置信度,对所述产品知识图谱进行更新。
5.根据权利要求4所述的方法,其特征在于,所述基于所述关系置信度,对所述产品知识图谱进行更新,包括:
在所述关系置信度大于或等于设定的分数阈值时,对所述产品知识图谱进行更新。
6.根据权利要求1所述的方法,其特征在于,在获取第一数据之前,所述方法还包括:
对采集到的第二数据进行知识抽取,得到抽取结果;所述第二数据包括:云平台数据;
对所述抽取结果进行知识融合,得到第一数据。
7.根据权利要求6所述的方法,其特征在于,所述第二数据还包括网络对标数据;所述网络对标数据表示与所述云平台的产品类型相同的网络数据。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取第一数据;所述第一数据表示进行知识融合后的数据;
推理模块,用于对所述第一数据进行知识推理,得到推理结果;
推荐模块,用于使用所述推理结果构建云平台的产品知识图谱,用于对所述云平台上的产品进行推荐。
9.一种电子设备,其特征在于,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7任一项所述的方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
CN202011501380.9A 2020-12-17 2020-12-17 一种数据处理方法、装置、电子设备和存储介质 Pending CN114648121A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011501380.9A CN114648121A (zh) 2020-12-17 2020-12-17 一种数据处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011501380.9A CN114648121A (zh) 2020-12-17 2020-12-17 一种数据处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114648121A true CN114648121A (zh) 2022-06-21

Family

ID=81989695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011501380.9A Pending CN114648121A (zh) 2020-12-17 2020-12-17 一种数据处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114648121A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116414999A (zh) * 2022-12-01 2023-07-11 北京首都在线科技股份有限公司 基于知识图谱的管理方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116414999A (zh) * 2022-12-01 2023-07-11 北京首都在线科技股份有限公司 基于知识图谱的管理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11763175B2 (en) Systems and methods for semantic inference and reasoning
US11526338B2 (en) System and method for inferencing of data transformations through pattern decomposition
US10922308B2 (en) Predictive determination of constraint data for application with linked data in graph-based datasets associated with a data-driven collaborative dataset platform
US9535902B1 (en) Systems and methods for entity resolution using attributes from structured and unstructured data
US9348815B1 (en) Systems and methods for construction, maintenance, and improvement of knowledge representations
CA2802887C (en) Systems of computerized agents and user-directed semantic networking
Zeman et al. RDFRules: Making RDF rule mining easier and even more efficient
CN114648121A (zh) 一种数据处理方法、装置、电子设备和存储介质
Shafi et al. [WiP] Web Services Classification Using an Improved Text Mining Technique
Portugal et al. Towards a provenance-aware spatial-temporal architectural framework for massive data integration and analysis
Rogushina et al. Use of ontologies for metadata records analysis in big data
WO2013137903A1 (en) Systems and methods for semantic inference and reasoning
Ocaña et al. Knowledge Graph Semantic Annotation and Population with Real-Time Events Data from GDELT
Levchuk et al. Analysis of large-scale distributed knowledge sources via autonomous cooperative graph mining
Punyamurthula Dynamic model generation and semantic search for open source projects using big data analytics
Obraczka et al. Big Data Integration for Industry 4.0
Mattam et al. A Framework for Knowledgebase Curation using Cognitive Web Architecture
Cudré-Mauroux et al. 1 “Neural Machine Reading for Domain-Specific Text Resources” von Sebastian Arnold, Université de Fribourg, Schweiz, Oct. 2020

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination