CN114942997A - 数据处理、模型训练、风险识别方法、设备及存储介质 - Google Patents

数据处理、模型训练、风险识别方法、设备及存储介质 Download PDF

Info

Publication number
CN114942997A
CN114942997A CN202210426844.7A CN202210426844A CN114942997A CN 114942997 A CN114942997 A CN 114942997A CN 202210426844 A CN202210426844 A CN 202210426844A CN 114942997 A CN114942997 A CN 114942997A
Authority
CN
China
Prior art keywords
fact
node
embedded representation
target
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210426844.7A
Other languages
English (en)
Inventor
马婷
黄龙涛
薛晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210426844.7A priority Critical patent/CN114942997A/zh
Publication of CN114942997A publication Critical patent/CN114942997A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据处理、模型训练、风险识别方法、设备及存储介质。其中,方法包括如下的步骤:从超关系知识图谱中确定出五元组事实;以第一节点代替所述五元组事实中的主三元组的方式,将所述五元组事实修改为第一目标三元组事实;根据所述第一目标三元组事实,构建第一知识图谱;根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示;根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示;根据所述第一目标三元组事实的嵌入表示,确定所述五元组事实的嵌入表示。本申请实施例提供的方案能够提高超关系知识图谱中超关系事实的嵌入合理性。

Description

数据处理、模型训练、风险识别方法、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理、模型训练、风险识别方法、设备及存储介质。
背景技术
知识图谱(Knowledge Graph,简称KG)是一种采用结构化的方式描述现实世界中存在的概念实体和概念实体之间关联的一种结构。目前,知识图谱技术已经广泛应用于各个领域,例如:电商领域、金融领域、医疗领域。传统的知识谱图是由大量的三元组事实组成。
以电商领域为例,随着网络新技术的不断普及,电商服务在人们的日常生活中变得越来越重要。然而,这些电商平台在为网民日常生活提供便利的同时,也为不良信息广泛传播滋生了土壤,电商的开放性被一些商家利用来交易违禁商品,这些违禁商品可能包含着危害国家安全和公共安全并扰乱社会秩序的内容。随着电商平台用户量的激增,违禁商品的传播范围也越来越大,这对用户和电商平台都产生了巨大的危害。因此,对电商平台的商品进行风险审核是必须的。为了辅助风险审核人员进行知识透出,提升审核的准确率并减轻风险审核人员的工作负担,为电商平台上的商品建立一个风险知识图谱,后续将待审核商品的商品信息与风险知识图谱中的风险知识(风险知识是以事实为单位存储在风险知识图谱中)进行匹配(也可称为链接),进行实现待审核商品的风险识别。
发明内容
本申请实施例提供一种数据处理、模型训练、风险识别方法、设备及存储介质,用于提高超关系知识图谱中超关系事实的嵌入合理性。
于是,在本申请的一个实施例中,提供了一种数据处理方法,其中,包括:
从超关系知识图谱中确定出五元组事实;
以第一节点代替所述五元组事实中的主三元组的方式,将所述五元组事实修改为第一目标三元组事实;
根据所述第一目标三元组事实,构建第一知识图谱;
根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示;
根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示;
根据所述第一目标三元组事实的嵌入表示,确定所述五元组事实的嵌入表示。
在本申请的又一实施例中,提供了一种模型训练方法,其中,包括:
从样本超关系知识图谱中确定出五元组事实;
以第一节点代替所述五元组事实中的主三元组的方式,将所述五元组事实修改为第一目标三元组事实;
根据所述第一目标三元组事实,构建第一知识图谱;
根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示;
根据所述目标节点的初始嵌入表示,利用基于图神经网络的计算模型对所述第一目标知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示;
根据所述第一目标三元组事实的嵌入表示,确定所述五元组事实成立的第一可能性;
根据所述第一可能性以及所述五元组事实的训练标签,对所述计算模型进行优化。
在本申请的又一实施例中,提供了一种商品风险识别方法,其中,包括:
从超关系风险知识图谱中确定出五元组事实;
以第一节点代替所述五元组事实中的主三元组的方式,将所述五元组事实修改为第一目标三元组事实;
根据所述第一目标三元组事实,构建第一知识图谱;
根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示;
根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示;
根据所述第一目标三元组事实的嵌入表示,确定所述五元组事实的嵌入表示;
根据所述超关系风险知识图谱以及所述超关系风险知识图谱中五元组事实的嵌入表示,对待识别商品进行风险识别。
在本申请的又一实施例中,提供了一种电子设备。该电子设备,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述任一项所述的方法。
在本申请的又一实施例中,提供了一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述任一项所述的方法。
本申请实施例提供的技术方案中,超关系知识图谱中的五元组事实包括主三元组和对主三元组进行限定的限定词,该限定词也即主三元组对应的属性信息。将超关系知识图谱中五元组事实的主三元组粗化成一个节点来代替,这样后续进行图嵌入处理时,就能够捕获到五元组事实中主三元组作为一个整体与限定词之间的关联信息,也即能够捕获到五元组事实中主三元组作为一个整体与该主三元组对应的属性信息之间的关联信息,可有效提高超关系知识图谱中五元组事实的嵌入表示的合理性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的数据处理方法的流程示意图;
图2为本申请一实施例提供的有关电商场景的超关系风险知识图谱;
图3为本申请一实施例提供的有关医疗场景的超关系风险知识图谱;
图4为本申请一实施例提供的有关金融场景的超关系风险知识图谱;
图5为本申请一实施例提供的模型训练方法的流程示意图;
图6为本申请一实施例提供的商品风险识别方法的流程示意图;
图7a为本申请一实施例提供的粗粒度图;
图7b为本申请一实施例提供的细粒度图;
图8为本申请一实施例提供的商品风险识别方法的流程示例图;
图9为本申请一实施例提供的电子设备的结构框图。
具体实施方式
依旧以电商领域为例,传统的风险知识图谱,是以三元组的形式组织风险知识,然而,在进行待审核商品的商品信息与风险知识图谱中的风险知识匹配时,有时会存在商品信息与风险知识图谱中多个三元组匹配,导致无法精确匹配的问题。本质原因是传统知识图谱中的三元组形式不能很好地描述一些复杂的语义场景,例如带有属性信息的风险知识,使得在进行商品信息与风险知识匹配时存在三元组歧义问题,导致无法精确地进行风险匹配。为了对带有属性信息的知识进行表示,有人提出超关系知识图谱,这类知识图谱能提供更丰富的知识,从而提升知识图谱的组织能力。因此,为了解决商品风险识别工作存在的问题,本申请实施例提供的技术方案采用超关系知识图谱来组织风险知识。其中,超关系知识图谱中包括超关系事实,超关系事实包括主三元组和限定词(或称限定符)。该限定词也即是对主三元组进行限定的属性信息。基于超关系知识图谱进行有关商品风险识别的建模,与传统的只包含三元组知识的知识图谱相比,基于超关系知识图谱能提供更丰富的知识,超关系知识图谱在将限定词关联到含有歧义的风险知识后,风险知识的歧义被消除,因此可以提供更准确的预测。利用超关系知识图谱来进行商品风险识别,主要用于解决商品信息与风险知识链接时存在的歧义问题。
目前,针对超关系知识图谱的已有嵌入工作中存在嵌入合理性较差的问题。申请人通过研究发现:针对超关系知识图谱的已有嵌入工作中,通常组合超关系事实中的关系和键来获得抽象组合关系,或者将超关系事实转换为实体-关系对并将实体定义为关系的实例,或者引入了图神经网络来学习超关系事实,通过组合函数将键值对的表示合并到关系表示中来探索键值对对主三元组的影响,然而,这种组合、转换或合并方式使限定词失去了它们的语义信息。并且,在基于图神经网络来学习超关系事实时,关注的是单粒度编码,尤其是细粒度编码,捕获超关系事实中细粒度元素之间的相关性,导致模型没有合理地建模主三元组作为一个整体与属性信息之间的关联信息,这在一定程度上限制了表示性能的进一步提升。
为了解决或部分解决上述技术问题,本申请提出一种新的嵌入方案,具体地,将超关系知识图谱中五元组事实(也即超关系事实)的主三元组粗化成一个节点来代替,这样后续进行图嵌入处理时,就能够捕获到五元组事实中主三元组作为一个整体与限定词之间的关联信息,也即能够捕获到五元组事实中主三元组作为一个整体与该主三元组对应的属性信息之间的关联信息,可有效提高超关系知识图谱中五元组事实的嵌入表示的合理性。
为了使本技术领域的人员更好地理解本申请方案,下面将根据本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图1示出了本申请一实施例提供的数据处理方法的流程示意图。该方法的执行主体可以为客户端,也可以为服务端。其中,所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件,也可以是安装在终端中的一个应用软件,还可以是嵌入在终端操作系统中的工具软件等,本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、车载终端设备等任意终端设备。其中,服务端可以是常用服务器、云端或虚拟服务器等,本申请实施例对此不作具体限定。如图1所示,该方法包括:
101、从超关系知识图谱中确定出五元组事实。
102、以第一节点代替所述五元组事实中的主三元组的方式,将所述五元组事实修改为第一目标三元组事实。
103、根据所述第一目标三元组事实,构建第一知识图谱。
104、根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示;
105、根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示。
106、根据所述第一目标三元组事实的嵌入表示,确定所述五元组事实的嵌入表示。
上述101中,上述超关系知识图谱可以与电商、金融、医疗等场景相关。在一实例中,上述超关系知识图谱具体可以为超关系风险知识图谱。在电商场景下,该超关系风险知识图谱可根据电商平台上的已有商品的商品信息进行构建。
其中,所述五元组事实包括主三元组和限定词。主三元组包括:头实体节点、尾实体节点以及连接所述头实体节点与所述尾实体节点的关系边;限定词包括:键边和值节点。
下面将结合具体场景介绍几种超关系知识图谱的示例:
图2示出了一个有关电商场景的超关系风险知识图谱示例图。如图2所示,该超关系风险知识图谱中包含的事实有:
(违禁商品,包含,管制药品)
(违禁商品,包含,涉刀涉枪)
(管制药品,包含,麻黄碱,风险解读,麻黄碱为兴奋剂)
(管制药品,包含,摇头丸,风险解读,摇头丸为致幻剂)
其中,(违禁商品,包含,管制药品)和(违禁商品,包含,涉刀涉枪)为超关系风险知识图谱中的三元组事实;(管制药品,包含,麻黄碱,风险解读,麻黄碱为兴奋剂)和(管制药品,包含,摇头丸,风险解读,摇头丸为致幻剂)为超关系风险知识图谱中的五元组事实,也可称为超关系事实。在(管制药品,包含,麻黄碱,风险解读,麻黄碱为兴奋剂)这个五元组事实中,(管制药品,包含,麻黄碱)为主三元组,(风险解读,麻黄碱为兴奋剂)为限定词,具体地,“风险解读”是键边,“麻黄碱为兴奋剂”是值节点。
图3示出了一个有关医疗场景的超关系医疗知识图谱示例图。如图3所示,该超关系医疗知识图谱中包含的事实有:
(感冒,症状,发烧)
(感冒,症状,头痛)
(发烧,用药,头孢拉定,用药解释,头孢拉定用于退烧)
(头痛,用药,布洛芬,用药解释,布洛芬用于缓解疼痛)
其中,(感冒,症状,发烧)和(感冒,症状,头痛)为超关系医疗知识图谱中的三元组事实;(发烧,用药,头孢拉定,用药解释,头孢拉定用于退烧)和(头痛,用药,布洛芬,用药解释,布洛芬用于缓解疼痛)为超关系医疗知识图谱中的五元组事实,也可称为超关系事实。在(发烧,用药,头孢拉定,用药解释,头孢拉定用于退烧)这个五元组事实中,(发烧,用药,头孢拉定)为主三元组,(用药解释,头孢拉定用于退烧)为限定词,具体地,“用药解释”是键边,“头孢拉定用于退烧”是值节点。
通常,在超关系知识图谱中,上述五元组事实为多个。
图4示出了一个有关金融场景的超关系金融知识图谱示例图。如图4所示,该超关系金融知识图谱中包含的事实有:
(苹果,供应商,富士康)
(苹果,主营产品,Iphone,产品解读,Iphone市场份额高)
其中,(苹果,供应商,富士康)为超关系金融知识图谱中的三元组事实;(苹果,主营产品,Iphone,产品解读,Iphone市场份额高)为超关系金融知识图谱中的五元组事实,也可称为超关系事实。在(苹果,主营产品,Iphone,产品解读,Iphone市场份额高)这个五元组事实中,(苹果,主营产品,Iphone)为主三元组,(产品解读,Iphone市场份额高)为限定词,具体地,“产品解读”是键边,“Iphone市场份额高”是值节点。
实际应用中,上述超关系知识图谱中可包括多个事实,多个事实中可包括五元组事实和/或三元组事实。
上述102中,第一目标三元组事实包括所述第一节点以及所述五元组事实的限定词。限定词包括:键边和值节点。也即,第一目标三元组事实包括:所述第一节点、所述值节点以及用于连接所述第一节点与所述值节点的键边。
以图2中(头痛,用药,布洛芬,用药解释,布洛芬用于缓解疼痛)这个五元组事实为例,修改后,得到第一目标三元组事实为(#,用药解释,布洛芬用于缓解疼痛),其中“#”的具体内容可根据实际需要来编辑,其中,#就是用来替换主三元组(头痛,用药,布洛芬)的节点。
可采用上述步骤102,将超关系知识图谱中的多个五元组事实进行修改,得到多个第一目标三元组事实;多个第一目标三元组事实与多个五元组事实一一对应。
上述103中,根据第一目标三元组事实构建第一知识图谱,第一知识图谱中包括第一目标三元组事实。注:任一三元组事实都由两个节点以及连接两个节点的边构成。
当第一目标三元组事实为多个时,可将多个第一目标三元组事实进行合并,得到第一知识图谱。将多个第一目标三元组事实进行合并,也即是将多个第一目标三元组事实中相同节点进行合并,从而得到第一知识图谱。
实际应用中,通常超关系知识图谱中除了包括五元组事实以外,还会包括三元组事实。在一实例中,在构建第一知识图谱时,可忽略超关系知识图谱中的三元组事实,也即仅根据超关系知识图谱中五元组事实对应的第一目标三元组事实来构建第一知识图谱。实际应用中超关系知识图谱中的三元组事实在整个超关系知识图谱中的数量占比较大,如果忽略超关系知识图谱中的三元组事实,会导致最终得到的第一知识图谱的节点数量远远小于超关系知识图谱的节点数量。
为了确保最终得到的第一知识图谱的节点数量与超关系知识图谱的节点数量接近,在构建第一知识图谱时,可将超关系知识图谱中的三元组事实考虑进来,这样,即可确保最终得到的第一知识图谱的节点数量与超关系知识图谱的节点数量接近,进而避免了信息损失,提高对第一目标三元组事实的嵌入表示的合理性,也即提高对五元组事实的嵌入表示的合理性。具体的,上述方法,还可包括:
107、从所述超关系知识图谱中确定出三元组事实。
108、将所述三元组事实中的目标节点替换为用于表示所述三元组事实的第二节点,得到第三目标三元组事实。
三元组事实中包括头实体节点、尾实体节点以及连接头实体节点和尾实体节点的关系边。目标节点可以为头实体节点和尾实体节点中的一个。若目标节点可以为头实体节点,则第三目标三元组事实包括:用于表示三元组事实的第二节点、尾实体节点以及连接用于表示三元组事实的第二节点和尾实体节点的关系边。
本实施例中,相当于是根据三元组事实,针对三元组事实填充限定符。
上述103中“根据所述第一目标三元组事实,构建第一知识图谱”,可包括:
根据所述第一目标三元组事实以及所述第三目标三元组事实,构建第一知识图谱。
上述第一目标三元组事实的数量可以为一个或多个,第三目标三元组事实的数量可以为一个或多个。可将第一目标三元组事实和第三目标三元组事实进行合并,得到第一知识图谱。
在超关系知识图谱中,通常会存在五元组事实的值节点与三元组事实的头实体节点或尾实体节点相同的情况,也就是说,在构建第一知识图谱时,第一目标三元组事实和第三目标三元组事实有可能会因存在相同节点进行合并的情况。那么,在对第一知识图谱进行图嵌入处理获得第一目标三元组事实的嵌入表示时是能够结合到第三目标三元组事实,也即能够结合到超关系知识图谱中三元组事实,有利于提高嵌入表示合理性。同理,在对第一知识图谱进行图嵌入处理获得第三目标三元组事实的嵌入表示时是能够结合到第一目标三元组事实,也即能够结合到超关系知识图谱中五元组事实,有利于提高嵌入表示合理性。
上述104中,根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示。
在一实例中,主三元组的嵌入表示可包括:头实体节点的嵌入表示、尾实体节点的嵌入表示以及连接头实体节点和尾实体节点的关系边的嵌入表示;可对头实体节点的嵌入表示、尾实体节点的嵌入表示以及连接头实体节点和尾实体节点的关系边的嵌入表示进行合并,得到第一节点的初始嵌入表示。例如:可将合并后嵌入表示作为第一节点的初始嵌入表示。合并方式可以为相应元素相加、相应元素相乘或者向量拼接,等等。
在一实例中,具体可采用如下公式来进行合并:
hb=Wb(hu||hr||he) (1)
其中,hb为三元组事实b的嵌入表示,Wb为合并矩阵,hu、hr、he分别为主三元组中头实体节点、关系边、尾实体节点的嵌入表示,hu||hr||he是对hi、hr、he进行向量拼接。
上述105中,对第一知识图谱进行图嵌入处理,也即是对第一知识图谱中各节点和各边的嵌入表示进行一次或多次更新,得到各节点的最终嵌入表示和各边的最终嵌入表示;根据各节点的最终嵌入表示和各边的最终嵌入表示,确定第一知识图谱中三元组事实的嵌入表示。第一知识图谱中三元组事实的嵌入表示包括:该三元组事实的两个节点各自的嵌入表示以及连接这两个节点的边的嵌入表示。
第一知识图谱中除上述第一节点以外的其他节点以及边的初始嵌入表示可采用如下方式来实现:对其他节点的节点信息进行词嵌入,得到初始嵌入表示;对边的边信息进行词嵌入,得到初始嵌入表示。
当第一知识图谱中包括所述第三目标三元组事实时,上述方法,还可包括:
109、根据所述三元组事实的嵌入表示,确定所述第二节点的初始嵌入表示。
在一实例中,三元组事实的嵌入表示可包括:头实体节点的嵌入表示、尾实体节点的嵌入表示以及连接头实体节点和尾实体节点的关系边的嵌入表示;可对头实体节点的嵌入表示、尾实体节点的嵌入表示以及连接头实体节点和尾实体节点的关系边的嵌入表示进行合并,得到第二节点的初始嵌入表示。例如:可将合并后嵌入表示作为第二节点的初始嵌入表示。合并方式可以为相应元素相加、相应元素相乘或者向量拼接,等等。
上述105中“根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示”,包括:
根据所述第一节点的初始嵌入表示以及所述第二节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示以及所述第三目标三元组事实的嵌入表示。
第一知识图谱中的事实均为三元组事实,对所述第一知识图谱进行图嵌入处理,即可得到第一知识图谱中所有三元组事实的嵌入表示。
上述106中,通常,第一知识图谱中三元组事实为多个,多个三元组事实中包括上述第一目标三元组事实。
第一目标三元组事实的嵌入表示可包括:所述第一节点的嵌入表示、值节点的嵌入表示以及连接第一节点和值节点的键边的嵌入表示。
在一实例中,将第一目标三元组事实的嵌入表示作为五元组事实的嵌入表示,也即该五元组事实的嵌入表示包括:第一目标三元组事实的嵌入表示。
在另一实例中,可根据第一目标三元组事实的嵌入表示以及主三元组的嵌入表示,确定五元组事实的嵌入表示,五元组事实的嵌入表示包括:第一目标三元组事实的嵌入表示以及主三元组的嵌入表示。
可选的,上述方法,还可包括:
根据所述第三目标三元组事实的嵌入表示,确定超关系知识图谱中三元组事实的目标嵌入表示。
在一实例中,可将第三目标三元组事实的嵌入表示作为超关系知识图谱中三元组事实的目标嵌入表示。当然,实际应用时,可将三元组事实的嵌入表示直接作为超关系知识图谱中三元组事实的目标嵌入表示。
本申请实施例提供的技术方案中,将超关系知识图谱中五元组事实的主三元组粗化成一个节点来代替,这样后续进行图嵌入处理时,就能够捕获到五元组事实中主三元组作为一个整体与限定词之间的关联信息,也即能够捕获到五元组事实中主三元组作为一个整体与该主三元组对应的属性信息之间的关联信息,可有效提高超关系知识图谱中五元组事实的嵌入表示的合理性。
下面将介绍一种主三元组的嵌入表示的确定方式。具体的,上述方法,还可包括:
110、以删除所述五元组事实中的限定词的方式,将所述五元组事实修改为第二目标三元组事实。
111、根据所述第二目标三元组事实,构建第二知识图谱。
112、对所述第二知识图谱进行图嵌入处理,得到所述第二目标三元组事实的嵌入表示。
113、根据所述第二目标三元组事实的嵌入表示,确定所述主三元组的嵌入表示。
上述110中,以图2中(头痛,用药,布洛芬,用药解释,布洛芬用于缓解疼痛)这个五元组事实为例,修改后得到的第二目标三元组事实为(头痛,用药,布洛芬)。第二目标三元组事实仅包括五元组事实中的主三元组,不包含五元组事实中的限定词。
上述111中,五元组事实可以为多个,那么第二目标三元组事实也为多个,多个第二目标三元组事实与多个五元组事实一一对应。
可对多个第二目标三元组事实进行合并,得到第二知识图谱。
在一实例中,可根据第二目标三元组事实以及超关系知识图谱中三元组事实,构建第二知识图谱。可对第二目标三元组事实以及超关系知识图谱中的三元组事实进行合并,得到第二知识图谱。
上述112中,对所述第二知识图谱进行图嵌入处理,不仅可以得到所述第二目标三元组事实的嵌入表示,还可得到超关系知识图谱中三元组事实的嵌入表示。
由于第二知识图谱中的事实均为三元组事实,因此,对第二知识图谱进行图嵌入处理的具体过程可参考现有技术中的相应内容。例如:可利用基于图神经网络的计算模型对第二知识图谱进行图嵌入处理,得到第二知识图谱中所有三元组事实的嵌入表示。
为了提高图嵌入的效果,上述105中“根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示”,可采用如下步骤来实现:
1051、根据所述第一节点的初始嵌入表示,利用基于图神经网络的计算模型对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示。
所述计算模型是基于样本超关系知识图谱及其训练标签训练的,具体训练过程将在下述实施例中详细介绍。
上述图神经网络具体可包括:图注意力网络(Graph Attention Network,GAT)或图卷积网络(Graph Convolutional Networks,GCN)。
根据所述第一节点的初始嵌入表示,利用基于图神经网络的计算模型对所述第一知识图谱进行图嵌入处理,得到所述第一知识图谱中三元组事实的嵌入表示。
在一种可实现的方案中,所述第一知识图谱中包括第三节点。所述计算模型用于:
S11、在所述第一知识图谱中确定出所述第三节点的多个邻域元素。
其中,所述第三节点的多个邻域元素包括所述第三节点的邻居节点及其与所述第三节点之间的边。
S12、根据所述第三节点的多个邻域元素的嵌入表示,更新所述第三节点的嵌入表示。
上述第三节点指代的是第一知识图谱中的任一节点。
上述S11中,第三节点的邻居节点为一个或多个。
上述S12中,在一实例中,可对多个邻域元素的嵌入表示进行融合,得到融合后嵌入表示;将融合后嵌入表示作为更新后第三节点的嵌入表示。
在另一实例中,所述第三节点的邻居节点为多个,所述第三节点的多个邻居节点中包括第一邻居节点。上述S12中“根据所述第三节点的多个邻域元素的嵌入表示,更新所述第三节点的嵌入表示”,可采用如下步骤来实现:
S121、对所述第一邻居节点的嵌入表示以及所述第一邻居节点与所述第三节点之间的边的嵌入表示进行合并,得到所述第一邻居节点对应的合并嵌入表示。
其中,合并的方式可包括:相应元素相加、相乘或拼接。
S122、对所述第三节点的多个邻居节点各自对应的合并嵌入表示进行融合,得到融合后嵌入表示,以作为更新后的所述第三节点的嵌入表示。
可采用聚合函数来捕捉第三节点的邻居对第三节点的影响,也即第三节点的嵌入表示通过聚合邻域信息来更新。具体可采用如下公式来实现:
her=ψ(he,hr) (2)
hu=fagg(Nu) (3)
Figure BDA0003608774220000101
其中,u为第三节点,e为第一邻居节点,r为第一邻居节点与所述第三节点之间的边,he和hr分别为e、r的嵌入表示,ψ为合并函数,her为第一邻居节点对应的合并嵌入表示;Nu指的是u的邻域元素集合;其中,fagg()为加权求和聚合器;LeakyReLU()为非线性激活函数;|Nu|为Nu中第一邻居节点的个数;Wπ(r)为r所属的关系类型所对应的融合矩阵。
上述第三节点可以是第一目标三元组事实中的任一节点(例如:用于表示主三元组的第一节点或值节点),或者是第三目标三元组事实中的任一节点。
所述计算模型包括第一网络层;所述第一网络层用于执行上述步骤S12。第三节点的多个邻域元素的嵌入表示均为第一网络层的输入信息。
计算模型中可包括多个依次相连的第一网络层,每个第一网络层用于对第三节点的嵌入表示更新一次。多个依次相连的第一网络层中前一网络层的输出是后一网络层的输入,也即后一网络层用于对前一网络层输出的第三节点的嵌入表示进行更新。
可选的,所述第一知识图谱中包括第一边;所述计算模型还用于:
S13、确定所述第一边所属的关系类型。
S14、根据所述第一边所属的关系类型对应的更新参数,对所述第一边的嵌入表示进行更新。
上述S13中,以图3为例,关系类型有症状和用药。
不同关系类型对应的更新参数不同,更新参数具体为一更新矩阵。可将第一边的嵌入表示与更新矩阵相乘,得到更新后第一边的嵌入表示。
其中,更新矩阵中的参数值可通过模型训练得到。
在一实例中,每一个第一网络层都执行上述步骤S11、S12、S13以及S14。
实际应用时,上述方法,还可包括:
114、根据所述超关系知识图谱以及所述超关系知识图谱中五元组事实的嵌入表示,对待匹配信息进行知识匹配。
在一实例中,可对待匹配信息进行特征提取,得到待匹配信息的特征。将特征与超关系知识图谱中所有事实的嵌入表示进行匹配度计算,将匹配度最大的事实确定为目标事实,将目标事实作为知识匹配结果。
由上文介绍可知,超关系知识图谱中五元组事实的嵌入表示中包括第一目标三元组事实的嵌入表示以及主三元组的嵌入表示。第一目标三元组事实的嵌入表示包括:第一节点的嵌入表示、键边的嵌入表示以及值节点的嵌入表示;主三元组的嵌入表示包括:头实体节点、关系边以及尾实体节点各自的嵌入表示。
因此,可计算特征与五元组事实的嵌入表示中的每一个嵌入表示的相似度;将样本特征与五元组事实的嵌入表示中的每一个嵌入表示的相似度之和作为上述匹配度。实际应用时,可对上述匹配度进行归一化处理。
在电商商品风险识别场景中,上述待匹配信息可以为待识别商品的商品信息,可根据知识匹配结果确定待识别商品的风险点。
在用药咨询场景中,上述待匹配信息可以为用户输入的症状信息,可根据知识匹配结果确定用药建议。
在一实例中,可利用上述计算模型对待匹配信息进行特征提取,得到特征。
在一种可实现的方案中,上述111中“对所述第二知识图谱进行图嵌入处理,得到所述第二目标三元组事实的嵌入表示”,可采用如下步骤来实现:
利用所述计算模型对所述第二知识图谱进行图嵌入处理,得到所述第二知识图谱中三元组事实的嵌入表示。
第二知识图谱中三元组事实为多个,多个三元组事实包括:所述第二目标三元组事实。
其中,所述第二知识图谱中包括第四节点。计算模型具体用于:
S21、在所述第二知识图谱中确定出所述第四节点的多个邻域元素。
其中,所述第四节点的多个邻域元素包括所述第四节点的邻居节点及其与所述第四节点之间的边。
S22、根据所述第四节点的多个邻域元素的嵌入表示,更新所述第四节点的嵌入表示。
其中,第四节点的邻居节点为多个,多个邻居节点中包括第二邻居节点,第二邻居节点为多个邻居节点中的任一个。
上述S22中,可对所述第二邻居节点的嵌入表示以及所述第二邻居节点与所述第四节点之间的边的嵌入表示进行合并,得到所述第二邻居节点对应的合并嵌入表示。其中,合并方式可参见上述实施例中相应内容,在此不再赘述。对所述第四节点的多个邻居节点各自对应的合并嵌入表示进行融合,得到融合后嵌入表示,以作为更新后的所述第四节点的嵌入表示。
具体的合并过程和融合过程可参见上述第一知识图谱的相应内容,在此不再赘述。
通过上述步骤,可得到第二知识图谱中每个三元组事实的两个节点各自的嵌入表示以及连接两个节点的边的嵌入表示。
下面将结合图图5对本申请实施例提供的模型训练方法进行介绍。如图5所示,模型训练方法,包括:
201、从样本超关系知识图谱中确定出五元组事实。
其中,所述五元组事实包括主三元组和限定词。
202、以第一节点代替所述五元组事实中的主三元组的方式,将所述五元组事实修改为第一目标三元组事实。
203、根据所述第一目标三元组事实,构建第一知识图谱。
204、根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示;
205、根据所述目标节点的初始嵌入表示,利用基于图神经网络的计算模型对所述第一目标知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示。
206、根据所述第一目标三元组事实的嵌入表示,确定所述五元组事实成立的第一可能性。
207、根据所述第一可能性以及所述五元组事实的训练标签,对所述计算模型进行优化。
上述步骤201-205的具体实现可参照上述各实施例中相应内容,在此不在详述。
上述206中,可利用计算模型中的至少一个第一卷积层对第一目标三元组事实的嵌入表示进行卷积处理,得到卷积处理结果;根据卷积处理结果确定五元组事实成立的第一可能性。
上述207中,五元组事实的训练标签用于表示五元组事实是否成立,例如:训练标签为1时,表明五元组事实成立;训练标签为0时,表明五元组事实不成立。
可将五元组事实的训练标签及其第一可能性输入到表示损失函数中,得到表示损失值;根据表示损失值对计算模型进行优化。
具体优化过程可参照现有技术,在此不再详述,例如:可采用梯度下降法进行参数优化。
可选的,上述方法,还包括:
208、以删除所述五元组事实中的限定词的方式,将所述五元组事实修改为第二目标三元组事实;
209、根据所述第二目标三元组事实,构建第二知识图谱;
210、利用所述计算模型对所述第二知识图谱进行图嵌入处理,得到所述第二目标三元组事实的嵌入表示;
211、根据所述第二目标三元组事实的嵌入表示,确定所述五元组事实成立的第二可能性。
上述步骤208-210的具体实现可参照上述各实施例中相应内容,在此不在详述。
可利用计算模型中的至少一个第二卷积层对第二目标三元组事实的嵌入表示进行卷积处理,得到卷积处理结果;根据卷积处理结果确定五元组事实成立的第二可能性。
相应的,上述207中“根据所述第一可能性以及所述五元组事实的训练标签,对所述计算模型进行优化”,可采用如下步骤来实现:
根据所述第一可能性和所述第二可能性,确定目标可能性;
根据所述目标可能性以及所述五元组事实的训练标签,对所述计算模型进行优化。
可将第一可能性和第二可能性进行加权求和得到目标可能性,其中,第一可能性和第二可能性各自对应的权重的大小可根据实际需要来设置,本申请实施例对此不做具体限定。
可将目标可能性和五元组事实的训练标签输入到表示损失函数中,得到表示损失值。根据表示损失值对计算模型进行优化。
可选的,上述方法,还可包括:
212、获取样本信息.
213、利用所述计算模型对所述样本信息进行特征提取,得到所述样本信息的样本特征.
214、确定所述样本特征与所述样本超关系知识图谱中五元组事实的嵌入表示的匹配度。
215、根据所述匹配度以及所述样本信息的训练标签,确定匹配损失值。
上述样本信息可以是样本商品的商品信息、样本用户的用户信息,等等。
上述213中利用所述计算模型对所述样本信息进行特征提取的具体实现过程可参见现有技术,在此不再赘述。
上述214中,由上文介绍可知,五元组事实的嵌入表示中包括第一目标三元组事实的嵌入表示以及主三元组的嵌入表示。第一目标三元组事实的嵌入表示包括:第一节点的嵌入表示、键边的嵌入表示以及值节点的嵌入表示;主三元组的嵌入表示包括:头实体节点、关系边以及尾实体节点各自的嵌入表示。
因此,可计算样本特征与五元组事实的嵌入表示中的每一个嵌入表示的相似度;将样本特征与五元组事实的嵌入表示中的每一个嵌入表示的相似度之和作为上述匹配度。实际应用时,可对上述匹配度进行归一化处理。
上述215中,样本信息的训练标签包括期望五元组事实。可将所述匹配度以及所述样本信息的训练标签输入至匹配损失函数中,得到匹配损失值。
需要补充说明的是,本申请实施例中的损失函数的具体形式可根据实际需要来设置,本申请实施例对此不做具体限定。
相应的,上述207中“根据所述第一可能性以及所述五元组事实的训练标签,对所述计算模型进行优化”,包括:
2071、根据所述第一可能性以及所述五元组事实的训练标签,确定表示损失值。
2072、根据所述表示损失值和所述匹配损失值,对所述计算模型进行优化。
可对表示损失值和匹配损失值进行加权求和得到总损失值;基于总损失值对计算模型进行优化。
本申请实施例提供的技术方案中,将超关系知识图谱中五元组事实的主三元组粗化成一个节点来代替,这样后续进行图嵌入处理时,就能够捕获到五元组事实中主三元组作为一个整体与限定词之间的关联信息,也即能够捕获到五元组事实中主三元组作为一个整体与该主三元组对应的属性信息之间的关联信息,可有效提高超关系知识图谱中五元组事实的嵌入表示的合理性。
这里需要说明的是:本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述实施例中的相应内容,此处不再赘述。此外,本申请实施例提供的所述方法中除了上述各步骤以外,还可包括上述各实施例中其他部分或全部步骤,具体可参见上述各实施例相应内容,在此不再赘述。
图6示出了一种商品风险识别方法的流程示意图。如图6所示,该方法,包括:
601、从超关系风险知识图谱中确定出五元组事实。
其中,所述五元组事实包括主三元组和限定词;
602、以第一节点代替所述五元组事实中的主三元组的方式,将所述五元组事实修改为第一目标三元组事实。
603、根据所述第一目标三元组事实,构建第一知识图谱。
604、根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示。
605、根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示。
606、根据所述第一目标三元组事实的嵌入表示,确定所述五元组事实的嵌入表示。
607、根据所述超关系风险知识图谱以及所述超关系风险知识图谱中五元组事实的嵌入表示,对待识别商品进行风险识别。
上述607中,根据所述超关系知识图谱以及所述超关系知识图谱中五元组事实的嵌入表示,对待识别商品的商品信息进行知识匹配;根据知识匹配结果,确定待识别商品存在的风险。
知识匹配的过程可参见上述各实施例中相应内容,在此不再赘述。知识匹配结果中包括商品信息所匹配的五元组事实,可根据商品信息所匹配的五元组事实的相关信息,确定待识别商品存在的风险。
本申请实施例提供的技术方案中,将超关系知识图谱中五元组事实的主三元组粗化成一个节点来代替,这样后续进行图嵌入处理时,就能够捕获到五元组事实中主三元组作为一个整体与限定词之间的关联信息,也即能够捕获到五元组事实中主三元组作为一个整体与该主三元组对应的属性信息之间的关联信息,可有效提高超关系知识图谱中五元组事实的嵌入表示的合理性。
这里需要说明的是:本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述实施例中的相应内容,此处不再赘述。此外,本申请实施例提供的所述方法中除了上述各步骤以外,还可包括上述各实施例中其他部分或全部步骤,具体可参见上述各实施例相应内容,在此不再赘述。
下面将结合电商商品风险识别场景为例,对本申请实施例提供的技术方案进行介绍:
步骤1、获取有关电商商品的超关系风险知识图谱。
步骤2、根据超关系风险知识图谱,确定出粗粒度图10(如图7a所示,也即上述第一知识图谱)和细粒度图20(如图7b所示,也即上述第二知识图谱)。
如图7a所示,粗粒度图中一个事实由方形节点100(对应于上述第一节点)、圆形节点200(对应于上述值节点)以及边300(对应于上述键边)组成;如图7b所示,细粒度图中一个事实由两个节点400(对应于上述头、尾实体节点)以及边500(对应于上述关系边)组成。
步骤3、利用图卷积神经网络GCN对细粒度图进行编码,得到细粒度图中每个三元组事实的嵌入表示。
步骤4、根据细粒度图中每个三元组事实的嵌入表示,确定粗粒度图中每个方形节点的初始嵌入表示。
步骤5、根据粗粒度图中每个方形节点的初始嵌入表示,利用图卷积神经网络GCN对粗粒度图进行编码,得到粗粒度图中每个三元组事实的嵌入表示。
步骤6、根据细粒度图中每个三元组事实的嵌入表示以及粗粒度图中每个三元组事实的嵌入表示,确定超关系风险知识图谱中每个事实的嵌入表示。
其中,图8中超关系风险知识图谱的嵌入表示包括超关系风险知识图谱中每个事实的嵌入表示。
具体确定过程可参见上述各实施例中相应内容。
步骤7、获取待识别商品的关键词。
该关键词包括标题中的关键词和摘要中的关键词。
步骤8、对关键词进行特征提取,得到特征。
步骤9、将特征与超关系风险知识图谱中每个事实的嵌入表示进行匹配,得到该特征所匹配的目标事实。
步骤10、根据目标事实确定待识别商品的风险点。
上述步骤7到步骤10对应于图8中的待识别商品的风险识别这一步骤。
图9示出了本申请一实施例提供的电子设备的结构示意图。如图9所示,所述电子设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述存储器1101,用于存储程序;
所述处理器1102,与所述存储器1101耦合,用于执行所述存储器1101中存储的所述程序,以实现上述各方法实施例提供的方法。
进一步,如图9所示,电子设备还包括:通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图9中仅示意性给出部分组件,并不意味着电子设备只包括图9所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各方法实施例提供的方法的步骤或功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的方式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种数据处理方法,其中,包括:
从超关系知识图谱中确定出五元组事实;
以第一节点代替所述五元组事实中的主三元组的方式,将所述五元组事实修改为第一目标三元组事实;
根据所述第一目标三元组事实,构建第一知识图谱;
根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示;
根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示;
根据所述第一目标三元组事实的嵌入表示,确定所述五元组事实的嵌入表示。
2.根据权利要求1所述的方法,其中,还包括:
以删除所述五元组事实中的限定词的方式,将所述五元组事实修改为第二目标三元组事实;
根据所述第二目标三元组事实,构建第二知识图谱;
对所述第二知识图谱进行图嵌入处理,得到所述第二目标三元组事实的嵌入表示;
根据所述第二目标三元组事实的嵌入表示,确定所述主三元组的嵌入表示。
3.根据权利要求1所述的方法,其中,还包括:
从所述超关系知识图谱中确定出三元组事实;
将所述三元组事实中的目标节点替换为用于表示所述三元组事实的第二节点,得到第三目标三元组事实;
根据所述第一目标三元组事实,构建第一知识图谱,包括:
根据所述第一目标三元组事实以及所述第三目标三元组事实,构建第一知识图谱。
4.根据权利要求3所述的方法,其中,还包括:
根据所述三元组事实的嵌入表示,确定所述第二节点的初始嵌入表示;
根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示,包括:
根据所述第一节点的初始嵌入表示以及所述第二节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示以及所述第三目标三元组事实的嵌入表示。
5.根据权利要求1至4中任一项所述的方法,其中,根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示,包括:
根据所述第一节点的初始嵌入表示,利用基于图神经网络的计算模型对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示;
所述计算模型是基于样本超关系知识图谱及其训练标签训练的。
6.根据权利要求5所述的方法,其中,所述第一知识图谱中包括第三节点;
所述计算模型用于:
在所述第一知识图谱中确定出所述第三节点的多个邻域元素;所述第三节点的多个邻域元素包括所述第三节点的邻居节点及其与所述第三节点之间的边;
根据所述第三节点的多个邻域元素的嵌入表示,更新所述第三节点的嵌入表示。
7.根据权利要求6所述的方法,其中,所述第三节点的邻居节点为多个;所述第三节点的多个邻居节点中包括第一邻居节点;
根据所述第三节点的多个邻域元素的嵌入表示,更新所述第三节点的嵌入表示,包括:
对所述第一邻居节点的嵌入表示以及所述第一邻居节点与所述第三节点之间的边的嵌入表示进行合并,得到所述第一邻居节点对应的合并嵌入表示;
对所述第三节点的多个邻居节点各自对应的合并嵌入表示进行融合,得到融合后嵌入表示,以作为更新后的所述第三节点的嵌入表示。
8.根据权利要求1至4中任一项所述的方法,其中,还包括:
根据所述超关系知识图谱以及所述超关系知识图谱中五元组事实的嵌入表示,对待匹配信息进行知识匹配。
9.一种模型训练方法,其中,包括:
从样本超关系知识图谱中确定出五元组事实;
以第一节点代替所述五元组事实中的主三元组的方式,将所述五元组事实修改为第一目标三元组事实;
根据所述第一目标三元组事实,构建第一知识图谱;
根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示;
根据所述目标节点的初始嵌入表示,利用基于图神经网络的计算模型对所述第一目标知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示;
根据所述第一目标三元组事实的嵌入表示,确定所述五元组事实成立的第一可能性;
根据所述第一可能性以及所述五元组事实的训练标签,对所述计算模型进行优化。
10.根据权利要求9所述的方法,其中,还包括:
以删除所述五元组事实中的限定词的方式,将所述五元组事实修改为第二目标三元组事实;
根据所述第二目标三元组事实,构建第二知识图谱;
利用所述计算模型对所述第二知识图谱进行图嵌入处理,得到所述第二目标三元组事实的嵌入表示;
根据所述第二目标三元组事实的嵌入表示,确定所述五元组事实成立的第二可能性;
根据所述第一可能性以及所述五元组事实的训练标签,对所述计算模型进行优化,包括:
根据所述第一可能性和所述第二可能性,确定目标可能性;
根据所述目标可能性以及所述五元组事实的训练标签,对所述计算模型进行优化。
11.根据权利要求9所述的方法,其中,还包括:
获取样本信息;
利用所述计算模型对所述样本信息进行特征提取,得到所述样本信息的样本特征;
确定所述样本特征与所述样本超关系知识图谱中五元组事实的嵌入表示的匹配度;
根据所述匹配度以及所述样本信息的训练标签,确定匹配损失值;
根据所述第一可能性以及所述五元组事实的训练标签,对所述计算模型进行优化,包括:
根据所述第一可能性以及所述五元组事实的训练标签,确定表示损失值;
根据所述表示损失值和所述匹配损失值,对所述计算模型进行优化。
12.一种商品风险识别方法,其中,包括:
从超关系风险知识图谱中确定出五元组事实;
以第一节点代替所述五元组事实中的主三元组的方式,将所述五元组事实修改为第一目标三元组事实;
根据所述第一目标三元组事实,构建第一知识图谱;
根据所述主三元组的嵌入表示,确定所述第一节点的初始嵌入表示;
根据所述第一节点的初始嵌入表示,对所述第一知识图谱进行图嵌入处理,得到所述第一目标三元组事实的嵌入表示;
根据所述第一目标三元组事实的嵌入表示,确定所述五元组事实的嵌入表示;
根据所述超关系风险知识图谱以及所述超关系风险知识图谱中五元组事实的嵌入表示,对待识别商品进行风险识别。
13.一种电子设备,其中,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现权利要求1至12中任一项所述的方法。
14.一种存储有计算机程序的计算机可读存储介质,其中,所述计算机程序被计算机执行时能够实现权利要求1至12中任一项所述的方法。
CN202210426844.7A 2022-04-21 2022-04-21 数据处理、模型训练、风险识别方法、设备及存储介质 Pending CN114942997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210426844.7A CN114942997A (zh) 2022-04-21 2022-04-21 数据处理、模型训练、风险识别方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210426844.7A CN114942997A (zh) 2022-04-21 2022-04-21 数据处理、模型训练、风险识别方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114942997A true CN114942997A (zh) 2022-08-26

Family

ID=82907380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210426844.7A Pending CN114942997A (zh) 2022-04-21 2022-04-21 数据处理、模型训练、风险识别方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114942997A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757806A (zh) * 2022-09-21 2023-03-07 清华大学 超关系知识图谱嵌入方法、装置、电子设备及存储介质
CN118446526A (zh) * 2024-05-29 2024-08-06 朴道征信有限公司 风险预警信息生成方法、装置、电子设备和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757806A (zh) * 2022-09-21 2023-03-07 清华大学 超关系知识图谱嵌入方法、装置、电子设备及存储介质
CN115757806B (zh) * 2022-09-21 2024-05-28 清华大学 超关系知识图谱嵌入方法、装置、电子设备及存储介质
CN118446526A (zh) * 2024-05-29 2024-08-06 朴道征信有限公司 风险预警信息生成方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN112214499B (zh) 图数据处理方法、装置、计算机设备和存储介质
CN114942997A (zh) 数据处理、模型训练、风险识别方法、设备及存储介质
CN113177700B (zh) 一种风险评估方法、系统、电子设备及存储介质
CN111931055A (zh) 对象推荐方法、对象推荐装置和电子设备
US11714917B2 (en) Systems and methods for anonymizing sensitive data and simulating accelerated schedule parameters using the anonymized data
CN114579584A (zh) 数据表处理方法、装置、计算机设备和存储介质
CN114139052B (zh) 用于智能推荐的排序模型训练方法、智能推荐方法及装置
CN115630221A (zh) 终端应用界面展示数据处理方法、装置及计算机设备
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
CN116703598A (zh) 交易行为检测方法、装置、计算机设备和存储介质
CN117172450A (zh) 业务序列处理方法、装置、设备、介质和产品
CN116861107A (zh) 业务内容展示方法、装置、设备、介质和产品
CN115470409A (zh) 兴趣推荐方法、装置、电子设备、介质及程序产品
CN114529399A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN113743906A (zh) 一种确定业务处理策略的方法和装置
CN113901175A (zh) 物品关系判别方法和装置
CN113159937A (zh) 识别风险的方法、装置和电子设备
CN110033098A (zh) 在线gbdt模型学习方法及装置
US20240202798A1 (en) Solving sparse data problems in a recommendation system with freezing start
CN117575607A (zh) 交易风险识别方法、装置、计算机设备和存储介质
CN117408772A (zh) 金融产品推荐方法、装置、计算机设备和存储介质
CN117708151A (zh) 数据的处理方法、装置、计算机设备
CN117390258A (zh) 金融业务推荐方法、装置、计算机设备和存储介质
CN114742144A (zh) 对象流失概率的确定方法、装置、计算机设备和存储介质
CN115952358A (zh) 产品推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination