CN115795136A - 一种数据处理方法、装置及设备 - Google Patents

一种数据处理方法、装置及设备 Download PDF

Info

Publication number
CN115795136A
CN115795136A CN202211678785.9A CN202211678785A CN115795136A CN 115795136 A CN115795136 A CN 115795136A CN 202211678785 A CN202211678785 A CN 202211678785A CN 115795136 A CN115795136 A CN 115795136A
Authority
CN
China
Prior art keywords
node
candidate
nodes
path
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211678785.9A
Other languages
English (en)
Inventor
苑爱泉
许林隆
刘传宝
桑梓森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Original Assignee
Rajax Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rajax Network Technology Co Ltd filed Critical Rajax Network Technology Co Ltd
Priority to CN202211678785.9A priority Critical patent/CN115795136A/zh
Publication of CN115795136A publication Critical patent/CN115795136A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种数据处理方法。在推荐或检索场景,可以预先构建目标业务场景的树状知识图谱,在知识图谱中确定和关键词匹配的目标节点后,还可以进一步基于树状知识图谱的层次结构确定更多和目标节点关联的节点,从而可以得到和关键词相关的候选节点集合,然后再利用候选节点集合从数据库中筛选出和关键词相关的候选对象。通过这种方式,可以将更多与关键词有关的对象筛选出来,从而可以为用户提供更多的选择,使得检索结果或推荐结果更准确,更全面。

Description

一种数据处理方法、装置及设备
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
在检索、推荐等业务场景中,通常需要基于确定的关键词从数据库中筛选出与该关键词相关的目标对象,并显示给用户。以网上搜索平台为例,当用户输入搜索词后,需尽可能从数据库中筛选出与该搜索词相关的商品或商户,并返回给用户。在检索或推荐的过程中包括召回和相关性处理两个关键步骤,在召回阶段,应尽可能准确和全面地从数据库中将与关键词相关的候选对象筛选出来,构建候选对象集合;在相关性处理阶段,则可以确定各候选对象与关键词之间的相关性大小,然后可以按照相关性大小确定候选对象的显示顺序,并显示给用户。很明显,在召回阶段如果筛选的候选对象不准确,或者不全面,将会导致最终给用户返回的检索结果和推荐结果不准确,影响用户体验。
发明内容
为克服相关技术中存在的问题,本说明书实施例提供了一种数据处理方法、装置及设备。
根据本说明书实施例的第一方面,提供一种数据处理方法,所述方法包括:
获取关键词;
从预先构建的目标业务场景的树状知识图谱中确定与所述关键词匹配的目标节点,其中,所述树状知识图谱的节点与数据库中存储的一个或多个对象关联;
基于所述目标节点从所述树状知识图谱中确定候选节点集合,其中,所述候选节点集合包括纵向节点和/或横向节点,所述纵向节点包括所述目标节点以及位于所述目标节点所在层的以下各层,且与所述目标节点位于同一条路径的节点;所述横向节点与任一所述纵向节点位于同一层,且符合预设的相关性条件;
基于所述候选节点集合从所述数据库中确定候选对象,所述候选对象至少包括与所述候选节点集合中的候选节点关联的对象;
根据所述候选对象与所述关键词之间的相关性,将所述候选对象显示给用户。
根据本说明书实施例的第二方面,提供一种数据处理装置,所述装置包括:
获取模块,用于获取关键词;
候选节点确定模块,用于从预先构建的目标业务场景的树状知识图谱中确定与所述关键词匹配的目标节点,其中,所述树状知识图谱的节点与数据库中存储的一个或多个对象关联;基于所述目标节点从所述树状知识图谱中确定候选节点集合,其中,所述候选节点集合包括纵向节点和/或横向节点,所述纵向节点包括所述目标节点以及位于所述目标节点所在层的以下各层,且与所述目标节点位于同一条路径的节点;所述横向节点与任一所述纵向节点位于同一层,且符合预设的相关性条件;
候选对象确定模块,用于基于所述候选节点集合从所述数据库中确定候选对象,所述候选对象至少包括与所述候选节点集合中的候选节点关联的对象;
显示模块,用于根据所述候选对象与所述关键词之间的相关性,将所述候选对象显示给用户。
根据本说明书实施例的第三方面,提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行的计算机指令;
处理器,用于执行所述计算机指令时实现上述第一方面提及的方法。
根据本说明书实施例的第四方面,提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被执行时实现上述第一方面提及的方法。
本说明书实施例的有益效果:在推荐或检索场景,可以预先构建目标业务场景的树状知识图谱,考虑到树状知识图谱可以反应节点之间的层次和关联,因此,在知识图谱中确定和关键词匹配的目标节点后,还可以进一步基于树状知识图谱的层次结构确定更多和目标节点关联的节点,比如,可以沿着树状知识图谱的纵向,获取目标节点分支出来的各路径中的节点,这些节点均位于树状知识图谱中目标节点所在层的下层,为目标节点的下位概念,与目标节点的关联性较大。或者,也可以针对纵向的各节点,沿着知识图谱的横向(即同一层)筛选和各节点关联性较大的节点,从而可以得到和关键词相关的候选节点集合,然后再利用候选节点集合从数据库中筛选出和关键词相关的候选对象。通过在知识图谱的纵向上或横向上确定目标节点的相关节点,再基于这些节点从数据库中获取关联对象,可以将更多与关键词有关的对象筛选出来,从而可以为用户提供更多的选择,使得检索结果或推荐结果更准确,更全面。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
附图说明
此处的附图被并入说明书中并构成本说明书实施例的一部分,示出了符合本说明书实施例的实施例,并与说明书一起用于解释本说明书实施例的原理。
图1为本说明书一示例性实施例示出的知识图谱的示意图。
图2为本说明书一示例性实施例示出的将知识图谱中的节点和对象关联存储的示意图。
图3(a)为本说明书一示例性实施例示出的数据处理方法的示意图。
图3(b)为本说明书一示例性实施例示出的数据处理方法的流程图。
图4为本说明书一示例性实施例示出的将叶子节点与数据库中的对象关联的示意图。
图5和图6为本说明书一示例性实施例示出的基于目标节点到候选对象的路径确定候选对象与关键词的相关性的示意图。
图7为本说明书一示例性实施例示出的对商品进行搜索的示意图。
图8为本说明书一示例性实施例示出的数据处理装置的逻辑框图。
图9为本说明书一示例性实施例示出的一种设备逻辑框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书实施例的一些方面相一致的装置和方法的例子。
在本说明书实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书实施例。在本说明书实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在检索、推荐等业务场景中,通常需要基于确定的关键词从数据库中搜索出与该关键词相关的目标对象,并显示给用户。比如,在商品搜索场景中,当用户输入关键词后,需尽可能从数据库中筛选出与该关键词相关的商品或商户,并返回给用户。在推荐场景中,则可以基于用户的历史行为数据确定关键词,然后从数据库中筛选出与该关键词相关的商品或商户,并推荐给用户。
在检索或推荐的过程中,通常包括召回和相关性处理两个关键步骤,在召回阶段,应尽可能准确和全面地从数据库中将与关键词相关、该关键词所指向的候选对象筛选出来,构建候选对象集合。在相关性处理阶段,则可以确定候选对象集合中的各候选对象与关键词之间的相关性大小,然后可以按照相关性大小从各个候选对象中选取相关性较大的候选对象,优先显示给用户。很明显,在召回阶段,如果筛选的候选对象不准确或者不全面,不仅会导致相关性处理阶段的工作量大,影响整个检索或推荐过程的处理效率,并且也可能会导致最终给用户返回的检索结果或推荐结果不准确,影响用户体验。
目前,有些技术将知识图谱应用到召回阶段中,由于知识图谱可以反应业务场景中的各知识点或概念之间的关联关系,因而,结合知识图谱来筛选候选对象,可以提升筛选的候选对象的准确性。知识图谱可以理解成是利用有向图结构表示的知识库,知识图谱中包括多个节点,每个节点可以用于表示业务场景中的一个知识标签,节点之间的连接边表示这些知识标签之间的关联关系。同时,每个节点还可以包括属性信息。如图1所示,为针对餐饮业务构建的一个树状知识图谱的示意图,图中的节点表示餐饮行业中的一些标准化的概念或知识点(即知识标签),比如,“火锅”、“热菜”、“饮品”等。图中的边表示这些概念或知识点之间的关联关系。比如,“饮品”包括“果汁”、“咖啡”、“奶茶”等。当然,针对每个节点,还可以记录该节点的属性信息(即节点表示的知识标签的属性信息),比如,以“水果蛋糕”这一节点为例,可以记录该蛋糕的尺寸大小、包含水果种类等等。
在利用知识图谱实现召回时,可以将知识图谱中的每个节点与数据库中存储的业务场景中的对象关联起来。当用户输入关键词后,则可以在知识图谱的各节点中确定和该关键词匹配的目标节点,然后从数据库中获取与该目标节点关联的对象作为候选对象。以餐饮行业的搜索为例,如图1所示,针对知识图谱中的每个节点,可以将该节点与数据库中存储的商品或商户关联存储,如图2所示,比如,针对“火锅”,可以将“XX火锅4-6人套餐麻辣锅底来点奶茶”、“XX火锅4-6人套餐麻辣味锅底”这些商品与该节点关联存储。当用户输入关键词“火锅”时,即可以在知识图谱找到和关键词匹配的“火锅”这一节点,然后将和该节点关联的对象作为候选对象。
目前这种利用知识图谱实现召回的方法,从数据库中召回的候选对象比较有限,不够全面,无法覆盖更多和关键词相关的对象,给用户提供更多的选择。
基于此,本说明书实施例提供了一种数据处理方法,可以预先构建目标业务场景的树状知识图谱,考虑到树状知识图谱可以反应节点之间的层次和关联,因此,在知识图谱中确定和关键词匹配的目标节点后,还可以进一步基于树状知识图谱的层次结构确定更多和目标节点关联的节点,比如,可以沿着树状知识图谱的纵向(即树状知识图谱从根节点至叶子节点的方向),获取目标节点分支出来的各路径中的节点,这些节点均位于树状知识图谱中目标节点所在层的下层,为目标节点的下位概念,与目标节点的关联性较大。或者,也可以针对纵向的各节点,沿着知识图谱的横向(即同一层)筛选和各节点关联性较大的节点,从而可以得到和关键词相关的候选节点集合,然后再利用候选节点集合从数据库中筛选出和关键词相关的候选对象。通过在知识图谱的纵向上或横向上确定目标节点的相关节点,再基于这些节点从数据库中获取关联对象,可以将更多与关键词有关的对象筛选出来,从而可以为用户提供更多的选择,使得检索结果或推荐结果更准确,更全面。
本说明书实施例提供的数据处理方法可以用于推荐场景或者检索场景,该方法可以由各种电子设备执行,比如,手机、电脑、云端服务器、服务器集群或者各类分布式系统。具体可以根据实际应用场景灵活设置。
本说明书实施例的目标业务场景可以是各种需要对用户进行推荐、或者给用户提供搜索结果的场景。比如,可以是用户通过线上平台购物、搜索商品/商户、为用户进行产品推荐、或者进行各类信息检索的场景。数据库中存储的对象为该目标业务场景中需要向用户推荐、或者用户想要搜索的对象,比如,可以是商品对象、店铺对象等等
如图3(a)所示,为本说明书实施例的数据处理方法的一个示意图,如图3(b)所示,为本说明书实施例的数据处理方法的流程图,具体可以包括以下步骤:
S302、获取关键词;
在步骤S302中,可以获取关键词,其中,该关键词为可以反应用户当前的意图的词。该关键词可以由用户自行通过交互界面输入,也可以基于用户的历史行为自动确定。比如,在一些实施例中,本公开实施例提供的数据处理方法可以应用于信息搜索的场景,因此,该关键词可以由用户通过搜索界面输入,然后可以基于该关键词从数据库中找到与关键词相关的目标对象,并显示在搜索界面中。比如,用户想要搜索包含“火锅”这一商品的店铺,用户可以在搜索界面中输入“火锅”这一关键词,然后基于该关键词确定包含火锅的店铺,并显示给用户。
在一些实施例中,本公开实施例提供的数据处理方法可以应用于推荐场景,因此,该关键词也可以基于用户的历史行为数据确定。比如,以向用户推荐商品为例,可以根据用户在过去一段时间内点击过的商品、或搜索过的商品、或近期购买过的商品确定关键词,比如,用户点击过的商品均为“奶茶”相关的商品,因此,可以确定关键词为“奶茶”,然后基于该关键词从数据库中筛选出和“奶茶”相关的商品,并推荐给用户。比如,在交互界面的下方显示这些商品的图片及链接等。
S304、从预先构建的目标业务场景的树状知识图谱中确定与所述关键词匹配的目标节点,其中,所述树状知识图谱的节点与数据库中存储的一个或多个对象关联;
在步骤S304中,针对目标业务场景,可以预先构建该目标业务场景的树状知识图谱,比如,可以将该目标业务场景中涉及的一些知识标签抽取出来,并建立这些知识标签之间的关联关系。比如,如图3(a)所示,针对餐饮行业,可以将“火锅”、“西餐”、“饮品”、“川味火锅”等知识标签抽取出来,然后利用树状知识图谱来表示这些知识标签之间的关联,其中,树状知识图谱中的各节点表示所述目标业务场景中的一个知识标签。同时,如图3(a)所示,也可以将数据库中存储的对象和树状知识图谱的节点关联起来。数据库中存储的对象为需要向用户推荐或用户要检索的对象,比如,餐饮行业的线上搜索为例,这些对象可以是商户、或者商户提供的一些商品。其中,每个节点可以关联一个或多个对象,一个对象可以关联到多个节点上。树状知识图谱上的每个节点可以均关联数据库中的对象,也可以仅部分节点关联数据库中的对象,比如,仅叶子节点关联数据库中的对象。
然后,可以从树状知识图谱中确定与关键词匹配的目标节点,其中,匹配可以是关键词和目标节点表示的知识标签完全一致,也可以是不完全一致但是相似度高于一定阈值。
S306、基于所述目标节点从所述树状知识图谱中确定候选节点集合,其中,所述候选节点集合包括纵向节点和/或横向节点,所述纵向节点包括所述目标节点以及位于所述目标节点所在层的以下各层,且与所述目标节点位于同一条路径的节点;所述横向节点与任一所述纵向节点位于同一层,且符合预设的相关性条件;
在步骤S306中,在树状知识图谱中确定目标节点后,可以基于树状知识图谱的层次和结构从树状知识图谱确定一些和该目标节点关联性较大的节点,得到一个与关键词相关的候选节点集合。其中,如图3(a)所示,候选节点集合中节点可以是沿着可以沿着树状知识图谱根节点至叶子节点的方向(即纵向),获取到目标节点分支出来的各路径中的节点。这些节点包括目标节点,以及均位于目标节点所在层的下层,和目标节点位于同一路径的节点(这类节点为目标节点的下位概念,与目标节点的关联性较大),以下将沿着树状知识图谱纵向上筛选出来的节点统称为纵向节点。同时,针对位于树状知识图谱的同一层的各节点,这些节点也可以存在一定的关联。因此,针对每个纵向节点,也可以获取与纵向节点位于同一层,且和纵向节点满足预设的相关性条件的节点,这些从横向上筛选出来的节点以下统称为横向节点。
其中,候选节点集合中的节点可以仅包括纵向节点,也可以仅包括横向节点,当然,也可以同时包括纵向节点和横向节点,具体可以根据实际需求设置。
S308、基于所述候选节点集合从所述数据库中确定候选对象,所述候选对象至少包括与所述候选节点集合中的候选节点关联的对象;
在步骤S308中,在确定候选节点集合后,可以基于候选节点集合中的候选节点从数据库中确定候选对象,其中,候选对象至少包括与候选节点关联的对象。比如,如图3(a)所示,假设用户输入的关键词为“川味火锅”,基于该关键词确定的候选节点集合为{川味火锅、北京涮锅、麻辣牛油火锅、麻辣涮锅},则可以从数据库中获取和这些节点关联的对象,作为候选对象。
S3010、根据所述候选对象与所述关键词之间的相关性,将所述候选对象显示给用户。
在步骤S3010中,在确定候选对象以后,由于候选对象的数量往往较大,在给用户返回结果时,需优先将关联性较大的候选对象返回给用户,因此,可以先确定候选对象与关键词之间的相关性,然后根据相关性大小将候选对象显示给用户。比如,可以按照相关性从大到小的顺序排序,将排在前面的优先显示给用户。
在将知识图谱中与数据库中的对象关联时,可以将知识图谱中的每个节点均与数据库中的对象关联,但是这种方式可能会导致关联的结果比较混乱,不够精准。比如,针对一些比较上位的知识标签,可能会出现关联的对象不全面或不准确的问题。为了克服上述问题,在一些实施例中,可以仅将数据库中的对象与树状知识图谱中的叶子节点关联,由于叶子节点通常都是比较下位的概念,其描述的信息比较具体,因此,利用叶子节点去与数据库中的对象关联,可以提升关联的准确性。而针对树状知识图谱中的非叶子节点,确定和其相关的对象时,可以获取从该非叶子节点分支出来的各叶子节点,然后将与各叶子节点关联的对象均作为该非叶子节点关联的对象。
比如,如图4所示,可以仅将叶子节点(图中灰色的节点)与数据库中的对象关联,针对非叶子节点,比如,“炒菜”这一节点,其关联的对象则可以是其分支出来的叶子节点“红烧茄子”、“鱼香茄子”这两个节点关联的对象的总和。
在召回阶段,不仅希望尽可能将数据库存储的和关键词有关的各种对象都筛选出来,以便确定的候选对象更加全面,给用户提供更多的选择,提升业务效益。同时,也要确保筛选出来的候选对象和关键词是相关的,以便给用户返回更加准确的推荐结果或检索结果。所以,在一些实施例中,在确定与纵向节点位于同一层,且相关的横向节点时,可以预先设置相关性条件,通过相关性条件对同一层的节点进行筛选。其中,相关性条件可以是各种可以判定两个节点之间的存在关联的条件。
在一些实施例中,相关性条件可以是横向节点与纵向节点共享一个父节点。两个节点共享一个父节点,说明书它们是同一个上位概念的下位概念,必然具有一定的关联,因此,可以把这些节点筛选出来。举个例子,如图3(a)所示,假设用户输入的关键词是“奶茶”,从知识图谱中可知,“奶茶”这个节点与“果汁”、“咖啡”共享一个父节点,其均属于“饮品”,所以,可以将“果汁”、“咖啡”作为“奶茶”这一节点的横向节点(即与纵向节点关联的节点),并基于这些节点从数据库中存储的商品中筛选出和“果汁”、“咖啡”关联的商品作为候选对象。通过这种扩展方式,可以向用户返回更多可能符合用户需求的选择。
在一些实施例中,相关性条件可以是横向节点的属性信息与纵向节点的属性信息的相似度高于预设的第一相似度。通常,知识图谱也可以存储每个节点的属性信息。如果两个节点的属性信息较为相似,那么这两个节点的相关性也较大。所以,针对任一纵向节点,如果同一层中的节点的属性信息与该纵向节点的属性信息的相似度高于第一相似度,则认为两者相关性较高,则将该节点作为横向节点。其中,属性信息可以表征该节点特点的各类信息。以餐饮场景为例,假设节点为某个菜品,则该菜品的属性信息可以是菜品的口味、分量等信息。
以图3(a)为例,假设用户输入的关键词为“北京涮锅”,基于该节点确定的节点集合包括“北京涮锅-麻辣涮锅”,从知识图谱中可知,与“麻辣涮锅”这一节点位于同一层的节点中包括“麻辣牛油火锅”,由于两者的属性信息很相似,即口味均为“麻辣”,因此,可以将“麻辣牛油火锅”作为“麻辣涮锅”的关联节点,将与“麻辣牛油火锅”相关的商品或店铺作为候选对象。
在一些实施例中,相关性条件可以是横向节点的表征信息与纵向节点的表征信息的相似度高于预设的第二相似度,其中,表征信息基于目标业务场景中的历史业务数据得到。举个例子,以商品推荐为例,通常位于同一个店铺的两个商品,它们之间的关联性会大一些,即用户买了该店铺的商品A后,再购买该店铺的商品B的可能性会更大。此外,通过分析用户的历史购买行为也可以发现,通常用户购买了商品A,也大概率会购买商品B。所以,可以利用模型去对目标业务场景的历史业务数据进行学习,学习该业务场景的知识图谱中不同节点之间的内在关联性,并利用模型输出这些节点的表征信息,其中,关联性越高的节点之间的表征信息会越相似,然后可以根据表征信息的相似度筛选出某个节点的关联节点。表征信息可以利用向量、矩阵等表示,表征信息可以基于该目标业务场景中的历史业务数据确定。比如,可以利用该目标业务场景的历史业务数据训练模型,通过模型输出该目标业务场景的知识图谱中各个节点的表征信息。
在一些场景,可以在构建树状知识图谱时,即将同一层的节点中,符合上述相关性条件的节点之间加上连接边,将其关联起来。以便后续在检索和推荐过程中,可以直接基于同一层的节点之间是否存在连接边来筛选横向节点。
在一些实施例中,该目标业务场景可以是商品搜索场景或者商品推荐场景,该历史业务数据包括用户的历史行为数据以及商品所属店铺的属性信息。用户的历史行为数据可以是用户的历史搜索行为、用户的历史购买行为、用户的历史浏览行为等。店铺的属性信息可以是店铺的类型、位置、用户对店铺的评价信息等。通常,用户的历史行为以及店铺的属性信息等都会对商品之间的关联性产生一定的影响。
以餐饮场景为例,“肉夹馍”、“凉皮”均为陕西风味餐馆的菜品,因此,用户购买“肉夹馍”的同时,也往往会带上一份“凉皮”,即这两个商品的为同一个店铺的商品,用户同时购买这两个商品的可能性较大,即两者关联性较强,因此,可以结合商品所属店铺的信息确定两者是否关联。再比如,某个用户在吃“烧烤”的同时往往也会喝“啤酒”,基于用户的历史购买行为可以看出,该用户同时购买这两个商品可能较大,所以,也可以基于用户的历史行为数据去挖掘这些商品之间的关联,利用模型去学习这些商品的关联,得到可以反应各商品之间关联性的表征信息。
通常,知识图谱中各节点表示的知识标签均为该目标业务场景中的一些标准化的表述,或者专业表述。而用户输入的关键词很有可能是一些非标准化的表述,为了可以让用户输入的关键词可以和知识图谱中的各节点匹配上,可以先对关键词进行预处理,以将关键词转换成该树状知识图谱中的节点的相同表述方式。举个例子,用户想要搜索“肯德基”,但其在输入关键词时,可能会输入“肯得基”,从而导致无法和知识图谱中的节点匹配上。所以,可以先对用户输入的关键词进行一些预处理,通过预处理去除关键词中一些不必要的符号(比如,逗号、空格号)、对关键词进行语义转换等,将其处理成标准化的表述,以便和知识图谱中的标准化的知识标签匹配上。
在一些实施例中,预处理可以包括以下一种或多种处理:同义词转换处理、纠错处理、大小写转换处理、语义变换处理等。同义词转换处理即将与标准化的知识标签意思相同或相近的词均转化为标准化表述,以便用户在输入这些词后,均可以在知识图谱找到匹配的节点,比如,麦当劳-金拱门、KFC-肯德基。纠错处理即将用户输入的关键词中的错别字、格式错误进行纠正,转换成标准的、正确的表述方式。比如,85度-85℃咖啡。大小写转换处理即将用户输入的关键词中的英文字母进行大小转换,以转换成标准格式。比如,metacoffee->Meta Coffee。
当然,在一些实施例中,当用户输入查询信息后,也可以先对该查询信息进行一些扩展处理,得到多个与该查询信息相关的关键词,再基于这些关键词到树状知识图谱中确定相关的候选节点,以基于候选节点确定候选对象。比如,可以利用NLP(Natural LanguageProcessing,自然语言处理)技术对查询信息进行语义转换,扩展出更多与查询信息相关的关键词。或者也可以基于用户的历史行为数据对查询信息进行扩展,比如,基于用户的历史搜索行为、点击行为、购买行为、浏览行为等,对查询信息进行扩展,以扩展出更多指向用户当前需求的关键词。通过对用户输入的查询信息进行扩展,得到更多关键词后,再基于知识图谱确定候选对象,可以给用户提供更多更全面的选择。
在一些实施例中,针对数据库中存储的对象,可以先对这些对象进行聚类处理,将相似的对象划分到一个类别中。在基于候选节点集合从数据库中确定候选对象时,针对候选节点集合中的每个候选节点,可以从数据库中确定与该候选节点关联的对象,然后将该对象以及与该对象属于同一类别的其他对象均作为候选对象。通过在对象层面中再对与关键词有关的对象进行进一步的扩展,将候选节点关联的对象相似的其他对象也筛选出来作为候选对象,可以筛选出更多和关键词相关的对象,给用户提供更多更全面的选择。在对数据库中的对象进行聚类时,可以采用DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)聚类算法,该算法的优点是不需要指定类别的个数。当然,也可以采用其他的聚类算法,本说明书实施例不做限制。
在一些实施例中,该目标业务场景包括商品搜索场景或商品推荐场景,数据库中存储的对象为商品,在将数据库中存储的对象被聚类成多个类别时,可以基于数据库中存储的商品的特征信息的相似度将这些商品聚类成多个类别。其中,为了让聚类结果更加准确,在对商品进行聚类时,可以基于商品不同层面的特征信息对商品进行聚类。比如,特征信息可以包括商品自身的属性信息以及商品所属店铺的属性信息。通过对商品多个层面的特征信息进行考量,可以得到更加全面的特征,使得聚类结果更加准确。
在一些实施例中,为了得到更加准确的聚类结果,在聚类时,也可以同时考虑商品或商品所属店铺的不同类型的属性信息,比如,商品或商品所属店铺的属性信息既可以包括文本类型的属性信息,也可以包括图片类型的属性信息。由于图片是强特征,图片相似的商品或店铺,其相似度也往往较高。通过综合考虑多种类型的属性信息,可以得到更加准确的聚类结果。
在召回阶段通常希望筛选出来的候选对象尽可能多,以便尽可能全面的覆盖各种和关键词相关的对象。而在相关性处理阶段,则希望可以从候选对象中尽可能筛选出和关键词相关性较大的对象,再返回给用户。即前者相当于开闸放水,将尽可能多的对象筛选出来,后者则需要严卡严审,以从筛选的对象中选出相关性尽可能高的对象,两个阶段配合,才能达到“一放一收”的效果,使得最终返回给用户的结果尽可能准确和全面。由于本说明书实施例中在召回阶段,基于树状知识图谱对关键词匹配的目标节点做了大量的相关性拓展,筛选出了大量的候选对象。因此,在相关性处理阶段,则需要对这些候选对象进行严格筛选,尽量选取出和关键词相关性较高的对象,优先显示给用户。
在一些实施例中,如图5所示(当然评分的表示形式不限于图中示出的),树状知识图谱中的每条边可以对应一评分,这个评可以分用于表征该条边两端的节点的相似度。该评分可以在构建知识图谱时即预先确定。在确定候选对象与关键词之间的相关性时,可以从树状知识图谱中确定从目标节点到候选对象所经过的路径,然后确定路径上的各条边对应的评分,根据路径中各条边对应的评分得到表征候选对象与关键词的相关性大小的目标评分。比如,假设关键词为“奶茶”,候选对象为与“珍珠奶茶”这一节点关联的对象“XX珍珠奶茶大杯”,其经过的路径为“奶茶-珍珠奶茶-XX珍珠奶茶大杯”,因而可以基于该路径上各条边对应的评分确定目标评分。
在一些实施中,在基于各条边对应的评分得到表征候选对象与关键词的相关性大小的目标评分时,针对树状知识图谱中纵向上的路径(即不同层节点之间的连接边构成的路径),以及横向上的路径(即同一层的节点之间的连接边构成的路径),可以区分处理。比如,不同层之间的节点,其为上下位的关系,因而,随着间隔层数越多,其相关性会逐渐变弱,因而,纵向上的路径两端的节点的相似度评分应为该路径上的各条边的评分的累乘结果。而同一层的节点,其为同级概念,因而,横向上的路径相似度评分应为该路径上的各条边的评分的最大值。
因此,在确定表征关键词和候选对象之间相似度的目标评分时,针对目标节点到候选对象所经过的路径,分别确定该路径中的各横向子路径的评分,以及各纵向子路径的评分,其中,横向子路径为位于同一层的节点的连接边构成的连续路径,纵向子路径为不同层的节点的连接边构成的连续路径。各横向子路径的评分为该横向子路径包括的各条边对应的评分的最大值,各纵向子路径的评分为该纵向子路径包括的各条边对应的评分的累乘结果。在得到各横向子路径以及纵向子路径的评分后,可以对各横向子路径以及纵向子路径的评分进行累乘处理,得到目标评分。
举个例子,如图5所示,假设关键词为“果汁”,候选对象为与“摩卡咖啡”这一节点关联的对象“XX摩卡咖啡中杯”,其经过的路径为“果汁-奶茶-咖啡-摩卡咖啡-XX摩卡咖啡中杯”,如图6所示,该路径包括横向子路径“果汁-奶茶-咖啡”、纵向子路径“咖啡-摩卡咖啡-XX摩卡咖啡中杯”,其中,横向子路径的评分取该子路径中的连接边的评分的最大值,即0.6,纵向子路径的评分取该子路径的各条边的评分的累乘结果,即0.9×0.9=0.81,然后再将各子路径的评分累乘处理,得到目标评分,即0.6×0.81=0.486。
为了进一步解释本公开实施例提供的数据处理方法,以下结合一个具体的实施例加以解释。
以用户在线上平台搜索餐饮相关的商品为例,为了返回更加准确和全面的搜索结果,可以先针对餐饮行业构建树状知识图谱,如图7所示,树状知识图谱的叶子节点与数据库中存储的一个或多个商品对象关联。
当用户输入关键词以查询和关键词相关的商品时,可以先对关键词进行一些预处理,将关键词转换成和知识图谱中的节点相同的表述。比如,用户输入“naicha”,可以将其转换为“奶茶”,然后在树状知识图谱找到和“奶茶”匹配的目标节点。针对目标节点,可以在树状知识图谱的纵向确定该目标节点的关联节点,比如,可以将位于目标节点所在层以下各层,且和目标节点位于同一路径的节点筛选出来,将目标节点和这些下位节点统称为纵向节点,比如,{奶茶、珍珠奶茶}。
同时,针对每个纵向节点,可以在同一层中筛选出与该纵向节点相关性较高的横向节点,比如,共享一个父节点的节点、属性相似或者表征信息相似的节点。比如,针对“奶茶”,在同一层可以确定横向节点“果汁、咖啡”,针对“珍珠奶茶”,在同一层可以确定横向节点“柠檬茶”,从而可以得到和关键词相关的候选节点集合{奶茶、珍珠奶茶、果汁、咖啡、柠檬茶}。然后可以从数据库中将与这些节点关联的商品筛选出来作为候选商品。同时,数据库中的商品也可以基于相似度聚类成多个类别,针对每个候选商品,还可以将和其属于同一类别的其他商品也筛选出来,作为候选商品。
在得到候选商品后,可以确定每个候选商品与关键词的相关性,比如,可以确定从目标节点得到候选商品的路径,基于路径上的各条边对应的评分,确定表征候选商品与关键词的相关性的最终评分。具体的,针对路径中的横向子路径,可以取该横向子路径包括的各条边对应的评分的最大值作为该子路径的评分。针对路径中的各纵向子路径,可以取该纵向子路径包括的各条边对应的评分的累乘结果作为该子路径的评分。在得到各横向子路径以及纵向子路径的评分后,可以对各横向子路径以及纵向子路径的评分进行累乘处理,得到目标评分。
然后基于目标评分将候选商品显示给用户,其中,目标评分越高的商品显示在越前面。通过这种方式,可以给用户返回更加准确、更加全面的检索结果,为用户提供更多选择。
需要指出的是,上述各实施例中的方案在存在不冲突的情况下可组合得到新的方案,鉴于篇幅原因,在此不再一一例举。
与本说明书实施例提供的数据处理方法的方法实施例相对应,本说明还提供了数据处理装置,如图8所示,所述装置80包括:
获取模块82,用于获取关键词;
候选节点确定模块84,用于从预先构建的目标业务场景的树状知识图谱中确定与所述关键词匹配的目标节点,其中,所述树状知识图谱的节点与数据库中存储的一个或多个对象关联;基于所述目标节点从所述树状知识图谱中确定候选节点集合,其中,所述候选节点集合包括纵向节点和/或横向节点,所述纵向节点包括所述目标节点以及位于所述目标节点所在层的以下各层,且与所述目标节点位于同一条路径的节点;所述横向节点与任一所述纵向节点位于同一层,且符合预设的相关性条件;
候选对象确定模块86,用于基于所述候选节点集合从所述数据库中确定候选对象,所述候选对象至少包括与所述候选节点集合中的候选节点关联的对象;
显示模块88,用于根据所述候选对象与所述关键词之间的相关性,将所述候选对象显示给用户。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
从硬件层面而言,如图9所示,为本说明书实施例的预加载页面装置所在设备的一种硬件结构图,除了图9所示的处理器902、网络接口906、内存904以及非易失性存储器908之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等;从硬件结构上来讲该设备还可能是分布式的设备,可能包括多个接口卡,以便在硬件层面进行报文处理的扩展。
所述非易失性存储器908存储有用于存储可执行的计算机指令,处理器902执行所述计算机指令时可实现上述各实实例中的数据处理方法。具体的实现细节可参考上述方法实施例中的描述,在此不再赘述。
由于本说明书实施例对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备执行本说明书实施例各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本说明书实施例的较佳实施例而已,并不用以限制本说明书实施例,凡在本说明书实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书实施例保护的范围之内。

Claims (10)

1.一种数据处理方法,所述方法包括:
获取关键词;
从预先构建的目标业务场景的树状知识图谱中确定与所述关键词匹配的目标节点,其中,所述树状知识图谱的节点与数据库中存储的一个或多个对象关联;
基于所述目标节点从所述树状知识图谱中确定候选节点集合,其中,所述候选节点集合包括纵向节点和/或横向节点,所述纵向节点包括所述目标节点以及位于所述目标节点所在层的以下各层,且与所述目标节点位于同一条路径的节点;所述横向节点与任一所述纵向节点位于同一层,且符合预设的相关性条件;
基于所述候选节点集合从所述数据库中确定候选对象,所述候选对象至少包括与所述候选节点集合中的候选节点关联的对象;
根据所述候选对象与所述关键词之间的相关性,将所述候选对象显示给用户。
2.根据权利要求1所述的方法,所述预设的相关性条件包括以下一种或多种:
所述横向节点与所述纵向节点共享一个父节点;
所述横向节点的属性信息与所述纵向节点的属性信息的相似度高于预设的第一相似度;
所述横向节点的表征信息与所述纵向节点的表征信息的相似度高于预设的第二相似度,其中,所述表征信息基于所述目标业务场景中的历史业务数据得到。
3.根据权利要求1所述的方法,基于所述关键词从预先构建的目标业务场景的树状知识图谱中确定目标节点之前,还包括:
对所述关键词进行预处理,将所述关键词转换成与所述树状知识图谱中的节点相同的表述。
4.根据权利要求1所述的方法,所述关键词基于以下方式确定:
获取用户输入的查询信息;
对所述查询信息进行扩展处理,以得到多个和所述查询信息相关的关键词。
5.根据权利要求1所述的方法,所述数据库中存储的对象被聚类成多个类别,基于所述候选节点集合从所述数据库中确定候选对象,包括:
针对所述候选节点集合中的每个候选节点,从所述数据库中确定与该候选节点关联的对象,将该对象以及与该对象属于同一类别的其他对象均作为候选对象。
6.根据权利要求5所述的方法,所述目标业务场景包括商品搜索场景或商品推荐场景,所述数据库中存储的对象为商品,所述数据库中存储的对象被聚类成多个类别,包括:
基于所述数据库中存储的商品的特征信息的相似度将所述商品聚类成多个类别,其中,所述特征信息包括所述商品的属性信息以及所述商品所属店铺的属性信息。
7.根据权利要求1所述的方法,所述树状知识图谱中的每条边对应一评分,所述评分用于表征该条边两端的节点的相似度;所述候选对象与所述关键词之间的相关性基于以下方式确定:
从所述树状知识图谱中确定从所述目标节点到所述候选对象所经过的路径;
基于所述路径上的各条边对应的评分,得到表征所述候选对象与所述关键词的相关性大小的目标评分。
8.根据权利要求7所述的方法,基于所述路径上的各条边对应的评分,得到表征所述候选对象与所述关键词的相关性大小的目标评分,包括:
从所述目标节点到所述候选对象所经过的路径中确定横向子路径和纵向子路径,所述横向子路径为位于同一层的节点的连接边构成的连续路径,所述纵向子路径为不同层的节点的连接边构成的连续路径;
分别确定各横向子路径的评分,以及各纵向子路径的评分,其中,所述各横向子路径的评分为该横向子路径包括的各条边对应的评分的最大值,所述各纵向子路径的评分为该纵向子路径包括的各条边对应的评分的累乘结果;
对各横向子路径以及纵向子路径的评分进行累乘处理,得到所述目标评分。
9.一种数据处理装置,所述装置包括:
获取模块,用于获取关键词;
候选节点确定模块,用于从预先构建的目标业务场景的树状知识图谱中确定与所述关键词匹配的目标节点,其中,所述树状知识图谱的节点与数据库中存储的一个或多个对象关联;基于所述目标节点从所述树状知识图谱中确定候选节点集合,其中,所述候选节点集合包括纵向节点和/或横向节点,所述纵向节点包括所述目标节点以及位于所述目标节点所在层的以下各层,且与所述目标节点位于同一条路径的节点;所述横向节点与任一所述纵向节点位于同一层,且符合预设的相关性条件;
候选对象确定模块,用于基于所述候选节点集合从所述数据库中确定候选对象,所述候选对象至少包括与所述候选节点集合中的候选节点关联的对象;
显示模块,用于根据所述候选对象与所述关键词之间的相关性,将所述候选对象显示给用户。
10.一种电子设备,所述设备包括:
存储器,用于存储可执行的计算机指令;
处理器,用于执行所述计算机指令时实现权利要求1至8任一项所述方法的步骤。
CN202211678785.9A 2022-12-26 2022-12-26 一种数据处理方法、装置及设备 Pending CN115795136A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211678785.9A CN115795136A (zh) 2022-12-26 2022-12-26 一种数据处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211678785.9A CN115795136A (zh) 2022-12-26 2022-12-26 一种数据处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN115795136A true CN115795136A (zh) 2023-03-14

Family

ID=85427859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211678785.9A Pending CN115795136A (zh) 2022-12-26 2022-12-26 一种数据处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115795136A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116455861A (zh) * 2023-04-17 2023-07-18 江苏鑫翊翔智能化工程有限公司 一种基于大数据的计算机网络安全监测系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116455861A (zh) * 2023-04-17 2023-07-18 江苏鑫翊翔智能化工程有限公司 一种基于大数据的计算机网络安全监测系统及方法
CN116455861B (zh) * 2023-04-17 2023-11-24 福建数智闽政科技有限公司 一种基于大数据的计算机网络安全监测系统及方法

Similar Documents

Publication Publication Date Title
US8412718B1 (en) System and method for determining originality of data content
KR101419504B1 (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
WO2019056661A1 (zh) 一种搜索词推送方法、装置及终端
CN109635198B (zh) 在商品展示平台上呈现用户搜索结果的方法、装置、介质及电子设备
US20230214895A1 (en) Methods and systems for product discovery in user generated content
US20230089850A1 (en) Real-time product environmental impact scoring
CN111259281B (zh) 商户标签的确定方法、装置及存储介质
JP2002150071A (ja) 商品検索方法及び装置
CN111400507B (zh) 实体匹配方法及其装置
CN107092647B (zh) 一种提供资源组合的方法及装置
CN110750697B (zh) 商户分类方法、装置、设备及存储介质
CN111428007B (zh) 基于跨平台的同步推送反馈方法
CN106547365A (zh) 商品推荐的方法和装置
CN115795136A (zh) 一种数据处理方法、装置及设备
CN112488781A (zh) 搜索推荐方法、装置、电子设备及可读存储介质
CN115641179A (zh) 信息推送方法、装置及电子设备
KR20220026255A (ko) 빅데이터를 이용한 건강식품 추천시스템
US11410418B2 (en) Methods and systems for tagged image generation
CN116796027A (zh) 商品图片标签生成方法及其装置、设备、介质、产品
CN116932896A (zh) 一种基于注意力机制的多模型融合个性化推荐架构
CN111782962B (zh) 模式匹配方法、装置及电子设备
Bhattacharjee et al. What drives consumer choices? Mining aspects and opinions on large scale review data using distributed representation of words
CN112016582A (zh) 菜品推荐方法及其装置
KR102009203B1 (ko) 마트 영수증을 이용한 온라인 가계부 작성 장치 및 방법
CN116308626A (zh) 商品推荐文案生成方法、展示方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination