CN114926223A - 落地页特征生成方法、落地页搜索方法及相关装置 - Google Patents

落地页特征生成方法、落地页搜索方法及相关装置 Download PDF

Info

Publication number
CN114926223A
CN114926223A CN202210638768.6A CN202210638768A CN114926223A CN 114926223 A CN114926223 A CN 114926223A CN 202210638768 A CN202210638768 A CN 202210638768A CN 114926223 A CN114926223 A CN 114926223A
Authority
CN
China
Prior art keywords
landing page
node
graph
target
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210638768.6A
Other languages
English (en)
Inventor
马圣杰
瞿康
刘丽
阳锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210638768.6A priority Critical patent/CN114926223A/zh
Publication of CN114926223A publication Critical patent/CN114926223A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Abstract

本公开提供了一种落地页特征生成方法、落地页搜索方法及相关装置,涉及数据搜索、深度学习等人工智能技术领域。该方法包括:从用户的搜索会话中提取出会话内不同查询词之间的第一对应关系,以及查询词、相关词、落地页三者中任意两者之间的第二对应关系;构建由查询词、相关词、落地页的语义特征充当节点、第一对应关系和第二对应关系充当节点之间的边的原始节点关联图;基于随机游走算法对原始节点关联图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图;利用预设的图神经网络处理目标节点关联图,得到目标落地页特征。应用该方法可使落地页特征在语义特征的基础上具有知识推理和认知关联的能力。

Description

落地页特征生成方法、落地页搜索方法及相关装置
技术领域
本公开涉及数据处理技术领域,具体涉及数据搜索、深度学习等人工智能技术领域,尤其涉及一种落地页特征生成方法、落地页搜索方法,以及对应的装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
搜索广告和推荐广告场景中,网民从广告点击到达落地页(即广告指向的目标地址,比如推广应用的官方、下载页,某个网页等),在落地页中完成转化。落地页作为承载商业价值的最后一环,具有举足轻重的影响,因而也成为广告检索过程中必不可少的特征信息。
针对落地页的表征能力直接影响了广告的召回、排序以及最终展现。如何获取合理且精准的落地页表征是广告检索系统优化的一大环节。
发明内容
本公开实施例提供了一种落地页特征生成方法、落地页搜索方法,以及对应的装置、电子设备、计算机可读存储介质及计算机程序产品。
第一方面,本公开实施例提供了一种落地页特征生成方法,包括:从用户的搜索会话中提取出会话内不同查询词之间的第一对应关系,以及查询词、相关词、落地页三者中任意两者之间的第二对应关系;构建由查询词、相关词、落地页的语义特征充当节点、第一对应关系和第二对应关系充当节点之间的边的原始节点关联图;基于随机游走算法对原始节点关联图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图;利用预设的图神经网络处理目标节点关联图,得到目标落地页特征。
第二方面,本公开实施例提供了一种落地页特征生成装置,包括:对应关系提取单元,被配置成从用户的搜索会话中提取出会话内不同查询词之间的第一对应关系,以及查询词、相关词、落地页三者中任意两者之间的第二对应关系;原始节点关联图构建单元,被配置成构建由查询词、相关词、落地页的语义特征充当节点、第一对应关系和第二对应关系充当节点之间的边的原始节点关联图;目标节点关联图生成单元,被配置成基于随机游走算法对原始节点关联图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图;目标落地页特征生成单元,被配置成利用预设的图神经网络处理目标节点关联图,得到目标落地页特征。
第三方面,本公开实施例提供了一种落地页搜索方法,包括:确定用于查询落地页的实际查询词的语义特征;将拥有匹配于查询词语义特征的目标落地页特征的落地页,作为搜索结果返回;其中,目标落地页特征根据第一方面描述的落地页特征生成方法得到。
第四方面,本公开实施例提供了一种落地页搜索装置,包括:语义特征提取单元,被配置成确定用于查询落地页的实际查询词的语义特征;搜索结果返回单元,被配置成将拥有匹配于查询词语义特征的目标落地页特征的落地页,作为搜索结果返回;其中,目标落地页特征根据第二方面描述的落地页特征生成装置得到。
第五方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面描述的落地页特征生成方法和/或如第三方面描述的落地页搜索方法。
第六方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面描述的落地页特征生成方法和/或如第三方面描述的落地页搜索方法。
第七方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面描述的落地页特征生成方法和/或如第三方面描述的落地页搜索方法。
本公开所提供的落地页特征生成方案,从体现更全面搜索行为的搜索会话中提取出查询词、相关词、落地页之间的更全面的对应关系,同时在图论提供的图形化思想的基础上结合随机游走算法,以邻域采样的方式更准确的确定节点之间的关联关系,使得最终可通过图神经网络输出更准确的落地页特征。该方案具备较强的通用落地页表征能力,根据搜索历史数据挖掘出落地页蕴含的更深度,更广度的信息,使落地页特征在语义特征的基础上具有知识推理和认知关联的能力。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开可以应用于其中的示例性系统架构;
图2为本公开实施例提供的一种落地页特征生成方法的流程图;
图3为本公开实施例提供的另一种落地页特征生成方法的流程图;
图4为本公开实施例提供的落地页特征生成方法中一种生成目标节点关联图的方法的流程图;
图5为本公开实施例提供的落地页特征生成方法中一种生成目标落地页特征的方法的流程图;
图6为本公开实施例提供的与图5对应方案的一种图神经网络处理数据的流程示意图;
图7为本公开实施例提供的一种落地页搜索方法的流程图;
图8为本公开实施例提供的一种落地页特征生成装置的结构框图;
图9为本公开实施例提供的一种落地页搜索装置的结构框图;
图10为本公开实施例提供的一种适用于执行落地页特征生成方法和/或落地页搜索方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1示出了可以应用本公开的落地页特征生成方法、落地页搜索方法,以及对应的装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用,例如落地页特征生成类应用、数据传输类应用、落地页搜索类应用等。
终端设备101、102、103和服务器105可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等;当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。
服务器105通过内置的各种应用可以提供各种服务,以可以提供落地页搜索服务的落地页搜索类应用为例,服务器105在运行该落地页搜索类应用时可实现如下效果:首先,通过网络104接收终端设备101、102、103传入的实际查询词;然后,确定用于查询落地页的实际查询词的语义特征;最后,将拥有匹配于查询词语义特征的目标落地页特征的落地页,作为搜索结果返回。
其中,服务器105还可以通过内置的提供落地页特征生成服务的落地页特征生成类应用,预先生成各备选落地页的目标落地页特征。服务器105在运行该落地页特征生成类应用时可实现如下效果:首先,通过网络104获取终端设备101、102、103的历史落地页搜索会话;然后,从用户的搜索会话中提取出会话内不同查询词之间的第一对应关系,以及查询词、相关词、落地页三者中任意两者之间的第二对应关系;接着,构建由查询词、相关词、落地页的语义特征充当节点、第一对应关系和第二对应关系充当节点之间的边的原始节点关联图;下一步,基于随机游走算法对原始节点关联图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图;最后,利用预设的图神经网络处理目标节点关联图,得到目标落地页特征。
需要指出的是,搜索会话除可以从终端设备101、102、103通过网络104获取到之外,也可以通过各种方式预先存储在服务器105本地。因此,当服务器105检测到本地已经存储有这些数据时(例如开始处理之前留存的落地页特征生成任务),可选择直接从本地获取这些数据,在此种情况下,示例性系统架构100也可以不包括终端设备101、102、103和网络104。
由于基于搜索会话生成目标落地页特征需要占用较多的运算资源和较强的运算能力,因此本公开后续各实施例所提供的落地页特征生成方法一般由拥有较强运算能力、较多运算资源的服务器105来执行,相应地,落地页特征生成装置一般也设置于服务器105中。但同时也需要指出的是,在终端设备101、102、103也具有满足要求的运算能力和运算资源时,终端设备101、102、103也可以通过其上安装的落地页特征生成类应用完成上述本交由服务器105做的各项运算,进而输出与服务器105同样的结果。尤其是在同时存在多种具有不同运算能力的终端设备的情况下,但落地页特征生成判断所在的终端设备拥有较强的运算能力和剩余较多的运算资源时,可以让终端设备来执行上述运算,从而适当减轻服务器105的运算压力,相应的,落地页特征生成装置也可以设置于终端设备101、102、103中。在此种情况下,示例性系统架构100也可以不包括服务器105和网络104。
同理,本公开后续各实施例提供的落地页搜索方法也可以由服务器105来执行,相应的,落地页搜索装置一般也可以设置于服务器105中。当然,为了区别落地页特征方法和落地页搜索方法,可以选择不同的服务器。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,图2为本公开实施例提供的一种落地页特征生成方法的流程图,其中流程200包括以下步骤:
步骤201:从用户的搜索会话中提取出会话内不同查询词之间的第一对应关系,以及查询词、相关词、落地页三者中任意两者之间的第二对应关系;
本步骤旨在由落地页特征生成方法的执行主体(例如图1所示的服务器105)从用户的搜索会话中提取出四种对应关系,即不同查询词之间的对应关系、查询词与相关词之间的对应关系、查询词与落地页之间的对应关系、相关词与落地页之间的对应关系。
上述执行主体可以用户的搜索会话(Session)中挖掘不同查询词之间的对应关系(即query-query)。其中,搜索会话是指用户在一段时间内连续的“打开网页→输入问题→点击页面→退出页面→输入问题→点击页面→...→退出网页”的一连串交互行为,包括了一系列的连续输入问题。考虑到用户可能一次搜索无法获取到目标答案,会换相似的问题再次搜索,一个搜索会话内的问题大概率是相关的,因此用每个搜索会话内的不同query来构建query-query的相关关系。
上述执行主体可以继续从搜索会话的检索过程挖掘有曝光的其它对应关系,即查询词与相关词的对应关系(即query-keyword)、查询词与落地页的对应关系(即query-lp,lp为落地页的英文全称LandingPage的缩写)、相关词与落地页的对应关系(即keyword-lp)。其中,检索行为指的是从搜索query触发的keyword,再由从keyword触发的lp的过程。其中,相关词为根据用户输入的查询词所衍生出的相关的多个关键词。
本步骤最终可得到四种关系:query-query,query-lp,query-keyword,keyword-lp。
步骤202:构建由查询词、相关词、落地页的语义特征充当节点、第一对应关系和第二对应关系充当节点之间的边的原始节点关联图;
在步骤201的基础上,本步骤旨在由上述执行主体将查询词、相关词、落地页的语义特征作为节点、将由上述对应关系表现出的节点间关系作为连接节点的边,以构建得到原始节点关联图。
即该原始节点关联图中,记录并表现了各节点之间的初始关联。
该原始节点关联图的图表现形式可以包括:有向有权图、有向无权图、无向有权图、无向无权图。即具体选择使用哪种表现形式,还应结合具体的应用场景下的具体需求,此处不做具体限定。
其中,查询词和相关词通常都是文本数据,其语义特征可是文本数据的向量表现形式,而落地页通常是一个页面,其语义特征可以是该页面中直接包含的文本数据和从包含的图像数据经光学字符识别(OCR,Optical Character Recognition)技术间接得到的文本数据的向量表现形式。当然,语义特征除表现为向量形式外,也可以表现为其它形式,例如矩阵、特征图等。
具体的,可将查询词、相关词、落地页页面中的文本数据输入现有的语义分析模型(例如ERNIE,是一种自研的语义理解框架),进而得到该语义分析模型输出的语义特征。
步骤203:基于随机游走算法对原始节点关联图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图;
步骤204:利用预设的图神经网络处理目标节点关联图,得到目标落地页特征。
步骤203是在步骤202的基础上,旨在由上述执行主体通过随机游走算法对原始节点关联图进行节点邻域采样,并基于采样结果进行迭代更新,以最终得到目标节点关联图。步骤204则是在步骤203的基础上,旨在由上述执行主体利用预设的图神经网络处理目标节点关联图,得到目标落地页特征。
本公开实施例提供的落地页特征生成方法,从体现更全面搜索行为的搜索会话中提取出查询词、相关词、落地页之间的更全面的对应关系,同时在图论提供的图形化思想的基础上结合随机游走算法,以邻域采样的方式更准确的确定节点之间的关联关系,使得最终可通过图神经网络输出更准确的落地页特征。该方案具备较强的通用落地页表征能力,根据搜索历史数据挖掘出落地页蕴含的更深度,更广度的信息,使落地页特征在语义特征的基础上具有知识推理和认知关联的能力。
请参考图3,图3为本公开实施例提供的另一种落地页特征生成方法的流程图,其中流程300包括以下步骤:
步骤301:将用户的搜索会话中相邻输入的两个不同查询词之间的关系,确定为第一对应关系;
本步骤旨在由上述执行主体将用户的搜索会话中相邻输入的两个不同查询词之间的关系,确定为第一对应关系。即充分利用隐藏在关联输入行为背后的查询词的关联性。
步骤302:将用户的搜索会话中分别提取出查询词与相关词之间的关系、查询词与落地页之间的关系、相关词与落地页之间的关系,得到第二对应关系;
参照步骤301借助的关联输入行为,本步骤也可以由上述执行主体同样借助关联的输入-反馈行为、输入-选择行为、反馈-选择行为,分别将其背后隐藏的查询词与相关词之间的关系、查询词与落地页之间的关系、相关词与落地页之间的关系,最终得到该第二对应关系。
步骤303:以构建无向无权图的方式,构建由查询词、相关词、落地页的语义特征充当节点、第一对应关系和第二对应关系充当节点之间的边的原始无向无权图;
步骤304:基于随机游走算法对原始无向无权图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图;
步骤303则是以构建无向无权图的方式,构建由查询词、相关词、落地页的语义特征充当节点、第一对应关系和第二对应关系充当节点之间的边的原始无向无权图。对应的,步骤304则同时是在使用无向无权图的基础上,对原始无向无权图进行更新,以最终得到更新后的、能够更加准确呈现节点之间关联关系(或称相关性)的目标节点关联图。
步骤305:利用预设的图神经网络处理目标节点关联图,得到目标落地页特征。
区别于上一实施例,本实施例通过步骤301-步骤302对步骤201提供了一种具体的实现方式,即通过充分借助隐藏在关联搜索行为别后的查询词、相关词、落地页之间的关联关系,来尽可能的提升提取出的对应关系的准确性。另外,本实施例通过步骤303-步骤304对步骤202-步骤203提供的一种具体的实现方式,即以无向无权图的图结构来具体生成节点关联图,即该节点关联图中的各节点的边并没有指向性、且各条边也没有权重。
请参考图4,图4为本公开实施例提供的落地页特征生成方法中一种生成目标节点关联图的方法的流程图,即针对图2所示的流程200中的步骤203提供了一种具体的实现方式,流程200中的其它步骤并不做调整,也将本实施例所提供的具体实现方式以替换步骤203的方式得到一个新的完整实施例。其中流程400包括以下步骤:
步骤401:初始化原始节点关联图中各节点间的相关性,得到原始相关性数值;
步骤402:基于随机游走算法迭代更新原始相关性数值,得到更新后相关性数值;
步骤403:将与更新后相关性数值对应的节点关联图,确定为目标节点关联图。
为挖掘与落地页(1p)相关联的节点,本实施例通过随机游走的方式衡量图中各节点的相似度。对于任意一个节点,按照以下方式进行随机游走,直到各节点的相关性值不再变化为止:
Figure BDA0003681584680000091
即先初始化一个各个节点与目标节点的相关性,然后迭代优化这个相关性,公式中:si就是节点i与目标节点之间相关性的更新后的值,si(t+1)则是si在(t+1)次更新后的值,j是节点i的入度(即in(i))集合,即邻居节点,1/|out(j)|为1/j的出度节点数量更新方式就是看:1)节点i的邻居节点集合与目标节点之间的相关性,也就是公式中的si;2)邻居节点j走到i的概率,这个概率就是:1/j的邻居数量,在公式中为1/|out(j)|。
根据随机游走迭代收敛后每个节点的相关性采样K个节点作为邻域节点,全图中随机采样节点作为负样本。
本实施例针对如何采用随机游走算法对原始节点管理图进行邻域采样的过程,提供了一种具体的实现方式。
请参考图5,图5为本公开实施例提供的落地页特征生成方法中一种生成目标落地页特征的方法的流程图,即针对图2所示的流程200中的步骤204提供了一种具体的实现方式,流程200中的其它步骤并不做调整,也将本实施例所提供的具体实现方式以替换步骤204的方式得到一个新的完整实施例。其中流程500包括以下步骤:
步骤501:利用图神经网络对邻域进行信息融合,并将经信息融合后的邻域特征与中心节点的特征进行拼接,得到拼接后中心节点特征;
步骤502:利用图神经网络对拼接后中心节点特征进行非线性变换,得到更新后中心节点特征;
步骤503:将落地页节点作为中心节点的更新后中心节点特征,输出为目标落地页特征。
具体的,本实施例通过ERNIESage图神经网络模型,利用采样获得的子图进行训练。ERNIESage结合了ERNIE(一种语义分析模型)和GraphSAGE(是一种包含采样和聚合功能的图神经网络,Sample and aggregate)的优点,既构建了图的结构信息,又获取了节点的文本信息。其核心思想是在GraphSAGE的基础上,利用ERNIE作为聚合函数,对邻居节点进行聚合。
即将ERNIE作用在节点之间的边上,即1)通过ERNIE提取节点文本特征;2)将中心节点与邻域节点特征进行拼接,并通过ERNIE获得中心节点与邻域节点的交互特征;3)利用ERNIE对邻域进行信息融合;4)融合后的邻域特征与中心节点特征进行拼接,经过非线性变换更新中心节点特征。
为了更好的理解本实施例,此处还通过图6为图5实施例方案提供一种图神经网络处理数据的流程示意图。
根据临近的节点的拥有相似的表示,反之应该表示大不相同的思想设计损失函数进行无监督的迭代学习,直到网络收敛,可得到每个节点的表征。
即本实施例具体采用了ERNIESage这种图神经网络模型,以期借助该图神经网络的邻域融合能力来通过邻域信息融合得到更准确的目标落地页特征。
上述各实施例从各个方面阐述了如何生成得到更好的目标落地页特征,为了尽可能的从实际使用场景突出因使用目标落地页特征所起到的效果,本公开还具体提供了一种使用备选落地页的目标落地页特征来提供落地页匹配的方案,请参见图7所示的一种落地页搜索方法的流程图,流程700包括:
步骤701:确定用于查询落地页的实际查询词的语义特征;
步骤702:将拥有匹配于查询词语义特征的目标落地页特征的落地页,作为搜索结果返回。
即本实施例通过在接收用户传入的用于查询落地页的实际查询词时,将其转换为语义特征,并将拥有匹配于查询词语义特征的目标落地页特征的落地页,作为搜索结果返回。
除用于落地页搜索之外,基于上述实施例提供的落地页特征,还可以灵活应用于各种场景下游任务,比如单独使用进行多路召回;将该向量直接结合在已有特征进行更精准预测;与现有任务进行协同训练提高表征质量等。
进一步参考图8-9,作为对上述各图所示方法的实现,本公开还提供了一种落地页特征生成装置的实施例和一种落地页搜索装置的实施例,落地页特征生成装置的实施例与图2所示的落地页特征生成方法的实施例相对应,落地页搜索装置的实施例与图7所示的落地页搜索方法的实施例相对应。落地页特征生成装置和落地页搜索装置均具体可以应用于各种电子设备中。
如图8所示,本实施例的落地页特征生成装置800可以包括:对应关系提取单元801、原始节点关联图构建单元802、目标节点关联图生成单元803、目标落地页特征生成单元804。其中,对应关系提取单元801,被配置成从用户的搜索会话中提取出会话内不同查询词之间的第一对应关系,以及查询词、相关词、落地页三者中任意两者之间的第二对应关系;原始节点关联图构建单元802,被配置成构建由查询词、相关词、落地页的语义特征充当节点、第一对应关系和第二对应关系充当节点之间的边的原始节点关联图;目标节点关联图生成单元803,被配置成基于随机游走算法对原始节点关联图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图;目标落地页特征生成单元804,被配置成利用预设的图神经网络处理目标节点关联图,得到目标落地页特征。
在本实施例中,落地页特征生成装置800中:对应关系提取单元801、原始节点关联图构建单元802、目标节点关联图生成单元803、目标落地页特征生成单元804的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,对应关系提取单元801可以被进一步配置成:
将用户的搜索会话中相邻输入的两个不同查询词之间的关系,确定为第一对应关系;
将用户的搜索会话中分别提取出查询词与相关词之间的关系、查询词与落地页之间的关系、相关词与落地页之间的关系,得到第二对应关系。
在本实施例的一些可选的实现方式中,原始节点关联图构建单元802可以被进一步配置成:
以构建无向无权图的方式,构建由查询词、相关词、落地页的语义特征充当节点、第一对应关系和第二对应关系充当节点之间的边的原始无向无权图;
对应的,目标节点关联图生成单元803可以被进一步配置成:
基于随机游走算法对原始无向无权图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图。
在本实施例的一些可选的实现方式中,目标节点关联图生成单元803可以被进一步配置成:
初始化原始节点关联图中各节点间的相关性,得到原始相关性数值;
基于随机游走算法迭代更新原始相关性数值,得到更新后相关性数值;
将与更新后相关性数值对应的节点关联图,确定为目标节点关联图。
在本实施例的一些可选的实现方式中,目标落地页特征生成单元804可以被进一步配置成:
利用图神经网络对邻域进行信息融合,并将经信息融合后的邻域特征与中心节点的特征进行拼接,得到拼接后中心节点特征;
利用图神经网络对拼接后中心节点特征进行非线性变换,得到更新后中心节点特征;
将落地页节点作为中心节点的更新后中心节点特征,输出为目标落地页特征。
本实施例提供的落地页特征生成装置,从体现更全面搜索行为的搜索会话中提取出查询词、相关词、落地页之间的更全面的对应关系,同时在图论提供的图形化思想的基础上结合随机游走算法,以邻域采样的方式更准确的确定节点之间的关联关系,使得最终可通过图神经网络输出更准确的落地页特征。该方案具备较强的通用落地页表征能力,根据搜索历史数据挖掘出落地页蕴含的更深度,更广度的信息,使落地页特征在语义特征的基础上具有知识推理和认知关联的能力。
如图9所示,本实施例的落地页搜索装置900可以包括:语义特征提取单元901、搜索结果返回单元902。其中,语义特征提取单元901,被配置成确定用于查询落地页的实际查询词的语义特征;搜索结果返回单元902,被配置成将拥有匹配于所述查询词语义特征的目标落地页特征的落地页,作为搜索结果返回。
本实施例提供的落地页搜索装置,
根据本公开的实施例,本公开还提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现上述任意实施例所描述的落地页特征生成方法。
根据本公开的实施例,本公开还提供了一种可读存储介质,该可读存储介质存储有计算机指令,该计算机指令用于使计算机执行时能够实现上述任意实施例所描述的落地页特征生成方法。
根据本公开的实施例,本公开还提供了一种计算机程序产品,该计算机程序在被处理器执行时能够实现上述任意实施例所描述的落地页特征生成方法。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如落地页特征生成方法。例如,在一些实施例中,落地页特征生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的落地页特征生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行落地页特征生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大,业务扩展性弱的缺陷。
根据本公开实施例的技术方案,从体现更全面搜索行为的搜索会话中提取出查询词、相关词、落地页之间的更全面的对应关系,同时在图论提供的图形化思想的基础上结合随机游走算法,以邻域采样的方式更准确的确定节点之间的关联关系,使得最终可通过图神经网络输出更准确的落地页特征。该方案具备较强的通用落地页表征能力,根据搜索历史数据挖掘出落地页蕴含的更深度,更广度的信息,使落地页特征在语义特征的基础上具有知识推理和认知关联的能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种落地页特征生成方法,包括:
从用户的搜索会话中提取出会话内不同查询词之间的第一对应关系,以及查询词、相关词、落地页三者中任意两者之间的第二对应关系;
构建由所述查询词、所述相关词、所述落地页的语义特征充当节点、所述第一对应关系和所述第二对应关系充当节点之间的边的原始节点关联图;
基于随机游走算法对所述原始节点关联图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图;
利用预设的图神经网络处理所述目标节点关联图,得到目标落地页特征。
2.根据权利要求1所述的方法,其中,所述从用户的搜索会话中提取出会话内不同查询词之间的第一对应关系,以及查询词、相关词、落地页三者中任意两者之间的第二对应关系,包括:
将用户的搜索会话中相邻输入的两个不同查询词之间的关系,确定为所述第一对应关系;
将用户的搜索会话中分别提取出查询词与相关词之间的关系、查询词与落地页之间的关系、相关词与落地页之间的关系,得到所述第二对应关系。
3.根据权利要求1所述的方法,其中,所述构建由所述查询词、所述相关词、所述落地页的语义特征充当节点、所述第一对应关系和所述第二对应关系充当节点之间的边的原始节点关联图,包括:
以构建无向无权图的方式,构建由所述查询词、所述相关词、所述落地页的语义特征充当节点、所述第一对应关系和所述第二对应关系充当节点之间的边的原始无向无权图;
对应的,所述基于随机游走算法对所述原始节点关联图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图,包括:
基于随机游走算法对所述原始无向无权图进行节点邻域采样,并通过对采样结果进行迭代更新得到所述目标节点关联图。
4.根据权利要求1所述的方法,其中,所述基于随机游走算法对所述原始节点关联图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图,包括:
初始化所述原始节点关联图中各节点间的相关性,得到原始相关性数值;
基于随机游走算法迭代更新所述原始相关性数值,得到更新后相关性数值;
将与所述更新后相关性数值对应的节点关联图,确定为所述目标节点关联图。
5.根据权利要求1-4任一项所述的方法,其中,所述利用预设的图神经网络处理所述目标节点关联图,得到目标落地页特征,包括:
利用所述图神经网络对邻域进行信息融合,并将经信息融合后的邻域特征与所述中心节点的特征进行拼接,得到拼接后中心节点特征;
利用所述图神经网络对所述拼接后中心节点特征进行非线性变换,得到更新后中心节点特征;
将落地页节点作为中心节点的更新后中心节点特征,输出为所述目标落地页特征。
6.一种落地页搜索方法,包括:
确定用于查询落地页的实际查询词的语义特征;
将拥有匹配于所述查询词语义特征的目标落地页特征的落地页,作为搜索结果返回;其中,所述目标落地页特征根据权利要求1-5任一项所述的落地页特征生成方法得到。
7.一种落地页特征生成装置,包括:
对应关系提取单元,被配置成从用户的搜索会话中提取出会话内不同查询词之间的第一对应关系,以及查询词、相关词、落地页三者中任意两者之间的第二对应关系;
原始节点关联图构建单元,被配置成构建由所述查询词、所述相关词、所述落地页的语义特征充当节点、所述第一对应关系和所述第二对应关系充当节点之间的边的原始节点关联图;
目标节点关联图生成单元,被配置成基于随机游走算法对所述原始节点关联图进行节点邻域采样,并通过对采样结果进行迭代更新得到目标节点关联图;
目标落地页特征生成单元,被配置成利用预设的图神经网络处理所述目标节点关联图,得到目标落地页特征。
8.根据权利要求7所述的装置,其中,所述对应关系提取单元被进一步配置成:
将用户的搜索会话中相邻输入的两个不同查询词之间的关系,确定为所述第一对应关系;
将用户的搜索会话中分别提取出查询词与相关词之间的关系、查询词与落地页之间的关系、相关词与落地页之间的关系,得到所述第二对应关系。
9.根据权利要求7所述的装置,其中,所述原始节点关联图构建单元被进一步配置成:
以构建无向无权图的方式,构建由所述查询词、所述相关词、所述落地页的语义特征充当节点、所述第一对应关系和所述第二对应关系充当节点之间的边的原始无向无权图;
对应的,所述目标节点关联图生成单元被进一步配置成:
基于随机游走算法对所述原始无向无权图进行节点邻域采样,并通过对采样结果进行迭代更新得到所述目标节点关联图。
10.根据权利要求7所述的装置,其中,所述目标节点关联图生成单元被进一步配置成:
初始化所述原始节点关联图中各节点间的相关性,得到原始相关性数值;
基于随机游走算法迭代更新所述原始相关性数值,得到更新后相关性数值;
将与所述更新后相关性数值对应的节点关联图,确定为所述目标节点关联图。
11.根据权利要求7-10任一项所述的装置,其中,所述目标落地页特征生成单元被进一步配置成:
利用所述图神经网络对邻域进行信息融合,并将经信息融合后的邻域特征与所述中心节点的特征进行拼接,得到拼接后中心节点特征;
利用所述图神经网络对所述拼接后中心节点特征进行非线性变换,得到更新后中心节点特征;
将落地页节点作为中心节点的更新后中心节点特征,输出为所述目标落地页特征。
12.一种落地页搜索装置,包括:
语义特征提取单元,被配置成确定用于查询落地页的实际查询词的语义特征;
搜索结果返回单元,被配置成将拥有匹配于所述查询词语义特征的目标落地页特征的落地页,作为搜索结果返回;其中,所述目标落地页特征根据权利要求7-11任一项所述的落地页特征生成装置得到。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的落地页特征生成方法和/或权利要求7所述的落地页搜索方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的落地页特征生成方法和/或权利要求7所述的落地页搜索方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-6中任一项所述落地页特征生成方法和/或权利要求7所述的落地页搜索方法的步骤。
CN202210638768.6A 2022-06-07 2022-06-07 落地页特征生成方法、落地页搜索方法及相关装置 Pending CN114926223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210638768.6A CN114926223A (zh) 2022-06-07 2022-06-07 落地页特征生成方法、落地页搜索方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210638768.6A CN114926223A (zh) 2022-06-07 2022-06-07 落地页特征生成方法、落地页搜索方法及相关装置

Publications (1)

Publication Number Publication Date
CN114926223A true CN114926223A (zh) 2022-08-19

Family

ID=82812736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210638768.6A Pending CN114926223A (zh) 2022-06-07 2022-06-07 落地页特征生成方法、落地页搜索方法及相关装置

Country Status (1)

Country Link
CN (1) CN114926223A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699841A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 提供搜索结果的列表摘要信息的方法和装置
CN109033343A (zh) * 2018-07-24 2018-12-18 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111708876A (zh) * 2020-06-16 2020-09-25 北京百度网讯科技有限公司 生成信息的方法和装置
CN112650907A (zh) * 2020-12-25 2021-04-13 百度在线网络技术(北京)有限公司 搜索词的推荐方法、目标模型的训练方法、装置及设备
CN113792153A (zh) * 2021-08-25 2021-12-14 北京百度网讯科技有限公司 问答推荐方法及其装置
CN114428902A (zh) * 2021-12-31 2022-05-03 北京百度网讯科技有限公司 信息搜索方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699841A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 提供搜索结果的列表摘要信息的方法和装置
CN109033343A (zh) * 2018-07-24 2018-12-18 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111708876A (zh) * 2020-06-16 2020-09-25 北京百度网讯科技有限公司 生成信息的方法和装置
CN112650907A (zh) * 2020-12-25 2021-04-13 百度在线网络技术(北京)有限公司 搜索词的推荐方法、目标模型的训练方法、装置及设备
CN113792153A (zh) * 2021-08-25 2021-12-14 北京百度网讯科技有限公司 问答推荐方法及其装置
CN114428902A (zh) * 2021-12-31 2022-05-03 北京百度网讯科技有限公司 信息搜索方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FRONZY: "回顾一下暑期在Future camp学习的推荐算法(二)——基于图的随机游走算法", 《HTTPS://BLOG.CSDN.NET/ZHANGYUGEBB/ARTICLE/DETAILS/84798718》 *

Similar Documents

Publication Publication Date Title
CN112487173A (zh) 人机对话方法、设备和存储介质
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN115688920B (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
EP4134900A2 (en) Method and apparatus for recommending content, method and apparatus for training ranking model, device, and storage medium
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
US20230008897A1 (en) Information search method and device, electronic device, and storage medium
CN114329244A (zh) 地图兴趣点查询方法、装置、设备、存储介质及程序产品
CN115114439B (zh) 多任务模型推理、多任务信息处理的方法和装置
CN112380104A (zh) 用户属性识别方法、装置、电子设备及存储介质
US20220269952A1 (en) Method of training prediction model, prediction method, electronic device and medium
US20220198358A1 (en) Method for generating user interest profile, electronic device and storage medium
CN114357197B (zh) 事件推理方法和装置
CN114969332A (zh) 训练文本审核模型的方法和装置
CN114782722A (zh) 图文相似度的确定方法、装置及电子设备
EP3869382A2 (en) Method and device for determining answer of question, storage medium and computer program product
CN112989170A (zh) 应用于信息搜索的关键词匹配方法、信息搜索方法及装置
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
JP2023012541A (ja) テーブルに基づく質問応答方法、装置及び電子機器
CN112784600B (zh) 信息排序方法、装置、电子设备和存储介质
CN112948584B (zh) 短文本分类方法、装置、设备以及存储介质
CN114926223A (zh) 落地页特征生成方法、落地页搜索方法及相关装置
CN114219694A (zh) 目标全连接子图的采样方法、装置及电子设备
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
US20220374603A1 (en) Method of determining location information, electronic device, and storage medium
CN113033196B (zh) 分词方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination