CN114547421A - 一种搜索处理方法、装置、电子设备及存储介质 - Google Patents
一种搜索处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114547421A CN114547421A CN202111602698.0A CN202111602698A CN114547421A CN 114547421 A CN114547421 A CN 114547421A CN 202111602698 A CN202111602698 A CN 202111602698A CN 114547421 A CN114547421 A CN 114547421A
- Authority
- CN
- China
- Prior art keywords
- search
- word
- term
- target
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000003860 storage Methods 0.000 title abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 13
- 230000006399 behavior Effects 0.000 abstract description 27
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种搜索处理方法、装置、电子设备及存储介质,包括:获取多个搜索词及每个搜索词的搜索时间;根据搜索词的搜索时间及特征信息,将搜索词对应的搜索操作划分至多个意图切片;检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作,根据目标搜索操作的数量及目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长。这样,采取意图切片的方式去界定用户意图相同的一段连续行为,对于用户行为的理解更加贴近实际,可以提高搜索处理结果的准确度,满足较为复杂的搜索场景。
Description
技术领域
本公开涉及数据搜索领域,尤其涉及一种搜索处理方法、装置、电子设备及存储介质。
背景技术
在网站的搜索业务里,用户的核心诉求往往是“以最快的速度搜索到结果”,因此,网站需要对用户的搜索效率进行统计,对于当前效率低的搜索场景进行归因,并进一步去拆解效率低的问题以优化网站的搜索效率。
现有技术中,通常根据综合页第一位置搜索结果有点比及特定内容垂直搜索页的首次点击位置来确定搜索效率,其中,综合页第一位置搜索结果有点比是指在综合页曝光至少一个搜索结果的情况下,有多大的概率会在第一个位置的搜索结果上发生点击,特定内容垂直搜索页的首次点击位置是指在特定内容垂直搜索页上,平均发生用户结果点击的位置。
但是,上述确定搜索效率的方式视角较为孤立,仅考虑单次搜索的效率,而在一些情况下,如果用户第一次搜索没有得到满意的搜索结果,直到第二次换了一个意图相近的搜索词找到了满意的搜索结果,这实际上是一种较为负向的体验,但是在当前的衡量体系下是无法反映出来的。因此,目前的搜索处理方法得到的搜索处理结果准确度有限,难以满足较为复杂的搜索场景。
发明内容
本公开提供一种搜索处理方法、装置、电子设备及存储介质,以至少解决相关技术中搜索处理结果准确度有限,难以满足较为复杂的搜索场景的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种搜索处理方法,包括:
获取多个搜索词及每个搜索词的搜索时间;
根据所述搜索词的搜索时间及特征信息,将所述搜索词对应的搜索操作划分至多个意图切片;
检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作,根据所述目标搜索操作的数量及所述目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长。
可选的,所述根据所述搜索词的搜索时间及特征信息,将所述搜索词对应的搜索操作划分至多个意图切片,包括:
针对每个搜索词,计算当前搜索词的搜索时间与上一个搜索词的搜索时间之间的差值;
根据所述当前搜索词的特征信息及所述差值,判断所述当前搜索词与所述当前搜索词的上一个搜索词是否满足匹配条件;
若满足,将所述当前搜索词对应的搜索操作添加至所述当前搜索词的上一个搜索词对应的搜索操作所属的意图切片。
可选的,所述根据所述当前搜索词的特征信息及所述差值,判断所述当前搜索词与所述当前搜索词的上一个搜索词是否满足匹配条件,包括:
将所述当前搜索词的特征信息及所述差值输入至预先训练得到的意图切片分类模型中进行处理,根据分类结果判断所述当前搜索词与所述当前搜索词的上一个搜索词是否满足匹配条件。
可选的,所述当前搜索词的特征信息,包括以下至少一项:
所述当前搜索词的核密度估计值;
所述当前搜索词与所述当前搜索词的上一个搜索词之间的余弦相似度;
所述当前搜索词与所述当前搜索词的下一个搜索词之间的余弦相似度;
所述上一个搜索词与所述下一个搜索词之间的最大序列长度与所述上一个搜索词的序列长度之比;
所述上一个搜索词与所述下一个搜索词之间的最大序列长度与当前搜索词的序列长度之比。
可选的,所述预设操作信息包括以下至少一项:
新增关注操作;
对已关注用户的点击操作;
对任一用户的信息浏览操作。
可选的,所述根据所述目标搜索操作的数量及所述目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长,包括:
获取在每个所属的意图切片中搜索到所述目标搜索操作所需的搜索次数,将所述搜索次数的总和作为第一数量;
将包括所述目标搜索操作的意图切片的数量确定为第二数量;
将所述第一数量与所述第二数量之比作为搜索步长。
可选的,在所述根据所述目标搜索操作的数量及所述目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长之后,所述方法还包括:
根据所述目标搜索操作所属意图切片包括的搜索操作的搜索结果,计算搜索调整参数;
根据所述搜索调整参数,对所述目标搜索操作进行归因分析,得到归因分析结果。
可选的,所述搜索调整参数包括以下一项或多项:
所述目标搜索操作的搜索结果页面中包括搜索类型切换操作信息的概率;
所述目标搜索操作与所述目标搜索操作的上一次搜索操作的搜索词不同的概率。
根据本公开实施例的第二方面,提供一种搜索处理装置,包括:
获取单元,被配置为执行获取多个搜索词及每个搜索词的搜索时间;
分组单元,被配置为执行根据所述搜索词的搜索时间及特征信息,将所述搜索词对应的搜索操作划分至多个意图切片;
确定单元,被配置为执行检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作,根据所述目标搜索操作的数量及所述目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长。
可选的,所述分组单元,具体被配置为执行:
针对每个搜索词,计算当前搜索词的搜索时间与上一个搜索词的搜索时间之间的差值;
根据所述当前搜索词的特征信息及所述差值,判断所述当前搜索词与所述当前搜索词的上一个搜索词是否满足匹配条件;
若满足,将所述当前搜索词对应的搜索操作添加至所述当前搜索词的上一个搜索词对应的搜索操作所属的意图切片。
可选的,所述分组单元,具体被配置为执行:
将所述当前搜索词的特征信息及所述差值输入至预先训练得到的意图切片分类模型中进行处理,根据分类结果判断所述当前搜索词与所述当前搜索词的上一个搜索词是否满足匹配条件。
可选的,所述当前搜索词的特征信息,包括以下至少一项:
所述当前搜索词的核密度估计值;
所述当前搜索词与所述当前搜索词的上一个搜索词之间的余弦相似度;
所述当前搜索词与所述当前搜索词的下一个搜索词之间的余弦相似度;
所述上一个搜索词与所述下一个搜索词之间的最大序列长度与所述上一个搜索词的序列长度之比;
所述上一个搜索词与所述下一个搜索词之间的最大序列长度与当前搜索词的序列长度之比。
可选的,所述预设操作信息包括以下一项或多项:
新增关注操作;
对已关注用户的点击操作;
对任一用户的信息浏览操作。
可选的,所述确定单元,被配置为执行:
获取在每个所属的意图切片中搜索到所述目标搜索操作所需的搜索次数,将所述搜索次数的总和作为第一数量;
将包括所述目标搜索操作的意图切片的数量确定为第二数量;
将所述第一数量与所述第二数量之比作为搜索步长。
可选的,所述确定单元,还被配置为执行:
根据所述目标搜索操作所属意图切片包括的搜索操作的搜索结果,计算搜索调整参数;
根据所述搜索调整参数,对所述目标搜索操作进行归因分析,得到归因分析结果。
可选的,所述搜索调整参数包括以下一项或多项:
所述目标搜索操作的搜索结果页面中包括搜索类型切换操作信息的概率;
所述目标搜索操作与所述目标搜索操作的上一次搜索操作的搜索词不同的概率。
根据本公开实施例的第三方面,提供一种搜索处理电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述第一项所述的搜索处理方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由搜索处理电子设备的处理器执行时,使得搜索处理电子设备能够执行上述任一项所述的搜索处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述第一项所述的搜索处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
获取多个搜索词及每个搜索词的搜索时间;根据搜索词的搜索时间及特征信息,将搜索词对应的搜索操作划分至多个意图切片;检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作,根据目标搜索操作的数量及目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长。
这样,可以联系每次搜索时的搜索词,考虑多次搜索场景下相似搜索词所代表的用户意图,即用户行为往往是连续的,前一次搜索的体验很可能是下一次搜索的原因,换句话说,如果用户第一次搜索没有得到满意的搜索结果,如果第二次换了一个意图相近的搜索词找到了满意的搜索结果,那么,这两次搜索属于同一意图切片,因此,采取意图切片的方式去界定用户意图相同的一段连续行为,对于用户行为的理解更加贴近实际,可以提高搜索处理结果的准确度,满足较为复杂的搜索场景。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种搜索处理方法的流程图。
图2是根据一示例性实施例示出的另一种搜索处理方法的流程图。
图3是根据一示例性实施例示出的一种训练意图切片分类模型的逻辑示意图。
图4是根据一示例性实施例示出的一种不同找人步长的意图切片分布示意图。
图5是根据一示例性实施例示出的一种用户对搜索结果满意的几种操作示意图。
图6是根据一示例性实施例示出的一种搜索效率归因示意图。
图7是根据一示例性实施例示出的一种搜索处理装置的框图。
图8是根据一示例性实施例示出的一种用于搜索处理的电子设备的框图。
图9是根据一示例性实施例示出的一种用于搜索处理的装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种搜索处理方法的流程图,如图1所示,该搜索处理方法包括以下步骤。
在步骤S11中,获取多个搜索词及每个搜索词的搜索时间。
通常进行的搜索过程为,获取用户输入的搜索词,在数据库中执行对搜索词的搜索操作,即检索与搜索词相匹配的数据作为搜索结果,并生成对应的搜索结果页面,展示给用户。在本公开中,可以对每次搜索的搜索词和搜索时间进行记录,得到用于进行意图切片的数据源,从而实现后续对搜索操作的意图切片分组。在步骤S12中,根据搜索词的搜索时间及特征信息,将搜索词对应的搜索操作划分至多个意图切片。
其中,意图切片是指一段时间内,同一个意图的多次搜索的组合,换句话说,如果连续几次搜索词包括相同或相似的内容,那么,可以将这些搜索词对应的搜索操作划分至同一个意图切片。这样,在后续计算几次搜索的效率时,以意图切片为分组进行统计,相同或相似的搜索可以综合进行评判,从而对搜索效率有更准确的评价。
在本步骤中,将搜索词对应的搜索操作划分至多个意图切片,具体可以包括如下步骤:针对每个搜索词,计算当前搜索词的搜索时间与上一个搜索词的搜索时间之间的差值;根据当前搜索词的特征信息及差值,判断当前搜索词与当前搜索词的上一个搜索词是否满足匹配条件;若满足,将当前搜索词对应的搜索操作添加至当前搜索词的上一个搜索词对应的搜索操作所属的意图切片。
也就是说,根据当前搜索词与时间间隔不远的上一个搜索词之间是否满足匹配条件,判断当前搜索词是否可以与上一个搜索词划分至同一个意图切片,可以理解,时间间隔比较长的两次搜索操作,可能是由于上一次搜索操作的意外中断等原因导致的,将其与当前搜索词对应的操作划分为同一个意图切片进行后续的搜索效率分析是不合理的。
举例而言,当前搜索词的特征信息,可以包括以下一项或多项:当前搜索词的核密度估计值;当前搜索词与上一个搜索词之间的余弦相似度;当前搜索词与下一个搜索词之间的余弦相似度;上一个搜索词与下一个搜索词之间的最大序列长度与上一个搜索词的序列长度之比;计算上一个搜索词与下一个搜索词之间的最大序列长度与该搜索词的序列长度之比;等等。这些特征信息都有助于判断当前搜索词与上一个以及下一个搜索词之间的关联性,进而能够实现对搜索操作的意图的划分,得到准确的意图切片分组结果。
其中,当前搜索词与上一个搜索词之间的余弦相似度,以及当前搜索词与下一个搜索词之间的余弦相似度均为文本余弦相似度,也就是两个搜索词之间的距离,在计算时,可以先把搜索词转化成embedding(嵌入层)向量,再进一步计算两个搜索词的embedding向量之间的余弦距离。
在步骤S13中,检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作,根据目标搜索操作的数量及目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长。
在本步骤中,如果搜索结果页面中的操作信息中包括预设操作信息,那么,可以认为本次搜索操作的搜索结果中包括符合用户需求的结果,那么,根据每个意图切片中目标搜索操作的搜索次序,就可以确定经过多少次搜索之后用户得到了满意的搜索结果,进而可以确定搜索步长,搜索步长可以用于衡量搜索的效率。
举例而言,预设操作信息可以包括以下一项或多项:新增关注操作、对已关注用户的点击操作以及对任一用户的信息浏览操作,等等。不同的预设操作信息可以对应于不同的用户搜索需求,比如,新增关注操作可以满足用户的交友需要,对已关注用户的点击操作可以满足用户查找先前关注过的人的需求,对任一用户的信息浏览操作可以满足用户的消费特定人作品的需求,等等,也可以根据用户需求确定其他的预设操作信息,具体不做限定。
一种实现方式中,确定搜索步长的步骤,具体可以包括:获取在每个所属的意图切片中搜索到目标搜索操作所需的搜索次数,将搜索次数的总和作为第一数量;将包括目标搜索操作的意图切片的数量确定为第二数量;将第一数量与第二数量之比作为搜索步长。可以理解,搜索步长可以表达实现搜索结果满足用户需求的目标需要搜索几次,反映了用户得到满足需求的搜索结果的代价,是一个需要缩减的负向指标。
在本公开中,使用搜索步长衡量搜索效率,一方面,方向性更好,比如,若切换用户垂搜或换搜索词重新搜索,则认为是综合页没有满足好用户的搜索需求,是一个负向的体验,搜索步长也会增加,但原有指标无法反映这一负向体验,另一方面,灵敏性更好,比如,相比在各页面靠后位置满足搜索需求,认为在各页面没有满足的情况更能反映用户的不满意,故搜索步长指标相比原指标的灵敏性更好。
由以上可见,在本方案中,可以联系每次搜索时的搜索词,考虑多次搜索场景下相似搜索词所代表的用户意图,即用户行为往往是连续的,前一次搜索的体验很可能是下一次搜索的原因,换句话说,如果用户第一次搜索没有得到满意的搜索结果,如果第二次换了一个意图相近的搜索词找到了满意的搜索结果,那么,这两次搜索属于同一意图切片,因此,采取意图切片的方式去界定用户意图相同的一段连续行为,对于用户行为的理解更加贴近实际,可以提高搜索处理结果的准确度,满足较为复杂的搜索场景。
图2是根据一示例性实施例示出的另一种搜索处理方法的流程图,如图2所示,该搜索处理方法包括以下步骤。
在步骤S21中,获取多个搜索词及每个搜索词的搜索时间。
本步骤与上述实施例中步骤S11一致,这里不再赘述。
在步骤S22中,针对每个搜索词,计算当前搜索词的搜索时间与上一个搜索词的搜索时间之间的差值。
意图切片是指一段时间内,同一个意图的多次搜索的组合,在本步骤中,需要计算当前搜索词的搜索时间与上一个搜索词的搜索时间之间的差值,进而判断当前搜索词是否可以与上一个搜索词划分至同一个意图切片。可以理解,时间间隔比较长的两次搜索操作,可能是由于上一次搜索操作的意外中断等原因导致的,将其与当前搜索词对应的操作划分为同一个意图切片进行后续的搜索效率分析是不合理的。
在步骤S23中,根据当前搜索词的特征信息及差值,判断当前搜索词与当前搜索词的上一个搜索词是否满足匹配条件;若满足,执行步骤S24。
其中,根据当前搜索词的特征信息及差值,判断当前搜索词与当前搜索词的上一个搜索词是否满足匹配条件,具体可以包括:将当前搜索词的特征信息及差值输入至预先训练得到的意图切片分类模型中进行处理,根据分类结果判断当前搜索词与当前搜索词的上一个搜索词是否满足匹配条件。
预先训练得到的意图切片分类模型可以是GBDT(Gradient Boosting DecisionTree,梯度提升决策树)模型,也可以是XGBoost(Extreme Gradient Boosting,极端梯度增压)模型,或者任一种自然语言处理中常用的技术序列标注模型,如BILSTM(Bi-directional Long Short-Term Memory,双向长短期记忆)串联CRF(conditional randomfield algorithm,条件随机场)模型,等等,具体不作限定。
利用预先训练得到的意图切片分类模型,根据搜索词的特征信息及与上一个搜索词的搜索时间的差值,进行意图切片的划分,相比于简单依赖搜索词之间的相似度的划分方式,更符合对搜索意图的识别,划分结果更准确。
举例而言,当前搜索词的特征信息,可以包括以下一项或多项:当前搜索词的核密度估计值;当前搜索词与上一个搜索词之间的余弦相似度;当前搜索词与下一个搜索词之间的余弦相似度;上一个搜索词与下一个搜索词之间的最大序列长度与上一个搜索词的序列长度之比;计算上一个搜索词与下一个搜索词之间的最大序列长度与该搜索词的序列长度之比;等等。
在步骤S24中,将当前搜索词对应的搜索操作添加至当前搜索词的上一个搜索词对应的搜索操作所属的意图切片。
也就是说,如果连续几次搜索词包括相同或相似的内容,那么,可以将这些搜索词对应的搜索操作划分至同一个意图切片。这样,在后续计算几次搜索的效率时,以意图切片为分组进行统计,相同或相似的搜索可以综合进行评判,从而对搜索效率有更准确的评价。
在步骤S25中,检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作。
如果搜索结果页面中的操作信息中包括预设操作信息,那么,可以认为本次搜索操作的搜索结果中包括符合用户需求的结果,那么,根据每个意图切片中目标搜索操作的搜索次序,就可以确定经过多少次搜索之后用户得到了满意的搜索结果,进而可以确定搜索步长,搜索步长可以用于衡量搜索的效率。举例而言,预设操作信息可以包括以下一项或多项:新增关注操作、对已关注用户的点击操作以及对任一用户的信息浏览操作,等等。
在步骤S26中,获取在每个所属的意图切片中搜索到目标搜索操作所需的搜索次数,将搜索次数的总和作为第一数量;将包括目标搜索操作的意图切片的数量确定为第二数量;将第一数量与第二数量之比作为搜索步长。
本步骤可以表示为:
搜索步长=sum(每个意图切片中搜索到目标搜索操作所需的搜索次数)/括目标搜索操作的意图切片数
可以理解,搜索步长可以表达实现搜索结果满足用户需求的目标需要搜索几次,反映了用户得到满足需求的搜索结果的代价,是一个需要缩减的负向指标。
在步骤S27中,根据目标搜索操作所属意图切片包括的搜索操作的搜索结果,计算搜索调整参数;根据搜索调整参数,对目标搜索操作进行归因分析,得到归因分析结果。
也就是说,可以根据搜索调整参数进一步对每次搜索的效果进行归因,根据归因分析结果,可以快速确定需要解决的问题,从而有利于开发者确定搜索算法的改进方向,进一步提高后续的搜索效率。其中,搜索调整参数可以包括以下一项或多项:目标搜索操作的搜索结果页面中包括搜索类型切换操作信息的概率;目标搜索操作与目标搜索操作的上一次搜索操作的搜索词不同的概率。
不同的搜索调整参数可以体现搜索结果的不同的问题,比如,如果目标搜索操作的搜索结果页面中包括搜索类型切换操作信息的概率比较高,那么,说明对于同一搜索词,不同的搜索类型对应的搜索结果差异较大,且切换后的搜索类型得到的搜索结果更符合用户需求,需要对切换前的搜索类型的搜索方式进行改进,等等,搜索调整参数可以根据不同的业务需求进行设定,具体不做限定。
由以上可见,在本方案中,可以联系每次搜索时的搜索词,考虑多次搜索场景下相似搜索词所代表的用户意图,即用户行为往往是连续的,前一次搜索的体验很可能是下一次搜索的原因,换句话说,如果用户第一次搜索没有得到满意的搜索结果,如果第二次换了一个意图相近的搜索词找到了满意的搜索结果,那么,这两次搜索属于同一意图切片,因此,采取意图切片的方式去界定用户意图相同的一段连续行为,对于用户行为的理解更加贴近实际,可以提高搜索处理结果的准确度,满足较为复杂的搜索场景。
下面通过具体的实施方式,对本公开提供的搜索处理方法进行说明。
第一阶段,在根据多个搜索词及每个搜索词的搜索时间对搜索操作进行意图切片之前,可以先进行意图切片分类模型的训练。
如图3所示,为一种实现方式中,训练意图切片分类模型的逻辑示意图,包括五个步骤。
其中,第一步为数据标注,在该步骤中,可以根据对业务的理解,预先对5万次搜索操作进行意图切片分组,并对分组结果进行人工标注,在进行标注时,每次搜索操作都对应一个意图切片分组的标识信息,比如,若一次搜索操作对应的意图切片分组的标识信息为“B”,那么,可以表示该搜索操作是其所属的意图切片分组对应的第一次搜索操作,若一次搜索操作对应的意图切片分组的标识信息为“I”,那么,可以表示该搜索操作与上一次搜索操作为同一意图切片分组。
其中,用于进行意图切片的数据包括每次搜索操作对应的搜索词、搜索时间以及搜索标识等信息,每个信息对应于不同的字段。举例而言,如表1所示,为用于进行意图切片的数据所包括的字段列表,其中,“keyword”表示每次搜索的搜索词,其字段格式为STRING,“Search_session_id”表示每次搜索对应的标识,其字段格式为STRING,“time”表示搜索时间,其字段格式为TIMESTAMP。
表1用于进行意图切片的数据所包括的字段列表
字段 | 字段含义 | 字段格式 |
keyword | 每次搜索的搜索词 | STRING |
Search_session_id | 每次搜索对应的标识 | STRING |
time | 搜索时间 | TIMESTAMP |
如表2所示,为基于搜索词的意图切片划分结果,在几个搜索词为“人物B动画片”、“人物C”、“人物C钓鱼”、“人物C钓鱼监控”、“人物C钓鱼监控”及“人物D”的情况下,意图切片分组结果如表格右侧所示,“人物B动画片”是一个意图切片的起始搜索,“人物C”、“人物C钓鱼”、“人物C钓鱼监控”及“人物C钓鱼监控”具有相同或相似的搜索意图,属于同一意图切片分组,“人物D”是另一个意图切片的起始搜索。
表2基于搜索词的意图切片划分结果
搜索词 | 意图切片划分结果 |
人物B动画片 | 是一个意图切片的起始搜索 |
人物C | 是一个意图切片的起始搜索 |
人物C钓鱼 | 与上一次搜索的意图切片相同 |
人物C钓鱼监控 | 与上一次搜索的意图切片相同 |
人物C钓鱼监控 | 与上一次搜索的意图切片相同 |
人物D | 是一个意图切片的起始搜索 |
第二步为数据分布摸底,也就是获取搜索操作的搜索词分布、时间跨度等基础数据,从而为后续对这些数据进行特征选取做准备。
第三步为特征工程,在该步骤中,可以利用第二步所获取的基础数据,获取该搜索操作的搜索词的一些特征信息,从而进一步利用这些特征信息判断当前搜索词与上一个搜索词之间是否满足匹配条件,其中,例举了六种不同的特征信息,包括:
1、计算每个搜索词的搜索时间与上一个搜索词的搜索时间之间的差值,进而,还可以对差值进行归一化,使得计算结果更为直观,便于进一步分析;2、对于每一次搜索,计算该次搜索的搜索词的概率分布KDE(Kernel Density Estimation,核密度估计值),得到对应的二分类标签,作为一种特征信息;3、对于每一次搜索,利用预训练得到的XLnet模型计算该搜索词与上一个搜索词之间的余弦相似度,作为一种特征信息,其中,XLnet模型是一种改进的BERT(Bidirectional Encoder Representations from Transformers,双向编码器)模型;4、对于每一次搜索,利用预训练得到的XLnet模型计算该搜索词与下一个搜索词之间的余弦相似度,作为一种特征信息;5、对于每一次搜索,计算上一个搜索词与下一个搜索词之间的最大序列长度与上一个搜索词的序列长度之比,进而,还可以进行归一化,作为一种特征信息;6、对于每一次搜索,计算上一个搜索词与下一个搜索词之间的最大序列长度与该搜索词的序列长度之比,进而,还可以进行归一化,作为一种特征信息。
其中,任意两个搜索词之间的序列长度之比,即为两个搜索词中重复且连续的部分,如“游戏A角色”和“游戏A皮肤”中重复且连续的部分为“游戏A”,那么,“游戏A角色”和“游戏A皮肤”的连续最大序列长度就是3,即“游戏A”对应的序列长度。
第四步为模型训练,在该步骤中,可以采取GBDT模型或XGBoost模型,对第三步中得到的特征信息进行分析,得到每个搜索词与上一个搜索词之间是否满足匹配条件的二分类结果,即输出“是否与上一次搜索为同一意图切片分组”的结果。
第五步为模型选择,其中,GBDT模型的准确率为0.9765,召回率为0.9735,F1值(F1Score)为0.9748,第三步中每个特征信息的重要性排序为5>6>1>3>4>2,而XGBoost模型的准确率为0.9738,召回率为0.9716,F1值为0.9723,第三步中每个特征信息的重要性排序为3>1>4>5>6>2,相比而言,选择效果更好的GBDT模型。
第二阶段,经过训练得到意图切片分类模型之后,可以开始基于所获取的多个搜索词及每个搜索词的搜索时间,将搜索操作划分至多个意图切片。
具体而言,可以获取多个搜索词及每个搜索词的搜索时间,并针对每个搜索词,计算当前搜索词的搜索时间与上一个搜索词的搜索时间之间的差值。然后,将当前搜索词的特征信息及差值输入至预先训练得到的意图切片分类模型中进行处理,根据分类结果判断当前搜索词与当前搜索词的上一个搜索词是否满足匹配条件,由前述可知,GBDT模型的训练效果比XGBoost模型更好,因此本实施方式中的意图切片分类模型为GBDT模型。若当前搜索词与当前搜索词的上一个搜索词满足匹配条件,将当前搜索词对应的搜索操作添加至当前搜索词的上一个搜索词对应的搜索操作所属的意图切片。
其中,意图切片是指一段时间内,同一个意图的多次搜索的组合,换句话说,如果连续几次搜索词包括相同或相似的内容,那么,可以将这些搜索词对应的搜索操作划分至同一个意图切片。举例而言,如果连续几次搜索操作的搜索词分别为“游戏A”、“游戏A好看的皮肤”、“游戏A的角色技能”,可以理解,这几次搜索操作的意图都是游戏A相关的搜索词,因此,这几次搜索操作可以划分到同一个意图切片。
第三阶段,在将搜索操作划分至多个意图切片之后,可以基于意图切片对搜索效果进行分析。
具体而言,可以检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作。如果搜索结果页面中的操作信息中包括预设操作信息,那么,可以认为本次搜索操作的搜索结果中包括符合用户需求的结果,那么,根据每个意图切片中目标搜索操作的搜索次序,就可以确定经过多少次搜索之后用户得到了满意的搜索结果,进而可以确定搜索步长,搜索步长可以用于衡量搜索的效率。
举例而言,如表3所示,为本步骤中可以用于确定搜索步长的数据源所包括的字段列表,其中,“keyword”表示每次搜索的搜索词,其字段格式为STRING;“Request_api”表示搜索到的页面,可以是综合搜索页面,也可以是用户垂搜页面,其字段格式为STRING;“Search_session_id”表示每次搜索对应的标识,其字段格式为STRING;“Is_user_show”表示用户卡是否有曝光,其字段格式为BINARY;“Is_user_click”表示是否点击用户卡,其字段格式为BINARY;“Is_user_profile_valid_play”表示是否点击用户卡进入个人主页有视频长播,其字段格式为BINARY;“Is_user_follow”表示是否关注用户,其字段格式为BINARY;“Is_user_click_followed”表示是否点击的用户是先前关注过的,其字段格式为BINARY;“Goal_id”表示每个意图切片的标识,其字段格式为BINARY。其中,“Is_user_show”、“Is_user_click”、“Is_user_profile_valid_play”、“Is_user_follow”以及“Is_user_click_followed”字段都可以作为预设操作信息对应的字段。
表3用于确定搜索步长的数据源所包括的字段列表
然后,可以检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作,根据目标搜索操作的数量及目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长。
举例而言,如果一个用户搜索“直播”,再搜索“情感主播”,又切换用户垂搜后在用户垂搜找到了感兴趣的主播,进而关注了该主播,即在第三次搜索中检测到了预设操作信息,那么搜索步长为:3/1=3,可以理解,搜索步长可以表达实现搜索结果满足用户需求的目标需要搜索几次,反映了用户得到满足需求的搜索结果的代价,是一个需要缩减的负向指标。
根据搜索步长,可以确定当前搜索方式的不足之处,进而便于开发者进行优化。举例而言,如图4所示,为在搜索操作的目的为找人的情况下,不同找人步长的意图切片分布示意图,可以看出,绝大部分找到人的意图切片均在第一次搜索便成功找到了人,而在3次以上搜索后才找到人的比例极低,说明当前搜索找人的时候的推荐准确性已经达到了一定的水平,但也同时能够说明仍有一定比例找人意图切片的找人需求是在第2次搜索才满足的,所以尚有一定的业务优化空间。
另外,还可以通过在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,进一步当前搜索方式的效果进行评估。举例而言,如图5所示,为代表用户对搜索结果满意的几种操作示意图。其中,在搜索操作的目的为找人的情况下,有用户结果点击的占全量搜索的百分比为x%,在有用户结果点击的情况下,还可以分为实际找到人的意图切片和无满意行为的意图切片,分别占有用户结果点击的y%和1-y%,那么,实际找到人的意图切片占全量搜索的百分比为x%*y%=z%,实际找到人的意图切片还可以分为仅有点击用户结果后的消费其作品的行为、仅有关注行为、仅有点击已关注用户和至少有以上两种行为四种情况,占比分别为a%、b%、c%和d%,则用户对搜索结果满意的概率为a%+b%+c%+d%=z%。
进一步地,可以根据目标搜索操作所属意图切片包括的搜索操作的搜索结果,计算搜索调整参数;根据搜索调整参数,对目标搜索操作进行归因分析,得到归因分析结果。
举例而言,如图6所示,为一种实现方式中的搜索步长归因示意图,对搜索步长>1的找人意图切片进行归因。其中,x1%、x2%、x3%表示用户在综合页没有找到想要的人,换了个搜索词重新搜索后找到人的三种场景的概率,三者相加也就是目标搜索操作与目标搜索操作的上一次搜索操作的搜索词不同的概率,y1%、y2%、y3%表示用户在综合页没找到想要的人,切换用户垂搜后找到人的三种场景的概率,三者相加也就是目标搜索操作的搜索结果页面中包括搜索类型切换操作信息的概率。这些场景的占比均可计算,且可举出对应的用户行为轨迹回查数据,如发现搜索词纠错、搜索词意图识别等问题,并驱动改进。
举例而言,搜索“3014225580”,无目标搜索操作后继续搜索“301425580”,在第二次搜索关注用户结果,这种情况下,发生了搜索词纠错;搜索“周周分手了吗”,没有显示用户结果,用户第二次搜索“周周”后点击用户结果,这种情况下,发生了搜索词意图识别失误,等等。发现这些改进空间后,有驱动相应的专项落地,如内容意图词扩展、用户结果召回、纠错改进、关系链引入等。
由以上可见,在本方案中,可以联系每次搜索时的搜索词,考虑多次搜索场景下相似搜索词所代表的用户意图,即用户行为往往是连续的,前一次搜索的体验很可能是下一次搜索的原因,换句话说,如果用户第一次搜索没有得到满意的搜索结果,如果第二次换了一个意图相近的搜索词找到了满意的搜索结果,那么,这两次搜索属于同一意图切片,因此,采取意图切片的方式去界定用户意图相同的一段连续行为,对于用户行为的理解更加贴近实际,可以提高搜索处理结果的准确度,满足较为复杂的搜索场景。
图6是根据一示例性实施例示出的一种搜索处理装置框图,该装置包括:
获取单元301,被配置为执行获取多个搜索词及每个搜索词的搜索时间;
分组单元302,被配置为执行根据所述搜索词的搜索时间及特征信息,将所述搜索词对应的搜索操作划分至多个意图切片;
计算单元304,被配置为执行检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作,根据所述目标搜索操作的数量及所述目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长。
一种实现方式中,所述分组单元302,具体被配置为执行:
针对每个搜索词,计算当前搜索词的搜索时间与上一个搜索词的搜索时间之间的差值;
根据所述当前搜索词的特征信息及所述差值,判断所述当前搜索词与所述当前搜索词的上一个搜索词是否满足匹配条件;
若满足,将所述当前搜索词对应的搜索操作添加至所述当前搜索词的上一个搜索词对应的搜索操作所属的意图切片。
一种实现方式中,所述分组单元302,具体被配置为执行:
将所述当前搜索词的特征信息及所述差值输入至预先训练得到的意图切片分类模型中进行处理,根据分类结果判断所述当前搜索词与所述当前搜索词的上一个搜索词是否满足匹配条件。
一种实现方式中,所述当前搜索词的特征信息,包括以下至少一项:
所述当前搜索词的核密度估计值;
所述当前搜索词与所述当前搜索词的上一个搜索词之间的余弦相似度;
所述当前搜索词与所述当前搜索词的下一个搜索词之间的余弦相似度;
所述上一个搜索词与所述下一个搜索词之间的最大序列长度与所述上一个搜索词的序列长度之比;
所述上一个搜索词与所述下一个搜索词之间的最大序列长度与当前搜索词的序列长度之比。
一种实现方式中,所述预设操作信息包括以下一项或多项:
新增关注操作;
对已关注用户的点击操作;
对任一用户的信息浏览操作。
一种实现方式中,所述确定单元303,被配置为执行:
获取在每个所属的意图切片中搜索到所述目标搜索操作所需的搜索次数,将所述搜索次数的总和作为第一数量;
将包括所述目标搜索操作的意图切片的数量确定为第二数量;
将所述第一数量与所述第二数量之比作为搜索步长。
一种实现方式中,所述确定单元303,还被配置为执行:
根据所述目标搜索操作所属意图切片包括的搜索操作的搜索结果,计算搜索调整参数;
根据所述搜索调整参数,对所述目标搜索操作进行归因分析,得到归因分析结果。
一种实现方式中,所述搜索调整参数包括以下一项或多项:
所述目标搜索操作的搜索结果页面中包括搜索类型切换操作信息的概率;
所述目标搜索操作与所述目标搜索操作的上一次搜索操作的搜索词不同的概率。
由以上可见,本公开的实施例提供的技术方案,可以联系每次搜索时的搜索词,考虑多次搜索场景下相似搜索词所代表的用户意图,即用户行为往往是连续的,前一次搜索的体验很可能是下一次搜索的原因,换句话说,如果用户第一次搜索没有得到满意的搜索结果,如果第二次换了一个意图相近的搜索词找到了满意的搜索结果,那么,这两次搜索属于同一意图切片,因此,采取意图切片的方式去界定用户意图相同的一段连续行为,对于用户行为的理解更加贴近实际,可以提高搜索处理结果的准确度,满足较为复杂的搜索场景。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种用于搜索处理的电子设备的框图。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,当其在计算机上运行时,使得计算机实现上述搜索处理的方法。
由以上可见,本公开的实施例提供的技术方案,可以联系每次搜索时的搜索词,考虑多次搜索场景下相似搜索词所代表的用户意图,即用户行为往往是连续的,前一次搜索的体验很可能是下一次搜索的原因,换句话说,如果用户第一次搜索没有得到满意的搜索结果,如果第二次换了一个意图相近的搜索词找到了满意的搜索结果,那么,这两次搜索属于同一意图切片,因此,采取意图切片的方式去界定用户意图相同的一段连续行为,对于用户行为的理解更加贴近实际,可以提高搜索处理结果的准确度,满足较为复杂的搜索场景。
图8是根据一示例性实施例示出的一种用于搜索处理的装置800的框图。
例如,装置800可以是移动电话,计算机,数字广播电子设备,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件807为装置800的各种组件提供电力。电源组件807可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行第一方面和第二方面所述的方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。可选地,例如,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性非临时性计算机可读存储介质计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中第一所述的搜索处理方法。
由以上可见,本公开的实施例提供的技术方案,可以联系每次搜索时的搜索词,考虑多次搜索场景下相似搜索词所代表的用户意图,即用户行为往往是连续的,前一次搜索的体验很可能是下一次搜索的原因,换句话说,如果用户第一次搜索没有得到满意的搜索结果,如果第二次换了一个意图相近的搜索词找到了满意的搜索结果,那么,这两次搜索属于同一意图切片,因此,采取意图切片的方式去界定用户意图相同的一段连续行为,对于用户行为的理解更加贴近实际,可以提高搜索处理结果的准确度,满足较为复杂的搜索场景。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种搜索处理方法,其特征在于,包括:
获取多个搜索词及每个搜索词的搜索时间;
根据所述搜索词的搜索时间及特征信息,将所述搜索词对应的搜索操作划分至多个意图切片;
检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作,根据所述目标搜索操作的数量及所述目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长。
2.根据权利要求1所述的搜索处理方法,其特征在于,所述根据所述搜索词的搜索时间及特征信息,将所述搜索词对应的搜索操作划分至多个意图切片,包括:
针对每个搜索词,计算当前搜索词的搜索时间与上一个搜索词的搜索时间之间的差值;
根据所述当前搜索词的特征信息及所述差值,判断所述当前搜索词与所述当前搜索词的上一个搜索词是否满足匹配条件;
若满足,将所述当前搜索词对应的搜索操作添加至所述当前搜索词的上一个搜索词对应的搜索操作所属的意图切片。
3.根据权利要求2所述的搜索处理方法,其特征在于,所述根据所述当前搜索词的特征信息及所述差值,判断所述当前搜索词与所述当前搜索词的上一个搜索词是否满足匹配条件,包括:
将所述当前搜索词的特征信息及所述差值输入至预先训练得到的意图切片分类模型中进行处理,根据分类结果判断所述当前搜索词与所述当前搜索词的上一个搜索词是否满足匹配条件。
4.根据权利要求2所述的搜索处理方法,其特征在于,所述当前搜索词的特征信息,包括以下至少一项:
所述当前搜索词的核密度估计值;
所述当前搜索词与所述当前搜索词的上一个搜索词之间的余弦相似度;
所述当前搜索词与所述当前搜索词的下一个搜索词之间的余弦相似度;
所述上一个搜索词与所述下一个搜索词之间的最大序列长度与所述上一个搜索词的序列长度之比;
所述上一个搜索词与所述下一个搜索词之间的最大序列长度与当前搜索词的序列长度之比。
5.根据权利要求1所述的搜索处理方法,其特征在于,所述预设操作信息包括以下至少一项:
新增关注操作;
对已关注用户的点击操作;
对任一用户的信息浏览操作。
6.根据权利要求1所述的搜索处理方法,其特征在于,所述根据所述目标搜索操作的数量及所述目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长,包括:
获取在每个所属的意图切片中搜索到所述目标搜索操作所需的搜索次数,将所述搜索次数的总和作为第一数量;
将包括所述目标搜索操作的意图切片的数量确定为第二数量;
将所述第一数量与所述第二数量之比作为搜索步长。
7.根据权利要求1所述的搜索处理方法,其特征在于,在所述根据所述目标搜索操作的数量及所述目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长之后,所述方法还包括:
根据所述目标搜索操作所属意图切片包括的搜索操作的搜索结果,计算搜索调整参数;
根据所述搜索调整参数,对所述目标搜索操作进行归因分析,得到归因分析结果。
8.根据权利要求7所述的搜索处理方法,其特征在于,所述搜索调整参数包括以下一项或多项:
所述目标搜索操作的搜索结果页面中包括搜索类型切换操作信息的概率;
所述目标搜索操作与所述目标搜索操作的上一次搜索操作的搜索词不同的概率。
9.一种搜索处理装置,其特征在于,包括:
获取单元,被配置为执行获取多个搜索词及每个搜索词的搜索时间;
分组单元,被配置为执行根据所述搜索词的搜索时间及特征信息,将所述搜索词对应的搜索操作划分至多个意图切片;
确定单元,被配置为执行检测在每个搜索词对应的搜索操作的搜索结果页面中的操作信息,在检测到预设操作信息的情况下,将对应的搜索操作确定为目标搜索操作,根据所述目标搜索操作的数量及所述目标搜索操作在所属的意图切片中的搜索次序,确定搜索步长。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的搜索处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111602698.0A CN114547421A (zh) | 2021-12-24 | 2021-12-24 | 一种搜索处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111602698.0A CN114547421A (zh) | 2021-12-24 | 2021-12-24 | 一种搜索处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114547421A true CN114547421A (zh) | 2022-05-27 |
Family
ID=81670557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111602698.0A Pending CN114547421A (zh) | 2021-12-24 | 2021-12-24 | 一种搜索处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547421A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210191995A1 (en) * | 2019-12-23 | 2021-06-24 | 97th Floor | Generating and implementing keyword clusters |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918565A (zh) * | 2019-02-02 | 2019-06-21 | 北京搜狗科技发展有限公司 | 一种搜索数据的处理方法、装置及电子设备 |
CN109977293A (zh) * | 2019-03-29 | 2019-07-05 | 北京搜狗科技发展有限公司 | 一种搜索结果相关性的计算方法及装置 |
CN111159546A (zh) * | 2019-12-24 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 事件推送方法、装置、计算机可读存储介质和计算机设备 |
CN111708890A (zh) * | 2020-07-09 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 一种搜索词确定方法和相关装置 |
CN112219201A (zh) * | 2019-05-06 | 2021-01-12 | 谷歌有限责任公司 | 基于推断的意图触发本地扩展 |
CN113343028A (zh) * | 2021-05-31 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 意图确定模型的训练方法和装置 |
-
2021
- 2021-12-24 CN CN202111602698.0A patent/CN114547421A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918565A (zh) * | 2019-02-02 | 2019-06-21 | 北京搜狗科技发展有限公司 | 一种搜索数据的处理方法、装置及电子设备 |
CN109977293A (zh) * | 2019-03-29 | 2019-07-05 | 北京搜狗科技发展有限公司 | 一种搜索结果相关性的计算方法及装置 |
CN112219201A (zh) * | 2019-05-06 | 2021-01-12 | 谷歌有限责任公司 | 基于推断的意图触发本地扩展 |
CN111159546A (zh) * | 2019-12-24 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 事件推送方法、装置、计算机可读存储介质和计算机设备 |
CN111708890A (zh) * | 2020-07-09 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 一种搜索词确定方法和相关装置 |
CN113343028A (zh) * | 2021-05-31 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 意图确定模型的训练方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210191995A1 (en) * | 2019-12-23 | 2021-06-24 | 97th Floor | Generating and implementing keyword clusters |
US11941073B2 (en) * | 2019-12-23 | 2024-03-26 | 97th Floor | Generating and implementing keyword clusters |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3173948A1 (en) | Method and apparatus for recommendation of reference documents | |
CN108121736B (zh) | 一种主题词确定模型的建立方法、装置及电子设备 | |
CN111556366A (zh) | 一种多媒体资源的展示方法、装置、终端、服务器及系统 | |
CN109918565B (zh) | 一种搜索数据的处理方法、装置及电子设备 | |
CN112148923B (zh) | 搜索结果的排序方法、排序模型的生成方法、装置及设备 | |
CN112784142A (zh) | 一种信息推荐方法及装置 | |
CN110941727B (zh) | 一种资源推荐方法、装置、电子设备及存储介质 | |
CN112131466A (zh) | 群组展示方法、装置、系统和存储介质 | |
CN111046927A (zh) | 标注数据的处理方法、装置、电子设备及存储介质 | |
CN113849723A (zh) | 搜索方法及搜索装置 | |
CN113920293A (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN114547421A (zh) | 一种搜索处理方法、装置、电子设备及存储介质 | |
CN110110046B (zh) | 同名实体推荐方法及装置 | |
CN112328809A (zh) | 实体分类方法、装置及计算机可读存储介质 | |
CN113609380B (zh) | 标签体系更新方法、搜索方法、装置以及电子设备 | |
CN111240497A (zh) | 一种通过输入法进行输入的方法、装置和电子设备 | |
CN111831132A (zh) | 一种信息推荐方法、装置和电子设备 | |
CN107301188B (zh) | 一种获取用户兴趣的方法及电子设备 | |
CN110175293B (zh) | 一种确定新闻脉络的方法、装置及电子设备 | |
CN111368161B (zh) | 一种搜索意图的识别方法、意图识别模型训练方法和装置 | |
CN110362686B (zh) | 一种词库的生成方法、装置、终端设备和服务器 | |
CN112241486A (zh) | 多媒体信息获取方法及装置 | |
CN114338587B (zh) | 一种多媒体数据处理方法、装置、电子设备及存储介质 | |
CN115484471B (zh) | 主播推荐方法及装置 | |
CN114722238B (zh) | 视频推荐方法、装置、电子设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |