CN114416513A - 搜索数据的处理方法、装置、电子设备和存储介质 - Google Patents

搜索数据的处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114416513A
CN114416513A CN202210297592.2A CN202210297592A CN114416513A CN 114416513 A CN114416513 A CN 114416513A CN 202210297592 A CN202210297592 A CN 202210297592A CN 114416513 A CN114416513 A CN 114416513A
Authority
CN
China
Prior art keywords
search
behavior
feature
search behavior
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210297592.2A
Other languages
English (en)
Other versions
CN114416513B (zh
Inventor
沈珅
王轶凡
贾晋康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN202210297592.2A priority Critical patent/CN114416513B/zh
Publication of CN114416513A publication Critical patent/CN114416513A/zh
Application granted granted Critical
Publication of CN114416513B publication Critical patent/CN114416513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种搜索数据的处理方法、装置、电子设备和存储介质,涉及计算机技术领域,尤其涉及智能搜索技术领域。具体实现方案为:基于针对搜索目标的每个搜索行为的发生时间,确定每个搜索行为的排序信息;基于每个搜索行为的行为类型和行为特征,确定每个搜索行为的特征表示;基于每个搜索行为的排序信息和特征表示,确定搜索目标的搜索行为序列;其中,搜索行为序列用于评估搜索目标的搜索满意度。利用本公开实施例,可以提高搜索满意度的评估准确率。

Description

搜索数据的处理方法、装置、电子设备和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及智能搜索领域,具体涉及一种搜索数据的处理方法、装置、电子设备和存储介质。
背景技术
通过问卷、访谈等调研手段抽取设定范围内的用户对搜索引擎的满意度,可以针对用户对搜索引擎的满意度进行整体评估。为了提高评估效率,可以从互联网中收集用户的搜索日志,基于用户的搜索日志所记录的各种搜索信息,推测搜索满意度。其中,对搜索信息的整理或处理方式的不同,会对搜索满意度的评估准确率有所影响。
发明内容
本公开提供了一种搜索数据的处理方法、装置、电子设备和存储介质。
根据本公开的一方面,提供了一种搜索数据的处理方法,包括:
基于针对搜索目标的每个搜索行为的发生时间,确定每个搜索行为的排序信息;
基于所述每个搜索行为的行为类型和行为特征,确定所述每个搜索行为的特征表示;
基于所述每个搜索行为的排序信息和特征表示,确定所述搜索目标的搜索行为序列;
基于所述搜索行为序列,得到针对所述搜索目标的搜索满意度。
根据本公开的另一方面,提供了一种搜索数据的处理装置,包括:
排序信息确定模块,用于基于针对搜索目标的多个搜索行为中的每个搜索行为的发生时间,确定每个搜索行为的排序信息;
特征表示确定模块,用于基于所述每个搜索行为的行为类型和行为特征,确定所述每个搜索行为的特征表示;
序列确定模块,用于基于所述每个搜索行为的排序信息和特征表示,确定所述搜索目标的搜索行为序列;
满意度评估模块,用于基于所述搜索行为序列,得到针对所述搜索目标的搜索满意度。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。
根据本公开的技术,搜索行为序列能够记录针对搜索目标的每个搜索行为的发生时间、行为类型以及行为特征,利用这样的搜索行为序列对搜索目标进行搜索满意度的评估,能够提高评估准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开一个实施例的搜索数据的处理方法的流程图;
图2是本公开一个实施例的搜索满意度的评估流程框图;
图3是本公开一个实施例的搜索数据的处理装置的结构框图;
图4是本公开另一个实施例的搜索数据的处理装置的结构框图;
图5是实现本公开实施例的搜索数据的处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
随着机器学习技术的不断进步与完善,利用搜索行为日志所记录的搜索行为信息建立预测模型。通过预测模型对用户的搜索行为进行评估,可以得到用户的搜索满意度。这个预测模型也可以称为搜索满意度评估模型。
构建搜索满意度评估模型或利用模型评估搜索满意度的关键工作之一是特征工程(feature engineering),即构建用于描述搜索行为的各类指标,例如点击次数、点击时长等点击相关指标、浏览时长等浏览相关指标、翻页率等翻页相关指标。特征构建是否成功,对评估搜索满意度的准确率有关键性的影响。
在特征构建方案中,通常是针对某一个单一搜索行为进行构建,例如,点击次数、点击位置等方面描述搜索的点击行为,或者滚动页面速度、滚动页面次数等描述搜索的页面滚动行为。
但是,这种特征构建方案的最大问题是忽略了搜索行为的发生先后顺序,也就是时序信息。这种时序信息对于预测搜索满意度的作用或影响不亚于搜索行为本身。例如,对于两次搜索均具有相同次数的点击行为或者滚动页面行为,如果按时间先后顺序观察,每次点击或滚动页面的时长保持稳定,这可能是用户正常的结果寻找过程。但是,如果该时长随时间的变化呈现出逐渐缩短的趋势,很可能反应出用户对搜索结果的预期在逐渐降低,或者耐心在逐渐丧失,这预示着用户偏向于不满意搜索结果。
在传统的特征构建思路中往往难以体现这种时序上的差异。例如,用户在搜索A中先发生了一次点击、后发生了N次页面滚动、最后结束搜索;用户在搜索B中先发生了N次页面滚动、后发生了一次点击、最后结束搜索;假设在两次搜索中点击和滚动的全部特征相同,则最终计算出单一行为的指标也是相同的。但是,从行为发生的时间顺序的角度来看,用户的满意程度很可能是相反的:搜索A代表用户对点击并不满意,且最终没有寻找到满意结果;搜索B则代表用户在多次滚动后寻找到了满意的结果。
因此,在设计指标时可以将时序性的差异信息考虑进去。例如,专门统计一些包含先后顺序信息的动作模式。但是,这种专门设计指标的方式有很大不足之处:其一,缺乏系统性,不能全面系统地选择出所有有效的动作序列;其二,人为设计的指标通常比较简单。
为了解决上述存在的问题,本公开实施例提供一种搜索数据的处理方案,可以提高搜索满意度的评估准确率。
图1是本公开一个实施例的搜索数据的处理方法的流程图。
如图1所示,该方法可以包括如下步骤:
S110,基于针对搜索目标的每个搜索行为的发生时间,确定每个搜索行为的排序信息;
S120,基于每个搜索行为的行为类型和行为特征,确定每个搜索行为的特征表示;
S130,基于每个搜索行为的排序信息和特征表示,确定搜索目标的搜索行为序列;
S140,基于搜索行为序列,得到针对搜索目标的搜索满意度。
示例性地,搜索目标可以包括文档、论文、网站、音频、视频等。或者,这个搜索可以是针对某个或多个相关的词语或句子的搜索。针对搜索目标的搜索行为可以包括多种不同类型的搜索行为。在这多种不同类型的搜索行为中,可以有多个同一种类型的搜索行为,但同一类型的搜索行为,其行为特征各不相同。因此,基于每个搜索行为的行为类型和行为特征所确定的每个搜索行为的特征表示,能够区别每个搜索行为。
示例性地,搜索行为的行为类型可以包括搜索启动行为、搜索结果点击行为、搜索页面滚动行为、翻页行为、搜索结束后的关联搜索行为等。搜索结束后的关联搜索行为的行为类型可以包括搜索结果点击行为、搜索页面滚动行为、翻页行为、搜索结束后的关联搜索行为等。搜索启动行为是指用户以何种方式启动搜索,例如通过手机浏览器、通过PC端浏览器等。
示例性地,每个搜索行为的行为特征可以包括一个或多个。
示例性地,搜索启动行为的行为特征可以包括搜索的启动方式。搜索结果点击行为的行为特征可以包括点击的时间、位置和时长等。搜索页面滚动行为的行为特征可以包括滚动页面的时间、时长、滚动距离、滚动速度以及位置变化等。翻页行为的行为特征可以包括每次翻页的页数、时间以及时长,总的翻页次数等。
在本示例中,搜索行为序列记录有每个搜索行为的排序信息、行为类型以及行为特征,其中,排序信息确定每个搜索行为的特征表示在搜索行为序列中的位置。这样,针对搜索行为序列进行搜索满意度的评估,可以准确地得到搜索目标的搜索满意度。
在一些实施例中,可以采用二元数组表示每个搜索行为的行为类型和行为特征,二元数组中的其中一个元素值表示搜索行为的行为类型,另一个元素值表示搜索行为的行为特征。也可以采用矩阵方式来表示每个搜索行为的行为类型和行为特征,例如形成一个矩阵,行表示搜索行为的行为类型,列表示搜索行为的行为特征。每一列表示搜索行为的一个行为特征,不同列表示搜索行为的不同行为特征。
示例性地,每个搜索行为的特征表示可以包括矩阵特征表示。在上述步骤S120中,基于每个搜索行为的行为类型和行为特征,确定每个搜索行为的特征表示,可以包括:
基于每个搜索行为的行为类型和行为特征,确定每个搜索行为的矩阵特征表示;其中,矩阵特征表示中的行用于表征搜索行为的行为类型,矩阵特征表示中的列用于表征搜索行为的行为特征。
在实际应用时,可以基于搜索行为的行为类型总数确定矩阵的总行数,并基于搜索行为在每个行为类型中所具有的每个行为特征的类型,确定行为特征的类型总数,然后基于行为特征的类型总数确定矩阵的总列数。这样,矩阵中的行可以用于表征搜索行为的行为类型,矩阵中的列可以用于表征搜索行为的行为特征类型。
假设有5种类型的搜索行为,每种类型的搜索行为都有5个特征,每种类理对应一行,每个特征对应一列,则可以采用5行25列的矩阵来表示搜索行为。由于一个搜索行为的类型是指定的,只有一个。因此,其对应的矩阵只有一行具有具体数值,其他行取值为零。例如,搜索行为的矩阵中的第i行是非零数值,则针对第i行,第j列的数值表征搜索行为的第j个行为特征。
在本示例中,采用矩阵的方式来表征搜索行为的行为类型和行为特征,更准确。特别是针对大量的搜索行为,可以准确地表征每个搜索行为,避免信息丢失。
在一些实施例中,在特征表示的方式为矩阵方式的情况下,基于每个搜索行为的排序信息,确定针对搜索目标的所有搜索行为的矩阵特征表示的合并方式,并基于合并方式对每个搜索行为的矩阵特征表示进行合并,得到搜索目标的搜索行为序列。该序列可以是矩阵。
示性地,在上述步骤S130中,基于每个搜索行为的排序信息和特征表示,确定搜索目标的搜索行为序列,包括:
基于每个搜索行为的排序信息,确定每个搜索行为的矩阵特征表示之间的运算参考信息;
基于运算参考信息,对每个搜索行为的矩阵特征表示进行计算,得到搜索目标的搜索行为序列。
示例性地,多种矩阵特征表示之间可以采用一种或多种运算方式进行计算,例如相乘、相加或合并。示例性地,多个矩阵特征表示之间可以包括多种运算方式,例如同时存在相乘和相加这两种运算方式。
针对相乘的运算方式,运算参考信息可以包括矩阵特征表示之间的相乘顺序。例如,假设存在5个搜索行为,对应有5个矩阵特征表示,排序在第三位的搜索行为,其矩阵特征表示在相乘时的位置为第三位。在排序在第一位的搜索行为对应的矩阵特征表示与排序在第二位置的搜索行为对应的矩阵特征表示相乘之后,再与排序在第三位置的搜索行为对应的矩阵特征表示相乘,依此类推。
针对相加的运算方式,运算参考信息可以包括每个矩阵特征表示的权重值。例如,针对连续同类型的搜索行为,可以对他们进行相加,并依据排序信息确定搜索行为的权重值。排序越前,权重值越大。针对不同类型的相邻搜索行为,可以对他们相乘,并依据排序信息确定搜索行为的权重值。
针对合并的运算方式,合并即将多个矩阵合并成一个矩阵。运算参考信息可以包括合并顺序、合并的行位置等。例如延展矩阵的行数,将指定的行分配给指定的矩阵。
在本示例中,在采用矩阵的方式来表示搜索行为的特征表示的情况下,可以基于搜索行为的排序信息,来确定搜索行为的特征表示之间的合并方式,例如矩阵之间的相乘位置,这样合并得到的序列,能够准确地表征每个搜索行为的排序信息,提高了评估搜索满意度的准确程度。
示例性地,在上述步骤S120,基于每个搜索行为的行为类型和行为特征,确定每个搜索行为的特征表示,可以包括:
基于每个搜索行为的行为类型,确定每个搜索行为的行为特征表示方式;
基于每个搜索行为的行为特征表示方式,对每个搜索行为的行为特征进行处理,得到每个搜索行为的特征表示。
在本示例中,针对不同行为类型的搜索行为,采用不同的行为特征表示方式来对搜索行为的行为特征进行处理,可以准确地得到每个搜索行为的特征表示。
示例性地,每个搜索行为的特征表示可以包括行为特征表示方式的特征表示,这样可以以具体的特征表示来记录搜索行为的行为类型。
示例性地,由于一个类型的搜索行为可以包括多个不同类型的行为特征,例如,搜索页面滚动行为可以包括页面滚动时长、滚动距离、滚动位置、滚动速度等不同类型的行为特征,因此,行为特征表示方式可以包括多个子表示方式,每个子表示方式用于对一种类型的行为特征进行处理以得到相应的特征表示。
在一些实施例中,可以对搜索行序序列进行向量化得到相应的向量,然后将其输入模型中,模型可以输出搜索满意度。该向量可以应用于模型训练,也可应用于模型评估。
示例性地,上述步骤S140中,基于搜索行为序列,得到针对搜索目标的搜索满意度,可以包括:
对搜索行为序列进行向量化,得到搜索行为向量;
将搜索行为向量输入搜索满意度评估模型,得到针对搜索目标的搜索满意度。
在本示例中,利用模型来评估针对搜索目标的搜索满意度,可以进一步提高评估准确率。
在实际应用时,可以收集大量的搜索行为向量,并标注其搜索满意度。将已标注的搜索行为向量输入到搜索满意度评估模型,搜索满意度评估模型输出搜索满意度,并将输出的搜索满意度与该向量的标注值进行比较,以及根据比较结果调整满意度评估模型的模型参数,直至比较结果达到设定的条件才停止调整。这样,可以得到高精度的搜索满意度评估模型。针对某一个搜索行为向量,可以将其输入上述训练好的搜索满意度评估模型,得到一个准确的搜索满意度。
在一些实施例中,在输入模型之前,需要将序列转换成模型可以学习或者识别的向量。例如,基于搜索满意度评估模型对应的向量转换算法,将搜索行为序列进行向量化,得到搜索行为向量。
在一些实施例中,序列中的特征包括离散型特征和连续型特征。离散型特征为取值范围是离散的,连续型特征为取值范围是连续的。例如,搜索结果点击行为这一行为类型为离散型特征,搜索页面滚动行为的滚动时长这一行为特征为连续型特征。
在一些实施例中,可以针对不同类型的特征采用不同的向量映射方式对特征进行向量映射。
示例性地,上述对搜索行为序列进行向量化,得到搜索行为向量,可以包括:针对搜索行为序列中的离散型特征,基于离散型特征的向量映射方式,对序列中的每个离散型特征进行向量映射,得到每个离散型特征在搜索行为向量中的元素值。
示例性地,上述对搜索行为序列进行向量化,得到搜索行为向量,可以包括:
针对搜索行为序列中的连续型特征,确定连续型特征对应的分档标准;
在分档标准的N个分档数值中,确定连续型特征对应的分档数值;其中,N为大于1的整数;
基于离散型特征的向量映射方式,对连续型特征对应的分档数值进行向量映射,得到连续型特征在搜索行为向量中的元素值。
在本示例中,序列中有不同类型的连续型特征,例如滚动页面的时长和滚动页面的速度是两种不同类型的连续型特征。对于不同类型的连续型特征,采用不同的分档标准。
在本示例中,针对连续型特征,先采用N个分档数值对其维度(也就是取值范围)进行离散化,然后在N个分档数值中确定该连续型特征对应的分档数值,使得以离散化的形式表征连续型特征。然后,可以采用离散型特征的向量映射方式来对该分档数值进行向量映射,得到其在向量中的元素值。
针对上述连续型特征采用离散化的方式进行向量转换,可以提高转换的自由度,但是离散化会造性一定的信息损失。因此,本公开实施例可以对离散化的元素值进行信息损失率评估,进而决定是否对该元素值进行调整。这样即可以兼顾向量化的自由度还可以避免信息损失率过大。
示例性地,基于连续型特征以及连续型特征的分档数值,评估元素值的信息损失率;基于信息损失率,调整元素值。
在本示例中,基于连续型特征的本身特征值和转换后的分档数值,可以准确地确定向量中的元素值的信息损失率,然后,基于信息损失率调整元素值,可以避免元素值的信息损失率过大,保证搜索满意度的评估准确率。
在一些实施例中,可以基于信息损失率来决定是否调整元素值。如果大于设定的信息损失率阈值,则调整元素值;如果小于设定的信息损失率阈值,则不调整元素值。
示例性地,上述基于信息损失率,调整元素值,可以包括:
在信息损失率满足设定条件的情况下,对连续型特征进行线性变换,并基于线性变换的结果,调整元素值。
示例性地,如果信息损失率大于设定的信息损失率阈值,则对连续型特征进行线性变换,并基于线性变换的结果,调整元素值。
示例性地,可以提供一个设定的矩阵,将连续型特征与该矩阵相乘,得到相应的元素值。不同类型的连续型特征所采用的矩阵不相同。
在一些实施例中,针对连续型特征,可以直接进行线性变换,然后将线性变换后的结果确定为该特征在搜索行为向量中的元素值,这样可以避免信息损失,而且不需要评估信息损失率。
图2是本公开一个实施例的搜索满意度的评估流程框图。
如图2所示,本示例通过构建搜索行为序列优化搜索满意度评估模型,并利用搜索满意度评估模型对输入的搜索行为序列进行搜索满意度的评估,可以提高评估准确率。在本示例中,搜索行为序列如同时间序列、自然语言数据一样,都是属于序列数据。因此,本示例可以在模型上选择深度学习技术中的用于处理序列数据的相关模型,例如transformer模型。其次,搜索行为序列与一般的时间序列和自然语言数据又有所不同,包括不同类型的搜索行为,每种搜索行为包括多个不同类型的行为特征。因此,针对搜索行为特征,本示例提出一种搜索行为序列的构建方法,以及针对搜索行为序列进行搜索满意度评估的过程。如图2所示,具体如下:
1、整理用户针对搜索目标的搜索行为,得到完整搜索行为序列。
通过各种日志系统,将用户在针对搜索目标的搜索中的全部搜索动作的信息进行收集。以下是几类比较典型的搜索行为的行为类型:
搜索启动行为:即搜索的来源(用户是如何发起的这次搜索);
搜索结果点击行为:包含点击的发生时间、位置、时长等。
搜索页面滚动行为:包含滚动页面的滚动时长、滚动距离、滚动速度、滚动位置等信息。
翻页行为:即在第一页的搜索结果无法满足情况下用户进行翻页。包含翻页的页码、翻页时间等。
搜索结束后的搜索行为:即在本次点击搜索按钮结束后,用户发生了下一次的关联搜索,即针对同一搜索目标下一次点击搜索按钮的搜索行为。
针对同一搜索目标的搜索行为可以包括一个或多个上述任一行为的组合。将针对同一搜索目标的搜索行为,按照发生时间的顺序,对基于行为类型和行为特征所确定的特征表示进行排序,构建得到该搜索目标的搜索行为序列。
2、构建用于对搜索满意度评估模型进行训练的序列数据。
不同于自然语言类的序列数据是由大量离散的字词所组成的,搜索行为序列的搜索作为虽然类型比较有限,然而每个类型的搜索行为都可以采用若干特征来描述。例如,在一个搜索行为序列中,由点击、滚动页面等有限的几种动作构成,但每次点击的时长、位置却各有不同,这些信息比搜索行为的类型本身包含了更加丰富的信息,如何将这些信息包含进序列数据中,是搜索行为序列与其他序列最大的不同。
本示例提出借用位置向量化(position embedding)的思路,对各个搜索行为的特征取值进行类似embedding的操作。对于本身就是离散型特征,其向量化的方法可以与position embedding一样。对于连续型特征,其具体实现方法可以包含以下两种:
(1)将连续型特征的取值范围离散化为N个分档,然后确定该连续型特征对应的分档数值,然后对该分档数据进行类似position embedding的操作。
(2)对连续型特征这一数值进行线性变换,得到其在向量中的元数值。
上述两种方法都可以对连续型特征实现向量化,但各有利弊:前者在向量化的操作上自由度更高,但是将连续型特征离散化会造成信息损失,而后者保留了离散值本身的特征信息,但是线性变换会某种程度上限制了向量化后的向量的自由度。
3、选择相应的模型进行模型训练
对搜索行为序列进行向量化后,将搜索行为向量输入transformer模型中的encoder层以进行深度学习建模,最终完成回归模型(预测满意度分数)或分类模型(预测是否满意)的训练。
与传统的序列相比,本公开实施例提供的搜索行为序列充分考虑了行为前后时序的关系,也捕捉到更多丰富的不同行为类型不同行为特征的搜索行为信息,为评估搜索满意度提供丰富的参考信息,提高搜索满意度的评估准确率。
图3是本公开一个实施例的搜索数据的处理装置的结构框图。
如图3所示,该搜索数据的处理装置,可以包括:
排序信息确定模块310,用于基于针对搜索目标的每个搜索行为的发生时间,确定每个搜索行为的排序信息;
特征表示确定模块320,用于基于所述每个搜索行为的行为类型和行为特征,确定所述每个搜索行为的特征表示;
序列确定模块330,用于基于所述每个搜索行为的排序信息和特征表示,确定所述搜索目标的搜索行为序列;其中,所述搜索行为序列用于评估所述搜索目标的搜索满意度;
满意度评估模块340,用于基于所述搜索行为序列,得到针对所述搜索目标的搜索满意度。
图4是本公开另一个实施例的搜索数据的处理装置的结构框图。如图4所示,该搜索数据的处理装置所包括的排序信息确定模块410、特征表示确定模块420、序列确定模块430、满意度评估模块440与上述实施例中的排序信息确定模块310、特征表示确定模块320、序列确定模块330、满意度评估模块340的功能相同,在此不详述。
示例性地,如图4所示,所述特征表示确定模块420包括:
表示方式确定单元421,用于基于所述每个搜索行为的行为类型,确定所述每个搜索行为的行为特征表示方式;
行为特征处理单元422,用于基于所述每个搜索行为的行为特征表示方式,对所述每个搜索行为的行为特征进行处理,得到所述每个搜索行为的特征表示。
示例性地,如图4所示,所述特征表示包括矩阵特征表示,所述特征表示确定模块420包括:
矩阵确定单元423,用于基于所述每个搜索行为的行为类型和行为特征,确定所述每个搜索行为的矩阵特征表示;其中,所述矩阵特征表示中的行用于表征所述搜索行为的行为类型,所述矩阵特征表示中的列用于表征所述搜索行为的行为特征。
示例性地,如图4所示,所述序列确定模块430包括:
运算信息确定单元431,用于基于所述每个搜索行为的排序信息,确定所述每个搜索行为的矩阵特征表示之间的运算参考信息;
计算单元432,用于基于所述运算参考信息,对所述每个搜索行为的矩阵特征表示进行计算,得到所述搜索目标的搜索行为序列。
示例性地,如图4所示,满意度评估模块440包括:
向量化子模块441,用于对所述搜索行为序列进行向量化,得到搜索行为向量;
满意度评估子模块442,用于将所述搜索行为向量输入搜索满意度评估模型,得到针对所述搜索目标的搜索满意度。
示例性地,所述向量化子模块441包括:
分档标准确定单元4411,用于针对所述搜索行为序列中的连续型特征,确定所述连续型特征对应的分档标准;
分档数值确定单元4412,用于在所述分档标准的N个分档数值中,确定所述连续型特征对应的分档数值;其中,N为大于1的整数;
向量映射单元4413,用于基于离散型特征的向量映射方式,对所述连续型特征对应的分档数值进行向量映射,得到所述连续型特征在搜索行为向量中的元素值。
示例性地,所述向量化子模块441还包括:
信息损失评估单元4414,用于基于所述连续型特征以及所述连续型特征的分档数值,评估所述元素值的信息损失率;
元数值调整单元4415,用于基于所述信息损失率,调整所述元素值。
示例性地,所述元数值调整单元4415用于:
在所述信息损失率满足设定条件的情况下,对所述连续型特征进行线性变换,并基于所述线性变换的结果,调整所述元素值。
本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图5所示,电子设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序来执行各种适当的动作和处理。在RAM 503中,还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如搜索数据的处理方法。例如,在一些实施例中,搜索数据的处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 102和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的搜索数据的处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行搜索数据的处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程搜索数据的处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器( EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器( CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种搜索数据的处理方法,包括:
基于针对搜索目标的每个搜索行为的发生时间,确定每个搜索行为的排序信息;
基于所述每个搜索行为的行为类型和行为特征,确定所述每个搜索行为的特征表示;
基于所述每个搜索行为的排序信息和特征表示,确定所述搜索目标的搜索行为序列;
基于所述搜索行为序列,得到针对所述搜索目标的搜索满意度。
2.根据权利要求1所述的方法,其中,所述基于所述每个搜索行为的行为类型和行为特征,确定所述每个搜索行为的特征表示,包括:
基于所述每个搜索行为的行为类型,确定所述每个搜索行为的行为特征表示方式;
基于所述每个搜索行为的行为特征表示方式,对所述每个搜索行为的行为特征进行处理,得到所述每个搜索行为的特征表示。
3.根据权利要求1所述的方法,其中,所述特征表示包括矩阵特征表示,所述基于所述每个搜索行为的行为类型和行为特征,确定所述每个搜索行为的特征表示,包括:
基于所述每个搜索行为的行为类型和行为特征,确定所述每个搜索行为的矩阵特征表示;其中,所述矩阵特征表示中的行用于表征所述搜索行为的行为类型,所述矩阵特征表示中的列用于表征所述搜索行为的行为特征。
4.根据权利要求3所述的方法,其中,所述基于所述每个搜索行为的排序信息和特征表示,确定所述搜索目标的搜索行为序列,包括:
基于所述每个搜索行为的排序信息,确定所述每个搜索行为的矩阵特征表示之间的运算参考信息;
基于所述运算参考信息,对所述每个搜索行为的矩阵特征表示进行计算,得到所述搜索目标的搜索行为序列。
5.根据权利要求1至4任一项所述的方法,其中,所述基于所述搜索行为序列,得到针对所述搜索目标的搜索满意度,包括:
对所述搜索行为序列进行向量化,得到搜索行为向量;
将所述搜索行为向量输入搜索满意度评估模型,得到针对所述搜索目标的搜索满意度。
6.根据权利要求5所述的方法,其中,所述对所述搜索行为序列进行向量化,得到搜索行为向量,包括:
针对所述搜索行为序列中的连续型特征,确定所述连续型特征对应的分档标准;
在所述分档标准的N个分档数值中,确定所述连续型特征对应的分档数值;其中,N为大于1的整数;
基于离散型特征的向量映射方式,对所述连续型特征对应的分档数值进行向量映射,得到所述连续型特征在搜索行为向量中的元素值。
7.根据权利要求6所述的方法,其中,还包括:
基于所述连续型特征以及所述连续型特征的分档数值,评估所述元素值的信息损失率;
基于所述信息损失率,调整所述元素值。
8.根据权利要求7所述的方法,其中,所述基于所述信息损失率,调整所述元素值,包括:
在所述信息损失率满足设定条件的情况下,对所述连续型特征进行线性变换,并基于所述线性变换的结果,调整所述元素值。
9.一种搜索数据的处理装置,包括:
排序信息确定模块,用于基于针对搜索目标的每个搜索行为的发生时间,确定每个搜索行为的排序信息;
特征表示确定模块,用于基于所述每个搜索行为的行为类型和行为特征,确定所述每个搜索行为的特征表示;
序列确定模块,用于基于所述每个搜索行为的排序信息和特征表示,确定所述搜索目标的搜索行为序列;
满意度评估模块,用于基于所述搜索行为序列,得到针对所述搜索目标的搜索满意度。
10.根据权利要求9所述的装置,其中,所述特征表示确定模块包括:
表示方式确定单元,用于基于所述每个搜索行为的行为类型,确定所述每个搜索行为的行为特征表示方式;
行为特征处理单元,用于基于所述每个搜索行为的行为特征表示方式,对所述每个搜索行为的行为特征进行处理,得到所述每个搜索行为的特征表示。
11.根据权利要求9所述的装置,其中,所述特征表示包括矩阵特征表示,所述特征表示确定模块包括:
矩阵确定单元,用于基于所述每个搜索行为的行为类型和行为特征,确定所述每个搜索行为的矩阵特征表示;其中,所述矩阵特征表示中的行用于表征所述搜索行为的行为类型,所述矩阵特征表示中的列用于表征所述搜索行为的行为特征。
12.根据权利要求11所述的装置,其中,所述序列确定模块包括:
运算信息确定单元,用于基于所述每个搜索行为的排序信息,确定所述每个搜索行为的矩阵特征表示之间的运算参考信息;
计算单元,用于基于所述运算参考信息,对所述每个搜索行为的矩阵特征表示进行计算,得到所述搜索目标的搜索行为序列。
13.根据权利要求9至12任一项所述的装置,其中,所述满意度评估模块包括:
向量化子模块,用于对所述搜索行为序列进行向量化,得到搜索行为向量;
满意度评估子模块,用于将所述搜索行为向量输入搜索满意度评估模型,得到所述搜索目标的搜索满意度。
14.根据权利要求13所述的装置,其中,所述向量化子模块包括:
分档标准确定单元,用于针对所述搜索行为序列中的连续型特征,确定所述连续型特征对应的分档标准;
分档数值确定单元,用于在所述分档标准的N个分档数值中,确定所述连续型特征对应的分档数值;其中,N为大于1的整数;
向量映射单元,用于基于离散型特征的向量映射方式,对所述连续型特征对应的分档数值进行向量映射,得到所述连续型特征在搜索行为向量中的元素值。
15.根据权利要求14所述的装置,其中,所述向量化子模块还包括:
信息损失评估单元,用于基于所述连续型特征以及所述连续型特征的分档数值,评估所述元素值的信息损失率;
元数值调整单元,用于基于所述信息损失率,调整所述元素值。
16.根据权利要求15所述的装置,其中,所述元数值调整子单元用于:
在所述信息损失率满足设定条件的情况下,对所述连续型特征进行线性变换,并基于所述线性变换的结果,调整所述元素值。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202210297592.2A 2022-03-25 2022-03-25 搜索数据的处理方法、装置、电子设备和存储介质 Active CN114416513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210297592.2A CN114416513B (zh) 2022-03-25 2022-03-25 搜索数据的处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210297592.2A CN114416513B (zh) 2022-03-25 2022-03-25 搜索数据的处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN114416513A true CN114416513A (zh) 2022-04-29
CN114416513B CN114416513B (zh) 2022-07-05

Family

ID=81262703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210297592.2A Active CN114416513B (zh) 2022-03-25 2022-03-25 搜索数据的处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114416513B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118521385A (zh) * 2024-07-19 2024-08-20 智选数字技术(广州)股份有限公司 一种数字化购物平台的商品信息投放方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
US20150324361A1 (en) * 2014-05-06 2015-11-12 Yahoo! Inc. Method and system for evaluating user satisfaction with respect to a user session
CN106570197A (zh) * 2016-11-15 2017-04-19 北京百度网讯科技有限公司 基于迁移学习的搜索排序方法和装置
CN109214846A (zh) * 2017-07-04 2019-01-15 百度在线网络技术(北京)有限公司 信息存储方法和装置
CN110222737A (zh) * 2019-05-21 2019-09-10 浙江大学 一种基于长短时记忆网络的搜索引擎用户满意度评估方法
CN111966946A (zh) * 2020-09-10 2020-11-20 北京百度网讯科技有限公司 一种页面权威值的识别方法、装置、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
US20150324361A1 (en) * 2014-05-06 2015-11-12 Yahoo! Inc. Method and system for evaluating user satisfaction with respect to a user session
CN106570197A (zh) * 2016-11-15 2017-04-19 北京百度网讯科技有限公司 基于迁移学习的搜索排序方法和装置
CN109214846A (zh) * 2017-07-04 2019-01-15 百度在线网络技术(北京)有限公司 信息存储方法和装置
CN110222737A (zh) * 2019-05-21 2019-09-10 浙江大学 一种基于长短时记忆网络的搜索引擎用户满意度评估方法
CN111966946A (zh) * 2020-09-10 2020-11-20 北京百度网讯科技有限公司 一种页面权威值的识别方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王忠群等: "基于模板用户信息搜索行为和统计分析的共谋销量欺诈识别", 《现代图书情报技术》, no. 11, 25 November 2015 (2015-11-25) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118521385A (zh) * 2024-07-19 2024-08-20 智选数字技术(广州)股份有限公司 一种数字化购物平台的商品信息投放方法

Also Published As

Publication number Publication date
CN114416513B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
US11782999B2 (en) Method for training fusion ordering model, search ordering method, electronic device and storage medium
CN110390408B (zh) 交易对象预测方法和装置
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN111385602A (zh) 基于多层级多模型的视频审核方法、介质及计算机设备
CN106294618A (zh) 搜索方法及装置
CN112579729B (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN112818230B (zh) 内容推荐方法、装置、电子设备和存储介质
CN112818686A (zh) 领域短语挖掘方法、装置和电子设备
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN114416513B (zh) 搜索数据的处理方法、装置、电子设备和存储介质
CN112925912A (zh) 文本处理方法、同义文本召回方法及装置
CN112925913A (zh) 用于匹配数据的方法、装置、设备和计算机可读存储介质
CN117271884A (zh) 确定推荐内容的方法、装置、电子设备及存储介质
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN116385059A (zh) 行为数据预测模型的更新方法、装置、设备及存储介质
CN113010782B (zh) 需求量获取方法、装置、电子设备以及计算机可读介质
CN114491416B (zh) 特征信息的处理方法、装置、电子设备和存储介质
CN115203564A (zh) 信息流推荐方法、装置及计算机程序产品
CN112800315B (zh) 数据处理方法、装置、设备及存储介质
CN114139798A (zh) 企业风险预测方法、装置及电子设备
CN111325350B (zh) 可疑组织发现系统和方法
CN114138976A (zh) 数据处理与模型训练方法、装置、电子设备和存储介质
CN114037060A (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant