CN112182373A - 一种基于上下文表示学习的性化搜索方法 - Google Patents

一种基于上下文表示学习的性化搜索方法 Download PDF

Info

Publication number
CN112182373A
CN112182373A CN202011021934.5A CN202011021934A CN112182373A CN 112182373 A CN112182373 A CN 112182373A CN 202011021934 A CN202011021934 A CN 202011021934A CN 112182373 A CN112182373 A CN 112182373A
Authority
CN
China
Prior art keywords
query
disambiguation
user
term
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011021934.5A
Other languages
English (en)
Other versions
CN112182373B (zh
Inventor
窦志成
周雨佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN202011021934.5A priority Critical patent/CN112182373B/zh
Publication of CN112182373A publication Critical patent/CN112182373A/zh
Application granted granted Critical
Publication of CN112182373B publication Critical patent/CN112182373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明通过人工智能领域的方法,实现了一种基于上下文表示学习的性化搜索方法,将用户历史编码为语境信息来强化查询表示。我们分别设计了查询消歧和意图预测两个部分来对推断用户的信息需求,他们运用层次化transformer来编码语境信息,查询消歧将查询语境的输入划分为查询单词、短期历史和长期历史三个层面,并分别进行消歧操作。两个部分的输出通过门控单元融合,我们设计了两种损失函数来优化整个模型;之后对所述查询消岐模型的分析结果和所述已有查询日志预测结果进行融合和重排运算,并对结果进行优化。通过上述手段,在不建立用户模型的基础上对用户历史进行编码,理解用户基于当前查询的真实需求和真实意图。

Description

一种基于上下文表示学习的性化搜索方法
技术领域
本发明涉及人工智能领域,尤其涉及一种基于上下文表示学习的性化搜索方法。
背景技术
个性化搜索是各大搜索引擎的主要目标之一,现在主流的个性化算法是基于文本分析的方法,即建立用户兴趣模型,而后比较用户兴趣与候选文档的相似度来对结果进行重排。建立用户模型的主要依据是用户的历史点击行为,从而刻画出用户的兴趣特征,以此来完成个性化文档排序。个性化搜索的主要目标是根据用户兴趣不同,为不同用户返回满足其需要的个性化的排序列表。现有技术的基本思想是,首先利用用户历史对用户兴趣进行建模,进而在文档排序时,同时考虑文档和查询的相关性以及文档和用户兴趣的相似度。用户提出一个查询,搜索引擎会对候选文档进行打分,通过一定的方法对查询词和用户兴趣这两方面的因素进行融合获得最终得分。个性化搜索算法中,用户兴趣的表示和建模方法多种多样,但其主要思路都是基于用户历史搜索行为(包括用户提出的查询、查询上点击的行为、驻留时间等)来进行用户兴趣模型和个性化排序。例如,现有技术包括基于用户对文档的历史点击次数和点击文档的主题分布来进行个性化排序的方法。如果用户在查询某个查询时经常点击某个文档,则下一次用户再次查询该文档时,这个文档的排序位置将被提前。现有技术还利用了用户查询历史、页面浏览历史、点击驻留时间等多个因素对用户兴趣进行了更为细致的建模,在对结果的个性化重排上取得了很好的效果。还有一些技术通过提取用户查询和点击页面的主题来刻画用户兴趣特征,进而来评估文档与用户兴趣的相似性。深度学习的出现,使得模型对用户查询的语义理解能力得到提升,现有技术使用循环神经网络、对抗生成网络等来建立用户兴趣模型。
在先研究揭示了用户提出的大部分查询都很短并且具有歧义,因此捕捉用户真实查询意图是个性化搜索中非常重要的一个步骤,尤其是面对有歧义的查询时,大部分现有的方法的重点都放在如何根据用户历史建立用户兴趣模型上。但是我们认为这种思路并没有从本质上对查询词进行消歧,只是通过历史行为总结出了用户的兴趣。对于这种思路,在歧义词场景下构建出的用户兴趣模型也是具有偏差的。所以,我们希望放弃建立用户兴趣模型,而是通过更加直接的方法,利用用户历史,对当前查询进行消歧,我们认为,在特定的用户历史下,当前查询词的意图是明确的。
发明内容
为此,本发明提出了一种基于上下文表示学习的性化搜索方法,读取用户输入的查询内容,将查询语境的输入划分为查询单词、短期历史和长期历史三个层面,并依据所述三个层面,设置一个长期transformer模型和一个短期transfo rmer模型建立查询消歧模型,具体地,对所述查询语境的划分方法为:所述查询单词层面为本次输入的查询单词;所述短期历史和长期历史根据这一用户的历史数据划分,所述历史数据集合H包含短期历史集合Hs和长期历史集合Hl,所述短期历史集合Hs包含当前会话中的一系列查询和候选文档,所述候选文档为一个查询下搜索引擎返回的文档集合,每一个查询对应一个候选文档列表,
Figure BDA0002700906180000021
Figure BDA0002700906180000022
t代表当前时间戳,t-1表示刚刚结束的查询和候选文档集合,所述长期历史集合Hl包括之前会话中的交互行为,所述交互行为包括提交查询和点击浏览行为,
Figure BDA0002700906180000023
n是所述之前会话中的查询数量;
进而依据所述三个层面分别依次进行查询单词层面的消歧运算、所述短期历史层面的消歧运算和所述长期历史层面的消歧运算,从而使所述查询消岐模型分析用户真实意图;并结合已有查询日志预测用户的真实意图;之后对所述查询消岐模型的分析结果和所述已有查询日志预测结果进行融合和重排运算,并对结果进行优化后,得到对本次查询结果的个性化排序结果。
所述查询单词层面的消歧运算过程为:对于包含m个单词的当前查询q,q={e1,…,em}查询中每个单词上下文相关的表示为:
Ew=Trm(q+qp)
其中
Figure BDA0002700906180000024
q和qp是查询的词编码向量和位置编码向量,Trm是transformer结构,包括一个多头自注意力机制和一个位置感知前馈网络,在每一层之间使用残差连接:
Trm(q)=LN(Mq+D(PF(Mq)))
Mq=LN(q+D(MS(q)))
其中LN是layer normalization层使输出标准化,D是dropout操作防止模型过拟合,多头自注意力机制首先将输入映射到h个不同的子空间,而后对每个头利用注意力函数Att提取特征:
MS(q)=[head1,…,headh]WO
Figure BDA0002700906180000031
Figure BDA0002700906180000032
其中
Figure BDA0002700906180000033
WO是在训练过程中学习的参数,并增加位置感知前馈网络以非线性映射的方式强化表示:
PN(x)=C2(ReLU(C1(xT)))T
C1和C2是参数不同的两个卷积层,卷积核大小为1,最终,我们得到了当前查询中每个词上下文相关的表示,并将每个词的向量相加作为查询的表示:
Figure BDA0002700906180000034
所述短期历史层面的消歧运算过程为:针对查询词非常短的情况,对短期历史Hs中的每一个查询将查询和满意文档连接,而后通过所述查询单词层面的消歧,将输出作为当前查询的短期语境,表示为
Figure BDA0002700906180000035
并将它与所述查询的表示qw相连作为短期transformer的输入,得到新的查询表示qs
Figure BDA0002700906180000036
其中Trmlast表示将最后一个位置的表示作为输出,位置编码向量p+同时考虑编码序列中的相对位置和层级结构,并增加层级编码来区分所述短期历史和所述长期历史的贡献程度的差异。
所述长期历史层面的消歧运算过程为:针对处于会话开始、缺少语境的短查询,通过所述长期历史反映用户稳定的兴趣,首先对长期历史所有查询进行词级别消歧,输出为
Figure BDA0002700906180000037
然后与qs连接后输入到长期transformer中,最后一个位置的输出ql则是查询消歧模型最后的输入:
Figure BDA0002700906180000038
所述预测用户的真实意图方法为:在用户历史日志时间顺序序列最后增加“[MASK]”标识符并将这个位置的输出作为预测的意图,模型结构与查询消歧部分类似,分别利用短期历史和长期历史来预测用户意图,分别使用短期transfo rmer和长期transformer来结合短期历史和长期历史,根据现有日志信息,预测用户意图,计算公式如下:
Figure BDA0002700906180000039
Figure BDA00027009061800000310
预测出的意图qp是总结了现有的日志信息。
所述融合运算步骤为:设置门控单元来控制两个部分的权重,从而得到查询的最终表示qf
qf=z*ql+(1-z)*qp
其中z是门控权重,使用多层感知机来学习这部分权重:
Figure BDA0002700906180000041
qf为结合了两个部分的输出的结果。
所述重排运算步骤为:将查询单词层面的消歧应用到文档的表示上,表示为dw,并使用多层感知机来自动调整不同部分的权重,进而计算基于强化后的查询表示的个性化得分p(d|qH),
Figure BDA0002700906180000042
其中sR是基于表示的相似度,使用余弦相似度;
考虑原始查询和文档在词级别的匹配,以及他们上下文相关表示的匹配,提取每个文档有关点击和主题的特征Fq,d,进而通过多层感知机计算相关度得分p(d|q):
Figure BDA0002700906180000043
其中sI是基于交互的相似度,利用KNRM模型的思想,设计k个核来覆盖不同程度的匹配,并使用余弦相似度构建交互矩阵M,通过多层感知机结合k个核的得分:
Figure BDA0002700906180000044
Figure BDA0002700906180000045
其中μo根据k平均分布在-1到1之间,
Figure BDA0002700906180000046
被设置为0.01,k=11,根据最终得分得到新的个性化排序结果。
所述每个文档有关点击和主题的特征包括原始排序位置,点击熵,时间权重,主题特征以及一些基于跳过文档的特征。
所述优化过程为:设计预测用户意图的损失,采用LambdaRank排序算法训练模型,以Pairwise的方式训练,每一对数据包括相关文档集中的文档di和不相关文档集中的文档dj作为一对数据来训练模型,损失函数为预测值与实际值之间的交叉熵,定义如下:
Figure BDA0002700906180000047
其中Δ表示交换两个文档顺序后对排序质量的影响,pij表示文档di比dj更相关的预测概率,
Figure BDA0002700906180000048
表示实际概率,通过logistic函数计算而得,公式如下:
Figure BDA0002700906180000049
进一步,增加额外的监督信息来进一步训练对用户意图预测的准确度,将下一个查询最为监督信息来改善预测的用户意图,这部分损失计算如下:
Lpred=1-sim(qp,qt+1)
其中相似函数选取余弦相似度,如果当前查询是会话的最后一个查询,则目标查询是它本身,
最后的损失函数是两种损失相加,通过AdamOptimizer优化器逐步优化模型,对最终得到的分数排序后即为个性化排序结果。
本发明所要实现的技术效果在于:
本发明利用上下文表示学习的方法,在不建立用户模型的基础上对用户历史进行编码,从而完成个性化搜索;结合上下文信息对查询进行消歧,来理解用户基于当前查询的真实需求;为了覆盖当前查询无法充分表示用户需求的情况,根据现有查询日志预测用户真实意图;通过门控单元来融合两个子模型,并在预测用户意图中加入监督信息。
附图说明
图1基于上下文表示的个性化搜索模型结构图;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
为了实现上述的发明目的,本发明提供了一种基于上下文表示学习的性化搜索方法。
由于个性化搜索在捕获用户真实意图方面具有重要作用,大多数个性化算法通过建立用户画像的方式来改善排序结果,这种思路依然保留了当前查询词的语义偏差。我们希望利用上下文表示学习的方式,直接学习出当前查询在当前语境中的表示,该表示可直接被视为用户真实意图。特别地,我们分别从查询单词、短期历史和长期历史三个层面的语境建立查询消歧模型,来分析当前查询的真实意图。除此之外,为了覆盖查询拼写错误或表意不明的情况,我们根据已有查询日志来预测用户意图。
查询消歧模型
假设对于一个用户,其历史数据H包含短期历史Hs和长期历史Hl,前者包含当前会话中的一系列查询和候选文档
Figure BDA0002700906180000051
t是当前时间戳,t-1指上一个查询和候选文档集合,或刚刚结束的查询和候选文档集合,或历史日志中最后一个查询和候选文档集合,后者包括之前会话中的交互行为
Figure BDA0002700906180000061
Figure BDA0002700906180000062
n是之前会话中的查询数量,候选文档指某查询下搜索引擎返回的文档集合,每一个查询对应一个候选文档列表(公式中的D)。会话是指用户连续活跃的一段时间,具体划分方式为:假如一个用户连续30分钟没有任何活动,则判断为会话结束。当前会话是指用户当前所处的连续活动的会话。当给定一个新的查询q和其候选文档集D={d1,d2,…},我们的任务是对D中每个候选文档进行评分,最终得分表示为p(d|q,H),先前基于用户画像的方法重点是从历史H中提取个性化特征,而我们企图根据H来强化q的表示,最终得分计算如下:
Figure BDA0002700906180000063
其中p(d|q)表示文档和查询之间的相关性得分,p(d|qH)表示基于强化后的查询表示的个性化得分。
Figure BDA0002700906180000064
是一个多层感知机(MLP),用来平衡二者的权重关系。接下来我们将详细介绍个性化得分的计算过程。
用户提出的大部分的查询是具有歧义的,这阻碍了我们很好地理解用户的真实意图,进而生成用户更加满意的文档排序列表。为了解决这个问题,我们企图构建一个多阶段查询消歧模型,分别从单词、短期历史、长期历史三个阶段对查询进行消歧。在这里我们使用transformer结构将其视为语境对当前查询进行分析,所述短期transformer结构和所述长期transformer模型结构是一样的,只是输入数据不同。
查询单词消歧。对于歧义查询中的表意不明的词语,它周围的词语为我们提供了确定它真实含义的机会。例如,单词“apple”在查询“applefruit”和“apple company”中由于语境不同具有不同含义。我们认为,相同的词语即时在不同语境中,也应该被表示为不同的词向量。
对于当前查询q,假设它包含m个单词,即q={e1,…,em}。我们希望借助词级别的transformer来学习查询中每个单词上下文相关的表示,表示如下
Ew=Trm(q+qp)
其中q和qp是查询的词编码向量和位置编码向量,Trm(·)是transformer结构,包括一个多头自注意力机制(MS)和一个位置感知前馈网络(PF)。为了防止网络太深而难以训练,我们在每一层之间使用了残差连接,计算公式如下:
Trm(q)=LN(Mq+D(PF(Mq)))
Mq=LN(q+D(MS(q)))
其中LN(·)是layernormalization层来使输出标准化,D(·)是dropout操作来防止模型过拟合。多头自注意力机制首先将输入映射到h个不同的子空间,而后对每个头利用注意力函数(Att)提取特征,公式如下:
MS(q)=[head1,…,headh]WO
Figure BDA0002700906180000071
Figure BDA0002700906180000072
其中
Figure BDA0002700906180000073
WO是在训练过程中学习的参数。为了增强不同维度之间的交互,我们增加了位置感知前馈网络以非线性映射的方式强化表示。它包含两个大小为1的卷积核:
PN(x)=C2(ReLU(C1(xT)))T
C1(·)和C2(·)是参数不同的两个卷积层,最终,我们得到了当前查询中每个词上下文相关的表示,即
Figure BDA0002700906180000074
为了降低后续流程的开销,我们将每个词的向量相加作为查询的表示
Figure BDA0002700906180000075
短期历史消歧。当查询词非常短,甚至只有一个单词时,词级别消歧就会失去作用。由于用户通常会为了同一个信息需求提出一系列查询,因此我们考虑利用用户短期历史来对当前查询进行消歧。
对于短期历史Hs中的每一个查询,我们将查询和满意文档连接,而后通过词级别消歧,将输出作为当前查询的短期语境,表示为
Figure BDA0002700906180000076
我们将它与qw相连作为短期transformer的输入,得到新的查询表示qs
Figure BDA0002700906180000077
其中Trmlast(·)表示我们将最后一个位置的表示作为输出。位置编码向量p+这里不只是编码序列中的相对位置,同时考虑了层级结构,也就是说短期历史和长期历史的贡献程度应该有差异,因此,我们增加了层级编码来区分二者。
长期历史消歧。经过以上两个步骤,一部分查询的意图以及可以被准确地表示,但是对于处于会话开始的短查询,由于缺少语境,它们仍然会有语义偏差。长期历史通常反映用户稳定的兴趣,它同样可以为当前查询提供语境信息。类似地,我们仿照短期消歧的步骤,利用长期历史对当前查询进行消歧。首先对长期历史所有查询进行词级别消歧,输出为
Figure BDA0002700906180000081
然后与qs连接后输入到长期transformer中,最后一个位置的输出ql则是查询消歧模型最后的输入,计算方式如下:
Figure BDA0002700906180000082
最后,我们实现了将历史编码为语境来对当前查询进行多阶段消歧,每个阶段的输出将在匹配阶段发挥作用。然而,在某些情况下,只依靠这一个模型还不足以表达用户真实意图,接下来我们将介绍它的局限以及解决方法。
意图预测
查询消歧模型能够发挥作用的前提是当前查询可以包含用户的真实意图,但是,有时用户输入的查询与真实意图之间有一定偏差,例如用户拼写错误或表达有误的情况。这些查询不包含歧义单词,因此很难通过查询消歧模型来获取用户真实意图。我们希望利用已有信息预测用户真实意图,我们在序列最后增加了“[MASK]”标识并将这个位置的输出作为预测的意图,模型结构与查询消歧部分类似,分别利用短期历史和长期历史来预测用户意图,计算公式如下:
Figure BDA0002700906180000083
Figure BDA0002700906180000084
预测出的意图qp是总结了现有的日志信息,并推断出最可能的查询意图。
结果融合
消歧后的查询表示ql和推断的用户意图qp都是表达用户需求的重要的参考,我们认为在不同情况下,所发挥的作用也不同,因此我们设置门控单元来控制两个部分的权重,从而得到查询的最终表示qf
qf=z*ql+(1-z)*qp
其中z是门控权重,它是通过当前查询和以上两部分共同决定的。我们使用多层感知机来学习这部分权重:
Figure BDA0002700906180000091
最终表示qf结合了两个部分的输出的结果,它在匹配阶段发挥作用。
搜索结果重排
在这部分我们分别介绍每一部分的计算方式。
(1)对于个性化得分p(d|qH),我们收集了每个阶段利用历史强化后的查询表示,来与文档进行匹配。为了适应更广泛的匹配,我们同样将词级别消歧应用到文档的表示上,表示为dw。我们使用多层感知机来自动调整不同部分的权重。
Figure BDA0002700906180000092
其中sR(·)是基于表示的相似度,在这里我们使用余弦相似度。
(2)对于相关度得分p(d|q),我们考虑了原始查询和文档在词级别的匹配,以及他们上下文相关表示的匹配,除此之外我们提取了每个文档有关点击和主题的特征Fq,d,通过多层感知机计算相关度得分。相关度得分计算方式如下:
Figure BDA0002700906180000093
其中sl(·)是基于交互的相似度,这里我们利用KNRM模型的思想,设计了k个核来覆盖不同程度的匹配。这个参数在我们的模型中被设置为11。为了计算查询和文档的相似度,我们使用余弦相似度构建交互矩阵M。该匹配方式通过多层感知机结合k个核的得分:
Figure BDA0002700906180000094
Figure BDA0002700906180000095
其中μo根据k平均分布在-1到1之间,
Figure BDA0002700906180000096
被设置为0.01。最后,根据最终得分我们可以得到新的个性化排序结果。
(3)对于p(d|q),我们为每个文档抽取大量的特征,包括原始排序位置,点击熵,时间权重,主题特征等。除此之外,还增加了而一些基于跳过文档的特征。最终将所有特征通过多层感知机计算这部分概率。
训练和优化
在这部分,我们将介绍如何训练模型以及优化参数。除了直接贡献于个性化结果得排序模型,我们额外设计了预测用户意图的损失来进一步改善结果。
排序损失。我们采用LambdaRank排序算法训练模型,以Pairwise的方式训练。每一对数据包括相关文档集中的文档di和不相关文档集中的文档dj作为一对数据来训练模型,损失函数为预测值与实际值之间的交叉熵,定义如下:
Figure BDA0002700906180000101
其中Δ表示交换两个文档顺序后对排序质量的影响,pij表示文档di比dj更相关的预测概率,
Figure BDA0002700906180000102
表示实际概率。是通过logistic函数计算而得,公式如下:
Figure BDA0002700906180000103
预测损失。为了进一步优化参数,我们增加了额外的监督信息来进一步训练对用户意图预测的准确度。基于会话中下一个查询可以比之前查询更好地表达查询意图的假设,我们将下一个查询最为监督信息来改善预测的用户意图。这部分损失计算如下:
Lpred=1-sim(qp,qt+1)
其中相似函数选取余弦相似度,如果当前查询是会话的最后一个查询,则目标查询是它本身。
最后的损失函数是两种损失相加,我们通过AdamOptimizer优化器逐步优化模型,对最终得到的分数排序后即为个性化排序结果。

Claims (9)

1.一种基于上下文表示学习的性化搜索方法,其特征在于:读取用户输入的查询内容,将查询语境的输入划分为查询单词、短期历史和长期历史三个层面,并依据所述三个层面,设置一个长期transformer模型和一个短期transformer模型建立查询消歧模型,具体地,对所述查询语境的划分方法为:所述查询单词层面为本次输入的查询单词;所述短期历史和长期历史根据这一用户的历史数据划分,所述历史数据集合H包含短期历史集合Hs和长期历史集合Hl,所述短期历史集合Hs包含当前会话中的一系列查询和候选文档,所述候选文档为一个查询下搜索引擎返回的文档集合,每一个查询对应一个候选文档列表,
Figure FDA0002700906170000011
Figure FDA0002700906170000012
t代表当前时间戳,t-1表示刚刚结束的查询和候选文档集合的时间戳,所述长期历史集合Hl包括之前会话中的交互行为,所述交互行为包括提交查询和点击浏览行为,
Figure FDA0002700906170000013
n是所述之前会话中的查询数量;
进而依据所述三个层面分别依次进行查询单词层面的消歧运算、所述短期历史层面的消歧运算和所述长期历史层面的消歧运算,从而使所述查询消岐模型分析用户真实意图;并结合已有查询日志预测用户的真实意图;之后对所述查询消岐模型的分析结果和所述已有查询日志预测结果进行融合和重排运算,并对结果进行优化后,得到对本次查询结果的个性化排序结果。
2.根据权利要求1所述的一种基于上下文表示学习的性化搜索方法,其特征在于:所述查询单词层面的消歧运算过程为:对于包含m个单词的当前查询q,q={e1,...,em}查询中每个单词上下文相关的表示为:
Ew=Trm(q+qp)
其中
Figure FDA0002700906170000014
q和qp是查询的词编码向量和位置编码向量,Trm是transformer结构,包括一个多头自注意力机制和一个位置感知前馈网络,在每一层之间使用残差连接:
Trm(q)=LN(Mq+D(PF(Mq)))
Mq=LN(q+D(MS(q)))
其中LN是layer normalization层使输出标准化,D是dropout操作防止模型过拟合,多头自注意力机制首先将输入映射到h个不同的子空间,而后对每个头利用注意力函数Att提取特征:
MS(q)=[head1,...,headh]WO
Figure FDA0002700906170000015
Figure FDA0002700906170000016
其中
Figure FDA0002700906170000021
WO是在训练过程中学习的参数,并增加位置感知前馈网络以非线性映射的方式强化表示:
PN(x)=C2(ReLU(C1(xT)))T
C1和C2是参数不同的两个卷积层,卷积核大小为1,最终,我们得到了当前查询中每个词上下文相关的表示,并将每个词的向量相加作为查询的表示:
Figure FDA0002700906170000022
3.根据权利要求2所述的一种基于上下文表示学习的性化搜索方法,其特征在于:所述短期历史层面的消歧运算过程为:针对查询词非常短的情况,对短期历史Hs中的每一个查询将查询和满意文档连接,而后通过所述查询单词层面的消歧,将输出作为当前查询的短期语境,表示为
Figure FDA0002700906170000023
并将它与所述查询的表示qw相连作为短期transformer的输入,得到新的查询表示qs
Figure FDA0002700906170000024
其中Trmlast表示将最后一个位置的表示作为输出,位置编码向量p+同时考虑编码序列中的相对位置和层级结构,并增加层级编码来区分所述短期历史和所述长期历史的贡献程度的差异。
4.根据权利要求3所述的一种基于上下文表示学习的性化搜索方法,其特征在于:所述长期历史层面的消歧运算过程为:针对处于会话开始、缺少语境的短查询,通过所述长期历史反映用户稳定的兴趣,首先对长期历史所有查询进行词级别消歧,输出为
Figure FDA0002700906170000025
然后与qs连接后输入到长期transformer中,最后一个位置的输出ql则是查询消歧模型最后的输入:
Figure FDA0002700906170000026
5.根据权利要求4所述的一种基于上下文表示学习的性化搜索方法,其特征在于:所述预测用户的真实意图方法为:在用户历史日志时间顺序序列最后增加“[MASK]”标识符并将这个位置的输出作为预测的意图,模型结构与查询消歧部分类似,分别利用短期历史和长期历史来预测用户意图,分别使用短期transformer和长期transformer结合短期历史和长期历史,根据现有日志信息,预测用户意图,计算公式如下:
Figure FDA0002700906170000027
Figure FDA0002700906170000028
预测出的意图qp是总结了现有的日志信息。
6.根据权利要求5所述的一种基于上下文表示学习的性化搜索方法,其特征在于:所述融合运算步骤为:设置门控单元来控制两个部分的权重,从而得到查询的最终表示qf
qf=z*ql+(1-z)*qp
其中z是门控权重,使用多层感知机来学习这部分权重:
Figure FDA0002700906170000036
qf为结合了两个部分的输出的结果。
7.根据权利要求6所述的一种基于上下文表示学习的性化搜索方法,其特征在于:所述重排运算步骤为:将查询单词层面的消歧应用到文档的表示上,表示为dw,并使用多层感知机来自动调整不同部分的权重,进而计算基于强化后的查询表示的个性化得分p(d|qH),
Figure FDA0002700906170000037
其中sR是基于表示的相似度,使用余弦相似度;
考虑原始查询和文档在词级别的匹配,以及他们上下文相关表示的匹配,提取每个文档有关点击和主题的特征Fq,d,进而通过多层感知机计算相关度得分p(d|q):
Figure FDA0002700906170000038
其中sI是基于交互的相似度,利用KNRM模型的思想,设计k个核来覆盖不同程度的匹配,并使用余弦相似度构建交互矩阵M,通过多层感知机结合k个核的得分:
Figure FDA0002700906170000039
Figure FDA0002700906170000031
其中μo根据k平均分布在-1到1之间,
Figure FDA0002700906170000032
被设置为0.01,k=11,根据最终得分得到新的个性化排序结果。
8.根据权利要求7所述的一种基于上下文表示学习的性化搜索方法,其特征在于:所述每个文档有关点击和主题的特征包括原始排序位置,点击熵,时间权重,主题特征以及一些基于跳过的未点击文档的特征。
9.根据权利要求8所述的一种基于上下文表示学习的性化搜索方法,其特征在于:所述优化过程为:设计预测用户意图的损失,采用LambdaRank排序算法训练模型,以Pairwise的方式训练,每一对数据包括相关文档集中的文档di和不相关文档集中的文档dj作为一对数据来训练模型,损失函数为预测值与实际值之间的交叉熵,定义如下:
Figure FDA0002700906170000033
其中Δ表示交换两个文档顺序后对排序质量的影响,pij表示文档di比dj更相关的预测概率,
Figure FDA0002700906170000034
表示实际概率,通过logistic函数计算而得,公式如下:
Figure FDA0002700906170000035
进一步,增加额外的监督信息来进一步训练对用户意图预测的准确度,将下一个查询最为监督信息来改善预测的用户意图,这部分损失计算如下:
Lpred=1-sim(qp,qt+1)
其中相似函数选取余弦相似度,如果当前查询是会话的最后一个查询,则目标查询是它本身。
最后的损失函数是两种损失相加,通过AdamOptimizer优化器逐步优化模型,对最终得到的分数排序后即为个性化排序结果。
CN202011021934.5A 2020-09-25 2020-09-25 一种基于上下文表示学习的性化搜索方法 Active CN112182373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011021934.5A CN112182373B (zh) 2020-09-25 2020-09-25 一种基于上下文表示学习的性化搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011021934.5A CN112182373B (zh) 2020-09-25 2020-09-25 一种基于上下文表示学习的性化搜索方法

Publications (2)

Publication Number Publication Date
CN112182373A true CN112182373A (zh) 2021-01-05
CN112182373B CN112182373B (zh) 2023-06-02

Family

ID=73943693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011021934.5A Active CN112182373B (zh) 2020-09-25 2020-09-25 一种基于上下文表示学习的性化搜索方法

Country Status (1)

Country Link
CN (1) CN112182373B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627349A (zh) * 2021-08-12 2021-11-09 南京信息工程大学 一种基于自注意力变换网络的动态人脸表情识别方法
CN113657461A (zh) * 2021-07-28 2021-11-16 北京宝兰德软件股份有限公司 基于文本分类的日志异常检测方法、系统、设备及介质
CN114048386A (zh) * 2021-11-23 2022-02-15 中国人民大学 一种基于深度学习的融合个性化和多样化的搜索方法
CN114118630A (zh) * 2022-01-24 2022-03-01 中汽数据(天津)有限公司 一种基于气象事件的需求量预测方法和系统
CN117435716A (zh) * 2023-12-20 2024-01-23 国网浙江省电力有限公司宁波供电公司 电网人机交互终端的数据处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2575128A2 (en) * 2011-09-30 2013-04-03 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN109716334A (zh) * 2016-08-16 2019-05-03 电子湾有限公司 选择下一用户提示类型
CN110297887A (zh) * 2019-06-26 2019-10-01 山东大学 基于云平台的服务机器人个性化对话系统及方法
CN110543242A (zh) * 2019-07-25 2019-12-06 北京智慧章鱼科技有限公司 基于bert技术的表情输入法及其装置
CN111310023A (zh) * 2020-01-15 2020-06-19 中国人民大学 基于记忆网络的个性化搜索方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2575128A2 (en) * 2011-09-30 2013-04-03 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN109716334A (zh) * 2016-08-16 2019-05-03 电子湾有限公司 选择下一用户提示类型
CN110297887A (zh) * 2019-06-26 2019-10-01 山东大学 基于云平台的服务机器人个性化对话系统及方法
CN110543242A (zh) * 2019-07-25 2019-12-06 北京智慧章鱼科技有限公司 基于bert技术的表情输入法及其装置
CN111310023A (zh) * 2020-01-15 2020-06-19 中国人民大学 基于记忆网络的个性化搜索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUJIA ZHOU等: "Encoding History with Context-aware Representation Learningfor Personalized Search", PROCEEDINGS OF THE 43RD INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, pages 1111 - 1120 *
李冬梅;张扬;李东远;林丹琼;: "实体关系抽取方法研究综述", 计算机研究与发展, vol. 57, no. 07, pages 1424 - 1448 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657461A (zh) * 2021-07-28 2021-11-16 北京宝兰德软件股份有限公司 基于文本分类的日志异常检测方法、系统、设备及介质
CN113627349A (zh) * 2021-08-12 2021-11-09 南京信息工程大学 一种基于自注意力变换网络的动态人脸表情识别方法
CN113627349B (zh) * 2021-08-12 2023-12-05 南京信息工程大学 一种基于自注意力变换网络的动态人脸表情识别方法
CN114048386A (zh) * 2021-11-23 2022-02-15 中国人民大学 一种基于深度学习的融合个性化和多样化的搜索方法
CN114048386B (zh) * 2021-11-23 2024-04-09 中国人民大学 一种基于深度学习的融合个性化和多样化的搜索方法
CN114118630A (zh) * 2022-01-24 2022-03-01 中汽数据(天津)有限公司 一种基于气象事件的需求量预测方法和系统
CN114118630B (zh) * 2022-01-24 2022-05-17 中汽数据(天津)有限公司 一种基于气象事件的需求量预测方法和系统
CN117435716A (zh) * 2023-12-20 2024-01-23 国网浙江省电力有限公司宁波供电公司 电网人机交互终端的数据处理方法及系统
CN117435716B (zh) * 2023-12-20 2024-06-11 国网浙江省电力有限公司宁波供电公司 电网人机交互终端的数据处理方法及系统

Also Published As

Publication number Publication date
CN112182373B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN112182373B (zh) 一种基于上下文表示学习的性化搜索方法
CN111611361B (zh) 抽取式机器智能阅读理解问答系统
WO2020211566A1 (zh) 一种用户推荐方法和装置以及计算设备和存储介质
CN111581973B (zh) 一种实体消歧方法及系统
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN108628935B (zh) 一种基于端到端记忆网络的问答方法
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN112182154B (zh) 一种利用个人词向量消除关键词歧义的个性化搜索模型
US20220253477A1 (en) Knowledge-derived search suggestion
US20220172040A1 (en) Training a machine-learned model based on feedback
CN111125538B (zh) 一个利用实体信息增强个性化检索效果的搜索方法
CN110765240A (zh) 多相关句子对的语义匹配评估方法
CN111079409A (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN113297364A (zh) 一种面向对话系统中的自然语言理解方法及装置
US20230237093A1 (en) Video recommender system by knowledge based multi-modal graph neural networks
Dehru et al. Text summarization techniques and applications
Reddy et al. Convolutional recurrent neural network with template based representation for complex question answering
Li et al. LSTM-based deep learning models for answer ranking
CN112182439B (zh) 一种基于自注意力网络的搜索结果多样化方法
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN112989803A (zh) 一种基于主题向量学习的实体链接模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant