CN105488522B - 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法 - Google Patents

融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法 Download PDF

Info

Publication number
CN105488522B
CN105488522B CN201510824301.0A CN201510824301A CN105488522B CN 105488522 B CN105488522 B CN 105488522B CN 201510824301 A CN201510824301 A CN 201510824301A CN 105488522 B CN105488522 B CN 105488522B
Authority
CN
China
Prior art keywords
model
behavior
data
view
satisfaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510824301.0A
Other languages
English (en)
Other versions
CN105488522A (zh
Inventor
吴勇
季海琦
陈岭
范阿琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Hongcheng Computer Systems Co Ltd
Original Assignee
Zhejiang Hongcheng Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Hongcheng Computer Systems Co Ltd filed Critical Zhejiang Hongcheng Computer Systems Co Ltd
Priority to CN201510824301.0A priority Critical patent/CN105488522B/zh
Publication of CN105488522A publication Critical patent/CN105488522A/zh
Application granted granted Critical
Publication of CN105488522B publication Critical patent/CN105488522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,该方法分为数据预处理、训练子视图满意度模型、对未标注数据分配伪标签、训练基于多视图和半监督学习的用户满意度模型和评估六个阶段,本发明通过半监督学习的方法使用少量标注数据和大量未标注数据来提高评估模型的性能,并引入多视图学习的思想来克服传统的基于单视图的半监督学习方法容易陷入局部最优的问题。有益效果在于:(1)可以在少量的标注数据的情况下,有效地评估搜索引擎的用户信息需求满意度;(2)可以通过使用少量标注数据和大量未标注数据来提高用户满意度模型评估性能;(3)分别从行为和时间的角度来描述用户的搜索过程,通过相互学习来避免模型陷入局部最优。

Description

融合多视图和半监督学习的搜索引擎用户信息需求满意度评 估方法
技术领域
本发明涉及互联网信息技术领域,尤其涉及融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法。
背景技术
随着知识经济与信息化建设的高速发展,网络信息数据规模急速膨胀,海量信息资源在丰富人们信息来源的同时,也给人们获取信息造成了困扰,而搜索引擎凭借日趋精准化、人性化的信息检索服务成为用户访问万维网查找和获取资源信息的主要工具之一。同时,搜索引擎需要不断地进行算法改进和系统优化来满足用户日益增长的信息需求和高效方便获取信息资源的要求。因此,如何向用户提供优质的搜索服务,帮助用户快速准确地定位所需的信息资源,从而吸引更多用户使用,一直是商用搜索引擎公司所关注的重点。
传统的搜索引擎质量评价指标如前n位准确率(Precision at n,P@n)、平均准确率(Mean Average Precision,MAP)、标准化折扣累计回报(normalize DiscountedCumulative Gain,nDCG)等需要使用大量的人工标注数据评价搜索引擎的性能,但是这种人工标注需要消耗大量的人力和时间资源,难以大规模地实时开展。半监督学习能够使评价方法自动对大量未标注数据进行利用以辅助少量标注数据学习,然而传统的半监督学习方法大多是基于单视图的,即简单地把数据中所有的子属性集组合成一个单一的属性集,忽略了每个子属性所拥有的独特的统计学上的性质,而且在训练数据极其稀少的情况下容易陷入局部最优。
发明内容
本发明为克服上述的不足之处,目的在于提供融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,该方法包括数据预处理、训练子视图满意度模型、对未标注数据分配伪标签、训练基于多视图和半监督学习的用户满意度模型和评估等部分,本方法可以在少量的标注数据的情况下,有效地评估搜索引擎用户信息需求满意度;可以通过使用少量标注数据和大量未标注数据来提高用户满意度模型评估性能。
本发明通过以下技术方案达到上述目的:融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,包括如下步骤:
(1)将搜索引擎日志数据分为行为视图数据与时间视图数据,其中搜索引擎日志数据包括标注数据与未标注数据两类,并对行为视图数据与时间视图数据作预处理;
(2)对预处理后的数据训练得到基于行为视图的满意度模型与基于时间视图的满意度模型;
(3)利用基于行为视图的满意度模型与基于时间视图的满意度模型对未标注数据分配伪标签;
(4)利用基于行为视图的满意度模型与基于时间视图的满意度模型,结合带有伪标签的未标注数据训练基于多视图和半监督学习的用户满意度模型;
(5)通过基于多视图和半监督学习的用户满意度模型计算得到信息需求的生成概率,输出概率最大的类作为输出的最终分类结果。
作为优选,所述步骤(1)对视图数据与时间视图数据作预处理包括:对搜索引擎日志数据内的标注数据所分出的行为视图数据与时间视图数据按照满意度标签分为满意行为视图数据和不满意行为视图数据,满意时间视图数据和不满意时间视图数据两部分;对搜索引擎日志数据内的未标注数据所分出的行为视图数据与时间视图数据处理得到评估数据。
作为优选,所述步骤(2)的基于行为视图的满意度模型包括基于行为视图的满意模型与基于行为视图的不满意模型,训练基于行为视图的满意模型与训练基于行为视图的不满意模型的方法相同,其中,训练基于行为视图的满意模型的方法步骤如下:
1)以一个信息需求为单位读取经过标注数据预处理的满意行为视图数据;如果所读数据是一个完整的信息需求,则进入步骤2);如果所读数据不是一个完整的信息需求,则继续读取下一个数据;
2)统计已读信息需求出现的行为的类型ai及该类型行为出现的次数统计已读信息需求出现的行为转移的类型(ai,aj)及该行为转移出现的次数
3)利用最大似然估计计算两个行为ai和aj之间的转移概率;用拉普拉斯平滑处理由于数据稀疏而产生的零概率问题,处理公式如下:
其中,α>0是平滑参数,|V|是用户在使用搜索引擎过程中可能出现的行为类型数量;
4)输出满意模型的用户行为转移概率矩阵。
作为优选,所述步骤(2)的基于时间视图的满意度模型包括基于时间视图的满意模型与基于时间视图的不满意模型,训练基于时间视图的满意模型与训练基于时间视图的不满意模型的方法相同,其中,训练基于时间视图的满意模型的方法步骤如下:
(i)以一个信息需求为单位读取经过标注数据预处理的满意时间视图数据;如果所读数据是一个完整的信息需求,则进入步骤(ii);如果所读数据不是一个完整的信息需求,则继续读取下一个数据;
(ii)统计每个行为转移的停留时间;
(iii)利用Gamma分布对行为转移的停留时间建立概率模型:
其中,k是尺度参数,θ是形状参数,x是一个行为转移,且x,k,θ>0,Γ(k)表示在尺度参数k处评估的Gamma函数;
(iv)输出每个行为转移的尺度参数和形状参数。
作为优选,所述步骤(3)利用基于行为视图的满意度模型对未标注数据分配伪标签的步骤如下:
(A)读取两个基于行为视图的用户满意度模型的行为转移概率矩阵;
(B)以一个信息需求为单位读取预处理后的未标注数据产生的行为视图数据;如果所读数据是一个完整的信息需求,则进入步骤(C);如果所读数据不是一个完整的信息需求,则继续读取下一个数据;
(C)对于一个包含n个行为的信息需求S=<sa1,...,sai-1,sai,...,san>,其中sa1、sai-1、sai、san分别表示信息需求S中的第1、i-1、i、n个行为,结合行为转移概率矩阵计算得到从模型中生成此信息需求S的概率为:
其中,C0表示不满意的类,C1表示满意的类;
计算得到最大似然估计为:
其中,P(C)表示类C的先验概率;
(D)计算并获取似然估计值最大的类作为当前信息需求的伪分类结果,同时给当前信息需求分配伪标签,其中计算公式如下所示:
作为优选,所述步骤(3)利用基于时间视图的满意度模型对未标注数据分配伪标签的方法与利用基于行为视图的满意度模型对未标注数据分配伪标签的方法相同。
作为优选,所述步骤(4)训练基于多视图和半监督学习的用户满意度模型的步骤如下:
(I)以一个信息需求为单位读取预处理后标注数据的行为视图数据;
(II)基于步骤(I)的行为视图数据训练基于行为视图的满意模型和不满意模型;
(III)利用基于行为视图的满意模型和不满意模型对预处理后的未标注数据分配伪标签;并将带有伪标签的未标注数据与原始的标注数据整合成新标注数据集;
(IV)对得到的新标注数据集作标注数据预处理,并以一个信息需求为单位读取预处理后标注数据集中的时间视图数据;
(V)基于步骤(IV)得到的时间视图数据训练基于时间视图的满意模型和不满意模型;
(VI)检查比较当前得到的基于行为视图的用户满意度模型与步骤(2)得到的基于行为视图的用户满意度模型是否相同,如果相同则执行步骤(VII),如果不同则执行步骤(VIII);
(VII)检查当前得到的基于时间视图的用户满意度模型与步骤(2)得到的基于时间视图的用户满意度模型是否相同,如果相同则执行步骤(X),如果不同则执行步骤(VIII);
(VIII)根据步骤(V)得出的模型对经过未标注数据预处理的未标注数据分配伪标签;并将带有伪标签的未标注数据与原始的标注数据整合成新标注数据集;
(IX)对步骤(VIII)得到的新标注数据集来做标注数据预处理,并以一个信息需求为单位读取该标注数据集中的行为视图数据;
(X)输出基于行为视图的满意模型和不满意模型,输出基于时间视图的满意模型和不满意模型。
作为优选,所述步骤(5)得到最终分类结果的方法步骤如下:
(a)通过基于多视图和半监督学习的用户满意度模型得到基于行为视图的用户满意度模型和基于时间视图的用户满意度模型;
(b)以一个信息需求为单位读取经过未标注数据预处理的评估数据;如果所读数据是一个完整的信息需求,则进入步骤(c);如果所读数据不是一个完整的信息需求,则继续读取下一个数据;
(c)分别计算当前信息需求在基于行为视图的满意模型中生成的概率和基于行为视图的不满意模型中生成的概率分别计算当前信息需求在基于时间视图的满意模型中生成的概率和基于时间视图的不满意模型中生成的概率
(d)由计算得到在满意模型中生成的概率在不满意模型中生成的概率并在二者中取概率最大的类作为最终分类结果,即:
最后输出当前信息需求的最终分类结果。
本发明的有益效果在于:(1)可以在少量的标注数据的情况下,有效地评估搜索引擎用户信息需求满意度;(2)可以通过使用少量标注数据和大量未标注数据来提高用户满意度模型评估性能;(3)分别从行为和时间的角度来描述用户的搜索过程,通过相互学习来避免模型陷入局部最优。
附图说明
图1是本发明方法的流程示意图;
图2是本发明标注数据预处理的流程示意图;
图3是本发明未标注数据预处理的流程示意图;
图4是本发明训练基于行为视图的用户满意度模型示意图;
图5是本发明训练基于时间视图的用户满意度模型示意图;
图6是本发明基于行为视图的满意度模型对未标注数据分配伪标签流程示意图;
图7是本发明基于时间视图的满意度模型对未标注数据分配伪标签流程示意图;
图8是本发明训练融合多视图和半监督学习的用户满意度模型流程图;
图9是本发明评估用户满意度流程图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:如图1所示,融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,该方法分为数据预处理、训练子视图满意度模型、对未标注数据分配伪标签、训练基于多视图和半监督学习的用户满意度模型和评估六个阶段。
数据预处理阶段包括标注数据预处理和未标注数据预处理两个子阶段:
标注数据预处理阶段的流程图如图2所示,主要包括以下步骤:
步骤1,把搜索引擎日志数据分为行为视图数据和时间视图数据。行为视图数据从用户搜索行为之间的转移来描述用户的搜索过程,包括信息需求、搜索行为和满意度三列数据;时间视图数据从用户停留在某个搜索行为的时间来描述用户的搜索过程,包括信息需求、搜索行为、停留时间和满意度四列数据;
步骤2,把行为视图数据按照满意度标签分为满意行为视图数据和不满意行为视图数据两部分;
步骤3,把时间视图数据按照满意度标签分为满意时间视图数据和不满意时间视图数据两部分。
未标注数据预处理阶段的流程图如图3所示,把搜索引擎日志数据分为行为视图数据和时间视图数据。行为视图数据从用户搜索行为之间的转移来描述用户的搜索过程,包括信息需求和搜索行为两列数据;时间视图数据从用户停留在某个搜索行为的时间来描述用户的搜索过程,包括信息需求、搜索行为和停留时间三列数据。
训练子视图满意度模型阶段包括训练基于行为视图的满意模型、训练基于行为视图的不满意模型、训练基于时间视图的满意模型和训练基于时间视图的不满意模型四个子阶段:
训练基于行为视图的满意模型阶段的流程图如图4所示,主要包括以下步骤:
步骤1,读取经过标注数据预处理的满意行为视图数据;
步骤2,以一个信息需求为单位来读取数据。如果所读数据是一个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
步骤3,统计已读信息需求出现的行为的类型ai及该类型行为出现的次数统计已读信息需求出现的行为转移的类型(ai,aj)及该行为转移出现的次数
步骤4,计算行为转移概率。每个信息需求都可以简单的表示成一个基于用户行为的马尔可夫模型;马尔可夫模型的状态空间是用户在搜索过程中可能出现的多种行为的集合;用最大似然估计来计算两个行为ai和aj之间的转移概率,用拉普拉斯平滑来处理由于数据稀疏而产生的零概率问题:
α>0是平滑参数,|V|是用户在使用搜索引擎过程中可能出现的行为类型数量。
步骤5,输出满意模型的用户行为转移概率矩阵。
训练基于行为视图的不满意模型与训练基于行为视图的满意模型相同,具体包括以下步骤:
步骤1,读取经过标注数据预处理的不满意行为视图数据;
步骤2,以一个信息需求为单位来读取数据。如果所读数据是一个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
步骤3,统计已读信息需求出现的行为的类型ai及该类型行为出现的次数统计已读信息需求出现的行为转移的类型(ai,aj)及该行为转移出现的次数
步骤4,计算行为转移概率;
步骤5,输出不满意模型的用户行为转移概率矩阵。
训练基于时间视图的满意模型阶段的流程图如图5所示,主要包括以下步骤:
步骤1,读取经过标注数据预处理的满意时间视图数据;
步骤2,以一个信息需求为单位来读取数据。如果所读数据是一个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
步骤3,统计每个行为转移的停留时间;
步骤4,用Gamma分布对行为转移的停留时间建立概率模型:
k是尺度参数,θ是形状参数,x是一个行为转移,且x,k,θ>0,Γ(k)表示在尺度参数k处评估的Gamma函数;
步骤5,输出每个行为转移的尺度参数和形状参数。
训练基于时间视图的不满意模型和训练基于时间视图的满意模型相同,具体包括以下步骤:
步骤1,读取经过标注数据预处理的不满意时间视图数据;
步骤2,以一个信息需求为单位来读取数据。如果所读数据是一个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
步骤3,统计每个行为转移的停留时间;
步骤4,计算每个行为转移停留时间的概率密度函数;
步骤5,输出每个行为转移的尺度参数和形状参数。
对未标注数据分配伪标签阶段包括基于行为视图的用户满意度模型对未标注数据分配伪标签和基于时间视图的用户满意度模型对未标注数据分配伪标签流程图两个子阶段:
基于行为视图的用户满意度模型对未标注数据分配伪标签阶段的流程图如图6所示,主要包括以下步骤:
步骤1,读取两个基于行为视图用户满意度模型的行为转移概率矩阵;
步骤2,读取经过未标注数据预处理的未标注行为视图数据;
步骤3,以一个信息需求为单位来读取数据。如果所读数据是一个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
步骤4,计算最大似然估计。给定一个基于行为视图的用户满意度模型和一个包含n个行为的信息需求S=<sa1,...,sai-1,sai,...,san>,其中sa1、sai-1、sai、san分别表示信息需求S中的第1、i-1、i、n个行为,则从该模型中生成这个信息需求S的概率是:
C0表示不满意的类,C1表示满意的类。
最大似然估计为:
P(C)表示类C的先验概率;
步骤5,计算伪分类结果。取似然估计值最大的类作为当前信息需求的伪分类结果,即:
步骤6,给当前信息需求分配伪标签。
基于时间视图的用户满意度模型对未标注数据分配伪标签阶段的流程图如图7所示,主要包括以下步骤:
步骤1,读取两个基于时间视图用户满意度模型的停留时间概率密度函数;
步骤2,读取经过未标注数据预处理的未标注时间视图数据;
步骤3,以一个信息需求为单位来读取数据。如果所读数据是一个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
步骤4,计算最大似然估计。给定一个基于时间视图的用户满意度模型和一个包含n个行为的信息需求S,则从该模型中生成这个信息需求S的最大似然估计为:
Γ(kii,C)表示在类C中,信息需求S出现的第i次行为转移停留时间的概率密度函数,m表示S中出现行为转移的次数。
步骤5,计算伪分类结果。取似然估计值最大的类作为当前信息需求的伪分类结果,即:
步骤6,给当前信息需求分配伪标签。
训练基于多视图和半监督学习的用户满意度模型阶段的流程图如图8所示,主要包括以下步骤:
步骤1,以一个信息需求为单位来读取经过标注数据预处理的行为视图数据;
步骤2,训练基于行为视图的满意模型和不满意模型;
步骤3,根据步骤2得出的模型对经过未标注数据预处理的未标注数据分配伪标签;
步骤4,将带有伪标签的未标注数据与原始的标注数据整合成新的标注数据集;
步骤5,对步骤4得到的新标注数据集来做标注数据预处理,并以一个信息需求为单位读取该标注数据集中的时间视图数据;
步骤6,训练基于时间视图的满意模型和不满意模型;
步骤7,检查当前得到的基于行为视图的用户满意度模型与前一次得到的基于行为视图的用户满意度模型是否相同,如果相同则执行步骤8,如果不同则执行步骤9;
步骤8,检查当前得到的基于时间视图的用户满意度模型与前一次得到的基于时间视图的用户满意度模型是否相同,如果相同则执行步骤12,,如果不同则执行步骤9;
步骤9,根据步骤6得出的模型对经过未标注数据预处理的未标注数据分配伪标签;
步骤10,将带有伪标签的未标注数据与原始的标注数据整合成新的标注数据集;
步骤11,对步骤10得到的新标注数据集来做标注数据预处理,并以一个信息需求为单位读取该标注数据集中的行为视图数据;
步骤12,输出基于行为视图的满意模型和不满意模型;
步骤13,输出基于时间视图的满意模型和不满意模型;
评估阶段的流程图如图9所示,主要包括以下步骤:
步骤1,读取在训练基于多视图和半监督学习的用户满意度模型阶段得到的基于行为视图和时间视图的用户满意度模型;
步骤2,读取经过未标注数据预处理的评估数据;
步骤3,以一个信息需求为单位来读取数据。如果所读数据是一个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
步骤4,计算当前信息需求分别从基于行为视图的满意模型中生成的概率和基于行为视图的不满意模型中生成的概率
步骤5,计算当前信息需求分别从基于时间视图的满意模型中生成的概率和基于时间视图的不满意模型中生成的概率
步骤6,计算当前信息需求的最终分类结果。将该信息需求从基于行为视图和基于时间视图的满意模型生成的概率相乘得到该信息需求从满意模型中生成的概率将该信息需求从基于行为视图和基于时间视图的不满意模型生成的概率相乘得到该信息需求从满意模型中生成的概率取得到生成概率最大的类作为最终分类结果,即:
步骤7,输出当前信息需求的最终分类结果。
综上所述,本发明通过半监督学习的方法使用少量标注数据和大量未标注数据来提高评估模型的性能,并引入多视图学习的思想来克服传统的基于单视图的半监督学习方法容易陷入局部最优的问题。本发明使用用户满意度作为搜索引擎质量的评价指标,基于网络搜索引擎的查询日志,引入用户行为模型,定义两个视图来描述用户的搜索过程,即行为视图和时间视图。使用两个视图的少量标注数据分别建立基于行为视图的用户满意度模型和基于时间视图的用户满意度模型,这两个视图的模型在向未标注数据分配伪标签的过程中不断更新,相互学习,直至两个视图的模型都收敛,用得到的两个视图的模型来评估用户的满意程度。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (8)

1.融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,其特征在于,包括如下步骤:
(1)将搜索引擎日志数据分为行为视图数据与时间视图数据,其中搜索引擎日志数据包括标注数据与未标注数据两类,并对行为视图数据与时间视图数据作预处理;
(2)对预处理后的数据训练得到基于行为视图的满意度模型与基于时间视图的满意度模型;
(3)利用基于行为视图的满意度模型与基于时间视图的满意度模型对未标注数据分配伪标签;
(4)利用基于行为视图的满意度模型与基于时间视图的满意度模型,结合带有伪标签的未标注数据训练基于多视图和半监督学习的用户满意度模型;
(5)通过基于多视图和半监督学习的用户满意度模型计算得到信息需求的生成概率,输出概率最大的类作为输出的最终分类结果。
2.根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,其特征在于:所述步骤(1)对视图数据与时间视图数据作预处理包括:对搜索引擎日志数据内的标注数据所分出的行为视图数据与时间视图数据按照满意度标签分为满意行为视图数据和不满意行为视图数据,满意时间视图数据和不满意时间视图数据两部分;对搜索引擎日志数据内的未标注数据所分出的行为视图数据与时间视图数据处理得到评估数据。
3.根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,其特征在于:所述步骤(2)的基于行为视图的满意度模型包括基于行为视图的满意模型与基于行为视图的不满意模型,训练基于行为视图的满意模型与训练基于行为视图的不满意模型的方法相同,其中,训练基于行为视图的满意模型的方法步骤如下:
1)以一个信息需求为单位读取经过标注数据预处理的满意行为视图数据;如果所读数据是一个完整的信息需求,则进入步骤2);如果所读数据不是一个完整的信息需求,则继续读取下一个数据;
2)统计已读信息需求出现的行为的类型ai及该类型行为出现的次数统计已读信息需求出现的行为转移的类型(ai,aj)及该行为转移出现的次数
3)利用最大似然估计计算两个行为ai和aj之间的转移概率;用拉普拉斯平滑处理由于数据稀疏而产生的零概率问题,处理公式如下:
其中,α>0是平滑参数,|V|是用户在使用搜索引擎过程中可能出现的行为类型数量;
4)输出满意模型的用户行为转移概率矩阵。
4.根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,其特征在于:所述步骤(2)的基于时间视图的满意度模型包括基于时间视图的满意模型与基于时间视图的不满意模型,训练基于时间视图的满意模型与训练基于时间视图的不满意模型的方法相同,其中,训练基于时间视图的满意模型的方法步骤如下:
(i)以一个信息需求为单位读取经过标注数据预处理的满意时间视图数据;如果所读数据是一个完整的信息需求,则进入步骤(ii);如果所读数据不是一个完整的信息需求,则继续读取下一个数据;
(ii)统计每个行为转移的停留时间;
(iii)利用Gamma分布对行为转移的停留时间建立概率模型:
其中,k是尺度参数,θ是形状参数,x是一个行为转移,且x,k,θ>0,Γ(k)表示在尺度参数k处评估的Gamma函数;
(iv)输出每个行为转移的尺度参数和形状参数。
5.根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,其特征在于:所述步骤(3)利用基于行为视图的满意度模型对未标注数据分配伪标签的步骤如下:
(A)读取两个基于行为视图的用户满意度模型的行为转移概率矩阵;
(B)以一个信息需求为单位读取预处理后的未标注数据产生的行为视图数据;如果所读数据是一个完整的信息需求,则进入步骤(C);如果所读数据不是一个完整的信息需求,则继续读取下一个数据;
(C)对于一个包含n个行为的信息需求S=<sa1,...,sai-1,sai,...,san>,其中sa1、sai-1、sai、san分别表示信息需求S中的第1、i-1、i、n个行为,结合行为转移概率矩阵计算得到从模型中生成此信息需求S的概率为:
其中,C0表示不满意的类,C1表示满意的类;
计算得到最大似然估计为:
其中,P(C)表示类C的先验概率;
(D)计算并获取似然估计值最大的类作为当前信息需求的伪分类结果,同时给当前信息需求分配伪标签,其中计算公式如下所示:
6.根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,其特征在于:所述步骤(3)利用基于时间视图的满意度模型对未标注数据分配伪标签的方法与利用基于行为视图的满意度模型对未标注数据分配伪标签的方法相同。
7.根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,其特征在于:所述步骤(4)训练基于多视图和半监督学习的用户满意度模型的步骤如下:
(I)以一个信息需求为单位读取预处理后标注数据的行为视图数据;
(II)基于步骤(I)的行为视图数据训练基于行为视图的满意模型和不满意模型;
(III)利用基于行为视图的满意模型和不满意模型对预处理后的未标注数据分配伪标签;并将带有伪标签的未标注数据与原始的标注数据整合成新标注数据集;
(IV)对得到的新标注数据集作标注数据预处理,并以一个信息需求为单位读取预处理后标注数据集中的时间视图数据;
(V)基于步骤(IV)得到的时间视图数据训练基于时间视图的满意模型和不满意模型;
(VI)检查比较当前得到的基于行为视图的用户满意度模型与步骤(2)得到的基于行为视图的用户满意度模型是否相同,如果相同则执行步骤(VII),如果不同则执行步骤(VIII);
(VII)检查当前得到的基于时间视图的用户满意度模型与步骤(2)得到的基于时间视图的用户满意度模型是否相同,如果相同则执行步骤(X),如果不同则执行步骤(VIII);
(VIII)根据步骤(V)得出的模型对经过未标注数据预处理的未标注数据分配伪标签;并将带有伪标签的未标注数据与原始的标注数据整合成新标注数据集;
(IX)对步骤(VIII)得到的新标注数据集来做标注数据预处理,并以一个信息需求为单位读取该标注数据集中的行为视图数据;
(X)输出基于行为视图的满意模型和不满意模型,输出基于时间视图的满意模型和不满意模型。
8.根据权利要求1所述的融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,其特征在于:所述步骤(5)得到最终分类结果的方法步骤如下:
(a)通过基于多视图和半监督学习的用户满意度模型得到基于行为视图的用户满意度模型和基于时间视图的用户满意度模型;
(b)以一个信息需求为单位读取经过未标注数据预处理的评估数据;如果所读数据是一个完整的信息需求,则进入步骤(c);如果所读数据不是一个完整的信息需求,则继续读取下一个数据;
(c)分别计算当前信息需求在基于行为视图的满意模型中生成的概率和基于行为视图的不满意模型中生成的概率分别计算当前信息需求在基于时间视图的满意模型中生成的概率和基于时间视图的不满意模型中生成的概率
(d)由计算得到在满意模型中生成的概率在不满意模型中生成的概率并在二者中取概率最大的类作为最终分类结果,即:
最后输出当前信息需求的最终分类结果。
CN201510824301.0A 2015-11-23 2015-11-23 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法 Active CN105488522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510824301.0A CN105488522B (zh) 2015-11-23 2015-11-23 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510824301.0A CN105488522B (zh) 2015-11-23 2015-11-23 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法

Publications (2)

Publication Number Publication Date
CN105488522A CN105488522A (zh) 2016-04-13
CN105488522B true CN105488522B (zh) 2018-09-07

Family

ID=55675493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510824301.0A Active CN105488522B (zh) 2015-11-23 2015-11-23 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法

Country Status (1)

Country Link
CN (1) CN105488522B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021985B (zh) * 2016-11-03 2022-05-10 北京如布科技有限公司 一种模型参数训练方法及装置
CN108230339B (zh) * 2018-01-31 2021-08-03 浙江大学 一种基于伪标签迭代标注的胃癌病理切片标注补全方法
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110737812A (zh) * 2019-09-20 2020-01-31 浙江大学 一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法
CN110929032B (zh) * 2019-11-21 2022-12-09 山东鲁能软件技术有限公司 一种软件系统的用户需求处理系统及处理方法
CN110930068B (zh) * 2019-12-10 2021-03-26 安徽新知数媒信息科技有限公司 传统读物可视化体验指数预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346753A (zh) * 2010-08-01 2012-02-08 青岛理工大学 一种融合成对约束和关键词的半监督文本聚类方法及装置
CN102449630A (zh) * 2009-05-27 2012-05-09 微软公司 合并搜索结果
CN103164537A (zh) * 2013-04-09 2013-06-19 浙江鸿程计算机系统有限公司 一种面向用户信息需求的搜索引擎日志数据挖掘的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102449630A (zh) * 2009-05-27 2012-05-09 微软公司 合并搜索结果
CN102346753A (zh) * 2010-08-01 2012-02-08 青岛理工大学 一种融合成对约束和关键词的半监督文本聚类方法及装置
CN103164537A (zh) * 2013-04-09 2013-06-19 浙江鸿程计算机系统有限公司 一种面向用户信息需求的搜索引擎日志数据挖掘的方法

Also Published As

Publication number Publication date
CN105488522A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN105488522B (zh) 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法
Camburn et al. Machine learning-based design concept evaluation
CN110489395A (zh) 自动获取多源异构数据知识的方法
CN103605658B (zh) 一种基于文本情感分析的搜索引擎系统
CN101354714B (zh) 一种基于概率潜在语义分析的问题推荐方法
CN109213861A (zh) 结合At_GRU神经网络与情感词典的旅游评价情感分类方法
CN106105096A (zh) 用于连续社交通信的系统和方法
CN103678431A (zh) 一种基于标准标签和项目评分的推荐方法
CN102982107A (zh) 一种融合用户、项目和上下文属性信息的推荐系统优化方法
CN103150333A (zh) 微博媒体中的意见领袖识别方法
CN109190121A (zh) 基于汽车本体和词性规则的汽车评论情感分析方法
CN110196928B (zh) 完全并行化具有领域扩展性的端到端多轮对话系统及方法
CN106708802A (zh) 一种信息推荐的方法及系统
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN110119688A (zh) 一种利用视觉注意力协同网络的图像情感分类方法
CN107315731A (zh) 文本相似度计算方法
Xu et al. Multi-modal transformer with global-local alignment for composed query image retrieval
CN102945372B (zh) 基于多标签约束支持向量机的分类方法
CN101398846A (zh) 基于局部颜色空间特征的图像语义概念检测的方法
CN108829810A (zh) 面向健康舆情的文本分类方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN113128667A (zh) 一种跨域自适应的图卷积平衡迁移学习方法与系统
CN109543512A (zh) 图文摘要的评价方法
CN103593334A (zh) 一种用于判断文本情感程度的方法和系统
CN109871889A (zh) 突发事件下大众心理评估方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant