CN110737812A - 一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法 - Google Patents

一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法 Download PDF

Info

Publication number
CN110737812A
CN110737812A CN201910891613.1A CN201910891613A CN110737812A CN 110737812 A CN110737812 A CN 110737812A CN 201910891613 A CN201910891613 A CN 201910891613A CN 110737812 A CN110737812 A CN 110737812A
Authority
CN
China
Prior art keywords
data
view
user satisfaction
behavior
evaluation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910891613.1A
Other languages
English (en)
Inventor
陈岭
范阿琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910891613.1A priority Critical patent/CN110737812A/zh
Publication of CN110737812A publication Critical patent/CN110737812A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法,具体包括以下步骤:1)利用人工标注获取初始的有标注数据;2)同时使用有标注数据和无标注数据来训练基于半监督学习的用户满意度分类器;3)引入一种整合选择策略来挑选出最具代表性和最富信息量的争议数据给标注人员标注,并更新有标注数据和无标注数据;4)重复训练基于半监督学习的用户满意度分类器和挑选争议数据的过程直至耗尽所有人工标注成本;5)利用构建的用户满意度分类器识别给定样本的用户满意度标签。本发明方法能够促进搜索引擎技术的发展,方便人们的生产生活。

Description

一种融合半监督学习和主动学习的搜索引擎用户满意度评估 方法
技术领域
本发明涉及互联网信息技术领域,尤其涉及一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法。
背景技术
搜索引擎是用户访问万维网查找和获取资源信息的主要工具之一。随着互联网信息数据规模急速膨胀,用户对于高效便捷获取信息资源的要求越来越高,搜索引擎需要不断地进行算法改进和系统优化来满足用户日益增长的信息需求和高效方便获取信息资源的要求,因此,如何有效评估搜索引擎的质量成为了研究界与产业界关注的焦点。
搜索满意度是基于用户搜索体验来评估搜索引擎质量的重要指标之一。大多数现有的搜索引擎用户满意度评估方法通常将该任务转化为二分类问题,通过有监督学习的方法对搜索引擎日志中的用户行为数据进行建模,进而评估该搜索任务对用户是满意的或不满意的。
然而,这些方法存在的问题是,需要大量的有标注数据作为训练样本,以获得有效的搜索满意度评估模型。如果模型的训练样本数量不足,则会导致训练出的模型出现过拟合的问题。而在实际的应用场景中,由于难以直接采集到用户对当前搜索结果是否满意的信息,搜索引擎日志中仅可获取到大量的无标注用户搜索行为数据。此外,考虑到通过人工标注的方式对所有的无标注数据打标签既费时、费力、成本又高,因此有标注的用户搜索行为数据往往是非常有限的。
为了解决这个问题,研究人员提出通过半监督学习的方式同时利用有标注数据和无标注数据来提高搜索满意度评估方法的性能。
现有的基于半监督学习的搜索满意度评估方法通常使用人工标注的方式来获取部分初始的有标注数据。然而,在执行半监督学习方法之前,这些初始的有标注数据是在没有指导的情况下随机挑选的,由于不同的数据样本对于搜索满意度评估模型的贡献度不同,这种随机挑选的方式不能保证这些数据就是最具标注价值的数据,从而无法充分利用有限的人工标注成本。
发明内容
本发明要解决的问题是如何在少量人工标注成本的情况下更有效地评估搜索引擎用户满意度。
为了解决上述问题,本发明提供了一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法,包括以下步骤:
步骤1,对搜索引擎日志进行标签标注,分为有标注数据和无标注数据,同时将搜索引擎日志划分为行为视图数据和时间视图数据,以搜索引擎日志的标签作为对应的行为视图数据和时间视图数据的标签;
步骤2,采用有标注数据和无标注数据来训练基于半监督学习的用户满意度分类器,所述用户满意度分类器包括基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型;
步骤3,引入整合选择策略挑选出争议数据给标注人员标注,并更新有标注数据和无标注数据,并利用更新后的有标注数据和无标注数据重新训练基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型,直到满足迭代终止条件,获得最终的基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型;
步骤4,利用基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型识别待识别搜索引擎日志对应的用户满意度标签。
与现有技术相比,本发明具有的有益效果为:
本发明在主动学习部分阶段性地使用给定的人工标注成本,半监督学习部分利用无标注数据提高了主动学习部分中所使用的分类器的准确率,同时,引入一种基于局部密度和分类器之间分歧程度的整合选择策略来挑选最具代表性和最富信息量的争议数据给标注人员标注,提高搜索满意度评估方法的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为融合半监督学习和主动学习的搜索引擎用户满意度评估方法流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本发明要解决的问题是如何在少量人工标注成本的情况下更有效地评估搜索引擎用户满意度。为了解决该问题,本实施例提供了一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法,如图1所示,具体包括以下步骤:
步骤1,对搜索引擎日志进行标签标注,分为有标注数据和无标注数据,同时将搜索引擎日志划分为行为视图数据和时间视图数据,以搜索引擎日志的标签作为对应的行为视图数据和时间视图数据的标签。
具体地,步骤1具体包括:
步骤1-1,将搜索引擎日志以信息需求为单位进行划分,通过人工标注对随机挑选的q个信息需求赋予标签,将有标签的信息需求所对应的数据作为初始的有标注数据,将无标签的信息需求所对应的数据作为无标注数据;
步骤1-2,从每个信息需求所对应的搜索引擎日志中分别提取出行为视图数据和时间视图数据,行为视图数据是由n个行为组成的有序序列SA=<a1,a2,...,an>,时间视图数据是由n-1个停留时间组成的有序序列
Figure BDA0002208916490000041
信息需求对应的标签作为对应行为视图数据和时间视图数据的标签。
步骤2,采用有标注数据和无标注数据来训练基于半监督学习的用户满意度分类器,所述用户满意度分类器包括基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型。
具体地,步骤2具体包括:
步骤2-1,从有标注数据中读取行为视图数据,并将读取的行为视图数据按照满意度标签分为满意行为视图数据和不满意行为视图数据两部分;
步骤2-2,利用满意行为视图数据训练行为视图满意模型,利用不满意行为视图数据训练行为视图不满意模型,训练好的行为视图满意模型和行为视图不满意模型组成基于行为视图的用户满意度评估模型hA
步骤2-2中,使用生成模型来训练基于行为视图的用户满意度评估模型hA,学习观察值和标签值的联合概率分布,并利用马尔可夫链来对任意两个行为之间的转移进行建模,通过最大似然估计来计算两个行为ai和aj之间的转移概率:
Figure BDA0002208916490000051
其中,
Figure BDA0002208916490000052
表示类C的行为视图数据中出现ai转移到aj的经验次数,
Figure BDA0002208916490000053
表示类C的行为视图数据中出现ai的经验次数,α>0表示平滑参数,通常设置为1,|V|表示行为类型的数量,Cs和Cu分别表示满意的类和不满意的类。
步骤2-3,从无标注数据中读取行为视图数据,利用基于行为视图的用户满意度评估模型hA对行为视图数据赋予伪标签,该伪标签作为行为视图数据对应的无标注数据的伪标签
Figure BDA0002208916490000054
步骤2-3中,将行为视图数据SA作为数据源,利用基于行为视图的用户满意度评估模型hA生成SA的概率P(SA|C)为:
Figure BDA0002208916490000055
给定行为视图数据SA,基于行为视图的用户满意度评估模型hA的似然值P(C|SA)为:
Figure BDA0002208916490000056
其中,Cs表示满意的类,Cu表示不满意的类,P(C)表示类C的先验概率,
Figure BDA0002208916490000057
表示第i-1个行为和第i个行为之间的转移概率,用最大似然估计近似计算得出,P(SA)表示生成行为视图数据SA的概率;
取似然值P(C|SA)最大的类作为SA的伪标签
Figure BDA0002208916490000064
即:
Figure BDA0002208916490000061
行为视图数据SA的伪标签
Figure BDA0002208916490000065
即为行为视图数据SA对应的无标注数据赋予伪标签
Figure BDA0002208916490000062
步骤2-4,从带有伪标签的无标注数据和有标注数据中读取时间视图数据,并将读取的时间视图数据按照满意度标签分为满意时间视图数据和不满意时间视图数据两部分;
步骤2-5,利用满意时间视图数据训练时间视图满意模型,利用不满意时间视图数据训练时间视图不满意模型,训练好的时间视图满意模型和时间视图不满意模型组成基于时间视图的用户满意度评估模型hT
步骤2-5中,使用生成模型来训练基于时间视图的用户满意度评估模型hT,通过Gamma分布来对连续行为之间的时间间隔进行建模,Gamma分布包含形状参数k和尺度参数θ,其概率密度函数表示为:
Figure BDA0002208916490000063
其中t表示连续行为之间的时间间隔,Γ(k)表示在k处评估的Gamma函数。
步骤2-6,检查当前的基于行为视图的用户满意度评估模型hA与前一次迭代获得的基于行为视图的用户满意度评估模型hA是否相同,如果相同则执行步骤2-7,如果不同则执行步骤2-9;
步骤2-7,检查当前的基于时间视图的用户满意度评估模型hT与前一次迭代获得的基于时间视图的用户满意度评估模型hT是否相同,如果相同则执行步骤2-8,如果不同则执行步骤2-9;
步骤2-8,输出基于行为视图的用户满意度评估模型hA和基于时间视图的用户满意度评估模型hT
步骤2-9,从无标注数据中读取时间视图数据,利用基于时间视图的用户满意度评估模型hT对时间视图数据赋予伪标签,该伪标签作为时间视图数据对应的无标注数据的伪标签
Figure BDA0002208916490000071
步骤2-9中,对于给定的时间视图数据ST,基于时间视图的用户满意度评估模型hT的似然值P(C|ST)为:
Figure BDA0002208916490000072
其中,Γ(kii,C)是
Figure BDA0002208916490000073
的Gamma分布的概率密度函数,
Figure BDA0002208916490000074
是类C的ST中第i个时间间隔,m是ST中出现的行为转移的次数;
取似然值P(C|ST)最大的类作为ST的伪标签
Figure BDA0002208916490000077
即:
Figure BDA0002208916490000075
时间视图数据ST的伪标签
Figure BDA0002208916490000078
即为时间视图数据ST对应的无标注数据赋予伪标签
Figure BDA0002208916490000076
步骤2-10,从带有伪标签的无标注数据和有标注数据中读取行为视图数据,并将读取的行为视图数据按照满意度标签分为满意行为视图数据和不满意行为视图数据两部分后,跳转执行步骤2-2。
步骤3,引入整合选择策略挑选出争议数据给标注人员标注,并更新有标注数据和无标注数据,并利用更新后的有标注数据和无标注数据重新训练基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型,直到满足迭代终止条件,获得最终的基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型。
具体地,步骤3具体包括:
步骤3-1,对于同一个无标注数据,读取通过基于行为视图的用户满意度评估模型hA对无标注数据赋予伪标签
Figure BDA0002208916490000081
和通过基于时间视图的用户满意度评估模型hT对无标注数据赋予伪标签
Figure BDA0002208916490000082
如果伪标签
Figure BDA0002208916490000083
与伪标签
Figure BDA0002208916490000084
不同,则将该无标注数据作为争议数据添加到争议数据集Q中。
步骤3-2,利用整合选择策略来衡量争议数据集Q中争议数据的代表性和信息量,使用基于行为视图的用户满意度评估模型hA与基于时间视图的用户满意度评估模型hT之间的分歧程度来衡量争议数据的信息量,使用局部密度来衡量争议数据的代表性。
步骤3-2中,给定一个争议数据x,其分歧程度Deg(x)为:
Figure BDA0002208916490000085
其中,Confidence(hA(x),CS)表示x从行为视图满意模型中生成的概率,Confidence(hT(x),CS)表示x从时间视图满意模型中生成的概率,Confidence(hA(x),CU)表示x从行为视图不满意模型中生成的概率,Confidence(hT(x),CU)表示x从时间视图不满意模型中生成的概率;
争议数据x的局部密度用x与其r个最邻近的争议数据的平均距离来表示,平均距离越小,则局部密度越大,从而x就越具有代表性,给定一个争议数据x,局部密度Den(x)为:
Figure BDA0002208916490000086
其中,distance(x,xi)是基于每种行为转移出现的次数计算出的x和与其最邻近的第i个争议数据xi之间的欧几里德距离。
步骤3-3,从争议数据集Q中挑选出l个最具代表性和最富信息量的争议数据给标注人员标注。
具体地,最具代表性和最富信息量的争议数据qselected为:
步骤3-4,通过人工标注对挑选出的争议数据赋予标签,并将其添加到有标注数据中,同时将争议数据从无标注数据中移除;
步骤3-5,在步骤3-4的基础上,跳转执行步骤2,直到满足迭代终止条件,获得最终的基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型。
本实施例中,迭代终止条件为是否已耗尽所有人工标注成本,及在耗尽所有人工标注成本时,输出最终的基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型。
步骤4,利用基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型识别待识别搜索引擎日志对应的用户满意度标签。
具体地,步骤4具体包括:
步骤4-1,从用户提供的待识别搜索满意度的样本中分别提取出行为视图数据SA和时间视图数据ST
步骤4-2,利用基于行为视图的用户满意度评估模型hA来识别所有挑选出的争议数据的标签,并计算被错误识别的争议数据的数量mistakes(hA);利用基于时间视图的用户满意度评估模型hT来识别所有挑选出的争议数据的标签,并计算被错误识别的争议数据的数量mistakes(hT);
步骤4-3,基于mistakes(hA)和mistakes(hT)来计算样本的最终分类结果,如果mistakes(hA)<mistakes(hT),则将基于行为视图的用户满意度评估模型hA对样本的分类结果
Figure BDA0002208916490000101
作为其最终分类结果;否则,将基于时间视图的用户满意度评估模型hT对样本的分类结果
Figure BDA0002208916490000102
作为其最终分类结果。
上述融合半监督学习和主动学习的搜索引擎用户满意度评估方法中,通过引入主动学习以更充分地利用有限的人工标注成本,并结合半监督学习和主动学习的优点来提高搜索满意度评估方法的性能,同时利用整合选择策略来衡量争议数据的代表性和信息量,从而挑选出最具标注价值的数据。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法,包括以下步骤:
步骤1,对搜索引擎日志进行标签标注,分为有标注数据和无标注数据,同时将搜索引擎日志划分为行为视图数据和时间视图数据,以搜索引擎日志的标签作为对应的行为视图数据和时间视图数据的标签;
步骤2,采用有标注数据和无标注数据来训练基于半监督学习的用户满意度分类器,所述用户满意度分类器包括基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型;
步骤3,引入整合选择策略挑选出争议数据给标注人员标注,并更新有标注数据和无标注数据,并利用更新后的有标注数据和无标注数据重新训练基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型,直到满足迭代终止条件,获得最终的基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型;
步骤4,利用基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型识别待识别搜索引擎日志对应的用户满意度标签。
2.如权利要求1所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法,其特征在于,步骤1具体包括:
步骤1-1,将搜索引擎日志以信息需求为单位进行划分,通过人工标注对随机挑选的q个信息需求赋予标签,将有标签的信息需求所对应的数据作为初始的有标注数据,将无标签的信息需求所对应的数据作为无标注数据;
步骤1-2,从每个信息需求所对应的搜索引擎日志中分别提取出行为视图数据和时间视图数据,行为视图数据是由n个行为组成的有序序列SA=<a1,a2,...,an>,时间视图数据是由n-1个停留时间组成的有序序列
Figure FDA0002208916480000021
信息需求对应的标签作为对应行为视图数据和时间视图数据的标签。
3.如权利要求1所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法,其特征在于,步骤2具体包括:
步骤2-1,从有标注数据中读取行为视图数据,并将读取的行为视图数据按照满意度标签分为满意行为视图数据和不满意行为视图数据两部分;
步骤2-2,利用满意行为视图数据训练行为视图满意模型,利用不满意行为视图数据训练行为视图不满意模型,训练好的行为视图满意模型和行为视图不满意模型组成基于行为视图的用户满意度评估模型hA
步骤2-3,从无标注数据中读取行为视图数据,利用基于行为视图的用户满意度评估模型hA对行为视图数据赋予伪标签,该伪标签作为行为视图数据对应的无标注数据的伪标签
Figure FDA0002208916480000022
步骤2-4,从带有伪标签的无标注数据和有标注数据中读取时间视图数据,并将读取的时间视图数据按照满意度标签分为满意时间视图数据和不满意时间视图数据两部分;
步骤2-5,利用满意时间视图数据训练时间视图满意模型,利用不满意时间视图数据训练时间视图不满意模型,训练好的时间视图满意模型和时间视图不满意模型组成基于时间视图的用户满意度评估模型hT
步骤2-6,检查当前的基于行为视图的用户满意度评估模型hA与前一次迭代获得的基于行为视图的用户满意度评估模型hA是否相同,如果相同则执行步骤2-7,如果不同则执行步骤2-9;
步骤2-7,检查当前的基于时间视图的用户满意度评估模型hT与前一次迭代获得的基于时间视图的用户满意度评估模型hT是否相同,如果相同则执行步骤2-8,如果不同则执行步骤2-9;
步骤2-8,输出基于行为视图的用户满意度评估模型hA和基于时间视图的用户满意度评估模型hT
步骤2-9,从无标注数据中读取时间视图数据,利用基于时间视图的用户满意度评估模型hT对时间视图数据赋予伪标签,该伪标签作为时间视图数据对应的无标注数据的伪标签
Figure FDA0002208916480000031
步骤2-10,从带有伪标签的无标注数据和有标注数据中读取行为视图数据,并将读取的行为视图数据按照满意度标签分为满意行为视图数据和不满意行为视图数据两部分后,跳转执行步骤2-2。
4.如权利要求3所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法,其特征在于,步骤2-2中,使用生成模型来训练基于行为视图的用户满意度评估模型hA,学习观察值和标签值的联合概率分布,并利用马尔可夫链来对任意两个行为之间的转移进行建模,通过最大似然估计来计算两个行为ai和aj之间的转移概率:
其中,表示类C的行为视图数据中出现ai转移到aj的经验次数,
Figure FDA0002208916480000034
表示类C的行为视图数据中出现ai的经验次数,α>0表示平滑参数,通常设置为1,|V|表示行为类型的数量,Cs和Cu分别表示满意的类和不满意的类。
5.如权利要求3所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法,其特征在于,步骤2-3中,
将行为视图数据SA作为数据源,利用基于行为视图的用户满意度评估模型hA生成SA的概率P(SA|C)为:
给定行为视图数据SA,基于行为视图的用户满意度评估模型hA的似然值P(C|SA)为:
Figure FDA0002208916480000042
其中,Cs表示满意的类,Cu表示不满意的类,P(C)表示类C的先验概率,
Figure FDA0002208916480000043
表示第i-1个行为和第i个行为之间的转移概率,用最大似然估计近似计算得出,P(SA)表示生成行为视图数据SA的概率;
取似然值P(C|SA)最大的类作为SA的伪标签
Figure FDA0002208916480000044
即:
Figure FDA0002208916480000045
行为视图数据SA的伪标签
Figure FDA0002208916480000046
即为行为视图数据SA对应的无标注数据赋予伪标签
Figure FDA0002208916480000047
6.如权利要求3述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法,其特征在于,步骤2-5中,使用生成模型来训练基于时间视图的用户满意度评估模型hT,通过Gamma分布来对连续行为之间的时间间隔进行建模,Gamma分布包含形状参数k和尺度参数θ,其概率密度函数表示为:
Figure FDA0002208916480000048
其中t表示连续行为之间的时间间隔,Γ(k)表示在k处评估的Gamma函数。
7.如权利要求3述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法,其特征在于,步骤2-9中,
对于给定的时间视图数据ST,基于时间视图的用户满意度评估模型hT的似然值P(C|ST)为:
Figure FDA0002208916480000051
其中,Γ(kii,C)是
Figure FDA0002208916480000052
的Gamma分布的概率密度函数,
Figure FDA0002208916480000053
是类C的ST中第i个时间间隔,m是ST中出现的行为转移的次数;
取似然值P(C|ST)最大的类作为ST的伪标签即:
Figure FDA0002208916480000055
时间视图数据ST的伪标签
Figure FDA0002208916480000056
即为时间视图数据ST对应的无标注数据赋予伪标签
Figure FDA0002208916480000057
8.如权利要求1所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法,其特征在于,步骤3具体包括:
步骤3-1,对于同一个无标注数据,读取通过基于行为视图的用户满意度评估模型hA对无标注数据赋予伪标签
Figure FDA0002208916480000058
和通过基于时间视图的用户满意度评估模型hT对无标注数据赋予伪标签
Figure FDA0002208916480000059
如果伪标签与伪标签
Figure FDA00022089164800000511
不同,则将该无标注数据作为争议数据添加到争议数据集Q中;
步骤3-2,利用整合选择策略来衡量争议数据集Q中争议数据的代表性和信息量,使用基于行为视图的用户满意度评估模型hA与基于时间视图的用户满意度评估模型hT之间的分歧程度来衡量争议数据的信息量,使用局部密度来衡量争议数据的代表性;
步骤3-3,从争议数据集Q中挑选出l个最具代表性和最富信息量的争议数据给标注人员标注;
步骤3-4,通过人工标注对挑选出的争议数据赋予标签,并将其添加到有标注数据中,同时将争议数据从无标注数据中移除;
步骤3-5,在步骤3-4的基础上,跳转执行步骤2,直到满足迭代终止条件,获得最终的基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型。
9.如权利要求8所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法,其特征在于,步骤3-2中,
给定一个争议数据x,其分歧程度Deg(x)为:
Deg(x)=|Confidence(hA(x),CS)-Confidence(hT(x),CS)|+|Confidence(hA(x),CU)-Confidence(hT(x),CU)| (8)
其中,Confidence(hA(x),CS)表示x从行为视图满意模型中生成的概率,Confidence(hT(x),CS)表示x从时间视图满意模型中生成的概率,Confidence(hA(x),CU)表示x从行为视图不满意模型中生成的概率,Confidence(hT(x),CU)表示x从时间视图不满意模型中生成的概率;
争议数据x的局部密度用x与其r个最邻近的争议数据的平均距离来表示,平均距离越小,则局部密度越大,从而x就越具有代表性,给定一个争议数据x,局部密度Den(x)为:
Figure FDA0002208916480000061
其中,distance(x,xi)是基于每种行为转移出现的次数计算出的x和与其最邻近的第i个争议数据xi之间的欧几里德距离。
步骤3-3中,最具代表性和最富信息量的争议数据qselected为:
Figure FDA0002208916480000071
10.如权利要求1所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法,其特征在于,步骤4具体包括:
步骤4-1,从用户提供的待识别搜索满意度的样本中分别提取出行为视图数据SA和时间视图数据ST
步骤4-2,利用基于行为视图的用户满意度评估模型hA来识别所有挑选出的争议数据的标签,并计算被错误识别的争议数据的数量mistakes(hA);利用基于时间视图的用户满意度评估模型hT来识别所有挑选出的争议数据的标签,并计算被错误识别的争议数据的数量mistakes(hT);
步骤4-3,基于mistakes(hA)和mistakes(hT)来计算样本的最终分类结果,如果mistakes(hA)<mistakes(hT),则将基于行为视图的用户满意度评估模型hA对样本的分类结果
Figure FDA0002208916480000072
作为其最终分类结果;否则,将基于时间视图的用户满意度评估模型hT对样本的分类结果
Figure FDA0002208916480000073
作为其最终分类结果。
CN201910891613.1A 2019-09-20 2019-09-20 一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法 Pending CN110737812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910891613.1A CN110737812A (zh) 2019-09-20 2019-09-20 一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910891613.1A CN110737812A (zh) 2019-09-20 2019-09-20 一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法

Publications (1)

Publication Number Publication Date
CN110737812A true CN110737812A (zh) 2020-01-31

Family

ID=69268587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910891613.1A Pending CN110737812A (zh) 2019-09-20 2019-09-20 一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法

Country Status (1)

Country Link
CN (1) CN110737812A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792545A (zh) * 2021-11-16 2021-12-14 成都索贝数码科技股份有限公司 一种基于深度学习的新闻事件活动名称抽取方法
CN113822715A (zh) * 2021-09-23 2021-12-21 安徽数据堂科技有限公司 一种数据采集训练处理一体化平台分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488522A (zh) * 2015-11-23 2016-04-13 浙江鸿程计算机系统有限公司 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法
US20180260860A1 (en) * 2015-09-23 2018-09-13 Giridhari Devanathan A computer-implemented method and system for analyzing and evaluating user reviews
CN109753566A (zh) * 2019-01-09 2019-05-14 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260860A1 (en) * 2015-09-23 2018-09-13 Giridhari Devanathan A computer-implemented method and system for analyzing and evaluating user reviews
CN105488522A (zh) * 2015-11-23 2016-04-13 浙江鸿程计算机系统有限公司 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法
CN109753566A (zh) * 2019-01-09 2019-05-14 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范阿琳: "基于搜索引擎日志挖掘的搜索满意度评估方法研究", 《中国优秀博士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822715A (zh) * 2021-09-23 2021-12-21 安徽数据堂科技有限公司 一种数据采集训练处理一体化平台分析方法
CN113792545A (zh) * 2021-11-16 2021-12-14 成都索贝数码科技股份有限公司 一种基于深度学习的新闻事件活动名称抽取方法
CN113792545B (zh) * 2021-11-16 2022-03-04 成都索贝数码科技股份有限公司 一种基于深度学习的新闻事件活动名称抽取方法

Similar Documents

Publication Publication Date Title
CN112115995B (zh) 一种基于半监督学习的图像多标签分类方法
Lapuschkin et al. Analyzing classifiers: Fisher vectors and deep neural networks
Li et al. Localizing and quantifying damage in social media images
CN113688665B (zh) 一种基于半监督迭代学习的遥感影像目标检测方法及系统
CN111914778B (zh) 一种基于弱监督学习的视频行为定位方法
CN110009430B (zh) 作弊用户检测方法、电子设备及计算机可读存储介质
CN109936582A (zh) 构建基于pu学习的恶意流量检测模型的方法及装置
CN109886554B (zh) 违规行为判别方法、装置、计算机设备和存储介质
CN108564121A (zh) 一种基于自编码器的未知类别图像标签预测方法
CN111369535B (zh) 一种细胞检测方法
CN115244548A (zh) 基于人工智能训练深度学习网络的方法及使用其的学习设备
CN112883714A (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN110737812A (zh) 一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法
CN111414845A (zh) 利用空间-时间图推理网络解决多形态语句视频定位任务的方法
CN114255371A (zh) 一种基于组件监督网络的小样本图像分类方法
CN114970530A (zh) 针对基于机器学习命名实体识别的弱监督训练的基于图的标记规则扩充
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
CN112163132B (zh) 一种数据标注方法、装置、存储介质及电子设备
CN109993188B (zh) 数据标签识别方法、行为识别方法及装置
CN110442736B (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN109977400B (zh) 一种校验处理的方法、装置、计算机存储介质及终端
CN116579345A (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置
CN107688822A (zh) 基于深度学习的新增类别识别方法
CN116434273A (zh) 一种基于单正标签的多标记预测方法及系统
CN116071609A (zh) 基于目标特征动态自适应提取的小样本图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200131

RJ01 Rejection of invention patent application after publication