CN110020096B - 基于查询的分类器训练方法和装置 - Google Patents

基于查询的分类器训练方法和装置 Download PDF

Info

Publication number
CN110020096B
CN110020096B CN201710609365.8A CN201710609365A CN110020096B CN 110020096 B CN110020096 B CN 110020096B CN 201710609365 A CN201710609365 A CN 201710609365A CN 110020096 B CN110020096 B CN 110020096B
Authority
CN
China
Prior art keywords
training
query
macro
average accuracy
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710609365.8A
Other languages
English (en)
Other versions
CN110020096A (zh
Inventor
马庆丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710609365.8A priority Critical patent/CN110020096B/zh
Publication of CN110020096A publication Critical patent/CN110020096A/zh
Application granted granted Critical
Publication of CN110020096B publication Critical patent/CN110020096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明公开了一种基于查询的分类器训练方法和装置。其中,该方法包括:使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;根据增益确定分类器。本发明解决了现有技术中针对单个查询进行分类器训练时产生冗余的技术问题。

Description

基于查询的分类器训练方法和装置
技术领域
本发明涉及计算机互联网领域,具体而言,涉及一种基于查询的分类器训练方法和装置。
背景技术
随着在线社交网络的迅猛发展,社交网络现已成为人们日常生活中信息的重要来源,国外最具代表性的Twitter以及国内最具代表性的新浪微博,都吸引了全球数以亿计的网络用户。以微博为例,每时每刻每分每秒都有大量的消息在微博上产生,甚至已成为最快速最全面的新闻来源之一。然而每天铺天盖地的消息更新也让用户难以快速浏览到自己真正需要的有效信息—既要与用户输入查询具有高度相关性同时又保证微博的时效性。因此如何快速有效的返回用户请求,即微博检索成为一项重要的研究问题。
微博检索就是用户输入一个查询,系统需要从语料集中检索出相关的微博并按照相关度进行评分排序,以满足用户的信息需求。如今,微博检索成为信息检索(InformationRetrieval)的一个重要分支。
在进行微博检索时,传统的单一检索排序模型很难融合多种信息,比如向量空间模型以tf*idf作为权重构建相关度函数,那么其他信息就难以被包含使用,并且有的模型中参数比较多,调参相对比较困难,也可能出现过拟合现象。因此,这一系列的单一检索模型已不能满足现代信息检索的需求,突破单一检索模型,引入机器学习算法成为必然趋势。排序学习算法可以方便有效的利用一系列的特征建立排序模型,取代了传统检索模型的单一,因此被广泛应用于微博检索任务中。但排序学习算法(Learning to Rank,LTR)对数据质量具有很大的依赖性,若训练数据中存在大量的低质量数据,会严重影响排序学习算法的排序性能,因此从参差不齐的训练数据中选择高质量的数据成为提高检索性能的一个重要部分。
对于训练查询的选择,现有技术中已经有一种基于检索性能增益以特征向量集导向的训练查询选择算法,该算法核心为:训练一个基于检索性能增益(针对单个查询)与查询特征集之间的线性关系函数,即查询选择分类器(采用logistic回归)。利用在训练阶段得到的查询选择分类器选择训练查询集,选择出的高质量查询作为新的训练数据,训练LTR模型。
尽管该基于检索性能增益以特征向量集导向的训练查询选择算法使得排序学习性能得到很大的提升,但依然存在以下两个问题:一是由于该算法没有考虑到查询之间的依赖性以及重复性,将查询看成一个个独立互不影响的个体,因此选择的查询可能存在冗余问题;二是利用单个独立的查询作为训练数据不利于Listwise算法的训练,因此该算法只适用于Pairwise算法。
针对上述现有技术中针对单个查询进行分类器训练时产生冗余的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于查询的分类器训练方法和装置,以至少解决现有技术中针对单个查询进行分类器训练时产生冗余的技术问题。
根据本发明实施例的一个方面,提供了一种基于查询的分类器训练方法,包括:使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;根据增益确定分类器。
根据本发明实施例的另一方面,还提供了一种基于查询的分类器训练装置,包括:训练模块,用于使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;第一确定模块,用于确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;第二确定模块,用于根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;第三确定模块,用于根据增益确定分类器。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述基于查询的分类器训练方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述基于查询的分类器训练方法。
根据本发明实施例的另一方面,还提供了一种终端,包括:训练模块,用于使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;第一确定模块,用于确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;第二确定模块,用于根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;第三确定模块,用于根据增益确定分类器;处理器,处理器运行程序,其中,程序运行时对于从训练模块、第一确定模块、第二确定模块和第三确定模块输出的数据执行上述基于查询的分类器训练方法。
根据本发明实施例的另一方面,还提供了一种终端,包括:训练模块,用于使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;第一确定模块,用于确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;第二确定模块,用于根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;第三确定模块,用于根据增益确定分类器;存储介质,用于存储程序,其中,程序在运行时对于从训练模块、第一确定模块、第二确定模块和第三确定模块输出的数据执行上述基于查询的分类器训练方法。
在本发明实施例中,通过使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;根据增益确定分类器,达到了训练查询选择分类器的目的,并且本发明考虑到查询之间的依赖性和重复性,以包括至少两个查询的训练样本训练排序模型并最终得到查询选择分类器,从而实现了对能够选择高质量数据的查询选择分类器的训练,提高训练数据的质量的技术效果,进而解决了现有技术中针对单个查询进行分类器训练时产生冗余的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种基于查询的分类器训练方法的示意图;以及
图2是根据本发明实施例的一种基于查询的分类器训练装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种基于查询的分类器训练方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的基于查询的分类器训练方法,如图1所示,该方法包括如下步骤:
步骤S102,使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询。
具体的,本发明中的查询可以是查询语句,在训练权重模型时,可以以查询训练集中的所有查询作为训练对象来训练权重模型;在训练排序模型时,则以查询训练集中的训练样本作为训练对象来训练排序模型,相较于现有技术中将查询看成一个个独立互不影响的个体并将一个查询作为样本进行训练,由于查询之间可能存在依赖性或重复性,即,有一些查询的内容比较相似,或者其中一些查询是在另一些查询的基础上做的进一步查询,那么对每一个查询进行训练的训练结果实际上存在冗余,而本发明的训练样本为查询对(包括两个查询)或查询集(包括两个以上的查询),可以减少训练结果的冗余,其中,查询对中的两个查询可以是查询训练集中的任意两个查询,优选的,可以是具有相似关系或者相似度较高的两个查询,具体可以使用依赖关系算法确定查询之间的依赖关系,使用相似度分析算法或工具确定查询之间的相似度,同样的查询集中的两个以上的查询可以是查询训练集中的任意两个以上的查询,优选的,可以是具有相似关系或者相似度较高的两个以上的查询。
可选的,在使用查询训练集的每个训练样本分别训练得到排序模型时,可以选择不同的LTR算法对训练样本进行训练,而每个训练样本中查询的数目可以根据实际情况自定义设置。
步骤S104,确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率。
具体的,在训练得到权重模型后,可以计算权重模型的检索性能,即第一宏平均准确率,在得到以每个训练样本为训练对象的排序模型后,可以计算每个排序模型的检索性能,即第二宏平均准确率。
步骤S106,根据第一宏平均准确率和第二宏平均准确率确定分类器的增益。
具体的,根据第一宏平均准确率和第二宏平均准确率可以得到检索性能增益,可以定义检索性能增益越高,查询的质量越高,也就是训练样本中至少两个查询的质量越高,反之,检索性能增益越低,说明查询的质量越低,也就是训练样本中至少两个查询的质量越低。
步骤S108,根据增益确定分类器。
在本发明实施例中,通过使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;根据增益确定分类器,达到了训练查询选择分类器的目的,并且本发明考虑到查询之间的依赖性和重复性,以包括至少两个查询的训练样本训练排序模型并最终得到查询选择分类器,从而实现了对能够选择高质量数据的查询选择分类器的训练,提高训练数据的质量的技术效果,进而解决了现有技术中针对单个查询进行分类器训练时产生冗余的技术问题。
此处需要说明的是,本发明的基于查询的分类器训练方法适用于文本检索的应用场景,优选为使用短文本进行检索的场景,例如,微博检索、Twitter检索等。
此处需要说明的是,本发明训练得到的分类器不仅可以应用于没有人工标注的数据,也可以应用于已经有标注的数据,在应用于没有人工标注的数据时,可以用于挑选出高质量的查询,缩小数据范围,然后进行人工标注,以此来大大减少人工标注的工作成本和各种消耗;在应用于已经有标注的数据时,可以用于训练查询数据的选择,筛选出高质量的数据,提高训练数据的质量去训练LTR模型,进而提高排序模型的检索性能。
在一种可选的实施例中,步骤S102中使用查询训练集训练得到权重模型包括:使用查询训练集进行权重模型的训练以及使用验证集进行权重模型参数的优化。
可选的,权重模型可以是BM25模型,并且除了查询训练集,还有一个验证集,其中验证集可以用来优化模型参数,具体的,使用查询训练集训练得到权重模型可以具体为:使用查询训练集进行BM25模型的训练,并在验证集上进行BM25模型参数的优化。
在一种可选的实施例中,步骤S104中确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率,包括:根据测试集确定权重模型的第一宏平均准确率以及根据测试集确定每个排序模型的第二宏平均准确率。
具体的,除了查询训练集和验证集,还有一个测试集,用于测试模型的检索性能,权重模型经过验证集进行参数的优化后,可以在测试集上进行测试并得到该权重模型的检索性能,即第一宏平均准确率;同理,使用训练样本得到的排序模型可以在测试集上进行测试并得到排序模型的检索性能,即第二宏平均准确率。
在一种可选的实施例中,步骤S106中根据第一宏平均准确率和第二宏平均准确率确定分类器的增益,包括:计算第一宏平均准确率和第二宏平均准确率的差值,将差值确定为分类器的增益。
具体的,在得到第一宏平均准确率和第二宏平均准确率之后,可以计算第一宏平均准确率和第二宏平均准确率的差值,即检索性能增益,也就是训练样本包括的查询的质量。
在一种可选的实施例中,分类器可以为Logistic回归函数,在得到增益之后,可以基于针对训练样本的检索性能增益与查询的一系列特征训练学习之间的线性关系函数,得到Logistic回归函数,即查询选择分类器。其中,查询的一系列特征训练学习可以是基于查询训练集的一系列特征训练学习,并得到查询特征集。
实施例2
根据本发明实施例,提供了一种基于查询的分类器训练装置的产品实施例,图2是根据本发明实施例的基于查询的分类器训练装置,如图2所示,该装置包括训练模块、第一确定模块、第二确定模块和第三确定模块,其中,训练模块,用于使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;第一确定模块,用于确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;第二确定模块,用于根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;第三确定模块,用于根据增益确定分类器。
在本发明实施例中,通过训练模块使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;第一确定模块确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;第二确定模块根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;第三确定模块根据增益确定分类器,达到了训练查询选择分类器的目的,并且本发明考虑到查询之间的依赖性和重复性,以包括至少两个查询的训练样本训练排序模型并最终得到查询选择分类器,从而实现了对能够选择高质量数据的查询选择分类器的训练,提高训练数据的质量的技术效果,进而解决了现有技术中针对单个查询进行分类器训练时产生冗余的技术问题。
此处需要说明的是,上述训练模块、第一确定模块、第二确定模块和第三确定模块对应于实施例1中的步骤S102至步骤S108,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,训练模块包括:使用查询训练集进行权重模型的训练以及使用验证集进行权重模型参数的优化。
在一种可选的实施例中,第一确定模块包括:根据测试集确定权重模型的第一宏平均准确率以及根据测试集确定每个排序模型的第二宏平均准确率。
在一种可选的实施例中,第二确定模块,包括:计算第一宏平均准确率和第二宏平均准确率的差值,将差值确定为分类器的增益。
在一种可选的实施例中,权重模型为BM25模型,分类器为Logistic回归函数。
上述基于查询的分类器训练装置包括处理器和存储器,上述训练模块、第一确定模块、第二确定模块和第三确定模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现训练查询选择分类器的目的。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
实施例3
根据本发明实施例,提供了一种存储介质的产品实施例,其上存储有程序,在程序运行时控制存储介质所在设备执行上述基于查询的分类器训练方法,或该程序被处理器执行时实现上述基于查询的分类器训练方法。
实施例4
根据本发明实施例,提供了一种处理器的产品实施例,该处理器用于运行程序,其中,程序运行时执行上述基于查询的分类器训练方法。
实施例5
根据本发明实施例,提供了一种终端的产品实施例,该终端包括训练模块、第一确定模块、第二确定模块、第三确定模块和处理器,其中,训练模块,用于使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;第一确定模块,用于确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;第二确定模块,用于根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;第三确定模块,用于根据增益确定分类器;处理器,处理器运行程序,其中,程序运行时对于从训练模块、第一确定模块、第二确定模块和第三确定模块输出的数据执行上述基于查询的分类器训练方法。
实施例6
根据本发明实施例,提供了一种终端的产品实施例,该终端包括训练模块、第一确定模块、第二确定模块、第三确定模块和和存储介质,其中,训练模块,用于使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;第一确定模块,用于确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;第二确定模块,用于根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;第三确定模块,用于根据增益确定分类器;存储介质,用于存储程序,其中,程序在运行时对于从训练模块、第一确定模块、第二确定模块和第三确定模块输出的数据执行上述基于查询的分类器训练方法。
实施例7
根据本发明实施例,提供了一种设备的产品实施例,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
步骤S102,使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;
步骤S104,确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;
步骤S106,根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;
步骤S108,根据增益确定分类器。
其中,步骤S102中使用查询训练集训练得到权重模型包括:使用查询训练集进行权重模型的训练以及使用验证集进行权重模型参数的优化。
其中,步骤S104中确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率,包括:根据测试集确定权重模型的第一宏平均准确率以及根据测试集确定每个排序模型的第二宏平均准确率。
其中,步骤S106中根据第一宏平均准确率和第二宏平均准确率确定分类器的增益,包括:计算第一宏平均准确率和第二宏平均准确率的差值,将差值确定为分类器的增益。
本发明中的设备可以是服务器、PC、PAD、手机等。
实施例8
根据本发明实施例,提供了一种计算机程序产品的产品实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
步骤S102,使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;
步骤S104,确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;
步骤S106,根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;
步骤S108,根据增益确定分类器。
其中,步骤S102中使用查询训练集训练得到权重模型包括:使用查询训练集进行权重模型的训练以及使用验证集进行权重模型参数的优化。
其中,步骤S104中确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率,包括:根据测试集确定权重模型的第一宏平均准确率以及根据测试集确定每个排序模型的第二宏平均准确率。
其中,步骤S106中根据第一宏平均准确率和第二宏平均准确率确定分类器的增益,包括:计算第一宏平均准确率和第二宏平均准确率的差值,将差值确定为分类器的增益。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于查询的分类器训练方法,其特征在于,包括:
采用LTR算法对查询训练集训练得到权重模型以及所述查询训练集的每个训练样本分别训练得到排序模型,其中,所述查询训练集包括多个查询,所述训练样本包括至少两个查询;
确定所述权重模型的第一宏平均准确率以及每个所述排序模型的第二宏平均准确率;
根据所述第一宏平均准确率和所述第二宏平均准确率确定分类器的增益;
根据所述增益确定所述分类器;
其中,所述权重模型为BM25模型。
2.根据权利要求1所述的方法,其特征在于,使用查询训练集训练得到权重模型包括:
使用所述查询训练集进行所述权重模型的训练以及使用验证集进行所述权重模型参数的优化。
3.根据权利要求1所述的方法,其特征在于,确定所述权重模型的第一宏平均准确率以及每个所述排序模型的第二宏平均准确率,包括:
根据测试集确定所述权重模型的所述第一宏平均准确率以及根据所述测试集确定每个所述排序模型的第二宏平均准确率。
4.根据权利要求1所述的方法,其特征在于,根据所述第一宏平均准确率和所述第二宏平均准确率确定分类器的增益,包括:
计算所述第一宏平均准确率和所述第二宏平均准确率的差值,将所述差值确定为所述分类器的增益。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述分类器为Logistic回归函数。
6.一种基于查询的分类器训练装置,其特征在于,包括:
训练模块,用于采用LTR算法对查询训练集训练得到权重模型以及所述查询训练集的每个训练样本分别训练得到排序模型,其中,所述查询训练集包括多个查询,所述训练样本包括至少两个查询;
第一确定模块,用于确定所述权重模型的第一宏平均准确率以及每个所述排序模型的第二宏平均准确率;
第二确定模块,用于根据所述第一宏平均准确率和所述第二宏平均准确率确定分类器的增益;
第三确定模块,用于根据所述增益确定所述分类器;
其中,所述权重模型为BM25模型。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的基于查询的分类器训练方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的基于查询的分类器训练方法。
9.一种终端,其特征在于,包括:
训练模块,用于采用LTR算法对查询训练集训练得到权重模型以及所述查询训练集的每个训练样本分别训练得到排序模型,其中,所述查询训练集包括多个查询,所述训练样本包括至少两个查询;其中,所述权重模型为BM25模型;
第一确定模块,用于确定所述权重模型的第一宏平均准确率以及每个所述排序模型的第二宏平均准确率;
第二确定模块,用于根据所述第一宏平均准确率和所述第二宏平均准确率确定分类器的增益;
第三确定模块,用于根据所述增益确定所述分类器;
处理器,所述处理器运行程序,其中,所述程序运行时对于从所述训练模块、所述第一确定模块、所述第二确定模块和所述第三确定模块输出的数据执行权利要求1至5中任意一项所述的基于查询的分类器训练方法。
10.一种终端,其特征在于,包括:
训练模块,用于采用LTR算法对查询训练集训练得到权重模型以及所述查询训练集的每个训练样本分别训练得到排序模型,其中,所述查询训练集包括多个查询,所述训练样本包括至少两个查询;其中,所述权重模型为BM25模型;
第一确定模块,用于确定所述权重模型的第一宏平均准确率以及每个所述排序模型的第二宏平均准确率;
第二确定模块,用于根据所述第一宏平均准确率和所述第二宏平均准确率确定分类器的增益;
第三确定模块,用于根据所述增益确定所述分类器;
存储介质,用于存储程序,其中,所述程序在运行时对于从所述训练模块、所述第一确定模块、所述第二确定模块和所述第三确定模块输出的数据执行权利要求1至5中任意一项所述的基于查询的分类器训练方法。
CN201710609365.8A 2017-07-24 2017-07-24 基于查询的分类器训练方法和装置 Active CN110020096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710609365.8A CN110020096B (zh) 2017-07-24 2017-07-24 基于查询的分类器训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710609365.8A CN110020096B (zh) 2017-07-24 2017-07-24 基于查询的分类器训练方法和装置

Publications (2)

Publication Number Publication Date
CN110020096A CN110020096A (zh) 2019-07-16
CN110020096B true CN110020096B (zh) 2021-09-07

Family

ID=67185836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710609365.8A Active CN110020096B (zh) 2017-07-24 2017-07-24 基于查询的分类器训练方法和装置

Country Status (1)

Country Link
CN (1) CN110020096B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005289371A1 (en) * 2004-09-29 2006-04-06 Panscient Pty Ltd Machine learning system
CN101639831A (zh) * 2008-07-29 2010-02-03 华为技术有限公司 一种搜索方法、装置及系统
US7690037B1 (en) * 2005-07-13 2010-03-30 Symantec Corporation Filtering training data for machine learning
CN102495860A (zh) * 2011-11-22 2012-06-13 北京大学 基于语言模型的专家推荐方法
CN103646092A (zh) * 2013-12-18 2014-03-19 孙燕群 基于用户参与的搜索引擎排序方法
CN104504395A (zh) * 2014-12-16 2015-04-08 广州中国科学院先进技术研究所 基于神经网络实现人车分类的方法和系统
CN106156135A (zh) * 2015-04-10 2016-11-23 华为技术有限公司 查询数据的方法及装置
CN106339756A (zh) * 2016-08-25 2017-01-18 北京百度网讯科技有限公司 训练数据的生成方法、搜索方法以及装置
CN106484829A (zh) * 2016-09-29 2017-03-08 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN108733766A (zh) * 2018-04-17 2018-11-02 腾讯科技(深圳)有限公司 一种数据查询方法、装置和可读介质
CN111414746A (zh) * 2020-04-10 2020-07-14 中国建设银行股份有限公司 一种匹配语句确定方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269545B2 (en) * 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US9342551B2 (en) * 2007-08-14 2016-05-17 John Nicholas and Kristin Gross Trust User based document verifier and method
US9524520B2 (en) * 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Training a classification model to predict categories

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005289371A1 (en) * 2004-09-29 2006-04-06 Panscient Pty Ltd Machine learning system
US7690037B1 (en) * 2005-07-13 2010-03-30 Symantec Corporation Filtering training data for machine learning
CN101639831A (zh) * 2008-07-29 2010-02-03 华为技术有限公司 一种搜索方法、装置及系统
CN102495860A (zh) * 2011-11-22 2012-06-13 北京大学 基于语言模型的专家推荐方法
CN103646092A (zh) * 2013-12-18 2014-03-19 孙燕群 基于用户参与的搜索引擎排序方法
CN104504395A (zh) * 2014-12-16 2015-04-08 广州中国科学院先进技术研究所 基于神经网络实现人车分类的方法和系统
CN106156135A (zh) * 2015-04-10 2016-11-23 华为技术有限公司 查询数据的方法及装置
CN106339756A (zh) * 2016-08-25 2017-01-18 北京百度网讯科技有限公司 训练数据的生成方法、搜索方法以及装置
CN106484829A (zh) * 2016-09-29 2017-03-08 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN108733766A (zh) * 2018-04-17 2018-11-02 腾讯科技(深圳)有限公司 一种数据查询方法、装置和可读介质
CN111414746A (zh) * 2020-04-10 2020-07-14 中国建设银行股份有限公司 一种匹配语句确定方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Query weighting for ranking model adaption";PENG CAI;《Proceedings of the 49th annual meeting of the association for computational linguistics》;20110624;第112-122页,图1 *
"基于URL主题的查询分类方法";张宇;《计算机研究与发展》;20120615;第6卷(第49期);第1298-1303页 *

Also Published As

Publication number Publication date
CN110020096A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN107451199B (zh) 问题推荐方法及装置、设备
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
US11580168B2 (en) Method and system for providing context based query suggestions
US20110246457A1 (en) Ranking of search results based on microblog data
US11397780B2 (en) Automated method and system for clustering enriched company seeds into a cluster and selecting best values for each attribute within the cluster to generate a company profile
US10394939B2 (en) Resolving outdated items within curated content
US20150356072A1 (en) Method and Apparatus of Matching Text Information and Pushing a Business Object
US11126673B2 (en) Method and system for automatically enriching collected seeds with information extracted from one or more websites
US11093461B2 (en) Method for computing distinct values in analytical databases
CN105224554A (zh) 推荐搜索词进行搜索的方法、系统、服务器和智能终端
US11443202B2 (en) Real-time on the fly generation of feature-based label embeddings via machine learning
US20200242632A1 (en) Automated method and system for discovery and identification of a company name from a plurality of different websites
US9785712B1 (en) Multi-index search engines
US20200242634A1 (en) Method and system for automatically identifying candidates from a plurality of different websites, determining which candidates correspond to company executives for a company profile, and generating an executive profile for the company profile
US20190370402A1 (en) Profile spam removal in search results from social network
US10169802B2 (en) Data refining engine for high performance analysis system and method
CN110516164B (zh) 一种信息推荐方法、装置、设备及存储介质
CN110188291B (zh) 基于代理日志的文档处理
US20200242633A1 (en) Automated method and system for enriching a company profile with a company logo by extracting candidate images from various sources and determining which image most closely corresponds the company logo
CN110020096B (zh) 基于查询的分类器训练方法和装置
US20200242635A1 (en) Method and system for automatically generating a rating for each company profile stored in a repository and auto-filling a record with information from a highest ranked company profile
CN108595395B (zh) 一种昵称的生成方法、装置及设备
CN107562533B (zh) 一种数据加载处理方法及装置
Silva et al. Design and development of a custom system of technology surveillance and competitive intelligence in SMEs
CN111159192B (zh) 基于大数据的数据入库方法、装置、存储介质和处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant