CN114757267A - 识别噪声query的方法、装置、电子设备和可读存储介质 - Google Patents
识别噪声query的方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN114757267A CN114757267A CN202210306752.5A CN202210306752A CN114757267A CN 114757267 A CN114757267 A CN 114757267A CN 202210306752 A CN202210306752 A CN 202210306752A CN 114757267 A CN114757267 A CN 114757267A
- Authority
- CN
- China
- Prior art keywords
- query
- search
- target
- target query
- tuple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 241000251468 Actinopterygii Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001609213 Carassius carassius Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种识别噪声query的方法、装置、电子设备和可读存储介质,属于大数据技术领域。所述方法包括:获取目标query,其中,所述目标query用于指示搜索引擎接收到的查询词句;将所述目标query输入特征抽取模块,得到目标query的特征,其中,所述目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,所述搜索文档生成概率用于指示所述目标query在搜索文档集中的稀疏性特征,所述搜索日志生成概率用于指示所述目标query在搜索日志集中的稀疏性特征;将所述目标query的特征输入目标识别模型,得到识别结果,其中,所述识别结果用于指示所述目标query是否为噪声query。本申请提高了目标query识别的覆盖率。
Description
技术领域
本申请涉及大数据领域,尤其涉及一种识别噪声query的方法、装置、电子设备和可读存储介质。
背景技术
搜索引擎经常会收到用户输入的无意义的噪声查询词,即噪声query,噪声query通常是长尾低频query,不会命中搜索结果缓存,甚至会触发二级索引甚至多级索引,导致在线服务压力变大,服务器不稳定,因此服务器需要识别噪声query。
目前识别query识别主要依靠噪声模板完成,噪声模板包括query过长 (例如超过50个字符);query为重复单字(例如“我我我我我我”);query 为无单词拉丁字符(例如“asdfghjkl”),噪声模板特征可以表征query是否为噪声query。
但是仅依靠噪声模板只能是识别少数的部分噪声query,对于复杂的噪声query,仅利用噪声模板是无法有效识别噪声query的,这导致现有技术中噪声query的识别覆盖率低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种识别噪声query的方法、装置、电子设备和可读存储介质。
第一方面,本申请提供了一种识别噪声query的方法,所述方法包括:
获取目标query,其中,所述目标query用于指示搜索引擎接收到的查询词句;
将所述目标query输入特征抽取模块,得到目标query的特征,其中,所述目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,所述搜索文档生成概率用于指示所述目标query在搜索文档集中的稀疏性特征,所述搜索日志生成概率用于指示所述目标query在搜索日志集中的稀疏性特征;
将所述目标query的特征输入目标识别模型,得到识别结果,其中,所述识别结果用于指示所述目标query是否为噪声query。
可选地,所述得到目标query的特征包括:
根据预设的噪声模板获取目标query的模板匹配特征;
根据所述目标query的每个目标N元组在所述搜索文档集中的文档频率特征,确定所述目标query的搜索文档生成概率,其中,所述目标N元组包括所述目标query的N个连续的词汇;
根据所述目标query的每个目标N元组在预设时段内的搜索日志集中的日志频率特征,确定所述目标query的搜索日志生成概率。
可选地,所述根据所述目标query在所述搜索文档集中的文档频率特征,确定所述目标query的搜索文档生成概率包括:
将所述目标query拆分为多个目标N元组;
根据预设的第一字典,确定每个目标N元组针对搜索文档集出现的文档频率特征,其中,所述第一字典中包含所述搜索文档集下第一N元组和第一频率特征之间的对应关系;
根据所述目标query的每个文档频率特征,生成所述搜索文档生成概率。
可选地,根据预设的第一字典确定每个目标N元组针对搜索文档集出现的文档频率特征之前,所述方法还包括:
获取多个第一N元组,其中,所述第一N元组是通过对所述搜索文档集中的样本搜索记录进行拆分得到的,所述第一N元组包括所述样本搜索记录的N个连续的词汇;
获取包含所述第一N元组的样本文档数量;
根据所述样本文档数量和所述搜索文档集中的搜索文档总数,确定所述第一N元组的第一频率特征;
根据所述第一N元组和所述第一频率特征之间的对应关系,构建所述第一字典。
可选地,所述根据所述目标query在预设时段内的所述搜索日志集中的日志频率特征,确定所述目标query的搜索日志生成概率包括:
将所述目标query拆分为多个目标N元组,其中,所述N元组中包含多个连续的词汇;
根据预设的第二字典,确定每个目标N元组针对所述预设时段内的搜索日志集出现的日志频率特征,其中,所述第二字典中包含所述搜索日志集下第二N元组和第二频率特征之间的对应关系;
根据所述目标query的每个日志频率特征,生成所述搜索日志生成概率。
可选地,根据预设的第二字典确定每个目标N元组针对所述预设时段内的搜索日志集出现的日志频率特征之前,所述方法还包括:
获取多个第二N元组,其中,所述第二N元组是通过所述预设时段内的搜索日志集中的样本query记录得到的,所述第二N元组包括所述样本 query的N个连续的词汇;
获取所述搜索日志集中包含所述第二N元组的样本query记录的样本 query数量;
根据所述样本query数量和所述搜索日志集中的搜索词汇总数,确定所述样本N元组的第二频率特征;
根据所述第二N元组和所述第二频率特征之间的对应关系构建所述第二字典。
可选地,将所述模板匹配特征、所述搜索文档生成概率以及所述搜索日志生成概率输入目标识别模型之前,所述方法还包括:
获取样本query的特征和所述样本query的特征对应的分类结果,其中,所述分类结果用于指示所述样本query是否为噪声query;
将所述样本query的特征输入初始识别模型,得到所述初始识别模型输出的识别结果;
在识别结果和所述分类结果不相同的情况下,调整所述初始识别模型中的模型参数,直至所述初始识别模型输出的识别结果和所述分类结果相同。
第二方面,提供了一种识别噪声query的装置,所述装置包括:
获取模块,用于获取目标query,其中,所述目标query用于指示搜索引擎接收到的查询词句;
第一输入输出模块,用于将所述目标query输入特征抽取模块,得到目标query的特征,其中,所述目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,所述搜索文档生成概率用于指示所述目标query在搜索文档集中的稀疏性特征,所述搜索日志生成概率用于指示所述目标query在搜索日志集中的稀疏性特征;
第二输入输出模块,用于将所述目标query的特征输入目标识别模型,得到识别结果,其中,所述识别结果用于指示所述目标query是否为噪声 query。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现识别噪声query的任一方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现识别噪声 query的任一所述的方法步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,服务器获取目标query,然后将目标query 输入特征抽取模块,得到目标query的特征,其中,目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,最后将目标query 的特征输入目标识别模型,得到识别结果,其中,识别结果用于指示目标 query是否为噪声query。
在本申请中,目标query的特征不仅仅包括模板匹配特征,还包括搜索文档生成概率和搜索日志生成概率,搜索文档生成概率能够展示目标query 在搜索文档集中的稀疏性特征,搜索日志生成概率能够展示目标query在搜索日志集中的稀疏性特征。本申请通过增加目标query的稀疏性特征,弥补了现有技术中覆盖率低的问题,提高了目标query识别的覆盖率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种识别噪声query的方法的流程图;
图2为本申请实施例提供的一种识别噪声query的流程示意图;
图3为本申请实施例提供的一种识别噪声query的装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种识别噪声query的方法,可以应用于服务器,用于识别噪声query。具体包括以下步骤:
步骤101:获取目标query。
其中,目标query用于指示搜索引擎接收到的查询词句。
在本申请实施例中,服务器获取搜索引擎接收到的查询词句,并将该查询词句作为目标query。
步骤102:将目标query输入特征抽取模块,得到目标query的特征。
其中,目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,搜索文档生成概率用于指示目标query在搜索文档集中的稀疏性特征,搜索日志生成概率用于指示目标query在搜索日志集中的稀疏性特征。
在本申请实施例中,服务器将目标query输入特征抽取模块,特征抽取模型输出目标query的特征。其中,目标query的特征包括模板匹配特征和稀疏性特征,稀疏性特征包括搜索文档生成概率和搜索日志生成概率。
模板匹配特征是目标query满足的噪声模板的特征,包括query过长、 query为重复单字和query为无单词拉丁字符中的至少一种;搜索文档生成概率指示目标query在搜索文档集中的稀疏性特征,该稀疏性特征反映了目标query在搜索文档集中的出现次数,每个查询语句可以得到多个搜索文档,服务器根据不同的查询词汇得到的多个搜索文档构成了搜索文档集;搜索日志生成概率用指示目标query在搜索日志集中的稀疏性特征,该稀疏性特征反映了目标query在搜索日志集中的出现次数,服务器针对每次查询词句都生成一个搜索日志,多个搜索日志构成了搜索日志集,。
步骤103:将目标query的特征输入目标识别模型,得到识别结果。
其中,识别结果用于指示目标query是否为噪声query。
在本申请实施例中,服务器将目标query的特征输入目标识别模型,目标识别模型分别根据模板匹配特征、搜索文档生成概率和搜索日志生成概率得到三个识别分值,其中,模板匹配特征、搜索文档生成概率和搜索日志生成概率分别对应一个权重,目标识别结果将上述三个识别分值进行加权求和得到分值结果,若分值结果大于分值阈值,则认为目标query是噪声 query;若分值结果不大于分值阈值,则认为目标query不是噪声query。目标识别模型输出识别结果,识别结果能够指示目标query是否为噪声query。其中,目标识别模型可以为逻辑回归、SVM(SupportVectorMachine,支持向量机)或GBDT(GradientBoostingDecisionTree,梯度下降树)等机器学习模型,本申请对目标识别模型的实现方式不做具体限定。
识别噪声query能为产品设计提供更多可能,例如噪声query的一个典型场景是用户处于试玩状态,如果此时能给用户返回一个针对性的有意义的场景,很容易增加用户的惊喜感,提升用户体验。比如在视频搜索引擎下,确定为噪声query,则可能是儿童误点触,直接跳到儿童频道推荐页。
如图2所示,图2为识别噪声query的流程示意图,服务器将目标query 输入特征抽取模型,特征抽取模型将抽取到的目标query的模板匹配特征、搜索文档生成概率和搜索日志生成概率输入目标识别模型,得到识别结果。
在本申请中,目标query的特征不仅仅包括模板匹配特征,还包括搜索文档生成概率和搜索日志生成概率,搜索文档生成概率能够展示目标query 在搜索文档集中的稀疏性特征,搜索日志生成概率能够展示目标query在搜索日志集中的稀疏性特征。本申请通过增加目标query的稀疏性特征,弥补了现有技术中覆盖率低的问题,提高了目标query识别的覆盖率。
作为一种可选的实施方式,得到目标query的特征包括:根据目标query 的每个目标N元组在搜索文档集中的文档频率特征,确定目标query的搜索文档生成概率,其中,目标N元组包括目标query的N个连续的词汇;根据目标query的每个目标N元组在预设时段内的搜索日志集中的日志频率特征,确定目标query的搜索日志生成概率。
在本申请实施例中,目标query的特征包括三种特征,第一种特征为模板匹配特征,模板匹配特征是根据目标query和噪声模板的匹配得到的;第二种特征为搜索文档生成概率,服务器将目标query拆分为多个目标N元组,然后根据目标query的多个目标N元组,得到每个目标N元组在搜索文档集中的文档频率特征,再根据每个目标N元组的文档频率特征,确定目标query的搜索文档生成概率。第三种特征为搜索日志生成概率,服务器将目标query拆分为多个目标N元组,然后根据目标query的多个目标N 元组,得到每个目标N元组在预设时段内的搜索日志集中的日志频率特征,再根据每个目标N元组的日志频率特征,确定目标query的搜索日志生成概率。
其中,目标N元组为目标query的N个连续的词汇,N元组(n-gram) 可以为三元组(Tri-gram),也可以为二元组(Bi-gram)。示例性地,目标 query为“冬季如何钓鲫鱼”,那么目标三元组分别为:<冬季,如何,钓>, <如何,钓,鲫鱼>。
在本申请中,服务器通过N元组的方式,确定目标query的每个N元组的文档频率特征和日志频率特征,相对于单纯的采用目标query这一整个词句计算频率特征,采用N元组的方式可以将目标query拆分为多个连续的词汇,这样能够进一步的提高目标query的识别覆盖率。
作为一种可选的实施方式,根据预设的第一字典确定每个目标N元组针对搜索文档集出现的文档频率特征之前,方法还包括:获取多个第一N 元组,其中,第一N元组是通过对搜索文档集中的样本搜索记录进行拆分得到的,第一N元组包括样本搜索记录的N个连续的词汇;获取包含第一 N元组的样本文档数量;根据样本文档数量和搜索文档集中的搜索文档总数,确定第一N元组的第一频率特征;根据第一N元组和第一频率特征之间的对应关系,构建第一字典。
在本申请实施例中,搜索文档集中包括多条样本搜索记录,每条样本搜索记录对应至少一个搜索文档。示例性地,样本搜索记录为“冬季钓鱼的技巧和方法”,那么搜索文档集中包含关于“冬季钓鱼的技巧和方法”的搜索文档。
服务器将样本搜索记录进行拆分,得到多个第一N元组,第一N元组包括样本搜索记录的N个连续的词汇。示例性地,样本搜索记录为“冬季钓鱼的技巧和方法”,那么第一N元组分别为:<冬季,钓鱼,的>,<的,技巧,和>,<技巧,和,方法>。
服务器在搜索文档集中,获取包含第一N元组的样本文档数量,并获取搜索文档集中的搜索文档总数,然后根据样本文档数量和搜索文档集中的搜索文档总数,确定第一N元组的第一频率特征。
第一频率特征的计算公式为:
其中,Freq_corpus为第一频率特征,<,B,C>为第一N元组。
服务器得到第一N元组和对应的第一频率特征之后,根据第一N元组和第一频率特征之间的对应关系,构建第一字典。
示例性地,<冬季,钓鱼,的>对应的样本文档数量为a,<的,技巧,和>对应的样本文档数量为b,<技巧,和,方法>对应的样本文档数量为c,搜索文档总数为d,那么第一字典中的对应关系为:
在本申请中,服务器根据搜索文档集,通过第一N元组和第一频率特征之间的对应关系,构建第一字典,第一字典可以用于得到后续的目标N 元组的文档频率特征,这样无需针对每个目标N元组都计算一次文档频率特征,提高文档频率特征的计算效率。
作为一种可选的实施方式,根据目标query在搜索文档集中的文档频率特征,确定目标query的搜索文档生成概率包括:将目标query拆分为多个目标N元组;根据预设的第一字典,确定每个目标N元组针对搜索文档集出现的文档频率特征,其中,第一字典中包含搜索文档集下第一N元组和第一频率特征之间的对应关系;根据目标query的每个文档频率特征,生成搜索文档生成概率。
在本申请实施例中,服务器将目标query拆分为多个目标N元组,然后根据第一字典中的搜索文档集下第一N元组和第一频率特征之间的对应关系,确定每个目标N元组针对搜索文档集出现的文档频率特征,最后根据目标query的每个文档频率特征,生成搜索文档生成概率。
其中,根据目标query的每个文档频率特征生成搜索文档生成概率的具体方式,可以是将每个文档频率特征的平均值作为搜索文档生成概率,也可以是根据每个文档频率特征的数值和权重,生成搜索文档生成概率。本申请对搜索文档生成概率的生成方式不做具体限定。
示例性地,目标query为“冬季如何钓鲫鱼”,那么目标三元组分别为:< 冬季,如何,钓>,<如何,钓,鲫鱼>。<冬季,如何,钓>对应的文档频率特征为0.1,<如何,钓,鲫鱼>对应的文档频率特征为0.2,搜索文档生成概率为每个文档频率特征的平均值,那么搜索文档生成概率为1/2(0.1+0.2) =0.15。
在本申请中,服务器通过第一字典得到每个目标N元组的文档频率特征,然后通过多个文档频率特征生成搜索文档生成概率。由于文档频率特征是基于包含目标N元组的文档数量和搜索文档总数得到的,因此,文档频率特征反映了目标N元组在搜索文档集中的出现次数,即,反映了目标 query在搜索文档集中的频率特性。
作为一种可选的实施方式,根据预设的第二字典确定每个目标N元组针对预设时段内的搜索日志集出现的日志频率特征之前,方法还包括:获取多个第二N元组,其中,第二N元组是通过预设时段内的搜索日志集中的样本query记录得到的,第二N元组包括样本query的N个连续的词汇;获取搜索日志集中包含第二N元组的样本query记录的样本query数量;根据样本query数量和搜索日志集中的搜索词汇总数,确定样本N元组的第二频率特征;根据第二N元组和第二频率特征之间的对应关系构建第二字典。
在本申请实施例中,搜索日志集中包括多条样本query记录。服务器将样本query记录进行拆分,得到多个第二N元组,第二N元组包括样本query 记录的N个连续的词汇。示例性地,样本query记录为“冬季钓鱼的技巧和方法”,那么第二N元组分别为:<冬季,钓鱼,的>,<的,技巧,和>, <技巧,和,方法>。
服务器在预设时段内的搜索日志集中,获取包含第二N元组的样本 query记录的样本query数量。
示例性地,搜索日志集中包含的样本query记录为“春季钓鱼的技巧和方法”、“夏季钓鱼的技巧和方法”、“冬季钓鱼的技巧和方法”。对于第二N 元组<的,技巧,和>,对应三条样本query记录,那么<的,技巧,和>对应的样本query数量为3。
服务器还获取搜索日志集中的搜索词汇总数,然后根据样本query数量和预设时段内搜索日志集中的搜索词汇总数,确定第二N元组的第二频率特征。
第二频率特征的计算公式为:
其中,req_search_log为第二频率特征,<,E,F>为第二N元组。
服务器得到第二N元组和对应的第二频率特征之后,根据第二N元组和第二频率特征之间的对应关系,构建第二字典。
示例性地,<冬季,钓鱼,的>对应的样本query数量为d,<的,技巧,和>对应的样本query数量为e,<技巧,和,方法>对应的样本query数量为f,搜索日志总数为g,那么第二字典中的对应关系为:
在本申请中,服务器根据搜索日志集,通过第二N元组和第二频率特征之间的对应关系,构建第二字典,第二字典可以用于得到后续的目标N 元组的日志频率特征,这样无需针对每个目标N元组都计算一次日志频率特征,提高日志频率特征的计算效率。
作为一种可选的实施方式,根据目标query在预设时段内的搜索日志集中的日志频率特征,确定目标query的搜索日志生成概率包括:将目标query 拆分为多个目标N元组,其中,N元组中包含多个连续的词汇;根据预设的第二字典,确定每个目标N元组针对预设时段内的搜索日志集出现的日志频率特征,其中,第二字典中包含搜索日志集下第二N元组和第二频率特征之间的对应关系;根据目标query的每个日志频率特征,生成搜索日志生成概率。
在本申请实施例中,服务器将目标query拆分为多个目标N元组,然后根据第二字典中的搜索日志集下第二N元组和第二频率特征之间的对应关系,确定每个目标N元组针对预设时段内的搜索日志集出现的日志频率特征,最后根据目标query的每个日志频率特征,生成搜索日志生成概率。
其中,根据目标query的每个日志频率特征生成搜索日志生成概率的具体方式,可以是将每个日志频率特征的平均值作为搜索日志生成概率,也可以是根据每个日志频率特征的数值和权重,生成搜索日志生成概率。本申请对搜索日志生成概率的生成方式不做具体限定。
作为一种可选的实施方式,将模板匹配特征、搜索文档生成概率以及搜索日志生成概率输入目标识别模型之前,方法还包括:获取样本query 的特征和样本query的特征对应的分类结果,其中,分类结果用于指示样本 query是否为噪声query;将样本query的特征输入初始识别模型,得到初始识别模型输出的识别结果;在识别结果和分类结果不相同的情况下,调整初始识别模型中的模型参数,直至初始识别模型输出的识别结果和分类结果相同。
在本申请实施例中,服务器获取样本query的特征和样本query的特征对应的分类结果,其中,分类结果用于指示样本query是否为噪声query,具体为query的标签,示例性地,正常query标记为0,错误query标记为1。
样本query的特征包括文档频率特征、搜索文档生成概率和搜索日志生成概率。服务器将query的特征作为机器学习模型的自变量,将预先设置的分类结果,即query是否为噪声的标签作为模型的因变量,对初始识别模型进行训练。具体为,若初始识别模型输出的识别结果和分类结果不相同,则调整初始识别模型中的模型参数,直至初始识别模型输出的识别结果和分类结果相同,这样得到目标识别模型。
基于相同的技术构思,本申请实施例还提供了一种识别噪声query的装置,如图3所示,该装置包括:
获取模块301,用于获取目标query,其中,目标query用于指示搜索引擎接收到的查询词句;
第一输入输出模块302,用于将目标query输入特征抽取模块,得到目标query的特征,其中,目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,搜索文档生成概率用于指示目标query在搜索文档集中的稀疏性特征,搜索日志生成概率用于指示目标query在搜索日志集中的稀疏性特征;
第二输入输出模块303,用于将目标query的特征输入目标识别模型,得到识别结果,其中,识别结果用于指示目标query是否为噪声query。
可选地,第一输入输出模块302包括:
获取单元,用于根据预设的噪声模板获取目标query的模板匹配特征;
第一确定单元,用于根据目标query的每个目标N元组在搜索文档集中的文档频率特征,确定目标query的搜索文档生成概率,其中,目标N 元组包括目标query的N个连续的词汇;
第二确定单元,用于根据目标query的每个目标N元组在预设时段内的搜索日志集中的日志频率特征,确定目标query的搜索日志生成概率。
可选地,第一确定单元用于:
将目标query拆分为多个目标N元组;
根据预设的第一字典,确定每个目标N元组针对搜索文档集出现的文档频率特征,其中,第一字典中包含搜索文档集下第一N元组和第一频率特征之间的对应关系;
根据目标query的每个文档频率特征,生成搜索文档生成概率。
可选地,第一确定单元还用于:
获取多个第一N元组,其中,第一N元组是通过对搜索文档集中的样本搜索记录进行拆分得到的,第一N元组包括样本搜索记录的N个连续的词汇;
获取包含第一N元组的样本文档数量;
根据样本文档数量和搜索文档集中的搜索文档总数,确定第一N元组的第一频率特征;
根据第一N元组和第一频率特征之间的对应关系,构建第一字典。
可选地,第二确定单元用于:
将目标query拆分为多个目标N元组,其中,N元组中包含多个连续的词汇;
根据预设的第二字典,确定每个目标N元组针对预设时段内的搜索日志集出现的日志频率特征,其中,第二字典中包含搜索日志集下第二N元组和第二频率特征之间的对应关系;
根据目标query的每个日志频率特征,生成搜索日志生成概率。
可选地,第二确定单元还用于:
获取多个第二N元组,其中,第二N元组是通过预设时段内的搜索日志集中的样本query记录得到的,第二N元组包括样本query的N个连续的词汇;
获取搜索日志集中包含第二N元组的样本query记录的样本query数量;
根据样本query数量和搜索日志集中的搜索词汇总数,确定样本N元组的第二频率特征;
根据第二N元组和第二频率特征之间的对应关系构建第二字典。
可选地,装置还用于:
获取样本query的特征和样本query的特征对应的分类结果,其中,分类结果用于指示样本query是否为噪声query;
将样本query的特征输入初始识别模型,得到初始识别模型输出的识别结果;
在识别结果和分类结果不相同的情况下,调整初始识别模型中的模型参数,直至初始识别模型输出的识别结果和分类结果相同。
基于相同的技术构思,本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现上述步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,PCI)总线或扩展工业标准结构 (ExtendedIndustryStandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(RandomAccessMemory,RAM),也可以包括非易失性存储器(Non-VolatileMemory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器 (CentralProcessingUnit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路 (ApplicationSpecificIntegratedCircuit,ASIC)、现场可编程门阵列 (Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种识别噪声query的方法,其特征在于,所述方法包括:
获取目标query,其中,所述目标query用于指示搜索引擎接收到的查询词句;
将所述目标query输入特征抽取模块,得到目标query的特征,其中,所述目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,所述搜索文档生成概率用于指示所述目标query在搜索文档集中的稀疏性特征,所述搜索日志生成概率用于指示所述目标query在搜索日志集中的稀疏性特征;
将所述目标query的特征输入目标识别模型,得到识别结果,其中,所述识别结果用于指示所述目标query是否为噪声query。
2.根据权利要求1所述的方法,其特征在于,所述得到目标query的特征包括:
根据预设的噪声模板获取目标query的模板匹配特征;
根据所述目标query的每个目标N元组在所述搜索文档集中的文档频率特征,确定所述目标query的搜索文档生成概率,其中,所述目标N元组包括所述目标query的N个连续的词汇;
根据所述目标query的每个目标N元组在预设时段内的搜索日志集中的日志频率特征,确定所述目标query的搜索日志生成概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标query在所述搜索文档集中的文档频率特征,确定所述目标query的搜索文档生成概率包括:
将所述目标query拆分为多个目标N元组;
根据预设的第一字典,确定每个目标N元组针对搜索文档集出现的文档频率特征,其中,所述第一字典中包含所述搜索文档集下第一N元组和第一频率特征之间的对应关系;
根据所述目标query的每个文档频率特征,生成所述搜索文档生成概率。
4.根据权利要求3所述的方法,其特征在于,根据预设的第一字典确定每个目标N元组针对搜索文档集出现的文档频率特征之前,所述方法还包括:
获取多个第一N元组,其中,所述第一N元组是通过对所述搜索文档集中的样本搜索记录进行拆分得到的,所述第一N元组包括所述样本搜索记录的N个连续的词汇;
获取包含所述第一N元组的样本文档数量;
根据所述样本文档数量和所述搜索文档集中的搜索文档总数,确定所述第一N元组的第一频率特征;
根据所述第一N元组和所述第一频率特征之间的对应关系,构建所述第一字典。
5.根据权利要求2所述的方法,其特征在于,所述根据所述目标query在预设时段内的所述搜索日志集中的日志频率特征,确定所述目标query的搜索日志生成概率包括:
将所述目标query拆分为多个目标N元组,其中,所述N元组中包含多个连续的词汇;
根据预设的第二字典,确定每个目标N元组针对所述预设时段内的搜索日志集出现的日志频率特征,其中,所述第二字典中包含所述搜索日志集下第二N元组和第二频率特征之间的对应关系;
根据所述目标query的每个日志频率特征,生成所述搜索日志生成概率。
6.根据权利要求5所述的方法,其特征在于,根据预设的第二字典确定每个目标N元组针对所述预设时段内的搜索日志集出现的日志频率特征之前,所述方法还包括:
获取多个第二N元组,其中,所述第二N元组是通过所述预设时段内的搜索日志集中的样本query记录得到的,所述第二N元组包括所述样本query的N个连续的词汇;
获取所述搜索日志集中包含所述第二N元组的样本query记录的样本query数量;
根据所述样本query数量和所述搜索日志集中的搜索词汇总数,确定所述样本N元组的第二频率特征;
根据所述第二N元组和所述第二频率特征之间的对应关系构建所述第二字典。
7.根据权利要求1所述的方法,其特征在于,将所述模板匹配特征、所述搜索文档生成概率以及所述搜索日志生成概率输入目标识别模型之前,所述方法还包括:
获取样本query的特征和所述样本query的特征对应的分类结果,其中,所述分类结果用于指示所述样本query是否为噪声query;
将所述样本query的特征输入初始识别模型,得到所述初始识别模型输出的识别结果;
在识别结果和所述分类结果不相同的情况下,调整所述初始识别模型中的模型参数,直至所述初始识别模型输出的识别结果和所述分类结果相同。
8.一种识别噪声query的装置,其特征在于,所述装置包括:
获取模块,用于获取目标query,其中,所述目标query用于指示搜索引擎接收到的查询词句;
第一输入输出模块,用于将所述目标query输入特征抽取模块,得到目标query的特征,其中,所述目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,所述搜索文档生成概率用于指示所述目标query在搜索文档集中的稀疏性特征,所述搜索日志生成概率用于指示所述目标query在搜索日志集中的稀疏性特征;
第二输入输出模块,用于将所述目标query的特征输入目标识别模型,得到识别结果,其中,所述识别结果用于指示所述目标query是否为噪声query。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210306752.5A CN114757267B (zh) | 2022-03-25 | 2022-03-25 | 识别噪声query的方法、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210306752.5A CN114757267B (zh) | 2022-03-25 | 2022-03-25 | 识别噪声query的方法、装置、电子设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114757267A true CN114757267A (zh) | 2022-07-15 |
CN114757267B CN114757267B (zh) | 2024-06-21 |
Family
ID=82326945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210306752.5A Active CN114757267B (zh) | 2022-03-25 | 2022-03-25 | 识别噪声query的方法、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114757267B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100069118A (ko) * | 2008-12-16 | 2010-06-24 | 한국전자통신연구원 | 질의어 색인 데이터베이스 구축 방법과 그 질의어 색인 데이터베이스를 이용한 질의어 추천 방법 |
CN103455754A (zh) * | 2013-09-05 | 2013-12-18 | 上海交通大学 | 一种基于正则表达式的恶意搜索关键词识别方法 |
CN106815263A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律条文的搜索方法及装置 |
US20180373692A1 (en) * | 2017-06-21 | 2018-12-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for parsing query based on artificial intelligence and computer device |
CN109815492A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种基于识别模型的意图识别方法、识别设备及介质 |
US20190179966A1 (en) * | 2017-11-29 | 2019-06-13 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for identifying demand |
CN110209764A (zh) * | 2018-09-10 | 2019-09-06 | 腾讯科技(北京)有限公司 | 语料标注集的生成方法及装置、电子设备、存储介质 |
CN110472027A (zh) * | 2019-07-18 | 2019-11-19 | 平安科技(深圳)有限公司 | 意图识别方法、设备及计算机可读存储介质 |
-
2022
- 2022-03-25 CN CN202210306752.5A patent/CN114757267B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100069118A (ko) * | 2008-12-16 | 2010-06-24 | 한국전자통신연구원 | 질의어 색인 데이터베이스 구축 방법과 그 질의어 색인 데이터베이스를 이용한 질의어 추천 방법 |
CN103455754A (zh) * | 2013-09-05 | 2013-12-18 | 上海交通大学 | 一种基于正则表达式的恶意搜索关键词识别方法 |
CN106815263A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律条文的搜索方法及装置 |
US20180373692A1 (en) * | 2017-06-21 | 2018-12-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for parsing query based on artificial intelligence and computer device |
US20190179966A1 (en) * | 2017-11-29 | 2019-06-13 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for identifying demand |
CN110209764A (zh) * | 2018-09-10 | 2019-09-06 | 腾讯科技(北京)有限公司 | 语料标注集的生成方法及装置、电子设备、存储介质 |
CN109815492A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种基于识别模型的意图识别方法、识别设备及介质 |
CN110472027A (zh) * | 2019-07-18 | 2019-11-19 | 平安科技(深圳)有限公司 | 意图识别方法、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
田钦滨: "微博搜索话题词用户意图识别系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 March 2021 (2021-03-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN114757267B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11017178B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
US10496928B2 (en) | Non-factoid question-answering system and method | |
US10042896B2 (en) | Providing search recommendation | |
WO2018157805A1 (zh) | 一种自动问答处理方法及自动问答系统 | |
WO2022095374A1 (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN111767796B (zh) | 一种视频关联方法、装置、服务器和可读存储介质 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
WO2019024838A1 (zh) | 检索项的生成方法及相关装置 | |
CN109117474B (zh) | 语句相似度的计算方法、装置及存储介质 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
US10970488B2 (en) | Finding of asymmetric relation between words | |
CN111462751A (zh) | 解码语音数据的方法、装置、计算机设备和存储介质 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN108763202A (zh) | 识别敏感文本的方法、装置、设备及可读存储介质 | |
CN110597844A (zh) | 异构数据库数据统一访问方法及相关设备 | |
CN112667780A (zh) | 一种评论信息的生成方法、装置、电子设备及存储介质 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN113806510B (zh) | 一种法律条文检索方法、终端设备及计算机存储介质 | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
Lindén et al. | Evaluating combinations of classification algorithms and paragraph vectors for news article classification | |
CN111597822A (zh) | 一种对象名称识别方法及装置 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |