CN111708890A

CN111708890A - 一种搜索词确定方法和相关装置

Info

Publication number: CN111708890A
Application number: CN202010657171.7A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-09-25
Anticipated expiration: 2040-07-09
Also published as: CN111708890B

Abstract

本申请实施例公开了一种搜索词确定方法和相关装置，针对目标用户标识对应的N个搜索词，根据这N个搜索词的语义进行分类，得到搜索词集合。对于搜索词集合中的第i个搜索词和第i+1个搜索词，若第i个搜索词对应的影响因子小于第i+1个搜索词对应的影响因子，表明第i个搜索词对应的搜索质量低于第i+1个搜索词对应的搜索质量。另外，第i个搜索词对应的搜索行为早于第i+1个搜索词对应的搜索行为，这就意味着目标用户根据第i个搜索词获取的搜索结果不够理想，无法满足搜索需求，需要通过第i+1个搜索词获取更好的搜索结果。由此可知，第i个搜索词对应的搜索算法存在问题，故，可以将第i个搜索词确定为坏例，用于优化搜索引擎。

Description

一种搜索词确定方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种搜索词确定方法和相关装置。

背景技术

搜索引擎技术是一种满足用户查询需求的检索技术。用户在搜索引擎提供的搜索入口中输入搜索词(Query)，点击查询，搜索引擎就会返回与搜索词相关的搜索结果，供用户查阅。

搜索引擎的算法需要持续优化，以便可以高质量的响应用户输入的各种可能的搜索词，使搜索结果能够尽可能地满足用户的搜索需求。在相关技术中，产品运营人员通过对搜索词对应的搜索结果进行评测，并将评测为坏例(badcase)的搜索词提供给技术人员，对后台算法进行迭代优化。

在相关技术中，评测一个搜索词为坏例是通过人为确定的，受人为主观因素影响较大，导致搜索词的评测置信度不够准确。也就是说，被评测为坏例的搜索词，实际不是坏例，或者，没有被评测为坏例的搜索词，却是坏例。如此，无法有效地对搜索引擎进行优化，影响用户使用体验。

发明内容

为了解决上述技术问题，本申请提供了一种搜索词确定方法和相关装置，提高了确定搜索词为坏例的准确度。

有鉴于此，本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种搜索词确定方法，所述方法包括：

获取目标用户标识对应的N个搜索词；其中，所述搜索词具有对应的影响因子，所述影响因子用于标识搜索词对应的搜索质量；

根据所述N个搜索词的语义进行分类，得到搜索词集合；其中，所述搜索词集合中的搜索词属于同一语义类别；

确定所述搜索词集合中第i个搜索词对应的影响因子是否小于第i+1个搜索词对应的影响因子；其中，所述第i个搜索词对应的搜索行为早于所述第i+1个搜索词对应的搜索行为；

若是，将所述第i个搜索词确定为坏例。

在一种可能的实现方式中，所述获取目标用户标识对应的N个搜索词包括：

获取目标会话内目标用户标识对应的N个搜索词；其中，所述目标会话是按照预设时间间隔确定的。

另一方面，本申请实施例提供了一种搜索词确定装置，所述装置包括获取单元、分类单元和确定单元：

所述获取单元，用于获取目标用户标识对应的N个搜索词；其中，所述搜索词具有对应的影响因子，所述影响因子用于标识搜索词对应的搜索质量；

所述分类单元，用于根据所述N个搜索词的语义进行分类，得到搜索词集合；其中，所述搜索词集合中的搜索词属于同一语义类别；

所述确定单元，用于确定所述搜索词集合中第i个搜索词对应的影响因子是否小于第i+1个搜索词对应的影响因子；其中，所述第i个搜索词对应的搜索行为早于所述第i+1个搜索词对应的搜索行为；若是，将所述第i个搜索词确定为坏例。

另一方面，本申请实施例提供了一种用于搜索词确定的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

由上述技术方案可以看出，针对目标用户标识对应的N个搜索词，根据这N个搜索词的语义进行分类，得到搜索词集合。由于搜索词集合中的搜索词属于同一语义类别，说明搜索词集合中的搜索词源自目标用户的相似的搜索需求。对于搜索词集合中的第i个搜索词和第i+1个搜索词，若第i个搜索词对应的影响因子小于第i+1个搜索词对应的影响因子，表明第i个搜索词对应的搜索质量低于第i+1个搜索词对应的搜索质量。另外，第i个搜索词对应的搜索行为早于第i+1个搜索词对应的搜索行为，这就意味着目标用户根据第i个搜索词获取的搜索结果不够理想，无法满足搜索需求，需要通过第i+1个搜索词获取更好的搜索结果。由此可知，第i个搜索词对应的搜索算法存在问题，故，可以将第i个搜索词确定为坏例，用于优化搜索引擎。基于此，从单个用户搜索行为的角度对搜索词对应的搜索质量进行衡量，相较于基于人为评测坏例的方式，克服了需要多人达成共识才能确定坏例的问题，避免了少数人评测为坏例的搜索词被遗漏的情况，提高了确定搜索词为坏例的准确度，同时，提高了搜索引擎的性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种通过按钮对搜索词对应的搜索结果进行评分的界面示意图；

图1b为本申请实施例提供的一种基于众测评分的统计结果示意图；

图2为本申请实施例提供的一种搜索词确定方法的应用场景示意图；

图3为本申请实施例提供的一种搜索词确定方法的流程示意图；

图4为本申请实施例提供的另一中搜索词方法的应用场景示意图；

图5为本申请实施例提供的一种向量间的夹角示意图；

图6为本申请实施例提供的一种搜索词确定装置的结构示意图；

图7为本申请实施例提供的服务器的结构示意图；

图8为本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

在相关技术中，搜索引擎优化会不断通过产品运营人员使用，评测后提出坏例(badcase)给技术人员进行后台算法的迭代优化。当前随着各类众包平台和思想的涌现，很多搜索产品会在其自然搜索结果中加入一些交互性标注按钮，使得用户可以提交自己对当前搜索结果的好恶评分，如图1a所示。图1b给出了搜索产品A灰度的部分流量众统计结果示意图。

对于这种众包评测来说，一般为了降低用户使用门槛，提交按钮会设计的比较简单，只有一个1～5分的打分按钮。分数越低说明用户满意度约低，越高则认为满意度越好。分数和搜索质量满意度的对照表如下：

分数	搜索质量满意度
		1	非常不满意
2	不满意
		3	基本满意
4	比较满意
		5	非常满意

一般地，将评分为1～3分的搜索词确定为坏例(badcase)。为了便于描述，以下简称为众测坏例。由于用户提交的低门槛也带来了众测坏例置信度的问题(即众测坏例未必是真正的坏例)。在相关技术中，可以使用多人投票的方式来规则化计算众测坏例的置信度。若同一个众测坏例被K个人(K>＝2)评为1～3分，则认为这个众测坏例是真正的坏例，用以给研发人员优化。

但是，这种确定众测坏例中是否存在真正的坏例的方式，需要多人达成共识，才会被确定为真正的坏例。但是，对于无人评分或者少数人评分的众测坏例，也可能是真正的坏例。因此，这种确定真正的坏例的方式会遗漏很多真正的坏例，导致确定搜索词为坏例的准确度较低，搜索引擎的搜索性能仍有提升空间。

为了提高确定搜索词为坏例的准确度，本申请实施例提供了一种搜索词确定方法和相关装置。

本申请实施例提供的搜索词确定方法是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述自然语言处理技术和机器学习/深度学习等方向。

例如可以涉及自然语言处理技术(Nature Language Processing,NLP)中的文本预处理(Text Preprocessing)和语义理解(Semantic Understanding)，包括词、句切分(Word/Sentence Segmentation)和语义分析(Semantic Analyzing)。

例如可以涉及机器学习(Machine learning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(Artificial Neural Network,ANN)。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的搜索词确定方法进行介绍。

本申请实施例提供的搜索词确定方法可以应用于具有数据处理能力的搜搜索词确定设备，例如终端设备或服务器，该方法可以通过终端设备独立执行，也可以通过服务器独立执行，也可以应用于终端设备和服务器通信的网络场景，通过终端设备和服务器配合执行。其中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器可以理解为是应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器。

该搜索词确定设备可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

本申请实施例提供的搜索词确定方法主要涉及对各类人工神经网络的应用。在本申请中，以服务器作为搜索词确定设备对下述实施例进行介绍。

参见图2，图2为本申请实施例提供的一种搜索词确定方法的应用场景实施例。如图2所示，包括终端设备201和服务器202。其中，终端设备201中部署有待优化的搜索引擎，用于采集用户利用搜索引擎进行搜索对应的搜索词。服务器202，用于获取来自终端设备201的用户标识的N个搜索词，并确定出这N个搜索词中为坏例。

在应用过程中，目标用户利用终端设备201输入搜索词，查询需要的信息。终端设备201将带有目标用户标识的N个搜索词发送给服务器202，以便利用服务器202确定这N个搜索词中为坏例，用于优化搜索引擎，提高用户使用体验。

在图2所示的场景中，针对用户a，利用终端设备201采集用户a输入的N个搜索词，并发送给服务器202。从而，服务器202可以获取到用户a标识对应的N个搜索词，分别为：词1,词2,……,词N。

由于属于同一语义类别的搜索词，源自目标用户相似的搜索需求。因此，服务器202根据N个搜索词的语义进行分类，得到搜索词集合。由于搜索词集合中的搜索词对应的语义相同或相近，因此，同一个搜索词集合中的搜索词属于同一语义类别，即源自目标用户相似的搜索需求。

在图2所示的应用场景中，服务器202对N个搜索词进行分类后，得到搜索集合A，包括词1和词2。由于词1和词2属于同一语义类别，因此，可以确定词1和词2源自用户a相似的搜索需求。

基于上述，通过语义分类，可以将语义相似的搜索词归于同一搜索词集合，继而，可以对源于相似的搜索需求的搜索词进行分析，以便挖掘出搜索质量较低的搜索词，用于搜索引擎的优化。

由于搜索词对应的影响因子标识了搜索词对应的搜索质量，因此，对于搜索词集合中的第i个搜索词和第i+1个搜索词，服务器201可以通过比较第i个搜索词对应的影响因子和第i+1个搜索词对应的影响因子，确定出第i个搜索词对应的搜索质量和第i+1个搜索词对应的搜索质量孰高孰低。

若服务器201确定出第i个搜索词所对应的影响因子小于第i+1个搜索词所对应的影响因子，表明第i个搜索词所对应的搜索质量低于所述第i+1个搜索词所对应的搜索质量。

例如，对于图2所示的搜索词集合A中的词1和词2，若服务器202比较词1对应的影响因子conf1和词2对应的影响因子conf2，确定出词1对应的影响因子小于词2对应的影响因子，即conf1<conf2，表明词1对应的搜索质量低于词2对应的搜索质量。

此外，由于第i个搜索词对应的搜索行为是早于第i+1个搜索词对应的搜素行为的，这就意味着第i个搜索词对应的搜索结果没有满足目标用户的搜索需求，目标用户针对相似的搜索需求，将第i个搜索词更改为第i+1个搜索词，以获取质量更好的搜索结果。基于此可知，相对第i+1个搜索词，第i个搜索词对应的搜索算法存在问题，需要进一步提高搜索引擎对应第i个搜索词的搜索性能，以提高第i个搜索词对应的搜索质量。故，可以将第i个搜索词确定为坏例。

在图2所示的场景中，服务器202确定出词1对应的影响因子小于词2对应的影响因子，且词1对应的搜索行为早于词2对应的搜索行为，因此，可以将词2作为坏例，用于对搜索引擎做进一步地优化。

上述实施例从单个用户搜索行为的角度对搜索词对应的搜索质量进行衡量的方法，相较于多人评选坏例的方法，该方法克服了需要多人达成共识才能确定坏例的问题，避免了少数人评测为坏例的搜索词被遗漏的情况，提高了确定搜索词为坏例的准确度，同时，提高了搜索引擎的性能。

参见图2，图2为本申请实施例提供的一种搜索词确定方法的流程示意图。如图2所示，该搜索词确定方法包括以下步骤：

S301：获取目标用户标识对应的N个搜索词；其中，所述搜索词具有对应的影响因子，所述影响因子用于标识搜索词对应的搜索质量；

S302：根据所述N个搜索词的语义进行分类，得到搜索词集合；其中，所述搜索词集合中的搜索词属于同一语义类别；

S303：确定所述搜索词集合中第i个搜索词对应的影响因子是否小于第i+1个搜索词对应的影响因子；其中，所述第i个搜索词对应的搜索行为早于所述第i+1个搜索词对应的搜索行为；

S304：若是，将所述第i个搜索词确定为坏例。

用户利用终端设备中的搜索引擎提供的搜索入口输入搜索词，通过点击查询按钮，查询需要的信息。终端设备响应用户的点击查询操作，返回并显示搜索词对应的搜索结果，并将搜索词发送给服务器，以便服务器确定搜索词是否为真正的坏例。服务器可以收来自多个终端设备发送的搜索词，并保存在各自对应的搜索词日志(querylog)，以便后续确定搜索词是否为真正的坏例。

在本申请实施例中，服务器首先统计出原始众测坏例在一个时间段内被系统用户搜索的搜索次数(qv)。然后，从众测坏例中，确定出搜索次数大于次数阈值的搜索词，作为本申请实施例的处理对象，以便挖掘出更具典型性，且优化性价比更高的真正的坏例。其中，时间段可以根据具体的应用场景预先设定，在本申请实施例中，时间段设定为一周，因此，本申请实施例是根据搜索词在一周内的特征确定是否为真正的坏例。为了便于描述，在本申请中将确定搜索词为真正的坏例简称为确定搜索词为坏例。

服务器获取来自多个用户侧的终端设备发送的搜索词，可以通过目标用户标识对搜索词与目标用户之间的对应关系进行标识，以便服务器以用户为单位，对用户对应的搜索词进行处理。其中，目标用户标识包括但不限于为目标用户登录搜索系统的登录名。

如图4所示的应用场景中，服务器401可以获取用户a、用户b和用户c各自对应的终端设备对应的搜索词，其中，对于用户a，通过用户a标识对用户a对应的终端设备402发送的搜索词进行标识。

目标用户发送的N个搜索词中的每个搜索词具有对应的影响因子。。其中，影响因子用于标识搜索词对应的搜索质量。服务器可以分别计算出N个搜索词各自对应的影响因子。影响因子越大，表明搜索词对应的搜索质量越高；影响因子越小，表明搜索词对应的搜索质量越低。因此，服务器可以根据搜索词对应的影响因子，比较不同搜索词对应的搜索质量的关系。

目标搜索词的影响因子是根据目标搜索词对应的召回数特征和点击率特征确定的。其中，召回数特征用于标识目标搜索词对应的召回率。召回数特征越显著，表明目标搜索词召回率越高，即目标搜索词对应的召回数越多；召回数特征越不显著，表明目标搜索词召回率越低，即目标搜索词对应的召回数越少。点击率特征用于标识目标搜索词对应的点击次数相对目标搜索词所对应搜索次数的比率。点击率特征越显著，表明目标搜索词所对应点击次数相对目标搜索词所对应搜索次数的比率越高；点击率特征越不显著，表明目标搜索词所对应点击次数相对目标搜索词所对应搜索次数的比率越低。由此可知，对于召回数特征不显著，且点击率特征也不显著的搜索词，其对应的影响因子较小，表明该搜索词对应的搜索质量较小，说明该搜索词是可能是个坏例。

在具体计算过程中，服务器可以通过统计目标搜索词对应的召回数(recall_num)和召回数阈值M确定目标搜索词对应的召回数特征(recall_num_conf)。其中，召回数是指根据搜索词进行搜索，返回的搜索结果的总数量。由于不同搜索词对应的召回数之间的差距可能较大，因此，可以通过设定一个最大召回数为召回数阈值M，召回数阈值为常数。若目标搜索词对应的召回数大于M，则令目标搜索词对应的召回数为M，即recall_num＝M。

具体计算公式如下：

其中，当目标搜索词的召回数为M时，将log()中的分母修正为M+1，防止上述公式出现分母为0的情况。上述公式中取log是为了让搜索词对应的召回数特征更加平滑。

根据上述公式可知，目标召回数越小，目标搜索词对应的召回率越小，表明目标搜索词对应的召回率特征越不显著，目标搜索词对应的影响因子可能越小，因此，该目标搜索词可能是个坏例。

由于召回数特征标识了搜索词对应的召回率，因此，可以从搜索引擎根据搜索词返回对应的搜索结果的数量这一特征维度，对搜索词对应的搜索质量进行衡量，以提高确定搜索词为坏例的准确度。

另外，服务器可以统计目标搜索词对应的点击次数click_num和该目标搜索词对应的搜索次数qv确定点击率特征click_rate。其中，点击次数用于标识目标搜索词对应的搜索结果被系统用户点击的总次数。搜索次数用于标识目标搜索词被系统用户搜索次数。具体计算公式如下：

click_rate＝click_num/qv

根据上述公式可知，对于具有相同搜索次数的目标搜索词，目标搜索词对应的点击次数越小，目标搜索词所对应点击次数相对目标搜索词所对应搜索次数的比率越小，表明目标搜索词对应的点击率特征越不显著，目标搜索词对应的影响因子可能越小，因此，该目标搜索词可能是个坏例。

由于点击率特征标识了搜索词所对应点击次数相对该搜索词所对应搜索次数的点击比率，因此，可以从搜索词对应的用户行为的角度，对搜索词对应的搜索质量进行衡量，以提高确定搜索词为坏例的准确度。

基于上述，服务器可以根据上述计算出的目标搜索词对应的召回数特征和点击率特征确定出目标搜索词对应的影响因子。具体计算公式如下：

result_conf_score＝recall_num_conf*click_rate

其中，result_conf_score表示目标搜索词对应的影响因子。为了描述方便，在本申请实施例中，将result_conf_score简写为conf，用于标识搜索词对应的影响因子。根据上述公式可知，召回数特征越小，且点击率特征越小，其对应的影响因子越小，即目标搜索词对应的搜索质量越低，说明目标搜索词可能是个坏例。

由于召回数特征标识了搜索词对应的召回率，点击率特征标识了搜索词所对应点击次数相对搜索词所对应搜索次数的比率，因此，可以从搜索引擎根据搜索词返回对应的搜索结果的数量结合搜索词对应用户行为这两个特征维度，对对搜索词对应的搜索质量进行衡量，提高了确定搜索词为坏例的准确度。

可以理解的是，对于影响因子较大的搜索词，其对应的搜索质量较高，这就意味着该搜索词并不是坏例。而对于影响因子较小的搜索词，其对应的搜索质量较低，这就意味着该搜索词是个潜在的坏例。因此，服务器在确定出上述N个搜索词各自对应的影响因子之后，可以确定出N个搜索词中影响因子小于影响阈值conf0的M个搜索词，并对这M个搜索词执行后续处理流程，以确定出这M个搜索词是否为坏例。

在实际应用过程中，服务器可以根据获取的多个搜索词，生成对应的搜索词日志(querylog)。针对一个时间段对应的目标搜索词日志，服务器可以按照预设时间间隔，对目标搜索词日志中的搜索词进行切分，生成对应的会话(session)。其中，时间段和时间间隔是预先设置的，可以根据具体的应用场景设定。一般地，将时间段设置为一周，时间间隔设置为10分钟。为了便于理解，假定目标会话包括上述确定出的M个搜索词，针对这M个搜索词，需要继续确定是否为坏例。

上述按照预设时间间隔对搜索词日志进行切分，可以将目标用户基于相同或相似的任务输入的多个搜索词划分到一个会话中，以便服务器以一个会话内的搜索词作为整体进行数据处理，提高服务器确定搜索词作为坏例的效率。

在图4所示的应用场景中，服务器401对用户a对应的搜索词日志进行切分后，得到包括5个搜索词的会话，即M＝5。该会话具体包括query1：名人专列；query：人物专列；query3：出访俄罗斯；query4：莫斯科；query5：历史。基于此，服务器401可以以这5个搜索词作为整体，继续执行后续步骤。

上述从单个用户的角度对搜索词进行处理，避免了相关技术中需要多人达成共识才能选出坏例的问题，由此提高了确定搜索词为坏例的准确度。

由于会话是从时间维度对搜索词进行的划分，因此，目标会话内的M个搜索词，可能源自目标用户多个搜索需求，故，需要再对目标会话内的M个搜索词再做进一步地划分。

具体划分过程中，服务器可以根据M个搜索词的语义进行分类，将语义相似的搜索词放入一个搜索词集合中。其中，搜索词集合中的搜索词属于同一语义类别，即搜索词集合中的搜索词源自目标用户相似的搜索需求。

上述通过语义分类，将语义相似的搜索词归于同一搜索词集合，从而可以对源于相似的搜索需求的搜索词进行处理，以便提高确定搜索词为坏例的准确度，以提高搜索引擎的搜索性能。

在对搜索词进行分类中，服务器可以根据上述M个搜索词的语义，生成M个搜索词对应的M个特征向量，然后，对所述M个特征向量进行无监督聚类，得到搜索词集合。

具体实现时，服务器可以基于段落向量模型和K-平均算法对M个搜索词做无监督语义聚类。其中，段落向量(Doc2vec)模型是预先训练好的，用于对分词后的搜索词进行向量化特征表示，生成搜索词对应的特征向量。训练并生成Doc2vec模型的代码可以为：

#Doc2vec

#训练并保存模型

import genism

sentences＝genism.models.doc2vec.TaggedLineDocument(token_path)

model＝gensim.models.Doc2Vec(sentences,size＝100,window＝2,min_count＝3)

model.train＝(sentences,total_examples＝model.corpus_count,epochs＝1000)

model.save(‘../model/demoDoc2Vec.pkl’)

然后，服务器可以基于K-平均(K-means)算法对上述生成的特征向量做无监督聚类，聚类生成k个簇(cluster)。具体算法为：

1、对于一个会话中的M个搜索词，用X＝(x1,x2,…,xm)表示，其中，xj表示第j个搜索词。从M个搜索词中随机选取k个搜索词，作为k个语义类别的中心，其中，用S＝(s1,s2...sk)表示，其中，si表示第i个语义类别对应的中心。

2、分别计算M个搜索词中每个搜索词到k个语义类别的中心的距离，将M个搜索词分别划归到距离最小的语义类别中去，这个过程其实是一个重新聚类的过程。即搜索词xj与k个语义类别中的中心si的距离最小。其中，搜索词与语义类别的中心的距离可以通过下述公式计算：

3、基于第2步聚类后生成的k个簇，根据每个簇中的所有搜索词计算各自对应的质心，并将计算得到的质心作为这k个语义类别新的中心，用Si′＝(s1′,s2′...sk′)，其中，si′表示第i个语义类别新的中心。

重复上述第2步和第3步，直到k个语义类别的中心不再发生变化，这k个中心对应的k个簇就是经过语义聚类后的k个搜索词集合。

上述基于k-means算法进行聚类对应的代码如下：

#K-means聚类

print‘Start K-means:’

from sklearn.cluster import KMeans

clf＝KMeans(n_clusters＝20)

s＝clf.fit(model.docvecs)

print s

#20个中心点

print(clf.cluster_centers_)

#每个搜索词所属的簇

print(clf.labels_)

i＝1

while i<＝len(clf.labels_):

print i,clf.labels_[i-1]

i＝i+1

#评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数

print(clf.inertia_)

在图4所示的应用场景中，服务器401可以基于上述Doc2vec模型和K-means算法对上述5个搜索词进行分类，得到3个搜索词集合。例如，搜索词集合c1：名人专列和人物专列；搜索词集合c2：出访俄罗斯和莫斯科；搜索词集合c3：历史。

上述通过语义分类，将语义相似的搜索词归于同一搜索词集合，继而，可以对源于相似的搜索需求的搜索词进行分析，以便确定出作为坏例的搜索词，用于搜索引擎的优化。

由于搜索词对应的影响因子标识了搜索词对应的搜索质量，因此，对于搜索词集合中的第i个搜索词和第i+1个搜索词，服务器可以通过比较第i个搜索词对应的影响因子conf(i)和第i+1个搜索词对应的影响因子conf(i+1)，确定出第i个搜索词对应的搜索质量和第i+1个搜索词对应的搜索质量孰高孰低。

若服务器确定出第i个搜索词所对应的影响因子小于第i+1个搜索词所对应的影响因子，表明第i个搜索词所对应的搜索质量低于所述第i+1个搜索词所对应的搜索质量。

在图4所示的应用场景中，对于搜索词集合c1中的名人专列和人物专列，若服务器401确定出名人专列对应的影响因子conf1小于人物专列对应的影响因子conf2，即conf1<conf2，表明名人专列对应的搜索质量低于人物专列对应的搜索质量。

在实际应用中，若搜索词集合中的第i+1个搜索词对应的影响因子conf(i+1)与第i个搜索词对应的影响因子conf(i)的比值diff_conf小于影响阈值T，则认为第i+1个搜索词对应的影响因子是远大于第i个搜索词对应的影响因子。在本申请实施例中，影响阈值预先设定为3。则用形式化表达为：diff_conf＝conf(i+1)/conf(i)>T。

若上述第i个搜索词对应的搜索行为是早于上述第i+1个搜索词对应的搜素行为的，基于上述若确定出第i+1个搜索词对应的影响因子明显大于第i个搜索词对应的影响因子，这就意味着目标用户对第i个搜索词对应的搜索结果不满意，没有满足搜索需求，而经过改写后的第i+1个搜索词，其对应的搜索结果要高于第i个搜索词。

因此，相对第i+1个搜索词，第i个搜索词对应的搜索算法存在问题，需要进一步提高搜索引擎对应第i个搜索词的搜索性能，以提高第i个搜索词对应的搜索质量。故，可以将第i个搜索词确定为坏例。

在图4所示的场景中，由于人物专列对应的影响因子与名人专列对应的影响因子的比值小于影响阈值，且，名人专列对应的搜索行为早于人物专列对应的搜索行为，因此，可以将名人专列确定为坏例，用于搜索引擎的优化。

上述实施例从单个用户搜索行为的角度对搜索词对应的搜索质量进行衡量的方法，相较于基于多人评选坏例的方法，该方法克服了需要多人达成共识才能确定坏例的问题，避免了少数人评测为坏例的搜索词被遗漏的情况，提高了确定搜索词为坏例的准确度，同时，提高了搜索引擎的性能。

为了进一步提高确定搜索词为坏例的准确度，在确定出第i个搜索词对应的影响因子小于第i+1个搜索词对应的影响因子之后，服务器可以继续比较第i+1个搜索词与第j个搜索词之间的语义相似度。其中，第j个搜索词是第N个搜索词中，第i+1个搜索词在搜索时序的下一个搜索词，且第i+1个搜索词与第j个搜索词属于不同语义类别。

若第j个搜索词与第i+1个搜索词之间的语义相似度，则说明第i+1个搜索词已经满足了目标用户阶段性的搜索需求，并开始切换到下一个搜索需求，因此，可以将第i个搜索词确定为坏例。

在具体比较两个搜索词之间的语义相似度过程中，可以使用上述Doc2vec模型，对第i+1个搜索词和第j个搜索词向量表示，生成各自对应的特征向量，分别为x_1k和x_2k。其中，k为表示第k个特征向量维度。然后，可以使用余弦距离(Cosine Distance)对第i+1个搜索词和第j个搜索词之间的语义相似度进行衡量。

其中，余弦距离，又称为余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。可以理解的是，对于图5中的向量a和向量b，其夹角θ越小，其夹角余弦值越大；其夹角θ越大，其夹角余弦值越小。基于此，对于第i+1个搜索词对应的特征向量x_1k和第j个搜索词对应的特征向量x_2k，其对应的余弦距离为：

根据上述公式可知，cos(θ)越小，表示两个搜索词之间的语义较远，即语义相似度越小；cos(θ)越大，表示两个搜索词之间的语义相近，即语义相似度越大。因此，若服务器根据上述余弦距离公式计算出第i+1个搜索词和第j个搜索词之间的语义相似度cos(θ)，且cos(θ)小于相似阈值，说明经过改写后第i+1个搜索词满足了目标用户针对第i个搜索词的搜索需求，且从第j个搜索词开始切换到了下一个搜索需求。因此，可以将第i个搜索词确定为坏例，用于搜索引擎的优化。

在图4所示的应用场景中，服务器401继续计算人物专列和出访俄罗斯之间的余弦距离，若确定出该余弦距离小于相似阈值，说明人物专列和出访俄罗斯之间的语义相似度较小，用户a更换了搜索需求，因此，可以将名人专利确定为坏例。

基于上述，通过计算第i+1个搜索词和第j个搜索词之间的语义相似度，明确了第i+1个搜索词是否满足了目标用户对应第i个搜索词的搜索需求，进一步从用户搜索需求的角度对搜索词进行衡量，提高了确定搜索词作为坏例的准确度。

上述实施例提供的搜索词确定方法，针对目标用户标识对应的N个搜索词，根据这N个搜索词的语义进行分类，得到搜索词集合。由于搜索词集合中的搜索词属于同一语义类别，说明搜索词集合中的搜索词源自目标用户的相似的搜索需求。对于搜索词集合中的第i个搜索词和第i+1个搜索词，若第i个搜索词对应的影响因子小于第i+1个搜索词对应的影响因子，表明第i个搜索词对应的搜索质量低于第i+1个搜索词对应的搜索质量。另外，第i个搜索词对应的搜索行为早于第i+1个搜索词对应的搜索行为，这就意味着目标用户根据第i个搜索词获取的搜索结果不够理想，无法满足搜索需求，需要通过第i+1个搜索词获取更好的搜索结果。由此可知，第i个搜索词对应的搜索算法存在问题，故，可以将第i个搜索词作为坏例，用于优化搜索引擎。基于此，从单个用户搜索行为的角度对搜索词对应的搜索质量进行衡量，相较于基于人为评测坏例的方式，克服了需要多人达成共识才能确定坏例的问题，避免了少数人评测为坏例的搜索词被遗漏的情况，提高了确定搜索词为坏例的准确度，同时，提高了搜索引擎的性能。

针对上述实施例提供的搜索词确定方法，本申请实施例还提供了一种搜索词确定装置。如图6所示，该搜索词确定装置600包括获取单元601、分类单元602和确定单元603：

所述获取单元601，用于获取目标用户标识对应的N个搜索词；其中，所述搜索词具有对应的影响因子，所述影响因子用于标识搜索词对应的搜索质量；

所述分类单元602，用于根据所述N个搜索词的语义进行分类，得到搜索词集合；其中，所述搜索词集合中的搜索词属于同一语义类别；

所述确定单元603，用于确定所述搜索词集合中第i个搜索词对应的影响因子是否小于第i+1个搜索词对应的影响因子；其中，所述第i个搜索词对应的搜索行为早于所述第i+1个搜索词对应的搜索行为；若是，将所述第i个搜索词确定为坏例。

在一种可能的实现方式中，所述第i+1个搜索词对应的影响因子与所述第i个搜索词对应的影响因子的比值大于3。

在一种可能的实现方式中，所述确定单元603，还用于确定所述第i+1个搜索词与第j个搜索词的语义相似度小于相似度阈值；其中，所述第j个搜索词是所述第N个搜索词中，所述第i+1个搜索词在搜索时序的下一个搜索词，且所述第i+1个搜索词与所述第j个搜索词属于不同语义类别。

在一种可能的实现方式中，目标搜索词为所述N个搜索词中的任意一个，所述确定单元603，还用于确定所述N个搜索词分别对应的影响因子；其中，所述目标搜索词对应的影响因子是根据所述目标搜索词对应的召回数特征和点击率特征确定的；

所述召回数特征用于标识所述目标搜索词对应的召回率；

所述点击率特征用于标识所述目标搜索词所对应点击次数相对所述目标搜索词所对应搜索次数的比率。

在一种可能的实现方式中，所述目标搜索词对应的召回数特征是根据所述目标搜索词对应的召回数和召回数阈值确定的；其中，当所述目标搜索词对应的召回数大于召回数阈值，将所述召回数阈值作为所述召回数阈值。

在一种可能的实现方式中，所述分类单元602，用于：

确定所述N个搜索词对应的影响因子小于影响阈值的M个搜索词；

根据所述M个搜索词的语义进行分类，得到搜索词集合。

在一种可能的实现方式中，所述分类单元602，用于：

根据所述N个搜索词的语义，生成N个搜索词对应的N个特征向量；

对所述N个特征向量进行无监督聚类，得到搜索词集合。

上述实施例提供的一种搜索词确定装置，针对目标用户标识对应的N个搜索词，根据这N个搜索词的语义进行分类，得到搜索词集合。由于搜索词集合中的搜索词属于同一语义类别，说明搜索词集合中的搜索词源自目标用户的相似的搜索需求。对于搜索词集合中的第i个搜索词和第i+1个搜索词，若第i个搜索词对应的影响因子小于第i+1个搜索词对应的影响因子，表明第i个搜索词对应的搜索质量低于第i+1个搜索词对应的搜索质量。另外，第i个搜索词对应的搜索行为早于第i+1个搜索词对应的搜索行为，这就意味着目标用户根据第i个搜索词获取的搜索结果不够理想，无法满足搜索需求，需要通过第i+1个搜索词获取更好的搜索结果。由此可知，第i个搜索词对应的搜索算法存在问题，故，可以将第i个搜索词确定为坏例，用于优化搜索引擎。基于此，从单个用户搜索行为的角度对搜索词对应的搜索质量进行衡量，相较于基于人为评测坏例的方式，克服了需要多人达成共识才能确定坏例的问题，避免了少数人评测为坏例的搜索词被遗漏的情况，提高了确定搜索词为坏例的准确度，同时，提高了搜索引擎的性能。

本申请实施例还提供了一种用于搜索词确定的服务器和终端设备，下面将从硬件实体化的角度对本申请实施例提供的用于搜索词确定的服务器和终端设备进行介绍。

参见图7，图7是本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

若是，将所述第i个搜索词确定为坏例。

可选的，CPU 1422还可以执行本申请实施例中搜索词确定方法任一具体实现方式的方法步骤。

针对上文描述的搜索词确定方法，本申请实施例还提供了一种用于搜索词确定的终端设备，以使上述搜索词确定的方法在实际中实现以及应用。

参见图8，图8为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文缩写：PDA)等任意终端设备：

图8示出的是与本申请实施例提供的终端相关的部分结构的框图。参考图8，该终端包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图8中示出的平板电脑结构并不构成对平板电脑的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对平板电脑的各个构成部件进行具体的介绍：

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现终端的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1580是终端的控制中心，利用各种接口和线路连接整个平板电脑的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行平板电脑的各种功能和处理数据，从而对平板电脑进行整体监控。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

在本申请实施例中，该终端所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该终端所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的搜索词确定方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的搜索词确定方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种搜索词确定方法，其特征在于，所述方法包括：

若是，将所述第i个搜索词确定为坏例。

2.根据权利要求1所述的方法，其特征在于，所述第i+1个搜索词对应的影响因子与所述第i个搜索词对应的影响因子的比值大于3。

3.根据权利要求1所述的方法，其特征在于，若确定所述搜索词集合中第i个搜索词对应的影响因子小于第i+1个搜索词对应的影响因子，所述方法还包括：

若确定所述第i+1个搜索词与第j个搜索词的语义相似度小于相似度阈值，执行将所述第i个搜索词确定为坏例的步骤；其中，所述第j个搜索词是所述第N个搜索词中，所述第i+1个搜索词在搜索时序的下一个搜索词，且所述第i+1个搜索词与所述第j个搜索词属于不同语义类别。

4.根据权利要求1-3任意一项所述的方法，其特征在于，目标搜索词为所述N个搜索词中的任意一个，所述方法还包括：

确定所述N个搜索词分别对应的影响因子；其中，所述目标搜索词对应的影响因子是根据所述目标搜索词对应的召回数特征和点击率特征确定的；

所述召回数特征用于标识所述目标搜索词对应的召回率；

5.根据权利要求4所述的方法，其特征在于，所述目标搜索词对应的召回数特征是根据所述目标搜索词对应的召回数和召回数阈值确定的；其中，当所述目标搜索词对应的召回数大于召回数阈值，将所述召回数阈值作为所述目标搜索词对应的召回数。

6.根据权利要求5所述的方法，其特征在于，所述根据所述N个搜索词的语义进行分类，得到搜索词集合包括：

根据所述M个搜索词的语义进行分类，得到搜索词集合。

7.根据权利要求1-3任意一项所述的方法，其特征在于，所述根据所述N个搜索词的语义进行分类，得到搜索词集合包括：

对所述N个特征向量进行无监督聚类，得到搜索词集合。

8.一种搜索词确定装置，其特征在于，所述装置包括获取单元、分类单元和确定单元：

9.一种用于搜索词确定的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-7任意一项所述的方法。