CN114328905A

CN114328905A - 搜索提示方法、装置、计算机设备和存储介质

Info

Publication number: CN114328905A
Application number: CN202111056368.6A
Authority: CN
Inventors: 刘婧月; 黄婷
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2022-04-12

Abstract

本申请涉及一种搜索提示方法、装置、计算机设备和存储介质。方法包括：将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇；将中间簇中各搜索提示文本抽象为节点，并根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图；对相似度图中的节点进行聚类，以将中间簇划分为子簇；在对搜索词进行搜索提示时，将搜索词命中的、且属于同一子簇的搜索提示文本进行去重。采用本方法能够提升搜索提示词的多样性。

Description

搜索提示方法、装置、计算机设备和存储介质

技术领域

本申请涉及文本信息处理技术领域，特别是涉及一种搜索提示方法、装置、计算机设备和存储介质。

背景技术

搜索提示是搜索引擎必备的功能之一，搜索提示可以根据用户输入的搜索词给出搜索建议，即，在搜索页面中罗列出与用户输入的搜索词相关的搜索提示词，用户可从搜索提示词中快速找到目标搜索词，以快速搜索与该目标搜索词对应的目标对象，从而节省用户搜索输入的时间，提升搜索效率。

但是，搜索提示词列表中往往存在大量表意相同、文字表现形式不同的搜索提示词，这些表意相同的搜索提示词占据了大量宝贵的曝光位置，从而导致搜索提示词的多样性变差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升搜索提示词的多样性的搜索提示方法、装置、计算机设备和存储介质。

一种搜索提示方法，所述方法包括：

将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇；

将所述中间簇中各所述搜索提示文本抽象为节点，并根据所述节点和各所述节点所对应的搜索提示文本之间的相似度，生成与各所述中间簇对应的相似度图；

对所述相似度图中的节点进行聚类，以将所述中间簇划分为子簇；

在对搜索词进行搜索提示时，将所述搜索词命中的、且属于同一子簇的搜索提示文本进行去重。

一种搜索提示装置，所述装置包括：

聚类模块，用于将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇；

生成模块，用于将所述中间簇中各所述搜索提示文本抽象为节点，并根据所述节点和各所述节点所对应的搜索提示文本之间的相似度，生成与各所述中间簇对应的相似度图；

所述聚类模块还用于对所述相似度图中的节点进行聚类，以将所述中间簇划分为子簇；

去重模块，用于在对搜索词进行搜索提示时，将所述搜索词命中的、且属于同一子簇的搜索提示文本进行去重。

在一个实施例中，所述搜索实体维度包括第一高频搜索实体维度和第二高频搜索实体维度；所述聚类模块还用于将搜索提示文本的集合按照所述第一高频搜索实体维度进行聚类，得到初始簇；将所述初始簇中的各搜索提示文本按照所述第二高频搜索实体维度进行聚类，以将所述初始簇划分为中间簇。

在一个实施例中，所述装置还包括：

确定模块，用于针对属于同一中间簇的任意两个节点所对应的两个搜索提示文本，从所述两个搜索提示文本包含的非实体信息所对应的字符中，确定公共字符；根据所述两个搜索提示文本之间的相似系数、以及各所述公共字符对应的重要度系数之和，确定所述两个搜索提示文本之间的相似度；所述重要度系数，用于表征所述公共字符在所述中间簇中的重要程度。

在一个实施例中，所述确定模块还用于若所述两个搜索提示文本中皆分别包括关键提示属性下相应的属性信息，则基于所述两个搜索提示文本中所述属性信息之间的相似性，确定调整系数；根据所述两个搜索提示文本之间的相似系数、各所述公共字符对应的重要度系数之和、以及所述调整系数，确定所述两个搜索提示文本之间的相似度。

在一个实施例中，所述聚类模块还用于从所述相似度图中未被访问的节点中选取本轮遍历的起始节点，从所述起始节点起，在本轮开始遍历访问所述相似度图中的节点；在满足本轮访问结束条件时，则将在本轮访问的节点划分为与所述中间簇对应的一个子簇；将下一轮作为本轮，返回所述从所述相似度图中未被访问的节点中选取本轮遍历的起始节点以继续迭代执行，直至所述相似度图中节点皆被访问后停止迭代，得到将所述中间簇划分为的各个子簇。

在一个实施例中，所述聚类模块还用于获取节点序列集合；所述节点序列集合，是将所述相似度图中未被访问的节点的标识按照节点的平均度大小排序得到；从所述节点序列集合中选取对应于最大平均度的标识，将选取的所述标识所表征的节点作为本轮的起始节点；将本轮访问的节点的标识从所述节点序列集合中去除，得到更新后的节点序列集合，并将下一轮作为本轮，从更新后的节点序列集合中选取对应于最大平均度的标识以继续迭代执行。

在一个实施例中，所述聚类模块还用于从所述起始节点起，在本轮开始逐层遍历访问所述相似度图中的节点；当遍历的层数达到预设遍历层数阈值时，将在本轮访问的起始节点以及与所述起始节点相连通的节点，划分为与所述中间簇对应的一个子簇。

在一个实施例中，所述去重模块还用于将同一子簇中的各搜索提示文本作为键，将属于所述子簇的簇中心的搜索提示文本作为值，以键值对的形式将所述子簇中的各搜索提示文本进行存储；在对搜索词进行搜索提示时，将所述搜索词命中的各搜索提示文本作为键，从存储空间中查找对应的值；将所述搜索词命中的、且对应于同一值的搜索提示文本，替换为属于查找到的值的搜索提示文本，以进行去重。

在一个实施例中，所述装置包括还包括：

预处理模块，用于对初始搜索提示文本进行以下至少一种预处理，得到所述搜索提示文本的集合：对所述初始搜索提示文本进行非关键信息去除处理；对所述初始搜索提示文本进行纠错处理；对所述初始搜索提示文本进行表达方式标准化处理。

在一个实施例中，所述非关键信息包括停用词；所述预处理模块还用于获取预设的停用词表；从所述初始搜索提示文本中，确定命中所述停用词表中停用词的词语；从所述初始搜索提示文本中剔除所述词语。

在一个实施例中，所述预处理模块还用于从所述初始搜索提示文本中，确定命中同义词表中同义词的词语，得到待标准化词；将所述待标准化词归一化为相应的标准词；和/或，针对所述初始搜索提示文本中同一属性下的、且表达方式不同的词语，将属于第一表达方式的词语归一化为第二表达方式的词语；所述第二表达方式的使用频率高于所述第一表达方式的使用频率。

在一个实施例中，所述搜索提示文本为视频搜索提示文本；所述搜索词为视频搜索词；所述去重模块还用于在对所述视频搜索词进行视频搜索提示时，将所述视频搜索词命中的、且属于同一子簇的视频搜索提示文本进行去重。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述搜索提示方法、装置、计算机设备和存储介质，将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇，以对搜索提示文本进行初步的簇划分，可避免后续聚类时将不同搜索实体维度下的搜索提示文本划分在同一个簇中。将中间簇中各搜索提示文本抽象为节点，并根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图，以将相似度较高的节点进行连通。对相似度图中的节点进行聚类，以将中间簇划分为子簇，这样，可将相似度较高的节点划分在同一个簇中。在对搜索词进行搜索提示时，将搜索词命中的、且属于同一子簇的搜索提示文本进行去重，提升了搜索过程中搜索词命中的搜索提示文本的多样性。

附图说明

图1为一个实施例中搜索提示方法的应用环境图；

图2为一个实施例中搜索提示方法的流程示意图；

图3为一个实施例中相似度图的示意图；

图4为一个实施例中对相似度图中的节点进行聚类，得到中间簇对应的子簇的示意图；

图5为另一个实施例中搜索提示方法的流程示意图；

图6为一个实施例中未采用本申请的搜索提示方法对搜索提示词进行去重之前，搜索词对应的搜索提示文本的展示情况示意图；

图7为一个实施例中采用本申请的搜索提示方法对搜索提示词进行去重之后，搜索词对应的搜索提示文本的展示情况示意图；

图8为一个实施例中搜索提示装置的结构框图；

图9为另一个实施例中搜索提示装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的搜索提示方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

服务器104可获取搜索提示文本的集合，并将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇。服务器104可将中间簇中各搜索提示文本抽象为节点，并根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图。服务器104可对相似度图中的节点进行聚类，以将中间簇划分为子簇。在终端102对搜索词进行搜索提示时，服务器104可将搜索词命中的、且属于同一子簇的搜索提示文本进行去重。

在一个实施例中，服务器104可以预先获取自身存储的搜索提示文本的集合，通过上述步骤将搜索提示文本的集合预先划分得到子簇。然后，在终端102向服务器104发送搜索词以进行搜索请求时，服务器104可以将搜索词命中的、且属于同一子簇的搜索提示文本进行去重。在另一个实施例中，终端102也可向服务器104发送搜索词以进行搜索请求，服务器104可响应于搜索请求确定搜索词命中的搜索提示文本的集合，并将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇，并执行后续步骤，以对搜索词命中的、且属于同一子簇的搜索提示文本进行去重。

在一个实施例中，如图2所示，提供了一种搜索提示方法，该方法可应用于服务器，也可应用于终端与服务器的交互过程。本实施例以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇。

其中，搜索提示文本是搜索时用于提示的文本。搜索提示文本的集合是由搜索提示文本构成的集合。搜索实体维度，是搜索提示文本中的实体信息对应的维度。实体信息是搜索提示文本中具有特定意义的信息。中间簇是一种中间状态的簇，可以理解，服务器还可对中间簇进行更细粒度的簇划分。

具体地，服务器可获取待聚合的搜索提示文本的集合，并将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇。

需要说明的是，各中间簇中所包含的搜索提示文本的数量可以不同，即，有些中间簇中可能包含多个搜索提示文本，有些中间簇中可能仅包含一个搜索提示文本。

在一个实施例中，实体信息包括人名、地名、机构名和专有名词等中的至少一种。其中，专有名词是特定领域中专用的名字，比如，在视频领域，专有名词可包括视频名称、电视剧名称、电影名称和综艺名称等中的至少一种。

可以理解，若实体信息为视频名称，则搜索实体维度是视频名称对应的维度。若实体信息为人名，则搜索实体维度是人名对应的维度。

在一个实施例中，服务器可从用户的历史搜索日志中，获取初始搜索提示文本，并对初始搜索提示文本进行预处理，得到搜索提示文本的集合。可以理解，搜索提示文本的集合相较于初始搜索提示文本，具有更高的准确性、统一性、以及更低的冗余性。其中，初始搜索提示文本，是原始的搜索提示文本。

步骤204，将中间簇中各搜索提示文本抽象为节点，并根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图。

其中，相似度是两个搜索提示文本之间的相似程度。相似度图，是用于表征对应中间簇中各搜索提示文本之间的相似度的图像。

具体地，服务器可将中间簇中各搜索提示文本抽象为节点。进而，服务器可根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图。可以理解，一个搜索提示文本可抽象为一个节点。

在一个实施例中，服务器可先将各搜索提示文本抽象为节点，再计算各节点之间的相似度。可以理解，各节点之间的相似度即为各节点所对应的搜索提示文本之间的相似度。进而，服务器可根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图。

在一个实施例中，服务器可先计算中间簇中各搜索提示文本之间的相似度，再将中间簇中各所述搜索提示文本抽象为节点，并根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图。

在一个实施例中，针对属于同一中间簇的任意两个节点所对应的两个搜索提示文本，服务器可确定两个搜索提示文本之间的相似系数。进而，服务器可直接将这两个搜索提示文本之间的相似系数，作为这两个搜索提示文本之间的相似度。其中，相似系数，是用于表征两个搜索提示文本之间的相似程度的系数。

在一个实施例中，针对属于同一中间簇的任意两个节点所对应的两个搜索提示文本，服务器可从这两个搜索提示文本中，确定对这两个搜索提示文本之间的相似度的准确性影响较大的关键属性，并计算关键属性对应的影响系数。进而，服务器可根据这两个搜索提示文本之间的相似系数、以及关键属性对应的影响系数，确定这两个搜索提示文本之间的相似度。

在一个实施例中，服务器可将各节点之间的相似度与预设相似度阈值进行比对，并将相似度大于预设相似度阈值的节点相连，生成与各中间簇对应的相似度图。

举例说明，如图3所示，中间簇包括节点A-L。节点B和节点D之间的相似度大于预设相似度阈值，服务器可将节点B与节点D相连。节点B和节点C之间的相似度也大于该预设相似度阈值，服务器也可将节点B与节点C相连。节点C和节点F之间的相似度也大于该预设相似度阈值，服务器也可将节点C与节点F相连，以此类推，直至将该中间簇中相似度大于预设相似度阈值的节点全部相连之后，生成该中间簇对应的相似度图。

步骤206，对相似度图中的节点进行聚类，以将中间簇划分为子簇。

其中，子簇是一种最终状态的簇，可以理解，服务器不会再对子簇进行更细粒度的簇划分。

具体地，服务器可对相似度图中的节点进行更细粒度的聚类，以将中间簇划分为子簇。需要说明的是，各子簇中所包含的搜索提示文本的数量可以不同，即，有些子簇中可能包含多个搜索提示文本，有些子簇中可能仅包含一个搜索提示文本。

在一个实施例中，服务器可基于目标遍历算法，遍历相似度图，以将中间簇划分为子簇。其中，目标遍历算法是作为目标的遍历算法。在一个实施例中，目标遍历算法可包括广度优先遍历算法和深度优先遍历算法中的任一种。

在一个实施例中，服务器可将相似度图中互相连通的节点，直接作为中间簇对应的一个子簇。

在一个实施例中，若中间簇中仅包含一个搜索提示文本，则服务器可直接将中间簇作为一个子簇。

步骤208，在对搜索词进行搜索提示时，将搜索词命中的、且属于同一子簇的搜索提示文本进行去重。

其中，搜索词，是搜索时用户所输入的文本。搜索词命中的搜索提示文本，是指与搜索词具有映射关系的搜索提示文本。

具体地，终端可获取用户基于终端的搜索页面所输入的搜索词，并将搜索词发送至服务器。服务器可接收终端发送的搜索词。在对搜索词进行搜索提示时，服务器可将搜索词命中的、且属于同一子簇的搜索提示文本进行去重。可以理解，去重后的所有搜索提示文本分别对应不同的子簇。

在一个实施例中，服务器可确定各子簇的簇中心，并基于各子簇的簇中心对应的搜索提示文本，对搜索词命中的搜索提示文本进行去重。

在一个实施例中，服务器可从搜索词命中的各搜索提示文本中，查找属于同一子簇的搜索提示文本。进而，服务器可将属于同一子簇的搜索提示文本进行剔除，使得针对同一子簇，只保留预设数量的搜索提示文本，比如，针对同一子簇，只保留一个的搜索提示文本，以实现对搜索词命中的、且属于同一子簇的搜索提示文本进行去重。

在一个实施例中，搜索词命中的搜索提示文本，具体可以通过以下步骤获得：服务器可计算搜索词与各搜索提示文本之间的相似度，并将对应于相似度大于预设阈值的搜索提示文本，作为该搜索词命中的搜索提示文本。

在一个实施例中，服务器可对去重后的、且搜索词命中的搜索提示文本进行排序。服务器可将去重后的、且排序后的、以及搜索词命中的搜索提示文本，发送至终端。终端可在搜索页面展示搜索词命中的搜索提示文本。

在一个实施例中，服务器可按照搜索词与各搜索提示文本之间的相似度，对搜索词命中的搜索提示文本进行排序。需要说明的是，对于归属于同一个子蔟的多个搜索提示文本，服务器可只保留排序最靠前的搜索提示文本以进行去重。服务器可将去重后的、且排序后的、以及搜索词命中的预设数量的搜索提示文本发送至终端。进而，终端可在搜索页面展示所接收到的搜索提示文本。

上述搜索提示方法中，将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇，以对搜索提示文本进行初步的簇划分，可避免后续聚类时将不同搜索实体维度下的搜索提示文本划分在同一个簇中。将中间簇中各搜索提示文本抽象为节点，并根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图，以将相似度较高的节点进行连通。对相似度图中的节点进行聚类，以将中间簇划分为子簇，这样，可将相似度较高的节点划分在同一个簇中。在对搜索词进行搜索提示时，将搜索词命中的、且属于同一子簇的搜索提示文本进行去重，提升了搜索过程中搜索词命中的搜索提示文本的多样性。

在一个实施例中，搜索实体维度包括高频搜索实体维度；高频搜索实体维度包括第一高频搜索实体维度和第二高频搜索实体维度。步骤202，也就是将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇的步骤，具体包括：将搜索提示文本的集合按照第一高频搜索实体维度进行聚类，得到初始簇；将初始簇中的各搜索提示文本按照第二高频搜索实体维度进行聚类，以将初始簇划分为中间簇。

其中，高频搜索实体维度，是搜索过程中高频率使用的搜索实体维度。第一高频搜索实体维度和第二高频搜索实体维度，是高频搜索实体维度中的其中两种搜索实体维度。初始簇，是将搜索提示文本的集合按照第一高频搜索实体维度进行聚类所得到的簇。

具体地，服务器可将搜索提示文本的集合，按照第一高频搜索实体维度进行第一层级的聚类，得到初始簇。进而，服务器可将各初始簇中的各搜索提示文本，按照第二高频搜索实体维度进行第二层级的聚类，经过以上两个层级的聚类后，可将各初始簇划分为中间簇。

在一个实施例中，在搜索过程中，第一高频搜索实体维度使用的频率可高于、低于、或等于第二高频搜索实体维度使用的频率。

上述实施例中，通过将搜索提示文本的集合，依次按照第一高频搜索实体维度和第二高频搜索实体维度这两个维度进行两个层级的聚类，可以对搜索提示文本进行更细粒度的聚类，提升了搜索提示文本的聚类准确率。同时，针对每一个层级的聚类，得到的各簇中的提示文本的数量在不断减少，降低了后续聚类的时间复杂度，提升了搜索提示文本的聚类效率。

在一个实施例中，步骤202，也就是将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇的步骤，具体包括：针对含有搜索实体维度下的实体信息的第一搜索提示文本，将含有相同的实体信息的第一搜索提示文本聚为一类；针对不含搜索实体维度下的实体信息的第二搜索提示文本，将不含搜索实体维度下的实体信息的第二搜索提示文本聚为一类，以得到中间簇。

其中，第一搜索提示文本，是含有搜索实体维度下的实体信息的搜索提示文本。第二搜索提示文本不含搜索实体维度下的实体信息的搜索提示文本。

具体地，各搜索提示文本中，有些含有搜索实体维度下的实体信息，有些含有搜索实体维度下的实体信息。针对含有搜索实体维度下的实体信息的第一搜索提示文本，服务器可将含有相同的实体信息的第一搜索提示文本聚为一类。针对不含搜索实体维度下的实体信息的第二搜索提示文本，服务器可将不含搜索实体维度下的实体信息的第二搜索提示文本聚为一类，以得到中间簇。

在一个实施例中，若第一搜索提示文本含有搜索实体维度下的多个实体信息，则服务器可忽略多个实体信息在第一搜索提示文本中出现的前后顺序，统一将同时含有这多个实体信息的第一搜索提示文本聚为一类。

举例说明，搜索提示文本的集合为：{我想看电视剧A，电视剧A，我想看电视剧A综艺B，综艺B电视剧A}。其中，电视剧A和综艺B是实体信息，则服务器可将“我想看电视剧A”和“电视剧A”聚为一类，以及将“我想看电视剧A综艺B”和“综艺B电视剧A”聚为一类，以得到中间簇。

上述实施例中，通过将含有相同的实体信息的第一搜索提示文本聚为一类，将不含搜索实体维度下的实体信息的第二搜索提示文本聚为一类，以对搜索提示文本进行更细粒度的聚类，进一步提升搜索提示文本的聚类准确率。

在一个实施例中，上述搜索提示方法具体还包括：针对属于同一中间簇的任意两个节点所对应的两个搜索提示文本，从两个搜索提示文本包含的非实体信息所对应的字符中，确定公共字符；根据两个搜索提示文本之间的相似系数、以及各公共字符对应的重要度系数之和，确定两个搜索提示文本之间的相似度；重要度系数，用于表征公共字符在中间簇中的重要程度。

其中，非实体信息，是搜索提示文本中不具有特定意义的信息，比如，若搜索提示文本为“我想看电影Q”，则“电影Q”是实体信息，“我想看”是非实体信息。非实体信息所对应的字符，是组成非实体信息的各字符。比如，“我想看”所对应的字符包括“我”、“想”和“看”这三个字符。公共字符，是两个搜索提示文本所包含的非实体信息中共同拥有的字符。

具体地，若中间簇中包括多个搜索提示文本，则针对属于同一中间簇的任意两个节点所对应的两个搜索提示文本，服务器可从两个搜索提示文本中提取非实体信息，并对非实体信息进行字符划分处理，得到非实体信息所对应的字符。服务器可从包含的非实体信息所对应的字符中，确定公共字符。服务器可确定这两个搜索提示文本之间的相似系数，以及确定各公共字符对应的重要度系数。服务器可将各公共字符对应的重要度系数相加，得到各公共字符对应的重要度系数之和。服务器可根据这两个搜索提示文本之间的相似系数、以及各公共字符对应的重要度系数之和，确定两个搜索提示文本之间的相似度。

在一个实施例中，服务器可根据杰卡德函数(Jaccard)，计算两个搜索提示文本之间的杰卡德系数，并将两个搜索提示文本之间的杰卡德系数，作为两个搜索提示文本之间的相似系数。需要说明的是，本实施例仅用于举例说明，对相似系数的计算方式不做具体限定，相似系数可以是除杰卡德系数之外的、能表征两个搜索提示文本之间的相似性程度的任何系数。

在一个实施例中，服务器可计算各公共字符在相应中间簇的tf-idf值(termfrequency-inverse document frequency)，并将各公共字符在相应中间簇的tf-idf值，作为各公共字符对应的重要度系数。公共字符在相应中间簇的tf-idf值越大，说明公共字符对相应中间簇越重要。需要说明的是，本实施例仅用于举例说明，对重要度系数的计算方式不做具体限定，重要度系数可以是tf-idf值之外的、能表征公共字符在中间簇中的重要程度的任何系数。

在一个实施例中，两个搜索提示文本之间的相似度可通过以下公式计算得到：

similarity(q₁,q₂)＝Jaccard(q₁,q₂)-w*tf_idf_coef

其中，q₁和q₂为搜索提示文本，similarity(q₁,q₂)为两个搜索提示文本之间的相似度，Jaccard(q₁,q₂)为q₁和q₂这两个搜索提示文本之间的相似系数，tf_idf_coef为q₁和q₂这两个搜索提示文本的公共字符对应的重要度系数之和，w为预设的权重。可以理解，w*tf_idf_coef这一项可限制低频率出现的字符对相似度计算的影响，使得相似度计算更准确，避免某些低频率出现的搜索提示文本，因相似系数较高而与高频率出现的搜索提示文本聚为一类，进一步提升了聚类的准确性。

上述实施例中，针对属于同一中间簇的任意两个节点所对应的两个搜索提示文本，通过根据两个搜索提示文本之间的相似系数、以及各公共字符对应的重要度系数之和，可以更细粒度的计算两个搜索提示文本之间的相似度，从而提升两个搜索提示文本之间的相似度的准确性。

在一个实施例中，上述搜索提示方法具体还包括：若两个搜索提示文本中皆分别包括关键提示属性下相应的属性信息，基于两个搜索提示文本中属性信息之间的相似性，确定调整系数。根据两个搜索提示文本之间的相似系数、以及各公共字符对应的重要度系数之和，确定两个搜索提示文本之间的相似度的步骤，具体包括：根据两个搜索提示文本之间的相似系数、各公共字符对应的重要度系数之和、以及调整系数，确定两个搜索提示文本之间的相似度。

其中，关键提示属性，是在搜索过程中具备关键提示作用的属性，比如，数字。关键提示属性下相应的属性信息，是关键提示属性下的具体文本信息，举例说明，若关键提示属性为数字，则关键提示属性下相应的属性信息可为任一具体数字，比如20。调整系数，是用于调整两个搜索提示文本之间的相似度的系数。

具体地，搜索提示文本可包括关键提示属性下相应的属性信息，也可不包括关键提示属性下相应的属性信息。若两个搜索提示文本中皆分别包括关键提示属性下相应的属性信息，则服务器可基于两个搜索提示文本中属性信息之间的相似性，确定调整系数。服务器可根据两个搜索提示文本之间的相似系数、各公共字符对应的重要度系数之和、以及调整系数，计算两个搜索提示文本之间的相似度。

在一个实施例中，关键提示属性还可以包括字母、单词和预设的关键词等中的至少一种。

在一个实施例中，若两个搜索提示文本中皆分别包括关键提示属性下相应的属性信息，服务器可计算这两个搜索提示文本中属性信息之间的相似度，若这两个搜索提示文本中属性信息之间的相似度大于预设的相似度，则调整系数取1，否则调整系数取0。

举例说明，若搜索提示文本A中包括数字21，搜索提示文本B中包括数字22。数字21和数字22不同，则调整系数取1。若搜索提示文本A和搜索提示文本B中均包括数字25，则调整系数取0。

在一个实施例中，若关键提示属性为数字，则两个搜索提示文本之间的相似度可通过以下公式计算得到：

similarity(q₁,q₂)＝Jaccard(q₁,q₂)-w₁*tf_idf_coef-w₂number_coef

其中，number_coef为调整系数，w₁和w₂为预设的权重。可以理解，w₂number_coef这一项根据两个搜索提示文本中数字之间的相似性，对两个搜索提示文本之间的相似度进行调整，使得相似度计算更准确，避免将搜索提示文本中数字之间相似性较低的搜索提示文本聚为一类。

上述实施例中，通过根据两个搜索提示文本之间的相似系数、各公共字符对应的重要度系数之和、以及调整系数，确定两个搜索提示文本之间的相似度，可以更细粒度的计算两个搜索提示文本之间的相似度，从而提升两个搜索提示文本之间的相似度的准确性。

在一个实施例中，步骤206，也就是对相似度图中的节点进行聚类，以将中间簇划分为子簇的步骤，具体包括：从相似度图中未被访问的节点中选取本轮遍历的起始节点，从起始节点起，在本轮开始遍历访问相似度图中的节点；在满足本轮访问结束条件时，则将在本轮访问的节点划分为与中间簇对应的一个子簇；将下一轮作为本轮，返回从相似度图中未被访问的节点中选取本轮遍历的起始节点以继续迭代执行，直至相似度图中节点皆被访问后停止迭代，得到将中间簇划分为的各个子簇。

其中，起始节点，是每轮遍历第一个被访问的节点。本轮访问结束条件，是每轮遍历结束的条件。

具体地，服务器可能需要对相似度图进行多轮的遍历，才可将中间簇划分为的各个子簇。针对每一轮的遍历，服务器可从相似度图中未被访问的节点中选取本轮遍历的起始节点，从起始节点起，在本轮开始遍历访问相似度图中的节点。服务器可监控本轮遍历是否已经达到本轮访问结束条件。在满足本轮访问结束条件时，则服务器可将在本轮访问的节点划分为与中间簇对应的一个子簇。服务器可将下一轮作为本轮，返回从相似度图中未被访问的节点中选取本轮遍历的起始节点以继续迭代执行，直至相似度图中节点皆被访问后停止迭代，得到将中间簇划分为的各个子簇。

在一个实施例中，本轮访问结束条件，具体可以是遍历的层数达到预设遍历层数阈值，也可以是遍历过程中访问的节点的个数达到预设数量。

在一个实施例中，服务器可根据各节点的平均度从相似度图中未被访问的节点中选取本轮遍历的起始节点。

在一个实施例中，服务器可确定相似度图中相连通的节点，并从相连通的各节点中随机选取一个未被访问的节点作为本轮遍历的起始节点。

在一个实施例中，服务器可从相似度图的各节点中随机选取一个未被访问的节点作为本轮遍历的起始节点。

上述实施例中，通过遍历中间簇对应的相似度图，以实现对中间簇的更细粒度划分，得到中间簇对应的子簇，可提升搜索提示文本的聚合准确率。

在一个实施例中，从相似度图中未被访问的节点中选取本轮遍历的起始节点的步骤，具体包括：获取节点序列集合；节点序列集合，是将相似度图中未被访问的节点的标识按照节点的平均度大小排序得到；从节点序列集合中选取对应于最大平均度的标识，将选取的标识所表征的节点作为本轮的起始节点。将下一轮作为本轮，返回从相似度图中未被访问的节点中选取本轮遍历的起始节点以继续迭代执行的步骤，具体包括：将本轮访问的节点的标识从节点序列集合中去除，得到更新后的节点序列集合，并将下一轮作为本轮，从更新后的节点序列集合中选取对应于最大平均度的标识以继续迭代执行。

其中，节点的标识，是唯一标识节点的字符串。节点的平均度，是节点与其直接相连的其他节点之间的相似度的平均值。

具体地，服务器可基于节点的相似度，对相似度图对应的节点进行排序，并基于排序后的节点的标识生成节点序列集合。服务器可确定平均度最大的节点，并从节点序列集合中选取对应于最大平均度的标识。服务器可将选取的标识所表征的节点作为本轮的起始节点，并从起始节点起，在本轮开始遍历访问相似度图中的节点，在满足本轮访问结束条件时，服务器可将在本轮访问的节点划分为与中间簇对应的一个子簇，并将本轮访问的节点的标识从节点序列集合中去除，得到更新后的节点序列集合。服务器可将下一轮作为本轮，从更新后的节点序列集合中选取对应于最大平均度的标识以继续迭代执行。

上述实施例中，针对每一轮遍历，从平均度最大的节点开始遍历中间簇对应的相似度图，以保证在满足本轮访问结束条件时，将相似度较为接近的节点聚为一簇，进一步提升搜索提示文本的聚合准确率。

在一个实施例中，从起始节点起，在本轮开始遍历访问相似度图中的节点的步骤，具体包括：从起始节点起，在本轮开始逐层遍历访问相似度图中的节点。在满足本轮访问结束条件时，则将在本轮访问的节点划分为与中间簇对应的一个子簇的步骤，具体包括：当遍历的层数达到预设遍历层数阈值时，将在本轮访问的起始节点以及与起始节点相连通的节点，划分为与中间簇对应的一个子簇。

具体地，服务器可基于广度优先遍历算法，从起始节点起，在本轮开始逐层遍历访问相似度图中的节点。服务器可将遍历的层数与预设遍历层数阈值进行比对，当遍历的层数达到预设遍历层数阈值时，服务器可将在本轮访问的起始节点以及与起始节点相连通的节点，划分为与中间簇对应的一个子簇。

上述实施例中，通过逐层遍历相似度图，提升搜索提示文本的聚合准确率。以及，通过预先设定遍历的层数，当遍历的层数达到预设遍历层数阈值时，将在本轮访问的起始节点以及与起始节点相连通的节点，划分为与中间簇对应的一个子簇，提升搜索提示文本的聚合效率。

在一个实施例中，服务器可将相似度图记为G＝<V,E>，其中，G表示相似度图，V表示相似度图中的节点的集合。E表示相似度图中的各节点之间的边的集合。服务器可将相似度图中的节点的集合记为V＝{v₁,v₂,...,v_m}，其中，v表示相似度图中的节点，m表示相似度图中的节点的个数。服务器可将节点序列集合记为V'＝{v₁',v₂',...,v_m'}，其中，V'表示节点序列集合，v'表示排序后的相似度图中的节点。服务器可将划分后的子簇的集合记为C＝{c₁,c₂,...,c_N}，其中，C表示子簇的集合，c表示各子簇，N表示中间簇划分为的子簇的数量。服务器可将各子簇中的节点的集合记为c＝{n₁,n₂,...,n_l}，其中，n表示子簇中的节点，l表示子簇中的节点的数量。相似度图中的节点的集合与子簇的集合满足V＝c₁∪c₂∪...∪c_N。

服务器可从本轮的平均度最大的起始节点v₁'开始遍历，此时，c＝{v₁'}，服务器可将与本轮的起始节点v₁'相连通的节点依次从节点序列集合V'中去除，以更新的节点序列集合V'，直到遍历的层数达到预设遍历层数阈值时，停止本轮的遍历，并将得到的子簇c加入至子簇的集合C中。服务器可将下一轮作为本轮，从更新后的节点序列集合V'中选取平均度最大的起始节点，以继续迭代执行，直至V'中没有元素时停止对相似度图的遍历，得到各子簇。

在一个实施例中，如图4所示，中间簇包括节点A-L，若本轮遍历未被访问的节点中，F节点的平均度最大，则将F节点作为本轮遍历的起始节点，若预设遍历层数为2层，则服务器可将本轮遍历已访问的节点F、节点D、节点G、节点B和节点C作为一个子簇，其中，D节点为该子簇的簇中心。同理，服务器将节点E和节点H作为一个子簇，其中，E节点为该子簇的簇中心，将节点I、节点K和节点L作为一个子簇，其中，L节点为该子簇的簇中心，节点A和节点J分别为两个子簇。

在一个实施例中，上述搜索提示方法具体还包括：将同一子簇中的各搜索提示文本作为键，将属于子簇的簇中心的搜索提示文本作为值，以键值对的形式将子簇中的各搜索提示文本进行存储。在对搜索词进行搜索提示时，将搜索词命中的、且属于同一子簇的搜索提示文本进行去重的步骤，具体包括：在对搜索词进行搜索提示时，将搜索词命中的各搜索提示文本作为键，从存储空间中查找对应的值；将搜索词命中的、且对应于同一值的搜索提示文本，替换为属于查找到的值的搜索提示文本，以进行去重。

具体地，服务器可将同一子簇中的各搜索提示文本作为键(key)，将属于相应子簇的簇中心的搜索提示文本作为值(value)，以键值对(key-value)的形式将子簇中的各搜索提示文本存储于存储空间中。可以理解，若一个子簇中包括多个搜索提示文本，则该子簇的键(key)有多个，而各键(key)对应的值(value)只有一个，即该子簇的簇中心对应的搜索提示文本。在对搜索词进行搜索提示时，服务器可将搜索词命中的各搜索提示文本作为键，并从存储空间中查找与该键对应的值。服务器可将搜索词命中的、且对应于同一值的搜索提示文本，替换为属于查找到的值的搜索提示文本，以进行去重。可以理解，若搜索词命中的多个搜索提示文本来自同一个子簇，则将该多个搜索提示词用该子簇的簇中心来表示。

上述实施例中，通过键值对的形式将子簇中的各搜索提示文本进行离线存储，可以提升后续对搜索提示文本的去重效率。通过将搜索词命中的、且对应于同一值的搜索提示文本，替换为属于查找到的值的搜索提示文本，以进行去重，可以提升搜索提示文本的多样性。

在一个实施例中，上述搜索提示方法具体还包括：对初始搜索提示文本进行以下至少一种预处理，得到搜索提示文本的集合：对初始搜索提示文本进行非关键信息去除处理；对初始搜索提示文本进行纠错处理；对初始搜索提示文本进行表达方式标准化处理。

其中，非关键信息，是搜索提示文本中对语义表达没有起到关键作用的信息。表达方式，是搜索提示文本的描述形式。

具体地，服务器可从搜索提示文本中提取非关键信息，并对初始搜索提示文本进行非关键信息去除处理；和/或，服务器可从搜索提示文本中提取错误信息，并对初始搜索提示文本进行纠错处理；和/或，服务器可对初始搜索提示文本进行表达方式标准化处理，得到搜索提示文本的集合。

上述实施例中，通过对初始搜索提示文本进行预处理，进而对预处理得到的搜索提示文本的集合进行聚类，可以提升搜索提示文本聚类的准确率。

在一个实施例中，服务器可从用户搜索日志中获取初始搜索提示文本，初始搜索提示文本中可能包括很多相同的搜索提示文本。服务器可将对初始搜索提示文本中相同的搜索提示文本进行去重，比如，若初始搜索提示文本中包括多个“电视剧A”，则服务器可对这多个“电视剧A”进行去重，去重后的搜索提示文本中只保留一个“电视剧A”。这样，可以节省存储空间，以及提升聚合效率。

在一个实施例中，非关键信息包括停用词。对初始搜索提示文本进行非关键信息去除处理的步骤，具体包括：获取预设的停用词表；从初始搜索提示文本中，确定命中停用词表中停用词的词语；从初始搜索提示文本中剔除词语。

其中，停用词是预停用的文本。停用词表是用于记录停用词的表。

具体地，服务器可获取预设的停用词表，并从初始搜索提示文本中，确定命中停用词表中停用词的词语。进而，服务器可从初始搜索提示文本中剔除词语。需要说明的是，词语具体可以是一个字，也可以是一个词组，还可以是一个句子。

在一个实施例中，停用词可包括“的”、“了”、“在”、“吗”和“这”等中的至少一个。

上述实施例中，根据停用词表，可以对初始搜索提示文本中的非关键信息进行准确、且快速的剔除，通过剔除初始搜索提示文本中的非关键信息，可以节省存储空间，以及提升后续对搜索提示词聚合的准确率。

在一个实施例中，对初始搜索提示文本进行表达方式标准化处理的步骤，具体包括以下至少一种处理：从初始搜索提示文本中，确定命中同义词表中同义词的词语，得到待标准化词；将待标准化词归一化为相应的标准词；针对初始搜索提示文本中同一属性下的、且表达方式不同的词语，将属于第一表达方式的词语归一化为第二表达方式的词语；第二表达方式的使用频率高于第一表达方式的使用频率。

其中，同义词是语义相近的文本。同义词是用于记录同义词的表。待标准化词，是待进行表达方式标准化处理的文本。标准词，是满足预设标准化表达方式的文本。第一表达方式和第二表达方式是两种不同的表达方式。

具体地，服务器可获取同义词表，并从初始搜索提示文本中，确定命中同义词表中同义词的词语，得到待标准化词。服务器可将待标准化词归一化为相应的标准词。和/或，服务器可从初始搜索提示文本中，提取同一属性下的、且表达方式不同的词语，针对初始搜索提示文本中同一属性下的、且表达方式不同的词语，服务器可将属于较低使用频率的第一表达方式的词语，归一化为较高使用频率的第二表达方式的词语。

举例说明，初始搜索提示文本中同一属性下的、且表达方式不同的词语，比如，“我想看电视剧W第3部”和“我想看电视剧W第3季”，则“电视剧W”这一属性下的“部”和“季”为表达方式不同的两个词语。若“电视剧W”使用频率较高的表达方式为“部”，则服务器可将“季”全部归一化为“部”。

在一个实施例中，服务器可间隔预设时长，对第一表达方式和第二表达方式的使用频率进行更新，比如，按天分别对第一表达方式和第二表达方式的使用频率进行更新，以实现表达方式的动态定制。

上述实施例中，根据同义词表，可以对初始搜索提示文本进行准确、且快速的表达方式标准化处理，通过对初始搜索提示文本中同一属性下的、且表达方式不同的词语进行表达方式标准化处理，可以提升后续对搜索提示文本的聚类效率。

在一个实施例中，搜索提示文本为视频搜索提示文本；搜索词为视频搜索词。在对搜索词进行搜索提示时，将搜索词命中的、且属于同一子簇的搜索提示文本进行去重的步骤，具体包括：在对视频搜索词进行视频搜索提示时，将视频搜索词命中的、且属于同一子簇的视频搜索提示文本进行去重。

其中，视频搜索提示文本，是视频搜索时用于提示的文本。视频搜索词，是视频搜索时用户所输入的文本。

具体地，终端可获取用户基于终端的视频搜索页面所输入的视频搜索词，并将视频搜索词发送至服务器。服务器可接收终端发送的视频搜索词。在对视频搜索词进行视频搜索提示时，服务器可将视频搜索词命中的、且属于同一子簇的视频搜索提示文本进行去重。可以理解，去重后的所有视频搜索提示文本分别对应不同的子簇。

在一个实施例中，服务器可将视频搜索提示文本的集合按照视频搜索实体维度进行聚类，得到中间簇。服务器可将中间簇中各视频搜索提示文本抽象为节点，并根据节点和各节点所对应的视频搜索提示文本之间的相似度，生成与各中间簇对应的相似度图。服务器可对相似度图中的节点进行聚类，以将中间簇划分为子簇。在对视频搜索词进行视频搜索提示时，服务器可将视频搜索词命中的、且属于同一子簇的视频搜索提示文本进行去重。

在一个实施例中，服务器可将同一子簇中的各视频搜索提示文本作为键，将属于子簇的簇中心的视频搜索提示文本作为值，以键值对的形式将子簇中的各视频搜索提示文本进行存储。在对视频搜索词进行搜索提示时，服务器可将视频搜索词命中的各视频搜索提示文本作为键，从存储空间中查找对应的值。将视频搜索词命中的、且对应于同一值的视频搜索提示文本，替换为属于查找到的值的视频搜索提示文本，以进行去重。

上述实施例中，在对视频搜索词进行视频搜索提示时，通过将视频搜索词命中的、且属于同一子簇的视频搜索提示文本进行去重，可以提升视频搜索过程中视频搜索词命中的视频搜索提示文本的多样性。

在一个实施例中，如图5所示，针对视频搜索领域，服务器可从用户的视频搜索日志中，获取初始搜索提示文本的集合。服务器可对初始搜索提示文本的集合进行非关键信息去除处理、纠错处理和实体信息识别处理、同义词标准化处理，以及低频表达标准化处理，得到待聚合的搜索提示文本的集合。服务器可按照视频名称，对搜索提示文本进行第一层级的聚类处理，得到初始簇。针对初始簇中的搜索提示文本，服务器可按照人名(比如，角色名称和演员名称等)，对初始簇中的搜索提示文本进行第二层级的聚类处理，得到中间簇。服务器可通过遍历中间簇，将中间簇进一步划分为子簇。进而，在针对用户输入的视频关键词进行视频搜索提示时，服务器可根据子簇的簇中心，对视频搜索词命中的视频搜索提示文本进行去重处理，得到去重后的视频搜索提示文本。

在一个实施例中，提供了一种搜索提示方法，该方法具体包括以下步骤：

(1)对初始视频搜索提示文本进行以下至少一种预处理，得到视频搜索提示文本的集合：对初始视频搜索提示文本进行非关键信息去除处理；对初始视频搜索提示文本进行纠错处理；对初始视频搜索提示文本进行表达方式标准化处理。

在一个实施例中，非关键信息包括停用词；对初始视频搜索提示文本进行非关键信息去除处理，包括：获取预设的停用词表；从初始视频搜索提示文本中，确定命中停用词表中停用词的词语；从初始视频搜索提示文本中剔除词语。

在一个实施例中，对初始视频搜索提示文本进行表达方式标准化处理，包括以下至少一种处理：从初始视频搜索提示文本中，确定命中同义词表中同义词的词语，得到待标准化词；将待标准化词归一化为相应的标准词；针对初始视频搜索提示文本中同一属性下的、且表达方式不同的词语，将属于第一表达方式的词语归一化为第二表达方式的词语；第二表达方式的使用频率高于第一表达方式的使用频率。

(2)将视频搜索提示文本的集合按照第一高频搜索实体维度进行聚类，得到初始簇。

(3)将初始簇中的各视频搜索提示文本按照第二高频搜索实体维度进行聚类，以将初始簇划分为中间簇。

(4)将中间簇中各视频搜索提示文本抽象为节点，针对属于同一中间簇的任意两个节点所对应的两个视频搜索提示文本，从两个视频搜索提示文本包含的非实体信息所对应的字符中，确定公共字符。

(5)根据两个视频搜索提示文本之间的相似系数、以及各公共字符对应的重要度系数之和，确定两个视频搜索提示文本之间的相似度；重要度系数，用于表征公共字符在中间簇中的重要程度。

在一个实施例中，若两个视频搜索提示文本中皆分别包括关键提示属性下相应的属性信息，则基于两个视频搜索提示文本中属性信息之间的相似性，确定调整系数；根据两个视频搜索提示文本之间的相似系数、各公共字符对应的重要度系数之和、以及调整系数，确定两个视频搜索提示文本之间的相似度。

(6)根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图。

(7)获取节点序列集合；节点序列集合，是将相似度图中未被访问的节点的标识按照节点的平均度大小排序得到。

(8)从节点序列集合中选取对应于最大平均度的标识，将选取的标识所表征的节点作为本轮的起始节点。

(9)从起始节点起，在本轮开始逐层遍历访问相似度图中的节点。

(10)当遍历的层数达到预设遍历层数阈值时，将在本轮访问的起始节点以及与起始节点相连通的节点，划分为与中间簇对应的一个子簇。

(11)将本轮访问的节点的标识从节点序列集合中去除，得到更新后的节点序列集合，并将下一轮作为本轮，从更新后的节点序列集合中选取对应于最大平均度的标识以继续迭代执行，直至相似度图中节点皆被访问后停止迭代，得到将中间簇划分为的各个子簇。

(12)将同一子簇中的各视频搜索提示文本作为键，将属于子簇的簇中心的视频搜索提示文本作为值，以键值对的形式将子簇中的各视频搜索提示文本进行存储。

(13)在对视频搜索词进行搜索提示时，将视频搜索词命中的各视频搜索提示文本作为键，从存储空间中查找对应的值。

(14)在对视频搜索词进行视频搜索提示时，将视频搜索词命中的、且对应于同一值的视频搜索提示文本，替换为属于查找到的值的视频搜索提示文本，以进行去重。

在一个实施例中，未采用本申请的搜索提示方法对搜索提示词进行去重之前，如图6所示，搜索词命中展示的搜索提示文本中，有两个搜索提示文本的表达形式不同，但表义相同的文本(即，搜索提示文本9.1和搜索提示文本9.2)，从而导致搜索提示文本的多样性较差。采用本申请的搜索提示方法对搜索提示词进行去重之后，如图7所示，搜索词命中展示的所有搜索提示文本的表达形式和表义均不相同(即，搜索提示文本1-10的表达形式和表义均不相同)，提升了搜索提示文本的多样性。

在一个实施例中，服务器可采用300个搜索词，分别对未采用本申请的搜索提示方法对搜索提示词进行去重之前的搜索提示词的多样性，以及，服务器可对采用本申请的搜索提示方法对搜索提示词进行去重之后的搜索提示词的多样性，进行GSB(GoodSimilarity Bad)实验分析，得到的GSB结果为56:244:0，即，300个搜索词中有个56个搜索词，在采用本申请的搜索提示方法对搜索提示词进行去重之后的搜索提示词的多样性，优于，未采用本申请的搜索提示方法对搜索提示词进行去重之前的搜索提示词的多样性。300个搜索词中有个244个搜索词，在采用本申请的搜索提示方法对搜索提示词进行去重之后的搜索提示词的多样性，等于，未采用本申请的搜索提示方法对搜索提示词进行去重之前的搜索提示词的多样性。以及，300个搜索词中有个0个搜索词，在采用本申请的搜索提示方法对搜索提示词进行去重之后的搜索提示词的多样性，比未采用本申请的搜索提示方法对搜索提示词进行去重之前的搜索提示词的多样性差。GSB结果表明，本申请的搜索提示方法对搜索提示词进行去重具有很好的效果，可提升搜索提示词的多样性。

本申请还提供一种应用场景，该应用场景应用上述的搜索提示方法。具体地，该搜索提示方法可应用于视频搜索提示的场景。服务器可从用户的视频搜索日志中，获取初始视频搜索提示文本、预设的停用词表和预设的同义词表。服务器对初始搜索提示文本进行纠错处理，并可从初始视频搜索提示文本中，确定命中停用词表中停用词的词语，从初始视频搜索提示文本中剔除词语。进而，服务器可从初始视频搜索提示文本中，确定命中同义词表中同义词的词语，得到待标准化词，将待标准化词归一化为相应的标准词。同时，针对初始视频搜索提示文本中同一属性下的、且表达方式不同的词语，将属于使用频率较低的第一表达方式的词语，归一化为使用频率较高的第二表达方式的词语，以得到视频搜索提示文本的集合。

服务器可将视频搜索提示文本的集合，按照视频名称进行第一层级的聚类，得到初始簇，并将初始簇中的各视频搜索提示文本按照人名进行第二层级的聚类，以将初始簇划分为中间簇。

服务器可将中间簇中各视频搜索提示文本抽象为节点，针对属于同一中间簇的任意两个节点所对应的两个视频搜索提示文本，服务器可从两个视频搜索提示文本包含的非实体信息所对应的字符中，确定公共字符。若两个视频搜索提示文本中皆分别包括数字，则基于两个视频搜索提示文本中数字之间的相似性，确定调整系数。进而，服务器可根据两个视频搜索提示文本之间的杰卡德系数、各公共字符对应的tf-idf值之和、以及调整系数，确定两个视频搜索提示文本之间的相似度。

服务器可根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图。服务器可将相似度图中未被访问的节点的标识按照节点的平均度大小排序，得到节点序列集合。服务器可从节点序列集合中选取对应于最大平均度的标识，将选取的标识所表征的节点作为本轮的起始节点。服务器可基于广度优先的遍历算法，从起始节点起，在本轮开始逐层遍历访问相似度图中的节点。当遍历的层数达到预设遍历层数阈值时，将在本轮访问的起始节点以及与起始节点相连通的节点，划分为与中间簇对应的一个子簇。服务器可将本轮访问的节点的标识从节点序列集合中去除，得到更新后的节点序列集合，并将下一轮作为本轮，从更新后的节点序列集合中选取对应于最大平均度的标识以继续迭代执行，直至相似度图中节点皆被访问后停止迭代，得到将中间簇划分为的各个子簇。

服务器可将同一子簇中的各视频搜索提示文本作为键，将属于子簇的簇中心的视频搜索提示文本作为值，以键值对的形式将子簇中的各视频搜索提示文本进行存储。在对视频搜索词进行搜索提示时，服务器可将视频搜索词命中的各视频搜索提示文本作为键，从存储空间中查找对应的值，并将视频搜索词命中的、且对应于同一值的视频搜索提示文本，替换为属于查找到的值的视频搜索提示文本，以进行去重，提升了视频搜索提示文本的多样性。

本申请还另外提供一种应用场景，该应用场景应用上述的搜索提示方法。具体地，该搜索提示方法可应用于文档搜索提示的场景。服务器可将文档搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇。服务器可将中间簇中各文档搜索提示文本抽象为节点。服务器可根据节点和各节点所对应的文档搜索提示文本之间的相似度，生成与各中间簇对应的相似度图。服务器可对相似度图中的节点进行聚类，以将中间簇划分为子簇。在对文档搜索词进行文档搜索提示时，将文档搜索词命中的、且属于同一子簇的文档搜索提示文本进行去重，提升了文档搜索提示文本的多样性。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种搜索提示装置800，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：聚类模块801、生成模块802和去重模块803，其中：

聚类模块801，用于将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇。

生成模块802，用于将各搜索提示文本抽象为节点，并根据相似度和节点，生成与各中间簇对应的相似度图。

聚类模块801还用于对相似度图中的节点进行聚类，以将中间簇划分为子簇。

去重模块803，用于在对搜索词进行搜索提示时，将搜索词命中的、且属于同一子簇的搜索提示文本进行去重。

在一个实施例中，搜索实体维度包括第一高频搜索实体维度和第二高频搜索实体维度；聚类模块801还用于将搜索提示文本的集合按照第一高频搜索实体维度进行聚类，得到初始簇；将初始簇中的各搜索提示文本按照第二高频搜索实体维度进行聚类，以将初始簇划分为中间簇。

在一个实施例中，该装置还包括：

确定模块804，用于针对属于同一中间簇的任意两个节点所对应的两个搜索提示文本，从两个搜索提示文本包含的非实体信息所对应的字符中，确定公共字符；根据两个搜索提示文本之间的相似系数、以及各公共字符对应的重要度系数之和，确定两个搜索提示文本之间的相似度；重要度系数，用于表征公共字符在中间簇中的重要程度。

在一个实施例中，确定模块804还用于若两个搜索提示文本中皆分别包括关键提示属性下相应的属性信息，则基于两个搜索提示文本中属性信息之间的相似性，确定调整系数；根据两个搜索提示文本之间的相似系数、各公共字符对应的重要度系数之和、以及调整系数，确定两个搜索提示文本之间的相似度。

在一个实施例中，聚类模块801还用于从相似度图中未被访问的节点中选取本轮遍历的起始节点，从起始节点起，在本轮开始遍历访问相似度图中的节点；在满足本轮访问结束条件时，则将在本轮访问的节点划分为与中间簇对应的一个子簇；将下一轮作为本轮，返回从相似度图中未被访问的节点中选取本轮遍历的起始节点以继续迭代执行，直至相似度图中节点皆被访问后停止迭代，得到将中间簇划分为的各个子簇。

在一个实施例中，聚类模块801还用于获取节点序列集合；节点序列集合，是将相似度图中未被访问的节点的标识按照节点的平均度大小排序得到；从节点序列集合中选取对应于最大平均度的标识，将选取的标识所表征的节点作为本轮的起始节点；将本轮访问的节点的标识从节点序列集合中去除，得到更新后的节点序列集合，并将下一轮作为本轮，从更新后的节点序列集合中选取对应于最大平均度的标识以继续迭代执行。

在一个实施例中，聚类模块801还用于从起始节点起，在本轮开始逐层遍历访问相似度图中的节点；当遍历的层数达到预设遍历层数阈值时，将在本轮访问的起始节点以及与起始节点相连通的节点，划分为与中间簇对应的一个子簇。

在一个实施例中，去重模块803还用于将同一子簇中的各搜索提示文本作为键，将属于子簇的簇中心的搜索提示文本作为值，以键值对的形式将子簇中的各搜索提示文本进行存储；在对搜索词进行搜索提示时，将搜索词命中的各搜索提示文本作为键，从存储空间中查找对应的值；将搜索词命中的、且对应于同一值的搜索提示文本，替换为属于查找到的值的搜索提示文本，以进行去重。

在一个实施例中，搜索提示文本为视频搜索提示文本；搜索词为视频搜索词；去重模块803还用于在对视频搜索词进行视频搜索提示时，将视频搜索词命中的、且属于同一子簇的视频搜索提示文本进行去重。

参考图9，在一个实施例中，搜索提示装置800还包括：确定模块804和预处理模块805，其中：

预处理模块805，用于对初始搜索提示文本进行以下至少一种预处理，得到搜索提示文本的集合：对初始搜索提示文本进行非关键信息去除处理；对初始搜索提示文本进行纠错处理；对初始搜索提示文本进行表达方式标准化处理。

在一个实施例中，非关键信息包括停用词；预处理模块805还用于获取预设的停用词表；从初始搜索提示文本中，确定命中停用词表中停用词的词语；从初始搜索提示文本中剔除词语。

在一个实施例中，预处理模块805还用于从初始搜索提示文本中，确定命中同义词表中同义词的词语，得到待标准化词；将待标准化词归一化为相应的标准词；和/或，针对初始搜索提示文本中同一属性下的、且表达方式不同的词语，将属于第一表达方式的词语归一化为第二表达方式的词语；第二表达方式的使用频率高于第一表达方式的使用频率。

上述搜索提示装置，将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇，以对搜索提示文本进行初步的簇划分，可避免后续聚类时将不同搜索实体维度下的搜索提示文本划分在同一个簇中。将中间簇中各搜索提示文本抽象为节点，并根据节点和各节点所对应的搜索提示文本之间的相似度，生成与各中间簇对应的相似度图，以将相似度较高的节点进行连通。对相似度图中的节点进行聚类，以将中间簇划分为子簇，这样，可将相似度较高的节点划分在同一个簇中。在对搜索词进行搜索提示时，将搜索词命中的、且属于同一子簇的搜索提示文本进行去重，提升了搜索过程中搜索词命中的搜索提示文本的多样性。

关于搜索提示装置的具体限定可以参见上文中对于搜索提示方法的限定，在此不再赘述。上述搜索提示装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种搜索提示方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种搜索提示方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述搜索实体维度包括第一高频搜索实体维度和第二高频搜索实体维度；所述将搜索提示文本的集合按照搜索实体维度进行聚类，得到中间簇，包括：

将搜索提示文本的集合按照所述第一高频搜索实体维度进行聚类，得到初始簇；

将所述初始簇中的各搜索提示文本按照所述第二高频搜索实体维度进行聚类，以将所述初始簇划分为中间簇。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对属于同一中间簇的任意两个节点所对应的两个搜索提示文本，从所述两个搜索提示文本包含的非实体信息所对应的字符中，确定公共字符；

根据所述两个搜索提示文本之间的相似系数、以及各所述公共字符对应的重要度系数之和，确定所述两个搜索提示文本之间的相似度；所述重要度系数，用于表征所述公共字符在所述中间簇中的重要程度。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若所述两个搜索提示文本中皆分别包括关键提示属性下相应的属性信息，则基于所述两个搜索提示文本中所述属性信息之间的相似性，确定调整系数；

所述根据所述两个搜索提示文本之间的相似系数、以及各所述公共字符对应的重要度系数之和，确定所述两个搜索提示文本之间的相似度，包括：

根据所述两个搜索提示文本之间的相似系数、各所述公共字符对应的重要度系数之和、以及所述调整系数，确定所述两个搜索提示文本之间的相似度。

5.根据权利要求1所述的方法，其特征在于，所述对所述相似度图中的节点进行聚类，以将所述中间簇划分为子簇，包括：

从所述相似度图中未被访问的节点中选取本轮遍历的起始节点，从所述起始节点起，在本轮开始遍历访问所述相似度图中的节点；

在满足本轮访问结束条件时，则将在本轮访问的节点划分为与所述中间簇对应的一个子簇；

将下一轮作为本轮，返回所述从所述相似度图中未被访问的节点中选取本轮遍历的起始节点以继续迭代执行，直至所述相似度图中节点皆被访问后停止迭代，得到将所述中间簇划分为的各个子簇。

6.根据权利要求5所述的方法，其特征在于，所述从所述相似度图中未被访问的节点中选取本轮遍历的起始节点，包括：

获取节点序列集合；所述节点序列集合，是将所述相似度图中未被访问的节点的标识按照节点的平均度大小排序得到；

从所述节点序列集合中选取对应于最大平均度的标识，将选取的所述标识所表征的节点作为本轮的起始节点；

所述将下一轮作为本轮，返回所述从所述相似度图中未被访问的节点中选取本轮遍历的起始节点以继续迭代执行，包括：

将本轮访问的节点的标识从所述节点序列集合中去除，得到更新后的节点序列集合，并将下一轮作为本轮，从更新后的节点序列集合中选取对应于最大平均度的标识以继续迭代执行。

7.根据权利要求5所述的方法，其特征在于，所述从所述起始节点起，在本轮开始遍历访问所述相似度图中的节点，包括：

从所述起始节点起，在本轮开始逐层遍历访问所述相似度图中的节点；

所述在满足本轮访问结束条件时，则将在本轮访问的节点划分为与所述中间簇对应的一个子簇，包括：

当遍历的层数达到预设遍历层数阈值时，将在本轮访问的起始节点以及与所述起始节点相连通的节点，划分为与所述中间簇对应的一个子簇。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将同一子簇中的各搜索提示文本作为键，将属于所述子簇的簇中心的搜索提示文本作为值，以键值对的形式将所述子簇中的各搜索提示文本进行存储；

所述在对搜索词进行搜索提示时，将所述搜索词命中的、且属于同一子簇的搜索提示文本进行去重，包括：

在对搜索词进行搜索提示时，将所述搜索词命中的各搜索提示文本作为键，从存储空间中查找对应的值；

将所述搜索词命中的、且对应于同一值的搜索提示文本，替换为属于查找到的值的搜索提示文本，以进行去重。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对初始搜索提示文本进行以下至少一种预处理，得到所述搜索提示文本的集合：

对所述初始搜索提示文本进行非关键信息去除处理；

对所述初始搜索提示文本进行纠错处理；

对所述初始搜索提示文本进行表达方式标准化处理。

10.根据权利要求9所述的方法，其特征在于，所述非关键信息包括停用词；所述对所述初始搜索提示文本进行非关键信息去除处理，包括：

获取预设的停用词表；

从所述初始搜索提示文本中，确定命中所述停用词表中停用词的词语；

从所述初始搜索提示文本中剔除所述词语。

11.根据权利要求9所述的方法，其特征在于，所述对所述初始搜索提示文本进行表达方式标准化处理，包括以下至少一种处理：

从所述初始搜索提示文本中，确定命中同义词表中同义词的词语，得到待标准化词；将所述待标准化词归一化为相应的标准词；

针对所述初始搜索提示文本中同一属性下的、且表达方式不同的词语，将属于第一表达方式的词语归一化为第二表达方式的词语；所述第二表达方式的使用频率高于所述第一表达方式的使用频率。

12.根据权利要求1至11任意一项所述的方法，其特征在于，所述搜索提示文本为视频搜索提示文本；所述搜索词为视频搜索词；

在对所述视频搜索词进行视频搜索提示时，将所述视频搜索词命中的、且属于同一子簇的视频搜索提示文本进行去重。

13.一种搜索提示装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。