CN111931500A

CN111931500A - 搜索信息的处理方法、装置

Info

Publication number: CN111931500A
Application number: CN202010993865.8A
Authority: CN
Inventors: 钟辉强; 徐思琪; 周厚谦; 陈亮辉; 方军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-11-13
Anticipated expiration: 2040-09-21
Also published as: CN111931500B

Abstract

本申请公开了搜索信息的处理方法、装置、电子设备及计算机可读存储介质，涉及自然语言处理领域、机器学习技术领域、数据处理技术领域、特征分析技术领域和深度学习技术领域。具体实现方案为：获取目标用户集合的搜索信息集合后确定搜索关键字集合，基于该搜索关键字集合进行扩展得到扩展搜索关键字集合，然后对该扩展搜索关键字集合中的内容进行聚类处理，得到多个类别的分类关键字集合，聚合各个类别的分类关键字集合的特征信息，得到目标用户集合的搜索特征信息，然后获取待训练目标模型，使用该搜索特征信息训练所述待训练目标模型，得到训练后的目标模型，可以根据目标用户集合的搜索信息完成对模型的训练，不依赖标签数据。

Description

搜索信息的处理方法、装置

技术领域

本申请涉及自然语言处理技术领域，具体涉及机器学习技术领域、数据处理技术领域、特征分析技术领域和深度学习技术领域，尤其涉及搜索信息的处理方法、装置、电子设备及计算机可读存储介质。

背景技术

当今社会中，为了更好的为用户提供服务，各行各业都引入了深度学习技术来实现对用户行为的分析，根据分析结果来描绘用户画像，以便于后续确定经营策略来为用户提供更好的服务。

现有技术中，为实现更加准确的用户行为分析和用户画像描绘，需要采用大量的用户信息作为训练素材来对神经网络或者模型进行训练，以确保训练得到的神经网络或者模型能够准确的对用户行为进行分析，得到服务提供商需要的结果。

发明内容

本申请提供了一种搜索信息的处理方法、装置、电子设备以及存储介质。

第一方面，本申请的实施例提供了一种搜索信息的处理方法，包括：获取目标用户集合的搜索信息集合，基于该搜索信息集合确定搜索关键字集合；基于该搜索关键字集合和对该搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合，得到扩展搜索关键字集合；对该扩展搜索关键字集合中的内容进行聚类处理，得到多个类别的分类关键字集合；聚合各个类别的分类关键字集合的特征信息，得到该目标用户集合的搜索特征信息；获取待训练目标模型，使用该目标用户集合的搜索特征信息训练该待训练目标模型，得到训练后的目标模型。

第二方面，本申请的实施例提供了一种搜索信息的装置，包括：关键字集合确定单元，被配置成获取目标用户集合的搜索信息集合，基于该搜索信息集合确定搜索关键字集合；关键字集合扩展单元，被配置成基于该搜索关键字集合和对该搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合，得到扩展搜索关键字集合；关键字集合聚类单元，被配置成对该扩展搜索关键字集合中的内容进行聚类处理，得到多个类别的分类关键字集合；特征信息生成单元，被配置成聚合各个类别的分类关键字集合的特征信息，得到该目标用户集合的搜索特征信息；目标模型训练单元，被配置成获取待训练目标模型，使用该目标用户集合的搜索特征信息训练该待训练目标模型，得到训练后的目标模型。

第三方面，本申请的实施例提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，该存储器存储有可被上述至少一个处理器执行的指令，该指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如第一方面中任一实现方式描述的搜索信息的处理方法。

第四方面，本申请的实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，包括：该计算机指令用于使该计算机执行如第一方面中任一实现方式描述的搜索信息的处理方法。

本申请在获取目标用户集合的搜索信息集合后确定搜索关键字集合，基于该搜索关键字集合进行扩展，根据该搜索关键字集合和扩展后的内容得到扩展搜索关键字集合，然后对该扩展搜索关键字集合中的内容进行聚类处理，得到多个类别的分类关键字集合，聚合各个类别的分类关键字集合的特征信息，得到目标用户集合的搜索特征信息，然后获取待训练目标模型，使用该搜索特征信息训练所述待训练目标模型，得到训练后的目标模型，根据目标用户集合的搜索信息完成对模型的训练，不依赖标签数据。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请的实施例可以应用于其中的示例性系统架构；

图2是根据本申请的搜索信息的处理方法的一个实施例的流程图；

图3是根据本申请的搜索信息的处理方法的一个基于搜索信息集合确定搜索关键字集合的实现方式的流程图；

图4是根据本申请的搜索信息的处理方法的一个基于搜索信息集合得到扩展后的搜索关键字集合的实现方式的流程图；

图5是根据本申请的搜索信息的处理装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的搜索信息的处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的搜索信息的处理方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以实现指定目标用户集合的目的。终端设备101、102、103上可以安装有各种支持向服务器发送模型获取请求的应用程序，例如数据分析类应用、特征分析类应用等。

终端设备101、102、103可以是硬件，也可以是软件。硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来指示目标用户集合、接收训练后的目标模型或接收使用训练后的目标模型得到的推送信息等)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如为终端设备101、102、103提供搜索信息处理的服务器。提供搜索信息处理的服务器可以在获取目标用户集合的搜索信息集合后，得到该搜索信息集合的特征信息并基于该特征信息对待训练目标模型进行训练，为终端设备101、102、103提供训练后的目标模型或提供基于训练后的目标模型生成的推送信息。需要说明的是，本申请的实施例所提供的搜索信息的处理方法一般由服务器105执行，相应地，搜索信息的处理装置一般设置于服务器105中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

此外，搜索信息的处理方法也可以由终端设备101、102、103执行，相应地，搜索信息的装置也可以设置于终端设备101、102、103中。此时，示例性系统架构100也可以不包括服务器105和网络104。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的搜索信息的处理方法的一个实施例流程200。该搜索信息的处理方法，包括以下步骤：

步骤201，获取目标用户集合的搜索信息集合，基于该搜索信息集合确定搜索关键字集合。

在本实施例中，搜索信息的处理方法的执行主体(例如图1所示的服务器105)可以从本地或非本地人机交互设备(例如图1所示的终端设备101、102、103)获取目标用户集合的搜索信息集合，本申请对此不做限定。

应当理解的是，目标用户集合的搜索信息集合通常由用户信息和与用户信息对应的用户的历史搜索信息组成，在用户基于这些历史搜索信息后，可以由上述执行主体对这些历史搜索进行收集，并存储在本地或者非本地的存储设备中以便于后续上述执行主体获取这些搜索信息，上述执行主体也可以获取由其他收集设备收集的搜索信息保存在其他存储设备中的搜索信息。

在本实施例的一些可选实现方式中，获取目标用户集合的搜索信息集合包括：响应于确定输入指令指示目标用户集合，确定该目标用户集合所对应的搜索信息集合。

具体的，输入指令的可以由希望上述执行主体对搜索信息进行处理的主体用户发出，例如服务的提供商，这些主体用户可以基于实际需求选择合适的目标用户集合，例如目标用户集合为特定的人群、预设时间区间内的进行了信息搜索的用户等等，主体用户根据自己需求确定了合适的选择条件后，向上述执行主体发出指令，指示目标用户集合，确定目标用户集合和与该目标用户集合对应的搜索信息，以实现根据主体用户的需求确定目标用户集合和对应的搜索信息集合，使得搜索信息的处理结果更能满足主体用户的需求。

在本实施例的一些可选实现方式中，确定目标用户集合所对应的搜索信息集合包括：响应于确定目标用户集合中的至少一个目标用户在预设时间内的搜索信息条数小于预先确定的阈值条件，基于目标用户的搜索信息生成搜索信息集合。

具体的，可以预先确定一个搜索信息条数的阈值条件，在目标用户的搜索信息低于该阈值条件时，将该目标用户确定为一个合格的用户，并基于确定的合格用户的搜索信息来确定搜索信息集合，以防止目标用户进行了多次搜索，产生大量的重复搜索信息干扰后续对搜索信息的处理。

在获取到目标用户集合的搜索信息集合后，根据该搜索信息集合中的内容来确定搜索关键字集合，为方便理解该部分内容，参考图3所示，其中，提供了一种搜索信息的处理方法中基于搜索信息集合确定搜索关键字集合的实现流程300，具体包括：

步骤301，对搜索信息集合中的搜索信息进行标准化处理。

具体的，在获取到搜索信息集合中的搜索信息后，对进行相应的标准化处理，包括将搜索信息中的汉字字体、字号进行统一，英文大小写进行统一以及统一标点符号的中英文格式等，使得各个搜索信息中的内容处于统一的标准格式之下，以便于后续以相同的规格、标准来处理搜索信息，提高搜索关键字提取的工作的准确度和搜索信息的处理效率。

步骤302，采用预先确定的搜索关键字提取方式从标准化处理的结果中提取搜索关键字，并根据提取到的搜索关键字的词频，确定搜索关键字词典。

具体的，采用预先确定的搜索关键字提取方式，提取上述步骤302中得到的经过标准化处理的结果中的搜索关键字，并记录关键字被提取到的次数，即提取到的搜索关键字的词频，根据搜索关键字的词频进行序列排列，得到搜索关键字词典。

其中，在生成关键字词典的过程中，还可以对预先设置不采用的关键字，在生成关键字词典的过程中，不记录这些不采用的关键字，以提升搜索关键字提取结果的有效性。

在本实施例的一些可选实现方式中，采用预先确定的搜索关键字提取方式从该标准化处理的结果中提取搜索关键字包括：采用切词和词权重分析神经网络从该标准化处理的结果中提取该搜索关键字。

具体的，切词(又称分词，Word Segmentation)指的是将一个文字序列切分成一个一个单独的词。切词按照一定的策略将待分析的字串与一个“充分大的”词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(完成识别)，切词是文本挖掘的基础，以中文为例，对于输入的一段中文，成功的进行中文分词，以便于后续自动识别语句中含义，在完成对标准化处理结果的切词工作后，使用词权重分析网络给切词工作得到的结果一个定量化的权重值，以便于后续对词语的进行重要性排序、相似度计算以及相关性的排序。

步骤303，根据搜索关键字词典中词频序列的排序选取第一预设数量的搜索关键字，得到该搜索关键字集合。

具体的，从步骤302中生成的搜索关键字词典中，基于词频序列的排序顺序选取第一预设数量的搜索关键字，得到搜索关键字集合。

其中，第一预设数量的设置与后续得到搜索特征信息的精度有关，可以由上述的主体用户进行设置，也可以由上述执行主体中默认进行设置，以方便根据不同的使用需求来调整搜索信息的处理方法的精度。

步骤202，基于搜索关键字集合和对该搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合，得到扩展搜索关键字集合。

在本实施例中，根据上述步骤201中得到的搜索关键字集合中的搜索关键字的内容，进行相关的扩展，例如基于语义进行扩展搜索关键字、字形关键字扩展等，以实现获取更多与搜索关键字相关、近似的扩展搜索关键字，得到包含有扩展搜索关键字和搜索关键字的扩展搜索关键字集合。

为方便理解该部分内容，参考图4所示，其中，提供了一种搜索信息的处理方法中基于搜索信息集合得到扩展后的搜索关键字集合的实现流程400，具体包括：

步骤401，根据搜索关键字集合生成可用于word2vec神经网络的搜索关键字向量。

应当理解的是，词向量具有良好的语义特性，是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。所以，可以将词向量的每一维称为一个词语特征，因在本实现方式中使用word2vec神经网络来实现搜索关键字扩展的最终目的，因此对应生成可用于word2vec神经网络的搜索关键字向量。

其中，word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

具体的，使用word2vec中的Skip-gram对搜索关键字进行训练，生成对应的词向量，词向量的维度可以为100维，也可以为256维度。

其中Skip-gram模型是一个简单但却非常实用的模型。在自然语言处理中，语料的选取是一个相当重要的问题:第一，语料必须充分。一方面词典的词量要足够大，另一方面要尽可能多地包含反映词语之间关系的句子，例如，只有“鱼在水中游”这种句式在语料中尽可能地多，模型才能够学习到该句中的语义和语法关系，这和人类学习自然语言一个道理，重复的次数多了，也就会模仿了；第二，语料必须准确。也就是说所选取的语料能够正确反映该语言的语义和语法关系，这一点似乎不难做到，例如中文里，《人民日报》的语料比较准确。但是，更多的时候，并不是语料的选取引发了对准确性问题的担忧，而是处理的方法。多元模型中，因为窗口大小的限制，导致超出窗口范围的词语与当前词之间的关系不能被正确地反映到模型之中，如果单纯扩大窗口大小又会增加训练的复杂度。Skip-gram模型的提出很好地解决了这些问题。顾名思义，Skip-gram就是“跳过某些符号”，例如，句子“小明足球踢得真是太烂了”有4个3元词组，分别是“小明足球踢得”、“足球踢得真是”、“踢得真是太烂”、“真是太烂了”，可是我们发现，这个句子的本意就是“小明足球太烂”可是上述4个3元词组并不能反映出这个信息。Skip-gram模型却允许某些词被跳过，因此可以组成“小明足球太烂”这个3元词组。如果允许跳过2个词，即2-Skip-gram。

步骤402，采用word2vec神经网络基于搜索关键字向量进行扩展，得到多个扩展搜索关键字。

具体的，在基于上述步骤401中获取到搜索关键字的词向量后，基于词向量的相似性来获取多个扩展词向量，例如在某一个维度上进行数值上的略微调整来获取一个与搜索关键字的词向量相近似的扩展词向量，并利用word2vec神经网络基于这些扩展词向量来生成对应的扩展搜索关键字，最终得到多个扩展搜索关键字，实现了根据关键字的词向量中的维度信息进行调整，并根据调整后的词向量来确定扩展关键字，在这种扩展方式下，不仅可以保证扩展的关键字处于一定的范围空间内，提高了扩展关键字的质量，还提高了关键字扩展工作的效率。

应当理解的是，不同的扩展词向量可能对应有一个相同的搜索关键字，导致生成的扩展搜索关键字中可能存在自身或者与搜索关键字重复的情况，可以对得到的多个扩展搜索关键字进行查重，以剔除完全一样的搜索关键字、扩展搜索关键字。

步骤403，响应于该扩展搜索关键字与对应的搜索关键字之间的相似度满足预先确定的阈值条件，将该扩展搜索关键字确定为合格扩展搜索关键字。

具体的，可以预先设置扩展搜索关键字与对应的搜索关键字之间的相似度的阈值条件，在扩展搜索关键字与对应的搜索关键字之间的相似度满足预先确定的阈值条件时，将满足预先确定的阈值条件的扩展搜索关键字确定和合格扩展搜索关键字，以提高获取到的扩展搜索关键字的质量。

步骤404，响应于确定获取到的该合格扩展该关键字的数量满足该第二预设数量，筛选出该第二预设数量的扩展搜索关键字。

具体的，在得到的合格扩展关键字的数量满足第二预设数量的时候，得到最终的扩展搜索关键字集合，以实现可以根据第二预设数量的不同来实现对扩展关键字集合中的内容的调整，以实现对搜索信息的处理方法的精度进行调整。

步骤203，根据扩展搜索关键字集合中的内容对该扩展搜索关键字集合进行聚类处理，得到多个类别的分类关键字集合。

在本实施例中，在得到扩展搜索关键字集合后，根据关键字扩展集合中的关键字的内容，对各个不同的关键字扩展集合进行聚类处理，得到多个不同类别的关键字分类集合，其中每个关键字分类集合中包括有至少一个关键字扩展集合。

在本实施例的一些可选实现方式中，对该扩展搜索关键字集合中的内容进行聚类处理，得到多个类别的分类关键字集合包括：采用均值聚类算法对该扩展搜索关键字集合进行聚类处理，得到多个类别的分类关键字集合。

具体的，在确定了扩展搜索关键字集合后，根据其中的内容生成对应的语义特征，例如采用上述实现方式中的word2vec神经网络生成各个扩展搜索关键字集合的词向量，然后基于确定的语义特征使用均值聚类算法对扩展关键字集合进行聚类，把语义相近的词语聚类到一起生成分类关键字集合。均值聚类是一种迭代求解的聚类分析算法，该算法首先将数据随机划分成多组，并计算均值作为初始的聚类中心，然后分别计算每一个对象与多个聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心，然后循环迭代，最后每个组就代表一个聚类。每一个分类关键字集合的类别表示用户的一维搜索行为特征，通过均值聚类算法快速、准确的实现了对扩展搜索关键字集合的分类，以便于后续根据得到的分类关键字集合更加准确的生成对应的特征信息。

其中，聚类结果的类别数量也可以预先进行设定和修改，以满足不同主体用户的不同分类需求。

步骤204，聚合各个类别的分类关键字集合的特征信息，得到该目标用户集合的搜索特征信息。

在本实施例中，聚类各个类别的分类关键字集合的特征信息，即将同类别的分类关键字集合的特征信息进行例如加权、取和等方式的信息汇总，得到目标用户集合的搜索特征信息。

在本实施例的一些实现方式中，聚合各个类别的分类关键字集合的特征信息，得到该目标用户集合的搜索特征信息包括：采用词频-逆文档计算方法，分别生成各个类别的分类关键字集合对应的特征值；基于各个类别的该分类关键字集合的特征值，确定该目标用户集合的特征信息。

具体的，采用词频-逆文档计算生成分类关键字集合包的各个维度的特征值。词频-逆文档采用统计方法评估某一词语对于一个语料库中的其中一份文件的重要程度。词频-逆文档包含两层意思，一层是词频，词语的重要性随着它在文件中出现的次数成正比增加；另一层是逆文档频率，词语的重要性会随着它在语料库中出现的频率成反比下降。本申请中首先计算分类关键字集合每个词的词频-逆文档指标，然后对同一类别的词进行词频-逆文档求和作为该类别的特征值，最后生成对应的多维数维特征向量，以便于用该多维特征向量来表示目标用户集合的特征信息。

步骤205，获取待训练目标模型，使用该目标用户集合的搜索特征信息训练该待训练目标模型，得到训练后的目标模型。

在本实施例中，上述执行主体可以从本地或非本地人机交互设备获取待训练目标模型，该待训练目标模型可以是预先设置、保存在上述执行主体本地或非本地人机交互设备中的待训练目标模型，也可以是主体用户根据自身需求希望由上述执行主体进行优化而上传的待训练目标模型。

在上述执行主体获取到该待训练目标模型后，使用上述步骤204中确定的目标用户集合的搜索特征信息来训练该待训练模型，得到训练后的目标模型，以便于后续使用该训练后的目标模型。

本申请实施例提供的搜索信息的处理方法，获取目标用户集合的搜索信息集合后确定搜索关键字集合，基于该搜索关键字集合进行扩展，根据该搜索关键字集合和扩展后的内容得到扩展搜索关键字集合，然后对该扩展搜索关键字集合中的内容进行聚类处理，得到多个类别的分类关键字集合，聚合各个类别的分类关键字集合的特征信息，得到目标用户集合的搜索特征信息，然后获取待训练目标模型，使用该搜索特征信息训练该待训练目标模型，得到训练后的目标模型，以根据目标用户集合的搜索信息完成对模型的训练，提高模型质量。

在本实施例的一些可选实现方式中，还包括：获取该目标模型，采用该目标模型根据该用户集合的推送信息集合确定该目标用户集合的推送信息集合；向该目标用户集合推送该推送信息集合。

具体的，在得到训练后的目标模型后，使用该目标模型来处理获取到的用户集合的搜索信息，生成目标用户集合的推送信息集合，并将该推送信息集合推送给目标用户，以实现根据上述主体用户的指示基于目标用户集合的搜索信息完成待训练目标模型的训练和使用训练后的目标模型为指定的目标用户集合生成对应推送信息。

应当理解的是，其中用于确定目标用户的推送信息的搜索信息集合可以为用于训练该目标模型的搜索信息集合，也可以为重新获取到的目标用户的搜索信息集合，例如重新设置获取目标用户的搜索信息集合的时间条件、搜索信息数量等条件后，重新获取到的目标用户的搜索信息集合。

为加深理解，本申请还结合一个具体应用场景，给出了一种具体的实现方案。在该具体应用场景下，希望上述执行主体对搜索信息进行处理的主体用户甲，确定了目标用户集合A，并向上述执行主体下达指示，希望使用目标用户集合A对应的搜索信息集合A1来训练待训练目标模型B，并使用训练后的模型B1对搜索信息集合A2进行处理，生成推送信息C并推送给目标用户集合A。

上述执行主体获取主体用户甲指定的目标用户集合A后，对目标用户集合A对应的索索信息集合A1进行归一化处理后，基于该搜索信息集合的归一化结果确定了搜索关键字集合：化妆、粉底、烤鸭、火锅。

然后使用word2vec神经网络基于上述搜索关键字集合中的内容生成对应的词向量，并基于词向量进行语义扩充，得到扩展搜索关键字集合：化妆、美妆、粉底、乳液、面霜、眼霜、烧烤、烧鹅、火锅、焖锅、麻辣烫。

根据扩展搜索关键字集合中的内容对扩展关键字集合进行聚类处理，并在聚类过程中删除预先选择剔除的“化妆、美妆”，并根据预先确定的得到两个分类关键字集合的预设条件，得到分类关键字集合，具体为化妆品集合：粉底、乳液、面霜、眼霜；餐饮集合：烧烤、烧鹅、火锅、焖锅、麻辣烫。

聚合各个类别的分类关键字集合的特征信息，得到目标用户集合的搜索特征信息集合，获取上述执行主体本体的存储的待训练目标模型B，用得到的该搜索特征集合来训练该待训练目标模型B，得到训练后的目标模型B1，并使用该目标模型B1对搜索信息集合A2进行处理，得到最终的推送信息C，并推送给目标用户集合A中的用户。

通过本应用场景可以看出，本申请中的搜索信息的处理方法，获取目标用户集合的搜索信息集合后确定搜索关键字集合，基于该搜索关键字集合进行扩展，根据该搜索关键字集合和扩展后的内容得到扩展搜索关键字集合，然后对该扩展搜索关键字集合中的内容进行聚类处理，得到多个类别的分类关键字集合，聚合各个类别的分类关键字集合的特征信息，得到目标用户集合的搜索特征信息，然后获取待训练目标模型，使用该搜索特征信息训练该待训练目标模型，得到训练后的目标模型，并可以使用训练后的目标模型基于目标用户集合的搜索信息集合生成对应的推送信息集合并推送，在不依赖标签数据的情况下，根据目标用户集合的搜索信息完成对模型的训练，提高模型质量，还可以提升基于目标用户搜索信息得到的推送信息集合的质量。

如图5所示，本实施例的搜索信息的装置500可以包括：关键字集合确定单元501，被配置成获取目标用户集合的搜索信息集合，基于该搜索信息集合确定搜索关键字集合；关键字集合扩展单元502，被配置成基于该搜索关键字集合和对该搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合，得到扩展搜索关键字集合；关键字集合聚类单元503，被配置成被配置成根据该扩展搜索关键字集合中的内容对该扩展搜索关键字集合进行聚类处理，得到多个类别的分类关键字集合；特征信息生成单元504，被配置成聚合各个类别的分类关键字集合的特征信息，得到该目标用户集合的搜索特征信息；目标模型训练单元505，被配置成获取待训练目标模型，使用该目标用户集合的搜索特征信息训练该待训练目标模型，得到训练后的目标模型。

在本实施例的一些可选的实现方式中，关键字集合确定单元501中包括：标准化子单元，被配置成对该搜索信息集合中的搜索信息进行标准化处理；该关键字确定集合进一步被配置成根据标准化处理的结果确定该搜索关键字集合。

在本实施例的一些可选的实现方式中，关键字集合确定单元501中根据标准化处理的结果确定搜索关键字集合包括：采用预先确定的搜索关键字提取方式从该标准化处理的结果中提取搜索关键字，并根据提取到的搜索关键字的词频，确定搜索关键字词典；根据该搜索关键字词典中词频序列的排序选取第一预设数量的搜索关键字，得到该搜索关键字集合。

在本实施例的一些可选的实现方式中，关键字集合确定单元501中采用预先确定的搜索关键字提取方式从标准化处理的结果中提取搜索关键字包括：采用切词和词权重分析神经网络从该标准化处理的结果中提取该搜索关键字。

在本实施例的一些可选的实现方式中，关键字集合扩展单元502中基于搜索关键字集合和对搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合，得到扩展搜索关键字集合包括：根据该搜索关键字集合生成可用于word2vec神经网络的搜索关键字向量；采用word2vec神经网络基于搜索关键字向量进行扩展，得到多个扩展搜索关键字；根据预先确定的筛选规则，筛选出第二预设数量的扩展搜索关键字，得到该扩展搜索关键字集合。

在本实施例的一些可选的实现方式中，关键字集合扩展单元502中根据预先确定的筛选规则，筛选出第二预设数量的扩展关键字包括：获取第三预设数量的该扩展搜索关键字，判断该扩展搜索关键字与对应的搜索关键字之间的相似度是否满足预先确定的阈值条件；响应于该扩展搜索关键字与对应的搜索关键字之间的相似度满足预先确定的阈值条件，将该扩展搜索关键字确定为合格扩展搜索关键字；响应于确定获取到的该合格扩展搜索关键字的数量满足该第二预设数量，筛选出该第二预设数量的扩展搜索关键字。

在本实施例的一些可选的实现方式中，关键字集合聚类单元503中对扩展搜索关键字集合中的内容进行聚类处理，得到多个类别的分类关键字集合包括：采用均值聚类算法对该扩展搜索关键字集合进行聚类处理，得到多个类别的分类关键字集合。

在本实施例的一些可选的实现方式中，该特征信息生成单元504中聚合各个类别的分类关键字集合的特征信息，得到目标用户集合的搜索特征信息包括：采用词频-逆文档计算方法，分别生成各个类别的分类关键字集合对应的特征值；基于各个类别的该分类关键字集合的特征值，确定该目标用户集合的特征信息。

在本实施例的一些可选的实现方式中，关键字集合确定单元中501中获取目标用户集合的搜索信息集合包括：响应于确定输入指令指示目标用户集合，确定该目标用户集合所对应的搜索信息集合。

在本实施例的一些可选的实现方式中，关键字集合确定单元中501中确定目标用户集合所对应的搜索信息集合包括：响应于确定该目标用户集合中的至少一个目标用户在预设时间内的搜索信息条数小于预先确定的阈值条件，基于该目标用户的搜索信息生成该搜索信息集合。

在本实施例的一些可选的实现方式中，上述装置还包括：推送信息生成单元，被配置成获取该目标模型，采用该目标模型根据该用户集合的搜素信息集合确定该目标用户集合的推送信息集合；推送信息发送单元，被配置成向该目标用户集合推送该推送信息集合。

本实施例作为对应于上述方法实施例的装置实施例存在，相同内容参考对于上述方法实施例的说明，对此不再赘述。通过本申请实施例提供的搜索信息的装置，根据目标用户集合的搜索信息完成对模型的训练，不依赖用户的标签数据。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的搜索信息的处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，该存储器存储有可由至少一个处理器执行的指令，以使该至少一个处理器执行本申请所提供的搜索信息的处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的搜索信息的处理方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的搜索信息的处理方法对应的程序指令/模块(例如，图5所示的关键字集合确定单元501、关键字集合扩展单元502、关键字集合聚类单元503、特征信息生成单元504和目标模型训练单元505)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的搜索信息的处理方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据搜索信息的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至搜索信息的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

搜索信息的处理方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与搜索信息的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至上述存储系统、上述至少一个输入装置、和上述至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，获取目标用户集合的搜索信息集合后确定搜索关键字集合，基于该搜索关键字集合进行扩展，根据该搜索关键字集合和扩展后的内容得到扩展搜索关键字集合，然后对该扩展搜索关键字集合中的内容进行聚类处理，得到多个类别的分类关键字集合，聚合各个类别的分类关键字集合的特征信息，得到目标用户集合的搜索特征信息，然后获取待训练目标模型，使用该搜索特征信息训练所述待训练目标模型，得到训练后的目标模型，以根据目标用户集合的搜索信息完成对模型的训练，提高模型质量。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种搜索信息的处理方法，包括：

获取目标用户集合的搜索信息集合，基于所述搜索信息集合确定搜索关键字集合；

基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合，得到扩展搜索关键字集合；

根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理，得到多个类别的分类关键字集合；

聚合各个类别的分类关键字集合的特征信息，得到所述目标用户集合的搜索特征信息；

获取待训练目标模型，使用所述目标用户集合的搜索特征信息训练所述待训练目标模型，得到训练后的目标模型。

2.根据权利要求1所述的方法，其中，所述基于所述搜索信息集合确定搜索关键字集合包括：

对所述搜索信息集合中的搜索信息进行标准化处理，根据标准化处理的结果确定所述搜索关键字集合。

3.根据权利要求2所述的方法，其中，所述根据标准化处理的结果确定所述搜索关键字集合包括：

采用预先确定的搜索关键字提取方式从所述标准化处理的结果中提取搜索关键字，并根据提取到的搜索关键字的词频，确定搜索关键字词典；

根据所述搜索关键字词典中词频序列的排序选取第一预设数量的搜索关键字，得到所述搜索关键字集合。

4.根据权利要求3所述的方法，其中，所述采用预先确定的搜索关键字提取方式从所述标准化处理的结果中提取搜索关键字包括：

采用切词和词权重分析神经网络从所述标准化处理的结果中提取所述搜索关键字。

5.根据权利要求1所述的方法，所述基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合，得到扩展搜索关键字集合包括：

根据所述搜索关键字集合生成可用于word2vec神经网络的搜索关键字向量；

采用word2vec神经网络基于搜索关键字向量进行扩展，得到多个扩展搜索关键字；

根据预先确定的筛选规则，筛选出第二预设数量的扩展搜索关键字，得到所述扩展搜索关键字集合。

6.根据权利要求5所述的方法，所述根据预先确定的筛选规则，筛选出第二预设数量的扩展关键字包括：

获取第三预设数量的所述扩展搜索关键字，判断所述扩展搜索关键字与对应的搜索关键字之间的相似度是否满足预先确定的阈值条件；

响应于所述扩展搜索关键字与对应的搜索关键字之间的相似度满足预先确定的阈值条件，将所述扩展搜索关键字确定为合格扩展搜索关键字；

响应于确定获取到的所述合格扩展搜索关键字的数量满足所述第二预设数量，筛选出所述第二预设数量的扩展搜索关键字。

7.根据权利要求1所述的方法，其中，所述根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理，得到多个类别的分类关键字集合包括：

采用均值聚类算法对所述扩展搜索关键字集合进行聚类处理，得到多个类别的分类关键字集合。

8.根据权利要求1所述的方法，其中，所述聚合各个类别的分类关键字集合的特征信息，得到所述目标用户集合的搜索特征信息包括：

采用词频-逆文档计算方法，分别生成各个类别的分类关键字集合对应的特征值；

基于各个类别的所述分类关键字集合的特征值，确定所述目标用户集合的特征信息。

9.根据权利要求1所述的方法，其中，所述获取目标用户集合的搜索信息集合包括：

响应于确定输入指令指示目标用户集合，确定所述目标用户集合所对应的搜索信息集合。

10.根据权利要求9所述的方法，其中，所述确定所述目标用户集合所对应的搜索信息集合包括：

响应于确定所述目标用户集合中的至少一个目标用户在预设时间内的搜索信息条数小于预先确定的阈值条件，基于所述目标用户的搜索信息生成所述搜索信息集合。

11.根据权利要求1-10中任一项所述的方法，还包括：

获取所述目标模型，采用所述目标模型根据所述用户集合的搜素信息集合确定所述目标用户集合的推送信息集合；

向所述目标用户集合推送所述推送信息集合。

12.一种搜索信息的处理装置，包括：

关键字集合确定单元，被配置成获取目标用户集合的搜索信息集合，基于所述搜索信息集合确定搜索关键字集合；

关键字集合扩展单元，被配置成基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合，得到扩展搜索关键字集合；

关键字集合聚类单元，被配置成根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理，得到多个类别的分类关键字集合；

特征信息生成单元，被配置成聚合各个类别的分类关键字集合的特征信息，得到所述目标用户集合的搜索特征信息；

目标模型训练单元，被配置成获取待训练目标模型，使用所述目标用户集合的搜索特征信息训练所述待训练目标模型，得到训练后的目标模型。

13.根据权利要求12所述的装置，其中，所述关键字集合确定单元中包括：

标准化子单元，被配置成对所述搜索信息集合中的搜索信息进行标准化处理；

所述关键字确定集合进一步被配置成根据标准化处理的结果确定所述搜索关键字集合。

14.根据权利要求13所述的装置，其中，所述关键字集合确定单元中所述根据标准化处理的结果确定所述搜索关键字集合包括：

15.根据权利要求14所述的装置，其中，所述关键字集合确定单元中所述采用预先确定的搜索关键字提取方式从所述标准化处理的结果中提取搜索关键字包括：

16.根据权利要求12所述的装置，其中，所述关键字集合扩展单元中所述基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合，得到扩展搜索关键字集合包括：

17.根据权利要求16所述的装置，其中，所述关键字集合扩展单元中所述根据预先确定的筛选规则，筛选出第二预设数量的扩展关键字包括：

18.根据权利要求12所述的装置，其中，所述关键字集合聚类单元中所述对所述扩展搜索关键字集合中的内容进行聚类处理，得到多个类别的分类关键字集合包括：

19.根据权利要求12所述的装置，其中，所述特征信息生成单元中所述聚合各个类别的分类关键字集合的特征信息，得到所述目标用户集合的搜索特征信息包括：

20.根据权利要求12所述的装置，其中，所述关键字集合确定单元中所述获取目标用户集合的搜索信息集合包括：

21.根据权利要求20所述的装置，其中，所述关键字集合确定单元中所述确定所述目标用户集合所对应的搜索信息集合包括：

22.根据权利要求12-20中任一项所述的装置，还包括：

推送信息生成单元，被配置成获取所述目标模型，采用所述目标模型根据所述用户集合的搜素信息集合确定所述目标用户集合的推送信息集合；

推送信息发送单元，被配置成向所述目标用户集合推送所述推送信息集合。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，包括：所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。