CN110555165B

CN110555165B - 信息识别方法、装置、计算机设备和存储介质

Info

Publication number: CN110555165B
Application number: CN201910666381.XA
Authority: CN
Inventors: 刘利
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2023-04-07
Anticipated expiration: 2039-07-23
Also published as: CN110555165A; WO2021012483A1

Abstract

本申请涉及机器学习，提供一种信息识别方法、装置、计算机设备和存储介质。所述方法包括：获取查询日志，查询日志中包括多个查询会话；根据查询会话的查询时间和查询次数进行过滤，得到目标查询日志；从目标查询日志中提取查询特征，将查询特征数值化得到目标查询日志中各个查询会话对应的查询向量；选取预设数量的查询会话对应的查询向量，得到目标查询向量；计算目标查询向量与预设意图聚类模型的相似度，得到目标查询向量对应的意图类；将各个查询会话对应的查询向量依次组合，得到各个组合查询向量，启动多个线程，使用所述多个线程并行计算各个组合查询向量与意图类的相似度，得到信息结果。采用本方法提高了意图信息识别的效率。

Description

信息识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种信息识别方法、装置、计算机设备和存储介质。

背景技术

随着搜索引擎技术的发展，越来越多的网站使用搜索引擎技术来使用户快速查询想要的信息。目前的搜索引擎技术，能够根据用户的输入，识别出用户的意图，从而根据用户的意图返回对应的信息。

然而，当网站在一定时间内识别用户不同的搜索意图信息时，需要分别将用户各个的搜索意图依次进行识别。比如，用户在先开始查找动物“狗”，网站会返回狗相关的信息。当用户再一次查询动物“猫”时，网站会返回猫相关的信息，当需要识别用户搜索意图信息时，先会识别出“狗”，然后再会识别出“猫”，然后进行比较得到意图信息发生变化，这种识别意图信息发生变化的方法当存在大量的用户数据进行识别时，识别意图信息发生变化的效率比较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高信息识别精确性的信息识别方法、装置、计算机设备和存储介质。

一种信息识别方法，所述方法包括：

获取查询日志，查询日志中包括多个查询会话；

根据查询日志的查询时间和查询次数过滤查询日志，得到目标查询日志；

从目标查询日志中提取查询特征，将查询特征数值化得到目标查询日志中各个查询会话对应的查询向量；

选取预设数量的查询会话对应的查询向量进行组合，得到目标查询向量；

计算目标查询向量与历史意图聚类结果的相似度，得到目标查询向量对应的意图类；

按照预设规则将各个查询会话对应的查询向量进行组合，得到各个组合查询向量；

启动多个线程，使用多个线程并行计算各个组合查询向量与意图类的相似度，根据各个组合查询向量与意图类的相似度得到信息识别结果。

在其中一个实施例中，根据查询日志的查询时间和查询次数过滤查询日志，得到目标查询日志，包括：

查找查询日志的查询时间大于预设时间的第一查询日志，将第一查询日志从查询日志中删除；

查找查询日志的查询次数少于预设次数的第二查询日志，将第二查询日志从查询日志中删除，得到目标查询日志。

在其中一个实施例中，从目标查询日志中提取查询特征信息，将查询特征信息数值化得到目标查询日志中各个查询会话对应的查询向量，包括：

从目标查询日志各个查询会话中得到查询文本，使用词袋策略提取查询文本中的关键词，得到查询关键词特征；

从目标查询日志各个查询会话中得到统一资源定位符信息，查找统一资源定位符信息对应的分类目录，得到统一资源定位符特征；

将查询文本中的关键词和统一资源定位符信息对应的分类目录组合，得到组合特征；

根据查询关键词特征、统一资源定位符特征和组合特征，得到查询特征，将查询特征数值化得到目标查询日志中各个查询会话对应的查询向量。

在其中一个实施例中，按照预设规则将各个查询会话对应的查询向量进行组合，得到各个组合查询向量，包括：

获取各个查询会话中初始查询会话对应的初始查询向量，将所述初始查询向量作为第一组合查询向量；

获取第一组合查询向量紧邻的查询向量，将第一组合查询向量与紧邻的查询向量组合，得到第二组合查询向量；

将第二组合查询向量作为第一组合查询向量，返回获取第一组合查询向量紧邻的查询向量的步骤进行执行，直到各个查询会话对应的查询向量全被组合时，得到各个组合查询向量。

在其中一个实施例中，根据各个组合查询向量与意图类的相似度得到信息识别结果，包括：

获取第一组合查询向量与意图类的第一相似度并获取第二组合查询向量与意图类的第二相似度；

将第一相似度与第二相似度进行比较，当第一相似度超过第二相似度时，得到第一组合查询向量对应的查询会话与第二组合查询向量对应的查询会话的信息已改变。

在其中一个实施例中，在启动多个线程，使用多个线程并行计算各个组合查询向量与意图类的相似度，根据各个组合查询向量与意图类的相似度得到信息识别结果之后，还包括：

根据信息识别结果从查询日志中获取信息变化前的查询会话和信息后的查询会话；

获取信息变化前的查询会话和信息变化后的查询会话中的查询时间，根据查询时间得到信息变化前的查询会话对应意图的权重和信息变化后的查询会话对应意图的权重；

比较信息变化前的查询会话对应意图的权重和信息变化后的查询会话对应意图的权重，根据比较结果获取对应的推荐信息，并将推荐信息推送到查询终端。

在其中一个实施例中，历史意图聚类结果的生成步骤包括：

获取历史查询日志，根据历史查询日志中历史查询日志的查询时间和查询次数过滤历史查询日志，得到目标历史查询日志；

提取目标历史查询日志中各个历史查询会话的历史查询特征，将历史查询特征数值化得到各个历史查询会话对应的历史查询向量；

根据历史查询向量使用层次聚类算法进行聚类，当聚类完成时，得到历史意图聚类结果。

一种信息识别方法装置，所述装置包括：

日志获取模块，用于获取查询日志，查询日志中包括多个查询会话；

过滤模块，用于根据查询会话的查询时间和查询次数进行过滤，得到目标查询日志；

特征提取模块，用于从目标查询日志中提取查询特征信息，将查询特征信息数值化得到目标查询日志中各个查询会话对应的查询向量；

目标向量选取模块，用于选取预设数量的查询会话对应的查询向量进行组合，得到目标查询向量；

意图类得到模块，用于计算目标查询向量与预设意图聚类模型的相似度，得到目标查询向量对应的意图类；

向量组合模块，用于按照预设规则将各个查询会话对应的查询向量进行组合，得到各个组合查询向量；

信息识别模块，用于启动多个线程，使用所述多个线程并行计算各个组合查询向量与意图类的相似度，根据所述各个组合查询向量与所述意图类的相似度得到信息识别结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取查询日志，查询日志中包括多个查询会话；

根据查询会话的查询时间和查询次数进行过滤，得到目标查询日志；

计算目标查询向量与预设意图聚类模型的相似度，得到目标查询向量对应的意图类；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取查询日志，查询日志中包括多个查询会话；

上述信息识别方法、装置、计算机设备和存储介质，通过查询日志得到查询向量，并得到查询向量对应的目标查询向量，得到该目标查询向量对应的意图类，然后将查询向量进行组合，得到各个组合查询向量，并启动多个线程，并行计算各个组合查询向量与意图类的相似度，然后根据各个相似度来确定信息识别结果，通过并行计算相似度，提高了计算相似度的效率，进而提高了确定大量查询会话中意图信息变化识别的效率。

附图说明

图1为一个实施例中信息识别方法的应用场景图；

图2为一个实施例中信息识别方法的流程示意图；

图3为一个实施例中过滤查询日志的流程示意图；

图4为一个实施例中得到查询向量的流程示意图；

图5为一个实施例中得到组合查询向量的流程示意图；

图6为一个实施例中信息识别的流程示意图；

图7为一个实施例中推送推荐信息的流程示意图；

图8为一个实施例中得到预设意图聚类模型的流程示意图；

图9为一个实施例中信息识别装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的信息识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104获取终端102发送的查询日志，查询日志中包括多个查询会话；根据查询会话的查询时间和查询次数进行过滤，得到目标查询日志；从目标查询日志中提取查询特征，将查询特征数值化得到目标查询日志中各个查询会话对应的查询向量；选取预设数量的查询会话对应的查询向量进行组合，得到目标查询向量；计算目标查询向量与预设意图聚类模型的相似度，得到目标查询向量对应的意图类；服务器104按照预设规则将各个查询会话对应的查询向量进行组合，得到各个组合查询向量，服务器104启动多个线程，使用多个线程并行计算各个组合查询向量与意图类的相似度，根据各个组合查询向量与意图类的相似度得到信息识别结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种信息识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，获取查询日志，查询日志中包括多个查询会话。

其中，查询日志是根据用户使用搜索引擎时产生的日志信息。其中，查询会话是用户为了获得某一信息需求在一段时间间隔内从提交的查询到提交下一个查询或退出搜索引擎为止进行的一系列连续的交互活动。比如，可能提交一导航查询(如pingan bank)，单击官方网站，停止搜索，就得到了对应的查询会话。该查询会话在服务器存储时，存储为多个字段信息，包括查询时间、查询语句，点击时间和点击URL(统一资源定位符)等等。查询日志中可以包括多个查询会话。

具体地，服务器会获取查询日志，该查询日志可以是多个不同的终端中获取到的不同的查询日志。每个查询日志都包括了用户在搜索时，产生的查询会话。该查询会话可以是多个。

S204，根据查询日志的查询时间和查询次数过滤查询日志，得到目标查询日志。

其中，查询日志的查询时间是指完成用户完成查询时花费的总时间，查询次数是指该用户的查询日志中包括的查询次数。

具体地，服务器根据用户的查询日志的起始时间到结果时间和该查询日志中包括的查询会话的数量与预先设定的查询时间和查询次数进行比较，根据比较结果来删除查询日志中不符合预先设定的查询时间和查询次数的查询日志，将过滤后的查询日志作为目标查询日志。

S206，从目标查询日志中提取查询特征，将查询特征信息数值化得到目标查询日志中各个查询会话对应的查询向量。

其中，查询特征是用来表示查询会话的特征。该查询特征是预先设置好，可以包括查询语句特征，单击的URL特征和组合特征，该组合特征是由查询语句特征和单击的URL特征组合得到的特征。

具体地，服务器从目标查询日志中提取到各个查询会话的查询特征，将查询特征数值化得到目标查询日志中各个查询会话对应的查询向量，可以使用二值化或者tf-idf将查询特征数值化得到查询向量。

S208，选取预设数量的查询会话对应的查询向量进行组合，得到目标查询向量。

其中，查询向量是用来表征查询会话，每个查询会话对应一个查询向量。其中，预设数量是预先在服务器中设置好的数量且该设置数量小于查询向量的数量。该数量可以是人为设置的，也可以是统计历史查询日志中包括的查询向量的平均数得到的。

具体地，服务器从目标查询日志中各个查询会话对应的查询向量中选取预先设置好的数量的查询向量，将该数量的查询向量组合，得到目标查询向量。可以按照查询日志的中查询会话的时间顺序依次从早到晚选择预设梳理的查询会话对应的查询向量。比如，q_1，q_2，q_3，…，q_n为n个查询会话对应的n个查询向量。若d为历史查询日志中包括查询会话的平均数。此时，设置预设数量为d，则得到的目标查询向量可以是(q_1，q_2，…，q_d)。

S210，计算目标查询向量与预设意图聚类模型的相似度，得到目标查询向量对应的意图类。

其中，预设意图聚类模型是指预先将根据用户的历史查询日志使用聚类算法进行聚类得到用户的各个意图类的模型。

具体地，服务器使用相似度算法计算目标查询向量与预设意图聚类模型的相似度，得到目标查询向量对应的意图类，即找到目标查询向量所属于的意图类。其中相似度算法可以是欧式距离算法，余弦距离算法等等。

S212，按照预设规则将各个查询会话对应的查询向量进行组合，得到各个组合查询向量；

其中，预设规则是指预先设置好的各个查询会话对应的查询向量的组合规则，比如，可以依次将各个查询会话对应的查询向量组合，也可以从各个查询会话对应的查询向量中选取查询向量进行组合。

具体地，服务器按照预设规则将各个查询会话对应的查询向量进行组合，得到各个组合查询向量，可以是即将第一个查询向量作为第一个组合查询向量，将第二个查询子向量与第一个组合查询向量组合，得到第二个组合查询向量，然后将第三个查询向量与第二个组合查询向量组合，得到第三个组合查询向量，直到所有的查询向量都被组合完成时，得到各个组合查询向量。

S214，启动多个线程，使用多个线程并行计算各个组合查询向量与意图类的相似度，根据各个组合查询向量与意图类的相似度得到信息识别结果。

其中，信息是指用户会话中的意图，信息识别是指识别两个相邻的查询会话之间查询意图是否发生变化。比如，在一个查询会话中要查询“狗”相关的信息。而在紧邻的查询会话中并没有继续查询与“狗”相关的信息，而是查询了“健身房”相关的信息。明显是查询不相关的意图，即这两个查询会话之间的意图发生了变化即信息识别结果为信息发送了变化。线程(thread)是操作系统能够进行运算调度的最小单位。

具体地，服务器启动多个线程，该多个线程可以并行运行，使用该并行运行的多个线程分别计算各个组合查询向量与意图类的相似度，比较各个组合查询向量与意图类的相似度，根据比较结果确定各个组合查询向量对应的查询会话的意图信息变化结果。

在上述信息识别方法中，通过查询日志得到查询向量，并得到查询向量对应的目标查询向量，得到该目标查询向量对应的意图类，然后将查询向量进行组合，得到各个组合查询向量，并启动多个线程，并行计算各个组合查询向量与意图类的相似度，然后根据各个相似度来确定信息识别结果，通过并行计算相似度，提高了计算相似度的效率，进而提高了确定大量数据中信息识别结果的效率。

在一个实施例中，如图3所示，步骤S204，即根据查询日志的查询时间和查询次数过滤查询日志，得到目标查询日志，包括步骤：

S302，查找查询日志的查询时间大于预设时间的第一查询日志，将第一查询日志从查询日志中删除。

具体地，服务器在用户的查询日志中查找查询时间大于预设时间的日志，将查找到的日志作为第一查询日志，该第一查询日志是指用户在较长时间进行查询产生的日志，比如用户查询时间超过一个小时的查询日志，将该第一查询日志从查询日志中删除。由于用户在长时间的查询中意图更改可能比较频繁，导致该查询日志不符合要求，删除该查询日志，保证查询日志数据的一致性

S304，查找查询日志的查询次数少于预设次数的第二查询日志，将第二查询日志从查询日志中删除，得到目标查询日志。

具体地，服务器在用户的查询日志中查找查询次数少于预设次数的日志，即查询日志中查询会话的数量少于预先设置好的数量，将查找到的日志作为第二查询日志，将第二查询日志从查询日志中删除，得到目标查询日志。由于查询会话数量太少，用户的意图的就根本不可能发生信息，比如，只有一个查询会话的查询日志。则该查询日志可能不够完整，无法描述用户的整个意图，删除，该查询日志，保证查询日志的一致性。

在一个实施例中，如图4所示，步骤S206，即从目标查询日志中提取查询特征信息，将查询特征信息数值化得到目标查询日志中各个查询会话对应的查询向量，包括步骤：

S402，从目标查询日志各个查询会话中得到查询文本，使用词袋策略提取查询文本中的关键词，得到查询关键词特征。

其中，查询文本是指根据用户输入的查询语句得到的文本。即可以从查询日志各个查询会话中的查询语句字段中得到。词袋策略是指使用机器学习算法从文本中提起特征的方法，词袋(Bag-of-words)是描述文档中单词出现的文本的一种表示形式。

具体地，服务器从目标查询日志中各个查询会话的查询语句字段中得到查询文本，使用词袋策略提取查询文本中的关键词，得到查询关键词特征。即得到目标查询日志中各个查询会话的查询文本，得到各个查询会话的查询关键词特征。

S404，从目标查询日志各个查询会话中得到统一资源定位符信息，查找统一资源定位符信息对应的分类目录，得到统一资源定位符特征。

具体地，服务器从目标查询日志各个查询会话中的URL字段中得到统一资源定位符信息即URL信息，从开放式分类目录搜索系统(ODP)中查找到URL信息对应的分类目录，根据该分类目录得到统一资源定位符特征。

S406，将查询文本中的关键词和统一资源定位符信息对应的分类目录组合，得到组合特征。

具体地，服务器查询文本中的关键词和统一资源定位符信息对应的分类目录进行组合，将组合之后的信息作为组合特征。比如，用户在淘宝上搜索“蓝月亮洗衣液”，就可以根据用户的点击的商品的URL找到对应的商品目录。分类目录可以是“日常生活用户-洗涤类-洗衣液”。关键词可以是“蓝月亮”和“洗衣液”，将分类目录和关键词中的每一项两两组合得到组合特征可以是“日常生活用户-蓝月亮”、“日常生活用户-洗衣液”、“洗涤类-蓝月亮”、“洗涤类-洗衣液”、“洗衣液-蓝月亮”和“洗衣液-洗衣液”。

S408，根据查询关键词特征、统一资源定位符特征和组合特征，得到查询特征，将查询特征数值化得到查询向量。

具体地，服务器将查询关键词特征、统一资源定位符特征信息和组合特征组合，就得到目标查询日志中各个查询会话对应的查询特征，将查询特征数值化得到目标查询日志中各个查询会话对应的查询向量。

在上述实施例中，通过查询语句得到查询关键词特征，根据点击的URL得到URL特征，然后根据查询语句和点击的URL得到URL特征信息得到组合特征息，使得到的查询特征更加的精确，从而使得到的查询向量更加的精确。

在一个实施例中，如图5所示，步骤S212，即按照预设规则将各个查询会话对应的查询向量进行组合，得到各个组合查询向量，包括步骤：

S502，获取各个查询会话中初始查询会话对应的初始查询向量，将所述初始查询向量作为第一组合查询向量；

其中，初始查询会话是指目标查询日志中起始时间对应的查询会话，起始时间是用户开始查询的时间。

具体地，服务器获取目标查询日志对应的各个查询会话中的初始查询会话，并得到初始查询会话对应的初始查询向量，将初始查询会话作为第一组合查询向量。

S504，获取第一组合查询向量紧邻的查询向量，将第一组合查询向量与紧邻的查询向量组合，得到第二组合查询向量。

具体地，服务器从查询向量中获取初始查询向量紧邻的查询向量，即目标查询日志中第二个查询会话对应的查询向量，将初始查询向量与紧邻的查询向量组合，得到第二组合查询向量，比如初始查询向量为q_1，则紧邻的查询向量为q_2，则得到的第二组合查询向量为(q_1，q_2)。

S506，将第二组合查询向量作为第一组合查询向量，返回获取第一组合查询向量紧邻的查询向量的步骤进行执行，直到各个查询会话对应的查询向量全被组合时，得到各个组合查询向量。

具体地，服务器将第二组合查询向量作为第一组合查询向量，返回步骤S504进行执行，即返回获取第一组合查询向量紧邻的查询向量的步骤执行。当所有查询会话对应的查询子向量都被组合时即得到的组合查询向量中包括所有查询会话对应的查询向量时，得到各个组合查询向量。比如，此时，将(q_1，q_2)作为第一组合查询向量，获取第一组合查询向量中紧邻的查询向量为q_3，组合得到第二组合查询向量为(q_1，q_2，q_3)。然后再将(q_1，q_2，q_3)作为第一组合查询向量，返回步骤获取第一组合查询向量紧邻的查询向量的步骤，直到各个查询会话对应的查询向量q_1，q_2，…，q_n全被组合时，即得到最后一个组合查询向量为(q_1，q_2，…，q_n)时，得到各个组合查询向量。

在上述实施例中，通过将各个查询会话对应的查询向量进行组合，得到各个组合查询向量，便于计算组合查询向量与意图类的相似度。

在一个实施例中，如图6所示，步骤S508，即根据各个组合查询向量与意图类的相似度得到信息识别结果，包括步骤：

S602，获取第一组合查询向量与意图类的第一相似度并获取第二组合查询向量与意图类的第二相似度。

其中，第一组合查询向量是初始查询向量得到组合查询向量，第二组合查询向量是初始查询向量和初始查询向量紧邻的查询向量组合得到的。

具体地，服务器获取第一组合查询向量与意图类的第一相似度并获取第二组合查询向量与意图类的第二相似度。

S604，将第一相似度与第二相似度进行比较，当第一相似度超过第二相似度时，得到第一组合查询向量对应的查询会话与第二组合查询向量对应的查询会话的信息已改变。

具体地，服务器将第一相似度与第二相似度进行比较，当第一相似度超过第二相似度时，得到第一组合查询向量对应的查询会话即初始查询会话与第二组合查询向量对应的查询会话即紧邻的查询会话之间的信息已改变，即意图发送变化，也就是初始查询会话和初始查询会话紧邻的查询会话之间查询的意图信息是不同的。可以将信息识别结果写入信息变化记录表中保存，该信息变化记录表用于记录信息识别的结果，包括信息变化前查询会话字段和信息变化后查询会话字段。

当第一相似度未超过第二相似度时，即说明第一组合查询向量对应的查询会话即初始查询会话与第二组合查询向量对应的查询会话即紧邻的查询会话之间的意图信息未发生变化，不做处理。

在一个实施例中，依次比较所有的组合查询向量的相似度，得到各个查询会话与紧邻的查询会话之间的意图信息识别结果，并将识别结果写入信息变化记录表中保存。

在上述实施例中，使用第一组合查询向量与意图类的第一相似度和第二组合查询向量与意图类的第二相似度进行比较，得到第一组合查询向量对应的查询会话与第二组合查询向量对应的查询会话的意图变化结果，提高了检测意图变化的准确性。

在一个实施例中，如图7所示，步骤S212，即在按照预设规则将各个查询会话对应的查询向量进行组合，得到各个组合查询向量，计算各个组合查询向量与意图类的相似度，得到信息结果之后，还包括步骤：

S702，根据信息识别结果从查询日志中获取信息变化前的查询会话和信息后的查询会话。

其中，信息变化前的查询会话是指查询日志中在意图未发生变化时所有的查询会话。信息变化后的查询会话是指意图发生变化后，变化后的意图对应的所有的查询会话。比如，查询日志包括用户会话a1，用户会话a2，用户会话a3，用户会话a4和用户会话a5。该查询日志中只有用户会话a3和用户会话a4之间发生意图变化。此时，信息变化前的查询会话就包括用户会话a1，用户会话a2，用户会话a3。信息变化后的查询会话就包括用户会话a4和用户会话a5。

具体地，服务器根据信息识别结果从查询日志中获取信息变化前的查询会话和信息变化后的查询会话。比如，获取到信息变化前的查询会话包括用户会话a1，用户会话a2，用户会话a3。信息变化后的查询会话包括用户会话a4和用户会话a5。

S704，获取信息变化前的查询会话和信息变化后的查询会话中的查询时间，根据查询时间得到信息变化前的查询会话对应意图的权重和信息变化后的查询会话对应意图的权重。

具体地，获取信息前的查询会话中的查询时间和信息变化后的查询会话中的查询时间，根据查询时间的大小确定信息变化前的查询会话对应意图的权重和信息变化后的查询会话对应意图的权重。比如，信息变化前的查询会话包括用户会话a1，用户会话a2和用户会话a3，则信息变化前的查询会话对应的意图的查询时间为a1的查询时间s1加上a2的查询时间s2以及a3的查询时间s3。信息变化后的查询会话包括用户会话a4和用户会话a5，则信息变化后的查询会话对应意图的查询时间为a4的查询时间s4加上a5的查询时间s5。并且根据查询时间的大小得到对应的权重。

S706，比较信息变化前的查询会话对应意图的权重和信息变化后的查询会话对应意图的权重，根据比较结果获取对应的推荐信息，并将推荐信息推送到查询终端。

具体地，服务器比较信息变化前的查询会话对应意图的权重和信息变化后的查询会话对应意图的权重，当信息变化前的查询会话对应意图的权重大于信息变化后的查询会话对应意图的权重时，获取到信息变化前的查询会话对应意图的推荐信息，将推荐信息推送到查询终端。当信息变化前的查询会话对应意图的权重小于信息变化后的查询会话对应意图的权重时，获取到信息变化后的查询会话对应意图的推荐信息，将推荐信息推送到查询终端。

在上述实施例中，根据查询会话的查询时间来确定查询会话对应的意图权重，根据该权重大小来确定推荐信息，可使得到的推荐信息更为精准，符合用户的需求。

在一个实施例中，如图8所示，历史意图聚类结果的生成步骤包括：

S802，获取历史查询日志，根据历史查询日志中历史查询日志的查询时间和查询次数过滤历史查询日志，得到目标历史查询日志。

具体地，服务器获取到历史查询日志，根据历史查询日志中历史查询日志的查询时间，将查询时间大于预设阈值的历史查询日志删除。根据历史查询日志中历史查询日志的查询次数，将查询次数小于预设次数的历史查询日志删除，得到目标历史查询日志。

S804，提取目标历史查询日志中各个历史查询会话的历史查询特征，将历史查询特征信息数值化得到各个历史查询会话对应的历史查询向量。

具体地，服务器目标历史查询日志中各个历史查询会话的历史查询特征，该历史查询特征信息包括关键词特征信息，URL特征信息以及关键词和URL组合特征信息。并且将历史查询特征信息数值化得到各个历史查询会话对应的历史查询向量。

S806，根据历史查询向量使用层次聚类算法进行聚类，当聚类完成时，得到预设意图聚类模型。

具体地，服务器根据历史查询向量使用层次聚类算法进行聚类，当聚类完成时，得到历史意图聚类结果。其中，聚类完成是指将所有的历史查询向量都划分到预设个数的聚类类别中。

在上述实施例中，通过使用历史查询日志过滤得到目标历史查询日志，根据目标历史查询日志使用层次聚类算法进行聚类，得到历史意图聚类结果，能够预先得到历史意图聚类结果，在进行信息识别时，可以直接调用，方便快捷，提高得到信息识别结果的效率。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种信息识别装置900，包括：日志获取模块902、过滤模块904、特征提取模块906、目标向量选取模块908、意图类得到模块910和向量组合模块912，其中：

日志获取模块902，用于获取查询日志，查询日志中包括多个查询会话；

过滤模块904，用于根据查询会话的查询时间和查询次数进行过滤，得到目标查询日志；

特征提取模块906，用于从目标查询日志中提取查询特征信息，将查询特征信息数值化得到目标查询日志中各个查询会话对应的查询向量；

目标向量选取模块908，用于选取预设数量的查询会话对应的查询向量进行组合，得到目标查询向量；

意图类得到模块910，用于计算目标查询向量与历史意图聚类结果的相似度，得到目标查询向量对应的意图类；

向量组合模块912，用于按照预设规则将各个查询会话对应的查询向量进行组合，得到各个组合查询向量；

信息识别模块914，用于启动多个线程，使用所述多个线程并行计算各个组合查询向量与意图类的相似度，根据所述各个组合查询向量与所述意图类的相似度得到信息识别结果。

在一个实施例中，过滤模块904，包括：

第一日志删除模块，用于查找查询日志的查询时间大于预设时间的第一查询日志，将第一查询会话从查询日志中删除；

第二日志删除模块，用于查找查询日志的查询次数少于预设次数的第二查询日志，将第二查询日志从查询日志中删除，得到目标查询日志。

在一个实施例中，特征提取模块906，包括：

词提取模块，用于从目标查询日志各个查询会话中得到查询文本，使用词袋策略提取查询文本中的关键词，得到查询关键词特征；

分类目录得到模块，用于从目标查询日志各个查询会话中得到统一资源定位符信息，查找统一资源定位符信息对应的分类目录，得到统一资源定位符特征；

得到组合特征模块，用于将查询文本中的关键词和统一资源定位符信息对应的分类目录组合，得到组合特征；

查询特征得到模块，用于根据查询关键词特征、统一资源定位符特征和组合特征，得到查询特征，将查询特征信息数值化得到目标查询日志中各个查询会话对应的查询向量。

在一个实施例中，向量组合模块912，包括：

第一组合查询向量获取模块，获取各个查询会话中初始查询会话对应的初始查询向量，将所述初始查询向量作为第一组合查询向量；

第二组合查询向量得到模块，用于获取第一组合查询向量紧邻的查询向量，将第一组合查询向量与紧邻的查询向量组合，得到第二组合查询向量；

循环模块，用于将第二组合查询向量作为第一组合查询向量，返回获取第一组合查询向量紧邻的查询向量的步骤进行执行，直到各个查询会话对应的查询向量全被组合时，得到各个组合查询向量。

在一个实施例中，信息识别模块914，包括：

相似度获取模块，用于获取第一组合查询向量与意图类的第一相似度并获取第二组合查询向量与意图类的第二相似度；

相似度比较模块，用于将第一相似度与第二相似度进行比较，当第一相似度超过第二相似度时，得到第一组合查询向量对应的查询会话与第二组合查询向量对应的查询会话的信息已改变。

在一个实施例中，信息识别装置900，还包括：

会话获取模块，用于根据信息识别结果从查询日志中获取信息变化前的查询会话和信息变化后的查询会话；

权重计算模块，用于获取信息变化前的查询会话和信息变化后的查询会话中的查询时间，根据查询时间得到信息变化前的查询会话对应意图的权重和信息变化后的查询会话对应意图的权重；

权重比较模块，用于比较信息变化前的查询会话对应意图的权重和信息变化后的查询会话对应意图的权重，根据比较结果获取对应的推荐信息，并将推荐信息推送到查询终端。

在一个实施例中，信息识别装置900，包括：

历史日志得到模块，用于获取历史查询日志，根据历史查询日志中历史查询日志的查询时间和查询次数过滤历史查询日志，得到目标历史查询日志；

历史向量得到模块，用于提取目标历史查询日志中各个历史查询会话的历史查询特征，将历史查询特征信息数值化得到各个历史查询会话对应的历史查询向量；

聚类模块，用于根据历史查询向量使用层次聚类算法进行聚类，当聚类完成时，得到历史意图聚类结果。

关于信息识别装置的具体限定可以参见上文中对于信息识别方法的限定，在此不再赘述。上述信息识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储查询日志数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息识别方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现本申请任意一个实施例中提供的信息识别方法的步骤。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现本申请任意一个实施例中提供的信息识别方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种信息识别方法，所述方法包括：

获取查询日志，所述查询日志中包括多个查询会话；

根据所述查询日志的查询时间和查询次数过滤所述查询日志，得到目标查询日志；

从所述目标查询日志中提取查询特征，将所述查询特征数值化得到所述目标查询日志中各个查询会话对应的查询向量；

计算所述目标查询向量与历史意图聚类结果的相似度，得到所述目标查询向量对应的意图类；

按照预设规则将所述各个查询会话对应的查询向量进行组合，得到各个组合查询向量；

启动多个线程，使用所述多个线程并行计算所述各个组合查询向量与所述意图类的相似度，根据所述各个组合查询向量与所述意图类的相似度得到信息识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述查询日志的查询时间和查询次数过滤所述查询日志，得到目标查询日志，包括：

查找所述查询日志的查询时间大于预设时间的第一查询日志，将所述第一查询日志从所述查询日志中删除；

查找所述查询日志的查询次数少于预设次数的第二查询日志，将所述第二查询日志从所述查询日志中删除，得到所述目标查询日志。

3.根据权利要求1所述的方法，其特征在于，所述从所述目标查询日志中提取查询特征，将所述查询特征数值化得到所述目标查询日志中各个查询会话对应的查询向量，包括：

从所述目标查询日志各个查询会话中得到查询文本，使用词袋策略提取所述查询文本中的关键词，得到查询关键词特征；

从所述目标查询日志各个查询会话中得到统一资源定位符信息，查找所述统一资源定位符信息对应的分类目录，得到统一资源定位符特征；

将所述查询文本中的关键词和所述统一资源定位符信息对应的分类目录组合，得到组合特征；

根据所述查询关键词特征、所述统一资源定位符特征和所述组合特征，得到所述查询特征，将所述查询特征数值化得到所述目标查询日志中各个查询会话对应的查询向量。

4.根据权利要求1所述的方法，其特征在于，所述按照预设规则将所述各个查询会话对应的查询向量进行组合，得到各个组合查询向量，包括：

获取所述各个查询会话中初始查询会话对应的初始查询向量，将所述初始查询向量作为第一组合查询向量；

获取所述第一组合查询向量紧邻的查询向量，将所述第一组合查询向量与所述紧邻的查询向量组合，得到第二组合查询向量；

将所述第二组合查询向量作为第一组合查询向量，返回获取所述第一组合查询向量紧邻的查询向量的步骤进行执行，直到所述各个查询会话对应的查询向量全被组合时，得到各个组合查询向量。

5.根据权利要求1所述的方法，其特征在于，所述根据所述各个组合查询向量与所述意图类的相似度得到信息识别结果，包括：

获取第一组合查询向量与所述意图类的第一相似度并获取第二组合查询向量与所述意图类的第二相似度；

将所述第一相似度与所述第二相似度进行比较，当所述第一相似度超过所述第二相似度时，得到所述第一组合查询向量对应的查询会话与所述第二组合查询向量对应的查询会话的信息已改变。

6.根据权利要求1所述的方法，其特征在于，在所述启动多个线程，使用所述多个线程并行计算所述各个组合查询向量与所述意图类的相似度，根据所述各个组合查询向量与所述意图类的相似度得到信息识别结果之后，还包括：

根据所述信息识别结果从所述查询日志中获取信息变化前的查询会话和信息变化后的查询会话；

获取所述信息变化前的查询会话和所述信息变化后的查询会话中的查询时间，根据所述查询时间得到所述信息变化前的查询会话对应意图的权重和所述信息变化后的查询会话对应意图的权重；

比较所述信息变化前的查询会话对应意图的权重和所述信息变化后的查询会话对应意图的权重，根据比较结果获取对应的推荐信息，并将所述推荐信息推送到查询终端。

7.根据权利要求1所述的方法，其特征在于，所述历史意图聚类结果的生成步骤包括：

获取历史查询日志，根据所述历史查询日志中历史查询日志的查询时间和查询次数过滤所述历史查询日志，得到目标历史查询日志；

提取所述目标历史查询日志中各个历史查询会话的历史查询特征，将所述历史查询特征数值化得到各个历史查询会话对应的历史查询向量；

根据所述历史查询向量使用层次聚类算法进行聚类，当聚类完成时，得到所述历史意图聚类结果。

8.一种信息识别方法装置，其特征在于，所述装置包括：

日志获取模块，用于获取查询日志，所述查询日志中包括多个查询会话；

过滤模块，用于根据所述查询会话的查询时间和查询次数进行过滤，得到目标查询日志；

特征提取模块，用于从所述目标查询日志中提取查询特征，将所述查询特征数值化得到所述目标查询日志中各个查询会话对应的查询向量；

意图类得到模块，用于计算所述目标查询向量与历史意图聚类结果的相似度，得到所述目标查询向量对应的意图类；

向量组合模块，用于按照预设规则将所述各个查询会话对应的查询向量进行组合，得到各个组合查询向量；

信息识别模块，用于启动多个线程，使用所述多个线程并行计算所述各个组合查询向量与所述意图类的相似度，根据所述各个组合查询向量与所述意图类的相似度得到信息识别结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。