CN110765346A

CN110765346A - 用户意图挖掘方法、装置以及设备

Info

Publication number: CN110765346A
Application number: CN201810752626.6A
Authority: CN
Inventors: 赵教生; 欧开日
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2020-02-07
Anticipated expiration: 2038-07-10
Also published as: CN110765346B

Abstract

本公开提出了一种用户意图挖掘方法、装置以及设备。基于用户的历史行为数据，确定所述用户的历史意图信息，所述历史意图信息用于表征所述用户针对至少一个意图类别的偏好；以及基于所述历史意图信息和所述用户的实时行为数据，确定所述用户的实时意图信息，所述实时意图信息用于表征所述用户当前的意图偏好。由此，确定的实时意图信息能够更加准确地表征用户当前的意图偏好。

Description

用户意图挖掘方法、装置以及设备

技术领域

本公开涉及互联网技术领域，特别是涉及一种用户意图挖掘方法、装置以及设备。

背景技术

随着互联网的蓬勃发展，建立在互联网之上的各种应用也层出不穷。为了提高用户的应用体验，通常需要挖掘用户的意图信息，以为用户提供与其意图相匹配的服务。

以电商网站上的商品搜索场景为例，目前一般是通过用户输入的检索词(Query)来查找对象。然而实际上，单个Query所能表达的信息是非常有限的，并且用户期望查找的商品(特别是非标品类下的商品)有时甚至很难通过Query描述出来。例如，用户想要查找某种款式的连衣裙，但是即使是款式一样的连衣裙，细节部位不同，材质不同等都会成为用户最终是否感兴趣的因素。另一方面，用户有时候想要找的商品关注的兴趣点并不是一个点，而是多方面的，比如说用户偏好学院风的连衣裙，但是同时也喜欢白色长裙，而通过Query很难一次性找到学院风或者白色长款的连衣裙。在这种商品搜索场景下，如果能够挖掘用户的意图信息，并根据挖掘的意图信息，为用户提供相应的搜索服务，则会大大提升用户的搜索体验。

因此，如何准确地获取用户的意图信息，是解决问题的关键。

发明内容

本公开的一个目的在于提供一种用户意图挖掘方案，以准确地获取用户的意图。

根据本公开的第一个方面，提出了一种用户意图挖掘方法，包括：基于用户的历史行为数据，确定所述用户的历史意图信息，所述历史意图信息用于表征所述用户针对至少一个意图类别的偏好；以及基于所述历史意图信息和所述用户的实时行为数据，确定所述用户实时意图信息，所述实时意图信息用于表征所述用户当前的意图偏好。

可选地，所述确定用户的历史意图信息的步骤包括：按照意图类别对所述用户的历史行为数据进行划分；分别对对应于不同意图类别的历史行为数据进行统计，以得到每个意图类别的分值；以及依据分值排名选择第一预定数量的意图类别，作为所述用户的历史意图信息。

可选地，所述分别对对应于不同意图类别的历史行为数据进行统计的步骤包括：针对每个意图类别，从该意图类别所对应的历史行为数据中选取符合至少一种行为类型的数据；以及分别对对应于不同行为类型的数据进行统计，以得到每种行为类型的分值，所有行为类型的分值之和即为该意图类别的分值。

可选地，所述行为类型包括以下至少一项：点击；加购物车；收藏；以及购买。

可选地，每种所述行为类型具有对应的数据选取规则，所述数据选取规则包括以下一项或多项：时间选取规则；和数据量选取规则。

可选地，所述时间选取规则包括时长选取范围，所述数据量选取规则包括选取数量。

可选地，每种所述行为类型对应预设的权重，每种所述行为类型的分值等于基于对应的数据选取规则选取的数据量与预设权重的乘积。

可选地，所述确定用户当前的实时意图信息的步骤包括：在所述实时行为数据涉及的意图类别少于第一预定阈值的情况下，基于所述历史意图信息对所述意图类别进行补充，以确定所述实时意图信息；在所述实时行为数据涉及的意图类别多于第二预定阈值的情况下，基于所述历史意图信息对所述意图类别进行筛选，以确定所述实时意图信息。

可选地，所述确定用户当前的实时意图信息的步骤包括：针对所述实时行为数据涉及的至少部分第一意图类别中的每个意图类别，计算该意图类别的基础分值；计算所述历史意图信息中至少部分第二意图类别中每个意图类别的附加分值；统计所述至少部分第一意图类别和所述至少部分第二意图类别中每个意图类别的累计分值，其中，对于同时出现在所述至少部分第一意图类别和所述至少部分第二意图类别中的意图类别，其累计分值是基于基础分值与附加分值计算得到的，对于仅出现在所述至少部分第一意图类别中的意图类别，其累计分值等于基础分值，对于仅出现在所述至少部分第二意图类别中的意图类别，其累计分值等于附加分值；以及基于累计分值大小排名选择第二预定数量的意图类别，作为所述用户当前的实时意图信息。

可选地，所述计算该意图类别的基础分值的步骤包括：根据涉及该意图类别的至少部分行为数据中每条行为数据的产生时间，计算每条行为数据对于该意图类别的子分值，所述子分值的大小与所述产生时间的先后成反比，所述基础分值等于所有子分值之和。

可选地，所述计算历史意图信息中至少部分第二意图类别中每个意图类别的附加分值的步骤包括：根据所述历史意图信息中的意图类别的排名信息，计算所述历史意图信息中至少部分第二意图类别中每个意图类别的附加分值，其中，所述附加分值的大小与排名的先后成正比。

可选地，用户意图挖掘方法还包括：根据所述实时意图信息，生成适于向用户推送的信息。

可选地，所述生成适于向用户推送的信息的步骤包括：将所述实时意图信息输入预先训练好的信息生成模型，以得到所述信息。

可选地，用户意图挖掘方法还包括：响应于用户的输入，解析所述输入所包含的意图信息；从所述实时意图信息中选取与所述意图信息相匹配的意图类别；以及向所述用户推送与选取的意图类别相匹配的推荐信息。

可选地，所述向用户推送与选取的意图类别相匹配的推荐信息的步骤包括：根据物品集中的物品与所述选取的意图类别的匹配程度，选取物品推送给所述用户。

根据本公开的第二个方面，还提供了一种用户意图挖掘装置，包括：历史意图信息确定模块，用于基于用户的历史行为数据，确定所述用户的历史意图信息，所述历史意图信息用于表征所述用户针对至少一个意图类别的偏好；和实时意图信息确定模块，用于基于所述历史意图信息和所述用户的实时行为数据，确定所述用户的实时意图信息，所述实时意图信息用于表征所述用户当前的意图偏好。

可选地，所述历史意图信息确定模块包括：划分模块，用于按照意图类别对所述用户的历史行为数据进行划分；统计模块，用于分别对对应于不同意图类别的历史行为数据进行统计，以得到每个意图类别的分值；以及第一选取模块，用于依据分值排名选择第一预定数量的意图类别，作为所述用户的历史意图信息。

可选地，所述统计模块包括：数据选取模块，用于针对每个意图类别，从该意图类别所对应的历史行为数据中选取符合至少一种行为类型的数据；以及统计子模块，用于分别对对应于不同行为类型的数据进行统计，以得到每种行为类型的分值，所有行为类型的分值之和即为该意图类别的分值。

可选地，在所述实时行为数据涉及的意图类别少于第一预定阈值的情况下，实时意图信息确定模块基于所述历史意图信息对所述意图类别进行补充，以确定所述实时意图信息；在所述实时行为数据涉及的意图类别多于第二预定阈值的情况下，实时意图信息确定模块基于所述历史意图信息对所述意图类别进行筛选，以确定所述实时意图信息。

可选地，所述实时意图信息确定模块包括：基础分值计算模块，用于针对所述实时行为数据涉及的至少部分第一意图类别中的每个意图类别，计算该意图类别的基础分值；附加分值计算模块，用于计算所述历史意图信息中至少部分第二意图类别中每个意图类别的附加分值；累计分值统计模块，用于统计所述至少部分第一意图类别和所述至少部分第二意图类别中每个意图类别的累计分值，其中，对于同时出现在所述至少部分第一意图类别和所述至少部分第二意图类别中的意图类别，其累计分值是基于基础分值与附加分值计算得到的，对于仅出现在所述至少部分第一意图类别中的意图类别，其累计分值等于基础分值，对于仅出现在所述至少部分第二意图类别中的意图类别，其累计分值等于附加分值；以及筛选模块，用于基于累计分值大小排名选择第二预定数量的意图类别，作为所述用户当前的实时意图信息。

可选地，所述基础分值计算模块根据涉及该意图类别的至少部分行为数据中每条行为数据的产生时间，计算每条行为数据对于该意图类别的子分值，所述子分值的大小与所述产生时间的先后成反比，所述基础分值等于所有子分值之和。

可选地，所述附加分值计算模块根据所述历史意图信息中的意图类别的排名信息，计算所述历史意图信息中至少部分第二意图类别中每个意图类别的附加分值，其中，所述附加分值的大小与排名的先后成正比。

可选地，用户意图挖掘装置还包括：信息生成模块，用于根据所述实时意图信息，生成适于向用户推送的信息。

可选地，所述信息生成模块将所述实时意图信息输入预先训练好的信息生成模型，以得到所述信息。

可选地，用户意图挖掘装置还包括：解析模块，用于响应于用户的输入，解析所述输入所包含的意图信息；第二选取模块，用于从所述实时意图信息中选取与所述意图信息相匹配的意图类别；以及推送模块，用于向所述用户推送与选取的意图类别相匹配的推荐信息。

可选地，所述推送模块根据物品集中的物品与所述选取的意图类别的匹配程度，选取物品推送给所述用户。

根据本公开的第三个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如本公开第一个方面述及的方法。

根据本公开的第四个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如本公开第一个方面述及的方法。

本公开在确定用户的实时意图信息时，同时使用了用户的历史意图信息和实时反馈数据，历史意图信息能够表征用户过去的意图偏好，实时反馈数据能够反映用户实时的意图偏好。因此，基于本公开确定的实时意图信息能够较为准确地反映用户当前的真实意图。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是示出了根据本公开一实施例的用户意图挖掘方法的示意性流程图。

图2是示出了根据本公开一实施例的历史意图信息的获取方法的示意性流程图。

图3是示出了根据本公开一实施例的实时意图信息的获取方法的示意性流程图。

图4是示出了根据本公开一实施例的商品在线投放的工作流程示意图。

图5A至图5C示出了基于本公开实现的一种效果示意图。

图6是示出了根据本公开一实施例的用户意图挖掘装置的结构的示意性方框图。

图7是示出了历史意图信息确定模块可以具有的功能模块的结构示意图。

图8是示出了实时意图信息确定模块可以具有的功能模块的结构示意图。

图9示出了根据本本公开一实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

【方案概述】

本公开发明人注意到，根据用户的历史行为数据，可以挖掘出能够表征用户的偏好的历史意图。这种根据历史行为数据挖掘用户意图的方法，优点是可以结合大量数据，得到比较稳定的意图结果，缺点是，用户当下的意图，可能跟历史意图偏差比较大。

用户的实时行为数据(也即实时反馈数据)能够反映用户的实时意图，但是实时行为数据的产生比较依赖用户，在实时行为数据的数据量较少的情况下，实时行为数据能够反映出的意图有限。并且，实时行为数据的产生具有一定的偶然性，使得实时行为数据涉及的意图类别有时并不能反映用户当前的真实意图。

有鉴于此，本公开提出，如果能结合用户的历史行为数据和实时行为数据来抽取意图，可以使得抽取得到的意图能够较为准确地反映用户当前的真实意图。例如，在当下的实时行为数据比较少，很难准确识别用户意图的情况下，可以通过历史行为数据对用户的意图进行推断。再例如，当实时行为数据比较多，识别出来的意图比较多的时候，也可以通过历史行为数据对识别的意图进行修正(也即筛选)。

基于上述构思，本公开提出了一种结合历史行为数据和实时行为数据的用户意图挖掘方案。通过用户的历史行为数据，确定能够表征用户的偏好的历史意图信息，然后基于历史意图信息和用户的实时行为数据，来确定用户当前的意图信息，也即实时意图信息。

由于本公开在确定用户的实时意图信息时，同时使用了用户的历史意图信息和实时反馈数据，历史意图信息能够表征用户过去的意图偏好，例如历史意图信息可以表征用户长期稳定的意图偏好，实时反馈数据能够反映用户近期的意图偏好。因此，基于本公开确定的实时意图信息能够较为准确地反映用户当前的真实意图。

下面就本公开涉及的各方面做进一步说明。

【用户意图挖掘方法】

参见图1，在步骤S110，基于用户的历史行为数据，确定用户的历史意图信息。

行为数据，也即用户的操作数据。历史行为数据，也即用户的历史操作数据。可以从客户端应用日志获取用户的历史行为数据。其中，历史行为数据优选地是指用户长期的历史操作数据。

以本公开应用于电子商务场景为例，历史行为数据可以是指用户的历史购物信息，可以从用户的本地日志获取用户的历史购物信息作为历史行为数据。其中，历史行为数据可以包括点击(可以是商品详情页的点击，也即浏览)、加购物车、收藏、购买等行为数据。以本公开应用于搜索场景为例，历史行为数据可以是指用户的历史搜索信息，可以从本地搜索日志获取用户的历史行为数据。其中，历史行为数据可以包括但不限于用户输入的搜索词、用户针对搜索结果执行的点击、收藏等操作行为。另外，在本公开应用于其它互联网应用场景(如信息推荐场景)时，历史行为数据可以是指其它类型的操作数据，对此本公开不再赘述。

历史行为数据可以包含用户在过去预定时间内的历史操作数据，如可以是用户在过去预定时间内针对特定业务执行的操作数据。因此，根据用户的历史行为数据，可以挖掘出能够表征用户的偏好的历史意图信息。作为示例，历史行为数据可以包含用户在过去较长时间内的历史操作数据，因此根据历史行为数据，可以挖掘能够表征用户的长期、稳定偏好的历史意图信息。

在本公开中，历史意图信息可以表征用户针对至少一个意图类别的偏好，为了便于区分，此处述及的意图类别也可称为历史意图类别。历史意图类别可以视为用户的历史行为数据所涉及的意图类别中具有代表性的意图类别。其中，意图类别也即意图所属的类别，根据应用场景不同，意图类别的具体指代以及划分方式也不尽相同。

举例来说，在电子商务场景下，意图类别可以是指用于表征用户偏好的商品类别。具体地，可以根据商品的多种特征维度来划分意图类别，例如，可以根据商品的种类、产地、品牌、风格、原料等多种特征维度划分意图类别。以服装类商品为例，衬衫、牛仔裤、毛衣、针织衫、时尚、毛呢、加厚、修身、圆领等均可以视为不同的意图类别。

在步骤S120，基于历史意图信息和用户的实时行为数据，确定用户的实时意图信息。

实时行为数据是指用户的实时操作数据，其可以是当前或最近一段时间内用户的行为数据。因此，实时行为数据也可以称为实时反馈数据，其能够在一定程度上反映用户当前或最近一段时间内的意图信息。实时行为数据也可以从客户端应用日志获取。与历史行为数据不同的是，实时行为数据的获取较为频繁，需要每隔预定时间间隔获取一次，而历史行为数据可以是一次获取，长久使用。

实时意图信息用于表征用户的实时意图偏好。在结合历史意图信息和实时行为数据，确定实时意图信息的过程中，历史意图信息可以用于对用户的实时意图进行调整，以使得最终确定的实时意图信息能够更加准确地表征用户当前的意图偏好。

简要地说，在实时行为数据涉及的意图类别较少，例如少于第一预定阈值的情况下，可以基于历史意图信息对意图类别进行补充。在实时行为数据涉及的意图类别较多，例如多于第二预定阈值的情况下，可以基于历史意图信息对意图类别进行筛选。

下面分别就历史意图信息和实时意图信息的获取过程做进一步说明。

【历史意图信息的获取】

参见图2，在步骤S210，按照意图类别对历史行为数据进行划分。

历史行为数据可以包括多条行为数据，每条行为数据可以涉及一个或多个意图类别。可以按照每条行为数据涉及的意图类别，将历史行为数据划分为对应不同意图类别的历史行为数据。

在步骤S220，分别对对应于不同意图类别的历史行为数据进行统计，以得到每个意图类别的分值。

针对每个意图类别，根据该意图类别对应的历史行为数据，可以按照预定的计算规则计算该意图类别的分值。

作为示例，在计算每个意图类别的分值时，可以首先对该意图类别对应的历史行为数据进行统计，统计出符合预定行为类型的数据，然后根据统计的数据，进行分值计算，以得到该意图类别的分值。

也就是说，针对每个意图类别，可以从该意图类别所对应的历史行为数据中选取符合一种或多种行为类型的数据，并且分别对对应于不同行为类型的数据进行统计，以得到每种行为类型的分值，所有行为类型的分值之和，即为该意图类别的分值。

在本公开中，预定行为类型可以包括一种或多种行为类型，每种行为类型可以具有对应的数据选取规则。作为示例，此处述及的数据选取规则可以包括时间选取规则和/或数据量选取规则，时间选取规则可以包括时长选取范围，如可以是下表中的最近7天、15天等选取时长，数据量选取规则可以包括选取数量，如可以是下表中的最近5个、最近10个等截断长度。并且，每种行为类型可以对应预设的权重，每种行为类型的分值可以等于基于对应的数据选取规则选取的数据量与预设权重的乘积。

以本公开应用于电子商务领域为例，如下表所示，预定行为类型可以包括点击、加购物车、收藏以及购买这四种行为类型。并且，每种行为类型可以对应特定的选取时长、截断长度以及权重。

行为类型	选取时长/天	截断长度	权重
				点击	7	最近5个	2
加购	15	最近10个	3
				收藏	15	最近10个	3
购买	30	最近20个	10

在步骤S230，依据分值排名选择预定数量(为了便于区分，可以称为“第一预定数量”)的意图类别，作为用户的历史意图信息。由此，历史意图信息中可以包括多个具有预定排名的意图类别。

【实时意图信息的获取】

参见图3，在步骤S310，针对实时行为数据涉及的至少部分第一意图类别中的每个意图类别，计算该意图类别的基础分值。

在本实施例中，可以根据时间衰减来计算意图类别的基础分值。具体地，针对至少部分第一意图类别中的每个意图类别，可以根据涉及该意图类别的至少部分行为数据中每条行为数据的产生时间，计算每条行为数据对于该意图类别的子分值，而基础分值则可以等于所有子分值之和。其中，子分值的大小与产生时间的先后成反比，即，行为数据的产生时间越早，子分值也就越小，行为数据的产生时间越晚，子分值也就越大。

作为示例，可以通过如下公式计算子分值score_t'。

其中，α为系数，timestamp表示当前时间戳，其可以是本次获取实时意图信息时的当前时间，clktime是行为数据的产生时间，timePeriod是一个时间系数，如可以设置为180秒。

在步骤S320，计算历史意图信息中至少部分第二意图类别中每个意图类别的附加分值。

如上文所述，历史意图信息中的意图类别之间可以具有预定的排名信息。因此，针对至少部分第二意图类别中的每个意图类别，可以根据其排名信息，计算其附加分值。其中，附加分值的大小可以与排名的先后成正比。也就是说，排名越靠前的意图类别，其附加分值越大。

作为示例，可以通过如下公式计算附加分值。

其中，pos表示待计算的意图类别在所述至少部分第二意图类别中的排名位置，α为系数。

在步骤S330，统计至少部分第一意图类别和至少部分第二意图类别中每个意图类别的累计分值。

对于同时出现在所述至少部分第一意图类别和所述至少部分第二意图类别中的意图类别，其累计分值可以是基于基础分值与附加分值计算得到的，例如可以是基础分值与附加分值之和。作为示例，可以通过如下公式计算累计分值score_t”，

其中，score_t表示基础分值，

表示附加分值。

另外，对于仅出现在所述至少部分第一意图类别中的意图类别，其累计分值等于基础分值，对于仅出现在所述至少部分第二意图类别中的意图类别，其累计分值等于附加分值。

在步骤S340，基于累计分值大小排名选择第二预定数量的意图类别，作为用户当前的实时意图信息。

第二预定数量可以根据实际情况设定，例如可以设置为16。由此，在获取实时意图的过程中，同时参考了历史行为数据涉及的意图类别和实时行为数据涉及的意图类别。在实时行为数据涉及的意图类别较少，例如少于第一预定阈值的情况下，可以基于历史意图信息对用户的意图类别进行补充。并且，在实时行为数据涉及的意图类别较多，例如多于第二预定阈值的情况下，可以基于历史意图信息对意图类别进行筛选。

至此结合图1至图3就本公开的用户意图挖掘方法的实现流程做了详细说明。根据上文描述可知，本公开是基于用户的历史行为数据和实时行为数据来确定用户的实时意图信息。因此，本公开可以根据用户所产生的实时行为数据，动态地确定用户当前的实时意图信息。也就是说，可以每隔预定时间或者响应于用户的实时行为数据的更新，利用本公开重新获取用户当前的实时意图信息。

【应用场景】

本公开的用户意图挖掘方案可以应用于多种业务场景，如信息搜索、推荐等业务场景。在利用本公开得到用户的实时意图信息后，可以基于具体的业务场景，为用户提供与实时意图信息相匹配的服务。

应用场景一

可以根据实时意图信息，生成适于向用户推送的信息，其中生成的信息可以以文本的形式推送给用户，也可以以语音的形式推送给用户，对此本公开不做限定。例如，此处述及的信息可以视为实时意图信息中所包括的多个意图类别的文本化结果。另外，根据具体应用场景不同，最终生成的信息的内容以及用途也不尽相同。

以本公开应用于搜索场景为例，由于实时意图信息可以包括多个能够表征用户当前意图的意图类别。因此，根据实时意图信息生成的信息可以作为搜索语句，直接显示在搜索框内，或者显示在搜索框的下拉菜单栏内，展示给用户，以便于用户直接点击所显示的搜索语句进行搜索，而无需再输入搜索词。并且，所展示的搜索语句可以满足用户的多个搜索意图，大大提高用户的搜索体验。

另外，以本公开应用于信息推荐场景为例，根据实时意图信息生成的信息还可以作为标题文案，展示给用户。以应用于商品推荐场景为例，当实时意图信息包括毛衣、针织衫、加绒、保暖、冬季、高领、加厚、男性等意图类别时，所生成的标题文案可以是“高领毛衣穿出暖男气质”，并且该标题文案可以对应一个商品链接，如此，所挖掘的实时意图信息可以通过标题文案的形式展示给用户，用户通过点击标题文案，可以查看相应的商品，提升用户的购物体验。

作为本公开的一个示例，可以将实时意图信息输入预先训练好的信息生成模型，以得到信息。其中，信息生成模型可以是多种结构的预测模型，对此本公开不做限定。

可选地，信息生成模型可以采用seq2seq模型，模型的总体思路是计算求解以下公式：

其中，x₁,...,x_T代表输入的实时意图信息，y₁,...,y_T代表输出的标题文案，y_t代表当前输出词。根据上述公式可知，输出的y_t不仅依赖之前的输出y₁,...,y_t-1，还依赖输入语句x。关于seq2seq模型属于现有成熟技术，对此本公开不再赘述。

需要说明的是，本公开针对业务场景做了一些优化。这里简单介绍一下样本的构造过程。

在利用清单数据来构造样本的过程中，可以首先用出现频次最高的60个意图类别来表示清单，这样的样本假设有100W。另外，因为实际场景中，输入的意图类别的长度是不定的，使得训练得到的信息生成模型能够对不同长度的意图类别输入都能得到鲁棒的生成结果，因此还需要构造一部分样本来适应不同长度的意图类别输入。本公开的做法是，对这100W样本，根据意图类别输入的长度随机按照(0.3,0.7)采样，这样可以产生100W的新的样本，在这200W样本中，输入的意图类别的平均个数发生变化，如可以是25。然后意图类别作为输入，信息内容(例如清单标题)作为输出来训练信息生成模型。具体训练过程，此处不再赘述。

应用场景二

可以根据实时意图信息，向用户推送与实时意图相匹配的推荐信息。其中，向用户推荐信息的时机可以是响应于用户的输入而推送，也可以是主动向用户推送。

以响应于用户的输入而向用户推送信息为例，用户单次的输入能够表达的信息有限，如果仅根据用户的输入向用户推送信息，推送的信息有时不能准确地反映用户的需求。

而利用本公开的用户意图挖掘方案获取的实时意图信息可以包括多个能够表征用户当前意图的意图类别。因此，响应于用户的输入，可以结合实时意图信息，进一步确定用户的精准意图，并向用户推送与确定的意图相匹配的信息。

例如，可以响应于用户的输入，解析输入所包含的意图信息，然后从实时意图信息中选取与意图信息相匹配的意图类别，并向用户推送与选取的意图类别相匹配的推荐信息。以所推荐的信息为物品(如商品)为例，可以根据物品集中的物品与所选取的意图类别的匹配程度，选取物品推送给用户，如可以选取匹配程度排名靠前的物品推送给用户。

需要说明的是，本公开还可以应用于其它多种应用场景，对此本公开不再赘述。

【应用例】

下面以电商网站中的商品推荐场景为例，对本公开的实现及应用进行说明。

在本实施例中，用户的历史行为数据可以是用户针对商品的历史操作数据，可以包括点击、加购物车、收藏、购买等行为类型的操作数据。历史行为数据可以由多条行为数据构成，并且每条行为数据所涉及的意图类别，可以由该条行为数据所针对的商品所涉及意图类别确定。例如，对于一条用户点击某一商品的行为数据来说，可以对商品的短标题或者标题进行分词，去除无用的和高频无意义的分词，剩下的分词作为商品所包含的意图类别，也即该条行为数据所涉及的意图类别。

对于历史行为数据，可以按照叶子类目进行划分。其中，叶子类目是根据商品的属性类别设定的，可以是指商品的最小类目。以男装类商品为例，牛仔裤、休闲裤、T恤、羽绒服、衬衫等可以视为是不同的叶子类目。

对于每个叶子类目，可以选取点击、加购物车、收藏、购买这四种行为类型的数据，并且每种行为类型可以对应预设的选取时间窗口和权重。可以按照预定的选取时间窗口和权重，对每个叶子类目下的意图类别的分值进行计算，并选取分值最大的预定数量(例如20个)的意图类别作为用户的历史意图信息。

可以从实时流日志获取用户的实时行为数据，例如可以从TT日志获取用户实时的反馈流数据，以得到实时行为数据。可以选取用户当天的点击日志作为实时行为数据。对于实时行为数据，同样可以按照叶子类目进行划分，每个叶子类目可以保存最近10个实时点击商品，采用之后，可以累计3个行为之后，触发实时意图信息计算，或者是间隔预定时间(例如3分钟)后触发实时意图信息计算，或者是增量点击商品采样后大于或等于2个，触发实时意图信息计算。关于实时意图信息计算的触发时机，本公开不做限定。需要说明的是，在大促期间，例如双十一购物节期间，采样率可以设置为0.5。

在本实施例中，实时意图信息的计算主要采用了MRU(Most Recently Used，最近最多使用)和MFU(Most Frequently Used，最常使用)的算法。具体做法如下。

1)对于实时行为数据中的每条实时行为数据涉及的商品，取出该商品对应的标题分词，以确定商品(也即该条实时行为数据)的意图类别，对每个意图类别，根据时间衰减算出一个基础分数score_t。

2)如果该意图类别出现在历史意图信息中，取出该意图类别在历史意图信息中的排名位置pos(越靠前的tag权重越大)，更新该tag的分数为

3)重复步骤1、步骤2的过程，计算实时行为数据涉及的每个意图类别的累积分数

4)对于历史意图信息中没有出现在实时行为数据中的剩余意图类别，每个意图类别对应的分数为

5)筛选分数最高的N(例如16)个意图类别作为用户的实时意图类别集合，以得到实时意图信息。

在本公开中，历史意图信息的获取可以离线生成。实时意图信息的获取可以根据实时计算，作为示例，实时意图信息的获取过程可以布置在一实时计算平台上，以根据不断更新的实时行为数据，计算用户的实时意图信息。以下是基于本公开计算得到的意图信息的示例。

recent_tag：代购、围巾、日本、刺绣、18SS、休闲、logo、ELECTED、微弹、正品、教练、直邮、字母、外套。

nidt_list 545097538438：日本、代购、直邮、正品、champion、字母、限定款、教练、棉衣、棒球、夹克、外套。

result_tags：夹克、代购、日本、棒球、champion、限定款、棒球服、正品、教练、直邮、字母、外套、订购、大标、男士。

title：飞行员夹克，一秒变身街头潮男。

其中，recent_tag为根据历史行为数据确定的历史意图信息，nidt_list为用户实时点击的商品列表，result_tags是计算得到的最终的实时意图信息，title是根据实时意图信息生成的标题文案。

参见图4，在线投放系统主要包括实时计算平台、iGraph表、检索词解析和处理平台(QP，Query Plan)以及引擎。

实时计算平台主要用于计算实时意图信息以及根据实时意图信息生成意图标题。其中，实时计算平台可以是基于Flink搭建的流数据实时计算平台，如可以是Porsche实时计算平台。关于实时意图信息和意图标题的生成过程可以参见上文相关描述，此处不再赘述。实时计算平台计算得到的实时意图信息和意图标题可以作为用户的意图数据存放在iGraph表中。

iGraph是在线图存储和查询服务平台，iGraph表中的意图数据可以以kkv的形式进行存储，第一个key存的是用户id，第二个key存的是叶子类目id。

检索词解析和处理平台可以获取用户的检索词(query)，根据用户id和query从iGraph表中取到跟这个query相关的意图类别和意图标题。

具体地，检索词解析和处理平台可以首先取到用户id(也即userid)，然后取到用户输入的query，根据query预测对应的叶子类目cate_id，这里预测出来的叶子类目可以是多个。

检索词解析和处理平台在从iGraph表中取到对应的意图数据时，需要根据userid+cate_id进行iGraph查询，如果query/user解析过程中，根据query预测出来的叶子类目是多个，就会有多个iGraph查询query，每个叶子类目对应一个意图数据。

取到意图数据之后，检索词解析和处理平台可以根据其包括的意图类别拼接召回条件，对于上文示出的意图信息计算结果示例，当用户搜索夹克男的时候，生成的召回条件为：“夹克男AND(夹克|代购|日本|棒球|champion|限定款|正品|教练|棒球服|直邮|字母|棉衣|外套|订购|大标|男士)。

可见，生成的召回条件的实际效果等同于用多个意图类别同时去召回，因为这些意图类别可能都是用户感兴趣的。最后，引擎可以基于生成的召回条件，以及商品所包含的意图信息，选取与召回条件匹配度最高的商品。具体来说，引擎在根据召回条件召回商品过程中，可以为召回条件中不同的意图类别赋予预定的权重，并且对召回的商品与召回条件中的意图类别的匹配程度进行计算，以便根据匹配程度进行打分，从而对召回的商品进行排序。

图5A至图5C示出了基于本公开实现的一种效果示意图。

图5A是向用户推送的主题封面。如图5A所示，在用户搜索“T恤”时，可以根据计算得到的“T恤”类目下的实时意图信息，得到商品召回集合，并展示给用户。并且，同时可以根据实时意图信息生成标题文案，并将标题文案与商品一同展示给用户。

图5B是与标题文案对应的主题承接页。如图5B所示，该页面中的商品可以是根据标题文案召回的。如图5C所示，用户可以通过点击商品，跳转到具体的商品详情页。

当用户在“T恤”这个类目下再次有点击、购买、加购物车等操作行为之后，可以触发实时意图信息的重新计算，此后当用户下次输入“T恤”相关的搜索词时，为用户推送的商品以及标题文案也会相应地发生变化。

【用户意图挖掘装置】

图6是示出了根据本公开一实施例的用户意图挖掘装置的结构的示意性方框图。其中，用户意图挖掘装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图6所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就用户意图挖掘装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文结合图1至图4的描述，这里不再赘述。

参见图6，用户意图挖掘装置600包括历史意图信息确定模块610和实时意图信息确定模块620。

历史意图信息确定模块610用于基于用户的历史行为数据，确定用户的历史意图信息，历史意图信息用于表征用户针对至少一个意图类别的偏好。

实时意图信息确定模块620用于基于历史意图信息和用户的实时行为数据，确定用户的实时意图信息，实时意图信息用于表征用户当前的意图偏好。

如图7所示，历史意图信息确定模块610可以包括划分模块611、统计模块613以及第一选取模块615。

划分模块611用于按照意图类别对用户的历史行为数据进行划分。统计模块613用于分别对对应于不同意图类别的历史行为数据进行统计，以得到每个意图类别的分值。第一选取模块615用于依据分值排名选择第一预定数量的意图类别，作为用户的历史意图信息。

如图7所示，统计模块613可以可选地包括数据选取模块6131和统计子模块6133。

数据选取模块6131用于针对每个意图类别，从该意图类别所对应的历史行为数据中选取符合至少一种行为类型的数据。所述行为类型包括以下至少一项：点击；加购物车；收藏；以及购买。并且，每种行为类型可以具有对应的数据选取规则，数据选取规则可以包括时间选取规则和/或数据量选取规则。作为示例，时间选取规则可以包括时长选取范围，数据量选取规则可以包括选取数量。统计子模块6133用于分别对对应于不同行为类型的数据进行统计，以得到每种行为类型的分值，所有行为类型的分值之和即为该意图类别的分值。每种行为类型可以对应预设的权重，每种行为类型的分值可以等于基于对应的数据选取规则选取的数据量与预设权重的乘积。

在本公开中，在实时行为数据涉及的意图类别少于第一预定阈值的情况下，实时意图信息确定模块620可以基于历史意图信息对意图类别进行补充，以确定实时意图信息。并且，在实时行为数据涉及的意图类别多于第二预定阈值的情况下，实时意图信息确定模块620可以基于历史意图信息对意图类别进行筛选，以确定实时意图信息。

如图8所示，实时意图信息确定模块620可以包括基础分值计算模块621、附加分值计算模块623、累计分值提供及模块625以及筛选模块627。

基础分值计算模块621用于针对所述实时行为数据涉及的至少部分第一意图类别中的每个意图类别，计算该意图类别的基础分值。作为示例，基础分值计算模块621可以根据涉及该意图类别的至少部分行为数据中每条行为数据的产生时间，计算每条行为数据对于该意图类别的子分值，所述子分值的大小与所述产生时间的先后成反比，所述基础分值等于所有子分值之和。

附加分值计算模块623用于计算所述历史意图信息中至少部分第二意图类别中每个意图类别的附加分值。作为示例，附加分值计算模块623可以根据所述历史意图信息中的意图类别的排名信息，计算所述历史意图信息中至少部分第二意图类别中每个意图类别的附加分值，其中，所述附加分值的大小与排名的先后成正比。

累计分值统计模块625用于统计所述至少部分第一意图类别和所述至少部分第二意图类别中每个意图类别的累计分值，其中，对于同时出现在所述至少部分第一意图类别和所述至少部分第二意图类别中的意图类别，其累计分值是基于基础分值与附加分值计算得到的，对于仅出现在所述至少部分第一意图类别中的意图类别，其累计分值等于基础分值，对于仅出现在所述至少部分第二意图类别中的意图类别，其累计分值等于附加分值。

筛选模块627用于基于累计分值大小排名选择第二预定数量的意图类别，作为所述用户当前的实时意图信息。

作为本公开的一个示例，用户意图挖掘装置还600还可以可选地包括信息生成模块(图中未示出)。信息生成模块可以根据实时意图信息，生成适于向用户推送的信息。其中，信息生成模块可以通过将实时意图信息输入预先训练好的信息生成模型，得到适于向用户推送的信息。

作为本公开的一个示例，用户意图挖掘装置还600还可以可选地包括解析模块、第二选取模块以及推送模块。

解析模块用于响应于用户的输入，解析输入所包含的意图信息；第二选取模块用于从实时意图信息中选取与意图信息相匹配的意图类别。推送模块用于向用户推送与选取的意图类别相匹配的推荐信息。在应用于物品推荐场景时，推送模块可以根据物品集中的物品与选取的意图类别的匹配程度，选取物品推送给用户，如可以选取匹配程度排名靠前的物品推送给用户。

图9示出了根据本发明一实施例可用于实现上述用户意图挖掘方法的数据处理的计算设备的结构示意图。

参见图9，计算设备900包括存储器910和处理器920。

处理器920可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器920可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器920可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器910可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器920或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器910可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器910可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器910上存储有可执行代码，当可执行代码被处理器920执行时，可以使处理器920执行上文述及的用户意图挖掘方法。

上文中已经参考附图详细描述了根据本公开的用户意图挖掘方法、装置以及计算设备。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用户意图挖掘方法，其特征在于，包括：

基于用户的历史行为数据，确定所述用户的历史意图信息，所述历史意图信息用于表征所述用户针对至少一个意图类别的偏好；以及

基于所述历史意图信息和所述用户的实时行为数据，确定所述用户的实时意图信息，所述实时意图信息用于表征所述用户当前的意图偏好。

2.根据权利要求1所述的用户意图挖掘方法，其特征在于，所述确定用户的历史意图信息的步骤包括：

按照意图类别对所述用户的历史行为数据进行划分；

分别对对应于不同意图类别的历史行为数据进行统计，以得到每个意图类别的分值；以及

依据分值排名选择第一预定数量的意图类别，作为所述用户的历史意图信息。

3.根据权利要求2所述的用户意图挖掘方法，其特征在于，所述分别对对应于不同意图类别的历史行为数据进行统计的步骤包括：

针对每个意图类别，从该意图类别所对应的历史行为数据中选取符合至少一种行为类型的数据；以及

分别对对应于不同行为类型的数据进行统计，以得到每种行为类型的分值，所有行为类型的分值之和即为该意图类别的分值。

4.根据权利要求3所述的用户意图挖掘方法，其特征在于，所述行为类型包括以下至少一项：

点击；

加购物车；

收藏；以及

购买。

5.根据权利要求3或4所述的用户意图挖掘方法，其特征在于，

每种所述行为类型具有对应的数据选取规则，所述数据选取规则包括以下一项或多项：

时间选取规则；和

数据量选取规则。

6.根据权利要求5所述的用户意图挖掘方法，其特征在于，

所述时间选取规则包括时长选取范围，

所述数据量选取规则包括选取数量。

7.根据权利要求5所述的用户意图挖掘方法，其特征在于，

每种所述行为类型对应预设的权重，

每种所述行为类型的分值等于基于对应的数据选取规则选取的数据量与预设权重的乘积。

8.根据权利要求1所述的用户意图挖掘方法，其特征在于，所述确定用户当前的实时意图信息的步骤包括：

在所述实时行为数据涉及的意图类别少于第一预定阈值的情况下，基于所述历史意图信息对所述意图类别进行补充，以确定所述实时意图信息；

在所述实时行为数据涉及的意图类别多于第二预定阈值的情况下，基于所述历史意图信息对所述意图类别进行筛选，以确定所述实时意图信息。

9.根据权利要求1所述的用户意图挖掘方法，其特征在于，所述确定用户当前的实时意图信息的步骤包括：

针对所述实时行为数据涉及的至少部分第一意图类别中的每个意图类别，计算该意图类别的基础分值；

计算所述历史意图信息中至少部分第二意图类别中每个意图类别的附加分值；

统计所述至少部分第一意图类别和所述至少部分第二意图类别中每个意图类别的累计分值，其中，对于同时出现在所述至少部分第一意图类别和所述至少部分第二意图类别中的意图类别，其累计分值是基于基础分值与附加分值计算得到的，对于仅出现在所述至少部分第一意图类别中的意图类别，其累计分值等于基础分值，对于仅出现在所述至少部分第二意图类别中的意图类别，其累计分值等于附加分值；以及

基于累计分值大小排名选择第二预定数量的意图类别，作为所述用户当前的实时意图信息。

10.根据权利要求9所述的用户意图挖掘方法，其特征在于，所述计算该意图类别的基础分值的步骤包括：

根据涉及该意图类别的至少部分行为数据中每条行为数据的产生时间，计算每条行为数据对于该意图类别的子分值，所述子分值的大小与所述产生时间的先后成反比，所述基础分值等于所有子分值之和。

11.根据权利要求9所述的用户意图挖掘方法，其特征在于，所述计算历史意图信息中至少部分第二意图类别中每个意图类别的附加分值的步骤包括：

根据所述历史意图信息中的意图类别的排名信息，计算所述历史意图信息中至少部分第二意图类别中每个意图类别的附加分值，其中，所述附加分值的大小与排名的先后成正比。

12.根据权利要求1所述的用户意图挖掘方法，其特征在于，还包括：

根据所述实时意图信息，生成适于向用户推送的信息。

13.根据权利要求12所述的用户意图挖掘方法，其特征在于，所述生成适于向用户推送的信息的步骤包括：

将所述实时意图信息输入预先训练好的信息生成模型，以得到所述信息。

14.根据权利要求1所述的用户意图挖掘方法，其特征在于，还包括：

响应于用户的输入，解析所述输入所包含的意图信息；

从所述实时意图信息中选取与所述意图信息相匹配的意图类别；以及

向所述用户推送与选取的意图类别相匹配的推荐信息。

15.根据权利要求14所述的用户意图挖掘方法，其特征在于，所述向用户推送与选取的意图类别相匹配的推荐信息的步骤包括：

根据物品集中的物品与所述选取的意图类别的匹配程度，选取物品推送给所述用户。

16.一种用户意图挖掘装置，其特征在于，包括：

历史意图信息确定模块，用于基于用户的历史行为数据，确定所述用户的历史意图信息，所述历史意图信息用于表征所述用户针对至少一个意图类别的偏好；和

实时意图信息确定模块，用于基于所述历史意图信息和所述用户的实时行为数据，确定所述用户的实时意图信息，所述实时意图信息用于表征所述用户当前的意图偏好。

17.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-15中任何一项所述的方法。