CN111159348B

CN111159348B - 基于实体检索词的用户行为意图挖掘方法

Info

Publication number: CN111159348B
Application number: CN201911395464.6A
Authority: CN
Inventors: 丁俊; 王勇; 石佳; 戴岳; 郭锐; 谭文韬; 周佳威; 周震海; 钮佳伟; 陆超; 唐智敏; 崔鲁; 周仰东
Original assignee: Suzhou Electric Power Design Research Institute Co ltd
Current assignee: Suzhou Electric Power Design Research Institute Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-10-20
Anticipated expiration: 2039-12-30
Also published as: CN111159348A

Abstract

本发明涉及一种基于实体检索词的用户行为意图挖掘方法，用于根据用户提供的实体检索词分析挖掘用户的行为意图并得到用户的潜在行为列表，基于实体检索词的用户行为意图挖掘方法包括以下步骤：步骤1：基于实体检索词，通过多渠道获得与实体检索词相关的若干行为文本并将行为文本作为行为样本来构建行为样本池，行文文本由动词和动词的修饰短语构成；步骤2：分析行为样本池中行为样本的特征；基于行为样本的特征，通过迭代得到若干行为样本排序构成的用户的潜在行为列表。本发明能够基于用户提供的实体检索词对用户行为意图进行挖掘，可以更好的满足用户对于检索精准度的要求和对检索词相关内容扩展的需求。

Description

基于实体检索词的用户行为意图挖掘方法

技术领域

本发明涉及信息检索领域，具体涉及一种用于分析用户行为意图的基于实体检索词的用户行为意图挖掘方法。

背景技术

根据先前研究表明，与用户意图相比用户的检索通常与更加具体的潜在行为紧密关联。由于实体名词或以实体名词为核心构成的检索短语在用户的提交检索数据中占据绝大多数，这些实体名词可成为的用户行为意图的主要信息来源。如何利用这些实体检索词分析挖掘用户的行为意图是信息检索领域需要解决的技术问题。

发明内容

本发明的目的是提供一种能够根据用户提供的实体检索词分析挖掘用户的行为意图的方法。

为达到上述目的，本发明采用的技术方案是：

一种基于实体检索词的用户行为意图挖掘方法，用于根据用户提供的实体检索词分析挖掘用户的行为意图并得到用户的潜在行为列表，所述基于实体检索词的用户行为意图挖掘方法包括以下步骤：

步骤1：基于所述实体检索词，通过多渠道获得与所述实体检索词相关的若干行为文本并将所述行为文本作为行为样本来构建行为样本池，所述行文文本由动词和动词的修饰短语构成；

步骤2：分析所述行为样本池中所述行为样本的特征；基于所述行为样本的特征，通过迭代得到若干所述行为样本排序构成的所述用户的潜在行为列表。

所述步骤1中，通过个人社交网络上的推文和/或检索引擎检索得到的文本获得若干所述行为文本。

通过所述个人社交网络上的推文获得所述行为文本的方法包括基于历史推文检索获得所述行为文本、基于随机推文检索获得所述行为文本和基于与所述实体检索词相关的个人社交网络用户的推文检索获得所述行为文本。

所述步骤2中，所述行为样本的特征包括显著性、代表性和多样性；所述显著性表征所述行为样本在所述行为样本池中的使用频率和用例频率，所述代表性表征所述行为样本池中所述行为样本所处空间的行为样本密度，所述多样性表征所述行为样本与其他所述行为样本之间的差异度，分别分析所述行为文本的动词和动词的修饰短语的特征。

所述行为样本中动词的显著性为所述行为样本的使用频率和用例频率的比值。

所述行为样本中动词的使用频率为所述行为样本中动词的使用频次与全部所述行为样本中动词的使用总频次的比率；所述行为样本中动词的用例频率为行为样本中动词的用例数与全部所述行为样本中动词的总用例数的比率的对数。

所述行为样本中动词的代表性为所述行为样本中动词和其他所述行为样本中动词在多维语义空间中的余弦相似度之和与归一化参数的比值。

所述行为样本中动词的多样性为所述行为样本中动词与迭代过程中已选择的行为样本的动词在语义空间中的最短距离。

所述行为样本中动词的修饰短语的代表性为所述行为样本中动词的修饰短语和其他所述行为样本中动词的修饰短语在多维语义空间中的余弦相似度的平均值。

所述行为样本中动词的修饰短语的多样性为所述行为样本中动词的修饰短语与迭代过程中已选择的行为样本的动词的修饰短语在语义空间中的最短距离。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：本发明能够基于用户提供的实体检索词对用户行为意图进行挖掘，可以更好的满足用户对于检索精准度的要求和对检索词相关内容扩展的需求。

具体实施方式

下面结合实施例对本发明作进一步描述。

实施例一：一种基于实体检索词的用户行为意图挖掘方法，用于根据用户提供的实体检索词分析挖掘用户的行为意图并得到用户的潜在行为列表，该基于实体检索词的用户行为意图挖掘方法包括以下步骤：

步骤1：基于实体检索词，通过多渠道获得与实体检索词相关的若干行为文本并将行为文本作为行为样本来构建行为样本池，行文文本由动词和动词的修饰短语构成。

步骤2：分析行为样本池中行为样本的特征；基于行为样本的特征，通过迭代得到若干行为样本排序构成的用户的潜在行为列表。

行为意图挖掘的问题可以定义为以下的形式：给定一个查询实体E对应的实体检索词e，意图挖掘算法需要为提交查询的用户生成一个后序可能动作的排序列表A。如果实体检索词e是现实中存在事物的文本表示，则查询实体定义为在搜索查询中提交的实体。例如：木吉他是一种乐器的类型，安哥拉是位于非洲南部的一个国家，这些实体词被收集到行为意图挖掘实体数据集NTCIR-13中，同时也会被关联到特定的搜索用户意图中。

行为意图是对给定的实体检索词e，其行为意图列表是一个按照可能行为的排序表A，A＝(a1,a2,…)。A包含了能够指导用户的意图搜索行为和查询实体词e之间的潜在信息，意图行为a由一个动词verb和一个动词的修饰短语o组成，被表示为a＝(a,o)，这里动词表示为当前行为意图，动词的修饰短语表示行为意图的变化轨迹。

对一个实体检索词e对应的动作样本池D，它是基于网络文本的上下文关联性或者整体文章的相关性原则，组合成了一个大量可能行为的排序列表。对于一个搜索实体的候选可能行为，查询实体e的候选可能行为a是从各种在线搜索结果中提取出来的，并将搜索结果合并到一个行为池D中。根据上述定义中上下文关联的约束要求，一个行为a要和搜索实体e出现在同一个句子内的先决条件，同时还要满足这个行为是出现在基于实体主题e的网络文本中。

步骤1中行为样本池的构建是要为查询实体e构建一个行为池D。可以使用基于多种外部资源的搜索策略，例如通过个人社交网络(例如推特网络)上的推文和/或检索引擎检索得到的文本获得若干行为文本。

个人社交网络上拥有大量的活跃用户，同时实时更新和汇聚大量的信息，所以第一个被考虑的外部资源是社交网络服务。

通过个人社交网络上的推文获得行为文本的方法，提出三种方案，包括基于历史推文检索获得行为文本、基于随机推文检索获得行为文本和基于与实体检索词相关的个人社交网络用户的推文检索获得行为文本三种。

第一种是历史推文检索策略：利用个人社交网络的搜索(API)对检索实体e进行历史推文的检索，得到与实体e相关联的若干页推文，实体e作为这些推文中的一个关键词，与推文的上下文内容有非常紧密关联。

第二种是随机推文检索策略：利用实时推文检索应用，通过对所获得推文的统计和分析，实体e可以以不同的方式出现在推文中，同时伴有大量的干扰词语。这种现象出现的原因很有可能是因为没有一个对个人社交网络用户进行评估的方法，从而使大量广告推广账号的推文被检索到，这些干扰推文的内容和实体e不具备上下文关联。例如推文“和外教一起旅游，让外语学习更得心应手。”这里希望关联的词语是外语学习，但整句却是一个旅游的广告为一个干扰推文。

为了解决这个问题，提出第三种基于用户的检索策略。利用作者搜索引擎，去搜寻和实体e最有关联的若干名作者，然后利用时间约束条件去找到这些作者最新发布的推文，得到的推文在内容可能不含有实体e，但作者的兴趣和关注点和实体e有很密切的联系。例如，推文“有人发表一些好玩的英语句子吗”来至于一位外语学习爱好者，很显然句子和外语学习实体有相关性。挖掘实体的行为样本需要一个整体观的视角去对待。

还可以基于搜索引擎(例如谷歌)，利用互联网作为外部拓展的行为样本来源。与个人社交网络的推文相比，互联网检索到的内容更全面，同时局部内容和实体e之间的的相关性也更高。通过搜索引擎检索到的行为样本很少会关联到内容的作者本身，会反馈一些搜索建议和对检索内容的作者介绍。

通过上述方法，就可以构建出包含若干样本来的行为样本池。接下来对行为样本池中的各个行为样本进行分析，来获得行为样本的特征，进而基于它们的特征进行迭代排序，最终得到用户的潜在行为列表。

该步骤中，行为样本的特征包括显著性、代表性和多样性。显著性表征行为样本在行为样本池中的使用频率和用例频率。代表性表征行为样本池中行为样本所处空间的行为样本密度。多样性表征行为样本与其他行为样本之间的差异度。分别分析行为文本的动词和动词的修饰短语的特征。

可能行为动词选择是针对于一个查询实体e，生成一个行为意图的排序列表A，通过它可以从一个行为样本池中迭代地选择出最有可能的行为样本。本文的挖掘方法对单独的行为样本池或组合的行为样本池都是通用的，行为a＝(v,o)由两部分组成，即动词部分v，它表示行为，O表示修改部分，指示行为的变化方向和轨迹，因此本文的行为挖掘算法由两个部分组成，即生成一个与行为相关联的动词排序列表V和为动词排序列表中的每一个动词而生成的可修改排序列表O。因此一个行为意图可以被这两部分表示为A＝(V，O)。

为了给当前的实体词e生成一个行为动词排序列表V，行为挖掘方法首先将实体词e的行为池D中的所有候选动词导入到一个动词集U中，然后以迭代挖掘的方式将U中最有可能的动词样本V提取出来，每个动词样本v都按照代表性，重要性和多样性的三个标准进行迭代挖掘，最终得到目标行为动词V’。每种挖掘标准都通过一个具体的分数来衡量。在大量评价行为动词的标准中，上述三种标准的评分数值被认为是迭代挖掘算法中最具有合理性的评价方法。

行为样本中动词的显著性为行为样本的使用频率μ(v)和用例频率σ(v)的比值，即：

行为样本中动词的使用频率μ(v)为行为样本中动词的使用频次与全部行为样本中动词的使用总频次的比率，即

μ(v)＝c(v)/∑_v'∈V(D)c(v')

行为样本中动词的用例频率σ(v)为行为样本中动词的用例数与全部行为样本中动词的总用例数的比率的对数，即：

σ(v)＝log|D(v)|/|D|

动词在行为样本池中的使用频率越高表示其代表的行为在潜在的用户行为列表中越常出现，而动词在样本池中的用例频率越低则表示其代表的行为更具独特性。因此，本方法利用显著性指标，通过衡量动词和使用频率和用例频率，可以从样本池中选取出用户常用且有特定含义的行为动词。

行为样本中动词的代表性φ(v)为行为样本中动词和其他行为样本中动词在多维语义空间中的余弦相似度之和与归一化参数的比值，即：

φ(v)＝∑_v'∈V(D)ε(v,v')/|V(D)|

其中，ε(v,v')表示目标行为动词v与样本池中任意行为动词v'在多维语义空间s中的余弦相似度：

i是语义空间的维度下标，|V(D)|是代表性指标的归一化参数。

动词在行为样本池所代表的语义空间中有更多与之相近的其他动词，即其所在区域的密集度更高，则表示该动词的包含的语义信息具有更高的适用程度，而从另一层面表示该动词属于异常样本的概率更低。在行为意图挖掘的方案中，选取适用度更高的动词而避免异常样本是提高结果有效性的重要方法。

行为样本中动词的多样性ψ(v)为行为样本中动词与迭代过程中已选择的行为样本的动词在语义空间中的最短距离，即：

ψ(v)＝min_v'∈V(A)-ε(v,v')

V(A)表示在迭代过程已经选择的动词集合，-ε(v,v')表示目标行为动词v与已选动词v'在语义空间中的距离。迭代初始V(A)为空，所有行为动词的多样性指标均为0.0。

目标行为动词与已选动词集合中任何一个的距离足够大，即如上的最短距离足够大，则表示该动词包含的语义与已选动词的语义重叠程度更低，从而避免迭代过程中选取含义相近的动词，提高结果的丰富程度。

在选取行为动词结果的基础上，提案方法从样本池中为每个行为动词提取满足代表性和多样性指标的动词的修饰短语。具体的说，对于已选行为动词v，动词的修饰短语(目标短语)o的代表性φ(o)为行为样本中动词的修饰短语和其他行为样本中动词的修饰短语在多维语义空间中的余弦相似度的平均值，即：

φ(o)＝∑_o'∈O(D,v)ε(o,o')/|O(D,v)|

其中ε(o,o')表示目标修饰短语与样本池中其他修饰短语o'在多维语义空间中的余弦相似度，短语的语义向量由组成单词的语义向量之和表示，|O(D,v)|是代表性指标的归一化参数。

行为样本中动词的修饰短语的多样性ψ(o)为行为样本中动词的修饰短语与迭代过程中已选择的行为样本的动词的修饰短语在语义空间中的最短距离，即

ψ(o)＝min_o'∈O(A,v)-ε(o,o')

O(A,v)表示在迭代过程中已经选择的动词修饰短语集合，-ε(o,o')表示目标短语o与已选修饰短语o'在语义空间中的距离。迭代初始O(A,v)为空，所有修饰短语的多样性指标均为0.0。

以上方法，通过迭代从样本池中选取三项指标(显著性、代表性、多样性)之和最大的样本，并将其移至已选行为列表末尾，最终生成代表用户潜在行为意图的排序。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于实体检索词的用户行为意图挖掘方法，用于根据用户提供的实体检索词分析挖掘用户的行为意图并得到用户的潜在行为列表，其特征在于：所述基于实体检索词的用户行为意图挖掘方法包括以下步骤：

步骤1：基于所述实体检索词，通过多渠道获得与所述实体检索词相关的若干行为文本并将所述行为文本作为行为样本来构建行为样本池，所述行为文本由动词和动词的修饰短语构成；

步骤2：分析所述行为样本池中所述行为样本的特征；基于所述行为样本的特征，通过迭代得到若干所述行为样本排序构成的所述用户的潜在行为列表；

所述步骤2中，所述行为样本的特征包括显著性、代表性和多样性；所述显著性表征所述行为样本在所述行为样本池中的使用频率和用例频率，所述代表性表征所述行为样本池中所述行为样本所处空间的行为样本密度，所述多样性表征所述行为样本与其他所述行为样本之间的差异度；分别分析所述行为文本的动词和动词的修饰短语的特征；

所述行为样本中动词的显著性为所述行为样本的使用频率和用例频率的比值；所述行为样本中动词的使用频率为所述行为样本中动词的使用频次与全部所述行为样本中动词的使用总频次的比率；所述行为样本中动词的用例频率为行为样本中动词的用例数与全部所述行为样本中动词的总用例数的比率的对数；

所述行为样本中动词的代表性为所述行为样本中动词和其他所述行为样本中动词在多维语义空间中的余弦相似度之和与归一化参数的比值；

所述行为样本中动词的多样性为所述行为样本中动词与迭代过程中已选择的行为样本的动词在语义空间中的最短距离；

所述行为样本中动词的修饰短语的代表性为所述行为样本中动词的修饰短语和其他所述行为样本中动词的修饰短语在多维语义空间中的余弦相似度的平均值；

2.根据权利要求1所述的基于实体检索词的用户行为意图挖掘方法，其特征在于：所述步骤1中，通过个人社交网络上的推文和/或检索引擎检索得到的文本获得若干所述行为文本。

3.根据权利要求2所述的基于实体检索词的用户行为意图挖掘方法，其特征在于：通过所述个人社交网络上的推文获得所述行为文本的方法包括基于历史推文检索获得所述行为文本、基于随机推文检索获得所述行为文本和基于与所述实体检索词相关的个人社交网络用户的推文检索获得所述行为文本。