CN111651675A

CN111651675A - 一种基于ucl的用户兴趣主题挖掘方法及装置

Info

Publication number: CN111651675A
Application number: CN202010516041.1A
Authority: CN
Inventors: 杨鹏; 李超; 季冬
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-09-11
Anticipated expiration: 2040-06-09
Also published as: CN111651675B

Abstract

本发明公开了一种基于UCL的用户兴趣主题挖掘方法及装置。本发明首先获取用户历史、浏览器浏览历史和浏览器书签对应的网页数据，并对网页数据进行预处理和UCL标引；然后将UCL文档中的相关文本内容转换为向量，利用DLDA_SE模型构建用户潜在兴趣主题模型，并利用爬虫爬取用户实时访问互联网中内容产生的数据对用户潜在兴趣主题模型进行即时更新；最后利用DLDA_SE模型对用户搜索进行主题挖掘，计算拓展后的搜索意图主题与各个用户潜在兴趣主题的相似度，确定用户兴趣主题。与现有技术相比，本发明可以避免低区分度高频词的权重过高降低主题模型的性能，并且能够适应于搜索环境，通过对用户搜索短句进行主题拓展，能准确地确定用户兴趣主题。

Description

一种基于UCL的用户兴趣主题挖掘方法及装置

技术领域

本发明涉及一种基于UCL的用户兴趣主题挖掘方法及装置，属于互联网技术领域。

背景技术

随着互联网的迅速普及和数字信息的爆炸式增长，人们越来越依赖于从互联网获取信息资源。互联网信息资源极为丰富，一方面带来了宝贵的信息财富。另一方面在这些庞大的数据中又有大量冗余相似的信息，且数以亿计的网民所关注的可能是其中不同的小部分信息。因此，如何从这些杂乱失序的数据中检索出符合用户需求的有效信息具有重要意义。传统搜索引擎主要以链接为中心，它主要通过索引网页中的内容，匹配用户搜索请求中的关键词反馈给用户相关的网页链接，并利用网页排序算法对结果进行排序。这种模式给互联网信息检索带来了极大便利，但它对于用户意图的挖掘不够深入，不能体现不同用户对于同一搜索请求所期待结果的差异性。且不同用户的兴趣、行为和习惯有较大差异，相同搜索语句所期待获取的结果也是不同的。以用户为中心的个性化搜索技术通过对用户兴趣建模，能够有效识别用户意图，为用户提供个性化搜索服务，是解决上述问题的有效途径。

用户兴趣主题模型的构建需要挖掘用户搜索历史等行为信息，且该模型需要适应互联网环境下数据的动态变化。传统主题挖掘方法一般基于词袋模型，例如 LDA(LatentDirichlet Allocation)模型，其为了便于计算将每一篇文档视为一个词频向量。但是该方法仅仅考虑词语之间的共现信息但没有考虑词与词之间的顺序和词语所处的语义环境，且不能够检测出现次数较多但与具体主题关系不大的词语，降低主题模型的区分度。此外，在互联网中每时每刻都会出现大量新的新闻网页等数据。用户兴趣主题模型需要适应数据的动态变化，对新主题进行及时更新，提高对文档主题表示的准确性。由国家标准《统一内容标签格式规范》 (GB/T 35304-2017)所定义的统一内容标签UCL(UniformContent Label)，是一种可对内容资源的丰富语义进行标引的内容元数据，其可以为用户兴趣主题构建模型的构建提供丰富语义支撑，提高模型性能。因此，结合UCL富语义编码的优势，提出应用搜索环境下的动态主题模型实现用户兴趣主题的挖掘是本发明的主要研究课题。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明结合UCL富语义编码的优势，提出一种应用搜索环境下的动态主题模型DLDA_SE(Dynamic Latent DirichletAllocation for Search Environment)，并基于该模型实现用户兴趣主题挖掘方法及装置。本发明不仅可以挖掘用户搜索历史信息中的主题特征构建用户潜在兴趣模型，还可以利用UCL提供的丰富语义信息对主题挖掘参数按时间片进行迭代更新，从而对用户潜在兴趣模型进行动态更新，挖掘用户兴趣主题，确定用户搜索意图。

技术方案：为实现上述发明目的，本发明提供的一种基于UCL的用户兴趣主题挖掘方法，首先获取用户历史、浏览器浏览历史和浏览器书签对应的网页数据，并利用数据清洗工具对网页数据进行预处理和UCL标引；然后将UCL文档中的相关文本内容转换为向量，利用DLDA_SE模型构建用户潜在兴趣模型，并利用爬虫爬取用户实时访问互联网中的内容产生的数据，将其标引为UCL，结合UCL提供的丰富语义信息对用户潜在兴趣模型进行即时更新；最后利用 DLDA_SE模型对用户搜索句进行主题挖掘，计算拓展后得到的搜索意图主题与各个用户潜在兴趣主题的相似度，从而挖掘用户兴趣主题，确定用户搜索意图。

具体步骤如下：

(1)文档预处理：对待挖掘主题的网页文档进行数据清洗、实体识别和UCL 标引，并改进传统基于词频统计方法表示文本向量，计算UCL中每个内容实体在UCL所表示文档中的语义重要程度，利用语义重要程度计算实体对于表现文档主题的贡献程度，从而将文档转换为向量表示。

(2)DLDA_SE模型构建：将用户搜索历史、浏览器浏览历史和浏览器书签转换为对应的文档向量，将其作为输入进行初始主题挖掘，对主题挖掘超参数进行初始化；然后将用户实时访问互联网中的内容产生的流式网络文档按时间分片，计算主题挖掘超参数转移矩阵，从而依次得到每个时间片的用户潜在兴趣主题模型。

(3)用户兴趣主题挖掘：利用DLDA_SE模型将当前搜索对应的历史查询信息融入搜索句中进行主题挖掘，计算拓展后的搜索主题与各个用户潜在兴趣主题的相似度，将相似度最大的若干个主题作为用户兴趣主题。

作为优选，所述步骤(1)中根据如下公式计算实体对于表现该文档主题的贡献程度：

其中WCW_e,doc表示实体e对于表现文档doc主题的贡献程度,pw_e,doc表示实体 e对于UCL文档doc的语义重要程度，N_DOC表示全部文档总数，I(pw_e,i≥pw_e,doc) 为指示函数，这里表示统计pw_e,i≥pw_e,doc的文档个数，为防止该值为0分母后加 1。计算好每个词语对于表现文档主题的贡献程度后，将该值作为文档向量中的每个分量，从而得到UCL文档的向量表示。

作为优选，所述步骤(1)中根据如下公式计算实体对于UCL文档的语义重要程度：

其中freq(c_e)为实体e的词频，n为UCL文档中实体总数，s_j代表中心句，中心句总数为Z，I(c_e∈s_j)为指示函数，表示c_e是否属于s_j，α表示调节参数，取值范围为0～1。

作为优选，所述步骤(2)中根据如下两个公式分别对主题挖掘超参数α和β 进行初始化：

α^t+μ＝ω_α·α^t

β^t+μ＝ω_β·β^t

其中超参数α和β分别为LDA主题模型中求解文档在主题上概率分布的参数和主题在词语上概率分布的参数，上标t表示t时刻，μ表示时间片的大小，ω_α 为新爬取的文档与上一时间片中文档间的语义相似度矩阵，ω_β与该时间片词语属于上一时间片确定的话题的数量相关。转换矩阵ω_α和ω_β如下所示：

其中ω_α为K乘K的稀疏矩阵，sim_m,k表示时间片(t,t+μ)内出现的第m篇文档与上一时间片内的属于第k个主题的文档的语义相似度最大值。公式8中ω_β 为N乘N的稀疏矩阵，WCW_n,m表示第n个词语(实体)表现时间片(t,t+μ)中第m篇文档主题的贡献程度，N和K分别表示词语总数和主题总数，M为时间片(t,t+μ)内出现的文档总数。

作为优选，初始时刻超参数α和β确定方法为：对于初始时定义的所有K 个主题，统计每个主题包含UCL文档的个数，将该先验计数作为α的初始值；统计每个词出现在每个主题所代表的UCL文档中的个数，将该先验计数作为β的初始值。

作为优选，所述步骤(3)中包括：

(3.1)对用户搜索句进行分词和实体识别，得到搜索实体集合并获取与用户搜索语句相关联的历史文档；

(3.2)利用用户搜索实体在搜索句中的语义重要程度对历史文档进行过滤，从而得到搜索意图主题文档集合；

(3.3)对用户意图主题文档集合进行主题挖掘的用户搜索意图主题；

(3.4)计算搜索意图主题与用户潜在兴趣主题的相似度，选择相似度排序的前ε个兴趣主题作为用户兴趣主题，ε为设定的参数。

步骤(3.2)中判断关联搜索历史文档集合QDOC中的文档qdoc是否属于搜索意图主题文档集合IDOC的依据是：若qdoc中对应搜索实体qe的语义权重位于qdoc中所有实体语义权重的前p位则表示其属于IDOC，若IDOC的大小达到搜索意图主题文档集合中文档数量阈值th则停止；p的计算公式如下

其中dist_qe表示实体qe在搜索句q中距离句尾的长度，len_q为搜索句q的长度，|QDOC|为搜索历史文档集合大小，

表示对其中的值向上取整。

基于相同的发明构思，本发明所提供的一种基于UCL的用户兴趣主题挖掘装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于UCL的用户兴趣主题挖掘方法。

基于相同的发明构思，本发明所提供的一种存储装置，存储有可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于UCL的用户兴趣主题挖掘方法。

有益效果：与现有技术相比，本发明具有如下优点：

(1)本发明结合UCL对互联网信息进行富语义矢量编码的优势，在挖掘用户兴趣主题过程中不再利用基于词频统计的方法表示文本向量，而是以基于实体语义关联的方式代替，从而避免低区分度高频词的权重过高降低主题模型的性能。

(2)本发明将用户实时访问的互联网数据按时间片分隔，利用UCL提供的丰富语义信息计算相邻时间片间所产生内容间的语义关联，从而对主题挖掘模型参数进行实时更新，使构建的用户兴趣主题模型能够适应于搜索环境。

(3)本发明可以对具有词汇简洁、句子残缺等特点的用户搜索短句进行主题拓展，降低噪声影响，准确识别用户搜索意图，确定用户兴趣主题。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例涉及的超参数动态更新过程。

图3为本发明实施例涉及的DLDA_SE模型概率图。

图4为本发明实施例涉及的用户兴趣主题挖掘流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

由国家标准《统一内容标签格式规范》(GB/T 35304-2017)所定义的统一内容标签UCL(Uniform Content Label)，是一种可对内容资源的丰富语义进行标引的内容元数据，将互联网上杂乱无序的异构内容进行有效聚合，能够对互联网内容中的丰富语义信息进行统一格式编码。本发明充分利用UCL对互联网信息进行富语义矢量编码的优势，挖掘用户历史行为数据和互联网中实时产生的流式数据构建DLDA_SE模型，再结合DLDA_SE模型对用户搜索进行主题拓展完成用户兴趣主题挖掘。

本发明在具体实施时，首先将待挖掘文本数据进行预处理和UCL标引，利用UCL提供的语义信息将这些文本向量化；然后利用DLDA_SE模型构建用户潜在兴趣模型，并利用爬虫爬取用户实时访问的网络数据，对用户潜在兴趣模型进行即时更新；最后利用DLDA_SE模型对用户搜索进行主题拓展，确定用户搜索意图，挖掘用户兴趣主题。如图1发明实施例的方法流程图，具体各步骤的实施如下：

步骤1，文档预处理。首先将待挖掘主题的网页文档内容进行数据清洗、实体识别和UCL标引等步骤；然后计算UCL中每个内容实体在UCL所表示文档中的语义重要程度，这里的实体或者命名实体等价于LDA主题模型中的词语；最后利用实体在UCL所表示文档中的语义权重计算该实体对于表现该文档主题的贡献程度，以此方法计算文档的表示向量。具体步骤如下所示：

子步骤1-1，利用开发工具Goose和Hanlp对用户搜索历史、浏览器浏览历史和浏览器书签对应的网页内容进行清洗、语义解析，从而抽取到网页内容的标题、作者、时间、摘要和正文等关键信息，然后利用UCL标引工具对这些内容进行标引得到UCL文档。

子步骤1-2，UCL中实体的语义权重反应实体对于UCL所标引文章的重要程度，一般文章中越频繁出现的实体一般也越重要，同时越靠近中心句的实体显然对于该文章也更重要，所以需要正确统计词频和提取中心句。本发明利用 TextRank算法从UCL所对应的网页正文中提取中心句。结合实体的词频和所处 “上下文”计算UCL中实体的语义权重，如公式1所示。

公式中pw_e,doc表示实体e对于UCL文档doc的语义权重，freq(c_e)为实体e的词频，n为UCL中实体总数。利用TextRank算法从网页正文中提取的中心句集合为sents＝{s₁,s₂,...,s_Z}。集合s_j中代表中心句，中心句总数为Z，它由词组成。 I(c_e∈s_j)为指示函数，表示c_e是否属于s_j，α表示调节参数取值范围为0～1。

子步骤1-3，利用上一步计算好的实体相对文档的语义权重pw_e,doc计算该实体对于表现该文档主题的贡献程度，其计算公式如公式2所示。

其中WCW_e,doc表示实体e对于表现文档doc主题的贡献程度。N_DOC表示全部文档总数，I(pw_e,i≥pw_e,doc)为指示函数，这里表示统计pw_e,i≥pw_e,doc的文档个数，为防止该值为0分母后加1。计算好每个词语对于表现文档主题的贡献程度后，将该值作为文档向量中的每个分量，从而得到UCL文档的向量表示。

步骤2，DLDA_SE模型构建。首先对用户搜索历史、浏览器浏览历史和浏览器书签对应的网页内容进行初始主题挖掘，对主题挖掘超参数进行初始化；然后将互联网中实时产生的流式网络文档按时间分片，计算主题挖掘超参数转移矩阵，从而依次得到每个时间片的主题模型。具体步骤如下：

子步骤2-1，超参数α和β分别为LDA主题模型中求解文档在主题上概率分布的参数和主题在词语上概率分布的参数。初步主题挖掘时，需要对超参数α和 β进行初始化。本发明结合UCL中已有的信息对α和β进行初始化。步骤1中已经对网页内容进行提取形成标准的UCL文档，UCL中主要分为代码域和属性域，UCL代码域中包含所标引网页内容的“媒体类型”、“内容来源”、“类别”和“话题”等字段，初始时“话题”字段可以直接反映内容要义和主题的关键语义信息，所以本发明结合Dirichlet分布的物理意义利用UCL“话题”字段统计先验数据初始化超参数。

超参数α初始化：对于初始时定义的所有K个主题，统计每个主题包含UCL 文档的个数，将该先验计数作为α的初始值。如公式3所示，公式中 I(topic_ucl＝topic_k)表示当前UCL文档是否属于主题k，若属于取1，反之取0。

超参数β初始化：统计每个词出现在每个主题所代表的UCL文档中的个数，将该先验计数作为β的初始值。如公式4所示，公式中N和K分别表示词语总数和主题总数，UCL_k表示属于主题k的UCL文档集合，WORD_ucl为ucl文档中的词集合，I(word_n∈WORD_ucl)表示当前词语是否属于当前ucl内容集合中的词，若属于则为1，反之为0。

子步骤2-2，初始主题挖掘。将步骤1中生成的文档向量作为输入，以子步骤2-1中初始化的超参数α和β，采用LDA方法对UCL文档集合UCLD进行主题挖掘，生成用户潜在兴趣主题集合Topic＝{topic₁,topic₂,...,topic_K}，并得到 UCLD中文档主题后验概率分布θ和主题词语后验概率分布

子步骤2-3，将用户在互联网中实时访问的网页数据按时间分片，设置μ为时间片的大小，相邻时间片之间文档的主题分布具有一定的相似性，所以某一时间片内的超参数由上一时间片内的超参数决定，如图2所示为超参数动态更新过程。对于在t时刻爬虫爬取的网页集合Doc_t＝{doc₁,doc₂,...,doc_i,...}，利用当前确定的超参数α^t和β^t对文档进行主题挖掘。t时刻相邻的下一时间片(t,t+μ)内的超参数α^t+μ和β^t+μ由α^t和β^t根据文档间的语义相关性转换得到，转换公式如公式5和公式6所示。

α^t+μ＝ω_α·α^t 公式5

β^t+μ＝ω_β·β^t 公式6

其中ω_α为新爬取的文档与上一时间片中文档间的语义相似度矩阵，ω_β与该时间片词语属于上一时间片确定的主题的数量相关。转换矩阵ω_α和ω_β如公式7 和公式8所示。

公式7中ω_α为K乘K的稀疏矩阵，sim_m,k表示时间片(t,t+μ)内出现的第m 篇文档与上一时间片内的属于第k个主题的文档的语义相似度最大值。公式8 中ω_β为N乘N的稀疏矩阵，WCW_n,m表示第n个词(实体)表现时间片(t,t+μ) 中第m篇文档主题的贡献程度，计算公式参考子步骤1-3。M为时间片(t,t+μ)内出现的文档总数。相邻时间片间超参数通过转换矩阵计算，每一时间片都生成新的文档主题后验概率分布θ和主题词语后验概率分布

最终对用户潜在兴趣主题Topic进行动态更新。如图3所示为DLDA_SE模型概率图。

步骤3，用户兴趣主题挖掘。一般用户搜索语句具有词汇简洁、句子残缺等特点，且可能包含词库中不存在的新词，若直接利用DLDA_SE模型对该短句进行主题挖掘，显然会导致结果噪声太大准确性较小。本发明结合DLDA_SE模型将当前搜索对应的历史查询信息融入搜索句中进行主题挖掘，得到用户搜索意图主题，并计算其与各个用户潜在兴趣主题的相似度，将相似度最大的若干个潜在兴趣主题作为用户兴趣主题。如图4所示为用户兴趣主题挖掘流程图。具体步骤如下所示：

子步骤3-1，利用自然语言处理工具对用户搜索短句q进行分词、实体识别等操作，将q中的停用词去除进行实体识别得到搜索实体集合QE，从而准确获取与用户搜索语句相关联的历史文档。

子步骤3-2，获取搜索语句q对应的搜索意图主题文档集合。首先获取QE对应的关联搜索历史文档集合QDOC；然后对QDOC中的文档进行过滤，QDOC 中的文档qdoc是否属于搜索意图主题文档集合IDOC的判断依据是，若qdoc中对应实体qe(搜索语句q中的实体)的语义权重位于qdoc中所有实体语义权重的前p位则表示其属于IDOC，若IDOC的大小达到搜索意图主题文档集合中文档数量阈值th则停止。p的计算公式如公式9所示。

表示对其中的值向上取整。

子步骤3-3，对用户意图主题文档集合IDOC进行主题挖掘得到用户搜索意图主题。利用DLDA_SE模型获取IDOC的主题VD，步骤1中已将所有文档转换为向量表示，所以此处输出的主题VD为向量表示。

子步骤3-4，计算用户搜索意图主题与用户潜在兴趣主题的相似度。余弦相似度可以有效度量词向量间的相似度，利用公式10求得用户搜索意图主题向量与用户潜在兴趣主题向量间的相似度。

其中sim(vd_q,vd_u)表示用户搜索意图主题向量vd_q和某个用户潜在兴趣主题 vd_u的余弦相似度。最后选择相似度SIM排序的前ε个兴趣主题作为用户兴趣主题。

基于相同的发明构思，本发明实施例提供的一种基于UCL的用户兴趣主题挖掘装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于UCL的用户兴趣主题挖掘方法。

基于相同的发明构思，本发明实施例提供的一种存储装置，存储有可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于UCL 的用户兴趣主题挖掘方法。

针对本发明所提出的基于UCL的用户兴趣主题挖掘方法，下面通过实例进行验证，具体如下所示：

(1)首先，获取某个用户的搜索历史、浏览历史和书签等网页数据，对数据进行预处理和UCL标引后得到1000个UCL文档。将这1000个UCL文档利用步骤1中的方法转换为向量表示，例如文档UCLDOC₁包含20种内容实体，包括芯片、半导体、元器件、5G、工作岗位、物资、公司、手机等，计算每个实体相对于UCLDOC₁所表示网页文档的语义权重得到 {0.654,0.568,0.456,0.523,0.579,0.357,0.108,0.091,0.363,0.256,0.189,0.024,0.087,0.367,0.458,0.125,0.134,0.134,0.342,0.357}，计算每个实体对于表现该文档主题的贡献程度并归一化得到UCLDOC₁的向量表示{0.192,0.129,0.115,0.075,0.067, 0.025,0.011,0.004,0.065,0.050,0.035,0.003,0.011,0.033}。

(2)然后，进行初始用户潜在兴趣主题挖掘。首先进行超参数初始化，初始时总共预设20个主题，按照步骤2中的方法统计得到超参数α＝(α₁,α₂,...,α₂₀) ＝(10,30,20,100,165,291,170,452,60,45,70,89,130,245,245,670,50,134,125, 89)和超参数β的值，β为高维稀疏矩阵，此处略。对上一步得到的UCL文档及其向量表示作为输入进行主题挖掘，得到总共20个用户潜在兴趣主题，每个主题有4个词语组成，以及对应的向量表示。接下来，对用户潜在兴趣主题模型进行动态更新。本发明将用户在互联网中实时访问的网页数据按时间分片爬取，例如对6个时间片内访问各大新闻网站进行实时爬取的数据为(951,1195,953,1153,1141,961)。文档预处理和主题挖掘的信息过程和前文类似，此处只介绍超参数α和β的更新过程。不失一般性，假设对第二个时间片内的主题挖掘超参数进行更新，计算第二个时间片内产生的每个UCL文档与第一个时间片内每个UCL文档的相似性，得到α的转换矩阵ω_α，统计第二个时间片内词出现在第一个时间片内主题的次数，得到β的转换矩阵ω_β。分布更新超参数α和 β，对第二个时间片内UCL文档进行主题挖掘。

(3)最后，用户兴趣主题挖掘。利用自然语言处理工具对用户搜索短句q 进行分词、实体识别等操作。例如q＝“最新款的苹果价格是多少”，将q中的停用词去除进行实体识别得到搜索实体集合QE＝{“苹果”，“价格”}，根据QE得到相关联的历史文档集合QDOC，并利用实体的语义权重对QDOC进行过滤得到搜索意图主题文档集合IDOC。利用DLDA_SE模型获取IDOC的主题VD，计算搜索意图主题与用户潜在兴趣主题的相似度。最终得到最为接近用户搜索意图的前3个主题，将这些潜在兴趣主题作为用户兴趣主题。

Claims

1.一种基于UCL的用户兴趣主题挖掘方法，其特征在于，包括如下步骤：

(1)对待挖掘主题的网页文档进行数据清洗、实体识别和UCL标引，计算UCL中每个内容实体在UCL所表示文档中的语义重要程度，利用语义重要程度计算实体对于表现文档主题的贡献程度，从而将文档转换为向量表示；

(2)将用户搜索历史、浏览器浏览历史和浏览器书签转换为对应的文档向量，将其作为输入进行初始主题挖掘，对主题挖掘超参数进行初始化；然后将用户实时访问互联网中的内容产生的流式网络文档按时间分片，计算主题挖掘超参数转移矩阵，从而依次得到每个时间片的用户潜在兴趣主题模型；

(3)将当前搜索对应的历史查询信息融入搜索句中进行主题挖掘，得到用户搜索意图主题，计算用户搜索意图主题与各个用户潜在兴趣主题的相似度，将相似度最大的若干个主题作为用户兴趣主题。

2.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法，其特征在于，所述步骤(1)中根据如下公式计算实体对于表现文档主题的贡献程度：

其中WCW_e,doc表示实体e对于表现文档doc主题的贡献程度，pw_e,doc表示实体e对于UCL文档doc的语义重要程度，N_DOC表示文档总数，I(pw_e,i≥pw_e,doc)为指示函数，表示统计pw_e,i≥pw_e,doc的文档个数。

3.根据权利要求2所述的一种基于UCL的用户兴趣主题挖掘方法，其特征在于，根据如下公式计算实体对于UCL文档的语义重要程度：

4.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法，其特征在于，所述步骤(2)中根据如下两个公式分别对主题挖掘超参数α和β进行初始化：

α^t+μ＝ω_α·α^t

β^t+μ＝ω_β·β^t

其中超参数α和β分别为LDA主题模型中求解文档在主题上概率分布的参数和主题在词语上概率分布的参数，上标t表示t时刻，μ表示时间片的大小，转换矩阵ω_α和ω_β如下：

其中ω_α为K乘K的稀疏矩阵，sim_m,k表示时间片(t,t+μ)内出现的第m篇文档与上一时间片内的属于第k个主题的文档的语义相似度最大值；ω_β为N乘N的稀疏矩阵，WCW_n,m表示第n个词语表现时间片(t,t+μ)中第m篇文档主题的贡献程度，N和K分别表示词语总数和主题总数，M为时间片(t,t+μ)内出现的文档总数。

5.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法，其特征在于，初始时刻超参数α和β确定方法为：对于初始时定义的所有K个主题，统计每个主题包含UCL文档的个数，将该先验计数作为α的初始值；统计每个词出现在每个主题所代表的UCL文档中的个数，将该先验计数作为β的初始值。

6.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法，其特征在于，所述步骤(3)中包括：

7.根据权利要求6所述的一种基于UCL的用户兴趣主题挖掘方法，其特征在于，所述步骤(3.2)中判断关联搜索历史文档集合QDOC中的文档qdoc是否属于搜索意图主题文档集合IDOC的依据是：若qdoc中对应搜索实体qe的语义权重位于qdoc中所有实体语义权重的前p位则表示其属于IDOC，若IDOC的大小达到搜索意图主题文档集合中文档数量阈值th则停止；p的计算公式如下

表示对其中的值向上取整。

8.一种基于UCL的用户兴趣主题挖掘装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于UCL的用户兴趣主题挖掘方法。

9.一种存储装置，存储有可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于UCL的用户兴趣主题挖掘方法。