CN111651675B - 一种基于ucl的用户兴趣主题挖掘方法及装置 - Google Patents

一种基于ucl的用户兴趣主题挖掘方法及装置 Download PDF

Info

Publication number
CN111651675B
CN111651675B CN202010516041.1A CN202010516041A CN111651675B CN 111651675 B CN111651675 B CN 111651675B CN 202010516041 A CN202010516041 A CN 202010516041A CN 111651675 B CN111651675 B CN 111651675B
Authority
CN
China
Prior art keywords
topic
ucl
document
user
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010516041.1A
Other languages
English (en)
Other versions
CN111651675A (zh
Inventor
杨鹏
李超
季冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010516041.1A priority Critical patent/CN111651675B/zh
Publication of CN111651675A publication Critical patent/CN111651675A/zh
Application granted granted Critical
Publication of CN111651675B publication Critical patent/CN111651675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于UCL的用户兴趣主题挖掘方法及装置。本发明首先获取用户历史、浏览器浏览历史和浏览器书签对应的网页数据,并对网页数据进行预处理和UCL标引;然后将UCL文档中的相关文本内容转换为向量,利用DLDA_SE模型构建用户潜在兴趣主题模型,并利用爬虫爬取用户实时访问互联网中内容产生的数据对用户潜在兴趣主题模型进行即时更新;最后利用DLDA_SE模型对用户搜索进行主题挖掘,计算拓展后的搜索意图主题与各个用户潜在兴趣主题的相似度,确定用户兴趣主题。与现有技术相比,本发明可以避免低区分度高频词的权重过高降低主题模型的性能,并且能够适应于搜索环境,通过对用户搜索短句进行主题拓展,能准确地确定用户兴趣主题。

Description

一种基于UCL的用户兴趣主题挖掘方法及装置
技术领域
本发明涉及一种基于UCL的用户兴趣主题挖掘方法及装置,属于互联网技 术领域。
背景技术
随着互联网的迅速普及和数字信息的爆炸式增长,人们越来越依赖于从互联 网获取信息资源。互联网信息资源极为丰富,一方面带来了宝贵的信息财富。另 一方面在这些庞大的数据中又有大量冗余相似的信息,且数以亿计的网民所关注 的可能是其中不同的小部分信息。因此,如何从这些杂乱失序的数据中检索出符 合用户需求的有效信息具有重要意义。传统搜索引擎主要以链接为中心,它主要通过索引网页中的内容,匹配用户搜索请求中的关键词反馈给用户相关的网页链 接,并利用网页排序算法对结果进行排序。这种模式给互联网信息检索带来了极 大便利,但它对于用户意图的挖掘不够深入,不能体现不同用户对于同一搜索请 求所期待结果的差异性。且不同用户的兴趣、行为和习惯有较大差异,相同搜索 语句所期待获取的结果也是不同的。以用户为中心的个性化搜索技术通过对用户 兴趣建模,能够有效识别用户意图,为用户提供个性化搜索服务,是解决上述问题的有效途径。
用户兴趣主题模型的构建需要挖掘用户搜索历史等行为信息,且该模型需要 适应互联网环境下数据的动态变化。传统主题挖掘方法一般基于词袋模型,例如 LDA(LatentDirichlet Allocation)模型,其为了便于计算将每一篇文档视为一个 词频向量。但是该方法仅仅考虑词语之间的共现信息但没有考虑词与词之间的顺 序和词语所处的语义环境,且不能够检测出现次数较多但与具体主题关系不大的 词语,降低主题模型的区分度。此外,在互联网中每时每刻都会出现大量新的新闻网页等数据。用户兴趣主题模型需要适应数据的动态变化,对新主题进行及时 更新,提高对文档主题表示的准确性。由国家标准《统一内容标签格式规范》 (GB/T 35304-2017)所定义的统一内容标签UCL(UniformContent Label),是 一种可对内容资源的丰富语义进行标引的内容元数据,其可以为用户兴趣主题构 建模型的构建提供丰富语义支撑,提高模型性能。因此,结合UCL富语义编码的优势,提出应用搜索环境下的动态主题模型实现用户兴趣主题的挖掘是本发明的主要研究课题。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明结合UCL富语义编 码的优势,提出一种应用搜索环境下的动态主题模型DLDA_SE(Dynamic Latent DirichletAllocation for Search Environment),并基于该模型实现用户兴趣主题挖掘方法及装置。本发明不仅可以挖掘用户搜索历史信息中的主题特征构建用户潜 在兴趣模型,还可以利用UCL提供的丰富语义信息对主题挖掘参数按时间片进 行迭代更新,从而对用户潜在兴趣模型进行动态更新,挖掘用户兴趣主题,确定 用户搜索意图。
技术方案:为实现上述发明目的,本发明提供的一种基于UCL的用户兴趣 主题挖掘方法,首先获取用户历史、浏览器浏览历史和浏览器书签对应的网页数 据,并利用数据清洗工具对网页数据进行预处理和UCL标引;然后将UCL文档 中的相关文本内容转换为向量,利用DLDA_SE模型构建用户潜在兴趣模型,并 利用爬虫爬取用户实时访问互联网中的内容产生的数据,将其标引为UCL,结 合UCL提供的丰富语义信息对用户潜在兴趣模型进行即时更新;最后利用 DLDA_SE模型对用户搜索句进行主题挖掘,计算拓展后得到的搜索意图主题与 各个用户潜在兴趣主题的相似度,从而挖掘用户兴趣主题,确定用户搜索意图。
具体步骤如下:
(1)文档预处理:对待挖掘主题的网页文档进行数据清洗、实体识别和UCL 标引,并改进传统基于词频统计方法表示文本向量,计算UCL中每个内容实体 在UCL所表示文档中的语义重要程度,利用语义重要程度计算实体对于表现文 档主题的贡献程度,从而将文档转换为向量表示。
(2)DLDA_SE模型构建:将用户搜索历史、浏览器浏览历史和浏览器书 签转换为对应的文档向量,将其作为输入进行初始主题挖掘,对主题挖掘超参数 进行初始化;然后将用户实时访问互联网中的内容产生的流式网络文档按时间分 片,计算主题挖掘超参数转移矩阵,从而依次得到每个时间片的用户潜在兴趣主题模型。
(3)用户兴趣主题挖掘:利用DLDA_SE模型将当前搜索对应的历史查询 信息融入搜索句中进行主题挖掘,计算拓展后的搜索主题与各个用户潜在兴趣主 题的相似度,将相似度最大的若干个主题作为用户兴趣主题。
作为优选,所述步骤(1)中根据如下公式计算实体对于表现该文档主题的 贡献程度:
Figure SMS_1
其中WCWe,doc表示实体e对于表现文档doc主题的贡献程度,pwe,doc表示实体 e对于UCL文档doc的语义重要程度,NDOC表示全部文档总数,I(pwe,i≥pwe,doc) 为指示函数,这里表示统计pwe,i≥pwe,doc的文档个数,为防止该值为0分母后加 1。计算好每个词语对于表现文档主题的贡献程度后,将该值作为文档向量中的 每个分量,从而得到UCL文档的向量表示。
作为优选,所述步骤(1)中根据如下公式计算实体对于UCL文档的语义重 要程度:
Figure SMS_2
其中freq(ce)为实体e的词频,n为UCL文档中实体总数,sj代表中心句, 中心句总数为Z,I(ce∈sj)为指示函数,表示ce是否属于sj,α表示调节参数, 取值范围为0~1。
作为优选,所述步骤(2)中根据如下两个公式分别对主题挖掘超参数α和β 进行初始化:
αt+μ=ωα·αt
βt+μ=ωβ·βt
其中超参数α和β分别为LDA主题模型中求解文档在主题上概率分布的参 数和主题在词语上概率分布的参数,上标t表示t时刻,μ表示时间片的大小,ωα为新爬取的文档与上一时间片中文档间的语义相似度矩阵,ωβ与该时间片词语 属于上一时间片确定的话题的数量相关。转换矩阵ωα和ωβ如下所示:
Figure SMS_3
Figure SMS_4
其中ωα为K乘K的稀疏矩阵,simm,k表示时间片(t,t+μ)内出现的第m篇 文档与上一时间片内的属于第k个主题的文档的语义相似度最大值。公式8中ωβ为N乘N的稀疏矩阵,WCWn,m表示第n个词语(实体)表现时间片(t,t+μ)中 第m篇文档主题的贡献程度,N和K分别表示词语总数和主题总数,M为时间 片(t,t+μ)内出现的文档总数。
作为优选,初始时刻超参数α和β确定方法为:对于初始时定义的所有K 个主题,统计每个主题包含UCL文档的个数,将该先验计数作为α的初始值;统 计每个词出现在每个主题所代表的UCL文档中的个数,将该先验计数作为β的 初始值。
作为优选,所述步骤(3)中包括:
(3.1)对用户搜索句进行分词和实体识别,得到搜索实体集合并获取与用 户搜索语句相关联的历史文档;
(3.2)利用用户搜索实体在搜索句中的语义重要程度对历史文档进行过滤, 从而得到搜索意图主题文档集合;
(3.3)对用户意图主题文档集合进行主题挖掘的用户搜索意图主题;
(3.4)计算搜索意图主题与用户潜在兴趣主题的相似度,选择相似度排序 的前ε个兴趣主题作为用户兴趣主题,ε为设定的参数。
步骤(3.2)中判断关联搜索历史文档集合QDOC中的文档qdoc是否属于搜 索意图主题文档集合IDOC的依据是:若qdoc中对应搜索实体qe的语义权重位 于qdoc中所有实体语义权重的前p位则表示其属于IDOC,若IDOC的大小达到 搜索意图主题文档集合中文档数量阈值th则停止;p的计算公式如下
Figure SMS_5
其中distqe表示实体qe在搜索句q中距离句尾的长度,lenq为搜索句q的长 度,|QDOC|为搜索历史文档集合大小,
Figure SMS_6
表示对其中的值向上取整。
基于相同的发明构思,本发明所提供的一种基于UCL的用户兴趣主题挖掘 装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序, 该计算机程序被加载至处理器时实现上述的基于UCL的用户兴趣主题挖掘方法。
基于相同的发明构思,本发明所提供的一种存储装置,存储有可在处理器上 运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于UCL的用 户兴趣主题挖掘方法。
有益效果:与现有技术相比,本发明具有如下优点:
(1)本发明结合UCL对互联网信息进行富语义矢量编码的优势,在挖掘用 户兴趣主题过程中不再利用基于词频统计的方法表示文本向量,而是以基于实体 语义关联的方式代替,从而避免低区分度高频词的权重过高降低主题模型的性能。
(2)本发明将用户实时访问的互联网数据按时间片分隔,利用UCL提供的 丰富语义信息计算相邻时间片间所产生内容间的语义关联,从而对主题挖掘模型 参数进行实时更新,使构建的用户兴趣主题模型能够适应于搜索环境。
(3)本发明可以对具有词汇简洁、句子残缺等特点的用户搜索短句进行主 题拓展,降低噪声影响,准确识别用户搜索意图,确定用户兴趣主题。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例涉及的超参数动态更新过程。
图3为本发明实施例涉及的DLDA_SE模型概率图。
图4为本发明实施例涉及的用户兴趣主题挖掘流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本 发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发 明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
由国家标准《统一内容标签格式规范》(GB/T 35304-2017)所定义的统一内 容标签UCL(Uniform Content Label),是一种可对内容资源的丰富语义进行标引的内容元数据,将互联网上杂乱无序的异构内容进行有效聚合,能够对互联网 内容中的丰富语义信息进行统一格式编码。本发明充分利用UCL对互联网信息 进行富语义矢量编码的优势,挖掘用户历史行为数据和互联网中实时产生的流式 数据构建DLDA_SE模型,再结合DLDA_SE模型对用户搜索进行主题拓展完成 用户兴趣主题挖掘。
本发明在具体实施时,首先将待挖掘文本数据进行预处理和UCL标引,利 用UCL提供的语义信息将这些文本向量化;然后利用DLDA_SE模型构建用户 潜在兴趣模型,并利用爬虫爬取用户实时访问的网络数据,对用户潜在兴趣模型 进行即时更新;最后利用DLDA_SE模型对用户搜索进行主题拓展,确定用户搜 索意图,挖掘用户兴趣主题。如图1发明实施例的方法流程图,具体各步骤的实 施如下:
步骤1,文档预处理。首先将待挖掘主题的网页文档内容进行数据清洗、实 体识别和UCL标引等步骤;然后计算UCL中每个内容实体在UCL所表示文档 中的语义重要程度,这里的实体或者命名实体等价于LDA主题模型中的词语;最后利用实体在UCL所表示文档中的语义权重计算该实体对于表现该文档主题 的贡献程度,以此方法计算文档的表示向量。具体步骤如下所示:
子步骤1-1,利用开发工具Goose和Hanlp对用户搜索历史、浏览器浏览历 史和浏览器书签对应的网页内容进行清洗、语义解析,从而抽取到网页内容的标 题、作者、时间、摘要和正文等关键信息,然后利用UCL标引工具对这些内容 进行标引得到UCL文档。
子步骤1-2,UCL中实体的语义权重反应实体对于UCL所标引文章的重要 程度,一般文章中越频繁出现的实体一般也越重要,同时越靠近中心句的实体显 然对于该文章也更重要,所以需要正确统计词频和提取中心句。本发明利用 TextRank算法从UCL所对应的网页正文中提取中心句。结合实体的词频和所处 “上下文”计算UCL中实体的语义权重,如公式1所示。
Figure SMS_7
公式中pwe,doc表示实体e对于UCL文档doc的语义权重,freq(ce)为实体e的 词频,n为UCL中实体总数。利用TextRank算法从网页正文中提取的中心句集 合为sents={s1,s2,...,sZ}。集合sj中代表中心句,中心句总数为Z,它由词组成。 I(ce∈sj)为指示函数,表示ce是否属于sj,α表示调节参数取值范围为0~1。
子步骤1-3,利用上一步计算好的实体相对文档的语义权重pwe,doc计算该实 体对于表现该文档主题的贡献程度,其计算公式如公式2所示。
Figure SMS_8
其中WCWe,doc表示实体e对于表现文档doc主题的贡献程度。NDOC表示全部 文档总数,I(pwe,i≥pwe,doc)为指示函数,这里表示统计pwe,i≥pwe,doc的文档个数, 为防止该值为0分母后加1。计算好每个词语对于表现文档主题的贡献程度后,将该值作为文档向量中的每个分量,从而得到UCL文档的向量表示。
步骤2,DLDA_SE模型构建。首先对用户搜索历史、浏览器浏览历史和浏 览器书签对应的网页内容进行初始主题挖掘,对主题挖掘超参数进行初始化;然 后将互联网中实时产生的流式网络文档按时间分片,计算主题挖掘超参数转移矩 阵,从而依次得到每个时间片的主题模型。具体步骤如下:
子步骤2-1,超参数α和β分别为LDA主题模型中求解文档在主题上概率分 布的参数和主题在词语上概率分布的参数。初步主题挖掘时,需要对超参数α和 β进行初始化。本发明结合UCL中已有的信息对α和β进行初始化。步骤1中 已经对网页内容进行提取形成标准的UCL文档,UCL中主要分为代码域和属性 域,UCL代码域中包含所标引网页内容的“媒体类型”、“内容来源”、“类别”和“话 题”等字段,初始时“话题”字段可以直接反映内容要义和主题的关键语义信息, 所以本发明结合Dirichlet分布的物理意义利用UCL“话题”字段统计先验数据初始化超参数。
超参数α初始化:对于初始时定义的所有K个主题,统计每个主题包含UCL 文档的个数,将该先验计数作为α的初始值。如公式3所示,公式中 I(topicucl=topick)表示当前UCL文档是否属于主题k,若属于取1,反之取0。
Figure SMS_9
超参数β初始化:统计每个词出现在每个主题所代表的UCL文档中的个数, 将该先验计数作为β的初始值。如公式4所示,公式中N和K分别表示词语总 数和主题总数,UCLk表示属于主题k的UCL文档集合,WORDucl为ucl文档中 的词集合,I(wordn∈WORDucl)表示当前词语是否属于当前ucl内容集合中的词, 若属于则为1,反之为0。
Figure SMS_10
子步骤2-2,初始主题挖掘。将步骤1中生成的文档向量作为输入,以子步 骤2-1中初始化的超参数α和β,采用LDA方法对UCL文档集合UCLD进行主 题挖掘,生成用户潜在兴趣主题集合Topic={topic1,topic2,...,topicK},并得到 UCLD中文档主题后验概率分布θ和主题词语后验概率分布
Figure SMS_11
子步骤2-3,将用户在互联网中实时访问的网页数据按时间分片,设置μ为 时间片的大小,相邻时间片之间文档的主题分布具有一定的相似性,所以某一时 间片内的超参数由上一时间片内的超参数决定,如图2所示为超参数动态更新过程。对于在t时刻爬虫爬取的网页集合Doct={doc1,doc2,...,doci,...},利用当前确 定的超参数αt和βt对文档进行主题挖掘。t时刻相邻的下一时间片(t,t+μ)内的 超参数αt+μ和βt+μ由αt和βt根据文档间的语义相关性转换得到,转换公式如公 式5和公式6所示。
αt+μ=ωα·αt 公式5
βt+μ=ωβ·βt 公式6
其中ωα为新爬取的文档与上一时间片中文档间的语义相似度矩阵,ωβ与该 时间片词语属于上一时间片确定的主题的数量相关。转换矩阵ωα和ωβ如公式7 和公式8所示。
Figure SMS_12
Figure SMS_13
公式7中ωα为K乘K的稀疏矩阵,simm,k表示时间片(t,t+μ)内出现的第m 篇文档与上一时间片内的属于第k个主题的文档的语义相似度最大值。公式8 中ωβ为N乘N的稀疏矩阵,WCWn,m表示第n个词(实体)表现时间片(t,t+μ) 中第m篇文档主题的贡献程度,计算公式参考子步骤1-3。M为时间片(t,t+μ)内 出现的文档总数。相邻时间片间超参数通过转换矩阵计算,每一时间片都生成新 的文档主题后验概率分布θ和主题词语后验概率分布
Figure SMS_14
最终对用户潜在兴趣主 题Topic进行动态更新。如图3所示为DLDA_SE模型概率图。
步骤3,用户兴趣主题挖掘。一般用户搜索语句具有词汇简洁、句子残缺等 特点,且可能包含词库中不存在的新词,若直接利用DLDA_SE模型对该短句进 行主题挖掘,显然会导致结果噪声太大准确性较小。本发明结合DLDA_SE模型 将当前搜索对应的历史查询信息融入搜索句中进行主题挖掘,得到用户搜索意图 主题,并计算其与各个用户潜在兴趣主题的相似度,将相似度最大的若干个潜在兴趣主题作为用户兴趣主题。如图4所示为用户兴趣主题挖掘流程图。具体步骤 如下所示:
子步骤3-1,利用自然语言处理工具对用户搜索短句q进行分词、实体识别 等操作,将q中的停用词去除进行实体识别得到搜索实体集合QE,从而准确获 取与用户搜索语句相关联的历史文档。
子步骤3-2,获取搜索语句q对应的搜索意图主题文档集合。首先获取QE对 应的关联搜索历史文档集合QDOC;然后对QDOC中的文档进行过滤,QDOC 中的文档qdoc是否属于搜索意图主题文档集合IDOC的判断依据是,若qdoc中 对应实体qe(搜索语句q中的实体)的语义权重位于qdoc中所有实体语义权重 的前p位则表示其属于IDOC,若IDOC的大小达到搜索意图主题文档集合中文 档数量阈值th则停止。p的计算公式如公式9所示。
Figure SMS_15
其中distqe表示实体qe在搜索句q中距离句尾的长度,lenq为搜索句q的长 度,|QDOC|为搜索历史文档集合大小,
Figure SMS_16
表示对其中的值向上取整。
子步骤3-3,对用户意图主题文档集合IDOC进行主题挖掘得到用户搜索意 图主题。利用DLDA_SE模型获取IDOC的主题VD,步骤1中已将所有文档转 换为向量表示,所以此处输出的主题VD为向量表示。
子步骤3-4,计算用户搜索意图主题与用户潜在兴趣主题的相似度。余弦相 似度可以有效度量词向量间的相似度,利用公式10求得用户搜索意图主题向量 与用户潜在兴趣主题向量间的相似度。
Figure SMS_17
其中sim(vdq,vdu)表示用户搜索意图主题向量vdq和某个用户潜在兴趣主题 vdu的余弦相似度。最后选择相似度SIM排序的前ε个兴趣主题作为用户兴趣主 题。
基于相同的发明构思,本发明实施例提供的一种基于UCL的用户兴趣主题 挖掘装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机 程序,该计算机程序被加载至处理器时实现上述的基于UCL的用户兴趣主题挖 掘方法。
基于相同的发明构思,本发明实施例提供的一种存储装置,存储有可在处理 器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于UCL 的用户兴趣主题挖掘方法。
针对本发明所提出的基于UCL的用户兴趣主题挖掘方法,下面通过实例进 行验证,具体如下所示:
(1)首先,获取某个用户的搜索历史、浏览历史和书签等网页数据,对数 据进行预处理和UCL标引后得到1000个UCL文档。将这1000个UCL文档利用步骤1中的方法转换为向量表示,例如文档UCLDOC1包含20种内容实体,包 括芯片、半导体、元器件、5G、工作岗位、物资、公司、手机等,计算每个实 体相对于UCLDOC1所表示网页文档的语义权重得到 {0.654,0.568,0.456,0.523,0.579,0.357,0.108,0.091,0.363,0.256,0.189,0.024,0.087,0.367,0.458,0.125,0.134,0.134,0.342,0.357},计算每个实体对于表现该文档主题的贡献程度并归一化得到UCLDOC1的向量表示{0.192,0.129,0.115,0.075,0.067, 0.025,0.011,0.004,0.065,0.050,0.035,0.003,0.011,0.033}。
(2)然后,进行初始用户潜在兴趣主题挖掘。首先进行超参数初始化,初 始时总共预设20个主题,按照步骤2中的方法统计得到超参数α=(α12,...,α20) =(10,30,20,100,165,291,170,452,60,45,70,89,130,245,245,670,50,134,125, 89)和超参数β的值,β为高维稀疏矩阵,此处略。对上一步得到的UCL文档及 其向量表示作为输入进行主题挖掘,得到总共20个用户潜在兴趣主题,每个主 题有4个词语组成,以及对应的向量表示。接下来,对用户潜在兴趣主题模型进行动态更新。本发明将用户在互联网中实时访问的网页数据按时间分片爬取,例 如对6个时间片内访问各大新闻网站进行实时爬取的数据为(951,1195,953,1153,1141,961)。文档预处理和主题挖掘的信息过程和前文类似, 此处只介绍超参数α和β的更新过程。不失一般性,假设对第二个时间片内的主 题挖掘超参数进行更新,计算第二个时间片内产生的每个UCL文档与第一个时 间片内每个UCL文档的相似性,得到α的转换矩阵ωα,统计第二个时间片内词 出现在第一个时间片内主题的次数,得到β的转换矩阵ωβ。分布更新超参数α和 β,对第二个时间片内UCL文档进行主题挖掘。
(3)最后,用户兴趣主题挖掘。利用自然语言处理工具对用户搜索短句q 进行分词、实体识别等操作。例如q=“最新款的苹果价格是多少”,将q中的停 用词去除进行实体识别得到搜索实体集合QE={“苹果”,“价格”},根据QE得到 相关联的历史文档集合QDOC,并利用实体的语义权重对QDOC进行过滤得到搜索意图主题文档集合IDOC。利用DLDA_SE模型获取IDOC的主题VD,计 算搜索意图主题与用户潜在兴趣主题的相似度。最终得到最为接近用户搜索意图 的前3个主题,将这些潜在兴趣主题作为用户兴趣主题。

Claims (8)

1.一种基于UCL的用户兴趣主题挖掘方法,其特征在于,包括如下步骤:
(1)对待挖掘主题的网页文档进行数据清洗、实体识别和UCL标引,计算UCL中每个内容实体在UCL所表示文档中的语义重要程度,利用语义重要程度计算实体对于表现文档主题的贡献程度,从而将文档转换为向量表示;
(2)将用户搜索历史、浏览器浏览历史和浏览器书签转换为对应的文档向量,将其作为输入进行初始主题挖掘,对主题挖掘超参数进行初始化;然后将用户实时访问互联网中的内容产生的流式网络文档按时间分片,计算主题挖掘超参数转移矩阵,从而依次得到每个时间片的用户潜在兴趣主题模型;
(3)将当前搜索对应的历史查询信息融入搜索句中进行主题挖掘,得到用户搜索意图主题,包括:对用户搜索句进行分词和实体识别,得到搜索实体集合并获取与用户搜索语句相关联的历史文档;利用用户搜索实体在搜索句中的语义重要程度对历史文档进行过滤,从而得到搜索意图主题文档集合;对用户意图主题文档集合进行主题挖掘得到用户搜索意图主题;
计算搜索意图主题与用户潜在兴趣主题的相似度,选择相似度排序的前ε个兴趣主题作为用户兴趣主题,ε为设定的参数。
2.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,所述步骤(1)中根据如下公式计算实体对于表现文档主题的贡献程度:
Figure FDA0004193952020000011
其中WCWe,doc表示实体e对于表现文档doc主题的贡献程度,pwe,doc表示实体e对于UCL文档doc的语义重要程度,NDOC表示文档总数,I(pwe,i≥pwe,doc)为指示函数,表示统计pwe,i≥pwe,doc的文档个数。
3.根据权利要求2所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,根据如下公式计算实体对于UCL文档的语义重要程度:
Figure FDA0004193952020000012
其中freq(ce)为实体e的词频,n为UCL文档中实体总数,sj代表中心句,中心句总数为Z,I(ce∈sj)为指示函数,表示ce是否属于sj,α表示调节参数,取值范围为0~1。
4.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,所述步骤(2)中根据如下两个公式分别对主题挖掘超参数α和β进行初始化:
αt+μ=ωα·αt
βt+μ=ωβ·βt
其中超参数α和β分别为LDA主题模型中求解文档在主题上概率分布的参数和主题在词语上概率分布的参数,上标t表示t时刻,μ表示时间片的大小,转换矩阵ωα和ωβ如下:
Figure FDA0004193952020000021
Figure FDA0004193952020000022
其中ωα为K乘K的稀疏矩阵,simm,k表示时间片(t,t+μ)内出现的第m篇文档与上一时间片内的属于第k个主题的文档的语义相似度最大值;ωβ为N乘N的稀疏矩阵,WCWn,m表示第n个词语表现时间片(t,t+μ)中第m篇文档主题的贡献程度,N和K分别表示词语总数和主题总数,M为时间片(t,t+μ)内出现的文档总数。
5.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,初始时刻超参数α和β确定方法为:对于初始时定义的所有K个主题,统计每个主题包含UCL文档的个数,将先验计数作为α的初始值;统计每个词出现在每个主题所代表的UCL文档中的个数,将先验计数作为β的初始值。
6.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,判断关联搜索历史文档集合QDOC中的文档qdoc是否属于搜索意图主题文档集合IDOC的依据是:若qdoc中对应搜索实体qe的语义权重位于qdoc中所有实体语义权重的前p位则表示其属于IDOC,若IDOC的大小达到搜索意图主题文档集合中文档数量阈值th则停止;p的计算公式如下
Figure FDA0004193952020000031
其中distqe表示实体qe在搜索句q中距离句尾的长度,lenq为搜索句q的长度,|QDOC|为搜索历史文档集合大小,
Figure FDA0004193952020000032
表示对其中的值向上取整。
7.一种基于UCL的用户兴趣主题挖掘装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于UCL的用户兴趣主题挖掘方法。
8.一种存储装置,存储有可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于UCL的用户兴趣主题挖掘方法。
CN202010516041.1A 2020-06-09 2020-06-09 一种基于ucl的用户兴趣主题挖掘方法及装置 Active CN111651675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010516041.1A CN111651675B (zh) 2020-06-09 2020-06-09 一种基于ucl的用户兴趣主题挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010516041.1A CN111651675B (zh) 2020-06-09 2020-06-09 一种基于ucl的用户兴趣主题挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN111651675A CN111651675A (zh) 2020-09-11
CN111651675B true CN111651675B (zh) 2023-07-04

Family

ID=72347459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010516041.1A Active CN111651675B (zh) 2020-06-09 2020-06-09 一种基于ucl的用户兴趣主题挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN111651675B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115233B (zh) * 2020-09-27 2024-03-26 北京百度网讯科技有限公司 关系网络生成方法、装置、电子设备及存储介质
US11989193B2 (en) 2021-06-29 2024-05-21 Samsung Electronics Co., Ltd. Method and system for modifying search query for a user
CN113408706B (zh) * 2021-07-01 2022-04-12 支付宝(杭州)信息技术有限公司 训练用户兴趣挖掘模型、用户兴趣挖掘的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法
CN108509517A (zh) * 2018-03-09 2018-09-07 东南大学 一种面向实时新闻内容的流式话题演化跟踪方法
CN108717445A (zh) * 2018-05-17 2018-10-30 南京大学 一种基于历史数据的在线社交平台用户兴趣推荐方法
CN109871464A (zh) * 2019-01-17 2019-06-11 东南大学 一种基于ucl语义标引的视频推荐方法与装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法
CN108509517A (zh) * 2018-03-09 2018-09-07 东南大学 一种面向实时新闻内容的流式话题演化跟踪方法
CN108717445A (zh) * 2018-05-17 2018-10-30 南京大学 一种基于历史数据的在线社交平台用户兴趣推荐方法
CN109871464A (zh) * 2019-01-17 2019-06-11 东南大学 一种基于ucl语义标引的视频推荐方法与装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Jun Yu等.Latent dirichlet allocation based diversified retrieval for e-commerce search.WSDM '14: Proceedings of the 7th ACM international conference on Web search and data mining.2014,第463-472页. *
胡吉明等.基于动态LDA主题模型的内容主题挖掘与演化.图书情报工作.2014,第第58卷卷(第第2期期),第138-142页. *
顾梁等.播存网络环境下UCL推荐多样性优化算法.计算机研究与发展.2017,第第54卷卷(第第8期期),第1631-1643页. *

Also Published As

Publication number Publication date
CN111651675A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
US20220261427A1 (en) Methods and system for semantic search in large databases
WO2019085236A1 (zh) 检索意图识别方法、装置、电子设备及可读存储介质
US8073877B2 (en) Scalable semi-structured named entity detection
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
Manjari et al. Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm
CN103473280B (zh) 一种网络可比语料的挖掘方法
CN102722501B (zh) 搜索引擎及其实现方法
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN112597305B (zh) 基于深度学习的科技文献作者名消歧方法及web端消歧装置
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN107844493B (zh) 一种文件关联方法及系统
Hidayat et al. Automatic text summarization using latent Drichlet allocation (LDA) for document clustering
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
Zaware et al. Text summarization using tf-idf and textrank algorithm
CN111859079B (zh) 信息搜索方法、装置、计算机设备及存储介质
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Ramya et al. DRDLC: discovering relevant documents using latent dirichlet allocation and cosine similarity
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
Khalaf et al. News retrieval based on short queries expansion and best matching
CN113157857B (zh) 面向新闻的热点话题检测方法、装置及设备
Bama et al. Enhancing the search engine results through web content ranking
Chahal et al. An ontology based approach for finding semantic similarity between web documents
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant