CN110489558A - 文章聚合方法和装置、介质和计算设备 - Google Patents

文章聚合方法和装置、介质和计算设备 Download PDF

Info

Publication number
CN110489558A
CN110489558A CN201910787934.7A CN201910787934A CN110489558A CN 110489558 A CN110489558 A CN 110489558A CN 201910787934 A CN201910787934 A CN 201910787934A CN 110489558 A CN110489558 A CN 110489558A
Authority
CN
China
Prior art keywords
article
level
cluster
clusters
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910787934.7A
Other languages
English (en)
Other versions
CN110489558B (zh
Inventor
林靖豪
陈起进
任文静
潘照明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netzhiyi Innovation Technology Co ltd
Original Assignee
Netease Media Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Media Technology Beijing Co Ltd filed Critical Netease Media Technology Beijing Co Ltd
Priority to CN201910787934.7A priority Critical patent/CN110489558B/zh
Publication of CN110489558A publication Critical patent/CN110489558A/zh
Application granted granted Critical
Publication of CN110489558B publication Critical patent/CN110489558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施方式提供了一种由计算设备执行的文章聚合方法。该方法包括:接收多个文章,并提取多个文章各自包含的特征词;基于特征词得到多个文章集合,其中,每个文章集合包含一个或多个文章;对文章集合进行第一次聚类,得到多个一级聚簇;对每个一级聚簇内包含的文章进行第二次聚类,得到每个一级聚簇包含的二级聚簇;以及将一级聚簇和二级聚簇作为文章的聚合结果,输出聚合结果。本发明的方法能够利用计算设备快速准确地对文章进行聚合,从而显著地降低了人力成本和时间成本,提高了实时性、全面性和准确率,为用户带来了更好的体验。此外,本发明的实施方式提供了一种文章聚合装置、一种介质和一种计算设备。

Description

文章聚合方法和装置、介质和计算设备
技术领域
本发明的实施方式涉及计算机领域,更具体地,本发明的实施方式涉及一种文章聚合方法、一种文章聚合装置、一种介质和一种计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着计算机和网络的快速发展,信息的更迭速度越来却快,新闻文章是信息时代传播信息必不可少的重要手段,网络上每天生产的新闻文章数量较多,为了有针对性、并且不重复地给用户推送新闻文章,需要对新闻文章进行聚合,以根据文章聚合结果向用户推送新闻文章。
目前,已经出现一些对文章进行聚合的方式,但是,相关的文章聚合方式存在诸多问题,例如,相关技术中利用人工编辑对文章标记标签然后根据标签进行聚合整理,或者通过用户或媒体反馈来提取文章的关键属性然后根据关键属性进行聚合,但是这种依赖人工的方式存在时效性低、覆盖率有限的问题。
针对相关技术中的上述问题,目前还未提出有效的解决方案。
发明内容
但是,由于现有技术中存在文章聚合方式的时效性低的问题。
因此在现有技术中,文章聚合分类是非常令人烦恼的过程。
为此,非常需要一种改进的文章聚合方法,以降低文章聚合所需的计算时间,提高实时性和准确度,为用户带来了更好的体验。
在本上下文中,本发明的实施方式期望提供一种文章聚合方法、一种文章聚合装置、一种介质和一种计算设备。
在本发明实施方式的第一方面中,提供了一种由计算设备执行的文章聚合方法,包括:接收多个文章,并提取所述多个文章各自包含的特征词;基于所述特征词得到多个文章集合,其中,每个所述文章集合包含一个或多个所述文章;对所述文章集合进行第一次聚类,得到多个一级聚簇;对每个所述一级聚簇内包含的文章进行第二次聚类,得到每个所述一级聚簇包含的二级聚簇;以及将所述一级聚簇和所述二级聚簇作为所述文章的聚合结果,输出所述聚合结果。
在本发明的一个实施例中,所述基于所述特征词得到多个文章集合包括:基于所述特征词得到每个文章包含的多个特征组合,每个所述特征组合包含预定数量的特征词;基于所述多个特征组合得到多个文章集合,其中,将包含同一特征组合的一个或多个文章进行组合形成一个文章集合。
在本发明的另一实施例中,所述对所述文章集合进行第一次聚类,得到多个一级聚簇包括:确定每个文章集合与其余各个文章集合之间的共有文章的数量;将所述文章集合作为节点,基于所述共有文章的数量确定节点间的边的权值;以及基于所述节点和所述边的权值得到多个一级聚簇。
在本发明的又一个实施例中,所述基于所述特征词得到多个文章集合还包括:确定每个所述特征组合的置信度和重要度;其中,确定所述特征组合的置信度包括:确定所述特征组合中的多个特征词之间的相似度,基于所述特征词之间的相似度确定所述特征组合的置信度;其中,确定所述特征组合的重要度包括:确定所述多个文章中包含所述特征组合中的各个特征词的文章的数量,基于所述各个特征词对应的文章的数量确定所述特征组合的重要度;所述对所述文章集合进行第一次聚类,得到多个一级聚簇还包括:判断所述文章集合中的文章中是否包含特定名称词,基于所述判断结果确定语义惩罚系数;以及基于所述置信度、重要度和所述语义惩罚系数对所述边的权值进行修正。
在本发明的再一个实施例中,所述文章聚合方法还包括:对所述多个一级聚簇进行调整,得到多个调整后的一级聚簇,其中,所述对所述多个一级聚簇进行调整包括将所述多个一级聚簇进行合并和/或拆分;所述对每个所述一级聚簇内包含的文章进行第二次聚类包括:对所述多个调整后的一级聚簇内包含的文章进行第二次聚类。
在本发明的再一个实施例中,所述特征词包括关键词;所述将所述多个一级聚簇进行合并包括:基于每个所述一级聚簇包含的文章的关键词,得到每个一级聚簇的关键词集合;确定每个一级聚簇包含的文章的语义向量,并基于所述文章的语义向量确定每个一级聚簇的语义向量;基于所述关键词集合和所述语义向量,确定需要合并的一级聚簇。所述将所述多个一级聚簇进行拆分包括:确定满足预设拆分条件的一级聚簇,其中,所述预设拆分条件包括以下条件中的至少一种:所述一级聚簇包含的文章的数量超过预定数量;所述一级聚簇包含的文章之间的不重叠关键词的数量与所述一级聚簇包含的关键词的总数量的比值大于预定比值;对每个满足预设拆分条件的一级聚簇进行拆分。
在本发明的再一个实施例中,所述对每个所述一级聚簇内包含的文章进行第二次聚类,得到每个所述一级聚簇包含的二级聚簇包括对于每个所述一级聚簇执行以下操作:确定所述一级聚簇内包含的每个文章与其余各个文章之间的语义相似度;将所述文章作为节点,基于所述语义相似度确定节点间的边的权值;基于所述节点以及所述边的权值得到所述一级聚簇包含的二级聚簇。
在本发明的再一个实施例中,所述文章包括标题和正文,所述文章的特征包括标题关键词和正文关键词;所述确定所述一级聚簇内包含的每个文章与其余各个文章之间的语义相似度包括:确定所述每个文章与其余各个文章之间的标题关键词的相似度、正文关键词的相似度、正文关键词的重合度、以及标题的字的重合度;基于所述标题关键词的相似度、所述正文关键词的相似度、所述正文关键词的重合度、以及所述标题的字的重合度得到所述语义相似度。
在本发明实施方式的第二方面中,提供了一种文章聚合装置,包括:特征模块,用于接收多个文章,并提取所述多个文章包含的特征词;集合模块,用于基于所述特征词得到多个文章集合,其中,每个所述文章集合包含一个或多个文章;一次聚类模块,用于对所述文章集合进行第一次聚类,得到多个一级聚簇;二次聚类模块,用于对每个所述一级聚簇内包含的文章进行第二次聚类,得到每个所述一级聚簇包含的二级聚簇;以及结果模块,用于将所述一级聚簇和所述二级聚簇作为所述文章的聚合结果,输出所述聚合结果。
在本发明的一个实施例中,所述集合模块包括:组合子模块,用于基于所述特征词得到多个不同的特征组合,每个所述特征组合包含预定数量的特征词;集合子模块,用于基于每个所述特征组合对应得到一个文章集合,每个所述文章集合由包含与所述文章集合相对应的特征组合中的全部特征词的一个或多个文章组成。
在本发明的另一个实施例中,所述一次聚类模块包括:共有子模块,用于确定每个文章集合与其余各个文章集合之间的共有文章的数量;第一边权子模块,用于将所述文章集合作为节点,基于所述共有文章的数量确定节点间的边的权值;以及第一聚簇子模块,用于基于所述节点和所述边的权值得到多个一级聚簇。
在本发明的又一个实施例中,所述集合模块还包括:置信度子模块,用于确定每个所述特征组合的置信度,其中,确定所述特征组合的置信度包括:确定所述特征组合中的多个特征词之间的相似度,基于所述特征词之间的相似度确定所述特征组合的置信度;重要度子模块,用于确定每个所述特征组合的重要度,其中,确定所述特征组合的重要度包括:确定所述多个文章中包含所述特征组合中的各个特征词的文章的数量,基于所述各个特征词对应的文章的数量确定所述特征组合的重要度;所述一次聚类模块还包括:语义惩罚子模块,用于判断所述文章集合中的文章中是否包含特定名称词,基于所述判断结果确定语义惩罚系数;以及修正子模块,用于基于所述置信度、重要度和所述语义惩罚系数对所述边的权值进行修正。
在本发明的再一个实施例中,所述文章聚合装置还包括:调整模块,用于对所述多个一级聚簇进行调整,得到多个调整后的一级聚簇;其中,所述对所述多个一级聚簇进行调整包括将所述多个一级聚簇进行合并和/或拆分;所述二次聚类模块用于对所述多个调整后的一级聚簇内包含的文章进行第二次聚类,得到每个所述一级聚簇包含的二级聚簇。
在本发明的再一个实施例中,所述调整模块包括:合并子模块,用于基于每个所述一级聚簇包含的文章的关键词,得到每个一级聚簇的关键词集合;确定每个一级聚簇包含的文章的语义向量,并基于所述文章的语义向量确定每个一级聚簇的语义向量;基于所述关键词集合和所述语义向量,确定需要合并的一级聚簇。拆分子模块,用于确定满足预设拆分条件的一级聚簇,其中,所述预设拆分条件包括:所述一级聚簇包含的文章的数量超过预定数量;和/或所述一级聚簇包含的文章之间的不重叠特征词的数量与所述一级聚簇包含的特征词的总数量的比值大于预定比值;以及对每个满足预设拆分条件的一级聚簇进行拆分。
在本发明的再一个实施例中,所述二次聚类模块包括:相似度子模块,用于确定所述一级聚簇内包含的每个文章与其余各个文章之间的语义相似度;第二边权子模块,用于将所述文章作为节点,基于所述语义相似度确定节点间的边的权值;第二聚簇子模块,用于基于所述节点以及所述边的权值得到所述一级聚簇包含的二级聚簇。
在本发明的再一个实施例中,所述文章包括标题和正文,所述文章的特征包括标题关键词和正文关键词;所述相似度子模块具体用于确定所述每个文章与其余各个文章之间的标题关键词的相似度、正文关键词的相似度、正文关键词的重合度、以及标题的字的重合度;以及基于所述标题关键词的相似度、所述正文关键词的相似度、所述正文关键词的重合度、以及所述标题的字的重合度得到所述语义相似度。
在本发明实施方式的第三方面中,提供了一种介质,存储有计算机可执行指令,所述指令在被处理单元执行时用于实现如上所述的文章聚合方法。
在本发明实施方式的第四方面中,提供了一种计算设备,包括:处理单元;以及存储单元,存储有计算机可执行指令,所述指令在被处理单元执行时用于实现如上所述的文章聚合方法。
根据本发明实施方式的文章聚合方法和文章聚合装置,可以利用计算设备提取多个文章的特征词并基于特征词将多个文章划分为多个文章集合,对多个文章集合进行一次聚类得到多个一级聚簇,然后对每个一级聚簇进行二次聚类最终得到文章的聚合结果。基于以上方式,可以快速全面地对文章进行聚合,而无需消耗过多的人工资源和时间,从而显著地降低了人力成本和时间成本,提高了实时性和准确率,为用户带来了更好的体验。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的文章聚合方法及其装置的示例性应用场景;
图2示意性地示出了根据本发明实施例的文章聚合方法的流程图;
图3示意性地示出了根据本发明实施例的基于特征词得到多个文章集合的方法流程图;
图4示意性地示出了根据本发明实施例的第一次聚类的方法流程图;
图5示意性地示出了根据本发明另一实施例的文章聚合方法的流程图;
图6示意性地示出了根据本发明实施例的合并和拆分过程的示意图;
图7示意性地示出了根据本发明实施例的一级聚簇和二级聚簇的示意图;
图8示意性地示出了根据本发明实施例的第二次聚类的方法流程图;
图9示意性地示出了根据本发明实施例的聚合结果的示意图;
图10示意性地示出了根据本发明实施方式的文章聚合装置的框图;
图11示意性地示出了根据本发明实施方式的集合模块的框图;
图12示意性地示出了根据本发明实施方式的一次聚类模块的框图;
图13示意性地示出了根据本发明实施方式的二次聚类模块的框图;
图14示意性地示出了根据本发明实施方式的用于实现文章聚合方法的介质的示意图;以及
图15示意性地示出了根据本发明实施方式的文章聚合计算设备的示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种文章聚合的方法、介质、装置和计算设备。
在本文中,需要理解的是,所涉及的术语主要包括:聚类,表示将对象的集合分成由类似的对象组成的多个类,类也可以称为“聚簇”或者“簇”,同一聚簇中的对象彼此相似。新闻事件,新闻事件一般发生于一个明确的时间点或时间段,且存在明确的、产生了一定变化的相关主体。大部分新闻事件都带有地点要素,但同样也存在一些区域性的、大范围的事件,比如一些国家政策的颁布、全球性的金融事件等,而对于影响力的大小,无论是全球性的重大事件,还是某个小地点的突发交通堵塞,只要超过了形成事件的最低报道量,就可以认为其是一件新闻事件。新闻话题,相较于新闻事件,新闻话题则指其关注度与相关报道数量变化一直比较平缓的,报道中不存在明确的时间点、时间段,或虽然存在时间点、时间段,但内容过于常见,存在多篇聚焦的时间点、时间段并不统一,而内容相似的报道的一类新闻,有时这类新闻甚至没有明确的有变化的主体,如星座方面的内容讨论等。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,相关技术中的文章聚合方式依赖人工标记或反馈,存在耗时较长的问题。
本发明的实施方式提供了一种由计算设备执行的文章聚合方法,包括:接收多个文章,并提取多个文章各自包含的特征词;基于特征词得到多个文章集合,其中,每个文章集合包含一个或多个文章;对文章集合进行第一次聚类,得到多个一级聚簇;对每个一级聚簇内包含的文章进行第二次聚类,得到每个一级聚簇包含的二级聚簇;以及将一级聚簇和二级聚簇作为文章的聚合结果,输出聚合结果。
由于本发明可以利用计算设备提取多个文章的特征词并基于特征词将多个文章划分为多个文章集合,这样,可以基于特征词对文章进行粗略的划分,将不同类型的文章划分进不同的集合中。然后,对多个文章集合进行第一次聚类,得到多个一级聚簇,这样,可以通过对文章集合进行聚类的方式来实现对大量文章的粗聚类,效率较高,快速有效地对大量文章进行聚类,最大程度上实现实时的目标。之后,对每个一级聚簇包含的文章进行第二次聚类,这样,可以对文章进行细聚类,提高文章聚类的精准度,较好地解决了聚簇中的去重问题,避免了在进行文章推荐时出现的重复推荐问题。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1详细阐述本发明实施例的文章聚合方法及其装置的示例性应用场景。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如新闻类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
例如,媒体等新闻文章发布者可以通过终端设备101、102发布新闻文章,终端设备101、102将新闻文章通过网络104上传至服务器105。服务器对接收的新闻文章进行聚合分类,然后根据聚合结果向终端设备103推荐新闻文章,例如,聚合得到多个一级聚簇和每个一级聚簇包含的多个二级聚簇,一级聚簇例如可以包含对于同一新闻事件的多个报道文章,同一个一级聚簇下的二级聚簇例如可以包含对于同一新闻事件的不同方面的报道文章,在进行针对同一新闻事件的文章推荐时,为了避免重复推荐,可以从同一个一级聚簇且不同的二级聚簇中选取文章推荐给用户。
需要说明的是,本发明实施例所提供的文章聚合方法可以由服务器105执行。相应地,本发明实施例所提供的文章聚合装置也可以设置于服务器105中。本发明实施例所提供的文章聚合方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本发明实施例所提供的文章聚合装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
需要说明的是,本发明可以应用于推荐新闻文章的应用场景下。
示例性方法
下面结合图1的应用场景,参考图2至图9来描述根据本发明示例性实施方式的用于文章聚合的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
本发明实施例提供了一种文章聚合方法。
图2示意性地示出了根据本发明实施例的文章聚合方法的流程图。
如图2所示,该文章聚合方法可以包括如下操作:
操作S210,接收多个文章,并提取多个文章各自包含的特征词。
操作S220,基于特征词得到多个文章集合,其中,每个文章集合包含一个或多个文章。
操作S230,对文章集合进行第一次聚类,得到多个一级聚簇。
操作S240,对每个一级聚簇内包含的文章进行第二次聚类,得到每个一级聚簇包含的二级聚簇。
操作S250,将一级聚簇和二级聚簇作为文章的聚合结果,输出聚合结果。
根据本发明的实施例,文章可以是指新闻文章,文章可以包括标题文本、正文文本、作者、地点、类别、图片、视频等信息。对于包含html标签的文章,可以去除html标签。
接收多个文章包括接收一段时间内的多个文章,其中,一段时间例如可以是指一天至三周之间的时间段,例如可以是一天、一周、或者是10天等;多个文章例如可以是指某一个或多个网络平台上的所有文章。
提取得到每个文章各自的特征词。例如,首先,可以对文章的标题文本及正文文本进行分词,并过滤掉标点符号、代词及介词等内容,只保留名词、动词、形容词、组合词等词语,因为名词、动词等词性对应的词语均是有实质性意义词语,因此可以有助于特征词的提炼。然后,可以从以上保留的词语提取多个关键词,例如可以确定每个词语在文章的标题文本和正文文本中出现的频率,然后从中选取出现频率最高的前K个词语作为关键词,其中,K为大于0的正整数,该关键词提取过程可以利用Text Rank算法或者TF-IDF算法完成。对于不同类别的文章可以设置不同的K值。提取的多个关键词可以作为文章的部分特征词,此外,特征词还可以包括实体词,实体词例如可以是指人名、地名、机构名、作品名、专名等词语,例如可以利用基于CRF的命名实体识别模型来提取文章中包含的实体词。
为了便于之后的处理,提取出的特征词可以用向量的形式来表示,考虑到文本在语义上的相似性,可以采用分布式词向量来表示各个特征词,分布式词向量可以使词语的表示融合窗口内共现的上下文词语,能够更好地表示特定语境中词语的含义。其中,词向量可以是基于新闻语料以及利用word2vec模型训练获得,以符合新闻语境下词语分布。
此外,针对不同的文章类别,还可以过滤掉无效的泛化关键词,例如对于社会类别的文章,可以过滤掉“记者”,“生活”、“问题”、“部门”等关键词,因为这些泛化关键词无法成为一篇新闻文章的核心特征,因此可以将这类词语过滤掉。为了更好地识别这些泛化关键词,针对每个类别,例如可以预先提取近半年内的新闻文章,并计算文章中的各个词语的出现频率并按照出现频率进行排序,将其中出现频率较高的若干词语作为泛化关键词。
图3示意性地示出了根据本发明实施例的基于特征词得到多个文章集合的方法流程图。
如图3所示,根据本发明的实施例,操作S220可以包括如下操作:
操作S221,基于特征词得到每个文章包含的多个特征组合,每个特征组合包含预定数量的特征词。
操作S222,基于多个特征组合得到多个文章集合,其中,将包含同一特征组合的一个或多个文章进行组合形成一个文章集合。
由于输入的文章量往往很大(例如某网络平台的日均文章量可达4万),局限于运行时间、计算能力、计算复杂度等的限制,如果直接对全量文章直接进行聚类则会导致计算量巨大、运算时间过长的问题,因此,本发明实施例提供的文章聚合方法先基于特征词将文章划分为多个文章集合,每个文章集合可以包含一个或多个文章,同一个文章可以放入多个不同的文章集合中,其中,文章集合也可称为文章桶,将文章放入进各个文章集合的操作也可称为分桶操作。
首先,确定每个文章的多个核心特征词,对于每个文章,可以将上述选出的K个关键词进行实体词过滤操作,将过滤掉实体词后余下的关键词作为文章的核心特征词。此外,考虑到过滤后的关键词的数量可能不足的情况,还可以从文章的标题文本的分词中随机选取若干个(例如3个)词语作为备选的核心特征词,其中,标题文本的分词同样需要进行实体词过滤操作。
然后,将每个文章的核心特征词进行组合,以得到每个文章对应的多个核心特征词组合。其中,可以将核心特征词以预订数量进行组合,预订数量例如可以是2,则将核心特征词两两排列组合,例如,某个文章的核心特征词包括A、B、C、D、E、F,可以得到AB、AC、AD、...、AF、BC、...、BF、CD、...、EF等核心特征词组合。此外,还可以从多个核心特征词组合中选出预订数量的核心特征词组合,例如,可以将核心特征词按照重要程度排序,根据重要程度从多个核心特征词组合中筛选出较为重要的若干个核心特征词组合,例如,核心特征词按照重要程度排序为A>B>C>D>E>F,核心特征词组合的预订数量为6个,则可以保留其中较为重要的AB、AC、AD、BC、BD、CD六个核心特征词组合。
然后,对于每个核心特征词组合,分别拼接上述的从文章中提取的实体词,拼接后可以得到每个文章对应的多个特征组合。其中,在文章包含多个实体词的情况下,一个核心特征词组合经过拼接后可以得到多个拼接结果。例如,某个文章包括AB、AC、BC三个核心特征词组合,以及包括X、Y两个实体词,则将每个核心特征词组合逐个拼接各个实体词,核心特征词组合AB与实体词X拼接得到特征组合ABX,核心特征词组合AB与实体词Y拼接得到特征组合ABY,核心特征词组合AC与实体词X拼接得到特征组合ACX,以此类推,可以得到对应于该文章的六个特征组合。对于无实体词的文章,每个核心特征组合可以拼接一个“null”的标识作为实体词填充。
通过以上方式可以得到每个文章包含的多个特征组合,然后基于各个文章包含的特征组合,将文章进行组合得到多个文章集合。其中,可以将包含同一特征组合的文章进行组合得到一个文章集合,这样,每个不同的特征组合均可对应得到一个文章集合。其中,一个文章可以被放入多个文章集合中。
例如,多个文章分别为文章N1、文章N2和文章N3,其中,文章N1包含特征组合ABX和ABY,文章N2包含特征组合ABX、ABZ,文章N3包含特征组合ABY、ABZ。由于文章N1和文章N2均包含ABX,则文章N1和文章N2可以形成一个文章集合,由于文章N1和文章N3均包含ABY,则文章N1和文章N3可以形成一个文章集合,由于文章N2和文章N3均包含ABZ,则文章N2和文章N3可以形成一个文章集合。
通过以上的基于特征词得到多个文章集合的方式,可以快速有效地从词语层面将有关联的文章聚合在一起,减少后续的计算时间,降低计算的复杂度。
根据本发明的实施例,基于特征词得到多个文章集合还可以包括:确定每个文章集合对应的特征组合的置信度和重要度。其中,置信度和重要度可以作为以下的第一次聚类过程中每个文章集合的权重,用于对各个文章集合之间的边权值进行修正。
确定特征组合的置信度包括:确定特征组合中的多个特征词之间的相似度,基于特征词之间的相似度确定特征组合的置信度。
置信度(confidence)可以用于描述特征组合的可信程度,如果特征组合包含的若干个特征词过于相似,则这种特征组合类似于单一特征,置信度较低。置信度计算方法如公式(1)所示,
其中,fi表示文章的第i个核心特征词,表示第i个核心特征词的分布式词向量,fj表示文章的第j个核心特征词,表示第j个核心特征词的分布式词向量,ek表示文章的第k个实体词,(fi,fj,ek)为文章的一个特征组合。基于公式(1)可以利用特征词的分布式词向量的余弦相似度来表征一个特征组合中的各个特征词之间的相似度,特征词之间的相似度越高,则这个特征组合的置信度越低。
确定特征组合的重要度包括:确定多个文章中包含特征组合中的各个特征词的文章的数量,基于各个特征词对应的文章的数量确定特征组合的重要度。
重要度(idf_score)可以用于衡量特征组合能否准确地刻画文章的特征,重要度的计算方法如公式(2)所示,
idf_score(fi,fj,ek)=1/(DF(fi)*DF(fj)) (2)
其中,fi表示文章的第i个核心特征词,DF(fi)表示包含特征词fi的文章的数目,fj表示文章的第j个核心特征词,DF(fj)表示包含特征词fj的文章的数目,(fi,fj,ek)为文章的一个特征组合,DF(fi)*DF(fj)乘积越大,则特征组合的重要度越低。
根据本发明的实施例,基于以上方式可以对大量新闻文章进行粗粒度的划分,使得具有相同特征表述的文章划分到同一个文章集合内,同一个文章可以具有多个特征表述,因此可落入多个文章集合内,与多个文章集合产生关系。在这一过程中,确定每个文章的核心特征词,核心特征词融合了文章的关键词及标题中随机抽取的有效分词结果,关键词是文章内容的浓缩,标题是用户的第一关注点所在,两者融合更能反映用户视觉及用户点击阅读的整体感受。然后,对核心特征词进行组合,考虑到不同的类别着重强调不同类型实体带来的影响,因此将文章的实体词添加到核心特征词组合中得到多个特征组合,对特征在实体层面上进行限定。然后,计算特征组合的置信度及重要度,置信度考虑到特征组合的各个词语之间的相似性,通过计算特征间的语义相似度,衡量特征表述是否重叠度过高;重要度考虑到特征组合的重要性。置信度及重要度可以在以下的操作中可以影响文章集合关联图结构中的连接关系,提升事件刻画能力。
图4示意性地示出了根据本发明实施例的第一次聚类的方法流程图。
如图4所示,根据本发明的实施例,操作S230对文章集合进行第一次聚类得到多个一级聚簇可以包括操作S231~操作S233。
在操作S231,确定每个文章集合与其余各个文章集合之间的共有文章的数量。
确定多个文章集合中任意两个文章集合之间共有的文章数量。由于文章集合主要是通过提取特征词构建的,而且每个文章不仅从属于一个文章集合,因此语义相近的文章集合之间,很容易存在共有的文章。如文章集合(地震,火山喷发,夏威夷)和文章集合(喷发,火山,夏威夷)之间就会存在大量的相同文章。
在操作S232,将文章集合作为节点(节点也可称为顶点),基于共有文章的数量确定节点间的边的权值。
在操作S233,基于节点和边的权值得到多个一级聚簇。其中,聚簇是聚类之后的结果,聚簇也可称为类。
基于各个节点和节点间边的权值构建关于文章集合的关联图,以便后续进行聚类算法。在构建关联图的过程中,关联图的顶点为各个文章集合,两个顶点之间用边连接,关联图中的各个边的权值可以基于边两端的两个文章集合之间的共有文章数确定。
根据本发明的实施例,基于共有文章数确定的各条边的权值可以作为基础权值,然后,利用上述的置信度和重要度等信息对各个权值进行修正,具体修正过程如下:
根据本发明的实施例,判断文章集合中的文章是否包含特定名称词,基于判断结果确定语义惩罚系数;基于置信度、重要度和语义惩罚系数对边的权值进行修正。
特定名称词例如可以是兴趣点词,兴趣点词例如可以是公交站、房子等没有具体地理位置的实体词,包含兴趣点词的文章集合语义模糊不准,因此可以通过修正权值的方式对包含兴趣点词的文章集合进行惩罚。特征词之间的语义相似度较高的文章集合(即置信度较低的文章集合)、以及特征词的词频较高的文章集合(即重要度较低的文章集合)也是不可靠的,也可以通过修正权值的方式得到惩罚。
修正的计算方法如公式(3)所示,
其中,v表示基础权值,v’表示修正后的权值,confidence表示文章集合对应的特征组合的置信度,1-confidence表示特征组合的各个特征词之间的语义相似度,idf_score表示文章集合对应的特征组合的重要度,1/idf_score表示特征组合包含的特征词的词频,poi_pun表示兴趣点词惩罚系数,边的两端节点中每有一个文章集合包含兴趣点词,则poi_pun加0.5。
考虑到一条边连接有两个文章集合,因此,公式(3)中的(1-confidence)可以是指边两端的两个文章集合对应的特征组合的语义相似度的加和,即1-confidence=(1-confidence)1+(1-confidence)2,其中,(1-confidence)1和(1-confidence)2分别表示边两端的两个文章集合各自对应的特征组合的语义相似度。同理,公式(3)中的idf_score可以是指边两端的两个文章集合对应的特征组合的词频的加和,即1/idf_score=(1/idf_score)1+(1/idf_score)2,其中,(1/idf_score)1和(1/idf_score)2分别表示边两端的两个文章集合各自对应的特征组合的词频。
公式(3)中的系数confidence、idf_score和poi_pun在计算前均可以进行归一化处理。α为避免后续计算时出现精度问题的尺度常数,本发明实施例中α可取10-4
根据本发明的实施例,可以利用社区发现方法进行第一次聚类分析,该第一次聚类也可称为粗聚类,社区发现方法的复杂度低且灵活性高,可以快速地决定关联图中相关文章集合的边界,快速地将多个关联性比较大的文章集合聚合到一起,形成能够用于相关推荐的一级聚簇,缩小问题规模,以方便后续准确度更高的模型进行调整。
在聚类过程中,可以采用Louvain社区发现算法。该方法主要以经典的社区发现聚类目标函数Modularity作为其聚类目标,无需进行超参数设置调整。同时该算法在聚类过程中会产生多张聚类图,方便后续根据情况选取合适的聚类图。
该聚类的主要思想为贪心法,由于Louvain比较经典,相关文献较多,此处不再赘述。目标函数Modularity函数可以表达如公式(4):
其中,Aij为邻接矩阵,ki和kj分别表示顶点i和j的度,为二值化函数,当顶点i,j属于同一个聚簇时为1,否则为0,m为总边数。
在结果采用过程中,通过计算修正Modularity的方法,对聚类图进行选取。Louvain社区发现由于进行了多重聚类,因此其结果中会包含多张聚类图,且这个聚类图序列中,其Modularity值从小到大增长。一般而言,如果是能够直接采用Louvain社区发现中使用的Modularity值作为目标的,可以直接选取Modularity值最大的最后一张图作为结果。修正后的Modularity值计算方法如公式(5)所示:
其中,di表示顶点i所代表的文章集合内的总文章数量,dj表示顶点j所代表的文章集合内的总文章数量。
但是由于本步骤中所构建的聚类图中,每个顶点还包含了顶点中文章数量多少这个属性。如果聚合起来的文章数量太多,往往暗示了这个聚类是一个新闻话题聚类而不是一个新闻事件聚类。因此,在取得Louvain模型返回的多张图后,对每张图重新计算经过每条边的边权被两端聚类总文章数惩罚后的Modularity值,并选取修正Modularity值最大的一张图作为本次聚类的结果。
如上所述,新闻事件一般发生于一个明确的时间点或时间段,且存在明确的、产生了一定变化的相关主体。大部分新闻事件都带有地点要素,但同样也存在一些区域性的、大范围的事件,比如一些国家政策的颁布、全球性的金融事件等,而对于影响力的大小,无论是全球性的重大事件,还是某个小地点的突发交通堵塞,只要超过了形成事件的最低报道量,就可以认为其是一件新闻事件。相较于新闻事件,新闻话题则指其关注度与相关报道数量变化一直比较平缓的,报道中不存在明确的时间点、时间段,或虽然存在时间点、时间段,但内容过于常见,存在多篇聚焦的时间点、时间段并不统一,而内容相似的报道的一类新闻,有时这类新闻甚至没有明确的有变化的主体,如星座方面的内容讨论等。
根据本发明的实施例,通过以上方式,可以基于各个文章集合的信息进行文章集合关联图的构建,并利用文章集合对应的特征组合的置信度和重要度等信息进行关联图的调整,并利用一种高效的基于图的社区聚类方法对文章集合进行聚类,实现了对大量文章的实时聚类。
图5示意性地示出了根据本发明另一实施例的文章聚合方法的流程图。
如图5所示,根据本发明的实施例,文章聚合方法还可以包括操作S260。
在操作S260,对多个一级聚簇进行调整,得到多个调整后的一级聚簇,其中,对多个一级聚簇进行调整包括将多个一级聚簇进行合并和/或拆分。
根据本发明的实施例,将多个一级聚簇进行合并包括:基于每个一级聚簇包含的文章的关键词,得到每个一级聚簇的关键词集合;确定每个文章的语义向量,并基于文章的语义向量确定每个一级聚簇的语义向量;基于关键词集合和所述语义向量,确定需要合并的一级聚簇。
将多个一级聚簇进行拆分包括:确定满足预设拆分条件的一级聚簇,其中,预设拆分条件包括以下条件中的至少一种:一级聚簇包含的文章的数量超过预定数量;一级聚簇包含的文章之间的不重叠关键词的数量与一级聚簇包含的关键词的总数量的比值大于预定比值。对每个满足预设拆分条件的一级聚簇进行拆分。
图6示意性地示出了根据本发明实施例的合并和拆分过程的示意图。
如图6所示,图中(a)表示第一次聚类的结果,各个圆圈610表示一级聚簇,圆圈610内的元素611表示一级聚簇包含的文章;(b)表示对一级聚簇进行合并后的结果,各个圆圈表示合并后的一级聚簇;(c)表示对合并后的一级聚簇进行拆分的结果,各个圆圈表示合并和拆分调整后的一级聚簇。
由于第一次聚类在应用社区发现方法合并节点过程中,主要参考了节点间重复文章的数量,考虑到依赖重复文章数量进行节点合并过于单一,容易受到特征表达的差异、特征提取偏差等因素的影响使相似文章未能落入同一文章集合内。例如,针对“印尼强震及海啸”的新闻事件,“地震”、“强震”都可能成为不同编辑对新闻文章的描述词,假设每个文章集合只利用一个特征词表示,在经过特征组合后,地震、强震分别代表两个不同的文章集合,同一事件的文章落入两个不同的文章集合内,由于文章集合之间无关联,导致第一次聚类无法将两个文章集合关联起来。因此,本发明实施例的文章聚合方法利用语义等特征,对第一次聚类的结果进行合并操作,以解决上述问题,可以通过以下方式进行合并操作。
第一次聚类后的每个一级聚簇内包含多个文章,每个文章包含多个关键词,则一级聚簇可以看作聚簇内所有文章的关键词的集合,可以选择一级聚簇内出现频数最高的N个关键词作为一级聚簇的关键词集合,其中,N为大于0的正整数,N可以选择较小的值,例如N=5。一级聚簇的整体语义表示B为包含的文章关键词词向量的均值,如公式(6)所示。
其中,表示一级聚簇的整体语义向量,表示一级聚簇包含的第i个文章的语义向量,n为一级聚簇包含的总文章数,每个文章的语义向量可以通过对文章包含的K个关键词的词向量计算均值得到。
根据一级聚簇的关键词集合及整体语义向量,将各个一级聚簇作为节点,计算节点间的边权值并构建关于一级聚簇的关联图。然后利用社区发现方法挖掘一级聚簇关联图中的关系,合并相关度高的若干一级聚簇。
在计算两个一级聚簇之间的边权值的过程中,可以基于一级聚簇的整体语义向量计算一级聚簇之间的相似值,作为关联图中节点的边权值。在本发明实施例中,考虑到节点数量较多,两两计算复杂度较高,耗时较长,所以可以以一级聚簇的关键词集合为参考,计算包含同一关键词的一级聚簇之间的语义相似度。并且,在合并时可以采用一些规则进行控制,例如,考虑到地点是否一致对文章是否属于同一新闻事件的影响,如果两个一级聚簇包含的地点无交集,则不进行合并;如果一级聚簇内包含的文章数量超过数量阈值,表示该一级聚簇可能已经扩大成为一个话题型的一级聚簇,因此控制其不与其他一级聚簇进行合并;如果两个一级聚簇的关键词集合的交集词数为0,则不进行合并;如果两个一级聚簇包含文章的标题关键词的集合的交集词数小于词数阈值,则不进行合并,词数阈值例如可以是2;如果两个一级聚簇之间的语义相似度小于相似度阈值,则不进行合并,该相似度阈值针对不同的文章类别可以有不同的取值。当然,合并规则可以针对不同类别进行略微的调整。基于利用上述规则进行矫正后得到边权值,并利用社区发现方法挖掘一级聚簇关联图中的关系,合并相关度高的一级聚簇。
另一方面,由于部分表述过泛的特征可能容易导致大量文章被合并聚合成为过泛的话题型的一级聚簇,因此需要识别出过泛的话题型一级聚簇,并对话题型一级聚簇进一步地拆分细化,提升在事件层面的准确率。
针对新闻事件,报道文章的数量一定介于一个区间内,超过区间的上界时,必然掺杂噪音,因此如果一级聚簇内文章数过大,认为其是一个话题型一级聚簇,需要进一步拆分。针对新闻事件,新闻文章均围绕同一事件展开,所有文章的关键词重叠度必然很高,因此如果一级聚簇内包含的不重叠关键词的数量和一级聚簇包含的关键词总和的比值大于某个阈值时,认为该一级聚簇内容太过分散,需要进行拆分,则将该一级聚簇拆分为多个聚簇。
针对识别出来的话题型一级聚簇,例如可以利用DBSCAN聚簇算法对其进行拆分,其中,DBSCAN是一种基于密度的聚类方法,可以将一级聚簇中紧密相连的文章划分为一类,将其他文章拆分为其他类,DBSCAN可以对任意形状的稠密数据集进行聚簇,同时不受噪音点的影响,并且DBSCAN不受聚类初始值的影响,并且不需要预先指定聚类个数。
在利用DBSCAN聚簇方法进行拆分后,发明人发现部分描述相近但属于不同地点或实体的文章被划分进一个聚簇,单纯利用DBSCAN聚簇算法无法很好的解决此类问题。因此,本发明实施例对DBSCAN的结果聚簇利用地点、实体等属性进行进一步的拆分,例如,针对社会类别,聚簇内文章数较多且包含地点较多时,可以按照地点进行拆分;针对财经类别,当聚簇内包含较多的机构名时,可以按照机构名进行拆分,例如聚簇内包含多个组织机构的股票动态,可以按照组织机构拆分为多个聚簇。
根据本发明的实施例,基于以上方式,可以对第一次聚类的结果进行调整,提升一级聚簇的准确度。在这一过程中,考虑到第一次聚类主要依赖重复文章数量进行节点合并过于单一,受限于衡量指标及系统误差,原本相似的文章集合无法进行合并,因此采用合并操作来跨越文字层面的限制,使不同描述的相似新闻可以进行合并。考虑到第一次聚类及合并操作容易产生过泛的话题型一级聚簇,因此采用拆分操作对话题型一级聚簇进行识别,并且针对话题型一级聚簇做进一步的拆分,降低话题的聚合粒度,使一级聚簇内的文章之间关系更加紧密。
由于一级聚簇中的多个相关文章中,很可能会出现一些报道过于相近、重复信息过多的文章,为了避免向用户推荐重复的文章造成用户反感,本发明实施例对调整后的每个一级聚簇中的多个文章进行第二次聚类,得到每个一级聚簇包含的多个二级聚簇,即,将一级聚簇中内容相似或重复的文章聚集在一起形成二级聚簇,第二次聚类也可称为细聚类。
图7示意性地示出了根据本发明实施例的一级聚簇和二级聚簇的示意图。
如图7所示,一级聚簇例如可以将关于同一新闻事件的多个报道文章聚集在一起,每个一级聚簇可以代表一个新闻事件。一级聚簇中的各个二级聚簇例如可以将同一新闻事件下的不同方面的新闻文章聚集在一起,每个二级聚簇可以代表一个新闻事件下的一个报道方面,二级聚簇对新闻事件进行更细粒度的划分,识别重复内容与相关内容,可以看作同一新闻事件的不同方面与维度,表达更多的观点及对内容的延伸。在进行新闻文章的推荐时,为了避免重复推荐,落入同一个二级聚簇中的文章将减少推荐。在进行针对同一新闻事件的文章推荐时,可以从同一个一级聚簇的不同二级聚簇中选取文章推荐给用户。
图8示意性地示出了根据本发明实施例的第二次聚类的方法流程图。
如图8所示,根据本发明的实施例,操作S240包括对于每个调整后的一级聚簇执行以下操作。
操作S241,确定一级聚簇内包含的每个文章与其余各个文章之间的语义相似度。
操作S242,将文章作为节点,基于语义相似度确定节点间的边的权值。
操作S243,基于节点以及边的权值得到一级聚簇包含的二级聚簇。
根据本发明的实施例,文章包括标题文本和正文本文,文章的特征词包括标题关键词和正文关键词;
确定一级聚簇内包含的每个文章与其余各个文章之间的语义相似度包括:确定每个文章与其余各个文章之间的标题关键词的相似度、正文关键词的相似度、正文关键词的重合度、以及标题的字的重合度;
基于标题关键词的相似度、正文关键词的相似度、正文关键词的重合度、以及标题的字的重合度得到语义相似度。
根据本发明的实施例,考虑到新闻报道的重复问题,需要在进行第二次聚类过程中进行去重。在进行第二次聚类过程中,可以使用基于密度的图聚类方法进行聚合和去重。在上述调整后的每个一级聚簇内部进行去重聚类,聚类时,可以以文章标题文本、关键词等内容之间的语义相似度作为主要考虑因素,并基于文章之间的语义相似度确定文章关联图的边。
在构建文章关联图的过程中,针对每个一级聚簇,计算一级聚簇内任意两个文章组成的文章对之间的语义相似度,并建立一张关于文章的关联图。其中,语义相似度包括正文关键词的相似度、标题关键词的相似度、正文关键词的重合度以及标题的字的重合度四个部分。
在计算正文关键词的相似度和标题关键词的相似度的过程中,可以先计算多个关键词的词向量的均值向量,而后再计算文章之间的均值向量的余弦相似度。在计算正文关键词的重合度以及标题的字的重合度时,可以计算关键词或字在两个文章中共同出现的次数,作为重合度。然后,可以将这上述四个部分进行统一加权加和、标准化,作为两个文章之间的语义相似度。
在第二次聚类过程中,可以采用Affinity Propagation算法(简称AP算法)进行聚类运算。AP算法的精确度较高但是效率相对于DBSCAN算法稍低,由于每个一级聚簇中文章数量较少,因此AP算法效率低的问题不会造成太大影响。同时,还可以在一级聚簇之间进行并行计算,提高效率。
图9示意性地示出了根据本发明实施例的聚合结果的示意图。
如图9所示,某一个一级聚簇包含关于“北马赛况(北京马拉松赛况)”新闻事件的多个文章,对该一级聚簇进行第二次聚类后得到关于该新闻事件的多个二级聚簇,二级聚簇将关于“北马赛况”的多个文章划分为8个方面。在进行关于该新闻事件的文章推荐时,可以从该一级聚簇的不同二级聚簇中选取文章进行推荐。
综上所述,本发明实施例提供了一种智能化、准确度高、耗费资源少而且实时性高的文章聚合方法。本发明实施例从实时新闻数据出发,从文章中提取关键词、地点、人物、内容语义等信息,并基于这些信息,运用了多层次的聚类方式,对实时的新闻事件进行识别,并对相关的新闻报道进行聚类。本发明实施例既不依赖编辑等人力资源,又能在第一时间就准确地捕捉到新闻事件,并将新闻事件划分为不同方面,从而便于进行后续的新闻推荐,乃至形成新闻事件专题,为用户提供更好的新闻阅读体验。
在本发明实施方式的第二方面中,提供了一种文章聚合装置。
图10示意性地示出了根据本发明实施方式的文章聚合装置300的框图。
如图10所示,该文章聚合装置300包括特征模块310、集合模块320、一次聚类模块330、二次聚类模块340和结果模块350。
特征模块310用于接收多个文章,并提取多个文章包含的特征词。
集合模块320用于基于特征词得到多个文章集合,其中,每个文章集合包含一个或多个文章。
一次聚类模块330用于对文章集合进行第一次聚类,得到多个一级聚簇。
二次聚类模块340用于对每个一级聚簇内包含的文章进行第二次聚类,得到每个一级聚簇包含的二级聚簇。
结果模块350用于将一级聚簇和二级聚簇作为文章的聚合结果,输出聚合结果。
图11示意性地示出了根据本发明实施方式的集合模块320的框图。
如图11所示,根据本发明的实施例,集合模块320包括组合子模块321和集合子模块322。
组合子模块321用于基于特征词得到多个不同的特征组合,每个特征组合包含预定数量的特征词。
集合子模块322用于基于每个特征组合对应得到一个文章集合,每个文章集合由包含与文章集合相对应的特征组合中的全部特征词的一个或多个文章组成。
图12示意性地示出了根据本发明实施方式的一次聚类模块330的框图。
如图12所示,根据本发明的实施例,一次聚类模块330包括共有子模块331、第一边权子模块332和第一聚簇子模块333
共有子模块331用于确定每个文章集合与其余各个文章集合之间的共有文章的数量。
第一边权子模块332用于将文章集合作为节点,基于共有文章的数量确定节点间的边的权值。
第一聚簇子模块333用于基于节点和边的权值得到多个一级聚簇。
根据本发明的实施例,集合模块还包括置信度子模块和重要度子模块。
置信度子模块用于确定每个特征组合的置信度,其中,确定特征组合的置信度包括:确定特征组合中的多个特征词之间的相似度,基于特征词之间的相似度确定特征组合的置信度。
重要度子模块用于确定每个特征组合的重要度,其中,确定特征组合的重要度包括:确定多个文章中包含特征组合中的各个特征词的文章的数量,基于各个特征词对应的文章的数量确定特征组合的重要度。
根据本发明的实施例,一次聚类模块还包括语义惩罚子模块和修正子模块。
语义惩罚子模块用于判断文章集合中的文章中是否包含特定名称词,基于判断结果确定语义惩罚系数。
修正子模块用于基于置信度、重要度和语义惩罚系数对边的权值进行修正。
根据本发明的实施例,文章聚合装置还可以包括调整模块。调整模块用于对多个一级聚簇进行调整,得到多个调整后的一级聚簇。
其中,对多个一级聚簇进行调整包括将多个一级聚簇进行合并和/或拆分。二次聚类模块用于对多个调整后的一级聚簇内包含的文章进行第二次聚类,得到每个一级聚簇包含的二级聚簇。
根据本发明的实施例,调整模块包括合并子模块和拆分子模块。
合并子模块用于基于每个所述一级聚簇包含的文章的关键词,得到每个一级聚簇的关键词集合;确定每个文章的语义向量,并基于所述文章的语义向量确定每个一级聚簇的语义向量;基于所述关键词集合和所述语义向量,确定需要合并的一级聚簇。
拆分子模块用于确定满足预设拆分条件的一级聚簇,其中,预设拆分条件包括:一级聚簇包含的文章的数量超过预定数量;和/或一级聚簇包含的文章之间的不重叠特征词的数量与一级聚簇包含的特征词的总数量的比值大于预定比值;以及对每个满足预设拆分条件的一级聚簇进行拆分。
图13示意性地示出了根据本发明实施方式的二次聚类模块340的框图。
如图13所示,根据本发明的实施例,二次聚类模块340包括相似度子模块341、第二边权子模块342和第二聚簇子模块343。
相似度子模块341用于确定一级聚簇内包含的每个文章与其余各个文章之间的语义相似度;
第二边权子模块342用于将文章作为节点,基于语义相似度确定节点间的边的权值;
第二聚簇子模块343用于基于节点以及边的权值得到一级聚簇包含的二级聚簇。
根据本发明的实施例,文章包括标题和正文,文章的特征包括标题关键词和正文关键词。
相似度子模块具体用于确定每个文章与其余各个文章之间的标题关键词的相似度、正文关键词的相似度、正文关键词的重合度、以及标题的字的重合度;以及基于标题关键词的相似度、正文关键词的相似度、正文关键词的重合度、以及标题的字的重合度得到语义相似度。
需要说明的是,本发明的实施例中文章聚合装置部分与本发明的实施例中文章聚合方法部分是相对应的,文章聚合装置部分的描述具体参考文章聚合方法部分,在此不再赘述。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,参考图14对本发明示例性实施方式的、用于实现该方法实施例中任一项的文章聚合方法的程序产品进行描述。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算设备上运行时,所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于文章聚合方法中的步骤,例如,所述计算设备可以执行如图2中所示的操作S210:接收多个文章,并提取多个文章各自包含的特征词;操作S220:基于特征词得到多个文章集合,其中,每个文章集合包含一个或多个文章;操作S230:对文章集合进行第一次聚类,得到多个一级聚簇;操作S240:对每个一级聚簇内包含的文章进行第二次聚类,得到每个一级聚簇包含的二级聚簇;操作S250:将一级聚簇和二级聚簇作为文章的聚合结果,输出聚合结果。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图14所示,描述了根据本发明的实施方式的用于文章聚合的程序产品40,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”,语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图15介绍根据本发明的一示例性实施方式的文章聚合的计算设备。
本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的文章聚合方法中的步骤。例如,所述处理单元可以执行如图2中所示的操作S210:接收多个文章,并提取多个文章各自包含的特征词;操作S220:基于特征词得到多个文章集合,其中,每个文章集合包含一个或多个文章;操作S230:对文章集合进行第一次聚类,得到多个一级聚簇;操作S240:对每个一级聚簇内包含的文章进行第二次聚类,得到每个一级聚簇包含的二级聚簇;操作S250:将一级聚簇和二级聚簇作为文章的聚合结果,输出聚合结果。
下面参照图15来描述根据本发明的这种实施方式的文章聚合的计算设备50。如图15所示的计算设备50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图15所示,计算设备50以通用计算设备的形式表现。计算设备50的组件可以包括但不限于:上述至少一个处理单元501、上述至少一个存储单元502、连接不同系统组件(包括存储单元502和处理单元501)的总线503。
总线503包括数据总线、地址总线和控制总线。
存储单元502可以包括易失性存储器,例如随机存取存储器(RAM)5021和/或高速缓存存储器5022,还可以进一步包括只读存储器(ROM)5023。
存储单元502还可以包括具有一组(至少一个)程序模块5024的程序/实用工具5025,这样的程序模块5024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备50也可以与一个或多个外部设备504(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口505进行。并且,计算设备50还可以通过网络适配器506与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器506通过总线503与计算设备50的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种由计算设备执行的文章聚合方法,包括:
接收多个文章,并提取所述多个文章各自包含的特征词;
基于所述特征词得到多个文章集合,其中,每个所述文章集合包含一个或多个所述文章;
对所述文章集合进行第一次聚类,得到多个一级聚簇;
对每个所述一级聚簇内包含的文章进行第二次聚类,得到每个所述一级聚簇包含的二级聚簇;以及
将所述一级聚簇和所述二级聚簇作为所述文章的聚合结果,输出所述聚合结果。
2.根据权利要求1所述的方法,其中,所述基于所述特征词得到多个文章集合包括:
基于所述特征词得到每个文章包含的多个特征组合,每个所述特征组合包含预定数量的特征词;
基于所述多个特征组合得到多个文章集合,其中,将包含同一特征组合的一个或多个文章进行组合形成一个文章集合。
3.根据权利要求2所述的方法,其中,所述对所述文章集合进行第一次聚类,得到多个一级聚簇包括:
确定每个文章集合与其余各个文章集合之间的共有文章的数量;
将所述文章集合作为节点,基于所述共有文章的数量确定节点间的边的权值;以及
基于所述节点和所述边的权值得到多个一级聚簇。
4.根据权利要求3所述的方法,其中:
所述基于所述特征词得到多个文章集合还包括:
确定每个所述特征组合的置信度和重要度;
其中,确定所述特征组合的置信度包括:确定所述特征组合中的多个特征词之间的相似度,基于所述特征词之间的相似度确定所述特征组合的置信度;
其中,确定所述特征组合的重要度包括:确定所述多个文章中包含所述特征组合中的各个特征词的文章的数量,基于所述各个特征词对应的文章的数量确定所述特征组合的重要度;
所述对所述文章集合进行第一次聚类,得到多个一级聚簇还包括:
判断所述文章集合中的文章中是否包含特定名称词,基于所述判断结果确定语义惩罚系数;以及
基于所述置信度、重要度和所述语义惩罚系数对所述边的权值进行修正。
5.根据权利要求1所述的方法,其中:
所述文章聚合方法还包括:对所述多个一级聚簇进行调整,得到多个调整后的一级聚簇,其中,所述对所述多个一级聚簇进行调整包括将所述多个一级聚簇进行合并和/或拆分;
所述对每个所述一级聚簇内包含的文章进行第二次聚类包括:对所述多个调整后的一级聚簇内包含的文章进行第二次聚类。
6.根据权利要求5所述的方法,其中:
所述特征词包括关键词;
所述将所述多个一级聚簇进行合并包括:
基于每个一级聚簇包含的文章的关键词,得到每个一级聚簇的关键词集合;
确定每个一级聚簇包含的文章的语义向量,并基于所述文章的语义向量确定每个一级聚簇的语义向量;
基于所述关键词集合和所述语义向量,确定需要合并的一级聚簇。
所述将所述多个一级聚簇进行拆分包括:
确定满足预设拆分条件的一级聚簇,其中,所述预设拆分条件包括以下条件中的至少一种:所述一级聚簇包含的文章的数量超过预定数量;所述一级聚簇包含的文章之间的不重叠关键词的数量与所述一级聚簇包含的关键词的总数量的比值大于预定比值;
对每个满足预设拆分条件的一级聚簇进行拆分。
7.根据权利要求1所述的方法,其中:所述对每个所述一级聚簇内包含的文章进行第二次聚类,得到每个所述一级聚簇包含的二级聚簇包括对于每个所述一级聚簇执行以下操作:
确定所述一级聚簇内包含的每个文章与其余各个文章之间的语义相似度;
将所述文章作为节点,基于所述语义相似度确定节点间的边的权值;
基于所述节点以及所述边的权值得到所述一级聚簇包含的二级聚簇。
8.一种文章聚合装置,包括:
特征模块,用于接收多个文章,并提取所述多个文章包含的特征词;
集合模块,用于基于所述特征词得到多个文章集合,其中,每个所述文章集合包含一个或多个文章;
一次聚类模块,用于对所述文章集合进行第一次聚类,得到多个一级聚簇;
二次聚类模块,用于对每个所述一级聚簇内包含的文章进行第二次聚类,得到每个所述一级聚簇包含的二级聚簇;以及
结果模块,用于将所述一级聚簇和所述二级聚簇作为所述文章的聚合结果,输出所述聚合结果。
9.一种介质,存储有计算机可执行指令,所述指令在被处理单元执行时用于实现权利要求1至7中任一项所述的文章聚合方法。
10.一种计算设备,包括:
处理单元;以及
存储单元,存储有计算机可执行指令,所述指令在被处理单元执行时用于实现权利要求1至7中任一项所述的文章聚合方法。
CN201910787934.7A 2019-08-23 2019-08-23 文章聚合方法和装置、介质和计算设备 Active CN110489558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910787934.7A CN110489558B (zh) 2019-08-23 2019-08-23 文章聚合方法和装置、介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910787934.7A CN110489558B (zh) 2019-08-23 2019-08-23 文章聚合方法和装置、介质和计算设备

Publications (2)

Publication Number Publication Date
CN110489558A true CN110489558A (zh) 2019-11-22
CN110489558B CN110489558B (zh) 2022-03-18

Family

ID=68554034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910787934.7A Active CN110489558B (zh) 2019-08-23 2019-08-23 文章聚合方法和装置、介质和计算设备

Country Status (1)

Country Link
CN (1) CN110489558B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488490A (zh) * 2020-03-31 2020-08-04 北京奇艺世纪科技有限公司 视频聚类方法、装置、服务器及存储介质
CN111694952A (zh) * 2020-04-16 2020-09-22 国家计算机网络与信息安全管理中心 一种基于微博的大数据分析模型系统及其实现方法
CN111797222A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 课程知识图谱构建方法、装置、终端及存储介质
CN111813897A (zh) * 2020-07-14 2020-10-23 深圳市卡牛科技有限公司 一种文章显示的方法、装置、服务器及存储介质
CN112380344A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN112650852A (zh) * 2021-01-06 2021-04-13 广东泰迪智能科技股份有限公司 一种基于命名实体和ap聚类的事件归并方法
CN113408660A (zh) * 2021-07-15 2021-09-17 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质
WO2022126944A1 (zh) * 2020-12-17 2022-06-23 上海朝阳永续信息技术股份有限公司 用于文本聚类的方法、电子设备和存储介质
CN116167455A (zh) * 2022-12-27 2023-05-26 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质
CN113408660B (zh) * 2021-07-15 2024-05-24 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270830A1 (en) * 2010-04-30 2011-11-03 Palo Alto Research Center Incorporated System And Method For Providing Multi-Core And Multi-Level Topical Organization In Social Indexes
US20130268535A1 (en) * 2011-09-15 2013-10-10 Kabushiki Kaisha Toshiba Apparatus and method for classifying document, and computer program product
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270830A1 (en) * 2010-04-30 2011-11-03 Palo Alto Research Center Incorporated System And Method For Providing Multi-Core And Multi-Level Topical Organization In Social Indexes
US20130268535A1 (en) * 2011-09-15 2013-10-10 Kabushiki Kaisha Toshiba Apparatus and method for classifying document, and computer program product
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴勇等: "基于语境和语义的中文文本聚类算法研究", 《科技信息》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488490A (zh) * 2020-03-31 2020-08-04 北京奇艺世纪科技有限公司 视频聚类方法、装置、服务器及存储介质
CN111694952A (zh) * 2020-04-16 2020-09-22 国家计算机网络与信息安全管理中心 一种基于微博的大数据分析模型系统及其实现方法
CN111797222A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 课程知识图谱构建方法、装置、终端及存储介质
CN111797222B (zh) * 2020-06-29 2023-12-22 平安国际智慧城市科技股份有限公司 课程知识图谱构建方法、装置、终端及存储介质
CN111813897A (zh) * 2020-07-14 2020-10-23 深圳市卡牛科技有限公司 一种文章显示的方法、装置、服务器及存储介质
CN112380344B (zh) * 2020-11-19 2023-08-22 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN112380344A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
WO2022126944A1 (zh) * 2020-12-17 2022-06-23 上海朝阳永续信息技术股份有限公司 用于文本聚类的方法、电子设备和存储介质
CN112650852A (zh) * 2021-01-06 2021-04-13 广东泰迪智能科技股份有限公司 一种基于命名实体和ap聚类的事件归并方法
CN113408660A (zh) * 2021-07-15 2021-09-17 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质
CN113408660B (zh) * 2021-07-15 2024-05-24 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质
CN116167455A (zh) * 2022-12-27 2023-05-26 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质
CN116167455B (zh) * 2022-12-27 2023-12-22 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110489558B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN110489558A (zh) 文章聚合方法和装置、介质和计算设备
US20210165955A1 (en) Methods and systems for modeling complex taxonomies with natural language understanding
JP5879260B2 (ja) マイクロブログメッセージの内容を分析する方法及び装置
Oussalah et al. A software architecture for Twitter collection, search and geolocation services
CA2903889C (en) System and method for natural language processing
CN110119473B (zh) 一种目标文件知识图谱的构建方法及装置
CN105740366A (zh) 微博用户兴趣推理方法及装置
JP2006059352A (ja) ドキュメントを要約する方法およびシステム
Villata et al. Thirty years of artificial intelligence and law: the third decade
US20220129636A1 (en) Cascaded fact-based summarization
CN104598539A (zh) 一种互联网事件热度计算方法及终端
CN108960944A (zh) 用户评价处理方法及装置、计算机可读介质、电子设备
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN107526718A (zh) 用于生成文本的方法和装置
CN110473073A (zh) 线性加权推荐的方法及装置
CN109522410A (zh) 文档聚类方法及平台、服务器和计算机可读介质
CN117332852A (zh) 基于知识图谱的大模型训练部署方法及系统
CN117291722A (zh) 对象管理方法、相关设备及计算机可读介质
US11544277B2 (en) Query term expansion and result selection
Mi et al. Text Mining Attitudes toward Climate Change: Emotion and Sentiment Analysis of the Twitter Corpus
CN113536772A (zh) 一种文本处理方法、装置、设备及存储介质
CN112926295A (zh) 模型推荐方法和装置
Kenekayoro et al. Motivation for hyperlink creation using inter-page relationships
CN111428118B (zh) 一种检测事件可靠性的方法及电子设备
CN117216193B (zh) 基于大语言模型的可控文本生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221223

Address after: Room 305, Building 3, No. 399, Wangshang Road, Changhe Street, Binjiang District, Hangzhou City, Zhejiang Province, 310052

Patentee after: Hangzhou Netzhiyi Innovation Technology Co.,Ltd.

Address before: 100084 5th floor, block a, building 7, West Zhongguancun Software Park, yard 10, northwest Wangdong Road, Haidian District, Beijing

Patentee before: NETEASE MEDIA TECHNOLOGY (BEIJING) Co.,Ltd.