CN114138968A - 一种网络热点的挖掘方法、装置、设备及存储介质 - Google Patents

一种网络热点的挖掘方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114138968A
CN114138968A CN202111485863.9A CN202111485863A CN114138968A CN 114138968 A CN114138968 A CN 114138968A CN 202111485863 A CN202111485863 A CN 202111485863A CN 114138968 A CN114138968 A CN 114138968A
Authority
CN
China
Prior art keywords
text data
text
target
texts
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111485863.9A
Other languages
English (en)
Inventor
徐灿
杨迪
刘绩刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111485863.9A priority Critical patent/CN114138968A/zh
Publication of CN114138968A publication Critical patent/CN114138968A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种网络热点的挖掘方法、装置、设备及存储介质,相关实施例可应用于云技术、人工智能以及智慧交通等各种场景,用于提高发现网络热点的准确性。本申请实施例方法包括:从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据,根据选词条件从基础文本数据、第一文本数据以及第二文本数据中确定若干个目标突发词,从基础文本数据中获取包含有至少一个目标突发词的候选文本数据,对候选文本数据进行文本聚合处理,得到若干个目标文本类以及每个目标文本类中的若干个文本,根据目标文本类中的若干个目标文本生成主题词语,并将主题词语作为网络热点。

Description

一种网络热点的挖掘方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种网络热点的挖掘方法、装置、设备及存储介质。
背景技术
随着互联网的发展,越来越多的网站引入了用户生成内容(User GeneratedContent,简称为UGC)功能,人们的参与度不断地提高,用户可以通过电脑、手机登录至各大社区论坛、微博或贴吧中随时随地地发布自己的所见所闻并实现即时分享,或发表自己的评论或爆料各类新闻等,使得每天都有成千上万的话题从互联网上产生,如何更快速的从互联网海量信息中获取网络热点,将对了解社会发展形势、掌握舆论动态起到指导性作用。
目前,网络热点挖掘方法是通常是采用词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)的增量聚类方式,而对文本进行增量聚类处理主要是通过按照文本数据的输入顺序依次将每一条文本数据与已有类别进行匹配,若匹配成功则将该条数据归入该类别,若匹配失败则创建一个新类别存放该数据,然后在聚好的类中挖掘TF-IDF高的词作为网络热点。
但是,由于海量的UGC文本中大部分是不相关的非热点评论数据,且UGC数据表述多样,同一个意思的两个文本所使用的文本长度、文本词汇可能差别很大,因此,对海量的UGC文本进行增量聚类,不仅会形成成千上万个类别,而且找到的TF-IDF高的词可能来源于非热点评论,或者可能不是真正有价值的热点内容,导致热点挖掘的准确率不高,从而导致发现网络热点的效果并不理想。
发明内容
本申请实施例提供了一种网络热点的挖掘方法、装置、设备及存储介质,用于能够通过包含有目标突发词的候选文本有效过滤掉大量的非热点评论的文本,使得基于包含有目标突发词的候选文本进行文本聚类,能够更好地形成有挖掘价值的文本类别,提高聚类效率,从而能够聚类结果生成主题词语作为网络热点,提高发现网络热点的准确率以及效率。
本申请实施例一方面提供了一种网络热点的挖掘方法,包括:
从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据,其中,第一历史时段为历史日期中与目标时段为相同时间段的且相同时长的若干个时间段,第二历史时段为目标日期内目标时段之前的相同时长的若干个时间段;
根据选词条件从基础文本数据、第一文本数据以及第二文本数据中确定若干个目标突发词;
从基础文本数据中获取包含有至少一个目标突发词的候选文本数据;
对候选文本数据进行文本聚类,得到若干个目标文本类以及每个目标文本类中的若干个文本;
根据目标文本类中的若干个目标文本生成主题词语,并将主题词语作为网络热点,其中,主题词语用于表示目标文本类的主题类型。
本申请另一方面提供了一种网络热点的挖掘装置,包括:
获取单元,用于从原始文本数据中获取目标时段对应的基础文本数据,第一历史时段对应的第一文本数据,以及第二历史时段对应的第二文本数据,其中,第一历史时段为历史日期中与目标时段为相同时间段的且相同时长的若干个时间段,第二历史时段为目标日期内目标时段之前的相同时长的若干个时间段;
确定单元,用于根据基础文本数据、第一文本数据以及第二文本数据确定满足选词条件的若干个目标突发词;
获取单元,还用于从基础文本数据中获取包含有至少一个目标突发词的候选文本数据;
处理单元,用于对候选文本数据进行文本聚类,得到若干个目标文本类以及每个目标文本类中的若干个文本;
处理单元,还用于根据目标文本类中的若干个目标文本生成主题词语,并将主题词语作为网络热点,其中,主题词语用于表示目标文本类的主题类型。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,获取单元具体可以用于:
将原始文本数据输入至文本识别模型,通过文本识别模型输出文本概率;
根据文本概率对原始文本数据进行文本过滤,得到第一过滤文本数据;
对第一过滤文本数据进行文本聚类,得到若干个基础文本类以及每个基础文本类中的若干个文本;
根据文本数量阈值分别对每个基础文本类中的若干个文本进行文本过滤,得到第二过滤文本数据;
按照时间维度,从第二过滤文本数据中获取基础文本数据、第一文本数据以及第二文本数据。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,获取单元具体可以用于:
对每个基础文本类中的若干个文本进行对象分组,得到每个目标对象对应的若干个文本;
将文本数量大于第一文本数量阈值的每个目标对象对应的若干个文本进行文本过滤,得到若干个过滤文本;
对若干个过滤文本进行目标主题分组,得到每个目标主题对应的若干个文本;
将文本数量大于第二文本数量阈值的每个目标主题对应的若干个文本进行文本过滤,得到第二过滤文本数据。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
根据第一选词条件从基础文本数据以及第一文本数据中确定第一突发词集;
根据第二选词条件从基础文本数据以及第二文本数据中确定第二突发词集;
将第一突发词集与第二突发词集的交集中的词语作为若干个目标突发词。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
计算第一文本数据的均值和标准差,并根据均值和标准差确定第一候选指标;
获取第一文本数据的下四分位数和上四分位数,并根据四分位数和上四分位数确定第二候选指标;
根据第一候选指标以及第二候选指标,从基础文本数据中筛选出若干个第一候选词,得到第一突发词集。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
根据预设权重值计算第二文本数据的指数移动加权平均和指数移动加权方差;
根据指数移动加权平均和指数移动加权方差确定第三候选指标;
根据第三候选指标从基础文本数据中筛选出若干个第二候选词,得到第二突发词集。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
获取单元,还用于根据网络热点以及网络热点对应的若干个目标文本,生成热点摘要和以及每个热点摘要对应的热点详情;
处理单元,还用于向目标终端设备推送热点摘要;
处理单元,还用于当接收到与热点摘要相对应的触控信号时,向目标终端设备展示热点详情。
本申请另一方面提供了一种计算机设备,包括:存储器、收发器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序时实现如上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据,可以根据选词条件从基础文本数据、第一文本数据以及第二文本数据中确定若干个目标突发词,并从基础文本数据中获取包含有至少一个目标突发词的候选文本数据,然后,可以对候选文本数据进行文本聚合处理,以获取若干个目标文本类以及每个目标文本类中的若干个文本,可以根据目标文本类中的若干个目标文本生成主题词语,并将主题词语作为网络热点。通过上述方式,能够从基础文本数据、第一文本数据以及第二文本数据筛选出能够反映目标时段中出现频率较高,具有挖掘价值的词汇目标突发词,可以通过包含有目标突发词的候选文本有效过滤掉大量的非热点评论的文本,使得基于包含有目标突发词的候选文本进行文本聚类,能够更好地形成有挖掘价值的文本类别,提高聚类效率,从而能够聚类结果生成主题词语作为网络热点,提高发现网络热点的准确率以及效率。
附图说明
图1本申请实施例中网络数据控制系统的一个架构示意图;
图2是本申请实施例中网络热点的挖掘方法的一个实施例流程图;
图3是本申请实施例中网络热点的挖掘方法的另一个实施例流程图;
图4是本申请实施例中网络热点的挖掘方法的另一个实施例流程图;
图5是本申请实施例中网络热点的挖掘方法的另一个实施例流程图;
图6是本申请实施例中网络热点的挖掘方法的另一个实施例流程图;
图7是本申请实施例中网络热点的挖掘方法的另一个实施例流程图;
图8是本申请实施例中网络热点的挖掘方法的一个原理流程示意图;
图9是本申请实施例中网络热点的挖掘方法的一个文本过滤流程示意图;
图10是本申请实施例中网络热点的挖掘方法的一个突发词检测效果示意图;
图11(a)是本申请实施例中网络热点的挖掘方法的一个突发词同比检测示意图;
图11(b)是本申请实施例中网络热点的挖掘方法的一个突发词环比检测示意图;
图12是本申请实施例中网络热点的挖掘方法的一个文本相似度计算模型结构示意图;
图13是本申请实施例中网络热点的挖掘方法的一个热点摘要界面示意图;
图14是本申请实施例中网络热点的挖掘方法的一个热点详情界面示意图;
图15是本申请实施例中网络热点的挖掘装置的一个实施例示意图;
图16是本申请实施例中计算机设备的一个实施例示意图。
具体实施方式
本申请实施例提供了一种网络热点的挖掘方法、装置、设备及存储介质,用于能够通过包含有目标突发词的候选文本有效过滤掉大量的非热点评论的文本,使得基于包含有目标突发词的候选文本进行文本聚类,能够更好地形成有挖掘价值的文本类别,提高聚类效率,从而能够聚类结果生成主题词语作为网络热点,提高发现网络热点的准确率以及效率。
本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
而随着信息的飞速发展,云技术(Cloud technology)也逐渐走入人们生活的方方面面。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
其中,云安全(Cloud Security)是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。本申请实施例提供的网络热点的挖掘方法就可以通过云计算技术以及云安全技术来实现。
下面对本申请实施例中涉及的部分概念进行介绍。
UGC:用户生成内容,比如用户在各大社区论坛或贴吧等渠道发表的评论。
热点:大量用户在短时间内参与讨论热度比较高的话题或者观点,即短时间内UGC数据中有大量的相关话题讨论。
应理解,本申请提供的网络热点的挖掘方法可以应用于云技术、人工智能、智慧交通等领域,用于通过挖掘海量UGC数据中的网络热点完成突发事件预警或热点推送等场景。作为示例,例如挖掘海量UGC数据中的网络热点通过热点服务程序向订阅热点信息的目标对象推送热点信息。作为另一个示例,例如通过挖掘海量UGC数据中的网络热点生成突发事件预警提示管理人员进行网络维护。作为再一示例,例如通过挖掘海量UGC数据中的网络热点生成热门话题或广告投放至网络平台。在上述种种场景中,为了完成网络热点的挖掘,通常是采用词频-逆文本频率指数的增量聚类方式,在聚好的类中挖掘TF-IDF高的词作为网络热点,但是,由于海量的UGC文本中大部分是不相关的非热点评论数据,且UGC数据表述多样,因此,对海量的UGC文本进行增量聚类,找到的TF-IDF高的词可能不是真正有价值的热点内容,从而导致发现网络热点的效果并不理想。
为了解决上述问题,本申请提出了一种网络热点的挖掘方法,该方法应用于图1所示的网络数据控制系统,请参阅图1,图1为本申请实施例中网络数据控制系统的一个架构示意图,如图1所示,服务器通过从终端设备获取原始文本数据,从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据,可以根据选词条件从基础文本数据、第一文本数据以及第二文本数据中确定若干个目标突发词,并从基础文本数据中获取包含有至少一个目标突发词的候选文本数据,然后,可以对候选文本数据进行文本聚合处理,以获取若干个目标文本类以及每个目标文本类中的若干个文本,可以根据目标文本类中的若干个目标文本生成主题词语,并将主题词语作为网络热点。通过上述方式,能够从基础文本数据、第一文本数据以及第二文本数据筛选出能够反映目标时段中出现频率较高,具有挖掘价值的词汇目标突发词,可以通过包含有目标突发词的候选文本有效过滤掉大量的非热点评论的文本,使得基于包含有目标突发词的候选文本进行文本聚类,能够更好地形成有挖掘价值的文本类别,提高聚类效率,从而能够聚类结果生成主题词语作为网络热点,提高发现网络热点的准确率以及效率。
可以理解的是,图1中仅示出了一种终端设备,在实际场景中可以由更多种类的终端设备参与到数据处理的过程中,终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等,具体数量和种类因实际场景而定,具体此处不做限定。另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多模型训练交互的场景中,服务器的数量因实际场景而定,具体此处不做限定。
需要注意的是,本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端设备以及服务器可以连接组成区块链网络,本申请在此不做限制。
为了解决上述问题,本申请提出了一种网络热点的挖掘方法,该方法一般由服务器或终端设备执行,相应地,应用于网络热点的挖掘装置一般设置于服务器或终端设备中。
可以理解的是,如本申请所公开的网络热点的挖掘方法、装置、设备及存储介质,其中多个服务器或终端设备可以组成为一区块链,而服务器或终端设备为区块链上的节点。在实际应用中,可以在区块链中需要进行节点与节点之间的数据共享,每个节点上可以存储有网络数据和文本数据等。
下面将对本申请中网络热点的挖掘方法进行介绍,请参阅图2,本申请实施例中网络热点的挖掘方法一个实施例包括:
在步骤S101中,从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据,其中,第一历史时段为历史日期中与目标时段为相同时间段的且相同时长的若干个时间段,第二历史时段为目标日期内目标时段之前的相同时长的若干个时间段;
在本实施例中,由于一个热点的发生,必然有多条文本在短时间内同时出现,也必然带来相关词频和目标对象(如发帖人)的人数的异常突增,因此,可以从词频的波动变化检测目标时段的热点事件,当获取到原始文本数据后,可以从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据。
其中,目标时段具体可以表现为待挖掘网络热点的时间段,例如,假设待挖掘网络热点的时间段为“2021.06.15的22:00至23:00”。第一历史时段是指在历史日期中与目标时段为相同时间段的且相同时长的若干个时间段,例如,历史日期“2021.06.01至2021.06.14”中每天的22:00至23:00的这14个时间段即为第一历史时段。第二历史时段是指目标日期内目标时段之前的相同时长的若干个时间段,例如,目标时段“2021.06.15的22:00至23:00”之前的“2021.06.15的00:00至01:00”至“2021.06.15的21:00至22:00”的这22个时间段即为第二历史时段。
具体地,如图10所示意的是假设某款游戏的“2021.06.10-2021.06.25”对应的UGC文本数据中某一词语如“苹果”的词频数和目标对象人数的变化,可知在06.15号附近(如标识1,2)曲线波动明显,可以理解为对于词频“苹果”突然出现大量讨论,而如标识3处词频数比较大,但目标对象人数较少,说明是有可能是重复发帖,则不能作为热点,因此可以通过不同的时间跨度来检测可以对应了某些网络热点的异常突增的词,其中,时间跨度可以通过不同的时间窗口来定义,例如,定义同比时间跨度,即第一历史时段,比如14天每天的一个小时,如“2021.06.01至2021.06.14”中每天的22:00至23:00;定义环比时间跨度,比如24小时中的每一个小时,即第二历史时段,如“2021.06.15的00:00至01:00”至“2021.06.15的23:00至24:00”。
进一步地,在获取到目标时段,以及与目标时段相对应的第一历史时段和第二历史时段之后,可以按照时间段的顺序,从原始文本数据中获取目标时段对应的基础文本数据,第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据。
在步骤S102中,根据选词条件从基础文本数据、第一文本数据以及第二文本数据中确定若干个目标突发词;
在本实施例中,在获取到基础文本数据、第一文本数据以及第二文本数据之后,可以根据选词条件从基础文本数据、第一文本数据以及第二文本数据中筛选出符合选词条件的词语作为目标突发词。
其中,目标突发词是指在目标时段中异常突增的词语,如图10所示意的在06.15号附近(如标识1,2)曲线波动明显,可以理解为对于词语“苹果”突然出现大量讨论,即“苹果”可能是对应了某些网络热点的异常突增的词,即目标突发词。选词条件具体可以表现为目标时段内,基础文本数据、第一文本数据以及第二文本数据中的某一词语对应的词频数大于词频阈值以及发帖人数大于人数阈值,或者可以是基础文本数据、第一文本数据以及第二文本数据中的某一词语对应的词频数和发帖人数之间的占比大于或等于预设占比等,还可以是其他选词条件,此处不作具体限制,其中,词频阈值、人数阈值以及预设占比都是根据实际应用需求进行设置的,此处不作具体限制。
具体地,如图8所示,在获取到基础文本数据、第一文本数据以及第二文本数据之后,可以从基础文本数据、第一文本数据以及第二文本数据中选出一个候选词语,如果该候选词语满足选词条件如目标时段内候选词语对应的词频数大于词频阈值以及发帖人数大于人数阈值,则可以将该候选词作为目标突发词,反之,如果该候选词语不满足选词条件,则可以对该候选词进行过滤或暂时标记为非突发词语,以使后续可以根据获取到目标突发词更好更准确地挖掘网络热点。
在步骤S103中,从基础文本数据中获取包含有至少一个目标突发词的候选文本数据;
在本实施例中,在获取到若干个目标突发词后,由于目标突发词数量不多,但难以清楚地判断这些目标突发词对应的热点个数,例如,可能是一个目标突发词对应多个热点,也可能多个目标突发词对应一个热点的情形,因此,本实施例通过从文本角度出发,可以从基础文本数据中获取到包含有至少一个目标突发词的候选文本数据,以使后续可以对获取到的候选文本数据中的噪音文本进行过滤,能够有效避免掉UGC数据中大量的非热点评论,可以进一步提炼出文本数据中的热点内容,从而可以在一定程度上提高发现网络热点的准确性。
具体地,如图8所示,在获取到若干个目标突发词后,可以通过过滤掉基础文本数据不包含目标突发词的文本数据,即可以理解为这些被过滤掉的文本数据不包括热点内容,能大大减少海量UGC文本中的噪音,方便后续热点内容的进一步提炼。
进一步地,在过滤掉基础文本数据不包含目标突发词的文本数据之后,可以将基础文本数据过滤后剩下的文本数据按照UGC文本数据本身有特殊的主贴-回帖结构,进行文本数据分组,可以获取到包含有至少一个目标突发词的候选文本数据,其中,主贴-回帖结构是指一个目标对象发表主贴,其他对象在这个主贴下面进行讨论,则在一个主贴下面的所有评论都可以认为属于同一个热点,故本实施例可以通过将一个主贴作为一个整体来大大降低文本数量,以使后续可以减少文本相似度的计算时间,从而可以在一定程度上提高发现网络热点的效率。
在步骤S104中,对候选文本数据进行文本聚类,得到若干个目标文本类以及每个目标文本类中的若干个文本;
在本实施例中,在获取到包含有至少一个目标突发词的候选文本数据之后,可以对候选文本数据中的文本进行文本聚类,以获取若干个目标文本类以及每个目标文本类中的若干个文本,能够把属于同一个热点的文本聚集到一起,以后续可以根据获取到的目标文本类中的若干个目标文本能够更精确地提炼热点内容,从而可以在一定程度上提高发现网络热点的准确性。
具体地,如图8所示,由于文本向量化的目的是能够更好地对候选文本数据进行文本聚类,把候选文本数据中的相似文本更准确地聚集到一起,来更好地代表一个热点内容,因此,对候选文本数据进行文本聚类之前,在本实施例可以先使用如图12所示意的有监督模型SBERT模型训练文本相似度,其中,SBERT模型包括BERT模型、若干个全连接层、池化层以及softmax分类器,SBERT模型训练的是一个二分类任务(即文本相似和不相似),具体可以是通过将样本集按照主贴结构分组,可以理解的是,如果一个组中文本过多,则需要随机采样生成拆分成多个组,并对每个组中的文本进行拼接,生成一个长文本,其中,文本长度不超过256维,然后标注文本对如28000个,其中,正负样本比例为1:1,例如,可以取其中的10%作为验证集,取其中的10%作为测试集,以及剩下80%作为训练集,然后,在训练集上训练10个epoch,并采用损失函数如下函数式(1)对SBERT模型参数进行反向迭代训练直至收敛,以获取最终的SBERT模型:
o=softmax(Wt(u,v|u-v|)) (1);
其中,u表示文本A的嵌入向量,即文本A的句向量,v表示文本B的嵌入向量,即文本B的句向量,Wt表示文本相似度。
进一步地,在获取到包含有至少一个目标突发词的候选文本数据之后,可以将获取到的候选文本数据中的任意两个文本输入至SBERT模型中,通过该SBERT模型输出任意两个文本之间的相似度,其中,相似度具体可以表现为0,1标签,0代表不相似,1代表相似。例如,假设候选文本数据中的任意A,B两个文本输入至SBERT模型中,假设通过该SBERT模型可以输出的相似度为1,则可以理解为该A,B两个文本是相似的,进一步地,假设有100组任意两个文本输入至SBERT模型中进行两两计算相似度,则需要计算4950次。
进一步地,在获取到候选文本数据中的任意两个文本之间的相似度后,可以基于使用社区划分算法对候选文本数据进行聚类,从而把同一个热点的文本聚集在一起,具体可以是基于获取到的候选文本数据中的任意两个文本之间的相似度生成相似度矩阵,并调用开源的python包cdlib.algorithms中的社区划分函数leiden,对候选文本数据进行聚类,然后,还可以将聚类得到的包含有单条文本的类中的文本认为是噪音文本,则可以将该包含有单条文本的类过滤掉,以获取到目标文本类以及目标文本类中的若干个目标文本,能够进一步避免掉UGC数据中大量的非热点评论,以进一步提炼出文本数据中的热点内容,从而可以在一定程度上提高发现网络热点的准确性。
在步骤S105中,根据目标文本类中的若干个目标文本生成主题词语,并将主题词语作为网络热点,其中,主题词语用于表示目标文本类的主题类型。
在本实施例中,在获取到目标文本类中的若干个目标文本之后,由于每个目标文本类中的若干个目标文本之间是相似的,可以用于表达同一个热点的内容,因此,可以根据目标文本类中的若干个目标文本生成能够用于表示目标文本类的主题类型的主题词语来作为网络热点。
具体地,如图8所示,在获取到目标文本类中的若干个目标文本之后,由于词与词之间的相似度是共现概率,而共现概率越大,相似性越高,因此,本实施例可以采用text-rank算法并融合了业务知识库来生成主题词,具体可以是通过设置上下文滑动窗口,用于统计目标文本中候选词之间的共现矩阵,并按行对共现矩阵进行归一化,以生成共现概率矩阵,进而,可以通过将知识库中的实体词初始权重设为1,其他词初始权重设为0,并调用开源的python包networkx.pagerank,基于共现概率矩阵计算每个候选词最终得分,然后,可以根据每个候选词最终得分,从若干和候选词中选取top个候选词如top3个候选词作为文本类的主题词语,并将该主题词语作为网络热点。
可以理解的是,经测试可知,基于增量聚类算法进行热点挖掘,处理3小时大约90万条文本数据,耗时4小时左右,而本实施例对于在同样的数据上只耗时3分钟。进一步地,经测试可知,基于增量聚类算法发现246个热点内容,其中,46个是正确的,准确率为18.70%,召回率为79.31%,而本实施例在同样的数据上共发现67个热点内容,其中,52个是正确的,准确率为77.61%,召回率为89.65%。
在本申请实施例中,提供了一种网络热点的挖掘方法,通过上述方式,能够从基础文本数据、第一文本数据以及第二文本数据筛选出能够反映目标时段中出现频率较高,具有挖掘价值的词汇目标突发词,可以通过包含有目标突发词的候选文本有效过滤掉大量的非热点评论的文本,使得基于包含有目标突发词的候选文本进行文本聚类,能够更好地形成有挖掘价值的文本类别,提高聚类效率,从而能够聚类结果生成主题词语作为网络热点,提高发现网络热点的准确率以及效率。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的网络热点的挖掘确定方法另一个可选实施例中,如图3所示,从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据,包括:
在步骤S301中,将原始文本数据输入至文本识别模型,通过文本识别模型输出文本概率;
在步骤S302中,根据文本概率对原始文本数据进行文本过滤,得到第一过滤文本数据;
在步骤S303中,对第一过滤文本数据进行文本聚类,得到若干个基础文本类以及每个基础文本类中的若干个文本;
在步骤S304中,根据文本数量阈值分别对每个基础文本类中的若干个文本进行文本过滤,得到第二过滤文本数据;
在步骤S305中,按照时间维度,从第二过滤文本数据中获取基础文本数据、第一文本数据以及第二文本数据。
在本实施例中,由于海量的UGC数据中大部分是非热点评论,因此,为了能够更好地挖掘有价值的热点内容,在获取到原始文本数据后,可以先将原始文本数据输入至文本识别模型,并可以通过文本识别模型输出的文本概率对原始文本数据进行文本过滤,以获取第一过滤文本数据,进而可以对第一过滤文本数据进行文本聚类,以获取若干个基础文本类以及每个基础文本类中的若干个文本,然后,可以根据文本数量阈值分别对每个基础文本类中的若干个文本进行文本过滤,以获取第二过滤文本数据,并按照时间维度,从第二过滤文本数据中获取基础文本数据、第一文本数据以及第二文本数据,可以通过对原始文本数据进行垃圾文本或大量重复文本的过滤,能够有效避免掉UGC数据中大量的非热点评论,从而可以在一定程度上提高发现网络热点的准确性。
其中,文本识别模型具体可以表现为BERT模型,也可以是word2vec模型,或者是glove模型,还可以是其他文本识别模型,此处不作具体限制。对文本数据进行文本聚类的聚类方式具体可以表现为基于密度的聚类DBSCAN算法,也可以是均值漂移聚类算法,或者是均值聚类K-Means算法,还可以是其他聚类算法,此处不作具体限制。文本数量阈值是根据实际应用需求进行设置得到的,可以用于约束同一目标对象重复大批量发布信息的情形,此处不作具体限制。垃圾文本具体可以表现为营销或钓鱼等垃圾。
具体地,在获取到原始文本数据之前,可以先获取预训练的文本识别模型如BERT-base模型,其中,BERT-base模型有12个编码层,隐向量维度为768,self-attention heads的个数是12个。
进一步地,在获取到在BERT-base模型的基础上,可以从数据库中获取领域UGC训练样本对BERT-base模型进行训练,其中,领域UGC训练样本具体可以表现为20个游戏的4个月的数据,如5000万条文本对BERT-base模型进行预训练一个epoch,一个epoch等于使用训练集中的全部样本训练一次模型,可以理解为epoch的值就是整个数据集被训练几次,进而,可以通过标注正负样本,对预训练后的BERT-base模型进行微调以获取优化后的BERT-base模型即文本识别模型,例如,基于4万条标注样本对BERT-base模型训练3个epoch,其中,正负样本比例为1:3,输入序列长度为256,是一个二分类任务。
进一步地,当获取到原始文本数据时,可以将原始文本数据中文本逐条输入至BERT-base模型中,通过BERT-base模型可以输出每个文本的正负类别的概率分布,即文本概率,然后,根据文本概率对原始文本数据进行文本过滤具体可以是将大于预设概率阈值如0.5的文本概率的类别确定为垃圾标签,从而可以预测识别的文本是否为垃圾文本,因此,可以将文本概率大于预设概率阈值的文本进行过滤即可得到第一过滤文本数据。
进一步地,在获取到第一过滤文本数据后,可以对第一过滤文本数据进行批处理,具体可以是使用滑动窗口缓存流式数据,如图9所示,第一过滤文本数据每5分钟被缓存到一个数据块中(如图9中1-12代表12个数据块),假设滑动窗口长度是3小时,每5分钟可以向前移动一个数据块,然后对窗口内的第一过滤文本数据进行聚类和行为分析,可以进一步过滤第一过滤文本数据中的刷帖垃圾,然后把时间最近的数据块(如图9中5和11)中的第二过滤文本数据写到数据总线kafka中,供下游任务消费,其中,刷帖垃圾具体可以表现重复频繁出现的文本或推销贴或者广告贴等,还可以是其他表现形式,此处不作具体限制。
其中,由于对第一过滤文本数据进行聚类需要计算文本距离,因此,本实施例可以使用一种基于词向量无监督构建句子向量的算法来计算句子向量之间的余弦距离,具体可以是通过word2vec模型获取文本中每个词的词向量vw,统计每个词的词频,计算每个词出现的概率p(w),对于第一过滤文本数据中的一个文本即一个句子s,通过如下公式(2)可以计算词向量加权平均,得到句子s暂时的句子向量,其中,α是一个常数:
Figure BDA0003396505740000111
进一步地,在获取到第一过滤文本数据中的所有文本的句子向量后,可以将获取到的句子向量作为列向量,拼成一个矩阵,然后,可以对矩阵进行SVD分解,以获取最大特征值对应的特征向量u,并让每个句子向量减去它在u上的投影可以得到每个文本对应的最终的句子向量,可以理解的是,这个投影可以看做是各个句子向量中的公共部分,减去后能提高句子向量之间的辨识度,其中,一个向量v在另一个向量u上的投影定义如下(3)式:
Figure BDA0003396505740000112
进一步地,结合公式(1)和公式(2)可以得到句子向量计算公式如下(4)式:
vs=uuTvs (4);
进一步地,在获取到每个文本对应的最终句子向量后,可以计算距离矩阵D,具体可以是获取到的每个文本对应的句子向量进行向量归一化,并拼成一个矩阵M,令S=MMT代表句子间的余弦相似度矩阵,Sij代表第i个句子和第j个句子的余弦相似度,其中,Sij∈[-1,1],则两个句子之间距离为Dij=(1-Sij)/2,其中,Dij∈[0,1],因此,计算所有Dij,可以构建距离矩阵D。
进一步地,在获取到距离矩阵D之后,可以对第一过滤文本使用DBSCAN聚类算法,把相似文本聚到一起,以获取到若干个基础文本类,其中,每个基础文本类中有若干个相似文本,具体可以是通过调用python开源工具sklearn.cluster.DBSCAN进行文本聚类,其中,可以通过将参数metric设定为“precomputed”,以保证程序可以直接调用已经计算好的距离矩阵D,可以大大节约聚类时间,从而可以在一定程度上提高挖掘网络热点的效率。
进一步地,在获取到若干个基础文本类以及每个基础文本类中的若干个文本后,可以对每个类别中的相似文本进行行为分析,可以找出有刷帖行为的文本即刷帖垃圾并进行过滤,以获取到第二过滤文本数据,具体可以是将若干个文本中属于相同目标对象(如评论发布作者)短时间内发表一定数量即文本数量阈值的相似帖子,认为是刷帖垃圾,或者是在同一个主贴下,有超过文本数量阈值的相似回复,认为是刷帖垃圾,进而,可以对筛选出的刷帖垃圾进行过滤,以获取第二过滤文本数据,然后,可以按照时间维度,从第二过滤文本数据中获取基础文本数据、第一文本数据以及第二文本数据。
可以理解的是,经测试可知,本实施例用过采集814944条测试文本,发现37823个刷帖垃圾,其中,有512个属于误判,可以得到准确率为98.6%;从剩余的147091的聚类结果中发现有4097条垃圾文本,这些垃圾文本可能是由于重复数少,或是由不同作者发的广告帖等而未被监测出,可以得到整体召回率为90.1%。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的网络热点的挖掘确定方法另一个可选实施例中,如图4所示,根据文本数量阈值分别对每个基础文本类中的若干个文本进行文本过滤,得到第二过滤文本数据,包括:
在步骤S401中,对每个基础文本类中的若干个文本进行对象分组,得到每个目标对象对应的若干个文本;
在步骤S402中,将文本数量大于第一文本数量阈值的每个目标对象对应的若干个文本进行文本过滤,得到若干个过滤文本;
在步骤S403中,对若干个过滤文本进行目标主题分组,得到每个目标主题对应的若干个文本;
在步骤S404中,将文本数量大于第二文本数量阈值的每个目标主题对应的若干个文本进行文本过滤,得到第二过滤文本数据。
在本实施例中,在获取到若干个基础文本类以及每个基础文本类中的若干个文本后,可以对每个基础文本类中的若干个文本进行对象分组,以获取每个目标对象对应的若干个文本,在通过将文本数量大于第一文本数量阈值的每个目标对象对应的若干个文本进行文本过滤,以获取到若干个过滤文本,然后,可以对若干个过滤文本进行目标主题分组,以获取每个目标主题对应的若干个文本,并将文本数量大于第二文本数量阈值的每个目标主题对应的若干个文本进行文本过滤,以获取第二过滤文本数据,可以通过进一步识别每个基础文本类别中的垃圾文本并进行过滤,以更好地避免掉UGC数据中大量的非热点评论,可以更好地挖掘到有价值的热点内容,从而可以在一定程度上提高发现网络热点的准确性。
其中,目标对象具体可以表现为评论发布作者、话题分享作者等,此处不作具体限制。第一文本数量阈值是根据实际应用需求进行设置地,通常可以设置为20,此处不作具体限制。目标主题具体可以表现为话题主贴、第一个评论等,还可以是其他表现形式,此处不作具体限制。第二文本数量阈值也是根据实际应用需求进行设置地,通常可以设置为15,此处不作具体限制。
具体地,在获取到若干个基础文本类以及每个基础文本类中的若干个文本后,可以对每个基础文本类中的若干个文本进行对象分组,具体可以是通过对每一个基础文本类中的若干个文本,按照对象如作者进行分组,并遍历每个作者组,如果一个作者组中文本数量超过第一文本数量阈值如20,则可以认为这个作者组中的文本都是刷帖垃圾,可以全部过滤,以获取到若干个过滤文本。
进一步地,在获取到若干个过滤文本后,可以对若干个过滤文本进行目标主题分组,具体可以是通过对每一个基础文本类中的若干个过滤文本,按照主贴进行分组,并遍历每个主贴组,如果一个主贴组中文本数量超过第二文本数量阈值如15,则认为这个主贴组中的文本都是刷帖垃圾,全部过滤,剩下的文本即为第二过滤文本数据。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的网络热点的挖掘确定方法另一个可选实施例中,如图5所示,根据选词条件从基础文本数据、第一文本数据以及第二文本数据中确定若干个目标突发词,包括:
在步骤S501中,根据第一选词条件从基础文本数据以及第一文本数据中确定第一突发词集;
在步骤S502中,根据第二选词条件从基础文本数据以及第二文本数据中确定第二突发词集;
在步骤S503中,将第一突发词集与第二突发词集的交集中的词语作为若干个目标突发词。
在本实施例中,在获取到基础文本数据、第一文本数据以及第二文本数据之后,可以根据第一选词条件从基础文本数据以及第一文本数据中确定第一突发词集,同时,根据第二选词条件从基础文本数据以及第二文本数据中确定第二突发词集,然后,可以将第一突发词集与第二突发词集的交集中的词语为若干个目标突发词,可以通过获取能够对应某些网络热点的目标突发词,以使后续可以根据获取到的目标突发词更好地提炼出文本数据中的热点内容,从而可以在一定程度上提高发现网络热点的准确性。
其中,第一选词条件具体可以表现为在目标时段内基础文本数据以及第一文本数据中的某一词语对应的词频数大于词频阈值以及发帖人数大于人数阈值,还可以是其他选词条件,此处不作具体限制。第二选词条件具体可以表现为基础文本数据以及第二文本数据中的某一词语对应的词频数和发帖人数之间的占比大于或等于预设占比等,还可以是其他选词条件,此处不作具体限制。
具体地,如图8所示,在获取到基础文本数据、第一文本数据以及第二文本数据之后,可以先分别对基础文本数据、第一文本数据以及第二文本数据中的每个文本进行特征统计,具体可以是通过常规分词算法对每个文本进行分词处理,并对分词后的词语进行过滤停止词以获取候选词,同时统计每个窗口内候选词的词频数和目标对象人数(如作者数),即分别统计目标时段、第一历史时段以及第二历史时段中的各个时段中的候选词的词频数和作者数,例如,目标时段的对应的时间窗口“2021.06.15的22:00至23:00”内有1000条文本,每条文本都有一个作者,每条文本平均有10个候选词,则需要统计这个时间窗口内的10000个候选词的词频数和对应作者数(或发帖人数)。
进一步地,在获取到基础文本数据、第一文本数据以及第二文本数据中候选词以及每个候选词的词频数和对应作者数之后,可以从基础文本数据以及第一文本数据选出一个候选词语,如果该候选词语满足第一选词条件如目标时段内候选词语对应的词频数大于词频阈值以及发帖人数大于人数阈值,则可以将该候选词划分至第一突发词集中,同理,可以从基础文本数据以及第二文本数据中选出另一个候选词语,如果该候选词语满足第二选词条件如候选词语对应的词频数和发帖人数之间的占比大于或等于预设占比,则可以将该候选词划分至第二突发词集中,反之,如果选出候选词语不满足第一选词条件或第二选词条件中的任意一个,则可以对该候选词进行过滤或暂时标记为非突发词语,以使后续可以根据获取到目标突发词更好更准确地挖掘网络热点。
进一步地,在获取到第一突发词集以及第二突发词集后,为了使得获取到的候选词语既能够反映一个词语今天是否突发了,也能够反映这个词在目标时段内是突发的,可以更准确地获取到目标突发词,从而可以更好地从基础文本数据中进行一步地提炼出热点内容,本实施例可以通过对第一突发词集以及第二突发词集进行取交处理来获取能够反映上述情形的候选词语,因此可以将交集中的候选词语作为目标突发词。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的网络热点的挖掘确定方法另一个可选实施例中,如图6所示,根据第一选词条件从基础文本数据以及第一文本数据中确定第一突发词集,包括:
在步骤S601中,计算第一文本数据的均值和标准差,并根据均值和标准差确定第一候选指标;
在步骤S602中,获取第一文本数据的下四分位数和上四分位数,并根据四分位数和上四分位数确定第二候选指标;
在步骤S603中,根据第一候选指标以及第二候选指标,从基础文本数据中筛选出若干个第一候选词,得到第一突发词集。
在本实施例中,在获取到基础文本数据以及第一文本数据之后,可以计算第一文本数据的均值和标准差,并根据均值和标准差确定第一候选指标中,获取第一文本数据的下四分位数和上四分位数,并根据四分位数和上四分位数确定第二候选指标,根据第一候选指标以及第二候选指标,从基础文本数据中筛选出若干个第一候选词,得到第一突发词集,可以通过构造第一候选指标以及第二候选指标来获取基础文本数据中能够反映一个词语今天突发了的第一候选词语,以使后续可以根据获取到的第一候选词语更好地提炼出文本数据中的热点内容,从而可以在一定程度上提高发现网络热点的准确性。
具体地,在获取到如图11(a)所示意的第一历史时段如“2021.06.01至2021.06.14”中每天的“22:00至23:00”对应的第一文本数据如“X1至Xn”,以及目标时段“2021.06.15的22:00至23:00”对应的基础文本数据如“Xn+1”之后,可以使用k-sigma算法和boxplot算法,将基础文本数据“Xn+1”与第一历史时段如“2021.06.01至2021.06.14”中每天的“22:00至23:00”对应的第一文本数据如“X1至Xn”进行对比即同比检测,可以用于判断选出的候选词语在目标时段对应的目标日期内是否突增,其中,这里的“X1至Xn”的值以及“Xn+1”的值具体可以表现为每个候选词的词频数和目标对象人数。
进一步地,在获取到基础文本数据以及第一文本数据之后,可以通过如下公式(5)计算第一文本数据的均值和标准差:
Figure BDA0003396505740000141
其中,μ表示均值;σ表示标准差;n表示第一历史时段包括的时间段个数;Xi表示第i个时间段。
进一步地,可以如下公式(6)计算第一文本数据的boxplot上限upper,其中Q1,Q3分别表示第一文本数据的下四分位数和上四分位数:
IQR=Q3-Q1;upper=Q3+1.5×IQR (6);
进一步地,获取到第一文本数据的均值和标准差之后,可以基于如下公式(7)构造第一指标,其中,k为常数值,通常取值为3:
Figure BDA0003396505740000151
进一步地,在获取到第一文本数据的下四分位数和上四分位数后,可以基于如下公式(8)构造第二指标:
Xn+1>upper (8)
进一步地,如果从基础文本数据以及第一文本数据的候选词满足第一候选指标以及第二候选指标,即可以理解为该候选词是异常突增的词,因此,可以从基础文本数据中筛选出同时满足满足第一候选指标以及第二候选指标的若干个候选词作为若干个第一候选词,以获取第一突发词集。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的网络热点的挖掘确定方法另一个可选实施例中,如图6所示,根据第二选词条件从基础文本数据以及第二文本数据中确定第二突发词集,包括:
在步骤S701中,根据预设权重值计算第二文本数据的指数移动加权平均和指数移动加权方差;
在步骤S702中,根据指数移动加权平均和指数移动加权方差确定第三候选指标;
在步骤S703中,根据第三候选指标从基础文本数据中筛选出若干个第二候选词,得到第二突发词集。
在本实施例中,在获取到基础文本数据以及第二文本数据之后,可以根据预设权重值计算第二文本数据的指数移动加权平均和指数移动加权方差,并根据指数移动加权平均和指数移动加权方差确定第三候选指标,然后可以根据第三候选指标从基础文本数据中筛选出若干个第二候选词,以使后续可以根据获取到的第二候选词语更好地提炼出文本数据中的热点内容,从而可以在一定程度上提高发现网络热点的准确性,
具体地,在获取到如图11(b)所示意的第二历史时段如“2021.06.15”中“00:00至01:00”至“21:00至22:00”对应的第二文本数据如“X1至Xn”,以及目标时段“2021.06.15的22:00至23:00”对应的基础文本数据如“Xn+1”之后,可以使用k-sigma算法和boxplot算法,将基础文本数据“Xn+1”与第二历史时段如“2021.06.15”中“00:00至01:00”至“21:00至22:00”对应的第二文本数据如“X1至Xn”进行对比即环比检测,可以用于判断选出的候选词语在目标时段内是否突增。
进一步地,由于海量的UGC文本数据具有非常明显的周期性,例如,白天数据量大,凌晨之后数据量小,因此,本实施例需要过滤掉周期性因素后,可以进行进一步地目标突发词检测,具体可以是使用STL算法来分解时序对应的第二文本数据以及基础文本数据,即“X1至Xn+1”,可以去除文本数据中的周期性,以获取到第二历史时段以及目标时段中的每个时间窗口分别对应的残差值Xi,然后,可以通过如下公式(9)和公式(10),并根据预设权重值a计算第二文本数据的指数移动加权平均和指数移动加权方差:
Figure BDA0003396505740000152
Figure BDA0003396505740000161
其中,Wi=a(1-a)i-1,
Figure BDA0003396505740000162
Xi代表第i个历史窗口中候选词的词频数和目标对象人数的残差值;n代表历史时间窗口大小;EWMA代表第i个历史窗口的指数移动加权平均;EWMVar代表第i个历史窗口的指数移动加权方差。
进一步地,在获取到数移动加权平均和指数移动加权方差之后,可以通过如下公式(11),根据数移动加权平均和指数移动加权方差确定第三候选指标确定第三候选指标:
Figure BDA0003396505740000163
其中,β是平滑项,通常可以取值为10,s为常数项,通常可以取值为2.5。
进一步地,如果从基础文本数据以及第二文本数据的候选词满足第三候选指标,即可以理解为该候选词是异常突增的词,因此,可以从基础文本数据中筛选出同时满足满足第三候选指标的若干个候选词作为若干个第二候选词,以获取第二突发词集。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的网络热点的挖掘确定方法另一个可选实施例中,如图7所示,根据目标文本类中的若干个目标文本生成主题词语,并将主题词语作为网络热点之后,该方法还包括:
在步骤S801中,根据网络热点以及网络热点对应的若干个目标文本,生成热点摘要和以及每个热点摘要对应的热点详情;
在步骤S802中,向目标终端设备推送热点摘要;
在步骤S803中,当接收到与热点摘要相对应的触控信号时,向目标终端设备展示热点详情。
在本实施例中,在获取到目标时段对应的网络热点之后,可以根据网络热点以及网络热点对应的若干个目标文本,按照预设的摘要界面模板和详情界面模板,导入文本数据即可生成热点摘要和以及每个热点摘要对应的热点详情,并通过向目标终端设备推送热点摘要,以方便使用目标对象(使用目标终端设备的用户)及时接收目标时段内热点信息或话题,当接收到与热点摘要相对应的触控信号时,可以向目标终端设备展示热点详情,以帮助目标对象更加清晰准确地了解热点信息和网络热点走向。
其中,摘要信息具体可以表现为主题词语、热点发生时间即目标时段以及目标文本来源如贴吧或论坛等,还可以表示为其他信息,如情感统计等,此处不作具体限制。热点详情信息具体可以表现为网络热点对应的标签、话题以及若干个具体相关评论等,还可以表示为其他信息,此处不作具体限制。触控信号具体可以表现为长按、点击或移动光标等行为产生的信号,还可以表现为其他触控方式,此处不作具体限制。
可以理解的是,在获取到目标时段对应的网络热点以及网络热点对应的若干个目标文本之后,可以根据实际应用需求获取相对应的界面模板,此处不作具体限制,并对获取到的网络热点以及网络热点对应的若干个目标文本进行相对应的处理,从而生成相对应的信息界面,还可以将网络热点以及网络热点对应的若干个目标文本提供给下层服务进行使用,以满足不同的服务需求,此处不作具体限制。
具体地,在获取到目标时段对应的网络热点之后,可以根据网络热点以及网络热点对应的若干个目标文本,可以先将获取到的若干目标文本输入至情绪识别模型,通过情绪识别模型输出情绪概率,可以理解为如果情绪概率趋近于1则为正面情绪,反之,如果情绪概率趋近于0则为负面情绪,并统计正面情绪以及负面情绪分别在目标文本中的占比,其中,情绪识别模型具体可以表现为基于深度学习的神经网络模型,还可以是其他情绪识别模型,此处不作具体限制。
进一步地,可以按照预设的摘要界面模板,将获取到的主题词语、热点发生时间即目标时段、目标文本来源以及正面情绪以及负面情绪分别在目标文本中的占比等信息导入至摘要界面模板中,可以生成如图13所示的摘要信息页面,例如,与主题词语对应的关键词为“苹果”以及关联内容为“苹果果商果农种植产地产量”等,同理,可以按照预设的详情界面模板,将获取到的网络热点对应的标签、话题以及若干个具体相关评论等信息导入中详情界面模板,可以生成如图14所示的详情信息页面,例如,与摘要信息对应的总体情况,以及与“苹果”相关的主贴结构中的目标对象的评论等,进而可以建立摘要信息页面与详情信息页面之间的索引,并可以通过突发事件预警的产品或资讯提示程序等向目标终端设备推送热点摘要,以使目标对象(订阅用户)可以及时获取目标时段内的热点资讯,然后,如果当接收到目标对象通过目标终端设备对热点摘要执行的操作而相对应的触控信号时,可以通过摘要信息页面与详情信息页面之间的索引,快速获取热点详情并向目标终端设备推送该热点详情,帮助目标对象充分了解热点话题讨论度、热点舆论走向以及网友情绪发展等信息,从而能够在一定程度上提高目标对象的网络参与度。
下面对本申请中的网络热点的挖掘装置进行详细描述,请参阅图15,图15为本申请实施例中网络热点的挖掘装置的一个实施例示意图,网络热点的挖掘装置20包括:
获取单元201,用于从原始文本数据中获取目标时段对应的基础文本数据,第一历史时段对应的第一文本数据,以及第二历史时段对应的第二文本数据,其中,第一历史时段为历史日期中与目标时段为相同时间段的且相同时长的若干个时间段,第二历史时段为目标日期内目标时段之前的相同时长的若干个时间段;
确定单元202,用于根据基础文本数据、第一文本数据以及第二文本数据确定满足选词条件的若干个目标突发词;
获取单元201,还用于从基础文本数据中获取包含有至少一个目标突发词的候选文本数据;
处理单元203,用于对候选文本数据进行文本聚类,得到若干个目标文本类以及每个目标文本类中的若干个文本;
处理单元203,还用于根据目标文本类中的若干个目标文本生成主题词语,并将主题词语作为网络热点,其中,主题词语用于表示目标文本类的主题类型。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的网络热点的挖掘装置的另一实施例中,获取单元201具体可以用于:
将原始文本数据输入至文本识别模型,通过文本识别模型输出文本概率;
根据文本概率对原始文本数据进行文本过滤,得到第一过滤文本数据;
对第一过滤文本数据进行文本聚类,得到若干个基础文本类以及每个基础文本类中的若干个文本;
根据文本数量阈值分别对每个基础文本类中的若干个文本进行文本过滤,得到第二过滤文本数据;
按照时间维度,从第二过滤文本数据中获取基础文本数据、第一文本数据以及第二文本数据。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的网络热点的挖掘装置的另一实施例中,获取单元201具体可以用于:
对每个基础文本类中的若干个文本进行对象分组,得到每个目标对象对应的若干个文本;
将文本数量大于第一文本数量阈值的每个目标对象对应的若干个文本进行文本过滤,得到若干个过滤文本;
对若干个过滤文本进行目标主题分组,得到每个目标主题对应的若干个文本;
将文本数量大于第二文本数量阈值的每个目标主题对应的若干个文本进行文本过滤,得到第二过滤文本数据。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的网络热点的挖掘装置的另一实施例中,确定单元202具体可以用于:
根据第一选词条件从基础文本数据以及第一文本数据中确定第一突发词集;
根据第二选词条件从基础文本数据以及第二文本数据中确定第二突发词集;
将第一突发词集与第二突发词集的交集中的词语作为若干个目标突发词。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的网络热点的挖掘装置的另一实施例中,确定单元202具体可以用于:
计算第一文本数据的均值和标准差,并根据均值和标准差确定第一候选指标;
获取第一文本数据的下四分位数和上四分位数,并根据四分位数和上四分位数确定第二候选指标;
根据第一候选指标以及第二候选指标,从基础文本数据中筛选出若干个第一候选词,得到第一突发词集。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的网络热点的挖掘装置的另一实施例中,确定单元202具体可以用于:
根据预设权重值计算第二文本数据的指数移动加权平均和指数移动加权方差;
根据指数移动加权平均和指数移动加权方差确定第三候选指标;
根据第三候选指标从基础文本数据中筛选出若干个第二候选词,得到第二突发词集。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的网络热点的挖掘装置的另一实施例中,
获取单元201,还用于根据网络热点以及网络热点对应的若干个目标文本,生成热点摘要和以及每个热点摘要对应的热点详情;
处理单元203,还用于向目标终端设备推送热点摘要;
处理单元203,还用于当接收到与热点摘要相对应的触控信号时,向目标终端设备展示热点详情。
本申请另一方面提供了另一种计算机设备示意图,如图16所示,图16是本申请实施例提供的一种计算机设备结构示意图,该计算机设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)310(例如,一个或一个以上处理器)和存储器320,一个或一个以上存储应用程序331或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备300中的一系列指令操作。更进一步地,中央处理器310可以设置为与存储介质330通信,在计算机设备300上执行存储介质330中的一系列指令操作。
计算机设备300还可以包括一个或一个以上电源340,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口360,和/或,一个或一个以上操作系统333,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述计算机设备300还用于执行如图2至图7对应的实施例中的步骤。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如图2至图7所示实施例描述的方法中的步骤。
本申请的另一方面提供了一种包含指令的计算机程序产品当其在计算机或处理器上运行时,使得所述计算机或处理器执行如图2至图7所示实施例描述的方法中的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (11)

1.一种网络热点的挖掘方法,其特征在于,包括:
从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据,其中,所述第一历史时段为历史日期中与所述目标时段为相同时间段的且相同时长的若干个时间段,所述第二历史时段为目标日期内所述目标时段之前的相同时长的若干个时间段;
根据选词条件从所述基础文本数据、所述第一文本数据以及所述第二文本数据中确定若干个目标突发词;
从所述基础文本数据中获取包含有至少一个所述目标突发词的候选文本数据;
对所述候选文本数据进行文本聚类,得到若干个目标文本类以及每个所述目标文本类中的若干个文本;
根据所述目标文本类中的若干个目标文本生成主题词语,并将所述主题词语作为所述网络热点,其中,所述主题词语用于表示所述目标文本类的主题类型。
2.根据所述权利要求1所述的方法,其特征在于,所述从所述原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据,包括:
将所述原始文本数据输入至文本识别模型,通过所述文本识别模型输出文本概率;
根据所述文本概率对所述原始文本数据进行文本过滤,得到第一过滤文本数据;
对所述第一过滤文本数据进行所述文本聚类,得到若干个基础文本类以及每个所述基础文本类中的若干个文本;
根据文本数量阈值分别对每个所述基础文本类中的若干个文本进行所述文本过滤,得到第二过滤文本数据;
按照时间维度,从所述第二过滤文本数据中获取所述基础文本数据、所述第一文本数据以及所述第二文本数据。
3.根据所述权利要求2所述的方法,其特征在于,所述根据文本数量阈值分别对每个所述基础文本类中的若干个文本进行文本过滤,得到第二过滤文本数据,包括:
对每个所述基础文本类中的若干个文本进行对象分组,得到每个目标对象对应的若干个文本;
将文本数量大于第一文本数量阈值的所述每个目标对象对应的若干个文本进行所述文本过滤,得到若干个过滤文本;
对所述若干个过滤文本进行目标主题分组,得到每个目标主题对应的若干个文本;
将文本数量大于第二文本数量阈值的所述每个目标主题对应的若干个文本进行所述文本过滤,得到所述第二过滤文本数据。
4.根据所述权利要求1所述的方法,其特征在于,所述根据选词条件从所述基础文本数据、所述第一文本数据以及所述第二文本数据中确定若干个目标突发词,包括:
根据第一选词条件从所述基础文本数据以及所述第一文本数据中确定第一突发词集;
根据第二选词条件从所述基础文本数据以及所述第二文本数据中确定第二突发词集;
将所述第一突发词集与所述第二突发词集的交集中的词语作为所述若干个目标突发词。
5.根据所述权利要求4所述的方法,其特征在于,所述根据第一选词条件从所述基础文本数据以及所述第一文本数据中确定第一突发词集,包括:
计算所述第一文本数据的均值和标准差,并根据所述均值和标准差确定第一候选指标;
获取所述第一文本数据的下四分位数和上四分位数,并根据所述四分位数和所述上四分位数确定第二候选指标;
根据所述第一候选指标以及所述第二候选指标,从所述基础文本数据中筛选出若干个第一候选词,得到所述第一突发词集。
6.根据所述权利要求4所述的方法,其特征在于,所述根据第二选词条件从所述基础文本数据以及所述第二文本数据中确定第二突发词集,包括:
根据预设权重值计算所述第二文本数据的指数移动加权平均和指数移动加权方差;
根据所述指数移动加权平均和所述指数移动加权方差确定第三候选指标;
根据所述第三候选指标从所述基础文本数据中筛选出若干个第二候选词,得到所述第二突发词集。
7.根据所述权利要求1所述的方法,其特征在于,所述根据所述目标文本类中的若干个目标文本生成主题词语,并将所述主题词语作为所述网络热点之后,所述方法还包括:
根据所述网络热点以及所述网络热点对应的若干个目标文本,生成热点摘要和以及每个热点摘要对应的热点详情;
向目标终端设备推送所述热点摘要;
当接收到与所述热点摘要相对应的触控信号时,向所述目标终端设备展示所述热点详情。
8.一种网络热点的挖掘装置,其特征在于,包括:
获取单元,用于从原始文本数据中获取目标时段对应的基础文本数据,第一历史时段对应的第一文本数据,以及第二历史时段对应的第二文本数据,其中,所述第一历史时段为历史日期中与所述目标时段为相同时间段的且相同时长的若干个时间段,所述第二历史时段为目标日期内所述目标时段之前的相同时长的若干个时间段;
确定单元,用于根据所述基础文本数据、所述第一文本数据以及所述第二文本数据确定满足选词条件的若干个目标突发词;
所述获取单元,还用于从所述基础文本数据中获取包含有至少一个所述目标突发词的候选文本数据;
处理单元,用于对所述候选文本数据进行文本聚类,得到若干个目标文本类以及每个所述目标文本类中的若干个文本;
所述处理单元,还用于根据所述目标文本类中的若干个目标文本生成主题词语,并将所述主题词语作为所述网络热点,其中,所述主题词语用于表示所述目标文本类的主题类型。
9.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序时实现如权利要求1至7中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202111485863.9A 2021-12-07 2021-12-07 一种网络热点的挖掘方法、装置、设备及存储介质 Pending CN114138968A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111485863.9A CN114138968A (zh) 2021-12-07 2021-12-07 一种网络热点的挖掘方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111485863.9A CN114138968A (zh) 2021-12-07 2021-12-07 一种网络热点的挖掘方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114138968A true CN114138968A (zh) 2022-03-04

Family

ID=80385015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111485863.9A Pending CN114138968A (zh) 2021-12-07 2021-12-07 一种网络热点的挖掘方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114138968A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836110A (zh) * 2021-02-07 2021-05-25 四川封面传媒有限责任公司 一种热点信息挖掘方法、装置、计算机设备及存储介质
CN114911939A (zh) * 2022-05-24 2022-08-16 腾讯科技(深圳)有限公司 热点挖掘方法、装置、电子设备、存储介质及程序产品
CN115757793A (zh) * 2022-11-29 2023-03-07 石家庄赞润信息技术有限公司 基于人工智能的话题分析预警方法、系统及云平台

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836110A (zh) * 2021-02-07 2021-05-25 四川封面传媒有限责任公司 一种热点信息挖掘方法、装置、计算机设备及存储介质
CN112836110B (zh) * 2021-02-07 2022-09-16 四川封面传媒有限责任公司 一种热点信息挖掘方法、装置、计算机设备及存储介质
CN114911939A (zh) * 2022-05-24 2022-08-16 腾讯科技(深圳)有限公司 热点挖掘方法、装置、电子设备、存储介质及程序产品
CN115757793A (zh) * 2022-11-29 2023-03-07 石家庄赞润信息技术有限公司 基于人工智能的话题分析预警方法、系统及云平台
CN115757793B (zh) * 2022-11-29 2023-09-05 海南达润丰企业管理合伙企业(有限合伙) 基于人工智能的话题分析预警方法、系统及云平台

Similar Documents

Publication Publication Date Title
CN109271512B (zh) 舆情评论信息的情感分析方法、装置及存储介质
Alam et al. Processing social media images by combining human and machine computing during crises
Nouh et al. Understanding the radical mind: Identifying signals to detect extremist content on twitter
Alfarrarjeh et al. Geo-spatial multimedia sentiment analysis in disasters
US8401980B2 (en) Methods for determining context of compositions of ontological subjects and the applications thereof using value significance measures (VSMS), co-occurrences, and frequency of occurrences of the ontological subjects
US10387784B2 (en) Technical and semantic signal processing in large, unstructured data fields
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
Tong et al. A shilling attack detector based on convolutional neural network for collaborative recommender system in social aware network
CN114138968A (zh) 一种网络热点的挖掘方法、装置、设备及存储介质
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN112365171A (zh) 基于知识图谱的风险预测方法、装置、设备及存储介质
Riadi Detection of cyberbullying on social media using data mining techniques
Alam et al. CrisisDPS: Crisis Data Processing Services.
CN111522915A (zh) 中文事件的抽取方法、装置、设备及存储介质
CN104731958A (zh) 一种面向用户需求倾向的云制造服务推荐方法
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112115712B (zh) 基于话题的群体情感分析方法
Seman et al. Machine learning-based technique for big data sentiments extraction
Apostol et al. ContCommRTD: A distributed content-based misinformation-aware community detection system for real-time disaster reporting
CN110674288A (zh) 一种应用于网络安全领域的用户画像方法
Zeng et al. Detecting journalism in the age of social media: three experiments in classifying journalists on twitter
Drif et al. An opinion spread prediction model with twitter emotion analysis during algeria’s hirak
CN113822069B (zh) 基于元知识的突发事件预警方法、装置和电子装置
Volkova et al. Contrasting public opinion dynamics and emotional response during crisis
CN109254993A (zh) 一种基于文本的性格数据分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination