CN106503209A - 一种话题热度预测方法及系统 - Google Patents

一种话题热度预测方法及系统 Download PDF

Info

Publication number
CN106503209A
CN106503209A CN201610951612.8A CN201610951612A CN106503209A CN 106503209 A CN106503209 A CN 106503209A CN 201610951612 A CN201610951612 A CN 201610951612A CN 106503209 A CN106503209 A CN 106503209A
Authority
CN
China
Prior art keywords
comment data
topic
model
comment
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610951612.8A
Other languages
English (en)
Inventor
刘辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201610951612.8A priority Critical patent/CN106503209A/zh
Publication of CN106503209A publication Critical patent/CN106503209A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明适用于互联网技术领域,提供了一种话题热度预测方法及系统,包括:在与预设话题相关的每篇帖子中,获取N个时间段内的用户评论数据列表,每个列表包含多条评论数据,每篇帖子持有相应的观点;通过预设算法对每条评论数据进行处理,以获取每条评论数据的用户观点倾向;根据每条数据的用户观点倾向,计算每篇帖子在每个时间段的话题热度得分;根据每篇帖子在每一个时间段的话题热度得分,构建并训练伽马预测模型函数,并利用该函数获取任一时间点对应的话题热度预测值。本发明基于观点倾向因子以及伽马模型构建更为合理的热度预测模型函数,符合现实生活中话题热度的变化趋势,提高了话题热度预测准确率,能够有效预测话题或事件的发展趋势。

Description

一种话题热度预测方法及系统
技术领域
本发明属于互联网技术领域,尤其涉及一种话题热度预测方法及系统。
背景技术
随着互联网信息技术的快速发展,越来越多的用户热衷于借助论坛、博客和微博等网络平台来进行信息的交流以及参与热点事件的讨论。
用户在网络平台发布的任一内容都可能与一个或多个话题相关联,话题受用户关注的程度称为话题热度。通过对当前话题发展态势的预测,政府部门能够实现对网络舆情的监测与安全预警;企业能够采取相应的技术手段,及时发现并跟踪与公司相关的热点话题或事件,对一些影响公司声誉的事件予以及时的澄清及引导,提高企业自身的软实力。
话题发展态势预测的核心包括话题热度的预测。然而,在实现本发明过程中,发明人发现现有技术至少存在如下问题:一方面,现有话题热度预测方法仅仅从话题的点击数和评论数这两个客观因子来衡量话题的热度,话题热度的预测准确率低;另一方面,在进行话题热度预测时,现有技术大都采用高斯模型来进行拟合预测,但高斯模型拟合后的曲线近似服从正态分布,曲线峰值左右两端严格对称,与现实生活中话题热度的变化趋势不符,很难准确地预测话题或事件的发展趋势。
综上,现有技术难以准确地预测话题或事件的发展趋势,存在话题热度预测准确率低的问题。
发明内容
本发明实施例提供一种话题热度预测方法及系统,旨在解决现有技术话题热度预测准确率低,难以准确地预测话题或事件的发展趋势的问题。
本发明实施例是这样实现的,一种话题热度预测方法,包括:
在与预设话题相关的每篇帖子中,获取N个时间段内的用户评论数据列表,所述用户评论数据列表包含M条评论数据,所述每篇帖子持有相应的观点,所述N和M为大于或等于一的整数;
通过预设的情感倾向分析算法对所述每一条评论数据进行处理,以获取所述每一条评论数据的用户观点倾向,所述用户观点倾向表示所述评论数据的发表用户对所述帖子所持观点的支持程度或者反对程度;
根据所述每一条评论数据的用户观点倾向,计算所述与预设话题相关的每篇帖子在所述每一个时间段的话题热度得分;
根据所述每篇帖子在所述每一个时间段的话题热度得分,构建并训练伽马预测模型函数;
利用所述伽马预测模型函数,获取任一时间点对应的话题热度预测值。
本发明实施例的另一目的在于提供一种话题热度预测系统,包括:
获取单元,用于在与预设话题相关的每篇帖子中,获取N个时间段内的用户评论数据列表,所述用户评论数据列表包含M条评论数据,所述每篇帖子持有相应的观点,所述N和M为大于或等于一的整数;
分析单元,用于通过预设的情感倾向分析算法对所述每一条评论数据进行处理,以获取所述每一条评论数据的用户观点倾向,所述用户观点倾向表示所述评论数据的发表用户对所述帖子所持观点的支持程度或者反对程度;
计算单元,用于根据所述每一条评论数据的用户观点倾向,计算所述与预设话题相关的每篇帖子在所述每一个时间段的话题热度得分;
训练单元,用于根据所述每篇帖子在所述每一个时间段的话题热度得分,构建并训练伽马预测模型函数;
预测单元,用于利用所述伽马预测模型函数,获取任一时间点对应的话题热度预测值。
在本发明实施例中,基于用户的观点倾向越不统一,越会激发用户参与话题讨论,话题热度则越高的原理,通过对与预设话题相关的所有帖子的用户评论数据进行观点倾向分析,增加了观点倾向这一因子来量化衡量话题的热度,提高了话题热度得分计算的准确性,从而能够根据所述话题热度得分构建更为合理的热度预测模型函数;通过引入曲线峰值左右两端不对称的伽马模型进行话题热度的拟合,符合现实生活中话题热度的变化趋势,提高了话题热度预测的准确率,由此能够有效预测话题或事件的发展趋势。
附图说明
图1是本发明实施例提供的话题热度预测方法的实现流程图;
图2是本发明实施例提供的话题热度预测方法S102的具体实现流程图;
图3是本发明实施例提供的话题热度预测方法S102的实现示例图;
图4是本发明实施例提供的话题热度预测方法S103的具体实现流程图;
图5是本发明实施例提供的话题热度预测方法S104的具体实现流程图;
图6是本发明实施例提供的不同参数下的伽马分布曲线示意图;
图7是本发明实施例提供的话题热度预测系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,基于用户的观点倾向越不统一,越会激发用户参与话题讨论,话题热度则越高的原理,通过对与预设话题相关的所有帖子的用户评论数据进行观点倾向分析,增加了观点倾向这一因子来量化衡量话题的热度,提高了话题热度得分计算的准确性,从而能够根据所述话题热度得分构建更为合理的热度预测模型函数;通过引入曲线峰值左右两端不对称的伽马模型进行话题热度的拟合,符合现实生活中话题热度的变化趋势,提高了话题热度预测的准确率,由此能够有效预测话题或事件的发展趋势。
图1示出了本发明实施例所述的话题热度预测方法的实现流程,详述如下:
在S101中,在与预设话题相关的每篇帖子中,获取N个时间段内的用户评论数据列表,所述用户评论数据列表包含M条评论数据,所述每篇帖子持有相应的观点,所述N和M为大于或等于一的整数。
在本实施例中,每篇帖子可以关联一个或者多个话题,这些帖子为论坛、博客、微博、聊天室或各种网站所显示的用户自由发表的意见的原文或转载文,包含文字、图像、声音和视频等内容。帖子具有评论功能,基于所述帖子的评论为评论数据,在每篇帖子中,任意数量评论数据的集合构成一个用户评论数据列表。
在每篇帖子中,根据每条评论数据产生的时间对评论数据进行分组,每组数据形成一个用户评论数据列表。所述N取值越大,意味着选定的时间段数目越多,所述时间段可以为相邻时间段或存在一定时间间隔的选定时间段,每个时间段对应一个用户评论数据列表,包含多条产生时间在该时间段内的评论数据,N的取值根据实际所需来确定。由于每篇帖子为用户自由发表的意见,因此从整体上能够体现一个用户对于该话题的具体观点。
在S102中,通过预设的情感倾向分析算法对所述每一条评论数据进行处理,以获取所述每一条评论数据的用户观点倾向,所述用户观点倾向表示所述评论数据的发表用户对所述帖子所持观点的支持程度或者反对程度。
在本实施例中,用户的观点倾向用于表示所述评论数据的发表用户是支持所述帖子所持有的观点还是反对所述帖子所持有的观点,观点的支持程度或反对程度可量化成为具体的数值。帖子观点的支持数和反对数的差值体现观点倾向的不统一程度,差值越小,用户观点倾向不统一的程度越大,当帖子观点的支持数和反对数相同时,基于该帖子观点的观点倾向不统一程度最大。因此,观点倾向不统一程度y与帖子观点的支持数和反对数的关系可通过幂函数进行描述,具体公式如下所示:
式中,m和n分别为帖子观点的支持数和反对数,δ为预设的调节参数且δ>0,用于减少帖子观点总数对计算结果的影响,A为帖子观点的总数,α(0<α<1)、β(β<0)均为调节参数。
通过预设的情感倾向分析算法来对所述每一条评论数据进行处理,能够衡量两个角度的情感倾向,一个是观点倾向,即评论数据的发表用户是支持所述帖子所持有的观点还是反对所述帖子所持有的观点;一个是观点倾向度,即用户对帖子观点的支持程度或反对程度。目前,情感倾向分析算法主要分为两类:一种是基于中文情感极性词典的方法;一种是基于机器学习的方法,如基于大规模语料库的机器学习。基于机器学习的方法通过利用大量人工标注的语料作为训练集,并从中提取文本特征,构建分类器来实现情感的分类。
作为本发明的另一个实施例,图2示出了本发明实施例提供的话题热度预测方法S102的具体实现流程,详述如下:
在S201中,从所述用户评论数据列表中读取一条所述评论数据。
将所述用户评论数据列表中的评论数据依照预设的排序规则进行排序,从所述列表中的第一条评论数据开始读取。例如依照评论数据的生成时间进行升序排序,并首先读取最早产生的一条评论数据。
在S202中,判断所述评论数据的类型,所述类型为主观评论数据或客观评论数据。
作为本发明的一个实施例,所述判断所述评论数据的类型包括:
基于情感词典对所述评论数据进行类型判断,若所述评论数据包含所述情感词典中的情感词,则所述评论数据为所述主观评论数据。
例如,基于分词算法将每条评论数据进行切分,将切分后评论数据中的分词依次与情感词典中的情感词进行匹配,情感词典包含但不限于HOWNET词典(知网情感词典)和NTUSD词典(中文情感极性词典)等。若能匹配成功,则表明该评论数据的主体对客体存在主观的内心喜恶感受,因此可将所述评论数据判定为所述主观评论数据。
若所述评论数据没有包含所述情感词典中的情感词,则所述评论数据为所述客观评论数据。
同理,若切分后评论数据中的各个分词与情感词典中的情感词均不匹配时,表明该评论数据的主体对客体并不存在主观的内心喜恶感受,因此可将所述评论数据判定为所述客观评论数据。
在S203中,若所述评论数据是主观评论数据,则获取所述评论数据的用户观点倾向,并从所述用户评论数据列表中依次读取下一条评论数据,对于所述下一条评论数据,重新执行所述判断处理过程,直至所述下一条评论数据为空。
作为本发明实施例的一个实现示例,可通过基于文本句法结构的情感倾向分析获取所述每一条评论数据的用户观点倾向,包括以下三大步骤:第一步,基于分词算法将每条评论数据进行切分,并转换成后续情感分析所需要的特定格式;第二步,将格式转换后的评论数据中的分词依次与情感词典中的情感词进行匹配,若能匹配成功,则该评论数据中的分词属于情感词,获取情感词典中该情感词的情感极性及相应权值;第三步,根据评论数据中的每个情感词及其相应的情感极性和权值,计算观点倾向度的量化值。从所述观点倾向度的量化值可以直接获取得出观点倾向的方向以及观点倾向的程度。
在S204中,若所述评论数据是客观评论数据,则将所述客观评论数据删除,并从所述用户评论数据列表中依次读取下一条评论数据,对于所述下一条评论数据,重新执行所述判断处理过程,直至所述下一条评论数据为空。
对应于图2所提供的话题热度预测方法,图3提供了具体的实现示例,详述如下:
在S301中,从所述用户评论数据列表中读取一条所述评论数据,并执行步骤S302。
在S302中,判断所述评论数据的类型,若所述评论数据是主观评论数据,执行步骤S303,若所述评论数据是客观评论数据,执行步骤S304。
在S303中,获取所述评论数据的用户观点倾向,并执行步骤S305。
在S304中,将所述客观评论数据删除,并执行步骤S305。
在S305中,判断所述评论数据在所述用户评论列表中的下一条评论数据是否为空。
若所述评论数据在所述用户评论列表中的下一条评论数据为空,则当前用户数据列表中每一条评论数据的用户观点倾向已获取完毕,不存在未读取或未处理的评论数据,因此无须重复执行S302中的判断步骤,结束此次的处理流程。
若所述评论数据在所述用户评论列表中的下一条评论数据非空,则表明当前用户数据列表中依然存在未读取或未经处理的评论数据,此时执行步骤S306。
在S306中,从所述用户评论数据列表中依次读取所述非空的下一条评论数据,并流转至步骤S302,对所述下一条评论数据,重复S302后的判断执行过程。
本实现示例中未提到的方法及原理与上述实施例相同,在此不一一赘述。通过对所述用户评论数据列表中的每条评论数据进行读取及处理,能够遍历所有评论数据,获取准确的用户观点倾向统计值,提高后续热度得分计算的准确率。
在S103中,根据所述每一条评论数据的用户观点倾向,计算所述与预设话题相关的每篇帖子在所述每一个时间段的话题热度得分。
由于话题热度表示一个话题受用户关注的程度,是一个抽象的概念,因此在本实施例中,将其量化成可具体显示的数值,该数值称为话题热度得分,以使用户能够以话题热度得分来衡量一个话题的热度情况。基于用户的观点倾向越不统一,越会激发用户参与话题讨论,话题热度则越高的原理,通过在S102中对与话题相关的所有帖子的用户评论数据进行观点倾向分析,得到所述每一条评论数据的用户观点倾向。在本实施例中,将该观点倾向作为一个衡量因子,通过预设的算法对每篇帖子在所述每一个时间段的话题热度得分进行计算。
作为本发明的一个实施例,图4示出了本发明实施例提供的话题热度预测方法S103的具体实现流程,详述如下:
在S401中,获取所述每一个时间段内所述每篇帖子的点击数和评论数。
本实施例可通过多种手段获取每篇帖子的点击数和评论数。由于现有话题热度预测方法已从话题的点击数和评论数这个两个客观因子来衡量话题的热度,因此,获取每篇帖子点击数和评论数的方式属于现有技术公开的范畴,在此只简述这些方法,但不用于限定本发明。
例如,通过调用每篇帖子所处网络平台的数据库的方式,读取数据库中点击量字段以及评论量字段在指定时间段内的数据;通过站长工具、Web统计软件辅助工具,获取网站中每篇帖子的点击数和评论数。
在S402中,根据所述每一条评论数据的用户观点倾向,在所述每一个时间段内,统计所述每篇帖子所持观点的支持数和反对数。
因步骤S203中获取得到了每一条评论数据在每一个时间段内的观点倾向度量化值,该值体现了用户的观点倾向以及观点倾向的程度,因此可以间接表达出该条评论数据的发表用户是支持帖子所持有的观点还是反对帖子所持有的观点。
例如,在同一时间段内,对观点倾向度量化值为正值的帖子可判定为一个对帖子观点的支持意见,对观点倾向度量化值为负值的帖子可判定为一个对帖子观点的反对意见。通过对持支持意见以及持反对意见的评论数据条目数分别进行统计,得到所述每篇帖子所持观点的支持数和反对数。
在S403中,将所述所述每篇帖子的点击数和评论数以及所述每篇帖子所持观点的支持数和反对数作为热度算法的输入参数,计算所述与话题相关的每篇帖子在所述每一个时间段内的话题热度得分,所述热度算法包括:
其中,S(pi)为与话题相关的每篇帖子在所述每一个时间段内的话题热度得分,xi和yi分别为第i篇帖子的点击数和评论数,average(xi)和average(yi)分别为与所述话题相关的所有帖子的点击数和评论数的均值,ω1、ω2、ω3和ω4为预设权重值,max(δ)为所述每篇帖子中,评论数与点击数的最大比值,mi和ni分别为第i篇帖子所持观点的支持数和反对数,α(0<α<1)、β(β<0)和δ(δ>0)为预设调节参数。
在本发明实施例中,通过计算每篇帖子在每一个指定时间段内的话题热度得分,实现了话题热度的量化,使得用户能够直观地了解话题在每个阶段的发展状况,及时发现并跟踪与自身利益相关的话题或事件;通过引入评论数据的用户观点倾向因子来计算热度得分,有效地避免了因帖子观点的支持数和反对数差值较大而造成的话题热度失真状况发生。
在S104中,根据所述每篇帖子在所述每一个时间段的话题热度得分,构建并训练伽马预测模型函数。
在事件趋势预测应用方面的预测模型有很多种,在本实施例中,选取伽马(Gamma)模型作为原始模型来对话题热度进行预测,相对于传统的话题热度预测高斯模型,能拥有更准确的预测效果。
在本实施例中,满足Gamma分布的模型概率密度函数如下所示:
其中,α是形状参数,表示模型函数分布曲线的形状,β为尺度参数,表示模型函数曲线左右两边的对称情况,β越大,函数曲线的左右两边越对称,当β→∞时,曲线服从正态分布。
以每篇帖子在每一个时间段的话题热度得分为依据,可以将同一时间段内各篇帖子的热度得分汇总为一个话题的热度总得分,并通过调节原始Gamma模型的形状参数及尺度参数,对话题热度总得分的变化趋势进行拟合,得到话题热度发展趋势的曲线,形成一个Gamma预测模型函数。
作为本发明的一个实施例,图5示出本发明实施例提供的话题热度预测方法S104的具体实现流程,详述如下:
S501,在所述每一个时间段内,分别将所述每篇帖子的所述话题热度得分汇总为所述话题在所述每一个时间段的热度总得分。
在本实施例中,在每个时间段内,可通过累加求平均的方式将所述每篇帖子的话题热度得分汇总为一个话题的热度总得分。
优选地,依照各篇帖子在话题热度中的影响力权重关系,得到话题热度总得分中每篇帖子所占的权重比例,根据权重比例将各篇帖子的话题热度得分进行累加,可计算出每个时间段内的话题热度总得分。
S502,利用所述每个时间段以及所述话题在所述每一个时间段的热度总得分作为训练数据对,通过最小二乘法获取伽马分布的概率密度函数中的待定系数。
为了研究话题热度总得分与各个时间段之间的相互关系,通过S501可以得到一系列成对的二维训练数据(x1,y1)、(x2,y2)、……、(xn,yn),其中x表示代表每个时间段的特定时间点,y表示在所述每一个时间段的话题热度总得分。将这些训练数据对描绘在x-y直角坐标系中,以伽马分布的概率密度函数来拟合所述训练数据对。
图6示出了本发明实施例提供的不同参数下的伽马分布曲线示意图,由图可知,不同参数条件下的分布曲线不相同,所描述出来的事件发展趋势各异,因此,可通过获取最优的参数值,来拟合得到最佳的话题热度发展趋势曲线。
在本实施例中,通过最小二乘法获取所述概率密度函数拟合所述数据对的最优形状参数及最优尺寸参数,所述最优参数即为所述需要获取的待定系数。
S503,根据所述待定系数,调整伽马模型的概率密度函数,并将所述调整后的概率密度函数输出为伽马预测模型函数。
将获取得到的最优形状参数及最优尺寸参数输入伽马模型的概率密度函数,即输入调整所述概率密度函数中的α与β,得出描述话题热度发展趋势的伽马预测模型函数。
由于本实施例中以实际获取得到的帖子热度得分为基础,采用了Gamma模型来对各时间段的话题热度总得分发展规律进行描述,因此极大地提高话题热度预测模型与真实话题热度发展趋势的拟合程度。
在S105中,利用所述伽马预测模型函数,获取任一时间点对应的话题热度预测值。
将需要进行话题热度总得分预测的时间点数据输入上述Gamma预测模型函数,经过系统运算后可得到该时间点的话题热度总得分,即为所述话题热度预测值。
本实施例以时间点为单位,可还原某个话题在过去时间的热度,也可以动态更新话题的热度以及预测未来的话题发展热度。
在本发明实施例中,基于用户的观点倾向越不统一,越会激发用户参与话题讨论,话题热度则越高的原理,通过对与预设话题相关的所有帖子的用户评论数据进行观点倾向分析,增加了观点倾向这一因子来量化衡量话题的热度,提高了话题热度得分计算的准确性,从而能够根据所述话题热度得分构建更为合理的热度预测模型函数;通过引入曲线峰值左右两端不对称的伽马模型进行话题热度的拟合,符合现实生活中话题热度的变化趋势,提高了话题热度预测的准确率,由此能够有效预测话题或事件的发展趋势。
对应于本发明实施例所提供的话题热度预测方法,图7示出了本发明实施例提供的话题热度预测系统的结构框图,该系统可以是内置于手机、计算机、平板电脑、笔记本电脑等终端的应用系统内的软件单元、硬件单元或者是软硬结合的单元。为了便于说明,仅示出了与本实施例相关的部分。
参照图7,该系统包括:
获取单元71,用于在与预设话题相关的每篇帖子中,获取N个时间段内的用户评论数据列表,所述用户评论数据列表包含M条评论数据,所述每篇帖子持有相应的观点,所述N和M为大于或等于一的整数。
分析单元72,用于通过预设的情感倾向分析算法对所述每一条评论数据进行处理,以获取所述每一条评论数据的用户观点倾向,所述用户观点倾向表示所述评论数据的发表用户对所述帖子所持观点的支持程度或者反对程度。
计算单元73,用于根据所述每一条评论数据的用户观点倾向,计算所述与预设话题相关的每篇帖子在所述每一个时间段的话题热度得分。
训练单元74,用于根据所述每篇帖子在所述每一个时间段的话题热度得分,构建并训练伽马预测模型函数。
预测单元75,用于利用所述伽马预测模型函数,获取任一时间点对应的话题热度预测值。
可选地,所述分析单元72包括:
读取子单元,用于从所述用户评论数据列表中读取一条所述评论数据。
判断子单元,用于判断所述评论数据的类型,所述类型为主观评论数据或客观评论数据。
处理子单元,用于若所述评论数据是主观评论数据,则获取所述评论数据的用户观点倾向,并从所述用户评论数据列表中依次读取下一条评论数据,对于所述下一条评论数据,重新执行所述判断处理过程,直至所述下一条评论数据为空;
若所述评论数据是客观评论数据,则将所述客观评论数据删除,并从所述用户评论数据列表中依次读取下一条评论数据,对于所述下一条评论数据,重新执行所述判断处理过程,直至所述下一条评论数据为空。
可选地,所述判断子单元具体用于:
基于情感词典对所述评论数据进行类型判断,若所述评论数据包含所述情感词典中的情感词,则所述评论数据为所述主观评论数据;
若所述评论数据没有包含所述情感词典中的情感词,则所述评论数据为所述客观评论数据。
可选地,所述计算单元73包括:
获取子单元,用于获取所述每一个时间段内所述每篇帖子的点击数和评论数。
统计子单元,用于根据所述每一条评论数据的用户观点倾向,在所述每一个时间段内,统计所述每篇帖子所持观点的支持数和反对数。
计算子单元,用于将所述每篇帖子的点击数和评论数以及所述每篇帖子所持观点的支持数和反对数作为热度算法的输入参数,计算所述与话题相关的每篇帖子在所述每一个时间段内的话题热度得分,所述热度算法包括:
其中,S(pi)为与话题相关的每篇帖子在所述每一个时间段内的话题热度得分,xi和yi分别为第i篇帖子的点击数和评论数,average(xi)和average(yi)分别为与所述话题相关的所有帖子的点击数和评论数的均值,ω1、ω2、ω3和ω4为预设权重值,max(δ)为所述每篇帖子中,评论数与点击数的最大比值,mi和ni分别为第i篇帖子所持观点的支持数和反对数,α(0<α<1)、β(β<0)和δ(δ>0)为预设调节参数。
可选地,所述训练单元74包括:
汇总子单元,用于在所述每一个时间段内,分别将所述每篇帖子的所述话题热度得分汇总为所述话题在所述每一个时间段的热度总得分。
训练子单元,用于利用所述每个时间段以及所述话题在所述每一个时间段的热度总得分作为训练数据对,通过最小二乘法获取伽马分布的概率密度函数中的待定系数。
调整子单元,用于根据所述待定系数,调整伽马模型的概率密度函数,并将所述调整后的概率密度函数输出为伽马预测模型函数。
在本发明实施例中,基于用户的观点倾向越不统一,越会激发用户参与话题讨论,话题热度则越高的原理,通过对与预设话题相关的所有帖子的用户评论数据进行观点倾向分析,增加了观点倾向这一因子来量化衡量话题的热度,提高了话题热度得分计算的准确性,从而能够根据所述话题热度得分构建更为合理的热度预测模型函数;通过引入曲线峰值左右两端不对称的伽马模型进行话题热度的拟合,符合现实生活中话题热度的变化趋势,提高了话题热度预测的准确率,由此能够有效预测话题或事件的发展趋势。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种话题热度预测方法,其特征在于,包括:
在与预设话题相关的每篇帖子中,获取N个时间段内的用户评论数据列表,所述用户评论数据列表包含M条评论数据,所述每篇帖子持有相应的观点,所述N和M为大于或等于一的整数;
通过预设的情感倾向分析算法对所述每一条评论数据进行处理,以获取所述每一条评论数据的用户观点倾向,所述用户观点倾向表示所述评论数据的发表用户对所述帖子所持观点的支持程度或者反对程度;
根据所述每一条评论数据的用户观点倾向,计算所述与预设话题相关的每篇帖子在所述每一个时间段的话题热度得分;
根据所述每篇帖子在所述每一个时间段的话题热度得分,构建并训练伽马预测模型函数;
利用所述伽马预测模型函数,获取任一时间点对应的话题热度预测值。
2.如权利要求1所述的方法,其特征在于,所述通过预设的情感倾向分析算法对所述每一条评论数据进行处理,以获取所述每一条评论数据的用户观点倾向包括:
从所述用户评论数据列表中读取一条所述评论数据;
判断所述评论数据的类型,所述类型为主观评论数据或客观评论数据;
若所述评论数据是主观评论数据,则获取所述评论数据的用户观点倾向,并从所述用户评论数据列表中依次读取下一条评论数据,对于所述下一条评论数据,重新执行所述判断处理过程,直至所述下一条评论数据为空;
若所述评论数据是客观评论数据,则将所述客观评论数据删除,并从所述用户评论数据列表中依次读取下一条评论数据,对于所述下一条评论数据,重新执行所述判断处理过程,直至所述下一条评论数据为空。
3.如权利要求2所述的方法,其特征在于,所述判断所述评论数据的类型包括:
基于情感词典对所述评论数据进行类型判断,若所述评论数据包含所述情感词典中的情感词,则所述评论数据为所述主观评论数据;
若所述评论数据没有包含所述情感词典中的情感词,则所述评论数据为所述客观评论数据。
4.如权利要求1所述的方法,其特征在于,所述根据所述每一条评论数据的用户观点倾向,计算所述与话题相关的每篇帖子在所述每一个时间段的话题热度得分包括:
获取所述每一个时间段内所述每篇帖子的点击数和评论数;
根据所述每一条评论数据的用户观点倾向,在所述每一个时间段内,统计所述每篇帖子所持观点的支持数和反对数;
将所述每篇帖子的点击数和评论数以及所述每篇帖子所持观点的支持数和反对数作为热度算法的输入参数,计算所述与话题相关的每篇帖子在所述每一个时间段内的话题热度得分,所述热度算法包括:
S ( p i ) = &omega; 1 x i a v e r a g e ( x i ) + &omega; 2 y i a v e r a g e ( y i ) + &omega; 3 y i / x i max ( &delta; ) + &omega; 4 ( y i &delta; | m i - n i | + &alpha; ) &beta; , ( i > 1 ) &omega; 1 log x i + &omega; 2 log y i + &omega; 3 ( y i / x i ) + &omega; 4 ( y i &delta; | m i - n i | + &alpha; ) &beta; , ( i = 1 )
其中,S(pi)为与话题相关的每篇帖子在所述每一个时间段内的话题热度得分,xi和yi分别为第i篇帖子的点击数和评论数,average(xi)和average(yi)分别为与所述话题相关的所有帖子的点击数和评论数的均值,ω1、ω2、ω3和ω4为预设权重值,max(δ)为所述每篇帖子中,评论数与点击数的最大比值,mi和ni分别为第i篇帖子所持观点的支持数和反对数,α(0<α<1)、β(β<0)和δ(δ>0)为预设调节参数。
5.如权利要求1所述的方法,其特征在于,所述根据所述每篇帖子在所述每一个时间段的话题热度得分,构建并训练伽马预测模型函数包括:
在所述每一个时间段内,分别将所述每篇帖子的所述话题热度得分汇总为所述话题在所述每一个时间段的热度总得分;
利用所述每个时间段以及所述话题在所述每一个时间段的热度总得分作为训练数据对,通过最小二乘法获取伽马分布的概率密度函数中的待定系数;
根据所述待定系数,调整伽马模型的概率密度函数,并将所述调整后的概率密度函数输出为伽马预测模型函数。
6.一种话题热度预测系统,其特征在于,包括:
获取单元,用于在与预设话题相关的每篇帖子中,获取N个时间段内的用户评论数据列表,所述用户评论数据列表包含M条评论数据,所述每篇帖子持有相应的观点,所述N和M为大于或等于一的整数;
分析单元,用于通过预设的情感倾向分析算法对所述每一条评论数据进行处理,以获取所述每一条评论数据的用户观点倾向,所述用户观点倾向表示所述评论数据的发表用户对所述帖子所持观点的支持程度或者反对程度;
计算单元,用于根据所述每一条评论数据的用户观点倾向,计算所述与预设话题相关的每篇帖子在所述每一个时间段的话题热度得分;
训练单元,用于根据所述每篇帖子在所述每一个时间段的话题热度得分,构建并训练伽马预测模型函数;
预测单元,用于利用所述伽马预测模型函数,获取任一时间点对应的话题热度预测值。
7.如权利要求6所述的系统,其特征在于,所述分析单元包括:
读取子单元,用于从所述用户评论数据列表中读取一条所述评论数据;
判断子单元,用于判断所述评论数据的类型,所述类型为主观评论数据或客观评论数据;
处理子单元,用于若所述评论数据是主观评论数据,则获取所述评论数据的用户观点倾向,并从所述用户评论数据列表中依次读取下一条评论数据,对于所述下一条评论数据,重新执行所述判断处理过程,直至所述下一条评论数据为空;
若所述评论数据是客观评论数据,则将所述客观评论数据删除,并从所述用户评论数据列表中依次读取下一条评论数据,对于所述下一条评论数据,重新执行所述判断处理过程,直至所述下一条评论数据为空。
8.如权利要求7所述的系统,其特征在于,所述判断子单元具体用于:
基于情感词典对所述评论数据进行类型判断,若所述评论数据包含所述情感词典中的情感词,则所述评论数据为所述主观评论数据;
若所述评论数据没有包含所述情感词典中的情感词,则所述评论数据为所述客观评论数据。
9.如权利要求6所述的系统,其特征在于,所述计算单元包括:
获取子单元,用于获取所述每一个时间段内所述每篇帖子的点击数和评论数;
统计子单元,用于根据所述每一条评论数据的用户观点倾向,在所述每一个时间段内,统计所述每篇帖子所持观点的支持数和反对数;
计算子单元,用于将所述每篇帖子的点击数和评论数以及所述每篇帖子所持观点的支持数和反对数作为热度算法的输入参数,计算所述与话题相关的每篇帖子在所述每一个时间段内的话题热度得分,所述热度算法包括:
S ( p i ) = &omega; 1 x i a v e r a g e ( x i ) + &omega; 2 y i a v e r a g e ( y i ) + &omega; 3 y i / x i max ( &delta; ) + &omega; 4 ( y i &delta; | m i - n i | + &alpha; ) &beta; , ( i > 1 ) &omega; 1 log x i + &omega; 2 log y i + &omega; 3 ( y i / x i ) + &omega; 4 ( y i &delta; | m i - n i | + &alpha; ) &beta; , ( i = 1 )
其中,S(pi)为与话题相关的每篇帖子在所述每一个时间段内的话题热度得分,xi和yi分别为第i篇帖子的点击数和评论数,average(xi)和average(yi)分别为与所述话题相关的所有帖子的点击数和评论数的均值,ω1、ω2、ω3和ω4为预设权重值,max(δ)为所述每篇帖子中,评论数与点击数的最大比值,mi和ni分别为第i篇帖子所持观点的支持数和反对数,α(0<α<1)、β(β<0)和δ(δ>0)为预设调节参数。
10.如权利要求6所述的系统,其特征在于,所述训练单元包括:
汇总子单元,用于在所述每一个时间段内,分别将所述每篇帖子的所述话题热度得分汇总为所述话题在所述每一个时间段的热度总得分;
训练子单元,用于利用所述每个时间段以及所述话题在所述每一个时间段的热度总得分作为训练数据对,通过最小二乘法获取伽马分布的概率密度函数中的待定系数;
调整子单元,根据所述待定系数,调整伽马模型的概率密度函数,并将所述调整后的概率密度函数输出为伽马预测模型函数。
CN201610951612.8A 2016-10-26 2016-10-26 一种话题热度预测方法及系统 Pending CN106503209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610951612.8A CN106503209A (zh) 2016-10-26 2016-10-26 一种话题热度预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610951612.8A CN106503209A (zh) 2016-10-26 2016-10-26 一种话题热度预测方法及系统

Publications (1)

Publication Number Publication Date
CN106503209A true CN106503209A (zh) 2017-03-15

Family

ID=58323068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610951612.8A Pending CN106503209A (zh) 2016-10-26 2016-10-26 一种话题热度预测方法及系统

Country Status (1)

Country Link
CN (1) CN106503209A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274004A (zh) * 2017-05-11 2017-10-20 广东网金控股股份有限公司 一种融资项目热度预警方法及终端
CN107578785A (zh) * 2017-09-05 2018-01-12 哈尔滨工业大学 基于Gamma分布分析的音乐连续情感特征分析评价方法
CN108763337A (zh) * 2018-05-14 2018-11-06 苏州闻道网络科技股份有限公司 用于确定影响力指数的方法及其装置
CN109168049A (zh) * 2018-09-03 2019-01-08 广州虎牙信息科技有限公司 直播节目的等级评价方法、装置、存储介质及服务器
CN109344319A (zh) * 2018-11-01 2019-02-15 中国搜索信息科技股份有限公司 一种基于集成学习的线上内容热度预测方法
CN109472415A (zh) * 2018-11-15 2019-03-15 成都智库二八六信息技术有限公司 一种通过动力学特性预测社交媒体中事件规模的方法
CN109508416A (zh) * 2018-11-09 2019-03-22 四川大学 基于评论数量的微博舆情事件热度与发展趋势预测方法
CN110825972A (zh) * 2019-11-12 2020-02-21 重庆邮电大学 一种基于领域差异化的热点话题关键用户发现方法
CN110990571A (zh) * 2019-12-02 2020-04-10 精硕科技(北京)股份有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
CN112765346A (zh) * 2020-11-18 2021-05-07 北京五八信息技术有限公司 一种信息处理方法及装置
CN113051483A (zh) * 2021-04-26 2021-06-29 中国建设银行股份有限公司 一种帖子热度的计算方法和装置
CN113051484A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 确定热点社交类信息的方法及装置
CN116050862A (zh) * 2022-12-26 2023-05-02 北京码牛科技股份有限公司 一种舆情情感态势预测方法、系统、终端及存储介质
CN117078341A (zh) * 2023-08-18 2023-11-17 时趣互动(北京)科技有限公司 一种品牌营销活动分析展示方法、系统、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140052753A1 (en) * 2010-12-21 2014-02-20 Peking University Founder Group Co., Ltd. Method, device and system for processing public opinion topics
CN103745000A (zh) * 2014-01-24 2014-04-23 福州大学 一种中文微博客的热点话题检测方法
CN104123377A (zh) * 2014-07-30 2014-10-29 福州大学 一种微博话题热度预测系统及方法
CN104615685A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向网络话题的热度评价方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140052753A1 (en) * 2010-12-21 2014-02-20 Peking University Founder Group Co., Ltd. Method, device and system for processing public opinion topics
CN103745000A (zh) * 2014-01-24 2014-04-23 福州大学 一种中文微博客的热点话题检测方法
CN104123377A (zh) * 2014-07-30 2014-10-29 福州大学 一种微博话题热度预测系统及方法
CN104615685A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向网络话题的热度评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王鹏程 等: ""融合观点倾向的话题热度趋势建模研究"", 《计算机工程》 *
王鹏程: ""基于BBS话题评论的网络舆情分析系统设计与实现"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274004A (zh) * 2017-05-11 2017-10-20 广东网金控股股份有限公司 一种融资项目热度预警方法及终端
CN107578785B (zh) * 2017-09-05 2020-08-14 哈尔滨工业大学 基于Gamma分布分析的音乐连续情感特征分析评价方法
CN107578785A (zh) * 2017-09-05 2018-01-12 哈尔滨工业大学 基于Gamma分布分析的音乐连续情感特征分析评价方法
CN108763337A (zh) * 2018-05-14 2018-11-06 苏州闻道网络科技股份有限公司 用于确定影响力指数的方法及其装置
CN109168049A (zh) * 2018-09-03 2019-01-08 广州虎牙信息科技有限公司 直播节目的等级评价方法、装置、存储介质及服务器
CN109344319A (zh) * 2018-11-01 2019-02-15 中国搜索信息科技股份有限公司 一种基于集成学习的线上内容热度预测方法
CN109344319B (zh) * 2018-11-01 2021-08-24 中国搜索信息科技股份有限公司 一种基于集成学习的线上内容热度预测方法
CN109508416A (zh) * 2018-11-09 2019-03-22 四川大学 基于评论数量的微博舆情事件热度与发展趋势预测方法
CN109508416B (zh) * 2018-11-09 2021-11-23 四川大学 基于评论数量的微博舆情事件热度与发展趋势预测方法
CN109472415A (zh) * 2018-11-15 2019-03-15 成都智库二八六信息技术有限公司 一种通过动力学特性预测社交媒体中事件规模的方法
CN109472415B (zh) * 2018-11-15 2021-11-19 成都智库二八六一信息技术有限公司 一种通过动力学特性预测社交媒体中事件规模的方法
CN110825972A (zh) * 2019-11-12 2020-02-21 重庆邮电大学 一种基于领域差异化的热点话题关键用户发现方法
CN110825972B (zh) * 2019-11-12 2022-10-25 重庆邮电大学 一种基于领域差异化的热点话题关键用户发现方法
CN110990571A (zh) * 2019-12-02 2020-04-10 精硕科技(北京)股份有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
CN110990571B (zh) * 2019-12-02 2024-04-02 北京秒针人工智能科技有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
CN113051484A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 确定热点社交类信息的方法及装置
CN112765346A (zh) * 2020-11-18 2021-05-07 北京五八信息技术有限公司 一种信息处理方法及装置
CN113051483A (zh) * 2021-04-26 2021-06-29 中国建设银行股份有限公司 一种帖子热度的计算方法和装置
CN116050862A (zh) * 2022-12-26 2023-05-02 北京码牛科技股份有限公司 一种舆情情感态势预测方法、系统、终端及存储介质
CN117078341A (zh) * 2023-08-18 2023-11-17 时趣互动(北京)科技有限公司 一种品牌营销活动分析展示方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN106503209A (zh) 一种话题热度预测方法及系统
Saad et al. Twitter sentiment analysis based on ordinal regression
Yurdakul et al. Analysis of the benefit generated by using fuzzy numbers in a TOPSIS model developed for machine tool selection problems
CN105930368B (zh) 一种情感分类方法及系统
CN105843897A (zh) 一种面向垂直领域的智能问答系统
Feduhko Development of a software for computer-linguistic verification of socio-demographic profile of web-community member
CN103699521B (zh) 文本分析方法及装置
CN109635291A (zh) 一种基于协同训练的融合评分信息和物品内容的推荐方法
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
CN105824922A (zh) 一种融合深层特征和浅层特征的情感分类方法
CN111159349A (zh) 基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备
Zhang et al. Dynamic parameters identification for sliding joints of surface grinder based on deep neural network modeling
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN112732915A (zh) 情感分类方法、装置、电子设备及存储介质
CN109214008A (zh) 一种基于关键词提取的情感分析方法及系统
CN101556553A (zh) 基于需求变更的缺陷预测方法和系统
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN110442872B (zh) 一种文本要素完整性审核方法及装置
Brainerd Weighting Evidence in Language and Literature: A Statistical Approach
CN106997341A (zh) 一种创新方案匹配方法、装置、服务器及系统
CN102609424B (zh) 评价信息抽取方法和设备
CN103744834A (zh) 一种翻译任务准确分配的方法
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN103729421A (zh) 一种译员文档精确匹配的方法
CN104462408A (zh) 一种基于主题建模的多粒度情感分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315