CN106599002A - 话题演化分析的方法及装置 - Google Patents

话题演化分析的方法及装置 Download PDF

Info

Publication number
CN106599002A
CN106599002A CN201510681161.6A CN201510681161A CN106599002A CN 106599002 A CN106599002 A CN 106599002A CN 201510681161 A CN201510681161 A CN 201510681161A CN 106599002 A CN106599002 A CN 106599002A
Authority
CN
China
Prior art keywords
topic
sub
time window
emotion
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510681161.6A
Other languages
English (en)
Other versions
CN106599002B (zh
Inventor
朱波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510681161.6A priority Critical patent/CN106599002B/zh
Publication of CN106599002A publication Critical patent/CN106599002A/zh
Application granted granted Critical
Publication of CN106599002B publication Critical patent/CN106599002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种话题演化分析的方法及装置,涉及互联网技术领域,为解决现有技术中话题分析人员无法获得更有价值的信息而发明。本发明的方法包括:将同一话题的网络内容按照内容产生的时间归类到不同的时间窗口中;通过话题模型分别分析每个时间窗口中网络内容涉及的子话题;对每个时间窗口中的子话题分别进行情感分析,获取子话题在所属时间窗口中的情感值;将相邻时间窗口中相同的子话题进行关联;根据同一子话题在不同时间窗口中的情感值,生成子话题在时间维度上的情感趋势变化。本发明适合应用在对舆情话题的演化分析的过程中。

Description

话题演化分析的方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种话题演化分析的方法及装置。
背景技术
随着互联网技术的普及,大家对某话题的评论和观点开始更多的通过网络进行发布,比如微博,贴吧等。为了更好的分析某话题的发展,通常会建立话题模型,对某个媒体中某话题的相关评论和观点的文本进行时序分析,找出话题演化的历程,即找出文本数据中包含的话题内容和具体话题的情感历时变化,以及某话题的关注度随时间的变化,关注度反映的是对话题评论的数量随时间的变化,对话题的评论数量越多,表明对话题的关注度越高。
在上述分析话题发展的过程中,发明人发现,现有技术中对话题演化历程的分析仅限于对话题内容以及话题评论的数量的分析,分析指标单一,分析人员无法从中获得更有价值的信息。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种话题演化分析的方法及装置。
为解决上述技术问题,一方面,本发明提供了一种话题演化分析的方法,该方法包括:
将同一话题的网络内容按照内容产生的时间归类到不同的时间窗口中;
通过话题模型分别分析每个时间窗口中网络内容涉及的子话题;
对每个时间窗口中的子话题分别进行情感分析,获取所述子话题在所属时间窗口中的情感值;
将相邻时间窗口中相同的子话题进行关联;
根据同一子话题在不同时间窗口中的情感值,生成所述子话题在时间维度上的情感趋势变化。
另一方面,本发明还提供了一种话题演化分析的装置,该装置包括:
归类单元,用于将同一话题的网络内容按照内容产生的时间归类到不同的时间窗口中;
第一分析单元,用于通过话题模型分别分析所述归类单元归类得到的每个时间窗口中网络内容涉及的子话题;
第二分析单元,用于对所述第一分析单元分析得到的所述每个时间窗口中的子话题分别进行情感分析,获取所述子话题在所属时间窗口中的情感值;
关联单元,用于将所述第一分析单元分析得到的相邻时间窗口中相同的子话题进行关联;
生成单元,用于根据所述第二分析单元对所述关联单元关联得到的同一子话题在不同时间窗口中的情感值,生成所述子话题在时间维度上的情感趋势变化。
借由上述技术方案,本发明提供的话题演化分析的方法及装置,能够将同一话题内容按时间归类到不同的时间窗口中,然后通过话题模型分析得到每个时间窗口中的子话题,并获取每个时间窗口中的子话题的情感值,最后将相邻时间窗口中的同一子话题进行关联,得到同一子话题随时间变化的情感趋势的变化。与现有技术相比,本发明能够得到同一子话题的情感趋势变化,给出该子话题在时序上的关注度趋势变化,能够提供更有价值的话题分析信息。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种话题演化分析的方法流程图;
图2示出了本发明实施例提供的另一种话题演化分析的方法流程图;
图3示出了本发明实施例提供的一种话题演化分析的装置的组成框图;
图4示出了本发明实施例提供的另一种话题演化分析的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决现有技术中话题分析人员无法获得更有价值的信息的问题,本发明实施例提供了一种话题演化分析的方法,如图1所示,该方法包括:
101、将同一话题的网络内容按照内容产生的时间归类到不同的时间窗口中。
本实施例中同一话题的网络内容主要是指在某一媒体中与同一话题相关的文本类的数据,比如文字性的评论。其中的某一媒体可以是微博、贴吧等任何一种可以进行话题评论的媒体。因为对话题的评论都是按时间的先后顺序记录的,为了后面话题演化的分析,所以需要将同一话题的网络内容按时间进行分割,将分割得到的网络内容分别归类到不同的时间窗口中。
102、通过话题模型分别分析每个时间窗口中网络内容涉及的子话题。
本实施例中,话题可以划分为多个子话题,子话题与话题是从属的关系。一个话题中子话题的数量可以是一个也可以是多个。下面举例说明话题与子话题的关系:“汶川地震”是一个话题,在这话题的整个过程中会产生“地震导致的伤亡情况”、“灾后领导的指挥”、“灾后救助情况”、“灾后重建情况”等多个子话题。
本实施例中用到的话题模型是主题模型(Infinite Latent DirichletAllocation,简称ILDA)。ILDA是一种话题分析模型,也是一种聚类模型,它可以将各周期内的内容按不同的主题分类,其中主题的类别数是根据具体的各周期内的内容自动确定的,不需要人为地设置主题的类别数。本实施例中,每个时间窗口可以看作是不同的周期,因此对由步骤101得到的不同时间窗口分别利用ILDA。每个时间窗口中的网络内容都按照主题分类,分类得到的每一个主题作为一个子话题,子话题的个数与主题的个数一致,最终得到每个时间窗口中网络内容涉及的子话题。
103、对每个时间窗口中的子话题分别进行情感分析,获取子话题在所属时间窗口中的情感值。
由步骤102可以得到每个时间窗口中的子话题,然后对每个时间窗口中的子话题的情感进行分析。本实施例中对子话题的情感分析是指定义子话题中所表现出来的对子话题的情感的表达,为了更加准确地定义对子话题情感的表达,将情感的表达按照一定的标准来衡量,具体的用情感值来衡量对子话题的情感的表达。每个时间窗口中的每个子话题都对应一个情感值,其中情感值的大小可以相同也可以不同,由实际的情况决定。
104、将相邻时间窗口中相同的子话题进行关联。
由于不同的时间窗口中可能包含同一个子话题,即同样的子话题可能存在于一个或几个时间窗口中,或者存在于每一个时间窗口中,因此为了后面得到同一子话题的情感趋势变化,需要找出不同的时间窗口中相同的子话题。
具体在找出不同时间窗口中相同的子话题时,可以按照时间顺序依次查找相邻两个时间窗口中相同的子话题,然后将其进行关联。在查找相邻两个时间窗口中相同的子话题时,有可能出现相邻的两个时间窗口中不同时存在同一个子话题,那么就需要按照原有的时间窗口的位置顺序依次找下一个时间窗口作为相邻时间窗口,直到找到同一子话题或者找完所有的时间窗口为止。
为了更清楚地表达上述找出不同时间窗口中的相同子话题的过程,给出具体的例子进行说明:
假设有三个连续的时间窗口T1、T2、T3,在T1中涉及三个子话题分别为A1、B1、C1,T2中涉及两个子话题分别为B2、C2,T3中涉及两个子话题A3、C3。将时间窗口中的相同子话题进行关联的结果是:A1、A3相关联;B1、B2相关联,C1、C2、C3相关联。可以看到不同的时间窗口的同一子话题关联到一起。其中,A1与A3为分别属于T1和T3时间窗口中的同一个子话题,B1、B2为分别属于T1和T2时间窗口中的同一个子话题,C1、C2、C3为分别属于T1、T2和T3时间窗口中的同一个子话题。
105、根据同一子话题在不同时间窗口中的情感值,生成子话题在时间维度上的情感趋势变化。
执行完步骤104就可以将不同时间窗口中的相同子话题都找出来,然后与由步骤103得到的其在所属时间窗口中的情感值一起生成情感趋势变化图。同一子话题构成一个情感趋势变化图,得到的情感趋势变化图是以时间窗口为横坐标,情感值为纵坐标的二维曲线图,这里生成的情感趋势变化图就是子话题在时间维度上的情感趋势变化。由于找出来的子话题是在时序上按照先后顺序排列的,因此情感趋势变化图能够反映出子话题的情感随时间变化而变化的趋势。
本实施例提供的话题演化分析的方法,能够将同一话题内容按时间归类到不同的时间窗口中,然后通过话题模型分析得到每个时间窗口中的子话题,并获取每个时间窗口中的子话题的情感值,最后将相邻时间窗口中的同一子话题进行关联,得到同一子话题随时间变化的情感趋势的变化。与现有技术相比,本实施例能够得到同一子话题的情感趋势变化,给出该子话题在时序上的关注度趋势变化,能够提供更有价值的话题分析信息。
进一步的,作为对图1所示实施例的细化及扩展,本发明还提供了另一实施例。如图2所示,该实施例中话题演化分析的方法包括:
201、按照网络内容的数量确定时间窗口的节点。
本实施例中的网络内容与图1中的步骤101中的网络内容是一样的,具体的网络内容的数量是指对话题的评论条数。所以按照网络内容的数量确定时间窗口的节点就是按照对话题的评论条数来确定时间窗口的节点。具体的确定方法是:首先根据时间及其对应的话题的评论条数,得到关于时间和评论条数的曲线;然后分析曲线的趋势,将曲线中每一个波峰对应的时间段作为一个时间窗口,每两个波峰之间的时间段作为一个时间窗口,以这样的规则将整个曲线进行分割;曲线的每个分割点作为时间窗口的节点。
当新增话题的网络内容时,按照新增网络内容的数量确定新的节点。其确定新的节点的方法是:将新增话题的网络内容中的对话题的评论条数按其对应的时间添加到上述得到的关于时间和评论条数的曲线中,然后重新按照上述确定时间窗口节点的方法确定节点,将得到的区别于新增话题之前的时间窗口节点的分割点作为新的时间窗口节点。
202、将相邻两个节点之间的时间长度设置为一个时间窗口的长度。
将由步骤201得到的时间窗口的节点之间的长度设为一个时间窗口的长度,当新增话题内容时,将新的节点与前一节点之间的时间长度设置为一个新的时间窗口的长度,其中每个时间窗口的长度可以是相同的也可以不同的,由具体的实际情况决定。
203、将同一话题的网络内容按照内容产生的时间归类到不同的时间窗口中。
由步骤201确定的时间窗口节点和步骤202设置的时间窗口长度可以得到不同的时间窗口,然后按照网络内容产生的时间将同一话题的网络内容归类到不同的时间窗口中。当新增话题内容时,由步骤201确定的新的时间窗口节点和步骤202设置的新的时间窗口的长度可以得到新的时间窗口,然后将新增网络内容归类到新的时间窗口中。
204、通过话题模型分别分析每个时间窗口中网络内容涉及的子话题。
该步骤的实现方式与图1步骤102的实现方式相同,此处不再赘述。
205、在预设的情感词字典中查找子话题中包含的情感词对应的情感值。
本实施例中的预设的情感词字典中包括了对话题评论可能用到的所有情感词,并对所有情感词进行分类和定值:积极的情感词的情感值为正值,中性情感词的情感值为零值,消极的情感词的情感值为负值;按照不同的情感强度,将积极情感词和消极情感词的情感值各自分为四个等级,再加上中性情感词的情感值得到9种情感值——-1,-0.75,-0.5,-0.25,0,0.25,0.5,0.75,1。需要说明的是,本实施例中所给出的具体数值仅为方便理解之用,不作为对实际应用中情感值取值范围的具体限定。
将由步骤204中得到的每个时间窗口中网络内容涉及的子话题中所包含的所有词与预设的情感词字典中的情感词进行比对,能够得到所有子话题中包含的情感词,并查找出其对应的情感值。
206、将情感词的情感值相加,获得子话题在所属时间窗口中的情感值。
由步骤206可以得到子话题中包含的情感词对应的情感值,然后将每个子话题中包含的所有情感词对应的情感值相加,正的情感值和负的情感值会相互抵消一部分,最后得到总的情感值,这个总的情感值能更加合理地表达各子话题在所属时间窗口中的情感程度。得到的总的情感值就是子话题在所属时间窗口中的感情值。
207、通过话题模型分别获取相邻时间窗口中子话题中的话题词。
本步骤中的话题模型是ILDA,可以在模型中设置一个参数n,n代表对于每个子话题希望得到的话题词的个数,其中话题词类似于关键词,可以较准确地表征一个子话题,并且还可以较明显地区别于其它子话题的话题词。比如n设为4,那么通过ILDA就可以得到每个子话题对应的4个话题词。因此对相邻两个时间窗口分别利用话题模型ILDA,并设置参数n的值,就可以分别获取到相邻时间窗口中子话题中n个话题词,为了后面科学的计算相邻窗口中子话题的话题词之间的相似度值,本实施例中的参数n设为统一的值。
通过话题模型分别获取相邻时间窗口中子话题中的话题词,也是为后面的计算相邻窗口中子话题的话题词之间的相似度值做准备。
208、计算相邻窗口中子话题的话题词之间的相似度值。
本步骤中的话题词是由步骤207得到的相邻时间窗口中子话题的话题词,将其中一个时间窗口中的每一个子话题的话题词分别与另一个时间窗口中的所有子话题的话题词进行相似度的计算,其中相邻时间窗口与图1中的步骤104中的含义是相同的。本实施例中用余弦相似度来进行相似度的计算,将计算得到相似度值作为判断相邻时间窗口中是否存在同一子话题的标准。
209、将相似度值满足预设阈值的话题词所分别对应的子话题,按照各自所在的时间窗口的先后顺序进行关联。
本实施例中的相似度值的预设阈值为0.4,然后将由步骤208中计算得到的相似度值与预设阈值比较,若相似度值大于预设阈值,则认为满足预设阈值,即相似度值满足预设阈值的话题词所分别对应的两个子话题相似,将两个相似的子话题看作是同一子话题。按照上述判断是否为同一子话题的方法就可以找到相邻时间窗口中的同一子话题,然后将其按照各自所在的时间窗口的先后顺序进行关联。
在实际应用中,相似度值的预设阈值可以根据实际的需求设定。
210、根据同一子话题在不同时间窗口中的情感值,生成子话题在时间维度上的情感趋势变化。
该步骤的实现方式与图1步骤105的实现方式相同,此处不再赘述。
进一步的,作为对上述图1和图2所示方法的实现,本发明实施例另一实施例还提供了一种话题演化分析的装置,用于对上述图1和图2所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示,该装置包括:归类单元31、第一分析单元32、第二分析单元33、关联单元34及生成单元35。
归类单元31,用于将同一话题的网络内容按照内容产生的时间归类到不同的时间窗口中;
第一分析单元32,用于通过话题模型分别分析归类单元31归类得到的每个时间窗口中网络内容涉及的子话题;
第二分析单元33,用于对第一分析单元32分析得到的每个时间窗口中的子话题分别进行情感分析,获取子话题在所属时间窗口中的情感值;
关联单元34,用于将第一分析单元32分析得到的相邻时间窗口中相同的子话题进行关联;
生成单元35,用于根据第二分析单元33对关联单元34关联得到的同一子话题在不同时间窗口中的情感值,生成子话题在时间维度上的情感趋势变化。
进一步的,如图4所示,装置进一步包括:
确定单元36,用于在归类单元31按照内容产生的时间将同一话题的网络内容归类到不同的时间窗口中之前,按照网络内容的数量确定时间窗口的节点;
设置单元37,用于将确定单元36确定的相邻两个节点之间的时间长度设置为一个时间窗口的长度。
进一步的,确定单元36,用于:
当新增话题的网络内容时,按照新增网络内容的数量确定新的节点;
设置单元37,用于:
将新的节点与前一节点之间的时间长度设置为一个新的时间窗口的长度;
归类单元31,用于:
将新增网络内容归类到新的时间窗口中。
进一步的,如图4所示,第二分析单元33,包括:
查找模块331,用于在预设的情感词字典中查找子话题中包含的情感词对应的情感值;
相加模块332,用于将查找模块331查找的情感词的情感值相加,获得子话题在所属时间窗口中的情感值。
进一步的,如图4所示,关联单元34,包括:
获取模块341,用于通过话题模型分别获取相邻时间窗口中子话题中的话题词;
计算模块342,用于计算获取模块341获取的相邻窗口中子话题的话题词之间的相似度值;
关联模块343,用于将计算模块342计算的相似度值满足预设阈值的话题词所分别对应的子话题,按照各自所在的时间窗口的先后顺序进行关联。
进一步的,第二分析单元33获取的情感值的正负用于表征情感词为积极情感词或消极情感词;
第二分析单元33获取的情感值的大小用于表征情感词的情感强度。
所述话题演化分析装置包括处理器和存储器,上述归类单元、第一分析单元、第二分析单元、关联单元和生成单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
本实施例提供的话题演化分析的装置,能够将同一话题内容按时间归类到不同的时间窗口中,然后通过话题模型分析得到每个时间窗口中的子话题,并获取每个时间窗口中的子话题的情感值,最后将相邻时间窗口中的同一子话题进行关联,得到同一子话题随时间变化的情感趋势的变化。与现有技术相比,本实施例能够得到同一子话题的情感趋势变化,给出该子话题在时序上的关注度趋势变化,能够提供更有价值的话题分析信息。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:按照内容产生的时间将同一话题的网络内容归类到不同的时间窗口中;通过话题模型分别分析每个时间窗口中网络内容涉及的子话题;对每个时间窗口中的子话题分别进行情感分析,获取子话题在所属时间窗口中的情感值;将相邻时间窗口中相同的子话题进行关联;根据同一子话题在不同时间窗口中的情感值,生成子话题在时间维度上的情感趋势变化。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种话题演化分析的方法,其特征在于,所述方法包括:
将同一话题的网络内容按照内容产生的时间归类到不同的时间窗口中;
通过话题模型分别分析每个时间窗口中网络内容涉及的子话题;
对每个时间窗口中的子话题分别进行情感分析,获取所述子话题在所属时间窗口中的情感值;
将相邻时间窗口中相同的子话题进行关联;
根据同一子话题在不同时间窗口中的情感值,生成所述子话题在时间维度上的情感趋势变化。
2.根据权利要求1所述的方法,其特征在于,在所述按照内容产生的时间将同一话题的网络内容归类到不同的时间窗口中之前,所述方法进一步包括:
按照所述网络内容的数量确定时间窗口的节点;
将相邻两个节点之间的时间长度设置为一个时间窗口的长度。
3.根据权利要求2所述的方法,其特征在于,所述按照所述网络内容的数量确定时间窗口的节点,包括:
当新增所述话题的网络内容时,按照新增网络内容的数量确定新的节点;
所述将相邻两个节点之间的时间长度设置为一个时间窗口的长度,包括:
将所述新的节点与其前一节点之间的时间长度设置为一个新的时间窗口的长度;
所述按照内容产生的时间将同一话题的网络内容归类到不同的时间窗口中,包括:
将所述新增网络内容归类到所述新的时间窗口中。
4.根据权利要求1所述的方法,其特征在于,所述对每个时间窗口中的子话题分别进行情感分析,获取所述子话题在所属时间窗口中的情感值,包括:
在预设的情感词字典中查找所述子话题中包含的情感词对应的情感值;
将所述情感词的情感值相加,获得所述子话题在所属时间窗口中的情感值。
5.根据权利要求1所述的方法,其特征在于,所述将相邻时间窗口中相同的子话题进行关联,包括:
通过话题模型分别获取相邻时间窗口中子话题中的话题词;
计算相邻窗口中子话题的话题词之间的相似度值;
将相似度值满足预设阈值的话题词所分别对应的子话题,按照各自所在的时间窗口的先后顺序进行关联。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述情感值的正负用于表征所述情感词为积极情感词或消极情感词;
所述情感值的大小用于表征所述情感词的情感强度。
7.一种话题演化分析的装置,其特征在于,所述装置包括:
归类单元,用于将同一话题的网络内容按照内容产生的时间归类到不同的时间窗口中;
第一分析单元,用于通过话题模型分别分析所述归类单元归类得到的每个时间窗口中网络内容涉及的子话题;
第二分析单元,用于对所述第一分析单元分析得到的所述每个时间窗口中的子话题分别进行情感分析,获取所述子话题在所属时间窗口中的情感值;
关联单元,用于将所述第一分析单元分析得到的相邻时间窗口中相同的子话题进行关联;
生成单元,用于根据所述第二分析单元对所述关联单元关联得到的同一子话题在不同时间窗口中的情感值,生成所述子话题在时间维度上的情感趋势变化。
8.根据权利要求7所述的装置,其特征在于,所述装置进一步包括:
确定单元,用于在所述归类单元按照内容产生的时间将同一话题的网络内容归类到不同的时间窗口中之前,按照所述网络内容的数量确定时间窗口的节点;
设置单元,用于将所述确定单元确定的相邻两个节点之间的时间长度设置为一个时间窗口的长度。
9.根据权利要求7所述的装置,其特征在于,所述第二分析单元,包括:
查找模块,用于在预设的情感词字典中查找所述子话题中包含的情感词对应的情感值;
相加模块,用于将所述查找模块查找的所述情感词的情感值相加,获得所述子话题在所属时间窗口中的情感值。
10.根据权利要求7所述的装置,其特征在于,所述关联单元,包括:
获取模块,用于通过话题模型分别获取相邻时间窗口中子话题中的话题词;
计算模块,用于计算所述获取模块获取的相邻窗口中子话题的话题词之间的相似度值;
关联模块,用于将所述计算模块计算的相似度值满足预设阈值的话题词所分别对应的子话题,按照各自所在的时间窗口的先后顺序进行关联。
CN201510681161.6A 2015-10-19 2015-10-19 话题演化分析的方法及装置 Active CN106599002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510681161.6A CN106599002B (zh) 2015-10-19 2015-10-19 话题演化分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510681161.6A CN106599002B (zh) 2015-10-19 2015-10-19 话题演化分析的方法及装置

Publications (2)

Publication Number Publication Date
CN106599002A true CN106599002A (zh) 2017-04-26
CN106599002B CN106599002B (zh) 2020-06-05

Family

ID=58555218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510681161.6A Active CN106599002B (zh) 2015-10-19 2015-10-19 话题演化分析的方法及装置

Country Status (1)

Country Link
CN (1) CN106599002B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674300A (zh) * 2019-09-30 2020-01-10 京东城市(北京)数字科技有限公司 用于生成信息的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104978308A (zh) * 2015-05-22 2015-10-14 福建师范大学 一种微博主题情感演化分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104978308A (zh) * 2015-05-22 2015-10-14 福建师范大学 一种微博主题情感演化分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄卫东等: "网络舆情话题情感演化研究", 《情报杂志》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674300A (zh) * 2019-09-30 2020-01-10 京东城市(北京)数字科技有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
CN106599002B (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
US11562012B2 (en) System and method for providing technology assisted data review with optimizing features
US10691976B2 (en) System for time-efficient assignment of data to ontological classes
CN106021433B (zh) 一种商品评论数据的口碑分析方法和装置
CN108241621A (zh) 法律知识的检索方法及装置
CN107203774A (zh) 对数据的归属类别进行预测的方法及装置
CN106598999A (zh) 一种计算文本主题归属度的方法及装置
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN109299269A (zh) 一种文本分类方法和装置
CN103678277A (zh) 基于文档分段的构建主题-词汇分布的方法及系统
CN104112026A (zh) 一种短信文本分类方法及系统
CN110019660A (zh) 一种相似文本检测方法及装置
CN106610931A (zh) 话题名称的提取方法及装置
CN112463774B (zh) 文本数据的去重方法、设备及存储介质
Wu et al. Concinnity: A generic platform for big sensor data applications
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
US20180247226A1 (en) Classifier
CN107392321A (zh) 一种应用迁移学习可行性度量方法及装置
CN106469144A (zh) 文本相似度计算方法及装置
CN106844330A (zh) 文章情感的分析方法和装置
CN108874814A (zh) 法律文书的处理方法及装置
CN108427667A (zh) 一种法律文书的分段方法及装置
CN109002561A (zh) 基于样本关键词学习的文本自动分类方法、系统及介质
CN107807795A (zh) 多维分级哈希编码、解码方法与设备、存储介质
CN106599002A (zh) 话题演化分析的方法及装置
CN111523301A (zh) 合同文档合规性检查方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant