CN108304371B - 热点内容挖掘的方法、装置、计算机设备及存储介质 - Google Patents

热点内容挖掘的方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108304371B
CN108304371B CN201710577384.7A CN201710577384A CN108304371B CN 108304371 B CN108304371 B CN 108304371B CN 201710577384 A CN201710577384 A CN 201710577384A CN 108304371 B CN108304371 B CN 108304371B
Authority
CN
China
Prior art keywords
word
text
candidate
unary
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710577384.7A
Other languages
English (en)
Other versions
CN108304371A (zh
Inventor
宋阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710577384.7A priority Critical patent/CN108304371B/zh
Publication of CN108304371A publication Critical patent/CN108304371A/zh
Application granted granted Critical
Publication of CN108304371B publication Critical patent/CN108304371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种热点内容挖掘的方法,包括:分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合,对文本集合中的文本进行切词处理,得到候选词集,计算候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频,根据候选词的第一词频和第二词频确定对应的词热度值,从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词,根据当前候选词对应的词热度值计算当前检测文本对应的文本热度值,根据当前窗口期中各个文本对应的文本热度值筛选热点文本。该方法能够更加准确地挖掘出当前窗口期中的热点内容。此外,还提出了一种热点内容挖掘的装置、计算机设备及存储介质。

Description

热点内容挖掘的方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机处理领域,特别是涉及一种热点内容挖掘的方法、装置、计算机设备及存储介质。
背景技术
随着网络平台的发展,人们可以通过电脑、手机等随时随地发布自己的所见所闻,同时也可以随时随地查看转发分享热点内容。热点内容是指在一段时间内,频繁出现在网络上,人们广泛关注并讨论的内容。随着网络信息的快速增长,如何有效从海量信息中挖掘出热点内容成为了亟待解决的问题。
传统的挖掘热点事件的方法通过单一的参数衡量事件的热度,导致热点内容的挖掘结果不够准确。
发明内容
基于此,有必要针对上述热点内容挖掘不够准确的问题,提供了一种能够准确地挖掘热点内容的热点内容挖掘的方法、装置、计算机设备及存储介质。
一种热点内容挖掘的方法,所述方法包括:
分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合;
对所述文本集合中的文本进行切词处理,得到候选词集;
计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频;
根据候选词的第一词频和第二词频确定对应的词热度值;
从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词;
根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值;
根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
一种热点内容挖掘的装置,所述装置包括:
第一获取模块,用于分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合;
切词模块,用于对所述文本集合中的文本进行切词处理,得到候选词集;
第一计算模块,用于计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频;
确定模块,用于根据候选词的第一词频和第二词频确定对应的词热度值;
第二获取模块,用于从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词;
第二计算模块,用于根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值;
筛选模块,用于根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行所述计算机程序时实现以下步骤:
分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合;
对所述文本集合中的文本进行切词处理,得到候选词集;
计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频;
根据候选词的第一词频和第二词频确定对应的词热度值;
从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词;
根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值;
根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合;
对所述文本集合中的文本进行切词处理,得到候选词集;
计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频;
根据候选词的第一词频和第二词频确定对应的词热度值;
从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词;
根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值;
根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
上述热点内容挖掘的方法、装置、计算机设备及存储介质,通过统计当前窗口期和历史窗口期中每个候选词出现的词频来挖掘出当前窗口期中每个候选词的词热度值,进而根据每个文本中包含的候选词计算得到每个文本的文本热度值,根据文本热度值筛选出热点文本,热点文本对应的内容即为热点内容。由于热点内容必须具备时新性,历史窗口期已经大量存在的内容在当前窗口期也大量出现不能算作热点内容,所以通过同时考虑当前窗口期和历史窗口期候选词的词频能够更加准确地挖掘出当前窗口期中的热点内容。
附图说明
图1为一个实施例中热点内容挖掘的方法的流程图;
图2为一个实施例中根据候选词的第一词频和第二词频确定对应的词热度值的方法流程图;
图3为另一个实施例中热点内容挖掘的方法的流程图;
图4为一个实施例中对热点文本进行聚类的方法流程图;
图5A为一个实施例中热点文本聚类之前的示意图;
图5B为一个实施例中词聚类的示意图;
图6为一个实施例中对主题事件进行排序的方法流程图;
图7为另一个实施例中对热点文本进行聚类的方法流程图;
图8为一个实施例中热点内容挖掘的方法的流程示意图;
图9为又一个实施例中热点内容挖掘的方法的流程图;
图10为一个实施例中热点内容挖掘的装置的结构框图;
图11为一个实施例中确定模块的结构框图;
图12为又一个实施例中热点内容挖掘的装置的结构框图;
图13为再一个实施例中热点内容挖掘的装置的结构框图;
图14为还一个实施例中热点内容挖掘的装置的结构框图;
图15为一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提出了一种热点内容挖掘的方法,该方法既可以应用于终端,也可以应用于服务器中,具体包括以下步骤:
步骤102,分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合。
具体地,当前窗口期是指待挖掘热点内容的时间窗口。历史窗口期是指与当前窗口期对应的,从当前窗口期向前平移选取的一段时间窗口。为了更好地挖掘热点内容,历史窗口期一般可以选取当前窗口期三倍以上的时间。比如,设定当前窗口期为一个小时,那么历史窗口期可以选取当前窗口期之前的4个小时。在确定了当前窗口期和历史窗口期后,分别获取与当前窗口期和历史窗口期对应的文本,组成文本集合,可分别获取与当前窗口期对应的第一文本集合以及历史窗口期对应的第二文本集合组成目标文本集合,其中,文本集合是由2个或以上的文本组成的集合。
步骤104,对文本集合中的文本进行切词处理,得到候选词集。
具体地,切词又称为“分词”,是指将文字序列切分成一个一个单独的词。对当前窗口期和历史窗口期对应的文本集合进行切词处理后,可以获得候选词集。在一个实施例中,在对文本集合中的文本进行切词处理之前还包括对文本集合中的文本进行预处理,其中,预处理包括去除标点、英文统一大小写、去除特殊字符,去除停用词(比如,的,得、地等停用词)等中的至少一种。由于经过预处理后有一部分文本是相同的,为了减少后面的工作量,可以直接将这部分相同的文本进行合并计数。合并计数就是将相同的文本合并为一个文本,并统计这部分文本的数量。比如,如果有10个文本是相同,那么将这10个合并为一个文本,然后该文本对应的数目标记为10个。
步骤106,计算候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频。
具体地,词频是指某个词出现的次数与相应窗口的总的候选词数的比例。为了便于区分,将候选词在当前窗口期对应的词频称为“第一词频”,将候选词在历史窗口期对应的词频称为“第二词频”。第一词频是指候选词在当前窗口期出现的总次数与当前窗口期中总的候选词数的比例。第二词频是指候选词在历史窗口期出现的总次数与历史窗口期中总的候选次数的比例。如果某一事件在当前窗口期出现了爆发式传播,相对应的该事件所包含的候选词的词频在当前窗口期就会增高,由于该事件在历史窗口期没有大量出现,那么该事件所包含的候选词在历史窗口期的词频就很低,所以通过计算候选词在当前窗口期以及历史窗口期出现的词频就可以挖掘出具有爆发式传播属性的词汇,进而挖掘出具有爆发式传播倾向的事件。
步骤108,根据候选词的第一词频和第二词频确定对应的词热度值。
具体地,词热度值表示的是候选词在当前窗口期的爆发式传播属性的得分,词热度值越大,说明该词的爆发式传播属性越大。为了计算候选词的词热度值,根据当前窗口期和历史窗口期的词频设计一套打分策略,以挖掘出当前窗口期的高频传播词汇。其中计算词热度值的具体算法可根据需要自定义,计算时按照第二词频对词热度值产生负影响的原则,在第一词频相同的情况下,第二词频越高,表示相应的候选词的爆发式传播属性越低,,那么相应的词热度值也就越低,从而可保证挖掘出的是当前窗口期中出现的具有时新性的热点词汇。在一个实施例中,词热度值的计算公式如下:Score(w)=fcurrent(w)/fhistory(w),其中,fcurrent(w)表示候选词在当前窗口期对应的词频,fhistory(w)表示候选词在历史窗口期对应的词频。在一个实施例中,为了防止某些词只存在于当前窗口期或者只存在与历史窗口期导致词热度值为0或无穷大,可以引入一个平滑系数对词热度值进行平滑处理,相应的词热度值的计算公式可以表示为Score(w)=(fcurrent(w)+K)/(fhistory(w)+K),其中,K为平滑系数,这样就可以防止词热度值为0或无穷大的情况出现。
步骤110,从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词。
具体地,当前检测文件是指当前待计算文本热度值的文本。在计算得到各个候选词对应的词热度值后,依次从当前窗口期获取当前检测文件,然后获取当前检测文件中包含的候选词。由于已经知道了每个候选词的词热度值,那么后续就可以根据每个候选词的词热度值来计算当前检测文本的文本热度值。
步骤112,根据当前候选词对应的词热度值计算当前检测文本对应的文本热度值。
具体地,文本热度值表示的是该文本在当前窗口期具有的爆发式传播倾向的得分。得分越高说明该文档爆发式传播倾向越高。获取到当前检测文件对应的当前候选词后,根据当前候选词对应的词热度值采用sigmoid函数进行归一化得到当前检测文本对应的文本热度值。sigmoid函数的作用是将得到的数值进行投影转换为0-1之间的值。具体地,文本热度值的计算公式如下:
Figure BDA0001351295610000061
其中,i表示文本中第i个候选词,Score(wi)表示第i个候选词的词热度值,sigmoid表示sigmoid函数的运算,用于进行归一化,sigmoid(x)=1/(1+e-x)。
步骤114,根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
具体地,热点文本是指包含有热点内容的文本。在计算得到当前窗口期中各个文本对应的文本热度值后,就可以根据各个文本的文本热度值来确定当前窗口期对应的热点文本。筛选热点文本的方式有多种,在一个实施例中,可以预先设置文本热度阈值,判断文本热度值是否大于该文本热度阈值,若是,说明该文本为热点文本。在另一个实施例中,将各个热点文本按照文本热度值从大到小进行排序,然后选取前预设数量的文本作为热点文本,比如,选取文本热度值在前50的文本作为热点文本。
上述热点内容挖掘的方法,通过统计当前窗口期和历史窗口期中每个候选词出现的词频来挖掘出当前窗口期中每个候选词的词热度值,进而根据每个文本中包含的候选词计算得到每个文本的文本热度值,根据文本热度值筛选出热点文本,热点文本对应的内容即为热点内容。由于热点内容必须具备时新性,历史窗口期已经大量存在的内容在当前窗口期也大量出现不能算作热点内容,所以通过同时考虑当前窗口期和历史窗口期候选词的词频能够更加准确地挖掘出当前窗口期中的热点内容,且上述热点内容的挖掘方法对句子结构不敏感,只要句子主体词汇在当前窗口期大量存在,无论其怎样变化句子结构或者增减内容,都可以将热点内容识别出来。进一步的,该方法对已经存在于历史窗口期的内容不敏感,而对当前窗口期大量存在的内容十分敏感,可以在某一事件爆发式传播的初期第一时间将其捕捉到。
如图2所示,在一个实施例中,所述根据候选词的第一词频和第二词频确定对应的词热度值的步骤108包括:
步骤108A,获取与候选词对应的平滑系数。
具体地,在根据候选词的第一词频和第二词频确定对应的词热度值的过程中,为了防止由于某个或某些候选词只存在于当前窗口期或者历史窗口期而导致计算得到的候选词的词热度值为零或者无穷大的情况,还需要引入一个平滑系数对计算得到的词热度值进行平滑处理,平滑系数的引入可以防止出现过大或过小的数据。平滑系数的获取可以有多种方式,在一个实施例中,平滑系数可以是预先设置的一个常数;在另一个实施例中,平滑系数是根据候选词在当前窗口期和历史窗口期出现的次数来确定的,具体地,平滑系数可以是候选词在当前窗口期和历史窗口期中出现的总次数的倒数,具体计算公式如下:Likely(w)=1/(sumcurrent(w)+sumhistory(w)),其中,sumcurrent(w)和sumhistory(w)分别表示候选词w在当前窗口期和历史窗口期出现的总次数,Likely(w)表示计算得到的平滑系数。
步骤108B,将第一词频与平滑系数进行平滑运算得到第一参数值,将第二词频与平滑系数进行平滑运算得到第二参数值。
具体地,在获取到与候选词对应的平滑系数后,分别将候选词在当前窗口期对应的第一词频与平滑系数进行平滑运算得到第一参数值,将历史窗口期对应的第二词频与平滑系数进行平滑运算得到第二参数值。在一个实施例中,第一参数值等于第一词频与平滑系数之和,第二参数值等于第二词频与平滑系数之和。具体计算公式如下:第一参数值=fcurrent(w)+Likely(w),第二参数值=fhistory(w)+Likely(w)。
步骤108C,根据第一参数值与第二参数值的比值确定与候选词对应的词热度值。
具体地,在计算得到第一参数值和第二参数值后,可以通过计算第一参数值与第二参数值的比值来计算得到候选词对应的词热度值。具体的词热度值的计算公式如下:Score(w)=(fcurrent(w)+Likely(w))/(fhistory(w)+Likely(w)),其中,Likely(w)表示平滑系数。fcurrent(w)和fhistory(w)分别表示候选词在当前窗口期和历史窗口期对应的词频。
如图3所示,在一个实施例中,提出了另一种热点内容挖掘的方法,该方法包括:
步骤302,分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合。
步骤304,对文本集合中的文本进行切词处理,得到候选词集,候选词集包括一元候选词和多元候选词。
具体地,候选词集中包括一元候选词和多元候选词。其中,一元候选词是指切词处理后得到的一个一个的单词,比如,“我是中国人”,其中的“我”、“是”、“中国人”都是一元词。多元候选词是指二元及二元以上的词,其是指包含了词与词之间的前后顺序关系的词组。举个例子,二元候选词是指句子中前后相连的两个词组成的词组,比如,“我是中国人”中的“我是”,“是中国人”都是二元词。同理,N元候选词是指句子中前后相连的N个词组成的词组,其中,N为大于等于2的正整数。在具体的实施例中,多元候选词的选定可以根据文本的长度来确定,如果文本较短,那么只需要选取二元候选词。如果文本较长,可以选择更高元的候选词,比如,可以同时选择二元候选词和三元候选词,当然也可以只选择三元候选词,具体选择几元候选词可以根据实际情况预先进行设置。
步骤306,计算一元候选词集中的一元候选词在当前窗口期对应的一元第一词频和历史窗口期对应的一元第二词频。
步骤308,计算多元候选词集中的多元候选词在当前窗口期对应的多元第一词频和历史窗口期对应的多元第二词频。
具体地,候选词集中包括一元候选词和多元候选词,分别计算一元候选词集中的一元候选词在当前窗口期的词频(即一元第一词频)和历史窗口期的词频(即一元第二词频),以及多元候选词集中的多元候选词在当前窗口期的词频(即多元第一词频)和历史窗口期的词频(即多元第二词频)。由于多元候选词包含了词与词之间的前后顺序关系,所以能够更好的反应候选词在当前窗口期和历史窗口期的分布差异。
步骤310,根据一元候选词的一元第一词频和一元第二词频确定对应的一元词热度值,根据多元候选词的多元第一词频和多元第二词频确定对应的多元词热度值。
具体地,在确定了一元候选词的一元第一词频和一元第二词频后,就可以计算对应的一元词热度值,同样地,在确定了多元候选词的多元第一词频和多元第二词频后,就可以计算对应的多元词热度值。在一个实施例中,为了防止计算得到的一元词热度值或多元词热度值的数据过大或过小,引入一个平滑系数分别计算一元词热度值和多元词热度值。在一个实施例中,以一元候选词和二元候选词为例计算相应的一元词热度值和二元词热度值,具体的计算公式如下:一元词热度值:Score(w)=(fcurrent(w)+Likely(w))/(fhistory(w)+Likely(w));二元词热度值:Score(wiwi+1)=(fcurrent(wiwi+1)+Likely(wiwi+1))/(fhistory(wiwi+1)+Likely(wiwi+1)),其中,fcurrent(wiwi+1)和fhistory(wiwi+1)分别表示二元候选词在当前窗口期和历史窗口期的词频,Likely(wiwi+1)表示与二元候选词对应的平滑系数。
步骤312,从当前窗口期获取当前检测文本,获取当前检测文本对应的当前一元候选词和当前多元候选词。
具体地,为了计算当前检测文本的文本热度值,首先需要获取当前检测文本对应的当前一元候选词和当前多元候选词。需要说明的是,多元候选词的选定是根据文本长度提前进行设定的,比如,如果针对的是微信朋友圈的说说或者针对是微博中发布的微博等这样的较短文本,那么最高只需要选择二元候选词即可。如果针对的是文章这样的较长文本,那么就可以选择更高元的候选词,比如,多元候选词中可以同时选择三元候选词和二元候选词,当然也可以只选取三元候选词,具体可以根据实际情况提前进行设定。
步骤314,根据当前一元候选词的一元词热度值和当前多元候选词的多元词热度值计算当前检测文本对应的文本热度值。
具体地,在计算得到当前一元候选词的一元词热度值和当前多元候选词的多元词热度值后,就可以计算得到当前检测文本对应的文本热度值。在一个实施例中,只考虑一元候选词和二元候选词为例来计算文本热度值,文本热度值的计算公式如下:
Figure BDA0001351295610000101
其中,Score(wi)表示第i个的一元候选词的词热度值,Score(wiwi+1)表示第i个二元候选词的词热度值。
步骤316,根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
具体地,热点文本是指包含有热点内容的文本。在计算得到当前窗口期中各个文本对应的文本热度值后,就可以根据各个文本的文本热度值来确定当前窗口期对应的热点文本。筛选热点文本的方式有多种,在一个实施例中,可以预先设置文本热度阈值,判断文本热度值是否大于该文本热度阈值,若是,说明该文本为热点文本。在另一个实施例中,将各个热点文本按照文本热度值从大到小进行排序,然后选取前预设数量的文本作为热点文本,比如,选取文本热度值在前50的文本作为热点文本。
具体地,通过计算当前窗口期和历史窗口期中每个一元候选词和多元候选词出现的词频来挖掘出当前窗口期中的每个一元候选词和多元候选词的词热度值,进行根据一元候选词和多元候选词的词热度值计算当前窗口期中每个文本的文本热度值,该方法中由于同时考虑了多元候选词对文本热度值的影响,能够更加准确的挖掘出含有热点内容的热点文本。
在根据上述热点内容挖掘方法挖掘出当前窗口期的热点文本后,由于不同的热点文本可能实际上对应的是同一个主题,筛选出来的热点文本集中可能包含有多个主题,但是具体哪些热点文本属于哪个主题以及每个主题的规模都是未知的,故,如果仅仅是筛选出热点文本,会显得热点文本的主题内容比较分散,所以在筛选出热点文本后,还需要对这些热点文本进行聚类。
如图4所示,在一个实施例中,在根据当前窗口期中各个文本对应的文本热度值筛选热点文本的步骤之后,还包括对热点文本进行聚类。对热点文本进行聚类的步骤包括:
步骤116,获取热点文本中包含的一元候选词,计算各个一元候选词两两之间的距离。
具体地,一元候选词是指热点文本切词处理后得到的一个一个的一元词。在获取到热点文本中包含的一元候选词后,计算一元候选词两两之间的距离,一元候选词两两之间的距离是指各个一元候选词彼此之间的距离,比如,假设有三个一元候选词A、B和C,那么一元候选词两两之间的距离包括A和B的距离,A和C的距离以及B和C的距离。一元候选词两两之间的距离是根据两两一元候选词在当期窗口期共同出现的次数和两者各自出现的次数之和确定的。在一个实施例中,一元候选词两两之间的距离等于两两一元候选词在当期窗口期共同出现的次数与两者各自出现次数之和的比值。比如,一元候选词A和B之间的距离可以表示为:AB距离=(A和B共同出现的次数)/(A出现次数+B出现次数)。
步骤118,根据当前一元候选词与热点文本中其它一元候选词之间的距离计算当前一元候选词对应的词密度。
具体地,候选词的词密度反应了该候选词的热度。每个一元候选词的词密度与热点文本中其它一元候选词之间的距离相关。在一个实施例中,词密度的计算公式如下:
Figure BDA0001351295610000121
其中,dc表示阶段半径,可以提前设定,比如,设置dc=0.5;dij表示一元候选词i与j之间的距离;i表示当前一元候选词,j表示热点文本Is中的其他一元候选词。
步骤120,根据各个一元候选词对应的词密度和各个一元候选词两两之间的距离将各个一元候选词进行聚类得到词簇,词簇用于确定相应的主题事件。
具体地,词簇是由很多个相关的词聚类得到的,聚类得到的词簇中包括了某个主题事件相关的所有词汇,所以根据词簇就可以确定相应的的主题事件。具体地,根据当前一元候选词对应的词密度和其他一元候选词对应的词密度以及当前一元候选词与其他一元候选词的距离将当前一元候选词进行聚类。在一个实施例中,在预设的半径范围内,根据当前一元候选词的词密度查找比当前一元候选词的词密度更大的目标一元候选词,若查找到的目标一元候选词有多个,那么分别计算当前一元候选词与目标一元候选词之间的距离,将当前一元候选词归类到与自己最近的一元候选词,若未在预设的半径范围内查找到目标一元候选词,那么说明当前一元候选词的词密度在该预设范围内是最大的,可以将其作为聚类中心,后续可以将其他一元候选词归类到当前一元候选词。在另一个实施例中,可以通过以当前一元候选词为中心,设置扫描半径由小到大进行扫描,直到扫描到比当前一元候选词的词密度大且距离当前一元候选词最近的目标一元候选词,然后将当前一元候选词进行归类到该目标一元候选词。通过该基于密度的聚类方法就可以将与某个主题事件相关的词汇聚集到一起得到相应的词簇,所以每个词簇实际上对应一个主题事件。如图5A所示,为一个实施例中,有若干个关于“美国大选”的热点文本在聚类之前的示意图,从图中可以看出这若干个热点文本都是关于“美国大选”的却被分散开来,所以需要将其聚类。基于词密度的聚类方法,通过获取每个候选词的词密度,然后将该候选词归类到密度比自己大的候选词,如图5B为相关的词归类的示意图。后续根据聚类得到的词簇将各个热点文本进行归类。
步骤122,根据词簇对热点文本进行归类,确定热点文本所属的主题事件。
具体地,在基于词密度进行聚类得到一个或多个词簇后,根据得到的词簇将热点文本进行归类,每个词簇对应一个主题事件,所以通过比较热点文本中的一元候选词与各个词簇中的一元候选词的重复度就可以确定该热点文本所属的主题事件。举个例子,假设聚类后得到三个词簇,A、B和C,每一个词簇对应一个主题事件,获取热点文本中的一元候选词,然后将一元候选词与A、B、C三个词簇中的一元候选词进行匹配,假设热点文本中一共有10个一元候选词,A词簇中匹配到其中的6个一元候选词,B词簇中匹配到其中的1个一元候选词,C词簇中匹配到其中的3个一元候选词,那么就将热点文本归类到与词簇A对应的主题事件中。
具体地,通过采用基于词密度的聚类,可以将具有相同语义信息但不同的文本信息归类到一起,大大提高了聚类的效果。
在对热点文本进行聚类后可能会得到若干个主题事件,为了能够反映出每个主题事件的热度,还需要对聚类得到的主题事件按照热度进行排序。
如图6所示,在一个实施例中,在根据词簇对热点文本进行归类,确定热点文本所属的主题事件的步骤222之后还包括:对主题事件进行排序。对主题事件进行排序的步骤具体包括:
步骤124,根据主题事件对应的词簇中各个一元候选词对应的词密度获取主题事件的核心词。
具体地,核心词是指某个主题事件中最能体现该主题事件的词汇,也是该主题事件中词密度最大的词汇。所以根据主题事件对应的词簇中各个一元候选词对应的词密度就可以获取主题事件的核心词。
步骤126,根据主题事件的核心词的词密度将各个主题事件进行排序。
具体地,主题事件中核心词的词密度反映了该主题事件的热度,如果核心词的词密度高,说明该核心词的共现词比较多,且共现词的数量也比较大。核心词的共现词是指与核心词共同出现的词。核心词的词密度不仅能够反映某个事件的转发量的多少,而且能够反映出大家对某个事件的关注讨论度。
传统的评价一件事件的热度仅仅是根据某个事件的转发次数来衡量的,但是实际中,一个事件的热度不仅与转发次数有关,更多的是与大家关于这件事情的讨论度有关。举个例子,比如,有一篇关于生活小妙招的文章得到了大量的转发,但是大家大多只是转发了该文章,并未针对该文章进行相应的评论,那么该事件的热度实际上是不高的,由于该文章只是被转发了很多次,其共现的词数量其实并不多,所以相应的词密度也就不会高,当然如果某个事件大家关注讨论度比较高,那么相应的核心词的共现词会比较多,相应的词密度也就会比较大,可见,词密度可以很好的反应主题事件的热度。而且,由于转发量往往可以通过刷单等手段进行伪造,所以该基于词密度的排序方式不仅更能真实反应事件的热度,而且可以防止那些通过虚假转发量来伪造成热点事件的情况发生。
如图7所示,在另一个实施例中,对热点文本进行聚类的步骤包括:
步骤702,根据各个热点文本之间的相似度进行初步聚类,得到热点文本簇。
具体地,在基于词密度进行聚类之前,为了减少词密度聚类的工作量,首先采用初步聚类将将具有相似的文本信息合并到一起。在一个实施例中,采用层次化聚类进行初步聚类。层次化聚类是根据热点文本之间的相似度进行聚类的。在一个实施例中,首先,将当前窗口期对应的热点文本集中的所有热点文本按照交互响应数据(比如,转发次数)进行排序;将交互响应数据最高的热点文本作为一个聚类中心,按照交互响应数据从大到小依次获取下一个热点文本作为当前待聚类的热点文本,计算当前待聚类的热点文本与聚类中心之间的相似度,若与聚类中心之间的相似度大于预设的阈值,则将当前待聚类的热点文本与所述聚类中心归为一类,若与聚类中心之间的相似度不大于预设的阈值,则将当前待聚类的热点文本作为一个新的聚类中心,然后获取下一个热点文本作为当前待聚类的热点文本,分别计算与每个聚类中心的相似度,若与每个聚类中心的相似度都大于预设的阈值,则与相似度最大的聚类中心划分为一类,若与每个聚类中心的相似度都小于预设的阈值,则作为一个新的聚类中心,依次遍历直到将所有的热点文本聚类,其中,每个聚类中心对应一个热点文本簇。热点文本簇中包含了具有相同主题的多个热点文本。
其中,文本相似度的计算方式可自定义,比如,可以采用tf-idf特征计算文本相似度。在一个实施例中,热点文本之间的相似度也可以采用候选词的重复度比例来计算,具体地,根据两个热点文本中候选词重复的个数与两个热点文本中包含的总的候选词的个数的比值计算得到两个热点文本之间的相似度。在另一个实施例中,候选词包括一元候选词和多元候选词,分别计算一元候选词和多元候选词的重复度来计算两个热点文本之间的相似度。举个例子,比如,两个热点文本E和F,E中有8个一元候选词,7个二元候选词,F中有10个一元候选词,9个二元候选词。两者重复的一元词有5个,重复的二元词有4个。那么两个热点文本E和F中一元候选词的重复度=5*2/(8+10)=5/9。二元候选词的重复度=4*2/(7+9)=1/2。那么两个热点文本的相似度可以采用加权求和来计算得到,比如,设置一元候选词和二元候选词的权重为0.5:0.5,那么计算得到的两个热点文本E和F的相似度=19/36。
步骤704,获取热点文本中包含的一元候选词,计算各个一元候选词两两之间的距离。
步骤706,根据当前一元候选词与热点文本中其它一元候选词之间的距离计算当前一元候选词对应的词密度。
步骤708,根据各个一元候选词对应的词密度和各个一元候选词两两之间的距离将各个一元候选词进行聚类得到词簇,词簇用于确定相应的主题事件。
步骤710,根据交互响应数据获取热点文本簇中的主热点文本,根据主热点文本对应的一元候选词将主热点文本所属的热点文本簇归类到对应的词簇。
具体地,主热点文本是指热点文本簇中最具代表性的热点文本,由于每个热点文本簇实际上对应的是同一个主题,而主热点文本就是指该热点文本簇中最能反映该主题的热点文本。具体地,采用层次化聚类方法进行初步聚类得到热点文本簇,热点文本簇中包含有多个热点文本,根据每个热点文本对应的交互响应数据获取该热点文本簇中的主热点文本,由于热点文本簇中的所有热点文本都归属于同一主题,所以通过选取具有代表性的主热点文本,然后根据主题热点本中包含的一元候选词与词簇中的一元候选词进行匹配,确定主热点文本所对应的词簇,即确定主热点文本所属的热点文本簇所对应的词簇,进而确定该热点文本簇所对应的主题事件。
如图8所示,在一个实施例中,热点内容挖掘的方法的流程示意图。首先,确定当前窗口期和相应的历史窗口期,然后获取当前窗口期和历史窗口期对应的文本集合,对文本集合中的文本进行切词处理,得到候选词集,候选词集包括N元候选词,N为大于等于1的正整数。然后计算N元候选词在当前窗口期的第一词频和历史窗口期的第二词频,然后根据N元候选词的第一词频和第二词频确定N元候选词的词热度值,根据N元候选词的词热度值计算每个文本的热度值,然后根据文本热度值筛选出热点文本。之后采用层次化聚类对热点文本进行初步聚类得到初步聚类结果,在初步聚类结果的基础上采用基于词密度的聚类方法进行进一步聚类,得到最终聚类结果,然后根据最终聚类结果中每个主题事件的核心词的词密度对主题事件进行排序。
如图9所示,在一个实施例中,提出了一种热点内容挖掘的方法,该方法包括:
步骤901,分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合。
步骤902,对文本集合中的文本进行切词处理,得到候选词集,候选词集包括一元候选词和多元候选词。
步骤903,计算一元候选词集中的一元候选词在当前窗口期对应的一元第一词频和历史窗口期对应的一元第二词频。
步骤904,计算多元候选词集中的多元候选词在当前窗口期对应的多元第一词频和历史窗口期对应的多元第二词频。
步骤905,根据一元候选词的一元第一词频和一元第二词频确定对应的一元词热度值,根据多元候选词的多元第一词频和多元第二词频确定对应的多元词热度值。
步骤906,从当前窗口期获取当前检测文本,获取当前检测文本对应的当前一元候选词和当前多元候选词。
步骤907,根据当前一元候选词的一元词热度值和当前多元候选词的多元词热度值计算当前检测文本对应的文本热度值。
步骤908,根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
步骤909,根据各个热点文本之间的相似度进行初步聚类,得到热点文本簇。
步骤910,获取热点文本中包含的一元候选词,计算各个一元候选词两两之间的距离。
步骤911,根据当前一元候选词与热点文本中其它一元候选词之间的距离计算当前一元候选词对应的词密度。
步骤912,根据各个一元候选词对应的词密度和各个一元候选词两两之间的距离将各个一元候选词进行聚类得到词簇,词簇用于确定相应的主题事件。
步骤913,根据交互响应数据获取热点文本簇中的主热点文本,根据主热点文本对应的一元候选词将主热点文本所属的热点文本簇归类到对应的词簇,每个词簇对应一个主题事件。
步骤914,根据主题事件对应的词簇中各个一元候选词对应的词密度获取主题事件的核心词。
步骤915,根据主题事件的核心词的词密度将各个主题事件进行排序。
如图10所示,在一个实施例中,提出了一种热点内容挖掘的装置,该装置包括:
第一获取模块1002,用于分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合。
切词模块1004,用于对所述文本集合中的文本进行切词处理,得到候选词集。
第一计算模块1006,用于计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频。
确定模块1008,用于根据候选词的第一词频和第二词频确定对应的词热度值。
第二获取模块1010,用于从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词。
第二计算模块1012,用于根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值。
筛选模块1014,用于根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
如图11所示,在一个实施例中,确定模块1008包括:
平滑系数获取模块1008A,用于获取与所述候选词对应的平滑系数。
平滑运算模块1008B,用于将所述第一词频与所述平滑系数进行平滑运算得到第一参数值,将所述第二词频与所述平滑系数进行平滑运算得到第二参数值。
词热度值确定模块1008C,用于根据所述第一参数值与所述第二参数值的比值确定与所述候选词对应的词热度值。
在一个实施例中,候选词集包括一元候选词集和多元候选词集。第一计算模块1006还用于计算所述一元候选词集中的一元候选词在当前窗口期对应的一元第一词频和历史窗口期对应的一元第二词频,计算所述多元候选词集中的多元候选词在当前窗口期对应的多元第一词频和历史窗口期对应的多元第二词频。
确定模块1008还用于根据所述一元候选词的一元第一词频和一元第二词频确定对应的一元词热度值,根据所述多元候选词的多元第一词频和多元第二词频确定对应的多元词热度值。
第二获取模块1010还用于从当前窗口期获取当前检测文本,获取当前检测文本对应的当前一元候选词和当前多元候选词。
第二计算模块1012还用于根据当前一元候选词的一元词热度值和当前多元候选词的多元词热度值计算当前检测文本对应的文本热度值。
如图12所示,在一个实施例中,上述热点内容挖掘的装置还包括:
距离计算模块1016,用于获取所述热点文本中包含的一元候选词,计算各个一元候选词两两之间的距离。
词密度计算模块1018,用于根据当前一元候选词与所述热点文本集中其它一元候选词之间的距离计算所述当前一元候选词对应的词密度。
词聚类模块1020,用于根据各个一元候选词对应的词密度和各个一元候选词两两之间的距离将各个一元候选词进行聚类得到词簇,所述词簇用于确定相应的主题事件。
归类模块1022,用于根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件。
如图13所示,在一个实施例中,上述热点内容挖掘的装置还包括:
排序模块1024,用于根据主题事件对应的词簇中各个一元候选词对应的词密度获取所述主题事件的核心词,根据所述主题事件的核心词的词密度将各个主题事件进行排序。
如图14所示,在一个实施例中,上述热点内容挖掘的装置还包括:
初步聚类模块1015,用于根据各个热点文本之间的相似度进行初步聚类,得到热点文本簇。
归类模块1022还用于根据交互响应数据获取热点文本簇中的主热点文本,根据所述主热点文本对应的一元候选词将所述主热点文本所属的热点文本簇归类到对应的词簇。
如图15所示,为一个实施例中计算机设备的内部结构示意图。参照图15,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该计算机设备的非易失性存储介质可存储操作系统和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行一种热点内容挖掘的方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种热点内容挖掘的方法。计算机设备的网络接口用于进行网络通信。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。该计算机设备可以是服务器,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。计算机设备也可以是终端,终端的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。触摸层和显示屏构成触控屏。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的热点内容挖掘的装置可以实现为一种计算机程序的形式,计算机程序可在如图15所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该热点内容挖掘的装置的各个程序模块,比如,图10中的第一获取模块1002,切词模块1104,第一计算模块1106,确定模块1108,第二获取模块1110,第二计算模块1112及筛选模块1114。各个程序模块中包括计算机可读指令,计算机可读指令用于使计算机设备执行本说明书中描述的本申请各个实施例的热点内容挖掘的方法中的步骤,计算机设备中的处理器能够调用计算机设备的非易失性存储介质中存储的热点内容挖掘的装置的各个程序模块,运行对应的可读指令,实现本说明书中热点内容挖掘的装置的各个模块对应的功能。例如,计算机设备可以通过如图10所示的热点内容挖掘的装置中的第一获取模块1002获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合。通过切词模块1004对所述文本集合中的文本进行切词处理,得到候选词集,通过第一计算模块1006计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频,通过确定模块1008根据候选词的第一词频和第二词频确定对应的词热度值,通过第二获取模块1010从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词,通过第二计算模块1012根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值,通过筛选模块1014根据当前窗口期中各个文本对应的文本热度值筛选热点文本。在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行所述计算机程序时实现以下步骤:分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合;对所述文本集合中的文本进行切词处理,得到候选词集;计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频;根据候选词的第一词频和第二词频确定对应的词热度值;从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词;根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值;根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
在一个实施例中,根据候选词的第一词频和第二词频确定对应的词热度值包括:获取与所述候选词对应的平滑系数;将所述第一词频与所述平滑系数进行平滑运算得到第一参数值,将所述第二词频与所述平滑系数进行平滑运算得到第二参数值;根据所述第一参数值与所述第二参数值的比值确定与所述候选词对应的词热度值。
在一个实施例中,候选词集包括一元候选词集和多元候选词集,计算机可读指令使得处理器还用于执行以下步骤:计算所述一元候选词集中的一元候选词在当前窗口期对应的一元第一词频和历史窗口期对应的一元第二词频;计算所述多元候选词集中的多元候选词在当前窗口期对应的多元第一词频和历史窗口期对应的多元第二词频;根据所述一元候选词的一元第一词频和一元第二词频确定对应的一元词热度值,根据所述多元候选词的多元第一词频和多元第二词频确定对应的多元词热度值;从当前窗口期获取当前检测文本,获取当前检测文本对应的当前一元候选词和当前多元候选词;根据当前一元候选词的一元词热度值和当前多元候选词的多元词热度值计算当前检测文本对应的文本热度值。
在一个实施例中,计算机可读指令使得处理器根据当前窗口期中各个文本对应的文本热度值筛选热点文本之后,还执行以下步骤:获取所述热点文本中包含的一元候选词,计算各个一元候选词两两之间的距离;根据当前一元候选词与热点文本中其它一元候选词之间的距离计算所述当前一元候选词对应的词密度;根据各个一元候选词对应的词密度和各个一元候选词两两之间的距离将各个一元候选词进行聚类得到词簇,所述词簇用于确定相应的主题事件;根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件。
在一个实施例中,计算机可读指令使得处理器根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件之后,还执行以下步骤:根据主题事件对应的词簇中各个一元候选词对应的词密度获取所述主题事件的核心词;根据所述主题事件的核心词的词密度将各个主题事件进行排序。
在一个实施例中,计算机可读指令使得处理器根据词簇对热点文本进行归类,确定热点文本所属的主题事件之前,还执行以下步骤:根据各个热点文本之间的相似度进行初步聚类,得到热点文本簇;处理器执行的所述根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件的步骤包括:根据交互响应数据获取热点文本簇中的主热点文本,根据所述主热点文本对应的一元候选词将所述主热点文本所属的热点文本簇归类到对应的词簇。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合;对所述文本集合中的文本进行切词处理,得到候选词集;计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频;根据候选词的第一词频和第二词频确定对应的词热度值;从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词;根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值;根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
在一个实施例中,根据候选词的第一词频和第二词频确定对应的词热度值包括:获取与所述候选词对应的平滑系数;将所述第一词频与所述平滑系数进行平滑运算得到第一参数值,将所述第二词频与所述平滑系数进行平滑运算得到第二参数值;根据所述第一参数值与所述第二参数值的比值确定与所述候选词对应的词热度值。
在一个实施例中,候选词集包括一元候选词集和多元候选词集,计算机可读指令使得处理器还用于执行以下步骤:计算所述一元候选词集中的一元候选词在当前窗口期对应的一元第一词频和历史窗口期对应的一元第二词频;计算所述多元候选词集中的多元候选词在当前窗口期对应的多元第一词频和历史窗口期对应的多元第二词频;根据所述一元候选词的一元第一词频和一元第二词频确定对应的一元词热度值,根据所述多元候选词的多元第一词频和多元第二词频确定对应的多元词热度值;从当前窗口期获取当前检测文本,获取当前检测文本对应的当前一元候选词和当前多元候选词;根据当前一元候选词的一元词热度值和当前多元候选词的多元词热度值计算当前检测文本对应的文本热度值。
在一个实施例中,计算机可读指令使得处理器执行根据当前窗口期中各个文本对应的文本热度值筛选热点文本之后,还执行以下步骤:获取所述热点文本中包含的一元候选词,计算各个一元候选词两两之间的距离;根据当前一元候选词与热点文本中其它一元候选词之间的距离计算所述当前一元候选词对应的词密度;根据各个一元候选词对应的词密度和各个一元候选词两两之间的距离将各个一元候选词进行聚类得到词簇,所述词簇用于确定相应的主题事件;根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件。
在一个实施例中,计算机可读指令使得处理器执行根据词簇对热点文本进行归类,确定热点文本所属的主题事件之后,还执行以下步骤:根据主题事件对应的词簇中各个一元候选词对应的词密度获取所述主题事件的核心词;根据所述主题事件的核心词的词密度将各个主题事件进行排序。
在一个实施例中,计算机可读指令使得处理器执行根据词簇对热点文本进行归类,确定热点文本所属的主题事件之前,还执行以下步骤:根据各个热点文本之间的相似度进行初步聚类,得到热点文本簇;处理器执行的所述根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件的步骤包括:根据交互响应数据获取热点文本簇中的主热点文本,根据所述主热点文本对应的一元候选词将所述主热点文本所属的热点文本簇归类到对应的词簇。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种热点内容挖掘的方法,所述方法包括:
分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合;
对所述文本集合中的文本进行切词处理,得到候选词集;
计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频;其中,词频是指候选词出现的次数与相应窗口的总的候选词数的比例;
根据候选词的第一词频和第二词频确定对应的词热度值,所述第一词频表示所述候选词在所述当前窗口期对应的词频,所述第二词频表示所述候选词在所述历史窗口期对应的词频,包括:获取与所述候选词对应的平滑系数;将所述第一词频与所述平滑系数进行平滑运算得到第一参数值,将所述第二词频与所述平滑系数进行平滑运算得到第二参数值;根据所述第一参数值与所述第二参数值的比值确定与所述候选词对应的词热度值;
从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词;
根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值;
根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
2.根据权利要求1所述的方法,其特征在于,所述平滑系数是根据所述候选词在所述当前窗口期和所述历史窗口期出现的次数来确定的。
3.根据权利要求1所述的方法,其特征在于,所述候选词集包括一元候选词集和多元候选词集,所述方法还包括:
计算所述一元候选词集中的一元候选词在当前窗口期对应的一元第一词频和历史窗口期对应的一元第二词频;
计算所述多元候选词集中的多元候选词在当前窗口期对应的多元第一词频和历史窗口期对应的多元第二词频;
根据所述一元候选词的一元第一词频和一元第二词频确定对应的一元词热度值,根据所述多元候选词的多元第一词频和多元第二词频确定对应的多元词热度值;
从当前窗口期获取当前检测文本,获取当前检测文本对应的当前一元候选词和当前多元候选词;
根据当前一元候选词的一元词热度值和当前多元候选词的多元词热度值计算当前检测文本对应的文本热度值。
4.根据权利要求1所述的方法,其特征在于,在根据当前窗口期中各个文本对应的文本热度值筛选热点文本之后还包括:
获取所述热点文本中包含的一元候选词,计算各个一元候选词两两之间的距离;
根据当前一元候选词与热点文本中其它一元候选词之间的距离计算所述当前一元候选词对应的词密度;
根据各个一元候选词对应的词密度和各个一元候选词两两之间的距离将各个一元候选词进行聚类得到词簇,所述词簇用于确定相应的主题事件;
根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件。
5.根据权利要求4所述的方法,其特征在于,在根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件的步骤之后还包括:
根据主题事件对应的词簇中各个一元候选词对应的词密度获取所述主题事件的核心词;
根据所述主题事件的核心词的词密度将各个主题事件进行排序。
6.根据权利要求4所述的方法,其特征在于,在根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件的步骤之前还包括:
根据各个热点文本之间的相似度进行初步聚类,得到热点文本簇;
所述根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件的步骤包括:
根据交互响应数据获取热点文本簇中的主热点文本,根据所述主热点文本对应的一元候选词将所述主热点文本所属的热点文本簇归类到对应的词簇。
7.一种热点内容挖掘的装置,所述装置包括:
第一获取模块,用于分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合;
切词模块,用于对所述文本集合中的文本进行切词处理,得到候选词集;
第一计算模块,用于计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频;其中,词频是指候选词出现的次数与相应窗口的总的候选词数的比例;
确定模块,用于根据候选词的第一词频和第二词频确定对应的词热度值,所述第一词频表示所述候选词在所述当前窗口期对应的词频,所述第二词频表示所述候选词在所述历史窗口期对应的词频,包括:平滑系数获取模块,用于获取与所述候选词对应的平滑系数;平滑运算模块,用于将所述第一词频与所述平滑系数进行平滑运算得到第一参数值,将所述第二词频与所述平滑系数进行平滑运算得到第二参数值;词热度值确定模块,用于根据所述第一参数值与所述第二参数值的比值确定与所述候选词对应的词热度值;
第二获取模块,用于从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词;
第二计算模块,用于根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值;
筛选模块,用于根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
8.根据权利要求7所述的装置,其特征在于,所述平滑系数是根据所述候选词在所述当前窗口期和所述历史窗口期出现的次数来确定的。
9.根据权利要求7所述的装置,其特征在于,所述候选词集包括一元候选词集和多元候选词集;
所述第一计算模块还用于计算所述一元候选词集中的一元候选词在当前窗口期对应的一元第一词频和历史窗口期对应的一元第二词频;计算所述多元候选词集中的多元候选词在当前窗口期对应的多元第一词频和历史窗口期对应的多元第二词频;
所述确定模块还用于根据所述一元候选词的一元第一词频和一元第二词频确定对应的一元词热度值,根据所述多元候选词的多元第一词频和多元第二词频确定对应的多元词热度值;
所述第二获取模块还用于从当前窗口期获取当前检测文本,获取当前检测文本对应的当前一元候选词和当前多元候选词;
所述第二计算模块还用于根据当前一元候选词的一元词热度值和当前多元候选词的多元词热度值计算当前检测文本对应的文本热度值。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
距离计算模块,用于获取所述热点文本中包含的一元候选词,计算各个一元候选词两两之间的距离;
词密度计算模块,用于根据当前一元候选词与所述热点文本集中其它一元候选词之间的距离计算所述当前一元候选词对应的词密度;
词聚类模块,用于根据各个一元候选词对应的词密度和各个一元候选词两两之间的距离将各个一元候选词进行聚类得到词簇,所述词簇用于确定相应的主题事件;
归类模块,用于根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
排序模块,用于根据主题事件对应的词簇中各个一元候选词对应的词密度获取所述主题事件的核心词,根据所述主题事件的核心词的词密度将各个主题事件进行排序。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
初步聚类模块,用于根据各个热点文本之间的相似度进行初步聚类,得到热点文本簇;
所述归类模块还用于根据交互响应数据获取热点文本簇中的主热点文本,根据所述主热点文本对应的一元候选词将所述主热点文本所属的热点文本簇归类到对应的词簇。
13.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行所述计算机程序时实现权利要求1-6任意一项所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任意一项所述方法的步骤。
CN201710577384.7A 2017-07-14 2017-07-14 热点内容挖掘的方法、装置、计算机设备及存储介质 Active CN108304371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710577384.7A CN108304371B (zh) 2017-07-14 2017-07-14 热点内容挖掘的方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710577384.7A CN108304371B (zh) 2017-07-14 2017-07-14 热点内容挖掘的方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN108304371A CN108304371A (zh) 2018-07-20
CN108304371B true CN108304371B (zh) 2021-07-13

Family

ID=62872626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710577384.7A Active CN108304371B (zh) 2017-07-14 2017-07-14 热点内容挖掘的方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN108304371B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271639B (zh) * 2018-10-11 2021-03-05 南京中孚信息技术有限公司 热门事件发现方法及装置
CN109493978B (zh) * 2018-11-12 2021-05-25 北京懿医云科技有限公司 疾病研究热点挖掘方法及装置、存储介质、电子设备
CN109670534B (zh) * 2018-11-26 2024-08-02 平安科技(深圳)有限公司 政策热点预测的方法、装置、计算机设备和存储介质
CN111222938A (zh) * 2018-11-27 2020-06-02 北京京东尚科信息技术有限公司 目标对象信息识别方法、装置、电子设备及可读存储介质
CN110348539B (zh) * 2019-07-19 2021-05-07 知者信息技术服务成都有限公司 短文本相关性判别方法
CN110457595B (zh) * 2019-08-01 2023-07-04 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质
CN110990708B (zh) * 2019-12-11 2023-05-02 Oppo(重庆)智能科技有限公司 热点事件确定方法、装置、存储介质及电子设备
CN113268976B (zh) * 2021-02-20 2023-09-12 北京交通大学 一种面向微博的话题影响力评估方法
CN113010641A (zh) * 2021-03-10 2021-06-22 北京三快在线科技有限公司 一种数据处理的方法及装置
CN114911939B (zh) * 2022-05-24 2024-08-02 腾讯科技(深圳)有限公司 热点挖掘方法、装置、电子设备、存储介质及程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6859807B1 (en) * 1999-05-11 2005-02-22 Maquis Techtrix, Llc Online content tabulating system and method
CN103049443A (zh) * 2011-10-12 2013-04-17 腾讯科技(深圳)有限公司 一种挖掘热点词的方法与装置
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN103744953A (zh) * 2014-01-02 2014-04-23 中国科学院计算机网络信息中心 一种基于中文文本情感识别的网络热点挖掘方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
CN106528755A (zh) * 2016-10-28 2017-03-22 东软集团股份有限公司 热点话题的生成方法及装置
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6859807B1 (en) * 1999-05-11 2005-02-22 Maquis Techtrix, Llc Online content tabulating system and method
CN103049443A (zh) * 2011-10-12 2013-04-17 腾讯科技(深圳)有限公司 一种挖掘热点词的方法与装置
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN103744953A (zh) * 2014-01-02 2014-04-23 中国科学院计算机网络信息中心 一种基于中文文本情感识别的网络热点挖掘方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
CN106528755A (zh) * 2016-10-28 2017-03-22 东软集团股份有限公司 热点话题的生成方法及装置
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法

Also Published As

Publication number Publication date
CN108304371A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304371B (zh) 热点内容挖掘的方法、装置、计算机设备及存储介质
US11620450B2 (en) Deep learning based text classification
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN108073568B (zh) 关键词提取方法和装置
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
CN111178380B (zh) 数据分类方法、装置及电子设备
CN111581355B (zh) 威胁情报的主题检测方法、装置和计算机存储介质
CN110297988A (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN105630975B (zh) 一种信息处理方法和电子设备
CN111709439B (zh) 基于词频偏差率因子的特征选择方法
CN113946698A (zh) 一种融合多粒度数据和近邻数据的跨媒体检索方法及系统
Wei et al. Online education recommendation model based on user behavior data analysis
CN107908649B (zh) 一种文本分类的控制方法
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN108021595B (zh) 检验知识库三元组的方法及装置
Matos et al. Comparing different approaches for detecting hate speech in online Portuguese comments
CN112836747A (zh) 眼动数据的离群处理方法及装置、计算机设备、存储介质
CN116881451A (zh) 基于机器学习的文本分类方法
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质
CN115563242A (zh) 汽车信息筛选方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant