CN105488196A - 一种基于互联语料的热门话题自动挖掘系统 - Google Patents

一种基于互联语料的热门话题自动挖掘系统 Download PDF

Info

Publication number
CN105488196A
CN105488196A CN201510889261.8A CN201510889261A CN105488196A CN 105488196 A CN105488196 A CN 105488196A CN 201510889261 A CN201510889261 A CN 201510889261A CN 105488196 A CN105488196 A CN 105488196A
Authority
CN
China
Prior art keywords
word
gram
hot
topic
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510889261.8A
Other languages
English (en)
Other versions
CN105488196B (zh
Inventor
窦志成
文继荣
江政宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING YILANQUNZHI DATA TECHNOLOGY Co.,Ltd.
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN201510889261.8A priority Critical patent/CN105488196B/zh
Publication of CN105488196A publication Critical patent/CN105488196A/zh
Application granted granted Critical
Publication of CN105488196B publication Critical patent/CN105488196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于互联语料的热门话题自动挖掘系统,该系统由两种路线组成:1)爬取现有热词统计站点的热词,通过聚类、实体抽取、关键字挖掘的步骤,生成一系列的热门话题;2)在大量新闻文档中抽取n-gram,通过计算n-gram的互信息和条件熵的值,在大量新闻文档中挖掘高频热词,并利用基于时间序列的事件侦测方法,识别新生话题。本发明不仅能够实时挖掘当下热点事件,并且在生成热门话题的同时,还会自动挖掘该话题的相关关键词和命名实体。

Description

一种基于互联语料的热门话题自动挖掘系统
技术领域
本发明涉及一种基于互联语料的热门话题自动挖掘系统。
背景技术
现有的热词挖掘系统主要有三种方法:基于规则匹配的方法,基于站点统计信息的方法和基于事件侦测的方法。基于规则匹配的方法需要大量的领域知识,利用手工建立的热词匹配模板挖掘热词。基于站点统计信息的方法主要利用站点流量的统计数据,例如门户网站的新闻访问日志、搜索引擎的查询日志等,并从高频访问内容中挖掘热词。基于事件侦测的方法首先利用命名实体识别、高频串统计等方法,挖掘出候选热词,再此基础上,利用时间序列分析的相关方法,在候选集合中选取热度趋势明显的词作为最终结果。
基于规则匹配的方法需要大量的先验知识,虽然准确性较高,但是可扩展性较差,不同领域的匹配模板不能复用;基于站点统计信息的方法需要基于大量的用户群体,收集大量日志,这些数据是中小公司或科研单位无法获得的;基于事件侦测的方法首先需要生成高质量的候选词,由于互联网上的信息日新月异,新词层出不穷,未登录词问题对于这种方法是一个挑战。
因此,如何解决上述问题成为本领域技术人员亟需解决的技术问题。
发明内容
针对背景技术中存在的问题,本发明的目的在于提供一种基于互联语料的热门话题自动挖掘系统,该系统不仅能够实时挖掘当下热点事件,并且在生成热门话题的同时,还会自动挖掘该话题的相关命名实体。
本发明的目的是通过以下技术方案来实现的:
一种基于互联语料的热门话题自动挖掘系统,所述系统由两种路线组成:
1)爬取现有热词统计站点的热词,通过聚类、实体抽取、关键字挖掘的步骤,生成一系列的热门话题;
2)在大量新闻文档中抽取n-gram,通过计算n-gram的互信息和条件熵的值,在大量新闻文档中挖掘高频热词,并利用基于时间序列的事件侦测方法,识别新生话题。
进一步,所述路线1)具体为:
(1)热词爬取:通过网络爬虫程序爬取众多热词站点,抽取其中的热词并存储;
(2)热词检索:使用商用搜索引擎,检索话题标题,并将返回页面中的前N个结果存储起来;存储的内容包括检索页面每个结果的标题、摘要和链接URL;
(3)热词聚类:利用话题的标题、所述步骤(2)中检索结果的标题和摘要计算不同话题之间的距离,并使用WQT方法聚类;每个话题由3部分信息组成:话题标题、检索结果中前N个标题、检索结果中前N个摘要;通过分析这3种信息生成描述话题的4个向量;系统首先对这3种文本进行分词,抽取其中的实体;将N个标题、N个摘要看做两个整体进行分析,分别统计话题标题、检索结果标题、检索结果摘要中不同词出现的频率,进而计算每个词的tf-idf值;这样每个话题会得到3个词频向量;另外,统计所有抽取出的实体的频率,得到1个实体向量;通过加权4个向量的余弦相似性得到两个话题的相似性。
进一步,所述步骤(3)中加权4个向量的余弦相似性的计算公式为:
s i m ( t 1 , t 2 ) = Σ k ∈ C w k × cos i n e _ s i m ( v 1 k , v 2 k )
其中,集合C包括4种类型,分别是话题标题tf-idf、检索结果标题tf-idf、检索结果摘要tf-idf、实体频率;表示话题t1的k类型向量,wk表示k类型的权重,∑k∈Cwk=1。
进一步,所述路线2)具体为:
a)n-gram生成:利用Nagao串频统计方法,统计所有n-gram(n≤N)出现的频率及左右邻;
b)去常见词:利用分词字典去掉所有n-gram中的常见词;
c)n-gram成词度计算:统计每个n-gram出现的频率,并利用公式计算其互信息、左邻熵和右邻熵;最终经公式计算出一个n-gram的成词度;
d)n-gram热度趋势计算:通过公式计算每个n-gram的热度趋势,将n-gram的成词度计算公式与每个n-gram的热度趋势计算公式相乘得到一个n-gram的总得分;
e)n-gram聚类。
进一步,所述步骤c)中每个n-gram互信息的计算公式为:
M I ( x , y ) = P ( x , y ) * l o g ( P ( x , y ) P ( x ) P ( y ) )
进一步,所述步骤c)中每个n-gram左邻熵的计算公式为:
L E ( x ) = - Σ i P ( x L e f t W o r d i ) l o g ( P ( x L e f t W o r d i ) ) .
进一步,所述步骤c)中每个n-gram右邻熵的计算公式为:
R E ( x ) = - Σ i P ( x R i g h t W o r d i ) l o g ( P ( x R i g h t W o r d i ) ) .
进一步,所述步骤c)中每个n-gram成词度的计算公式为:
W ( x ) = m i n { { M I ( x k , x k ′ ) } k min , L E ( x ) , R E ( x ) }
(其中k是对词x的切分位置)。
进一步,所述步骤d)中每个n-gram的热度趋势的计算公式为:
T S c o r e ( x ) = Freq t ( x ) Σ i λ i Freq t - i ( x ) , λ ≤ 1 i s a d e c a y c o e f f i c i e n t .
本发明具有以下积极的技术效果:
本发明不仅能够实时挖掘当下热点事件,并且在生成热门话题的同时,还会自动挖掘该话题的相关命名实体。
具体实施方式
下面结合具体实施方式对本发明做进一步的说明。
首先对本发明涉及到的一些相关概念做如下说明:
命名实体:人名、机构名、地名以及其他所有以名称为标识的实体。
命名实体识别:命名实体识别是信息抽取的一个子任务,目的在于定位并标识文本中出现的命名实体,命名实体识别的主要难点在于歧义问题。
Tf-idf:Tf-idf是用于评估一个词对于一篇文档重要性的模型。Tf是词频,指单词w在文档中d出现的频率,idf是逆向文档频率,指包含单词w的文档个数的倒数与总文档个数的乘积。
余弦相似度:两个维数相同的向量存在于同一空间,如果使用欧氏距离计算,会存在向量量级不同的问题。通过计算两个向量的余弦相似度可以很好的解决这个问题。
WQT聚类算法:WQT算法是对QT算法的改进,是基于贪心策略的聚类算法,待聚类的数据是按照重要性排序的,每次聚类过程,会首先将重要性高的节点加入到当前类中,之后每次选取距离当前类最近的点加入,直到所有数据点到当前类的距离都大于阈值,则该类聚类完成,开始对下一个类的聚类过程。
n-gram:n-gram是一种语言模型,在这种概率模型下,一个单词的出现的概率只与前面的n-1个词有关。
Nagao串频统计法:Nagao算法是快速统计文本子串的方法,该方法会建立三个表,分别是后缀表、前缀表和1Table,后缀表经过排序后,所有相同的子串都是相邻的,这样对词频的统计结果可以及时输出,而不需要在内存中驻留。
互信息:互信息是信息论里的一种信息度量,互信息的计算见公式[2.1],随机变量X,Y的互信息可以理解为对X(Y)减少Y(X)的不确定性的度量,互信息是对随机变量相互性的度量。
熵:熵是信息论中的重要概念,熵用来衡量随机变量的不确定性,或者信息量的。熵越大的随机变量随机性越大,也因而包含更多的信息。其计算公式为H(X)=∑x∈C-p(x)×log(p(x))。
事件侦测:事件侦测指的是从周期性收集的数据中挖掘出有用的但却是较为异常、不常发生的事件,如疾病爆发检测等。
本发明能够实时挖掘当下热点事件,如“黄晓明Angelababy大婚”等,在生成热门话题的同时,还会自动挖掘该话题的相关命名实体(如、“美国”、“奥巴马”、“黄晓明”,“上海”等)、关键字(“出访”,“大国”,“婚礼”等)。
上述内容是一个完整的热门事件,其中:
·title:热门事件的标题
·score:对事件热度的度量
·alias:同一热门事件的不同标题,方便服务调用方进行检索
·keywords:热门事件的关键词,可以用来对新闻文档打标签
·entities:热门事件涉及的命名实体,方便服务调用方全面了解事件发生的地点、人物和机构
同时,每个alia、keyword、entity都附带一个得分,这个得分衡量该项的重要性,对于基于本系统进行后续研发系统来说,可以利用该得分计算相应指标。
本发明的方案由两种路线组成:
(1)爬取现有热词统计站点的热词,通过聚类、实体抽取、关键字挖掘等步骤,生成一系列的热门话题。本申请这种方法为基于热词爬取的方法。
(2)在大量新闻文档中抽取n-gram,通过计算n-gram的互信息,条件熵等值,在大量新闻文档中挖掘高频热词,并利用基于时间序列的事件侦测方法,识别新生话题。本申请称这种方法为基于热词生成的方法。
一、基于热词爬取的方法
首先爬取现有的热词统计站点的热词,这些热词由不同的搜索引擎提供商、新闻站点通过自己的方法生成,存在重复的情况。本申请使用贪心策略的WQT聚类方法将指代相同事件的热门话题聚成一类,并通过搜集搜索引擎的检索结果,进一步挖掘话题相关的关键词、命名实体。
(1)热词爬取
通过网络爬虫程序爬取众多热词站点,抽取其中的热词并存储。由于每个站点热词的结构字段不尽相同,所以我们定义了如下标准存储格式,如果热词某字段不存在,则存为空值。
(2)热词检索
使用商用搜索引擎,检索话题标题,并将返回页面中的前N个结果存储起来。存储的内容包括检索页面每个结果的标题、摘要、链接URL等。
(3)热词聚类
利用话题的标题、相应检索结果的标题和摘要计算不同话题之间的距离,并使用WQT方法聚类。具体来说,每个话题由3部分重要的信息组成:话题标题、检索结果中前N个标题、检索结果中前N个摘要。通过分析这3种信息可以生成描述话题的4个向量。系统首先对这3种文本进行分词,抽取其中的实体。本申请将N个标题、N个摘要看做两个整体进行分析,分别统计话题标题、检索结果标题、检索结果摘要中不同词出现的频率,进而计算每个词的tf-idf值。这样每个话题会得到3个词频向量;另外,统计所有抽取出的实体的频率,得到1个实体向量。通过加权4个向量的余弦相似性得到两个话题的相似性:
s i m ( t 1 , t 2 ) = Σ k ∈ C w k × cos i n e _ s i m ( v 1 k , v 2 k ) - - - 1.1
其中,集合C包括4种类型,分别是话题标题tf-idf、检索结果标题tf-idf、检索结果摘要tf-idf、实体频率。表示话题t1的k类型向量,wk表示k类型的权重,∑k∈Cwk=1。
二、基于热词生成的方法
对于一段时间内的新闻文档集合,利用Nagao串频统计方法,统计所有n-gram(n≤N)出现的频率及左右邻。通过计算n-gram内部互信息和左右邻熵找到成词率高的单词,并利用时序分析的方法,计算n-gram的热度趋势。综合成词率和热度趋势,选择高于某阈值的词作为新生热词。最后利用和基于热词爬取类似的方法进行聚类。方法流程如下:
(1)n-gram生成
利用Nagao串频统计方法,统计所有n-gram(n≤N)出现的频率及左右邻。
(2)去常见词
利用分词字典去掉所有n-gram中的常见词。
(3)n-gram成词度计算
统计每个n-gram出现的频率,并利用公式[2.1,2.2,2.3]计算其互信息、左邻熵和右邻熵。
互信息衡量一个词的内聚程度,举例来说,对于“图书馆”这个词,我们可以分别计算在一个语料库中图书馆出现的概率P(“图书馆”),以及P(“图书”)和P(“馆”),如果P(“图书馆”)明显高于P(“图书”)和P(“馆”)的乘积,我们就可以确定,“图书馆”并不是由“图书”和“馆”随机独立拼凑起来的,而是相互依赖的,依赖程度越大的两个随机变量,其互信息也越大。上面蕴含的假设是“图书馆”由“图书”和“馆”拼凑而成,但机器并没有这样的先验知识,所以为了避免错误的分割,一个词的互信息值是有所有分割中的互信息的最小值确定的。
互信息衡量了词的内聚力,而左右邻熵衡量的是一个词的自由程度。之所以需要这个值是因为一些组合词的存在,例如“竞技项目”这个词,如果只考虑互信息,则更可能挖掘出更小的词,如“竞技”、“项目”,因为聚合少数的字更容易。如果“竞技”后面经常跟“项目”,或者“项目”前面经常有“竞技”,则可以把“竞技项目”整体当作一个词,因为一个词之所以能成为一个词,意味着它可以用在多种上下文中,也就是说它有丰富的左右邻,这样我们就可以用左右邻的熵来估计该词的自由程度。
文本片段的内聚程度和自由程度是一个权衡。只看内聚程度的话,程序会找出小词;只看自由程度,程序则只会看中上下文的丰富程度。
一个n-gram的成词率W可以表示为公式[2.4],其中k表示对x分割的位置,xk表示x的左子串,x′k表示x的右子串。
M I ( x , y ) = P ( x , y ) * l o g ( P ( x , y ) P ( x ) P ( y ) ) - - - 2.1
L E ( x ) = - Σ i P ( x LeftWord i ) l o g ( P ( x L e f t W o r d i ) ) - - - 2.2
R E ( x ) = - Σ i P ( x R i g h t W o r d i ) log ( P ( x R i g h t W o r d i ) ) - - - 2.3
W ( x ) = m i n { { M I ( x k , x k ′ ) } k min , L E ( x ) , R E ( x ) } - - - 2.4
(4)n-gram热度趋势计算
通过公式[2.5]计算每个n-gram的热度趋势,该式可以看做将词x的频率与过去一段时间窗口内事件的频率加权作比较,分值越高的词热度上升趋势越大。将[2.4]与[2.5]相乘得到一个n-gram的总得分。
T S c o r e ( x ) = Freq t ( x ) Σ i λ i Freq t - i ( x ) , λ ≤ 1 i s a d e c a y c o e f f i c i e n t - - - 2.5
(5)n-gram聚类
利用和基于热词爬取的方法中类似的方法进行聚类。
上面所述只是为了说明本发明,应该理解为本发明并不局限于以上实施例,符合本发明思想的各种变通形式均在本发明的保护范围之内。

Claims (9)

1.一种基于互联语料的热门话题自动挖掘系统,其特征在于,所述系统由两种路线组成:
1)爬取现有热词统计站点的热词,通过聚类、实体抽取、关键字挖掘的步骤,生成一系列的热门话题;
2)在大量新闻文档中抽取n-gram,通过计算n-gram的互信息和条件熵的值,在大量新闻文档中挖掘高频热词,并利用基于时间序列的事件侦测方法,识别新生话题。
2.根据权利要求1所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述路线1)具体为:
(1)热词爬取:通过网络爬虫程序爬取众多热词站点,抽取其中的热词并存储;
(2)热词检索:使用商用搜索引擎,检索话题标题,并将返回页面中的前N个结果存储起来;存储的内容包括检索页面每个结果的标题、摘要和链接URL;
(3)热词聚类:利用话题的标题、所述步骤(2)中检索结果的标题和摘要计算不同话题之间的距离,并使用WQT方法聚类;每个话题由3部分信息组成:话题标题、检索结果中前N个标题、检索结果中前N个摘要;通过分析这3种信息生成描述话题的4个向量;系统首先对这3种文本进行分词,抽取其中的实体;将N个标题、N个摘要看做两个整体进行分析,分别统计话题标题、检索结果标题、检索结果摘要中不同词出现的频率,进而计算每个词的tf-idf值;这样每个话题会得到3个词频向量;另外,统计所有抽取出的实体的频率,得到1个实体向量;通过加权4个向量的余弦相似性得到两个话题的相似性。
3.根据权利要求2所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤(3)中加权4个向量的余弦相似性的计算公式为:
s i m ( t 1 , t 2 ) = Σ k ∈ C w k × cos i n e _ s i m ( v 1 k , v 2 k )
其中,集合C包括4种类型,分别是话题标题tf-idf、检索结果标题tf-idf、检索结果摘要tf-idf、实体频率;表示话题t1的k类型向量,wk表示k类型的权重,∑k∈Cwk=1。
4.根据权利要求1所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述路线2)具体为:
a)n-gram生成:利用Nagao串频统计方法,统计所有n-gram(n≤N)出现的频率及左右邻;
b)去常见词:利用分词字典去掉所有n-gram中的常见词;
c)n-gram成词度计算:统计每个n-gram出现的频率,并利用公式计算其互信息、左邻熵和右邻熵;最终经公式计算出一个n-gram的成词度;
d)n-gram热度趋势计算:通过公式计算每个n-gram的热度趋势,将n-gram的成词度计算公式与每个n-gram的热度趋势计算公式相乘得到一个n-gram的总得分;
e)n-gram聚类。
5.根据权利要求4所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤c)中每个n-gram互信息的计算公式为:
M I ( x , y ) = P ( x , y ) * l o g ( P ( x , y ) P ( x ) P { y ) ) .
6.根据权利要求4所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤c)中每个n-gram左邻熵的计算公式为:
L E ( x ) = - Σ i P ( x LeftWord i ) l o g ( P ( x LeftWord i ) ) .
7.根据权利要求4所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤c)中每个n-gram右邻熵的计算公式为:
R E ( x ) = - Σ i P ( x RightWord i ) l o g ( P ( x RightWord i ) ) .
8.根据权利要求4所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤c)中每个n-gram成词度的计算公式为:
W ( x ) = m i n { min k { M I ( x k , x k ′ ) } , L E ( x ) , R E ( x ) }
其中,k是对词x的切分位置。
9.根据权利要求4所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤d)中每个n-gram的热度趋势的计算公式为:
T S c o r e ( x ) = Freq t ( x ) Σ i λ i Freq t - i ( x ) , λ ≤ 1 i s a d e c a y c o e f f i c i e n t .
CN201510889261.8A 2015-12-07 2015-12-07 一种基于互联语料的热门话题自动挖掘系统 Active CN105488196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510889261.8A CN105488196B (zh) 2015-12-07 2015-12-07 一种基于互联语料的热门话题自动挖掘系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510889261.8A CN105488196B (zh) 2015-12-07 2015-12-07 一种基于互联语料的热门话题自动挖掘系统

Publications (2)

Publication Number Publication Date
CN105488196A true CN105488196A (zh) 2016-04-13
CN105488196B CN105488196B (zh) 2019-01-22

Family

ID=55675170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510889261.8A Active CN105488196B (zh) 2015-12-07 2015-12-07 一种基于互联语料的热门话题自动挖掘系统

Country Status (1)

Country Link
CN (1) CN105488196B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156276A (zh) * 2016-06-25 2016-11-23 贵州大学 基于Pitman‑Yor过程的新闻热点发现方法
CN106502986A (zh) * 2016-10-21 2017-03-15 天津海量信息技术股份有限公司 新闻传播力预测方法
CN107239497A (zh) * 2017-05-02 2017-10-10 广东万丈金数信息技术股份有限公司 热门内容搜索方法和系统
CN107992619A (zh) * 2017-12-21 2018-05-04 联想(北京)有限公司 一种聚类方法、服务器集群及虚拟装置
CN108090157A (zh) * 2017-12-12 2018-05-29 百度在线网络技术(北京)有限公司 一种热点新闻挖掘方法、装置及服务器
CN108170692A (zh) * 2016-12-07 2018-06-15 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
CN108304371A (zh) * 2017-07-14 2018-07-20 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN108959550A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
CN109271509A (zh) * 2018-08-23 2019-01-25 武汉斗鱼网络科技有限公司 直播间话题的生成方法、装置、计算机设备和存储介质
CN110516067A (zh) * 2019-08-23 2019-11-29 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN111159393A (zh) * 2019-12-30 2020-05-15 电子科技大学 一种基于lda和d2v进行摘要抽取的文本生成方法
CN111831884A (zh) * 2020-07-14 2020-10-27 深圳市众创达企业咨询策划有限公司 一种基于信息查找的匹配系统与方法
CN113361238A (zh) * 2021-05-21 2021-09-07 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113420153A (zh) * 2021-08-23 2021-09-21 人民网科技(北京)有限公司 一种基于话题库和事件库的专题制作方法、装置及设备
CN114021028A (zh) * 2021-10-28 2022-02-08 四川启睿克科技有限公司 一种智能交互系统中实体相对热度获取方法
CN115269810A (zh) * 2022-09-27 2022-11-01 北京云迹科技股份有限公司 对话语料的检索方法及装置
CN115409000A (zh) * 2022-11-02 2022-11-29 浪潮通信信息系统有限公司 一种热点人物软文自动生成方法及装置
CN116611514A (zh) * 2023-07-19 2023-08-18 中国科学技术大学 一种基于数据驱动的价值取向评估体系构建方法
CN117828152A (zh) * 2023-11-30 2024-04-05 南京汇编交通科技有限公司 一种基于大数据的热词挖掘方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161612A1 (en) * 2008-12-18 2010-06-24 National Taiwan University Method of Topic Summarization and Content Anatomy
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN103577501A (zh) * 2012-08-10 2014-02-12 深圳市世纪光速信息技术有限公司 热点话题搜索系统及热点话题搜索方法
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN104679738A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161612A1 (en) * 2008-12-18 2010-06-24 National Taiwan University Method of Topic Summarization and Content Anatomy
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN103577501A (zh) * 2012-08-10 2014-02-12 深圳市世纪光速信息技术有限公司 热点话题搜索系统及热点话题搜索方法
CN104679738A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SIQI HUANG ET AL.: ""Topic Detection from Microblog Based on Text Clustering and Topic Model Analysis"", 《2014 ASIA-PACIFIC SERVICES COMPUTING CONFERENCE》 *
谷保平 等: ""热点特征深挖下的高效微博热门话题预测"", 《科技通报》 *
郝晓玲 等: ""微博热词抽取及话题发现研究"", 《情报杂志》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156276A (zh) * 2016-06-25 2016-11-23 贵州大学 基于Pitman‑Yor过程的新闻热点发现方法
CN106156276B (zh) * 2016-06-25 2019-07-19 贵州大学 基于Pitman-Yor过程的新闻热点发现方法
CN106502986A (zh) * 2016-10-21 2017-03-15 天津海量信息技术股份有限公司 新闻传播力预测方法
CN108170692A (zh) * 2016-12-07 2018-06-15 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
CN108170692B (zh) * 2016-12-07 2021-08-24 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
CN107239497B (zh) * 2017-05-02 2020-11-03 广东万丈金数信息技术股份有限公司 热门内容搜索方法和系统
CN107239497A (zh) * 2017-05-02 2017-10-10 广东万丈金数信息技术股份有限公司 热门内容搜索方法和系统
CN108304371A (zh) * 2017-07-14 2018-07-20 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
CN108304371B (zh) * 2017-07-14 2021-07-13 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
CN108090157A (zh) * 2017-12-12 2018-05-29 百度在线网络技术(北京)有限公司 一种热点新闻挖掘方法、装置及服务器
CN107992619A (zh) * 2017-12-21 2018-05-04 联想(北京)有限公司 一种聚类方法、服务器集群及虚拟装置
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN108829658B (zh) * 2018-05-02 2022-05-24 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN108959550A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
CN108959550B (zh) * 2018-06-29 2022-03-25 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
CN109271509A (zh) * 2018-08-23 2019-01-25 武汉斗鱼网络科技有限公司 直播间话题的生成方法、装置、计算机设备和存储介质
CN110516067B (zh) * 2019-08-23 2022-02-11 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN110516067A (zh) * 2019-08-23 2019-11-29 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN111159393B (zh) * 2019-12-30 2023-10-10 电子科技大学 一种基于lda和d2v进行摘要抽取的文本生成方法
CN111159393A (zh) * 2019-12-30 2020-05-15 电子科技大学 一种基于lda和d2v进行摘要抽取的文本生成方法
CN111831884A (zh) * 2020-07-14 2020-10-27 深圳市众创达企业咨询策划有限公司 一种基于信息查找的匹配系统与方法
CN113361238B (zh) * 2021-05-21 2022-02-11 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113361238A (zh) * 2021-05-21 2021-09-07 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113420153A (zh) * 2021-08-23 2021-09-21 人民网科技(北京)有限公司 一种基于话题库和事件库的专题制作方法、装置及设备
CN114021028A (zh) * 2021-10-28 2022-02-08 四川启睿克科技有限公司 一种智能交互系统中实体相对热度获取方法
CN115269810A (zh) * 2022-09-27 2022-11-01 北京云迹科技股份有限公司 对话语料的检索方法及装置
CN115409000A (zh) * 2022-11-02 2022-11-29 浪潮通信信息系统有限公司 一种热点人物软文自动生成方法及装置
CN116611514A (zh) * 2023-07-19 2023-08-18 中国科学技术大学 一种基于数据驱动的价值取向评估体系构建方法
CN116611514B (zh) * 2023-07-19 2023-10-10 中国科学技术大学 一种基于数据驱动的价值取向评估体系构建方法
CN117828152A (zh) * 2023-11-30 2024-04-05 南京汇编交通科技有限公司 一种基于大数据的热词挖掘方法和系统

Also Published As

Publication number Publication date
CN105488196B (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN105488196A (zh) 一种基于互联语料的热门话题自动挖掘系统
Zhou et al. Event detection over twitter social media streams
Hai et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
Shouzhong et al. Mining microblog user interests based on TextRank with TF-IDF factor
CN104376406A (zh) 一种基于大数据的企业创新资源管理与分析系统和方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN105468605A (zh) 一种实体信息图谱生成方法及装置
CN102880723A (zh) 一种识别用户检索意图的搜索方法和系统
CN109359172A (zh) 一种基于图划分的实体对齐优化方法
CN102651012A (zh) 互联网新闻文本之间的转载关系识别方法
Alguliev et al. Formulation of document summarization as a 0–1 nonlinear programming problem
Chasin et al. Extracting and displaying temporal and geospatial entities from articles on historical events
CN103714118A (zh) 图书交叉阅读方法
Lin et al. Exploiting temporal information in Web search
CN105095381A (zh) 新词识别方法和装置
Inkpen et al. Detecting and disambiguating locations mentioned in Twitter messages
Li et al. Efficiently mining high quality phrases from texts
Wang et al. Knowledge mining with scene text for fine-grained recognition
JP2008123526A (ja) 情報検索方法及び装置
CN106919565B (zh) 一种基于MapReduce的文档检索方法及系统
Campelo et al. A model for geographic knowledge extraction on web documents
CN105426490A (zh) 一种基于树形结构的索引方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200715

Address after: Room 2510, 25 / F, building 1, yard 1, Danling street, Haidian District, Beijing 100600

Patentee after: BEIJING YILANQUNZHI DATA TECHNOLOGY Co.,Ltd.

Address before: 100872 No. 59, Zhongguancun Avenue, Haidian District, Beijing

Patentee before: Renmin University of China