CN109271639A - 热门事件发现方法及装置 - Google Patents
热门事件发现方法及装置 Download PDFInfo
- Publication number
- CN109271639A CN109271639A CN201811185146.2A CN201811185146A CN109271639A CN 109271639 A CN109271639 A CN 109271639A CN 201811185146 A CN201811185146 A CN 201811185146A CN 109271639 A CN109271639 A CN 109271639A
- Authority
- CN
- China
- Prior art keywords
- word
- candidate
- hot
- hot word
- candidate hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种热门事件发现方法及装置,涉及信息处理的技术领域,包括:获取当前时间段内流过待监测网络节点上的文本内容;对文本内容进行数据处理,得到文本内容中所包含的候选热词、候选热词所对应的词频和目标词组所对应的词频;基于候选热词所对应的词频和目标词组所对应的词频对候选热词进行综合热度值计算,得到每个候选热词的综合热度值;根据每个候选热词的综合热度值确定当前时间段内待监测网络节点上的热门事件。该方法能够通过数据处理得到信息含量较多的候选热词,并对候选热词进行综合热度值计算,得到综合热度值,计算过程中考虑的信息更加全面,缓解了现有的热词发现方法中热词信息量少,热度计算考虑不全面的技术问题。
Description
技术领域
本发明涉及信息处理的技术领域,尤其是涉及一种热门事件发现方法及装置。
背景技术
大数据时代的数据量远远大于了人可以处理的范围,数据分析人员想以传统方式在数以万计的文档中找到有效信息几乎是不可能的,因此,无论是公司还是政府,都很难对近期的热门事件作出实时或者快速的反应。在这个科技飞速发展,机会瞬息万变的时代,亟需一个热词发现方法来获取文本库的焦点事件或者内容,以更加精准有效的捕捉实时的数据动向和风口。
现有技术中,热词发现方法的过程为:输入原始语料,然后对原始语料进行预处理,分词处理和降噪处理,进而通过TFIDF算法对剩下的关键词语进行热度值计算,以得出各关键词语的热度值,最后通过排序检索将热度值最高的一些关键词语作为当前的热词。在现有的热词发现方法中,分词处理的过程一般通过中文分词工具(比如ansj_seg工具,结巴分词工具,中科院分词工具)实现,切分出来的词比较短,包含的信息量很少,并不能表达一个有效的信息,并且在热度值计算中,TFIDF算法并没有考虑到时间间隔长度对于热度的影响。
综上,现有的热词发现方法存在热词信息量少,热度计算考虑不全面的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种热门事件发现方法及装置,以缓解现有的热词发现方法存在热词信息量少,热度计算考虑不全面的技术问题。
第一方面,本发明实施例提供了一种热门事件发现方法,包括:获取当前时间段内流过待监测网络节点上的文本内容;对所述文本内容进行数据处理,得到所述文本内容中所包含的候选热词、所述候选热词所对应的词频和目标词组所对应的词频,其中,所述数据处理至少包括:分句处理、分词处理、去噪处理、构造处理、统计处理,所述候选热词为构造处理之后得到的词,所述目标词组为去噪处理后得到的词组;基于所述候选热词所对应的词频和所述目标词组所对应的词频对所述候选热词进行综合热度值计算,得到每个候选热词的综合热度值;根据所述每个候选热词的综合热度值确定所述当前时间段内所述待监测网络节点上的热门事件。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对所述文本内容进行数据处理包括:根据所述文本内容中的分隔符号对所述文本内容进行分句处理,得到多个语句,其中,所述分隔符号至少包括:句号,换行符,问号;采用中文分词工具对所述多个语句中的每个语句进行分词处理,得到多个携带有词性信息的词组;根据所述词性信息对所述词组进行去噪处理,得到目标词组;根据预设构词模板对相邻的目标词组进行构造处理,得到构造词组,并将所述构造词组作为所述候选热词;对所述候选热词以及所述目标词组进行统计处理,得到所述候选热词所对应的词频和所述目标词组所对应的词频。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,基于所述候选热词所对应的词频和所述目标词组所对应的词频对所述候选热词进行综合热度值计算包括:基于所述候选热词的词频和所述目标词组所对应的词频分别计算所述候选热词的牛顿冷却系数,所述候选热词的贝叶斯平均数,所述候选热词的信息量,所述候选热词的联合概率权重;结合所述候选热词的牛顿冷却系数,所述候选热词的贝叶斯平均数,所述候选热词的信息量和所述候选热词的联合概率权重计算所述候选热词的综合热度值。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,基于所述候选热词的词频和所述目标词组所对应的词频计算所述候选热词的牛顿冷却系数包括:通过牛顿冷却法计算算式计算所述候选热词的牛顿冷却系数,其中,Qnewton(w)表示候选热词w的牛顿冷却系数,Qlast(w)表示上一时间段内所述候选热词w的牛顿冷却系数,Tnow(w)表示所述当前时间段内所述候选热词w的词频,Tlast(w)表示所述上一时间段内所述候选热词w的词频,Δt表示所述上一时间段到所述当前时间段的时间间隔。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,基于所述候选热词的词频和所述目标词组所对应的词频计算所述候选热词的贝叶斯平均数包括:通过贝叶斯平均法计算算式计算所述候选热词的贝叶斯平均数,其中,Qbayes(w)表示候选热词w的贝叶斯平均数,Tnow(w)表示所述候选热词w在所述当前时间段内的词频,Tnow表示所有所述候选热词在所述当前时间段内的词频总和,N表示所述候选热词的数量,Ttotal(w)表示所述候选热词w在所有时间段的词频总和,Tavgtotal表示所有所述候选热词在所有时间段的词频总和的平均值。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,基于所述候选热词的词频和所述目标词组所对应的词频计算所述候选热词的信息量包括:通过信息量计算算式计算所述候选热词的信息量,其中,H(w)表示候选热词w的信息量,p(w)表示所述候选热词w的概率,Ttotal(w)表示所述候选热词w在所有时间段的词频的总和,TTF表示经过所述分词处理后得到的词组的总数。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,基于所述候选热词的词频和所述目标词组所对应的词频计算所述候选热词的联合概率权重包括:通过联合概率权重计算算式计算所述候选热词的联合概率权重,其中,β(w)表示候选热词w的联合概率权重,所述候选热词w为目标词组w1和目标词组w2构造得到的,p(w)表示所述候选热词w的概率,p(w1)表示所述目标词组w1的概率,p(w2)表示所述目标词组w2的概率。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,结合所述候选热词的牛顿冷却系数,所述候选热词的贝叶斯平均数,所述候选热词的信息量和所述候选热词的联合概率权重计算所述候选热词的综合热度值包括:通过综合热度值计算算式Q(w)=β(w)×H(w)×(a×Qnewton(w)+b×Qbayes(w))计算所述候选热词的综合热度值,其中,Q(w)表示候选热词w的综合热度值,β(w)表示所述候选热词w的联合概率权重,H(w)表示所述候选热词w的信息量,Qnewton(w)表示所述候选热词w的牛顿冷却系数,Qbayes(w)表示所述候选热词w的贝叶斯平均数,a和b满足a+b=1,且a>0,b>0。
结合第一方面,本发明实施例提供了第一方面的第八种可能的实施方式,其中,根据所述每个候选热词的综合热度值确定所述当前时间段内所述待监测网络节点上的热门事件包括:基于所述每个候选热词的综合热度值对所述候选热词按照预设排序规则进行排序,得到候选热词的排序序列,其中,所述预设排序规则包括以下任一种:所述综合热度值升序的排序规则,所述综合热度值降序的排序规则;获取热词查询请求,其中,所述热词查询请求中携带有查询条件;基于所述热词查询请求在所述候选热词的排序序列中确定出满足所述查询条件的目标热词;将所述目标热词作为所述当前时间段内所述待监测网络节点上的热门事件。
第二方面,本发明实施例还提供一种热门事件发现装置,包括:获取模块,用于获取当前时间段内流过待监测网络节点上的文本内容;数据处理模块,用于对所述文本内容进行数据处理,得到所述文本内容中所包含的候选热词、所述候选热词所对应的词频和目标词组所对应的词频,其中,所述数据处理至少包括:分句处理、分词处理、去噪处理、构造处理、统计处理,所述候选热词为构造处理之后得到的词,所述目标词组为去噪处理后得到的词组;计算模块,用于基于所述候选热词所对应的词频和所述目标词组所对应的词频对所述候选热词进行综合热度值计算,得到每个候选热词的综合热度值;确定模块,用于根据所述每个候选热词的综合热度值确定所述当前时间段内所述待监测网络节点上的热门事件。
在本发明实施例中,首先获取当前时间段内流过待监测网络节点上的文本内容,然后对文本内容进行数据处理,得到文本内容中所包含的候选热词、候选热词所对应的词频和目标词组所对应的词频,再基于候选热词所对应的词频和目标词组所对应的词频对候选热词进行综合热度值计算,得到每个候选热词的综合热度值,最后根据每个候选热词的综合热度值确定当前时间段内待监测网络节点上的热门事件。通过上述描述可知,在本实施例中,能够通过数据处理得到信息含量较多的候选热词,并对候选热词进行综合热度值计算,得到综合热度值,计算过程中考虑的信息更加全面,缓解了现有的热词发现方法中热词信息量少,热度计算考虑不全面的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种热门事件发现方法的流程图;
图2为本发明实施例提供的对文本内容进行数据处理的流程图;
图3为本发明实施例提供的根据每个候选热词的综合热度值确定当前时间段内待监测网络节点上的热门事件的流程图;
图4为本发明实施例提供的一种热门事件发现装置的功能模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
图1是根据本发明实施例的一种热门事件发现方法的流程图,如图1所示,该方法包括如下步骤:
步骤S11,获取当前时间段内流过待监测网络节点上的文本内容;
在本发明实施例中,当前时间段可以为今天一天的时间段,也可以为昨天和今天所构成的时间段,用户可以根据需求而设定,本发明实施例对其不进行具体限制。
另外,待监测网络节点可以为流过特定互联网出入口的所有文本内容,没有搜索的输入,支持大数据的架构,能够对文本内容的数据流做实时的流处理。在数据量增流的情况下能更加方便快速的做运算和存储性能的优化和升级。
步骤S12,对文本内容进行数据处理,得到文本内容中所包含的候选热词、候选热词所对应的词频和目标词组所对应的词频,其中,数据处理至少包括:分句处理、分词处理、去噪处理、构造处理、统计处理,候选热词为构造处理之后得到的词,目标词组为去噪处理后得到的词组;
在得到文本内容后,进一步对文本内容先后进行分句处理、分词处理、去噪处理、构造处理和统计处理。其中,构造处理之后得到候选热词,由于该候选热词是构造处理之后得到的词,所以其包含的信息量大;去噪处理后得到目标词组,而候选热词所对应的词频和目标词组所对应的词频是统计处理之后得到的信息。下文中再对该过程进行详细介绍。
步骤S13,基于候选热词所对应的词频和目标词组所对应的词频对候选热词进行综合热度值计算,得到每个候选热词的综合热度值;
在得到候选热词、候选热词所对应的词频和目标词组所对应的词频后,基于候选热词所对应的词频和目标词组所对应的词频对候选热词进行综合热度值计算,进而得到每个候选热词的综合热度值。在本发明实施例中,综合热度值计算包含:牛顿冷却系数的计算,候选热词的贝叶斯平均数的计算,候选热词的信息量的计算,候选热词的联合概率权重的计算,考虑的信息更加全面,使得最后确定得到的热门事件更加准确,下文中再对该过程进行详细介绍。
步骤S14,根据每个候选热词的综合热度值确定当前时间段内待监测网络节点上的热门事件。
在得到每个候选热词的综合热度值后,就能根据每个候选热词的综合热度值确定当前时间段内待监测网络节点上的热门事件,下文中再对该确定热门事件的过程进行详细介绍。
在本发明实施例中,首先获取当前时间段内流过待监测网络节点上的文本内容,然后对文本内容进行数据处理,得到文本内容中所包含的候选热词、候选热词所对应的词频和目标词组所对应的词频,再基于候选热词所对应的词频和目标词组所对应的词频对候选热词进行综合热度值计算,得到每个候选热词的综合热度值,最后根据每个候选热词的综合热度值确定当前时间段内待监测网络节点上的热门事件。通过上述描述可知,在本实施例中,能够通过数据处理得到信息含量较多的热词,并对候选热词进行综合热度值计算,得到综合热度值,计算过程中考虑的信息更加全面,缓解了现有的热词发现方法中热词信息量少,热度计算考虑不全面的技术问题。
上述内容对本发明的热门事件发现方法进行了简要介绍,下面对其中涉及到的具体内容进行详细描述。
在本实施例中,如图2所示,对文本内容进行数据处理包括如下步骤:
步骤S21,根据文本内容中的分隔符号对文本内容进行分句处理,得到多个语句,其中,分隔符号至少包括:句号,换行符,问号;
具体的,在获取到当前时间段内流过待监测网络节点上的文本内容后,使用句子分隔符号(比如:句号,换行符,问号)将文本内容分割成多个语句,这样前一个句子后面的词就不会和后一个句子前面的词组成新的词组。
对于分句处理下面进行举例说明,如果当前时间段内的文本内容中包含下面一段话:“超市正在进行促销活动,所有商品半价优惠!广大顾客快来抢购吧!”。经过步骤S21的处理后,上述一段话被分割之后得到以下三个语句:“超市正在进行促销活动,”、“所有商品半价优惠!”、“广大顾客快来抢购吧!”。
步骤S22,采用中文分词工具对多个语句中的每个语句进行分词处理,得到多个携带有词性信息的词组;
在得到多个语句后,采用中文分词工具对多个语句中的每个语句进行分词处理。具体的,中文分词工具包括以下任一种:ansj_seg,中科院分词等,本发明实施例中文分词工具不进行具体限制。ansj_seg是一个结合了互信息,隐形马尔科夫链和随机条件场的java的分词包,ansj_seg包自带新词发现的功能,即新的人名,地名以及特殊词汇的发现,因此,新词也可以作为候选热词被本发明发现。
中文分词工具可以将每一个语句内容拆分成一个一个的词组,并且还包含每一个词组的词性信息。
步骤S23,根据词性信息对词组进行去噪处理,得到目标词组;
具体的,分词后的结果会包含很多无用的词,例如:叹词、助词、语气词、拟声词、前后缀和标点符号等,这些无用的词会根据词性信息被去除(即去噪处理),得到目标词组。
为了便于理解,继续举例说明:如步骤S21处理后得到的一个语句为“所有商品半价优惠!”,那么经过步骤S22和步骤S23处理后,最终得到四个单个的词组:“所有”、“商品”、“半价”和“优惠”。
步骤S24,根据预设构词模板对相邻的目标词组进行构造处理,得到构造词组,并将构造词组作为候选热词;
在本发明实施例中,预设构词模板可以使用基于context-free grammar的BIO模型或者固定的词性模板,其中,固定的词性模板包括:“名词”、“名词+名词”、“名词+动词”、“名词+动词+名词”等。
当预设构词模板采用固定的词性模板时,继续举例说明:步骤S23中得到的四个单个的词语,采用固定的词性模板进行构造处理后,就能得到多个候选热词,“半价优惠”就是其中一个候选热词。
因为我们通过整句话能够得知,“优惠”这个词能够携带的信息量是有限的,如果顾客只看到“优惠”这个词,只能判断出超市有活动,但是不知道究竟是什么类型的“优惠”,实际上超市的活动是“半价优惠”,所以“半价优惠”这个词组携带的信息量是更多的,也应该被选择为候选热词。
步骤S25,对候选热词以及目标词组进行统计处理,得到候选热词所对应的词频和目标词组所对应的词频。
在得到候选热词后,进一步对所有的候选热词和目标词组在文本中出现的次数进行统计,得到候选热词所对应的词频和目标词组所对应的词频。
上述内容对文本内容进行数据处理的过程进行了详细介绍,下面对综合热度值计算的过程进行详细描述。
在本实施例中,基于候选热词所对应的词频和目标词组所对应的词频对候选热词进行综合热度值计算包括如下(1)和(2)步骤:
(1)基于候选热词的词频和目标词组所对应的词频分别计算候选热词的牛顿冷却系数,候选热词的贝叶斯平均数,候选热词的信息量,候选热词的联合概率权重;
具体的:
(11)通过牛顿冷却法计算算式计算候选热词的牛顿冷却系数,其中,Qnewton(w)表示候选热词w的牛顿冷却系数,Qlast(w)表示上一时间段内候选热词w的牛顿冷却系数,Tnow(w)表示当前时间段内候选热词w的词频,Tlast(w)表示上一时间段内候选热词w的词频,Δt表示上一时间段到当前时间段的时间间隔。
具体的,对于不同热门事件发现需求,本实施例中上一时间段到当前时间段的时间间隔的Δt可以根据实际需要进行设定,通过上述步骤S25的统计处理,能够得到候选热词w在当前时间段内的词频Tnow(w),再经过查询得到上一时间段内候选热词w的词频Tlast(w),上一时间段内候选热词w的牛顿冷却系数Qlast(w),Qlast(w)的初始值预设是0,进而基于牛顿冷却法计算算式计算候选热词w的牛顿冷却系数Qnewton(w),牛顿冷却法是基于热力学中的牛顿冷却定律(Newton’s rule of cooling)发展出来的。
(12)通过贝叶斯平均法计算算式计算候选热词的贝叶斯平均数,其中,Qbayes(w)表示候选热词w的贝叶斯平均数,Tnow(w)表示候选热词w在当前时间段内的词频,Tnow表示所有候选热词在当前时间段内的词频总和,N表示候选热词的数量,Ttotal(w)表示候选热词w在所有时间段的词频总和,Tavgtotal表示所有候选热词在所有时间段的词频总和的平均值。
具体的,通过步骤S25的统计处理,能够得到所有的N个候选热词在当前时间段内的词频,候选热词w在当前时间段内的词频用Tnow(w)表示,将N个候选热词在当前时间段内的词频相加得到Tnow,即其中,Tnow(wi)是候选热词wi在当前时间段内的词频,候选热词w在当前时间段和过去所有时间段的词频总和表示为Ttotal(w),再计算每一个候选热词当前时间段和过去所有时间段的词频总和,最后将N个候选热词的词频总和的平均值表示为Tavgtotal,进而基于贝叶斯平均法计算算式计算候选热词的贝叶斯平均数Qbayes(w)。
(13)通过信息量计算公式计算候选热词的信息量,其中,H(w)表示候选热词w的信息量,p(w)表示候选热词w的概率,Ttotal(w)表示候选热词w在所有时间段的词频的总和,TTF表示经过分词处理后得到的词组的总数。
具体的,统计候选热词w在所有时间段的词频的总和Ttotal(w),再统计经过步骤S22分词处理后得到的词组的总数TTF,基于公式能够计算出候选热词w的概率p(w),最后利用公式计算候选热词w的信息量H(w)。
(14)通过联合概率权重计算算式计算候选热词的联合概率权重,其中,β(w)表示候选热词w的联合概率权重,候选热词w为目标词组w1和目标词组w2构造得到的,p(w)表示候选热词w的概率,p(w1)表示目标词组w1的概率,p(w2)表示目标词组w2的概率。
下面具体说明联合概率权重的计算,如果候选热词w是“大学军训”,首先要确认候选热词w“大学军训”属于“w1+w2”的组合结构,其中目标词组w1是“大学”,目标词组w2是“军训”,要计算“大学军训”的联合概率权重,就要先计算出“大学军训”的概率p(w),“大学”的概率p(w1),“军训”的概率p(w2),概率的计算在上述信息量的计算中已经描述过,此处不再赘述。
最后,基于公式计算出候选热词“大学军训”的联合概率权重β(w)。
需要说明的是,如果候选热词w是一个单独的名词,而不是通过多个单个词组组合得到的构造词组,那么候选热词w的联合概率权重取值为1。
(2)结合候选热词的牛顿冷却系数,候选热词的贝叶斯平均数,候选热词的信息量和候选热词的联合概率权重计算候选热词的综合热度值。
通过综合热度值计算算式Q(w)=β(w)×H(w)×(a×Qnewton(w)+b×Qbayes(w))计算候选热词的综合热度值,其中,Q(w)表示候选热词w的综合热度值,β(w)表示候选热词w的联合概率权重,H(w)表示候选热词w的信息量,Qnewton(w)表示候选热词w的牛顿冷却系数,Qbayes(w)表示候选热词w的贝叶斯平均数,a和b满足a+b=1,且a>0,b>0。
上述提到的a和b的取值是根据需求情况和业务需要调整的。牛顿冷却系数的变化率比较快,只受当前时间段的词频与上一时间段的词频的影响;贝叶斯平均数的变化率比较慢,所以如果希望系统更加敏感,可以增大a的值,减小b的值。
从上述内容的描述可知,候选热词的综合热度值需要基于候选热词所对应的词频和目标词组所对应的词频结合多种运算方法才能得到,考虑到了影响候选热词综合热度值的多个因素,计算结果更加准确。
上述内容对综合热度值计算的过程进行了详细介绍,下面对确定热门事件的过程进行具体描述。
在本发明的一个可选实施例中,参考图3,根据每个候选热词的综合热度值确定当前时间段内待监测网络节点上的热门事件包括如下步骤:
S31,基于每个候选热词的综合热度值对候选热词按照预设排序规则进行排序,得到候选热词的排序序列,其中,预设排序规则包括以下任一种:综合热度值升序的排序规则,综合热度值降序的排序规则;
具体地,将所有的候选热词按照预设规则进行排序,预设排序规则包括以下任一种:综合热度值升序的排序规则,综合热度值降序的排序规则;如果按照综合热度值降序的排序规则,那么排在最前的候选热词的综合热度值最高,相反,排在最前的候选热词的综合热度值最低。
S32,获取热词查询请求,其中,热词查询请求中携带有查询条件;
具体的,查询条件可以为综合热度值大于预设阈值的候选热词作为满足条件的词,或者,综合热度值的排名在前预设数量的候选热词(以降序的排序规则进行的说明)作为满足条件的词,本发明实施例对查询条件不进行具体限制,还可以为其它查询条件。
S33,基于热词查询请求在候选热词的排序序列中确定出满足查询条件的目标热词;
S34,将目标热词作为当前时间段内待监测网络节点上的热门事件。
本发明由于加入了构造处理的过程,候选热词不再被限制为单个的词组,更多的时候是携带更多信息的构造词组,这样的候选热词能更加有效的帮助数据分析人员找准当前的数据动向,而且综合热度值的计算不单单取决于单个参数,而是考虑了牛顿冷却系数,贝叶斯平均数,信息量和联合概率权重的一个综合结果,使被选中的候选热词都是综合打分最合适的词。对于不同的业务需要,还可以对算式中的参数做特定的修改来满足不同使用场景下的适配性,最后,本发明没有限制输入的文本内容,所以可以对任何信息或系统做热点热词的提炼,从而应用在各个领域的文本处理系统中。
实施例二:
本发明实施例还提供了一种热门事件发现装置,该热门事件发现装置主要用于执行本发明实施例上述内容所提供的热门事件发现方法,以下对本发明实施例提供的热门事件发现装置做具体介绍。
图4是根据本发明实施例的一种热门事件发现装置的示意图,如图4所示,该热门事件发现装置主要包括获取模块10,数据处理模块20,计算模块30,确定模块40,其中:
获取模块,用于获取当前时间段内流过待监测网络节点上的文本内容;
数据处理模块,用于对文本内容进行数据处理,得到文本内容中所包含的候选热词、候选热词所对应的词频和目标词组所对应的词频,其中,数据处理至少包括:分句处理、分词处理、去噪处理、构造处理、统计处理,候选热词为构造处理之后得到的词,目标词组为去噪处理后得到的词组;
计算模块,用于基于候选热词所对应的词频和目标词组所对应的词频对候选热词进行综合热度值计算,得到每个候选热词的综合热度值;
确定模块,用于根据每个候选热词的综合热度值确定当前时间段内待监测网络节点上的热门事件。
在本发明实施例中,首先获取当前时间段内流过待监测网络节点上的文本内容,然后对文本内容进行数据处理,得到文本内容中所包含的候选热词、候选热词所对应的词频和目标词组所对应的词频,再基于候选热词所对应的词频和目标词组所对应的词频对候选热词进行综合热度值计算,得到每个候选热词的综合热度值,最后根据每个候选热词的综合热度值确定当前时间段内待监测网络节点上的热门事件。通过上述描述可知,在本实施例中能够通过数据处理得到信息含量较多的候选热词,并对候选热词进行综合热度值计算,得到综合热度值,计算过程中考虑的信息更加全面,缓解了现有的热词发现方法中热词信息量少,热度计算考虑不全面的技术问题。
可选地,数据处理模块包括:分句单元,用于根据文本内容中的分隔符号对文本内容进行分句处理,得到多个语句,其中,分隔符号至少包括:句号,换行符,问号;分词单元,用于采用中文分词工具对多个语句中的每个语句进行分词处理,得到多个携带有词性信息的词组;去噪单元,用于根据词性信息对词组进行去噪处理,得到目标词组;构造单元,用于根据预设构词模板对相邻的目标词组进行构造处理,得到构造词组,并将构造词组作为候选热词;统计单元,用于对候选热词以及目标词组进行统计处理,得到候选热词所对应的词频和目标词组所对应的词频。
可选地,计算模块包括:第一计算单元,用于基于候选热词的词频和目标词组所对应的词频分别计算候选热词的牛顿冷却系数,候选热词的贝叶斯平均数,候选热词的信息量,候选热词的联合概率权重;第二计算单元,用于结合候选热词的牛顿冷却系数,候选热词的贝叶斯平均数,候选热词的信息量和候选热词的联合概率权重计算候选热词的综合热度值。
可选地,第一计算单元用于:通过牛顿冷却法计算算式计算候选热词的牛顿冷却系数,其中,Qnewton(w)表示候选热词w的牛顿冷却系数,Qlast(w)表示上一时间段内候选热词w的牛顿冷却系数,Tnow(w)表示当前时间段内候选热词w的词频,Tlast(w)表示上一时间段内候选热词w的词频,Δt表示上一时间段到当前时间段的时间间隔。
可选地,第一计算单元还用于:通过贝叶斯平均法计算算式计算候选热词的贝叶斯平均数,其中,Qbayes(w)表示候选热词w的贝叶斯平均数,Tnow(w)表示候选热词w在当前时间段内的词频,Tnow表示所有候选热词在当前时间段内的词频总和,N表示候选热词的数量,Ttotal(w)表示候选热词w在所有时间段的词频总和,Tavgtotal表示所有候选热词在所有时间段的词频总和的平均值。
可选地,第一计算单元还用于:通过信息量计算算式计算候选热词的信息量,其中,H(w)表示候选热词w的信息量,p(w)表示候选热词w的概率,Ttotal(w)表示候选热词w在所有时间段的词频的总和,TTF表示经过分词处理后得到的词组的总数。
可选地,第一计算单元还用于:通过联合概率权重计算算式计算候选热词的联合概率权重,其中,β(w)表示候选热词w的联合概率权重,候选热词w为目标词组w1和目标词组w2构造得到的,p(w)表示候选热词w的概率,p(w1)表示目标词组w1的概率,p(w2)表示目标词组w2的概率。
可选地,第二计算单元用于:通过综合热度值计算算式Q(w)=β(w)×H(w)×(a×Qnewton(w)+b×Qbayes(w))计算候选热词的综合热度值,其中,Q(w)表示候选热词w的综合热度值,β(w)表示候选热词w的联合概率权重,H(w)表示候选热词w的信息量,Qnewton(w)表示候选热词w的牛顿冷却系数,Qbayes(w)表示候选热词w的贝叶斯平均数,a和b满足a+b=1,且a>0,b>0。
可选地,确定模块还用于:基于每个候选热词的综合热度值对候选热词按照预设排序规则进行排序,得到候选热词的排序序列,其中,预设排序规则包括以下任一种:综合热度值升序的排序规则,综合热度值降序的排序规则;获取热词查询请求,其中,热词查询请求中携带有查询条件;基于热词查询请求在候选热词的排序序列中确定出满足查询条件的目标热词;将目标热词作为当前时间段内待监测网络节点上的热门事件。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种热门事件发现方法,其特征在于,包括:
获取当前时间段内流过待监测网络节点上的文本内容;
对所述文本内容进行数据处理,得到所述文本内容中所包含的候选热词、所述候选热词所对应的词频和目标词组所对应的词频,其中,所述数据处理至少包括:分句处理、分词处理、去噪处理、构造处理、统计处理,所述候选热词为构造处理之后得到的词,所述目标词组为去噪处理后得到的词组;
基于所述候选热词所对应的词频和所述目标词组所对应的词频对所述候选热词进行综合热度值计算,得到每个候选热词的综合热度值;
根据所述每个候选热词的综合热度值确定所述当前时间段内所述待监测网络节点上的热门事件。
2.根据权利要求1所述的方法,其特征在于,对所述文本内容进行数据处理包括:
根据所述文本内容中的分隔符号对所述文本内容进行分句处理,得到多个语句,其中,所述分隔符号至少包括:句号,换行符,问号;
采用中文分词工具对所述多个语句中的每个语句进行分词处理,得到多个携带有词性信息的词组;
根据所述词性信息对所述词组进行去噪处理,得到目标词组;
根据预设构词模板对相邻的目标词组进行构造处理,得到构造词组,并将所述构造词组作为所述候选热词;
对所述候选热词以及所述目标词组进行统计处理,得到所述候选热词所对应的词频和所述目标词组所对应的词频。
3.根据权利要求1所述的方法,其特征在于,基于所述候选热词所对应的词频和所述目标词组所对应的词频对所述候选热词进行综合热度值计算包括:
基于所述候选热词的词频和所述目标词组所对应的词频分别计算所述候选热词的牛顿冷却系数,所述候选热词的贝叶斯平均数,所述候选热词的信息量,所述候选热词的联合概率权重;
结合所述候选热词的牛顿冷却系数,所述候选热词的贝叶斯平均数,所述候选热词的信息量和所述候选热词的联合概率权重计算所述候选热词的综合热度值。
4.根据权利要求3所述的方法,其特征在于,基于所述候选热词的词频和所述目标词组所对应的词频计算所述候选热词的牛顿冷却系数包括:
通过牛顿冷却法计算算式计算所述候选热词的牛顿冷却系数,其中,Qnewton(w)表示候选热词w的牛顿冷却系数,Qlast(w)表示上一时间段内所述候选热词w的牛顿冷却系数,Tnow(w)表示所述当前时间段内所述候选热词w的词频,Tlast(w)表示所述上一时间段内所述候选热词w的词频,Δt表示所述上一时间段到所述当前时间段的时间间隔。
5.根据权利要求3所述的方法,其特征在于,基于所述候选热词的词频和所述目标词组所对应的词频计算所述候选热词的贝叶斯平均数包括:
通过贝叶斯平均法计算算式计算所述候选热词的贝叶斯平均数,其中,Qbayes(w)表示候选热词w的贝叶斯平均数,Tnow(w)表示所述候选热词w在所述当前时间段内的词频,Tnow表示所有所述候选热词在所述当前时间段内的词频总和,N表示所述候选热词的数量,Ttotal(w)表示所述候选热词w在所有时间段的词频总和,Tavgtotal表示所有所述候选热词在所有时间段的词频总和的平均值。
6.根据权利要求3所述的方法,其特征在于,基于所述候选热词的词频和所述目标词组所对应的词频计算所述候选热词的信息量包括:
通过信息量计算算式计算所述候选热词的信息量,其中,H(w)表示候选热词w的信息量,p(w)表示所述候选热词w的概率,Ttotal(w)表示所述候选热词w在所有时间段的词频的总和,TTF表示经过所述分词处理后得到的词组的总数。
7.根据权利要求3所述的方法,其特征在于,基于所述候选热词的词频和所述目标词组所对应的词频计算所述候选热词的联合概率权重包括:
通过联合概率权重计算算式计算所述候选热词的联合概率权重,其中,β(w)表示候选热词w的联合概率权重,所述候选热词w为目标词组w1和目标词组w2构造得到的,p(w)表示所述候选热词w的概率,p(w1)表示所述目标词组w1的概率,p(w2)表示所述目标词组w2的概率。
8.根据权利要求3所述的方法,其特征在于,结合所述候选热词的牛顿冷却系数,所述候选热词的贝叶斯平均数,所述候选热词的信息量和所述候选热词的联合概率权重计算所述候选热词的综合热度值包括:
通过综合热度值计算算式Q(w)=β(w)×H(w)×(a×Qnewton(w)+b×Qbayes(w))计算所述候选热词的综合热度值,其中,Q(w)表示候选热词w的综合热度值,β(w)表示所述候选热词w的联合概率权重,H(w)表示所述候选热词w的信息量,Qnewton(w)表示所述候选热词w的牛顿冷却系数,Qbayes(w)表示所述候选热词w的贝叶斯平均数,a和b满足a+b=1,且a>0,b>0。
9.根据权利要求1所述的方法,其特征在于,根据所述每个候选热词的综合热度值确定所述当前时间段内所述待监测网络节点上的热门事件包括:
基于所述每个候选热词的综合热度值对所述候选热词按照预设排序规则进行排序,得到候选热词的排序序列,其中,所述预设排序规则包括以下任一种:所述综合热度值升序的排序规则,所述综合热度值降序的排序规则;
获取热词查询请求,其中,所述热词查询请求中携带有查询条件;
基于所述热词查询请求在所述候选热词的排序序列中确定出满足所述查询条件的目标热词;
将所述目标热词作为所述当前时间段内所述待监测网络节点上的热门事件。
10.一种热门事件发现装置,其特征在于,包括:
获取模块,用于获取当前时间段内流过待监测网络节点上的文本内容;
数据处理模块,用于对所述文本内容进行数据处理,得到所述文本内容中所包含的候选热词、所述候选热词所对应的词频和目标词组所对应的词频,其中,所述数据处理至少包括:分句处理、分词处理、去噪处理、构造处理、统计处理,所述候选热词为构造处理之后得到的词,所述目标词组为去噪处理后得到的词组;
计算模块,用于基于所述候选热词所对应的词频和所述目标词组所对应的词频对所述候选热词进行综合热度值计算,得到每个候选热词的综合热度值;
确定模块,用于根据所述每个候选热词的综合热度值确定所述当前时间段内所述待监测网络节点上的热门事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811185146.2A CN109271639B (zh) | 2018-10-11 | 2018-10-11 | 热门事件发现方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811185146.2A CN109271639B (zh) | 2018-10-11 | 2018-10-11 | 热门事件发现方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271639A true CN109271639A (zh) | 2019-01-25 |
CN109271639B CN109271639B (zh) | 2021-03-05 |
Family
ID=65195729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811185146.2A Active CN109271639B (zh) | 2018-10-11 | 2018-10-11 | 热门事件发现方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271639B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458296A (zh) * | 2019-08-02 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 目标事件的标记方法和装置、存储介质及电子装置 |
CN111079419A (zh) * | 2019-11-28 | 2020-04-28 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于大数据的国防科技热词发现方法及系统 |
CN112328878A (zh) * | 2020-11-05 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 事件推荐方法、装置、设备及存储介质 |
CN112380422A (zh) * | 2020-09-04 | 2021-02-19 | 上海智芝全智能科技有限公司 | 一种基于关键词热度的金融新闻推荐装置 |
CN112434126A (zh) * | 2019-08-08 | 2021-03-02 | 中移(苏州)软件技术有限公司 | 一种信息处理方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014182445A (ja) * | 2013-03-18 | 2014-09-29 | Mitsubishi Electric Corp | 情報処理装置およびナビゲーション装置 |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
CN107330022A (zh) * | 2017-06-21 | 2017-11-07 | 腾讯科技(深圳)有限公司 | 一种获取热点话题的方法及装置 |
CN108304371A (zh) * | 2017-07-14 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 热点内容挖掘的方法、装置、计算机设备及存储介质 |
CN108509490A (zh) * | 2018-02-09 | 2018-09-07 | 中国农业大学 | 一种网络热点话题发现方法及系统 |
-
2018
- 2018-10-11 CN CN201811185146.2A patent/CN109271639B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014182445A (ja) * | 2013-03-18 | 2014-09-29 | Mitsubishi Electric Corp | 情報処理装置およびナビゲーション装置 |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
CN107330022A (zh) * | 2017-06-21 | 2017-11-07 | 腾讯科技(深圳)有限公司 | 一种获取热点话题的方法及装置 |
CN108304371A (zh) * | 2017-07-14 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 热点内容挖掘的方法、装置、计算机设备及存储介质 |
CN108509490A (zh) * | 2018-02-09 | 2018-09-07 | 中国农业大学 | 一种网络热点话题发现方法及系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458296A (zh) * | 2019-08-02 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 目标事件的标记方法和装置、存储介质及电子装置 |
CN110458296B (zh) * | 2019-08-02 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 目标事件的标记方法和装置、存储介质及电子装置 |
CN112434126A (zh) * | 2019-08-08 | 2021-03-02 | 中移(苏州)软件技术有限公司 | 一种信息处理方法、装置、设备和存储介质 |
CN112434126B (zh) * | 2019-08-08 | 2022-12-13 | 中移(苏州)软件技术有限公司 | 一种信息处理方法、装置、设备和存储介质 |
CN111079419A (zh) * | 2019-11-28 | 2020-04-28 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于大数据的国防科技热词发现方法及系统 |
CN111079419B (zh) * | 2019-11-28 | 2024-03-22 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于大数据的国防科技热词发现方法及系统 |
CN112380422A (zh) * | 2020-09-04 | 2021-02-19 | 上海智芝全智能科技有限公司 | 一种基于关键词热度的金融新闻推荐装置 |
CN112328878A (zh) * | 2020-11-05 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 事件推荐方法、装置、设备及存储介质 |
CN112328878B (zh) * | 2020-11-05 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 事件推荐方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109271639B (zh) | 2021-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271639A (zh) | 热门事件发现方法及装置 | |
Liang et al. | Dynamic clustering of streaming short documents | |
Barushka et al. | Review spam detection using word embeddings and deep neural networks | |
Zhang et al. | TempoRec: Temporal-topic based recommender for social network services | |
Taddy | Measuring political sentiment on Twitter: Factor optimal design for multinomial inverse regression | |
US11061974B2 (en) | Facilitating discovery of information items using dynamic knowledge graph | |
JP2012160201A (ja) | レビュー処理方法およびシステム | |
JP7358003B2 (ja) | 複数のクエリ解釈に基づくファセットベースのクエリ絞り込み | |
US10402414B2 (en) | Scalable system and method for weighted similarity estimation in massive datasets revealed in a streaming fashion | |
Rafea et al. | Topic extraction in social media | |
CN109885834A (zh) | 一种用户年龄性别的预测方法及装置 | |
Brigadir et al. | Adaptive representations for tracking breaking news on twitter | |
Iwata et al. | Sequential modeling of topic dynamics with multiple timescales | |
KR20180078022A (ko) | 패션 분야의 트렌드 분석방법 및 이를 포함하는 저장매체 | |
CN109344232A (zh) | 一种舆情信息检索方法及终端设备 | |
Jiang et al. | A topic model based on Poisson decomposition | |
Joung et al. | Importance-performance analysis of product attributes using explainable deep neural network from online reviews | |
JP2005267095A (ja) | 情報表示方法及び装置及び情報表示プログラム | |
Giamblanco et al. | Keyword and keyphrase extraction using newton's law of universal gravitation | |
CN114445043B (zh) | 基于开放生态化云erp异质图用户需求精准发现方法及系统 | |
Chen et al. | Content-based top-n recommendation using heterogeneous relations | |
Magesh et al. | Analyzing customer sentiments using machine learning techniques | |
KR101856115B1 (ko) | 디지털 정보 제공 시스템 및 방법 | |
Martinčić-Ipšić et al. | Text type differentiation based on the structural properties of language networks | |
Fang et al. | Next-app prediction by fusing semantic information with sequential behavior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |