CN106919627A - 热词的处理方法和装置 - Google Patents

热词的处理方法和装置 Download PDF

Info

Publication number
CN106919627A
CN106919627A CN201511001435.9A CN201511001435A CN106919627A CN 106919627 A CN106919627 A CN 106919627A CN 201511001435 A CN201511001435 A CN 201511001435A CN 106919627 A CN106919627 A CN 106919627A
Authority
CN
China
Prior art keywords
participle
target
entropy
cluster result
result collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511001435.9A
Other languages
English (en)
Inventor
李新国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201511001435.9A priority Critical patent/CN106919627A/zh
Publication of CN106919627A publication Critical patent/CN106919627A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种热词的处理方法和装置。其中,该方法包括:对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词;将多个分词进行聚类,得到多个聚类结果集;计算多个分词中的每个分词在聚类集合中的熵值,其中,熵值用于表征分词的特征程度,聚类集合为多个聚类结果集的集合;从多个分词中筛选出熵值大于预设阈值的分词,得到目标分词;从统计出的与目标标签相关联的热词中删除目标分词。本申请解决了现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题。

Description

热词的处理方法和装置
技术领域
本申请涉及计算机领域,具体而言,涉及一种热词的处理方法和装置。
背景技术
在对一些话题进行分析时,通常都会需要统计话题中的热词,热词是指在与话题相关的文本中出现次数达到一定百分比的N个词。而在统计热词的过程中经常会遇到相同领域下,不同话题间的热词相似度很大的情况,以及一些该领域常见的热词会在该领域下的几乎所有话题中都会出现的情况。例如分析法律案件的话题时,无论话题是离婚案件还是交通事故案件或者民事纠纷案件,都会出现诸如“原告”、“被告”等词,此类词在所有法律案件的话题中都会出现,因此上述热词的特征程度较低,为非特征词。所以对于表述某个法律案件的话题的特征没有帮助,需要去除掉。现有技术中,通过人工统计的方式将所有话题中都出现的热词删除掉,上述人工统计的方式有如下缺点:第一,人工统计容易发生遗漏;第二,人工统计的准确度不高;第三,人工统计耗时较长。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种热词的处理方法和装置,以至少解决现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题。
根据本申请实施例的一个方面,提供了一种热词的处理方法,包括:对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词;将所述多个分词进行聚类,得到多个聚类结果集;计算所述多个分词中的每个分词在聚类集合中的熵值,其中,所述熵值用于表征所述分词的特征程度,所述聚类集合为所述多个聚类结果集的集合;从所述多个分词中筛选出熵值大于预设阈值的分词,得到目标分词;以及从统计出的与所述目标标签相关联的热词中删除所述目标分词。
进一步地,计算所述多个分词中的每个分词在聚类集合中的熵值包括:计算分词Ai在目标聚类结果集Bij中出现的概率Pij,其中,i依次取1至n,n为所述多个分词的数量,j依次取1至m(i),m(i)为所述分词Ai对应的目标聚类结果集的数量之和,所述目标聚类结果集Bij为所述多个聚类结果集中包含所述分词Ai的聚类结果集;根据概率Pi1至概率Pim(i)计算所述分词Ai在所述聚类集合中的熵值。
进一步地,根据概率Pi1至概率Pim(i)计算所述分词Ai在所述聚类集合中的熵值包括:根据公式计算所述分词Ai在所述聚类集合中的熵值,其中,HAi为所述分词Ai在所述聚类集合中的熵值。
进一步地,计算分词Ai在目标聚类结果集Bij中出现的概率Pij包括:统计所述分词Ai在所述目标聚类结果集Bij中出现的次数Cij;获取所述目标聚类结果集Bij中包含的分词的总出现次数Cij';根据所述次数Cij和所述总出现次数Cij'计算所述分词Ai在所述目标聚类结果集Bij中出现的概率Pij。
进一步地,在对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词之前,所述方法还包括:将从所述目标标签的文本中爬取到的文本内容作为所述目标语料。
进一步地,在从所述多个分词中筛选出熵值大于所述预设阈值的分词,得到目标分词之后,所述方法还包括:根据所述目标分词生成热词黑名单。
根据本申请实施例的另一方面,还提供了一种热词的处理装置,包括:分词单元,用于对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词;聚类单元,用于将所述多个分词进行聚类,得到多个聚类结果集;计算单元,用于计算所述多个分词中的每个分词在聚类集合中的熵值,其中,所述熵值用于表征所述分词的特征程度,所述聚类集合为所述多个聚类结果集的集合;筛选单元,用于从所述多个分词中筛选出熵值大于预设阈值的分词,得到目标分词;以及删除单元,用于从统计出的与所述目标标签相关联的热词中删除所述目标分词。
进一步地,所述计算单元包括:第一计算模块,用于计算分词Ai在目标聚类结果集Bij中出现的概率Pij,其中,i依次取1至n,n为所述多个分词的数量,j依次取1至m(i),m(i)为所述分词Ai对应的目标聚类结果集的数量之和,所述目标聚类结果集Bij为所述多个聚类结果集中包含所述分词Ai的聚类结果集;第二计算模块,用于根据概率Pi1至概率Pim(i)计算所述分词Ai在所述聚类集合中的熵值。
进一步地,所述第二计算模块包括:第一计算子模块,用于根据公式计算所述分词Ai在所述聚类集合中的熵值,其中,HAi为所述分词Ai在所述聚类集合中的熵值。
进一步地,所述第一计算模块包括:第一统计子模块,用于统计所述分词Ai在所述目标聚类结果集Bij中出现的次数Cij;第二统计子模块,用于统计所述目标聚类结果集Bij中包含的分词的总出现次数Cij';第二计算子模块,用于根据所述次数Cij和所述总出现次数Cij'计算所述分词Ai在所述目标聚类结果集Bij中出现的概率Pij。
进一步地,所述装置还包括:确定单元,用于在对从目标领域中获取到的语料进行分词处理,得到多个分词之前,将从所述目标标签的文本中爬取到的文本内容作为所述目标语料。
进一步地,所述装置还包括:生成单元,用于在从所述多个分词中筛选出熵值大于所述预设阈值的分词,得到目标分词之后,根据所述目标分词生成热词黑名单。
在本申请实施例中,采用对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词;将所述多个分词进行聚类,得到多个聚类结果集;计算所述多个分词中的每个分词在聚类集合中的熵值,其中,所述熵值用于表征所述分词的特征程度,所述聚类集合为所述多个聚类结果集的集合;从所述多个分词中筛选出熵值大于预设阈值的分词,得到目标分词;以及从统计出的与所述目标标签相关联的热词中删除所述目标分词的方式,通过首先从目标标签所代表的领域的文本中获取语料,并对该语料进行分词处理,得到多个分词,其次对多个分词进行聚类,得到多个聚类结果集,然后计算每个分词在由多个聚类结果集组成的聚类集合中的熵值,接下来根据熵值的大小确定上述语料中特征程度较低的分词(即,目标分词),最后将上述特征程度较低的分词从目标领域的热词(即,与目标标签相关联的热词)中删除,与现有技术中通过人工统计的方式特征程度较低的热词相比,不仅能够较为准确的确定出特征程度较低的热词,还能够自动将上述特征程度较低的热词删除,进而解决了现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题,达到了提高工作效率的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种热词的处理方法的流程图;以及
图2是根据本申请实施例的一种热词的处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种热词的处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种热词的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词。
具体地,目标标签可以是文学标签,可以是法律标签,还可以是计算机标签等,具体根据用户需求决定。在本申请实施例中,一种目标标签代表一种领域。例如,当目标标签是文学标签时,则目标标签的文本即为文学领域的文本;当目标标签是法律标签时,则目标标签的文本即为法律领域的文本;当目标标签是计算机标签时,则目标标签的文本即为计算机领域的文本。
步骤S104,将多个分词进行聚类,得到多个聚类结果集。
步骤S106,计算多个分词中的每个分词在聚类集合中的熵值,其中,熵值用于表征分词的特征程度,聚类集合为多个聚类结果集的集合。
具体地,熵值越高,表示分词在聚类集合中出现的概率越大,从而该分词的特征程度越低,在语料中也就越普遍。
步骤S108,从多个分词中筛选出熵值大于预设阈值的分词,得到目标分词。
具体地,预设阈值可以根据用户需求设置,以尽可能准确的筛选出特征程度较低的分词,并将筛选出的分词在预设阈值所对应的领域的热词中删除,从而提高该领域中热词分析的准确性。得到的目标分词的数量可以是一个,也可以是多个,具体由用户设定的预设阈值的大小以及分词的熵值共同决定。
步骤S110,从统计出的与目标标签相关联的热词中删除目标分词。
具体地,与目标标签相关联的热词为目标标签所表示的领域中的热词。由于目标分词为特征程度较低的分词,所以需要从目标标签所表示的领域的热词中删除目标分词,以提高对目标领域中热词分析的准确性。
在本申请实施例中,通过首先从目标标签所代表的领域的文本中获取语料,并对该语料进行分词处理,得到多个分词,其次对多个分词进行聚类,得到多个聚类结果集,然后计算每个分词在由多个聚类结果集组成的聚类集合中的熵值,接下来根据熵值的大小确定上述语料中特征程度较低的分词(即,目标分词),最后将上述特征程度较低的分词从目标领域的热词(即,与目标标签相关联的热词)中删除,与现有技术中通过人工统计的方式特征程度较低的热词相比,不仅能够较为准确的确定出特征程度较低的热词,还能够自动将上述特征程度较低的热词删除,进而解决了现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题,达到了提高工作效率的技术效果。并且,本申请实施例所提供的热词的处理方式,无需人工参与,所以还达到了节约成本的效果。
可选地,在本申请实施例中,计算多个分词中的每个分词在聚类集合中的熵值包括步骤S1061和步骤S1063,具体如下:
步骤S1061,计算分词Ai在目标聚类结果集Bij中出现的概率Pij,其中,i依次取1至n,n为多个分词的数量,j依次取1至m(i),m(i)为分词Ai对应的目标聚类结果集的数量之和,目标聚类结果集Bij为多个聚类结果集中包含分词Ai的聚类结果集。
具体地,目标聚类结果集Bij为分词Ai所在的聚类结果集或者多个聚类结果集中包含分词Ai的聚类结果集。
需要说明的是,一个分词可能出现在多个聚类结果集中,也可能只出现在一个聚类结果集中。如果上述分词出现在多个聚类结果集中,则该分词对应的目标聚类结果集就为多个,那么需要计算该分词在每个目标聚类结果集中出现的概率;如果上述分词只出现在一个聚类结果集中,则该分词对应的目标聚类结果集就为一个,那么只需计算该分词在上述一个目标聚类结果集中出现的概率,此时步骤S1061中的m(i)等于1,则j只取1。
通过上述内容可知,对于某个分词而言,其对应的目标聚类结果集的数量与计算出的概率的数量相等。也就是,该分词出现在多少个聚类结果集中,就会有多少个对应的目标聚类结果集,从而就计算出上述分词的多少个概率。
步骤S1063,根据概率Pi1至概率Pim(i)计算分词Ai在聚类集合中的熵值。
需要说明的是,对于只出现在一个聚类结果集中的分词,由于该分词对应的目标聚类结果集只有一个,因此只根据该分词在上述一个目标聚类结果集中出现的概率计算该分词在聚类集合中的熵值。
通过对每个分词执行步骤S1061和步骤S1063,就可以计算出每个分词在聚类集合中的熵值。
可选地,在本申请实施例中,根据概率Pi1至概率Pim(i)计算分词Ai在聚类集合中的熵值包括:根据公式计算分词Ai在聚类集合中的熵值,其中,HAi为分词Ai在聚类集合中的熵值。
在本申请实施例中,通过上述公式能够准确,并且快速的计算出每个分词在聚类集合中的熵值,达到了进一步提高删除特征程度较低的分词的工作效率的技术效果。另外,由于根据上述公式能够准确的计算出每个分词在聚类集合中的熵值,因此为后续筛选出特征程度较低的分词提供了较为准确的数据基础,所以从目标领域的热词中删除了上述特征程度较低的分词后,剩余的大都是有参考价值的热词,还达到了提高目标领域中热词的对比度的效果。
可选地,在本申请实施例中,计算分词Ai在目标聚类结果集Bij中出现的概率Pij包括步骤S1至步骤S5,具体如下:
步骤S1,统计分词Ai在目标聚类结果集Bij中出现的次数Cij。
步骤S3,获取目标聚类结果集Bij中包含的分词的总出现次数Cij'。
具体地,上述总出现次数为目标聚类结果集Bij中的每个分词在目标聚类结果集Bij中的出现次数之和。
步骤S5,根据次数Cij和总出现次数Cij'计算分词Ai在目标聚类结果集Bij中出现的概率Pij。
具体地,可以根据次数Cij与总出现次数Cij'比值,计算出分词Ai在目标聚类结果集Bij中出现的概率Pij。
例如,假设分词A1为“原告”,“原告”在两个聚类结果集中出现,分别是聚类结果集n1和聚类结果集n2,则上述聚类结果集n1即为目标聚类结果集B11,上述聚类结果集n2即为目标聚类结果集B12。其中,“原告”在目标聚类结果集B11中的出现次数C11为200次,而目标聚类结果集B11中包含分词的总出现次数C11'为2000次,则“原告”在目标聚类结果集B11中出现的概率P11=200/2000=10%;“原告”在目标聚类结果集B12中的出现次数C12为300次,而目标聚类结果集B12中包含分词的总出现次数C12'为2500次,则“原告”在目标聚类结果集B12中出现的概率P12=300/2500=12%。
可选地,在本申请实施例中,从多个分词中筛选出熵值大于预设阈值的分词,得到目标分词包括:判断分词Ai的熵值是否大于预设阈值,其中,i依次取1至n,n为多个分词的数量;在判断出分词Ai的熵值大于预设阈值的情况下,确定分词Ai为目标分词。
可选地,在本申请实施例中,在对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词之前,方法还包括:将从目标标签的文本中爬取到的文本内容作为目标语料。
具体地,可以通过爬虫爬取目标标签的文本的内容,从而得到目标语料。
需要说明的是,目标语料由从预设数量的文本中爬取到的文本内容组成。上述预设数量的文本可以根据用户需求设置,例如:一万。
文本可以由用户指定或者提供,这样就能够根据用户需求确定出该文本相关的领域中最新的特征程度较低的分词,实现了能够根据同一领域中的不同文本随时更新该领域中特征程度较低的分词,为后续对上述领域中的热词进行分析提供了准确的数据基础,进而达到了提高用户满意度的效果。
可选地,在本申请实施例中,在从多个分词中筛选出熵值大于预设阈值的分词,得到目标分词之后,方法还包括:根据目标分词生成热词黑名单。
具体地,也就是将目标分词作为目标标签所表示的领域中的热词的黑名单,在后续对上述领域的热词进行统计分析时可以过滤掉黑名单中的分词。
需要说明的是,可以根据用户需求随时更新同一领域下的热词黑名单,只需要根据提供的最新语料重新执行步骤S102至步骤S110即可。
可选地,在本申请上述实施例中,在对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词之后,方法还包括:将多个分词中的每个分词依次与预设分词进行对比;从多个分词中剔除与预设分词相同的分词,也就是将多个分词中与预设分词相同的分词删除。
具体地,预设分词的数量可以是一个,也可以是多个。如果是多个的话,需要将多个分词中的每个分词依次与多个预设分词中的每个预分词进行对比,如果多个分词中的任一分词与任一预设分词相同,则从多个分词中删除上述任一分词。
预设分词为特征程度比较低、没有分析价值的分词。例如,你、我、他们、的等。
在本申请实施例中,通过预先将多个分词中没有分析价值的分词过滤掉,再对剩余的分词进行分词处理,达到了进一步提高工作效率的效果。
根据本申请实施例,还提供了一种热词的处理装置,该热词的处理装置用于执行本申请实施例上述内容所提供的热词的处理方法,以下对本申请实施例所提供的热词的处理装置做具体介绍:
图2是根据本申请实施例的一种热词的处理装置的示意图,如图2所示,该处理装置主要包括分词单元21、聚类单元23、计算单元25、筛选单元27和删除单元29,其中:
分词单元21用于对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词。
具体地,目标标签可以是文学标签,可以是法律标签,还可以是计算机标签等,具体根据用户需求决定。在本申请实施例中,一种目标标签代表一种领域。例如,当目标标签是文学标签时,则目标标签的文本即为文学领域的文本;当目标标签是法律标签时,则目标标签的文本即为法律领域的文本;当目标标签是计算机标签时,则目标标签的文本即为计算机领域的文本。
聚类单元23用于将多个分词进行聚类,得到多个聚类结果集。
计算单元25用于计算多个分词中的每个分词在聚类集合中的熵值,其中,熵值用于表征分词的特征程度,聚类集合为多个聚类结果集的集合。
具体地,熵值越高,表示分词在聚类集合中出现的概率越大,从而该分词的特征程度越低,在语料中也就越普遍。
筛选单元27用于从多个分词中筛选出熵值大于预设阈值的分词,得到目标分词。
具体地,预设阈值可以根据用户需求设置,以尽可能准确的筛选出特征程度较低的分词,并将筛选出的分词在预设阈值所对应的领域的热词中删除,从而提高该领域中热词分析的准确性。得到的目标分词的数量可以是一个,也可以是多个,具有由用户设定的预设阈值的大小以及分词的熵值共同决定。
删除单元29用于从统计出的与目标标签相关联的热词中删除目标分词。
具体地,与目标标签相关联的热词为目标标签所表示的领域中的热词。由于目标分词为特征程度较低的分词,所以需要从目标标签所表示的领域的热词中删除目标分词,以提高对目标领域中热词分析的准确性。
在本申请实施例中,通过首先从目标标签所代表的领域的文本中获取语料,并对该语料进行分词处理,得到多个分词,其次对多个分词进行聚类,得到多个聚类结果集,然后计算每个分词在由多个聚类结果集组成的聚类集合中的熵值,接下来根据熵值的大小确定上述语料中特征程度较低的分词(即,目标分词),最后将上述特征程度较低的分词从目标领域的热词(即,与目标标签相关联的热词)中删除,与现有技术中通过人工统计的方式特征程度较低的热词相比,不仅能够较为准确的确定出特征程度较低的热词,还能够自动将上述特征程度较低的热词删除,进而解决了现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题,达到了提高工作效率的技术效果。并且,本申请实施例所提供的热词的处理方式,无需人工参与,所以还达到了节约成本的效果。
可选地,在本申请实施例中,计算单元包括:第一计算模块和第二计算模块,其中:
第一计算模块用于计算分词Ai在目标聚类结果集Bij中出现的概率Pij,其中,i依次取1至n,n为多个分词的数量,j依次取1至m(i),m(i)为分词Ai对应的目标聚类结果集的数量之和,目标聚类结果集Bij为多个聚类结果集中包含分词Ai的聚类结果集。
具体地,目标聚类结果集Bij为分词Ai所在的聚类结果集或者多个聚类结果集中包含分词Ai的聚类结果集。
需要说明的是,一个分词可能出现在多个聚类结果集中,也可能只出现在一个聚类结果集中。如果上述分词出现在多个聚类结果集中,则该分词对应的目标聚类结果集就为多个,那么需要计算该分词在每个目标聚类结果集中出现的概率;如果上述分词只出现在一个聚类结果集中,则该分词对应的目标聚类结果集就为一个,那么只需计算该分词在上述一个目标聚类结果集中出现的概率,此时第一计算模块中的m(i)等于1,则j只取1。
通过上述内容可知,对于某个分词而言,其对应的目标聚类结果集的数量与计算出的概率的数量相等。也就是,该分词出现在多少个聚类结果集中,就会有多少个对应的目标聚类结果集,从而就计算出上述分词的多少个概率。
第二计算模块用于根据概率Pi1至概率Pim(i)计算分词Ai在聚类集合中的熵值。
需要说明的是,对于只出现在一个聚类结果集中的分词,由于该分词对应的目标聚类结果集只有一个,因此只根据该分词在上述一个目标聚类结果集中出现的概率计算该分词在聚类集合中的熵值。
通过对每个分词调用第一计算子模块和第二计算子模块,就可以计算出每个分词在聚类集合中的熵值。
可选地,在本申请实施例中,第二计算模块包括:第一计算子模块。其中,第一计算子模块用于根据公式计算分词Ai在聚类集合中的熵值,其中,HAi为分词Ai在聚类集合中的熵值。
在本申请实施例中,通过上述公式能够准确,并且快速的计算出每个分词在聚类集合中的熵值,达到了进一步提高删除特征程度较低的分词的工作效率的技术效果。另外,由于根据上述公式能够准确的计算出每个分词在聚类集合中的熵值,因此为后续筛选出特征程度较低的分词提供了较为准确的数据基础,所以从目标领域的热词中删除了上述特征程度较低的分词后,剩余的大都是有参考价值的热词,还达到了提高目标领域中热词的对比度的效果。
可选地,在本申请实施例中,第一计算模块包括:第一统计子模块、第二统计子模块和第二计算子模块,其中:
第一统计子模块用于统计分词Ai在目标聚类结果集Bij中出现的次数Cij。
第二统计子模块用于统计目标聚类结果集Bij中包含的分词的总出现次数Cij'。
具体地,上述总出现次数为目标聚类结果集Bij中的每个分词在目标聚类结果集Bij中的出现次数之和。
第二计算子模块用于根据次数Cij和总出现次数Cij'计算分词Ai在目标聚类结果集Bij中出现的概率Pij。
具体地,可以根据次数Cij与总出现次数Cij'比值,计算出分词Ai在目标聚类结果集Bij中出现的概率Pij。
可选地,在本申请实施例中,装置还包括:确定单元。其中,确定单元用于在对从目标领域中获取到的语料进行分词处理,得到多个分词之前,将从目标标签的文本中爬取到的文本内容作为目标语料。
具体地,可以通过爬虫爬取目标标签的文本的内容,从而得到目标语料。
需要说明的是,目标语料由从预设数量的文本中爬取到的文本内容组成。上述预设数量的文本可以根据用户需求设置,例如:一万。
文本可以由用户指定或者提供,这样就能够根据用户需求确定出该文本相关的领域中最新的特征程度较低的分词,实现了能够根据同一领域中的不同文本随时更新该领域中特征程度较低的分词,为后续对上述领域中的热词进行分析提供了准确的数据基础,进而达到了提高用户满意度的效果。
可选地,在本申请实施例中,装置还包括:生成单元。其中,生成单元用于在从多个分词中筛选出熵值大于预设阈值的分词,得到目标分词之后,根据目标分词生成热词黑名单。
具体地,也就是将目标分词作为目标标签所表示的领域中的热词的黑名单,在后续对上述领域的热词进行统计分析时可以过滤掉黑名单中的分词。
需要说明的是,可以根据用户需求随时更新同一领域下的热词黑名单,只需要根据提供的最新语料重新调用分词单元、聚类单元、计算单元、筛选单元和删除单元即可。
可选地,在本申请上述实施例中,装置还包括:对比单元,用于在对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词之后,将多个分词中的每个分词依次与预设分词进行对比;剔除单元,用于从多个分词中剔除与预设分词相同的分词,也就是将多个分词中与预设分词相同的分词删除。
具体地,预设分词的数量可以是一个,也可以是多个。如果是多个的话,需要将将多个分词中的每个分词依次与多个预设分词中的每个预分词进行对比,如果多个分词中的任一分词与任一预设分词相同,则从多个分词中删除上述任一分词。
预设分词为特征程度比较低、没有分析价值的分词。例如,你、我、他们、的等。
在本申请实施例中,通过预先将多个分词中没有分析价值的分词过滤掉,再对剩余的分词进行分词处理,达到了进一步提高工作效率的效果。
所述热词的处理装置包括处理器和存储器,上述分词单元、聚类单元、计算单元、筛选单元和删除单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来自动筛选以及从热词中删除特征程度较低的词。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词;将所述多个分词进行聚类,得到多个聚类结果集;计算所述多个分词中的每个分词在聚类集合中的熵值,其中,所述熵值用于表征所述分词的特征程度,所述聚类集合为所述多个聚类结果集的集合;从所述多个分词中筛选出熵值大于所述预设阈值的分词,得到目标分词;以及从统计出的与所述目标标签相关联的热词中删除所述目标分词。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种热词的处理方法,其特征在于,包括:
对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词;
将所述多个分词进行聚类,得到多个聚类结果集;
计算所述多个分词中的每个分词在聚类集合中的熵值,其中,所述熵值用于表征所述分词的特征程度,所述聚类集合为所述多个聚类结果集的集合;
从所述多个分词中筛选出熵值大于预设阈值的分词,得到目标分词;以及
从统计出的与所述目标标签相关联的热词中删除所述目标分词。
2.根据权利要求1所述的方法,其特征在于,计算所述多个分词中的每个分词在聚类集合中的熵值包括:
计算分词Ai在目标聚类结果集Bij中出现的概率Pij,其中,i依次取1至n,n为所述多个分词的数量,j依次取1至m(i),m(i)为所述分词Ai对应的目标聚类结果集的数量之和,所述目标聚类结果集Bij为所述多个聚类结果集中包含所述分词Ai的聚类结果集;
根据概率Pi1至概率Pim(i)计算所述分词Ai在所述聚类集合中的熵值。
3.根据权利要求2所述的方法,其特征在于,根据概率Pi1至概率Pim(i)计算所述分词Ai在所述聚类集合中的熵值包括:
根据公式计算所述分词Ai在所述聚类集合中的熵值,其中,HAi为所述分词Ai在所述聚类集合中的熵值。
4.根据权利要求2所述的方法,其特征在于,计算分词Ai在目标聚类结果集Bij中出现的概率Pij包括:
统计所述分词Ai在所述目标聚类结果集Bij中出现的次数Cij;
获取所述目标聚类结果集Bij中包含的分词的总出现次数Cij';
根据所述次数Cij和所述总出现次数Cij'计算所述分词Ai在所述目标聚类结果集Bij中出现的概率Pij。
5.根据权利要求1所述的方法,其特征在于,在对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词之前,所述方法还包括:
将从所述目标标签的文本中爬取到的文本内容作为所述目标语料。
6.根据权利要求1所述的方法,其特征在于,在从所述多个分词中筛选出熵值大于所述预设阈值的分词,得到目标分词之后,所述方法还包括:
根据所述目标分词生成热词黑名单。
7.一种热词的处理装置,其特征在于,包括:
分词单元,用于对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词;
聚类单元,用于将所述多个分词进行聚类,得到多个聚类结果集;
计算单元,用于计算所述多个分词中的每个分词在聚类集合中的熵值,其中,所述熵值用于表征所述分词的特征程度,所述聚类集合为所述多个聚类结果集的集合;
筛选单元,用于从所述多个分词中筛选出熵值大于预设阈值的分词,得到目标分词;以及
删除单元,用于从统计出的与所述目标标签相关联的热词中删除所述目标分词。
8.根据权利要求7所述的装置,其特征在于,所述计算单元包括:
第一计算模块,用于计算分词Ai在目标聚类结果集Bij中出现的概率Pij,其中,i依次取1至n,n为所述多个分词的数量,j依次取1至m(i),m(i)为所述分词Ai对应的目标聚类结果集的数量之和,所述目标聚类结果集Bij为所述多个聚类结果集中包含所述分词Ai的聚类结果集;
第二计算模块,用于根据概率Pi1至概率Pim(i)计算所述分词Ai在所述聚类集合中的熵值。
9.根据权利要求8所述的装置,其特征在于,所述第二计算模块包括:
第一计算子模块,用于根据公式计算所述分词Ai在所述聚类集合中的熵值,其中,HAi为所述分词Ai在所述聚类集合中的熵值。
10.根据权利要求8所述的装置,其特征在于,所述第一计算模块包括:
第一统计子模块,用于统计所述分词Ai在所述目标聚类结果集Bij中出现的次数Cij;
第二统计子模块,用于统计所述目标聚类结果集Bij中包含的分词的总出现次数Cij';
第二计算子模块,用于根据所述次数Cij和所述总出现次数Cij'计算所述分词Ai在所述目标聚类结果集Bij中出现的概率Pij。
CN201511001435.9A 2015-12-28 2015-12-28 热词的处理方法和装置 Pending CN106919627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511001435.9A CN106919627A (zh) 2015-12-28 2015-12-28 热词的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511001435.9A CN106919627A (zh) 2015-12-28 2015-12-28 热词的处理方法和装置

Publications (1)

Publication Number Publication Date
CN106919627A true CN106919627A (zh) 2017-07-04

Family

ID=59456221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511001435.9A Pending CN106919627A (zh) 2015-12-28 2015-12-28 热词的处理方法和装置

Country Status (1)

Country Link
CN (1) CN106919627A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577667A (zh) * 2017-09-14 2018-01-12 北京奇艺世纪科技有限公司 一种实体词处理方法和装置
CN109670170A (zh) * 2018-11-21 2019-04-23 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN111061879A (zh) * 2019-12-13 2020-04-24 云孚科技(北京)有限公司 一种关键词抽取效果评估方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737036A (zh) * 2011-04-07 2012-10-17 腾讯科技(深圳)有限公司 一种获取热点价值词的方法及装置
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
CN103365902A (zh) * 2012-03-31 2013-10-23 北大方正集团有限公司 互联网新闻的评估方法和装置
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN104408102A (zh) * 2014-11-19 2015-03-11 北京国双科技有限公司 用于网络热词与对象的关联度的数据处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737036A (zh) * 2011-04-07 2012-10-17 腾讯科技(深圳)有限公司 一种获取热点价值词的方法及装置
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
CN103365902A (zh) * 2012-03-31 2013-10-23 北大方正集团有限公司 互联网新闻的评估方法和装置
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN104408102A (zh) * 2014-11-19 2015-03-11 北京国双科技有限公司 用于网络热词与对象的关联度的数据处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
成卫青 等: "一种基于改进互信息和信息熵的文本特征选择方法", 《南京邮电大学学报(自然科学版)》 *
李江华 等: "一种适用于复合术语的本体概念学习方法", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577667A (zh) * 2017-09-14 2018-01-12 北京奇艺世纪科技有限公司 一种实体词处理方法和装置
CN107577667B (zh) * 2017-09-14 2020-10-27 北京奇艺世纪科技有限公司 一种实体词处理方法和装置
CN109670170A (zh) * 2018-11-21 2019-04-23 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN109670170B (zh) * 2018-11-21 2023-04-07 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN111061879A (zh) * 2019-12-13 2020-04-24 云孚科技(北京)有限公司 一种关键词抽取效果评估方法

Similar Documents

Publication Publication Date Title
US20150149383A1 (en) Method and device for acquiring product information, and computer storage medium
CN105068989B (zh) 地名地址提取方法及装置
CN106815206A (zh) 法律裁判文书的解析方法及装置
CN106547793A (zh) 获取代理服务器地址的方法和装置
CN106844132A (zh) 集群服务器的故障修复方法和装置
CN106708841B (zh) 网站访问路径的聚合方法和装置
CN107145516A (zh) 一种文本聚类方法及系统
CN106919627A (zh) 热词的处理方法和装置
CN106649334A (zh) 关联词语集合的处理方法及装置
CN105893615A (zh) 基于手机取证数据的机主特征属性挖掘方法及其系统
CN104182539B (zh) 异常信息批量处理的方法及系统
CN107657030A (zh) 收集用户阅读数据的方法、装置、终端设备及存储介质
CN104484391B (zh) 字符串相似度的计算方法和装置
CN106815261A (zh) 裁判文书处理方法和装置
CN106445918A (zh) 一种中文地址处理方法及系统
CN106874322A (zh) 一种数据表关联方法和装置
CN107015993B (zh) 一种用户类型识别方法及装置
CN110083759A (zh) 舆论信息爬取方法、装置、计算机设备及存储介质
CN107220745A (zh) 一种意图行为数据的识别方法、系统及设备
CN106933927A (zh) 数据表的连接方法和装置
CN106874255A (zh) 规则匹配方法及装置
CN106649385B (zh) 基于HBase数据库的数据排序方法和装置
CN106909535A (zh) 相似文本判定方法和装置
CN104767739B (zh) 将未知多协议混合数据帧分离为单协议数据帧的方法
CN105681287A (zh) 基于筛选规则的用户服务分配筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170704