CN107967299A

CN107967299A - 一种面向农业舆情的热词自动提取方法及系统

Info

Publication number: CN107967299A
Application number: CN201711071454.8A
Authority: CN
Inventors: 段青玲; 张璐; 刘怡然; 刘春红; 王凯
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2018-04-27
Anticipated expiration: 2037-11-03
Also published as: CN107967299B

Abstract

本发明提供面向农业舆情的热词自动提取方法及系统，其中所述方法包括：步骤1，利用多标记分类算法对实验文本语料进行分类，按分类类别构建各语料库；步骤2，基于各语料库提取目标文本中的各至少两个候选热词；步骤3，利用基础词频的方法计算所述各候选热词的热度，热度最高的N个所述候选热词中的至少一个即为热词，N≥1。本发明具有能够较好地针对每个类别自动提取出热词，利于从事不同农业行业类别的用户群快速获取本行业的热点信息的有益效果。

Description

一种面向农业舆情的热词自动提取方法及系统

技术领域

本发明涉及农业网站信息处理技术领域，更具体地，涉及一种面向农业舆情的热词自动提取方法及系统。

背景技术

随着互联网的蓬勃发展，农业网站信息呈现爆发式增长。互联网已经成为政府了解民情的直接渠道，也是新形势下管理部门的重要舆论阵地。只有及时发现互联网的热点信息，快速识别、处理有较大影响的重要事件，并进行定向跟踪，才可能更快更全面地掌握舆情动向，从而进行舆论的正面引导和宣传。我国从事农业行业的主体繁多，包括各级农业管理部门、涉农企业以及从事农林牧副渔等行业的农民。不同的主体对农业信息的关注点差异很大。所以，针对每个农业类别分别提取热词，有助于各行业了解国家相关政策信息、行业前沿信息，抓住行业新机遇，增强行业发展新动力。

热词是指由网民创造或发掘的、在网络上迅速传播并盛行的词汇或句子，反映了网民对某一公共事件和某种社会现象的看法、态度和评价。目前在热词提取方法方面主要针对整个互联网信息开展研究，也有针对教育、体育、社会等特有领域进行研究的，但是农业领域的研究较少。

在对农业网站信息进行热词自动提取的过程中，如何提高热词候选词挑选的合理性和全面性、如何提高热词候选词热度计算的正确性，确保高效准确地完成热词自动提取任务，是一个亟待解决的问题。

发明内容

本发明为克服上述问题或者至少部分地解决上述问题，提供面向农业舆情的热词自动提取方法及系统。

根据本发明的一个方面，提供一种面向农业舆情的热词自动提取方法，包括：

步骤1，利用多标记分类算法对实验文本语料进行分类，按分类类别构建各语料库；

步骤2，基于各语料库提取目标文本中的各至少两个候选热词；

步骤3，利用基础词频的方法计算所述各候选热词的热度，热度最高的N个所述候选热词中的至少一个即为热词，N≥1。

根据本发明的另一方面，提供一种面向农业舆情的热词自动提取系统，包括：

获取模块，用于利用多标记分类算法对实验文本语料进行分类，按分类类别构建各语料库；

提取模块，用于分别提取各语料库中存在的各至少两个候选热词；

计算模块，利用基础词频的方法计算所述各候选热词的热度，热度最高的N个所述候选热词中的至少一个即为热词，N≥1。

根据本发明另一方面，提供一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上述任一所述的方法。

根据本发明另一方面，提供一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上述任一所述的方法。

本申请提出面向农业舆情的热词自动提取方法及系统，所述方法能够较好地针对每个类别自动提取出热词，利于从事不同农业行业类别的用户群快速获取本行业的热点信息。

附图说明

图1为根据本发明实施例一种面向农业舆情的热词自动提取方法的整体流程示意图；

图2为根据本发明实施例又一种面向农业舆情的热词自动提取系统的整体框架示意图；

图3为根据本发明实施例一种电子设备的结构框架示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明涉及一种面向农业舆情的热词自动提取方法。随着互联网的蓬勃发展，农业网站信息呈现爆发式增长，从海量信息中快速抽取热点词语是非常重要的。本发明提出一种面向农业舆情的热词自动提取方法。

如图1，示出本发明的一个具体实施例中，一种面向农业舆情的热词自动提取方法的整体流程图。总体上，包括：

在上述实施例中，本发明提供一种面向农业舆情的热词自动提取方法，该方法针对每个农业类别分别提取热词，有助于挖掘出不同管理部门和行业用户群所关注的信息热点，利于实现针对性管理和个性化服务。

本实施例所述方法包括以下三个部分：文本多标记分类，根据农业行业类别，采用多标记分类算法对实验文本语料进行分类。候选词提取和词频统计：提取热词候选词，并进行候选词词频统计。候选词热度计算：候选词热度表示指定时间段内，该词在互联网中的受关注程度；采用基于基础词频的方法计算提取的候选词的热度值；根据热度值对每个类别中的候选词排序，将热度值排在前列的候选词作为该类别的热词。

上述实施例面向农业舆情的热词自动提取方法中，所述的文本多标记分类算法，首先对文本语料进行预处理，构建农业分类关键词库；其次结合农业分类关键词库进行特征选择；再采用综合权重计算方法进行特征项权重计算；然后通过同对一样本进行特征项权重融合，构建文本特征向量；最后采用多标记分类方法对文本语料进行分类，得到每一个文本所属的类别。

上述实施例面向农业舆情的热词自动提取方法中，所述的候选词提取和词频统计方法，首先通过计算词语的左信息熵和右信息熵，判断该词左右信息熵的范围，根据判断结果选择相应的方法判断该词是否属于热词候选词，然后将候选词集加入到分词词典中，对文本语料进行分词，最后按类别分别进行单日候选词词频统计。

上述实施例面向农业舆情的热词自动提取方法中，所述的候选词热度计算方法，首先计算候选词的基础权值；其次通过考虑基础权值的整体波动性、长期变化和短期变化，计算出候选词的波动权值；然后通过基础权值和波动权值计算出候选词的热度权值；最后对计算出的热度权值进行排序，得到各类别在指定时间段内的热词。

在本发明任一上述具体实施例的基础上，一种面向农业舆情的热词自动提取方法，所述步骤1进一步包括：

S11，构建农业分类关键词库，基于农业分类关键词库进行特征选择；

S13，利用考虑特征词的类别区分度进行所述各特征项的权重计算，对农业分类关键词库中不同类别中的同一样本进行特征项权重融合，构建文本特征向量；

S13，利用多标记分类方法对文本语料进行分类，得到每一个文本所属的类别，获得各语料库。

上述实施例面向农业舆情的热词自动提取方法中，1、首先采用中科院分词软件ICTCLAS对实验语料进行分词，同时标注出词性；根据停用词表去除停用词。通过以上三个步骤完成对实验语料的预处理。2、根据《国民经济行业分类与代码》初步构建农业分类关键词库，借助外部知识库，如维基百科、百度百科等对关键词库进行人工调整，完成农业分类关键词库的构建。3、其次，采用基于关键词库扩充的方法进行特征选择。4、然后，通过考虑特征词的类别区分度进行特征项权重计算，再对不同类别中的同一样本进行特征项权重融合，构建文本特征向量。5、最后，采用Random k-labelsets(RAKEL)多标记分类方法实现农业文本分类。根据多标记分类的结果，按分类类别构建各语料库。

在本发明任一上述具体实施例的基础上，一种面向农业舆情的热词自动提取方法，所述步骤2进一步包括：

S21，获取目标文本中，所述各语料库中存在的各分词的左信息熵H(lw)和右信息熵H(rw)；

S22，若所述H(lw)和H(rw)同时满足预设数值范围，则基于H(lw)和H(rw)获得相应分词的丰富程度R；

S23，选取R值最大的N个分词作为候选热词，所述N≥2。

上述实施例面向农业舆情的热词自动提取方法中，采用本文提出的方法提取热词候选词，所述热词候选词包括新词、实体词和非实体词。热词候选词一般能够充分表达文本信息内容，具有代表性。基于此思想，首先计算词语w的信息熵H(w)：

H(w)＝-∑p(x)logp(x)

其中,p(x)表示字符x在所有字符中出现的概率。

设L＝{(l₁,c_l1),(l₂,c_l2),…,(l_n,c_ln)}为词语w的左邻集合，R＝{(r₁,c_r1),(r₂,c_r2),…,(r_m,c_rm)}为词语w的右邻集合，其中l_i和r_j分别为词语w的左右邻字符，c_li和c_rj分别为左右邻字符出现的次数，则词语w的左信息熵H(lw)和右信息熵H(rw)分别定义如下：

词语的信息熵表示该词搭配的丰富程度。如果一个词的搭配越丰富，则越具有代表性，成为热词的可能性也越大。一般来说，词语的左右信息熵越大，该词越能表达文本信息内容。但也存在一种特殊情况：一个词左信息熵很大，右信息熵很小，而它左侧词左信息熵很小，右信息熵很大，则将这两个词合并成一个新词，如：“玉米价格”。

针对以上原理，本实施例提出热词候选词的提取方法：首先通过预先设定的阈值r₁和r₂，判断左右信息熵的范围，如果r₁<H(lw)<r₂,且r₁<H(rw)<r₂,则采用如下公式计算该词搭配的丰富程度R：

R＝H(lw)*H(rw)；

根据计算出的R值对词语进行由大到小排序，挑选排在前m的词语作为该类别的热词候选词。

在本发明任一上述具体实施例的基础上，一种面向农业舆情的热词自动提取方法，所述步骤3进一步包括：

S31，获取所述各候选热词的基础词频权值和历史波动权值；

S32，基于所述基础词频权值和历史波动权值计算各候选热词的热度权值；

S33，热度最高的N个所述候选热词中的至少一个即为热词，N≥1。

采用基于基础词频的方法进行候选词热度计算。提取出的候选词有很多，但是并不是每一个词都能成为热词。一般地，热词具有单日词频高、历史波动大的特点。根据此特点，从基础词频和历史波动两方面计算候选词热度，记为基础权值和波动权值。

基础词频是指候选词的日统计词频。为了避免单日文本数不同对基础权值的影响，故进行平滑处理。基础权值B的计算公式如下：

B＝log(1+log(1+log(tf+1)))

其中，tf表示候选词的日统计词频。

历史波动从基础权值的整体波动性、长期变化和短期变化三方面考虑。候选词的历史波动性越大，该词成为热词的可能性越大。基础词频的整体波动性和长期变化相较于短期变化更能体现候选词的历史波动性，所以在进行波动权值计算时，整体波动性和长期变化的权重高于短期变化。为了简化权重系数选取的复杂性，本文对基础词频的整体波动性和长期变化取相同权重。经过上述分析，在保证三者权重之和为1的基础上，最终波动权值计算公式中，基础权值的整体波动性和长期变化的权重为0.4，短期变化的权重为0.2。基础权值的整体波动性V、长期变化L、短期变化S和波动权值F分别表示如下：

F＝V*0.4+L*0.4+S*0.2

其中，n表示实验数据周期，B_i表示基础词频。

候选词的热度权值包括基础权值和波动权值两部分，分别体现热词的两个特点，所以两者在热度权值的计算中取相同权重。热度权值H表示如下：

H＝B*0.5+F*0.5

对候选词进行热度计算后，按照权值大小进行热度排序，得到各类别在指定时间段内的热词。

在任一上述具体实施例的基础上，一种面向农业舆情的热词自动提取方法，所述步骤S22进一步包括：

预先设定阈值r₁和r₂，r₁＜r₂，如果r₁<H(lw)<r₂,且r₁<H(rw)<r₂,则采用如下公式计算该词搭配的丰富程度R：

R＝H(lw)*H(rw)。

在本发明任一上述具体实施例的基础上，一种面向农业舆情的热词自动提取方法，所述步骤S22进一步包括：

预先设定阈值r₁和r₂，r₁＜r_2；针对相邻的两个词语w和w₁,如果H(lw)>r₂，H(rw)<r₁，且H(lw₁)<r₁,H(rw₁)>r₂,则将词语w和w₁合并成一个新词；将所述新词加入到该类别的热词候选词集中。

在本发明该具体实施例中，针对相邻的两个词语w和w₁，如果H(lw)>r₂,H(rw)<r₁,且H(lw₁)<r₁,H(rw₁)>r₂,则将词语w和w₁合并成一个新词。将此新词加入到该类别的热词候选词集中。一般地，某类别热词候选词的个数为该类别当日文本数之和。

针对“玉米价格”这样的组合新词候选词，在分词时会将其分为“玉米”和“价格”两个词，从而在对“玉米价格”进行词频统计时，该词词频为0。为了避免出现这种情况，本文在分词时将候选词集加入到分词词典中，则不会出现组合候选词被分割的情况。在此分词基础上按类别分别进行单日候选词词频统计。

在本发明任一上述具体实施例的基础上，一种面向农业舆情的热词自动提取方法，具体包括以下三部分，文本多标记分类、候选词提取和词频统计以及候选词热度计算。

第一步采用多标记分类方法对文本语料进行分类。1、首先采用中科院分词软件ICTCLAS对实验语料进行分词，同时标注出词性；根据停用词表去除停用词。通过以上三个步骤完成对实验语料的预处理。2、根据《国民经济行业分类与代码》初步构建农业分类关键词库，借助外部知识库，如维基百科、百度百科等对关键词库进行人工调整，完成农业分类关键词库的构建。3、其次，采用基于关键词库扩充的方法进行特征选择。4、然后，通过考虑特征词的类别区分度进行特征项权重计算，再对不同类别中的同一样本进行特征项权重融合，构建文本特征向量。5、最后，采用Random k-labelsets(RAKEL)多标记分类方法实现农业文本分类。根据多标记分类的结果，按分类类别构建各语料库。

第二步采用本文提出的方法提取热词候选词，包括新词、实体词和非实体词。热词候选词一般能够充分表达文本信息内容，具有代表性。基于此思想，首先计算词语w的信息熵H(w)：

H(w)＝-∑p(x)logp(x)

其中,p(x)表示字符x在所有字符中出现的概率。

设L＝{(l₁,c_l1),(l₂,c_l2),…,(l_n,c_ln)}为词语w的左邻集合，R＝{(r₁,c_r1),(r₂,c_r2),…,(r_m,c_rm)}为词语w的右邻集合，其中li和rj分别为词语w的左右邻字符，c_li和c_rj分别为左右邻字符出现的次数，则词语w的左信息熵H(lw)和右信息熵H(rw)分别定义如下：

针对以上思想，提出本文热词候选词的提取方法：首先通过预先设定的阈值r₁和r₂，判断左右信息熵的范围，如果r₁<H(lw)<r₂,且r₁<H(rw)<r₂,则采用如下公式计算该词搭配的丰富程度R：

R＝H(lw)*H(rw)

针对相邻的两个词语w和w₁,如果H(lw)>r₂,H(rw)<r₁,且H(lw₁)<r₁,H(rw₁)>r₂,则将词语w和w₁合并成一个新词。将此新词加入到该类别的热词候选词集中。一般地，某类别热词候选词的个数为该类别当日文本数之和。

第三步采用基于基础词频的方法进行候选词热度计算。提取出的候选词有很多，但是并不是每一个词都能成为热词。一般地，热词具有单日词频高、历史波动大的特点。根据此特点，从基础词频和历史波动两方面计算候选词热度，记为基础权值和波动权值。

B＝log(1+log(1+log(tf+1)))

其中，tf表示候选词的日统计词频。

F＝V*0.4+L*0.4+S*0.2

其中，n表示实验数据周期，Bi表示基础词频。

H＝B*0.5+F*0.5

如图2，示出本发明的一个具体实施例中，一种面向农业舆情的热词自动提取系统，包括：

获取模块A1，用于利用多标记分类算法对实验文本语料进行分类，按分类类别构建各语料库；

提取模块A2，用于分别提取各语料库中存在的各至少两个候选热词；

计算模块A3，利用基础词频的方法计算所述各候选热词进行的热度，热度最高的N个所述候选热词中的至少一个即为热词，N≥1。

图3示出本申请实施例的一种电子设备的结构框图。

参照图3，所述电子设备，包括：处理器(processor)301、存储器(memory)302和总线303；

其中，

所述处理器301和存储器302通过所述总线303完成相互间的通信；

所述处理器301用于调用所述存储器302中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：步骤1，利用多标记分类算法对实验文本语料进行分类，按分类类别构建各语料库；步骤2，基于各语料库提取目标文本中的各至少两个候选热词；步骤3，利用基础词频的方法计算所述各候选热词的热度，热度最高的N个所述候选热词中的至少一个即为热词，N≥1。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：步骤1，利用多标记分类算法对实验文本语料进行分类，按分类类别构建各语料库；步骤2，基于各语料库提取目标文本中的各至少两个候选热词；步骤3，利用基础词频的方法计算所述各候选热词的热度，热度最高的N个所述候选热词中的至少一个即为热词，N≥1。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：步骤1，利用多标记分类算法对实验文本语料进行分类，按分类类别构建各语料库；步骤2，基于各语料库提取目标文本中的各至少两个候选热词；步骤3，利用基础词频的方法计算所述各候选热词的热度，热度最高的N个所述候选热词中的至少一个即为热词，N≥1。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的面向农业舆情的热词自动提取方法的设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

本发明上述实施例通过定义了各变量巧妙的完成了所有数据的平均值的算法设计，相比于传统方案中缓存所有数据并遍历所有数据来求出平均值的方案中明显降低了内存开销(因为没有缓存所有的数据点)，同时能够快速的获取到最大最小值，因为仅仅需要比较一次数据即可获得，传统方案中需要遍历所有数据进行多次比较来获取。本方案中求得平均值无需对所有数据进行遍历操作就可以获取到，相比传统方案中的遍历极大的提高了求出平均值的速度。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.面向农业舆情的热词自动提取方法，其特征在于，包括：

步骤3，利用基础词频的方法计算所述各候选热词热度，热度最高的N个所述候选热词中的至少一个即为热词，N≥1。

2.如权利要求1所述的方法，其特征在于，所述步骤1进一步包括：

3.如权利要求1所述的方法，其特征在于，所述步骤2进一步包括：

S23，选取R值最大的N个分词作为候选热词，所述N≥2。

4.如权利要求1所述的方法，其特征在于，所述步骤3进一步包括：

S31，获取所述各候选热词的基础词频权值和历史波动权值；

S33，得到热度权重值最高的N个所述候选热词中的至少一个即为热词，N≥1。

5.如权利要求3所述的方法，其特征在于，所述步骤S22进一步包括：

R＝H(lw)*H(rw)。

6.如权利要求3所述的方法，其特征在于，所述步骤S22进一步包括：

预先设定阈值r₁和r₂，r₁＜r₂；针对相邻的两个词语w和w₁,如果H(lw)>r₂，H(rw)<r₁，且H(lw₁)<r₁,H(rw₁)>r₂,则将词语w和w₁合并成一个新词；将所述新词加入到该类别的热词候选词集中。

7.一种面向农业舆情的热词自动提取系统，其特征在于，包括：

计算模块，利用基础词频的方法计算所述各候选热词热度，热度最高的N个所述候选热词中的至少一个即为热词，N≥1。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。