CN113190658B

CN113190658B - 提案热点精准提取的方法、装置、计算机设备和存储介质

Info

Publication number: CN113190658B
Application number: CN202110647234.5A
Authority: CN
Inventors: 刘跃华; 徐艺; 刘坤朋
Original assignee: Hunan Zhengyu Software Technology Development Co ltd
Current assignee: Hunan Zhengyu Software Technology Development Co ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-24
Anticipated expiration: 2041-06-10
Also published as: CN113190658A

Abstract

本申请涉及提案热点精准提取的方法、装置、计算机设备和存储介质。所述方法包括：根据分词库对政府文件进行分词并构建第一重点词库，将政府文件划分为多个最小词并获取其出现的第一概率，根据最小词构建组合词并获取其出现的第二概率，根据第一概率计算组合词的预测概率，第二概率大于预测概率则组合词为新词，根据新词得到更新分词库和第二重点词库，根据更新分词库对提案进行分词得到单词集，根据算法得到各单词的初始权重，根据单词集匹配第二重点词库并设置各单词的附加权重，根据初始权重和附加权重得到各单词的最终权重，根据最终权重的排序结果确定热点词。采用本方法能够快速、准确地提取提案热点。

Description

提案热点精准提取的方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及提案热点提取的方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，传统人工作业逐渐被计算机给替代，在政府会议开展时，会议参与者一般而言会提交大量的提案，为了提高会议的进展，需要对所提交的提案进行热点分析，从而提出热词，以尽快确认本次会议的重点议题。

传统技术中，是根据关键词的词频进行统计后，确定出热词，然而，提取出来的大部分都不是真正能体现提案内容的热词。比如经常会提取到“新华社”、“发改委”这类词，而通过人工分析后，热词实际上是“扶贫攻坚战”“复工复产”“十四五规划”等类重点词汇。因此，传统技术在进行热词提取时，存在提取不精确的问题，难以直接使用。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决现有热词提取不精确问题的提案热点提取的方法、装置、计算机设备和存储介质。

一种提案热点精准提取的方法，所述方法包括：

获取政府文件库；所述政府文件库包括：政府文件；所述政府文件是从各级政府官网服务器中提取得到的；

根据预先设置的分词库，对政府文件库中的政府文件进行分词，根据分词结果，构建第一重点词库；

将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率，根据所述最小词构建组合词以及获取所述组合词出现的第二概率，根据所述第一概率，计算所述组合词的预测概率，当所述组合词的所述第二概率大于所述预测概率，则确定所述组合词为新词；

根据所述新词，对所述分词库进行更新，得到更新分词库，根据所述新词，对所述第一重点词库进行更新，得到第二重点词库；

获取待提取提案，根据所述更新分词库对待提取提案进行分词，得到单词集；

根据TF-IDF算法，得到所述单词集中单词的初始权重；

根据所述单词集匹配所述第二重点词库得到的匹配结果，设置所述单词集中单词的附加权重；

根据所述初始权重和所述附加权重，得到所述单词集中单词的最终权重；

根据所述最终权重的排序结果，确定热点词。

在其中一个实施例中，所述附加权重包括：第一附加权重；当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，所述方法还包括：获取政府文件的位置来源信息，根据所述位置来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各地区的次数；获取热点提取任务的地理信息，根据所述地理信息，确定所述新词的地理属性级别；所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的；根据所述地理属性级别和所述次数，确定新词的第一附加权重。

在其中一个实施例中，所述地理属性级别包括：专属城市、关联城市以及其他城市。

在其中一个实施例中，根据所述地理属性级别和所述次数，确定新词的第一附加权重，包括：

当地理属性级别为专属城市，根据所述地理属性级别和所述次数，确定新词的第一附加权重为：

其中，

表示第一附加权重，n表示所述新词在目标地区的次数，所述目标地区是从所述地理信息中提取得到的；

当地理属性级别为关联城市，根据所述地理属性级别和所述次数，确定新词的第一附加权重为：

其中，

当地理属性级别为其他城市，根据所述地理属性级别和所述次数，确定新词的第一附加权重为：

其中，

表示第一附加权重，n表示所述新词在目标地区的次数，所述目标地区是从所述地理信息中提取得到的。

在其中一个实施例中，所述附加权重包括：第二附加权重；当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，所述方法还包括：获取政府文件的时间来源信息，根据所述时间来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各时间段的次数；获取热点提取任务的时刻信息；根据所述时刻信息和所述次数，确定新词的第二附加权重为：

其中，

表示第二附加权重，n表示所述新词在目标时刻的次数，所述目标时刻是从所述时刻信息中提取得到的。

在其中一个实施例中，根据所述第一概率，计算所述组合词的预测概率包括：所述组合词的预测概率为所述第一概率的乘积。

在其中一个实施例中，当所述匹配结果为所述单词集中单词未出现在所述第二重点词库中时，设置所述单词集中单词的附加权重为零。

一种提案热点精准提取的装置，所述装置包括：

数据获取模块，用于获取政府文件库；所述政府文件库包括：政府文件；所述政府文件是从各级政府官网服务器中提取得到的；

分词模块，用于根据预先设置的分词库，对政府文件库中的政府文件进行分词，根据分词结果，构建第一重点词库；

新词发现模块，用于将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率，根据所述最小词构建组合词以及获取所述组合词出现的第二概率，根据所述第一概率，计算所述组合词的预测概率，当所述组合词的所述第二概率大于所述预测概率，则确定所述组合词为新词；

更新模块，用于根据所述新词，对所述分词库进行更新，得到更新分词库，根据所述新词对所述第一重点词库进行更新，得到第二重点词库；

权重设置模块，用于获取待提取提案，根据所述更新分词库对待提取提案进行分词，得到单词集；根据TF-IDF算法，得到所述单词集中单词的初始权重；根据所述单词集匹配所述第二重点词库得到的匹配结果，设置所述单词集中单词的附加权重；根据所述初始权重和所述附加权重，得到所述单词集中单词的最终权重；

输出模块，用于根据所述最终权重的排序结果，确定热点词。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据所述新词，对所述分词库进行更新，得到更新分词库，根据所述新词对所述第一重点词库进行更新，得到第二重点词库；

根据TF-IDF算法，得到所述单词集中单词的初始权重；

根据所述最终权重的排序结果，确定热点词。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据TF-IDF算法，得到所述单词集中单词的初始权重；

根据所述最终权重的排序结果，确定热点词。

上述提案热点精准提取的方法、装置、计算机设备和存储介质，通过各级政府官网服务器采集政府文件构建政府文件库，对政府文件库中的政府文件进行新词发现，其目的是为了提取出提案中词频可能不高，但是包含特定含义的一类词，这类词可能是潜在的热词，根据新词对预先设置的分词库进行更新，从而保证在对待提取提案进行分词时可以将新词提取出来；同时，对政府文件库中的政府文件进行分词，构建第一重点词库，根据新词对第一重点词库进行更新，得到第二重点词库，对待提取提案进行分词得到单词集，并将单词集匹配第二重点词库，当匹配结果为单词集中单词出现在第二重点词库中时，提高该单词的权重，也即，单词为第二重点词库中的新词时，权重相对较大；上述方法中，一方面通过传统的TF-IDF算法确定了初始权重，另一方面也考虑了新词对整体权重的影响，从而本发明在进行热点提取时，可以提高提案中热点提取的准确率。

附图说明

图1为一个实施例中提案热点精准提取的方法的应用场景图；

图2为一个实施例中提案热点精准提取的方法的流程示意图；

图3为一个实施例中设置附加权重的步骤的流程示意图；

图4为一个实施例中提案热点精准提取的装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的提案热点精准提取的方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信，终端102可以包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以是各类门户网站、工作系统后台对应的服务器等。

在一个实施例中，如图2所示，提供了一种提案热点精准提取的方法，以该方法应用于图1中的终端为例进行说明，包括：

步骤202，获取政府文件库。

政府文件库包括：政府文件，政府文件是从全国各级政府官网服务器中提取得到的，政府文件可以是政府工作报告、会议纪要、各类公告、通报、意见、政策、时事新闻等。

政府文件是全国各级政府履行职能、处理公务的具有特定效力和规范体式的文书，是传达贯彻党和国家的方针政策、公布法律法规等的重要工具，具有如下特点：权威性、政策性、针对性、指导性、地域性和时效性。

步骤204，根据预先设置的分词库，对政府文件库中的政府文件进行分词，根据分词结果，构建第一重点词库。

分词库是为中文分词提供依据的词集，依据该词集可以对任意文件进行中文分词，第一重点词库是通过对政府文件进行分词得到，是一系列与政府工作、国家政策相关的词。

一般的，政府文件库中可能包含大量的政府文件，对政府文件进行分词，指的是对所有的政府文件进行分析，然后将所有分词结果进行融合，筛选具有指导性的有意义的词，得到第一重点词库。

步骤206，将政府文件库中的政府文件划分为多个最小词以及获取最小词出现的第一概率，根据最小词构建组合词以及获取组合词出现的第二概率，根据第一概率，计算组合词的预测概率，当组合词的第二概率大于预测概率，则确定所述组合词为新词。

最小词是政府文件最小粒度的词，最小词出现的第一概率为最小词在政府文件中出现的字数与政府文件总字数之比。

组合词是多个最小词进行组合得到，组合方式可以是首尾拼接的方式，首尾拼接存在多个结果，通过文本内容，可以确定实际的组合词，在实际处理时，选择当前最小词前后的若干个词进行组合，前后词数量可以是1-4个。组合词出现的第二概率为组合词在政府文件中出现的字数与政府文件总字数之比。

预测概率是通过第一概率计算得到的，是假设构建该组合词的多个最小词之间毫不相关时，预测组合词应该在政府文件中出现的概率。

优选的，当各组合词的第二概率均大于预测概率时，新词的确定结果可以通过计算第二概率与预测概率之比得到：当第二概率与预测概率之比大于1且小于等于3时，即认为第二概率和预测概率相差不大，不将该组合词确定为新词；当第二概率与预测概率之比大于3时，即认为第二概率远远大于预测概率，将该组合词确定为新词。

例如，“打赢扶贫攻坚战”，拆成最小粒度的词，分别是“打赢”、“扶贫”、“攻坚”、“战”。其中“打赢”“扶贫”“攻坚”在某个政府文件中出现的概率即第一概率分别是P1(0.03)，P2(0.09)，P3(0.05)，如果“扶贫”与“打赢”、“攻坚”是毫不相关的词，那么“打赢扶贫”与“扶贫攻坚”的预测概率分别是0.0027和0.0045，而“打赢扶贫”与“扶贫攻坚”在某个政府文件中出现的概率即第二概率分别是0.0069和0.047，因此“打赢扶贫”与“扶贫攻坚”的第二概率均大于预测概率，此时，对“打赢扶贫”这个组合词来说，第二概率与预测概率之比为2.6小于3，即第二概率和预测概率相差不大，是新词的可能性比较小，不将“打赢扶贫”确定为新词，对“扶贫攻坚”这个组合词来说，第二概率与预测概率之比为10.4大于3，即第二概率远远大于预测概率，是新词的可能性比较大，将“扶贫攻坚”确定为新词。

步骤208，根据新词，对分词库进行更新，得到更新分词库，根据新词对第一重点词库进行更新，得到第二重点词库。

政府文件往往有很多新出现的词，可能并不在分词库中，更新的过程实际上是将新词加入到分词库和第一重点词库中，从而保证分词库和第一重点词库可以匹配到待提取提案中的新词。

步骤210，获取待提取提案，根据更新分词库对待提取提案进行分词，得到单词集。

步骤212，根据TF-IDF算法，得到单词集中单词的初始权重。

TF-IDF算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

初始权重是单词集中单词在待提取提案中的与词频相关的权重。

步骤214，根据单词集匹配第二重点词库得到的匹配结果，设置单词集中单词的附加权重。

匹配指单词集中单词是否出现在第二重点词库中，如果某单词出现在第二重点词库中，表示该单词与政府工作或国家政策息息相关，很可能是需要提取的热点词，需要提高该单词的权重，即设置一个附加权重，以便排序后将该单词筛选出来；如果某单词没有出现在第二重点词库中，表示该单词与政府工作或国家政策的相关性不强，很可能不是需要提取的热点词，不需要提高该单词的权重，即设置一个不同的附加权重。附加权重的设置可以将需要的词与不需要的词明显区分，从而提高提案热点提取的准确性。

步骤216，根据初始权重和附加权重，得到单词集中单词的最终权重。

初始权重表示了某单词在某待提取提案中的重要程度，而附加权重将该单词与政府文件和国家政策相联系，表示了该单词的热力程度，两者结合，可以很好地表征某单词的重要程度和热力程度，即需要的热点。

在具体实施过程中，可以将初始权重和附加权重的计算结果作为单词集中单词的最终权重。例如，选择初始权重和附件权重之积，也可以选择初始权重和附件权重之和，还可以根据实际需要设置其他的计算方式。

步骤218，根据最终权重的排序结果，确定热点词。

一般的，是将待提取提案中的各单词按照最终权重从大到小进行排序，在确定具体热点词时，是取排序靠前的多个词，例如：选择前3个词作为热点词，也可以选择前5个词作为热点词，具体可以根据实际需求设置，在此不再赘述。

在一个实施例中，附加权重包括：第一附加权重；当匹配结果为单词集中单词出现在第二重点词库中时，方法还包括：获取政府文件的位置来源信息，根据位置来源信息和新词在政府文件中出现的次数，确定每个新词在各地区的次数；获取热点提取任务的地理信息，根据地理信息，确定新词的地理属性级别；地理属性级别是根据新词在各地区的次数从大到小排序结果得到的；根据地理属性级别和次数，确定新词的第一附加权重。

不同省市、级别的政府对工作都有不同的侧重点，因此政府工作中出现的新词，带有一定的地域性，所以建立新词与地区的关联关系可以提高提案热点提取的准确性。

在一个实施例中，附加权重包括：第二附加权重；当所述匹配结果为单词集中单词出现在第二重点词库中时，方法还包括：获取政府文件的时间来源信息，根据时间来源信息和新词在政府文件中出现的次数，确定每个新词在各时间段的次数；获取热点提取任务的时刻信息；根据时刻信息和次数，确定新词的第二附加权重为：

，其中，

表示第二附加权重，n表示新词在目标时刻的次数，目标时刻是从时刻信息中提取得到的。

例如，对于新词“自由贸易试验区”，在2020年9月之前的提案里，出现的次数几乎是0，但在进入9月份极速上升，在10月份达到峰值，后面再逐渐下降，说明这个词在9-10月这段时间的热度最高，过了这段时间热度慢慢降低。因此可以在判断该词的权重时参考时间段的因素。

在一个实施例中，当匹配结果为单词集中单词未出现在第二重点词库中时，设置单词集中单词的附加权重为零。

如果某单词没有出现在第二重点词库中，表示该单词与政府工作或国家政策的相关性不强，很可能不是需要提取的热点词，不需要提高该单词的权重，因此设置该单词的附加权重为零，从而避免像“政府”“国家”这类的词因为初始权重很高而被筛选为提案热点。

在一个具体的实施例中，如图3所示，设置附加权重的步骤包括：

步骤302，根据单词集匹配第二重点词库得到的匹配结果，设置单词集中单词的附加权重。

步骤304，当匹配结果为单词集中单词出现在第二重点词库中时，附加权重包括：第一附加权重。

步骤306，当匹配结果为单词集中单词出现在所述第二重点词库中时，附加权重包括：第二附加权重。

步骤308，当匹配结果为单词集中单词未出现在第二重点词库中时，设置单词集中单词的附加权重为零。

步骤310，根据初始权重和附加权重，得到单词集中单词的最终权重。

本实施例中，附加权重可以是第一附加权重，可以是第二附加权重，也可以是第一附加权重和第二附加权重的叠加，还可以是零。

在一个实施例中，地理属性级别包括：专属城市、关联城市以及其他城市。

地理属性级别是根据新词在各地区的次数从大到小排序结果得到的，排序第一的次数所对应的地区为专属城市，排序第二的次数所对应的地区为关联城市，排序第三以上的次数所对应的地区为其他城市。

在一个实施例中，根据地理属性级别和次数，确定新词的第一附加权重，包括：

当地理属性级别为专属城市，根据地理属性级别和次数，确定新词的第一附加权重为：

，其中，

表示第一附加权重，n表示新词在目标地区的次数，目标地区是从地理信息中提取得到的；

当地理属性级别为关联城市，根据地理属性级别和次数，确定新词的第一附加权重为：

，其中，

表示第一附加权重，n表示新词在目标地区的次数，目标地区是从所述地理信息中提取得到的；

当地理属性级别为其他城市，根据地理属性级别和次数，确定新词的第一附加权重为：

，其中，

表示第一附加权重，n表示新词在目标地区的次数，目标地区是从地理信息中提取得到的。

例如，对于新词“自由贸易试验区”，在长沙市的提案里，出现的次数是326，而在湘潭市的提案里，出现的次数是23，那么这个新词，对于长沙来说，其是重点词的可能性就更高，可以根据地区与地区之间的关系进行权重评分。比如湘潭与长沙同属湖南省，并且是密切相邻的城市，很可能会有一些与“自由贸易试验区”有关的政策或者报道，所以很可能会出现在湘潭市的热点词中，因此对于与长沙密切相关的词，湘潭市与该词的关系也仅次于长沙，大于其他省份的城市，如果其他省份的城市出现的提案中也包含该词，很可能是进行了转载报道，但实际上该词对于其他省份的城市来说并无实际意义，不应该出现在当地的提案热点中。

在一个实施例中，根据第一概率，计算组合词的预测概率包括：组合词的预测概率为第一概率的乘积。

例如，“打赢扶贫攻坚战”，拆成最小词，分别是“打赢”、“扶贫”、“攻坚”、“战”。其中“打赢”“扶贫”“攻坚”的第一概率分别是P1(0.03)，P2(0.09)，P3(0.05)，如果“扶贫”与“打赢”、“攻坚”是毫不相关的词，那么他们的预测概率分别是P1*P2=0.0027和P2*P3=0.0045。

应该理解的是，虽然图2和3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种提案热点精准提取的装置，包括：数据获取模块402、分词模块404、新词发现模块406、更新模块408、权重设置模块410和输出模块412，其中：

数据获取模块402，用于获取政府文件库；所述政府文件库包括：政府文件；所述政府文件是从各级政府官网服务器中提取得到的；

分词模块404，用于根据预先设置的分词库，对政府文件库中的政府文件进行分词，根据分词结果，构建第一重点词库；

新词发现模块406，用于将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率，根据所述最小词构建组合词以及获取所述组合词出现的第二概率，根据所述第一概率，计算所述组合词的预测概率，当所述组合词的所述第二概率大于所述预测概率，则确定所述组合词为新词；

更新模块408，用于根据所述新词，对所述分词库进行更新，得到更新分词库，根据所述新词对所述第一重点词库进行更新，得到第二重点词库；

权重设置模块410，用于获取待提取提案，根据所述更新分词库对待提取提案进行分词，得到单词集；根据TF-IDF算法，得到所述单词集中单词的初始权重；根据所述单词集匹配所述第二重点词库得到的匹配结果，设置所述单词集中单词的附加权重；根据所述初始权重和所述附加权重，得到所述单词集中单词的最终权重；

输出模块412，用于根据所述最终权重的排序结果，确定热点词。

在一个实施例中，权重设置模块410还用于设置第一附加权重，所述附加权重包括：第一附加权重；当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，所述方法还包括：获取政府文件的位置来源信息，根据所述位置来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各地区的次数；获取热点提取任务的地理信息，根据所述地理信息，确定所述新词的地理属性级别；所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的；根据所述地理属性级别和所述次数，确定新词的第一附加权重。

在一个实施例中，权重设置模块410还用于判断地理属性级别，地理属性级别包括：专属城市、关联城市以及其他城市。

在一个实施例中，权重设置模块410还用于根据所述地理属性级别和所述次数，确定新词的第一附加权重，包括：当地理属性级别为专属城市，根据所述地理属性级别和所述次数，确定新词的第一附加权重为：

，其中，

表示第一附加权重，n表示所述新词在目标地区的次数，所述目标地区是从所述地理信息中提取得到的；当地理属性级别为关联城市，根据所述地理属性级别和所述次数，确定新词的第一附加权重为：

，其中，

表示第一附加权重，n表示所述新词在目标地区的次数，所述目标地区是从所述地理信息中提取得到的；当地理属性级别为其他城市，根据所述地理属性级别和所述次数，确定新词的第一附加权重为：

，其中，

在一个实施例中，权重设置模块410还用于设置第二附加权重，所述附加权重包括：第二附加权重；当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，所述方法还包括：获取政府文件的时间来源信息，根据所述时间来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各时间段的次数；获取热点提取任务的时刻信息；根据所述时刻信息和所述次数，确定新词的第二附加权重为：

，其中，

在一个实施例中，新词发现模块406还用于根据所述第一概率，计算所述组合词的预测概率包括：所述组合词的预测概率为所述第一概率的乘积。

在一个实施例中，权重设置模块410还用于当所述匹配结果为所述单词集中单词未出现在所述第二重点词库中时，设置所述单词集中单词的附加权重为零。

关于提案热点精准提取的装置的具体限定可以参见上文中对于提案热点精准提取的方法的限定，在此不再赘述。上述提案热点精准提取的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提案热点精准提取的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据TF-IDF算法，得到所述单词集中单词的初始权重；

根据所述最终权重的排序结果，确定热点词。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述附加权重包括：第一附加权重；当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，所述方法还包括：获取政府文件的位置来源信息，根据所述位置来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各地区的次数；获取热点提取任务的地理信息，根据所述地理信息，确定所述新词的地理属性级别；所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的；根据所述地理属性级别和所述次数，确定新词的第一附加权重。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述地理属性级别包括：专属城市、关联城市以及其他城市。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据所述地理属性级别和所述次数，确定新词的第一附加权重，包括：当地理属性级别为专属城市，根据所述地理属性级别和所述次数，确定新词的第一附加权重为：

，其中，

，其中，

，其中，

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述附加权重包括：第二附加权重；当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，所述方法还包括：获取政府文件的时间来源信息，根据所述时间来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各时间段的次数；获取热点提取任务的时刻信息；根据所述时刻信息和所述次数，确定新词的第二附加权重为：

，其中，

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据所述第一概率，计算所述组合词的预测概率包括：所述组合词的预测概率为所述第一概率的乘积。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当所述匹配结果为所述单词集中单词未出现在所述第二重点词库中时，设置所述单词集中单词的附加权重为零。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据TF-IDF算法，得到所述单词集中单词的初始权重；

根据所述最终权重的排序结果，确定热点词。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：所述附加权重包括：第一附加权重；当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，所述方法还包括：获取政府文件的位置来源信息，根据所述位置来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各地区的次数；获取热点提取任务的地理信息，根据所述地理信息，确定所述新词的地理属性级别；所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的；根据所述地理属性级别和所述次数，确定新词的第一附加权重。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：所述地理属性级别包括：专属城市、关联城市以及其他城市。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据所述地理属性级别和所述次数，确定新词的第一附加权重，包括：当地理属性级别为专属城市，根据所述地理属性级别和所述次数，确定新词的第一附加权重为：

，其中，

，其中，

，其中，

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：所述附加权重包括：第二附加权重；当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，所述方法还包括：获取政府文件的时间来源信息，根据所述时间来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各时间段的次数；获取热点提取任务的时刻信息；根据所述时刻信息和所述次数，确定新词的第二附加权重为：

，其中，

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据所述第一概率，计算所述组合词的预测概率包括：所述组合词的预测概率为所述第一概率的乘积。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当所述匹配结果为所述单词集中单词未出现在所述第二重点词库中时，设置所述单词集中单词的附加权重为零。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种提案热点精准提取的方法，其特征在于，所述方法包括：

将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率，根据所述最小词构建组合词以及获取所述组合词出现的第二概率，根据所述第一概率，计算所述组合词的预测概率，当所述组合词的所述第二概率大于所述预测概率，则确定所述组合词为新词；预测概率是构建所述组合词的多个最小词之间不相关时，预测所述组合词在政府文件中出现的概率；

根据TF-IDF算法，得到所述单词集中单词的初始权重；

根据所述最终权重的排序结果，确定热点词；

所述附加权重包括：第一附加权重；

当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，获取政府文件的位置来源信息，根据所述位置来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各地区的次数；

获取热点提取任务的地理信息，根据所述地理信息，确定所述新词的地理属性级别；所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的；

根据所述地理属性级别和所述次数，确定新词的第一附加权重。

2.根据权利要求1所述的方法，其特征在于，所述地理属性级别包括：专属城市、关联城市以及其他城市。

3.根据权利要求1或2所述的方法，其特征在于，根据所述地理属性级别和所述次数，确定新词的第一附加权重，包括：

其中，

其中，

其中，

4.根据权利要求1所述的方法，其特征在于，所述附加权重包括：第二附加权重；

当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，所述方法还包括：

获取政府文件的时间来源信息，根据所述时间来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各时间段的次数；

获取热点提取任务的时刻信息；

根据所述时刻信息和所述次数，确定新词的第二附加权重为：

其中，

5.根据权利要求1或2所述的方法，其特征在于，根据所述第一概率，计算所述组合词的预测概率包括：

根据组合词中每个最小词的所述第一概率的乘积，计算得到所述组合词的预测概率。

6.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

当所述匹配结果为所述单词集中单词未出现在所述第二重点词库中时，设置所述单词集中单词的附加权重为零。

7.一种提案热点精准提取的装置，其特征在于，所述装置包括：

新词发现模块，用于将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率，根据所述最小词构建组合词以及获取所述组合词出现的第二概率，根据所述第一概率，计算所述组合词的预测概率，当所述组合词的所述第二概率大于所述预测概率，则确定所述组合词为新词；预测概率是构建所述组合词的多个最小词之间不相关时，预测所述组合词在政府文件中出现的概率；

输出模块，用于根据所述最终权重的排序结果，确定热点词；

所述附加权重包括：第一附加权重；

权重设置模块还用于当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时，获取政府文件的位置来源信息，根据所述位置来源信息和所述新词在所述政府文件中出现的次数，确定每个新词在各地区的次数；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。