CN113190658B - 提案热点精准提取的方法、装置、计算机设备和存储介质 - Google Patents

提案热点精准提取的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113190658B
CN113190658B CN202110647234.5A CN202110647234A CN113190658B CN 113190658 B CN113190658 B CN 113190658B CN 202110647234 A CN202110647234 A CN 202110647234A CN 113190658 B CN113190658 B CN 113190658B
Authority
CN
China
Prior art keywords
word
words
new
library
government
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110647234.5A
Other languages
English (en)
Other versions
CN113190658A (zh
Inventor
刘跃华
徐艺
刘坤朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Zhengyu Software Technology Development Co ltd
Original Assignee
Hunan Zhengyu Software Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Zhengyu Software Technology Development Co ltd filed Critical Hunan Zhengyu Software Technology Development Co ltd
Priority to CN202110647234.5A priority Critical patent/CN113190658B/zh
Publication of CN113190658A publication Critical patent/CN113190658A/zh
Application granted granted Critical
Publication of CN113190658B publication Critical patent/CN113190658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及提案热点精准提取的方法、装置、计算机设备和存储介质。所述方法包括:根据分词库对政府文件进行分词并构建第一重点词库,将政府文件划分为多个最小词并获取其出现的第一概率,根据最小词构建组合词并获取其出现的第二概率,根据第一概率计算组合词的预测概率,第二概率大于预测概率则组合词为新词,根据新词得到更新分词库和第二重点词库,根据更新分词库对提案进行分词得到单词集,根据算法得到各单词的初始权重,根据单词集匹配第二重点词库并设置各单词的附加权重,根据初始权重和附加权重得到各单词的最终权重,根据最终权重的排序结果确定热点词。采用本方法能够快速、准确地提取提案热点。

Description

提案热点精准提取的方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及提案热点提取的方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,传统人工作业逐渐被计算机给替代,在政府会议开展时,会议参与者一般而言会提交大量的提案,为了提高会议的进展,需要对所提交的提案进行热点分析,从而提出热词,以尽快确认本次会议的重点议题。
传统技术中,是根据关键词的词频进行统计后,确定出热词,然而,提取出来的大部分都不是真正能体现提案内容的热词。比如经常会提取到“新华社”、“发改委”这类词,而通过人工分析后,热词实际上是“扶贫攻坚战”“复工复产”“十四五规划”等类重点词汇。因此,传统技术在进行热词提取时,存在提取不精确的问题,难以直接使用。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决现有热词提取不精确问题的提案热点提取的方法、装置、计算机设备和存储介质。
一种提案热点精准提取的方法,所述方法包括:
获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;
根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;
将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;
根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词,对所述第一重点词库进行更新,得到第二重点词库;
获取待提取提案,根据所述更新分词库对待提取提案进行分词,得到单词集;
根据TF-IDF算法,得到所述单词集中单词的初始权重;
根据所述单词集匹配所述第二重点词库得到的匹配结果,设置所述单词集中单词的附加权重;
根据所述初始权重和所述附加权重,得到所述单词集中单词的最终权重;
根据所述最终权重的排序结果,确定热点词。
在其中一个实施例中,所述附加权重包括:第一附加权重;当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,所述方法还包括:获取政府文件的位置来源信息,根据所述位置来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各地区的次数;获取热点提取任务的地理信息,根据所述地理信息,确定所述新词的地理属性级别;所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的;根据所述地理属性级别和所述次数,确定新词的第一附加权重。
在其中一个实施例中,所述地理属性级别包括:专属城市、关联城市以及其他城市。
在其中一个实施例中,根据所述地理属性级别和所述次数,确定新词的第一附加权重,包括:
当地理属性级别为专属城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 631217DEST_PATH_IMAGE001
其中,
Figure 686897DEST_PATH_IMAGE003
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;
当地理属性级别为关联城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 503544DEST_PATH_IMAGE004
其中,
Figure 509064DEST_PATH_IMAGE005
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;
当地理属性级别为其他城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 829187DEST_PATH_IMAGE006
其中,
Figure 790190DEST_PATH_IMAGE007
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的。
在其中一个实施例中,所述附加权重包括:第二附加权重;当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,所述方法还包括:获取政府文件的时间来源信息,根据所述时间来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各时间段的次数;获取热点提取任务的时刻信息;根据所述时刻信息和所述次数,确定新词的第二附加权重为:
Figure 562974DEST_PATH_IMAGE009
其中,
Figure 572518DEST_PATH_IMAGE010
表示第二附加权重,n表示所述新词在目标时刻的次数,所述目标时刻是从所述时刻信息中提取得到的。
在其中一个实施例中,根据所述第一概率,计算所述组合词的预测概率包括:所述组合词的预测概率为所述第一概率的乘积。
在其中一个实施例中,当所述匹配结果为所述单词集中单词未出现在所述第二重点词库中时,设置所述单词集中单词的附加权重为零。
一种提案热点精准提取的装置,所述装置包括:
数据获取模块,用于获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;
分词模块,用于根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;
新词发现模块,用于将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;
更新模块,用于根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词对所述第一重点词库进行更新,得到第二重点词库;
权重设置模块,用于获取待提取提案,根据所述更新分词库对待提取提案进行分词,得到单词集;根据TF-IDF算法,得到所述单词集中单词的初始权重;根据所述单词集匹配所述第二重点词库得到的匹配结果,设置所述单词集中单词的附加权重;根据所述初始权重和所述附加权重,得到所述单词集中单词的最终权重;
输出模块,用于根据所述最终权重的排序结果,确定热点词。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;
根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;
将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;
根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词对所述第一重点词库进行更新,得到第二重点词库;
获取待提取提案,根据所述更新分词库对待提取提案进行分词,得到单词集;
根据TF-IDF算法,得到所述单词集中单词的初始权重;
根据所述单词集匹配所述第二重点词库得到的匹配结果,设置所述单词集中单词的附加权重;
根据所述初始权重和所述附加权重,得到所述单词集中单词的最终权重;
根据所述最终权重的排序结果,确定热点词。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;
根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;
将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;
根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词对所述第一重点词库进行更新,得到第二重点词库;
获取待提取提案,根据所述更新分词库对待提取提案进行分词,得到单词集;
根据TF-IDF算法,得到所述单词集中单词的初始权重;
根据所述单词集匹配所述第二重点词库得到的匹配结果,设置所述单词集中单词的附加权重;
根据所述初始权重和所述附加权重,得到所述单词集中单词的最终权重;
根据所述最终权重的排序结果,确定热点词。
上述提案热点精准提取的方法、装置、计算机设备和存储介质,通过各级政府官网服务器采集政府文件构建政府文件库,对政府文件库中的政府文件进行新词发现,其目的是为了提取出提案中词频可能不高,但是包含特定含义的一类词,这类词可能是潜在的热词,根据新词对预先设置的分词库进行更新,从而保证在对待提取提案进行分词时可以将新词提取出来;同时,对政府文件库中的政府文件进行分词,构建第一重点词库,根据新词对第一重点词库进行更新,得到第二重点词库,对待提取提案进行分词得到单词集,并将单词集匹配第二重点词库,当匹配结果为单词集中单词出现在第二重点词库中时,提高该单词的权重,也即,单词为第二重点词库中的新词时,权重相对较大;上述方法中,一方面通过传统的TF-IDF算法确定了初始权重,另一方面也考虑了新词对整体权重的影响,从而本发明在进行热点提取时,可以提高提案中热点提取的准确率。
附图说明
图1为一个实施例中提案热点精准提取的方法的应用场景图;
图2为一个实施例中提案热点精准提取的方法的流程示意图;
图3为一个实施例中设置附加权重的步骤的流程示意图;
图4为一个实施例中提案热点精准提取的装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的提案热点精准提取的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,终端102可以包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是各类门户网站、工作系统后台对应的服务器等。
在一个实施例中,如图2所示,提供了一种提案热点精准提取的方法,以该方法应用于图1中的终端为例进行说明,包括:
步骤202,获取政府文件库。
政府文件库包括:政府文件,政府文件是从全国各级政府官网服务器中提取得到的,政府文件可以是政府工作报告、会议纪要、各类公告、通报、意见、政策、时事新闻等。
政府文件是全国各级政府履行职能、处理公务的具有特定效力和规范体式的文书,是传达贯彻党和国家的方针政策、公布法律法规等的重要工具,具有如下特点:权威性、政策性、针对性、指导性、地域性和时效性。
步骤204,根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库。
分词库是为中文分词提供依据的词集,依据该词集可以对任意文件进行中文分词,第一重点词库是通过对政府文件进行分词得到,是一系列与政府工作、国家政策相关的词。
一般的,政府文件库中可能包含大量的政府文件,对政府文件进行分词,指的是对所有的政府文件进行分析,然后将所有分词结果进行融合,筛选具有指导性的有意义的词,得到第一重点词库。
步骤206,将政府文件库中的政府文件划分为多个最小词以及获取最小词出现的第一概率,根据最小词构建组合词以及获取组合词出现的第二概率,根据第一概率,计算组合词的预测概率,当组合词的第二概率大于预测概率,则确定所述组合词为新词。
最小词是政府文件最小粒度的词,最小词出现的第一概率为最小词在政府文件中出现的字数与政府文件总字数之比。
组合词是多个最小词进行组合得到,组合方式可以是首尾拼接的方式,首尾拼接存在多个结果,通过文本内容,可以确定实际的组合词,在实际处理时,选择当前最小词前后的若干个词进行组合,前后词数量可以是1-4个。组合词出现的第二概率为组合词在政府文件中出现的字数与政府文件总字数之比。
预测概率是通过第一概率计算得到的,是假设构建该组合词的多个最小词之间毫不相关时,预测组合词应该在政府文件中出现的概率。
优选的,当各组合词的第二概率均大于预测概率时,新词的确定结果可以通过计算第二概率与预测概率之比得到:当第二概率与预测概率之比大于1且小于等于3时,即认为第二概率和预测概率相差不大,不将该组合词确定为新词;当第二概率与预测概率之比大于3时,即认为第二概率远远大于预测概率,将该组合词确定为新词。
例如,“打赢扶贫攻坚战”,拆成最小粒度的词,分别是“打赢”、“扶贫”、“攻坚”、“战”。其中“打赢”“扶贫”“攻坚”在某个政府文件中出现的概率即第一概率分别是P1(0.03),P2(0.09),P3(0.05),如果“扶贫”与“打赢”、“攻坚”是毫不相关的词,那么“打赢扶贫”与“扶贫攻坚”的预测概率分别是0.0027和0.0045,而“打赢扶贫”与“扶贫攻坚”在某个政府文件中出现的概率即第二概率分别是0.0069和0.047,因此“打赢扶贫”与“扶贫攻坚”的第二概率均大于预测概率,此时,对“打赢扶贫”这个组合词来说,第二概率与预测概率之比为2.6小于3,即第二概率和预测概率相差不大,是新词的可能性比较小,不将“打赢扶贫”确定为新词,对“扶贫攻坚”这个组合词来说,第二概率与预测概率之比为10.4大于3,即第二概率远远大于预测概率,是新词的可能性比较大,将“扶贫攻坚”确定为新词。
步骤208,根据新词,对分词库进行更新,得到更新分词库,根据新词对第一重点词库进行更新,得到第二重点词库。
政府文件往往有很多新出现的词,可能并不在分词库中,更新的过程实际上是将新词加入到分词库和第一重点词库中,从而保证分词库和第一重点词库可以匹配到待提取提案中的新词。
步骤210,获取待提取提案,根据更新分词库对待提取提案进行分词,得到单词集。
步骤212,根据TF-IDF算法,得到单词集中单词的初始权重。
TF-IDF算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
初始权重是单词集中单词在待提取提案中的与词频相关的权重。
步骤214,根据单词集匹配第二重点词库得到的匹配结果,设置单词集中单词的附加权重。
匹配指单词集中单词是否出现在第二重点词库中,如果某单词出现在第二重点词库中,表示该单词与政府工作或国家政策息息相关,很可能是需要提取的热点词,需要提高该单词的权重,即设置一个附加权重,以便排序后将该单词筛选出来;如果某单词没有出现在第二重点词库中,表示该单词与政府工作或国家政策的相关性不强,很可能不是需要提取的热点词,不需要提高该单词的权重,即设置一个不同的附加权重。附加权重的设置可以将需要的词与不需要的词明显区分,从而提高提案热点提取的准确性。
步骤216,根据初始权重和附加权重,得到单词集中单词的最终权重。
初始权重表示了某单词在某待提取提案中的重要程度,而附加权重将该单词与政府文件和国家政策相联系,表示了该单词的热力程度,两者结合,可以很好地表征某单词的重要程度和热力程度,即需要的热点。
在具体实施过程中,可以将初始权重和附加权重的计算结果作为单词集中单词的最终权重。例如,选择初始权重和附件权重之积,也可以选择初始权重和附件权重之和,还可以根据实际需要设置其他的计算方式。
步骤218,根据最终权重的排序结果,确定热点词。
一般的,是将待提取提案中的各单词按照最终权重从大到小进行排序,在确定具体热点词时,是取排序靠前的多个词,例如:选择前3个词作为热点词,也可以选择前5个词作为热点词,具体可以根据实际需求设置,在此不再赘述。
上述提案热点精准提取的方法、装置、计算机设备和存储介质,通过各级政府官网服务器采集政府文件构建政府文件库,对政府文件库中的政府文件进行新词发现,其目的是为了提取出提案中词频可能不高,但是包含特定含义的一类词,这类词可能是潜在的热词,根据新词对预先设置的分词库进行更新,从而保证在对待提取提案进行分词时可以将新词提取出来;同时,对政府文件库中的政府文件进行分词,构建第一重点词库,根据新词对第一重点词库进行更新,得到第二重点词库,对待提取提案进行分词得到单词集,并将单词集匹配第二重点词库,当匹配结果为单词集中单词出现在第二重点词库中时,提高该单词的权重,也即,单词为第二重点词库中的新词时,权重相对较大;上述方法中,一方面通过传统的TF-IDF算法确定了初始权重,另一方面也考虑了新词对整体权重的影响,从而本发明在进行热点提取时,可以提高提案中热点提取的准确率。
在一个实施例中,附加权重包括:第一附加权重;当匹配结果为单词集中单词出现在第二重点词库中时,方法还包括:获取政府文件的位置来源信息,根据位置来源信息和新词在政府文件中出现的次数,确定每个新词在各地区的次数;获取热点提取任务的地理信息,根据地理信息,确定新词的地理属性级别;地理属性级别是根据新词在各地区的次数从大到小排序结果得到的;根据地理属性级别和次数,确定新词的第一附加权重。
不同省市、级别的政府对工作都有不同的侧重点,因此政府工作中出现的新词,带有一定的地域性,所以建立新词与地区的关联关系可以提高提案热点提取的准确性。
在一个实施例中,附加权重包括:第二附加权重;当所述匹配结果为单词集中单词出现在第二重点词库中时,方法还包括:获取政府文件的时间来源信息,根据时间来源信息和新词在政府文件中出现的次数,确定每个新词在各时间段的次数;获取热点提取任务的时刻信息;根据时刻信息和次数,确定新词的第二附加权重为:
Figure 747148DEST_PATH_IMAGE011
,其中,
Figure 613473DEST_PATH_IMAGE013
表示第二附加权重,n表示新词在目标时刻的次数,目标时刻是从时刻信息中提取得到的。
例如,对于新词“自由贸易试验区”,在2020年9月之前的提案里,出现的次数几乎是0,但在进入9月份极速上升,在10月份达到峰值,后面再逐渐下降,说明这个词在9-10月这段时间的热度最高,过了这段时间热度慢慢降低。因此可以在判断该词的权重时参考时间段的因素。
在一个实施例中,当匹配结果为单词集中单词未出现在第二重点词库中时,设置单词集中单词的附加权重为零。
如果某单词没有出现在第二重点词库中,表示该单词与政府工作或国家政策的相关性不强,很可能不是需要提取的热点词,不需要提高该单词的权重,因此设置该单词的附加权重为零,从而避免像“政府”“国家”这类的词因为初始权重很高而被筛选为提案热点。
在一个具体的实施例中,如图3所示,设置附加权重的步骤包括:
步骤302,根据单词集匹配第二重点词库得到的匹配结果,设置单词集中单词的附加权重。
步骤304,当匹配结果为单词集中单词出现在第二重点词库中时,附加权重包括:第一附加权重。
步骤306,当匹配结果为单词集中单词出现在所述第二重点词库中时,附加权重包括:第二附加权重。
步骤308,当匹配结果为单词集中单词未出现在第二重点词库中时,设置单词集中单词的附加权重为零。
步骤310,根据初始权重和附加权重,得到单词集中单词的最终权重。
本实施例中,附加权重可以是第一附加权重,可以是第二附加权重,也可以是第一附加权重和第二附加权重的叠加,还可以是零。
在一个实施例中,地理属性级别包括:专属城市、关联城市以及其他城市。
地理属性级别是根据新词在各地区的次数从大到小排序结果得到的,排序第一的次数所对应的地区为专属城市,排序第二的次数所对应的地区为关联城市,排序第三以上的次数所对应的地区为其他城市。
在一个实施例中,根据地理属性级别和次数,确定新词的第一附加权重,包括:
当地理属性级别为专属城市,根据地理属性级别和次数,确定新词的第一附加权重为:
Figure 873553DEST_PATH_IMAGE014
,其中,
Figure 483526DEST_PATH_IMAGE015
表示第一附加权重,n表示新词在目标地区的次数,目标地区是从地理信息中提取得到的;
当地理属性级别为关联城市,根据地理属性级别和次数,确定新词的第一附加权重为:
Figure 512661DEST_PATH_IMAGE016
,其中,
Figure 815467DEST_PATH_IMAGE017
表示第一附加权重,n表示新词在目标地区的次数,目标地区是从所述地理信息中提取得到的;
当地理属性级别为其他城市,根据地理属性级别和次数,确定新词的第一附加权重为:
Figure 94001DEST_PATH_IMAGE018
,其中,
Figure 507665DEST_PATH_IMAGE020
表示第一附加权重,n表示新词在目标地区的次数,目标地区是从地理信息中提取得到的。
例如,对于新词“自由贸易试验区”,在长沙市的提案里,出现的次数是326,而在湘潭市的提案里,出现的次数是23,那么这个新词,对于长沙来说,其是重点词的可能性就更高,可以根据地区与地区之间的关系进行权重评分。比如湘潭与长沙同属湖南省,并且是密切相邻的城市,很可能会有一些与“自由贸易试验区”有关的政策或者报道,所以很可能会出现在湘潭市的热点词中,因此对于与长沙密切相关的词,湘潭市与该词的关系也仅次于长沙,大于其他省份的城市,如果其他省份的城市出现的提案中也包含该词,很可能是进行了转载报道,但实际上该词对于其他省份的城市来说并无实际意义,不应该出现在当地的提案热点中。
在一个实施例中,根据第一概率,计算组合词的预测概率包括:组合词的预测概率为第一概率的乘积。
例如,“打赢扶贫攻坚战”,拆成最小词,分别是“打赢”、“扶贫”、“攻坚”、“战”。其中“打赢”“扶贫”“攻坚”的第一概率分别是P1(0.03),P2(0.09),P3(0.05),如果“扶贫”与“打赢”、“攻坚”是毫不相关的词,那么他们的预测概率分别是P1*P2=0.0027和P2*P3=0.0045。
应该理解的是,虽然图2和3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种提案热点精准提取的装置,包括:数据获取模块402、分词模块404、新词发现模块406、更新模块408、权重设置模块410和输出模块412,其中:
数据获取模块402,用于获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;
分词模块404,用于根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;
新词发现模块406,用于将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;
更新模块408,用于根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词对所述第一重点词库进行更新,得到第二重点词库;
权重设置模块410,用于获取待提取提案,根据所述更新分词库对待提取提案进行分词,得到单词集;根据TF-IDF算法,得到所述单词集中单词的初始权重;根据所述单词集匹配所述第二重点词库得到的匹配结果,设置所述单词集中单词的附加权重;根据所述初始权重和所述附加权重,得到所述单词集中单词的最终权重;
输出模块412,用于根据所述最终权重的排序结果,确定热点词。
在一个实施例中,权重设置模块410还用于设置第一附加权重,所述附加权重包括:第一附加权重;当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,所述方法还包括:获取政府文件的位置来源信息,根据所述位置来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各地区的次数;获取热点提取任务的地理信息,根据所述地理信息,确定所述新词的地理属性级别;所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的;根据所述地理属性级别和所述次数,确定新词的第一附加权重。
在一个实施例中,权重设置模块410还用于判断地理属性级别,地理属性级别包括:专属城市、关联城市以及其他城市。
在一个实施例中,权重设置模块410还用于根据所述地理属性级别和所述次数,确定新词的第一附加权重,包括:当地理属性级别为专属城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 391308DEST_PATH_IMAGE021
,其中,
Figure 68277DEST_PATH_IMAGE023
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;当地理属性级别为关联城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 37370DEST_PATH_IMAGE024
,其中,
Figure 254724DEST_PATH_IMAGE025
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;当地理属性级别为其他城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 273101DEST_PATH_IMAGE026
,其中,
Figure 917709DEST_PATH_IMAGE028
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的。
在一个实施例中,权重设置模块410还用于设置第二附加权重,所述附加权重包括:第二附加权重;当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,所述方法还包括:获取政府文件的时间来源信息,根据所述时间来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各时间段的次数;获取热点提取任务的时刻信息;根据所述时刻信息和所述次数,确定新词的第二附加权重为:
Figure 577360DEST_PATH_IMAGE029
,其中,
Figure 332827DEST_PATH_IMAGE030
表示第二附加权重,n表示所述新词在目标时刻的次数,所述目标时刻是从所述时刻信息中提取得到的。
在一个实施例中,新词发现模块406还用于根据所述第一概率,计算所述组合词的预测概率包括:所述组合词的预测概率为所述第一概率的乘积。
在一个实施例中,权重设置模块410还用于当所述匹配结果为所述单词集中单词未出现在所述第二重点词库中时,设置所述单词集中单词的附加权重为零。
关于提案热点精准提取的装置的具体限定可以参见上文中对于提案热点精准提取的方法的限定,在此不再赘述。上述提案热点精准提取的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提案热点精准提取的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;
根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;
将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;
根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词,对所述第一重点词库进行更新,得到第二重点词库;
获取待提取提案,根据所述更新分词库对待提取提案进行分词,得到单词集;
根据TF-IDF算法,得到所述单词集中单词的初始权重;
根据所述单词集匹配所述第二重点词库得到的匹配结果,设置所述单词集中单词的附加权重;
根据所述初始权重和所述附加权重,得到所述单词集中单词的最终权重;
根据所述最终权重的排序结果,确定热点词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述附加权重包括:第一附加权重;当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,所述方法还包括:获取政府文件的位置来源信息,根据所述位置来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各地区的次数;获取热点提取任务的地理信息,根据所述地理信息,确定所述新词的地理属性级别;所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的;根据所述地理属性级别和所述次数,确定新词的第一附加权重。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述地理属性级别包括:专属城市、关联城市以及其他城市。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述地理属性级别和所述次数,确定新词的第一附加权重,包括:当地理属性级别为专属城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 191061DEST_PATH_IMAGE031
,其中,
Figure 6570DEST_PATH_IMAGE033
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;当地理属性级别为关联城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 950256DEST_PATH_IMAGE034
,其中,
Figure 712675DEST_PATH_IMAGE036
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;当地理属性级别为其他城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 425416DEST_PATH_IMAGE037
,其中,
Figure 411827DEST_PATH_IMAGE039
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述附加权重包括:第二附加权重;当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,所述方法还包括:获取政府文件的时间来源信息,根据所述时间来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各时间段的次数;获取热点提取任务的时刻信息;根据所述时刻信息和所述次数,确定新词的第二附加权重为:
Figure 842808DEST_PATH_IMAGE041
,其中,
Figure DEST_PATH_IMAGE043
表示第二附加权重,n表示所述新词在目标时刻的次数,所述目标时刻是从所述时刻信息中提取得到的。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述第一概率,计算所述组合词的预测概率包括:所述组合词的预测概率为所述第一概率的乘积。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当所述匹配结果为所述单词集中单词未出现在所述第二重点词库中时,设置所述单词集中单词的附加权重为零。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;
根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;
将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;
根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词,对所述第一重点词库进行更新,得到第二重点词库;
获取待提取提案,根据所述更新分词库对待提取提案进行分词,得到单词集;
根据TF-IDF算法,得到所述单词集中单词的初始权重;
根据所述单词集匹配所述第二重点词库得到的匹配结果,设置所述单词集中单词的附加权重;
根据所述初始权重和所述附加权重,得到所述单词集中单词的最终权重;
根据所述最终权重的排序结果,确定热点词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:所述附加权重包括:第一附加权重;当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,所述方法还包括:获取政府文件的位置来源信息,根据所述位置来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各地区的次数;获取热点提取任务的地理信息,根据所述地理信息,确定所述新词的地理属性级别;所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的;根据所述地理属性级别和所述次数,确定新词的第一附加权重。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:所述地理属性级别包括:专属城市、关联城市以及其他城市。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述地理属性级别和所述次数,确定新词的第一附加权重,包括:当地理属性级别为专属城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 674498DEST_PATH_IMAGE044
,其中,
Figure 772904DEST_PATH_IMAGE046
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;当地理属性级别为关联城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 664637DEST_PATH_IMAGE048
,其中,
Figure DEST_PATH_IMAGE049
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;当地理属性级别为其他城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 114073DEST_PATH_IMAGE050
,其中,
Figure 218295DEST_PATH_IMAGE052
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:所述附加权重包括:第二附加权重;当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,所述方法还包括:获取政府文件的时间来源信息,根据所述时间来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各时间段的次数;获取热点提取任务的时刻信息;根据所述时刻信息和所述次数,确定新词的第二附加权重为:
Figure DEST_PATH_IMAGE053
,其中,
Figure DEST_PATH_IMAGE055
表示第二附加权重,n表示所述新词在目标时刻的次数,所述目标时刻是从所述时刻信息中提取得到的。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述第一概率,计算所述组合词的预测概率包括:所述组合词的预测概率为所述第一概率的乘积。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当所述匹配结果为所述单词集中单词未出现在所述第二重点词库中时,设置所述单词集中单词的附加权重为零。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种提案热点精准提取的方法,其特征在于,所述方法包括:
获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;
根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;
将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;预测概率是构建所述组合词的多个最小词之间不相关时,预测所述组合词在政府文件中出现的概率;
根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词,对所述第一重点词库进行更新,得到第二重点词库;
获取待提取提案,根据所述更新分词库对待提取提案进行分词,得到单词集;
根据TF-IDF算法,得到所述单词集中单词的初始权重;
根据所述单词集匹配所述第二重点词库得到的匹配结果,设置所述单词集中单词的附加权重;
根据所述初始权重和所述附加权重,得到所述单词集中单词的最终权重;
根据所述最终权重的排序结果,确定热点词;
所述附加权重包括:第一附加权重;
当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,获取政府文件的位置来源信息,根据所述位置来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各地区的次数;
获取热点提取任务的地理信息,根据所述地理信息,确定所述新词的地理属性级别;所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的;
根据所述地理属性级别和所述次数,确定新词的第一附加权重。
2.根据权利要求1所述的方法,其特征在于,所述地理属性级别包括:专属城市、关联城市以及其他城市。
3.根据权利要求1或2所述的方法,其特征在于,根据所述地理属性级别和所述次数,确定新词的第一附加权重,包括:
当地理属性级别为专属城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 276959DEST_PATH_IMAGE001
其中,
Figure 352362DEST_PATH_IMAGE002
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;
当地理属性级别为关联城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 142464DEST_PATH_IMAGE003
其中,
Figure 631214DEST_PATH_IMAGE004
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;
当地理属性级别为其他城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
Figure 791062DEST_PATH_IMAGE005
其中,
Figure 48868DEST_PATH_IMAGE004
表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的。
4.根据权利要求1所述的方法,其特征在于,所述附加权重包括:第二附加权重;
当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,所述方法还包括:
获取政府文件的时间来源信息,根据所述时间来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各时间段的次数;
获取热点提取任务的时刻信息;
根据所述时刻信息和所述次数,确定新词的第二附加权重为:
Figure 275450DEST_PATH_IMAGE006
其中,
Figure 251496DEST_PATH_IMAGE007
表示第二附加权重,n表示所述新词在目标时刻的次数,所述目标时刻是从所述时刻信息中提取得到的。
5.根据权利要求1或2所述的方法,其特征在于,根据所述第一概率,计算所述组合词的预测概率包括:
根据组合词中每个最小词的所述第一概率的乘积,计算得到所述组合词的预测概率。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
当所述匹配结果为所述单词集中单词未出现在所述第二重点词库中时,设置所述单词集中单词的附加权重为零。
7.一种提案热点精准提取的装置,其特征在于,所述装置包括:
数据获取模块,用于获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;
分词模块,用于根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;
新词发现模块,用于将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;预测概率是构建所述组合词的多个最小词之间不相关时,预测所述组合词在政府文件中出现的概率;
更新模块,用于根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词对所述第一重点词库进行更新,得到第二重点词库;
权重设置模块,用于获取待提取提案,根据所述更新分词库对待提取提案进行分词,得到单词集;根据TF-IDF算法,得到所述单词集中单词的初始权重;根据所述单词集匹配所述第二重点词库得到的匹配结果,设置所述单词集中单词的附加权重;根据所述初始权重和所述附加权重,得到所述单词集中单词的最终权重;
输出模块,用于根据所述最终权重的排序结果,确定热点词;
所述附加权重包括:第一附加权重;
权重设置模块还用于当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,获取政府文件的位置来源信息,根据所述位置来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各地区的次数;
获取热点提取任务的地理信息,根据所述地理信息,确定所述新词的地理属性级别;所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的;
根据所述地理属性级别和所述次数,确定新词的第一附加权重。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202110647234.5A 2021-06-10 2021-06-10 提案热点精准提取的方法、装置、计算机设备和存储介质 Active CN113190658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110647234.5A CN113190658B (zh) 2021-06-10 2021-06-10 提案热点精准提取的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110647234.5A CN113190658B (zh) 2021-06-10 2021-06-10 提案热点精准提取的方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113190658A CN113190658A (zh) 2021-07-30
CN113190658B true CN113190658B (zh) 2021-08-24

Family

ID=76976786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110647234.5A Active CN113190658B (zh) 2021-06-10 2021-06-10 提案热点精准提取的方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113190658B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780673B (zh) * 2022-03-28 2024-04-30 西安远诺技术转移有限公司 基于领域匹配的科技成果管理方法和科技成果管理平台

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395395A (zh) * 2021-01-19 2021-02-23 平安国际智慧城市科技股份有限公司 文本关键词提取方法、装置、设备及存储介质
CN112395416A (zh) * 2020-11-11 2021-02-23 湖南正宇软件技术开发有限公司 提案处理方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10445770B2 (en) * 2014-08-01 2019-10-15 Facebook, Inc. Identifying malicious text in advertisement content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395416A (zh) * 2020-11-11 2021-02-23 湖南正宇软件技术开发有限公司 提案处理方法、装置、计算机设备和存储介质
CN112395395A (zh) * 2021-01-19 2021-02-23 平安国际智慧城市科技股份有限公司 文本关键词提取方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
电子政务中基于词频分析法的热点发现;吴素研等;《天津科技》;20180225;全文 *

Also Published As

Publication number Publication date
CN113190658A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN109583620B (zh) 企业潜在风险预警方法、装置、计算机设备和存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
EP3855324A1 (en) Associative recommendation method and apparatus, computer device, and storage medium
CN109063108B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN109886719B (zh) 基于网格的数据挖掘处理方法、装置和计算机设备
CN109800346B (zh) 文本匹配方法、装置、计算机设备和存储介质
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN110674131A (zh) 财务报表数据处理方法、装置、计算机设备和存储介质
CN111753527A (zh) 基于自然语言处理的数据分析方法、装置和计算机设备
CN112434158B (zh) 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN112434217A (zh) 职位信息推荐方法、系统、计算机设备及存储介质
CN112685639A (zh) 活动推荐方法、装置、计算机设备和存储介质
Swaminathan et al. Wearmail: On-the-go access to information in your email with a privacy-preserving human computation workflow
CN113190658B (zh) 提案热点精准提取的方法、装置、计算机设备和存储介质
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN114222000A (zh) 信息推送方法、装置、计算机设备和存储介质
CN110597951A (zh) 文本解析方法、装置、计算机设备和存储介质
CN111737548A (zh) 点选验证码识别方法、装置、计算机设备和存储介质
CN110930106A (zh) 线上面试系统的信息处理方法、装置和系统
CN110688516A (zh) 图像检索方法、装置、计算机设备和存储介质
CN113961811A (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
CN115374849A (zh) 企业相关专利检索方法、装置、设备及介质
CN115345166A (zh) 医疗文本的疾病诊断名识别方法、装置、设备及存储介质
CN115225359A (zh) 蜜罐数据溯源方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant