CN109635286A - 政策热点分析的方法、装置、计算机设备和存储介质 - Google Patents
政策热点分析的方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109635286A CN109635286A CN201811431260.9A CN201811431260A CN109635286A CN 109635286 A CN109635286 A CN 109635286A CN 201811431260 A CN201811431260 A CN 201811431260A CN 109635286 A CN109635286 A CN 109635286A
- Authority
- CN
- China
- Prior art keywords
- policy
- hot spot
- word
- sentence
- quasi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及大数据技术领域,提供了一种政策热点分析的方法、装置、计算机设备和存储介质。所述方法包括:获取政策样本数据,根据政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合,根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,本方法能够实现对政策样本数据的准确分析。
Description
技术领域
本申请涉及机器学习技术领域,特别是涉及一种政策热点分析的方法、装置、计算机设备和存储介质。
背景技术
随着机器学习技术的发展,出现了政策分析技术,政策分析包括政策热点发现,政策热点指的是比较受广大群众关注或者欢迎的新闻或者信息。通常来说用新词发现、主题词发现、热词统计等技术可以实现政策热点发现的功能。政策分析常通过政策热点发现对新闻或者信息进行解析。
但是仅仅通过政策热点发现,难以实现对新闻或者信息的准确解析。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现对新闻或者信息的准确解析的政策热点分析的方法、装置、计算机设备和存储介质。
一种政策热点分析的方法,所述方法包括:
获取政策样本数据,根据政策样本数据获取政策热点词;
将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
在其中一个实施例中,根据政策样本数据获取政策热点词包括:
获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合;
根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
在其中一个实施例中,根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合包括:
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语;
获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句;
根据与政策热点词对应的第二类语句,确定第二类语句集合。
在其中一个实施例中,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合包括:
获取政策热点词的词向量;
获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量;
分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离;
筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语;
根据筛选出的词语,确定政策热点词组集合。
在其中一个实施例中,根据筛选出的词语,确定政策热点词组集合包括:
根据筛选出的词语,遍历第一类语句集合和第二类语句集合;
提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
在其中一个实施例中,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点包括:
统计各政策热点词组在政策样本数据中出现的次数;
根据预设的关联算法确定各政策热点词组与政策热点词的关联度;
根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序;
获取排名在预设的名次阈值范围内的政策热点词组;
根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
一种政策热点分析的装置,所述装置包括:
第一获取模块,用于获取政策样本数据,根据政策样本数据获取政策热点词;
拆分模块,用于将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
第二获取模块,用于根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
匹配模块,用于根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
第一遍历模块,用于根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
第二遍历模块,用于根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取政策样本数据,根据政策样本数据获取政策热点词;
将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取政策样本数据,根据政策样本数据获取政策热点词;
将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
上述政策热点分析的方法、装置、计算机设备和存储介质,通过政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词以及拆分后各完整语句中的每个词语的词向量,确定包含政策热点词的第一类语句集合以及与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,在确定政策热点的基础上,确定政策热点的关注点,实现对政策样本数据的准确分析。
附图说明
图1为一个实施例中政策热点分析的方法的应用场景图;
图2为一个实施例中政策热点分析的方法的流程示意图;
图3为一个实施例中图2中步骤S202的子流程示意图;
图4为一个实施例中图2中步骤S208的子流程示意图;
图5为一个实施例中图2中步骤S210的子流程示意图;
图6为一个实施例中图5中步骤S510的子流程示意图;
图7为一个实施例中图2中步骤S212的子流程示意图;
图8为一个实施例中政策热点分析的装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的政策热点分析的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取政策样本数据,根据政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合,根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,推送政策热点的关注点至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种政策热点分析的方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:获取政策样本数据,根据政策样本数据获取政策热点词。
政策样本数据指的是政策新闻数据,政策热点词指的是与受关注或者欢迎的政策热点对应的词语。服务器首先获取政策样本数据中各政策样本的标题和首段,通过各政策样本的标题和首段,确定高频词集合,高频词指的是在各政策样本的标题和首段中,出现次数较多的词语,进而根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
S204:将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量。
服务器以常见的标点符号为拆分依据,将政策样本数据以完整语句为单位进行拆分,常见的标点符号包括句号、感叹号以及问号等。在将政策样本数据以完整语句为单位进行拆分之后,服务器进而确定拆分后各完整语句中包括的词语,根据拆分后各完整语句中包括的词语,确定拆分后各完整语句中每个词语的词向量。
S206:根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合。
服务器根据政策热点词,遍历政策样本数据,获取政策样本数据中,包含政策热点词的第一类语句集合。其中,在第一类语句集合中的各第一类语句中,都包括了政策热点词。
S208:根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合。
第二类语句指的是包含目标词语的语句,目标词语指的是词向量与政策热点词的词向量的匹配度在预设的阈值范围内的词语。服务器首先根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语,然后获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句,最后根据与政策热点词对应的第二类语句,确定第二类语句集合。其中,预设的阈值范围可按照需要自行设置。
S210:根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合。
服务器首先获取政策热点词的词向量,然后获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量,分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离,筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语,最后根据筛选出的词语,遍历第一类语句集合和第二类语句集合,提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组,根据政策热点词组,确定政策热点词组集合。
S212:根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
服务器首先统计各政策热点词组在政策样本数据中出现的次数,然后根据预设的关联算法确定各政策热点词组与政策热点词的关联度,根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序,最后获取排名在预设的名次阈值范围内的政策热点词组,根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
上述政策热点分析的方法,通过政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词以及拆分后各完整语句中的每个词语的词向量,确定包含政策热点词的第一类语句集合以及与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,在确定政策热点的基础上,确定政策热点的关注点,实现对政策样本数据的准确分析。
下面通过一个实施例,来详细的说明本申请的方案。
服务器获取政策样本数据,根据政策样本数据确定政策热点词为“房产税”,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据“房产税”,遍历政策样本数据,获取包含“房产税”的第一类语句集合,第一类语句集合中包括“房产税时代,一定要把租金价值重视起来,这可能会从根本上改变原来的逻辑”,“那种租金价值低的远郊住宅,可能会因为房产税而加速抛售,而市中心那种租金价值高的商住物业或者极小户型,反而可能会价值重估”,“很多二三线城市目前正在搞人才争夺战,如果开征房产税,会加速人才与产业的流失”等句子,根据“房产税”的词向量,匹配各完整语句中每个词语的词向量,将匹配度在预设的阈值范围内的词语“评估值”、“抛售”、“税率”等作为目标词语,获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与“房产税”对应的第二类语句,根据第二类语句确定第二类语句集合,根据“房产税”遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,政策热点词组集合中包括“税率差别”、“按照评估价”“首套免征”等与“房产税”相关的政策热点词组,进而根据各政策热点词组,遍历政策样本数据,确定政策热点的关注点为“税率差别”以及“按照评估价”。
在其中一个实施例中,如图3所示,S202包括:
S302:获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合;
S304:根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
服务器获取并遍历政策样本数据中各政策样本的标题和首段,统计各政策样本的标题和首段中出现的各词语在政策样本数据中出现的次数,根据统计结果对各词语的出现次数进行排序,根据排序结果确定出现次数较多的词语,将出现次数大于预设的次数阈值的词语作为高频词,根据高频词,确定高频词集合。其中,预设的次数阈值可以按照需要自行设置。
上述实施例,获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合,实现对高频词集合的获取,根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词,实现对政策热点词的获取。
在其中一个实施例中,如图4所示,S208包括:
S402:根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语;
S404:获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句;
S406:根据与政策热点词对应的第二类语句,确定第二类语句集合。
服务器首先根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语,然后根据目标词语,确定并获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句,最后根据与政策热点词对应的第二类语句,确定第二类语句集合。其中,预设的阈值范围可按照需要自行设置。举例说明,匹配度可以指的是政策热点词的词向量与目标词语的词向量的向量距离,可以通过分别计算政策热点词的词向量与各完整语句中每个词语的词向量的向量距离,获取向量距离在预设的向量距离阈值范围内的词语作为目标词语。
上述实施例,根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语,获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句,实现对第二类语句的准确获取,从而根据第二类语句,实现对第二类语句集合的获取。
在其中一个实施例中,如图5所示,S210包括:
S502:获取政策热点词的词向量;
S504:获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量;
S506:分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离;
S508:筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语;
S510:根据筛选出的词语,确定政策热点词组集合。
余弦距离指的是两个向量夹角的余弦值,它可以衡量两个个体间差异的大小。本实施例中,通过计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离,并筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语,确定与政策热点词差异小的词语。服务器首先获取政策热点词的词向量、第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量,然后分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离,最后筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语,根据筛选出的词语,确定政策热点词组集合。其中,预设的距离阈值可根据需要自行设置。
上述实施例,通过分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离,筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语,实现对满足要求的词语的筛选,从而根据筛选出的词语,确定政策热点词组集合。
在其中一个实施例中,如图6所示,S510包括:
S602:根据筛选出的词语,遍历第一类语句集合和第二类语句集合;
S604:提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
筛选出的词语指的是与政策热点词差异小的词语,预设的句法分析模型可按照需要自行设置,常见的句法分析模型包括定中组合、介宾关系等。定中组合指的是由定语和中心语组成的词组,介宾关系指的是由介词和宾语组合的词组。政策热点词组指的是与政策热点相关的词组。服务器根据筛选出的词语,遍历第一类语句集合和第二类语句集合,提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
上述实施例,根据筛选出的词语,遍历第一类语句集合和第二类语句集合,提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组,实现对政策热点词组的准确获取。
在其中一个实施例中,如图7所示,S212包括:
S702:统计各政策热点词组在政策样本数据中出现的次数;
S704:根据预设的关联算法确定各政策热点词组与政策热点词的关联度;
S706:根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序;
S708:获取排名在预设的名次阈值范围内的政策热点词组;
S710:根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
服务器首先统计各政策热点词组在政策样本数据中出现的次数,根据预设的关联算法确定各政策热点词组与政策热点词的关联度,然后根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序,最后获取排名在预设的名次阈值范围内的政策热点词组,根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。其中,预设的关联算法可按照需要自行设置,关联度指的是政策热点词组与政策热点词的差异程度,可以通过计算政策热点词组中各词语的词向量与政策热点词的词向量之间的向量距离确定。预设的排序算法可按照需要自行设置,在预设的排序算法中,为关联度和出现的次数分别设置不同的权重系数,进而确定各政策热点词组的排名。
上述实施例,根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序,获取排名在预设的名次阈值范围内的政策热点词组,进而根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点,实现对政策热点的关注点的准确获取。
应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种政策热点分析的装置,包括:第一获取模块802、拆分模块804、第二获取模块806、匹配模块808、第一遍历模块810和第二遍历模块812,其中:
第一获取模块802,用于获取政策样本数据,根据政策样本数据获取政策热点词;
拆分模块804,用于将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
第二获取模块806,用于根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
匹配模块808,用于根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
第一遍历模块810,用于根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
第二遍历模块812,用于根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
上述政策热点分析的装置,通过政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词以及拆分后各完整语句中的每个词语的词向量,确定包含政策热点词的第一类语句集合以及与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,在确定政策热点的基础上,确定政策热点的关注点,实现对政策样本数据的准确分析。
在其中一个实施例中,第一获取模块还用于获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合,根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
在其中一个实施例中,匹配模块还用于根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语,获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句,根据与政策热点词对应的第二类语句,确定第二类语句集合。
在其中一个实施例中,第一遍历模块还用于获取政策热点词的词向量,获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量,分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离,筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语,根据筛选出的词语,确定政策热点词组集合。
在其中一个实施例中,第一遍历模块还用于根据筛选出的词语,遍历第一类语句集合和第二类语句集合,提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
在其中一个实施例中,第二遍历模块还用于统计各政策热点词组在政策样本数据中出现的次数,根据预设的关联算法确定各政策热点词组与政策热点词的关联度,根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序,获取排名在预设的名次阈值范围内的政策热点词组,根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
关于政策热点分析的装置的具体限定可以参见上文中对于政策热点分析的方法的限定,在此不再赘述。上述政策热点分析的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储政策样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种政策热点分析的方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取政策样本数据,根据政策样本数据获取政策热点词;
将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
上述政策热点分析的计算机设备,通过政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词以及拆分后各完整语句中的每个词语的词向量,确定包含政策热点词的第一类语句集合以及与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,在确定政策热点的基础上,确定政策热点的关注点,实现对政策样本数据的准确分析。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合;
根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语;
获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句;
根据与政策热点词对应的第二类语句,确定第二类语句集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取政策热点词的词向量;
获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量;
分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离;
筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语;
根据筛选出的词语,确定政策热点词组集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据筛选出的词语,遍历第一类语句集合和第二类语句集合;
提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
统计各政策热点词组在政策样本数据中出现的次数;
根据预设的关联算法确定各政策热点词组与政策热点词的关联度;
根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序;
获取排名在预设的名次阈值范围内的政策热点词组;
根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取政策样本数据,根据政策样本数据获取政策热点词;
将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
上述政策热点分析的存储介质,通过政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词以及拆分后各完整语句中的每个词语的词向量,确定包含政策热点词的第一类语句集合以及与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,在确定政策热点的基础上,确定政策热点的关注点,实现对政策样本数据的准确分析。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合;
根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语;
获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句;
根据与政策热点词对应的第二类语句,确定第二类语句集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取政策热点词的词向量;
获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量;
分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离;
筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语;
根据筛选出的词语,确定政策热点词组集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据筛选出的词语,遍历第一类语句集合和第二类语句集合;
提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
统计各政策热点词组在政策样本数据中出现的次数;
根据预设的关联算法确定各政策热点词组与政策热点词的关联度;
根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序;
获取排名在预设的名次阈值范围内的政策热点词组;
根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种政策热点分析的方法,所述方法包括:
获取政策样本数据,根据所述政策样本数据获取政策热点词;
将所述政策样本数据以完整语句为单位进行拆分,确定拆分后各所述完整语句中每个词语的词向量;
根据所述政策热点词,遍历所述政策样本数据,获取包含所述政策热点词的第一类语句集合;
根据所述政策热点词的词向量,匹配各所述完整语句中每个词语的词向量,根据匹配结果确定与所述政策热点词对应的第二类语句集合;
根据所述政策热点词,遍历所述第一类语句集合以及所述第二类语句集合,确定政策热点词组集合;
根据所述政策热点词组集合中的政策热点词组,遍历所述政策样本数据,确定政策热点的关注点。
2.根据权利要求1所述的方法,其特征在于,所述根据所述政策样本数据获取政策热点词包括:
获取所述政策样本数据中各政策样本的标题和首段,根据各所述政策样本的标题和首段,确定高频词集合;
根据所述高频词集合中的高频词,遍历所述政策样本数据,确定政策热点词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述政策热点词的词向量,匹配各所述完整语句中每个词语的词向量,根据匹配结果确定与所述政策热点词对应的第二类语句集合包括:
根据所述政策热点词的词向量,匹配各所述完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语;
获取包含所述目标词语的完整语句,将所述包含所述目标词语的完整语句,作为与所述政策热点词对应的第二类语句;
根据所述与所述政策热点词对应的第二类语句,确定所述第二类语句集合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述政策热点词,遍历所述第一类语句集合以及所述第二类语句集合,确定政策热点词组集合包括:
获取所述政策热点词的词向量;
获取所述第一类语句集合中各词语的词向量以及所述第二类语句集合中各词语的词向量;
分别计算所述政策热点词的词向量与所述第一类语句集合中各词语的词向量以及所述第二类语句集合中各词语的词向量的余弦距离;
筛选出与所述政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语;
根据筛选出的词语,确定政策热点词组集合。
5.根据权利要求4所述的方法,其特征在于,所述根据筛选出的词语,确定政策热点词组集合包括:
根据筛选出的词语,遍历所述第一类语句集合和所述第二类语句集合;
提取出所述第一类语句集合和所述第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
6.根据权利要求1所述的方法,其特征在于,所述根据所述政策热点词组集合中的政策热点词组,遍历所述政策样本数据,确定政策热点的关注点包括:
统计各所述政策热点词组在所述政策样本数据中出现的次数;
根据预设的关联算法确定各所述政策热点词组与所述政策热点词的关联度;
根据各所述政策热点词组出现的次数以及与所述政策热点词的关联度,按照预设的排序算法对各所述政策热点词组进行排序;
获取排名在预设的名次阈值范围内的政策热点词组;
根据所述排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
7.一种政策热点分析的装置,其特征在于,所述装置包括:
第一获取模块,用于获取政策样本数据,根据所述政策样本数据获取政策热点词;
拆分模块,用于将所述政策样本数据以完整语句为单位进行拆分,确定拆分后各所述完整语句中每个词语的词向量;
第二获取模块,用于根据所述政策热点词,遍历所述政策样本数据,获取包含所述政策热点词的第一类语句集合;
匹配模块,用于根据所述政策热点词的词向量,匹配各所述完整语句中每个词语的词向量,根据匹配结果确定与所述政策热点词对应的第二类语句集合;
第一遍历模块,用于根据所述政策热点词,遍历所述第一类语句集合以及所述第二类语句集合,确定政策热点词组集合;
第二遍历模块,用于根据所述政策热点词组集合中的政策热点词组,遍历所述政策样本数据,确定政策热点的关注点。
8.根据权利要求7所述的装置,其特征在于,所述第一获取模块还用于获取所述政策样本数据中各政策样本的标题和首段,根据各所述政策样本的标题和首段,确定高频词集合,根据所述高频词集合中的高频词,遍历所述政策样本数据,确定政策热点词。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811431260.9A CN109635286B (zh) | 2018-11-26 | 2018-11-26 | 政策热点分析的方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811431260.9A CN109635286B (zh) | 2018-11-26 | 2018-11-26 | 政策热点分析的方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635286A true CN109635286A (zh) | 2019-04-16 |
CN109635286B CN109635286B (zh) | 2022-04-12 |
Family
ID=66069993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811431260.9A Active CN109635286B (zh) | 2018-11-26 | 2018-11-26 | 政策热点分析的方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635286B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408191A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 关键词的关联关键词的获取方法和装置 |
CN105159882A (zh) * | 2015-09-16 | 2015-12-16 | 中国地质大学(北京) | 一种确定微博热门话题的方法及装置 |
US20170149753A1 (en) * | 2014-06-23 | 2017-05-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Hotspot information analysis method and apparatus and computer storage medium |
CN107168943A (zh) * | 2017-04-07 | 2017-09-15 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
CN107423444A (zh) * | 2017-08-10 | 2017-12-01 | 世纪龙信息网络有限责任公司 | 热词词组提取方法和系统 |
CN108170692A (zh) * | 2016-12-07 | 2018-06-15 | 腾讯科技(深圳)有限公司 | 一种热点事件信息处理方法和装置 |
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
-
2018
- 2018-11-26 CN CN201811431260.9A patent/CN109635286B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170149753A1 (en) * | 2014-06-23 | 2017-05-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Hotspot information analysis method and apparatus and computer storage medium |
CN104408191A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 关键词的关联关键词的获取方法和装置 |
CN105159882A (zh) * | 2015-09-16 | 2015-12-16 | 中国地质大学(北京) | 一种确定微博热门话题的方法及装置 |
CN108170692A (zh) * | 2016-12-07 | 2018-06-15 | 腾讯科技(深圳)有限公司 | 一种热点事件信息处理方法和装置 |
CN107168943A (zh) * | 2017-04-07 | 2017-09-15 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
CN107423444A (zh) * | 2017-08-10 | 2017-12-01 | 世纪龙信息网络有限责任公司 | 热词词组提取方法和系统 |
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
Non-Patent Citations (1)
Title |
---|
张玥 等: "基于关联性的热点话题识别", 《智能计算机与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109635286B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304378B (zh) | 文本相似度计算方法、装置、计算机设备和存储介质 | |
CN109800258B (zh) | 数据文件部署方法、装置、计算机设备及存储介质 | |
US9779356B2 (en) | Method of machine learning classes of search queries | |
CN109766430A (zh) | 合同审核方法、装置、计算机设备和存储介质 | |
CN110019744A (zh) | 辅助生成会议纪要的方法、装置、设备及计算机存储介质 | |
CN107085549B (zh) | 故障信息生成的方法和装置 | |
CN107896170B (zh) | 保险应用系统的监控方法及装置 | |
CN110134795A (zh) | 生成验证问题组的方法、装置、计算机设备和存储介质 | |
CN110082595A (zh) | 居民单相电能表的相位识别方法、装置和计算机设备 | |
US11756301B2 (en) | System and method for automatically detecting and marking logical scenes in media content | |
CN108768743B (zh) | 一种用户识别方法、装置及服务器 | |
CN112685324A (zh) | 一种生成测试方案的方法及系统 | |
CN111209061B (zh) | 用户信息的填写方法、装置、计算机设备和存储介质 | |
CN109670534B (zh) | 政策热点预测的方法、装置、计算机设备和存储介质 | |
CN109635287B (zh) | 政策力度分析的方法、装置、计算机设备和存储介质 | |
CN109635286A (zh) | 政策热点分析的方法、装置、计算机设备和存储介质 | |
CN117453784A (zh) | 配置文件转换方法、装置、设备及存储介质 | |
CN108460116A (zh) | 搜索方法、装置、计算机设备、存储介质及搜索系统 | |
CN109325119A (zh) | 新闻情感分析的方法、装置、计算机设备和存储介质 | |
WO2020057023A1 (zh) | 自然语言的语义解析方法、装置、计算机设备和存储介质 | |
US20190279012A1 (en) | Methods, systems, apparatuses and devices for facilitating inspection of industrial infrastructure by one or more industry experts | |
CN113378000B (zh) | 一种视频标题生成方法及装置 | |
CN114186557A (zh) | 主题词确定方法、设备及存储介质 | |
CN111143526B (zh) | 一种咨询服务控件配置信息的生成、控制方法及装置 | |
CN109446335A (zh) | 新闻主体判定的方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |