CN109635286B - 政策热点分析的方法、装置、计算机设备和存储介质 - Google Patents

政策热点分析的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109635286B
CN109635286B CN201811431260.9A CN201811431260A CN109635286B CN 109635286 B CN109635286 B CN 109635286B CN 201811431260 A CN201811431260 A CN 201811431260A CN 109635286 B CN109635286 B CN 109635286B
Authority
CN
China
Prior art keywords
policy
word
hot
words
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811431260.9A
Other languages
English (en)
Other versions
CN109635286A (zh
Inventor
张依
汪伟
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811431260.9A priority Critical patent/CN109635286B/zh
Publication of CN109635286A publication Critical patent/CN109635286A/zh
Application granted granted Critical
Publication of CN109635286B publication Critical patent/CN109635286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及大数据技术领域,提供了一种政策热点分析的方法、装置、计算机设备和存储介质。所述方法包括:获取政策样本数据,根据政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合,根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,本方法能够实现对政策样本数据的准确分析。

Description

政策热点分析的方法、装置、计算机设备和存储介质
技术领域
本申请涉及机器学习技术领域,特别是涉及一种政策热点分析的方法、装置、计算机设备和存储介质。
背景技术
随着机器学习技术的发展,出现了政策分析技术,政策分析包括政策热点发现,政策热点指的是比较受广大群众关注或者欢迎的新闻或者信息。通常来说用新词发现、主题词发现、热词统计等技术可以实现政策热点发现的功能。政策分析常通过政策热点发现对新闻或者信息进行解析。
但是仅仅通过政策热点发现,难以实现对新闻或者信息的准确解析。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现对新闻或者信息的准确解析的政策热点分析的方法、装置、计算机设备和存储介质。
一种政策热点分析的方法,所述方法包括:
获取政策样本数据,根据政策样本数据获取政策热点词;
将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
在其中一个实施例中,根据政策样本数据获取政策热点词包括:
获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合;
根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
在其中一个实施例中,根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合包括:
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语;
获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句;
根据与政策热点词对应的第二类语句,确定第二类语句集合。
在其中一个实施例中,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合包括:
获取政策热点词的词向量;
获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量;
分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离;
筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语;
根据筛选出的词语,确定政策热点词组集合。
在其中一个实施例中,根据筛选出的词语,确定政策热点词组集合包括:
根据筛选出的词语,遍历第一类语句集合和第二类语句集合;
提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
在其中一个实施例中,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点包括:
统计各政策热点词组在政策样本数据中出现的次数;
根据预设的关联算法确定各政策热点词组与政策热点词的关联度;
根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序;
获取排名在预设的名次阈值范围内的政策热点词组;
根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
一种政策热点分析的装置,所述装置包括:
第一获取模块,用于获取政策样本数据,根据政策样本数据获取政策热点词;
拆分模块,用于将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
第二获取模块,用于根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
匹配模块,用于根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
第一遍历模块,用于根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
第二遍历模块,用于根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取政策样本数据,根据政策样本数据获取政策热点词;
将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取政策样本数据,根据政策样本数据获取政策热点词;
将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
上述政策热点分析的方法、装置、计算机设备和存储介质,通过政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词以及拆分后各完整语句中的每个词语的词向量,确定包含政策热点词的第一类语句集合以及与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,在确定政策热点的基础上,确定政策热点的关注点,实现对政策样本数据的准确分析。
附图说明
图1为一个实施例中政策热点分析的方法的应用场景图;
图2为一个实施例中政策热点分析的方法的流程示意图;
图3为一个实施例中图2中步骤S202的子流程示意图;
图4为一个实施例中图2中步骤S208的子流程示意图;
图5为一个实施例中图2中步骤S210的子流程示意图;
图6为一个实施例中图5中步骤S510的子流程示意图;
图7为一个实施例中图2中步骤S212的子流程示意图;
图8为一个实施例中政策热点分析的装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的政策热点分析的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取政策样本数据,根据政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合,根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,推送政策热点的关注点至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种政策热点分析的方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:获取政策样本数据,根据政策样本数据获取政策热点词。
政策样本数据指的是政策新闻数据,政策热点词指的是与受关注或者欢迎的政策热点对应的词语。服务器首先获取政策样本数据中各政策样本的标题和首段,通过各政策样本的标题和首段,确定高频词集合,高频词指的是在各政策样本的标题和首段中,出现次数较多的词语,进而根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
S204:将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量。
服务器以常见的标点符号为拆分依据,将政策样本数据以完整语句为单位进行拆分,常见的标点符号包括句号、感叹号以及问号等。在将政策样本数据以完整语句为单位进行拆分之后,服务器进而确定拆分后各完整语句中包括的词语,根据拆分后各完整语句中包括的词语,确定拆分后各完整语句中每个词语的词向量。
S206:根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合。
服务器根据政策热点词,遍历政策样本数据,获取政策样本数据中,包含政策热点词的第一类语句集合。其中,在第一类语句集合中的各第一类语句中,都包括了政策热点词。
S208:根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合。
第二类语句指的是包含目标词语的语句,目标词语指的是词向量与政策热点词的词向量的匹配度在预设的阈值范围内的词语。服务器首先根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语,然后获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句,最后根据与政策热点词对应的第二类语句,确定第二类语句集合。其中,预设的阈值范围可按照需要自行设置。
S210:根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合。
服务器首先获取政策热点词的词向量,然后获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量,分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离,筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语,最后根据筛选出的词语,遍历第一类语句集合和第二类语句集合,提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组,根据政策热点词组,确定政策热点词组集合。
S212:根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
服务器首先统计各政策热点词组在政策样本数据中出现的次数,然后根据预设的关联算法确定各政策热点词组与政策热点词的关联度,根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序,最后获取排名在预设的名次阈值范围内的政策热点词组,根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
上述政策热点分析的方法,通过政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词以及拆分后各完整语句中的每个词语的词向量,确定包含政策热点词的第一类语句集合以及与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,在确定政策热点的基础上,确定政策热点的关注点,实现对政策样本数据的准确分析。
下面通过一个实施例,来详细的说明本申请的方案。
服务器获取政策样本数据,根据政策样本数据确定政策热点词为“房产税”,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据“房产税”,遍历政策样本数据,获取包含“房产税”的第一类语句集合,第一类语句集合中包括“房产税时代,一定要把租金价值重视起来,这可能会从根本上改变原来的逻辑”,“那种租金价值低的远郊住宅,可能会因为房产税而加速抛售,而市中心那种租金价值高的商住物业或者极小户型,反而可能会价值重估”,“很多二三线城市目前正在搞人才争夺战,如果开征房产税,会加速人才与产业的流失”等句子,根据“房产税”的词向量,匹配各完整语句中每个词语的词向量,将匹配度在预设的阈值范围内的词语“评估值”、“抛售”、“税率”等作为目标词语,获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与“房产税”对应的第二类语句,根据第二类语句确定第二类语句集合,根据“房产税”遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,政策热点词组集合中包括“税率差别”、“按照评估价”“首套免征”等与“房产税”相关的政策热点词组,进而根据各政策热点词组,遍历政策样本数据,确定政策热点的关注点为“税率差别”以及“按照评估价”。
在其中一个实施例中,如图3所示,S202包括:
S302:获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合;
S304:根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
服务器获取并遍历政策样本数据中各政策样本的标题和首段,统计各政策样本的标题和首段中出现的各词语在政策样本数据中出现的次数,根据统计结果对各词语的出现次数进行排序,根据排序结果确定出现次数较多的词语,将出现次数大于预设的次数阈值的词语作为高频词,根据高频词,确定高频词集合。其中,预设的次数阈值可以按照需要自行设置。
上述实施例,获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合,实现对高频词集合的获取,根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词,实现对政策热点词的获取。
在其中一个实施例中,如图4所示,S208包括:
S402:根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语;
S404:获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句;
S406:根据与政策热点词对应的第二类语句,确定第二类语句集合。
服务器首先根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语,然后根据目标词语,确定并获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句,最后根据与政策热点词对应的第二类语句,确定第二类语句集合。其中,预设的阈值范围可按照需要自行设置。举例说明,匹配度可以指的是政策热点词的词向量与目标词语的词向量的向量距离,可以通过分别计算政策热点词的词向量与各完整语句中每个词语的词向量的向量距离,获取向量距离在预设的向量距离阈值范围内的词语作为目标词语。
上述实施例,根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语,获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句,实现对第二类语句的准确获取,从而根据第二类语句,实现对第二类语句集合的获取。
在其中一个实施例中,如图5所示,S210包括:
S502:获取政策热点词的词向量;
S504:获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量;
S506:分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离;
S508:筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语;
S510:根据筛选出的词语,确定政策热点词组集合。
余弦距离指的是两个向量夹角的余弦值,它可以衡量两个个体间差异的大小。本实施例中,通过计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离,并筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语,确定与政策热点词差异小的词语。服务器首先获取政策热点词的词向量、第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量,然后分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离,最后筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语,根据筛选出的词语,确定政策热点词组集合。其中,预设的距离阈值可根据需要自行设置。
上述实施例,通过分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离,筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语,实现对满足要求的词语的筛选,从而根据筛选出的词语,确定政策热点词组集合。
在其中一个实施例中,如图6所示,S510包括:
S602:根据筛选出的词语,遍历第一类语句集合和第二类语句集合;
S604:提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
筛选出的词语指的是与政策热点词差异小的词语,预设的句法分析模型可按照需要自行设置,常见的句法分析模型包括定中组合、介宾关系等。定中组合指的是由定语和中心语组成的词组,介宾关系指的是由介词和宾语组合的词组。政策热点词组指的是与政策热点相关的词组。服务器根据筛选出的词语,遍历第一类语句集合和第二类语句集合,提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
上述实施例,根据筛选出的词语,遍历第一类语句集合和第二类语句集合,提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组,实现对政策热点词组的准确获取。
在其中一个实施例中,如图7所示,S212包括:
S702:统计各政策热点词组在政策样本数据中出现的次数;
S704:根据预设的关联算法确定各政策热点词组与政策热点词的关联度;
S706:根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序;
S708:获取排名在预设的名次阈值范围内的政策热点词组;
S710:根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
服务器首先统计各政策热点词组在政策样本数据中出现的次数,根据预设的关联算法确定各政策热点词组与政策热点词的关联度,然后根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序,最后获取排名在预设的名次阈值范围内的政策热点词组,根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。其中,预设的关联算法可按照需要自行设置,关联度指的是政策热点词组与政策热点词的差异程度,可以通过计算政策热点词组中各词语的词向量与政策热点词的词向量之间的向量距离确定。预设的排序算法可按照需要自行设置,在预设的排序算法中,为关联度和出现的次数分别设置不同的权重系数,进而确定各政策热点词组的排名。
上述实施例,根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序,获取排名在预设的名次阈值范围内的政策热点词组,进而根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点,实现对政策热点的关注点的准确获取。
应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种政策热点分析的装置,包括:第一获取模块802、拆分模块804、第二获取模块806、匹配模块808、第一遍历模块810和第二遍历模块812,其中:
第一获取模块802,用于获取政策样本数据,根据政策样本数据获取政策热点词;
拆分模块804,用于将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
第二获取模块806,用于根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
匹配模块808,用于根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
第一遍历模块810,用于根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
第二遍历模块812,用于根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
上述政策热点分析的装置,通过政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词以及拆分后各完整语句中的每个词语的词向量,确定包含政策热点词的第一类语句集合以及与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,在确定政策热点的基础上,确定政策热点的关注点,实现对政策样本数据的准确分析。
在其中一个实施例中,第一获取模块还用于获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合,根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
在其中一个实施例中,匹配模块还用于根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语,获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句,根据与政策热点词对应的第二类语句,确定第二类语句集合。
在其中一个实施例中,第一遍历模块还用于获取政策热点词的词向量,获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量,分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离,筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语,根据筛选出的词语,确定政策热点词组集合。
在其中一个实施例中,第一遍历模块还用于根据筛选出的词语,遍历第一类语句集合和第二类语句集合,提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
在其中一个实施例中,第二遍历模块还用于统计各政策热点词组在政策样本数据中出现的次数,根据预设的关联算法确定各政策热点词组与政策热点词的关联度,根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序,获取排名在预设的名次阈值范围内的政策热点词组,根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
关于政策热点分析的装置的具体限定可以参见上文中对于政策热点分析的方法的限定,在此不再赘述。上述政策热点分析的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储政策样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种政策热点分析的方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取政策样本数据,根据政策样本数据获取政策热点词;
将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
上述政策热点分析的计算机设备,通过政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词以及拆分后各完整语句中的每个词语的词向量,确定包含政策热点词的第一类语句集合以及与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,在确定政策热点的基础上,确定政策热点的关注点,实现对政策样本数据的准确分析。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合;
根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语;
获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句;
根据与政策热点词对应的第二类语句,确定第二类语句集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取政策热点词的词向量;
获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量;
分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离;
筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语;
根据筛选出的词语,确定政策热点词组集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据筛选出的词语,遍历第一类语句集合和第二类语句集合;
提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
统计各政策热点词组在政策样本数据中出现的次数;
根据预设的关联算法确定各政策热点词组与政策热点词的关联度;
根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序;
获取排名在预设的名次阈值范围内的政策热点词组;
根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取政策样本数据,根据政策样本数据获取政策热点词;
将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量;
根据政策热点词,遍历政策样本数据,获取包含政策热点词的第一类语句集合;
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,根据匹配结果确定与政策热点词对应的第二类语句集合;
根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合;
根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点。
上述政策热点分析的存储介质,通过政策样本数据获取政策热点词,将政策样本数据以完整语句为单位进行拆分,确定拆分后各完整语句中每个词语的词向量,根据政策热点词以及拆分后各完整语句中的每个词语的词向量,确定包含政策热点词的第一类语句集合以及与政策热点词对应的第二类语句集合,根据政策热点词,遍历第一类语句集合以及第二类语句集合,确定政策热点词组集合,根据政策热点词组集合中的政策热点词组,遍历政策样本数据,确定政策热点的关注点,在确定政策热点的基础上,确定政策热点的关注点,实现对政策样本数据的准确分析。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取政策样本数据中各政策样本的标题和首段,根据各政策样本的标题和首段,确定高频词集合;
根据高频词集合中的高频词,遍历政策样本数据,确定政策热点词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据政策热点词的词向量,匹配各完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语;
获取包含目标词语的完整语句,将包含目标词语的完整语句,作为与政策热点词对应的第二类语句;
根据与政策热点词对应的第二类语句,确定第二类语句集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取政策热点词的词向量;
获取第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量;
分别计算政策热点词的词向量与第一类语句集合中各词语的词向量以及第二类语句集合中各词语的词向量的余弦距离;
筛选出与政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语;
根据筛选出的词语,确定政策热点词组集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据筛选出的词语,遍历第一类语句集合和第二类语句集合;
提取出第一类语句集合和第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
统计各政策热点词组在政策样本数据中出现的次数;
根据预设的关联算法确定各政策热点词组与政策热点词的关联度;
根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序;
获取排名在预设的名次阈值范围内的政策热点词组;
根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种政策热点分析的方法,所述方法包括:
获取政策样本数据,根据所述政策样本数据获取政策热点词;
将所述政策样本数据以完整语句为单位进行拆分,确定拆分后各所述完整语句中每个词语的词向量;
根据所述政策热点词,遍历所述政策样本数据,获取包含所述政策热点词的第一类语句集合;
根据所述政策热点词的词向量,匹配各所述完整语句中每个词语的词向量,根据匹配结果确定与所述政策热点词对应的第二类语句集合;
根据所述政策热点词,遍历所述第一类语句集合以及所述第二类语句集合,确定政策热点词组集合;
根据所述政策热点词组集合中的政策热点词组,遍历所述政策样本数据,确定政策热点的关注点;
所述根据所述政策热点词组集合中的政策热点词组,遍历所述政策样本数据,确定政策热点的关注点包括:
统计各所述政策热点词组在所述政策样本数据中出现的次数;
根据预设的关联算法确定各所述政策热点词组与所述政策热点词的关联度;
根据各所述政策热点词组出现的次数以及与所述政策热点词的关联度,按照预设的排序算法对各所述政策热点词组进行排序;
获取排名在预设的名次阈值范围内的政策热点词组;
根据所述排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
2.根据权利要求1所述的方法,其特征在于,所述根据所述政策样本数据获取政策热点词包括:
获取所述政策样本数据中各政策样本的标题和首段,根据各所述政策样本的标题和首段,确定高频词集合;
根据所述高频词集合中的高频词,遍历所述政策样本数据,确定政策热点词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述政策热点词的词向量,匹配各所述完整语句中每个词语的词向量,根据匹配结果确定与所述政策热点词对应的第二类语句集合包括:
根据所述政策热点词的词向量,匹配各所述完整语句中每个词语的词向量,确定匹配度在预设的阈值范围内的词语为目标词语;
获取包含所述目标词语的完整语句,将所述包含所述目标词语的完整语句,作为与所述政策热点词对应的第二类语句;
根据所述与所述政策热点词对应的第二类语句,确定所述第二类语句集合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述政策热点词,遍历所述第一类语句集合以及所述第二类语句集合,确定政策热点词组集合包括:
获取所述政策热点词的词向量;
获取所述第一类语句集合中各词语的词向量以及所述第二类语句集合中各词语的词向量;
分别计算所述政策热点词的词向量与所述第一类语句集合中各词语的词向量以及所述第二类语句集合中各词语的词向量的余弦距离;
筛选出与所述政策热点词的词向量的余弦距离在预设的距离阈值范围内的词语;
根据筛选出的词语,确定政策热点词组集合。
5.根据权利要求4所述的方法,其特征在于,所述根据筛选出的词语,确定政策热点词组集合包括:
根据筛选出的词语,遍历所述第一类语句集合和所述第二类语句集合;
提取出所述第一类语句集合和所述第二类语句集合中,与预设的句法分析模型对应的政策热点词组。
6.一种政策热点分析的装置,其特征在于,所述装置包括:
第一获取模块,用于获取政策样本数据,根据所述政策样本数据获取政策热点词;
拆分模块,用于将所述政策样本数据以完整语句为单位进行拆分,确定拆分后各所述完整语句中每个词语的词向量;
第二获取模块,用于根据所述政策热点词,遍历所述政策样本数据,获取包含所述政策热点词的第一类语句集合;
匹配模块,用于根据所述政策热点词的词向量,匹配各所述完整语句中每个词语的词向量,根据匹配结果确定与所述政策热点词对应的第二类语句集合;
第一遍历模块,用于根据所述政策热点词,遍历所述第一类语句集合以及所述第二类语句集合,确定政策热点词组集合;
第二遍历模块,用于根据所述政策热点词组集合中的政策热点词组,遍历所述政策样本数据,确定政策热点的关注点;
第二遍历模块还用于统计各政策热点词组在政策样本数据中出现的次数,根据预设的关联算法确定各政策热点词组与政策热点词的关联度,根据各政策热点词组出现的次数以及与政策热点词的关联度,按照预设的排序算法对各政策热点词组进行排序,获取排名在预设的名次阈值范围内的政策热点词组,根据排名在预设的名次阈值范围内的政策热点词组,确定政策热点的关注点。
7.根据权利要求6所述的装置,其特征在于,所述第一获取模块还用于获取所述政策样本数据中各政策样本的标题和首段,根据各所述政策样本的标题和首段,确定高频词集合,根据所述高频词集合中的高频词,遍历所述政策样本数据,确定政策热点词。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201811431260.9A 2018-11-26 2018-11-26 政策热点分析的方法、装置、计算机设备和存储介质 Active CN109635286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811431260.9A CN109635286B (zh) 2018-11-26 2018-11-26 政策热点分析的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811431260.9A CN109635286B (zh) 2018-11-26 2018-11-26 政策热点分析的方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109635286A CN109635286A (zh) 2019-04-16
CN109635286B true CN109635286B (zh) 2022-04-12

Family

ID=66069993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811431260.9A Active CN109635286B (zh) 2018-11-26 2018-11-26 政策热点分析的方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109635286B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN105159882A (zh) * 2015-09-16 2015-12-16 中国地质大学(北京) 一种确定微博热门话题的方法及装置
CN107168943A (zh) * 2017-04-07 2017-09-15 平安科技(深圳)有限公司 话题预警的方法和装置
CN107423444A (zh) * 2017-08-10 2017-12-01 世纪龙信息网络有限责任公司 热词词组提取方法和系统
CN108170692A (zh) * 2016-12-07 2018-06-15 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063450B (zh) * 2014-06-23 2018-04-03 百度在线网络技术(北京)有限公司 热点信息分析方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN105159882A (zh) * 2015-09-16 2015-12-16 中国地质大学(北京) 一种确定微博热门话题的方法及装置
CN108170692A (zh) * 2016-12-07 2018-06-15 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
CN107168943A (zh) * 2017-04-07 2017-09-15 平安科技(深圳)有限公司 话题预警的方法和装置
CN107423444A (zh) * 2017-08-10 2017-12-01 世纪龙信息网络有限责任公司 热词词组提取方法和系统
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于关联性的热点话题识别;张玥 等;《智能计算机与应用》;20140630;第4卷(第3期);第55-59页 *

Also Published As

Publication number Publication date
CN109635286A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN109873812B (zh) 异常检测方法、装置及计算机设备
US11526799B2 (en) Identification and application of hyperparameters for machine learning
CN109743624B (zh) 视频切割方法、装置、计算机设备和存储介质
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN109325118B (zh) 不平衡样本数据预处理方法、装置和计算机设备
CN109800346B (zh) 文本匹配方法、装置、计算机设备和存储介质
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN111159413A (zh) 日志聚类方法、装置、设备及存储介质
CN110888911A (zh) 样本数据处理方法、装置、计算机设备及存储介质
WO2020056968A1 (zh) 数据降噪方法、装置、计算机设备和存储介质
WO2019148712A1 (zh) 钓鱼网站检测方法、装置、计算机设备和存储介质
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN112416778A (zh) 测试用例推荐方法、装置和电子设备
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
WO2021068524A1 (zh) 图像匹配方法、装置、计算机设备及存储介质
CN108200087B (zh) web入侵检测方法、装置、计算机设备和存储介质
CN109635286B (zh) 政策热点分析的方法、装置、计算机设备和存储介质
CN109325119B (zh) 新闻情感分析的方法、装置、计算机设备和存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN114491093B (zh) 多媒体资源推荐、对象表征网络的生成方法及装置
CN109446335B (zh) 新闻主体判定的方法、装置、计算机设备和存储介质
CN112784032A (zh) 会话语料推荐评价方法、装置、存储介质和电子设备
CN112749258A (zh) 数据搜索的方法和装置、电子设备和存储介质
CN111259050A (zh) 用户操作轨迹记录方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant