CN112559850B

CN112559850B - 关键词挖掘系统及挖掘方法

Info

Publication number: CN112559850B
Application number: CN202011428487.5A
Authority: CN
Inventors: 袁学文
Original assignee: Suzhou Wendao Network Technology Co ltd
Current assignee: Suzhou Wendao Network Technology Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2024-01-09
Anticipated expiration: 2040-12-09
Also published as: CN112559850A

Abstract

本发明揭示了一种关键词挖掘系统及挖掘方法，系统包括：数据存储模块，采集和存储关键词信息及网络站点信息，并对信息进行实时更新；网络站点输入模块，接收待挖掘网络站点信息，对信息进行初步处理后存储；关键词输出模块，结合初步处理结果以及关键词信息，输出关键词挖掘结果，所述关键词挖掘结果至少包括行业词推荐信息及相关词推荐信息。本发明的系统通过标准化的方式实现了网络站点与关键词之间的匹配对应，保证了准确性、提升了操作效率。与之相对应的，本发明的方法流程明确、操作逻辑清晰，具有很强的可重复性和操作适应性。

Description

关键词挖掘系统及挖掘方法

技术领域

本发明为一种关键词挖掘系统及其相对应的关键词挖掘方法，属于互联网搜索技术领域。

背景技术

近年来，随着计算机、手机等智能终端的广泛普及，数据通信技术的不断发展，互联网逐渐成为了人们日常生活中不可或缺的一部分，这也就给广大互联网企业的快速发展提供了相应的契机和条件。但是相较于数年前，现阶段全世界范围内的互联网企业众多，网络站点不仅数量巨大而且存在着同质化严重等问题，如何使得企业的网络站点能够被更多的目标用户访问，也就成为了各互联网企业所共用面临的问题。

针对上述问题，网络站点优化项目近年来逐渐受到各互联网企业的关注。网络站点优化项目的核心是通过对网络站点的关键词进行优化、使目标用户在进行粗略的网络搜索时能够快速发现自己的网络站点。具体为，技术人员会首先对待优化的网站进行相关检索，挖掘出网络站点所对应的关键词，再针对挖掘结果进行后续操作。

但是在目前的实际操作过程中，技术人员缺乏相应关键词挖掘工具，大部分的关键词挖掘工作需要技术人员根据自己的操作经验来执行。显而易见的，这样的操作方式中，对于关键词的提取、分类及各参数的设置受人工经验的影响很大、不同操作者的操作结果之间差异明显，存在着无法精确定位找到准确、有效的关键词，以及无法排除没有流量、无效的关键词等诸多问题。

综上所述，如果能够在现有技术的基础上，设计出一种全新的、系统化的关键词挖掘系统及其相对应的关键词挖掘方法，那么势必可以为整个互联网行业的发展提供巨大的帮助。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种关键词挖掘系统及其相对应的关键词挖掘方法，具体方案如下。

一种关键词挖掘系统，包括：

数据存储模块，用于采集和存储关键词信息及网络站点信息，并对所存储的关键词信息及网络站点信息进行实时更新；

网络站点输入模块，与所述数据存储模块信号连接，用于接收来自用户的待挖掘网络站点信息，对待挖掘网路站点信息进行初步处理后存入所述数据存储模块内；

关键词输出模块，分别与所述数据存储模块及所述网络站点输入模块信号连接，用于结合所述网络站点输入模块对待挖掘网路站点信息的初步处理结果以及所述数据存储模块内的关键词信息，输出关键词挖掘结果，所述关键词挖掘结果至少包括行业词推荐信息及相关词推荐信息。

优选地，所述数据存储模块内包括，

关键词信息数据库，用于采集和存储关键词信息，

网络站点信息数据库，用于采集和存储网络站点信息；

所述关键词信息数据库与所述网络站点信息数据库二者间信号连接并实现数据交互，所述关键词信息数据库内的关键词信息与所述网络站点信息数据库内的网络站点信息匹配对应。

优选地，所述网络站点输入模块包括：

网络站点接收单元，与所述网络站点信息数据库信号连接，用于接收来自用户的待挖掘网络站点信息，并将所接收的待挖掘网络站点信息进行转发；

网络站点信息初步查询单元，分别与所述网络站点接收单元及所述关键词信息数据库信号连接，用于接收来自所述网络站点接收单元的待挖掘网络站点信息，对待挖掘网络站点信息进行初步查询、得到初步查询结果后进行转发，所述初步查询结果包括收录查询结果及来源词查询结果。

优选地，所述关键词输出模块包括：

行业词推荐单元，与所述关键词信息数据库信号连接，用于利用数据筛选算法从所述关键词信息数据库内提取关键词信息、作为行业词推荐信息并进行输出；

相关词推荐单元，与所述网络站点信息初步查询单元信号连接，用于依据所述来源词查询结果并利用相似词算法生成相关词信息、作为相关词推荐信息并进行输出。

一种关键词挖掘方法，基于如上所述的关键词挖掘系统，包括如下步骤：

S1、数据存储模块构建，分别构建关键词信息数据库及网络站点信息数据库，并使所述关键词信息数据库与所述网络站点信息数据库二者间数据交互，分别采集和存储关键词信息及网络站点信息并利用所述关键词信息数据库及所述网络站点信息数据库二者间的数据交互实现所述关键词信息数据库内关键词信息与所述网络站点信息数据库内网络站点信息的匹配对应；

S2、待挖掘网络站点信息接收及初步处理，接收来自用户的待挖掘网络站点信息，对待挖掘网路站点信息进行初步查询、得到初步查询结果；

S3、关键词挖掘结果输出，利用所述关键词信息数据库内的关键词信息及所述初步查询结果，生成并输出关键词挖掘结果，所述关键词挖掘结果至少包括行业词推荐信息及相关词推荐信息。

优选地，S1中所述关键词信息数据库与所述网络站点信息数据库二者间数据交互，包括词库向站点流程及站点向词库流程；

在所述词库向站点流程中，所述关键词信息数据库内的关键词信息，经过网络检索后、得到相对应的网络站点信息，再通过结果去重处理，存入所述网络站点信息数据库中；

在所述站点向词库流程中，所述网络站点信息数据库内的网络站点信息，经过站点来源词检索后、得到相对应的关键词信息，再经过数据清洗处理，存入所述关键词信息数据库中。

优选地，所述数据清洗处理方式为基于根词的数据清洗或基于上下文分类的数据清洗；

在基于根词的数据清洗中，首先基于人工定义对所述关键词信息数据库内的全部关键词信息进行分类、形成一级分类及二级分类，其中，所有关键词信息归属于二级分类；再通过wordvect词向量对二级分类下的关键词信息进行词频统计，基于人工定义从统计结果中筛选出三级分类；随后通过各关键词信息所对应的wordvect词向量之间的距离，判断出相近似的关键词并从中挑选出根词；最后利用根词对应二级分类下的关键词信息，将所有包含有根词的关键词信息作为三级分类下的关键词信息；

在基于上下文分类的数据清洗中，首先基于人工定义对所述关键词信息数据库内的全部关键词信息进行分类、形成一级分类及二级分类；再利用词频统计和人工定义的方式，将二级分类中的关键词信息再次划分为三级分类，利用三级分类下的根词进行网络检索，对检索结果进行人工标记；随后采用bert模型对所标记的检索结果进行分类模型训练、最终得到训练后的分类模型；最后利用训练后的分类模型重新对二级分类下的关键词信息进行分类纠正。

优选地，S2包括如下步骤：首先接收来自用户的待挖掘网络站点信息并直接将所接收的待挖掘网络站点信息扩充至所述网络站点信息数据库中；随后对待挖掘网路站点信息进行收录查询、得到收录查询结果并输出；最后对待挖掘网路站点信息进行来源词查询、得到来源词查询结果并将所得到的来源词查询结果扩充至所述关键词信息数据库中。

优选地，S3包括如下步骤：首先利用数据筛选算法从所述关键词信息数据库内提取与待挖掘网络站点信息相对应的关键词信息、作为行业词推荐信息并进行输出；随后依据所述来源词查询结果并利用相似词算法生成相关词信息、作为相关词推荐信息并进行输出。

本发明的优点主要体现在以下几个方面：

本发明所提出的一种关键词挖掘系统，通过系统化、标准化的方式实现了网络站点与关键词之间的匹配对应，对于操作者所输入的网络站点，系统可以快速、准确地输出关键词，避免了现有技术中技术人员的人工经验对于操作结果的影响，不仅有效地解决了无法精确定位找到准确、有效的关键词以及无法排除没有流量、无效的关键词等问题，而且显著地提升了整体的操作效率。

本发明所提出的一种关键词挖掘方法，方法流程明确，操作逻辑清晰，能够很好地配合网络站点优化项目，具有很强的可重复性和操作适应性。

此外，本发明还为其他与网络站点优化项目相关技术方案提供了技术启示与参考，可以以此为依据进行拓展延伸和深入研究，具有很高的使用及推广价值。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

本发明揭示了一种关键词挖掘系统及其相对应的关键词挖掘方法，具体方案如下。

一种关键词挖掘系统，包括：

进一步而言，所述数据存储模块内包括：

关键词信息数据库，用于采集和存储关键词信息；

网络站点信息数据库，用于采集和存储网络站点信息。

此处需要说明的是，所述关键词信息数据库与所述网络站点信息数据库二者间信号连接并实现数据交互，所述关键词信息数据库内的关键词信息与所述网络站点信息数据库内的网络站点信息匹配对应。

进一步而言，所述网络站点输入模块包括：

进一步而言，所述关键词输出模块包括：

综上所述，本发明所提出的一种关键词挖掘系统，通过系统化、标准化的方式实现了网络站点与关键词之间的匹配对应，对于操作者所输入的网络站点，系统可以快速、准确地输出关键词，避免了现有技术中技术人员的人工经验对于操作结果的影响，不仅有效地解决了无法精确定位找到准确、有效的关键词以及无法排除没有流量、无效的关键词等问题，而且显著地提升了整体的操作效率。

一种关键词挖掘方法，基于如上所述的关键词挖掘系统，如图1所示，包括如下步骤：

S1、数据存储模块构建，分别构建关键词信息数据库及网络站点信息数据库，并使所述关键词信息数据库与所述网络站点信息数据库二者间数据交互，分别采集和存储关键词信息及网络站点信息并利用所述关键词信息数据库及所述网络站点信息数据库二者间的数据交互实现所述关键词信息数据库内关键词信息与所述网络站点信息数据库内网络站点信息的匹配对应。

进一步而言，S1中所述关键词信息数据库与所述网络站点信息数据库二者间数据交互，包括词库向站点流程及站点向词库流程。

在所述词库向站点流程中，所述关键词信息数据库内的关键词信息，经过网络检索后、得到相对应的网络站点信息，再通过结果去重处理，存入所述网络站点信息数据库中。

需要补充说明的是，在本实施例中，所述数据清洗处理方式为基于根词的数据清洗或基于上下文分类的数据清洗，操作者可以根据实际场景需要择一使用。

在基于根词的数据清洗中，首先基于人工定义对所述关键词信息数据库内的全部关键词信息进行分类、形成一级分类及二级分类，其中，所有关键词信息归属于二级分类；再通过wordvect词向量对二级分类下的关键词信息进行词频统计，基于人工定义从统计结果中筛选出三级分类；随后通过各关键词信息所对应的wordvect词向量之间的距离，判断出相近似的关键词并从中挑选出根词；最后利用根词对应二级分类下的关键词信息，将所有包含有根词的关键词信息作为三级分类下的关键词信息。

S2、待挖掘网络站点信息接收及初步处理，接收来自用户的待挖掘网络站点信息，对待挖掘网路站点信息进行初步查询、得到初步查询结果。

进一步而言，S2包括如下步骤：首先接收来自用户的待挖掘网络站点信息并直接将所接收的待挖掘网络站点信息扩充至所述网络站点信息数据库中；随后对待挖掘网路站点信息进行收录查询、得到收录查询结果并输出；最后对待挖掘网路站点信息进行来源词查询、得到来源词查询结果并将所得到的来源词查询结果扩充至所述关键词信息数据库中。

此处需要说明的是，这一步骤中所使用到的收录查询及来源词查询的操作方式可以使用现有技术中的任意一种，具体不做限定，仅需要满足使用效果即可。

进一步而言，S3包括如下步骤：首先利用数据筛选算法从所述关键词信息数据库内提取与待挖掘网络站点信息相对应的关键词信息、作为行业词推荐信息并进行输出；随后依据所述来源词查询结果并利用相似词算法生成相关词信息、作为相关词推荐信息并进行输出。

同样的，在这一步骤中的数据筛选算法及相似词算法均存在有较为成熟的现有技术，在此不做具体限定。

综上所述，本发明所提出的一种关键词挖掘方法，方法流程明确，操作逻辑清晰，能够很好地配合网络站点优化项目，具有很强的可重复性和操作适应性。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

最后，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种关键词挖掘方法，其特征在于，包括如下步骤：

S2、待挖掘网络站点信息接收及初步处理，对待挖掘网络站点信息进行初步查询、得到初步查询结果，具体包括首先接收来自用户的待挖掘网络站点信息并直接将所接收的待挖掘网络站点信息扩充至所述网络站点信息数据库中，随后对待挖掘网络站点信息进行收录查询、得到收录查询结果并输出，最后对待挖掘网络站点信息进行来源词查询、得到来源词查询结果并将所得到的来源词查询结果扩充至所述关键词信息数据库中；

S3、关键词挖掘结果输出，利用所述关键词信息数据库内的关键词信息及所述初步查询结果，生成并输出关键词挖掘结果，所述关键词挖掘结果至少包括行业词推荐信息及相关词推荐信息，其中相关词推荐信息为依据S2中来源词查询结果并利用相似词算法生成并输出的信息；

上述S1中两个数据库间数据交互，包括词库向站点流程及站点向词库流程；

在所述站点向词库流程中，所述网络站点信息数据库内的网络站点信息，经过站点来源词检索后、得到相对应的关键词信息，再经过数据清洗处理，存入所述关键词信息数据库中；

其中所述数据清洗处理方式为基于根词的数据清洗或基于上下文分类的数据清洗；

2.根据权利要求1所述的关键词挖掘方法，其特征在于，S3包括：利用数据筛选算法从所述关键词信息数据库内提取与待挖掘网络站点信息相对应的关键词信息、作为行业词推荐信息并进行输出。

3.一种关键词挖掘系统，用于实施权利要求1至2中任一项所述关键词挖掘方法，其特征在于，包括：

网络站点输入模块，与所述数据存储模块信号连接，用于接收来自用户的待挖掘网络站点信息，对待挖掘网络站点信息进行初步处理后存入所述数据存储模块内；

关键词输出模块，分别与所述数据存储模块及所述网络站点输入模块信号连接，用于结合所述网络站点输入模块对待挖掘网络站点信息的初步处理结果以及所述数据存储模块内的关键词信息，输出关键词挖掘结果，所述关键词挖掘结果至少包括行业词推荐信息及相关词推荐信息。

4.根据权利要求3所述的关键词挖掘系统，其特征在于：

所述数据存储模块内包括，

关键词信息数据库，用于采集和存储关键词信息，

网络站点信息数据库，用于采集和存储网络站点信息；

5.根据权利要求4所述的关键词挖掘系统，其特征在于，所述网络站点输入模块包括：

6.根据权利要求5所述的关键词挖掘系统，其特征在于，所述关键词输出模块包括：