CN115391485A

CN115391485A - 关键词分析应用方法及系统、装置及计算机可读介质

Info

Publication number: CN115391485A
Application number: CN202210935055.6A
Authority: CN
Inventors: 吴俊雄; 潘震; 仇恒坦; 杨春蕾
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-25

Abstract

本发明公开了关键词分析应用方法及系统、装置及计算机可读介质，属于自然语言处理技术领域，要解决的技术问题为如何快速对关键词进行分析，并提高其应用。通过中分分词对文本进行关键词提取，将提取的多个关键词作为初始关键词；对多个初始关键词进行预处理，去除停用词、并根据词性筛选关键词；基于每个关键词以其对应的词频构建可视化的词图；基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于关键词之间的语义相似度筛选出近义词、并构建近义词库；基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于语义相似度检索近义词。

Description

关键词分析应用方法及系统、装置及计算机可读介质

技术领域

本发明涉及自然语言处理技术领域，具体地说是关键词分析应用方法及系统、装置及计算机可读介质。

背景技术

关键词是英语“keywords”的翻译结果，是图书馆学的词汇，通常是对包含文字语义信息内容的精简概况。精准的关键词，体现了文字语义的关键信息，基于此特点，用户通过关键词就可以知道文字的大概内容，节省搜索时间。关键词广泛使用于搜索引擎、图书论文索引等领域中。

中文关键词的抽取方法通常有两类，一类基于机器学习算法，代表算法是TextRank，一类基于目前流行的深度学习算法，代表算法是KeyBert。

如何快速对关键词进行分析，并提高其应用，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供关键词分析应用方法及系统、装置及计算机可读介质，来解决如何快速对关键词进行分析，并提高其应用的技术问题。

第一方面，本发明的一种关键词分析应用方法，包括如下步骤：

通过中分分词对文本进行关键词提取，将提取的多个关键词作为初始关键词；

对所述多个初始关键词进行预处理，去除停用词以及重复词、并根据词性筛选关键词，得到最终的关键词；

统计每个关键词在文本中的频率作为所述关键词的词频，基于每个关键词以其对应的词频构建可视化的词图；

基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于关键词之间的语义相似度筛选出近义词、并构建近义词库；

基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于语义相似度检索近义词。

作为优选，通过如下步骤筛选出近义词：

构建语义空间；

对于每个关键词，将所述关键词映射到语义空间得到对应的词向量；

基于词向量依次计算任意两个关键词之间的语义相似度，并将大于阈值的语义相似度对应的两个关键词筛选为近似词。

作为优选，对于N个关键词，基于词向量依次计算任意两个关键词之间的语义相似度，并将大于阈值的语义相似度对应的两个关键词筛选为近似词，包括如下步骤：

对于每个关键词，基于词向量计算所述关键词与所述N个关键词之间的语义相似度，得到N*N的相似度矩阵，所述相似度矩阵中(a,b)坐标位置的语义相似度表示第a个关键词与第b个关键词之间的语义相似度；

设定阈值x，从所述相似度矩阵中筛选出语义相似度大于阈值的坐标位置；

对于筛选出的坐标位置，通过如下步骤进行再次筛选：去除行坐标值和列坐标值相同的坐标位置，如果两个坐标位置对应的两个关键词相同，判定所述两个坐标位置为重复位置，对于重复位置只保留一个坐标位置；

对于最终的坐标位置，将所述坐标位置对应的两个关键词为近义词。

作为优选，所述词性包括名词、介词、形容词和标点词；

关键词的词性限制为名词、专有名词、地址和机构，不是介词、形容词和标点词，基于所述限制词性，筛选出关键词。

第二方面，本发明一种关键词分析应用系统，用于通过第一方面任一项所述的一种关键词分析应用方法对关键词进行分析应用，所述系统包括：

关键词提取模块，所述关键词提取模块用于通过中分分词对文本进行关键词提取，将提取的多个关键词作为初始关键词；；

预处理模块，所述预处理模块用于对所述多个初始关键词进行预处理，去除停用词以及重复词、并根据词性筛选关键词，得到最终的关键词；

词图构建模块，所述词图构建模块用于统计每个关键词在文本中的频率作为所述关键词的词频，基于每个关键词以其对应的词频构建可视化的词图；

近义词库构建模块，所述近义词库构建模块用于基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于关键词之间的语义相似度筛选出近义词、并构建近义词库；；

语义匹配模块，所述语义匹配模块用于基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于语义相似度检索近义词。

作为优选，所述近义词库构建模块用于通过如下步骤筛选近义词：

构建语义空间；

作为优选，对于N个关键词，所述近义词库构建模块用于如下步骤基于词向量依次计算任意两个关键词之间的语义相似度，并将大于阈值的语义相似度对应的两个关键词筛选为近似词：

作为优选，所述词性包括名词、介词、形容词和标点词；

所述预处理模块用于将关键词的词性限制为名词、专有名词、地址和机构，不是介词、形容词和标点词，并用于基于所述限制词性，筛选出关键词。

第三方面，本发明的一种电子装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至4中任一所述的方法。

10、计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至4任一所述的方法。

本发明的关键词分析应用方法及系统、装置及计算机可读介质具有以下优点：

1、分析了关键词在词频和语义上的特点，结合业务需求，探究了关键词的应用；

2、通过词频的分析和应用，将枯燥的文本以词图的形式展现出来，更具有视觉效果；

3、通过语义的分析和应用，探索了近义词和语义匹配两种应用方式，可以满足实际业务场景中的具体需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1一种关键词分析应用方法的分析应用框图；

图2为实施例1一种关键词分析应用方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供关键词分析应用方法及系统、装置及计算机可读介质，用于解决如何快速对关键词进行分析，并提高其应用的技术问题。

实施例1：

本发明一种关键词分析应用方法，对于提取出来的关键词，从词频和语义两个方面进行分析应用，通过词频构建词图，基于语义分析构建近义词库并进行语义匹配。该方法包括如下步骤：

S100、通过中分分词对文本进行关键词提取，将提取的多个关键词作为初始关键词；

S200、对所述多个初始关键词进行预处理，去除停用词以及重复词、并根据词性筛选关键词，得到最终的关键词；

S300、统计每个关键词在文本中的频率作为所述关键词的词频，基于每个关键词以其对应的词频构建可视化的词图；

S400、基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于关键词之间的语义相似度筛选出近义词、并构建近义词库；

S500、基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于语义相似度检索近义词。

本实施例步骤S100对文本内容进行中文分词，并根据业务场景对分词结果进行筛选，得到初始关键词。

步骤S200对步骤S100得到的初始关键词进行预处理，去除停用词以及重复词，并根据限制词性进行关键词筛选。停用词为无用的关键词，重复词为多次出现的关键词，词性包括名词、介词、形容词和标点词等，作为具体实施，关键词的词性限制为名词、专有名词、地址和机构，不是介词、形容词和标点词，基于该限制词性，筛选出关键词。

步骤S300依次统计每个关键词在文本中的频率作为该关键词的词频，并汇聚关键词以及关键词的词频构建可视化的词频，通过词频的分析和应用，将枯燥的文本以词图的形式展现出来，更具有视觉效果。

步骤S400基于语义空间，对关键词进行语义分析并构建近义词库。本实施例中通过如下步骤筛选近义词：

(1)构建语义空间；

(2)对于每个关键词，将所述关键词映射到语义空间得到对应的词向量，词向量包含了语义信息，即语义层面上相似的两个单词，它们在向量空间上也更近；同理，语义层次上两个单词差异越大，它们在向量空间上距离也越远；

(3)基于词向量依次计算任意两个关键词之间的语义相似度，并将大于阈值的语义相似度对应的两个关键词筛选为近似词。

作为近义词筛选的具体实施，对于N个关键词，通过如下步骤进行筛选：

(1)对于每个关键词，基于词向量计算所述关键词与所述N个关键词之间的语义相似度，得到N*N的相似度矩阵，所述相似度矩阵中(a,b)坐标位置的语义相似度表示第a个关键词与第b个关键词之间的语义相似度；

(2)设定阈值x，从所述相似度矩阵中筛选出语义相似度大于阈值的坐标位置；

(3)对于筛选出的坐标位置，通过如下步骤进行再次筛选：去除行坐标值和列坐标值相同的坐标位置，如果两个坐标位置对应的两个关键词相同，判定所述两个坐标位置为重复位置，对于重复位置只保留一个坐标位置；

(4)对于最终的坐标位置，将所述坐标位置对应的两个关键词为近义词。

步骤S500基于语义空间，对关键词进行语义分析并提供了近义词检索的应用。

本实施例通过语义的分析和应用，探索了近义词库和近义词检索两种应用方式，可以满足实际业务场景中的具体需求。效果经过实际检验，具有良好的效果。

实施例2：

本发明一种关键词分析应用系统。包括关键词提取模块、预处理模块、词图构建模块、近义词库构建模块、以及语义匹配模块，该系统可执行实施例1公开的方法，对于提取出来的关键词，从词频和语义两个方面进行分析应用，通过词频构建词图，基于语义分析构建近义词库并进行语义匹配。

关键词提取模块用于通过中分分词对文本进行关键词提取，将提取的多个关键词作为初始关键词。

在具体实施中，该关键词提取模块对文本内容进行中文分词，并根据业务场景对分词结果进行筛选，得到初始关键词。

预处理模块用于对所述多个初始关键词进行预处理，去除停用词以及重复词、并根据词性筛选关键词，得到最终的关键词。

停用词为无用的关键词，重复词为多次出现的关键词。词性包括名词、介词、形容词和标点词等，作为该预处理模块的具体实施，关键词的词性限制为名词、专有名词、地址和机构，不是介词、形容词和标点词，基于该限制词性，筛选出关键词。

词图构建模块用于统计每个关键词在文本中的频率作为所述关键词的词频，基于每个关键词以其对应的词频构建可视化的词图。

该词图构建模块依次统计每个关键词在文本中的频率作为该关键词的词频，并汇聚关键词以及关键词的词频构建可视化的词频，通过词频的分析和应用，将枯燥的文本以词图的形式展现出来，更具有视觉效果。

近义词库构建模块用于基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于关键词之间的语义相似度筛选出近义词、并构建近义词库。

近义词库构建模块用于基于语义空间、对关键词进行语义分析并构建近义词库。该模块用于通过如下步骤筛选近义词：

(1)构建语义空间；

作为近义词筛选的具体实施，对于N个关键词，该模块用于通过如下步骤进行筛选：

语义匹配模块用于基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于语义相似度检索近义词。

语义匹配模块基于语义空间，对关键词进行语义分析并提供了近义词检索的应用。

本实施例的系统，基于词频分析提供了词图应用，通过语义的分析，提供了近义词库和近义词检索两种应用，可以满足实际业务场景中的具体需求。效果经过实际检验，具有良好的效果。

实施例3：

本发明实一种装置，包括：至少一个存储器和至少一个处理器；所述至少一个存储器，用于存储机器可读程序；所述至少一个处理器，用于调用所述机器可读程序，执行实施例1公开的方法。

实施例4：

本发明一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行实施例1公开的方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种关键词分析应用方法，其特征在于包括如下步骤：

2.根据权利要求1所述的关键词分析应用方法，其特征在于通过如下步骤筛选出近义词：

构建语义空间；

3.根据权利要求2所述的关键词分析应用方法，其特征在于对于N个关键词，基于词向量依次计算任意两个关键词之间的语义相似度，并将大于阈值的语义相似度对应的两个关键词筛选为近似词，包括如下步骤：

4.根据权利要求1-3任一项所述的关键词分析应用方法，其特征在于所述词性包括名词、介词、形容词和标点词；

5.一种关键词分析应用系统，其特征在于用于通过如权利要求1-4任一项所述的一种关键词分析应用方法对关键词进行分析应用，所述系统包括：

关键词提取模块，所述关键词提取模块用于通过中分分词对文本进行关键词提取，将提取的多个关键词作为初始关键词；

近义词库构建模块，所述近义词库构建模块用于基于构建的语义空间计算每个关键词的词向量，以词向量之间的余弦夹角为语义相似度指标，基于关键词之间的语义相似度筛选出近义词、并构建近义词库；

6.根据权利要求5所述的关键词分析应用系统，其特征在于所述近义词库构建模块用于通过如下步骤筛选近义词：

构建语义空间；

7.根据权利要求6所述的关键词分析应用系统，其特征在于对于N个关键词，所述近义词库构建模块用于如下步骤基于词向量依次计算任意两个关键词之间的语义相似度，并将大于阈值的语义相似度对应的两个关键词筛选为近似词：

8.根据权利要求5-7任一项所述的关键词分析应用系统，其特征在于所述词性包括名词、介词、形容词和标点词；

9.一种电子装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

10.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至4任一所述的方法。