CN117494726B

CN117494726B - 一种情报关键词提取方法

Info

Publication number: CN117494726B
Application number: CN202311841515.XA
Authority: CN
Inventors: 于蓓莉; 陈萍秀; 柴苗岭; 何林; 赵月
Original assignee: Chengdu Aeronautic Polytechnic
Current assignee: Chengdu Aeronautic Polytechnic
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-12
Anticipated expiration: 2043-12-29
Also published as: CN117494726A

Abstract

本发明公开了一种情报关键词提取方法，属于关键词提取技术领域，包括以下步骤：S1、获取待处理情报文本，并将待处理情报文本均匀划分为若干个情报文本块；S2、计算各个情报文本块的语义适应度；S3、提取所有情报文本块的关键词，生成关键词序列；S4、利用各个情报文本块的语义适应度，对关键词序列进行更新，确定待处理情报文本的所有关键词。本发明公开了一种情报关键词提取方法，可以对多个情报文本块进行单独的语义分析，得到表征各个情报文本块语义情况的语义适应度，并利用语义适应度对所有情报文本块的关键词进行更新修正，保证提取的关键词准确无误，进而提高情报信息处理能力，大大提高情报查找效率。

Description

一种情报关键词提取方法

技术领域

本发明属于关键词提取技术领域，具体涉及一种情报关键词提取方法。

背景技术

情报工作是一项非常复杂且庞大的工程，特别是情报信息来源丰富，内容结构不一致，数据体量庞大，情报文本的关键词可以帮助用户快速了解情报表述内容。而传统提取关键词的机器算法加人工筛选中需要投入大量人力和机器算力，已无法满足互联网信息爆炸式高速发展所产生的数据资料处理的需求。

发明内容

本发明为了解决以上问题，提出了一种情报关键词提取方法。

本发明的技术方案是：一种情报关键词提取方法包括以下步骤：

S1、获取待处理情报文本，并将待处理情报文本均匀划分为若干个情报文本块；

S2、计算各个情报文本块的语义适应度；

S3、提取所有情报文本块的关键词，生成关键词序列；

S4、利用各个情报文本块的语义适应度，对关键词序列进行更新，确定待处理情报文本的所有关键词。

进一步地，S2包括以下子步骤：

S21、提取情报文本块中各个单词的词频，生成词频集合；

S22、构建语义筛选条件，将词频满足语义筛选条件的单词作为语义单词集合的子集；

S23、提取语义单词集合中各个单词的逆文本频率，生成语义特征矩阵；

S24、对语义特征矩阵进行奇异值分解，将语义特征矩阵的奇异值作为情报文本块的语义适应度。

上述进一步方案的有益效果是：在本发明中，根据情报文本块中各个单词的词频参数和逆文本频率参数来确定一个包含单词特征参数的语义特征矩阵，该语义特征矩阵的奇异值可以作为整个情报文本块的语义适应度，来表征整个情报文本块的单词词频等参数分布情况。

进一步地，S22中，语义筛选条件的表达式为：

；

式中，表示词频集合的最大值，/>表示词频集合的最小值，/>表示情报文本块中第/>个单词的词频，/>表示词频集合中所有词频的标准差，/>表示情报文本块的文本长度。

进一步地，S23中，语义特征矩阵的表达式为：

；

式中，表示语义单词集合中第一个单词在所属情报文本块的逆文本频率，表示语义单词集合中第二个单词在所属情报文本块的逆文本频率，表示语义单词集合中第个单词在所属情报文本块的逆文本频率，表示语义单词集合中第个单词在所属情报文本块的逆文本频率，表示语义单词集合的单词个数，表示转置。

进一步地，S3中，利用TextRank算法提取各个情报文本块的关键词，生成关键词序列。

TextRank算法是一种基于图的排序算法，可以用于关键词提取的文本摘要抽取。

进一步地，S4包括以下子步骤：

S41、从关键词序列中随机选择一个关键词作为第一优化关键词，将关键词序列中词频最大且与第一优化关键词不同的关键词作为第二优化关键词；这里的词频指该关键词在整个待处理情报文本的词频。

S42、判断第一优化关键词和第二优化关键词是否属于同一情报文本块，若是则进入S43，否则进入S44；

S43、将第一优化关键词所属情报文本块的语义适应度作为优化语义适应度，并进入S45；

S44、将第一优化关键词所属情报文本块的语义适应度与第二优化关键词所属情报文本块的语义适应度之间的均值作为优化语义适应度，并进入S45；

S45、根据优化语义适应度以及关键词序列中词频最小的关键词所属情报文本块的语义适应度，确定最佳语义适应度；这里的词频指该关键词在整个待处理情报文本的词频。

S46、判断关键词序列中是否存在词频小于最佳语义适应度的关键词，若是则进入S47，否则不对关键词序列进行更新；这里的词频指该关键词在整个待处理情报文本的词频。

S47、计算词频小于最佳语义适应度的各个关键词在待处理情报文本中的语义置信度；这里的词频指该关键词在整个待处理情报文本的词频。

S48、根据词频小于最佳语义适应度的各个关键词在待处理情报文本中的语义置信度，对关键词集合进行更新。

上述进一步方案的有益效果是：在本发明中，通过随机选择的关键词所属情报文本块以及整个待处理情报文本中词频最大的关键词所属情报文本块来确定一个优化语义适应度，并对优化语义适应度进行修正调整，得到最佳语义适应度，通过最佳语义适应度来判断是否进行关键词更新，保证提取的所有关键词准确且恰当。

进一步地，S45中，最佳语义适应度的计算公式为：

；

式中，表示第一优化关键词所属情报文本块的语义适应度，/>表示第二优化关键词所属情报文本块的语义适应度，/>表示优化语义适应度，/>表示情报文本块的个数，/>表示关键词序列中词频最小的关键词所属情报文本块的语义适应度，/>表示所有情报文本块的最小语义适应度，/>表示指数函数，/>表示最大值函数。

进一步地，S47中，词频小于最佳语义适应度的关键词在待处理情报文本中的语义置信度的计算公式为：

；

式中，表示待处理情报文本的文本长度，/>表示情报文本块的个数，/>表示第个情报文本块的语义适应度，/>表示关键词在待处理文本中的词频。

进一步地，S48中，对关键词集合进行更新的具体方法为：将语义置信度小于0.5的关键词从关键词集合中剔除，完成更新。

本发明的有益效果是：本发明公开了一种情报关键词提取方法，可以对多个情报文本块进行单独的语义分析，得到表征各个情报文本块语义情况的语义适应度，并利用语义适应度对所有情报文本块的关键词进行更新修正，保证提取的关键词准确无误，进而提高情报信息处理能力，大大提高情报查找效率。

附图说明

图1为情报关键词提取方法的流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

如图1所示，本发明提供了一种情报关键词提取方法，包括以下步骤：

S2、计算各个情报文本块的语义适应度；

S3、提取所有情报文本块的关键词，生成关键词序列；

在本发明实施例中，S2包括以下子步骤：

S21、提取情报文本块中各个单词的词频，生成词频集合；

在本发明中，根据情报文本块中各个单词的词频参数和逆文本频率参数来确定一个包含单词特征参数的语义特征矩阵，该语义特征矩阵的奇异值可以作为整个情报文本块的语义适应度，来表征整个情报文本块的单词词频等参数分布情况。

在本发明实施例中，S22中，语义筛选条件的表达式为：

；

在本发明实施例中，S23中，语义特征矩阵的表达式为：

；

在本发明实施例中，S3中，利用TextRank算法提取各个情报文本块的关键词，生成关键词序列。

在本发明实施例中，S4包括以下子步骤：

在本发明中，通过随机选择的关键词所属情报文本块以及整个待处理情报文本中词频最大的关键词所属情报文本块来确定一个优化语义适应度，并对优化语义适应度进行修正调整，得到最佳语义适应度，通过最佳语义适应度来判断是否进行关键词更新，保证提取的所有关键词准确且恰当。

在本发明实施例中，S45中，最佳语义适应度的计算公式为：

；

在本发明实施例中，S47中，词频小于最佳语义适应度的关键词在待处理情报文本中的语义置信度的计算公式为：

；

在本发明实施例中，S48中，对关键词集合进行更新的具体方法为：将语义置信度小于0.5的关键词从关键词集合中剔除，完成更新。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种情报关键词提取方法，其特征在于，包括以下步骤：

S2、计算各个情报文本块的语义适应度；

S3、提取所有情报文本块的关键词，生成关键词序列；

S4、利用各个情报文本块的语义适应度，对关键词序列进行更新，确定待处理情报文本的所有关键词；

所述S2包括以下子步骤：

S21、提取情报文本块中各个单词的词频，生成词频集合；

S24、对语义特征矩阵进行奇异值分解，将语义特征矩阵的奇异值作为情报文本块的语义适应度；

所述S4包括以下子步骤：

S41、从关键词序列中随机选择一个关键词作为第一优化关键词，将关键词序列中词频最大且与第一优化关键词不同的关键词作为第二优化关键词；

S45、根据优化语义适应度以及关键词序列中词频最小的关键词所属情报文本块的语义适应度，确定最佳语义适应度；

S46、判断关键词序列中是否存在词频小于最佳语义适应度的关键词，若是则进入S47，否则不对关键词序列进行更新；

S47、计算词频小于最佳语义适应度的各个关键词在待处理情报文本中的语义置信度；

2.根据权利要求1所述的情报关键词提取方法，其特征在于，所述S22中，语义筛选条件的表达式为：

；

3.根据权利要求1所述的情报关键词提取方法，其特征在于，所述S23中，语义特征矩阵的表达式为：

；

式中，表示语义单词集合中第一个单词在所属情报文本块的逆文本频率，/>表示语义单词集合中第二个单词在所属情报文本块的逆文本频率，/>表示语义单词集合中第个单词在所属情报文本块的逆文本频率，/>表示语义单词集合中第/>个单词在所属情报文本块的逆文本频率，/>表示语义单词集合的单词个数，/>表示转置。

4.根据权利要求1所述的情报关键词提取方法，其特征在于，所述S3中，利用TextRank算法提取各个情报文本块的关键词，生成关键词序列。

5.根据权利要求1所述的情报关键词提取方法，其特征在于，所述S45中，最佳语义适应度的计算公式为：

；

6.根据权利要求1所述的情报关键词提取方法，其特征在于，所述S47中，词频小于最佳语义适应度的关键词在待处理情报文本中的语义置信度的计算公式为：

；

式中，表示待处理情报文本的文本长度，/>表示情报文本块的个数，/>表示第/>个情报文本块的语义适应度，/>表示关键词在待处理文本中的词频。

7.根据权利要求1所述的情报关键词提取方法，其特征在于，所述S48中，对关键词集合进行更新的具体方法为：将语义置信度小于0.5的关键词从关键词集合中剔除，完成更新。