CN112163421A

CN112163421A - 一种基于N-Gram的新型关键词提取方法

Info

Publication number: CN112163421A
Application number: CN202011072560.XA
Authority: CN
Inventors: 陈骏轩; 苏劲松
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-01
Anticipated expiration: 2040-10-09
Also published as: CN112163421B

Abstract

本发明涉及一种基于N‑Gram的新型关键词提取方法，包含以下步骤：S1，获取用户输入的第一文本；S2，定义N＝1，对所述第一文本进行N‑Gram分割，得到单字符合集，计算每个单字符的出现概率；S3，提取所述步骤S1中出现概率最高的第一数量的单字符合集，剔除第一文本中不包含所述单字符合集的句子，得到第二文本；S4，定义N＝2；S5，提取所述步骤S4中出现概率最高的第一数量的双字符串合集，剔除第二文本中不包含所述双字符串合集的句子，得到第三文本；S6，对所述双字符串合集进行字符扩展，加入每个双字符串对应所述第三文本中的外围字符，得到多字符串扩展合集，计算并提取出现权重最高的第二数量的多字符串扩展，输出所述多字符串扩展作为关键词。

Description

一种基于N-Gram的新型关键词提取方法

技术领域

本发明涉及关键词提取领域，具体指有一种基于N-Gram的新型关键词提取方法。

背景技术

关键词是用于表达文献主题内容，也是文本信息最重要、最具有概括性的词汇合集。高质量的关键词有助于被读者检索到与其预期关联性强的文本，并且帮助读者快速、大致地了解某个文本的语义。

在传统的关键词提取方法中，通常采用N-Gram算法对文本进行短语分割，之后计算每个短语出现的概率，简单的通过其概率得到关键词。这样的提取方法存在以下缺陷：

1、采用N-Gram算法通常需要定义N＝1、2、3…M，从而将文本划分成单个字符的短语、2个字符的短语、3个字符的短语、…M个字符的短语，其短语数量非常庞大，计算时间长；

2、采用N-Gram算法只能单纯地计算各个短语的出现频率，在大部分文本中，例如“的”、“是”等常用的中文字符出现的概率本身较高，但是其单独包含的信息量少，且与文本的语义内容关联性低，不适合使用该短语作为关键词。

针对上述的现有技术存在的问题设计一种基于N-Gram的新型关键词提取方法是本发明研究的目的。

发明内容

针对上述现有技术存在的问题，本发明在于提供一种基于N-Gram的新型关键词提取方法，能够有效解决上述现有技术存在的问题。

本发明的技术方案是：

一种基于N-Gram的新型关键词提取方法，包含以下步骤：

S1，获取用户输入的第一文本；

S2，定义N＝1，对所述第一文本进行N-Gram分割，得到单字符合集，计算每个单字符的出现概率；

S3，提取所述步骤S1中出现概率最高的第一数量的单字符合集，剔除第一文本中不包含所述单字符合集的句子，得到第二文本；

S4，定义N＝2，对所述第二文本进行N-Gram分割，得到双字符串合集，计算每个双字符串的出现概率；

S5，提取所述步骤S4中出现概率最高的第一数量的双字符串合集，剔除第二文本中不包含所述双字符串合集的句子，得到第三文本；

S6，对所述双字符串合集进行字符扩展，加入每个双字符串对应所述第三文本中的外围字符，得到多字符串扩展合集，计算并提取出现权重最高的第二数量的多字符串扩展，输出所述多字符串扩展作为关键词。

进一步地，所述第一数量为5-30。

进一步地，步骤S6中，所述加入每个双字符串对应所述第三文本中的外围字符具体为：

定义M为大于等于零的整数，加入每个双字符串的前端对应所述第三文本中的前M-m个字符并且加入每个双字符串的后端对应所述第三文本中的后m个字符得到2M个扩展字符串，其中m为0-M的任意整数。

进一步地，所述M为0-5的任意整数。

进一步地，所述计算并提取出现权重最高的第二数量的多字符串扩展具体为：

计算并提取出现概率最高的第二数量的多字符串扩展；

提取每个多字符串中属于所述单字符合集的单字符，累加所述每个单字符的出现概率P，根据P的大小定义所述多字符串扩展的出现权重；

提取出现权重最高的第二数量的多字符串扩展。

进一步地，所述第二数量为10-20。

因此，本发明提供以下的效果和/或优点：

本发明通过该方法可以通过N-Gram的分割计算单字符、双字符的出现概率，并提取出现概率最高的单、双字符。同时，通过剔除不含单字符合集、不含双字符合集的句子，得到第三文本，可以大大缩减计算次数，减少无关语句对计算造成的影响。最后已第三文本进行扩展，可以得到更加适合的关键词。

本发明通过对双字符串合集进行扩展，可以得到双字符串增加前后若干字符的多字符串扩展合集，其包含有双字符串前后的重要信息，方便读者阅读其包含的前后信息。提高关键词的内容含量。

应当明白，本发明的上文的概述和下面的详细说明是示例性和解释性的，并且意在提供对如要求保护的本发明的进一步的解释。

附图说明

图1为本方法的流程示意图。

具体实施方式

为了便于本领域技术人员理解，现将实施例结合附图对本发明的结构作进一步详细描述：

参考图1，一种基于N-Gram的新型关键词提取方法，包含以下步骤：

S1，获取用户输入的第一文本；

例如输入“傅里叶变换的目的是可将时域上的信号转变为频域(即频率域)上的信号，随着域的不同，对同一个事物的了解角度也就随之改变，因此在时域中某些不好处理的地方，在频域就可以较为简单的处理。”

通过上述文本，经过N＝1的N-Gram分割后得到：“傅，里，叶，变，换，的…在，频，域，就，可，以，较，为，简，单，的，处，理。”这样一个单字符合集。

进一步地，所述第一数量为5-30。

定义M为大于等于零的整数，加入每个双字符串的前端对应所述第三文本中的前M-m个字符并且加入每个双字符串的后端对应所述第三文本中的后m个字符得到2M个扩展字符串，其中m为0-M的任意整数，所述M为0-5的任意整数。

计算并提取出现概率最高的第二数量的多字符串扩展；

提取出现权重最高的第二数量的多字符串扩展，所述第二数量为10-20。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属于本发明的涵盖范围。

Claims

1.一种基于N-Gram的新型关键词提取方法，其特征在于：包含以下步骤：

S1，获取用户输入的第一文本；

2.根据权利要求1所述的一种基于N-Gram的新型关键词提取方法，其特征在于：所述第一数量为5-30。

3.根据权利要求1所述的一种基于N-Gram的新型关键词提取方法，其特征在于：步骤S6中，所述加入每个双字符串对应所述第三文本中的外围字符具体为：

4.根据权利要求3所述的一种基于N-Gram的新型关键词提取方法，其特征在于：所述M为0-5的任意整数。

5.根据权利要求1所述的一种基于N-Gram的新型关键词提取方法，其特征在于：所述计算并提取出现权重最高的第二数量的多字符串扩展具体为：

计算并提取出现概率最高的第二数量的多字符串扩展；

提取出现权重最高的第二数量的多字符串扩展。

6.根据权利要求5所述的一种基于N-Gram的新型关键词提取方法，其特征在于：所述第二数量为10-20。