CN108763196A

CN108763196A - 一种基于pmi的关键字提取方法

Info

Publication number: CN108763196A
Application number: CN201810412313.6A
Authority: CN
Inventors: 郭钰君; 韩德志; 王军; 毕坤; 俞云萍
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2018-05-03
Filing date: 2018-05-03
Publication date: 2018-11-06

Abstract

本发明提出一种基于PMI（点互信息算法）的关键字提取方法。本发明基于PMI的关键字提取，使用PMI算法确定候选词之间的语义相关性，将相关性较大的词放在一个数组中，数组中的每个元素的包含3个信息：词数，词频和权重。将切分的词语生成候选词集合，根据TF‑IDF（词频‑逆文本频率）权重计算公式，计算出每一个切分词的权重，并对其进行排序，选取最靠前的几个词语作为候选关键字，再根据候选关键字所在的数组中，选择相关性较大的词，组成具有语义相关性的关键字集合。本发明极大的降低了在文章中出现频率不高或在文档中位置不重要但对于文档具有关键意义的词语的忽略程度，方便用户检索到相关性较高的文本结果集。

Description

一种基于PMI的关键字提取方法

技术领域

本发明涉及信息检索领域，尤其涉及一种基于PMI的关键字提取方法，对给定的文本数据进行分词并提取关键字以便提高用户检索速度，通过考虑词与词之间的相关性，提高了检索的准确性和高效性。

背景技术

关键词提取的概念随着信息检索的出现而产生，信息方法的发展使得信息数据的数量成指数级增长，面对如此庞大的数据集，查找符合查询条件的数据是一大方法难点。引入关键词的概念，对大量的数据集进行切分和提取关键信息，选择最具代表性的词作为关键字。

目前，关键字提取领域，最基础也最核心的处理算法是TD-IDF算法。TF-IDF是一种用于信息检索与文本挖掘的常用加权方法。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜索结果中出现的顺序。

为了挖掘更深层次的信息，又提出了主题模型(TopicModel)，主题模型在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲，如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。比方说，如果一篇文章是在讲狗的，那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的，那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是，一篇文章通常包含多种主题，而且每个主题所占比例各不相同。因此，如果一篇文章10％和猫有关，90％和狗有关，那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档，统计文档内的词语，根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。

当前，还提出了一些基于PageRank的TextRank算法，用于为文本生成关键字和摘要。PageRank的两条基本思想是:如果一个网页被许多其他网页链接到，说明这个网页比较重要；如果一个网页被一个权值很高的网页链接到，则其重要性也会相应增加。TextRank算法是由PageRank算法改进而来，TextRank多了一个权重的参数，用来表示两个节点之间的边连接有不同的重要程度。TextRank将生成的候选关键词组成关键词图，然后采用共现关系构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。将出现在同一窗口的词根据权重公式计算其权重大小。

发明内容

本发明提出了一种基于PMI的关键字提取方法，能有效的提取文本数据中的关键字，并根据词与词之间的语义相关性，在用户输入关键字搜索时，系统能有效对关键字进行拓展，最大限度的满足用户的搜索目的。

为了实现以上目的，本发明是通过以下方法实现的：

1)对文档D进行分词和词性标注，获得候选词语列表CW；

2)去除CW中的停用词后，保留形容词、副词、短语、缩写词、动词、动名词和名词，获得词语集合W＝{w₁,w₂,…,w_n}；

3)记录词语集合W中的词语长度、词语文本、词语位置以及词语词性；

4)按照PMI算法的计算方法计算词语集合W中词语间的语义相似度。计算过程为：

其中，p(x)和p(y)分别表示字串x和y在总体语料库中的概率，p(x,y)表示字串x和y同时出现在语料库同一篇文档的概率。在概率论中，我们知道，如果x与y不相关，则p(x,y)＝p(x)p(y)；二者相关性越大，则p(x,y)就相比于p(x)p(y)越大。后面的式子表示：在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x)即表示x与y的相关度。这里的log来自信息论的理论，而且log1＝0，也正好表明当p(x,y)＝p(x)p(y)时，相关性为0，而且log是单调递增函数，所以p(x,y)相比于p(x)p(y)越大，x与y相关性越大这一性质得以保留。

5)计算完词语集合W中两两之间的相关性后，将相关性超过相关性阙值的候选词放到同一个数组R中，R＝[r₁,r₂,…,r_n]，其中每一个数组元素存储3个属性：词数、词频和权值，词数是指字串出现在语料库中的次数，词频表示字串出现在语料库中的频率，权值根据用户的搜索该字串的次数和频率而得到一个搜索权值。

r_i(n_i,p_i,w_i)

其中n_i表示第i个元素的词数，p_i表示第i个元素的词频，w_i表示第i个元素的搜索权值。

6)根据TF-IDF的计算权值的公式计算每一个候选字的权值，排序后得到权值向量w。词语w_i在文档D中的词频tf_i定义为：

其中，n_i是词语w_i在文档D中出现的次数；分母是文档中所有词语出现的次数的总和，词频越大，词语越可能是关键词。逆文档频率(IDF)是词语普遍重要性的度量。包含词语的文档越少则IDF越大，表明词语有很好的区分能力。词语w_i在文档集合DS中的逆向文档频率idf_i定义为：

其中|DS|是指语料库中的文件总数；分母是包含w_i的文档数目。

词语w_i的词频‐逆向文档频率(TF-IDF)tfidf_i定义为：

tfidf_i＝tf_i×idf_i

7)根据权值向量w，选择排序前几位的候选词组成关键字集合，同时构建一个映射函数h，来表示关键字与存在关键字的数组R的关系。该映射函数的目的是，当用户输入关键字时，系统会自动匹配到与关键字相似度极高的数组，提取前几个，然后和数据库中进行匹配，目的是扩大搜索范围，使得搜索结果更加准确有效。

8)根据权值向量，选择排序前几位的候选词组成关键字集合，同时构建一个映射函数，来表示关键字与存在关键字的数组R的关系。

9)当用户输入关键字时，系统会自动匹配到与关键字相似度极高的数组，提取前几个，然后和数据库中进行匹配，将含有R数组中相似度极高的关键词的文本作为搜索结果集呈现给用户

本发明与现有技术相比，具有以下优点：

1、采用基于PMI的语义相关性算法，比传统的PMI算法的改进之处在于，在提取关键字之后，构建语义相关性数组，在关键字和与关键字相关性较大的候选词之间产生映射关系，极大的降低了在文章中出现频率不高或在文档中位置不重要但对于文档具有关键意义的词语的忽略程度。

2、提高用户搜索结果的准确性和全面性。

附图说明

图1为本发明一种基于PMI的关键字提取方法的流程图

具体实施方法

以下结合附图，通过详细说明一个具体的实施实例，对本发明做进一步阐述。

如图1所示，一种基于PMI的关键字提取方法包含以下步骤：

步骤1：提取需要设置关键字的文本数据，文本数据D的内容为：“程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员，但两者的界限并不非常清楚，特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类”；

步骤2：使用中文分词器，将步骤1提取的文本数据，进行分词处理，去掉无意义的词和停用词，只留下名词、动词、形容词和副词等有用词，从而获取多个词组。[程序员,英文,程序,开发,维护,专业,人员,程序员,分为,程序,设计,人员,程序,编码,人员,界限,特别,中国,软件,人员,分为,程序员,高级,程序员,系统,分析员,项目,经理，程序设计人员，程序编码人员]；

步骤3：使用PMI(点互信息算法)处理步骤2得到的词组集合，确定词语之间的语义相关性，将超过语义相关度阙值的词组放在同一个数组R中；

R₁＝[程序员，程序编码人员，程序设计人员，程序，人员，开发，软件，项目]；

R₂＝[英文]；

R₃＝[维护，系统]；

R₄＝[程序，编码，软件，程序员]；

步骤4：根据TF-IDF的计算权值的公式计算每一个候选字的权值，排序后得到权值向量w。词语w_i在文档D中的词频tf_i定义为：

经过计算得到权值向量：

w＝[程序员,人员,程序,软件,特别,维护,专业,系统,编码,开发,项目,英文]；

步骤5：根据权值向量w，选择排序前几位的候选词组成关键字集合，同时构建一个映射函数h，来表示关键字与存在关键字的R数组的关系；

h₁＝[程序员，R₁]；

h₂＝[程序，R₄]；

步骤6：在检索时，后台根据输入的关键词映射到相应的R数组，从R数组中提取关联词，将包含关联词的文本集作为搜索结果呈现给用户。比如搜索结果集会提供包含关键词为“程序设计人员”和“程序编码人员”的文本文档给用户。这样就达到了本算法的目的；

上述的步骤2中，对文本数据进行分词处理的具体过程是：

采用基于字符串匹配的分词算法也叫做机械分词算法，该算法一般都需要事先建立足够大的分词词典，然后将待分词文本中的字串与分词词典中的词条注意匹配。如果在词典中可以找到该字符串，则说明匹配成功，那么就将该字符串当做一个词从待分词文本中切分出来，否则不切分。本发明主要采用双向然后分析两种扫描的结果。如果两种扫描结果一致，则认为不存在歧义现象；如果不一致，则需要定位到歧义字段处理。对文本数据进行分词操作之后根据网络爬虫和数据统计，排除停用和无效的切分词语，实现对候选关键字的预处理；

上述的步骤3中具体包含：

按照PMI算法的计算方法计算词语集合W中词语间的语义相似度。计算过程为：

上述的步骤4中TF-IDF计算权值的方法采用的是传统计算权值方法，分别计算词语的词频和逆向文档频率。最终根据计算所得的权重进行排序得到权重向量w。

综上所述，本发明一种基于PMI的关键字提取方法，能有效的避免在搜索过程中忽略权值较小但依然是文本的中心词语的操作。可以提供更加准确的搜索结果。相比于其他算法，例如：主题模型算法(在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型)。TextRank算法(加入一个权重的参数，用来表示两个节点之间的边连接有不同的重要程度)。本发明具有以下优势：

尽管本发明的内容已经通过上述实例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于PMI的关键字提取方法，其特征在于包含以下步骤：

步骤1：提取需要设置关键字的文本数据；

步骤2：使用分词算法，将步骤1提取的文本数据，进行分词处理，从而获取多个词组；

步骤3：使用PMI算法处理步骤2得到的词组集合，确定词语之间的语义相关性，将超过语义相关度阙值的词组放在同一个数组R中；

步骤4：根据TF-IDF的计算权值的公式计算每一个候选字的权值，排序后得到权值向量w，词语w_i在文档D中的词频tf_i定义为：

步骤6：在检索时，后台根据输入的关键词映射到相应的R数组，从R数组中提取关联词，将包含关联词的文本集作为搜索结果呈现给用户。

2.根据权利要求1所述的一种基于PMI的关键字提取方法，其特征在于，所述的步骤2中，对文本数据进行分词处理包含以下步骤：

A1，采用双向最大匹配算法，根据分词词典，对文本数据同时进行正向最大匹配和逆向最大匹配扫描；

A2，分析两种扫描的结果；如果两种扫描结果一致，则认为不存在歧义现象；如果不一致，则需要定位到歧义字段处理；

A3，对文本数据进行分词操作之后根据网络爬虫和数据统计，排除停用和无效的切分词语，实现对候选关键字的预处理。

3.根据权利要求1所述的一种基于PMI的关键字提取方法，其特征在于，所述的步骤3中，对词组的处理过程包括以下步骤：

B1，按照PMI算法的计算方法计算词语集合W中词语间的语义相似度。计算过程为：

其中，p(x)和p(y)分别表示字串x和y在总体语料库中的概率，p(x,y)表示字串x和y同时出现在语料库同一篇文档的概率。在概率论中，我们知道，如果x与y不相关，则p(x,y)＝p(x)p(y)；二者相关性越大，则p(x,y)就相比于p(x)p(y)越大。后面的式子表示：在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x)即表示x与y的相关度；

B2，对于同一类型的词存放在同一个数组中，数组中的每个元素的包含3个信息：词数，词频和权重。