CN101719129A

CN101719129A - 一种采用人工智能技术自动提取关键字的方法

Info

Publication number: CN101719129A
Application number: CN200910157017A
Authority: CN
Inventors: 徐颂华; 杨少辉; 刘智满
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2009-12-31
Filing date: 2009-12-31
Publication date: 2010-06-02

Abstract

本发明公开了一种采用人工智能技术自动提取关键字的方法。方法基于从文本相关的背景知识中产生的单词特征进行机器学习而得。首先产生一个由文本中重要信息组成的查询，然后利用产生的查询对维基百科进行全文检索，通过分析获得的维基百科的文章结构去定义新的单词特征，接下来文章体裁也被利用进行定义单词的特征，最后利用机器学习方法在这些产生的特征上运行，从而提取关键字。本发明充分利用维基百科的各种结构信息；提出一种文章到查询的转换方法；利用文章的体裁信息定义单词的特征。可以由计算机自动提取关键字。

Description

一种采用人工智能技术自动提取关键字的方法

技术领域

本发明涉及数据挖掘以及人工智能领域，尤其涉及一种采用人工智能技术自动提取关键字的方法。

背景技术

已经大量的工作来进行关键字的提取工作。1987年Term-weightingapproaches in automatic text retrieval文章介绍了一种简单的基于单词在文章中出现频率的方法来进行关键字提取。2004年Proceedings ofEMNLP-04杂志(文章标题“Textrank：bringing order into texts”)介绍了使用单词的频率，关键词组的频率以及距离来提取关键字。2006年Proceedings ofWAIM(文章标题“Keywordextraction using support vector machine”)介绍单词频率，单词位置，单词词性，单词间联系来提取关键字。2007年Information Processing and Management杂志(文章标题“Using lexical chains for keyword extraction”)介绍了使用语义链特征进行关键字提取。最近维基百科的知识被用于关键字提取工作中。2007年Proceedings ofCIKM(文章标题“Wikify！：linking documents to encyclopedic knowledge”)介绍使用维基百科的链接结构定义新的单词特征进行关键字提取。2009年Proceedingsof WWW(文章标题“Extracting key terms from noisy and multitheme documents”)介绍使用维基百科的标题集合和链接结构进行关键字提取。

还有大量的工作关于使用来自第三方的知识库。2007年Proceedings ofEMNLP-CoNLL(文章标题“Enhancing single-document summarization bycombining ranket and third-party sources”)提出使用第三方的知识库可以提高在自然语言处理中的算法的性能。2005年Proceedings of IJCAI(文章标题“Featuregeneration for text categoriza-tion using world knowledge”)介绍使用来自OpenDirectory Project的知识产生新的单词特征提高原来的文本分类性能。2006年Document Understanding Conference杂志(文章标题“Query independent sentencescoring approach to duc 2006”)提出利用来自物联网的知识来进行文章的总结。

总而言之，我们观察到的相关工作，一些专注于利用外部知识产生新的单词特征，一些外部知识的来源。

发明内容

本发明的目的是克服现有技术的不足，提供一种采用人工智能技术自动提取关键字的方法。

采用人工智能技术自动提取关键字的方法包括以下步骤：

1)通过搜索维基百科获得与文本相关的背景知识，对于给定的文本，利用一个图像算法检测文本中重要的句子，然后对获得的句子除去无意义的单词，并且把剩下的词返回原始形态，最后的结果就是与文本对应的查询，它包含了文本中的重要信息，一个全文检索引擎利用该查询搜索维基百科，返回的结果能提供该文本的背景知识；

2)分析返回的维基百科文章的结构，对于每一个返回的维基百科文章，分析它的结构，提取导入链接，导出链接，种类和infobox四种不同的结构信息，并且组成相应的集合；

3)通过使用维基百科的背景知识产生单词的特征，根据文章的体裁信息产生单词的特征，利用文章本身的信息来产生单词的特征，共同组成一个特征空间；

4)对产生的单词特征空间进行机器学习，使用支持向量机算法对上面的特征空间进行机器学习，通过训练得到一个模型，并利用这个模型进行关键字的自动提取。

所述的步骤1)：

a)把文本中的句子构建一个图，图中的点代表句子，连接点的边代表句子间的联系，边的权重由两个句子的相似程度决定，利用这个图检测文本中的重要句子；

b)通过计算出的每一个关键节点都代表一个关键句，根据无意义单词列表除去句子中的无意义单词；

c)把处理完的单词返回原始形态，然后利用剩下的单词组成对应于文章的查询；

d)把产生的查询输入到一个全文检索引擎Zettair，该引擎在维基百科上运行，根据与查询的相关程度返回维基百科中的文章，并按照相关程度排序，获得一个维基百科中的相关文章组成的集合。

所述的步骤2)为：

e)对于集合中的每一个文章，提取出其中的导入链接，产生一个导入链接集合，导入链接把维基百科其它位置的文章链接到当前文章，利用MediaWikiAPI获得某个文章的所有导入链接集合。

f)对于集合中的每一个文章，提取出其中的导出链接，并组成一个导出链接集合，导出链接把当前文章指向维基百科其它位置，导出链接在文章的文本中以超链接的形式存在，通过提取文章中所有的超链接获得该文章的导出链接集合；

g)对每一个文章提取它的种类信息，并组成一个种类集合；

h)维基百科文章中的infobox是文章中重要信息的一个总结，对每一个含有infobox的文章提取infobox中的参数值，组成一个infobox参数值集合，同时扔掉infobox种的参数名信息。

所述的步骤3)为：

i)对于维基百科文章的导入链接结构中的每一个链接，利用WordNet比较它与候选单词的相似程度，同时考虑文章在全文检索引擎的返回得分，计算出这个候选单词的导入链接特征；

j)对于维基百科文章的导出链接结构中的每一个链接，利用WordNet比较它与候选单词的相似程度，同时考虑文章在全文检索引擎的返回得分，计算出这个候选单词的导出链接特征；

k)对于维基百科文章的种类集合的每一个元素，利用维基百科的种类图来计算它与候选单词之间的相似程度，同时考虑到该文章在全文检索引擎的得分，计算出该候选单词的种类特征；

l)对于维基百科文章的infobox参数值集合中的每一个元素，利用WordNet计算其与候选单词之间的相似程度，同时考虑到该文章在全文检索引擎的得分，计算出该候选单词的infobox特征；

m)提取包括外表特征，字符特征，结构特征在内的文章体裁特征，然后测量两个文章的题材相似程度；

n)使用一个包含很多体裁文章的文章集合，给定一个文章，从集合中找出体裁相似程度最近的300个文章，提取它们的标题，除去其中无意义的单词，对每一个这样的单词，计算单词的出现次数，并且计算单词与文章的题材相似程度；

o)同时使用一些广泛使用的单词的特征，单词在文章中出现的频率，单词在文章中的位置，单词是否指代特殊的人名或地名，单词长度以及单词是否出现在总结的句子中。

所述的步骤4)为：

p)使用支持向量机算法在上面产生的文本特征空间上运行，把候选单词分为关键词和非关键词；

q)在使用支持向量机算法进行训练时，出现在标题中的单词作为正面的例子，其它的单词作为反面的例子，然后训练一个支持向量模型，利用这个模型进行关键字的提取；

r)根据在机器学习中的决定值的大小，利用一个参数靠控制提取关键词的数量，对提取出的关键字进行排序，排序高的候选单词成为关键字的可能性越高。

本发明与现有技术相比具有的有益效果：

(1)充分利用维基百科的各种结构信息；

(2)提出一种文章到查询的转换方法；

(3)利用文章的体裁信息定义单词的特征。

附图说明

图1是采用人工智能技术自动提取关键字的方法软件流程图；

图2是本发明的一个infobox的例子及其相应的代码示意图；

图3从维基百科中获取背景知识的流程图；

图4是本发明的自动提取并显示关键字的例子的示意图。

具体实施方式

采用人工智能技术自动提取关键字的计算机方法包括以下步骤：

所述的步骤1)：

所述的步骤2)为：

g)对每一个文章提取它的种类信息，并组成一个种类集合；

所述的步骤3)为：

所述的步骤4)为：

实施例

如图1所示，本发明所述的实施系统的流程包括文章相关背景知识获取101，分析返回维基百科文章结构102，利用维基百科结构和体裁定义新的单词特征103，通过机器学习实现自动关键字提取104。

文章相关背景知识获取101：在本示例中，该部分包括以下步骤：

(A)检测文章中的关键句子，其步骤详述如下：

1)把文章中的句子看成图中的点，从而为一个文章产生一个图，本方法采用了Proceedings of EMNLP杂志在2004年所公布的一个检测关键句算法(“TextRank：Bringing order into texts”，233-242，2004)。

2)这个算法基于句子构建一个由一个图，图中的点代表句子，连接点的边代表句子间的联系，边的权重由两个句子的相似程度决定，句子间的相似程度计算方法基于两个句子中的单词，并且利用WordNet考虑到单词间的相似程度，从而得出句子之间的相似程度，计算两个句子间相似程度的函数如下定义：

Similarity (S_{i}, S_{j}) = \frac{\underset{W_{p} &Element; S_{i}}{Σ} \underset{W_{q} &Element; S_{j}}{Σ} σ_{1} (W_{p}, W_{q})}{\log (| S_{i} |) + \log (| S_{j} |)}

其中S表示句子，W表示句子中的单词，||符号代表句子中包含的单词数目，σ₁(W_p，W_q)利用WordNet测量两个单词之间的相似程度。

3)利用WordNet测量单词之间的相似程度，本方法应用了Proceedings ofAAAI杂志于2004年公布的一篇文章(“Wodnet::Similarity-measuring therelatedness of concepts”，Proceedings of the Nineteenth National Conference onArtificial Intelligence，2004)所提出的一种基于WordNet的单词间相似程度计算方法。

(B)对步骤(A)中检测的关键句进行处理，得到相应的查询，其步骤详述如下：

1)对关键句子除去无意义的单词，本方法应用了ACM Forum杂志在1989年所公布的一个无意义单词表(“A stop list for general text”，ACM Forum，24(1-2)：19-21，1989)除去句子中无意义的词。

2)对剩下的单词返回其原始形态，利用处理后的结果组成对应于文章的查询。

(C)利用产生的查询对维基百科进行检索，其步骤详述如下：

1)利用产生的查询对维基百科进行全文检索，本方法应用了ProceedingsText Retrieval Conference杂志于2004年公布的一篇文章(“RMIT University atTREC 2004”，Proceedings Text Retrieval Conference)所提出的一个全文搜索引擎Zettair对维基百科进行全文检索，返回一系列相关的文章标题。

2)按照与查询的相关程度对返回的结果文章进行排序，并取前N个文章，这样我们获得一个维基百科中的相关文章组成的集合，N的值可以调节。分析返回维基百科文章结构102：在本示例中，该部分包括以下步骤：

(D)从维基百科文章中提取链接结构，包括导入链接和导出链接，其步骤详述如下：

1)导入链接把维基百科其它位置的文章链接到当前文章，本方法应用了Proceedings of ISWC杂志于2006年公布的一篇文章(“Semantic MediaWiki”，Proceedings of 5^th International Semantic Web Conference，935-942，2006)所提出的MediaWiki API获得某个文章的所有导入链接集合。

2)导出链接把当前文章指向维基百科其它位置，导出链接在文章的文本中以超链接的形式存在，通过提取文章中所有的超链接获得该文章的导出链接集合。

(E)从维基百科文章中提取种类信息和infobox参数值信息，其步骤详述如下：

1)种类结构是维基百科的重要特征，它把关联的文章放在一起，方便用户阅读，我们对一步对每一个文章提取它的种类信息，并组成一个种类集合。

2)维基百科文章中的infobox是文章中重要信息的一个总结，对每一个含有infobox的文章提取infobox中的参数值，组成一个infobox参数值集合，同时扔掉infobox种的参数名信息。

利用维基百科结构和体裁定义新的单词特征103：在本示例中，该部分包括以下步骤：

(F)利用维基百科文章的结构信息定义新的单词特征，其步骤详述如下：

1)对于维基百科文章的导入链接结构中的每一个链接，利用WordNet比较它与候选单词的相似程度，同时考虑文章在全文检索引擎的返回得分，计算出这个候选单词的导入链接特征。特征值由以下函数计算：

S_{I} (x_{i}, Π) = \frac{\underset{p_{r} &Element; Π}{Σ} [z (p_{r}) \cdot \underset{k &Element; IT (p_{r})}{Σ} σ_{1} (x_{i}, k)]}{\underset{p_{r} &Element; Π}{Σ} z (p_{r}) \cdot | IT (p_{r}) |}

其中∏表示前面获得维基百科文章集合，x_i表示一个候选单词，p_r表示∏中的一个文章，z(p_r)表示全文检索引擎Zettair返回的相关程度得分，σ₁利用WordNet测量两个单词间的相似程度，||表示集合中的元素数量，IT表示导入链接集合。

2)对于维基百科文章的导出链接结构中的每一个链接，利用WordNet比较它与候选单词的相似程度，同时考虑文章在全文检索引擎的返回得分，计算出这个候选单词的导出链接特征。

S_{O} (x_{i}, Π) = \frac{\underset{p_{r} &Element; Π}{Σ} [z (p_{r}) \cdot \underset{k &Element; OT (p_{r})}{Σ} σ_{1} (x_{i}, k)]}{\underset{p_{r} &Element; Π}{Σ} z (p_{r}) \cdot | OT (p_{r}) |}

其中表示OT到处链接集合，其它符号的定义在i)中已经给出。

3)对于维基百科文章的种类集合的每一个元素，利用维基百科的种类图来计算它与候选单词之间的相似程度，同时考虑到该文章在全文检索引擎的得分，计算出该候选单词的种类特征。

S_{C} (x_{i}, Π) = \frac{\underset{p_{r} &Element; Π}{Σ} [z (p_{r}) \cdot \underset{c &Element; C (p_{r})}{Σ} σ_{2} (x_{i}, c)]}{\underset{p_{r} &Element; Π}{Σ} z (p_{r}) \cdot | C (p_{r}) |}

其中C表示一个维基百科文章对应的种类集合，σ₂利用维基百科种类图计算两个单词之间的相似程度。其它符号的定义在i)中已经给出。

4)对于维基百科文章的infobox参数值集合中的每一个元素，利用WordNet计算它与候选单词之间的相似程度，同时考虑到该文章在全文检索引擎的得分，计算出该候选单词的infobox特征。

S_{F} (x_{i}, Π) = \frac{\underset{p_{r} &Element; Π}{Σ} [z (p_{r}) \cdot \underset{k &Element; IV (p_{r})}{Σ} σ_{1} (x_{i}, k)]}{\underset{p_{r} &Element; Π}{Σ} z (p_{r}) \cdot | IV (p_{r}) |}

其中IV代表一个维基百科文章的infobox参数值集合，其它符号的定义已经在i)给出。

(G)利用文章的体裁信息定义新的单词特征，其步骤详述如下：

1)提取文章的体裁特征确定文章的体裁，本方法应用了Proceedings ofHuman Language Technology and Knowledge Management杂志于2001年公布的一篇文章(“The form is the substance：classification of genres in text”，Proceedingsof the workshop on Human Language Technology and Knowledge Management，1-8，2001)所提出的一种利用文章包括结构特征，字符特征，外表特征在内的多项特征确定文章的体裁。

2)测量两个文章的体裁相似度，本方法应用了J.G.Stewart于2008年的一篇博士论文(“Genre Oriented Summarization”)所提出的一种方法测量文章间的体裁相似度。

3)根据单词在文章标题中出现次数来定义单词与文章的题材适应度，本方法使用一个包含很多体裁文章的文章集合，给定一个文章，从集合中找出体裁相似程度最近的300个文章，提取标题，除去标题中无意义的单词，对每一个这样的单词，计算单词的出现次数，并且计算单词与文章的题材相似程度，定义基于体裁的单词权重函数：

WO (w_{i}) = Σ_{k = 1}^{n} θ (d_{j}, d_{j, k})

其中θ是2)提出的测量两个文章的题材相似程度的函数，d_j，k是与d_j体裁相似度最近的300个文章。

4)基于3)的结果进一步提出基于体裁的单词频率函数：

WF (w_{k}) = \frac{WO (w_{k})}{Σ_{t = 1}^{m} WO (w_{t})}

其中m是在300文章中的标题中出现的所有单词数目，基于上面两个公式，接下来定义单词的文章体裁适应性特征，该函数如下定义：

γ (w_{i}, d_{j}) = Σ_{k = 1}^{m} WF (w_{k}) σ_{1} (w_{k}, w_{i})

(H)使用一些广泛使用的单词特征，其步骤详述如下：

1)利用单词在文章中出现的频率计算单词的频率特征，采用标准化的tf.idf去测量单词的频率，本方法应用了Technical Report杂志于1987年公布的一篇文章(“Term-weighting approaches in automatic text retrieval”，Technical report，1987)所提出的方法计算tf.idf的值。

2)利用单词在文章中出现的位置和次数定义单词的首次出现特征，平均特征和最后一次出现特征；指代特殊人名或者地名的单词也被用来定义特征；此外单词的相对长度也被用来刻画单词的特征；最后与总结性的单词，如”insummary”，“in conclusion”出现在一起的单词，其总结特征被定义为1，否则为0。通过机器学习实现自动关键字提取104：使用支持向量机算法在上面产生的文本特征空间上运行，把候选单词分为关键词和非关键词，在使用支持向量机算法进行训练时，出现在标题中的单词作为正面的例子，其它的单词反面的例子，训练集中的数据形式为(F(w₁)，y₁)，...，(F(w_n，y_n))，其中F(w_j)指代第j个单词的特征向量，y_j是对应于单词的类标签，其取值为1或-1，1代表关键字，-1代表非关键字，然后训练一个支持向量模型，利用这个模型进行关键字的提取，根据在机器学习中的决定值的大小，对提取出的关键字进行排序，排序高的候选单词成为关键字的可能性越高，提取关键词的数量通过参数M控制。

Claims

1.一种采用人工智能技术自动提取关键字的方法，其过程在于包括以下步骤：

2.根据权利要求1所述的一种采用人工智能技术自动提取关键字的方法，其特征在于所述的步骤1)：

3.根据权利要求1所述的一种采用人工智能技术自动提取关键字的方法，其特征在于所述的步骤2)为：

g)对每一个文章提取它的种类信息，并组成一个种类集合；

4.根据权利要求1所述的一种采用人工智能技术自动提取关键字的方法，其特征在于所述的步骤3)为：

5.根据权利要求1所述的一种采用人工智能技术自动提取关键字的方法，其特征在于所述的步骤4)为：