CN103744837B

CN103744837B - 基于关键词抽取的多文本对照方法

Info

Publication number: CN103744837B
Application number: CN201410031338.3A
Authority: CN
Inventors: 陈里波; 胡子扬; 祁点点
Original assignee: BEIJING EUCITA INFORMATION TECHNOLOGIES Co Ltd
Current assignee: BEIJING EUCITA INFORMATION TECHNOLOGIES Co Ltd
Priority date: 2014-01-23
Filing date: 2014-01-23
Publication date: 2017-01-04
Anticipated expiration: 2034-01-23
Also published as: CN103744837A

Abstract

本发明公开一种基于关键词抽取的多文本对照方法。该多文本对照方法包括步骤：A、把自然语言中的每一句话当作是一个隐马尔科夫链，求出词性标注和分词；B、在隐马尔科夫链模型中加入自定义词库，把自定义词库中的词设置为强相关，在标记词性序列的时候，优先将自定义词库中的词结合为一个词；C、根据给定的词性列表对分词结果进行过滤，去掉停用词；D、根据最终的词性标注和分词进行多文本对照。本发明不仅完成了单文本的关键词提取，且为多文本的快速对比对照提供了一种可行的方案。对于主题类似、不同侧重点的文本，本发明可以识别出它们共同探讨的主题以及每篇文本的侧重点。

Description

基于关键词抽取的多文本对照方法

技术领域

本发明涉及文本识别领域，更具体的说，涉及一种基于关键词抽取的多文本对照方法。

背景技术

统计和分析大量文本信息的一种常用技术就是关键词提取。通常情况下，受制于人力和时间资源，人们无法逐字阅读海量的文本库。关键词抽取技术的目标，就是找出文本里最能体现文本主旨的词汇，方便快速浏览，甄选信息。

专利文献CN101216825公开了一种预测目标网页的标引关键词的方法，该方法包括：获取训练数据集，根据所获取的训练数据集训练决策树；利用训练得到的决策树生成标引关键词的过滤器；利用训练得到的决策树和所生成的过滤器，预测目标网页的标引关键词。该思路是从文本中过滤、剪除非核心词汇，保留下来的作为关键词。这种方法较适用于目标关键词集很小的应用。

专利文献CN103399901A描述了一种基本的关键词抽取方法。先对文本进行预处理；基于预处理后的文本，统计词频和词对的共现信息；将词频大于或等于预设阈值的词作为候选关键词；根据词对的共现信息，计算各候选关键词对文本的重要性；根据计算结果，对候选关键词进行排序，将前N个候选关键词作为文本的关键词。这种方法在传统关键词提取方法的基础上，添加词对共现信息作为关键词对于文本的重要程度的衡量标准，可提高关键词抽取的精度。

专利文献CN101196904提供了一种基于词频和多元文法的新闻关键词抽取方法。通过挖掘文本中潜在关键词的多元文法的词性模式，将其作为关键词抽取算法的依据。在进行新闻关键词抽取时，首先根据潜在词性模式挖掘文本中的多元词组，抽取关键词的候选词集，然后从标题中挖掘未登录的潜在关键词，将潜在关键词也加入候选关键词集中。这种方法可以抽取符合词性模式的多元词组，通常这样的词组表述是连贯的、有意义的。

实际应用中，人们往往需要对比讨论相同或相近主题的不同文本彼此间有何异同，从对照中发现变化、分析潜在规律。常用关键词提取方法无法满足这一需求。关键词是被定义为最能体现文本主旨的少量核心词汇，因而从相同或相近主题的文本中提取的关键词也必定是相同或相似的，所以我们无法单从提取出的关键词集中区分相近主题的文本的不同侧重点。

CN101216825公开的剔除非核心词汇的过程，一方面需要事先准备相当数量的训练数据集，这提高了应用该方法的复杂度，还需要格外注意待处理的文本与训练数据集中的文本的相似程度。另一方面，该方法过滤排除非目标关键词的执行过程，实际上也是削弱文本差异的显著性的过程。

CN103399901A和CN101196904所述的技术方案先从单个文本中找出候选词汇表，再从中选取最有可能表述文本主旨的词汇作为关键词输出。CN103399901A以词汇出现的频率和词对共现作为依据，CN101196904以词频和词性模式作为依据，这两种方法针对单文本提取关键字，无法顾及到多文本的异同对照。

发明内容

本发明的目的就是提出一种不需要额外语料库的，可供快速对比多文本异同的基于关键词抽取的多文本对照方法。

本发明的目的是通过以下技术方案来实现的：

一种基于关键词抽取的多文本对照方法，包括步骤：

A、把自然语言中的每一句话当作是一个隐马尔科夫链，求出词性标注和分词；

B、在隐马尔科夫链模型中，依用户需要定制并加入自定义词库，通过把自定义词库中的词设置为强相关，在标记词性序列的时候，优先将自定义词库中的词结合为一个词；

C、根据给定的词性列表对分词结果进行过滤，去掉停用词；

D、根据最终的词性标注和分词进行多文本对照。

进一步的，所述步骤D包括：

D1、将每个文本设为一组，以组为单位统计对应文本的关键词的词频和权重；将同时出现在两组或两组以上文本的关键词列入中间组；

D2、采用去重计算减少每组的重复词汇；

D3、采用保中运算，强制降低中间组中的关键词在其他组出现的频率。

进一步的，所述步骤D1中，如果关键词同时出现在两组或两组以上文本时，其权重以词频最小的文本为准。

进一步的，所述步骤D2中，用一组预设的规则重新依组别判定组内的每个关键词是否能够继续出现在该组内：

组内频率：是指关键词在特定组里的词频；

组间频率：是指关键词在所有组里边出现的平均频率；

只有关键词A组内词频与该组内各词的平均词频之比值>关键词A在所有组别内的平均词频与各词在所有组别内的平均词频之比值时，我们才会保留关键词A继续留在特定组内,否则将从某特定组内,删去关键词A。

假设有两个文本，分别为组1和组2。两个文本共有n个不同的词汇。对词汇表中的每一个词，下文中称之为A。a)当关键词A出现在文本1时，则关键词A为组1中的词，权重为A在组1的词频；

组1 的词频向量

组1 的权重向量，其中。

b)当关键词A出现在文本2时，则关键词A为组2中的词，权重为A在组2的词频；

组2的词频向量

组2的权重向量，其中。

c)当关键词A同时出现在文本1和文本2时，则关键词A为中间组（记作组3）中的词，权重为A在组1和组2中词频的较小者。

组1和2的重叠（差异云中间部分）权重向量其中，。

通过下面三个公式进行去重计算，分别更新组1，组2和中间组（差异云重叠部分）的权重向量：

公式一，重新计算，组1的权重向量

公式二，重新计算，组2的权重向量

公式三，重新计算，中间组的权重向量

通过去重计算，为判定关键词A究竟属于哪一组提供了更加严格的权重依据，使重复出现的情况大大减少。

即使采用了步骤D2的去重计算，有时也会发生关键词A在中间组出现的同时仍然会在组1或组2中出现的情况，而通过保中计算可以保持关键词A在中间组中显示的优势地位。

进一步的，所述步骤D3中，根据“关键词A在组1～N中(即，非中间组)的最终频率= 关键词A在组1中的原始频率-关键词A在中间组的频率”计算规则，强制降低关键词A在组1～N任意一组出现的频率，从而保持关键词A在中间组中显示的优势地位；所述N为大于１的自然数。

本发明不仅完成了单文本的关键词提取，且为多文本的快速对比对照提供了一种可行的方案。对于主题类似、不同侧重点的文本，本发明可以识别出它们共同探讨的主题以及每篇文本的侧重点。这种方法不需要任何关于文本的背景知识，额外的训练，也不需要语料库。

附图说明

图1是本发明实施例基于关键词抽取的多文示意图本对照方法的示意图；

图2是《十七届三中全会公报》和《十八届三中全会公报》的关键词比对效果示意图。

具体实施方式

下面结合附图和较佳的实施例对本发明作进一步说明。

参见图1，本发明技术方案提出的基于关键词提取的文本对照方法，该方法由提取关键字与文本对照两个主流程实现。

一、提取关键字流程包括以下步骤：

1.1 词性标注与分词。把自然语言中的每一句话当作是一个隐马尔科夫链——这一点使用维特比算法可以求出。对于观测到的数据，概率最大的词性标记序列。这个过程隐含着分词，比如“天安门”会被标记为“NSB-NSM=NSE”，分别表示“地名开始”、“地名中间”和“地名结尾”。

1.2 自定义词库和不可分割词。提取关键字流程中的隐马尔科夫链模型支持加入自定义词库。把自定义词库中的词设置为强相关，该模型在标记词性序列的时候，会优先将自定义词结合为一个词。利用这一机制，本发明技术方案提供了设置不可分割词和垃圾词的方法。

1.3 去除停用词。得到了分词结果和词性标注序列之后，算法会根据给定的词性列表对分词结果进行过滤，比如会把“的”、“了”等这样的助词过滤掉。之后，算法会将标记为垃圾词的词语也过滤掉。

二、文本对照流程以负责比较两篇文本的异同为例进行说明，包括以下步骤：

2.1 幼稚计算。

a)当关键词A出现在文本1时，则关键词A为组1中的词，权重为A在组1的词频；

组1 的词频向量

组1 的权重向量，其中。

组2的词频向量

组2的权重向量，其中。

组1和2的重叠（差异云中间部分）权重向量其中，。

2.2 去重计算。幼稚计算的问题在于会出现较严重的重复计算问题。去重计算要求除了满足幼稚计算的条件外，用一组规则重新依组别判定组内的每个词是否能够继续出现在该组内。例如判定关键词A是否应可以继续出现在组1、组2或组3中，需要满足如下规则：

关键词A组内词频与该组内各词的平均词频之比值>关键词A在所有组别内的平均词频与各词在所有组别内的平均词频之比值。计算公式参照公式一、二、三：

公式一，重新计算，组1的权重向量

公式二，重新计算，组2的权重向量

公式三，重新计算，中间组的权重向量

2.3 保中计算。即使采用了升级计算，有时也会发生关键词A在中间组出现的同时仍然会在组1或组2中出现的情况。通过的计算规则：

关键词A在组1、2中的最终频率= 关键词A在组1中的频率-关键词A在中间组的频率，强制降低关键词A在组1或组2出现的频率，从而保持关键词A在中间组中显示的优势地位。

本发明不仅完成了单文本的关键词提取，且为多文本的快速对比对照提供了一种可行的方案。对于主题类似、不同侧重点的文本，本发明可以识别出它们共同探讨的主题以及每篇文本的侧重点。这种方法不需要任何关于文本的背景知识，额外的训练，也不需要语料库。图2为《十七届三中全会公报》、《十八届三中全会公报》的关键词比对效果。《十七届三中全会公报》的独有的关键词为左侧词组，《十八届三中全会公报》独有的关键词为右侧词组，中间的词为两份公报共同关注的焦点。从图中可以看到《十七届三中全会公报》关注农村工作，《十八届三中全会》关注体制、经济和生态，两次全会都关注社会主义制度的推进和完善。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于关键词抽取的多文本对照方法，包括步骤：

C、根据给定的词性列表对分词结果进行过滤，去掉停用词；

D、根据最终的词性标注和分词进行多文本对照；

所述步骤D包括：

D2、采用去重计算减少每组的重复词汇；

D3、采用保中运算，强制降低中间组中的关键词在其他组出现的频率；

所述步骤D3中，保中运算是根据“关键词A在组1～N中的最终频率＝关键词A在组1中的原始频率-关键词A在中间组的频率”计算规则，强制降低关键词A在组1～N任意一组出现的频率，从而保持关键词A在中间组中显示的优势地位；所述N为大于1的自然数。

2.如权利要求1所述的一种基于关键词抽取的多文本对照方法，其特征在于，所述步骤D1中，如果关键词同时出现在两组或两组以上文本时，其权重以词频最小的文本为准。

3.如权利要求1所述的一种基于关键词抽取的多文本对照方法，其特征在于，所述步骤D2中,用一组预设的规则重新依组别判定组内的每个关键词是否能够继续出现在特定组内：只有关键词A组内词频与该组内各词的平均词频之比值>关键词A在所有组别内的平均词频与各词在所有组别内的平均词频之比值时，保留关键词A继续留在特定组内,否则将从特定组内删去关键词A；关键词A为各组中任意一个关键词。