CN107577671A

CN107577671A - 一种基于多特征融合的主题词提取方法

Info

Publication number: CN107577671A
Application number: CN201710847333.1A
Authority: CN
Inventors: 胥桂仙
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2018-01-12
Anticipated expiration: 2037-09-19
Also published as: CN107577671B

Abstract

本发明涉及一种基于多特征融合的主题词提取方法，包括以下步骤：通过用户输入的网址自动采集其能访问到的所有页面内容，以获取网页的藏文文本；根据藏文关键词表对获取的藏文文本进行匹配，将出现在藏文关键词表中的词汇选为候选主题词；对所述候选主题词进行权重计算，根据权重对所述候选主题词进行排序，并从排序后的候选主题词中确定一个或多个主题词。本发明提出了一种构建关键词表，将一些重要的低频词筛选为主题词的方法，有效的提高人们从海量数据中获取所需信息的准确性。

Description

一种基于多特征融合的主题词提取方法

技术领域

本发明涉及信息处理领域，尤其涉及一种基于多特征融合的主题词提取方法。

背景技术

主题是文档所表达的中心思想，是计算机表达文档的最有效的方式之一。主题信息挖掘是有效解决文档空间向量高维稀疏性、提高检索质量的重要手段，同时在信息推荐中也起到了重要的作用。主题词通常由若干词或者短语组成，代表着文章的一个内容提要。准确的若干个主题词，可以有效表示文章的基本内容，用户通过这些主题词，可以快速、准确把握文章内容。主题词的抽取通常是运用各种加权算法，计算词汇对文本主题表达的贡献，然后从大到小取前n个词汇作为文本的主题词。

对于主题词提取的研究，国内外很多研究者提出了不同的自动提取方法，归结起来主要有以下几种策略：

(1)基于结构的方法：该方法根据新闻文本中主要信息集中于固定位置的特征，在文本中的相应位置和标题处进行主题词提取，但对于其他类型的文本的处理效果却不理想。

(2)基于统计的方法：该方法主要根据文本中词汇的权重来筛选主题词，通过对文本中每个候选词权重的计算，选择权重大于指定阈值的词汇作为主题词。对于词汇权重的计算可以通过词频或TF-IDF(Term Frequency Inverse Document Frequency，资讯检索资讯探勘的常用加权技术)算法等。基于统计的方法，不需要使用额外的信息，只需要考虑文本语料库本身，计算速度快。

(3)基于自然语言理解的方法：该方法主要是基于人工智能领域的一些算法改进后应用到主题词提取上。主要是通过在一些可以提前获取的语料库上进行模型的训练，得到一个主题词抽取的模型，然后在对需要进行主题词抽取的文本进行处理时，使用该模型进行主题词提取。如TextRank算法，基于主题模型的关键词抽取等。通过这些方法，可以取得比较好的关键词抽取效果。

通过以上分析，本文提出了一种基于多特征融合的主题词提取方法,该方法主要利用高频词、关键词以及文本标题中的词，并基于决策规则进行主题词的提取。

发明内容

对于采用基于统计的方法进行主题词的提取，通过计算词汇出现的频次对词汇进行权重设置，得到的主题词都是出现频率较高的词汇，而有一些也很重要的低频词，却不能提取。为解决现有技术的不足，本发明提出了一种构建关键词表，将一些重要的低频词筛选为主题词的方法，所提取的主题词能够较好的表达文本的主旨，有效的提高人们从海量数据中获取所需信息的准确性。

为实现上述目的，本发明提供了一种基于多特征融合的主题词提取方法包括以下步骤：通过用户输入的网址自动采集其能访问到的所有页面内容，以获取网页的藏文文本；根据藏文关键词表对获取的藏文文本进行匹配，将出现在藏文关键词表中的词汇选为候选主题词；对候选主题词进行权重计算，根据权重对候选主题词进行排序，并从排序后的候选主题词中确定一个或多个主题词。

优选地，将出现在藏文关键词表中的词汇选为候选主题词步骤，包括：将藏文文本中的高频词、关键词和文本标题中的词汇选为候选主题词；如果高频词、关键词和文本标题的词汇个数之和不足n个，则去除重复词汇后全部保留为主题词；如果高频词、关键词和文本标题的词汇个数大于n个，则去除重复词汇后根据公式对词汇的权重进行计算；计算完权重后，根据权重对词汇进行排序，选取前n个词作为主题词。

优选地，去除重复词汇后全部保留为主题词步骤，包括：如果高频词和关键词有重复则保留所述关键词；如果高频词和文本标题中的词汇有重复则保留文本标题中的词汇；如果关键词和文本标题中的词汇有重复则保留文本标题中的词汇。

优选地，所述权重计算公式为：weight(t)＝wp(t)*len(t)*wd(t)；其中，wp(t)代表词汇t的频率，len(t)代表词汇t的长度，wd(t)代表词汇t的加权，高频词加权为wd(t)＝α，关键词加权为wd(t)＝β，文本标题中词汇加权为wd(t)＝γ，且1≤α<β<γ。

优选地，所述高频词是通过齐普夫(Zipf)定律得出，包括，把单词出现的频率按由大到小的顺序进行排列；记录相应的排列位置序号；所述序号和出现的所述频率的乘积近似为一个常数；单词出现的频率越高，其重要性越大。

优选地，所述藏文关键词表通过以下方式获取：选取几大领域的专业词汇构成汉语关键词表，将得到的汉语关键词表翻译成藏语，从而构建成藏文关键词表。

优选地，所述高频词指在正文中的词汇，且词频大于等于2；所述关键词指出现在正文中词汇；所述文本标题中的词汇指标题中的词汇，并剔除没有出现在正文中的词汇。

本发明通过提取出高频词、关键词和文本标题中词汇，然后根据主题词的提取算法对这三部分词进行主题词的提取。这样避免了基于统计的方法进行提取的主题词只是高频词，而导致提取的主题词不准确，通过引入领域关键词表进行主题词的提取，有效的提高了用户获取所需信息的准确性。

附图说明

图1为本发明实施例提供的一种基于多特征融合的主题词提取方法流程示意图；

图2为本发明实施例提供的网络爬虫基本工作流程；

图3为本发明实施例的预处理程序界面图；

图4为本发明实施例的测试样本界面图；

图5为本发明实施例的主题词提取界面图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1为本发明实施例提供的一种基于多特征融合的主题词提取方法流程示意图。如图1所示，一种基于多特征融合的主题词提取方法流程示意图，具体步骤包括：

步骤S110，通过用户输入的网址自动采集其能访问到的所有页面内容，以获取网页的藏文文本。

本文使用网络爬虫进行Web文本的获取。网络爬虫被广泛用于互联网搜索引擎或其他类似网站，它可以自动采集其能访问到的所有页面内容，以获取或更新这些网站的内容。

如图2所示，网络爬虫是通过网页的链接地址来寻找网页，从一个或若干初始网页的URL开始，一般会选择一些比较重要的、出度(网页中链出超链接数)较大的网站的URL作为种子URL集合，遍历Web空间，读取网页的内容，不断从一个站点移动到另一个站点。在抓取网页的过程中，找到在网页中的其他链接地址，对HTML文件进行解析，取出其页面中的子链接，判断URL队列中是否存在该链接，如果不存在就将其存入待爬行URL队列中。如此一直循环下去，直到URL队列不再更新为止或者用户自定义停止策略。所有被爬虫抓取的网页将会被存储，以便之后的使用。

步骤S120，根据藏文关键词表对获取的藏文文本进行匹配，将出现在藏文关键词表中的词汇选为候选主题词。

在进行文本内容分析之前，首先要对文本进行预处理，对文本进行词的切分是预处理的一个重要部分。分词是生成自动文摘的第一步，也是比较重要的一个步骤。

对于藏文而言，利用格助词和接续特征分词，理论上有两大好处。首先，由于这种方法与词典无关，因而避开了未登录词(Unknown Words)问题。其次，词的切分问题转化为格助词及其接续特征的识别问题。

基于格助词和连续特征的藏文分词方法其核心是基于格助词和接续特征的分词，词典只是辅助手段，即方案与词典的相关度很小。这就使得本分词方案对不同领域、不同内容的藏文语料将会表现出较强的适应性。该方法主要分为以下五个阶段：

第一步，用字切分特征、字性库进行“认字”。认字用分字点、标点符号和字性库完成，相对简单。

第二步，用标点符号、关联词进行“断句”。

第三步，用格助词进行“分块”。分块的关键任务是正确识别格助词。

第四部，用词典进行“认词”。认词过程其实就是识别每个块是否是一个“可能”的词的过程。通过分块切分出来的单字块，只要在词典中存在，原则上可认定为一个词。

第五步，进行分词。分词过程是整个流程的最后一步，也是本方案的关键性一步。这里要综合运用已有字词句的接续知识统一扫描一遍整句，来识别兼类格和截断错误。

对文本进行分词后，需要去除其中的没有什么实际含义的功能词，即停用词。

根据统计，如果仅仅根据词频统计来进行文本主题提取，往往会把出现次数较少的、一些描述相关领域的词给过滤掉，而这些描述相关领域的词恰恰能够更好地代表文本的主题。如：“春风化雨”、“耳提面命”、“有教无类”、“学制”、“身教”、“言教”等词常用于与教育有关的文章中；而“天体”、“天象”、“天文台”、“天球仪”等词能够很好的反映出有关天文文章的主题。以上所述的情况会在一定程度上造成主题提取的不准确。

针对此情况，本文选取了工业、教育、农业、饮食、旅行、天文五大领域的专业词汇构建了汉语关键词表，共计1004个词。然后，将得到的汉语关键词表翻译成藏语，从而构建成藏文关键词表。

表1藏文关键词表

步骤S130，对所述候选主题词进行权重计算，根据权重对所述候选主题词进行排序，并从排序后的候选主题词中确定一个或多个主题词。

根据齐普夫(Zipf)定律，把单词出现的频率(f)按由大到小的顺序进行排列，并记录相应的排列位置序号(r)，则序号r和其出现的频率f的乘积f*r近似为一个常数，即

f*r＝b(常数) (1)

其中r＝1,2,3,…,n。

齐普夫定律表明：在英语单词中，经常被使用的单词只有极少数，而绝大多数单词很少被使用。对于藏语也满足齐普夫定律。

通过齐普夫定律可以得出，对于词频越高的词其重要性越大，反之亦然，越重要的词其词频越高。

从文本中提取出的词或词组长度不定，对于藏文而言，词或词组的长度大于等于2才具有实际意义。例如：由“(数据挖掘)”、“(分类)”等词可知，此段文本可能与数据挖掘中的分类知识相关。同时词或词组包含的字符数目越多，在文本中出现频数越高，说明这个词或词组包含的信息也越多，越能够准确指明这段文本的主旨。反之，如果提取出来的词的长度为1，即只提取一个藏语字符，例如“挖”、“类”等，则没有太大的价值。此外，词的位置也影响着词的重要性，一般来说，文献标题中的词比正文中出现的词更重要。根据以上所述，本文提出公式(2)对词汇权重进行计算：

weight(t)＝wp(t)*len(t)*wd(t) (2)

其中，weight(t)代表词汇t的权重；wp(t)代表词汇t的频率；len(t)代表词汇t的长度；wd(t)代表词汇t的加权，高频词加权为wd(t)＝α，关键词加权为wd(t)＝β，文本标题中词汇加权为wd(t)＝γ，且1≤α<β<γ。本文使用"·"来进行词汇的分割以计算词汇的长度。

本文从高频词、关键词、文本标题中的词汇三部分进行主题词的提取。高频词指在正文中的词汇，且词频大于等于2；关键词指出现在正文中词汇；文本标题中的词汇固然重要，但是如果文本标题中的一些词汇没有出现在正文中，则对于主题的反映没有太大的意义，所以本文只将在正文中出现的文本标题词汇进行保留。

假设提取的主题词个数为n，主要思想如下：

(1)将m个高频词、关键词和文本标题中的词汇选为候选主题词；

(2)如果三部分的词个数之和不足n个，则去除重复的词汇后全部保留为主题词；

(3)如果三部分的词个数大于n个，则去除重复的词汇后根据公式(2)对词汇的权重进行计算。

(4)计算完权重后，根据权重对词汇进行排序，选取前n个词作为主题词。

其中，重复词汇的去除规则是：如果高频词和关键词有重复则保留关键词；如果高频词和文本标题中的词汇有重复则保留文本标题中的词汇；如果关键词和文本标题中的词汇有重复则保留文本标题中的词汇。

主题词提取算法如表2所示：

表2主题词提取算法

在本文中，使用Web爬虫的收集所有来自西藏网站的有效网页。在获得Web页面之后，通过预处理将它们转换成结构化的XML文件。处理后的保存结构如图3所示，XML文件将是后续实验的基本数据。

如图4所示，本文从获取的藏文语料库中选取一篇测试样本进行实例分析。

主题词的提取分为三部分进行:一是进行词频统计；二是根据构建的关键词表进行关键词匹配，关键词表包含工业、教育、农业、饮食、旅行、天文五大领域的专业词汇，能够较好的反应相关领域的信息；三是从文本主题中抽取词汇，且抽取的词必须出现在正文中。本文将主题词提取算法中的n值设置为10，即抽取的主题词个数为10或10个以内。

通过藏文句子分割符号单线“|”进行句子识别，该文本句子总数为13句。用“()”对句子序号进行标注，如表3所示。通过分词处理后对文章中包含的词个数进行统计，该文本包含121个词。

图5为本发明实施例的主题词提取界面图。如图5所示，根据词频统计和关键词匹配界面，首先选取需要处理的已分词文本，将待处理文本读入到内存，然后分离出文本标题内容和文章正文分别保存在两个List链表中。在统计词频前还需要对标题和正文中的停用词进行过滤，以提高高频词的可靠性。

下表3列出了文本中词频排名前10的词汇及词频情况，这些词从不同的角度反映了文章的主题。

表3词频排名前10的词汇

在进行完词频统计后对文本进行关键词匹配。首先读取工业、教育、农业、饮食、旅行、天文五大领域的专业词汇并保存到链表，然后对文本进行关键词的匹配。匹配程序界面如图5所示。本文共匹配出一个关键词：(旅游)。(旅游)匹配自于“旅行关键词表”。将匹配出的关键词全部加入到候选主题词表。

此外，本文对于主题词的选取还考虑到了文本标题中所包含的词汇。标题是文章作者给出的对文章内容具有提示性的短语，能够在很大程度上反映出文章的主题内容，因此本文将读取到的文本标题内容去除停用词后也加入到候选主题词表。从文本标题中提取出的词主要有(漫岭)、(机场)、(重建)、(扩建)、(开始)，其中(开始)没有在正文中出现，对文章主题的贡献不大，将其剔除。

根据本文提出的重复词去除规则，对高频词、关键词及文本标题中的词进行去重处理，得到如表4所示的结果：

表4去重后的结果

最后，根据权重计算公式(2)计算表4中的词汇权重。其中对于α、β及γ的取值，本文通过多次试验结果分析最终设定三者的取值为α＝1，β＝2，γ＝4。计算完词汇权重后根据权重进行排序，得到如表5所示的结果。最终选取排名前10的作为主题词，如表5中字体加粗的部分。

表5词汇权重计算结果

主题词主要从三个部分提取：高频词、关键词和标题中的单词。通过基于多特征融合的算法，对这三部分中单词的重要性进行计算，并保留对文章主题贡献最大的词语。实验结果表明，选择的主题词可以很好地反映文章的主题。这将对下一步生成抽象非常有帮助。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多特征融合的主题词提取方法，其特征在于，包括以下步骤：

通过用户输入的网址自动采集其能访问到的所有页面内容，以获取网页的藏文文本；

根据藏文关键词表对获取的藏文文本进行匹配，将出现在藏文关键词表中的词汇选为候选主题词；

对所述候选主题词进行权重计算，根据权重对所述候选主题词进行排序，并从排序后的候选主题词中确定一个或多个主题词。

2.如权利要求1所述的主题词提取方法，其特征在于，所述将出现在藏文关键词表中的词汇选为候选主题词步骤，包括：

将藏文文本中的高频词、关键词和文本标题中的词汇选为候选主题词；

如果高频词、关键词和文本标题的词汇个数之和不足n个，则去除重复词汇后全部保留为主题词；

如果高频词、关键词和文本标题的词汇个数大于n个，则去除重复词汇后根据公式对词汇的权重进行计算；

计算完权重后，根据权重对词汇进行排序，选取前n个词作为主题词。

3.如权利要求2所述主题词提取方法，其特征在于，所述去除重复词汇后全部保留为主题词步骤，包括：

如果所述高频词和所述关键词有重复则保留所述关键词；如果所述高频词和所述文本标题中的词汇有重复则保留所述文本标题中的词汇；如果所述关键词和所述文本标题中的词汇有重复则保留所述文本标题中的词汇。

4.如权利要求2所述主题词提取方法，其特征在于，所述权重计算公式为：weight(t)＝wp(t)*len(t)*wd(t)；其中，wp(t)代表词汇t的频率，len(t)代表词汇t的长度，wd(t)代表词汇t的加权，高频词加权为wd(t)＝α，关键词加权为wd(t)＝β，文本标题中词汇加权为wd(t)＝γ，且1≤α<β<γ。

5.如权利要求2所述的主题词提取方法，其特征在于，所述高频词是通过齐普夫(Zipf)定律得出，包括，把单词出现的频率按由大到小的顺序进行排列；记录相应的排列位置序号；所述序号和出现的所述频率的乘积近似为一个常数；单词出现的频率越高，其重要性越大。

6.如权利要求1所述的主题词提取方法，其特征在于，所述藏文关键词表通过以下方式获取：

选取几大领域的专业词汇构成汉语关键词表，将得到的汉语关键词表翻译成藏语，从而构建成藏文关键词表。

7.如权利要求2所述的主题词提取方法，其特征在于，所述高频词指在正文中的词汇，且词频大于等于2；所述关键词指出现在正文中词汇；所述文本标题中的词汇指标题中的词汇，并剔除没有出现在正文中的词汇。