CN106372056A

CN106372056A - 一种基于自然语言的主题与关键词的提取方法和系统

Info

Publication number: CN106372056A
Application number: CN201610719138.6A
Authority: CN
Inventors: 尹嘉路; 陈鸿; 丁文涛
Original assignee: Far Long (beijing) Technical Service Co Ltd
Current assignee: Far Long (beijing) Technical Service Co Ltd
Priority date: 2016-08-25
Filing date: 2016-08-25
Publication date: 2017-02-01

Abstract

本发明公开了一种基于自然语言的主题与关键词的提取方法和系统，方法包括：将连续文本切分成一个个独立词语，并标注词性；从每一个切过词的句子里提取出主词和谓词；对所有的主词‑谓词二元组进行聚类，计算出所有语料中主要的主题聚类和相关的关键词聚类。本发明采取了上述方案以后，基于主词谓词二元组聚类得到主题‑关键词集合，进而描述了特定领域的舆论维度，构成进一步的定量分析舆情的良好基础。

Description

一种基于自然语言的主题与关键词的提取方法和系统

技术领域

本发明属于互联网领域，尤其涉及一种基于自然语言的主题与关键词的提取方法和系统。

背景技术

互联网上的海量文本数据包含的潜在信息一直是自然语言处理和数据挖掘的应用热点，而总结和统计大量自然语言文本中包含的主题和重点关键词更是在舆情分析，用户口碑分析等应用中起到不可或缺的关键作用。但效率和精度从文本中提取主题与关键词一直是实际工作中的难点。

现有方案普遍采用Dirichlet分布来描述文档中主题的分布与不同主题下词语的分布。通过对输入语料库进行反复统计采样，计算出这两个概率模型的取值，进而实现对主题和关键词的提取。

在估计概率模型过程中，需要消耗相当繁重的计算量。同时计算结果与人为指定的先验概率有关，结果的质量难以保证和评估。在实际用此方案提取领域主题模型时因此有效率和质量的不小的困难。

发明内容

本发明所要解决的技术问题是提供一种基于自然语言的主题与关键词的提取方法，以及一种主题与关键词的提取系统。

本发明解决上述技术问题所采取的技术方案如下：

一种基于自然语言的主题与关键词的提取方法，包括：

将连续文本切分成一个个独立词语，并标注词性；

从每一个切过词的句子里提取出主词和谓词；

对所有的主词-谓词二元组进行聚类，计算出所有语料中主要的主题聚类和相关的关键词聚类。

优选的是，将连续文本切分成一个个独立词语，并标注词性，包括：

获取输入的中英文文本，并对输入中英文文本做切词和词性标注；其中，输出结果以空格分开，每个词语的词性由约定的符号标记。

优选的是，从每一个切过词的句子里提取出主词和谓词，包括：

将输入的句子序列提取出主语和谓语，并输出每句话中主语短语的关键词：主词，以及谓语短语的关键词：谓词，以及构成的主词和谓词二元组。

优选的是，如缺少代词及缺乏主语，则根据上下文场景补充合适的主词。

优选的是，对所有的主词-谓词二元组进行聚类，计算出所有语料中主要的主题聚类和相关的关键词聚类，具体包括：

将输入的所有主词和谓词二元组的数据构建为一个二部图；

其中，每一个二元组对应一个主词节点和一个谓词节点之间的关系，主词谓词对的出现频率对应关系的权重；

基于这个二部图，应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性，及谓词间的两两相似性；

最后使用双聚类(Bi-Clustering)算法完成对主一谓词的各自聚类；

每一类主词构成一类主题，保留其中词频最高的那个作为主题的名字，而和它相关的那类谓词构成最经常与此主题搭配的关键词。

一种基于自然语言的主题与关键词的提取系统，包括：自然语言预处理子系统，主谓提取子系统，聚类子系统，其中，

所述自然语言预处理子系统，用于将连续文本切分成一个个独立词语，并标注词性；

所述主谓提取子系统，用于从每一个切过词的句子里提取出主词和谓词；

所述聚类子系统，用于对所有的主词-谓词二元组进行聚类，计算出所有语料中主要的主题聚类和相关的关键词聚类。

优选的是，所述自然语言预处理子系统，将连续文本切分成一个个独立词语，并标注词性，具体方法包括：

优选的是，所述主谓提取子系统，从每一个切过词的句子里提取出主词和谓词，包括：

优选的是，所述聚类子系统，对所有的主词-谓词二元组进行聚类，计算出所有语料中主要的主题聚类和相关的关键词聚类，具体包括：

将输入的所有主词和谓词二元组的数据构建为一个二部图；

最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类；

本发明采取了上述方案以后，基于主词谓词二元组聚类得到主题一关键词集合，进而描述了特定领域的舆论维度，构成进一步的定量分析舆情的良好基础。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

下面结合附图对本发明进行详细的描述，以使得本发明的上述优点更加明确。其中，

图1是本发明基于自然语言的主题与关键词的提取方法的流程示意图；

图2是本发明基于自然语言的主题与关键词的提取系统的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一：

如图1所示，一种基于自然语言的主题与关键词的提取方法，包括：

将连续文本切分成一个个独立词语，并标注词性；

从每一个切过词的句子里提取出主词和谓词；

实施例二：

对实施例一进行详细说明，其中，优选的是，将连续文本切分成一个个独立词语，并标注词性，包括：

将输入的所有主词和谓词二元组的数据构建为一个二部图；

最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类；

实施例三：

如图2所示，与以上方法实施例相对应，本发明公开了一种基于自然语言的主题与关键词的提取系统，包括：自然语言预处理子系统，主谓提取子系统，聚类子系统，其中，

将输入的所有主词和谓词二元组的数据构建为一个二部图；

最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类；

本发明采取了上述方案以后，基于主词谓词二元组聚类得到主题-关键词集合，进而描述了特定领域的舆论维度，构成进一步的定量分析舆情的良好基础。

实施例四：

结合具体实例对本发明系统进行说明，其中，其由自然语言预处理子系统，主谓提取子系统，聚类子系统三个数据处理系统先后相继工作构成。

其中，首先由自然语言预处理系统将连续文本切分成一个个独立词语，并标注词性。再由主谓提取子系统从每一个切过词的句子里提取出主词和谓词。最后由聚类子系统对所有的主词-谓词二元组进行聚类，计算出所有语料中主要的主题聚类和相关的关键词聚类。以下是相关说明：

如自然语言预处理子系统说明：

本系统负责对输入中英文文本做切词和词性标注。输出结果以空格分开，每个词语的词性由约定的符号标记。如下：

这/p只是/s一/m个/t例子/n。/q

主谓提取子系统说明：

本系统负责将输入的句子序列提取出主语和谓语，并输出每句话中主语短语的关键词：主词，以及谓语短语的关键词：谓词，构成的(主词，谓词)二元组。在代词及缺乏主语的场合，系统会自动补充合适的主词。对一段洗发水评论的加工会输出如下：

(包装，很好)

(味道，喜欢)

(正品，是)

聚类子系统说明：

本系统将输入的所有(主词，谓词)二元组的数据构建为一个二部图，每一个二元组对应一个主词节点和一个谓词节点之间的关系。主词谓词对的出现频率对应关系的权重，基于这个二部图，我们应用Jaccard Index分别计算出主词间的两两相似性，及谓词间的两两相似性。最后使用Bi-Clustering算法完成对主-谓词的各自聚类。这时每一类主词构成一类主题，我们保留其中词频最高的那个作为主题的名字，而和它相关的那类谓词构成最经常与此主题搭配的关键词。基于来自天猫上的一组洗发水评论计算得到的部分主题和关键词如下：

·味道：不大一样不如不对劲不正不錯也挺像冲刚刚好刚开始刺激刺鼻受不了吻呛喜歡太大太重太香奇怪好问姜味对很浓很淡很甜很轻很重怡人怪怪怪的接受有区别极好果香柔和正宗没变浓烈浓重淡淡淡淡淡的淡点淡雅清清新清淡清香温和潘婷熟悉特别特殊甜甜甜的生姜纯正聞腻自然臭舒适蛮香重闷闻得难闻飘柔香喷喷香浓香甜香香香香的好闻很香蛮好香

·泡沫：比较丰富绵密防压

·头发：不会不出不开不掉不涩不顺乱乱飞亮亮亮亮泽伤保养光光亮光光光泽光滑凌乱出油分叉半干卷发亮发干发根发涩受损变变化变好变得变软变顺吸收吹吹干喷坚持垂顺太油好滑少掉属于干干的干枯干涩干燥干爽开叉强韧很亮很柔很润很涩很滑很顺打理打结拉拉直挺舒服掉摸摸着显得有所改善有救服帖松软枯枯燥染染烫柔柔亮柔柔柔柔顺顺柔润柔滑梳梳理比较比较严重毛燥毛糙毛躁油油油的油腻油腻腻洗好洗得洗过浓密涩涩湿润滑滑润滑溜溜滑滑滑爽滑顺烫烫染烫过燥爱白直硬硬硬稀少粗糙糟细脆弱脱落舒爽蓬蓬松蓬蓬许该起超顺越来越少软软软轻盈轻飘飘适用防止顺顺溜顺畅顺直顺顺飘飘逸黑会柔顺清爽顺滑

通过上面的描述可以看出，这种方案带来的好处有下面几点：

1、由于基于自然语言技术提取的主词谓词二元组做进一步加工，本发明技术方案得到的每个主题已经被明确的主词命名，每个主题都是名词，同时所有的关键词都是和这个主词有主谓搭配关系的形容词和动词。而基于概率模型的方案往往给出一组会共同出现的词语，这组词代表的主题并不一定明确，需要人为猜测和补充。

2、本发明方案得到的明确的名词性主题事实上构成被分析的语料领域的一个概念分解。在舆情分析中，这个概念分解清晰地描述了特定领域的舆论维度，构成进一步的定量分析舆情的良好基础。

需要说明的是，对于上述方法实施例而言，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自然语言的主题与关键词的提取方法，包括：

将连续文本切分成一个个独立词语，并标注词性；

从每一个切过词的句子里提取出主词和谓词；

2.根据权利要求1所述的基于自然语言的主题与关键词的提取方法，其特征在于，将连续文本切分成一个个独立词语，并标注词性，包括：

3.根据权利要求2所述的基于自然语言的主题与关键词的提取方法，其特征在于，从每一个切过词的句子里提取出主词和谓诃，包括：

4.根据权利要求3所述的基于自然语言的主题与关键词的提取方法，其特征在于，如缺少代词及缺乏主语，则根据上下文场景补充合适的主词。

5.根据权利要求3所述的基于自然语言的主题与关键词的提取方法，其特征在于，对所有的主词-谓词二元组进行聚类，计算出所有语料中主要的主题聚类和相关的关键词聚类，具体包括：

将输入的所有主词和谓词二元组的数据构建为一个二部图；

最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类；

6.一种基于自然语言的主题与关键词的提取系统，其特征在于，包括：自然语言预处理子系统，主谓提取子系统，聚类子系统，其中，

7.根据权利要求6所述的主题与关键词的提取系统，其特征在于，所述自然语言预处理子系统，将连续文本切分成一个个独立词语，并标注词性，具体方法包括：

8.根据权利要求7所述的主题与关键词的提取系统，其特征在于，所述主谓提取子系统，从每一个切过词的句子里提取出主词和谓词，包括：

9.根据权利要求8所述的主题与关键词的提取系统，其特征在于，如缺少代词及缺乏主语，则根据上下文场景补充合适的主词。

10.根据权利要求8所述的主题与关键词的提取系统，其特征在于，所述聚类子系统，对所有的主词-谓词二元组进行聚类，计算出所有语料中主要的主题聚类和相关的关键词聚类，具体包括：

将输入的所有主词和谓词二元组的数据构建为一个二部图；

最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类；