CN108133014B

CN108133014B - 基于句法分析和聚类的三元组生成方法、装置及用户终端

Info

Publication number: CN108133014B
Application number: CN201711408501.3A
Authority: CN
Inventors: 牟昊; 杨飞
Original assignee: Guangzhou Datastory Information Technology Co ltd
Current assignee: Guangzhou Datastory Information Technology Co ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2022-03-22
Anticipated expiration: 2037-12-22
Also published as: CN108133014A

Abstract

本发明公开了基于句法分析和聚类的三元组生成方法、装置及用户终端，方法包括：获取文本信息，清洗噪音并划分为句子；将句子划分为至少一个词语；按句子顺序将词语以及其对应的词性作为输入，构建句法依赖树；将句法依赖树转换为无向图，利用宽度搜索技术生成二元组，二元组表达为(特征词，情感词)；获取二元组中的特征词，将特征词转换为特征向量；将特征向量作为输入，通过K‑Means算法进行聚类，使特征词聚类为对应的类别；获取对应的类别的ID，记为类别ID，输出三元组，三元组表达为(类别ID，特征词，情感词)。本发明的优点在于通过句法分析发现二元组，通过特征词聚类，将类似的特征词聚在一起，同时降低了人工成本。

Description

基于句法分析和聚类的三元组生成方法、装置及用户终端

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于句法分析和聚类的电商评论结构化分析处理技术。

背景技术

随着电商在我国的迅速发展，网上购物作为一种新的消费方式，已经逐渐深入我们的生活，商品评论已经成为用户表达商品体验的重要方式。以淘宝、天猫，京东，唯品会等为主体的电商平台的兴起带来了大量的用户评论，根据《2016中国电商消费行为报告》，2016年电商交易额超过20万亿，商品评论数以亿计算。电商评论已成为用户表达商品体验的重要渠道，如何通过如此庞大数量的数据来获知人们目前正在关注的商品体验问题，是当前研究的重点。

在现有技术中，使用基于人工设置码表的三元组检测技术是解决该问题的常用解决方案，但是由于文本信息数据量巨大，且文本信息中存在较多的表情和非规范化的语言，传统的人工设置码表的方法需要消耗大量的人力成本，极大的影响工作效率。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供基于句法分析和聚类的三元组生成方法，通过句法分析发现(特征词，情感词)，通过特征词聚类，将类似的特征词聚在一起，同时降低了人工成本。

本发明的目的之二在于提供基于句法分析和聚类的三元组生成装置，通过句法分析发现(特征词，情感词)，通过特征词聚类，将类似的特征词聚在一起，同时降低了人工成本。

本发明的目的之三在于提供用户终端，通过句法分析发现(特征词，情感词)，通过特征词聚类，将类似的特征词聚在一起，同时降低了人工成本。

为实现上述目的之一，本发明所采用的技术方案如下：

基于句法分析和聚类的三元组生成方法，包括以下步骤：

S1、获取文本信息，清洗噪音并划分为句子；

S2、将所述句子划分为至少一个词语，以及每个词语对应的词性；

S3、按所述句子顺序将所述词语以及对应的词性作为输入，构建句法依赖树；

S4、将所述句法依赖树转换为无向图，利用宽度搜索技术生成二元组，二元组表达为(特征词，情感词)；

S5、获取所述二元组中的特征词，将所述特征词转换为特征向量；

S6、将所述特征向量作为输入，通过K-Means算法进行聚类，使所述特征词聚类为对应的类别；

S7、获取所述对应的类别的ID，记为类别ID，输出三元组，三元组表达为(类别ID，特征词，情感词)。

优选的，在步骤S2中，通过开源中文分词工具将所述句子划分为至少一个词语；在步骤S3中，通过开源中文分词工具构建句法依赖树。

优选的，在步骤S4中，利用宽度搜索技术生成二元组的过程为：

以词性为形容词的词语作为起点，在所述无向图中沿路径找到其可到达的词性为名词的词语作为终点，从而生成句法模板；

将所述句法模板与预设句法模板进行匹配，若匹配成功，则将所述句法模板的首尾的词性为形容词的词语和词性为名词的词语记为二元组，其中，将词性为形容词的词语记为情感词，将词性为名词的词语记为特征词。

优选的，在步骤S5中，通过word2vec模型将所述特征词转换为特征向量。

为实现上述目的之二，本发明所采用的技术方案如下：

基于句法分析和聚类的三元组生成装置，包括以下模块：

句子划分模块，用于获取文本信息，清洗噪音并划分为句子；

词语划分模块，用于将所述句子划分为至少一个词语，以及每个词语对应的词性；

构建句法依赖树模块，用于按所述句子顺序将所述词语以及对应的词性作为输入，构建句法依赖树；

二元组生成模块，用于将所述句法依赖树转换为无向图，利用宽度搜索技术生成二元组，二元组表达为(特征词，情感词)；

特征词转换模块，用于获取所述二元组中的特征词，将所述特征词转换为特征向量；

聚类模块，用于将所述特征向量作为输入，通过K-Means算法进行聚类，使所述特征词聚类为对应的类别；

三元组生成模块，用于获取所述对应的类别的ID，记为类别ID，输出三元组，三元组表达为(类别ID，特征词，情感词)。

优选的，在词语划分模块中，通过开源中文分词工具将所述句子划分为至少一个词语；在构建句法依赖树模块中，通过开源中文分词工具构建句法依赖树。

优选的，在二元组生成模块中，利用宽度搜索技术生成二元组的过程为：

优选的，在特征词转换模块中，通过word2vec模型将所述特征词转换为特征向量。

为实现上述目的之三，本发明所采用的技术方案如下：

用户终端，包括：

存储器，用于存储程序指令；

处理器，用于运行所述程序指令，以执行以下步骤：

S1、获取文本信息，清洗噪音并划分为句子；

相比现有技术，本发明的有益效果在于：

附图说明

图1为本发明基于句法分析和聚类的三元组生成方法流程图；

图2为本发明实施例一中构建的句法依赖树示意图；

图3为本发明实施例一中由句法依赖树转换成的无向图示意图；

图4为本发明实施例一中的句法模板示意图；

图5为本发明基于句法分析和聚类的三元组生成装置结构图；

图6为本发明用户终端结构图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述,显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

参考图1，本发明公开了一种基于句法分析和聚类的三元组生成方法，包括以下步骤：

S1、获取文本信息，清洗噪音并划分为句子；

其中，在步骤S2中，通过开源中文分词工具(FNLP)将所述句子划分为至少一个词语；在步骤S3中，通过开源中文分词工具(FNLP)构建句法依赖树。

在步骤S4中，利用宽度搜索技术生成二元组的过程为：

在步骤S5中，通过word2vec模型将所述特征词转换为特征向量。

下面结合具体例子对本实施例的方法作进一步描述：

在步骤S1中，获取的文本信息为“性价比还是比较高的，味道也不错，中秋送礼不错。”，经过清洗噪音划分为句子后得到三个句子，以第一个句子“性价比还是比较高的”作为例子结合后面的步骤进行描述。

在步骤S2中，划分为词语，即“性价比”，“还”，“是”，“比较高”，“的”，以及每个词语对应的词性，即“名词”，“副词”，“动词”，“形容词”，“语气词”。

在步骤S3中，通过FNLP构建的句法依赖树如图2所示。

在步骤S4中，句法依赖树转换成的无向图如图3所示，利用图论中的宽度搜索技术生成二元组。具体的，以形容词为起点，沿着无向图路径找到名词，即可生成句法模板，句法模板表达为([形容词]补语[动词]反_主语[名词])，如图4所示。将得到的句法模板与预设的句法模板进行匹配，预设的句法模板是通过大量经验总结得到的，匹配成功则生成有效的二元组，二元组表达为(特征词，情感词)，其中特征词即为名词，情感词即为形容词。

在步骤S5中，获取二元组中的特征词，即“性价比”，通过word2vec模型将特征词转换为特征向量，word2vec模型为一种开源技术。

在步骤S6中，将特征词转换成的特征向量通过K-Means算法进行聚类，通过聚类可以使类似的特征词归为一个类别。

在步骤S7中，获取特征词聚类后对应的类别的ID，输出三元组。

通过上述方法，实现了自动特征词聚类，得到不同类别的特征词，将原来需要人工分析文本发现特征词的过程转化成根据本方法自动输出的结果进行筛选，从而降低了三元组码表设置的复杂度，提高了三元组码表设置效率，同时节约了大量的人力成本。

实施例二：

参考图5，本发明公开了一种基于句法分析和聚类的三元组生成装置，包括以下模块：

实施例三：

参考图6，本发明公开了一种用户终端，包括：

存储器，用于存储程序指令；

处理器，用于运行所述程序指令，以执行以下步骤：

S1、获取文本信息，清洗噪音并划分为句子；

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.基于句法分析和聚类的三元组生成方法，其特征在于，包括以下步骤：

S1、获取文本信息，清洗噪音并划分为句子；

S7、获取所述对应的类别的ID，记为类别ID，输出三元组，三元组表达为(类别ID，特征词，情感词)；

在步骤S4中，利用宽度搜索技术生成二元组的过程为：

2.根据权利要求1所述的基于句法分析和聚类的三元组生成方法，其特征在于，在步骤S2中，通过开源中文分词工具将所述句子划分为至少一个词语；在步骤S3中，通过开源中文分词工具构建句法依赖树。

3.根据权利要求1所述的基于句法分析和聚类的三元组生成方法，其特征在于，在步骤S5中，通过word2vec模型将所述特征词转换为特征向量。

4.基于句法分析和聚类的三元组生成装置，其特征在于，包括以下模块：

三元组生成模块，用于获取所述对应的类别的ID，记为类别ID，输出三元组，三元组表达为(类别ID，特征词，情感词)；

在二元组生成模块中，利用宽度搜索技术生成二元组的过程为：

5.根据权利要求4所述的基于句法分析和聚类的三元组生成装置，其特征在于，在词语划分模块中，通过开源中文分词工具将所述句子划分为至少一个词语；在构建句法依赖树模块中，通过开源中文分词工具构建句法依赖树。

6.用户终端，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于运行所述程序指令，以执行以下步骤：

S1、获取文本信息，清洗噪音并划分为句子；

在步骤S4中，利用宽度搜索技术生成二元组的过程为：

7.根据权利要求6所述的用户终端，其特征在于，在步骤S2中，通过开源中文分词工具将所述句子划分为至少一个词语；在步骤S3中，通过开源中文分词工具构建句法依赖树。