CN107491440A

CN107491440A - 自然语言分词构造方法及系统、自然语言分类方法及系统

Info

Publication number: CN107491440A
Application number: CN201710852703.0A
Authority: CN
Inventors: 罗欢; 权圣
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2017-12-19
Anticipated expiration: 2037-09-19
Also published as: CN107491440B

Abstract

本申请公开了一种自然语言分词构造方法，该方法包括：获取自然语言的Ngram分词，将Ngram分词按照位置序列顺序进行非连续组合，得到组合分词。可见，在原有的Ngram分词基础之上，再将得到的Ngram分词按照位置序列顺序进行组合，通过这样的方法加大了自然语言的表达能力，进而提高自然语言的分类准确率。并且，在本方案中，进一步的对组合分词设置窗口大小，以避免产生过多的组合分词特征量，提高了对自然语言的分类速度。相应的，本发明还公开了一种自然语言分词构造系统、一种自然语言分类方法及系统，同样具有上述有益效果。

Description

自然语言分词构造方法及系统、自然语言分类方法及系统

技术领域

本发明涉及自然语言处理领域，特别涉及自然语言分词构造方法及系统、自然语言分类方法及系统。

背景技术

随着科学技术的发展，互联网已经成为人们获取知识的重要手段，其中，信息检索、文本分类和人机对话等技术已经深入人们生活的各个方面，人们都要或多或少地使用自然语言处理(Natural Language Processing，NLP)的研究成果来获取或挖掘在互联网上的各种知识和信息，因此，自然语言处理成为本世纪最热门的学科之一。

在自然语言处理当中，词是最小的能够独立活动的有意义的语言成分，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，所以导致了自然语言文本当中存在各种各样的歧义性或者是多义性。因此，对于自然语言的特征提取就成为人机交互的基础与关键。在现有的开源分词工具当中，往往是依靠于开源分词工具的正确率，并且需要对自然语言中的专有名词进行额外的处理，显然该方法过于繁琐。目前Ngram是最为有用的自然语言分类工具，在常用的NLP语料库中，人们可以利用Ngram来预计或者去评估一个句子是否合理。虽然Ngram分词能够解决专有名词的问题，但是它仍然会丢失一些句子的组合信息，所以怎样提高自然语言的分类准确率是本技术领域人员亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种自然语言分词构造方法，其目的在于提高自然语言的分类准确率。其具体方案如下：

一种自然语言分词构造方法，包括：

获取自然语言的Ngram分词；

将所述Ngram分词按照位置序列顺序进行非连续组合，得到组合分词。

优选的，所述将所述Ngram分词按照位置序列顺序进行非连续组合的过程，包括：

将所述Ngram分词按照位置序列顺序进行非连续二组合。

将所述Ngram分词按照位置序列顺序进行非连续三组合。

优选的，所述将所述Ngram分词按照位置序列顺序进行非连续组合的过程，还包括：

将所述Ngram分词按照位置序列顺序并设置窗口进行非连续组合。

优选的，所述窗口大小为n；其中，n≥2。

相应的，本发明还公开了一种自然语言分类方法，包括：

获取自然语言的样本；

利用如前述的分词构造方法提取所述样本的组合分词；

利用所述组合分词对所述样本进行分类。

优选的，所述利用所述组合分词对所述样本进行分类的过程，包括：

将所述组合分词输入至训练后模型中对所述样本进行分类；

其中，所述训练后模型为利用训练样本对基于逻辑回归算法构建的待训练模型进行训练后得到的模型，所述训练样本包括组合分词以及相应的分类信息。

相应的，本发明还公开了一种自然语言分词构造系统，包括：

分词获取模块，用于获取自然语言的Ngram分词；

分词组合模块，用于将所述Ngram分词按照位置序列顺序进行非连续组合，得到组合分词。

优选的，所述分词组合模块，还包括：

分词设置单元，用于将所述Ngram分词按照位置序列顺序并设置窗口进行非连续组合。

相应的，本发明还公开了一种自然语言分类系统，包括：

样本获取模块，用于获取自然语言的样本；

样本组合模块，用于利用前述公开的分词构造系统提取所述样本的组合分词；

样本分类模块，用于利用所述组合分词对所述样本进行分类。

在本发明中，一种自然语言分词构造方法，包括：获取自然语言的Ngram分词，将Ngram分词按照位置序列顺序进行非连续组合，得到组合分词。可见，在原有的Ngram分词基础之上，再将得到的Ngram分词按照位置序列顺序进行组合，通过这样的方法加大了自然语言的表达能力，进而提高自然语言的分类准确率。并且，在本方案中，进一步的对组合分词设置窗口大小，以避免产生过多的组合分词特征量，提高了对自然语言的分类速度。此外，本发明提供的一种自然语言分词构造系统、自然语言分类方法及系统同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例一所提供的一种自然语言分词构造方法流程图；

图2为本发明实施例二所提供的一种自然语言分词构造方法流程图；

图3为本发明实施例三所提供的一种自然语言分类方法流程图；

图4为本发明实施例四所提供的一种自然语言分词构造系统结构图；

图5为本发明实施例五所提供的一种自然语言分类系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例一公开了一种自然语言分词构造方法，如图1所示，该方法包括：

步骤S11：获取自然语言的Ngram分词；

步骤S12：将Ngram分词按照位置序列顺序进行非连续组合，得到组合分词。

在本实施例中，首先是通过Ngram算法得到自然语言样本的Ngram分词，在此基础上再将Ngram分词按照位置序列顺序进行非连续组合，得到组合分词。通过这样的方法加大了自然语言的表达能力，进而提高自然语言的分类准确率。

需要说明的是，在本实施例中，将Ngram分词按照位置序列顺序进行非连续组合，可以是两个分词的组合，也可以是三个分词的组合，一切以达到实际应用为目的，此处不作限定。可以理解的是，为了得到更好的组合分词还可以对组合分词设置窗口大小(单词跨越宽度)以避免产生过多的组合分词特征量，进而提高对自然语言的分类速度。

可见，在原有的Ngram分词基础之上，再将得到的Ngram分词按照位置序列顺序进行组合，通过这样的方法加大了自然语言的表达能力，进而提高自然语言的分类准确率。并且，在本方案中，进一步的对组合分词设置窗口大小，以避免产生过多的组合分词特征量，提高了对自然语言的分类速度。

本发明实施例二公开了一种具体的自然语言分词构造方法，参见图2，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的该方法包括：

步骤S21：获取自然语言的Ngram分词；

步骤S22：将Ngram分词按照位置序列顺序并设置窗口进行非连续组合，得到组合分词。

具体的，步骤S22中将Ngram分词按照位置序列顺序并设置窗口进行非连续组合的过程，包括步骤H221；

步骤H221：将序列分词样本按照位置序列排列顺序进行非连续二组合。

在本实施例中，可以将序列分词样本按照位置序列排列顺序进行非连续二组合。例如：自然语言样本“我有点想回家”，使用1gram后，分词结果为“我”、“有”、“点”、“想”、“回”、“家”，按照位置序列排列顺序进行非连续二组合后，得到的组合分词结果为“我有”、“我点”、“我想”、“我回”、“我家”、“有点”、“有想”、“有回”、“有家”、“点想”、“点回”、“点家”“想回”、“想家”、“回家”。这样就包括了既有前一个分词，又有后面分词的语句特征，加大了语句的表达能力，进而提高自然语言的分类准确率。

具体的，步骤S22中将Ngram分词按照位置序列顺序并设置窗口进行非连续组合的过程，包括步骤H222；

步骤H222：将序列分词样本按照位置序列排列顺序进行非连续三组合。

在本实施例中，可以将序列分词样本按照位置序列排列顺序进行非连续三组合。例如：自然语言样本“我有点想回家”，使用1gram后，按照位置序列排列顺序进行非连续三组合后，得到的组合分词结果为“我有点”、“我有想”、“我有回”、“我有家”、“我点想”、“我点回”、“我点家”、“我想回”、“我想家”、“有点想”、“有点回”、“有点家”“点想回”、“点想家”、“想回家”。可见这样就包括了既有前一个分词，又有后面分词的语句特征，加大了语句的表达能力，进而提高自然语言的分类准确率。

具体的，步骤S22中将Ngram分词按照位置序列顺序并设置窗口进行非连续组合的过程，还包括步骤S221；

步骤S221：将Ngram分词按照位置序列顺序并设置窗口进行非连续组合。

在本实施例中，将序列分词样本按照位置序列顺序并设置窗口进行非连续组合，可以减少由本实施例公开的方法所产生的组合分词的数量，进而减少自然语言样本产生的特征量，避免由于产生特征量过多，而影响数据分类速度。

具体的，本实施例中的窗口大小为n，其中，n≥2。

可以理解的是，如果将窗口大小n设置为2时，则去掉了“我想”、“我回”、“我家”、“有回”、“有家”和“点家”的组合分词。从而避免产生过多的组合分词，影响数据的分类速度。当然，在本实施例中，是列举了窗口大小为2的情况，窗口大小的设置情况，可参见此方法，在此不再赘述。

相应的，本发明实施例三还公开了一种自然语言分类方法，参见图3，该方法包括：

步骤S31：获取自然语言的样本；

需要说明的是，在本实施例中对获取自然语言的样本可以是NLP语料库，也可以是其他的自然语言语料库，此处不作限定。

步骤S32：利用前述公开的分词构造方法提取样本的组合分词；

在本实施例中，将获取到的自然语言样本进行Ngram分词，然后将得到的Ngram分词按照位置序列顺序进行非连续组合，得到组合分词。

步骤S33：对组合分词进行分类。

在本实施例中，利用分类算法对组合分词进行分类，需要说明的是，分类算法包括但不限于逻辑回归算法、SVM算法，一切以达到实际应用为目的，此处不作限定。

具体的，步骤S33中对组合分词进行分类的过程，包括：

利用逻辑回归算法对组合分词进行分类。

在本实施例中，利用本实施例公开的技术方案，在NLP意图识别中作分类识别，在本实施例中共有41705条人工标注语料，83个分类，测试集有5118条人工标注语料，首先对人工标注语料进行1gram分词，然后将1gram分词按照序列排列顺序进行非连续二组合，并将组合分词的窗口设置为8，利用liblinear逻辑回归作为分类器，使用3交叉验证，每次验证验证集时，同时测试测试集，重复5次取正确率。实验结果显示，通过本技术方案，相比于直接对人工标注语料进行1gram+2gram的方法，准确率提升2％。

本发明实施例四公开了一种具体的自然语言分词构造系统，参见图4，该系统包括：

分词获取模块41，用于获取自然语言的Ngram分词；

分词组合模块42，用于将Ngram分词按照位置序列顺序进行非连续组合，得到组合分词。

优选的，分词处理模块42，包括：

第一分词组合单元，用于将序列分词样本按照位置序列排列顺序进行非连续二组合。

优选的，分词处理模块42，包括：

第二分词组合单元，用于将序列分词样本按照位置序列排列顺序进行非连续三组合。

优选的，分词组合模块42，还包括：

分词设置单元，用于将序列分词样本按照位置序列顺序并设置窗口进行非连续组合。

本发明实施例五公开了一种具体的自然语言分类系统，参见图5，该系统包括：

样本获取模块51，用于获取自然语言的样本；

样本处理模块52，用于利用前述公开的分词构造系统提取所述样本的组合分词；

样本分类模块53，用于对所述组合分词进行分类。

优选的，样本分类模块53，包括：

样本分类单元，用于利用逻辑回归算法对组合分词进行分类。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的自然语言分词构造方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种自然语言分词构造方法，其特征在于，包括：

获取自然语言的Ngram分词；

2.根据权利要求1所述的方法，其特征在于，所述将所述Ngram分词按照位置序列顺序进行非连续组合的过程，包括：

将所述Ngram分词按照位置序列顺序进行非连续二组合。

3.根据权利要求1所述的方法，其特征在于，所述将所述Ngram分词按照位置序列顺序进行非连续组合的过程，包括：

将所述Ngram分词按照位置序列顺序进行非连续三组合。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述将所述Ngram分词按照位置序列顺序进行非连续组合的过程，还包括：

5.根据权利要求4所述的方法，其特征在于，所述窗口大小为n；其中，n≥2。

6.一种自然语言分类方法，其特征在于，包括：

获取自然语言的样本；

利用如权利要求1至5任一项所述的分词构造方法提取所述样本的组合分词；

利用所述组合分词对所述样本进行分类。

7.根据权利要求6所述的方法，其特征在于，所述利用所述组合分词对所述样本进行分类的过程，包括：

将所述组合分词输入至训练后模型中对所述样本进行分类；

8.一种自然语言分词构造系统，其特征在于，包括：

分词获取模块，用于获取自然语言的Ngram分词；

9.根据权利要求8所述的系统，其特征在于，所述分词组合模块，还包括：

10.一种自然语言分类系统，其特征在于，包括：

样本获取模块，用于获取自然语言的样本；

样本组合模块，用于利用如权利要求8或9所述的分词构造系统提取所述样本的组合分词；