CN105975480A

CN105975480A - 一种指令识别方法及系统

Info

Publication number: CN105975480A
Application number: CN201610250478.9A
Authority: CN
Inventors: 李青海; 简宋全; 侯大勇; 邹立斌
Original assignee: Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Current assignee: Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2016-09-28
Anticipated expiration: 2036-04-20
Also published as: CN105975480B

Abstract

本发明涉及一种指令识别方法，其特征在于，包括步骤：S1,对指令采用两种方法进行切分，得到两种切分结果；S2，判断切分结果是否相同；S3，确定歧义字段、消除歧义，得到最终切分结果；S4，将最终切分结果进行指标量化，得到关键词；S5，将关键词与分类关联表进行匹配；S6，判断是否每一个关键词能够与分类关联表中类别进行匹配；S7，对无法匹配的关键词进行分类；S8，确定指令最终分类。本发明实现了对用户搜索请求的指令识别；通过对用户搜索请求进行分词处理，提取关键词以及对搜索请求进行分类处理，获知用户搜索指令所属类别，进而得到用户现时需求。

Description

一种指令识别方法及系统

技术领域

本发明涉及数据分类领域，具体涉及一种指令识别方法及系统。

技术背景

随着实时营销的不断发展，对用户需求分析成为及其重要的一部分。通过对用户搜索请求进行语义识别，分析挖掘其请求，获取用户现时需求，从而可向用户实时推送相关需求内容。

语义识别，就是对用户搜索内容文字进行分词处理，获取有效关键词并对关键词进行分类处理，进而得出用户需求类别。

所谓分词，就是将句子切分成一个一个单独的词。是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例，分词技术的目标就是将一句话切分为一个一个单独的中文词语。而将句子切分为单独的词，是实现机器识别人类语言的第一步，因此分词技术至关重要。

所谓关键词，就是对分词处理后获得的所有词语进行重要性分析，超过重要性阀值的词语即为关键词。

但是目前的指令分析、指令识别技术对用户指令分析的不够准确，基于这种不够准确的分析、识别技术所得到的结论进行的后期处理也会产生较大的偏差。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供包括步骤：

S1,对指令采用两种方法进行切分，得到两种切分结果；

S2，判断切分结果是否相同，若否，则执行下述步骤S3；若是，则得到最终切分结果，执行下述步骤S4；

S3，确定切分方式分歧，消除分歧得到最终切分结果；

S4，将最终切分结果进行指标量化，得到若干关键词；

S5，将关键词与分类关联表进行匹配；

S6，判断每一个关键词是否能够与分类关联表中类别进行匹配，若否，执行下述步骤S7；若是，执行下述步骤S8；

S7，对无法匹配的关键词进行分类；

S8，确定指令最终分类。

较佳的，所述步骤S1中，所述两种方法分别为正向最大匹配法与逆向最大匹配法。

较佳的，所述步骤S3具体为：确定两种切分结果出现分歧的分歧字段位置，对该分歧字段位置进行支持性判定，选定支持度因子较高的切分方法对应的切分结果作为最终切分结果。

较佳的，所述步骤S3中，所述支持度因子通过下式确定：

S (1 / 23) = \frac{S (123)}{S (23)},

S (12 / 3) = \frac{S (123)}{S (12)},

其中，S(123)为信息库中字段1、字段2、字段3同时出现的概率，S(12)为字段1与字段2同时出现的概率，S(23)为字段2与字段3同时出现的概率，S(1/23)为将字段123切分为1/23情况的支持度因子，S(12/3)为将字段123切分为12/3情况的支持度因子。

较佳的，还包括将无法匹配关键词的分类结果写入分类关联表的步骤。

较佳的，所述步骤S7具体为：

将与分类关联表中词语无法获得匹配的关键词转化为关键词词向量，将分类关联表中的所有类别转换成类别词向量，以类别词向量为中心，对关键词词向量进行K均值聚类，再根据设定的聚类结果，将无法匹配的关键词进行分类。

一种实现所述方法的指令识别系统，包括，一双向分词模块，用于对指令采用两种方法进行切分，得到两种切分结果；

一分词判断模块，用于判定切分结果是否相同；

一分歧消除模块，用于确定切分方式分歧，消除分歧得到最终切分结果；

一重要性统计模块，用于将切分结果进行指标量化，得到关键词；

一关联表匹配模块，用于将关键词与分类关联表进行匹配；

一匹配判断模块，用于判断每一个关键词是否能够与分类关联表中类别进行匹配；

一聚类分类单元，用于对无法匹配的关键词进行分类；

一分类确定单元，用于确定指令最终分类。

较佳的，还包括一更新模块，用于将无法匹配关键词的分类结果写入分类关联表。

与现有技术相比较，本发明的有益效果在于：本发明实现了对用户搜索请求的指令识别；通过对用户搜索请求进行分词处理，提取关键词以及对搜索请求进行分类处理，获知用户搜索指令所属类别，进而得到用户现时需求；运用两种分词法进行分词以及根据量化法消除歧义，使分词结果更加准确无误；运用关联表匹配及聚类进行分类，使分类更加速度，更加准确；为实时营销提供快速准确的用户需求。

附图说明

图1为本发明所述指令识别方法流程图。

具体实施方式

为便于本领域技术人员对本发明的技术方案和有益效果进行理解，特结合附图对具体实施方式进行如下描述。

本发明所述的指令识别方法，包括如下步骤：

S1：对指令采用两种方法进行切分，得到两种切分结果；

获取用户搜索请求，对其分别运用两种不同的方法进行分词，获得相应切分结果，因为同时存在使用两种不同的匹配方法进行分词，所以存在两种分类结构相同以及两种分类结果不同的情况，所以，在步骤S1结束后，进入步骤S2的判断步骤。

优选的，所述步骤S1采用的两种不同方法为正向最大匹配法与逆向最大匹配法。

正向最大匹配法与逆向最大匹配法分别从正向、逆向匹配词汇，得到分类结果，以“美宝莲的口红怎么样”为例，正向最大匹配法从正向最大开始匹配，逐渐滤掉不是词汇的构成方式，例如：

“美宝莲的口红怎么样”不是一个词，将“样”字去掉，仍然不是一个词，如此经过多次最后一个字的删除，得到“美宝莲”是单独的词，从而得到“美宝莲/的/口红/怎么样”这个切分结果；

对于逆向最大匹配法，先判断“美宝莲的口红怎么样”不是一个词，将“美”去掉，再判断仍然不是一个词，再分两次将“宝”“莲”去掉，每次从前面删除一个字，得到“怎么样”是获得的第一个词；再对“美宝莲的口红”进行逆向最大匹配，从而得到逆向最大匹配的切分结果“美宝莲/的/口红/怎么样”

S2：判断切分结果是否相同；

判断步骤S1中根据不同的匹配算法得到的切分结果是否相同，若是，则得到最终切分结果，执行步骤S4，若否，则执行步骤S3。

S3：确定切分方式分歧，消除分歧得到最终切分结果；

若所述步骤S2中确定切分结果不同，则能够判定，本次需要进行切分的指令是存在分歧的，对于这种具有分歧的词汇，得到了两种不同的切分结果，步骤S3对于这两种不同的切分结果进行对比、评判，通过人工判别或者算法判别选取更合理的切分方法，将该切分方法得到的切分结果确定为最终切分结果，并执行步骤S4。

S4：将最终切分结果进行指标量化，得到若干关键词。

对最终切分结果进行指标量化，赋予最终切分结果一个可以衡量的参数，并且根据该参数进行排序，取较优的作为关键词。

例如，可以对切分结果进行重要程度排序、针对程度排序、频率排序、期望值排序等，这里给出重要程度排序的方法：对确定的切分结果中所有词语运用TF-I DF算法计算词语重要程度，根据词语的重要程度大小对其进行从大到小的排列，根据预设的阀值(如重要程度阀值或排列阀值)提取关键词，其中TF-IDF算法为term frequency–inverse documentfrequency算法，是统计中常用算法。

S5：将关键词与分类关联表进行匹配。

分类关联表本质是一个数据表，其中预先设定好众多词语以及词语对应的类别，并且事先存放好，当步骤S4结束后，将切分结果进行重要性处理后，得到若干关键词，在所述步骤S5中对关键词与分类关联表进行匹配，理想情况下是关键词在分类关联表中存在，则能够顺利将分类关键词进行分类。但是一张分类关联表的大小是有限的，预设的值也是有限的，并且词汇是人类创造出来的，世界上不断有新的词汇诞生。

为了让分类关联表具有学习、自我完善的能力，对于那些分类关联表中不存在的词汇，采用下述方法进行补充。

S6：判断是否每一个关键词能够与分类关联表中类别进行匹配，若是，执行步骤S8；若否，执行步骤S7；

步骤S6中，首先对关键词是否能够完全与关联表中的数据进行良好的匹配进行一个判断，若关键词中存在分类关联表中不存在的关键词，则给出否定判断；若关键词中的所有，都能够在分类关联表中找到对应存在，则给出肯定判断。

S7：对无法匹配的关键词进行分类。

将与分类关联表中词语无法获得匹配的关键词转化为关键词词向量，将分类关联表中的所有类别转换成类别词向量，以类别词向量为中心，对关键词词向量进行K均值聚类，再根据设定的聚类结果，将无法匹配的关键词进行分类，即最终词语向量归属于的聚类中心所对应的类别，就是该词语的类别。K均值聚类为常用聚类算法。

S8：确定指令最终分类。

所有词语分类完成后，统计各个类别所包含的关键词数量，选取数量最多的一类作为该搜索指令的类别，将用户搜索请求及其所属类别形成列表并存储。

作为一种改进的方案，还包括步骤S8后的步骤S9，将无法匹配关键词的分类结果写入分类关联表。

实施例二

实施例二与实施例一相似，不同之处在于，所述步骤S3采用如下方法：

计算歧义字段的支持度因子S(support)，根据支持度因子比较结果，确定切分结果，如：对有歧义的123字段存在两种切分结果：1/23或12/3，此时计算并比较两者支持度因子：

S (1 / 23) = \frac{S (123)}{S (23)};

S (12 / 3) = \frac{S (123)}{S (12)};

在上述各式中，S(123)为本信息库中字段1、字段2、字段3同时出现的概率，S(12)为字段1与字段2同时出现的概率，S(23)为字段2与字段3同时出现的概率，信息库为一数据库，用于存放历史指令信息及指令识别信息合集。若S(1/23)大于S(12/3),则选择第一种切分结果作为最终切分结果，否则选择第二种切分结果作为最终切分结果，从而确定最终切分结果。

本发明还给出了实现上述方法的系统。

包括：

一双向分词模块，用于对指令进行双向切分；

一分词判断模块，用于判定切分结果是否相同；

一歧义消除模块，用于确定歧义字段，消除歧义；

一关联表匹配模块，用于将关键词与分类关联表进行匹配；

一匹配判断模块，用于判断是否每一个关键词能够与分类关联表中类别进行匹配；

一聚类分类单元，用于对无法匹配的关键词进行分类；

一分类确定单元，用于确定指令最终分类。

一更新模块，用于将将无法匹配关键词的分类结果写入分类关联表的步骤。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变和修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种指令识别方法，其特征在于，包括步骤：

S1,对指令采用两种方法进行切分，得到两种切分结果；

S3，确定切分方式分歧，消除分歧得到最终切分结果；

S4，将最终切分结果进行指标量化，得到若干关键词；

S5，将关键词与分类关联表进行匹配；

S7，对无法匹配的关键词进行分类；

S8，确定指令最终分类。

2.如权利要求1所述的指令识别方法，其特征在于，所述步骤S1中，所述两种方法分别为正向最大匹配法与逆向最大匹配法。

3.如权利要求1所述的指令识别方法，其特征在于，所述步骤S3具体为：确定两种切分结果出现分歧的分歧字段位置，对该分歧字段位置进行支持性判定，选定支持度因子较高的切分方法对应的切分结果作为最终切分结果。

4.如权利要求3所述的指令识别方法，其特征在于，所述步骤S3中，所述支持度因子通过下式确定：

S (1 / 23) = \frac{S (123)}{S (23)},

S (12 / 3) = \frac{S (123)}{S (12)},

5.如权利要求1-4中任一项所述的指令识别方法，其特征在于，还包括将无法匹配关键词的分类结果写入分类关联表的步骤。

6.如权利要求1-4中任一项所述的指令识别方法，其特征在于，所述步骤S7具体为：

7.一种实现权利要求1～6中所述方法的指令识别系统，其特征在于，包括，一双向分词模块，用于对指令采用两种方法进行切分，得到两种切分结果；

一分词判断模块，用于判定切分结果是否相同；

一关联表匹配模块，用于将关键词与分类关联表进行匹配；

一聚类分类单元，用于对无法匹配的关键词进行分类；

一分类确定单元，用于确定指令最终分类。

8.如权利要求7中所述的指令识别系统，其特征在于，还包括一更新模块，用于将无法匹配关键词的分类结果写入分类关联表。