CN108009153A

CN108009153A - 一种基于搜索语句切词结果的搜索方法及系统

Info

Publication number: CN108009153A
Application number: CN201711290902.3A
Authority: CN
Inventors: 王兵权; 喻波; 王志海; 魏效征; 牛立伟; 曹石勇
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2018-05-08

Abstract

本发明公开了一种基于搜索语句切词结果的搜索方法及系统，该方法包括：接收搜索框内输入的搜索语句；查找所述搜素语句中的停用词；对停用词之前的语句利用Trie树字典进行正向切分和逆向切分；判断正向切分和逆向切分结果是否相同，如果是，则将所述正向切分结果或逆向切分结果作为最终切分结果，否则对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果；采用该最终切分结果作为搜索语句的关键词进行搜索。通过本发明的技术方案，可以提高切词的准确性，使得搜索结果更为准确。

Description

一种基于搜索语句切词结果的搜索方法及系统

技术领域

本发明涉及数据搜索领域，具体涉及一种基于搜索语句切词结果的搜索方法及系统。

背景技术

GB2312编码是第一个汉字编码国家标准，由中国国家标准总局1980年发布，1981年5月1日开始使用。GB2312编码共收录汉字6763个，其中一级汉字3755个，二级汉字3008个。

中文分词是指将中文文档里的汉字序列切分为一个个单独的词。

停止词(stopword)是指在自然语言环境中出现频率很高，但对于与文档的语义和分类没有实际影响的词汇。例如英文中的“the”、“and”、“of”等，中文中的“这”、“的”、“了”、“至于”等。

字典树，又称单词查找树，Trie树，是一种树形结构，哈希表的一个变种。用于统计，排序和保存大量的字符串。优点就是利用公共的前缀来节约存储空间。在这举个简单的例子：比如说我们想储存3个单词，中国、中国人，中国人民。如果只是单纯的按照以前的字符数组存储的思路来存储的话，那么我们需要定义三个字符串数组。但是如果我们用字典树的话，只需要定义一个树就可以了。在这里我们就可以看到字典树的优势了，例如中作为父节点，国作为中的子节点，人作为国的子节点，民作为人的子节点，每个节点有个标志可以表明是否构成词语。

词性包括产品词、品牌词、地区词、分类词等。

词库是指将词和词性的组合存储到文件中。

倒排索引是实现“单词-文档矩阵”的一种具体存储形式即某个词在哪些文档中存在。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。

为了识别用户搜索词中的产品词，快速准确获取该产品词最相关的文档集合，通过中文切词实现。现有技术中，MMSEG和结巴分词主要针对utf-8编码切词的，且词性方面不受控制。

针对大量产品商机中快速准确获取用户搜索词中产品词相关的商机需求，为了实现用户快速准确高效的搜索体验。迫切需要从词库来源、切词方法两个方面的技术问题着手生成解决方案。

发明内容

为解决上述技术问题，本发明提供了一种基于搜索语句切词结果的搜索方法，其特征在于，该方法包括以下步骤：

1)接收搜索框内输入的搜索语句；

2)查找所述搜素语句中的所有停用词，并将停用词分割的各个语句作为单独的一个切分单位，如果没有找到停用词，则将整个搜索语句作为切分单元，将所有的切分单元进行存储；

3)利用Trie树字典对所有切分单元进行正向切分和逆向切分，切分完成后，分别存储正向切分结果和逆向切分结果；

4)判断所述正向切分结果和逆向切分结果是否相同，如果是，则将所述正向切分结果或逆向切分结果作为最终切分结果，跳转到步骤6)，否则跳转到步骤5)；

5)对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果；

6)采用该最终切分结果作为搜索语句的关键词进行搜索。

根据本发明的实施例，优选的，所述步骤1)之前，包括以下步骤：

根据词库对GB2312字库中的每一个字符构建Trie树，形成Trie树字典。

根据本发明的实施例，优选的，每个Trie树节点包括：字符本身，当前节点是否构成词的标志，数组成员个数，词性值，指向数组成员的指针。

根据本发明的实施例，优选的，所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词；

对于词库的词语，通过爬虫技术在百度百科中校验是否构成词语。

根据本发明的实施例，优选的，所述词性值包括：产品词，品牌词，地区词。

根据本发明的实施例，优选的，所述交叉歧义选择包括至少以下选择标准之一：

长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。

为解决上述技术问题，本发明提供了一种基于搜索语句切词结果的搜索系统，其特征在于，该系统包括：

搜索语句接收模块，接收搜索框内输入的搜索语句；

停用词查找模块，查找所述搜素语句中的所有停用词，并将停用词分割的各个语句作为单独的一个切分单位，如果没有找到停用词，则将整个搜索语句作为切分单元，将所有的切分单元进行存储；

语句切分模块，利用Trie树字典对所有切分单元进行正向切分和逆向切分，切分完成后，分别存储正向切分结果和逆向切分结果；

切分结果判断模块，判断所述正向切分结果和逆向切分结果是否相同；

切分结果确定模块，如果正向切分和逆向切分结果，则将所述正向切分结果或逆向切分结果作为最终切分结果，对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果；

搜索结果输出模块，采用该最终切分结果作为搜索语句的关键词进行搜索，输出搜索结果。

根据本发明的实施例，优选的，该系统还包括：

字典构建模块，根据词库对GB2312字库中的每一个字符构建Trie树，形成Trie树字典。

为解决上述技术问题，本发明提供了一种计算机可读存储介质，该介质存储有计算机程序指令，通过执行该计算机程序指令，实现上述之一所述的方法。

通过本发明的技术方案取得了以下技术效果：

能够识别用户搜索词中的产品词、地区词等词性，快速准确获取该产品词最相关的文档集合。

附图说明

图1是本发明的切词处理方法流程图；

图2是本发明Trie树节点示意图；

图3是本发明的切词处理系统构成图。

具体实施方式

本发明提出的基于GB2312中文切词算法获取词性的方法，针对大量产品商机中快速准确获取用户搜索词中产品词相关的商机需求，实现了用户快速准确高效的搜索体验。本方法从词库来源、切词方法两个方面的技术问题着手生成解决方案。

首先，词库构成，来自搜狗词库，中华词典，以及通过爬虫技术在淘宝、京东搜索获取的推荐词。词库校验，通过爬虫技术在百度百科中校验是否构成词。

其次，词库词性，首先的地区词可以直接使用搜狗提供的地区词库，其次是产品词通过爬虫技术在淘宝搜索看是否有推荐词。

最后，切词算法实现是建立在我们词库基础上的。首先利用词库生成Trie树结构存储到文件中。其次加载Trie树文件到内存中实现对用户输入文档进行切词标记词性。

<切词处理方法>

本发明提出的中文切词算法获取词性处理过程如图1所示，其中包括了词库构建Trie树，正向逆向切词，交叉歧义选择。下面对这3个处理步骤逐一进行介绍：

(1)词库构建Trie树

《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布，1981年5月1日开始实施的一套国家标准，标准号是GB 2312—1980。

GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换，通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。

基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区，每区有94个位。每个区位上只有一个字符，因此可用所在的区和位来对汉字进行编码，称为区位码。

把换算成十六进制的区位码加上2020H，就得到国标码。国标码加上8080H，就得到常用的计算机机内码。1995年又颁布了《汉字编码扩展规范》(GBK)。GBK与GB 2312—1980国家标准所对应的内码标准兼容，同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字，共计20902字。

首先，GB2312有6768个字符，针对每个字符构建一个Trie树，可以定义一个拥有6763个成员的数组，每个成员即一个Trie树。

GB2312编码中汉字区码的十进制是从176到247，位码是从161到255.之所以存储了6763小于82*94＝6768，是因为在区码为215，位码为250-254之间共五个编码没有汉字编码，所以字符有6768个，而汉字为6768-5＝6763个。

其次，我们在切词时候希望通过某个字符快速得到其对应的Trie树，因此需要找到字符对应的编码和数组下标之间的转换关系。

举例说明：例如unsigned char*sUnit存储某个字符，计算其对应的数组下标nIndex值。如果*sUnit<0表示当前字符是汉字则nIndex＝(*sUnit-176)*94+(*(sUnit+1)-161)+256；否则表示当前字符是英文字符则nIndex＝*sUnit。公式计算以及中英文判断详情参考gb2312编码规则。

最后，我们的Trie树节点设计如下，一个节点成员为：字符，是否构成词，其后的下个词有几个，词性值，指向其后词的数组指针。这个字典树即就是读取字典文件构成字典树结构的。

True/False表示从根节点到当前节点是否构成词；

数字表示其pnext指针指向的数组成员个数；

weight即表示词性：例如产品词，品牌词，地区词等。

构建Trie树时候，我们是从有序的词库文件中依次加载构建Trie树的。

(2)正向逆向切词

正向字典树：即加载词库构成字典树时候从左到右读取词的；

逆向字典树：即加载词库构成字典树时候从右到左读取词的；

正向切分：即利用我们的正向字典树对一句话从左到右进行切词。

逆向切分：即利用我们的逆向字典树对一句话从右向左进行切词。

例如：铝合金接力棒，参见图2。

首先原子切分为：铝、合、金、接、力、棒。

正向切分：铝合金、接力棒。

逆向切分：铝，合金，接力，棒。

从上面结果可以看出切词结果不一致，因此需要后续交叉歧义判断。

不管是正向切分逆向切分，均利用原子切词结果的。首先通过字符‘铝’获取对应的Trie树，看‘铝’节点是否构成词，不构成词则看其pnext是否为空，不为空则在pnext指向的数组中二分查找得到‘合’字符，再看是否构成词。根据权值决定是否继续做上面逻辑。

其中，11000000表示既是产品词又是品牌词；10000001表示其他词性。10000000表示产品词，01000000表示品牌词。

(3)交叉歧义选择

即选择正向切分结果还是逆向切分结果：

1，长词个数多者优先，例如字符数目大于5个。

2，二元词个数多者优先，例如：桉木芯，桉木是词，木芯也是词。

3，单字个数少者优先。

4，地区词取正切。

5，词个数少者优先。

6，产品词个数多者优先。

7，三字词多者优先。

以上主要针对中文切词方法。

<切词处理系统>

根据图3，本发明公开了一种基于搜索语句切词结果的搜索系统，该系统包括：

搜索语句接收模块，接收搜索框内输入的搜索语句；

优选的，该系统还包括：

优选的，所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词；

优选的，所述词性值包括：产品词，品牌词，地区词。

优选的，所述交叉歧义选择包括至少以下选择标准之一：

该可读存储介质可以采用FLASH闪存，固态硬盘SSD，CD-ROM/DVD-ROM，磁盘，普通硬盘，易失性存储器等，在此仅为举例，不对其具体保护范围做限定。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换以及改进等，均应保护在本发明的保护范围之内。

Claims

1.一种基于搜索语句切词结果的搜索方法，其特征在于，该方法包括以下步骤：

1)接收搜索框内输入的搜索语句；

6)采用该最终切分结果作为搜索语句的关键词进行搜索。

2.根据权利要求1所述的方法，所述步骤1)之前，包括以下步骤：

3.根据权利要求2所述的方法，每个Trie树节点包括以下成员：字符本身，当前节点是否构成词的标志，数组成员个数，词性值，指向数组成员的指针。

4.根据权利要求2所述的方法，所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词；

5.根据权利要求3所述的方法，所述词性值包括：产品词，品牌词，地区词。

6.根据权利要求1-5之一所述的方法，所述交叉歧义选择包括至少以下选择标准之一：

7.一种基于搜索语句切词结果的搜索系统，其特征在于，该系统包括：

搜索语句接收模块，接收搜索框内输入的搜索语句；

8.根据权利要求7所述的系统，该系统还包括：

9.根据权利要求8所述的系统，每个Trie树节点包括：字符本身，当前节点是否构成词的标志，数组成员个数，词性值，指向数组成员的指针。

10.根据权利要求8所述的系统，所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词；

11.根据权利要求9所述的系统，所述词性值包括：产品词，品牌词，地区词。

12.根据权利要求7-11之一所述的系统，所述交叉歧义选择包括至少以下选择标准之一：长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。

13.一种计算机可读存储介质，该介质存储有计算机程序指令，通过执行该计算机程序指令，实现权利要求1-6之一所述的方法。