CN103678385A

CN103678385A - 一种适用于移动搜索的个性化词典构造方法

Info

Publication number: CN103678385A
Application number: CN201210346775.5A
Authority: CN
Inventors: 王忠民; 齐静娜; 贺炎; 邓万宇; 梁琛; 王文浪
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2012-09-18
Filing date: 2012-09-18
Publication date: 2014-03-26
Anticipated expiration: 2032-09-18
Also published as: CN103678385B

Abstract

本发明提供了一种适用于移动搜索的个性化词典构造方法，词典结构中所引入的次字区位码分段哈希机制，将首字相同的词条根据次字区位码划分至多个子区间内，可实现在小范围内利用二分法快速查找次字，有效地提高了词典查询效率。同时，由于本发明提出的个性化词典在每个词条结构中引入了分类及使用频率等相关信息，在分词后即可直接获取用户查询内容所属的分类信息，满足了移动搜索个性化需求，便于系统进行查询扩展和查询推荐等相关处理。

Description

一种适用于移动搜索的个性化词典构造方法

技术领域

本发明涉及移动搜索中有关中文信息处理技术领域，具体来讲，涉及有关移动搜索中个性化词典构造方法。

背景技术

词是具有一定语义的最小单位，要想实现机器对中文语句的理解，首先需要进行分词处理以确定语句中的各个词。所谓分词，就是把一个句子按照其中词的含义进行切分。自动分词是中文信息处理的基本环节，分词所参照的词典机制及处理效率直接影响到系统处理效率和分词后所能提供的信息。

目前常用的词典机制主要基于整词二分法、TRIE索引树法和逐字二分法这三种方法，由于这些方法通过二分法实现对次字的查找，随着分词词典中词条数目的增长，会造成次字的查询范围过大，效率提高程度非常有限。也有在此基础上衍生出来的双字或多字哈希机制，但这些方法会使次字哈希表的长度过长或造成次字哈希表难于构建，导致词典的存储结构复杂难于管理。同时，鉴于目前基于常规的分词词典在分词结束后无法获取用户查询内容中的兴趣所在，因此无法满足移动搜索中高精确度及个性化的查询需求。

发明内容

本发明要解决的技术问题是提出一种适用于移动搜索的个性化词典构造方法，主要目的在于满足移动搜索中用户的个性化查询需求和高效的查询处理，提高用户的查询体验。

为解决上述问题，本发明提出了一种适用于移动搜索的个性化词典构造方法，其特征在于由首字哈希索引表、次字区位码分段哈希索引表、次字索引表和词典正文4个部分组成。

进一步地，上述词典的创建包括以下步骤：

(1)从已分类的原始线性词库中按序循环读出所有词条，每次读取一条，提取首字相关信息存储至首字哈希索引表中；

(2)提取词条次字及相关信息，根据相应的次字区位码分段哈希索引表哈希定位次字的存储位置；

(3)将次字存储于次字索引表中相应的存储区域内；

(4)提取词条中除去前两个字的词条后缀，保存至词典正文中相应的区域内。

本发明提出的词典结构同时包含了词条所属的分类信息，可在分词后直接获取到用户查询内容所属的类别信息，为用户兴趣获取提供了依据。其中，词条的分类编码规则是将日常生活中常见的12个主类及包含的子类信息按照主从关系进行分类编码，共分为三级，每级顺序进行编码，这种编码方式可由编码信息快速确定目标词的类别信息。

本发明提出的个性化词典构造方法，有效地克服了现有技术的不足。词典结构中所引入的次字区位码分段哈希机制，将首字相同的词条划分至20个子区间内，从而实现在小范围内利用二分法快速查找次字，有效地提高了词典查询效率；同时，分词结束后可直接获取到词典中所包含的词条分类信息，这些分类信息为用户兴趣的挖掘提供了依据。

附图说明

图1是本发明提出的个性化词典逻辑结构示意图；

图2是本发明提出的个性化词典的首字哈希索引表在内存中的数据结构图；

图3是本发明提出的个性化词典的次字区位码分段哈希索引表在内存中的数据结构图；

图4是本发明提出的个性化词典的次字索引表在内存中的数据结构图；

图5是本发明提出的个性化词典的词典正文在内存中的数据结构图；

图6是本发明提出的个性化词典中词条的分类信息结构图；

图7是本发明提出的个性化词典的构造过程流程图；

具体实施方式

下面结合附图，对本发明作进一步的详细说明。

图1为本发明提出的个性化词典逻辑结构示意图，共分为4级，分别为首字哈希索引表、次字区位码分段哈希索引表、次字索引表和词典正文。

首字哈希索引表是由词的首字和相关属性信息及指向下级单元的指针组成，它在内存中的数据结构如图2所示。其中，isWord、frequency和coding为首字的相关属性信息，分别表示是否为词、出现频率及分类编码信息；s_hash存储以当前字为首字所对应的下级单元的首地址；wordFirst为首字，由GB2312编码表中的汉字组成，由于GB2312共收录了6763个汉字，因此首字哈希索引表长度为6763，同时可由汉字的机内码根据公式计算出首字在首字哈希索引表中的位置，该公式为：

offset＝(c₁-0xB0)×94+(c₂-0xA1)

其中，c1、c2分别为汉字机内码的高低字节。

由于在汉语中双字词语最多，并且词典中首字相同的词数量比较大，使用二分法查找次字时需要多次查询，影响到词典的查询效率。因此，如果能缩小次字的查询范围，就可以大大提高系统的查询性能。

本发明提出的个性化词典便是从缩小次字查询范围入手实现词典查询效率的提高，其功能主要由词典的次字区位码分段哈希索引表实现，在内存中的数据结构如图3所示。其中，regionIndex表示次字区位码对应的分段号，分别用1-20进行标记；s_index为存储次字分布在当前区内间内的次字索引表首地址。具体实现是通过对原始线性词库中所有词条的次字出现频率进行统计，按照统计结果将次字划分至不同的区间范围内。其中，出现频率高的次字进行小间隔划分，出现频率低的次字进行大间隔划分，这样可将首字相同的词条按照次字区位码非均匀划分至20个不同的分段内，且每个分段对应的词条个数可基本实现均匀分布。通过这种方式可有效缩小次字的查询范围，同时避免了当次字区位码集中分布于个别区域时所造成的词条数量过大，导致次字查询效率提升受限的弊端。

在进行次字查找时，可根据次字区位码对应的分段号哈希定位满足当前条件的次字索引表的首地址，进而在小范围内利用二分法快速查找次字，实现整体查询效率的提高。图4为次字索引表在内存中的数据结构图，其中，wordSec存储符合前两级约束的所有词的次字；isWord表示满足当前条件的前两个字是否为词；frequency和coding表示出现频率及分类编码信息；last_table存储剩余字串表的首地址，该剩余字串表存储了所有满足当前约束的除去前两个字的词条后缀及相关属性信息，如图5所示。

图6是本发明提出的个性化词典中词条的分类信息结构图，词条的分类信息包括娱乐、运动、城市、自然、工程等日常生活中常见的12种主类，各个主类下又包含对应分支的子类，共分为三级，每级顺序进行编码，其中，词库级数＝编码的长度/2，通过这种编码方式可快速确定目标词的类别信息。

图7是本发明提出的个性化词典的构造过程流程图。具体实现时首先需要根据常用分类信息对原始线性词典进行划分，得到基于词分类信息的独立线性词典，然后按照本发明提出的次字区位码分段哈希机制将已分类的线性词典构建为新的词典，并在此过程中将分类信息添加至每个词条中。具体包括如下步骤：

步骤1，对于已分类的原始线性词库，按序每次读取一个词条，进行后续的处理；

步骤2，提取词条中的第一个字，将首字包含的相关属性信息保存至首字哈希表中；

步骤3，若当前词条长度大于1，则提取词条中的次字，由该次字的区位码值对应的分段号哈希定位次字所在范围的首地址s_hash；

步骤4，将次字及相关信息保存或更新至s_hash指向的次字索引表中；

步骤5，若当前词条长度大于2，则将除去前两个字的词条后缀及其分类信息保存或更新至相应的词典正文中；

步骤6，若原始词库中所有词条已处理完毕，结束流程。

通过以上步骤，可将原始的线性词库文件转化本发明所提出的个性化分词词典，词典构造过程中为每个词条添加了对应的词条分类信息，为分词过程中的高效及个性化的查询处理提供支持。

Claims

1.一种适用于移动搜索的个性化词典构造方法，其特征在于由首字哈希索引表、次字区位码分段哈希索引表、次字索引表和词典正文4个部分组成；

所述的首字哈希表由词的首字和属性信息及指向次字区位码分段哈希索引表的指针组成；

所述的次字区位码分段哈希索引表由次字区位码所属的区间范围编号及指向次字索引表的指针组成；

所述的次字索引表由词的次字和属性信息及指向词典正文的指针组成；

所述的词典正文由除去前两个字的剩余字串构成的剩余字串表及词的属性信息组成。

2.根据权利要求1所述的一种适用于移动搜索的个性化词典构造方法，其特征在于，所述的首字由GB2312编码表中的汉字组成，根据汉字的机内码可由公式实现首字在首字哈希索引表中的快速定位。

3.根据权利要求1所述的一种适用于移动搜索的个性化词典构造方法，其特征在于，所述的属性信息包括词条是否成词的标记、使用频率和所属分类编码，以及后续使用过程中可能出现的相关扩展信息。

4.根据权利要求3所述的一种适用于移动搜索的个性化词典构造方法，其特征在于，所述的词条分类编码是将日常生活中常见的12个主类及包含的子类类别按照主从关系进行分类编码，共分为三级，每级顺序进行编码，这种编码方式可由编码信息快速确定目标词的类别信息。

5.根据权利要求1所述的一种适用于移动搜索的个性化词典构造方法，其特征在于，所述的次字区位码所属的区间范围划分依据是：通过对原始线性词库中所有词条的次字出现频率进行统计，按照统计结果将次字非均匀划分至不同的区间范围内。

6.根据权利要求5所述的一种适用于移动搜索的个性化词典构造方法，其特征在于，所述的对次字非均匀划分是指通过对原始线性词库中出现频率高的次字进行小间隔划分，出现频率低的次字进行大间隔划分，以实现将首字相同的词条按照次字区位码非均匀划分至20个不同的分段内，从而缩小首字相同的词的次字查询范围。

7.根据权利要求6所述的一种适用于移动搜索的个性化词典构造方法，其特征在于，所述的对次字区位码进行非均匀划分，目的在于基本实现每个子区间对应的词条个数的均匀分布，避免了当次字区位码集中分布于个别区域时所造成的词条数量过大，导致次字查询效率提升受限的弊端。

8.根据权利要求6所述的一种适用于移动搜索的个性化词典构造方法，其特征在于，在进行次字查找时，可根据次字区位码对应的分段号哈希定位次字所在范围的首地址，进而实现在小范围内利用二分法快速查找次字，实现整体效率的提高。

9.根据权利要求1所述的一种适用于移动搜索的个性化词典构造方法，其特征在于，所述的词典正文是由动态数组构成，剩余字串在动态数组中按照词条频率的大小及词条长度由长到短的顺序进行存储。

10.根据权利要求9所述的一种适用于移动搜索的个性化词典构造方法，其特征在于，所述规则可在分词过程中优先选取频率高及词长最大的词条，提高了分词的效率及准确度。