CN102063508B

CN102063508B - 基于广义后缀树的中文搜索引擎模糊自动补全方法

Info

Publication number: CN102063508B
Application number: CN 201110003711
Authority: CN
Inventors: 陈华钧; 冯叶磊; 姜晓红; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-01-10
Filing date: 2011-01-10
Publication date: 2013-06-05
Anticipated expiration: 2031-01-10
Also published as: CN102063508A

Abstract

本发明公开了一种基于广义后缀树的中文搜索引擎模糊自动补全方法，包括步骤一：建立词的广义后缀树索引，利用现有的建立后缀树的方法，对中文词库中的所有词建立广义后缀树索引；步骤二：计算字的相似度；步骤三：计算相似度接近的词的权重值；步骤四：模糊自动补全。本发明依据中文语境中以字为单位的特点，利用广义后缀树能够高效的保存词库中所有词的后缀，根据相似度权重，在计算机上实现了中文搜索引擎的模糊自动补全，从而增强了计算机中文自动补全的功能和适用性。本方法中的模糊自动补全，不仅可以支持传统的中文前缀补全，而且能够支持中文的任意中缀补全。

Description

基于广义后缀树的中文搜索引擎模糊自动补全方法

技术领域

本发明涉及计算机搜索引擎技术，尤其是一种基于广义后缀树的中文搜索引擎模糊自动补全方法。

背景技术

近年来，搜索引擎因其能够在几乎无限的资源中为广大用户找到所需的信息而越来越受到重视。优秀的搜索引擎也不断涌现，如：Google，Baidu等。在搜索引擎系统中，自动补全是一项非常有用的技术。当用户在搜索框输入字符串的前缀时，自动补全接口能够立刻返回与该前缀匹配的候选词集合。比如GoogleSuggest能够为用户提供查询补全，Facebook能够为用户提供好友查询补全。但是主流搜索引擎如Google，Baidu所提供的是精确自动补全，当用户键入的字符串没有错误时，这种方法工作良好，如果用户在键入字符串时发生错误，精确自动补全便不能为用户提供候选词。针对上述不足，微软已经提出了一种基于字典的后缀树（Suffix tree）模糊自动补全方法，能够处理英文语境下单词的模糊匹配，当用户在键入字符串时发生了小错误，用户期望的字符串仍能被自动补全。所述后缀树的概念最早由Weiner于1973年提出，既而由McCreight在1976年和Ukkonen在1992年和1995年加以改进完善，其实质是一种数据结构，能用来支持有效的字符串匹配和查询，快速解决很多关于字符串的问题。

然而，微软的基于字典的后缀树模糊自动补全方法，却不支持中文。英文以词为单位，一个词表示一种意思，模糊自动补全就是搜索与前缀匹配的候选字母，依据字典使其凑成数个可选的单词；中文与英文大不相同，中文以字为单位，单独的一个字，就至少包含一个确定的含义。

发明内容

本发明的目的在于：提供一种基于广义后缀树的中文搜索引擎模糊自动补全方法，能够增强中文自动补全的功能和适用性。

为实现上述目的，本发明可采取下述技术方案：

本发明一种基于广义后缀树的中文搜索引擎模糊自动补全方法，包括以下步骤：

步骤一：建立词的广义后缀树索引

利用现有的建立后缀树的方法，对中文词库中的所有词建立广义后缀树索引；

步骤二：计算字的相似度

对于GBK编码中的每个中文字进行预处理，计算每个字两两之间的音形相似度sim(y_i,y_j)，将计算结果以数组的形式存储于音形相似度数据库中；计算每个字两两之间的字形相似度sim(c_i,c_j)，将计算结果以数组的形式存储于字形相似度数据库中；

步骤三：计算相似度接近的词的权重值

依据用户输入的中文字符串，在步骤二所述的音形相似度数据库和/或字形相似度数据库中查找相似度接近的词，计算这些相似度接近的词的权重值；

步骤四：模糊自动补全

依据步骤三计算出的权重值，得到最终排序过的多个自动补全候选词。

权利要求1的步骤二中所述的音形相似度，是根据字的发音混淆程度计算得到的数据，如果两个字发音完全相同，设定其相似度数值为a1；如果两个字发音只有声调不同，设定其相似度数值为a2；如果两个字属于易混淆词表中的字，设定其相似度数为a3；所述a1、a2和a3满足下列条件：a1小于1，且a1>a2>a3>0。

设定所述a1=0.9；设定所述a2=0.8；设定所述a3=0.7。

步骤二中计算所述字形相似度的步骤包括：

步骤一：把每个字分别转化成图形；

步骤二：把每个字的所述图形转化成n×n像素的矩阵；

步骤三：计算每个字两两之间的字形相似度

sim (c_{i}, c_{j}) = (n^{2} - Σ_{p = 1}^{n} Σ_{q = 1}^{n} {(a_{pq}^{i} - a_{pq}^{j})}^{2}) / n^{2}

其中，c_i,c_j代表字，sim(c_i,c_j)代表字c_i,c_j的相似度，n为字转化为图形的像素矩阵维数，

为字c_i像素矩阵第p行第q列的取值。

步骤二中计算所述字形相似度的步骤包括：

步骤一：把每个字分别转化成图形；

步骤二：把每个字的所述图形转化成n×n像素的矩阵；

步骤三：计算每个字两两之间的字形相似度

sim (c_{i}, c_{j}) = (n^{2} - Σ_{p = 1}^{n} Σ_{q = 1}^{n} {(a_{pq}^{i} - a_{pq}^{j})}^{2}) / n^{2}

为字c_i像素矩阵第p行第q列的取值。

步骤一中所述广义后缀树的实现方法为：对于一个词库T＝{t₁,t₂,...,t_n}，通过使用Ukkonen算法来构造广义后缀树，假设词库中词的平均长度为m，则构造算法的时间复杂度为O(nm)。

步骤二中，使用Mathematica来计算字形的相似度，把GBK中的中文字全部转化成数字，定量的计算每个字两两之间的矩阵的相似度。

步骤三采用基于有权重的编辑距离来计算所述广义后缀树中候选词与用户输入的中文字符串之间的相似度，保留传统编辑距离计算方法中插入和删除操作权值为1，改变替换操作的权值为1-sim(c_i,c_j)。

步骤四中查找自动补全候选词采用动态规划算法，其步骤为：

步骤一：维护一个包含节点和权重编辑距离的优先队列，加入所述广义后缀树根节点；

步骤二：按序读取用户输入的中文字符串的单个字符c；

步骤三：从优先队列中读取一个节点nd，l_cur等于节点nd的编辑距离，对于节点nd的所有儿子节点n_c，如果n_c中的字符c′和c不同，把(n_c,l_cur+1-sim(c,c′))加入优先队列；如果n_c中的字符c和c相同，把（n_c,l_cur）加入优先队列，然后对于与n_c相距的每个后代节点n_desc，其中δ为容错阈值，把（n_desc,l_cur+d）加入优先队列；

步骤四：重复上述步骤三，直到旧优先队列中元素读取完；

步骤五：重复上述步骤二，直到读取完输入的字符串。

步骤四中，综合考虑依据用户输入的中文字符串与候选词的相似度和基于候选词本身热度而形成的权值，采用的排序函数为Score(q,w)＝α·(δ-ed′(q,w))+β·weight(w)，0＜β＜α＜1,α+β＝1，其中Score(q,w)代表字符串q与候选词w的关联打分函数，α和β为权值调节因子，ed′(q,w)为q和w的编辑距离，weight(w)为候选词w的热度权值。

本发明的方法相对于现有技术的有益效果是：

依据中文语境中以字为单位的特点，利用广义后缀树能够高效的保存词库中所有词的后缀，并依据中文字在音形和字形上不同于其他语言的特点，通过基于拼音的音形相似度和基于感官上的字形相似度的计算，根据相似度权重，在计算机上实现了中文搜索引擎的模糊自动补全，从而增强了计算机中文自动补全的功能和适用性。本方法中的模糊自动补全，不仅可以支持传统的中文前缀补全，而且能够支持中文的任意中缀补全。

附图说明

图1是易混淆前鼻音，后鼻音，翘舌音，平舌音词表。

图2是广义后缀树示意图。

具体实施方式

本发明方法的关键有三点：广义后缀树的高效实现，字形相似度的计算，动态规划算法的实现。

1.广义后缀树的实现。本方法是基于广义后缀树来实现的，图2为一个简单的广义后缀树。对于一个词库T＝{t₁，t₂,...,t_n}，我们使用Ukkonen算法来构造广义后缀树。假设词库中词的平均长度为m，则构造算法的时间复杂度为O(nm)。

2.字形相似度的计算。使用Mathematica来计算字形的相似度。Mathematica是一款科学计算软件，很好地结合了数值和符号计算引擎、图形系统、编程语言、文本系统、和与其他应用程序的高级连接。Mathematica中的Rasterize函数能够以图片的格式输出运算结果，Binarize函数可以把图像转换为单色单通道，ImageData则可以把图像转换成数组的形式。使用以上函数，我们把GBK中的汉字全部转化成数字，然后就能定性定量的计算两两汉字即两两矩阵之间的相似度。图1给出了易混淆前鼻音，后鼻音，翘舌音，平舌音词表。

3.动态规划算法的实现。我们维护两个优先队列valid和newValid，保存（节点，有权重编辑距离）信息。以下为伪代码：

Add(valid,root,0)

对于每一个i＝1Λδ

对于每一个节点nd到root的距离为1

Add(valid,nd,i)

输入的每个字符c

对于每一个有效的节点nd

赋值l_cur=节点nd的有权值编辑距离

对于每一个nd的儿子节点n_c

如果节点n_c的字符c′与c不同

Add(newValid,n_c,l_cur+1-sim(c,c′))

如果节点n_c的字符c′与c相同

Add(newValid,n_c,l_cur)

对于每一个与节点n_c距离

的后代节点n_desc

Add(newValid,n_desc,l_cur+d)

交换newValid和valid，清空newValid

返回valid中的节点的叶子节点

对候选词进行排序。

实施例：

一种基于广义后缀树的中文搜索引擎模糊自动补全方法，其特征在于包括以下步骤：

步骤一：建立词的广义后缀树索引

利用现有的建立后缀树的方法，对中文词库中的所有词建立广义后缀树索引；所述广义后缀树的实现方法为：对于一个词库T＝{t₁，t₂,...,t_n}，通过使用Ukkonen算法来构造广义后缀树，假设词库中词的平均长度为m，则构造算法的时间复杂度为O(nm)。图2为一个简单的广义后缀树。

步骤二：计算字的相似度

所述的音形相似度，是根据字的发音混淆程度计算得到的数据，如果两个字发音完全相同，设定其相似度数值为0.9；如果两个字发音只有声调不同，设定其相似度数值为0.8；如果两个字属于易混淆词表中的字，设定其相似度数为0.7。

图1是易混淆前鼻音，后鼻音，翘舌音，平舌音词表。

计算所述字形相似度使用Mathematica来计算字形的相似度，把GBK中的中文字全部转化成数字，定量的计算每个字两两之间的矩阵的相似度，其步骤包括：

步骤A：把每个字分别转化成图形；

步骤B：把每个字的所述图形转化成n×n像素的矩阵；

步骤C：计算每个字两两之间的字形相似度

sim (c_{i}, c_{j}) = (n^{2} - Σ_{p = 1}^{n} Σ_{q = 1}^{n} {(a_{pq}^{i} - a_{pq}^{j})}^{2}) / n^{2}

其中，c_i,c_j代表字，sim(c_i,c_j)代表字c_i,c_j的相似度，n为字转化为图形的像素矩阵维数，为字c_i像素矩阵第p行第q列的取值。

步骤三：计算相似度接近的词的权重值

依据用户输入的中文字符串，在步骤二所述的音形相似度数据库和字形相似度数据库中查找相似度接近的词，计算这些相似度接近的词的权重值；优选采用基于有权重的编辑距离来计算所述广义后缀树中候选词与用户输入的中文字符串之间的相似度，保留传统编辑距离计算方法中插入和删除操作权值为1，改变替换操作的权值为1-sim(c_i,c_j)。

步骤四：模糊自动补全

依据步骤三计算出的权重值，得到最终排序过的多个自动补全候选词。在本步骤中查找自动补全候选词采用动态规划算法，其步骤包括：

步骤D：维护一个包含节点和权重编辑距离的优先队列，加入所述广义后缀树根节点；

步骤E：按序读取用户输入的中文字符串的单个字符c；

步骤F：从优先队列中读取一个节点nd，l_cur等于节点nd的编辑距离，对于节点nd的所有儿子节点n_c，如果n_c中的字符c′和c不同，把(n_c,l_cur+1-sim(c,c′))加入优先队列；如果n_c中的字符c′和c相同，把（n_c,l_cur）加入优先队列，然后对于与n_c相距

的每个后代节点n_desc，把（n_desc,l_cur+d）加入优先队列；

步骤G：重复上述步骤三，直到旧优先队列中元素读取完；

步骤H：重复上述步骤二，直到读取完输入的字符串。

优选综合考虑依据用户输入的中文字符串与候选词的相似度和基于候选词本身热度而形成的权值，采用的排序函数为Score(q,w)＝α·(δ-ed′(q,w))+β·weight(w)，0＜β＜α＜1,α+β＝1，其中Score(q,w)代表字符串q与候选词w的关联打分函数，α和β为权值调节因子，ed′(q,w)为q和w的编辑距离，weight(w)为候选词w的热度权值。最后根据查找到的词的权重，得到最终排序过的多个自动补全候选词。优选10个自动补全候选词供用户选择。

Claims

1.一种基于广义后缀树的中文搜索引擎模糊自动补全方法，其特征在于包括以下步骤：

步骤一：建立词的广义后缀树索引

步骤二：计算字的相似度

对于GBK编码中的每个中文字进行预处理，计算每个字两两之间的音形相似度

Figure 2011100037110100001DEST_PATH_IMAGE001

，将计算结果以数组的形式存储于音形相似度数据库中，所述的音形相似度，是根据字的发音混淆程度计算得到的数据，如果两个字发音完全相同，设定其相似度数值为a1 ；如果两个字发音只有声调不同，设定其相似度数值为a2 ；如果两个字属于易混淆词表中的字，设定其相似度数为a3 ；所述a1、a2和a3满足下列条件：a1小于1，且a1>a2>a3>0；计算每个字两两之间的字形相似度