CN102122298B

CN102122298B - 一种中文相似性匹配方法

Info

Publication number: CN102122298B
Application number: CN 201110053729
Authority: CN
Inventors: 李国良; 黄维篁; 冯建华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-03-07
Filing date: 2011-03-07
Publication date: 2013-02-20
Anticipated expiration: 2031-03-07
Also published as: CN102122298A

Abstract

本发明提供了一种中文相似性匹配方法，利用编辑距离公式及键盘指法规则得到中文对应拼音的编辑相似度，即反应二者在编辑时是否容易混淆，通过汉字声母、韵母的发音规律得到字符串的声母相似度及韵母相似度，同时结合方言或者普通发音中常见的模糊音，计算字符串之间的发音相似度，由于汉字的字形是中文一个重要特征，所以利用字形编码-五笔字型编码计算字符串之间的字形相似度；在计算的同时收集信息，用于更新数据；综合上述相似度得到中文词整体的相似度，充分考虑了中文的拼写习惯、用户的输入习惯及键盘布局、普通话的发音规则、方言以及常见错误发音的影响、汉字字形等多方面因素，结合统计规律，综合评价中文词之间的相似度。

Description

一种中文相似性匹配方法

技术领域

本发明涉及搜索中的文相似性匹配技术领域，特别是涉及一种中文相似性匹配方法。

背景技术

字符串的相似性函数作为衡量两个字符串之间近似程度的函数，是字符串匹配(String matching)、文本比较(Text Comparison)、信息抽取(InformationExtraction)中一项基本技术，它的输入通常是两个相同或不同的字符串，返回一个确定的整数值。两个字符串相似度越高，对应的返回值就越大。这项技术在计算生物学(Computational Biology)，信号处理(Signal Processing)中也有广泛的应用。

针对应用场合不同，有很多经典的相似性函数可供选择。例如：编辑距离(Edit Distance或Levenshtein Distance)，它考虑了三种编辑操作——插入(Insertion)，删除(Deletion)和替换(Substitution)，用将一个字符串转换成另一个字符串所需要的最少的编辑操作的数量作为这两个字符串的相似度；Smith-Waterman距离(Smith-Waterman Algorithm)是一种用于找到两个序列中相似区域的算法，经常用于计算生物学中核苷酸序列、氨基酸序列的比对。这种算法中，所涉及的操作也只有三种：插入、删除和替换。除了以上精确计算两个字符串差异的这些算法，也存在其他近似的简单的基于统计的方法。例如：Dice距离(Dice Coefficient)或Jaccard距离(Jaccard Index或Jaccard Similarity Coefficient)，这两种方法在计算时都需要先将要比较的字符串s₁，s₂划分成q-gram，一个字符串的q-gram指的是它的所有长度为q的连续子串，例如，apple的2-gram就是：ap，pp，pl，le。划分结束后，得到两个字符串对应的q-gram集合SQ₁，SQ₂，则Dice(s₁，s₂)＝2*|SQ₁∩SQ₂|/(|SQ₁|+|SQ₂|)，Jaccard(s₁，s₂)＝|SQ₁∩SQ₂|/|SQ₁∪SQ₂|。考虑到读音相近的字符更容易出现拼写错误，有人发明了基于读音的相似性函数，例如Soundex，这种算法将英文中发音相似的字母编码为相同的数字，例如b，f，p，v都映射为1。h，w这样不存在发音相近的字母的情况则不映射。通过上述方式，一个由英文字母组成的字符串就被转换成一个字母加数字的字符串，再通过更进一步的计算得到这两个字符串的相似度，作为原字符串的相似度。以上这些方法足以覆盖需要衡量字符串相似度的大部分领域，但是它们的局限性在于所有的这些方法都是针对英文，或者可以比较容易地推广到印欧语系的其他语种(例如：法语)，对于汉语这样的结合了字形与读音的语种，它们的应用将受到一定的限制。

若是将汉字转化成拼音，英文的相似性函数可以用于中文字符串的相似性比较。但是需要考虑到中文自身的特点。首先，在拼音中，每个字符(或者有意义的字符组合)发音都是确定的，例如字母a在无论是出现在chang还是fang中，它的发音都是不变的。英文则完全不同，同样对于字母a，在cake中的发音就是[ei]，而在cat中则发

。而汉语拼音中，有意义的字母组合数量是很少的，例如ding是有意义的，但是对于这四个字母可能组成的其他15个排列，只有di，ni有汉字与之对应，英文中则不相同，nid，gin，di，id这些组合(省略其他情况)都有确定的含义。编辑操作对于中文而言，覆盖了很多可以省略的情况。在另一方面，中文中的编辑操作也无法用简单的插入、删除和替换操作来概括。例如考虑heng(恒)和hen(痕)，heng(恒)和sheng(绳)，这两组字符串对应的编辑距离都为1，但是很显然，前两个字符串的近似度更高，因为它更符合中文中的发音错误。而对于heng(哼)和sheng(声)，sen(森)和sheng(声)，即使前一组字符串的编辑距离为1，而后一组字符串的编辑距离为2，我们仍然会认为后两者更加接近。除了上面的简单的示例外，中文还存在许多复杂情况，例如方言、字形等。

随着汉语在计算机领域使用的推广，尤其是在互联网使用的普及，提出一种适合中文的相似性函数是十分有必要的。例如，网络中每天都存在着大量中文文本信息，而这些或是由人工编辑、或是由机器生成的文档，存在着大量错误，在进行更深层次的操作之前，需要先进行预处理，预处理中的许多步骤(清洗、整合)都涉及到相似性比较。而用户利用关键字查询信息时，也可能出现各种错误(例如只能记住读音，或者更加简单的拼写错误)，一个设计良好的相似性函数，可以用于帮助用户直接找到他们期望的词语。

发明内容

本发明所要解决的技术问题是提供一种中文相似性匹配方法，用以精确地度量中文发音、方言、字形等汉语使用中常出现的错误，从而返回更加符合中文使用习惯的函数值，并且，它能更进一步地挖掘用户的习惯，校准、扩展原有模型。

为了解决上述问题，本发明公开了一种中文相似性匹配方法，所述方法包括：

获取两个待比较的字符串A和B；

计算两个字符串A和B在编辑时的相似度；

包括：

根据正确键盘指法，计算两个字符串A和B的键盘分布相似度；

对两个字符串A和B的编辑距离相似度和键盘分布相似度加权求和，获取到两个字符串A和B在编辑时的相似度；

建立汉字到拼音的对照表Table1；

建立汉字到五笔的对照表Table2；

建立汉字词频统计表Table3；

建立汉字错误信息统计表Table4；

当所获取的两个待比较的字符串A和B为汉字字符串时，对照对照表Table1将字符串转化为拼音字符串；对照对照表Table2将字符串转化为五笔编码；

获取两个字符串A和B的发音相似度；

获取两个字符串A和B的字形相似度；

对照预先建立的汉字词频统计表Table3和汉字错误信息统计表Table4统计两个字符串A和B的词频和错误信息；

根据统计结果确定两个字符串A和B编辑时的相似度、发音相似度以及字形相似度的权值，计算获取到两个待比较的中文字符串A和B的匹配度。

优选的，所述获取两个字符串A和B的发音相似度具体包括以下子步骤：

计算两个字符串A和B的声母相似度；

计算两个字符串A和B的韵母相似度；

对两个字符串A和B的声母相似度和韵母相似度加权求和，获取到两个字符串A和B的发音相似度。

优选的，所述方法在对两个字符串A和B的声母相似度和韵母相似度加权求和后，还包括：

计算两个字符串A和B的模糊音相似度；

将计算的两个字符串A和B的模糊音相似度，与对两个字符串A和B的声母相似度和韵母相似度加权求和的值进行加权求和，获取到两个字符串A和B的发音相似度。

与现有技术相比，本发明具有以下优点：

本发明利用编辑距离公式及键盘指法规则得到中文对应拼音的编辑相似度，即反应二者在编辑时是否容易混淆；通过汉字声母、韵母的发音规律得到字符串的声母相似度及韵母相似度，同时结合方言或者普通发音中常见的模糊音，计算字符串之间的发音相似度；由于汉字的字形是中文一个重要特征，所以利用字形编码——五笔字型编码计算字符串之间的字形相似度；在计算的同时收集信息，用于更新数据；综合上述相似度得到中文词整体的相似度，充分考虑了中文的拼写习惯、用户的输入习惯及键盘布局、普通话的发音规则、方言以及常见错误发音的影响、汉字字形等多方面因素，结合统计规律，综合评价中文词之间的相似度。使得相似性函数的返回值越大，中文词之间的相似度就越大。

Claims

1.一种中文相似性匹配方法，其特征在于，所述方法包括：