CN102122298B - 一种中文相似性匹配方法 - Google Patents
一种中文相似性匹配方法 Download PDFInfo
- Publication number
- CN102122298B CN102122298B CN 201110053729 CN201110053729A CN102122298B CN 102122298 B CN102122298 B CN 102122298B CN 201110053729 CN201110053729 CN 201110053729 CN 201110053729 A CN201110053729 A CN 201110053729A CN 102122298 B CN102122298 B CN 102122298B
- Authority
- CN
- China
- Prior art keywords
- similarity
- character string
- chinese
- character
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 150000001875 compounds Chemical class 0.000 claims description 10
- 241001672694 Citrus reticulata Species 0.000 abstract description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 240000005373 Panax quinquefolius Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种中文相似性匹配方法,利用编辑距离公式及键盘指法规则得到中文对应拼音的编辑相似度,即反应二者在编辑时是否容易混淆,通过汉字声母、韵母的发音规律得到字符串的声母相似度及韵母相似度,同时结合方言或者普通发音中常见的模糊音,计算字符串之间的发音相似度,由于汉字的字形是中文一个重要特征,所以利用字形编码-五笔字型编码计算字符串之间的字形相似度;在计算的同时收集信息,用于更新数据;综合上述相似度得到中文词整体的相似度,充分考虑了中文的拼写习惯、用户的输入习惯及键盘布局、普通话的发音规则、方言以及常见错误发音的影响、汉字字形等多方面因素,结合统计规律,综合评价中文词之间的相似度。
Description
技术领域
本发明涉及搜索中的文相似性匹配技术领域,特别是涉及一种中文相似性匹配方法。
背景技术
字符串的相似性函数作为衡量两个字符串之间近似程度的函数,是字符串匹配(String matching)、文本比较(Text Comparison)、信息抽取(InformationExtraction)中一项基本技术,它的输入通常是两个相同或不同的字符串,返回一个确定的整数值。两个字符串相似度越高,对应的返回值就越大。这项技术在计算生物学(Computational Biology),信号处理(Signal Processing)中也有广泛的应用。
针对应用场合不同,有很多经典的相似性函数可供选择。例如:编辑距离(Edit Distance或Levenshtein Distance),它考虑了三种编辑操作——插入(Insertion),删除(Deletion)和替换(Substitution),用将一个字符串转换成另一个字符串所需要的最少的编辑操作的数量作为这两个字符串的相似度;Smith-Waterman距离(Smith-Waterman Algorithm)是一种用于找到两个序列中相似区域的算法,经常用于计算生物学中核苷酸序列、氨基酸序列的比对。这种算法中,所涉及的操作也只有三种:插入、删除和替换。除了以上精确计算两个字符串差异的这些算法,也存在其他近似的简单的基于统计的方法。例如:Dice距离(Dice Coefficient)或Jaccard距离(Jaccard Index或Jaccard Similarity Coefficient),这两种方法在计算时都需要先将要比较的字符串s1,s2划分成q-gram,一个字符串的q-gram指的是它的所有长度为q的连续子串,例如,apple的2-gram就是:ap,pp,pl,le。划分结束后,得到两个字符串对应的q-gram集合SQ1,SQ2,则Dice(s1,s2)=2*|SQ1∩SQ2|/(|SQ1|+|SQ2|),Jaccard(s1,s2)=|SQ1∩SQ2|/|SQ1∪SQ2|。考虑到读音相近的字符更容易出现拼写错误,有人发明了基于读音的相似性函数,例如Soundex,这种算法将英文中发音相似的字母编码为相同的数字,例如b,f,p,v都映射为1。h,w这样不存在发音相近的字母的情况则不映射。通过上述方式,一个由英文字母组成的字符串就被转换成一个字母加数字的字符串,再通过更进一步的计算得到这两个字符串的相似度,作为原字符串的相似度。以上这些方法足以覆盖需要衡量字符串相似度的大部分领域,但是它们的局限性在于所有的这些方法都是针对英文,或者可以比较容易地推广到印欧语系的其他语种(例如:法语),对于汉语这样的结合了字形与读音的语种,它们的应用将受到一定的限制。
若是将汉字转化成拼音,英文的相似性函数可以用于中文字符串的相似性比较。但是需要考虑到中文自身的特点。首先,在拼音中,每个字符(或者有意义的字符组合)发音都是确定的,例如字母a在无论是出现在chang还是fang中,它的发音都是不变的。英文则完全不同,同样对于字母a,在cake中的发音就是[ei],而在cat中则发。而汉语拼音中,有意义的字母组合数量是很少的,例如ding是有意义的,但是对于这四个字母可能组成的其他15个排列,只有di,ni有汉字与之对应,英文中则不相同,nid,gin,di,id这些组合(省略其他情况)都有确定的含义。编辑操作对于中文而言,覆盖了很多可以省略的情况。在另一方面,中文中的编辑操作也无法用简单的插入、删除和替换操作来概括。例如考虑heng(恒)和hen(痕),heng(恒)和sheng(绳),这两组字符串对应的编辑距离都为1,但是很显然,前两个字符串的近似度更高,因为它更符合中文中的发音错误。而对于heng(哼)和sheng(声),sen(森)和sheng(声),即使前一组字符串的编辑距离为1,而后一组字符串的编辑距离为2,我们仍然会认为后两者更加接近。除了上面的简单的示例外,中文还存在许多复杂情况,例如方言、字形等。
随着汉语在计算机领域使用的推广,尤其是在互联网使用的普及,提出一种适合中文的相似性函数是十分有必要的。例如,网络中每天都存在着大量中文文本信息,而这些或是由人工编辑、或是由机器生成的文档,存在着大量错误,在进行更深层次的操作之前,需要先进行预处理,预处理中的许多步骤(清洗、整合)都涉及到相似性比较。而用户利用关键字查询信息时,也可能出现各种错误(例如只能记住读音,或者更加简单的拼写错误),一个设计良好的相似性函数,可以用于帮助用户直接找到他们期望的词语。
发明内容
本发明所要解决的技术问题是提供一种中文相似性匹配方法,用以精确地度量中文发音、方言、字形等汉语使用中常出现的错误,从而返回更加符合中文使用习惯的函数值,并且,它能更进一步地挖掘用户的习惯,校准、扩展原有模型。
为了解决上述问题,本发明公开了一种中文相似性匹配方法,所述方法包括:
获取两个待比较的字符串A和B;
计算两个字符串A和B在编辑时的相似度;
包括:
根据正确键盘指法,计算两个字符串A和B的键盘分布相似度;
对两个字符串A和B的编辑距离相似度和键盘分布相似度加权求和,获取到两个字符串A和B在编辑时的相似度;
建立汉字到拼音的对照表Table1;
建立汉字到五笔的对照表Table2;
建立汉字词频统计表Table3;
建立汉字错误信息统计表Table4;
当所获取的两个待比较的字符串A和B为汉字字符串时,对照对照表Table1将字符串转化为拼音字符串;对照对照表Table2将字符串转化为五笔编码;
获取两个字符串A和B的发音相似度;
获取两个字符串A和B的字形相似度;
对照预先建立的汉字词频统计表Table3和汉字错误信息统计表Table4统计两个字符串A和B的词频和错误信息;
根据统计结果确定两个字符串A和B编辑时的相似度、发音相似度以及字形相似度的权值,计算获取到两个待比较的中文字符串A和B的匹配度。
优选的,所述获取两个字符串A和B的发音相似度具体包括以下子步骤:
计算两个字符串A和B的声母相似度;
计算两个字符串A和B的韵母相似度;
对两个字符串A和B的声母相似度和韵母相似度加权求和,获取到两个字符串A和B的发音相似度。
优选的,所述方法在对两个字符串A和B的声母相似度和韵母相似度加权求和后,还包括:
计算两个字符串A和B的模糊音相似度;
将计算的两个字符串A和B的模糊音相似度,与对两个字符串A和B的声母相似度和韵母相似度加权求和的值进行加权求和,获取到两个字符串A和B的发音相似度。
与现有技术相比,本发明具有以下优点:
本发明利用编辑距离公式及键盘指法规则得到中文对应拼音的编辑相似度,即反应二者在编辑时是否容易混淆;通过汉字声母、韵母的发音规律得到字符串的声母相似度及韵母相似度,同时结合方言或者普通发音中常见的模糊音,计算字符串之间的发音相似度;由于汉字的字形是中文一个重要特征,所以利用字形编码——五笔字型编码计算字符串之间的字形相似度;在计算的同时收集信息,用于更新数据;综合上述相似度得到中文词整体的相似度,充分考虑了中文的拼写习惯、用户的输入习惯及键盘布局、普通话的发音规则、方言以及常见错误发音的影响、汉字字形等多方面因素,结合统计规律,综合评价中文词之间的相似度。使得相似性函数的返回值越大,中文词之间的相似度就越大。
Claims (3)
1.一种中文相似性匹配方法,其特征在于,所述方法包括:
获取两个待比较的字符串A和B;
计算两个字符串A和B在编辑时的相似度;
包括:
根据正确键盘指法,计算两个字符串A和B的键盘分布相似度;
对两个字符串A和B的编辑距离相似度和键盘分布相似度加权求和,获取到两个字符串A和B在编辑时的相似度;
建立汉字到拼音的对照表Table1;
建立汉字到五笔的对照表Table2;
建立汉字词频统计表Table3;
建立汉字错误信息统计表Table4;
当所获取的两个待比较的字符串A和B为汉字字符串时,对照对照表Table1将字符串转化为拼音字符串;对照对照表Table2将字符串转化为五笔编码;
获取两个字符串A和B的发音相似度;
获取两个字符串A和B的字形相似度;
对照预先建立的汉字词频统计表Table3和汉字错误信息统计表Table4统计两个字符串A和B的词频和错误信息;
根据统计结果确定两个字符串A和B编辑时的相似度、发音相似度以及字形相似度的权值,计算获取到两个待比较的中文字符串A和B的匹配度。
2.根据权利要求1所述的方法,其特征在于,所述获取两个字符串A和B的发音相似度具体包括以下子步骤:
计算两个字符串A和B的声母相似度;
计算两个字符串A和B的韵母相似度;
对两个字符串A和B的声母相似度和韵母相似度加权求和,获取到两个字符串A和B的发音相似度。
3.根据权利要求2所述的方法,其特征在于,所述方法在对两个字符串A和B的声母相似度和韵母相似度加权求和后,还包括:
计算两个字符串A和B的模糊音相似度;
将计算的两个字符串A和B的模糊音相似度,与对两个字符串A和B的声母相似度和韵母相似度加权求和的值进行加权求和,获取到两个字符串A和B的发音相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110053729 CN102122298B (zh) | 2011-03-07 | 2011-03-07 | 一种中文相似性匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110053729 CN102122298B (zh) | 2011-03-07 | 2011-03-07 | 一种中文相似性匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102122298A CN102122298A (zh) | 2011-07-13 |
CN102122298B true CN102122298B (zh) | 2013-02-20 |
Family
ID=44250857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110053729 Active CN102122298B (zh) | 2011-03-07 | 2011-03-07 | 一种中文相似性匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102122298B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184169B (zh) * | 2011-04-20 | 2013-06-19 | 北京百度网讯科技有限公司 | 用于确定字符串信息间相似度信息的方法、装置和设备 |
CN102622337B (zh) * | 2012-02-24 | 2014-05-07 | 浙江和仁科技有限公司 | 基于ihe pix规范的中文自然语言信息匹配方法 |
CN103678272B (zh) * | 2012-09-17 | 2016-04-06 | 北京信息科技大学 | 汉语依存树库中未登录词的处理方法 |
CN102915550A (zh) * | 2012-10-17 | 2013-02-06 | 华南理工大学 | 一种文字拼合检测方法 |
CN103970798B (zh) * | 2013-02-04 | 2019-05-28 | 商业对象软件有限公司 | 数据的搜索和匹配 |
CN103399907A (zh) * | 2013-07-31 | 2013-11-20 | 深圳市华傲数据技术有限公司 | 一种基于编辑距离计算中文字符串相似度的方法及装置 |
CN103678655B (zh) * | 2013-12-23 | 2017-02-08 | 国网浙江省电力公司 | 一种信息校核方法和装置 |
CN104809142B (zh) * | 2014-01-29 | 2018-03-23 | 北京瑞天科技有限公司 | 商标查询系统和方法 |
CN106815593B (zh) * | 2015-11-27 | 2019-12-10 | 北京国双科技有限公司 | 中文文本相似度的确定方法和装置 |
CN106815197B (zh) * | 2015-11-27 | 2020-07-31 | 北京国双科技有限公司 | 文本相似度的确定方法和装置 |
CN106980620B (zh) * | 2016-01-18 | 2020-07-31 | 阿里巴巴集团控股有限公司 | 一种对中文字串进行匹配的方法及装置 |
CN107092606B (zh) * | 2016-02-18 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种搜索方法、装置及服务器 |
CN106095865B (zh) * | 2016-06-03 | 2019-04-12 | 中细软移动互联科技有限公司 | 一种商标文本相似性评审方法 |
CN106407179B (zh) * | 2016-08-26 | 2019-03-26 | 福建网龙计算机网络信息技术有限公司 | 汉字字形相似度计算方法及其系统 |
CN106548777B (zh) * | 2016-11-25 | 2020-11-10 | 北京光年无限科技有限公司 | 一种用于智能机器人的数据处理方法及装置 |
CN107329583A (zh) * | 2017-06-15 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 一种计算联想词优先级的方法和装置 |
CN108170806B (zh) * | 2017-12-28 | 2020-11-20 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN107886968B (zh) * | 2017-12-28 | 2021-08-24 | 广州讯飞易听说网络科技有限公司 | 语音评测方法及系统 |
CN110069753A (zh) * | 2018-01-24 | 2019-07-30 | 北京京东尚科信息技术有限公司 | 一种生成相似度信息的方法和装置 |
CN113591453A (zh) * | 2018-04-10 | 2021-11-02 | 百融云创科技股份有限公司 | 人为填写的地址文本相似度处理方法和系统 |
CN108874756B (zh) * | 2018-06-29 | 2022-05-20 | 广东智媒云图科技股份有限公司 | 一种验证码优化方法 |
CN110928915A (zh) * | 2018-08-31 | 2020-03-27 | 北京京东金融科技控股有限公司 | 中文姓名模糊匹配的方法、装置、设备及可读存储介质 |
CN109359227A (zh) * | 2018-09-10 | 2019-02-19 | 平安科技(深圳)有限公司 | 近似商标的获取方法、装置、计算机设备和存储介质 |
CN109145529B (zh) * | 2018-09-12 | 2021-12-03 | 重庆工业职业技术学院 | 一种用于版权认证的文本相似性分析方法与系统 |
CN109684643B (zh) * | 2018-12-26 | 2021-03-12 | 湖北亿咖通科技有限公司 | 基于句向量的文本识别方法、电子设备及计算机可读介质 |
CN110287286B (zh) * | 2019-06-13 | 2022-03-08 | 北京百度网讯科技有限公司 | 短文本相似度的确定方法、装置及存储介质 |
CN110390015B (zh) * | 2019-07-23 | 2022-03-22 | 中国工商银行股份有限公司 | 一种数据信息处理方法、装置及系统 |
CN110413965A (zh) * | 2019-07-23 | 2019-11-05 | 广州国音智能科技有限公司 | 一种汉字转数字的方法、装置、设备和计算机可读存储介质 |
CN110443902B (zh) * | 2019-07-29 | 2022-04-12 | 宿迁硅基智能科技有限公司 | 无感支付收费站系统及方法 |
CN112528624B (zh) * | 2019-09-03 | 2024-05-14 | 阿里巴巴集团控股有限公司 | 文本处理方法、装置、搜索方法以及处理器 |
CN112100381B (zh) * | 2020-09-22 | 2022-05-17 | 福建天晴在线互动科技有限公司 | 一种文本相似度进行量化的方法及其系统 |
CN113593683A (zh) * | 2021-07-27 | 2021-11-02 | 浙江省人民医院 | 一种影像诊断报告书写质量评价方法及系统 |
CN115879458A (zh) * | 2022-04-08 | 2023-03-31 | 北京中关村科金技术有限公司 | 一种语料扩充方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561813A (zh) * | 2009-05-27 | 2009-10-21 | 东北大学 | 一种Web环境下的字符串相似度的分析方法 |
CN101976253A (zh) * | 2010-10-27 | 2011-02-16 | 重庆邮电大学 | 一种中文变异文本匹配识别方法 |
-
2011
- 2011-03-07 CN CN 201110053729 patent/CN102122298B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561813A (zh) * | 2009-05-27 | 2009-10-21 | 东北大学 | 一种Web环境下的字符串相似度的分析方法 |
CN101976253A (zh) * | 2010-10-27 | 2011-02-16 | 重庆邮电大学 | 一种中文变异文本匹配识别方法 |
Non-Patent Citations (1)
Title |
---|
王静婷.基于汉字聚类特征的中文字符串相似度计算研究.《现代图书情报技术》.2011,(第202期),48-53. * |
Also Published As
Publication number | Publication date |
---|---|
CN102122298A (zh) | 2011-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102122298B (zh) | 一种中文相似性匹配方法 | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
US9110980B2 (en) | Searching and matching of data | |
CN102214238B (zh) | 一种汉语词语相近性匹配装置及方法 | |
Mehri et al. | Variation of Zipf's exponent in one hundred live languages: A study of the Holy Bible translations | |
Patil et al. | Issues and challenges in marathi named entity recognition | |
Thet et al. | Word segmentation for the Myanmar language | |
Al-Sanabani et al. | Improved an algorithm for Arabic name matching | |
Bagul et al. | Rule based POS tagger for Marathi text | |
Tapsai et al. | TLS-ART: Thai language segmentation by automatic ranking trie | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP2016173742A (ja) | 顔文字感情情報抽出システム、方法及びプログラム | |
CN105511636B (zh) | 改进的全部汉字汉词简易无重码统一输入法 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
US10042843B2 (en) | Method and system for searching words in documents written in a source language as transcript of words in an origin language | |
KR20130113250A (ko) | 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 | |
Alpkocak et al. | Effects of diacritics on Turkish information retrieval | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
Sagum | Filipino native language identification using markov chain model and maximum likelihood decision rule | |
JP2016173743A (ja) | 顔文字抽出装置、方法及びプログラム | |
KHALIL et al. | Authorship authentication of political Arabic articles based on modified TF-IGF algorithm | |
CN101901062B (zh) | 基于音素编码的计算机汉字信息处理方法 | |
Rajendran et al. | Text processing for developing unrestricted Tamil text to speech synthesis system | |
Nay et al. | Automatic Generating Vocabulary File in Myanmar Information Retrieval | |
Ahmed et al. | Corpora based approach for Arabic/English word translation disambiguation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |