CN104750672B - 一种应用于搜索中的中文词汇纠错方法及其装置 - Google Patents
一种应用于搜索中的中文词汇纠错方法及其装置 Download PDFInfo
- Publication number
- CN104750672B CN104750672B CN201310737321.5A CN201310737321A CN104750672B CN 104750672 B CN104750672 B CN 104750672B CN 201310737321 A CN201310737321 A CN 201310737321A CN 104750672 B CN104750672 B CN 104750672B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- standard
- pinyin
- comparison
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000000052 comparative effect Effects 0.000 abstract 1
- 240000000233 Melia azedarach Species 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 244000241257 Cucumis melo Species 0.000 description 1
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 1
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种应用于搜索中的中文词汇纠错方法及其装置,其中,该中文词汇纠错方法包括步骤预先建立标准词库,所述标准词库包括多个标准词汇,以及所述标准词汇中每个字符的位置信息和拼音信息;自动获取用户输入的待判定字符串,得到该待判定字符串中各个字符的位置信息和拼音信息,根据所述标准词汇和该待判定字符串中每个字符的位置信息和拼音信息,将所述待判定字符串与所述标准词汇进行比较,并根据比较结果从所述标准词库中选择正确的词汇。本发明的中文词汇纠错方法及其装置能够在等同硬件条件的情况下,更加准确,更加低成本的解决用户输入的纠错工作,从而给用户快速和智能的网络服务体验。
Description
技术领域
本发明涉及网络技术领域,尤其涉及一种应用于搜索中的中文词汇纠错方法及其装置。
背景技术
在使用搜索引擎进行搜索的过程中,用户所输入的词语等字符串,有可能含有错别字等错误内容。据统计,有10%~15%的用户输入的原始查询是含有错误的,那么对这种错误的原始输入的纠正是保证信息服务质量的一个重要环节。
传统的错词纠正,是基于一个错词库,将用户经常犯错误的词收入库中,当用户搜索得到的搜索结果过少时,启用纠错流程,使用正确的词进行查询,同时提示用户是不是搜索的是这个词。一方面,这种错词库需要由相应的专业人员来进行维护,使得成本增加,另一方面,这种手动配置错误词库的方式,在面对海量搜索,用户输入的错词多变且不可预估的情况下,并不能够满足要求,从而不能给用户提供一个良好的网络服务体验,进而严重影响网络服务质量,并将导致网络用户的流失。
因此,如何在等同硬件条件的情况下,更加准确,低成本的解决用户输入的纠错工作,从而给用户快速和智能的网络服务体验成为目前急需解决的一个问题。
发明内容
本发明的实施例所要解决的技术问题在于提供一种应用于搜索中的中文词汇纠错方法及其装置,能够在等同硬件条件的情况下,更加准确,更加低成本的解决用户输入的纠错工作,从而给用户快速和智能的网络服务体验。
为解决上述技术问题,本发明采用的技术方案如下:
本发明提供了一种应用于搜索中的中文词汇纠错方法,其包括步骤:
预先建立标准词库,所述标准词库包括多个标准词汇,以及所述标准词汇中每个字符的位置信息和拼音信息;
自动获取用户输入的待判定字符串,得到所述待判定字符串中各个字符的位置信息和拼音信息;
根据所述标准词汇和所述待判定字符串中每个字符的位置信息和拼音信息,将所述待判定字符串和所述标准词汇中每个字符的位置信息和拼音信息进行比较,并根据比较结果从所述标准词库中选择正确的词汇。
进一步地,所述根据所述标准词汇和所述待判定字符串中每个字符的位置信息和拼音信息,将所述待判定字符串和所述标准词汇中每个字符的位置信息和拼音信息进行比较,并根据比较结果从所述标准词库中选择正确的词汇的步骤,具体包括步骤:
根据所述待判定字符串和所述标准词汇中每个字符的位置信息,将所述待判定字符串与所述标准词汇进行字形比较,根据比较结果从所述标准词库中选择出对比词汇组;
根据所述待判定字符串和所述对比词汇组中标准词汇的每个字符的拼音信息,将所述待判定字符串与所述对比词汇组中每个标准词汇进行拼音比较,并根据字形比较结果和拼音比较结果从所述对比词汇组中选择出正确的词汇。
进一步地,所述根据所述待判定字符串和所述标准词汇中每个字符的位置,将所述待判定字符串与所述标准词汇进行字形比较,根据比较结果从所述标准词库中选择出对比词汇组的步骤具体为:
根据所述待判定字符串的字符总数,在所述标准词库中选择出字符总数相同的待选定标准词汇组;
将所述待判定字符串与所述待选定标准词汇组中的每个标准词汇进行字形对比较,并根据比较结果从所述待选定标准词汇组中选择出对比词汇组。
更进一步地,所述将所述待判定字符串与所述待选定标准词汇组中的每个标准词汇进行字形对比较,并根据比较结果从所述待选定标准词汇组中选择出对比词汇组的步骤,具体包括步骤:
根据所述待判定字符串中每个字符的位置,将所述待判定字符串与所述待选定标准词汇组中每个标准词汇进行字形比较,并计算得到每个标准词汇与所述待判定字符串之间的字形相似度;
比较计算得到的各个标准词汇与所述待判定字符串的字形相似度,选择字形相似度最高的标准词汇作为对比词汇组;
其中,所述字形相似度的计算方式为:字形相似度=相同位置相同的字符数/标准词汇的总字符数。
更进一步地,所述根据所述待判定字符串和所述对比词汇组中标准词汇的每个字符的拼音信息,将所述待判定字符串与所述对比词汇组中各个标准词汇进行拼音比较,并根据字形比较结果和拼音比较结果从所述对比词汇组中选择出正确的词汇的步骤,具体包括步骤:
按照单字拼音比较方式,将所述待判定字符串与所述对比词汇组中标准词汇进行拼音比较,并计算得到所述对比词汇组中每个标准词汇与所述待判定字符串的拼音相似度;
计算并比较所述对比词汇组中每个标准词汇与所述待判定字符串之间的字形相似度与拼音相似度之和,并根据比较结果选择字形相似度与拼音相似度之和最高的标准词汇为正确的词汇;
其中,拼音相似度的计算方式为:拼音相似度=相同位置的相同拼音字母数/标准词汇中各个字符的拼音字母总数。
更进一步地,所述标准词库具体包括位置信息数据库和拼音信息数据库,所述位置信息数据库采用单字拆分方式存储的标准词汇,及该标准词汇中各个字符对应的位置;所述拼音信息数据库存储有对应于所述位置信息数据库中的标准词汇中每个字符的拼音,且每个字符的拼音与其位置一一对应。
相应地,本发明还提供了一种应用于搜索中的中文词汇纠错装置,其包括:
标准词库创建模块,用于预先创建标准词库,该标准词库包括多个标准词汇,以及各个标准词汇中每个字符的位置信息和拼音信息;
获取模块,用于获取用户输入的待判定字符串,得到所述待判定字符串中各个字符的位置信息和拼音信息;
纠错模块,用于根据所述标准词汇和所述待判定字符串中每个字符的位置信息和拼音信息,将所述待判定字符串和所述标准词汇中每个字符的位置信息和拼音信息进行比较,并根据比较结果从所述标准词库中选择正确的词汇。
进一步地,所述纠错模块具体包括:
字形比较子模块,用于根据所述待判定字符串和所述标准词汇的每个字符的位置信息,将所述获取模块所获取的待判定字符串与所述标准词库中的标准词汇进行字形比较,根据比较结果从所述标准词库中选择出对比词汇组;
拼音比较子模块,用于根据所述对比词汇组中各个标准词汇的每个字符的拼音信息,将所述待判定字符串与所述对比词汇组中的标准词汇进行拼音比较,并根据字形比较结果和拼音比较结果从所述对比词汇组中选择出正确的词汇。
更进一步地,所述字形比较子模块包括:
字符比较单元,用于根据所述待判定字符串的字符总数,在所述标准词库中选择出字符总数相同的待选定标准词汇组;
对比词汇选定单元,用于将所述待判定字符串与所述待选定标准词汇组中的每个标准词汇进行字形对比较,并根据比较结果从所述待选定标准词汇组中选择出对比词汇组。
更进一步地,所述对比词汇选定单元具体包括:
字形比较子单元,用于根据所述待判定字符串中每个字符的位置,将所述待判定字符串与所述标准词库中每个词汇进行字形比较;
字形相似度计算子单元,用于根据所述字形比较单元的比较结果,计算得到所述标准词库中每个标准词汇与所述待判定字符串的字形相似度,具体的计算方式为:所述字形相似度的计算方式为:字形相似度=相同位置相同的字符数/标准词汇总字符数;
相似度比较子单元,用于比较所述相似度计算单元计算得到的各个标准词汇与所述待判定字符串的字形相似度,并将比较得到字形相似度最高的标准词汇作为对比词汇组;和/或,
所述拼音比较子模块具体包括:
拼音比较单元,用于按照单字拼音比较方式,将所述待判定字符串与所述对比词汇组中标准词汇进行拼音比较;拼音相似度计算单元,用于根据所述拼音比较单元的比较结果,计算所述对比词汇组中每个标准词汇与所述待判定字符串的拼音相似度,其中,该拼音相似度计算方式为:拼音相似度=相同位置的相同拼音字母数/标准词汇中各个字符的拼音字母总数;
判定单元,用于分别计算所述对比词汇组中每个标准词汇与待判定字符串之间的字形相似度与拼音相似度之和,并比较各个标准词汇与所述待判定字符串的字形相似度和拼音相似度之和,并选择字形相似度和拼音相似度之和最高的标准词汇为正确的词汇。
更进一步地,所述标准词库创建模块具体包括:
位置信息数据库创建子模块,用于采用单字拆分方式存储多个标准词汇,以及该标准词汇中每个字符对应的位置,得到位置信息数据库;
拼音信息数据库创建子模块,用于存储所述位置信息数据库所存储的标准词汇中每个字符的拼音,且每个字符的拼音与其位置一一对应,得到拼音信息数据库。
实施本发明的有益效果:
实施本发明的应用于搜索中的中文词汇纠错方法及其装置,通过预先建立标准词库,而非采用错词库的方式,从而不需要专业人员来进行人工维护,降低了成本,同时,本发明通过自动获取待判定字符串,并将其与标准词库中的标准词汇进行比较,再根据比较结果选择正确的词汇来进行搜索,从而能够保证在等同硬件条件的情况下,更加快速、准确地解决用户输入的错词,进而给用户快速和智能的网络服务体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种应用于搜索中的中文词汇纠错方法的一实施例的流程示意图;
图2为本发明的一种应用于搜索中的中文词汇纠错方法中将待判定字符串与标准词汇进行比较,从而选择正确词汇的步骤一实施例的流程示意图;
图3为本发明的一种应用于搜索中的中文词汇纠错装置的功能模块示意图;
图4为本发明的一种应用于搜索中的中文词汇纠错装置中纠错子模块的字形比较子模块的一实施例的功能模块示意图;
图5为本发明的一种应用于搜索中的中文词汇纠错装置中纠错子模块的拼音比较子模块的一实施例的功能模块示意图。
具体实施方式
以下将结合附图对本发明进行详细说明。
参见图1,为本发明的一种应用于搜索中的中文词汇纠错方法的一实施例的流程示意图,具体实施时,本实施例的该中文词汇纠错方法具体包括步骤:
S11,预先建立标准词库。本实施例中该标准词库包括多个标准词汇,以及各个标准词汇中每个字符的位置信息和拼音信息。本实施例中该标准词汇是指符合语法的、正确的词语。
在一具体实施例中,该标准词库具体可分为:位置信息数据库和拼音信息数据库。其中,该位置信息数据库包括了单字拆分存储的多个标准词汇,及该标准词汇中各个字符的位置。本实施例中该位置信息具体是指该标准词汇在数据库中所处的位置,以及该标准词汇中各个字符在该标准词汇中所处的位置,如下表一位置信息数据库中所示,标准词汇“练习簿”处于数据库中第二个词汇,且字符“练”为该标准词汇的第一个字符,“习”为该标准词汇的第二个字符,“簿”为该标准词汇的第二个字符:
表一位置信息数据库
其中,该拼音信息数据库存储了标准词汇中各个字符的拼音(即拼音音节),即构成该拼音的各个拼音字母(即音位),以及每个拼音字母在该拼音中所处的位置。本实施例中各个字符的拼音(即拼音音节)与其位置相一一对应,即每个字符的拼音与其在位置数据库中的位置也相对应,如表二拼音信息数据库所示,标准词汇“练习簿”各个字符的拼音分别为“lian”、“xi”、“bu”,且拼音“lian”对应于第一个字符“练”,“xi”对应于第二个字符“习”,“bu”对应于第三个字符“簿”:
表二拼音信息数据库
ID | 名称 | 第1个字 | 第2个字 | 第3个字 | 第4个字 | 第5个字 | 第6个字 |
1 | 沙家浜 | sha | jia | Bang | |||
2 | 练习簿 | Lian | xi | Bu | |||
3 | 不刊之论 | bu | kan | Zhi | Lun | ||
4 | 哈密瓜 | ha | mi | Gua | |||
5 | 珠穆朗玛峰 | zhu | mu | Lang | ma | feng |
S13,自动获取用户输入的待判定字符串,得到该待判定字符串中各个字符的位置信息和拼音信息。具体实施时,可从搜索引擎日志中获取用户输入的待判定字符串,也可直接从输入设备中获取该待判定字符串,从而得到该待判定字符串中每个字符的位置信息和拼音信息,本实施例中该待判定字符串中每个字符的位置信息是指该字符在用户输入的词汇中所处的位置及其字形,例如用户输入的待判定字符串为“练习薄”,则“薄”的位置信息是指“薄”字本身的字形,以及其在“练习薄”这一词汇中处于第三个位置;本实施例中该待判定字符串中每个字符的拼音信息是指每个字符的拼音。本实施例中每个字符对应一个位置信息,且唯一对应一个拼音,即每个字符的拼音与位置信息也一一对应。
由于当用户输入的待判定字符串中存在错词,直接根据该待判定字符串进行第一次搜索得到的搜索结果可能达不到预设的阈值,即达不到用户需要,因此,可通过判断第一次搜索结果来判断待判定字符串是否出现错词,进而进行纠错,即在另一具体实施例中,执行该步骤S13之前,还包括步骤:判断根据用户输入的待判定字符串第一次搜索得到的搜索结果是否小于预设阈值,得到判断结果;当该判断结果为搜索结果小于预设阈值,则执行该步骤S13;否则,即当该判断结果为搜索结果大于或者大于预设阈值,则无操作或者直接显示第一次搜索得到的搜索结果。
本实施例中,该待判定字符串通常是指单个词汇或者由多个词汇组成的语句或者多个词汇并列的词汇组等。
S15,根据用户输入的待判定字符串和步骤S11建立的标准词库中标准词汇中每个字符的位置信息和拼音信息,将该待判定字符串与该标准词汇进行比较,并根据比较结果从标准词库中选择正确的词汇。在一具体实施例中,该步骤S15具体包括步骤:
S151,根据上述标准词库中每个标准词汇每个字符的位置信息,将该待判定字符串与该标准词库中每个标准词汇进行字形比较,根据比较结果从该标准词库中选取出对比词汇组。具体实施时,该步骤S151具体包括步骤:
首先,根据待判定字符串的字符总数,在标准词库中选择出字符总数相同的待选定标准词汇组。由于标准词库中包含的多个标准词汇,且每个标准词汇的字符总数各不相同,因此,为了加快速度,本实施例中首先从标准词库中选择出字符数相同的标准词汇作为待选定标准词汇组。
然后,将所述待判定字符串与所述待选定标准词汇组中的每个标准词汇进行字形对比较,并根据比较结果从所述待选定标准词汇组中选择出对比词汇组。在一具体实施例中,该字形标比较的步骤具体为:
a,根据该待判定字符串中各个字符的位置,将该待判定字符串与待选定标准词汇组中每个标准词汇进行字形比较,并计算得到每个标准词汇与该待判定字符串之间的字形相似度。由于待选定标准词汇组中的标准词汇可能具有多个,因此,需要将待判定字符串与待选定标准词汇组中的标准词汇一一进行字形比较,从而找到与待判定字符串具有一个或者两个字形相似,甚至多个字形相似的多个标准词汇。
b,比较计算得到的各个标准词汇与待判定字符串的字形相似度,选择字形相似度最高的标准词汇作为对比词汇组。具体实施时,由于有些标准词汇可能与该待判定字符串只有一个字或者两字或者多个字相同,因此,为了进一步缩小查找范围,本实施例中,选择字形相似度最高的标准词汇,作为对比词汇组来进行下一步对比,从而进一步保证词汇纠错的准确性。
本实施例中,该字形相似度最高的标准词汇是指该标准词汇的字符总数与待判定字符串中词汇的字符总数相同,且位置相同和字形相同的字符数量最多的标准词汇。例如根据字符的位置,将待判定字符串“练习薄”在标准词库中与各个标准词汇进行字形比较,首先找到总字符数量相同的多个标准词汇组成待判定标准词汇组,再从中找到相同位置上字形相同最多的多个标准词汇从而组成字形相似度最高的对比词汇组为:“练习本”,“练习场”,“练习簿”,且该对比词汇组中各个标准词汇与待判定字符串的字形相似度similar_position分别为:
“练习本”的字形相似度similar_position=2/3=0.66666,即练习/练习本;
“练习场”的字形相似度similar_position=2/3=0.66666,即练习/练习场;
“练习簿”的字形相似度similar_position=2/3=0.66666,即练习/练习簿。
本实施例中,该字形相似度的计算方式为:字形相似度=相同位置相同的字符数/标准词汇的总字符数。
S153,根据步骤S151中得到的对比词汇组中各个标准词汇和待判定字符串的每个字符的拼音信息,将上述待判定字符串与上述对比词汇组中各个标准词汇进行拼音比较,根据字形比较结果和拼音比较结果从该对比词汇组中选择出正确的词汇。在一具体实施例中,该步骤S153具体为:
A,按照单字拼音比较方式,将上述待判定字符串与对比词汇组中各个标准词汇进行拼音比较,并分别计算该对比词汇组中各个标准词汇与待判定字符串的拼音相似度;其中,拼音相似度的计算方式为:拼音相似度=相同位置的相同拼音字母数/标准词汇的拼音字母总数。例如待判定字符串“练习薄”的拼音为“lian xi bo”,则上述对比词汇组中各个标准词汇与该待判定字符串的前两个字符的字形相同,且拼音也完全相同,都是“lian”和“xi”,但第三个字符的字形不同,且拼音也不同。
具体地,本实施例中,该单字拼音比较规则,是指将每个字符的拼音的每个拼音字母按照从左到右位置进行比较,直至不同,那么相同的部分即为匹配。由于每个字符的位置和拼音一一对应,因此将标准词汇与待判定字符串进行拼音比较时,是将相同位置的两个字符的拼音按照该单字拼音比较规则进行比较。例如待判定字符串为“练习薄”,其拼音为“lian xi bo”;对比词汇组中标准词汇为“练习本”、“练习场”和“练习簿”的拼音分别为“lian xi ben”、“lian xi chang”和“lian xi bu”,将该待判定字符串“练习薄”与这三个标准词汇按照单字拼音比较规则进行拼音比较,则得到这三个标准词汇与待判定字符串具有相同的拼音:lian xi b,则得到这三个标准词汇与待判定字符串的拼音相似度分别为:
“练习本”与“练习薄”的拼音相似度为:
similar_pinyin=7/9=0.77777,即lian xi b/lian xi ben;
“练习场”与“练习薄”的拼音相似为:
similar_pinyin=6/11=0.54545,即lian xi/lian xi chang;
“练习簿”与“练习薄”的拼音相似度为:
similar_pinyin=7/8=0.875,即lian xi b/lian xi bu。
在另一具体实施例中,由于首先进行字形比较,得到字形相似度最高的对比词汇组,即对比词汇组中每个标准词汇已经有部分或者全部字符与待判定字符串中字符的字形相同,因此,在进行拼音比较时,也可只比较字形不同的字符即可,例如标准词汇“练习本”、“练习场”、“练习簿”的第一、二个字符“练”和“习”均与待判定字符串“练习薄”的第一、二个字符字形相同,则拼音比较时,只需要比较字形不同的第三个字符的拼音即可,即只需要分别比较“本”、“场”、“簿”这三个字符与“薄”的拼音,则相应地,拼音相似度则变为:similar_pinyin(本)=1/3=0.33333=b/ben;similar_pinyin(场)=0/3=0=空/chang;similar_pinyin(簿)=1/2=0.5=b/bu。
B,计算并比较上述对比词汇组中每个标准词汇与该待判定字符串的字形相似度和拼音相似度之和,并根据比较结果选择字形相似度和拼音相似度之和最高的标准词汇为正确的词汇。在一具体实施例中,将对比词汇组中各标准词汇与待判定字符串之间的字形相似度和拼音相似度之和统称为相似度,则各标准词汇与待判定字符串之间的相似度分别为:
待判定字符串“练习薄”与标准词汇“练习簿”之间的相似度:similar_练习簿=字形相似度+拼音相似度=0.66666+0.875=1.54166;
待判定字符串“练习薄”与标准词汇“练习场”之间的相似度:similar_练习场=字形相似度+拼音相似度=0.66666+0.54545=1.21211;
待判定字符串“练习薄”与标准词汇“练习本”之间的相似度:similar_练习本=字形相似度+拼音相似度=0.66666+0.77777=1.44443。
比较各标准词汇与待判定字符串之间的相似度之和可得:1.21211<1.44443<1.54166,即similar_练习场<similar_练习本<similar_练习簿,从而得到标准词汇“练习簿”与待判定字符串“练习薄”的相似度最高,则选择该标准词汇“练习簿”为正确的词汇。
本实施例中是以单个词汇作为待判定字符串进行举例说明的,而当该待判定字符串为多个词汇组成的短句或者词汇组时,可首先采用分词技术将其拆分为多个词汇,然后将拆分得到的多个词汇分别与标准词库中的标准词汇进行比较,从而选择出正确的词汇,再根据正确的词汇进行搜索。
本实施例中,当将获取得到的待判定字符串与创建的标准词库中的标准词汇进行比较,并选择出正确的词汇后,直接根据所选择的正确的词汇进行第二次搜索,并显示搜索结果。
本实施例的应用于搜索中的中文词汇纠错方法,通过预先建立包含标准词汇的标准词库,并将自动获取的待判定字符串与该标准词库中的标准词汇进行对比,并选择正确的词汇,从而根据正确词汇来进行搜索,不需要用户通过手动匹配正确词汇,同时使得在同等硬件条件下,能够更加准确、快速地对用户输入的错词进行纠错,进而给用户快速和智能的网络服务体验。
相应地,本发明还提供了一种应用于搜索中的中文词汇纠错装置,下面将结合附图和具体实施例进行详细说明。
参见图2,为本发明的一种应用于搜索中的中文词汇纠错装置的一具体实施例的功能模块示意图,具体实施时,本发明的该中文词汇纠错装置1,具体包括:
标准词库创建模块11,用于预先创建标准词库,该标准词库包括多个标准词汇,以及标准词汇中每个字符的位置信息和拼音信息;在一具体实施例中,该标准词库创建模块11又可具体包括位置信息数据库创建子模块和拼音信息数据库创建子模块,其中,该位置信息数据库创建子模块用于采用单字拆分存储多个标准词汇,以及该标准词汇中各个字符的位置,得到位置信息数据库,而该拼音信息数据库创建子模块用于存储该位置信息数据库所存储的标准词汇中每个字符的拼音,且每个字符的拼音与其位置一一对应,得到拼音信息数据库;
获取模块12,用于自动获取用户输入的待判定字符串,得到该待判定字符串中每个字符的位置信息和拼音信息;具体实施时,该获取模块12可从搜索引擎日志中获取用户输入的待判定字符串,也可直接从输入设备中获取该待判定字符串,从而得到该待判定字符串中每个字符的位置信息和拼音信息,本实施例中该待判定字符串中每个字符的位置信息是指该字符在用户输入的词汇中所处的位置及其字形,例如用户输入的待判定字符串为“练习薄”,则“薄”的位置信息是指“薄”字本身的字形,以及其在“练习薄”这一词汇中处于第三个位置;本实施例中该待判定字符串中每个字符的拼音信息是指每个字符的拼音。本实施例中每个字符对应一个位置信息,且唯一对应一个拼音,即每个字符的拼音与位置信息也一一对应;由于当用户输入的待判定字符串中存在错词,直接根据该待判定字符串进行第一次搜索得到的搜索结果可能达不到预设的阈值,即达不到用户需要,因此,可通过判断第一搜索结果来判断待判定字符串是否需要出现错词,进而进行纠错,即在另一具体实施例中,该获取模块12具体包括:相连的控制子模块和对象获取子模块,其中,控制子模块,用于判断搜索引擎根据用户输入的待判定字符串第一次搜索得到的搜索结果是否小于预设阈值,且当判断结果为搜索结果小于预设阈值时,则控制该对象获取子模块获取用户输入的待判定字符串,并控制纠错模块13对该待判定字符串进行纠错,得到正确的词汇,以及控制显示根据纠错后的词汇搜索得到的搜索结果;
纠错模块13,分别与上述的标准词库创建模块11和获取模块12相连,用于根据上述标准词汇和获取的待判定字符串中每个字符的位置信息和拼音信息,将该待判定字符串与上述标准词汇进行比较,并根据比较结果从上述标准词库中选择正确的词汇;具体实施时,该纠错模块13具体包括:
字形比较子模块131,分别与上述的标准词库创建模块11和获取模块12相连,用于根据上述标准词库中标准词汇的每个字符的位置信息,将获取模块12所获取的待判定字符串与标准词库中的标准词汇进行字形比较,并根据比较结果从标准词库中选择出对比词汇组;在一具体实施例中该字形比较子模块131具体包括:字符比较单元,分别与标准词库创建模块11和获取模块12相连,用于根据待判定字符串的字符总数,在标准词库中选择出字符总数相同的待选定标准词汇组;对比词汇选定单元,与该字符比较单元和获取模块12相连相连,用于将该待判定字符串与待选定标准词汇组中的每个标准词汇进行字形对比较,并根据比较结果从该待选定标准词汇组中选择出对比词汇组,具体实施时,该对比词汇选定单元具体包括:字形比较子单元1311,分别与该字符比较单元和获取模块12相连,用于根据待选定标准词汇组中标准词汇的各个字符的位置,将待判定字符串与上述待选定标准词汇组中每个标准词汇进行字形比较;字形相似度计算子单元1312,与字形比较子单元1311相连,用于根据字形比较子单元1311的比较结果,计算得到每个标准词汇与该待判定字符串的字形相似度,其中,具体的计算方式为:字形相似度=相同位置相同的字符数/该标准词汇总字符数;相似度比较子单元1313,与上述字形相似度计算子单元1312相连,用于比较字形相似度计算子单元1312计算得到的各个标准词汇与上述待判定字符串的字形相似度,并将比较得到字形相似度最高的标准词汇作为对比词汇组;本实施例中,该字形相似度最高的标准词汇是指该标准词汇的字符总数与待判定字符串中词汇的字符总数相同,且位置相同和字形相同的字符数量最多的标准词汇;
拼音比较子模块132,分别与上述字形比较子模块131、标准词库创建模块11和获取模块12相连,用于根据上述字形比较子模块131得到的对比词汇组中各个标准词汇的拼音信息,将获取模块12所获取的待判定字符串与该对比词汇组中的标准词汇进行拼音比较,并根据拼音比较结果和字形比较子模块131的字形比较结果从上述对比词汇组中选择正确的词汇;在一具体实施例中,该拼音比较子字模块132具体包括:拼音比较单元1321,分别与上述的标准词库创建模块11和字形比较子模块131相连,用于按照单字拼音比较方式,将待判定字符串与上述对比词汇组中各个标准词汇分别进行拼音比较,具体地,本实施例中该单字拼音比较规则为将每个字符对应拼音中的每个拼音字母从左到右位置进行比较;拼音相似度计算单元1322,与该拼音比较单元1321相连,用于根据所述拼音比较单元1321的比较结果,计算该对比词汇组中每个标准词汇与该待判定字符串的拼音相似度,其中,该拼音相似度计算方式为:拼音相似度=相同位置的相同拼音字母数/标准词汇中各个字符的拼音字母总数;判定单元1323,与该拼音相似度计算单元1322和上述字形比较子模块131的字形相似度计算单元相连,用于分别计算上述对比词汇组中每个标准词汇的字形相似度与拼音相似度之和,并比较该对比词汇中每个标准词汇与待判定字符串的字形相似度和拼音相似度之和,选择字形相似度和拼音相似度之和最高的标准词汇为正确的词汇。
本实施例中,当该纠错模块13确定正确的词汇后,搜索引擎可直接根据该正确的词汇进行搜索,无需用户手动匹配正确词汇,从而在同等硬件条件下,能够更加准确、快速地对用户输入的错词进行纠错,进而给用户快速和智能的网络服务体验。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种应用于搜索中的中文词汇纠错方法,其特征在于,包括步骤:
预先建立标准词库,所述标准词库包括多个标准词汇,以及所述标准词汇中每个字符的位置信息和拼音信息,所述标准词库具体包括位置信息数据库和拼音信息数据库,所述位置信息数据库采用单字拆分方式存储的标准词汇,及该标准词汇中各个字符对应的位置;所述拼音信息数据库存储有对应于所述位置信息数据库中的标准词汇中每个字符的拼音,且每个字符的拼音与其位置一一对应;
自动获取用户输入的待判定字符串,得到所述待判定字符串中各个字符的位置信息和拼音信息;
根据所述标准词汇和所述待判定字符串中每个字符的位置信息和拼音信息,将所述待判定字符串和所述标准词汇中每个字符的位置信息和拼音信息进行比较,并根据比较结果从所述标准词库中选择正确的词汇;
其中,将所述待判定字符串和所述标准词汇中每个字符的位置信息和拼音信息进行比较,并根据比较结果从所述标准词库中选择正确的词汇的步骤,具体包括步骤:
根据所述待判定字符串和所述标准词汇中每个字符的位置信息,将所述待判定字符串与所述标准词汇进行字形比较,根据比较结果从所述标准词库中选择出对比词汇组;
根据所述待判定字符串和所述对比词汇组中标准词汇的每个字符的拼音信息,将所述待判定字符串与所述对比词汇组中每个标准词汇进行拼音比较,并根据字形比较结果和拼音比较结果从所述对比词汇组中选择出正确的词汇;
其中,将所述待判定字符串与所述对比词汇组中每个标准词汇进行拼音比较时,将所述待判定字符串中,与所述对比词汇中每个标准词汇中不同字形的字符的拼音进行比较,得到拼音比较结果。
2.如权利要求1所述的应用于搜索中的中文词汇纠错方法,其特征在于,所述根据所述待判定字符串和所述标准词汇中每个字符的位置,将所述待判定字符串与所述标准词汇进行字形比较,根据比较结果从所述标准词库中选择出对比词汇组的步骤具体为:
根据所述待判定字符串的字符总数,在所述标准词库中选择出字符总数相同的待选定标准词汇组;
将所述待判定字符串与所述待选定标准词汇组中的每个标准词汇进行字形对比较,并根据比较结果从所述待选定标准词汇组中选择出对比词汇组。
3.如权利要求2所述的应用于搜索中的中文词汇纠错方法,其特征在于,所述将所述待判定字符串与所述待选定标准词汇组中的每个标准词汇进行字形对比较,并根据比较结果从所述待选定标准词汇组中选择出对比词汇组的步骤,具体包括步骤:
根据所述待判定字符串中每个字符的位置,将所述待判定字符串与所述待选定标准词汇组中每个标准词汇进行字形比较,并计算得到每个标准词汇与所述待判定字符串之间的字形相似度;
比较计算得到的各个标准词汇与所述待判定字符串的字形相似度,选择字形相似度最高的标准词汇作为对比词汇组;
其中,所述字形相似度的计算方式为:字形相似度=相同位置相同的字符数/标准词汇的总字符数。
4.如权利要求3所述的应用于搜索中的中文词汇纠错方法,其特征在于,所述根据所述待判定字符串和所述对比词汇组中标准词汇的每个字符的拼音信息,将所述待判定字符串与所述对比词汇组中各个标准词汇进行拼音比较,并根据字形比较结果和拼音比较结果从所述对比词汇组中选择出正确的词汇的步骤,具体包括步骤:
按照单字拼音比较方式,将所述待判定字符串与所述对比词汇组中标准词汇进行拼音比较,并计算得到所述对比词汇组中每个标准词汇与所述待判定字符串的拼音相似度;
计算并比较所述对比词汇组中每个标准词汇与所述待判定字符串之间的字形相似度与拼音相似度之和,并根据比较结果选择字形相似度与拼音相似度之和最高的标准词汇为正确的词汇;
其中,所述拼音相似度的计算方式为:拼音相似度=相同位置的相同拼音字母数/标准词汇中各个字符的拼音字母总数。
5.一种应用于搜索中的中文词汇纠错装置,其特征在于,包括:
标准词库创建模块,用于预先创建标准词库,该标准词库包括多个标准词汇,以及各个标准词汇中每个字符的位置信息和拼音信息;
获取模块,用于获取用户输入的待判定字符串,得到所述待判定字符串中各个字符的位置信息和拼音信息;
纠错模块,用于根据所述标准词汇和所述待判定字符串中每个字符的位置信息和拼音信息,将所述待判定字符串和所述标准词汇中每个字符的位置信息和拼音信息进行比较,并根据比较结果从所述标准词库中选择正确的词汇;其中,
所述纠错模块具体包括:
字形比较子模块,用于根据所述待判定字符串和所述标准词汇中每个字符的位置信息,将所述获取模块所获取的待判定字符串与所述标准词库中的标准词汇进行字形比较,根据比较结果从所述标准词库中选择出对比词汇组;
拼音比较子模块,用于根据所述对比词汇组中各个标准词汇的每个字符的拼音信息,将所述待判定字符串与所述对比词汇组中的标准词汇进行拼音比较,并根据字形比较结果和拼音比较结果从所述对比词汇组中选择出正确的词汇,其中,将所述待判定字符串与所述对比词汇组中每个标准词汇进行拼音比较时,是将所述待判定字符串中,与所述对比词汇中每个标准词汇中不同字形的字符的拼音进行比较。
6.如权利要求5所述应用于搜索中的中文词汇纠错装置,其特征在于,所述字形比较子模块包括:
字符比较单元,用于根据所述待判定字符串的字符总数,在所述标准词库中选择出字符总数相同的待选定标准词汇组;
对比词汇选定单元,用于将所述待判定字符串与所述待选定标准词汇组中的每个标准词汇进行字形对比较,并根据比较结果从所述待选定标准词汇组中选择出对比词汇组。
7.如权利要求6所述的应用于搜索中的中文词汇纠错装置,其特征在于,所述对比词汇选定单元具体包括:
字形比较子单元,用于根据所述标准词汇中每个字符的位置,将所述待判定字符串与所述待选定标准词汇组中每个词汇进行字形比较;
字形相似度计算子单元,用于根据所述字形比较单元的比较结果,计算得到所述待选定标准词汇组中每个标准词汇与所述待判定字符串的字形相似度,具体的计算方式为:所述字形相似度的计算方式为:字形相似度=相同位置相同的字符数/标准词汇总字符数;
相似度比较子单元,用于比较所述相似度计算单元计算得到的各个标准词汇与所述待判定字符串的字形相似度,并将比较得到字形相似度最高的标准词汇作为对比词汇组;和/或
所述拼音比较子模块具体包括:
拼音比较单元,用于按照单字拼音比较方式,将所述待判定字符串与所述对比词汇组中标准词汇进行拼音比较;拼音相似度计算单元,用于根据所述拼音比较单元的比较结果,计算所述对比词汇组中每个标准词汇与所述待判定字符串的拼音相似度,其中,该拼音相似度计算方式为:拼音相似度=相同位置的相同拼音字母数/标准词汇中各个字符的拼音字母总数;
判定单元,用于分别计算所述对比词汇组中每个标准词汇与待判定字符串之间的字形相似度与拼音相似度之和,并比较各个标准词汇与所述待判定字符串的字形相似度和拼音相似度之和,并选择字形相似度和拼音相似度之和最高的标准词汇为正确的词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310737321.5A CN104750672B (zh) | 2013-12-27 | 2013-12-27 | 一种应用于搜索中的中文词汇纠错方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310737321.5A CN104750672B (zh) | 2013-12-27 | 2013-12-27 | 一种应用于搜索中的中文词汇纠错方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104750672A CN104750672A (zh) | 2015-07-01 |
CN104750672B true CN104750672B (zh) | 2017-11-21 |
Family
ID=53590384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310737321.5A Active CN104750672B (zh) | 2013-12-27 | 2013-12-27 | 一种应用于搜索中的中文词汇纠错方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104750672B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468467A (zh) * | 2015-11-27 | 2016-04-06 | 成都视达科信息技术有限公司 | 一种用于字符容错的系统及方法 |
CN106202046B (zh) * | 2016-07-13 | 2019-09-13 | Oppo广东移动通信有限公司 | 一种词语纠正方法及终端设备 |
CN106503033B (zh) * | 2016-09-14 | 2021-03-19 | 国网山东省电力公司青岛供电公司 | 一种配电网工单地址的检索方法和装置 |
CN106598939B (zh) * | 2016-10-21 | 2019-09-17 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN108121455B (zh) * | 2016-11-29 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 识别纠正方法及装置 |
CN106919681A (zh) * | 2017-02-28 | 2017-07-04 | 东软集团股份有限公司 | 错别字的纠错方法和装置 |
CN107193921B (zh) * | 2017-05-15 | 2020-02-07 | 中山大学 | 面向搜索引擎的中英混合查询纠错的方法及系统 |
CN107247708B (zh) * | 2017-07-03 | 2021-07-20 | 中国银行股份有限公司 | 一种姓名识别方法及系统 |
CN108038098A (zh) * | 2017-11-28 | 2018-05-15 | 苏州市东皓计算机系统工程有限公司 | 一种计算机文字纠正方法 |
CN108132917B (zh) * | 2017-12-04 | 2021-12-17 | 昆明理工大学 | 一种文档纠错标记方法 |
CN110134936B (zh) * | 2018-02-08 | 2024-09-06 | 北京搜狗科技发展有限公司 | 一种分词方法、装置及电子设备 |
CN112668312A (zh) * | 2019-09-30 | 2021-04-16 | 北大方正集团有限公司 | 错别字修正方法、装置、电子设备及存储介质 |
CN111177308B (zh) * | 2019-12-05 | 2023-07-18 | 上海云洽信息技术有限公司 | 一种文本内容的识别情绪方法 |
CN111639566B (zh) * | 2020-05-19 | 2024-08-09 | 浙江大华技术股份有限公司 | 一种提取表单信息的方法及装置 |
CN112131461A (zh) * | 2020-09-09 | 2020-12-25 | 重庆易宠科技有限公司 | 一种商品搜索方法、系统、终端及计算机可读存储介质 |
CN112863516B (zh) * | 2020-12-31 | 2024-07-23 | 竹间智能科技(上海)有限公司 | 一种文本纠错方法、系统及电子设备 |
CN112765962B (zh) * | 2021-01-15 | 2022-08-30 | 上海微盟企业发展有限公司 | 一种文本纠错方法、装置及介质 |
CN113705203B (zh) * | 2021-09-02 | 2024-07-26 | 上海极链科技发展集团有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN114998896B (zh) * | 2022-06-13 | 2024-06-28 | 深圳市星桐科技有限公司 | 文本识别方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1195142A (zh) * | 1997-03-28 | 1998-10-07 | 松下电器产业株式会社 | 汉语文档自动校正方法及其装置 |
CN1384940A (zh) * | 1999-11-05 | 2002-12-11 | 微软公司 | 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构 |
CN101158942A (zh) * | 2007-11-09 | 2008-04-09 | 无敌科技(西安)有限公司 | 可校正汉字拼音错误的翻译方法及其系统 |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101477565A (zh) * | 2009-01-22 | 2009-07-08 | 北京搜狗科技发展有限公司 | 确定搜索引擎中输入字符串正确性的方法及装置 |
CN101989282A (zh) * | 2009-07-31 | 2011-03-23 | 中国移动通信集团公司 | 对中文查询词进行纠错的方法及其装置 |
CN102455845A (zh) * | 2010-10-14 | 2012-05-16 | 北京搜狗科技发展有限公司 | 一种文字输入方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060048055A1 (en) * | 2004-08-25 | 2006-03-02 | Jun Wu | Fault-tolerant romanized input method for non-roman characters |
-
2013
- 2013-12-27 CN CN201310737321.5A patent/CN104750672B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1195142A (zh) * | 1997-03-28 | 1998-10-07 | 松下电器产业株式会社 | 汉语文档自动校正方法及其装置 |
CN1384940A (zh) * | 1999-11-05 | 2002-12-11 | 微软公司 | 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构 |
CN101158942A (zh) * | 2007-11-09 | 2008-04-09 | 无敌科技(西安)有限公司 | 可校正汉字拼音错误的翻译方法及其系统 |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101477565A (zh) * | 2009-01-22 | 2009-07-08 | 北京搜狗科技发展有限公司 | 确定搜索引擎中输入字符串正确性的方法及装置 |
CN101989282A (zh) * | 2009-07-31 | 2011-03-23 | 中国移动通信集团公司 | 对中文查询词进行纠错的方法及其装置 |
CN102455845A (zh) * | 2010-10-14 | 2012-05-16 | 北京搜狗科技发展有限公司 | 一种文字输入方法和装置 |
Non-Patent Citations (1)
Title |
---|
构建模糊检索的数学模型;何汉明等;《控制工程》;20030420;第10卷(第2期);第160页右栏最后1段-第170页右栏第3段,表1 * |
Also Published As
Publication number | Publication date |
---|---|
CN104750672A (zh) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104750672B (zh) | 一种应用于搜索中的中文词汇纠错方法及其装置 | |
US10643029B2 (en) | Model-based automatic correction of typographical errors | |
JP5462001B2 (ja) | 文脈上の入力方法 | |
US10242296B2 (en) | Method and device for realizing chinese character input based on uncertainty information | |
KR101495240B1 (ko) | 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법 | |
US20150186361A1 (en) | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus | |
US20080294982A1 (en) | Providing relevant text auto-completions | |
US20120246133A1 (en) | Online spelling correction/phrase completion system | |
US9946704B2 (en) | Tone mark based text suggestions for chinese or japanese characters or words | |
RU2006114696A (ru) | Системы и способы для поиска с использованием запросов, написанных на языке и/или наборе символов, отличном от такового для целевых страниц | |
WO2014117549A1 (en) | Method and device for error correction model training and text error correction | |
CN110147546B (zh) | 一种英语口语的语法校正方法及装置 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
US20180157646A1 (en) | Command transformation method and system | |
CN111368918A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN111651961A (zh) | 一种基于语音的输入方法和装置 | |
CN110929514B (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
US20180157635A1 (en) | Method for checking spellings and grammars of text document | |
CN117422064A (zh) | 搜索文本纠错方法、装置、计算机设备及存储介质 | |
CN114970554B (zh) | 一种基于自然语言处理的文档校验方法 | |
JP6419899B1 (ja) | 情報処理装置、制御方法及び制御プログラム | |
CN105653061B (zh) | 针对拼音输入法的词条检索及错词检测的方法和系统 | |
CN110807322B (zh) | 基于信息熵识别新词的方法、装置、服务器及存储介质 | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 | |
CN112000767A (zh) | 一种基于文本的信息抽取方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180725 Address after: 230088 room 405-5, R & D center of China (Hefei) International Intelligent Speech Industrial Park, 3333, hi tech Road, Hefei, Anhui. Patentee after: Anhui Tai Yue Xiang Sheng Software Co., Ltd. Address before: 401121 3, 1 floor, office building, south wing of mercury science and technology building, 5 new Mount Huangshan Road, North New District, Chongqing. Patentee before: Chongqing Xinmei Agricultural Information Technology Co.,Ltd. |