CN101477565A - 确定搜索引擎中输入字符串正确性的方法及装置 - Google Patents

确定搜索引擎中输入字符串正确性的方法及装置 Download PDF

Info

Publication number
CN101477565A
CN101477565A CNA2009100768462A CN200910076846A CN101477565A CN 101477565 A CN101477565 A CN 101477565A CN A2009100768462 A CNA2009100768462 A CN A2009100768462A CN 200910076846 A CN200910076846 A CN 200910076846A CN 101477565 A CN101477565 A CN 101477565A
Authority
CN
China
Prior art keywords
character string
input
string
pinyin
query word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100768462A
Other languages
English (en)
Other versions
CN101477565B (zh
Inventor
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2009100768462A priority Critical patent/CN101477565B/zh
Publication of CN101477565A publication Critical patent/CN101477565A/zh
Application granted granted Critical
Publication of CN101477565B publication Critical patent/CN101477565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种确定搜索引擎中输入字符串正确性的方法及装置,其中方法包括步骤:获取用户在搜索引擎中输入的输入字符串;利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含一一对应关系的查询词和该查询词的拼音串;判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。采用本发明,可解决现有方案判断不准确以及误判的问题。

Description

确定搜索引擎中输入字符串正确性的方法及装置
技术领域
本发明涉及网络搜索引擎技术领域,尤其涉及一种确定搜索引擎中输入字符串正确性的方法及装置。
背景技术
据统计,用户在搜索引擎中输入的输入字符串有8%包含错误,比如将“图书馆”输入为“图书管”,此时,搜索引擎的查询纠错(Query Corrector,QC)模块会提示用户“您是不是要找:图书馆”。QC在运行时,首先是要判断输入字符串是否包含错误,如果输入是正确的,则不纠错,否则,才会进行纠错的步骤。
搜索引擎用户主要使用拼音输入法敲入输入字符串,因此错误的输入主要是同音错误,所以目前QC一般基于同音判断输入字符串的正确性。例如,用户输入的是“图书管”,现有QC会在查询日志库里检索所有发音是“tushuguan”的查询词及其查询次数,假设找到“图书管”的查询次数为m,“图书馆”的查询次数为n,如果m/n数值很小,则认为输入字符串“图书管”是错误的,建议纠错为“图书馆”。
上述这种方案的局限在于需要计算整串输入字符串的查询次数。如果用户输入的是“北京市国家图书馆借书证办理方法”,很可能查询日志库里没有与之发音相同的查询词,就无法获知原始输入字符串是否正确。再者,如果仅凭其中的“图书管”就判断“北京市国家图书馆借书证办理方法”是错误的,那么用户输入的“图书管理系统”就会被误判为错误。
发明内容
本发明提供一种确定搜索引擎中输入字符串正确性的方法及装置,以解决现有方案无法对某些输入字符串进行判断或者误判的问题。
为此,本发明实施例采用如下技术方案:
一种确定搜索引擎中输入字符串正确性的方法,包括:
获取用户在搜索引擎中输入的输入字符串;
利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;
判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。
其中:所述集合的预置过程为:
对查询日志中的查询词进行拼音标注;
计算所述查询词及其对应拼音串在查询日志中出现的次数;
计算所述查询词与其拼音串出现次数的比值;
保留所述比值大于预置的比值阈值的查询词及其拼音串的一一对应关系,构成所述集合。
如果确定所述输入字符串存在错误,该方法还包括:
以所述集合中的查询词替换输入字符串相应位置的汉字,并利用对原始输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错误的判断结果是否正确。
其中,所述利用对原始输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错误的结果是否正确的具体过程为:
对所述输入字符串进行分词,计算词的个数;
对利用所述集合中的查询词替换后的字符串进行分词,计算替换后的字符串中词的个数;
如果替换后的字符串中词的个数大于所述输入字符串中词的个数,则确定所述输入字符串的正确性判断结果是错误的,并将判断结果修改为所述输入串正确,否则,维持原来的判断结果。
一种确定搜索引擎中输入字符串正确性的装置,包括:
获取单元,用于获取用户在搜索引擎中输入的输入字符串;
查询单元,用于利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;
判断单元,用于判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。
上述装置还包括用于建立所述集合的集合建立单元,所述集合建立单元包括:
拼音标注子单元,用于对查询日志中的查询词进行拼音标注;
次数计算子单元,用于计算所述查询词及其对应拼音串在查询日志中出现的次数;
比值计算子单元,用于计算所述查询词与其拼音串出现次数的比值;
集合生成子单元,用于保留所述比值大于预置的比值阈值的查询词及其拼音串的一一对应关系,构成所述集合。
上述装置还包括:
验证单元,用于在确定所述输入字符串存在错误时,以所述集合中的查询词替换输入字符串相应位置的汉字,并利用对原始输入字符串和替换后的字符串进行分词比较,以对判断结果进行验证。
其中,所述验证单元包括:
个数计算子单元,用于对所述输入字符串进行分词,并计算输入字符串中词的个数;
替换词个数计算子单元,用于利用所述集合中查询词替换所述输入字符串对应位置的汉字,计算替换字符串中词的个数;
验证子单元,如果替换字符串中词的个数大于输入字符串中词的个数,则确定所述输入字符串正确性判断结果是错误的,将判断结果修改为所述输入字符串正确,否则,维持原来的判断结果。
对于上述技术方案的技术效果分析如下:
通过本发明方案,可以在保证拼音与汉字一一对应的基础上,可以找到最短的串。
例如,如果采用现有方案,可以把“串感器”纠错为“传感器”,但是如果用户输入的是“北京串感器价格”,很可能查询日志中没有“北京串感器价格”的查询次数,则采用现有方案无法实现纠错,它会认为“chuanganqi”会像“sanxiang”一样,在不同的语境,对应不同的汉字,没有发现“chuanganqi”本身已经足够确定对应的汉字“传感器”了。如果采用本发明,可以发现查询词和拼音一一对应关系的集合,找到一一对应的且最短的串“chuanganqi”-“传感器”,这样无论“chuanganqi”这个发音出现在怎样的语境中,如果对应的文本中没有“传感器”,都可以完成纠错。
再以“图书管”、“图书管理系统”以及“北京市国家图书馆借书证办理方法”为例说明,如果在本发明集合中包括以下对应关系:
“图书馆”-“tushuguan”
“图书”-“tushu”
“管理”-“guanli”
“系统”-“xitong”
“北京市”-“beijingshi”
“国家”-“guojia”
“借书证”-“jieshuzheng”
“办理”-“banli”
“方法”-“fangfa”
则可以判断输入字符串“图书管”错误,因为其对应的拼音“tushuguan”在集合中对应的查询词“图书馆”不包含在输入字符串中。
同时可判断输入字符串“图书管理系统”是正确的,因为输入字符串中各个词的拼音对应于集合中的查询词都包含在输入字符串中,具体的,包括“图书”、“管理”以及“系统”。
并可判断输入字符串“北京市国家图书馆借书证办理方法”是正确的,因为输入字符串中各个词的拼音对应于集合中的查询词都包含在输入字符串中。
可见,采用本发明有效解决了现有方案存在的对某些输入字符串无法判断以及误判的问题。
另外,本发明通过对输入字符串正确性结果的验证,可进一步提高判断准确率,减少误判。
附图说明
图1为本发明确定搜索引擎中输入字符串正确性的方法流程图;
图2为本发明确定搜索引擎中输入字符串正确性的方法实施例一流程图;
图3为本发明确定搜索引擎中输入字符串正确性的方法实施例二流程图;
图4为本发明确定搜索引擎中输入字符串正确性的装置结构示意图;
图5为图4中集合建立单元内部结构示意图;
图6为图4中验证单元内部结构示意图。
具体实施方式
本发明通过生成一个拼音与汉字一一对应的集合,用以匹配用户输入的输入字符串,从而判断输入字符串是否存在错误。
参见图1,为本发明确定搜索引擎中输入字符串正确性的方法流程图,包括:
S101:获取用户在搜索引擎中输入的输入字符串;
S102:利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含一一对应关系的查询词和该查询词的拼音串;
S103:判断输入字符串的正确性:如果集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,输入字符串中不包含该集合中匹配的拼音串在集合中对应的查询词,则确定输入字符串存在错误,否则,确定输入字符串正确。
通过本发明方案,可以在保证拼音与汉字一一对应的基础上,可以找到最短的串,由此解决现有方案存在的对某些输入字符串无法判断或者误判的问题。
下面结合具体实例,对本发明作详细阐述。
参见图2,为本发明方法实施例一流程图,其中,S201~S204为建立包含查询词与拼音的一一对应关系的集合的步骤,S205为利用集合判断用户的输入字符串是否正确的步骤,具体地:
S201:将查询日志中的查询词进行拼音标注。
其中,查询日志是搜索引擎中预先保存的,记录有查询词以及查询次数的对应关系。
查询日志的数据格式的示例参见表1:
表1
 
查询词q1 q1的查询次数n1
查询词q2 q2的查询次数n2
将查询词用汉语拼音注音,注音的结果参见表2:
表2
 
查询词 拼音 查询次数
三湘 sanxiang 50
三相 sanxiang 20
三厢 sanxiang 10
三相交流电 sanxiangjiaoliudian 40
三厢轿车 sanxiangjiaoche 30
三厢轿车价格 sanxiangjiaochejiage 60
S202:计算查询词及其对应拼音作为子串在查询日志中出现的次数。
以表2为例,“sanxiang”作为拼音子串,在“三厢”、“三相”、“三湘”、“三相交流电”以及“三厢轿车价格”中出现过,所以“sanxiang”作为拼音子串在查询日志出现的次数为50+20+10+40+30+60=210。“三厢”作为中文子串,在“三厢”、“三厢轿车”以及“三厢轿车价格”中出现过,则“三厢”作为中文子串在查询日志中出现的次数为10+30+60=100。同理,可以计算出其他查询词及其对应的拼音作为子串在查询日志中出现的次数。
由表2得到的次数参见表3。
表3
 
查询词 拼音 中文子串出现次数 拼音子串出现次数
三湘 sanxiang 50 210
三相 sanxiang 60 210
三厢 sanxiang 100 210
三相交流电 sanxiangjiaoliudian 40 40
三厢轿车 sanxiangjiaoche 90 90
三厢轿车价格 sanxiangjiaochejiage 60 60
S203:计算每一个查询词与其对应的拼音作为子串出现的次数的比值。
对每一个查询词,计算其作为子串出现的次数与其拼音作为子串出现的次数的比值,由表3得到的比值参见表4。
表4
 
查询词 拼音 中文子串出现次数 拼音子串出现次数 比值
三湘 sanxiang 50 210 0.238095
三相 sanxiang 60 210 0.285714
三厢 sanxiang 100 210 0.47619
三相交流电 sanxiangjiaoliudian 40 40 1
三厢轿车 sanxiangjiaoche 90 90 1
三厢轿车价格 sanxiangjiaochejiage 60 60 1
S204:生成查询词与拼音一一对应的集合。
所谓查询词与拼音一一对应,指的是给定拼音,其对应的汉字是唯一的。“sanxiang”与“三厢”就不是一一对应的关系,因为“sanxiang”还对应着“三湘”、“三相”。而“sanxiangjiaoliudian”与“三相交流电”则是一一对应的。
在S203得到的结果中,过滤掉比值低于预置的比值阈值t的查询词,比如,预置的比值阈值t=0.6,则余下的就是查询词与拼音的一一对应关系的集合。
由表4得到的集合参见表5。
表5
 
查询词 拼音
三相交流电 sanxiangjiaoliudian
三厢轿车 sanxiangjiaoche
三厢轿车价格 sanxiangjiaochejiage
S205:利用集合对搜索引擎获取的输入字符串的正确性进行判断。
用汉语拼音为用户输入的输入字符串q注音,注音得到的拼音串为p。用上一步得到的集合中的拼音串进行匹配,如果集合中的某个拼音p1是p的子串,且q中不包含p1对应的汉字,则确定输入字符串是错误的,否则,确定输入字符串是正确的。
仍举例说明,如果用户输入“北京二手三湘轿车”,对应拼音为“beijingershousanxiangjiaoche”。
匹配后发现,“sanxiangjiaoche”是“beijingershousanxiangjiaoche”的子串,且“北京二手三湘轿车”中不包含“sanxiangjiaoche”所对应的汉字“三厢轿车”,就说明输入字符串是错误的。
由此,通过本发明方案,可以在保证拼音与汉字一一对应的基础上,可以找到最短的串。例如,如果采用现有方案,可以把“串感器”纠错为“传感器”,但是如果用户输入的是“北京串感器价格”,很可能查询日志中没有“北京串感器价格”的查询次数,则采用现有方案无法实现纠错,它会认为“chuanganqi”会像“sanxiang”一样,在不同的语境,对应不同的汉字,没有发现“chuanganqi”本身已经足够确定对应的汉字“传感器”了。如果采用本发明,可以发现查询词和拼音一一对应关系的集合,找到一一对应的且最短的串“chuanganqi”-“传感器”,这样无论“chuanganqi”这个发音出现在怎样的语境中,如果对应的文本中没有“传感器”,都可以完成纠错。
再以“图书管”、“图书管理系统”以及“北京市国家图书馆借书证办理方法”为例说明,如果在本发明集合中包括以下对应关系:
“图书馆”-“tushuguan”
“图书”-“tushu”
“管理”-“guanli”
“系统”-“xitong”
“北京市”-“beijingshi”
“国家”-“guojia”
“借书证”-“jieshuzheng”
“办理”-“banli”
“方法”-“fangfa”
则可以判断输入字符串“图书管”错误,因为其对应的拼音“tushuguan”在集合中对应的查询词“图书馆”不包含在输入字符串中。
同时可判断输入字符串“图书管理系统”是正确的,因为输入字符串中各个词的拼音对应于集合中的查询词都包含在输入字符串中,具体的,包括“图书”、“管理”以及“系统”。
并可判断输入字符串“北京市国家图书馆借书证办理方法”是正确的,因为输入字符串中各个词的拼音对应于集合中的查询词都包含在输入字符串中。
可见,采用本发明有效解决了现有方案存在的对某些输入字符串无法判断以及误判的问题。
下面介绍本发明实施例二。
实施例二在实施例一基础上,对S205的判断结果进行验证,以进一步提高对输入字符串正确性判断的准确率。
当输入字符串中出现日志库中的拼音但是没有出现对应查询词时,大部分情况下的输入是错误的,但是也有少部分是正确的。所以要验证实施例一初步判断输入字符串是错误的数据,避免误判。
参见图3,为实施例二流程图,在S201~S205基础上执行S301:在确定所述输入字符串存在错误时,对判断结果进行验证,具体地:以集合中的查询词替换输入字符串相应位置的汉字,并利用对原始输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错误的判断结果是否正确。
验证的具体过程为:计算所述输入字符串中词的个数;利用所述集合中查询词替换所述输入字符串对应位置的汉字,计算替换结果中词的个数;如果替换结果中词的个数大于输入字符串中词的个数,则确定所述输入字符串正确性判断结果是错误的,修改为所述输入字符串正确的判断结果,否则,维持原来的判断结果。
下面仍以实例说明。
假设S204生成的查询词与拼音一一对应的集合如表6所示的对应关系。
表6
 
查询词 拼音
四平 siping
饮料 yinliao
资源 ziyuan
技术 Jishu
以下几条输入字符串包含集合中的拼音但是不包含对应的查询词,因此会在S205中被误判断为错误输入:
1、IT公司评论:包含“siping”但不包含“四平”;
2、语音聊天:包含“yinliao”但不包含“饮料”;
3、电子元件:包含“ziyuan”但不包含“资源”;
4、手机数据线:包含“jishu”但不包含“技术”。
在实施例二中,通过分词的方法进行验证:计算原始输入字符串中词的个数,并计算输入字符串拼音对应于集合中的查询词替换输入字符串相应位置后的分词个数,如果后者大于前者,则说明S205的判断结果错误,原始输入字符串是正确的;否则维持原来的判断结果,原始输入字符串是错误的。表7是参照表6对几个输出串的验证例子。
表7
 
原始输入字符串分词结果 原始输入词数 替换之后分词结果 替换之后词数 最终判断原始输入字符串正确性
IT/公司/评论 3 IT/公/四平/论 4 正确
语音/聊天 2 语/饮料/天 3 正确
电子/元件 2 电/资源/件 3 正确
手机/数据线 2 手/技术/据/线 4 正确
北京/二手/三湘/轿车 4 北京/二手/三厢/轿车 4 错误
因此,前四条输入字符串会被保留,不进行纠错,第五条数据会被纠错。通过实施例二的方式进行验证,可以提高准确率,减少误判。
与上述方法相对应,本发明还提供一种确定搜索引擎中输入字符串正确性的装置,该装置可以由软件、硬件或软硬件结合方式实现。优选地,该装置是指改进功能的QC模块,或者是改经功能的QC模块中的功能单元。
参见图4,该装置包括获取单元401、查询单元402以及判断单元403,其中:
获取单元401,用于获取用户在搜索引擎中输入的输入字符串;
查询单元402,用于利用获取单元401得到的输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;
判断单元403,用于判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。
优选地,该装置还包括用于建立所述集合的集合建立单元404。该集合建立单元404的内部结构示意图参见图5,它包括:
拼音标注子单元501,用于对查询日志中的查询词进行拼音标注;
其中,查询日志是搜索引擎中预先保存的,记录有查询词以及查询次数的对应关系。
次数计算子单元502,用于计算查询词及其对应拼音作为子串在查询日志中出现的次数;
比值计算子单元503,用于计算查询词与其拼音出现次数的比值;
集合生成子单元504,用于保留比值大于预置的比值阈值的查询词及其拼音的一一对应关系,构成所述集合。
优选地,该装置还包括对确定所述输入字符串存在错误时对输入字符串正确性判断结果进行验证的验证单元405。该验证单元405用于在确定输入字符串存在错误时,以所述集合中的查询词替换输入字符串相应位置的汉字,并利用对原始输入字符串和替换后的字符串进行分词比较,以对判断结果进行验证,其内部结构示意图参见图6,包括:
个数计算子单元601,用于计算输入字符串中词的个数;
替换词个数计算子单元602,用于利用集合中查询词替换所述输入字符串对应位置的汉字,计算替换结果中词的个数;
验证子单元603,如果替换结果中词的个数大于输入字符串中词的个数,则确定输入字符串正确性判断结果是错误的,将判断结果修改为输入字符串正确,否则,维持原来的判断结果。
由此,通过本发明方案,可以在保证拼音与汉字一一对应的基础上,可以找到最短的串。例如,如果采用现有方案,可以把“串感器”纠错为“传感器”,但是如果用户输入的是“北京串感器价格”,很可能查询日志中没有“北京串感器价格”的查询次数,则采用现有方案无法实现纠错,它会认为“chuanganqi”会像“sanxiang”一样,在不同的语境,对应不同的汉字,没有发现“chuanganqi”本身已经足够确定对应的汉字“传感器”了。如果采用本发明,可以发现查询词和拼音一一对应关系的集合,找到一一对应的且最短的串“chuanganqi”-“传感器”,这样无论“chuanganqi”这个发音出现在怎样的语境中,如果对应的文本中没有“传感器”,都可以完成纠错。
再以“图书管”、“图书管理系统”以及“北京市国家图书馆借书证办理方法”为例说明,如果在本发明集合中包括以下对应关系:
“图书馆”-“tushuguan”
“图书”-“tushu”
“管理”-“guanli”
“系统”-“xitong”
“北京市”-“beijingshi”
“国家”-“guojia”
“借书证”-“jieshuzheng”
“办理”-“banli”
“方法”-“fangfa”
则可以判断输入字符串“图书管”错误,因为其对应的拼音“tushuguan”在集合中对应的查询词“图书馆”不包含在输入字符串中。
同时可判断输入字符串“图书管理系统”是正确的,因为输入字符串中各个词的拼音对应于集合中的查询词都包含在输入字符串中,具体的,包括“图书”、“管理”以及“系统”。
并可判断输入字符串“北京市国家图书馆借书证办理方法”是正确的,因为输入字符串中各个词的拼音对应于集合中的查询词都包含在输入字符串中。
可见,采用本发明有效解决了现有方案存在的对某些输入字符串无法判断以及误判的问题。
另外,本发明通过对输入字符串正确性结果的验证,可进一步提高判断准确率,减少误判。
本领域普通技术人员可以理解,实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成,所述的程序可以存储于可读取存储介质中,该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1、一种确定搜索引擎中输入字符串正确性的方法,其特征在于,包括:
获取用户在搜索引擎中输入的输入字符串;
利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;
判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。
2、根据权利要求1所述方法,其特征在于,所述集合的预置过程为:
对查询日志中的查询词进行拼音标注;
计算所述查询词及其对应拼音串在查询日志中出现的次数;
计算所述查询词与其拼音串出现次数的比值;
保留所述比值大于预置的比值阈值的查询词及其拼音串的一一对应关系,构成所述集合。
3、根据权利要求1或2所述方法,其特征在于,如果确定所述输入字符串存在错误,还包括:
以所述集合中的查询词替换输入字符串相应位置的汉字,并利用对原始输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错误的判断结果是否正确。
4、根据权利要求3所述方法,其特征在于,所述利用对原始输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错误的结果是否正确的具体过程为:
对所述输入字符串进行分词,计算词的个数;
对利用所述集合中的查询词替换后的字符串进行分词,计算替换后的字符串中词的个数;
如果替换后的字符串中词的个数大于所述输入字符串中词的个数,则确定所述输入字符串的正确性判断结果是错误的,并将判断结果修改为所述输入串正确,否则,维持原来的判断结果。
5、一种确定搜索引擎中输入字符串正确性的装置,其特征在于,包括:
获取单元,用于获取用户在搜索引擎中输入的输入字符串;
查询单元,用于利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;
判断单元,用于判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。
6、根据权利要求5所述装置,其特征在于,还包括用于建立所述集合的集合建立单元,所述集合建立单元包括:
拼音标注子单元,用于对查询日志中的查询词进行拼音标注;
次数计算子单元,用于计算所述查询词及其对应拼音串在查询日志中出现的次数;
比值计算子单元,用于计算所述查询词与其拼音串出现次数的比值;
集合生成子单元,用于保留所述比值大于预置的比值阈值的查询词及其拼音串的一一对应关系,构成所述集合。
7、根据权利要求5或6所述装置,其特征在于,还包括:
验证单元,用于在确定所述输入字符串存在错误时,以所述集合中的查询词替换输入字符串相应位置的汉字,并利用对原始输入字符串和替换后的字符串进行分词比较,以对判断结果进行验证。
8、根据权利要求7所述装置,其特征在于,所述验证单元包括:
个数计算子单元,用于对所述输入字符串进行分词,并计算输入字符串中词的个数;
替换词个数计算子单元,用于利用所述集合中查询词替换所述输入字符串对应位置的汉字,计算替换字符串中词的个数;
验证子单元,如果替换字符串中词的个数大于输入字符串中词的个数,则确定所述输入字符串正确性判断结果是错误的,将判断结果修改为所述输入字符串正确,否则,维持原来的判断结果。
CN2009100768462A 2009-01-22 2009-01-22 确定搜索引擎中输入字符串正确性的方法及装置 Active CN101477565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100768462A CN101477565B (zh) 2009-01-22 2009-01-22 确定搜索引擎中输入字符串正确性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100768462A CN101477565B (zh) 2009-01-22 2009-01-22 确定搜索引擎中输入字符串正确性的方法及装置

Publications (2)

Publication Number Publication Date
CN101477565A true CN101477565A (zh) 2009-07-08
CN101477565B CN101477565B (zh) 2010-11-17

Family

ID=40838281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100768462A Active CN101477565B (zh) 2009-01-22 2009-01-22 确定搜索引擎中输入字符串正确性的方法及装置

Country Status (1)

Country Link
CN (1) CN101477565B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989282A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 对中文查询词进行纠错的方法及其装置
CN102163234A (zh) * 2011-04-19 2011-08-24 北京百度网讯科技有限公司 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN103076894A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN104036047A (zh) * 2014-07-02 2014-09-10 携程计算机技术(上海)有限公司 字符串自动修正方法及系统
CN104750672A (zh) * 2013-12-27 2015-07-01 重庆新媒农信科技有限公司 一种应用于搜索中的中文词汇纠错方法及其装置
CN109814734A (zh) * 2019-01-15 2019-05-28 上海趣虫科技有限公司 一种修正汉语拼音输入的方法及处理终端
CN112328737A (zh) * 2019-07-17 2021-02-05 北方工业大学 一种拼写数据的生成方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989282A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 对中文查询词进行纠错的方法及其装置
CN102163234A (zh) * 2011-04-19 2011-08-24 北京百度网讯科技有限公司 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN103076894A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN103076894B (zh) * 2012-12-31 2016-05-18 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN104750672A (zh) * 2013-12-27 2015-07-01 重庆新媒农信科技有限公司 一种应用于搜索中的中文词汇纠错方法及其装置
CN104750672B (zh) * 2013-12-27 2017-11-21 重庆新媒农信科技有限公司 一种应用于搜索中的中文词汇纠错方法及其装置
CN104036047A (zh) * 2014-07-02 2014-09-10 携程计算机技术(上海)有限公司 字符串自动修正方法及系统
CN104036047B (zh) * 2014-07-02 2017-05-17 上海携程商务有限公司 字符串自动修正方法及系统
CN109814734A (zh) * 2019-01-15 2019-05-28 上海趣虫科技有限公司 一种修正汉语拼音输入的方法及处理终端
CN109814734B (zh) * 2019-01-15 2022-04-15 上海趣虫科技有限公司 一种修正汉语拼音输入的方法及处理终端
CN112328737A (zh) * 2019-07-17 2021-02-05 北方工业大学 一种拼写数据的生成方法
CN112328737B (zh) * 2019-07-17 2023-05-05 北方工业大学 一种拼写数据的生成方法

Also Published As

Publication number Publication date
CN101477565B (zh) 2010-11-17

Similar Documents

Publication Publication Date Title
CN101477565B (zh) 确定搜索引擎中输入字符串正确性的方法及装置
CN104142915B (zh) 一种添加标点的方法和系统
US20200349175A1 (en) Address Search Method and Device
CN103971684B (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
CN103885938B (zh) 基于用户反馈的行业拼写错误检查方法
US7810030B2 (en) Fault-tolerant romanized input method for non-roman characters
US20160188574A1 (en) Intention estimation equipment and intention estimation system
CN102768681A (zh) 一种用于搜索输入的推荐系统及方法
CN105279149A (zh) 一种中文文本自动校正方法
CN104317909B (zh) 兴趣点数据的校验方法和装置
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN104199965A (zh) 一种语义信息检索方法
CN104808806A (zh) 根据不确定性信息实现汉字输入的方法和装置
CN104143331A (zh) 一种添加标点的方法和系统
CN103383699A (zh) 字符串检索方法及系统
CN103733193A (zh) 统计拼写检查器
CN111339758A (zh) 基于深度学习模型的文本纠错方法及系统
CN103594085A (zh) 一种提供语音识别结果的方法及系统
CN103034625A (zh) 侦测及校正中文错字的系统及方法
CN102033866A (zh) 用于校验化学名称的方法及系统
CN102567406B (zh) 拼音搜索方法
CN101539433A (zh) 导航系统中拼音首字母加声调检索的方法及装置
Beaufays et al. Language model capitalization
CN111611793B (zh) 数据处理方法、装置、设备及存储介质
CN113221558B (zh) 一种快递地址纠错方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant