CN101477565A

CN101477565A - 确定搜索引擎中输入字符串正确性的方法及装置

Info

Publication number: CN101477565A
Application number: CNA2009100768462A
Authority: CN
Inventors: 王勇
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2009-01-22
Filing date: 2009-01-22
Publication date: 2009-07-08
Anticipated expiration: 2029-01-22
Also published as: CN101477565B

Abstract

本发明公开了一种确定搜索引擎中输入字符串正确性的方法及装置，其中方法包括步骤：获取用户在搜索引擎中输入的输入字符串；利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询，所述集合包含一一对应关系的查询词和该查询词的拼音串；判断输入字符串的正确性：如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配，并且，所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词，则确定所述输入字符串存在错误，否则，确定所述输入字符串正确。采用本发明，可解决现有方案判断不准确以及误判的问题。

Description

确定搜索引擎中输入字符串正确性的方法及装置

技术领域

本发明涉及网络搜索引擎技术领域，尤其涉及一种确定搜索引擎中输入字符串正确性的方法及装置。

背景技术

据统计，用户在搜索引擎中输入的输入字符串有8％包含错误，比如将“图书馆”输入为“图书管”，此时，搜索引擎的查询纠错(Query Corrector，QC)模块会提示用户“您是不是要找：图书馆”。QC在运行时，首先是要判断输入字符串是否包含错误，如果输入是正确的，则不纠错，否则，才会进行纠错的步骤。

搜索引擎用户主要使用拼音输入法敲入输入字符串，因此错误的输入主要是同音错误，所以目前QC一般基于同音判断输入字符串的正确性。例如，用户输入的是“图书管”，现有QC会在查询日志库里检索所有发音是“tushuguan”的查询词及其查询次数，假设找到“图书管”的查询次数为m，“图书馆”的查询次数为n，如果m/n数值很小，则认为输入字符串“图书管”是错误的，建议纠错为“图书馆”。

上述这种方案的局限在于需要计算整串输入字符串的查询次数。如果用户输入的是“北京市国家图书馆借书证办理方法”，很可能查询日志库里没有与之发音相同的查询词，就无法获知原始输入字符串是否正确。再者，如果仅凭其中的“图书管”就判断“北京市国家图书馆借书证办理方法”是错误的，那么用户输入的“图书管理系统”就会被误判为错误。

发明内容

本发明提供一种确定搜索引擎中输入字符串正确性的方法及装置，以解决现有方案无法对某些输入字符串进行判断或者误判的问题。

为此，本发明实施例采用如下技术方案：

一种确定搜索引擎中输入字符串正确性的方法，包括：

获取用户在搜索引擎中输入的输入字符串；

利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询，所述集合包含具有一一对应关系的查询词和该查询词的拼音串；

判断输入字符串的正确性：如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配，并且，所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词，则确定所述输入字符串存在错误，否则，确定所述输入字符串正确。

其中：所述集合的预置过程为：

对查询日志中的查询词进行拼音标注；

计算所述查询词及其对应拼音串在查询日志中出现的次数；

计算所述查询词与其拼音串出现次数的比值；

保留所述比值大于预置的比值阈值的查询词及其拼音串的一一对应关系，构成所述集合。

如果确定所述输入字符串存在错误，该方法还包括：

以所述集合中的查询词替换输入字符串相应位置的汉字，并利用对原始输入字符串和替换后的字符串进行分词比较，以验证所述输入字符串存在错误的判断结果是否正确。

其中，所述利用对原始输入字符串和替换后的字符串进行分词比较，以验证所述输入字符串存在错误的结果是否正确的具体过程为：

对所述输入字符串进行分词，计算词的个数；

对利用所述集合中的查询词替换后的字符串进行分词，计算替换后的字符串中词的个数；

如果替换后的字符串中词的个数大于所述输入字符串中词的个数，则确定所述输入字符串的正确性判断结果是错误的，并将判断结果修改为所述输入串正确，否则，维持原来的判断结果。

一种确定搜索引擎中输入字符串正确性的装置，包括：

获取单元，用于获取用户在搜索引擎中输入的输入字符串；

查询单元，用于利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询，所述集合包含具有一一对应关系的查询词和该查询词的拼音串；

判断单元，用于判断输入字符串的正确性：如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配，并且，所述输入字符串中不包含集合中匹配的拼音串在所述集合中对应的查询词，则确定所述输入字符串存在错误，否则，确定所述输入字符串正确。

上述装置还包括用于建立所述集合的集合建立单元，所述集合建立单元包括：

拼音标注子单元，用于对查询日志中的查询词进行拼音标注；

次数计算子单元，用于计算所述查询词及其对应拼音串在查询日志中出现的次数；

比值计算子单元，用于计算所述查询词与其拼音串出现次数的比值；

集合生成子单元，用于保留所述比值大于预置的比值阈值的查询词及其拼音串的一一对应关系，构成所述集合。

上述装置还包括：

验证单元，用于在确定所述输入字符串存在错误时，以所述集合中的查询词替换输入字符串相应位置的汉字，并利用对原始输入字符串和替换后的字符串进行分词比较，以对判断结果进行验证。

其中，所述验证单元包括：

个数计算子单元，用于对所述输入字符串进行分词，并计算输入字符串中词的个数；

替换词个数计算子单元，用于利用所述集合中查询词替换所述输入字符串对应位置的汉字，计算替换字符串中词的个数；

验证子单元，如果替换字符串中词的个数大于输入字符串中词的个数，则确定所述输入字符串正确性判断结果是错误的，将判断结果修改为所述输入字符串正确，否则，维持原来的判断结果。

对于上述技术方案的技术效果分析如下：

通过本发明方案，可以在保证拼音与汉字一一对应的基础上，可以找到最短的串。

例如，如果采用现有方案，可以把“串感器”纠错为“传感器”，但是如果用户输入的是“北京串感器价格”，很可能查询日志中没有“北京串感器价格”的查询次数，则采用现有方案无法实现纠错，它会认为“chuanganqi”会像“sanxiang”一样，在不同的语境，对应不同的汉字，没有发现“chuanganqi”本身已经足够确定对应的汉字“传感器”了。如果采用本发明，可以发现查询词和拼音一一对应关系的集合，找到一一对应的且最短的串“chuanganqi”-“传感器”，这样无论“chuanganqi”这个发音出现在怎样的语境中，如果对应的文本中没有“传感器”，都可以完成纠错。

再以“图书管”、“图书管理系统”以及“北京市国家图书馆借书证办理方法”为例说明，如果在本发明集合中包括以下对应关系：

“图书馆”-“tushuguan”

“图书”-“tushu”

“管理”-“guanli”

“系统”-“xitong”

“北京市”-“beijingshi”

“国家”-“guojia”

“借书证”-“jieshuzheng”

“办理”-“banli”

“方法”-“fangfa”

则可以判断输入字符串“图书管”错误，因为其对应的拼音“tushuguan”在集合中对应的查询词“图书馆”不包含在输入字符串中。

同时可判断输入字符串“图书管理系统”是正确的，因为输入字符串中各个词的拼音对应于集合中的查询词都包含在输入字符串中，具体的，包括“图书”、“管理”以及“系统”。

并可判断输入字符串“北京市国家图书馆借书证办理方法”是正确的，因为输入字符串中各个词的拼音对应于集合中的查询词都包含在输入字符串中。

可见，采用本发明有效解决了现有方案存在的对某些输入字符串无法判断以及误判的问题。

另外，本发明通过对输入字符串正确性结果的验证，可进一步提高判断准确率，减少误判。

附图说明

图1为本发明确定搜索引擎中输入字符串正确性的方法流程图；

图2为本发明确定搜索引擎中输入字符串正确性的方法实施例一流程图；

图3为本发明确定搜索引擎中输入字符串正确性的方法实施例二流程图；

图4为本发明确定搜索引擎中输入字符串正确性的装置结构示意图；

图5为图4中集合建立单元内部结构示意图；

图6为图4中验证单元内部结构示意图。

具体实施方式

本发明通过生成一个拼音与汉字一一对应的集合，用以匹配用户输入的输入字符串，从而判断输入字符串是否存在错误。

参见图1，为本发明确定搜索引擎中输入字符串正确性的方法流程图，包括：

S101：获取用户在搜索引擎中输入的输入字符串；

S102：利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询，所述集合包含一一对应关系的查询词和该查询词的拼音串；

S103：判断输入字符串的正确性：如果集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配，并且，输入字符串中不包含该集合中匹配的拼音串在集合中对应的查询词，则确定输入字符串存在错误，否则，确定输入字符串正确。

通过本发明方案，可以在保证拼音与汉字一一对应的基础上，可以找到最短的串，由此解决现有方案存在的对某些输入字符串无法判断或者误判的问题。

下面结合具体实例，对本发明作详细阐述。

参见图2，为本发明方法实施例一流程图，其中，S201～S204为建立包含查询词与拼音的一一对应关系的集合的步骤，S205为利用集合判断用户的输入字符串是否正确的步骤，具体地：

S201：将查询日志中的查询词进行拼音标注。

其中，查询日志是搜索引擎中预先保存的，记录有查询词以及查询次数的对应关系。

查询日志的数据格式的示例参见表1：

表1

查询词q1	q1的查询次数n1
查询词q1	q1的查询次数n1	查询词q2	q2的查询次数n2

将查询词用汉语拼音注音，注音的结果参见表2：

表2

查询词	拼音	查询次数
查询词	拼音	查询次数	三湘	sanxiang	50
三相	sanxiang	20	三湘	sanxiang	50
三相	sanxiang	20	三厢	sanxiang	10
三相交流电	sanxiangjiaoliudian	40	三厢	sanxiang	10
三相交流电	sanxiangjiaoliudian	40	三厢轿车	sanxiangjiaoche	30
三厢轿车价格	sanxiangjiaochejiage	60	三厢轿车	sanxiangjiaoche	30

S202：计算查询词及其对应拼音作为子串在查询日志中出现的次数。

以表2为例，“sanxiang”作为拼音子串，在“三厢”、“三相”、“三湘”、“三相交流电”以及“三厢轿车价格”中出现过，所以“sanxiang”作为拼音子串在查询日志出现的次数为50+20+10+40+30+60＝210。“三厢”作为中文子串，在“三厢”、“三厢轿车”以及“三厢轿车价格”中出现过，则“三厢”作为中文子串在查询日志中出现的次数为10+30+60＝100。同理，可以计算出其他查询词及其对应的拼音作为子串在查询日志中出现的次数。

由表2得到的次数参见表3。

表3

查询词	拼音	中文子串出现次数	拼音子串出现次数
查询词	拼音	中文子串出现次数	拼音子串出现次数	三湘	sanxiang	50	210
三相	sanxiang	60	210	三湘	sanxiang	50	210
三相	sanxiang	60	210	三厢	sanxiang	100	210
三相交流电	sanxiangjiaoliudian	40	40	三厢	sanxiang	100	210
三相交流电	sanxiangjiaoliudian	40	40	三厢轿车	sanxiangjiaoche	90	90
三厢轿车价格	sanxiangjiaochejiage	60	60	三厢轿车	sanxiangjiaoche	90	90

S203：计算每一个查询词与其对应的拼音作为子串出现的次数的比值。

对每一个查询词，计算其作为子串出现的次数与其拼音作为子串出现的次数的比值，由表3得到的比值参见表4。

表4

查询词	拼音	中文子串出现次数	拼音子串出现次数	比值
查询词	拼音	中文子串出现次数	拼音子串出现次数	比值	三湘	sanxiang	50	210	0.238095
三相	sanxiang	60	210	0.285714	三湘	sanxiang	50	210	0.238095
三相	sanxiang	60	210	0.285714	三厢	sanxiang	100	210	0.47619
三相交流电	sanxiangjiaoliudian	40	40	1	三厢	sanxiang	100	210	0.47619
三相交流电	sanxiangjiaoliudian	40	40	1	三厢轿车	sanxiangjiaoche	90	90	1
三厢轿车价格	sanxiangjiaochejiage	60	60	1	三厢轿车	sanxiangjiaoche	90	90	1

S204：生成查询词与拼音一一对应的集合。

所谓查询词与拼音一一对应，指的是给定拼音，其对应的汉字是唯一的。“sanxiang”与“三厢”就不是一一对应的关系，因为“sanxiang”还对应着“三湘”、“三相”。而“sanxiangjiaoliudian”与“三相交流电”则是一一对应的。

在S203得到的结果中，过滤掉比值低于预置的比值阈值t的查询词，比如，预置的比值阈值t＝0.6，则余下的就是查询词与拼音的一一对应关系的集合。

由表4得到的集合参见表5。

表5

查询词	拼音
查询词	拼音	三相交流电	sanxiangjiaoliudian
三厢轿车	sanxiangjiaoche	三相交流电	sanxiangjiaoliudian
三厢轿车	sanxiangjiaoche	三厢轿车价格	sanxiangjiaochejiage

S205：利用集合对搜索引擎获取的输入字符串的正确性进行判断。

用汉语拼音为用户输入的输入字符串q注音，注音得到的拼音串为p。用上一步得到的集合中的拼音串进行匹配，如果集合中的某个拼音p1是p的子串，且q中不包含p1对应的汉字，则确定输入字符串是错误的，否则，确定输入字符串是正确的。

仍举例说明，如果用户输入“北京二手三湘轿车”，对应拼音为“beijingershousanxiangjiaoche”。

匹配后发现，“sanxiangjiaoche”是“beijingershousanxiangjiaoche”的子串，且“北京二手三湘轿车”中不包含“sanxiangjiaoche”所对应的汉字“三厢轿车”，就说明输入字符串是错误的。

由此，通过本发明方案，可以在保证拼音与汉字一一对应的基础上，可以找到最短的串。例如，如果采用现有方案，可以把“串感器”纠错为“传感器”，但是如果用户输入的是“北京串感器价格”，很可能查询日志中没有“北京串感器价格”的查询次数，则采用现有方案无法实现纠错，它会认为“chuanganqi”会像“sanxiang”一样，在不同的语境，对应不同的汉字，没有发现“chuanganqi”本身已经足够确定对应的汉字“传感器”了。如果采用本发明，可以发现查询词和拼音一一对应关系的集合，找到一一对应的且最短的串“chuanganqi”-“传感器”，这样无论“chuanganqi”这个发音出现在怎样的语境中，如果对应的文本中没有“传感器”，都可以完成纠错。

“图书馆”-“tushuguan”

“图书”-“tushu”

“管理”-“guanli”

“系统”-“xitong”

“北京市”-“beijingshi”

“国家”-“guojia”

“借书证”-“jieshuzheng”

“办理”-“banli”

“方法”-“fangfa”

下面介绍本发明实施例二。

实施例二在实施例一基础上，对S205的判断结果进行验证，以进一步提高对输入字符串正确性判断的准确率。

当输入字符串中出现日志库中的拼音但是没有出现对应查询词时，大部分情况下的输入是错误的，但是也有少部分是正确的。所以要验证实施例一初步判断输入字符串是错误的数据，避免误判。

参见图3，为实施例二流程图，在S201～S205基础上执行S301：在确定所述输入字符串存在错误时，对判断结果进行验证，具体地：以集合中的查询词替换输入字符串相应位置的汉字，并利用对原始输入字符串和替换后的字符串进行分词比较，以验证所述输入字符串存在错误的判断结果是否正确。

验证的具体过程为：计算所述输入字符串中词的个数；利用所述集合中查询词替换所述输入字符串对应位置的汉字，计算替换结果中词的个数；如果替换结果中词的个数大于输入字符串中词的个数，则确定所述输入字符串正确性判断结果是错误的，修改为所述输入字符串正确的判断结果，否则，维持原来的判断结果。

下面仍以实例说明。

假设S204生成的查询词与拼音一一对应的集合如表6所示的对应关系。

表6

查询词	拼音
查询词	拼音	四平	siping
饮料	yinliao	四平	siping
饮料	yinliao	资源	ziyuan
技术	Jishu	资源	ziyuan

以下几条输入字符串包含集合中的拼音但是不包含对应的查询词，因此会在S205中被误判断为错误输入：

1、IT公司评论：包含“siping”但不包含“四平”；

2、语音聊天：包含“yinliao”但不包含“饮料”；

3、电子元件：包含“ziyuan”但不包含“资源”；

4、手机数据线：包含“jishu”但不包含“技术”。

在实施例二中，通过分词的方法进行验证：计算原始输入字符串中词的个数，并计算输入字符串拼音对应于集合中的查询词替换输入字符串相应位置后的分词个数，如果后者大于前者，则说明S205的判断结果错误，原始输入字符串是正确的；否则维持原来的判断结果，原始输入字符串是错误的。表7是参照表6对几个输出串的验证例子。

表7

原始输入字符串分词结果	原始输入词数	替换之后分词结果	替换之后词数	最终判断原始输入字符串正确性
原始输入字符串分词结果	原始输入词数	替换之后分词结果	替换之后词数	最终判断原始输入字符串正确性	IT/公司/评论	3	IT/公/四平/论	4	正确
语音/聊天	2	语/饮料/天	3	正确	IT/公司/评论	3	IT/公/四平/论	4	正确
语音/聊天	2	语/饮料/天	3	正确	电子/元件	2	电/资源/件	3	正确
手机/数据线	2	手/技术/据/线	4	正确	电子/元件	2	电/资源/件	3	正确
手机/数据线	2	手/技术/据/线	4	正确	北京/二手/三湘/轿车	4	北京/二手/三厢/轿车	4	错误

因此，前四条输入字符串会被保留，不进行纠错，第五条数据会被纠错。通过实施例二的方式进行验证，可以提高准确率，减少误判。

与上述方法相对应，本发明还提供一种确定搜索引擎中输入字符串正确性的装置，该装置可以由软件、硬件或软硬件结合方式实现。优选地，该装置是指改进功能的QC模块，或者是改经功能的QC模块中的功能单元。

参见图4，该装置包括获取单元401、查询单元402以及判断单元403，其中：

获取单元401，用于获取用户在搜索引擎中输入的输入字符串；

查询单元402，用于利用获取单元401得到的输入字符串以及该输入字符串的拼音串在预置的集合中进行查询，所述集合包含具有一一对应关系的查询词和该查询词的拼音串；

判断单元403，用于判断输入字符串的正确性：如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配，并且，所述输入字符串中不包含集合中匹配的拼音串在所述集合中对应的查询词，则确定所述输入字符串存在错误，否则，确定所述输入字符串正确。

优选地，该装置还包括用于建立所述集合的集合建立单元404。该集合建立单元404的内部结构示意图参见图5，它包括：

拼音标注子单元501，用于对查询日志中的查询词进行拼音标注；

次数计算子单元502，用于计算查询词及其对应拼音作为子串在查询日志中出现的次数；

比值计算子单元503，用于计算查询词与其拼音出现次数的比值；

集合生成子单元504，用于保留比值大于预置的比值阈值的查询词及其拼音的一一对应关系，构成所述集合。

优选地，该装置还包括对确定所述输入字符串存在错误时对输入字符串正确性判断结果进行验证的验证单元405。该验证单元405用于在确定输入字符串存在错误时，以所述集合中的查询词替换输入字符串相应位置的汉字，并利用对原始输入字符串和替换后的字符串进行分词比较，以对判断结果进行验证，其内部结构示意图参见图6，包括：

个数计算子单元601，用于计算输入字符串中词的个数；

替换词个数计算子单元602，用于利用集合中查询词替换所述输入字符串对应位置的汉字，计算替换结果中词的个数；

验证子单元603，如果替换结果中词的个数大于输入字符串中词的个数，则确定输入字符串正确性判断结果是错误的，将判断结果修改为输入字符串正确，否则，维持原来的判断结果。

“图书馆”-“tushuguan”

“图书”-“tushu”

“管理”-“guanli”

“系统”-“xitong”

“北京市”-“beijingshi”

“国家”-“guojia”

“借书证”-“jieshuzheng”

“办理”-“banli”

“方法”-“fangfa”

本领域普通技术人员可以理解，实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读取存储介质中，该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如：ROM/RAM、磁碟、光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1、一种确定搜索引擎中输入字符串正确性的方法，其特征在于，包括：

获取用户在搜索引擎中输入的输入字符串；

2、根据权利要求1所述方法，其特征在于，所述集合的预置过程为：

对查询日志中的查询词进行拼音标注；

计算所述查询词及其对应拼音串在查询日志中出现的次数；

计算所述查询词与其拼音串出现次数的比值；

3、根据权利要求1或2所述方法，其特征在于，如果确定所述输入字符串存在错误，还包括：

4、根据权利要求3所述方法，其特征在于，所述利用对原始输入字符串和替换后的字符串进行分词比较，以验证所述输入字符串存在错误的结果是否正确的具体过程为：

对所述输入字符串进行分词，计算词的个数；

5、一种确定搜索引擎中输入字符串正确性的装置，其特征在于，包括：

获取单元，用于获取用户在搜索引擎中输入的输入字符串；

6、根据权利要求5所述装置，其特征在于，还包括用于建立所述集合的集合建立单元，所述集合建立单元包括：

7、根据权利要求5或6所述装置，其特征在于，还包括：

8、根据权利要求7所述装置，其特征在于，所述验证单元包括：