CN103927329A - 一种即时搜索方法和系统 - Google Patents
一种即时搜索方法和系统 Download PDFInfo
- Publication number
- CN103927329A CN103927329A CN201410103601.5A CN201410103601A CN103927329A CN 103927329 A CN103927329 A CN 103927329A CN 201410103601 A CN201410103601 A CN 201410103601A CN 103927329 A CN103927329 A CN 103927329A
- Authority
- CN
- China
- Prior art keywords
- word
- nearly
- coded string
- search
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种即时搜索方法和系统,所述的方法包括:检测搜索栏中当前输入的文字信息,对当前输入的文字信息进行纠错处理,并提供基于当前输入的文字信息反馈的即时搜索结果数据;当对所述文字信息进行纠错处理发现错误时,计算与发现错误的文字信息中包含的字符数据匹配的近似文字;在所述即时搜索结果数据插入针对所述发现错误的文字信息进行纠错的推荐近似文字的提示信息;当接收到用户对所述提示信息的触发指示时,提供以所述触发指示对应的近似文字进行搜索的即时搜索结果数据。本发明实施例改写后的搜索关键词使得搜索结果更加接近当初的预期,提升用户体验,减少了客户端的资源和搜索引擎的资源浪费,提高了搜索效率。
Description
技术领域
本发明涉及搜索的技术领域,具体涉及一种即时搜索方法和一种即时搜索系统。
背景技术
随着互联网的高速发展,网络应用趋向多元化,网上的信息量急剧增加。
在各种场合下,用户经常需要输入语言文字进行信息的交互。例如,在搜索引擎中输入关键词搜索网页信息,在即时通讯工具中输入词句与其他用户进行交流,等等。
语言文字存在形近字,即语言文字的结构相似的语言文字。语言文字被定义为各种编码方式进行输入,例如五笔编码、拼音编码等等,用户在采用该编码方式输入语言文字时,由于形近字的原因,很容易出现误操作,输入其他语言文字,导致用户经常需要重新输入语言文字,不仅操作麻烦,而且浪费系统资源。
以五笔为例,五笔输入文字准不准确取决于用户是否细心或对汉字本身的认知,但是由于粗心导致的误操作或用户认知本身就是错别字导致的输错汉字的情形等并不少见,例如某新闻报纸的某次头版头条“乱揿喇叭被罚不要喊冤”写成了“乱揿嗽叭被罚不要喊冤”。
再者,若用户在搜索引擎中想输入搜索词“项羽”,搜索历史人物项羽的相关网页信息,但是将“项”误输入为“顶”,由于“项”和“顶”也很相近,用户很可能输入了“顶羽”而没有察觉,直接请求搜索引擎搜索与“顶羽”相关的网页信息。
一方面,误操作的搜索结果与当初的预期有很大差别,用户体验十分差,浪费了客户端的资源和搜索引擎的资源。另一方面,用户需要获取自己感兴趣的网页信息,会再次在搜索引擎中输入关键词进行搜索,搜索引擎要再次进行海量信息的搜索、对比、筛选等获取与搜索关键词相关的信息,不仅用户操作更加繁琐,耗费用户的时间,而且将大大增加搜索引擎的负担,耗费更多客户端与搜索引擎的资源。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种即时搜索方法和相应的一种即时搜索的系统。
依据本发明的一个方面,提供了一种即时搜索方法,包括:
检测搜索栏中当前输入的文字信息,对当前输入的文字信息进行纠错处理,并提供基于当前输入的文字信息反馈的即时搜索结果数据;
当对所述文字信息进行纠错处理发现错误时,计算与发现错误的文字信息中包含的字符数据匹配的近似文字;
在所述即时搜索结果数据插入针对所述发现错误的文字信息进行纠错的推荐近似文字的提示信息;
当接收到用户对所述提示信息的触发指示时,提供以所述触发指示对应的近似文字进行搜索的即时搜索结果数据。
可选地,所述近似字包括形近字和/或音近字。
可选地,所述形近字通过以下方式获得:
确定输入搜索引擎中的待校验是否为形近字的第一文字和第二文字;
按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;
计算所述第一编码字符串和所述第二编码字符串之间的编码距离;
当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;
在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。
可选地,所述预设规则包括预设的编码规则,所述按照预设规则获取所述第一文字的第一编码字符串,以及,所述第二文字的第二编码字符串的步骤包括:
按照预设的编码规则计算所述第一文字对应的第一编码字符串;
按照所述编码规则计算所述第二文字对应的第二编码字符串;
其中,所述预设的编码规则包括五笔编码规则。
可选地,所述形近字还通过以下方式获得:
分别查找所述第一编码字符串对应的第一输入按键;
分别查找所述第二编码字符串对应的第二输入按键;
分别计算所述第一输入按键和所述第二输入按键之间的按键距离;
依据所述按键距离为所述编码距离配置对应的权重;
所述当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字的步骤为:
当配置有所述权重的编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字。
可选地,所述按键距离与所述权重成反比。
根据本发明的另一方面,提供了一种即时搜索系统,包括:
文字信息检测单元,适于检测搜索栏中当前输入的文字信息;
纠错处理单元,适于对当前输入的文字信息进行纠错处理;
第一结果提供单元,适于提供基于当前输入的文字信息反馈的即时搜索结果数据;
近似字计算单元,适于对所述文字信息进行纠错处理发现错误时,计算与发现错误的文字信息中包含的字符数据匹配的近似文字;
纠错提示单元,适于在所述即时搜索结果数据插入针对所述发现错误的文字信息进行纠错的推荐近似文字的提示信息;
第二结果提供单元,适于在接收到用户对所述提示信息的触发指示时,提供以所述触发指示对应的近似文字进行搜索的即时搜索结果数据。
可选地,所述近似字包括形近字和/或音近字。
可选地,所述形近字通过调用以下模块获得:
文字确定模块,适于确定输入搜索引擎中的待校验的第一文字和第二文字;
编码获取模块,适于按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;
编码距离计算模块,适于计算所述第一编码字符串和所述第二编码字符串之间的编码距离;
形近字判定模块,适于在所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;
映射关系确定模块,适于在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。
可选地,所述预设规则包括预设的编码规则,所述编码获取模块还适于:
按照预设的编码规则计算所述第一文字对应的第一编码字符串;
按照所述编码规则计算所述第二文字对应的第二编码字符串;
其中,所述预设的编码规则包括五笔编码规则。
可选地,所述形近字还通过调用以下模块获得:
第一查找模块,适于分别查找所述第一编码字符串对应的第一输入按键;
第二查找模块,适于分别查找所述第二编码字符串对应的第二输入按键;
按键距离计算模块,适于分别计算所述第一输入按键和所述第二输入按键之间的按键距离;
权重配置模块,适于依据所述按键距离为所述编码距离配置对应的权重;
所述形近字判定模块还适于:
当配置有所述权重的编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字。
可选地,所述按键距离与所述权重成反比。
本发明实施例在即时搜索引擎中对文字信息进行纠错处理,采用与文字信息匹配的近似文字对搜索关键词进行改写,以获得与所述改写后的文字信息相匹配的搜索结果数据。一方面,改写后的搜索关键词使得搜索结果更加接近当初的预期,提升用户体验,减少了客户端的资源和搜索引擎的资源浪费,提高了搜索效率。另一方面,避免用户需要获取自己感兴趣的网页信息,再次在搜索引擎中输入关键词进行搜索,减少了搜索引擎要再次进行海量信息的搜索、对比、筛选等获取与搜索关键词相关的信息,使得用户操作更加方便,减少用户的时间耗费,进一步减少了客户端与搜索引擎的资源耗费。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明的一个实施例的一种即时搜索方法实施例的步骤流程图;以及
图2示出了根据本发明一个实施例的一种即时搜索系统实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明的一个实施例的一种即时搜索方法实施例的步骤流程图,可以包括如下步骤:
步骤101,检测搜索栏中当前输入的文字信息;
需要说明的是,即时搜索(Current Event Search Engine,ISE),又称瞬时搜索,是指以RSS(简易信息聚合)/Atom(一对彼此相关的标准)、Tag(分类标签)等新兴技术为基础,专注于中文世界里频繁更新的博客网站和新闻网站,能够给用户提供接近实时效果的搜索结果。
在具体实现中,即时搜索引擎可以检测用户在搜索栏中输入的文字信息,随着用户在搜索栏中输入文字信息,即时搜索引擎可以同时给出搜索结果,随着用户不断的输入新的文字信息,即时搜索引擎可以随时刷新出的搜索结果页面都会一起发生变化。
步骤102,对当前输入的文字信息进行纠错处理;
在一种情形中,可以使用自然语言处理技术(Natural LanguageProcessing,NLP)对搜索关键词进行纠错处理。
纠错处理一般可以拆分成两个子任务:
1、拼写错误检测(Spelling Error Detection):按照错误类型不同,可以分为Non-word Errors和Real-word Errors。其中,Non-word Errors可以指拼写错误后的词本身就不合法,如错误的将“giraffe”写成“graffe”;Real-word Errors可以指那些拼写错误后的词仍然是合法的情况,如将“there”错误拼写为“three”(形近),将“peace”错误拼写为“piece”(同音),将“two”错误拼写为“too”(同音)。在具体实现中,可以基于噪声信道模型(Noisy Channel Model)等进行拼写纠错;
2、拼写纠错(Spelling Error Correction):对搜索关键词进行纠错,可以进行字词查错,例如对相邻字和字、相邻字和词、相邻词和词之间等的错误进行检查。
在另一种情形中,也可以采用语言模型(Language Model)对当前输入的文字信息进行纠错处理。
即时搜索引擎可以预先采集用户的输入文本信息,然后训练语言模型。训练的模型可以为N-Gram(大词汇连续语音识别中常用的一种语言模型)、基于神经网络的语言模型等等,用户语言模型的学习可以采取定期或者客户端空闲的方式进行。
当然,上述纠错处理方法只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他纠错处理方法,本发明实施例对此不加以限制。另外,除了上述纠错处理方法外,本领域技术人员还可以根据实际需要采用其它纠错处理方法,本发明实施例对此也不加以限制。
步骤103,提供基于当前输入的文字信息反馈的即时搜索结果数据;
即时搜索中,随着用户每次输入新的文字信息,都可以自动向即时搜索引擎发起查询请求并接收搜索结果展示,而无需点击Enter键等触发查询请求。步骤104,当对所述文字信息进行纠错处理发现错误时,计算与发现错误的文字信息中包含的字符数据匹配的近似文字;
在具体实现中,所述近似字可以包括形近字和/或音近字。
音近字可以为读音相同或相近的词,例如“案”和“安”的读音都为“an”。其中,中文的拼音由声母和韵母组成,可以分别计算第一文字和第二文字的声母和韵母的相似度,获得读音之间的相似度,当该相似度大于预设的相似度阈值时,可以判定第一文字和第二文字为音近字。
对所述文字信息进行纠错处理发现错误时,在字体数据库中查找与错误处的文字对应的上下文最匹配的近似文字对文字信息进行改写。
在本发明的一种优选实施例中,所述形近字可以通过以下方式获得:
子步骤S11,确定输入搜索引擎中的待校验的第一文字和第二文字;
在具体实现中,可以从预设采集的语料库中提取第一文字和第二文字,进行是否互为形近字的校验。
在本发明实施例的一个可选示例中,第一文字和第二文字可以为汉字。
子步骤S12,按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;
文字可以具有特定的文字结构特性,按照该文字结构特性进行编码,建立输入方式,可以实现进行电子设备中输入文字。例如,第一文字和第二文字可以进行拼音输入方式、五笔输入方式、笔画输入方式等等。
相对应地,第一文字和第二文字针对不同的编码规则可以对应不同第一编码字符串和第二编码字符串。例如,“侧”针对拼音输入方式对应的编码字符串为“ce”,针对五笔输入方式对应的编码字符串为“WMJh”。
在本发明实施例的一种优选示例中,所述预设规则可以包括预设的编码规则,子步骤12进一步可以包括如下子步骤:
子步骤S121,按照预设的编码规则计算所述第一文字对应的第一编码字符串;
子步骤S122,按照所述编码规则计算所述第二文字对应的第二编码字符串;
其中,所述预设的编码规则可以包括五笔编码规则。
汉字是由笔划或偏旁部首组成的,为了输入这些汉字,可以把汉字拆成一些最常用的基本单位,即字根。字根可以是汉字的偏旁部首,也可以是部首的一部分,甚至是笔划。
字根在组成汉字时,可以按照字根之间的位置关系分为四类结构:单、散、连、交。其中,单可以指字根本身单独成为一个汉字,包括键名字根和成字字根,例如口、木等;散可以指构成汉字的字根之间可以保持一定距离,例如汉、湘等;连可以指一个字根连一单笔画,例如“丿”连“目”成为“自”;交可以指几个字根交叉套迭之后构成汉字,例如“申”是由“日”交“丨”。
五笔为五笔输入法的简称,为一种形码输入法。字根是五笔输入法的基本单元,依据笔画和字形特征对汉字进行编码,把字根按一定的规律分类,再把这些字根分配在键盘上,作为输入汉字的基本单位。
具体地,五笔将汉字笔划分为五个区:横(同提)、竖、撇、捺(同点)、折五区。把字根或码元按一定规律分布在25个字母键上(即标准的QWERTY键盘,不包括Z键)。
在采用五笔输入法输入汉字时,可以按照汉字的书写顺序和结构依次按键盘上与字根对应的键,组成一个编码字符串,系统根据输入字根组成的编码字符串,在五笔输入法的字库中检索出所要的文字。
需要说明的是,在五笔输入法中,虽然识别码的应用使得单个文字的重码(编码字符串)率较低,但是词组的重码率较高。因此,五笔输入法普遍不使用大词库,以防止过多重码,反之,五笔输入法尤其适用于单个文字输入,以获得较高的输入效率。
子步骤13,计算所述第一编码字符串和所述第二编码字符串之间的编码距离;
通过计算第一编码字符串和第二编码字符串之间的编码距离,可以标识出第一编码字符串和第二编码字符串之间的相似度。
在本发明实施例的一种优选示例中,所述编码距离可以包括编辑距离。编辑距离(Edit Distance),又称Levenshtein距离,可以指两个字符串(例如第一编码字符串和第二编码字符串)之间,由一个转换为另一个所需的最少编辑操作次数。
在实际中,许多的编辑操作包括将一个字符串替换成另一个字符串,插入一个字符串,删除一个字符串。
例如,将字符串“kitten”转换为字符串“sitting”最少需要三次操作次数:
1、sitten(k→s),即将字符“k”替换为字符“s”;
2、sittin(e→i),即将字符“e”替换为字符“i”;
3、sitting(→g),即在字符串“sittin”最后插入字符“g”。
子步骤14,当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字。
形近字可以为字形结构相似的文字,在使用时容易产生混淆。例如“己”、“已”、“巳”互为形近字。
在五笔输入法中,字根或码元一般为成块的存在,与组成文字的笔画或部偏旁首相同或相近,都集中在某一个或相邻的按键中。例如,某版本的五笔输入法中H键对应的字根包括“目、上、卜、止、虎、头、具”。
由于形近字的字形结构相似,对应地,组成形近字的字根也相似。
在采用五笔输入法输入单个文字时,除了少数的键名字根和成字字根外,大多数情况都需要按照汉字的特点采用拆分规则对文字进行字根拆分,如果拆分获得超过四个字根时,取第一、二、三、末(最后)个字根即可输入文字。
例如,拆分规则可以包括:书写顺序、取大优先、兼顾直观、能连不交、能散不连。
组成文字的笔画或部偏旁首都是具有一定的使用规则的,可以包括位置规则、书写规则等等。例如单人旁“亻”、双人旁“彳”一般是在文字的最左侧,最优先书写,如“你”、“亿”、“很”、“往”等。
笔画或偏旁部首的使用规则使得汉字可以分为独体字(如上、下、日、月等由笔画构成的字,或者是说由单个偏旁组成的字)和合体字(如挂、休、取、明等由偏旁组成的字)。
具体地,汉字结构可以分为:
(1)上下结构:思、歪、冒、意、安、全;
(2)上中下结构:草、暴、意、竟、竞;
(3)左右结构:好、棚、和、蜂、滩、往、明;
(4)左中右结构:谢、树、倒、搬、撇、鞭、辩;
(5)全包围结构:围、囚、困、田、因、国、固;
(6)半包围结构:包、区、闪、这、句、函、风;
(7)穿插结构:噩、兆、非;
(8)品字形结构:品、森、聂、晶、磊、鑫、焱。
因此,在五笔输入法中,由于汉字的笔画或偏旁部首与五笔字根的相似性,汉字的结构及其书写规则与五笔拆分规则的相似性,因此分别对形近字进行字根拆分,可以获得相似或相近的编码字符串。例如,“测”和“侧”互为形近字,“测”包括三个偏旁,同时也是字根,分别为“氵”、“贝”、“刂”,其编码字符串为“imjh”,“侧”包括三个偏旁,同时也是字根,分别是“亻”、“贝”、“刂”,其编码字符串为“wmjh”,显然,“imjh”和“wmjh”是很相似的。
相对应地,对第一文字和第二文字对应的第一编码字符串和第二编码字符串进行编码距离的计算,当其小于预设距离阈值时,表明其相似度较高,可以认为是形近字。相反,当编码距离大于或等于预设距离阈值时,表明其相似度较低,可以认为是非形近字。
例如,在五笔输入法中,由于汉字最多为4个编码字符串,则可以预设距离阈值为2。对于文字“候”和“侯”,应用五笔编码规则,“候”的编码字符串为“whnd”,“侯”的编码字符串为“wntd”,“whnd”和“wntd”之间的编码距离为1,小于可以距离阈值2,则可以判定“候”和“侯”互为形近字。
子步骤15,在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。
在具体实现中,可以在搜索引擎中分别建立字体数据库收集当前文字的形近字及对应的形近字映射关系。
需要说明的是,形近字映射关系可以是相互的。例如第一文字与与第二文字的形近字映射关系可以为第一文字————第二文字;第二文字与第一文字的形近字映射关系可以为第二文字————第一文字。
应用本发明实施例,可以在语料库中遍历所有文字,寻找当前文字的形近字,将寻找到的形近字及形近字映射关系生成当前文字的字体数据库。
例如第一文字的字体数据库中保存一个或多个形近字及形近字映射关系,如第一文字————第二文字、第三文字、第四文字;第二文字的字体数据库中保存一个或多个形近字及形近字映射关系,如第二文字————第一文字、第五文字、第六文字。
本发明实施例通过计算第一文字的第一编码字符串和第二文字的第二编码字符串之间的编码距离,实现了第一文字和第二文字是否互为形近字的判定。
在本发明的另一种优选实施例中,所述形近字可以通过以下方式获得:
子步骤S21,确定输入搜索引擎中的待校验是否为形近字的第一文字和第二文字;
子步骤S22,按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;
子步骤S23,计算所述第一编码字符串和所述第二编码字符串之间的编码距离;
子步骤S24,分别查找所述第一编码字符串对应的第一输入按键;
子步骤S25,分别查找所述第二编码字符串对应的第二输入按键;
子步骤S26,分别计算所述第一输入按键和所述第二输入按键之间的按键距离;
子步骤S27,依据所述按键距离为所述编码距离配置对应的权重;
子步骤S28,当配置有所述权重的编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;
子步骤S29,在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。
在本发明实施例中,第一输入按键和第二输入按键之间的按键距离可以为键盘上输入按键的物理距离。
在QWERTY键盘的指法中,左手食指控制按键R、T、F、G、V、B,左手中指控制按键E、D、C,左手无名指控制按键W、S、X,左手小指控制按键Q、A、Z,右手食指控制按键Y、U、H、J、N、M,右手中指控制按键I、K,右手无名指控制按键O、L,右手小指控制按键P。其中,按键F、J一般具有凸起,作为定位键。
而由于定位键的存在,使得当前手指点击不属于其控制的按键时,例如左手食指点击按键E,手指跨度较大,使得用户一般存在明显不适,进而使得此种误点击的几率很小。反之,在当前手指控制的按键中误点击的几率相对较大,例如左手食指点击按键R,容易误点击T。
因此,所述按键距离可以与所述权重成反比。并且,可选地,同一个手指控制的输入按键之间的按键距离可以对权重配置权重系数,降低权重,使得第一文字和第二文字的编码距离更小,即相似度更高,以体现误点击的几率相对较大的特点。
步骤105,在所述即时搜索结果数据插入针对所述发现错误的文字信息进行纠错的推荐近似文字的提示信息;
在具体实现中,本发明实施例可以采用任意形式进行提示,例如可以在输入框下提示对推荐近似文字进行纠错提示的信息,为增强提示功能,也可以对纠错前的文字和推荐近似文字采用不同的颜色进行标注,等等,本发明实施例对此不加以限制。
步骤106,当接收到用户对所述提示信息的触发指示时,提供以所述触发指示对应的近似文字进行搜索的即时搜索结果数据。
触发指示可以是指用户发出的采用某个近似文字进行替换发现错误的文字信息的指示。例如,当用户在提示信息处点击时,就相当于接收到了触发指示。又例如,当用户采用Tab键等按键选择近似文字后按下回车键时,就相当于接收到了触发指示。
当接收到用户对所述提示信息的触发指示时,则可以再次提供基于触发指示替换发现错误后的文字信息反馈的即时搜索结果数据。
本发明实施例在即时搜索引擎中对文字信息进行纠错处理,采用与文字信息匹配的近似文字对搜索关键词进行改写,以获得与所述改写后的文字信息相匹配的搜索结果数据。一方面,改写后的搜索关键词使得搜索结果更加接近当初的预期,提升用户体验,减少了客户端的资源和搜索引擎的资源浪费,提高了搜索效率。另一方面,避免用户需要获取自己感兴趣的网页信息,再次在搜索引擎中输入关键词进行搜索,减少了搜索引擎要再次进行海量信息的搜索、对比、筛选等获取与搜索关键词相关的信息,使得用户操作更加方便,减少用户的时间耗费,进一步减少了客户端与搜索引擎的资源耗费。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
参照图2,示出了本发明一个实施例的一种即时搜索系统实施例的结构框图,可以包括如下模块:
文字信息检测单元201,适于检测搜索栏中当前输入的文字信息;
纠错处理单元202,适于对当前输入的文字信息进行纠错处理;
第一结果提供单元203,适于提供基于当前输入的文字信息反馈的即时搜索结果数据;
近似字计算单元204,适于对所述文字信息进行纠错处理发现错误时,计算与发现错误的文字信息中包含的字符数据匹配的近似文字;
纠错提示单元205,适于在所述即时搜索结果数据插入针对所述发现错误的文字信息进行纠错的推荐近似文字的提示信息;
第二结果提供单元206,适于在接收到用户对所述提示信息的触发指示时,提供以所述触发指示对应的近似文字进行搜索的即时搜索结果数据。
在本发明的一种优选实施例中,所述近似字可以包括形近字和/或音近字。
在本发明的一种优选实施例中,所述形近字可以通过调用以下模块获得:
文字确定模块,适于确定输入搜索引擎中的待校验的第一文字和第二文字;
编码获取模块,适于按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;
编码距离计算模块,适于计算所述第一编码字符串和所述第二编码字符串之间的编码距离;
形近字判定模块,适于在所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;
映射关系确定模块,适于在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。
在本发明的一种优选实施例中,所述预设规则可以包括预设的编码规则,所述编码获取模块还可以适于:
按照预设的编码规则计算所述第一文字对应的第一编码字符串;
按照所述编码规则计算所述第二文字对应的第二编码字符串;
其中,所述预设的编码规则包括五笔编码规则。
在本发明的一种优选实施例中,所述形近字还可以通过调用以下模块获得:
第一查找模块,适于分别查找所述第一编码字符串对应的第一输入按键;
第二查找模块,适于分别查找所述第二编码字符串对应的第二输入按键;
按键距离计算模块,适于分别计算所述第一输入按键和所述第二输入按键之间的按键距离;
权重配置模块,适于依据所述按键距离为所述编码距离配置对应的权重;
所述形近字判定模块还可以适于:
当配置有所述权重的编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字。
在本发明的一种优选实施例中,所述按键距离可以与所述权重成反比。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种即时搜索设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种即时搜索方法,包括:
检测搜索栏中当前输入的文字信息,对当前输入的文字信息进行纠错处理,并提供基于当前输入的文字信息反馈的即时搜索结果数据;
当对所述文字信息进行纠错处理发现错误时,计算与发现错误的文字信息中包含的字符数据匹配的近似文字;
在所述即时搜索结果数据插入针对所述发现错误的文字信息进行纠错的推荐近似文字的提示信息;
当接收到用户对所述提示信息的触发指示时,提供以所述触发指示对应的近似文字进行搜索的即时搜索结果数据。
2.如权利要求1所述的方法,其特征在于,所述近似字包括形近字和/或音近字。
3.如权利要求1或2所述的方法,其特征在于,所述形近字通过以下方式获得:
确定输入搜索引擎中的待校验是否为形近字的第一文字和第二文字;
按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;
计算所述第一编码字符串和所述第二编码字符串之间的编码距离;
当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;
在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。
4.如权利要求1-3任一项所述的方法,其特征在于,所述预设规则包括预设的编码规则,所述按照预设规则获取所述第一文字的第一编码字符串,以及,所述第二文字的第二编码字符串的步骤包括:
按照预设的编码规则计算所述第一文字对应的第一编码字符串;
按照所述编码规则计算所述第二文字对应的第二编码字符串;
其中,所述预设的编码规则包括五笔编码规则。
5.如权利要求1-4任一项所述的方法,其特征在于,所述形近字还通过以下方式获得:
分别查找所述第一编码字符串对应的第一输入按键;
分别查找所述第二编码字符串对应的第二输入按键;
分别计算所述第一输入按键和所述第二输入按键之间的按键距离;
依据所述按键距离为所述编码距离配置对应的权重;
所述当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字的步骤为:
当配置有所述权重的编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字。
6.如权利要求1-5任一项所述的方法,其特征在于,所述按键距离与所述权重成反比。
7.一种即时搜索系统,包括:
文字信息检测单元,适于检测搜索栏中当前输入的文字信息;
纠错处理单元,适于对当前输入的文字信息进行纠错处理;
第一结果提供单元,适于提供基于当前输入的文字信息反馈的即时搜索结果数据;
近似字计算单元,适于对所述文字信息进行纠错处理发现错误时,计算与发现错误的文字信息中包含的字符数据匹配的近似文字;
纠错提示单元,适于在所述即时搜索结果数据插入针对所述发现错误的文字信息进行纠错的推荐近似文字的提示信息;
第二结果提供单元,适于在接收到用户对所述提示信息的触发指示时,提供以所述触发指示对应的近似文字进行搜索的即时搜索结果数据。
8.如权利要求7所述的系统,其特征在于,所述近似字包括形近字和/或音近字。
9.如权利要求7或8所述的系统,其特征在于,所述形近字通过调用以下模块获得:
文字确定模块,适于确定输入搜索引擎中的待校验的第一文字和第二文字;
编码获取模块,适于按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;
编码距离计算模块,适于计算所述第一编码字符串和所述第二编码字符串之间的编码距离;
形近字判定模块,适于在所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;
映射关系确定模块,适于在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。
10.如权利要求7-9任一项所述的系统,其特征在于,所述预设规则包括预设的编码规则,所述编码获取模块还适于:
按照预设的编码规则计算所述第一文字对应的第一编码字符串;
按照所述编码规则计算所述第二文字对应的第二编码字符串;
其中,所述预设的编码规则包括五笔编码规则。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410103601.5A CN103927329B (zh) | 2014-03-19 | 2014-03-19 | 一种即时搜索方法和系统 |
PCT/CN2014/094933 WO2015139497A1 (zh) | 2014-03-19 | 2014-12-25 | 一种在搜索引擎中确定形近字的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410103601.5A CN103927329B (zh) | 2014-03-19 | 2014-03-19 | 一种即时搜索方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103927329A true CN103927329A (zh) | 2014-07-16 |
CN103927329B CN103927329B (zh) | 2017-03-29 |
Family
ID=51145550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410103601.5A Expired - Fee Related CN103927329B (zh) | 2014-03-19 | 2014-03-19 | 一种即时搜索方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103927329B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462557A (zh) * | 2014-12-25 | 2015-03-25 | 北京奇虎科技有限公司 | 基于搜索历史记录的即时搜索方法及装置 |
CN104615591A (zh) * | 2015-03-10 | 2015-05-13 | 上海触乐信息科技有限公司 | 基于上下文的前向输入纠错方法和装置 |
WO2015139497A1 (zh) * | 2014-03-19 | 2015-09-24 | 北京奇虎科技有限公司 | 一种在搜索引擎中确定形近字的方法和装置 |
CN105760359A (zh) * | 2014-11-21 | 2016-07-13 | 财团法人工业技术研究院 | 问句处理系统及其方法 |
WO2016150002A1 (zh) * | 2015-03-24 | 2016-09-29 | 中兴通讯股份有限公司 | 语音和/或字符信息的过滤方法、装置及终端 |
CN106095751A (zh) * | 2016-06-07 | 2016-11-09 | 维沃移动通信有限公司 | 一种文字输入的识错处理方法及移动终端 |
CN106326484A (zh) * | 2016-08-31 | 2017-01-11 | 北京奇艺世纪科技有限公司 | 搜索词纠错方法及装置 |
WO2017054150A1 (en) * | 2015-09-30 | 2017-04-06 | Emc Corporation | Method and system for ideogram character analysis |
CN106850572A (zh) * | 2016-12-29 | 2017-06-13 | 网宿科技股份有限公司 | 目标资源的访问方法和装置 |
CN106919614A (zh) * | 2015-12-28 | 2017-07-04 | 中国移动通信集团公司 | 一种信息处理方法及装置 |
CN107748784A (zh) * | 2017-10-26 | 2018-03-02 | 邢加和 | 一种通过自然语言实现结构化数据搜索的方法 |
CN107967352A (zh) * | 2017-12-15 | 2018-04-27 | 四川汉科计算机信息技术有限公司 | 信息知识智慧推荐方法 |
CN108062373A (zh) * | 2017-12-12 | 2018-05-22 | 焦点科技股份有限公司 | 一种具有纠错功能的关键词下拉联想的方法 |
CN108733717A (zh) * | 2017-04-21 | 2018-11-02 | 北京搜狗科技发展有限公司 | 一种搜索方法和装置、一种用于搜索的装置 |
CN108874888A (zh) * | 2017-05-15 | 2018-11-23 | 李建文 | 一种资料搜寻方法 |
CN110164435A (zh) * | 2019-04-26 | 2019-08-23 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN113220860A (zh) * | 2021-06-02 | 2021-08-06 | 中国农业银行股份有限公司 | 搜索方法和装置 |
CN116227471A (zh) * | 2023-05-10 | 2023-06-06 | 荣耀终端有限公司 | 一种纠错方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006011945A (ja) * | 2004-06-28 | 2006-01-12 | Sanyo Electric Co Ltd | 検索用フリガナデータ付与装置 |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN103186615A (zh) * | 2011-12-30 | 2013-07-03 | 北大方正集团有限公司 | 一种搜索提示方法及系统 |
-
2014
- 2014-03-19 CN CN201410103601.5A patent/CN103927329B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006011945A (ja) * | 2004-06-28 | 2006-01-12 | Sanyo Electric Co Ltd | 検索用フリガナデータ付与装置 |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN103186615A (zh) * | 2011-12-30 | 2013-07-03 | 北大方正集团有限公司 | 一种搜索提示方法及系统 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015139497A1 (zh) * | 2014-03-19 | 2015-09-24 | 北京奇虎科技有限公司 | 一种在搜索引擎中确定形近字的方法和装置 |
CN105760359A (zh) * | 2014-11-21 | 2016-07-13 | 财团法人工业技术研究院 | 问句处理系统及其方法 |
CN104462557B (zh) * | 2014-12-25 | 2018-04-17 | 北京奇虎科技有限公司 | 基于搜索历史记录的即时搜索方法及装置 |
CN104462557A (zh) * | 2014-12-25 | 2015-03-25 | 北京奇虎科技有限公司 | 基于搜索历史记录的即时搜索方法及装置 |
CN104615591A (zh) * | 2015-03-10 | 2015-05-13 | 上海触乐信息科技有限公司 | 基于上下文的前向输入纠错方法和装置 |
WO2016150002A1 (zh) * | 2015-03-24 | 2016-09-29 | 中兴通讯股份有限公司 | 语音和/或字符信息的过滤方法、装置及终端 |
WO2017054150A1 (en) * | 2015-09-30 | 2017-04-06 | Emc Corporation | Method and system for ideogram character analysis |
CN109074355B (zh) * | 2015-09-30 | 2023-03-07 | 开文公司 | 用于表意字符分析的方法和介质 |
US11321384B2 (en) | 2015-09-30 | 2022-05-03 | Open Text Corporation | Method and system for ideogram character analysis |
CN109074355A (zh) * | 2015-09-30 | 2018-12-21 | 开文公司 | 用于表意字符分析的方法和系统 |
CN106919614A (zh) * | 2015-12-28 | 2017-07-04 | 中国移动通信集团公司 | 一种信息处理方法及装置 |
CN106095751A (zh) * | 2016-06-07 | 2016-11-09 | 维沃移动通信有限公司 | 一种文字输入的识错处理方法及移动终端 |
CN106326484A (zh) * | 2016-08-31 | 2017-01-11 | 北京奇艺世纪科技有限公司 | 搜索词纠错方法及装置 |
WO2018040899A1 (zh) * | 2016-08-31 | 2018-03-08 | 北京奇艺世纪科技有限公司 | 搜索词纠错方法及装置 |
US11574012B2 (en) | 2016-08-31 | 2023-02-07 | Beijing Qiyi Century Science & Technology Co., Ltd. | Error correction method and device for search term |
CN106850572A (zh) * | 2016-12-29 | 2017-06-13 | 网宿科技股份有限公司 | 目标资源的访问方法和装置 |
CN108733717A (zh) * | 2017-04-21 | 2018-11-02 | 北京搜狗科技发展有限公司 | 一种搜索方法和装置、一种用于搜索的装置 |
CN108874888A (zh) * | 2017-05-15 | 2018-11-23 | 李建文 | 一种资料搜寻方法 |
CN107748784B (zh) * | 2017-10-26 | 2021-05-25 | 江苏赛睿信息科技股份有限公司 | 一种通过自然语言实现结构化数据搜索的方法 |
CN107748784A (zh) * | 2017-10-26 | 2018-03-02 | 邢加和 | 一种通过自然语言实现结构化数据搜索的方法 |
CN108062373A (zh) * | 2017-12-12 | 2018-05-22 | 焦点科技股份有限公司 | 一种具有纠错功能的关键词下拉联想的方法 |
CN107967352A (zh) * | 2017-12-15 | 2018-04-27 | 四川汉科计算机信息技术有限公司 | 信息知识智慧推荐方法 |
CN110164435A (zh) * | 2019-04-26 | 2019-08-23 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN113220860A (zh) * | 2021-06-02 | 2021-08-06 | 中国农业银行股份有限公司 | 搜索方法和装置 |
CN116227471A (zh) * | 2023-05-10 | 2023-06-06 | 荣耀终端有限公司 | 一种纠错方法、装置及电子设备 |
CN116227471B (zh) * | 2023-05-10 | 2023-09-01 | 荣耀终端有限公司 | 一种纠错方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103927329B (zh) | 2017-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103927329B (zh) | 一种即时搜索方法和系统 | |
US11614862B2 (en) | System and method for inputting text into electronic devices | |
JP7169389B2 (ja) | 文書タイトルツリーの構築方法、装置、電子設備、記憶媒体、及びプログラム | |
CN106598939B (zh) | 一种文本纠错方法及装置、服务器、存储介质 | |
US10402493B2 (en) | System and method for inputting text into electronic devices | |
CN106537370B (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
Fowler et al. | Effects of language modeling and its personalization on touchscreen typing performance | |
US7818332B2 (en) | Query speller | |
US9659002B2 (en) | System and method for inputting text into electronic devices | |
CN103927330A (zh) | 一种在搜索引擎中确定形近字的方法和装置 | |
CN105094368B (zh) | 一种对输入法候选项进行调频排序的控制方法及控制装置 | |
WO2015139497A1 (zh) | 一种在搜索引擎中确定形近字的方法和装置 | |
CN104166462A (zh) | 一种文字的输入方法和系统 | |
CN104077275A (zh) | 一种基于语境进行分词的方法和装置 | |
CN102622338A (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
CN102214238B (zh) | 一种汉语词语相近性匹配装置及方法 | |
WO2022134824A1 (en) | Tuning query generation patterns | |
CN101308512B (zh) | 一种基于网页的互译翻译对抽取方法及装置 | |
JP2016102866A (ja) | 誤認識修正装置およびプログラム | |
CN118093982B (zh) | 基于ai技术的互联网海量数据精准搜索方法及系统 | |
Arslan | DeASCIIfication approach to handle diacritics in Turkish information retrieval | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
Sharma et al. | Word prediction system for text entry in Hindi | |
Kumar et al. | Design and implementation of nlp-based spell checker for the tamil language | |
Rajalingam | A rule based iterative affix stripping stemming algorithm for Tamil |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170329 |