CN104036004B - 搜索纠错方法和搜索纠错装置 - Google Patents
搜索纠错方法和搜索纠错装置 Download PDFInfo
- Publication number
- CN104036004B CN104036004B CN201410270794.3A CN201410270794A CN104036004B CN 104036004 B CN104036004 B CN 104036004B CN 201410270794 A CN201410270794 A CN 201410270794A CN 104036004 B CN104036004 B CN 104036004B
- Authority
- CN
- China
- Prior art keywords
- query word
- error correction
- search
- correction content
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Abstract
本发明实施例提供一种搜索纠错方法和搜索纠错装置。该方法包括:根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容;将所述纠错内容作为所述查询词的搜索建议提示进行显示。本发明实施例提供的搜索纠错方法和搜索纠错装置,通过确定与用户在搜索框内输入的查询词对应的纠错内容,并将纠错内容作为所述查询词的搜索建议提示向用户显示,因此能够在用户搜索过程中及时纠正输入的错误查询词,将用户引导到正确的查询词,从而使用户根据正确的查询词获得需要的搜索结果。
Description
技术领域
本发明实施例涉及信息技术领域,尤其涉及一种搜索纠错方法和搜索纠错装置。
背景技术
随着计算机技术的不断发展,用户可以通过搜索引擎获取用户需要的网络资源。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
现有的搜索引擎采用的技术,一般是当用户通过搜索引擎的搜索框输入查询词查找信息时,搜索引擎会在数据库中搜寻与查询词关联的网页,并根据一定的算法计算各网页的相关度,然后将网页对应的网页链接按相关度从高到低的顺序返回给用户。
然而,由于用户知识的局限性或者输入过程的手误等,导致用户可能通过搜索框输入错误的查询词,现有技术可能会对查询词直接进行纠错处理,并基于纠错后的查询词进行检索,而后在检索结果网页显示纠错内容,以提示用户。但是,上述方案,有可能错误理解了用户的搜索意图,也不能使得用户关注到纠正的信息。
发明内容
本发明实施例提供一种搜索纠错方法和搜索纠错装置,以在用户通过搜索框输入错误的查询词时进行纠错,从而将用户引导到正确的查询词。
第一方面,本发明实施例提供了一种搜索纠错方法,包括:
根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容;
将所述纠错内容作为所述查询词的搜索建议提示进行显示。
第二方面,本发明实施例还提供了一种搜索纠错装置,包括:
纠错内容确定模块,用于根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容;
搜索建议提示显示模块,用于将所述纠错内容作为所述查询词的搜索建议提示进行显示。
本发明实施例提供的搜索纠错方法和搜索纠错装置,通过确定与用户在搜索框内输入的查询词对应的纠错内容,并将纠错内容作为所述查询词的搜索建议提示向用户显示,因此能够在用户搜索过程中及时纠正输入的错误查询词,将用户引导到正确的查询词,从而使用户根据正确的查询词获得需要的搜索结果,还能对用户知识进行及时纠正,存在一定的教育意义。
附图说明
为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例一提供的一种搜索纠错方法的流程图;
图1b为采用本发明实施例一提供的搜索纠错方法而呈现的搜索纠错图;
图1c为采用本发明实施例一提供的搜索纠错方法而呈现的另一搜索纠错图;
图2为本发明实施例二提供的一种搜索纠错方法的流程图;
图3为本发明实施例三提供的一种搜索纠错方法的流程图;
图4为本发明实施例四提供的一种搜索纠错装置的结构示意图;
图5为本发明实施例四提供的搜索纠错装置中的纠错内容确定模块的结构示意图;
图6为本发明实施例四提供的搜索纠错装置中的纠错内容确定模块的另一结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
请参阅图1a,为本发明实施例一提供的一种搜索纠错方法的流程图。本发明实施例的方法可以由硬件和/或软件实现的搜索纠错装置来执行,该实现装置典型的是配置于能够提供搜索纠错服务的服务器中,例如配置在搜索引擎中。
如图1a所示,所述方法包括:
110、根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容;
本操作具体是确定与用户在搜索框内输入的查询词对应的纠错内容。首先获取输入的查询词,具体地,获取用户通过搜索引擎(例如,百度搜索引擎)的搜索框输入的内容,进一步具体地,可基于客户端显示屏上的搜索引擎的搜索框中的光标位置来获取用户输入的内容,即,获取光标位置处的字符串,将该字符串作为输入的查询词;然后确定该查询词对应的纠错内容,具体地,可以基于编辑距离模型、日志统计模型或按键错位模型中的至少一个,以及查询词变换对等词库来确定输入的查询词中存在的错误并纠错。
在用户通过搜索框内输入的查询词之前,搜索框中的光标位于搜索框的预设起始位置,例如光标在搜索框内位于搜索框的左侧,在用户通过搜索框内输入的查询词之后,光标位置位于查询词之后,因此基于光标位置,采用向前提取的方法,可以获取搜索框内输入的查询词。随着用户的输入,查询词的内容可能会不断增加变化。
其中,搜索框内输入的查询词的格式可以包括:汉字或拼音,其中汉字可以为简体汉字,也可以为繁体汉字。
其中,所述查询词对应的纠错内容,优选包括:查询词对应的正确内容以及对读音或写法的更正信息。
下面通过一个实例进行说明。如果用户在搜索框内输入了“tianpingzuo”的字符串,此时光标的位置位于“o”之后,则获取的搜索框内输入的查询词为“tianpingzuo”。然后根据预设算法可以确定查询词“tianpingzuo”中的查询字“ping”存在错误,纠错后为“天秤(chèng)座”。换言之,查询词“tianpingzuo”对应的纠错内容为“天秤(chèng)座”,不仅包括查询词“tianpingzuo”对应的正确内容“天秤座”,还包括更正信息“(chèng)”,以实现读音或写法纠正。
类似地,查询词“天平座”对应的纠错内容为“天秤座”,不仅包括查询词“天平座”对应的正确内容“天秤座”,还包括更正信息“秤”,以实现写法纠正。
需要说明的是,用户通过搜索框内输入的查询词可以为一个,也可以为多个,其中,在用户通过搜索框内输入多个查询词之后,光标位置位于最后一个查询词之后,因此基于光标位置,采用向前提取的方法,可以获取搜索框内输入的所有查询词。通过本操作可以确定每个查询词对应的纠错内容。
例如,用户在搜索框内输入了“tianpingzuo张佰芝”的字符串,此时光标的位置位于“芝”之后,则获取的搜索框内输入的查询词包括“tianpingzuo”和“张佰芝”。经过本操作可以确定查询词“tianpingzuo”对应的纠错内容为“天秤(chèng)座”,不仅包括查询词“tianpingzuo”对应的正确内容“天秤座”,还包括更正信息“(chèng)”,以实现读音或写法纠正;还可以确定查询词“张佰芝”对应的纠错内容为“张(bó)柏芝”,不仅包括查询词“张佰芝”对应的正确内容“张柏芝”,还包括更正信息“(bó)”,以实现读音或写法纠正。
还需要说明的是,如果搜索框内输入的查询词不存在错误,则不需要进行纠错处理。
120、将所述纠错内容作为所述查询词的搜索建议提示进行显示。
本操作具体是向用户显示查询词对应的纠错内容,具体地,可以将查询词对应的纠错内容以查询词的搜索建议提示的方式向用户显示。搜索建议提示的方式可以包括直接显示查询词对应的纠错内容,例如“天秤(chèng)座”;还可以包括显示提示语和查询词对应的纠错内容,所述提示语可以为“是否搜索”或“正确为”等,例如,显示“是否搜索‘天秤(chèng)座’”,又如,显示“正确为‘天秤(chèng)座’”。
请参阅图1b和图1c,本操作具体的实施方式可以包括在所述搜索框的下拉提示栏中的设定位置,将所述纠错内容作为所述查询词的搜索建议提示进行显示,其中,所述搜索框的下拉提示栏中的设定位置优选包括搜索框的下拉提示栏中的第一栏,在图1b中,将纠错内容“天秤(chèng)座”作为查询词“tianpingzuo”的搜索建议提示,并将搜索建议提示“天秤(chèng)座”显示在搜索框的下拉提示栏中的第一栏,当然,也可以显示在最后一栏等位置;也可以包括在所述搜索框的空白区域,将所述纠错内容作为所述查询词的搜索建议提示进行显示,其中,所述搜索框的空白区域优选包括位于搜索框右侧的空白区域,在图1c中,“是否要搜‘天秤(chèng)座’”作为查询词“tianpingzuo”的搜索建议提示,并将搜索建议提示“天秤(chèng)座”显示在搜索框的空白区域。
本实施例的技术方案,通过确定与用户在搜索框内输入的查询词对应的纠错内容,并将纠错内容作为所述查询词的搜索建议提示向用户显示,因此能够在用户搜索过程中及时纠正输入的错误查询词,将用户引导到正确的查询词,从而使用户根据正确的查询词获得需要的搜索结果。
需要说明的是,现有技术中对于搜索框的纠错,都是在用户发起一次搜索请求后,对查询词直接进行纠错处理,并基于纠错后的查询词进行检索,而后在检索结果网页显示纠错内容,在结果页给出提示,不能引导用户得到正确的查询词,也无法对用户知识进行修正,用户需要通过显示的结果查找获知查询词对应的纠错内容,然后基于正确的查询词发起新的搜索请求,增加了用户与搜索引擎的交互次数。而本实施例的技术方案,能够在用户搜索过程中及时纠正输入的错误查询词,并显示查询词的纠错内容,可以将用户引导到正确的查询词,对用户的知识进行修正,之后,用户可以选择纠错内容中正确的查询词进行搜索,缩短了用户与搜索引擎的交互次数,并提高了交互效率。
在本实施例的基础上,在所述查询词对应的纠错内容包括:查询词对应的正确内容以及对读音或写法的更正信息时,确定所述查询词对应的纠错内容中的更正信息,包括:
如果查询词和纠错内容是汉字,则确定不同的汉字在纠错内容中的读音;或
如果查询词是拼音,纠错内容是汉字,则将所述纠错内容进行转音,确定不同的拼音在纠错内容中的读音。
需要说明的是,根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容的操作可以有多种实施方式,例如包括下述实施方式中的至少一种:
根据搜索框内输入的查询词,利用查询词变换对,确定与所述查询词对应的纠错内容;或者
根据搜索框内输入的查询词,利用全替换纠错对,确定与所述查询词对应的纠错内容。
下面通过具体实施例分别进行说明。
实施例二
请参阅图2,为本发明实施例二提供的一种搜索纠错方法的流程图。本实施例在上述实施例的基础上,进一步优化了根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容的操作。
如图2所示,所述搜索纠错方法包括:
210、获取搜索引擎中的用户行为日志,根据搜索目标对用户行为日志进行分类;
本操作具体是将搜索引擎中的用户行为日志按搜索目标进行分类。用户行为日志是指用户在PC端或移动终端登录各业务应用后,终端或服务器记录下来的用户通过业务应用界面进行操作的信息(例如,点击、搜索、添加和/或删除等)的集合。其中,当用户通过搜索引擎的界面进行搜索操作时,用户行为日志中包括用户输入的查询词以及用户对与查询词对应的搜索结果的操作信息(例如,点击搜索结果列表中的一个或多个网页链接,或点击下一页等)。
搜索目标代表用户的搜索意图,搜索目标的范围可以包括音乐、新闻或体育等类别,还可以包括音乐、新闻或体育等常规类别下的具体子类别,还可以包括特定的时间段内的热词,例如马航或2014世界杯等热词。搜索目标可以预先设定,也可以通过统计大量用户输入的查询词、以及用户对与查询词对应的搜索结果的操作经分析获知。
220、根据分类后的用户行为日志,查找并统计包括源查询词和目标查询词的查询词变换对,其中查询词变换对满足下述条件:源查询词和目标查询词的字数相同,目标查询词是纯汉字,且源查询词和目标查询词中的至少一个字所对应的拼音相同;
本操作具体是获得用户行为日志中的查询词变换对。可以从用户行为日志中获取用户连续多次在搜索框中输入的查询词,构成一个集合,进而基于设定规则确定相似度较高的两个查询词,形成查询词变换对,可以互为源查询词和目标查询词。
由于行为习惯、知识水平和兴趣点的差异,导致用户通过搜索引擎的搜索框输入的查询词可能存在差异,换言之,对于同一个搜索目标,不同的用户输入的查询词可能不同。
例如,对于同一个搜索目标“章子怡”,不同的用户输入的源查询词可能包括:“zangziyi”、“张子怡”、“张子义”、“张自怡”或“zhangziji”等,用户输入的源查询词可能由用户知识水平导致输入的源查询词错误,也可能由于用户输入笔误导致。由用户行为日志可知,输入的源查询词为“zangziyi”、“张子怡”、“张子义”、“张自怡”或“zhangziji”的用户在于源查询词对应的搜索结果中均点击的是包含有“章子怡”的网页链接。基于此,得到搜索目标为“章子怡”的用户行为日志中所包含的查询词变换,分别为:“zangziyi”→“章子怡”、“张子怡”→“章子怡”、“张子义”→“章子怡”、“张自怡”→“章子怡”、以及“zhangziji”→“章子怡”。
230、将在用户行为日志中出现比例小于第一门限值的查询词变换对进行过滤;
本操作具体是对查询词变换对进行过滤操作,获得经本操作过滤后的查询词变换对。
仍以操作220中的实例进行说明,且第一门限值设定为20%。经统计获知只有查询词变换对“zhangziji”→“章子怡”在搜索目标为“章子怡”对应的用户行为日志分类中的出现比例小于20%,则将该查询词变换过滤。也即,过滤后的查询词变换对还包括:“zangziyi”→“章子怡”、“张子怡”→“章子怡”、“张子义”→“章子怡”以及“张自怡”→“章子怡”。
240、获取目标查询词前序预设数量的前序查询词,如果所述前序查询词与源查询词匹配的出现比例低于第二门限值,则将所述查询词变换对进行过滤;
本操作具体是对经操作230过滤后的查询词变换对进行进一步过滤。
从用户行为日志的统计信息中可获知,用户在输入目标查询词之前输入的其他查询词,记作前序查询词,一般获取1-2个。判断前序查询词与源查询词匹配的出现比例是否低于第二门限值。前序查询词与源查询词匹配,即前序查询词与源查询词之间的相似度较高或者相同,出现比例是指出现前序查询词与源查询词匹配情况的用户占输入目标查询词进行搜索的全部用户的比例。例如,对于全部输入“天秤座”进行搜索的用户,可能有一部分用户在输入“天秤座”之前会输入“天平座”、“tianpingzuo”等查询词,而前序查询词“天平座”与源查询词“天平座”匹配。则当这部分用户的比例低于第二门限值时,将“天平座”与“天秤座”这对变换对过滤掉。
仍以操作230中的实例进行说明,且第二门限值设定为20%。类似地,对于全部输入“章子怡”进行搜索的用户,可能有一部分用户在输入“章子怡”之前会输入“zangziyi”、“张子怡”、“张子义”以及“张自怡”等查询词,获取对应的前序查询词“zangziyi”和“张子怡”,根据本操作,输入前序查询词“zangziyi”而搜索目标为“章子怡”的搜索用户的比例不低于第二门限值时,且输入前序查询词“张子怡”而搜索目标为“章子怡”的搜索用户的比例也不低于第二门限值时,将“zangziyi”与“章子怡”以及“张子怡”与“章子怡”这两对变换对保留。
需要说明的是,第一门限值和第二门限值的设定是为了实现两次过滤查询词变换对,二者可以设定为相同值,也可以不同。
对查询词变换对的提取和过滤手段并不限于上述操作及其操作顺序,只要能够获得准确率满足要求的查询词变换对即可。
250、根据搜索框内输入的查询词,利用过滤后的查询词变换对,确定与所述查询词对应的纠错内容;
本操作具体是获取当前用户在搜索框内输入的查询词,并利用经操作240获得的过滤后的查询词变换对,确定当前查询词对应的纠错内容。
仍以上述实例为例进行说明。当前用户在搜索框内输入的查询词为“zangziyi”,利用经操作240过滤后的查询词变换中的“zangziyi”→“章子怡”,可以确定当前查询词对应的纠错内容为“章(zhāng)子怡,不仅包括当前查询词“zangziyi”对应的正确内容“章子怡”,还包括更正信息“(zhāng)”,以实现读音或写法纠正。
260、将所述纠错内容作为所述查询词的搜索建议提示进行显示。
本实施例的技术方案,通过将搜索引擎中的用户行为日志分类,基于分类后的用户行为日志确定包括源查询词和目标查询词的查询词变换对,并利用一定的过滤策略对查询词变换对进行过滤,因此能够利用过滤后的查询词变换对,确定并显示与当前查询词对应的纠错内容。
在本实施的基础上,在操作260之后,还可以包括:
270、在设定时间内,如果用户搜索查询词时选择纠错内容的比例低于第四门限值,或者,用户在搜索时将纠错内容改写为查询词的比例大于第五门限值,则将所述查询词与纠错内容对应的变换对去除。
需要说明的是,经操作210-240的过滤后的查询词变换对是预先过滤获取的,代表的是设定的历史采样范围内的用户输入的查询词与用户的搜索目标之间的关联关系,而操作270中的去除是对预先过滤获取的查询词变化对的修正,反映的是用户的最新搜索倾向。
仍以上述实例进行说明,经操作240过滤后的查询词变换对还包括:“zangziyi”→“章子怡”、“张子怡”→“章子怡”、“张子义”→“章子怡”以及“张自怡”→“章子怡”,在设定时间内(例如,1个月等),当用户通过搜索框输入“张子怡”,且在搜索框的空白区域显示纠错内容“章(zhāng)子怡”时,用户可能选择纠错内容“章(zhāng)子怡”作为新的查询词(例如,在章子怡和汪峰绯闻热点事件发生期间),也可能按原先的查询词“张子怡”进行后续搜索操作(例如在章子怡和汪峰绯闻热点事件发生的3个月后),经统计,在该设定时间内用户按原先的查询词“张子怡”进行后续搜索操作的比例较高,也即在该设定时间内用户选择纠错内容“章(zhāng)子怡”作为新的查询词进行后续搜索操作的比例低于第四门限值,从而将查询词变换对“张子怡”→“章子怡”去除,换言之,用户输入“张子怡”时,可能用户本身的名字为张子怡,该用户期望搜索关于有多少人与自己重名的内容,而并不是期望获得关于明星章子怡的内容。
因此,通过本操作的去除操作进行修正可以提高查询词变换对的精确度,用户根据修正后的查询词变换对能够获取当前所需内容。上述操作270的去除操作也可以直接应用到基于用户行为日志对查询词变换对的更新。
实施例三
请参阅图3,为本发明实施例三提供的一种搜索纠错方法的流程图。本实施例在实施例一的基础上,进一步优化了根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容的操作。
如图3所示,该优选方法包括:
310、获取搜索引擎中的用户行为日志;
320、根据用户行为日志,统计搜索引擎展现的包括源查询词和目标查询词的全替换纠错对;
需要说明的是,全替换纠错对与查询词变换对的区别在于,全替换纠错对是根据用户行为日志中的直接纠错行为而获得的,而查询词变换对是根据分类后的用户行为日志根据概率统计获得的。在用户的搜索行为中,可能搜索查询词A后,在纠错的结果页面中出现,“以下为您显示“B”的搜索结果。仍然搜索:A”,如果用户进行了选择,则A和B之间就构成了全替换纠错对。所以通常全替换纠错对的准确率要高于查询词变换对。
330、将全替换纠错对按照下述条件进行筛选,所述条件为:全替换纠错对所包含的两个查询词的字数相同,且全替换纠错对中的目标查询词是纯汉字,且源查询词和目标查询词中的至少一个字所对应的拼音相同;
将全替换纠错对按操作330的筛选条件进行筛选,以适应本发明实施例的需求。
340、将在搜索引擎展现目标查询词后,用户搜索源查询词的比例大于第三门限值的全替换纠错对进行过滤;
例如,如果展现全替换纠错对中的目标查询词后,用户仍然搜索源查询词,其比例占到一定数值,例如15%,则将此全替换纠错对过滤掉。
350、根据搜索框内输入的查询词,利用筛选和过滤后的全替换纠错对,确定与所述查询词对应的纠错内容。
本实施例的技术方案,通过搜索引擎中的用户行为日志得到包括源查询词和目标查询词的全替换纠错对,并利用一定的筛选和过滤策略对全替换纠错对进行筛选和过滤,因此能够利用筛选和过滤后的全替换纠错对,确定与当前查询词对应的纠错内容。
本实施例基于全替换纠错对来进行纠错的方案,同样适用于前述实施例操作270的数据退场操作,即当出现操作270的情况,就将全替换纠错对进行过滤更新,以便保证纠错的准确性。
实施例四
请参阅图4,为本发明实施例四提供的一种搜索纠错装置的结构示意图。该装置包括:纠错内容确定模块410和搜索建议提示显示模块420。
其中,纠错内容确定模块410用于根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容;搜索建议提示显示模块420用于将所述纠错内容作为所述查询词的搜索建议提示进行显示。
本实施例的技术方案,通过确定与用户在搜索框内输入的查询词对应的纠错内容,并将纠错内容作为所述查询词的搜索建议提示向用户显示,因此能够在用户搜索过程中及时纠正输入的错误查询词,将用户引导到正确的查询词,从而使用户根据正确的查询词获得需要的搜索结果。
在上述方案中,搜索建议提示显示模块420包括:第一显示单元或第二显示单元。
其中,第一显示单元用于在所述搜索框的下拉提示栏中的设定位置,将所述纠错内容作为所述查询词的搜索建议提示进行显示;第二显示单元用于在所述搜索框的空白区域,将所述纠错内容作为所述查询词的搜索建议提示进行显示。
在上述方案中,所述搜索框的下拉提示栏中的设定位置优选包括:搜索框的下拉提示栏中的第一栏;所述搜索框的空白区域优选包括:位于搜索框右侧的空白区域。
在上述方案中,所述查询词对应的纠错内容包括:查询词对应的正确内容以及对读音或写法的更正信息。
在上述方案中,纠错内容确定模块410具体用于:如果查询词和纠错内容是汉字,则确定不同的汉字在纠错内容中的读音;或
如果查询词是拼音,纠错内容是汉字,则将所述纠错内容进行转音,确定不同的拼音在纠错内容中的读音。
请参阅图5,作为本实施例的一种优选的实施方式,纠错内容确定模块410优选包括:日志分类单元411、查询词变换对确定单元412、第一过滤单元413、第二过滤单元414和第一纠错内容确定单元415。
其中,日志分类单元411用于获取搜索引擎中的用户行为日志,根据搜索目标对用户行为日志进行分类;查询词变换对确定单元412用于根据分类后的用户行为日志,查找并统计包括源查询词和目标查询词的查询词变换对,其中查询词变换对满足下述条件:源查询词和目标查询词的字数相同,目标查询词是纯汉字,且源查询词和目标查询词中的至少一个字所对应的拼音相同;第一过滤单元413用于将在用户行为日志中出现比例小于第一门限值的查询词变换对进行过滤;第二过滤单元414用于获取目标查询词前序预设数量的前序查询词,如果所述前序查询词与源查询词匹配的出现比例低于第二门限值,则将所述查询词变换对进行过滤;第一纠错内容确定单元415用于根据搜索框内输入的查询词,利用过滤后的查询词变换对,确定与所述查询词对应的纠错内容。
请参阅图6,作为本实施例的另一种优选的实施方式,纠错内容确定模块410优选包括:日志获取单元4101、全替换纠错对确定单元4102、全替换纠错对筛选单元4103、第三过滤单元4104和第二纠错内容确定单元4105。
其中,日志获取单元4101用于获取搜索引擎中的用户行为日志;全替换纠错对确定单元4102用于根据用户行为日志,统计搜索引擎展现的包括源查询词和目标查询词的全替换纠错对;全替换纠错对筛选单元4103用于将全替换纠错对按照下述条件进行筛选,所述条件为:全替换纠错对所包含的两个查询词的字数相同,且全替换纠错对中的目标查询词是纯汉字,且源查询词和目标查询词中的至少一个字所对应的拼音相同;第三过滤单元4104用于将在搜索引擎展现目标查询词后,用户搜索源查询词的比例大于第三门限值的全替换纠错对进行过滤;第二纠错内容确定单元4105用于根据搜索框内输入的查询词,利用筛选和过滤后的全替换纠错对,确定与所述查询词对应的纠错内容。
在上述方案中,还包括:纠错内容去除模块430,用于在将所述纠错内容作为所述查询词的搜索建议提示进行显示之后,在设定时间内,如果用户搜索查询词时选择纠错内容的比例低于第四门限值,或者,用户在搜索时将纠错内容改写为查询词的比例大于第五门限值,则将所述查询词与纠错内容对应的变换对去除。
本发明实施例提供的搜索纠错装置可执行本发明任意实施例所提供的搜索纠错方法,具备执行方法相应的功能模块和有益效果。
最后应说明的是:以上各实施例仅用于说明本发明的技术方案,而非对其进行限制;实施例中优选的实施方式,并非对其进行限制,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种搜索纠错方法,其特征在于,包括:
根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容,其中,所述查询词对应的纠错内容,包括:查询词对应的正确内容以及对读音或写法的更正信息;
将所述纠错内容作为所述查询词的搜索建议提示进行显示;
其中,所述根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容,包括:
获取搜索引擎中的用户行为日志,根据搜索目标对用户行为日志进行分类;
根据分类后的用户行为日志,查找并统计包括源查询词和目标查询词的查询词变换对,其中查询词变换对满足下述条件:源查询词和目标查询词的字数相同,目标查询词是纯汉字,且源查询词和目标查询词中的至少一个字所对应的拼音相同;
将在用户行为日志中出现比例小于第一门限值的查询词变换对进行过滤;
获取目标查询词前序预设数量的前序查询词,如果所述前序查询词与源查询词匹配的出现比例低于第二门限值,则将所述查询词变换对进行过滤,其中,所述出现比例指出现前序查询词与源查询词匹配情况的用户占输入目标查询词进行搜索的全部用户的比例;
根据搜索框内输入的查询词,利用过滤后的查询词变换对,确定与所述查询词对应的纠错内容。
2.根据权利要求1所述的方法,其特征在于,将所述纠错内容作为所述查询词的搜索建议提示进行显示,包括:
在所述搜索框的下拉提示栏中的设定位置,将所述纠错内容作为所述查询词的搜索建议提示进行显示;或
在所述搜索框的空白区域,将所述纠错内容作为所述查询词的搜索建议提示进行显示。
3.根据权利要求2所述的方法,其特征在于:所述搜索框的下拉提示栏中的设定位置,包括:搜索框的下拉提示栏中的第一栏;
所述搜索框的空白区域,包括:位于搜索框右侧的空白区域。
4.根据权利要求1所述的方法,其特征在于,确定所述查询词对应的纠错内容中的更正信息,包括:
如果查询词和纠错内容是汉字,则确定不同的汉字在纠错内容中的读音;或
如果查询词是拼音,纠错内容是汉字,则将所述纠错内容进行转音,确定不同的拼音在纠错内容中的读音。
5.根据权利要求1-3任一所述的方法,其特征在于,在将所述纠错内容作为所述查询词的搜索建议提示进行显示之后,还包括:
在设定时间内,如果用户搜索查询词时选择纠错内容的比例低于第四门限值,或者,用户在搜索时将纠错内容改写为查询词的比例大于第五门限值,则将所述查询词与纠错内容对应的变换对去除。
6.一种搜索纠错装置,其特征在于,包括:
纠错内容确定模块,用于根据搜索框内输入的查询词,确定与所述查询词对应的纠错内容,其中,所述查询词对应的纠错内容,包括:查询词对应的正确内容以及对读音或写法的更正信息;
搜索建议提示显示模块,用于将所述纠错内容作为所述查询词的搜索建议提示进行显示;
其中,所述纠错内容确定模块包括:
日志分类单元,用于获取搜索引擎中的用户行为日志,根据搜索目标对用户行为日志进行分类;
查询词变换对确定单元,用于根据分类后的用户行为日志,查找并统计包括源查询词和目标查询词的查询词变换对,其中查询词变换对满足下述条件:源查询词和目标查询词的字数相同,目标查询词是纯汉字,且源查询词和目标查询词中的至少一个字所对应的拼音相同;
第一过滤单元,用于将在用户行为日志中出现比例小于第一门限值的查询词变换对进行过滤;
第二过滤单元,用于获取目标查询词前序预设数量的前序查询词,如果所述前序查询词与源查询词匹配的出现比例低于第二门限值,则将所述查询词变换对进行过滤,其中,所述出现比例指出现前序查询词与源查询词匹配情况的用户占输入目标查询词进行搜索的全部用户的比例;
第一纠错内容确定单元,用于根据搜索框内输入的查询词,利用过滤后的查询词变换对,确定与所述查询词对应的纠错内容。
7.根据权利要求6所述的装置,其特征在于,搜索建议提示显示模块包括:
第一显示单元,用于在所述搜索框的下拉提示栏中的设定位置,将所述纠错内容作为所述查询词的搜索建议提示进行显示;或
第二显示单元,用于在所述搜索框的空白区域,将所述纠错内容作为所述查询词的搜索建议提示进行显示。
8.根据权利要求7所述的装置,其特征在于:所述搜索框的下拉提示栏中的设定位置,包括:搜索框的下拉提示栏中的第一栏;
所述搜索框的空白区域,包括:位于搜索框右侧的空白区域。
9.根据权利要求6所述的装置,其特征在于,纠错内容确定模块具体用于:
如果查询词和纠错内容是汉字,则确定不同的汉字在纠错内容中的读音;或
如果查询词是拼音,纠错内容是汉字,则将所述纠错内容进行转音,确定不同的拼音在纠错内容中的读音。
10.根据权利要求6-8任一所述的装置,其特征在于,还包括:
纠错内容去除模块,用于在将所述纠错内容作为所述查询词的搜索建议提示进行显示之后,在设定时间内,如果用户搜索查询词时选择纠错内容的比例低于第四门限值,或者,用户在搜索时将纠错内容改写为查询词的比例大于第五门限值,则将所述查询词与纠错内容对应的变换对去除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410270794.3A CN104036004B (zh) | 2014-06-17 | 2014-06-17 | 搜索纠错方法和搜索纠错装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410270794.3A CN104036004B (zh) | 2014-06-17 | 2014-06-17 | 搜索纠错方法和搜索纠错装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104036004A CN104036004A (zh) | 2014-09-10 |
CN104036004B true CN104036004B (zh) | 2018-06-19 |
Family
ID=51466774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410270794.3A Active CN104036004B (zh) | 2014-06-17 | 2014-06-17 | 搜索纠错方法和搜索纠错装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104036004B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572841A (zh) * | 2014-12-11 | 2015-04-29 | 惠州Tcl移动通信有限公司 | 呈现物体相应信息的方法及电子设备 |
CN105022794A (zh) * | 2015-06-26 | 2015-11-04 | 广州时韵信息科技有限公司 | 一种快速搜索所需文章内容的方法及装置 |
CN105930505A (zh) * | 2016-05-09 | 2016-09-07 | 广州神马移动信息科技有限公司 | 一种信息搜索方法及装置 |
CN108376129B (zh) * | 2018-01-24 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 一种纠错方法及装置 |
CN109508418B (zh) * | 2018-11-19 | 2019-12-13 | 百度在线网络技术(北京)有限公司 | 用于显示信息的方法及装置 |
CN110334277B (zh) * | 2019-06-28 | 2020-08-21 | 北京天眼查科技有限公司 | 用户搜索行为的识别方法及装置 |
CN112131461A (zh) * | 2020-09-09 | 2020-12-25 | 重庆易宠科技有限公司 | 一种商品搜索方法、系统、终端及计算机可读存储介质 |
CN113256371A (zh) * | 2021-05-11 | 2021-08-13 | 苏州市企淘网络科技有限公司 | 一种工业品自助选型匹配具体产品搜索系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241514A (zh) * | 2008-03-21 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种生成纠错数据库的方法、自动纠错的方法和系统 |
CN101441527A (zh) * | 2008-12-24 | 2009-05-27 | 腾讯科技(深圳)有限公司 | 拼音输入中提示正确读音的方法及装置 |
CN102567406A (zh) * | 2010-12-22 | 2012-07-11 | 北京新媒传信科技有限公司 | 拼音搜索方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060161520A1 (en) * | 2005-01-14 | 2006-07-20 | Microsoft Corporation | System and method for generating alternative search terms |
US20110295897A1 (en) * | 2010-06-01 | 2011-12-01 | Microsoft Corporation | Query correction probability based on query-correction pairs |
CN102722502A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 一种获取去冗余的建议查询序列的方法与设备 |
CN102163234A (zh) * | 2011-04-19 | 2011-08-24 | 北京百度网讯科技有限公司 | 一种基于纠错相关度对查询序列进行纠错的设备和方法 |
CN103838739B (zh) * | 2012-11-21 | 2019-05-28 | 百度在线网络技术(北京)有限公司 | 一种搜索引擎中纠错词的检测方法及系统 |
KR101446468B1 (ko) * | 2012-11-28 | 2014-10-06 | (주)이스트소프트 | 자동완성 질의어 제공 시스템 및 방법 |
-
2014
- 2014-06-17 CN CN201410270794.3A patent/CN104036004B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241514A (zh) * | 2008-03-21 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种生成纠错数据库的方法、自动纠错的方法和系统 |
CN101441527A (zh) * | 2008-12-24 | 2009-05-27 | 腾讯科技(深圳)有限公司 | 拼音输入中提示正确读音的方法及装置 |
CN102567406A (zh) * | 2010-12-22 | 2012-07-11 | 北京新媒传信科技有限公司 | 拼音搜索方法 |
Non-Patent Citations (1)
Title |
---|
基于N-gram统计模型的搜索引擎中文纠错;陈智鹏等;《Journal of CAEIT》;20090630;第4卷(第3期);第323-326页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104036004A (zh) | 2014-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104036004B (zh) | 搜索纠错方法和搜索纠错装置 | |
US10909868B2 (en) | Guiding creation of an electronic survey | |
JP6714024B2 (ja) | 言語入力データからnグラムおよび概念関係の自動生成 | |
US9910886B2 (en) | Visual representation of question quality | |
US10726063B2 (en) | Topic profile query creation | |
US9454528B2 (en) | Method and system for creating ordered reading lists from unstructured document sets | |
US11416680B2 (en) | Classifying social media inputs via parts-of-speech filtering | |
US10210211B2 (en) | Code searching and ranking | |
US9852217B2 (en) | Searching and ranking of code in videos | |
US8930360B2 (en) | System and method for online handwriting recognition in web queries | |
US10073828B2 (en) | Updating language databases using crowd-sourced input | |
US11232134B2 (en) | Customized visualization based intelligence augmentation | |
KR102285142B1 (ko) | 챗봇을 위한 학습 데이터 추천 장치 및 방법 | |
AU2017415315A1 (en) | Integrating virtual and human agents in a multi-channel support system for complex software applications | |
CN113312468B (zh) | 基于对话模式的话术推荐方法、装置、设备及介质 | |
CN111091006A (zh) | 一种实体意图体系的建立方法、装置、设备和介质 | |
CN116501960B (zh) | 内容检索方法、装置、设备及介质 | |
CN111767334A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
US20220318681A1 (en) | System and method for scalable, interactive, collaborative topic identification and tracking | |
CN110275938B (zh) | 基于非结构化文档的知识提取方法及系统 | |
CN114065765A (zh) | 结合ai和rpa的武器装备文本处理方法、装置及电子设备 | |
US8090750B2 (en) | Prompting of an end user with commands | |
CN113870998A (zh) | 问诊方法、装置、电子设备和存储介质 | |
CN111680499B (zh) | 基于自然语言处理的物品应用分析方法及系统 | |
CN116451787B (zh) | 内容风险识别方法、装置、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |