CN104598473B - 一种信息处理方法及电子设备 - Google Patents
一种信息处理方法及电子设备 Download PDFInfo
- Publication number
- CN104598473B CN104598473B CN201310531221.7A CN201310531221A CN104598473B CN 104598473 B CN104598473 B CN 104598473B CN 201310531221 A CN201310531221 A CN 201310531221A CN 104598473 B CN104598473 B CN 104598473B
- Authority
- CN
- China
- Prior art keywords
- information
- error correction
- input
- correction relation
- relation table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2448—Query languages for particular applications; for extensibility, e.g. user defined types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种信息处理方法及电子设备,涉及信息检索领域,能够提高用户进行信息检索的正确率。该方法具体包括:检测输入操作并获取相应的输入信息;比较输入信息与纠错关系表中的纠错信息;若没有匹配的比较结果,则从纠错关系表中获取输入操作对应的纠错信息;其中该纠错关系表是通过分析历史输入信息得到的;根据纠错信息进行检索,得到输出结果。本发明实施例用于信息的检索。
Description
技术领域
本发明涉及信息检索领域,尤其涉及一种信息处理方法及电子设备。
背景技术
当用户进行信息检索时,通常会在使用输入法时造成输入错误,例如拼音输入法会造成同音、近音错误,手写输入会造成形进错误。这个错误会造成检索不准,从而导致用户体验差。同时,当用户在搜索应用时,通常想找到特定的应用,找到后会下载该应用,因此对于检索词的正确率要求会很高。针对上述的应用场景,现有的对检索词进行纠错的方法,是根据同音、近音、形近等方法来扩展检索词,同时应用多个检索词进行检索,从而扩大了检索范围,帮助用户找到所需的检索结果。但是,这些方法不仅计算量大,且纠错的效果也不是很好。针对这个特点,本发明实现了一种基于检索词纠错的信息处理方法。
发明内容
本发明的实施例提供一种信息处理方法及电子设备,提高了用户进行信息检索的正确率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种信息处理方法,应用于电子设备,包括:
检测输入操作并获取相应的输入信息;
比较所述输入信息与纠错关系表中的纠错信息;
若没有匹配的比较结果,则从所述纠错关系表中获取所述输入操作对应的纠错信息;其中所述纠错关系表是通过分析历史输入信息得到的;
根据所述纠错信息进行检索,得到输出结果。
在第一方面的第一种可能的实现方式中,所述方法还包括:
检测所述历史输入信息,并从所述历史输入信息中提取出至少一个第一信息集合;其中所述第一信息集合为有对应输出信息的输入信息的集合;
分析所述至少一个第一信息集合中的每个第一信息集合中输入信息与输出信息的相关性,得到所述每个第一信息集合对应的纠错关系;所述纠错关系为输出信息、输入信息与纠错信息之间的映射关系;
将所述每个第一信息集合对应的纠错关系整合,得到第一纠错关系表;
将所述第一纠错关系表中同一输出信息对应的纠错关系进行合并,生成纠错关系表。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述分析所述至少一个第一信息集合中的每个第一信息集合中输入信息与输出信息的相关性,得到所述每个第一信息集合对应的纠错关系包括:
选择任一第一信息集合,计算从所述任一第一信息集合中所有输入信息两两之间的相似度,并输出相似度大于第一阈值的输入信息;
按照所述相似度大于第一阈值的输入信息对应的输出信息将所述相似度大于第一阈值的输入信息进行分组;其中,一个分组对应一个输出信息,一个输出信息对应至少一个输入信息;
计算每个分组的输出信息与其对应的输入信息之间的相似度,得到每个分组的第一纠错关系;
将所述每个分组的第一纠错关系合并,得到所述任一第一信息集合对应的纠错关系;
其中所述任一第一信息集合为所述至少一个第一信息集合中的一个第一信息集合。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述计算每个分组的输出信息与其对应的输入信息之间的相似度,得到每个分组的第一纠错关系包括:
选择任一分组,计算所述任一分组的输出信息与所述任一分组中每个输入信息之间的相似度,将相似度最大的输入信息作为所述任一分组中其余输入信息的纠错信息;
计算其他分组的输出信息与每个输入信息之间的相似度,直到所有分组都计算完为止,得到所述每个分组的第一纠错关系。
结合第一方面的第一种可能的实现方式,在第一方面的第四种可能的实现方式中,所述将所述第一纠错关系表中同一输出信息对应的纠错关系进行合并,生成纠错关系表之后,还包括:
从所述历史输入信息中提取第二信息集合;其中所述第二信息集合为没有对应输出信息的输入信息的集合;
根据所述第二信息集合中各输入信息对所述纠错关系表进行优化,生成第二纠错关系表。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述根据所述第二信息集合中各输入信息对所述纠错关系表进行优化,生成第二纠错关系表包括:
从所述第二信息集合中选取任一输入信息,并计算所述输入信息与所述纠错关系表中的每个纠错信息之间的相关度;
若所述任一输入信息的最大相似度大于第二阈值,则将所述最大相似度对应的纠错信息作为所述任一输入信息的纠错信息,并将所述任一输入信息并入所述纠错关系表中;
计算所述第二信息集合中其他输入信息与所述纠错关系表中的每个纠错信息之间的相关度,直到所述第二信息集合中所有输入信息优化完毕为止。
在第一方面的第六种可能的实现方式中,所述根据所述纠错信息进行检索,得到输出结果之后,还包括:
立即或在预设时间后更新所述历史输入信息,并根据所述更新后的历史输入信息更新所述纠错关系表,生成第三纠错关系表。
第二方面,提供一种电子设备,包括:
第一信息获取单元,用于检测输入操作并获取相应的输入信息;
比较单元,用于比较所述输入信息与纠错关系表中的纠错信息;
第二信息获取单元,用于若没有匹配的比较结果,则从所述纠错关系表中获取所述输入操作对应的纠错信息;其中所述纠错关系表是通过分析历史输入信息得到的;
检索单元,用于根据所述纠错信息进行检索,得到输出结果。
在第二方面的第一种可能的实现方式中,所述电子设备还包括:
第三信息获取单元,用于检测所述历史输入信息,并从所述历史输入信息中提取出至少一个第一信息集合;其中所述第一信息集合为有对应输出信息的输入信息的集合;
信息分析单元,用于分析所述至少一个第一信息集合中的每个第一信息集合中输入信息与输出信息的相关性,得到所述每个第一信息集合对应的纠错关系;所述纠错关系为输出信息、输入信息与纠错信息之间的映射关系;
整合单元,用于将所述每个第一信息集合对应的纠错关系整合,得到第一纠错关系表;
生成单元,用于将所述第一纠错关系表中同一输出信息对应的纠错关系进行合并,生成纠错关系表。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述信息分析单元包括:
计算模块,用于选择任一第一信息集合,计算从所述任一第一信息集合中所有输入信息两两之间的相似度,并输出相似度大于第一阈值的输入信息;
分组模块,用于按照所述相似度大于第一阈值的输入信息对应的输出信息将所述相似度大于第一阈值的输入信息进行分组;其中,一个分组对应一个输出信息,一个输出信息对应至少一个输入信息;
所述计算单元,还用于计算每个分组的输出信息与其对应的输入信息之间的相似度,得到每个分组的第一纠错关系;
合并模块,用于将所述每个分组的第一纠错关系合并,得到所述任一第一信息集合对应的纠错关系;
其中所述任一第一信息集合为所述至少一个第一信息集合中的一个第一信息集合。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述计算模块具体用于:选择任一分组,计算所述任一分组的输出信息与所述任一分组中每个输入信息之间的相似度,将相似度最大的输入信息作为所述任一分组中其余输入信息的纠错信息;计算其他分组的输出信息与每个输入信息之间的相似度,直到所有分组都计算完为止,得到所述每个分组的第一纠错关系。
结合第二方面的第一种可能的实现方式,在第二方面的第四种可能的实现方式中,所述电子设备,还包括:
第四信息获取单元,用于从所述历史输入信息中提取第二信息集合;其中所述第二信息集合为没有对应输出信息的输入信息的集合;
优化单元,用于根据所述第二信息集合中各输入信息对所述纠错关系表进行优化,生成第二纠错关系表。
结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式中,所述优化单元具体用于:从所述第二信息集合中选取任一输入信息,并计算所述输入信息与所述纠错关系表中的每个纠错信息之间的相关度;若所述任一输入信息的最大相似度大于第二阈值,则将所述最大相似度对应的纠错信息作为所述任一输入信息的纠错信息,并将所述任一输入信息并入所述纠错关系表中;计算所述第二信息集合中其他输入信息与所述纠错关系表中的每个纠错信息之间的相关度,直到所述第二信息集合中所有输入信息优化完毕为止。
在第二方面的第六种可能的实现方式中,所述电子设备还包括:
更新单元,用于立即或在预设时间后更新所述历史输入信息,并根据所述更新后的历史输入信息更新所述纠错关系表,生成第三纠错关系表。
本发明的实施例提供的信息处理方法及电子设备,通过检测输入操作并获取相应的输入信息,并将输入信息与通过分析历史输入信息得到的纠错关系表中的纠错信息进行比较,若没有匹配的比较结果,则从该纠错关系表中获取该输入操作对应的纠错信息,对该输入信息进行纠正,从而根据该纠错信息进行检索,得到输出结果,进而提高了用户进行信息检索的正确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种信息处理方法流程示意图;
图2为本发明实施例提供的另一种信息处理方法流程示意图;
图3为本发明实施例提供的又一种信息处理方法流程示意图;
图4为本发明实施例提供的一种电子设备结构示意图;
图5为本发明实施例提供的另一种电子设备结构示意图;
图6为本发明实施例提供的又一种电子设备结构示意图;
图7为本发明实施例提供的另一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供了一种信息处理方法,如图1所示,该信息处理方法具体包括如下步骤:
101、电子设备检测输入操作并获取相应的输入信息。
具体的,电子设备通过检测用户的输入操作,从而获取到该输入操作对应的输入信息。其中,当用户在进行信息检索时,该输入信息即为用户输入的检索信息。
102、电子设备比较该输入信息与纠错关系表中的纠错信息。
103、若没有匹配的比较结果,则电子设备从该纠错关系表中获取输入操作对应的纠错信息。
其中,上述的纠错关系表是通过分析历史输入信息得到的,而该历史输入信息可以是用户日志中每个用户输入的输入信息及对应的输出信息,而该纠错关系表对应的可以为输出信息与纠错信息之间的映射关系表,及输入信息与纠错信息之间的映射关系表。具体的,上述的用户日志包括用户所输入的所有检索信息,及根据检索信息进行的浏览及下载操作,这里的用户日志即可以是网页搜索引擎的用户日志,也可以是具体的应用搜索引擎的用户日志。
104、电子设备根据纠错信息进行检索,得到输出结果。
需要说明的是,本发明的纠错关系表是电子设备预先分析历史输入信息所得到的,因此,用户在进行信息检索时,可以直接根据输入信息在纠错关系表中查询该输入信息对应的纠错信息,若在该纠错关系表中未能查到对应的匹配结果则直接检索,若查到了就检索所查询到的纠错信息。此外,由于查询纠错关系表所需时间很少,因此,本发明所提出的纠错过程对实时检索影响较小。
本发明的实施例提供的信息处理方法,通过检测输入操作并获取相应的输入信息,并将输入信息与通过分析历史输入信息得到的纠错关系表中的纠错信息进行比较,若没有匹配的比较结果,则从该纠错关系表中获取该输入操作对应的纠错信息,对该输入信息进行纠正,从而根据该纠错信息进行检索,得到输出结果,进而提高了用户进行信息检索的正确率。
本发明的实施例提供了一种信息处理方法,如图2所示,该信息处理方法具体包括如下步骤:
201、电子设备检测历史输入信息,并从该历史输入信息中提取出至少一个第一信息集合。
其中,上述的第一信息集合为有对应输出信息的输入信息的集合。而该第一信息集合包括用户所输入的所有输入信息,及根据输入信息进行的浏览及下载操作,而上述的历史输入信息这里的用户日志即可以是网页搜索引擎的用户日志,也可以是具体的应用搜索引擎的用户日志。结合上述描述,可以认为上述的至少一个第一信息集合中的每个第一信息集合对应一个用户的历史输入信息。
202、电子设备分析至少一个第一信息集合中的每个第一信息集合中输入信息与输出信息的相关性,得到每个第一信息集合对应的纠错关系。
其中,上述的第一信息集合为有对应输出信息的输入信息的集合,而上述的纠错关系为输出信息、输入信息与纠错信息之间的映射关系。该第一信息集合是根据历史输入信息中每个用户输入的检索信息及该检索信息对应的下载情况获取到的。
可选的,步骤202具体包括如下步骤:
202a、电子设备选择任一第一信息集合,计算从该任一第一信息集合中所有输入信息两两之间的相似度,并输出相似度大于第一阈值的输入信息。
其中,上述步骤主要目的是为了将相似的输入信息筛选出来,以便后续进行根据这些筛选出来的输入信息来获取每个第一信息集合的纠错关系,具体的,在进行筛选时,电子设备将每个第一信息集合中所有的输入信息两两进行匹配,计算其相似度,并将所有相似度值大于第一阈值的输入信息输出。其中,计算相似度的具体方式包括:字符串相似度计算方法或拼音串相似度计算方法来计算。
202b、电子设备按照相似度大于第一阈值的输入信息对应的输出信息将该相似度大于第一阈值的输入信息进行分组。
其中,一个分组对应一个输出信息,一个输出信息对应至少一个输入信息。具体的,将经过筛选的第一信息集合,按照该第一信息集合中的输出信息为每个输出信息设置一个分组,并将该输出信息对应的一个或多个的输入信息加入该分组中,以便于电子设备可以从上述一个或多个的输入信息中找到该输出信息对应的纠错信息。
202c、电子设备计算每个分组的输出信息与其对应的输入信息之间的相似度,得到每个分组的第一纠错关系。
进一步,可选的,步骤202c具体包括如下步骤:
202c1、电子设备选择任一分组,计算任一分组的输出信息与任一分组中每个输入信息之间的相似度,将相似度最大的输入信息作为任一分组中其余输入信息的纠错信息。
202c2、电子设备计算其他分组的输出信息与每个输入信息之间的相似度,直到所有分组都计算完为止,得到每个分组的第一纠错关系。
具体的,每个分组都对应的有一个第一纠错关系,每个分组中的输出信息对应一个或多个输入信息,而每个分组中的输出信息对应的纠错信息是通过计算每个分组中的输出信息与该分组中每个输入信息的相似度来得到的。其中,计算相似度的具体方式包括:字符串相似度计算方法或拼音串相似度计算方法来计算。
此外,在对每组分组进行相似度计算时,电子设备可以依次对每个分组进行计算,也可以并行同时计算所有的分组。
202d、电子设备将每个分组的第一纠错关系合并,得到该任一第一信息集合对应的纠错关系。
其中,步骤202a至步骤202d所述的任一第一信息集合为该至少一个第一信息集合中的一个第一信息集合。
203、电子设备将每个第一信息集合对应的纠错关系整合,得到第一纠错关系表。
204、电子设备将第一纠错关系表中同一输出信息对应的纠错关系进行合并,生成纠错关系表。
具体的,由于不同用户可能会搜索同一输出信息,因此,上述的纠错关系表中会出现一个输出信息对应多个纠错信息的情况,因此,电子设备将每个第一信息集合的纠错关系中包含同一输出信息的纠错关系进行合并,即计算该输出信息与多个纠错信息中的每个纠错项信息的相似度,从中找出最为正确的纠错信息,并将其他纠错信息并入该纠错信息对应的输入信息中。因此,由于用户很多检索信息是重复的,因此,最终的纠错信息表中的纠错关系会缩小为原先的几分之一。
205、电子设备检测输入操作并获取相应的输入信息。
具体的,电子设备通过检测用户的输入操作,从而获取到该输入操作对应的输入信息。其中,当用户在进行信息检索时,该输入信息即为用户输入的检索信息。
206、电子设备比较输入信息与纠错关系表中的纠错信息。
207、若没有匹配的比较结果,则电子设备从纠错关系表中获取所述输入操作对应的纠错信息。
其中,上述的纠错关系表是通过分析历史输入信息得到的,而该历史输入信息可以是用户日志中每个用户输入的输入信息及对应的输出信息,而该纠错关系表对应的可以为输出信息与纠错信息之间的映射关系表,及输入信息与纠错信息之间的映射关系表。具体的,上述的用户日志包括用户所输入的所有检索信息,及根据检索信息进行的浏览及下载操作,这里的用户日志即可以是网页搜索引擎的用户日志,也可以是具体的应用搜索引擎的用户日志。
208、电子设备根据纠错信息进行检索,得到输出结果。
209、电子设备立即或在预设时间后更新历史输入信息,并根据更新后的历史输入信息更新纠错关系表,生成第三纠错关系表。
具体的,电子设备会在用户每次进行检索后或是在预定时间,将该纠错关系表进行更新,使得该纠错关系表中的纠错信息可以更加精准,包含的纠错信息更多。
需要说明的是,本发明中的纠错关系表是电子设备预先分析历史输入信息所得到的,因此,用户在进行信息检索时,可以直接根据输入信息在纠错关系表中查询该输入信息对应的纠错信息,若在该纠错关系表中未能查到对应的匹配结果则直接检索,若查到了就检索所查询到的纠错信息。此外,由于查询纠错关系表所需时间很少,因此,本发明所提出的纠错过程对实时检索影响较小。
本发明的实施例提供的信息处理方法,通过检测输入操作并获取相应的输入信息,并将输入信息与通过分析历史输入信息得到的纠错关系表中的纠错信息进行比较,若没有匹配的比较结果,则从该纠错关系表中获取该输入操作对应的纠错信息,对该输入信息进行纠正,从而根据该纠错信息进行检索,得到输出结果,进而提高了用户进行信息检索的正确率。
本发明的实施例提供一种信息处理方法,如图3所示,该信息处理方法具体包括如下步骤:
301、电子设备检测历史输入信息,并从该历史输入信息中提取出至少一个第一信息集合。
其中,上述的第一信息集合为有对应输出信息的输入信息的集合。而该第一信息集合包括用户所输入的所有输入信息,及根据输入信息进行的浏览及下载操作,而上述的历史输入信息这里的用户日志即可以是网页搜索引擎的用户日志,也可以是具体的应用搜索引擎的用户日志。结合上述描述,可以认为上述的至少一个第一信息集合中的每个第一信息集合对应一个用户的历史输入信息。
302、电子设备分析至少一个第一信息集合中的每个第一信息集合中输入信息与输出信息的相关性,得到每个第一信息集合对应的纠错关系。
其中,上述的第一信息集合为有对应输出信息的输入信息的集合,而上述的纠错关系为输出信息、输入信息与纠错信息之间的映射关系。该第一信息集合是根据历史输入信息中每个用户输入的检索信息及该检索信息对应的下载情况获取到的。具体的,上述的每个第一信息集合的纠错关系的获取过程,在上述实施例中已经进行了说明,具体描述详见步骤202,这里不再赘述。
303、电子设备将每个第一信息集合对应的纠错关系整合,得到第一纠错关系表。
304、电子设备将第一纠错关系表中同一输出信息对应的纠错关系进行合并,生成纠错关系表。
其中,上述的纠错关系表是通过分析历史输入信息得到的,而该历史输入信息可以是用户日志中每个用户输入的输入信息及对应的输出信息,而该纠错关系表对应的可以为输出信息与纠错信息之间的映射关系表,及输入信息与纠错信息之间的映射关系表。具体的,上述的用户日志包括用户所输入的所有检索信息,及根据检索信息进行的浏览及下载操作,这里的用户日志即可以是网页搜索引擎的用户日志,也可以是具体的应用搜索引擎的用户日志。
具体的,由于不同用户可能会搜索同一输出信息,因此,上述的纠错关系表中会出现一个输出信息对应多个纠错信息的情况,因此,电子设备将每个第一信息集合的纠错关系中包含同一输出信息的纠错关系进行合并,即计算该输出信息与多个纠错信息中的每个纠错项信息的相似度,从中找出最为正确的纠错信息,并将其他纠错信息并入该纠错信息对应的输入信息中。因此,由于用户很多检索信息是重复的,因此,最终的纠错信息表中的纠错关系会缩小为原先的几分之一。
305、电子设备从历史输入信息中提取第二信息集合。
其中,上述的第二信息集合为没有对应输出信息的输入信息的集合。
306、电子设备根据第二信息集合中各输入信息对纠错关系表进行优化,生成第二纠错关系表。
进一步,可选的,步骤306具体包括如下步骤:
306a、电子设备从第二信息集合中选取任一输入信息,并计算输入信息与纠错关系表中的每个纠错信息之间的相关度。
306b、若任一输入信息的最大相似度大于第二阈值,则电子设备将最大相似度对应的纠错信息作为任一输入信息的纠错信息,并将任一输入信息并入纠错关系表中。
306c、电子设备计算第二信息集合中其他输入信息与纠错关系表中的每个纠错信息之间的相关度,直到第二信息集合中所有输入信息优化完毕为止。
具体的,在实际应用时,用户经常会输入一大堆输入信息,结果均未检索出用户想要的结果,因此,在生成纠错关系表之时,会将用户输入的输入信息分为第一信息集合和第二信息集合,分别进行不同的处理。对于第二信息集合,是在电子设备针对第一信息集合生成了一个纠错关系表后,计算第二信息集合中的每个输入信息与纠错关系表中的每个纠错信息之间的相似度,从而确定是否将该输入信息加入该纠错关系表。
此外,在计算第二信息集合中的每个输入信息与纠错关系表中的每个纠错信息之间的相似度时,可以依次进行计算,也可以并行同时进行计算。
307、电子设备检测输入操作并获取相应的输入信息。
具体的,电子设备通过检测用户的输入操作,从而获取到该输入操作对应的输入信息。其中,当用户在进行信息检索时,该输入信息即为用户输入的检索信息。
308、电子设备比较输入信息与第二纠错关系表中的纠错信息。
309、若没有匹配的比较结果,则电子设备从该第二纠错关系表中获取输入操作对应的纠错信息。
其中,上述的纠错关系表是通过分析历史输入信息得到的,而该历史输入信息可以是用户日志中每个用户输入的输入信息及对应的输出信息,而该纠错关系表对应的可以为输出信息与纠错信息之间的映射关系表,及输入信息与纠错信息之间的映射关系表。具体的,上述的用户日志包括用户所输入的所有检索信息,及根据检索信息进行的浏览及下载操作,这里的用户日志即可以是网页搜索引擎的用户日志,也可以是具体的应用搜索引擎的用户日志。
310、电子设备根据纠错信息进行检索,得到输出结果。
311、电子设备立即或在预设时间后更新历史输入信息,并根据更新后的历史输入信息更新纠错关系表,生成第三纠错关系表。
具体的,电子设备会在用户每次进行检索后或是在预定时间,将该纠错关系表进行更新,使得该纠错关系表中的纠错信息可以更加精准,包含的纠错信息更多。
需要说明的是,本发明的纠错关系表是电子设备预先分析历史输入信息所得到的,因此,用户在进行信息检索时,可以直接根据输入信息在纠错关系表中查询该输入信息对应的纠错信息,若在该纠错关系表中未能查到对应的匹配结果则直接检索,若查到了就检索所查询到的纠错信息。此外,由于查询纠错关系表所需时间很少,因此,本发明所提出的纠错过程对实时检索影响较小。
本发明的实施例提供的信息处理方法,通过检测输入操作并获取相应的输入信息,并将输入信息与通过分析历史输入信息得到的纠错关系表中的纠错信息进行比较,若没有匹配的比较结果,则从该纠错关系表中获取该输入操作对应的纠错信息,对该输入信息进行纠正,从而根据该纠错信息进行检索,得到输出结果,进而提高了用户进行信息检索的正确率。
本发明的实施例提供一种电子设备,如图4所示,该电子设备用于实现上述的信息处理方法,该电子设备可以是搜索引擎的服务器或处理器,具体的,该电子设备4包括:第一信息获取单元41、比较单元42、第二信息获取单元43和检索单元44,其中:
第一信息获取单元41,用于检测输入操作并获取相应的输入信息。
比较单元42,用于比较输入信息与纠错关系表中的纠错信息。
第二信息获取单元43,用于若没有匹配的比较结果,则从纠错关系表中获取输入操作对应的纠错信息。
其中,上述的纠错关系表是通过分析历史输入信息得到的。
检索单元44,用于根据所述纠错信息进行检索,得到输出结果。
本发明的实施例提供的电子设备,通过检测输入操作并获取相应的输入信息,并将输入信息与通过分析历史输入信息得到的纠错关系表中的纠错信息进行比较,若没有匹配的比较结果,则从该纠错关系表中获取该输入操作对应的纠错信息,对该输入信息进行纠正,从而根据该纠错信息进行检索,得到输出结果,进而提高了用户进行信息检索的正确率。
可选的,如图5所示,该电子设备4还包括:第三信息获取单元45、信息分析单元46、整合单元47和生成单元48,其中:
第三信息获取单元45,用于检测历史输入信息,并从历史输入信息中提取出至少一个第一信息集合。
其中,上述的第一信息集合为有对应输出信息的输入信息的集合。
信息分析单元46,用于分析至少一个第一信息集合中的每个第一信息集合中输入信息与输出信息的相关性,得到每个第一信息集合对应的纠错关系;上述的纠错关系为输出信息、输入信息与纠错信息之间的映射关系。
整合单元47,用于将每个第一信息集合对应的纠错关系整合,得到第一纠错关系表。
生成单元48,用于将第一纠错关系表中同一输出信息对应的纠错关系进行合并,生成纠错关系表。
可选的,如图6所示,该信息分析单元46包括:计算模块461、分组模块462和合并模块462,其中:
计算模块461,用于选择任一第一信息集合,计算从该任一第一信息集合中所有输入信息两两之间的相似度,并输出相似度大于第一阈值的输入信息。
分组模块462,用于按照相似度大于第一阈值的输入信息对应的输出信息将相似度大于第一阈值的输入信息进行分组;其中,一个分组对应一个输出信息,一个输出信息对应至少一个输入信息。
计算单元461,还用于计算每个分组的输出信息与其对应的输入信息之间的相似度,得到每个分组的第一纠错关系。
合并模块463,用于将每个分组的第一纠错关系合并,得到任一第一信息集合对应的纠错关系。
其中,上述的任一第一信息集合为该至少一个第一信息集合中的一个第一信息集合。
进一步可选的,该计算模块461具体用于:选择任一分组,计算该任一分组的输出信息与该任一分组中每个输入信息之间的相似度,将相似度最大的输入信息作为该任一分组中其余输入信息的纠错信息;计算其他分组的输出信息与每个输入信息之间的相似度,直到所有分组都计算完为止,得到每个分组的第一纠错关系。
可选的,如图7所示,该电子设备4,还包括:第四信息获取单元49和优化单元410,其中:
第四信息获取单元49,用于从历史输入信息中提取第二信息集合;其中,上述的第二信息集合为没有对应输出信息的输入信息的集合。
优化单元410,用于根据该第二信息集合中各输入信息对纠错关系表进行优化,生成第二纠错关系表。
进一步可选的,该优化单元410具体用于:从该第二信息集合中选取任一输入信息,并计算输入信息与纠错关系表中的每个纠错信息之间的相关度;若该任一输入信息的最大相似度大于第二阈值,则将最大相似度对应的纠错信息作为任一输入信息的纠错信息,并将任一输入信息并入纠错关系表中;计算第二信息集合中其他输入信息与纠错关系表中的每个纠错信息之间的相关度,直到第二信息集合中所有输入信息优化完毕为止。
可选的,该电子设备4还包括:更新单元411,其中:
更新单元411,用于立即或在预设时间后更新历史输入信息,并根据更新后的历史输入信息更新纠错关系表,生成第三纠错关系表。
本发明的实施例提供的电子设备,通过检测输入操作并获取相应的输入信息,并将输入信息与通过分析历史输入信息得到的纠错关系表中的纠错信息进行比较,若没有匹配的比较结果,则从该纠错关系表中获取该输入操作对应的纠错信息,对该输入信息进行纠正,从而根据该纠错信息进行检索,得到输出结果,进而提高了用户进行信息检索的正确率。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的设备和系统中,各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。且上述的各单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种信息处理方法,应用于电子设备,其特征在于,包括:
检测输入操作并获取相应的输入信息;
比较所述输入信息与纠错关系表中的纠错信息;
若没有匹配的比较结果,则从所述纠错关系表中获取所述输入操作对应的纠错信息;其中所述纠错关系表是通过分析历史输入信息得到的;
根据所述纠错信息进行检索,得到输出结果;
其中,所述方法还包括:
检测所述历史输入信息,并从所述历史输入信息中提取出至少一个第一信息集合;其中所述第一信息集合为有对应输出信息的输入信息的集合;
分析所述至少一个第一信息集合中的每个第一信息集合中输入信息与输出信息的相关性,得到所述每个第一信息集合对应的纠错关系;所述纠错关系为输出信息、输入信息与纠错信息之间的映射关系;
将所述每个第一信息集合对应的纠错关系整合,得到第一纠错关系表;
将所述第一纠错关系表中同一输出信息对应的纠错关系进行合并,生成纠错关系表;
其中,所述分析所述至少一个第一信息集合中的每个第一信息集合中输入信息与输出信息的相关性,得到所述每个第一信息集合对应的纠错关系包括:
选择任一第一信息集合,计算从所述任一第一信息集合中所有输入信息两两之间的相似度,并输出相似度大于第一阈值的输入信息;
按照所述相似度大于第一阈值的输入信息对应的输出信息将所述相似度大于第一阈值的输入信息进行分组;其中,一个分组对应一个输出信息,一个输出信息对应至少一个输入信息;
计算每个分组的输出信息与其对应的输入信息之间的相似度,得到每个分组的第一纠错关系;
将所述每个分组的第一纠错关系合并,得到所述任一第一信息集合对应的纠错关系;
其中所述任一第一信息集合为所述至少一个第一信息集合中的一个第一信息集合。
2.根据权利要求1所述的方法,其特征在于,所述计算每个分组的输出信息与其对应的输入信息之间的相似度,得到每个分组的第一纠错关系包括:
选择任一分组,计算所述任一分组的输出信息与所述任一分组中每个输入信息之间的相似度,将相似度最大的输入信息作为所述任一分组中其余输入信息的纠错信息;
计算其他分组的输出信息与每个输入信息之间的相似度,直到所有分组都计算完为止,得到所述每个分组的第一纠错关系。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一纠错关系表中同一输出信息对应的纠错关系进行合并,生成纠错关系表之后,还包括:
从所述历史输入信息中提取第二信息集合;其中所述第二信息集合为没有对应输出信息的输入信息的集合;
根据所述第二信息集合中各输入信息对所述纠错关系表进行优化,生成第二纠错关系表。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二信息集合中各输入信息对所述纠错关系表进行优化,生成第二纠错关系表包括:
从所述第二信息集合中选取任一输入信息,并计算所述输入信息与所述纠错关系表中的每个纠错信息之间的相关度;
若所述任一输入信息的最大相似度大于第二阈值,则将所述最大相似度对应的纠错信息作为所述任一输入信息的纠错信息,并将所述任一输入信息并入所述纠错关系表中;
计算所述第二信息集合中其他输入信息与所述纠错关系表中的每个纠错信息之间的相关度,直到所述第二信息集合中所有输入信息优化完毕为止。
5.根据权利要求1所述的方法,其特征在于,所述根据所述纠错信息进行检索,得到输出结果之后,还包括:
立即或在预设时间后更新所述历史输入信息,并根据所述更新后的历史输入信息更新所述纠错关系表,生成第三纠错关系表。
6.一种电子设备,其特征在于,包括:
第一信息获取单元,用于检测输入操作并获取相应的输入信息;
比较单元,用于比较所述输入信息与纠错关系表中的纠错信息;
第二信息获取单元,用于若没有匹配的比较结果,则从所述纠错关系表中获取所述输入操作对应的纠错信息;其中所述纠错关系表是通过分析历史输入信息得到的;
检索单元,用于根据所述纠错信息进行检索,得到输出结果;
其中,所述电子设备还包括:
第三信息获取单元,用于检测所述历史输入信息,并从所述历史输入信息中提取出至少一个第一信息集合;其中所述第一信息集合为有对应输出信息的输入信息的集合;
信息分析单元,用于分析所述至少一个第一信息集合中的每个第一信息集合中输入信息与输出信息的相关性,得到所述每个第一信息集合对应的纠错关系;所述纠错关系为输出信息、输入信息与纠错信息之间的映射关系;
整合单元,用于将所述每个第一信息集合对应的纠错关系整合,得到第一纠错关系表;
生成单元,用于将所述第一纠错关系表中同一输出信息对应的纠错关系进行合并,生成纠错关系表;
其中,所述信息分析单元包括:
计算模块,用于选择任一第一信息集合,计算从所述任一第一信息集合中所有输入信息两两之间的相似度,并输出相似度大于第一阈值的输入信息;
分组模块,用于按照所述相似度大于第一阈值的输入信息对应的输出信息将所述相似度大于第一阈值的输入信息进行分组;其中,一个分组对应一个输出信息,一个输出信息对应至少一个输入信息;
所述计算单元,还用于计算每个分组的输出信息与其对应的输入信息之间的相似度,得到每个分组的第一纠错关系;
合并模块,用于将所述每个分组的第一纠错关系合并,得到所述任一第一信息集合对应的纠错关系;
其中所述任一第一信息集合为所述至少一个第一信息集合中的一个第一信息集合。
7.根据权利要求6所述的电子设备,其特征在于,所述计算模块具体用于:选择任一分组,计算所述任一分组的输出信息与所述任一分组中每个输入信息之间的相似度,将相似度最大的输入信息作为所述任一分组中其余输入信息的纠错信息;计算其他分组的输出信息与每个输入信息之间的相似度,直到所有分组都计算完为止,得到所述每个分组的第一纠错关系。
8.根据权利要求6所述的电子设备,其特征在于,所述电子设备,还包括:
第四信息获取单元,用于从所述历史输入信息中提取第二信息集合;其中所述第二信息集合为没有对应输出信息的输入信息的集合;
优化单元,用于根据所述第二信息集合中各输入信息对所述纠错关系表进行优化,生成第二纠错关系表。
9.根据权利要求8所述的电子设备,其特征在于,所述优化单元具体用于:从所述第二信息集合中选取任一输入信息,并计算所述输入信息与所述纠错关系表中的每个纠错信息之间的相关度;若所述任一输入信息的最大相似度大于第二阈值,则将所述最大相似度对应的纠错信息作为所述任一输入信息的纠错信息,并将所述任一输入信息并入所述纠错关系表中;计算所述第二信息集合中其他输入信息与所述纠错关系表中的每个纠错信息之间的相关度,直到所述第二信息集合中所有输入信息优化完毕为止。
10.根据权利要求6所述的电子设备,其特征在于,所述电子设备还包括:
更新单元,用于立即或在预设时间后更新所述历史输入信息,并根据所述更新后的历史输入信息更新所述纠错关系表,生成第三纠错关系表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310531221.7A CN104598473B (zh) | 2013-10-31 | 2013-10-31 | 一种信息处理方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310531221.7A CN104598473B (zh) | 2013-10-31 | 2013-10-31 | 一种信息处理方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104598473A CN104598473A (zh) | 2015-05-06 |
CN104598473B true CN104598473B (zh) | 2018-07-06 |
Family
ID=53124266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310531221.7A Active CN104598473B (zh) | 2013-10-31 | 2013-10-31 | 一种信息处理方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104598473B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468467A (zh) * | 2015-11-27 | 2016-04-06 | 成都视达科信息技术有限公司 | 一种用于字符容错的系统及方法 |
CN106919614B (zh) * | 2015-12-28 | 2020-12-22 | 中国移动通信集团公司 | 一种信息处理方法及装置 |
CN107688400B (zh) * | 2016-08-05 | 2021-11-30 | 北京搜狗科技发展有限公司 | 一种输入纠错方法和装置、一种用于输入纠错的装置 |
CN108052678A (zh) * | 2018-01-02 | 2018-05-18 | 联想(北京)有限公司 | 数据处理方法和装置 |
CN109740161B (zh) * | 2019-01-08 | 2023-06-20 | 北京百度网讯科技有限公司 | 数据泛化方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241514A (zh) * | 2008-03-21 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种生成纠错数据库的方法、自动纠错的方法和系统 |
CN101685448A (zh) * | 2008-09-28 | 2010-03-31 | 国际商业机器公司 | 在用户的查询操作与搜索结果之间建立关联的方法和设备 |
CN102915314A (zh) * | 2011-08-05 | 2013-02-06 | 腾讯科技(深圳)有限公司 | 一种纠错对自动生成方法及系统 |
CN102915313A (zh) * | 2011-08-05 | 2013-02-06 | 腾讯科技(深圳)有限公司 | 网络搜索中的纠错关系生成方法及系统 |
US9465798B2 (en) * | 2010-10-08 | 2016-10-11 | Iq Technology Inc. | Single word and multi-word term integrating system and a method thereof |
-
2013
- 2013-10-31 CN CN201310531221.7A patent/CN104598473B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241514A (zh) * | 2008-03-21 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种生成纠错数据库的方法、自动纠错的方法和系统 |
CN101685448A (zh) * | 2008-09-28 | 2010-03-31 | 国际商业机器公司 | 在用户的查询操作与搜索结果之间建立关联的方法和设备 |
US9465798B2 (en) * | 2010-10-08 | 2016-10-11 | Iq Technology Inc. | Single word and multi-word term integrating system and a method thereof |
CN102915314A (zh) * | 2011-08-05 | 2013-02-06 | 腾讯科技(深圳)有限公司 | 一种纠错对自动生成方法及系统 |
CN102915313A (zh) * | 2011-08-05 | 2013-02-06 | 腾讯科技(深圳)有限公司 | 网络搜索中的纠错关系生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104598473A (zh) | 2015-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104598473B (zh) | 一种信息处理方法及电子设备 | |
KR102061288B1 (ko) | 이미지 검색 방법, 실시간 그리기 프롬프팅 방법 및 그 장치 | |
CN106462399B (zh) | 代码推荐 | |
CN102214302A (zh) | 识别装置、识别方法以及程序 | |
CN104639517A (zh) | 利用人体生物特征进行身份验证的方法和装置 | |
WO2020151319A1 (zh) | 密码校验方法、装置、计算机设备及存储介质 | |
CN101140573B (zh) | 一种实现信息搜索的方法及系统 | |
CN104067273A (zh) | 将搜索结果分组为简档页面 | |
CN103049495A (zh) | 用于提供与查询序列相对应的搜索建议的方法、装置与设备 | |
JP2022073981A (ja) | ソースコード取得 | |
CN110781381A (zh) | 基于神经网络的数据验证方法、装置、设备及存储介质 | |
CN109871891A (zh) | 一种物体识别方法、装置和存储介质 | |
CN105227318A (zh) | 一种身份认证方法和装置 | |
JP5780036B2 (ja) | 抽出プログラム、抽出方法及び抽出装置 | |
CN106844541A (zh) | 一种联机分析处理方法及装置 | |
CN104580109A (zh) | 生成点选验证码的方法及装置 | |
CN103902449A (zh) | 一种用于生成搜索引擎相关性排序测试用例的方法与设备 | |
CN103870476A (zh) | 检索方法及设备 | |
CN100549977C (zh) | 芯片验证的预处理方法和预处理装置 | |
CN101814080B (zh) | 一种实现信息搜索的方法及系统 | |
CN104239475A (zh) | 一种时间序列数据分析方法及装置 | |
CN112732379B (zh) | 智能终端上应用程序的运行方法、终端和存储介质 | |
CN111553981B (zh) | 一种基于建模区域分类的三维地质建模方法及系统 | |
CN114495180A (zh) | 一种指纹匹配方法、芯片及设备 | |
CN106951851B (zh) | 指纹模板的更新方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |