CN106528845B

CN106528845B - 基于人工智能的检索纠错方法及装置

Info

Publication number: CN106528845B
Application number: CN201611048764.3A
Authority: CN
Inventors: 付志宏; 曾增烽; 肖求根; 何径舟; 石磊; 李朋凯
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2019-09-03
Anticipated expiration: 2036-11-22
Also published as: CN106528845A; US10929390B2; US20180144024A1

Abstract

本申请提出一种基于人工智能的检索纠错方法及装置，其中，该方法包括：接收用户输入的第一查询语句，根据预设的纠错策略判断所述第一查询语句是否满足纠错条件；若所述第一查询语句满足纠错条件，则确定所述第一查询语句中待纠错的第一分词；根据预设的候选召回策略，获取与所述第一分词对应的各第一候选结果；根据所述各第一候选结果的质量特征值，确定与所述第一分词对应的纠错结果；利用所述纠错结果，对所述第一查询语句进行纠错，生成第二查询语句。实现了利用历史数据，准确判断查询是否需要纠错，并对纠错候选结果进行准确筛选，确定纠错结果，提高了搜索引擎的纠错效率和准确率节省用户的查询时间，改善了用户体验。

Description

基于人工智能的检索纠错方法及装置

技术领域

本申请涉及信息检索技术领域，尤其涉及一种基于人工智能的检索纠错方法及装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

随着互联网的普及，互联网上的信息也越来越丰富，现在人们通过搜索引擎可以便捷的获取自己想要的信息。通常用户在进行检索时，经常由于疏忽等原因，输入错误的检索语句(query)，比如，“清华大学”输入成“情华大学”(字形错误)或者输入成为“亲华大学”(拼音错误)，或者输入成“清华学”(少了一个字)等。这样就要求搜索引擎能够对用户输入的错误query进行识别，同时将错误的部分纠正成用户需要的query。

现有的搜索引擎对query进行纠错时，主要是通过对拼音错误和字形错误构建纠错特征，利用噪音信道模型预测正确的候选query。但是这种纠错方式，由于同音或者形近字较多，在纠错时候选较多，使得纠错效率和准确率都较低。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于人工智能的检索纠错方法，该方法实现了利用历史数据，准确判断查询是否需要纠错，并对纠错候选结果进行准确筛选，确定纠错结果，提高了搜索引擎的纠错效率和准确率节省用户的查询时间，改善了用户体验。

本申请的第二个目的在于提出一种基于人工智能的检索纠错装置。

本申请的第三个目的在于提出一种基于人工智能的检索纠错设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

本申请的第五个目的在于提出一种计算机程序产品。

为达上述目的，本申请第一方面实施例提出了一种基于人工智能的检索纠错方法，包括：接收用户输入的第一查询语句，根据预设的纠错策略判断所述第一查询语句是否满足纠错条件；若所述第一查询语句满足纠错条件，则确定所述第一查询语句中待纠错的第一分词；根据预设的候选召回策略，获取与所述第一分词对应的各第一候选结果；根据所述各第一候选结果的质量特征值，确定与所述第一分词对应的纠错结果；利用所述纠错结果，对所述第一查询语句进行纠错，生成第二查询语句。

本申请实施例的基于人工智能的检索纠错方法，在接收到用户输入的第一查询语句后，若根据预设的纠错策略，确定第一查询语句满足纠错条件，则首先确定第一查询语句中待纠错的第一分词，然后根据预设的召回策略，获取与第一分词对应的各第一候选结果，再根据各第一候选结果的质量特征值，确定与第一分词对应的纠错结果，然后利用纠错结果，对所述第一查询语句进行纠错，生成第二查询语句。由此，实现了利用历史数据，准确判断查询是否需要纠错，并对纠错候选结果进行准确筛选，确定纠错结果，提高了搜索引擎的纠错效率和准确率节省用户的查询时间，改善了用户体验。

为达上述目的，本申请第二方面实施例提出了一种基于人工智能的检索纠错装置，包括：判断模块，用于接收用户输入的第一查询语句，根据预设的纠错策略判断所述第一查询语句是否满足纠错条件；第一确定模块，用于若所述第一查询语句满足纠错条件，则确定所述第一查询语句中待纠错的第一分词；获取模块，用于根据预设的候选召回策略，获取与所述第一分词对应的各第一候选结果；第二确定模块，用于根据所述各第一候选结果的质量特征值，确定与所述第一分词对应的纠错结果；生成模块，用于利用所述纠错结果，对所述第一查询语句进行纠错，生成第二查询语句。

本申请实施例的基于人工智能的检索纠错装置，在接收到用户输入的第一查询语句后，若根据预设的纠错策略，确定第一查询语句满足纠错条件，则首先确定第一查询语句中待纠错的第一分词，然后根据预设的召回策略，获取与第一分词对应的各第一候选结果，再根据各第一候选结果的质量特征值，确定与第一分词对应的纠错结果，然后利用纠错结果，对所述第一查询语句进行纠错，生成第二查询语句。由此，实现了利用历史数据，准确判断查询是否需要纠错，并对纠错候选结果进行准确筛选，确定纠错结果，提高了搜索引擎的纠错效率和准确率节省用户的查询时间，改善了用户体验。

为达上述目的，本申请第三方面实施例提出了一种基于人工智能的检索纠错设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如上述第一方面中的基于人工智能的检索纠错方法。

为达上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器被执行时，使得移动终端能够执行一种如上述第一方面中的基于人工智能的检索纠错方法。

为达上述目的，本申请第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种如上述第一方面中的基于人工智能的检索纠错方法。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例的基于人工智能的检索纠错方法的流程图；

图2是本申请另一个实施例的基于人工智能的检索纠错方法的流程图；

图3是本申请一个实施例的基于人工智能的检索纠错装置的结构示意图；

图4是本申请另一个实施例的基于人工智能的检索纠错装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于人工智能的检索纠错方法及装置。

图1是本申请一个实施例的基于人工智能的检索纠错方法的流程图。

如图1所示，该基于人工智能的检索纠错方法包括：

步骤101，接收用户输入的第一查询语句，根据预设的纠错策略判断所述第一查询语句是否满足纠错条件。

具体地，本发明实施例提供的基于人工智能的检索纠错方法的执行主体为基于人工智能的检索纠错装置，该检索纠错装置可以应用于具有检索功能的终端设备中。其中，终端设备的类型很多，例如：智能手机、平板电脑，计算机等。

当接收到用户当前输入的第一查询语句时，根据预设的检索纠错策略对该第一查询语句进行分析，判断该第一查询语句是否满足纠错条件。如果该第一查询语句不满足纠错条件，则对该第一查询语句直接进行检索，并向用户反馈检索结果。如果该第一查询语句满足纠错条件，则对第一查询语句进行纠错处理。

需要说明的是，可以根据不同的应用需要设置不同的纠错策略，例如：

示例一：

根据所述第一查询语句的历史行为特征，判断所述第一查询语句是否满足纠错条件。

其中，历史行为特征包括：历史检索次数、历史点击次数及阅读时长。具体的，检索纠错装置中可以存储各查询语句的历史检索信息，比如检索次数、点击次数、阅读时长等数据，从而在接收到第一查询语句后，通过查询历史数据，判断该第一查询语句的检索次数是否大于一定的值，以及用户对该第一查询语句对应的查询结果的点击次数是否足够多，或者，用户对该第一查询语句对应的查询结果的阅读时长是否足够长，从而判断该第一查询语句是否需要纠错。

通常情况下，若查询语句的检索次数足够多，则可以认为该查询语句较准确，无需纠错；或者，根据该查询语句得到的检索结果，被用户多次点击(说明检索结果准确，满足用户需求)，也可以认为该查询语句较准确，无需纠错；或者，若用户对该查询语句的检索结果的阅读时间较长(说明检索结果满足用户需求)，也可以认为该查询语句较准确，无需纠错等。

示例二

根据所述第一查询语句的语言模型值，判断所述第一查询语句是否满足纠错条件。

具体的，检索纠错装置可以通过判断第一查询语句在历史查询语句中是否有同样或者类似的描述，来确定第一查询语句的语言模型值。比如检索纠错装置，通过对历史查询语句及检索库中检索结果的标题进行统计，确定一个语言模型，然后，将第一查询语句输入语言模型，即可计算第一查询语句的语言模型值。

需要注意的是，上述的纠错策略仅仅是举例说明，可以根据实际应用需要进行设置或调整。

步骤102，若所述第一查询语句满足纠错条件，则确定所述第一查询语句中待纠错的第一分词。

具体地，由于查询语句(query)通常是一个比较长的串，但是拼错的部分只是其中的某一个词(word)或者多个word，因此我们只需要对拼错的部分进行纠错处理；而不需要对整个query的所有word都进行纠错，否则效率太低。因此，在确定如果第一查询语句满足预设的纠错条件，则可以对第一查询语句进行解析，确定第一查询语句中待纠错的第一分词。

其中，第一分词，可以指一个词或词组，也可以指多个词或词组，本实施例对此不作限定

可以理解的是，获取第一查询语句中待纠错的第一分词时，需要首先对第一查询语句进行分词处理，确定第一查询语句中包括的第二分词，再判断第二分词是否需要纠错，即上述步骤102，包括：

对所述第一查询语句进行分词处理，确定所述第一查询语句包括的第二分词组；

根据所述第二分词组中各第二分词的历史纠错信息和/或语言模型值，确定所述第二分词组中待纠错的第一分词。

具体的，检索纠错装置对第一查询语句进行分词处理后，得到的第二分词组中包括第一查询语句中所有粒度的分词。

举例来说，若第一查询语句为“北京地图1号线”，那么对该查询语句进行分词后，得到的各第二分词，可以包括：“北京”、“地图”、“1号线”、“北京地图”、“地图1号线”。然后检索纠错装置，即可依次根据上述各个第二分词的历史纠错信息及语言模型值，判断该分词是否需要纠错。而通过查询历史纠错信息，可确定“地图1号线”在历史纠错中出现过，而其他的分词均未出现，且通过语言模型值计算后，确定“地图1号线”的语言模型值较低，那么则可以确定“地图1号线”为第一查询语句中包括的待纠错的第一分词。

需要说明的是，检索纠错装置可以仅在第二分词的历史纠错信息满足纠错条件时，确定第二分词为待纠错的第一分词；也可以仅在第二分词的语言模型值满足纠错条件时，确定第二分词为待纠错的第一分词；或者，也可以仅在第二分词的历史纠错信息和语言模型值均满足纠错条件时，确定第二分词为待纠错的第一分词，本实施例对此不作限定。

进一步地，由于大粒度的分词包含的信息或语义比小粒度的分词更准确，因此，为了提高检索纠错装置的纠错效率，检索纠错装置，可以首先对大粒度分词进行纠错判断，若确定大粒度分词为纠错分词，那么即可认为对该大粒度分词纠错后，即可得到正确的查询语句，而无需再对其包含的小粒度分词进行纠错判断。即检索纠错装置根据所述各第二分词的历史纠错信息及语言模型值，确定所述第二分词组中待纠错的第一分词，具体包括：

按照从大粒度到小粒度的顺序，依次判断所述第二分词组中各第二分词的历史纠错信息及语言模型值是否满足纠错条件；

若大粒度的第二分词的历史纠错信息及语言模型值满足纠错条件，则确定所述大粒度的第二分词为待纠错的第一分词；

将包含于所述大粒度的第二分词中的小粒度第二分词从所述第二分词组中剔除。

举例来说，上述例子中，检索纠错装置，在确定“地图1号线”为待纠错分词后，即可不再判断小粒度分词“地图”和“1号线”了，从而节省了检索纠错装置的处理过程，提高了纠错效率。

步骤103，根据预设的候选召回策略，获取与所述第一分词对应的各第一候选结果。

具体的，检索纠错装置，可以采用多种候选召回策略，来对待纠错的分词进行候选召回。

比如，根据历史纠错信息，确定第一分词对应的各第一候选结果；或者，根据预先训练的候选词列表，确定第一分词对应的各第一候选结果等，本实施例对此不作限定。

步骤104，根据所述各第一候选结果的质量特征值，确定与所述第一分词对应的纠错结果。

其中，候选结果的质量特征，是指候选结果及其对应的第一分词的频次、历史行为特征(比如检索次数、点击次数、纠错次数)、在query的上下文特征、是否专名、是否站点名等信息。

具体的，检索纠错装置在确定了各第一候选结果的质量特征值后，即可选取质量特征值最高的候选结果，作为第一分词的纠错结果。

步骤105，利用所述纠错结果，对所述第一查询语句进行纠错，生成第二查询语句。

具体的，检索纠错装置在确定了纠错结果后，即可利用纠错结果对第一查询语句进行纠错，生成第二查询语句，进而根据第二查询语句，获取查询结果并反馈给用户。

通过上述分析可知，检索纠错装置在确定用户输入的查询语句需要纠错后，可以采用预设的候选召回策略，获取与待纠错的分词对应的候选结果，并根据候选结果的质量特征值，确定待纠错分词的纠错结果，进而对查询语句进行纠错处理，下面结合图2对检索纠错装置中的候选召回策略进行详细的说明。

图2是本申请另一个实施例的基于人工智能的检索纠错方法的流程图。

如图2所示，该基于人工智能的检索纠错方法可以包括以下步骤：

步骤201，接收用户输入的第一查询语句。

步骤202，根据所述第一查询语句的历史行为特征和语言模型值，判断所述第一查询语句是否满足纠错条件，若是，则执行步骤203a，否则执行步骤203b。

步骤203a，根据所述第一查询语句，获取检索结果。

步骤203b，对所述第一查询语句进行分词处理，确定所述第一查询语句包括的第二分词组。

步骤204，按照从大粒度到小粒度的顺序，依次判断所述第二分词组中各第二分词的历史纠错信息及语言模型值是否满足纠错条件。

步骤205，若大粒度的第二分词的历史纠错信息及语言模型值满足纠错条件，则确定所述大粒度的第二分词为待纠错的第一分词。

步骤206，将包含于所述大粒度的第二分词中的小粒度第二分词从所述第二分词组中剔除。

具体的，上述步骤201-步骤206的具体实现过程可参照上述实施例的详细描述，此处不再赘述。

步骤207，查询历史纠错信息库，获取与所述第一分词对应的、且置信度大于第一预设值的各第二候选结果。

其中，历史纠错信息库中存储有历史待纠错分词、纠错结果及对应的置信度。通常一个待纠错分词可能对应多个纠错结果，并分别对应不同的置信度，当检索纠错装置，确定待纠错的第一分词后，即可通过查询预先存储历史纠错信息库，获取与第一分词对应的纠错结果。

进一步地，为了提高检索纠错装置的纠错效率，检索纠错装置，可以仅选取置信度较高的纠错结果作为第二候选结果。

其中，第一预设的值可以是预先设置的，也可以检索纠错装置根据第一查询语句的语义、待纠错的第一分词在第一查询语句中的作用大小确定的。

比如，用户输入的第一查询语句为“北京无麦”，检索纠错装置对第一查询语句进行分析后，确定待纠错的第一分词为“无麦”，并通过查询若历史纠错信息库，确定与第一分词“无麦”对应的纠错结果和置信度分别为：“雾霾”-0.7、“外卖”-0.5，“呼麦”-0.2，然后检索纠错装置根据第一查询语句的语义和结构、及第一分词在第一查询语句中的位置，可以确定该第一分词对第一查询语句的意义较大，因而希望尽量多的召回候选结果，从而第一预设的值比如确定为0.4，那么通过判断即可确定，此处召回的第二候选结果为“雾霾”和“外卖”。

步骤208，根据所述各第二候选结果与所述第一查询语句的匹配程度，确定所述各第二候选结果的各准确率得分。

具体的，检索纠错装置可以采用多种方式，确定第二候选结果与第一查询语句的匹配程度。

示例一

根据预设的候选预估模型，确定第二候选结果与第一查询语句的匹配程度。

具体的，检索纠错装置可以通过对各query的历史特征、上下文语料及语音模型等进行训练，得到一个候选预估模型，该候选预估模型可根据候选结果及query的上下文，对该候选结果进行打分，打分越高，说明该候选结果与query匹配程度越高，即该候选结果的准确率越高。

示例二

将各第二候选结果替换第一查询语句中的第一分词，得到新的查询语句；

根据新的查询语句的历史特征及用户的历史行为特征，确定第二候选结果与第一查询语句的匹配程度。

举例来说，检索纠错装置，在确定第二候选结果为“雾霾”和“外卖”后，即可确定新的查询语句为“北京雾霾”和“北京外卖”，之后，根据新的查询语句的历史搜索次数、点击次数等，及用户的历史检索信息，比如用户对北京天气的搜索次数，及对外卖的搜索次数，确定各第二候选结果与第一查询语句的匹配程度。

在本实施例一种可能的实现形式中，检索纠错装置还可以结合当前的查询语句排名，对历史纠错信息库中的候选结果的置信度进行调整。举例来说，在北京天气恶劣时“雾霾”的检索次数会较高，从而其对应的置信度会增加；或者，在有与新的“外卖”应用出现时，或者与“外卖”相关的新闻发生时，“外卖”的检索次数会较高，从而其对应的置信度会增加。

步骤209，判断所述各准确率得分中是否有大于第二预设值的得分，若是，则执行步骤210，否则，执行步骤211。

步骤210，确定准确率得分最高的第二候选结果为纠错结果。

具体的，检索纠错装置，可以预先设置一个阈值，用来衡量正确的纠错结果是否被召回，当第二候选结果的准确率得分大于该阈值时，则认为该第二候选结果为正确的纠错结果，从而即可结束纠错处理，响应的，若第二候选结果的准确率得分小于该阈值时，则可以进一步根据第一分词的拼音及字形，对纠错候选进行进一步召回。

步骤211，依次利用预设的候选列表中与所述第一分词对应的候选结果，构建第三查询语句。

其中，所述候选列表中包括与所述第一分词形近或音近的所有候选词。

步骤212，根据所述第三查询语句的质量特征，对各第三查询语句进行排序。

步骤213，根据排序结果，确定纠错结果。

具体的，由于预设的候选列表中可能包括多个与第一分词音近或者形近的候选结果，因此，为了进一步减少检索纠错装置的处理负担，检索纠错装置可以根据利用各候选结果构成的第三查询语句的质量特征，从候选结果中选取纠错结果。

其中，第三查询语句的质量特征可以根据候选结果的质量特征、第一分词的质量特征、第一分词与候选结果的组合特征，及当前用户的历史行为特征确定。

举例来说，若候选结果本身被检索的频次较多，则可以确定该候选结果的质量较高；或者候选结果的历史点击次数较多，也可以确定该候选结果的质量较高；或者候选结果为专名或站点名，也可以确定该候选结果的质量较高等等。

具体的，检索纠错装置，可以采用学习排序(Learning torank，简称LTR)中的组合(pairwise)训练方式得到的排序模型，对各第三查询语句进行排序，对第三查询语句排序后，即可根据从排序结果中，选取排名靠前的候选结果作为纠错结果。从而有效的提升了纠错候选结果排序的效率，提高了检索纠错装置的纠错效率。

步骤214，利用所述纠错结果，对所述第一查询语句进行纠错，生成第二查询语句。

步骤215，根据所述第二查询语句，获取检索结果。

需要说明的是，检索纠错装置在确定纠错结果后，还可以根据纠错结果的质量特征，对纠错结果进行进一步的分析，进而根据分析结果，确定利用纠错结果对第一查询语句的纠错方式。比如，若纠错结果的质量特征较高，那么则可以直接利用纠错结果替换第一分词，生成第二查询语句，或者，若纠错结果的质量特征较低，那么对第一查询语句进行纠错时，可能就需要根据纠错结果，对第一查询语句进行补全、删除、调序等处理，从而使得到的第二查询语句更准确。

进一步地，由于检索引擎中会保存一段时间内的检索信息，即查询语句、纠错结果及检索结果等，若检索纠错装置按照上述方式，确定第一查询语句满足纠错条件，那么即可对搜索引擎中保存的与该查询语句对应的检索信息进行退场处理，即该方法在上述步骤203b前，还包括：

对与所述第一查询语句对应的纠错结果进行退场处理。

本申请实施例的基于人工智能的检索纠错方法，在收到用户输入的第一查询语句后，首先根据第一查询语句的历史行为特征和语言模型值，判断第一查询语句是否满足纠错条件，在确定第一查询语句满足纠错条件后，再确定第一查询语句中包括的第二分词组，然后根据第二分词组中各第二分词的历史纠错信息及语言模型值，确定第二分词组中待纠错的第一分词，再结合历史纠错信息库、预设的候选列表等，对第一分词进行候选召回，之后再利用质量特征模型，对召回的候选进行评估，确定最终的纠错结果，并根据纠错结果对第一查询语句进行纠错，生成第二查询语句。由此，实现了利用历史数据，准确判断查询是否需要纠错，并根据历史检索数据进行候选结果召回，并且根据用户的历史行为，对候选结果进行纠错，在提升纠错准确率的同时，很好的满足了用户个性化的需求，提高了搜索引擎的纠错效率和准确率节省用户的查询时间，改善了用户体验。

为了实现上述实施例，本申请还提出一种基于人工智能的检索纠错装置。

图3是本申请一个实施例的基于人工智能的检索纠错装置的结构示意图。

如图3所示，该基于人工智能的检索纠错装置包括：

判断模块31，用于接收用户输入的第一查询语句，根据预设的纠错策略判断所述第一查询语句是否满足纠错条件；

第一确定模块32，用于若所述第一查询语句满足纠错条件，则确定所述第一查询语句中待纠错的第一分词；

获取模块33，用于根据预设的候选召回策略，获取与所述第一分词对应的各第一候选结果；

第二确定模块34，用于根据所述各第一候选结果的质量特征值，确定与所述第一分词对应的纠错结果；

生成模块35，用于利用所述纠错结果，对所述第一查询语句进行纠错，生成第二查询语句。

其中，上述判断模块31，具体用于：

根据所述第一查询语句的历史行为特征，判断所述第一查询语句是否满足纠错条件；和/或，

在本实施例的一种可能的实现形式中，上述第一确定模块32，具体用于：

根据所述第二分词组中各第二分词的历史纠错信息及语言模型值，确定所述第二分词组中待纠错的第一分词。

进一步地，在本实施例一种可能的实现形式中，上述第一确定模块32，具体用于：

在本实施例一种可能的实现形式中，所述获取模块33，具体用于：

查询历史纠错信息库，获取与所述第一分词对应的、且置信度大于第一预设值的各第二候选结果；

根据所述各第二候选结果与所述第一查询语句的匹配程度，确定所述各第二候选结果的各准确率得分；

判断所述各准确率得分中是否有大于第二预设值的得分；

若有，则确定准确率得分最高的第二候选结果为纠错结果。

进一步地，上述获取模块33，还用于：

若所述各准确率得分均小于第二预设值，则依次利用预设的候选列表中与所述第一分词对应的候选结果，构建第三查询语句，其中，所述候选列表中包括与所述第一分词形近或音近的所有候选词；

根据所述第三查询语句的质量特征，对各第三查询语句进行排序；

根据排序结果，确定纠错结果。

需要说明的是，前述对基于人工智能的检索纠错方法实施例的解释说明也适用于该实施例的检索纠错装置，此处不再赘述。

图4是本申请另一个实施例的基于人工智能的检索纠错装置的结构图。

如图4所示，在上述图3所示的基础上，该基于人工智能的检索纠错装置，还包括：

退场模块41，用于若所述第一查询语句不满足纠错条件，则对与所述第一查询语句对应的纠错结果进行退场处理。

本申请实施例的基于人工智能的检索纠错装置，在收到用户输入的第一查询语句后，首先根据第一查询语句的历史行为特征和语言模型值，判断第一查询语句是否满足纠错条件，在确定第一查询语句满足纠错条件后，再确定第一查询语句中包括的第二分词组，然后根据第二分词组中各第二分词的历史纠错信息及语言模型值，确定第二分词组中待纠错的第一分词，再结合历史纠错信息库、预设的候选列表等，对第一分词进行候选召回，之后再利用质量特征模型，对召回的候选进行评估，确定最终的纠错结果，并根据纠错结果对第一查询语句进行纠错，生成第二查询语句。由此，实现了利用历史数据，准确判断查询是否需要纠错，并根据历史检索数据进行候选结果召回，并且根据用户的历史行为，对候选结果进行纠错，在提升纠错准确率的同时，很好的满足了用户个性化的需求，提高了搜索引擎的纠错效率和准确率节省用户的查询时间，改善了用户体验。

基于上述实施例提供的基于人工智能的检索纠错方法和装置，本申请再一个实施例提供一种基于人工智能的检索纠错设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行以下操作：

接收用户输入的第一查询语句，根据预设的纠错策略判断所述第一查询语句是否满足纠错条件；

若所述第一查询语句满足纠错条件，则确定所述第一查询语句中待纠错的第一分词；

根据预设的候选召回策略，获取与所述第一分词对应的各第一候选结果；

根据所述各第一候选结果的质量特征值，确定与所述第一分词对应的纠错结果；

利用所述纠错结果，对所述第一查询语句进行纠错，生成第二查询语句。

进一步地，本申请实施例还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器被执行时，使得移动终端能够如上实施例中的基于人工智能的检索纠错方法。

进一步地，本申请实施例还提供一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种如上述实施例所示的基于人工智能的检索纠错方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的检索纠错方法，其特征在于，包括以下步骤：

利用所述纠错结果，对所述第一查询语句进行纠错，生成第二查询语句；

其中，所述确定所述第一查询语句中待纠错的第一分词，包括：

2.如权利要求1所述的方法，其特征在于，所述根据预设的纠错策略判断所述第一查询语句是否满足纠错条件，包括：

3.如权利要求1所述的方法，其特征在于，所述根据预设的纠错策略判断所述第一查询语句是否满足纠错条件之后，还包括：

若所述第一查询语句不满足纠错条件，则对与所述第一查询语句对应的纠错结果进行退场处理。

4.如权利要求1所述的方法，其特征在于，所述根据所述第二分词组中各第二分词的历史纠错信息及语言模型值，确定所述第二分词组中待纠错的第一分词，包括：

5.如权利要求1-4任一所述的方法，其特征在于，所述根据预设的候选召回策略，获取与所述第一分词对应的各第一候选结果，包括：

判断所述各准确率得分中是否有大于第二预设值的得分；

若有，则确定准确率得分最高的第二候选结果为纠错结果。

6.如权利要求5所述的方法，其特征在于，所述判断所述各准确率得分中是否有大于设定值的得分之后，还包括：

若否，则依次利用预设的候选列表中与所述第一分词对应的候选结果，构建第三查询语句，其中，所述候选列表中包括与所述第一分词形近或音近的所有候选词；

根据排序结果，确定纠错结果。

7.一种基于人工智能的检索纠错装置，其特征在于，包括：

判断模块，用于接收用户输入的第一查询语句，根据预设的纠错策略判断所述第一查询语句是否满足纠错条件；

第一确定模块，用于若所述第一查询语句满足纠错条件，则确定所述第一查询语句中待纠错的第一分词；

获取模块，用于根据预设的候选召回策略，获取与所述第一分词对应的各第一候选结果；

第二确定模块，用于根据所述各第一候选结果的质量特征值，确定与所述第一分词对应的纠错结果；

生成模块，用于利用所述纠错结果，对所述第一查询语句进行纠错，生成第二查询语句；

其中，所述第一确定模块，具体用于：

8.如权利要求7所述的装置，其特征在于，所述判断模块，具体用于：

9.如权利要求7所述的装置，其特征在于，还包括：

退场模块，用于若所述第一查询语句不满足纠错条件，则对与所述第一查询语句对应的纠错结果进行退场处理。

10.如权利要求7所述的装置，其特征在于，所述第一确定模块，具体用于：

11.如权利要求7-10任一所述的装置，其特征在于，所述获取模块，具体用于：

判断所述各准确率得分中是否有大于第二预设值的得分；

若有，则确定准确率得分最高的第二候选结果为纠错结果。

12.如权利要求11所述的装置，其特征在于，所述获取模块，还用于：

根据排序结果，确定纠错结果。