CN107301241A

CN107301241A - 一种视频搜索中的查询词纠错方法和装置

Info

Publication number: CN107301241A
Application number: CN201710533053.3A
Authority: CN
Inventors: 孙超博
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-10-27
Anticipated expiration: 2037-07-03
Also published as: CN107301241B

Abstract

本发明提供的视频搜索中的查询词纠错方法和装置，对查询词进行删字处理，得到删字后的字串集合；利用字串集合中的每个词以及查询词，在预先得到的纠错候选词词典中匹配纠错候选词；通过这样简单的策略覆盖率了典型错误模式，如增字、减字、错字和乱序等。提高了查询词的在线纠错的准确率。

Description

一种视频搜索中的查询词纠错方法和装置

技术领域

本发明涉及视频搜索技术领域，更具体地说，涉及一种视频搜索中的查询词纠错方法和装置。

背景技术

发现用户的错误输入，并纠正为符合用户真实意图的正确输入，是搜索引擎对查询词(query)进行预处理的一个关键步骤。搜索引擎需要针对特定的query，召回与之相关的文档(doc)。在实际应用中，query中包含的错误，如错字、增字、乱序等，可能使搜索引擎召回大量与用户真实意图不符的doc。而query被纠正，一方面用户的真实意图被还原，是搜索引擎智能性的体现方式，另一方面则是对检索和排序算法的重要补充，降低了检索的难度。统计表明，视频搜索中10％以上的query是错误的。

视频搜索，作为一种垂直领域的搜索，通常有两类方法来实现查询词纠错：离线方法和在线方法。离线方法依赖于纠错对词典，即“正确query-错误query”的映射关系。这些关系或是手工定义的，或来自于对用户日志的挖掘，虽然可以涵盖部分错误输入，但这类方法一方面需要大量的人工工作，另一方面这种离线方法的作用范围具有迟滞性：用户曾经输入过才可能被发现并放入纠错对词典中。但是由于用户输入的多样性，很多的错误模式，是完全无法预知的。而现有的在线方法对查询词的的纠错判别准则过于简单，发生误纠的概率较大。

发明内容

有鉴于此，本发明提出一种视频搜索中的查询词纠错方法和装置，欲实现准确的对查询词进行在线纠错的目的。

为了实现上述目的，现提出的方案如下：

一种视频搜索中的查询词纠错方法，包括：

接收用户输入的查询词；

对所述查询词进行删字处理，得到字串集合；

利用所述字串集合中的每个词以及所述查询词，在预先得到的纠错候选词词典中匹配得到纠错候选词；

从所述纠错候选词中选出最优纠错候选词作为所述查询词的纠错结果。

优选的，所述从所述纠错候选词中选出最优纠错候选词作为所述查询词的纠错结果具体包括：

利用预先建立的语言模型，对所述纠错候选词以及所述查询词进行特征提取；

利用预先建立的分类模型，针对匹配得到的每个所述纠错候选词，根据对所述纠错候选词以及所述查询词提取得到的特征，判断所述纠错候选词的合理性是否大于所述查询词的合理性；

从合理性大于所述查询词的纠错候选词中选择搜索次数最高的纠错候选词确定为最优纠错候选词，作为所述查询词的纠错结果。

优选的，所述纠错候选词词典的生成过程，包括：

接收用户输入的词语；

将所述词语作为纠错候选词；

对所述词语进行删字处理，得到删字后的字串集合，并建立所述词语与所述词语、对所述词语删字处理后的字串集合之间的对应关系。

优选的，提取的所述特征包括：对数似然在每个词上的平均值、对数自然在每个字上的平均值和/或对数似然在长度为三的窗口上的最小值。

优选的，所述对所述查询词进行删字处理，得到字串集合，具体为：

对所述查询词的每个字分别删除得到字串集合。

一种视频搜索中的查询词纠错装置，包括：

接收单元，用于接收用户输入的查询词；

处理单元，用于对所述查询词进行删字处理，得到字串集合；

匹配单元，用于利用所述字串集合中的每个词以及所述查询词，在预先得到的纠错候选词词典中匹配得到纠错候选词；

分析单元，用于从所述纠错候选词中选出最优纠错候选词作为所述查询词的纠错结果。

优选的，所述分析单元包括：

特征提取子单元，用于利用预先建立的语言模型，对所述纠错候选词以及所述查询词进行特征提取；

判断子单元，用于利用预先建立的分类模型，针对匹配得到的每个所述纠错候选词，根据对所述纠错候选词以及所述查询词提取得到的特征，判断所述纠错候选词的合理性是否大于所述查询词的合理性；

选择子单元，用于从合理性大于所述查询词的纠错候选词中选择搜索次数最高的纠错候选词确定为最优纠错候选词，作为所述查询词的纠错结果。

优选的，所述装置还包括：

词典生成单元，用于接收用户输入的词语，将所述词语作为纠错候选词，对所述词语进行删字处理，得到删字后的字串集合，并建立所述词语与所述词语、对所述词语删字处理后的字串集合之间的对应关系。

优选的，提取的所述特征包括：

对数似然在每个词上的平均值、对数自然在每个字上的平均值和/或对数似然在长度为三的窗口上的最小值。

优选的，所述处理单元，具体用于：

对所述查询词的每个字分别删除得到字串集合。

与现有技术相比，本发明的技术方案具有以下优点：

上述技术方案提供的视频搜索中的查询词纠错方法和装置，对查询词进行删字处理，得到删除字后的字串集合；利用字串集合中的每个词以及查询词，在预先得到的纠错候选词词典中匹配纠错候选词；通过这样简单的策略覆盖率了典型错误模式，如增字、减字、错字和乱序等。提高了查询词的在线纠错的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频搜索中的查询词纠错方法的流程图；

图2为本发明实施例提供的种从纠错候选词中选出最优纠错候选词作为查询词的纠错结果的方法的流程图；

图3为本发明实施例提供的一种纠错候选词词典的生成方法的流程图；

图4为本发明实施例提供的一种视频搜索中的查询词纠错装置的结构示意图；

图5为本发明实施例提供的一种分析单元的结构示意图；

图6为本发明实施例提供的另一种视频搜索中的查询词纠错装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供一种视频搜索中的查询词纠错方法，请参见图1，该方法包括：

步骤S11：接收用户输入的查询词；

步骤S12：对所述查询词进行删字处理，得到字串集合；

预先设定删字处理的规则，删字处理可以是对查询词的每个字分别删除得到字串集合，也可以对查询词的多个字分别删除得到字串集合，还可以对查询词的每个字分别删除以及多个字分别删除得到字串集合。

如用户输入的查询词(query)为“射貂英雄传”。对查询词的每个字分别删除得到字串集合为：删除查询词的第一个字得到“貂英雄传”；删除查询词的第二个字得到“射英雄传”；删除查询词的第三个字得到“射貂雄传”；删除查询词的第四个字得到“射貂英传”；删除查询词的第五个字得到“射貂英雄”；得到字串集合为“貂英雄传”、“射英雄传”、“射貂雄传”、“射貂英传”和“射貂英雄”。

对查询词的两个字分别删除得到字串集合可以为：删除查询词的第一个字和第二个字得到“英雄传”；删除查询词的第二个字和第三个字得到“射雄传”；删除查询词的第三个字和第四个字得到“射貂传”；删除查询词的第四个和第五个字得到“射貂英”；得到字串集合为“英雄传”、“射雄传”、“射貂传”和“射貂英”。

对查询词的每个字分别删除以及两个字分别删除得到的字串集合可以为：“貂英雄传”、“射英雄传”、“射貂雄传”、“射貂英传”、“射貂英雄”、“英雄传”、“射雄传”、“射貂传”和“射貂英”。

步骤S13：利用所述字串集合中的每个词以及所述查询词，在预先得到的纠错候选词词典中匹配得到纠错候选词；

纠错候选词词典包括正确的剧名和人名，以及与剧名对应的字串集合，与人名对应的字串集合。与剧名对应的字串集合为对剧名进行删字处理后得到，具体方法与对查询词的删字处理方法一致。与人名对应的字串集合为对人名进行删字处理后得到，具体方法也与对查询词的删字处理方法一致。不再赘述。正确的剧名和人名作为纠错候选词，利用对用户输入的查询词进行删字处理得到的字串集合以及用户输入的查询词，在纠错候选词词典汇总匹配得到纠错候选词。

例如，纠错候选词词典中纠错候选词“射雕英雄传”对应的字串集合为“雕英雄传”、“射英雄传”、“射雕雄传”、“射雕英传”和“射雕英雄”，用户输入查询词“射貂英雄传”后，利用查询词对应的字串集合中的“射英雄传”可以匹配到的纠错候选词是“射雕英雄传”；利用查询词以及字串集合中的其他词均匹配不到结果。如此就通过简单的策略覆盖了对剧名和人名的典型错误模式。策略的简单保证了在线算法运行时的效率。

步骤S14：从所述纠错候选词中选出最优纠错候选词作为所述查询词的纠错结果。

利用查询词以及其对应的字串集合匹配到纠错候选词可能是一个，也可能是多个。利用预先设定的规则对得到的每个纠错候选词进行分析，判断各个纠错候选词的合理性是否大于用户输入的查询词的合理性。并从合理性大于查询词的纠错候选词中选出搜索次数最高的纠错候选词，即最优纠错候选词，作为查询词的纠错结果，进行视频搜索。需要说明的是，若得到的每个纠错候选词的合理性均不大于用户输入的查询词的合理性，则说明用户输入的查询词不需要纠错，将以用户输入的查询词进行视频搜索。

本实施例提供的视频搜索中的一种查询词纠错方法，先对查询词进行删字处理，得到字后的字串集合；利用字串集合中的每个词以及查询词，在预先得到的纠错候选词词典中匹配得到纠错候选词；通过这样简单的策略覆盖率了典型错误模式，如增字、减字、错字和乱序等。增字情况如用户输入“块快乐大本营”，对该查询词进行删字处理得到的字串集合中的“快乐大本营”本身是正确的，可被纠错；减字情况如“快大本营”其本身是“快乐大本营”的减字错误，可被纠错；错字情况如上述“射貂英雄传”例子；乱序情况如用户输入“乐块大本营”，对该查询词进行删字处理得到的字串集合中的“乐大本营”是“快乐大本营”的减字错误，可以纠错。提高了查询词的在线纠错的准确性

本实施例提供一种从纠错候选词中选出最优纠错候选词作为查询词的纠错结果的方法，参见图2，该方法可以包括：

步骤S21：利用预先建立的语言模型，对匹配得到的纠错候选词以及所述查询词进行特征提取；

语言模型可以通过计算在上文条件下当前词的概率判断文本的合理性。设查询词中的第i个词为w_i，整句话的似然有：

具体的使用trigram模型估计语言模型概率，则查询词中第i个词的概率为：

优选的，本实施例选择语言模型相关的三个指标作为下一步分类的特征：对数似然在每个词上的平均值、对数似然在每个字上的平均值、以及对数似然在长度为3的窗口上的最小值。其中，对数似然在每个词上的平均值为整句的似然除以整句词数；对数似然在每个字上的平均值为整句的似然除以整句字数；对数似然在长度为三的窗口上的最小值为将每三个连续的词作为一个对象，分别求其语言模型似然，选出最小值。

需要说明的是，对数似然在每个词上的平均值，所说的每个词具体是指特征提取对象包含的每个词，词的性质具体的包括动词、名词和形容词。特征提取对象为查询词或纠错候选词。同理，对数似然在每个字上的平均值，所说的每个字具体是指特征提取对象包含的每个字，特征提取对象同样为查询词或纠错候选词。

语言模型的构建是在所有长视频标题和随机抽取的600万短视频标题上构建，通过统计所有三元词组、二元词组和词在语料中出现的次数完成。

步骤S22：利用预先建立的分类模型，针对匹配得到的每个所述纠错候选词，根据对所述纠错候选词以及所述查询词提取得到的特征，判断所述纠错候选词的合理性是否大于所述查询词的合理性；

优选的，分类模型可以是一些弱分类器的融合，一方面具有更好的可解释性，另一方面也可以增加人工干预。判断某个纠错候选词的合理性是否大于用户输入的查询词的合理性时，使用adaboost分类器对步骤S14提取出的该纠错候选词的特征和查询词的特征进行分析，分析该纠错候选词比用户输入的查询词好的程度，并进行计分，若得到的计分大于预设的计分阈值，则确定该纠错候选词的合理性大于用户输入的查询词的合理性。

步骤S23：从合理性大于所述查询词的纠错候选词中选择搜索次数最高的纠错候选词确定为最优纠错候选词，作为所述查询词的纠错结果。

如果合理性大于所述查询词的纠错候选词只有一个，则将该纠错候选词极为最优纠错候选词，作为查询词的纠错结果；如果合理性大于所述查询词的纠错候选词有多个，则选择搜索次数最高的作为纠错结果。如果匹配得到的所有纠错候选词的合理性均不大于查询词的合理性，则还使用用户输入的查询词进行后续视频搜索。

针对匹配得到每个纠错候选词，利用预先建立的分类模型结合对其以及查询词提取到的特征，判断其是否正确，进而选出最优纠错候选词作为纠错结果。实现了对纠错结果的合理性判断。

本实施例还提供一种纠错候选词词典的生成方法，参见图3，该方法可以包括：

步骤S31：接收用户输入的词语；

用户输入的词语可以是人名、也可以是剧名。剧名或人名都必须是完全正确的。

步骤S32：将所述词语作为纠错候选词；

将用户输入的人名或剧名作为纠错候选词。

步骤S33：对所述词语进行删字处理，得到删字后的字串集合，并建立所述词语与所述词语、对所述词语删字处理后的字串集合之间的对应关系；

预先设定删字处理的规则，删字处理可以是对剧名或人名的每个字分别删除得到字串集合，也可以对剧名或人名的多个字分别删除得到字串集合，还可以对剧名或人名的每个字分别删除以及多个字分别删除得到字串集合。对词语的删字处理与对查询词的删字处理一致。

对剧名“射雕英雄传”的每个字分别删除得到字串集合为：删除查询词的第一个字得到“雕英雄传”；删除剧名的第二个字得到“射英雄传”；删除剧名的第三个字得到“射雕雄传”；删除剧名的第四个字得到“射雕英传”；删除剧名的第五个字得到“射雕英雄”；对剧名“射雕英雄传”的每个字分别删除得到字串集合为：“雕英雄传”、“射英雄传”、“射雕雄传”、“射雕英传”和“射雕英雄”。建立的对应关系为{射雕英雄传：射雕英雄传、雕英雄传、射英雄传、射雕雄传、射雕英传、射雕英雄}。可以根据词语射雕英雄传、雕英雄传、射英雄传、射雕雄传、射雕英传或射雕英雄，匹配得到纠错候选词“射雕英雄传”。

对“射雕英雄传”的两个字分别删除得到字串集合可以为：删除剧名的第一个字和第二个字得到“英雄传”；删除剧名的第二个字和第三个字得到“射雄传”；删除剧名的第三个字和第四个字得到“射雕传”；删除剧名的第四个和第五个字得到“射雕英”；对射雕英雄传”的两个字分别删除得到字串集合为“英雄传”、“射雄传”、“射雕传”和“射雕英”。建立的对应关系为{射雕英雄传：射雕英雄传、英雄传、射雄传、射雕传、射雕英}。可以根据词语射雕英雄传、英雄传、射雄传、射雕传或射雕英，匹配得到纠错候选词“射雕英雄传”。

对“射雕英雄传”的每个字分别删除以及两个字分别删除得到的字串集合可以为：“雕英雄传”、“射英雄传”、“射雕雄传”、“射雕英传”、“射雕英雄”、“英雄传”、“射雄传”、“射雕传”和“射雕英”。建立的对应关系为{射雕英雄传：射雕英雄传、雕英雄传、射英雄传、射雕雄传、射雕英传、射雕英雄、英雄传、射雄传、射雕传、射雕英}。可以根据词语射雕英雄传、雕英雄传、射英雄传、射雕雄传、射雕英传、射雕英雄、英雄传、射雄传、射雕传或射雕英，匹配得到纠错候选词“射雕英雄传”。

本实施例上述过程介绍了针对某个词语建立对应关系的过程。容易理解的是，纠错候选词词典的生成过程包含对大量词语建立对应关系的过程，针对每个词语建立对应关系的过程一致。对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

实施例二

本实施例提供一种视频搜索中的查询词纠错装置，请参见图4，该装置包括：

接收单元11，用于接收用户输入的查询词；

处理单元12，用于对所述查询词进行删字处理，得到字串集合；

匹配单元13，用于利用所述字串集合中的每个词以及所述查询词，在预先得到的纠错候选词词典中匹配得到纠错候选词；

分析单元14，用于从所述纠错候选词中选出最优纠错候选词作为所述查询词的纠错结果。

利用查询词以及其对应的字串集合匹配到纠错候选词可能是一个，也可能是多个。利用预先设定的规则对得到的每个纠错候选词进行分析，判断各个纠错候选词的合理性是否大于用户输入的查询词的合理性。并从合理性大于查询词的纠错候选词中选出搜索次数最高的纠错候选词，即最优纠错候选词，作为查询词的纠错结果，进行视频搜索。

本实施例提供的视频搜索中的查询词纠错装置，处理单元12对查询词进行删字处理，得到删字后的字串集合；匹配单元13利用字串集合中的每个词以及查询词，在预先得到的纠错候选词词典中匹配纠错候选词；通过这样简单的策略覆盖率了典型错误模式，如增字、减字、错字和乱序等。增字情况如用户输入“块快乐大本营”，对该查询词进行删字处理得到的字串集合中的“快乐大本营”本身是正确的，可被纠错；减字情况如“快大本营”其本身是“快乐大本营”的减字错误，可被纠错；错字情况如上述“射貂英雄传”例子；乱序情况如用户输入“乐块大本营”，对该查询词进行删字处理得到的字串集合中的“乐大本营”是“快乐大本营”的减字错误，可以纠错。提高了查询词的在线纠错的准确性。

参见图5，所述分析单元14具体包括：

特征提取子单元141，用于利用预先建立的语言模型，对所述纠错候选词以及所述查询词进行特征提取；

判断子单元142，用于利用预先建立的分类模型，针对匹配得到的每个所述纠错候选词，根据对所述纠错候选词以及所述查询词提取得到的特征，判断所述纠错候选词的合理性是否大于所述查询词的合理性；

选择子单元143，用于从合理性大于所述查询词的纠错候选词中选择搜索次数最高的纠错候选词确定为最优纠错候选词，作为所述查询词的纠错结果。

优选的，提取的所述特征包括：

优选的，所述处理单元12，具体用于：对所述查询词的每个字分别删除得到字串集合。

实施例三

本实施例提供另一种视频搜索中的查询词纠错装置，请参见图6，该装置相对图4公开的装置还包括：

词典生成单元15，用于接收用户输入的词语，将所述词语作为纠错候选词，对所述词语进行删字处理，得到删字后的字串集合，并建立所述词语与所述词语、对所述词语删字处理后的字串集合之间的对应关系。

对于装置实施例而言，由于其基本相应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对本发明所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频搜索中的查询词纠错方法，其特征在于，包括：

接收用户输入的查询词；

对所述查询词进行删字处理，得到字串集合；

2.根据权利要求1所述的方法，其特征在于，所述从所述纠错候选词中选出最优纠错候选词作为所述查询词的纠错结果具体包括：

3.根据权利要求1所述的方法，其特征在于，所述纠错候选词词典的生成过程，包括：

接收用户输入的词语；

将所述词语作为纠错候选词；

4.根据权利要求2所述的方法，其特征在于，提取的所述特征包括：对数似然在每个词上的平均值、对数自然在每个字上的平均值和/或对数似然在长度为三的窗口上的最小值。

5.根据权利要求1～4任意一项所述的方法，其特征在于，所述对所述查询词进行删字处理，得到字串集合，具体为：

对所述查询词的每个字分别删除得到字串集合。

6.一种视频搜索中的查询词纠错装置，其特征在于，包括：

接收单元，用于接收用户输入的查询词；

7.根据权利要求6所述的装置，其特征在于，所述分析单元包括：

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

9.根据权利要求7所述的装置，其特征在于，提取的所述特征包括：

10.根据权利要求6～9任意一项所述的方法，其特征在于，所述处理单元，具体用于：

对所述查询词的每个字分别删除得到字串集合。