CN110188274A

CN110188274A - 搜索纠错方法及装置

Info

Publication number: CN110188274A
Application number: CN201910465164.4A
Authority: CN
Inventors: 邓哲宇
Original assignee: Word Of Mouth (beijing) Network Technology Co Ltd
Current assignee: Word Of Mouth (beijing) Network Technology Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-08-30
Anticipated expiration: 2039-05-30
Also published as: CN110188274B

Abstract

本发明公开了一种搜索纠错方法及装置。其中，方法包括：从预先获取的样本数据中提取出搜索关键字特征，以及提取出与搜索关键字特征对应的地理位置特征；将搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据；利用特征数据对构建的预设初始模型进行训练，以获得搜索纠错模型；接收输入的待纠错搜索信息，利用搜索纠错模型确定待纠错搜索信息的纠错结果。本方案通过将搜索关键字特征及对应的地理位置特征合并，并利用该合并后的特征数据来进行纠错模型的训练，从而使得训练获得的搜索纠错模型能够基于不同的地理位置，为用户提供差异化的纠错结果，使得纠错结果更能符合用户的实际搜索需求，提高了搜索纠错的准确度。

Description

搜索纠错方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种搜索纠错方法及装置。

背景技术

随着科技及社会的飞速发展，许多服务平台为提升用户体验，通常为用户提供有搜索功能。用户通过输入相应的搜索词，即可在服务平台中快速地获取搜索结果。

在许多情况下，用户输入的搜索词会存在相应的输入错误(如同音词错写)等等。因此，为保障搜索结果能够符合用户需求，一些服务平台在用户输入搜索词后，会采用相应的方法来对该搜索词进行纠错。

如申请公布号为CN108376129A的中国发明专利申请，通过利用已知纠错词典中的纠错对训练纠错模型，从而实现对搜索词的纠错。但是，上述搜索纠错方法是利用已知纠错词典中的信息来进行纠错模型的训练，该种训练方式获得的纠错模型针对于不同用户输入的搜索词的纠错结果并无差别，从而使得纠错结果无法满足用户的真实需求，降低搜索纠错准确率。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的搜索纠错方法及装置。

根据本发明的一个方面，提供了搜索纠错方法，包括：

从预先获取的样本数据中提取出搜索关键字特征，以及提取出与所述搜索关键字特征对应的地理位置特征；

将所述搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据；

利用所述特征数据对构建的预设初始模型进行训练，以获得搜索纠错模型；

接收输入的待纠错搜索信息，利用所述搜索纠错模型确定所述待纠错搜索信息的纠错结果。

可选的，所述从预先获取的样本数据中提取出搜索关键字特征进一步包括：从预先获取的样本数据中提取出搜索关键字的字特征。

可选的，所述从预先获取的样本数据中提取出搜索关键字特征进一步包括：从预先获取的样本数据中提取出搜索关键字的上下文特征。

可选的，所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括：

采用预设二元模型，从预先获取的样本数据中提取出搜索关键字的上下文特征。

可选的，若所述搜索关键字不存在上文数据；则所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括：将第一预设标识与所述搜索关键字的组合作为所述搜索关键字的上文特征；

若所述搜索关键字不存在下文数据；则所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括：将第二预设标识作为所述搜索关键字的下文特征。

可选的，所述将所述搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据进一步包括：

将所述搜索关键字特征对应的特征向量，和所述与该搜索关键字特征对应的地理位置特征对应的特征向量进行合并，以生成所述特征数据。

可选的，所述利用所述特征数据对构建的预设初始模型进行训练进一步包括：

针对于每个地理位置特征，确定与该地理位置特征相对应的特征数据的数量；

基于每个地理位置特征对应的特征数据的数量，对所述特征数据进行分组；

依次利用每个分组中的特征数据，分批次地对构建的预设初始模型进行训练。

可选的，所述每个分组中的特征数据对应于不同的地理位置特征；并且，每个分组中各个地理位置特征对应的特征数据的数量符合预设分布比例。

可选的，在所述从预先获取的样本数据中提取出搜索关键字特征之前，所述方法还包括：

获取在预设时间段内的搜索记录信息，基于所述搜索记录信息，获取所述样本数据。

可选的，所述基于所述搜索记录信息，获取所述样本数据进一步包括：

基于所述搜索记录信息，确定与所述搜索记录信息对应的高频搜索词；

对所述高频搜索词对应的搜索记录信息进行降采样，以获得所述样本数据。

可选的，所述方法还包括：为所述高频搜索词配置对应的权重值。

可选的，所述基于所述搜索记录信息，获取样本数据进一步包括：

基于所述搜索记录信息，构造错误-正确搜索纠错对；

根据构造的错误-正确搜索纠错对，生成样本数据。

可选的，所述预设初始模型基于seq2seq模型构建。

根据本发明的另一方面，提供了一种搜索纠错装置，包括：

特征提取模块，适于从预先获取的样本数据中提取出搜索关键字特征，以及提取出与所述搜索关键字特征对应的地理位置特征；

特征合并模块，适于将所述搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据；

训练模块，适于利用所述特征数据对构建的预设初始模型进行训练，以获得搜索纠错模型；

纠错模块，适于接收输入的待纠错搜索信息，利用所述搜索纠错模型确定所述待纠错搜索信息的纠错结果。

可选的，所述特征提取模块进一步适于：从预先获取的样本数据中提取出搜索关键字的字特征。

可选的，所述特征提取模块进一步适于：从预先获取的样本数据中提取出搜索关键字的上下文特征。

可选的，所述特征提取模块进一步适于：采用预设二元模型，从预先获取的样本数据中提取出搜索关键字的上下文特征。

可选的，若所述搜索关键字不存在上文数据；则所述特征提取模块进一步适于：将第一预设标识与所述搜索关键字的组合作为所述搜索关键字的上文特征；

若所述搜索关键字不存在下文数据；所述特征提取模块进一步适于：将第二预设标识作为所述搜索关键字的下文特征。

可选的，所述特征合并模块进一步适于：将所述搜索关键字特征对应的特征向量，和所述与该搜索关键字特征对应的地理位置特征对应的特征向量进行合并，以生成所述特征数据。

可选的，所述训练模块进一步包括：针对于每个地理位置特征，确定与该地理位置特征相对应的特征数据的数量；

可选的，所述装置还包括：样本构建模块，适于获取在预设时间段内的搜索记录信息，基于所述搜索记录信息，获取所述样本数据。

可选的，所述样本构建模块进一步适于：

可选的，所述装置还包括：权重值设定模块，适于为所述高频搜索词配置对应的权重值。

可选的，所述样本构建模块进一步适于：基于所述搜索记录信息，构造错误-正确搜索纠错对；根据构造的错误-正确搜索纠错对，生成样本数据。

可选的，所述预设初始模型基于seq2seq模型构建。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述搜索纠错方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述搜索纠错方法对应的操作。

根据本发明提供的搜索纠错方法及装置，首先从预先获取的样本数据中提取出搜索关键字特征，以及提取出与搜索关键字特征对应的地理位置特征；并将搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据；利用特征数据对构建的预设初始模型进行训练，以获得搜索纠错模型；最终接收输入的待纠错搜索信息，利用搜索纠错模型确定待纠错搜索信息的纠错结果。本方案中，通过将搜索关键字特征及与对应的地理位置特征合并，并利用该合并后的特征数据来进行纠错模型的训练，从而使得训练获得的搜索纠错模型能够基于不同的地理位置，为用户提供差异化的纠错结果，使得纠错结果更能符合用户的实际需求，提高了搜索纠错的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例提供的一种搜索纠错方法的流程示意图；

图2示出了根据本发明另一个实施例提供的一种搜索纠错方法的流程示意图；

图3示出了根据本发明一个实施例提供的一种搜索纠错装置的功能结构示意图；

图4示出了根据本发明一个实施例提供的一种计算设备的结构示意图；

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例提供的一种搜索纠错方法的流程示意图。该搜索纠错方法可以应用于提供有搜索功能的服务平台中，如本地生活服务类平台等等，尤其适用于O2O场景中。

如图1所示，该方法包括：

步骤S110，从预先获取的样本数据中提取出搜索关键字特征，以及提取出与该搜索关键字特征对应的地理位置特征。

本实施例为获得搜索纠错模型，首先构建有样本数据。在该样本数据中，包含了搜索词信息，以及与每个搜索词所对应的地理位置信息。其中，该搜索词常常具有地域相关性，如店铺名称、景点名称或景点地图、地址信息等等。此外，本实施例对样本数据的具体选取方式不做限定。例如，该样本数据可以根据本实施例所应用的服务平台中的历史搜索记录信息来获得。

进一步地，基于预先获取的样本数据，提取搜索关键字特征。其中，该搜索关键字特征具体可以从样本数据中的搜索词信息中获取。例如，若某条搜索词信息为“新白鹿”，则可从该搜索词中提取出搜索关键字特征“新”。本实施例对具体的搜索关键字提取方式不做限定，例如可通过相应的NER(Named Entity Recognition，命名实体识别)，提取相应的搜索关键字特征。

并且，从样本数据中提取出的搜索关键字特征为多个，则可以针对于该多个搜索关键字特征中的任意一个搜索关键字特征，从预先获取的样本数据中提取与该搜索关键字特征对应的地理位置特征。例如，从搜索词信息“新白鹿”中提取出搜索关键字特征“新”，并进一步地确定与该搜索关键字特征“新”对应的地理位置特征为“杭州”。其中，本实施例中地理位置特征具体可以为特定维度的地理位置特征，如城市维度、国家维度、区县维度等等。本领域技术人员可根据实际的需求自行设置相应的地理位置维度。并且，对地理位置特征的提取仍可采用NER方式。

步骤S120，将搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据。

待提取出搜索关键字特征，以及与该搜索关键字特征对应的地理位置特征之后，可针对于任一搜索关键字特征，将该搜索关键字特征与该搜索关键字特征对应的地理位置特征进行合并，从而形成与该搜索关键字特征对应的一条特征数据。其中，本实施例对具体的合并方式不做限定，例如可通过字段拼接的方式将搜索关键字特征与对应的地理位置特征进行合并。

步骤S130，利用特征数据对构建的预设初始模型进行训练，以获得搜索纠错模型。

本实施预先构建有一预设初始模型，该预设初始模型可以基于至少一种机器学习算法而构建，本实施例对具体的预设初始模型的构建方式不做限定。在本步骤中，利用步骤S120获得的特征数据对该预设初始模型进行训练，通过相应的机器学习模型训练方法，来获得搜索纠错模型。

步骤S140，接收输入的待纠错搜索信息，利用搜索纠错模型确定待纠错搜索信息的纠错结果。

待搜索纠错模型生成之后，可利用该搜索纠错模型来对用户后续的搜索行为进行搜索纠错。具体地，在利用搜索纠错模型确定待纠错搜索信息的纠错结果过程中，可获取用户当前的地理位置信息，从而结合用户的地理位置信息，以及用户输入的待纠错搜索信息，利用搜索纠错模型确定待纠错搜索信息的纠错结果。其中，该待纠错搜索信息可以为用户在服务平台提供的搜索输入框中输入的搜索词信息。

由于本实施例中利用搜索关键字特征与对应的地理位置特征组成的特征数据来进行模型训练，从而最终获得的搜索纠错模型可学习待纠错搜索信息的区域特性，因此可以针对于待纠错搜索信息的不同的区域特性，输出相应的纠错结果。譬如，店铺“新白鹿”是城市“杭州”特有的餐厅名称，而店铺“新一鹿”为城市“上海”特有的餐厅名称。当确定用户当前的地理位置信息隶属于城市“杭州”时，用户输入的待纠错搜索信息为“新黑鹿”，则通过本实施例中的搜索纠错模型，可反馈与该待纠错搜索信息“新黑鹿”对应的纠错结果为“新白鹿”；而当确定用户当前的地理位置信息隶属于城市“上海”时，则通过本实施例中的搜索纠错模型，可反馈与该待纠错搜索信息“新黑鹿”对应的纠错结果为“新一鹿”。从而针对于待纠错搜索信息的区域特性，为该待纠错搜索信息匹配对应的纠错结果，即使待纠错搜索信息相同，当其对应的地理位置不同时，本实施例所提供的纠错结果也可能存在不同。

由此可见，本实施例是从样本数据中进行特征提取，以提取出具有地理位置关联性的搜索关键字特征，及对应的地理位置特征。并针对于任一搜索关键字特征，将该搜索关键字特征及对应的地理位置特征合并形成特征数据。进而利用该特征数据进行模型训练来获得搜索纠错模型。由此可看出，本实施例训练获得的搜索纠错模型能够学习搜索信息的区域性特征，从而能够基于不同的地理位置，为用户提供差异化的纠错结果，使得纠错结果更能符合用户的实际需求，提高了搜索纠错的准确度。

图2示出了根据本发明另一个实施例提供的一种搜索纠错方法的流程示意图。其中，本实施例所提供的搜索纠错方法是针对于图1所示实施例的进一步优化。如图2所示，该方法包括：

步骤S210，构建样本数据。

为提升后续训练获得的搜索纠错模型的搜索纠错精度，本步骤对样本数据的构建进行了优化：

首先，本实施例中先确定构建样本数据所依赖的源数据，通过对大量数据的分析，最终将在预设时间段内的搜索记录信息作为样本数据所依赖的源数据。所以，本实施例首先获取在预设时间段内的搜索记录信息。其中，在预设时间段内的搜索记录信息记录了服务平台中的大量用户点击搜索过的搜索词，及搜索词对应的地理位置信息。由于该搜索记录信息中的搜索词是用户点击搜索过的，从而在一定程度上保证了该搜索词符合用户的搜索需求，进而为样本数据的精准构建提供基础。具体地，该搜索词常常具有地域相关性，如店铺名称、景点名称或景点地图、地址信息等等。因此，本实施例构建样本数据所依赖的源数据是指包含地域相关性搜索词的搜索记录信息，如包含店铺名称、景点名称等搜索词的搜索记录信息。

进一步地，基于搜索记录信息，获取样本数据。在具体的实施过程中，可基于获取的搜索记录信息，构造错误-正确搜索纠错对，例如，先根据搜索记录信息构建正确搜索信息，并通过对该搜索记录信息的任一处的修改(如采用随机算法修改)，生成错误搜索信息，该正确搜索信息及该错误搜索信息即可形成一对错误-正确搜索纠错对，进而根据构造的错误-正确搜索纠错对来作为样本数据。

在一种可选的实施方式中，由于在现有技术中，搜索记录信息通常具有分布不均的问题。例如，服务平台中用户对某高频搜索词的搜索次数较高，从而导致关于该热门搜索词的搜索记录信息较多。若直接根据搜索记录信息构建样本数据，则会导致样本数据中关于高频搜索词的数据较多，从而导致后续的训练模型无法准确地学习到低频词汇的语言特性。为解决该技术问题，本步骤在构建错误-正确搜索纠错对之前，对获取到的搜索记录信息进行数据清理，以消除搜索记录信息中的高频-低频搜索信息分布不均的问题。具体的数据清理过程为：基于获取到的搜索记录信息，先确定与搜索记录信息对应的高频搜索词；并对高频搜索词对应的搜索记录信息进行降采样，以获得样本数据。进一步可选的，为体现高频-低频搜索信息分布情况，可在数据清理之后，为高频搜索词配置对应的权重值，以体现其分布特性。

步骤S220，从样本数据中提取出搜索关键字的字特征及该搜索关键字的上下文特征。

待样本数据构建完成之后，从该样本数据中获取搜索关键字特征。其中，该搜索关键字特征可以为搜索关键字的字特征。从而，可采用相应的提取方法(如Word2vec汉字特征提取方法)，从预先获取的样本数据中提取出搜索关键字的字特征。

进一步地，为了提升后续训练获得的搜索纠错模型的搜索纠错精度，本实施例获取的搜索关键字特征中进一步包含有搜索关键字的上下文特征。则本步骤可进一步地从预先获取的样本数据中提取出搜索关键字的上下文特征。其中，本实施例对搜索关键字的上下文特征的提取方式不做限定，例如，可以采用预设二元模型(如bigram模型)，从预先获取的样本数据中提取出搜索关键字的上下文特征。搜索关键字的上下文特征包括搜索关键字的上文特征及搜索关键字的下文特征。该搜索关键字的上文特征具体为，搜索关键字的前一字符与该搜索关键字的组合；而该搜索关键字的下文特征具体为搜索关键字及该搜索关键字的后一字符的组合。若搜索关键字不存在上文数据，则可将第一预设标识与搜索关键字的组合作为搜索关键字的上文特征，其中，第一预设标识可以为“^”；若搜索关键字不存在下文数据，则将第二预设标识作为搜索关键字的下文特征，该第二预设标识可以为默认的二元标识等等。

在实际的实施过程中，搜索关键字的字特征及该搜索关键字的上下文特征可分别通过相应的模型来获取。从而在获得各个搜索关键字的上下文特征之后，通过与获得的各个搜索关键字的字特征进行匹配，来确定搜索关键字的字特征与搜索关键字的上下文特征的对应关系。

步骤S230，从样本数据中提取出与搜索关键字特征对应的地理位置特征。

本步骤中主要功能为获取搜索关键字对应的地理位置特性。在具体的实施过程中，可采用相应的提取方法(如NER算法)来从样本数据中提取出与搜索关键字特征对应的地理位置特征。本实施例对具体的提取方式不做限定，例如可通过NER算法来提取地理位置特征。

步骤S240，将搜索关键字的字特征、上下文特征及与该搜索关键字对应的地理位置特征合并形成特征数据。

待获取了搜索关键字的字特征、上下文特征及与该搜索关键字对应的地理位置特征之后，可针对于每个搜索关键字，将该搜索关键字的字特征、上下文特征及与该搜索关键字对应的地理位置特征进行合并。本实施例对具体的合并方式不做限定，例如可分别获取搜索关键字的字特征、上下文特征对应的特征向量(即搜索关键字特征对应的特征向量)，和与该搜索关键字特征对应的地理位置特征对应的特征向量(地理位置特征对应的特征向量可通过随机算法生成)进行合并，以生成特征数据。该合并方式具体可以为字符连接。

举例来说，店铺“新白鹿”是城市“杭州”特有的餐厅名称，而城市“厦门”未包含有该店铺，则城市“杭州”对应的搜索关键字“新”字对应的特征数据为：“新”向量(搜索关键字的字特征向量)+“杭州”城市向量(搜索关键字的地理位置特征向量)+“^新”bigram向量(搜索关键字的上文特征向量)+“新白”bigram向量(搜索关键字的下文特征向量)；而城市“厦门”中的搜索关键字“新”字对应的特征数据为：“新”向量(搜索关键字的字特征向量)+“厦门”城市向量(搜索关键字的地理位置特征向量)+“^新”bigram向量(搜索关键字的上文特征向量)+默认bigram向量(搜索关键字的下文特征向量，因为厦门没有“新白鹿”，从而无法获得“新白”bigram向量)。

步骤S250，利用特征数据对构建的预设初始模型进行训练，以获得搜索纠错模型。

本实施例中的预设初始模型基于seq2seq(Sequence to Sequence)模型构建，seq2seq该技术突破了传统的固定大小输入问题框架。通过步骤S240生成的特征数据的训练，可使得原本不具备区域特征识别的seq2seq模型能够基于搜索词的区域特性，输入相匹配的结果，进而获得搜索纠错模型。本实施例对具体的模型训练方法不做限定，例如可采用损失函数算法等进行预设初始模型的训练。

在一种可选的实施方式中，由于不同的地理位置特征所对应的特征数据的数量分布不均匀。例如，一线城市(如北京、上海等)所对应的特征数据量远大于许多三线城市对应的特征数据量。因此，为避免因不同的地理位置特征所对应的特征数据的数量分布不均匀而带来的，预设初始模型无法准确学习到某些对应的特征数据量少的城市的特征数据的语言特性，本步骤在对预设初始模型训练过程中，针对于每个地理位置特征，确定与该地理位置特征相对应的特征数据的数量；基于每个地理位置特征对应的特征数据的数量，对特征数据进行分组；依次利用每个分组中的特征数据，分批次地对构建的预设初始模型进行训练。其中，每个分组中的特征数据对应于不同的地理位置特征；并且，每个分组中各个地理位置特征对应的特征数据的数量符合预设分布比例。例如，每个分组中均包含有一线城市对应的特征数据，及非一线成熟对应的特征数据，并且一线城市对应的特征数据与非一线城市对应的特征数据的数量之比符合预设比例(如2:1)等等。通过该分批次的训练方式，可以大幅提升搜索纠错模型的搜索纠错精度。

步骤S260，接收输入的待纠错搜索信息，利用搜索纠错模型确定待纠错搜索信息的纠错结果。

待获得搜索纠错模型后，可对用户输入的待纠错搜索信息进行搜索纠错处理，由于本实施例中利用搜索关键字特征与对应的地理位置特征组成的特征数据来进行模型训练，从而最终获得的搜索纠错模型可学习待纠错搜索信息的区域特性，因此针对于待纠错搜索信息的不同的区域特性，输出相应的纠错结果。

由此可见，本实施例是利用搜索关键字特征及对应的地理位置特征的结合来作为特征数据进行机器学习模型的训练，从而使得搜索纠错模型能够基于不同的地理位置，为用户提供差异化的纠错结果，使得纠错结果更能符合用户的实际需求，提高了搜索纠错的准确度；并且，本实施例中搜索关键字特征不仅含有搜索关键字的字特征，还包含有搜索关键字的上下文特征，从而使得训练出的搜索纠错模型具有更高的搜索纠错精度；进一步，本实施例在样本构造过程中，通过对高频词汇的降采样处理，可以解决因搜索记录信息分布不均而带来的后续的训练模型无法准确地学习到低频词汇的问题，从而进一步地提升搜索纠错模型的搜索纠错精度；此外，本实施例对机器学习的训练过程也进行了相应的优化，具体是基于地理位置特性对特征数据进行分组，并分批次地进行模型的训练，从而避免因不同的地理位置特征所对应的特征数据的数量分布不均匀而带来的，预设初始模型无法准确学习到某些对应的特征数据量少的城市的特征数据的语言特性的弊端，因此又进一步地提升了搜索纠错模型的精度。

图3示出了根据本发明一个实施例提供的一种搜索纠错装置的功能结构示意图。如图3所示，该装置包括：特征提取模块31、特征合并模块32、训练模块33及纠错模块34。

特征提取模块31，适于从预先获取的样本数据中提取出搜索关键字特征，以及提取出与所述搜索关键字特征对应的地理位置特征；

特征合并模块32，适于将所述搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据；

训练模块33，适于利用所述特征数据对构建的预设初始模型进行训练，以获得搜索纠错模型；

纠错模块34，适于接收输入的待纠错搜索信息，利用所述搜索纠错模型确定所述待纠错搜索信息的纠错结果。

可选的，特征提取模块31进一步适于：从预先获取的样本数据中提取出搜索关键字的字特征。

可选的，特征提取模块31进一步适于：从预先获取的样本数据中提取出搜索关键字的上下文特征。

可选的，特征提取模块31进一步适于：采用预设二元模型，从预先获取的样本数据中提取出搜索关键字的上下文特征。

可选的，特征合并模块32进一步适于：将所述搜索关键字特征对应的特征向量，和所述与该搜索关键字特征对应的地理位置特征对应的特征向量进行合并，以生成所述特征数据。

可选的，训练模块33进一步包括：针对于每个地理位置特征，确定与该地理位置特征相对应的特征数据的数量；

可选的，该装置还包括：样本构建模块(图中未示出)，适于获取在预设时间段内的搜索记录信息，基于所述搜索记录信息，获取所述样本数据。

可选的，样本构建模块进一步适于：基于所述搜索记录信息，确定与所述搜索记录信息对应的高频搜索词；

可选的，该装置还包括：权重值设定模块(图中未示出)，适于为所述高频搜索词配置对应的权重值。

可选的，样本构建模块进一步适于：基于所述搜索记录信息，构造错误-正确搜索纠错对；

根据构造的错误-正确搜索纠错对，生成样本数据。

可选的，所述预设初始模型基于seq2seq模型构建。

其中，本实施例所述装置中的各个模块的具体实施过程可参照图1和/或图2所示实施例中相应部分的描述，本实施例在此不做赘述。

根据本发明一个实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的搜索纠错方法。

图4示出了根据本发明一个实施例提供的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图4所示，该计算设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述搜索纠错方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作：

在一种可选的实施方式中，程序410具体可以用于使得处理器402执行以下操作：

从预先获取的样本数据中提取出搜索关键字的字特征。

从预先获取的样本数据中提取出搜索关键字的上下文特征。

若所述搜索关键字不存在上文数据；则将第一预设标识与所述搜索关键字的组合作为所述搜索关键字的上文特征；

若所述搜索关键字不存在下文数据；则将第二预设标识作为所述搜索关键字的下文特征。

在一种可选的实施方式中，所述每个分组中的特征数据对应于不同的地理位置特征；并且，每个分组中各个地理位置特征对应的特征数据的数量符合预设分布比例。

在所述从预先获取的样本数据中提取出搜索关键字特征之前，获取在预设时间段内的搜索记录信息，基于所述搜索记录信息，获取所述样本数据。

为所述高频搜索词配置对应的权重值。

基于所述搜索记录信息，构造错误-正确搜索纠错对；

根据构造的错误-正确搜索纠错对，生成样本数据。

在一种可选的实施方式中，所述预设初始模型基于seq2seq模型构建。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明搜索纠错装置实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种搜索纠错方法，包括：

2.根据权利要求1所述的方法，其中，所述从预先获取的样本数据中提取出搜索关键字特征进一步包括：从预先获取的样本数据中提取出搜索关键字的字特征。

3.根据权利要求2所述的方法，其中，所述从预先获取的样本数据中提取出搜索关键字特征进一步包括：从预先获取的样本数据中提取出搜索关键字的上下文特征。

4.根据权利要求3所述的方法，其中，所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括：

5.根据权利要求3或4所述的方法，其中，若所述搜索关键字不存在上文数据；则所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括：将第一预设标识与所述搜索关键字的组合作为所述搜索关键字的上文特征；

6.根据权利要求1-5中任一项所述的方法，其中，所述将所述搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据进一步包括：

7.根据权利要求1-6中任一项所述的方法，其中，所述利用所述特征数据对构建的预设初始模型进行训练进一步包括：

8.一种搜索纠错装置，包括：

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的搜索纠错方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的搜索纠错方法对应的操作。