CN111831685A

CN111831685A - 一种查询语句的处理方法、训练模型的方法、装置及设备

Info

Publication number: CN111831685A
Application number: CN201910873941.9A
Authority: CN
Inventors: 胡娟; 陈欢
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2020-10-27

Abstract

本申请提供了一种查询语句的处理方法、训练模型的方法、装置及设备，其中，该处理方法包括：获取用户输入的查询语句；通过预先训练好的二分类模型，确定输入的查询语句是否需要改写，其中，预先训练好的二分类模型是根据历史改写记录得到的，历史改写记录包括多个历史查询语句以及每个历史查询语句的改写标识信息。本申请实施例通过预先训练好的二分类模型来确定用户输入的查询语句是否需要改写，并且该二分类模型是基于包括多个历史查询语句以及每个历史查询语句的改写标识信息的历史改写记录得到的，从而训练后的二分类模型能够精准地确定用户输入的查询语句是否需要改写。

Description

一种查询语句的处理方法、训练模型的方法、装置及设备

技术领域

本申请涉及检索技术领域，具体而言，涉及一种查询语句的处理方法、训练模型的方法、装置及设备。

背景技术

在检索的过程中，通过用户输入的查询语句Query去数据库里搜索与查询语句对应的目标文档。如果用户输入的查询语句与数据库中的目标文档表述不一致，则需要对查询语句进行改写。例如，用户输入的查询语句是错误的，则需要把用户输入的查询语句改写成对的，从而提供符合用户需求的查询结果等。

但是，在上述查询改写的过程中，可能会出现用户输入的查询语句是不需要改写的，但是实际上改写了，或者还可能会出现查询语句过度改写等情况，因此，现有的方法中至少存在着确定对用户输入的查询语句是否改写的精准度比较差的问题。

发明内容

有鉴于此，本申请的目的在于提供一种查询语句的处理方法、训练模型的方法、装置及设备，能够达到精确确定对用户输入的查询语句是否改写的效果。

本申请的技术方案是这样实现的：

根据本申请的一个方面，提供了一种查询语句的处理方法，该处理方法包括：获取用户输入的查询语句；通过预先训练好的二分类模型，确定输入的查询语句是否需要改写，其中，预先训练好的二分类模型是根据历史改写记录得到的，历史改写记录包括多个历史查询语句以及每个历史查询语句的改写标识信息。

在上述实现过程中，本申请实施例通过预先训练好的二分类模型来确定用户输入的查询语句是否需要改写，并且该二分类模型是基于包括多个历史查询语句以及每个历史查询语句的改写标识信息的历史改写记录得到的，从而训练后的二分类模型能够精准地确定用户输入的查询语句是否需要改写。

可选地，处理方法还包括：获取历史改写记录；将历史改写记录作为样本训练得到预先训练好的二分类模型。

在上述实现过程中，本申请实施例通过预先训练二分类模型，从而可直接确定用户输入的查询语句进行是否改写，无需在每次确定用户输入的查询语句进行是否改写的过程前都建立新的模型。

可选地，获取历史改写记录，包括：获取用户的点击日志，其中，点击日志记录有多个历史查询语句以及每个历史查询语句对应的被点击的搜索结果；根据被点击的搜索结果，获取每个历史查询语句的改写标识信息。

在上述实现过程中，本申请实施例通过精确记录有多个用户的历史查询语句和与每个历史查询语句对应的被点击的搜索结果的点击日志来确定改写标识信息，从而能够快速且精准地确定改写标识信息。

可选地，将历史改写记录作为样本训练得到预先训练好的二分类模型，包括：将历史改写记录中的历史查询语句输入到建立的二分类模型中，以获取初始改写结果；根据初始改写结果与改写标识信息的差值调整建立的二分类模型中的参数，以得到预先训练好的二分类模型。

在上述实现过程中，本申请实施例通过历史查询语句作为输入对建立的二分类模型进行训练，从而通过历史查询语句来精准地预测后续用户输入的查询语句是否需要改写，以避免通过搜索结果作为输入训练得到的模型造成的问题。

可选地，预先训练好的二分类模型为文本分类器。

在上述实现过程中，本申请实施例通过文本分类器能够快速地确定用户输入的查询语句是否需要改写。

根据本申请的另一方面，提供了一种训练模型的方法，该方法包括：获取历史改写记录，其中，历史改写记录包括多个历史查询语句以及每个历史查询语句的改写标识信息；将历史改写记录作为样本训练得到训练后的二分类模型，其中，训练后的二分类模型用于确定用户输入的查询语句是否需要改写。

可选地，将历史改写记录作为样本训练得到训练后的二分类模型，包括：将历史改写记录中的历史查询语句输入到建立的二分类模型中，以获取初始改写结果；根据初始改写结果与改写标识信息的差值调整建立的二分类模型中的参数，以得到训练后的二分类模型。

可选地，训练后的二分类模型为文本分类器。

根据本申请的另一方面，提供了一种查询语句的处理装置，该处理装置包括：第一获取模块，用于获取用户输入的查询语句；确定模块，用于通过预先训练好的二分类模型，确定输入的查询语句是否需要改写，其中，预先训练好的二分类模型是根据历史改写记录得到的，历史改写记录包括多个历史查询语句以及每个历史查询语句的改写标识信息。

可选地，处理装置还包括：第二获取模块，用于获取历史改写记录；训练模块，用于将历史改写记录作为样本训练得到预先训练好的二分类模型。

可选地，第二获取模块包括：第一获取子模块，用于获取用户的点击日志，其中，点击日志记录有多个历史查询语句以及每个历史查询语句对应的被点击的搜索结果；第二获取子模块，用于根据被点击的搜索结果，获取每个历史查询语句的改写标识信息。

可选地，训练模块包括：输入模块，用于将历史改写记录中的历史查询语句输入到建立的二分类模型中，以获取初始改写结果；调整模块，用于根据初始改写结果与改写标识信息的差值调整建立的二分类模型中的参数，以得到预先训练好的二分类模型。

可选地，预先训练好的二分类模型为文本分类器。

根据本申请的另一方面，提供了一种训练模型的装置，该装置包括：获取模块，用于获取历史改写记录，其中，历史改写记录包括多个历史查询语句以及每个历史查询语句的改写标识信息；训练模块，用于将历史改写记录作为样本训练得到训练后的二分类模型，其中，训练后的二分类模型用于确定用户输入的查询语句是否需要改写。

可选地，获取模块包括：第一获取子模块，用于获取用户的点击日志，其中，点击日志记录有多个历史查询语句以及每个历史查询语句对应的被点击的搜索结果；第二获取子模块，用于根据被点击的搜索结果，获取每个历史查询语句的改写标识信息。

可选地，训练模块包括：输入模块，用于将历史改写记录中的历史查询语句输入到建立的二分类模型中，以获取初始改写结果；调整模块，用于根据初始改写结果与改写标识信息的差值调整建立的二分类模型中的参数，以得到训练后的二分类模型。

可选地，训练后的二分类模型为文本分类器。

根据本申请的另一方面，提供一种电子设备，可以包括存储介质和与存储介质通信的处理器。存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，以执行查询语句的处理方法的步骤。

根据本申请的另一方面，提供一种计算机介质，该计算机介质上存储有计算机程序，该计算机程序被处理器运行时执行查询语句的处理方法的任一可选的实现方式所述的方法。

根据本申请的另一方面，提供一种电子设备，可以包括存储介质和与存储介质通信的处理器。存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，以执行训练模型的方法的步骤。

根据本申请的另一方面，提供一种计算机介质，该计算机介质上存储有计算机程序，该计算机程序被处理器运行时执行训练模型的方法的步骤。的任一可选的实现方式所述的方法。

为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种电子设备的示例性硬件和软件组件的架构示意图；

图2示出了本申请实施例提供的一种查询语句的处理方法的流程图；

图3示出了本申请实施例提供的一种查询语句的检索方法的流程图；

图4示出了本申请实施例提供的一种训练模型的方法的流程图；

图5示出了本申请实施例提供的一种查询语句的处理装置的结构示意图；

图6示出了本申请实施例提供的一种训练模型的装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“检索系统”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕检索系统进行描述，但是应该理解，这仅是一个示例性实施例。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

目前，在信息检索的过程中，用户输入查询语句，后台通过查询语句去数据库里搜索与查询语句对应的目标文档。其中，不同的系统对应的数据库是不一样的。例如，在系统为地图信息系统的情况下，数据库为POI(Point of Interest，兴趣点)库，该兴趣点库内记录有预设地区的兴趣点的信息，用户通过输入查询语句去兴趣点库里搜索用户想去的目的地，目的地就是兴趣点。其中，一个兴趣点可以是一栋房子、一个商铺、一个邮筒、一个公交站、一个商场、一个公司、一个景点等，且每个兴趣点可包括地址、名称和经纬度等信息，也就是说，兴趣点是指基于位置服务的最核心数据，在电子地图上运用场景广泛。

此外，在数据库中的目标文档和用户输入的查询语句表述不一样的情况下，需要对用户输入的查询语句进行改写。其中，查询语句的改写包括：当用户输入的查询语句输入错误的情况下，则需要把用户输入的查询语句改写成对的。

例如，在用户输入的查询语句为“肯德鸡”的情况下，通过纠错改写模型将用户输入的查询语句修改成“肯德基”。

查询语句的改写还包括：当用户输入的查询语句是同义的，则需要把用户输入的查询语句改写成对应的同义的词。

例如，在用户输入的查询语句为“BJ北京”的情况下，由于“BJ”为“北京”的缩写，其实质是表示一个意思，则通过同义改写模型将用户输入的查询语句修改成“北京”。

查询语句的改写还包括：当用户输入的查询语句输入较多时，则需要把用户输入的查询语句中的部分词省略掉。

例如，在用户输入的查询语句为“目的地成都”的情况下，通过省略改写模型将用书输入的查询语句修改成“成都”。

此外，除了上述三种查询语句的改写，查询语句的改写还包括其他种类的改写，在此不再一一例举。

现有的方法一般是根据兴趣点语料库统计的语言模型，计算用户输入的查询语句是否需要改写的分值，最后，根据用户输入的查询语句最终的分值来确定是否改写。

例如，用户输入的一个查询语句是“北京西站”的话，这里需要把“北京西站”拆分成“北京”和“西站”两个词，后续查询“北京”的概率和在“北京”的条件下“西站”的概率。另外，还需要在离线的环境下，通过兴趣点语料库中的一个训练语料去计算“北京”在这个训练语料中出现的概率，以及通过这个训练语料统计在“北京”的条件下“西站”的概率，其中，一个训练语料可包括多个数据。然后，在线上应用的时候，通过线下训练好的训练语料去确定“北京”的概率和在“北京”的条件下“西站”的概率，然后相乘，最终确定“北京西站”的改写的分值，从而通过最终的分值来确定是否改写。也就是说，这里可把线下训练好的训练语料看作词典文件，该词典文件记录有各个词语的概率，以及各个词语在相关词语条件下的概率。在确定用户输入的查询语句是否需要改写的过程中，通过该词典文件把需要的查询语句中的词语的概率取出来，然后做连乘，最终确定出用户输入的查询语句是否需要改写的分值，通过分值来确定查询语句是否需要改写。

但是，上述现有的方案至少存在如下缺陷：1、为了满足使用的需求，需要大量统计每个词语的概率、以及每个词语在至少两个词语之间的条件概率，从而统计出来的词典文件就很大，然后线上使用的话性能就很差，耗时也比较长；2、上述词典文件是基于目标文档建立的，但是目标文档的表达和查询语句是不一样的，从而使得词典文件在使用过程中会引起一些问题，如，对于查询语句是否改写的分值的阈值不好确定；3、在使用词典文件确定查询语句是否改写的分值的过程中，除了需要知道查询语句，还需要了解查询语句的一些特征，比如，查询语句是中文还是英文，查询语句包含多少个词语等等，从而使得上述确定过程也比较繁琐。

因此，本申请实施例通过预先训练好的二分类模型来确定用户输入的查询语句是否需要改写，从而相比于现有的通过传统的词典文件来确定查询语句是否需要改写的方案来说，本申请的方案既能够剔除大规模的词典文件，还能够大大提升预测性能，以及最终训练好二分类模型能够反映查询语句能够改写或者不改写的特性，从而巧妙的运用一个二分类模型既能够体现现有的语言模型的特性，又能够获取查询语句是不是需要改写这样一个二分类的功能，同时，它也不需要说去累加很多查询语句的一些特征，进而能够快速地确定出用户输入的查询语句是否需要改写。

请参照图1，图1为本申请实施例提供的一种电子设备100的示例性硬件和软件组件的示意图。例如，处理器120可以用于电子设备100上，并且用于执行本申请中的功能。示例性地，上述的处理器120可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，本申请实施例并不局限于此。

电子设备100可以是指用户终端，或者指服务器，或者还可以是通用计算机或特殊用途的计算机，其都可以用于实现本申请的查询语句的处理方法或建立模型的方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130和不同形式的存储介质140，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口150。

为了便于说明，在电子设备100中仅描述了一个处理器。然而，应当注意，本申请中的电子设备100还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备100的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

此外，应当理解，图1所示的电子设备100即可为执行查询语句的处理方法的电子设备，还可为执行训练模型的方法的电子设备，还可为执行查询语句的处理方法和执行训练模型的方法的电子设备，本申请实施例并不局限于此。

请参照图2，图2为本申请实施例提供的一种查询语句的处理方法的流程图，所述方法通过上述的电子设备100执行，所述方法包括如下步骤：

步骤S210，获取历史改写记录，其中，历史改写记录包括多个历史查询语句以及每个历史查询语句的改写标识信息。

应理解，上述历史改写记录可通过收集用户的点击日志获取，也可通过用户直接输入获取，本申请实施例并不局限于此。

为了便于理解本申请的技术方案，下面通过收集用户的点击日志获取历史改写记录的方式来描述步骤S210的方案。

步骤S210可包括：步骤a、收集不同用户的点击日志，其中，点击日志记录有多个历史查询语句以及每个历史查询语句对应的被点击的搜索结果；步骤b、根据被点击的搜索结果，获取每个历史查询语句的改写标识信息。

应理解，上述改写标识信息可根据实际需求来进行设置。例如，在历史查询语句需要改写的情况下，该历史查询语句对应的改写标识信息为“1”，本申请实施例并不局限于此。再例如，在历史查询语句不需要改写的情况下，该历史查询语句对应的改写标识信息为“0”，本申请实施例并不局限于此。

其中，在上述步骤a中，可选地，用户可以在用户终端上的软件APP或者其他可以用于输入查询语句的终端上的软件APP上输入想要查询的兴趣点。具体地，其可以应用于打车场景下，如用户要输入对应的目的地址时，用户可在用户终端的软件APP的相关显示界面上输入相应的目的地址，用户终端基于用户输入的目的地址为用户展示匹配的多个待选地址，用户可根据显示的多个待选地址来选择或点击对应的某个地址作为最终的目的地址即可，其中，多个待选地址即为多个兴趣点，最终的目的地址为被点击的兴趣点，用户输入的目的地址即为查询语句。

另外，在用户使用软件APP进行打车的过程中，用户打车的过程是保存在点击日志中的，即点击日志内记录有多个历史查询语句和每个历史查询语句对应的被点击的兴趣点。后续通过聚合多个用户的点击日志来获取用户输入的历史查询语句和被点击的兴趣点，以获取历史改写记录。

此外，在聚合用户的点击日志后，一条查询语句可对应多个被点击的兴趣点。

例如，对于同一用户A，用户A在位置F处输入的查询语句为“超市”，用户在用户E处输入的查询语句为“超市”，那么最终点击的兴趣点可能是不一样的，本申请实施例并不局限于此。

再例如，对于不同的用户B和用户C，用户B在位置M处输入的查询语句为“超市”，用户C在位置N处输入的查询语句为“超市”，那么用户B和用户C点击的兴趣点也可能是不一样的，本申请实施例并不局限于此。

另外，通过建立不同的历史查询语句和每个历史查询语句对应的被点击的兴趣点之间的映射关系，从而就可找到同一个历史查询语句下具有多少个被点击的兴趣点或被点击的兴趣点的数量，便于后续通过被点击的兴趣点来判断历史查询语句是需要改写的，还是不需要改写的。

当然，本申请的应用场景也可不限于上述的打车场景，也可以是用户对于任何兴趣点的查询，如在地图搜索场景下，用户想要查询某个地点，则用户也可在终端的软件APP的相关界面上输入某个地点，从而电子设备基于用户输入的地点为用户展现与用户输入的地点匹配的多个地点，例如，用户输入的查询语句为“北京”的情况下，则电子设备基于检索匹配后为用户展示“北京”、“鸟巢”、“北京西站”三个地点，这三个地点可以作为三个兴趣点呈现给用户，本申请实施例并不局限于此。

所以，可以理解的，查询语句可为用户输入的想要查询的语句，搜索结果可为基于用户输入的想要查询的语句获取的多个兴趣点。

应理解，虽然本申请实施例示出了搜索结果为兴趣点的情况，但在不同的场景中，搜索结果可对应不同的称呼，本申请实施例并不局限于此。

此外，在上述步骤b中，为了便于理解本申请实施例的步骤b的技术方案，下面以网约打车的场景为例进行描述。当然可以理解，下面描述的本申请的步骤b的技术方案还适用于其他的场景，本申请实施例并不局限于此。

在步骤b中，用户可通过计算历史查询语句在被点击的兴趣点中出现的概率。

这里需要判断历史查询语句是否进行改写，那么判断的依据就是用户点击的兴趣点，如果用户输入的历史查询语句中的词全部在被点击的兴趣点中出现，则认为历史查询语句是不需要改写的。

例如，当用户输入的历史查询语句是“南开”的情况下，该历史查询语句对应的被点击的兴趣点为“天津南开”，则认为该历史查询语句是不需要改写的。

再例如，当用户输入的历史查询语句是“北大”的情况下，该历史查询语句对应的被点击的兴趣点为“北京大学”，则认为该历史查询语句是需要改写的。

另外，这里的被点击的兴趣点包括名称、地址和经纬度等信息，因此，该历史查询语句即可出现在名称中，也可出现在地址中，并且当历史出现语句出现在名称或地址的情况下，则认为历史查询语句出现在该被点击的兴趣点中，本申请实施例并不局限于此。

例如，当用户输入的历史查询语句为“商场”的情况下，且与该历史查询语句对应的被点击的兴趣点具有6条，其中，该“商场”出现在2条被点击的兴趣点的名称中，该“商场”出现在其中1条被点击的兴趣点的地址中。当“商场”这个词语全部出现在3条被点击的兴趣点中，则该“商场”在被点击的兴趣点中全部出现的概率为3/6，本申请实施例并不局限于此。

此外，用户输入的历史查询语句除了上述单个词语的情况，还包括多个词语的情况，那么这里可先将历史查询语句中的词语进行拆分，后续通过计算拆分后的全部词语在被点击的兴趣点中全部出现的概率。另外，在历史查询语句拆分后的词全部出现在被点击的兴趣点中，包括一部分词语出现在名称中，另一部分出现在地址中；或，全部的词语出现在名称中；或，全部的词语出现在地址中，本申请实施例并不局限于此。

例如，当用户输入的历史查询语句为“北京西站”的情况下，且与该历史查询语句对应的被点击的兴趣点具有5条。在将“北京西站”拆分为“北京”和“西站”两个词语后，确定“北京”和“西站”这两个词全部出现在3条被点击的兴趣点(即3条被点击的兴趣点中的每条兴趣点均包括“北京”和“西站”这两个词)，则确定“北京西站”在被点击的兴趣点中全部出现的概率为3/5，本申请实施例并不局限于此。

另外，在获取到历史查询语句在被点击的兴趣点中出现的概率后，通过设置阈值的方式来确定每个历史查询语句的改写标识信息。

可选地，可通过设置概率阈值的方式来获取每个历史查询语句的改写标识信息。具体地，用户可将概率等于第一概率阈值设置成不需要改写的改写标识信息，还可将概率小于等于第二概率阈值设置成需要改写的改写标识信息。

例如，第一概率阈值为100％，则将概率为100％的历史查询语句的改写标识信息设置为“1”，其中，“1”表示不需要改写。

再例如，第二概率阈值为60％，则将概率为0～60％的历史查询语句的改写标识信息设置为“0”，其中，“0”表示需要改写。

此外，对于概率处于第一概率阈值和第二概率阈值之间的历史查询语句，这部分的历史查询语句的改写概率是比较高的，对于这部分的历史查询语句不好确定是不是需要改写。

例如，当用户输入的历史查询语句是“北京市场”的情况下，这个历史查询语句表示的是在北京这个地域搜索市场，虽然最终的被点击的兴趣点是不包括“北京”的，但是这个被点击的兴趣点是处于“北京”的范围内的，因此，基于上述阈值确定的方法是无法确定该历史查询语句是不是改写的。

步骤S220，将历史改写记录作为样本训练得到预先训练好的二分类模型。

应理解，二分类模型的具体模型类型可根据实际需求来进行设置。例如，该二分类模型可为文本分类器fasttext，它具有训练非常快的优点，且它是相当于拿查询语句去表达或者说将查询语句映射成向量，在对向量得到的结果进行分类，这个向量就体现了一个查询语句中成词的特性，所以这个向量表达了查询语句的语言特征，就是语言模型的特性，所以文本分类器fasttext模型基于查询语句学习得到的模型体现了基于查询语句的语言模型，本申请实施例并不局限于此。

在步骤S220中，该二分类模型的训练过程包括：

步骤(A)、将历史改写记录中的历史查询语句输入到建立的二分类模型中，以获取初始改写结果，其中，该建立的二分类模型可为未训练的模型。

步骤(B)、根据初始改写结果与改写标识信息的差值调整建立的二分类模型中的参数，以得到预先训练好的二分类模型。

步骤(C)、重复上述步骤(A)和步骤(B)，直至二分类模型的输出与改写标识信息的差值小于预设阈值，则确定收敛，训练结束，后续通过该训练好的预设模型来确定用户输入的查询语句是否需要改写。

步骤S230，获取用户输入的查询语句。

应理解，用户输入的查询语句可为在打车场景下，用户输入的目的地，也可在地图检索的场景下，用户输入的想要查询的某个地点，也可为在用户进行搜索的场景下，用户输入的想要查询的某个词语，本申请实施例并不局限于此。

步骤S240，通过预先训练好的二分类模型，确定输入的查询语句是否需要改写。

在该步骤S240中，将获取到的用户输入的查询语句作为输入，输入到训练好的二分类模型中，该二分类模型输出该查询语句需要改写的概率和需要改写的概率。后续，通过预设的第三概率阈值来确定用户输入的查询语句是否需要改写。

例如，在该预设的第三概率阈值为50％，且二分类模型输出查询语句需要改写的概率为45％和需要改写的概率为55％的情况下，由于需要改写的概率大于预设的第三概率阈值，因此，最终确定该查询语句是需要改写的，本申请实施例并不局限于此。

此外，本申请可通过大量的查询语句来训练得到二分类模型，所以对于用户输入的查询语句是能够获取到对应的是否改写的结果的，由于训练用的查询语句较大，所以基本所有的查询语句都适用。即使是在用户输入的查询语句为之前从未出现过的查询语句的情况下，它也可通过确定查询语句中的每个词语的概率的方式，确定出该对应的分词是否需要改写。

例如，在某查询语句包含两个词语的情况下，可通过二分类模型来分别确定每个词语是否需要改写，当两个词语中存在需要改写的词语的情况下，则认为查询语句是需要改写的；当两个词语中不存在需要改写的词语的情况下，则认为查询语句是不需要改写的，即当查询语句划分后的所有词语中至少存在一个需要改写的词语的情况下，则认为当前查询语句需要改写，当查询语句中的所有词语都不需要改写的情况下，则认为当前查询语句是不需要改写的，本申请实施例并不局限于此。

在上述实施例中，本申请实施例通过预先训练好的二分类模型来确定用户输入的查询语句是否需要改写，并且该二分类模型是基于包括多个历史查询语句以及每个历史查询语句的改写标识信息的历史改写记录得到的，从而训练后的二分类模型能够精准地确定用户输入的查询语句是否需要改写。

另外，相比于现有的通过传统的词典文件来确定查询语句是否需要改写的方案来说，本申请的方案既能够剔除大规模的词典文件，还能够大大提升预测性能，以及最终训练好二分类模型能够反映查询语句能够改写或者不改写的特性，从而巧妙的运用一个二分类模型既能够体现现有的语言模型的特性，又能够获取查询语句是不是需要改写这样一个二分类的功能，同时，它也不需要说去累加很多查询语句的一些特征，进而能够快速地确定出用户输入的查询语句是否需要改写。

为了便于理解本申请的技术方案，下面通过具体的方案来对本申请的方案进行描述。

请参数图3，图3示出了本申请实施例提供的一种查询语句的检索方法的流程图，所述方法包括如下步骤：

步骤S310，获取用户输入的查询语句；

步骤S320，将用户输入的查询语句作为输入量输入到训练好的二分类模型中；

步骤S330，通过训练好的二分类模型来确定用户输入的查询语句是不是需要纠错，其中，该纠错也可称为改写，本申请实施例并不局限于此；

通过步骤S341的HMM纠错和步骤S342的深度纠错等纠错方式来实现纠错，其中，HMM纠错表示通过一个统计的模型做的一个纠错模型，深度纠错表示通过一个深度模型做的纠错模型；

此外，上述HMM纠错和深度纠错均可称为纠错改写模型，本申请实施例并不局限于此。

例如，在用户输入的查询语句为“肯德鸡”的情况下，通过纠错改写模型将用户输入的查询语句修改成“肯德基”，本申请实施例并不局限于此。

应理解，除了上述纠错改写模型外，还可包括同义改写模型、省略改写模型等，本申请实施例并不局限于此。

例如，在用户输入的查询语句为“KFC肯德基”的情况下，由于“KFC”与“肯德基”是表示一个意思，则通过同义改写模型将用户输入的查询语句修改成“肯德基”，本申请实施例并不局限于此。

再例如，在用户输入的查询语句为“目的地北京”的情况下，通过省略改写模型将用书输入的查询语句修改成“北京”，本申请实施例并不局限于此。

此外，虽然上面对改写模型进行了举例，但本领域的技术人员应当理解，除了上述例举的2个改写模型外，还可根据实际需求设置其他的改写模型，本申请实施例并不局限于此。

步骤S350，将多个纠错的结果进行结果融合，其中，改写可能分成多个改写(例如，纠错改写、同义改写和省略改写等)，对于不同的改写模型来说，不同的改写模型改写的结果可能是一样的，需要将多个改写结果进行融合，由于并不是将所有的结果返回，而是通过一个概率来确定最终的改写结果，并通过一个概率值比较高的值去做检索。

步骤S360，基于结果融合的结果进行检索，并将检索的结果进行输出。

请继续参见图4，图4示出了本申请实施例提供的一种训练模型的方法的流程图，应理解，图4中的方法与图2方法实施例相对应，具体可参见图2中的描述，为避免重复，在此适当省略描述，所述方法包括：

步骤S410，获取历史改写记录，其中，历史改写记录包括多个历史查询语句以及每个历史查询语句的改写标识信息；

步骤S420，将历史改写记录作为样本训练得到训练后的二分类模型，其中，训练后的二分类模型用于确定用户输入的查询语句是否需要改写。

可选地，训练后的二分类模型为文本分类器。

请继续参见图5，图5示出了本申请实施例提供的一种查询语句的处理装置的结构示意图。该装置500可以为运行在上述电子设备100上的模块、程序段或代码。应理解，该装置500与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置500具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置500包括：第一获取模块510，用于获取用户输入的查询语句；确定模块520，用于通过预先训练好的二分类模型，确定输入的查询语句是否需要改写，其中，预先训练好的二分类模型是根据历史改写记录得到的，历史改写记录包括多个历史查询语句以及每个历史查询语句的改写标识信息。

可选地，处理装置还包括：第二获取模块(未示出)，用于获取历史改写记录；训练模块(未示出)，用于将历史改写记录作为样本训练得到预先训练好的二分类模型。

可选地，第二获取模块包括：第一获取子模块(未示出)，用于获取用户的点击日志，其中，点击日志记录有多个历史查询语句以及每个历史查询语句对应的被点击的搜索结果；第二获取子模块(未示出)，用于根据被点击的搜索结果，获取每个历史查询语句的改写标识信息。

可选地，训练模块包括：输入模块(未示出)，用于将历史改写记录中的历史查询语句输入到建立的二分类模型中，以获取初始改写结果；调整模块(未示出)，用于根据初始改写结果与改写标识信息的差值调整建立的二分类模型中的参数，以得到预先训练好的二分类模型。

可选地，预先训练好的二分类模型为文本分类器。

请继续参见图6，图6示出了本申请实施例提供的一种训练模型的装置600的结构示意图。该装置600可以为运行在上述电子设备100上的模块、程序段或代码。应理解，该装置600与上述图4方法实施例对应，能够执行图4方法实施例涉及的各个步骤，该装置600具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置600包括：获取模块610，用于获取历史改写记录，其中，历史改写记录包括多个历史查询语句以及每个历史查询语句的改写标识信息；训练模块620，用于将历史改写记录作为样本训练得到训练后的二分类模型，其中，训练后的二分类模型用于确定用户输入的查询语句是否需要改写。

可选地，获取模块610包括：第一获取子模块(未示出)，用于获取用户的点击日志，其中，点击日志记录有多个历史查询语句以及每个历史查询语句对应的被点击的搜索结果；第二获取子模块(未示出)，用于根据被点击的搜索结果，获取每个历史查询语句的改写标识信息。

可选地，训练模块620包括：输入模块(未示出)，用于将历史改写记录中的历史查询语句输入到建立的二分类模型中，以获取初始改写结果；调整模块(未示出)，用于根据初始改写结果与改写标识信息的差值调整建立的二分类模型中的参数，以得到训练后的二分类模型。

可选地，训练后的二分类模型为文本分类器。

本申请实施例还提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图2所示方法实施例中电子设备所执行的方法过程。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

本申请实施例还提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图4所示方法实施例中电子设备所执行的方法过程。

综上所述，本申请实施例提供一种查询语句的处理方法、训练模型的方法、装置及设备，在该处理方法中，通过预先训练好的二分类模型来确定用户输入的查询语句是否需要改写，从而相比于现有的通过传统的词典文件来确定查询语句是否需要改写的方案来说，本申请的方案既能够剔除大规模的词典文件，还能够大大提升预测性能，以及最终训练好二分类模型能够反映查询语句能够改写或者不改写的特性，从而巧妙的运用一个二分类模型既能够体现现有的语言模型的特性，又能够获取查询语句是不是需要改写这样一个二分类的功能，同时，它也不需要说去累加很多查询语句的一些特征，进而能够快速地确定出用户输入的查询语句是否需要改写。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种查询语句的处理方法，其特征在于，包括：

获取用户输入的查询语句；

通过预先训练好的二分类模型，确定所述输入的查询语句是否需要改写，其中，所述预先训练好的二分类模型是根据历史改写记录得到的，所述历史改写记录包括多个历史查询语句以及每个所述历史查询语句的改写标识信息。

2.根据权利要求1所述的处理方法，其特征在于，所述处理方法还包括：

获取所述历史改写记录；

将所述历史改写记录作为样本训练得到所述预先训练好的二分类模型。

3.根据权利要求2所述的处理方法，其特征在于，所述获取所述历史改写记录，包括：

获取用户的点击日志，其中，所述点击日志记录有所述多个历史查询语句以及每个所述历史查询语句对应的被点击的搜索结果；

根据所述被点击的搜索结果，获取每个所述历史查询语句的改写标识信息。

4.根据权利要求2所述的处理方法，其特征在于，所述将所述历史改写记录作为样本训练得到所述预先训练好的二分类模型，包括：

将所述历史改写记录中的历史查询语句输入到建立的二分类模型中，以获取初始改写结果；

根据所述初始改写结果与所述改写标识信息的差值调整所述建立的二分类模型中的参数，以得到所述预先训练好的二分类模型。

5.根据权利要求1所述的处理方法，其特征在于，所述预先训练好的二分类模型为文本分类器。

6.一种训练模型的方法，其特征在于，包括：

获取历史改写记录，其中，所述历史改写记录包括多个历史查询语句以及每个所述历史查询语句的改写标识信息；

将所述历史改写记录作为样本训练得到训练后的二分类模型，其中，所述训练后的二分类模型用于确定用户输入的查询语句是否需要改写。

7.根据权利要求6所述的方法，其特征在于，所述获取所述历史改写记录，包括：

8.根据权利要求6所述的方法，其特征在于，所述将所述历史改写记录作为样本训练得到训练后的二分类模型，包括：

根据所述初始改写结果与所述改写标识信息的差值调整所述建立的二分类模型中的参数，以得到所述训练后的二分类模型。

9.根据权利要求6所述的方法，其特征在于，所述训练后的二分类模型为文本分类器。

10.一种查询语句的处理装置，其特征在于，包括：

第一获取模块，用于获取用户输入的查询语句；

确定模块，用于通过预先训练好的二分类模型，确定所述输入的查询语句是否需要改写，其中，所述预先训练好的二分类模型是根据历史改写记录得到的，所述历史改写记录包括多个历史查询语句以及每个所述历史查询语句的改写标识信息。

11.根据权利要求10所述的处理装置，其特征在于，所述处理装置还包括：

第二获取模块，用于获取所述历史改写记录；

训练模块，用于将所述历史改写记录作为样本训练得到所述预先训练好的二分类模型。

12.根据权利要求11所述的处理装置，其特征在于，所述第二获取模块包括：

第一获取子模块，用于获取用户的点击日志，其中，所述点击日志记录有所述多个历史查询语句以及每个所述历史查询语句对应的被点击的搜索结果；

第二获取子模块，用于根据所述被点击的搜索结果，获取每个所述历史查询语句的改写标识信息。

13.根据权利要求11所述的处理装置，其特征在于，所述训练模块包括：

输入模块，用于将所述历史改写记录中的历史查询语句输入到建立的二分类模型中，以获取初始改写结果；

调整模块，用于根据所述初始改写结果与所述改写标识信息的差值调整所述建立的二分类模型中的参数，以得到所述预先训练好的二分类模型。

14.根据权利要求10所述的处理装置，其特征在于，所述预先训练好的二分类模型为文本分类器。

15.一种训练模型的装置，其特征在于，包括：

获取模块，用于获取历史改写记录，其中，所述历史改写记录包括多个历史查询语句以及每个所述历史查询语句的改写标识信息；

训练模块，用于将所述历史改写记录作为样本训练得到训练后的二分类模型，其中，所述训练后的二分类模型用于确定用户输入的查询语句是否需要改写。

16.根据权利要求15所述的装置，其特征在于，所述获取模块包括：

17.根据权利要求15所述的装置，其特征在于，所述训练模块包括：

调整模块，用于根据所述初始改写结果与所述改写标识信息的差值调整所述建立的二分类模型中的参数，以得到所述训练后的二分类模型。

18.根据权利要求15所述的装置，其特征在于，所述训练后的二分类模型为文本分类器。

19.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至5任一所述查询语句的处理方法的步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至5任一所述查询语句的处理方法的步骤。

21.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求6至9任一所述训练模型的方法的步骤。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求6至9任一所述训练模型的方法的步骤。