CN110889028A

CN110889028A - 一种语料处理以及模型训练的方法及系统

Info

Publication number: CN110889028A
Application number: CN201810929546.3A
Authority: CN
Inventors: 胡娟; 陈欢; 宋奇
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2020-03-17

Abstract

一种语料处理以及模型训练的方法及系统。所述方法包括：挖掘用户会话；获取用户输入的检索词与选择的结果；组合输入的检索词与选择的结果形成至少一组语料对；基于所述至少一组语料对构造平行语料。获得的平行语料可以进一步进行模型训练。本发明提供的方法可以通过挖掘用户会话，分析用户检索过程中的自纠错行为，获取平行语料，将平行语料库作为样本进行模型训练，建立检索词纠错模型。

Description

一种语料处理以及模型训练的方法及系统

技术领域

本发明涉及计算机系统，特别涉及一种语料处理进行模型训练的方法及系统。

背景技术

随着互联网的发展与普及，越来越多的人习惯于通过计算设备获取知识、信息以及服务。高效快捷的搜索也成为人们生活中不可或缺的一部分。在搜索框中输入检索词是最常见的搜索方式。在实际使用过程中，常常出现检索词输入错误、输入检索词遗漏字符等问题。

为了解决上述问题，人们提出了检索词纠错方法。

发明内容

本发明提供了一种语料处理方法，具体包括获取用户输入的检索词与选择的结果，组合输入的检索词与选择的结果形成至少一组语料对，基于至少一组语料对构造平行语料，进而得到平行语料库。获得的平行语料可以用来训练检索词纠错模型，使得该模型能自动对用户输入的检索词进行纠错。获得的平行语料还可以用在其他场景，例如机器翻译、输入法纠错等。

第一方面，本发明披露了一种语料处理的方法。该方法包括：获取用户输入的检索词与选择的结果；组合输入的检索词与选择的结果形成至少一组语料对；基于所述至少一组语料对构造平行语料，进而得到平行语料库。

在一些实施例中，所述语料处理的方法包括：基于用户日志挖掘用户会话；基于所述用户会话获取用户输入的检索词与选择的结果。

在一些实施例中，基于用户日志挖掘所述用户会话的步骤，包括：结合用户标识符及设定时间段，从所述用户会话中筛选出同一用户在所述设定时间段内的操作，进而得到所述用户会话。

在一些实施例中，所述语料处理的方法进一步包括：过滤所述至少一组语料对，并将过滤后的所述至少一组语料对构造为平行语料。

在一些实施例中，过滤所述至少一组语料对的步骤，包括：排除输入的检索词长度大于预设阈值的语料。

在一些实施例中，过滤所述至少一组语料对的步骤，还包括：排除输入的检索词是选择的结果的前缀字符串的语料。

在一些实施例中，过滤所述至少一组语料对的步骤，进一步包括：统计各条语料的内部编辑距离，并排除内部编辑距离大于预设阈值的语料。

在一些实施例中，过滤所述至少一组语料对的步骤，进一步包括：统计各条语料的内部转移概率，排除内部转移概率小于预设阈值的语料。

第二方面，本发明披露了一种语料处理的系统。该系统包括：挖掘模块，用于挖掘用户会话；获取模块，用于获取所述用户会话中用户输入的检索词和选择的结果；组合模块，用于组合输入的检索词与选择的结果形成至少一组语料对；构造模块，用于基于所述至少一组语料对构造平行语料库。

第三方面，本发明披露了一种计算机可读存储介质。该存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行语料处理的方法。

第四方面，本发明披露了一种语料处理的装置，该语料处理的装置包括处理器，所述处理器用于执行语料处理的方法。

第五方面，本发明披露了一种基于平行语料训练模型的方法。所述基于平行语料训练模型的方法可以使用由语料处理的方法获得的平行语料进行模型训练。

第六方面，本发明还披露了一种检索词纠错的方法。所述检索词纠错的方法包括：获取用户输入的检索词；使用检索词纠错模型对用户输入的检索词进行处理，得到纠错后的检索词；其中，所述检索词纠错模型为使用如权利要求1至9任一所述方法获得的平行语料训练得到。

附图说明

图1所示的是一种语料处理的一种示例系统配置示意图；

图2是用于实现本发明的专用系统的示例性计算设备的结构框图；

图3是用于实现本发明技专用系统的示例性移动设备的结构框图；

图4是根据本发明的一些实施例所示的示例性语料处理装置的结构框图；

图5是根据本发明的一些实施例所示的示例性挖掘模块的结构框图；

图6是根据本发明的一些实施例所示的示例性语料过滤模块的结构框图；

图7是根据本发明的一些实施例所示的用于实现语料处理的示例性流程示意图；

图8是根据本发明的一些实施例所示的用于实现挖掘用户会话的示例性流程示意图；

图9是根据本发明的一些实施例所示的示例性语料的示意图；

图10是根据本发明的一些实施例所示的对语料特征进行统计的示例性流程示意图；

图11是根据本发明的一些实施例所示的实现判断语料是否满足过滤条件的示例性流程示意图；

图12是根据本发明的一些实施例所示的实现模型训练的示例性流程示意图。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本申请和权利要求书中所示，除非上下文明确提示例外情形， “一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块或单元做出了各种引用，然而，任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。本申请中的模块可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本申请的实施例可以应用于不同的搜索系统，不同的搜索系统包括但不限于搜索引擎、按需服务系统、信息检索系统、位置服务系统等中的一种或几种组合。本申请的不同实施例应用场景包括但不限于网页、浏览器插件、客户端、定制系统、企业内部分析系统、人工智能机器人等中的一种或几种的组合。应当理解的是，本申请的系统及方法的应用场景仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。例如，其他类似的语料处理系统。

本申请描述的“用户”、“需求者”、“服务需求者”、“使用需求者”等是可以互换的，是指需要或者订购服务或进行搜索的一方，可以是个人，也可以是工具。同样地，本申请描述的“提供者”、 “供应者”、“服务提供者”、“服务者”、“服务方”等也是可以互换的，是指提供服务或者协助提供服务或返回搜索结果的个人、工具或者其他实体等。另外，本申请描述的“用户”可以是需要或者订购服务或进行搜索的一方，也可以是提供服务或者协助提供服务或返回搜索结果的一方。

图1所示的是一种语料处理系统的一种示例系统配置示意图。示例性语料处理系统100可以包括语料处理装置110、网络120、用户终端130和存储器150。在一些实施例中，语料处理装置110可以用于对收集的信息进行分析加工以生成分析结果的系统。语料处理装置110 可以是一个服务器，也可以是一个服务器群组。一个服务器群组可以是集中式的，例如数据中心。一个服务器群组也可以是分布式的，例如一个分布式系统。语料处理装置110可以是本地的，也可以是远程的。语料处理装置110可以包括用于执行语料处理装置110的指令(程序代码)的语料处理引擎112。例如，语料处理引擎112能够执行语料处理的程序的指令，进而通过一定的算法进行语料处理。

用户终端130是指发布服务订单或服务请求或进行搜索的个人、工具或者其他实体。用户终端130可以在搜索引擎、按需服务系统、信息检索系统、位置服务系统中进行搜索。搜索引擎包括但不限于 Google、Bing、雅虎搜索、百度、有道等中的一种或几种的组合。按需服务系统包括但不限于运输按需服务、医疗按需服务、采购按需服务、家政按需服务等中的一种或几种组合。信息检索系统包括但不限于学术检索、数据检索、资讯检索等中的一种或几种组合。位置服务系统包括但不限于导航服务、定位服务、天气服务等中的一种或几种组合。用户终端130包括但不限于台式电脑130-1、笔记本电脑130-2、交通工具的内置设备130-3、移动设备130-4等中的一种或几种的组合。语料处理装置110可以直接访问存取或储存在存储器140的数据信息，也可以直接通过网络120访问存取在用户终端130的信息。

在一些实施例中，存储器150可以泛指具有存储功能的设备。存储器150主要用于存储从用户终端130收集的数据和语料处理装置110 工作中产生的各种数据。存储器150可以是本地的，也可以是远程的。系统数据库与系统其他模块间的连接或通信可以是有线的，也可以是无线的。

网络120可以提供信息交换的渠道。网络120可以是单一网络，也可以是多种网络组合的。网络120可以包括但不限于局域网、广域网、公用网络、专用网络、无线局域网、虚拟网络、都市城域网、公用开关电话网络等中的一种或几种的组合。网络120可以包括多种网络接入点，如有线或无线接入点、基站(如120-1，120-2)或网络交换点，通过以上接入点使数据源连接网络120并通过网络发送信息。

图2是用于实现本发明的专用系统的示例性计算设备200的框图。如图2所示，计算设备200可以包括处理器210、存储器220、输入/输出接口230和通信端口240。

处理器210可以执行计算指令(程序代码)并执行本发明描述的语料处理系统100的功能。所述计算指令可以包括程序、对象、组件、数据结构、过程、模块和功能(所述功能指本发明中描述的特定功能)。例如，处理器210可以处理从语料处理系统100的其他任何组件获得的图像或文本数据。在一些实施例中，处理器210可以包括微控制器、微处理器、精简指令集计算机(RISC)、专用集成电路(ASIC)、应用特定指令集处理器(ASIP)、中央处理器(CPU)、图形处理单元 (GPU)、物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机(ARM)、可编程逻辑器件以及能够执行一个或多个功能的任何电路和处理器等，或其任意组合。仅为了说明，图2中的计算设备200只描述了一个处理器，但需要注意的是本发明中的计算设备200还可以包括多个处理器。

存储器220可以存储从语料处理系统100的任何其他组件获得的数据/信息。在一些实施例中，存储器220可以包括大容量存储器、可移动存储器、易失性读取和写入存储器和只读存储器(ROM)等，或其任意组合。示例性大容量存储器可以包括磁盘、光盘和固态驱动器等。可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘和磁带等。易失性读取和写入存储器可以包括随机存取存储器 (RAM)。RAM可以包括动态RAM(DRAM)、双倍速率同步动态 RAM(DDR SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM) 和零电容(Z-RAM)等。ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用盘ROM等。

输入/输出接口230可以用于输入或输出信号、数据或信息。在一些实施例中，输入/输出接口230可以使用户与语料处理系统100进行联系。在一些实施例中，输入/输出接口230可以包括输入装置和输出装置。示例性输入装置可以包括键盘、鼠标、触摸屏和麦克风等，或其任意组合。示例性输出设备可以包括显示设备、扬声器、打印机、投影仪等，或其任意组合。示例性显示装置可以包括液晶显示器 (LCD)、基于发光二极管(LED)的显示器、平板显示器、曲面显示器、电视设备、阴极射线管(CRT)等，或其任意组合。

通信端口240可以连接到网络以便数据通信。所述连接可以是有线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电话线等，或其任意组合。无线连接可以包括蓝牙、Wi-Fi、WiMax、 WLAN、ZigBee、移动网络(例如，3G、4G或5G等)等，或其任意组合。在一些实施例中，通信端口240可以是标准化端口，如RS232、 RS485等。在一些实施例中，通信端口240可以是专门设计的端口。

图3是用于实现本发明的专用系统的示例性移动设备300的框图。如图3所示，所述移动设备300可以包括通信平台310、显示器320、图形处理器(GPU)330、中央处理器(CPU)340、输入/输出接口350、内存360、存储器370等。在一些实施例中，操作系统361(如，iOS， Android，Windows Phone等)和应用程序362可以从存储器370加载到内存360中，以便由CPU 340执行。应用程序362可以包括浏览器或用于从语料处理系统101接收成像、图形处理、音频或其他相关信息的应用程序。

为了实现在本发明中描述的各种模块、单元及其功能，计算设备或移动设备可以用作本发明所描述的一个或多个组件的硬件平台。这些计算机或移动设备的硬件元件、操作系统和编程语言本质上是常规的，并且本领域技术人员熟悉这些技术后可将这些技术适应于本发明所描述的检索词纠错系统。具有用户界面元件的计算机可以用于实现个人计算机(PC)或其他类型的工作站或终端设备，如果适当地编程，计算机也可以充当服务器。

图4是根据本发明的一些实施例示出的示例性语料处理的装置的结构框图。该装置中的全部或部分功能模块可运行在语料处理装置 110上。

语料处理装置110，包括：挖掘模块410、获取模块420、组合模块 430和构造模块450。装置110中各个模块的功能可以由计算机程序实现。各模块之间的连接形式可以是有线的、无线的、或两者的结合。任何一个模块都可以是本地的、远程的、或两者的结合。模块间的对应关系可以是一对一的，或一对多的。

挖掘模块410用于挖掘用户会话。用户会话是用户在一次访问服务器过程中，从进入该服务器到离开该服务器期间的一系列操作。用户日志记录运行中的操作系统361和/或应用程序362的执行活动。用户标识符用于辨识用户。时间戳是一段字符串或编码信息，其被用于辨识记录的时间信息。基于用户标识符及设定时间段，从用户日志中筛选出同一用户在设定时间段内的操作，进而得到用户会话。

获取模块420用于获取所述用户会话中用户输入的检索词和选择的结果。从用户会话中可以获取用户输入的检索词和选择的结果。用户会话是从用户日志中筛选出的设定时间段内的操作。在一些实施例中，用户日志可以包括用户检索日志和用户点击日志。用户输入的检索词记录在用户检索日志中。用户选择的结果记录在用户点击日志中。用户检索日志和用户点击日志均存储在图5所示的日志存储模块中。用户会话中包含同一用户在设定时间段内输入的检索词和选择的结果。

组合模块430用于组合输入的检索词和选择的结果形成至少一组语料对。在一些实施例中，获取模块420获取输入的检索词X和选择的结果Y，组合模块430将获取模块420获取的检索词进行组合形成语料 (X,Y)。组合模块430用于组合获取单元420获取的输入的检索词和选择的结果，形成至少一组语料对。在一些实施例中，一个用户会话中有多个输入的检索词(X₁,X₂…X_n)以及一个选择的结果Y。因此可以形成多条语料(X₁,Y)(X₂,Y)…(X_n,Y)。

构造模块450用于构造平行语料库。平行语料是两个表现同一对象的短语或句子。构造模块450基于处理过的语料构造平行语料库。平行语料库中的平行语料将作为样本进行模型训练，从而实现检索词纠错。模型训练过程将在后文详细描述。

在其他实施例中，语料处理装置110还可以包括语料过滤模块 440。语料过滤模块440用户过滤至少一组语料对。在一个具体实施例中，语料过滤模块440用于统计语料的多个特征，并根据设定的过滤条件对语料进行过滤，保留满足预设过滤条件的语料。关于语料过滤模块440的进一步说明，参见下文关于图6的相关内容。

相应的，构造模块450用于基于过滤后的语料构造平行语料库。

所述语料处理装置110可以进一步包括计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行本发明实施例提供的语料处理的方法。

所述语料处理装置110可以进一步包括处理器，所述处理器可以读取所述计算机指令，执行本发明实施例提供的语料处理的方法。

图5是根据本发明的一些实施例所示的示例性挖掘模块的结构框图。挖掘模块410进一步包括日志获取单元411和会话挖掘单元412.

日志获取单元411用于获取用户检索日志和用户点击日志。用户检索日志记录用户输入的检索词，用户点击日志记录用户选择的结果。在一些实施例中，用户选择的结果为用户发单的检索词。

会话挖掘单元412用于挖掘用户会话。将同一个用户在一定时间戳内进行的操作作为一个用户会话。挖掘用户会话的过程将在下文详细描述。

图6是根据本发明的一些实施例所示的示例性语料过滤模块的结构框图。语料过滤模块440进一步包括语料统计单元441和语料过滤单元442。

语料统计单元441用于统计语料的多个特征。所述特征包括语料出现频次、语料内部转移概率、语料内部编辑距离等，或其组合。语料内部转移概率是在一组语料对(X,Y)中，用户输入检索词X后选择的结果是Y的概率。语料内部编辑距离是在一组语料对(X,Y)中，由输入的检索词X转成选择的结果Y所需要的最少编辑操作次数。

语料过滤单元442用于基于预设的语料过滤条件过滤语料。语料过滤条件包括多个预设阈值。所述预设阈值包括但不仅限于检索词长度阈值、语料内部编辑距离阈值、语料内部转移概率阈值等，或其组合。在一些实施例中，可以将输入的检索词与选择的结果之间的关系作为过滤条件。例如，输入的检索词是选择的结果的一部分。

图7是根据本发明的一些实施例所示的用于实现语料处理进行模型训练的示例性流程示意图，包括以下几个步骤：

步骤710：获取用户输入的检索词与选择的结果；

步骤720：组合输入的检索词与选择的结果形成至少一组语料对；

步骤730：基于所述至少一组语料对构造平行语料，进而得到平行语料库。

在步骤710中，获取模块420获取用户输入的检索词和选择的结果。在一些实施例中，获取模块420基于用户会话获取用户输入的检索词与选择的结果。例如，在一个用户会话中，用户输入的检索词包括X₁,X₂…X_n，用户选择的结果为Y，，因此获取X₁,X₂…X_n和Y。在一些实施例中，某用户在打车软件中输入检索词X₁“新世纪”，最终选择的结果Y为“新世界”。获取模块420获取检索词“新世纪”与选择结果 “新世界”。

图4所示的挖掘模块410基于用户日志挖掘用户会话。在一些实施例中，用户会话为用户从打开检索系统开始，直到用户点击的过程中，与系统交互的一系列操作。根据用户检索日志和用户点击日志，将用户标识符和时间戳两个维度结合在一起，筛选出同一个用户在一定时间段内进行的操作。例如，对用户标识符为A的用户而言，以A点击检索词的时间戳T为基准，回溯A在时间戳T之前(包括T)30s内的操作，例如：用户输入检索词的操作和点击检索词的操作，将这些操作集合作为一个会话。用户交互可以通过输入/输出350实现。示例性的输入设备可以包括键盘、鼠标、触摸屏、麦克风等，或其组合。用户可以输入文本、语音、视频、手势等，或其组合。中央处理器340可以进行文字处理、语言处理、视频处理、音频处理等，或其组合。挖掘过程包括数据清洗、用户识别、会话识别等步骤。数据清洗用于清除日志文件中无关的项。在一些实施例中，用户请求访问服务器但是由于网络、信号、请求参数等原因访问失败。数据清洗步骤将清除用户请求访问失败的记录。用户识别步骤通过用户标识符进行用户识别。会话识别步骤中将用户的操作划分为单个的会话。会话识别方法包括超时识别、基于统计语言模型的识别。挖掘过程的目的是从原始日志文件中选取出规范化的数据。

在步骤720中，组合模块430组合输入的检索词与选择的结果形成至少一组语料对。在一些实施例中，一个用户会话中，可以有多条输入的检索词与一个选择的结果。图9是根据本发明的一些实施例所示的示例性语料的示意图。输入的检索词910为X₁,X₂…X_n，选择的结果 920为Y。组合输入的检索词和选择的结果形成检索词对 (X₁,Y),(X₂,Y)…(X_n,Y)。所述一个检索词对为一组语料对930。语料是经过整理后具有既定格式与标记的文本。然后，对获得的语料进行统计和过滤。语料的统计和过滤会在下文详细描述。仅仅作为示例，某用户在打车软件中输入X₁“新世纪”，最终选择的结果Y为“新世界”；另外一个用户在打车软件中输入检索词X₂“新视界”，最终选择的结果 Y还是“新世界”。此时，获取模块420获取检索词“新世纪”、“新视界”与选择结果“新世界”，组合模块430将输入的检索词与选择的结果组合形成(“新世纪”，“新世界”)与(“新视界”，“新世界”)两条语料。

在步骤730中，构造模块450构造平行语料库。平行语料是一组语料对中的两个短语或句子可以表现同一个对象，二者可以相互对应，其中既不包含冗余信息，也不会缺失信息。在一些实施例中，平行语料可以通过去除冗余信息、分析用户纠错行为等方法构造而成。例如，用户输入的检索词为“汇聚西红门”，选择的结果为“荟聚西红门购物中心”，为了构造平行语料，除去“购物中心”这一冗余信息，从而形成“汇聚西红门”到“荟聚西红门”的平行语料。在一些实施例中，用户输入的第一个检索词S1出现错误，用户自行纠正为S2，S1和 S2可以形成平行语料。

图8是根据本发明的一些实施例所示的用于实现挖掘用户会话的示例性流程示意图，包括以下几个步骤：

步骤810：获取用户检索日志和用户点击日志；

步骤820：结合用户标识符和设定时间段，筛选用户在所述设定时间段内的操作；

步骤830：将所述操作集合作为一个会话。

在步骤810中，日志获取单元411获取用户日志。在一些实施例中，用户日志包括用户检索日志和用户点击日志。

在步骤820～步骤830中，会话挖掘单元412通过用户标识符识别用户，以该用户点击检索词的时间点为基准筛选用户的操作，将用户在设定时间段内在用户日志中进行的操作集合为一个会话。在一些实施例中，会话挖掘单元412以用户点击检索词的时间T为基准，回溯一段时间，将这段时间内用户输入检索词的操作和用户点击检索词的操作集合为一个会话。在一些实施例中，设定时间段可以是系统预设或者自行设定。

图10是根据本发明的一些实施例所示的对语料特征进行统计的示例性流程示意图。包括以下步骤：

步骤1010：提取语料；

步骤1020：统计语料出现频次；

步骤1030：统计语料内部转移概率；

步骤1040：统计语料内部编辑距离；

步骤1050：判断所述是否满足过滤条件；

如果语料满足过滤条件，执行步骤1060：排除；

如果语料不满足过滤条件，执行步骤1070：保留过滤后的所述语料。

在步骤1020～1040中，对语料的多个特征进行统计。所述特征包括语料出现频次、语料内部转移概率、语料内部编辑距离等，或其组合。在一些实施例中，可以通过统计语料出现频次判断检索词的正确性。例如，有两条语料(X,Y)和(X,Z)，输入的检索词均为X，用户纠正或选择的结果为Y和Z，但是可能出现误点或纠正错误的情况。假定用户输入正确检索词的概率大于错误检索词，统计(X,Y)和(X,Z)出现的概率，如果(X,Y)出现的概率远大于(X,Z)，可以说明Y是正确的检索词。在一些实施例中，可以通过统计语料的出现频次，计算用户使用正确的检索词的概率作为检索强度。此外，可以任意改变步骤1020至步骤1040的顺序，顺序不受附图限制。

需要注意的是，以上关于语料处理方法的描述，仅为描述方便，并不能把本申请限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解本申请的基本原理后，可以在不背离这一原理的情况下，对语料处理方法作出改变。例如，可以增加、减少、合并或拆分一些步骤。在一些实施例中，步骤1020至步骤1040可以同时执行。诸如此类的变形，均在本申请的保护范围之内。

在步骤1050中，判断所述语料是否满足过滤条件。对统计过后的语料进行进一步的过滤以去除噪音。过滤步骤将在下文详细描述。

图11是根据本发明的一些实施例所示的实现判断语料是否满足过滤条件的示例性流程示意图。包括以下步骤：

步骤1101：过滤语料；

步骤1102：判断输入的检索词长度是否大于预设阈值；

步骤1104：判断输入的检索词是否是选择的结果的前缀字符串；

步骤1105：判断语料内部编辑距离是否大于预设阈值；

步骤1106：判断语料内部转移概率是否小于预设阈值。

如果语料满足以下条件中的一个或多个：在步骤1102中，输入的检索词长度大于预设阈值；在步骤1104中，输入的检索词是选择的结果的前缀字符串；在步骤1105中，语料内部编辑距离大于预设阈值；在步骤1106中，语料内部转移概率小于预设阈值，执行步骤1103：排除语料。

如果语料同时满足以下多个条件：在步骤1102中，输入的检索词长度不大于预设阈值；在步骤1104中，输入的检索词不是选择的结果的前缀字符串；在步骤1105中，语料内部编辑距离不大于预设阈值；在步骤1106中，语料内部转移概率不小于预设阈值，执行步骤1107：保留过滤后的语料。

在步骤1102中，判断输入的检索词长度是否大于预设阈值。设定字符长度阈值，检索词的长度大于预设阈值则该检索词无意义。例如由于用户误操作时输入的检索词。

在步骤1104中，判断输入的检索词是否是选择的结果的前缀字符串。例如语料(北京市西，北京市西城区)，“北京市西”是“北京市西城区”的前缀字符，属于检索词没有输完。

在步骤1105中，判断语料内部编辑距离是否大于预设阈值。设定编辑距离阈值，对语料(X,Y)而言，内部编辑距离为字符串X和Y之间，由X转成Y所需要的最少编辑次数例如，语料(sdadium,stadium)和(pyramid,stadium)，前者的内部编辑距离为1，后者的内部编辑距离为 7个字符。编辑距离越小，两个词语或句子越接近。输入stadium时错误地输成sdadium的概率远大于pyramid的概率。在一些实施例中，用户输入的检索词在语料中不存在，该检索词被认为是错误的检索词，可以列出与该检索词编辑距离最小的检索词作为提示。在一些实施例中，进行会话挖掘时，时间设定过长，将本属于两个会话的检索词集合为一个会话，会造成语料内部编辑距离大于预设阈值。例如，以用户点击检索词Y1的时间戳T为基准，回溯A在时间戳T之前(包括T) 120s内输入的检索词，将这些检索词集合作为一个会话。但是在时间戳T之前60s时用户点击了检索词Y2。如果将120s内用户输入的检索词集合为一个会话，在该对话中用户进行了两次不同的检索。因此组成的语料内部编辑距离可能大于预设阈值。

在步骤1106中，判断语料内部转移概率是否小于预设阈值。设定转移概率阈值，对于语料(X,Y)和(Z,Y)而言，语料内部转移概率为输入X点击Y的概率P_xy，和输入Z点击Y的概率P_zy。如果P_xy远大于P_zy，说明(Z,Y)内部转移概率低，例如，出现用户误点手机屏幕等操作。此时的语料(Z,Y)没有意义。

需要注意的是，以上关于语料处理方法的描述，仅为描述方便，并不能把本申请限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解本申请的基本原理后，可以在不背离这一原理的情况下，对语料处理方法作出改变。例如，可以增加、减少、合并或拆分一些步骤。在一些实施例中，步骤1102至步骤1106可以同时执行。诸如此类的变形，均在本申请的保护范围之内。预设阈值可以自动和/或人为设定。

图12是根据本发明的一些实施例所示的实现模型训练的示例性流程示意图。包括以下几个步骤：

步骤1210：构造平行语料库；

步骤1220：将平行语料库作为样本，进行模型训练；

步骤1230：获得检索词纠错模型；

步骤1240：使用检索词纠错模型对用户输入的检索词进行处理，得到纠错后的检索词。

在步骤1220中，平行语料作为样本训练进行模型训练以得到检索词纠错模型。示例性模型可以包括支持向量机模型、逻辑回归模型、随机森林模型、贝叶斯方法模型、决策树模型和神经网络模型等，或其组合。

在步骤1230中，获得检索词纠错模型。以得到的平行语料作为训练语料，对深度学习模型进行训练，获得检索词纠错模型。在一些实施例中，模型训练通过深度学习计算不同输入错误的概率。在一些实施例中，模型为Seq2Seq模型，即递归神经网络(RNN)模型。RNN 模型的特点在于可以输入一个序列且输出另一个序列，且输入和输出序列的长度可变。RNN模型包括Encoder和Decoder两个步骤。在 Encoder步骤中，可将一个可变长度的信号序列变为固定长度的向量表达。在Decoder步骤中，可将固定长度的向量变为可变长度的目标信号序列。在一些实施例中，检索词纠错模型可以进行周期性更新。

在步骤1240中，使用检索词纠错模型对用户输入的检索词进行处理，得到纠错后的检索词。在一些实施例中，用户可能输入了不正确的检索词，例如用户原本想检索“新世界”却输入了“新世纪”，通过检索词纠错模型可以对用户的检索词进行纠错，输出正确的检索词。

本申请实施例可能带来的有益效果包括但不限于：(1)语料的改动过程反应了用户不断输入/修正的过程，更能够体现用户实际需求和错误体现，使用深度模型建模，可以智能表现出用户的输入错误到修正正确的过程，使得模型预测结果更加全面、准确；(2)模型训练的语料更加符合平行语料的标准，预测过程可以直接获得用户正确的检索词，无冗余信息，且平行语料可以应用在检索词改写等其他方面；(3)统计机器学习模型进行建模时，需要人工定义召回正确检索词的条件，这样会造成召回的局限性，而深度学习模型的应用，突破了这项局限。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述为本申请的基本构思，仅以实施例形式呈现，显而易见地，本领域的技术人员依据本申请作出相应变化、改进或修正。这些变化、改进和修正已被本申请所暗示或间接提出，均包含在本申请实施例的精神或范围之内。

对于描述本申请的术语，例如“一个实施例”、“一些实施例” 或“某些实施例”，表示与它们相关的至少一个特征、结构或特点是包含在本申请的实施例之中的。

另外，对于本领域的技术人员来说，本申请中的实施例可能涉及到一些新的流程、方法、机器、产品或者与它们相关的改进。因此，本申请的实施例可以在纯硬件或纯软件中实施，其中软件包括但不限于操作系统、常驻软件或微代码等；也可以在同时包含硬件和软件的 “系统”、“模块”、“子模块”、“单元”等中实施。另外，本申请的实施例可以以计算机程序的形式存在，它们可以承载在计算机可读取的媒介中。

Claims

1.一种语料处理方法，其特征在于，包括：

获取用户输入的检索词与选择的结果；

组合输入的检索词与选择的结果形成至少一组语料对；

基于所述至少一组语料对构造平行语料，进而得到平行语料库。

2.如权利要求1所述的方法，其特征在于，还包括

基于用户日志挖掘用户会话；

基于所述用户会话获取用户输入的检索词与选择的结果。

3.如权利要求2所述的方法，其特征在于，基于用户日志挖掘用户会话的步骤，进一步包括：

基于用户标识符及设定时间段，从所述用户日志中筛选出同一用户在所述设定时间段内的操作，进而得到所述用户会话。

4.如权利要求1所述的方法，其特征在于，还包括过滤所述至少一组语料对，并将过滤后的所述至少一组语料对构造为平行语料。

5.如权利要求4所述的方法，其特征在于，过滤所述至少一组语料对的步骤，进一步包括：排除输入的检索词长度大于预设阈值的语料。

6.如权利要求4所述的方法，其特征在于，过滤所述至少一组语料对的步骤，进一步包括：排除输入的检索词是选择的结果的前缀字符串的语料。

7.如权利要求4所述的方法，其特征在于，过滤所述至少一组语料对的步骤，进一步包括：统计各条语料的内部编辑距离，并排除内部编辑距离大于预设阈值的语料。

8.如权利要求4所述的方法，其特征在于，过滤所述至少一组语料对的步骤，进一步包括：统计各条语料的内部转移概率，排除内部转移概率小于预设阈值的语料。

9.一种语料处理的系统，其特征在于，包括：

挖掘模块，用于挖掘用户会话；

获取模块，用于获取所述用户会话中用户输入的检索词和选择的结果；

组合模块，用于组合输入的检索词与选择的结果形成至少一组语料对；

构造模块，用于基于所述至少一组语料对构造平行语料库。

10.如权利要求9所述的系统，其特征在于，所述挖掘模块还用于：

基于用户日志挖掘所述用户会话。

11.如权利要求10所述的系统，其特征在于，所述挖掘模块还用于：

12.如权利要求9所述的系统，其特征在于，所述组合模块还用于：

将所述用户会话中的至少一个检索词分别与该用户会话中的选择的结果组合，形成所述至少一组语料对。

13.如权利要求9所述的系统，其特征在于，还包括语料过滤模块；所述语料过滤模块用于过滤所述至少一组语料对；

所述构造模块还用于将过滤后的所述至少一组语料对构造为平行语料。

14.如权利要求13所述的方法，其特征在于，所述语料过滤模块还用于：

排除输入的检索词长度大于预设阈值的语料。

15.如权利要求13所述的方法，其特征在于，所述语料过滤模块还用于：

排除输入的检索词是选择的结果的前缀字符串的语料。

16.如权利要求13所述的方法，其特征在于，所述语料过滤模块还用于：

统计各条语料的内部编辑距离，并排除内部编辑距离大于预设阈值的语料。

17.如权利要求13所述的方法，其特征在于，所述语料过滤模块还用于：

统计各条语料的内部转移概率，排除内部转移概率小于预设阈值的语料。

18.一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1至8任一所述方法。

19.一种语料处理的装置，其特征在于，包括处理器，所述处理器用于执行如权利要求1至8任一所述方法。

20.一种基于平行语料训练模型的方法，其特征在于，使用如权利要求1至8任一所述方法获得的平行语料进行模型训练。

21.一种检索词纠错的方法，其特征在于，包括：

获取用户输入的检索词；

使用检索词纠错模型对用户输入的检索词进行处理，得到纠错后的检索词；其中，

所述检索词纠错模型为使用如权利要求1至8任一所述方法获得的平行语料训练得到。