CN110717010A

CN110717010A - 一种文本处理方法及系统

Info

Publication number: CN110717010A
Application number: CN201810678790.7A
Authority: CN
Inventors: 胡娟; 陈欢; 宋奇
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2020-01-21
Anticipated expiration: 2038-06-27
Also published as: CN110717010B

Abstract

本申请提供了一种文本处理方法。所述文本处理方法包括：获取步骤：获取输入文本；分词步骤：对所述输入文本进行分词处理，获得分词序列；概率预测步骤：根据所述分词序列的位置顺序1，2，…，j，j+1，…，N，预测并获得在每个位置的一个或多个候选词语，及各候选词语的概率值；其中，j取1～N的任意整数，N为所述输入文本的分词总数；以及概率截断步骤：基于设定阈值，为所述分词序列中的每个位置保留概率值大于所述设定阈值的候选词语。

Description

一种文本处理方法及系统

技术领域

本发明涉及计算机技术领域，特别是涉及一种文本处理方法及系统。

背景技术

用户在使用搜索引擎的过程中，如地图app，可能会出现拼写错误或不规范的模糊文本输入，而错误或模糊的文本输入会使得搜索结果会产生错误的结果甚至没有结果，因此需要对用户输入的查询文本(query)即检索文本进行纠错、改写和扩展，以接近用户检索意图，并使得搜索结果能够包含改写后的文本对应的搜索结果，用户的需求会被表达更加准确，也提高了用户体验。

发明内容

本发明的目的在于针对现有技术的存在的问题，提供一种文本处理方法及系统。

根据本申请的一个方面，一种文本处理方法，包括：获取步骤：获取输入文本；分词步骤：对所述输入文本进行分词处理，获得分词序列；概率预测步骤：根据所述分词序列的位置顺序1，2，…，j，j+1，…，N，预测并获得在每个位置的一个或多个候选词语，及各候选词语的概率值；其中，j取1～N的任意整数，N为所述输入文本的分词总数；以及概率截断步骤：基于设定阈值，为所述分词序列中的每个位置保留概率值大于所述设定阈值的候选词语。

在其中一个实施例中，概率预测步骤进一步包括：基于所述序列的j-1位置中概率值最大的候选词语，预测并获得序列中j位置的一个或多个候选词语及其概率值，其中j取2～N的任意整数。

在其中一个实施例中，所述序列的j位置的候选词语的概率值均不超过j-1位置的候选词语概率值中的最大值，其中j取2～N的任意整数。

在其中一个实施例中，所述概率预测步骤由文本处理模型实现。

在其中一个实施例中，预测所述序列中j位置的候选词语时，文本处理模型为所述一个或多个候选词语分配权重值；以及将所述权重值归一化，获得在j位置一个或多个候选词语的概率值，其中j取1～N的任意整数。

在其中一个实施例中，所述文本处理模型通过以下方法训练得到:获取训练样本：获取用户历史输入文本和与用户历史输入文本对应的用户选择结果；样本预处理：对用户历史输入文本和与用户历史输入文本对应的用户选择的兴趣点名称进行分词，获得分词后的用户历史输入文本序列和分词后用户选择的兴趣点名称序列；以及训练文本处理模型：以分词后的用户历史输入文本序列和分词后的用户选择结果序列作为样本，对初始模型进行训练，获得文本处理模型。

在其中一个实施例中，所述初始模型为包含注意力机制的序列到序列学习模型。

在其中一个实施例中，所述设定阈值由以下方法确定：对验证样本集合中的验证用输入文本进行分词处理；其中，验证样本集合包括验证用输入文本和与验证用输入文本对应的改写文本；将分词后的验证用输入文本序列输入文本处理模型；文本处理模型输出预测的改写文本序列，所述预测的改写文本序列包含预测改写文本序列中每个位置的一个或多个候选词语及其概率值；基于预测的改写文本序列和与验证用输入文本对应的改写文本的相似度，为所述每个位置保留相似度最高的候选词语及其概率值；以及基于保留的候选词语概率值，确定所述设定阈值。

在其中一个实施例中，所述设定阈值能够使得：所述j位置的一个或多个候选词语的概率值中最多存在一个大于所述设定阈值，其中j取1～N的任意整数。

在其中一个实施例中，所述频率截断步骤进一步包括：若在所述序列中的j-1位置处，获得的一个或多个候选词语的概率值中存在大于设定阈值的，则在j-1位置处保留大于设定阈值的候选词语；若在所述序列中的j位置处，获得的一个或多个候选词语的概率值中不存在大于设定阈值的，则结束预测；以及保留在1，…，j-1位置处的概率值大于设定阈值的候选词语，其中j取2～N的任意整数。

在其中一个实施例中，所述改写后的文本，进一步被用于检索。

根据本申请的一个方面，一种文本处理系统，包括：获取模块，用于获取输入文本；分词模块，用于对所述输入文本进行分词处理，获得分词序列；预测模块，用于根据所述分词序列的位置顺序1，2，…，j，j+1，…，N，预测并获得在每个位置的一个或多个候选词语，及各候选词语的概率值；其中，j取1～N的任意整数，N为所述输入文本的分词总数；以及概率截断模块，用于基于设定阈值，为所述分词序列中的每个位置保留概率值大于所述设定阈值的候选词语。

在其中一个实施例中，预测模块还用于：基于所述序列的j-1位置中概率值最大的候选词语，预测并获得序列中j位置的一个或多个候选词语及其概率值，其中j取2～N的任意整数。

在其中一个实施例中，所述预测模块通过文本处理模型预测并获得所述每个位置处的一个或多个候选词语，及各候选词语的概率值。

在其中一个实施例中，还包括归一化模块；预测所述序列中j位置的候选词语时，文本处理模型用于为所述一个或多个候选词语分配权重值；以及归一化模块用于将所述权重值归一化，获得在j位置一个或多个候选词语的概率值，其中j取1～N的任意整数。

在其中一个实施例中，所述概率截断模块进一步用于，若在所述序列中j-1位置处，获得的所述一个或多个候选词语的概率值中存在大于设定阈值的，则在j-1位置处保留大于设定阈值的候选词语；若在所述序列中j位置处，获得的一个或多个候选词语的概率值中不存在大于设定阈值的，则结束预测；以及保留在1，…，j-1位置处的概率值大于设定阈值的候选词语，其中j取2～N的任意整数。

在其中一个实施例中，还包括检索模块，所述检索模块用于使用所述改写后的文本进行检索。

根据本申请的一个方面，一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行上述文本处理方法中任意一项。

根据本申请的一个方面，一种文本处理装置，包括处理器，所述处理器用于执行上述文本处理方法中任意一项。

附图说明

在此所述的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的限定。各图中相同的标号表示相同的部件。

图1为根据本申请一些实施例所示的查询文本处理系统的配置示意图；

图2为根据本申请一些实施例的所示的计算设备的架构；

图3为根据本申请一些实施例所示的移动设备的硬件和/或软件组件的示意图；

图4为根据本申请一些实施例所示的文本处理方法的示例性流程图；

图5为根据本申请一些实施例所示的训练文本处理模型的示例性流程图；

图6为根据本申请一些实施例所示的概率截断的示例性流程框图；以及

图7为根据本申请一些实施例所示的文本处理系统的示例性功能框图。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排他性的罗列，方法或者设备也可能包含其他的步骤或元素。

如本申请和权利要求书中所示，“系统”、“模块”、“单元”和/或“部件”等词汇仅用以表示结构之间的层级关系，但并没有绝对的意义。可以理解的是，这些词汇可以根据需要进行彼此替换，或者被其他词汇代替。

虽然本申请对根据本申请的实施例的系统中的某些模块、单元和/或部件做出了各种引用，然而，任何数量的不同模块、单元和/或部件可以被使用并运行在客户端和/或服务器上。所述模块、单元和/或部件仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块、单元和/或部件。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面的操作不一定按照顺序来精确地执行。相反，可以按照倒序和/或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

根据本申请的一些实施例，图1所示的是根据本申请一些实施例所示的查询文本处理系统的配置示意图。查询查询文本处理系统100可以包括一个服务器110，一个网络120，一个或多个终端设备130，存储器140。

在一些实施例中，服务器110可以经由例如网络120从终端设备130接收相关输入文本请求(query)。在一些实施例中，服务器110可以经由例如网络120从存储器140接收用户历史输入文本请求和与历史输入文本对应的用户选择结果(例如，用户在操作界面点击的兴趣点(POI)名称)。在一些实施例中，所述文本请求和历史输入文本请求可以包含准确、完整、不完整、模糊和/或错误的信息。

在一些实施例中，服务器110可以是单个服务器或服务器组。服务器组可以是经由分别经由一个或多个接入点连接到网络120的接入点或分布式服务器组连接到网络120的中央服务器组。在一些实施例中，服务器110可以本地连接到网络120或者与网络120远程连接。例如，服务器110可以访问存储在终端设备130和/或存储器140。在一些实施例中，存储器140可以用作服务器110的后端数据存储器。在一些实施例中，服务器110可以在云平台上实现。例如，云平台可以包括私有云，公共云，混合云，社区云，分布式云，中间云，多云等等一种或几种的组合。

在一些实施例中，服务器110可以包括处理引擎112。处理引擎112可以处理与执行本申请中的一个或多个功能相关的信息和/或数据。在一些实施例中，处理引擎112可以包括一个或多个处理单元(例如，单核处理引擎或多核处理引擎)。例如，处理引擎112可以包括中央处理单元(CPU)，专用集成电路(ASIC)，专用指令集处理器(ASIP)，图形处理单元(GPU)等。物理处理单元(PPU)，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，可编程逻辑器件(PLD)，控制器，微控制器单元，精简指令集计算机(RISC)微处理器等中的一种或几种的组合。

网络120可以促进信息和/或数据的交换。在一些实施例中，查询文本处理系统100的一个或多个组件(例如，服务器110，终端设备130，存储器140)可以将信息和/或数据传输到另一个组件(例如，服务器110，终端设备130，存储器140)。例如，服务器110可以经由网络120从存储器140获得用户的历史输入文本请求和与历史输入文本请求对应的用户选择结果(例如，准确的POI名称)，和/或服务器110可以经由网络120从终端设备130获得用户输入文本请求。

在一些实施例中，网络120可以是任何类型的有线或无线网络，或其组合。仅例如，网络120可以包括有线网络，无线网络，光纤网络，电信网络，内联网，因特网，局域网(LAN)，广域网(WAN)等等。无线局域网(WLAN)，城域网(MAN)，广域网(WAN)，公共电话交换网络(PSTN)，蓝牙网络，ZigBee网络，近场通信(NFC)网络等等，或其任何组合。

在一些实施例中，用户可以是终端设备130的所有者。终端设备130可以接收来自用户的输入文本请求，并且经由网络120将与输入文本发送到服务器110中。终端设备130也可以经由网络120从服务器110接收信息。

在一些实施例中，终端设备130可以包括移动设备130-1，平板电脑130-2，个人电脑130-3等，或其任何组合。在一些实施例中，移动设备130-1可以包括智能家庭设备，可穿戴设备，智能移动设备，虚拟现实设备，增强现实设备等或其任何组合。在一些实施例中，智能家居设备可以包括智能照明设备，智能电器的控制设备，智能监控设备，智能电视，智能摄像机，对讲机等或其任意组合。在一些实施例中，可穿戴设备可以包括智能手环，智能鞋袜，智能玻璃，智能头盔，智能手表，智能衣服，智能背包，智能配件等或其任何组合。在一些实施例中，智能移动设备可以包括智能电话，个人数字助理(PDA)，游戏设备，导航设备，销售点(POS)设备等或其任何组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔，虚拟现实玻璃，虚拟现实补丁，增强现实头盔，增强现实玻璃，增强现实补丁等，或其任何组合。例如，虚拟现实设备和/或增强现实设备可以包括Google GlassTM，Oculus RiftTM，Hololens TM，Gear VRTM等。

存储器140可以存储数据和/或指令。数据可以包括与用户，终端设备130，等有关的数据。例如，用户有关的数据可以包括用户日志，包括历史用户输入的包含准确、完整、不完整、模糊和/或错误信息的文本和与历史输入文本对应的用户选择结果(例如，准确的POI名称)。在一些实施例中，存储器140可以存储服务器110可以执行的数据和/或指令用于执行本申请中描述的示例性方法。

在一些实施例中，存储器140可以包括大容量存储器，可移动存储器，易失性读写存储器，只读存储器(ROM)等或其任何组合。示例性大容量存储器可以包括磁盘，光盘，固态驱动器等。示例性的可移动存储器可以包括闪存驱动器，软盘，光盘，存储卡，压缩盘，磁带，示例性的易失性读写存储器可以包括随机存取存储器(RAM)。示例性的RAM可以包括动态RAM(DRAM)，双倍数据速率同步动态RAM(DDR SDRAM)，静态RAM(SRAM)，晶闸管RAM(T-RAM)和零电容器RAM(Z-RAM)(ROM)，可编程ROM(PROM)，可擦除可编程RO(EPROM)，电可擦除可编程ROM(EEPROM)，光盘ROM(CD-ROM)数字多功能盘ROM等。在一些实施例中，存储器140可以在云平台上实现。例如，云平台可以包括私有云，公共云，混合云，社区云，分布式云，中间云，多云等或其任何组合。

根据本申请的一些实施例，图2所示的是根据本申请一些实施例的所示的计算设备的架构。计算设备200可以是通用计算机或专用计算机。计算设备200可以被用来实施如所描述的查询文本处理系统100的任何组件。例如，服务器110的处理引擎112和/或终端设备130。为了方便起见，图2中只绘制了一台计算机，但是本实施例所描述查询文本处理系统100所需要的信息的相关计算机功能是可以以分布的方式、由一组相似的平台所实施的，分散系统的处理负荷。

计算设备200包括通信端口250，与之相连的是实现数据通信的网络(例如，网络120)。计算设备200还包括一个中央处理系统(CPU)单元220用于执行程序指令，由一个或多个处理器组成。示例性的计算机平台包括内部通信总线210，不同形式的程序存储器和数据存储器，例如硬盘270，只读存储器(ROM)230或随机存取存储器(RAM)240，用于各种数据文件的处理和/或传输。示例性的计算机平台还可以包括存储在ROM 230，RAM 240和/或要由处理器220执行的另一类型的非暂态存储介质中的程序指令。本申请的方法和/或过程可以是按程序指令执行。计算设备200还包括输入/输出组件(I/O)260，支持计算机与其他组件之间的输入/输出数据流。计算设备200也可以通过通信网络接受程序及数据。以支持计算机、用户以及其他组件之间的输入/输出。计算设备200也可以通过网络通信接收程序和数据。

为了方便说明，在计算设备200中仅描述了一个CPU和/或处理器。然而，应该注意的是，本申请中的计算设备200还可以包括多个CPU和/或处理器，因此实现本发明中描述的一个CPU和/或处理器执行的方法步骤也可以由多个CPU和/或处理器共同地或独立地执行。

根据本申请的一些实施例，图3是根据本申请一些实施例所示的移动设备的硬件和/或软件组件的示意图。如图3所示，移动设备300可以包括通信模块310，显示器320，图形处理单元(GPU)330，处理器340，I/O 350，内存360和存储器390。在一些实施例中，包括但不限于系统总线或控制器(未示出)，其他合适的组件也可以被包括在移动设备300中。在一些实施例中，移动操作系统370(例如，iOSTM，AndroidTM，Windows PhoneTM)和一个或多个应用程序380可以从存储器390被加载到内存360中以便由CPU 340执行。应用程序380可以包括服务器110发送，接收和呈现与查询文本相关的信息。用户与信息流的交互可以经由I/O350并通过网络120来实现，并且被提供给服务器110和/或查询文本处理系统100的其他组件。

根据本申请的一些实施例，图4是根据本申请的一些实施例所示的文本处理方法的示例性流程图。

在410中，可以经由终端设备130接收包含准确、完整、不完整、模糊和/或错误信息的输入文本请求。如图6所示，用户利用终端设备130输入“橘子酒店”文本。

在420中，可以利用分词工具将输入文本进行分词处理，获得分词后的输入文本序列。在一些实施例中，可以利用结巴改进的地图领域多粒度分词方法对所述文本进行分词处理，如图6所示，将输入文本“橘子酒店”文本进行分词处理，获得(橘子、酒店)输入文本序列。

在430中，利用分词后的输入文本序列进行预测改写。在一些实施例中，可以利用文本处理模型进行预测改写，如图6所示，将(橘子，酒店)输入文本序列输入文本处理模型中，进行预测改写。

在一些实施例中，文本处理模型是按分词序列的位置顺序进行预测改写，如1，2，…，j，j+1，…，N，其中，j取1～N的任意整数，N为所述输入文本的分词总数，如图6所示，文本处理模型按：先(橘子)后(酒店)的顺序进行预测改写。

在一些实施例中，在预测到序列中j-1位置时，可以获得一个或多个候选词语以及所述一个或多个候选词语的预测值，并基于设定阈值，为j-1位置保留概率值大于所述设定阈值的候选词语。如图6所示，在预测到(桔子)位置时，还可以存在(Orange)等其他词语，其中预测出(桔子)的概率值为P＝0.82，预测出(Orange)的概率值为P＝0.12，以及其他词语的概率值，在其他实施例中该位置处的全部候选词语的预测值之和为1，即P_桔子+P_Orange+P_其他1+P_其他2…＝1。基于有且仅有“桔子”的概率值大于设定阈值(0.7)，因此在此位置只保留(桔子)这个候选词语，删除其他候选词语。

在一些实施例中，预测到序列的j位置获得的一个或多个候选词语与j-1位置保留的候选词语及其概率值相关，且j位置获得的一个或多个候选词语概率值均不超过j-1位置保留的候选词语的概率值，其中j取2～N的任意整数。如图6所示，基于先于(酒店)位置保留的候选词语为(桔子)，因此当预测到(酒店)这个位置时，预测出(酒店)的概率值为P＝0.78，预测出(Hotel)的概率值为P＝0.11，以及其他词语的概率值，其中预测出的候选词语的概率值均小于(桔子)(P＝0.82)的概率值，在其他实施例中该位置处的全部候选词语的预测值之和为1，即P_酒店+P_Hotel+P_其他1+P_其他2…＝1。基于有且仅有(酒店)的概率值大于设定阈值(0.7)，因此在此位置只保留(酒店)这个候选词语，删除其他候选词语。

在一些实施例中，若在所述序列中的j位置处，获得的一个或多个候选词语的概率值中不存在大于设定阈值的，则结束预测。如图6所示，当文本处理模型预测到(西二旗店)位置时，基于(西二旗店)位置之前保留的候选词语为(酒店)，预测出(西二旗店)的概率值为P＝0.32，预测出(五道口店)的概率值为P＝0.24,预测出(旗舰店)的概率值为P＝0.33以及其他词语的概率值，其中预测出的候选词语的概率值均小于(酒店)(P＝0.78)的概率值，在其他实施例中该位置处的全部候选词语的预测值之和为1，即P_西二旗店+P_五道口店+P_旗舰店+P_其他1+P_其他2…＝1。基于预测出的候选词语的概率值均小于设定阈值(0.7)，则结束预测，并删除(西二旗店)、(五道口店)、(旗舰店)等词语。

在一些实施例中，按所述预测改写顺序，依次组合保留的全部候选词语，获得改写后的文本。如图6所示，将保留(桔子)和(酒店)两个词语组合为“桔子酒店”文本。

在440中，文本处理模型输出改写后的文本。如图6所示，文本处理模型输出改写为“桔子酒店”的文本。在一些实施例中，可以利用改写后的文本进行检索。如图6所示，用户输入有误的“橘子酒店”文本，经过文本处理模型的改写，输入文本被改写为“桔子酒店”文本，可以利用“桔子酒店”文本进行地图检索。

根据本申请的一些实施例，图5是根据本申请的一些实施例所示的训练文本处理模型的流程示意图。

本申请的文本处理模型可以基于序列对序列学习(Sequence2Sequence，或简称为Seq2Seq)模型，包括编码器(Encode)、解码器(Decode)和注意力机制(Attention)模块。编码是将输入序列转化成一个长度的向量，而解码是根据编码器生成的向量序列再转化成输出序列。传统Seq2Seq模型对短句子或短文本的生成有较好的效果，但是在生成较长文本时效果较差。加入Attention就是为了解决因句子太长导致语义信息丢失的问题。在一些实施例中，编码器和解码器可以包括卷积神经网络(convolutional neural networks，CNN)、循环神经网络(recurrent neural networks，RNN)、门控循环单元(gated recurrent unit,GRU)、时间递归神经网络(long short term memory，LSTM)以及双向循环神经网络(bidirectional recurrent neural networks，BiRNN)等中的一种或几种。优选的，本申请的文本处理模型，编码器可以使用BiRNN，解码器可以使用RNN。

在510，可以通过存储器140中日志信息获取用户日志，其中所述用户日志包括用户历史输入的包含准确、完整、不完整、模糊和/或错误信息的文本和与历史输入文本对应的用户选择结果(例如，准确的POI名称)。如，用户选择的准确的POI名称可以是“桔子酒店西二旗店”，而用户的历史输入文本是不完整的“桔子酒店”、或用户选择的准确的POI名称是“桔子酒店”，而用户的历史输入文本是错误的“橘子酒店”。在一些实施例中，可以利用历史输入文本和与历史输入文本对应的用户选择结果(例如，准确的POI名称)作为模型训练的语料。

在520中，可以利用分词工具对所述历史输入文本和与历史输入文本对应的用户选择结果进行分词处理，获得分词后的历史输入文本序列和与历史输入文本对应的用户选择结果(例如，准确的POI名称)序列。在一些实施例中，可以利用结巴改进的地图领域多粒度分词方法对所述文本进行分词处理，并将分词后序列中的每个词语作为模型输入的最小单位，例如，历史输入文本是“橘子酒店”，与历史输入文本对应的用户选择结果是“桔子酒店”；经过分词处理后可以获得(橘子，酒店)序列，和(桔子，酒店)序列。在一些实施例中，对所述训练文本进行分词处理的方法可以与输入文本处理模型相同。

在530中，可以利用分词后的文本序列训练文本处理模型，获得文本处理模型的参数，进而得到训练好的文本处理模型。在一些实施例中，使用训练好的文本处理模型对输入文本进行改写时，文本处理模型预测出输入文本相应分词位置上的多个候选词语及其网络权重值。在一些实施例中，可以对候选词语的网络权重值进行归一化得到候选词语的概率值。例如，候选词语的概率值的获取方法如图6所示，在预测到(桔子)这个位置时，还可以存在(Orange)等其他词语，可以利用softmax函数将所述一个或多个候选词语的网络权重值归一化，获得预测出“桔子”的概率值为P＝0.82，预测出(Orange)的概率值为P＝0.12，以及其他词语的概率值，且P_桔子+P_Orange+P_其他1+P_其他2…＝1。

在一些实施例中，可以利用验证集合为文本处理模型设定阈值，使得改写文本序列中每个位置至多保留一个候选词语，以此来消除预测的模糊度，如设定阈值可以为0.7。在一些实施例中，验证集合可以是人工搜集的文本集合，其中包含人工搜集的有误的验证用输入文本和与有误的输入文本对应的准确文本，例如，有误的“补丁酒店”文本和对应准确的“布丁酒店”文本。其中验证集合与用于训练文本处理模型的样本集合独立同分布，两各集合的交集可以为空。

在一些实施例中，可以将验证集合中分词后有误的验证用输入文本序列输入文本处理模型中进行试验；文本处理模型可以输出预测改写文本序列，包含序列中每个位置的一个或多个候选词语及其概率值；把对应的准确文本序列和预测的改写文本序列按位置顺序比对相似度，为预测文本处理序列的每个位置保留相似度最高的候选词语及其概率值，利用被保留候选词语的概率值确定阈值区间，使得预测文本处理序列中每个位置至多保留一个候选词语。以有误的输入序列(补丁，酒店)为例，文本处理模型输出预测文本处理序列((布丁，补订，pudding)、(酒店，Hotel，旅馆))，其中P_布丁,0.8+P补订,0.1+P_pudding,0.1＝1,P_酒店,0.7+P_旅馆,0.1+P_Hotel,0.2＝1；公式中，P下标中的数值代表相应候选分词的概率值。将对应的正确序列(布丁，酒店)和预测序列((布丁，补订，pudding)、(酒店，Hotel，旅馆))按位置顺序比对语义相似度，分别保留(布丁)和(酒店)；为了使得预测文本处理序列中每个位置至多保留一个候选词语，可以选取的阈值区间T为0.2＜T≤0.7。在一些实施例中，可以人为进行语义相似度比对。在一些实施例中，基于多组验证集合中的预测改写文本序列确定若干阈值区间，再逐步缩小阈值选择范围，最后人为确定设定阈值，使得文本处理模型的满足预测改写文本序列中每个位置至多保留一个候选词语且预测改写能力较强。

在一些实施例中，可以将验证集合中分词后有误的验证用输入文本序列输入文本处理模型中进行试验；文本处理模型可以输出预测改写文本序列，包含序列中每个位置的一个或多个候选词语及其概率值；把对应的准确文本序列和预测的改写文本序列按位置顺序比对相似度，为预测文本处理序列的每个位置保留相似度最高的候选词语及其概率值，利用被保留候选词语的概率值直接确定设定阈值，使得预测文本处理序列中每个位置至多保留一个候选词语。以有误的输入序列(补丁，酒店)为例，文本处理模型输出预测文本处理序列((布丁，补订，pudding)、(酒店，Hotel，旅馆)、(西二旗店，旗舰店，五道口店))，其中P_布丁,0.8+P_补订,0.1+P_pudding,0.1＝1,P_酒店,0.7+P_旅馆,0.1+P_Hotel,0.2＝1，P_{西二旗店,0.69}+P_{旗舰店,0.21}+P_{五道口店,0.1}＝1；公式中，P下标中的数值代表相应候选分词的概率值。将对应的正确序列(布丁，酒店)和预测序列((布丁，补订，pudding)、(酒店，Hotel，旅馆)、(西二旗店，旗舰店，五道口店))按位置顺序比对语义相似度，保留(布丁)和(酒店)两个候选词语及其概率值0.8、0.7；为了使得预测文本处理序列中每个位置至多保留一个候选词语，可以选取设定阈值为0.7。在一些实施例中，可以人为进行语义相似度比对。

根据本申请的一些实施例，图6所示的是概率截断的一个示例性流程框图。具体描述如上所示，在此不再赘述。

根据本申请的一些实施例，图7所示的是一种文本处理的系统的示例性示意图。文本处理系统600包括获取模块、分词模块、预测模块、概率截断模块和组合模块。

在610中，获取模块可以接收通过终端设备130输入的查询文本。在一些实施例中，所述输入文本和用户历史输入文本可以包含准确、完整、不完整、模糊和/或错误信息。例如，用户本来需要查询“桔子酒店西二旗店”文本，却输入模糊的“桔子酒店”文本、或用户本来需要查询“桔子酒店”文本，却输入错误的“橘子酒店”文本等。

在620中，分词模块可以使用分词方法对输入文本进行分词处理，获取分词序列。在一些实施例中，可以利用结巴改进的地图领域多粒度的分词方法对输入文本进行分词，获得分词后的输入文本序列。例如用户输入文本“橘子酒店”，经过分词处理后可以获得(橘子，酒店)输入文本序列。

在630中，预测模块可以用于根据所述分词序列的位置顺序1，2，…，j，j+1，…，N，预测并获得在每个位置的一个或多个候选词语，及各候选词语的概率值；其中，j取1～N的任意整数，N为所述输入文本的分词总数。如图6所示，文本处理模型按：先(橘子)后(酒店)的顺序进行预测改写。

在一些实施例中，在预测到序列中j-1位置时，可以获得一个或多个候选词语以及所述一个或多个候选词语的预测值。如图6所示，在预测到(桔子)位置时，还可以存在(Orange)等其他词语，其中预测出“桔子”的概率值为P＝0.82，预测出(Orange)的概率值为P＝0.12,以及其他词语的概率值，在其他实施例中该位置处的全部候选词语的预测值之和为1，即P_桔子+P_Orange+P_其他1+P_其他2…＝1。

在一些实施例中，预测到序列的j位置获得的一个或多个候选词语与j-1位置保留的候选词语及其概率值相关，且j位置获得的一个或多个候选词语概率值均不超过j-1位置保留的候选词语的概率值，其中j取2～N的任意整数。如图6所示，基于先于(酒店)位置保留的候选词语为(桔子)，因此当预测到(酒店)位置时，预测出(酒店)的概率值为P＝0.78，预测出(Hotel)的概率值为P＝0.11,以及其他词语的概率值，其中预测出的候选词语的概率值均小于(桔子)(P＝0.82)的概率值，在其他实施例中该位置处的全部候选词语的预测值之和为1，即P_酒店+P _Hotel+P_其他1+P_其他2…＝1；相同的，当文本处理模型预测到(西二旗店)位置时，基于先于(西二旗店)位置保留的候选词语为(酒店)，预测出(西二旗店)的概率值为P＝0.32，预测出(五道口店)的概率值为P＝0.24,预测出(旗舰店)的概率值为P＝0.33以及其他词语的概率值，其中预测出的候选词语的概率值均小于(酒店)(P＝0.78)的概率值，在其他实施例中该位置处的全部候选词语的预测值之和为1，即P_西二旗店+P_五道口店+P_旗舰店+P_其他1+P_其他2…＝1。

在一些实施例中，预测模块630可以借助文本处理模型实现其功能。

在640中，概率截断模块可以基于设定阈值，为所述分词序列中的每个位置保留概率值大于所述设定阈值的候选词语。如图6所示，在预测到(桔子)位置时，P_桔子+P_Orange+P_其他1+P_其他2…＝1，基于有且仅有“桔子”的概率值大于设定阈值(0.7)，因此在此位置只保留(桔子)这个候选词语，删除其他候选词语；相同的，当预测到(酒店)位置时，P_酒店+P _Hotel+P_其他1+P_其他2…＝1，基于有且仅有(酒店)的概率值大于设定阈值(0.7)，因此在此位置只保留(酒店)这个候选词语，删除其他候选词语。

在一些实施例中，若在所述序列中的j位置处，获得的一个或多个候选词语的概率值中不存在大于设定阈值的，则结束预测。如图6所示，当文本处理模型预测到(西二旗店)这个位置时，还存在(五道口店)和(旗舰店)等其他词语，其中预测出(西二旗店)的概率值为P＝0.32，预测出(五道口店)的概率值为P＝0.24,预测出(旗舰店)的概率值为P＝0.33以及其他词语的概率值，在其他实施例中该位置处的全部候选词语的预测值之和为1，即P_西二旗店+P_五道口店+P_旗舰店+P_其他1+P_其他2…＝1，基于预测出的候选词语的概率值均小于设定阈值(0.7)，则结束预测，并删除(西二旗店)、(五道口店)、(旗舰店)等词语。

在一些实施例中，还可以包括组合模块,组合模块可以按所述预测顺序，依次组合保留的全部候选词语，获得改写后的文本。在一些实施例中，还可以包含检索模块，将所述改写后的文本进行检索。例如，用户输入错误的“橘子酒店”文本，文本处理模型将有误的文本处理为“桔子酒店”文本，可以利用改写后的“桔子酒店”文本进行地图检索。

本申请以上各实施例可能带来的有益效果包括但不限于：(1)一种查询改写的方法和系统，能够在最大程度保留用户的信息需求的前提下，纠正和改写用户错误、模糊和/或不完整的查询文本输入；(2)利用少量人工标注，提高对用户查询文本处理的精度、准确度和速度；(3)改写后的查询文本可以进一步被用于检索。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

以上的描述仅仅是本发明的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述发明披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质、或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档、物件等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims

1.一种文本处理方法，包括：

获取步骤：获取输入文本；

分词步骤：对所述输入文本进行分词处理，获得分词序列；

概率预测步骤：根据所述分词序列的位置顺序1，2，…，j，j+1，…，N，预测并获

得在每个位置的一个或多个候选词语，及各候选词语的概率值；其中，j取1～N的任意整数，N为所述输入文本的分词总数；以及

概率截断步骤：基于设定阈值，为所述分词序列中的每个位置保留概率值大于所述设定阈值的候选词语。

2.根据权利要求1所述的方法，其特征在于，概率预测步骤进一步包括：基于所述序列的j-1位置中概率值最大的候选词语，预测并获得序列中j位置的一个或多个候选词语及其概率值，其中j取2～N的任意整数。

3.根据权利要求1所述的方法，其特征在于，所述序列的j位置的候选词语的概率值均不超过j-1位置的候选词语概率值中的最大值，其中j取2～N的任意整数。

4.根据权利要求1所述的方法，其特征在于，所述概率预测步骤由文本处理模型实现。

5.根据权利要求4所述的方法，其特征在于，预测所述序列中j位置的候选词语时，

所述文本处理模型为所述一个或多个候选词语分配权重值；以及

将所述权重值归一化，获得在j位置一个或多个候选词语的概率值，其中j取1～N的

任意整数。

6.根据权利要求4所述的方法，其特征在于，所述文本处理模型通过以下方法训练得到:

获取训练样本：获取用户历史输入的文本和与用户历史输入文本对应的用户选择结果；

样本预处理：对用户历史输入的文本和与用户历史输入文本对应的用户选择结果进行分词，

获得分词后的用户历史输入文本序列和分词后用户选择结果序列；以及

训练文本处理模型：以分词后的用户历史输入文本序列和分词后的用户点击

文本作为样本，对初始模型进行训练，获得文本处理模型。

7.根据权利要求6所述的方法，其特征在于，所述初始模型为包含注意力机制的序列到序列学习模型。

8.根据权利要求1所述的方法，其特征在于，所述设定阈值由以下方法确定：

对验证样本集合中的验证用输入文本进行分词处理；其中，验证样本集合包括验证用输入文本和与验证用输入文本对应的改写文本；

将分词后的验证用输入文本序列输入文本处理模型；

文本处理模型输出预测的改写文本序列，所述预测的改写文本序列包含预测改写文本序列中每个位置的一个或多个候选词语及其概率值；

基于预测的改写文本序列和与验证用输入文本对应的改写文本的相似度，为所述每个位置保留相似度最高的候选词语及其概率值；以及

基于保留的候选词语概率值，确定阈值。

9.根据权利要求1或8所述的方法，其特征在于，所述设定阈值能够使得：所述j位置的一个或多个候选词语的概率值中最多存在一个大于所述设定阈值，其中j取1～N的任意整数。

10.根据权利要求1所述的方法，其特征在于，所述概率截断步骤进一步包括：

若在所述序列中的j-1位置处，获得的一个或多个候选词语的概率值中存在大于设定阈值的，则在j-1位置处保留大于设定阈值的候选词语；

若在所述序列中的j位置处，获得的一个或多个候选词语的概率值中不存在大于设定阈值的，则结束预测；以及

保留在1，…，j-1位置处的概率值大于设定阈值的候选词语，其中j取2～N的任意整数。

11.根据权利要求1所述的方法，其特征在于，保留下来的候选词语，进一步被用于检索。

12.一种文本处理系统，包括：

获取模块，用于获取输入文本；

分词模块，用于对所述输入文本进行分词处理，获得分词序列；

预测模块，用于根据所述分词序列的位置顺序1，2，…，j，j+1，…，N，预测并获

概率截断模块，用于基于设定阈值，为所述分词序列中的每个位置保留概率值大于所述设定阈值的候选词语。

13.根据权利要求12所述的系统，其特征在于，预测模块还用于：

基于所述序列的j-1位置中概率值最大的候选词语，预测并获得序列中j位置的一个或多个候选词语及其概率值，其中j取2～N的任意整数。

14.根据权利要求12所述的系统，其特征在于，所述序列的j位置的候选词语的概率值均不超过j-1位置的候选词语概率值中的最大值，其中j取2～N的任意整数。

15.根据权利要求12所述的系统，其特征在于，所述预测模块通过文本处理模型预测并获得所述每个位置处的一个或多个候选词语，及各候选词语的概率值。

16.根据权利要求15所述的系统，其特征在于，还包括归一化模块，预测所述序列中j位置的候选词语时，

文本处理模型用于为所述一个或多个候选词语分配权重值；以及

归一化模块用于将所述权重值归一化，获得在j位置一个或多个候选词语的概率值，其中j取1～N的任意整数。

17.根据权利要求12所述的系统，其特征在于，所述设定阈值能够使得：所述j位置的一个或多个候选词语的概率值中最多存在一个大于所述设定阈值，其中j取1～N的任意整数。

18.根据权利要求12所述的系统，其特征在于，所述概率截断模块进一步用于，当预测所述序列中j位置时，

19.根据权利要求12所述的系统，其特征在于，还包括检索模块，所述检索模块用于使用保留下来的候选词语进行检索。

20.一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行如权1～11中任意一项所述的方法。

21.一种文本处理装置，其特征在于，包括处理器，所述处理器用于执行如权1～11中任意一项所述的方法。