CN110889028A - 一种语料处理以及模型训练的方法及系统 - Google Patents

一种语料处理以及模型训练的方法及系统 Download PDF

Info

Publication number
CN110889028A
CN110889028A CN201810929546.3A CN201810929546A CN110889028A CN 110889028 A CN110889028 A CN 110889028A CN 201810929546 A CN201810929546 A CN 201810929546A CN 110889028 A CN110889028 A CN 110889028A
Authority
CN
China
Prior art keywords
corpus
user
input
module
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810929546.3A
Other languages
English (en)
Inventor
胡娟
陈欢
宋奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201810929546.3A priority Critical patent/CN110889028A/zh
Publication of CN110889028A publication Critical patent/CN110889028A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Abstract

一种语料处理以及模型训练的方法及系统。所述方法包括:挖掘用户会话;获取用户输入的检索词与选择的结果;组合输入的检索词与选择的结果形成至少一组语料对;基于所述至少一组语料对构造平行语料。获得的平行语料可以进一步进行模型训练。本发明提供的方法可以通过挖掘用户会话,分析用户检索过程中的自纠错行为,获取平行语料,将平行语料库作为样本进行模型训练,建立检索词纠错模型。

Description

一种语料处理以及模型训练的方法及系统
技术领域
本发明涉及计算机系统,特别涉及一种语料处理进行模型训练的 方法及系统。
背景技术
随着互联网的发展与普及,越来越多的人习惯于通过计算设备获 取知识、信息以及服务。高效快捷的搜索也成为人们生活中不可或缺 的一部分。在搜索框中输入检索词是最常见的搜索方式。在实际使用 过程中,常常出现检索词输入错误、输入检索词遗漏字符等问题。
为了解决上述问题,人们提出了检索词纠错方法。
发明内容
本发明提供了一种语料处理方法,具体包括获取用户输入的检索 词与选择的结果,组合输入的检索词与选择的结果形成至少一组语料 对,基于至少一组语料对构造平行语料,进而得到平行语料库。获得 的平行语料可以用来训练检索词纠错模型,使得该模型能自动对用户 输入的检索词进行纠错。获得的平行语料还可以用在其他场景,例如 机器翻译、输入法纠错等。
第一方面,本发明披露了一种语料处理的方法。该方法包括:获 取用户输入的检索词与选择的结果;组合输入的检索词与选择的结果 形成至少一组语料对;基于所述至少一组语料对构造平行语料,进而 得到平行语料库。
在一些实施例中,所述语料处理的方法包括:基于用户日志挖掘 用户会话;基于所述用户会话获取用户输入的检索词与选择的结果。
在一些实施例中,基于用户日志挖掘所述用户会话的步骤,包括: 结合用户标识符及设定时间段,从所述用户会话中筛选出同一用户在 所述设定时间段内的操作,进而得到所述用户会话。
在一些实施例中,所述语料处理的方法进一步包括:过滤所述至 少一组语料对,并将过滤后的所述至少一组语料对构造为平行语料。
在一些实施例中,过滤所述至少一组语料对的步骤,包括:排除 输入的检索词长度大于预设阈值的语料。
在一些实施例中,过滤所述至少一组语料对的步骤,还包括:排 除输入的检索词是选择的结果的前缀字符串的语料。
在一些实施例中,过滤所述至少一组语料对的步骤,进一步包括: 统计各条语料的内部编辑距离,并排除内部编辑距离大于预设阈值的 语料。
在一些实施例中,过滤所述至少一组语料对的步骤,进一步包括: 统计各条语料的内部转移概率,排除内部转移概率小于预设阈值的语 料。
第二方面,本发明披露了一种语料处理的系统。该系统包括:挖 掘模块,用于挖掘用户会话;获取模块,用于获取所述用户会话中用 户输入的检索词和选择的结果;组合模块,用于组合输入的检索词与 选择的结果形成至少一组语料对;构造模块,用于基于所述至少一组 语料对构造平行语料库。
第三方面,本发明披露了一种计算机可读存储介质。该存储介质 存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机 执行语料处理的方法。
第四方面,本发明披露了一种语料处理的装置,该语料处理的装 置包括处理器,所述处理器用于执行语料处理的方法。
第五方面,本发明披露了一种基于平行语料训练模型的方法。所 述基于平行语料训练模型的方法可以使用由语料处理的方法获得的 平行语料进行模型训练。
第六方面,本发明还披露了一种检索词纠错的方法。所述检索词 纠错的方法包括:获取用户输入的检索词;使用检索词纠错模型对用 户输入的检索词进行处理,得到纠错后的检索词;其中,所述检索词 纠错模型为使用如权利要求1至9任一所述方法获得的平行语料训练 得到。
附图说明
图1所示的是一种语料处理的一种示例系统配置示意图;
图2是用于实现本发明的专用系统的示例性计算设备的结构框 图;
图3是用于实现本发明技专用系统的示例性移动设备的结构框 图;
图4是根据本发明的一些实施例所示的示例性语料处理装置的结 构框图;
图5是根据本发明的一些实施例所示的示例性挖掘模块的结构框 图;
图6是根据本发明的一些实施例所示的示例性语料过滤模块的结 构框图;
图7是根据本发明的一些实施例所示的用于实现语料处理的示例 性流程示意图;
图8是根据本发明的一些实施例所示的用于实现挖掘用户会话的 示例性流程示意图;
图9是根据本发明的一些实施例所示的示例性语料的示意图;
图10是根据本发明的一些实施例所示的对语料特征进行统计的 示例性流程示意图;
图11是根据本发明的一些实施例所示的实现判断语料是否满足 过滤条件的示例性流程示意图;
图12是根据本发明的一些实施例所示的实现模型训练的示例性 流程示意图。
具体实施方式
为了更清楚地说明本申请的实施例的技术方案,下面将对实施例 描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的 附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员 来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请 应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中 相同标号代表相同结构或操作。
如本申请和权利要求书中所示,除非上下文明确提示例外情形, “一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包 括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识 的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块或单元 做出了各种引用,然而,任何数量的不同模块或单元可以被使用并运 行在客户端和/或服务器上。本申请中的模块可采用完全硬件实施例、 完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申 请可采用在一个或多个其中包含有计算机可用程序代码的计算机可 用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上 实施的计算机程序产品的形式。所述模块仅是说明性的,并且所述系 统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所 执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确 地执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将 其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本申请的实施例可以应用于不同的搜索系统,不同的搜索系统包 括但不限于搜索引擎、按需服务系统、信息检索系统、位置服务系统 等中的一种或几种组合。本申请的不同实施例应用场景包括但不限于 网页、浏览器插件、客户端、定制系统、企业内部分析系统、人工智 能机器人等中的一种或几种的组合。应当理解的是,本申请的系统及 方法的应用场景仅仅是本申请的一些示例或实施例,对于本领域的普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附 图将本申请应用于其它类似情景。例如,其他类似的语料处理系统。
本申请描述的“用户”、“需求者”、“服务需求者”、“使用 需求者”等是可以互换的,是指需要或者订购服务或进行搜索的一 方,可以是个人,也可以是工具。同样地,本申请描述的“提供者”、 “供应者”、“服务提供者”、“服务者”、“服务方”等也是可以 互换的,是指提供服务或者协助提供服务或返回搜索结果的个人、工 具或者其他实体等。另外,本申请描述的“用户”可以是需要或者订 购服务或进行搜索的一方,也可以是提供服务或者协助提供服务或返 回搜索结果的一方。
图1所示的是一种语料处理系统的一种示例系统配置示意图。示 例性语料处理系统100可以包括语料处理装置110、网络120、用户终 端130和存储器150。在一些实施例中,语料处理装置110可以用于对 收集的信息进行分析加工以生成分析结果的系统。语料处理装置110 可以是一个服务器,也可以是一个服务器群组。一个服务器群组可以 是集中式的,例如数据中心。一个服务器群组也可以是分布式的,例 如一个分布式系统。语料处理装置110可以是本地的,也可以是远程 的。语料处理装置110可以包括用于执行语料处理装置110的指令(程 序代码)的语料处理引擎112。例如,语料处理引擎112能够执行语料 处理的程序的指令,进而通过一定的算法进行语料处理。
用户终端130是指发布服务订单或服务请求或进行搜索的个人、 工具或者其他实体。用户终端130可以在搜索引擎、按需服务系统、 信息检索系统、位置服务系统中进行搜索。搜索引擎包括但不限于 Google、Bing、雅虎搜索、百度、有道等中的一种或几种的组合。按 需服务系统包括但不限于运输按需服务、医疗按需服务、采购按需服 务、家政按需服务等中的一种或几种组合。信息检索系统包括但不限 于学术检索、数据检索、资讯检索等中的一种或几种组合。位置服务 系统包括但不限于导航服务、定位服务、天气服务等中的一种或几种 组合。用户终端130包括但不限于台式电脑130-1、笔记本电脑130-2、 交通工具的内置设备130-3、移动设备130-4等中的一种或几种的组 合。语料处理装置110可以直接访问存取或储存在存储器140的数据信 息,也可以直接通过网络120访问存取在用户终端130的信息。
在一些实施例中,存储器150可以泛指具有存储功能的设备。存 储器150主要用于存储从用户终端130收集的数据和语料处理装置110 工作中产生的各种数据。存储器150可以是本地的,也可以是远程的。 系统数据库与系统其他模块间的连接或通信可以是有线的,也可以是 无线的。
网络120可以提供信息交换的渠道。网络120可以是单一网络,也 可以是多种网络组合的。网络120可以包括但不限于局域网、广域网、 公用网络、专用网络、无线局域网、虚拟网络、都市城域网、公用开 关电话网络等中的一种或几种的组合。网络120可以包括多种网络接 入点,如有线或无线接入点、基站(如120-1,120-2)或网络交换点, 通过以上接入点使数据源连接网络120并通过网络发送信息。
图2是用于实现本发明的专用系统的示例性计算设备200的框图。 如图2所示,计算设备200可以包括处理器210、存储器220、输入/输出 接口230和通信端口240。
处理器210可以执行计算指令(程序代码)并执行本发明描述的 语料处理系统100的功能。所述计算指令可以包括程序、对象、组件、 数据结构、过程、模块和功能(所述功能指本发明中描述的特定功能)。 例如,处理器210可以处理从语料处理系统100的其他任何组件获得的 图像或文本数据。在一些实施例中,处理器210可以包括微控制器、 微处理器、精简指令集计算机(RISC)、专用集成电路(ASIC)、应 用特定指令集处理器(ASIP)、中央处理器(CPU)、图形处理单元 (GPU)、物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机(ARM)、可 编程逻辑器件以及能够执行一个或多个功能的任何电路和处理器等, 或其任意组合。仅为了说明,图2中的计算设备200只描述了一个处理 器,但需要注意的是本发明中的计算设备200还可以包括多个处理器。
存储器220可以存储从语料处理系统100的任何其他组件获得的 数据/信息。在一些实施例中,存储器220可以包括大容量存储器、可 移动存储器、易失性读取和写入存储器和只读存储器(ROM)等,或 其任意组合。示例性大容量存储器可以包括磁盘、光盘和固态驱动器 等。可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩 盘和磁带等。易失性读取和写入存储器可以包括随机存取存储器 (RAM)。RAM可以包括动态RAM(DRAM)、双倍速率同步动态 RAM(DDR SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM) 和零电容(Z-RAM)等。ROM可以包括掩模ROM(MROM)、可编 程ROM(PROM)、可擦除可编程ROM(PEROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用盘ROM等。
输入/输出接口230可以用于输入或输出信号、数据或信息。在一 些实施例中,输入/输出接口230可以使用户与语料处理系统100进行 联系。在一些实施例中,输入/输出接口230可以包括输入装置和输出 装置。示例性输入装置可以包括键盘、鼠标、触摸屏和麦克风等,或 其任意组合。示例性输出设备可以包括显示设备、扬声器、打印机、 投影仪等,或其任意组合。示例性显示装置可以包括液晶显示器 (LCD)、基于发光二极管(LED)的显示器、平板显示器、曲面显 示器、电视设备、阴极射线管(CRT)等,或其任意组合。
通信端口240可以连接到网络以便数据通信。所述连接可以是有 线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电 话线等,或其任意组合。无线连接可以包括蓝牙、Wi-Fi、WiMax、 WLAN、ZigBee、移动网络(例如,3G、4G或5G等)等,或其任意 组合。在一些实施例中,通信端口240可以是标准化端口,如RS232、 RS485等。在一些实施例中,通信端口240可以是专门设计的端口。
图3是用于实现本发明的专用系统的示例性移动设备300的框图。 如图3所示,所述移动设备300可以包括通信平台310、显示器320、图 形处理器(GPU)330、中央处理器(CPU)340、输入/输出接口350、 内存360、存储器370等。在一些实施例中,操作系统361(如,iOS, Android,Windows Phone等)和应用程序362可以从存储器370加载到 内存360中,以便由CPU 340执行。应用程序362可以包括浏览器或用 于从语料处理系统101接收成像、图形处理、音频或其他相关信息的 应用程序。
为了实现在本发明中描述的各种模块、单元及其功能,计算设备 或移动设备可以用作本发明所描述的一个或多个组件的硬件平台。这 些计算机或移动设备的硬件元件、操作系统和编程语言本质上是常规 的,并且本领域技术人员熟悉这些技术后可将这些技术适应于本发明 所描述的检索词纠错系统。具有用户界面元件的计算机可以用于实现 个人计算机(PC)或其他类型的工作站或终端设备,如果适当地编程, 计算机也可以充当服务器。
图4是根据本发明的一些实施例示出的示例性语料处理的装置的 结构框图。该装置中的全部或部分功能模块可运行在语料处理装置 110上。
语料处理装置110,包括:挖掘模块410、获取模块420、组合模块 430和构造模块450。装置110中各个模块的功能可以由计算机程序实 现。各模块之间的连接形式可以是有线的、无线的、或两者的结合。 任何一个模块都可以是本地的、远程的、或两者的结合。模块间的对 应关系可以是一对一的,或一对多的。
挖掘模块410用于挖掘用户会话。用户会话是用户在一次访问服 务器过程中,从进入该服务器到离开该服务器期间的一系列操作。用 户日志记录运行中的操作系统361和/或应用程序362的执行活动。用 户标识符用于辨识用户。时间戳是一段字符串或编码信息,其被用于 辨识记录的时间信息。基于用户标识符及设定时间段,从用户日志中 筛选出同一用户在设定时间段内的操作,进而得到用户会话。
获取模块420用于获取所述用户会话中用户输入的检索词和选择 的结果。从用户会话中可以获取用户输入的检索词和选择的结果。用 户会话是从用户日志中筛选出的设定时间段内的操作。在一些实施例 中,用户日志可以包括用户检索日志和用户点击日志。用户输入的检 索词记录在用户检索日志中。用户选择的结果记录在用户点击日志 中。用户检索日志和用户点击日志均存储在图5所示的日志存储模块 中。用户会话中包含同一用户在设定时间段内输入的检索词和选择的 结果。
组合模块430用于组合输入的检索词和选择的结果形成至少一组 语料对。在一些实施例中,获取模块420获取输入的检索词X和选择的 结果Y,组合模块430将获取模块420获取的检索词进行组合形成语料 (X,Y)。组合模块430用于组合获取单元420获取的输入的检索词和 选择的结果,形成至少一组语料对。在一些实施例中,一个用户会话 中有多个输入的检索词(X1,X2…Xn)以及一个选择的结果Y。因此可 以形成多条语料(X1,Y)(X2,Y)…(Xn,Y)。
构造模块450用于构造平行语料库。平行语料是两个表现同一对 象的短语或句子。构造模块450基于处理过的语料构造平行语料库。 平行语料库中的平行语料将作为样本进行模型训练,从而实现检索词 纠错。模型训练过程将在后文详细描述。
在其他实施例中,语料处理装置110还可以包括语料过滤模块 440。语料过滤模块440用户过滤至少一组语料对。在一个具体实施例 中,语料过滤模块440用于统计语料的多个特征,并根据设定的过滤 条件对语料进行过滤,保留满足预设过滤条件的语料。关于语料过滤 模块440的进一步说明,参见下文关于图6的相关内容。
相应的,构造模块450用于基于过滤后的语料构造平行语料库。
所述语料处理装置110可以进一步包括计算机可读存储介质,所 述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令 后,计算机执行本发明实施例提供的语料处理的方法。
所述语料处理装置110可以进一步包括处理器,所述处理器可以 读取所述计算机指令,执行本发明实施例提供的语料处理的方法。
图5是根据本发明的一些实施例所示的示例性挖掘模块的结构框 图。挖掘模块410进一步包括日志获取单元411和会话挖掘单元412.
日志获取单元411用于获取用户检索日志和用户点击日志。用户 检索日志记录用户输入的检索词,用户点击日志记录用户选择的结 果。在一些实施例中,用户选择的结果为用户发单的检索词。
会话挖掘单元412用于挖掘用户会话。将同一个用户在一定时间 戳内进行的操作作为一个用户会话。挖掘用户会话的过程将在下文详 细描述。
图6是根据本发明的一些实施例所示的示例性语料过滤模块的结 构框图。语料过滤模块440进一步包括语料统计单元441和语料过滤单 元442。
语料统计单元441用于统计语料的多个特征。所述特征包括语料 出现频次、语料内部转移概率、语料内部编辑距离等,或其组合。语 料内部转移概率是在一组语料对(X,Y)中,用户输入检索词X后选择的 结果是Y的概率。语料内部编辑距离是在一组语料对(X,Y)中,由输入 的检索词X转成选择的结果Y所需要的最少编辑操作次数。
语料过滤单元442用于基于预设的语料过滤条件过滤语料。语料 过滤条件包括多个预设阈值。所述预设阈值包括但不仅限于检索词长 度阈值、语料内部编辑距离阈值、语料内部转移概率阈值等,或其组 合。在一些实施例中,可以将输入的检索词与选择的结果之间的关系 作为过滤条件。例如,输入的检索词是选择的结果的一部分。
图7是根据本发明的一些实施例所示的用于实现语料处理进行模 型训练的示例性流程示意图,包括以下几个步骤:
步骤710:获取用户输入的检索词与选择的结果;
步骤720:组合输入的检索词与选择的结果形成至少一组语料对;
步骤730:基于所述至少一组语料对构造平行语料,进而得到平 行语料库。
在步骤710中,获取模块420获取用户输入的检索词和选择的结 果。在一些实施例中,获取模块420基于用户会话获取用户输入的检 索词与选择的结果。例如,在一个用户会话中,用户输入的检索词包 括X1,X2…Xn,用户选择的结果为Y,,因此获取X1,X2…Xn和Y。在一 些实施例中,某用户在打车软件中输入检索词X1“新世纪”,最终选择 的结果Y为“新世界”。获取模块420获取检索词“新世纪”与选择结果 “新世界”。
图4所示的挖掘模块410基于用户日志挖掘用户会话。在一些实施 例中,用户会话为用户从打开检索系统开始,直到用户点击的过程中, 与系统交互的一系列操作。根据用户检索日志和用户点击日志,将用 户标识符和时间戳两个维度结合在一起,筛选出同一个用户在一定时 间段内进行的操作。例如,对用户标识符为A的用户而言,以A点击 检索词的时间戳T为基准,回溯A在时间戳T之前(包括T)30s内的操 作,例如:用户输入检索词的操作和点击检索词的操作,将这些操作 集合作为一个会话。用户交互可以通过输入/输出350实现。示例性的 输入设备可以包括键盘、鼠标、触摸屏、麦克风等,或其组合。用户 可以输入文本、语音、视频、手势等,或其组合。中央处理器340可以 进行文字处理、语言处理、视频处理、音频处理等,或其组合。挖掘 过程包括数据清洗、用户识别、会话识别等步骤。数据清洗用于清除 日志文件中无关的项。在一些实施例中,用户请求访问服务器但是由 于网络、信号、请求参数等原因访问失败。数据清洗步骤将清除用户 请求访问失败的记录。用户识别步骤通过用户标识符进行用户识别。 会话识别步骤中将用户的操作划分为单个的会话。会话识别方法包括 超时识别、基于统计语言模型的识别。挖掘过程的目的是从原始日志 文件中选取出规范化的数据。
在步骤720中,组合模块430组合输入的检索词与选择的结果形成 至少一组语料对。在一些实施例中,一个用户会话中,可以有多条输 入的检索词与一个选择的结果。图9是根据本发明的一些实施例所示 的示例性语料的示意图。输入的检索词910为X1,X2…Xn,选择的结果 920为Y。组合输入的检索词和选择的结果形成检索词对 (X1,Y),(X2,Y)…(Xn,Y)。所述一个检索词对为一组语料对930。语料是 经过整理后具有既定格式与标记的文本。然后,对获得的语料进行统 计和过滤。语料的统计和过滤会在下文详细描述。仅仅作为示例,某 用户在打车软件中输入X1“新世纪”,最终选择的结果Y为“新世界”; 另外一个用户在打车软件中输入检索词X2“新视界”,最终选择的结果 Y还是“新世界”。此时,获取模块420获取检索词“新世纪”、“新视 界”与选择结果“新世界”,组合模块430将输入的检索词与选择的 结果组合形成(“新世纪”,“新世界”)与(“新视界”,“新世界”)两条语料。
在步骤730中,构造模块450构造平行语料库。平行语料是一组语 料对中的两个短语或句子可以表现同一个对象,二者可以相互对应, 其中既不包含冗余信息,也不会缺失信息。在一些实施例中,平行语 料可以通过去除冗余信息、分析用户纠错行为等方法构造而成。例如, 用户输入的检索词为“汇聚西红门”,选择的结果为“荟聚西红门购 物中心”,为了构造平行语料,除去“购物中心”这一冗余信息,从 而形成“汇聚西红门”到“荟聚西红门”的平行语料。在一些实施例 中,用户输入的第一个检索词S1出现错误,用户自行纠正为S2,S1和 S2可以形成平行语料。
图8是根据本发明的一些实施例所示的用于实现挖掘用户会话的 示例性流程示意图,包括以下几个步骤:
步骤810:获取用户检索日志和用户点击日志;
步骤820:结合用户标识符和设定时间段,筛选用户在所述设定 时间段内的操作;
步骤830:将所述操作集合作为一个会话。
在步骤810中,日志获取单元411获取用户日志。在一些实施例中, 用户日志包括用户检索日志和用户点击日志。
在步骤820~步骤830中,会话挖掘单元412通过用户标识符识别用 户,以该用户点击检索词的时间点为基准筛选用户的操作,将用户在 设定时间段内在用户日志中进行的操作集合为一个会话。在一些实施 例中,会话挖掘单元412以用户点击检索词的时间T为基准,回溯一段 时间,将这段时间内用户输入检索词的操作和用户点击检索词的操作 集合为一个会话。在一些实施例中,设定时间段可以是系统预设或者 自行设定。
图10是根据本发明的一些实施例所示的对语料特征进行统计的 示例性流程示意图。包括以下步骤:
步骤1010:提取语料;
步骤1020:统计语料出现频次;
步骤1030:统计语料内部转移概率;
步骤1040:统计语料内部编辑距离;
步骤1050:判断所述是否满足过滤条件;
如果语料满足过滤条件,执行步骤1060:排除;
如果语料不满足过滤条件,执行步骤1070:保留过滤后的所述语 料。
在步骤1020~1040中,对语料的多个特征进行统计。所述特征包 括语料出现频次、语料内部转移概率、语料内部编辑距离等,或其组 合。在一些实施例中,可以通过统计语料出现频次判断检索词的正确 性。例如,有两条语料(X,Y)和(X,Z),输入的检索词均为X,用户纠正 或选择的结果为Y和Z,但是可能出现误点或纠正错误的情况。假定用 户输入正确检索词的概率大于错误检索词,统计(X,Y)和(X,Z)出现的 概率,如果(X,Y)出现的概率远大于(X,Z),可以说明Y是正确的检索 词。在一些实施例中,可以通过统计语料的出现频次,计算用户使用 正确的检索词的概率作为检索强度。此外,可以任意改变步骤1020至步骤1040的顺序,顺序不受附图限制。
需要注意的是,以上关于语料处理方法的描述,仅为描述方便, 并不能把本申请限制在所举实施例范围之内。可以理解,对于本领域 的技术人员来说,在了解本申请的基本原理后,可以在不背离这一原 理的情况下,对语料处理方法作出改变。例如,可以增加、减少、合 并或拆分一些步骤。在一些实施例中,步骤1020至步骤1040可以同时 执行。诸如此类的变形,均在本申请的保护范围之内。
在步骤1050中,判断所述语料是否满足过滤条件。对统计过后的 语料进行进一步的过滤以去除噪音。过滤步骤将在下文详细描述。
图11是根据本发明的一些实施例所示的实现判断语料是否满足 过滤条件的示例性流程示意图。包括以下步骤:
步骤1101:过滤语料;
步骤1102:判断输入的检索词长度是否大于预设阈值;
步骤1104:判断输入的检索词是否是选择的结果的前缀字符串;
步骤1105:判断语料内部编辑距离是否大于预设阈值;
步骤1106:判断语料内部转移概率是否小于预设阈值。
如果语料满足以下条件中的一个或多个:在步骤1102中,输入的 检索词长度大于预设阈值;在步骤1104中,输入的检索词是选择的结 果的前缀字符串;在步骤1105中,语料内部编辑距离大于预设阈值; 在步骤1106中,语料内部转移概率小于预设阈值,执行步骤1103:排 除语料。
如果语料同时满足以下多个条件:在步骤1102中,输入的检索词 长度不大于预设阈值;在步骤1104中,输入的检索词不是选择的结果 的前缀字符串;在步骤1105中,语料内部编辑距离不大于预设阈值; 在步骤1106中,语料内部转移概率不小于预设阈值,执行步骤1107: 保留过滤后的语料。
在步骤1102中,判断输入的检索词长度是否大于预设阈值。设定 字符长度阈值,检索词的长度大于预设阈值则该检索词无意义。例如 由于用户误操作时输入的检索词。
在步骤1104中,判断输入的检索词是否是选择的结果的前缀字符 串。例如语料(北京市西,北京市西城区),“北京市西”是“北京 市西城区”的前缀字符,属于检索词没有输完。
在步骤1105中,判断语料内部编辑距离是否大于预设阈值。设定 编辑距离阈值,对语料(X,Y)而言,内部编辑距离为字符串X和Y之间, 由X转成Y所需要的最少编辑次数例如,语料(sdadium,stadium)和(pyramid,stadium),前者的内部编辑距离为1,后者的内部编辑距离为 7个字符。编辑距离越小,两个词语或句子越接近。输入stadium时错 误地输成sdadium的概率远大于pyramid的概率。在一些实施例中,用 户输入的检索词在语料中不存在,该检索词被认为是错误的检索词, 可以列出与该检索词编辑距离最小的检索词作为提示。在一些实施例 中,进行会话挖掘时,时间设定过长,将本属于两个会话的检索词集 合为一个会话,会造成语料内部编辑距离大于预设阈值。例如,以用 户点击检索词Y1的时间戳T为基准,回溯A在时间戳T之前(包括T) 120s内输入的检索词,将这些检索词集合作为一个会话。但是在时间 戳T之前60s时用户点击了检索词Y2。如果将120s内用户输入的检索词集合为一个会话,在该对话中用户进行了两次不同的检索。因此组成 的语料内部编辑距离可能大于预设阈值。
在步骤1106中,判断语料内部转移概率是否小于预设阈值。设定 转移概率阈值,对于语料(X,Y)和(Z,Y)而言,语料内部转移概率为输 入X点击Y的概率Pxy,和输入Z点击Y的概率Pzy。如果Pxy远大于Pzy, 说明(Z,Y)内部转移概率低,例如,出现用户误点手机屏幕等操作。此 时的语料(Z,Y)没有意义。
需要注意的是,以上关于语料处理方法的描述,仅为描述方便, 并不能把本申请限制在所举实施例范围之内。可以理解,对于本领域 的技术人员来说,在了解本申请的基本原理后,可以在不背离这一原 理的情况下,对语料处理方法作出改变。例如,可以增加、减少、合 并或拆分一些步骤。在一些实施例中,步骤1102至步骤1106可以同时 执行。诸如此类的变形,均在本申请的保护范围之内。预设阈值可以 自动和/或人为设定。
图12是根据本发明的一些实施例所示的实现模型训练的示例性 流程示意图。包括以下几个步骤:
步骤1210:构造平行语料库;
步骤1220:将平行语料库作为样本,进行模型训练;
步骤1230:获得检索词纠错模型;
步骤1240:使用检索词纠错模型对用户输入的检索词进行处理, 得到纠错后的检索词。
在步骤1220中,平行语料作为样本训练进行模型训练以得到检索 词纠错模型。示例性模型可以包括支持向量机模型、逻辑回归模型、 随机森林模型、贝叶斯方法模型、决策树模型和神经网络模型等,或 其组合。
在步骤1230中,获得检索词纠错模型。以得到的平行语料作为训 练语料,对深度学习模型进行训练,获得检索词纠错模型。在一些实 施例中,模型训练通过深度学习计算不同输入错误的概率。在一些实 施例中,模型为Seq2Seq模型,即递归神经网络(RNN)模型。RNN 模型的特点在于可以输入一个序列且输出另一个序列,且输入和输出 序列的长度可变。RNN模型包括Encoder和Decoder两个步骤。在 Encoder步骤中,可将一个可变长度的信号序列变为固定长度的向量 表达。在Decoder步骤中,可将固定长度的向量变为可变长度的目标 信号序列。在一些实施例中,检索词纠错模型可以进行周期性更新。
在步骤1240中,使用检索词纠错模型对用户输入的检索词进行处 理,得到纠错后的检索词。在一些实施例中,用户可能输入了不正确 的检索词,例如用户原本想检索“新世界”却输入了“新世纪”,通 过检索词纠错模型可以对用户的检索词进行纠错,输出正确的检索 词。
本申请实施例可能带来的有益效果包括但不限于:(1)语料的 改动过程反应了用户不断输入/修正的过程,更能够体现用户实际需 求和错误体现,使用深度模型建模,可以智能表现出用户的输入错误 到修正正确的过程,使得模型预测结果更加全面、准确;(2)模型训 练的语料更加符合平行语料的标准,预测过程可以直接获得用户正确 的检索词,无冗余信息,且平行语料可以应用在检索词改写等其他方 面;(3)统计机器学习模型进行建模时,需要人工定义召回正确检 索词的条件,这样会造成召回的局限性,而深度学习模型的应用,突 破了这项局限。需要说明的是,不同实施例可能产生的有益效果不同, 在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种 的组合,也可以是其他任何可能获得的有益效果。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或 计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实 施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在 一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算 机程序产品的形式。
以上所述为本申请的基本构思,仅以实施例形式呈现,显而易见 地,本领域的技术人员依据本申请作出相应变化、改进或修正。这些 变化、改进和修正已被本申请所暗示或间接提出,均包含在本申请实 施例的精神或范围之内。
对于描述本申请的术语,例如“一个实施例”、“一些实施例” 或“某些实施例”,表示与它们相关的至少一个特征、结构或特点是 包含在本申请的实施例之中的。
另外,对于本领域的技术人员来说,本申请中的实施例可能涉及 到一些新的流程、方法、机器、产品或者与它们相关的改进。因此, 本申请的实施例可以在纯硬件或纯软件中实施,其中软件包括但不限 于操作系统、常驻软件或微代码等;也可以在同时包含硬件和软件的 “系统”、“模块”、“子模块”、“单元”等中实施。另外,本申 请的实施例可以以计算机程序的形式存在,它们可以承载在计算机可 读取的媒介中。

Claims (21)

1.一种语料处理方法,其特征在于,包括:
获取用户输入的检索词与选择的结果;
组合输入的检索词与选择的结果形成至少一组语料对;
基于所述至少一组语料对构造平行语料,进而得到平行语料库。
2.如权利要求1所述的方法,其特征在于,还包括
基于用户日志挖掘用户会话;
基于所述用户会话获取用户输入的检索词与选择的结果。
3.如权利要求2所述的方法,其特征在于,基于用户日志挖掘用户会话的步骤,进一步包括:
基于用户标识符及设定时间段,从所述用户日志中筛选出同一用户在所述设定时间段内的操作,进而得到所述用户会话。
4.如权利要求1所述的方法,其特征在于,还包括过滤所述至少一组语料对,并将过滤后的所述至少一组语料对构造为平行语料。
5.如权利要求4所述的方法,其特征在于,过滤所述至少一组语料对的步骤,进一步包括:排除输入的检索词长度大于预设阈值的语料。
6.如权利要求4所述的方法,其特征在于,过滤所述至少一组语料对的步骤,进一步包括:排除输入的检索词是选择的结果的前缀字符串的语料。
7.如权利要求4所述的方法,其特征在于,过滤所述至少一组语料对的步骤,进一步包括:统计各条语料的内部编辑距离,并排除内部编辑距离大于预设阈值的语料。
8.如权利要求4所述的方法,其特征在于,过滤所述至少一组语料对的步骤,进一步包括:统计各条语料的内部转移概率,排除内部转移概率小于预设阈值的语料。
9.一种语料处理的系统,其特征在于,包括:
挖掘模块,用于挖掘用户会话;
获取模块,用于获取所述用户会话中用户输入的检索词和选择的结果;
组合模块,用于组合输入的检索词与选择的结果形成至少一组语料对;
构造模块,用于基于所述至少一组语料对构造平行语料库。
10.如权利要求9所述的系统,其特征在于,所述挖掘模块还用于:
基于用户日志挖掘所述用户会话。
11.如权利要求10所述的系统,其特征在于,所述挖掘模块还用于:
基于用户标识符及设定时间段,从所述用户日志中筛选出同一用户在所述设定时间段内的操作,进而得到所述用户会话。
12.如权利要求9所述的系统,其特征在于,所述组合模块还用于:
将所述用户会话中的至少一个检索词分别与该用户会话中的选择的结果组合,形成所述至少一组语料对。
13.如权利要求9所述的系统,其特征在于,还包括语料过滤模块;所述语料过滤模块用于过滤所述至少一组语料对;
所述构造模块还用于将过滤后的所述至少一组语料对构造为平行语料。
14.如权利要求13所述的方法,其特征在于,所述语料过滤模块还用于:
排除输入的检索词长度大于预设阈值的语料。
15.如权利要求13所述的方法,其特征在于,所述语料过滤模块还用于:
排除输入的检索词是选择的结果的前缀字符串的语料。
16.如权利要求13所述的方法,其特征在于,所述语料过滤模块还用于:
统计各条语料的内部编辑距离,并排除内部编辑距离大于预设阈值的语料。
17.如权利要求13所述的方法,其特征在于,所述语料过滤模块还用于:
统计各条语料的内部转移概率,排除内部转移概率小于预设阈值的语料。
18.一种计算机可读存储介质,其特征在于,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1至8任一所述方法。
19.一种语料处理的装置,其特征在于,包括处理器,所述处理器用于执行如权利要求1至8任一所述方法。
20.一种基于平行语料训练模型的方法,其特征在于,使用如权利要求1至8任一所述方法获得的平行语料进行模型训练。
21.一种检索词纠错的方法,其特征在于,包括:
获取用户输入的检索词;
使用检索词纠错模型对用户输入的检索词进行处理,得到纠错后的检索词;其中,
所述检索词纠错模型为使用如权利要求1至8任一所述方法获得的平行语料训练得到。
CN201810929546.3A 2018-08-15 2018-08-15 一种语料处理以及模型训练的方法及系统 Pending CN110889028A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810929546.3A CN110889028A (zh) 2018-08-15 2018-08-15 一种语料处理以及模型训练的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810929546.3A CN110889028A (zh) 2018-08-15 2018-08-15 一种语料处理以及模型训练的方法及系统

Publications (1)

Publication Number Publication Date
CN110889028A true CN110889028A (zh) 2020-03-17

Family

ID=69744173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810929546.3A Pending CN110889028A (zh) 2018-08-15 2018-08-15 一种语料处理以及模型训练的方法及系统

Country Status (1)

Country Link
CN (1) CN110889028A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002994A1 (en) * 2002-06-27 2004-01-01 Brill Eric D. Automated error checking system and method
CN101241514A (zh) * 2008-03-21 2008-08-13 北京搜狗科技发展有限公司 一种生成纠错数据库的方法、自动纠错的方法和系统
CN103198149A (zh) * 2013-04-23 2013-07-10 中国科学院计算技术研究所 一种查询纠错方法和系统
CN103377199A (zh) * 2012-04-16 2013-10-30 富士通株式会社 信息处理装置和信息处理方法
CN103390004A (zh) * 2012-05-11 2013-11-13 北京百度网讯科技有限公司 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN103942223A (zh) * 2013-01-23 2014-07-23 北京百度网讯科技有限公司 一种对语言模型进行在线纠错的方法及系统
CN104102633A (zh) * 2013-04-01 2014-10-15 百度在线网络技术(北京)有限公司 一种挖掘搜索引擎未召回类纠错词的方法及装置
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN107330022A (zh) * 2017-06-21 2017-11-07 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
CN107609098A (zh) * 2017-09-11 2018-01-19 北京金堤科技有限公司 搜索方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002994A1 (en) * 2002-06-27 2004-01-01 Brill Eric D. Automated error checking system and method
CN101241514A (zh) * 2008-03-21 2008-08-13 北京搜狗科技发展有限公司 一种生成纠错数据库的方法、自动纠错的方法和系统
CN103377199A (zh) * 2012-04-16 2013-10-30 富士通株式会社 信息处理装置和信息处理方法
CN103390004A (zh) * 2012-05-11 2013-11-13 北京百度网讯科技有限公司 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN103942223A (zh) * 2013-01-23 2014-07-23 北京百度网讯科技有限公司 一种对语言模型进行在线纠错的方法及系统
CN104102633A (zh) * 2013-04-01 2014-10-15 百度在线网络技术(北京)有限公司 一种挖掘搜索引擎未召回类纠错词的方法及装置
CN103198149A (zh) * 2013-04-23 2013-07-10 中国科学院计算技术研究所 一种查询纠错方法和系统
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
CN107330022A (zh) * 2017-06-21 2017-11-07 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN107609098A (zh) * 2017-09-11 2018-01-19 北京金堤科技有限公司 搜索方法及装置

Similar Documents

Publication Publication Date Title
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN110472107B (zh) 多模态知识图谱构建方法、装置、服务器以及存储介质
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN111428049B (zh) 一种事件专题的生成方法、装置、设备和存储介质
CN112185348B (zh) 多语种语音识别方法、装置及电子设备
CN110597963B (zh) 表情问答库的构建方法、表情搜索方法、装置及存储介质
CN112365171A (zh) 基于知识图谱的风险预测方法、装置、设备及存储介质
CN112948534A (zh) 一种智能人机对话的交互方法、系统和电子设备
CN108304424B (zh) 文本关键词提取方法及文本关键词提取装置
CN113392197B (zh) 问答推理方法、装置、存储介质及电子设备
CN112509690A (zh) 用于控制质量的方法、装置、设备和存储介质
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN108595412B (zh) 纠错处理方法及装置、计算机设备及可读介质
CN113535977A (zh) 一种知识图谱融合方法和装置及设备
CN113190675A (zh) 文本摘要生成方法、装置、计算机设备和存储介质
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN109635282B (zh) 用于多方对话的篇章解析方法、装置、介质及计算设备
Skarpathiotaki et al. Cross-industry process standardization for text analytics
CN112582073B (zh) 医疗信息获取方法、装置、电子设备和介质
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN113268673B (zh) 互联网行动类信息线索分析的方法和系统
CN110889028A (zh) 一种语料处理以及模型训练的方法及系统
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
US11704585B2 (en) System and method to determine outcome probability of an event based on videos
CN115186738A (zh) 模型训练方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination