CN110162634A

CN110162634A - 一种基于机器学习的文本处理方法

Info

Publication number: CN110162634A
Application number: CN201910427806.1A
Authority: CN
Inventors: 王树大; 张兆明; 安丽娜
Original assignee: Beijing Honglian 95 Information Industries Co Ltd
Current assignee: Beijing Honglian 95 Information Industries Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-23

Abstract

本发明公开了一种基于机器学习的文本处理方法，适于在计算设备中执行，包括：对获取的文本提取文本签名；从数据库中获取该文本签名下已提取的文本模板；将文本与文本模板进行匹配，如果匹配成功则输出与文本匹配的文本模板编号；将文本模板编号移入数据库的缓存队列的头部；如果未匹配成功，则将未匹配的文本处理为模型输入数据，以便输入训练后的文本分类模型得到文本分类结果；以及判断缓存队列是否已满，如果已满则删除预定时间内使用次数最少的文本模板编号，将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。

Description

一种基于机器学习的文本处理方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于机器学习的文本处理方法、计算设备及存储介质。

背景技术

随着大数据时代的到来，以及机器学习的广泛应用，为自然语言的处理带来了新的突破。在自然语言处理的过程中，由于文本格式不一，需要对文本进行预处理。机器学习就是把原始数据变成机器可以理解的数据，然后再用各种算法进行操作。

文本分类任务包括离线批量的文本分类，即业务人员通过界面上传或从数据库中导入的方式建立文本分类任务，由后台程序对文本作分类标记；以及实时的文本分类，即对输入的新的文本进行快速的分析判断。在进行文本分类时，会涉及对文本进行预处理，包括文档切分、文本分词、去停用词、文本特征提取、词频统计、文本向量化等。

为了提高文本分类的效率，需要一种文本处理方法，能够对文本实时输出分类结果。

发明内容

为此，本发明提供了一种基于机器学习的文本处理方法，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种基于机器学习的文本处理方法，该方法适于在计算设备中执行。该方法包括：首先，对获取的文本提取文本签名。然后，从数据库中获取该文本签名下已提取的文本模板。随后，将文本与文本模板进行匹配，如果匹配成功则输出与所述文本匹配的文本模板编号，并将文本模板编号移入数据库的缓存队列的头部。如果未匹配成功，则将未匹配的文本处理为模型输入数据，以便输入训练后的文本分类模型得到文本分类结果。判断缓存队列是否已满，如果已满则删除预定时间内使用次数最少的文本模板编号，将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。

可选地，在上述方法中，基于预设的正则表达式提取所获取文本的签名。

可选地，在上述方法中，获取预设的过滤词正则表达式列表；将文本与过滤词正则表达式列表中的各项进行匹配，如果匹配成功则输出过滤词标识，以便将文本过滤。

可选地，在上述方法中，对文本和文本模板进行分词处理，得到文本词序列和文本模板词序列；计算文本词序列与文本模板词序列之间的编辑距离，如果编辑距离小于预定距离则匹配成功，否则匹配失败。

可选地，在上述方法中，如果文本模板编号存在于缓存队列中，则将缓存队列中的该文本模板编号移入头部；否则判断缓存队列是否已满，如果已满则将最近最少使用的文本模板编号删除，将文本模板编号插入缓存队列的头部。

可选地，在上述方法中，基于已构建的特征词典对未匹配的文本进行过滤，得到特征词序列；对特征词序列进行编码，得到预定格式的特征向量；将特征向量保存为文本文件或者特征矩阵，输入文本分类模型中进行预测，得到文本分类结果。

可选地，在上述方法中，特征向量由标签值、特征编号和特征值构成，所述特征编号对应该特征词在特征词典中的下标，所述特征值为该特征词在未匹配的文本中出现的次数。

可选地，在上述方法中，文本分类模型为多分类的决策树模型。

可选地，在上述方法中，数据库为redis数据库，缓存队列为双向队列，预先存储预定数量的文本模板编号。

可选地，在上述方法中，将缓存队列中的文本模板编号按使用时间戳排序，取出缓存队列尾部的文本模板编号，并删除与其对应的哈希表；将取出的文本模板编号插入缓存队列的头部；以及将未匹配的文本签名及对应的文本分类结果的哈希表插入所述缓存队列的头部。

根据本发明另一个方面，提供了一种计算设备，包括一个或多个处理器；存储器；一个或多个程序，这一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序用于执行一种基于机器学习的文本处理方法的指令。

根据本发明另一个方面，提供一种存储一个或多个程序的计算机可读存储介质，这一个或多个程序包括指令，当指令被计算设备执行时，使得计算设备执行基于机器学习的文本处理方法。

本方案首先将文本与已提取的文本模板进行匹配，如果匹配成功则基于缓存淘汰方法更新队列，将最久没有被匹配的模板编号淘汰，这样可以提高模板匹配的效率。如果匹配失败则基于文本分类模型获得文本分类结果，并将文本分类结果插入缓存队列的头部，可以进一步提高模板匹配的效率。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的构造示意图；

图2示出了根据本发明的一个实施例的基于机器学习的文本处理方法200的示意性流程图；

图3示出了根据本发明的一个实施例的文本标签映射表。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明的一个实施例的计算设备100的构造示意图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中，程序122可以布置为在操作系统上利用程序数据124进行操作。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以是小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100可被配置为执行本发明的基于机器学习的文本处理方法200。其中，计算设备100的一个或多个程序122包括用于执行方法200的指令。

图2示出了根据本发明的一个实施例的基于机器学习的文本处理方法200的示意性流程图。该方法适于在计算设备100中执行。如图2所示，在步骤S210中，对获取的文本提取文本签名。

其中，可以基于正则表达式提取文本签名。在短信业务中，文本签名一般指企业签名，位于短信的前端或后端。例如，当输入文本串为String str＝″您的验证码是：1234【鸿联九五】″，正则表达式可以设置为String rgex＝″【(.*？)】″；System.out.println(getSubUtil(str，rgex))。最后输出文本签名为“鸿联九五”。

随后在步骤S220中，从数据库中获取该文本签名下已提取的文本模板。

根据本发明的一个实施例，数据库可以是redis数据库，可以通过登录redis客户端使用命令来连接和操作redis数据库。启动redis客户端并加载配置文件，根据配置文件中指定的ip地址和端口号，获取该文本签名下已提取的文本模板。

其中，redis数据库是一个key-value键值对存储系统，能够支持哈希结构存储。为了保证效率，所有数据操作在内存中完成。可以将提取的文本模板存储在redis数据库中，可以通过python、Java、lua等任一编程接口访问数据库，获取文本模板。由于redis数据库可以用来做消息队列，可以通过侦听消息队列获取记录任务信息的json字符串，包括任务标识、redis数据库的ip地址、端口号、数据库号以及文本数量的信息等。将需要监听的对象封装在自定义的事件状态对象类中，需要在类中实例化监听对象。当监听到事件对象时，调用相应的方法进行处理。对于监听到的事件对象请求，首先需要检查json字符串的合法性。例如，可以将json字符串转换为json对象，如果转换成功，则表示json是合法的，反之则表示json数据有问题。在任务执行完毕后，可以通过读取redis数据库中记录的执行结果和错误信息，向消息队列写入任务回执。

接着在步骤S230中，对文本和文本模板进行匹配，如果匹配成功则输出与文本匹配的文本模板编号。

根据本发明的一个实施例，在对文本和文本模板进行匹配之前，可以先对文本进行过滤。首先可以获取预设的过滤词正则表达式列表。然后将文本与过滤词正则表达式列表中的各项进行正则匹配，如果匹配成功则返回过滤词标识，将该文本过滤，即不再对该文本进行文本模板匹配。例如，使用正则表达式(P2P|网贷)进行过滤词匹配，那么文本中有P2P或网贷，则均会被过滤。

根据本发明的一个实施例，可以对过滤后的文本和该文本签名下已提取的文本模板进行分词处理，获得文本词序列和文本模板词序列。分词处理可以是基于字符串匹配的方法、基于理解的方法和基于统计的方法中任意一种，本方案对此不做限定。为了提高分词处理的效率，可以使用python分词工具，如结巴中文分词。其中可以使用自定义的词典，以便包含结巴分词词库里没有的词语。

然后基于文本词序列与文本模板词序列之间的编辑距离，判断文本和文本模板是否匹配。可以首先对文本词序列和文本模板词序列取交集，当交集的大小相对于文本模板词序列的大小足够大时，可以认为这两条字符串有较大的可能匹配。然后可以使用编辑距离算法计算它们的编辑距离。其中编辑距离是指两个字符串之间由一个转为另一个所需的最少编辑操作次数，编辑操作可以包括将一个字符替换为另一个字符、插入一个字符、删除一个字符等。编辑距离越小，两个字符串的相似度越大。如果编辑距离小于预定距离可以认为两者匹配成功，则返回与文本匹配的文本模板编号。

随后在步骤S240中，将文本模板编号移入数据库的缓存队列的头部。

其中，缓存队列为双向队列，预先存储有文本模板编号，每个文本模板编号对应一个以文本签名为关键码值的哈希表。常见的缓存淘汰算法有FIFO先进先出算法、LRU最近最少使用算法和LFU最少使用算法。其中，LRU算法是指一个数据在最近一段时间内没有被访问，那么在将来它被访问的概率也很小，当限定的空间存储数据已满，将最久没有被访问到的数据淘汰。可以用数组、双向链表、哈希表来实现LRU算法。新插入和被访问的文本模板编号放在表头，删除时从表尾开始。LRU缓存的特点包括：固定缓存大小，需要给缓存分配一个固定的大小。每次读取缓存都会改变缓存的使用时间，将缓存的存在时间重新刷新。在缓存队列已满时，将最近最久未使用的缓存删除，再添加最新的缓存。

基于以上特点可以使用双向链表和哈希表来实现LRU缓存。当需要插入新的数据项的时候，如果新数据项在链表中存在(一般称为命中)，则把该节点移到链表头部，如果不存在，则新建一个节点，放到链表头部，若缓存满了，则把链表最后一个节点删除即可。在访问数据的时候，如果数据项在链表中存在，则把该节点移到链表头部，否则返回-1。这样一来在链表尾部的节点就是最近最久未访问的数据项。

可以根据文本模板编号的历史访问记录进行淘汰，将最近使用的文本模板编号移到在缓存队列顶部的位置。如果文本模板编号存在于缓存队列中，则将缓存队列中的该文本模板编号移入头部；否则判断缓存队列是否已满，如果已满则将最近最少使用的文本模板编号删除，将新的文本模板编号插入缓存队列的头部。

在步骤S250中，如果未匹配成功，则将未匹配的文本处理为模型输入数据，以便输入训练后的文本分类模型得到文本分类结果。

根据本发明的一个实施例，可以使用由配置文件指定的特征词典对未匹配的文本进行过滤。例如，将未匹配文本对应词序列中的词与特征词典中的词进行匹配，得到过滤后的特征词序列。由于得到的特征词序列是离散的、无序的，在机器学习算法中，通常需要进行特征向量化。可以将特征词序列编码，转换为预定格式的特征向量。根据本发明的一个实施例，可以使用one-hot独热编码，首先将特征词序列映射为整数值，例如映射为特征词序列中词的个数。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。这样每个词被表征为该特征词在特征词典中的下标。

然后将编码后的向量压缩为libsvn格式的特征向量，这样可以减少内存的使用，提高模型的计算速度。可以使用宏命令FormatDataLibsvn.xls对特征词序列进行格式转换也可以使用自定义的代码程序，本方案对此不做限定。特征向量可以由标签值、特征编号和对应的特征值组成，格式如下所示：<label><index1>：<value1><index2>：<value2>...其中，label表示训练文本的标签，可以自定义，如果是分类任务则可以是预先定义的标签值，例如行业通知类短信的标签值为2005，营销类短信的标签值为2006，投资类短信的标签值为2010等。index表示特征编号，特征编号对应该词语在特征词典中的维度下标。value表示特征值，即该特征词在未匹配的文本中出现的次数。例如一条短信里，“面试”这个词出现了3次，且“面试”这个词在特征词典里的下标为50。则这个特征被描述为50∶3(实质是一种稀疏矩阵的压缩存储)。每条短信的标签及其libsvn表示结果存为输入文件。也可以直接将过滤后的文本构造为特征矩阵。比如一条短信里，“面试”这个词出现了3次，且“面试”这个词在特征词典里的下标为50，特征词典长度为10000。则这个特征被描述为一个1*10000的行向量中，第50个位置的值为3。最后将模型输入数据输入训练后的文本分类模型中进行预测，得到文本分类结果。其中，文本分类模型可以使用多分类的决策树模型xgboost。XGBoost可以加载libsvn格式的文本数据，加载的数据格式可以为Numpy的二维数组和二进制的缓存文件。加载的数据存储在对象DMatrix中。根据本发明的一个实施例，可以将模型输入数据转换为xgboost的DMatrix格式，然后输入文本分类模型中进行预测，得到预测标签值。其中预测标签值为0-n的整数，n为标签的数量。然后基于预先存储的标签值与分类结果的映射关系，确定文本分类结果。图3示出了根据本发明的一个实施例的文本标签映射表。如图3所示，验证码短信对应标签值为2004，行业通知类短信对应标签值为2005，营销类短信对应标签值为2006等。如果预测标签值为2005，通过查询文本标签映射表，可以确定文本分类结果为“行业通知类”。可以将文本及其文本分类结果写入redis数据库中。

最后在步骤S260中，判断缓存队列是否已满，如果已满则删除预定时间内使用次数最少的文本模板编号，并将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。

其中，缓存队列为双向链表和哈希表的数据结构，存储着一定个数的临时模板编号以及与其有关的以文本签名为Key的哈希表(即临时模板编号与以文本签名为Key的哈希表构成嵌套的哈希表)。可以使用LRU(最近最少使用)缓存淘汰算法更新双向队列。首先将文本模板编号按使用时间戳排序；取出缓存队列尾部的文本模板编号，并将该文本模板编号对应的哈希表中的存储数据删除。将取出的文本模板编号插入缓存队列的头部，并将未匹配的文本签名及对应的文本分类结果的哈希表插入缓存队列的头部，具体步骤如下：

步骤1、查看临时模板编号池，若有可用的临时模板编号则取出一个临时模板编号，转向步骤3，其中临时模板编号只存在于redis内存中，而没有写入数据库；

步骤2、若临时模板编号池为空，则从双向队列的右端(尾部)取出一个临时模板编号，释放和它有关的所有哈希表中的存储值，转向步骤3；

步骤3、将取出的临时模板编号加入到双向队列左端(头部)，并在以文本签名为key的哈希表中加入一个以临时模板编号为Key，以文本及文本分类结果的哈希值为value的哈希表。

利用上述基于机器学习的文本处理方法可以对离线批量的短信进行分类分析也可以对用户短信进行实时的分类分析。在对短信进行实时分析时，首先，获得请求中的短信，使用过滤词正则表达式列表对文本进行过滤，如果适配则输出过滤词标识。其中过滤词是对用户发送的短信内容中非法、广告词、恶意灌水或骂人等的词语进行过滤。

接着，将短信与数据库中已提取的文本模板进行匹配，如果匹配成功则输出文本模板编号，并更新LRU缓存队列。如果匹配失败则将短信构造成模型输入数据后输入文本分类模型中进行预测，输出文本分类结果，并将文本分类结果插入LRU缓存队列。其中，首先使用由配置文件指定的模型词典对每条短信进行过滤。其中可以对每条短信进行分词处理获得词序列，对词序列进行词频和逆文档频率统计，得到每个词对应的TF-IDF值，将TF-IDF值大于预定阈值的词作为特征词，得到模型词典。然后，对过滤后的短信进行one-hot编码，每一个词被表征为该特征词在模型词典里的下标。再对短信词序列做libsvn格式的压缩，每个词编码对应的取值为这个词在这条短信中出现的次数。最后，将每条短信的标签、编码和编码值作为模型输入文件，交付给模型进行预测。

根据本发明的方案，首先将文本与已提取的文本模板进行匹配，如果匹配成功则基于缓存淘汰方法更新队列，将最久没有被匹配的模板编号淘汰，这样可以提高模板匹配的效率。如果匹配失败则基于文本分类模型获得文本分类结果，并将文本分类结果插入缓存队列的头部，可以进一步提高模板匹配的效率。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于机器学习的文本处理方法，适于在计算设备中执行，所述方法包括：

对获取的文本提取文本签名；

从数据库中获取所述文本签名下已提取的文本模板；

将文本与文本模板进行匹配，如果匹配成功则输出与所述文本匹配的文本模板编号；

将所述文本模板编号移入数据库的缓存队列的头部；

如果未匹配成功，则将未匹配的文本处理为模型输入数据，以便输入训练后的文本分类模型得到文本分类结果；以及

判断缓存队列是否已满，如果已满则删除预定时间内使用次数最少的文本模板编号，将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。

2.如权利要求1所述的方法，其中，所述对获取的文本提取文本签名的步骤包括：

基于预设的正则表达式提取所获取文本的签名。

3.如权利要求1所述的方法，其中，在所述将文本和文本模板进行匹配的步骤之前，所述方法包括：

获取预设的过滤词正则表达式列表；

将文本与过滤词正则表达式列表中的各项进行匹配，如果匹配成功则输出过滤词标识，以便将所述文本过滤。

4.如权利要求1所述的方法，其中，所述将文本和文本模板进行匹配的步骤包括：

对文本和文本模板进行分词处理，得到文本词序列和文本模板词序列；

基于文本词序列与文本模板词序列之间的编辑距离，如果编辑距离小于预定距离则匹配成功，否则匹配失败。

5.如权利要求1所述的方法，其中，所述将所述文本模板编号移入数据库的缓存队列的头部的步骤包括：

如果所述文本模板编号存在于缓存队列中，则将缓存队列中的该文本模板编号移入头部；否则

判断缓存队列是否已满，如果已满则将最近最少使用的文本模板编号删除，并将所述文本模板编号插入缓存队列的头部。

6.如权利要求1所述的方法，其中，所述将未匹配的文本处理为模型输入数据，以便输入训练后的文本分类模型得到文本分类结果的步骤包括：

基于已构建的特征词典对未匹配的文本进行过滤，得到特征词序列；

对特征词序列进行编码，得到预定格式的特征向量；以及

将所述特征向量保存为文本文件或者特征矩阵，输入文本分类模型中进行预测，得到文本分类结果，其中所述文本分类模型为多分类的决策树模型。

7.如权利要求6所述的方法，其中，所述特征向量由标签值、特征编号和特征值构成，所述特征编号对应该特征词在特征词典中的下标，所述特征值为该特征词在未匹配的文本中出现的次数。

8.如权利要求1所述的方法，其中，所述数据库为redis数据库，所述缓存队列为双向队列，所述将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部的步骤包括：

将缓存队列中的文本模板编号按使用时间戳排序，取出缓存队列尾部的文本模板编号，并删除与其对应的哈希表；

将取出的文本模板编号插入缓存队列的头部；以及

将未匹配的文本签名及对应的文本分类结果的哈希表插入所述缓存队列的头部。

9.一种计算设备，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。