CN114117050A

CN114117050A - 一种全自动记账流程弹窗处理方法、装置和系统

Info

Publication number: CN114117050A
Application number: CN202111440603.XA
Authority: CN
Inventors: 班风宝; 董兴磊; 赵涛; 陆权; 陈慧
Original assignee: Jinan Rural Commercial Bank Co ltd
Current assignee: Jinan Rural Commercial Bank Co ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01
Anticipated expiration: 2041-11-30
Also published as: CN114117050B

Abstract

本发明公开了一种全自动记账流程弹窗处理方法和系统，该方法包括：对批量自动记账流程进行监视，实时获取弹窗的文本内容及出现弹窗的该笔交易的标识；S2.对弹窗的文本内容进行预处理，并进行分词处理，获得弹窗的文本内容的词序列；S3.将词序列输入到预先训练好的弹窗分类模型，以对弹窗进行分类。本发明构建了FastText模型和深度信念网络模型相结合的弹窗分析模型，优化了传统的深度学习的模型架构，对记账流程中的弹窗的分类的精度高。采用本发明的技术方案，在处理记账流程中的弹窗时，既不需要词典，也不需要人工干预，能够实现自动的提取特征和分类，达到快速准确分类的效果。

Description

一种全自动记账流程弹窗处理方法、装置和系统

技术领域

本发明涉及互联网通信技术领域，特别涉及一种全自动记账流程弹窗处理方法和系统。

背景技术

记账流程中，会有各种提示和错误弹窗，而其中文本内容并没有固定的标准，于是在全自动处理记账业务过程中，会无法准确处理业务，从而需要人工干预，这样相对费时费力，降低全自动运行的使用效果，影响业务人员体验。

目前，文本分类处理技术已广泛应用于数据挖掘、人工智能、舆情分析等众多领域，且都已经取得了重大的研究成果。现有的文本分类处理，主要包括基于语义字典和基于机器学习的两种方式。

基于语义字典的方式类似于以情感词典进行文本情感分类的方式。目前在通过情感词典进行文本情感倾向性判别时候，国外通常使用的情感词典例如为GeneralInquirer。由于英语词汇可以通过空格作为区分，不需要进行文本分词操作，所以该情感词典在英文文本情感倾向性判别方面效果非常好。而语义字典，则需要有进行文本分类倾向性判断的关键字等。

以机器学习的方法进行文本分类就是建立分类器。可以是有监督的传统机器学习方法，也可以是无监督的深度学习方法。有监督的提取文本的词组，词向量作为特征值，通过传统机器学习方法，如SVM等构建分类器，进行文本分类。而深度学习方法，如FastText、TextCNN、TextRNN、RCNN、HAN、bert等，是目前自然语言处理文本分类中的常用方法。

现有的文本分类方法主要存在以下问题：(1)基于语义词典的分类方式，需要构建或者利用现有的词典，批量自动记账流程中出现的弹窗属于财政业务领域的文本，现有的词典并不适用。(2)机器学习方法相比传统机器学习方法，其中的深度学习方法，省去了人工特征选择的过程，更适合于大批量的数据集训练过程，更多用于长文本分类，而记账流程中的弹窗属于短文本，因此，针对长文本的机器学习方法并不适用于记账流中的弹窗分类处理。(3)现有的分类模型只是简单的利用传统的单个神经网络模型进行分类，例如，只采用FastText模型进行分类，不足之处是FastText模型的结构相对简单，虽然对于线性可分的样本能达到一定效果，但目前的使用场景来说，不是最优的模型。在处理一些长度较长的语句样本，或者线性不可分的样本时，效果较差。另外，FastText模型采用了词袋模型，虽然结合N-gram对词序语义有优化，但语义信息还是有丢失的，对句子词序敏感的样本表达不准确。因此分类精度较低。

通过以上分析可知，简单的应用传统的深度学习方法不能对记账流程中的弹窗进行精准分类，不能满足记账流程中出现的弹窗进行智能的识别和处理的需求。

为此，亟待需要开发一种能够克服以上问题的全自动记账流程弹窗处理方法和系统。

发明内容

针对上述问题，本发明提供了一种全自动记账流程弹窗处理方法和系统，可充分的消除由于现有技术的限制和缺陷而导致的上述多个问题。采用FastText和DBN结合的模型，无论判断准确度和速度性能都取得较好的效果，非常适合该业务场景。

为解决上述问题，本发明提出的技术方案如下：

一方面，本发明提供了一种全自动记账流程弹窗处理方法，所述方法包括以下步骤：

S1.对批量自动记账流程进行监视，如果在对一笔交易的自动记账过程中出现弹窗，则实时获取所述弹窗的文本内容及出现弹窗的该笔交易的标识；

S2.对所述弹窗的文本内容进行预处理，并对预处理后的弹窗的文本内容进行分词处理，获得所述弹窗的文本内容的多个分词，并形成词序列；

S3.将所述词序列输入到预先训练好的弹窗分类模型，以通过所述弹窗分类模型对所述弹窗进行分类；其中：

所述弹窗分类模型采用FastText模型和深度信念网络模型(DBN)相结合的模型，利用所述FastText模型提取所述弹窗的文本内容的词向量，利用所述深度信念网络模型基于提取的所述词向量对所述弹窗进行分类；其中：

如果所述弹窗被分类为错误弹窗，则取消该笔交易的记账过程，记录该笔交易的标识及错误原因，并向工作人员发出提醒；如果所述弹窗被分类为提示弹窗，则继续执行所述批量自动记账流程。

优选的，所述FastText模型包括：

输入层：用于接收所述词序列，通过Word2vec模型将所述词序列转换为词向量，并对所述词向量进行加权形成加权词向量；

隐藏层：用于对所有的加权词向量进行叠加平均和非线性变换，得到所述弹窗的文本内容的词向量；

输出层：用于接收隐藏层输出的所述弹窗的文本内容的词向量，并将所述弹窗的文本内容的词向量输出到所述信念神经网络模型。

优选的，对Word2vec模型转换后的词向量进行加权，加权公式为：

其中，W(t_i,d)表示单词t_i在文本d中的权重，tf(t_i,d)表示单词t_i在文本d中出现的频率，N表示文本的总数，

表示存在单词t_i的文本总数。

优选的，所述深度信念网络模型的训练过程包括：先对RBM进行无监督训练，然后再对RBM进行有监督训练，其中，在有监督训练过程中对各层RBM的参数进行微调。

优选的，在所述有监督训练过程中对各层RBM的参数进行微调包括：

(1)通过以下公式计算第l层RBM(即，最后一层RBM)的输出向量：

u^l(x)＝1/[1+exp(b^l+w^lu^l-1(x))]

其中，x输入向量，u^l(x)为第l层RBM的输出向量，u^l-1(x)为第l-1层RBM的输出向量，b^l为第l层可视层的偏置，w^l为第l层RBM的权重。

(2)通过以下公式计算分类概率：

其中，p为第i个样本x_i属于类别y_i的概率，y_i∈(1,2,...,c)，V为参数；

(3)通过以下公式计算第l层RBM的误差函数：

其中，J(λ^l)为第l层RBM的误差函数，λ^l＝{w^l,b^l,c^l,V^l}，m为隐层节点数，V为参数系数，1{y_i＝k}为逻辑指示函数，当y_i＝k时为1，否则为0；

(4)通过以下公式对误差函数求偏导：

其中，

为第l层RBM的输出向量的偏导值，

为第l层隐层的输出向量的偏导值，m为隐层节点数；

(5)通过以下公式获得第l层RBM的微调参数：

其中，α为学习率。

优选的，所述深度信念网络模型由3个受限玻尔兹曼机(RBM)层和1个多层感知器(MLP)层构成。

优选的，当所述弹窗被分类为错误弹窗时，通过短消息方式将发生错误的交易的标识及错误原因通知给工作人员，以便工作人员进行人工对账核验。

优选的，根据人工对账核验结果，对所述弹窗分类模型进行纠正。

本发明还提供了一种全自动记账流程弹窗处理系统，所述系统包括：处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上所述的全自动记账流程弹窗处理方法。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有程序，所述程序被处理器执行时实现如上所述的全自动记账流程弹窗处理方法。

本发明为对自动批量记账流程中出现的弹窗进行准确分类，构建了多个神经网络混合的模型，即，FastText模型和深度信念网络模型相结合的弹窗分析模型。本发明的弹窗分析模型专门针对记账流程中出现的弹窗设计，优化了传统的深度学习的模型架构，对记账流程中的弹窗的分类的精度高。采用本发明的技术方案，在处理记账流程中的弹窗时，既不需要词典，也不需要人工干预，能够实现自动的提取特征和分类，达到快速准确分类的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将首先对描述实施例所使用的附图作简要说明。可以理解的是，这些附图仅仅是示例性的说明，对于本领域普通技术人员来讲，在不付出创造性的劳动的前提下，可以对这些附图作出改变，这些改进都旨在包括在本发明的范围之内。

图1为根据本发明实施例的全自动的记账流程错误弹窗处理方法的流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，便于本领域技术人员能够更好的理解对本发明的技术方案，下面将结合附图对本发明的实施例进行清楚、完整的描述。显而易见的是，所描述的实施例仅仅是本发明的一部分特定实施例，而不是全部的实施例。基于本发明说明书中的特定实施例，本领域普通技术人员在没有作出创造性的劳动的前提下所获得的所有其他实施例，都应当属于本发明的保护范围。

如图1所示，根据本发明的实施例的全自动记账流程弹窗处理方法，包括以下步骤：

下面对上述步骤S1-S3进行详细说明。

在步骤S1中主要实现在批量自动记账流程中出现弹窗时，自动获取弹窗的内容。

目前已取代传统的手工记账方式，取而代之的是，利用国库系统中的原始记账数据，结合RPA(机器人流程自动化)技术，实现了核心系统的批量自动记账。本发明在系统执行批量自动记账的过程中，对弹窗进行监视，如果出现弹窗，则实时获取弹窗内容并获取出现弹窗的该笔交易的标识。优选的，所述该笔交易的标识为该笔交易的编号。在该步骤，获取出现弹窗的交易的标识，主要目的在于后续的错误记录以及提醒相关人员针对该笔交易进行人工记账等处理。

在步骤S2中，首先对所述弹窗的文本内容进行预处理。根据本发明的优选实施例，所述预处理是指去除所述弹窗的文本内容中的表情符、标点符号、语气词及消息标题等无意义词。

接着，对预处理后的弹窗的文本内容进行分词处理。根据本发明的优选实施例，利用分词工具对预处理后的弹窗的文本内容进行分词处理。优选的，本发明采用的分词工具例如为盘古分词、庖丁分词等。

通过分词处理后，从弹窗的文本内容中提取出关键词和高频词这种具有标志指向性的词语。现有技术一般直接将分词处理后的分词作为特征词进行分类，然而，分词的效果决定分类精度，如果分词效果不理想，例如遗漏了部分关键词或高频词，那么分类精度就会降低。为此，优选的，本发明的技术方案在通过分词工具得到多个分词的基础上，为进一步提高分类精度，加入第二特征词，第二特征词在语义中表示明确的目的和指导意见，作为模型特征之一，对提取的关键词和高频词起到进一步的补充和辅助作用，因此，第二特征词的加入有助于提高分类精度。

根据本发明的优选实施例，在步骤S2中，将所述多个分词作为第一特征词，并加入第二特征词，然后将所述第一特征词和所述第二特征词组合成为所述词序列。

在步骤S3中，将所述词序列输入到预先训练好的弹窗分类模型，以通过所述弹窗分类模型对所述弹窗进行分类。

本发明的弹窗分类模型是多个神经网络混合的模型，即，采用FastText模型和深度信念网络模型相结合的模型，充分利用了FastText模型和深度信念网络模型的优点，即，利用所述FastText模型提取所述弹窗的文本内容的特征向量，利用所述深度信念网络模型基于提取的所述特征向量对所述弹窗进行分类。

首先要搭建模型，需要先将记账系统中各种类型弹窗中文本信息收集到大规模数据集中，该模型更适合大规模的文本分类问题，同时兼容各类别样本数目不均衡的情况。

FastText模型包含三部分：模型架构、层次softmax和n-gram特征，本发明对传统的FastText模型进行了改进，不再使用层次softmax，分类处理由深度信念网络模型完成。

具体的，本发明采用的所述FastText模型包括：

本发明对传统的FastText模型进行了改进，在输入层中嵌入了Word2vec模型，通过Word2vec模型将词序列转换为词向量，并对所述词向量进行加权形成加权词向量，通过加权考虑了单次在文本中的权重，提高了分类精度。另外，本发明在隐藏层还对加权词向量进行非线性变换，这样可以保留其中的上下文关系，避免丢失复杂语义信息，最大化适应更多的实际文本样本。并且高维的加权词向量经过非线性变换可转换成低维，更好的完成复杂函数的逼近。通过引入非线性变化给模型带来了非线性的特征，能够逼近任何曲线，从而能够更好的适应以后遇到的各种提示样本。另外，转换到低维问题，可以简化运算，实现快速训练，降低系统复杂度。

如上所述，本发明的FastText模型不包括层次softmax，因此，对传统的输出层也进行了改进，输出层不再使用softmax进行分类。

本发明的模型的特征提取完全自动化，无需人工整理；词向量在模型中的训练也完全自动化，无需提前准备，仅需要将预处理后的词序列作为模型的输入导入，就会自动创建词典。

需要指出的是，根据本发明的优选实施例，本发明的FastText模型的隐藏层和输出层均只有一层，这样在满足提取弹窗文本内容的特征向量的基础上，训练速度更快。

根据本发明的优选实施例，输入层采用的是经过训练的Word2vec模型，通过Worde2ec模型将所述多个分词转换为词向量。需要说明的是，本发明使用的Word2vec仅是举例说明，本领域技术人员可以选用任何其他合适的模型来将分词转换为词向量。

Word2vec模型包括CBOW模型和Skip-gram模型，本发明采用CBOW模型。

为了便于在后续的特征提取步骤提取出有助于分类的特征词，本发明对Word2vec模型转换后的词向量进行加权，加权公式为：

表示存在单词t_i的文本总数。

通过公式(1)、(2)获得文本中每个单词的权重，形成权重矩阵，将权重矩阵与词向量矩阵相乘，即可得到加权的词向量。

在利用所述FastText模型提取所述弹窗的文本内容的词向量后，再利用所述深度信念网络模型基于提取的所述词向量对所述弹窗进行分类。

本发明构建的深度信念网络模型作为分类器，深度信念网络模型是由多个受限玻尔兹曼机(RBM)层层堆叠而成。本发明采用的深度信念网络模型由l个受限玻尔兹曼机(RBM)层和q个多层感知器(MLP)层构成。根据本发明的优选实施例，l＝3，q＝1，即，本发明的深度信念网络模型由3个受限玻尔兹曼机(RBM)层和1个多层感知器(MLP)层构成。

在使用深度信念网络模型进行分类之前，首先需要利用样本数据对深度信念网络模型进行训练，具体的，深度信念网络模型的训练过程包括：先对RBM进行无监督训练，然后再对RBM进行有监督训练，其中，在有监督训练过程中对各层RBM的参数进行微调。

在无监督训练过程中，采用对比散度算法训练每一层的RBM，前一层的RBM训练完成后，将其结果作为下一层RBM的输入来训练该层RBM，以此类推，逐层训练完所有RBM。具体的，所述对RBM进行无监督训练具体包括以下步骤：

(1)采集记账流程弹窗的历史数据x，并将历史数据x作为训练样本数据输入到输入层；将输入层作为可视层，并将输入层和第一个隐层h¹作为第一个RBM，采用对比散度算法训练所述第一层RBM，得到到第一个隐层h¹的参数{w¹；a¹；b¹}，其中，w为权重，a为隐层的偏置，b为可视层的偏置；

(2)使用逻辑函数

计算h¹中的每个元素，形成新的向量t¹＝{t¹,t²,...,tⁿ}，将新的向量t¹作为上一层h²的输入向量；

(3)继续使用对比散度算法训练由t¹(可视层)和h²的(隐层)构成的第二层RBM，得到h²层的参数{w²；a²；b²}；

(4)自下而上逐层训练各个隐层，获得DBN网络的参数集{w¹,w²,...,w^l；a¹,a²,...,a^l；b¹,b²,...,b^l}，其中，w为权重，a为隐层的偏置，b为可视层的偏置。

所述有监督训练过程为：当逐层完成RBM的无监督训练之后，将所述DBM网络的参数集作为有监督学习的初始值，然后利用反向传播算法对DBN网络各层的参数进行微调。

具体的，在所述有监督训练过程中对各层RBM的参数进行微调包括：

(1)通过以下公式计算第l层RBM(即，最后一层RBM)的输出向量：

u^l(x)＝1/[1+exp(b^l+w^lu^l-1(x))]

(2)通过以下公式计算分类概率：

其中，p为第i个样本x_i属于类别y_i的概率，y_i∈(1,2,...,c)，V为参数系数。最大概率对应的类别即为最终的分类类别。

(3)通过以下公式计算第l层RBM的误差函数：

其中，J(λ^l)为第l层RBM的误差函数，λ^l＝{w^l,b^l,c^l,V^l}，m为隐层节点数，V为参数系数，1{y_i＝k}为逻辑指示函数，当y_i＝k时为1，否则为0。

(4)通过以下公式对误差函数求偏导：

其中，

为第l层RBM的输出向量的偏导值，

为第l层隐层的输出向量的偏导值，m为隐层节点数。

(5)通过以下公式获得第l层RBM的微调参数：

其中，α为学习率。

如前所述，通过步骤S3的分类，如果所述弹窗被分类为错误弹窗，则取消该笔交易的记账过程，记录该笔交易的标识及错误原因，并向工作人员发出提醒；如果所述弹窗被分类为提示弹窗(例如，批处理记账过程中提示某笔交易记账完成等常规的提示信息)，则继续执行所述批量自动记账流程。

根据本发明的优选实施例，当所述弹窗被分类为错误弹窗时，通过例如短消息等方式将发生错误的交易的标识及错误原因通知给工作人员，以便工作人员进行人工对账核验。

根据本发明的优选实施例，根据人工对账核验结果，对弹窗分类模型进行纠正。弹窗分类模型会根据人工对账核验结果进行优化，不再需要改动脚本和代码。

通过本发明的技术方案，不再需要人工干预弹窗，弹窗判断模型能够自动判断，自我学习，这样可以达到无人值守的效果，从而节省了人工，同时，记账的批量全自动处理速度也更快。

本发明还提供了一种全自动记账流程弹窗处理系统，所述系统包括：处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上所述的全自动记账流程弹窗处理方法实施例的各个方法步骤。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有程序，该程序被处理器执行时实现如上所述的全自动记账流程弹窗处理方法实施例的各个方法步骤。其中，该计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序或按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现。

以上内容仅为本发明的较佳实施例，对于本领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书内容不应理解为对本发明的限制。