CN114117050A - 一种全自动记账流程弹窗处理方法、装置和系统 - Google Patents
一种全自动记账流程弹窗处理方法、装置和系统 Download PDFInfo
- Publication number
- CN114117050A CN114117050A CN202111440603.XA CN202111440603A CN114117050A CN 114117050 A CN114117050 A CN 114117050A CN 202111440603 A CN202111440603 A CN 202111440603A CN 114117050 A CN114117050 A CN 114117050A
- Authority
- CN
- China
- Prior art keywords
- popup
- layer
- word
- model
- rbm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 76
- 230000008569 process Effects 0.000 claims abstract description 46
- 238000013145 classification model Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012544 monitoring process Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 74
- 238000012549 training Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000013136 deep learning model Methods 0.000 abstract description 2
- 230000008451 emotion Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种全自动记账流程弹窗处理方法和系统,该方法包括:对批量自动记账流程进行监视,实时获取弹窗的文本内容及出现弹窗的该笔交易的标识;S2.对弹窗的文本内容进行预处理,并进行分词处理,获得弹窗的文本内容的词序列;S3.将词序列输入到预先训练好的弹窗分类模型,以对弹窗进行分类。本发明构建了FastText模型和深度信念网络模型相结合的弹窗分析模型,优化了传统的深度学习的模型架构,对记账流程中的弹窗的分类的精度高。采用本发明的技术方案,在处理记账流程中的弹窗时,既不需要词典,也不需要人工干预,能够实现自动的提取特征和分类,达到快速准确分类的效果。
Description
技术领域
本发明涉及互联网通信技术领域,特别涉及一种全自动记账流程弹窗处理方法和系统。
背景技术
记账流程中,会有各种提示和错误弹窗,而其中文本内容并没有固定的标准,于是在全自动处理记账业务过程中,会无法准确处理业务,从而需要人工干预,这样相对费时费力,降低全自动运行的使用效果,影响业务人员体验。
目前,文本分类处理技术已广泛应用于数据挖掘、人工智能、舆情分析等众多领域,且都已经取得了重大的研究成果。现有的文本分类处理,主要包括基于语义字典和基于机器学习的两种方式。
基于语义字典的方式类似于以情感词典进行文本情感分类的方式。目前在通过情感词典进行文本情感倾向性判别时候,国外通常使用的情感词典例如为GeneralInquirer。由于英语词汇可以通过空格作为区分,不需要进行文本分词操作,所以该情感词典在英文文本情感倾向性判别方面效果非常好。而语义字典,则需要有进行文本分类倾向性判断的关键字等。
以机器学习的方法进行文本分类就是建立分类器。可以是有监督的传统机器学习方法,也可以是无监督的深度学习方法。有监督的提取文本的词组,词向量作为特征值,通过传统机器学习方法,如SVM等构建分类器,进行文本分类。而深度学习方法,如FastText、TextCNN、TextRNN、RCNN、HAN、bert等,是目前自然语言处理文本分类中的常用方法。
现有的文本分类方法主要存在以下问题:(1)基于语义词典的分类方式,需要构建或者利用现有的词典,批量自动记账流程中出现的弹窗属于财政业务领域的文本,现有的词典并不适用。(2)机器学习方法相比传统机器学习方法,其中的深度学习方法,省去了人工特征选择的过程,更适合于大批量的数据集训练过程,更多用于长文本分类,而记账流程中的弹窗属于短文本,因此,针对长文本的机器学习方法并不适用于记账流中的弹窗分类处理。(3)现有的分类模型只是简单的利用传统的单个神经网络模型进行分类,例如,只采用FastText模型进行分类,不足之处是FastText模型的结构相对简单,虽然对于线性可分的样本能达到一定效果,但目前的使用场景来说,不是最优的模型。在处理一些长度较长的语句样本,或者线性不可分的样本时,效果较差。另外,FastText模型采用了词袋模型,虽然结合N-gram对词序语义有优化,但语义信息还是有丢失的,对句子词序敏感的样本表达不准确。因此分类精度较低。
通过以上分析可知,简单的应用传统的深度学习方法不能对记账流程中的弹窗进行精准分类,不能满足记账流程中出现的弹窗进行智能的识别和处理的需求。
为此,亟待需要开发一种能够克服以上问题的全自动记账流程弹窗处理方法和系统。
发明内容
针对上述问题,本发明提供了一种全自动记账流程弹窗处理方法和系统,可充分的消除由于现有技术的限制和缺陷而导致的上述多个问题。采用FastText和DBN结合的模型,无论判断准确度和速度性能都取得较好的效果,非常适合该业务场景。
为解决上述问题,本发明提出的技术方案如下:
一方面,本发明提供了一种全自动记账流程弹窗处理方法,所述方法包括以下步骤:
S1.对批量自动记账流程进行监视,如果在对一笔交易的自动记账过程中出现弹窗,则实时获取所述弹窗的文本内容及出现弹窗的该笔交易的标识;
S2.对所述弹窗的文本内容进行预处理,并对预处理后的弹窗的文本内容进行分词处理,获得所述弹窗的文本内容的多个分词,并形成词序列;
S3.将所述词序列输入到预先训练好的弹窗分类模型,以通过所述弹窗分类模型对所述弹窗进行分类;其中:
所述弹窗分类模型采用FastText模型和深度信念网络模型(DBN)相结合的模型,利用所述FastText模型提取所述弹窗的文本内容的词向量,利用所述深度信念网络模型基于提取的所述词向量对所述弹窗进行分类;其中:
如果所述弹窗被分类为错误弹窗,则取消该笔交易的记账过程,记录该笔交易的标识及错误原因,并向工作人员发出提醒;如果所述弹窗被分类为提示弹窗,则继续执行所述批量自动记账流程。
优选的,所述FastText模型包括:
输入层:用于接收所述词序列,通过Word2vec模型将所述词序列转换为词向量,并对所述词向量进行加权形成加权词向量;
隐藏层:用于对所有的加权词向量进行叠加平均和非线性变换,得到所述弹窗的文本内容的词向量;
输出层:用于接收隐藏层输出的所述弹窗的文本内容的词向量,并将所述弹窗的文本内容的词向量输出到所述信念神经网络模型。
优选的,对Word2vec模型转换后的词向量进行加权,加权公式为:
优选的,所述深度信念网络模型的训练过程包括:先对RBM进行无监督训练,然后再对RBM进行有监督训练,其中,在有监督训练过程中对各层RBM的参数进行微调。
优选的,在所述有监督训练过程中对各层RBM的参数进行微调包括:
(1)通过以下公式计算第l层RBM(即,最后一层RBM)的输出向量:
ul(x)=1/[1+exp(bl+wlul-1(x))]
其中,x输入向量,ul(x)为第l层RBM的输出向量,ul-1(x)为第l-1层RBM的输出向量,bl为第l层可视层的偏置,wl为第l层RBM的权重。
(2)通过以下公式计算分类概率:
其中,p为第i个样本xi属于类别yi的概率,yi∈(1,2,...,c),V为参数;
(3)通过以下公式计算第l层RBM的误差函数:
其中,J(λl)为第l层RBM的误差函数,λl={wl,bl,cl,Vl},m为隐层节点数,V为参数系数,1{yi=k}为逻辑指示函数,当yi=k时为1,否则为0;
(4)通过以下公式对误差函数求偏导:
(5)通过以下公式获得第l层RBM的微调参数:
其中,α为学习率。
优选的,所述深度信念网络模型由3个受限玻尔兹曼机(RBM)层和1个多层感知器(MLP)层构成。
优选的,当所述弹窗被分类为错误弹窗时,通过短消息方式将发生错误的交易的标识及错误原因通知给工作人员,以便工作人员进行人工对账核验。
优选的,根据人工对账核验结果,对所述弹窗分类模型进行纠正。
本发明还提供了一种全自动记账流程弹窗处理系统,所述系统包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上所述的全自动记账流程弹窗处理方法。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有程序,所述程序被处理器执行时实现如上所述的全自动记账流程弹窗处理方法。
本发明为对自动批量记账流程中出现的弹窗进行准确分类,构建了多个神经网络混合的模型,即,FastText模型和深度信念网络模型相结合的弹窗分析模型。本发明的弹窗分析模型专门针对记账流程中出现的弹窗设计,优化了传统的深度学习的模型架构,对记账流程中的弹窗的分类的精度高。采用本发明的技术方案,在处理记账流程中的弹窗时,既不需要词典,也不需要人工干预,能够实现自动的提取特征和分类,达到快速准确分类的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将首先对描述实施例所使用的附图作简要说明。可以理解的是,这些附图仅仅是示例性的说明,对于本领域普通技术人员来讲,在不付出创造性的劳动的前提下,可以对这些附图作出改变,这些改进都旨在包括在本发明的范围之内。
图1为根据本发明实施例的全自动的记账流程错误弹窗处理方法的流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,便于本领域技术人员能够更好的理解对本发明的技术方案,下面将结合附图对本发明的实施例进行清楚、完整的描述。显而易见的是,所描述的实施例仅仅是本发明的一部分特定实施例,而不是全部的实施例。基于本发明说明书中的特定实施例,本领域普通技术人员在没有作出创造性的劳动的前提下所获得的所有其他实施例,都应当属于本发明的保护范围。
如图1所示,根据本发明的实施例的全自动记账流程弹窗处理方法,包括以下步骤:
S1.对批量自动记账流程进行监视,如果在对一笔交易的自动记账过程中出现弹窗,则实时获取所述弹窗的文本内容及出现弹窗的该笔交易的标识;
S2.对所述弹窗的文本内容进行预处理,并对预处理后的弹窗的文本内容进行分词处理,获得所述弹窗的文本内容的多个分词,并形成词序列;
S3.将所述词序列输入到预先训练好的弹窗分类模型,以通过所述弹窗分类模型对所述弹窗进行分类;其中:
所述弹窗分类模型采用FastText模型和深度信念网络模型(DBN)相结合的模型,利用所述FastText模型提取所述弹窗的文本内容的词向量,利用所述深度信念网络模型基于提取的所述词向量对所述弹窗进行分类;其中:
如果所述弹窗被分类为错误弹窗,则取消该笔交易的记账过程,记录该笔交易的标识及错误原因,并向工作人员发出提醒;如果所述弹窗被分类为提示弹窗,则继续执行所述批量自动记账流程。
下面对上述步骤S1-S3进行详细说明。
在步骤S1中主要实现在批量自动记账流程中出现弹窗时,自动获取弹窗的内容。
目前已取代传统的手工记账方式,取而代之的是,利用国库系统中的原始记账数据,结合RPA(机器人流程自动化)技术,实现了核心系统的批量自动记账。本发明在系统执行批量自动记账的过程中,对弹窗进行监视,如果出现弹窗,则实时获取弹窗内容并获取出现弹窗的该笔交易的标识。优选的,所述该笔交易的标识为该笔交易的编号。在该步骤,获取出现弹窗的交易的标识,主要目的在于后续的错误记录以及提醒相关人员针对该笔交易进行人工记账等处理。
在步骤S2中,首先对所述弹窗的文本内容进行预处理。根据本发明的优选实施例,所述预处理是指去除所述弹窗的文本内容中的表情符、标点符号、语气词及消息标题等无意义词。
接着,对预处理后的弹窗的文本内容进行分词处理。根据本发明的优选实施例,利用分词工具对预处理后的弹窗的文本内容进行分词处理。优选的,本发明采用的分词工具例如为盘古分词、庖丁分词等。
通过分词处理后,从弹窗的文本内容中提取出关键词和高频词这种具有标志指向性的词语。现有技术一般直接将分词处理后的分词作为特征词进行分类,然而,分词的效果决定分类精度,如果分词效果不理想,例如遗漏了部分关键词或高频词,那么分类精度就会降低。为此,优选的,本发明的技术方案在通过分词工具得到多个分词的基础上,为进一步提高分类精度,加入第二特征词,第二特征词在语义中表示明确的目的和指导意见,作为模型特征之一,对提取的关键词和高频词起到进一步的补充和辅助作用,因此,第二特征词的加入有助于提高分类精度。
根据本发明的优选实施例,在步骤S2中,将所述多个分词作为第一特征词,并加入第二特征词,然后将所述第一特征词和所述第二特征词组合成为所述词序列。
在步骤S3中,将所述词序列输入到预先训练好的弹窗分类模型,以通过所述弹窗分类模型对所述弹窗进行分类。
本发明的弹窗分类模型是多个神经网络混合的模型,即,采用FastText模型和深度信念网络模型相结合的模型,充分利用了FastText模型和深度信念网络模型的优点,即,利用所述FastText模型提取所述弹窗的文本内容的特征向量,利用所述深度信念网络模型基于提取的所述特征向量对所述弹窗进行分类。
首先要搭建模型,需要先将记账系统中各种类型弹窗中文本信息收集到大规模数据集中,该模型更适合大规模的文本分类问题,同时兼容各类别样本数目不均衡的情况。
FastText模型包含三部分:模型架构、层次softmax和n-gram特征,本发明对传统的FastText模型进行了改进,不再使用层次softmax,分类处理由深度信念网络模型完成。
具体的,本发明采用的所述FastText模型包括:
输入层:用于接收所述词序列,通过Word2vec模型将所述词序列转换为词向量,并对所述词向量进行加权形成加权词向量;
隐藏层:用于对所有的加权词向量进行叠加平均和非线性变换,得到所述弹窗的文本内容的词向量;
输出层:用于接收隐藏层输出的所述弹窗的文本内容的词向量,并将所述弹窗的文本内容的词向量输出到所述信念神经网络模型。
本发明对传统的FastText模型进行了改进,在输入层中嵌入了Word2vec模型,通过Word2vec模型将词序列转换为词向量,并对所述词向量进行加权形成加权词向量,通过加权考虑了单次在文本中的权重,提高了分类精度。另外,本发明在隐藏层还对加权词向量进行非线性变换,这样可以保留其中的上下文关系,避免丢失复杂语义信息,最大化适应更多的实际文本样本。并且高维的加权词向量经过非线性变换可转换成低维,更好的完成复杂函数的逼近。通过引入非线性变化给模型带来了非线性的特征,能够逼近任何曲线,从而能够更好的适应以后遇到的各种提示样本。另外,转换到低维问题,可以简化运算,实现快速训练,降低系统复杂度。
如上所述,本发明的FastText模型不包括层次softmax,因此,对传统的输出层也进行了改进,输出层不再使用softmax进行分类。
本发明的模型的特征提取完全自动化,无需人工整理;词向量在模型中的训练也完全自动化,无需提前准备,仅需要将预处理后的词序列作为模型的输入导入,就会自动创建词典。
需要指出的是,根据本发明的优选实施例,本发明的FastText模型的隐藏层和输出层均只有一层,这样在满足提取弹窗文本内容的特征向量的基础上,训练速度更快。
根据本发明的优选实施例,输入层采用的是经过训练的Word2vec模型,通过Worde2ec模型将所述多个分词转换为词向量。需要说明的是,本发明使用的Word2vec仅是举例说明,本领域技术人员可以选用任何其他合适的模型来将分词转换为词向量。
Word2vec模型包括CBOW模型和Skip-gram模型,本发明采用CBOW模型。
为了便于在后续的特征提取步骤提取出有助于分类的特征词,本发明对Word2vec模型转换后的词向量进行加权,加权公式为:
通过公式(1)、(2)获得文本中每个单词的权重,形成权重矩阵,将权重矩阵与词向量矩阵相乘,即可得到加权的词向量。
在利用所述FastText模型提取所述弹窗的文本内容的词向量后,再利用所述深度信念网络模型基于提取的所述词向量对所述弹窗进行分类。
本发明构建的深度信念网络模型作为分类器,深度信念网络模型是由多个受限玻尔兹曼机(RBM)层层堆叠而成。本发明采用的深度信念网络模型由l个受限玻尔兹曼机(RBM)层和q个多层感知器(MLP)层构成。根据本发明的优选实施例,l=3,q=1,即,本发明的深度信念网络模型由3个受限玻尔兹曼机(RBM)层和1个多层感知器(MLP)层构成。
在使用深度信念网络模型进行分类之前,首先需要利用样本数据对深度信念网络模型进行训练,具体的,深度信念网络模型的训练过程包括:先对RBM进行无监督训练,然后再对RBM进行有监督训练,其中,在有监督训练过程中对各层RBM的参数进行微调。
在无监督训练过程中,采用对比散度算法训练每一层的RBM,前一层的RBM训练完成后,将其结果作为下一层RBM的输入来训练该层RBM,以此类推,逐层训练完所有RBM。具体的,所述对RBM进行无监督训练具体包括以下步骤:
(1)采集记账流程弹窗的历史数据x,并将历史数据x作为训练样本数据输入到输入层;将输入层作为可视层,并将输入层和第一个隐层h1作为第一个RBM,采用对比散度算法训练所述第一层RBM,得到到第一个隐层h1的参数{w1;a1;b1},其中,w为权重,a为隐层的偏置,b为可视层的偏置;
(3)继续使用对比散度算法训练由t1(可视层)和h2的(隐层)构成的第二层RBM,得到h2层的参数{w2;a2;b2};
(4)自下而上逐层训练各个隐层,获得DBN网络的参数集{w1,w2,...,wl;a1,a2,...,al;b1,b2,...,bl},其中,w为权重,a为隐层的偏置,b为可视层的偏置。
所述有监督训练过程为:当逐层完成RBM的无监督训练之后,将所述DBM网络的参数集作为有监督学习的初始值,然后利用反向传播算法对DBN网络各层的参数进行微调。
具体的,在所述有监督训练过程中对各层RBM的参数进行微调包括:
(1)通过以下公式计算第l层RBM(即,最后一层RBM)的输出向量:
ul(x)=1/[1+exp(bl+wlul-1(x))]
其中,x输入向量,ul(x)为第l层RBM的输出向量,ul-1(x)为第l-1层RBM的输出向量,bl为第l层可视层的偏置,wl为第l层RBM的权重。
(2)通过以下公式计算分类概率:
其中,p为第i个样本xi属于类别yi的概率,yi∈(1,2,...,c),V为参数系数。最大概率对应的类别即为最终的分类类别。
(3)通过以下公式计算第l层RBM的误差函数:
其中,J(λl)为第l层RBM的误差函数,λl={wl,bl,cl,Vl},m为隐层节点数,V为参数系数,1{yi=k}为逻辑指示函数,当yi=k时为1,否则为0。
(4)通过以下公式对误差函数求偏导:
(5)通过以下公式获得第l层RBM的微调参数:
其中,α为学习率。
如前所述,通过步骤S3的分类,如果所述弹窗被分类为错误弹窗,则取消该笔交易的记账过程,记录该笔交易的标识及错误原因,并向工作人员发出提醒;如果所述弹窗被分类为提示弹窗(例如,批处理记账过程中提示某笔交易记账完成等常规的提示信息),则继续执行所述批量自动记账流程。
根据本发明的优选实施例,当所述弹窗被分类为错误弹窗时,通过例如短消息等方式将发生错误的交易的标识及错误原因通知给工作人员,以便工作人员进行人工对账核验。
根据本发明的优选实施例,根据人工对账核验结果,对弹窗分类模型进行纠正。弹窗分类模型会根据人工对账核验结果进行优化,不再需要改动脚本和代码。
通过本发明的技术方案,不再需要人工干预弹窗,弹窗判断模型能够自动判断,自我学习,这样可以达到无人值守的效果,从而节省了人工,同时,记账的批量全自动处理速度也更快。
本发明还提供了一种全自动记账流程弹窗处理系统,所述系统包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上所述的全自动记账流程弹窗处理方法实施例的各个方法步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有程序,该程序被处理器执行时实现如上所述的全自动记账流程弹窗处理方法实施例的各个方法步骤。其中,该计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序或按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现。
以上内容仅为本发明的较佳实施例,对于本领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种全自动记账流程弹窗处理方法,其特征在于,所述方法包括以下步骤:
S1.对批量自动记账流程进行监视,如果在对一笔交易的自动记账过程中出现弹窗,则实时获取所述弹窗的文本内容及出现弹窗的该笔交易的标识;
S2.对所述弹窗的文本内容进行预处理,并对预处理后的弹窗的文本内容进行分词处理,获得所述弹窗的文本内容的多个分词,并形成词序列;
S3.将所述词序列输入到预先训练好的弹窗分类模型,以通过所述弹窗分类模型对所述弹窗进行分类;其中:
所述弹窗分类模型采用FastText模型和深度信念网络模型(DBN)相结合的模型,利用所述FastText模型提取所述弹窗的文本内容的词向量,利用所述深度信念网络模型基于提取的所述词向量对所述弹窗进行分类;其中:
如果所述弹窗被分类为错误弹窗,则取消该笔交易的记账过程,记录该笔交易的标识及错误原因,并向工作人员发出提醒;如果所述弹窗被分类为提示弹窗,则继续执行所述批量自动记账流程。
2.根据权利要求1所述的方法,其特征在于,所述FastText模型包括:
输入层:用于接收所述词序列,通过Word2vec模型将所述词序列转换为词向量,并对所述词向量进行加权形成加权词向量;
隐藏层:用于对所有的加权词向量进行叠加平均和非线性变换,得到所述弹窗的文本内容的词向量;
输出层:用于接收隐藏层输出的所述弹窗的文本内容的词向量,并将所述弹窗的文本内容的词向量输出到所述信念神经网络模型。
4.根据权利要求1所述的方法,其特征在于,所述深度信念网络模型的训练过程包括:先对RBM进行无监督训练,然后再对RBM进行有监督训练,其中,在有监督训练过程中对各层RBM的参数进行微调。
5.根据权利要求4所述的方法,其特征在于,在所述有监督训练过程中对各层RBM的参数进行微调包括:
(1)通过以下公式计算第l层RBM(即,最后一层RBM)的输出向量:
ul(x)=1/[1+exp(bl+wlul-1(x))]
其中,x输入向量,ul(x)为第l层RBM的输出向量,ul-1(x)为第l-1层RBM的输出向量,bl为第l层可视层的偏置,wl为第l层RBM的权重。
(2)通过以下公式计算分类概率:
其中,p为第i个样本xi属于类别yi的概率,yi∈(1,2,...,c),V为参数;
(3)通过以下公式计算第l层RBM的误差函数:
其中,J(λl)为第l层RBM的误差函数,λl={wl,bl,cl,Vl},m为隐层节点数,V为参数系数,1{yi=k}为逻辑指示函数,当yi=k时为1,否则为0;
(4)通过以下公式对误差函数求偏导:
(5)通过以下公式获得第l层RBM的微调参数:
其中,α为学习率。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,所述深度信念网络模型由3个受限玻尔兹曼机(RBM)层和1个多层感知器(MLP)层构成。
7.根据权利要求1-5中任意一项所述的方法,其特征在于,当所述弹窗被分类为错误弹窗时,通过短消息方式将发生错误的交易的标识及错误原因通知给工作人员,以便工作人员进行人工对账核验。
8.根据权利要求7所述的方法,其特征在于,根据人工对账核验结果,对所述弹窗分类模型进行纠正。
9.一种全自动记账流程弹窗处理系统,所述系统包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1-8中任意一项所述的全自动记账流程弹窗处理方法。
10.一种计算机可读存储介质,计算机可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1-8中任意一项所述的全自动记账流程弹窗处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111440603.XA CN114117050B (zh) | 2021-11-30 | 2021-11-30 | 一种全自动记账流程弹窗处理方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111440603.XA CN114117050B (zh) | 2021-11-30 | 2021-11-30 | 一种全自动记账流程弹窗处理方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114117050A true CN114117050A (zh) | 2022-03-01 |
CN114117050B CN114117050B (zh) | 2022-08-05 |
Family
ID=80368312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111440603.XA Active CN114117050B (zh) | 2021-11-30 | 2021-11-30 | 一种全自动记账流程弹窗处理方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114117050B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006036170A1 (en) * | 2004-09-15 | 2006-04-06 | Pcsafe, Inc. | Methods and systems for filtering urls, webpages, and content |
US8983636B1 (en) * | 2011-10-28 | 2015-03-17 | Englobal Corporation | Client configuration tool |
CN107038173A (zh) * | 2016-02-04 | 2017-08-11 | 腾讯科技(深圳)有限公司 | 应用查询方法和装置、相似应用检测方法和装置 |
CN108628657A (zh) * | 2018-05-09 | 2018-10-09 | 深圳壹账通智能科技有限公司 | 弹窗处理方法、装置、计算机设备及存储介质 |
CN108664308A (zh) * | 2018-05-15 | 2018-10-16 | 北京五八信息技术有限公司 | 一种弹窗任务的管理方法、装置、存储介质及终端 |
CN109389143A (zh) * | 2018-06-19 | 2019-02-26 | 北京九章云极科技有限公司 | 一种数据分析处理系统及自动建模方法 |
CN111752664A (zh) * | 2020-06-29 | 2020-10-09 | 浙江传化绿色慧联物流有限公司 | 终端多窗口弹出管理方法及装置 |
CN112163064A (zh) * | 2020-10-14 | 2021-01-01 | 上海应用技术大学 | 基于深度学习的文本分类方法 |
CN112596828A (zh) * | 2020-12-15 | 2021-04-02 | 平安普惠企业管理有限公司 | 基于应用的弹窗生成方法、装置、电子设备及存储介质 |
CN112732892A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 课程推荐方法、装置、设备及存储介质 |
WO2021212761A1 (zh) * | 2020-04-21 | 2021-10-28 | 武汉旷视金智科技有限公司 | 标签的处理方法、装置及电子设备 |
-
2021
- 2021-11-30 CN CN202111440603.XA patent/CN114117050B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006036170A1 (en) * | 2004-09-15 | 2006-04-06 | Pcsafe, Inc. | Methods and systems for filtering urls, webpages, and content |
US8983636B1 (en) * | 2011-10-28 | 2015-03-17 | Englobal Corporation | Client configuration tool |
CN107038173A (zh) * | 2016-02-04 | 2017-08-11 | 腾讯科技(深圳)有限公司 | 应用查询方法和装置、相似应用检测方法和装置 |
CN108628657A (zh) * | 2018-05-09 | 2018-10-09 | 深圳壹账通智能科技有限公司 | 弹窗处理方法、装置、计算机设备及存储介质 |
CN108664308A (zh) * | 2018-05-15 | 2018-10-16 | 北京五八信息技术有限公司 | 一种弹窗任务的管理方法、装置、存储介质及终端 |
CN109389143A (zh) * | 2018-06-19 | 2019-02-26 | 北京九章云极科技有限公司 | 一种数据分析处理系统及自动建模方法 |
WO2021212761A1 (zh) * | 2020-04-21 | 2021-10-28 | 武汉旷视金智科技有限公司 | 标签的处理方法、装置及电子设备 |
CN111752664A (zh) * | 2020-06-29 | 2020-10-09 | 浙江传化绿色慧联物流有限公司 | 终端多窗口弹出管理方法及装置 |
CN112163064A (zh) * | 2020-10-14 | 2021-01-01 | 上海应用技术大学 | 基于深度学习的文本分类方法 |
CN112596828A (zh) * | 2020-12-15 | 2021-04-02 | 平安普惠企业管理有限公司 | 基于应用的弹窗生成方法、装置、电子设备及存储介质 |
CN112732892A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 课程推荐方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
周凡棣: "基于多特征的安卓盗版应用细粒度检测与研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
崔俊洁: "网页挖矿行为识别技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114117050B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114610515B (zh) | 基于日志全语义的多特征日志异常检测方法及系统 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN103942191B (zh) | 一种基于内容的恐怖文本识别方法 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN111198947B (zh) | 基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN108388554A (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN111651606B (zh) | 一种文本处理方法、装置及电子设备 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN114997169A (zh) | 一种实体词识别方法、装置、电子设备及可读存储介质 | |
CN117891958B (zh) | 一种基于知识图谱的标准数据处理方法 | |
CN115238693A (zh) | 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN116541523B (zh) | 一种基于大数据的法律判决舆情分类方法 | |
CN114117050B (zh) | 一种全自动记账流程弹窗处理方法、装置和系统 | |
CN115422362B (zh) | 一种基于人工智能的文本匹配方法 | |
CN108763487B (zh) | 一种基于Mean Shift的融合词性和句子信息的词表示方法 | |
CN114117069B (zh) | 一种用于知识图谱智能问答的语义理解方法及系统 | |
CN110968795B (zh) | 一种公司形象提升系统的数据关联匹配系统 | |
Wu et al. | Intelligent customer service system optimization based on artificial intelligence | |
CN114490937A (zh) | 基于语义感知的评论分析方法及装置 | |
CN113849637A (zh) | 一种低噪声干扰的有监督关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |