CN113360649B - Rpa系统中基于自然语言处理的流程差错控制方法和系统 - Google Patents
Rpa系统中基于自然语言处理的流程差错控制方法和系统 Download PDFInfo
- Publication number
- CN113360649B CN113360649B CN202110622293.7A CN202110622293A CN113360649B CN 113360649 B CN113360649 B CN 113360649B CN 202110622293 A CN202110622293 A CN 202110622293A CN 113360649 B CN113360649 B CN 113360649B
- Authority
- CN
- China
- Prior art keywords
- text
- corpus
- rpa
- model
- flow error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003058 natural language processing Methods 0.000 title claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 41
- 230000008451 emotion Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 45
- 238000002372 labelling Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 22
- 238000012795 verification Methods 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000007935 neutral effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000010076 replication Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims 2
- 239000000463 material Substances 0.000 abstract description 3
- 238000011161 development Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000004801 process automation Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种RPA系统中基于自然语言处理的流程差错控制方法,包括如下步骤:获取RPA流程信息,将获得的RPA流程信息输入训练好的RPA流程差错检测模型,以得到RPA流程差错信息列表,根据得到的RPA流程差错信息列表执行流程差错控制。本发明通过将NLP与RPA流程差错检测环节之中,可极大地提高差错检测的准确率和效率,从而实现了RPA机器人自动化处理和人工辅助有效结合,减少了企业的人力、物力、财力的消耗,也节约了RPA项目的开发成本。
Description
技术领域
本发明属于自然语言处理技术领域,更具体地,涉及一种RPA系统中基于自然语言处理的流程差错控制方法和系统。
背景技术
自然语言处理(Natural Language Processing,简称NLP)是计算机科学,信息工程和人工智能的子领域,涉及计算机与人类(自然)语言之间的交互,特别是如何对计算机进行编程以处理和分析大量自然语言数据,最终达到教会计算机如何以人类的方式理解问题并让其给出适当回应的技术。
机器人流程自动化(Robotic process automation,简称RPA)系统是一种应用程序,它通过模仿最终用户在电脑的手动操作方式,通过事先编好的操作流程步骤,实现RPA机器人流程自动化;RPA就像一位机器人员工,能自动操作整个业务流程,不但速度快,而且几乎不出错、7*24完成重复的流程工作。
传统RPA机器人在处理丰富的活动场景流程中总会遇到未知的故障,一旦RPA机器人遇到故障停止运行时,只能等待维护人每天定时的登录系统来判断RPA是否出现故障,并且人工进行故障监控的方法需要人工重复性地对故障信息记录逐条进行监控。通过上述的传统人工方式检测RPA流程故障信息,不仅效率低,而且无法规避人工操作带来的误判,导致人力物力的浪费,因此自动化流程差错机制在RPA系统中尤为重要。
现有的RPA自动化流程差错检测方法有很多种,但这些RPA流程差错检测机制均存在一些共同的缺陷:第一、整个获取RPA流程信息步骤繁琐、成本高、耗时长;第二,在面对处理较大的数据量场景中,这些机制并不能精确地且高效地检测到RPA流程差错信息。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种RPA系统中基于自然语言处理的流程差错控制方法和系统,其目的在于,解决现有RPA自动化流程差错检测方法存在的获取RPA流程信息步骤繁琐、成本高、耗时长的技术问题,以及在面对处理较大的数据量场景中,无法精确且高效地检测到RPA流程差错信息的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种RPA系统中基于自然语言处理的流程差错控制方法,包括如下步骤:
(1)获取RPA流程信息;
(2)将步骤(1)获得的RPA流程信息输入训练好的RPA流程差错检测模型,以得到RPA流程差错信息列表。
(3)根据步骤(2)得到的RPA流程差错信息列表执行流程差错控制。
优选地,RPA流程差错检测模型是双向长短时记忆网络BiLSTM、卷积神经网络CNN、或Transformer类预训练模型;
当RPA流程差错检测模型采用Transformer类预训练模型时,其包括electra-small模型和Chinese-electra-small模型。
优选地,步骤(2)中的RPA流程差错检测模型是通过以下步骤训练得到的:
(2-1)获取RPA系统中的活动场景、及其对应的文本,对文本先后进行筛选、分类和整合处理,以得到文本语料库,其中文本分为正常信息文本和差错信息文本;
(2-2)对步骤(2-1)得到的文本语料库进行预处理和标注处理,以得到RPA标注语料库;
(2-3)对步骤(2-2)得到的RPA标注语料库先后进行数据增强和数据扩充处理,以得到RPA专用语料库;
(2-4)将步骤(2-3)得到的RPA专用语料库划分为训练集、验证集以及测试集;
(2-5)将步骤(2-4)得到的训练集和验证集输入RPA流程差错检测模型进行迭代训练,直至RPA流程差错检测模型收敛为止,并利用步骤(2-4)得到的测试集对RPA流程差错检测模型进行验证处理,直到得到RPA流程差错检测模型的检测精度达到最优为止,从而得到训练好的RPA流程差错检测模型。
优选地,步骤(2-1)首先是获取RPA系统中的活动场景、及其对应的文本,然后将这些文本进行筛选、分类和整合处理,以得到文本语料库。
正常信息文本指的是其机器情感偏向是机器情感正向或机器情感中性的文本;
差错信息文本指的是其机器情感偏向是机器情感负向的文本。
优选地,步骤(2-2)首先是使用正则表达式对文本语料库中的每个待标注文本进行数据清洗,以去除特殊符号;然后使用自然语言处理工具包NLTK对去除了特殊符号后的每个待标注文本进行处理,以去除其中的停用词并修正其中的单词表示;最后对处理后的待标注文本进行分类标注,所有分类标注后得到的文本构成RPA标注语料库;其中在分类标注过程中,是将正常信息文本标注为1,将差错信息文本标注为0。
优选地,步骤(2-3)包括以下子步骤:
(2-3-1)对步骤(2-2)得到的RPA标注语料库中的每个文本进行近义词扩充处理,所有扩充处理后的文本构成第一语料库;
(2-3-2)将步骤(2-3-1)得到的第一语料库进行数据复制处理,以得到第二语料库;
(2-3-3)将步骤(2-3-2)得到的第二语料库中的每个差错信息文本进行反义词扩展处理,以得到第三语料库;
(2-3-4)对步骤(2-3-3)得到的第三语料库中的差错信息文本进行机器情感调和处理,以得到RPA专用语料库;
优选地,步骤(2-3-1)具体是针对标注语料库中的每个文本而言,将文本中的每个句子进行分词处理,并对得到的每个词进行近义词扩展,从而得到每个句子对应的多个扩展后的词,进而得到近义词扩展后的文本,所有近义词扩展后的文本构成第一语料库;
步骤(2-3-2)具体是针对第一语料库中差错信息文本中每个句子中每个无法被第一网络模型检测出其语义的动词和名词而言,对该动词和名词进行复制处理并进行标注,从而得到数据复制后的文本,所有数据复制后的差错信息文本、以及第一语料库中原有的所有正常信息文本共同构成第二语料库;
步骤(2-3-3)具体是针对第二语料库中的差错信息文本而言,将文本中的每个句子进行分词处理,并对处理得到的每个词进行反义词扩展,从而得到每个句子对应的多个扩展后的词,所有句子对应的多个扩展后的词构成反义词扩展后的文本,所有反义词扩展后的差错信息文本、以及第二语料库中原有的所有正常信息文本共同构成第三语料库;
步骤(2-3-4)具体是针对第三语料库而言,向该第三语料库中添加人为情感负向、而非机器情感负向的文本,并将添加的文本更新为正常信息文本,所有更新后的正常信息文本、以及第三语料库中原有的文本构成RPA专用语料库。
优选地,当RPA流程差错检测模型使用Transformer类预训练模型时,其把生成器模型和判别器模型构成,二者分别使用Electra-small和Chinese-electra-small模型;
生成器模型通过用掩体的方式破坏输入的原始令牌、然后通过训练模型的方式重构该原始令牌;
判别器模型获取生成器重构的原始令牌作为输入,以预测每个被重构的原始令牌就是输入的原始令牌的概率。
优选地,在步骤(2-5)的迭代训练过程中,使用的损失函数具体为生成器模型和判别器模型损失函数之和:
其中,λ表示权重系数;χ表示训练集;LMLM()表示生成器模型损失函数值;LDisc()表示判别器模型损失函数,θG表示生成器模型参数,θD表示判别器模型参数,x表示训练集中的原始令牌序列,且有x=[x1,...,xn],其中n表示原始令牌序列中的原始令牌总数,xm表示原始令牌序列中的第m个原始令牌,且有m∈[1,n];
生成器模型损失函数为:
其中m表示原始令牌序列x中被掩体(Mask)的方式破坏的原始令牌数量,且有i∈[1,m],pG(xi|xmasked)表示产生一组被掩体的方式破坏的原始令牌序列xmasked时,生成器生成令牌xi的概率,E()表示数学期望函数。
判别器模型损失函数为:
其中表示产生一组重构令牌序列xcorrupt时,预测位置t处的重构令牌等于预测位置t处原始令牌的概率,且有t∈[1,n];/>表示预测位置t处的重构令牌等于预测位置t处原始令牌的情况;/>表示预测位置t处的重构令牌不等于预测位置t处原始令牌的情况。
按照本发明的另一方面,提供了一种RPA系统中基于自然语言处理的流程差错控制系统,包括:
第一模块,用于获取RPA流程信息;
第二模块,用于将第一模块获得的RPA流程信息输入训练好的RPA流程差错检测模型,以得到RPA流程差错信息列表。
第三模块,用于根据第二模块得到的RPA流程差错信息列表执行流程差错控制。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明由于采用了步骤(1),其采用在线截屏技术和OCR技术,实现自动且快速获取流程信息,因此能够解决现有RPA自动化流程差错检测方法获取RPA流程信息步骤繁琐、成本高、耗时长的技术问题;
(2)本发明由于采用了步骤(2),其采用小型的预训练神经网络模型对大量的数据进行自动化RPA流程差错检测,因此能够解决现有RPA自动化流程差错检测方法中在面对处理较大的数据量场景时,无法精确且高效地检测到RPA流程差错信息的技术问题
附图说明
图1是本发明RPA系统中基于自然语言处理的流程差错控制方法的流程图;
图2是本发明RPA流程差错检测模型的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,利用神经网络模型将文本转化为词向量并以注意力机制构建文本、单词、标签之间的语义相关性,一方面,面对丰富领域的活动场景文本能够快速地将正常信息过滤,另一方面,能够从复杂的各类差错信息文本精确地检测RPA流程差错信息,从而在两个角度上提升了RPA自动化流程差错控制的效果。
本发明RPA系统中基于自然语言处理的流程差错控制方法将自然语言处理(Natural Language Processing,简称NLP)技术与RPA流程差错检测技术结合起来,通过NLP技术快速捕获RPA流程差错信息,同时维护一个基于RPA流程差错信息词典,将有丰富经验的实施人员的知识抽象为规则词典;利用RPA流程差错检测模型精确地捕捉RPA流程差错信息,借用机器报警方式联系专业人士介入处理的功能,最终实现快速地且精确地RPA流程差错检测。
如图1所示,本发明提供了一种RPA系统中基于自然语言处理的流程差错控制方法,包括如下步骤:
(1)获取RPA流程信息;
具体而言,本步骤中的RPA流程信息通过截屏、并对截屏后的图像进行文字识别获取得到的。
(2)将步骤(1)获得的RPA流程信息输入训练好的RPA流程差错检测模型,以得到RPA流程差错信息列表;
步骤(2)中使用的RPA流程差错检测模型,可以是双向长短时记忆网络(BiLSTM(Bi-directional Long Short-Term Memory,简称BiLSTM)、卷积神经网络(ConvolutionNeural network,简称CNN)、或Transformer类预训练模型,其中在验证阶段发现Transformer类预训练模型的效果要远远超过BiLSTM和CNN。因此,优选采用Transformer类预训练模型,其可以为electra-small模型或Chinese-electra-small模型。
Transformer类预训练模型的优点在于,首先,Transformer类预训练模型有较多在大规模中文语料库中预训练好的参数模型,对于数量较少的情况下,使用Transformer类预训练模型再训练是比较好的选择;同时,与BiLSTM和CNN相比,Transformer类预训练模型可以用于更长的文本序列;并且Transformer类预训练模型采用多层注意力(Attention)融合方法,每一个词可以更好地结合其他单词的信息。最后考虑模型的部署和实施环节,由于Transformer类预训练模型效果好是因为其庞大的神经网络(包含了大量的参数),因此占用体积非常大且加载时间长,这给模型部署和实时模型加载预测分析带来了难度,因此Transformer类预训练模型包括一个Electra-small模型和一个Chinese-electra-small模型这类精简模型,其缩减了大量非重要参数,其模型大小同时缩小了十几倍,同时检测的精确率趋近大型神经网络模型。
上述步骤(2)的优点在于,采用了精小的Transformer类预训练神经网络模型,保证了在模型部署环节上更轻量化、加载时间更短并且一定的流程差错检测的精确率。
步骤(2)中的RPA流程差错检测模型是通过以下步骤训练得到的:
(2-1)获取RPA系统中的活动场景、及其对应的文本,对文本先后进行筛选、分类和整合处理,以得到文本语料库,其中文本分为正常信息文本和差错信息文本;
具体而言,本步骤首先获取RPA系统中的活动场景(之所以不把所有场景包含进来,是因为有些活动使用频率较低,不仅会增加收集文本的难度,还会影响后续模型训练而导致产生结果误差增大,甚至可能污染整个文本语料库)、及其对应的文本,然后将这些文本进行筛选、分类和整合处理,以得到文本语料库。
本步骤中,正常信息文本,指的是其机器情感偏向是机器情感正向或机器情感中性的文本,而差错信息文本,指的是其机器情感偏向是机器情感负向的文本。
例如:“操作正确”是机器情感正向,“操作正在进行”为机器情感中性,“操作非法”是机器情感负向,
(2-2)对步骤(2-1)得到的文本语料库进行预处理和标注处理,以得到RPA标注语料库;
具体而言,本步骤首先使用正则表达式对文本语料库中的每个待标注文本进行数据清洗,以去除一些特殊符号(例如&、%、#等);然后使用自然语言处理工具包(NaturalLanguage Toolkit,简称NLTK)对去除了特殊符号后的每个待标注文本进行处理,以去除其中的停用词并修正其中的单词表示;最后对处理后的待标注文本进行分类标注,所有分类标注后得到的文本构成RPA标注语料库。
在分类标注过程中,是将正常信息文本标注为1,将差错信息文本标注为0。
(2-3)对步骤(2-2)得到的RPA标注语料库先后进行数据增强和数据扩充处理,以得到RPA专用语料库;
具体而言,本步骤包括以下子步骤:
(2-3-1)对步骤(2-2)得到的RPA标注语料库中的每个文本进行近义词扩充处理,所有扩充处理后的文本构成第一语料库;
具体而言,本步骤是针对标注语料库中的每个文本而言,将文本中的每个句子进行分词处理,并对得到的每个词进行近义词扩展,从而得到每个句子对应的多个扩展后的词,进而得到近义词扩展后的文本,所有近义词扩展后的文本构成第一语料库。
例如:首先将“出错”、“错误”、“异常”、“非法”等名词作为近义词,然后获取语料库中的文本数据如:“解析文件参数时出错”,接下来将“出错”这个词从文本数据中分词出来,最后用设定的近义词进行替换。达到的效果为生成如下文本数据:“解析文件参数时错误”、“解析文件参数时异常”、“解析文件参数时非法”。
(2-3-2)将步骤(2-3-1)得到的第一语料库进行数据复制处理,以得到第二语料库;
具体而言,本步骤是针对第一语料库中差错信息文本中每个句子中每个无法被第一网络模型检测出其语义的动词和名词而言,对该动词和名词进行复制处理并进行标注,从而得到数据复制后的文本,所有数据复制后的差错信息文本、以及第一语料库中原有的所有正常信息文本共同构成第二语料库。
例如:获取到的第一语料库中的差错信息文本如“文本重复”,其中的名词“重复”在日常领域中是一个机器情感非负向名词,第一网络模型可能会将其检测为正常信息,因此本发明将“重复”名词进行大量复制,并将其和RPA专业术语进行组合标记为差错信息,并将扩展的差错信息文本加入到第二语料库中。最后达到的效果是生成如下文本数据:“重复”、“重复重复”、“目标重复”、“重复使用”、“声明重复”等。
本步骤可以帮助后续步骤中的RPA流程差错检测模型识别特定的差错信息语义。
上述步骤(2-3-1)和步骤(2-3-2)的优点在于,可以扩充真实业务场景的数据量,使得深度学习模型训练数据量达到标准;可以帮助后续步骤中的RPA流程差错检测模型识别特定的差错信息语义。
(2-3-3)将步骤(2-3-2)得到的第二语料库中的每个差错信息文本进行反义词扩展处理,以得到第三语料库;
具体而言,本步骤是针对第二语料库中的差错信息文本而言,将文本中的每个句子进行分词处理,并对处理得到的每个词进行反义词扩展,从而得到每个句子对应的多个扩展后的词,所有句子对应的多个扩展后的词构成反义词扩展后的文本,所有反义词扩展后的差错信息文本、以及第二语料库中原有的所有正常信息文本共同构成第三语料库。
例如:首先从第二语料库中获取差错信息文本如:“用户密码错误”,然后用分词法将“错误”词语划分出来,最后使用反义词“正确”进行替换。达到的效果为生成如下文本数据:“用户密码正确”。
(2-3-4)对步骤(2-3-3)得到的第三语料库中的差错信息文本进行机器情感调和处理,以得到RPA专用语料库;
具体而言,本步骤是针对第三语料库而言,向该第三语料库中添加人为情感负向、而非机器情感负向的文本,并将添加的文本更新为正常信息文本(机器情感正向),所有更新后的正常信息文本、以及第三语料库中原有的文本构成RPA专用语料库。
差错信息文本为机器情感负向,正常信息文本为机器情感正向或者中性;但在很多实际活动场景中,很多人为情感负向的文本并不是差错信息文本(即机器情感负向的文本),例如:“今天天气很差!”,这是由于机器情感负向的文本和人为负向的文本存在一定的相似度,因此在一些特定的领域活动场景中人为负向文本会被模型误判为差错信息文本,所以在语料库中添加大量的是人为情感负向、而非差错信息(即机器情感负向)的文本,并将添加的文本更新为正常信息文本(机器情感正向),帮助后续步骤中的训练好的RPA流程差错检测模型识别特定的差错信息语义,不被其它人为情感负向的文本所干扰。
上述步骤(2-3-3)和步骤(2-3-4)的优点在于,可以增加RPA流程正常信息文本;可以帮助后续步骤中的RPA流程差错检测模型识别特定的差错信息语义。
(2-4)将步骤(2-3)得到的RPA专用语料库划分为训练集、验证集以及测试集;
具体而言,将RPA专用语料库中的文本按照7:2:1的比例划分为训练集、验证集以及测试集;
(2-5)将步骤(2-4)得到的训练集和验证集输入RPA流程差错检测模型进行迭代训练,直至RPA流程差错检测模型收敛为止,并利用步骤(2-4)得到的测试集对RPA流程差错检测模型进行验证处理,直到得到RPA流程差错检测模型的检测精度达到最优为止,从而得到训练好的RPA流程差错检测模型。
具体而言,如图2所示,本发明的RPA流程差错检测模型是由生成器(Generator)模型和判别器(Discriminator)模型构成,其分别使用Electra-small和Chinese-electra-small模型。生成器的任务是掩体语言建模(Masked language modeling,简称MLM)预处理训练方法,其通过用掩体(Mask)的方式破坏输入的原始令牌(Token)、然后通过训练模型的方式重构该原始令牌;判别器模型的任务是替换标记检测,即获取生成器重构的原始令牌作为输入,来预测每个被重构的原始令牌就是输入的原始令牌的概率。
生成器模型(G)和判别器模型(D)都是由一个编码器(例如Transformer网络)组成,该编码器将一个序列映射到原始令牌序列x=[x1,…xn]。对于一个给定的预测位置t(在图中仅是其中一个原始令牌xt=[MASK]的位置),生成器输出原始令牌xt的生成概率,判别器输出原始令牌xt被重构后等于原始令牌的概率。
在步骤(2-5)的迭代训练过程中,使用的损失函数具体为生成器模型和判别器模型损失函数之和:
其中,λ表示权重系数;χ表示训练集;LMLM()表示生成器模型损失函数值;LDisc()表示判别器模型损失函数,θG表示生成器模型参数,θD表示判别器模型参数,x表示训练集中的原始令牌序列,且有x=[x1,...,xn],其中n表示原始令牌序列中的原始令牌总数,xm表示原始令牌序列中的第m个原始令牌,且有m∈[1,n];
生成器模型损失函数为:
其中m表示原始令牌序列x中被掩体(Mask)的方式破坏的原始令牌数量,且有i∈[1,m],pG(xi|xmasked)表示产生一组被掩体的方式破坏的原始令牌序列xmasked时,生成器生成令牌xi的概率,E()表示数学期望函数。
判别器模型损失函数为:
其中表示产生一组重构令牌序列xcorrupt时,预测位置t处的重构令牌等于预测位置t处原始令牌的概率,且有t∈[1,n];/>表示预测位置t处的重构令牌等于预测位置t处原始令牌的情况;/>表示预测位置t处的重构令牌不等于预测位置t处原始令牌的情况。
(3)根据步骤(2)得到的RPA流程差错信息列表执行流程差错控制。
本发明通过将NLP与RPA流程差错检测环节技术结合起来,实现了可极大地提高流程差错检测的准确率,从而实现了RPA机器人自动化处理和人工辅助有效结合,减少了企业的人力、物力、财力的消耗,也节约了RPA项目的开发成本。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种RPA系统中基于自然语言处理的流程差错控制方法,其特征在于,包括如下步骤:
(1)获取RPA流程信息;
(2)将步骤(1)获得的RPA流程信息输入训练好的RPA流程差错检测模型,以得到RPA流程差错信息列表;RPA流程差错检测模型是双向长短时记忆网络BiLSTM、卷积神经网络CNN、或Transformer类预训练模型;
当RPA流程差错检测模型采用Transformer类预训练模型时,其包括Electra-small模型和Chinese-electra-small模型;
(3)根据步骤(2)得到的RPA流程差错信息列表执行流程差错控制;
其中步骤(2)中的RPA流程差错检测模型是通过以下步骤训练得到的:
(2-1)获取RPA系统中的活动场景、及其对应的文本,对文本先后进行筛选、分类和整合处理,以得到文本语料库,其中文本分为正常信息文本和差错信息文本;步骤(2-1)首先是获取RPA系统中的活动场景、及其对应的文本,然后将这些文本进行筛选、分类和整合处理,以得到文本语料库;
正常信息文本指的是其机器情感偏向是机器情感正向或机器情感中性的文本;
差错信息文本指的是其机器情感偏向是机器情感负向的文本;
(2-2)对步骤(2-1)得到的文本语料库进行预处理和标注处理,以得到RPA标注语料库;步骤(2-2)首先是使用正则表达式对文本语料库中的每个待标注文本进行数据清洗,以去除特殊符号;然后使用自然语言处理工具包NLTK对去除了特殊符号后的每个待标注文本进行处理,以去除其中的停用词并修正其中的单词表示;最后对处理后的待标注文本进行分类标注,所有分类标注后得到的文本构成RPA标注语料库;其中在分类标注过程中,是将正常信息文本标注为1,将差错信息文本标注为0;
(2-3)对步骤(2-2)得到的RPA标注语料库先后进行数据增强和数据扩充处理,以得到RPA专用语料库;步骤(2-3)包括以下子步骤:
(2-3-1)对步骤(2-2)得到的RPA标注语料库中的每个文本进行近义词扩充处理,所有扩充处理后的文本构成第一语料库;步骤(2-3-1)具体是针对标注语料库中的每个文本而言,将文本中的每个句子进行分词处理,并对得到的每个词进行近义词扩展,从而得到每个句子对应的多个扩展后的词,进而得到近义词扩展后的文本,所有近义词扩展后的文本构成第一语料库;
(2-3-2)将步骤(2-3-1)得到的第一语料库进行数据复制处理,以得到第二语料库;步骤(2-3-2)具体是针对第一语料库中差错信息文本中每个句子中每个无法被第一网络模型检测出其语义的动词和名词而言,对该动词和名词进行复制处理并进行标注,从而得到数据复制后的文本,所有数据复制后的差错信息文本、以及第一语料库中原有的所有正常信息文本共同构成第二语料库;
(2-3-3)将步骤(2-3-2)得到的第二语料库中的每个差错信息文本进行反义词扩展处理,以得到第三语料库;步骤(2-3-3)具体是针对第二语料库中的差错信息文本而言,将文本中的每个句子进行分词处理,并对处理得到的每个词进行反义词扩展,从而得到每个句子对应的多个扩展后的词,所有句子对应的多个扩展后的词构成反义词扩展后的文本,所有反义词扩展后的差错信息文本、以及第二语料库中原有的所有正常信息文本共同构成第三语料库;
(2-3-4)对步骤(2-3-3)得到的第三语料库中的差错信息文本进行机器情感调和处理,以得到RPA专用语料库;步骤(2-3-4)具体是针对第三语料库而言,向该第三语料库中添加人为情感负向、而非机器情感负向的文本,并将添加的文本更新为正常信息文本,所有更新后的正常信息文本、以及第三语料库中原有的文本构成RPA专用语料库;
(2-4)将步骤(2-3)得到的RPA专用语料库划分为训练集、验证集以及测试集;
(2-5)将步骤(2-4)得到的训练集和验证集输入RPA流程差错检测模型进行迭代训练,直至RPA流程差错检测模型收敛为止,并利用步骤(2-4)得到的测试集对RPA流程差错检测模型进行验证处理,直到得到RPA流程差错检测模型的检测精度达到最优为止,从而得到训练好的RPA流程差错检测模型。
2.根据权利要求1所述的RPA系统中基于自然语言处理的流程差错控制方法,其特征在于,
当RPA流程差错检测模型使用Transformer类预训练模型时,其把生成器模型和判别器模型构成,二者分别使用Electra-small和Chinese-electra-small模型;
生成器模型通过用掩体的方式破坏输入的原始令牌、然后通过训练模型的方式重构该原始令牌;
判别器模型获取生成器重构的原始令牌作为输入,以预测每个被重构的原始令牌就是输入的原始令牌的概率。
3.根据权利要求2所述的RPA系统中基于自然语言处理的流程差错控制方法,其特征在于,在步骤(2-5)的迭代训练过程中,使用的损失函数具体为生成器模型和判别器模型损失函数之和:
其中,λ表示权重系数;χ表示训练集;LMLM()表示生成器模型损失函数值;LDisc()表示判别器模型损失函数,θG表示生成器模型参数,θD表示判别器模型参数,x表示训练集中的原始令牌序列,且有x=[x1,...,xn],其中n表示原始令牌序列中的原始令牌总数,xm表示原始令牌序列中的第m个原始令牌,且有m∈[1,n];
生成器模型损失函数为:
其中m表示原始令牌序列x中被掩体(Mask)的方式破坏的原始令牌数量,且有i∈[1,m],pG(xi|xmasked)表示产生一组被掩体的方式破坏的原始令牌序列xmasked时,生成器生成令牌xi的概率,E()表示数学期望函数;
判别器模型损失函数为:
其中表示产生一组重构令牌序列xcorrupt时,预测位置t处的重构令牌等于预测位置t处原始令牌的概率,且有t∈[1,n];/>表示预测位置t处的重构令牌等于预测位置t处原始令牌的情况;/>表示预测位置t处的重构令牌不等于预测位置t处原始令牌的情况。
4.一种RPA系统中基于自然语言处理的流程差错控制系统,其特征在于,包括:
第一模块,用于获取RPA流程信息;
第二模块,用于将第一模块获得的RPA流程信息输入训练好的RPA流程差错检测模型,以得到RPA流程差错信息列表;RPA流程差错检测模型是双向长短时记忆网络BiLSTM、卷积神经网络CNN、或Transformer类预训练模型;
当RPA流程差错检测模型采用Transformer类预训练模型时,其包括Electra-small模型和Chinese-electra-small模型;
第三模块,用于根据第二模块得到的RPA流程差错信息列表执行流程差错控制;
其中第二模块中的RPA流程差错检测模型是通过以下步骤训练得到的:
(2-1)获取RPA系统中的活动场景、及其对应的文本,对文本先后进行筛选、分类和整合处理,以得到文本语料库,其中文本分为正常信息文本和差错信息文本;步骤(2-1)首先是获取RPA系统中的活动场景、及其对应的文本,然后将这些文本进行筛选、分类和整合处理,以得到文本语料库;
正常信息文本指的是其机器情感偏向是机器情感正向或机器情感中性的文本;
差错信息文本指的是其机器情感偏向是机器情感负向的文本;
(2-2)对步骤(2-1)得到的文本语料库进行预处理和标注处理,以得到RPA标注语料库;步骤(2-2)首先是使用正则表达式对文本语料库中的每个待标注文本进行数据清洗,以去除特殊符号;然后使用自然语言处理工具包NLTK对去除了特殊符号后的每个待标注文本进行处理,以去除其中的停用词并修正其中的单词表示;最后对处理后的待标注文本进行分类标注,所有分类标注后得到的文本构成RPA标注语料库;其中在分类标注过程中,是将正常信息文本标注为1,将差错信息文本标注为0;
(2-3)对步骤(2-2)得到的RPA标注语料库先后进行数据增强和数据扩充处理,以得到RPA专用语料库;步骤(2-3)包括以下子步骤:
(2-3-1)对步骤(2-2)得到的RPA标注语料库中的每个文本进行近义词扩充处理,所有扩充处理后的文本构成第一语料库;步骤(2-3-1)具体是针对标注语料库中的每个文本而言,将文本中的每个句子进行分词处理,并对得到的每个词进行近义词扩展,从而得到每个句子对应的多个扩展后的词,进而得到近义词扩展后的文本,所有近义词扩展后的文本构成第一语料库;
(2-3-2)将步骤(2-3-1)得到的第一语料库进行数据复制处理,以得到第二语料库;步骤(2-3-2)具体是针对第一语料库中差错信息文本中每个句子中每个无法被第一网络模型检测出其语义的动词和名词而言,对该动词和名词进行复制处理并进行标注,从而得到数据复制后的文本,所有数据复制后的差错信息文本、以及第一语料库中原有的所有正常信息文本共同构成第二语料库;
(2-3-3)将步骤(2-3-2)得到的第二语料库中的每个差错信息文本进行反义词扩展处理,以得到第三语料库;步骤(2-3-3)具体是针对第二语料库中的差错信息文本而言,将文本中的每个句子进行分词处理,并对处理得到的每个词进行反义词扩展,从而得到每个句子对应的多个扩展后的词,所有句子对应的多个扩展后的词构成反义词扩展后的文本,所有反义词扩展后的差错信息文本、以及第二语料库中原有的所有正常信息文本共同构成第三语料库;
(2-3-4)对步骤(2-3-3)得到的第三语料库中的差错信息文本进行机器情感调和处理,以得到RPA专用语料库;步骤(2-3-4)具体是针对第三语料库而言,向该第三语料库中添加人为情感负向、而非机器情感负向的文本,并将添加的文本更新为正常信息文本,所有更新后的正常信息文本、以及第三语料库中原有的文本构成RPA专用语料库;
(2-4)将步骤(2-3)得到的RPA专用语料库划分为训练集、验证集以及测试集;
(2-5)将步骤(2-4)得到的训练集和验证集输入RPA流程差错检测模型进行迭代训练,直至RPA流程差错检测模型收敛为止,并利用步骤(2-4)得到的测试集对RPA流程差错检测模型进行验证处理,直到得到RPA流程差错检测模型的检测精度达到最优为止,从而得到训练好的RPA流程差错检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110622293.7A CN113360649B (zh) | 2021-06-04 | 2021-06-04 | Rpa系统中基于自然语言处理的流程差错控制方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110622293.7A CN113360649B (zh) | 2021-06-04 | 2021-06-04 | Rpa系统中基于自然语言处理的流程差错控制方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360649A CN113360649A (zh) | 2021-09-07 |
CN113360649B true CN113360649B (zh) | 2024-01-05 |
Family
ID=77531975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110622293.7A Active CN113360649B (zh) | 2021-06-04 | 2021-06-04 | Rpa系统中基于自然语言处理的流程差错控制方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360649B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110515846A (zh) * | 2019-08-20 | 2019-11-29 | 上海云扩信息科技有限公司 | 一种关于用户体验测试的数据自动化处理分析系统、方法 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
WO2020048721A1 (en) * | 2018-09-04 | 2020-03-12 | Siemens Aktiengesellschaft | System and method for natural language processing |
CN112002323A (zh) * | 2020-08-24 | 2020-11-27 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN112163420A (zh) * | 2020-09-23 | 2021-01-01 | 北京天行有灵科技有限公司 | 一种基于nlp技术的rpa流程自动生成方法 |
-
2021
- 2021-06-04 CN CN202110622293.7A patent/CN113360649B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020048721A1 (en) * | 2018-09-04 | 2020-03-12 | Siemens Aktiengesellschaft | System and method for natural language processing |
CN110515846A (zh) * | 2019-08-20 | 2019-11-29 | 上海云扩信息科技有限公司 | 一种关于用户体验测试的数据自动化处理分析系统、方法 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN112002323A (zh) * | 2020-08-24 | 2020-11-27 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN112163420A (zh) * | 2020-09-23 | 2021-01-01 | 北京天行有灵科技有限公司 | 一种基于nlp技术的rpa流程自动生成方法 |
Non-Patent Citations (1)
Title |
---|
基于Transformer增强架构的中文语法纠错方法;王辰成;杨麟儿;王莹莹;杜永萍;杨尔弘;;中文信息学报(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113360649A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Camburu et al. | e-snli: Natural language inference with natural language explanations | |
Liu et al. | Clevr-ref+: Diagnosing visual reasoning with referring expressions | |
Alishahi et al. | Analyzing and interpreting neural networks for NLP: A report on the first BlackboxNLP workshop | |
US9442917B2 (en) | Detecting semantic errors in text using ontology-based extraction rules | |
CN112257441B (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
CN113448843B (zh) | 基于缺陷分析的图像识别软件测试数据增强方法及装置 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
US20220366145A1 (en) | Generative language model for few-shot aspect-based sentiment analysis | |
Feret et al. | Combining case-based and model-based reasoning for the diagnosis of complex devices | |
WO2023045725A1 (zh) | 用于数据集创建的方法、电子设备和计算机程序产品 | |
CN113672931A (zh) | 一种基于预训练的软件漏洞自动检测方法及装置 | |
Chugunkov et al. | Creation of datasets from open sources | |
Bao et al. | Text generation from tables | |
CN114880307A (zh) | 一种开放教育领域知识的结构化建模方法 | |
Zhang et al. | Labelvizier: Interactive validation and relabeling for technical text annotations | |
Krithika et al. | Learning to grade short answers using machine learning techniques | |
CN111898337B (zh) | 一种基于深度学习的单句摘要缺陷报告标题自动生成方法 | |
Du et al. | Deepsim: Deep semantic information-based automatic mandelbug classification | |
CN113360649B (zh) | Rpa系统中基于自然语言处理的流程差错控制方法和系统 | |
Singh | Automated validation of requirement reviews: A machine learning approach | |
Singh et al. | An empirical investigation to overcome class-imbalance in inspection reviews | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
Xu et al. | Robust learning for text classification with multi-source noise simulation and hard example mining | |
CN115935969A (zh) | 基于多模态信息融合的异构数据特征提取方法 | |
Wu et al. | MFD: Multi-Feature Detection of LLM-Generated Text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |