CN117912027A

CN117912027A - 一种适用于rpa流程自动化的智能识别方法及系统

Info

Publication number: CN117912027A
Application number: CN202410302114.5A
Authority: CN
Inventors: 林美君; 郑艳伟; 黄博文; 张欣睿; 郭清昊; 于东晓
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-03-18
Filing date: 2024-03-18
Publication date: 2024-04-19

Abstract

本发明属于RPA智能识别领域，具体涉及一种适用于RPA流程自动化的智能识别方法及系统，本发明公开的方法实现了文字识别和语音识别，创新性的结合了识别文字在图像中的对应位置，并提供正则表达式方法查询文字信息，在保证各个步骤预测准确性的同时，提高了流程的自动化程度。

Description

一种适用于RPA流程自动化的智能识别方法及系统

技术领域

本发明属于RPA智能识别领域，具体涉及一种适用于RPA流程自动化的智能识别及系统。

背景技术

随着信息技术的不断发展，自动化技术在各个领域中的应用越来越广泛，其中机器人流程自动化（Robotic Process Automation）是一种利用软件机器人或人工智能虚拟助手来执行日常重复性任务和业务流程的技术。RPA技术可以模拟和自动执行人类在计算机上进行的任务，如数据输入、文件处理、电子邮件发送等，从而提高工作效率、降低成本，并减少人力资源的浪费。

目前市面上的RPA产品缺乏人工智能技术的支持，无法自动识别和处理各种类型的文档和图像，包括发票、身份证、户口本等，对于许多企业和组织而言，是一个严重的挑战。这意味着在处理这些复杂数据时，需要手动编写脚本或规则来识别和提取信息，增加了实施和维护的工作量。此外，由于这些文档和图像可能具有不同的格式、布局和语言，因此制定通用的识别和提取规则变得更加困难。这种手动处理方式容易导致错误和不一致性，同时也增加了处理时间和成本。因此，寻求更加智能化和自动化的解决方案，能够减少人工干预，提高处理效率和准确性，对于提升业务流程的效率和降低成本至关重要。

发明内容

为了实现更深层次的自动化，本发明提供了一种将文字识别和声音识别方法与RPA相结合，利用文字识别和声音识别方法为RPA系统赋予更广泛的智能化和自动化能力。

为达到上述目的，本发明的技术方案如下：

一种适用于RPA流程自动化的智能识别方法，包括以下步骤：

S1. 系统通过接口接收文件;

S2.进行内容的识别；

PDF文件或图片的识别：

从PDF文件或图片载体中识别文字信息，识别出文字内容以及每个文字的位置信息，并按照正则表达式规则寻找对应的文字及位置信息，判断是否匹配成功，若成功，则返回匹配到的文本内容及位置信息；若不成功，则输出未匹配，结束识别过程；

或音频识别：

从音频文件中识别声音信息，并将声音信息转换为文字；

S3. 将识别出的文字信息返回给RPA处理。

优选的，步骤S1中，接收文件的类型为图片，或PDF，或音频文件；通过HTTP通信协议将文件内容以二进制形式封装在HTTP请求中，并将其发送到服务器指定的端点，服务器端接收到文件后，将其保存到文件系统。

优选的，步骤S1中，

若接口传入PDF文件，将传入的PDF文件转换为图片，解析PDF文件，设计遍历PDF文件对象树并提取所需信息；PDF文件被解析后，每一页的内容需要被渲染为图像，包括将页面的文本、图形和其他元素转换为像素；设渲染函数为，/>是渲染的分辨率参数，/>为渲染后的图像，渲染页面可以通过公式（1）将页面内容呈现为位图图像，

（1）；

将渲染后的图像进一步处理，设为处理的参数，图像处理函数为，处理后的图像为/>，

（2）；

若传入图像或音频文件，接口将文件暂存在文件系统中。

优选的，步骤S2中，若接受文件是PDF，则将PDF转换成图片，识别步骤如下，

S21-1.检测图片中的文字位置，将图片输入到Resnet50模型中，通过上采样的方式将Resnet50模型的输出变换为同一尺寸，并产生特征图；通过Resnet50模型的特征层预测概率图及文本概率图，计算像素属于文本的概率形成文本概率图，然后根据各像素动态阈值形成动态阈值图，通过文本概率图和动态阈值图生成DB二值图；设概率图为，阈值图为/>，近似二值图为/>，通过公式（3）建立概率图P和阈值图T与二值化图之间的关系，使得二值化的计算可微，从而可以满足梯度反向传播的条件，k为增益因子，

（3）；

S21-2.识别检测区域中的文本内容，通过使用深度CNN，对输入图像提取特征，得到特征图，在特征图中提取RNN需要的特征向量序列，使用双向LSTM对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布，最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练，设RNN给定输入概率分布矩阵为，/>是序列长度，映射为标签文本/>的总概率如公式（4）所示：

（4）；

其中代表从序列到序列的映射函数/>变换后是文本/>的所有路径集合，而/>是其中一条路径，把从RNN层获得的一系列标签转换成最终的标签序列；

S21-3. Resnet50模型可以识别出包含文字的图片或者PDF文件，返回识别到的文字内容和单字符的位置，实现了文字查找功能，并可根据正则表达式匹配待查找的文字。

优选的，步骤S2中，若接受文件是音频文件，识别音频文件中的内容，返回识别出的声音信息并转换为文本，具体步骤如下：

S22-1. 信号采集：设是音频文件的模拟信号电压，/>为参考电压，确定模拟信号的量化范围，/>为比特数，表示输出数字的精度或可区分的级别数量，/>表示四舍五入操作，/>表示输出的数字信号，通过公式（5）将模拟信号转换为数字信号，

（5）；

S22-2. 预处理：对采集到的声音信号进行滤波、降噪；

S22-3. 特征提取：使用短时傅里叶变换将长时间的语音信号分割成多个短时段，然后对每个短时段进行傅里叶变换，得到对应的短时段的频谱信息；设是输入的语音信号，/>是在时刻/>和频率/>下的频谱，/>是窗函数，用于分割语音信号的短时段，/>为角频率，通过公式（6）可以获得每个时间窗口内的频谱信息，从而得到语音信号的频谱特征，

（6）；

S22-4.声音识别：将提取的声音特征输入到训练好的Transformer模型中，Transformer的Encoder部分可以对音频的原始特征进行特征编码，Transformer 的Encoder中每个查询向量通过内积与所有键向量/>计算相似度，V是值向量，通过公式（7）缩放内积结果，

（7）；

其中是键向量/>的维度，经过缩放后的注意力分数通过/>函数进行归一化，将其转换为注意力权重，通过公式（8）将输入的分数转换为概率分布，使得每个注意力权重的取值在/>范围内；

（8）；

Transformer Decoder利用Encoder产生的特征编码解码得到预测结果。

一种适用于RPA流程自动化的智能识别系统，包括文件接收模块、文字识别模块、声音识别模块和信息处理模块；其中，

文件接收模块：系统通过接口接收文件，接受文件或是包含文字的图片或PDF，或以是包含语音信息的音频文件；

文字识别模块：从PDF文件、图片等载体中识别文字信息，识别出文字内容以及每个文字的位置信息，并可以按照正则表达式规则寻找对应的文字及位置信息；

声音识别模块：从音频文件中识别声音信息，并将声音信息转换为文字；

信息处理模块：将识别出的文字信息返回给RPA处理。

优选的，文字识别模块包括Resnet50模型和CRNN模型；将图片输入到Resnet50模型中，通过上采样的方式将Resnet50模型的输出变换为同一尺寸，并产生特征图；通过特征层预测概率图及文本概率图，计算像素属于文本的概率形成文本概率图，然后根据各像素动态阈值形成动态阈值图，通过文本概率图和动态阈值图生成DB二值图；

CRNN网络结构包含三部分，从上到下依次为卷积层CNN、循环层RNN和转录层CTC，通过使用深度CNN，对输入图像提取特征，得到特征图，在特征图中提取RNN需要的特征向量序列，使用双向LSTM对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布，最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练。

优选的，声音识别模块包括Transformer模型，Transformer的Encoder部分可以对音频的原始特征进行特征编码，Encoder层主要包括自注意力和全连接层；自注意力机制负责计算输入序列中每个位置对其他位置的关注度，从而捕捉序列中的依赖关系，全连接层用于保持输入和输出的特征维度一致。

与现有技术相比，本申请有益效果如下：

本发明将文字识别功能加入RPA系统中，在系统中传入PDF文件、图片等文字载体，系统识别出每个文字的内容及位置信息，并增加按照正则表达式规则寻找对应文字的功能。

本发明将声音识别功能加入RPA系统中，在系统中传入音频文件，识别出音频文件中的语音信息，系统打印识别结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种用于RPA流程自动化的文字识别与声音识别技术的整体流程图。

图2为本发明实施例的文字识别示意图。

图3为本发明实施例的声音识别的阶段示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种用于RPA流程自动化的文字识别与声音识别方法，如图2-3所示，该方法可以对传入系统中的图片、PDF文件或者语音文件进行文字识别和语音识别，识别出文字载体中的文字内容以及位置信息，并根据正则表达式匹配相应文字并返回对应位置信息，将音频文件转换为对应的文字信息。

如图1所示，具体实施例如下：

一种用于RPA流程自动化的文字识别与声音识别方法，包括以下步骤：

（1）系统通过接口接收文件，这些文件可以是包含文字的图片或PDF，也可以是包含语音信息的音频文件：

通过HTTP通信协议将文件内容以二进制形式封装在HTTP请求中，并将其发送到服务器指定的端点。服务器端接收到文件后，将其保存到文件系统。

若接口传入PDF文件，将传入的PDF文件转换为图片，PDF文件本质上是一种由对象组成的树状结构，每个对象可以包含文本、图形或者其他嵌入式元素。解析PDF文件设计遍历这个对象树并提取所需信息。

PDF文件被解析后，每一页的内容需要被渲染为图像，包括将页面的文本、图形和其他元素转换为像素。设渲染函数为，/>是渲染的分辨率参数，为渲染后的图像，渲染页面可以通过公式（1）将页面内容呈现为位图图像，

（1）。

将渲染后的图像进一步处理，设为处理的参数，例如调整的大小，裁剪区域等，图像处理函数为/>，处理后的图像为/>，图像处理可通公式（2）来实现，

（2）。

若传入图像或音频文件，接口将文件暂存在文件系统中，以便后续处理。

（2）文字识别阶段：

（2.1）检测图片中的文字位置，将图片输入到Resnet50模型中，通过上采样的方式将Resnet50模型的输出变换为同一尺寸，并产生特征图。通过特征层预测概率图及文本概率图计算像素属于文本的概率形成文本概率图，然后根据各像素动态阈值形成动态阈值图，通过文本概率图和动态阈值图生成DB二值图。设概率图为P，阈值图为T，近似二值图为，k为增益因子，通过公式（3）建立概率图P和阈值图T与二值化图之间的关系，使得二值化的计算可微，从而可以满足梯度反向传播的条件，

（3）。

（2.2）识别检测区域中的文本内容，采用CRNN模型，整个CRNN网络结构包含三部分，从上到下依次为卷积层（CNN）、循环层（RNN）、转录层（CTC）。通过使用深度CNN，对输入图像提取特征，得到特征图，在特征图中提取RNN需要的特征向量序列，使用双向LSTM对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布，最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练，设RNN给定输入概率分布矩阵为,/>是序列长度，映射为标签文本/>的总概率如公式（4）所示：

（4）；

其中代表从序列到序列的映射函数/>变换后是文本/>的所有路径集合，而/>是其中一条路径，通过上述方法把从RNN层获得的一系列标签转换成最终的标签序列。

（2.3）文字识别：通过上述两个步骤之后，模型可以识别包含文字的图片或者PDF文件，返回识别到的文字内容和单字符的位置。实现了文字查找功能，并可根据正则表达式匹配待查找的文字。

（3）声音识别阶段：

（3.1）信号采集：语音信号是一种连续的模拟信号，设是音频文件的模拟信号电压，/>为参考电压，确定模拟信号的量化范围，/>为比特数，表示输出数字的精度或可区分的级别数量，/>表示四舍五入操作，/>表示输出的数字信号，通过公式（5）将模拟信号转换为数字信号，以便计算机进行处理和分析，

（5）。

（3.2）预处理：对采集到的声音信号进行滤波、降噪，以减少噪音和增强语音特征。

（3.3）特征提取：使用短时傅里叶变换（STFT）将长时间的语音信号分割成多个短时段，然后对每个短时段进行傅里叶变换，得到该时段的频谱信息。设是输入的语音信号，/>是在时刻/>和频率/>下的频谱，/>是窗函数，用于分割语音信号的短时段，/>为角频率，通过公式（6）可以获得每个时间窗口内的频谱信息，从而得到语音信号的频谱特征，

（6）；

（3.4）声音识别：将提取的声音特征输入到训练好的Transformer模型中，Transformer的Encoder部分可以对音频的原始特征进行特征编码，Encoder层主要包括自注意力（Self-Attention）和全连接层（Fully Connected Layer）。Transformer Encoder中每个查询向量通过内积与所有键向量/>计算相似度，V是值向量，通过公式（7）缩放内积结果，从而保持梯度的稳定性和模型的训练效果，

（7）；

其中是键向量/>的维度，经过缩放后的注意力分数通过/>函数进行归一化，将其转换为注意力权重，通过公式（8）将输入的分数转换为概率分布，使得每个注意力权重的取值在/>范围内。Transformer Decoder利用Encoder产生的特征编码解码得到预测结果，

（8）。

信息处理模块：将识别出的文字信息返回给RPA处理。

文字识别模块包括Resnet50模型和CRNN模型；将图片输入到Resnet50模型中，通过上采样的方式将Resnet50模型的输出变换为同一尺寸，并产生特征图；通过特征层预测概率图及文本概率图，计算像素属于文本的概率形成文本概率图，然后根据各像素动态阈值形成动态阈值图，通过文本概率图和动态阈值图生成DB二值图；

声音识别模块包括Transformer模型，Transformer的Encoder部分可以对音频的原始特征进行特征编码，Encoder层主要包括自注意力和全连接层；自注意力机制负责计算输入序列中每个位置对其他位置的关注度，从而捕捉序列中的依赖关系，全连接层用于保持输入和输出的特征维度一致。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种适用于RPA流程自动化的智能识别方法，其特征在于，包括以下步骤：

S1. 系统通过接口接收文件;

S2.进行内容的识别；

PDF文件或图片的识别：

或音频识别：

从音频文件中识别声音信息，并将声音信息转换为文字；

S3. 将识别出的文字信息返回给RPA处理。

2.根据权利要求1所述的一种适用于RPA流程自动化的智能识别方法，其特征在于，步骤S1中，接收文件的类型为图片，或PDF，或音频文件；通过HTTP通信协议将文件内容以二进制形式封装在HTTP请求中，并将其发送到服务器指定的端点，服务器端接收到文件后，将其保存到文件系统。

3.根据权利要求2所述的一种适用于RPA流程自动化的智能识别方法，其特征在于，步骤S1中，

（1）；

将渲染后的图像进一步处理，设为处理的参数，图像处理函数为/>，处理后的图像为/>，

（2）；

若传入图像或音频文件，接口将文件暂存在文件系统中。

4.根据权利要求2所述的一种适用于RPA流程自动化的智能识别方法，其特征在于，步骤S2中，若接受文件是PDF，则将PDF转换成图片，识别步骤如下，

（3）；

（4）；

5.根据权利要求2所述的一种适用于RPA流程自动化的智能识别方法，其特征在于，步骤S2中，若接受文件是音频文件，识别音频文件中的内容，返回识别出的声音信息并转换为文本，具体步骤如下：

（5）；

S22-2.预处理：对采集到的声音信号进行滤波、降噪；

S22-3. 特征提取：使用短时傅里叶变换将长时间的语音信号分割成多个短时段，然后对每个短时段进行傅里叶变换，得到对应的短时段的频谱信息；设是输入的语音信号，是在时刻/>和频率/>下的频谱，/>是窗函数，用于分割语音信号的短时段，/>为角频率，通过公式（6）可以获得每个时间窗口内的频谱信息，从而得到语音信号的频谱特征，

（6）；

（7）；

（8）；

6.一种适用于RPA流程自动化的智能识别系统，其特征在于，包括文件接收模块、文字识别模块、声音识别模块和信息处理模块；其中，

信息处理模块：将识别出的文字信息返回给RPA处理。

7.根据权利要求6所述的一种适用于RPA流程自动化的智能识别系统，其特征在于，文字识别模块包括Resnet50模型和CRNN模型；将图片输入到Resnet50模型中，通过上采样的方式将Resnet50模型的输出变换为同一尺寸，并产生特征图；通过特征层预测概率图及文本概率图，计算像素属于文本的概率形成文本概率图，然后根据各像素动态阈值形成动态阈值图，通过文本概率图和动态阈值图生成DB二值图；

8.根据权利要求6所述的一种适用于RPA流程自动化的智能识别系统，其特征在于，声音识别模块包括Transformer模型，Transformer的Encoder部分可以对音频的原始特征进行特征编码，Encoder层主要包括自注意力和全连接层；自注意力机制负责计算输入序列中每个位置对其他位置的关注度，从而捕捉序列中的依赖关系，全连接层用于保持输入和输出的特征维度一致。