CN117912027A - 一种适用于rpa流程自动化的智能识别方法及系统 - Google Patents
一种适用于rpa流程自动化的智能识别方法及系统 Download PDFInfo
- Publication number
- CN117912027A CN117912027A CN202410302114.5A CN202410302114A CN117912027A CN 117912027 A CN117912027 A CN 117912027A CN 202410302114 A CN202410302114 A CN 202410302114A CN 117912027 A CN117912027 A CN 117912027A
- Authority
- CN
- China
- Prior art keywords
- file
- text
- map
- information
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000004801 process automation Methods 0.000 title claims abstract description 19
- 230000006870 function Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 11
- 102100032202 Cornulin Human genes 0.000 claims description 8
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 6
- 238000009877 rendering Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 239000000969 carrier Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013518 transcription Methods 0.000 claims description 4
- 230000035897 transcription Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于RPA智能识别领域,具体涉及一种适用于RPA流程自动化的智能识别方法及系统,本发明公开的方法实现了文字识别和语音识别,创新性的结合了识别文字在图像中的对应位置,并提供正则表达式方法查询文字信息,在保证各个步骤预测准确性的同时,提高了流程的自动化程度。
Description
技术领域
本发明属于RPA智能识别领域,具体涉及一种适用于RPA流程自动化的智能识别及系统。
背景技术
随着信息技术的不断发展,自动化技术在各个领域中的应用越来越广泛,其中机器人流程自动化(Robotic Process Automation)是一种利用软件机器人或人工智能虚拟助手来执行日常重复性任务和业务流程的技术。RPA技术可以模拟和自动执行人类在计算机上进行的任务,如数据输入、文件处理、电子邮件发送等,从而提高工作效率、降低成本,并减少人力资源的浪费。
目前市面上的RPA产品缺乏人工智能技术的支持,无法自动识别和处理各种类型的文档和图像,包括发票、身份证、户口本等,对于许多企业和组织而言,是一个严重的挑战。这意味着在处理这些复杂数据时,需要手动编写脚本或规则来识别和提取信息,增加了实施和维护的工作量。此外,由于这些文档和图像可能具有不同的格式、布局和语言,因此制定通用的识别和提取规则变得更加困难。这种手动处理方式容易导致错误和不一致性,同时也增加了处理时间和成本。因此,寻求更加智能化和自动化的解决方案,能够减少人工干预,提高处理效率和准确性,对于提升业务流程的效率和降低成本至关重要。
发明内容
为了实现更深层次的自动化,本发明提供了一种将文字识别和声音识别方法与RPA相结合,利用文字识别和声音识别方法为RPA系统赋予更广泛的智能化和自动化能力。
为达到上述目的,本发明的技术方案如下:
一种适用于RPA流程自动化的智能识别方法,包括以下步骤:
S1. 系统通过接口接收文件;
S2.进行内容的识别;
PDF文件或图片的识别:
从PDF文件或图片载体中识别文字信息,识别出文字内容以及每个文字的位置信息,并按照正则表达式规则寻找对应的文字及位置信息,判断是否匹配成功,若成功,则返回匹配到的文本内容及位置信息;若不成功,则输出未匹配,结束识别过程;
或音频识别:
从音频文件中识别声音信息,并将声音信息转换为文字;
S3. 将识别出的文字信息返回给RPA处理。
优选的,步骤S1中,接收文件的类型为图片,或PDF,或音频文件;通过HTTP通信协议将文件内容以二进制形式封装在HTTP请求中,并将其发送到服务器指定的端点,服务器端接收到文件后,将其保存到文件系统。
优选的,步骤S1中,
若接口传入PDF文件,将传入的PDF文件转换为图片,解析PDF文件,设计遍历PDF文件对象树并提取所需信息;PDF文件被解析后,每一页的内容需要被渲染为图像,包括将页面的文本、图形和其他元素转换为像素;设渲染函数为,/>是渲染的分辨率参数,/>为渲染后的图像,渲染页面可以通过公式(1)将页面内容呈现为位图图像,
(1);
将渲染后的图像进一步处理,设为处理的参数,图像处理函数为,处理后的图像为/>,
(2) ;
若传入图像或音频文件,接口将文件暂存在文件系统中。
优选的,步骤S2中,若接受文件是PDF,则将PDF转换成图片,识别步骤如下,
S21-1.检测图片中的文字位置,将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图;通过Resnet50模型的特征层预测概率图及文本概率图,计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图;设概率图为,阈值图为/>,近似二值图为/>,通过公式(3)建立概率图P和阈值图T与二值化图之间的关系,使得二值化的计算可微,从而可以满足梯度反向传播的条件,k为增益因子,
(3) ;
S21-2.识别检测区域中的文本内容,通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练,设RNN给定输入概率分布矩阵为,/>是序列长度,映射为标签文本/>的总概率如公式(4)所示:
(4) ;
其中代表从序列到序列的映射函数/>变换后是文本/>的所有路径集合,而/>是其中一条路径,把从RNN层获得的一系列标签转换成最终的标签序列;
S21-3. Resnet50模型可以识别出包含文字的图片或者PDF文件,返回识别到的文字内容和单字符的位置,实现了文字查找功能,并可根据正则表达式匹配待查找的文字。
优选的,步骤S2中,若接受文件是音频文件,识别音频文件中的内容,返回识别出的声音信息并转换为文本,具体步骤如下:
S22-1. 信号采集:设是音频文件的模拟信号电压,/>为参考电压,确定模拟信号的量化范围,/>为比特数,表示输出数字的精度或可区分的级别数量,/>表示四舍五入操作,/>表示输出的数字信号,通过公式(5)将模拟信号转换为数字信号,
(5) ;
S22-2. 预处理:对采集到的声音信号进行滤波、降噪;
S22-3. 特征提取:使用短时傅里叶变换将长时间的语音信号分割成多个短时段,然后对每个短时段进行傅里叶变换,得到对应的短时段的频谱信息;设是输入的语音信号,/>是在时刻/>和频率/>下的频谱,/>是窗函数,用于分割语音信号的短时段,/>为角频率,通过公式(6)可以获得每个时间窗口内的频谱信息,从而得到语音信号的频谱特征,
(6);
S22-4.声音识别:将提取的声音特征输入到训练好的Transformer模型中,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Transformer 的Encoder中每个查询向量通过内积与所有键向量/>计算相似度,V是值向量,通过公式(7)缩放内积结果,
(7) ;
其中是键向量/>的维度,经过缩放后的注意力分数通过/>函数进行归一化,将其转换为注意力权重,通过公式(8)将输入的分数转换为概率分布,使得每个注意力权重的取值在/>范围内;
(8) ;
Transformer Decoder利用Encoder产生的特征编码解码得到预测结果。
一种适用于RPA流程自动化的智能识别系统,包括文件接收模块、文字识别模块、声音识别模块和信息处理模块;其中,
文件接收模块:系统通过接口接收文件,接受文件或是包含文字的图片或PDF,或以是包含语音信息的音频文件;
文字识别模块:从PDF文件、图片等载体中识别文字信息,识别出文字内容以及每个文字的位置信息,并可以按照正则表达式规则寻找对应的文字及位置信息;
声音识别模块:从音频文件中识别声音信息,并将声音信息转换为文字;
信息处理模块:将识别出的文字信息返回给RPA处理。
优选的,文字识别模块包括Resnet50模型和CRNN模型;将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图;通过特征层预测概率图及文本概率图,计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图;
CRNN网络结构包含三部分,从上到下依次为卷积层CNN、循环层RNN和转录层CTC,通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练。
优选的,声音识别模块包括Transformer模型,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Encoder层主要包括自注意力和全连接层;自注意力机制负责计算输入序列中每个位置对其他位置的关注度,从而捕捉序列中的依赖关系,全连接层用于保持输入和输出的特征维度一致。
与现有技术相比,本申请有益效果如下:
本发明将文字识别功能加入RPA系统中,在系统中传入PDF文件、图片等文字载体,系统识别出每个文字的内容及位置信息,并增加按照正则表达式规则寻找对应文字的功能。
本发明将声音识别功能加入RPA系统中,在系统中传入音频文件,识别出音频文件中的语音信息,系统打印识别结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所公开的一种用于RPA流程自动化的文字识别与声音识别技术的整体流程图。
图2为本发明实施例的文字识别示意图。
图3为本发明实施例的声音识别的阶段示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种用于RPA流程自动化的文字识别与声音识别方法,如图2-3所示,该方法可以对传入系统中的图片、PDF文件或者语音文件进行文字识别和语音识别,识别出文字载体中的文字内容以及位置信息,并根据正则表达式匹配相应文字并返回对应位置信息,将音频文件转换为对应的文字信息。
如图1所示,具体实施例如下:
一种用于RPA流程自动化的文字识别与声音识别方法,包括以下步骤:
(1)系统通过接口接收文件,这些文件可以是包含文字的图片或PDF,也可以是包含语音信息的音频文件:
通过HTTP通信协议将文件内容以二进制形式封装在HTTP请求中,并将其发送到服务器指定的端点。服务器端接收到文件后,将其保存到文件系统。
若接口传入PDF文件,将传入的PDF文件转换为图片,PDF文件本质上是一种由对象组成的树状结构,每个对象可以包含文本、图形或者其他嵌入式元素。解析PDF文件设计遍历这个对象树并提取所需信息。
PDF文件被解析后,每一页的内容需要被渲染为图像,包括将页面的文本、图形和其他元素转换为像素。设渲染函数为,/>是渲染的分辨率参数,为渲染后的图像,渲染页面可以通过公式(1)将页面内容呈现为位图图像,
(1) 。
将渲染后的图像进一步处理,设为处理的参数,例如调整的大小,裁剪区域等,图像处理函数为/>,处理后的图像为/>,图像处理可通公式(2)来实现,
(2)。
若传入图像或音频文件,接口将文件暂存在文件系统中,以便后续处理。
(2)文字识别阶段:
(2.1) 检测图片中的文字位置,将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图。通过特征层预测概率图及文本概率图计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图。设概率图为P,阈值图为T,近似二值图为,k为增益因子,通过公式(3)建立概率图P和阈值图T与二值化图之间的关系,使得二值化的计算可微,从而可以满足梯度反向传播的条件,
(3)。
(2.2) 识别检测区域中的文本内容,采用CRNN模型,整个CRNN网络结构包含三部分,从上到下依次为卷积层(CNN)、循环层(RNN)、转录层(CTC)。通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练,设RNN给定输入概率分布矩阵为,/>是序列长度,映射为标签文本/>的总概率如公式(4)所示:
(4) ;
其中代表从序列到序列的映射函数/>变换后是文本/>的所有路径集合,而/>是其中一条路径,通过上述方法把从RNN层获得的一系列标签转换成最终的标签序列。
(2.3)文字识别:通过上述两个步骤之后,模型可以识别包含文字的图片或者PDF文件,返回识别到的文字内容和单字符的位置。实现了文字查找功能,并可根据正则表达式匹配待查找的文字。
(3)声音识别阶段:
(3.1) 信号采集:语音信号是一种连续的模拟信号,设是音频文件的模拟信号电压,/>为参考电压,确定模拟信号的量化范围,/>为比特数,表示输出数字的精度或可区分的级别数量,/>表示四舍五入操作,/>表示输出的数字信号,通过公式(5)将模拟信号转换为数字信号,以便计算机进行处理和分析,
(5) 。
(3.2) 预处理:对采集到的声音信号进行滤波、降噪,以减少噪音和增强语音特征。
(3.3) 特征提取:使用短时傅里叶变换(STFT)将长时间的语音信号分割成多个短时段,然后对每个短时段进行傅里叶变换,得到该时段的频谱信息。设是输入的语音信号,/>是在时刻/>和频率/>下的频谱,/>是窗函数,用于分割语音信号的短时段,/>为角频率,通过公式(6)可以获得每个时间窗口内的频谱信息,从而得到语音信号的频谱特征,
(6) ;
(3.4)声音识别:将提取的声音特征输入到训练好的Transformer模型中,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Encoder层主要包括自注意力(Self-Attention)和全连接层(Fully Connected Layer)。Transformer Encoder中每个查询向量通过内积与所有键向量/>计算相似度,V是值向量,通过公式(7)缩放内积结果,从而保持梯度的稳定性和模型的训练效果,
(7);
其中是键向量/>的维度,经过缩放后的注意力分数通过/>函数进行归一化,将其转换为注意力权重,通过公式(8)将输入的分数转换为概率分布,使得每个注意力权重的取值在/>范围内。Transformer Decoder利用Encoder产生的特征编码解码得到预测结果,
(8) 。
一种适用于RPA流程自动化的智能识别系统,包括文件接收模块、文字识别模块、声音识别模块和信息处理模块;其中,
文件接收模块:系统通过接口接收文件,接受文件或是包含文字的图片或PDF,或以是包含语音信息的音频文件;
文字识别模块:从PDF文件、图片等载体中识别文字信息,识别出文字内容以及每个文字的位置信息,并可以按照正则表达式规则寻找对应的文字及位置信息;
声音识别模块:从音频文件中识别声音信息,并将声音信息转换为文字;
信息处理模块:将识别出的文字信息返回给RPA处理。
文字识别模块包括Resnet50模型和CRNN模型;将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图;通过特征层预测概率图及文本概率图,计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图;
CRNN网络结构包含三部分,从上到下依次为卷积层CNN、循环层RNN和转录层CTC,通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练。
声音识别模块包括Transformer模型,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Encoder层主要包括自注意力和全连接层;自注意力机制负责计算输入序列中每个位置对其他位置的关注度,从而捕捉序列中的依赖关系,全连接层用于保持输入和输出的特征维度一致。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种适用于RPA流程自动化的智能识别方法,其特征在于,包括以下步骤:
S1. 系统通过接口接收文件;
S2.进行内容的识别;
PDF文件或图片的识别:
从PDF文件或图片载体中识别文字信息,识别出文字内容以及每个文字的位置信息,并按照正则表达式规则寻找对应的文字及位置信息,判断是否匹配成功,若成功,则返回匹配到的文本内容及位置信息;若不成功,则输出未匹配,结束识别过程;
或音频识别:
从音频文件中识别声音信息,并将声音信息转换为文字;
S3. 将识别出的文字信息返回给RPA处理。
2.根据权利要求1所述的一种适用于RPA流程自动化的智能识别方法,其特征在于,步骤S1中,接收文件的类型为图片,或PDF,或音频文件;通过HTTP通信协议将文件内容以二进制形式封装在HTTP请求中,并将其发送到服务器指定的端点,服务器端接收到文件后,将其保存到文件系统。
3.根据权利要求2所述的一种适用于RPA流程自动化的智能识别方法,其特征在于,步骤S1中,
若接口传入PDF文件,将传入的PDF文件转换为图片,解析PDF文件,设计遍历PDF文件对象树并提取所需信息;PDF文件被解析后,每一页的内容需要被渲染为图像,包括将页面的文本、图形和其他元素转换为像素;设渲染函数为,/>是渲染的分辨率参数,/>为渲染后的图像,渲染页面可以通过公式(1)将页面内容呈现为位图图像,
(1);
将渲染后的图像进一步处理,设为处理的参数,图像处理函数为/>,处理后的图像为/>,
(2);
若传入图像或音频文件,接口将文件暂存在文件系统中。
4.根据权利要求2所述的一种适用于RPA流程自动化的智能识别方法,其特征在于,步骤S2中,若接受文件是PDF,则将PDF转换成图片,识别步骤如下,
S21-1.检测图片中的文字位置,将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图;通过Resnet50模型的特征层预测概率图及文本概率图,计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图;设概率图为,阈值图为/>,近似二值图为/>,通过公式(3)建立概率图P和阈值图T与二值化图之间的关系,使得二值化的计算可微,从而可以满足梯度反向传播的条件,k为增益因子,
(3) ;
S21-2.识别检测区域中的文本内容,通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练,设RNN给定输入概率分布矩阵为,/>是序列长度,映射为标签文本/>的总概率如公式(4)所示:
(4);
其中代表从序列到序列的映射函数/>变换后是文本/>的所有路径集合,而/>是其中一条路径,把从RNN层获得的一系列标签转换成最终的标签序列;
S21-3. Resnet50模型可以识别出包含文字的图片或者PDF文件,返回识别到的文字内容和单字符的位置,实现了文字查找功能,并可根据正则表达式匹配待查找的文字。
5.根据权利要求2所述的一种适用于RPA流程自动化的智能识别方法,其特征在于,步骤S2中,若接受文件是音频文件,识别音频文件中的内容,返回识别出的声音信息并转换为文本,具体步骤如下:
S22-1. 信号采集:设是音频文件的模拟信号电压,/>为参考电压,确定模拟信号的量化范围,/>为比特数,表示输出数字的精度或可区分的级别数量,/>表示四舍五入操作,/>表示输出的数字信号,通过公式(5)将模拟信号转换为数字信号,
(5);
S22-2.预处理:对采集到的声音信号进行滤波、降噪;
S22-3. 特征提取:使用短时傅里叶变换将长时间的语音信号分割成多个短时段,然后对每个短时段进行傅里叶变换,得到对应的短时段的频谱信息;设是输入的语音信号,是在时刻/>和频率/>下的频谱,/>是窗函数,用于分割语音信号的短时段,/>为角频率,通过公式(6)可以获得每个时间窗口内的频谱信息,从而得到语音信号的频谱特征,
(6);
S22-4.声音识别:将提取的声音特征输入到训练好的Transformer模型中,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Transformer 的Encoder中每个查询向量通过内积与所有键向量/>计算相似度,V是值向量,通过公式(7)缩放内积结果,
(7);
其中是键向量/>的维度,经过缩放后的注意力分数通过/>函数进行归一化,将其转换为注意力权重,通过公式(8)将输入的分数转换为概率分布,使得每个注意力权重的取值在/>范围内;
(8);
Transformer Decoder利用Encoder产生的特征编码解码得到预测结果。
6.一种适用于RPA流程自动化的智能识别系统,其特征在于,包括文件接收模块、文字识别模块、声音识别模块和信息处理模块;其中,
文件接收模块:系统通过接口接收文件,接受文件或是包含文字的图片或PDF,或以是包含语音信息的音频文件;
文字识别模块:从PDF文件、图片等载体中识别文字信息,识别出文字内容以及每个文字的位置信息,并可以按照正则表达式规则寻找对应的文字及位置信息;
声音识别模块:从音频文件中识别声音信息,并将声音信息转换为文字;
信息处理模块:将识别出的文字信息返回给RPA处理。
7.根据权利要求6所述的一种适用于RPA流程自动化的智能识别系统,其特征在于,文字识别模块包括Resnet50模型和CRNN模型;将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图;通过特征层预测概率图及文本概率图,计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图;
CRNN网络结构包含三部分,从上到下依次为卷积层CNN、循环层RNN和转录层CTC,通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练。
8.根据权利要求6所述的一种适用于RPA流程自动化的智能识别系统,其特征在于,声音识别模块包括Transformer模型,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Encoder层主要包括自注意力和全连接层;自注意力机制负责计算输入序列中每个位置对其他位置的关注度,从而捕捉序列中的依赖关系,全连接层用于保持输入和输出的特征维度一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410302114.5A CN117912027A (zh) | 2024-03-18 | 2024-03-18 | 一种适用于rpa流程自动化的智能识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410302114.5A CN117912027A (zh) | 2024-03-18 | 2024-03-18 | 一种适用于rpa流程自动化的智能识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117912027A true CN117912027A (zh) | 2024-04-19 |
Family
ID=90687465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410302114.5A Pending CN117912027A (zh) | 2024-03-18 | 2024-03-18 | 一种适用于rpa流程自动化的智能识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117912027A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110515846A (zh) * | 2019-08-20 | 2019-11-29 | 上海云扩信息科技有限公司 | 一种关于用户体验测试的数据自动化处理分析系统、方法 |
CN111968629A (zh) * | 2020-07-08 | 2020-11-20 | 重庆邮电大学 | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
CN113178193A (zh) * | 2021-03-22 | 2021-07-27 | 浙江工业大学 | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 |
CN115862596A (zh) * | 2023-03-03 | 2023-03-28 | 山东山大鸥玛软件股份有限公司 | 一种基于深度学习的英语口语语音识别方法 |
CN116052193A (zh) * | 2023-04-03 | 2023-05-02 | 杭州实在智能科技有限公司 | Rpa界面动态表格的拾取和匹配方法及系统 |
CN116229482A (zh) * | 2023-02-03 | 2023-06-06 | 华北水利水电大学 | 网络舆情分析中视觉多模态文字检测识别及纠错方法 |
CN117409765A (zh) * | 2022-07-08 | 2024-01-16 | 中国石油大学(华东) | 基于Transformer的青岛方言语音识别模型 |
CN117593752A (zh) * | 2024-01-18 | 2024-02-23 | 星云海数字科技股份有限公司 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
-
2024
- 2024-03-18 CN CN202410302114.5A patent/CN117912027A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110515846A (zh) * | 2019-08-20 | 2019-11-29 | 上海云扩信息科技有限公司 | 一种关于用户体验测试的数据自动化处理分析系统、方法 |
CN111968629A (zh) * | 2020-07-08 | 2020-11-20 | 重庆邮电大学 | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
CN113178193A (zh) * | 2021-03-22 | 2021-07-27 | 浙江工业大学 | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 |
CN117409765A (zh) * | 2022-07-08 | 2024-01-16 | 中国石油大学(华东) | 基于Transformer的青岛方言语音识别模型 |
CN116229482A (zh) * | 2023-02-03 | 2023-06-06 | 华北水利水电大学 | 网络舆情分析中视觉多模态文字检测识别及纠错方法 |
CN115862596A (zh) * | 2023-03-03 | 2023-03-28 | 山东山大鸥玛软件股份有限公司 | 一种基于深度学习的英语口语语音识别方法 |
CN116052193A (zh) * | 2023-04-03 | 2023-05-02 | 杭州实在智能科技有限公司 | Rpa界面动态表格的拾取和匹配方法及系统 |
CN117593752A (zh) * | 2024-01-18 | 2024-02-23 | 星云海数字科技股份有限公司 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633683B (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN111428718A (zh) | 一种基于图像增强的自然场景文本识别方法 | |
CN112269868A (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
WO2021098689A1 (zh) | 自然场景的文本识别方法、存储装置和计算机设备 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
WO2024041032A1 (zh) | 基于不可编辑的图文类图像生成可编辑文档的方法及装置 | |
CN111079665A (zh) | 基于Bi-LSTM神经网络的摩尔斯电码自动识别方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN111858878A (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 | |
CN115035351B (zh) | 基于图像的信息提取方法、模型训练方法、装置、设备及存储介质 | |
CN117912027A (zh) | 一种适用于rpa流程自动化的智能识别方法及系统 | |
CN110674265A (zh) | 面向非结构化信息的特征判别与信息推荐系统 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN113221885B (zh) | 一种基于整字和偏旁部首的层次化建模方法及系统 | |
CN113257240A (zh) | 一种基于对抗训练的端到端的语音识别方法 | |
CN112036183A (zh) | 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质 | |
CN113823271A (zh) | 语音分类模型的训练方法、装置、计算机设备及存储介质 | |
CN112633394A (zh) | 一种智能用户标签确定方法、终端设备及存储介质 | |
Rai et al. | MyOcrTool: visualization system for generating associative images of Chinese characters in smart devices | |
CN113569049B (zh) | 一种基于层次Trans-CNN的多标签文本分类方法 | |
CN114417832B (zh) | 消歧方法、消歧模型的训练方法及装置 | |
CN117421641B (zh) | 一种文本分类的方法、装置、电子设备及可读存储介质 | |
Pandu Ranga Avinash et al. | Text/Sign Board Reading Aid for Visually Challenged People |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |