CN117912027A - 一种适用于rpa流程自动化的智能识别方法及系统 - Google Patents

一种适用于rpa流程自动化的智能识别方法及系统 Download PDF

Info

Publication number
CN117912027A
CN117912027A CN202410302114.5A CN202410302114A CN117912027A CN 117912027 A CN117912027 A CN 117912027A CN 202410302114 A CN202410302114 A CN 202410302114A CN 117912027 A CN117912027 A CN 117912027A
Authority
CN
China
Prior art keywords
file
text
map
information
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410302114.5A
Other languages
English (en)
Inventor
林美君
郑艳伟
黄博文
张欣睿
郭清昊
于东晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202410302114.5A priority Critical patent/CN117912027A/zh
Publication of CN117912027A publication Critical patent/CN117912027A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于RPA智能识别领域,具体涉及一种适用于RPA流程自动化的智能识别方法及系统,本发明公开的方法实现了文字识别和语音识别,创新性的结合了识别文字在图像中的对应位置,并提供正则表达式方法查询文字信息,在保证各个步骤预测准确性的同时,提高了流程的自动化程度。

Description

一种适用于RPA流程自动化的智能识别方法及系统
技术领域
本发明属于RPA智能识别领域,具体涉及一种适用于RPA流程自动化的智能识别及系统。
背景技术
随着信息技术的不断发展,自动化技术在各个领域中的应用越来越广泛,其中机器人流程自动化(Robotic Process Automation)是一种利用软件机器人或人工智能虚拟助手来执行日常重复性任务和业务流程的技术。RPA技术可以模拟和自动执行人类在计算机上进行的任务,如数据输入、文件处理、电子邮件发送等,从而提高工作效率、降低成本,并减少人力资源的浪费。
目前市面上的RPA产品缺乏人工智能技术的支持,无法自动识别和处理各种类型的文档和图像,包括发票、身份证、户口本等,对于许多企业和组织而言,是一个严重的挑战。这意味着在处理这些复杂数据时,需要手动编写脚本或规则来识别和提取信息,增加了实施和维护的工作量。此外,由于这些文档和图像可能具有不同的格式、布局和语言,因此制定通用的识别和提取规则变得更加困难。这种手动处理方式容易导致错误和不一致性,同时也增加了处理时间和成本。因此,寻求更加智能化和自动化的解决方案,能够减少人工干预,提高处理效率和准确性,对于提升业务流程的效率和降低成本至关重要。
发明内容
为了实现更深层次的自动化,本发明提供了一种将文字识别和声音识别方法与RPA相结合,利用文字识别和声音识别方法为RPA系统赋予更广泛的智能化和自动化能力。
为达到上述目的,本发明的技术方案如下:
一种适用于RPA流程自动化的智能识别方法,包括以下步骤:
S1. 系统通过接口接收文件;
S2.进行内容的识别;
PDF文件或图片的识别:
从PDF文件或图片载体中识别文字信息,识别出文字内容以及每个文字的位置信息,并按照正则表达式规则寻找对应的文字及位置信息,判断是否匹配成功,若成功,则返回匹配到的文本内容及位置信息;若不成功,则输出未匹配,结束识别过程;
或音频识别:
从音频文件中识别声音信息,并将声音信息转换为文字;
S3. 将识别出的文字信息返回给RPA处理。
优选的,步骤S1中,接收文件的类型为图片,或PDF,或音频文件;通过HTTP通信协议将文件内容以二进制形式封装在HTTP请求中,并将其发送到服务器指定的端点,服务器端接收到文件后,将其保存到文件系统。
优选的,步骤S1中,
若接口传入PDF文件,将传入的PDF文件转换为图片,解析PDF文件,设计遍历PDF文件对象树并提取所需信息;PDF文件被解析后,每一页的内容需要被渲染为图像,包括将页面的文本、图形和其他元素转换为像素;设渲染函数为,/>是渲染的分辨率参数,/>为渲染后的图像,渲染页面可以通过公式(1)将页面内容呈现为位图图像,
(1);
将渲染后的图像进一步处理,设为处理的参数,图像处理函数为,处理后的图像为/>
(2) ;
若传入图像或音频文件,接口将文件暂存在文件系统中。
优选的,步骤S2中,若接受文件是PDF,则将PDF转换成图片,识别步骤如下,
S21-1.检测图片中的文字位置,将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图;通过Resnet50模型的特征层预测概率图及文本概率图,计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图;设概率图为,阈值图为/>,近似二值图为/>,通过公式(3)建立概率图P和阈值图T与二值化图之间的关系,使得二值化的计算可微,从而可以满足梯度反向传播的条件,k为增益因子,
(3) ;
S21-2.识别检测区域中的文本内容,通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练,设RNN给定输入概率分布矩阵为,/>是序列长度,映射为标签文本/>的总概率如公式(4)所示:
(4) ;
其中代表从序列到序列的映射函数/>变换后是文本/>的所有路径集合,而/>是其中一条路径,把从RNN层获得的一系列标签转换成最终的标签序列;
S21-3. Resnet50模型可以识别出包含文字的图片或者PDF文件,返回识别到的文字内容和单字符的位置,实现了文字查找功能,并可根据正则表达式匹配待查找的文字。
优选的,步骤S2中,若接受文件是音频文件,识别音频文件中的内容,返回识别出的声音信息并转换为文本,具体步骤如下:
S22-1. 信号采集:设是音频文件的模拟信号电压,/>为参考电压,确定模拟信号的量化范围,/>为比特数,表示输出数字的精度或可区分的级别数量,/>表示四舍五入操作,/>表示输出的数字信号,通过公式(5)将模拟信号转换为数字信号,
(5) ;
S22-2. 预处理:对采集到的声音信号进行滤波、降噪;
S22-3. 特征提取:使用短时傅里叶变换将长时间的语音信号分割成多个短时段,然后对每个短时段进行傅里叶变换,得到对应的短时段的频谱信息;设是输入的语音信号,/>是在时刻/>和频率/>下的频谱,/>是窗函数,用于分割语音信号的短时段,/>为角频率,通过公式(6)可以获得每个时间窗口内的频谱信息,从而得到语音信号的频谱特征,
(6);
S22-4.声音识别:将提取的声音特征输入到训练好的Transformer模型中,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Transformer 的Encoder中每个查询向量通过内积与所有键向量/>计算相似度,V是值向量,通过公式(7)缩放内积结果,
(7) ;
其中是键向量/>的维度,经过缩放后的注意力分数通过/>函数进行归一化,将其转换为注意力权重,通过公式(8)将输入的分数转换为概率分布,使得每个注意力权重的取值在/>范围内;
(8) ;
Transformer Decoder利用Encoder产生的特征编码解码得到预测结果。
一种适用于RPA流程自动化的智能识别系统,包括文件接收模块、文字识别模块、声音识别模块和信息处理模块;其中,
文件接收模块:系统通过接口接收文件,接受文件或是包含文字的图片或PDF,或以是包含语音信息的音频文件;
文字识别模块:从PDF文件、图片等载体中识别文字信息,识别出文字内容以及每个文字的位置信息,并可以按照正则表达式规则寻找对应的文字及位置信息;
声音识别模块:从音频文件中识别声音信息,并将声音信息转换为文字;
信息处理模块:将识别出的文字信息返回给RPA处理。
优选的,文字识别模块包括Resnet50模型和CRNN模型;将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图;通过特征层预测概率图及文本概率图,计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图;
CRNN网络结构包含三部分,从上到下依次为卷积层CNN、循环层RNN和转录层CTC,通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练。
优选的,声音识别模块包括Transformer模型,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Encoder层主要包括自注意力和全连接层;自注意力机制负责计算输入序列中每个位置对其他位置的关注度,从而捕捉序列中的依赖关系,全连接层用于保持输入和输出的特征维度一致。
与现有技术相比,本申请有益效果如下:
本发明将文字识别功能加入RPA系统中,在系统中传入PDF文件、图片等文字载体,系统识别出每个文字的内容及位置信息,并增加按照正则表达式规则寻找对应文字的功能。
本发明将声音识别功能加入RPA系统中,在系统中传入音频文件,识别出音频文件中的语音信息,系统打印识别结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所公开的一种用于RPA流程自动化的文字识别与声音识别技术的整体流程图。
图2为本发明实施例的文字识别示意图。
图3为本发明实施例的声音识别的阶段示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种用于RPA流程自动化的文字识别与声音识别方法,如图2-3所示,该方法可以对传入系统中的图片、PDF文件或者语音文件进行文字识别和语音识别,识别出文字载体中的文字内容以及位置信息,并根据正则表达式匹配相应文字并返回对应位置信息,将音频文件转换为对应的文字信息。
如图1所示,具体实施例如下:
一种用于RPA流程自动化的文字识别与声音识别方法,包括以下步骤:
(1)系统通过接口接收文件,这些文件可以是包含文字的图片或PDF,也可以是包含语音信息的音频文件:
通过HTTP通信协议将文件内容以二进制形式封装在HTTP请求中,并将其发送到服务器指定的端点。服务器端接收到文件后,将其保存到文件系统。
若接口传入PDF文件,将传入的PDF文件转换为图片,PDF文件本质上是一种由对象组成的树状结构,每个对象可以包含文本、图形或者其他嵌入式元素。解析PDF文件设计遍历这个对象树并提取所需信息。
PDF文件被解析后,每一页的内容需要被渲染为图像,包括将页面的文本、图形和其他元素转换为像素。设渲染函数为,/>是渲染的分辨率参数,为渲染后的图像,渲染页面可以通过公式(1)将页面内容呈现为位图图像,
(1) 。
将渲染后的图像进一步处理,设为处理的参数,例如调整的大小,裁剪区域等,图像处理函数为/>,处理后的图像为/>,图像处理可通公式(2)来实现,
(2)。
若传入图像或音频文件,接口将文件暂存在文件系统中,以便后续处理。
(2)文字识别阶段:
(2.1) 检测图片中的文字位置,将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图。通过特征层预测概率图及文本概率图计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图。设概率图为P,阈值图为T,近似二值图为k为增益因子,通过公式(3)建立概率图P和阈值图T与二值化图之间的关系,使得二值化的计算可微,从而可以满足梯度反向传播的条件,
(3)。
(2.2) 识别检测区域中的文本内容,采用CRNN模型,整个CRNN网络结构包含三部分,从上到下依次为卷积层(CNN)、循环层(RNN)、转录层(CTC)。通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练,设RNN给定输入概率分布矩阵为,/>是序列长度,映射为标签文本/>的总概率如公式(4)所示:
(4) ;
其中代表从序列到序列的映射函数/>变换后是文本/>的所有路径集合,而/>是其中一条路径,通过上述方法把从RNN层获得的一系列标签转换成最终的标签序列。
(2.3)文字识别:通过上述两个步骤之后,模型可以识别包含文字的图片或者PDF文件,返回识别到的文字内容和单字符的位置。实现了文字查找功能,并可根据正则表达式匹配待查找的文字。
(3)声音识别阶段:
(3.1) 信号采集:语音信号是一种连续的模拟信号,设是音频文件的模拟信号电压,/>为参考电压,确定模拟信号的量化范围,/>为比特数,表示输出数字的精度或可区分的级别数量,/>表示四舍五入操作,/>表示输出的数字信号,通过公式(5)将模拟信号转换为数字信号,以便计算机进行处理和分析,
(5) 。
(3.2) 预处理:对采集到的声音信号进行滤波、降噪,以减少噪音和增强语音特征。
(3.3) 特征提取:使用短时傅里叶变换(STFT)将长时间的语音信号分割成多个短时段,然后对每个短时段进行傅里叶变换,得到该时段的频谱信息。设是输入的语音信号,/>是在时刻/>和频率/>下的频谱,/>是窗函数,用于分割语音信号的短时段,/>为角频率,通过公式(6)可以获得每个时间窗口内的频谱信息,从而得到语音信号的频谱特征,
(6) ;
(3.4)声音识别:将提取的声音特征输入到训练好的Transformer模型中,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Encoder层主要包括自注意力(Self-Attention)和全连接层(Fully Connected Layer)。Transformer Encoder中每个查询向量通过内积与所有键向量/>计算相似度,V是值向量,通过公式(7)缩放内积结果,从而保持梯度的稳定性和模型的训练效果,
(7);
其中是键向量/>的维度,经过缩放后的注意力分数通过/>函数进行归一化,将其转换为注意力权重,通过公式(8)将输入的分数转换为概率分布,使得每个注意力权重的取值在/>范围内。Transformer Decoder利用Encoder产生的特征编码解码得到预测结果,
(8) 。
一种适用于RPA流程自动化的智能识别系统,包括文件接收模块、文字识别模块、声音识别模块和信息处理模块;其中,
文件接收模块:系统通过接口接收文件,接受文件或是包含文字的图片或PDF,或以是包含语音信息的音频文件;
文字识别模块:从PDF文件、图片等载体中识别文字信息,识别出文字内容以及每个文字的位置信息,并可以按照正则表达式规则寻找对应的文字及位置信息;
声音识别模块:从音频文件中识别声音信息,并将声音信息转换为文字;
信息处理模块:将识别出的文字信息返回给RPA处理。
文字识别模块包括Resnet50模型和CRNN模型;将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图;通过特征层预测概率图及文本概率图,计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图;
CRNN网络结构包含三部分,从上到下依次为卷积层CNN、循环层RNN和转录层CTC,通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练。
声音识别模块包括Transformer模型,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Encoder层主要包括自注意力和全连接层;自注意力机制负责计算输入序列中每个位置对其他位置的关注度,从而捕捉序列中的依赖关系,全连接层用于保持输入和输出的特征维度一致。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种适用于RPA流程自动化的智能识别方法,其特征在于,包括以下步骤:
S1. 系统通过接口接收文件;
S2.进行内容的识别;
PDF文件或图片的识别:
从PDF文件或图片载体中识别文字信息,识别出文字内容以及每个文字的位置信息,并按照正则表达式规则寻找对应的文字及位置信息,判断是否匹配成功,若成功,则返回匹配到的文本内容及位置信息;若不成功,则输出未匹配,结束识别过程;
或音频识别:
从音频文件中识别声音信息,并将声音信息转换为文字;
S3. 将识别出的文字信息返回给RPA处理。
2.根据权利要求1所述的一种适用于RPA流程自动化的智能识别方法,其特征在于,步骤S1中,接收文件的类型为图片,或PDF,或音频文件;通过HTTP通信协议将文件内容以二进制形式封装在HTTP请求中,并将其发送到服务器指定的端点,服务器端接收到文件后,将其保存到文件系统。
3.根据权利要求2所述的一种适用于RPA流程自动化的智能识别方法,其特征在于,步骤S1中,
若接口传入PDF文件,将传入的PDF文件转换为图片,解析PDF文件,设计遍历PDF文件对象树并提取所需信息;PDF文件被解析后,每一页的内容需要被渲染为图像,包括将页面的文本、图形和其他元素转换为像素;设渲染函数为,/>是渲染的分辨率参数,/>为渲染后的图像,渲染页面可以通过公式(1)将页面内容呈现为位图图像,
(1);
将渲染后的图像进一步处理,设为处理的参数,图像处理函数为/>,处理后的图像为/>
(2);
若传入图像或音频文件,接口将文件暂存在文件系统中。
4.根据权利要求2所述的一种适用于RPA流程自动化的智能识别方法,其特征在于,步骤S2中,若接受文件是PDF,则将PDF转换成图片,识别步骤如下,
S21-1.检测图片中的文字位置,将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图;通过Resnet50模型的特征层预测概率图及文本概率图,计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图;设概率图为,阈值图为/>,近似二值图为/>,通过公式(3)建立概率图P和阈值图T与二值化图之间的关系,使得二值化的计算可微,从而可以满足梯度反向传播的条件,k为增益因子,
(3) ;
S21-2.识别检测区域中的文本内容,通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练,设RNN给定输入概率分布矩阵为,/>是序列长度,映射为标签文本/>的总概率如公式(4)所示:
(4);
其中代表从序列到序列的映射函数/>变换后是文本/>的所有路径集合,而/>是其中一条路径,把从RNN层获得的一系列标签转换成最终的标签序列;
S21-3. Resnet50模型可以识别出包含文字的图片或者PDF文件,返回识别到的文字内容和单字符的位置,实现了文字查找功能,并可根据正则表达式匹配待查找的文字。
5.根据权利要求2所述的一种适用于RPA流程自动化的智能识别方法,其特征在于,步骤S2中,若接受文件是音频文件,识别音频文件中的内容,返回识别出的声音信息并转换为文本,具体步骤如下:
S22-1. 信号采集:设是音频文件的模拟信号电压,/>为参考电压,确定模拟信号的量化范围,/>为比特数,表示输出数字的精度或可区分的级别数量,/>表示四舍五入操作,/>表示输出的数字信号,通过公式(5)将模拟信号转换为数字信号,
(5);
S22-2.预处理:对采集到的声音信号进行滤波、降噪;
S22-3. 特征提取:使用短时傅里叶变换将长时间的语音信号分割成多个短时段,然后对每个短时段进行傅里叶变换,得到对应的短时段的频谱信息;设是输入的语音信号,是在时刻/>和频率/>下的频谱,/>是窗函数,用于分割语音信号的短时段,/>为角频率,通过公式(6)可以获得每个时间窗口内的频谱信息,从而得到语音信号的频谱特征,
(6);
S22-4.声音识别:将提取的声音特征输入到训练好的Transformer模型中,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Transformer 的Encoder中每个查询向量通过内积与所有键向量/>计算相似度,V是值向量,通过公式(7)缩放内积结果,
(7);
其中是键向量/>的维度,经过缩放后的注意力分数通过/>函数进行归一化,将其转换为注意力权重,通过公式(8)将输入的分数转换为概率分布,使得每个注意力权重的取值在/>范围内;
(8);
Transformer Decoder利用Encoder产生的特征编码解码得到预测结果。
6.一种适用于RPA流程自动化的智能识别系统,其特征在于,包括文件接收模块、文字识别模块、声音识别模块和信息处理模块;其中,
文件接收模块:系统通过接口接收文件,接受文件或是包含文字的图片或PDF,或以是包含语音信息的音频文件;
文字识别模块:从PDF文件、图片等载体中识别文字信息,识别出文字内容以及每个文字的位置信息,并可以按照正则表达式规则寻找对应的文字及位置信息;
声音识别模块:从音频文件中识别声音信息,并将声音信息转换为文字;
信息处理模块:将识别出的文字信息返回给RPA处理。
7.根据权利要求6所述的一种适用于RPA流程自动化的智能识别系统,其特征在于,文字识别模块包括Resnet50模型和CRNN模型;将图片输入到Resnet50模型中,通过上采样的方式将Resnet50模型的输出变换为同一尺寸,并产生特征图;通过特征层预测概率图及文本概率图,计算像素属于文本的概率形成文本概率图,然后根据各像素动态阈值形成动态阈值图,通过文本概率图和动态阈值图生成DB二值图;
CRNN网络结构包含三部分,从上到下依次为卷积层CNN、循环层RNN和转录层CTC,通过使用深度CNN,对输入图像提取特征,得到特征图,在特征图中提取RNN需要的特征向量序列,使用双向LSTM对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签分布,最后使用CTC的损失函数对CNN和RNN进行端到端的联合训练。
8.根据权利要求6所述的一种适用于RPA流程自动化的智能识别系统,其特征在于,声音识别模块包括Transformer模型,Transformer的Encoder部分可以对音频的原始特征进行特征编码,Encoder层主要包括自注意力和全连接层;自注意力机制负责计算输入序列中每个位置对其他位置的关注度,从而捕捉序列中的依赖关系,全连接层用于保持输入和输出的特征维度一致。
CN202410302114.5A 2024-03-18 2024-03-18 一种适用于rpa流程自动化的智能识别方法及系统 Pending CN117912027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410302114.5A CN117912027A (zh) 2024-03-18 2024-03-18 一种适用于rpa流程自动化的智能识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410302114.5A CN117912027A (zh) 2024-03-18 2024-03-18 一种适用于rpa流程自动化的智能识别方法及系统

Publications (1)

Publication Number Publication Date
CN117912027A true CN117912027A (zh) 2024-04-19

Family

ID=90687465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410302114.5A Pending CN117912027A (zh) 2024-03-18 2024-03-18 一种适用于rpa流程自动化的智能识别方法及系统

Country Status (1)

Country Link
CN (1) CN117912027A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515846A (zh) * 2019-08-20 2019-11-29 上海云扩信息科技有限公司 一种关于用户体验测试的数据自动化处理分析系统、方法
CN111968629A (zh) * 2020-07-08 2020-11-20 重庆邮电大学 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、系统及介质
CN113178193A (zh) * 2021-03-22 2021-07-27 浙江工业大学 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
CN115862596A (zh) * 2023-03-03 2023-03-28 山东山大鸥玛软件股份有限公司 一种基于深度学习的英语口语语音识别方法
CN116052193A (zh) * 2023-04-03 2023-05-02 杭州实在智能科技有限公司 Rpa界面动态表格的拾取和匹配方法及系统
CN116229482A (zh) * 2023-02-03 2023-06-06 华北水利水电大学 网络舆情分析中视觉多模态文字检测识别及纠错方法
CN117409765A (zh) * 2022-07-08 2024-01-16 中国石油大学(华东) 基于Transformer的青岛方言语音识别模型
CN117593752A (zh) * 2024-01-18 2024-02-23 星云海数字科技股份有限公司 一种pdf文档录入方法、系统、存储介质及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515846A (zh) * 2019-08-20 2019-11-29 上海云扩信息科技有限公司 一种关于用户体验测试的数据自动化处理分析系统、方法
CN111968629A (zh) * 2020-07-08 2020-11-20 重庆邮电大学 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、系统及介质
CN113178193A (zh) * 2021-03-22 2021-07-27 浙江工业大学 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
CN117409765A (zh) * 2022-07-08 2024-01-16 中国石油大学(华东) 基于Transformer的青岛方言语音识别模型
CN116229482A (zh) * 2023-02-03 2023-06-06 华北水利水电大学 网络舆情分析中视觉多模态文字检测识别及纠错方法
CN115862596A (zh) * 2023-03-03 2023-03-28 山东山大鸥玛软件股份有限公司 一种基于深度学习的英语口语语音识别方法
CN116052193A (zh) * 2023-04-03 2023-05-02 杭州实在智能科技有限公司 Rpa界面动态表格的拾取和匹配方法及系统
CN117593752A (zh) * 2024-01-18 2024-02-23 星云海数字科技股份有限公司 一种pdf文档录入方法、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN111428718A (zh) 一种基于图像增强的自然场景文本识别方法
CN112269868A (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
WO2021098689A1 (zh) 自然场景的文本识别方法、存储装置和计算机设备
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
WO2024041032A1 (zh) 基于不可编辑的图文类图像生成可编辑文档的方法及装置
CN111079665A (zh) 基于Bi-LSTM神经网络的摩尔斯电码自动识别方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN111858878A (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN115035351B (zh) 基于图像的信息提取方法、模型训练方法、装置、设备及存储介质
CN117912027A (zh) 一种适用于rpa流程自动化的智能识别方法及系统
CN110674265A (zh) 面向非结构化信息的特征判别与信息推荐系统
CN116010545A (zh) 一种数据处理方法、装置及设备
CN113221885B (zh) 一种基于整字和偏旁部首的层次化建模方法及系统
CN113257240A (zh) 一种基于对抗训练的端到端的语音识别方法
CN112036183A (zh) 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
CN113823271A (zh) 语音分类模型的训练方法、装置、计算机设备及存储介质
CN112633394A (zh) 一种智能用户标签确定方法、终端设备及存储介质
Rai et al. MyOcrTool: visualization system for generating associative images of Chinese characters in smart devices
CN113569049B (zh) 一种基于层次Trans-CNN的多标签文本分类方法
CN114417832B (zh) 消歧方法、消歧模型的训练方法及装置
CN117421641B (zh) 一种文本分类的方法、装置、电子设备及可读存储介质
Pandu Ranga Avinash et al. Text/Sign Board Reading Aid for Visually Challenged People

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination