CN115240203A - 业务数据处理方法、装置、设备及存储介质 - Google Patents

业务数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115240203A
CN115240203A CN202210695857.4A CN202210695857A CN115240203A CN 115240203 A CN115240203 A CN 115240203A CN 202210695857 A CN202210695857 A CN 202210695857A CN 115240203 A CN115240203 A CN 115240203A
Authority
CN
China
Prior art keywords
text
image
network
target
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210695857.4A
Other languages
English (en)
Inventor
周建伟
刘玉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210695857.4A priority Critical patent/CN115240203A/zh
Publication of CN115240203A publication Critical patent/CN115240203A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1473Recognising objects as potential recognition candidates based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures

Abstract

本发明涉及人工智能领域,公开了一种业务数据处理方法、装置、设备及存储介质,用于提高业务数据处理的准确率。所述业务数据处理方法包括:监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,文本识别模型包括:文本检测网络和文本识别网络;将所述候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;根据所述目标文本数据对所述待录入文本框进行内容填充,得到填充后的文本框。此外,本发明还涉及区块链技术,候选文本数据可存储于区块链节点中。

Description

业务数据处理方法、装置、设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种业务数据处理方法、装置、设备及存储介质。
背景技术
目前,在有些银行业务中,需要依据贸易单据,包括发票、保单等,在电脑系统中录入相应的票据上的信息。在上述信息人工录入的过程录入效率完全取决于操作人员的打字速度,也时有出现遗漏、录错的情况。尤其在所需录入字符较长的情景中,不但需要较长时间录入及核对,也增大了出错的可能性。
当前,有的是通过扫描枪等硬件的方式实现自动录入,但是这种方式不够灵活,无法做到选取哪块区域就识别哪块区域,即现有方案的准确率低。
发明内容
本发明提供了一种业务数据处理方法、装置、设备及存储介质,用于提高业务数据处理的准确率。
本发明第一方面提供了一种业务数据处理方法,所述业务数据处理方法包括:监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络;将所述候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;根据所述目标文本数据对所述待录入文本框进行内容填充,得到填充后的文本框。
可选的,在本发明第一方面的第一种实现方式中,所述监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像,包括:监听预设的截屏事件,并调用预置的窗口函数获取鼠标移动范围;根据所述鼠标移动范围确定所述截屏事件的起点和终点;根据所述起点和所述终点识别鼠标框选范围;根据所述鼠标框选范围生成待录入文本框对应的待处理截屏图像。
可选的,在本发明第一方面的第二种实现方式中,所述对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像,包括:对所述待处理截屏图像进行降噪处理,得到高清截屏图像;对所述高清截屏图像进行对比度增强,得到目标截屏图像;对所述待录入文本框进行文本框识别,得到候选框;根据所述候选框对所述目标区域图像进行候选区域选取,得到目标区域图像。
可选的,在本发明第一方面的第三种实现方式中,所述将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络,包括:将所述目标区域图像输入预置的文字识别模型,其中,所述文本识别模型包括:文本检测网络和文本识别网络;通过所述文本检测网络对所述目标区域图像进行文字检测,得到文字区域标注,其中,所述文本检测网络包括:多层卷积网络、二值化网络和输出网络;通过所述文本识别网络对所述文字区域标注进行文本识别,得到候选文本数据,其中,所述文本识别网络包括:卷积递归神经网络、双向长短时记忆网络和输出层。
可选的,在本发明第一方面的第四种实现方式中,所述通过所述文本检测网络对所述目标区域图像进行文字检测,得到文字区域标注,其中,所述文本检测网络包括:多层卷积网络、二值化网络和输出网络,包括:将所述目标区域图像输入所述多层卷积网络进行卷积运算,得到区域特征图像;将所述区域特征图像输入二值化网络进行二值化处理,得到二值化图像;将所述二值化图像输入所述输出网络进行区域文字标注,得到文字区域标注。
可选的,在本发明第一方面的第五种实现方式中,所述通过所述文本识别网络对所述文字区域标注进行文本识别,得到候选文本数据,其中,所述文本识别网络包括:卷积递归神经网络、双向长短时记忆网络和输出层,包括:将所述文字区域标注输入所述卷积递归神经网络进行特征提取,得到卷积特征图;将所述卷积特征图输入所述双向长短时记忆网络进行序列预测,得到文本序列;将所述文本序列输入所述输出层进行文本词级提取,得到候选文本数据。
可选的,在本发明第一方面的第六种实现方式中,所述根据所述目标文本数据对所述待录入文本框进行内容填充,得到填充后的文本框,包括:提取所述待录入文本框中的多个待录入栏位;对所述目标文本数据和所述多个待录入栏位进行匹配,得到匹配结果;根据所述匹配结果对所述待录入栏位进行文本填充,得到填充后的文本框。
本发明第二方面提供了一种业务数据处理装置,所述业务数据处理装置包括:获取模块,用于监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;预处理模块,用于对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;识别模块,用于将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络;预测模块,用于将所述候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;填充模块,用于根据所述目标文本数据对所述待录入文本框进行内容填充,得到填充后的文本框。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块具体用于:监听预设的截屏事件,并调用预置的窗口函数获取鼠标移动范围;根据所述鼠标移动范围确定所述截屏事件的起点和终点;根据所述起点和所述终点识别鼠标框选范围;根据所述鼠标框选范围生成待录入文本框对应的待处理截屏图像。
可选的,在本发明第二方面的第二种实现方式中,所述预处理模块具体用于:对所述待处理截屏图像进行降噪处理,得到高清截屏图像;对所述高清截屏图像进行对比度增强,得到目标截屏图像;对所述待录入文本框进行文本框识别,得到候选框;根据所述候选框对所述目标区域图像进行候选区域选取,得到目标区域图像。
可选的,在本发明第二方面的第三种实现方式中,所述识别模块还包括:输入单元,用于将所述目标区域图像输入预置的文字识别模型,其中,所述文本识别模型包括:文本检测网络和文本识别网络;检测单元,用于通过所述文本检测网络对所述目标区域图像进行文字检测,得到文字区域标注,其中,所述文本检测网络包括:多层卷积网络、二值化网络和输出网络;输出单元,用于通过所述文本识别网络对所述文字区域标注进行文本识别,得到候选文本数据,其中,所述文本识别网络包括:卷积递归神经网络、双向长短时记忆网络和输出层。
可选的,在本发明第二方面的第四种实现方式中,所述检测单元具体用于:将所述目标区域图像输入所述多层卷积网络进行卷积运算,得到区域特征图像;将所述区域特征图像输入二值化网络进行二值化处理,得到二值化图像;将所述二值化图像输入所述输出网络进行区域文字标注,得到文字区域标注。
可选的,在本发明第二方面的第五种实现方式中,所述输出单元具体用于:将所述文字区域标注输入所述卷积递归神经网络进行特征提取,得到卷积特征图;将所述卷积特征图输入所述双向长短时记忆网络进行序列预测,得到文本序列;将所述文本序列输入所述输出层进行文本词级提取,得到候选文本数据。
可选的,在本发明第二方面的第六种实现方式中,所述填充模块具体用于:提取所述待录入文本框中的多个待录入栏位;对所述目标文本数据和所述多个待录入栏位进行匹配,得到匹配结果;根据所述匹配结果对所述待录入栏位进行文本填充,得到填充后的文本框。
本发明第三方面提供了一种业务数据处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述业务数据处理设备执行上述的业务数据处理方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的业务数据处理方法。
本发明提供的技术方案中,监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络;将所述候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;根据所述目标文本数据对所述待录入文本框进行内容填充,得到填充后的文本框。本发明通过对待处理截屏图像进行预处理,提高了图片的清晰度,然后通过预先构建的文字识别模型先对目标区域图像进行文本二值化检测,然后对文字进行提取,提高了文本识别的准确率,进而提高了业务数据处理的准确率。
附图说明
图1为本发明实施例中业务数据处理方法的一个实施例示意图;
图2为本发明实施例中业务数据处理方法的另一个实施例示意图;
图3为本发明实施例中业务数据处理装置的一个实施例示意图;
图4为本发明实施例中业务数据处理装置的另一个实施例示意图;
图5为本发明实施例中业务数据处理设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种业务数据处理方法、装置、设备及存储介质,用于提高业务数据处理的准确率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中业务数据处理方法的第一个实施例包括:
101、监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;
可以理解的是,本发明的执行主体可以为业务数据处理装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
具体的,终端用户在进行操作时,终端用户在操作时触发信息待录入指令后,服务器对页面进行截屏,服务器监听到该截屏事件后,以消息的方式或者其它方式将该截屏事件发送给信息处理终端,信息处理终端收到该截屏事件后,会显示反馈问题选项。如果用户选中该选项,则生成包含终端用户信息和终端用户使用的终端的设备信息的水印图,服务器可以根据页面的截图可以提取用户的操作数据。
102、对待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;
需要说明的是,上述图像预处理指的是对待处理截屏图像进行降噪、对比度增强等处理,本发明实施例中,服务器通过预置的双边滤波算法对待处理截屏图像进行图像降噪处理,在对图像进行对比度增强时,服务器通过直方图均衡化工具对降噪处理后的待处理截屏图像进行图像对比度增强,最终服务器对待处理截屏图像进行文本框识别,得到识别出的文本框之后进行图像区域选取,最终得到目标区域图像。
103、将目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,文本识别模型包括:文本检测网络和文本识别网络;
具体的,服务器先识别目标区域图像中像素亮度的变化,确定出属于边缘的像素,例如,假设像素A和像素B为两个相邻的像素,若像素A与像素B之间的亮度变化较大,可以将像素A视为属于边缘的像素,进而服务器根据属于边缘的像素确定出该目标区域图像中的边缘。可以理解的是,目标区域图像中的边缘所包围的区域通常可以反映该目标区域图像中的重要信息,比如目标区域图像中的文字信息,故对目标区域图像进行边缘检测所得到的检测结果可以大幅度地减少该目标区域图像中的数据量,并且可以剔除该目标区域图像中不重要的信息,而保留该目标区域图像中重要的信息,进而服务器对该目标区域图像中的文字信息进行文本识别,其中,服务器通过预置的文本识别网络进行文本识别,得到候选文本数据。
104、将候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;
具体的,服务器获取候选文本数据后,对文本数据进行分词处理,得到分词信息,将分词信息作为文本匹配模型的输入,在文本匹配模型中,基于分词信息确定加权文本特征向量,该加权文本特征向量为基于文本信息对应的分词的词向量和权重确定的,该权重表征文本信息对中一个文本信息对应的分词在另一文本信息中重要程度,基于加权文本特征向量确定文本信息对的文本匹配结果,并将文本匹配结果作为上述目标文本数据。
105、根据目标文本数据对待录入文本框进行内容填充,得到填充后的文本框。
具体的,服务器匹配出与目标文本数据关联的待录入栏位,并将目标文本数据填充至待录入栏位中,需要说明的是,待录入栏位例如可以是“企业名称”、“组织机构代码”、“联系人”、“联系电话”、“联系地址”、等栏位信息。
本发明实施例中,监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;对待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;将目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,文本识别模型包括:文本检测网络和文本识别网络;将候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;根据目标文本数据对待录入文本框进行内容填充,得到填充后的文本框。本发明通过对待处理截屏图像进行预处理,提高了图片的清晰度,然后通过预先构建的文字识别模型先对目标区域图像进行文本二值化检测,然后对文字进行提取,提高了文本识别的准确率,进而提高了业务数据处理的准确率。
请参阅图2,本发明实施例中业务数据处理方法的第二个实施例包括:
201、监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;
具体的,服务器监听预设的截屏事件,并调用预置的窗口函数获取鼠标移动范围;服务器根据鼠标移动范围确定截屏事件的起点和终点;服务器根据起点和终点识别鼠标框选范围;服务器根据鼠标框选范围生成待录入文本框对应的待处理截屏图像。
需要说明的是,服务器通常可以采用事件驱动机制进行信息交互,终端中某个操作将触发一个事件,该事件再触发终端内的相应函数执行相应操作,完成设定的功能,本实施例在启动对前述指定终端的某个事件进行监听后,当监听到指定事件发生时,将对该事件的发生时间予以记录,通常情况下,事件的触发条件可以有多重,例如(短时)按下、长按(持续按下)、间隔式连续按下(快速多次点击)等,不同的操作方式可以对应不同的事件,当服务器监听到终端所述指定事件发生时,将事件发生的时刻记录为第一时间戳,监听终端中事件的终止条件,当监听到终端中事件的终止条件发生时,将终止条件发生的时刻记录为第二时间戳,同时监听在第一时间戳及第二时间戳之内的鼠标移动范围,根据鼠标移动范围确定截屏事件的起点和终点,同时服务器确定上述起点及终点坐标,进而服务器根据该起点及终点坐标确定书别框选范围,最终服务器根据鼠标框选范围进行截图,生成待录入文本框对应的待处理截屏图像。
202、对待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;
具体的,服务器对待处理截屏图像进行降噪处理,得到高清截屏图像;服务器对高清截屏图像进行对比度增强,得到目标截屏图像;服务器对待录入文本框进行文本框识别,得到候选框;服务器根据候选框对目标区域图像进行候选区域选取,得到目标区域图像。
需要说明的是,通过针对不同类型的噪声,分别选取相应的图像滤波方法对每种噪声所处的频带范围内的图像进行处理,使得可以对图像中仅包含噪声的部分进行处理,并且可以有针对性的选取最佳的滤波算法对每种噪声分别进行处理,避免了对全部图像采用相同的滤波算法,而对图像中的无噪声部分或其他噪声所在的频带部分造成影响,同时,由于无需对所有的图像都进行处理,因此提高了对图像处理的效率。其中,图像中噪声的类型包括:环境噪声和系统噪声,在图像中可能包括环境噪声或系统噪声。举例来说,在检测到待处理截屏图像中包括系统噪声和环境噪声时,可以将系统噪声和环境噪声分开处理,以避免在处理系统噪声时,对环境噪声的处理造成干扰。更进一步地,针对系统噪声中的不同噪声也可以采用不同的滤波算法,具体地,由于中值滤波算法适合滤除图像中的椒盐噪声,而均值滤波算法适合滤除图像中的颗粒噪声,因此,可以针对图像中椒盐噪声所处的频带范围采用中值滤波算法进行滤波处理,针对图像中的颗粒噪声所处的频带范围采用均值滤波算法进行滤波处理,实现了有针对性地对不同类型的噪声进行滤波处理,避免对所有的图像都采用均值滤波算法,造成图像中的模糊现象。同时,对于不包括噪声的图像也无需进行处理,提高了对图像处理的效率,当服务器对待处理截屏图像降噪处理后,生成高清截屏图像,服务器读取高清截屏图像,并将该高清截屏图像分割成至少两个子图像,进而服务器对每个子图像进行直方图均衡化处理,获得至少两个直方图均衡化子图像,拼接直方图均衡化子图像后得到目标截屏图像,最终服务器进行文本框识别,需要说明的是,本发明中通过光学字符识别方法进行文本框识别,确定出候选框,根据候选框对目标区域图像进行候选区域选取,具体的,服务器在进行候选区域选取时通过候选框对目标区域图像进行图像截取,最终得到目标区域图像。
203、将目标区域图像输入预置的文字识别模型,其中,文本识别模型包括:文本检测网络和文本识别网络;
需要说明的是,上述文本识别模型包括两层网络,即文本检测网络和文本识别网络,第一层文本检测网络设置256个神经元,第二层文本识别网络设置128个神经元,输入为图片像素点数784,本步骤服务器将上述目标区域图像输入文字识别模型,后续将通过文本检测网络及文本识别网络进行文字识别。
204、通过文本检测网络对目标区域图像进行文字检测,得到文字区域标注,其中,文本检测网络包括:多层卷积网络、二值化网络和输出网络;
具体的,服务器将目标区域图像输入多层卷积网络进行卷积运算,得到区域特征图像;服务器将区域特征图像输入二值化网络进行二值化处理,得到二值化图像;服务器将二值化图像输入输出网络进行区域文字标注,得到文字区域标注。
其中,服务器将目标区域图像输入到多层卷积网络中进行图像卷积处理,从而分别获得三个单通道的特征图,多层卷积网络对三个单通道灰度图像的特征图进行叠加处理以获得待处理图像的特征图,特征图是指通过卷积核对图像进行卷积之后获得的由特征值组成的矩阵图,服务器首先将卷积核中的参数值分别与待处理图像中对应的像素点的像素值相乘,并将多个乘积加权求平均值作为此次卷积操作的一个输出值填入特征图中,然后将卷积核在待处理图像上按照预设步长滑动,从而获得多个输出值,将多个输出值依次填入构成此次卷积操作的输出的特征图,进而服务器将区域特征图分成若干个图像块,并对每个图像块进行独立的二值化处理,需要说明的是,本发明实施例中,通过建立概率P和阈值T与二值化B之间的关系,使得二值化的计算可微,从而可以满足梯度反向传播的条件,公式如下:
Figure BDA0003702478280000091
其中,k为放大因子。依经验设定为50,带有自适应阈值的可微分二值化不仅有助于把文字区域与背景区分开,而且还能把相近的实例分离开来,在服务器通过上述公式对每个图像块进行独立的二值化处理之后,将二值化处理后的图像块按原型拼接成完整的二值化图像,最终服务器将二值化图像输入输出网络进行区域文字标注,得到文字区域标注。
205、通过文本识别网络对文字区域标注进行文本识别,得到候选文本数据,其中,文本识别网络包括:卷积递归神经网络、双向长短时记忆网络和输出层;
具体的,服务器将文字区域标注输入卷积递归神经网络进行特征提取,得到卷积特征图;服务器将卷积特征图输入双向长短时记忆网络进行序列预测,得到文本序列;服务器将文本序列输入输出层进行文本词级提取,得到候选文本数据。
其中,服务器将文字区域标注输入到卷积递归神经网络中进行图像卷积处理,从而获得卷积特征图,需要说明的是,双向长短时记忆网络的输出为卷积特征图中各词中字符映射到标签的非归一化概率矩阵,本发明实施例中采用维特比算法根据双向长短时记忆网络的输出,确定卷积特征图的标签序列,可确保更准确快速的得到最优结果,服务器在将文本序列输入输出层进行文本词级提取时,利用门控图神经网络融合多个词级文本信息、语法关系特征、词级文本位置信息,生成图关系特征,并根据该图关系特征根据候选文本数据。
206、将候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;
具体的,在本实施例中,步骤206的具体实施方式与上述步骤104类似,此处不再赘述。
207、根据目标文本数据对待录入文本框进行内容填充,得到填充后的文本框。
具体的,服务器提取待录入文本框中的多个待录入栏位;服务器对目标文本数据和多个待录入栏位进行匹配,得到匹配结果;服务器根据匹配结果对待录入栏位进行文本填充,得到填充后的文本框。
其中,服务器对该待录入文本框进行光学字符识别,确定多个待录入栏位,需要说明的是,在进行光学字符识别时,不同栏位具有不同的标签标识,服务器则是根据上述不同标签标识确定上述多个待录入栏位,进而服务器根据栏位的标签标识与目标文本数据进行匹配,此处,服务器对目标文本数据进行分词处理,确定出对应的关键词,进而服务器根据该关键词及栏位的标签标识进行相似度匹配,确定对应的匹配结果,其中,该匹配结果为对应的多个目标待录入栏位,最终服务器将上述目标文本数据填充至多个目标待录入栏位,得到填充后的文本框。
本发明实施例中,本发明通过对待处理截屏图像进行预处理,提高了图片的清晰度,然后通过预先构建的文字识别模型先对目标区域图像进行文本二值化检测,然后对文字进行提取,提高了文本识别的准确率,进而提高了业务数据处理的准确率。通过针对不同类型的噪声,分别选取相应的图像滤波方法对每种噪声所处的频带范围内的图像进行处理,使得可以对图像中仅包含噪声的部分进行处理,并且可以有针对性的选取最佳的滤波算法对每种噪声分别进行处理,避免了对全部图像采用相同的滤波算法,而对图像中的无噪声部分或其他噪声所在的频带部分造成影响,同时,由于无需对所有的图像都进行处理,因此提高了对图像处理的效率。
上面对本发明实施例中业务数据处理方法进行了描述,下面对本发明实施例中业务数据处理装置进行描述,请参阅图3,本发明实施例中业务数据处理装置第一个实施例包括:
获取模块301,用于监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;
预处理模块302,用于对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;
识别模块303,用于将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络;
预测模块304,用于将所述候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;
填充模块305,用于根据所述候选文本数据对所述待录入文本框进行内容填充,得到填充后的文本框。
本发明实施例中,监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络;将所述候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;根据所述目标文本数据对所述待录入文本框进行内容填充,得到填充后的文本框。本发明通过对待处理截屏图像进行预处理,提高了图片的清晰度,然后通过预先构建的文字识别模型先对目标区域图像进行文本二值化检测,然后对文字进行提取,提高了文本识别的准确率,进而提高了业务数据处理的准确率。
请参阅图4,本发明实施例中业务数据处理装置第二个实施例包括:
获取模块301,用于监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;
预处理模块302,用于对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;
识别模块303,用于将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络;
预测模块304,用于将所述候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;
填充模块305,用于根据所述候选文本数据对所述待录入文本框进行内容填充,得到填充后的文本框。
可选的,所述获取模块301具体用于:监听预设的截屏事件,并调用预置的窗口函数获取鼠标移动范围;根据所述鼠标移动范围确定所述截屏事件的起点和终点;根据所述起点和所述终点识别鼠标框选范围;根据所述鼠标框选范围生成待录入文本框对应的待处理截屏图像。
可选的,所述预处理模块302具体用于:对所述待处理截屏图像进行降噪处理,得到高清截屏图像;对所述高清截屏图像进行对比度增强,得到目标截屏图像;对所述待录入文本框进行文本框识别,得到候选框;根据所述候选框对所述目标区域图像进行候选区域选取,得到目标区域图像。
可选的,所述识别模块303还包括:
输入单元3031,用于将所述目标区域图像输入预置的文字识别模型,其中,所述文本识别模型包括:文本检测网络和文本识别网络;
检测单元3032,用于通过所述文本检测网络对所述目标区域图像进行文字检测,得到文字区域标注,其中,所述文本检测网络包括:多层卷积网络、二值化网络和输出网络;
输出单元3033,用于通过所述文本识别网络对所述文字区域标注进行文本识别,得到候选文本数据,其中,所述文本识别网络包括:卷积递归神经网络、双向长短时记忆网络和输出层。
可选的,所述检测单元3032具体用于:将所述目标区域图像输入所述多层卷积网络进行卷积运算,得到区域特征图像;将所述区域特征图像输入二值化网络进行二值化处理,得到二值化图像;将所述二值化图像输入所述输出网络进行区域文字标注,得到文字区域标注。
可选的,所述输出单元3033具体用于:将所述文字区域标注输入所述卷积递归神经网络进行特征提取,得到卷积特征图;将所述卷积特征图输入所述双向长短时记忆网络进行序列预测,得到文本序列;将所述文本序列输入所述输出层进行文本词级提取,得到候选文本数据。
可选的,所述填充模块305具体用于:提取所述待录入文本框中的多个待录入栏位;对所述目标文本数据和所述多个待录入栏位进行匹配,得到匹配结果;根据所述匹配结果对所述待录入栏位进行文本填充,得到填充后的文本框。
本发明实施例中,监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络;将所述候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;根据所述目标文本数据对所述待录入文本框进行内容填充,得到填充后的文本框。本发明通过对待处理截屏图像进行预处理,提高了图片的清晰度,然后通过预先构建的文字识别模型先对目标区域图像进行文本二值化检测,然后对文字进行提取,提高了文本识别的准确率,进而提高了业务数据处理的准确率。
上面图3和图4从模块化功能实体的角度对本发明实施例中的业务数据处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中业务数据处理设备进行详细描述。
图5是本发明实施例提供的一种业务数据处理设备的结构示意图,该业务数据处理设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对业务数据处理设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在业务数据处理设备500上执行存储介质530中的一系列指令操作。
业务数据处理设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的业务数据处理设备结构并不构成对业务数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种业务数据处理设备,所述业务数据处理设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述业务数据处理方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述业务数据处理方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种业务数据处理方法,其特征在于,所述业务数据处理方法包括:
监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;
对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;
将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络;
将所述候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;
根据所述目标文本数据对所述待录入文本框进行内容填充,得到填充后的文本框。
2.根据权利要求1所述的业务数据处理方法,其特征在于,所述监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像,包括:
监听预设的截屏事件,并调用预置的窗口函数获取鼠标移动范围;
根据所述鼠标移动范围确定所述截屏事件的起点和终点;
根据所述起点和所述终点识别鼠标框选范围;
根据所述鼠标框选范围生成待录入文本框对应的待处理截屏图像。
3.根据权利要求1所述的业务数据处理方法,其特征在于,所述对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像,包括:
对所述待处理截屏图像进行降噪处理,得到高清截屏图像;
对所述高清截屏图像进行对比度增强,得到目标截屏图像;
对所述待录入文本框进行文本框识别,得到候选框;
根据所述候选框对所述目标区域图像进行候选区域选取,得到目标区域图像。
4.根据权利要求1所述的业务数据处理方法,其特征在于,所述将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络,包括:
将所述目标区域图像输入预置的文字识别模型,其中,所述文本识别模型包括:文本检测网络和文本识别网络;
通过所述文本检测网络对所述目标区域图像进行文字检测,得到文字区域标注,其中,所述文本检测网络包括:多层卷积网络、二值化网络和输出网络;
通过所述文本识别网络对所述文字区域标注进行文本识别,得到候选文本数据,其中,所述文本识别网络包括:卷积递归神经网络、双向长短时记忆网络和输出层。
5.根据权利要求4所述的业务数据处理方法,其特征在于,所述通过所述文本检测网络对所述目标区域图像进行文字检测,得到文字区域标注,其中,所述文本检测网络包括:多层卷积网络、二值化网络和输出网络,包括:
将所述目标区域图像输入所述多层卷积网络进行卷积运算,得到区域特征图像;
将所述区域特征图像输入二值化网络进行二值化处理,得到二值化图像;
将所述二值化图像输入所述输出网络进行区域文字标注,得到文字区域标注。
6.根据权利要求4所述的业务数据处理方法,其特征在于,所述通过所述文本识别网络对所述文字区域标注进行文本识别,得到候选文本数据,其中,所述文本识别网络包括:卷积递归神经网络、双向长短时记忆网络和输出层,包括:
将所述文字区域标注输入所述卷积递归神经网络进行特征提取,得到卷积特征图;
将所述卷积特征图输入所述双向长短时记忆网络进行序列预测,得到文本序列;
将所述文本序列输入所述输出层进行文本词级提取,得到候选文本数据。
7.根据权利要求1-6中任一项所述的业务数据处理方法,其特征在于,所述根据所述目标文本数据对所述待录入文本框进行内容填充,得到填充后的文本框,包括:
提取所述待录入文本框中的多个待录入栏位;
对所述目标文本数据和所述多个待录入栏位进行匹配,得到匹配结果;
根据所述匹配结果对所述待录入栏位进行文本填充,得到填充后的文本框。
8.一种业务数据处理装置,其特征在于,所述业务数据处理装置包括:
获取模块,用于监听预设的截屏事件并获取待录入文本框对应的待处理截屏图像;
预处理模块,用于对所述待处理截屏图像进行图像预处理和区域选取,得到目标区域图像;
识别模块,用于将所述目标区域图像输入预置的文字识别模型进行区域文字检测和文本识别,得到候选文本数据,其中,所述文本识别模型包括:文本检测网络和文本识别网络;
预测模块,用于将所述候选文本数据输入预置的文本匹配模型进行匹配预测,得到目标文本数据;
填充模块,用于根据所述目标文本数据对所述待录入文本框进行内容填充,得到填充后的文本框。
9.一种业务数据处理设备,其特征在于,所述业务数据处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述业务数据处理设备执行如权利要求1-7中任一项所述的业务数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的业务数据处理方法。
CN202210695857.4A 2022-06-20 2022-06-20 业务数据处理方法、装置、设备及存储介质 Pending CN115240203A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210695857.4A CN115240203A (zh) 2022-06-20 2022-06-20 业务数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210695857.4A CN115240203A (zh) 2022-06-20 2022-06-20 业务数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115240203A true CN115240203A (zh) 2022-10-25

Family

ID=83669652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210695857.4A Pending CN115240203A (zh) 2022-06-20 2022-06-20 业务数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115240203A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965017A (zh) * 2023-01-04 2023-04-14 北京三维天地科技股份有限公司 一种基于开发平台的多语言录入和解析系统及方法
CN117332761A (zh) * 2023-11-30 2024-01-02 北京一标数字科技有限公司 一种pdf文档智能识别标注系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965017A (zh) * 2023-01-04 2023-04-14 北京三维天地科技股份有限公司 一种基于开发平台的多语言录入和解析系统及方法
CN115965017B (zh) * 2023-01-04 2023-11-10 北京三维天地科技股份有限公司 一种基于开发平台的多语言录入和解析系统及方法
CN117332761A (zh) * 2023-11-30 2024-01-02 北京一标数字科技有限公司 一种pdf文档智能识别标注系统
CN117332761B (zh) * 2023-11-30 2024-02-09 北京一标数字科技有限公司 一种pdf文档智能识别标注系统

Similar Documents

Publication Publication Date Title
CN110569721B (zh) 识别模型训练方法、图像识别方法、装置、设备及介质
Zhang et al. Ensnet: Ensconce text in the wild
WO2018166116A1 (zh) 车损识别方法、电子装置及计算机可读存储介质
CN111898411B (zh) 文本图像标注系统、方法、计算机设备和存储介质
CN115240203A (zh) 业务数据处理方法、装置、设备及存储介质
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
WO2021045781A1 (en) Detecting semi-transparent image watermarks
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN116311214B (zh) 车牌识别方法和装置
US20230169555A1 (en) System and method for textual analysis of images
CN114782892A (zh) 违规行为目标检测方法、装置、设备及存储介质
CN111368632A (zh) 一种签名识别方法及设备
CN110807463B (zh) 图像分割方法、装置、计算机设备和存储介质
CN112052702A (zh) 一种识别二维码的方法和装置
CN113792623B (zh) 安检ct目标物识别方法和装置
CN110751004A (zh) 二维码检测方法、装置、设备及存储介质
CN113657370B (zh) 一种文字识别方法及其相关设备
CN115424001A (zh) 场景相似度估计方法、装置、计算机设备和存储介质
CN113537230B (zh) 一种消息发布方式的有效性确定方法及装置、电子设备
CN114647361A (zh) 一种基于人工智能的触摸屏物体定位方法及装置
US11423597B2 (en) Method and system for removing scene text from images
CN117523219A (zh) 图像处理方法及装置、电子设备、存储介质
Singh et al. Efficient binarization technique for severely degraded document images
CN107045522A (zh) 一种基于掌纹数据的业务处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination