CN115828307B - 应用于ocr的文本识别方法及ai系统 - Google Patents

应用于ocr的文本识别方法及ai系统 Download PDF

Info

Publication number
CN115828307B
CN115828307B CN202310042728.XA CN202310042728A CN115828307B CN 115828307 B CN115828307 B CN 115828307B CN 202310042728 A CN202310042728 A CN 202310042728A CN 115828307 B CN115828307 B CN 115828307B
Authority
CN
China
Prior art keywords
text
sensitive
business
word vector
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310042728.XA
Other languages
English (en)
Other versions
CN115828307A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Bairui Network Technology Co ltd
Original Assignee
Guangzhou Bairui Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Bairui Network Technology Co ltd filed Critical Guangzhou Bairui Network Technology Co ltd
Priority to CN202310042728.XA priority Critical patent/CN115828307B/zh
Publication of CN115828307A publication Critical patent/CN115828307A/zh
Application granted granted Critical
Publication of CN115828307B publication Critical patent/CN115828307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明涉及文本识别技术领域,涉及一种应用于OCR的文本识别方法及AI系统。本发明通过将拟优化业务文本大数据整理成多组目标业务文本集,通过多组目标业务文本集尽可能准确、完整地输出拟优化业务文本大数据的文本内容,然后利用OCR算法对拟优化业务文本大数据的文本内容进行识别处理;本发明能够快速的区分是否是文档,过滤非文档,从而避免了对所有的图片都进行文本检测和文本识别,提升通用文档OCR的识别速度;针对性进行文本检测和文本识别的训练,提升识别准确率,从而使得应用于OCR的文本识别速度快,识别准确率高,支持多平台多终端的使用。

Description

应用于OCR的文本识别方法及AI系统
技术领域
本发明涉及文本识别技术领域,特别涉及一种应用于OCR的文本识别方法及AI系统。
背景技术
OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。随着互联网的发展,图像以及视频的产生、传递速度大大加快。图像文字中包含的丰富的语义信息,也在人机交互中扮演着重要角色。在很多公司业务中,有很多需要对图片进行识别的需求。在一些业务办理流程中,为了保证客户办理业务准确无误,往往需要对客户上传的一些文档进行审核。人工的方式需要花费大量的时间以及人力成本,且准确率不高。通用文档识别系统可以减少工作人员参与且极大的降低处理时长。现目前,基于OCR技术的文本识别应用越来越广泛,能够将各类纸质文件转换为电子文件以供使用。但是在实际应用时,如果涉及到一些较为敏感的信息或者较为私密的信息,传统技术难以有效实现对这些信息的保护。
发明内容
为改善相关技术中存在的技术问题,本发明提供了一种应用于OCR的文本识别方法及AI系统。
第一方面,本发明实施例提供了一种应用于OCR的文本识别方法,应用于文本识别AI系统,所述方法包括:
对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集;
通过OCR敏感文本优化算法的第一词向量挖掘网络,对所述拟优化业务文本大数据进行词向量挖掘,得到所述拟优化业务文本大数据的业务文本词向量;
基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量;
基于所述OCR敏感文本优化算法的词向量处理网络,对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量;
基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量及所述业务文本词向量,对所述拟优化业务文本大数据进行敏感文本脱敏,得到对应的已脱敏业务文本大数据。
在一些可能的实施例中,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:
对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;
将所述第一阶段化文本数据库中每阶的文本集作为所述目标业务文本集。
在一些可能的实施例中,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:
对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;
结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;
分别将所述第一阶段化文本数据库中各阶的文本集与所述第二阶段化文本数据库中对应阶的文本集进行匹配,得到至少两个文本匹配集;
将所述至少两个文本匹配集作为所述目标业务文本集。
在一些可能的实施例中,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:
对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;
结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;
分别对所述第一阶段化文本数据库中各阶的文本集进行语句提炼操作,得到对应的目标文本集;
分别将所述第一阶段化文本数据库中各阶的文本集、所述第二阶段化文本数据库中对应阶的文本集、以及与所述第二阶段化文本数据库中对应阶的文本集的规模相同的目标文本集进行匹配,得到至少两个文本匹配集;
将所述至少两个文本匹配集作为所述目标业务文本集。
在一些可能的实施例中,所述第二词向量挖掘网络包括X个局部词向量挖掘网络,所述目标业务文本集的数目为X,所述X为大于等于2的正整数;
所述基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量,包括:将每个所述目标业务文本集加载到一个所述局部词向量挖掘网络,基于所述局部词向量挖掘网络对所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量。
在一些可能的实施例中,所述敏感文本词向量包括规模向量和关注向量,所述对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量,包括:
分别对各所述目标业务文本集的敏感文本词向量进行规模调整,得到对应各所述敏感文本词向量的目标敏感文本词向量;其中,各所述目标敏感文本词向量的规模向量相同;
对各所述目标敏感文本词向量的关注向量进行加权操作,得到联动关注向量;
将所述目标敏感文本词向量的规模向量与所述联动关注向量进行向量整合,得到所述联动敏感文本词向量。
在一些可能的实施例中,当所述目标业务文本集的数目为u时,所述敏感文本词向量的数目为u,所述对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量,包括:
将u个所述敏感文本词向量中第v个敏感文本词向量与第v+1个敏感文本词向量进行拼接,得到第v联动敏感文本词向量;其中,u为大于等于3的正整数,v为正整数,且v大于等于1且小于等于u-1;
将所述第v联动敏感文本词向量与第v+2个敏感文本词向量进行拼接,得到第v+1联动敏感文本词向量;
以v=1为起始条件,启动对v的遍历处理,并当所述v+2的值与所述u的值一致时,将所述第v+1联动敏感文本词向量作为所述联动敏感文本词向量。
在一些可能的实施例中,所述基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量及所述业务文本词向量,对所述拟优化业务文本大数据进行敏感文本脱敏,得到对应的已脱敏业务文本大数据,包括:
基于所述OCR敏感文本优化算法的敏感文本脱敏网络,确定所述业务文本词向量与所述联动敏感文本词向量之间的文本比较词向量;
基于所述OCR敏感文本优化算法的敏感文本脱敏网络,对所述文本比较词向量进行文本翻译,得到所述已脱敏业务文本大数据。
在一些可能的实施例中,所述通过OCR敏感文本优化算法的第一词向量挖掘网络,对所述拟优化业务文本大数据进行词向量挖掘之前,还包括:
对包含敏感资源文本的敏感文本大数据示例进行文本集整理,得到至少两组目标业务文本集示例;其中,所述敏感文本大数据示例为对原始业务文本大数据示例注入敏感资源文本得到;
基于所述OCR敏感文本优化算法的第一词向量挖掘网络,对所述敏感文本大数据示例进行词向量挖掘,得到所述敏感文本大数据示例的业务文本词向量示例;
基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集示例进行敏感词向量挖掘,得到对应的敏感文本词向量示例;
基于所述OCR敏感文本优化算法的词向量处理网络,对各所述目标业务文本集示例对应的敏感文本词向量示例进行加权操作,得到联动敏感文本词向量示例;
基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量示例及所述业务文本词向量示例,对所述敏感文本大数据示例进行敏感文本脱敏,得到对应的已脱敏业务文本回归信息;
基于所述已脱敏业务文本回归信息与所述原始业务文本大数据示例的比较结果,调整所述OCR敏感文本优化算法的算法变量。
在一些可能的实施例中,所述原始业务文本大数据示例对应有至少两组敏感文本大数据示例,各所述敏感文本大数据示例皆为对所述原始业务文本大数据示例注入敏感资源文本得到,所述方法还包括:
分别针对各所述敏感文本大数据示例,执行所述对包含敏感资源文本的敏感文本大数据示例进行文本集整理、至所述对所述敏感文本大数据示例进行敏感文本脱敏的处理,得到各所述敏感文本大数据示例对应的已脱敏业务文本回归信息;
所述基于所述已脱敏业务文本回归信息与所述原始业务文本大数据示例的比较结果,调整所述OCR敏感文本优化算法的算法变量,包括:基于各所述已脱敏业务文本回归信息与所述原始业务文本大数据示例的比较结果,调整所述OCR敏感文本优化算法的算法变量。
在一些可能的实施例中,所述敏感资源文本包括用户个人信息和办公内部资料中的至少一种;
所述对包含敏感资源文本的敏感文本大数据示例进行文本集整理之前,所述方法还包括如下其中一项:
对所述原始业务文本大数据示例注入用户个人信息,得到携带用户个人信息的第一训练文本,将所述第一训练文本作为所述敏感文本大数据示例;
对所述原始业务文本大数据示例添加办公内部资料,得到携带办公内部资料的第二训练文本,将所述第二训练文本作为所述敏感文本大数据示例;
对所述原始业务文本大数据示例注入用户个人信息和办公内部资料,得到同时携带用户个人信息和办公内部资料的第三训练文本,将所述第三训练文本作为所述敏感文本大数据示例。
第二方面,本发明还提供了一种文本识别AI系统,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
本发明实施例通过将拟优化业务文本大数据整理成多组目标业务文本集,每组目标业务文本集中皆包含拟优化业务文本大数据的文本内容,随着拟优化业务文本大数据的整理,拟优化业务文本大数据的文本内容也被整理为多类输出方式,这样,能够通过多组目标业务文本集尽可能准确、完整地输出拟优化业务文本大数据的文本内容,然后利用OCR敏感文本优化算法挖掘每组目标业务文本集的敏感文本词向量,并将各敏感文本词向量进行拼接,得到的联动敏感文本词向量则对应携带了拟优化业务文本大数据中更为精准且更为全面的敏感资源文本,从而使得能够基于该联动敏感文本词向量精准实现拟优化业务文本大数据中的敏感资源文本的匿名脱敏处理。基于该技术方案,能够对基于OCR技术扫描得到的拟优化业务文本大数据进行敏感资源文本的匿名脱敏处理,从而实现对敏感资源文本的保护。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是本发明实施例提供的一种应用于OCR的文本识别方法的流程示意图。
图2是本发明实施例提供的一种应用于OCR的文本识别方法的应用环境的通信架构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明实施例所提供的方法实施例可以在文本识别AI系统、计算机设备或者类似的运算装置中执行。以运行在文本识别AI系统上为例,文本识别AI系统可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器,可选地,上述文本识别AI系统还可以包括用于通信功能的传输装置。本领域普通技术人员可以理解,上述结构仅为示意,其并不对上述文本识别AI系统的结构造成限定。例如,文本识别AI系统还可包括比上述所示更多或者更少的组件,或者具有与上述所示不同的配置。
存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种应用于OCR的文本识别方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至文本识别AI系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括文本识别AI系统的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于此,请参阅图1,图1是本发明实施例所提供的一种应用于OCR的文本识别方法的流程示意图,该方法应用于文本识别AI系统,进一步可以包括以下内容描述的技术方案。
STEP101,文本识别AI系统对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集。
在本发明实施例中,每组目标业务文本集对应相异的业务文本词向量,文本识别AI系统通过对拟优化业务文本大数据进行文本集整理(文本拆分),得到对应不同业务文本词向量的多组目标业务文本集。在一些示例中,文本识别AI系统可以对形成拟优化业务文本大数据的多个词句进行处理,以得到至少两组目标业务文本集。示例性的,文本识别AI系统可以从拟优化业务文本大数据中挑选出多个目标词句,根据多个目标词句生成一组目标业务文本集。其中,拟优化业务文本大数据是通过OCR技术对纸质文件扫描得到的。
在一些可能的设计思路下,STEP101还可以通过如下方式实现。
STEP201,文本识别AI系统对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应拟优化业务文本大数据的第一阶段化文本数据库。
STEP202,将第一阶段化文本数据库中每阶的文本集作为目标业务文本集。
在一些示例中,文本识别AI系统可以对拟优化业务文本大数据进行至少一次文本集整理,得到与拟优化业务文本大数据的文本规模不同的目标业务文本集,然后基于拟优化业务文本大数据和目标业务文本集生成第一阶段化文本数据库,得到的第一阶段化文本数据库中则包含有拟优化业务文本大数据和目标业务文本集等两个文本规模的文本数据集。比如,第一阶段化文本数据库可以多个等级的文本数据集。
在一些示例中,文本识别AI系统将生成的第一阶段化文本数据库中的每个等级的文本数据集作为目标业务文本集,以将目标业务文本集加载到OCR敏感文本优化算法中对拟优化业务文本大数据进行敏感文本脱敏,通过这种方式将拟优化业务文本大数据整理为多个文本规模的目标业务文本集,目标业务文本集是拟优化业务文本大数据在不同文本规模下的文本特征输出,具备拟优化业务文本大数据不同强度的文本内容,比如第一阶段化文本数据库中高等级的文本数据集相较于低等级的文本数据集具备更多的敏感资源文本及更高的安全风险值,从而使得OCR敏感文本优化算法能够识别到多个文本规模的文本内容,以便能够更准确地进行敏感文本脱敏,使得获得的已脱敏业务文本大数据的敏感文本保护尽可能完善。
在一些可能的设计思路下,STEP101还可以通过如下方式实现。
STEP301,文本识别AI系统对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应拟优化业务文本大数据的第一阶段化文本数据库。
STEP302,基于对应拟优化业务文本大数据的第一阶段化文本数据库,生成对应拟优化业务文本大数据的第二阶段化文本数据库。
STEP303,分别将第一阶段化文本数据库中各阶的文本集与第二阶段化文本数据库中对应阶的文本集进行匹配,得到至少两个文本匹配集。
STEP304,将至少两个文本匹配集作为目标业务文本集。
在一些示例中,文本识别AI系统将每一个文本匹配集作为目标业务文本集,以将目标业务文本集加载到OCR敏感文本优化算法中对拟优化业务文本大数据进行敏感文本脱敏,通过这种方式将拟优化业务文本大数据整理为包含多个文本规模的文本数据集的第一阶段化文本数据库以及包含多个文本规模的文本数据集的第二阶段化文本数据库,然后将第一阶段化文本数据库和第二阶段化文本数据库进行匹配,将匹配后的文本匹配集作为目标业务文本集,使得基于目标业务文本集进行文本处理时能够同时考虑到拟优化业务文本大数据中的文本特征输出以及频繁项特征,将文本特征输出以及频繁项特征中的敏感资源文本同时进行匿名,从而能够得到敏感文本保护尽可能完善的已脱敏业务文本大数据。其中,第一阶段化文本数据库和第二阶段化文本数据库可以分别理解为不同的文本集金字塔。
在一些可能的设计思路下,STEP101还可以通过如下方式实现。
STEP401,文本识别AI系统对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应拟优化业务文本大数据的第一阶段化文本数据库。
STEP402,基于对应拟优化业务文本大数据的第一阶段化文本数据库,生成对应拟优化业务文本大数据的第二阶段化文本数据库。
STEP403,分别对第一阶段化文本数据库中各阶的文本集进行语句提炼操作,得到对应的目标文本集。
STEP404,分别将第一阶段化文本数据库中各阶的文本集、第二阶段化文本数据库中对应阶的文本集、以及与第二阶段化文本数据库中对应阶的文本集的规模相同的目标文本集进行匹配,得到至少两个文本匹配集。
STEP405,将至少两个文本匹配集作为目标业务文本集。
本发明实施例中,在第一阶段化文本数据库和第二阶段化文本数据库的基础上,还对第一阶段化文本数据库进行语句提炼操作,以对第一阶段化文本数据库进行进一步的文本集整理,得到目标文本集对应的文本库,这样,匹配三者得到的文本匹配集对应的文本库则携带更多丰富的文本内容,使得基于此进行算法调试得到的脱敏算法效果更佳,从而能够得到匿名化精度和稳定性更高的已脱敏业务文本大数据。
STEP102,文本识别AI系统通过OCR敏感文本优化算法的第一词向量挖掘网络,对拟优化业务文本大数据进行词向量挖掘,得到拟优化业务文本大数据的业务文本词向量。
其中,OCR敏感文本优化算法为卷积神经网络,其中,第一词向量挖掘网络(第一特征提取网络)和第二词向量挖掘网络(第二特征提取网络)通过多个的卷积层形成。本发明实施例中,第一词向量挖掘网络用于执行长滑动平均处理,第二词向量挖掘网络用于执行短滑动平均处理。词向量处理网络(向量整合网络)也通过多个卷积层形成,用于将两个以上的词向量进行拼接。
在一些示例中,文本识别AI系统在对拟优化业务文本大数据进行文本集整理得到至少两组目标业务文本集后,将拟优化业务文本大数据和至少两组目标业务文本集分别加载到OCR敏感文本优化算法中。示例性的,文本识别AI系统将拟优化业务文本大数据加载到OCR敏感文本优化算法的第一词向量挖掘网络,将目标业务文本集加载到OCR敏感文本优化算法的第二词向量挖掘网络。接着,通过OCR敏感文本优化算法的第一词向量挖掘网络对拟优化业务文本大数据进行词向量挖掘,得到拟优化业务文本大数据的业务文本词向量。这里,业务文本词向量包括拟优化业务文本大数据的文本内容以及敏感资源文本。
STEP103,文本识别AI系统通过OCR敏感文本优化算法的第二词向量挖掘网络,分别对各目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量。
在一些示例中,文本识别AI系统分别将每组目标业务文本集加载到OCR敏感文本优化算法,以使OCR敏感文本优化算法提取目标业务文本集的敏感文本词向量。这里,敏感文本词向量为目标业务文本集中存在的敏感资源文本的特征输出。本发明实施例中,OCR敏感文本优化算法通过学习目标业务文本集的特征,来挖掘出目标业务文本集中的敏感资源文本,得到对应的敏感文本词向量。
在一些可能的设计思路下,第二词向量挖掘网络包括X个局部词向量挖掘网络,目标业务文本集的数目为X,所述X为大于等于2的正整数。基于此,STEP103还可以通过如下方式实现:文本识别AI系统将每个目标业务文本集加载到一个局部词向量挖掘网络,通过局部词向量挖掘网络对目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量。
在一些示例下,各局部词向量挖掘网络的架构可以不完全一致,而对于架构一致的两个局部词向量挖掘网络,其变量也可以不同。在一些示例中,文本识别AI系统将每组目标业务文本集分别加载到一个局部词向量挖掘网络,分别通过不同的局部词向量挖掘网络来提取不同的目标业务文本集。鉴于本发明实施例通过对拟优化业务文本大数据进行文本集整理得到的每组目标业务文本集都对应相异的文本规模信息,基于此,通过架构或者变量不同的局部词向量挖掘网络来分别提取不同文本规模的目标业务文本集,能够针对性地挖掘出不同文本规模的敏感文本词向量,从而提高词向量挖掘的精度。
STEP104,文本识别AI系统通过OCR敏感文本优化算法的词向量处理网络,对各目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量。
在一些示例中,文本识别AI系统将所有目标业务文本集的敏感文本词向量进行词向量加权操作,将每组目标业务文本集对应的敏感文本词向量融合为一个联动敏感文本词向量。可以理解,联动敏感文本词向量包括所有目标业务文本集的敏感资源文本。示例性的,文本识别AI系统通过OCR敏感文本优化算法的词向量处理网络对各敏感文本词向量进行滑动平均处理(卷积操作),通过滑动平均处理将所有敏感文本词向量融合为联动敏感文本词向量。
在一些可能的设计思路下,敏感文本词向量包括规模向量(文本框尺寸特征)和关注向量(注意力特征)。基于此,STEP104还可以通过如下方式实现。
STEP501,文本识别AI系统通过OCR敏感文本优化算法的词向量处理网络,分别对各目标业务文本集的敏感文本词向量进行规模调整,得到对应各敏感文本词向量的目标敏感文本词向量;其中,各目标敏感文本词向量的规模向量相同。
本发明实施例中,敏感文本词向量的业务文本词向量的特征维度与对应的目标业务文本集一致,也具备规模向量和关注向量,且敏感文本词向量的规模向量与对应的目标业务文本集的规模向量一致。比如,若目标业务文本集的规模向量为(V1),那么对该目标业务文本集进行敏感词向量挖掘之后得到的敏感文本词向量的规模向量也为(V1)。而敏感文本词向量的关注向量则对应为目标业务文本集中的敏感资源文本所对应的关注向量。
在一些示例中,各目标业务文本集的文本规模不同,各目标业务文本集的规模向量也不同,在进行向量整合时,文本识别AI系统首先通过OCR敏感文本优化算法的词向量处理网络,对各目标业务文本集的敏感文本词向量进行规模调整,使各目标业务文本集对应的敏感文本词向量的规模向量达到一致。其中,可以通过特征上采样实现规模调整。
STEP502,对各目标敏感文本词向量的关注向量进行加权操作,得到联动关注向量。
在一些示例中,文本识别AI系统可以将所有目标敏感文本词向量的关注向量进行向量整合,得到多维的整合关注向量,然后将整合关注向量通过滑动平均处理融合为一个维度的联动关注向量。文本识别AI系统还可以直接对所有目标敏感文本词向量进行滑动平均处理,以直接整合为一个维度的联动关注向量。
STEP503,将目标敏感文本词向量的规模向量与联动关注向量进行向量整合,得到联动敏感文本词向量。
在本发明实施例中,通过将规模向量与联动关注向量进行向量整合,得到的联动敏感文本词向量则具备有规模维度与注意力维度的特征,从而完成对所有目标敏感文本词向量的向量整合,得到的联动敏感文本词向量则具备有各文本规模的目标业务文本集中的敏感资源文本。
在一些可能的设计思路下,当目标业务文本集的数目为u时,相应的,敏感文本词向量的数目为u。在一些可能的实施例中,STEP104还可以通过如下方式实现。
STEP601,文本识别AI系统通过OCR敏感文本优化算法的词向量处理网络,将u个敏感文本词向量中第v个敏感文本词向量与第v+1个敏感文本词向量进行拼接,得到第v联动敏感文本词向量;其中,u为大于等于3的正整数,v为正整数,且v大于等于1且小于等于u-1。
STEP602,将第v联动敏感文本词向量与第v+2个敏感文本词向量进行拼接,得到第v+1联动敏感文本词向量。
STEP603,以v=1为起始条件,启动对v的遍历处理,并当v+2的值与u的值一致时,将第v+1联动敏感文本词向量作为所述联动敏感文本词向量。
本发明实施例中,文本识别AI系统将敏感文本词向量按照规模升序进行排序,第v个敏感文本词向量的规模比第v+1个敏感文本词向量的规模更小。在一些示例中,文本识别AI系统通过OCR敏感文本优化算法的词向量处理网络,从规模最小的敏感文本词向量开始逐步对各敏感文本词向量进行向量整合。在一些示例中,文本识别AI系统通过OCR敏感文本优化算法的词向量处理网络,从v取值为1开始启动对v的遍历处理,将遍历到的第v个敏感文本词向量与第v+1个敏感文本词向量进行向量整合,得到第v联动敏感文本词向量,然后继续遍历得到第v+2个敏感文本词向量,将第v联动敏感文本词向量与第v+2个敏感文本词向量向量整合,得到第v+1联动敏感文本词向量,然后继续遍历v以实施如上步骤,从而得到最终的联动敏感文本词向量。
STEP105,文本识别AI系统通过OCR敏感文本优化算法的敏感文本脱敏网络,基于联动敏感文本词向量及业务文本词向量,对拟优化业务文本大数据进行敏感文本脱敏,得到对应的已脱敏业务文本大数据。
在一些可能的设计思路下,STEP105还可以通过如下方式实现:文本识别AI系统通过OCR敏感文本优化算法的敏感文本脱敏网络,确定业务文本词向量与联动敏感文本词向量之间的文本比较词向量;通过OCR敏感文本优化算法的敏感文本脱敏网络,对文本比较词向量进行文本翻译,得到已脱敏业务文本大数据。
在一些示例中,文本识别AI系统通过OCR敏感文本优化算法的敏感文本脱敏网络将拟优化业务文本大数据data1的业务文本词向量Vec(data1)与联动敏感文本词向量SVec(data1)作差,得到二者的文本比较词向量CVec(data1),该文本比较词向量即为匿名了拟优化业务文本大数据中的敏感资源文本的已脱敏业务文本大数据所对应的业务文本词向量,进一步地,通过OCR敏感文本优化算法的敏感文本脱敏网络对文本比较词向量进行文本翻译,将特征模式的文本比较词向量转换成文本大数据,该文本大数据则为拟优化业务文本大数据所对应的已脱敏业务文本大数据。这样便可以完成对拟优化业务文本大数据的敏感文本脱敏。其中,在进行向量作差之后,通过文本翻译,可以实现对敏感资源文本的模糊处理或者去标识处理。
本发明实施例中,文本识别AI系统通过将拟优化业务文本大数据整理成多组目标业务文本集,每组目标业务文本集中皆包含拟优化业务文本大数据的文本内容,随着拟优化业务文本大数据的整理,拟优化业务文本大数据的文本内容也被整理为多类输出方式,这样,能够通过多组目标业务文本集尽可能准确、完整地输出拟优化业务文本大数据的文本内容,然后利用OCR敏感文本优化算法提取每组目标业务文本集的敏感文本词向量,并将各敏感文本词向量进行拼接,得到的联动敏感文本词向量则对应携带了拟优化业务文本大数据中更为精准且更为全面的敏感资源文本,从而使得能够基于该联动敏感文本词向量精准实现拟优化业务文本大数据中的敏感资源文本的匿名脱敏处理。
在一些可能的设计思路下,在STEP102之前,还对OCR敏感文本优化算法进行调试。本发明实施例提供一种OCR敏感文本优化算法的调试方法,可以包括如下相关内容。
STEP701,文本识别AI系统对包含敏感资源文本的敏感文本大数据示例进行文本集整理,得到至少两组目标业务文本集示例;其中,所述敏感文本大数据示例为对原始业务文本大数据示例注入敏感资源文本得到。
在一些示例中,文本识别AI系统获取无敏感资源文本的原始业务文本大数据示例,对原始业务文本大数据示例注入敏感资源文本,得到对应的敏感文本大数据示例。在一些可能的设计思路下,敏感资源文本包括用户个人信息和办公内部资料中的至少一种,在STEP701之前,还可以执行:文本识别AI系统对原始业务文本大数据示例注入用户个人信息,得到携带用户个人信息的第一训练文本,将第一训练文本作为敏感文本大数据示例;或者对原始业务文本大数据示例添加办公内部资料,得到携带办公内部资料的第二训练文本,将第二训练文本作为敏感文本大数据示例;或者对原始业务文本大数据示例注入用户个人信息,得到携带用户个人信息的第一训练文本,并对第一训练文本添加办公内部资料,得到同时携带用户个人信息和办公内部资料的第三训练文本,将第三训练文本作为敏感文本大数据示例。
在一些示例下,训练示例簇包括原始业务文本大数据示例集合与敏感文本大数据示例集合。其中,每组原始业务文本大数据示例分别对应一个由多组具备不同敏感资源文本的敏感文本大数据示例所构成的敏感文本大数据示例集合。敏感文本大数据示例集合包括第二训练文本集合、第一训练文本集合、第三训练文本集合以及其他敏感文本大数据示例集合中的至少之一。在一些示例中,文本识别AI系统在确定原始业务文本大数据示例后,从该原始业务文本大数据示例对应的敏感文本大数据示例集合中随机地选取一组敏感文本大数据示例,以与所述原始业务文本大数据示例构成样例二元组加载到本发明实施例的OCR敏感文本优化算法中以对OCR敏感文本优化算法进行调试。
在一些示例中,文本识别AI系统可以在对原始业务文本大数据示例注入用户个人信息后对第一训练文本添加办公内部资料,得到第三训练文本,或者在对原始业务文本大数据示例添加办公内部资料后对第二训练文本注入用户个人信息,得到第三训练文本,等等。文本识别AI系统在分别对多组原始业务文本大数据示例注入敏感资源文本后,生成由多组原始业务文本大数据示例和对应的敏感文本大数据示例所构成的训练示例簇。
在一些示例中,文本识别AI系统可以从训练示例簇中选择一组或多组原始业务文本大数据示例,并基于原始业务文本大数据示例,从与原始业务文本大数据示例对应的敏感文本大数据示例集合中选择一组对应的敏感文本大数据示例,并对敏感文本大数据示例进行文本集整理,得到至少两个目标业务文本集示例。
STEP702,通过OCR敏感文本优化算法的第一词向量挖掘网络,对所述敏感文本大数据示例进行词向量挖掘,得到所述敏感文本大数据示例的业务文本词向量示例。
STEP703,基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集示例进行敏感词向量挖掘,得到对应的敏感文本词向量示例。
STEP704,基于所述OCR敏感文本优化算法的词向量处理网络,对各所述目标业务文本集示例对应的敏感文本词向量示例进行加权操作,得到联动敏感文本词向量示例。
STEP705,基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量示例及所述业务文本词向量示例,对所述敏感文本大数据示例进行敏感文本脱敏,得到对应的已脱敏业务文本回归信息。
STEP706,基于所述已脱敏业务文本回归信息与所述原始业务文本大数据示例的比较结果,调整所述OCR敏感文本优化算法的算法变量。
在一些示例中,文本识别AI系统将敏感文本大数据示例和至少两个目标业务文本集示例加载到OCR敏感文本优化算法中,得到敏感文本大数据示例的业务文本词向量示例以及至少两个目标业务文本集示例对应的敏感文本词向量,并将各敏感文本词向量通过词向量处理网络进行拼接,得到联动敏感文本词向量示例,然后通过OCR敏感文本优化算法的敏感文本脱敏网络,确定业务文本词向量示例与联动敏感文本词向量示例的文本比较词向量示例(样本差值特征)。文本识别AI系统还将原始业务文本大数据示例加载到OCR敏感文本优化算法中,通过OCR敏感文本优化算法的第一词向量挖掘网络,提取原始业务文本大数据示例的原始业务文本词向量示例,接着,文本识别AI系统基于原始业务文本词向量示例与文本比较词向量示例的比较结果(差异),调整OCR敏感文本优化算法的算法变量,示例性的,文本识别AI系统分别对第一词向量挖掘网络的变量、第二词向量挖掘网络的变量、词向量处理网络的变量以及敏感文本脱敏网络的变量进行调整。这里,原始业务文本词向量示例与文本比较词向量示例的比较结果为文本识别AI系统通过确定OCR敏感文本优化算法对应的训练代价函数的代价值得到。文本识别AI系统迭代上述调试过程,直至训练代价函数趋于稳定,完成对OCR敏感文本优化算法的调试。其中,训练代价函数可以根据实际情况选择对应的损失函数。
在一些可能的设计思路下,原始业务文本大数据示例对应有至少两组敏感文本大数据示例,各敏感文本大数据示例皆为对原始业务文本大数据示例注入敏感资源文本得到,所述应用于OCR的文本识别方法还包括:文本识别AI系统分别针对各敏感文本大数据示例,执行所述对包含敏感资源文本的敏感文本大数据示例进行文本集整理、至所述对所述敏感文本大数据示例进行敏感文本脱敏的处理,得到各敏感文本大数据示例对应的已脱敏业务文本回归信息。相应的,所述基于已脱敏业务文本回归信息与原始业务文本大数据示例的比较结果,调整OCR敏感文本优化算法的算法变量,包括:文本识别AI系统基于各已脱敏业务文本回归信息与原始业务文本大数据示例的比较结果,调整OCR敏感文本优化算法的算法变量。
在一些示例中,各敏感文本大数据示例所携带的敏感资源文本不同,比如可以是不同保密等级的办公内部资料,或者分别为不同类型的敏感资源文本,比如分别为办公内部资料以及用户个人信息等。本发明实施例中,文本识别AI系统可以对原始业务文本大数据示例进行多种敏感资源文本的添加,得到对应的多组敏感文本大数据示例。在一些可能的设计思路下,文本识别AI系统还可以基于上述训练示例簇,获取原始业务文本大数据示例以及与原始业务文本大数据示例对应的敏感文本大数据示例集合。接着,文本识别AI系统针对各敏感文本大数据示例执行上述的文本数据脱敏的过程,得到各敏感文本大数据示例对应的文本比较词向量示例,这里,文本比较词向量示例所对应的文本数据即为已脱敏业务文本回归信息(已脱敏业务文本预测信息)。文本识别AI系统还将原始业务文本大数据示例加载到OCR敏感文本优化算法中进行词向量挖掘,得到原始业务文本词向量示例,接着,文本识别AI系统基于各敏感文本大数据示例对应的文本比较词向量示例分别与原始业务文本词向量示例的比较结果,调整OCR敏感文本优化算法的算法变量。
在一些可能的设计思路下,文本识别AI系统可以确定各文本比较词向量示例的全局词向量,基于该全局词向量与原始业务文本词向量示例的比较结果,调整OCR敏感文本优化算法的算法变量。这里,全局词向量可以是各文本比较词向量示例的均值。
上述实施例中,通过将原始业务文本大数据示例对应的含有多种敏感资源文本的敏感文本大数据示例共同加载到OCR敏感文本优化算法中进行调试,使得OCR敏感文本优化算法能够同时吸收更多保密等级或者种类的敏感资源文本,从而进一步提高了OCR敏感文本优化算法的文本脱敏准确性。
在一些可能的设计思路下,第二词向量挖掘网络包括X个局部词向量挖掘网络,目标业务文本集的数目为X,所述X为大于等于2的正整数。所述对各目标业务文本集示例进行敏感词向量挖掘,得到对应的敏感文本词向量示例,包括:将每个目标业务文本集加载到一个局部词向量挖掘网络,通过局部词向量挖掘网络对目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量示例。相应的,STEP706,包括:基于已脱敏业务文本回归信息与原始业务文本大数据示例的比较结果,分别对第一词向量挖掘网络的变量、各第二词向量挖掘网络的变量、词向量处理网络的变量及敏感文本脱敏网络的变量进行调整。
本发明实施例,文本识别AI系统通过将敏感文本大数据示例整理为多组目标业务文本集示例,每组目标业务文本集示例中皆包含敏感文本大数据示例的文本内容,随着敏感文本大数据示例的整理,敏感文本大数据示例的文本内容也被整理为多类输出方式,这样,能够通过多组目标业务文本集示例尽可能准确、完整地输出敏感文本大数据示例的文本内容,然后利用OCR敏感文本优化算法提取每组目标业务文本集示例的敏感文本词向量,并将各敏感文本词向量进行拼接,得到的联动敏感文本词向量则对应携带了敏感文本大数据示例中更为精准且更为全面的敏感资源文本,从而使得能够基于该联动敏感文本词向量准确实现敏感文本大数据示例中的敏感资源文本的脱敏,得到更稳定的脱敏预测文本,然后基于脱敏预测文本与原始业务文本大数据示例的比较结果来对OCR敏感文本优化算法进行调试,使得调试得到的OCR敏感文本优化算法具有高准确性的文本脱敏效果。
本发明实施例中,业务用户设备通过将敏感文本大数据示例发送至文本识别AI系统,使文本识别AI系统将敏感文本大数据示例整理为多组目标业务文本集示例,每组目标业务文本集示例中皆包含敏感文本大数据示例的文本内容,随着敏感文本大数据示例的整理,敏感文本大数据示例的文本内容也被整理为多类输出方式,这样,能够通过多组目标业务文本集示例尽可能准确、完整地输出敏感文本大数据示例的文本内容,然后利用OCR敏感文本优化算法提取每组目标业务文本集示例的敏感文本词向量,并将各敏感文本词向量进行拼接,得到的联动敏感文本词向量则对应携带了敏感文本大数据示例中更为精准且更为全面的敏感资源文本,从而使得能够基于该联动敏感文本词向量准确实现敏感文本大数据示例中的敏感资源文本脱敏,得到更稳定的脱敏预测文本,然后基于脱敏预测文本与原始业务文本大数据示例的比较结果来对OCR敏感文本优化算法进行调试,使得调试得到的OCR敏感文本优化算法具有高准确性的文本脱敏效果。然后,基于该OCR敏感文本优化算法对拟优化业务文本大数据进行敏感文本脱敏,能够得到稳定的已脱敏业务文本大数据。
基于上述相同或相似的发明构思,请结合参阅图2,还提供了一种应用于OCR的文本识别方法的应用环境的架构示意图,包括互相之间通信的文本识别AI系统10和业务用户设备20,文本识别AI系统10和业务用户设备20在运行时实现或者部分实现上述方法实施例所描述的技术方案。
进一步地,还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种应用于OCR的文本识别方法,其特征在于,应用于文本识别AI系统,所述方法包括:
对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集;
通过OCR敏感文本优化算法的第一词向量挖掘网络,对所述拟优化业务文本大数据进行词向量挖掘,得到所述拟优化业务文本大数据的业务文本词向量;
基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量;
基于所述OCR敏感文本优化算法的词向量处理网络,对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量;
基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量及所述业务文本词向量,对所述拟优化业务文本大数据进行敏感文本脱敏,得到对应的已脱敏业务文本大数据。
2.根据权利要求1所述的方法,其特征在于,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:
对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;
将所述第一阶段化文本数据库中每阶的文本集作为所述目标业务文本集。
3.根据权利要求1所述的方法,其特征在于,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:
对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;
结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;
分别将所述第一阶段化文本数据库中各阶的文本集与所述第二阶段化文本数据库中对应阶的文本集进行匹配,得到至少两个文本匹配集;
将所述至少两个文本匹配集作为所述目标业务文本集。
4.根据权利要求1所述的方法,其特征在于,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:
对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;
结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;
分别对所述第一阶段化文本数据库中各阶的文本集进行语句提炼操作,得到对应的目标文本集;
分别将所述第一阶段化文本数据库中各阶的文本集、所述第二阶段化文本数据库中对应阶的文本集、以及与所述第二阶段化文本数据库中对应阶的文本集的规模相同的目标文本集进行匹配,得到至少两个文本匹配集;
将所述至少两个文本匹配集作为所述目标业务文本集。
5.根据权利要求1所述的方法,其特征在于,所述第二词向量挖掘网络包括X个局部词向量挖掘网络,所述目标业务文本集的数目为X,所述X为大于等于2的正整数;
所述基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量,包括:将每个所述目标业务文本集加载到一个所述局部词向量挖掘网络,基于所述局部词向量挖掘网络对所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量。
6.根据权利要求1所述的方法,其特征在于,所述敏感文本词向量包括规模向量和关注向量,所述对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量,包括:
分别对各所述目标业务文本集的敏感文本词向量进行规模调整,得到对应各所述敏感文本词向量的目标敏感文本词向量;其中,各所述目标敏感文本词向量的规模向量相同;
对各所述目标敏感文本词向量的关注向量进行加权操作,得到联动关注向量;
将所述目标敏感文本词向量的规模向量与所述联动关注向量进行向量整合,得到所述联动敏感文本词向量。
7.根据权利要求1所述的方法,其特征在于,当所述目标业务文本集的数目为u时,所述敏感文本词向量的数目为u,所述对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量,包括:
将u个所述敏感文本词向量中第v个敏感文本词向量与第v+1个敏感文本词向量进行拼接,得到第v联动敏感文本词向量;其中,u为大于等于3的正整数,v为正整数,且v大于等于1且小于等于u-1;
将所述第v联动敏感文本词向量与第v+2个敏感文本词向量进行拼接,得到第v+1联动敏感文本词向量;
以v=1为起始条件,启动对v的遍历处理,并当所述v+2的值与所述u的值一致时,将所述第v+1联动敏感文本词向量作为所述联动敏感文本词向量。
8.根据权利要求1所述的方法,其特征在于,所述基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量及所述业务文本词向量,对所述拟优化业务文本大数据进行敏感文本脱敏,得到对应的已脱敏业务文本大数据,包括:
基于所述OCR敏感文本优化算法的敏感文本脱敏网络,确定所述业务文本词向量与所述联动敏感文本词向量之间的文本比较词向量;
基于所述OCR敏感文本优化算法的敏感文本脱敏网络,对所述文本比较词向量进行文本翻译,得到所述已脱敏业务文本大数据。
9.根据权利要求1所述的方法,其特征在于,所述通过OCR敏感文本优化算法的第一词向量挖掘网络,对所述拟优化业务文本大数据进行词向量挖掘之前,还包括:
对包含敏感资源文本的敏感文本大数据示例进行文本集整理,得到至少两组目标业务文本集示例;其中,所述敏感文本大数据示例为对原始业务文本大数据示例注入敏感资源文本得到;
基于所述OCR敏感文本优化算法的第一词向量挖掘网络,对所述敏感文本大数据示例进行词向量挖掘,得到所述敏感文本大数据示例的业务文本词向量示例;
基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集示例进行敏感词向量挖掘,得到对应的敏感文本词向量示例;
基于所述OCR敏感文本优化算法的词向量处理网络,对各所述目标业务文本集示例对应的敏感文本词向量示例进行加权操作,得到联动敏感文本词向量示例;
基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量示例及所述业务文本词向量示例,对所述敏感文本大数据示例进行敏感文本脱敏,得到对应的已脱敏业务文本回归信息;
基于所述已脱敏业务文本回归信息与所述原始业务文本大数据示例的比较结果,调整所述OCR敏感文本优化算法的算法变量;
其中,所述原始业务文本大数据示例对应有至少两组敏感文本大数据示例,各所述敏感文本大数据示例皆为对所述原始业务文本大数据示例注入敏感资源文本得到,所述方法还包括:分别针对各所述敏感文本大数据示例,执行所述对包含敏感资源文本的敏感文本大数据示例进行文本集整理、至所述对所述敏感文本大数据示例进行敏感文本脱敏的处理,得到各所述敏感文本大数据示例对应的已脱敏业务文本回归信息;所述基于所述已脱敏业务文本回归信息与所述原始业务文本大数据示例的比较结果,调整所述OCR敏感文本优化算法的算法变量,包括:基于各所述已脱敏业务文本回归信息与所述原始业务文本大数据示例的比较结果,调整所述OCR敏感文本优化算法的算法变量;
其中,所述敏感资源文本包括用户个人信息和办公内部资料中的至少一种;所述对包含敏感资源文本的敏感文本大数据示例进行文本集整理之前,所述方法还包括如下其中一项:对所述原始业务文本大数据示例注入用户个人信息,得到携带用户个人信息的第一训练文本,将所述第一训练文本作为所述敏感文本大数据示例;对所述原始业务文本大数据示例添加办公内部资料,得到携带办公内部资料的第二训练文本,将所述第二训练文本作为所述敏感文本大数据示例;对所述原始业务文本大数据示例注入用户个人信息和办公内部资料,得到同时携带用户个人信息和办公内部资料的第三训练文本,将所述第三训练文本作为所述敏感文本大数据示例。
10.一种文本识别AI系统,其特征在于,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现权利要求1-9任一项所述的方法。
CN202310042728.XA 2023-01-28 2023-01-28 应用于ocr的文本识别方法及ai系统 Active CN115828307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310042728.XA CN115828307B (zh) 2023-01-28 2023-01-28 应用于ocr的文本识别方法及ai系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310042728.XA CN115828307B (zh) 2023-01-28 2023-01-28 应用于ocr的文本识别方法及ai系统

Publications (2)

Publication Number Publication Date
CN115828307A CN115828307A (zh) 2023-03-21
CN115828307B true CN115828307B (zh) 2023-05-23

Family

ID=85520615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310042728.XA Active CN115828307B (zh) 2023-01-28 2023-01-28 应用于ocr的文本识别方法及ai系统

Country Status (1)

Country Link
CN (1) CN115828307B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304111B (zh) * 2023-04-10 2024-02-20 深圳市兴海物联科技有限公司 基于可视化业务数据的ai调用优化处理方法及服务器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380566A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 用于对文档图像进行脱敏的方法、装置、电子设备及介质
CN112926471A (zh) * 2021-03-05 2021-06-08 中国工商银行股份有限公司 业务单据影像内容识别方法及装置
WO2021212968A1 (zh) * 2020-04-24 2021-10-28 华为技术有限公司 一种非结构化数据的处理方法、装置、设备及介质
EP3920093A1 (en) * 2020-06-03 2021-12-08 Netskope, Inc. Detecting image-borne identification documents for protecting sensitive information
CN114298035A (zh) * 2021-12-29 2022-04-08 电子科技大学广东电子信息工程研究院 一种文本识别脱敏方法及其系统
CN114548107A (zh) * 2022-02-23 2022-05-27 上海众至科技有限公司 基于albert模型的敏感信息识别方法、装置、设备和介质
CN115544240A (zh) * 2022-11-24 2022-12-30 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212968A1 (zh) * 2020-04-24 2021-10-28 华为技术有限公司 一种非结构化数据的处理方法、装置、设备及介质
EP3920093A1 (en) * 2020-06-03 2021-12-08 Netskope, Inc. Detecting image-borne identification documents for protecting sensitive information
CN112380566A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 用于对文档图像进行脱敏的方法、装置、电子设备及介质
CN112926471A (zh) * 2021-03-05 2021-06-08 中国工商银行股份有限公司 业务单据影像内容识别方法及装置
CN114298035A (zh) * 2021-12-29 2022-04-08 电子科技大学广东电子信息工程研究院 一种文本识别脱敏方法及其系统
CN114548107A (zh) * 2022-02-23 2022-05-27 上海众至科技有限公司 基于albert模型的敏感信息识别方法、装置、设备和介质
CN115544240A (zh) * 2022-11-24 2022-12-30 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于Word2vec的敏感内容识别技术;金贵涛 等;通信技术;第52卷(第11期);第2750-2756页 *
基于卷积神经网络的敏感文件检测方法;林学峰 等;计算机与现代化(第07期);第28-32页 *

Also Published As

Publication number Publication date
CN115828307A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
US11609748B2 (en) Semantic code search based on augmented programming language corpus
CN111124487B (zh) 代码克隆检测方法、装置以及电子设备
CN108287816B (zh) 兴趣点在线检测、机器学习分类器训练方法和装置
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
CN115828307B (zh) 应用于ocr的文本识别方法及ai系统
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN114691525A (zh) 测试用例的选择方法及装置
CN112783825A (zh) 数据归档方法、装置、计算机装置及存储介质
CN114416926A (zh) 关键词匹配方法、装置、计算设备及计算机可读存储介质
CN117668180A (zh) 文档问答方法、文档问答设备以及可读存储介质
Fischbach et al. Cira: A tool for the automatic detection of causal relationships in requirements artifacts
CN110851709B (zh) 资讯推送方法、装置、计算机设备和存储介质
CN117667979A (zh) 基于大语言模型的数据挖掘方法、装置、设备及介质
CN110019295B (zh) 数据库检索方法、装置、系统以及存储介质
CN111177388A (zh) 一种处理方法及计算机设备
CN114492584A (zh) 一种针对安卓中文应用市场的自动内容分级方法
CN114036297A (zh) 一种语句分类方法、装置、终端设备和存储介质
CN117556263B (zh) 样本构建方法、代码生成方法、电子设备及存储介质
CN115269851B (zh) 文章分类方法、装置、电子设备、存储介质及程序产品
CN116881571B (zh) 基于微服务的数据挖掘方法及系统
CN114239590B (zh) 一种数据处理方法及装置
CN116506398B (zh) 一种船舶邮件解析方法、装置、电子设备及存储介质
CN117077678B (zh) 一种敏感词识别方法、装置、设备及介质
US20240161528A1 (en) Entity extraction via document image processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant