CN113762237B

CN113762237B - 文本图像处理方法、装置、设备及存储介质

Info

Publication number: CN113762237B
Application number: CN202110455598.3A
Authority: CN
Inventors: 卢东焕; 何楠君; 马锴; 郑冶枫; 张欣宇; 贾一飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2023-08-18
Anticipated expiration: 2041-04-26
Also published as: CN113762237A

Abstract

本申请公开了一种文本图像处理方法、装置、设备及存储介质，属于人工智能技术领域。本申请实施例通过先确定所述文本图像中的多个候选框，以便获知文本图像中可能包含文本信息的区域，然后基于对候选框对应的图像区域的三分类，来确定候选框内所包括的信息为敏感信息、非敏感信息还是背景，在确定了候选框中包括有敏感信息的场景下，再基于所包括的敏感信息的位置来进行遮挡，从而使得所显示的文本图像中不会显示该敏感信息，由于上述过程无需文本检测和文本识别等过程，因此，在达到了隐私保护的目的情况下，简化了处理过程，提高敏感信息的识别精度。

Description

文本图像处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种文本图像处理方法、装置、设备及存储介质。

背景技术

随着人工智能技术在各个领域的发展，越来越多的信息可以通过图像形式来提供，我们可以将之称为文本图像，例如，在医疗领域，电子病历等文本图像中通常会存在很多病人的一些敏感信息，例如姓名、住院号等，为了在不泄露这些的信息的情况下对文本图像中所显示文本信息进行充分利用，需要在尽量保留其他信息的情况下，对敏感信息进行消除。

目前的文本图像处理，一般是通过OCR(Optical Character Recognition，光学字符识别)技术，识别出文本图像中的所有文字，再通过词典进行关键词匹配，以定位到敏感信息，进而进行处理。而且常用的OCR技术本身包含了文本检测和文本识别两个网络，导致整个处理过程复杂，且精度有限。

发明内容

本申请实施例提供了一种文本图像处理方法、装置、设备及存储介质，能够简化处理过程，提高敏感信息的识别精度。所述技术方案如下：

一方面，提供了一种文本图像处理方法，所述方法包括：

响应于图像获取请求，调用图像分类模型，通过图像分类模型对文本图像进行处理，得到文本图像的图像特征；

通过所述图像分类模型，基于所述图像特征，确定所述文本图像中的多个候选框，所述候选框用于标注所述文本图像中可能包含文本信息的区域；

通过所述图像分类模型，基于所述多个候选框以及所述图像特征，对所述多个候选框对应的图像区域进行分类，得到所述多个候选框的分类结果，所述分类结果包括背景、敏感信息以及非敏感信息；

对所述文本图像中目标候选框的目标子区域进行遮挡显示，所述目标候选框中存在分类结果为敏感信息的子区域，所述目标子区域为分类结果为敏感信息的子区域。

一方面，提供了一种文本图像处理装置，所述装置包括：

特征获取模块，用于响应于图像获取请求，调用图像分类模型，通过图像分类模型对文本图像进行处理，得到文本图像的图像特征；

候选框确定模块，用于通过所述图像分类模型，基于所述图像特征，确定所述文本图像中的多个候选框，所述候选框用于标注所述文本图像中可能包含文本信息的区域；

分类模块，用于通过所述图像分类模型，基于所述多个候选框以及所述图像特征，对所述多个候选框对应的图像区域进行分类，得到所述多个候选框的分类结果，所述分类结果包括背景、敏感信息以及非敏感信息；

遮挡显示模块，用于对所述文本图像中目标候选框的目标子区域进行遮挡显示，所述目标候选框中存在分类结果为敏感信息的子区域，所述目标子区域为分类结果为敏感信息的子区域。

在一些实施例中，该候选框确定模块用于将所述图像特征输入所述图像分类模型，通过所述图像分类模型中的RPN对所述图像特征进行处理，得到所述图像特征的特征图，对所述特征图对应的多个初始候选框进行分类，得到所述多个属于目标类别的候选框，对所述多个属于目标类别的候选框进行调整，得到所述多个候选框。

在一些实施例中，该分类模块用于基于所述多个候选框中任一个候选框，从所述图像特征中确定对应的子图像特征；将所述子图像特征输入图像分类模型中的LSTM网络，通过所述LSTM网络对所述子图像特征进行处理，得到所述候选框中多个子区域对应的分类结果；将所述多个子区域对应的分类结果，作为所述任一个候选框的分类结果。

在一些实施例中，所述图像分类模型基于已标注的样本文本图像训练得到，所述已标注的样本文本图像包括对文字信息的第一标注以及对所述文字信息中敏感信息的第二标注。

在一些实施例中，该遮挡显示模块用于显示服务器发送的目标文本图像，所述目标文本图像为所述服务器对所述文本图像进行遮挡处理后得到，或，在显示所述文本图像时，在所述文本图像中目标候选框的所述目标子区域上，显示目标遮挡图片；或，在所述文本图像中与所述目标候选框中的所述目标子区域进行模糊化处理，显示模糊化处理后的所述文本图像。

在一些实施例中，该装置还包括验证模块，用于响应于对所述目标遮挡图片的点击操作，显示密码输入区域；响应于基于所述密码输入区域输入的密码验证通过，去除所述目标遮挡图片。

在一些实施例中，不同类型的敏感信息对应于不同密码。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现上述文本图像处理方法的各种可选实现方式。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现上述文本图像处理方法的各种可选实现方式。

一个方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得电子设备能够执行上述任一种可能实施方式的文本图像处理方法。

本申请实施例通过先确定所述文本图像中的多个候选框，以便获知文本图像中可能包含文本信息的区域，然后基于对候选框对应的图像区域的三分类，来确定候选框内所包括的信息为敏感信息、非敏感信息还是背景，在确定了候选框中包括有敏感信息的场景下，再基于所包括的敏感信息的位置来进行遮挡，从而使得所显示的文本图像中不会显示该敏感信息，由于上述过程无需文本检测和文本识别等过程，因此，在达到了隐私保护的目的的同时，简化了处理过程，提高敏感信息的识别精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本图像处理方法的实施环境的示意图；

图2是本申请实施例提供的一种文本图像处理方法的流程图；

图3是本申请实施例提供的一种图像分类模型的结构示意图；

图4是本申请实施例提供的一种文本图像处理方法的流程图；

图5是本申请实施例提供的一种文本图像的标注示意图；

图6是本申请实施例提供的LSTM网络结构的示意图；

图7是本申请实施例提供的一种处理后的文本图像示意图；

图8是本申请实施例提供的一种文本图像处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种所述示例的范围的情况下，第一图像能够被称为第二图像，并且类似地，第二图像能够被称为第一图像。第一图像和第二图像都能够是图像，并且在某些情况下，能够是单独且不同的图像。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个数据包是指两个或两个以上的数据包。

应理解，在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样，单数形式“一个(“a”“an”)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。

还应理解，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”，是一种描述关联对象的关联关系，表示能够存在三种关系，例如，A和/或B，能够表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，根据A确定B并不意味着仅仅根据A确定B，还能够根据A和/或其它信息确定B。

还应理解，术语“包括”(也称“inCludes”、“inCluding”、“Comprises”和/或“Comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。本申请实施例不仅涉及计算机视觉技术的应用，还涉及到自然语言处理和机器学习技术。

图1是本申请实施例提供的一种文本图像处理方法的实施环境的示意图。该实施环境包括终端101和服务器102。终端101通过无线网络或有线网络与服务器102相连。

终端101能够是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、智能机器人以及自助打印设备中的至少一种。终端101安装和运行有支持文本图像处理的应用程序，例如，该应用程序是插件型应用、小程序或者其他类型应用。

示例性地，该终端101具有图像显示功能，能够基于用户的请求来进行相应图像的显示。该终端101所显示的图像可以是终端自己处理得到，也可以通过与服务器102进行交互来得到，本申请实施例对此不作限定。

服务器102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102用于为文本图像处理的应用程序提供后台服务。可选地，服务器102承担主要处理工作，终端101承担次要处理工作；或者，服务器102承担次要处理工作，终端101承担主要处理工作；或者，服务器102或终端101分别能够单独承担处理工作。或者，服务器102和终端101两者之间采用分布式计算架构进行协同计算。

可选地，该服务器102是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端能够是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

本领域技术人员能够知晓，上述终端101、服务器102的数量能够更多或更少。比如上述终端101、服务器102能够仅为一个，或者上述终端101、服务器102为几十个或几百个，或者更多数量，本申请实施例对终端或服务器的数量和设备类型不加以限定。

本申请实施例中所涉及到的文本图像处理方法，可以应用于下述场景中：

场景一、医保场景，在医保场景下，对于病历图像、检查申请图像、检测结果图像以及票据图像等，均可以应用该文本图像处理方法，对图像中的敏感信息进行定位，进而基于定位到的敏感信息进行处理，以使其不可见，从而达到脱敏的目的。

场景二、商业保险场景，在商业保险场景下，对于申请保险所需的证明材料图像，例如，病历图像、检查申请图像、检测结果图像以及票据图像等，均可以应用该文本图像处理方法，对图像中的敏感信息进行定位，进而基于定位到的敏感信息进行处理，以使其不可见，从而达到脱敏的目的，使得保险人的信息不会被泄露。

场景三、医院场景，在医院场景下，对于医院中流转的涉及患者个人信息的图像，例如，病历图像、检查申请图像、检测结果图像以及票据图像等，均可以应用该文本图像处理方法，对图像中的敏感信息进行定位，进而基于定位到的敏感信息进行处理，以使其不可见，从而达到脱敏的目的，使得患者的敏感信息不会被泄露。

场景四、医疗小程序与上述医院场景同理，在此不做赘述。

当然，在上述场景之外，该文本图像处理方法还可以应用于其他有文本且有脱敏处理的场景，例如，金融类场景中对文本图像或者票据图像进行脱敏处理。

图2是本申请实施例提供的一种文本图像处理方法的流程图。终端和服务器均可以看做是一种计算机设备，因此，本申请实施例中，以计算机设备为执行主体为例进行说明，参见图2，该方法包括下述步骤。

201、响应于图像获取请求，计算机设备调用图像分类模型，通过图像分类模型对文本图像进行处理，得到文本图像的图像特征。

该文本图像为待显示的图像，该文本图像是指包括文本信息的图像。

202、计算机设备通过该图像分类模型，基于该图像特征，确定该文本图像中的多个候选框，该候选框用于标注该文本图像中可能包含文本信息的区域。

通过确定多个候选框，可以先筛选出文本图像中可能包含文本信息的区域，以减少需要进行分类的区域，达到减少整体计算复杂度的目的。

203、计算机设备通过该图像分类模型，基于该多个候选框以及该图像特征，对该多个候选框对应的图像区域进行分类，得到该多个候选框中至少一个子区域的分类结果，该分类结果包括背景、敏感信息以及非敏感信息。

其中，背景是指不包括文本信息的区域，敏感信息是指某种涉及隐私、机密的信息，例如，姓名、身份证号码、条形码等信息。非敏感信息也即是不是敏感信息的信息。

204、计算机设备对该文本图像中目标候选框的目标子区域进行遮挡显示，该目标候选框中存在分类结果为敏感信息的子区域，该目标子区域为分类结果为敏感信息的子区域。

上述遮挡显示是在文本图像显示时，使得对应区域不可见的一种技术手段，该遮挡处理可以是在文本图像显示之前进行，还可以是在显示过程中进行，且具体遮挡处理和显示可以由终端自行执行，还可以由服务器进行遮挡处理后，由终端执行显示过程，本申请实施例对此不作限定。

本申请实施例通过先确定该文本图像中的多个候选框，以便获知文本图像中可能包含文本信息的区域，然后基于对候选框对应的图像区域的三分类，来确定候选框内所包括的信息为敏感信息、非敏感信息还是背景，在确定了候选框中包括有敏感信息的场景下，再基于所包括的敏感信息的位置来进行遮挡，从而使得所显示的文本图像中不会显示该敏感信息，由于上述过程无需文本检测和文本识别等过程，因此，在达到了隐私保护的目的的同时，简化了处理过程，提高敏感信息的识别精度。

本发明的整体模型结构如图3所示，该图像分类模型包括用于对输入图像进行特征提取的CNN(Convolutional Neural Networks，卷积神经网络)，用于确定候选框位置的RPN(Region Proposal Network，区域生成网络)，以及用于对候选框内各个子区域进行三分类的LSTM(Long Short-Term Memory，长短期记忆网络)，可选地，该图像分类模型还可以包括FC，用以对候选框的位置进行进一步的调整。可选地，该图像分类模型还包括一个池化层(ROI(regions of interest，感兴趣区域)pooling层)和FC(Fully Connected layers，全连接层)，在执行分类任务之前，还可以对候选框进行进一步的调整。基于上述模型结构，该图像分类模型的输入为原始图像，输出有两部分，一是候选框(也即是文本框)的位置，包括候选框的中心点坐标和长宽，以实现对文本的检测功能，其中，敏感信息和非敏感信息都会包含，还可能会包括一部分背景；另一个部分是该候选框内敏感信息的位置，这部分是通过LSTM网络对该候选框内的每个小区域进行分类实现的。下面基于该模型结构对本申请实施例进行说明。图4是本申请实施例提供的一种文本图像处理方法的流程图。参见图4，该方法包括下述步骤。

401、终端向服务器发送图像获取请求，该图像获取请求用于请求对文本图像进行显示。

其中，终端提供图像显示功能。该图像显示功能通过信息查询界面提供，用户可以在信息查询界面中输入查询条件，例如，用户标识、时间段或病历标识等信息，来进行相应查询。

例如，某个用户希望从自助终端上查询到自己的病历信息，则可以在终端所提供的信息查询界面上进行操作，来输入自己的身份信息，终端获取到身份信息后，可基于用户指定的查询项目，来生成相应的图像获取请求，并发送给服务器。需要说明的是，该输入可以是通过扫描身份信息卡、扫描二维码、插入身份信息卡等方式，本申请实施例对此不作限定。

402、响应于该图像获取请求，服务器获取文本图像。

在一些实施例中，服务器响应于图像获取请求中的获取条件，例如，用户标识、时间段、病历标识等信息，从相应的数据库中，获取与获取条件匹配的文本图像。

在一些实施例中，若服务器基于上述获取条件所查询到的信息的文件类型不是文本图像，则服务器对查询到的信息进行图像转换，以得到相应的文本图像，从而保证在后续过程中可以同样进行图像脱敏的处理，避免信息泄露。

403、服务器调用特征提取模型，通过图像分类模型对该文本图像进行处理，得到文本图像的图像特征。

其中，该特征提取网络为CNN模型，用于进行图像的特征提取，该CNN模型为VGG、ResNet、DenseNet系列的任一模型，本申请实施例对此不作限定。

以一个由三个卷积块(convolution block)构成的CNN模型为例，由第一级卷积块对输入的文本图像进行特征提取后，输出第一图像特征，将第一图像特征通过一个最大池化层进行处理(例如，将其长、宽降为原本的1/2)，输出第二图像特征，将第二图像特征输入第二级卷积块进行特征提取，输出第三图像特征，再将第三图像特征通过一个最大池化层进行处理(例如，将其长、宽降为原本的1/2)，输出第四图像特征，再通过第三级卷积块对输入的第四图像特征进行特征提取后，输出图像特征。在上述过程中，每个卷积块所提取的特征的通道数为上一个卷积块的两倍，例如上述三级卷积块所输出的特征的通道数分别为128，256，512。在一些实施例中，上述长宽的降低比例为其他比例，在此不做赘述。通过在每次特征提取后，对提取到的特征进行长宽的降低处理，以便下一卷积块在更大感受野(receptive field)范围内提取特征。

在一些实施例中，卷积块采用4个卷积层叠加的方式，第1、3层卷积核为1×1×1，第2、4层卷积核为3×3×3，均使用ReLU(Rectified Linear Unit)为激活函数。

需要说明的是，该特征提取模型通过反向传播算法与其他模型共同训练得到。

404、服务器通过该图像分类模型，基于该图像特征，确定该文本图像中的多个候选框，该候选框用于标注该文本图像中可能包含文本信息的区域。

在本申请实施例中，将该图像特征输入该图像分类模型，通过该图像分类模型中的RPN网络对该图像特征进行处理，得到该图像特征的特征图，对该特征图对应的多个初始候选框进行分类，得到该多个属于目标类别的候选框，对该多个属于目标类别的候选框进行调整，得到该多个候选框。

下面以一种RPN网络的结构为例，对本申请实施例中确定候选框的过程进行介绍：

该RPN网络包含一个卷积核为3*3的卷积层，以及一个分类网络和一个回归网络，其中，卷积层用于进行图像特征的进一步提取，该分类网络和回归网络本质上都是全连接层，分类网络用来排除掉非文本的候选框，也即是，通过分类来筛选掉不属于目标类别(也即是不包含文本信息)的候选框，回归网络用来调整候选框的坐标。

在RPN网络中，预设有多个大小不同的候选框，这些候选框和要检测的各种目标大小比较接近，例如，本申请实施例涉及到文本图像的检测，因此，检测目标的长宽比会比较大，且多变，因此，在一些实施例中，将初始的候选框的种类确定为48种，其中包括了6种不同的面积(8²，16²，32²，48²，64²，80²)和8种不同的长宽比(2:1,4:1,6:1,8:1,10:1,12:1，14:1,16:1)。假设输出的特征图大小为16×16，那就要设置16×16×48个候选框，RPN网络中的分类网络用于判断哪些候选框是应保留的，也就是用全连接层做了一个二分类。而RPN网络中的回归网络则用于对候选框位置信息和长宽做粗略修正，以使其更加接近实际。

需要说明的是，该图像分类模型基于已标注的样本文本图像训练得到，该已标注的样本文本图像包括对文字信息的第一标注以及对该文字信息中敏感信息的第二标注。例如，参见图5，对整个文本信息区域的标注为第一标注，该第一标注为红色蓝色，对文本信息区域中的敏感信息区域的标注为第二标注，该第二标注为蓝色边框。本申请实施例对两类标注采用何种颜色不做限定，颜色差异能够起到区分作用即可。

上述RPN网络在训练过程中，在对RPN网络进行训练时，所采用的训练图像是人工标注有文本框的图像，每次网络预测得到的候选框对应于真实标签，真实标签是通过将候选框和人工标注进行对比得到的，如果两者的IOU>0.7，则真实标签为1，否则为0。这里IOU定义为：

其中，A为候选框，B为人工标注的文本框。其含义为如果预测得到的候选框和某一个人工标注的文本框有较大重叠，则认为对该候选框的预测是正确的，否则是错误的。

其中，分类网络的损失函数可以是交叉熵损失，如下述公式一所示。而回归网络的损失函数可以是smooth L1函数，如下述公式二所示。

相应地，如果用y_i和p_i分别代表真实标签和预测标签，分类的损失函数L可表示为：

其中，N为总的训练样本数量，i为第i个训练样本，y_i为第i个训练样本的真实标签，p_i为第i个训练样本的预测标签。

如果用t_i＝{t_x,t_y,t_ω,t_h}代表候选框的4个坐标参数，代表对应的真实标签，则：

L_reg＝Smooth_L1(t-t^*)

其中，

x＝t-t^*。

需要说明的是，在上述例子中，设定了48中不同大小的候选框，而在一些实施例中，候选框的形状和大小是无穷无尽的，因此，需要用这方法对其进行调整。

在一些实施例中，在经过RPN网络得到候选框后，将提取到的每个候选框的特征再次分别输入到一个回归网络和一个分类网络中。通过分类网络再次分类以确定哪些是敏感信息，通过回归网络对候选框的坐标进行进一步精修，从而提高候选框的准确度，该回归网络的结构和损失函数可以与RPN中的回归网络相同，该分类网络的分类精度可以高于上述RPN网络中的分类网络。

405、服务器通过该图像分类模型，基于该多个候选框以及该图像特征，对该多个候选框对应的图像区域进行分类，得到该多个候选框中至少一个子区域的分类结果，该分类结果包括背景、敏感信息以及非敏感信息。

在步骤405中，服务器基于该多个候选框中任一个候选框，从该图像特征中确定对应的子图像特征；将该子图像特征输入图像分类模型中的LSTM网络，通过该LSTM网络对该子图像特征进行处理，得到该候选框中多个子区域对应的分类结果。

以一个特征维度为L*(W*C)的候选框为例，其中C代表特征维数，W代表宽度，L代表长度。那每一列W×C的特征都代表了文本框内的一个子区域(理想情况下对应每一个字符)，每个子区域对应于LSTM中的不同时刻。将这个特征矩阵其输入到LSTM网络中，输出为L维向量，向量中的每一维是对一个子区域的分类结果。

例如，LSTM网络的结构可以如图6所示。其中，x_t代表t时刻的输入，在本申请实施例中也就是一个W×C的特征向量，每一个子模块A会接收该时刻的输入x_t，以及上一个时刻输出的中间变量c_t-1，从而利用文本间的前后关系，来提升识别精度。

LSTM的基本公式如下：

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o)

其中，h_t代表t时刻的输出。f、i、o、c都是计算过程的中间量，W、U、b都是可学习的参数。其中，tanh是一种激活函数。σ用于表示Sigmoid神经网络层。

在训练该LSTM网络时，其损失函数可以采用多类交叉熵损失函数：

其中，N为总的训练样本数量，i为第i个训练样本，y_ic为该第i个训练样本的真实标签，p_ic为该第i个训练样本的预测标签，M为3，对应于三种标签，敏感信息、非敏感信息和背景(非文字)。

需要说明的是，本申请实施例所提供的图像分类模型的训练过程中，对样本文本图像的标注，不仅标注出整行文本信息，还标注出了文本信息中敏感信息的位置，这样不仅有利于检测整行连续文本，而且，由于敏感信息前后文本内容对敏感信息的确认有很大帮助，因此，对训练出的图像分类模型的精度有很大提升。对于检测任务(由RPN网络执行)，真实标签为文本框位置，而对于分类任务(由LSTM网络执行)，真实标签为根据标注转化为序列，如“姓名：张三”可转化为“1111122”，其中1代表非敏感信息所对应子区域，2代表敏感信息所对应子区域，另外，由于文本检测得到文本框不一定和真实文本框重合，可能包含了背景区域，因此，以0来表示背景区域。值得注意的是，这里和常规的OCR对每个文字内容进行标注不同，这里的1和2的数目不一定和文字数目相同，而是和文本所占的宽度相同，也就是1和2的数目之比和非敏感信息所对应子区域宽度和敏感信息所对应子区域的宽度相同，通过不同标注的坐标直接计算得到，避免了标注时需要人工输入1和2的工作，减少了标注工作量。也即是，在将样本数据的特征图输入到LSTM网络之前，可以按照标注对特征图进行相应编码。上述训练过程与常规OCR方法相比，更是大大减少了标注工作量(常规OCR标注需要输入文字的具体内容)，而且这样只需要分为三类，避免了OCR中的多分类问题，减少了任务难度，提升了算法精度。

在对图像分类模型进行训练的过程中，本申请实施例采用基于Adam的梯度下降法更新网络的参数，Adam中的betas＝(0.95,0.9995)。例如，可以将初始学习率为0.001，每经过20个epoch(epoch用于指代对全部样本进行一次训练)缩小为五分之一，总共训练100个epoch，每批数据包含5张样本文本图像。

406、服务器对该文本图像中目标候选框的目标子区域进行遮挡处理，将处理后的文本图像发送给终端，该目标候选框中存在分类结果为敏感信息的子区域，该目标子区域为分类结果为敏感信息的子区域。

对于每个候选框来说，均会输出用于表示该候选框内各个子区域的分类结果的向量，可选地，该向量中采用0来表示背景区域，1来表示非敏感信息对应区域，2表示敏感信息对应区域，则以一个候选框的向量为(2，2，2，1，1)为例，也即是说明，该候选框中的前三个字符(又或者是前三个子区域)为敏感信息，需要进行遮挡处理，该遮挡处理可以是在该文本图像中与该坐标的对应子区域上，增加目标遮挡图片，以达到遮挡的效果，该目标遮挡图片可以是具有遮盖效果的图片。

可选地，服务器根据文本图片的底色，确定与该底色颜色相同的目标遮挡图片，例如，该文本图片的底色为白色，则其目标遮挡图片为白色，以达到不突兀的显示效果。当然，该目标遮挡图片的颜色可以为任一种颜色，本申请实施例对此不作限定。

407、响应于接收到处理后的文本图像，该终端显示该处理后的文本图像。

终端可以基于接收到的该处理后的文本图像进行显示，以达到隐私保护的目的。

需要说明的是，上述步骤406和407是由服务器对文本图像进行处理后，由终端直接显示处理后的文本图像的实施过程，而在一些实施例中，上述服务器在确定了目标候选框和各个子区域的分类结果后，将文本图像、该目标候选框和各个子区域的信息发送至终端，由终端基于接收到的信息对文本图像进行遮挡处理，再显示处理后的文本图像。

在一些实施例中，上述遮挡处理通过对图像的对应区域进行模糊化处理时限，该模糊化处理可以是高斯模糊或者虚化处理等，本申请实施例对此不作限定，并且，该基于模糊化处理的显示也可以通过上述服务器和终端共同进行，本申请实施例对此不作限定。

上述申请实施例是以终端和服务器进行交互来完成文本图像处理为例进行说明，在一些实施例中，终端还可以独自完成处理过程，而无需通过服务器来进行。

而为了能够在保证信息隐私不被泄露的情况下，允许一些具有权限的用户对信息进行合理的访问，本申请实施例还提供了基于密码的查看功能，参见下述步骤408和409。

408、终端响应于对该目标遮挡图片的点击操作，显示密码输入区域。

通过添加目标遮挡图片来实现遮挡的场景下，终端还提供有基于密码的查看功能，用户可以通过在终端上对已显示的图像上的目标遮挡图片进行点击，使得终端响应于该点击操作，显示密码输入区域，从而进行密码输入。

409、响应于基于该密码输入区域输入的密码验证通过，终端去除该目标遮挡图片。

该密码验证过程可以是通过终端和服务器交互进行，也可以是终端自行进行。终端响应于所输入的密码验证通过，终端在显示文本图像时，可以去除该目标遮挡图片，以使得原来被遮挡的信息能够显示出来。

在一些实施例中，一张文本图像上所显示的敏感信息可以对应于不同的用户权限，因此，相应地，不同类型的敏感信息对应于不同密码。例如，对于患者姓名这类信息，其密码可以是对应患者的个人密码，而对于医生签名等，可以对应于医生的通用密码等，本申请实施例对此不作限定。

上述实施例中，提供了一种基于faster R-CNN(Region of interest-CNN，基于区域的CNN)端到端的文本图像处理方法，该方法中，训练一个图像分类模型来实现对包含敏感信息的子区域的检测，避免了需要训练多个神经网络以及繁琐的后处理。经过处理的文本图像，可以参见图7，该图7的原文本图像中包括了患者姓名，住院号以及医师姓名和签字，经过处理后的文本图像中，采用白色区域对患者姓名，住院号以及医师姓名和签字分别进行了遮挡，达到了隐私保护的目的。

在一些实施例中，训练过程采用的训练样本还可以包括标注了条形码或者二维码区域的训练样本，从而可以训练出能够识别出条形码以及二维码的图像分类模型，以避免这类敏感信息的泄露。

上述所有可选技术方案，能够采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图8是本申请实施例提供的一种文本图像处理装置的结构示意图，参见图8，该装置包括：

特征获取模块801，用于响应于图像获取请求，调用图像分类模型，通过图像分类模型对文本图像进行处理，得到文本图像的图像特征；

候选框确定模块802，用于通过该图像分类模型，基于该图像特征，确定该文本图像中的多个候选框，该候选框用于标注该文本图像中可能包含文本信息的区域；

分类模块803，用于通过该图像分类模型，基于该多个候选框以及该图像特征，对该多个候选框对应的图像区域进行分类，得到该多个候选框的分类结果，该分类结果包括背景、敏感信息以及非敏感信息；

遮挡显示模块804，用于对该文本图像中目标候选框的目标子区域进行遮挡显示，该目标候选框中存在分类结果为敏感信息的子区域，该目标子区域为分类结果为敏感信息的子区域。

在一些实施例中，该候选框确定模块用于将该图像特征输入该图像分类模型，通过该图像分类模型中的RPN对该图像特征进行处理，得到该图像特征的特征图，对该特征图对应的多个初始候选框进行分类，得到该多个属于目标类别的候选框，对该多个属于目标类别的候选框进行调整，得到该多个候选框。

在一些实施例中，该分类模块用于基于该多个候选框中任一个候选框，从该图像特征中确定对应的子图像特征；将该子图像特征输入图像分类模型中的LSTM网络，通过该LSTM网络对该子图像特征进行处理，得到该候选框中多个子区域对应的分类结果；将该多个子区域对应的分类结果，作为该任一个候选框的分类结果。

在一些实施例中，该图像分类模型基于已标注的样本文本图像训练得到，该已标注的样本文本图像包括对文字信息的第一标注以及对该文字信息中敏感信息的第二标注。

在一些实施例中，该遮挡显示模块用于显示服务器发送的目标文本图像，该目标文本图像为该服务器对该文本图像进行遮挡处理后得到，或，在显示该文本图像时，在该文本图像中目标候选框的该目标子区域上，显示目标遮挡图片；或，在该文本图像中与该目标候选框中的该目标子区域进行模糊化处理，显示模糊化处理后的该文本图像。

在一些实施例中，该装置还包括验证模块，用于响应于对该目标遮挡图片的点击操作，显示密码输入区域；响应于基于该密码输入区域输入的密码验证通过，去除该目标遮挡图片。

在一些实施例中，不同类型的敏感信息对应于不同密码。

需要说明的是：上述实施例提供的文本图像处理装置在文本图像处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将文本图像处理装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本图像处理装置与文本图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备900可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(CentralProcessing Units，CPU)901和一个或一个以上的存储器902，其中，所述存储器902中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器901加载并执行以实现上述各个方法实施例提供的文本图像处理方法。当然，该计算机设备还能够具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该计算机设备还能够包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序由可由处理器执行以完成上述实施例中的文本图像处理方法。例如，计算机可读存储介质能够是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact DiscRead-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得电子设备能够执行上述文本图像处理方法。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应理解，根据A确定B并不意味着仅仅根据A确定B，还能够根据A和/或其它信息确定B。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，该程序能够存储于一种计算机可读存储介质中，上述提到的存储介质能够是只读存储器，磁盘或光盘等。

以上描述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本图像处理方法，其特征在于，所述方法包括：

响应于图像获取请求，调用图像分类模型，通过图像分类模型对文本图像进行处理，得到文本图像的图像特征，所述图像分类模型基于已标注的样本文本图像训练得到，所述已标注的样本文本图像包括对文字信息的第一标注以及对所述文字信息中敏感信息的第二标注，所述第一标注为所述文字信息的边框，所述第二标注为所述敏感信息的边框；

所述图像分类模型包括RPN网络，在经过所述RPN网络得到候选框后，将提取到的每个候选框的特征再次分别输入到一个回归网络和一个分类网络中，通过所述分类网络再次分类以确定敏感信息，通过所述回归网络对所述候选框的坐标进行精修；

基于所述多个候选框中任一个候选框，从所述图像特征中确定对应的子区域特征；

将所述子区域特征输入图像分类模型中的长短期记忆网络，通过所述长短期记忆网络对所述子区域特征进行处理，得到所述候选框中多个子区域对应的分类结果，所述分类结果包括背景、敏感信息以及非敏感信息，所述长短期记忆网络基于标签分别为背景、敏感信息以及非敏感信息的训练样本得到；

2.根据权利要求1所述的方法，其特征在于，所述通过所述图像分类模型，基于所述图像特征，确定所述文本图像中的多个候选框包括：

将所述图像特征输入所述图像分类模型，通过所述图像分类模型中的区域生成网络对所述图像特征进行处理，得到所述图像特征的特征图，对所述特征图对应的多个初始候选框进行分类，得到多个属于目标类别的候选框，对所述多个属于目标类别的候选框进行调整，得到所述多个候选框。

3.根据权利要求1所述的方法，其特征在于，所述对所述文本图像中目标候选框的目标子区域进行遮挡显示，包括：

显示服务器发送的目标文本图像，所述目标文本图像为所述服务器对所述文本图像进行遮挡处理后得到；或，

在显示所述文本图像时，在所述文本图像中目标候选框的所述目标子区域上，显示目标遮挡图片；或，

在所述文本图像中与所述目标候选框中的所述目标子区域进行模糊化处理，显示模糊化处理后的所述文本图像。

4.根据权利要求3所述的方法，其特征在于，所述在显示所述文本图像时，在所述文本图像中目标候选框的所述目标子区域上，显示目标遮挡图片之后，所述方法还包括：

响应于对所述目标遮挡图片的点击操作，显示密码输入区域；

响应于基于所述密码输入区域输入的密码验证通过，去除所述目标遮挡图片。

5.根据权利要求4所述的方法，其特征在于，不同类型的敏感信息对应于不同密码。

6.一种文本图像处理装置，其特征在于，所述装置包括：

特征获取模块，用于响应于图像获取请求，调用图像分类模型，通过图像分类模型对文本图像进行处理，得到文本图像的图像特征，所述图像分类模型基于已标注的样本文本图像训练得到，所述已标注的样本文本图像包括对文字信息的第一标注以及对所述文字信息中敏感信息的第二标注，所述第一标注为所述文字信息的边框，所述第二标注为所述敏感信息的边框；

候选框确定模块，用于通过所述图像分类模型，基于所述图像特征，确定所述文本图像中的多个候选框，所述候选框用于标注所述文本图像中可能包含文本信息的区域；所述图像分类模型包括RPN网络，在经过所述RPN网络得到候选框后，将提取到的每个候选框的特征再次分别输入到一个回归网络和一个分类网络中，通过所述分类网络再次分类以确定敏感信息，通过所述回归网络对所述候选框的坐标进行精修；

分类模块，用于基于所述多个候选框中任一个候选框，从所述图像特征中确定对应的子区域特征；

7.根据权利要求6所述的装置，其特征在于，

所述候选框确定模块，用于将所述图像特征输入所述图像分类模型，通过所述图像分类模型中的区域生成网络对所述图像特征进行处理，得到所述图像特征的特征图，对所述特征图对应的多个初始候选框进行分类，得到多个属于目标类别的候选框，对所述多个属于目标类别的候选框进行调整，得到所述多个候选框。

8.根据权利要求6所述的装置，其特征在于，

所述遮挡显示模块，用于显示服务器发送的目标文本图像，所述目标文本图像为所述服务器对所述文本图像进行遮挡处理后得到，或，在显示所述文本图像时，在所述文本图像中目标候选框的所述目标子区域上，显示目标遮挡图片；或，在所述文本图像中与所述目标候选框中的所述目标子区域进行模糊化处理，显示模糊化处理后的所述文本图像。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括验证模块，用于响应于对所述目标遮挡图片的点击操作，显示密码输入区域；响应于基于所述密码输入区域输入的密码验证通过，去除所述目标遮挡图片。

10.根据权利要求9所述的装置，其特征在于，不同类型的敏感信息对应于不同密码。

11.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求5任一项所述的文本图像处理方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的文本图像处理方法。