CN116563860A

CN116563860A - 基于人工智能的数据脱敏方法、装置、计算机设备及介质

Info

Publication number: CN116563860A
Application number: CN202310445560.7A
Authority: CN
Inventors: 李林键; 欧阳燕绚; 肖京; 蔡毅; 王建明; 易艳
Original assignee: South China University of Technology SCUT; Ping An Technology Shenzhen Co Ltd
Current assignee: South China University of Technology SCUT; Ping An Technology Shenzhen Co Ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-08-08

Abstract

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的数据脱敏方法、装置、计算机设备及介质。该方法将待脱敏图像输入字符识别模型，得到识别字符和图像位置，将识别字符和根据图像位置确定的关联字符集合，输入第一分类模型，得到第一概率向量，将待脱敏文本输入第二分类模型，得到第二概率向量，根据第一概率向量更新第二概率向量，将满足条件的第二概率向量对应的文本字符为敏感字符，根据敏感字符进行脱敏处理，将识别字符与关联字符联合输入分类模型，能够保留图像的空域特征，提高识别字符分类的准确率，将第一概率向量和第二概率向量加权相加，结合多模态信息提高敏感字符识别的准确率，从而提高多模态数据进行脱敏处理的准确率。

Description

基于人工智能的数据脱敏方法、装置、计算机设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的数据脱敏方法、装置、计算机设备及介质。

背景技术

随着人工智能技术的发展，数据脱敏处理的对象逐渐由结构化数据转变为非结构化数据，结构化数据需要知晓待脱敏部分在数据内的位置，从而进行脱敏处理，应用场景及其有限，因此，现有方法通常采用深度学习模型对非结构化数据中每个字符是否属于敏感部分进行识别，再根据识别结果确定待脱敏部分。

由于数据脱敏处理的应用场景广泛，存在需要对多模态数据进行脱敏处理的情况，此时，仅依靠深度学习模型分别对应多模态数据进行敏感识别，会出现不同模态下数据的识别结果存在冲突的情况，进而导致部分敏感数据在不同模态下脱敏处理方式不同，造成了敏感数据的泄露，因此，如何提高多模态数据进行脱敏处理的准确率成为亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种基于人工智能的数据脱敏方法、装置、计算机设备及介质，以解决多模态数据进行脱敏处理的准确率较低的问题。

第一方面，本发明实施例提供一种基于人工智能的数据脱敏方法，所述数据脱敏方法包括：

将获取的待脱敏图像输入训练好的字符识别模型，得到至少两个识别字符和对应识别字符的图像位置；

针对任一识别字符，根据所述识别字符对应的图像位置，从除所述识别字符外的其他识别字符中，确定与所述识别字符最接近的前N个识别字符组成所述识别字符的关联字符集合，N为大于零的整数；

将所述识别字符、所述关联字符集合输入训练好的第一分类模型，得到所述识别字符的第一概率向量；

将获取的待脱敏文本输入训练好的第二分类模型，得到所述待脱敏文本中的每个文本字符对应的第二概率向量，所述待脱敏文本包含至少两个文本字符；

在检测到一文本字符与所述识别字符一致时，将所述第一概率向量和所述文本字符的第二概率向量加权相加，以相加结果更新所述文本字符的第二概率向量；

在检测到所述文本字符的第二概率向量中的最大值大于预设判断阈值时，确定所述文本字符为敏感字符，在所述待脱敏文本进行脱敏处理，并在所述待脱敏图像中对所述敏感字符对应的图像区域进行脱敏处理，得到脱敏数据。

第二方面，本发明实施例提供一种基于人工智能的数据脱敏装置，所述数据脱敏装置包括：

字符识别模块，用于将获取的待脱敏图像输入训练好的字符识别模型，得到至少两个识别字符和对应识别字符的图像位置；

字符关联模块，用于针对任一识别字符，根据所述识别字符对应的图像位置，从除所述识别字符外的其他识别字符中，确定与所述识别字符最接近的前N个识别字符组成所述识别字符的关联字符集合，N为大于零的整数；

第一分类模块，用于将所述识别字符、所述关联字符集合输入训练好的第一分类模型，得到所述识别字符的第一概率向量；

第二分类模块，用于将获取的待脱敏文本输入训练好的第二分类模型，得到所述待脱敏文本中的每个文本字符对应的第二概率向量，所述待脱敏文本包含至少两个文本字符；

加权更新模块，用于在检测到一文本字符与所述识别字符一致时，将所述第一概率向量和所述文本字符的第二概率向量加权相加，以相加结果更新所述文本字符的第二概率向量；

脱敏处理模块，用于在检测到所述文本字符的第二概率向量中的最大值大于预设判断阈值时，确定所述文本字符为敏感字符，在所述待脱敏文本进行脱敏处理，并在所述待脱敏图像中对所述敏感字符对应的图像区域进行脱敏处理，得到脱敏数据。

第三方面，本发明实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的数据脱敏方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的数据脱敏方法。

本发明实施例与现有技术相比存在的有益效果是：

将获取的待脱敏图像输入训练好的字符识别模型，得到至少两个识别字符和对应识别字符的图像位置，针对任一识别字符，根据识别字符对应的图像位置，从除识别字符外的其他识别字符中，确定与识别字符最接近的前N个识别字符组成识别字符的关联字符集合，将识别字符、关联字符集合输入训练好的第一分类模型，得到识别字符的第一概率向量，将获取的待脱敏文本输入训练好的第二分类模型，得到待脱敏文本中的每个文本字符对应的第二概率向量，在检测到一文本字符与识别字符一致时，将第一概率向量和文本字符的第二概率向量加权相加，以相加结果更新文本字符的第二概率向量，在检测到文本字符的第二概率向量中的最大值大于预设判断阈值时，确定文本字符为敏感字符，在待脱敏文本进行脱敏处理，并在待脱敏图像中对敏感字符对应的图像区域进行脱敏处理，得到脱敏数据，将图像中的识别字符与对应的关联字符联合作为分类模型的输入，能够保留图像的空域特征，提高识别字符分类的准确率，再将识别字符的第一概率向量与文本字符的第二概率向量加权相加，结合多模态信息修正文本字符的分类结果，提高了文本字符分类的准确率，从而更精准地识别出敏感字符，提高多模态数据进行脱敏处理的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种基于人工智能的数据脱敏方法的一应用环境示意图；

图2是本发明实施例一提供的一种基于人工智能的数据脱敏方法的流程示意图；

图3是本发明实施例二提供的一种基于人工智能的数据脱敏方法的流程示意图；

图4是本发明实施例三提供的一种基于人工智能的数据脱敏装置的结构示意图；

图5是本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本发明说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

应理解，以下实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

为了说明本发明的技术方案，下面通过具体实施例来进行说明。

本发明实施例一提供的一种基于人工智能的数据脱敏方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、云端终端设备、个人数字助理(personal digital assistant，PDA)等计算机设备。服务端可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参见图2，是本发明实施例一提供的一种基于人工智能的数据脱敏方法的流程示意图，上述数据脱敏方法可以应用于图1中的客户端，客户端对应的计算机设备连接服务端，以获取服务端接收的待脱敏图像和待脱敏文本，客户端对应的计算机设备部署有训练好的字符识别模型、训练好的第一分类模型和训练好的第二分类模型，训练好的字符识别模型可以用于对待脱敏图像进行字符识别，得到识别字符，训练好的第一分类模型可以用于对识别字符进行敏感类别分类，训练好的第二分类模型可以用于对待脱敏文本中的文本字符进行敏感类别分类等。如图2所示，该数据脱敏方法可以包括以下步骤：

步骤S201，将获取的待脱敏图像输入训练好的字符识别模型，得到至少两个识别字符和对应识别字符的图像位置。

其中，待脱敏图像可以是指需要进行脱敏处理的图像数据，训练好的字符识别模型可以是指光学字符识别模型(Optical Character Recognition，OCR)，识别字符可以是指从待脱敏图像中识别出的字符信息，图像位置可以是指识别字符在待脱敏图像中所处位置的坐标。

具体地，训练好的字符识别模型输出识别字符的分类结果和识别字符的包围框，识别字符的包围框表示形式为坐标对，坐标对包括包围框左上角点坐标和包围框右下角点坐标，根据包围框左上角点坐标和包围框右下角点坐标，可以计算得到包围框中心点坐标，以包围框中心点坐标作为识别字符的图像位置。

可选的是，在得到至少两个识别字符和对应识别字符的图像位置之后，还包括：

将每个识别字符分别输入训练好的第一分类模型，得到对应识别字符的初始概率向量；

针对任一初始概率向量，在检测到初始概率向量中的最大概率大于预设概率阈值时，确定初始概率向量对应的识别字符为参考类型；

相应地，针对任一识别字符，根据图像位置之间的距离，从除识别字符外的其他识别字符中，确定与识别字符最接近的N个识别字符组成识别字符的关联字符集合包括：

针对任一非参考类型的识别字符，根据图像位置之间的距离，从参考类型的识别字符中，确定与识别字符最接近的N个识别字符组成识别字符的关联字符集合。

其中，训练好的第一分类模型可以是用于进行识别字符敏感类别分类的神经网络模型，初始概率向量可以是指识别字符直接输入训练好的第一分类模型得到的向量，预设概率阈值可以用于判断敏感类别分类结果的可信度，参考类型可以是指敏感类别的可信类型。

具体地，在检测到初始概率向量中的最大概率大于预设概率阈值时，说明该识别字符的分类结果仅有一个可能性较大的敏感类别，此时可以将该识别字符作为确定敏感类别的字符，为其他识别字符提供空域信息，预设概率阈值在本实施例中设置为0.8。

本实施例将可信度较高的识别字符作为参考字符，便于后续将字符关联时提供更为准确的空域信息，进而提高所有识别字符敏感类别识别的准确率。

上述将获取的待脱敏图像输入训练好的字符识别模型，得到至少两个识别字符和对应识别字符的图像位置的步骤，对待脱敏图像中的字符信息进行识别和定位，便于后续基于定位信息确定关联字符集合，能够更好地提取待脱敏图像中字符的空域关联。

步骤S202，针对任一识别字符，根据识别字符对应的图像位置，从除识别字符外的其他识别字符中，确定与识别字符最接近的前N个识别字符组成识别字符的关联字符集合。

其中，N为大于零的整数，关联字符集合包括N个关联字符，计算确定的识别字符的图像位置与其他各个识别字符的图像位置之间的图像距离，计算方式可以是指欧式距离，确定所计算得到的距离最小的前N个识别字符组成关联字符集合。

上述针对任一识别字符，根据识别字符对应的图像位置，从除识别字符外的其他识别字符中，确定与识别字符最接近的前N个识别字符组成识别字符的关联字符集合的步骤，确定空域上接近的关联字符，后续与关联字符联合输入分类模型中，增加输入信息，提高识别字符敏感类别的分类准确率。

步骤S203，将识别字符、关联字符集合输入训练好的第一分类模型，得到识别字符的第一概率向量。

其中，关联字符集合包括N个关联字符，第一概率向量可以是指识别字符和N个关联字符输入训练好的第一分类模型得到的向量。识别字符和N个关联字符可以采用联结的方式拼接后，将拼接后的结果输入训练好的第一分类模型。

在一实施方式中，训练好的第一分类模型可以包括编码器和全连接层，将识别字符和N个关联字符分别输入编码器中提取特征，再将对应识别字符的特征和N个对应关联字符的特征联结，将联结后的特征输入全连接层。

可选的是，将识别字符、关联字符集合输入训练好的第一分类模型包括：

将识别字符和识别字符的图像位置拼接为识别字符向量，将关联字符集合中的任一关联字符和对应关联字符的图像位置拼接为关联字符的关联字符向量；

将关联字符向量输入训练好的第一分类模型，得到关联字符向量的关联概率向量，确定关联概率向量中的最大元素值对应的预设敏感类别为参考类别；

将参考类别拼接至关联字符向量末尾，得到更新后的关联字符向量；

将识别字符向量和每个关联字符对应的更新后的关联字符向量输入训练好的第一分类模型。

其中，识别字符向量可以表示识别字符的信息，关联字符向量可以表示关联字符的信息，更新后的关联字符向量还包括参考信息，参考信息可以是指关联字符的分类结果信息。

本实施例以向量形式表征识别字符信息和关联字符信息，并将参考类别更新至关联字符向量中，有利于模型进行推理计算，并学习到空域关联信息，进而提高数据脱敏的效率和准确率。

上述将识别字符、关联字符集合输入训练好的第一分类模型，得到识别字符的第一概率向量的步骤，将关联字符与识别字符融合输入分类模型中，从空域信息上提高了输入信息的有效性，进而提高了识别字符敏感类别的分类准确率。

步骤S204，将获取的待脱敏文本输入训练好的第二分类模型，得到待脱敏文本中的每个文本字符对应的第二概率向量。

其中，待脱敏文本包含至少两个文本字符，第二概率向量可以是指文本字符属于各个预设敏感类别的概率组成的向量。

可选的是，将获取的待脱敏文本输入训练好的第二分类模型，得到待脱敏文本中的每个文本字符对应的第二概率向量包括：

针对任一文本字符，根据文本中的字符顺序确定文本字符的左邻接字符和右邻接字符；

将左邻接字符输入训练好的第二分类模型，得到左字符概率向量，将左字符概率向量和文本字符输入训练好的第二分类模型，得到正向概率向量；

将右邻接字符输入训练好的第二分类模型，得到右字符概率向量，将右字符概率向量和文本字符输入训练好的第二分类模型，得到逆向概率向量；

将正向概率向量和逆向概率向量相加并归一化，确定归一化后的结果为第二概率向量。

其中，文本字符通常按照固定的文本顺序排列，例如在本实施例中为从左到右的顺序，则根据文本中的字符顺序可以确定文本字符的左邻接字符和右邻接字符。

训练好的第二分类模型可以是指长短时记忆网络模型，正向概率向量可以是指结合了左邻接字符分类信息后文本字符的分类结果，逆向概率向量可以是指结合了右邻接字符分类信息后文本字符的分类结果。

本实施例通过双向长短时记忆网络模型进行双向分类预测，能够融合更多有效特征，进而提高文本字符的敏感类别分类的准确率。

上述将获取的待脱敏文本输入训练好的第二分类模型，得到待脱敏文本中的每个文本字符对应的第二概率向量的步骤，可以获取文本字符的分类结果，便于后续与识别字符的分类结果融合，以提高敏感类别识别的准确率。

步骤S205，在检测到一文本字符与识别字符一致时，将第一概率向量和文本字符的第二概率向量加权相加，以相加结果更新文本字符的第二概率向量。

其中，一文本字符与识别字符一致可以是指文本字符与识别字符为同一字符，第一概率向量和文本字符的第二概率向量的元素个数一致，加权相加时对应元素加权相加。

上述在检测到一文本字符与识别字符一致时，将第一概率向量和文本字符的第二概率向量加权相加，以相加结果更新文本字符的第二概率向量的步骤，对图像字符和文本字符的分类结果进行融合，从而得到多模态信息，便于后续进行敏感字符判断。

步骤S206，在检测到文本字符的第二概率向量中的最大值大于预设判断阈值时，确定文本字符为敏感字符，在待脱敏文本进行脱敏处理，并在待脱敏图像中对敏感字符对应的图像区域进行脱敏处理，得到脱敏数据。

其中，棉感字符可以是指涉及敏感信息的字符，在待脱敏文本中的脱敏处理方式可以灵活设置，如删除、替换、打乱顺序等，在待脱敏图像中对敏感字符对应的图像区域进行脱敏处理的方式也可以灵活设置，例如模糊、旋转、图像哈希等。

可选的是，在检测到文本字符的第二概率向量中的最大值大于判断阈值时，确定文本字符为敏感字符，在待脱敏文本中对敏感字符进行脱敏处理，并在待脱敏图像中对敏感字符对应的图像区域进行脱敏处理，得到脱敏数据包括：

在确定第二概率向量对应的文本字符为敏感字符时，确定第二概率向量中的最大值对应的预设类别为敏感类别；

根据预设的映射表确定敏感类别的脱敏处理方式，在待脱敏文本中对敏感字符按照脱敏处理方式进行脱敏处理，并在待脱敏图像中对敏感字符对应的图像区域按照预设的图像模糊方式进行脱敏处理，得到脱敏数据。

其中，映射表可以包括敏感类别和脱敏处理方式的对应关系，针对不同敏感类别，有对应的脱敏处理方式，例如，当敏感类别为号码类别时，可以采用打乱顺序进行脱敏处理，而敏感类别为地址类别时，可以采用替换进行脱敏处理。图像模糊可以采用高斯核对图像区域卷积，需要说明的是，高斯核与图像区域的尺寸一致。

可选的是，在得到脱敏数据之后，还包括：

将脱敏数据中的脱敏文本输入训练好的第二分类模型，得到脱敏文本中的每个文本字符对应的脱敏概率向量；

根据脱敏概率向量中的最大概率确定对应文本字符的预设类别，在检测到任一文本字符的预设类别为敏感类别时，按照预设步长调整判断阈值，并返回执行在检测到文本字符的第二概率向量中的最大值大于判断阈值时，确定第二概率向量对应的文本字符为敏感字符的步骤。

其中，预设步长可以为0.05，调整判断阈值的方式可以是相加，将脱敏文本再次进行识别，以确保不存在敏感信息未被脱敏的情况。

本实施例通过迭代方式对脱敏数据进行再识别，确保了脱敏处理的有效性，在不满足条件时，更新判断阈值再次进行敏感字符识别和脱敏处理，进一步提高了脱敏处理的准确率。

上述在检测到文本字符的第二概率向量中的最大值大于预设判断阈值时，确定文本字符为敏感字符，在待脱敏文本进行脱敏处理，并在待脱敏图像中对敏感字符对应的图像区域进行脱敏处理，得到脱敏数据的步骤，结合多模态信息修正文本字符的分类结果，提高了文本字符分类的准确率。

本实施例将图像中的识别字符与对应的关联字符联合作为分类模型的输入，能够保留图像的空域特征，提高识别字符分类的准确率，再将识别字符的第一概率向量与文本字符的第二概率向量加权相加，结合多模态信息修正文本字符的分类结果，提高了文本字符分类的准确率，从而更精准地识别出敏感字符，提高多模态数据进行脱敏处理的准确率。

参见图3，是本发明实施例二提供的一种基于人工智能的数据脱敏方法的流程示意图，该数据脱敏方法中，将第一概率向量和文本字符的第二概率向量加权相加时，可以采用预设的权值进行加权相加，也可以根据第一概率向量确定权值再进行加权相加。

采用预设的权值进行加权相加时的步骤，参见实施例一，在此不再赘述。

根据第一概率向量确定权值再进行加权相加时的过程包括：

步骤S301，采用预设的映射函数，将第一概率向量中的最大概率映射为第一权值；

步骤S302，将预设值与第一权值相减，将相减结果确定为第二权值；

步骤S303，将第一权值与第一概率向量的乘积和第二权值与第二概率向量的乘积相加，以相加结果更新文本字符的第二概率向量。

其中，映射函数用于表征第一概率向量中的最大概率与第一权值的映射关系，第一权值可以是指第一概率向量进行加权相加时的权重，第二权值可以是指第二概率向量进行加权相加时的权重。

具体地，映射函数f(p)可以表示为其中，p可以是指第一概率向量中的最大概率，f(p)为映射结果，也即第一权值，由于第一概率向量已经通过归一化指数函数处理，p的取值范围为[0，1]，当p接近于0时，说明在多个对应预设敏感类别的预测值较为接近，此时根据识别字符的分类结果确定敏感类别的准确率较低，因此通过映射函数将第一概率向量中的最大概率映射为一个接近0的第一权值，而当p接近于1时，说明仅有一个对应预设敏感类别的预测值较大，此时根据识别字符的分类结果确定敏感类别的准确率较高，因此通过映射函数将第一概率向量中的最大概率映射为一个接近1的第一权值。

需要说明的是，采用上述映射函数的表示形式是为了平滑权值，实施者也可以选用其他正相关函数作为映射函数，例如采用f(p)＝等。

预设值在本实施例中设置为1，即第一权值与第二权值之和为1，相应地，在第一权值较大时，第二权值较小，在第一权值较小时，第二权值较大，进而根据识别字符分类结果的可信度调整识别字符分类结果对文本字符分类结果的影响程度。

举例说明，设预设敏感类别的数量为C，对于一个字符，该字符作为识别字符时对应C个输出预测值，输出预测值与预设敏感类别一一对应，归一化指数函数可以表示为其中，o_i可以是指第i个输出预测值，由归一化指数函数可见，当C个输出预测值之间越接近，归一化指数函数处理后的最大概率越小，且越接近1/C，而当C个输出预测值之间互相差值越大，归一化指数函数处理后的最大概率越大，且越接近1。

本实施例通过映射函数对第一概率向量中的最大概率进行映射，得到加权时第一概率向量的权重，动态地根据识别字符的分类结果可信度调整识别字符分类结果对文本字符分类结果的影响程度，从而避免因识别字符分类错误导致加权后的分类结果出现较大的误差，进而提高了多模态数据进行脱敏处理的准确率。

对应于上文实施例的基于人工智能的数据脱敏方法，图4示出了本发明实施例三提供的基于人工智能的数据脱敏装置的结构框图，上述数据脱敏装置应用于客户端，客户端对应的计算机设备连接服务端，以获取服务端接收的待脱敏图像和待脱敏文本，客户端对应的计算机设备部署有训练好的字符识别模型、训练好的第一分类模型和训练好的第二分类模型，训练好的字符识别模型可以用于对待脱敏图像进行字符识别，得到识别字符，训练好的第一分类模型可以用于对识别字符进行敏感类别分类，训练好的第二分类模型可以用于对待脱敏文本中的文本字符进行敏感类别分类等。为了便于说明，仅示出了与本发明实施例相关的部分。

参见图4，该数据脱敏装置包括：

字符识别模块41，用于将获取的待脱敏图像输入训练好的字符识别模型，得到至少两个识别字符和对应识别字符的图像位置；

字符关联模块42，用于针对任一识别字符，根据识别字符对应的图像位置，从除识别字符外的其他识别字符中，确定与识别字符最接近的前N个识别字符组成识别字符的关联字符集合，N为大于零的整数；

第一分类模块43，用于将识别字符、关联字符集合输入训练好的第一分类模型，得到识别字符的第一概率向量；

第二分类模块44，用于将获取的待脱敏文本输入训练好的第二分类模型，得到待脱敏文本中的每个文本字符对应的第二概率向量，待脱敏文本包含至少两个文本字符；

加权更新模块45，用于在检测到一文本字符与识别字符一致时，将第一概率向量和文本字符的第二概率向量加权相加，以相加结果更新文本字符的第二概率向量；

脱敏处理模块46，用于在检测到文本字符的第二概率向量中的最大值大于预设判断阈值时，确定文本字符为敏感字符，在待脱敏文本进行脱敏处理，并在待脱敏图像中对敏感字符对应的图像区域进行脱敏处理，得到脱敏数据。

可选的是，上述数据脱敏装置还包括：

初始分类模块，用于将每个识别字符分别输入训练好的第一分类模型，得到对应识别字符的初始概率向量；

类型确定模块，用于针对任一初始概率向量，在检测到初始概率向量中的最大概率大于预设概率阈值时，确定初始概率向量对应的识别字符为参考类型；

相应地，上述字符关联模块42包括：

字符筛选单元，用于针对任一非参考类型的识别字符，根据图像位置之间的距离，从参考类型的识别字符中，确定与识别字符最接近的N个识别字符组成识别字符的关联字符集合。

可选的是，上述第一分类模块43包括：

向量拼接单元，用于将识别字符和识别字符的图像位置拼接为识别字符向量，将关联字符集合中的任一关联字符和对应关联字符的图像位置拼接为关联字符的关联字符向量；

类别参考单元，用于将关联字符向量输入训练好的第一分类模型，得到关联字符向量的关联概率向量，确定关联概率向量中的最大元素值对应的预设敏感类别为参考类别；

向量更新单元，用于将参考类别拼接至关联字符向量末尾，得到更新后的关联字符向量；

联合输入单元，用于将识别字符向量和每个关联字符对应的更新后的关联字符向量输入训练好的第一分类模型。

可选的是，上述第二分类模块44包括：

邻接字符确定单元，用于针对任一文本字符，根据文本中的字符顺序确定文本字符的左邻接字符和右邻接字符；

正向概率获取单元，用于将左邻接字符输入训练好的第二分类模型，得到左字符概率向量，将左字符概率向量和文本字符输入训练好的第二分类模型，得到正向概率向量；

逆向概率获取单元，用于将右邻接字符输入训练好的第二分类模型，得到右字符概率向量，将右字符概率向量和文本字符输入训练好的第二分类模型，得到逆向概率向量；

向量融合单元，用于将正向概率向量和逆向概率向量相加并归一化，确定归一化后的结果为第二概率向量。

可选的是，上述加权更新模块45包括：

权值映射单元，用于采用预设的映射函数，将第一概率向量中的最大概率映射为第一权值，映射函数用于表征第一概率向量中的最大概率与第一权值的映射关系；

权值确定单元，用于将预设值与第一权值相减，将相减结果确定为第二权值；

加权相加单元，用于将第一权值与第一概率向量的乘积和第二权值与第二概率向量的乘积相加，以相加结果更新文本字符的第二概率向量。

可选的是，上述脱敏处理模块46包括：

敏感类别确定单元，用于在确定第二概率向量对应的文本字符为敏感字符时，确定文本字符的第二概率向量中的最大值对应的预设类别为敏感类别；

数据脱敏单元，用于根据预设的映射表确定敏感类别的脱敏处理方式，在待脱敏文本中对敏感字符按照脱敏处理方式进行脱敏处理，并在待脱敏图像中对敏感字符对应的图像区域按照预设的图像模糊方式进行脱敏处理，得到脱敏数据。

可选的是，上述脱敏处理模块46还包括：

迭代识别单元，用于将脱敏数据中的脱敏文本输入训练好的第二分类模型，得到脱敏文本中的每个文本字符对应的脱敏概率向量；

阈值调整单元，用于根据脱敏概率向量中的最大概率确定对应文本字符的预设类别，在检测到任一文本字符的预设类别为敏感类别时，按照预设步长调整判断阈值，并返回执行在检测到文本字符的第二概率向量中的最大值大于判断阈值时，确定第二概率向量对应的文本字符为敏感字符的步骤。

需要说明的是，上述模块、单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图5为本发明实施例四提供的一种计算机设备的结构示意图。如图5所示，该实施例的计算机设备包括：至少一个处理器(图5中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意各个基于人工智能的数据脱敏方法实施例中的步骤。

该计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图5仅仅是计算机设备的举例，并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括网络接口、显示屏和输入装置等。

所称处理器可以是CPU，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器包括可读存储介质、内存储器等，其中，内存储器可以是计算机设备的内存，内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘，在另一些实施例中也可以是计算机设备的外部存储设备，例如，计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

本发明实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现可实现上述方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的数据脱敏方法，其特征在于，所述数据脱敏方法包括：

2.根据权利要求1所述的数据脱敏方法，其特征在于，在所述得到至少两个识别字符和对应识别字符的图像位置之后，还包括：

将每个识别字符分别输入所述训练好的第一分类模型，得到对应识别字符的初始概率向量；

针对任一初始概率向量，在检测到所述初始概率向量中的最大概率大于预设概率阈值时，确定所述初始概率向量对应的识别字符为参考类型；

相应地，所述针对任一识别字符，根据图像位置之间的距离，从除所述识别字符外的其他识别字符中，确定与所述识别字符最接近的N个识别字符组成所述识别字符的关联字符集合包括：

针对任一非参考类型的识别字符，根据图像位置之间的距离，从所述参考类型的识别字符中，确定与所述识别字符最接近的N个识别字符组成所述识别字符的关联字符集合。

3.根据权利要求1所述的数据脱敏方法，其特征在于，所述将所述识别字符、所述关联字符集合输入训练好的第一分类模型包括：

将所述识别字符和所述识别字符的图像位置拼接为识别字符向量，将所述关联字符集合中的任一关联字符和对应关联字符的图像位置拼接为所述关联字符的关联字符向量；

将所述关联字符向量输入所述训练好的第一分类模型，得到所述关联字符向量的关联概率向量，确定所述关联概率向量中的最大元素值对应的预设敏感类别为参考类别；

将所述参考类别拼接至所述关联字符向量末尾，得到更新后的关联字符向量；

将所述识别字符向量和每个关联字符对应的更新后的关联字符向量输入所述训练好的第一分类模型。

4.根据权利要求1所述的数据脱敏方法，其特征在于，所述将获取的待脱敏文本输入训练好的第二分类模型，得到所述待脱敏文本中的每个文本字符对应的第二概率向量包括：

针对任一文本字符，根据文本中的字符顺序确定所述文本字符的左邻接字符和右邻接字符；

将所述左邻接字符输入所述训练好的第二分类模型，得到左字符概率向量，将所述左字符概率向量和所述文本字符输入所述训练好的第二分类模型，得到正向概率向量；

将所述右邻接字符输入所述训练好的第二分类模型，得到右字符概率向量，将所述右字符概率向量和所述文本字符输入所述训练好的第二分类模型，得到逆向概率向量；

将所述正向概率向量和所述逆向概率向量相加并归一化，确定归一化后的结果为所述第二概率向量。

5.根据权利要求1所述的数据脱敏方法，其特征在于，所述将所述第一概率向量和所述文本字符的第二概率向量加权相加，以相加结果更新所述文本字符的第二概率向量包括：

采用预设的映射函数，将所述第一概率向量中的最大概率映射为第一权值，所述映射函数用于表征所述第一概率向量中的最大概率与所述第一权值的映射关系；

将预设值与所述第一权值相减，将相减结果确定为第二权值；

将所述第一权值与所述第一概率向量的乘积和所述第二权值与所述第二概率向量的乘积相加，以相加结果更新所述文本字符的第二概率向量。

6.根据权利要求1至5任一项所述的数据脱敏方法，其特征在于，所述在检测到所述文本字符的第二概率向量中的最大值大于所述判断阈值时，确定所述文本字符为敏感字符，在所述待脱敏文本中对所述敏感字符进行脱敏处理，并在所述待脱敏图像中对所述敏感字符对应的图像区域进行脱敏处理，得到脱敏数据包括：

在确定所述第二概率向量对应的文本字符为敏感字符时，确定所述第二概率向量中的最大值对应的预设类别为敏感类别；

根据预设的映射表确定所述敏感类别的脱敏处理方式，在所述待脱敏文本中对所述敏感字符按照所述脱敏处理方式进行脱敏处理，并在所述待脱敏图像中对所述敏感字符对应的图像区域按照预设的图像模糊方式进行脱敏处理，得到脱敏数据。

7.根据权利要求6所述的数据脱敏方法，其特征在于，在所述得到脱敏数据之后，还包括：

将所述脱敏数据中的脱敏文本输入训练好的第二分类模型，得到所述脱敏文本中的每个文本字符对应的脱敏概率向量；

根据所述脱敏概率向量中的最大概率确定对应文本字符的预设类别，在检测到任一文本字符的预设类别为所述敏感类别时，按照预设步长调整所述判断阈值，并返回执行所述在检测到所述文本字符的第二概率向量中的最大值大于所述判断阈值时，确定所述第二概率向量对应的文本字符为敏感字符的步骤。

8.一种基于人工智能的数据脱敏装置，其特征在于，所述数据脱敏装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的数据脱敏方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据脱敏方法。