CN114840872A

CN114840872A - 秘密文本脱敏方法、装置、计算机设备及可读存储介质

Info

Publication number: CN114840872A
Application number: CN202210364602.XA
Authority: CN
Inventors: 卢鑫凯
Original assignee: Ping An Asset Management Co Ltd
Current assignee: Ping An Asset Management Co Ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-08-02

Abstract

本发明涉及人工智能领域，公开了一种秘密文本脱敏方法、装置、计算机设备及可读存储介质，包括：获取一个秘密文本，调用预置的脱敏模型识别秘密文本中的至少一个敏感信息；识别一个敏感信息中的一个关键字，及识别敏感信息中相应于关键字的一个敏感数据；根据敏感数据的词性类别生成或获取一个脱敏数据，将敏感信息中的敏感数据替换为脱敏数据，使敏感信息转为脱敏信息；将秘密文本中所有敏感信息转为脱敏信息，使秘密文本转为脱敏文本。本发明不仅避免了敏感信息识别效率低下的问题发生，还避免了当前脱敏处理导致的涉及到敏感信息的语句缺乏语法要素，而造成阅读不畅，甚至产生歧义的问题。

Description

秘密文本脱敏方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种秘密文本脱敏方法、装置、计算机设备及可读存储介质。

背景技术

秘密文本是交易双方之间所签订的，记载有商业机密的规范文本，其中涉及到的金额、日期、交易地点等敏感信息一旦外泄，将会对秘密文本当事人的商业安全造成严重的威胁。

然而，根据秘密文本当事人的相关方需求，或根据当前政策法规中关于金融市场公平公开的要求，需要秘密文本所有者及管理者，公开所述秘密文本中不涉及敏感信息的部分。

发明人发现，当前的资管行业通常使用人工对秘密文本中的敏感信息进行遮盖或删除的方式，对所述秘密文本进行脱敏处理，不仅效率低下，而且，由于秘密文本中涉及到敏感信息的语句因缺乏语法要素，导致脱敏处理后的秘密文本阅读不畅，甚至产生歧义。

发明内容

本发明的目的是提供一种秘密文本脱敏方法、装置、计算机设备及可读存储介质，用于解决现有技术存在的使用人工对秘密文本中的敏感信息进行遮盖或删除的方式对所述秘密文本进行脱敏处理，所导致的效率低下，以及脱敏处理后的秘密文本阅读不畅，甚至产生歧义的问题。

为实现上述目的，本发明提供一种秘密文本脱敏方法，包括：

获取一个秘密文本，调用预置的脱敏模型识别所述秘密文本中的至少一个敏感信息；

识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据；

根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据，使所述敏感信息转为脱敏信息；

将所述秘密文本中所有敏感信息转为脱敏信息，使所述秘密文本转为脱敏文本。

上述方案中，所述获取一个秘密文本之前，所述方法还包括：

接收开发端发送的一个属性信息，根据所述属性信息获取多个目标文件，通过所述多个目标文件训练预置的初始网络模型以得到脱敏模型。

上述方案中，所述根据所述属性信息获取多个目标文件，包括：

提取所述属性信息的产品信息，以及具有至少一个关键字的关键集合，从预置的数据库中获取相应于所述产品信息的多个产品文件，将具有所述关键集合中任一关键字的产品文件设为文本文件；其中，所述关键字是由所述开发端定义的，用于敏感信息进行概括的字词；

根据所述文本文件中出现的所述关键集合中关键字的数量，从多个所述文本文件中筛选出多个目标文件。

上述方案中，所述通过所述多个目标文件训练预置的初始网络模型以得到脱敏模型，包括：

将所述多个目标文件划分为训练组和验证组，对所述训练组的目标文件中的敏感信息进行标注，使所述训练组中的目标文件转为训练文件，及对所述验证组的目标文件中的敏感信息进行标注，使所述验证组中的目标文件转为验证文件；

循环通过所述训练组对预置的初始网络模型进行训练，及通过所述验证组对训练后的初始网络模型的敏感信息识别率进行验证，直至所述训练后的初始网络模型的敏感信息识别率达到预置的验证区间为止；将所述训练后的初始网络模型设为脱敏模型。

上述方案中，所述循环通过所述训练组对预置的初始网络模型进行训练，及通过所述验证组对训练后的初始网络模型的敏感信息识别率进行验证，直至所述训练后的初始网络模型的敏感信息识别率达到预置的验证区间为止；将所述训练后的初始网络模型设为脱敏模型，包括：

通过所述训练组中的多个训练文件依次对所述初始网络模型进行第一次训练操作，得到中间网络模型；

通过所述验证组中的多个验证文件依次对所述中间网络模型进行第一次验证操作，以得到具有多个运算结果的运算集合；

计算所述运算集合中一个运算结果中的敏感信息，与相应于所述运算结果的验证文件中标注的敏感信息之间一致的数量，并将所述数量作为相应于所述验证文件的运算值；

将验证组中所有验证文件中标注的敏感信息的数量设为验证总值，对所述运算集合中各验证文件的运算值进行第一次求和运算得到运算总值，将所述运算总值与所述验证总值进行第一次相除运算得到敏感信息识别率；

判断所述敏感信息识别率是否属于预置的验证数值区间内；

若是，则判定所述中间网络模型为成熟网络模型；

若否，则重复执行第i次所述训练操作、第i次所述验证操作、第i次所述求和运算以及第i次所述相除运算，直至所述敏感信息识别率属于所述验证区间内为止，其中，i是初始值为2的正整数。

上述方案中，所述识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据，包括：

通过预置的正则表达式提取所述敏感信息中的关键字，其中，所述正则表达式中具有相应于所述关键字的字词；

对所述敏感信息进行分词，得到具有所述关键字以及至少一个敏感字词，并标注所述关键字以及所述敏感字词的词性得到所述敏感信息的词性信息；

根据所述词性信息识别所述敏感信息中被所述关键字描述的一个敏感字词，并将所述敏感字词作为所述敏感数据。

上述方案中，所述根据所述敏感数据的词性类别生成或获取一个脱敏数据，包括：

获取所述敏感信息的词性信息，提取所述词性信息中相应于所述敏感数据的词性类别；

判断所述词性类别是否包括数词；

若是，则将所述敏感数据中相应于所述数词的敏感字词替换为预置的初始值，以生成所述脱敏数据；

若否，则从所述替换库中获取相应于所述词性类别的脱敏数据；

所述根据所述敏感数据的词性类别生成或获取一个脱敏数据之后，所述方法还包括：

将所述敏感数据上传至区块链中。

为实现上述目的，本发明还提供一种秘密文本脱敏装置，包括：

敏感识别模块，用于获取一个秘密文本，调用预置的脱敏模型识别所述秘密文本中的至少一个敏感信息；

数据识别模块，用于识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据；

脱敏处理模块，用于根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据，使所述敏感信息转为脱敏信息；

文本转换模块，用于将所述秘密文本中所有敏感信息转为脱敏信息，使所述秘密文本转为脱敏文本。

为实现上述目的，本发明还提供一种计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述计算机设备的处理器执行所述计算机程序时实现上述秘密文本脱敏方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，所述可读存储介质存储的所述计算机程序被处理器执行时实现上述秘密文本脱敏方法的步骤。

本发明提供的秘密文本脱敏方法、装置、计算机设备及可读存储介质，通过所述脱敏模型识别所述秘密文本中的敏感信息，实现了快速识别敏感信息的技术效果，不仅避免了当前通过人工标注敏感信息的方式，导致敏感信息识别效率低下的问题发生，还消除了人工标注过程中产生的疏漏，保证了敏感信息识别的全面性。

通过识别所述敏感信息中的一个关键字的方式，锁定敏感信息中的敏感核心数据，其中，所述敏感核心数据表征了敏感信息所传达的语义，通过识别所述敏感信息中相应于所述关键字的一个敏感数据的方式，锁定敏感信息的语义所要传达的具体内容；再通过根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据的方式，保证了秘密文本中涉及到敏感数据的语句的语法要素的完整度，避免了当前脱敏处理导致的涉及到敏感信息的语句缺乏语法要素，而造成阅读不畅，甚至产生歧义的问题。

附图说明

图1为本发明秘密文本脱敏方法实施例一的流程图；

图2为本发明秘密文本脱敏方法实施例二中秘密文本脱敏方法的环境应用示意图；

图3是本发明秘密文本脱敏方法实施例二中秘密文本脱敏方法的具体方法流程图；

图4为本发明秘密文本脱敏装置实施例三的程序模块示意图；

图5为本发明计算机设备实施例四中计算机设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的秘密文本脱敏方法、装置、计算机设备及可读存储介质，适用于人工智能的语义解析技术领域，为提供一种基于敏感识别模块、数据识别模块、脱敏处理模块和文本转换模块的秘密文本脱敏方法。本发明通过获取一个秘密文本，调用预置的脱敏模型识别所述秘密文本中的至少一个敏感信息；识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据；根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据，使所述敏感信息转为脱敏信息；将所述秘密文本中所有敏感信息转为脱敏信息，使所述秘密文本转为脱敏文本。

实施例一：

请参阅图1，本实施例的一种秘密文本脱敏方法，包括：

S103：获取一个秘密文本，调用预置的脱敏模型识别所述秘密文本中的至少一个敏感信息。

S104：识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据。

S105：根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据，使所述敏感信息转为脱敏信息。

S106：将所述秘密文本中所有敏感信息转为脱敏信息，使所述秘密文本转为脱敏文本。

在示例性的实施例中，通过所述脱敏模型识别所述秘密文本中的敏感信息，实现了快速识别敏感信息的技术效果，不仅避免了当前通过人工标注敏感信息的方式，导致敏感信息识别效率低下的问题发生，还消除了人工标注过程中产生的疏漏，保证了敏感信息识别的全面性。

通过识别所述敏感信息中的一个关键字的方式，锁定敏感信息中的敏感核心数据，其中，所述敏感核心数据表征了敏感信息所传达的语义，例如：金额、交易时间，交易地点等；通过识别所述敏感信息中相应于所述关键字的一个敏感数据的方式，锁定敏感信息的语义所要传达的具体内容，例如：金额的具体数值，交易的具体年月日，交易的具体位置等。

通过根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据的方式，保证了秘密文本中涉及到敏感数据的语句的语法要素的完整度，避免了当前脱敏处理导致的涉及到敏感信息的语句缺乏语法要素，而造成阅读不畅，甚至产生歧义的问题。

通过上述方法将所述秘密文本中所有的敏感信息转为脱敏信息，保证了秘密文本脱敏的全面性；通过获取文本请求中的终端标识信息，将所述脱敏文本发送至相应于所述终端标识信息的用户端，避免了将脱敏文本发送至其他不相关的用户端，导致脱敏文本中内容外泄的情况发生，进一步地保证了秘密文本的安全性。

实施例二：

本实施例为上述实施例一的一种具体应用场景，通过本实施例，能够更加清楚、具体地阐述本发明所提供的方法。

下面，以在运行有秘密文本脱敏方法的服务器中，识别秘密文本中的敏感信息并识别敏感信息中的关键字，及识别敏感信息中相应于关键字的敏感数据，将敏感数据替换为脱敏数据使敏感信息转为脱敏信息为例，来对本实施例提供的方法进行具体说明。需要说明的是，本实施例只是示例性的，并不限制本发明实施例所保护的范围。

图2示意性示出了根据本申请实施例二的秘密文本脱敏方法的环境应用示意图。

在示例性的实施例中，秘密文本脱敏方法所在的服务器2通过网络分别连接开发端3和用户端4；所述服务器2可以通过一个或多个网络提供服务，网络可以包括各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或等等。网络可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，它们的组合和/或类似物。网络可以包括无线链路，例如蜂窝链路，卫星链路，Wi-Fi链路和/或类似物；所述开发端3和所述用户端4可分别为智能手机、平板电脑、笔记本电脑、台式电脑等计算机设备。

图3是本发明一个实施例提供的一种秘密文本脱敏方法的具体方法流程图，该方法具体包括步骤S201至S206。

S201：接收开发端发送的一个属性信息，根据所述属性信息获取多个目标文件，通过所述多个目标文件训练预置的初始网络模型以得到脱敏模型。

为实现自动识别秘密文本中的敏感信息，提高后续脱敏操作的效率，本步骤通过根据所述属性信息获取多个目标文件，通过所述多个目标文件训练预置的初始网络模型的方式，得到能够自动快速识别敏感信息的脱敏模型，提高了秘密文本中敏感信息的识别效率。

于本实施例中，采用自然语言处理(Natural Language Processing,NLP)模型作为所述初始网络模型，所述自然语言模型通过其中的命名实体识别模块(Named EntityRecognition,NER)，识别目标文件中的命名实体，并判断所述命名实体是否为关键字，使得获得的脱敏模型能够通过命名实体识别模块快速锁定命名实体，并通过所述训练识别得到的命名实体中是否具有所述关键字，进而将所述关键字及其上下文设为敏感信息，提高了识别敏感信息的整体效率。其中，所述命名实体可根据开发端对命名实体识别模块进行调节而定义。

需要说明的是，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。命名实体识别模块就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。因此实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为实体。

在一个优选的实施例中，所述根据所述属性信息获取多个目标文件，包括：

S11：提取所述属性信息的产品信息，以及具有至少一个关键字的关键集合，从预置的数据库中获取相应于所述产品信息的多个产品文件，将具有所述关键集合中任一关键字的产品文件设为文本文件；其中，所述关键字是由所述开发端定义的，用于敏感信息进行概括的字词。

S12：根据所述文本文件中出现的所述关键集合中关键字的数量，从多个所述文本文件中筛选出多个目标文件。

具体地，为确保对网络模型的训练目标的实现，本步骤通过根据所述属性信息从预置的数据库中获取多个文本文件的方式，使得最终获得的目标文件与所述属性信息相匹配，进而确保了网络模型的训练目标相应于所述属性信息，并且还通过从所述多个文本文件中筛选多个目标文件的方式，使所述目标文件的数量及质量在所述筛选操作调整范围内，实现了对保证了目标文件的数量及质量可控。

优选的，所述根据所述文本文件中出现的所述关键集合中关键字的数量，从多个所述文本文件中筛选出多个目标文件，包括：

S121：获取属性信息中的关键集合，将所述多个文本文件中具有所述关键集合中所有关键字的文本文件设为待定文件；

S122：判断所述待定文件的数量是否大于阈值的目标阈值数量；

S123：若是，则根据关键字在所述待定文件中出现次数，对所述待定文件进行降序排列得到待定序列；自所述待定序列的首位起，从所述待定序列中获取相应于所述目标阈值数量的待定文件，并将所述相应于所述目标阈值数量的待定文件设为所述目标文件。

S124：若否，将所述待定文件设为所述目标文件，并将不属于所述待定文件的文本文件设为候选文件，根据关键字在所述候选文件中出现的次数，对所述候选文件进行降序排列得到候选序列；将所述目标阈值与所述待定文件的数量相减得到候选数量，自所述候选序列的首位起，从所述候选序列中获取相应于所述候选数量的候选文件，并将所述相应于所述候选数量的候选文件设为目标文件。

在一个优选的实施例中，所述通过所述多个目标文件训练预置的初始网络模型以得到脱敏模型，包括：

S13：将所述多个目标文件划分为训练组和验证组，对所述训练组中的多个目标文件中的敏感信息进行标注，使所述训练组中的目标文件转为训练文件，及对所述验证组中的多个目标文件中的敏感信息进行标注，使所述验证组中的目标文件转为验证文件。

具体地，为确保网络模型的训练的准确度，同时避免因过度训练而造成所述网络模型过拟合的情况发生，于本实施例中，所述将所述多个目标文件划分为训练组和验证组，包括：

S131：对所述多个目标文件进行随机排序得到随机序列；

S132：按照预置的划分比例对所述随机序列进行划分，得到至少具有一个所述目标文件的训练组，以及至少具有一个所述目标文件的验证组。

其中，通过对多个目标文件进行随机排序，以保证关键字出现次数不同的目标文件能够相互混合，使得保持在较高的熵值下，所述不同的目标文件在随机序列中分布的更加均匀。

具体地，所述根据所述关键字对所述训练组中的目标文件进行标注，使所述目标文件转为训练文件，包括：

S133：提取所述训练组中任一目标文件，获取所述任一目标文件中关键字的上下文，根据所述上下文判断所述关键字是否属于敏感信息；

S134：若判定所述关键字属于所述敏感信息，则对所述敏感信息及其上下文进行标注得到敏感标签，使所述任一目标文件转为训练文件；

S135：将所述训练组中所有目标文件转为训练文件，并生成训练标注完成信息。

进一步地，所述根据所述上下文判断所述关键字是否属于敏感信息，包括：

判断所述上下文中是否具有相应于所述关键字的数值信息；

若所述上下文中具有所述数值信息，则判定所述关键字及其上下文为敏感信息；

若所述上下文中不具有所述数值信息，则判断所述上下文中是否具有相应于所述关键字的日期信息；

若所述上下文中具有所述日期信息，则判定所述关键字及其上下文为敏感信息；

若所述上下文中不具有所述日期信息，则判断所述上下文中是否具有相应于所述关键字的地址信息；

若所述上下文中具有所述地址信息，则判定所述关键字及其上下文为敏感信息；

若所述上下文中不具有所述地址信息，则判定所述关键字不为敏感信息。

示例性地，假设关键字为“金额”、“日期”、“地址”，以“金额”为例；

如果目标文件中一处关键字“金额”及其对应的上下文是“货款金额是400万元”，识别到“400万”为数值信息，那么，“货款金额是400万”的关键字及其上下文就应当是敏感信息；

同理，如果目标文件中一处关键字“金额”及其对应的上下文是“货款金额的支付时间为2021年1月15日”，或者“相应于上述货款金额的货物交付地是上海市人民广场”，其中，出现了日期信息“2021年1月15日”以及地址信息“上海市人民广场”，因此，应当均为敏感信息。

反之，如果目标文件中一处关键字“金额”及其对应的上下文是“应当将货款金额在合同规定的最终日期之前交付于乙方”，其中未出现数值信息、日期信息、或地址信息，那么，“应当将货款金额在合同规定的最终日期之前交付于乙方”的关键字及其上下文则不应当是敏感信息。

具体地，所述对所述验证组的目标文件中的敏感信息进行标注，使所述验证组中的目标文件转为验证文件，包括：

S136：提取所述验证组中任一目标文件，获取所述任一目标文件中关键字的上下文，根据所述上下文判断所述关键字是否属于敏感信息；

S137：若判定所述关键字属于所述敏感信息，则对所述敏感信息及其上下文进行标注得到敏感标签，使所述任一目标文件转为验证文件；

S138：将所述验证组中所有目标文件转为验证文件，并生成验证标注完成信息。

判断所述上下文中是否具有相应于所述关键字的数值信息，

S14：循环通过所述训练组对预置的初始网络模型进行训练，及通过所述验证组对训练后的初始网络模型的敏感信息识别率进行验证，直至所述训练后的初始网络模型的敏感信息识别率达到预置的验证区间为止；将所述训练后的初始网络模型设为脱敏模型。

具体地，所述循环通过所述训练组对预置的初始网络模型进行训练，及通过所述验证组对训练后的初始网络模型的敏感信息识别率进行验证，直至所述训练后的初始网络模型的敏感信息识别率达到预置的验证区间为止；将所述训练后的初始网络模型设为脱敏模型，包括：

S141：通过所述训练组中的多个训练文件依次对所述初始网络模型进行第一次训练操作，得到中间网络模型；

S142：通过所述验证组中的多个验证文件依次对所述中间网络模型进行第一次验证操作，以得到具有多个运算结果的运算集合；

S143：计算所述运算集合中一个运算结果中的敏感信息，与相应于所述运算结果的验证文件中标注的敏感信息之间一致的数量，并将所述数量作为相应于所述验证文件的运算值；

S144：将验证组中所有验证文件中标注的敏感信息的数量设为验证总值，对所述运算集合中各验证文件的运算值进行第一次求和运算得到运算总值，将所述运算总值与所述验证总值进行第一次相除运算得到敏感信息识别率；

S145：判断所述敏感信息识别率是否属于预置的验证数值区间内；

S146：若是，则判定所述中间网络模型为成熟网络模型；

S147：若否，则重复执行第i次所述训练操作、第i次所述验证操作、第i次所述求和运算以及第i次所述相除运算，直至所述敏感信息识别率属于所述验证区间内为止，其中，i是初始值为2的正整数。

S202：接收用户端发送的一个文本请求，根据所述文本请求在预置的数据库中查询一个秘密文本。

本步骤中，所述文本请求包括文本名称、和/或文本编号、和/或文本保存路径等作为所述秘密文本唯一性标识的文本标识信息；从保存有多个秘密文本的数据库中，查询相应于所述文本标识信息的一个秘密文本。

进一步地，所述文本请求中还包括终端编号、终端身份信息等作为所述用户端唯一性标识的终端标识信息。

S203：获取一个秘密文本，调用预置的脱敏模型识别所述秘密文本中的至少一个敏感信息。

本步骤中，可通过从所述数据库中获取所述秘密文本，还可通过向秘密文本当事人发送文本请求，并接收由所述当事人发送的秘密文本，实现获取所述秘密文本的技术效果。

同时，通过所述脱敏模型识别所述秘密文本中的敏感信息，实现了快速识别敏感信息的技术效果，不仅避免了当前通过人工标注敏感信息的方式，导致敏感信息识别效率低下的问题发生，还消除了人工标注过程中产生的疏漏，保证了敏感信息识别的全面性。

S204：识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据。

本步骤中，通过识别所述敏感信息中的一个关键字的方式，锁定敏感信息中的敏感核心数据，其中，所述敏感核心数据表征了敏感信息所传达的语义，例如：金额、交易时间，交易地点等；通过识别所述敏感信息中相应于所述关键字的一个敏感数据的方式，锁定敏感信息的语义所要传达的具体内容，例如：金额的具体数值，交易的具体年月日，交易的具体位置等。

在一个优选的实施例中，所述识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据，包括：

S41：通过预置的正则表达式提取所述敏感信息中的关键字，其中，所述正则表达式中具有相应于所述关键字的字词；

S42：对所述敏感信息进行分词，得到具有所述关键字以及至少一个敏感字词，并标注所述关键字以及所述敏感字词的词性得到所述敏感信息的词性信息；

S43：根据所述词性信息识别所述敏感信息中被所述关键字描述的一个敏感字词，并将所述敏感字词作为所述敏感数据。

示例性地，基于上述举例，所述正则表达式中相应于所述关键字的字词可包括：金额、日期、地址等。进一步地，例如：金额为1000元，“金额”是关键字，其为名词，“为”、“1000”、“元”分别为敏感字词，而“为”是介词，“1000”是数词，“元”是量词，由此可知，关键字“金额”描述的是“1000元”，因此，“1000元”应当为敏感数据。

S205：根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据，使所述敏感信息转为脱敏信息。

为避免通过当前现有技术中脱敏处理方式，导致秘密文本中涉及到敏感信息的语句缺乏语法要素，而造成阅读不畅的问题，通过根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据的方式，保证了秘密文本中涉及到敏感数据的语句的语法要素的完整度，避免了当前脱敏处理导致的涉及到敏感信息的语句缺乏语法要素，而造成阅读不畅，甚至产生歧义的问题。

在一个优选的实施例中，所述根据所述敏感数据的词性类别生成或获取一个脱敏数据，包括：

S51：获取所述敏感信息的词性信息，提取所述词性信息中相应于所述敏感数据的词性类别；

S52：判断所述词性类别是否包括数词；

S53：若是，则将所述敏感数据中相应于所述数词的敏感字词替换为预置的初始值，以生成所述脱敏数据；

S54：若否，则从所述替换库中获取相应于所述词性类别的脱敏数据。

示例性地，基于上述举例，敏感数据为“1000元”，其中，“1000”为数词，“元”为量词，将“1000”替换为初始值，例如：“1”，将获得脱敏信息“金额为1元”。

又如，敏感信息为“交易地点为上海市人民广场”，其敏感数据为“上海市人民广场”，其中“上海市”和“人民广场”的词性均为地点名词，因此，从替换库中获取由两个地点名词构成的词组作为所述脱敏数据，例如：获得“北京市”，“国贸中心”，整合得到脱敏数据“北京市国贸中心”。

如此一来，得到的脱敏信息不仅避免了敏感数据的外泄，还保证了秘密文本中涉及脱敏数据的语句中语法要素的完整度，避免了当前因直接消除脱敏数据造成语句中语法要素缺失，导致脱敏后的秘密文本阅读不畅，甚至产生歧义的问题发生。

优选的，所述根据所述敏感数据的词性类别生成或获取一个脱敏数据之后，所述方法还包括：

将所述敏感数据上传至区块链中。

需要说明的是，基于所述敏感数据得到对应的摘要信息，具体来说，摘要信息由所述敏感数据进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证所述敏感数据是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

S206：将所述秘密文本中所有敏感信息转为脱敏信息，使所述秘密文本转为脱敏文本，将所述脱敏文本发送至所述用户端。

本步骤中，通过上述方法将所述秘密文本中所有的敏感信息转为脱敏信息，保证了秘密文本脱敏的全面性；通过获取文本请求中的终端标识信息，将所述脱敏文本发送至相应于所述终端标识信息的用户端，避免了将脱敏文本发送至其他不相关的用户端，导致脱敏文本中内容外泄的情况发生，进一步地保证了秘密文本的安全性。

实施例三：

请参阅图4，本实施例的一种秘密文本脱敏装置1，包括：

敏感识别模块13，用于获取一个秘密文本，调用预置的脱敏模型识别所述秘密文本中的至少一个敏感信息；

数据识别模块14，用于识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据；

脱敏处理模块15，用于根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据，使所述敏感信息转为脱敏信息；

文本转换模块16，用于将所述秘密文本中所有敏感信息转为脱敏信息，使所述秘密文本转为脱敏文本。

可选的，所述秘密文本脱敏装置1还包括：

模型构建模块11，用于接收开发端发送的一个属性信息，根据所述属性信息获取多个目标文件，通过所述多个目标文件训练预置的初始网络模型以得到脱敏模型。

可选的，所述秘密文本脱敏装置1还包括：

文本查询模块12，用于接收用户端发送的一个文本请求，根据所述文本请求在预置的数据库中查询一个秘密文本。

可选的，所述模型构建模块11还包括：

文本获取单元111，用于提取所述属性信息的产品信息，以及具有至少一个关键字的关键集合，从预置的数据库中获取相应于所述产品信息的多个产品文件，将具有所述关键集合中任一关键字的产品文件设为文本文件；其中，所述关键字是由所述开发端定义的，用于敏感信息进行概括的字词。

目标筛选单元112，用于根据所述文本文件中出现的所述关键集合中关键字的数量，从多个所述文本文件中筛选出多个目标文件。

文件管理单元113，用于将所述多个目标文件划分为训练组和验证组，对所述训练组中的多个目标文件中的敏感信息进行标注，使所述训练组中的目标文件转为训练文件，及对所述验证组中的多个目标文件中的敏感信息进行标注，使所述验证组中的目标文件转为验证文件。

模型训练单元114，用于循环通过所述训练组对预置的初始网络模型进行训练，及通过所述验证组对训练后的初始网络模型的敏感信息识别率进行验证，直至所述训练后的初始网络模型的敏感信息识别率达到预置的验证区间为止；将所述训练后的初始网络模型设为脱敏模型。

可选的，所述模型训练单元114还包括：

训练操作子单元1141，用于通过所述训练组中的多个训练文件依次对所述初始网络模型进行第一次训练操作，得到中间网络模型；

结果生成子单元1142，用于通过所述验证组中的多个验证文件依次对所述中间网络模型进行第一次验证操作，以得到具有多个运算结果的运算集合；

数量计算子单元1143，用于计算所述运算集合中一个运算结果中的敏感信息，与相应于所述运算结果的验证文件中标注的敏感信息之间一致的数量，并将所述数量作为相应于所述验证文件的运算值；

识别率计算子单元1144，用于将验证组中所有验证文件中标注的敏感信息的数量设为验证总值，对所述运算集合中各验证文件的运算值进行第一次求和运算得到运算总值，将所述运算总值与所述验证总值进行第一次相除运算得到敏感信息识别率；

识别率判断子单元1145，用于判断所述敏感信息识别率是否属于预置的验证数值区间内；

模型生成子单元1146，用于判定所述中间网络模型为成熟网络模型；

训练循环子单元1147，用于重复执行第i次所述训练操作、第i次所述验证操作、第i次所述求和运算以及第i次所述相除运算，直至所述敏感信息识别率属于所述验证区间内为止，其中，i是初始值为2的正整数。

可选的，所述数据识别模块14包括：

关键字提取单元141，用于通过预置的正则表达式提取所述敏感信息中的关键字，其中，所述正则表达式中具有相应于所述关键字的字词；

分词标注单元142，用于对所述敏感信息进行分词，得到具有所述关键字以及至少一个敏感字词，并标注所述关键字以及所述敏感字词的词性得到所述敏感信息的词性信息；

敏感识别单元143，用于根据所述词性信息识别所述敏感信息中被所述关键字描述的一个敏感字词，并将所述敏感字词作为所述敏感数据。

可选的，所述脱敏处理模块15包括：

词性类别单元151，用于获取所述敏感信息的词性信息，提取所述词性信息中相应于所述敏感数据的词性类别；

类别判断单元152，用于判断所述词性类别是否包括数词；

脱敏生成单元153，用于将所述敏感数据中相应于所述数词的敏感字词替换为预置的初始值，以生成所述脱敏数据；

脱敏替换单元154，用于从所述替换库中获取相应于所述词性类别的脱敏数据。

本技术方案应用于人工智能的语义解析领域，调用基于自然语言模型训练获得的脱敏模型识别秘密文本中的敏感信息，实现对秘密文本进行语义解析；识别敏感信息中的关键字，及识别敏感信息中相应于关键字的敏感数据；根据敏感数据的词性类别生成或获取脱敏数据，将敏感信息中的敏感数据替换为脱敏数据，使敏感信息转为脱敏信息。

实施例四：

为实现上述目的，本发明还提供一种计算机设备5，实施例三的秘密文本脱敏装置的组成部分可分散于不同的计算机设备中，计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个应用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器51、处理器52，如图5所示。需要指出的是，图5仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器51可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器51也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例三的秘密文本脱敏装置的程序代码等。此外，存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器52在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中，处理器52用于运行存储器51中存储的程序代码或者处理数据，例如运行秘密文本脱敏装置，以实现实施例一和实施例二的秘密文本脱敏方法。

实施例五：

为实现上述目的，本发明还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储实现所述秘密文本脱敏方法的计算机程序，被处理器52执行时实现实施例一和实施例二的秘密文本脱敏方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种秘密文本脱敏方法，其特征在于，包括：

2.根据权利要求1所述的秘密文本脱敏方法，其特征在于，所述获取一个秘密文本之前，所述方法还包括：

3.根据权利要求2所述的秘密文本脱敏方法，其特征在于，所述根据所述属性信息获取多个目标文件，包括：

4.根据权利要求2所述的秘密文本脱敏方法，其特征在于，所述通过所述多个目标文件训练预置的初始网络模型以得到脱敏模型，包括：

5.根据权利要求4所述的秘密文本脱敏方法，其特征在于，所述循环通过所述训练组对预置的初始网络模型进行训练，及通过所述验证组对训练后的初始网络模型的敏感信息识别率进行验证，直至所述训练后的初始网络模型的敏感信息识别率达到预置的验证区间为止；将所述训练后的初始网络模型设为脱敏模型，包括：

判断所述敏感信息识别率是否属于预置的验证数值区间内；

若是，则判定所述中间网络模型为成熟网络模型；

6.根据权利要求1所述的秘密文本脱敏方法，其特征在于，所述识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据，包括：

7.根据权利要求1所述的秘密文本脱敏方法，其特征在于，所述根据所述敏感数据的词性类别生成或获取一个脱敏数据，包括：

判断所述词性类别是否包括数词；

将所述敏感数据上传至区块链中。

8.一种秘密文本脱敏装置，其特征在于，包括：

9.一种计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机设备的处理器执行所述计算机程序时实现权利要求1至7任一项所述秘密文本脱敏方法的步骤。

10.一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，其特征在于，所述可读存储介质存储的所述计算机程序被处理器执行时实现权利要求1至7任一项所述秘密文本脱敏方法的步骤。