CN115544240B

CN115544240B - 文本类敏感信息识别方法、装置、电子设备和存储介质

Info

Publication number: CN115544240B
Application number: CN202211478845.2A
Authority: CN
Inventors: 张黎; 陈广辉; 穆新宇; 程树华
Original assignee: Flash It Co ltd
Current assignee: Flash It Co ltd
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-04-07
Anticipated expiration: 2042-11-24
Also published as: CN115544240A

Abstract

本发明提供一种文本类敏感信息识别方法、装置、电子设备和存储介质，其中方法包括：对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合；对任一待识别文本的待识别句进行语义信息提取，得到待识别句的句语义向量以及待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及待识别句的句语义向量确定得到的；结合待识别句的句语义向量以及待识别句中每一分词的词语义向量，识别待识别句中的敏感信息以及敏感信息的描述信息。本发明提升了海量数据的敏感数据识别效率以及敏感信息的识别率。

Description

文本类敏感信息识别方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本类敏感信息识别方法、装置、电子设备和存储介质。

背景技术

随着大数据时代的到来，同时带来了隐私信息等敏感数据的泄露问题。为了保护敏感信息不被泄露，多采用脱敏算法将共享或传输的数据中的敏感数据滤除，而脱敏算法的一个核心则在于敏感信息的识别。在敏感信息识别的应用场景中，部分敏感信息是文本类的，比如姓名、地址、企业名称、职业等，因此可以采用用于文本处理等任务的机器学习模型进行敏感信息的自动识别。

然而，在大数据时代，网络上传输的数据量极大，如何兼顾海量数据的敏感数据识别效率以及敏感数据识别准确率将是当前亟需解决的问题。目前的敏感数据识别方式中，常采用的深度学习模型通常包含大量的参数和运算过程，在面对海量的待识别文本时效率通常难以满足实际应用。另外，目前常用的深度学习模型在识别敏感信息时，通常也会由于捕获的上下文信息较为局限，导致在海量待识别文本的敏感信息识别任务上的准确性也欠佳。

发明内容

本发明提供一种文本类敏感信息识别方法、装置、电子设备和存储介质，用以解决现有技术中面对海量的待识别文本时效率通常难以满足实际应用且准确性也欠佳的缺陷。

本发明提供一种文本类敏感信息识别方法，包括：

对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合；

针对所述待识别文本类集合中的任一待识别文本进行句切分，得到所述任一待识别文本的待识别句；

基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及所述待识别句的句语义向量确定得到的；

基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。

根据本发明提供的一种文本类敏感信息识别方法，所述基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，具体包括：

基于所述语义信息提取层中的第一双向长短时记忆网络，对所述任一待识别文本的待识别句进行语义提取，得到所述待识别句的句语义向量；

将所述待识别句中各个分词的预训练词向量分别与所述待识别句的句语义向量进行融合，得到所述待识别句中各个分词的融合向量；

基于所述语义信息提取层中的第二双向长短时记忆网络对所述待识别句中各个分词的融合向量进行语义提取，得到所述待识别句中每一分词的词语义向量。

根据本发明提供的一种文本类敏感信息识别方法，所述基于所述语义信息提取层中的第一双向长短时记忆网络，对所述任一待识别文本的待识别句进行语义提取，得到所述待识别句的句语义向量，具体包括：

基于所述第一双向长短时记忆网络，对所述任一待识别文本的待识别句中各个分词的预训练词向量进行语义提取，得到所述待识别句中各个分词的上下文词向量；

确定所述待识别句中任一分词的上下文词向量与各类敏感信息对应标签的标签向量之间的相似度，并将最大相似度作为所述任一分词的权重；

基于所述待识别句中各个分词的上下文词向量与各个分词的权重，确定所述待识别句的句语义向量。

根据本发明提供的一种文本类敏感信息识别方法，所述基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息，具体包括：

获取与所述待识别句属于同一文档且包含所述待识别句的有效分词的参考识别句；

基于敏感信息识别模型中的语义信息提取层，对所述参考识别句进行语义信息提取，得到所述参考识别句的句语义向量以及所述参考识别句中各个分词的词语义向量；

基于所述参考识别句的句语义向量和所述待识别句的句语义向量之间的相似度，融合所述参考识别句和所述待识别句中相同分词的词语义向量，得到所述相同分词的融合向量；

基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句中所述相同分词的融合向量和其余分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。

根据本发明提供的一种文本类敏感信息识别方法，所述基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合，具体包括：

对所述各个文本类集合中的候选识别文本分别进行随机抽样，得到所述各个文本类集合的抽样文本；

基于所述各个文本类集合的抽样文本的文本特征，确定进行敏感信息识别的待识别文本类集合。

根据本发明提供的一种文本类敏感信息识别方法，所述基于所述各个文本类集合的抽样文本的文本特征，确定进行敏感信息识别的待识别文本类集合，具体包括：

获取各类敏感信息对应的样本文本集合，并提取各类敏感信息对应的样本文本集合中各个样本文本的文本特征；

确定任一文本类集合的抽样文本的文本特征与任一类敏感信息对应的样本文本集合中各个样本文本的文本特征之间的相似度，并将最大相似度作为所述任一文本类集合与所述任一类敏感信息之间的匹配程度；

若所述任一文本类集合与至少一类敏感信息之间的匹配程度大于预设阈值，则将所述任一文本类集合作为待识别文本类集合。

根据本发明提供的一种文本类敏感信息识别方法，所述敏感信息识别模型是基于如下步骤训练得到的：

基于所述敏感信息识别模型对各类敏感信息对应的样本文本集合中的样本文本进行敏感信息识别，得到所述样本文本的敏感信息识别结果；

基于所述样本文本的敏感信息识别结果以及所述样本文本中的敏感信息的标签，计算所述样本文本对应的交叉熵损失和合页损失；

基于所述样本文本对应的交叉熵损失和合页损失，调整所述敏感信息识别模型的参数。

本发明还提供一种文本类敏感信息识别装置，包括：

文本筛选单元，用于对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合；

文本切分单元，用于针对所述待识别文本类集合中的任一待识别文本进行句切分，得到所述任一待识别文本的待识别句；

语义信息提取单元，用于基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及所述待识别句的句语义向量确定得到的；

敏感信息识别单元，用于基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本类敏感信息识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本类敏感信息识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本类敏感信息识别方法。

本发明提供的文本类敏感信息识别方法、装置、电子设备和存储介质，通过使用聚类算法对候选识别文本集合中的各个候选识别文本进行类别划分，得到各个文本类集合，基于每个文本类集合中的各个候选识别文本的文本特征，判断各个文本类集合对应的文本类型是否属于包含敏感信息的类型，仅将包含敏感信息的类型对应的文本类集合作为待进行敏感信息识别的待识别文本类集合进入后续敏感识别流程，将不具备敏感信息的文本在该文本筛选环节滤除，降低了后续进行敏感信息识别的文本量，提升了海量数据的敏感数据识别效率；随后，通过提取整个待识别句的语义信息，得到待识别句的句语义向量，再基于该待识别句的句语义向量和该待识别句中各个分词的预训练词向量，融合确定各个分词的词语义向量，使得各个分词的词语义向量中包含的语义信息更贴近于该分词在待识别句中的含义，从而优化各个分词的词语义向量的语义表达能力；根据提取得到的待识别句的句语义向量以及该待识别句中每一分词的词语义向量进行敏感信息识别，可以提供句子级别和单词级别等多层次多角度的语义信息，有助于提高敏感信息的识别率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本类敏感信息识别方法的流程示意图；

图2是本发明提供的敏感信息识别方法的流程示意图；

图3是本发明提供的文本筛选方法的流程示意图；

图4是本发明提供的模型训练方法的流程示意图；

图5是本发明提供的文本类敏感信息识别装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的文本类敏感信息识别方法的流程示意图，如图1所示，该方法包括：

步骤110，对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合。

具体地，由于用于敏感信息识别的深度学习模型参数众多，运行过程比较耗费时间和资源，因此为了提升海量数据的敏感数据识别效率，可以在正式进行敏感信息识别之前先进行文本筛选，将不具备敏感信息的文本在该文本筛选环节滤除，以降低后续进行敏感信息识别的文本量。其中，可以使用聚类算法对候选识别文本集合中的各个候选识别文本进行类别划分，得到各个文本类集合。每个文本类集合中包含有同属一类的多个候选识别文本。由于该聚类过程属于无监督学习，因此易于实现且效率较高。随后，可以基于每个文本类集合中的各个候选识别文本的文本特征，判断各个文本类集合对应的文本类型是否属于包含敏感信息的类型。

此处，可以对任一文本类集合进行随机抽样，对抽样得到的候选识别文本进行文本特征提取，作为判断该文本类集合是否属于包含敏感信息的类型的依据，而文本特征提取步骤可以利用任意已训练的文本特征提取模型实现。如果任一文本类集合对应的文本类型属于包含敏感信息的类型，则将该文本类集合作为待进行敏感信息识别的待识别文本类集合，该文本类集合中的候选识别文本则作为待识别文本，以供进行后续的敏感信息识别；否则，不对该文本类集合中的候选识别文本进行任何操作，从而节约计算资源。

步骤120，针对所述待识别文本类集合中的任一待识别文本进行句切分，得到所述任一待识别文本的待识别句。

具体地，为了便于提取待识别文本的语义信息并准确识别其中的敏感信息，可以将待识别文本类集合中的待识别文本进行句切分，得到该待识别文本的待识别句。其中，若待识别文本本身只有一句话，则可以不对该待识别文本进行句切分。

步骤130，基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及所述待识别句的句语义向量确定得到的。

具体地，敏感信息识别模型中包含语义信息提取层，该语义信息提取层用于对待识别文本的待识别句进行语义信息提取，以获取该待识别句中各个分词的语义信息以及整个待识别句的整体语义，从而能够根据获取的上述各个分词（例如，对于中文文本而言，分词可以是单个字，对于英文文本而言，分词可以是一个单词）的语义信息以及整个待识别句的整体语义，识别出待识别句中的敏感信息。其中，语义信息提取层可以基于双向长短时记忆网络构建得到，从而提取各个分词上下文携带的上下文信息，再结合各个分词自身的语义信息，可以融合确定整个待识别句的语义信息，得到待识别句的句语义向量。此处，可以基于双向长短时记忆网络对待识别句中每个分词的预训练词向量（该预训练词向量可以基于预训练的词向量模型，例如Glove、word2vec等模型确定得到，其中包含有各个分词本身的语义信息）进行双向的语义提取，从而获取每个分词前后多个分词提供的上下文信息，再结合每个分词的预训练词向量中包含的自身的语义信息，可以融合得到整个待识别句的句语义向量。

该待识别句的句语义向量中包含的语义信息可以提供整个待识别句的语境，从而可以在该语境下更精确地提取确定各个分词的语义信息，尤其是具备多重含义的分词而言，该语境信息能有助于确定该分词在该待识别句中的确切含义。因此，为了进一步提升语义提取精度从而提高后续的敏感信息识别准确性，可以在提取到待识别句的句语义向量之后，再基于该待识别句的句语义向量和该待识别句中各个分词的预训练词向量，融合确定各个分词的词语义向量，使得各个分词的词语义向量中包含的语义信息更贴近于该分词在待识别句中的含义，从而优化各个分词的词语义向量的语义表达能力。根据提取得到的待识别句的句语义向量以及该待识别句中每一分词的词语义向量进行敏感信息识别，可以提供句子级别和单词级别等多层次多角度的语义信息，有助于提高敏感信息的识别率。

步骤140，基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。

具体地，敏感信息识别模型中还包括敏感实体识别层，该敏感实体识别层可以基于待识别句的句语义向量以及待识别句中每一分词的词语义向量，识别该待识别句中的敏感信息以及该敏感信息的描述信息。其中，敏感信息的描述信息包含该敏感信息的类型（例如人名、证件号等）以及该敏感信息在该待识别句中的位置。敏感实体识别层可以基于线性条件随机场模型构建得到，其可以基于待识别句的句语义向量以及待识别句中每一分词的词语义向量，确定每个分词的类型标签（某一类敏感信息对应的标签或是非敏感信息对应的标签）并确定每个分词是位于某一类敏感信息的开始、中间或是结尾部分，从而确定待识别句中的敏感信息及其描述信息。获取到敏感信息及其描述信息后，可交于业务人员核验，经过确认的结果可以反馈到训练数据集中，用于下一次对敏感信息识别模型进行优化。随后，可以将上述识别到的敏感信息匿名化，比如用特定符号进行替换，再输出文本。

本发明实施例提供的方法，通过使用聚类算法对候选识别文本集合中的各个候选识别文本进行类别划分，得到各个文本类集合，基于每个文本类集合中的各个候选识别文本的文本特征，判断各个文本类集合对应的文本类型是否属于包含敏感信息的类型，仅将包含敏感信息的类型对应的文本类集合作为待进行敏感信息识别的待识别文本类集合进入后续敏感识别流程，将不具备敏感信息的文本在该文本筛选环节滤除，降低了后续进行敏感信息识别的文本量，提升了海量数据的敏感数据识别效率；随后，通过提取整个待识别句的语义信息，得到待识别句的句语义向量，再基于该待识别句的句语义向量和该待识别句中各个分词的预训练词向量，融合确定各个分词的词语义向量，使得各个分词的词语义向量中包含的语义信息更贴近于该分词在待识别句中的含义，从而优化各个分词的词语义向量的语义表达能力；根据提取得到的待识别句的句语义向量以及该待识别句中每一分词的词语义向量进行敏感信息识别，可以提供句子级别和单词级别等多层次多角度的语义信息，有助于提高敏感信息的识别率。

基于上述实施例，所述基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，具体包括：

具体地，敏感信息识别模型中的语义信息提取层包含两个双向长短时记忆网络，即第一双向长短时记忆网络和第二双向长短时记忆网络。其中，基于该第一双向长短时记忆网络，对待识别文本的待识别句进行语义提取，得到待识别句的句语义向量。其中，可以对待识别句中每个分词的预训练词向量进行双向的语义提取，获取每个分词前后多个分词提供的上下文信息以及每个分词的预训练词向量中包含的自身的语义信息，从而构建每个分词对应的上下文词向量，再将所有分词对应的上下文语义向量融合，可以得到待识别句的句语义向量。

将上述待识别句中各个分词的预训练词向量分别与该待识别句的句语义向量进行融合，可以得到该待识别句中各个分词的融合向量。例如，可以将任一分词的预训练词向量与该待识别句的句语义向量拼接，得到该分词的融合向量。随后，将该待识别句中各个分词的融合向量输入至第二双向长短时记忆网络，基于该第二双向长短时记忆网络对待识别句中各个分词的融合向量进行语义提取，再次获取每个分词前后多个分词提供的上下文信息以及每个分词的融合向量中包含的自身的语义信息，从而构建得到该待识别句中每一分词的词语义向量。通过上述方式，在利用第一双向长短时记忆网络提取了每个分词的上下文信息和分词本身的语义信息后，将其与待识别句的句语义向量进行融合，从而强化每个分词的融合向量中的语境，一定程度上提升了每个分词的融合向量的语义表达能力，然后再利用第二双向长短时记忆网络再次对每个分词的融合向量进行上下文信息提取，由于融合向量中包含有语境信息，因此第二次提取的上下文信息将更准确，从而进一步提升了各个分词的词语义向量的语义表达能力。

基于上述任一实施例，所述基于所述语义信息提取层中的第一双向长短时记忆网络，对所述任一待识别文本的待识别句进行语义提取，得到所述待识别句的句语义向量，具体包括：

具体地，基于第一双向长短时记忆网络，对待识别句中每个分词的预训练词向量进行双向的语义提取，获取每个分词前后多个分词提供的上下文信息以及每个分词的预训练词向量中包含的自身的语义信息，从而构建每个分词对应的上下文词向量。其中，上下文词向量中即包含了上述上下文信息以及每个分词自身的语义信息。

由于待识别句中不同分词对于确定整个待识别句的整体语境所起的作用不同，因此为了更准确地提取待识别句的句级语义，可以强化待识别句中更重要的分词的语义信息。具体而言，可以确定该待识别句中任一分词的上下文词向量与各类敏感信息对应标签的标签向量之间的相似度，并将最大相似度作为该分词的权重。其中，各类敏感信息对应的标签可以预先通过人工标注得到，并采用预训练的词向量提取模型提取各类敏感信息对应的标签的标签向量。计算各类敏感信息对应的标签的标签向量与任一分词的上下文词向量之间的相似度，然后将上述相似度中值最大的相似度作为该分词的权重。其中，若任一分词与某一类敏感信息对应的标签具备较高的语义相似度，则表明该分词的重要性较高，因而可以为其设置较高的权重。基于该待识别句中各个分词的上下文词向量与各个分词的权重，可以确定该待识别句的句语义向量。例如，可以将各个分词的上下文词向量乘以各自的权重后进行拼接或求和，得到该待识别句的句语义向量。

如图2所示，所述基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息，具体包括：

步骤141，获取与所述待识别句属于同一文档且包含所述待识别句的有效分词的参考识别句；

步骤142，基于敏感信息识别模型中的语义信息提取层，对所述参考识别句进行语义信息提取，得到所述参考识别句的句语义向量以及所述参考识别句中各个分词的词语义向量；

步骤143，基于所述参考识别句的句语义向量和所述待识别句的句语义向量之间的相似度，融合所述参考识别句和所述待识别句中相同分词的词语义向量，得到所述相同分词的融合向量；

步骤144，基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句中所述相同分词的融合向量和其余分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。

具体地，由于双向长短时记忆网络无论是在训练过程还是预测过程，实际上都是只利用了单个实例（即待识别句），其提取出的语义信息只能停留在句子级别和分词级别。考虑到更高层次的语义信息（例如整个文档中的其他关联段落、关联句等）所提供的的更高级别的语境信息对于待识别句或是待识别句中分词的实际含义也有着重要影响，因此为了进一步提高敏感信息识别的准确性，可以在待识别句的句语义向量提供的句级语义以及待识别句中每一分词的词语义向量提供的分词级语义基础上，引入同一文档的其他关联句的高层次语义。

此处，可以获取与该待识别句属于同一文档且包含该待识别句的有效分词的参考识别句，该待识别句的参考识别句可以有多个。即参考识别句与待识别句之间存在相同的分词，且该相同的分词为待识别句中的有效分词（即非停用词），因此该参考识别句与待识别句之间存在关联。基于敏感信息识别模型中的语义信息提取层，对上述参考识别句进行语义信息提取，得到参考识别句的句语义向量以及该参考识别句中各个分词的词语义向量。其中，参考识别句的语义信息提取方式与待识别句的语义信息提取方式相同，在此不再赘述。

随后，计算参考识别句的句语义向量和待识别句的句语义向量之间的相似度，若有多个参考识别句，则分别计算各个参考识别句的句语义向量和待识别句的句语义向量之间的相似度。任一参考识别句的句语义向量和待识别句的句语义向量之间的相似度越高，该参考识别句与待识别句之间的关联性越强，则该参考识别句的语境与待识别句的语境越类似。基于参考识别句的句语义向量和待识别句的句语义向量之间的相似度，融合参考识别句和待识别句中相同分词的词语义向量，得到该相同分词的融合向量。其中，由于参考识别句的句语义向量和待识别句的句语义向量之间的相似度越高，该参考识别句的语境与待识别句的语境越类似，同一分词在该参考识别句中的含义与其在待识别句中的含义更有可能是相同的，因此可以将参考识别句的句语义向量和待识别句的句语义向量之间的相似度作为该参考识别句的权重，融合参考识别句和待识别句中相同分词的词语义向量，得到该相同分词的融合向量。此处，若任一分词同时出现在待识别句以及一个或多个参考识别句中，则获取上述一个或多个参考识别句中该分词的词语义向量并分别乘以对应的权重，随后将其与待识别句中该分词的词语义向量相加，得到该分词的融合向量。

基于敏感信息识别模型中的敏感实体识别层，结合待识别句中上述相同分词的融合向量和其余分词的词语义向量，识别待识别句中的敏感信息以及敏感信息的描述信息。

基于上述任一实施例，如图3所示，所述基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合，具体包括：

步骤111，对所述各个文本类集合中的候选识别文本分别进行随机抽样，得到所述各个文本类集合的抽样文本；

步骤112，基于所述各个文本类集合的抽样文本的文本特征，确定进行敏感信息识别的待识别文本类集合。

具体地，对各个文本类集合中的候选识别文本分别进行随机抽样，得到各个文本类集合的抽样文本。其中，每个文本类集合可以随机抽取多个抽样文本，作为对应文本类集合的代表。基于各个文本类集合的抽样文本的文本特征，确定进行敏感信息识别的待识别文本类集合。

基于上述任一实施例，所述基于所述各个文本类集合的抽样文本的文本特征，确定进行敏感信息识别的待识别文本类集合，具体包括：

具体地，可以获取模型训练过程中收集的各类敏感信息对应的样本文本集合，并提取各类敏感信息对应的样本文本集合中各个样本文本的文本特征。为了提高文本筛选的速率，也可以随机抽取各类敏感信息对应的样本文本集合中的样本文本，并提取随机抽取的样本文本的文本特征。

计算任一文本类集合的抽样文本的文本特征与任一类敏感信息对应的样本文本集合中多个样本文本（随机抽取的样本文本）的文本特征两两之间的相似度，并将最大的相似度作为该文本类集合与该类敏感信息之间的匹配程度。若该文本类集合与至少一类敏感信息之间的匹配程度大于预设阈值，则认为该文本类集合中的候选识别文本可能包含敏感信息，因此可以将该文本类集合作为待识别文本类集合进行后续识别。

基于上述任一实施例，如图4所示，所述敏感信息识别模型是基于如下步骤训练得到的：

步骤410，基于所述敏感信息识别模型对各类敏感信息对应的样本文本集合中的样本文本进行敏感信息识别，得到所述样本文本的敏感信息识别结果；

步骤420，基于所述样本文本的敏感信息识别结果以及所述样本文本中的敏感信息的标签，计算所述样本文本对应的交叉熵损失和合页损失；

步骤430，基于所述样本文本对应的交叉熵损失和合页损失，调整所述敏感信息识别模型的参数。

具体地，基于敏感信息识别模型对各类敏感信息对应的样本文本集合中的样本文本进行敏感信息识别，得到各个样本文本的敏感信息识别结果。其中，敏感信息识别模型在训练阶段的运行机制与其在实际进行敏感信息识别任务时的运行机制相同，在此不再赘述。基于样本文本的敏感信息识别结果以及该样本文本中的敏感信息的标签，计算该样本文本对应的交叉熵损失和合页损失。其中，交叉熵损失函数，能够保证预测结果渐渐趋近于真实结果，但没有考虑预测结果与真实结果的距离，然而合页损失函数能够弥补这一点，因此这两个损失函数相加作为新的损失函数，可以兼顾两者的优点，能够更快收敛，降低训练时间，节约计算资源。随后，基于样本文本对应的交叉熵损失和合页损失，调整敏感信息识别模型的参数，直至模型收敛。

下面对本发明提供的文本类敏感信息识别装置进行描述，下文描述的文本类敏感信息识别装置与上文描述的文本类敏感信息识别方法可相互对应参照。

基于上述任一实施例，图5是文本类敏感信息识别装置的结构示意图，如图5所示，该装置包括：文本筛选单元510、文本切分单元520、语义信息提取单元530和敏感信息识别单元540。

其中，文本筛选单元510用于对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合；

文本切分单元520用于针对所述待识别文本类集合中的任一待识别文本进行句切分，得到所述任一待识别文本的待识别句；

语义信息提取单元530用于基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及所述待识别句的句语义向量确定得到的；

敏感信息识别单元540用于基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。

本发明实施例提供的装置，通过使用聚类算法对候选识别文本集合中的各个候选识别文本进行类别划分，得到各个文本类集合，基于每个文本类集合中的各个候选识别文本的文本特征，判断各个文本类集合对应的文本类型是否属于包含敏感信息的类型，仅将包含敏感信息的类型对应的文本类集合作为待进行敏感信息识别的待识别文本类集合进入后续敏感识别流程，将不具备敏感信息的文本在该文本筛选环节滤除，降低了后续进行敏感信息识别的文本量，提升了海量数据的敏感数据识别效率；随后，通过提取整个待识别句的语义信息，得到待识别句的句语义向量，再基于该待识别句的句语义向量和该待识别句中各个分词的预训练词向量，融合确定各个分词的词语义向量，使得各个分词的词语义向量中包含的语义信息更贴近于该分词在待识别句中的含义，从而优化各个分词的词语义向量的语义表达能力；根据提取得到的待识别句的句语义向量以及该待识别句中每一分词的词语义向量进行敏感信息识别，可以提供句子级别和单词级别等多层次多角度的语义信息，有助于提高敏感信息的识别率。

基于上述任一实施例，所述基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，具体包括：

基于上述任一实施例，所述基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息，具体包括：

基于上述任一实施例，所述基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合，具体包括：

基于上述任一实施例，所述敏感信息识别模型是基于如下步骤训练得到的：

图6是本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、存储器(memory)620、通信接口(Communications Interface)630和通信总线640，其中，处理器610，存储器620，通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令，以执行文本类敏感信息识别方法，该方法包括：对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合；针对所述待识别文本类集合中的任一待识别文本进行句切分，得到所述任一待识别文本的待识别句；基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及所述待识别句的句语义向量确定得到的；基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。

此外，上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的文本类敏感信息识别方法，该方法包括：对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合；针对所述待识别文本类集合中的任一待识别文本进行句切分，得到所述任一待识别文本的待识别句；基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及所述待识别句的句语义向量确定得到的；基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文本类敏感信息识别方法，该方法包括：对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合；针对所述待识别文本类集合中的任一待识别文本进行句切分，得到所述任一待识别文本的待识别句；基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及所述待识别句的句语义向量确定得到的；基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本类敏感信息识别方法，其特征在于，包括：

基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息；

所述对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合，具体包括：

如果任一文本类集合对应的文本类型属于包含敏感信息的类型，则将所述任一文本类集合作为待进行敏感信息识别的待识别文本类集合，所述任一文本类集合中的候选识别文本作为待识别文本，以供进行后续的敏感信息识别；否则，不对所述任一文本类集合中的候选识别文本进行任何操作。

2.根据权利要求1所述的文本类敏感信息识别方法，其特征在于，所述基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，具体包括：

3.根据权利要求2所述的文本类敏感信息识别方法，其特征在于，所述基于所述语义信息提取层中的第一双向长短时记忆网络，对所述任一待识别文本的待识别句进行语义提取，得到所述待识别句的句语义向量，具体包括：

4.根据权利要求1所述的文本类敏感信息识别方法，其特征在于，所述基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息，具体包括：

5.根据权利要求1所述的文本类敏感信息识别方法，其特征在于，所述基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合，具体包括：

6.根据权利要求5所述的文本类敏感信息识别方法，其特征在于，所述基于所述各个文本类集合的抽样文本的文本特征，确定进行敏感信息识别的待识别文本类集合，具体包括：

7.根据权利要求1至6任一项所述的文本类敏感信息识别方法，其特征在于，所述敏感信息识别模型是基于如下步骤训练得到的：

8.一种文本类敏感信息识别装置，其特征在于，包括：

敏感信息识别单元，用于基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述文本类敏感信息识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本类敏感信息识别方法。