CN115952854A

CN115952854A - 文本脱敏模型的训练方法、文本脱敏方法及应用

Info

Publication number: CN115952854A
Application number: CN202310241157.2A
Authority: CN
Inventors: 唐小雅; 王永明; 徐刚; 李思泽
Original assignee: Hangzhou Taimei Xingcheng Pharmaceutical Technology Co ltd
Current assignee: Hangzhou Taimei Xingcheng Pharmaceutical Technology Co ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-04-11
Anticipated expiration: 2043-03-14
Also published as: CN115952854B

Abstract

本发明公开了一种文本脱敏模型的训练方法、文本脱敏方法及应用，该文本脱敏模型的训练方法包括：基于含有标签信息的样本集，训练得到初始模型；基于所述初始模型，确定待脱敏文本中各个词的标签概率分布；基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本；若是，获取所述待脱敏文本中各个词的标签，并作为训练样本对所述初始模型进行增量训练。本发明提供的文本脱敏模型的训练方法，一方面可以快速干预错误脱敏的数据，另一方面可以在不同场景下进行带个性化的快速部署；同时，随着使用场景的增加与模型迭代更新，模型部署的时间将不断缩短。

Description

文本脱敏模型的训练方法、文本脱敏方法及应用

技术领域

本发明是关于计算机数据处理领域，特别是关于一种文本脱敏模型的训练方法及装置、文本脱敏方法及装置、电子设备及计算机可读介质。

背景技术

随着互联网技术的发展，用户的隐私以及文件中重要信息变得不再安全，为了保证用户的隐私以及文件中重要信息的安全性，出现了文本脱敏技术。文本脱敏技术是指将用户的隐私或者文件中较为重要的信息进行替换或者进行数据的变形，从而保证用户隐私中重要信息以及文件中重要信息的安全性。现有的文本脱敏方案，文本语义特征抽取能力较弱，对于部分敏感数据识别效果较差，难以实现不同场景下文本脱敏模型的快速部署。

因此，针对上述技术问题，有必要提供一种新的文本脱敏模型的训练方法、文本脱敏方法及应用。

发明内容

本发明的目的在于提供一种文本脱敏模型的训练方法、文本脱敏方法及应用，其具有较佳的敏感数据识别效果，且能够实现不同场景下的文本脱敏模型快速部署。

为实现上述目的，本发明提供的技术方案如下：

第一方面，本发明提供了一种文本脱敏模型的训练方法，其包括：

基于含有标签信息的样本集，训练得到初始模型；基于所述初始模型，确定待脱敏文本中各个词的标签概率分布；基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本；若是，获取所述待脱敏文本中各个词的标签，并作为训练样本对所述初始模型进行增量训练。

在一个或多个实施方式中，基于含有标签信息的样本集，训练得到初始模型，具体包括：

为预处理后的文本语料中的各个词标注标签；利用词典将标注标签后的文本语料映射为序列化的文本表示；将所述序列化的文本裁剪或填充为固定长度，以获得含有标签信息的样本集；基于所述样本集，对神经网络模型进行训练，以获得初始模型。

在一个或多个实施方式中，基于所述样本集，对神经网络模型进行训练，具体包括：

将所述样本集中的各样本映射为向量化样本；获取所述向量化样本中各个词的上下文语义信息；基于所述语义信息，确定所述向量化样本中各个词的标签概率分布；基于所述标签概率分布，预测所述样本集中各样本的各个词的标签；基于所述预测的标签和所述标注的标签，计算损失误差，以修正神经网络模型的参数。

在一个或多个实施方式中，基于所述初始模型，确定待脱敏文本中各个词的标签概率分布，具体包括：

基于所述初始模型，获取待脱敏文本中各个词的上下文语义信息；基于所述语义信息，确定所述待脱敏文本中各个词的标签概率分布。

在一个或多个实施方式中，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：

基于所述待脱敏文本中各个词的标签概率分布，确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签；当所述待脱敏文本中任一个词的预测标签为脱敏标签，且该词的预测标签对应的标签概率小于第一阈值时，所述待脱敏文本确定为低置信度样本。

基于所述待脱敏文本中各个词的标签概率分布，确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签；当所述待脱敏文本中任一个词的预测标签为非脱敏标签，且该词的预测标签对应的标签概率小于第二阈值，且该词的标签概率分布中概率最大的三个标签中具有脱敏标签时，所述待脱敏文本确定为低置信度样本。

基于所述待脱敏文本中各个词的标签概率分布，计算各个词的标签概率分布的标准差；当所述待脱敏文本中任一个词的标签概率分布的标准差小于第三阈值时，所述待脱敏文本确定为低置信度样本。

第二方面，本发明提供了一种文本脱敏方法，其包括：

基于如前所述的文本脱敏模型的训练方法，训练得到文本脱敏模型；基于所述文本脱敏模型，对待脱敏文本进行脱敏。

第三方面，本发明提供了一种文本脱敏模型的训练装置，其包括：

预训练模块，用于基于含有标签信息的样本集，训练得到初始模型；第一确定模块，用于基于所述初始模型，确定待脱敏文本中各个词的标签概率分布；第二确定模块，用于基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本；增量训练模块，用于在所述待脱敏文本确定为低置信度样本时，获取所述待脱敏文本中各个词的标签，以作为训练样本对所述初始模型进行增量训练。

第四方面，本发明提供了一种文本脱敏模装置，其特征在于，包括：

训练模块，用于基于如前所述的文本脱敏模型的训练方法，训练得到文本脱敏模型；脱敏模块，用于基于所述文本脱敏模型，对待脱敏文本进行脱敏。

第五方面，本发明提供了一种电子设备，包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如前所述的文本脱敏模型的训练方法和文本脱敏方法。

第六方面，本发明提供了一种计算机可读介质，所述计算机可读介质中承载有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如前所述的文本脱敏模型的训练方法和文本脱敏方法。

与现有技术相比，本发明提供的文本脱敏模型的训练方法、文本脱敏方法及应用，通过初始模型预测待脱敏文本的标签概率分布序列，以筛选出低置信度的样本，并获取低置信度的样本标签信息，以作为训练样本送入初始模型进行增量训练；一方面可以快速干预错误脱敏的数据，另一方面可以在不同场景下进行带个性化的快速部署；同时，随着使用场景的增加与模型迭代更新，模型部署的时间将不断缩短。

附图说明

图1是本发明一实施方式中脱敏系统的系统架构示意图；

图2是本发明一实施方式中文本脱敏模型的训练方法的流程图；

图3是本发明一实施方式中文本脱敏方法的流程图；

图4是本发明一实施方式中文本脱敏模型的训练装置的结构框图；

图5是本发明一实施方式中文本脱敏装置的结构框图；

图6是本发明一实施方式中电子设备的结构框图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

为了方便理解本申请的技术方案，下面首先对本发明中可能出现的技术术语进行详细解释。

医疗文本：是指用于描述所属对象的医学属性的文本。例如，医疗文本可用于描述所属对象的名字、地址、电话，或者所患疾病的类型（名称）、分期、症状，或者用于描述所属对象使用的药品，或者用于描述所属对象所进行的治疗方案等。

人工标注：指训练神经网络模型前，通过人工对训练数据集中的训练样本进行真实值（ground-truth）标注的过程。人工标注得到的标注标签作为模型训练过程中对模型输出结果的监督，相应的，模型训练的过程即通过调整模型参数，使模型输出结果趋向于标注标签的过程。

人工神经网络（Artificial Neural Networks，ANNs）：也称为神经网络（NNs）或称作连接模型（Connection Model），它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。人工神经网络是基于特定的神经元模型，神经元按照不同的拓扑结构进行组合拼接而形成的网络联接模型。

损失函数（loss function)：又被称为代价函数（cost function），是一种用于评价神经网络模型的预测值与真实值之间差异程度的函数，损失函数越小，表明神经网络模型的性能越好，模型的训练过程即通过调整模型参数，最小化损失函数的过程。对于不同的神经网络模型，所采用的损失函数也不同，常见的损失函数包括0-1损失函数、绝对值损失函数、对数损失函数、指数损失函数、感知损失函数、交叉熵损失函数等等。

MuPDF：是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本，以在屏幕上再现打印页面的外观时获得最高保真度。它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB等。命令行工具允许注释、编辑文档，并将文档转换为其他格式，如XML、HTML、PDF和TXT等。

在医疗领域存在着大量涉及到隐私保护的医疗文本，比如患者病历包含了患者的很多隐私信息，交易合同中包含了企业名、医院名等敏感信息。本申请实施例提供的文本脱敏模型的训练方法和文本脱敏方法，可应用于医疗领域的医疗文本的文本脱敏过程，用以对医疗文本中的敏感信息进行脱敏处理（如对敏感信息进行替换或者隐藏）。

示范性的应用场景中，开发人员可以首先对部分医疗文本语料进行人工标注，从而利用人工标注的文本语料训练文本脱敏模型，该文本脱敏模型即用于基于输入文本，输出该输入文本中的待脱敏词及待脱敏词的句中偏移量。训练完成的文本脱敏模型部署在计算机设备上后，计算机设备将未标注文本语料输入文本脱敏模型，得到文本脱敏模型输出的待脱敏词及待脱敏词的句中偏移量。

请参照图1，示出了可以应用本发明实施例的文本脱敏模型的训练方法和文本脱敏方法的脱敏系统的示例性系统架构示意图。

请参照图1所示，该系统架构包括客户端101、脱敏服务器102、模型服务器103及网络104。网络104为用以在客户端101、脱敏服务器102和模型服务器103之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等，且该网络104可以是局域网、城域网以及广域网中的至少一种。

客户端101可以是用于提供文本语料的电子设备。例如，该电子设备可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动终端，也可以是台式电脑、投影式电脑等终端，本发明实施例对此不做限定。图1中，以客户端101为医护人员使用的计算机为例进行说明。

脱敏服务器102是指用于运行任一脱敏程序，并提供相应脱敏服务的服务器。模型服务器103是指可基于机器学习/深度学习技术进行模型训练，并可将训练得到的模型送入脱敏服务器102中的服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

本发明提供的文本脱敏模型的训练方法和文本脱敏方法，基于图1所示系统架构的实现文本脱敏的过程大致如下：

首先可通过模型服务器103训练得到文本脱敏模型，完成模型训练后，模型服务器103将文本脱敏模型送入到脱敏服务器102，并将文本脱敏模型部署在脱敏服务器102中。

然后，客户端101获取到文本语料后，将文本语料发送至脱敏服务器102。医护人员通过客户端101录入医疗文本后，客户端101将医疗文本作为文本语料发送至脱敏服务器102。

之后，由脱敏服务器102中的文本脱敏模型，从文本语料中提取待脱敏词及待脱敏词的句中偏移量，脱敏服务器102基于该待脱敏词及待脱敏词的句中偏移量进行文本脱敏操作。完成文本脱敏操作后，脱敏服务器102将脱敏文本下发到客户端101。

需要说明的是，以上只是示例性地表征本发明实施例所提出的脱敏系统的系统架构，并不对其进行限定。例如，图1所示的脱敏系统中部署了模型服务器103；但在实际应用中，也可不单独部署模型服务器103，而是由脱敏服务器102进行模型训练以得到文本脱敏模型。

请参照图2所示，为本发明一实施方式中的文本脱敏模型的训练方法的流程图。该文本脱敏模型的训练方法，具体包括以下步骤：

S201：基于含有标签信息的样本集，训练得到初始模型。

一示例性的实施例中，含有标签信息的样本集可以通过以下方式获得：为预处理后的文本语料中的各个词标注标签；利用词典将标注标签后的文本语料映射为序列化的文本表示；将所述序列化的文本裁剪或填充为固定长度，以获得含有标签信息的样本集。

具体地，开发人员可以利用计算设备对文本语料进行清洗、分割等预处理操作。例如，将xml、pdf等格式的文本文件转化为txt格式的文本文件，以去除文本中的特殊符号，并进行文本分句等操作。

其中，对于xml格式的文本文件，可以采用正则表达式 r'<[^>]> '去除html标签；对于pdf格式的可编辑文本文件，可以采用MuPDF的Python接口形式PyMuPDF读取文本段落，以得到txt格式的文本文件。

将文本语料转化为txt格式的文本文件后，可进行除文本中的特殊符号、英文简写替换、中文拼音替换、数字规范化、去除重复字符、遗漏字符补齐、按中文句号对文本内容进行切断划分等清洗操作，以完成对文本内容的分句。例如，对于文本内容“张三，年龄34岁，身份号码123456。张三于2022年5月18日入院。”进行前述清洗操作后，可得到“张三，年龄34岁，身份证号码123456。/张三于2022年5月18日入院。/”的清洗后文本。

具体地，可根据具体的业务场景与参考词性识别任务中的常用词性表，对预处理后的文本语料进行标注。本实施例中，设定了24种标签类型，包括“普通名词”、“形容词”、“人名”、“机构名”等。

示范性地，在对收集到的医疗领域相关医疗文本进行清洗操作后，得到了N条数据，其中每条数据为一个句子。基于设定的标签类型对各条数据中的各个词进行标注，得到数据集 D ^plain ={ D ₁ ,D ₂ ,… D _N}（即标注标签后的文本语料），其中，N为清洗后的句子级数据集大小。

可以理解的是，各条数据中的各个词的标注方式，可以是人工标注的方式（依赖于专业人员的经验），也可以是自动学习的标注方式（减少设计过程对于专业知识的依赖性），比如通过continuous prompt（连续提示）、soft prompt（软提示）等自动学习方式进行标注，本发明对此并不进行限定。

进一步地，数据集 D ^plain可以利用词典映射为序列化的文本表示，这里的词典可以是通过遍历原始文本语料获得的字符级词典 V={ v ₁ ,v ₂ ,… v _M}，或者是直接使用已公开的现有词典。示范性地，可以采用字符级分词方法，将每一个字符当作一个词，对应地，上述的词典可以是字符级词典。

为了满足后续的神经网络模型输入需求，本实施例中对每一条序列化的文本进行了裁剪与填充，将每一条序列化的文本调整为固定长度，以使每一条序列化的文本中词的个数相同。

示范性地，设定固定长度为 L _max（即词的个数为） L _max，对于各条序列化的文本中长度大于 L _max的文本进行裁剪，对长度小于 L _max的文本进行无意义序号表示的填充，以得到长度均为 L _max的数据集 D ^plain的序列化文本表示集合（即含有标签信息的样本集）。

可以理解的是，一个样本集可以是根据模型的训练、验证的需要被划分为训练集和验证集。在本实施例中，可以将样本集中的样本随机打乱，并按训练集和测试集的比例为8:2或7:3（具体的比例可以根据实际需要进行设定），将数据集 D ^plain的序列化文本表示集合划分为训练集 D ^train和验证集 D ^dev。对于训练集 D ^train和验证集 D ^dev中的每一条样本可以表示为 D _i ={ w ₁ ,w ₂ ,… w _Lmax}。

一示例性的实施例中，可基于前述样本集，对神经网络模型进行训练，以获得初始模型，具体包括：将所述样本集中的各样本映射为向量化样本；获取所述向量化样本中各个词的上下文语义信息；基于所述语义信息，确定所述向量化样本中各个词的标签概率分布；基于所述标签概率分布，预测所述样本集中各样本的各个词的标签；基于所述预测的标签和所述标注的标签，计算损失误差，以修正神经网络模型的参数。

具体地，可通过神经网络模型的Embedding层，随机初始化与词典 V中字符相对应的词向量矩阵 W _E，该词向量矩阵 W _E大小为M*128，其中M为词典 V的大小，128为向量维度。对于每一条序列化表示的样本 D _i ={ w ₁ ,w ₂ ,… w _Lmax}，可以通过词向量矩阵 W _E映射为向量化的表示，得到向量化样本 E _i ={ e ₁ ,e ₂ ,… e _Lmax}，其中 e _i为维度为128的向量表示，各条向量化样本 E _i可组成样本集的向量化表示 E ^all ={ E ₁ ,E ₂ ,… E _N}。

进一步地，可将前述向量化样本 E _i ={ e ₁ ,e ₂ ,… e _Lmax}送入神经网络模型的Bi-GRU层，以获取各样本中每个词的上下文语义特征信息，可以得到蕴含上下文语义特征信息的向量化序列 H={ h ₁ ,h ₂ ,… h _Lmax}，其中

，大小为1* L _max*256，为前向GRU（GatedRecurrent Unit，门控循环神经网络）与后向GRU的输出拼接表示。

进一步地，将蕴含上下文语义特征信息的向量化序列 H={ h ₁ ,h ₂ ,… h _Lmax}，送入神经网络模型的全连接层，以映射到更高层的语义空间，将特征层拟合到标签分布层得到 Y={ y ₁ ,y ₂ ,… y _Lmax}， Y可以理解为样本中每一个词的标签概率分布序列。其中， y _i =w _c h _i +b _c， w _c 、b _c为全连接层可训练的参数， h _i为当前词通过Bi-GRU层的向量表示， w _c的大小为256* N _Label， N _Label为标签种类的数量。最终得到的 y _i大小为1* N _Label大小，其中每一列表示取得该列对应标签的概率，在本实施例中 N _Label大小为24，即本实施例中设定了24中标签。

进一步地，在得到全连接层的输出后，将 Y={ y ₁ ,y ₂ ,… y _Lmax}送入神经网络模型的softmax层，将样本中每个词的标签概率分布进行归一化。对于 Y中 y _i ={ y _i1 ,y _i2 ,… y _iNLabel}，对于每一个元素 y _ij可以得到

，其中k=1,2,3,.... N _Label。因此，可以得到每条样本中各个词的标签概率分布序列 S={ s ₁ ,s ₂ ,… s _Lmax}，其中， s _i ={ s _i1 ,s _i2 ,… s _iNLabel}， s _i大小为1* N _Label，并且所有元素和为1。

更进一步地，基于样本的标签概率分布序列 S={ s ₁ ,s ₂ ,… s _Lmax}，确定样本中各个词的最大概率标签，将各个词的最大概率标签确定为样本的各个词的预测标签；基于各个词预测的标签、各个词的标注标签和损失函数，计算损失误差，以反向传播修正神经网络模型的参数。

本实施例中，可以按照固定轮数及批大小，每次随机选定样本训练集 D ^train中部分样本作为输入，并可以对综合损失函数使用Adam算法将梯度回传并计算更新后的模型参数值。在每一轮训练后，考察模型在验证集 D ^dev上的性能指标，例如：精确度（Precision）、召回率（Recall）和宏平均F1值。当模型训练的迭代次数达到100次，或者在3次测试内验证集的准确率无上涨便停止训练。最后，保存在验证集上表现最好的模型，作为初始模型。

S202：基于所述初始模型，确定待脱敏文本中各个词的标签概率分布。

可以理解的是，前述步骤S201中训练得到的初始模型，具有基于输入文本输出该输入文本中各个词的标签概率分布的功能。因此，可以将待脱敏文本输入到初始模型中，以输出得到待脱敏文本中各个词的标签概率分布。

需要说明的是，为满足初始模型的输入要求，可对待脱敏文本进行步骤S201中所述的清洗、分割、利用词典映射为序列化的文本表示、裁剪、填充等预处理操作。待脱敏文本可以是医务人员通过客户端录入的医疗文本。

具体地，预处理后的待脱敏文本输入到初始模型后，可通过初始模型的Embedding层映射为向量化的文本表示，该向量化的文本表示送入到初始模型的Bi-GRU层，可以获取到待脱敏文本中各个词的上下文语义信息，以获得待脱敏文本的蕴含上下文语义特征信息的向量化序列。将该向量化序列送入到初始模型的全连接层进行标签分布拟合，全连接层的输出送入到初始模型的softmax层进行归一化处理，以得到待脱敏文本中各个词的标签概率分布。

S203：基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本。

可以理解的是，获取待脱敏文本中各个词的标签概率分布后，标签概率分布中的最大概率标签即为各个词最有可能的标签，即可将各个词的标签概率分布中的最大概率标签，确定为各个词的最终预测标签。因此，基于文本的标签概率分布序列 S={ s ₁ ,s ₂ ,… s _Lmax}，可得到对应的标签序列 C={ c ₁ ,c ₂ ,… c _Lmax}，其中， c _i为各个词的最大概率标签。

一示例性的实施例中，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本的方式具体包括以下3种：

①基于所述待脱敏文本中各个词的标签概率分布，确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签；当所述待脱敏文本中任一个词的预测标签为脱敏标签，且该词的预测标签对应的标签概率小于第一阈值时，所述待脱敏文本确定为低置信度样本。

②基于所述待脱敏文本中各个词的标签概率分布，确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签；当所述待脱敏文本中任一个词的预测标签为非脱敏标签，且该词的预测标签对应的标签概率小于第三阈值，且该词的标签概率分布中概率最大的三个标签中具有脱敏标签时，所述待脱敏文本确定为低置信度样本。

③基于所述待脱敏文本中各个词的标签概率分布，计算各个词的标签概率分布的标准差；当所述待脱敏文本中任一个词的标签概率分布的标准差小于第三阈值时，所述待脱敏文本确定为低置信度样本。

以上3种确定低置信度样本的方式，可以单独使用，也可以组合使用。在本实施例中将以上3种确定低置信度样本的方式组合使用。

第①种方式，对于序列化表示的脱敏文本 D={ w ₁ ,w ₂ ,… w _Lmax}及其标签概率分布序列 S={ s ₁ ,s ₂ ,… s _Lmax}和标签序列 C={ c ₁ ,c ₂ ,… c _Lmax}，如果标签序列 C中的某个词 w _i的预测标签 c _i为脱敏标签（即需要脱敏的标签类型），且该预测标签 c _i对应的标签概率 s _ij小于第一阈值（如0.5，第一阈值可以根据实际需要进行设定）时，则可认为该预测标签 c _i置信度较低，可能属于误判脱敏情况。

第②种方式，对于序列化表示的待脱敏文本 D={ w ₁ ,w ₂ ,… w _Lmax}及其标签概率分布序列 S={ s ₁ ,s ₂ ,… s _Lmax}和标签序列 C={ c ₁ ,c ₂ ,… c _Lmax}，如果标签序列 C中的某个词 w _i的预测标签 c _i为非脱敏标签（即不需要脱敏的标签类型），且该预测标签 c _i对应的标签概率 s _ij小于第二阈值（如0.3，第二阈值可以根据实际需要进行设定）时，将该词 w _i的标签概率分布序列 s _i ={ s _i1 ,s _i2 ,… s _iNLabel}按照标签概率大小进行排序，当该词 w _i的标签概率分布中概率最大的三个标签中具有脱敏标签时，则可认为该预测标签 c _i置信度较低，可能属于漏判脱敏情况。

第③种方式，对于序列化表示的脱敏文本 D={ w ₁ ,w ₂ ,… w _Lmax}及其标签概率分布序列 S={ s ₁ ,s ₂ ,… s _Lmax}和标签序列 C={ c ₁ ,c ₂ ,… c _Lmax}，任一个词 w _i的标签概率分布序列 s _i ={ s _i1 ,s _i2 ,… s _iNLabel}，基于 s _i可计算得到词 w _i的标签概率分布的标准差 σ _i，当任一个词 w _i的标准差 σ _i小于第三阈值（如0.1，第三阈值可以根据实际需要进行设定）时，可认为无法清晰的判断出当前词归属的类型标签，即当前词的预测标签置信度低。

S204：若是，获取所述待脱敏文本中各个词的标签，并作为训练样本对所述初始模型进行增量训练。

需要说明的是，在待脱敏文本确定为低置信度样本时，可通过人工标注的方式，对待脱敏文本进行标注，以修正待脱敏文本中各个词的标签，并将修正标签后的待脱敏文本预处理后，作为训练样本对初始模型进行增量训练，以获得脱敏效果更佳的模型。修正标签后的待脱敏文本预处理方式，可参考前述内容，在此不再赘述。

一示例性的实施例中，在待脱敏文本确定为低置信度样本时，初始模型可同时输出可能正确的推荐标签序列，以供后续人工标注修正标签时参考，以提高人工标注效率。

具体地，对于前述第①种确定低置信度样本的方式，若待脱敏文本中某个词 w _i的预测标签 c _i为脱敏标签，且其对应的标签概率 s _ij小于第一阈值时，可输出该词 w _i的第二大概率标签作为其推荐标签。

具体地，对于前述第②种确定低置信度样本的方式，若待脱敏文本中某个词 w _i的预测标签 c _i为非脱敏标签，且其对应的标签概率 s _ij小于第二阈值，且该词 w _i的标签概率分布中概率最大的三个标签中具有脱敏标签时时，可输出该词 w _i的概率最大的三个标签中的概率最高的脱敏标签为其推荐标签。

例如，对于待脱敏文本“张三/于/今日/入院”的预测标签为“普通名词/介词/时间/动词”，通过分析标签概率分布，发现“张三”被预测为“普通名词”的概率小于第二阈值，并且“张三”的概率最大的三个标签中的中存在“人名”脱敏标签，且该“人名”脱敏标签为概率最大的三个标签中的概率最高的脱敏标签，可将“人名”输出为“张三”的推荐标签。

可以理解的是，基于前述文本脱敏模型的训练方法，可以适用不同脱敏标准的场景文本脱敏模型的快速部署。例如，在一医院端基于前述文本脱敏模型的训练方法，训练得到适用于该医院端脱敏标准的文本脱敏模型后；可将该文本脱敏模型作为初始模型部署在另一医院端，输入该另一医院端的待脱敏文本，以筛选出低置信度样本进行增量训练，通过增量训练在一定程度上可以学习到更加准确的标签以及带有个性偏置的标签概率分布情况，从而可快速更新迭代出适用于该另一医院端的文本脱敏模型。而且，基于前述文本脱敏模型的训练方法进行模型训练和部署，能够随着部署服务器端的增加，不断积累增量训练，使模型不断更新迭代，从而可不断加快后续模型的部署速度。

综上所述，本发明提供的文本脱敏模型的训练方法，通过初始模型预测待脱敏文本的标签概率分布序列，以筛选出低置信度的样本，并获取低置信度的样本标签信息，以作为训练样本送入初始模型进行增量训练；一方面可以快速干预错误脱敏的数据，另一方面可以在不同场景下进行带个性化的快速部署；同时，随着使用场景的增加与模型迭代更新，模型部署的时间将不断缩短。

请参照图3所示，为本发明一实施方式中的文本脱敏方法的流程图。该文本脱敏方法，具体包括以下步骤：

S301：基于文本脱敏模型的训练方法，训练得到文本脱敏模型。

本实施例中，文本脱敏模型的训练方法为前述任一实施例中所述的文本脱敏模型的训练方法，对于文本脱敏模型的具体训练过程，在此不再赘述。

S302：基于所述文本脱敏模型，对待脱敏文本进行脱敏。

可以理解的是，待脱敏文本经预处理输入到文本脱敏模型后，可以获得待脱敏文本的预测标签序列 C={ c ₁ ,c ₂ ,… c _Lmax}，结合具体的脱敏标准（定义了具体的脱敏标签类型），可确定待脱敏文本中敏感词及该敏感词在待脱敏文本中的偏移量。

例如，对于待脱敏文本“张三/于/今日/入院”，其预测标签为“人名/介词/时间/动词”，其中“人名”为脱敏标签类型，因此可确定待脱敏文本中第一个词（即“张三”）为敏感词。可通过遮蔽或字符替换的方式对敏感词进行脱敏查出来，如对“张三于今日入院”脱敏处理后可变为“**于今日入院”。

在本实施例中，对于pdf文件中的敏感词可采用黑色涂块进行遮蔽，对于文本文件中的敏感词可采用“*”进行替代。

一示例性的实施例中，对文本进行脱敏的过程中，可将文本脱敏模型脱敏和正则表达式脱敏相结合。例如，对于识别规律性较强的脱敏标签类型比如“电话号码”、“身份证号”、“医保卡”等，可采用正则表达式进行匹配脱敏；对于“人名”、“地点”等多样性高、规律性低的脱敏标签类型，可采用文本脱敏模型进行脱敏。

请参照图4所示，基于与前述文本脱敏模型的训练方法相同的发明构思，本发明一实施方式中提供了一种文本脱敏模型的训练装置400，其包括预训练模块401、第一确定模块402、第二确定模块403和增量训练模块404。

预训练模块401用于基于含有标签信息的样本集，训练得到初始模型。第一确定模块402用于基于所述初始模型，确定待脱敏文本中各个词的标签概率分布。第二确定模块403用于基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本。增量训练模块404用于在所述待脱敏文本确定为低置信度样本时，获取所述待脱敏文本中各个词的标签，以作为训练样本对所述初始模型进行增量训练。

具体地，预训练模块401可用于为预处理后的文本语料中的各个词标注标签，并利用词典将标注标签后的文本语料映射为序列化的文本表示，并将所述序列化的文本裁剪或填充为固定长度，以获得含有标签信息的样本集，并基于所述样本集，对神经网络模型进行训练，以获得初始模型。

进一步地，预训练模块401可用于将所述样本集中的各样本映射为向量化样本，以获取所述向量化样本中各个词的上下文语义信息；并基于所述语义信息，确定所述向量化样本中各个词的标签概率分布；并基于所述标签概率分布，预测所述样本集中各样本的各个词的标签；并基于所述预测的标签和所述标注的标签，计算损失误差，以修正神经网络模型的参数。

具体地，第一确定模块402可用于基于所述初始模型，获取待脱敏文本中各个词的上下文语义信息；并基于所述语义信息，确定所述待脱敏文本中各个词的标签概率分布。

具体地，第一确定模块402确定所述待脱敏文本是否为低置信度样本的方式具体包括：

①基于所述待脱敏文本中各个词的标签概率分布，确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签；当所述待脱敏文本中任一个词的预测标签为脱敏标签，且该词的预测标签对应的标签概率小于第一阈值时，所述待脱敏文本确定为低置信度样。

②基于所述待脱敏文本中各个词的标签概率分布，确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签；当所述待脱敏文本中任一个词的预测标签为非脱敏标签，且该词的预测标签对应的标签概率小于第二阈值，且该词的标签概率分布中概率最大的三个标签中具有脱敏标签时，所述待脱敏文本确定为低置信度样本。

请参照图5所示，基于与前述文本脱敏方法相同的发明构思，本发明一实施方式中提供了一种文本脱敏装置500，其包括训练模块501和脱敏模块502。

训练模块501用于基于如前述实施例中的文本脱敏模型的训练方法，训练得到文本脱敏模型。脱敏模块502用于基于所述文本脱敏模型，对待脱敏文本进行脱敏。

请参照图6所示，本发明实施例还提供了一种电子设备600，该电子设备600包括至少一个处理器601、存储器602（例如非易失性存储器）、内存603和通信接口604，并且至少一个处理器601、存储器602、内存603和通信接口604经由总线605连接在一起。至少一个处理器601用于调用在存储器602中存储或编码的至少一个程序指令，以使得至少一个处理器601执行本说明书的各个实施方式中所描述的文本脱敏模型的训练方法和文本脱敏方法的各种操作和功能。

在本说明书的实施例中，电子设备600可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理（PDA）、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。

本发明实施例还提供了一种计算机可读介质，该计算机可读介质上承载有计算机执行指令，所述计算机执行指令被处理器执行时，可用于实现本说明书的各个实施例中描述的文本脱敏模型的训练方法和文本脱敏方法的各种操作和功能。

本发明中的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置、系统、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种文本脱敏模型的训练方法，其特征在于，包括：

基于含有标签信息的样本集，训练得到初始模型；

基于所述初始模型，确定待脱敏文本中各个词的标签概率分布；

基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本；

若是，获取所述待脱敏文本中各个词的标签，并作为训练样本对所述初始模型进行增量训练。

2.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于含有标签信息的样本集，训练得到初始模型，具体包括：

为预处理后的文本语料中的各个词标注标签；

利用词典将标注标签后的文本语料映射为序列化的文本表示；

将所述序列化的文本裁剪或填充为固定长度，以获得含有标签信息的样本集；

基于所述样本集，对神经网络模型进行训练，以获得初始模型。

3.如权利要求2所述的文本脱敏模型的训练方法，其特征在于，基于所述样本集，对神经网络模型进行训练，具体包括：

将所述样本集中的各样本映射为向量化样本；

获取所述向量化样本中各个词的上下文语义信息；

基于所述语义信息，确定所述向量化样本中各个词的标签概率分布；

基于所述标签概率分布，预测所述样本集中各样本的各个词的标签；

基于所述预测的标签和所述标注的标签，计算损失误差，以修正神经网络模型的参数。

4.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述初始模型，确定待脱敏文本中各个词的标签概率分布，具体包括：

基于所述初始模型，获取待脱敏文本中各个词的上下文语义信息；

基于所述语义信息，确定所述待脱敏文本中各个词的标签概率分布。

5.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：

基于所述待脱敏文本中各个词的标签概率分布，确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签；

当所述待脱敏文本中任一个词的预测标签为脱敏标签，且该词的预测标签对应的标签概率小于第一阈值时，所述待脱敏文本确定为低置信度样本。

6.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：

当所述待脱敏文本中任一个词的预测标签为非脱敏标签，且该词的预测标签对应的标签概率小于第二阈值，且该词的标签概率分布中概率最大的三个标签中具有脱敏标签时，所述待脱敏文本确定为低置信度样本。

7.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：

基于所述待脱敏文本中各个词的标签概率分布，计算各个词的标签概率分布的标准差；

当所述待脱敏文本中任一个词的标签概率分布的标准差小于第三阈值时，所述待脱敏文本确定为低置信度样本。

8.一种文本脱敏方法，其特征在于，包括：

基于如权利要求1~7中任一项所述的文本脱敏模型的训练方法，训练得到文本脱敏模型；

基于所述文本脱敏模型，对待脱敏文本进行脱敏。

9.一种文本脱敏模型的训练装置，其特征在于，包括：

预训练模块，用于基于含有标签信息的样本集，训练得到初始模型；

第一确定模块，用于基于所述初始模型，确定待脱敏文本中各个词的标签概率分布；

第二确定模块，用于基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本；

增量训练模块，用于在所述待脱敏文本确定为低置信度样本时，获取所述待脱敏文本中各个词的标签，以作为训练样本对所述初始模型进行增量训练。

10.一种文本脱敏模装置，其特征在于，包括：

训练模块，用于基于如权利要求1~7中任一项所述的文本脱敏模型的训练方法，训练得到文本脱敏模型；

脱敏模块，用于基于所述文本脱敏模型，对待脱敏文本进行脱敏。

11.一种电子设备，包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~8中任一项所述方法。

12.一种计算机可读介质，其特征在于，所述计算机可读介质中承载有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1~8中任一项所述的方法。