CN110633577A - 文本脱敏方法以及装置 - Google Patents

文本脱敏方法以及装置 Download PDF

Info

Publication number
CN110633577A
CN110633577A CN201910779947.XA CN201910779947A CN110633577A CN 110633577 A CN110633577 A CN 110633577A CN 201910779947 A CN201910779947 A CN 201910779947A CN 110633577 A CN110633577 A CN 110633577A
Authority
CN
China
Prior art keywords
text
word
desensitized
desensitization
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910779947.XA
Other languages
English (en)
Other versions
CN110633577B (zh
Inventor
岳聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910779947.XA priority Critical patent/CN110633577B/zh
Publication of CN110633577A publication Critical patent/CN110633577A/zh
Application granted granted Critical
Publication of CN110633577B publication Critical patent/CN110633577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供文本脱敏方法以及装置,其中所述文本脱敏方法包括:对待脱敏文本进行向量化处理,获得待脱敏文本的词向量;基于文本特征对词向量进行标注,获得标注后的词向量在待脱敏文本中对应的词单元组成的词单元集合;根据词单元集合中包含的词单元的支持度创建频繁项集,并计算频繁项集中包含的频繁项的提升度;将提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据敏感词单元对待脱敏文本进行脱敏处理,获得脱敏文本。通过文本脱敏方法,提高了识别敏感词单元的准确率和覆盖率,从而在对文本进行脱敏的过程中能够提高文本中重要信息的脱敏效果,进而使得经过脱敏处理的文本中重要的信息得到了有效的保护。

Description

文本脱敏方法以及装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种文本脱敏方法。本申请同时涉及一种文本脱敏装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,用户的隐私以及文件中重要信息变得不再安全,为了保证用户的隐私以及文件中重要信息的安全性,出现了数据脱敏技术;数据脱敏技术是指将用户的隐私或者文件中较为重要的信息进行替换或者进行数据的变形,从而保证用户隐私中重要信息以及文件中重要信息的安全性。
目前,在对文本进行数据脱敏的过程中,通常采用人工规则集以及正则表达式的方式进行识别文本中的敏感信息,再根据识别出的敏感信息对文本进行脱敏处理,获得脱敏后的文本。
然而,无论是人工规则集还是正则表达式在对文本中的敏感信息进行识别的过程中,其识别敏感信息的覆盖率并不高,并且还需要人工不断的对规则集进行扩充,既浪费人工资源又无法保证识别敏感信息的覆盖率,很难保证文本中全部重要信息的安全性。
发明内容
有鉴于此,本申请实施例提供了一种文本脱敏方法。本申请同时涉及一种文本脱敏装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种文本脱敏方法,包括:
对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
可选的,所述对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量,包括:
获取所述待脱敏文本;
通过对所述待脱敏文本进行分句处理,获得句单元;
将所述句单元进行分词处理,根据分词处理结果构建所述待脱敏文本的文本共现矩阵;
通过对所述文本共现矩阵进行转换,获得所述待脱敏文本的词向量。
可选的,所述对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量步骤执行之后,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合步骤执行之前,包括:
根据所述词向量确定所述待脱敏文本对应的句单元的句向量;
将所述句向量进行转换,获得所述句向量对应的正向句向量以及反向句向量;
通过将所述正向句向量以及所述反向句向量进行拼接,根据拼接结果确定所述句单元的文本特征。
可选的,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合,包括:
根据所述文本特征对所述句向量中包含的词向量进行标注,获得标注后的所述句单元中包含的词单元;
将每个句单元中包含的词单元进行整合,确定为所述待脱敏文本中对应的词单元组成的所述词单元集合。
可选的,所述计算所述频繁项集中包含的频繁项的提升度,包括:
识别所述待脱敏文本的段落标识;
根据所述段落标识对所述待脱敏文本进行段落划分,确定所述待脱敏文本的段落区间;
选择所述频繁项集中包含的频繁项对应的词单元位于同一段落区间的第一词单元和第二词单元;
确定所述第一词单元在所述待脱敏文本中的第一频次,以及所述第一词单元和所述第二词单元位于同一段落区间的第二频次;
计算所述第二频次与所述第一频次二者的比值,作为所述频繁项集中包含的频繁项的提升度。
可选的,所述将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本步骤执行之后,包括:
根据所述脱敏文本以及所述待脱敏文本,确定所述待脱敏文本的脱敏率;
在所述脱敏率小于所述待脱敏文本的最高脱敏率的情况下,调整所述预设提升度阈值,获得调整提升度阈值;
将所述提升度大于所述调整提升度阈值的频繁项对应的词单元确定为新增敏感词单元;
根据所述新增敏感词单元对所述脱敏文本进行脱敏处理,获得最优脱敏文本。
可选的,所述文本特征包括下述至少一项:
词性特征、语义特征和属性特征。
可选的,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合,包括:
基于所述词性特征、所述语义特征和所述属性特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的实体组成的实体集合以及谓词组成的谓词集合;
将所述实体组成的实体集合作为所述词单元组成的词单元集合。
可选的,所述将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本,包括:
将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
可选的,所述将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本,包括:
在所述谓词集合中查找与所述敏感实体关联度大于预设关联度阈值的谓词,并确定所述谓词对应的词向量;
根据所述谓词对应的词向量在所述待脱敏文本中查找未进行标注的补充敏感词向量,并确定与所述补充敏感词向量对应的补充敏感实体;
将所述提升度大于预设提升度阈值的频繁项对应的实体以及所述补充敏感实体确定为所述敏感实体;
根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
可选的,所述根据所述词单元集合中包含的词单元的支持度创建频繁项集,包括:
通过对所述词单元集合进行遍历,获得所述词单元集合的筛选支持度;
将所述词单元集合中包含的词单元对应的支持度小于所述筛选支持度的词单元进行剔除,获得初始频繁项集;
根据所述初始频繁项集构建频繁树,获得所述频繁树的条件模式基;
利用所述频繁树的条件模式基构建与所述频繁树对应的条件频繁树;
根据所述条件频繁树以及所述条件模式基在所述频繁树上计算所述初始频繁项集中包含的每个频繁项的支持度;
选择所述初始频繁项集中包含的每个频繁项的支持度大于预设支持度阈值的频繁项创建所述频繁项集。
根据本申请实施例的第二方面,提供了一种文本脱敏装置,包括:
向量化处理模块,被配置为对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
标注模块,被配置为基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
计算提升度模块,被配置为根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
脱敏处理模块,被配置为将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意一项所述文本脱敏方法的步骤。
本申请提供的文本脱敏方法,通过对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量,实现了可以通过高维数字的向量特征表示每个词单元,提升了后续脱敏处理的工作效率,并基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合,根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度,实现了对所述词单元集合中的词单元均进行分析是否为敏感词单元,保证不会遗漏待脱敏文本中存在的重要信息,再将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本,实现了对待脱敏文本中存在的重要信息进行了脱敏,避免了出现待脱敏文本中重要的信息未脱敏的情况发生,有效的对待脱敏文本中重要信息进行了保护。
附图说明
图1是本申请一实施例提供的一种文本脱敏方法的流程图;
图2是本申请一实施例提供的一种文本脱敏方法中向量拼接过程的结构示意图;
图3是本申请一实施例提供的一种文本脱敏方法中标注实体过程的结构示意图;
图4是本申请一实施例提供的一种文本脱敏方法的处理过程流程图;
图5是本申请一实施例提供的一种文本脱敏装置的结构示意图;
图6是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
NLP:(Natural Language Processing,自然语言处理技术)是计算机科学、人工智能、语言学关注计算机和人类(自然)语言之间的相互作用的领域。
RNN:(Recurrent Neural Network,循环神经网络)可用于预测、标注、特征工程等NLP过程;即一个序列当前的输出与前面的输出也有关;具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再是无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
在本申请中,提供了一种文本脱敏方法,本申请同时涉及一种文本脱敏装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
下面结合附图1,附图2以及附图3对本申请实施例提供的一种文本脱敏方法进行描述。图1示出了根据本申请一实施例提供的一种文本脱敏方法的流程图,图2示出了根据本申请一实施例提供的一种文本脱敏方法中向量拼接过程的结构示意图,图3示出了根据本申请一实施例提供的一种文本脱敏方法中标注实体过程的结构示意图;其中,图1包括步骤102至步骤108。
步骤102:对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量。
本申请一实施例中脱敏是指将文本中存在的重要的信息进行替换或者隐藏,使得文本中重要的信息得到有效的保护;待脱敏文本可以是记录用户的个人信息的文本,或者记录企业中内部文件的文本,为了防止文本中重要的信息丢失,即需要脱敏技术对文本内容进行脱敏处理,使得重要的信息得到保护,能够使公开的文本中不会存在重要的信息或者将重要的信息通过其他字符进行了替换,使得重要的信息得到的有效的保护;
例如,用户的个人信息对应的文本为姓名甲,年龄34岁,身份证号码123456,在某篇新闻报道中涉及到该用户,为了不泄露该用户的个人信息,通过将个人信息对应的文本中重要的信息进行替换为虚假信息或更改为其他字符,使得该用户的个人信息不会泄露,将个人信息对应的文本进行脱敏,新闻展示该用户的最终个人信息的内容为姓名A(网络用名)年龄34岁,身份证号码******;通过脱敏技术对用户的重要个人信息进行了保护,可见文本脱敏技术在保护隐私或者保护商业文本中重要信息的应用中起着重要的作用。
基于此,将以所述待脱敏文本为用户的个人信息对应的文本为例,对所述文本脱敏方法进行描述,在用户通过网络等大型公开平台不小心泄露个人信息的情况下,平台为了避免该类情况发生,会对用户上传的信息进行审核,若存在敏感信息可以对敏感信息对应的文本进行脱敏处理,在此过程中,通过对个人信息中存在的敏感信息进行脱敏处理,例如存在的身份证号码、家庭住址或者银行卡号等敏感信息进行脱敏处理,可以使得用户个人信息中重要的信息得到保护,进而保护了个人的隐私的安全。
本申请提供的文本脱敏方法中,为了能够使得用户的个人隐私信息在泄露的情况下得到有效的保护,即记录个人信息的文本中存在的敏感信息都可以得到替换或者隐藏,通过对文本进行向量化处理,获得文本的词向量,实现了可以通过向量特征表示每个词单元,提升了后续脱敏处理的工作效率,并对词向量进行标注,初步的提取出全部词向量中存在的较为重要的词向量对应的词单元,再进一步根据提取的词单元的支持度确定频繁项集,并计算频繁项集中包含的每个频繁项的提升度,实现了更进一步确定文本中重要的信息,将提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,再根据敏感词单元对记录用户的个人信息的文本进行脱敏处理,获得脱敏后的隐藏用户个人信息的文本,实现了对用户个人信息中存在的全部隐私信息进行了脱敏,避免了出现文本中用户的个人信息未脱敏的情况发生,有效的对用户的隐私信息进行了保护。
本实施例的一个或多个实施方式中,对所述待脱敏文本进行向量化处理的过程,具体实现方式如下所述:
获取所述待脱敏文本;
通过对所述待脱敏文本进行分句处理,获得句单元;
将所述句单元进行分词处理,根据分词处理结果构建所述待脱敏文本的文本共现矩阵;
通过对所述文本共现矩阵进行转换,获得所述待脱敏文本的词向量。
具体的,在获取所述待脱敏文本的情况下,确定需要对所述待脱敏文本进行脱敏处理,首先对所述待脱敏文本进行分句处理,获得所述句单元,所述句单元具体是指所述待脱敏文本中包含的每个句子,再以所述句单元为单位进行分词处理,获得所述待脱敏文本的全部词单位,例如,句单元为:“我爱学习”,则词为“我”“爱”和“学习”;基于此,根据获得的词构建所述待脱敏文本的文本共现矩阵,通过对所述文本共现矩阵进行转换,即可获得所述待脱敏文本的全部词向量。
具体实施时,在获得所述句单元之后,构建所述文本共现矩阵,再通过对所述文本共现矩阵进行转化获得所述待脱敏文本的词向量的过程可以通过GloVe(Global Vectors或Global Vectors for Word Representation)算法实现,GloVe算法是一个基于全局词频统计的词表征工具,可以将一个文本词表达成一个由实数组成的词向量,通过GloVe算法转换的词向量可以捕捉到文本词之间的语义特性,例如相似性或类别性等语义特性。
在通过所述GloVe算法进行向量化处理的过程中,根据分词处理获得的文本词构建所述文本共现矩阵,具体是指确定每个元素(文本词)Xi,j代表文本词i和所述待脱敏文本中文本词j在特定大小的上下文窗口内共同出现的次数,例如,文本为“I love everythingin China”,设定窗口大小为2,则“I”对应的窗口内容为“I love everything”,“love”对应的窗口内容为“I love everything in”,“everything”对应的窗口内容为“I loveeverything in China”,“in”对应的窗口内容为“love everything in China”,“China”对应的窗口内容为“everything inChina”,在确定中心词为“love”的情况下,语境词为“China”,则Xlove,China=1,说明在文本中“love”和“China”共同出现的次数为1,以此类推,将整个文本的窗口内容遍历一遍,即可获得文本共现矩阵,在文本共现矩阵中全部元素对应的数值均为1,并且文本共现矩阵是5*5的矩阵。
基于此,根据获得的所述文本共现矩阵进行向量化处理过程中,通过选择矩阵中每个文本词对应的横向矩阵以及纵向矩阵,将横向矩阵和纵向矩阵相乘即可确定为每个文本词的词向量,例如,文本词的横向矩阵1*n的矩阵为(a,b,c)纵向矩阵n*1的矩阵为(1,2,3),则该文本词的向量为a+2b+3c。
除此之外,在对所述待脱敏文本进行分句处理的过程中,可以根据所述待脱敏文本中的标点符号进行分句,例如识别所述待脱敏文本中的逗号、分号或者句号对所述待脱敏文本进行分句,即可获得所述句单元;具体对所述待脱敏文本进行分句处理的过程可以根据实际应用场景进行处理,本申请在此不做任何限定。
在对所述待脱敏文本进行向量化处理的过程中,通过采用GloVe算法进行向量化处理,实现了可以自然语言转换为高维数据向量特征,结合该算法特性,实现了可以捕捉待脱敏文本中每个文本词之间的语义特性,方便了在后续处理的过程中标注所述待脱敏文本中的词单元。
步骤104:基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合。
具体的,在上述对所述待脱敏文本进行向量化处理之后获得所述词向量的基础上,进一步的,根据文本特征对所述词向量进行标注,具体是指对全部词向量中标注出较为重要的词单元,即可获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合。
具体实施时,基于GloVe算法的特性,可以对词向量进行标注,即可确定标注后的词向量对应的词单元,再将词单元组成所述词单元集合;其中所述文本特征可以包括词性特征、语义特征和属性特征,所述词性特征具体是指每个词单元的词性是动词、名词或者形容词,所述语义特征具体是词单元的语义,所述属性特征具体是指词单元所述类型是实体还是谓词,所述实体是指具体映射到现实中的物体对应的名称。
基于此,本实施例的一个或多个实施方式中,所述文本特征包括下述至少一项:词性特征、语义特征和属性特征;除此之外,还可以包括更多的文本特征,本申请在此不做任何限定。
在上述确定所述文本特征包括词性特征、语义特征和属性特征的基础上,进一步的,本实施例的一个或多个实施方式中,可以根据所述词性特征、语义特征以及所述属性特征对所述词向量进行标注,并能够获得谓词集合以及实体集合,具体实现方式如下所述:
基于所述词性特征、所述语义特征和所述属性特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的实体组成的实体集合以及谓词组成的谓词集合;
将所述实体组成的实体集合作为所述词单元组成的词单元集合。
具体的,在基于所述词性特征、所述语义特征和所述属性特征对所述词向量进行标注的过程中,可以实现对所述待脱敏文本中的实体进行提取,以及谓词进行提取,即标注出词向量对应的在所述待脱敏文本中的实体,以及词向量在所述待脱敏文本中的谓词,根据标注出的实体组成实体集合,标注出的谓词组成谓词集合;
基于此,在对所述待脱敏文本中的重要信息进行脱敏的过程中,实则是将与实体相关的重要信息进行隐藏或将实体进行隐藏,则可以将所述实体集合确定为所述词单元集合。
具体实施时,所述实体包括标识实体和属性实体,其中所述标识实体可以为个体信息或者组织机构信息,例如用户姓名或机构名称,用户身份证号码或机构注册号码,用户居住地或者机构单位地址,用户电话号或机构电话号等均为实体;所述属性实体可以是单独的信息,例如性别、年龄、邮编、生日等信息,可以以此推断出用户信息的称之为属性实体,所述谓词为连接不同实体的谓语,可以为不同的实体建立关联关系的文本词,例如父子、夫妻、承担、负责、付款等可以将两个实体之间建立关联关系的文本词。
在上述基于所述文本体征对所述词向量进行标注的基础上,进一步的,本实施例的一个或多个实施方式中,所述文本体征的确定过程具体实现方式如下所述:
根据所述词向量确定所述待脱敏文本对应的句单元的句向量;
将所述句向量进行转换,获得所述句向量对应的正向句向量以及反向句向量;
通过将所述正向句向量以及所述反向句向量进行拼接,根据拼接结果确定所述句单元的文本特征。
具体的,在上述通过对所述待脱敏文本进行分句处理的情况下,获得所述待脱敏文本的句单元,根据对所述待脱敏文本进行向量化处理获得的词向量,确定每个句单元的句向量,即可理解为将同一句单元中包含的词向量进行拼接,即可获得句单元的句向量;
基于此,通过对获得的句向量进行转换获得句向量对应的正向句向量以及反向句向量,再将所述正向句向量以及所述反向句向量进行拼接,根据拼接结果可以确定句向量对应的句单元中每个文本词之间是否相互影响,具体是指一句话中的每个词或者词组是对该句话中的那一部分的词的描述,例如,“我爱你我的母校”,其中“爱”是对“母校”的限定,以此可以确定“爱”和“母校”两个词之间的关系较高;在此基础上,根据拼接结果即可确定句单元的文本特征。
具体实施时,在标注所述词单元的过程中,可以通过RNN确定标注所述词向量的文本特征,具体是指基于RNN构建的一种Bi-LSTM(Bi-directional Long Short-TermMemory,双向长短期记忆网络)模型实现标注词单元的;在Bi-LSTM模型中通过门控制结构(输入门、遗忘门和输出门)中的遗忘门可以选择性的遗忘部分历史信息,将保留的信息中加入当前输入的信息,并进行整合输出信息即可;可以理解为在Bi-LSTM模型中存在正向LSTM与反向LSTM,其中无论是正向LSTM还是反向LSTM中都是由遗忘门Ft,记忆门It和输出门Ot组成,LSTM的计算过程为通过对输入的句向量进行记忆,并将句向量中无用的信息进行丢弃,同时将上一句向量中有用的信息与当前句向量进行整合,通过输出门Ot输出获得需要的句向量的拼接结果,在根据拼接结果确定所述句单元的文本特征。
参见图2,以“我爱学习”为句单元为例,对向量拼接过程进行描述,将“我”“爱”“学习”三个词输入至正向LSTM,得到对应的正向句向量为(hL0,hL1,hL2),再输入至反向LSTM,得到对应的反向句向量为(hR0,hR1,hR2),通过正向句向量(hL0,hL1,hL2)与反向句向量(hR0,hR1,hR2)进行拼接,获得拼接后的向量为((hL0,hR2),(hL1,hR1),(hL2,hR0)),即如图2所示的句向量(h0,h1,h2),通过获取的句向量和句单元可以确定“爱”是对“学习”进行的动作,即该句子的语义特征是褒义语句,并且是表达感情的语句。
通过确定所述待脱敏文本的句单元的句向量,再将句向量进行转换获得正向句向量和反向句向量,通过将所述正向句向量和所述反向句向量进行拼接,再对拼接后的拼接结果进行分析即可确定用于标注词单元的文本特征,实现了可以有效的提高标注词单元的准确性,从而保证了在后续对所述待脱敏文本进行脱敏的准确性。
在上述确定所述待脱敏文本的句向量的基础上,进一步的,本实施例的一个或多个实施方式中,通过标注每个句向量中包含的词向量,进而确定所述词单元集合,具体实现方式如下所述:
根据所述文本特征对所述句向量中包含的词向量进行标注,获得标注后的所述句单元中包含的词单元;
将每个句单元中包含的词单元进行整合,确定为所述待脱敏文本中对应的词单元组成的所述词单元集合。
具体的,在上述确定的所述待脱敏文本的句向量的基础上,根据所述文本特征对所述句向量中包含的词向量进行标注,可以通过标签的方式确定每个词向量代表类型,所述每个词向量代表类型具体是指每个词向量对应的词单元的词性类型;基于此,根据所述句向量中标注的词向量,确定所述句向量对应的句单元中包含的词单元,所述词单元可以是所述句单元中的属性实体或者标识实体,再将每个句单元中包含的词单元进行整合,即可确定为所述待脱敏文本的词单元组成的所述词单元集合。
参见图3,以待脱敏文本为“用户用ZF消费”,所述词单元为实体为例,对标注实体的过程进行描述,其中,用户用ZF消费中的ZF表示一种可以付款的应用程序,参见图3,首先根据GloVe算法对每个字进行向量转化,获得每个字的词向量,在通过Bi-LSTM确定文本体征,同时进行实体标注,将B代表标签的开始,E代表标签的结束,PER代表姓名实体,ORG代表机构实体,O代表谓词实体,通过对“用户用ZF消费”进行向量化处理,并标注文本中的实体以及谓词,参见图3可以确定在“小”字存在起始标签和姓名实体,在“明”字存在结束标签和姓名实体,“Z”字存在起始标签和机构实体,“F”字存在结束标签和机构实体,“用”、“消”和“费”存在谓词实体,可以确定实体集合为“用户”和“ZF”,谓词集合为“用”和“消费”。
通过对待脱敏文本中的实体和谓词均进行标注,可以确定实体集合和谓词集合,并将所述实体集合确定为词单元集合,保证了在后续确定敏感词单元的过程中,确定的敏感词单元均为文本中重要的信息,提高了待脱敏文本的脱敏率和保证了对待脱敏文本进行脱敏的脱敏效果。
步骤106:根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度。
具体的,在上述确定词单元集合的基础上,进一步的,根据所述词单元集合中包含的词单元,确定每个词单元的支持度,再根据每个词单元的支持度创建频繁项集,即选择词单元集合中出现频次较高的词单元创建一个集合称之为所述频繁项集,所述频繁项集中包含的每个频繁项即是频次较高的词单元,再计算每个频繁项的提升度,具体是指计算频繁项集中包含的频繁项对应词单元的提升度;
具体实施时,所述支持度可以通过式(1)进行计算:
其中,所述support表示支持度,A,B均表示词单元,P(A∩B)表示词单元A和词单元B共同出现在同一句单元中的次数,P(All)表示待脱敏文本中句单元总数目。
基于此,所述式(1)可以理解为在词单元集合中任意两个词单元相对于所述待脱敏文本共同出现的概率,将任意两个词单元共同出现的概率作为支持度,可以通过支持度确定任意两个词单元之间的关联性,支持度越高,说明关联度越强,则任意两个词单元为敏感词单元的概率越高,反之,支持度越低,说明关联度越弱,则任意两个词单元为敏感词单元的概率越低。
以此类推,全部词单元集合中的词单元均可以通过式(1)进行计算支持度,将大于预设支持度阈值的词单元提取,创建所述频繁项集。
在上述创建所述频繁项集的基础上,进一步的,本实施例的一个或多个实施方式中,为了能够准确的选择所述词单元集合中的词单元创建所述频繁项集,可以通过如下方式进行创建:
通过对所述词单元集合进行遍历,获得所述词单元集合的筛选支持度;
将所述词单元集合中包含的词单元对应的支持度小于所述筛选支持度的词单元进行剔除,获得初始频繁项集;
根据所述初始频繁项集构建频繁树,获得所述频繁树的条件模式基;
利用所述频繁树的条件模式基构建与所述频繁树对应的条件频繁树;
根据所述条件频繁树以及所述条件模式基在所述频繁树上计算所述初始频繁项集中包含的每个频繁项的支持度;
选择所述初始频繁项集中包含的每个频繁项的支持度大于预设支持度阈值的频繁项创建所述频繁项集。
具体的,通过对所述词单元集合进行遍历,可以理解为扫描一次所述词单元集合,获得所述词单元集合的筛选支持度,所述筛选支持度为初始支持度阈值,具体是指对所述词单元集合中的词单元进行初步的筛选设定的阈值,所述筛选支持度的确定需要扫描一次所述词单元集合,计算出所述词单元集合中每个词单元出现的频次和频率,根据频率分布情况,设置一个频率阈值,将该频率阈值作为所述筛选支持度;
基于此,将所述词单元集合中小于所述筛选支持度的词单元进行剔除,保留所述词单元集合中大于等于所述筛选支持度的词单元创建一个初始频繁项集,再根据所述频繁项集构建频繁树,获得所述频繁树的条件模式基,所述构建树的过程为:以句单元为单位,并且基于上述创建的所述初始频繁项集中包含的词单元的频次和频率,将句单元中小于所述筛选支持度的词单元进行删除,保留大于等于筛选支持度的词单元,再将词单元按照频率进行排序,此时获得所述初始频繁项集,在对所述初始频繁项集进行遍历,根据遍历情况开始构建频繁树,首先设置根节点为空,再根据每个句单元中的词单元按照频率的排列顺序进行建立子节点,在出现句单元中包含的词单元相同并且词单元的排列顺序也相同的情况下,将已经存在的子节点数值加1即可,以此类推,将所述初始频繁项中的每个句单元均可以在所述频繁树中找到对应的节点;
在构建完成所述频繁树的情况下,需要确定所述初始频繁项集中每个频繁项对应的词单元的条件模式基,所述条件模式基为每个频繁项对应的词单元所存在的路径(即节点顺序),以及在该路径上每个词单元的数值,数值即表示每个词单元在该路径上出现的次数,以此类推,将所述初始频繁项集中的每个频繁项对应的词单元均执行上述操作,直至初始频繁项集中存在的词单元都整理完毕,根据整理出的路径以及数值构建所述条件频繁树,所述条件频繁树与上述频繁树的构建方式相同,本申请在此不在赘述;
在确定所述条件频繁树的情况下,根据所述条件频繁树对所述初始频繁项集进行进一步的筛选,即确定初始频繁项集中任意至少两个频繁项共同出现的频次是否大于预设支持度阈值,将大于所述预设支持度阈值的频繁项构建为所述频繁项,将小于所述预设支持度阈值的频繁项进行删除。
具体实施时,创建所述频繁项集的过程可以通过FP-growth算法实现,通过FP-growth算法对所述词单元集合进行挖掘,实现可以快速的提取频次和频率较高的词单元创建所述频繁项集。
通过遍历所述词单元集合,获得所述筛选支持度,再将所述词单元集合中包含的词单元对应的支持度小于所述筛选支持度的词单元进行剔除,获得初始频繁项集,再对所述初始频繁项集进行进一步的筛选,根据筛选结果创建所述频繁项集,实现了可以高效的确定所述待脱敏文本中存在的可能为敏感词单元的词单元,更进一步的提高了的后续对所述待脱敏文本进行脱敏的脱敏效果。
在上述创建所述频繁项集的基础上,进一步的,本实施例的一个或多个实施方式中,计算所述频繁项集中包含的频繁项的提升度,具体实现方式如下所述:
识别所述待脱敏文本的段落标识;
根据所述段落标识对所述待脱敏文本进行段落划分,确定所述待脱敏文本的段落区间;
选择所述频繁项集中包含的频繁项对应的词单元位于同一段落区间的第一词单元和第二词单元;
确定所述第一词单元在所述待脱敏文本中的第一频次,以及所述第一词单元和所述第二词单元位于同一段落区间的第二频次;
计算所述第二频次与所述第一频次二者的比值,作为所述频繁项集中包含的频繁项的提升度。
具体的,识别所述待脱敏文本的段落标识,所述段落标识可以是句号或者类似于word中的格式标记等,通过识别段落标识对所述待脱敏文本进行段落划分,将所述待脱敏文本划分为多个段落区间,在所述频繁项集中选择位于同一段落区间的频繁项对应的词单元,将位于同一段落区间的词单元确定为第一词单元和第二词单元,并通过查询所述频繁项集确定所述第一词单元和所述第二词单元在所述待脱敏文本中的第一频次,以及所述第一词单元和所述第二词单元共同出现在同一段落区间的第二频次,再计算所述第一频次和所述第二频次二者的比值,将比值作为所述频繁项集中频繁项的提升度,所述提升度可以表征频繁项对应的词单元为敏感词单元的强弱关系。
具体实施时,所述提升度可以通过式(2)进行计算:
Figure BDA0002176253340000211
其中,所述lift标识提升度,A,B均表示频繁项对应的词单元,P(A∩B)表示词单元A和词单元B共同出现在同一句单元中的次数,P(A|B)表示在B出现的情况下,A出现的次数,P(B|A)表示在A出现的情况下,B出现的次数,P(A)表示A出现的总次数,P(B)表示B出现的总次数。
基于此,所述式(2)可以理解为在频繁项集中任意两个频繁项对应的词单元共同出现的频次相对于其中任意一个词单元的占比,在占比越高的情况下,说明任意两个频繁项对应的词单元的关联度越高,则提升度也就越高,说明两个频繁项对应的词单元可能为敏感词单元的可能性也就越高,反之,提升度越低,说明两个频繁项对应的词单元可能为敏感词单元的可能性也就越低。
以此类推,将全部频繁项集中包含的频繁项对应的词单元均可以通过式(2)进行提升度计算。
例如,存在5个频繁项对应的词单元,分别为A、B、C、D和E,其中A、B、C、D和E均为同一待脱敏文本中的词单元,并且在待脱敏文本中A出现频次为10次,B出现频次为5次,A先出现B后出现的频次为3次,通过式(2)计算提升度为60%,则可以确定A和B两个词单元之间的提升度为60%。
通过计算提升度可以更进一步的对所述待脱敏文本中存在的词单元进行筛选,更进一步的保证了确定所述敏感词单元的准确性。
步骤108:将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
具体的,在上述确定所述频繁项集中包含的每个频繁项的提升度的基础上,进一步的,将所述提升度大于所述预设提升度阈值的频繁项对应的词单元确定为所述敏感词单元,具体是指通过计算所述待脱敏文本中包含的词单元的支持度和提升度,将提升度和支持度均较高的词单元确定为所述敏感词单元,即支持度和提升度越高,说明关联性越强,在关联性强的情况下,说明所述词单元为敏感词单元的可能性越高;
基于此,在确定所述敏感词单元的情况下,通过对所述待脱敏文本中的敏感词单元进行脱敏处理,即可获得所述脱敏文本,根据所述敏感词单元对所述待脱敏文本进行脱敏处理具体是指通过对所述敏感词单元进行隐藏或者替换,使得所述待脱敏文本中的敏感词单元得到了保护,从而获得的所述脱敏文本中是无法获知重要的信息的。
在上述确定所述敏感词单元为敏感实体的基础上,进一步的,本实施例的一个或多个实施方式中,所述将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本,包括:
将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
具体的,在所述待脱敏文本为包含实体的文本的情况下,需要对关于实体的内容进行脱敏,通过将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本即可。
在上述对所述词单元进行标注的基础上,进一步的,本实施例的一个或多个实施方式中,在确定所述谓词集合以及所述实体集合的情况下,为了避免所述待脱敏文本中存在未被确定为所述敏感实体的情况发生,可以通过如下方式进行进一步的补充敏感实体,具体实现方式如下所述:
在所述谓词集合中查找与所述敏感实体关联度大于预设关联度阈值的谓词,并确定所述谓词对应的词向量;
根据所述谓词对应的词向量在所述待脱敏文本中查找未进行标注的补充敏感词向量,并确定与所述补充敏感词向量对应的补充敏感实体;
将所述提升度大于预设提升度阈值的频繁项对应的实体以及所述补充敏感实体确定为所述敏感实体;
根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
具体的,在确定所述谓词集合以及所述敏感实体的情况下,通过在所述谓词集合中查找与所述敏感实体关联度较大的谓词,具体可以是通过查找所述谓词集合中包含的谓词与所述敏感实体在所述待脱敏文本中位置较为靠近的谓词,说明该类谓词可能是对所述敏感实体的限定或者描述,则获取关联度大于预设关联度阈值的谓词,并确定所述谓词对应的词向量;
基于此,在确定所述谓词的词向量的情况下,通过在所述待脱敏文本中查找未进行标注的补充敏感词向量,具体是指首先确定与敏感实体关联度较高的谓词,在通过在所述待脱敏文本中查找与该谓词关联度较高并且未确定为敏感实体的补充实体,将所述补充实体确定为所述补充敏感实体,在对所述待脱敏文本进行脱敏的过程中,根据所述敏感实体以及所述补充敏感实体对所述待脱敏文本进行脱敏,即可获得所述脱敏文本。
例如,在一篇文本中存在一句话“用户U的银行卡密码为123456”,在对该篇文本进行脱敏的过程中,未能够对“银行卡密码为123456”中的“123456”进行脱敏,并且“银行卡”为敏感实体,“密码”为对“银行卡”描述的谓词,对应用户U来讲银行卡密码“123456”是重要的信息,需要对“123456”进行脱敏,则可以通过谓词“密码”对该文本中的未被标注的实体进行进一步确定,确定为补充敏感实体,则可以确定“123456”为补充敏感实体,再对该文本进行脱敏处理可以确定“用户U的银行卡密码为123456”脱敏后的结果为“用户U的银行卡密码为******”。
在对所述待脱敏文本进行脱敏的过程中,为了能够提高对所述待脱敏文本的脱敏效果,通过所述待脱敏文本中的谓词对所述待脱敏文本中的实体进行关联度计算,将关联度较高的实体并且未被标注为敏感实体的实体可以确定为补充敏感实体,基于此在对所述待脱敏文本进行脱敏,可以有效的对所述待脱敏文本中的重要信息的保护,避免了遗漏重要信息的情况发生。
在上述确定所述脱敏文本的基础上,进一步的,本实施例的一个或多个实施方式中,可以确定所述脱敏文本的脱敏率,在脱敏率未达到所述脱敏文本的最高脱敏率的情况下,可以对所述脱敏文本进行进一步的脱敏,具体实现方式如下所述:
根据所述脱敏文本以及所述待脱敏文本,确定所述待脱敏文本的脱敏率;
在所述脱敏率小于所述待脱敏文本的最高脱敏率的情况下,调整所述预设提升度阈值,获得调整提升度阈值;
将所述提升度大于所述调整提升度阈值的频繁项对应的词单元确定为新增敏感词单元;
根据所述新增敏感词单元对所述脱敏文本进行脱敏处理,获得最优脱敏文本。
具体的,根据所述脱敏文本以及所述待脱敏文本,确定所述待脱敏文本的脱敏率,即通过将已经脱敏的词单元和待脱敏文本全部词单元进行作比,根据获得的比值确定所述待脱敏文本的脱敏率,在此情况下,评估所述待脱敏文本的最高脱敏率,即所述待脱敏文本经过脱敏处理,能够表达出的语义与未脱敏的文本表达出的语义相等即可,使得可以确定所述待脱敏文本的最高脱敏率的情况下,并不会影响对所述待脱敏文本的理解;
在此基础上,在所述待脱敏文本的脱敏率小于所述待脱敏文本的最高脱敏率的情况下,说明所述待脱敏文本中还存在可以进行脱敏的词单元,为了避免所述待脱敏文本中重要的信息遗漏,可以动态的调整所述预设提升度阈值,即将所述预设提升度阈值进行减低,再重新确定所述待脱敏文本的敏感词单元,将新确定的敏感词单元确定为所述新增敏感词单元,在重新确定所述待脱敏文本的脱敏率,直至所述脱敏率等于所述最高脱敏率的情况下,说明所述待脱敏文本的脱敏效果是最佳的,即可获得所述最优脱敏文本。
除此之外,在所述脱敏率大于所述最高脱敏率的情况下,说明经过脱敏处理的文本中可能将一些不重要的信息也进行了脱敏,将会影响正常的阅读该文本,可以通过将所述提升度阈值调高,重新对所述待脱敏文本进行脱敏,直至所述待脱敏文本的脱敏率等于最高脱敏率即可获得最优的脱敏文本。
例如,提升度阈值为70%,在对一篇未进行脱敏的文本进行脱敏的过程中,确定大于提升度阈值的频繁项对应的词单元存在100个,通过这100个词单元对该文本进行脱敏,确定该文本的脱敏率为60%,而该文本的最高脱敏率为80%,脱敏率小于最高脱敏率,则可以将提升度阈值从70%降低至65%,再重新确定该文本的频繁项对应的词单元,重新确定的词单元增加了20个,在对该文本进行脱敏,确定该文本的脱敏率为78%,脱敏率为78%趋近于最高脱敏率80%,则可以将脱敏率为78%的脱敏文本作为最终的展示文本。
本申请提供的文本脱敏方法,通过对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量,实现了可以通过高维数字的向量特征表示所述待脱敏文本中的文本词,提升了后续脱敏处理的工作效率,在通过对所述词向量进行标注,初步的提取出全部词向量中存在的较为重要的词向量对应的词单元,创建所述词单元集合,再进一步根据提取的词单元的支持度确定频繁项集,并计算频繁项集中包含的每个频繁项的提升度,实现了更进一步确定所述待脱敏文本中的重要的信息,将提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,再根据敏感词单元对所述待脱敏文本进行脱敏处理,获得所述脱敏文本,为了能够提升所述待脱敏文本的脱敏效果,可以通过待脱敏文本中的谓词与待脱敏文本中未标注的词单元的关联度或者根据脱敏率,进一步的对所述脱敏文本进行更深层次脱敏处理,即可获得脱敏效果最优的脱敏文本,实现的对所述待脱敏文本中重要的信息均进行了隐藏或者替换,避免了出现待脱敏文本中出现重要的信息未脱敏的情况发生,有效的对所述待脱敏文本中的重要的信息进行了保护。
下述结合附图4,以本申请提供的文本脱敏方法对用户个人信息保护的应用为例,对所述文本脱敏方法进行进一步说明。其中,图4示出了本申请一实施例提供的一种文本脱敏方法的处理过程流程图,具体步骤包括步骤402至步骤426。
步骤402:获取用户U的个人信息文本。
具体的,用户U的个人信息为“姓名U,身份证号码123456789,职位董事长,1970年出生于普通家庭,1996年毕业于A大学,银行卡号为987654321”;
基于此,待脱敏文本即为用户U的个人信息文本。
步骤404:对个人信息文本进行分句处理,获得句单元。
具体的,用户U的个人信息文本为“姓名U,身份证号码123456789,职位董事长,1970年出生于普通家庭,1996年毕业于A大学,银行卡号为987654321”;通过对该文本进行分句处理获得如下句单元:
“姓名U”,“身份证号码123456789”,“职位董事长”,“1970年出生于普通家庭”,“1996年毕业于A大学”,“银行卡号为987654321”。
步骤406:对句单元进行分词处理,获得文本词。
具体的,个人信息文本句单元包括“姓名U”,“身份证号码123456789”,“职位董事长”,“1970年出生于普通家庭”,“1996年毕业于A大学”,“银行卡号为987654321”,通过对6个句单元进行分词处理,获得如下文本词:
“姓名”,“U”,“身份证号码”,“123456789”,“职位”,“董事长”,“1970年”,“出生”,“于”,“普通”,“家庭”,“1996年”,“毕业”,“于”,“A大学”,“银行卡号”,“为”,“987654321”。
步骤408:根据文本词对个人信息文本进行向量化处理,获得个人信息文本的词向量。
具体的,通过GloVe算法对文本词进行向量化处理,获得每个文本词对应的词向量。
步骤410:对词向量进行标注。
步骤412:将标注后的词向量在个人信息文本中对应的实体组成的实体集合。
步骤414:将标注后的词向量在个人信息文本中对应的谓词组成的谓词集合。
具体的,文本词包括“姓名”,“U”,“身份证号码”,“123456789”,“职位”,“董事长”,“1970年”,“出生”,“于”,“普通”,“家庭”,“1996年”,“毕业”,“于”,“A大学”,“银行卡号”,“为”,“987654321”,通过对文本词进行向量化处理,获得每个文本词对应的词向量;
基于此,再通过对每个词向量进行标注,获得个人信息文本中的实体以及谓词,并根据标注后的词向量对应的实体创建实体集合以及谓词创建谓词集合,可以确定实体集合中包括:“U”,“董事长”,“A大学”和“123456789”,谓词集合中包括:“姓名”“身份证号码”和“银行卡号”。
步骤416:计算实体集合中包含的实体的支持度,将大于支持度阈值的实体创建频繁项集。
具体的,通过FP-growth算法计算实体集合中包含的每个实体的支持度:“U”支持度为80%,“董事长”支持度为75%,“A大学”支持度为61%,“123456789”支持度为90%;
基于此,支持度阈值为70%,则由“U”,“董事长”和“123456789”创建频繁项集。
步骤418:计算频繁项集中每个频繁项的提升度。
具体的,频繁项集包括“U”,“董事长”和“123456789”,通过计算每个频繁项的提升度确定:“U”提升度为85%,“董事长”提升度为71%,“123456789”提升度为89%。
步骤420:将大于提升度阈值的频繁项对应的实体确定为敏感实体。
具体的,提升度阈值为80%,可以确定频繁项集中“U”和“123456789”的提升度大于提升度阈值,则将“U”和“123456789”确定为敏感实体。
步骤422:选择谓词集合中与敏感实体关联度高的谓词。
具体的,谓词集合为“姓名”“身份证号码”和“银行卡号”,可以确定“姓名”与敏感实体“U”关联度高,“身份证号码”与敏感实体“123456789”关联度高,“银行卡号”与非敏感实体“987654321”关联度高以及敏感实体“U”的关联度高。
步骤424:将与谓词关联度高并且未确定为敏感实体的实体确定为补充敏感实体。
具体的,可以确定与谓词“银行卡号”关联度高的实体有“987654321”和“U”,其中,“U”为敏感实体,而“987654321”为非敏感实体;
基于此,将“987654321”确定为补充敏感实体即可。
步骤426:根据敏感实体和补充敏感实体对用户U的个人信息文本进行脱敏,获得用户U的个人信息脱敏文本。
具体的,通过“U”,“123456789”和“987654321”对用户U的个人信息文本进行脱敏,获得脱敏后的文本为:“姓名*(隐藏姓名),身份证号码*(隐藏身份证号码),职位董事长,1970年出生于普通家庭,1996年毕业于A大学,银行卡号为*(隐藏银行卡号)”,即为最终展示的用户U的个人信息脱敏文本,其中重要的信息均进行了隐藏。
本申请提供的文本脱敏方法,通过对个人信息文本进行向量化处理,获得个人信息文本的词向量,实现了可以通过高维数字的向量特征表示个人信息文本的文本词,提升了后续脱敏处理的工作效率,再通过对词向量进行标注,初步的提取出全部词向量中存在的较为重要的词向量对应的实体,创建实体集合,再进一步根据提取的实体的支持度确定频繁项集,并计算频繁项集中包含的每个频繁项的提升度,实现了更进一步确定个人信息文本中的重要的信息,将提升度大于提升度阈值的频繁项对应的实体确定为敏感实体,再根据敏感实体对个人信息文本进行脱敏处理,获得脱敏文本,为了能够提升个人信息文本的脱敏效果,可以通过个人信息文本中的谓词与个人信息文本未标注的实体的关联度进一步的对个人信息文本进行更深层次脱敏处理,即可获得脱敏效果最优的脱敏文本,实现的对用户U的个人信息文本中重要的信息进行隐藏,避免了出现用户U的个人信息文本出现重要的信息未脱敏的情况发生,有效的对用户U的隐私信息进行了保护。
与上述方法实施例相对应,本申请还提供了文本脱敏装置实施例,图5示出了本申请一实施例提供的一种文本脱敏装置的结构示意图。如图5所示,该装置包括:
向量化处理模块502,被配置为对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
标注模块504,被配置为基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
计算提升度模块506,被配置为根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
脱敏处理模块508,被配置为将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
一个可选的实施例中,所述向量化处理模块502,包括:
获取文本单元,被配置为获取所述待脱敏文本;
分词处理单元,被配置为通过对所述待脱敏文本进行分句处理,获得句单元;
分词处理单元,被配置为将所述句单元进行分词处理,根据分词处理结果构建所述待脱敏文本的文本共现矩阵;
向量转换单元,被配置为通过对所述文本共现矩阵进行转换,获得所述待脱敏文本的词向量。
一个可选的实施例中,所述文本脱敏装置,包括:
确定句向量模块,被配置为根据所述词向量确定所述待脱敏文本对应的句单元的句向量;
向量转换模块,被配置为将所述句向量进行转换,获得所述句向量对应的正向句向量以及反向句向量;
向量拼接模块,被配置为通过将所述正向句向量以及所述反向句向量进行拼接,根据拼接结果确定所述句单元的文本特征。
一个可选的实施例中,所述标注模块504,包括:
标注单元,被配置为根据所述文本特征对所述句向量中包含的词向量进行标注,获得标注后的所述句单元中包含的词单元;
整合单元,被配置为将每个句单元中包含的词单元进行整合,确定为所述待脱敏文本中对应的词单元组成的所述词单元集合。
一个可选的实施例中,所述计算提升度模块506,包括:
识别标识单元,被配置为识别所述待脱敏文本的段落标识;
段落划分单元,被配置为根据所述段落标识对所述待脱敏文本进行段落划分,确定所述待脱敏文本的段落区间;
选择单元,被配置为选择所述频繁项集中包含的频繁项对应的词单元位于同一段落区间的第一词单元和第二词单元;
确定单元,被配置为确定所述第一词单元在所述待脱敏文本中的第一频次,以及所述第一词单元和所述第二词单元位于同一段落区间的第二频次;
计算提升度单元,被配置为计算所述第二频次与所述第一频次二者的比值,作为所述频繁项集中包含的频繁项的提升度。
一个可选的实施例中,所述文本脱敏装置,包括:
确定脱敏率模块,被配置为根据所述脱敏文本以及所述待脱敏文本,确定所述待脱敏文本的脱敏率;
调整提升度阈值模块,被配置为在所述脱敏率小于所述待脱敏文本的最高脱敏率的情况下,调整所述预设提升度阈值,获得调整提升度阈值;
确定敏感词单元模块,被配置将所述提升度大于所述调整提升度阈值的频繁项对应的词单元确定为新增敏感词单元;
脱敏模块,被配置为根据所述新增敏感词单元对所述脱敏文本进行脱敏处理,获得最优脱敏文本。
一个可选的实施例中,所述文本特征包括下述至少一项:
词性特征、语义特征和属性特征。
一个可选的实施例中,所述标注模块504,包括:
构建集合单元,被配置为基于所述词性特征、所述语义特征和所述属性特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的实体组成的实体集合以及谓词组成的谓词集合;
确定词单元集合单元,被配置为将所述实体组成的实体集合作为所述词单元组成的词单元集合。
一个可选的实施例中,所述脱敏处理模块508进一步被配置为:
将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
一个可选的实施例中,所述脱敏处理模块508,包括:
查找单元,被配置为在所述谓词集合中查找与所述敏感实体关联度大于预设关联度阈值的谓词,并确定所述谓词对应的词向量;
确定补充敏感实体单元,被配置为根据所述谓词对应的词向量在所述待脱敏文本中查找未进行标注的补充敏感词向量,并确定与所述补充敏感词向量对应的补充敏感实体;
确定敏感实体单元,被配置为将所述提升度大于预设提升度阈值的频繁项对应的实体以及所述补充敏感实体确定为所述敏感实体;
脱敏处理单元,被配置为根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
一个可选的实施例中,所述计算提升度模块506,包括:
遍历单元,被配置为通过对所述词单元集合进行遍历,获得所述词单元集合的筛选支持度;
剔除单元,被配置为将所述词单元集合中包含的词单元对应的支持度小于所述筛选支持度的词单元进行剔除,获得初始频繁项集;
构建频繁树单元,被配置为根据所述初始频繁项集构建频繁树,获得所述频繁树的条件模式基;
构建条件频繁树单元,被配置为利用所述频繁树的条件模式基构建与所述频繁树对应的条件频繁树;
计算支持度单元,被配置为根据所述条件频繁树以及所述条件模式基在所述频繁树上计算所述初始频繁项集中包含的每个频繁项的支持度;
创建频繁项集单元,被配置为选择所述初始频繁项集中包含的每个频繁项的支持度大于预设支持度阈值的频繁项创建所述频繁项集。
本申请提供的文本脱敏装置中,通过对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量,实现了可以通过高维数字的向量特征表示所述待脱敏文本中的文本词,提升了后续脱敏处理的工作效率,在通过对所述词向量进行标注,初步的提取出全部词向量中存在的较为重要的词向量对应的词单元,创建所述词单元集合,再进一步根据提取的词单元的支持度确定频繁项集,并计算频繁项集中包含的每个频繁项的提升度,实现了更进一步确定所述待脱敏文本中的重要的信息,将提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,再根据敏感词单元对所述待脱敏文本进行脱敏处理,获得所述脱敏文本,为了能够提升所述待脱敏文本的脱敏效果,可以通过待脱敏文本中的谓词与待脱敏文本中未标注的词单元的关联度或者根据脱敏率,进一步的对所述脱敏文本进行更深层次脱敏处理,即可获得脱敏效果最优的脱敏文本,实现的对所述待脱敏文本中重要的信息均进行了隐藏或者替换,避免了出现待脱敏文本中出现重要的信息未脱敏的情况发生,有效的对所述待脱敏文本中的重要的信息进行了保护。
上述为本实施例的一种文本脱敏装置的示意性方案。需要说明的是,该文本脱敏装置的技术方案与上述的文本脱敏方法的技术方案属于同一构思,文本脱敏装置的技术方案未详细描述的细节内容,均可以参见上述文本脱敏方法的技术方案的描述。
图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620用于执行如下计算机可执行指令:
对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
可选的,所述对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量,包括:
获取所述待脱敏文本;
通过对所述待脱敏文本进行分句处理,获得句单元;
将所述句单元进行分词处理,根据分词处理结果构建所述待脱敏文本的文本共现矩阵;
通过对所述文本共现矩阵进行转换,获得所述待脱敏文本的词向量。
可选的,所述对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量指令执行之后,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合指令执行之前,处理器620还用于执行如下计算机可执行指令:
根据所述词向量确定所述待脱敏文本对应的句单元的句向量;
将所述句向量进行转换,获得所述句向量对应的正向句向量以及反向句向量;
通过将所述正向句向量以及所述反向句向量进行拼接,根据拼接结果确定所述句单元的文本特征。
可选的,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合,包括:
根据所述文本特征对所述句向量中包含的词向量进行标注,获得标注后的所述句单元中包含的词单元;
将每个句单元中包含的词单元进行整合,确定为所述待脱敏文本中对应的词单元组成的所述词单元集合。
可选的,所述计算所述频繁项集中包含的频繁项的提升度,包括:
识别所述待脱敏文本的段落标识;
根据所述段落标识对所述待脱敏文本进行段落划分,确定所述待脱敏文本的段落区间;
选择所述频繁项集中包含的频繁项对应的词单元位于同一段落区间的第一词单元和第二词单元;
确定所述第一词单元在所述待脱敏文本中的第一频次,以及所述第一词单元和所述第二词单元位于同一段落区间的第二频次;
计算所述第二频次与所述第一频次二者的比值,作为所述频繁项集中包含的频繁项的提升度。
可选的,所述将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本指令执行之后,处理器620还用于执行如下计算机可执行指令:
根据所述脱敏文本以及所述待脱敏文本,确定所述待脱敏文本的脱敏率;
在所述脱敏率小于所述待脱敏文本的最高脱敏率的情况下,调整所述预设提升度阈值,获得调整提升度阈值;
将所述提升度大于所述调整提升度阈值的频繁项对应的词单元确定为新增敏感词单元;
根据所述新增敏感词单元对所述脱敏文本进行脱敏处理,获得最优脱敏文本。
可选的,所述文本特征包括下述至少一项:
词性特征、语义特征和属性特征。
可选的,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合,包括:
基于所述词性特征、所述语义特征和所述属性特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的实体组成的实体集合以及谓词组成的谓词集合;
将所述实体组成的实体集合作为所述词单元组成的词单元集合。
可选的,所述将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本,包括:
将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
可选的,所述将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本,包括:
在所述谓词集合中查找与所述敏感实体关联度大于预设关联度阈值的谓词,并确定所述谓词对应的词向量;
根据所述谓词对应的词向量在所述待脱敏文本中查找未进行标注的补充敏感词向量,并确定与所述补充敏感词向量对应的补充敏感实体;
将所述提升度大于预设提升度阈值的频繁项对应的实体以及所述补充敏感实体确定为所述敏感实体;
根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
可选的,所述根据所述词单元集合中包含的词单元的支持度创建频繁项集,包括:
通过对所述词单元集合进行遍历,获得所述词单元集合的筛选支持度;
将所述词单元集合中包含的词单元对应的支持度小于所述筛选支持度的词单元进行剔除,获得初始频繁项集;
根据所述初始频繁项集构建频繁树,获得所述频繁树的条件模式基;
利用所述频繁树的条件模式基构建与所述频繁树对应的条件频繁树;
根据所述条件频繁树以及所述条件模式基在所述频繁树上计算所述初始频繁项集中包含的每个频繁项的支持度;
选择所述初始频繁项集中包含的每个频繁项的支持度大于预设支持度阈值的频繁项创建所述频繁项集。
根据本申请实施例的第二方面,提供了一种文本脱敏装置,包括:
向量化处理模块,被配置为对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
标注模块,被配置为基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
计算提升度模块,被配置为根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
脱敏处理模块,被配置为将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本脱敏方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本脱敏方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
可选的,所述对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量,包括:
获取所述待脱敏文本;
通过对所述待脱敏文本进行分句处理,获得句单元;
将所述句单元进行分词处理,根据分词处理结果构建所述待脱敏文本的文本共现矩阵;
通过对所述文本共现矩阵进行转换,获得所述待脱敏文本的词向量。
可选的,所述对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量步骤执行之后,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合步骤执行之前,包括:
根据所述词向量确定所述待脱敏文本对应的句单元的句向量;
将所述句向量进行转换,获得所述句向量对应的正向句向量以及反向句向量;
通过将所述正向句向量以及所述反向句向量进行拼接,根据拼接结果确定所述句单元的文本特征。
可选的,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合,包括:
根据所述文本特征对所述句向量中包含的词向量进行标注,获得标注后的所述句单元中包含的词单元;
将每个句单元中包含的词单元进行整合,确定为所述待脱敏文本中对应的词单元组成的所述词单元集合。
可选的,所述计算所述频繁项集中包含的频繁项的提升度,包括:
识别所述待脱敏文本的段落标识;
根据所述段落标识对所述待脱敏文本进行段落划分,确定所述待脱敏文本的段落区间;
选择所述频繁项集中包含的频繁项对应的词单元位于同一段落区间的第一词单元和第二词单元;
确定所述第一词单元在所述待脱敏文本中的第一频次,以及所述第一词单元和所述第二词单元位于同一段落区间的第二频次;
计算所述第二频次与所述第一频次二者的比值,作为所述频繁项集中包含的频繁项的提升度。
可选的,所述将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本步骤执行之后,包括:
根据所述脱敏文本以及所述待脱敏文本,确定所述待脱敏文本的脱敏率;
在所述脱敏率小于所述待脱敏文本的最高脱敏率的情况下,调整所述预设提升度阈值,获得调整提升度阈值;
将所述提升度大于所述调整提升度阈值的频繁项对应的词单元确定为新增敏感词单元;
根据所述新增敏感词单元对所述脱敏文本进行脱敏处理,获得最优脱敏文本。
可选的,所述文本特征包括下述至少一项:
词性特征、语义特征和属性特征。
可选的,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合,包括:
基于所述词性特征、所述语义特征和所述属性特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的实体组成的实体集合以及谓词组成的谓词集合;
将所述实体组成的实体集合作为所述词单元组成的词单元集合。
可选的,所述将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本,包括:
将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
可选的,所述将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本,包括:
在所述谓词集合中查找与所述敏感实体关联度大于预设关联度阈值的谓词,并确定所述谓词对应的词向量;
根据所述谓词对应的词向量在所述待脱敏文本中查找未进行标注的补充敏感词向量,并确定与所述补充敏感词向量对应的补充敏感实体;
将所述提升度大于预设提升度阈值的频繁项对应的实体以及所述补充敏感实体确定为所述敏感实体;
根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
可选的,所述根据所述词单元集合中包含的词单元的支持度创建频繁项集,包括:
通过对所述词单元集合进行遍历,获得所述词单元集合的筛选支持度;
将所述词单元集合中包含的词单元对应的支持度小于所述筛选支持度的词单元进行剔除,获得初始频繁项集;
根据所述初始频繁项集构建频繁树,获得所述频繁树的条件模式基;
利用所述频繁树的条件模式基构建与所述频繁树对应的条件频繁树;
根据所述条件频繁树以及所述条件模式基在所述频繁树上计算所述初始频繁项集中包含的每个频繁项的支持度;
选择所述初始频繁项集中包含的每个频繁项的支持度大于预设支持度阈值的频繁项创建所述频繁项集。
根据本申请实施例的第二方面,提供了一种文本脱敏装置,包括:
向量化处理模块,被配置为对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
标注模块,被配置为基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
计算提升度模块,被配置为根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
脱敏处理模块,被配置为将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本脱敏方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本脱敏方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种文本脱敏方法,其特征在于,包括:
对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
2.根据权利要求1所述的文本脱敏方法,其特征在于,所述对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量,包括:
获取所述待脱敏文本;
通过对所述待脱敏文本进行分句处理,获得句单元;
将所述句单元进行分词处理,根据分词处理结果构建所述待脱敏文本的文本共现矩阵;
通过对所述文本共现矩阵进行转换,获得所述待脱敏文本的词向量。
3.根据权利要求2所述的文本脱敏方法,其特征在于,所述对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量步骤执行之后,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合步骤执行之前,包括:
根据所述词向量确定所述待脱敏文本对应的句单元的句向量;
将所述句向量进行转换,获得所述句向量对应的正向句向量以及反向句向量;
通过将所述正向句向量以及所述反向句向量进行拼接,根据拼接结果确定所述句单元的文本特征。
4.根据权利要求3所述的文本脱敏方法,其特征在于,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合,包括:
根据所述文本特征对所述句向量中包含的词向量进行标注,获得标注后的所述句单元中包含的词单元;
将每个句单元中包含的词单元进行整合,确定为所述待脱敏文本中对应的词单元组成的所述词单元集合。
5.根据权利要求1所述的文本脱敏方法,其特征在于,所述计算所述频繁项集中包含的频繁项的提升度,包括:
识别所述待脱敏文本的段落标识;
根据所述段落标识对所述待脱敏文本进行段落划分,确定所述待脱敏文本的段落区间;
选择所述频繁项集中包含的频繁项对应的词单元位于同一段落区间的第一词单元和第二词单元;
确定所述第一词单元在所述待脱敏文本中的第一频次,以及所述第一词单元和所述第二词单元位于同一段落区间的第二频次;
计算所述第二频次与所述第一频次二者的比值,作为所述频繁项集中包含的频繁项的提升度。
6.根据权利要求1所述的文本脱敏方法,其特征在于,所述将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本步骤执行之后,包括:
根据所述脱敏文本以及所述待脱敏文本,确定所述待脱敏文本的脱敏率;
在所述脱敏率小于所述待脱敏文本的最高脱敏率的情况下,调整所述预设提升度阈值,获得调整提升度阈值;
将所述提升度大于所述调整提升度阈值的频繁项对应的词单元确定为新增敏感词单元;
根据所述新增敏感词单元对所述脱敏文本进行脱敏处理,获得最优脱敏文本。
7.根据权利要求1所述的文本脱敏方法,其特征在于,所述文本特征包括下述至少一项:
词性特征、语义特征和属性特征。
8.根据权利要求7所述的文本脱敏方法,其特征在于,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合,包括:
基于所述词性特征、所述语义特征和所述属性特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的实体组成的实体集合以及谓词组成的谓词集合;
将所述实体组成的实体集合作为所述词单元组成的词单元集合。
9.根据权利要求8所述的文本脱敏方法,其特征在于,所述将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本,包括:
将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
10.根据权利要求9所述的文本脱敏方法,其特征在于,所述将所述提升度大于所述预设提升度阈值的频繁项对应的实体确定为敏感实体,并根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本,包括:
在所述谓词集合中查找与所述敏感实体关联度大于预设关联度阈值的谓词,并确定所述谓词对应的词向量;
根据所述谓词对应的词向量在所述待脱敏文本中查找未进行标注的补充敏感词向量,并确定与所述补充敏感词向量对应的补充敏感实体;
将所述提升度大于预设提升度阈值的频繁项对应的实体以及所述补充敏感实体确定为所述敏感实体;
根据所述敏感实体对所述待脱敏文本进行脱敏处理,获得所述脱敏文本。
11.根据权利要求1所述的文本脱敏方法,其特征在于,所述根据所述词单元集合中包含的词单元的支持度创建频繁项集,包括:
通过对所述词单元集合进行遍历,获得所述词单元集合的筛选支持度;
将所述词单元集合中包含的词单元对应的支持度小于所述筛选支持度的词单元进行剔除,获得初始频繁项集;
根据所述初始频繁项集构建频繁树,获得所述频繁树的条件模式基;
利用所述频繁树的条件模式基构建与所述频繁树对应的条件频繁树;
根据所述条件频繁树以及所述条件模式基在所述频繁树上计算所述初始频繁项集中包含的每个频繁项的支持度;
选择所述初始频繁项集中包含的每个频繁项的支持度大于预设支持度阈值的频繁项创建所述频繁项集。
12.一种文本脱敏装置,其特征在于,包括:
向量化处理模块,被配置为对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
标注模块,被配置为基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
计算提升度模块,被配置为根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
脱敏处理模块,被配置为将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
13.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至11任意一项所述文本脱敏方法的步骤。
CN201910779947.XA 2019-08-22 2019-08-22 文本脱敏方法以及装置 Active CN110633577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910779947.XA CN110633577B (zh) 2019-08-22 2019-08-22 文本脱敏方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910779947.XA CN110633577B (zh) 2019-08-22 2019-08-22 文本脱敏方法以及装置

Publications (2)

Publication Number Publication Date
CN110633577A true CN110633577A (zh) 2019-12-31
CN110633577B CN110633577B (zh) 2023-08-29

Family

ID=68970557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910779947.XA Active CN110633577B (zh) 2019-08-22 2019-08-22 文本脱敏方法以及装置

Country Status (1)

Country Link
CN (1) CN110633577B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036167A (zh) * 2020-08-25 2020-12-04 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN112084915A (zh) * 2020-08-31 2020-12-15 支付宝(杭州)信息技术有限公司 模型训练方法、活体检测方法、装置和电子设备
CN112800465A (zh) * 2021-02-09 2021-05-14 第四范式(北京)技术有限公司 待标注文本数据的处理方法、装置、电子设备及介质
CN113157904A (zh) * 2021-03-30 2021-07-23 北京优医达智慧健康科技有限公司 基于dfa算法的敏感词过滤方法及系统
CN114239591A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 敏感词识别方法及装置
CN114417387A (zh) * 2022-01-24 2022-04-29 中国电子科技集团公司第五十四研究所 基于语义内涵的消息加密方法
CN114898373A (zh) * 2022-06-08 2022-08-12 平安科技(深圳)有限公司 文件脱敏方法、装置、电子设备及存储介质
CN116522403A (zh) * 2023-07-04 2023-08-01 大白熊大数据科技(常熟)有限公司 聚焦大数据隐私安全的互动信息脱敏方法及服务器
CN117422071A (zh) * 2023-12-19 2024-01-19 中南大学 一种文本词项多重分割标注转换方法及装置
CN117951747A (zh) * 2024-03-26 2024-04-30 成都飞机工业(集团)有限责任公司 一种自适应脱敏方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123504A (zh) * 2014-06-27 2014-10-29 武汉理工大学 一种基于频繁项检索的云平台隐私保护方法
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN107885724A (zh) * 2017-11-06 2018-04-06 北京锐安科技有限公司 文本特征提取方法、装置、服务器和存储介质
CN108304726A (zh) * 2017-01-13 2018-07-20 中国移动通信集团贵州有限公司 数据脱敏方法和装置
CN109299264A (zh) * 2018-10-12 2019-02-01 深圳市牛鼎丰科技有限公司 文本分类方法、装置、计算机设备及存储介质
CN109657243A (zh) * 2018-12-17 2019-04-19 江苏满运软件科技有限公司 敏感信息识别方法、系统、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123504A (zh) * 2014-06-27 2014-10-29 武汉理工大学 一种基于频繁项检索的云平台隐私保护方法
CN108304726A (zh) * 2017-01-13 2018-07-20 中国移动通信集团贵州有限公司 数据脱敏方法和装置
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN107885724A (zh) * 2017-11-06 2018-04-06 北京锐安科技有限公司 文本特征提取方法、装置、服务器和存储介质
CN109299264A (zh) * 2018-10-12 2019-02-01 深圳市牛鼎丰科技有限公司 文本分类方法、装置、计算机设备及存储介质
CN109657243A (zh) * 2018-12-17 2019-04-19 江苏满运软件科技有限公司 敏感信息识别方法、系统、设备及存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036167A (zh) * 2020-08-25 2020-12-04 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN112036167B (zh) * 2020-08-25 2023-11-28 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN112084915A (zh) * 2020-08-31 2020-12-15 支付宝(杭州)信息技术有限公司 模型训练方法、活体检测方法、装置和电子设备
CN112800465A (zh) * 2021-02-09 2021-05-14 第四范式(北京)技术有限公司 待标注文本数据的处理方法、装置、电子设备及介质
CN113157904A (zh) * 2021-03-30 2021-07-23 北京优医达智慧健康科技有限公司 基于dfa算法的敏感词过滤方法及系统
CN113157904B (zh) * 2021-03-30 2024-02-09 北京优医达智慧健康科技有限公司 基于dfa算法的敏感词过滤方法及系统
CN114239591B (zh) * 2021-12-01 2023-08-18 马上消费金融股份有限公司 敏感词识别方法及装置
CN114239591A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 敏感词识别方法及装置
CN114417387B (zh) * 2022-01-24 2023-09-22 中国电子科技集团公司第五十四研究所 基于语义内涵的消息加密方法
CN114417387A (zh) * 2022-01-24 2022-04-29 中国电子科技集团公司第五十四研究所 基于语义内涵的消息加密方法
CN114898373A (zh) * 2022-06-08 2022-08-12 平安科技(深圳)有限公司 文件脱敏方法、装置、电子设备及存储介质
CN116522403A (zh) * 2023-07-04 2023-08-01 大白熊大数据科技(常熟)有限公司 聚焦大数据隐私安全的互动信息脱敏方法及服务器
CN116522403B (zh) * 2023-07-04 2023-08-29 大白熊大数据科技(常熟)有限公司 聚焦大数据隐私安全的互动信息脱敏方法及服务器
CN117422071A (zh) * 2023-12-19 2024-01-19 中南大学 一种文本词项多重分割标注转换方法及装置
CN117422071B (zh) * 2023-12-19 2024-03-15 中南大学 一种文本词项多重分割标注转换方法及装置
CN117951747A (zh) * 2024-03-26 2024-04-30 成都飞机工业(集团)有限责任公司 一种自适应脱敏方法、系统、设备及介质

Also Published As

Publication number Publication date
CN110633577B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN110633577A (zh) 文本脱敏方法以及装置
CN111428044B (zh) 多模态获取监管识别结果的方法、装置、设备及存储介质
US11922121B2 (en) Method and apparatus for information extraction, electronic device, and storage medium
CN109543034B (zh) 基于知识图谱的文本聚类方法、装置及可读存储介质
CN107633060B (zh) 一种信息处理方法及电子设备
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN113127624B (zh) 问答模型的训练方法及装置
CN110705265A (zh) 合同条款风险识别方法以及装置
CN110347802B (zh) 一种文本分析方法及装置
CN113961685A (zh) 信息抽取方法及装置
CN110209802B (zh) 一种提取摘要文本的方法及装置
CN110609886A (zh) 一种文本分析方法及装置
CN114090776A (zh) 文档解析方法、系统及装置
CN117076693A (zh) 一种数字人教师多模态大语言模型预训练学科语料库的构建方法
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN114138969A (zh) 文本处理方法及装置
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN117501283A (zh) 文本到问答模型系统
WO2022073341A1 (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
Korade et al. Strengthening Sentence Similarity Identification Through OpenAI Embeddings and Deep Learning.
CN113590846B (zh) 法律知识图谱构建方法及相关设备
CN115470361A (zh) 数据检测方法以及装置
CN114492410A (zh) 合约信息提取方法及装置
CN113537263A (zh) 二分类模型的训练方法及装置、实体链接方法及装置
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201012

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201012

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant