CN111460814A

CN111460814A - 敏感信息检测方法、装置、终端及介质

Info

Publication number: CN111460814A
Application number: CN202010159920.3A
Authority: CN
Inventors: 蔡高年
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-28

Abstract

本发明实施例公开了一种敏感信息检测方法、装置、终端及介质，所述方法包括：基于目标获取方式从目标源对象中获取文本数据，对文本数据进行分词处理，得到至少一个词组，检测至少一个词组中每个词组是否都存储于预置数据库中，若检测到至少一个词组中每个词组都存储于预置数据库中，则根据预置数据库判断文本数据中是否包含敏感信息；若检测到至少一个词组中存在未存储于预置数据库中的目标词组，则根据预先设定的敏感信息判断规则判断文本数据中是否包含敏感信息，若所述文本数据中包含敏感信息，则根据所述敏感信息对所述目标获取方式进行更新。通过实施上述方法，可以提升对敏感信息监控的准确性以及监控效率。

Description

敏感信息检测方法、装置、终端及介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种敏感信息检测方法、装置、终端及介质。

背景技术

随着网络科技技术越来越发达，信息传递的方式多元化。人们在互联网上获取信息，或者进行信息传递也愈加频繁，网络的开放性也使得敏感信息被传递出去。因此，需要对敏感信息进行监控，并控制敏感信息在网络中的传播。

现有的敏感信息确定方式主要为基于字符匹配，如一段文本中包含敏感词，则将文本确定包含敏感信息，但是，随着新词的不断出现，单纯的依靠字符匹配技术无法对新出现的敏感信息进行监控，导致对敏感信息的控制手段与技术并不能达到一个较高的准确率，使得敏感信息的传播并没有达到一个很好的遏制。

发明内容

本发明实施例提供了一种敏感信息检测方法、装置、终端及介质，可以提升对敏感信息监控的准确性以及监控效率。

第一方面，本发明实施例提供了一种敏感信息检测方法，所述方法包括：

基于目标获取方式从目标源对象中获取文本数据，所述目标获取方式包括针对所述目标源对象的目标获取频率以及目标获取时间段；

对所述文本数据进行分词处理，得到至少一个词组；

检测所述至少一个词组中每个词组是否都存储于预置数据库中，所述预置数据库包括敏感词数据库或常规词数据库，所述敏感词数据库中存储了至少一个敏感词组，所述常规词数据库存储了至少一个非敏感词组；

若检测到所述至少一个词组中每个词组都存储于所述预置数据库中，则根据所述预置数据库判断所述文本数据中是否包含敏感信息；

若检测到所述至少一个词组中存在未存储于预置数据库中的目标词组，则根据预先设定的敏感信息判断规则判断所述文本数据中是否包含敏感信息；

若所述文本数据中包含敏感信息，则根据所述敏感信息对所述目标获取方式进行更新。

第二方面，本发明实施例提供了一种敏感信息检测装置，所述装置包括：

获取模块，用于基于目标获取方式从目标源对象中获取文本数据，所述目标获取方式包括针对所述目标源对象的目标获取频率以及目标获取时间段；

处理模块，用于对所述文本数据进行分词处理，得到至少一个词组；

检测模块，用于检测所述至少一个词组中每个词组是否都存储于预置数据库中，所述预置数据库包括敏感词数据库或常规词数据库，所述敏感词数据库中存储了至少一个敏感词组，所述常规词数据库存储了至少一个非敏感词组；

判断模块，用于若检测到所述至少一个词组中每个词组都存储于所述预置数据库中，则根据所述预置数据库判断所述文本数据中是否包含敏感信息；

所述判断模块，还用于若检测到所述至少一个词组中存在未存储于预置数据库中的目标词组，则根据预先设定的敏感信息判断规则判断所述文本数据中是否包含敏感信息；

更新模块，用于若所述文本数据中包含敏感信息，则根据所述敏感信息对所述目标获取方式进行更新。

第三方面，本发明实施例提供了一种终端，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行第一方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。

本发明实施例中，终端基于目标获取方式从目标源对象中获取文本数据，对文本数据进行分词处理，得到至少一个词组，检测至少一个词组中每个词组是否都存储于预置数据库中，若检测到至少一个词组中每个词组都存储于所述预置数据库中，则终端根据预置数据库判断所述文本数据中是否包含敏感信息；若检测到所述至少一个词组中存在未存储于预置数据库中的目标词组，则终端根据预先设定的敏感信息判断规则判断文本数据中是否包含敏感信息，若文本数据中包含敏感信息，则终端根据敏感信息对目标获取方式进行更新。通过建立敏感词数据库和非敏感词数据库，从两个方面判断文本中是否包含敏感信息，若数据库不能得到判断结果时，采用预设规则进行判断，提升了对敏感信息监控的准确性以及监控效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种敏感信息检测方法的流程示意图；

图2是本发明实施例提供的另一种敏感信息检测方法的流程示意图；

图3是本发明实施例提供的一种敏感信息检测装置的结构示意图；

图4是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的敏感信息检测方法实现于终端，所述终端包括智能手机、平板电脑、数字音视频播放器、电子阅读器、手持游戏机或车载电子设备等电子设备。

图1是本发明实施例中一种敏感信息检测方法的流程示意图。如图1所示，本实施例中的敏感信息检测方法的流程可以包括：

S101、终端基于目标获取方式从目标源对象中获取文本数据。

本发明实施例中，目标获取方式包括针对目标源对象的目标获取频率以及目标获取时间段，源对象可以为终端中安装的应用程序(APP，Application)，则目标源对象可以为终端中安装的任意一个应用程序，针对不同的源对象，终端可以采用不同的获取方式获取到源对象中的文本数据，其中，目标源对象和目标获取时间段可以由用户预先进行设置，或者，基于从目标源对象中历史检测得到的敏感信息进行确定，敏感信息中敏感词组越多，目标获取时间段越长，且目标获取频率越高。

具体的，终端可以在目标时间段内基于目标获取频率从目标源对象的后台服务器中获取到用户输入的数据(如聊天数据、会话数据等)，其中用户输入的数据的形式可以为语音形式或者文字形式，针对语音形式的数据，终端可以基于语音转文字的算法将语音形式的数据转化为文本数据。针对文字数据，终端文字形式的数据，终端可以直接将其确定为文本数据。

或者，终端也可以在目标时间段内对目标源对象进行监控，直接获取到用户使用目标源对象输入的数据，并基于目标获取频率对用户输入的数据进行提取，得到文本数据。例如，用户在终端中安装了社交APP，终端需要在目标时间段内对该社交APP中用户输入的数据以及接收的数据进行监控，则当用户在针对该社交APP输入数据时，终端基于对该输入的数据进行记录，并基于目标获取频率提取出用户输入数据中的文本数据。

S102、终端对文本数据进行分词处理，得到至少一个词组。

本发明实施例中，终端获取到文本数据之后，将对文本数据进行分词处理，得到至少一个词组。

在一种实现方式中，终端对文本数据进行分词处理的具体方式可以为，终端基于字符匹配的算法对文本数据进行分词处理，如按照预设规则将文本数据中的文字符串与预设数据库中的词组进行匹配，如在预设数据库中找到中文字符串中的词组，则匹配成功，并将匹配成功的词组从字符串中拆分出来，并确定为词组。

在一种实现方式中，终端对文本数据进行分词处理的具体方式可以为，终端通过字与字相邻共现的频率或概率来确定是否将各个文字组成为词组，如终端将文本数据中相邻共现的各个文字的组合的频度进行统计，计算它们的相邻共现概率，若文字组合的相邻共现概率大于预设阈值，则将该文字组合确定为词组。

在一种实现方式中，终端通过基于大量已经分词的文本，利用统计机器学习模型学习词语切分的规律来实现对文本数据的分词处理，得到至少一个词组。

S103、终端检测至少一个词组中每个词组是否都存储于预置数据库中。

本发明实施例中，预置数据库包括敏感词数据库或常规词数据库，敏感词数据库中存储了至少一个敏感词组，常规词数据库存储了至少一个非敏感词组。终端对文本数据进行分词处理，得到至少一个词组之后，将检测至少一个词组中每个词组是否都存储于预置数据库中。

具体的，开发人员可以预先确定多个敏感词组以及非敏感词组，并将敏感词组放入敏感词数据库中，非敏感词放入常规词数据库中，以建立敏感词数据库和常规词数据库，举例说明，宗教名称、电话号码、身份证号码为敏感词组，则可以预先将各个宗教名称、各个电话号码以及各个身份证号码加入至敏感词数据库中，“开心”、“快乐”、“悲伤”等心情词组为非敏感词组，则可以预先将“开心”、“快乐”、“悲伤”等心情词组加入至常规词数据库中，以建立常规词数据库。

进一步的，还可以预先建立数据库更新规则，当确定出新的敏感词组时，将其加入至敏感词数据库中，当确定出新的常规词组时，将其加入至常规词数据库中，以实现对预置数据库中存储的数据进行更新。

S104、若检测到至少一个词组中每个词组都存储于预置数据库中，则终端根据预置数据库判断文本数据中是否包含敏感信息。

本发明实施例中，终端检测至少一个词组中每个词组是否都存储于预置数据库中之后，若检测到至少一个词组中每个词组都存储于预置数据库中，则终端根据预置数据库判断文本数据中是否包含敏感信息。

具体实现中，终端根据预置数据库判断文本数据中是否包含敏感信息的具体方式可以为，若分词处理得到的至少一个词组中每个词组都对存在于常规词数据库中，则终端确定文本数据中不包含敏感信息，若分词处理得到的至少一个词组都存在于敏感词数据库中，则终端确定文本数据中包含敏感信息，且整个文本数据都为敏感信息。若分词处理得到的至少一个词组中部分词组存储于敏感词数据库中，部分词组存储于常规词数据库中，则终端确定文本数据中包含敏感信息，并将文本数据中存储于敏感词数据库中的敏感词组确定为敏感信息。

举例说明，敏感词数据库中存储了敏感词组“词组A、词组B和词组C”，常规词数据库中存储了非敏感词组“词组D、词组E和词组F”，若分词处理得到的至少一个词组包括“词组A”和“词组C”，则终端确定文本数据全部为敏感信息；若分词处理得到的词组包括“词组D”和“词组E”，则终端确定文本数据中不包含敏感信息；若分词处理得到的至少一个词组包括“词组A”和“词组D”，则终端确定文本数据包含敏感信息，且敏感信息为“词组A”。

在一种实现方式中，若终端检测到所述至少一个词组中存在未存储于预置数据库中的目标词组，则执行步骤S105。

S105、若检测到至少一个词组中存在未存储于预置数据库中的目标词组，则终端根据预先设定的敏感信息判断规则判断文本数据中是否包含敏感信息。

本发明实施例中，若终端检测到分词处理得到的至少一个词组中存在未存储于预置数据库中的目标词组，则终端根据预先设定的敏感信息判断规则判断文本数据中是否包含敏感信息。其中，敏感信息判断规则为，针对存储于敏感词数据库中的词组，将其判断为文本数据中的敏感信息，针对存储常规词数据库中的词组，将其判断为文本数据中的非敏感信息，针对未存储于预置数据库中的目标词组，终端判断目标词组的长度以及目标词组的格式，具体的，终端获取目标词组的长度以及目标词组的格式；并根据目标词组的长度从至少一种格式匹配模型中确定出目标格式匹配模型；终端检测目标词组的格式是否与目标格式匹配模型相匹配；若目标词组的格式与目标格式匹配模型相匹配，则确定目标词组为文本数据中的敏感信息。

举例说明，至少一种格式匹配模型包括手机号码格式匹配模型、身份证号码格式匹配模型、银行卡号格式匹配模型，其中，手机号码格式匹配模型对应的长度为11，身份证号码格式匹配模型对应的长度为18，银行卡号格式匹配模型对应的长度为16，若目标词组由11位字符构成，则目标词组的长度为11，终端确定目标词组的长度之后，将手机号码格式匹配模型确定为目标格式匹配模型，其中手机号格式匹配模型具有固定前后缀，终端检测目标词组的格式是否具有该固定前后缀，若具有，则终端将目标词组确定为手机号码，并将目标词组为文本数据中的敏感信息。或者，若目标词组由18位字符构成，则目标词组的长度为18，终端确定目标词组的长度之后，将身份证号码格式匹配模型确定为目标格式匹配模型，其中身份证号码格式匹配模型具有包含省市区、性别对应字符的目标排列格式，终端检测目标词组的格式是否具有该目标排列格式，若具有，则终端将目标词组确定为银行卡号，并将目标词组为文本数据中的敏感信息。或者，若目标词组由16位字符构成，则目标词组的长度为16，终端确定目标词组的长度之后，将银行卡号格式匹配模型确定为目标格式匹配模型，其中银行卡号格式匹配模型具有目标字段，终端检测目标词组的格式是否具有该目标字段，若具有，则终端将目标词组确定为银行卡号，并将目标词组为文本数据中的敏感信息。

在一种实现方式中，当不存在与目标词组的长度相对应的格式匹配模型时，或者，目标词组的格式与目标格式匹配模型不匹配时，终端可以对该目标词组进行上下文分析，将该目标词组的上下文数据在语义模型中进行匹配，语义模型里面会预处理存储一批敏感信息上下文的相关数据，用来做模型训练，根据不同的敏感信息源训练各个分类模型，再利用少量的有标注训练的数据对原模型进行调整，在每次进行上下文语义匹配的时候，根据匹配度进行评分，每次进行评分完之后，会更新语义模型的数据仓库，利用更新后的数据集继续训练语义模型，渐进式的对原模型进行调优，增加敏感信息匹配的准确率。并利用调优后的语义模型确定目标词组是否为文本数据中的敏感信息。具体的，若语义模型输出目标词组为敏感信息的概率大于预设阈值，则终端将目标词组确定为敏感信息。

进一步的，终端确定目标词组为文本数据中的敏感信息之后，将该目标词组加入至敏感词数据库中，以对敏感词数据库中存储的敏感词组进行更新。并且，终端可以发出提示信息，以提示文本数据中包含敏感信息。

S106、若文本数据中包含敏感信息，则终端根据敏感信息对目标获取方式进行更新。

本发明实施例中，终端确定文本数据中包含敏感信息之后，将根据敏感信息对目标获取方式进行更新。

在一种实现方式中，终端根据敏感信息对目标获取方式进行更新的具体方式可以为，终端获取敏感信息中敏感词组的数量，并根据数量与频率增幅的对应关系的确定针对目标获取频率的目标频率增幅；以及根据数量与时间段增幅的对应关系确定针对目标获取时间段的目标时间段增幅，进一步的，终端根据目标频率增幅和目标时间段增幅对目标获取方式进行更新，其中，数量与频率增幅的对应关系以及时间段与频率增幅的对应关系具体可以由用户预先设置，数量越高，频率增幅越高，且时间段增幅越高，根据目标频率增幅更新目标获取频率的方式可以为在目标获取频率的基础上叠加目标频率增幅，根据目标时间段增幅更新目标获取时间段的方式可以为在目标获取时间段中叠加目标时间段增幅，例如，数量与频率增幅的对应关系以及数量与时间段增幅的对应关系具体如表1所示：

表1

数量	频率增幅(次/小时)	时间段增幅(小时)
			1	10	1
2	20	2
			3	30	3

初始的目标获取方式中目标获取频率为10次/小时，目标获取时间段为2:00-5:00，若终端检测到敏感信息中包含两个敏感词组，则确定对应的目标频率增幅为20次/小时，目标时间段增幅为2小时，并根据目标频率增幅和目标时间段增幅对目标获取方式进行更新，得到更新的目标获取频率为30次/小时，更新的目标获取时间段为1:00-6:00。需要说明的是，可以预先设置最大获取频率以及最长获取时间段，当更新的目标获取频率大于最大获取频率时，终端将该最大获取频率确定为针对目标源对象的文本数据获取频率，当更新的目标时间段长于最长获取时间段时，终端将该最长获取时间段确定为针对目标源对象的文本数据获取时间段。

在一种实现方式中，终端根据敏感信息对目标获取方式进行更新的具体方式可以为，终端获取敏感信息中敏感词组的类别，并根据类别与频率增幅的对应关系的确定针对目标获取频率的目标频率增幅；以及根据数量与时间段增幅的对应关系确定针对目标获取时间段的目标时间段增幅，其中，类别可以包括第一类别、第二类别和第三类别，第一类别的敏感词组的敏感程度高于第二类别，第二类别的敏感词组的敏感程度高于第三类别，如第一类别的敏感词组可以为关于国家大事的词组，第二类别的敏感词组可以为关于用户的身份信息的词组，第三类别的词组可以为关于用户资产信息的词组，具体可以由用户预先设置，如在预置敏感词数据库中预先为每个敏感词组贴上第一类别、第二类别或第三类别的标签，或者，由预先设置判断规则判断敏感词组的类别。终端根据类别与频率增幅的对应关系的确定针对目标获取频率的目标频率增幅的具体方式可以为，若敏感信息中存在第一类别的敏感词组，则确定目标频率增幅为第一频率增幅，若敏感信息中不存在第一类别的敏感词组，但存在第二类别的敏感词组，则确定目标频率增幅为第二频率增幅，若敏感信息中只存在第三类别的敏感词组，则确定目标频率增幅为第三频率增幅。其中，第一频率增幅大于第二频率增幅，第二频率增幅大于第三频率振幅，进一步的，终端根据目标频率增幅和目标时间段增幅对目标获取方式进行更新。例如，初始的目标获取方式中目标获取频率为10次/小时，目标获取时间段为2:00-5:00，若终端检测到敏感信息中包含两个敏感词组，且存在第一类别的敏感词组，则确定对应的目标频率增幅为第一频率增幅(30次/小时)，目标时间段增幅为2小时，并根据目标频率增幅和目标时间段增幅对目标获取方式进行更新，得到更新的目标获取频率为40次/小时，更新的目标获取时间段为1:00-6:00。需要说明的是，可以预先设置最大获取频率以及最长获取时间段，当更新的目标获取频率大于最大获取频率时，终端将该最大获取频率确定为针对目标源对象的文本数据获取频率，当更新的目标时间段长于最长获取时间段时，终端将该最长获取时间段确定为针对目标源对象的文本数据获取时间段。

图2是本发明实施例中另一种敏感信息检测方法的流程示意图。如图2所示，本实施例中的敏感信息检测方法的流程可以包括：

S201、终端基于目标获取方式从目标源对象中获取文本数据，并对文本数据进行分词处理，得到至少一个词组。

终端获取到文本数据之后，将对文本数据进行分词处理，得到至少一个词组，其中，分词处理的具体方式可以为基于字符匹配的算法对文本数据进行分词处理，或者通过字与字相邻共现的频率或概率来确定是否将各个文字组成为词组，或者，利用统计机器学习模型学习词语切分的规律来实现对文本数据的分词处理。

S202、若检测到至少一个词组中存在未存储于预置数据库中的目标词组，则终端获取目标词组的长度以及目标词组的格式。

本发明实施例中，终端对文本数据进行分词处理得到至少一个词组之后，将检测至少一个词组中每个词组是否都存储于预置数据库中。若每个词组都存在于预置数据库中，则终端根据预置数据库判断所述文本数据中是否包含敏感信息，即若检测到至少一个词组中存在存储于敏感词数据库中的目标敏感词组，则将目标敏感词组确定为文本数据中包含的敏感信息；若检测到至少一个词组中每个词组都存在于所述常规词数据库中，则确定文本数据中不包含敏感信息。

若检测到至少一个词组中存在未存储于预置数据库中的目标词组，则终端将至少一个词组中存储于敏感词数据库中的词组确定为文本数据中的敏感信息，将至少一个词组中存储常规词数据库中的词组，确定为文本数据中的非敏感信息，并获取目标词组的长度以及目标词组的格式，其中，目标词组的长度由构成目标词组的字符的数量所确定，目标词组的格式包括前缀、后缀、特殊字段、构成目标词组的字符排序等。

S203、终端根据目标词组的长度从至少一种格式匹配模型中确定出目标格式匹配模型。

本发明实施例中，终端获取到目标词组的长度和格式之后，将根据目标词组的长度从至少一种格式匹配模型中确定出目标格式匹配模型，其中，至少一种格式匹配模型包括手机号码格式匹配模型、身份证号码格式匹配模型、银行卡号格式匹配模型等，每种格式匹配拥有固定的格式，例如，手机号格式匹配模型具有固定前后缀，身份证号码格式匹配模型具有包含省市区、性别对应字符的固定排列格式，银行卡号格式匹配模型具有目标字段，每种格式匹配模型可以对应不同的长度，如手机号码格式匹配模型对应的长度为11，银行卡号格式匹配模型对应的长度为16，身份证号码格式匹配模型对应的长度为18，通过上述方式，终端获取到目标词组的长度之后，即可根据该长度确定对应的目标格式匹配模型。

S204、若目标词组的格式与目标格式匹配模型不相匹配，则终端将目标词组输入至预置深度学习模型中。

本发明实施中，终端根据目标词组的长度确定目标格式匹配模型之后，将检测该目标词组的格式与目标格式匹配模型是否匹配，若目标词组的格式与目标格式匹配模型相匹配，则终端确定目标词组为文本数据中的敏感信息，并将该目标词组加入至敏感词数据库中，以对敏感词数据库中存储的敏感词组进行更新。

若目标词组的格式与目标格式匹配模型不相匹配，则终端将目标词组输入至预置深度学习模型中。其中，预置深度学习模型包括敏感词学习模型和常规词学习模型，敏感词学习模型用于输出词组属于敏感词的概率，常规词学习模型用于输出词组属于常规词的概率。

具体的，可以预先基于大量已经确定的敏感词组进行训练，得到用于判断词组是否为敏感词组的敏感词学习模型，并且基于大量已经确定的常规词组进行训练，得到用于判断词组是否为常规词组的常规词学习模型，终端将目标词组输入至敏感词学习模型中，敏感词学习模型可以输出一个该目标词组为敏感词组的概率，以第一概率表示，并且，终端将目标词组输入至常规词学习模型中，敏感词学习模型可以输出一个该目标词组为常规词组的概率，以第二概率表示。

S205、终端根据预置深度学习模型的输出结果确定目标词组是否为文本数据中包含的敏感信息。

本发明实施例中，终端将目标词组输入至预置深度学习模型中之后，将获取到阈值深度模型的输出结果，并根据预置深度学习模型的输出结果确定目标词组是否为文本数据中包含的敏感信息。具体的，终端可以获取敏感词学习模型输出的第一概率以及常规词学习模型输出的第二概率，并根据第一概率和、第二概率确定目标词组是否为文本数据中的敏感信息。

在一种实现方式中，终端根据第一概率和第二概率确定目标词组是否为文本数据中的敏感信息的具体方式可以为，终端检测第一概率与第二概率之间的大小关系，若第一概率大于所述第二概率，则将目标词组确定为文本数据中的敏感信息，并将目标词组加入至敏感词数据库中，若第一概率小于第二概率，则确定目标词组不为文本数据中的敏感信息，并将目标词组加入至常规词数据库中。

在一种实现方式中，为了避免第一概率和第二概率的差值过小而引起判断错误，终端根据第一概率和第二概率确定目标词组是否为文本数据中的敏感信息的具体方式还可以为，终端计算所述第一概率与所述第二概率之间的差值的绝对值；若差值的绝对值大于预设值，则终端检测第一概率与第二概率的大小；若第一概率大于所述第二概率，则确定目标词组为文本数据中的敏感信息，并将目标词组加入至敏感词数据库中；若第一概率小于第二概率，则确定目标词组不为所述文本数据中的敏感信息，并将目标词组加入至常规词数据库中。通过上述方式，可以避免因第一概率和第二概率之间的差值过小而引起的判断错误。

S206、若文本数据中包含敏感信息，则终端根据敏感信息对目标获取方式进行更新。

在一种实现方式中，终端根据敏感信息对目标获取方式进行更新的具体方式可以为，终端获取敏感信息中敏感词组的数量，并根据数量与频率增幅的对应关系的确定针对目标获取频率的目标频率增幅；以及根据数量与时间段增幅的对应关系确定针对目标获取时间段的目标时间段增幅，进一步的，终端根据目标频率增幅和目标时间段增幅对目标获取方式进行更新。

在一种实现方式中，终端根据敏感信息对目标获取方式进行更新的具体方式可以为，终端获取敏感信息中敏感词组的类别，并根据类别与频率增幅的对应关系的确定针对目标获取频率的目标频率增幅；以及根据数量与时间段增幅的对应关系确定针对目标获取时间段的目标时间段增幅，进一步的，终端根据目标频率增幅和目标时间段增幅对目标获取方式进行更新。

在一种实现方式中，终端根据敏感信息对目标获取方式进行更新的具体方式可以为，终端获取敏感信息中敏感词组的类别，并根据类别与频率增幅的对应关系的确定针对目标获取频率的目标频率增幅；以及根据类别与时间段增幅的对应关系确定针对目标获取时间段的目标时间段增幅，进一步的，终端根据目标频率增幅和目标时间段增幅对目标获取方式进行更新。

在一种实现方式中，终端获取到文本数据之后，若文本数据中未包含敏感信息，则终端获取到历史获取的至少一个文本数据中未包含敏感信息的文本数据对应的目标数量，并根据目标数量确定对目标获取方式进行更新，具体的，根据目标数量与频率降幅的对应关系的确定针对目标获取频率的目标频率降幅；以及根据数量与时间段降幅的对应关系确定针对目标获取时间段的目标时间段降幅，进一步的，终端根据目标频率降幅和目标时间段降幅对目标获取方式进行更新。例如，初始的目标获取方式中目标获取频率为20次/小时，目标获取时间段为2:00-5:00，若终端检测到文本数据中未存在敏感信息，终端获取到历史获取的至少一个文本数据中未包含敏感信息的文本数据的目标数量，并确定目标数量对应的第一降幅为1次/小时，目标获取时间段降幅为1小时，则终端根据目标频率降幅和目标时间段降幅对目标获取方式进行更新，得到更新的目标获取频率为19次/小时，更新的目标获取时间段为2:30-4:30。需要说明的是，可以预先设置最小获取频率以及最短获取时间段，当更新的目标获取频率小于最小获取频率时，终端将该最小获取频率确定为针对目标源对象的文本数据获取频率，当更新的目标时间段短于最小获取时间段时，终端将该最短获取时间段确定为针对目标源对象的文本数据获取时间段。

进一步的，可以采用更新后的目标获取方式获取到目标源对象产生的文本数据之后，将检测文本数据中是否包含敏感信息，当检测到敏感信息后，可以发出相应的告警，以提示文本数据中包含敏感信息。

本发明实施例中，终端基于目标获取方式从目标源对象中获取文本数据，当预置数据库判断文本数据是否包含敏感信息的条件时，终端基于预置数据库判断文本数据中是否包含敏感信息，若预置数据库不能判断，则终端基于预设规则判断文本数据是否包含敏感信息，若预设规则不能判断，则终端基于神经网络模型判断文本数据是否包含敏感信息。进一步的，终端还可以基于敏感信息确定针对产生文本数据的应用程序的数据获取方式。通过实施上述方法，提升了对敏感信息监控的准确性以及监控效率。

基于上述敏感信息检测方法实施例的描述，本发明实施例还公开了一种敏感信息检测装置。该敏感信息检测装置可以是运行于终端中的一个计算机程序(包括程序代码)，也可以是包含在终端中的一个实体装置。该敏感信息检测装置可以执行图1-图2所示的方法。请参见图3，该敏感信息检测装置30包括：获取模块301、处理模块302、检测模块303、判断模块304、更新模块305。

获取模块301，用于基于目标获取方式从目标源对象中获取文本数据，所述目标获取方式包括针对所述目标源对象的目标获取频率以及目标获取时间段；

处理模块302，用于对所述文本数据进行分词处理，得到至少一个词组；

检测模块303，用于检测所述至少一个词组中每个词组是否都存储于预置数据库中，所述预置数据库包括敏感词数据库或常规词数据库，所述敏感词数据库中存储了至少一个敏感词组，所述常规词数据库存储了至少一个非敏感词组；

判断模块304，用于若检测到所述至少一个词组中每个词组都存储于所述预置数据库中，则根据所述预置数据库判断所述文本数据中是否包含敏感信息；

所述判断模块304，还用于若检测到所述至少一个词组中存在未存储于预置数据库中的目标词组，则根据预先设定的敏感信息判断规则判断所述文本数据中是否包含敏感信息；

更新模块305，用于若所述文本数据中包含敏感信息，则根据所述敏感信息对所述目标获取方式进行更新。

在一种实现方式中，判断模块304具体用于：

若检测到所述至少一个词组中存在存储于所述敏感词数据库中的目标敏感词组，则将目标敏感词组确定为所述文本数据中包含的敏感信息；

若检测到所述至少一个词组中每个词组都存储于所述常规词数据库中，则确定所述文本数据中不包含敏感信息。

在一种实现方式中，所述敏感信息判断规则具体用于判断所述目标词组的长度以及所述目标词组的格式，判断模块304具体用于：

获取所述目标词组的长度以及所述目标词组的格式；

根据所述目标词组的长度从至少一种格式匹配模型中确定出目标格式匹配模型；

检测所述目标词组的格式是否与所述目标格式匹配模型相匹配；

若所述目标词组的格式与所述目标格式匹配模型相匹配，则确定所述目标词组为所述文本数据中的敏感信息。

在一种实现方式中，更新模块305具体用于：

将所述目标词组加入至所述敏感词数据库中，以对所述敏感词数据库中存储的敏感词组进行更新。

在一种实现方式中，判断模块304具体用于：

若所述目标词组的格式与所述目标格式匹配模型不相匹配，则将所述目标词组输入至预置深度学习模型中，所述预置深度学习模型包括敏感词学习模型和常规词学习模型，所述敏感词学习模型用于输出词组属于敏感词组的概率，所述常规词学习模型用于输出所述词组属于常规词组的概率；

获取所述敏感词学习模型输出的第一概率以及所述常规词学习模型输出的第二概率；

根据所述第一概率和所述第二概率确定所述目标词组是否为所述文本数据中的敏感信息。

在一种实现方式中，判断模块304具体用于：

计算所述第一概率与所述第二概率之间的差值的绝对值；

若所述差值的绝对值大于预设值，则检测所述第一概率与所述第二概率的大小；

若所述第一概率大于所述第二概率，则确定所述目标词组为所述文本数据中的敏感信息；

若所述第一概率小于所述第二概率，则确定所述目标词组不为所述文本数据中的敏感信息。

在一种实现方式中，更新模块305具体用于：

获取所述敏感信息中敏感词组的数量；

根据数量与频率增幅的对应关系的确定针对所述目标获取频率的目标频率增幅；

根据数量与时间段增幅的对应关系确定针对所述目标获取时间段的目标时间段增幅；

根据所述目标频率增幅和所述目标时间段增幅对所述目标获取方式进行更新。

本发明实施例中，获取模块301基于目标获取方式从目标源对象中获取文本数据，处理模块302对文本数据进行分词处理，得到至少一个词组，检测模块303检测至少一个词组中每个词组是否都存储于预置数据库中，若检测到至少一个词组中每个词组都存储于预置数据库中，则判断模块304根据预置数据库判断文本数据中是否包含敏感信息；若检测到至少一个词组中存在未存储于预置数据库中的目标词组，则判断模块304根据预先设定的敏感信息判断规则判断文本数据中是否包含敏感信息，若所述文本数据中包含敏感信息，则更新模块根据所述敏感信息对所述目标获取方式进行更新。通过实施上述方法，可以提升对敏感信息监控的准确性以及监控效率。

请参见图4，为本发明实施例提供的一种终端的结构示意图。如图4所示，该终端包括：至少一个处理器401，输入设备403，输出设备404，存储器405，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，存储器405可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所描述的装置，存储器405中存储一组程序代码，且处理器401，输入设备403，输出设备404调用存储器405中存储的程序代码，用于执行以下操作：

处理器401，基于目标获取方式从目标源对象中获取文本数据，所述目标获取方式包括针对所述目标源对象的目标获取频率以及目标获取时间段；

处理器401，用于对所述文本数据进行分词处理，得到至少一个词组；

处理器401，用于检测所述至少一个词组中每个词组是否都存储于预置数据库中，所述预置数据库包括敏感词数据库或常规词数据库，所述敏感词数据库中存储了至少一个敏感词组，所述常规词数据库存储了至少一个非敏感词组；

处理器401，用于若检测到所述至少一个词组中每个词组都存储于所述预置数据库中，则根据所述预置数据库判断所述文本数据中是否包含敏感信息；

处理器401，用于若检测到所述至少一个词组中存在未存储于预置数据库中的目标词组，则根据预先设定的敏感信息判断规则判断所述文本数据中是否包含敏感信息；

处理器401，用于若所述文本数据中包含敏感信息，则根据所述敏感信息对所述目标获取方式进行更新。

在一种实现方式中，处理器401，具体用于：

在一种实现方式中，所述敏感信息判断规则具体用于判断所述目标词组的长度以及所述目标词组的格式，处理器401，具体用于：

获取所述目标词组的长度以及所述目标词组的格式；

在一种实现方式中，处理器401，具体用于：

计算所述第一概率与所述第二概率之间的差值的绝对值；

在一种实现方式中，处理器401，具体用于：

获取所述敏感信息中敏感词组的数量；

本发明实施例中，处理器401基于目标获取方式从目标源对象中获取文本数据，处理器401对文本数据进行分词处理，得到至少一个词组，处理器401检测至少一个词组中每个词组是否都存储于预置数据库中，若检测到至少一个词组中每个词组都存储于预置数据库中，则处理器401根据预置数据库判断文本数据中是否包含敏感信息；若检测到至少一个词组中存在未存储于预置数据库中的目标词组，则处理器401根据预先设定的敏感信息判断规则判断文本数据中是否包含敏感信息，若文本数据中包含敏感信息，则处理器401根据敏感信息对目标获取方式进行更新，通过实施上述方法，可以提升对敏感信息监控的准确性以及监控效率。

本发明实施例中所述模块，可以通过通用集成电路，例如CPU(CentralProcessing Unit，中央处理器)，或通过ASIC(Application Specific IntegratedCircuit，专用集成电路)来实现。

应当理解，在本发明实施例中，所称处理器401可以是中央处理模块(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

总线402可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互联(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等，该总线402可以分为地点总线、数据总线、控制总线等，为便于表示，图4仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种敏感信息检测方法，其特征在于，所述方法包括：

对所述文本数据进行分词处理，得到至少一个词组；

2.根据权利要求1所述的方法，其特征在于，所述根据所述预置数据库判断所述文本数据中是否包含敏感信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述敏感信息判断规则具体用于判断所述目标词组的长度以及所述目标词组的格式，所述根据预先设定的敏感信息判断规则判断所述文本数据中是否包含敏感信息，包括：

获取所述目标词组的长度以及所述目标词组的格式；

4.根据权利要求3所述的方法，所述确定所述目标词组为所述文本数据中的敏感信息之后，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述检测所述目标词组的格式是否与所述目标格式匹配模型相匹配之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一概率和所述第二概率确定所述目标词组是否为所述文本数据中的敏感信息，包括：

计算所述第一概率与所述第二概率之间的差值的绝对值；

7.根据权利要求1所述的方法，其特征在于，所述根据所述敏感信息对所述目标获取方式进行更新，包括：

获取所述敏感信息中敏感词组的数量；

8.一种敏感信息检测装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。