CN115828901A - 敏感信息识别方法、装置、电子设备及存储介质 - Google Patents

敏感信息识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115828901A
CN115828901A CN202211674689.7A CN202211674689A CN115828901A CN 115828901 A CN115828901 A CN 115828901A CN 202211674689 A CN202211674689 A CN 202211674689A CN 115828901 A CN115828901 A CN 115828901A
Authority
CN
China
Prior art keywords
log data
model
historical
target
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211674689.7A
Other languages
English (en)
Inventor
刘良
张慧萍
罗升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211674689.7A priority Critical patent/CN115828901A/zh
Publication of CN115828901A publication Critical patent/CN115828901A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种敏感信息识别方法、装置、电子设备及存储介质,本申请首先基于包含输入样本和输出样本的训练样本对实体识别模型进行模型训练,其中,输入样本为历史日志数据,输出样本为历史日志数据对应的历史标注信息,历史标注信息表征历史日志数据中的字符所属的实体类型,进而可以通过实体识别模型,获取目标日志数据对应的目标标注信息,其中,目标标注信息表征目标日志数据中的字符所属的实体类型,进而根据目标标注信息,获取目标日志数据中的实体词作为敏感信息,从而可以实现对目标日志数据中的实体词的识别,避免由于无法对实体词进行识别而造成遗漏识别的情况,提高敏感信息识别的可靠性。

Description

敏感信息识别方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,更具体的说,是涉及一种敏感信息识别方法、装置、电子设备及存储介质。
背景技术
由于日志数据包含用户的敏感信息,例如,姓名、手机号、身份证号、地名等信息,那么在使用日志数据时,就可能会泄露用户的隐私。
目前,可以采用正则表达式对日志数据中的数字或字母组成字符串进行识别,例如,可以对身份证号和手机号进行识别,但是无法对有特定意义的文本信息进行识别,例如,姓名、地名、机构等信息,导致对敏感信息识别的可靠性差。
发明内容
鉴于上述问题,提出了本申请以便提供一种敏感信息识别方法、装置、电子设备及存储介质,以实现对具有特定意义的文本信息的识别。具体方案如下:
一种敏感信息识别方法,方法包括:
获取待识别的目标日志数据;
通过实体识别模型,对所述目标日志数据进行处理,得到所述目标日志数据对应的目标标注信息,所述目标标注信息表征所述目标日志数据中的字符所属的实体类型;
其中,所述实体识别模型包含自然语言处理模型和深度学习模型,所述自然语言处理模型的输出作为所述深度学习模型的输入,且所述实体识别模型是基于训练样本进行模型训练得到的,所述训练样本包含输入样本和输出样本,所述输入样本为历史日志数据,所述输出样本为所述历史日志数据对应的历史标注信息,所述历史标注信息表征所述历史日志数据中的字符所属的实体类型;
根据所述目标日志数据对应的所述目标标注信息,获取所述目标日志数据中的实体词作为敏感信息。
可选的,所述实体识别模型基于所述训练样本按照以下方式进行训练:
获得所述历史日志数据中的一份日志数据作为当前训练数据;
通过所述自然语言处理模型,对所述当前训练数据进行处理,得到所述当前训练数据中的至少一个字符;
通过所述深度学习模型,对所述当前训练数据中的字符进行处理,得到所述当前训练数据对应的预测标注信息;
将所述预测标注信息与所述输出样本中与所述当前训练数据对应的历史标注信息进行对比;
在所述预测标注信息与所述历史标注信息不满足模型收敛条件的情况下,对所述自然语言处理模型的模型参数和所述深度学习模型的模型参数进行修改;
获得所述历史日志数据中的下一份日志数据作为新的当前训练数据,返回执行所述:通过所述自然语言处理模型,对所述当前训练数据进行处理,直到所述预测标注信息与所述历史标注信息满足所述模型收敛条件。
可选的,对所述自然语言处理模型的模型参数和所述深度学习模型的模型参数进行修改,包括:
根据所述预测标注信息与所述历史标注信息,获得损失值;
根据所述损失值,对所述自然语言处理模型的模型参数和所述深度学习模型的模型参数进行修改。
可选的,还包括:
对所述目标日志数据中的实体词进行加密。
可选的,还包括:
将所述加密后的目标日志数据进行存储。
一种敏感信息识别装置,包括:
日志数据获取单元,用于获取待识别的目标日志数据;
日志数据识别单元,用于通过实体识别模型,对所述目标日志数据进行处理,得到所述目标日志数据对应的目标标注信息,所述目标标注信息表征所述目标日志数据中的字符所属的实体类型;
其中,所述实体识别模型包含自然语言处理模型和深度学习模型,所述自然语言处理模型的输出作为所述深度学习模型的输入,且所述实体识别模型是基于训练样本进行模型训练得到的,所述训练样本包含输入样本和输出样本,所述输入样本为历史日志数据,所述输出样本为所述历史日志数据对应的历史标注信息,所述历史标注信息表征所述历史日志数据中的字符所属的实体类型;
信息获取单元,用于根据所述目标日志数据对应的所述目标标注信息,获取所述目标日志数据中的实体词作为敏感信息。
可选的,所述日志数据识别单元,包括:
训练数据获取单元,用于获得所述历史日志数据中的一份日志数据作为当前训练数据;
字符获取单元,用于通过所述自然语言处理模型,对所述当前训练数据进行处理,得到所述当前训练数据中的至少一个字符;
预测单元,用于通过所述深度学习模型,对所述当前训练数据中的字符进行处理,得到所述当前训练数据对应的预测标注信息;
判断单元,用于将所述预测标注信息与所述输出样本中与所述当前训练数据对应的历史标注信息进行对比;所述预测标注信息与所述历史标注信息不满足模型收敛条件的情况下,对所述自然语言处理模型的模型参数和所述深度学习模型的模型参数进行修改;
训练数据获取单元,还用于获得所述历史日志数据中的下一份日志数据作为新的当前训练数据,返回执行所述:通过所述自然语言处理模型,对所述当前训练数据进行处理,直到所述预测标注信息与所述历史标注信息满足模型收敛条件。
可选的,所述判断单元,包括:
损失值获取单元,用于根据所述预测标注信息与所述历史标注信息,获得损失值;
参数修改单元,用于根据所述损失值,对所述自然语言处理模型的模型参数和所述深度学习模型的模型参数进行修改。
一种电子设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,以实现:
获取待识别的目标日志数据;
通过实体识别模型,对所述目标日志数据进行处理,得到所述目标日志数据对应的目标标注信息,所述目标标注信息表征所述目标日志数据中的字符所属的实体类型;
其中,所述实体识别模型包含自然语言处理模型和深度学习模型,所述自然语言处理模型的输出作为所述深度学习模型的输入,且所述实体识别模型是基于训练样本进行模型训练得到的,所述训练样本包含输入样本和输出样本,所述输入样本为历史日志数据,所述输出样本为所述历史日志数据对应的历史标注信息,所述历史标注信息表征所述历史日志数据中的字符所属的实体类型;
根据所述目标日志数据对应的所述目标标注信息,获取所述目标日志数据中的实体词作为敏感信息。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现:
获取待识别的目标日志数据;
通过实体识别模型,对所述目标日志数据进行处理,得到所述目标日志数据对应的目标标注信息,所述目标标注信息表征所述目标日志数据中的字符所属的实体类型;
其中,所述实体识别模型包含自然语言处理模型和深度学习模型,所述自然语言处理模型的输出作为所述深度学习模型的输入,且所述实体识别模型是基于训练样本进行模型训练得到的,所述训练样本包含输入样本和输出样本,所述输入样本为历史日志数据,所述输出样本为所述历史日志数据对应的历史标注信息,所述历史标注信息表征所述历史日志数据中的字符所属的实体类型;
根据所述目标日志数据对应的所述目标标注信息,获取所述目标日志数据中的实体词作为敏感信息。
借由上述技术方案,本申请提出的敏感信息识别方法、装置、电子设备及存储介质中,首先获取待识别的目标日志数据,通过实体识别模型,对目标日志数据进行处理,得到目标日志数据对应的目标标注信息,其中,目标标注信息表征目标日志数据中的字符所属的实体类型,实体识别模型包含自然语言处理模型和深度学习模型,自然语言处理模型的输出作为深度学习模型的输入,且实体识别模型是基于训练样本进行模型训练得到的,训练样本包含输入样本和输出样本,输入样本为历史日志数据,输出样本为历史日志数据对应的历史标注信息,历史标注信息表征历史日志数据中的字符所属的实体类型,进而根据目标日志数据对应的目标标注信息,获取目标日志数据中的实体词作为敏感信息。由此可见,本申请通过预先训练的实体识别模型,获取目标日志数据对应的目标标注信息,进而根据目标日志数据对应的目标标注信息,获取目标日志数据中的实体词,也就是目标日志数据中的敏感信息,进而可以实现对目标日志数据中实体词的识别,也就是对日志数据中具有特定文本意义的信息的识别,从而避免由于无法对具有特定文本意义的文本信息进行识别而造成遗漏识别的情况,从而提高敏感信息识别的可靠性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例一提供的敏感信息识别方法的一流程示意图;
图2为本申请实施例一提供的实体识别模型训练过程的流程示意图;
图3为本申请实施例一提供的实体识别模型参数修改的流程示意图;
图4为本申请实施例一提供的敏感信息识别方法的另一流程示意图;
图5为本申请实施例一提供的敏感信息识别方法的又一流程示意图;
图6为本申请实施例二提供的一种敏感信息识别装置结构示意图;
图7为本申请实施例二提供的日志数据识别单元的装置结构示意图;
图8为本申请实施例二提供的判断单元的装置结构示意图;
图9为本申请实施例二提供的另一种敏感信息识别装置结构示意图;
图10为本申请实施例二提供的又一种敏感信息识别装置结构示意图;
图11为本申请实施例三提供的一种电子设备的结构示意图;
图12为本申请提供的基于实体识别算法的日志敏感方案结构示意图;
图13为本申请提供的实体识别模型训练的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种敏感信息识别方案,可以适用于解决敏感信息识别可靠度低的问题。
本申请方案可以基于具备数据处理能力的电子设备实现,可以是计算机、本地服务器、云端服务器等。
接下来,结合图1所示,本申请实施例一提供的敏感信息识别方法可以包括如下步骤:
步骤S101、获取待识别的目标日志数据。
其中,目标日志数据是需要进行实体词识别的日志数据。例如,表1所示的目标日志数据。
表1目标日志数据
目标日志数据 高勇出生于上海市浦东新区
步骤S102、通过实体识别模型,对目标日志数据进行处理,得到目标日志数据对应的目标标注信息。
其中,目标标注信息表征目标日志数据中的字符所属的实体类型,例如姓名实体、地名实体等实体类型。也就是通过实体识别模型得到目标日志数据中的字符所属的实体类型。
例如,对表1中的目标日志数据进行识别,可以得到“高勇”属于姓名实体词,“上海市浦东新区”属于地名实体词,而“出生于”属于其他词。
具体的,目标标注信息中,可以用B表示实体词开头部分,I表示实体词中间部分,E表示实体词结束部分,O表示的实体类型为其他词,NAME表示的实体类型为姓名实体、ADDR表示的实体类型为地名实体。基于此,表1中的目标日志数据中的字符“高”对应的标注信息为B-NAME,字符“勇”对应的标注信息为E-NAME,字符“出”、字符“生”、字符“于”对应的标注信息均为O,字符“上”对应的标注信息为B-ADRR,字符“海”、字符“市”、字符“浦”、字符“东”、字符“新”对应的标注信息均为I-ADRR,字符“区”对应的标注信息为E-ADRR。由此,可以得到如表2所示的目标日志数据对应的目标标注信息。
其中,实体识别模型包含自然语言处理模型和深度学习模型,自然语言处理模型的输出作为深度学习模型的输入,且实体识别模型是基于训练样本进行模型训练得到的,训练样本包含输入样本和输出样本,输入样本为历史日志数据,输出样本为历史日志数据对应的历史标注信息,历史标注信息表征历史日志数据中的字符所属的实体类型。
也就是说,对实体识别模型进行模型训练时,首先获取输入样本和输出样本,输入样本为历史日志数据,输出样本为历史日志数据对应的历史标注信息,其中,历史日志数据对应的历史标注信息是预设的,且预设的历史标注信息存储在数据库中,本实施例可以直接从数据库中获取历史标注信息。基于此,利用获取的输入样本和输出样本,对实体识别模型进行模型训练,由此,可以利用训练后的实体识别模型,获取目标日志数据的目标标注信息。
表2目标日志数据对应的目标标注信息
目标日志数据 高勇出生于上海
目标标注信息 B-NAME E-NAME O O O B-ADRR I-ADDR
目标日志数据 市浦东新区
目标标注信息 I-ADDR I-ADDR I-ADDR I-ADDR E-ADDR
步骤S103、根据目标日志数据对应的目标标注信息,获取目标日志数据中的实体词作为敏感信息。
其中,目标日志数据中的实体词可以是目标日志数据中的姓名实体词、地名实体词、机构实体词等实体词。
例如,根据表2中目标日志数据对应的目标标注信息,可以得到的字符“高”对应的标注信息为B-NAME,表明字符“高”为实体词开头部分,字符“勇”对应的标注信息为E-NAME,表明字符“勇”为实体词结束部分,且字符“高”和字符“勇”的实体类型均为姓名实体,则可以得到姓名实体词“高勇”;同理,字符“上”对应的标注信息为B-ADRR,表明字符“上”为实体词的开头部分,字符“海”、字符“市”、字符“浦”、字符“东”、字符“新”对应的标注信息均为I-ADRR,表明字符串“海市浦东新”为实体词中间部分,字符“区”对应的标注信息为E-ADRR,表明字符“区”为实体词结束部分,且字符“上”、字符“海”、字符“市”、字符“浦”、字符“东”、字符“新”、字符“区”的实体类型均为地名实体,则可以得到地名实体词“上海市浦东新区”,进而将“高勇”、“上海市浦东新区”作为敏感信息。
由上述的方案可知,本申请实施例一提供的敏感信息识别方法中,首先基于训练样本预先对实体识别模型进行模型训练,训练样本包含输入样本和输出样本,输入样本为历史日志数据,输出样本为历史日志数据对应的历史标注信息,历史标注信息表征历史日志数据中的字符所述的实体类型。进而可以通过预先训练的实体识别模型,获取目标日志数据对应的目标标注信息,目标标注信息表征目标日志数据中的字符所属的实体类型,进而根据目标日志数据对应的目标标注信息,获取目标日志数据中的实体词,也就是目标日志数据中的敏感信息,从而实现对目标日志数据中实体词的识别,也就是对日志数据中具有特定文本意义的信息的识别,避免由于无法对具有特定文本意义的文本信息进行识别而造成遗漏识别的情况,提高敏感信息识别的可靠性。
在一种实现方式中,步骤S102中的实体识别模型是基于训练样本进行模型训练得到的,具体的,将历史日志数据中的一份日志数据作为实体识别模型的输入,将此日志数据对应的历史标注信息作为实体识别模型的输出,基于此,对实体识别模型进行模型训练,结合图2具体步骤如下:
步骤S201、获得历史日志数据中的一份日志数据作为当前训练数据。
例如,可以获取如表3中的历史日志数据作为当前训练数据。
表3当前训练数据
当前训练数据 张若在江苏省工作
步骤S202、通过自然语言处理模型,对当前训练数据进行处理,得到当前训练数据中的至少一个字符。
也就是说,通过自然语言处理模型,提取当前训练数据中的字符或字符串,例如,对表3中的当前训练数据进行处理,可以得到“张若”、“在”、“江苏省”“、工作”。
步骤S203、通过深度学习模型,对当前训练数据中的字符进行处理,得到当前训练数据对应的预测标注信息。
也就是说,通过深度学习模型,对得到的字符和字符串进行实体词的识别以及标注。
例如,对步骤S202得到字符串“张若”、字符“在”、字符串“江苏省”、字符串“工作”进行识别,可以得到字符“张”对应的标注信息为B-NAME,字符“若”对应的标注信息为E-NAME,字符“江”对应的标注信息为B-ADRR,字符“苏”对应的标注信息为I-ADRR,字符“省”对应的标注信息为E-ADRR,字符“在”、字符“工”、字符“作”对应的标注信息均为O,由此,可以得到当前训练样本的预测标注信息如表4。
表4当前训练样本对应的预测标注信息
当前训练数据 张若在江苏省工作
预测标注信息 B-NAME E-NAME O B-ADRR I-ADRR E-ADRR O O
步骤S204、将预测标注信息与输出样本中与当前训练数据对应的历史标注信息进行对比,判断预测标注信息与历史标注信息是否满足模型收敛条件,在预测标注信息与历史标注信息不满足模型收敛条件情况下,执行步骤S205;在预测标注信息与历史标注信息满足模型收敛条件的情况下,实体识别模型训练完成。
也就是说,将通过实体识别模型进行识别得到的预测标注信息和历史标注信息进行对比,若预测标注信息与历史标注信息满足模型收敛条件,说明可以通过实体识别模型得到当前训练数据对应的历史标注信息,则可以结束对实体识别模型的训练;若预测标注信息与历史标注信息不满足模型收敛条件,说明无法通过实体识别模型得到当前训练数据对应的历史标注信息,需要继续对实体识别模型进行模型训练。
步骤S205、在预测标注信息与历史标注信息不满足模型收敛条件的情况下,对自然语言处理模型的模型参数和深度学习模型的模型参数进行修改。
具体地,若预测标注信息与历史标注信息不满足模型收敛条件,则说明无法通过自然语言处理模型和深度学习模型得到当前训练数据对应的历史标注信息,则需要对自然语言处理模型的模型参数和深度学习模型的模型参数进行修改。
步骤S206、获得历史日志数据中的下一份日志数据作为新的当前训练数据,返回执行步骤S201:通过自然语言处理模型,对当前训练数据进行处理,直到预测标注信息与历史标注信息满足模型收敛条件。
也就是说,在对自然语言处理模型的模型参数和深度学习模型的模型参数进行修改之后,获取下一份历史日志数据,并将此历史日志数据作为当前训练数据,再次对实体识别模型进行模型训练,并返回执行步骤S201:通过自然语言处理模型,对当前训练数据进行处理,直到当前训练数据对应的预测标注信息与当前训练数据对应的历史标注信息满足模型收敛条件。
本申请实施例中,利用历史日志数据以及历史日志数据对应的历史标注信息,对自然语言处理模型和深度学习模型进行模型训练,使得通过训练后的自然语言处理模型和深度学习模型,能够获得目标日志数据对应的目标标注信息。
在一种实现方式中,步骤S205在对自然语言处理模型的模型参数和深度学习模型的模型参数进行修改时,结合图3具体包含如下步骤:
步骤S301、根据预测标注信息与历史标注信息,获得损失值。
具体地,根据预定义的损失函数计算预测标注信息与历史标注信息之间的损失值。
步骤S302、根据损失值,对自然语言处理模型的模型参数和深度学习模型的模型参数进行修改。
也就是说,根据损失值,利用优化算法,对自然语言处理模型的模型参数和深度学习模型的模型参数进行修改。具体地,可以将自然语言处理模型的模型参数和深度学习模型的模型参数增大或减小。
基于此,预测标注信息与历史标注信息满足模型收敛条件,包括:
自然语言处理模型的模型参数和深度学习模型的模型参数的修改次数大于或等于次数阈值;或,损失值满足模型收敛条件。
其中,损失值满足模型收敛条件为:连续多次获取的损失值之间差值小于或等于预设的阈值,例如,多次获得的损失值趋近于0或者其他特定的数值。
本申请实施例中,获取预测标注信息与历史标注信息之间的损失值,进而根据预测标注信息与历史标注信息之间的损失值,利用优化算法对自然语言处理模型的模型参数和深度学习模型的模型参数进行修改,使得对自然语言处理模型的模型参数和深度学习模型的模型参数进行修改的过程更加具体。
在一种实现方式中,在步骤S103获取目标日志数据中的实体词作为敏感信息之后,本实施例中的技术方案结合图4还可以包括如下步骤:
步骤S104、对目标日志数据中的实体词进行加密。
本申请实施例中,通过对目标日志数据中的实体词进行加密,使得在使用目标日志数据的时候,可以保护目标数据中包含的用户的隐私。
在一种实现方式中,在步骤S104、对目标日志数据中的实体词进行加密之后,本实施例中的技术方案结合图5还可以包括如下步骤:
步骤S105、将加密后的目标日志数据进行存储。
具体地,可以将加密后的目标日志数据存储到本地的数据库中。
本申请实施例中,通过将加密后的目标日志数据进行存储,使得在需要加密后的目标日志数据的时候,可以直接从数据库中获取,使得获取加密日志数据的效率更高。
下面对本申请实施例二提供的敏感信息识别装置进行描述,下文描述的敏感信息识别装置与上文描述的敏感信息识别方法可相互对应参照。
参见图6,图6为本申请实施例二公开的一种敏感信息识别装置结构示意图。
如图6所示,该装置可以包括:
日志数据获取单元601,用于获取待识别的目标日志数据;
日志数据识别单元602,用于通过实体识别模型,对目标日志数据进行处理,得到目标日志数据对应的目标标注信息,目标标注信息表征目标日志数据中的字符所属的实体类型;
其中,实体识别模型包含自然语言处理模型和深度学习模型,自然语言处理模型的输出作为深度学习模型的输入,且实体识别模型是基于训练样本进行模型训练得到的,训练样本包含输入样本和输出样本,输入样本为历史日志数据,输出样本为历史日志数据对应的历史标注信息,历史标注信息表征历史日志数据中的字符所属的实体类型;
信息获取单元603,用于根据目标日志数据对应的目标标注信息,获取目标日志数据中的实体词作为敏感信息。
由上述方案可知,本申请实施例二提供的一种敏感信息识别装置中,预先基于训练样本对实体识别模型进行模型训练,训练样本包含输入样本和输出样本,输入样本为历史日志数据,输出样本为历史日志数据对应的历史标注信息,历史标注信息表征历史日志数据中的字符所述的实体类型,进而可以通过预先训练的实体识别模型,获取目标日志数据对应的目标标注信息,目标标注信息表征目标日志数据中的字符所属的实体类型,进而根据目标日志数据对应的目标标注信息,获取目标日志数据中的实体词,也就是目标日志数据中的敏感信息,从而实现对目标日志数据中实体词的识别,也就是对日志数据中具有特定文本意义的信息的识别,避免由于无法对具有特定文本意义的文本信息进行识别而造成遗漏识别的情况,提高敏感信息识别的可靠性。
在一种实现方式中,如图7所示的装置结构示意图,日志数据识别单元602,包括:
训练数据获取单元701,用于获得历史日志数据中的一份日志数据作为当前训练数据;
字符获取单元702,用于通过自然语言处理模型,对当前训练数据进行处理,得到当前训练数据中的至少一个字符;
预测单元703,用于通过深度学习模型,对当前训练数据中的字符进行处理,得到当前训练数据对应的预测标注信息;
判断单元704,用于将预测标注信息与输出样本中与当前训练数据对应的历史标注信息进行对比;预测标注信息与历史标注信息不满足模型收敛条件的情况下,对自然语言处理模型的模型参数和深度学习模型的模型参数进行修改;
训练数据获取单元701,还用于获得历史日志数据中的下一份日志数据作为新的当前训练数据,返回执行:通过自然语言处理模型,对当前训练数据进行处理,直到预测标注信息与历史标注信息满足模型收敛条件。
在一种实现方式中,如图8所示的装置结构示意图,判断单元704,包括:
损失值获取单元801,用于根据预测标注信息与历史标注信息,获得损失值;
参数修改单元802,用于根据损失值,对自然语言处理模型的模型参数和深度学习模型的模型参数进行修改。
在一种实现方式中,如图9所示的装置结构示意图,本申请实施例提供的敏感信息识别装置,还包括如下装置:
加密单元604、用于对目标日志数据中的实体词进行加密。
在一种实现方式中,如图10所示的装置结构示意图,本申请实施例提供的装置结构示意图,还包括如下装置:
存储单元605、用于将加密后的目标日志数据进行存储。
本申请实施例二提供的敏感信息识别装置可应用于电子设备,如计算机、本地服务器等。可选的,图11示出了本申请实施例三提供的一种电子设备的硬件结构框图,参照图11,电子设备的硬件结构可以包括:至少一个处理器1101,至少一个通信接口1102,至少一个存储器113和至少一个通信总线1104;
在本申请实施例中,处理器1101、通信接口1102、存储器1103、通信总线1104的数量为至少一个,且处理器1101、通信接口1102、存储器1103通过通信总线1104完成相互间的通信;
处理器1101可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路等;
存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待识别的目标日志数据;
通过实体识别模型,对目标日志数据进行处理,得到目标日志数据对应的目标标注信息,目标标注信息表征目标日志数据中的字符所属的实体类型;
其中,实体识别模型包含自然语言处理模型和深度学习模型,自然语言处理模型的输出作为深度学习模型的输入,且实体识别模型是基于训练样本进行模型训练得到的,训练样本包含输入样本和输出样本,输入样本为历史日志数据,输出样本为历史日志数据对应的历史标注信息,历史标注信息表征历史日志数据中的字符所属的实体类型;
根据目标日志数据对应的目标标注信息,获取目标日志数据中的实体词作为敏感信息。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例四还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待识别的目标日志数据;
通过实体识别模型,对目标日志数据进行处理,得到目标日志数据对应的目标标注信息,目标标注信息表征目标日志数据中的字符所属的实体类型;
其中,实体识别模型包含自然语言处理模型和深度学习模型,自然语言处理模型的输出作为深度学习模型的输入,且实体识别模型是基于训练样本进行模型训练得到的,训练样本包含输入样本和输出样本,输入样本为历史日志数据,输出样本为历史日志数据对应的历史标注信息,历史标注信息表征历史日志数据中的字符所属的实体类型;
根据目标日志数据对应的目标标注信息,获取目标日志数据中的实体词作为敏感信息。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请可以适用于对日志数据中的敏感信息进行识别,当前在大型科技企业中的一般都会建设一个日志中心,对所有的业务系统输出的日志数据进行统一的收集、处理、存储和查询。日志数据可能包含具有明确规则的敏感信息,例如,与用户隐私相关的手机号、身份证号、银行卡号等敏感信息,也可能包含具有特定意义的文本信息,例如,姓名、地名、机构名、专有名词等敏感信息。而日志中心作为日志数据的消费方,无法确保上游的业务系统输出的日志数据中不包含用户有关的敏感信息,因此有必要对日志数据中的敏感信息进行治理。
目前行业中,通常采用正则表达式识别日志数据中的手机号、身份证号、银行卡号等具有明确规则类型的敏感信息,但是日志数据中具有特定意义的文本信息无法采用正则表达式的方法进行识别。理论上,可以采用监督学习的方式对模型进行训练,进而利用训练后的模型对具有特定意义的文本信息进行识别,这种方法理论上可以识别日志数据中的不同类型的敏感信息,但是构建训练数据样本库的成本较高,随着敏感信息种类的增加,样本标注的成本也会增加。
针对现有技术的缺陷,本申请提出了敏感信息识别方法,接下来,以一种基于实体识别算法的日志敏感方案为例,结合图12,具体方案如下:
1、构建含有敏感信息日志的样本库
工业上,构建实体识别模型的第一步是要先获取训练样本,训练样本包含输入样本和输出样本,首先收集大量历史日志数据{X}作为输入样本,对历史日志数据进行标注,得到其历史标注信息{Y},将历史标注信息{Y}作为输出样本,本申请通过采集生产环境中的历史日志数据,并对其进行字符级别的标注,即对文本中的每个字进行类别标注,标注方式为B表示实体的开头部分,I表示实体中间部分,E表示结束部分,O表示其他实体;NAME表示姓名实体、ADDR表示地名实体,例如,如图12所示的人工标注的历史日志数据,由此,可以得到训练样本{X;Y}。
2、构建实体识别模型
(1)实体识别模型的构建与训练
本申请基于迁移学习的方法构建实体识别模型,结合图13,实体识别模型包含自然语言处理模型和深度学习模型,其中,自然语言处理模型和深度学习模型均为开源的模型,迁移学习方法就是将自然语言处理模型的输出,作为深度学习模型的输入,进行实体识别模型的训练和使用。实体识别模型的训练过程结合图13,可以包含如下步骤:
步骤1、将训练样本中的输入样本X的一份当前训练数据作为实体识别模型的输入,基于前文中的实体识别模型的训练过程,通过自然语言处理模型和深度学习模型,对当前训练数据进行处理,得到模型输出Y_hat(即前文中的当前训练样本对应的预测标注信息)。
步骤2、根据预定义的损失函数,计算模型输出Y_hat和真实目标值Y(即前文中输出样本中的当前训练数据对应的历史标注信息)之间的损失值。
步骤3、根据得到的损失值,利用最小化误差准则以及优化器的数学优化算法,对自然语言处理模型以及深度学习模型的权重参数进行修改。
步骤4、获取历史日志数据中的下一份日志数据作为新的当前训练数据,返回执行步骤1:对当前训练数据进行处理,直到模型输出Y_hat与真实目标值Y满足模型收敛条件。
(2)模型评价
在得到实体识别模型之后,可以使用线上的历史日志数据以及历史日志数据对应的真实目标值Y,对实体识别模型进行模型评价。通过实体识别模型,对历史日志数据进行处理,得到模型输出Y_hat,若模型输出Y_hat与真实目标值Y满足模型收敛条件,表明该实体识别模型具有有效性。
(3)部署模型
将有效的实体识别模型部署到服务器。
(4)敏感信息检测服务
对外发布日志数据的敏感信息检测服务。
3、构建实时日志脱敏系统
如图12所示的实时日志脱敏系统,首先业务系统将本地产生的目标日志数据通过网络发送至日志实时收集系统(即前文中的日志中心),日志实时收集系统将接收到的目标日志数据发送至实时脱敏处理模块,实时脱敏处理模块调用前文中的敏感信息检测服务对目标日志数据中的敏感信息进行识别,并对识别到的敏感信息进行加密,最后将加密后的目标日志数据存储到数据库。
综上,本申请提供的基于实体识别算法的日志脱敏方案的优势如下:
1、采用了实体识别模型,对目标日志数据中的敏感信息进行识别。
相比于基于正则表达式提取敏感信息的方法,实体识别算法不仅可以有效地提取具有明确规则的敏感信息,如手机号、身份证号,还可以提取具有一定意义的文本信息,如姓名、地名、机构名等。
2、采用开源的自然语言处理的模型进行迁移学习。
由于实体识别模型的参数过于庞大,如果直接使用自建的训练样本库进行实体识别模型的训练,会导致实体识别模型欠拟合,无法得到好用的实体识别模型。本申请采用了预训练模型(即前文中的自然语言处理模型),可以使用较少的训练样本对实体识别模型进行微调,可以达到较好的效果。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种敏感信息识别方法,其特征在于,方法包括:
获取待识别的目标日志数据;
通过实体识别模型,对所述目标日志数据进行处理,得到所述目标日志数据对应的目标标注信息,所述目标标注信息表征所述目标日志数据中的字符所属的实体类型;
其中,所述实体识别模型包含自然语言处理模型和深度学习模型,所述自然语言处理模型的输出作为所述深度学习模型的输入,且所述实体识别模型是基于训练样本进行模型训练得到的,所述训练样本包含输入样本和输出样本,所述输入样本为历史日志数据,所述输出样本为所述历史日志数据对应的历史标注信息,所述历史标注信息表征所述历史日志数据中的字符所属的实体类型;
根据所述目标日志数据对应的所述目标标注信息,获取所述目标日志数据中的实体词作为敏感信息。
2.根据权利要求1所述的方法,其特征在于,所述实体识别模型基于所述训练样本按照以下方式进行训练:
获得所述历史日志数据中的一份日志数据作为当前训练数据;
通过所述自然语言处理模型,对所述当前训练数据进行处理,得到所述当前训练数据中的至少一个字符;
通过所述深度学习模型,对所述当前训练数据中的字符进行处理,得到所述当前训练数据对应的预测标注信息;
将所述预测标注信息与所述输出样本中与所述当前训练数据对应的历史标注信息进行对比;
在所述预测标注信息与所述历史标注信息不满足模型收敛条件的情况下,对所述自然语言处理模型的模型参数和所述深度学习模型的模型参数进行修改;
获得所述历史日志数据中的下一份日志数据作为新的当前训练数据,返回执行所述:通过所述自然语言处理模型,对所述当前训练数据进行处理,直到所述预测标注信息与所述历史标注信息满足所述模型收敛条件。
3.根据权利要求2所述的方法,其特征在于,对所述自然语言处理模型的模型参数和所述深度学习模型的模型参数进行修改,包括:
根据所述预测标注信息与所述历史标注信息,获得损失值;
根据所述损失值,对所述自然语言处理模型的模型参数和所述深度学习模型的模型参数进行修改。
4.根据权利要求1所述的方法,其特征在于,还包括:
对所述目标日志数据中的实体词进行加密。
5.根据权利要求4所述的方法,其特征在于,还包括:
将所述加密后的目标日志数据进行存储。
6.一种敏感信息识别装置,其特征在于,包括:
日志数据获取单元,用于获取待识别的目标日志数据;
日志数据识别单元,用于通过实体识别模型,对所述目标日志数据进行处理,得到所述目标日志数据对应的目标标注信息,所述目标标注信息表征所述目标日志数据中的字符所属的实体类型;
其中,所述实体识别模型包含自然语言处理模型和深度学习模型,所述自然语言处理模型的输出作为所述深度学习模型的输入,且所述实体识别模型是基于训练样本进行模型训练得到的,所述训练样本包含输入样本和输出样本,所述输入样本为历史日志数据,所述输出样本为所述历史日志数据对应的历史标注信息,所述历史标注信息表征所述历史日志数据中的字符所属的实体类型;
信息获取单元,用于根据所述目标日志数据对应的所述目标标注信息,获取所述目标日志数据中的实体词作为敏感信息。
7.根据权利要求6所述的装置,其特征在于,所述日志数据识别单元,包括:
训练数据获取单元,用于获得所述历史日志数据中的一份日志数据作为当前训练数据;
字符获取单元,用于通过所述自然语言处理模型,对所述当前训练数据进行处理,得到所述当前训练数据中的至少一个字符;
预测单元,用于通过所述深度学习模型,对所述当前训练数据中的字符进行处理,得到所述当前训练数据对应的预测标注信息;
判断单元,用于将所述预测标注信息与所述输出样本中与所述当前训练数据对应的历史标注信息进行对比;所述预测标注信息与所述历史标注信息不满足模型收敛条件的情况下,对所述自然语言处理模型的模型参数和所述深度学习模型的模型参数进行修改;
训练数据获取单元,还用于获得所述历史日志数据中的下一份日志数据作为新的当前训练数据,返回执行所述:通过所述自然语言处理模型,对所述当前训练数据进行处理,直到所述预测标注信息与所述历史标注信息满足模型收敛条件。
8.根据权利要求7所述的装置,其特征在于,所述判断单元,包括:
损失值获取单元,用于根据所述预测标注信息与所述历史标注信息,获得损失值;
参数修改单元,用于根据所述损失值,对所述自然语言处理模型的模型参数和所述深度学习模型的模型参数进行修改。
9.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,以实现:
获取待识别的目标日志数据;
通过实体识别模型,对所述目标日志数据进行处理,得到所述目标日志数据对应的目标标注信息,所述目标标注信息表征所述目标日志数据中的字符所属的实体类型;
其中,所述实体识别模型包含自然语言处理模型和深度学习模型,所述自然语言处理模型的输出作为所述深度学习模型的输入,且所述实体识别模型是基于训练样本进行模型训练得到的,所述训练样本包含输入样本和输出样本,所述输入样本为历史日志数据,所述输出样本为所述历史日志数据对应的历史标注信息,所述历史标注信息表征所述历史日志数据中的字符所属的实体类型;
根据所述目标日志数据对应的所述目标标注信息,获取所述目标日志数据中的实体词作为敏感信息。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现:
获取待识别的目标日志数据;
通过实体识别模型,对所述目标日志数据进行处理,得到所述目标日志数据对应的目标标注信息,所述目标标注信息表征所述目标日志数据中的字符所属的实体类型;
其中,所述实体识别模型包含自然语言处理模型和深度学习模型,所述自然语言处理模型的输出作为所述深度学习模型的输入,且所述实体识别模型是基于训练样本进行模型训练得到的,所述训练样本包含输入样本和输出样本,所述输入样本为历史日志数据,所述输出样本为所述历史日志数据对应的历史标注信息,所述历史标注信息表征所述历史日志数据中的字符所属的实体类型;
根据所述目标日志数据对应的所述目标标注信息,获取所述目标日志数据中的实体词作为敏感信息。
CN202211674689.7A 2022-12-26 2022-12-26 敏感信息识别方法、装置、电子设备及存储介质 Pending CN115828901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211674689.7A CN115828901A (zh) 2022-12-26 2022-12-26 敏感信息识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211674689.7A CN115828901A (zh) 2022-12-26 2022-12-26 敏感信息识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115828901A true CN115828901A (zh) 2023-03-21

Family

ID=85518301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211674689.7A Pending CN115828901A (zh) 2022-12-26 2022-12-26 敏感信息识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115828901A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391076A (zh) * 2023-12-11 2024-01-12 东亚银行(中国)有限公司 敏感数据的识别模型的获取方法、装置、电子设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391076A (zh) * 2023-12-11 2024-01-12 东亚银行(中国)有限公司 敏感数据的识别模型的获取方法、装置、电子设备及介质
CN117391076B (zh) * 2023-12-11 2024-02-27 东亚银行(中国)有限公司 敏感数据的识别模型的获取方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
CN107102993B (zh) 一种用户诉求分析方法和装置
CN112860841A (zh) 一种文本情感分析方法、装置、设备及存储介质
CN113343677B (zh) 一种意图识别方法、装置、电子设备及存储介质
CN116402630B (zh) 一种基于表征学习的财务风险预测方法及系统
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN115237857A (zh) 日志处理方法、装置、计算机设备及存储介质
CN110969261B (zh) 基于加密算法的模型构建方法及相关设备
CN115828901A (zh) 敏感信息识别方法、装置、电子设备及存储介质
CN114493255A (zh) 基于知识图谱的企业异常监控方法及其相关设备
CN113902569A (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN112487263A (zh) 一种信息处理方法、系统、设备及计算机可读存储介质
CN115967549A (zh) 一种基于内外网信息传输的防泄密方法及其相关设备
CN115238009A (zh) 基于血缘分析的元数据管理方法、装置、设备及存储介质
CN113157788A (zh) 大数据挖掘方法及系统
CN114647733B (zh) 一种问答语料评估方法、装置、计算机设备及存储介质
CN114372082B (zh) 基于人工智能的数据查询方法、装置、电子设备及介质
CN114297347A (zh) 行业类别的确定方法、装置、存储介质和电子设备
CN117290597A (zh) 基于人工智能的信息推送方法、装置、设备及存储介质
CN114513578A (zh) 外呼方法、装置、计算机设备及存储介质
CN117453536A (zh) 系统异常分析方法、装置、计算机设备及存储介质
CN113706174A (zh) 基于机器学习算法的违约预测方法、装置、设备及介质
CN117171653A (zh) 一种识别信息关系的方法、装置、设备及存储介质
CN117272256A (zh) 敏感数据的检测方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination