CN114548107A - 基于albert模型的敏感信息识别方法、装置、设备和介质 - Google Patents

基于albert模型的敏感信息识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN114548107A
CN114548107A CN202210166465.9A CN202210166465A CN114548107A CN 114548107 A CN114548107 A CN 114548107A CN 202210166465 A CN202210166465 A CN 202210166465A CN 114548107 A CN114548107 A CN 114548107A
Authority
CN
China
Prior art keywords
text
model
sensitive information
albert
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210166465.9A
Other languages
English (en)
Inventor
张立波
王明博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongan Information Technology Service Co Ltd
Original Assignee
Shanghai Zhongzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongzhi Technology Co ltd filed Critical Shanghai Zhongzhi Technology Co ltd
Priority to CN202210166465.9A priority Critical patent/CN114548107A/zh
Publication of CN114548107A publication Critical patent/CN114548107A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于ALBERT模型的敏感信息识别方法、装置、设备和介质,涉及信息安全和数据防护技术领域。所述方法包括:通过文本解析引擎对文本文件进行解析,对预设文本类型的所述文本文件提取文本内容;对所述文本内容进行预处理,并对长文本进行切分,得到句子集合;对所述句子集合中的每个句子进行BIOE格式的命名实体标注,得到标注的样本数据;根据所述样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型。本申请能够通过轻量级的ALBERT预训练模型获取特征向量,降低了对模型部署资源的要求,更容易大规模使用。

Description

基于ALBERT模型的敏感信息识别方法、装置、设备和介质
技术领域
本申请涉及信息安全和数据防护技术领域,特别是涉及一种基于ALBERT模型的敏感信息识别方法、装置、设备和介质。
背景技术
随着国家对数据安全和信息保护越来越重视,人民银行也在2021年发布了个人金融信息保护相关条例,对金融行业做好个人金融信息保护做了明确的规定,为了防止个人金融信息(包括但不限于客户法定名称、身份证、护照、手机号、电子邮箱以及家庭住址等)被非法泄露。因此个人敏感信息的识别尤为重要,在识别出敏感信息后,可以通过脱敏和加密等方式对敏感信息进行保护。
目前敏感信息识别作为信息安全领域一项基本技术,已经被各大互联网公司和金融机构研究多年,并被大规模使用在各自的安全产品上,以达到对敏感信息的自动识别、过滤、控制和屏蔽。现有的敏感信息识别主要有两种:一种是通过构建大规模的敏感词词库和规则匹配,以达到对敏感信息的精准识别,这些技术已经应用在DLP产品中,对于大部分有特定规则和常见的敏感词识别,传统的基于词库和规则匹配的方法已经可以满足需求;另外一种是使用机器学习或者自然语言处理技术,基于上下文语义分析来识别敏感信息。
但是由于个人信息的类别繁多,数量巨大,使用传统的词库检索和规则匹配已经难以保证识别的速度和准确性,而使用一般的基于上下文语义分析方法,需要大量的标注数据,而且对于长文本比较难处理,单纯的按行切分会打乱语句的结构,识别效果不佳,若使用BERT模型,模型比较大,对部署服务器资源要求比较高。因此,需要一种基于轻量级模型通过上下文语义分析的、还能处理长文本的敏感信息识别方法来解决上述问题。
发明内容
为了解决上述背景技术中提到的至少一个问题,本申请提供了一种基于ALBERT模型的敏感信息识别方法、装置、设备和介质,能够通过轻量级的ALBERT预训练模型获取特征向量,降低了对模型部署资源的要求,更容易大规模使用。
本申请实施例提供的具体技术方案如下:
第一方面,提供一种基于ALBERT模型的敏感信息识别方法,包括:
通过文本解析引擎对文本文件进行解析,对预设文本类型的所述文本文件提取文本内容;
对所述文本内容进行预处理,并对长文本进行切分,得到句子集合;
对所述句子集合中的每个句子进行BIOE格式的命名实体标注,得到标注的样本数据;
根据所述样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型。
进一步的,所述根据所述样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型,包括:
将所述样本数据按照预设比例划分为训练集、验证集和测试集;
将所述训练集通过预训练模型ALBERT获取特征向量,并利用双向循环神经网络、全连接层和条件随机场进行模型训练;
将所述模型训练中的预测标签与真实标签输入至损失函数计算损失,根据AdamW优化算法使所述损失函数朝下降的方向优化,直至模型收敛,得到收敛的敏感数据识别模型。
进一步的,所述将所述训练集通过预训练模型ALBERT获取特征向量,并利用双向循环神经网络、全连接层和条件随机场进行模型训练,具体包括:
将所述训练集通过预训练模型ALBERT生成序列特征向量;
将所述序列特征向量输入双向循环神经网络进行特征提取,得到序列语义信息;
将所述序列语音信息通过全连接层进行高层语义融合,通过CRF条件随机场进行序列标注,获取标签。
进一步的,所述文本解析引擎包括tika文本解析引擎,所述预设文本类型包括pdf、word、ppt、excel、txt、html以及xml中的至少一种,所述通过文本解析引擎对文本文件进行解析,对预设文本类型的所述文本文件提取文本内容,还包括:
通过tika文本解析引擎对文本文件进行解析,得到文本解析结果,所述文本解析结果包括所述文本文件的文件类型、语言检测结果和文本内容;
对符合所述预设文本类型的所述文件文本提取文本内容。
进一步的,所述对所述文本内容进行预处理,并对长文本进行切分,得到句子集合,包括:
对所述文本内容进行预处理,去除非自然语言的内容,进行文本清洗;
按照段落和中文语句结束符号对长文本进行文本切分,得到句子集合。
进一步的,在所述根据所述样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型之后,所述方法还包括:
将所述收敛的敏感数据识别模型部署至服务端;
在客户端调用所述敏感数据识别模型的敏感信息识别接口,识别所述客户端文本文件的敏感信息,并将所述敏感信息返回至服务端。
进一步的,所述在客户端调用所述敏感数据识别模型的敏感信息识别接口,识别所述客户端文本文件的敏感信息,并将所述敏感信息返回至服务端之后,所述方法还包括:
根据所述敏感信息对所述客户端文本文件进行打分,得到对应的敏感度;
根据所述敏感度将所述客户端文本文件划分为普通文件、涉密文件以及敏感文件,并将划分结果存储至数据库中。
第二方面,提供一种基于ALBERT模型的敏感信息识别装置,所述装置包括:
文本解析模块,用于通过文本解析引擎对文本文件进行解析,对预设文本类型的所述文本文件提取文本内容;
文本处理模块,用于对所述文本内容进行预处理,并对长文本进行切分,得到句子集合;
实体标注模块,用于对所述句子集合中的每个句子进行BIOE格式的命名实体标注,得到标注的样本数据;
模型训练模块,用于根据所述样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于ALBERT模型的敏感信息识别方法。
第四方面,提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述基于ALBERT模型的敏感信息识别方法。
本申请实施例具有如下有益效果:
本申请实施例提供的一种基于ALBERT模型的敏感信息识别方法、装置、设备和介质,能够通过一个文本解析引擎对大部分主流的文本文档快速、准确地进行解析,再将解析的文本进行文本清洗,按照段落和中文语句结束符号将长文本切分成句子集合,提高后续语义分析的准确性;再通过轻量级预训练模型ALBERT获取特征向量,利用双向循环神经网络、全连接层和条件随机场进行模型训练,综合考虑敏感信息本身特征和上下文特征,提高了敏感信息识别的准确率,同时降低对模型部署资源的要求,能够实现多类型文档、轻量级、高识别精度的多种类敏感信息的识别,最后根据文本中敏感信息的类别和数量进行打分,标记敏感等级并采取相应的限制措施。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本申请实施例提供的基于ALBERT模型的敏感信息识别方法的总流程图;
图2示出根据本申请一个实施例的基于ALBERT模型的敏感信息识别方法的敏感信息识别模型架构图;
图3示出本申请实施例提供的基于ALBERT模型的敏感信息识别方法的具体流程图;
图4示出本申请实施例提供的基于ALBERT模型的敏感信息识别装置的结构示意图;
图5示出可被用于实施本申请中所述的各个实施例的示例性系统。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,在本申请的描述中,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
需要注意的是,术语“S1”、“S2”等仅用于步骤的描述目的,并非特别指称次序或顺位的意思,亦非用以限定本申请,其仅仅是为了方便描述本申请的方法,而不能理解为指示步骤的先后顺序。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
实施例一
本申请提供了一种基于ALBERT模型的敏感信息识别方法,参照图1,包括:
S1、通过文本解析引擎对文本文件进行解析,对预设文本类型的文本文件提取文本内容。
S2、对文本内容进行预处理,并对长文本进行切分,得到句子集合。
S3、对句子集合中的每个句子进行BIOE格式的命名实体标注,得到标注的样本数据。
S4、根据样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型。
下面结合图2和图3进行进一步的阐述:
在一些实施方式中,文本解析引擎包括tika文本解析引擎,预设文本类型包括pdf、word、ppt、excel、txt、html以及xml中的至少一种,基于此,S1还包括:
S11、通过tika文本解析引擎对文本文件进行解析,得到文本解析结果,文本解析结果包括文本文件的文件类型、语言检测结果和文本内容;
S12、对符合预设文本类型的文件文本提取文本内容。
具体的,现有的技术方案中,针对不同格式的文本文档一般采用不同的解析工具。例如通过HTMLParser解析HTML文档、PDFLib解析PDF文档、python-docx解析docx以及xlrd解析excle等。而通过tika文本解析引擎,可以通过采用同一个文本解析引擎对多种文档进行解析,并增加语言检测机制,提高中文文本解析的准确性,能够对大部分主流的文本文档(支持pdf、word、ppt、excel、txt、html以及xml等)快速、准确进行解析。
在一些实施方式中,S2包括:
S21、对文本内容进行预处理,去除非自然语言的内容,进行文本清洗;
S22、按照段落和中文语句结束符号对长文本进行文本切分,得到句子集合。
具体的,针对获取的文本内容需要进行预处理,主要是去除非自然语言的内容,比如一些制表符、空格和换行符,还有html的一些符号等。具体是使用以下正则匹配,去除无关字符,参照如下代码:
CLEANUP=re.compile("[\n\t]")
CLEANUP_REGEX=re.compile("<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});")
具体的,现有的技术方案中,针对每一类敏感信息都需要至少一个规则来匹配,其中针对手机号和邮箱使用正则表达式进行匹配,大部分情况下匹配准确性还可以,但是对于很长的数字例如包含类似电话号码的会被误识别,因此就需要进行文本切分。在文本序列清洗后,可以按照段落[\n]和[。?!;]等中文语句结束符号对长文本进行切分,以得到句子集合,用于后续的上下文语义分析。在上下文语义分析中,不仅考虑到了敏感信息本身的特征,还考虑到在不同的语境或上下文的情况,以提升识别的准确率。能够将敏感数据识别的种类数扩大数倍,原来只能识别简单的手机号、邮箱、身份证号等具有很强规则的号码类型的敏感信息,本实施方式可以识别姓名、个人职业、工作单位/公司名称、学历/学位、婚史、宗教信仰、家庭地址、国家或地区、微信号、QQ号、当前所在位置、收入状况、不动产状况、车辆状况、纳税额以及公积金缴存金额等等,敏感信息的识别范围更大更全面。
具体的,在获取中文句子集合后,需要对句子集合中的每个短句进行标注,单个中文语句进行BIOE格式的命名实体标注,每一行是一个字符和一个标签,然后中间用一个空格隔开。其中,B-X表示X类型的开始位置,I-X表示X类型的中间和结束位置,E-X表示单个字符的X类型,O表示非标注类型的字符。一般使用NER标注工具进行,在本实施方式中,使用开源的序列化标注工具YEDDA,通过预设脚本转换成标准的BIOE格式。
在一些实施方式中,S4具体包括:
S41、将样本数据按照预设比例划分为训练集、验证集和测试集。
S42、将训练集通过预训练模型ALBERT获取特征向量,并利用双向循环神经网络、全连接层和条件随机场进行模型训练。
S43、将模型训练中的预测标签与真实标签输入至损失函数计算损失,根据AdamW优化算法使损失函数朝下降的方向优化,直至模型收敛,得到收敛的敏感数据识别模型。
具体的,得到的样本数据需要按照预设比例划分为训练集、验证集和测试集。若样本数据量较小,可以按照6:2:2进行划分;若样本数据量比较大,可以满足验证集和测试集的数量要求,则可按照98:1:1进行划分。
具体的,可以通过搭建ALBERT-BiLSTM-FC-CRF神经网络模型进行模型训练。其中,神经网络模型包括ALBERT中文预训练模块、BiLSTM模块、FC模块以及CRF模块。
在一些实施方式中,S42具体包括:
S421、将训练集通过预训练模型ALBERT生成序列特征向量。
S422、将序列特征向量输入双向循环神经网络进行特征提取,得到序列语义信息。
S423、将序列语音信息通过全连接层进行高层语义融合,通过CRF条件随机场进行序列标注,获取标签。
具体的,ALBERT中文预训练模块,能够对于任意序列首先通过分词处理得到分词文本序列,然后对分词序列的部分词进行全词Mask,再为序列的开头添加一个特殊标记[CLS],句子间用标记[SEP]分隔。此时序列的每个词的输出Embedding由三个部分组成:Token Embedding、Segment Embedding以及Position Embedding。再将序列特征向量输入至双向循环神经网络Transformer进行特征提取,以使得最后能够得到含有丰富语义的特征向量。而BiLSTM模块,就是用于将ALBERT中文预训练模块得到的特征向量通过双向循环神经网络获取中文序列的语义信息。
具体的,FC模块中的全连接层用于将BiLSTM获取的语义信息进行高层语义的融合。而CRF模块中的条件随机场是一种序列化标准算法,用于对每个词的实体类别进行标注,输出每个词的实体类别。全连接层中每一个节点都与上一层的所有节点相连接,因此,节点与节点之间组成的“路径”非常多,而CRF条件随机场相当于可以快速找出其中合适的路径,以提高模型训练的精度和效率。而生成的标签可以输入至损失函数中计算损失,以根据AdamW优化算法更新模型参数,使损失函数朝下降的方向进行优化。经过多轮次训练迭代后,直到模型收敛平稳不在下降为止,确定最终的敏感数据识别模型。
在一些实施方式中,在S4之后,方法还包括:
S5、将收敛的敏感数据识别模型部署至服务端。
S6、在客户端调用敏感数据识别模型的敏感信息识别接口,识别客户端文本文件的敏感信息,并将敏感信息返回至服务端。
具体的,将收敛的敏感数据识别模型部署至服务端,可以在客户端通过RESTfulAPI的方式调用接口。模型输出的是每个文字的标签,通过解码的方式,输出文本中的敏感信息的内容、类别和索引,并返回至服务端。
在一些实施方式中,在S6之后,方法还包括:
根据敏感信息对客户端文本文件进行打分,得到对应的敏感度;
根据敏感度将客户端文本文件划分为普通文件、涉密文件以及敏感文件,并将划分结果存储至数据库中。
具体的,可以根据返回的文本中的敏感信息类别和数量进行综合得分,根据不同的敏感度得分划分为普通文件、涉密文件和敏感文件,把最终结果写入数据库中。针对不同的文件采取不同的措施,普通文件可以正常发送,涉密文件只能在公司内部发送,且会有警告信息,敏感文件会被限制发送。
在本实施例中,能够通过一个文本解析引擎对大部分主流的文本文档快速、准确地进行解析,再将解析的文本进行文本清洗,按照段落和中文语句结束符号将长文本切分成句子集合,提高后续语义分析的准确性;再通过轻量级预训练模型ALBERT获取特征向量,利用双向循环神经网络、全连接层和条件随机场进行模型训练,综合考虑敏感信息本身特征和上下文特征,提高了敏感信息识别的准确率,同时降低对模型部署资源的要求,能够实现多类型文档、轻量级、高识别精度的多种类敏感信息的识别,最后根据文本中敏感信息的类别和数量进行打分,标记敏感等级并采取相应的限制措施。
实施例二
对应上述实施例,本申请还提供了一种基于ALBERT模型的敏感信息识别装置,参照图4,装置包括:文本解析模块、文本处理模块、实体标注模块以及模型训练模块。
其中,文本解析模块,用于通过文本解析引擎对文本文件进行解析,对预设文本类型的所述文本文件提取文本内容;文本处理模块,用于对所述文本内容进行预处理,并对长文本进行切分,得到句子集合;实体标注模块,用于对所述句子集合中的每个句子进行BIOE格式的命名实体标注,得到标注的样本数据;模型训练模块,用于根据所述样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型。
进一步的,模型训练模块还用于将所述样本数据按照预设比例划分为训练集、验证集和测试集;以及用于将所述训练集通过预训练模型ALBERT获取特征向量,并利用双向循环神经网络、全连接层和条件随机场进行模型训练;还用于将所述模型训练中的预测标签与真实标签输入至损失函数计算损失,根据AdamW优化算法使所述损失函数朝下降的方向优化,直至模型收敛,得到收敛的敏感数据识别模型。
进一步的,模型训练模块还用于将所述训练集通过预训练模型ALBERT生成序列特征向量;以及用于将所述序列特征向量输入双向循环神经网络进行特征提取,得到序列语义信息;还用于将所述序列语音信息通过全连接层进行高层语义融合,通过CRF条件随机场进行序列标注,获取标签。
进一步的,所述文本解析引擎包括tika文本解析引擎,所述预设文本类型包括pdf、word、ppt、excel、txt、html以及xml中的至少一种,基于此,文本解析模块还用于通过tika文本解析引擎对文本文件进行解析,得到文本解析结果,所述文本解析结果包括所述文本文件的文件类型、语言检测结果和文本内容;以及用于对符合所述预设文本类型的所述文件文本提取文本内容。
进一步的,文本处理模块还用于对所述文本内容进行预处理,去除非自然语言的内容,进行文本清洗;以及用于按照段落和中文语句结束符号对长文本进行文本切分,得到句子集合。
进一步的,装置还包括模型部署模块,用于将所述收敛的敏感数据识别模型部署至服务端;以及用于在客户端调用所述敏感数据识别模型的敏感信息识别接口,识别所述客户端文本文件的敏感信息,并将所述敏感信息返回至服务端。
进一步的,装置还包括敏感度评估模块,用于根据所述敏感信息对所述客户端文本文件进行打分,得到对应的敏感度;以及用于根据所述敏感度将所述客户端文本文件划分为普通文件、涉密文件以及敏感文件,并将划分结果存储至数据库中。
关于基于ALBERT模型的敏感信息识别装置的具体限定可以参见上述方法实施例中的相关限定,故此处不作赘述。上述基于ALBERT模型的敏感信息识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
实施例三
对应上述实施例,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可以实现上述基于ALBERT模型的敏感信息识别方法。
如图5所示,在一些实施例中,系统能够作为各所述实施例中的任意一个用于基于ALBERT模型的敏感信息识别方法的上述电子设备。在一些实施例中,系统可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或NVM/存储设备)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器)。
对于一个实施例,系统控制模块可包括任意适当的接口控制器,以向(一个或多个)处理器中的至少一个和/或与系统控制模块通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块可包括存储器控制器模块,以向系统存储器提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器可被用于例如为系统加载和存储数据和/或指令。对于一个实施例,系统存储器可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块可包括一个或多个输入/输出(I/O)控制器,以向NVM/存储设备及(一个或多个)通信接口提供接口。
例如,NVM/存储设备可被用于存储数据和/或指令。NVM/存储设备可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备可包括在物理上作为系统被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备可通过网络经由(一个或多个)通信接口进行访问。
(一个或多个)通信接口可为系统提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
实施例四
对应上述实施例,本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行基于ALBERT模型的敏感信息识别方法。
在本实施例中,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种基于ALBERT模型的敏感信息识别方法,其特征在于,包括:
通过文本解析引擎对文本文件进行解析,对预设文本类型的所述文本文件提取文本内容;
对所述文本内容进行预处理,并对长文本进行切分,得到句子集合;
对所述句子集合中的每个句子进行BIOE格式的命名实体标注,得到标注的样本数据;
根据所述样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型。
2.根据权利要求1所述的基于ALBERT模型的敏感信息识别方法,其特征在于,所述根据所述样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型,包括:
将所述样本数据按照预设比例划分为训练集、验证集和测试集;
将所述训练集通过预训练模型ALBERT获取特征向量,并利用双向循环神经网络、全连接层和条件随机场进行模型训练;
将所述模型训练中的预测标签与真实标签输入至损失函数计算损失,根据AdamW优化算法使所述损失函数朝下降的方向优化,直至模型收敛,得到收敛的敏感数据识别模型。
3.根据权利要求2所述的基于ALBERT模型的敏感信息识别方法,其特征在于,所述将所述训练集通过预训练模型ALBERT获取特征向量,并利用双向循环神经网络、全连接层和条件随机场进行模型训练,具体包括:
将所述训练集通过预训练模型ALBERT生成序列特征向量;
将所述序列特征向量输入双向循环神经网络进行特征提取,得到序列语义信息;
将所述序列语音信息通过全连接层进行高层语义融合,通过CRF条件随机场进行序列标注,获取标签。
4.根据权利要求1所述的基于ALBERT模型的敏感信息识别方法,其特征在于,所述文本解析引擎包括tika文本解析引擎,所述预设文本类型包括pdf、word、ppt、excel、txt、html以及xml中的至少一种,所述通过文本解析引擎对文本文件进行解析,对预设文本类型的所述文本文件提取文本内容,还包括:
通过tika文本解析引擎对文本文件进行解析,得到文本解析结果,所述文本解析结果包括所述文本文件的文件类型、语言检测结果和文本内容;
对符合所述预设文本类型的所述文件文本提取文本内容。
5.根据权利要求1所述的基于ALBERT模型的敏感信息识别方法,其特征在于,所述对所述文本内容进行预处理,并对长文本进行切分,得到句子集合,包括:
对所述文本内容进行预处理,去除非自然语言的内容,进行文本清洗;
按照段落和中文语句结束符号对长文本进行文本切分,得到句子集合。
6.根据权利要求1所述的基于ALBERT模型的敏感信息识别方法,其特征在于,在所述根据所述样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型之后,所述方法还包括:
将所述收敛的敏感数据识别模型部署至服务端;
在客户端调用所述敏感数据识别模型的敏感信息识别接口,识别所述客户端文本文件的敏感信息,并将所述敏感信息返回至服务端。
7.根据权利要求6所述的基于ALBERT模型的敏感信息识别方法,其特征在于,所述在客户端调用所述敏感数据识别模型的敏感信息识别接口,识别所述客户端文本文件的敏感信息,并将所述敏感信息返回至服务端之后,所述方法还包括:
根据所述敏感信息对所述客户端文本文件进行打分,得到对应的敏感度;
根据所述敏感度将所述客户端文本文件划分为普通文件、涉密文件以及敏感文件,并将划分结果存储至数据库中。
8.一种基于ALBERT模型的敏感信息识别装置,其特征在于,所述装置包括:
文本解析模块,用于通过文本解析引擎对文本文件进行解析,对预设文本类型的所述文本文件提取文本内容;
文本处理模块,用于对所述文本内容进行预处理,并对长文本进行切分,得到句子集合;
实体标注模块,用于对所述句子集合中的每个句子进行BIOE格式的命名实体标注,得到标注的样本数据;
模型训练模块,用于根据所述样本数据,通过预训练模型ALBERT进行模型训练,得到收敛的敏感数据识别模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述基于ALBERT模型的敏感信息识别方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行权利要求1至7中任意一项所述基于ALBERT模型的敏感信息识别方法。
CN202210166465.9A 2022-02-23 2022-02-23 基于albert模型的敏感信息识别方法、装置、设备和介质 Pending CN114548107A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210166465.9A CN114548107A (zh) 2022-02-23 2022-02-23 基于albert模型的敏感信息识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210166465.9A CN114548107A (zh) 2022-02-23 2022-02-23 基于albert模型的敏感信息识别方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN114548107A true CN114548107A (zh) 2022-05-27

Family

ID=81677196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210166465.9A Pending CN114548107A (zh) 2022-02-23 2022-02-23 基于albert模型的敏感信息识别方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN114548107A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618398A (zh) * 2022-12-20 2023-01-17 吉林省信息技术研究所 一种网络数据库用户信息加密系统及方法
CN115828307A (zh) * 2023-01-28 2023-03-21 广州佰锐网络科技有限公司 应用于ocr的文本识别方法及ai系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618398A (zh) * 2022-12-20 2023-01-17 吉林省信息技术研究所 一种网络数据库用户信息加密系统及方法
CN115828307A (zh) * 2023-01-28 2023-03-21 广州佰锐网络科技有限公司 应用于ocr的文本识别方法及ai系统
CN115828307B (zh) * 2023-01-28 2023-05-23 广州佰锐网络科技有限公司 应用于ocr的文本识别方法及ai系统

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US20180329886A1 (en) Artificial intelligence based method and apparatus for generating information
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US11409642B2 (en) Automatic parameter value resolution for API evaluation
CN114548107A (zh) 基于albert模型的敏感信息识别方法、装置、设备和介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
US11048934B2 (en) Identifying augmented features based on a bayesian analysis of a text document
US20170091162A1 (en) Annotating embedded tables
US11393141B1 (en) Graphical data display
CN112084779B (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN114491018A (zh) 敏感信息检测模型的构建方法、敏感信息检测方法及装置
CN114218940B (zh) 文本信息处理、模型训练方法、装置、设备及存储介质
CN115546488A (zh) 信息分割方法、信息提取方法和信息分割模型的训练方法
Wong et al. iSentenizer‐μ: Multilingual Sentence Boundary Detection Model
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
US20230070966A1 (en) Method for processing question, electronic device and storage medium
CN112100364A (zh) 文本语义理解方法和模型训练方法、装置、设备和介质
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN114780721A (zh) 一种基于深度学习的交易对手识别方法、装置及电子设备
CN115455416A (zh) 一种恶意代码检测方法、装置、电子设备及存储介质
Petrou et al. A Multiple change-point detection framework on linguistic characteristics of real versus fake news articles
CN114580446A (zh) 基于文档上下文的神经机器翻译方法及装置
Porjazovski et al. Attention-based end-to-end named entity recognition from speech
CN114662469A (zh) 情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230613

Address after: 518052 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Applicant after: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

Address before: 201210 3rd floor, building 1, No.400, Fangchun Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant before: Shanghai Zhongzhi Technology Co.,Ltd.

TA01 Transfer of patent application right