CN111581956B - 基于bert模型和k近邻的敏感信息识别方法及系统 - Google Patents

基于bert模型和k近邻的敏感信息识别方法及系统 Download PDF

Info

Publication number
CN111581956B
CN111581956B CN202010269087.8A CN202010269087A CN111581956B CN 111581956 B CN111581956 B CN 111581956B CN 202010269087 A CN202010269087 A CN 202010269087A CN 111581956 B CN111581956 B CN 111581956B
Authority
CN
China
Prior art keywords
text
sensitive information
texts
data
nearest neighbor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010269087.8A
Other languages
English (en)
Other versions
CN111581956A (zh
Inventor
赵忠华
吴俊杰
赵志云
葛自发
孙小宁
张冰
王欣欣
李欣
袁钟怡
孙立远
付培国
王禄恒
左源
李丰志
李英汉
户中方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
National Computer Network and Information Security Management Center
Original Assignee
Beihang University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, National Computer Network and Information Security Management Center filed Critical Beihang University
Priority to CN202010269087.8A priority Critical patent/CN111581956B/zh
Publication of CN111581956A publication Critical patent/CN111581956A/zh
Application granted granted Critical
Publication of CN111581956B publication Critical patent/CN111581956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于BERT模型和K近邻的敏感信息识别方法,包括:步骤一、对文本进行预处理;步骤二、标注多条预处理文本为敏感信息和非敏感信息,步骤三、表征得到敏感信息的向量表征和非敏感信息的向量表征;步骤四、以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建近似最邻近搜索图;步骤五、将待测文本的向量表征输入至近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断节点属性及根据该条待测文本的敏感度权重,修正其敏感度值后,判断是否为敏感信息。本发明公开了一种基于BERT模型和K近邻的敏感信息识别系统。本发明具有提升文本质量,提升敏感信息识别的速度和精度的有益效果。

Description

基于BERT模型和K近邻的敏感信息识别方法及系统
技术领域
本发明涉及数据挖掘领域。更具体地说,本发明涉及一种基于BERT模型和K近邻的敏感信息识别方法及系统。
背景技术
敏感信息识别作为一项基本技术,已经被各大企业和机构研究多年,并大范围使用在自己的产品上,以达到对信息的精准识别、过滤和控制。传统的敏感信息识别技术主要基于敏感词词典的构建与过滤规则的制定,且目前已在各大文本产品,比如论坛、微博上进行使用,具有快速、准确、易维护的特点。传统的敏感信息识别技术可以在不耗费大量人力和算力的情况下,对大部分敏感信息进行过滤,对于平常的一般化的使用效果可以满足需求。
但是随着大数据与人工智能技术的不断发展,人们使用网络的频率越来越高,网民数量也大幅度提升,从而导致现有的传统技术的精度和速度均已经无法满足要求;而且随着大量网络词汇的出现,系统的维护成本也不断提升,词典和规则的扩充速度往往无法超越新词的增长速度。所以在这种情况下,一种仍然拥有传统技术优点,但能够结合新技术,进一步提升敏感信息识别的速度、精度和易维护性的方法急需等待提出。鉴于目前传统技术解决敏感信息识别无法满足实际需求的状况。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于BERT模型和K近邻的敏感信息识别方法,在传统技术稳定、快速的优点之上,结合新型深度学习技术的精准、高效的优点,进一步提高了对敏感信息识别的精度、速度和易维护性。
本发明提供一种基于BERT模型和K近邻的敏感信息识别系统,敏感信息识别的速度快、精度高,且易维护。
为了实现根据本发明的这些目的和其它优点,提供了一种基于BERT模型和K近邻的敏感信息识别方法,包括以下步骤:
步骤一、收集多条文本,并对收集到的文本进行预处理:将每条文本经预设的白名单词汇过滤掉含有白名单词汇的文本,得到文本Ⅰ,并对文本Ⅰ赋予敏感度权重,文本Ⅰ经预设的黑名单词汇过滤,得到含有黑名单词汇的文本Ⅱ和不含有黑名单词汇的文本Ⅲ,提高文本Ⅱ的敏感度权重,文本Ⅲ的敏感度权重不变,然后对文本Ⅱ和文本Ⅲ进行去噪处理,得到多条预处理文本,其中,若文本中含有某一词汇时,则该文本为非敏感信息的概率大于一阈值,则该词汇即为白名单词汇,若文本中含有某一词汇时,则该文本为敏感信息的概率大于一阈值,则该词汇为黑名单单词汇;
步骤二、选取多条预处理文本,判断选取出的预处理文本是否为敏感信息,若是敏感信息则标注为敏感信息,并统计敏感信息的数据量,若不是敏感信息则标注为非敏感信息,并统计非敏感信息的数据量,以及
若非敏感信息的数据量达到敏感信息的数据量的倍数阈值,则执行步骤三;
若非敏感信息的数据量未达到敏感信息的数据量的倍数阈值,则从未被选取的预处理文本中随机选取多个文本,使随机选取的多个文本和标注为非敏感信息的文本二者一起的数据量达到敏感信息的数据量的倍数阈值,并将随机选取的多个文本和标注为非敏感信息的文本一同视为非敏感信息,然后执行步骤三;
步骤三、将敏感信息的文本和非敏感信息的文本输入至经压缩的BERT模型中,得到多条敏感信息的向量表征和多条非敏感信息的向量表征;
步骤四、以步骤三中的敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建基于近似最近邻搜索算法的近似最邻近搜索图并保存;
步骤五、将待测文本经步骤一中的预处理和经压缩的BERT模型的处理后得到的待测文本的向量表征,并输入至步骤四建立的近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断该K个节点的每一节点的属性,若为正数据,则提升该待测文本的敏感度值,若为负数据,则提升该待测文本的非敏感度值,然后根据经步骤一处理得到的该条待测文本的敏感度权重,修正该条文本的敏感度值,若该条文本的修正后的敏感度值高于该条文本的非敏感度值,则标记该条文本为敏感信息。
优选的是,步骤一中的去噪处理采用正则匹配的方法过滤,并且根据预设的文本长度阈值过滤掉经正则匹配过滤后的文本,即得所述预处理文本。
优选的是,步骤二中的倍数阈值为十倍。
优选的是,步骤五中待测文本的敏感度值的提升的数值由该节点和待测文本间的距离计算得到。
优选的是,距离计算采用L1距离、L2距离、余弦相似度、角度距离、汉明距离中的任意一种。
提供一种基于BERT模型和K近邻的敏感信息识别系统,包括:
存储模块,其用于存储多条文本、白名单词汇、黑名单词汇;
预处理模块,其用于过滤掉每条文本中含有白名单词汇的文本,得到文本Ⅰ,并对文本Ⅰ赋予敏感度权重,及用于采用黑名单词汇过滤文本Ⅰ,得到含有黑名单词汇的文本Ⅱ和不含有黑名单词汇的文本Ⅲ,提高文本Ⅱ的敏感度权重,文本Ⅲ的敏感度权重不变,然后对文本Ⅱ和文本Ⅲ进行去噪处理,得到多条预处理文本;
数据模块,其用于存储标注为敏感信息的文本和统计敏感信息的数据量,用于存储已标注为非敏感信息的文本和统计非敏感信息的数据量;
以及用于比较数据量大小,若非敏感信息的数据量未达到敏感信息的数据量的倍数阈值,则从未被选取的预处理文本中随机选取多个文本,使随机选取的多个文本和标注为非敏感信息的文本二者一起的数据量达到敏感信息的数据量的倍数阈值,并将随机选取的多个文本和标注为非敏感信息的文本一同保存为非敏感信息;
表征模块,其用于分别将敏感信息的文本和随机选取多条非敏感信息的文本输入至经压缩的BERT模型中,得到多条敏感信息的向量表征和多条非敏感信息的向量表征;
建模模块,其用于以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建基于近似最近邻搜索算法的近似最邻近搜索图并保存;
输出模块,其用于调用所述预处理模块对待测文本进行预处理,用于调用所述表征模块对预处理后的待测文本进行向量表征,用于将待测文本进行向量表征输入至保存的近似最邻近搜索图,搜索得到待测文本的向量表征的近似最近邻的K个节点,判断该K个节点的每一节点的属性,若为正数据,则提升该待测文本的敏感度值,若为负数据,则提升该待测文本的非敏感度值,然后根据预处理模块得到的该条待测文本的敏感度权重,修正该条文本的敏感度值,若该条文本的修正后的敏感度值高于该条文本的非敏感度值,则标记该条文本为敏感信息。
优选的是,所述预处理模块采用正则匹配的方法过滤,并且根据预设的文本长度阈值过滤掉经正则匹配过滤后的文本,即得所述预处理文本。
优选的是,所述输出模块采用计算各节点和待测文本间的距离得到,该距离的计算方法采用L1距离、L2距离、余弦相似度、角度距离、汉明距离中的任意一种。
提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行权利要求1~5任一项所述的指令。
提供一种计算机可读存储介质,存储于具有一种电子设备结合使用的计算机程序,所述计算机程序可被处理器执行以实现权利要求1~5任一项所述的方法。
本发明至少包括以下有益效果:
第一、在传统的敏感词词典过滤方法的基础上,增添黑白名单词典,进一步过滤掉噪声数据,提升文本的质量,并结合BERT深度学习文本表征系统获取向量表征,根据NGT第三方开源库创建近似最近邻搜索图,再基于近似K近邻搜索判别敏感信息,并将敏感信息存入数据库,从而提升了敏感信息识别的速度和精度,并减少了BERT模型和近似最近邻搜索图的维护工作,便于相关企业和机构进行敏感信息的分析处理和社会舆情的监控。
第二、海量的文本如果不经过任何过滤,直接输入至BERT模型进行运算,将会对系统产生巨大压力,本发明使用黑白名单词汇词典对文本进行联合过滤,将文本数量降低到合理的范围内,减少不必要的计算。针对某次特定的识别任务,使用者可以通过对任务的了解,结合互联网上开源可获取的敏感词词典,构造各个任务的事件自身的黑名单词汇和白名单词汇,并存入数据库。
第三、本发明使用BERT模型,加载BERT模型中已经训练好的参数,输入经步骤一过滤和处理后的纯文本,即可在很短时间内推理得到BERT模型输出的对应向量表征,该向量表征能够代表对应文本的语义信息,使用该向量表征可以进行进一步BERT模型计算,提升整体模型精度。
第四、NGT提供命令和库,用于对高维向量数据空间中的大量数据(执行高速近似最邻近搜索。由于BERT模型返回的向量表征属于高维向量空间,因此基于NGT创建近似最邻近搜索图,以便于在大量高维数据集中高效的进行近似最近邻搜索。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明的其中一种技术方案的所述敏感信息识别方法的框架图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
鉴于传统的敏感信息识别技术已无法满足大数据时代的需求,而在大数据时代,对敏感信息的准确识别变得愈加迫切和重要,因此,本发明提出一种基于BERT模型和K近邻的敏感信息识别方法和系统,结合新型的深度学习方法,以便相关企业和机构能够更加快捷、准确的识别敏感信息,以供相关企业和机构进行分析和处理,有助于提升网络综合治理能力,清朗网络空间,净化互联网环境。
如图1所示,本发明提供一种基于BERT模型和K近邻的敏感信息识别方法,包括以下步骤:
步骤一、收集多条文本,并对收集到的文本进行预处理:将每条文本经预设的白名单词汇过滤掉含有白名单词汇的文本,得到文本Ⅰ,并对文本Ⅰ赋予敏感度权重,文本Ⅰ经预设的黑名单词汇过滤,得到含有黑名单词汇的文本Ⅱ和不含有黑名单词汇的文本Ⅲ,提高文本Ⅱ的敏感度权重,文本Ⅲ的敏感度权重不变,然后对文本Ⅱ和文本Ⅲ进行去噪处理,得到多条预处理文本,其中,若文本中含有某一词汇时,则该文本为非敏感信息的概率大于一阈值,则该词汇即为白名单词汇,若文本中含有某一词汇时,则该文本为敏感信息的概率大于一阈值,则该词汇为黑名单单词汇;
海量的文本如果不经过任何过滤,直接输入至BERT模型进行运算,将会对系统产生巨大压力,本发明使用黑白名单词汇词典对文本进行联合过滤,将文本数量降低到合理的范围内,减少不必要的计算。针对某次特定的识别任务,比如识别某突发政治热点事件中的敏感信息,比如日常识别某数据源中的敏感信息,使用者可以通过对任务的了解,结合互联网上开源可获取的敏感词词典,构造各个任务的事件自身的黑名单词汇和白名单词汇,并存入数据库。白名单词汇为使用者认为对该任务不必要的词汇,包含这些词汇的文本很大概率为该任务中的非敏感信息,从而过滤掉不会进入BERT模型计算;而黑名单词汇为使用者认为对该任务必需的词汇,包含黑名单词汇的文本很大概率为该任务中的敏感信息,会在BERT模型计算,并提高其敏感度权重;而不包含白名单词汇、且未命中黑名单词汇的文本也会进入到BERT模型计算,但不提高其敏感度权重。
步骤二、选取多条预处理文本,判断选取出的预处理文本是否为敏感信息,若是敏感信息则标注为敏感信息,并统计敏感信息的数据量,若不是敏感信息则标注为非敏感信息,并统计非敏感信息的数据量,以及
若非敏感信息的数据量达到敏感信息的数据量的倍数阈值,则执行步骤三;
若非敏感信息的数据量未达到敏感信息的数据量的倍数阈值,则从未被选取的预处理文本中随机选取多个文本,使随机选取的多个文本和标注为非敏感信息的文本二者一起的数据量达到敏感信息的数据量的倍数阈值,并将随机选取的多个文本和标注为非敏感信息的文本一同视为非敏感信息,然后执行步骤三;
通常的文本中,一般敏感信息的量不超过1%,人工标注起来很吃力,所以在标注之前,先针对任务做调研,找到敏感信息发布者或者其他信息的一些可能的特征,这样可以经过一次人工过滤即得到更高比例的敏感信息,有助于减少人工标注的工作量。
通过前期调研,从预处理文本中取出一定量敏感信息文本占比较高的文本进行敏感性正负类人工标注,得到敏感信息文本和非敏感信息文本;若非敏感信息文本的数量没有达到敏感信息文本数量倍数阈值,则从剩余的预处理文本中再随机抽取部分文本,由于全量预处理文本中敏感信息的比例较低,故可将这部分文本视为非敏感信息。
步骤三、分别将敏感信息的文本和非敏感信息的文本输入至经压缩的BERT模型中,得到多条敏感信息的向量表征和多条非敏感信息的向量表征,其中,非敏感信息的数据量大于敏感信息的数据量;
BERT(Bidirectional Encoder Representations from Transformers),中文全称为“来自变换器的双向编码器表征量”,是谷歌公司于2018年末开发并发布的一种新型开源语言模型。该模型自发布以来,在各项自然语言处理任务上均取得了显著的成绩,是一款基于深度学习的优秀语言模型,能够很好地满足对于敏感信息识别的精度要求。BERT以其海量数据的预训练过程和特征提取能力著称,谷歌公司已经对海量中文文本进行预训练,并开源其预训练后的模型。本发明使用BERT模型,加载BERT模型中已经训练好的参数,输入经步骤一过滤和处理后的纯文本,即可在很短时间内推理得到BERT模型输出的对应向量表征,该向量表征能够代表对应文本的语义信息,使用该向量表征可以进行进一步BERT模型计算,提升整体模型精度。
为了进一步提升BERT模型的速度和易用性,本发明同时使用开源的模型压缩方法对模型,本发明使用开源的ALBERT算法,通过多层神经网络参数共享的方式进行BERT模型压缩。本发明也可使用其他的模型压缩方法进行BERT模型压缩,比如采用知识蒸馏方法。进行了进一步压缩,在不降低BERT模型精度的情况下,可以大幅度降低BERT模型参数量,减少BERT模型的内存占用,提升BERT模型的推理速度。同时,为了BERT模型能够更方便的调用,本发明使用谷歌公司提供的开源BERT部署工具,将BERT分布式部署于多节点服务器,使得系统可以在任意时候快速调用接口返回比传统模型更为精准、包含丰富语义信息的向量表征。
通过步骤一和步骤二可以快速精准的得到预处理文本和已标柱为敏感信息的文本的向量表征,为后期识别作好基础工作。
步骤四、以步骤三中的敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建基于近似最近邻搜索算法的近似最邻近搜索图并保存;
近似K近邻搜索是一种非常典型的分类监督学习算法,它的理论简单,准确性高,对异常值和噪声有较高的容忍度,适合对稀有事件进行分类。但是它的缺点也十分显著,K近邻搜索算法的计算量太大,效率低下,在数据维度较高的情况下会出现维度灾难。
NGT(Neighborhood Graph and Tree for Indexing High-dimensional Data),中文全称为“用于索引高维数据的邻域图和树”,是雅虎公司开发并发布的一个第三方开源库。NGT使用近似最近邻算法,优化了传统的K近邻搜索,有效的解决了传统K近邻搜索中效率低下和在高维空间中出现维度灾难的问题。NGT提供命令和库,用于对高维向量数据空间(几十到几千维)中的大量数据(几百万到几千万个数据项)执行高速近似最邻近搜索。
由于BERT模型返回的向量表征属于高维向量空间,因此需要基于NGT创建近似最邻近搜索图,以便于在大量高维数据集中高效的进行近似最近邻搜索;
敏感信息识别本质上是一个分类问题,由于分类算法的需要,在创建近似最近邻搜索图时,需要使用标注好的正负类数据来创建。选用人工标注的精确敏感信息作为正类数据,在需要进行敏感信息判别的全量数据(即海量文本,且经过步骤一和步骤二的处理)中随机采样部分数据作为负类数据,并且保证负类数据的数据量是正类数据的十倍。在不同任务下,使用者也可以直接标注好足够数据量的正类数据和负类数据。然后将得到的正类数据和负类数据输入BERT深度学习文本表征模型,分别获取正类数据和负类数据的向量表征。
得到正类数据和负类数据的向量表征后,根据这些特征值和NGT第三方开源库,选用近似最近邻搜索算法(ANN)来构建近似最邻近搜索图。此外,在创建近似最近邻搜索图时,使用者可以根据任务的不同选取不同的距离计算函数,以便达到最优的效果,支持的距离函数包括:L1距离,L2距离,余弦相似度,角度距离,汉明距离等等。
步骤五、将待测文本经步骤一中的预处理和经压缩的BERT模型的处理后得到的待测文本的向量表征,并输入至步骤四建立的近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断该K个节点的每一节点的属性,若为正数据,则提升该待测文本的敏感度值,若为负数据,则提升该待测文本的非敏感度值,然后根据经步骤一处理得到的该条待测文本的敏感度权重,修正该条文本的敏感度值,若该条文本的修正后的敏感度值高于该条文本的非敏感度值,则标记该条文本为敏感信息。
在创建好近似最近邻搜索图后,需要基于近似K近邻搜索算法的思想来判别敏感信息,并计算该条文本的敏感度和非敏感度,然后将识别出的敏感信息存储至数据库中,以便进一步的分析和处理。
对于每一条待测文本,在通过步骤一至步骤二获取到它的向量表征后,将向量表征输入步骤四建立的近似最近邻搜索图中搜索得到近似最近邻的K个节点。K值的大小在不同任务下可以由使用者自行调试,以便达到最佳效果,当K值设置的较小时,近似最近邻搜索图的精度可能会较高,但是容易导致过拟合;K值较大时,近似最近邻搜索图相对比较鲁棒,但是可能会导致预测结果偏差较大,发生欠拟合。
对于获得的K个节点中的每一个节点,根据该节点的标签判断节点属于正类数据还是负类数据。如果节点属于正类数据,则该条待测文本的敏感度提升一定数值,反之该条待测文本的非敏感度提升一定数值,提升的数值由节点和待测文本间的距离计算得到。在计算后,每条文本都会有敏感度和非敏感度两个属性。然后再结合步骤一中得到的敏感度权重,修改每条文本敏感度的值,再判断敏感度值是否高于非敏感度值,如果敏感度值高于非敏感度值就判断该条待测文本为敏感信息。
将获取到的敏感信息进行标记并存储至数据库,同时将该条信息的敏感度值和非敏感度值也存入数据库中,便于日后进行的对比分析。
在上述技术方案中,在传统的敏感词词典过滤方法的基础上,增添黑白名单词典,进一步过滤掉噪声数据,提升文本的质量,并结合BERT深度学习文本表征系统获取向量表征,根据NGT第三方开源库创建近似最近邻搜索图,再基于近似K近邻搜索判别敏感信息,并将敏感信息存入数据库,从而提升了敏感信息识别的速度和精度,并减少了BERT模型和近似最近邻搜索图的维护工作,便于相关企业和机构进行敏感信息的分析处理和社会舆情的监控。
在另一种技术方案中,步骤一中的去噪处理采用正则匹配的方法过滤,并且根据预设的文本长度阈值过滤掉经正则匹配过滤后的文本,即得所述预处理文本。
存在于开源互联网中的文本,绝大多数存在着各式噪声,比如一条微博文本记录,其文本中很有可能含有大量符号、表情、转发评论链等对敏感信息识别无用或起到反作用的信息。本发明利用文本正则匹配技术,制定一系列过滤规则,利用正则匹配对文本进行快速匹配与过滤,删除无关信息,提升文本质量。例如,一条微博“#十堰青年之声##为爱而行梦萦郧阳[超话]#//@青春郧阳:转发微博”中,同时包含转发链、hashtag符号及由中括号表示的表情,若该微博不经去噪处理,而直接输入BERT模型,可能会造成BERT模型输出的向量表征不当,导致后续的误判。当该条微博通过正则过滤器去噪之后,便可以完全变为一个空的字符串。
同时,过滤后的文本中会出现长度过短的文本,对于特定任务,使用者可以个性化设定文本长度阈值,过滤掉过短的无意义文本,进一步降低文本数量和提高文本质量。同上例,经过去噪后,该微博已变为无意义内容,若该内容输入BERT模型仍可能造成误判,故可以直接通过设置文本长度阈值大于0来过滤掉该条无意义文本。除此之外,一些无意义文本,比如“转发微博”、“好的”等对判断文本敏感性无意义的短文本,也可通过控制文本长度阈值大于4进行过滤,从而大幅降低文本数量、提升文本质量。
一种基于BERT模型和K近邻的敏感信息识别系统,包括:
存储模块,其用于存储多条文本、白名单词汇、黑名单词汇;
预处理模块,其用于过滤掉每条文本中含有白名单词汇的文本,得到文本Ⅰ,并对文本Ⅰ赋予敏感度权重,及用于采用黑名单词汇过滤文本Ⅰ,得到含有黑名单词汇的文本Ⅱ和不含有黑名单词汇的文本Ⅲ,提高文本Ⅱ的敏感度权重,文本Ⅲ的敏感度权重不变,然后对文本Ⅱ和文本Ⅲ进行去噪处理,得到多条预处理文本;预处理模块可以从互联网上收集海量文本,并储存有白名单词汇和黑名单词汇,调取白名单词汇和黑名单词汇执行过滤、赋予敏感度权重、去噪处理等一系列指令;
数据模块,其用于存储标注为敏感信息的文本和统计敏感信息的数据量,用于存储已标注为非敏感信息的文本和统计非敏感信息的数据量;
以及用于比较数据量大小,若非敏感信息的数据量未达到敏感信息的数据量的倍数阈值,则从未被选取的预处理文本中随机选取多个文本,使随机选取的多个文本和标注为非敏感信息的文本二者一起的数据量达到敏感信息的数据量的倍数阈值,并将随机选取的多个文本和标注为非敏感信息的文本一同保存为非敏感信息;
表征模块,其用于分别将敏感信息的文本和随机选取多条非敏感信息的文本输入至经压缩的BERT模型中,得到多条敏感信息的向量表征和多条非敏感信息的向量表征;表征模块可以获取预处理文本,并执行经压缩的BERT模型的指令,可以按照设定规则随机抽取一定量的预处理文本,并执行经压缩的BERT模型的指令;
建模模块,其用于以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建基于近似最近邻搜索算法的近似最邻近搜索图并保存。
输出模块,其用于调用所述预处理模块对待测文本进行预处理,用于调用所述表征模块对预处理后的待测文本进行向量表征,用于将待测文本进行向量表征输入至保存的近似最邻近搜索图,搜索得到待测文本的向量表征的近似最近邻的K个节点,判断该K个节点的每一节点的属性,若为正数据,则提升该待测文本的敏感度值,若为负数据,则提升该待测文本的非敏感度值,然后根据预处理模块得到的该条待测文本的敏感度权重,修正该条文本的敏感度值,若该条文本的修正后的敏感度值高于该条文本的非敏感度值,则标记该条文本为敏感信息。输出模块可以获取待测文本,并调用预处理模块和表征模块执行对应指令后,再调用保存的近似最邻近搜索图执行对应指令,以及执行敏感度值和非敏感度值的计算和判断,输出判断计算和判断结果;
所述预处理模块采用正则匹配的方法过滤,并且根据预设的文本长度阈值过滤掉经正则匹配过滤后的文本,即得所述预处理文本。
所述输出模块采用计算各节点和待测文本间的距离得到,该距离的计算方法采用L1距离、L2距离、余弦相似度、角度距离、汉明距离中的任意一种。
电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行上述指令。
一种计算机可读存储介质,存储与具有一种电子设备结合使用的计算机程序,所述计算机程序可被处理器执行以实现上述方法。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (10)

1.基于BERT模型和K近邻的敏感信息识别方法,其特征在于,包括以下步骤:
步骤一、收集多条文本,并对收集到的文本进行预处理:将每条文本经预设的白名单词汇过滤掉含有白名单词汇的文本,得到文本Ⅰ,并对文本Ⅰ赋予敏感度权重,文本Ⅰ经预设的黑名单词汇过滤,得到含有黑名单词汇的文本Ⅱ和不含有黑名单词汇的文本Ⅲ,提高文本Ⅱ的敏感度权重,文本Ⅲ的敏感度权重不变,然后对文本Ⅱ和文本Ⅲ进行去噪处理,得到多条预处理文本,其中,若文本中含有某一词汇时,则该文本为非敏感信息的概率大于一阈值,则该词汇即为白名单词汇,若文本中含有某一词汇时,则该文本为敏感信息的概率大于一阈值,则该词汇为黑名单单词汇;
步骤二、选取多条预处理文本,判断选取出的预处理文本是否为敏感信息,若是敏感信息则标注为敏感信息,并统计敏感信息的数据量,若不是敏感信息则标注为非敏感信息,并统计非敏感信息的数据量,以及
若非敏感信息的数据量达到敏感信息的数据量的倍数阈值,则执行步骤三;
若非敏感信息的数据量未达到敏感信息的数据量的倍数阈值,则从未被选取的预处理文本中随机选取多个文本,使随机选取的多个文本和标注为非敏感信息的文本二者一起的数据量达到敏感信息的数据量的倍数阈值,并将随机选取的多个文本和标注为非敏感信息的文本一同视为非敏感信息,然后执行步骤三;
步骤三、将敏感信息的文本和非敏感信息的文本输入至经压缩的BERT模型中,得到多条敏感信息的向量表征和多条非敏感信息的向量表征;
步骤四、以步骤三中的敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建基于近似最近邻搜索算法的近似最邻近搜索图并保存;
步骤五、将待测文本经步骤一中的预处理和经压缩的BERT模型的处理后得到的待测文本的向量表征,并输入至步骤四建立的近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断该K个节点的每一节点的属性,若为正数据,则提升该待测文本的敏感度值,若为负数据,则提升该待测文本的非敏感度值,然后根据经步骤一处理得到的该条待测文本的敏感度权重,修正该条文本的敏感度值,若该条文本的修正后的敏感度值高于该条文本的非敏感度值,则标记该条文本为敏感信息。
2.如权利要求1所述的基于BERT模型和K近邻的敏感信息识别方法,其特征在于,步骤一中的去噪处理采用正则匹配的方法过滤,并且根据预设的文本长度阈值过滤掉经正则匹配过滤后的文本,即得所述预处理文本。
3.如权利要求1所述的基于BERT模型和K近邻的敏感信息识别方法,其特征在于,步骤二中的倍数阈值为十倍。
4.如权利要求1所述的基于BERT模型和K近邻的敏感信息识别方法,其特征在于,步骤五中待测文本的敏感度值的提升的数值由该节点和待测文本间的距离计算得到。
5.如权利要求4所述的基于BERT模型和K近邻的敏感信息识别方法,其特征在于,距离计算采用L1距离、L2距离、余弦相似度、角度距离、汉明距离中的任意一种。
6.基于BERT模型和K近邻的敏感信息识别系统,其特征在于,包括:
存储模块,其用于存储多条文本、白名单词汇、黑名单词汇;
预处理模块,其用于过滤掉每条文本中含有白名单词汇的文本,得到文本Ⅰ,并对文本Ⅰ赋予敏感度权重,及用于采用黑名单词汇过滤文本Ⅰ,得到含有黑名单词汇的文本Ⅱ和不含有黑名单词汇的文本Ⅲ,提高文本Ⅱ的敏感度权重,文本Ⅲ的敏感度权重不变,然后对文本Ⅱ和文本Ⅲ进行去噪处理,得到多条预处理文本;
数据模块,其用于存储标注为敏感信息的文本和统计敏感信息的数据量,用于存储已标注为非敏感信息的文本和统计非敏感信息的数据量;
以及用于比较数据量大小,若非敏感信息的数据量未达到敏感信息的数据量的倍数阈值,则从未被选取的预处理文本中随机选取多个文本,使随机选取的多个文本和标注为非敏感信息的文本二者一起的数据量达到敏感信息的数据量的倍数阈值,并将随机选取的多个文本和标注为非敏感信息的文本一同保存为非敏感信息;
表征模块,其用于分别将敏感信息的文本和非敏感信息的文本输入至经压缩的BERT模型中,得到多条敏感信息的向量表征和多条非敏感信息的向量表征;
建模模块,其用于以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建基于近似最近邻搜索算法的近似最邻近搜索图并保存;
输出模块,其用于调用所述预处理模块对待测文本进行预处理,用于调用所述表征模块对预处理后的待测文本进行向量表征,用于将待测文本进行向量表征输入至保存的近似最邻近搜索图,搜索得到待测文本的向量表征的近似最近邻的K个节点,判断该K个节点的每一节点的属性,若为正数据,则提升该待测文本的敏感度值,若为负数据,则提升该待测文本的非敏感度值,然后根据预处理模块得到的该条待测文本的敏感度权重,修正该条文本的敏感度值,若该条文本的修正后的敏感度值高于该条文本的非敏感度值,则标记该条文本为敏感信息。
7.如权利要求6所述的基于BERT模型和K近邻的敏感信息识别系统,其特征在于,
所述预处理模块采用正则匹配的方法过滤,并且根据预设的文本长度阈值过滤掉经正则匹配过滤后的文本,即得所述预处理文本。
8.如权利要求6所述的基于BERT模型和K近邻的敏感信息识别系统,其特征在于,所述输出模块采用计算各节点和待测文本间的距离得到,该距离的计算方法采用L1距离、L2距离、余弦相似度、角度距离、汉明距离中的任意一种。
9.电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行权利要求1~5任一项所述的指令。
10.计算机可读存储介质,其特征在于,存储于具有一种电子设备结合使用的计算机程序,所述计算机程序可被处理器执行以实现权利要求1~5任一项所述的方法。
CN202010269087.8A 2020-04-08 2020-04-08 基于bert模型和k近邻的敏感信息识别方法及系统 Active CN111581956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010269087.8A CN111581956B (zh) 2020-04-08 2020-04-08 基于bert模型和k近邻的敏感信息识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010269087.8A CN111581956B (zh) 2020-04-08 2020-04-08 基于bert模型和k近邻的敏感信息识别方法及系统

Publications (2)

Publication Number Publication Date
CN111581956A CN111581956A (zh) 2020-08-25
CN111581956B true CN111581956B (zh) 2022-09-13

Family

ID=72122746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010269087.8A Active CN111581956B (zh) 2020-04-08 2020-04-08 基于bert模型和k近邻的敏感信息识别方法及系统

Country Status (1)

Country Link
CN (1) CN111581956B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112217841A (zh) * 2020-12-09 2021-01-12 平安国际智慧城市科技股份有限公司 直播间管理的方法、装置、计算机设备及存储介质
CN113011171A (zh) * 2021-03-05 2021-06-22 北京市博汇科技股份有限公司 一种基于bert的违规文本识别算法及装置
CN113935329B (zh) * 2021-10-13 2022-12-13 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN114969348B (zh) * 2022-07-27 2023-10-27 杭州电子科技大学 基于逆变调节知识库的电子文件分级分类方法及系统
WO2024128949A1 (en) * 2022-12-16 2024-06-20 Telefonaktiebolaget Lm Ericsson (Publ) Detection of sensitive information in a text document
CN117648633B (zh) * 2024-01-29 2024-04-19 西南石油大学 一种基于增强图注意力网络的敏感信息识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010078792A1 (zh) * 2009-01-12 2010-07-15 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN104778234A (zh) * 2015-03-31 2015-07-15 南京邮电大学 基于局部敏感哈希技术的多标记文件近邻查询方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10521413B2 (en) * 2015-11-20 2019-12-31 Oath Inc. Location-based recommendations using nearest neighbors in a locality sensitive hashing (LSH) index
BR102016007265B1 (pt) * 2016-04-01 2022-11-16 Samsung Eletrônica da Amazônia Ltda. Método multimodal e em tempo real para filtragem de conteúdo sensível

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010078792A1 (zh) * 2009-01-12 2010-07-15 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN104778234A (zh) * 2015-03-31 2015-07-15 南京邮电大学 基于局部敏感哈希技术的多标记文件近邻查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种不良信息过滤的文本预处理方法研究;吴慧玲等;《微计算机信息》;20061230(第36期);全文 *

Also Published As

Publication number Publication date
CN111581956A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111581956B (zh) 基于bert模型和k近邻的敏感信息识别方法及系统
Bozyiğit et al. Cyberbullying detection: Utilizing social media features
CN110688553B (zh) 基于数据分析的信息推送方法、装置、计算机设备及存储介质
CN110059181B (zh) 面向大规模分类体系的短文本标签方法、系统、装置
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN110633366B (zh) 一种短文本分类方法、装置和存储介质
CN107844533A (zh) 一种智能问答系统及分析方法
Rosa et al. Twitter topic fuzzy fingerprints
WO2017091985A1 (zh) 停用词识别方法与装置
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN113268370B (zh) 一种根因告警分析方法、系统、设备及存储介质
CN111339249A (zh) 一种联合多角度特征的深度智能文本匹配方法和装置
CN110209659A (zh) 一种简历过滤方法、系统和计算机可读存储介质
CN112434163A (zh) 风险识别方法及模型构建方法、装置、电子设备和介质
Hegde et al. Employee sentiment analysis towards remote work during COVID-19 using Twitter data
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN111767404B (zh) 一种事件挖掘方法和装置
CN109583208A (zh) 基于移动应用评论数据的恶意软件识别方法和系统
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN116723005A (zh) 多态隐藏下的恶意代码隐式情报追踪方法及系统
Thangarasu et al. Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
Al Mahmud et al. A New Technique to Classification of Bengali News Grounded on ML and DL Models
Bosetti et al. CATI: An Active Learning System for Event Detection on Mibroblogs' Large Datasets.
HUANG et al. Cyberbullying detection on social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant