CN116050396A - 一种敏感信息识别方法及系统 - Google Patents
一种敏感信息识别方法及系统 Download PDFInfo
- Publication number
- CN116050396A CN116050396A CN202210922060.3A CN202210922060A CN116050396A CN 116050396 A CN116050396 A CN 116050396A CN 202210922060 A CN202210922060 A CN 202210922060A CN 116050396 A CN116050396 A CN 116050396A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- information
- category
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种敏感信息识别方法及系统,包括:获取待发布信息,基于敏感信息的字典树自待发布信息中提取表达实体的片段,将所述表达实体的片段与所述字典树中相应实体生成候选实体对;输入实体匹配模型对所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出匹配值;将所述匹配值满足预设配置阈值的候选实体对作为目标候选实体对,基于预先构建的敏感信息的多模知识图谱,得到表达实体的片段相对应的实体的类目;基于所述实体的类目确定所述待发布信息的识别结果,并将所述待发布信息召回。通过多模知识图谱,实现表达实体片段与实体层的连接关系,将对待发布信息的识别问题映射为实体链接问题,有效的缓解了敏感信息的数据稀疏所带来的识别困难。
Description
技术领域
本发明涉及信息处理领域,具体涉及一种敏感信息识别方法及系统。
背景技术
随着互联网的发展,网络中往往会存在恶意用户故意发布敏感信息和内容,比如政治类敏感信息往往具有极高的社会危害性,且涉及政治事件、政治人物等多方面识别内容,存在覆盖范围广、识别内容多、事件及人物关联性强等特征。
目前常见的敏感信息识别方法是利用深度学习算法对发布信息的文本中敏感内容进行分类、目标检测识别,模型训练效果完全依赖语料特征,难以有效提高分布稀疏、危害性高的某类敏感信息的识别覆盖能力。
发明内容
本发明实施例提供一种敏感信息识别方法及系统,用以解决模型训练效果完全依赖语料特征,难以有效提高分布稀疏、危害性高的某类敏感信息的识别覆盖能力的问题。
为达上述目的,一方面,本发明实施例提供一种敏感信息识别方法,包括:
获取待发布信息,基于敏感信息的字典树自待发布信息中提取表达实体的片段,将所述表达实体的片段与所述字典树中相应实体生成候选实体对,所述字典树包括实体及其指代词,所述实体是指表示敏感信息的实体文本关键词或者所述实体文本关键词相应的图片;
将所述候选实体对输入实体匹配模型对所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出所述候选实体对中表达实体的片段与相应实体的匹配值;
将所述匹配值满足预设配置阈值的候选实体对作为目标候选实体对,基于预先构建的敏感信息的多模知识图谱,得到所述目标候选实体对中与表达实体的片段相对应的实体的类目;
基于所述实体的类目确定所述待发布信息的识别结果,并将所述待发布信息召回。
另一方面,本发明实施例提供一种敏感信息识别系统,包括:
遍历单元,用于获取待发布信息,基于敏感信息的字典树自待发布信息中提取表达实体的片段,将所述表达实体的片段与所述字典树中相应实体生成候选实体对,所述字典树包括实体及其指代词,所述实体是指表示敏感信息的实体文本关键词或者所述实体文本关键词相应的图片;
实体匹配模型,用于将所述候选实体对输入本实体匹配模型对所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出所述候选实体对中表达实体的片段与相应实体的匹配值;
类目确定单元,用于将所述匹配值满足预设配置阈值的候选实体对作为目标候选实体对,基于预先构建的敏感信息的多模知识图谱,得到所述目标候选实体对中与表达实体的片段相对应的实体的类目;
召回单元,用于基于所述实体的类目确定所述待发布信息的识别结果,并将所述待发布信息召回。
上述技术方案具有如下有益效果:针对待发布信息,基于敏感信息的字典树自待发布信息中提取表达实体的片段,将所述表达实体的片段与所述字典树中相应实体生成候选实体对;采用预先构建的敏感信息的多模知识图谱确定匹配值满足预设配置阈值的目标候选实体对内表达实体片段的类目;并将待发布信息召回。实现了对散布实体进行识别,有效的缓解了敏感信息的数据稀疏所带来的识别困难。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的敏感信息识别方法的流程图;
图2是本发明实施例的敏感信息识别系统的结构图;
图3是本发明实施例的整体识别架构;
图4本发明实施例的示例:政治多模知识图谱层级结果;
图5是本发明实施例的多模知识图谱实体embedding训练;
图6是本发明实施例的实体链接流程图;
图7是本发明实施例的实体匹配模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,结合本发明的实施例,提供一种敏感信息识别方法,通过构建多模知识图谱,针对待发布信息,确定发布信息表达实体的片段与实体的匹配程度,将匹配值满足预设配置阈值的目标候选实体对输入预先构建的敏感信息的多模知识图谱,得到所述目标候选实体对中与表达实体的片段相对应的实体的类目;有效的缓解了敏感信息的数据稀疏问题;同时有效的提高任一类敏感信息的识别覆盖能力,从而能将属于敏感信息的待发布信息召回。敏感信息识别方法包括:
S301:获取待发布信息,基于敏感信息的字典树自待发布信息中提取表达实体的片段,将所述表达实体的片段与所述字典树中相应实体生成候选实体对,所述字典树包括实体及其指代词,所述实体是指表示敏感信息的实体文本关键词或者所述实体文本关键词相应的图片;
S302:将所述候选实体对输入实体匹配模型对所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出所述候选实体对中表达实体的片段与相应实体的匹配值;
S303:将所述匹配值满足预设配置阈值的候选实体对作为目标候选实体对,基于预先构建的敏感信息的多模知识图谱,得到所述目标候选实体对中与表达实体的片段相对应的实体的类目;
S304:基于所述实体的类目确定所述待发布信息的识别结果,并将所述待发布信息召回。
优选地,所述敏感信息的多模知识图谱包括类目层、实体层、图床层,其中,所述实体层与所述类目层相关联,所述图床层与所述实体层相关联;
S305:所述敏感信息的多模知识图谱通过如下方法构建,包括:
S3051:收集设定类别的敏感信息的类目关键词,根据所述类目关键词创建类目的树状结构,得到类目层,所述树状结构包括叶子类目,所述叶子类目用于与实体层直接相连;
S3052:识别包括所述设定类别的敏感信息的文本中词语所属的实体类别,得到各实体类别的实体文本关键词,采用实体文本关键词构建实体文本关键词的三元组,通过各实体文本关键词的三元组构建实体层;其中,所述实体文本关键词的三元组包括:头实体、关系、尾实体,所述头实体表示第一实体文本关键词,所述尾实体表示与所述头实体具有关联关系的第二实体文本关键词,所述关系表示所述尾实体与所述头实体之间的关联关系;
S3053:将实体层的头实体与类目层的叶子类目进行关联;
S3054:根据设定类别的敏感信息的实体文本关键词,在数据集中获取所述实体文本关键词相应的图片及其结构化信息,采用所获取的图片构建图片的三元组,通过各图片的三元组构建图床层;其中,所述图片的三元组包括:头实体、关系、尾实体,所述尾实体为所述图片,所述头实体为实体层的头实体或尾实体,所述关系为所述图片的结构化信息,所述图片的结构化信息用于表示所述头实体与所述尾实体之间的关联关系。
优选地,所述敏感信息识别方法,还包括:
S306:根据所述敏感信息的多模知识图谱内,实体层或图床层的实体,构建敏感信息的字典树,所述字典树包括:实体及其指代词,所述实体包括实体文本关键词的三元组中的头实体和尾实体、以及图片的三元组中的尾实体。
优选地,在所述通过各实体文本关键词的三元组构建实体层之前,还包括:
S3055:针对已构建的各实体文本关键词的三元组,基于实体文本关键词之间的相似度,将头实体中相似度超过设定相似度阈值的不同实体文本关键词采用同一节点标识表示,将尾实体中相似度超过设定相似度阈值的不同实体文本关键词采用同一节点标识表示,以及将关系中所关联的节点标识相同的不同关系采用同一节点标识表示;清除不属于所述设定类别的敏感信息的实体文本关键词的三元组、以及错误的实体文本关键词的三元组,所保留的实体文本关键词的三元组用于构建实体层;
所述通过图片三元组构建图片层之前,还包括:
S3056:针对已构建的各图片的三元组,清除不属于所述设定类别的敏感信息的图片的三元组、以及错误的图片的三元组,所保留的图片的三元组用于构建图床层。
优选地,还包括:
S307:在通过各实体文本关键词的三元组构建实体层之后,遍历实体层内的各实体文本关键词的三元组,其中,所述头实体采用所述第一实体文本关键词、以及对实体的描述信息表示,所述尾实体采用所述第二实体文本关键词、以及对实体的描述信息表示,所述关系采用文本表示;
S308:依次将所述实体文本关键词的三元组中所述头实体、尾实体、以及关系输入预训练的文本特征提取网络,通过预训练的文本特征提取网络分别提取所述头实体、尾实体、关系的文本特征向量,输出所述实体文本关键词的三元组的文本特征向量,将各实体文本关键词的三元组的文本特征向量保存至实体向量表;
S309:预训练的文本特征提取网络采用如下方法进行训练:
S3091:将训练样本的头实体、关系、尾实体输入通用知识库transE的卷积网络、以及Robert语言模型进行模型迭代训练,直至文本特征提取网络的损失函数达到模型收敛条件时,得到预训练的文本特征提取网络;其中,进行模型迭代训练的具体步骤包括:
S3092:将训练样本的头实体、关系、尾实体输入通用知识库transE的卷积网络,得到各自的文本特征低维向量;
S3093:将头实体、关系、尾实体各自的文本特征低维向量输入Robert语言模型,采用第一预设概率隐藏头实体、关系、尾实体各自的文本特征低维向量内的字符,采用第二预设概率随机替换头实体、关系、尾实体各自的文本特征低维向量内的字符,输出处理后的头实体、关系、尾实体各自的文本特征低维向量;
S3094:所述文本特征提取网络的损失函数包括通用知识库transE的损失函数和Robert语言模型的损失函数,所述通用知识库transE的损失函数表示头实体的文本特征低维向量与关系的文本特征低维向量之和、与尾实体的文本特征低维向量之间的关系;所述Robert语言模型的损失函数表示处理后的头实体、关系、尾实体各自的文本特征低维向量的交叉熵。
优选地,在步骤301中,所述基于敏感信息的字典树自待发布信息提取表达实体的片段,将表达实体的片段与所述字典树中相应实体生成候选实体对,包括:
将待发布信息遍历所述敏感信息的字典树,根据所述字典树内的实体提取待发布信息内表达实体的片段及其位置,将表达实体的片段与所述字典树内相应实体生成候选实体对;
在步骤302中,所述将所述候选实体对输入实体匹配模型对所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出所述候选实体对中表达实体的片段与相应实体的匹配值,包括:
S3021:若待发布信息内不包含图片,采用预训练的文本特征提取网络和预训练的文本匹配网络作为实体匹配模型,具体包括:
S3021-1:将待发布信息输入预训练的文本特征提取网络,提取待发布信息的每个字符的低维向量;将表达实体的片段相应位置字符的低维向量输入预训练的文本特征提取网络,输出表达实体的片段对应的表达向量;
S3021-2:自实体向量表内提取与表达实体的片段相对应的实体向量;
S3021-3:将表达实体的片段的表达向量和相对应的实体向量输入预训练的文本匹配网络进行匹配预测,得到待发布信息的第一文本匹配值;
S3021-4:将所述第一文本匹配值作为所述候选实体对中表达实体的片段与相应实体的匹配值;
S3022:若待发布信息内包含图片,采用解耦的预训练的文本特征提取网络和预训练的图片特征提取网络、以及预训练的文本匹配网络和预训练的图片匹配网络作为实体匹配模型,具体包括:
S3022-1:将待发布信息内的文本信息输入预训练的文本特征提取网络,提取所述文本信息的每个字符的低维向量;将表达实体的片段相应位置字符的低维向量输入预训练的文本特征提取网络,输出表达实体的片段对应的表达向量;
S3022-2:自实体向量表内提取与表达实体的片段相对应的实体向量;
S3022-3:将表达实体的片段的表达向量和表达实体片段相对应的实体向量输入预训练的文本匹配网络进行匹配预测,得到待发布信息的第二文本匹配值;
以及,
S3022-4:将待发布信息输入预训练的图片特征提取网络提取待发布信息内的图片特征,得到待发布信息内的第一图片特征向量;
S3022-5:将待发布信息内所包含的图片相应的实体输入预训练的图片特征提取网络,提取实体的头实体向量、头实体与尾实体的关系向量,将由头实体向量与关系向量共同组成的向量作为所述图片相应实体的第二图片特征向量;
S3022-6:将所述第一图片特征向量和所述第二图片特征向量输入预训练的图片匹配网络,得到待发布信息的图片匹配值;
将所述第二文本匹配值和图片匹配值作为所述候选实体对中表达实体的片段与相应实体的匹配值。
优选地,S310:所述目标候选实体对的判定方法,包括:
S3101:若待发布信息内不包含图片,在第一文本匹配值大于第一文本配置阈值的情况下,判定所述候选实体对为目标候选实体对;
S3102:若待发布信息内包含图片,在第二文本匹配值大于第二文本配置阈值、且图片匹配值大于图片配置阈值的情况下,判定所述候选实体对为目标候选实体对;其中,所述第一文本配置阈值大于所述第二文本配置阈值。
优选地,在步骤303中,所述基于预先构建的敏感信息的多模知识图谱,得到所述目标候选实体对中与表达实体的片段相对应的实体的类目,包括:
通过图数据库在所述敏感信息的多模知识图谱中查找出所述目标候选体对中相应实体的类目;
在步骤304中,所述基于所述实体的类目确定所述待发布信息的识别结果,包括:
将实体的类目、实体、表达实体的片段的位置作为待发布信息的识别结果。
如图2所示,结合本发明的实施例,提供一种敏感信息识别系统,包括:
遍历单元21,用于获取待发布信息,基于敏感信息的字典树自待发布信息中提取表达实体的片段,将所述表达实体的片段与所述字典树中相应实体生成候选实体对,所述字典树包括实体及其指代词,所述实体是指表示敏感信息的实体文本关键词或者所述实体文本关键词相应的图片;
实体匹配模型22,用于对输入的所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出所述候选实体对中表达实体的片段与相应实体的匹配值;
类目确定单元23,用于将所述匹配值满足预设配置阈值的候选实体对作为目标候选实体对,基于预先构建的敏感信息的多模知识图谱,得到所述目标候选实体对中与表达实体的片段相对应的实体的类目;
召回单元24,用于基于所述实体的类目确定所述待发布信息的识别结果,并将所述待发布信息召回。
优选地,所述敏感信息的多模知识图谱包括类目层、实体层、图床层,其中,所述实体层与所述类目层相关联,所述图床层与所述实体层相关联;
通过构建类目层构建单元251、实体层构建单元252、图床层构建单元253构建敏感信息的多模知识图谱25,其中:
类目层构建单元251,用于收集设定类别的敏感信息的类目关键词,根据所述类目关键词创建类目的树状结构,得到类目层,所述树状结构包括叶子类目,所述叶子类目用于与实体层直接相连;
实体层构建单元252,用于识别包括所述设定类别的敏感信息的文本中词语所属的实体类别,得到各实体类别的实体文本关键词,采用实体文本关键词构建实体文本关键词的三元组,通过各实体文本关键词的三元组构建实体层;其中,所述实体文本关键词的三元组包括:头实体、关系、尾实体,所述头实体表示第一实体文本关键词,所述尾实体表示与所述头实体具有关联关系的第二实体文本关键词,所述关系表示所述尾实体与所述头实体之间的关联关系;以及
将实体层的头实体与类目层的叶子类目进行关联;
图床层构建单元253,用于根据设定类别的敏感信息的实体文本关键词,在数据集中获取所述实体文本关键词相应的图片及其结构化信息,采用所获取的图片构建图片的三元组,通过各图片的三元组构建图床层;其中,所述图片的三元组包括:头实体、关系、尾实体,所述尾实体为所述图片,所述头实体为实体层的头实体或尾实体,所述关系为所述图片的结构化信息,所述图片的结构化信息用于表示所述头实体与所述尾实体之间的关联关系。
优选地,还包括:
字典树构建单元26,用于根据所述敏感信息的多模知识图谱内,实体层或图床层的实体,构建敏感信息的字典树,所述字典树包括:实体及其指代词,所述实体包括实体文本关键词的三元组中的头实体和尾实体、以及图片的三元组中的头实体和尾实体。
优选地,还包括:
第一处理单元254,用于在所述通过各实体文本关键词的三元组构建实体层之前,针对已构建的各实体文本关键词的三元组,基于实体文本关键词之间的相似度,将头实体中相似度超过设定相似度阈值的不同实体文本关键词采用同一节点标识表示,将尾实体中相似度超过设定相似度阈值的不同实体文本关键词采用同一节点标识表示,以及将关系中所关联的节点标识相同的不同关系采用同一节点标识表示;清除不属于所述设定类别的敏感信息的实体文本关键词的三元组、以及错误的实体文本关键词的三元组,所保留的实体文本关键词的三元组用于构建实体层;
第二处理单元255,用于所述通过图片三元组构建图片层之前,针对已构建的各图片的三元组,清除不属于所述设定类别的敏感信息的图片的三元组、以及错误的图片的三元组,所保留的图片的三元组用于构建图床层。
优选地,还包括实体文本关键词转化单元27,具体用于:
在通过各实体文本关键词的三元组构建实体层之后,遍历实体层内的各实体文本关键词的三元组,其中,所述头实体采用所述第一实体文本关键词、以及对实体的描述信息表示,所述尾实体采用所述第二实体文本关键词、以及对实体的描述信息表示,所述关系采用文本表示;
依次将所述实体文本关键词的三元组中所述头实体、尾实体、以及关系输入预训练的文本特征提取网络,通过预训练的文本特征提取网络分别提取所述头实体、尾实体、关系的文本特征向量,输出所述实体文本关键词的三元组的文本特征向量,将各实体文本关键词的三元组的文本特征向量保存至实体向量表;
所述的敏感信息识别系统,还包括:预训练的文本特征提取网络的训练单元28,具体用于:
将训练样本的头实体、关系、尾实体输入通用知识库transE的卷积网络、以及Robert 语言模型进行模型迭代训练,直至文本特征提取网络的损失函数达到模型收敛条件时,得到预训练的文本特征提取网络;其中,进行模型迭代训练的具体步骤包括:
将训练样本的头实体、关系、尾实体输入通用知识库transE的卷积网络,得到各自的文本特征低维向量;
将头实体、关系、尾实体各自的文本特征低维向量输入Robert语言模型,采用第一预设概率隐藏头实体、关系、尾实体各自的文本特征低维向量内的字符,采用第二预设概率随机替换头实体、关系、尾实体各自的文本特征低维向量内的字符,输出处理后的头实体、关系、尾实体各自的文本特征低维向量;
所述文本特征提取网络的损失函数包括通用知识库transE的损失函数和Robert语言模型的损失函数,所述通用知识库transE的损失函数表示头实体的文本特征低维向量与关系的文本特征低维向量之和、与尾实体的文本特征低维向量之间的关系;所述Robert语言模型的损失函数表示处理后的头实体、关系、尾实体各自的文本特征低维向量的交叉熵。
优选地,所述遍历单元21,具体用于:
将待发布信息遍历所述敏感信息的字典树,根据所述字典树内的实体提取待发布信息内表达实体的片段及其位置,将表达实体的片段与所述字典树内相应实体生成候选实体对;
所述实体匹配模型22,包括文本匹配子单元221和图片匹配子单元222,其中,:
文本匹配子单元221,用于若待发布信息内不包含图片,采用预训练的文本特征提取网络和预训练的文本匹配网络作为实体匹配模型;
将待发布信息输入预训练的文本特征提取网络,提取待发布信息的每个字符的低维向量;将表达实体的片段相应位置字符的低维向量输入预训练的文本特征提取网络,输出表达实体的片段对应的表达向量;
自实体向量表内提取与表达实体的片段相对应的实体向量;
将表达实体的片段的表达向量和相对应的实体向量输入预训练的文本匹配网络进行匹配预测,得到待发布信息的第一文本匹配值;
将所述第一文本匹配值作为所述候选实体对中表达实体的片段与相应实体的匹配值;
图片匹配子单元222,用于若待发布信息内包含图片,采用解耦的预训练的文本特征提取网络和预训练的图片特征提取网络、以及预训练的文本匹配网络和预训练的图片匹配网络作为实体匹配模型;
将待发布信息内的文本信息输入预训练的文本特征提取网络,提取所述文本信息的每个字符的低维向量;将表达实体的片段相应位置字符的低维向量输入预训练的文本特征提取网络,输出表达实体的片段对应的表达向量;
自实体向量表内提取与表达实体的片段相对应的实体向量;
将表达实体的片段的表达向量和表达实体片段相对应的实体向量输入预训练的文本匹配网络进行匹配预测,得到待发布信息的第二文本匹配值;
以及,
将待发布信息输入预训练的图片特征提取网络提取待发布信息内的图片特征,得到待发布信息内的第一图片特征向量;
将待发布信息内所包含的图片相应的实体输入预训练的图片特征提取网络,提取实体的头实体向量、头实体与尾实体的关系向量,将由头实体向量与关系向量共同组成的向量作为所述图片相应实体的第二图片特征向量;
将所述第一图片特征向量和所述第二图片特征向量输入预训练的图片匹配网络,得到待发布信息的图片匹配值;
将所述第二文本匹配值和图片匹配值作为所述候选实体对中表达实体的片段与相应实体的匹配值。
优选地,还包括目标候选实体对判定单元28,具体用于:
若待发布信息内不包含图片,在第一文本匹配值大于第一文本配置阈值的情况下,判定所述候选实体对为目标候选实体对;
若待发布信息内包含图片,在第二文本匹配值大于第二文本配置阈值、且图片匹配值大于图片配置阈值的情况下,判定所述候选实体对为目标候选实体对;其中,所述第一文本配置阈值大于所述第二文本配置阈值。
优选地,所述类目确定单元23,具体用于:
将所述匹配值满足预设配置值的候选实体对作为目标候选实体对,通过图数据库在所述敏感信息的多模知识图谱中查找出所述目标候选体对中相应实体的类目;
所述召回单元24,具体用于:
将实体的类目、实体、表达实体的片段的位置作为待发布信息的识别结果。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明实施例的一种基于多模知识图谱的敏感信息识别方法,以涉及敏感信息识别、自然语言处理,知识图谱等技术领域,能够解决任一类敏感信息识别在现有技术的不足,本发明基于多模知识图谱,结合实体嵌入、实体链接、多模融合等关键技术,有效的提高任一类敏感信息的识别覆盖能力,并拥有较好的可解释性。
以多模知识图谱的政治类敏感信息识别方法示例,基于专家领域知识及维基百科信息等公开的数据库爬取,构建政治领域的多模知识图谱,所述的政治领域的多模知识图谱主要包括类目层、实体层、图床层。其中类目层与实体层构建连接关系,将敏感内容分类识别问题映射为实体链接问题;当识别到输入内容中包含类目关联实体时,则将输入内容进行召回。该方法通过专家对多模知识图谱进行构建,将分类识别问题映射为实体链接问题,提高模型识别的可解释性;有效利用人物、事件类的关系来提升识别能力。更进一步通过对类目关联的散布实体进行识别,有效的缓解了敏感信息的数据稀疏问题。
本发明实施例的整体实施步骤,如附图3所示。步骤一:首先结合专家知识、NLP、网络爬虫等技术构建多模知识图谱,该多模知识图谱通过类目层与实体层构建连接关系,将敏感内容分类识别问题映射为实体链接问题;步骤二:针对多模知识图谱,结合文本特征提取网络、图片特征提取网络及图谱图结构,训练节点及边的embedding表示向量;步骤三:构建实体链接数据集,完成实体链接、实体匹配模型训练,最后结合多模策略,完成线上识别预测。
步骤一多模知识图谱构建
所述的政治类的多模知识图谱构建流程如附图4所示,
步骤101,首先收集设定类别的敏感信息的类目关键词,具体为:由领域专家梳理类目层层级结构:类目层为树状结构,叶子类目是类目层树状结构的最后一层,将叶子类目与实体层直接相连。
步骤102,识别包括所述设定类别的敏感信息的文本中词语所属的实体类别,得到各实体类别的实体文本关键词;比如:收集政治类实体文本关键词的主要方式为:1、对政治类文本(数据级)进行实体识别、分词、去停用词、人工清洗数据处理,筛选人物、事件、制度、组织、影视书籍作品、职务、标志等15类类别实体文本关键词,形成政类目层级结构;2、由领域专家以人物、事件出发,按历史时间梳理收集;形成实体层的实体文本关键词。采用实体文本关键词构建实体文本关键词的三元组,通过各实体文本关键词的三元组构建实体层;其中,所述实体文本关键词的三元组包括:头实体、关系、尾实体,所述头实体表示第一实体文本关键词,所述尾实体表示与所述头实体具有关联关系的第二实体文本关键词,所述关系表示所述尾实体与所述头实体之间的关联关系;将实体层的头实体与类目层的叶子类目进行关联。
步骤103,根据设定类别的敏感信息的实体文本关键词,在数据集中获取所述实体文本关键词相应的图片及其结构化信息,采用所获取的图片构建图片的三元组,通过各图片的三元组构建图床层;其中,所述图片的三元组包括:头实体、关系、尾实体,所述尾实体为所述图片,所述头实体为实体层的头实体或尾实体,所述关系为所述图片的结构化信息,所述图片的结构化信息用于表示所述头实体与所述尾实体之间的关联关系。比如,根据实体文本关键词,在wiki百科爬取相应图片及结构化信息,构建图片的三元组。图片的三元组是多模知识图谱的基本表示形式,每个三元组包括<主语(subject)、谓语 (predicate)、宾语(object)>,也可以表示为<头实体(head entity)、关系(relation)、尾实体(tailentity)>,具体示例:<改革开放(head entity)、目标(relation)、共同富裕(tail entity)>。三元组的关系以为本类为主,图片类也包含对应的关系hasImage。示例:<人物实体、hasImage、人物实体相应的图片>,其中,人物实体位于实体层。
步骤104,在通过各实体文本关键词的三元组构建实体层之前,针对已构建的各实体文本关键词的三元组,基于实体文本关键词之间的相似度,将头实体中相似度超过设定相似度阈值的不同实体文本关键词采用同一节点标识表示,将尾实体中相似度超过设定相似度阈值的不同实体文本关键词采用同一节点标识表示,以及将关系中所关联的节点标识相同的不同关系采用同一节点标识表示;清除不属于所述设定类别的敏感信息的实体文本关键词的三元组、以及错误的实体文本关键词的三元组,所保留的实体文本关键词的三元组用于构建实体层。在通过图片三元组构建图片层之前,针对已构建的各图片的三元组,清除不属于所述设定类别的敏感信息的图片的三元组、以及错误的图片的三元组,所保留的图片的三元组用于构建图床层。即:基于短文本相似度计算,完成实体统一、关系统一,因为实体、关系统一是指在知识图谱中实体和关系必须是唯一。“实体统一”某政治人物具有不同名称、称谓,那么在图谱中要有相同的节点id,通过唯一节点id表示唯一政治人物实体。“关系统一”如妻子、老婆、媳妇,都可以指代夫妻关系,那么在图谱中要有相同的relationid。上述实体统一、关系同一均可以通过短文本相似度筛选来完成。
最后通过人工标注方式对三元组信息进行清洗,清洗部分不符合入库条件的三元组 (如非时政相关的内容)或错误的三元组信息(爬虫时出现错误);
步骤105,构建好的政治类多模知识图谱结构包括政治类目层、实体层、图床层三部分。政治类目层由领域专家归纳构建,并收集梳理实体与时政类目层子类目构建连接关系;实体层主要由实体、关系组成,实体类别主要包括人物、事件、制度、组织等本体结构;图床层用以存储图片模态信息(即图片),所述图片包括时政人物人脸、敏感图片、敏感标志等,图床中的图片以作为图片类实体节点与实体层连接,图床层只存储图片。
步骤二多模知识图谱实体embedding训练
针对多模知识图谱,结合文本特征提取网络、图片特征提取网络及多模知识图谱的结构,训练节点及边的embedding表示向量;多模知识图谱的实体embedding训练流程如附图5所示。
步骤201,通过各实体文本关键词的三元组构建好实体层之后,遍历实体层内的各实体文本关键词的三元组,也就是在多台知识图谱随机遍历实体文本关键词的三元组关系<head,relation,tail>信息;
步骤202,对于图片的三元组中图片实体采用图片信息表示,其他实体,采用实体文本+描述信息表示该实体信息;关系采用文本表示。即:所述头实体采用所述第一实体文本关键词、以及对实体的描述信息表示,所述尾实体采用所述第二实体文本关键词、以及对实体的描述信息表示,所述关系采用文本表示。
步骤203,实体文本关键词的三元组内的实体、关系输入至文本特征提取网络,用于提取文本特征向量embedding;图片实体输入至图片特征提取网络,得到图片特征向量embedding;具体为:将所述实体文本关键词的三元组中所述头实体、尾实体、以及关系输入预训练的文本特征提取网络,通过预训练的文本特征提取网络分别提取所述头实体、尾实体、关系的文本特征向量,输出所述实体文本关键词的三元组的文本特征向量,将各实体文本关键词的三元组的文本特征向量保存至实体向量表。
步骤204,所述的文本特征提取网络采用Robert预训练模型,所述的图片特征提取网络采用ImageNet。文本及图片特征提取网络均经过预训练;
步骤205,模型训练损失函数采用transE loss和语言模型loss,所述transE loss的即Vhead+Vrelation=Vtail,所述的语言模型loss即预训练语言模型loss。
步骤206,模型训练后,将实体对应的向量存储至实体向量表,可以在实体链接预测时提高预测速度。
具体地,预训练的文本特征提取网络采用如下方法进行训练:
将训练样本的头实体、关系、尾实体输入通用知识库transE的卷积网络、以及Robert 语言模型进行模型迭代训练,直至文本特征提取网络的损失函数达到模型收敛条件时,得到预训练的文本特征提取网络;其中,进行模型迭代训练的具体步骤包括:
将训练样本的头实体、关系、尾实体输入通用知识库transE的卷积网络,得到各自的文本特征低维向量;
将头实体、关系、尾实体各自的文本特征低维向量输入Robert语言模型,采用第一预设概率隐藏头实体、关系、尾实体各自的文本特征低维向量内的字符,采用第二预设概率随机替换头实体、关系、尾实体各自的文本特征低维向量内的字符,输出处理后的头实体、关系、尾实体各自的文本特征低维向量;
所述文本特征提取网络的损失函数包括通用知识库transE的损失函数和Robert语言模型的损失函数,所述通用知识库transE的损失函数表示头实体的文本特征低维向量与关系的文本特征低维向量之和、与尾实体的文本特征低维向量之间的关系;所述Robert语言模型的损失函数表示处理后的头实体、关系、尾实体各自的文本特征低维向量的交叉熵。
步骤三实体链接预测
构建实体链接数据集,实体链接流程图如附图6所示。
将待发布信息遍历所述敏感信息的字典树,根据所述字典树内的实体提取待发布信息内表达实体的片段及其位置,将表达实体的片段与所述字典树内相应实体生成候选实体对。具体如步骤301-302;
步骤301,输入文本经过字典树提取mention位置信息,所述的字典树由实体名及实体指代表构建;其中,mention一般指自然语言中表达实体(entity)的语言片段。如:“某会议肯定和确立了某人物所做的某件事情”,其中“某会议”这个词、“某人物”这个词都可以称谓mention。某会议(mention)指知识图谱中的“某会议”,某人物实体(mention) 指知识图谱中相应的“人物实体”。
步骤302,候选实体对生成。基于字典树匹配结果,生成候选实体对<mention,entities>。
步骤303,实体匹配。由于候选实体对<mention,entities>中,存在较多错误链接结果或实体歧义问题,因此构建实体匹配模型,用以提升实体链接准确率。所述的实体匹配模型结构如附图7所示。实体匹配模型的输入为Input文本、mention位置信息、Input配图(可选,当输入信息中包含配图时,可利用配图信息对实体匹配模型进行识别效果增强)。
步骤303-1,若待发布信息内不包含图片,采用预训练的文本特征提取网络和预训练的文本匹配网络作为实体匹配模型,具体包括:将待发布信息输入预训练的文本特征提取网络,提取待发布信息的每个字符的低维向量;将表达实体的片段相应位置字符的低维向量输入预训练的文本特征提取网络,输出表达实体的片段对应的表达向量;自实体向量表内提取与表达实体的片段相对应的实体向量;将表达实体的片段的表达向量和相对应的实体向量输入预训练的文本匹配网络进行匹配预测,得到待发布信息的第一文本匹配值。比如:将Input文本输入至步骤二中预训练的文本特征提取网络,完成token embedding提取。选取mention位置词向量,输入至卷积网络融合mention信息,构建mention向量VM。所述entities实体根据步骤二中构建的实体向量表,提取实体向量信息VE。构建Text MatchNet(文本匹配网络),将VM和VE输入至文本匹配网络,进行匹配预测,得到文本匹配分值Ptext。
步骤303-2,当输入的mention存在Input配图时,利用Input配图对实体匹配结果进行识别效果增强。
将待发布信息内的文本信息输入预训练的文本特征提取网络,提取所述文本信息的每个字符的低维向量;将表达实体的片段相应位置字符的低维向量输入预训练的文本特征提取网络,输出表达实体的片段对应的表达向量;自实体向量表内提取与表达实体的片段相对应的实体向量;将表达实体的片段的表达向量和表达实体片段相对应的实体向量输入预训练的文本匹配网络进行匹配预测,得到待发布信息的第二文本匹配值。
将待发布信息输入预训练的图片特征提取网络提取待发布信息内的图片特征,得到待发布信息内的第一图片特征向量;将待发布信息内所包含的图片相应的实体输入预训练的图片特征提取网络,提取实体的头实体向量、头实体与尾实体的关系向量,将由头实体向量与关系向量共同组成的向量作为所述图片相应实体的第二图片特征向量;将所述第一图片特征向量和所述第二图片特征向量输入预训练的图片匹配网络,得到待发布信息的图片匹配值;将所述第二文本匹配值和图片匹配值作为所述候选实体对中表达实体的片段与相应实体的匹配值。比如:将Input配图输入至步骤二中预训练的图片特征提取网络,提取图片的第一图片特征向量IM。采用VE+VhasImage=IE表征entity的图片特征,其中hasImage 为图数据库中实体与图片的关系表示,得到第二图片特征向量。在构建Image Match Net (图片匹配网络)后,将第一图片特征向量IM和第二图片特征向量(实体entity特征IE)输入至图片匹配网络,进行匹配预测,得到图片匹配分值Pimage。
步骤303-3,为解决多模训练数据收集问题,本发明将不同模态的匹配网络进行解耦 (即在mention包含图片时,文本匹配网络与图片匹配网络分别独立工作),并采用策略融合的方式进行实体匹配模型融合。若待发布信息内不包含图片,在第一文本匹配值大于第一文本配置阈值的情况下,判定所述候选实体对为目标候选实体对。若待发布信息内包含图片,在第二文本匹配值大于第二文本配置阈值、且图片匹配值大于图片配置阈值的情况下,判定所述候选实体对为目标候选实体对;其中,所述第一文本配置阈值大于所述第二文本配置阈值。匹配值是指实体链接的概率,概率值越高,代表mention与实体越相似,识别结果为True即代表mention与实体是匹配的。其中,图片知识用来辅助文本类实体链接,提高实体链接准确率的。
步骤303-4,本发明所述的Text Match Net(文本匹配网络)和Image Match Net(图片匹配网络)可分别基于单模态数据进行模型训练。
步骤304,基于多模知识图谱,将目标候选实体对中匹配到的实体查找对应的类目,并进行识别结果预测。
所匹配到的实体及mention位置作为提示prompt信息,推送到下游审核人员,以提升审核效率。
本发明所取得的有益效果如下:
通过专家知识构建多模知识图谱,构建类目层和实体层的连接关系,将分类识别问题映射为实体链接问题,提高模型识别的可解释性;更进一步通过对类目关联的散布实体进行识别,有效的缓解了敏感信息的数据稀疏问题,在识别到敏感信息推送下游人工审核时,能够提供敏感信息识别原因,极大提高审核效率。避免现有技术的“模型训练效果完全依赖语料特征,难以有效提高样本分布稀疏、危害性高的政治类敏感信息的识别覆盖能力”的技术问题;本发明通过多模知识图谱预训练+实体匹配的方式,充分利用了多模信息,通过实体链接提高敏感信息的识别能力。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM 存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种敏感信息识别方法,其特征在于,包括:
获取待发布信息,基于敏感信息的字典树自待发布信息中提取表达实体的片段,将所述表达实体的片段与所述字典树中相应实体生成候选实体对,所述字典树包括实体及其指代词,所述实体是指表示敏感信息的实体文本关键词或者所述实体文本关键词相应的图片;
将所述候选实体对输入实体匹配模型对所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出所述候选实体对中表达实体的片段与相应实体的匹配值;
将所述匹配值满足预设配置阈值的候选实体对作为目标候选实体对,基于预先构建的敏感信息的多模知识图谱,得到所述目标候选实体对中与表达实体的片段相对应的实体的类目;
基于所述实体的类目确定所述待发布信息的识别结果,并将所述待发布信息召回。
2.根据权利要求1所述的敏感信息识别方法,其特征在于,所述敏感信息的多模知识图谱包括类目层、实体层、图床层,其中,所述实体层与所述类目层相关联,所述图床层与所述实体层相关联;
所述敏感信息的多模知识图谱通过如下方法构建,包括:
收集设定类别的敏感信息的类目关键词,根据所述类目关键词创建类目的树状结构,得到类目层,所述树状结构包括叶子类目,所述叶子类目用于与实体层直接相连;
识别包括所述设定类别的敏感信息的文本中词语所属的实体类别,得到各实体类别的实体文本关键词,采用实体文本关键词构建实体文本关键词的三元组,通过各实体文本关键词的三元组构建实体层;其中,所述实体文本关键词的三元组包括:头实体、关系、尾实体,所述头实体表示第一实体文本关键词,所述尾实体表示与所述头实体具有关联关系的第二实体文本关键词,所述关系表示所述尾实体与所述头实体之间的关联关系;
将实体层的头实体与类目层的叶子类目进行关联;
根据设定类别的敏感信息的实体文本关键词,在数据集中获取所述实体文本关键词相应的图片及其结构化信息,采用所获取的图片构建图片的三元组,通过各图片的三元组构建图床层;其中,所述图片的三元组包括:头实体、关系、尾实体,所述尾实体为所述图片,所述头实体为实体层的头实体或尾实体,所述关系为所述图片的结构化信息,所述图片的结构化信息用于表示所述头实体与所述尾实体之间的关联关系。
3.根据权利要求2所述的敏感信息识别方法,其特征在于,所述敏感信息识别方法,还包括:
根据所述敏感信息的多模知识图谱内实体层或图床层的实体,构建敏感信息的字典树,所述字典树包括:实体及其指代词,所述实体包括实体文本关键词的三元组中的头实体和尾实体、以及图片的三元组中的尾实体。
4.根据权利要求2所述的敏感信息识别方法,其特征在于,在所述通过各实体文本关键词的三元组构建实体层之前,还包括:
针对已构建的各实体文本关键词的三元组,基于实体文本关键词之间的相似度,将头实体中相似度超过设定相似度阈值的不同实体文本关键词采用同一节点标识表示,将尾实体中相似度超过设定相似度阈值的不同实体文本关键词采用同一节点标识表示,以及将关系中所关联的节点标识相同的不同关系采用同一节点标识表示;清除不属于所述设定类别的敏感信息的实体文本关键词的三元组、以及错误的实体文本关键词的三元组,所保留的实体文本关键词的三元组用于构建实体层;
所述通过图片三元组构建图片层之前,还包括:
针对已构建的各图片的三元组,清除不属于所述设定类别的敏感信息的图片的三元组、以及错误的图片的三元组,所保留的图片的三元组用于构建图床层。
5.根据权利要求2所述的敏感信息识别方法,其特征在于,还包括:
在通过各实体文本关键词的三元组构建实体层之后,遍历实体层内的各实体文本关键词的三元组,其中,所述头实体采用所述第一实体文本关键词、以及对实体的描述信息表示,所述尾实体采用所述第二实体文本关键词、以及对实体的描述信息表示,所述关系采用文本表示;
依次将所述实体文本关键词的三元组中所述头实体、尾实体、以及关系输入预训练的文本特征提取网络,通过预训练的文本特征提取网络分别提取所述头实体、尾实体、关系的文本特征向量,输出所述实体文本关键词的三元组的文本特征向量,将各实体文本关键词的三元组的文本特征向量保存至实体向量表;
其中,预训练的文本特征提取网络采用如下方法进行训练:
将训练样本的头实体、关系、尾实体输入通用知识库transE的卷积网络、以及Robert语言模型进行模型迭代训练,直至文本特征提取网络的损失函数达到模型收敛条件时,得到预训练的文本特征提取网络;其中,进行模型迭代训练的具体步骤包括:
将训练样本的头实体、关系、尾实体输入通用知识库transE的卷积网络,得到各自的文本特征低维向量;
将头实体、关系、尾实体各自的文本特征低维向量输入Robert语言模型,采用第一预设概率隐藏头实体、关系、尾实体各自的文本特征低维向量内的字符,采用第二预设概率随机替换头实体、关系、尾实体各自的文本特征低维向量内的字符,输出处理后的头实体、关系、尾实体各自的文本特征低维向量;
所述文本特征提取网络的损失函数包括通用知识库transE的损失函数和Robert语言模型的损失函数,所述通用知识库transE的损失函数表示头实体的文本特征低维向量与关系的文本特征低维向量之和、与尾实体的文本特征低维向量之间的关系;所述Robert语言模型的损失函数表示处理后的头实体、关系、尾实体各自的文本特征低维向量的交叉熵。
6.根据权利要求5所述的敏感信息识别方法,其特征在于,所述基于敏感信息的字典树自待发布信息提取表达实体的片段,将表达实体的片段与所述字典树中相应实体生成候选实体对,包括:
将待发布信息遍历所述敏感信息的字典树,根据所述字典树内的实体提取待发布信息内表达实体的片段及其位置,将表达实体的片段与所述字典树内相应实体生成候选实体对;
所述将所述候选实体对输入实体匹配模型对所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出所述候选实体对中表达实体的片段与相应实体的匹配值,包括:
若待发布信息内不包含图片,采用预训练的文本特征提取网络和预训练的文本匹配网络作为实体匹配模型,具体包括:
将待发布信息输入预训练的文本特征提取网络,提取待发布信息的每个字符的低维向量;将表达实体的片段相应位置字符的低维向量输入预训练的文本特征提取网络,输出表达实体的片段对应的表达向量;
自实体向量表内提取与表达实体的片段相对应的实体向量;
将表达实体的片段的表达向量和相对应的实体向量输入预训练的文本匹配网络进行匹配预测,得到待发布信息的第一文本匹配值;
将所述第一文本匹配值作为所述候选实体对中表达实体的片段与相应实体的匹配值;
若待发布信息内包含图片,采用解耦的预训练的文本特征提取网络和预训练的图片特征提取网络、以及预训练的文本匹配网络和预训练的图片匹配网络作为实体匹配模型,具体包括:
将待发布信息内的文本信息输入预训练的文本特征提取网络,提取所述文本信息的每个字符的低维向量;将表达实体的片段相应位置字符的低维向量输入预训练的文本特征提取网络,输出表达实体的片段对应的表达向量;
自实体向量表内提取与表达实体的片段相对应的实体向量;
将表达实体的片段的表达向量和表达实体片段相对应的实体向量输入预训练的文本匹配网络进行匹配预测,得到待发布信息的第二文本匹配值;
以及,
将待发布信息输入预训练的图片特征提取网络提取待发布信息内的图片特征,得到待发布信息内的第一图片特征向量;
将待发布信息内所包含的图片相应的实体输入预训练的图片特征提取网络,提取实体的头实体向量、头实体与尾实体的关系向量,将由头实体向量与关系向量共同组成的向量作为所述图片相应实体的第二图片特征向量;
将所述第一图片特征向量和所述第二图片特征向量输入预训练的图片匹配网络,得到待发布信息的图片匹配值;
将所述第二文本匹配值和图片匹配值作为所述候选实体对中表达实体的片段与相应实体的匹配值。
7.根据权利要求6所述的敏感信息识别方法,其特征在于,所述目标候选实体对的判定方法,包括:
若待发布信息内不包含图片,在第一文本匹配值大于第一文本配置阈值的情况下,判定所述候选实体对为目标候选实体对;
若待发布信息内包含图片,在第二文本匹配值大于第二文本配置阈值、且图片匹配值大于图片配置阈值的情况下,判定所述候选实体对为目标候选实体对;其中,所述第一文本配置阈值大于所述第二文本配置阈值。
8.根据权利要求6所述的敏感信息识别方法,其特征在于,所述基于预先构建的敏感信息的多模知识图谱,得到所述目标候选实体对中与表达实体的片段相对应的实体的类目,包括:
通过图数据库在所述敏感信息的多模知识图谱中查找出所述目标候选体对中相应实体的类目;
所述基于所述实体的类目确定所述待发布信息的识别结果,包括:
将所述实体的类目、所述实体、所述表达实体的片段的位置作为待发布信息的识别结果。
9.一种敏感信息识别系统,其特征在于,包括:
遍历单元,用于获取待发布信息,基于敏感信息的字典树自待发布信息中提取表达实体的片段,将所述表达实体的片段与所述字典树中相应实体生成候选实体对,所述字典树包括实体及其指代词,所述实体是指表示敏感信息的实体文本关键词或者所述实体文本关键词相应的图片;
实体匹配模型,用于对输入的所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出所述候选实体对中表达实体的片段与相应实体的匹配值;
类目确定单元,用于将所述匹配值满足预设配置阈值的候选实体对作为目标候选实体对,基于预先构建的敏感信息的多模知识图谱,得到所述目标候选实体对中与表达实体的片段相对应的实体的类目;
召回单元,用于基于所述实体的类目确定所述待发布信息的识别结果,并将所述待发布信息召回。
10.根据权利要求9所述的敏感信息识别系统,其特征在于,所述敏感信息的多模知识图谱包括类目层、实体层、图床层,其中,所述实体层与所述类目层相关联,所述图床层与所述实体层相关联;
通过类目层构建单元、实体层构建单元、图床层构建单元构建敏感信息的多模知识图谱,其中:
所述类目层构建单元,用于收集设定类别的敏感信息的类目关键词,根据所述类目关键词创建类目的树状结构,得到类目层,所述树状结构包括叶子类目,所述叶子类目用于与实体层直接相连;
所述实体层构建单元,用于识别包括所述设定类别的敏感信息的文本中词语所属的实体类别,得到各实体类别的实体文本关键词,采用实体文本关键词构建实体文本关键词的三元组,通过各实体文本关键词的三元组构建实体层;其中,所述实体文本关键词的三元组包括:头实体、关系、尾实体,所述头实体表示第一实体文本关键词,所述尾实体表示与所述头实体具有关联关系的第二实体文本关键词,所述关系表示所述尾实体与所述头实体之间的关联关系;以及将实体层的头实体与类目层的叶子类目进行关联;
所述图床层构建单元,用于根据设定类别的敏感信息的实体文本关键词,在数据集中获取所述实体文本关键词相应的图片及其结构化信息,采用所获取的图片构建图片的三元组,通过各图片的三元组构建图床层;其中,所述图片的三元组包括:头实体、关系、尾实体,所述尾实体为所述图片,所述头实体为实体层的头实体或尾实体,所述关系为所述图片的结构化信息,所述图片的结构化信息用于表示所述头实体与所述尾实体之间的关联关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210922060.3A CN116050396A (zh) | 2022-08-02 | 2022-08-02 | 一种敏感信息识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210922060.3A CN116050396A (zh) | 2022-08-02 | 2022-08-02 | 一种敏感信息识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116050396A true CN116050396A (zh) | 2023-05-02 |
Family
ID=86130247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210922060.3A Pending CN116050396A (zh) | 2022-08-02 | 2022-08-02 | 一种敏感信息识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050396A (zh) |
-
2022
- 2022-08-02 CN CN202210922060.3A patent/CN116050396A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079444B (zh) | 一种基于多模态关系的网络谣言检测方法 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
WO2023108980A1 (zh) | 基于文本对抗样例的信息推送方法及装置 | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
Maier et al. | Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections | |
RU2646386C1 (ru) | Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора | |
CN113535974B (zh) | 诊断推荐方法及相关装置、电子设备、存储介质 | |
CN111597803B (zh) | 一种要素提取方法、装置、电子设备及存储介质 | |
CN110096573B (zh) | 一种文本解析方法及装置 | |
WO2022140900A1 (zh) | 个人知识图谱构建方法、装置及相关设备 | |
US11321530B2 (en) | Interpreting a meaning of a word string | |
CN111783903A (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN114661861B (zh) | 文本匹配方法及装置、存储介质、终端 | |
CN111797247B (zh) | 基于人工智能的案件推送方法、装置、电子设备及介质 | |
US20220245358A1 (en) | Creating a superset of knowledge | |
CN116775639A (zh) | 数据处理方法、存储介质及电子设备 | |
CN116402166A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
JP2023517518A (ja) | ヌル値又は同等の値を有するリレーショナル・テーブルのためのベクトル埋込モデル | |
Xia et al. | Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
CN117933260A (zh) | 一种文本质量分析方法、装置、设备及存储介质 | |
CN116050396A (zh) | 一种敏感信息识别方法及系统 | |
CN111597453B (zh) | 用户画像方法、装置、计算机设备及计算机可读存储介质 | |
CN114417860A (zh) | 一种信息检测方法、装置及设备 | |
CN116822502B (zh) | 网页内容识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |