CN110727955A

CN110727955A - 信息识别方法及装置

Info

Publication number: CN110727955A
Application number: CN201910907499.7A
Authority: CN
Inventors: 周鑫; 许宗怡
Original assignee: China Enterprise Chain Information Technology Co Ltd
Current assignee: China Enterprise Chain Information Technology Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-24

Abstract

本公开提供一种信息识别方法及装置，涉及计算机信息处理领域，能够解决由于特殊字符或中英文间隔或互转等情况引起的检测漏洞的问题。具体技术方案为获取第一信息，其中，所述第一信息是原始信息；根据所述第一信息提取第二信息，其中，所述第二信息包括所述第一信息的模板和/或所述第一信息的向量；将所述第一信息的模板和预设模板比较和/或将所述第一信息的向量和预设向量比较；如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致，识别所述第一信息是敏感信息。

Description

信息识别方法及装置

技术领域

本公开涉及计算机数据处理领域，尤其涉及信息识别方法及装置。

背景技术

随着互联网，移动互联网，物联网等新兴技术的发展，对大家的日程生活带来很大的便利，时信息的传播更快也更广，在这样的背景下，一些敏感信息或一些不方便公布与众的企业或个人信息，一旦由于疏忽或其他原因被相关系统泄露将带来巨大的经济损失和名誉损失，严重时相关责任方有可能还会承担法律责任。

目前已经有一些技术方法可以处理这个问题，但或多或少在使用和效率上存在一些问题，如制定敏感信息的识别规则需要一定的知识背景，规则不便于读或不便于业务维护；对敏感信息的匹配和识别会影响到系统的效率，在一定条件下会影响到系统的响应时间；由于中文的特点，造成的检测遗留。

发明向量

本公开实施例提供一种信息识别方法及装置，能够解决敏感信息检测不全面的问题。所述技术方案如下：

根据本公开实施例的第一方面，提供一种信息识别方法，该方法包括：

获取第一信息，其中，所述第一信息是原始信息；

根据所述第一信息提取第二信息，其中，所述第二信息包括所述第一信息的模板和/或所述第一信息的向量；

将所述第一信息的模板和预设模板比较和/或将所述第一信息的向量和预设向量比较；

如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致，识别所述第一信息是敏感信息。

在一个实施例中，上述方法还包括：

如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量不一致，识别所述第一信息是非敏感信息。

在一个实施例中，根据所述第一信息提取第二信息包括：

从预设运算符堆栈中获取运算符；

从操作数堆栈中读取操作数；

根据所述运算符和操作数确定所述第一信息的模板。

在一个实施例中，根据所述第一信息提取第二信息包括：

根据所述运算符和操作数按照预设规则确定所述第一信息的向量。

在一个实施例中，获取第一信息之前，所述方法还包括：

通过web页面获取输入的预设模板和/或预设向量。

在一个实施例中，将所述第一信息的模板和预设模板比较和/或将所述第一信息的向量和预设向量比较包括：

计算所述第一信息的模板和预设模板比较的第一相似度和/或计算所述第一信息的向量和预设向量的第二相似度；

当所述第一相似度高于第一预设阈值和/或第二相似度高于第二预设阈值时，确定所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致。

在一个实施例中，根据所述运算符和操作数按照预设规则确定所述第一信息的向量包括：

对第一信息按照预设文本规则进行分类，得到至少一个分类列表集合；

将所述至少一个分类列表集合中的元素进行编码，形成所述第一信息的向量。

在一个实施例中，上述方法还包括：

对所述敏感信息做遮挡处理、隐藏处理或模糊处理。

根据本公开实施例的第二方面，提供一种信息识别装置，该装置包括：

获取模块，用于获取第一信息，其中，所述第一信息是原始信息；

提取模块，用于根据所述第一信息提取所述第一信息的模板和/或所述第一信息的向量；

比较模块，用于将所述第一信息的模板和预设模板比较和/或将所述第一信息的向量和预设向量比较；

第一识别模块，用于如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致，识别所述第一信息是敏感信息。

在一个实施例中，上述装置还包括：

第二识别模块，用于如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量不一致，识别所述第一信息是非敏感信息。

在一个实施例中，根据提取模块包括：

第一获取子模块，用于从预设运算符堆栈中获取运算符；

第二获取子模块，用于从操作数堆栈中读取操作数；

第一确定子模块，用于根据所述运算符和操作数确定所述第一信息的模板。

在一个实施例中，根据提取模块具体用于：

在一个实施例中，上述装置还包括：

预设模块，用于获取第一信息之前，通过web页面获取输入的预设模板和/或预设向量。

在一个实施例中，比较包括：

第一计算子模块，用于计算所述第一信息的模板和预设模板比较的第一相似度和/或计算所述第一信息的向量和预设向量的第二相似度；

第二确定子模块，用于当所述第一相似度高于第一预设阈值和/或第二相似度高于第二预设阈值时，确定所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致。

在一个实施例中，提取模块包括：

分类子模块，用于对第一信息按照预设文本规则进行分类，得到至少一个分类列表集合；

编码子模块，用于将所述至少一个分类列表集合中的元素进行编码，形成所述第一信息的向量。

在一个实施例中，上述装置还包括：

处理模块，用于对所述敏感信息做遮挡处理、隐藏处理或模糊处理。

本方案的所述的方式有效防止由于特殊字符或中英文间隔或互转等情况引起的检测漏洞。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例提供的一种信息识别方法的流程图；

图2是本公开实施例提供的一种确定第一信息的模板流程图；

图3是本公开实施例提供的一种形成第一信息向量的流程图；

图4是本公开实施例提供的一种信息识别装置的结构图；

图5是本公开实施例提供的一种信息识别装置的结构图；

图6是本公开实施例提供的一种信息识别装置的结构图；

图7是本公开实施例提供的一种信息识别装置的结构图；

图8是本公开实施例提供的一种信息识别装置的结构图；

图9是本公开实施例提供的一种信息识别装置的结构图；

图10是本公开实施例提供的一种信息识别装置的结构图；

图11是本公开实施例提供的一种信息识别应用示意图；

图12是本公开实施例提供的一种信息识别方法应用示意图；

图13是本公开实施例提供的一种信息存储流程图；

图14是本公开实施例提供的分值制定和规则制定流程示意图；

图15是本公开实施例提供的信息处理流程示意图；

图16是本公开实施例提供的信息识别流程示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供一种信息识别方法，如图1所示，该信息识别方法包括以下步骤：

101、获取第一信息，其中，所述第一信息是原始信息；

102、根据所述第一信息提取第二信息，其中，所述第二信息包括所述第一信息的模板和/或所述第一信息的向量；

在一个实施例中，第一信息以后缀表达式(逆波兰式)存储，如图2所示，根据所述第一信息提取第二信息包括：

1021、从预设运算符堆栈中获取运算符；

1022、从操作数堆栈中读取操作数；

1023、根据所述运算符和操作数按照预设规则确定所述第一信息的模板。

在一个实施例中，操作数堆栈和运算符堆栈是不同的堆栈。

在一个实施例中，根据所述第一信息提取第二信息包括：根据所述运算符和操作数按照预设规则确定所述第一信息的向量。

如图3所述，根据所述运算符和操作数按照预设规则确定所述第一信息的向量包括：

步骤102a、对第一信息按照预设文本规则进行分类，得到至少一个分类列表集合；

步骤102b、将所述至少一个分类列表集合中的元素进行编码，形成所述第一信息的向量。

103、将所述第一信息的模板和预设模板比较和/或将所述第一信息的向量和预设向量比较；

步骤1031、计算所述第一信息的模板和预设模板比较的第一相似度和/或计算所述第一信息的向量和预设向量的第二相似度；

步骤1032、当所述第一相似度高于第一预设阈值和/或第二相似度高于第二预设阈值时，确定所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致。

104、如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致，识别所述第一信息是敏感信息。

可选的，如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量不一致，识别所述第一信息是非敏感信息。

在一个实施例中，步骤101之前，该方法还包括：通过web页面获取输入的预设模板和/或预设向量。

在一个实施例中，步骤104之后，该方法还包括：对所述敏感信息做遮挡处理、隐藏处理或模糊处理。

图4公开了一种信息识别装置40，信息识别装置40包括获取模块401、提取模块402、比较模块403和第一识别模块404，其中，获取模块401，用于获取第一信息，其中，所述第一信息是原始信息；提取模块402，用于根据所述第一信息提取所述第一信息的模板和/或所述第一信息的向量；比较模403，用于将所述第一信息的模板和预设模板比较和/或将所述第一信息的向量和预设向量比较；第一识别模块404，用于如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致，识别所述第一信息是敏感信息。

图5公开了一种信息识别装置50，信息识别装置50包括获取模块501、提取模块502、比较模块503、第一识别模块504和第二识别模块505，其中，第二识别模块505用于如果比较结果指示所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量不一致，识别所述第一信息是非敏感信息。

图6公开了一种信息识别装置60，信息识别装置60包括获取模块601、提取模块602、比较模块603和第一识别模块404，提取模块602包括：

第一获取子模块6021，用于从预设运算符堆栈中获取运算符；

第二获取子模块6022，用于从操作数堆栈中读取操作数；

第一确定子模块6023，用于根据所述运算符和操作数确定所述第一信息的模板。

在一个实施例中，根据提取模块具体用于：

图7公开了一种信息识别装置70，信息识别装置70包括获取模块701、提取模块702、比较模块703、第一识别模块704和预设模块700，其中预设模块700用于获取第一信息之前，通过web页面获取输入的预设模板和/或预设向量。

图8公开了一种信息识别装置80，信息识别装置80包括获取模块801、提取模块802、比较模块803和第一识别模块804，其中，比较模块803包括：

第一计算子模块8031，用于计算所述第一信息的模板和预设模板比较的第一相似度和/或计算所述第一信息的向量和预设向量的第二相似度；

第二确定子模块8032，用于当所述第一相似度高于第一预设阈值和/或第二相似度高于第二预设阈值时，确定所述第一信息的模板和预设模板一致和/或所述第一信息的向量和预设向量一致。

图9公开了一种信息识别装置90，信息识别装置90包括获取模块901、提取模块902、比较模块903和第一识别模块904，其中，提取模块902包括：

分类子模块9021，用于对第一信息按照预设文本规则进行分类，得到至少一个分类列表集合；

编码子模块9022，用于将所述至少一个分类列表集合中的元素进行编码，形成所述第一信息的向量。

图10公开了一种信息识别装置100，信息识别装置100包括获取模块1001、提取模块1002、比较模块1003、第一识别模块1004和处理模块1005，其中，处理模块1005用于对所述敏感信息做遮挡处理、隐藏处理或模糊处理。

图11是本公开实施例信息识别过程的框架图，如图11所示的信息识别过程，信息识别过程分为信息识别、相似度分值和规则制定以及敏感信息处理三部分组成，其中信息检测和敏感信息处理是与实际业务系统对接的组件或接口服务，一个用于检测，一个用于对检测结果的处理；相似度分值和规则制定是一个独立部署的应用系统，是整个方案的管理单元。

相似度计算是用来对本文本差异的算法，在实际的应用系统数据交互中不常用此算法来识别敏感信息，该方法是通过逆波兰式等规则表达式来识别和总结可能的文本模板来和实际数据进行相似度差异比较来发现可能的敏感信息

相似度分值和规则制定(执行预设模块的功能)：该部分是整体方案的管理单元，可通过web应用系统的方式呈现，核心是对实际对接的目标系统的文本检测信息的规则制定和管理；

信息检测(执行获取模块、提取模块、比较模块和识别模块的功能)：该部分在整体方案承担探针的角色，是以基础组件或服务的形式提供信息检测的功能，以相似度匹配为基础，根据规则来检测结果；

敏感信息处理(执行处理模块的功能)：该部分在当发现有敏感信息可能时，根据管理单元的指令，进行敏感信息的处理的单元；

逆波兰式(后缀表达式)解析方法举例：不包含括号，运算符放在两个运算对象的后面，所有的计算按运算符出现的顺序，严格从左向右进行(不再考虑运算符的优先规则，如：(2+1)*3，即2 1+3*

图13是第一信息存储流程图，包括以下几个步骤：

S11、从左至右扫描一中缀表达式

S12、若读取的是操作数，则判断该操作数的类型，并将该操作数存入操作数堆栈

S13、若读取的是运算符按照预设规则处理；

具体的，规则如下：

该运算符为左括号"("，则直接存入运算符堆栈；该运算符为右括号")"，则输出运算符堆栈中的运算符到操作数堆栈，直到遇到左括号为止，此时抛弃该左括号。

该运算符为非括号运算符：

若运算符堆栈栈顶的运算符为左括号，则直接存入运算符堆栈；若比运算符堆栈栈顶的运算符优先级高，则直接存入运算符堆栈；若比运算符堆栈栈顶的运算符优先级低或相等，则输出栈顶运算符到操作数堆栈，直至运算符栈栈顶运算符低于(不包括等于)该运算符优先级,或为左括号，并将当前运算符压入运算符堆栈。

S14、当表达式读取完成后运算符堆栈中尚有运算符时，则依序取出运算符到操作数堆栈，直到运算符堆栈为空。

余弦相似度计算说明：

一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。

下面我们介绍使用余弦相似度计算两段文本的相似度。文本相似度的技术可以参考以下几个步骤：分词、列出所有词、分词编码、词频向量化、套用余弦函数计量两个句子的相似度。

句子A：这只皮靴号码大了。那只号码合适。

句子B：这只皮靴号码不小，那只更合适。

1、分词：

使用结巴分词对上面两个句子分词后，分别得到两个列表：

listA＝[‘这‘,‘只‘,‘皮靴‘,‘号码‘,‘大‘,‘了‘,‘那‘,‘只‘,‘号码‘,‘合适‘]

listB＝[‘这‘,‘只‘,‘皮靴‘,‘号码‘,‘不小‘,‘那‘,‘只‘,‘更合‘,‘合适‘]

2、列出所有词，将listA和listB放在一个set中，得到：

set＝{'不小','了','合适','那','只','皮靴','更合','号码','这','大'}

将上述set转换为dict，key为set中的词，value为set中词出现的位置，即‘这’:1这样的形式。

dict1＝{'不小':0,'了':1,'合适':2,'那':3,'只':4,'皮靴':5,'更合':6,'号码':7,'这':8,'大':9}，可以看出“不小”这个词在set中排第1，下标为0。

3、将listA和listB进行编码，将每个字转换为出现在set中的位置，转换后为：listAcode为listA编码后的向量，listBcode是listB编码后的向量。

listAcode＝[8,4,5,7,9,1,3,4,7,2]

listBcode＝[8,4,5,7,0,3,4,6,2]

我们来分析listAcode，结合dict1，可以看到8对应的字是“这”，4对应的字是“只”，9对应的字是“大”，就是句子A和句子B转换为用数字来表示。

4、对listAcode和listBcode进行独热oneHot编码，就是计算每个分词出现的次数。oneHot编号后得到的结果如下：

listAcodeOneHot＝[0,1,1,1,2,1,0,2,1,1]

listBcodeOneHot＝[1,0,1,1,2,1,1,1,1,0]

如图12，总结了句子从分词，列出所有词，对分词进行编码，计算词频的过程。

5、得出两个句子的词频向量之后，就变成了计算两个向量之间夹角的余弦值，值越大相似度越高。

listAcodeOneHot＝[0,1,1,1,2,1,0,2,1,1]

listBcodeOneHot＝[1,0,1,1,2,1,1,1,1,0]

根据余弦相似度，句子A和句子B相似度很高。

另外，相似度计算可以替换为其他相似度算法如：深度语义匹配模型(DeepStructured Semantic Model，DSSM)或simhash等，本公开对此不作限定。

逆波兰式可以替换为正则表达式等规则；本方案的所述的方式，是通过规则(逆波兰式)匹配应用数据的并行程相速度模板，根据此模板定义相似度分支来对应用数据进行分级，有效防止由于特殊字符或中英文间隔或互转等情况引起的检测漏洞。

基于上述图1对应的实施例中所描述的信息识别方法，本公开实施例还提供一种计算机可读存储介质，例如，非临时性计算机可读存储介质可以是只读存储器(英文：ReadOnly Memory，ROM)、随机存取存储器(英文：Random Access Memory，RAM)、CD-ROM、磁带、软盘和光数据存储装置等。该存储介质上存储有计算机指令，用于执行上述图1对应的实施例中所描述的信息识别方法，此处不再赘述。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

Claims

1.一种信息识别方法，其特征在于，所述方法包括：

获取第一信息，其中，所述第一信息是原始信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一信息提取第二信息包括：

从预设运算符堆栈中获取运算符；

从操作数堆栈中读取操作数；

根据所述运算符和操作数确定所述第一信息的模板。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一信息提取第二信息包括：

5.根据权利要求1所述的方法，其特征在于，所述获取第一信息之前，所述方法还包括：

通过web页面获取输入的预设模板和/或预设向量。

6.根据权利要求1所述的方法，其特征在于，所述将所述第一信息的模板和预设模板比较和/或将所述第一信息的向量和预设向量比较包括：

7.根据权利要求4所述的方法，其特征在于，所述根据所述运算符和操作数按照预设规则确定所述第一信息的向量包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

对所述敏感信息做遮挡处理、隐藏处理或模糊处理。

9.一种信息识别装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述提取模块包括：

第一获取子模块，用于从预设运算符堆栈中获取运算符；

第二获取子模块，用于从操作数堆栈中读取操作数；

第一确定子模块，用于根据所述运算符和操作数按照预设规则确定所述第一信息的模板。