CN113139379B

CN113139379B - 信息识别方法和系统

Info

Publication number: CN113139379B
Application number: CN202010066006.4A
Authority: CN
Inventors: 赵钧; 姚晓辉
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2023-12-22
Anticipated expiration: 2040-01-20
Also published as: CN113139379A

Abstract

本公开公开了一种信息识别方法和系统，涉及网络技术与安全领域。其中的方法包括：提取待测文本的多个主题词，并将多个主题词作为第一候选敏感词；获取每个主题词对应的多个相近词，并将多个相似词作为第二候选敏感词；基于布隆过滤器，对第一候选敏感词和第二候选敏感词，与敏感语料库中的词语进行匹配；根据匹配结果，识别出待测文本是否为包含敏感信息。本公开通过对待测文件的语义理解，抽取主题词，然后对主题词进行动态扩展，得到多个语义相近词，并应用布隆过滤器进行语义匹配，识别出待测文本是否为包含敏感信息，提升了信息识别速度。

Description

信息识别方法和系统

技术领域

本公开涉及网络技术与安全领域，尤其涉及一种信息识别方法和系统。

背景技术

对于文本类数据中的敏感信息的识别，相关技术中，大多采用对文本进行分词处理，利用关键词检测、正则表达式检测等方法实现。这种方法的一个问题是词匹配量大，且当文本中没包含敏感词库中的词，但实际上包含与敏感词相近语义的词，从语义层面是涉敏时，该方案不能检测出该文本包含敏感信息。

发明内容

本公开提供一种信息识别方法和系统，能够提高敏感信息识别的效率。

根据本公开一方面，提出一种信息识别方法，包括：提取待测文本的多个主题词，并将多个主题词作为第一候选敏感词；获取每个主题词对应的多个相近词，并将多个相似词作为第二候选敏感词；基于布隆过滤器，对第一候选敏感词和第二候选敏感词，与敏感语料库中的词语进行匹配；根据匹配结果，识别出待测文本是否为包含敏感信息。

在一些实施例中，利用多个哈希函数对敏感语料库中的每个词语进行哈希计算，将计算结果映射到布隆过滤器的对应位置；利用相同的多个哈希函数对每个第一候选敏感词和第二候选敏感词进行哈希计算，将计算结果映射到布隆过滤器的对应位置；将第一候选敏感词和第二候选敏感词在布隆过滤器的映射位置的数值，与敏感语料库在布隆过滤器的映射位置的数值进行匹配。

在一些实施例中，将与敏感语料库的词语匹配的第一候选敏感词进行数量求和，得到第一和值；将与敏感语料库的词语匹配的第二候选敏感词进行数量求和，得到第二和值；对第一和值和第二和值进行加权计算，得到待测文本的敏感度；若待测文本的敏感度大于敏感度阈值，则识别出待测文本包含敏感信息。

在一些实施例中，基于敏感语料库中的词语对主题模型进行训练，以便将待测文本输入到训练好的主题模型，得到多个主题词；利用深度学习算法，基于敏感语料库中的词语对词向量模型进行训练，以便将每个主题词输入到训练好的词向量模型，得到与每个主题词对应的多个相近词。

在一些实施例中，得到与每个主题词对应的多个相近词包括：计算每个主题词与对应的词向量模型的输出结果中的每个词语间的相似度，将输出结果中相似度大于相似度阈值的词语作为相似词。

根据本公开的另一方面，还提出一种信息识别系统，包括：主题词提取模块，被配置为提取待测文本的多个主题词，并将多个主题词作为第一候选敏感词；相似词获取模块，被配置为获取每个主题词对应的多个相近词，并将多个相似词作为第二候选敏感词；敏感匹配模块，被配置为基于布隆过滤器，对第一候选敏感词和第二候选敏感词，与敏感语料库中的词语进行匹配；敏感识别模块，被配置为根据匹配结果，识别出待测文本是否为包含敏感信息。

在一些实施例中，敏感匹配模块被配置为利用多个哈希函数对敏感语料库中的每个词语进行哈希计算，将计算结果映射到布隆过滤器的对应位置；利用相同的多个哈希函数对每个第一候选敏感词和第二候选敏感词进行哈希计算，将计算结果映射到布隆过滤器的对应位置；将第一候选敏感词和第二候选敏感词在布隆过滤器的映射位置的数值，与敏感语料库在布隆过滤器的映射位置的数值进行匹配。

在一些实施例中，敏感识别模块被配置为将与敏感语料库的词语匹配的第一候选敏感词进行数量求和，得到第一和值；将与敏感语料库的词语匹配的第二候选敏感词进行数量求和，得到第二和值；对第一和值和第二和值进行加权计算，得到待测文本的敏感度；若待测文本的敏感度大于敏感度阈值，则识别出待测文本包含敏感信息。

根据本公开的另一方面，还提出一种信息识别系统，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的信息识别方法。

根据本公开的另一方面，还提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述的信息识别方法。

本公开实施例中，通过对待测文件的语义理解，抽取主题词，然后对主题词进行动态扩展，得到多个语义相近词，并应用布隆过滤器进行语义匹配，识别出待测文本是否为包含敏感信息，提升了信息识别速度。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开的信息识别方法的一些实施例的流程示意图。

图2为本公开的信息识别方法的另一些实施例的流程示意图。

图3为本公开的信息识别系统的一些实施例的结构示意图。

图4为本公开的信息识别系统的另一些实施例的结构示意图。

图5为本公开的信息识别系统的另一些实施例的结构示意图。

图6为本公开的信息识别系统的另一些实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

图1为本公开的信息识别方法的一些实施例的流程示意图。

在步骤110，提取待测文本的多个主题词，并将多个主题词作为第一候选敏感词。即对待测文件进行语义理解，分析出多个主题词。

在一些实施例中，可以基于敏感语料库中的词语对主题模型进行训练，以便将待测文本输入到训练好的主题模型，得到多个主题词。

在一些实施例中，主题模型例如采用隐狄利克雷分布(Latent DirichletAllocation，LDA)模型。在一些实施例中，主题模型还可以采用潜在语义索引(LatentSemantic Indexing，LSI)模型、概率性潜在语义索引(Probabilistic LST,PLST)模型等。

在步骤120，获取每个主题词对应的多个相近词，并将多个相似词作为第二候选敏感词。

在一些实施例中，利用深度学习算法，基于敏感语料库中的词语对词向量模型进行训练，以便将每个主题词输入到训练好的词向量模型，得到与每个主题词对应的多个相近词。

在一些实施例中，词向量模型例如为word2vec词向量模型。

在步骤130，基于布隆过滤器，对第一候选敏感词和第二候选敏感词，与敏感语料库中的词语进行匹配。

在步骤140，根据匹配结果，识别出待测文本是否为包含敏感信息。例如，敏感语料库中存在第一候选敏感词和第二候选敏感词中的一些词语，则识别出该待测文本包含敏感信息。

在上述实施例中，通过对待测文件的语义理解，抽取主题词，然后对主题词进行动态扩展，得到多个语义相近词，并应用布隆过滤器进行语义匹配，识别出待测文本是否为包含敏感信息，提升了信息识别速度。

图2为本公开的信息识别方法的另一些实施例的流程示意图。

在步骤210，采集和敏感词相关的语料文本，构建敏感语料库。

在步骤220，利用N个哈希函数对敏感语料库中的每个词语进行哈希计算，将计算结果映射到布隆过滤器的对应位置。对应位置标记为1。

布隆过滤器是一个很长的二进制向量，例如，假定长度为16的布隆过滤器，则每个位置的默认值为0，对某个词语进行哈希计算后，例如Hash1(词语)＝5，则将第5个位置标记为1，然后计算Hash2(词语)＝2，则将第2个位置标记为1。本领域的技术人员应该理解，该实施例中布隆过滤器的长度仅是用于举例。

在步骤230，基于敏感语料库训练主题模型和词向量模型。

在步骤240，利用主题模型识别待测文本中的主题词，得到预定个数的第一候选敏感词。

例如，得到(x₁,x₂…x_n)等n个主题词，其中，可以根据文本大小和段落数量设置生成的主题个数。

在步骤250，将每个主题词输入到词向量模型，根据每个主题词与对应的词向量模型的输出结果中的每个词语间的相似度，识别出与主题词语义相近的词语，生成第二候选敏感词。

例如，将输出结果中相似度大于相似度阈值的词语作为相似词。例如，利用余弦相似度计算每个第一候选敏感词相似的m个词语，然后，选择前kt个词(y_k1,y_k2…,y_kt)，作为第二候选敏感词，其中，0<kt<＝m，每一个第一候选敏感词对应的第二候选敏感词的个数可以不同。

在步骤260，利用相同的N个哈希函数对每个第一候选敏感词和第二候选敏感词进行哈希计算，将计算结果映射到布隆过滤器的对应位置。

即对(x₁,x₂…x_n，y₁₁,y₁₂…,y_1t…，y_n1,y_n2…,y_nt)中每个词语进行N个哈希函数计算，将映射到布隆过滤器的对应位置标记位1。

在一些实施例中，对第二候选敏感词进行去重处理，减少后续匹配的效率。

在步骤270，将每个第一候选敏感词和每个第二候选敏感词在布隆过滤器的映射位置的数值，与敏感语料库在布隆过滤器的映射位置的数值进行匹配。

例如，某个候选敏感词，经过5个哈希函数计算，映射到布隆过滤器的位置1、5、10、13、28处标记为1，但敏感语料库中的词语映射到布隆过滤器的位置1、10、13处标记为1，位置5、28处标记为0，则说明该候选敏感词与敏感语料库的词语不匹配；若敏感语料库中的词语映射到布隆过滤器的位置1、5、10、13、28处也标记为1，则说明该候选敏感词与敏感语料库的词语匹配。

在步骤280，将与敏感语料库的词语匹配的第一候选敏感词进行数量求和，得到第一和值；将与敏感语料库的词语匹配的第二候选敏感词进行数量求和，得到第二和值。

例如，若第一候选敏感词中有3个词与敏感语料库的词语匹配，则第一和值为3，若第二候选敏感词中有25个词与敏感语料库的词语匹配，则第二和值为25。

在步骤290，对第一和值和第二和值进行加权计算，得到待测文本的敏感度。

例如第一和值p1的权值为q1，第二和值p2的权值为q2，则待测文本的敏感度为q1*p1+q2*p2。

在步骤2100，判断待测文本的敏感度是否大于敏感度阈值，若是，则执行步骤2110，否则，执行步骤2120。该敏感度用于衡量待测文本的敏感程度。

在步骤2110，识别出待测文本包含敏感信息。

在步骤2120，识别出待测文本不包含敏感信息。

在上述实施例中，利用主题模型和词向量模型，从文本的主题词以及主题词的相似词的角度构建候选敏感词，并引入多个哈希函数的布隆过滤器进行词语间的模糊匹配，能够有效提升匹配速度和匹配精度，相比于传统方法，该实施例对未知敏感词具备横好的泛化识别能力。

在一个具体实施例中，例如，待测文本为“今日，某国N*A俱乐部总经理**宣扬某地区暴恐分子的口号，遭到集中批评”。敏感语料库中包含词语“暴力”“山寨”等。通过提取待测文本的主题词，得到“N*A”和“暴恐”两个主题词。“N*A”对应的词向量为“0100…111”，“暴恐”对应的词向量为“1010…0011”。分别将“N*A”“暴恐”输入至词向量模型，得到与“N*A”“暴恐”相似的词语对应的词向量，然后进行词向量之间的余弦相似度比对。例如，“篮球”“某明”“某国”与“N*A”的相似度分别为0.8、0.7、0.3，“暴力”“恐怖”“家暴”与“暴恐”的相似度分别为0.8、0.6、0.4，然后根据相似度阈值，得到候选敏感词为“N*A”“暴恐”“篮球”“暴力”“恐怖”，利用布隆过滤器对候选敏感词与敏感语料库中词语进行匹配，得到该待测文本包含敏感信息。

图3为本公开的信息识别系统的一些实施例的结构示意图。该信息识别系统包括主题词提取模块310、相似词获取模块320、敏感匹配模块330和敏感识别模块340。

主题词提取模块310被配置为提取待测文本的多个主题词，并将多个主题词作为第一候选敏感词。

相似词获取模块320被配置为获取每个主题词对应的多个相近词，并将多个相似词作为第二候选敏感词。

敏感匹配模块330被配置为基于布隆过滤器，对第一候选敏感词和第二候选敏感词，与敏感语料库中的词语进行匹配。

敏感识别模块340被配置为根据匹配结果，识别出待测文本是否为包含敏感信息。

例如，敏感语料库中存在第一候选敏感词和第二候选敏感词中的一些词语，则识别出该待测文本包含敏感信息。

在本公开的另一些实施例中，该信息识别系统还包括语料库构建模块410和模型训练模型420。

语料库构建模块410被配置为采集和敏感词相关的语料文本，构建敏感语料库。

在一些实施例中，敏感匹配模块330被配置为利用N个哈希函数对敏感语料库中的每个词语进行哈希计算，将计算结果映射到布隆过滤器的对应位置。

模型训练模型420被配置为基于敏感语料库训练主题模型和词向量模型。

主题词提取模块310被配置为利用主题模型识别待测文本中的主题词，得到预定个数的第一候选敏感词。

相似词获取模块320被配置为将每个主题词输入到词向量模型，根据每个主题词与对应的词向量模型的输出结果中的每个词语间的相似度，识别出与主题词语义相近的词语，生成第二候选敏感词。

敏感匹配模块330被配置为利用相同的N个哈希函数对每个第一候选敏感词和第二候选敏感词进行哈希计算，将计算结果映射到布隆过滤器的对应位置，将第一候选敏感词和第二候选敏感词在布隆过滤器的映射位置的数值，与敏感语料库在布隆过滤器的映射位置的数值进行匹配。

敏感识别模块340被配置为将与敏感语料库的词语匹配的第一候选敏感词进行数量求和，得到第一和值；将与敏感语料库的词语匹配的第二候选敏感词进行数量求和，得到第二和值；对第一和值和第二和值进行加权计算，得到待测文本的敏感度；若待测文本的敏感度大于敏感度阈值，则识别出待测文本包含敏感信息。

在上述实施例中，利用主题模型和词向量模型，从文本的主题词以及主题词的相似词的角度构建候选敏感词，并引入多个哈希函数的布隆过滤器进行词语间的模糊匹配，能够有效提升匹配速度和匹配精度。

图5为本公开的信息识别系统的另一些实施例的结构示意图。该信息识别系统包括存储器510和处理器520，其中：存储器510可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1、2所对应实施例中的指令。处理器520耦接至存储器510，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器520用于执行存储器中存储的指令。

在一些实施例中，还可以如图6所示，该信息识别系统600包括存储器610和处理器620。处理器620通过BUS总线630耦合至存储器610。该信息识别系统600还可以通过存储接口640连接至外部存储装置660以便调用外部数据，还可以通过网络接口660连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，提升了信息识别速度。

在另一些实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1、2所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种信息识别方法，包括：

提取待测文本的多个主题词，并将多个所述主题词作为第一候选敏感词；

获取每个所述主题词对应的多个相似词，并将所述多个相似词作为第二候选敏感词；

基于布隆过滤器，对所述第一候选敏感词和所述第二候选敏感词，与敏感语料库中的词语进行匹配；

根据匹配结果，识别出所述待测文本是否为包含敏感信息，包括：

将与所述敏感语料库的词语匹配的第一候选敏感词进行数量求和，得到第一和值；

将与所述敏感语料库的词语匹配的第二候选敏感词进行数量求和，得到第二和值；

对所述第一和值和所述第二和值进行加权计算，得到所述待测文本的敏感度；

若所述待测文本的敏感度大于敏感度阈值，则识别出所述待测文本包含敏感信息。

2.根据权利要求1所述的信息识别方法，其中，

利用多个哈希函数对所述敏感语料库中的每个词语进行哈希计算，将计算结果映射到所述布隆过滤器的对应位置；

利用相同的所述多个哈希函数对每个所述第一候选敏感词和所述第二候选敏感词进行哈希计算，将计算结果映射到所述布隆过滤器的对应位置；

将所述第一候选敏感词和所述第二候选敏感词在所述布隆过滤器的映射位置的数值，与敏感语料库在所述布隆过滤器的映射位置的数值进行匹配。

3.根据权利要求1或2所述的信息识别方法，还包括：

基于所述敏感语料库中的词语对主题模型进行训练，以便将所述待测文本输入到训练好的主题模型，得到多个所述主题词；

利用深度学习算法，基于所述敏感语料库中的词语对词向量模型进行训练，以便将每个所述主题词输入到训练好的词向量模型，得到与每个所述主题词对应的多个相似词。

4.根据权利要求3所述的信息识别方法，其中，得到与每个所述主题词对应的多个相似词包括：

计算每个主题词与对应的词向量模型的输出结果中的每个词语间的相似度，将所述输出结果中相似度大于相似度阈值的词语作为相似词。

5.一种信息识别系统，包括：

主题词提取模块，被配置为提取待测文本的多个主题词，并将多个所述主题词作为第一候选敏感词；

相似词获取模块，被配置为获取每个所述主题词对应的多个相似词，并将所述多个相似词作为第二候选敏感词；

敏感匹配模块，被配置为基于布隆过滤器，对所述第一候选敏感词和所述第二候选敏感词，与敏感语料库中的词语进行匹配；

敏感识别模块，被配置为根据匹配结果，识别出所述待测文本是否为包含敏感信息，其中，将与所述敏感语料库的词语匹配的第一候选敏感词进行数量求和，得到第一和值；将与所述敏感语料库的词语匹配的第二候选敏感词进行数量求和，得到第二和值；对所述第一和值和所述第二和值进行加权计算，得到所述待测文本的敏感度；若所述待测文本的敏感度大于敏感度阈值，则识别出所述待测文本包含敏感信息。

6.根据权利要求5所述的信息识别系统，其中，

所述敏感匹配模块被配置为利用多个哈希函数对所述敏感语料库中的每个词语进行哈希计算，将计算结果映射到所述布隆过滤器的对应位置；利用相同的所述多个哈希函数对每个所述第一候选敏感词和所述第二候选敏感词进行哈希计算，将计算结果映射到所述布隆过滤器的对应位置；将所述第一候选敏感词和所述第二候选敏感词在所述布隆过滤器的映射位置的数值，与敏感语料库在所述布隆过滤器的映射位置的数值进行匹配。

7.一种信息识别系统，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至4任一项所述的信息识别方法。

8.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至4任一项所述的信息识别方法。