CN115510500A - 一种文本内容的敏感分析方法及系统 - Google Patents

一种文本内容的敏感分析方法及系统 Download PDF

Info

Publication number
CN115510500A
CN115510500A CN202211447627.2A CN202211447627A CN115510500A CN 115510500 A CN115510500 A CN 115510500A CN 202211447627 A CN202211447627 A CN 202211447627A CN 115510500 A CN115510500 A CN 115510500A
Authority
CN
China
Prior art keywords
sensitive
word
text
keywords
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211447627.2A
Other languages
English (en)
Other versions
CN115510500B (zh
Inventor
胡红亮
杨万波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoke Zhongan Technology Co ltd
Original Assignee
Beijing Guoke Zhongan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guoke Zhongan Technology Co ltd filed Critical Beijing Guoke Zhongan Technology Co ltd
Priority to CN202211447627.2A priority Critical patent/CN115510500B/zh
Publication of CN115510500A publication Critical patent/CN115510500A/zh
Application granted granted Critical
Publication of CN115510500B publication Critical patent/CN115510500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本信息处理技术领域,特别涉及一种文本内容的敏感分析方法及系统,包括,挖掘潜在敏感关键词,对敏感词库进行扩充。构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词。将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。基于所有敏感信息类型,对所述待检测文本进行威胁评级。可以提高对敏感信息类型确定的准确性,进而来提高敏感信息确定文本的威胁情况。

Description

一种文本内容的敏感分析方法及系统
技术领域
本发明涉及文本信息处理技术领域,特别涉及一种文本内容的敏感分析方法及系统。
背景技术
目前,传统的敏感信息检测方式基本采用关键字或正则去匹配响应中的敏感信息,如涉黄、涉暴、涉政等,这些主要依赖安全运营人员的经验对敏感信息进行筛选,由于安全运营人员的经验不一,会导致误报率以及漏报率的概率增加,使得敏感信息类型的确定准确性下降,进而导致对文本所存在的威胁判断出现失误。
因此,本发明提出一种文本内容的敏感分析方法及系统。
发明内容
本发明提供一种文本内容的敏感分析方法及系统,用以通过对词库扩充以及对敏感词进行类别概率值的确定,并筛选最高概率值对应的敏感类别,可以提高对敏感信息类型确定的准确性,进而来提高敏感信息确定文本的威胁情况。
本发明提供一种文本内容的敏感分析方法,包括:
步骤1:挖掘潜在敏感关键词,对敏感词库进行扩充;
步骤2:构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;
步骤3:将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;
步骤4:基于所有敏感信息类型,对所述待检测文本进行威胁评级。
优选的,挖掘潜在敏感关键词,对敏感词库进行扩充,包括:
获取定时更新的敏感数据;
对定时更新的敏感数据进行文本分词,并训练词向量;
将所述词向量进行相似度匹配,提取潜在敏感关键词,对敏感词库进行扩充。
优选的,基于所有敏感信息类型,对所述待检测文本进行威胁评级,包括:
确定所述待检测文本中每个第一敏感词的维度特征;
基于敏感信息分级模型,并结合对应第一敏感词的维度特征,确定对应第一敏感词所匹配的每个维度特征的特征权重;
基于所有第一敏感词的所有特征权重,计算所述待检测文本的文本敏感指数;
按照所述文本敏感指数对所述待检测文本进行评分;
根据评分结果对威胁结果进行评级,并输出与所述待检测文本匹配的威胁标签;
其中,所述威胁标签包括:高危标签、中危标签以及低危标签;
所述维度特征包括:类型维度、同类型数据维度以及敏感严重维度。
优选的,构建关键词树,包括:
确定扩充后的敏感词库中的历史关键词以及新增关键词;
获取每个历史关键词每次历史搜索的被定义结果,构建被定义集合;
分析所述被定义集合,确定对应历史关键词的敏感定义等级,按照等级-优先级转换机制,获取得到对应历史关键词的第一优先级;
获取每个新增关键词的设定标签,按照标签-优先级转换机制,确定每个新增关键词的第二优先级;
根据所述历史关键词以及新增关键词的敏感前缀,进行词层级划分,构建得到初始树;
按照对应历史关键词的第一优先级以及对应新增关键词的第二优先级,输入到所述初始树的对应位置上,构建得到关键词树;
其中,所述新增关键词为潜在敏感关键词。
优选的,分析所述被定义集合,确定对应历史关键词的敏感定义等级,包括:
分析所述被定义集合中存在的同类定义以及每个同类定义包含的被定义次数,同 时,获取每个同类定义中每个被定义结果的定义时间集合
Figure 365642DEST_PATH_IMAGE001
获取
Figure 907481DEST_PATH_IMAGE002
中每个相邻时间段的时间间隔
Figure 141017DEST_PATH_IMAGE003
以及
Figure 502728DEST_PATH_IMAGE004
Figure 479911DEST_PATH_IMAGE005
时间段内对应的总定义次 数,来确定对应同类定义的被定义随机性;
按照被定义次数以及被定义随机性,获取得到对应历史关键词的定义等级;
其中,
Figure 125525DEST_PATH_IMAGE006
表示对应同类定义中第
Figure 529961DEST_PATH_IMAGE007
次被定义结果的定义时间点;
Figure 378969DEST_PATH_IMAGE008
表示对应同 类定义中第
Figure 159843DEST_PATH_IMAGE009
次被定义结果的定义时间点;
Figure 676275DEST_PATH_IMAGE010
表示对应同类定义结果中第
Figure 986034DEST_PATH_IMAGE011
次 被定义结果的定义时间点;
Figure 338649DEST_PATH_IMAGE012
表示对应同类定义结果中第
Figure 657634DEST_PATH_IMAGE013
次被定义结果的定 义时间点。
优选的,将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型,包括:
将每个第一敏感词分别输入到敏感分类模型中,获取得到对应第一敏感词的敏感类别,并分别确定对应第一敏感词基于每个敏感类别的初始概率值;
将所有的初始概率值进行排序,并判断最高概率值是否为一个;
若为一个,将对应最高概率值对应的敏感类别作为第一敏感词的敏感信息类型;
若不为一个,获取最高概率值对应的所有待分析类别以及剩余分析类别;
分别确定每个待分析类别与剩余分析类别的第一匹配程度,同时,分别确定每个待分析类别与余下待分析类别的第二匹配程度;
判断所述第一匹配程度以及第二匹配程度是否满足筛选条件,若满足,筛选得到最佳敏感类别作为对应第一敏感词的敏感信息类型;
若不满足,对所述敏感分类模型的当下识别精度进行精度细化,并按照精度细化后的模型继续对每个待分析类别对应的第一敏感词进行分析,筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。
本发明提供一种文本内容的敏感分析系统,包括:
扩充模块,用于挖掘潜在敏感关键词,对敏感词库进行扩充;
词识别模块,用于构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;
类别确定模块,用于将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;
评级模块,用于基于所有敏感信息类型,对所述待检测文本进行威胁评级。
优选的,所述扩充模块,包括:
数据获取单元,用于获取定时更新的敏感数据;
训练单元,用于对定时更新的敏感数据进行文本分词,并训练词向量;
库扩充单元,用于将所述词向量进行相似度匹配,提取潜在敏感关键词,对敏感词库进行扩充。
本发明提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行任一项所述方法的步骤。
本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行任一项所述方法的步骤。
与现有技术相比,本申请的有益效果如下:
通过对词库扩充以及对敏感词进行类别概率值的确定,并筛选最高概率值对应的敏感类别,可以提高对敏感信息类型确定的准确性,进而来提高敏感信息确定文本的威胁情况。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种文本内容的敏感分析方法的流程图;
图2为本发明实施例中敏感词库的扩充流程图;
图3为本发明实施例中一种文本内容的敏感分析方法的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种文本内容的敏感分析方法,如图1所示,包括:
步骤1:挖掘潜在敏感关键词,对敏感词库进行扩充;
步骤2:构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;
步骤3:将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;
步骤4:基于所有敏感信息类型,对所述待检测文本进行威胁评级。
该实施例中,挖掘潜在敏感关键词从历史文本中挖掘,提取历史文本中的关键词,将包含敏感信息的关键词作为潜在敏感词加入到敏感词库,对敏感词库进行扩充。
该实施例中,关键词树是字典树,又叫单词查找树,是一种树形结构。这里将敏感词库中的所有敏感关键词加入到关键词树中,方便后续对关键词树每个节点对应的敏感关键词进行遍历。
该实施例中,AC自动机算法主要依靠构造一个有限状态机(类似于在一个字典树中添加失配指针)来实现。这些额外的失配指针允许在查找字典树节点对应的敏感关键词失败时进行回退(例如设字典树的敏感关键词国家法律匹配失败,但是字典树中存在另一个敏感关键词国家领土,失配指针就会指向前缀敏感词国家),转向该前缀的其他分支,免于重复匹配前缀,提高遍历字典树的效率。
该实施例中,通过对待检测文本内容和关键词树的敏感关键词分别遍历,然后进行匹配,匹配成功的敏感关键词就是待检测文本的第一敏感词。
该实施例中,对每个第一敏感词进行分类之前需要先构建敏感分类模型,然后将每个第一敏感词分别输入到敏感分类模型中计算每个第一敏感词属于每类敏感信息的概率,概率最大的即为该第一敏感词的敏感类别。
该实施例中,构建敏感分类模型通过bert预训练模型构建。
上述技术方案的有益效果是:通过对词库扩充以及对敏感词进行类别概率值的确定,并筛选最高概率值对应的敏感类别,可以提高对敏感信息类型确定的准确性,进而来提高敏感信息确定文本的威胁情况。
本发明提供一种文本内容的敏感分析方法,如图2所示,挖掘潜在敏感关键词,对敏感词库进行扩充,包括:
步骤21:获取定时更新的敏感数据;
步骤22:对定时更新的敏感数据进行文本分词,并训练词向量;
步骤23:将所述词向量进行相似度匹配,提取潜在敏感关键词,对敏感词库进行扩充。
该实施例中,由于敏感词库是不定时更新的,有些更新的词有作为潜在敏感的必要,有些更新的词没有作为潜在敏感的必要,因此,进行相似度匹配,进行词库扩充。
该实施例中,利用word2vec词向量对敏感词库进行扩充。
上述技术方案的有益效果是:通过训练词向量、相似度匹配,便于提取潜在关键词,实现对敏感词库的有效扩充。
本发明提供一种文本内容的敏感分析方法,基于所有敏感信息类型,对所述待检测文本进行威胁评级,包括:
确定所述待检测文本中每个第一敏感词的维度特征;
基于敏感信息分级模型,并结合对应第一敏感词的维度特征,确定对应第一敏感词所匹配的每个维度特征的特征权重;
基于所有第一敏感词的所有特征权重,计算所述待检测文本的文本敏感指数;
按照所述文本敏感指数对所述待检测文本进行评分;
根据评分结果对威胁结果进行评级,并输出与所述待检测文本匹配的威胁标签;
其中,所述威胁标签包括:高危标签、中危标签以及低危标签;
所述维度特征包括:类型维度、同类型数据维度以及敏感严重维度。
该实施例中,敏感信息分级模型是预先训练好的,且是基于不同敏感词以及对应的维度特征、特征权重为样本训练得到的。
其中,基于所有第一敏感词的所有特征权重,计算所述待检测文本的文本敏感指数,包括:
Figure 762994DEST_PATH_IMAGE014
其中,
Figure 774812DEST_PATH_IMAGE015
指的是维度特征的个数;
Figure 332832DEST_PATH_IMAGE016
指的是待检测文本中第一敏感词的个数;
Figure 455509DEST_PATH_IMAGE017
表示第
Figure 921433DEST_PATH_IMAGE018
个维度特征对应的第
Figure 838573DEST_PATH_IMAGE019
个第一敏感词中的特征权重;
Figure 149469DEST_PATH_IMAGE020
表示指数函 数;
Figure 810257DEST_PATH_IMAGE021
表示文本敏感指数。
该实施例中,基于指数-评分数据表,可以得到文本敏感指数所匹配的待检测文本的评分,且该数据表是预先设置好的。
该实施例中,基于评分-评级数据表,可以得到评分所匹配的待监测文本的评级,且该数据表也是预先设置好的。
上述技术方案的有益效果是:通过确定维度特征并进行特征权重的设置,可以有效计算文本敏感指数,进而进行评分以及评级,可以有效确定出文本的威胁情况。
本发明提供一种文本内容的敏感分析方法,构建关键词树,包括:
确定扩充后的敏感词库中的历史关键词以及新增关键词;
获取每个历史关键词每次历史搜索的被定义结果,构建被定义集合;
分析所述被定义集合,确定对应历史关键词的敏感定义等级,按照等级-优先级转换机制,获取得到对应历史关键词的第一优先级;
获取每个新增关键词的设定标签,按照标签-优先级转换机制,确定每个新增关键词的第二优先级;
根据所述历史关键词以及新增关键词的敏感前缀,进行词层级划分,构建得到初始树;
按照对应历史关键词的第一优先级以及对应新增关键词的第二优先级,输入到所述初始树的对应位置上,构建得到关键词树;
其中,所述新增关键词为潜在敏感关键词。
该实施例中,历史关键词是没对敏感词库进行扩充前敏感词库中已经有的敏感词,新增敏感词是对敏感词库进行扩充时得到的历史文本集合中的一些关键词。
该实施例中,被定义结果是每个历史关键词每次历史搜索时显示的敏感类别,比如一个历史敏感词历史搜索时显示它是涉黄敏感词、涉暴敏感词或涉政敏感词。
该实施例中,敏感定义等级就是对搜索显示的敏感词类别进行等级划分,给不同类型的敏感词划分不同的等级。
该实施例中,等级-优先级转换机制是按照敏感词的等级对每类历史敏感词设置第一优先级,且是包括不同敏感词的等级以及与等级匹配的优先级在内的,敏感词等级越高,历史敏感词第一优先级越高,最后根据第一优先级将历史敏感词加入到关键词树中。
该实施例中,标签优先级转换机制是根据新增关键词过程中对一些关键词的标签设定,来确定不同标签设定的新增关键词的第二优先级,第一标签设定的标定词的第二优先级比第二标签设定的标定词的第二优先级高。
该实施例中,敏感前缀指的是历史关键词和新增关键词中共有的敏感词前缀,历史敏感词和新增敏感词中前几个一样的字组成的敏感词就是它们的敏感前缀。
该实施例中,词层级划分就是根据敏感前缀来进行敏感词分层,历史关键词和新增关键词的敏感前缀关键词划分在该历史敏感词和新增敏感词的上一层,当历史关键词或新增关键词作为敏感前缀的时候,以该历史敏感词和新增敏感词为敏感前缀的敏感关键词划分在该历史关键词和新增关键词的下一层。
该实施例中,初始树只是对树的上下层级结构进行划分,没有加入历史关键词和新增关键词。
该实施例中,将历史关键词根据第一优先级加入到划分好层级的初始树中,将新增关键词根据第二优先级加入到分好层级的初始树中,当所有历史关键词和新增关键词都加入到初始树后,关键词树构建完成。
上述技术方案的有益效果是:构建关键词树可以将历史关键词和新增关键词分别按照优先级加入到关键词树中,根据敏感前缀对关键词树进行层级结构划分,确保每个敏感关键词都加入到关键词树中。
本发明提供一种文本内容的敏感分析方法,分析所述被定义集合,确定对应历史关键词的敏感定义等级,包括:
分析所述被定义集合中存在的同类定义以及每个同类定义包含的被定义次数,同 时,获取每个同类定义中每个被定义结果的定义时间集合
Figure 890209DEST_PATH_IMAGE001
获取
Figure 243830DEST_PATH_IMAGE002
中每个相邻时间段的时间间隔
Figure 527175DEST_PATH_IMAGE003
以及
Figure 991654DEST_PATH_IMAGE004
Figure 926112DEST_PATH_IMAGE005
时间段内对应的总定义次 数,来确定对应同类定义的被定义随机性;
按照被定义次数以及被定义随机性,获取得到对应历史关键词的定义等级;
其中,
Figure 450634DEST_PATH_IMAGE006
表示对应同类定义中第
Figure 470543DEST_PATH_IMAGE007
次被定义结果的定义时间点;
Figure 738713DEST_PATH_IMAGE008
表示对应同 类定义中第
Figure 776945DEST_PATH_IMAGE009
次被定义结果的定义时间点;
Figure 472369DEST_PATH_IMAGE010
表示对应同类定义结果中第
Figure 979573DEST_PATH_IMAGE011
次 被定义结果的定义时间点;
Figure 785855DEST_PATH_IMAGE012
表示对应同类定义结果中第
Figure 694905DEST_PATH_IMAGE013
次被定义结果的定 义时间点。
该实施例中,同类定义指被定义的敏感关键词是同一个类型的敏感词,被定义次数是每一类敏感词被定义的次数,也可以用来表示每一类敏感词的数量,同类敏感词被定义次数越多,该类敏感词数量越多。
该实施例中,每类敏感词的定义时间集合是由该类敏感词中的每个敏感关键词被定义结果时的时间组成。该类敏感词有多少个敏感关键词,定义时间集合的时间点就有多少个。
该实施例中,随机性是偶然性的一种形式,具有某一概率的事件集合中的各个事件所表现出来的不确定性。对于一个随机事件可以探讨其可能出现的概率,反映该事件发生的可能性的大小。这里被定义随机性指每个敏感关键词被定义的时间和每类敏感词的被定义次数的,来确定出现的随机性,由于某些时段某些关键词出现的频率会高有些时段某些关键词出现的频率会低,也就是热度情况,所以会存在出现的随机性,每两个被定义结果为同类敏感词的敏感关键词的定义时间间隔不一定一样。
该实施例中,定义等级根据被定义次数的多少以及被定义随机性的大小进行划分。如果被定义次数越多且被定义随机性越大,则该类定义划分的等级越高,如果被定义次数越少且被定义随机性越小,则该类定义划分的等级越低。
上述技术方案的有益效果是:确定对应历史关键词的敏感定义等级,可以根据敏感定义分级结果设置历史关键词的优先级,以此确定历史关键词加入到关键词树中的顺序。
本发明提供一种文本内容的敏感分析方法,将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型,包括:
将每个第一敏感词分别输入到敏感分类模型中,获取得到对应第一敏感词的敏感类别,并分别确定对应第一敏感词基于每个敏感类别的初始概率值;
将所有的初始概率值进行排序,并判断最高概率值是否为一个;
若为一个,将对应最高概率值对应的敏感类别作为第一敏感词的敏感信息类型;
若不为一个,获取最高概率值对应的所有待分析类别以及剩余分析类别;
分别确定每个待分析类别与剩余分析类别的第一匹配程度,同时,分别确定每个待分析类别与余下待分析类别的第二匹配程度;
判断所述第一匹配程度以及第二匹配程度是否满足筛选条件,若满足,筛选得到最佳敏感类别作为对应第一敏感词的敏感信息类型;
若不满足,对所述敏感分类模型的当下识别精度进行精度细化,并按照精度细化后的模型继续对每个待分析类别对应的第一敏感词进行分析,筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。
该实施例中,用bert预训练模型对每类敏感关键词组成的训练样本集合进行训练,bert模型学习每个训练样本集合的特征,在不同的下游任务上进行训练和测试,得到最终的敏感分类模型。
该实施例中,将每个第一敏感词分别输入敏感模型分类后,利用朴素贝叶斯算法计算每个第一敏感词属于每类敏感关键词的概率。比如一共三类敏感关键词,分别是涉黄敏感词、涉暴敏感词、涉政敏感词,一个第一敏感词属于这三类敏感关键词的概率分别是0.5,0.6,0.7,那么该第一敏感词就是一个涉政敏感词。
该实施例中,如果有两类敏感关键词的概率一样,并且是最大的,则将这两个敏感关键词类别分别与第三个敏感关键词类别进行匹配,得到两个第一匹配程度。同时将这两个敏感关键词类别进行匹配得到第二匹配程度。判断两个第一匹配程度和第二匹配程度是否满足筛选条件,如果有一个第一匹配程度以及第二匹配程度满足筛选条件则该第一匹配程度对应的那个概率最大的敏感关键词类别就是该第一敏感词的敏感类别。
该实施例中,第一匹配程度的筛选条件是待分析类别与剩余分析类别的匹配程度小于0.6。
该实施例中,第二匹配程度的筛选条件是每两个待分析类别的匹配程度大于0.6。
该实施例中,如果第一匹配程度以及第二匹配程度不满足筛选条件,则对所述敏感分类模型的当下识别精度进行精度细化,划分更多的敏感类型,继续计算每个第一敏感词的属于每个敏感类别的概率,筛选最高概率值对应的敏感类别作为该第一敏感词的敏感信息类型。
上述技术方案的有益效果是:通过对第一匹配程度以及第二匹配程度设置筛选条件,可以对敏感分类模型的当下识别精度进行精度细化,更加准确地确定每个第一敏感词的敏感类别。
本发明提供一种文本内容的敏感分析系统,如图3所示,包括:
扩充模块,用于挖掘潜在敏感关键词,对敏感词库进行扩充;
词识别模块,用于构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;
类别确定模块,用于将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;
评级模块,用于基于所有敏感信息类型,对所述待检测文本进行威胁评级。
上述技术方案的有益效果是:通过对词库扩充以及对敏感词进行类别概率值的确定,并筛选最高概率值对应的敏感类别,可以提高对敏感信息类型确定的准确性,进而来提高敏感信息确定文本的威胁情况。
本发明提供一种文本内容的敏感分析系统,所述扩充模块,包括:
数据获取单元,用于获取定时更新的敏感数据;
训练单元,用于对定时更新的敏感数据进行文本分词,并训练词向量;
库扩充单元,用于将所述词向量进行相似度匹配,提取潜在敏感关键词,对敏感词库进行扩充。
上述技术方案的有益效果是:通过训练词向量、相似度匹配,便于提取潜在关键词,实现对敏感词库的有效扩充。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
步骤1:挖掘潜在敏感关键词,对敏感词库进行扩充;
步骤2:构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;
步骤3:将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;
步骤4:基于所有敏感信息类型,对所述待检测文本进行威胁评级。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
步骤1:挖掘潜在敏感关键词,对敏感词库进行扩充;
步骤2:构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;
步骤3:将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;
步骤4:基于所有敏感信息类型,对所述待检测文本进行威胁评级。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种文本内容的敏感分析方法,其特征在于,包括:
步骤1:挖掘潜在敏感关键词,对敏感词库进行扩充;
步骤2:构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;
步骤3:将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;
步骤4:基于所有敏感信息类型,对所述待检测文本进行威胁评级。
2.根据权利要求1所述的文本内容的敏感分析方法,其特征在于,挖掘潜在敏感关键词,对敏感词库进行扩充,包括:
获取定时更新的敏感数据;
对定时更新的敏感数据进行文本分词,并训练词向量;
将所述词向量进行相似度匹配,提取潜在敏感关键词,对敏感词库进行扩充。
3.根据权利要求2所述的文本内容的敏感分析方法,其特征在于,基于所有敏感信息类型,对所述待检测文本进行威胁评级,包括:
确定所述待检测文本中每个第一敏感词的维度特征;
基于敏感信息分级模型,并结合对应第一敏感词的维度特征,确定对应第一敏感词所匹配的每个维度特征的特征权重;
基于所有第一敏感词的所有特征权重,计算所述待检测文本的文本敏感指数;
按照所述文本敏感指数对所述待检测文本进行评分;
根据评分结果对威胁结果进行评级,并输出与所述待检测文本匹配的威胁标签;
其中,所述威胁标签包括:高危标签、中危标签以及低危标签;
所述维度特征包括:类型维度、同类型数据维度以及敏感严重维度。
4.根据权利要求1所述的文本内容的敏感分析方法,其特征在于,构建关键词树,包括:
确定扩充后的敏感词库中的历史关键词以及新增关键词;
获取每个历史关键词每次历史搜索的被定义结果,构建被定义集合;
分析所述被定义集合,确定对应历史关键词的敏感定义等级,按照等级-优先级转换机制,获取得到对应历史关键词的第一优先级;
获取每个新增关键词的设定标签,按照标签-优先级转换机制,确定每个新增关键词的第二优先级;
根据所述历史关键词以及新增关键词的敏感前缀,进行词层级划分,构建得到初始树;
按照对应历史关键词的第一优先级以及对应新增关键词的第二优先级,输入到所述初始树的对应位置上,构建得到关键词树;
其中,所述新增关键词为潜在敏感关键词。
5.根据权利要求4所述的文本内容的敏感分析方法,其特征在于,分析所述被定义集合,确定对应历史关键词的敏感定义等级,包括:
分析所述被定义集合中存在的同类定义以及每个同类定义包含的被定义次数,同时, 获取每个同类定义中每个被定义结果的定义时间集合
Figure 15DEST_PATH_IMAGE001
获取
Figure 559172DEST_PATH_IMAGE002
中每个相邻时间段的时间间隔
Figure 740755DEST_PATH_IMAGE003
以及
Figure 212318DEST_PATH_IMAGE004
Figure 377720DEST_PATH_IMAGE005
时间段内对应的总定义次数,来确定对应同类定义的被定义随机性;
按照被定义次数以及被定义随机性,获取得到对应历史关键词的定义等级;
其中,
Figure 209410DEST_PATH_IMAGE006
表示对应同类定义中第
Figure 42237DEST_PATH_IMAGE007
次被定义结果的定义时间点;
Figure 933970DEST_PATH_IMAGE008
表示对应同类定 义中第
Figure 586668DEST_PATH_IMAGE009
次被定义结果的定义时间点;
Figure 471316DEST_PATH_IMAGE010
表示对应同类定义结果中第
Figure 627491DEST_PATH_IMAGE011
次被定 义结果的定义时间点;
Figure 690125DEST_PATH_IMAGE012
表示对应同类定义结果中第
Figure 830119DEST_PATH_IMAGE013
次被定义结果的定义时间 点。
6.根据权利要求1所述的文本内容的敏感分析方法,其特征在于,将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型,包括:
将每个第一敏感词分别输入到敏感分类模型中,获取得到对应第一敏感词的敏感类别,并分别确定对应第一敏感词基于每个敏感类别的初始概率值;
将所有的初始概率值进行排序,并判断最高概率值是否为一个;
若为一个,将对应最高概率值对应的敏感类别作为第一敏感词的敏感信息类型;
若不为一个,获取最高概率值对应的所有待分析类别以及剩余分析类别;
分别确定每个待分析类别与剩余分析类别的第一匹配程度,同时,分别确定每个待分析类别与余下待分析类别的第二匹配程度;
判断所述第一匹配程度以及第二匹配程度是否满足筛选条件,若满足,筛选得到最佳敏感类别作为对应第一敏感词的敏感信息类型;
若不满足,对所述敏感分类模型的当下识别精度进行精度细化,并按照精度细化后的模型继续对每个待分析类别对应的第一敏感词进行分析,筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。
7.一种文本内容的敏感分析系统,其特征在于,包括:
扩充模块,用于挖掘潜在敏感关键词,对敏感词库进行扩充;
词识别模块,用于构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;
类别确定模块,用于将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;
评级模块,用于基于所有敏感信息类型,对所述待检测文本进行威胁评级。
8.根据权利要求7所述的文本内容的敏感分析系统,其特征在于,所述扩充模块,包括:
数据获取单元,用于获取定时更新的敏感数据;
训练单元,用于对定时更新的敏感数据进行文本分词,并训练词向量;
库扩充单元,用于将所述词向量进行相似度匹配,提取潜在敏感关键词,对敏感词库进行扩充。
9.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
CN202211447627.2A 2022-11-18 2022-11-18 一种文本内容的敏感分析方法及系统 Active CN115510500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211447627.2A CN115510500B (zh) 2022-11-18 2022-11-18 一种文本内容的敏感分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211447627.2A CN115510500B (zh) 2022-11-18 2022-11-18 一种文本内容的敏感分析方法及系统

Publications (2)

Publication Number Publication Date
CN115510500A true CN115510500A (zh) 2022-12-23
CN115510500B CN115510500B (zh) 2023-02-28

Family

ID=84513726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211447627.2A Active CN115510500B (zh) 2022-11-18 2022-11-18 一种文本内容的敏感分析方法及系统

Country Status (1)

Country Link
CN (1) CN115510500B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680419A (zh) * 2023-08-01 2023-09-01 国家计算机网络与信息安全管理中心 一种多源数据映射关联细粒度不良信息检测方法
CN117076963A (zh) * 2023-10-17 2023-11-17 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法
CN117077678A (zh) * 2023-10-13 2023-11-17 河北神玥软件科技股份有限公司 一种敏感词识别方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184817A1 (en) * 2010-01-28 2011-07-28 Yahoo!, Inc. Sensitivity Categorization of Web Pages
CN111414520A (zh) * 2020-03-19 2020-07-14 南京莱斯网信技术研究院有限公司 一种舆情信息中敏感信息的智能挖掘系统
CN114385775A (zh) * 2021-12-29 2022-04-22 南京视察者智能科技有限公司 一种基于大数据的敏感词识别方法
CN115129913A (zh) * 2022-07-18 2022-09-30 广州欢聚时代信息科技有限公司 敏感词挖掘方法及其装置、设备、介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184817A1 (en) * 2010-01-28 2011-07-28 Yahoo!, Inc. Sensitivity Categorization of Web Pages
CN111414520A (zh) * 2020-03-19 2020-07-14 南京莱斯网信技术研究院有限公司 一种舆情信息中敏感信息的智能挖掘系统
CN114385775A (zh) * 2021-12-29 2022-04-22 南京视察者智能科技有限公司 一种基于大数据的敏感词识别方法
CN115129913A (zh) * 2022-07-18 2022-09-30 广州欢聚时代信息科技有限公司 敏感词挖掘方法及其装置、设备、介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680419A (zh) * 2023-08-01 2023-09-01 国家计算机网络与信息安全管理中心 一种多源数据映射关联细粒度不良信息检测方法
CN116680419B (zh) * 2023-08-01 2023-12-26 国家计算机网络与信息安全管理中心 一种多源数据映射关联细粒度不良信息检测方法
CN117077678A (zh) * 2023-10-13 2023-11-17 河北神玥软件科技股份有限公司 一种敏感词识别方法、装置、设备及介质
CN117077678B (zh) * 2023-10-13 2023-12-29 河北神玥软件科技股份有限公司 一种敏感词识别方法、装置、设备及介质
CN117076963A (zh) * 2023-10-17 2023-11-17 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法
CN117076963B (zh) * 2023-10-17 2024-01-02 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法

Also Published As

Publication number Publication date
CN115510500B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN115510500B (zh) 一种文本内容的敏感分析方法及系统
Trstenjak et al. KNN with TF-IDF based framework for text categorization
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
CN107798033B (zh) 一种公安领域案件文本的分类方法
CN109547423A (zh) 一种基于机器学习的web恶意请求深度检测系统及方法
CN112131352A (zh) 一种网页文本类不良信息的检测方法与检测系统
CN109271640B (zh) 文本信息的地域属性识别方法及装置、电子设备
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN111832290A (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN112836039B (zh) 基于深度学习的语音数据处理方法和装置
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
Mohanty et al. Resumate: A prototype to enhance recruitment process with NLP based resume parsing
CN113032584A (zh) 一种实体关联方法、装置、电子设备及存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115473726A (zh) 一种识别域名的方法及装置
Mukherjee et al. Analyzing large news corpus using text mining techniques for recognizing high crime prone areas
Ningsih et al. Global recession sentiment analysis utilizing VADER and ensemble learning method with word embedding
CN117216275A (zh) 一种文本处理方法、装置、设备以及存储介质
CN117216687A (zh) 一种基于集成学习的大语言模型生成文本检测方法
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
CN110348497A (zh) 一种基于WT-GloVe词向量构建的文本表示方法
CN115994531A (zh) 一种多维度文本综合辨识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant