CN110727766A - 敏感词的检测方法 - Google Patents
敏感词的检测方法 Download PDFInfo
- Publication number
- CN110727766A CN110727766A CN201910991407.8A CN201910991407A CN110727766A CN 110727766 A CN110727766 A CN 110727766A CN 201910991407 A CN201910991407 A CN 201910991407A CN 110727766 A CN110727766 A CN 110727766A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- words
- text
- detected
- sensitive word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种敏感词的检测方法,包括以下步骤:建立敏感词数据库,分为强敏感词数据库和弱敏感词数据库;建立训练模型,训练模型包括预判模型和弱敏感词的检测模型;进行检测,载入训练模型的系统定时爬取待检测网页内容,预判模型判断待检测文本中的词语是否属于敏感词数据库中,并判断其敏感类型;若待检测文本中的词语为强敏感词数据库中的强敏感词,则直接反馈待检测文本所属的强敏感词数据库的类型;若待检测文本中的词语为弱敏感词数据库中的弱敏感词,则将待检测文本输入弱敏感词的检测模型进行检测,由弱敏感词的检测模型判断其敏感可疑度分值并反馈。本发明通过设置预判和检测模型进行判断和检测,提高了敏感词检测的准确性和灵活性。
Description
技术领域
本发明涉及网络安全技术领域,特别涉及一种敏感词的检测方法。
背景技术
为了维护网络的健康环境,凡是涉及到网站的内容发布、评论发布等都需 要先进行敏感词检测,防止有不合适的词语出现,这些词语可能包括淫秽类、 博彩类以及反动类等。除了传统的网站更新和评论更新外,网站也可能被恶意 攻击者入侵,在网页上植入一些非法的暗链、广告以及标语等。往往这些恶意 植入都会包含大量敏感信息内容,对于网站管理者通常会选用的检测手段就是 敏感词检测。
传统敏感词检测方式多是基于名单机制的正则匹配,而对于具有多种语义 级别的敏感词则无法准确检出,此种方法仅针对单个敏感词做检测,会造成误 判。例如“黄色”在色情网站中属于淫秽词语,但在正常网站也会经常出现, 比如“黄色的花朵”;例如“小姐”在一些色情广告中属于敏感词语,但在一 些正常文章中也会出现,比如“小姐姐”;再例如本身就属于敏感词语的,但 若是前面跟着否定类词语,在语境上就不应识别为敏感词。此外目前仅有少部 分现有技术中提到使用语义识别概念,但使用的是传统机器学算法对全部敏感 词做模型训练,此种方式没有区分敏感词的类型,所有的敏感词检测都采用同一种方式,不能针对不同的敏感词采用不同的检测方式,增大了检测开销,且 检测准确度较低。
因此,有必要提供一种新的敏感词的检测方法,提供训练模型以提高敏感 词检测的准确性和灵活性。
发明内容
本发明的目的在于提供一种新的敏感词的检测方法,提供训练模型以提高 敏感词检测的准确性和灵活性
为了解决现有技术中存在的问题,本发明提供了一种敏感词的检测方法, 包括以下步骤:
建立敏感词数据库,所述敏感词数据库根据敏感类型分为强敏感词数据库 和弱敏感词数据库;
建立训练模型,所述训练模型包括预判模型和弱敏感词的检测模型,其中, 所述预判模型用于判断待检测文本的敏感类型;设立所述弱敏感词的检测模型 包括:根据所述弱敏感词数据库中的弱敏感词进行检索得到敏感词网页,获取 敏感词网页中包含有弱敏感词的文本信息;对所述文本信息进行打标,采用打 标后的文本信息建立弱敏感词的检测模型;
进行检测,载入所述训练模型的系统定时爬取待检测的网页内容,所述预 判模型判断待检测网页内待检测文本中的词语是否属于敏感词数据库中,并判 断其敏感类型;若待检测文本中的词语为强敏感词数据库中的强敏感词,则直 接反馈待检测文本所属的强敏感词数据库的类型;若待检测文本中的词语为弱 敏感词数据库中的弱敏感词,则将待检测文本输入弱敏感词的检测模型进行检 测,由弱敏感词的检测模型判断其敏感可疑度分值并反馈。
可选的,在所述敏感词的检测方法中,所述强敏感词数据库中的强敏感词 为在任何前后文语义下都敏感的词语,所述强敏感词数据库中的种类包括淫秽 强敏感词库、博彩强敏感词库以及商广强敏感词库;
所述弱敏感词数据库中的弱敏感词为在不同语义下具有不同解释,且具有 至少一种解释导致敏感,也具有至少一种解释导致不敏感的词语,所述弱敏感 词数据库中的种类包括淫秽弱敏感词库、博彩弱敏感词库以及商广弱敏感词库。
可选的,在所述敏感词的检测方法中,获取包含有弱敏感词的文本信息包 括以下步骤:
以弱敏感词为中心词做前后文本均匀扩展,以标点符号为停止扩展信号。
可选的,在所述敏感词的检测方法中,打标包括以下步骤:
判断所述文本信息是否敏感,将敏感和不敏感的文本信息分别标记。
可选的,在所述敏感词的检测方法中,建立弱敏感词的检测模型之前,还 包括以下步骤:
将打标后的文本信息进行拆分和过滤,以得到每条文本信息中具有语义的 所有词语。
可选的,在所述敏感词的检测方法中,建立弱敏感词的检测模型包括以下 步骤:
将各条文本信息中具有语义的所有词语归属于各自的训练文本单元中,根 据弱敏感词数据库的种类对每条训练文本单元进行分类;
分别将属于各个种类的弱敏感词库的训练文本单元进行向量化;
采用LSTM网络根据向量化后的训练文本单元建立弱敏感词的检测模型。
可选的,在所述敏感词的检测方法中,建立所述预判模型包括建立多模式 匹配算法,建立多模式匹配算法包括以下步骤:
预设数组长度:取所述每个种类强敏感词库中存储数据的最大容量值,设 为第一预设值a,取所述强敏感词库的种类数量的最大值,设为第二预设值x, 取所述每个种类弱敏感词库中存储数据的最大容量值,设为第三预设值b,取所 述弱敏感词库的种类数量的最大值,设为第四预设值y,数组长度 L=max(a,b)*(x+y);
建立数组:将所有种类的强敏感词库中的数据以及所有种类的弱敏感词库 中的数据依次导入数组中,并将依次导入的数据按照种类分段,并将每段的名 称确定为其对应的种类名称。
可选的,在所述敏感词的检测方法中,进行检测过程中,所述预判模型判 断待检测网页内待检测文本中的词语的敏感类型包括以下步骤:
输入待检测网页内的待检测文本,根据多模式匹配算法中数组检索得到索 引下标z;
计算得到索引下标z的所属段的方式为:计算z/max(a,b),对计算结果向上 取整;
根据计算得到的所属段匹配对应的敏感词库的种类名称,即判断出待检测 文本中的词语的敏感类型。
可选的,在所述敏感词的检测方法中,进行检测过程中,将待检测文本输 入弱敏感词的检测模型进行检测包括以下步骤:
将待检测文本进行拆分和过滤,得到待检测文本单元;
将待检测文本单元进行向量化;
将向量化后的待检测文本单元输入弱敏感词的检测模型,由所述弱敏感词 的检测模型输出敏感可疑度分值;
若敏感可疑度分值大于预设阈值,则反馈待检测文本所属的弱敏感词数据 库的类型和敏感可疑度分值,若敏感可疑度分值小于预设阈值,则反馈待检测 文本不包含敏感词。
可选的,在所述敏感词的检测方法中,所述敏感词的检测方法还包括误报 处理,所述误报处理包括以下步骤:
用户反馈出现误报;
复核误报是否真实,若误报真实,则将误报词语采用建立训练模型的步骤 进行二次训练;若误报不真实,则不再进行训练,结束误报处理。
在本发明所提供的敏感词的检测方法中,通过建立训练模型中的预判模型, 对待检测文本实现最初步的判断,判断待检测文本所包含的词语是否属于敏感 词数据库,判断其属于强敏感词数据库还是弱敏感词数据库,并且还能判断其 属于强敏感词数据库或弱敏感词数据库中的哪一种类;进一步通过建立弱敏感 词的检测模型,将预判为包含弱敏感词的待检测文本进行进一步的检测和辨别, 从词语或语句的语义上进行检测判断,从而实现了在不同语义下具有不同解释 的词语的检测,增加了检测的准确性和灵活性,降低了误判。
附图说明
图1为本发明实施例提供的建立弱敏感词的检测模型的流程图。
图2为本发明实施例提供的检测流程图。
具体实施方式
下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列 描述,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形 式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
在下文中,如果本文所述的方法包括一系列步骤,本文所呈现的这些步骤 的顺序并非必须是可执行这些步骤的唯一顺序,且一些所述的步骤可被省略和/ 或一些本文未描述的其他步骤可被添加到该方法。
传统敏感词检测方式多是基于名单机制的正则匹配,而对于具有多种语义 级别的敏感词则无法准确检出,此种方法仅针对单个敏感词做检测,会造成误 判。此外目前仅有少部分现有技术中提到使用语义识别概念,但使用的是传统 机器学算法对全部敏感词做模型训练,此种方式没有区分敏感词的类型,所有 的敏感词检测都采用同一种方式,不能针对不同的敏感词采用不同的检测方式, 增大了检测开销,且检测准确度较低。
因此有必要提供一种敏感词的检测方法,包括以下步骤:
建立敏感词数据库,所述敏感词数据库根据敏感类型分为强敏感词数据库 和弱敏感词数据库;
建立训练模型,所述训练模型包括预判模型和弱敏感词的检测模型,其中, 所述预判模型用于判断待检测文本的敏感类型;设立所述弱敏感词的检测模型 包括:根据所述弱敏感词数据库中的弱敏感词进行检索得到敏感词网页,获取 敏感词网页中包含有弱敏感词的文本信息;对所述文本信息进行打标,采用打 标后的文本信息建立弱敏感词的检测模型;
进行检测,载入所述训练模型的系统定时爬取待检测的网页内容,所述预 判模型判断待检测网页内待检测文本中的词语是否属于敏感词数据库中,并判 断其敏感类型;若待检测文本中的词语为强敏感词数据库中的强敏感词,则直 接反馈待检测文本所属的强敏感词数据库的类型;若待检测文本中的词语为弱 敏感词数据库中的弱敏感词,则将待检测文本输入弱敏感词的检测模型进行检 测,由弱敏感词的检测模型判断其敏感可疑度分值并反馈。
本发明通过建立训练模型中的预判模型,对待检测文本实现最初步的判断, 判断待检测文本所包含的词语是否属于敏感词数据库,判断其属于强敏感词数 据库还是弱敏感词数据库,并且还能判断其属于强敏感词数据库或弱敏感词数 据库中的哪一种类;进一步通过建立弱敏感词的检测模型,将预判为包含弱敏 感词的待检测文本进行进一步的检测和辨别,从词语或语句的语义上进行检测 判断,从而实现了在不同语义下具有不同解释的词语的检测,增加了检测的准 确性和灵活性,降低了误判。
具体的,所述强敏感词数据库中的强敏感词为在任何前后文语义下都敏感 的词语,例如,可以将长度大于4个字符的词语定义为强敏感词,也可以将词 语导入搜索引擎进行查询(如百度搜索引擎等,这类搜索引擎对非法词语做了 过滤),无法搜索到内容的词语定义为强敏感词,还可以人工根据具体情况自 定义强敏感词。所述强敏感词数据库中的种类可以根据安全专家经验和业务需 求等设立,例如包括淫秽强敏感词库、博彩强敏感词库以及商广强敏感词库, 若有需要,还可以再定义更多其他种类的敏感词库。
所述弱敏感词数据库中的弱敏感词为在不同语义下具有不同解释,且具有 至少一种解释导致敏感,也具有至少一种解释导致不敏感的词语,例如背景技 术中所举例的“黄色”,“小姐”等词语,均是在不同语义下具有不同解释, 一般来说,敏感词中除去强敏感词就都是弱敏感词。所述弱敏感词数据库中的 种类可以根据安全专家经验和业务需求等设立,例如包括淫秽弱敏感词库、博 彩弱敏感词库以及商广弱敏感词库,若有需要,还可以再定义更多其他种类的 敏感词库。
进一步的,建立所述预判模型包括建立多模式匹配算法,建立多模式匹配 算法包括以下步骤:
预设数组长度:取所述每个种类强敏感词库中存储数据的最大容量值,设 为第一预设值a,取所述强敏感词库的种类数量的最大值,设为第二预设值x, 取所述每个种类弱敏感词库中存储数据的最大容量值,设为第三预设值b,取所 述弱敏感词库的种类数量的最大值,设为第四预设值y,数组长度 L=max(a,b)*(x+y);
建立数组:将所有种类的强敏感词库中的数据以及所有种类的弱敏感词库 中的数据依次导入数组中,并将依次导入的数据按照种类分段,并将每段的名 称确定为其对应的种类名称。
接着建立弱敏感词的检测模型,如图1所示,图1为本发明实施例提供的 建立弱敏感词的检测模型的流程图,包括以下步骤:
根据所述弱敏感词数据库中的弱敏感词进行检索得到敏感词网页,可以采 用谷歌等不会对敏感词做限制的搜索引擎,以获取敏感词网页中包含有弱敏感 词的文本信息;对所述文本信息进行打标,采用打标后的文本信息建立弱敏感 词的检测模型。
其中,获取包含有弱敏感词的文本信息包括以下步骤:以弱敏感词为中心 词做前后文本均匀扩展,以标点符号为停止扩展信号,例如可以提取以逗号、 句号、分号、问号或感叹号结尾的完整一句话为一条文本信息,以最大限度的 保留训练所用的文本信息。优选的,所述文本信息的长度大于10个字符,小于 200个字符,大于200个字符的部分进行截断。
进一步的,打标包括以下步骤:判断所述文本信息是否敏感,将敏感和不 敏感的文本信息分别标记,例如打标为1代表此文本信息是真实敏感词,打标 为0代表此文本信息是非敏感词,在一个实施例中,针对淫秽弱敏感词库的淫 秽弱敏感词“乳房”,对于文本信息“下面告诉你怎样抚摸女性乳房的步骤”, 应标注为1,对于文本信息“X线照相技术是当前最有效的乳房癌症显影技术”, 应标注为0。并且,建立弱敏感词的检测模型之前,还需要将打标后的文本信息 进行拆分和过滤,过滤掉噪音词或停用词等无实际语义的词语,以得到每条文 本信息中具有语义的所有词语。
优选的,建立弱敏感词的检测模型包括以下步骤:
首先,将各条文本信息中具有语义的所有词语归属于各自的训练文本单元 中,根据弱敏感词数据库的种类对每条训练文本单元进行分类,如分为淫秽弱 敏感词训练文本单元、博彩弱敏感词训练文本单元以及商广弱敏感词训练文本 单元,每个种类的弱敏感词库训练文本单元中包括多条训练文本单元;
其次,分别将属于各个种类的弱敏感词库的训练文本单元进行向量化,例 如可以采用word2vec模型将训练文本单元转为dm维度词向量;
最后,采用LSTM网络根据向量化后的训练文本单元建立弱敏感词的检测 模型,具体方式可以如下:将向量化后的训练文本单元连接到LSTM网络,将 LSTM网络层输出加上位置编码后进行attention操作,然后,attention之后的输 出进行池化操作,并且连接到普通的全连接前反馈神经网络层,全连接层的输 出连接一个sigmoid层实现二分类的概率输出,从而建立弱敏感词的检测模型。
在本发明所提供的敏感词的检测方法中,检测流程如图2所示,图2为本 发明实施例提供的检测流程图,首先进行预判,所述预判模型判断待检测网页 内待检测文本中的词语的敏感类型包括以下步骤:
采用网络爬虫定时爬取待检测的网页内容,获取待检测网页内的待检测文 本,定时爬取以确保定时多次执行敏感词的检测。
输入待检测文本,根据多模式匹配算法中数组检索得到索引下标z;
计算得到索引下标z的所属段的方式为:计算z/max(a,b),对计算结果向上 取整;
根据计算得到的所属段匹配对应的敏感词库的种类名称,即判断出待检测 文本中的词语的敏感类型,例如根据所属段得知对应的敏感词库为淫秽强敏感 词库、博彩强敏感词库或商广强敏感词库,即可知道待检测文本中的词语属于 强敏感词数据库,且敏感种类为淫秽强敏感词库、博彩强敏感词库或商广强敏 感词库。若属于强敏感词数据库,则可以直接将检测结果返回到前端界面展示。 例如根据所属段得知对应的敏感词库为淫秽弱敏感词库、博彩弱敏感词库或商 广弱敏感词库,即可知道待检测文本中的词语属于弱敏感词数据库,且敏感种 类为淫秽弱敏感词库、博彩弱敏感词库或商广弱敏感词库。若属于弱敏感词数 据库,则进行弱敏感词的进一步检测。
进一步的,若待检测文本属于弱敏感词数据库,则将待检测文本输入弱敏 感词的检测模型进行检测,包括以下步骤:
将待检测文本进行拆分和过滤,用于过滤掉噪音词或停用词等无实际语义 的词语,以得到每条待检测文本中具有语义的所有词语,从而得到待检测文本 单元;
将待检测文本单元进行向量化,例如可以采用word2vec模型将待检测文本 单元转为dm维度词向量;
将向量化后的待检测文本单元输入弱敏感词的检测模型,由所述弱敏感词 的检测模型输出敏感可疑度分值;
定义一个预设阈值,所述预设阈值可以是根据安全专家经验预设的,若敏 感可疑度分值大于预设阈值,则反馈待检测文本所属的弱敏感词数据库的类型 和敏感可疑度分值,若敏感可疑度分值小于预设阈值,则反馈待检测文本不包 含敏感词。
优选的,所述敏感词的检测方法还包括误报处理,所述误报处理包括以下 步骤:
用户反馈出现误报;
复核误报是否真实,若误报真实,则将误报词语采用建立训练模型的步骤 进行二次训练;若误报不真实,则不再进行训练,结束误报处理。
综上,在本发明所提供的敏感词的检测方法中,通过建立训练模型中的预 判模型,对待检测文本实现最初步的判断,判断待检测文本所包含的词语是否 属于敏感词数据库,判断其属于强敏感词数据库还是弱敏感词数据库,并且还 能判断其属于强敏感词数据库或弱敏感词数据库中的哪一种类;进一步通过建 立弱敏感词的检测模型,将预判为包含弱敏感词的待检测文本进行进一步的检 测和辨别,从词语或语句的语义上进行检测判断,从而实现了在不同语义下具 有不同解释的词语的检测,增加了检测的准确性和灵活性,降低了误判。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任 何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明 揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离 本发明的技术方案的内容,仍属于本发明的保护范围之内。
Claims (10)
1.一种敏感词的检测方法,其特征在于,包括以下步骤:
建立敏感词数据库,所述敏感词数据库根据敏感类型分为强敏感词数据库和弱敏感词数据库;
建立训练模型,所述训练模型包括预判模型和弱敏感词的检测模型,其中,所述预判模型用于判断待检测文本的敏感类型;设立所述弱敏感词的检测模型包括:根据所述弱敏感词数据库中的弱敏感词进行检索得到敏感词网页,获取敏感词网页中包含有弱敏感词的文本信息;对所述文本信息进行打标,采用打标后的文本信息建立弱敏感词的检测模型;
进行检测,载入所述训练模型的系统定时爬取待检测的网页内容,所述预判模型判断待检测网页内待检测文本中的词语是否属于敏感词数据库中,并判断其敏感类型;若待检测文本中的词语为强敏感词数据库中的强敏感词,则直接反馈待检测文本所属的强敏感词数据库的类型;若待检测文本中的词语为弱敏感词数据库中的弱敏感词,则将待检测文本输入弱敏感词的检测模型进行检测,由弱敏感词的检测模型判断其敏感可疑度分值并反馈。
2.如权利要求1所述的敏感词的检测方法,其特征在于,所述强敏感词数据库中的强敏感词为在任何前后文语义下都敏感的词语,所述强敏感词数据库中的种类包括淫秽强敏感词库、博彩强敏感词库以及商广强敏感词库;
所述弱敏感词数据库中的弱敏感词为在不同语义下具有不同解释,且具有至少一种解释导致敏感,也具有至少一种解释导致不敏感的词语,所述弱敏感词数据库中的种类包括淫秽弱敏感词库、博彩弱敏感词库以及商广弱敏感词库。
3.如权利要求1所述的敏感词的检测方法,其特征在于,获取包含有弱敏感词的文本信息包括以下步骤:
以弱敏感词为中心词做前后文本均匀扩展,以标点符号为停止扩展信号。
4.如权利要求1所述的敏感词的检测方法,其特征在于,打标包括以下步骤:
判断所述文本信息是否敏感,将敏感和不敏感的文本信息分别标记。
5.如权利要求2所述的敏感词的检测方法,其特征在于,打标之后,建立弱敏感词的检测模型之前,还包括以下步骤:
将打标后的文本信息进行拆分和过滤,以得到每条文本信息中具有语义的所有词语。
6.如权利要求5所述的敏感词的检测方法,其特征在于,建立弱敏感词的检测模型包括以下步骤:
将各条文本信息中具有语义的所有词语归属于各自的训练文本单元中,根据弱敏感词数据库的种类对每条训练文本单元进行分类;
分别将属于各个种类的弱敏感词库的训练文本单元进行向量化;
采用LSTM网络根据向量化后的训练文本单元建立弱敏感词的检测模型。
7.如权利要求2所述的敏感词的检测方法,其特征在于,建立所述预判模型包括建立多模式匹配算法,建立多模式匹配算法包括以下步骤:
预设数组长度:取所述每个种类强敏感词库中存储数据的最大容量值,设为第一预设值a,取所述强敏感词库的种类数量的最大值,设为第二预设值x,取所述每个种类弱敏感词库中存储数据的最大容量值,设为第三预设值b,取所述弱敏感词库的种类数量的最大值,设为第四预设值y,数组长度L=max(a,b)*(x+y);
建立数组:将所有种类的强敏感词库中的数据以及所有种类的弱敏感词库中的数据依次导入数组中,并将依次导入的数据按照种类分段,并将每段的名称确定为其对应的种类名称。
8.如权利要求7所述的敏感词的检测方法,其特征在于,进行检测过程中,所述预判模型判断待检测网页内待检测文本中的词语的敏感类型包括以下步骤:
输入待检测网页内的待检测文本,根据多模式匹配算法中数组检索得到索引下标z;
计算得到索引下标z的所属段的方式为:计算z/max(a,b),对计算结果向上取整;
根据计算得到的所属段匹配对应的敏感词库的种类名称,即判断出待检测文本中的词语的敏感类型。
9.如权利要求2所述的敏感词的检测方法,其特征在于,进行检测过程中,将待检测文本输入弱敏感词的检测模型进行检测包括以下步骤:
将待检测文本进行拆分和过滤,得到待检测文本单元;
将待检测文本单元进行向量化;
将向量化后的待检测文本单元输入弱敏感词的检测模型,由所述弱敏感词的检测模型输出敏感可疑度分值;
若敏感可疑度分值大于预设阈值,则反馈待检测文本所属的弱敏感词数据库的类型和敏感可疑度分值,若敏感可疑度分值小于预设阈值,则反馈待检测文本不包含敏感词。
10.如权利要求1所述的敏感词的检测方法,其特征在于,所述敏感词的检测方法还包括误报处理,所述误报处理包括以下步骤:
用户反馈出现误报;
复核误报是否真实,若误报真实,则将误报词语采用建立训练模型的步骤进行二次训练;若误报不真实,则不再进行训练,结束误报处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910991407.8A CN110727766B (zh) | 2019-10-18 | 2019-10-18 | 敏感词的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910991407.8A CN110727766B (zh) | 2019-10-18 | 2019-10-18 | 敏感词的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110727766A true CN110727766A (zh) | 2020-01-24 |
CN110727766B CN110727766B (zh) | 2023-04-28 |
Family
ID=69220274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910991407.8A Active CN110727766B (zh) | 2019-10-18 | 2019-10-18 | 敏感词的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110727766B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN112036187A (zh) * | 2020-07-09 | 2020-12-04 | 上海极链网络科技有限公司 | 一种结合上下文语境的视频弹幕文本审核方法及系统 |
CN112464661A (zh) * | 2020-11-25 | 2021-03-09 | 马上消费金融股份有限公司 | 模型训练方法、语音对话检测方法及相关设备 |
CN112631436A (zh) * | 2020-12-22 | 2021-04-09 | 科大讯飞股份有限公司 | 输入法敏感词的过滤方法及装置 |
CN112925881A (zh) * | 2021-02-01 | 2021-06-08 | 大箴(杭州)科技有限公司 | 敏感性弹幕的检测方法、装置、计算机设备及存储介质 |
CN113111173A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的接警警情类别确定方法和装置 |
CN113111235A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的作案手段识别方法与装置、设备及介质 |
CN113705225A (zh) * | 2021-09-07 | 2021-11-26 | 北京北大方正电子有限公司 | 敏感词数据处理方法、装置和电子设备 |
CN115017904A (zh) * | 2022-07-08 | 2022-09-06 | 河南省信息中心 | 一种基于大数据的信息处理方法和信息处理系统 |
CN117313695A (zh) * | 2023-09-01 | 2023-12-29 | 鹏城实验室 | 文本敏感性检测方法、装置、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080168135A1 (en) * | 2007-01-05 | 2008-07-10 | Redlich Ron M | Information Infrastructure Management Tools with Extractor, Secure Storage, Content Analysis and Classification and Method Therefor |
CN104598595A (zh) * | 2015-01-23 | 2015-05-06 | 安一恒通(北京)科技有限公司 | 欺诈网页检测方法及相应装置 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN106789888A (zh) * | 2016-11-18 | 2017-05-31 | 重庆邮电大学 | 一种多特征融合的钓鱼网页检测方法 |
-
2019
- 2019-10-18 CN CN201910991407.8A patent/CN110727766B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080168135A1 (en) * | 2007-01-05 | 2008-07-10 | Redlich Ron M | Information Infrastructure Management Tools with Extractor, Secure Storage, Content Analysis and Classification and Method Therefor |
CN104598595A (zh) * | 2015-01-23 | 2015-05-06 | 安一恒通(北京)科技有限公司 | 欺诈网页检测方法及相应装置 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN106789888A (zh) * | 2016-11-18 | 2017-05-31 | 重庆邮电大学 | 一种多特征融合的钓鱼网页检测方法 |
Non-Patent Citations (1)
Title |
---|
明弋洋;刘晓洁;: "基于短语级情感分析的不良信息检测方法" * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111173A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的接警警情类别确定方法和装置 |
CN113111235A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的作案手段识别方法与装置、设备及介质 |
CN112036187A (zh) * | 2020-07-09 | 2020-12-04 | 上海极链网络科技有限公司 | 一种结合上下文语境的视频弹幕文本审核方法及系统 |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN112464661A (zh) * | 2020-11-25 | 2021-03-09 | 马上消费金融股份有限公司 | 模型训练方法、语音对话检测方法及相关设备 |
CN112464661B (zh) * | 2020-11-25 | 2021-08-31 | 马上消费金融股份有限公司 | 模型训练方法、语音对话检测方法及相关设备 |
CN112631436A (zh) * | 2020-12-22 | 2021-04-09 | 科大讯飞股份有限公司 | 输入法敏感词的过滤方法及装置 |
CN112631436B (zh) * | 2020-12-22 | 2024-04-30 | 科大讯飞股份有限公司 | 输入法敏感词的过滤方法及装置 |
CN112925881A (zh) * | 2021-02-01 | 2021-06-08 | 大箴(杭州)科技有限公司 | 敏感性弹幕的检测方法、装置、计算机设备及存储介质 |
CN113705225A (zh) * | 2021-09-07 | 2021-11-26 | 北京北大方正电子有限公司 | 敏感词数据处理方法、装置和电子设备 |
CN115017904A (zh) * | 2022-07-08 | 2022-09-06 | 河南省信息中心 | 一种基于大数据的信息处理方法和信息处理系统 |
CN115017904B (zh) * | 2022-07-08 | 2024-01-30 | 周向红 | 一种基于大数据的信息处理方法和信息处理系统 |
CN117313695A (zh) * | 2023-09-01 | 2023-12-29 | 鹏城实验室 | 文本敏感性检测方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110727766B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110727766B (zh) | 敏感词的检测方法 | |
CN107437038B (zh) | 一种网页篡改的检测方法及装置 | |
CN109918560B (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN103544436B (zh) | 一种钓鱼网站鉴别系统和方法 | |
CN107566391B (zh) | 域识别加主题识别构建机器学习模型检测网页暗链的方法 | |
CN104156490A (zh) | 基于文字识别检测可疑钓鱼网页的方法及装置 | |
CN103309862B (zh) | 一种网页类型识别方法和系统 | |
CN108111478A (zh) | 一种基于语义理解的网络钓鱼识别方法和装置 | |
CN110738039B (zh) | 一种案件辅助信息的提示方法、装置、存储介质和服务器 | |
CN111767716A (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN110175851B (zh) | 一种作弊行为检测方法及装置 | |
CN106815208A (zh) | 法律裁判文书的解析方法及装置 | |
CN111259219B (zh) | 恶意网页识别模型建立方法、识别方法及系统 | |
CN110191096A (zh) | 一种基于语义分析的词向量网页入侵检测方法 | |
CN106649273A (zh) | 一种文本处理方法及装置 | |
Al-Omari et al. | JUSTDeep at NLP4IF 2019 task 1: Propaganda detection using ensemble deep learning models | |
CN115473726A (zh) | 一种识别域名的方法及装置 | |
Raja et al. | Fake news detection on social networks using Machine learning techniques | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
Mahmoudi et al. | Web spam detection based on discriminative content and link features | |
Borgolte et al. | Relevant change detection: a framework for the precise extraction of modified and novel web-based content as a filtering technique for analysis engines | |
CN113111645A (zh) | 一种媒体文本相似性检测方法 | |
CN113626704A (zh) | 基于word2vec模型的推荐信息方法、装置及设备 | |
CN112434163A (zh) | 风险识别方法及模型构建方法、装置、电子设备和介质 | |
CN111797904A (zh) | 网页页面特征的篡改检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |