CN112001170B - 一种识别经过变形的敏感词的方法和系统 - Google Patents

一种识别经过变形的敏感词的方法和系统 Download PDF

Info

Publication number
CN112001170B
CN112001170B CN202010472614.5A CN202010472614A CN112001170B CN 112001170 B CN112001170 B CN 112001170B CN 202010472614 A CN202010472614 A CN 202010472614A CN 112001170 B CN112001170 B CN 112001170B
Authority
CN
China
Prior art keywords
word
components
sensitive
similar
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010472614.5A
Other languages
English (en)
Other versions
CN112001170A (zh
Inventor
刘梦迪
梁循
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN202010472614.5A priority Critical patent/CN112001170B/zh
Publication of CN112001170A publication Critical patent/CN112001170A/zh
Application granted granted Critical
Publication of CN112001170B publication Critical patent/CN112001170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明属于通讯网络技术领域,涉及一种识别经过变形的敏感词的方法和系统,包括以下步骤:判断待测词与预建立的敏感词库中的敏感词是否相同,若是则判断待测词为敏感词,若否则进入下一步;判断所述待测词与所述敏感词的拼音是否相同或相似,若相同或相似则输出对应的分值;将待测词中所有的字分成至少两个组成部分,判断各组成部分与敏感词的组成部分是否相同或相似,若相同或相似则输出各组成部分所对应的分值;将所有获得的分值相加,并判断是否超过阈值,若否,则待测词非敏感词,若是,则待测词为敏感词。其可以更加准确的锁定经过变形的敏感词。

Description

一种识别经过变形的敏感词的方法和系统
技术领域
本发明是关于一种识别经过变形的敏感词的方法和系统,属于通讯网络技术领域。
背景技术
随着移动互联网的迅速发展,网络媒体、微博、微信等工具已经成为人们生活中不可分割的一部分。然而,随着互联网社区的发展,心怀不轨及不法分子开始利用这些载体进行恐怖活动、散播网络色情、传播不实谣言,给经济社会和人民正常生活带来巨大损失。因此,社会化媒体作为重要的信息载体,对其中的报道及言论进行严格的管控和监督十分必要。敏感词过滤就是一种阻止网络犯罪和网络暴力的技术手段,主要是针对性地筛查和屏蔽可能存在违法或不良信息的关键词,实现防患于未然。
现在常用的敏感词过滤方式是构建敏感关键词库,通过查找与敏感词列表相匹配的字符串,之后使用符号将敏感词进行替换或者使用禁止发出、屏蔽等方式避免不当言论的出现。词语由不同汉字的组合形成,这一关键属性使得只有精准匹配时才进行过滤。然而,目前网络中出现了很多敏感词的变形词。如此一来,一个简单的敏感词可能衍生出几十种写法,将其尽收在词库中的工作量较为巨大,词库存储容量大,过滤速度也较为缓慢。而且更为重要的是变形词的变形方法多种多样,如谐音、形似字,这就使得变形词很难穷举。
发明内容
针对上述现有技术的不足,本发明的目的是提供了一种识别经过变形的敏感词的方法和系统,其可以更加准确的锁定经过变形的敏感词。
为实现上述目的,本发明提供了一种识别经过变形的敏感词的方法,包括以下步骤:S1判断待测词与预建立的敏感词库中的敏感词是否相同,若是则判断待测词为敏感词,若否则进入下一步;S2判断待测词与敏感词的拼音是否相同或相似,若相同或相似则输出对应的分值;S3将待测词中所有的字分成两个或两个以上组成部分,判断各组成部分与敏感词的组成部分是否相同或相似,若相同或相似则输出各组成部分所对应的分值;S4将所有获得的分值相加,并判断是否超过阈值,若否,则待测词非敏感词,若是,则待测词为敏感词。
进一步,判断拼音相同或相似的方法为:将待测词的拼音的字母及其位置与敏感词的拼音进行比较,若不存在差别则认定拼音相同,若只存在一处差别则认定拼音相似,若存在两处及两处以上的差别则认为拼音不相同,其中拼音相同的得分大于拼音相似的得分,拼音不相同不得分。
进一步,敏感词库中的数据包括:敏感词、敏感词的拼音和经过拆分后的敏感词组成部件。
进一步,经过拆分后的敏感词组成部件采用如下方法获得:构建所需的最小拆分字表,选择汉语拆字字典进行爬取,把每个字拆分为两个及以上的组成部件,将爬取到的数据存储于敏感词库;并从存储的数据中剔除最小拆分字及其拆分方式。
进一步,最小拆分字表包括不可拆分的字和偏旁部首。
进一步,判断各组成部分与敏感词的组成部分是否相同或相似的过程为:S3.1判断待测词中各个字是否可拆分,若存在不可拆分的字,判断不可拆分的字是否在最小拆分字表中,若存在追溯到对应的敏感词,并采用步骤S3.2-S3.3中的方法对其他词进行比较,如不存在则此步骤输出得分为零;S3.2将待测词中各个字均拆分为两个或两个以上组成部分,判断各组成部分是否存在在最小拆分字表中,若存在则判断组成部分相同,并输出相同对应的得分;否则进入下一步;S3.3判断各组成部分是否存在在相似组成部件库中,若存在则判断预建立的相似组成部件库中,若存在则判断组成部分相似,并输出相似对应的得分;否则此步骤输出得分为零。
进一步,不同组成部分对应的权重不同,能够单独构成文字的组成部件对应的权重大于组成部件为偏旁部首对应的权重,组成部分相同的得分大于组成部分相似的得分。
进一步,两个汉字a、b的相似度得分为S,相似度得分S可以采用下式进行计算:
Figure BDA0002514813480000021
其中,汉字a与汉字b共同的能够单独构成文字的组成部件的权重为
Figure BDA0002514813480000022
其中i={1,2,3,……n},n为两个汉字共同的能够单独构成文字的组成部件的个数;共同偏旁部首的组成部件的权重为
Figure BDA0002514813480000023
其中j ={1,2,3,……,m},m为两个汉字共同偏旁部首的个数;当两个汉字间存在相似偏旁部首时,该路径权重为wab,汉字a与汉字b与其偏旁部首的权重分别表示为
Figure BDA0002514813480000024
 x,y,z为系数,步骤S3中输出的得分为各个字的平均得分。
进一步,当存在共同能够单独构成文字的组成部件时x为1,不存在时x为0;当存在共同偏旁部首时y为1,不存在时y为0;当存在相似偏旁部首时z为1,不存在时z为0。
本发明公开了一种识别经过变形的敏感词的系统,包括:现有敏感词判断模块,用于判断待测词与预建立的敏感词库中的敏感词是否相同,若是则判断待测词为敏感词,若否则进入下一步;字音变形判断模块,用于判断待测词中是否存在相邻的两个不可拆分的字,若是,则判断两个不可拆分的字是否可以构成另一个字,若是则判断字是否出现在敏感词中,若出现则输出这一判断步骤所对应的分值;字形变形判断模块,用于将待测词中所有的字分成两个或两个以上组成部分,判断各组成部分与敏感词的组成部分是否相同或相似,若相同或相似则输出各组成部分所对应的分值;结果输出模块,用于将所有获得的分值相加,并判断是否超过阈值,若否,则待测词非敏感词,若是,则待测词为敏感词。
本发明由于采取以上技术方案,其具有以下优点:本发明通过构建相似偏旁部首的用户字典,使得这类汉字之间也可以建立起联系,它们并不是直接关联,而是通过相似部件关联起来的,通过这种方式而建立起联系的实体称为形近二阶联想。读音相近的汉字替换敏感词中的部分汉字,并不影响整体的理解,因此本发明中将发音相近的汉字也建立了关联,通过这种方式而建立起联系的实体称为音近一阶联想。本发明可以实现当搜寻一个关键字时,得到与之字形相似(形近一阶联想及二级联想)和拼音发音相似(音近一阶联想)的汉字,这些汉字的排列组合可以形成庞大的敏感词库,从而为舆情管理和舆情监控目的的实现提供便利。通过将这些汉字进行排列组合,极大地提高了特定敏感词的联想词范围,从而能够尽可能地覆盖为逃避监管而出现在网络、媒体上的各式各样的敏感词汇,从源头杜绝不良词汇的发布和传播。另一方面,本发明极大地节约了时间和人工成本,有利于资源的合理分配和有效利用。
附图说明
图1是本发明一实施例中识别经过变形的敏感词的方法流程图;
图2是本发明一实施例中的字体拆分方法的示意图;
图3是本发明一实施例中的知识图谱的局部结构图;
图4是本发明一实施例中的字形相同或相似得分原则的示意图。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方向,通过具体实施例对本发明进行详细的描绘。然而应当理解,具体实施方式的提供仅为了更好地理解本发明,它们不应该理解成对本发明的限制。在本发明的描述中,需要理解的是,所用到的术语仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。
实施例一
本实施例提供了一种识别经过变形的敏感词的方法,如图1所示,包括以下步骤:
S1判断待测词与预建立的敏感词库中的敏感词是否相同,若是则判断待测词为敏感词,若否则进入下一步。
敏感词库中的数据包括:敏感词、敏感词的拼音和经过拆分后的敏感词组成部件。
经过拆分后的敏感词组成部件采用如下方法获得:构建所需的最小拆分字表,本实施例中通过爬虫技术选择汉语拆字字典进行爬取,把每个字拆分为两个及两个以上的组成部件,而不是拆成类似于五笔的较为零散的笔划;另外,拆字时以常用字优先。将爬取到的数据存储于敏感词库;并从存储的数据中剔除最小拆分字及其拆分方式。并根据需求定制不同规则以选择最为理想的汉字拆分方式。其中,本实施例中的最小拆分字表包括不可拆分的字、偏旁部首和/或继续拆分意义有限的字等,比如上、下和子等字。
S2判断所述待测词与所述敏感词的拼音是否相同或相似,若相同或相似则输出对应的分值。
相近读音汉字用户数据库构建:以汉语拼音发音特点为根据,编写程序检测不同汉字之间的发音相似性,输出发音相似度高的汉字组。从而得到读音相似用户数据字典(Similar Pronounciation User Data Dictionary,即SPUDD)。
判断拼音相同或相似的方法为:将待测词的拼音的字母及其位置与敏感词的拼音进行比较,若不存在差别则认定拼音相同,若只存在一处差别则认定拼音相似,若存在两处及两处以上的差别则认为拼音不相同,其中拼音相同的得分大于拼音相似的得分,拼音不相同不得分。
S3如图2所示,将待测词中所有的字分成两个或两个以上组成部分,判断各组成部分与敏感词的组成部分是否相同或相似,若相同或相似则输出各组成部分所对应的分值;S4将所有获得的分值相加,并判断是否超过阈值,若否,则待测词非敏感词,若是,则待测词为敏感词。
相似偏旁部首的相似组成部件库构建:主要包括常用相似偏旁部首,如“冫氵”、“亻彳”等。从而得到相似偏旁部首用户数据字典(Similar Radical User DataDictionary,即SRUDD)。具体哪些偏旁部首是相似可以采用认为筛选的方法,或者选择字典中给出的相近偏旁部首。
根据抽取的不同敏感词和敏感词的拼音、组成部件所形成的三元组为基本单位,绘制知识图谱。得到知识图谱后,提供量化汉字相似性的方法,为相似汉字的获取提供思路。对敏感词库和相似偏旁部首的相似组成部件库的数据进行标准化,使其符合 Neo4j对于数据的要求,便于三元组的进一步构建。
将敏感词库中的敏感词和组成部件分离,分别形成汉字实体和组成部件实体。对于组成部分实体,如果偏旁部首存在广泛使用的名称,则将该名称作为此偏旁部首的属性添加;将敏感词库中的敏感词和组成部件原有的一对多关系处理为一一对应的“组成”关系;将SPUDD中相似发音的敏感词原有的一对多关系处理为一一对应的“音近”关系。相似偏旁部首的相似组成部件库为一一对应的“形似”关系,无需处理;将以上步骤得到的数据集处理成为格式为UTD-8的CSV文件。
如图3所示,先后导入所有数据集形成知识图谱,为提升可读性将实体间的关系进行了可视化标注,将不同属性的节点和边附以了多种颜色和不同形状。
判断各组成部分与敏感词的组成部分是否相同或相似的过程为:
S3.1判断待测词中各个字是否可拆分,若存在不可拆分的字,判断不可拆分的字是否在最小拆分字表中,若存在追溯到对应的敏感词,因为对应的敏感词通常数量不多,通常都是个位数的,故只需在输出设备中显示上述对应的敏感词,人工判断待测词是否和敏感词相同,如不存在则此步骤输出得分为零。由于自动判断敏感词是否相同计算量比较大,用时长,所以对于输出结果不多的敏感词采用人工判断反而比较节省时间和成本。而且对于将敏感词中一个字拆分为两个的情况,比如将“强”字拆分为“弓”和“虽”,现有的敏感词检索方法很难检索到这类变形的敏感词,但本实施例中方法通过则可以有效锁定这一类变形的敏感词。
S3.2将待测词中各个字均拆分为两个或两个以上组成部分,判断各组成部分是否存在在最小拆分字表中,若存在则判断组成部分相同,并输出相同对应的得分;否则进入下一步。
S3.3判断各组成部分是否存在在相似组成部件库中,若存在则判断预建立的相似组成部件库中,若存在则判断组成部分相似,并输出相似对应的得分;否则此步骤输出得分为零。
不同组成部分对应的权重不同,能够单独构成文字的组成部件对应的权重大于组成部件为偏旁部首对应的权重,组成部分相同的得分大于组成部分相似的得分。
两个汉字a、b的相似度得分为S,相似度得分S可以采用下式进行计算:
Figure BDA0002514813480000051
Figure BDA0002514813480000052
其中,汉字a与汉字b共同的能够单独构成文字的组成部件的权重为
Figure BDA0002514813480000053
其中i={1,2,3,……n},n为两个汉字共同的能够单独构成文字的组成部件的个数;共同偏旁部首的组成部件的权重为
Figure BDA0002514813480000054
其中j ={1,2,3,……,m},m为两个汉字共同偏旁部首的个数;当两个汉字间存在相似偏旁部首时,该路径权重为wab,汉字a与汉字b与其偏旁部首的权重分别表示为
Figure BDA0002514813480000055
 x,y,z为系数,步骤S3中输出的得分为各个字的平均得分。当存在共同能够单独构成文字的组成部件时x为1,不存在时x为0;当存在共同偏旁部首时y为1,不存在时y为0;当存在相似偏旁部首时z为1,不存在时z为0。
本实施例中将最终判断为敏感词的输出结果记录在敏感词库中,并同时记录其拼音和组成部件,扩展汉语拆字字典中的拆字方法。同时也可以通过神经网络算法等智能算法对本实施例方法中各项得分进行训练、调整。如将大量已经判断为敏感词的词作为待测词,通过本实施例中方法判断其是否为敏感词,如是则终止,如否则调整各项得分,直至输出结果符合要求。
如图4所示,以计算图式汉字与“循”的相似度为例说明本实施例中汉字字形记分规则。根据上述原则,“循”与“偱”的相似度为0.8*0.8+0.5*0.5*0.3=0.715;“循”与“遁”的相似度为0.8*0.8=0.64;“循”与“很”的相似度为0.5*0.5=0.25。可以发现,“循”与“偱”的相似度最高,因为两者既存在共同成字部件,又存在相似偏旁部首,其次是“遁”,因为两者存在相同的成字部件,再其次为“很”,两者仅存在共同的偏旁部首,而“循”与“狠”的相似度为0,因为两者之间并无共同部件,也无相似偏旁部首,即没有直接的路径相连。而“偱”与“很”的相似度为0.075,因两者的偏旁部首组成存在直接的部首相似关系。
S4将所有获得的分值相加,并判断是否超过阈值,若否,则待测词非敏感词,若是,则待测词为敏感词。
此处的阈值可以根据实际需求,综合考虑敏感词特征设定。由于拼音或字形非常相似均可以直接判断为敏感词,故阈值通常是低于字音步骤或者字形步骤输出的最高得分。也可以根据字音或字形分别进行分数统计。
第二实施例
基于相同的发明构思,本发明公开了一种识别经过变形的敏感词的系统,包括:
现有敏感词判断模块,用于判断待测词与预建立的敏感词库中的敏感词是否相同,若是则判断待测词为敏感词,若否则进入下一步;
字音变形判断模块,用于判断待测词与敏感词的拼音是否相同或相似,若相同或相似则输出对应的分值;
字形变形判断模块,用于将待测词中所有的字分成两个或两个以上组成部分,判断各组成部分与敏感词的组成部分是否相同或相似,若相同或相似则输出各组成部分所对应的分值;
结果输出模块,用于将所有获得的分值相加,并判断是否超过阈值,若否,则待测词非敏感词,若是,则待测词为敏感词。
上述内容仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种识别经过变形的敏感词的方法,其特征在于,包括以下步骤:
S1判断待测词与预建立的敏感词库中的敏感词是否相同,若是则判断所述待测词为敏感词,若否则进入下一步;
S2判断所述待测词中是否存在相邻的两个不可拆分的字,若是,则判断所述两个不可拆分的字是否可以构成另一个字,若是则判断所述字是否出现在敏感词中,若出现则输出这一判断步骤所对应的分值;
S3将所述待测词中所有的字分成两个或两个以上组成部分,判断各组成部分与所述敏感词的组成部分是否相同或相似,若相同或相似则输出各组成部分所对应的分值;
S4将所有获得的分值相加,并判断是否超过阈值,若否,则待测词非敏感词,若是,则待测词为敏感词;
判断各组成部分与所述敏感词的组成部分是否相同或相似的过程为:
S3.1判断所述待测词中各个字是否可拆分,若存在不可拆分的字,判断所述不可拆分的字是否在最小拆分字表中,若存在追溯到对应的敏感词,并采用步骤S3.2-S3.3中的方法对其他词进行比较,如不存在则此步骤输出得分为零;
S3.2将所述待测词中各个字均拆分为两个或两个以上组成部分,判断各组成部分是否存在在所述最小拆分字表中,若存在则判断所述组成部分相同,并输出相同对应的得分;否则进入下一步;
S3.3判断各组成部分是否存在在相似组成部件库中,若存在则判断预建立的相似组成部件库中,若存在则判断所述组成部分相似,并输出相似对应的得分;否则此步骤输出得分为零;
不同所述组成部分对应的权重不同,能够单独构成文字的组成部件对应的权重大于组成部件为偏旁部首对应的权重,所述组成部分相同的得分大于所述组成部分相似的得分;
两个的汉字a、b的相似度得分为S,其中,汉字a与汉字b共同的能够单独构成文字的组成部件的权重为其中i={1,2,3,……n},n为两个汉字共同的能够单独构成文字的组成部件的个数;共同偏旁部首的组成部件的权重为其中j={1,2,3,……,m},m为两个汉字共同偏旁部首的个数;当两个汉字间存在相似偏旁部首时,路径权重为wab,汉字a、汉字b与其偏旁部首的权重分别表示为x,y,z为系数,所述步骤S3中输出的得分为各个字的平均得分。
2.如权利要求1所述的识别经过变形的敏感词的方法,其特征在于,判断拼音相同或相似的方法为:将待测词的拼音的字母及其位置与所述敏感词的拼音进行比较,若不存在差别则认定拼音相同,若只存在一处差别则认定拼音相似,若存在两处及两处以上的差别则认为拼音不相同,其中拼音相同的得分大于拼音相似的得分,拼音不相同不得分。
3.如权利要求1所述的识别经过变形的敏感词的方法,其特征在于,敏感词库中的数据包括:敏感词、敏感词的拼音和经过拆分后的敏感词组成部件。
4.如权利要求3所述的识别经过变形的敏感词的方法,其特征在于,所述经过拆分后的敏感词组成部件采用如下方法获得:构建所需的最小拆分字表,选择汉语拆字字典进行爬取,把每个字拆分为两个及以上的组成部件,将爬取到的数据存储于敏感词库;并从存储的数据中剔除最小拆分字及其拆分方式。
5.如权利要求4所述的识别经过变形的敏感词的方法,其特征在于,所述最小拆分字表包括不可拆分的字和偏旁部首。
6.如权利要求1所述的识别经过变形的敏感词的方法,其特征在于,当存在共同能够单独构成文字的组成部件时x为1,不存在时x为0;当存在共同偏旁部首时y为1,不存在时y为0;当存在相似偏旁部首时z为1,不存在时z为0。
7.一种识别经过变形的敏感词的系统,其特征在于,包括:
现有敏感词判断模块,用于判断待测词与预建立的敏感词库中的敏感词是否相同,若是则判断所述待测词为敏感词,若否则进入下一步;
字音变形判断模块,用于判断所述待测词中是否存在相邻的两个不可拆分的字,若是,则判断所述两个不可拆分的字是否可以构成另一个字,若是则判断所述字是否出现在敏感词中,若出现则输出这一判断步骤所对应的分值;
字形变形判断模块,用于将所述待测词中所有的字分成两个或两个以上组成部分,判断各组成部分与所述敏感词的组成部分是否相同或相似,若相同或相似则输出各组成部分所对应的分值;
结果输出模块,用于将所有获得的分值相加,并判断是否超过阈值,若否,则待测词非敏感词,若是,则待测词为敏感词;
判断各组成部分与所述敏感词的组成部分是否相同或相似的过程为:
S3.1判断所述待测词中各个字是否可拆分,若存在不可拆分的字,判断所述不可拆分的字是否在最小拆分字表中,若存在追溯到对应的敏感词,并采用步骤S3.2-S3.3中的方法对其他词进行比较,如不存在则此步骤输出得分为零;
S3.2将所述待测词中各个字均拆分为两个或两个以上组成部分,判断各组成部分是否存在在所述最小拆分字表中,若存在则判断所述组成部分相同,并输出相同对应的得分;否则进入下一步;
S3.3判断各组成部分是否存在在相似组成部件库中,若存在则判断预建立的相似组成部件库中,若存在则判断所述组成部分相似,并输出相似对应的得分;否则此步骤输出得分为零;
不同所述组成部分对应的权重不同,能够单独构成文字的组成部件对应的权重大于组成部件为偏旁部首对应的权重,所述组成部分相同的得分大于所述组成部分相似的得分;
两个的汉字a、b的相似度得分为S,其中,汉字a与汉字b共同的能够单独构成文字的组成部件的权重为其中i={1,2,3,……n},n为两个汉字共同的能够单独构成文字的组成部件的个数;共同偏旁部首的组成部件的权重为其中j={1,2,3,……,m},m为两个汉字共同偏旁部首的个数;当两个汉字间存在相似偏旁部首时,路径权重为wab,汉字a、汉字b与其偏旁部首的权重分别表示为x,y,z为系数,所述步骤S3中输出的得分为各个字的平均得分。
CN202010472614.5A 2020-05-29 2020-05-29 一种识别经过变形的敏感词的方法和系统 Active CN112001170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010472614.5A CN112001170B (zh) 2020-05-29 2020-05-29 一种识别经过变形的敏感词的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010472614.5A CN112001170B (zh) 2020-05-29 2020-05-29 一种识别经过变形的敏感词的方法和系统

Publications (2)

Publication Number Publication Date
CN112001170A CN112001170A (zh) 2020-11-27
CN112001170B true CN112001170B (zh) 2023-05-09

Family

ID=73466600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010472614.5A Active CN112001170B (zh) 2020-05-29 2020-05-29 一种识别经过变形的敏感词的方法和系统

Country Status (1)

Country Link
CN (1) CN112001170B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642739B (zh) * 2021-08-12 2022-04-12 北京华宇元典信息服务有限公司 敏感词屏蔽质量评估模型的训练方法及相应的评估方法
CN114117149A (zh) * 2021-11-25 2022-03-01 深圳前海微众银行股份有限公司 一种敏感词过滤方法及装置、存储介质
CN114707499B (zh) * 2022-01-25 2023-10-24 中国电信股份有限公司 敏感词识别方法、装置、电子设备及存储介质
CN114386385A (zh) * 2022-03-22 2022-04-22 北京创新乐知网络技术有限公司 一种敏感词衍生词汇的发现方法、装置、系统和存储介质
CN115455179B (zh) * 2022-08-22 2023-06-23 深圳悦想网络技术有限公司 敏感词汇检测方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03177963A (ja) * 1989-12-06 1991-08-01 Toppan Printing Co Ltd 漢字分類方法及び漢字分類表及び漢字処理装置
CN103049434A (zh) * 2012-12-12 2013-04-17 北京海量融通软件技术有限公司 一种变形词证认系统及证认方法
CN104268526A (zh) * 2014-09-25 2015-01-07 北京航空航天大学 一种汉字图片匹配与变形方法
CN106407179A (zh) * 2016-08-26 2017-02-15 福建网龙计算机网络信息技术有限公司 汉字字形相似度计算方法及其系统
CN108182246A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN110457423A (zh) * 2019-06-24 2019-11-15 平安科技(深圳)有限公司 一种知识图谱实体链接方法、装置、计算机设备及存储介质
CN111159990A (zh) * 2019-12-06 2020-05-15 国家计算机网络与信息安全管理中心 一种基于模式拓展的通用特殊词识别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03177963A (ja) * 1989-12-06 1991-08-01 Toppan Printing Co Ltd 漢字分類方法及び漢字分類表及び漢字処理装置
CN103049434A (zh) * 2012-12-12 2013-04-17 北京海量融通软件技术有限公司 一种变形词证认系统及证认方法
CN104268526A (zh) * 2014-09-25 2015-01-07 北京航空航天大学 一种汉字图片匹配与变形方法
CN106407179A (zh) * 2016-08-26 2017-02-15 福建网龙计算机网络信息技术有限公司 汉字字形相似度计算方法及其系统
CN108182246A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN110457423A (zh) * 2019-06-24 2019-11-15 平安科技(深圳)有限公司 一种知识图谱实体链接方法、装置、计算机设备及存储介质
CN111159990A (zh) * 2019-12-06 2020-05-15 国家计算机网络与信息安全管理中心 一种基于模式拓展的通用特殊词识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
偶然与必然——汉字与周边民族文字形态相似性研究;杨新忠等;《涉及艺术》;12-16 *
汉字字形计算及其在校对系统中的应用;宋柔等;《小型微型计算机系统》;第第29卷卷(第第10期期);1964-1968 *

Also Published As

Publication number Publication date
CN112001170A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112001170B (zh) 一种识别经过变形的敏感词的方法和系统
CN106055541B (zh) 一种新闻内容敏感词过滤方法及系统
CN109831460B (zh) 一种基于协同训练的Web攻击检测方法
CN108470022B (zh) 一种基于运维管理的智能工单质检方法
EP2657852A1 (en) Method and device for filtering harmful information
CN113055386B (zh) 一种攻击组织的识别分析方法和装置
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
WO2016177069A1 (zh) 一种管理方法、装置、垃圾短信监控系统及计算机存储介质
CN107066262A (zh) 源代码文件克隆邻接表合并检测方法
CN107895008B (zh) 基于大数据平台的情报信息热点发现方法
JP6061337B2 (ja) 規則生成装置及び抽出装置
CN110728453B (zh) 一种基于大数据的政策自动匹配分析系统
CN105550168A (zh) 一种确定对象的概念词的方法和装置
CN117077153B (zh) 基于大规模语言模型的静态应用安全检测误报判别方法
CN110543590A (zh) 一种微博突发事件的检测方法
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
CN111460158A (zh) 一种基于情感分析的微博话题公众情感预测方法
CN108509561B (zh) 基于机器学习的岗位招聘数据筛选方法、系统及存储介质
CN112633012A (zh) 一种基于实体类型匹配的未登录词替换方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN116244446A (zh) 社交媒体认知威胁检测方法及系统
CN113486158A (zh) 基于案情比对的类案检索方法、装置、设备及存储介质
CN109214445A (zh) 一种基于人工智能的多标签分类方法
CN110889451A (zh) 事件审计方法、装置、终端设备以及存储介质
CN116192537B (zh) 一种apt攻击报告事件抽取方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant