CN114048740B - 敏感词检测方法、装置及计算机可读存储介质 - Google Patents

敏感词检测方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN114048740B
CN114048740B CN202111145740.0A CN202111145740A CN114048740B CN 114048740 B CN114048740 B CN 114048740B CN 202111145740 A CN202111145740 A CN 202111145740A CN 114048740 B CN114048740 B CN 114048740B
Authority
CN
China
Prior art keywords
words
sensitive
word
target text
sensitive word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111145740.0A
Other languages
English (en)
Other versions
CN114048740A (zh
Inventor
李长林
蒋宁
王洪斌
吴海英
曹磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202111145740.0A priority Critical patent/CN114048740B/zh
Publication of CN114048740A publication Critical patent/CN114048740A/zh
Application granted granted Critical
Publication of CN114048740B publication Critical patent/CN114048740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了敏感词检测方法、装置及计算机可读存储介质,涉及信息检测技术领域,该敏感词检测方法包括:获取目标文本,对目标文本进行分词处理;在目标文本中存在敏感词的情况下,确定目标文本中与敏感词对应的黑名单词和白名单词的数量,其中,黑名单词和白名单词为目标文本中的词,且黑名单词和白名单词与敏感词具有关联关系;在目标文本中黑名单词的数量大于目标文本中白名单词的数量的情况下,将敏感词确定为目标敏感词。基于上述方式,可提高敏感词检测方法的准确度。

Description

敏感词检测方法、装置及计算机可读存储介质
技术领域
本申请涉及信息检测技术领域,特别是涉及敏感词检测方法、装置及计算机可读存储介质。
背景技术
在现有的针对文本的敏感词检测中,通常会在文本中查找是否存在特定的敏感词,并将查找到的敏感词输出或标注以进行相关的提示。
现有技术的缺陷在于,现有的敏感词检测方法经常会出现因歧义问题而导致的错误识别现象,误将非敏感词识别为敏感词,或漏识别敏感词,从而使得现有的敏感词检测方法的准确度较低。
发明内容
本申请主要解决的技术问题是如何提高敏感词检测方法的准确度。
为了解决上述技术问题,本申请采用的第一个技术方案是:一种敏感词检测方法,包括:获取目标文本,对目标文本进行分词处理;在目标文本中存在敏感词的情况下,确定目标文本中与敏感词对应的黑名单词和白名单词的数量,其中,黑名单词和白名单词为目标文本中的词,且黑名单词和白名单词与敏感词具有关联关系;在目标文本中黑名单词的数量大于目标文本中白名单词的数量的情况下,将敏感词确定为目标敏感词。
为了解决上述技术问题,本申请采用的第二个技术方案是:一种敏感词检测装置,包括:存储器和处理器;存储器用于存储程序指令,处理器用于执行程序指令以实现上述敏感词检测方法。
为了解决上述技术问题,本申请采用的第三个技术方案是:一种计算机可读存储介质,计算机可读存储介质存储有程序指令,程序指令被处理器执行时实现上述敏感词检测方法。
区别于现有技术,本申请的技术方案先判断目标文本中是否存在敏感词,在存在敏感词的情况下,确定目标文本中与该敏感词对应的黑名单词和白名单词,之后对黑名单词和白名单词的数量进行比较,并在黑名单词比白名单词的数量多时将敏感词确定为目标敏感词。基于上述方式,避免了直接用文本与敏感词库是否匹配来查找确定目标敏感词而导致的错误识别目标敏感词的现象或漏检现象,基于上述判断敏感词是否存在以及黑名单词和白名单词的数量比较的处理方式,实现了更加精准的敏感词检测,提高了敏感词检测方法的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请敏感词检测方法的一实施例的一流程示意图;
图2是本申请敏感词检测方法的一实施例的另一流程示意图;
图3是本申请敏感词检测装置的一实施例的结构示意图;
图4是本申请计算机可读存储介质的一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本申请保护的范围。
本申请中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体地限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在传统敏感词检测方法中,通常会先获取一目标文本,再检测获取得到的目标文本中是否存在的敏感词,最后,在目标文本中存在敏感词时输出该检测到的敏感词。
对于一个敏感词而言,根据语言环境的不同其词义也可能不同,也即,在不同目标文本中,相同一个词可能具备敏感词词义也可能不具备敏感词词义。传统敏感词检测方法的问题在于,仅仅通过检测目标文本中是否存在敏感词,容易将不具备敏感词词义的词误识别为敏感词,从而误将非敏感词作为敏感词进行输出,最终得到错误的检测结果。
进一步地,传统的敏感词检测方法不具备歧义识别的功能,准确率较低,利用深度学习模型来进行敏感词检测的方法虽能一定程度上解决歧义功能,但这些方案的缺点有严重依赖标注数据,标注数据质量的好坏直接影响模型的效果,且标注人员需要领域内的专业人员,可维护性、扩展性不友好,增删敏感词、场景更替等均需要重新训练模型,非专业算法人员很难理解其中的原理,配置资源要求高,识别速率慢。
具体的,可依据业务场景的行业规范、管理规范、纪律规范等制定敏感词词库,敏感词词库中主要包含脏词、辱骂词、威胁恐吓词、重大事件相关词以及其它根据具体规范所创建的敏感词。
本申请为了解决上述技术问题,提出一种敏感词检测方法,如图1所示,图1是本申请敏感词检测方法的一实施例的一流程示意图,在本申请的一个实施例中,该敏感词检测方法包括:
步骤S11:获取目标文本,对目标文本进行分词处理。
其中,目标文本可以是任意类型的文本文字信息,例如:手机短信内容、社交软件中的聊天记录、自媒体软件的新闻及评论和其它类型的文本。对目标文本进行分词处理,以将目标文本划分为若干个词,以便于识别目标文本中是否存在敏感词或其它类型的词。分词处理的方法可以是利用通用的分词处理方法,在此不再赘述。
可选地,在一些实施例中,目标文本也可以是图像、视频或者语音信息。举例来说,当目标文本是语音信息时,可以基于ASR(Automatic Speech Recognition,自动语音识别)技术,将目标语音信息转换为目标文本文字信息。
具体地,该语音信息可以是一语音质检场景下客服与客户之间的对话信息,也可以是其它类型的语音信息,此处不作限定。本申请实施例中的敏感词检测方法可以使用在客服质检场景中。包括针对客服与客户之间的语音对话内容的质检或客服与客户质检的沟通对话内容的质检等。
步骤S12:在目标文本中存在敏感词的情况下,确定目标文本中与敏感词对应的黑名单词和白名单词的数量。
其中,黑名单词和白名单词为目标文本中的词,且黑名单词和白名单词与敏感词具有关联关系。关联关系可以是表示,黑名单词和白名单词是与敏感词上下文语义关联的词、或者是位置相邻的词、或者是间隔预设字符的词。举例说明,在一段包含三句话的文本中,敏感词在第二句话中,则黑名单词和白名单词可以是第一句话或第三句话中与敏感词有语义关联的词,也可以是第二句话中与敏感词相邻的词,还可以是该文本中与敏感词间隔若干个词的词,此处不作限定。
在本实施例中,可通过将目标文本与预先构建的敏感词词库进行比对,以确定目标文本中是否存在该敏感词词库中的敏感词。在目标文本中存在敏感词的情况下,再判断目标文本中该敏感词对应的黑名单词的数量,以及敏感词对应的白名单词的数量。
当该敏感词对应的黑名单词在目标文本中出现得比敏感词对应的白名单词更多时,该敏感词有较大可能是无歧义的敏感词。当该敏感词对应的白名单词在目标文本中出现得比敏感词对应的黑名单词更多时,该敏感词有较大可能是含歧义的正常词,而非敏感词。
步骤S13:在目标文本中黑名单词的数量大于目标文本中白名单词的数量的情况下,将敏感词确定为目标敏感词。
其中,当目标文本中黑名单词的数量大于白名单词的数量时,可认为目标文本中的敏感词确定为含有敏感词词义的敏感词,也即确定目标文本中的敏感词为目标敏感词,之后可向用户输出该目标敏感词以作提示,输出该目标敏感词的方式包括直接输出在显示屏上,或者在显示屏中展示该目标文本,并标注出目标敏感词,或者进行广播读出等输出方式,此处不作限定。
目标敏感词即为在目标文本的语义环境中,被确定具备敏感词词义的词。若在目标文本中,敏感词对应的黑名单词比敏感词对应的白名单词更多时,则可认为该敏感词在目标文本的语义环境中,是具备敏感词词义的词,也即,可判定该目标文本中的敏感词即为目标敏感词。
可将检测到的目标敏感词作相应的屏蔽处理,或将整段目标文本作相应的屏蔽处理,以改善阅读体验。
区别于现有技术,本申请的技术方案先判断目标文本中是否存在敏感词,在存在敏感词的情况下,确定目标文本中与该敏感词对应的黑名单词和白名单词,之后对黑名单词和白名单词的数量进行比较,并在黑名单词比白名单词的数量多时将敏感词确定为目标敏感词。基于上述方式,避免了直接用文本与敏感词库是否匹配来查找确定目标敏感词而导致的错误识别目标敏感词的现象或漏检现象,基于上述判断敏感词是否存在以及黑名单词和白名单词的数量比较的处理方式,实现了更加精准的敏感词检测,提高了敏感词检测方法的准确性。
可选地,步骤S12中的确定目标文本中与敏感词对应的黑名单词和白名单词的数量,具体可包括:
根据敏感词确定目标文本中与敏感词对应的黑名单词和白名单词的数量。
进一步地,根据敏感词确定目标文本中与敏感词对应的黑名单词和白名单词的数量,具体可包括:
在与敏感词对应的黑名单中确定目标文本中的黑名单词的数量,在与敏感词对应的白名单中确定目标文本中的白名单词的数量。
具体的,黑名单词同时为目标文本和黑名单中的词,白名单词同时为目标文本和白名单中的词,黑名单和白名单均不包括敏感词。
在一种实施方式中,每个敏感词对应一个黑名单及一个白名单,每个敏感词对应的黑名单中根据应用场景的不同,会将黑名单中的词分成多组,每个敏感词对应的白名单中根据应用场景的不同,会将白名单中的词分成多组;黑名单库中包括多个敏感词对应的黑名单,白名单库中包括多个敏感词对应的白名单。在本实施方式中,先通过敏感词库确定敏感词,根据确定的敏感词在黑名单库中匹配对应的黑名单,再在匹配到的黑名单中,搜索目标文本中各个分词是否存在该黑名单中,若存在,则为该敏感词对应的黑名单词,若不存在,则不是;同样的,根据确定的敏感词在白名单库中匹配对应的白名单,再在匹配到的白名单中,搜索目标文本中各个分词是否存在该白名单中,若存在,则为该敏感词对应的白名单词,若不存在,则不是。之后统计所确定的黑名单词和白名单词的数量,以达到精准锁定目标文本中敏感词对应的黑名单词和白名单词的效果,且黑名单和白名单中的词可根据实际情况随时进行调整,以便于快速更新黑名单和白名单,提高了敏感词检测方法的准确性、实时性和可靠性。
进一步地,根据敏感词确定目标文本中与敏感词对应的黑名单词和白名单词的数量,具体可包括:
在目标文本中确定与黑名单匹配的黑名单词数量,在目标文本中确定与白名单匹配的白名单词数量。
具体的,在一种实施方式中,需要先确定敏感词对应的黑名单及白名单,其确实方式可参考上述确定方式,在确定白名单及黑名单后,可通过在目标文本中搜寻敏感词对应的黑名单中存在的词,以确定黑名单词,并在目标文本中搜寻敏感词对应的白名单中存在的词,以确定白名单词;
在另一种实施方式中,可基于敏感词确定敏感词所对应的黑名单和白名单。确定目标文本中与敏感词存在语义关联的词为待确定词。将待确定词分别与黑名单中的词进行匹配,以确定各待确定词是黑名单词,还是非黑名单词,同理,将待确定词分别与白名单中的词进行匹配,以确定各待确定词是白名单词,还是非白名单词。最后统计所确定的黑名单词和白名单词的数量。
基于上述方式,可通过基于敏感词确定相应的黑名单和白名单,并确定目标文本中与敏感词存在语义关联的词为待确定词,之后将各待确定词分别与黑名单和白名单进行匹配,以确定各待确定词中的黑名单词和白名单词及相应数量,可避免将目标文本中的全部词均进行与黑名单、白名单的匹配,而是先进行一次与敏感词是否存在语义关联筛选,以得到各待确定词,再将各待确定词进行与黑名单、白名单的匹配,减少了计算量,在保证敏感词检测的准确度的同时,提高了敏感词检测的效率。
需要说明的是,黑名单词为能够使敏感词被识别为具备敏感词词义的搭配词,白名单词为能够使敏感词被识别为不具备敏感词词义的搭配词。通常情况下,黑名单词与敏感词一起使用时,该敏感词被识别为具备敏感词词义,白名单词与敏感词一起使用时,该敏感词为被识别为不具备敏感词词义。
在第一种情况下,每一个敏感词均可配置有一特定的黑名单和白名单,黑名单用于存储使敏感词具备敏感词词义的敏感词的搭配词,白名单用于存储使敏感词不具备敏感词词义的敏感词的搭配词,也即,一敏感词与其对应的黑名单中的全部黑名单词相对应,且与其对应的白名单中的全部白名单词相对应。
举例说明,敏感词“钱”所对应的黑名单包括:“贿赂”、“借”和“赌博”,而敏感词“钱”所对应的白名单:“吃饭”、“学费”和“门票”,可见,敏感词“钱”对应的黑名单词有“贿赂”、“借”和“赌博”,而敏感词“钱”对应的白名单词有“吃饭”、“学费”和“门票”。
在第二种情况下,每一个敏感词在不同语义环境下,配置有不同的黑名单和白名单。
举例说明,在语义环境为领导与属下的对话时,敏感词“钱”所对应的黑名单包括:“孝敬”和“笑纳”,敏感词“钱”所对应的白名单包括:“努力”和“刻苦”。而在语义环境为同学之间的对话时,敏感词“钱”所对应的黑名单包括:“保护费”和“打架”,敏感词“钱”所对应的白名单包括:“学费”和“买书”。
可选地,在一些实施例中,在步骤S12之后,还包括:
在目标文本中黑名单词的数量等于目标文本中白名单词的数量的情况下,将目标文本与预设样本进行相似度分析。
在相似度分析满足预设条件的情况下,将敏感词确定为目标敏感词。
其中,当目标文本中黑名单词的数量等于白名单词的数量的时候,无法确定该敏感词是无歧义的敏感词,还是有歧义的正常词或正常字段,因此,需要对目标文本与预设样本进行进一步的相似度分析,并在相似度分析满足预设条件时确定该敏感词是目标敏感词。
预设样本包括:与目标文本相同业务场景下的,可以准确识别出是有责文本的样本,以及,与目标文本相同业务场景下的,可以准确识别出是无责文本的样本。在本实施例中,若目标文本与预设样本中可以准确识别出是有责文本的样本的相似度大于目标文本与预设样本中可以准确识别出是无责文本的样本的相似度的情况下,可以判断相似度分析满足预设条件。
此外,需要说明的是,目标文本中黑名单词的数量等于目标文本中白名单词的数量的情况可以分为两种,第一种是目标文本中黑名单词的数量和目标文本中白名单词的数量都为0,第二种是目标文本中黑名单词的数量和目标文本中白名单词的数量均大于0且相等。
基于上述判断加分析的处理方式,可以在无法通过黑名单词与白名单词的数量,直接判断出敏感词是否为目标敏感词的情况下,将目标文本与预设样本作相似度分析以确定敏感词是否为目标敏感词,可通过相似度分析的步骤对目标文本作进一步的、更深层次的分析处理,以避免错误识别或遗漏识别敏感词的情况发生,以提高敏感词检测的准确性。
进一步地,在一些实施例中,将目标文本与预设样本进行相似度分析的步骤具体可包括:
从预设样本中选取设定数量的正样本,正样本为包括敏感词且具有敏感含义的文本。
从预设样本中选取设定数量的负样本,负样本为包括敏感词且无敏感含义的文本。
将目标文本与正样本进行相似度分析以得到第一相似度,并将目标文本与负样本进行相似度分析以得到第二相似度。
在第一相似度大于第二相似度的情况下,判定相似度分析满足预设条件。
具体地,预设样本包括:与目标文本相同业务场景下的,可以准确识别出是有责文本的样本,以及,与目标文本相同业务场景下的,可以准确识别出是无责文本的样本。正样本为与目标文本相同业务场景下的,可以准确识别出是有责文本的样本中,包含敏感词的样本。负样本为与目标文本相同业务场景下的,可以准确识别出是无责文本的样本中,包含敏感词的样本。
可将目标文本分别与正样本和负样本进行相似度分析,以得到第一相似度和第二相似度。若第一相似度小于第二相似度,则可判定相似度分析不满足预设条件,也即判定目标文本与包括敏感词且无敏感含义的文本更相似,不输出敏感词。若第一相似度大于或等于第二相似度,则可判定相似度分析满足预设条件,也即目标文本与包括敏感词且具有敏感含义的文本更相似,可将该敏感词确定为目标敏感词并输出该目标敏感词。基于上述方式,可通过相似度分析的方法,对所包含黑名单词的数量等于所包含白名单词的数量的目标文本作进一步地分析,并在相似度分析满足预设条件时才将敏感词确定为目标敏感词,以及输出该目标敏感词,提高了敏感词检测的准确性。
更进一步地,在一些实施例中,将目标文本与正样本进行相似度分析以得到第一相似度的步骤具体可包括:
将目标文本与设定数量的正样本逐一进行相似度比较,以得到多个第一子相似度。
从多个第一子相似度中选定第一预设数量的第一子相似度,并将选定的第一子相似度进行均值运算,以得到第一相似度。
具体地,从多个第一子相似度中选定第一预设数量的第一子相似度的步骤包括:
从多个第一子相似度中,按照第一子相似度的大小从大到小选定第一预设数量的第一子相似度。
其中,从第一子相似度中,按照第一子相似度的大小从大到小选定第一预设数量的第一子相似度的步骤具体可包括:选取从大到小进行排序的第一子相似度中最大的若干个第一子相似度。若干个第一子相似度的数量即为该第一预设数量,第一预设数量的大小可根据需求而定,此处不作限定。
将目标文本与负样本进行相似度分析以得到第二相似度的步骤具体可包括:
将目标文本与设定数量的负样本逐一进行相似度比较,以得到多个第二子相似度。
从多个第二子相似度中选定第二预设数量的第二子相似度,并将选定的第二子相似度进行均值运算,以得到第二相似度。
具体地,从多个第二子相似度中选定第二预设数量的第二子相似度的步骤包括:
从多个第二子相似度中,按照第二子相似度的大小从大到小选定第二预设数量的第二子相似度。
其中,从第二子相似度中,按照第二子相似度的大小从大到小选定第二预设数量的第二子相似度的步骤具体可包括:选取从大到小进行排序的第二子相似度中最大的若干个第二子相似度。若干个第二子相似度的数量即为该第二预设数量,第二预设数量的大小可根据需求而定,此处不作限定。
可针对一敏感词筛选设定数量的包含该敏感词且该敏感词具备敏感词词义的文本,以作为正样本中的文本,同理,可针对一敏感词筛选设定数量的包含该敏感词且该敏感词不具备敏感词词义的文本,以作为负样本中的文本。该设定数量的大小可根据敏感词检测精度和敏感词检测效率而定,此处不作限定。
相似度分析所采用的方法可以是可选欧式距离算法、余弦距离算法、杰卡德距离算法和分类器算法等相似度计算方式中的任一种或多种,此处不作限定。
基于上述方式,选取最大的若干第一子相似度确定第一相似度,并选取最大的若干第二子相似度确定第二相似度,之后再比较第一相似度和第二相似度的大小,可较为精准地判断出目标文本中是否存在无歧义的敏感词,提高敏感词检测方法的准确性。
可选地,在一些实施例中,步骤S12中的确定目标文本中敏感词对应的黑名单词的数量,以及敏感词对应的白名单词的数量具体可包括:
将目标文本中包括敏感词的文本确定为当前文本。
在目标文本中,围绕当前文本的上下文按照预设的范围确定上文本和下文本。
对上文本到下文本的所有文本进行分词处理,分析出上文本到下文本的所有文本中的黑名单词和白名单词并计数。
具体地,上文本到下文本的所有文本具体可包括上文本、当前文本和下文本。其中,当前文本具体可以是目标文本中包含敏感词的一句话的文本,上文本可以是该包含敏感词的一句话之前的若干句话的文本,下文本可以是该包含敏感词的一句话之后的若干句话的文本。在一具体应用场景中,上文本可以包含两句话的文本,下文本也可包含两句话的文本。
进一步地,将目标文本与正样本进行相似度分析以得到第一相似度,并将目标文本与负样本进行相似度分析以得到第二相似度的步骤具体可包括:
将当前文本与正样本进行相似度分析以得到第一相似度,并将当前文本与负样本进行相似度分析以得到第二相似度。
具体地,可对存在敏感词的当前文本、上文本和下文本进行分词处理,以确定上文本到下文本的所有文本中的敏感词对应的全部黑名单词和全部白名单词。
也即,可在当前文本存在敏感词的情况下,在包括当前文本、上文本和下文本的文本范围内,进行敏感词对应的黑名单词和白名单词的搜索及统计。
黑名单词和白名单词是敏感词的搭配词,故黑名单词和白名单词并不一定与敏感词在同一文本中,也有可能分布在敏感词所在文本的前后几条文本中,因此,基于上述方式,可有效避免敏感词对应的黑名单词和白名单词的遗漏,提高敏感词检测方法的准确性。
可在进行相似度分析时仅针对包含敏感词的当前句文本进行相应的相似度分析,以提高相似度分析的效率和准确率,进而提高敏感词检测的效率和准确率。
可选地,在一些实施例中,该敏感词检测方法还包括:
获取预设业务场景的文本。
提取预设业务场景中的敏感词,并根据预设要求在敏感词的上下文确定敏感词文本范围,并将敏感词文本范围内的能够使敏感词有责的搭配词确定为敏感词对应的黑名单词,以及将敏感词文本范围内的能够使敏感词无责的搭配词确定为敏感词对应的白名单词。
具体地,预设业务场景的文本可以是手机短信内容、社交软件中的聊天记录、自媒体软件的新闻及评论、语音信息转换而来的文本和其它类型的文本,此处不作限定。
基于规则引擎,可提取预设业务场景的文本中存在敏感词的相关文本。
其中,相关文本可包括存在敏感词的当前句文本和上下文文本,上下文文本可以是存在敏感词的当前句的上下若干句的文本,上下若干句的数量可基于预设业务场景而定,此处不作限定。上下文文本具体可包括存在敏感词的当前句的上两句文本和存在敏感词的当前句的下两句文本。
基于分词软件、敏感词词库和通用词词库,对敏感词的相关文本进行分词处理,以将敏感词的相关文本划分为若干词。
其中,分词软件可以是pyltp(Python封装的LTP(Language TechnologyPlatform,语言技术平台)),基于分词软件、敏感词词库和通用词词库的组合进行分词处理,可提高分词效率。
基于人工语义梳理的方式,对划分得到的若干词中的部分或全部词进行黑名单词和/或白名单词的标注,以确定敏感词的相关文本中的敏感词对应的黑名单词和白名单词。
基于上述方式,可确定每一敏感词所关联的黑名单词和白名单词,过程简单,只需要对新的敏感词作上述步骤即可确定新的敏感词所关联的黑名单词和白名单词,易于实现且方法简单,不必消耗过大的计算资源,非算法专业人员也可轻松完成上述步骤,提高了敏感词检测方法的可维护性和可扩展性。
举例说明如下:
第一,在确定敏感词对应的黑名单词和白名单词时,实际过程可如下:
第一段文本:
甲:请问有什么事?。
乙:我这边查看到女士您的逾期合同。
乙:那么针对您的逾期可能需要和您做一个贷款资料的核实,您的户籍地址是10号院。
乙:是10号院对吧?
甲:对。
从上述第一段文本整体来看,第三句话中的敏感词“户籍地”并不具有风险性(在本实施例中,有风险是有责的意思,无风险是无责的意思),因此,可对包含第三句话及第三句话的前后各两句话进行分词处理,并将第一段文本中的“贷款资料”、“核实”、“对吧”确定为敏感词“户籍地”对应的白名单词。
第二段文本:
甲:这里发现您的一笔借款记录。
甲:您这边一直不处理,公司现在已经认定您这个合同是恶意拖欠了。
甲:恶意拖欠已经结清的合同都是会移交到户籍地进行个案处理的。
甲:可能对您的征信造成影响,先生。
乙:哦,那我尽快处理一下吧。
从上述第二段文本整体来看,第三句话中的敏感词“户籍地”具有风险性,因此,可对包含第三句话及第三句话的前后各两句话进行分词处理,并将第二段文本中的“恶意拖欠”、“移交”、“处理”、“征信”确定为敏感词“户籍地”对应的黑名单词。
具体的,在第一种实施方式中,可将在上述两段文本中确定的黑名单词存入敏感词“户籍地”对应的黑名单的词库中,并将在上述两段文本中确定的白名单词存入敏感词“户籍地”对应的白名单的词库中。
在第一种实施方式中,一敏感词仅对应一个黑名单和一个白名单。
在第二种实施方式中,上述两段文本为借贷语义环境中的对话,因此,可将在上述两段文本中确定的黑名单词存入敏感词“户籍地”对应的借贷语义环境黑名单的词库中,并将在上述两段文本中确定的白名单词存入敏感词“户籍地”对应的借贷语义环境白名单的词库中。
在第二种实施方式中,一敏感词可在不同语义环境下,对应不同的黑名单和白名单,例如:在借贷语义环境下,敏感词“户籍地”与借贷语义环境黑名单和借贷语义环境白名单对应。在职场语义环境下,敏感词“户籍地”与职场语义环境黑名单和职场语义环境白名单对应。
同理,可基于上述方式,将两段文本替换为职场语义环境下的对话文本,确定职场语义环境黑名单和职场语义环境白名单中的词。还可基于上述方式,将两段文本替换为任意语义环境下的对话文本,确定相应语义环境黑名单和相应语义环境白名单中的词。
第二,在确定敏感词对应的预设样本中的正样本和负样本时,实际过程可如下:
获取若干包含敏感词的文本。
从若干包含敏感词的文本中,针对每一个敏感词筛选出预设正样本数量条,包含敏感词且在语义上具有风险性的文本,以作为对应敏感词的正样本。
从若干包含敏感词的文本中,针对每一个敏感词筛选出预设负样本数量条,包含敏感词且在语义上不具有风险性的文本,以作为对应敏感词的负样本。
预设正样本数量和预设负样本数量可以相同也可以不同,预设正样本数量和预设负样本数量的具体数值可以由所需要的敏感词检测精度和效率决定,此处不作限定。
可选地,在一些实施例中,在步骤S11之前,还包括:
获取校验文本。
获取校验文本所对应的目标敏感词标注结果。
输入校验文本,并运行敏感词检测方法,以得到检测结果。
比较目标敏感词标注结果和检测结果,并基于比较结果调整敏感词对应的黑名单词和白名单词,以及及预设样本。
具体地,目标敏感词标注结果可以是人工标注结果。比较分析目标敏感词标注结果和检测结果,并基于比较结果调整敏感词对应的黑名单词和白名单词及预设样本的步骤具体可包括:
基于目标敏感词标注结果和检测结果的比较,输出错误案例,其中,错误案例可以是目标敏感词标注结果和检测结果不一样时的案例。
基于错误案例,对敏感词对应的黑名单词、白名单词和预设样本进行替换或增加或删除。
基于上述方式,可对敏感词对应的黑名单词、白名单词和预设样本不断进行调整,以不断提高敏感词检测的准确率。
在预设样本包括正样本和负样本的情况下,基于错误案例,对预设样本进行替换或增加或删除的步骤具体可包括:基于错误案例,对正样本和/或负样本中的文本进行替换或增加或删除。
图2是本申请敏感词检测方法的一实施例的另一流程示意图。为清楚描述本公开实施例所提出的方案,以如下方案进行举例:
步骤S11:获取目标文本,对目标文本进行分词处理。
步骤S12:在目标文本中存在敏感词的情况下,确定目标文本中与敏感词对应的黑名单词和白名单词的数量。
其中,黑名单词和白名单词为目标文本中的词,且黑名单词和白名单词与敏感词具有关联关系。
在步骤S11执行完毕后,若目标文本中黑名单词的数量大于目标文本中白名单词的数量,则执行步骤S13。若目标文本中黑名单词的数量等于目标文本中白名单词的数量,则执行步骤S14。
步骤S13:在目标文本中黑名单词的数量大于目标文本中白名单词的数量的情况下,将敏感词确定为目标敏感词。
步骤S14:在目标文本中黑名单词的数量等于目标文本中白名单词的数量的情况下,将目标文本与预设样本进行相似度分析。
若相似度分析满足预设条件,则执行步骤S15。
步骤S15:在相似度分析满足预设条件的情况下,将敏感词确定为目标敏感词。
区别于现有技术,本申请的技术方案先判断目标文本中是否存在敏感词,在存在敏感词的情况下,确定目标文本中与该敏感词对应的黑名单词和白名单词,之后对黑名单词和白名单词的数量进行比较,并在黑名单词比白名单词的数量多时将敏感词确定为目标敏感词。基于上述方式,避免了直接用文本与敏感词库是否匹配来查找确定目标敏感词而导致的错误识别目标敏感词的现象或漏检现象,基于上述判断敏感词是否存在以及黑名单词和白名单词的数量比较的处理方式,实现了更加精准的敏感词检测,提高了敏感词检测方法的准确性,本实施例的技术方案维护简便,可扩展性好,可以实现以低成本完成相关应用场景下的敏感词检测任务的更新迭代,且本申请提出的方案较深度学习方法具备方法简单,易于理解的优势,便于应用场景的业务人员使用和完善,本申请提出的方案较现有方案具备更优的敏感词歧义识别功能,具备更好的准确率。
图3是本申请敏感词检测装置的一实施例的结构示意图。
本申请还提出一种敏感词检测装置,如图3所示,敏感词检测装置30包括:处理器31、存储器32以及总线33。
该处理器31、存储器32分别与总线33相连,该存储器32中存储有程序指令,处理器31用于执行程序指令以实现上述实施例中的敏感词检测方法。
在本实施例中,处理器31还可以称为CPU(Central Processing Unit,中央处理单元)。处理器31可能是一种集成电路芯片,具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。
区别于现有技术,本申请的技术方案先判断目标文本中是否存在敏感词,在存在敏感词的情况下,确定目标文本中与该敏感词对应的黑名单词和白名单词,之后对黑名单词和白名单词的数量进行比较,并在黑名单词比白名单词的数量多时将敏感词确定为目标敏感词。基于上述方式,避免了直接用文本与敏感词库是否匹配来查找确定目标敏感词而导致的错误识别目标敏感词的现象或漏检现象,基于上述判断敏感词是否存在以及黑名单词和白名单词的数量比较的处理方式,实现了更加精准的敏感词检测,提高了敏感词检测方法的准确性。
图4是本申请计算机可读存储介质的一实施例的结构示意图。
本申请提出一种计算机可读存储介质,如图4所示,计算机可读存储介质40其上存储有程序指令41,程序指令41被处理器(图未示)执行时实现上述实施例中的敏感词检测方法。
本实施例计算机可读存储介质40可以是但不局限于U盘、SD卡、PD光驱、移动硬盘、大容量软驱、闪存、多媒体记忆卡、服务器、FPGA或ASIC中的存储单元等。
区别于现有技术,本申请的技术方案先判断目标文本中是否存在敏感词,在存在敏感词的情况下,确定目标文本中与该敏感词对应的黑名单词和白名单词,之后对黑名单词和白名单词的数量进行比较,并在黑名单词比白名单词的数量多时将敏感词确定为目标敏感词。基于上述方式,避免了直接用文本与敏感词库是否匹配来查找确定目标敏感词而导致的错误识别目标敏感词的现象或漏检现象,基于上述判断敏感词是否存在以及黑名单词和白名单词的数量比较的处理方式,实现了更加精准的敏感词检测,提高了敏感词检测方法的准确性。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种敏感词检测方法,其特征在于,包括:
获取目标文本,对所述目标文本进行分词处理;
在所述目标文本中存在敏感词的情况下,在与所述敏感词对应的黑名单中确定所述目标文本中的黑名单词的数量,并在与所述敏感词对应的白名单中确定所述目标文本中的白名单词的数量,其中,所述黑名单词和所述白名单词为所述目标文本中的词,且所述黑名单词和白名单词与所述敏感词具有关联关系;
在所述目标文本中黑名单词的数量大于所述目标文本中白名单词的数量的情况下,将所述敏感词确定为目标敏感词。
2.根据权利要求1所述的敏感词检测方法,其特征在于,每个所述敏感词对应一个黑名单及一个白名单;
所述确定所述目标文本中与所述敏感词对应的黑名单词和白名单词的数量具体包括:
根据所述敏感词在黑名单库中匹配对应的黑名单,所述黑名单库中包括多个敏感词对应的黑名单;
在所述敏感词匹配到对应的黑名单的情况下,搜索所述目标文本中各个分词是否存在于对应的黑名单中,若存在,则为所述敏感词对应的黑名单词;
根据所述敏感词在白名单库中匹配对应的白名单,所述白名单库中包括多个敏感词对应的白名单;
在所述敏感词匹配到对应的白名单的情况下,搜索所述目标文本中各个分词是否存在于对应的白名单中,若存在,则为所述敏感词对应的白名单词;
在所述目标文本中确定与所述黑名单匹配的黑名单词数量,在所述目标文本中确定与所述白名单匹配的白名单词数量。
3.根据权利要求1所述的敏感词检测方法,其特征在于,还包括:
在所述目标文本中黑名单词的数量等于所述目标文本中白名单词的数量的情况下,将所述目标文本与预设样本进行相似度分析;
在所述相似度分析满足预设条件的情况下,将所述敏感词确定为目标敏感词。
4.根据权利要求3所述的敏感词检测方法,其特征在于,所述将所述目标文本与预设样本进行相似度分析的步骤包括:
从所述预设样本中选取设定数量的正样本,所述正样本为包括所述敏感词且具有敏感含义的文本;
从所述预设样本中选取设定数量的负样本,所述负样本为包括所述敏感词且无敏感含义的文本;
将所述目标文本与所述正样本进行相似度分析以得到第一相似度,并将所述目标文本与所述负样本进行相似度分析以得到第二相似度;
在所述第一相似度大于或等于所述第二相似度的情况下,判定所述相似度分析满足预设条件。
5.根据权利要求4所述的敏感词检测方法,其特征在于,所述将所述目标文本与所述正样本进行相似度分析以得到第一相似度的步骤包括:
将所述目标文本与设定数量的正样本逐一进行相似度比较,以得到多个第一子相似度;
从所述多个第一子相似度中选定第一预设数量的第一子相似度,并将选定的所述第一子相似度进行均值运算,以得到所述第一相似度。
6.根据权利要求4或5所述的敏感词检测方法,其特征在于,所述将所述目标文本与所述负样本进行相似度分析以得到第二相似度的步骤包括:
将所述目标文本与所述设定数量的负样本逐一进行相似度比较,以得到多个第二子相似度;
从所述多个第二子相似度中选定第二预设数量的第二子相似度,并将选定的第二子相似度进行均值运算,以得到所述第二相似度。
7.根据权利要求3至5任一项所述的敏感词检测方法,其特征在于,在所述获取目标文本的步骤之前,还包括:
获取校验文本;
获取所述校验文本所对应的目标敏感词标注结果;
输入校验文本,并运行所述敏感词检测方法,以得到检测结果;
比较所述目标敏感词标注结果和所述检测结果,并基于比较结果调整所述敏感词对应的黑名单词和白名单词,以及所述预设样本。
8.根据权利要求1至5任一项所述的敏感词检测方法,其特征在于,还包括:
获取预设业务场景的文本;
提取所述预设业务场景中的敏感词,并根据预设要求在所述敏感词的上下文确定敏感词文本范围,并将所述敏感词文本范围内的能够使所述敏感词有责的搭配词确定为所述敏感词对应的黑名单词,以及将所述敏感词文本范围内的能够使所述敏感词无责的搭配词确定为所述敏感词对应的白名单词。
9.一种敏感词检测装置,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令,所述处理器用于执行所述程序指令以实现如权利要求1至8任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令被处理器执行时实现如权利要求1至8任一项所述方法。
CN202111145740.0A 2021-09-28 2021-09-28 敏感词检测方法、装置及计算机可读存储介质 Active CN114048740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111145740.0A CN114048740B (zh) 2021-09-28 2021-09-28 敏感词检测方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111145740.0A CN114048740B (zh) 2021-09-28 2021-09-28 敏感词检测方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114048740A CN114048740A (zh) 2022-02-15
CN114048740B true CN114048740B (zh) 2022-10-28

Family

ID=80204670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111145740.0A Active CN114048740B (zh) 2021-09-28 2021-09-28 敏感词检测方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114048740B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221891B (zh) * 2022-06-16 2023-05-05 深圳市八方通科技开发有限公司 基于上下文语义分析的目标信息检测方法、装置、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103347009A (zh) * 2013-06-20 2013-10-09 新浪网技术(中国)有限公司 一种信息过滤方法及装置
CN105653563A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置
CN109714341A (zh) * 2018-12-28 2019-05-03 厦门服云信息科技有限公司 一种Web恶意攻击识别方法、终端设备及存储介质
CN111061874A (zh) * 2019-12-10 2020-04-24 苏州思必驰信息科技有限公司 敏感信息检测方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9055093B2 (en) * 2005-10-21 2015-06-09 Kevin R. Borders Method, system and computer program product for detecting at least one of security threats and undesirable computer files

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103347009A (zh) * 2013-06-20 2013-10-09 新浪网技术(中国)有限公司 一种信息过滤方法及装置
CN105653563A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置
CN109714341A (zh) * 2018-12-28 2019-05-03 厦门服云信息科技有限公司 一种Web恶意攻击识别方法、终端设备及存储介质
CN111061874A (zh) * 2019-12-10 2020-04-24 苏州思必驰信息科技有限公司 敏感信息检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于Word2vec的敏感内容识别技术;金贵涛等;《通信技术》;20191110(第11期);全文 *

Also Published As

Publication number Publication date
CN114048740A (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
CN110020422B (zh) 特征词的确定方法、装置和服务器
US10740380B2 (en) Incremental discovery of salient topics during customer interaction
CN111639177B (zh) 文本提取方法和装置
CN109271489B (zh) 一种文本检测方法及装置
US20170277756A1 (en) Approach to Recommending Mashups
US10565311B2 (en) Method for updating a knowledge base of a sentiment analysis system
CN107992484B (zh) 一种评测ocr系统的性能的方法、设备及存储介质
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
CN112163072A (zh) 基于多数据源的数据处理方法以及装置
US11423219B2 (en) Generation and population of new application document utilizing historical application documents
CN114048740B (zh) 敏感词检测方法、装置及计算机可读存储介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
EP4273737A1 (en) Language labeling method and apparatus, and computer device and storage medium
CN114117038A (zh) 一种文档分类方法、装置、系统及电子设备
CN111046627A (zh) 一种中文文字显示方法及系统
US10191899B2 (en) System and method for understanding text using a translation of the text
CN111291535B (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
US8768941B2 (en) Document data processing device
KR102028356B1 (ko) 코멘트 기반의 광고 추천 장치 및 방법
US20220377095A1 (en) Apparatus and method for detecting web scanning attack
CN110895654A (zh) 分段方法、分段系统及非暂态电脑可读取媒体
CN114743012A (zh) 一种文本识别方法及装置
CN113779983B (zh) 文本数据处理方法以及装置、存储介质、电子装置
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant