CN112016317A - 基于人工智能的敏感词识别方法、装置及计算机设备 - Google Patents
基于人工智能的敏感词识别方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN112016317A CN112016317A CN202010927419.7A CN202010927419A CN112016317A CN 112016317 A CN112016317 A CN 112016317A CN 202010927419 A CN202010927419 A CN 202010927419A CN 112016317 A CN112016317 A CN 112016317A
- Authority
- CN
- China
- Prior art keywords
- word
- text information
- sensitive
- combination
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于人工智能的敏感词识别方法、装置及计算机设备,涉及人工智能技术领域。其中方法包括:首先获取待识别的文本信息;再识别所述文本信息中包含的目标词槽组合,其中,所述目标词槽组合由至少一预设词槽组成;然后根据所述目标词槽组合和所述目标词槽组合在所述文本信息中的中间字词信息,判断所述文本信息是否包含敏感词;若判定所述文本信息包含敏感词,则对所述文本信息进行限制处理。本申请可提高敏感词识别的精准度。此外,本申请还涉及区块链技术,文本数据可存储于区块链中,以保证数据私密和安全性。
Description
技术领域
本申请涉及人工智能技术领域,尤其是涉及到一种基于人工智能的敏感词识别方法、装置及计算机设备。
背景技术
随着社交软件的发展,用户与用户之间的沟通方式变得越来越多样化。但与此同时也带来了一个无法避免的问题,传输的信息内容无法被有效的控制,包含敏感词的不良信息有可能通过各种渠道发送给用户,造成一定的不良影响,因此衍生出了敏感词过滤的需求。在用户发布内容时进行有效的敏感词质检,保证所输出内容的质量符合规范。
目前,传统的敏感词过滤通常使用一对一过滤,使用较为简单的正则表达式进行敏感词的匹配,或者是通过维护敏感词类库,在文本输入时在对应表中进行查找。例如,如果需要过滤掉敏感词A,那么就是在字符串中搜索所有与给出的正则表达式匹配的内容,或者查找敏感词类库中是否有相对应的词汇或内容,如果存在则返回对应的结果。
然而,本发明创造的发明人在研究中发现,传统的敏感词过滤方式有很大的局限性,只能匹配特定内容,容易被钻漏洞,跳过匹配规则,如在敏感词中间增加符号或空格等,进而不能达到应有的敏感词识别效果,影响了敏感词识别的精准性。
发明内容
有鉴于此,本申请提供了一种基于人工智能的敏感词识别方法、装置及计算机设备,主要目的在于改善目前传统的敏感词过滤方式会造成敏感词识别精准度较低的技术问题。
根据本申请的一个方面,提供了一种基于人工智能的敏感词识别方法,该方法包括:
获取待识别的文本信息;
识别所述文本信息中包含的目标词槽组合,其中,所述目标词槽组合由至少一预设词槽组成;
根据所述目标词槽组合和所述目标词槽组合在所述文本信息中的中间字词信息,判断所述文本信息是否包含敏感词;
若判定所述文本信息包含敏感词,则对所述文本信息进行限制处理。
根据本申请的另一个方面,提供了一种基于人工智能的敏感词识别装置,该装置包括:
获取模块,用于获取待识别的文本信息;
识别模块,用于识别所述文本信息中包含的目标词槽组合,其中,所述目标词槽组合由至少一预设词槽组成;
判断模块,用于根据所述目标词槽组合和所述目标词槽组合在所述文本信息中的中间字词信息,判断所述文本信息是否包含敏感词;
处理模块,用于若判定所述文本信息包含敏感词,则对所述文本信息进行过滤处理。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述基于人工智能的敏感词识别方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述基于人工智能的敏感词识别方法。
借由上述技术方案,本申请提供的一种基于人工智能的敏感词识别方法、装置及计算机设备,可识别文本信息中包含的目标词槽组合,该词槽组合中由至少一预设词槽组成,然后根据目标词槽组合、和目标词槽组合在文本信息中的中间字词信息,判断文本信息是否包含敏感词。与目前现有的传统的敏感词过滤方式相比,本申请通过词槽组合+词槽组合之间中间字词的判别方式,即便文本敏感词中间添加符号或空格,或者是添加一些词语、再或者是通过其他文本进行相同语义改写等,均能够精准识别出文本信息中是否包含敏感词,可提高敏感词识别的精准度。若判定文本信息中包含敏感词,还可对文本信息进行及时地限制处理,整个敏感词识别+限制处理的过程,可自动化实现,提高了敏感词处理效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于人工智能的敏感词识别方法的流程示意图;
图2示出了本申请实施例提供的另一种基于人工智能的敏感词识别方法的流程示意图;
图3示出了本申请实施例提供的一种基于人工智能的敏感词识别装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对改善目前传统的敏感词过滤方式会造成敏感词识别精准度较低的技术问题,本实施例提供了一种基于人工智能的敏感词识别方法,如图1所示,该方法包括:
101、获取待识别的文本信息。
待识别的文本信息可以为通讯消息待发布的文本信息,如即时通讯软件中的消息发送文本、平台客服人员与用户之间的在线沟通文本、公众平台的消息发布文本(如网页评论发布的文本、商品评价的文本、视频弹幕发送的文本等)等。除此之外,待识别的文本信息还可为指定范围内的文本(如对公开发表的电子读物中的指定范围文本、公开下发的通知消息中的指定范围文本等)等。
对于本实施例的执行主体可为用于敏感词识别和处理的装置或设备,可部署在客户端或者服务端等,可提高敏感词识别的精准度。
102、识别文本信息中包含的目标词槽组合。
其中,目标词槽组合由至少一预设词槽组成。本实施例中可预先设置词槽,这些词槽可根据不同的敏感词确定,具体可包含敏感词的词槽(如“减免本金”、“减免租金”、“个人贷款”等,以及符合银行卡号、身份证号、账号密码格式的一系列数字符号等的词槽)、非敏感词的词槽(如“不会”、“必须”等词槽、以及单个数字、单个文字等词槽)、敏感词同义词的词槽(如与敏感词实质同义、但不属于敏感词范围的词槽),还可包含根据敏感词拆分得到的各个分词(如对于敏感词“去你单位调查”拆分得到的“去你”、“单位”、“调查”三个词槽)。然后将这些词槽按照相应的敏感词识别进行组合搭配,得到词槽组合。
对于本实施例,可将预先统计的词槽组合保存预定存储位置(如数据库、映射表等)中,后续在识别文本信息中包含的词槽组合时,可将文本信息中的各个分词与预定存储位置中的各个词槽组合进行匹配,找到匹配的词槽组合,作为文本信息中包含的目标词槽组合。
103、根据文本信息中包含的目标词槽组合、和目标词槽组合在文本信息中的中间字词信息,判断文本信息是否包含敏感词。
中间字词信息可为词槽组合包含的各个词槽在文本信息中的之间出现的字词信息。例如,文本信息为“XX找人去你的单位,对你做个背景调查后发现XX”,其中XX代表文本信息中省略展示的字词,该文本信息中包含的目标词槽组合为“去你”+“单位”+“调查”,而“去你”与“单位”之间的“的”、以及“单位”与“调查”之间的“,对你做个背景”为中间字词。
在本实施例中,敏感词对应的词槽组合,在一定程度上与该敏感词的含义相同,可以是敏感词本身组成的词槽组合;或者是单看其一并不为敏感词,但是组合在一起具有敏感词含义的词槽组合等。在具体的应用场景中,有时发布的实际包含敏感词的文本中会掺杂着空格、符号、或是添加一些词语、或是通过其他文本进行相同语义改写等,进而影响文本信息中是否存在敏感词的判别精准度。而本实施例不仅通过词槽组合的判别,以及词槽组合在文本信息中的中间字词信息的判别,可实现在这些情况下均能够精准识别出文本信息中是否包含敏感词,可提高敏感词识别的精准度。
104、若判定文本信息包含敏感词,则对文本信息进行限制处理。
例如,在判定文本信息包含敏感词时,可对文本信息进行标记提醒,告知存在敏感词信息,如对文本信息中包含目标词槽组合的文本部分进行突出显示(如高亮、加粗、添加下划线等),或限制包含该文本信息的通信消息发送出去等。
通过本实施例中的基于人工智能的敏感词识别方法,可识别文本信息中包含的目标词槽组合,该词槽组合中由至少一预设词槽组成,然后根据目标词槽组合、和目标词槽组合在文本信息中的中间字词信息,判断文本信息是否包含敏感词。与目前现有的传统的敏感词过滤方式相比,本实施例通过词槽组合+词槽组合之间中间字词的判别方式,即便文本敏感词中间添加符号或空格,或者是添加一些词语、再或者是通过其他文本进行相同语义改写等,均能够精准识别出文本信息中是否包含敏感词,可提高敏感词识别的精准度。若判定文本信息中包含敏感词,还可对文本信息进行及时地限制处理,整个敏感词识别+限制处理的过程,可自动化实现,提高了敏感词处理效率。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于人工智能的敏感词识别方法,如图2所示,该方法包括:
201、获取待识别的文本信息。
在待识别的文本信息进行敏感词识别之前,为了保证文本信息的安全性和私密性,可选的,该文本信息可预先保存在区块链中,相应的,步骤201具体可包括:从区块链中获取待识别的文本信息。例如,可从区块链的目标节点中获得待识别的文本信息,然后对该文本信息进行敏感词识别。需要说明的是,本实施例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
202、对文本信息中的字符空格及预设特殊符号进行清除。
其中,预设特殊符合可为“@”、“#”、“¥”、“\”、“/”、“*”等符号。对于本实施例,在对文本信息进行词槽组合识别之前,对文本信息中的字符空格及预设特殊符号等进行清除,可有效减少噪音干扰,可提高词槽组合以及对应检测规则的精确匹配。
进一步的,除了清除文本信息中的字符空格及预设特殊符号以外,还可去除文本信息中的连续重复字词、连续重复的符号等,还可去除文本信息中会造成匹配干扰的生僻字等,从而可进一步减少噪音干扰。
203、识别清除字符空格及预设特殊符号后的文本信息中包含的目标词槽组合。
本实施例可首先进行敏感词识别规则的配置,该规则配置可分为三层:词槽(slot)、规则(rule)、模型(model)。词槽里面是一些敏感词、非敏感词、敏感词同义词等的预设关键词,规则是词槽的组合(相当于一条预设校验规则,即文本信息符合存在敏感词时的判定标准),模型是规则的组合(相当于多条校验规则的组合搭配)。在建立词槽后,可以进行规则和模型的自由组合,根据业务场景制定符合需求的敏感词过滤策略。例如,在建立词槽、规则、模型之后,将清除字符空格及预设特殊符号后的文本信息中的各个分词与规则中的词槽组合进行匹配,进而找到其包含的目标词槽组合。
需要说明的是,经过识别匹配,文本信息中可能会存在至少一目标词槽组合,即存在多组不同的目标词槽组合,后续根据这些目标词槽组合进行综合判定,具体执行步骤204至206a、206b所示的过程。
204、根据各个目标词槽组合对应的至少一目标校验规则,获取目标校验规则组合。
在本实施例中,单个词槽组合可对应至少一目标校验规则,每一校验规则中相当于预设了包含敏感词的判定标准。当单个词槽组合对应至少两个校验规则时,相当于其对应的是校验规则组合。需要说明的是,本实施例可根据实际需求预先限定词槽组合对应的是单个校验规则,还是包含至少两个校验规则的校验规则组合,即限定词槽组合可用于规则层或模型层。通过这种方式可限定敏感词出现的范围,也就是检出的内容,作用范围为规则层或模型层,在指定范围进行检测,进而可灵活地使用校验规则进行敏感词识别,在语义双关的情况下能够采用多种校验规则从不同的角度进行准确判断,可提高敏感词识别的精确度。
本实施例将每个目标词槽组合对应的至少一目标校验规则进行组合,得到目标校验规则组合,该目标检验规则组合中包含至少一预设的敏感词判定标准。
205、根据目标词槽组合在文本信息中的词槽排列信息和词槽之间的中间字词信息,分别判断文本信息是否符合目标检验规则组合中多个预设的敏感词判定标准。
在具体的判断过程中,利用目标检验规则组合中的各个预设的敏感词判定标准,根据目标词槽组合在文本信息中的词槽排列信息和词槽之间的中间字词信息,判断文本信息是否符合这些敏感词判定标准中的一个或多个。
示例性的,给出几个敏感词判定标准的示例,步骤205具体可包括:若敏感词判定标准为目标词槽组合中的各个词槽均在文本信息中出现,且中间字词数量在限定范围内为符合判定的标准,则在判定词槽排列信息(如词槽在文本中先后出现的顺序)符合目标词槽组合对应的预设词槽顺序,且中间字词的数量小于或等于预设数量阈值时,确定文本信息包含敏感词;若敏感词判定标准为目标词槽组合中的各个词槽均在文本信息中出现,且中间字词数量在限定范围内为不符合判定的标准,则在判定词槽排列信息符合目标词槽组合对应的预设词槽顺序,且中间字词的数量大于或等于预置数量阈值时,确定文本信息包含敏感词。
其中,由于有时不同词语搭配的先后顺序不同,得到的语义也不会有所区别,因此每一词槽组合均有各自对应的预设词槽顺序,用于判定是否具有敏感词的含义,单个词槽组合可根据实际情况对应至少一种预设词槽顺序。中间字词部分用于语言修饰词槽组合的语义,而预设数量阈值用于判定经过语言修饰的词槽组合是否仍具备敏感词的含义,该阈值大小可根据实际情况预先设定。
例如,由词槽“去你”、“单位”、“调查”组成的词槽组合,经过匹配可得到对应的预设校验规则为【且】的判定标准,三个词槽中间允许可编辑的字为8个,若用户发送的信息中同时包含这三个词汇且中间字词少于8个,则被判定符合该【且】的判定标准,即确定用户发送的信息中含有敏感词。而如果这三个敏感词中间编辑的字大于8个,此时被判定不符合该【且】的判定标准,即确定用户发送的信息中不含有敏感词。【且】是指这个规则前后的多个词槽都出现才可被命中,并且可设置中间字词。举例来说,对于“找人去你的单位,对你做个背景调查。”的文本信息,词槽组合在这段文本中的中间字为“去你”与“单位”之间的“的”、以及“单位”与“调查”之间的“,对你做个背景”为中间字词,中间字词的数量相加之和等于8个,则被认为命中对应的校验规则标准,进而确定这段文本中包含敏感词。
再例如,由敏感词的词槽“减免本金”和非敏感词的词槽“不会”组成的词槽组合,经过匹配可得到对应的预设校验规则为【非】的判定标准,两个敏感词中间允许可编辑的字为3个。若用户发送的信息中同时包含这两个词、且中间字词少于3个,则被判定符合该【非】的判定标准,即确定用户发送的信息中不含有敏感词。【非】的校验规则为设置一个敏感词的词槽和一个非敏感词的词槽,如两个词一起出现,则不会被命中,并且可设置中间字词。举例来说,对于“不会减免本金”的文本信息,"不会"与“减免本金”这两个词槽之间的中间字词数量为0,被认为没有命中对应的校验规则标准,进而确定这段文本中不含有敏感词。而对于“不会的,您放心,肯定会减免本金”,“不会”与“减免本金”这两个词槽之间的中间字词“的,您放心,肯定会”的数量大于3个,则认为命中对应的校验规则标准,进而确定这段文本中含有敏感词。
在实际应用当中,校验规则组合可包含至少两个校验规则,相当于通过步骤203中的模型进行敏感词识别。例如,校验规则组合中包含三个校验规则,校验规则一为身份证的校验,校验规则二为敏感词+与的校验,校验规则三为敏感词+非的校验。其中,利用校验规则一进行敏感词识别时,可识别文本信息(去除字符空格、预设特殊符号、生僻字等噪音文本后)中是否包含一串数字类型的词槽,若包含该类型的词槽,可判断该词槽对应的一串数字是否符合身份证格式,如果符合身份证格式,则判定符合校验规则一,即可认为文本信息中存在敏感词。而利用校验规则二和校验规则三进行敏感词识别时可参照上述两个示例,在此不再赘述。
在实际校验过程中,目标检验规则组合内可能会包含数量较多的校验规则,如果逐一进行校验判断,会影响到时间效率的问题。因此为了提高敏感词识别的效率,可选的,步骤205具体还可包括:若目标检验规则组合中包含执行优先级不同的至少一预设的敏感词判定标准,则按照目标检验规则组合中各个敏感词判定标准的执行优先级从高到低的顺序,依次对该文本信息进行判断;在依次判断的过程中,若确定存在文本信息符合的敏感词判定标准,则停止后续对文本信息进行判断,并将当前得到的判断结果作为利用目标检验规则组合对文本信息进行判断的结果。
例如,目标检验规则组合中包含五个校验规则,这五个校验规则在该检验规则组合中预先设置有执行优先级(如根据敏感词识别成功率从高到低进行预设优先级),按照执行优先级从高到低排序为:校验规则一>校验规则三>校验规则四>校验规则五>校验规则二,后续按照这个排序的顺序,依次利用对应的校验规则对文本信息进行判断,如果通过校验规则三判断出文本信息存在敏感词,则停止后续校验规则四、校验规则五、校验规则二的校验过程。通过这种可选方式,无需逐个校验规则进行敏感词校验,即可尽可能地快速得到判断结果,可提高敏感词识别的效率。
在本实施例的具体应用实现中,可限定计算优先范围,类似于四则运算,在优先范围内出现的校验规则先执行。如校验规则中有特定的正则符号代表不同的意思,优先范围匹配的校验规则可放置在括号“()”内,在执行校验规则时会优先执行括号内的规则内容,再执行其他的校验规则。
206a、若文本信息符合目标检验规则组合中至少一组敏感词判定标准,则判定文本信息包含敏感词。
在本实施例中,一组敏感词判定标准可包含至少一条敏感词判定标准,即可为一条、或两条、或多条的敏感词判定标准,具体可根据实际敏感词判定精度需求而定。
与步骤206a并列的步骤206b、若文本信息均不符合目标检验规则组合中各个敏感词判定标准,则判定文本信息不包含敏感词。
在本实施例中,可利用检验规则组合中的多个预设的敏感词判定标准,分别对文本信息进行敏感词识别判断,如果经过判断,符合至少之一预设的敏感词判定标准,则可判定文本信息包含敏感词,进而可提高敏感词识别的精确度。
207、若判定文本信息包含敏感词,则对文本信息进行限制处理。
可选的,对文本信息进行限制处理,具体可包括:阻止发布文本信息;或,将文本信息中包含目标词槽组合的文本部分利用预设字符(如“*”、“-”等字符,起到脱敏的效果)替换后再进行发布;或,将文本信息发送给审核模块进行审核,若审核通过则进行发布。例如,在判定文本信息中含有敏感词后,系统会阻止用户发布敏感词汇,或将用户发出来的含有敏感词的内容直接删除。对于某些敏感性较低的词汇,发出来后不会立即删除,需要审核人员进行二次人工审核。
进一步可选的,在步骤207之后,本实施例方法还可包括:记录文本信息中包含目标词槽组合的文本部分作为样本数据;然后定期根据记录的各个样本数据进行分析,统计各个样本数据中出现频率大于预设频率阈值的,且与已有的词槽组合不同的字词组合;将统计得到的字词组合,与预设敏感词和/或预设敏感语句进行语义相似度计算;将语义相似度大于预设相似度阈值的目标字词组合,作为新的词槽组合,并根据包含新的词槽组合的样本数据,更新与新的词槽组合对应的校验规则;后续可利用新的词槽组合和与其对应的检验规则,判断其他文本信息是否包含敏感词。通过这种定时自动更新词槽组合和与其对应检验规则的方式,可实现敏感词识别系统的自动更新,以便进一步提高后续的敏感词识别精确度。整个敏感词识别系统相当于具有机器学习的功能,可实现人工智能的敏感词精确识别。
例如,对于敏感话题的文章,通常其不只包含一组具有敏感词语义的词槽组合,会利用多种不同词语来进行敏感话题的表达。因此利用已有的词槽组合和其对应的校验规则,在被判定为包含敏感词的文本数据中有时也会包含其他具有敏感词含义的字词组合。本实施例将这些文本数据收集起来,作为样本数据;定期根据这些样本数据进行分析,找到出现频率大于一定阈值的、且与已有的词槽组合不同的字词组合,将其与预设敏感词和/或预设敏感语句进行语义相似度计算,进而找到那些之前没被发现的,同样具有敏感词含义的新词槽组合,并制定其对应的校验规则。这样后续可利用新的词槽组合和与其对应的检验规则,判断其他文本信息是否包含敏感词,从而找到更多实际具有敏感词含义的文本数据。
本实施例方法还可应用在智能敏感词质检的系统中,可使用算法进行词条的匹配,可通过设置特定的规则和策略,减少噪音的干扰,能够横跨文本,进行精准的敏感词过滤。构建敏感词库后,通过算法来遍历文本,并与敏感词树匹配,进而达到识别并过滤敏感词汇的作用。可根据客户需求智能策略定制,高效过滤违禁消息、恶意推广、低俗辱骂、低质灌水等多类敏感词和违禁变种。智能质检系统的内容审核识别准确率高,能够对文本进行快速处理,极大减少人工审核工作量,杜绝线上风险,提高内容输出质量,净化网络环境,保证良好的用户体验。
进一步的,作为图1和图2所示方法的具体实现,本实施例提供了一种基于人工智能的敏感词识别装置,如图3所示,该装置包括:获取模块31、识别模块32、判断模块33、处理模块34。
获取模块31,用于获取待识别的文本信息;
识别模块32,用于识别所述文本信息中包含的目标词槽组合,其中,所述目标词槽组合由至少一预设词槽组成;
判断模块33,用于根据所述目标词槽组合和所述目标词槽组合在所述文本信息中的中间字词信息,判断所述文本信息是否包含敏感词;
处理模块34,用于若判定所述文本信息包含敏感词,则对所述文本信息进行过滤处理。
在具体的应用场景中,判断模块33,具体用于根据各个所述目标词槽组合对应的至少一目标校验规则,获取目标校验规则组合;根据所述目标词槽组合在所述文本信息中的词槽排列信息和词槽之间的中间字词信息,分别判断所述文本信息是否符合所述目标检验规则组合中多个预设的敏感词判定标准;若所述文本信息符合所述目标检验规则组合中至少一组敏感词判定标准,则判定所述文本信息包含敏感词;若所述文本信息均不符合所述目标检验规则组合中各个敏感词判定标准,则判定所述文本信息不包含敏感词。
在具体的应用场景中,判断模块33,具体还用于若敏感词判定标准为所述目标词槽组合中的各个词槽均在文本信息中出现,且中间字词数量在限定范围内为符合判定的标准,则在判定所述词槽排列信息符合所述目标词槽组合对应的预设词槽顺序,且所述中间字词的数量小于或等于预设数量阈值时,确定所述文本信息包含敏感词;若敏感词判定标准为所述目标词槽组合中的各个词槽均在文本信息中出现,且中间字词数量在限定范围内为不符合判定的标准,则在判定所述词槽排列信息符合所述目标词槽组合对应的预设词槽顺序,且所述中间字词的数量大于或等于预置数量阈值时,确定所述文本信息包含敏感词。
在具体的应用场景中,判断模块33,具体还用于若所述目标检验规则组合中包含执行优先级不同的至少一预设的敏感词判定标准,则按照所述目标检验规则组合中各个敏感词判定标准的执行优先级从高到低的顺序,依次对所述文本信息进行判断;在依次判断的过程中,若确定存在所述文本信息符合的敏感词判定标准,则停止后续对所述文本信息进行判断,并将当前得到的判断结果作为利用所述目标检验规则组合对所述文本信息进行判断的结果。
在具体的应用场景中,本装置还包括:记录模块和分析模块;
记录模块,用于在所述对所述文本信息进行限制处理之后,记录所述文本信息中包含所述目标词槽组合的文本部分作为样本数据;
分析模块,用于定期根据记录的各个样本数据进行分析,统计各个样本数据中出现频率大于预设频率阈值的,且与已有的词槽组合不同的字词组合;将统计得到的所述字词组合,与预设敏感词和/或预设敏感语句进行语义相似度计算;将语义相似度大于预设相似度阈值的目标字词组合,作为新的词槽组合,并根据包含所述新的词槽组合的样本数据,更新与所述新的词槽组合对应的校验规则;利用所述新的词槽组合和与其对应的检验规则,判断其他文本信息是否包含敏感词。
在具体的应用场景中,处理模块34,具体用于阻止发布所述文本信息;或,将所述文本信息中包含所述目标词槽组合的文本部分利用预设字符替换后再进行发布;或,将所述文本信息发送给审核模块进行审核,若审核通过则进行发布。
在具体的应用场景中,可选的,所述文本信息预先保存在区块链中;相应的,获取模块31,具体用于从所述区块链中获取所述文本信息;
识别模块32,具体用于对所述文本信息中的字符空格及预设特殊符号进行清除;识别清除字符空格及预设特殊符号后的所述文本信息中包含的目标词槽组合。
需要说明的是,本实施例提供的一种基于人工智能的敏感词识别装置所涉及各功能单元的其它相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本实施例还提供了一种非易失性可读存储介质,其上存储有计算机可读指令,该计算机可读指令被处理器执行时实现上述如图1和图2所示的基于人工智能的敏感词识别方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2所示的方法,以及图3所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,具体可以为个人计算机、笔记本电脑、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机可读指令;处理器,用于执行计算机可读指令以实现上述如图1和图2所示的基于人工智能的敏感词识别方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本实施例的技术方案,可识别文本信息中包含的目标词槽组合,该词槽组合中由至少一预设词槽组成,然后根据目标词槽组合、和目标词槽组合在文本信息中的中间字词信息,判断文本信息是否包含敏感词。与目前现有的传统的敏感词过滤方式相比,本实施例通过词槽组合+词槽组合之间中间字词的判别方式,即便文本敏感词中间添加符号或空格,或者是添加一些词语、再或者是通过其他文本进行相同语义改写等,均能够精准识别出文本信息中是否包含敏感词,可提高敏感词识别的精准度。若判定文本信息中包含敏感词,还可对文本信息进行及时地限制处理,整个敏感词识别+限制处理的过程,可自动化实现,提高了敏感词处理效率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种基于人工智能的敏感词识别方法,其特征在于,包括:
获取待识别的文本信息;
识别所述文本信息中包含的目标词槽组合,其中,所述目标词槽组合由至少一预设词槽组成;
根据所述目标词槽组合和所述目标词槽组合在所述文本信息中的中间字词信息,判断所述文本信息是否包含敏感词;
若判定所述文本信息包含敏感词,则对所述文本信息进行限制处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标词槽组合和所述目标词槽组合在所述文本信息中的中间字词信息,判断所述文本信息是否包含敏感词,具体包括:
根据各个所述目标词槽组合对应的至少一目标校验规则,获取目标校验规则组合;
根据所述目标词槽组合在所述文本信息中的词槽排列信息和词槽之间的中间字词信息,分别判断所述文本信息是否符合所述目标检验规则组合中多个预设的敏感词判定标准;
若所述文本信息符合所述目标检验规则组合中至少一组敏感词判定标准,则判定所述文本信息包含敏感词;
若所述文本信息均不符合所述目标检验规则组合中各个敏感词判定标准,则判定所述文本信息不包含敏感词。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标词槽组合在所述文本信息中的词槽排列信息和词槽之间的中间字词信息,分别判断所述文本信息是否符合所述目标检验规则组合中多个预设的敏感词判定标准,具体包括:
若敏感词判定标准为所述目标词槽组合中的各个词槽均在文本信息中出现,且中间字词数量在限定范围内为符合判定的标准,则在判定所述词槽排列信息符合所述目标词槽组合对应的预设词槽顺序,且所述中间字词的数量小于或等于预设数量阈值时,确定所述文本信息包含敏感词;
若敏感词判定标准为所述目标词槽组合中的各个词槽均在文本信息中出现,且中间字词数量在限定范围内为不符合判定的标准,则在判定所述词槽排列信息符合所述目标词槽组合对应的预设词槽顺序,且所述中间字词的数量大于或等于预置数量阈值时,确定所述文本信息包含敏感词。
4.根据权利要求2所述的方法,其特征在于,若所述目标检验规则组合中包含执行优先级不同的至少一预设的敏感词判定标准,则所述根据所述目标词槽组合在所述文本信息中的词槽排列信息和词槽之间的中间字词信息,分别判断所述文本信息是否符合所述目标检验规则组合中多个预设的敏感词判定标准,具体包括:
按照所述目标检验规则组合中各个敏感词判定标准的执行优先级从高到低的顺序,依次对所述文本信息进行判断;
在依次判断的过程中,若确定存在所述文本信息符合的敏感词判定标准,则停止后续对所述文本信息进行判断,并将当前得到的判断结果作为利用所述目标检验规则组合对所述文本信息进行判断的结果。
5.根据权利要求2所述的方法,其特征在于,在所述对所述文本信息进行限制处理之后,所述方法还包括:
记录所述文本信息中包含所述目标词槽组合的文本部分作为样本数据;
定期根据记录的各个样本数据进行分析,统计各个样本数据中出现频率大于预设频率阈值的,且与已有的词槽组合不同的字词组合;
将统计得到的所述字词组合,与预设敏感词和/或预设敏感语句进行语义相似度计算;
将语义相似度大于预设相似度阈值的目标字词组合,作为新的词槽组合,并根据包含所述新的词槽组合的样本数据,更新与所述新的词槽组合对应的校验规则;
利用所述新的词槽组合和与其对应的检验规则,判断其他文本信息是否包含敏感词。
6.根据权利要求1所述的方法,其特征在于,所述对所述文本信息进行限制处理,具体包括:
阻止发布所述文本信息;或,
将所述文本信息中包含所述目标词槽组合的文本部分利用预设字符替换后再进行发布;或,
将所述文本信息发送给审核模块进行审核,若审核通过则进行发布。
7.根据权利要求1所述的方法,其特征在于,所述文本信息预先保存在区块链中;
所述获取待识别的文本信息,具体包括:
从所述区块链中获取所述文本信息;
所述识别所述文本信息中包含的目标词槽组合,具体包括:
对所述文本信息中的字符空格及预设特殊符号进行清除;
识别清除字符空格及预设特殊符号后的所述文本信息中包含的目标词槽组合。
8.一种基于人工智能的敏感词识别装置,其特征在于,包括:
获取模块,用于获取待识别的文本信息;
识别模块,用于识别所述文本信息中包含的目标词槽组合,其中,所述目标词槽组合由至少一预设词槽组成;
判断模块,用于根据所述目标词槽组合和所述目标词槽组合在所述文本信息中的中间字词信息,判断所述文本信息是否包含敏感词;
处理模块,用于若判定所述文本信息包含敏感词,则对所述文本信息进行过滤处理。
9.一种非易失性可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现权利要求1至7中任一项所述的基于人工智能的敏感词识别方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现权利要求1至7中任一项所述的基于人工智能的敏感词识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010927419.7A CN112016317A (zh) | 2020-09-07 | 2020-09-07 | 基于人工智能的敏感词识别方法、装置及计算机设备 |
PCT/CN2020/124684 WO2021151333A1 (zh) | 2020-09-07 | 2020-10-29 | 基于人工智能的敏感词识别方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010927419.7A CN112016317A (zh) | 2020-09-07 | 2020-09-07 | 基于人工智能的敏感词识别方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112016317A true CN112016317A (zh) | 2020-12-01 |
Family
ID=73515434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010927419.7A Pending CN112016317A (zh) | 2020-09-07 | 2020-09-07 | 基于人工智能的敏感词识别方法、装置及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112016317A (zh) |
WO (1) | WO2021151333A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705211A (zh) * | 2021-10-29 | 2021-11-26 | 云账户技术(天津)有限公司 | 字号自动生成方法、装置、电子设备和可读存储介质 |
WO2024011933A1 (zh) * | 2022-07-11 | 2024-01-18 | 华为云计算技术有限公司 | 一种组合敏感词检测方法、装置及集群 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992471B (zh) * | 2017-11-10 | 2021-09-10 | 北京光年无限科技有限公司 | 一种人机交互过程中的信息过滤方法及装置 |
CN108197115B (zh) * | 2018-01-26 | 2022-04-22 | 上海智臻智能网络科技股份有限公司 | 智能交互方法、装置、计算机设备和计算机可读存储介质 |
CN108519970B (zh) * | 2018-02-06 | 2021-08-31 | 平安科技(深圳)有限公司 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
CN111339760A (zh) * | 2018-12-18 | 2020-06-26 | 北京京东尚科信息技术有限公司 | 词法分析模型的训练方法、装置、电子设备、存储介质 |
CN110096585A (zh) * | 2019-03-26 | 2019-08-06 | 珠海鹏游网络科技有限公司 | 一种智能敏感词过滤系统 |
-
2020
- 2020-09-07 CN CN202010927419.7A patent/CN112016317A/zh active Pending
- 2020-10-29 WO PCT/CN2020/124684 patent/WO2021151333A1/zh active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705211A (zh) * | 2021-10-29 | 2021-11-26 | 云账户技术(天津)有限公司 | 字号自动生成方法、装置、电子设备和可读存储介质 |
WO2024011933A1 (zh) * | 2022-07-11 | 2024-01-18 | 华为云计算技术有限公司 | 一种组合敏感词检测方法、装置及集群 |
Also Published As
Publication number | Publication date |
---|---|
WO2021151333A1 (zh) | 2021-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN102279875B (zh) | 钓鱼网站的识别方法和装置 | |
JP5460887B2 (ja) | 分類ルール生成装置及び分類ルール生成プログラム | |
CN111738011A (zh) | 违规文本的识别方法及装置、存储介质、电子装置 | |
CN106934275B (zh) | 一种基于个人信息的口令强度评测方法 | |
CN112686036B (zh) | 风险文本识别方法、装置、计算机设备及存储介质 | |
CN110737821B (zh) | 相似事件查询的方法、装置、存储介质和终端设备 | |
WO2021098651A1 (zh) | 一种风险实体获取方法及装置 | |
KR102135074B1 (ko) | 인공지능 기반의 팩트 체크 가이드라인을 이용한 가짜 뉴스 판별 시스템 | |
KR20210092979A (ko) | 가짜 뉴스 인공지능 판별 시스템 및 그 방법 | |
CN112328936A (zh) | 一种网站识别方法、装置、设备及计算机可读存储介质 | |
CN112016317A (zh) | 基于人工智能的敏感词识别方法、装置及计算机设备 | |
CN113076735A (zh) | 目标信息的获取方法、装置和服务器 | |
CN115238688B (zh) | 电子信息数据关联关系分析方法、装置、设备和存储介质 | |
CN114640499A (zh) | 一种对用户行为进行异常识别的方法及其装置 | |
CN109492401B (zh) | 一种内容载体风险检测方法、装置、设备及介质 | |
CN109672586A (zh) | 一种dpi业务流量识别方法、装置与计算机可读存储介质 | |
WO2024055603A1 (zh) | 一种未成年人文本识别方法及装置 | |
Alneyadi et al. | A semantics-aware classification approach for data leakage prevention | |
CN109918638B (zh) | 一种网络数据监测方法 | |
CN105786929A (zh) | 一种信息监测方法及装置 | |
Sakib et al. | Automated detection of sockpuppet accounts in wikipedia | |
Kadam et al. | Detection of fake social network account | |
Pan et al. | Improving authorship attribution in twitter through topic-based sampling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |