CN115017898A - 敏感文本的识别方法、装置、电子设备及存储介质 - Google Patents

敏感文本的识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115017898A
CN115017898A CN202210768483.4A CN202210768483A CN115017898A CN 115017898 A CN115017898 A CN 115017898A CN 202210768483 A CN202210768483 A CN 202210768483A CN 115017898 A CN115017898 A CN 115017898A
Authority
CN
China
Prior art keywords
text
sensitive
detected
matching
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210768483.4A
Other languages
English (en)
Inventor
覃星
白建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210768483.4A priority Critical patent/CN115017898A/zh
Publication of CN115017898A publication Critical patent/CN115017898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种敏感文本的识别方法、装置、电子设备及存储介质,涉及计算机技术领域,具体涉及自然语言处理、智能搜索等人工智能领域。具体实施方案为:获取样本敏感文本,并获取样本敏感文本中的多个敏感词;将多个敏感词与待检测文本进行匹配;响应于各敏感词均与待检测文本匹配成功,获取与待检测文本匹配的相邻两个敏感词在待检测文本中的间隔字符长度;响应于间隔字符长度均小于间隔字符长度阈值,确定待检测文本为敏感文本。通过判断样本敏感文本中的多个敏感词的间隔字符长度是满足判定条件,确定待检测文本中是否包含样本敏感文本,由此可以解决复合敏感词在文本中无法检测的问题,提升文本检测的正确率和实用性。

Description

敏感文本的识别方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,具体涉及自然语言处理、智能搜索等人工智能领域,尤其涉及一种敏感文本的识别方法、装置和电子设备及存储介质。
背景技术
在一些场景中,经常需要屏蔽敏感高危网站,防止舆论风险,需针对上述有风险网站和敏感言论进行屏蔽。
当前技术中,通常采取两种方法进行敏感词的匹配,一种是采用正则表达式进行匹配,适合逻辑简单,匹配字符串不大性能要求不高情况。另一种是精准匹配采用字符串匹配算法(The Knuth-Morris-Pratt Algorithm,KMP)、单词查找树(trie tree)和多模匹配算法(Aho-Corasick automaton),可以满足匹配字符串数据较大的情况。
发明内容
本公开提供了一种用于敏感文本的识别方法、装置、电子设备及存储介质。
根据本公开的第一方面,提供了一种敏感文本的识别方法,包括:获取样本敏感文本,并获取样本敏感文本中的多个敏感词;将多个敏感词与待检测文本进行匹配;响应于各敏感词均与待检测文本匹配成功,获取与待检测文本匹配的相邻两个敏感词在待检测文本中的间隔字符长度;响应于间隔字符长度均小于间隔字符长度阈值,确定待检测文本为敏感文本。
根据本公开的第二方面,提供了一种敏感文本的识别装置,包括:获取模块,用于获取样本敏感文本,并获取样本敏感文本中的多个敏感词;匹配模块,用于将多个敏感词与待检测文本进行匹配;采集模块,用于响应于各敏感词均与待检测文本匹配成功,获取与待检测文本匹配的相邻两个敏感词在待检测文本中的间隔字符长度;确认模块,用于响应于间隔字符长度均小于间隔字符长度阈值,确定待检测文本为敏感文本。
根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的敏感文本的识别方法。
根据本公开第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序/指令,所述计算机指令用于使所述计算机执行上述一方面实施例所述的敏感文本的识别方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述一方面实施例所述的敏感文本的识别方法。
通过判断样本敏感文本中的多个敏感词的间隔字符长度是否符合预设条件,确定待检测文本中是否包含样本敏感文本,由此可以解决复合敏感词无法在文本中检测的问题,提升文本检测的正确率和实用性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一种敏感文本的识别方法的流程示意图;
图2为本公开实施例提供的一种敏感文本的识别方法的字典树的结构示意图;
图3为本公开实施例提供的另一种敏感文本的识别方法的流程示意图;
图4为本公开实施例提供的一种敏感文本的识别方法的总体流程示意图;
图5为本公开实施例提供的一种敏感文本的识别装置的结构示意图;
图6为根据本公开实施例的敏感文本的识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本公开实施例的敏感文本的识别方法、装置和电子设备。
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。
智能搜索是结合了人工智能技术的新一代搜索引擎。他除了能提供传统的快速检索、相关度排序等功能,还能提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能信息化过滤和推送等功能。
当前技术中,通常采取两种方法进行敏感词的匹配,一种是采用正则表达式进行匹配,适合逻辑简单,匹配字符串不大性能要求不高情况。这种方法只能实现较为简单的搜索,对于搜索场景下几十万匹配串,高性能的场景下(响应时间均值不能超过50ms)不适合。另一种是精准匹配采用字符串匹配算法(The Knuth-Morris-Pratt Algorithm,KMP)或者单词查找树(trie tree)或者多模匹配算法(Aho-Corasick automaton),可以满足匹配字符串数据较大的情况。这三种算法不具备复合敏感词组合模式,具有很大的局限性。因此,需要一种既能处理较大数据量的匹配量且能够对复合敏感词进行识别的方法。
图1为本公开实施例提供的一种敏感文本的识别方法的流程示意图。
如图1所示,该敏感文本的识别方法,可包括:
S101,获取样本敏感文本,并获取样本敏感文本中的多个敏感词。
敏感文本一般是指带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明语,在一些实施例中,也可根据实际情况去设定一些只适用于当前场景的特殊敏感词,举例来说,可包含具体某个人的姓名或者某个具体的地点或者时间等。
样本敏感文本可包含一个或者多个敏感词,在本公开实施例中,主要是针对复合敏感词,因此本公开实施例中的样本敏感文本包含多个敏感词。
需要说明的是,本公开实施例中的样本敏感文本为多个敏感词组合在一起时,才具有敏感的特性。举例来说,样本敏感文本为ABC,包括敏感词A、B和C,只有当ABC组合在一起时,才具有敏感特性,只存在A或B或C的情况,或者A、B和C两两组合的情况可能不具备敏感特性。
获取样本敏感文本的方法可为多种,此处不作任何限定。举例来说,样本敏感文本可存储在电子设备的存储空间中,例如数据库中,以方便在进行敏感词检索时调取使用,可选地,样本敏感文本也可为使用者在检索时进行输入的。
在本公开实施例中,样本敏感文本可为变化的,即敏感词检测的规则可为变化的,用户可通过输入或者选择不同的样本敏感文本来实现对不同的样本敏感文本进行检测的目的,可选地,还可在系统中存储一系列的样本敏感文本,按照先后顺序分别获取,以对待检测文本进行检测。
可选的,还可通过热加载的方式获取样本敏感文本,通过周期性地检测是否存在新的样本敏感文本,当出现新的样本敏感文本时,即可基于新的样本敏感文本对待检测文本进行敏感词的检测。
在获取到样本敏感文本后,可基于NLP技术将样本敏感文本分解为多个敏感词。
可选地,敏感词还可为在生成敏感文本时已经确定好的,举例来说,用户可基于人机交互界面选取已经存储在处理器中的敏感词,然后生成敏感文本。
进一步地,在获取到样本敏感文本后,还可对样本敏感文本进行处理,以生成符合要求的样本敏感文本。
可选地,可对样本敏感文本进行格式处理和语言转换以生成统一的格式或者语言,方便进行处理,举例来说,可将样本敏感文本转换成单词查找树(trie tree),以方便后续通过匹配算法进行匹配。
可选地,还可对样本敏感文本进行过滤,以过滤掉无用的信息,提升后续敏感词匹配的效率和准确性。
S102,将多个敏感词与待检测文本进行匹配。
在本公开实施例中,待检测文本可为多种,举例来说可为网站内容,也可为一段网文,也可为使用者输入的一段文本,此处不作任何限定,具体可根据实际情况而定。
在获取到多个敏感词后,可分别将敏感词一一与待检测文本进行匹配,也可同时将多个敏感词与待检测文本进行匹配,具体的匹配规则需要根据实际情况进行设定,此处不作任何限定。
需要说明的是,匹配方法可为多种,举例来说,可采用正则表达式进行匹配,还可采用字符串匹配算法(The Knuth-Morris-Pratt Algorithm,KMP)、单词查找树(trietree)和多模匹配算法(Aho-Corasick automaton)等,此处不做任何限定。
S103,响应于各敏感词均与待检测文本匹配成功,获取与待检测文本匹配的相邻两个敏感词在待检测文本中的间隔字符长度。
在各敏感词均与待检测文本匹配成功后,为了防止匹配结果中出现误判断,需要确定相邻两个敏感词之间的间隔字符长度,以防止出现误判断。举例来说,在一个较大的待检测文本中,样本敏感文本中的多个敏感词A、B、C、D、E均与待检测文本匹配成功,但是当A、B、C、D、E之间的间隔字符长度较长时,可存在A、B、C、D、E分别应用于不同的场景或者句义中的可能,这种情况下,不能以A、B、C、D、E匹配成功而判定待检测文本中包含样本敏感文本。
S104,响应于间隔字符长度均小于间隔字符长度阈值,确定待检测文本为敏感文本。
需要说明的是,间隔字符长度阈值可为提前设定好的,并可根据实际的需要进行变化。当间隔字符长度均小于间隔字符长度阈值时,可认为样本敏感文本中的多个敏感词应用于同一场景或者句义中,以此可以确定待检测文本包含样本敏感文本。
在本公开实施例中,首先获取样本敏感文本,并获取样本敏感文本中的多个敏感词,然后将多个敏感词与待检测文本进行匹配,而后响应于各敏感词均与待检测文本匹配成功,获取与待检测文本匹配的相邻两个敏感词在待检测文本中的间隔字符长度,最后响应于间隔字符长度均小于间隔字符长度阈值,确定待检测文本为敏感文本。通过判断样本敏感文本中的多个敏感词的间隔字符长度是否符合预设条件,确定待检测文本中是否包含样本敏感文本,由此可以解决复合敏感词无法在文本中检测的问题,提升文本检测的正确率和实用性。
响应于存在任一所述间隔字符长度大于或者等于所述间隔字符长度阈值,确定所述待检测文本不包含所述样本敏感文本。由此,通过对敏感词的间隔字符长度进行判断,可以准确的确定各敏感词之间是否匹配,增加敏感文本匹配的准确性。进一步的,在获取到匹配结果后,可将匹配结果通报给使用者,举例来说,可通过人机交互页面展示给使用者,也可通过声音或者图片的形式告知使用检索结果。
需要说明的是,在对一些网站进行基于样本敏感文本检测时,由于网站产生的待检测文本可为百万级文本或者千万级文本,如果只进行一次基于样本敏感文本检测,效率较低且检测时间较长,因此需要将该待检测文本进行分割,同时进行处理,以增加敏感文本匹配的效率。
在本公开实施例中,可通过获取待检测文本的文本大小,响应于文本大小大于文本大小阈值,将待检测文本分割成多个小于或者等于文本大小阈值的目标文本。通过将规模较大的待检测文本进行分割并分别处理的方法,可以提升敏感文本与待检测文本匹配的效率。文本大小阈值可为提前设定好的,并可根据实际的设计需要进行限定,此处不作任何限定。
需要说明的是,对规模较大待检测文本,本公开实施例中采用多模匹配算法进行匹配,在进行多模匹配算法前,需要先将基于待检测文本生成待检测文本对应的字典树,字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计,可基于多模匹配算法在检测文本中的单词查找树中查询样本敏感文本。如图2所示,样本敏感文本为HERO,则每个敏感词为H、E、R和O,基于多模匹配算法在字典树中进行匹配,并进行标记。由此,通过生成待检测文本对应的字典树,并利用多模匹配算法进行匹配,可以在对复合敏感词进行匹配的同时,可以对规模较大的文本进行匹配,增加了本公开的实用性。
在本公开实施例中,获取样本敏感文本,可首先周期性地获取候选敏感文本,然后将候选敏感文本与当前样本敏感文本进行比对,响应于候选敏感文本与样本敏感文本不同,将候选敏感文本替换样本敏感文本。通过这种周期性的获取样本敏感文本,可以增加样本敏感文本对待检测文本检测的时效性,增加检测效率,同时可以实现自动匹配,降低了匹配的成本。需要说明的是,获取候选敏感文本的周期可根据实际设计需要进行设定,此处不作任何限定。
上述实施例中,将敏感词与待检测文本进行匹配,还可通过图3进一步解释,该方法包括:
S301,根据各敏感词在样本敏感文本中所处的位置,对各敏感词进行排序,以得到排序序列。
在本公开实施例中,样本敏感文本具有一定的语义。可以理解的是,只有当样本敏感文本中各敏感词按照一定顺序进行排列时,组成的样本敏感文本才能表示出该语义。
因此在匹配时,需要按照敏感词在样本敏感文本中所处的位置来进行匹配。举例来说,样本敏感文本为“我去幼儿园”,其中包含的敏感词包括“我”、“去”、“幼儿园”,如果不按敏感词在样本敏感文本中的顺序进行匹配,存在匹配到的文本包括“幼儿园我去”、“我幼儿园去”等等,可以看出,匹配到的文本与原样本敏感文本的原始语义完全不同。
在本公开实施例中,排序的方法可为多种,举例来说,可根据各敏感词在样本敏感文本中所处的位置进行正向排序、逆向排序等,此处不作任何限定。
S302,基于排序序列将多个敏感词分别与待检测文本进行匹配。
在本公开实施例中,敏感词的数量为n个,基于排序序列将多个敏感词分别与待检测文本进行匹配,包括:获取排序序列中的第i个敏感词与待检测文本进行匹配,i小于等于n;确定待检测文本中与第i-1个敏感词匹配的词所处的匹配位置,并将第i个敏感词与匹配位置之后剩余的待检测文本进行匹配;响应于第i个敏感词匹配成功,将第i+1个敏感词与待检测文本进行匹配,直至n个敏感词均匹配成功;响应于第i个敏感词匹配失败,确定待检测文本为非敏感文本。
需要说明的是,当排序序列中第一个敏感词进行匹配时,无需再获取匹配位置,可以直接与待检测文本进行匹配。通过标记匹配位置的方式,可以保证样本敏感文本与待检测文本匹配成功时,敏感词的顺序与样本敏感文本中的顺序相同,以此,可以保证匹配成功时样本敏感文本在待检测文本中仍能够保持原本的语义。
在本公开实施例中,首先根据各敏感词在样本敏感文本中所处的位置,对各敏感词进行排序,以得到排序序列,然后基于排序序列将多个敏感词分别与待检测文本进行匹配。通过对敏感词进行排序,然后基于排序与待检测文本进行匹配的方式,可以保证样本敏感文本与待检测文本匹配的准确性,提升匹配的效率。
图4为本公开实施例整体的流程示意图,如图4所示,首先获取样本敏感文本,并获取样本敏感文本中的多个敏感词,获取敏感词在样本敏感文本中的排序序列,基于排序序列将多个敏感词分别与待检测文本进行匹配,响应于匹配失败,确定待检测文本不包含样本敏感文本;响应于各敏感词均与待检测文本匹配成功,获取相邻两个敏感词之间的间隔字符长度,如果间隔字符长度均小于间隔字符长度阈值,确定待检测文本为敏感文本,如果存在间隔字符长度大于间隔字符长度阈值,确定待检测文本为非敏感文本。
与上述几种实施例提供的敏感文本的识别方法相对应,本公开的一个实施例还提供了一种敏感文本的识别装置,由于本公开实施例提供的敏感文本的识别装置与上述几种实施例提供的敏感文本的识别方法相对应,因此上述敏感文本的识别方法的实施方式也适用于本公开实施例提供的敏感文本的识别装置,在下述实施例中不再详细描述。
图5为本公开实施例提供的一种敏感文本的识别装置的结构示意图。如图所示,敏感文本的识别装置500包括获取模块510、匹配模块520、采集模块530和确认模块540。
其中,获取模块510,用于获取样本敏感文本,并获取样本敏感文本中的多个敏感词。
匹配模块520,用于将多个敏感词与待检测文本进行匹配。
采集模块530,用于响应于各敏感词均与待检测文本匹配成功,获取与待检测文本匹配的相邻两个敏感词在待检测文本中的间隔字符长度。
确认模块540,用于响应于间隔字符长度均小于间隔字符长度阈值,确定待检测文本为敏感文本。
在本公开的一个实施例中,匹配模块520,还用于:根据各敏感词在样本敏感文本中所处的位置,对各敏感词进行排序,以得到排序序列;基于排序序列将多个敏感词分别与待检测文本进行匹配。
在本公开的一个实施例中,敏感词的数量为n个,匹配模块520,还用于:获取排序序列中的第i个敏感词,i小于等于n;确定待检测文本中与第i-1个敏感词匹配的词所处的匹配位置,并将第i个敏感词与匹配位置之后剩余的待检测文本进行匹配;响应于第i个敏感词匹配成功,将第i+1个敏感词与待检测文本进行匹配,直至n个敏感词均匹配成功;响应于第i个敏感词匹配失败,确定待检测文本为非敏感文本。
在本公开的一个实施例中,获取模块510,还用于:周期性地获取候选敏感文本;将候选敏感文本与当前样本敏感文本进行比对;响应于候选敏感文本与样本敏感文本不同,将候选敏感文本替换样本敏感文本。
在本公开的一个实施例中,获取模块510,还用于:获取待检测文本的文本大小;响应于文本大小大于文本大小阈值,将待检测文本分割成多个小于或者等于文本大小阈值的目标文本。
在本公开的一个实施例中,确认模块540,还用于:响应于存在任一间隔字符长度大于或者等于间隔字符长度阈值,确定待检测文本为非敏感文本。
在本公开的一个实施例中,获取模块510,还用于:基于待检测文本生成待检测文本对应的字典树。
在本公开的一个实施例中,匹配模块520,还用于:对敏感词与字典树基于多模匹配算法进行匹配。
本公开的技术方案中,所涉及的敏感文本和敏感词的获取,存储和匹配等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序/指令或者从存储单元606载到随机访问存储器(RAM)603中的计算机程序/指令,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如敏感文本的识别方法。例如,在一些实施例中,敏感文本的识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元606些实施例中,计算机程序/指令的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序/指令加载到RAM 603并由计算单元601执行时,可以执行上文描述的敏感文本的识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行敏感文本的识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序/指令中,该一个或者多个计算机程序/指令可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序/指令来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种敏感文本的识别方法,包括:
获取样本敏感文本,并获取所述样本敏感文本中的多个敏感词;
将多个所述敏感词与待检测文本进行匹配;
响应于各所述敏感词均与所述待检测文本匹配成功,获取与所述待检测文本匹配的相邻两个所述敏感词在所述待检测文本中的间隔字符长度;
响应于所述间隔字符长度均小于间隔字符长度阈值,确定所述待检测文本为敏感文本。
2.根据权利要求1所述的方法,其中,所述将多个所述敏感词与待检测文本进行匹配,包括:
根据各所述敏感词在所述样本敏感文本中所处的位置,对各所述敏感词进行排序,以得到排序序列;
基于所述排序序列将多个所述敏感词分别与所述待检测文本进行匹配。
3.根据权利要求2所述的方法,其中,所述敏感词的数量为n个,所述基于所述排序序列将多个所述敏感词分别与所述待检测文本进行匹配,包括:
获取所述排序序列中的第i个所述敏感词,i小于等于n;
确定所述待检测文本中与第i-1个所述敏感词匹配的词所处的匹配位置,并将第i个所述敏感词与所述匹配位置之后剩余的所述待检测文本进行匹配;
响应于第i个所述敏感词匹配成功,将第i+1个所述敏感词与所述待检测文本进行匹配,直至n个敏感词均匹配成功;
响应于第i个所述敏感词匹配失败,确定所述待检测文本为非敏感文本。
4.根据权利要求1所述的方法,其中,所述获取样本敏感文本,包括:
周期性地获取候选敏感文本;
将所述候选敏感文本与当前所述样本敏感文本进行比对;
响应于所述候选敏感文本与所述样本敏感文本不同,将所述候选敏感文本替换所述样本敏感文本。
5.根据权利要求1所述的方法,其中,还包括:
获取所述待检测文本的文本大小;
响应于所述文本大小大于文本大小阈值,将所述待检测文本分割成多个小于或者等于所述文本大小阈值的目标文本。
6.根据权利要求1所述的方法,其中,还包括:
响应于存在任一所述间隔字符长度大于或者等于所述间隔字符长度阈值,确定所述待检测文本为非敏感文本。
7.根据权利要求1所述的方法,其中,在获取所述待检测文本之后,还包括:
基于所述待检测文本生成所述待检测文本对应的字典树。
8.根据权利要求7所述的方法,其中,将所述敏感词与所述待检测文本进行匹配,还包括:
对所述敏感词与所述字典树基于多模匹配算法进行匹配。
9.一种敏感文本的识别装置,包括:
获取模块,用于获取样本敏感文本,并获取所述样本敏感文本中的多个敏感词;
匹配模块,用于将多个所述敏感词与待检测文本进行匹配;
采集模块,用于响应于各所述敏感词均与所述待检测文本匹配成功,获取与所述待检测文本匹配的相邻两个所述敏感词在所述待检测文本中的间隔字符长度;
确认模块,用于响应于所述间隔字符长度均小于间隔字符长度阈值,确定所述待检测文本为敏感文本。
10.根据权利要求9所述的装置,其中,所述匹配模块,还用于:
根据各所述敏感词在所述样本敏感文本中所处的位置,对各所述敏感词进行排序,以得到排序序列;
基于所述排序序列将多个所述敏感词分别与所述待检测文本进行匹配。
11.根据权利要求10所述的装置,其中,所述敏感词的数量为n个,所述匹配模块,还用于:
获取所述排序序列中的第i个所述敏感词,i小于等于n;
确定所述待检测文本中与第i-1个所述敏感词匹配的词所处的匹配位置,并将第i个所述敏感词与所述匹配位置之后剩余的所述待检测文本进行匹配;
响应于第i个所述敏感词匹配成功,将第i+1个所述敏感词与所述待检测文本进行匹配,直至n个敏感词均匹配成功;
响应于第i个所述敏感词匹配失败,确定所述待检测文本为非敏感文本。
12.根据权利要求9所述的装置,其中,所述获取模块,还用于:
周期性地获取候选敏感文本;
将所述候选敏感文本与当前所述样本敏感文本进行比对;
响应于所述候选敏感文本与所述样本敏感文本不同,将所述候选敏感文本替换所述样本敏感文本。
13.根据权利要求9所述的装置,其中,所述获取模块,还用于:
获取所述待检测文本的文本大小;
响应于所述文本大小大于文本大小阈值,将所述待检测文本分割成多个小于或者等于所述文本大小阈值的目标文本。
14.根据权利要求9所述的装置,其中,所述确认模块,还用于:
响应于存在任一所述间隔字符长度大于或者等于所述间隔字符长度阈值,确定所述待检测文本为所述非敏感文本。
15.根据权利要求9所述的装置,其中,所述获取模块,还用于:
基于所述待检测文本生成所述待检测文本对应的字典树。
16.根据权利要求15所述的装置,其中,所述匹配模块,还用于:
对所述敏感词与所述字典树基于多模匹配算法进行匹配。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的敏感文本的识别方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的敏感文本的识别方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的敏感文本的识别方法。
CN202210768483.4A 2022-07-01 2022-07-01 敏感文本的识别方法、装置、电子设备及存储介质 Pending CN115017898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210768483.4A CN115017898A (zh) 2022-07-01 2022-07-01 敏感文本的识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210768483.4A CN115017898A (zh) 2022-07-01 2022-07-01 敏感文本的识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115017898A true CN115017898A (zh) 2022-09-06

Family

ID=83079700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210768483.4A Pending CN115017898A (zh) 2022-07-01 2022-07-01 敏感文本的识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115017898A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822496A (zh) * 2023-06-02 2023-09-29 厦门她趣信息技术有限公司 一种社交信息违规检测方法、系统及存储介质
CN117332039A (zh) * 2023-09-20 2024-01-02 鹏城实验室 文本检测方法、装置、设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822496A (zh) * 2023-06-02 2023-09-29 厦门她趣信息技术有限公司 一种社交信息违规检测方法、系统及存储介质
CN116822496B (zh) * 2023-06-02 2024-04-19 厦门她趣信息技术有限公司 一种社交信息违规检测方法、系统及存储介质
CN117332039A (zh) * 2023-09-20 2024-01-02 鹏城实验室 文本检测方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN113705187B (zh) 预训练语言模型的生成方法、装置、电子设备和存储介质
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN112966522A (zh) 一种图像分类方法、装置、电子设备及存储介质
US11354501B2 (en) Definition retrieval and display
CN115017898A (zh) 敏感文本的识别方法、装置、电子设备及存储介质
CN112528677B (zh) 一种语义向量提取模型的训练方法、装置及电子设备
CN114861677B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN114724156A (zh) 表单识别方法、装置及电子设备
CN114662469B (zh) 情感分析方法、装置、电子设备及存储介质
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN113221566B (zh) 实体关系抽取方法、装置、电子设备和存储介质
CN115455416A (zh) 一种恶意代码检测方法、装置、电子设备及存储介质
CN113221035A (zh) 用于确定异常网页的方法、装置、设备、介质和程序产品
CN113792546A (zh) 语料库的构建方法、装置、设备以及存储介质
CN117077678B (zh) 一种敏感词识别方法、装置、设备及介质
CN114201607B (zh) 一种信息处理的方法和装置
CN113656592B (zh) 基于知识图谱的数据处理方法、装置、电子设备和介质
CN114781409B (zh) 文本的翻译方法、装置、电子设备和存储介质
CN115455179B (zh) 敏感词汇检测方法、装置、设备及存储介质
CN114186552B (zh) 文本分析方法、装置、设备及计算机存储介质
CN114064847A (zh) 一种文本检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination